flowchart LR
IMG[Pre-grasp RGB image] --> VENC[Frozen ResNet<br/>Visual Encoder]
SRV[Servo signals:<br/>position, load,<br/>current, velocity] --> PENC[Temporal<br/>Proprio Encoder]
VENC --> V["Visual tokens V"]
PENC --> P["Proprio tokens P_tok"]
V --> VPOOL[Avg Pool -> v_g]
P --> PPOOL[Masked Pool -> p_g]
VPOOL --> GATE[Conflict Estimator:<br/>MLP + Sigmoid]
PPOOL --> GATE
GATE --> G["gate g in 0..1"]
G --> GV[Visual Gating:<br/>g*V + 1-g * v_null]
V --> GV
GV --> VT["Gated visual tokens"]
VT --> TR[Shared Transformer<br/>Encoder + CLS]
P --> TR
TR --> M[mass]
TR --> S[stiffness]
TR --> U[material]
PPOOL --> AUX[Proprio Auxiliary Heads]
AUX --> AM[mass]
AUX --> AS[stiffness]
AUX --> AU[material]
๐Gating-Based Vision-Proprioception Fusion
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ก๋ด์ด ๋ฌผ๊ฑด์ ์ง์ด ๋ค ๋, ์ฌ๋์ ๋์ผ๋ก ๋ณธ ์ ๋ณด(๊ฒ๋ชจ์ต, ์, ์ง๊ฐ)์ ์์ผ๋ก ๋๋ ์ ๋ณด(๋ฌด๊ฒ, ๋จ๋จํจ, ์ฌ์ง)๋ฅผ ๊ฑฐ์ ๋ฌด์์์ ์ผ๋ก ํฉ์ณ์ โ์ด๊ฑด ๋ฌด๊ฒ๊ณ ๋จ๋จํ ๊ธ์ ์ปต์ด๋คโ ๊ฐ์ ํ๋จ์ ๋ด๋ฆฝ๋๋ค. ๋ฌธ์ ๋, ๊ฒ๋ชจ์ต์ด ๋ฌผ๋ฆฌ์ ์์ฑ์ ํญ์ ์ ์งํ๊ฒ ์๋ ค์ฃผ์ง๋ ์๋๋ค๋ ์ ์ ๋๋ค. ๋๊ฐ์ด ์๊ธด ๋ ๋ฌผ์ฒด๊ฐ ๋ฌด๊ฒยท๊ฐ์ฑยท์ฌ์ง์์ ์์ ํ ๋ค๋ฅผ ์ ์์ต๋๋ค. ๋น ํํธ๋ณ๊ณผ ๋ฌผ์ด ๊ฐ๋ ์ฐฌ ํํธ๋ณ์ ์ฌ์ง์ ๊ฑฐ์ ๊ตฌ๋ถ๋์ง ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ(๋งจ์ฒด์คํฐ ๋ํ, ICRA 2026 ViTac ์ํฌ์, Paper ID 8)์ด ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ ์ง๋ฌธ์ด ๋ฐ๋ก ์ด๊ฒ์ ๋๋ค.
โ๊ฒ๋ชจ์ต์ด ๋ ์ด์ ๋ฌผ๋ฆฌ์ ์์ฑ์ ์์ธกํด ์ฃผ์ง ๋ชปํ ๋, ๋ก๋ด์ด ๋ฌผ์ฒด์ ์ง๋(mass)ยท๊ฐ์ฑ(stiffness)ยท์ฌ์ง(material)์ ๋ถ๋ฅํ ์ ์๋๊ฐ?โ
์ด ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด ์ ์๋ค์ ๋ ๊ฐ์ง๋ฅผ ์ ์ํฉ๋๋ค.
- ์ ๋น์ฉ ์๊ฐ-๊ณ ์ ์์ฉ๊ฐ๊ฐ ์ตํฉ(low-cost visuo-proprioceptive fusion): GelSight๋ฅ ๊ดํ ์ด๊ฐ์ด๋ force-torque ์ผ์ ๊ฐ์ ๋น์ธ๊ณ ๊นจ์ง๊ธฐ ์ฌ์ด ์ ์ฉ ์ด๊ฐ ํ๋์จ์ด ์์ด, ๋ก๋ด ํ์ ์ด๋ฏธ ๋ด์ฅ๋ ์๋ณด ๋ชจํฐ์ ๋ด๋ถ ์ ํธ(position, load, current, velocity)๋ง์ผ๋ก ์ด๊ฐ์ ์ฆ๊ฑฐ๋ฅผ ๋์ฒดํฉ๋๋ค. ์ฌ๊ธฐ์ grasp ์ง์ ์ ์ฐ์ ๋จ ํ ์ฅ์ top-down RGB ์ฌ์ง์ ๋ํฉ๋๋ค.
- ๊ฒ์ดํ ๊ธฐ๋ฐ ์ ์์ ์ตํฉ(gating-based fusion): ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์ถฉ๋(conflict)ํ ๋, ์ฆ ์๊ฐ์ด ๊ฑฐ์ง๋ง์ ํ ๋, ์๊ฐ ์ฆ๊ฑฐ๋ฅผ ๋์ ์ผ๋ก ์ต์ (suppress)ํ๋ ๊ฒ์ดํธ๋ฅผ ํ์ตํฉ๋๋ค.
ํต์ฌ ๋๊ธฐ โ โ๊ฒ๋ชจ์ต์ ๋ฌผ๋ฆฌ์ ์ ๋ขฐํ ์ ์๋ ๋๋ฆฌ์งํโ
๋น์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์๋ฏธ๋ก ์ ์ถ๋ก (semantic reasoning)์ด ๊ฐํด์ ์์์ ์ผ๋ก ์์ฑ์ ์ถ์ ํ ์ ์์ต๋๋ค(์: โ๋ฒฝ๋์ฒ๋ผ ์๊ฒผ์ผ๋ ๋ฌด๊ฒ๊ฒ ์งโ). ํ์ง๋ง ์ด๋ ์ธ์๊ณผ ๋ฌผ๋ฆฌ ์์ฑ ์ฌ์ด์ ๊ฐ์ง ์๊ด(spurious correlation)์ ์์กดํฉ๋๋ค. ๊ทธ ๊ฐ์ง ์๊ด์ด ๊นจ์ง๋ ์๊ฐ โ ๊ฐ๋ฒผ์ด ๊ฐ์ง ๋ฒฝ๋, ๋ง๋ํ ๊ธ์์ ๋ฌผ์ฒด โ ๋น์ ๋ชจ๋ธ์ ๋ฌด๋์ง๋๋ค.
์ด๊ฐ ์ผ์๋ ๋ ์ง์ ์ ์ด๊ณ ์ ๋ขฐํ ๋งํ ๋ฌผ๋ฆฌ ์ฆ๊ฑฐ๋ฅผ ์ฃผ์ง๋ง ๋น์๋๋ค. ์ ์๋ค์ ํต์ฐฐ์ โ๋ก๋ด ํ์ ์๋ณด ์ ํธ ์์ฒด๊ฐ ์ฌ์ค์ ๊ณต์ง์ธ ์ด๊ฐ ์ฑ๋โ์ด๋ผ๋ ๊ฒ์ ๋๋ค. ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ๋ค์ด ์ฌ๋ฆฌ๋ ๋์ ๋ชจํฐ๊ฐ ๊ฒช๋ ๋ถํ(load), ์ ๋ฅ(current), ์์น(position), ์๋(velocity)์ ์๊ณ์ด์๋ ๋ฌด๊ฒ์ ๋ณํ์ฑ์ ํ์ ์ด ๊ณ ์ค๋ํ ๋จ์ต๋๋ค.
์ โ๊ฒ์ดํ โ์ด ํ์ํ๊ฐ โ ์ง๊ด
๋ ๊ฐ๊ฐ์ ํฉ์น๋ ๊ฐ์ฅ ํํ ๋ฐฉ๋ฒ์ ๊ทธ๋ฅ ์ด์ด ๋ถ์ด๋ ๊ฒ(concatenation, vanilla fusion)์ ๋๋ค. ํ์ง๋ง ์ด๋ โ๋ ์๋ฌธ๊ฐ์ ์๊ฒฌ์ ํญ์ ๋๊ฐ์ ๋น์จ๋ก ์๋โ ์ ์ด๋ผ, ํ์ชฝ์ด ๊ฑฐ์ง๋ง์ ํ ๋ ๊ทธ ์ค์ผ์ด ๊ทธ๋๋ก ๊ฒฐ๊ณผ์ ์ค๋ฉฐ๋ญ๋๋ค. ์ค์ ๋ก ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์คํ ๊ฒฐ๊ณผ๊ฐ ์ด๋ฅผ ์ฆ๋ช ํฉ๋๋ค โ vanilla fusion์ ์๋ ๋ฌผ์ฒด(deceptive object)์์ ๋จ์ผ proprioception๋ณด๋ค๋ ์คํ๋ ค ๋ ๋๋น ์ง๋๋ค.
๊ฒ์ดํ ์ ๋น์ ํ์๋ฉด โ์๊ฐ ์ฆ์ธ์ด ๊ฑฐ์ง๋ง์ ํ๊ณ ์๋ค๊ณ ์์ฌ๋๋ฉด ๊ทธ ์ฆ์ธ์ ๋ฐ์ธ๊ถ์ ์ค์ด๋ ์ฌํ์ฅโ์ ๋๋ค. ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์๋ก ๋ชจ์๋ ๋ ์๊ฐ ํ ํฐ์ ํ์ต๋ null ํ ํฐ ์ชฝ์ผ๋ก ๋ฐ์ด๋ด, ์ ๋ขฐํ ์ ์๋ proprioception์ ๋ฌด๊ฒ๋ฅผ ์ฃ์ต๋๋ค.
๋ฐฉ๋ฒ
์ ์ฒด ํ์ดํ๋ผ์ธ
๋ชจ๋ธ์ (1) ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋ฉ โ (2) ํ ํฐ ๋ ๋ฒจ ๊ฒ์ดํ ์ตํฉ โ (3) ๊ณต์ Transformer๋ฅผ ํตํ ๋ค์ค ์์ ์์ธก์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋
- ์๊ฐ ๋ถ๊ธฐ(visual branch): ๋๊ฒฐ๋(frozen) ResNet ์ธ์ฝ๋๋ก grasp ์ง์ RGB ์ด๋ฏธ์ง์์ ์๊ฐ ํ ํฐ V \in \mathbb{R}^{N_v \times d}๋ฅผ ์ถ์ถํฉ๋๋ค. ๋๊ฒฐ์ด๋ผ๋ ์ ์ด โ์ ๋น์ฉโ์ ๋ ๋ค๋ฅธ ์ธก๋ฉด์ ๋๋ค โ ์ฌ์ ํ์ต๋ ๋ฐฑ๋ณธ์ ๊ทธ๋๋ก ์ฐ๊ณ ํ์ต ๋ถ๋ด์ ์ค์ ๋๋ค.
- ๊ณ ์ ์์ฉ๊ฐ๊ฐ ๋ถ๊ธฐ(proprioceptive branch): ์๊ฐ์ ์ธ์ฝ๋(temporal encoder)๊ฐ ์์ ์๋ณด ์ ํธ ์๊ณ์ด์ ๊ณ ์ ์์ฉ๊ฐ๊ฐ ํ ํฐ P_{tok} \in \mathbb{R}^{N_p \times d}๋ก ๋งคํํฉ๋๋ค. (baseline์์๋ ์ด ์๋ฆฌ์ 1D-CNN์ ์๋๋ค.)
์ฌ๊ธฐ์ N_v๋ ์๊ฐ ํ ํฐ ์, N_p๋ proprioceptive ํ ํฐ ์, d๋ ๊ณตํต ์๋ฒ ๋ฉ ์ฐจ์์ ๋๋ค.
๊ฒ์ดํ ์ ํต์ฌ โ ํ ํฐ ๋ ๋ฒจ ์๊ฐ ์ต์
์ด ๋ ผ๋ฌธ์ ๊ฒ์ดํ ์ ํํ โ๊ฐ์ค ํ๊ท ํฉโ ๋ฐฉ์๊ณผ ๋ฏธ๋ฌํ๊ฒ ๋ค๋ฆ ๋๋ค. ํต์ฌ์ ์๊ฐ ํ ํฐ์ ํ์ต๋ null ํ ํฐ์ผ๋ก ๋ณด๊ฐ(interpolation)ํด ์ต์ ํ๋ ๊ฒ์ ๋๋ค.
๋จผ์ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์์ฝ ๋ฒกํฐ๋ก ์์ถํฉ๋๋ค. ์๊ฐ ํ ํฐ์ global average pooling์ผ๋ก v_g๋ฅผ, proprioceptive ํ ํฐ์ padding์ ์ ์ธํ masked pooling์ผ๋ก p_g๋ฅผ ๋ง๋ญ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ ์์ฝ์ ์ด์ด ๋ถ์ฌ MLP + Sigmoid์ ํต๊ณผ์์ผ ์ค์นผ๋ผ ๊ฒ์ดํธ g \in (0,1)๋ฅผ ์ป์ต๋๋ค. ์ด ๋ชจ๋์ด ๋ฐ๋ก ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ชจ์ ์ ๋๋ฅผ ์ถ์ ํ๋ Conflict Estimator์ ๋๋ค.
g = \sigma\big(\mathrm{MLP}([\,v_g \,;\, p_g\,])\big), \qquad g \in (0,1)
๊ทธ๋ฆฌ๊ณ ์๊ฐ ํ ํฐ์ ๋ค์๊ณผ ๊ฐ์ด ๊ฒ์ดํ ํฉ๋๋ค.
\tilde{V} = g\,V + (1 - g)\,v_{\text{null}} \tag{1}
์ฌ๊ธฐ์ v_{\text{null}}์ ํ์ต ๊ฐ๋ฅํ null ํ ํฐ์ผ๋ก, ์๊ฐ ์ํ์ค ์ ์ฒด์ ๋ธ๋ก๋์บ์คํธ๋ฉ๋๋ค. ์ง๊ด์ ์ผ๋ก:
- g \to 1: โ์๊ฐ์ ๋ฏฟ์ด๋ผโ โ \tilde{V} \approx V (์๋ ์๊ฐ ํ ํฐ ์ ์ง)
- g \to 0: โ์๊ฐ์ด ๊ฑฐ์ง๋งํ๊ณ ์๋คโ โ \tilde{V} \approx v_{\text{null}} (์๊ฐ ํ ํฐ์ ์๋ฏธ ์๋ null๋ก ๋์ฒดํด ์ต์ )
์ด ์ค๊ณ์ ๋ฌ๋ฏธ๋, ์๊ฐ์ ๋จ์ํ โ์ฝํ๊ฒ ์๋โ ๊ฒ ์๋๋ผ ๋ชจ์ ์ํฉ์์ ํ์ต๋ ์ค๋ฆฝ ํ ํฐ์ผ๋ก ๊ฐ์๋ผ์ ์๊ฐ์ ๊ธฐ๋ง์ ์ ๋ณด๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ฐจ๋จํ๋ค๋ ์ ์ ๋๋ค.
๊ฒ์ดํ ๋ ์๊ฐ ํ ํฐ \tilde{V}, proprioceptive ํ ํฐ P_{tok}, ๊ทธ๋ฆฌ๊ณ ๋ถ๋ฅ์ฉ [CLS] ํ ํฐ์ ๋ชจ๋ ์ด์ด ๋ถ์ฌ ๊ณต์ Transformer ์ธ์ฝ๋์ ๋ฃ๊ณ , ์ฌ๊ธฐ์ ์ง๋ยท๊ฐ์ฑยท์ฌ์ง์ ๋์์ ์์ธกํฉ๋๋ค.
๋ณด์กฐ ๊ฐ๋ ๊ณผ ๊ฒ์ดํธ ์ ๊ทํ โ ์์ค ํจ์
๊ฒ์ดํ ์๋ ์ํ์ด ํ๋ ์์ต๋๋ค. ๋ง์ฝ ์๊ฐ์ด ์์ฃผ ๋์์ด ๋๋ฉด, proprioceptive ๋ถ๊ธฐ๊ฐ ๊ฒ์๋ฌ์ ธ์ ๋ ๋ฆฝ์ ์ธ ๋ฌผ๋ฆฌ ํํ์ ํ์ตํ์ง ๋ชปํ ์ ์์ต๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ๋ง๊ธฐ ์ํด proprioception๋ง์ผ๋ก ๋์ผ ํ๊น(์ง๋ยท๊ฐ์ฑยท์ฌ์ง)์ ์์ธกํ๋ ๋ณด์กฐ ํค๋(auxiliary head) 3๊ฐ๋ฅผ p_g์ ๋ถ์ ๋๋ค. ์ด๋ก์จ proprioceptive ๋ถ๊ธฐ๊ฐ ์๊ฐ์ ๊ธฐ๋์ง ์๊ณ ๋ ๋ฆฝ์ ์ผ๋ก ๋ณ๋ณ๋ ฅ ์๋ ํํ์ ์ ์งํ๋๋ก ๊ฐ์ ํฉ๋๋ค.
์ ์ฒด ์์ค์ ์ธ ํญ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
\mathcal{L} = \sum_{k \in \{m, s, u\}} \Big[ \mathcal{L}_{CE}(\hat{y}_k, y_k) + \lambda_{aux}\,\mathcal{L}_{CE}(\hat{y}_k^{aux}, y_k) + \lambda_{reg}\,R_{ent}(g) \Big] \tag{2}
์ฌ๊ธฐ์ m, s, u๋ ๊ฐ๊ฐ mass, stiffness, material(material์ ์ฝ์๋ก u ์ฌ์ฉ) ์์ ์ ๋๋ค.
- ์ฒซ์งธ ํญ: ์ฃผ ๋ถ๋ฅ ์์ค โ ์ตํฉ๋ ํํ์ผ๋ก ์ธ ์์ฑ์ ์์ธกํ๋ cross-entropy.
- ๋์งธ ํญ: ๋ณด์กฐ proprioceptive ์์ค โ proprioception๋ง์ผ๋ก ๊ฐ์ ํ๊น์ ๋งํ๊ฒ ํ๋ cross-entropy (\lambda_{aux}๋ก ๊ฐ์ค).
- ์ ์งธ ํญ: ๊ฒ์ดํธ ์ํธ๋กํผ ์ ๊ทํ R_{ent}(g) โ Bernoulli ์์ ์ํธ๋กํผ๋ฅผ ์ต์ํํ๋๋ฐ, ์ด๋ ๊ฒ์ดํธ๊ฐ ๋๋ฌด ์ผ์ฐ 0์ด๋ 1๋ก ํฌํ(premature saturation)๋๋ ๊ฒ์ ๋ง์ ํ์ต ์ด๊ธฐ์ ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ชจ๋ ํ์(cross-modal exploration)ํ๋๋ก ์ ๋ํฉ๋๋ค.
์์ฌ์ฝ๋
Input: pre-grasp image x_v, servo signal sequence x_p
V = FrozenResNet(x_v) # visual tokens, R^{Nv x d}
P_tok = TemporalEncoder(x_p) # proprio tokens, R^{Np x d}
v_g = avg_pool(V) # visual summary
p_g = masked_pool(P_tok) # proprio summary (ignore padding)
g = sigmoid(MLP(concat(v_g, p_g))) # conflict gate, scalar in (0,1)
V_tilde = g * V + (1 - g) * v_null # suppress visual tokens on conflict
tokens = concat(CLS, V_tilde, P_tok)
feat = Transformer(tokens)
y_main = heads(feat) # mass, stiffness, material
y_aux = aux_heads(p_g) # proprio-only predictions
return y_main์ ๋์ ๋ฐ์ดํฐ์ โ โ์๊ฐ์ ํจ์ โ
๋ฐฉ๋ฒ๋งํผ ์ค์ํ ๊ธฐ์ฌ๊ฐ ์ ๋์ ๋ฐ์ดํฐ์ (adversarial dataset)์ ๋๋ค. ์ ์๋ค์ 16๊ฐ์ ํน์ ์ ์ ๋ฌผ์ฒด๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค.
- ํ์ต ์ธํธ: ์๊ฐ ํน์ง(์, ์ง๊ฐ)์ด ๋ฌผ๋ฆฌ ์์ฑ(์ง๋ยท๊ฐ์ฑยท์ฌ์ง)๊ณผ ๊ฐํ๊ฒ ์๊ด๋๋๋ก ์ค๊ณ โ ์ฆ ๋ชจ๋ธ์ด โ๊ฒ๋ชจ์ต ์ง๋ฆ๊ธธ(visual shortcut)โ์ ๋ฐฐ์ฐ๋๋ก ์ผ๋ถ๋ฌ ์ ๋.
- ํ ์คํธ(unseen) ์ธํธ: ๊ทธ ์๊ด์ ์ผ๋ถ๋ฌ ๊นจ๋จ๋ฆผ โ ์์ปจ๋ ๋ฌด๊ฑฐ์ด ํ์ต ๋ฌผ์ฒด์ ์๊ฐ์ ์ผ๋ก ๋๊ฐ์ด ์๊ฒผ์ง๋ง ์ค์ ๋ก๋ ๊ฐ๋ฒผ์ด ๋ฌผ์ฒด.
๋ฐ์ดํฐ๋ ํ์คํ๋ ์๋ grasp-and-lift ์ ์ฐจ๋ก ์์งํ์ผ๋ฉฐ, 800๊ฐ ์ด์์ ์ํ์ ๋ชจ์์ต๋๋ค. ๊ฐ ์ํ์ grasp ์ง์ ์ ์ญ ์ฌ์ง ํ ์ฅ๊ณผ, ์ํธ์์ฉ ์ค ๊ธฐ๋ก๋ ๋ค์ฑ๋ ์๋ณด ์ ํธ(position, load, current, velocity) ๊ตฌ๊ฐ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
์ด ์ ๋์ ๋ถํ ๋๋ถ์, unseen ์ ํ๋๊ฐ ๋๋ค๋ ๊ฒ์ ๋จ์ํ ์ผ๋ฐํ๊ฐ ์๋๋ผ ์๋์ ์ธ ์๊ฐ ํธํฅ์ ๋ํ ์ ํญ๋ ฅ์ ์๋ฏธํ๊ฒ ๋ฉ๋๋ค.
์คํ
ํ๋กํ ์ฝ
์ธ ์์ฑ์ ๋์์ ์์ธกํ๋ ํตํฉ ์์ ์ผ๋ก ํ๊ฐํฉ๋๋ค.
- ์ง๋(mass): 3๊ฐ ํด๋์ค
- ๊ฐ์ฑ(stiffness): 4๊ฐ ํด๋์ค
- ์ฌ์ง(material): 5๊ฐ ํด๋์ค
์ธ ์์ ์ ํ๊ท ์ ํ๋๋ฅผ 5๊ฐ random seed์ ๊ฑธ์ณ ๋ณด๊ณ ํฉ๋๋ค. seen object๋ ํ์ต์ ๋ฑ์ฅํ ๋ฌผ์ฒด, unseen object๋ ์๊ฐ์ ์ผ๋ก ๊ธฐ๋ง์ ์ธ OOD ํ ์คํธ ์ธํธ์ ๋ฌผ์ฒด์ ๋๋ค.
๋น๊ต ๋์(baseline)
| Baseline | ์๊ฐ ์ฒ๋ฆฌ | ๊ณ ์ ์์ฉ๊ฐ๊ฐ ์ฒ๋ฆฌ | ์ตํฉ |
|---|---|---|---|
| Vision-only | ResNet-18 + Transformer | ์์ | - |
| Proprio-only | ์์ | 1D-CNN + Transformer | - |
| Vanilla Fusion | ResNet | 1D-CNN | ํ ํฐ concat (๊ฒ์ดํ ์์, early-fusion ๋ํ๊ฒฉ) |
| Ours (Gated Fusion) | Frozen ResNet | Temporal encoder | ๊ฒ์ดํ + ๋ณด์กฐ ๊ฐ๋ |
์ฃผ์ ๊ฒฐ๊ณผ โ Unseen Object
๋ ผ๋ฌธ Table I์ ํต์ฌ ์์น(mean ยฑ std, 5 seeds):
| Method | Seen-object | Unseen-object | Gate |
|---|---|---|---|
| Vision-only | 95.39 ยฑ 0.73 | 18.00 ยฑ 6.16 | โ |
| Proprio-only | 95.29 ยฑ 1.93 | 87.89 ยฑ 1.62 | โ |
| Vanilla Fusion | 99.31 ยฑ 0.73 | 85.56 ยฑ 8.39 | โ |
| Ours (Gated Fusion) | 99.71 ยฑ 0.59 | 97.61 ยฑ 3.68 | 0.589 |
์ฝ์ด๋ด์ผ ํ ์ :
- Vision-only์ ๋ถ๊ดด: seen์์๋ 95.39%์ง๋ง unseen์์๋ 18.00%๋ก ํญ๋ฝํฉ๋๋ค. 3-4-5 ํด๋์ค ์์ ์์ ๋๋ค ์ถ์ธก ์์ค์ ๊ฐ๊น์ต๋๋ค. ์๊ฐ ์ง๋ฆ๊ธธ์ ์์ ํ ์์กดํ๋ค๋ ๋ช ๋ฐฑํ ์ฆ๊ฑฐ์ ๋๋ค.
- Vanilla Fusion์ด Proprio-only๋ณด๋ค ๋์จ: 85.56% < 87.89%. ๋จ์ concat์ ์๊ฐ์ ๊ธฐ๋ง์ ์ ๋ณด๋ฅผ ๊ทธ๋๋ก ๋นจ์๋ค์ฌ ์คํ๋ ค proprioception ๋จ๋ ๋ณด๋ค ๋จ์ด์ง๋๋ค. ๊ฒ๋ค๊ฐ std๊ฐ 8.39๋ก ๋งค์ฐ ๋ถ์์ ํฉ๋๋ค. ์ด๊ฒ์ด โ๊ทธ๋ฅ ํฉ์น๋ฉด ๋๋คโ๋ ํต๋ ์ ๋ํ ๊ฐ๋ ฅํ ๋ฐ๋ก์ ๋๋ค.
- Gated Fusion์ ์น๋ฆฌ: unseen์์ 97.61% โ proprio-only(+9.72%p)์ vanilla fusion(+12.05%p)์ ๋ชจ๋ ํฌ๊ฒ ์์ญ๋๋ค. seen์์๋ 99.71%๋ก ceiling์ ๊ทผ์ ํฉ๋๋ค.
- ๊ฒ์ดํธ ๊ฐ 0.589: ํ๊ท ๊ฒ์ดํธ๊ฐ 0.5๋ณด๋ค ์ฝ๊ฐ ๋์, ์๊ฐ์ ์์ ํ ๋ฒ๋ฆฌ์ง ์์ผ๋ฉด์๋ ์ ํ์ ์ผ๋ก ์ ๋ขฐํจ์ ๋ณด์ฌ์ค๋๋ค.
์์ ๋ณ Unseen ์ ํ๋
| Method | Mass | Stiffness | Material |
|---|---|---|---|
| Vision-only | 17.17 ยฑ 6.55 | 17.83 ยฑ 6.84 | 19.00 ยฑ 5.15 |
| Proprio-only | 100.00 ยฑ 0.00 | 81.00 ยฑ 2.76 | 82.67 ยฑ 2.20 |
| Vanilla Fusion | 87.67 ยฑ 7.91 | 84.50 ยฑ 9.61 | 84.50 ยฑ 8.04 |
| Ours (Gated Fusion) | 100.00 ยฑ 0.00 | 95.17 ยฑ 7.61 | 97.67 ยฑ 3.43 |
ํด์:
- ์ง๋: proprioception ๋จ๋ ๋ง์ผ๋ก๋ unseen์์ 100% ์๋ฒฝ ์์ธก. ๋ฌผ์ฒด๋ฅผ ๋ค์ด ์ฌ๋ฆด ๋ ๋ชจํฐ ๋ถํ/์ ๋ฅ์ ๋ฌด๊ฒ๊ฐ ์ง์ ์ ์ผ๋ก ๋๋ฌ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฒ์ดํ ๋ 100%๋ฅผ ์ ์งํฉ๋๋ค.
- ๊ฐ์ฑยท์ฌ์ง: proprioception ๋จ๋ ์ 81%, 82.67%๋ก ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด ๋ ์์ฑ์ ์๊ฐ ์ ๋ณด(์ง๊ฐ, ๊ดํ)๊ฐ ๋ณด์์ ์ผ๋ก ์ ์ฉํ๋ฐ, ๊ฒ์ดํ ์ด ์ด๋ฅผ ์ ํ์ ์ผ๋ก ๋์ด์ 95.17%, 97.67%๋ก ๋์ด์ฌ๋ฆฝ๋๋ค.
- ์ฆ, โ์ง๋์ ๋ง์ง๋ฉด ์ ํํ์ง๋ง, ๊ฐ์ฑยท์ฌ์ง์ ์๊ฐ์ ๋์์ด ํ์ํ๋คโ๋ ์ง๊ด์, ๊ฒ์ดํ ์ด ์์ ๋ณ๋ก ์๋ ์กฐ์จํจ์ ๋ณด์ฌ์ค๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ฌธ์ ์ค์ ์ ๋ช ๋ฃํจ: โ๊ฒ๋ชจ์ต์ด ๊ฑฐ์ง๋งํ ๋โ๋ผ๋ ์๋๋ฆฌ์ค๋ฅผ ์ ๋์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ ๋ํํ ์ ์ด ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ์ ๋๋ค. Vision-only๊ฐ 18%๋ก ๋ถ๊ดดํ๋ ๋์กฐ๋ ์๊ฐ ์ง๋ฆ๊ธธ ๋ฌธ์ ๋ฅผ ์ค๋๋ ฅ ์๊ฒ ๋๋ฌ๋ ๋๋ค.
- ์ ๋น์ฉ ์ค์ฉ์ฑ: ์ถ๊ฐ ์ด๊ฐ ์ผ์ ์์ด ์๋ณด ์ ํธ + ์นด๋ฉ๋ผ ํ ์ฅ. ๊ธฐ์กด ๋งค๋ํฐ๋ ์ดํฐ์ ์ฆ์ ์ด์ ๊ฐ๋ฅํ๊ณ ์ฐ์ ์ ์ฉ ๋ฌธํฑ์ด ๋ฎ์ต๋๋ค.
- vanilla fusion์ ๋ํ ์ ์งํ ๋ฐ๋ก: โ๋จ์ ์ตํฉ์ ๋ง๋ฅโ์ด๋ผ๋ ํต๋ ์ ์๊ธฐ ์คํ์ผ๋ก ๋ฐ๋ฐํฉ๋๋ค(85.56% < 87.89%). ๊ฒ์ดํ ์ ํ์์ฑ์ ๋ฐ์ดํฐ๋ก ์ฆ๋ช ํ ์ ์ ๋๋ค.
- ํด์ ๊ฐ๋ฅ์ฑ: ๊ฒ์ดํธ ๊ฐ g ์์ฒด๊ฐ โ์ง๊ธ ์๊ฐ์ ์ผ๋ง๋ ๋ฏฟ์๋๊ฐโ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ง๋จ ์ ํธ์ ๋๋ค. ๋ณด๊ณ ๋ ํ๊ท 0.589๋ ์ ํ์ ์ ๋ขฐ๋ฅผ ์ ๋ํํฉ๋๋ค.
- null ํ ํฐ + ์ํธ๋กํผ ์ ๊ทํ: ๋จ์ ๊ฐ์คํฉ์ด ์๋๋ผ ํ์ต๋ null๋ก ์๊ฐ์ ๊ฐ์๋ผ์ฐ๋ ์ค๊ณ, ๊ทธ๋ฆฌ๊ณ ๊ฒ์ดํธ ์กฐ๊ธฐ ํฌํ๋ฅผ ๋ง๋ ์ ๊ทํ๋ ๊ฒ์ดํ ์ตํฉ ์ค๊ณ์์ ์ธ๋ จ๋ ๋ํ ์ผ์ ๋๋ค.
์ฝ์ ยทํ๊ณ
- ๋ฐ์ดํฐ์ ๊ท๋ชจ: 16๊ฐ ๋ฌผ์ฒด, 800์ฌ ์ํ์ ์ํฌ์ ๋ ผ๋ฌธ ๊ท๋ชจ๋ก๋ ํฉ๋ฆฌ์ ์ด์ง๋ง, ๋ฏธ์ง์ ๋ฌผ์ฒด ๋ฒ์ฃผยทํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ๋ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค. ์ ๋์ ๋ถํ ์ด 16๊ฐ ๋ฌผ์ฒด ์์์ ์ด๋ค์ง๋ฏ๋ก ๋ค์์ฑ์ด ์ ํ์ ์ ๋๋ค.
- ๋์ ๋ถ์ฐ: Gated Fusion์ unseen ์ ํ๋ std๊ฐ 3.68(material์ 3.43, stiffness๋ 7.61)๋ก ์์ง ์์ต๋๋ค. seed๋ณ ๋ณ๋์ด ์ปค์, ์ ์ ๋ฐ์ดํฐ์์ ๊ฒ์ดํ ํ์ต์ด ๋ถ์์ ํ ์ ์์์ ์์ฌํฉ๋๋ค.
- proprioception์ ๋ณธ์ง์ ์ ์ฝ: ์๋ณด ์ ํธ๋ ์ ์ด ํ์์ผ ์๋ฏธ๊ฐ ์๊น๋๋ค. grasp-and-lift๋ฅผ ๋ฐ๋์ ์ํํด์ผ ํ๋ฏ๋ก, โ๋ณด๊ธฐ๋ง ํ๊ณ ์ถ์ โํ๋ ๋น์ ์ด ์ฌ์ ์์ธก์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๋ ๊ฒฐ๊ณผ๋ ์ฌ์ฉํ ๋ก๋ดยท๊ทธ๋ฆฌํผ์ ์ผ์ฑ ํด์๋์ ์์กดํฉ๋๋ค.
- ๊ฒ์ดํธ๊ฐ ์ค์นผ๋ผ: sample-wise ์ค์นผ๋ผ ๊ฒ์ดํธ๋ ๋จ์ํ๊ณ ํด์ํ๊ธฐ ์ฝ์ง๋ง, ์ฑ๋๋ณ/ํ ํฐ๋ณ๋ก ๋ ์ธ๋ฐํ๊ฒ ์๊ฐ์ ์ต์ ํ ์ฌ์ง๋ ๋จ์ ์์ต๋๋ค. (๋ ผ๋ฌธ์ด ์๋์ ์ผ๋ก ๋จ์ํจ์ ํํ trade-off๋ก ๋ณด์)
- ์ธ๋ถ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏธ๊ณต๊ฐ: \lambda_{aux}, \lambda_{reg}, ํ ํฐ ์ N_v, N_p, ์๋ฒ ๋ฉ ์ฐจ์ d ๋ฑ ๊ตฌ์ฒด๊ฐ์ ๋ณธ๋ฌธ์์ ๋ช ์๋์ง ์์์ต๋๋ค. (์ถ์ธก) ์ํฌ์ short paper ๋ถ๋ ์ ์ฝ ๋๋ฌธ์ผ๋ก ๋ณด์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
- ์ด๊ฐ/force-torque ๊ธฐ๋ฐ ์์ฑ ์ถ์ [5,6,7]: ์ ๋ฐํ์ง๋ง ๊ณ ๊ฐยท์ทจ์ฝํ ํ๋์จ์ด๊ฐ ํ์. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ๋ด์ฅ ์๋ณด ์ ํธ๋ก ๋์ฒด/๊ทผ์ฌํ๋ ์ ๋น์ฉ ๋ ธ์ ์ ๋๋ค.
- ๋น์ ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์ถ๋ก [3] GaussianProperty, [4] Tactile-Vision-Language ๋ชจ๋ธ: ๊ฐ๋ ฅํ ์๋ฏธ๋ก ์ ์ถ๋ก ์ ๊ฐ์ง๋ง ์ธ์-๋ฌผ๋ฆฌ ๊ฐ์ง ์๊ด์ ์ทจ์ฝ. ๋ณธ ๋ ผ๋ฌธ์ ์ ๋์ ๋ฐ์ดํฐ์ ์ ๋ฐ๋ก ์ด ์ฝ์ ์ ๊ฒจ๋ฅํฉ๋๋ค.
- VisuoTactile ์ํธ์์ฉ ์ง๊ฐ [1]: ๋ฅ๋์ ๋น์ -์ด๊ฐ ์ตํฉ ๊ณ์ด. ๋ณธ ๋ ผ๋ฌธ์ ์ ์ฉ ์ด๊ฐ ๋์ proprioception์ ์ด๋ค๋ ์ ์์ ์ฐจ๋ณ์ ์ ๋๋ค.
- ํ์ค early-fusion(๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ํ์ต) [11,12]: vanilla fusion(concat)์ด ๊ทธ ๋ํ proxy. ๋ณธ ๋ ผ๋ฌธ์ ์ด๊ฒ์ด ๋ชจ๋ฌ๋ฆฌํฐ ์ถฉ๋์์ ์ทจ์ฝํจ์ ์คํ์ผ๋ก ๋ณด์ด๊ณ , ๊ฒ์ดํ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ ๊ท์ฑ์ โ๊ฒ์ดํ โ์ด๋ผ๋ ๊ธฐ๋ฒ ์์ฒด๊ฐ ์๋๋ผ, (1) ์ ๋น์ฉ proprioception์ ์ด๊ฐ ๋์ฒด์ฌ๋ก ์ฐ๊ณ , (2) ์ ๋์ ์๊ฐ ํจ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒฌ๊ณ ์ฑ์ ์ธก์ ํ๋ฉฐ, (3) null-token ๋ณด๊ฐ + proprioceptive ๋ณด์กฐ ๊ฐ๋ ์ผ๋ก ์๊ฐ ํธํฅ์ ์ต์ ํ๋ ์กฐํฉ๊ณผ ๋ฌธ์ ์ค์ ์ ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ๊ณ ๊ฐ ์ด๊ฐ ์ผ์ ์์ด๋ ๋ก๋ด์ ์ด๋ฏธ ์กด์ฌํ๋ ์๋ณด ์ ํธ(position, load, current, velocity)๋ฅผ ๋น์ ๊ณผ ๊ฒ์ดํ ์ผ๋ก ์ตํฉํด ๋ฌผ์ฒด์ ์ง๋ยท๊ฐ์ฑยท์ฌ์ง์ ๋ถ๋ฅํฉ๋๋ค. ํต์ฌ์ ์ธ ๊ฐ์ง์ ๋๋ค.
- ์ ๋น์ฉ ๋ชจ๋ฌ๋ฆฌํฐ ์ฌํ์ฉ: ๋น์ผ ์ด๊ฐ ํ๋์จ์ด ๋์ grasp-and-lift ์ค์ ๋ด๋ถ ๋ชจํฐ ์ ํธ๋ฅผ โ์ฌ์ค์ ๊ณต์ง์ธโ ์ด๊ฐ ์ฑ๋๋ก ํ์ฉ.
- ์ ๋์ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฒฌ๊ณ ์ฑ ์ธก์ : ์ธ์-๋ฌผ๋ฆฌ ๊ฐ์ง ์๊ด์ ์ผ๋ถ๋ฌ ๊นจ๋จ๋ฆฐ 16๊ฐ ๋ฌผ์ฒด๋ก, ๋ชจ๋ธ์ด ์ง์ง ๋ฌผ๋ฆฌ๋ฅผ ์ถ๋ก ํ๋์ง ์๋๋ฉด ์๊ฐ ์ง๋ฆ๊ธธ์ ์์กดํ๋์ง ๊ฐ๋ฆฝ๋๋ค.
- ์ถฉ๋ ์ธ์ ๊ฒ์ดํ : ์๊ฐ์ด ๊ฑฐ์ง๋งํ ๋ ํ์ต๋ null ํ ํฐ์ผ๋ก ์๊ฐ ํ ํฐ์ ์ต์ ํ๊ณ , proprioceptive ๋ณด์กฐ ๊ฐ๋ ๊ณผ ๊ฒ์ดํธ ์ํธ๋กํผ ์ ๊ทํ๋ก ์์ ํ.
์คํ ๊ฒฐ๊ณผ๋ ์ค๋๋ ฅ ์์ต๋๋ค. ๊ธฐ๋ง์ unseen ๋ฌผ์ฒด์์ Vision-only๋ 18.00%๋ก ๋ถ๊ดด, Vanilla Fusion์ 85.56%๋ก ์คํ๋ ค proprio-only(87.89%)๋ณด๋ค ๋๋น ์ง๋ ๋ฐ๋ฉด, ์ ์ํ Gated Fusion์ 97.61%๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์์ ๋ณ๋ก๋ ์ง๋์ proprioception๋ง์ผ๋ก 100%, ๊ฐ์ฑยท์ฌ์ง์ ๊ฒ์ดํ ์ด ์๊ฐ์ ์ ํ์ ์ผ๋ก ๋์ด์ ๊ฐ๊ฐ 95.17%, 97.67%๋ก ๋์ด์ฌ๋ฆฝ๋๋ค.
ํต์ฌ ๋ฉ์์ง๋ ๋ช ํํฉ๋๋ค.
โ์ ๋น์ฉ proprioception์ ์ ๋ขฐํ ์ ์๋ ๋ฌผ๋ฆฌ์ grounding์ ์ ๊ณตํ๋ค. ์๊ฐ์ ๊ท ์ผํ๊ฒ ๋ฏฟ์ ๊ฒ์ด ์๋๋ผ, ์ ํ์ ์ผ๋ก ํ์ฉํด์ผ ํ๋ค.โ
ํ ์ค ์์ฝ: โ์ผ์๋ฅผ ๋ ์ฌ๋ ๋์ , ๋ก๋ด์ด ์ด๋ฏธ ๋๋ผ๊ณ ์๋ ๊ฒ์ ๋๋ํ๊ฒ ๊ณจ๋ผ ๋ฃ๊ฒ ํ์โ โ ๊ทธ๋ฆฌ๊ณ ์๊ฐ์ด ๊ฑฐ์ง๋งํ ๋ ๊ทธ ์ ์ ๋ง์ ์ค ์์์ผ ํ๋ค.