flowchart TB
subgraph DataCollection["Data Collection (training data path)"]
Op[Human operator]
Exo[Exoskeleton + VR + foot pedals]
Robot[SharpaNorth: 2x 7-DoF arms + 2x 22-DoF hands]
IM1[IMCopilot RL skills]
Op --> Exo
Exo -- arm + hand kinematics --> Robot
Op -- pedal trigger --> IM1
IM1 -- in-hand rotation only --> Robot
Robot -- vision + force + tactile + actions --> Dataset[(Demonstration dataset)]
end
subgraph Inference["Autonomous inference (deployment path)"]
Cam[Cameras: head x2, wrists x2]
Lang[Language instruction]
Prop[Proprioception]
FT[Force + Tactile]
Backbone[VLA backbone: SigLIP + PaliGemma + Action Expert]
MoDE[MoDE module: self-attn + sparse MoE + residual]
Decision{c > 0.5 ?}
IM2[IMCopilot rotation skill]
Action[Final action]
Cam --> Backbone
Lang --> Backbone
Prop --> Backbone
Backbone --> MoDE
FT --> MoDE
MoDE --> Decision
Decision -- No --> Action
Decision -- Yes (hand only) --> IM2
IM2 --> Action
end
Dataset -. supervises .-> Backbone
Dataset -. supervises .-> MoDE
๐Sharpa Fruit
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ด ๋ฐ์ดํฐ ์์ง, ๋ค์ค ์คํฌ ํ์ต ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ ์ตํฉ์์ ๊ฒช๋ ์ด๋ ค์์ ํด๊ฒฐํ์ฌ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ ์๋ จ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค ์ด ํ๋ ์์ํฌ๋ ํ ๋ ์คํผ๋ ์ด์ ์ ๋๊ณ VLA์ ํธ์ถ ๊ฐ๋ฅํ ์ ์์ค ๊ธฐ๋ณธ ๊ธฐ๋ฅ์ผ๋ก ์๋ํ๋ RL ํ๋ จ ๊ธฐ๋ฐ์ In-hand Manipulation Copilot(IMCopilot)๊ณผ, ์ ์ฉ ๊ฒฝ๋ก ๋ฐ ์์ฌ ์ฃผ์ ์ ํตํด ํ ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ VLA ๋ฐฑ๋ณธ์ ํตํฉํ๋ Mixture-of-Dexterous-Experts VLA(MoDE-VLA)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๐ ๊ธฐ์ด ์กฐ๋ฆฝ, ์ถฉ์ ๊ธฐ ์ฐ๊ฒฐ, ํ๋ธ ์ฌ๋ฐฐ์น, ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ๋ฅผ ํฌํจํ 4๊ฐ์ง ์ ์ด์ด ๋ง์ ์์ ์ ๋ํ ์คํ์ ๊ฒ์ฆ์ ์ ์๋ ์ ๊ทผ ๋ฐฉ์์ด ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์์ ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ณ ์์ ๋(high-DoF), ์์(bi-manual), ์ ๊ตํ(dexterous) ์ ์ด ๊ธฐ๋ฐ(contact-rich) ์ธ-ํธ๋(in-hand) ์กฐ์(manipulation) ๋ฅ๋ ฅ์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ค์ผ๋ก ํ์ฅํ๊ธฐ ์ํ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ์ฃผ๋ก ์ ์์ ๋ ์๋-์ดํํฐ(end-effector)์ ์๊ฐ ๊ธฐ๋ฐ์ ๋จ์ํ ํฝ-์ค-ํ๋ ์ด์ค(pick-and-place) ์์ ์ ๊ตญํ๋์ด ์์์ผ๋ฉฐ, ๊ณ ์ฐจ์ ๋ฐ์ดํฐ ํ๋, ๋ค์ค ์คํฌ(multi-skill) ํ์ต, ์ด์ข (heterogeneous) ๋ชจ๋ฌ๋ฆฌํฐ(modality) ์ผ์ ์ตํฉ ์ธก๋ฉด์์ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
์ด๋ฌํ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ๋์ ํฉ๋๋ค.
IMCopilot (In-hand Manipulation Copilot): ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ผ๋ก ํ๋ จ๋ ์์์ (atomic) ์ธ-ํธ๋ ์กฐ์ ์คํฌ(skill) ์ค์ํธ์ ๋๋ค. ์ด IMCopilot์ ๋ ๊ฐ์ง ์ญํ ์ ์ํํฉ๋๋ค. ์ฒซ์งธ, ๋ฐ์ดํฐ ์์ง ์ ์ธ๊ฐ ์กฐ์์์ ๊ณต์ ์์จ(shared-autonomy) ๋ณด์กฐ์(assistant) ์ญํ ์ ํ์ฌ, ๋ณต์กํ ์ธ-ํธ๋ ์กฐ์ ๋จ๊ณ๋ฅผ IMCopilot์ ์์ํจ์ผ๋ก์จ ๊ณ ํ์ง์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ํ๋ํ ์ ์๋๋ก ๋์ต๋๋ค. ๋์งธ, ์์จ ์คํ ์ VLA ๋ชจ๋ธ์ด ํธ์ถํ ์ ์๋ ์ ์์ค(low-level) ์คํ ๊ธฐ๋ณธ ์์(primitive)๋ก ์๋ํ์ฌ ๊ณ์ธต์ (hierarchical) ์กฐ์ ์ํคํ ์ฒ๋ฅผ ํ์ฑํฉ๋๋ค. IMCopilot์ ์คํฌ์ IsaacLab ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ทผ์ ์ ์ฑ ์ต์ ํ(Proximal Policy Optimization, PPO)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋๋ฉฐ, ๋น๋์นญ ์กํฐ-ํฌ๋ฆฌํฑ(asymmetric actor-critic) ์ํคํ ์ฒ์ ๊ต์ฌ-ํ์ ์ฆ๋ฅ(teacher-student distillation)๋ฅผ ํฌํจํฉ๋๋ค. ๊ด์ธก๊ฐ(o_t)์ ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ(proprioception), ์๊ฐ๋ฝ ๋ ์ ์ด ํ(fingertip contact forces), ๋ชฉํ ํ์ ์ถ์ 3๋จ๊ณ ์ด๋ ฅ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฑ ์ ์๋ ๊ด์ ์์น ์คํ์ (\Delta\theta_t)์ ์ถ๋ ฅํ๋ฉฐ, ์ด๋ ์ ์์ค PD ์ ์ด๊ธฐ(controller)์ ์ํด ์ถ์ ๋ฉ๋๋ค. ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ ๋ก-์ท(zero-shot) ์ ์ด๋ฅผ ์ํด ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๊ฐ ์ ์ฉ๋ฉ๋๋ค. ๋ณด์ ํจ์ r = \lambda_{rot}r_{rot} + \lambda_{vel}r_{vel} + \lambda_{work}r_{work} + \lambda_{torq}r_{torq} + \lambda_{diff}r_{diff}๋ ๋ชฉํ ์ถ ์ฃผ์์ ๊ฐ์๋(r_{rot})๋ฅผ ์ฅ๋ คํ๋ ๋์์ ๋ถํ์ํ ์ ํ ์๋(r_{vel}), ๊ณผ๋ํ ๊ด์ ์์ ๋(r_{work}), ํ ํฌ(r_{torq}), ๊ด์ ํธ์ฐจ(r_{diff})์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํ์ฌ ์์ ์งํ์ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
MoDE-VLA (Mixture-of-Dexterous-Experts VLA): ์ด ์ํคํ ์ฒ๋ ์ฌ์ ํ๋ จ๋ VLA ๋ฐฑ๋ณธ(backbone)์ ์ด์ข ์ ํ(force) ๋ฐ ์ด๊ฐ(tactile) ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋งค๋๋ฝ๊ฒ ํตํฉํฉ๋๋ค. MoDE-VLA๋ ํ/์ด๊ฐ ์ ๋ณด์ ๋ํ ์ ์ฉ ์ฒ๋ฆฌ ๊ฒฝ๋ก๋ฅผ ํตํด ๋ชจ๋ฌ๋ฆฌํฐ ์ด์ง์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ํ ์ ํธ(f \in \mathbb{R}^{d_f})๋ ๋ก๋ด ํ์ ๊ด์ ํ ํฌ(joint torque)์์ ์ค๋ฉฐ ํ ์์ค์ ์ ์ด๋ ฅ์ ๋ฐ์ํ๊ณ , ์ด๊ฐ ์ ํธ(g \in \mathbb{R}^{d_g})๋ 10๊ฐ ์๊ฐ๋ฝ ๋์ ์ด๊ฐ ์ผ์์์ 6-์์ ๋ ํ ๋ฐ ๋ ์น(wrench) ์ธก์ ์ ์ง๊ณํ์ฌ ์๊ฐ๋ฝ ๋ ์์ค์ ์ ์ด ํจํด์ ํฌ์ฐฉํฉ๋๋ค. ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ ํ์ต๋ ์ ํ ๋ ์ด์ด(linear layer)๋ฅผ ํตํด PaliGemma ์๋ฒ ๋ฉ(embedding) ๊ณต๊ฐ์ผ๋ก ํฌ์๋ฉ๋๋ค(z_f = W_f f + b_f, z_g = W_g g + b_g). ๊ฐ ์๋ฒ ๋ฉ์ ์ก์ ์์ธก ์ํ์ค ๊ธธ์ด H๋งํผ ๋ณต์ ๋๊ณ ์ ํํ(sinusoidal) ์์น ์ธ์ฝ๋ฉ(positional encoding)์ด ์ถ๊ฐ๋์ด ์๊ฐ์ ์ผ๋ก ์์ธ๋ ํ ํฐ(token) ์ํ์ค \tilde{Z}_f, \tilde{Z}_g \in \mathbb{R}^{H \times d_{pali}}๋ฅผ ์์ฑํฉ๋๋ค. MoDE ๋ชจ๋์ ๋ฐฑ๋ณธ์ ์ปจํ ์คํธ(contextual) ์ถ๋ ฅ, ํ์ฌ ๋๋ ธ์ด์ง(denoising) ์ํ, ํ/์ด๊ฐ ํ ํฐ์ ์ธ ๊ฐ์ง ์ ๋ณด ์คํธ๋ฆผ์ ๋ฐ์๋ค์ ๋๋ค. ์ด๋ค์ ํ๋์ ์ํ์ค Z_{in} = [Z_{prefix} \| Z_{suffix} \| \tilde{Z}_f \| \tilde{Z}_g]๋ก ์ฐ๊ฒฐ๋ ํ ์๊ธฐ-์ดํ ์ (self-attention) ๋ ์ด์ด๋ฅผ ํต๊ณผํฉ๋๋ค. ๊ทธ ํ, ์ฒ๋ฆฌ๋ ํ ๋ฐ ์ด๊ฐ ํ ํฐ์ E๊ฐ์ ์ ๋ฌธ๊ฐ MLP(Expert MLP)๋ก ๊ตฌ์ฑ๋ ํฌ์ ํผํฉ ์ ๋ฌธ๊ฐ(sparse Mixture-of-Experts, MoE) ๋ ์ด์ด๋ฅผ ํต๊ณผํ๋ฉฐ, ์์-k ์ค์บํฐ ๋ผ์ฐํ (top-k scatter routing) ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ ์ด ๊ธฐ๋ฐ ์กฐ์์ ๋ค์ํ ์ ์ฑ์ (qualitative) ๋ ์ง(regime)์ ๋ฐ๋ผ ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๊ฐ ํนํ๋ ์ ์๋๋ก ํฉ๋๋ค. MoE ๋ ์ด์ด๋ ์ ์ ๋ ํ ํ ํฐ Z'_f์ ์ด๊ฐ ํ ํฐ Z'_g๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์ด๋ค์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ํฌ์ ํค๋(projection head)๋ฅผ ํตํด ๋ฐฑ๋ณธ์ ์ก์ ์์ธก์ ์์ฐจ(residual) ๋ณด์ ์ผ๋ก ์ฃผ์ ๋ฉ๋๋ค. ํนํ, ํ ๋ณด์ ์ ์ฃผ๋ก ํ ์ก์ ์, ์ด๊ฐ ๋ณด์ ์ ์ฃผ๋ก ์ ์ก์ ์ ์ํฅ์ ๋ฏธ์น๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด ์์ฐจ ๊ตฌ์กฐ๋ MoDE๊ฐ ๊ธฐ๋ณธ VLA ์์ธก์ ๋ํ ์ ์ (refinement) ์ญํ ๋ง ์ํํ๋๋ก ๋ณด์ฅํ์ฌ, ๋ชจ๋ฌ๋ฆฌํฐ ์ ํธ๊ฐ ์ ์ ๋ ๋ฐฑ๋ณธ์ ๊ฐ๊ฑดํ(robust) ์ฌ์ ํ๋ จ๋ ๋์์ ๋ณด์กดํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ค๋ฅดํ๋ ธ์ค1(SharpaNorth1) ๋ก๋ด ํ๋ซํผ(๋ ๊ฐ์ 7-DoF ๋ก๋ด ํ๊ณผ 22-DoF ์ค๋ฅดํ์จ์ด๋ธ2(SharpaWave2) ์ ๊ตํ ์์ ํฌํจ, ์ด 63 DoF)๊ณผ ์์ฒด ์ธ๊ณจ๊ฒฉ(upper-body exoskeleton), ์ธ๊ณจ๊ฒฉ ์ฅ๊ฐ(exoskeleton gloves), VR ํค๋์ (VR headset)์ ํฌํจํ๋ ๋ฐ์ดํฐ ํ๋ ์์คํ ์ ํ์ฉํ์ต๋๋ค. ํนํ, ๋ฐ ํ๋ฌ(foot pedals)์ ํตํด IMCopilot์ ํธ๋ฆฌ๊ฑฐํ๋ ๊ณต์ ์์จ ๋ฉ์ปค๋์ฆ์ ๊ธฐ์กด ์๊ฒฉ ์กฐ์์ผ๋ก๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ ์ ํ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ(apple peeling)์ ๊ฐ์ ๋ณต์กํ ์์ ์ ๋ํ ๊ณ ํ์ง ๋ฐ๋ชจ ํ๋์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
์คํ์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ, ํ๋ธ ์ฌ๋ฐฐ์น(tube rearranging), ๊ธฐ์ด ์กฐ๋ฆฝ(gear assembling), ์ถฉ์ ๊ธฐ ๊ฝ๊ธฐ(charger plugging)์ ๋ค ๊ฐ์ง ๋ณต์กํ ์ ์ด ๊ธฐ๋ฐ ์์ ์์ ์ํ๋์์ต๋๋ค. ๊ฒฐ๊ณผ๋ MoDE-VLA๊ฐ ๊ธฐ์ค์ \pi_0 ๋ชจ๋ธ์ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์ฝ์ (insertion) ์์ ์์ ๋ ๋ฐฐ ์ด์์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ณด์์ผ๋ฉฐ, IMCopilot์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์์ ์ค์ํ ์ธ-ํธ๋ ํ์ ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ PCR(Peel Completion Ratio) 73%๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ์ต๋๋ค. ์ ๊ฑฐ ์ฐ๊ตฌ(ablation study)๋ ํ ๋ฐ ์ด๊ฐ ์ผ์์ ์ค์์ฑ๊ณผ IMCopilot์ ๊ธฐ์ฌ๋๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํ ์ผ์์ ์ ๊ฑฐ๋ ํ๊ท SR์ 11% ๊ฐ์์์ผฐ๊ณ , ์ด๊ฐ ์ผ์์ ์ ๊ฑฐ๋ 8% ๊ฐ์์์ผฐ์ผ๋ฉฐ, IMCopilot์ ๋ถ์ฌ๋ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ ์์ ์ PCR์ 73%์์ 25%๋ก ํฌ๊ฒ ๋จ์ด๋จ๋ ธ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ IMCopilot๊ณผ MoDE-VLA๋ฅผ ํตํฉํ์ฌ ๊ณ ์์ ๋ ์์ ์ ๊ตํ ์กฐ์์ ์ํ ํฌ๊ด์ ์ธ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌ์ถํ์ต๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋ฐ์ดํฐ ํ๋ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ณ , ๋ณต์กํ ๋ค์ค ์คํฌ ์์ ์ ์ฒ๋ฆฌํ๋ฉฐ, ์ด์ข ๋ชจ๋ฌ๋ฆฌํฐ ์ผ์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉํ์ฌ ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ค์ ์ ๊ตํ ์กฐ์์ ์ํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ์ฐ๋ฆฌ๋ ์์ง VLA๋ก ์ฌ๊ณผ๋ฅผ ๊น์ง ๋ชปํ๋๊ฐ
VLA(Vision-Language-Action) ๋ชจ๋ธ์ด ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ๋ฑ์ฅํ ์ดํ, โPick the red block and place it on the blue plateโ ๊ฐ์ ์์ฐ์ด ๋ช ๋ น์ผ๋ก ๋ก๋ด์ ์์ง์ด๋ ๊ฒ์ ์ด๋๋ง ์ต์ํ ํ๊ฒฝ์ด ๋์๋ค. ๊ทธ๋ฐ๋ฐ ์ด๋ฐ VLA๋ค์ด ์ ๋ง ์ ํ๋ ์ผ์ ๊ฐ๋งํ ๋ค์ฌ๋ค๋ณด๋ฉด, ๊ฑฐ์ ๋๋ถ๋ถ 2-finger ํํ ๊ทธ๋ฆฌํผ๋ก ๋ฌด์ธ๊ฐ๋ฅผ ์ง์ด์ ๋ค๋ฅธ ๊ณณ์ ๋๋ ์ผ์ ๋จธ๋ฌผ๋ฌ ์๋ค. ์ฆ โpick-and-placeโ๋ค.
์ฌ๊ธฐ์๋ ์์ง ์์ ํจ์ ์ด ์๋ค. ์ฌ๋์ ์์ด ํ๋ ์ผ์ ๋ ์ฌ๋ ค ๋ณด์. ์ฌ๊ณผ ๊ป์ง์ ๊น์ ๋ ์ฐ๋ฆฌ๋ ์์์ ๋์์ ์ด๋ค. ํ ์์ ์นผ๋ ์ ์์น๋ฅผ ์๊ฐ์ผ๋ก ๊ฐ์ด๋ํ๋ฉด์ ๋๋ฅด๋ ํ์ ์กฐ์ ํ๊ณ , ๋ค๋ฅธ ์์ ์ฌ๊ณผ๋ฅผ ์ฅ ์ฑ๋ก ์ ์์์ ํ์ ์ํจ๋ค. ์๊ฐ๋ฝ ๋์์๋ ๋ฏธ์ธํ ๋ฏธ๋๋ฌ์ง์ด ๋๊ปด์ง๋ฉด ์ฆ๊ฐ ์ฅ๋ ํ์ ํค์ด๋ค. ์๊ฐ, ํ, ์ด๊ฐ, ๊ทธ๋ฆฌ๊ณ ์ ์ ์กฐ์(in-hand manipulation) ๊ธฐ์ ์ด ํ๊บผ๋ฒ์, ๊ทธ๋ฆฌ๊ณ ์๊ณ์ ์ผ๋ก ํ๋ ฅํ๊ณ ์๋ค.
VLA๋ฅผ ์ด๋ฐ ์์ญ์ผ๋ก ๋์ด์ฌ๋ฆฌ๋ ค๋ ์๊ฐ, ์ธ ๊ฐ์ง ๋ณ๋ชฉ์ด ํ๊บผ๋ฒ์ ๋ฑ์ฅํ๋ค. ์ด ๋ ผ๋ฌธ(arXiv:2603.08122v1)์ ๊ทธ ์ธ ๊ฐ์ง๋ฅผ ์ ์งํ๊ฒ ๋ง์ฃผ๋ณด๊ณ , ๋ ๊ฐ์ ํต์ฌ ๋ชจ๋๋ก ํ์ด๋ธ๋ค.
| ๋ณ๋ชฉ | ๋ฌด์์ด ๋ฌธ์ ์ธ๊ฐ | ์ด ๋ ผ๋ฌธ์ ํด๋ฒ |
|---|---|---|
| ๋ฐ์ดํฐ ํ๋ | 63-DoF ์์ ์์คํ ์ ์ฌ๋์ด ์ง์ ํ ๋ ์คํผ๋ ์ด์ ํ๊ธฐ ์ด๋ ต๋ค | IMCopilot์ด ํ ๋ ์คํผ๋ ์ด์ ์ค ์ด๋ ค์ด ์ ์ ์กฐ์์ ๋์ ์ํ |
| ๋ค์ค ์คํฌ ํ์ต | ํ ์ ์ฑ ์ด grasping, ์ ๋ฐ ์ฝ์ , in-hand rotation์ ๋ชจ๋ ๋ง์คํฐํ๊ธฐ ํ๋ค๋ค | VLA๊ฐ IMCopilot์ ํธ์ถํ๋ ์๊ณ์ ๊ตฌ์กฐ |
| ๋ชจ๋ฌ๋ฆฌํฐ ์ด์ง์ฑ | ์ฌ์ ํ์ต๋ VLA์ force/tactile์ ๋จ์ concatํ๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค | MoDE ๋ชจ๋ + ์์ฐจ(residual) ์ฃผ์ |
์ด ๊ธ์์๋ ์ ๋ ๋ชจ๋โIMCopilot๊ณผ MoDE-VLAโ์ด ์ด๋ป๊ฒ ์ค๊ณ๋์๊ณ , ์ ๊ทธ ์ค๊ณ๊ฐ ํฉ๋ฆฌ์ ์ธ์ง, ๊ทธ๋ฆฌ๊ณ ์คํ์ด ๋ฌด์์ ๋งํด์ฃผ๋์ง๋ฅผ ๋ฐ๋ผ๊ฐ ๋ณธ๋ค. ์ด๋ฏธ IsaacLab, PPO, ์ฌ์ ํ์ต VLA์ ์ต์ํ ๋ ์๋ผ๋ฉด, ์๋ก์ด ํธ๋ฆญ์ด ์๋๋ผ ์กฐํฉ์ ํต์ฐฐ์ ์๋ฏธํ๊ธฐ์ ์ข์ ๋ ผ๋ฌธ์ด๋ค.
ํ ์ฅ์ผ๋ก ๋ณด๋ ์์คํ ์ ์ฒด ๊ทธ๋ฆผ
๋ ผ๋ฌธ์ Figure 2์ Figure 3์ ํ ๋ฒ์ ํก์ํ๊ธฐ ์ํด, ๋จผ์ ๋ฐ์ดํฐ ํ๋ฆ๊ณผ ์ถ๋ก ์ ๊ฒฐ์ ํ๋ฆ์ ๋ถ๋ฆฌํด์ ๊ทธ๋ ค๋ณด์.
ํต์ฌ์ IMCopilot์ด ํ์ต ์(ํ ๋ ์คํผ๋ ์ด์ ๋ถ์กฐ์ข ์ฌ)์ ์ถ๋ก ์(VLA์ ์ ์์ค ํธ์ถ ๊ฐ๋ฅ ํ๋ฆฌ๋ฏธํฐ๋ธ) ์์ชฝ์์ ๊ฐ์ ์ญํ ๋ก ์ฌ์ฌ์ฉ๋๋ค๋ ์ ์ด๋ค. ๋ฐ์ดํฐ ๋ถํฌ์ ์ผ๊ด์ฑ๊ณผ ์ถ๋ก ์ ๋์์ ์ผ๊ด์ฑ์ด ์์ฐ์ค๋ฝ๊ฒ ๋ง์ถฐ์ง๋ค. ์ด๋ ๋จ์ํ ์์ง๋์ด๋ง ๋ํ ์ผ์ด ์๋๋ผ, โ์ฌ๋์ด ๋ง๋ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ด ์ฌ๋์ด ๋ชป ํ๋ ๋์๊น์ง ์ผ๋ฐํํ๊ธธ ๊ธฐ๋ํ์ง ๋ง์โ๋ ํ์ค์ ์ธ์ ์ด๊ธฐ๋ ํ๋ค.
๋ฐฉ๋ฒ 1: IMCopilot โ ์ฌ๋๊ณผ VLA๊ฐ ๊ณต์ ํ๋ ์๊ฐ๋ฝ ๋ถ์กฐ์ข ์ฌ
์ ์ ์ ์กฐ์๋ง ๋ฐ๋ก ๋ผ์ด๋ด๋๊ฐ
23 DoF๋ฅผ ๋์์ ์กฐ์ ํ๋ฉด์ ์๋ฐ๋ฅ ์์ ์ฌ๊ณผ๋ฅผ ์ ํํ ํ ๋ฐํด ํ์ ์ํค๋ ์ผ์, ์์งํ ๋งํด ์๋ จ๋ ์ฌ๋๋ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก๋ ๊ฑฐ์ ๋ชป ํ๋ค. ๋ ผ๋ฌธ Table I์ด ์ด ์ ์ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ํ๊ตฌ๊ณต์ฒ๋ผ ์๊ณ ๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด์ ๋ํด ์ฌ๋์ด ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก in-hand rotation์ ์๋ํ์ ๋ ์ฑ๊ณต๋ฅ ์ 10% ์์ค์ด๋ค. ์ฌ๊ณผ๋ 27%๋ค. ๋ฐ์ดํฐ ์์ง์ ์ถ๋ฐ์ ๋ถํฐ ๋ฌด๋์ง๊ณ ์๋ค๋ ๋ป์ด๋ค.
์ ์๋ค์ ์ง๋จ์ ๋ช ๋ฃํ๋ค. ์ด ๋์์ ์ฌ๋์ด ์ํ์ง ๋ชปํ๋ฏ๋ก, ์ฌ๋์ ์๋ฒ์ผ๋ก๋ถํฐ ํ์ตํ ์ ์๋ค๋ ๊ฐ์ ์์ฒด๊ฐ ์ฑ๋ฆฝํ์ง ์๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์๋ฎฌ๋ ์ด์ ์์์ RL๋ก ๋ฐ๋ก ํ์ต์์ผ ๋๊ณ , ์ฌ๋์ ๊ทธ ์คํฌ์ โ๋ฒํผ์ฒ๋ผ ํธ์ถโํ๋ฉด ๋๋ค. ์ด๊ฒ์ด IMCopilot์ด๋ค.
์คํฌ ๊ตฌ์ฑ๊ณผ RL ํ์ต
IMCopilot์ ๋ ๊ฐ์ง atomic ์คํฌ๋ก ๊ตฌ์ฑ๋๋ค.
- Stable grasp maintenance โ ์ธ๋ถ ๊ต๋ ํ์์ ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ์ก๊ณ ์๊ธฐ
- In-hand object rotation โ ์ง์ ๋ ์ถ ์ฃผ์๋ก ์ ์์์ ํ์
ํ์ต ์ค์ ์ in-hand manipulation RL์ ์ ์์ ์ถฉ์คํ ๋ฐ๋ฅธ๋ค. IsaacLab ์์์ PPO, asymmetric actor-critic with teacher-student distillation, sim-to-real์ ์ํ domain randomization. teacher-student ๊ตฌ์กฐ๋ OpenAI/IRobot์ in-hand cube reorientation ๊ณ๋ณด์ ๊ฐ์ ํจํด์ด๋ค.
- Teacher (\mathbf{e}_t + \mathbf{o}_t): ๋ฌผ์ฒด pose, ์๋, ์ง๋, ๋ง์ฐฐ๊ณ์ ๊ฐ์ privileged ์ ๋ณด๋ฅผ ๋ฐ๋๋ค.
- Student (\mathbf{o}_t only): 3-step proprioception history, fingertip contact force, ๋ชฉํ ํ์ ์ถ๋ง ๋ฐ๋๋ค.
action์ ๊ด์ ์์น ๋ณ์ \mathbf{a}_t = \Delta\theta_t์ด๊ณ , ์ด๋ฅผ ์ ๋ถํด์ PD ์ ์ด๊ธฐ๋ก ์ถ์ ํ๋ค.
\mathbf{q}_t = \mathbf{q}_{t-1} + \lambda_{\text{scale}} \Delta\theta_t
๋ณด์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ฏ ํญ์ ๊ฐ์คํฉ์ด๋ค.
r = \lambda_{\text{rot}} r_{\text{rot}} + \lambda_{\text{vel}} r_{\text{vel}} + \lambda_{\text{work}} r_{\text{work}} + \lambda_{\text{torq}} r_{\text{torq}} + \lambda_{\text{diff}} r_{\text{diff}}
| ํญ | ์๋ฏธ | ์ง๊ด |
|---|---|---|
| r_{\text{rot}} | ๋ชฉํ ์ถ ์ฃผ์ angular velocity | โ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋๋ฆฌ๊ณ ์๋๊ฐ?โ |
| r_{\text{vel}} | ์์น ์๋ linear velocity ํ๋ํฐ | โ๋ฌผ์ฒด๊ฐ ์์์ ๋น ์ ธ๋๊ฐ๊ณ ์์ง๋ ์์๊ฐ?โ |
| r_{\text{work}} | ๊ด์ ์ผ(work) ํ๋ํฐ | โ์ธ๋ฐ์์ด ํ์ ์ฐ๊ณ ์์ง๋ ์์๊ฐ?โ |
| r_{\text{torq}} | ๊ด์ ํ ํฌ ํ๋ํฐ | โ๊ด์ ์ ๋ฌด๋ฆฌํ๊ฒ ์ฐ๊ณ ์์ง๋ ์์๊ฐ?โ |
| r_{\text{diff}} | ๊ธฐ๋ณธ ์์ธ๋ก๋ถํฐ์ ํธ์ฐจ ํ๋ํฐ | โ์ด์ํ ์์ธ๋ก ๋น ์ง์ง ์์๋๊ฐ?โ |
์ฌ๊ธฐ์ ํฅ๋ฏธ๋ก์ด ํฌ์ธํธ๋ ๋ณด์ ์ค๊ณ๊ฐ goal achievement(ํ์ )์ stability(์๋์งยท์์ธ)์ ๊ท ํ์ผ๋ก ์ค๊ณ๋์ด ์๋ค๋ ๊ฒ์ด๋ค. ๊ธฐ์กด in-hand reorientation ์ฐ๊ตฌ์์ ํํ ๋ณด์ด๋ โgoal pose์ ๋๋ฌํ๋๊ฐโ ํํ์ sparse reward ๋์ , โ๊พธ์คํ ๋๋ ํ์โ ์์ฒด์ ๋ณด์์ ์ฃผ๋ angular-velocity ๊ธฐ๋ฐ dense reward๋ฅผ ์ด๋ค. ์ฌ๊ณผ ๊ป์ง ๊น๊ธฐ์ฒ๋ผ ์ฃผ๊ธฐ์ ์ผ๋ก ํ์ ์ ๋ฐ๋ณตํ๋ task์ ์์ฐ์ค๋ฝ๊ฒ ๋ง์๋จ์ด์ง๋ ์ ํ์ด๋ค.
Dual role: ๊ฐ์ ์ ์ฑ , ๋ ๊ฐ์ ํธ์ถ์
ํ์ต์ด ๋๋ IMCopilot์ ๋ ๋จ๊ณ ๋ชจ๋์์ ๋์ผํ๊ฒ ์๋ํ๋ค.
flowchart LR
subgraph DataPhase["Data collection"]
H[Human]
Pedal[Foot pedal]
H -- press --> Pedal --> IM[IMCopilot policy]
end
subgraph InferPhase["Autonomous inference"]
VLA[VLA action head]
Trigger[Scalar c in 0..1]
VLA -- predicts --> Trigger
Trigger -- c > 0.5 --> IM
end
IM --> Hand[Hand joint commands]
ํ์ต ๋ฐ์ดํฐ์์ ์ ๋์์ด ๋ ๊ฐ์ง ์ถ์ฒ(์ฌ๋ ์๋ฒ + IMCopilot ์ถ๋ ฅ)๋ก๋ถํฐ ๋์ค๊ธฐ ๋๋ฌธ์, VLA๋ ๋จ์ํ ์๊ฐ๋ฝ trajectory๋ฅผ ํ๋ด ๋ด๋ ๊ฒ์ด ์๋๋ผ โ์ธ์ IMCopilot์ ํธ์ถํ ์งโ๋ฅผ ํ์ตํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด action ๋ฒกํฐ์ trigger ์ค์นผ๋ผ c \in [0, 1]์ ์ถ๊ฐํ๊ณ , c > 0.5์ด๋ฉด hand action์ IMCopilot ์ถ๋ ฅ์ผ๋ก ๋ฎ์ด์ด๋ค. ์ผ์ข ์ soft mode-switch๋ค.
์ด ์ค๊ณ๋ ๋ ๊ฐ์ง ๋ฉด์์ ์๋ฆฌํ๋ค. ์ฒซ์งธ, action chunk ์์์ ์ผ๊ด๋ mode ์ ํ์ด ๊ฐ๋ฅํ๋ค. ๋์งธ, hand action ์์ฒด๋ demonstration์์ IMCopilot์ด ๋ง๋ค์ด๋ธ ๊ฒ์ ๊ทธ๋๋ก ์ฐ๋ฏ๋ก, VLA๋ hand์ ๋ฏธ์ธ trajectory๋ฅผ ํ์ตํ์ง ์์๋ ๋๋ค. ๊ณ ์ฐจ์ ์๊ฐ๋ฝ ์ขํ ํ๊ท๋ผ๋ ๊ฐ์ฅ ์ด๋ ค์ด ๋ถ๋ถ์ RL specialist์๊ฒ ์ธ์ฃผ ์ค ์ ์ด๋ค.
๋ฐฉ๋ฒ 2: MoDE-VLA โ ์ฌ์ ํ์ต๋ ์ง์์ ๊นจ๋จ๋ฆฌ์ง ์๋ ์ ์ด ์ธ์
์ ๊ทธ๋ฅ concatํ๋ฉด ์ ๋๋๊ฐ
์ฌ๊ธฐ๊ฐ ์ด ๋ ผ๋ฌธ์ ์ง์ง ๊ธฐ์ ์ ๊ธฐ์ฌ๋ค. force์ tactile์ ์ฌ์ ํ์ต VLA์ ๋จน์ด๋ ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ๋ฒ์ proprioception ๋ฒกํฐ์ ๊ทธ๋ฅ ์ด์ด๋ถ์ด๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ForceVLA, RDP ๊ฐ์ ์ ํ ์ฐ๊ตฌ์์ ์ด๋ฏธ โ๋จ์ concat์ ์คํ๋ ค ์ฑ๋ฅ์ ๊น์ ๋จน๋๋คโ๋ ์ ์ด ๋ณด๊ณ ๋์ด ์๋ค. ์ด์ ๋ ๋ ๊ฐ์ง๋ก ์ ๋ฆฌํ ์ ์๋ค.
- ๋ฌผ๋ฆฌ์ ์๋ฏธ๊ฐ ๋ค๋ฅด๋ค. ํ์ joint torque(7-DoF ร 2)๋ ๊ฑฐ์์ wrench์ด๊ณ , fingertip 6-DoF wrench(5 ร 6 ร 2)๋ ๋ฏธ์ธ ์ ์ด ํจํด์ด๋ค. ๊ฐ์ ํ ํฐ ๊ณต๊ฐ์์ ๊ท ์งํ๊ฒ ๋ค๋ฃจ๋ฉด ํ์ต ์ ํธ๊ฐ ํฌ์๋๋ค.
- ์๊ฐ ์ค์ผ์ผ์ด ๋ค๋ฅด๋ค. ๋น์ ยท์ธ์ด ํ ํฐ์ ๋น๊ต์ ์ฒ์ฒํ ๋ณํ์ง๋ง, ์ ์ด ์ ํธ๋ ms ๋จ์๋ก ๊ธ๋ณํ๋ค. ๋จ์ผ attention pool ์์์ ๊ฐ์ด ์ฐ๋ฉด dominant modality์ gradient์ ๋ฌปํ๋ฒ๋ฆฐ๋ค.
์ ์๋ค์ ์ฒ๋ฐฉ์ ์ธ ๊ฐ์ง ๋์์ธ ์์น์ผ๋ก ์ ๋ฆฌ๋๋ค.
- dedicated pathway โ force/tactile์ backbone๊ณผ ๋ถ๋ฆฌ๋ ๊ฒฝ๋ก๋ก ์ฒ๋ฆฌ
- modality-aware routing โ sparse MoE๋ก ํ ํฐ๋ณ expert ๋ถํ
- residual injection โ backbone ์ถ๋ ฅ ์์ ์์ฐจ๋ก ๋ํด ๊ธฐ์กด ์ง์ ๋ณด์กด
๋ฐฑ๋ณธ: \pi_0 flow-matching VLA
๊ธฐ๋ฐ ๋ชจ๋ธ์ Physical Intelligence์ \pi_0๋ค. ๊ตฌ์ฑ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
| ๋ชจ๋ | ์ญํ | ํฌ๊ธฐ |
|---|---|---|
| SigLIP (So400m/14) | vision tokenizer | โ |
| PaliGemma (Gemma-3B) | vision-language transformer | 3B |
| Action Expert (Gemma-300M) | flow-matching action head | 300M |
ํ์ต ๋ชฉํ๋ flow matching loss๋ค. \pi_0๋ฅผ ์ตํ ์๋ ๋ ์๋ผ๋ฉด ์ต์ํ๊ฒ ์ง๋ง, ์ง๊ด์ ์ผ๋ก ๋ณด๋ฉด ์ด๋ ๋ค. clean action \mathbf{x}_0์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \boldsymbol{\epsilon} ์ฌ์ด๋ฅผ ์๊ฐ t๋ก ์ ํ ๋ณด๊ฐํ \mathbf{x}_t = t \cdot \boldsymbol{\epsilon} + (1-t) \cdot \mathbf{x}_0๋ฅผ ๋ง๋ค๊ณ , ๊ทธ ์ง์ ์์ ๋ ธ์ด์ฆ์์ clean์ผ๋ก ๊ฐ๋ ์๋์ฅ \mathbf{v}_\theta(\mathbf{x}_t, t)์ ํ๊ท์ํจ๋ค.
\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \| \mathbf{v}_\theta(\mathbf{x}_t, t) - (\boldsymbol{\epsilon} - \mathbf{x}_0) \|^2 \right]
์ถ๋ก ์์๋ ๋ ธ์ด์ฆ์์ ์ถ๋ฐํด Euler ๋ฐฉ๋ฒ์ผ๋ก N=10 ์คํ ์ ๋ถํ๋ฉด action chunk๊ฐ ๋์จ๋ค. ์ด ๊ฒฐ๊ณผ์ ํต์ฌ์ โ\mathbf{v}_\theta๋ฅผ ์์ธกํ๋ ๋ฌธ์ โ๋ผ๋ ์ ์ด๋ค. MoDE์ ์์ฐจ ์ฃผ์ ์ด ๋ฐ๋ก ์ด ์๋์ฅ ์์ธก์ ๋ํด์ง๋ ๋ณด์ ์ด๋ผ๋ ์ฌ์ค์ ์ดํ์ ๋ค์ ์ง๊ฒ ๋๋ค.
action ๋ฒกํฐ ์์ฒด๋ ์ธ ๋ถ๋ถ์ผ๋ก ๋๋๋ค.
\mathbf{a} = [\mathbf{a}_{\text{arm}};\; \mathbf{a}_{\text{hand}};\; \mathbf{a}_{\text{other}}]
์ฌ๊ธฐ์ \mathbf{a}_{\text{other}}๋ ํ๋ฆฌ ๋์๊ณผ IMCopilot trigger c๋ฅผ ํฌํจํ๋ค.
Force/Tactile ํ ํฐ: ์๊ฐ์ถ์ผ๋ก ํผ์น๊ธฐ
raw ์ ํธ ์ฐจ์์ ๋ค์๊ณผ ๊ฐ๋ค.
- Force \mathbf{f} \in \mathbb{R}^{14} โ ์ํ joint torque (7 ร 2)
- Tactile \mathbf{g} \in \mathbb{R}^{60} โ ์์ fingertip 6-DoF wrench (5 ร 6 ร 2)
๊ฐ๊ฐ์ PaliGemma embedding ์ฐจ์ d_{\text{pali}}๋ก linear projectionํ ๋ค, action horizon H๋งํผ ๋ณต์ ํ๊ณ sinusoidal positional encoding์ ๋ํ๋ค.
\tilde{\mathbf{z}}_f^{(h)} = \mathbf{z}_f + \text{PE}_{\text{sin}}(h), \quad \tilde{\mathbf{z}}_g^{(h)} = \mathbf{z}_g + \text{PE}_{\text{sin}}(h), \quad h = 1, \ldots, H
์ฌ๊ธฐ์ ์์ง๋ง ์ค์ํ ํต์ฐฐ์ด ์๋ค. ํ์ฌ ์์ ์ force/tactile ํ ํ๋ ์์ ๋ฏธ๋ H ์คํ ์ ๊ทธ๋๋ก ๋ณต์ ํด์ ํ ํฐ์ด์ ๋ง๋ ๋ค. ์? ์ด๋ ๊ฒ ํ๋ฉด ํ์ MoE router๊ฐ โhorizon์ ์์ ๋ณ๋ก ๋ค๋ฅธ expert๋ฅผ ๋ผ์ฐํ โํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ t=1์์๋ contact-onset ์ ๋ฌธ๊ฐ, t=H์์๋ steady-state force-tracking ์ ๋ฌธ๊ฐ๊ฐ ํ์ฑํ๋ ์ ์๋ ๊ตฌ์กฐ์ ์ฌ์ง๋ฅผ ๋ง๋ค์ด ๋ ๊ฒ์ด๋ค.
MoDE ๋ชจ๋: ์๊ฐ ์ฃผ์ ํ sparse MoE ๋ผ์ฐํ
์ ์ฒด ํ ํฐ์ด์ ๋ค ๋ถ๋ถ์ผ๋ก concat๋๋ค.
\mathbf{Z}_{\text{in}} = [\mathbf{Z}_{\text{prefix}} \;\|\; \mathbf{Z}_{\text{suffix}} \;\|\; \tilde{\mathbf{Z}}_f \;\|\; \tilde{\mathbf{Z}}_g] \in \mathbb{R}^{(S_p + 3H) \times d_{\text{pali}}}
| ํ ํฐ ๊ทธ๋ฃน | ์ ์ฒด | ๊ธธ์ด |
|---|---|---|
| \mathbf{Z}_{\text{prefix}} | PaliGemma ์ถ๋ ฅ (vision + language + state) | S_p |
| \mathbf{Z}_{\text{suffix}} | action expert์ noisy action ํ ํฐ | H |
| \tilde{\mathbf{Z}}_f | force tokens | H |
| \tilde{\mathbf{Z}}_g | tactile tokens | H |
self-attention ํ ์ธต์ ํต๊ณผ์ํค๋ฉด force/tactile ํ ํฐ์ด ์๊ฐยท์ธ์ดยทdenoising ์ปจํ ์คํธ์ ๋ชจ๋ attend ํ๋ค. ๊ทธ๋ฐ ๋ค์ force/tactile ํ ํฐ๋ค์ token-level top-k sparse MoE (E=8, k=1)๋ก ๋ผ์ฐํ ๋๋ค.
์ ๋จ์ผ ๊ณต์ MLP ๋์ sparse MoE์ธ๊ฐ? ์ ์ด ํ๋ถ ์กฐ์์๋ ์ง์ ์ผ๋ก ๋ค๋ฅธ regime๋ค์ด ์์ฌ ์๋ค.
- ์์ ๊ณต๊ฐ ๋๋ฌ
- ์ด๊ธฐ ์ ์ด
- ์์ ๊ทธ๋ฆฝ ์ ์ง
- ๋์ in-hand rotation
๊ฐ regime์ force-to-action ๋งคํ์ด ๋ค๋ฅด๋ค. sparse routing์ expert๋ฅผ regime๋ณยท๊ด์ ๊ทธ๋ฃน๋ณ๋ก ์ ๋ฌธํ์ํค๋ฉด์๋ ํ ํฐ๋น ์ฐ์ฐ๋์ ๋๋ฆฌ์ง ์๋๋ค. ํ๋ง๋๋ก, modality-awareํ๋ฉด์ phase-awareํ dynamic capacity allocation์ด๋ค.
์์ฐจ ์ฃผ์ : ์ฌ์ ํ์ต ์ง์์ ๊นจ๋จ๋ฆฌ์ง ์๋ ํธ๋ฆญ
MoE๋ฅผ ํต๊ณผํ force tokens \mathbf{Z}_f, tactile tokens \mathbf{Z}_g \in \mathbb{R}^{H \times d_{\text{pali}}}๋ backbone์ suffix ์ถ๋ ฅ \mathbf{Z}_{\text{suffix}}์ ํฉ์ณ์ ธ์, modality-specific projection head๋ฅผ ๊ฑฐ์ณ ์๋์ฅ ์์ธก์ ๋ค์ด๊ฐ๋ค.
\mathbf{v}_\theta(\mathbf{x}_t, t) = [W_1(\mathbf{Z}_f + \mathbf{Z}_{\text{suffix}}) \;\|\; W_2(\mathbf{Z}_g + \mathbf{Z}_{\text{suffix}})]
์ฌ๊ธฐ์ ๋ ๊ฐ์ง ํต์ฌ ๋์์ธ์ด ์๋ค.
ํต์ฌ 1: ์์ฐจ ํํ
\mathbf{Z}_f, \mathbf{Z}_g๋ backbone ์ถ๋ ฅ์ ๋ํด์ง๋ค. ์์ ๊ณต๊ฐ ๋์์ฒ๋ผ force/tactile ์ ํธ๊ฐ ์ ๋ณด๋ฅผ ๊ฑฐ์ ๋ด๊ณ ์์ง ์์ ๋, MoDE์ ์ถ๋ ฅ์ ์์ฐ์ค๋ฝ๊ฒ 0์ ๊ฐ๊น์์ง๋ค. ์ฆ ์ ํธ๊ฐ ์๋ฏธ ์์ ๋๋ง ๋ณด์ ์ด ๋ค์ด๊ฐ๊ณ , ๊ทธ๋ ์ง ์์ ๋๋ ์ฌ์ ํ์ต ๋์์ด ๊ทธ๋๋ก ๋ณด์กด๋๋ค. ์ด๋ LoRA๋ Adapter Tuning์ด base model์ ๋ณดํธํ๋ ๋ฉ์ปค๋์ฆ๊ณผ ์ ์ ์ด ๊ฐ๋ค.
ํต์ฌ 2: ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ๋ฆฌ ๋ผ์ฐํ
W_1์ arm action, W_2๋ hand action์ ๋ด๋นํ๋ค. ์ฆ arm-level torque(force)๋ arm action์, fingertip wrench(tactile)๋ hand action์ ์ํฅ์ ์ฃผ๋๋ก ๋ฌผ๋ฆฌ์ ์๋ฏธ๋ฅผ ๋ฐ๋ผ ๊ฒฝ๋ก๊ฐ ๋ถ๋ฆฌ๋๋ค. ์ด ๋ถ๋ฆฌ๋ ๋จ์ํ ์ธ๋ํฐ๋ธ ๋ฐ์ด์ด์ค๊ฐ ์๋๋ผ, โํ์ ํ ํฌ ์ ๋ณด๊ฐ ์๊ฐ๋ฝ ์ ์ด๋ฅผ ์ค์ผ์ํค์ง ์๊ฒ ํ๋ผโ๋ ๋ช ์์ ์ค๊ณ๋ค.
๋ ์ต์ ์ ์๊ณ์ ๊ฒฐ์
๋ง์ง๋ง์ผ๋ก ์ถ๋ก ์์ ๋ ๊ฐ๋์ ๊ฒฐ์ ์ด ์์์ ๋ค์ ์ ๋ฆฌํ์.
| ์ต์ | ์กฐ๊ฑด | hand action ์ถ์ฒ | arm action ์ถ์ฒ |
|---|---|---|---|
| Option 1 | c \le 0.5 | VLA + tactile residual | VLA + force residual |
| Option 2 | c > 0.5 | IMCopilot (์ง์ ์ ์ด) | VLA + force residual |
์ฆ arm์ ํญ์ VLA๊ฐ ์ก๊ณ ์๊ณ , ์์ ์ํฉ์ ๋ฐ๋ผ RL specialist์๊ฒ ์๋ณดํ๋ ๊ตฌ์กฐ๋ค. ์ฌ๋์ ์ด๋ ์ ์ด์์ cortex๊ฐ ๊ฑฐ์์ reaching plan์ ์ง๊ณ , ์ฒ์์ cerebellum์ด ๋ฏธ์ธํ ์๊ฐ๋ฝ reflex๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ์ง๊ด์ ์ผ๋ก ๋น์ทํ ๋ถ์ ์ด๋ค.
์คํ: ๋ฌด์์ด ์ ์ฆ๋์๋๊ฐ
ํ๊ฐ ํ์คํฌ
๋ ผ๋ฌธ์ ์ ์ด ๋ณต์ก๋๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์ฌ๋ฆฐ 4๊ฐ ํ์คํฌ๋ฅผ ์ฌ์ฉํ๋ค.
- Gear Assembling (ํ ํ) โ ๊ธฐ์ด 3๊ฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์ถ์ ๋ผ์. ์ฝ์ force ์กฐ์ ์ด ํต์ฌ.
- Charger Plugging (ํ ํ) โ ์ถฉ์ ๊ธฐ๋ฅผ ๋ฉํฐํญ์ ๊ฝ์. ๋ง์ง๋ง mm ๋จ์ ์ ๋ฐ ์ ์ด.
- Tube Rearranging (์ ํ) โ ์ํ๊ด์ ํ ์์ผ๋ก ์ง์ด ๋ค๋ฅธ ์์ผ๋ก ์ฎ๊ธด ๋ค ๋ค์ ๊ฝ์. ์์ ํ์.
- Apple Peeling (์ ํ) โ ์ฌ๊ณผ ๊ป์ง ํ ์ค ๊น๊ธฐ. ์๊ฐยทforceยทtactileยทin-hand rotation ๋ชจ๋ ํ์.
ํ๊ฐ ์งํ๋ ๋ ๊ฐ์ง๋ค.
- SR(Success Rate): ํ์คํฌ ์ ์ฒด ์ฑ๊ณต๋ฅ
- PCR(Peel Completion Ratio): Apple Peeling ์ ์ฉ. ํ์ ํ๋ฉด์ ๋ช %๋ฅผ ๊น์๋์ง๋ฅผ 25% ๋จ์๋ก ์ด์ฐํ.
๊ฐ ํ์คํฌ๋น 20ํ trial.
Q1: ๋ฐ์ดํฐ ์์ง์ ์ค์ง์ ๊ฐ์
Force/Tactile VR ํผ๋๋ฐฑ์ ํจ๊ณผ โ Gear Assembling ๊ธฐ์ค์ผ๋ก ํผ๋๋ฐฑ ์์ ๋ 75๋ถ์ 100 trial / 85 ์ฑ๊ณต, ํผ๋๋ฐฑ ์์ ๋ 65๋ถ์ 100 trial / 93 ์ฑ๊ณต. ์์ ์ฐจ์ด ๊ฐ์ง๋ง, ์ฌ๋ ์ด์์์ ์ธ์ง ๋ถํ๊ฐ ์ค์ด๋ค๋ฉด demonstration ํ์ง์ ๋ถ์ฐ๋ ์ค์ด๋ ๋ค๋ ์ ์ด ๋ ๋ณธ์ง์ ์ด๋ค.
IMCopilot์ ์ง๊ฐ๋ Table I์ ์๋ค.
| Object | Teleoperation SR | IMCopilot SR |
|---|---|---|
| Ping-pong ball | 10% | 83% |
| Tennis ball | 67% | 93% |
| Apple | 27% | 90% |
| Overall | 34% | 89% |
์๊ณ ๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด์ผ์๋ก ๊ฒฉ์ฐจ๊ฐ ๊ทน๋จ์ ์ด๋ค. ์ฌ๊ณผ์ 27% โ 90%๋ ๋จ์ํ ํฅ์์ด ์๋๋ผ โ์์ง ๊ฐ๋ฅ vs ๋ถ๊ฐ๋ฅโ์ ๊ฒฝ๊ณ๋ฅผ ๋๋ ์ฐจ์ด๋ค. ์ฆ Apple Peeling ๊ฐ์ ํ์คํฌ๋ IMCopilot ์์ด๋ ์๋ฏธ ์๋ demonstration์ ๋ชจ์ ์์กฐ์ฐจ ์๋ค๋ ๋ป์ด๋ค.
Q2: MoDE-VLA์ ์ ์ฑ ์ฑ๋ฅ
| Method | Apple SR | Apple PCR | Tube | Gear | Charger | Avg SR |
|---|---|---|---|---|---|---|
| \pi_0 baseline | 0% | 8% | 15% | 40% | 5% | 15% |
| MoDE-VLA (Ours) | 30% | 73% | 30% | 60% | 15% | 34% |
ํ๊ท SR์ด 15% โ 34%๋ก ๋ ๋ฐฐ ์ด์ ๋ด๋ค. ํฅ๋ฏธ๋ก์ด ๊ด์ฐฐ๋ค:
- Gear Assembling +20%, Charger Plugging +10% โ ๋จ์ผ ํ ์ฝ์ ์์ force๊ฐ ๊ฒฐ์ ์ ์ด๋ค. ๋ง์ง๋ง ๋ช mm์์์ contact onset detection์ ๋น์ ๋ง์ผ๋ก๋ ์ด๋ ต๋ค.
- Apple Peeling์ baseline์ด 0% SR / 8% PCR โ ๊น๊ธฐ ์์์ ํ์ง๋ง ํ ๋ฐํด๋ฅผ ๋ชป ๋๋ค. ์ฌ๊ณผ๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ํ์ ์ด ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค. MoDE-VLA๊ฐ IMCopilot rotation expert๋ฅผ ์ ์์ ํธ์ถํ๋ฏ๋ก closed-loop ring completion์ด ๊ฐ๋ฅํด์ง๋ค.
์ฌ๊ธฐ์ PCR ์งํ์ ํต์ฐฐ์ ์ง์ด๋ณด์. ๋จ์ SR๋ก ๋ณด๋ฉด 0% โ 30%์ง๋ง, PCR๋ก ๋ณด๋ฉด 8% โ 73%๋ค. ์ฆ ๋ถ๋ถ ์งํ์ ์ ๋ํํ์ง ์์ผ๋ฉด baseline์ด โ์ ํ ๋ชป ํ๋คโ๋ binary ๊ฒฐ๋ก ์ ๋ฌถ์ฌ์ ์ด๋๊น์ง ์ํ๊ณ ์ด๋์ ๋ฌด๋์ง๋์ง ์ ๋ณด์ธ๋ค. ์ฃผ๊ธฐ์ ์ธ task์ผ์๋ก ์ด๋ฐ sub-metric ์ค๊ณ๊ฐ ์ค์ํ๋ค๋ ๊ตํ์ด๋ค.
Q3: Ablation โ ์ด๋ ์ปดํฌ๋ํธ๊ฐ ๋ฌด์์ ์ฑ ์์ง๋๊ฐ
| Variant | Avg SR | ๋ณํ |
|---|---|---|
| Full MoDE-VLA | 34% | โ |
| w/o Force | 23% | โ11% |
| w/o Tactile | 26% | โ8% |
| w/o IMCopilot (Apple Peeling only) | PCR 25% | PCR โ48% |
ํด์์ ๋ค์๊ณผ ๊ฐ๋ค.
Force ์ ๊ฑฐ (-11%) โ ๊ฐ์ฅ ํฐ ๋จ์ผ ์ปดํฌ๋ํธ ์์ค. ์ฝ์ ํ์คํฌ์์ contact onset detection์ ์ผ์ฐจ ์ ํธ๊ฐ ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ Apple Peeling์์๋ โ์์ ์นผ์ด ์ฌ๊ณผ์ ๋ฟ์ง ์์ ์ฑ ํ๊ณต์์ ๊น๋ ์๋๋ง ํ๋โ ์คํจ ๋ชจ๋๊ฐ ๋์ด๋ฌ๋ค. ์๊ฐ๋ง์ผ๋ก contact ์ฌ๋ถ๋ฅผ ์ถ์ ํ๊ธฐ์๋ ๋ถ์กฑํ๋ค๋ ์ง์ ์ฆ๊ฑฐ๋ค.
Tactile ์ ๊ฑฐ (-8%) โ ์ฃผ๋ก grasp-intensive phase์์ slip ์ฆ๊ฐ. ์๊ฐ๋ฝ ๋์ ๋ณํ/์ ์ด ์ํ cue๋ wrist F/T sensor๋ RGB๋ก๋ ์กํ์ง ์๋๋ค. ์ด๋ ForceVLA๊ฐ wrist F/T๋ง ์ฐ๋ ๊ฒ๊ณผ ๋น๊ตํด ์๋ tactile์ ๋ณ๋ modality๋ก ๋๋ ๋ณธ ๋ ผ๋ฌธ ๋์์ธ์ ์ ๋น์ฑ์ ๋ณด์ฌ์ค๋ค.
Tactile ์ ๊ฑฐ๊ฐ Apple Peeling SR/PCR์๋ ํฐ ์ํฅ์ด ์๋ค๋ ๊ฒ๋ ์ฌ๋ฏธ์๋ค. ์ ์๋ค์ ํด์: ์นผ์ power grasp์ผ๋ก ๊ณ ์ ๋์ด ์๊ณ , ์ฌ๊ณผ ์์ IMCopilot์ด ์ง์ ๋ค๋ฃจ๋๋ฐ, IMCopilot ์์ฒด๊ฐ ์ ๋ ฅ์ผ๋ก ์ด๋ฏธ tactile์ ์ฐ๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ IMCopilot์ด tactile feedback์ ์๊ธฐ ์์์ ํก์ํด ๋ฒ๋ ค์, ์์ VLA์๋ tactile์ด ๋ ๊ฒฐ์ ์ ์ด๊ฒ ๋๋ค. ์๊ณ ๋ถ์ ์ ์ข์ ๋ถ์ํจ๊ณผ๋ค.
IMCopilot ์ ๊ฑฐ (Apple Peeling PCR 73% โ 25%) โ VLA์๊ฒ IMCopilot demonstration์ hand trajectory๋ฅผ ๊ทธ๋๋ก imitateํ๋ผ๊ณ ์์ผฐ์ ๋์ ๊ฒฐ๊ณผ๋ค. PCR์ด ๊ฑฐ์ 1/3 ์์ค์ผ๋ก ํญ๋ฝํ๋ค. ์ด์ ๋ ๋ช ํํ๋ค. 22-DoF ์๊ฐ๋ฝ trajectory๋ imitation learning๋ง์ผ๋ก ์์ ์ ์ผ๋ก ์ฌํ๋์ง ์๋๋ค. ํ ๋ฒ ๊น๊ณ ํ์ ์ํค๋ ค๋ ์๊ฐ ์ฌ๊ณผ๊ฐ ๋จ์ด์ง๊ฑฐ๋ ํ์ ์ด ์ผ์ด๋์ง ์๋๋ค. ๊ฒฐ๊ตญ in-hand rotation์ task-specific RL specialist์ ์์ญ์ด๋ผ๋ ๊ฒฐ๋ก ์ ์ ๋์ ์ผ๋ก ๋ท๋ฐ์นจํ๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ์๊ณ์ ๋ถ์ ์ ๊น๋ํ ๊ตฌํ. โVLA๊ฐ plan์ ์ง๊ณ , RL specialist๊ฐ reactive skill์ ๋ด๋นํ๋คโ๋ ๋ถ์ ์ ์ข ์ข ์ถ์์ ์ผ๋ก๋ง ํ์๋์์ง๋ง, ์ด ๋ ผ๋ฌธ์ ๊ทธ๊ฒ์ (a) ๋์ผ specialist๋ฅผ ๋ฐ์ดํฐ ์์ง๊ณผ ์ถ๋ก ์์ชฝ์์ ์ฌ์ฌ์ฉ, (b) action ๋ฒกํฐ์ trigger ์ค์นผ๋ผ๋ฅผ ๋ฃ์ด soft mode-switch๋ผ๋ ๋ ๊ฐ์ง ๊ตฌ์ฒด์ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ด๋๋ค.
2. ์์ฐจ ์ฃผ์ ์ ๋ณด์์ฑ. \mathbf{v}_\theta = W(\mathbf{Z}_{\text{modality}} + \mathbf{Z}_{\text{suffix}}) ํํ๋ ์๋ก์ด modality๋ฅผ ์ถ๊ฐํ๋ ๊ฐ์ฅ ์์ ํ ๋ฐฉ๋ฒ ์ค ํ๋๋ค. ์ ํธ๊ฐ ๋ฌด์๋ฏธํ ๋ ์๋์ผ๋ก 0์ผ๋ก ์๋ ดํ๋๋ก ํ๋ inductive bias๋, ์ฌ์ ํ์ต backbone์ด ๋น์ธ๊ฒ ํ์ตํ prior๋ฅผ ๋ง๊ฐ๋จ๋ฆฌ์ง ์๋๋ค. ์ด๋ ์ด๋ค ์ฌ์ ํ์ต VLA์๋ force/tactile์ ์ถ๊ฐ๋ก ๋ถ์ด๊ณ ์ถ์ ๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ํจํด์ด๋ค.
3. modality-specific output head. W_1 for arm, W_2 for hand์ ๋ถ๋ฆฌ๋ ์ฌ์ํด ๋ณด์ด์ง๋ง ๋งค์ฐ ์ค์ํ๋ค. arm-level torque์ fingertip wrench๊ฐ cross-contaminate๋์ง ์๋๋ก ํ๋ ๊ฒ์ ๋จ์ํ inductive bias ์ด์์ด๋ค. ๋ฌผ๋ฆฌ์ ์๋ฏธ๋ฅผ ๋ฐ๋ผ๊ฐ architectural separation์ด๋ค.
4. Sub-metric์ ์ค์์ฑ์ ๋ณด์ฌ์ค PCR. ์ฃผ๊ธฐ์ task์์ binary SR๋ง ์ฐ๋ฉด baseline์ โ0%โ๋ก ๋ฌถ์ฌ ๋ํ ์ผ์ ์๋๋ค. 25% ๋จ์ ์ด์ฐํ๋ ๊ฑฐ์น ์ง๋ง ์ถฉ๋ถํ informativeํ๋ค. ๋ค๋ฅธ cyclic dexterous task(์: ์ ์ฌํ reorientation, ํ์ ๊ฐ๊ณต)์๋ ์ฐจ์ฉํ ๋งํ ํ๊ฐ ํจํด์ด๋ค.
5. Apple Peeling์ด๋ผ๋ demanding task์ ์์จ ์์ฐ. โ์์ ํ์ + force-guided cutting + tactile-guided in-hand rotationโ์ด ๋ชจ๋ ํ์ํ ํ์คํฌ๊ฐ partial์ด๋ผ๋ ์์จ๋ก ์์ฑ๋ ์ฌ๋ก๋ ์ด์ ์ ๊ฑฐ์ ์๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. ์ ๋ ์ฑ๋ฅ์ ์ฌ์ ํ ๋ฎ๋ค. SR 30~60%๋๋ค. ์ฐ์ ์ ์ฉ ๊ด์ ์์๋ ๋ฉ๋ค. ์ด ์์น๋ โVLA ๊ธฐ๋ฐ dexterous manipulation ๋ถ์ผ๊ฐ ์์ง ์ด๊ธฐโ๋ผ๋ ์ฌ์ค์ ์ ์งํ๊ฒ ๋๋ฌ๋ธ๋ค. baseline (\pi_0)๋ ํ๋์จ์ด ๋งค์น๊ฐ ์๋ฒฝํ์ง ์์ผ๋ ์ง์ ๋น๊ต๋ง์ผ๋ก ๊ฒฐ๋ก ์ง๊ธฐ๋ ์ ์คํด์ผ ํ๋ค.
2. IMCopilot์ ์คํฌ ์ข ๋ฅ๊ฐ ๋งค์ฐ ์ ํ์ ์ด๋ค. ์์ ๊ทธ๋ฆฝ ์ ์ง + ํ ์ถ ํ์ , ๋๋ฟ์ด๋ค. ์ผ๋ฐํํ๋ ค๋ฉด axis-conditioned, object-conditioned ๋ฑ ๋ ๋ค์ํ in-hand ์คํฌ์ด ํ์ํ๊ณ , ์ด๋ RL ํ์ต ๋น์ฉ๊ณผ sim-to-real gap์ ํญ๋ฐ์ํฌ ์ ์๋ค. RotateIt, AnyRotate ๊ฐ์ ํ์ ํ๋ฆ์ ํตํฉํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๋ก ๋ณด์ธ๋ค.
3. trigger ์ค์นผ๋ผ c์ ํ์ต ์ ํธ. ํ์ฌ trigger๋ demonstration์์์ ์ฌ๋ ํ๋ฌ ์ ๋ ฅ์ผ๋ก supervise๋๋ค. ๊ทธ๋ฌ๋ ์ค์ ์ถ๋ก ์์๋ ์ฌ๋์ด ๋ชจ๋ฅด๋ ์์ ์์ IMCopilot์ ํธ์ถํด์ผ ๋ ํจ๊ณผ์ ์ผ ์ ์๋ค. trigger๋ฅผ RL๋ก ๋ฏธ์ธ์กฐ์ ํ๊ฑฐ๋ self-supervision์ผ๋ก ๋ณด๊ฐํ๋ ์ฌ์ง๊ฐ ์๋ค.
4. force์ tactile์ ์๊ฐ ๋จ์ผ์ฑ. ํ ํฐํ ์ ํ ํ๋ ์์ H๋ฒ ๋ณต์ ํ๋ค๋ ์ ์ ์๋ฆฌํ์ง๋ง, ๋น ๋ฅด๊ฒ ๋ณํ๋ ์ ์ด transient๋ฅผ onboardํ์ง ๋ชปํ๋ค. ๋ฉํฐํ๋ ์ history๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ๊ณ temporal MoE๋ฅผ ์ ์ฉํ๋ ํ์ฅ์ด ์์ฐ์ค๋ฝ๋ค.
5. ์๋ฎฌ๋ ์ด์ โ์ค์ gap์ ํ๊ฐ ๋ถ์ฌ. IMCopilot์ IsaacLab์์๋ง ํ์ต๋๊ณ zero-shot ๋ฐฐํฌ๋๋ค. domain randomization ๋ฒ์๊ฐ ์ ํํ ์ด๋ค์ง, ์ค์ ์ฌ๊ณผ์ ๋ค์ํ ํฌ๊ธฐยท์ค์ฌยท๋ง์ฐฐ์ ๋ํ robustness ํต๊ณ๊ฐ ์์ผ๋ฉด ๋ ์ค๋๋ ฅ ์์ ๊ฒ์ด๋ค(์ด๋ ์ด๋ฏธ Allegro Hand ๊ธฐ๋ฐ RL ์ฐ๊ตฌ์์๊ฒ๋ ์ต์ํ ๊ฐ์ฆ์ด๊ธฐ๋ ํ๋ค).
6. ์ผ๋ฐ VLA ์ฌ์ ํ์ต ๋ถํฌ์์ ์ ํฉ์ฑ. \pi_0๋ ์ฃผ๋ก ํํ ๊ทธ๋ฆฌํผ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์๋ค. 22-DoF ์์ ๋ํ fine-tuning์ด backbone ํํ์ ์ด๋ป๊ฒ ๋ฐ๊พธ๋์ง์ ๋ํ ๋ถ์์ด ๋น ์ ธ ์๋ค. residual injection์ด ๋ณดํธํ๋ค๋ ์ฃผ์ฅ์ ์ ์ฑ์ ์ด๋ฉฐ, ์ ๋์ representation drift ๋ถ์์ด ์์ผ๋ฉด ๋ ๊ฐํด์ง๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
| ์ฐ๊ตฌ | force | tactile | ์ตํฉ ๋ฐฉ์ | ์ ํํ | in-hand ์คํฌ |
|---|---|---|---|---|---|
| RDP | wrist F/T | โ | fast-slow conditional | ํํ ๊ทธ๋ฆฌํผ | ์์ |
| TA-VLA | joint torque | โ | architectural exploration | ํํ ๊ทธ๋ฆฌํผ | ์์ |
| ForceVLA | wrist F/T | โ | force-aware MoE | ํํ ๊ทธ๋ฆฌํผ | ์์ |
| Tactile-VLA | โ | tactile | hybrid pos/force ctrl | ํํ ๊ทธ๋ฆฌํผ | ์์ |
| MoDE-VLA (๋ณธ ๋ ผ๋ฌธ) | joint torque | fingertip 6-DoF | dedicated path + sparse MoE + residual | 22-DoF dexterous hand | RL specialist (IMCopilot) |
๋ณธ ๋ ผ๋ฌธ์ ์๋ฆฌ๋งค๊น์ ๋ถ๋ช ํ๋ค. ์ด์ ์ฐ๊ตฌ๋ค์ด ๋์ฒด๋ก ๋จ์ผ modality๋ฅผ ๋จ์ผ ์ ํํ(์ฃผ๋ก ํํ ๊ทธ๋ฆฌํผ)์ ํตํฉํ๋ ๋ฐ ์ง์คํ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์ (i) force + tactile ๋ modality๋ฅผ ๋์์, (ii) ๋ฌผ๋ฆฌ์ ์๋ฏธ๋ณ ๋ถ๋ฆฌ ๊ฒฝ๋ก๋ก, (iii) 22-DoF dexterous hand์์, (iv) RL skill ํธ์ถ ๊ฐ๋ฅํ ์๊ณ ๊ตฌ์กฐ์์ ํตํฉํ ์ฒซ ์๋์ ๊ฐ๊น๋ค. ForceVLA์ force-aware MoE ์์ด๋์ด๋ฅผ force์ tactile ๋๋ก ํ์ฅํ๋ฉด์ ์์ฐจ ์ฃผ์ ์ ์ถ๊ฐํ ๊ฒ์ผ๋ก ์ฝ์ผ๋ฉด ๊ณ๋ณด๊ฐ ์์ฐ์ค๋ฝ๋ค.
ํนํ IsaacLab + PPO + asymmetric actor-critic + teacher-student distillation์ผ๋ก in-hand rotation์ ํ์ตํ๋ ๋ถ๋ถ์, OpenAI cube reorientation, AnyRotate, RotateIt, DexNDM ๋ฑ์ ๊ณ๋ณด์ ์ ํํ ๊ฐ์ ์๋ฆฌ์ ์๋ค. ๋ค๋ฅธ ์ ์ ๊ทธ RL skill์ ํ ๋ ์คํผ๋ ์ด์ ๋ถ์กฐ์ข ์ฌ๋ก๋, VLA์ ํธ์ถ ๊ฐ๋ฅ primitive๋ก๋ ๋์์ ํ์ฉํ๋ค๋ ๋ฐ ์๋ค. ์ด dual-use๊ฐ ๋ณธ ๋ ผ๋ฌธ์ ๊ฐ์ฅ ๋ ์ฐฝ์ ์ธ ํต์ฐฐ์ผ ์ ์๋ค.
์์ฌ์ : ์ค๋ฌด ๋ก๋ด๊ณตํ์์๊ฒ ์ ํ๋ ๋ฉ์์ง
์ด ๋ ผ๋ฌธ์ ์ฝ๋ ๋ฆฌ๋ทฐ์ฒ๋ผ ์ฝ๊ณ ๋๋ฉด, ๋ค์ ๋ค์ฏ ๊ฐ์ง ์ค๋ฌด ๊ตํ์ด ๋จ๋๋ค.
์ฌ๋๋ ๋ชป ํ๋ ๋์์ imitation์ผ๋ก ํ์ต์ํค๋ ค ํ์ง ๋ง์. ๊ทธ ์์ญ์ RL specialist์ ์ธ์ฃผ๋ฅผ ์ฃผ๊ณ , demonstration ์์ฒด์ ๊ทธ specialist์ ์ถ๋ ฅ์ ์์ด๋ผ. ์ด๋ฌ๋ฉด ํ์ต ๋ถํฌ์ ์ถ๋ก ๋ถํฌ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ๋ง์ถฐ์ง๋ค.
modality ์ถ๊ฐ๋ ์ฃผ ๊ฒฝ๋ก(main path)๊ฐ ์๋๋ผ ์์ฐจ(residual)๋ก. ์ฌ์ ํ์ต๋ backbone์ representation์ ๊นจ์ง ์์ผ๋ฉด์ ์๋ก์ด sensor๋ฅผ ๋ถ์ด๋ ๊ฐ์ฅ ์์ ํ ๋ฐฉ๋ฒ์ด๋ค. ์์ ๊ณต๊ฐ์์๋ ์๋์ผ๋ก 0์ด ๋๋๋ก.
physical semantics์ ๋ฐ๋ผ ๊ฒฝ๋ก๋ฅผ ๋ถ๋ฆฌํ๋ผ. arm torque์ fingertip wrench๋ฅผ ๊ฐ์ ํ ํฐ ํ์ ๋ฃ์ง ๋ง๋ผ. arm action๊ณผ hand action ์ถ๋ ฅ head๋ฅผ ๋ถ๋ฆฌํ๋ ์์ ๊ฒฐ์ ์ด ํฐ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค.
action horizon๋งํผ modality ํ ํฐ์ ๋ณต์ ํ๋ฉด sparse MoE์๊ฒ phase๋ณ specialization ์ฌ์ง๋ฅผ ์ค๋ค. โํ ํ๋ ์ ์ ํธ๋ฅผ H๋ฒ ํด์ ์๊ฐ ์ฌ๋กฏ์ ๋ง๋ ๋คโ๋ trick์ ๋ค๋ฅธ ๋น์ ยท์ธ์ดยทํ๋ ์ตํฉ ๊ตฌ์กฐ์๋ ๊ทธ๋๋ก ์ฐจ์ฉ ๊ฐ๋ฅํ๋ค.
์ฃผ๊ธฐ์ ํ์คํฌ๋ binary SR๋ง์ผ๋ก ํ๊ฐํ์ง ๋ง๋ผ. ๋ถ๋ถ ์งํ์ ์ด์ฐํํ sub-metric(์ฌ๊ธฐ์๋ PCR)์ด baseline์ ์คํจ ๋ชจ๋์ method์ ์ง์ง ๊ธฐ์ฌ๋ฅผ ๋ถ๋ฆฌํด ๋ณด์ฌ์ค๋ค.
๊ฒฐ๋ก : VLA ์๋์ dexterity๋ ์๊ณ์ ๋ถ์ ์ผ๋ก
์ด ๋ ผ๋ฌธ์ ์๋ก์ด ๋จ์ผ ํธ๋ฆญ์ ์ ์ํ๊ธฐ๋ณด๋ค๋, ์ด๋ฏธ ์๋ ค์ง ์ข์ ๊ตฌ์ฑ์์๋ค(ฯ0, flow matching, sparse MoE, asymmetric PPO, residual adaptation)์ dexterous manipulation์ ์ค์ ๋ณ๋ชฉ์ ์ ํํ ๋ฐฐ์นํ ์ํ์ด๋ค. ๊ทธ ๋ฐฐ์น์ ๊ฒฐ๊ณผ๋ก, ์ ์๋ ๋ฐ์ดํฐ์กฐ์ฐจ ๋ชจ์ ์ ์๋ ์์ ์ฌ๊ณผ ๊น๊ธฐ ๊ฐ์ task๊ฐ ์์จ๋ก ๋ถ๋ถ ์ฑ๊ณตํ๋ค.
ํต์ฌ์ ํ ๋ฌธ์ฅ์ผ๋ก ์ค์ด๋ฉด ์ด๋ ๋ค.
โVLA์๊ฒ plan์ ๋งก๊ธฐ๊ณ , RL specialist์๊ฒ ์๊ฐ๋ฝ reflex๋ฅผ ๋งก๊ธฐ๊ณ , force์ tactile์ ์ฌ์ ํ์ต ์ง์์ ๊นจ๋จ๋ฆฌ์ง ์๋ ์์ฐจ ๋ณด์ ์ผ๋ก ๋ฐ์ด ๋ฃ์ด๋ผ.โ
์ด ๋ฉ์์ง๋ 22-DoF SharpaWave์์๋ง ํตํ๋ ์ด์ผ๊ธฐ๊ฐ ์๋๋ค. 16-DoF Allegro Hand ๊ฐ์ ๋ค๋ฅธ dexterous platform, ๋ค๋ฅธ ์ฌ์ ํ์ต VLA ๋ฐฑ๋ณธ(OpenVLA, \pi_{0.5}, RT-2 ๋ฑ), ๋ค๋ฅธ modality(temperature, audio, proximity)์๋ ๊ทธ๋๋ก ์ฎ๊ฒจ ์ ์ฉํ ์ ์๋ ์ํคํ ์ฒ ํจํด์ด๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์ ํ ์์คํ ์ ๊ฒฐ๊ณผ ๋ณด๊ณ ์๋ผ๊ธฐ๋ณด๋ค, VLA + dexterous manipulation์ ํ์ ์ฐ๊ตฌ ์ค๊ณ์๋ก ์ฝ๋ ํธ์ด ๋ ํ์ฑํ๋ค.
๋น ๋ฅธ ์ฐธ์กฐ ์นด๋
Paper: Towards Human-Like Manipulation through RL-Augmented
Teleoperation and Mixture-of-Dexterous-Experts VLA
ArXiv: 2603.08122v1
Hardware: SharpaNorth (2x 7-DoF arm + 2x 22-DoF hand = 63 DoF)
fingertip 6-DoF tactile + arm joint torque
Key modules:
IMCopilot = PPO + IsaacLab + teacher-student RL
dual role: teleop copilot + VLA primitive
MoDE-VLA = pi0 backbone
+ force/tactile token path (replicate H times)
+ self-attn over [prefix | suffix | Zf | Zg]
+ sparse MoE (E=8, top-1)
+ modality-split residual head (W1 arm, W2 hand)
Action: a = [a_arm ; a_hand ; a_other(c, waist)]
if c > 0.5: a_hand <- IMCopilot output
Best results:
Avg SR : 15% (pi0) -> 34% (ours)
Apple : 0% / 8% -> 30% / 73% (SR/PCR)
In-hand rotation: 34% (teleop) -> 89% (IMCopilot)