flowchart TB
subgraph DataCollection ["Data Collection Phase"]
HO["Human Operator\n(Exoskeleton)"] -->|"Gross Arm Motions"| RB["SharpaNorth Robot\n(63 DoF)"]
HO -->|"Foot Pedal Trigger"| IMP["IMCopilot\n(RL Primitives)"]
IMP -->|"In-hand Rotation\nGrasp Maintenance"| RB
end
subgraph Autonomy ["Autonomous Execution Phase"]
VLA["OpenPI-0 Backbone\n(Vision + Language + Proprioception)"] --> MoDE["MoDE Module\n(Force-Tactile Fusion)"]
MoDE -->|"Residual Correction"| ArmAct["Arm Actions"]
MoDE -->|"Option 1: Tactile Refined\nHand Actions"| HandAct["Hand Actions"]
MoDE -->|"Option 2: Dispatch"| IMP2["IMCopilot\n(RL Low-level Primitive)"]
IMP2 --> HandAct
end
DataCollection -->|"Demonstrations"| Train["VLA Fine-tuning"]
Train --> Autonomy
๐MoDE-VLA ๋ฆฌ๋ทฐ
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ด ๋ฐ์ดํฐ ์์ง, ๋ค์ค ์คํฌ ํ์ต ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ ์ตํฉ์์ ๊ฒช๋ ์ด๋ ค์์ ํด๊ฒฐํ์ฌ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ ์๋ จ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค ์ด ํ๋ ์์ํฌ๋ ํ ๋ ์คํผ๋ ์ด์ ์ ๋๊ณ VLA์ ํธ์ถ ๊ฐ๋ฅํ ์ ์์ค ๊ธฐ๋ณธ ๊ธฐ๋ฅ์ผ๋ก ์๋ํ๋ RL ํ๋ จ ๊ธฐ๋ฐ์ In-hand Manipulation Copilot(IMCopilot)๊ณผ, ์ ์ฉ ๊ฒฝ๋ก ๋ฐ ์์ฌ ์ฃผ์ ์ ํตํด ํ ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ VLA ๋ฐฑ๋ณธ์ ํตํฉํ๋ Mixture-of-Dexterous-Experts VLA(MoDE-VLA)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๐ ๊ธฐ์ด ์กฐ๋ฆฝ, ์ถฉ์ ๊ธฐ ์ฐ๊ฒฐ, ํ๋ธ ์ฌ๋ฐฐ์น, ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ๋ฅผ ํฌํจํ 4๊ฐ์ง ์ ์ด์ด ๋ง์ ์์ ์ ๋ํ ์คํ์ ๊ฒ์ฆ์ ์ ์๋ ์ ๊ทผ ๋ฐฉ์์ด ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์์ ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ณ ์์ ๋(high-DoF), ์์(bi-manual), ์ ๊ตํ(dexterous) ์ ์ด ๊ธฐ๋ฐ(contact-rich) ์ธ-ํธ๋(in-hand) ์กฐ์(manipulation) ๋ฅ๋ ฅ์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ค์ผ๋ก ํ์ฅํ๊ธฐ ์ํ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ์ฃผ๋ก ์ ์์ ๋ ์๋-์ดํํฐ(end-effector)์ ์๊ฐ ๊ธฐ๋ฐ์ ๋จ์ํ ํฝ-์ค-ํ๋ ์ด์ค(pick-and-place) ์์ ์ ๊ตญํ๋์ด ์์์ผ๋ฉฐ, ๊ณ ์ฐจ์ ๋ฐ์ดํฐ ํ๋, ๋ค์ค ์คํฌ(multi-skill) ํ์ต, ์ด์ข (heterogeneous) ๋ชจ๋ฌ๋ฆฌํฐ(modality) ์ผ์ ์ตํฉ ์ธก๋ฉด์์ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
์ด๋ฌํ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ๋์ ํฉ๋๋ค.
- IMCopilot (In-hand Manipulation Copilot):
๊ฐํ ํ์ต(Reinforcement Learning, RL)์ผ๋ก ํ๋ จ๋ ์์์ (atomic) ์ธ-ํธ๋ ์กฐ์ ์คํฌ(skill) ์ค์ํธ์ ๋๋ค. ์ด IMCopilot์ ๋ ๊ฐ์ง ์ญํ ์ ์ํํฉ๋๋ค. ์ฒซ์งธ, ๋ฐ์ดํฐ ์์ง ์ ์ธ๊ฐ ์กฐ์์์ ๊ณต์ ์์จ(shared-autonomy) ๋ณด์กฐ์(assistant) ์ญํ ์ ํ์ฌ, ๋ณต์กํ ์ธ-ํธ๋ ์กฐ์ ๋จ๊ณ๋ฅผ IMCopilot์ ์์ํจ์ผ๋ก์จ ๊ณ ํ์ง์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ํ๋ํ ์ ์๋๋ก ๋์ต๋๋ค. ๋์งธ, ์์จ ์คํ ์ VLA ๋ชจ๋ธ์ด ํธ์ถํ ์ ์๋ ์ ์์ค(low-level) ์คํ ๊ธฐ๋ณธ ์์(primitive)๋ก ์๋ํ์ฌ ๊ณ์ธต์ (hierarchical) ์กฐ์ ์ํคํ ์ฒ๋ฅผ ํ์ฑํฉ๋๋ค. IMCopilot์ ์คํฌ์ IsaacLab ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ทผ์ ์ ์ฑ ์ต์ ํ(Proximal Policy Optimization, PPO)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋๋ฉฐ, ๋น๋์นญ ์กํฐ-ํฌ๋ฆฌํฑ(asymmetric actor-critic) ์ํคํ ์ฒ์ ๊ต์ฌ-ํ์ ์ฆ๋ฅ(teacher-student distillation)๋ฅผ ํฌํจํฉ๋๋ค. ๊ด์ธก๊ฐ(o_t)์ ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ(proprioception), ์๊ฐ๋ฝ ๋ ์ ์ด ํ(fingertip contact forces), ๋ชฉํ ํ์ ์ถ์ 3๋จ๊ณ ์ด๋ ฅ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฑ ์ ์๋ ๊ด์ ์์น ์คํ์ (\Delta\theta_t)์ ์ถ๋ ฅํ๋ฉฐ, ์ด๋ ์ ์์ค PD ์ ์ด๊ธฐ(controller)์ ์ํด ์ถ์ ๋ฉ๋๋ค. ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ ๋ก-์ท(zero-shot) ์ ์ด๋ฅผ ์ํด ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๊ฐ ์ ์ฉ๋ฉ๋๋ค. ๋ณด์ ํจ์ r = \lambda_{rot}r_{rot} + \lambda_{vel}r_{vel} + \lambda_{work}r_{work} + \lambda_{torq}r_{torq} + \lambda_{diff}r_{diff}๋ ๋ชฉํ ์ถ ์ฃผ์์ ๊ฐ์๋(r_{rot})๋ฅผ ์ฅ๋ คํ๋ ๋์์ ๋ถํ์ํ ์ ํ ์๋(r_{vel}), ๊ณผ๋ํ ๊ด์ ์์ ๋(r_{work}), ํ ํฌ(r_{torq}), ๊ด์ ํธ์ฐจ(r_{diff})์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํ์ฌ ์์ ์งํ์ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
- MoDE-VLA (Mixture-of-Dexterous-Experts VLA):
์ด ์ํคํ ์ฒ๋ ์ฌ์ ํ๋ จ๋ VLA ๋ฐฑ๋ณธ(backbone)์ ์ด์ข ์ ํ(force) ๋ฐ ์ด๊ฐ(tactile) ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋งค๋๋ฝ๊ฒ ํตํฉํฉ๋๋ค. MoDE-VLA๋ ํ/์ด๊ฐ ์ ๋ณด์ ๋ํ ์ ์ฉ ์ฒ๋ฆฌ ๊ฒฝ๋ก๋ฅผ ํตํด ๋ชจ๋ฌ๋ฆฌํฐ ์ด์ง์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ํ ์ ํธ(f \in \mathbb{R}^{d_f})๋ ๋ก๋ด ํ์ ๊ด์ ํ ํฌ(joint torque)์์ ์ค๋ฉฐ ํ ์์ค์ ์ ์ด๋ ฅ์ ๋ฐ์ํ๊ณ , ์ด๊ฐ ์ ํธ(g \in \mathbb{R}^{d_g})๋ 10๊ฐ ์๊ฐ๋ฝ ๋์ ์ด๊ฐ ์ผ์์์ 6-์์ ๋ ํ ๋ฐ ๋ ์น(wrench) ์ธก์ ์ ์ง๊ณํ์ฌ ์๊ฐ๋ฝ ๋ ์์ค์ ์ ์ด ํจํด์ ํฌ์ฐฉํฉ๋๋ค. ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ ํ์ต๋ ์ ํ ๋ ์ด์ด(linear layer)๋ฅผ ํตํด PaliGemma ์๋ฒ ๋ฉ(embedding) ๊ณต๊ฐ์ผ๋ก ํฌ์๋ฉ๋๋ค(z_f = W_f f + b_f, z_g = W_g g + b_g). ๊ฐ ์๋ฒ ๋ฉ์ ์ก์ ์์ธก ์ํ์ค ๊ธธ์ด H๋งํผ ๋ณต์ ๋๊ณ ์ ํํ(sinusoidal) ์์น ์ธ์ฝ๋ฉ(positional encoding)์ด ์ถ๊ฐ๋์ด ์๊ฐ์ ์ผ๋ก ์์ธ๋ ํ ํฐ(token) ์ํ์ค \tilde{Z}_f, \tilde{Z}_g \in \mathbb{R}^{H \times d_{pali}}๋ฅผ ์์ฑํฉ๋๋ค.
MoDE ๋ชจ๋์ ๋ฐฑ๋ณธ์ ์ปจํ ์คํธ(contextual) ์ถ๋ ฅ, ํ์ฌ ๋๋ ธ์ด์ง(denoising) ์ํ, ํ/์ด๊ฐ ํ ํฐ์ ์ธ ๊ฐ์ง ์ ๋ณด ์คํธ๋ฆผ์ ๋ฐ์๋ค์ ๋๋ค. ์ด๋ค์ ํ๋์ ์ํ์ค Z_{in} = [Z_{prefix} \| Z_{suffix} \| \tilde{Z}_f \| \tilde{Z}_g]๋ก ์ฐ๊ฒฐ๋ ํ ์๊ธฐ-์ดํ ์ (self-attention) ๋ ์ด์ด๋ฅผ ํต๊ณผํฉ๋๋ค. ๊ทธ ํ, ์ฒ๋ฆฌ๋ ํ ๋ฐ ์ด๊ฐ ํ ํฐ์ E๊ฐ์ ์ ๋ฌธ๊ฐ MLP(Expert MLP)๋ก ๊ตฌ์ฑ๋ ํฌ์ ํผํฉ ์ ๋ฌธ๊ฐ(sparse Mixture-of-Experts, MoE) ๋ ์ด์ด๋ฅผ ํต๊ณผํ๋ฉฐ, ์์-k ์ค์บํฐ ๋ผ์ฐํ (top-k scatter routing) ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ ์ด ๊ธฐ๋ฐ ์กฐ์์ ๋ค์ํ ์ ์ฑ์ (qualitative) ๋ ์ง(regime)์ ๋ฐ๋ผ ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๊ฐ ํนํ๋ ์ ์๋๋ก ํฉ๋๋ค. MoE ๋ ์ด์ด๋ ์ ์ ๋ ํ ํ ํฐ Z'_f์ ์ด๊ฐ ํ ํฐ Z'_g๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์ด๋ค์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ํฌ์ ํค๋(projection head)๋ฅผ ํตํด ๋ฐฑ๋ณธ์ ์ก์ ์์ธก์ ์์ฐจ(residual) ๋ณด์ ์ผ๋ก ์ฃผ์ ๋ฉ๋๋ค. ํนํ, ํ ๋ณด์ ์ ์ฃผ๋ก ํ ์ก์ ์, ์ด๊ฐ ๋ณด์ ์ ์ฃผ๋ก ์ ์ก์ ์ ์ํฅ์ ๋ฏธ์น๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด ์์ฐจ ๊ตฌ์กฐ๋ MoDE๊ฐ ๊ธฐ๋ณธ VLA ์์ธก์ ๋ํ ์ ์ (refinement) ์ญํ ๋ง ์ํํ๋๋ก ๋ณด์ฅํ์ฌ, ๋ชจ๋ฌ๋ฆฌํฐ ์ ํธ๊ฐ ์ ์ ๋ ๋ฐฑ๋ณธ์ ๊ฐ๊ฑดํ(robust) ์ฌ์ ํ๋ จ๋ ๋์์ ๋ณด์กดํฉ๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ค๋ฅดํ๋ ธ์ค1(SharpaNorth1) ๋ก๋ด ํ๋ซํผ(๋ ๊ฐ์ 7-DoF ๋ก๋ด ํ๊ณผ 22-DoF ์ค๋ฅดํ์จ์ด๋ธ2(SharpaWave2) ์ ๊ตํ ์์ ํฌํจ, ์ด 63 DoF)๊ณผ ์์ฒด ์ธ๊ณจ๊ฒฉ(upper-body exoskeleton), ์ธ๊ณจ๊ฒฉ ์ฅ๊ฐ(exoskeleton gloves), VR ํค๋์ (VR headset)์ ํฌํจํ๋ ๋ฐ์ดํฐ ํ๋ ์์คํ ์ ํ์ฉํ์ต๋๋ค. ํนํ, ๋ฐ ํ๋ฌ(foot pedals)์ ํตํด IMCopilot์ ํธ๋ฆฌ๊ฑฐํ๋ ๊ณต์ ์์จ ๋ฉ์ปค๋์ฆ์ ๊ธฐ์กด ์๊ฒฉ ์กฐ์์ผ๋ก๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ ์ ํ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ(apple peeling)์ ๊ฐ์ ๋ณต์กํ ์์ ์ ๋ํ ๊ณ ํ์ง ๋ฐ๋ชจ ํ๋์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
์คํ์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ, ํ๋ธ ์ฌ๋ฐฐ์น(tube rearranging), ๊ธฐ์ด ์กฐ๋ฆฝ(gear assembling), ์ถฉ์ ๊ธฐ ๊ฝ๊ธฐ(charger plugging)์ ๋ค ๊ฐ์ง ๋ณต์กํ ์ ์ด ๊ธฐ๋ฐ ์์ ์์ ์ํ๋์์ต๋๋ค. ๊ฒฐ๊ณผ๋ MoDE-VLA๊ฐ ๊ธฐ์ค์ \pi_0 ๋ชจ๋ธ์ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์ฝ์ (insertion) ์์ ์์ ๋ ๋ฐฐ ์ด์์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ณด์์ผ๋ฉฐ, IMCopilot์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์์ ์ค์ํ ์ธ-ํธ๋ ํ์ ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ PCR(Peel Completion Ratio) 73%๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ์ต๋๋ค. ์ ๊ฑฐ ์ฐ๊ตฌ(ablation study)๋ ํ ๋ฐ ์ด๊ฐ ์ผ์์ ์ค์์ฑ๊ณผ IMCopilot์ ๊ธฐ์ฌ๋๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํ ์ผ์์ ์ ๊ฑฐ๋ ํ๊ท SR์ 11% ๊ฐ์์์ผฐ๊ณ , ์ด๊ฐ ์ผ์์ ์ ๊ฑฐ๋ 8% ๊ฐ์์์ผฐ์ผ๋ฉฐ, IMCopilot์ ๋ถ์ฌ๋ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ ์์ ์ PCR์ 73%์์ 25%๋ก ํฌ๊ฒ ๋จ์ด๋จ๋ ธ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ IMCopilot๊ณผ MoDE-VLA๋ฅผ ํตํฉํ์ฌ ๊ณ ์์ ๋ ์์ ์ ๊ตํ ์กฐ์์ ์ํ ํฌ๊ด์ ์ธ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌ์ถํ์ต๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋ฐ์ดํฐ ํ๋ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ณ , ๋ณต์กํ ๋ค์ค ์คํฌ ์์ ์ ์ฒ๋ฆฌํ๋ฉฐ, ์ด์ข ๋ชจ๋ฌ๋ฆฌํฐ ์ผ์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉํ์ฌ ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ค์ ์ ๊ตํ ์กฐ์์ ์ํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์ ์ด ๋ ผ๋ฌธ์ธ๊ฐ โ ๋ฌธ์ ์ ์์ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
์ฌ๊ณผ๋ฅผ ๊ป์ง ์ฑ๋ก ๋ฒ๊ธฐ๋ ์์ ์ ์๊ฐํด๋ณด์. ์ธ๊ฐ์๊ฒ๋ ๋๋ฌด๋ ์์ฐ์ค๋ฌ์ด ์ด ๋์์ ์ค์ ๋๋ผ์ด ๋ค์ค ๊ฐ๊ฐ์ ํ์ฐ์ด๋ค. ๋์ผ๋ก ์นผ๋ ์ ์์น๋ฅผ ํ์ธํ๊ณ , ์์ ํ์ผ๋ก ์ฌ๊ณผ๋ฅผ ์ฅ๋ ์ผ์ค๋ฌ์ง์ง ์์ ๋งํผ๋ง ๋๋ฅด๊ณ , ํผ๋ถ์ ์ด๊ฐ์ผ๋ก ๋ฏธ๋๋ฌ์ง์ ๊ฐ์งํด ์๊ฐ๋ฝ ๊ฐ๋๋ฅผ ์ค์๊ฐ์ผ๋ก ์กฐ์ ํ๋ค. ์ด ๋ชจ๋ ๊ฒ์ด ์์ญ ๋ฐ๋ฆฌ์ด ๋จ์๋ก ์ผ์ด๋๋ค.
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ต๊ทผ ์๋ ๊ฐ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ๋๋ถ์ ์ฑ๊ณผ๋ฅผ ๋๋ค. \pi_0, OpenVLA, RoboFlamingo ๊ฐ์ ๋ชจ๋ธ๋ค์ด ์ธ์ด ๋ช ๋ น์ ๋ฐ์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ง๊ณ , ๋ถ๋ฅํ๊ณ , ๋ฐฐ์นํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ๊ทธ๋ฌ๋ ์ด๋ค ๋ชจ๋ธ์ โ์โ์ ๋๋ถ๋ถ 2-์์ ๋(DoF)์ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ(parallel gripper)์๋ค. ์ด์ง ์ ์ด(์ด๋ฆผ/๋ซํ)๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๋จ์ํ ํฝ์คํ๋ ์ด์ค(pick-and-place) ์์ค์ ๋จธ๋ฌผ๋ ๋ ๊ฒ์ด๋ค.
Sharpa Robotics์ Tutian Tang ์ฐ๊ตฌํ์ ์ด ๋ ผ๋ฌธ์์ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ๋์ง๋ค:
โVLA ๋ชจ๋ธ์ ์ธ๊ฐ ์์ค์ ์์ ์ ๊ต ์กฐ์(bimanual dexterous manipulation)์ผ๋ก ํ์ฅํ ์ ์๋๊ฐ?โ
์ด๋ค์ด ๋ค๋ฃจ๋ ํ๋ซํผ์ SharpaNorth ๋ก๋ด์ด๋ค. ์ํ ๊ฐ๊ฐ 7-DoF, ๊ฐ ์(SharpaWave) 22-DoF, ํฉ๊ณ 63-DoF์ ๊ณ ์ฐจ์ ์์คํ ์ด๋ค. ์ฌ๊ธฐ์์ ์ธ ๊ฐ์ง ํต์ฌ ๋ณ๋ชฉ์ด ๋ฑ์ฅํ๋ค.
์ธ ๊ฐ์ง ๋ณ๋ชฉ
๋ณ๋ชฉ 1 โ ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์
63-DoF ์์คํ ์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ ์ดํ๋ ๊ฒ์ ์ ๋ฌธ ์คํผ๋ ์ดํฐ์๊ฒ๋ ๊ทน๋๋ก ๋์ ์ธ์ง ๋ถํ๋ฅผ ๊ฐํ๋ค. ๋จ์ ๊ทธ๋ฆฌํผ ์์คํ ์ 30๋ถ ์ฐ์ ์กฐ์๋ ๊ฐ๋ฅํ์ง๋ง, ๋ค์งํ(multi-finger) ์์ ๊ณ ์ฐจ์ ์ ์ด๋ ๋ช ๋ถ ์์ ์คํผ๋ ์ดํฐ๋ฅผ ์ง์น๊ฒ ๋ง๋ ๋ค. ๋ฐ์ดํฐ ํ์ง๋ ๋ณด์ฅํ๊ธฐ ์ด๋ ต๋ค. ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์ฒ๋ผ ์ ๊ตํ ์ธํธ๋(in-hand) ํ์ ์ด ํ์ํ ์์ ์ ์์ ์ง์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ํ ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅํ๋ค.
๋ณ๋ชฉ 2 โ ๋ฉํฐ์คํฌ ํ์ต์ ์ด๋ ค์
์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ ๊ฐ์ ๋ณต์กํ ์์ ์ ๋จ์ผ ๊ท ์ผ ์ ์ฑ ์ผ๋ก๋ ํต๋ฌํ๊ธฐ ์ด๋ ต๋ค. ์์ผ ๊ธฐ๋ฐ ์ ๊ทผ(approach), ํ ๊ธฐ๋ฐ ์ ์ญ(cutting), ์ด๊ฐ ๊ธฐ๋ฐ ํ์ (rotation) ๋ฑ์ด ์๋ก ๋ค๋ฅธ ๊ด์ธก ๋ชจ๋ฌ๋ฆฌํฐ์ ์ ์ด ์ ๋ต์ ์๊ตฌํ๋ค. 63-DoF์ ์ก์ ๊ณต๊ฐ์์ ๋จ์ผ ์ ์ฑ ์ด ์ด ๋ชจ๋ ๋จ๊ณ๋ฅผ ๋ง์คํฐํ๋ ๊ฒ์ ํ์ ๊ณต๊ฐ์ด ์ฒ๋ฌธํ์ ์ผ๋ก ์ปค์ ธ ํ์ค์ ์ด์ง ์๋ค.
๋ณ๋ชฉ 3 โ ๋ชจ๋ฌ๋ฆฌํฐ ์ด์ง์ฑ(Modality Heterogeneity)
ํ(force)๊ณผ ์ด๊ฐ(tactile) ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์กด VLA ๋ฐฑ๋ณธ์ ๋จ์ํ ์ฐ์ (concatenate)ํ๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ์ ํ๋๋ค๋ ๊ฒ์ ์ ํ ์ฐ๊ตฌ์์๋ ๋ณด๊ณ ๋ ๋ฐ ์๋ค. ํ ์ ํธ์ ์ด๊ฐ ์ ํธ๋ ์๊ฐ ๋์ญํ(temporal dynamics)์ด ๋ค๋ฅด๊ณ , ๋ฌผ๋ฆฌ์ ์๋ฏธ๋ก (physical semantics)๋ ๋ค๋ฅด๋ค. ์ด๋ฅผ ๊ตฌ๋ถํ์ง ์์ ์ฑ ๋ชจ๋ ํ๋์ ํ ํฐ ์คํธ๋ฆผ์ผ๋ก ์ฒ๋ฆฌํ๋ฉด ์ฌ์ ํ์ต๋ VLM ๋ฐฑ๋ณธ์ ํํ๋ ฅ์ ์ค์ผ์ํค๊ฒ ๋๋ค.
์ด ์ธ ๋ณ๋ชฉ ๊ฐ๊ฐ์ ๋ํด ๋ ผ๋ฌธ์ด ์ ์ํ๋ ํด๋ต์ด IMCopilot๊ณผ MoDE-VLA๋ผ๋ ๋ ํต์ฌ ์ปดํฌ๋ํธ์ด๋ค.
๋ฐฉ๋ฒ๋ก โ ๋ ๊ธฐ๋ฅ์ ๊ตฌ์กฐ
์์คํ ๊ฐ์
์ด ๊ตฌ์กฐ์ ํต์ฌ ํต์ฐฐ์ ์ด์ค ์ญํ (dual role)์ด๋ค. IMCopilot์ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ์์๋ ๊ณต๋ ์์จ ๋ณด์กฐ์๋ก, ์์จ ์คํ ๋จ๊ณ์์๋ ํธ์ถ ๊ฐ๋ฅํ ์ ์์ค ํ๋ฆฌ๋ฏธํฐ๋ธ๋ก ๋์ํ๋ค. ์ฆ, ํ๋ จ๊ณผ ์ถ๋ก ์์ชฝ์์ ์ผ๊ด๋ ์ญํ ์ ํ๋ ๋จ์ผ RL ์ ์ฑ ์ด๋ค.
IMCopilot โ RL ๊ธฐ๋ฐ ์์์ ์ธํธ๋ ์คํฌ
๊ฐ๋ ๊ณผ ๊ตฌ์กฐ
IMCopilot์ ์์์ ์์์ ์ธํธ๋ ์กฐ์ ํ๋ฆฌ๋ฏธํฐ๋ธ(atomic in-hand manipulation primitives)๋ก ๊ตฌ์ฑ๋๋ค. ๋ ผ๋ฌธ์์ ์ธ๊ธํ๋ ํต์ฌ ํ๋ฆฌ๋ฏธํฐ๋ธ๋ ๋ ๊ฐ์ง๋ค:
- ์์ ์ ํ์ง ์ ์ง(stable grasp maintenance) โ ์ธ๋ถ ๊ต๋ ํ์์๋ ๋ฌผ์ฒด๋ฅผ ํ์คํ ์ฅ๊ณ ์๋ ๊ฒ.
- ์ธํธ๋ ํ์ (in-hand rotation) โ ํ์ง ์ํ๋ฅผ ์ ์งํ๋ฉด์ ๋ฌผ์ฒด๋ฅผ ์ ์์์ ํ์ ์ํค๋ ๊ฒ.
์ด ์คํฌ๋ค์ ์ฌ์ธต ๊ฐํํ์ต(deep RL)์ผ๋ก ํ๋ จ๋๋ค. ํต์ฌ์ ์๋ฎฌ๋ ์ด์ ์์ ๋ช ์์ ๋ณด์(reward)์ ์ค๊ณํ์ฌ ํ์ตํ๊ณ , ์ด๋ฅผ ์ค๋ฌผ ๋ก๋ด์์ sim-to-real ์ ์ดํ๋ค๋ ๊ฒ์ด๋ค.
MoDE-VLA โ ๊ฐ๊ฐ ์ด์ง์ฑ์ ๋๋ ์ํคํ ์ฒ
MoDE-VLA๋ ์ธ ๊ฐ์ง ์๋ธ๋ชจ๋์ ์๋์ง๋ก ์๋ํ๋ค: (1) OpenPI-0 ๋ฐฑ๋ณธ, (2) Mixture-of-Dexterous-Experts(MoDE) ๋ชจ๋, (3) ๊ณ์ธต์ ๊ฒฐ์ ๋ฉ์ปค๋์ฆ.
๊ธฐ๋ฐ ๋ฐฑ๋ณธ: OpenPI-0
๋ ผ๋ฌธ์ \pi_0์ ๊ณต๊ฐ ๋ฒ์ ์ธ OpenPI-0๋ฅผ VLA ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ๋ค. ์ด ๋ชจ๋ธ์ ์๊ฐ ํ ํฐ, ์ธ์ด ํ ํฐ, ๊ณ ์ ๊ฐ๊ฐ(proprioception) ํ ํฐ, ๊ทธ๋ฆฌ๊ณ ๋ ธ์ด์ฆ ์ก์ ํ ํฐ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ๋ก์ฐ ๋งค์นญ(flow matching)์ ํตํด ์ก์ ์ฒญํฌ(action chunk)๋ฅผ ์ถ๋ ฅํ๋ค. \pi_0์ ํต์ฌ ๊ตฌ์กฐ๋ ์ธ์ด ๋ชจ๋ธ ๋ฐฑ๋ณธ + ๋ถ๋ฆฌ๋ ์ก์ ์ ๋ฌธ๊ฐ(action expert)๋ก ๊ตฌ์ฑ๋๋ฉฐ, MoDE๋ ์ด ์ก์ ์ ๋ฌธ๊ฐ ๋ถ๋ถ์ ์ฝ์ ๋๋ค.
MoDE ๋ชจ๋์ ์๋ ์๋ฆฌ
MoDE์ ํต์ฌ ์์ด๋์ด๋ ํ-์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ํ ์ ์ฉ ๊ฒฝ๋ก(dedicated pathway)๋ฅผ ๋ง๋ค์ด ์์ฐจ ๋ณด์ (residual correction) ํํ๋ก ์ฃผ์ ํ๋ ๊ฒ์ด๋ค. ์์์ผ๋ก ํํํ๋ฉด:
a_t^{\text{final}} = a_t^{\text{VLA}} + \Delta a_t^{\text{MoDE}}
์ฌ๊ธฐ์ a_t^{\text{VLA}}๋ VLA ๋ฐฑ๋ณธ์ด ์์ฑํ ๊ธฐ๋ณธ ์ก์ ์ด๊ณ , \Delta a_t^{\text{MoDE}}๋ MoDE ๋ชจ๋์ด ํ/์ด๊ฐ ์ ํธ๋ก๋ถํฐ ๊ณ์ฐํ ์์ฐจ ๋ณด์ ๊ฐ์ด๋ค.
MoDE ๋ชจ๋์ ๋ด๋ถ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ๋ค:
flowchart LR
F["Force Sensor\n(6-axis F/T)"] --> FT["Force Tokens"]
T["Tactile Sensor\n(SharpaWave\ninternal camera)"] --> TT["Tactile Tokens"]
FT --> SA["Self-Attention\nwith Backbone\nRepresentations"]
TT --> SA
SA --> MoE["Sparse MoE Router\n(per-timestep\nexpert specialization)"]
MoE -->|"Force Experts"| FC["Force Residual\n(Arm Action Correction)"]
MoE -->|"Tactile Experts"| TC["Tactile Residual\n(Hand Action Correction)"]
FC -->|"Add"| ARM["Final Arm Actions"]
TC -->|"Option 1: Add"| HAND["Final Hand Actions"]
TC -->|"Option 2: Trigger"| IMP["IMCopilot\nDispatch"]
IMP --> HAND
๊ตฌ์ฒด์ ์ผ๋ก ์ธ ๋จ๊ณ๋ก ๋ถํดํ ์ ์๋ค:
Step 1 โ ๊ต์ฐจ ์ดํ ์ (Self-Attention with Backbone)
ํ-์ด๊ฐ ํ ํฐ์ด VLA ๋ฐฑ๋ณธ์ ํํ๊ณผ ์ํธ์์ฉํ๋ค. ์ด๋ฅผ ํตํด โํ์ฌ ์๊ฐ-์ธ์ด ๋งฅ๋ฝ์์ ์ด ์ด๊ฐ ์ ํธ๊ฐ ์๋ฏธํ๋ ๋ฐ๋ ๋ฌด์์ธ๊ฐโ๋ฅผ ๋ชจ๋ธ์ด ํ์ ํ ์ ์๊ฒ ๋๋ค. ์ฌ๊ณผ๋ฅผ ์ก๊ณ ์นผ๋ก ๊ป์ง์ ๋ฒ๊ธฐ๋ ์ค์ ๊ฐ์ง๋ ๋ฏธ๋๋ฌ์ง ์ ํธ์, ๊ธฐ์ด๋ฅผ ์กฐ๋ฆฝํ๋ ์ค์ ๊ฐ์ง๋ ๋ฏธ๋๋ฌ์ง ์ ํธ๋ ์๋ก ๋ค๋ฅธ ์๋ฏธ์ ๋์ ์ ๋ต์ ๊ฐ์ง๋ค.
Step 2 โ Sparse MoE ๋ผ์ฐํ
์ดํ ์ ์ ๊ฑฐ์น ํ ํฐ์ ํฌ์ ์ ๋ฌธ๊ฐ ๋ผ์ฐํฐ(sparse expert router)๋ฅผ ํต๊ณผํ๋ค. ๋ผ์ฐํฐ๋ ๊ฐ ํ์์คํ ๋ง๋ค ์ ์ ํ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ๋ฅผ ๋์ ์ผ๋ก ์ ํํ๋ค. ์๋ฅผ ๋ค์ด, ์นผ๋ ์ด ์ฌ๊ณผ ํ๋ฉด์ ์ต์ด๋ก ๋ฟ๋ โ์ ์ด ๊ฐ์(contact onset)โ ์๊ฐ์๋ ์ ์ด ์ ๋ฌธ๊ฐ๊ฐ ํ์ฑํ๋๊ณ , ์์ ์ ์ธ ์ ์ญ ๋จ๊ณ์์๋ ๋ค๋ฅธ ์ ๋ฌธ๊ฐ๊ฐ ์ฒ๋ฆฌํ๋ค.
MoE ๋ผ์ฐํ ๋ฐฉ์ ์:
\mathbf{y}(\mathbf{x}) = \sum_{i \in \text{TopK}(\mathbf{G}(\mathbf{x}))} g_i(\mathbf{x}) \cdot \mathbf{E}_i(\mathbf{x})
์ฌ๊ธฐ์ \mathbf{G}(\mathbf{x})๋ ๊ฒ์ดํ ๋คํธ์ํฌ, g_i(\mathbf{x})๋ ๊ฒ์ดํ ๊ฐ์ค์น, \mathbf{E}_i(\mathbf{x})๋ i๋ฒ์งธ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ด๋ค.
Step 3 โ ์์ฐจ ์ฃผ์ (Residual Injection)
MoE์ ์ถ๋ ฅ์ ๊ธฐ๋ณธ VLA ์ก์ ์ ๋ง์ (addition) ํํ๋ก ์ฃผ์ ๋๋ค. ์ด๊ฒ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ์์ง๋์ด๋ง ์ ํ์ด๋ค. ์ง์ ์ถ๋ ฅ์ ๋์ฒดํ๋ ๋์ ๋ณด์ ๊ฐ์ ๋ํ๋ ๋ฐฉ์์ผ๋ก, ์ฌ์ ํ์ต๋ ์ง์์ ํ๊ดด(catastrophic forgetting)๋ฅผ ๋ฐฉ์งํ๋ค.
์ด ์ ๊ทผ๋ฒ์ ์ฌ๋์ ์ด๋ ์ ์ด์ ์ข์ ์ ๋น๋ฅผ ์ด๋ฃฌ๋ค. ์๋ จ๋ ์กฐ๊ฐ๊ฐ๊ฐ ์๋ก์ด ์ฌ๋ฃ๋ฅผ ๋ค๋ฃฐ ๋, ๊ธฐ์กด์ ์ตํ ์๋๋ฆผ์ ๊ธฐ๋ฐ ์์ ์๋ก์ด ์ฌ๋ฃ์ ๋ฌผ์ฑ(์ด๊ฐ, ์ ํญ๋ ฅ)์ ๋ง๋ ๋ฏธ์ธ ์กฐ์ ์ ๋ํ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๊ธฐ์ด ๊ธฐ์ ์์ฒด๋ฅผ ๋ฒ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ, ๋งฅ๋ฝ์ ๋ง๋ ๋ณด์ ์ ๊ฒน์น๋ ๊ฒ์ด๋ค.
์ ๋จ์ ์ฐ์ (Concat)์ ์คํจํ๋๊ฐ
ํ ์ ํธ์ ์ด๊ฐ ์ ํธ๋ฅผ ๋จ์ํ VLA ์ ๋ ฅ ํ ํฐ์ ์ฐ์ ํ๋ฉด ์ ์ฑ๋ฅ์ด ์ ํ๋๋๊ฐ?
๊ฐ์ฅ ์ง๊ด์ ์ธ ์ค๋ช ์ ๋ถํฌ ์ถฉ๊ฒฉ(distribution shock)์ด๋ค. VLA ๋ชจ๋ธ์ ์๊ฐ-์ธ์ด ๋ฐ์ดํฐ๋ก ๋ฐฉ๋ํ๊ฒ ์ฌ์ ํ์ต๋์ด ์๋ค. ์ด ๋ชจ๋ธ์ ์ ๋ ฅ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ๋ฌผ๋ฆฌ ์ ํธ๋ฅผ ๊ทธ๋๋ก ์ง์ด๋ฃ์ผ๋ฉด, ๋ชจ๋ธ์ด ์ด์ ์ ๋ณธ ์ ์๋ ์ด์ํ ํ ํฐ์ด ๊ฐ์๊ธฐ ๋ํ๋๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๋ง์น ์ค๋ซ๋์ ์๊ฐ ์ ๋ณด๋ง์ผ๋ก ์์ ํ๋ ์ฌ๋์๊ฒ ๊ฐ์๊ธฐ ์์ ์ ๊ธฐ์ถฉ๊ฒฉ ๊ฐ์ง๊ธฐ๋ฅผ ๋ถ์ฌ๋๋ ๊ฒ๊ณผ ๊ฐ๋ค โ ์ฒ์์๋ ์คํ๋ ค ๋ฐฉํด๊ฐ ๋๋ค.
MoDE์ ์์ฐจ ์ฃผ์ ์ ์ด ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ค. VLA ๋ฐฑ๋ณธ์ ์๋ ํ๋ ๋๋ก ์๊ฐ-์ธ์ด ๊ธฐ๋ฐ ์ก์ ์ ์์ฑํ๊ณ , MoDE๋ โ๋ด๊ฐ ์ถ๊ฐ๋ก ์กฐ์ ํ ๋ถ๋ถโ๋ง ๊ณ์ฐํด์ ๋ํ๋ค.
๊ณ์ธต์ ๊ฒฐ์ ๋ฉ์ปค๋์ฆ
๋งค ํ์์คํ ๋ง๋ค ์์คํ ์ ๋ ๊ฐ์ง ์ต์ ์ค ํ๋๋ฅผ ์ ํํ๋ค:
- Option 1: ์ ์ก์ ์ VLA + MoDE ์ด๊ฐ ์์ฐจ๋ก ์์ฑ (ํ๋ก์ฐ ๋งค์นญ)
- Option 2: IMCopilot์ด ์ ์ก์ ์ ์ง์ ์์ฑ (RL ์ ์ฑ )
์์ชฝ ์ต์ ๋ชจ๋์์ ํ ์ก์ ์ VLA + MoDE ํ ์์ฐจ๋ก ์์ฑ๋๋ค. Option 2๋ก์ ์ ํ์ ์ฌ๊ณผ ๊ป์ง ํ ๋ฐํด ๋ฒ๊ธฐ๊ธฐ๊ฐ ์๋ฃ๋ ํ ๋ค์ ๋ฐํด๋ฅผ ์ํ ํ์ ์ด ํ์ํ ์์ ์ฒ๋ผ, VLA๊ฐ ์ค์ค๋ก IMCopilot์ ํธ์ถํด์ผ ํ๋ค๊ณ ํ๋จํ ๋ ๋ฐ๋๋๋ค.
์ด ๊ณ์ธต์ ๊ตฌ์กฐ๋ ์ธ๊ฐ์ ์ด๋ ์ ์ด ์ด๋ก , ํนํ ๊ณ์ธต์ ์ด๋ ์ ์ด(Hierarchical Motor Control) ๋ชจ๋ธ๊ณผ ๋งค์ฐ ์ ์ฌํ๋ค. ๋๋ ํผ์ง์ด ๋ชฉํ์ ์ ๋ต์ ๊ฒฐ์ ํ๊ณ , ์๋์ ์ฒ์์ ์ ์์ค ํ๋ก๊ฐ ๋ฐ์ฌ์ ๊ทผ์ธ๋ฐ์กฐ์ ์ ๋ด๋นํ๋ ๊ฒ์ฒ๋ผ.
ํ๋์จ์ด ํ๋ซํผ: SharpaNorth + SharpaWave
๋ ผ๋ฌธ์ด ์ ํํ ํ๋์จ์ด๋ ์ด ์ฐ๊ตฌ์ ์ฑ๊ฒฉ์ ์ ๋ณด์ฌ์ค๋ค.
| ๊ตฌ์ฑ ์์ | ์ฌ์ |
|---|---|
| ํ๋ซํผ | SharpaNorth ์ํ ๋ก๋ด |
| ํ | 7-DoF x 2 = 14 DoF |
| ์ | SharpaWave 22-DoF x 2 = 44 DoF |
| ์ด DoF | 63 DoF |
| ์ด๊ฐ ์ผ์ | ์๊ฐ๋ฝ ๋ ๋ณํ์ ๊ฐ์งํ๋ ๋ด๋ถ ์นด๋ฉ๋ผ (visuotactile) |
| ํ ์ผ์ | 6์ถ F/T ์ผ์ |
| ํ ๋ ์คํผ๋ ์ด์ | ์ธ๊ณจ๊ฒฉ(exoskeleton) + VR ํผ๋๋ฐฑ |
SharpaWave ์์ ์ด๊ฐ ์ผ์๊ฐ ํฅ๋ฏธ๋กญ๋ค. ์ธ๋ถ์ ๋ณ๋์ ์๋ ฅ ์ผ์ ๋ฐฐ์ด์ ๋ถ์ด๋ ๋ฐฉ์์ด ์๋๋ผ, ์๊ฐ๋ฝ ๋ ๋ด๋ถ์ ์ํ ์นด๋ฉ๋ผ๋ฅผ ๋ด์ฅํ์ฌ ์๊ฐ๋ฝ ํจ๋์ ํ์ฑ ๋ณํ์ ๊ดํ์ ์ผ๋ก ์ธก์ ํ๋ค. ์ด ๋ฐฉ์์ DIGIT, GelSight ๊ณ์ด ๋น์ฃผ์ค-์ด๊ฐ(visuotactile) ์ผ์์ ๊ฐ๋ ์ ์ผ๋ก ์ ์ฌํ๋ค.
์คํ โ ๋ค ๊ณผ์ ์ ๊ณ๋จ์ ๋์
๊ณผ์ ๊ตฌ์ฑ
๋ ผ๋ฌธ์ ์ ์ด ๋ณต์ก๋(contact complexity)๊ฐ ์ ์ธต์ ์ผ๋ก ๋์์ง๋ ๋ค ๊ฐ์ง ๊ณผ์ ๋ก ์์คํ ์ ๊ฒ์ฆํ๋ค:
graph LR
T1["Task 1\nGear Assembling\nsingle arm, vision+force"]
T2["Task 2\nCharger Plugging\nsingle arm, precision insert"]
T3["Task 3\nTest Tube Rearranging\nbimanual coordination"]
T4["Task 4\nApple Peeling\nbimanual + in-hand rotation\n+ tactile feedback"]
T1 -->|"complexity up"| T2 --> T3 --> T4
style T4 fill:#e74c3c,color:#fff
- Gear Assembling: ์ ๋ฐ ์์น ์ ๋ ฌ๊ณผ ํ ์ ์ด๊ฐ ํ์ํ ๊ธฐ์ด ์กฐ๋ฆฝ. ๋จ์ผ ํ, ํ ์ผ์ ํผ๋๋ฐฑ์ด ํต์ฌ.
- Charger Plugging: ์ปค๋ฅํฐ ์ฝ์ . ์ข์ ๊ณต์ฐจ(tolerance) ์กฐ๊ฑด์์ VLA์ ์๊ฐ ์ธ์๊ณผ ํ ํผ๋๋ฐฑ์ ๊ฒฐํฉ.
- Test Tube Rearranging: ์ํ ํ๋ ฅ(bimanual coordination). ๋ ํ์ด ์๊ฐ-์ธ์ด ๋งฅ๋ฝ์ ๊ณต์ ํ๋ฉด์ ์ํ๊ด์ ์ฌ๋ฐฐ์น.
- Apple Peeling: ์ต๊ณ ๋์ด๋. ์๊ฐ ๊ธฐ๋ฐ ๋๋ต ์ ๊ทผ โ ํ ๊ธฐ๋ฐ ์ ์ญ โ ์ด๊ฐ ๊ธฐ๋ฐ ์ธํธ๋ ํ์ ์ ์ํ ๋ฐ๋ณต. ์ด ๋ ผ๋ฌธ์์ ์ธ๊ณ ์ต์ด์ ์์จ ์์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ๋ฅผ ๋ฌ์ฑํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
๊ฒฐ๊ณผ ์์ฝ
์๋๋ ๋ ผ๋ฌธ์ ์ฃผ์ ์ ๋์ ๊ฒฐ๊ณผ๋ค:
| ๊ณผ์ | Baseline SR | MoDE-VLA SR | ๊ฐ์ |
|---|---|---|---|
| Gear Assembling | ~17% | ~40% | +135% |
| Charger Plugging | ~20% | ~45% | +125% |
| Test Tube Rearranging | ~15% | ~30% | +100% |
| Apple Peeling (SR) | - | 30% | - |
| Apple Peeling (PCR) | ~25% | 73% | +192% |
์ ์ฒด ํ๊ท ์ฑ๊ณต๋ฅ : 34% (๋ฒ ์ด์ค๋ผ์ธ ๋๋น 2๋ฐฐ ์ด์)
SR: Success Rate (์์ ์ฑ๊ณต๋ฅ )
PCR: Peel Completion Ratio (ํ ๋ฐํด ๊ป์ง ์์ฑ ๋น์จ) โ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์๋ง ์ ์ฉ๋๋ ํน์ ์งํ
PCR ์งํ์ ์๋ฏธ
์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์์ SR 30%๋ ๋ฎ์ ๋ณด์ผ ์ ์๋ค. ๊ทธ๋ฌ๋ PCR 73%๋ผ๋ ์์น๊ฐ ์ด ์์คํ ์ ์ค์ง์ ๋ฅ๋ ฅ์ ๋ ์ ๋ณด์ฌ์ค๋ค. ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ์ข ์ข ์ฒซ ๋ฒ์งธ ํ์ผ ์คํธ๋กํฌ(peel stroke)๋ฅผ ์์ํ์ง๋ง, ์ฌ๊ณผ๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ํ์ ์ด ์คํจํ๋ฉด์ ๋ฃจํ๋ฅผ ์์ฑํ์ง ๋ชปํ๋ค. MoDE-VLA๋ IMCopilot์ RL ํ์ ์ ๋ฌธ๊ฐ๋ฅผ ์ ์ ํ ์๊ฐ์ ๋ฐ๋์์ผ ํ์ผ ๋ฃจํ๋ฅผ ๋ซ๋ ๋ฐ ์ฑ๊ณตํ๋ค.
๊ฐ์ฅ ์ธ์์ ์ธ ์์น๋ IMCopilot ์ ๊ฑฐ ์ PCR 25% ํ๋ฝ์ด๋ค. IMCopilot ์์ด VLA๊ฐ ์ง์ ์ ์ก์ ์ ์ฒด๋ฅผ ์์ฑํ ๊ฒฝ์ฐ, PCR์ด 73%์์ 25%๋ก ๊ธ๋ฝํ๋ค. ์ด๋ ์ง์ ํ ๋ ์คํผ๋ ์ด์ ์์ ํ์ ์ฑ๊ณต๋ฅ ์ด ๋ฎ๋ค๋ ๊ด์ฐฐ๊ณผ ์ ํํ ์ผ์นํ๋ค. ๊ฐ์ ๊ตฌ์กฐ์ ์ด๋ ค์์ด ํ ๋ ์คํผ๋ ์ด์ ๋จ๊ณ์ VLA ์ ์ฑ ๋จ๊ณ์์ ๋์ผํ๊ฒ ๋ํ๋๊ณ , IMCopilot์ด ์ด ๊ณตํต ์คํจ ๋ชจ๋๋ฅผ ํด๊ฒฐํ๋ ๋ฉ์ปค๋์ฆ์์ ๋ณด์ฌ์ค๋ค.
Ablation Study ์์ฝ
๋ ผ๋ฌธ์ ablation์ ๋ค์ ์ง๋ฌธ๋ค์ ๋ตํ๋ค:
- Q1. IMCopilot ์์ด ์์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ฌ๊ณผ ํ์ ์ด ๊ฐ๋ฅํ๊ฐ? ์ ๋ฌธ ์คํผ๋ ์ดํฐ๋ ์ง์ ํ์ ์ ์ด๋ ต๊ณ ์ฑ๊ณต๋ฅ ์ด ๋งค์ฐ ๋ฎ๋ค.
- Q2. MoDE ๋ชจ๋ ์์ด ํ/์ด๊ฐ์ ๋จ์ ์ฐ์ ํ๋ฉด? ์ฑ๋ฅ์ด ์ ํ๋๋ค. ํนํ ๊ณ ์ ์ด(high-contact) ๊ณผ์ ์์ ๋๋๋ฌ์ง๋ค.
- Q3. IMCopilot ์์ด MoDE-VLA๋ง ์ฌ์ฉํ๋ฉด? ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์์ PCR 73% โ 25%๋ก ๊ธ๋ฝ. ์๊ฐ+ํ+์ด๊ฐ ์ตํฉ๋ง์ผ๋ก๋ ์ธํธ๋ ํ์ ์ ์์ ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
๋ฐ์ดํฐ ์์ง ์ ๋ต ๊ด์
| ์ ๊ทผ๋ฒ | ๋ฐฉ์ | ํ๊ณ |
|---|---|---|
| ์์ ๋น์ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ | ์นด๋ฉ๋ผ๋ก ์ ์์ธ ์ถ์ | ํ์, ๊น์ด ๋ถํ์ค์ฑ, ์ ์ด ์ธ์ ๋ถ์ฌ |
| ๊ธ๋ฌ๋ธ ๊ธฐ๋ฐ (MANUS ๋ฑ) | ์ ํค๋ค๋งํฑ ์ง์ ๋งคํ | ์ ์ด๋ ฅ ์ ๋ณด ๋ถ์ฌ, ์๊ฐ๋ฝ ๋น๋์ ๋ฌธ์ |
| ์ธ๊ณจ๊ฒฉ ๊ธฐ๋ฐ | ๊ณ ์ถฉ์ค๋ ์ญ๋ํ ์ ๋ฌ | ๊ณ ๋น์ฉ, ๋์ ์ธ์ง๋ถํ |
| IMCopilot (๋ณธ ๋ ผ๋ฌธ) | ๊ณต๋์์จ + ๋ฐ ํ๋ฌ ์์ | ์ด๊ธฐ ๋จ๊ณ, ์ ํ์ ์คํฌ ์งํฉ |
GR-Dexter (ByteDance Seed)์ ๋น๊ตํ๋ฉด ํฅ๋ฏธ๋กญ๋ค. GR-Dexter๋ MANUS ๊ธ๋ฌ๋ธ + Meta Quest ํค๋์ ์ผ๋ก 56-DoF ์์ ์์คํ ์ ํ ๋ ์คํผ๋ ์ด์ ํ์ฌ VLA๋ฅผ ํ๋ จํ๋ฉฐ, ํฝ์คํ๋ ์ด์ค์์ ์ฑ๊ณต๋ฅ 0.97์ ๋ฌํ๋ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ๊ณผ์ ๋์ด๋ ์์ฒด๋ ๋ณธ ๋ ผ๋ฌธ์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ์ ๋น๊ตํ๋ฉด ์๋์ ์ผ๋ก ๋จ์ํ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ฐจ๋ณ์ ์ VLA๊ฐ ๋จ์ํ ๊ณ ์ฐจ์ ๋ชจ๋ฐฉ์ ํ๋ ๊ฒ์ด ์๋๋ผ, RL ํ๋ฆฌ๋ฏธํฐ๋ธ๋ฅผ ํธ์ถํ๋ ๊ณ์ธต์ ์คํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ์๋ค๋ ์ ์ด๋ค.
VLA ์ํคํ ์ฒ ๊ด์
| ๋ชจ๋ธ | ์ ์ด ๊ฐ๊ฐ ํตํฉ ๋ฐฉ์ | ๋น๊ณ |
|---|---|---|
| pi0 / OpenPI-0 | ๋ฏธํฌํจ | ๊ธฐ๋ณธ ๋ฐฑ๋ณธ |
| ForceVLA | FVLMoE (4 experts, k=1) | ๋จ์ผ ํ, 6D F/T๋ง ์ฒ๋ฆฌ |
| TA-VLA | ํ ํฌ ์ ํธ ํตํฉ | ์ ์ด ์กฐ์ ๊ฐ์ |
| MoDE-VLA (๋ณธ ๋ ผ๋ฌธ) | ํ+์ด๊ฐ ์ด์ค ์์ฐจ ๊ฒฝ๋ก, MoE | ์์, IMCopilot ๊ณ์ธต ํตํฉ |
ForceVLA์ MoDE-VLA๋ MoE๋ฅผ ์ด์ฉํ ํ ํตํฉ์ด๋ผ๋ ์ปจ์ ์ ๊ณต์ ํ์ง๋ง, MoDE-VLA๋ (1) ์ด๊ฐ ์ผ์๊น์ง ํฌํจํ๋ ์ด์ค ๊ฒฝ๋ก, (2) IMCopilot ๊ณ์ธต ์ฐ๊ณ, (3) ์์ ์์คํ ์ด๋ผ๋ ์ ์์ ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
HACTS (Human-As-Copilot Teleoperation System)์์ ๋น๊ต๋ ํฅ๋ฏธ๋กญ๋ค. HACTS๋ VLA ์ฝํ์ผ๋ฟ์ด ์์ ์ธ๋ฐ ๋์์ ์์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ธ๊ฐ์ด ํ์ ํฐ ๋์๋ง ์ ์ดํ๋ ๊ณต๋์์จ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋๋ฐ, IMCopilot์ ๋ฐ์ดํฐ ์์ง ์ฒ ํ๊ณผ ๊ฐ๋ ์ ์ผ๋ก ์ ์ฌํ๋ค. ๋ค๋ง HACTS๋ VLA ์ฝํ์ผ๋ฟ์ ์ฐ๋ ๋ฐ๋ฉด, IMCopilot์ RL ์ ์ฑ ์ ์ด๋ค๋ ์ฐจ์ด๊ฐ ์๋ค.
๋นํ์ ๊ณ ์ฐฐ โ ๊ฐ์ , ํ๊ณ, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋
๊ฐ์
1. ํต์ผ๋ ์ด์ค ์ญํ ์ค๊ณ์ ์ฐ์ํจ
IMCopilot์ด ํ๋ จ(๋ฐ์ดํฐ ์์ง)๊ณผ ์ถ๋ก (์์จ ์คํ)์์ ๋์ผํ RL ์ ์ฑ ์ ์ฌ์ฉํ๋ค๋ ์ ์ ์์คํ ์ค๊ณ์ ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋ค. ํ๋ จ ๋ถํฌ(training distribution)์ ์คํ ๋ถํฌ(execution distribution) ์ฌ์ด์ ๋ถ์ผ์น๋ฅผ ์ต์ํํ๋ ํจ๊ณผ๊ฐ ์๋ค.
2. ์์ฐจ ์ฃผ์ ์ ๋ณด์์ ์์ ์ฑ
์ฌ์ ํ์ต ์ง์์ ํ๊ดดํ์ง ์๋ ์์ฐจ ์ฃผ์ ๋ฐฉ์์ ์ค์ฉ์ ์ผ๋ก๋, ์ด๋ก ์ ์ผ๋ก๋ ํ๋นํ๋ค. ๊ณ ํ์ง VLA ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ ์ ์ฆ๊ฐํ๋ ํ์ฌ ์ํ๊ณ์์, ๊ธฐ์กด ๋ชจ๋ธ ์์ ์๋ก์ด ๊ฐ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ โ๊ฝ์ ์ ์๋(pluggable)โ ํํ๋ก ํ์ฅํ๋ ์ํคํ ์ฒ๋ ์ฌ์ฌ์ฉ์ฑ(reusability) ๊ด์ ์์ ๊ฐ์น๊ฐ ํฌ๋ค.
3. ์ธ๊ณ ์ต์ด ์์จ ์์ ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ
์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ๋ ์ฐ์์ ํ์ผ ์คํธ๋กํฌ์ ์ธํธ๋ ํ์ ์ ๋ฐ๋ณต ๋ฃจํ, ์ฌ๊ณผ ํ๋ฉด์ ๋ถ๊ท ์ผํ ๊ณก๋ฅ , ์นผ๋ ๊ณผ ์ฌ๊ณผ ํ๋ฉด ๊ฐ์ ๋ณต์กํ ์ ์ด ์ญํ์ด ๊ฒฐํฉ๋ ๋ฒค์น๋งํฌ๊ธ ๊ณผ์ ๋ค.
4. PCR์ด๋ผ๋ ์ธ๋ฐํ ํ๊ฐ ์งํ ๋์
๋จ์ SR(์ฑ๊ณต/์คํจ)๋ง์ผ๋ก๋ ๋ณต์กํ ์กฐ์ ๊ณผ์ ์ ๋ถ๋ถ์ ์ฑ๊ณต์ ์ธก์ ํ๊ธฐ ์ด๋ ต๋ค. PCR์ฒ๋ผ ๊ณผ์ ๊ตฌ์กฐ์ ๋ง์ถ ์ธ๋ฐํ ์งํ๋ฅผ ์ ์ํ ๊ฒ์ ์ปค๋ฎค๋ํฐ์ ๊ธฐ์ฌํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์์ด๊ธฐ๋ ํ๋ค.
ํ๊ณ ๋ฐ ์ฝ์
1. ์ ํ์ ์ธ IMCopilot ์คํฌ ์งํฉ
ํ์ฌ IMCopilot์ ์์ ์ ํ์ง ์ ์ง์ ์ธํธ๋ ํ์ ์ด๋ผ๋ ์์์ ์์์ ํ๋ฆฌ๋ฏธํฐ๋ธ๋ง ๊ฐ์ถ๊ณ ์๋ค. ์ค์ ์ฐ์ ํ๊ฒฝ์์๋ ํจ์ฌ ๋ ๋ค์ํ ์ธํธ๋ ๋์์ด ํ์ํ๋ค. ์คํฌ์ ํ์ฅํ๋ ๊ณผ์ ์์ ๊ฐ ์คํฌ๋ง๋ค ๋ณ๋์ RL ํ๋ จ ์ฌ์ดํด์ด ํ์ํ๋ค๋ ์ ์ ํ์ฅ์ฑ(scalability)์ ๋ณ๋ชฉ์ด ๋ ์ ์๋ค.
2. ์ฌ๊ณผ ๊ป์ง ๋ฒ๊ธฐ๊ธฐ ์ฑ๊ณต๋ฅ 30%์ ํ๊ณ
70%๋ ์์ง๋ ์คํจํ๋ค. PCR 73%๊ฐ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ฒ๋ผ, ๊ฐ๋ณ ๋จ๊ณ์์์ ๋ฅ๋ ฅ์ ์์ผ๋ ์ ์ฒด ์ํ์ค์ ์กฐํฉ์ ์คํจ๊ฐ SR์ ๋์ด๋ด๋ฆฐ๋ค. ์ด๋ ๊ธด ์ํ์ค์ ๋ณตํฉ์ ์ค๋ฅ ์ ํ(error propagation) ๋ฌธ์ ๋ก, ๊ณ์ธต์ ์ ์ฑ ๊ตฌ์กฐ์ ๊ณ ์ ํ ์ทจ์ฝ์ ์ด๋ค.
3. ์๋ฎฌ๋ ์ด์ -์ค๋ฌผ ๊ฐญ ํ๊ฐ ๋ถ์ฌ
RL ์คํฌ(IMCopilot)์ ์๋ฎฌ๋ ์ด์ ํ๋ จ์์ ์ค๋ฌผ ์ ์ด๊น์ง์ ๊ณผ์ ์ด ๋ ผ๋ฌธ์์ ์์ธํ ๋ค๋ค์ง์ง ์๋๋ค. ์ ๊ตํ ์ ์ด ์ญํ์ ์๊ตฌํ๋ ์ธํธ๋ ์กฐ์์์ sim-to-real ๊ฐญ์ ํฐ ๋์ ์ด๋ฉฐ, ์ด ๋ถ๋ถ์ ํฌ๋ช ํ ๋ณด๊ณ ๊ฐ ์์ฝ๋ค.
4. ๊ณ ์ ํ๋์จ์ด ์์กด์ฑ
SharpaWave ์์ ๋ด์ฅ ๋น์ฃผ์ค-์ด๊ฐ ์ผ์๋ ์ด ์ฐ๊ตฌ์ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ ์ค ํ๋๋ค. ๋ค๋ฅธ ํ๋ซํผ(Allegro Hand, Shadow Hand, LEAP Hand ๋ฑ)์ผ๋ก์ ์ง์ ์ด์ ์๋ ์๋นํ ์ฌ์ค๊ณ๊ฐ ํ์ํ๋ค. ์ํคํ ์ฒ์ ์ผ๋ฐ์ฑ๊ณผ ํ๋ซํผ ์์กด์ฑ ์ฌ์ด์ ๊ฐ๊ทน์ด ์กด์ฌํ๋ค.
5. ์ค์๊ฐ ์ ์ด ๋ ์ดํด์ ๋ถ์ ๋ถ์ฌ
ํ๋ก์ฐ ๋งค์นญ ๊ธฐ๋ฐ VLA์ ์ถ๋ก ๋ ์ดํด์์ IMCopilot์ ๋ฐ์ํ ์ ๋ ๋ฒจ ์ ์ด ๋ ์ดํด์๊ฐ ์ด๋ป๊ฒ ๋ง๋ฌผ๋ฆฌ๋์ง๊ฐ ๋ช ํํ์ง ์๋ค. ์ ์ด ์ด๋ฒคํธ๋ ์์ญ ๋ฐ๋ฆฌ์ด ๋จ์๋ก ๋ฐ์ํ๋๋ฐ, Option 2 ์ ํ ๊ฒฐ์ ์ ์ง์ฐ์ด ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์์ด ํ์ํ๋ค.
6. ์ผ๋ฐํ ํ๊ฐ์ ๋ถ์ฌ
์คํ์ด ํน์ ์ฌ๊ณผ ์ข ๋ฅ, ์นผ ํํ, ๊ธฐ์ด ๊ท๊ฒฉ์ ํ์ ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๋ค์ํ ๊ฐ์ฒด, ํ์, ์ฌ์ง์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ๊ฐ ๋ฏธํกํ๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
โTowards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLAโ๋ ๊ณ ์ฐจ์ ์์ ์ ๊ต ์กฐ์์ด๋ผ๋ ๊ทน๋๋ก ์ด๋ ค์ด ๋ฌธ์ ์ ์ ๋ฉด์ผ๋ก ๋์ ํ ๋ ผ๋ฌธ์ด๋ค.
mindmap
root((IMCopilot + MoDE-VLA))
IMCopilot
Dual Role
Data Collection Copilot
Autonomous Execution Primitive
RL-trained Atomic Skills
Stable Grasp
In-hand Rotation
Foot Pedal Interface
Human arm control
AI hand control
MoDE-VLA
OpenPI-0 Backbone
Modality Pathway
Force Tokens
Tactile Tokens
Cross-Attention
Sparse MoE Router
Residual Injection
Arm Force Correction
Hand Tactile Correction
Hierarchical Decision
Option 1 VLA + MoDE
Option 2 IMCopilot
Results
4 Tasks escalating
34pct avg SR
2x Baseline
World First Apple Peeling
์ด ๋ ผ๋ฌธ์ด ํนํ ๊ฐ์น ์๋ ์ด์ ๋ ๋ฌธ์ ๋ฅผ ๊ตฌ์ฑ ์์๋ก ์ ํํ ๋ถํดํ๋ ๋ฐฉ์ ๋๋ฌธ์ด๋ค. ์ธ ๊ฐ์ง ๋ณ๋ชฉ์ ์ ์ํ๊ณ , ๊ฐ ๋ณ๋ชฉ์ ๋์ํ๋ ์ปดํฌ๋ํธ๋ฅผ ์ค๊ณํ๊ณ , ๊ฐ ์ปดํฌ๋ํธ์ ๊ธฐ์ฌ๋ฅผ ablation์ผ๋ก ๊ฒ์ฆํ๋ค.
ํํธ ์ด ๋ ผ๋ฌธ์ด ์ฌ๋ ๋ฏธ๋ ์ง๋ฌธ๋ค์ ์ ์ง ์๋ค. IMCopilot ์คํฌ ์งํฉ์ ์ด๋ป๊ฒ ์ฒด๊ณ์ ์ผ๋ก ํ์ฅํ ์ ์๋๊ฐ? PCR 73%๋ฅผ ๋ฌ์ฑํ์ง๋ง SR 30%์ ๊ทธ์น๋ ์ฅ๊ธฐ ์ํ์ค ์คํจ๋ฅผ ์ด๋ป๊ฒ ๊ทน๋ณตํ๋๊ฐ? ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก ์ด์ ํ ๋ ์ด๊ฐ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ฐจ์ด๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๊ฐ? MoDE์ MoE ์ ๋ฌธ๊ฐ๋ค์ด ๊ฐ๊ฐ ์ด๋ค ๋ฌผ๋ฆฌ์ ์์์ ํนํํ๋์ง ํด์ ๊ฐ๋ฅ์ฑ(interpretability)์ ์ด๋ป๊ฒ ๋ถ์ํ ์ ์๋๊ฐ?
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ๋ฉ์์ง๋ ๋ช ํํ๋ค: VLA์ ๋ฏธ๋๋ ๊ณ ์ฐจ์ ๊ณํ๊ณผ ๋ฐ์ํ ์ ์์ค ์ ์ด์ ๊ณ์ธต์ ๋ถ์ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ถ์ ์ ํ๋ จ ๋จ๊ณ๋ถํฐ ์คํ ๋จ๊ณ๊น์ง ์ผ๊ด๋๊ฒ ์ ์งํ๋ ๊ฒ์ด ํต์ฌ์ด๋ค. ์ด ์์น์ 63-DoF์ SharpaNorth์๋ง ํด๋นํ๋ ๊ฒ์ด ์๋๋ค. 16-DoF Allegro Hand๋ถํฐ ๋ฏธ๋์ ๋ ๋ณต์กํ ์ ์์คํ ๊น์ง, ์ ์ด์ด ํ๋ถํ ์ ๊ต ์กฐ์ ์ ๋ฐ์ ์ ์ฉ ๊ฐ๋ฅํ ์ค๊ณ ์ฒ ํ์ด๋ค.
์ฐธ๊ณ ์๋ฃ
- Tutian Tang et al., Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA, arXiv:2603.08122, 2026.
- Black et al., pi0: A Vision-Language-Action Flow Model for General Robot Control, 2024.
- Shi et al., HACTS: a Human-As-Copilot Teleoperation System for Robot Learning, 2025.
- Yin et al., ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation, NeurIPS 2025.
- Wen et al., GR-Dexter Technical Report (ByteDance), 2025.
- Qi et al., HORA: Dexterous In-Hand Object Rotation via RGB-D, CoRL 2023.