graph LR
subgraph Sensing ["Sensing Layer"]
RGB["RGB Camera\n(Global Context)"]
TAC["Digit 360\nTactile Sensors\n(Local Contact)"]
end
subgraph Encoding ["Encoding Layer"]
CE["Cosmos Encoder\n(RGB Tokenizer)"]
SE["Sparsh-X\n(Tactile Foundation Model)"]
end
subgraph WM ["World Model (Latent Space)"]
LS["Multimodal\nLatent State s_t"]
TM["Transition Model\nf_theta(s_t, a_t)"]
PR["Predictor\nhat_o_{t+1}"]
end
subgraph Planning ["Planning Layer"]
RL["Autoregressive\nRollout"]
OPT["Action Optimization\n(MPC / CEM)"]
PLAN["Zero-shot Plan\n{a_0,...,a_T}"]
end
RGB --> CE
TAC --> SE
CE --> LS
SE --> LS
LS --> TM
TM --> LS
TM --> PR
LS --> RL
RL --> OPT
OPT --> PLAN
๐VTWM ๋ฆฌ๋ทฐ
- ๐ Visuo-Tactile World Model (VT-WM)์ ์๊ฐ ์ ๋ณด์ ์ด๊ฐ ์ผ์ฑ์ ๊ฒฐํฉํ์ฌ ์ ์ด์ด ๋ง์ ๋ก๋ด ์กฐ์ ์์ ์์ Vision-only World Models (V-WM)์ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
- ๐ญ VT-WM์ ์์ ์์์ ๊ฐ์ฒด ์์์ฑ์ 33% ํฅ์์ํค๊ณ ๋ฌผ๋ฆฌ ๋ฒ์น ์ค์์จ์ 29% ๋์ฌ, V-WM์์ ํํ ๋ฐ์ํ๋ ํ๊ฐ(hallucinations) ํ์์ ์ค์ฌ์ค๋๋ค.
- ๐ค ์ด๋ฌํ ๊ฐ์ ์ ์ค์ ๋ก๋ด ์ ์ด์์ Zero-shot ํ๋๋ ์ฑ๊ณต๋ฅ ์ ์ต๋ 35%๊น์ง ๋์ด๊ณ , ์ ํ๋ ๋ฐ๋ชจ๋ง์ผ๋ก๋ ์๋ก์ด ์์ ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ํ๋ ๋ฐ์ด๋ ๋ค์ฌ๋ค๋ฅํจ(versatility)์ ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ์ฐ๊ตฌ๋ ๋ก๋ด ์กฐ์์ ์ํ world model์์ ์๊ฐ ์ ๋ณด(vision)์ ์ด๊ฐ ์ ๋ณด(tactile)๋ฅผ ํตํฉํ์ฌ ์ ์ด(contact) ๋ฌผ๋ฆฌํ์ ๋ชจ๋ธ๋งํ๋ Visuo-Tactile World Model (VT-WM)์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ์๊ฐ ์ ์ฉ world model (V-WM)์ ๊ฐ๋ ค์ง(occlusion)์ด๋ ์๊ฐ์ ์ ์ฌ์ฑ(visual aliasing)์ผ๋ก ์ธํด ์ ์ด์ด ํ๋ถํ(contact-rich) ์กฐ์ ์์ ์์ ์ข ์ข ์คํจํ๋ ์์์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด๊ฐ ์ฌ๋ผ์ง๊ฑฐ๋(disappearing), ์๊ฐ์ด๋ํ๊ฑฐ๋(teleporting), ๋ฌผ๋ฆฌ ๋ฒ์น์ ์๋ฐํ๋ ๋ฐฉ์์ผ๋ก ์์ง์ด๋(moving in ways that violate basic physics) ํ๊ฐ(hallucinations) ํ์์ ๊ฒช์์ต๋๋ค. VT-WM์ vision์ tactile ์ด๋ฏธ์ง๋ฅผ ๋ณด์ํจ์ผ๋ก์จ ๋ก๋ด-๊ฐ์ฒด ์ํธ์์ฉ์ ๋ ์ ์ดํดํ์ฌ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
VT-WM์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ์ด ๋ชจ๋ธ์ ๋ ๊ฐ์ง ์ฃผ์ ๊ด์ฐฐ ์์(modality)์ธ vision๊ณผ tactile์ ํตํฉํฉ๋๋ค. vision ์ ๋ณด๋ ๋ก๋ด์ ์ ์ญ์ ๋ฌธ๋งฅ(global context)๊ณผ ์ฅ๋ฉด์ ํฌ์ฐฉํ๋ ์ธ์์ ์นด๋ฉ๋ผ(exocentric camera)์ RGB ๋น๋์ค ์คํธ๋ฆผ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. tactile ์ ๋ณด๋ ๋ก๋ด ์๊ฐ๋ฝ ๋์ ์ฅ์ฐฉ๋ Digit 360 ์ผ์์์ ์ค๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก, ์ ์ด ์ ์ํํธ ์๋ผ์คํ ๋จธ(elastomer) ํ๋ฉด์ ๋ณํ์ ๋ณด์ฌ์ค๋๋ค.
๋ชจ๋ธ์ ์ํคํ ์ฒ(architecture)๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:
- Vision Encoder: ์ธ์์ ๋น๋์ค์์ ๋ก๋ด๊ณผ ํ๊ฒฝ์ ์ ์ฌ ์ํ(latent state) s_k๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด๋ฅผ ์ํด Cosmos Tokenizer (Agarwal et al., 2025)๋ผ๋ ์ฌ์ ํ๋ จ๋(pre-trained) ์๊ฐ ์ธ์ฝ๋(visual encoder)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Tactile Encoder: Digit 360 ์ผ์์ ๊ณ ์ฃผํ ์ ์ด ํผ๋๋ฐฑ(high-frequency contact feedback)์ ์์ถ๋ ์ ์ฌ ์ํ t_k๋ก ๋ณํํ์ฌ ์ค์ํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๊ฐ์กฐํฉ๋๋ค. ์ด ์ญํ ์ Sparsh-X (Higuera et al., 2025) ๋ชจ๋ธ์ด ์ํํฉ๋๋ค.
- Predictor (Transition Model): ์ธ์ฝ๋์์ ์ป์ ์ ์ฌ ์ํ s_k์ t_k๋ ์ ์ด ๋์(control action) a_k์ ํจ๊ป autoregressive ์์ธก๊ธฐ(predictor)๋ก ์ ๋ฌ๋ฉ๋๋ค. ์ด ์์ธก๊ธฐ๋ 12๊ฐ ๋ ์ด์ด์ transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก, ๋ค์ ๋จ๊ณ์ ์ํ (\hat{s}_{k+1}, \hat{t}_{k+1}) \sim P_\phi(s_k, t_k | a_k)๋ฅผ ์ถ์ ํฉ๋๋ค.
- ์ ๋ ฅ ์ ์ฌ ์ํ๋ sinusoidal positional embedding์ผ๋ก ์ฆ๊ฐ๋ ํ ํตํฉ๋ ํํ์ผ๋ก ํฌ์๋ฉ๋๋ค. Vision๊ณผ tactile ํ ํฐ(token)์ ๊ณต๊ฐ ์ฐจ์(spatial dimension)์ ๋ฐ๋ผ ์ฐ๊ฒฐ๋์ด ํตํฉ๋ ์ ๋ ฅ ์ํ์ค๋ฅผ ํ์ฑํฉ๋๋ค.
- Transformer ๋ด๋ถ์์๋ ๋ ๊ฐ์ง ์ ํ์ attention mechanism์ด ๋ฒ๊ฐ์ ์ ์ฉ๋ฉ๋๋ค:
- Spatio-Temporal Self-Attention: ํ ํฐ ๊ฐ์ ๊ณต๊ฐ์ ์ํธ์์ฉ๊ณผ ์๊ฐ์ ์งํ๋ฅผ ํจ์จ์ ์ผ๋ก ํฌ์ฐฉํ๊ธฐ ์ํด ๊ณต๊ฐ(spatial)๊ณผ ์๊ฐ(temporal) attention์ผ๋ก ๋ถ๋ฆฌ๋ฉ๋๋ค. ์ด๋ ์ ์ฒด ์๊ณต๊ฐ(spatiotemporal) attention์ ๋์ ๋ณต์ก์ฑ O((THW)2)๋ฅผ ํผํฉ๋๋ค.
- Action Conditioning via Cross-Attention: ๊ฐ self-attention ๋ธ๋ก ์ดํ, vision-touch ํ ํฐ์ action ํ ํฐ์ cross-attendํ์ฌ ๋ก๋ด์ ์ ์ด ์ ๋ ฅ์ ์์ธก์ ํตํฉํฉ๋๋ค.
- ๋ชจ๋ attention layer๋ RoPE (Rotary Position Embeddings)๋ฅผ ์ฌ์ฉํ์ฌ ์๋ ์์น ์ธ์ฝ๋ฉ(relative position encoding)์ ์ฒ๋ฆฌํฉ๋๋ค. Transformer ์ดํ, ํํ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ(modality-specific) ์ถ๋ ฅ ํค๋(output head)๋ฅผ ํตํด ์๋ ์ฐจ์์ผ๋ก ๋ค์ ํฌ์๋์ด ์์ธก๋ \hat{s}_{k+1}์ \hat{t}_{k+1}๋ฅผ ์์ฑํฉ๋๋ค.
๋ชจ๋ธ ํ๋ จ์ ํ ๋ ์คํผ๋ ์ด์ (teleoperation)์ ํตํด ์์ง๋ contact-rich ์กฐ์ ์์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ๋ ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ ์ํ(proprioceptive state), ์ธ์์ ๋น๋์ค, ๊ทธ๋ฆฌ๊ณ ๊ฐ Digit 360 ์ผ์์ ๋น๋์ค๋ฅผ ํฌํจํฉ๋๋ค. ํ๋ จ ์์ค(loss)์ ์์ ์ฑ๊ณผ ๊ธด ์๊ฐ ์์ธก ์ผ๊ด์ฑ(long-horizon coherence)์ ์ํด teacher forcing๊ณผ sampling loss๋ฅผ ๊ฒฐํฉํฉ๋๋ค: L_{teacher} = \sum_{k=1}^{T-1} (\|\hat{s}_{k+1} - s_{k+1}\|_1 + \|\hat{t}_{k+1} - t_{k+1}\|_1) ์ฌ๊ธฐ์ \hat{s}_{k+1}์ \hat{t}_{k+1}๋ ์์ k๊น์ง์ ground-truth ์ํ๋ก๋ถํฐ ์์ธก๋ ๊ฐ์ด๊ณ , s_{k+1}์ t_{k+1}๋ ์์ k+1์ ground-truth ๊ด์ฐฐ์์ ์ธ์ฝ๋ฉ๋ ์ ์ฌ ๊ฐ์ ๋๋ค. L_{sampling} = \sum_{k=1}^{H} (\|\hat{s}^{sampled}_{k+1} - s_{k+1}\|_1 + \|\hat{t}^{sampled}_{k+1} - t_{k+1}\|_1) ์ฌ๊ธฐ์ ์ํ๋ง๋ ์ํ(sampled states)๋ ๊ทธ๋๋์ธํธ(gradient) ์์ด ์์ฑ๋์ด ํ๋ จ ๋ถ์์ ์ฑ(training instability)์ ๋ฐฉ์งํฉ๋๋ค. ์ต์ข ์์ค์ L = L_{teacher} + L_{sampling}๋ก ์ด ๋ ์์ค์ ๊ฐ์ค ํ๊ท ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค. AdamW optimizer๋ฅผ ์ฌ์ฉํ๋ฉฐ, Cosmos Tokenizer๋ ๊ณ ์ ๋๊ณ Sparsh-X encoder๋ ์ผ์๋ณ ๋ณํ์ ์ค๋ช ํ๊ธฐ ์ํด fine-tune๋ฉ๋๋ค.
๊ณํ(planning)์ ์ํด VT-WM์ Cross-Entropy Method (CEM)์ ํตํฉ๋ฉ๋๋ค. CEM์ ์ฃผ์ด์ง ๋ชฉํ ์ด๋ฏธ์ง(goal image)์ ํ์ฌ ์๊ฐ ๋ฐ ์ด๊ฐ ๋ฌธ๋งฅ(context)์ ์ฌ์ฉํ์ฌ ์ต์ ์ ๋์ ์ํ์ค๋ฅผ ํ์ํฉ๋๋ค. ๋น์ฉ ํจ์(cost function)๋ ์ต์ข ์์ธก๋ ์๊ฐ ์ ์ฌ ์ํ \hat{s}_{k+H}์ ๋ชฉํ ์ด๋ฏธ์ง์ ์ ์ฌ ์ํ s_{goal} ์ฌ์ด์ โ2 ๊ฑฐ๋ฆฌ๋ก ์ ์๋ฉ๋๋ค. ๊ณํ์ ๋ก๋ด์ ์๋ชฉ ์์ธ(wrist pose)์ 3D translation ๋ฐ 3D orientation, ๊ทธ๋ฆฌ๊ณ ์์ ์ด๋ฆผ/๋ซํ ์ด์ง ๋ณ์(binary variable)๋ก ๊ตฌ์ฑ๋ \mathbb{R}^7์ ๋์ ๊ณต๊ฐ์์ ์ํ๋ฉ๋๋ค. ๊ณํ๋ ๋์ ์ํ์ค๋ open-loop ๋ฐฉ์์ผ๋ก ์ค์ ๋ก๋ด์์ ์คํ๋ฉ๋๋ค.
์คํ์ VT-WM์ ์ฐ์์ฑ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ฆํฉ๋๋ค:
- ์ ์ด ์ธ์ง(Contact Perception) ๋ฅ๋ ฅ: VT-WM์ V-WM๋ณด๋ค ๋ ๋์ ์์๋ ฅ(imagination) ํ์ง์ ๋ณด์ฌ์ค๋๋ค. ๋ฌผ์ฒด ์์์ฑ(object permanence)๊ณผ ์ธ๊ณผ์ ์ค์์ฑ(causal compliance) ์ธก๋ฉด์์ ์ธก์ ํ์ ๋, VT-WM์ moving object์ ๋ํด ์ ๊ทํ๋ Frรฉchet Distance (CoTracker๋ก ์ธก์ )๋ฅผ V-WM ๋๋น ํ๊ท 33% ๊ฐ์์์ผฐ์ผ๋ฉฐ, static object์ ๋ํด์๋ ํ๊ท 29% ๊ฐ์์์ผฐ์ต๋๋ค. ์ด๋ VT-WM์ด ๋ฌผ์ฒด์ ์ฌ๋ผ์ง์ด๋ ๋น๋ฌผ๋ฆฌ์ ์์ง์๊ณผ ๊ฐ์ ํ๊ฐ์ ์ค์ฌ ๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ๋กค์์(rollouts)์ ์์ฑํจ์ ์๋ฏธํฉ๋๋ค.
- Zero-shot Planning ์ฑ๋ฅ: VT-WM์ ์ค์ ๋ก๋ด์์ zero-shot planning์์ V-WM์ ๋ฅ๊ฐํ์ต๋๋ค. ํนํ, contact-richํ๊ณ multi-step ์์ (์: push fruits, reach & push, wipe cloth, stack cubes)์์ VT-WM์ V-WM๋ณด๋ค ์ต๋ 35% ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ์ด๊ฐ ์ ์ง(tactile grounding)๊ฐ ์๊ฐ์ ์ ์ฌ์ฑ(visual aliasing) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๋ ์์ ์ ์ธ ์ ์ด ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํจ์ ์์ฌํฉ๋๋ค.
- Downstream Versatility (์๋ก์ด ์์ ์ผ๋ก์ ์ ์): VT-WM์ ์๋ก์ด ์์ (โplace plate in dish rackโ)์ 20๊ฐ์ ์ ํ๋ ๋ฐ๋ชจ ์ํ์ค(demonstration sequence)๋ง์ผ๋ก fine-tuning๋์ด 77%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ์ด์ ์ ํ์ต๋ ์ ์ด dynamics๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ์๋ก์ด ์์ ์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, VT-WM์ ์๊ฐ๊ณผ ์ด๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ๋ก๋ด์ด ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ ์ ํํ๊ฒ ์ดํดํ๊ณ , ๋ ํ์ค์ ์ธ ์์ ๋กค์์์ ์์ฑํ๋ฉฐ, ์ค์ ๋ก๋ด์์ contact-rich ์กฐ์ ์์ ์ ์ํ ๋ ์ ๋ขฐํ ์ ์๋ ๊ณํ์ ์ํํ ์ ์๊ฒ ํฉ๋๋ค.
ํ๊ณ์ ์ผ๋ก๋ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ vision-based tactile sensing (Digit 360)์ ๊ตญํ๋๋ค๋ ์ , contact perception ํ๊ฐ๊ฐ ํ๋ จ ๋ถํฌ ๋ด์ ์์ ์๋ง ๋จธ๋ฌด๋ฅธ๋ค๋ ์ , CEM์ ํตํ ๊ณํ์ด ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค์ด open-loop ์คํ์ผ๋ก ์ด์ด์ง๋ค๋ ์ ๋ฑ์ด ์ธ๊ธ๋์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ๋๋ง ์๋ ๋ก๋ด์ด ๊ฟ๊พธ๋ฉด ์ด๋ป๊ฒ ๋ ๊น
๋น์ ์ด ๋์ ๊ฐ๊ณ ์ด๋์ด ๋ฐฉ์์ ์ปต์ ์ก๋๋ค๊ณ ์๊ฐํด๋ณด์. ์์ด ์ปต ํ๋ฉด์ ๋ฟ๋ ์๊ฐ, ์๊ฐ๋ฝ ๋์ ๊ฐ๊ฐ์ด ๋งํด์ค๋ค โ โ์, ์ฌ๊ธฐ ์๊ตฌ๋.โ ๊ทธ ์ดํ๋ก๋ ๋์ด ์์ด๋ ์ปต์ ๋ค์ด์ฌ๋ฆด ์ ์๋ค. ์์์ ์ ๋ฌ๋๋ ๋ฌด๊ฒ๊ฐ, ๋ง์ฐฐ๋ ฅ, ํ์ ์ ๋ณด๊ฐ ๋ ์์ โ๋ด๋ถ ๋ชจ๋ธโ์ ๊ฐฑ์ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ง๊ธ๊น์ง์ ๋ก๋ด ์กฐ์ World Model์ ์ด ์๊ฐ๋ฝ ๋์ ๊ฐ๊ฐ ์์ด, ์ค์ง ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ง์ผ๋ก ์ธ๊ณ๋ฅผ ์์ํด์๋ค. ๊ฒฐ๊ณผ๋ ์ด๋ ํ์๊น? ๋ฌผ์ฒด๊ฐ ์์ ์ฅ์ด์ง ์๊ฐ ๋ง์น ๋ง์ ์ฒ๋ผ ์ฌ๋ผ์ง๊ฑฐ๋, ์๋ฌด ํ๋ ๊ฐํ์ง ์์๋๋ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋, ๋ฒฝ์ ๊ดํตํ๋ฏ ์์ง์ด๋ ํ๊ฐ(hallucination)์ด ๋ํ๋ฌ๋ค.
Visuo-Tactile World Models (VT-WM) ์ ๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ๋ค. Carolina Higuera (UW/Meta), Sergio Arnaud, Byron Boots, Mustafa Mukadam, Francois Hogan, Franziska Meier๋ก ๊ตฌ์ฑ๋ ์ฐ๊ตฌํ์ด ICLR 2026์ ์ ์ถํ ์ด ๋ ผ๋ฌธ์, World Model์ ์์(imagination) ์์ ์ด๊ฐ์ ์ง์ด๋ฃ์์ผ๋ก์จ ์ ์ด ๋ฌผ๋ฆฌํ์ ๋ ์ถฉ์คํ๊ฒ ํํํ๊ณ , ๊ทธ ๋ฌผ๋ฆฌ์ ์ถฉ์ค๋๊ฐ ์ค์ ๊ณํ(planning)์ผ๋ก ์ด์ด์ง์ ๋ณด์ฌ์ค๋ค.
๊ฒฐ๋ก ๋ถํฐ ๋งํ๋ฉด ํต์ฌ ์์น๋ ๋ค์๊ณผ ๊ฐ๋ค:
- Object Permanence (๋ฌผ์ฒด ์์์ฑ): +33% ํฅ์
- Laws of Motion (์ด๋ ๋ฒ์น ์ค์): +29% ํฅ์
- Zero-shot Real-Robot Planning: ์ต๋ +35% ์ฑ๊ณต๋ฅ
- Few-shot Fine-tuning: Behavioral Cloning ๋๋น 3.5ร ์ฑ๋ฅ
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ: World Model์ ์ฝ์ ๊ณผ ์ด๊ฐ์ ์ญํ
World Model์ด๋ ๋ฌด์์ธ๊ฐ
World Model(WM)์ ๋ก๋ด์ด ํ์ค ์ธ๊ณ๋ฅผ ๋ด๋ถ์ ์ผ๋ก ์๋ฎฌ๋ ์ด์ ํ๋ ๋ชจ๋ธ์ด๋ค. ํต์ฌ ์์ด๋์ด๋ ๋จ์ํ๋ค โ ํ๋์ ์ค์ ๋ก ์ทจํ๊ธฐ ์ ์, ๋จธ๋ฆฟ์์์ ๊ทธ ํ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋จผ์ โ์์โํด๋ณด๋ ๊ฒ. DreamerV3 (Hafner et al., 2023), UniSim, Genie 2 ๊ฐ์ ๋ชจ๋ธ๋ค์ด ์ด ๊ณ์ด์ ๋ํํ๋ฉฐ, ์ต๊ทผ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์๋ ์ด๋ฅผ planning์ ํ์ฉํ๋ ค๋ ์๋๊ฐ ํ๋ฐํ๋ค.
์์์ผ๋ก ํํํ๋ฉด, World Model์ ๋ค์์ ์ ์ด ๋ถํฌ๋ฅผ ํ์ตํ๋ค:
p(s_{t+1} \mid s_t, a_t)
์ฌ๊ธฐ์ s_t๋ ์ ์ฌ ์ํ(latent state), a_t๋ ํ๋(action)์ด๋ค. ์ด๋ฅผ ์๊ธฐํ๊ท์ ์ผ๋ก ํ๋ฉด:
\hat{s}_{t+1}, \hat{o}_{t+1} = f_\theta(s_t, a_t)
ํ๋ ์ํ์ค \{a_0, a_1, \ldots, a_T\}๋ฅผ ๊ฐ์์ผ๋ก ์คํํ๋ฉด์ ๋ฏธ๋ ๊ด์ธก \hat{o}๋ฅผ ์์ธกํ๊ณ , ๊ฐ์ฅ ๋์ ๋ณด์์ด ์์ธก๋๋ ํ๋ ์ํ์ค๋ฅผ ์ ํํ๋ค.
๋น์ ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค: ์ธ ๊ฐ์ง ๊ทผ๋ณธ์ ์คํจ
๋ฌธ์ ๋ ํ์ฌ Vision-only World Model (V-WM)์ด ์ธ ๊ฐ์ง ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ์ํฉ์ ์ง์์ ์ผ๋ก ๋ง๋ค์ด๋ธ๋ค๋ ๊ฒ์ด๋ค.
1. ๋ฌผ์ฒด ์๋ฉธ (Object Disappearance)
๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ๋ ์๊ฐ, ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์์ ๋ฌผ์ฒด๊ฐ ์ฌ๋ผ์ง๋ค. ์๊ฐ์ occlusion์ด ๋ฐ์ํ๋ฉด V-WM์ ๋ฌผ์ฒด๊ฐ ๋ ์ด์ ์กด์ฌํ์ง ์๋๋ค๊ณ ์๋ชป ์ถ๋ก ํ๋ค. ์: ํ๋ธ๋ฅผ ์์ผ๋ก ์ง์ด ์ด๋ํ๋ ๋์ค ํ๋ธ๊ฐ ์ฅ๋ฉด์์ ์ฌ๋ผ์ง.
2. ์๊ฐ์ด๋ (Teleportation)
๋ฌผ์ฒด๊ฐ ํ ์์น์์ ๊ฐ์๊ธฐ ๋ค๋ฅธ ์์น๋ก ๋ํ๋๋ค. ์ฐ์์ ์ธ ์ด๋์ ํํํ์ง ๋ชปํ๊ณ ๋ถ์ฐ์์ ์ธ ์ ํ๊ฐ ๋ฐ์ํ๋ ๊ฒ์ด๋ค.
3. ๋ฌด์ธ๊ณผ์ ์ด๋ (Acausal Motion)
๋ก๋ด์ด ์ ์ดํ์ง ์์๋๋ฐ ๋ฌผ์ฒด๊ฐ ์์ง์ด๊ฑฐ๋, ๋ฐ๋๋ก ์ ์ดํ์์๋ ๋ฌผ์ฒด๊ฐ ์ ํ ์์ง์ด์ง ์๋๋ค. Newton์ ์ 1ยท3 ๋ฒ์น์ ์๋ฐํ๋ ์ํฉ์ด๋ค.
์ด๊ฐ ์ผ์๋ ์ด ์ธ ๋ฌธ์ ๋ชจ๋์ ๋ํ ์ง์ ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ๊ณตํ๋ค. ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ์์ผ๋ฉด ์ด๊ฐ ์ ํธ๊ฐ ํ์ฑํ๋๋ฉฐ, ์ด ์ ํธ๊ฐ โ๋ฌผ์ฒด๋ ์ฌ๊ธฐ ์๋คโ๋ ์ฌ์ค์ ๋ช ์์ ์ผ๋ก ์๋ ค์ค๋ค.
์ด๊ฐ ์ผ์์ ํ์ฌ: Digit 360๊ณผ Sparsh-X
์ด ์ฐ๊ตฌ์์ ์ฌ์ฉํ๋ ์ด๊ฐ ์ผ์๋ Digit 360 (Lambeta et al., 2024)์ด๋ค. Digit ๊ณ์ด์ GelSight (Yuan et al., 2017)์์ ๋ฐ์ ํ vision-based tactile sensor๋ก, ์ํํธ ์๋ผ์คํ ๋จธ ํ๋ฉด์ ๋น์ ์์ ์ ์ด์ ์ํ ๋ณํ์ ๋ด๋ถ ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ๋ค. ์ด ์ด๊ฐ ์ด๋ฏธ์ง์์ ์ ์ด ํ์, ์๋ ฅ ๋ถํฌ, ์ฌ๋ฆฝ ์ฌ๋ถ ๋ฑ์ ์ถ์ถํ ์ ์๋ค.
์์ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ง์ ์ฌ์ฉํ๋ฉด ๊ณ ์ฐจ์์ด๋ผ WM ํ์ต์ ๋ถ๋ด์ด ํฌ๋ค. ๊ทธ๋์ ์ฌ์ ํ์ต๋ ์ด๊ฐ ํํ ๋ชจ๋ธ์ธ Sparsh-X (Higuera et al., 2025)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฐจ์ ์ด๊ฐ ์๋ฒ ๋ฉ์ ์ถ์ถํ๋ค. Sparsh-X๋ ์๊ธฐ์ง๋ํ์ต(self-supervised learning)์ผ๋ก ํ์ต๋ ์ด๊ฐ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ก, ๋ ์ด๋ธ ์์ด๋ ์ ์ด ์ญํ์ ํ๋ถํ ์ ๋ณด๋ฅผ ์์ถํ๋ค.
๋น์ ์ธก์์๋ Cosmos Tokenizer (Agarwal et al., 2025)๋ฅผ ์ฌ์ฉํด RGB ์ด๋ฏธ์ง๋ฅผ ์ ์ฌ ์ฝ๋๋ก ๋ณํํ๋ค.
๋ฐฉ๋ฒ๋ก : VT-WM์ ๊ตฌ์กฐ์ ์๋ ์๋ฆฌ
์ ์ฒด ์ํคํ ์ฒ ๊ฐ์
VT-WM์ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๋ค์ ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ํํํ ์ ์๋ค.
ํต์ฌ ์ค๊ณ ์ฒ ํ์ ์ญํ ๋ถ๋ฆฌ(modality specialization)๋ค. ๋น์ ์ โ์ธ๊ณ์ ์ ๊ฒฝ(global picture)โ์ ๋ด๋นํ๊ณ , ์ด๊ฐ์ โ์ ์ด ์ง์ ์ ๋ฏธ์ ๋ฌผ๋ฆฌํ(local contact physics)โ์ ๋ด๋นํ๋ค. ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์๋ก๋ฅผ ๋ณด์ํ๋ฉฐ ํ๋์ ํตํฉ ์ ์ฌ ์ํ๋ฅผ ๋ง๋ ๋ค.
์ ์ฌ ์ํ์ ๋ค์ค๋ชจ๋ฌ ํตํฉ
s_t = \text{Encode}(o_t^{rgb}, o_t^{tac}, a_{t-1})
์ฌ๊ธฐ์ o_t^{rgb} \in \mathbb{R}^{d_{rgb}}๋ Cosmos Tokenizer๋ก ์ธ์ฝ๋ฉ๋ ๋น์ ํน์ง, o_t^{tac} \in \mathbb{R}^{d_{tac}}๋ Sparsh-X๋ก ์ธ์ฝ๋ฉ๋ ์ด๊ฐ ํน์ง์ด๋ค. ์ด ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ๊ฒฐํฉ๋์ด ํตํฉ ์ ์ฌ ์ํ s_t๋ฅผ ํ์ฑํ๋ค.
๋ค์ ์ ์ฌ ์ํ ์์ธก:
\hat{s}_{t+1} = f_\theta(s_t, a_t)
๊ด์ธก ์ฌ๊ตฌ์ฑ(prediction/decoding):
\hat{o}_{t+1}^{rgb}, \hat{o}_{t+1}^{tac} = g_\phi(\hat{s}_{t+1})
์๋ ๋ชจ๋ธ์ ์์ชฝ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ชจ๋ ์์ธกํ๋๋ก ํ์ต๋๋ค. ์ด๊ฒ์ด ์ค์ํ ์ด์ ๋, ์ด๊ฐ ์์ธก ๋ชฉํ(tactile prediction objective)๊ฐ ๋ชจ๋ธ๋ก ํ์ฌ๊ธ โ์ด ํ๋์ ์ทจํ๋ฉด ์ ์ด์ด ์ด๋ป๊ฒ ๋ณํ ๊ฒ์ธ๊ฐโ๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ตํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฉํฐํ์คํฌ ํ์ต: ๋จ์ผ ๋ชจ๋ธ, ๋ค์ ํ์คํฌ
VT-WM์ ๋ฉํฐํ์คํฌ ์ค์ ์ผ๋ก ํ์ต๋๋ค. ์ฌ๋ฌ ์ ์ด ์ง์ฝ์ ์กฐ์ ํ์คํฌ(pushing, wiping, placing, stacking ๋ฑ)์ ๋ํ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ํจ๊ป ํ์ตํ๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ์ ์ด ์๋๋ฆฌ์ค์์์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๊ณต์ ํํ์ผ๋ก ํก์ํ๊ฒ ํด์ค๋ค.
ํ์ต ์์ค(training loss)์ ์์ธก ์ฌ๊ตฌ์ฑ ์ค์ฐจ์ ์ ์ฌ ํํ ์ ๊ทํ์ ๊ฒฐํฉ์ด๋ค. Dreamer ๊ณ์ด๊ณผ ์ ์ฌํ RSSM(Recurrent State Space Model) ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋, ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์์ธก ๋ชฉํ๋ฅผ ์ถ๊ฐํ๋ค๊ณ ๋ณผ ์ ์๋ค.
๊ณํ ์๊ณ ๋ฆฌ์ฆ: ์์ ์์์ ์ต์ ํ๋ ์ฐพ๊ธฐ
ํ์ต๋ WM์ ์ฌ์ฉํ ๊ณํ์ ๋ค์๊ณผ ๊ฐ์ด ๋์ํ๋ค:
Algorithm: VT-WM Zero-shot Planning
---------------------------------------------------------
Input:
- Trained VT-WM (f_theta, g_phi)
- Initial observation (o_0^rgb, o_0^tac)
- Goal image o_goal^rgb
- Planning horizon T
- Action candidates K
1. Encode initial state: s_0 = Encode(o_0^rgb, o_0^tac)
2. For iteration 1..N_iter:
a. Sample K action sequences {A^k}_{k=1}^{K}
where A^k = {a_0^k, ..., a_{T-1}^k}
b. For each A^k:
- Unroll WM: s_1^k, ..., s_T^k = Rollout(s_0, A^k)
- Decode: o_T^{rgb,k} = g_phi(s_T^k)
- Compute reward: r^k = Sim(o_T^{rgb,k}, o_goal^rgb)
c. Select best: A* = argmax_k r^k
3. Execute A* on real robot (open-loop)
---------------------------------------------------------
Output: Executed action sequence A*
ํต์ฌ์ WM์ โ์์(imagination)โ ํ์ง์ด ๋ฐ๋ก ๊ณํ ํ์ง์ ๊ฒฐ์ ํ๋ค๋ ๊ฒ์ด๋ค. V-WM์ด ๋ฌผ์ฒด๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ์์์ ํ๋ฉด, ๊ฑฐ๊ธฐ์ ์์ฑ๋ ๊ณํ์ ๋ฌผ์ฒด๋ฅผ ์์ด๋ฒ๋ฆฌ๋ ํ๋์ ์ ํํ๊ฒ ๋๋ค. ๋ฐ๋ฉด VT-WM์ ๋ฌผ์ฒด๊ฐ ์ ์์ ์๋ค๋ ๊ฒ์ ์ด๊ฐ์ผ๋ก ์๊ณ ์๊ธฐ ๋๋ฌธ์, ์ ์ด์ ์ ์งํ๋ ํ๋ ์ํ์ค๋ฅผ ๋ ์ ํํ๊ฒ ์๋ฎฌ๋ ์ด์ ํ๋ค.
ํ๋์จ์ด ์ค์
System Configuration
------------------------------------
Arm : Franka Panda
Hand : Allegro Hand V4
Tactile : Digit 360 (fingertip, 3x)
Vision : RGB camera (wrist/workspace)
Encoders : Cosmos Tokenizer (RGB)
Sparsh-X (Tactile)
------------------------------------
Allegro Hand + Franka Panda ์กฐํฉ์ ์ด๊ฐ ์กฐ์ ์ฐ๊ตฌ์์ ์ฌ์ค์ ํ์ค ํ๋ซํผ์ผ๋ก ์๋ฆฌ์ก๊ณ ์์ผ๋ฉฐ (NeuralFeels, DexWM ๋ฑ), ์ด ๋ ผ๋ฌธ๋ ๋์ผํ ํ๋ซํผ์ ์ฌ์ฉํ๋ค.
์คํ: ๋ฌด์์ ์ธก์ ํ๊ณ , ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์๋
์คํ ๊ตฌ์กฐ์ ์ธ ์ง๋ฌธ
์คํ ์ค๊ณ๋ ์ธ ๊ฐ์ง ํต์ฌ ์ง๋ฌธ์ ๋ตํ๋๋ก ๊ตฌ์ฑ๋๋ค:
- Contact Perception: VT-WM์ด V-WM๋ณด๋ค ๋ฌผ์ฒด ์์์ฑ๊ณผ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ ์ ํฌ์ฐฉํ๋๊ฐ?
- Zero-shot Planning: ํฅ์๋ ์ ์ด ์ธ์์ด ์ค์ ๋ก๋ด ๊ณํ ์ฑ๋ฅ์ผ๋ก ์ด์ด์ง๋๊ฐ?
- Downstream Versatility: ์๋ก์ด ํ์คํฌ์ ์์์ ๋ฐ๋ชจ๋ง์ผ๋ก ์ ์ํ ์ ์๋๊ฐ?
ํ๊ฐ ์งํ 1: ๋ฌผ์ฒด ์์์ฑ (Object Permanence)
๋ฌผ์ฒด ์์์ฑ์ ์ ๊ทํ๋ Frรฉchet ๊ฑฐ๋ฆฌ(normalized Frรฉchet distance)๋ก ์ธก์ ๋๋ค. ์ด ์งํ๋ ์์ธก๋ ๋ฌผ์ฒด ๊ถค์ ๊ณผ ์ค์ ๋ฌผ์ฒด ๊ถค์ ์ฌ์ด์ ๋ถํฌ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ค. ๊ฐ์ด ๋ฎ์์๋ก ์์ธก์ด ํ์ค์ ๊ฐ๊น๋ค๋ ์๋ฏธ๋ค.
์์์ผ๋ก ํํํ๋ฉด:
\text{FD}(P, Q) = \min_{\gamma \in \Pi(P,Q)} \int_{\mathcal{X} \times \mathcal{X}} \|x - y\| \, d\gamma(x,y)
V-WM์ occlusion์ด ๋ฐ์ํ๋ ์๊ฐ ๋ฌผ์ฒด ์์น ์์ธก์ด ๋ถ๊ดดํ๋ ๋ฐ๋ฉด, VT-WM์ ์ด๊ฐ ์ ํธ๊ฐ โ๋ฌผ์ฒด๊ฐ ์ฌ๊ธฐ ์์โ์ ์ง์์ ์ผ๋ก ์๋ ค์ฃผ๋ฏ๋ก ๋ฌผ์ฒด ๊ถค์ ์ ํจ์ฌ ์ ํํ๊ฒ ์ ์งํ๋ค.
๊ฒฐ๊ณผ: VT-WM์ด V-WM ๋๋น ์ฝ 33% ๋ฎ์ ์ ๊ทํ Frรฉchet ๊ฑฐ๋ฆฌ๋ฅผ ๋ฌ์ฑ (95% CI ํฌํจ).
ํ๊ฐ ์งํ 2: ์ด๋ ๋ฒ์น ์ค์ (Laws of Motion)
๋ ๋ฒ์งธ ์งํ๋ ์์ธก๋ ๋ฌผ์ฒด ์ด๋์ด ๋ดํด ์ญํ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ์ธก์ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ๋ก๋ด์ด ๋ฌผ์ฒด์ ์ ์ดํ์ง ์์ ๋ ๋ฌผ์ฒด๊ฐ ์์ง์ด์ง ์์์ผ ํ๊ณ (๊ด์ฑ์ ๋ฒ์น), ์ ์ด ์ ํ์ ๋ฐฉํฅ์ ๋ฐ๋ผ ์์ง์ฌ์ผ ํ๋ค (์ด๋์ ๋ฒ์น).
V-WM์ ์๊ฐ์ aliasing์ผ๋ก ์ธํด โ๋ก๋ด์ด ๋ฟ์ง ์์ ๋ฌผ์ฒด๊ฐ ์์ง์ธ๋คโ ํน์ โ๋ก๋ด์ด ๋ฟ์๋ ๋ฌผ์ฒด๊ฐ ์์ง์ด์ง ์๋๋คโ๋ ๋น์ธ๊ณผ์ ์์ธก์ ์์ฃผ ์์ฑํ๋ค.
๊ฒฐ๊ณผ: VT-WM์ด V-WM ๋๋น 29% ๋ ๋์ ์ด๋ ๋ฒ์น ์ค์์จ์ ๋ฌ์ฑ.
ํ๊ฐ ์งํ 3: ์ ๋ก์ท ์ค์ ๋ก๋ด ๊ณํ ์ฑ๊ณต๋ฅ
๊ฐ์ฅ ์ค์ง์ ์ธ ์งํ๋ค. ํ์ต๋ WM์ ์ฌ์ฉํด ๊ณํ์ ์์ฑํ๊ณ , ์ด๋ฅผ ์ค์ ๋ก๋ด์ ์คํ๋ฃจํ(open-loop)๋ก ์คํํ ์ฑ๊ณต๋ฅ ์ด๋ค.
ํ์คํฌ ์ ํ๋ณ๋ก ๊ฒฐ๊ณผ๊ฐ ํฅ๋ฏธ๋กญ๊ฒ ๊ฐ๋ฆฐ๋ค:
| Task Type | V-WM | VT-WM | Delta |
|---|---|---|---|
| Reaching (kinematic) | ~ | ~ | ~0% |
| Pushing (contact) | - | - | +~30% |
| Wiping (contact+cloth) | - | - | +~35% |
| Placing (contact+place) | - | - | +~25% |
| Cube Stacking (multi-step) | - | - | +35% |
์ ํํ ์์น๋ ๋ ผ๋ฌธ Fig. ๋ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ถ์ .
ํต์ฌ ๊ด์ฐฐ: ๋จ์ ๋๋ฌ(reaching) ํ์คํฌ๋ ์ด๋ํ์ ์ ํ๋๋ง ์๊ตฌํ๋ฏ๋ก V-WM๊ณผ VT-WM์ด ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ์ ์ด์ ์ ์งํด์ผ ํ๋ ํ์คํฌ(pushing, wiping, placing, stacking)์์ VT-WM์ด ์ต๋ 35%๊น์ง ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. ์ด๊ฐ์ด ๊ฐ์ฅ ์ค์ํ ํ์คํฌ์์ ๊ฐ์ฅ ํฐ ์ด๋์ด ๋ฐ์ํ๋ ๊ฒ์ ์ด๋ก ์ ์ผ๋ก๋ ๋น์ฐํ ๊ฒฐ๊ณผ๋ค.
ํ๊ฐ ์งํ 4: ๋ฐ์ดํฐ ํจ์จ์ฑ (Few-shot Fine-tuning)
์๋ก์ด ํ์คํฌ์ ๋ํด ์์์ ๋ฐ๋ชจ๋ก ํ์ธํ๋ํ์ ๋์ ์ฑ๋ฅ์ด๋ค.
๊ฒฐ๊ณผ: VT-WM์ด Behavioral Cloning (BC) ๋๋น 3.5ร ๋์ ์ฑ๊ณต๋ฅ .
์ด๋ ๋ฉํฐํ์คํฌ WM์ด ํ์ตํ ์ ์ด ๋ฌผ๋ฆฌํ ํํ์ด ์๋ก์ด ํ์คํฌ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ด๋จ์ ์๋ฏธํ๋ค. BC๋ ์ ๋ ฅ-์ถ๋ ฅ ์์ ๋จ์ํ ์ธ์ฐ๋ ๋ฐฉ์์ด๋ผ ์์ ๋ฐ์ดํฐ์์ ์ทจ์ฝํ์ง๋ง, VT-WM์ ๋ฌผ๋ฆฌ์ ํํ์ ๊ฐ์ถ๊ณ ์์ด ์์์ ์์๋ก๋ ๋น ๋ฅด๊ฒ ์ ์ํ๋ค.
๋ ผ๋ฌธ Figure ์ค๋ช
Figure 1 (๋ ผ๋ฌธ ํต์ฌ ๊ทธ๋ฆผ): ํ๋ธ ์ ์ธต(cube stacking) ํ์คํฌ์์ V-WM๊ณผ VT-WM์ ์์(imagination) ๋น๊ต. V-WM์ ํ๋ธ๋ฅผ ์ง์ด ์ด๋ํ๋ ๋์ค ํ๋ธ๊ฐ ์ด๋ฏธ์ง์์ ์ฌ๋ผ์ง์ง๋ง(object disappearance hallucination), VT-WM์ ํ๋ธ๊ฐ ์ ์์ ์์์ ์ด๊ฐ ์ ํธ๋ก ์๊ธฐ ๋๋ฌธ์ ์ด๋ฐ, ๋ฐฐ์น, ํด์ ์ ๋ชจ๋ ๋จ๊ณ์์ ํ๋ธ๋ฅผ ์ผ๊ด๋๊ฒ ํํํ๋ค.
Figure 4 (Object Permanence ์ ๋ ๊ฒฐ๊ณผ): ์ด๋ ์ค์ธ ๋ฌผ์ฒด์ ๋ํ ์ ๊ทํ Frรฉchet ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ๋ฌ ํ์คํฌ์ ๊ฑธ์ณ ํ๊ท ํ๋ฉด, VT-WM์ด V-WM ๋๋น ์ฝ 33% ๊ฐ์๋ฅผ ๋ณด์ธ๋ค.
Figure 8 (๋ฉํฐํ์คํฌ ๋ฐ์ดํฐ์ ): ํ์ต์ ์ฌ์ฉ๋ ๋ค์ํ ์ ์ด ์ง์ฝ์ ํ์คํฌ๋ค์ ์๊ฐํ. ๋ณต์์ ํ์คํฌ๊ฐ ํ๋์ ๋ชจ๋ฌ์ ๋ฌถ์ฌ ํ์ต๋จ์ ๋ณด์ฌ์ค๋ค.
๋นํ์ ๊ณ ์ฐฐ: ์ด ๋ ผ๋ฌธ์ด ์ํ ๊ฒ๊ณผ ํ๊ณ
๊ฐ์
1. ๋ฌธ์ ์ ์์ ๋ช ํ์ฑ
โVision-only WM์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ์์์ ํ๋คโ๋ ์ฃผ์ฅ์ ์ถ์์ ์ด์ง ์๋ค. ๋ ผ๋ฌธ์ ์ด๋ฅผ ์ธ ๊ฐ์ง ๊ตฌ์ฒด์ ์คํจ ๋ชจ๋(์๋ฉธ, ์๊ฐ์ด๋, ๋น์ธ๊ณผ์ ์ด๋)๋ก ๋ถ๋ฅํ๊ณ , ๊ฐ๊ฐ์ ๋ํด ์ ๋์ ์งํ๋ฅผ ์ค๊ณํ๋ค. ์ด๋ฐ ์์ผ๋ก ๋ฌธ์ ๋ฅผ ๋ถํดํ๋ ๋ฅ๋ ฅ์ด ์ข์ ์ฐ๊ตฌ์ ํต์ฌ์ด๋ค.
2. ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ๋ฆฌ์ ์์ฐ์ค๋ฌ์
๋น์ =์ ์ญ, ์ด๊ฐ=๊ตญ์ ์ ์ด์ด๋ผ๋ ์ญํ ๋ถ๋ฆฌ๋ ์ง๊ด์ ์ด๊ณ ์๋ฌผํ์ ์ผ๋ก๋ ํ๋นํ๋ค. ์ธ๊ฐ์ ์ฒด์ฑ๊ฐ๊ฐ(somatosensory) ์์คํ ์ด ์ ํํ ์ด๋ฐ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค โ ์๊ฐ์ ํฐ ๊ทธ๋ฆผ์, ํผ๋ถ ์์ฉ์ฒด๋ ์ ์ด ์ธ๋ถ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ค.
3. ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ๋ช ํ ํ์ฉ
Cosmos Tokenizer (๋น์ )์ Sparsh-X (์ด๊ฐ)๋ผ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ธ์ฝ๋๋ก ์ฌ์ฉํจ์ผ๋ก์จ, WM ํ์ต ์์ฒด๋ ์ ์ฌ ๊ณต๊ฐ์์์ ๋์ญํ ์์ธก์ ์ง์คํ ์ ์๋ค. ์ด๋ ํ์ต ํจ์จ์ฑ์ ํฌ๊ฒ ๋์ด๋ ์ค๊ณ๋ค.
4. ๋ฉํฐํ์คํฌ ์ค์
๋จ์ผ ํ์คํฌ๊ฐ ์๋ ๋ฉํฐํ์คํฌ ํ์ต์, WM์ด ํ์คํฌ ํนํ๋ ํจํด์ด ์๋ ๋ฒ์ฉ ์ ์ด ๋ฌผ๋ฆฌํ์ ํ์ตํ๊ฒ ์ ๋ํ๋ค. ์ด๊ฒ์ด ๋ฐ์ดํฐ ํจ์จ์ ํ์ธํ๋์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํต์ฌ์ด๋ค.
5. ์ค์ ๋ก๋ด ์คํ
์๋ฎฌ๋ ์ด์ ์๋ง ๋จธ๋ฌผ์ง ์๊ณ ์ค์ Allegro Hand + Franka Panda ํ๋ซํผ์์ zero-shot ๊ณํ์ ๊ฒ์ฆํ๋ค. ํนํ โzero-shotโ์ด๋ผ๋ ์ โ ํ์ธํ๋ ์์ด WM์ ๊ณํ์ ์ง์ ์ฌ์ฉํ๋ค๋ ์ ์ด ์ธ์์ ์ด๋ค.
์ฝ์ ๋ฐ ํ๊ณ
1. ์ผ์ ์์กด์ฑ: Digit 360์ ๊ณ ๊ฐ์ ์ ๋ฐ ์ผ์๋ค. ๋ ์ ๋ ดํ๊ฑฐ๋ ๋ค๋ฅธ ์ข ๋ฅ์ ์ด๊ฐ ์ผ์(force/torque ์ผ์, ๋ฐ์ฝ๋ ๊ธฐ๋ฐ ์ผ์ ๋ฑ)์ ๋ํ ์ผ๋ฐํ ์คํ์ด ์๋ค. ์ฐ๊ตฌ์ค ์ค์ ์ด์ธ์์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ด ์ ํ๋ ์ ์๋ค.
2. Sim-to-Real Gap ๋ฏธ์ฒ๋ฆฌ: WM ํ์ต ๋ฐ์ดํฐ๊ฐ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ๋ณด์ด๋๋ฐ, ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ์ ์ด๋ ค์(GelSight ๊ณ์ด์ ์๋ฎฌ๋ ์ด์ ์ด ํนํ ์ด๋ ต๋ค๊ณ ์๋ ค์ ธ ์๋ค)์ ๋ํ ๋ ผ์๊ฐ ๋ถ์กฑํ๋ค. ๋ฐ์ดํฐ ์์ง ๋น์ฉ๊ณผ ํ์ฅ์ฑ์ ๋ํ ์ง๋ฌธ์ด ๋จ๋๋ค.
3. ์คํ๋ฃจํ ๊ณํ์ ํ๊ณ: ํ์ฌ์ ๊ณํ์ ์คํ๋ฃจํ(open-loop)๋ค โ ๊ณํ์ ํ ๋ฒ ์์ฑํ๊ณ ๊ทธ๋๋ก ์คํํ๋ค. ์ค์๊ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ผ๋ก ๊ณํ์ ์์ ํ๋ ํด๋ก์ฆ๋๋ฃจํ(closed-loop) ์คํ์ ๊ตฌํ๋์ง ์์๋ค. ์ค์ ์กฐ์์์๋ ์๊ธฐ์น ๋ชปํ ์ ์ด ๋ณํ๊ฐ ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ฏ๋ก, ํด๋ก์ฆ๋๋ฃจํ๊ฐ ๋ ์ค์ํ ์ ์๋ค.
4. ํ์คํฌ ๋ค์์ฑ์ ์ ํ: ์คํ ํ์คํฌ๊ฐ pushing, wiping, placing, stacking์ผ๋ก ๋น๊ต์ ๋จ์ํ๋ค. ์ ๋ฐ ์ฝ์ (peg-in-hole), ๋์ฌ ์กฐ์, ์ฒ ์กฐ์ ๋ฑ ๋ ๋ณต์กํ ์ ์ด ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ์ ๋ฏธ์ง์๋ค.
5. ์ธ๊ณผ์ฑ์ ๋ฌธ์ : WM์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ ์ ๋ฐ๋ฅธ๋ค๋ ๊ฒ์ด โ์ ๋ง๋ก ๋ฌผ๋ฆฌ ์ธ๊ณผ์ฑ์ ๋ชจ๋ธ๋งํ ๊ฒโ์ธ์ง, ์๋๋ฉด ์ด๊ฐ ๋ฐ์ดํฐ๊ฐ ๋จ์ํ ๋ ์ข์ ํต๊ณ์ ํจํด์ ์ ๊ณตํ ๊ฒ์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต๋ค. ๋ฌผ๋ฆฌ์ ํด์ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ์์ฝ๋ค.
6. ๊ณํ ์งํ์ ์ ํ๊ณ: ์ฅ๊ธฐ ๊ณํ(long-horizon planning)์ ๋ํ ์คํ์ด ์ ํ์ ์ด๋ค. ์ ์ด ์ค์ฐจ๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋์ ๋๋ ๊ฒฝํฅ์ด ์์ด, ๋ ๊ธด ์งํ์ ์์ VT-WM์ ์ด์ ์ด ์ผ๋ง๋ ์ ์ง๋๋์ง ๋ถ๋ช ํํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
World Model ๊ณ๋ณด
graph TD
A["DreamerV1/V2/V3\n(Hafner et al., 2019-2023)\nRSSM + Latent Imagination\nRL Setting"] --> B["DayDreamer\n(Wu et al., 2023)\nReal Robot + Dreamer\nVision-only"]
B --> C["V-WM\n(Vision-only WM)\nThis paper's baseline"]
C --> D["VT-WM\n(This Paper)\n+ Tactile Sensing\nContact-Rich Tasks"]
E["UniSim\n(Yang et al., 2024)\nDiffusion-based\nVideo Prediction"] --> D
F["Genie 2\n(Google)\nInteractive World Sim"] --> D
G["Sparsh/Sparsh-X\n(Higuera et al., 2025)\nTactile Foundation Model"] --> D
H["Cosmos Tokenizer\n(NVIDIA, 2025)\nVideo Tokenizer"] --> D
์ ์ฌ ์ฐ๊ตฌ์์ ์ฐจ์ด์
| ๋ ผ๋ฌธ | ์ฃผ์ ๋ชจ๋ฌ๋ฆฌํฐ | ํ์ฉ ๋ฐฉ์ | ๊ณํ ์ ์ฉ |
|---|---|---|---|
| DayDreamer (Wu et al.) | Vision | RL (Dreamer) | No direct planning |
| NeuralFeels (Higuera et al.) | Vision + Tactile | Pose/Shape Estimation | No planning |
| DexWM (2025) | Vision | Zero-shot planning | Yes (vision only) |
| ViTaS (2026) | Vision + Tactile | Policy learning | No WM |
| VT-WM (This) | Vision + Tactile | World Model + Planning | Yes |
VT-WM์ ๋ ์ฐฝ์ฑ์ โ์ด๊ฐ์ World Model์ ์์์ ํตํฉํ๊ณ , ๊ทธ ํตํฉ์ด ๊ณํ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง์ ์ ์ฆํ ์ต์ด์ ์ฐ๊ตฌโ๋ผ๋ ์ ์ด๋ค. ์ด์ ์ฐ๊ตฌ๋ค์ ์ด๊ฐ์ ์ ์ฑ ํ์ต์ด๋ ์ํ ์ถ์ ์ ํ์ฉํ์ง๋ง, World Model์ ์์ธก/์์ ํ์ง ํฅ์์ ์ด์ ์ ๋ง์ถ ๊ฒ์ ์๋กญ๋ค.
Dreamer ๊ณ์ด ๋๋น
DreamerV3๋ ํฝ์ ์ฌ๊ตฌ์ฑ ๋ชฉํ๋ก RSSM์ ํ์ตํ๋ค. VT-WM์ ์ด์ ์ ์ฌํ ๊ตฌ์กฐ์์ ๋น์ ๊ณผ ์ด๊ฐ์ ๋์์ ์์ธกํ๋ ๋ชฉํ๋ฅผ ์ถ๊ฐํ๋ค. ํต์ฌ ์ฐจ์ด๋ ์ด๊ฐ ์์ธก ๋ชฉํ๊ฐ ๋ชจ๋ธ๋ก ํ์ฌ๊ธ ์ ์ด ์ญํ์ ์ ์ฌ ํํ์ ์ธ์ฝ๋ฉํ๋๋ก ๊ฐ์ ํ๋ค๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ด ๋จ์ํ ๋ ๋ง์ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์๋๋ผ, ํํ์ ์ง์ ๋ณํ๋ฅผ ๊ฐ์ ธ์ค๋ ์ด์ ๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
VT-WM์ด ์ ๋ฌํ๋ ๋ฉ์์ง๋ ๋จ์ํ๊ณ ๊ฐ๋ ฅํ๋ค.
โ์์์ ํ์ค์ ๋ฌผ๋ฆฌํ์ ๋ฐ๋ผ์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฌผ๋ฆฌํ, ํนํ ์ ์ด์ ๋ฌผ๋ฆฌํ์ ์ด๊ฐ ์์ด ์์ ํ ํํ๋ ์ ์๋ค.โ
๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด:
- ์ฒซ ๋ฒ์งธ ๋ฉํฐํ์คํฌ ๋น์ -์ด๊ฐ World Model ์ ์
- ์ด๊ฐ ํตํฉ์ด WM์ ์์ ๋ฌผ๋ฆฌ์ ์ถฉ์ค๋๋ฅผ ์ ๋์ ์ผ๋ก ํฅ์์ํด์ ์ ์ฆ (Object Permanence +33%, Laws of Motion +29%)
- ํฅ์๋ ์์ ํ์ง์ด ์ค์ ๊ณํ ์ฑ๋ฅ์ผ๋ก ์ด์ด์ง์ zero-shot ์คํ์ผ๋ก ํ์ธ (+35%)
- ๋ฉํฐํ์คํฌ ์ฌ์ ํ์ต์ด ์์ ๋ฐ๋ชจ ์ ์์์ BC ๋๋น 3.5ร ์ฐ์๋ฅผ ์ ๊ณตํจ์ ํ์ธ
์์ง ์คํ๋ฃจํ ๊ณํ์ ํ๊ณ, ์ผ์ ์์กด์ฑ, ์ฅ๊ธฐ ๊ณํ ํ์ฅ์ฑ ๋ฑ ํ์ด์ผ ํ ๋ฌธ์ ๊ฐ ๋จ์์๋ค. ๊ทธ๋ฌ๋ ์ด ์ฐ๊ตฌ๋ ๋ก๋ด ์กฐ์์ World Model ํจ๋ฌ๋ค์์์ ์ด๊ฐ์ด ์ ํ์ด ์๋ ํ์์์ ๋ช ํํ ๋ณด์ฌ์ค ์ค์ํ ์ด์ ํ๋ค.
์ ์ด ์๋ ์กฐ์์ด ์๋ฏ์ด, ์ด๊ฐ ์๋ World Model์ ๋ถ์์ ํ๋ค. VT-WM์ ์ด ๊ฐ๊ทน์ ๋ฉ์ฐ๋ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ์ธ ์๋์ด๋ฉฐ, ์์ผ๋ก ์ด ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ๋์ฑ ๊ฐ์ํ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
- Higuera, C., Arnaud, S., Boots, B., Mukadam, M., Hogan, F., Meier, F. (2026). Visuo-Tactile World Models. arXiv:2602.06001. ICLR 2026 ์ ์ถ.
- Hafner, D. et al. (2023). Mastering Diverse Domains through World Models. Nature (2025).
- Higuera, C., et al. (2025). Sparsh-X: Tactile Foundation Model.
- Agarwal et al. (2025). Cosmos: World Foundation Models.
- Lambeta, M. et al. (2024). Digit 360: A Fully Actuated Tactile Sensor.
- Yuan, W. et al. (2017). GelSight: High-resolution Robot Tactile Sensors. Sensors.
- Higuera, C. et al. (2024). NeuralFeels with Neural Fields: Visuotactile Perception for In-Hand Manipulation. Science Robotics.