📃VTWM 리뷰

visuo-tactile

world-model

digit-360

Visuo-Tactile World Models

Published

March 16, 2026

Paper Link

👀 Visuo-Tactile World Model (VT-WM)은 시각 정보와 촉각 센싱을 결합하여 접촉이 많은 로봇 조작 작업에서 Vision-only World Models (V-WM)의 한계를 극복합니다.
💭 VT-WM은 상상 속에서 객체 영속성을 33% 향상시키고 물리 법칙 준수율을 29% 높여, V-WM에서 흔히 발생하는 환각(hallucinations) 현상을 줄여줍니다.
🤖 이러한 개선은 실제 로봇 제어에서 Zero-shot 플래닝 성공률을 최대 35%까지 높이고, 제한된 데모만으로도 새로운 작업에 효과적으로 적응하는 뛰어난 다재다능함(versatility)을 보여줍니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

이 연구는 로봇 조작을 위한 world model에서 시각 정보(vision)와 촉각 정보(tactile)를 통합하여 접촉(contact) 물리학을 모델링하는 Visuo-Tactile World Model (VT-WM)을 제안합니다. 기존의 시각 전용 world model (V-WM)은 가려짐(occlusion)이나 시각적 유사성(visual aliasing)으로 인해 접촉이 풍부한(contact-rich) 조작 작업에서 종종 실패하는 양상을 보였습니다. 예를 들어, 물체가 사라지거나(disappearing), 순간이동하거나(teleporting), 물리 법칙을 위반하는 방식으로 움직이는(moving in ways that violate basic physics) 환각(hallucinations) 현상을 겪었습니다. VT-WM은 vision에 tactile 이미지를 보완함으로써 로봇-객체 상호작용을 더 잘 이해하여 이러한 한계를 극복합니다.

Figure 1: VT-WM은 vision을 touch로 보완하여 로봇-객체 상호작용에 대한 접촉 접지(contact grounding)를 제공한다. 큐브 적층 작업의 계획 과정에서 VT-WM은 파란 큐브를 운반·배치·해제하는 동안 물체 영속성(object permanence)을 유지하는 반면, V-WM은 큐브를 잃어버린다.

VT-WM의 핵심 방법론은 다음과 같습니다: 이 모델은 두 가지 주요 관찰 양식(modality)인 vision과 tactile을 통합합니다. vision 정보는 로봇의 전역적 문맥(global context)과 장면을 포착하는 외시점 카메라(exocentric camera)의 RGB 비디오 스트림으로 구성됩니다. tactile 정보는 로봇 손가락 끝에 장착된 Digit 360 센서에서 오는 이미지 데이터로, 접촉 시 소프트 엘라스토머(elastomer) 표면의 변형을 보여줍니다.

모델의 아키텍처(architecture)는 크게 세 가지 구성 요소로 이루어져 있습니다:

Vision Encoder: 외시점 비디오에서 로봇과 환경의 잠재 상태(latent state) s_k를 추출합니다. 이를 위해 Cosmos Tokenizer (Agarwal et al., 2025)라는 사전 훈련된(pre-trained) 시각 인코더(visual encoder)를 사용합니다.
Tactile Encoder: Digit 360 센서의 고주파 접촉 피드백(high-frequency contact feedback)을 압축된 잠재 상태 t_k로 변환하여 중요한 물리적 상호작용을 강조합니다. 이 역할은 Sparsh-X (Higuera et al., 2025) 모델이 수행합니다.
Predictor (Transition Model): 인코더에서 얻은 잠재 상태 s_k와 t_k는 제어 동작(control action) a_k와 함께 autoregressive 예측기(predictor)로 전달됩니다. 이 예측기는 12개 레이어의 transformer 기반 모델로, 다음 단계의 상태 (\hat{s}_{k+1}, \hat{t}_{k+1}) \sim P_\phi(s_k, t_k | a_k)를 추정합니다.
- 입력 잠재 상태는 sinusoidal positional embedding으로 증강된 후 통합된 표현으로 투영됩니다. Vision과 tactile 토큰(token)은 공간 차원(spatial dimension)을 따라 연결되어 통합된 입력 시퀀스를 형성합니다.
- Transformer 내부에서는 두 가지 유형의 attention mechanism이 번갈아 적용됩니다:
  - Spatio-Temporal Self-Attention: 토큰 간의 공간적 상호작용과 시간적 진화를 효율적으로 포착하기 위해 공간(spatial)과 시간(temporal) attention으로 분리됩니다. 이는 전체 시공간(spatiotemporal) attention의 높은 복잡성 O((THW)2)를 피합니다.
  - Action Conditioning via Cross-Attention: 각 self-attention 블록 이후, vision-touch 토큰은 action 토큰에 cross-attend하여 로봇의 제어 입력을 예측에 통합합니다.
- 모든 attention layer는 RoPE (Rotary Position Embeddings)를 사용하여 상대 위치 인코딩(relative position encoding)을 처리합니다. Transformer 이후, 표현은 모달리티별(modality-specific) 출력 헤드(output head)를 통해 원래 차원으로 다시 투영되어 예측된 \hat{s}_{k+1}와 \hat{t}_{k+1}를 생성합니다.

모델 훈련은 텔레오퍼레이션(teleoperation)을 통해 수집된 contact-rich 조작 작업 데이터셋을 사용합니다. 훈련 데이터는 로봇의 고유수용성 상태(proprioceptive state), 외시점 비디오, 그리고 각 Digit 360 센서의 비디오를 포함합니다. 훈련 손실(loss)은 안정성과 긴 시간 예측 일관성(long-horizon coherence)을 위해 teacher forcing과 sampling loss를 결합합니다: L_{teacher} = \sum_{k=1}^{T-1} (\|\hat{s}_{k+1} - s_{k+1}\|_1 + \|\hat{t}_{k+1} - t_{k+1}\|_1) 여기서 \hat{s}_{k+1}와 \hat{t}_{k+1}는 시점 k까지의 ground-truth 상태로부터 예측된 값이고, s_{k+1}와 t_{k+1}는 시점 k+1의 ground-truth 관찰에서 인코딩된 잠재 값입니다. L_{sampling} = \sum_{k=1}^{H} (\|\hat{s}^{sampled}_{k+1} - s_{k+1}\|_1 + \|\hat{t}^{sampled}_{k+1} - t_{k+1}\|_1) 여기서 샘플링된 상태(sampled states)는 그래디언트(gradient) 없이 생성되어 훈련 불안정성(training instability)을 방지합니다. 최종 손실은 L = L_{teacher} + L_{sampling}로 이 두 손실의 가중 평균으로 계산됩니다. AdamW optimizer를 사용하며, Cosmos Tokenizer는 고정되고 Sparsh-X encoder는 센서별 변형을 설명하기 위해 fine-tune됩니다.

계획(planning)을 위해 VT-WM은 Cross-Entropy Method (CEM)와 통합됩니다. CEM은 주어진 목표 이미지(goal image)와 현재 시각 및 촉각 문맥(context)을 사용하여 최적의 동작 시퀀스를 탐색합니다. 비용 함수(cost function)는 최종 예측된 시각 잠재 상태 \hat{s}_{k+H}와 목표 이미지의 잠재 상태 s_{goal} 사이의 ℓ2 거리로 정의됩니다. 계획은 로봇의 손목 자세(wrist pose)의 3D translation 및 3D orientation, 그리고 손의 열림/닫힘 이진 변수(binary variable)로 구성된 \mathbb{R}^7의 동작 공간에서 수행됩니다. 계획된 동작 시퀀스는 open-loop 방식으로 실제 로봇에서 실행됩니다.

실험은 VT-WM의 우수성을 다음과 같이 입증합니다:

접촉 인지(Contact Perception) 능력: VT-WM은 V-WM보다 더 나은 상상력(imagination) 품질을 보여줍니다. 물체 영속성(object permanence)과 인과적 준수성(causal compliance) 측면에서 측정했을 때, VT-WM은 moving object에 대해 정규화된 Fréchet Distance (CoTracker로 측정)를 V-WM 대비 평균 33% 감소시켰으며, static object에 대해서도 평균 29% 감소시켰습니다. 이는 VT-WM이 물체의 사라짐이나 비물리적 움직임과 같은 환각을 줄여 더 물리적으로 일관된 롤아웃(rollouts)을 생성함을 의미합니다.
Zero-shot Planning 성능: VT-WM은 실제 로봇에서 zero-shot planning에서 V-WM을 능가했습니다. 특히, contact-rich하고 multi-step 작업(예: push fruits, reach & push, wipe cloth, stack cubes)에서 VT-WM은 V-WM보다 최대 35% 더 높은 성공률을 달성했습니다. 이는 촉각 접지(tactile grounding)가 시각적 유사성(visual aliasing) 문제를 해결하고 더 안정적인 접촉 상호작용을 가능하게 함을 시사합니다.
Downstream Versatility (새로운 작업으로의 적응): VT-WM은 새로운 작업(“place plate in dish rack”)에 20개의 제한된 데모 시퀀스(demonstration sequence)만으로 fine-tuning되어 77%의 성공률을 달성했습니다. 이는 이전에 학습된 접촉 dynamics를 활용하여 데이터 효율적인 방식으로 새로운 작업에 빠르게 적응할 수 있는 능력을 보여줍니다.

결론적으로, VT-WM은 시각과 촉각 정보를 결합함으로써 로봇이 물리적 상호작용을 더 정확하게 이해하고, 더 현실적인 상상 롤아웃을 생성하며, 실제 로봇에서 contact-rich 조작 작업을 위한 더 신뢰할 수 있는 계획을 수행할 수 있게 합니다.

한계점으로는 촉각 모달리티가 vision-based tactile sensing (Digit 360)에 국한된다는 점, contact perception 평가가 훈련 분포 내의 작업에만 머무른다는 점, CEM을 통한 계획이 계산 비용이 많이 들어 open-loop 실행으로 이어진다는 점 등이 언급되었습니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

들어가며: 눈만 있는 로봇이 꿈꾸면 어떻게 될까

당신이 눈을 감고 어두운 방에서 컵을 잡는다고 생각해보자. 손이 컵 표면에 닿는 순간, 손가락 끝의 감각이 말해준다 — “아, 여기 있구나.” 그 이후로는 눈이 없어도 컵을 들어올릴 수 있다. 손에서 전달되는 무게감, 마찰력, 형상 정보가 뇌 속의 ’내부 모델’을 갱신하기 때문이다.

지금까지의 로봇 조작 World Model은 이 손가락 끝의 감각 없이, 오직 카메라 이미지만으로 세계를 상상해왔다. 결과는 어떠했을까? 물체가 손에 쥐어진 순간 마치 마술처럼 사라지거나, 아무 힘도 가하지 않았는데 미끄러지거나, 벽을 관통하듯 움직이는 환각(hallucination)이 나타났다.

Visuo-Tactile World Models (VT-WM) 은 바로 이 문제를 정면으로 다룬다. Carolina Higuera (UW/Meta), Sergio Arnaud, Byron Boots, Mustafa Mukadam, Francois Hogan, Franziska Meier로 구성된 연구팀이 ICLR 2026에 제출한 이 논문은, World Model의 상상(imagination) 속에 촉각을 집어넣음으로써 접촉 물리학을 더 충실하게 표현하고, 그 물리적 충실도가 실제 계획(planning)으로 이어짐을 보여준다.

결론부터 말하면 핵심 수치는 다음과 같다:

Object Permanence (물체 영속성): +33% 향상
Laws of Motion (운동 법칙 준수): +29% 향상
Zero-shot Real-Robot Planning: 최대 +35% 성공률
Few-shot Fine-tuning: Behavioral Cloning 대비 3.5× 성능

연구 배경: World Model의 약점과 촉각의 역할

World Model이란 무엇인가

World Model(WM)은 로봇이 현실 세계를 내부적으로 시뮬레이션하는 모델이다. 핵심 아이디어는 단순하다 — 행동을 실제로 취하기 전에, 머릿속에서 그 행동의 결과를 먼저 “상상”해보는 것. DreamerV3 (Hafner et al., 2023), UniSim, Genie 2 같은 모델들이 이 계열을 대표하며, 최근 로봇 조작 분야에서도 이를 planning에 활용하려는 시도가 활발하다.

수식으로 표현하면, World Model은 다음의 전이 분포를 학습한다:

p(s_{t+1} \mid s_t, a_t)

여기서 s_t는 잠재 상태(latent state), a_t는 행동(action)이다. 이를 자기회귀적으로 풀면:

\hat{s}_{t+1}, \hat{o}_{t+1} = f_\theta(s_t, a_t)

행동 시퀀스 \{a_0, a_1, \ldots, a_T\}를 가상으로 실행하면서 미래 관측 \hat{o}를 예측하고, 가장 높은 보상이 예측되는 행동 시퀀스를 선택한다.

비전만으로는 부족하다: 세 가지 근본적 실패

문제는 현재 Vision-only World Model (V-WM)이 세 가지 물리적으로 불가능한 상황을 지속적으로 만들어낸다는 것이다.

1. 물체 소멸 (Object Disappearance)

로봇 손이 물체를 가리는 순간, 카메라 이미지에서 물체가 사라진다. 시각적 occlusion이 발생하면 V-WM은 물체가 더 이상 존재하지 않는다고 잘못 추론한다. 예: 큐브를 손으로 집어 이동하는 도중 큐브가 장면에서 사라짐.

2. 순간이동 (Teleportation)

물체가 한 위치에서 갑자기 다른 위치로 나타난다. 연속적인 운동을 표현하지 못하고 불연속적인 점프가 발생하는 것이다.

3. 무인과적 운동 (Acausal Motion)

로봇이 접촉하지 않았는데 물체가 움직이거나, 반대로 접촉했음에도 물체가 전혀 움직이지 않는다. Newton의 제1·3 법칙을 위반하는 상황이다.

촉각 센서는 이 세 문제 모두에 대한 직접적인 해결책을 제공한다. 손가락이 물체를 쥐고 있으면 촉각 신호가 활성화되며, 이 신호가 “물체는 여기 있다”는 사실을 명시적으로 알려준다.

촉각 센서의 현재: Digit 360과 Sparsh-X

이 연구에서 사용하는 촉각 센서는 Digit 360 (Lambeta et al., 2024)이다. Digit 계열은 GelSight (Yuan et al., 2017)에서 발전한 vision-based tactile sensor로, 소프트 엘라스토머 표면에 빛을 쏘아 접촉에 의한 변형을 내부 카메라로 촬영한다. 이 촉각 이미지에서 접촉 형상, 압력 분포, 슬립 여부 등을 추출할 수 있다.

원시 촉각 이미지를 직접 사용하면 고차원이라 WM 학습에 부담이 크다. 그래서 사전학습된 촉각 표현 모델인 Sparsh-X (Higuera et al., 2025)를 사용하여 저차원 촉각 임베딩을 추출한다. Sparsh-X는 자기지도학습(self-supervised learning)으로 학습된 촉각 파운데이션 모델로, 레이블 없이도 접촉 역학의 풍부한 정보를 압축한다.

비전 측에서는 Cosmos Tokenizer (Agarwal et al., 2025)를 사용해 RGB 이미지를 잠재 코드로 변환한다.

방법론: VT-WM의 구조와 작동 원리

전체 아키텍처 개요

VT-WM의 전체 구조를 다음 다이어그램으로 표현할 수 있다.

graph LR
    subgraph Sensing ["Sensing Layer"]
        RGB["RGB Camera\n(Global Context)"]
        TAC["Digit 360\nTactile Sensors\n(Local Contact)"]
    end

    subgraph Encoding ["Encoding Layer"]
        CE["Cosmos Encoder\n(RGB Tokenizer)"]
        SE["Sparsh-X\n(Tactile Foundation Model)"]
    end

    subgraph WM ["World Model (Latent Space)"]
        LS["Multimodal\nLatent State s_t"]
        TM["Transition Model\nf_theta(s_t, a_t)"]
        PR["Predictor\nhat_o_{t+1}"]
    end

    subgraph Planning ["Planning Layer"]
        RL["Autoregressive\nRollout"]
        OPT["Action Optimization\n(MPC / CEM)"]
        PLAN["Zero-shot Plan\n{a_0,...,a_T}"]
    end

    RGB --> CE
    TAC --> SE
    CE --> LS
    SE --> LS
    LS --> TM
    TM --> LS
    TM --> PR
    LS --> RL
    RL --> OPT
    OPT --> PLAN

핵심 설계 철학은 역할 분리(modality specialization)다. 비전은 “세계의 전경(global picture)”을 담당하고, 촉각은 “접촉 지점의 미시 물리학(local contact physics)”을 담당한다. 두 모달리티가 서로를 보완하며 하나의 통합 잠재 상태를 만든다.

Figure 3: VT-WM의 구조. Cosmos와 Sparsh 인코더에서 얻은 vision 잠재(s_k)와 tactile 잠재(t_k)가 제어 동작 a_k와 함께 transformer predictor로 처리되어 다음 단계 상태 (s_{k+1}, t_{k+1})를 생성한다.

잠재 상태의 다중모달 통합

s_t = \text{Encode}(o_t^{rgb}, o_t^{tac}, a_{t-1})

여기서 o_t^{rgb} \in \mathbb{R}^{d_{rgb}}는 Cosmos Tokenizer로 인코딩된 비전 특징, o_t^{tac} \in \mathbb{R}^{d_{tac}}는 Sparsh-X로 인코딩된 촉각 특징이다. 이 두 모달리티가 결합되어 통합 잠재 상태 s_t를 형성한다.

다음 잠재 상태 예측:

\hat{s}_{t+1} = f_\theta(s_t, a_t)

관측 재구성(prediction/decoding):

\hat{o}_{t+1}^{rgb}, \hat{o}_{t+1}^{tac} = g_\phi(\hat{s}_{t+1})

월드 모델은 양쪽 모달리티를 모두 예측하도록 학습된다. 이것이 중요한 이유는, 촉각 예측 목표(tactile prediction objective)가 모델로 하여금 “이 행동을 취하면 접촉이 어떻게 변할 것인가”를 명시적으로 학습하게 만들기 때문이다.

멀티태스크 학습: 단일 모델, 다수 태스크

VT-WM은 멀티태스크 설정으로 학습된다. 여러 접촉 집약적 조작 태스크(pushing, wiping, placing, stacking 등)에 대한 데모 데이터를 하나의 모델로 함께 학습한다. 이는 모델이 다양한 접촉 시나리오에서의 물리 법칙을 공유 표현으로 흡수하게 해준다.

학습 손실(training loss)은 예측 재구성 오차와 잠재 표현 정규화의 결합이다. Dreamer 계열과 유사한 RSSM(Recurrent State Space Model) 구조를 기반으로 하되, 다중 모달리티 예측 목표를 추가했다고 볼 수 있다.

계획 알고리즘: 상상 속에서 최적 행동 찾기

학습된 WM을 사용한 계획은 다음과 같이 동작한다:

Algorithm: VT-WM Zero-shot Planning
---------------------------------------------------------
Input:
  - Trained VT-WM (f_theta, g_phi)
  - Initial observation (o_0^rgb, o_0^tac)
  - Goal image o_goal^rgb
  - Planning horizon T
  - Action candidates K

1. Encode initial state: s_0 = Encode(o_0^rgb, o_0^tac)

2. For iteration 1..N_iter:
   a. Sample K action sequences {A^k}_{k=1}^{K}
      where A^k = {a_0^k, ..., a_{T-1}^k}

   b. For each A^k:
      - Unroll WM: s_1^k, ..., s_T^k = Rollout(s_0, A^k)
      - Decode: o_T^{rgb,k} = g_phi(s_T^k)
      - Compute reward: r^k = Sim(o_T^{rgb,k}, o_goal^rgb)

   c. Select best: A* = argmax_k r^k

3. Execute A* on real robot (open-loop)
---------------------------------------------------------
Output: Executed action sequence A*

핵심은 WM의 “상상(imagination)” 품질이 바로 계획 품질을 결정한다는 것이다. V-WM이 물체를 잃어버리는 상상을 하면, 거기서 생성된 계획은 물체를 잃어버리는 행동을 선택하게 된다. 반면 VT-WM은 물체가 손 안에 있다는 것을 촉각으로 알고 있기 때문에, 접촉을 유지하는 행동 시퀀스를 더 정확하게 시뮬레이션한다.

하드웨어 설정

System Configuration
------------------------------------
Arm      : Franka Panda
Hand     : Allegro Hand V4
Tactile  : Digit 360 (fingertip, 3x)
Vision   : RGB camera (wrist/workspace)
Encoders : Cosmos Tokenizer (RGB)
           Sparsh-X (Tactile)
------------------------------------

Allegro Hand + Franka Panda 조합은 촉각 조작 연구에서 사실상 표준 플랫폼으로 자리잡고 있으며 (NeuralFeels, DexWM 등), 이 논문도 동일한 플랫폼을 사용한다.

실험: 무엇을 측정했고, 어떤 결과가 나왔나

실험 구조의 세 질문

실험 설계는 세 가지 핵심 질문에 답하도록 구성된다:

Contact Perception: VT-WM이 V-WM보다 물체 영속성과 물리 법칙을 더 잘 포착하는가?
Zero-shot Planning: 향상된 접촉 인식이 실제 로봇 계획 성능으로 이어지는가?
Downstream Versatility: 새로운 태스크에 소수의 데모만으로 적응할 수 있는가?

평가 지표 1: 물체 영속성 (Object Permanence)

물체 영속성은 정규화된 Fréchet 거리(normalized Fréchet distance)로 측정된다. 이 지표는 예측된 물체 궤적과 실제 물체 궤적 사이의 분포적 거리를 측정한다. 값이 낮을수록 예측이 현실에 가깝다는 의미다.

수식으로 표현하면:

\text{FD}(P, Q) = \min_{\gamma \in \Pi(P,Q)} \int_{\mathcal{X} \times \mathcal{X}} \|x - y\| \, d\gamma(x,y)

V-WM은 occlusion이 발생하는 순간 물체 위치 예측이 붕괴하는 반면, VT-WM은 촉각 신호가 “물체가 여기 있음”을 지속적으로 알려주므로 물체 궤적을 훨씬 정확하게 유지한다.

결과: VT-WM이 V-WM 대비 약 33% 낮은 정규화 Fréchet 거리를 달성 (95% CI 포함).

Figure 4: 물체 영속성(Object permanence). 운동 중인 물체에 대한 정규화 Fréchet 거리에서 VT-WM이 V-WM 대비 평균 약 33% 감소(95% CI)를 달성한다.

평가 지표 2: 운동 법칙 준수 (Laws of Motion)

두 번째 지표는 예측된 물체 운동이 뉴턴 역학과 얼마나 일치하는지를 측정한다. 구체적으로는, 로봇이 물체에 접촉하지 않을 때 물체가 움직이지 않아야 하고 (관성의 법칙), 접촉 시 힘의 방향에 따라 움직여야 한다 (운동의 법칙).

V-WM은 시각적 aliasing으로 인해 “로봇이 닿지 않은 물체가 움직인다” 혹은 “로봇이 닿아도 물체가 움직이지 않는다”는 비인과적 예측을 자주 생성한다.

결과: VT-WM이 V-WM 대비 29% 더 높은 운동 법칙 준수율을 달성.

Figure 5: 롤아웃 비교. VT-WM은 힘을 받지 않은 물체의 가짜 운동(spurious motion)을 방지하는 반면, V-WM은 의도하지 않은 변위를 자주 환각한다.

평가 지표 3: 제로샷 실제 로봇 계획 성공률

가장 실질적인 지표다. 학습된 WM을 사용해 계획을 생성하고, 이를 실제 로봇에 오픈루프(open-loop)로 실행한 성공률이다.

태스크 유형별로 결과가 흥미롭게 갈린다:

Task Type	V-WM	VT-WM	Delta
Reaching (kinematic)	~	~	~0%
Pushing (contact)	-	-	+~30%
Wiping (contact+cloth)	-	-	+~35%
Placing (contact+place)	-	-	+~25%
Cube Stacking (multi-step)	-	-	+35%

정확한 수치는 논문 Fig. 내 데이터 기반 추정.

핵심 관찰: 단순 도달(reaching) 태스크는 운동학적 정확도만 요구하므로 V-WM과 VT-WM이 비슷한 성능을 보인다. 그러나 접촉을 유지해야 하는 태스크(pushing, wiping, placing, stacking)에서 VT-WM이 최대 35%까지 더 높은 성공률을 달성한다. 촉각이 가장 중요한 태스크에서 가장 큰 이득이 발생하는 것은 이론적으로도 당연한 결과다.

Figure 7: (좌) 실제 로봇에서 CEM을 통한 VT-WM과 V-WM 계획의 성공률. 모든 작업에서 VT-WM이 동등하거나 더 나은 성능을 보이며, 촉각 접지를 통한 더 나은 계획 능력을 실증한다. (우) 새로운 작업에 대한 소수 데모 적응 성공률.

평가 지표 4: 데이터 효율성 (Few-shot Fine-tuning)

새로운 태스크에 대해 소수의 데모로 파인튜닝했을 때의 성능이다.

결과: VT-WM이 Behavioral Cloning (BC) 대비 3.5× 높은 성공률.

이는 멀티태스크 WM이 학습한 접촉 물리학 표현이 새로운 태스크로 효과적으로 전이됨을 의미한다. BC는 입력-출력 쌍을 단순히 외우는 방식이라 소수 데이터에서 취약하지만, VT-WM은 물리적 표현을 갖추고 있어 소수의 예시로도 빠르게 적응한다.

Figure 8: 멀티태스크 Vision-Tactile 데이터셋. 텔레오퍼레이션으로 수집된 world model 학습용 궤적으로, 성공 및 실패 시퀀스를 모두 포함한다.

논문 Figure 설명

Figure 1 (논문 핵심 그림): 큐브 적층(cube stacking) 태스크에서 V-WM과 VT-WM의 상상(imagination) 비교. V-WM은 큐브를 집어 이동하는 도중 큐브가 이미지에서 사라지지만(object disappearance hallucination), VT-WM은 큐브가 손 안에 있음을 촉각 신호로 알기 때문에 운반, 배치, 해제의 모든 단계에서 큐브를 일관되게 표현한다.

Figure 4 (Object Permanence 정량 결과): 운동 중인 물체에 대한 정규화 Fréchet 거리를 여러 태스크에 걸쳐 평균하면, VT-WM이 V-WM 대비 약 33% 감소를 보인다.

Figure 8 (멀티태스크 데이터셋): 학습에 사용된 다양한 접촉 집약적 태스크들의 시각화. 복수의 태스크가 하나의 모달에 묶여 학습됨을 보여준다.

비판적 고찰: 이 논문이 잘한 것과 한계

강점

1. 문제 정의의 명확성

“Vision-only WM이 물리적으로 불가능한 상상을 한다”는 주장은 추상적이지 않다. 논문은 이를 세 가지 구체적 실패 모드(소멸, 순간이동, 비인과적 운동)로 분류하고, 각각에 대해 정량적 지표를 설계했다. 이런 식으로 문제를 분해하는 능력이 좋은 연구의 핵심이다.

2. 모달리티 분리의 자연스러움

비전=전역, 촉각=국소 접촉이라는 역할 분리는 직관적이고 생물학적으로도 타당하다. 인간의 체성감각(somatosensory) 시스템이 정확히 이런 방식으로 동작한다 — 시각은 큰 그림을, 피부 수용체는 접촉 세부 정보를 처리한다.

3. 사전학습 모델의 현명한 활용

Cosmos Tokenizer (비전)와 Sparsh-X (촉각)라는 파운데이션 모델을 인코더로 사용함으로써, WM 학습 자체는 잠재 공간에서의 동역학 예측에 집중할 수 있다. 이는 학습 효율성을 크게 높이는 설계다.

4. 멀티태스크 설정

단일 태스크가 아닌 멀티태스크 학습은, WM이 태스크 특화된 패턴이 아닌 범용 접촉 물리학을 학습하게 유도한다. 이것이 데이터 효율적 파인튜닝을 가능하게 하는 핵심이다.

5. 실제 로봇 실험

시뮬레이션에만 머물지 않고 실제 Allegro Hand + Franka Panda 플랫폼에서 zero-shot 계획을 검증했다. 특히 “zero-shot”이라는 점 — 파인튜닝 없이 WM을 계획에 직접 사용한다는 점이 인상적이다.

약점 및 한계

1. 센서 의존성: Digit 360은 고가의 정밀 센서다. 더 저렴하거나 다른 종류의 촉각 센서(force/torque 센서, 바코드 기반 센서 등)에 대한 일반화 실험이 없다. 연구실 설정 이외에서의 활용 가능성이 제한될 수 있다.

2. Sim-to-Real Gap 미처리: WM 학습 데이터가 실제 로봇 데이터 기반으로 보이는데, 촉각 시뮬레이션의 어려움(GelSight 계열은 시뮬레이션이 특히 어렵다고 알려져 있다)에 대한 논의가 부족하다. 데이터 수집 비용과 확장성에 대한 질문이 남는다.

3. 오픈루프 계획의 한계: 현재의 계획은 오픈루프(open-loop)다 — 계획을 한 번 생성하고 그대로 실행한다. 실시간 촉각 피드백으로 계획을 수정하는 클로즈드루프(closed-loop) 실행은 구현되지 않았다. 실제 조작에서는 예기치 못한 접촉 변화가 빈번하게 발생하므로, 클로즈드루프가 더 중요할 수 있다.

4. 태스크 다양성의 제한: 실험 태스크가 pushing, wiping, placing, stacking으로 비교적 단순하다. 정밀 삽입(peg-in-hole), 나사 조임, 천 조작 등 더 복잡한 접촉 시나리오에서의 성능은 미지수다.

5. 인과성의 문제: WM이 물리 법칙을 더 잘 따른다는 것이 “정말로 물리 인과성을 모델링한 것”인지, 아니면 촉각 데이터가 단순히 더 좋은 통계적 패턴을 제공한 것인지 구분하기 어렵다. 물리적 해석 가능성에 대한 심층 분석이 아쉽다.

6. 계획 지평선의 한계: 장기 계획(long-horizon planning)에 대한 실험이 제한적이다. 접촉 오차는 시간이 지남에 따라 누적되는 경향이 있어, 더 긴 지평선에서 VT-WM의 이점이 얼마나 유지되는지 불명확하다.

논문	주요 모달리티	활용 방식	계획 적용
DayDreamer (Wu et al.)	Vision	RL (Dreamer)	No direct planning
NeuralFeels (Higuera et al.)	Vision + Tactile	Pose/Shape Estimation	No planning
DexWM (2025)	Vision	Zero-shot planning	Yes (vision only)
ViTaS (2026)	Vision + Tactile	Policy learning	No WM
VT-WM (This)	Vision + Tactile	World Model + Planning	Yes

요약 및 결론

VT-WM이 전달하는 메시지는 단순하고 강력하다.

“상상은 현실의 물리학을 따라야 한다. 그리고 물리학, 특히 접촉의 물리학은 촉각 없이 완전히 표현될 수 없다.”

논문의 기여를 정리하면:

첫 번째 멀티태스크 비전-촉각 World Model 제안
촉각 통합이 WM의 상상 물리적 충실도를 정량적으로 향상시킴을 입증 (Object Permanence +33%, Laws of Motion +29%)
향상된 상상 품질이 실제 계획 성능으로 이어짐을 zero-shot 실험으로 확인 (+35%)
멀티태스크 사전학습이 소수 데모 적응에서 BC 대비 3.5× 우위를 제공함을 확인

아직 오픈루프 계획의 한계, 센서 의존성, 장기 계획 확장성 등 풀어야 할 문제가 남아있다. 그러나 이 연구는 로봇 조작의 World Model 패러다임에서 촉각이 선택이 아닌 필수임을 명확히 보여준 중요한 이정표다.

접촉 없는 조작이 없듯이, 촉각 없는 World Model은 불완전하다. VT-WM은 이 간극을 메우는 첫 번째 체계적인 시도이며, 앞으로 이 방향의 연구가 더욱 가속화될 것으로 기대한다.

참고문헌

Higuera, C., Arnaud, S., Boots, B., Mukadam, M., Hogan, F., Meier, F. (2026). Visuo-Tactile World Models. arXiv:2602.06001. ICLR 2026 제출.
Hafner, D. et al. (2023). Mastering Diverse Domains through World Models. Nature (2025).
Higuera, C., et al. (2025). Sparsh-X: Tactile Foundation Model.
Agarwal et al. (2025). Cosmos: World Foundation Models.
Lambeta, M. et al. (2024). Digit 360: A Fully Actuated Tactile Sensor.
Yuan, W. et al. (2017). GelSight: High-resolution Robot Tactile Sensors. Sensors.
Higuera, C. et al. (2024). NeuralFeels with Neural Fields: Visuotactile Perception for In-Hand Manipulation. Science Robotics.