📃DexNDM 리뷰

dexterity

sim2real

Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model

Published

March 21, 2026

Paper Link
Project Link
Video
Xueyi Liu, He Wang, Li Yi

🤖 본 연구는 sim-to-real reality gap으로 인해 어려움이 큰 dexterous in-hand rotation에서 전례 없는 일반화 능력을 달성하는 것을 목표로 합니다.
🦾 이를 위해, limited real-world data를 효과적으로 학습하고 sim policy의 actions를 조정하는 joint-wise neural dynamics model과 autonomous data collection 전략을 제안합니다.
✨ DexNDM은 단일 policy로 복잡한 형상, 높은 aspect ratio, 다양한 wrist orientation을 가진 물체를 현실 세계에서 성공적으로 조작하여, teleoperation과 같은 complex dexterous tasks를 가능하게 합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

DEXNDM: CLOSING THE REALITY GAP FOR DEXTEROUS IN-HAND ROTATION VIA JOINT-WISENEURAL DYNAMICS MODEL 논문은 dexterous in-hand rotation에서 발생하는 sim-to-real gap을 좁히기 위해 joint-wise neural dynamics model을 활용하는 새로운 접근 방식인 DexNDM을 제안합니다.

DexNDM이 실제 환경에서 달성한 능력 개요. 높은 종횡비 객체, 복잡한 형상, 다양한 손목 방향에서의 회전과 복잡한 dexterous task의 teleoperation을 단일 정책으로 수행한다.

로봇 공학에서 일반화된 손안 객체 회전을 달성하는 것은 여전히 중대한 도전 과제입니다. 기존 방법들은 단순한 기하학적 형태, 제한된 객체 크기, 고정된 손목 자세, 맞춤형 하드웨어 등 제약된 시나리오에 국한되어 왔습니다. 이러한 한계의 주된 원인은 복잡하고 접촉이 많은 동역학으로 인해 발생하는 “현실-시뮬레이션(sim-to-real) 간극”입니다. 특히, dexterous manipulation에서는 분포 관련 데이터의 대량 수집이 어렵고, 치명적인 실패(예: 객체 낙하) 시 빈번한 인간 개입이 필요하며, 손으로 인한 가림으로 객체 상태 추정이 어렵다는 문제가 있습니다.

DexNDM은 이 문제를 해결하기 위해 두 가지 핵심 설계를 도입합니다.

전문가-일반주의자(Specialist-to-Generalist) 정책 훈련: 먼저, 다양한 객체 카테고리(원통, 직육면체, 복잡한 형상 등)에 걸쳐 RL(Reinforcement Learning)을 통해 oracle policy를 훈련합니다. 이 oracle policy들은 풍부한 privileged observation을 활용합니다. 이후, 성공적인 oracle 궤적만을 집계하여 Behavior Cloning (BC)을 통해 단일 generalist policy를 훈련합니다. generalist policy의 관측치 o_{gen_t}는 proprioception history, 손목 방향, 회전 축 정보를 포함합니다. 이 방식은 어려운 작업에서 시뮬레이션 최적화 실패나 실제 환경에서의 성능 저하 문제를 피하면서 높은 품질의 oracle behavior를 모방하여 실제 환경에 배포 가능한 정책을 생성합니다.
조인트별 신경 동역학 모델 (Joint-Wise Neural Dynamics Model): 이 모델은 현실-시뮬레이션 간극을 메우는 핵심 요소입니다.
- 모델 설계: 기존의 “전체 손(whole-hand)” 모델과 달리, 각 조인트 i의 동역학을 개별적으로 모델링합니다. 각 조인트의 다음 상태 q^i_{t+1}는 오직 해당 조인트의 W 스텝 상태-액션 이력 h^i_t = \{q^i_j, a^i_j\}_{j=t-W+1}^t로부터 예측됩니다. 이는 q^i_{t+1} = f_{\psi^i}(h^i_t)와 같이 표현됩니다. 이 설계는 고차원적인 시스템 전반의 영향(예: 조인트 간 커플링, 작동, 객체 유발 효과)을 저차원의 “유효한(effective)” 변수로 증류하여 각 조인트의 동역학적 프로필로부터 그 진화를 암시적으로 포착하게 합니다.
- 이론적 근거 (정보 수축을 통한 일반화): 이 모델의 핵심 강점은 정보 수축(Information Contraction)을 통해 일반화 성능을 향상시킨다는 것입니다.
  - 데이터 처리 부등식 (Data Processing Inequality for KL divergence, Theorem 3.1): 전체 시스템 상태 X = H_t와 조인트별 상태 Y = h^i_t 간의 매핑 g: X \to Y가 주어졌을 때, KL(P\|Q) \ge KL(g(P)\|g(Q))이 성립합니다. 여기서 P는 실제 환경 분포, Q는 시뮬레이션 또는 수집된 데이터 분포입니다. 특히, g가 P와 Q가 다른 상대적 구조를 가지는 지점들을 병합하는 방식으로 비단사적(non-injective)이면, 이 부등식은 엄밀하게 성립합니다 (>). 이는 고차원 정보를 저차원으로 축소할 때, 두 분포 간의 KL 발산이 줄어들어 분포 변화(distribution shift)가 완화됨을 의미합니다.
  - 일반화 간극 수축 (Generalization Gap Contraction, Theorem 3.2): KL(g(P)\|g(Q)) < KL(P\|Q)인 경우, 조인트별 모델 f_2 \circ g_X의 generalization gap이 전체 손 모델 f_1의 generalization gap보다 작아집니다. 즉, 축소된 정보를 사용하는 모델이 현실-시뮬레이션 간극과 같은 분포 변화 상황에서 더 잘 일반화됩니다.
- 자율 데이터 수집 (Autonomous Data Collection): “카오스 박스(Chaos Box)”라는 저비용의 자율 데이터 수집 전략을 사용합니다. 로봇 손은 소프트볼이 가득 찬 컨테이너에 배치되며, 시뮬레이션 훈련된 기본 정책의 액션을 open-loop으로 재생하고 각 액션에 가우시안 노이즈(\sigma=0.01)를 추가하여 다양한 무작위 부하(randomized loads)를 가합니다. 이 과정은 완전히 자율적이고 하드웨어 안전하며, 객체 낙하 시의 인간 개입이나 리셋이 필요 없어 대규모 데이터 수집이 가능합니다.
- 잔여 정책 (Residual Policy): 학습된 조인트별 동역학 모델 f_\psi를 활용하여 기본 정책의 액션을 보상하는 잔여 정책 \pi_{res}를 훈련합니다. 기본 정책의 관측치 o_{gen_t}와 기본 액션 a_t가 주어지면, \pi_{res}는 보정치 a_{res,t}를 출력하며, 실제 배포 시에는 a_t + a_{res,t}가 실행됩니다. 이 방식은 기존 정책의 동작을 크게 변경하지 않으면서 실제 환경의 동역학적 특성을 반영하도록 미세 조정하는 효과를 가집니다.

실험 결과:

시뮬레이션 평가에서 DexNDM의 generalist policy는 미공개 객체에 대해 기존 AnyRotate 구현보다 37%~81% 우수한 성능을 보였습니다. 실제 환경에서 DexNDM은 전례 없는 dexterity를 보여주었습니다. 복잡한 형상(동물 모델), 높은 종횡비(최대 5.33), 작은 크기 객체에 대해 다양한 손목 방향 및 회전 축에서 성공적인 공중 회전을 달성했습니다. 특히, 10-16cm 길이의 긴 객체를 palm-down 구성에서 공중에서 거의 한 바퀴 회전시키는 능력을 보여주었는데, 이는 기존 연구에서 시도되지 않았거나 어려웠던 부분입니다. Visual Dexterity 및 AnyRotate와 비교하여 탁월한 성능과 광범위한 객체 및 조건에 대한 일반화 능력을 입증했습니다. Whole-Hand Neural Dynamics Model과의 비교를 통해, DexNDM의 joint-wise model이 데이터가 제한적이거나 train-test distribution shift가 있는 환경에서 훨씬 더 높은 샘플 효율성과 일반화 능력을 가짐을 확인했습니다. 반면 ASAP 및 UAN과 같은 기존 sim-to-real 방법들은 object-loaded 상호작용 동역학에 대한 generalization이 부족하여 실제 환경에서 실패했습니다. DexNDM은 tool-using 및 조립과 같은 복잡한 dexterous task를 위한 teleoperation 시스템에 성공적으로 적용될 수 있음을 시연했습니다.

결론:

DexNDM은 joint-wise neural dynamics model과 자율 데이터 수집 전략을 기반으로 하는 새로운 sim-to-real framework를 제공하여 전례 없는 손안 객체 회전 능력을 가능하게 합니다. 이 연구는 dexterous manipulation의 “현실-시뮬레이션 간극”을 좁히는 데 중요한 진전을 이루었으며, 향후 촉각 센서 및 더 풍부한 신호 통합을 통해 모델의 한계를 극복하는 것을 목표로 합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한눈에 보는 핵심

DexNDM은 손 안에서의 물체 회전(in-hand rotation)에서 sim-to-real 격차를 좁히는 새 프레임워크다. 핵심 아이디어는 두 가지로 압축된다. 첫째, 전체 손-물체 시스템을 한 덩어리로 학습하지 말고 관절 하나하나를 독립적으로 학습하라. 둘째, 그 모델이 일반화가 잘 되니까 공 통(Chaos Box)에 손을 처박고 무작위 부하를 받게 만들면서 자동 데이터 수집을 하라. 이 두 결정이 결합되어, 단일 정책 하나가 동물 모양, 5.33의 종횡비, 손등이 아래로 향한 자세까지 광범위한 조건에서 잘 작동한다. 특히 손등이 아래를 향한 상태에서 10~16cm 길이의 막대를 공중에서 한 바퀴 굴린 첫 시연이라는 점은 주목할 만하다.

DexNDM의 LEAP hand 결과는 더 작고 덜 특수한 하드웨어에서 Visual Dexterity의 D’Claw 성능을 따라잡거나 능가한다. 이는 dexterous manipulation 연구자에게 시사하는 바가 크다. “하드웨어를 더 비싸게 만드는 것”이 아니라 “데이터와 모델의 구조를 손보는 것”이 sim-to-real의 다음 돌파구라는 메시지가 명확하다.

문제: 인핸드 회전의 sim-to-real, 왜 아직도 풀리지 않는가

손 안에서 물체를 굴리는 일은 인간에겐 손쉽지만, 로봇에겐 가장 어려운 manipulation 과제 중 하나다. 무엇이 어려운가? 접촉이 빠르게 변하고, 손가락 사이로 물체가 미끄러지며, 외부 부하가 매 순간 달라지기 때문이다. 이 모든 것이 시뮬레이터에서는 “그럭저럭 비슷한 방식”으로 모델링되지만 실제 하드웨어에서는 작은 마찰계수 차이, 모터의 백래시, 손가락 표면의 마모, PD 제어의 응답 지연 같은 것들이 누적되어 정책을 무너뜨린다. 이것이 sim-to-real gap이다.

기존 연구들은 다음 세 가지 중 하나로 회피했다.

접근법	대표 연구	한계
손바닥이 위를 향한 자세만 가정	RotateIt (Qi 2023), PenSpin (Wang 2024)	다양한 wrist orientation 처리 불가
단순한 정형 물체만 다룸	RotateIt, AnyRotate (Yang 2024)	동물 모양, 막대 등 복잡 형상 처리 불가
비싼 맞춤형 하드웨어 + 정밀 촉각센서	Visual Dexterity (Chen 2022, D’Claw)	일반 하드웨어로 재현 어려움

AnyRotate는 wrist orientation과 회전축 일반화를 달성했지만 객체는 평범한 크기/형상에 머물렀고, Visual Dexterity는 복잡 형상을 공중에서 굴렸지만 작은 물체나 길쭉한 물체에서 성능이 검증되지 않았다. “모든 차원의 일반성을 동시에 갖춘 단일 정책”이 아직 없었다는 것이 DexNDM이 정조준한 빈자리다.

기존 sim-to-real 전략의 한계도 명확하다. 도메인 랜덤화는 휴리스틱한 분포 폭에 의존하고, 시스템 식별(SysID)은 파라미터화 가능한 부분만 잡아낸다. 더 야심찬 접근은 실세계 데이터로 신경망 동역학을 학습하는 것인데(ASAP, UAN, MB-Max), locomotion에서는 잘 통하지만 dexterous manipulation에서는 다음 모순에 막혔다.

데이터 모순: 일반성을 갖추려면 다양한 객체에 대한 방대한 데이터가 필요하다. 그러나 그 데이터가 분포적으로 task-relevant하려면 정책이 이미 그 객체들을 다룰 수 있어야 한다. 그런데 정책이 잘 작동하지 못해서 데이터를 모으려는 것이다. 즉 닭이 먼저냐 달걀이 먼저냐의 문제다.

게다가 실제 데이터 수집은 또 다른 함정에 빠진다. 막대처럼 어려운 물체는 미흡한 정책으로 자꾸 떨어뜨려서 사람이 계속 다시 세팅해줘야 하고, 손에 가려진 작은 물체의 상태를 비전으로 정확히 추적하는 것도 어렵다. 데이터셋은 작고, 편향되고, 노이즈가 많다. DexNDM은 이 매듭을 모델 쪽과 데이터 쪽에서 동시에 푼다.

첫 번째 통찰: 동역학을 관절 단위로 분해한다

전통적인 신경망 동역학 모델은 손 전체를 한꺼번에 본다. 즉 손의 길이 W 짜리 상태-행동 히스토리 H_t = \{\mathbf{q}_j, \mathbf{a}_j\}_{j=t-W+1}^{t} 를 받아서 다음 상태 전체를 예측한다.

\mathbf{q}^{t+1} = f_\theta(H_t)

이건 RMA (Kumar 2021)의 접근에서 비롯된 아이디어다. 16-DoF 손이라면 H_t의 차원이 2 \times 16 \times W가 되어 매우 크다. 큰 차원 = 데이터 많이 필요 = 분포 일치 빡세짐이다. DexNDM은 이를 뒤집는다.

관절 i 하나의 다음 상태는, 그 관절 자신의 히스토리만 보고 예측하자.

\mathbf{q}_{t+1}^i = f_{\psi_i}(h_t^i), \quad h_t^i = \{\mathbf{q}_j^i, \mathbf{a}_j^i\}_{j=t-W+1}^{t}

이게 왜 말이 되는가? 한 관절의 운동방정식을 보자. 표준 매니퓰레이터 동역학에서

M(\mathbf{q})\ddot{\mathbf{q}} + C(\mathbf{q},\dot{\mathbf{q}})\dot{\mathbf{q}} + G(\mathbf{q}) = \boldsymbol{\tau} + \boldsymbol{\tau}_{\text{ext}}

이걸 “모델링 대상 관절 m”과 “그 외 모든 슬레이브 관절 s”로 쪼개면, 저속 가정 하에서 Coriolis를 무시하고 슈어 보수(Schur complement)로 정리해 다음과 같이 압축된다.

\mathbf{H}_t^{\text{eff}} \ddot{\mathbf{q}}_t^i + \mathbf{G}_t^{\text{eff}} = \tau_t^i

여기서 \mathbf{H}_t^{\text{eff}}, \mathbf{G}_t^{\text{eff}} \in \mathbb{R} 은 스칼라다. 인접 관절의 가속도, 중력, 외부 부하, 객체와의 접촉력이 전부 이 두 개의 효과 항(effective term)으로 응축된다. 이 두 항만 알면, 그 관절의 다음 상태는 결정된다.

직관적으로 표현하면 이렇다. 16명이 손을 잡고 줄다리기를 하는 상황에서, 각 사람은 자기가 받는 알짜 힘과 자기 무게중심만 알면 다음 한 발을 정확히 내딛을 수 있다. 옆 사람이 어떤 자세로 어떤 근육을 썼는지 알 필요가 없다. 옆 사람들의 모든 상태는 “내 손바닥에 전해진 알짜 장력”이라는 하나의 신호로 압축되어 내게 도달하기 때문이다.

물론 우리는 이 효과 항을 직접 측정하지 못한다. 그러나 짧은 히스토리 h_t^i 안에는 가속도, 속도, 위치, 명령 토크가 다 들어 있고, 효과 항이 짧은 시간 동안 연속함수처럼 변한다고 가정하면 이 히스토리만으로 충분히 다음 상태를 예측할 수 있다. 신경망은 이 함수 매핑을 학습한다.

%%| label: fig-jointwise
%%| fig-cap: "관절 단위 동역학 모델의 구조. 각 관절 i는 자기 자신의 W-step 히스토리만 입력으로 받아 다음 상태를 예측한다."
flowchart LR
    subgraph WHOLE["전체 손 모델 f_theta"]
        H["H_t<br/>(전체 손 히스토리)<br/>차원: 2*W*d"] --> Q["q_{t+1}<br/>(전체 손 상태)"]
    end
    subgraph JOINT["관절별 모델 f_psi_i"]
        H1["h_t^1"] --> Q1["q_{t+1}^1"]
        H2["h_t^2"] --> Q2["q_{t+1}^2"]
        HN["..."] --> QN["..."]
        HD["h_t^d"] --> QD["q_{t+1}^d"]
    end
    WHOLE -.->|"분해<br/>(factorize)"| JOINT

신경망 동역학 모델 접근법의 비교. (A) 전체 손 동역학, (B) ASAP/UAN의 delta action 모델, (C) DexNDM의 관절별(joint-wise) 동역학 모델. DexNDM은 각 관절의 동역학을 독립적으로 모델링한다.

이 결정이 가져오는 두 가지 결과가 있다.

샘플 효율성: 입력 차원이 2Wd 에서 2W 로 줄어든다. d=16이라면 16배 적은 차원이다. 데이터 한 trajectory가 d개의 학습 샘플을 만들어내는 효과도 부수적으로 따라온다.
객체 상태 추정 의존성 제거: 손가락 사이에서 가려지는 물체의 6D 자세를 추정할 필요가 없다. 객체의 영향은 효과 항에 자동으로 응축되어 있기 때문이다. 비전 추적의 노이즈와 occlusion 문제가 사라진다.

두 번째 통찰: 정보 압축이 일반화 격차를 줄인다

여기까지는 “그럴듯한 모델링 선택” 정도다. 논문이 한 발 더 나아가는 곳은, 왜 이 분해가 분포 변화(distribution shift)에 강건한지를 수학적으로 증명하는 부분이다.

문제 설정은 이렇다. 학습 분포 \mathcal{Q} (Chaos Box에서 모은 데이터)와 타겟 분포 \mathcal{P} (실제 회전 task)이 다르다. 우리는 \mathcal{Q} 위에서 학습한 모델이 \mathcal{P} 위에서도 잘 작동하기를 원한다.

핵심 도구는 Data Processing Inequality (DPI) 다. 어떤 측정 가능한 변환 g (비단사적, non-injective)에 대해

\mathrm{KL}(\mathcal{P} \| \mathcal{Q}) \geq \mathrm{KL}(g(\mathcal{P}) \| g(\mathcal{Q}))

가 성립한다. 즉 변환 g를 거치고 나면 두 분포 사이의 KL 발산은 작아질 뿐, 커지지 않는다. 더 강한 형태는, g가 진정으로 정보를 잃을 때 부등식이 엄격하게 성립한다는 것이다.

DexNDM에서 g는 “전체 손 히스토리에서 관절 i의 히스토리만 추출하는 사영”이다. 정의역 차원 2Wd에서 공역 차원 2W로 줄이니, 정보를 잃는다. 따라서

\mathrm{KL}(g(\mathcal{P}) \| g(\mathcal{Q})) < \mathrm{KL}(\mathcal{P} \| \mathcal{Q})

이 KL 축소가 일반화 격차의 축소로 이어진다는 것이 Theorem 3.2의 내용이다. 공변량 시프트(covariate shift) 가정 아래에서, 임의의 학습된 함수에 대해

\sup |R_{\mathcal{P}}(f_2 \circ g_X) - R_{\mathcal{Q}}(f_2 \circ g_X)| < \sup |R_{\mathcal{P}}(f_1) - R_{\mathcal{Q}}(f_1)|

이 성립한다. 풀어 쓰면 이렇다.

같은 양의 데이터가 주어졌을 때, 저차원 사영 공간에서 학습한 관절별 모델이, 고차원 원공간에서 학습한 전체 손 모델보다 더 작은 일반화 격차를 갖는다.

직관으로 풀어보자. 학습 분포와 평가 분포가 고차원 공간에서 서로 다른 구석에 있다고 하자. 그런데 두 분포를 동일한 저차원 축으로 사영하면, 두 분포는 그 축 위에서 훨씬 더 비슷하게 보인다. 흩어진 다채로운 별자리가 멀리서 보면 비슷한 안개로 뭉뚱그려지는 것과 같다. 이 “원근 효과”가 정보 압축의 본질이다.

DexNDM의 약점이 될 만한 부분도 동시에 보호된다. 단일 관절 히스토리는 효과 항을 추정하기에는 충분하지만, 다른 관절들의 고차원 영향력을 복원하기에는 부족하다. 표현력은 살아남고, 헛된 상관관계는 차단된다. 이것이 정보 병목(information bottleneck)이 작동하는 방식이다.

논문은 시뮬레이션 데이터로 모델을 사전학습하여 초기값을 잡고, 실세계 데이터로 파인튜닝한다. 사전학습이 ablation에서 큰 차이를 만들었다.

세 번째 통찰: Chaos Box로 데이터를 거저 모은다

모델이 분포 변화에 강건하다는 사실은 데이터 수집 방식을 근본적으로 단순화할 수 있게 한다. 이 부분이 DexNDM에서 실무자에게 가장 매력적인 대목이다.

기존 데이터 수집의 함정을 짚어보자.

방식	문제점
베이스 정책 롤아웃 (ASAP, MB-Max)	어려운 물체에서 자꾸 떨어뜨림. 사람이 계속 다시 세팅해야 함
Wave action (UAN)	객체 부하가 없어서 실제 dynamics와 동떨어짐
비전 기반 객체 추적	손에 가려져 추적 실패. 작은 물체일수록 심함

DexNDM의 답은 단순하다. 공 통(Chaos Box)에 손을 처박는다. 부드러운 공으로 가득 찬 통 안에 LEAP hand를 넣고, 시뮬레이션 정책의 행동을 open-loop로 재생한다. 50% 확률로 가우시안 노이즈(\sigma=0.01)를 추가한다. 그게 전부다.

이 단순한 세팅이 네 가지 원칙을 동시에 만족한다.

Policy-awareness: 시뮬레이션 정책의 행동 분포를 재생하므로, 거시적으로는 task와 비슷한 행동 영역에 머문다.
Object-loaded interaction: 공들이 손가락 사이에서 무작위 부하를 만든다. 단순 wave action과 결정적으로 다른 점이다.
Broad coverage: 노이즈 추가와 공들의 무작위성이 분포 폭을 넓힌다.
Scalability: 물체를 떨어뜨릴 일이 없다. 사람이 개입할 필요가 없다. 하드웨어 손상 위험도 낮다.

flowchart TB
    A["Simulated base policy actions<br/>(open-loop replay)"] --> B{"Add Gaussian noise?<br/>p=0.5"}
    B -->|"yes"| C["a_t + noise"]
    B -->|"no"| D["a_t"]
    C --> E["Execute on LEAP hand<br/>inside Chaos Box"]
    D --> E
    E --> F["Hand interacts with<br/>soft balls -> random loads"]
    F --> G["Record (q_t, a_t) histories"]
    G --> H["Train joint-wise<br/>neural dynamics f_psi"]

Figure 1: Chaos Box 자동 데이터 수집의 흐름.

결과는 인상적이다. 논문은 task-aware 데이터 수집으로 동일한 성능을 내려면 약 750만 개의 trajectory, 약 41만 7천 시간이 필요하다고 외삽한다. Chaos Box는 같은 효과를 며칠 안에 낸다. 핵심은 모델의 일반화 능력이 데이터의 분포 일치 요구를 완화했기 때문이다.

데이터 수집 전략 비교. (A) 전략별 trajectory당 시간 비용, (B) 수집 방식별 실세계 회전 성능, (C) 실세계 데이터 양에 대한 스케일링 법칙. 자율 수집(Autonomous w/ Load)이 낮은 비용으로 task-aware 수집에 필적하는 성능을 낸다.

여기서 자주 받을 만한 의문에 미리 답하자. “분포가 다른 데이터로 학습한 모델이 정작 task에서 잘 작동할까?” 논문의 Figure 4는 이 질문에 대한 경험적 증거를 보여준다. 단일 관절의 입출력 히스토리 분포는 Chaos Box 데이터와 실제 task 데이터 사이에서 거의 겹친다. 같은 데이터를 전체 손 단위로 보면 두 분포가 분리된다. 이것이 사영 g가 KL을 축소하는 모습을 그대로 시각화한 결과다.

t-SNE 분포 시각화. (A) 단일 관절 단위로 보면 task 데이터와 자율 수집 데이터의 분포가 거의 겹친다. (B) 전체 손 단위로 보면 두 분포가 분리된다. 사영 g가 KL 발산을 축소하는 모습을 경험적으로 보여준다.

네 번째 통찰: 베이스 정책은 건드리지 않는다 (residual policy)

학습된 dynamics 모델을 어떻게 쓸 것인가? 자연스러운 선택지는 두 가지다.

모델 기반 제어(MPC)나 정책 파인튜닝: 학습된 dynamics로 시뮬레이션을 만들어 정책을 재학습한다. ASAP, UAN의 접근.
Residual policy: 베이스 정책의 출력을 보정하는 작은 정책을 별도로 학습한다.

DexNDM은 후자를 선택한다. 이유는? 학습된 dynamics 모델은 부분적으로만 정확하다(global accuracy 보장 없음). 그 위에서 정책을 다시 학습시키면 모델 오차에 정책이 과적합한다. Residual은 그 위험을 줄인다.

수식으로 보면 다음과 같다.

{\pi^{\text{res}}}^{*} = \arg\min_{\pi^{\text{res}}} \mathbb{E}_{\tau \sim p_{\pi^*}(\tau)} \sum_{t=1}^{N-1} \left\| \mathbf{q}_{t+1} - f_\psi\left(\{\mathbf{q}_j, \mathbf{a}_j + \pi^{\text{res}}(\mathbf{o}_j^{\text{gene}}, \mathbf{a}_j)\}_{j=t-W+1}^{t}\right) \right\|

직관적으로 풀면 이렇다. 시뮬레이션의 정답 trajectory를 가지고, “보정된 액션을 실세계 dynamics 모델에 넣었을 때 시뮬레이션의 다음 상태가 나오도록” 보정 항을 학습한다. 그러면 실제 로봇에 보정된 액션을 줬을 때, 시뮬레이션이 보여준 행동과 같은 결과가 나온다는 논리다.

배포 시에는 단순히 \mathbf{a}_t + \mathbf{a}_t^{\text{res}} 를 실행한다. 베이스 정책은 그대로다. 이건 실무적으로 큰 이점이다. 새 객체나 새 wrist 자세를 추가할 때, 베이스 정책을 다시 학습할 필요 없이 dynamics 모델과 residual만 업데이트하면 된다.

전체 파이프라인

전체 파이프라인을 한 장으로 정리하면 이렇다.

DexNDM 전체 파이프라인 (논문 원본). 카테고리별 oracle 정책 학습과 BC distillation(시뮬레이션 학습), Chaos Box 데이터 수집, 관절별 동역학 모델 학습, residual policy 학습(sim-to-real 보정)으로 구성된다.

flowchart TB
    subgraph SIM["Simulation training"]
        A["(A) Train category-specific<br/>oracle policies (PPO)"] --> B["(B) Distill into generalist<br/>via Behavior Cloning"]
    end
    subgraph S2R["Neural sim-to-real"]
        C["(C) Chaos Box<br/>autonomous data collection"] --> D["(D) Train joint-wise<br/>neural dynamics f_psi"]
        D --> E["(E) Train residual policy<br/>pi_res via supervised learning"]
    end
    B --> E
    E --> F["Deploy: a_t + a_t^res<br/>on LEAP hand"]

Figure 2: DexNDM 전체 파이프라인. (A-B)는 시뮬레이션 학습, (C-E)는 sim-to-real 보정.

베이스 정책 학습 자체에도 한 가지 디테일이 있다. DAgger 스타일 distillation은 이 setting에서 무너진다. 시뮬레이션 최적화가 안 되거나 실세계에서 정책이 붕괴된다. 논문은 PenSpin의 관찰과 일치한다고 본다. 대안은 단순한 BC다. 카테고리별 oracle 정책을 롤아웃하고, 성공한 trajectory만 골라서 generalist를 supervised로 학습한다. 고품질 행동만 모방하는 것이 이 난이도에서는 더 잘 통한다.

실험: 무엇을, 어떻게, 왜

설정

하드웨어: LEAP hand (16-DoF, 4-finger). Visual Dexterity의 커스텀 D’Claw보다 작고 일반적이다.
객체 분포: 동물 모양(코끼리, 토끼, 찻주전자), 종횡비 최대 5.33 (예: 20cm 막대), 작은 물체(2-3cm). object-to-hand ratio 0.31에서 1.68.
Wrist orientation: palm up/down, base up/down, thumb up/down 등 다양한 방향.
회전축: 다축.

주요 결과

시뮬레이션 일반화: 베이스 정책이 새로운 복잡 형상에 대해 baseline을 37%-81% 차이로 앞선다. 단일 정책으로 카테고리 간 generalist 능력을 확보했다는 증거다.

실세계 검증: sim-to-real 모듈이 일관되게 회전 성능을 끌어올린다. 특히 손등이 아래로 향한 자세에서 10-16cm 막대를 장축 기준으로 한 바퀴 가까이 공중에서 회전시킨 첫 시연이다. 이건 dexterous manipulation의 “어렵다고 알려진 자세”에서의 돌파다.

Visual Dexterity 비교: VD가 큰 D’Claw로 보여줬던 복잡 형상 회전 성능을, DexNDM은 더 작은 LEAP hand에서 동등하거나 우월하게 달성한다. VD가 어려워한 코끼리, 토끼, 찻주전자 같은 형상에서 더 잘 작동한다. “survival angle(떨어뜨리기 전까지의 누적 회전각)” 지표에서 비슷하거나 우월하다.

AnyRotate 비교: AnyRotate의 axis/wrist 일반성은 정형 객체에 한정되었다. DexNDM은 같은 일반성을 유지하면서 더 어려운 객체 분포(작은 크기, 높은 종횡비)까지 다룬다. 손가락 게이팅(finger gaiting)도 더 정교하다.

(A) 동역학 모델 일반화 비교. 관절별(Joint-Wise) 모델이 전체 손(Whole Hand) 및 손가락 단위(Finger-Wise)보다 적은 데이터/분포 시프트 환경에서 낮은 예측 오차를 보인다. (B) 실세계 회전 성능 비교. DexNDM의 sim-to-real 보정이 일관되게 성능을 끌어올린다.

ASAP/UAN 비교: 이 두 sim-to-real 기법은 dexterous manipulation에서 완전히 실패한다. 이유는 명확하다. 그들의 dynamics 모델/compensator는 자유 운동(객체 없음) 데이터로 학습되기 때문에, 객체와의 풍부한 접촉 dynamics를 일반화하지 못한다. DexNDM은 Chaos Box로 객체 부하 데이터를 모았기 때문에 이 격차가 없다.

Ablation 분석 요약

변경점	영향
Joint-wise → Whole-hand dynamics	적은 데이터/분포 시프트 환경에서 37%-81% 성능 하락
Joint-wise → Finger-wise dynamics	중간 정도 하락. 손가락 단위도 정보 압축이 부족
시뮬레이션 사전학습 제거	큰 폭의 성능 하락
Chaos Box → wave action만	객체 부하 부재로 실세계 dynamics 학습 실패
노이즈 주입 제거	분포 폭이 좁아져 일반화 저하
Policy-aware replay 제거	task 영역에서의 정확도 하락

각 설계 선택이 우연이 아니라는 점이 ablation으로 명확히 드러난다.

응용: Teleoperation

일반화된 회전 정책 위에 Meta Quest 3 기반 teleoperation 시스템을 얹어, 드라이버 사용, 칼 다루기, 부품 조립 같은 long-horizon dexterous task를 수행한다. 회전 능력이 일반적이라는 것은, 그 위에 더 복잡한 task layer를 얹을 수 있다는 의미다. 이건 산업적 함의가 크다.

비판적 고찰

강점

이론과 실험이 같은 방향을 가리킨다. DPI 기반 일반화 분석이 결과를 깔끔하게 설명한다. “단일 관절 히스토리는 자기 동역학을 예측하기에 충분하되, 다른 관절의 영향을 복원하기엔 부족하다”는 분석은 표현력과 정규화의 균형을 잘 잡았다.
하드웨어 진입 장벽을 낮춘다. 비싼 촉각 센서나 커스텀 hand 없이 LEAP hand로 SOTA를 친다. Allegro Hand 같은 일반 연구용 hand로도 follow-up이 가능해 보인다.
데이터 수집의 실용성. Chaos Box는 어떤 연구실이든 며칠 안에 재현할 수 있을 만큼 단순하다. 사람 개입과 비전 추적 의존을 모두 제거한 것이 핵심 가치다.
모듈식 설계. 베이스 정책, dynamics 모델, residual policy가 분리되어 있어 부분 업데이트가 가능하다. 새 객체 추가나 새 wrist 자세 추가 시, 전체 재학습이 아닌 모듈 교체로 대응할 수 있다.

약점과 한계

촉각 센서 부재. 논문 스스로 인정한 한계다. 미끄럼 발생, 미세 접촉 검출, 표면 재질 추정 같은 능력이 빠져있다. DIGIT이나 GelSight 통합은 자연스러운 후속 방향이다.
저속 가정. Coriolis 항 무시는 일반적인 in-hand 회전 속도에서는 합리적이지만, 빠른 finger gaiting이나 동적 manipulation에서는 깨질 수 있다. 효과 항이 짧은 윈도우에서 연속함수처럼 변한다는 가정이 흔들리는 경우다.
회전 task에 특화된 검증. Residual policy의 학습 목표가 “시뮬레이션이 본 다음 상태에 도달하기”다. 이는 trajectory가 본질적으로 회전인 경우에 잘 작동하지만, 변형 가능한 객체나 grasping/handover 같은 task로 옮기면 dynamics 모델의 표현 한계가 드러날 가능성이 있다.
Chaos Box의 분포가 충분한가?. Figure 4가 보여주는 분포 일치는 매력적이지만, 실제로 더 극단적인 자세나 매우 작은 물체에서 효과 항의 분포가 Chaos Box로 충분히 커버되는지는 case-by-case다. 극단 케이스에서 분포 보완 전략이 별도로 필요할 수 있다.
Residual policy의 보정 범위. 베이스 정책이 완전히 부적합한 경우(예: 시뮬레이션에서도 못 푸는 새로운 task), residual은 한계가 있다. 베이스 정책의 품질이 ceiling을 정한다.

연구	접근	DexNDM과의 관계
RMA (Kumar 2021)	proprioceptive history로 잠재 표현 학습	DexNDM의 관절별 모델링이 RMA를 관절 단위로 분해한 일반화
Visual Dexterity (Chen 2022)	비전 + RL + 큰 D’Claw	DexNDM은 더 작은 hand로 동등 이상. Wrist orientation 일반성에서 우위
AnyRotate (Yang 2024)	촉각 + axis/wrist 일반화	DexNDM은 촉각 없이 객체 일반성까지 확장
ASAP (He 2025)	전체 시스템 dynamics 학습, locomotion 중심	DexNDM은 dexterous manipulation에 적합하도록 분해된 dynamics
UAN (Fey 2025)	sim-real delta action 학습	UAN은 객체 부하 없이 학습. Manipulation 일반화 실패
HORA (Qi 2023)	proprioception 기반 in-hand 회전	DexNDM의 sim-to-real 모듈을 HORA 류에 결합하면 hardware 일반화 가능성

Allegro Hand 연구자가 가져갈 만한 인사이트

DexNDM의 설계 결정은 Allegro Hand 기반 연구에도 직접 적용 가능한 시사점을 던진다.

HORA, RotateIt 류 정책에 sim-to-real 보정 모듈로 얹어볼 수 있다. 이미 있는 베이스 정책을 재학습하지 않고, 관절별 dynamics만 Allegro Hand에서 모아서 residual policy를 얹는 시나리오가 자연스럽다. IsaacLab에서 PD 게인을 잡아두고, Chaos Box 데이터로 실세계 dynamics를 측정한 뒤 residual을 학습하는 워크플로우가 가능하다.
객체 상태 추정의 부담을 덜 수 있다. DIGIT/GelSight 통합 전이라도, 비전 기반 객체 트래킹 없이 sim-to-real 보정이 가능하다는 점은 setup을 단순화한다.
PD 게인 도메인 랜덤화의 보완. 도메인 랜덤화로 못 잡는 modeling discrepancy를 residual이 메운다. 즉 DR과 residual은 상호 배제가 아니라 보완 관계다.
F/T 센서 데이터로 효과 항을 검증. ATI Mini45 같은 sensor가 있다면, 학습된 dynamics의 effective term 예측이 실제 측정과 어떻게 비교되는지 정량적으로 살펴볼 수 있다. 이론적 효과 항이 신경망에 어떻게 인코딩되는지 검증하는 흥미로운 분석 주제다.
VLA 모델과의 결합 가능성. 베이스 정책을 VLA로 두고 dynamics 보정만 residual로 처리하면, vision-language로 정의된 어려운 manipulation task에서도 sim-to-real을 단순화할 수 있다. π0/π0.5, GR00T 같은 모델의 액션 출력을 residual로 보정하는 실험적 시나리오를 생각해볼 만하다.

마치며

DexNDM의 가치는 단일 트릭이 아니라 두 결정의 결합에 있다. 모델을 관절 단위로 분해해 일반화를 끌어올렸고, 그 일반화가 데이터 수집을 단순화할 수 있게 풀어줬다. 두 결정이 따로 떨어져 있었다면 평범했을 것이다. 함께 묶이니 sim-to-real이라는 오랜 매듭이 풀린다.

데이터 처리 부등식이 dexterous manipulation의 일반화에 적용된다는 관점은 신선하다. 이 관점은 다음 질문으로 자연스럽게 이어진다. “우리가 모델링하는 시스템의 어떤 사영이 task-sufficient하면서 분포 차이를 가장 잘 압축하는가?” 관절 단위가 답인 경우는 in-hand 회전이었다. 다른 task에서는 다른 사영이 답일 수 있다(손가락 단위, 손바닥 단위, 객체-손가락 접촉 패치 단위 등). 이 framework를 일반화하면 dexterous manipulation 전반에 적용 가능한 sim-to-real 레시피가 만들어질 가능성이 보인다.

촉각 정보 부재가 ceiling을 만든다는 점은 명백한 후속 방향이다. DIGIT 같은 vision-based tactile 센서를 통합하고, 효과 항을 직접 추정할 수 있는 신호로 활용하는 후속 연구가 곧 따라올 것이다. 그 시점에서 DexNDM의 frame은 한 단계 더 단단해질 것이다.

지금 시점에서 가장 매력적인 부분은 재현 가능성이다. 비싼 하드웨어가 필요 없고, 데이터 수집은 공 통 하나면 된다. 핵심 아이디어 두 개가 명확하다. 즉 누구든 며칠 안에 시도해볼 수 있는 형태로 결과가 정리되어 있다는 점이, 이 논문이 dexterous manipulation 커뮤니티에 미칠 실제 영향을 결정할 것이다.