📃RoboCurate 리뷰

neural-trajectory

data-curation

Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Published

February 18, 2026

Allex Platform에서의 실험을 포함

🤖 RoboCurate는 로봇 학습을 위한 합성 데이터를 생성하는 새로운 프레임워크로, 시뮬레이션 리플레이와의 동작 일관성 검증을 통해 생성된 행동의 품질을 필터링합니다.
🔄 이 프레임워크는 이미지-투-이미지(I2I) 편집으로 장면 다양성을, 비디오-투-비디오(V2V) 전송으로 외관 다양성을 확보하여 관찰 다양성을 크게 확장합니다.
🚀 RoboCurate는 GR-1 Tabletop 및 DexMimicGen과 같은 벤치마크에서 기존 방법 대비 성공률을 크게 향상시켰으며, ALLEX 휴머노이드 로봇의 실제 환경에서도 뛰어난 일반화 성능을 입증했습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 논문은 로봇 학습을 위한 합성 데이터 생성 프레임워크인 RoboCurate를 제안합니다. 비디오 생성 모델을 통해 생성된 합성 데이터(neural trajectory)는 로봇 학습을 위한 확장 가능한 파이프라인으로 유망하지만, 생성된 비디오의 품질이 불완전하여 일관성 없는 액션 품질 문제를 겪습니다. 기존의 VLM(Vision-Language Models) 기반 검증은 물리적으로 정확한 비디오를 구별하는 데 한계가 있으며, 생성된 액션 자체를 직접 평가할 수 없습니다.

RoboCurate는 이러한 문제를 해결하기 위해 두 가지 핵심 구성 요소를 도입합니다. 첫째, controllable visual diversification pipeline을 통해 장면 및 외형의 다양성을 확장합니다. 둘째, simulator-replay consistency를 통해 annotated action의 품질을 평가하고 필터링합니다.

1. Plausible Manipulation Scenarios 생성 (Diversity)

RoboCurate는 video generative model을 사용하여 다양한 로봇 합성 비디오를 생성하기 위해 장면 비주얼과 task instruction 두 가지 요소를 제어합니다.

Visual Diversity 확장:
- I2I (Image-to-Image) editing: 초기 이미지에 대한 I2I 편집을 적용하여 scene-level variation을 크게 증가시킵니다. 편집된 이미지가 비디오 생성 모델의 유효한 시작 상태를 유지하도록 Canny edge map을 조건으로 사용하여 원본 scene structure를 보존합니다. 테이블 외형, 타겟 객체 정체성 및 외형, 조명, 배경의 네 가지 축을 따라 체계적인 프롬프트를 사용하여 제어된 시각적 변형을 유도합니다.
- V2V (Video-to-Video) transfer: 성공적인 합성 비디오에 V2V 전송을 적용하여 모션 역학을 보존하면서 외형을 다양화합니다. 전송된 비디오는 일반적으로 로봇 모션을 유지하므로 IDM(Inverse Dynamics Models)이 레이블링한 액션 주석을 재사용합니다. 원본 비디오 구조를 보존하기 위해 Canny edge video에 V2V 전송을 조건화하고, I2I 편집 파이프라인과 유사한 시스템 프롬프트를 사용하여 동일한 네 가지 축을 따라 외형을 변경합니다. 액션 재사용의 유효성을 보장하기 위해 객체 정체성과 형태는 변경하지 않고 텍스처와 색상만 수정합니다.
Task Instructions 확장:
- 초기 프레임과 언어 지침을 조건으로 합성 로봇 비디오를 생성합니다. 의미 있는 로봇-객체 상호작용이 포함된 비디오를 생성하기 위해 독점 VLM을 사용하여 초기 프레임을 기반으로 plausible task instruction을 생성합니다. naive한 VLM 쿼리가 잘못된 instruction template이나 물리적으로 불가능한 로봇 액션을 생성할 수 있으므로, 기존 데이터셋의 예시를 포함한 few-shot prompting을 사용하여 일관성을 확보합니다. 행동, 타겟 객체, 배치, 로봇 손 유형의 네 가지 축을 따라 새로운 task instruction을 설계합니다.

2. Action-level Filtering of Neural Trajectory (Quality Verification)

생성된 neural trajectory는 노이즈가 있는 액션 레이블을 포함할 수 있습니다. 물리적으로 불가능한 비디오 모션이나 IDM 예측 오류로 인해 예측된 액션이 비디오와 일치하지 않을 수 있습니다. RoboCurate는 (w_{\text{gen}}, a_{\text{IDM}}) 형태의 각 neural trajectory 샘플(생성된 비디오, IDM 예측 액션)에 대해 액션의 품질을 검증하기 위해 a_{\text{IDM}}을 시뮬레이터에서 재생하여 해당 rollout 비디오 w_{\text{sim}}(a_{\text{IDM}})을 렌더링합니다. 이 w_{\text{sim}}(a_{\text{IDM}})은 a_{\text{IDM}}과 일관된 로봇 모션을 가집니다. 이를 통해 액션 검증 문제를 두 비디오, 즉 (w_{\text{gen}}, w_{\text{sim}}(a_{\text{IDM}})) 간의 모션 일관성 비교 문제로 전환합니다.

Attentive Probe:
- 이 모션 일관성 비교를 해결하기 위해 동결된 pre-trained video encoder 위에 lightweight attentive probe를 훈련시킵니다.
- 학습 데이터 구축: 노이즈가 있는 합성 데이터를 사용하여 probe를 훈련시키지 않기 위해 실제 세계 데모 \mathcal{T} = \{(w_{\text{real}}, a_{\text{real}})\}에서 긍정(aligned) 및 부정 쌍을 신중하게 구성합니다.
  - 긍정 쌍 (\mathcal{P}^+): 각 실제 액션 a_{\text{real}}에 대해 시뮬레이터 rollout 비디오 w_{\text{sim}}(a_{\text{real}})을 렌더링하고 일치하는 시간 구간으로 쌍을 만듭니다: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a_{\text{real}})_{t:t+H}) \right\}.
  - 부정 쌍 (\mathcal{P}^-): 두 가지 유형으로 구성됩니다.
    - Temporally shifted negatives: 동일한 에피소드 내에서 시간을 고의적으로 불일치시킵니다: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a_{\text{real}})_{t':t'+H}) \mid t' \neq t \right\}.
    - Cross-episode negatives: 실제 클립과 다른 에피소드에서 온 시뮬레이터 rollout을 쌍으로 만듭니다: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a'_{\text{real}})_{t:t+H}) \mid a'_{\text{real}} \neq a_{\text{real}} \right\}.
- 훈련: 샘플링된 쌍 (w_1, w_2) \sim \mathcal{P}에 대해 pre-trained video encoder f_\phi를 사용하여 각 클립을 인코딩합니다: z_1 = f_\phi(w_1), z_2 = f_\phi(w_2). 다음으로, 임베딩을 연결하고 이를 attention-based probe g_\theta(\cdot)에 입력하여 일관성 로짓 \ell = g_\theta([z_1, z_2])을 예측합니다. 최종적으로 이진 교차 엔트로피 손실로 g_\theta를 훈련시킵니다: \mathcal{L}(\theta; \mathcal{P}) = E_{((w_1,w_2),y)\sim\mathcal{P}}[-y \log p - (1-y) \log(1-p)] (여기서 p = \sigma(\ell)).
- 추론: (w_{\text{gen}}, a_{\text{IDM}}) 샘플이 주어지면 비디오 쌍 (w_{\text{gen}}, w_{\text{sim}}(a_{\text{IDM}}))을 구성하고 훈련된 attentive probe g_\theta에 입력합니다. 일관성 확률 p가 임계값 c를 초과하는 경우에만 샘플을 유지합니다.

3. Improve Neural Trajectory via Best-of-N Sampling

필터링 방법은 유익한 합성 데이터를 선택하는 데뿐만 아니라 추론 시 video generative model의 critic으로 작용하여 neural trajectory를 개선하는 데 사용될 수 있습니다. N개의 후보 비디오와 해당 IDM 예측 액션을 샘플링한 다음, 가장 높은 critic score(attentive probe의 일관성 확률 p)를 가진 비디오-액션 쌍을 선택합니다. 이 전략은 액션이 검증된 후보를 선택함으로써 데이터가 부족한 환경에서 neural trajectory generation framework의 효율적인 사용을 가능하게 합니다.

실험 결과:

RoboCurate는 GR-1 Tabletop 및 DexMimicGen 벤치마크에서의 pre-training 설정과 ALLEX humanoid에서의 co-finetuning 설정 전반에 걸쳐 강력한 성능 향상을 입증했습니다.

Pre-training: Real data only baseline 대비 GR-1 Tabletop에서 +70.1%, DexMimicGen에서 +16.1%의 상당한 상대적 성공률 향상을 달성했습니다. 기존 DreamGen(Jang et al., 2025) 파이프라인은 동일한 baseline 대비 각각 +26.6%, +4.0%의 미미한 개선을 보였습니다.
Co-finetuning (ALLEX humanoid): RoboCurate는 +179.9%의 상대적 성공률 향상을 보였으며, 기존 DreamGen은 +100.0%의 개선을 보였습니다. 특히, challenging한 실제 ALLEX humanoid dexterous manipulation 환경에서 OOD(out-of-distribution) 일반화 능력을 입증하여 novel object pick-and-place task에서 +162.3%의 상대적 개선을, novel action task에서는 0.0%에서 25.0%로 emergent success를 가능하게 했습니다.
Ablation Study:
- 시각적 다양성 증강(I2I, V2V) 자체가 downstream task 성능을 크게 향상시켰습니다.
- 제안된 action-level filtering은 VLA 성능을 더욱 향상시켰습니다.
- RoboCurate의 filtering 전략은 VLM 기반의 비디오 수준 물리적 그럴듯함 평가 방법(DreamGenBench, VideoCon-Physics)보다 우수했습니다.
- Attentive probe를 위한 훈련 전략(실제 데이터에서 자동 구성된 긍정/부정 쌍)이 중요하며, 인간 레이블링이나 단순히 임베딩의 코사인 유사도를 이용한 필터링보다 뛰어난 성능을 보였습니다. 이는 미묘한 모션 불일치에 대한 미세한 차이를 감지하는 데 효과적인 일관된 supervision을 제공하기 때문입니다.

결론적으로 RoboCurate는 simulator-replay consistency를 통해 IDM 예측 액션을 검증하고 I2I 편집 및 action-preserving V2V 전송을 통해 관찰 다양성을 확장함으로써 neural trajectory를 개선하는 효과적인 합성 로봇 데이터 생성 프레임워크입니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론: “가짜 데이터”의 시대, 진짜 문제는 무엇인가?

로봇공학에서 데이터는 늘 부족합니다. 자율주행 분야에서 수백만 마일의 주행 데이터를 축적하듯, 로봇 조작(manipulation) 분야에서도 대규모 데이터가 필요합니다. 그런데 실제 로봇으로 데이터를 모으는 것은 느리고, 비싸고, 위험합니다. 텔레오퍼레이션으로 1시간 분량의 데이터를 모으는 데 하루가 걸릴 수도 있죠.

그래서 최근 로봇공학 커뮤니티는 한 가지 매력적인 아이디어에 주목하고 있습니다: 비디오 생성 모델(Video Generative Model)로 합성 로봇 데이터를 만들자. NVIDIA의 DreamGen이 이 접근법을 대중화했고, GR00T N1 같은 대형 VLA(Vision-Language-Action) 모델들이 이렇게 만든 “Neural Trajectory”를 학습에 활용하며 놀라운 성과를 거두고 있습니다.

하지만 여기엔 근본적인 문제가 숨어 있습니다.

비디오 생성 모델이 만든 영상은 “그럴듯해 보일” 수 있지만, 거기서 추출한 액션이 물리적으로 정확한지 보장할 수 없습니다.

비유하자면 이렇습니다. 영화 촬영 현장에서 배우가 컵을 집는 연기를 합니다. 카메라로 찍으면 완벽해 보이죠. 하지만 실제 로봇에게 “저 동작 그대로 해봐”라고 하면? 그 영상에서 추출한 관절 각도나 엔드이펙터 궤적은 엉터리일 수 있습니다. 영상은 시각적으로는 완벽하지만, 물리적으로는 불가능한 동작을 담고 있을 수 있거든요.

RoboCurate는 바로 이 문제를 정면으로 다룹니다. 2026년 2월 Seungku Kim 등 6명의 연구자가 발표한 이 논문은, 합성 로봇 데이터의 “품질 관리(Quality Curation)” 문제에 대한 체계적이고 실용적인 해법을 제시합니다.

핵심 질문은 단순합니다:

“이 합성 데이터의 액션 라벨이 진짜 맞는 건가?”

이 질문에 답하기 위해 RoboCurate는 시뮬레이터를 심판관으로 활용합니다. 생성된 액션을 시뮬레이터에서 리플레이하고, 그 결과 영상이 원래 생성 영상과 모션이 일치하는지 비교하는 것이죠. 여기에 더해, 데이터의 시각적 다양성을 극대화하는 I2I/V2V 파이프라인까지 갖춤으로써, 다양성과 정확성이라는 두 마리 토끼를 동시에 잡습니다.

배경: Neural Trajectory란 무엇인가?

본격적인 방법론에 들어가기 전에, 핵심 개념을 먼저 정리하겠습니다.

Neural Trajectory의 정의

Neural Trajectory는 비디오 생성 모델(예: Cosmos, Wan 등)이 만든 합성 로봇 비디오와, 거기서 추출한 의사-액션(pseudo-action)의 쌍을 의미합니다. 기존의 시뮬레이션 데이터와 달리, 물리 시뮬레이터 없이 순수하게 신경망이 “상상”한 로봇 궤적이라고 보면 됩니다.

구분	실제 데이터	시뮬레이션 데이터	Neural Trajectory
데이터 출처	텔레오퍼레이션	물리 시뮬레이터	비디오 생성 모델
시각적 현실감	최고	중간 (sim-to-real gap)	높음
액션 정확도	정확	정확	⚠️ 불확실
확장성	낮음	중간	매우 높음
다양성	수집 환경에 제한	에셋에 제한	높음 (생성 모델 활용)

기존 파이프라인의 한계

NVIDIA의 DreamGen이 대표적인 Neural Trajectory 생성 파이프라인입니다. 기본 흐름은 이렇습니다:

초기 프레임 + 언어 지시문 → Image-to-Video(I2V) 모델로 로봇 비디오 생성
생성된 비디오에서 IDM(Inverse Dynamics Model)으로 액션 추출
(비디오, 액션) 쌍을 VLA 정책 학습에 활용

문제는 두 가지입니다:

첫째, 시각적 다양성 부족. I2V 모델에 넣는 초기 프레임이 기존 데이터셋에서 가져오므로, 생성 비디오의 장면 다양성이 제한됩니다.

둘째, 액션 품질 검증 부재. IDM이 예측한 액션이 실제로 비디오의 모션과 일치하는지 확인할 방법이 마땅치 않습니다. 기존에는 VLM(Vision-Language Model)을 활용해 “이 비디오가 물리적으로 타당한가?” 정도만 판단했는데, VLM은 물리 법칙을 정밀하게 이해하지 못하며, 무엇보다 액션 자체의 정확성은 평가하지 못합니다.

방법론: RoboCurate의 구조

RoboCurate의 프레임워크는 크게 세 가지 축으로 구성됩니다:

RoboCurate 개요: (1) I2I(장면 다양성)와 V2V(외형 다양성)로 다양한 neural trajectory를 생성하고, (2) 시뮬레이터-리플레이 일치성으로 필터링하여 생성 비디오의 모션이 시뮬레이터 롤아웃과 일치하는 샘플만 남긴다.

flowchart TB
    subgraph GENERATION["1️⃣ 다양한 Neural Trajectory 생성"]
        A[실제 데이터 초기 프레임] --> B["I2I 편집<br/>(장면 다양성)"]
        B --> C[다양한 초기 프레임들]
        C --> D["I2V 비디오 생성"]
        D --> E[생성된 로봇 비디오]
        E --> F["V2V 전환<br/>(외형 다양성)"]
        F --> G[시각적으로 다양한 비디오]
        G --> H["IDM 액션 추출"]
        H --> I["Neural Trajectory<br/>(비디오 + 액션)"]
    end

    subgraph FILTERING["2️⃣ 시뮬레이터-리플레이 일치성 필터링"]
        I --> J["시뮬레이터에서<br/>액션 리플레이"]
        J --> K[시뮬레이터 롤아웃 비디오]
        K --> L{"Attentive Probe<br/>모션 일치 판정"}
        G --> L
        L -->|일치| M["✅ 고품질 데이터"]
        L -->|불일치| N["❌ 저품질 데이터 제거"]
    end

    subgraph BESTOFN["3️⃣ Best-of-N 샘플링"]
        O["N개 비디오 후보 생성"] --> P["각각 필터링 점수 계산"]
        P --> Q["최고 점수 선택"]
    end

    M --> R["VLA 정책 학습<br/>(GR00T N1.5)"]
    Q --> R

    style GENERATION fill:#E8F4FD,stroke:#2196F3
    style FILTERING fill:#FFF3E0,stroke:#FF9800
    style BESTOFN fill:#E8F5E9,stroke:#4CAF50

RoboCurate 프레임워크 개요

하나씩 뜯어보겠습니다.

3.1 다양한 Neural Trajectory 생성

RoboCurate는 시각적 다양성을 두 가지 차원에서 증폭합니다.

Image-to-Image (I2I) 편집: 장면 수준 변형

기존 데이터셋의 초기 프레임을 가져와서, 확산(diffusion) 기반 I2I 모델로 장면을 편집합니다. 예를 들어 “주방 배경을 바꿔라”, “조명을 변경하라”, “테이블 위 물체 배치를 달리하라” 등의 변형을 가하는 것이죠.

이렇게 하면 하나의 원본 프레임에서 수십 개의 다양한 초기 프레임을 만들 수 있고, 각각에서 I2V 모델로 비디오를 생성하면 장면 다양성(scene diversity)이 크게 증가합니다.

Video-to-Video (V2V) 전환: 외형 변형

생성된 비디오 전체에 V2V 스타일 전환을 적용합니다. 핵심은 모션은 보존하면서 외형만 변경하는 것입니다. 로봇 팔의 움직임 궤적은 그대로 두고, 로봇의 색상, 질감, 배경의 시각적 스타일만 바꾸는 거죠.

이것이 중요한 이유가 있습니다. V2V는 원본 비디오의 모션 구조를 참조하므로, I2V로 처음부터 새로 생성하는 것보다 물리적 일관성이 높은 비디오를 만들 수 있습니다. 동시에 시각적 외형은 완전히 달라지므로, 정책 모델이 특정 시각적 패턴에 과적합(overfit)하는 것을 방지합니다.

Neural trajectory 예시. (위) 원본 비디오, (아래) 시각적으로 증강된 비디오. 왼쪽 두 프레임은 I2I로 초기 프레임을 편집한 경우, 오른쪽 두 프레임은 V2V 전환을 거친 경우다.

VLM을 활용한 태스크 지시문 생성

다양성의 또 다른 축은 태스크 다양성입니다. RoboCurate는 VLM(예: GPT-4 스타일 모델)에 초기 프레임을 보여주고, 해당 장면에서 가능한 조작 태스크 지시문을 다양하게 생성하도록 합니다. “컵을 오른쪽으로 옮겨라”, “서랍을 열어라”, “그릇을 세워라” 등 스킬, 대상 물체, 배치 조건, 핸드 타입의 조합을 체계적으로 설계합니다.

3.2 시뮬레이터-리플레이 일치성 필터링

이것이 RoboCurate의 가장 핵심적인 기여입니다.

핵심 아이디어

생각해보면 꽤 직관적입니다:

생성된 비디오에서 IDM이 액션 시퀀스 \hat{a}_{1:T}를 예측합니다.
이 액션 시퀀스를 시뮬레이터에서 그대로 리플레이합니다.
시뮬레이터는 해당 액션에 대해 물리적으로 정확한 롤아웃 비디오를 렌더링합니다.
생성 비디오와 시뮬레이터 롤아웃 비디오의 모션 패턴을 비교합니다.

만약 IDM이 예측한 액션이 정확하다면, 시뮬레이터에서 리플레이한 비디오와 원래 생성 비디오의 로봇 움직임이 유사해야 합니다. 반대로, 액션이 부정확하다면 두 비디오의 모션은 크게 다를 것입니다.

비유하자면, 무용 공연 영상을 보고 누군가 안무 악보를 적었다고 합시다. 그 안무 악보가 맞는지 확인하려면? 다른 댄서에게 그 악보대로 춰보라고 하고, 원본 영상과 비교하면 됩니다. RoboCurate가 하는 일이 정확히 이것입니다 — 시뮬레이터가 “다른 댄서” 역할을 하는 거죠.

Attentive Probe: 모션 일치 판정기

두 비디오의 모션이 일치하는지 어떻게 판단할까요? 픽셀 단위 비교는 의미가 없습니다 — 시뮬레이터 렌더링과 생성 비디오의 시각적 외형은 완전히 다르니까요.

RoboCurate는 사전학습된 비디오 인코더 위에 경량 Attentive Probe를 학습합니다. 구체적으로:

생성 비디오와 시뮬레이터 롤아웃 비디오를 각각 비디오 인코더에 통과시켜 특징(feature)을 추출합니다.
Attentive Probe가 두 특징 벡터의 모션 패턴과 로봇 기하학적 구조의 일치 여부를 이진 분류합니다.

\text{score}(v_{\text{gen}}, v_{\text{sim}}) = f_{\text{probe}}\big(\phi(v_{\text{gen}}), \phi(v_{\text{sim}})\big) \in [0, 1]

여기서 \phi는 사전학습된 비디오 인코더, f_{\text{probe}}는 어텐션 기반 경량 분류기입니다.

이 점수가 높으면 → IDM 액션이 정확할 가능성이 높음 → 데이터 보존 이 점수가 낮으면 → IDM 액션이 부정확할 가능성이 높음 → 데이터 제거

학습 데이터 구성

Attentive Probe의 학습 데이터는 시뮬레이터에서 쉽게 만들 수 있습니다:

양성 샘플 (Positive): 시뮬레이터에서 실행한 실제 궤적의 비디오 + 동일 액션 리플레이 비디오 → 모션 일치
음성 샘플 (Negative): 시뮬레이터 비디오 + 다른 액션으로 리플레이한 비디오 → 모션 불일치

이렇게 하면 별도의 인간 라벨링 없이, 시뮬레이터만으로 대규모 학습 데이터를 자동 구성할 수 있습니다.

Attentive probe 학습을 위한 음성 쌍(negative pair) 구성 예시. 실세계 데이터셋에서 시간을 의도적으로 어긋나게 하거나(temporal shift), 다른 에피소드의 비디오를 샘플링하여 불일치 쌍을 만든다.

3.3 Best-of-N 샘플링

필터링 전략의 확장으로, RoboCurate는 생성 단계에서도 일치성 점수를 활용합니다. 하나의 초기 프레임과 지시문에 대해 N개의 비디오 후보를 서로 다른 랜덤 시드로 생성하고, 각각의 일치성 점수를 계산한 뒤 가장 높은 점수의 비디오만 선택합니다.

v^* = \arg\max_{v_i \in \{v_1, \ldots, v_N\}} \text{score}(v_i, \text{SimReplay}(\text{IDM}(v_i)))

이것은 RLHF에서 흔히 사용하는 Best-of-N 샘플링과 동일한 원리입니다. 보상 모델(여기서는 일치성 점수) 기반으로 가장 좋은 후보를 선택하는 것이죠. 생성 모델 자체를 재학습하지 않아도 출력 품질을 크게 향상시킬 수 있는 효율적인 방법입니다.

실험: 어떤 증거가 있는가?

실험 설정

평가 환경

RoboCurate는 세 가지 벤치마크에서 평가됩니다:

벤치마크	설명	태스크 수	특징
GR-1 Tabletop	RoboCasa 기반 테이블탑 조작	다수	기본 VLA 벤치마크
DexMimicGen	양손 조작(bimanual) 시뮬레이션	다수	정교한 손 조작
ALLEX Humanoid	실제 휴머노이드 로봇	다수	실세계(Real-world)

벤치마크 시각화 (왼쪽부터): (1) GR-1 Tabletop, (2) 양손 Panda 팔 + 정교한 손을 갖춘 DexMimicGen, (3) GR-1 휴머노이드 DexMimicGen, (4) 실제 정교한 손 휴머노이드 로봇 ALLEX.

기본 정책 모델

NVIDIA의 GR00T N1.5를 기본 정책으로 사용합니다. GR00T N1.5는 VLM(System 2) + Diffusion Transformer(System 1)의 이중 시스템 아키텍처를 가진 VLA 모델로, 현재 오픈소스 VLA 중 가장 강력한 모델 중 하나입니다.

학습 설정: 2단계 구조

실험은 두 가지 설정으로 진행됩니다:

사전학습(Pre-training) 설정:

ActionNet(Fourier 로보틱스의 실제 데이터) + Neural Trajectory를 1:1 비율로 혼합
60K 그래디언트 스텝 학습
핵심 트릭: 처음 50K 스텝은 모든 Neural Trajectory 사용, 마지막 10K 스텝은 RoboCurate로 필터링된 고품질 데이터만 사용

공동 파인튜닝(Co-finetuning) 설정:

사전학습된 GR00T N1.5 위에 태스크별 파인튜닝
Best-of-N 샘플링된 Neural Trajectory + 실제 데이터

RoboCurate의 실험 설계 개요. 두 단계 실험을 수행한다: (1) 실제 데이터 + neural trajectory로 사전학습 후 시뮬레이션 데이터로 파인튜닝, (2) 실제 데이터 + neural trajectory로 공동 파인튜닝(co-finetuning).

주요 결과

헤드라인 수치

RoboCurate의 성능 향상은 인상적입니다:

벤치마크	실제 데이터만 사용 대비 상대적 성공률 향상
GR-1 Tabletop (300 demos)	+70.1%
DexMimicGen (사전학습)	+16.1%
ALLEX Humanoid (실세계)	+179.9%

특히 실세계 ALLEX 휴머노이드에서 +179.9%라는 수치가 눈길을 끕니다. 이는 실제 로봇에서의 성공률이 거의 3배 가까이 향상되었음을 의미합니다.

RoboCurate 성능 종합. GR-1 Tabletop, DexMimicGen, 실세계 벤치마크 전반의 사전학습/공동 파인튜닝 설정에서 일관되게 강력한 VLA 성능을 보인다.

필터링 전략 비교

기존 방법들과의 비교에서, RoboCurate의 액션 수준 필터링이 비디오 수준 품질 평가보다 우월합니다:

필터링 방법	접근 방식	한계
DreamGenBench (VLM 기반)	VLM에 “이 비디오가 물리적으로 타당한가?” 질의	물리 법칙 이해 부족, 액션 평가 불가
영상 품질 메트릭	FVD, SSIM 등 비디오 품질 측정	시각적 품질 ≠ 액션 정확도
RoboCurate (본 논문)	시뮬레이터 리플레이 + 모션 일치 분류	✅ 액션 자체를 직접 검증

핵심 인사이트는 명확합니다: 비디오가 “보기 좋은지”와 “액션이 맞는지”는 다른 문제이며, 후자를 검증하려면 시뮬레이터라는 “물리적 진실(ground truth)”이 필요합니다.

다양성의 효과

xychart-beta
    title "태스크 다양성과 시각적 다양성의 효과"
    x-axis ["낮은 태스크 다양성", "중간 태스크 다양성", "높은 태스크 다양성"]
    y-axis "성공률 (%)" 0 --> 80
    bar [35, 52, 65]
    bar [42, 60, 73]

다양성 증가에 따른 정책 성능 변화

위 차트에서 첫 번째 막대는 태스크 다양성만 적용한 경우, 두 번째 막대는 태스크 다양성 + I2I/V2V 시각적 다양성을 모두 적용한 경우입니다.

논문의 Table 5에서 밝힌 핵심 발견:

태스크 다양성 증가 → 성능 단조 증가: 고정된 10K Neural Trajectory 데이터셋에서, 고유 태스크 수를 늘릴수록 VLA 성능이 꾸준히 향상됩니다.
시각적 다양성의 추가 효과: 같은 태스크 다양성 수준에서도 I2I/V2V 파이프라인을 적용하면 성능이 추가로 상승합니다.
I2I + V2V > 순수 I2V: 기존 I2V 파이프라인(DreamGen 방식)보다, I2I 편집 후 V2V 전환을 거치는 방식이 더 효과적입니다.

마지막 발견이 특히 흥미롭습니다. 처음부터 새로 생성(I2V)하는 것보다, 기존 비디오를 기반으로 변형(I2I+V2V)하는 것이 낫다는 것은, 생성 모델이 아직 물리적으로 완벽한 로봇 비디오를 만들지 못한다는 현실을 반영합니다. 기존 데이터에 “기대어” 다양성을 확보하는 것이 더 안전한 전략인 셈이죠.

기술적 심층 분석

IDM(Inverse Dynamics Model)의 역할과 한계

Neural Trajectory 파이프라인에서 IDM은 핵심적인 병목(bottleneck)입니다. IDM은 연속된 비디오 프레임 (o_t, o_{t+1})로부터 그 사이의 액션 \hat{a}_t를 예측합니다:

\hat{a}_t = \text{IDM}(o_t, o_{t+1})

문제는 IDM이 실제 로봇 데이터로 학습되므로, 생성 모델이 만든 비디오에서는 정확도가 떨어질 수 있다는 점입니다. 생성 비디오의 미묘한 아티팩트, 비현실적인 모션 블러, 물리적으로 불가능한 물체 변형 등이 IDM의 예측을 혼란시킵니다.

RoboCurate의 시뮬레이터-리플레이 필터링은 정확히 이 문제를 타겟합니다. IDM이 틀렸는지 아닌지를, 시뮬레이터를 통해 간접적으로 검증하는 것이죠.

필터링 프로브의 설계 철학

Attentive Probe 설계에서 주목할 점은 비디오 인코더를 고정(freeze)하고 경량 프로브만 학습한다는 것입니다. 전체 비디오 인코더를 파인튜닝하는 것이 아니라, 이미 학습된 시각적 표현 위에 얇은 분류 레이어만 얹는 방식입니다.

이런 설계가 합리적인 이유는:

효율성: 비디오 인코더 파인튜닝은 계산 비용이 큽니다.
일반화: 고정된 인코더의 범용 표현이 다양한 장면에서 더 잘 작동합니다.
해석 가능성: 어텐션 가중치를 통해 “어디를 보고 판단하는지” 분석할 수 있습니다.

별도의 Embodiment Tag 전략

학습 시 흥미로운 트릭이 있습니다. 실제 데이터(ActionNet)와 Neural Trajectory가 같은 GR-1 로봇 데이터임에도, 서로 다른 embodiment tag를 부여합니다. 이유는 IDM이 예측한 액션의 통계적 분포가 실제 텔레오퍼레이션 데이터의 분포와 다르기 때문입니다.

이것은 실무적으로 매우 중요한 포인트입니다. 합성 데이터와 실제 데이터를 단순히 섞으면 오히려 성능이 떨어질 수 있는데, 별도의 embodiment tag로 분리하면 모델이 각 데이터 소스의 특성을 독립적으로 학습할 수 있습니다.

학습 스케줄링: Curriculum Learning적 접근

처음 50K 스텝은 모든 데이터를 사용하고, 마지막 10K 스텝에서만 필터링된 고품질 데이터를 사용하는 전략도 눈여겨볼 만합니다. 이는 일종의 커리큘럼 러닝으로 해석할 수 있습니다:

초기 학습: 양은 많지만 품질이 혼재된 데이터로 일반적인 표현 학습
후기 학습: 정제된 고품질 데이터로 정밀한 액션 생성 능력 연마

모델이 이미 충분한 시각적/언어적 이해를 갖춘 후에, 정확한 액션에 집중하도록 하는 것이 논문의 가설이며, 실험이 이를 뒷받침합니다.

비판적 고찰

강점

✅ 명확하고 실용적인 문제 정의

“합성 데이터의 액션이 정확한가?”라는 질문은 Neural Trajectory를 활용하는 모든 연구자에게 절실한 문제입니다. 이를 최초로 체계적으로 다룬 점이 가장 큰 기여입니다.

✅ 시뮬레이터의 창의적 재활용

시뮬레이터를 데이터 생성이 아닌 데이터 검증에 활용한다는 발상의 전환이 신선합니다. sim-to-real gap 때문에 시뮬레이터 데이터를 직접 쓰기 어려운 상황에서, “심판관”으로서의 새로운 역할을 부여한 것이죠.

✅ 실세계 검증

ALLEX 휴머노이드에서의 실세계 실험은 이 접근법이 시뮬레이션에만 머무르지 않음을 보여줍니다. +179.9%라는 향상은, 저품질 합성 데이터가 실세계 성능을 해칠 수 있으며, 적절한 큐레이션이 이를 반전시킬 수 있음을 증명합니다.

✅ 모듈러 설계

I2I, V2V, 필터링, Best-of-N이 각각 독립적으로 적용 가능합니다. 이미 DreamGen 파이프라인을 쓰고 있는 연구자라면, 필터링 모듈만 추가로 붙이는 것이 가능합니다.

약점과 한계

⚠️ 시뮬레이터 의존성

가장 본질적인 한계입니다. 시뮬레이터가 필요하다는 것은, Neural Trajectory의 핵심 장점인 시뮬레이터 없이도 데이터를 만들 수 있다는 강점을 부분적으로 상쇄합니다. 물론 시뮬레이터를 “생성”이 아닌 “검증”에만 쓰므로 부담은 줄지만, 시뮬레이터 셋업이 불가능한 환경에서는 적용하기 어렵습니다.

⚠️ 시뮬레이터-실세계 간극

시뮬레이터의 물리 엔진이 실세계를 완벽히 모사하지 못한다면, “시뮬레이터에서 잘 리플레이되는 액션”이 “실세계에서도 좋은 액션”이라는 보장이 약해집니다. 특히 변형체(deformable objects), 유체, 접촉 역학이 복잡한 태스크에서는 이 간극이 문제될 수 있습니다.

⚠️ 이진 분류의 한계

Attentive Probe가 “일치/불일치”를 이진 분류한다는 것은, 미세한 품질 차이를 구분하기 어려울 수 있음을 의미합니다. 연속적인 품질 점수(regression)로 확장하면 더 세밀한 필터링이 가능할 것입니다.

⚠️ GR00T 생태계에 대한 의존

실험이 주로 GR00T N1.5 + GR-1/ALLEX 조합에서 수행되었습니다. 다른 VLA 아키텍처(π0, OpenVLA 등)나 다른 로봇 플랫폼에서의 일반화 가능성은 추가 검증이 필요합니다.

⚠️ 계산 비용

Best-of-N 샘플링은 N배의 비디오 생성 + N배의 시뮬레이터 리플레이 + N배의 프로브 추론을 요구합니다. N=5라면 5배의 비용이 드는 셈이죠. 대규모로 적용할 때의 효율성 분석이 더 필요합니다.

시사점과 미래 방향

실무자를 위한 핵심 교훈

합성 데이터는 “양”만큼 “질”이 중요합니다. 무조건 많이 만드는 것보다, 잘 만들어진 데이터를 선별하는 것이 성능에 더 큰 영향을 미칩니다.
시각적 다양성은 공짜 점심에 가깝습니다. I2I/V2V 같은 비교적 간단한 기법으로도 상당한 성능 향상을 얻을 수 있습니다. 특히 VLA 모델의 시각적 일반화(visual generalization) 능력을 키우는 데 효과적입니다.
시뮬레이터가 있다면 활용하세요. 데이터 생성용이 아니더라도, 데이터 검증용으로서의 가치가 큽니다.
합성 데이터와 실제 데이터는 별도의 embodiment tag로 분리하세요. 같은 로봇이라도 데이터 소스에 따른 분포 차이가 있습니다.

열린 연구 질문들

시뮬레이터 없이도 액션 품질을 검증할 수 있을까? 예를 들어 학습된 월드 모델(learned world model)을 시뮬레이터 대신 사용할 수 있을까요?
필터링 대신 생성 자체를 개선할 수는 없을까? 물리적으로 정확한 비디오를 처음부터 만들 수 있는 생성 모델이 가능하다면, 필터링은 불필요해질 것입니다.
스케일링 법칙은? Neural Trajectory의 양과 품질이 하류 정책 성능에 미치는 영향의 스케일링 법칙(scaling law)은 아직 완전히 규명되지 않았습니다.

요약 및 결론

RoboCurate는 합성 로봇 데이터의 품질 관리(curation)라는, 중요하지만 상대적으로 간과되어온 문제에 대한 체계적인 해법을 제시합니다.

핵심 기여를 한 줄로 요약하면:

“시뮬레이터를 심판관으로 활용하여, 비디오 생성 모델이 만든 합성 데이터의 액션 정확성을 검증하고, 동시에 I2I/V2V 파이프라인으로 시각적 다양성을 극대화한다.”

이 접근법은 세 가지 벤치마크에서 일관된 성능 향상을 보여주며, 특히 실세계 휴머노이드 실험에서의 대폭적인 개선(+179.9%)은 이 연구의 실용적 가치를 잘 보여줍니다.

Neural Trajectory가 로봇 학습 데이터 파이프라인의 핵심 축으로 자리잡고 있는 지금, RoboCurate가 제시한 “생성 후 검증(generate-then-verify)” 패러다임은 앞으로의 합성 데이터 연구에 중요한 이정표가 될 것입니다.

논문이 남기는 가장 중요한 메시지는 이것입니다: 좋은 데이터는 좋은 필터에서 나온다.

논문 정보

제목: RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
저자: Seungku Kim 외 5인 (교신저자: Suhyeok Jang)
발표: arXiv:2602.18742, 2026년 2월 21일
링크: https://arxiv.org/abs/2602.18742