📃EgoScale 리뷰

humanoid

vla

egocentric

human-robot-transfer

Scaling Dexterous Manipulation with Diverse Egocentric Human Data

Published

February 26, 2026

🤖 EgoScale은 20,854시간 이상의 egocentric human video를 활용하여 대규모 인간 데이터를 기반으로 한 dexterous manipulation 전이 프레임워크를 제시하며, 데이터 규모와 action prediction validation loss 사이에 log-linear 스케일링 법칙이 있음을 발견했습니다.
🚀 이 프레임워크는 대규모 human pretraining과 소량의 aligned human-robot mid-training을 결합하는 2단계 학습 방식을 통해 long-horizon dexterous manipulation 및 one-shot task adaptation을 가능하게 합니다.
🦾 그 결과, 최종 정책은 22-DoF dexterous robotic hand에서 no-pretraining baseline 대비 평균 성공률을 54% 향상시켰으며, 더 낮은 DoF의 robot hand에도 효과적으로 전이되어 재사용 가능한 embodiment-agnostic motor prior를 제공함을 입증했습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 연구는 방대한 양의 인간의 자기 중심적(egocentric) 데이터를 활용하여 미세한(fine-grained) 고자유도(high-DoF) 로봇의 정교한 조작(dexterous manipulation)을 위한 효과적인 방법을 제시합니다. 기존 연구들은 데이터셋 규모가 작거나 저자유도 핸드(low-DoF hand)에 집중되어 있어, 대규모 인간 데이터가 복잡한 정교한 조작을 얼마나 지원할 수 있는지 불분명했습니다. 본 논문은 이러한 의문을 해결하기 위해 대규모 자기 중심적 인간 데이터 기반의 인간-로봇 전이 프레임워크인 EgoScale을 소개합니다.

핵심 방법론 (Core Methodology):

EgoScale은 정교한 로봇 제어에 직접적으로 활용될 수 있는 표현(representations)을 대규모 자기 중심적 인간 비디오로부터 학습하는 것을 목표로 합니다. 이를 위해 두 가지 핵심적인 설계 선택을 합니다.

인간 행동 표현 (Human Action Representation):
- 원시 센서 스트림 (Raw Sensor Streams): 머리 장착형 카메라에서 촬영된 egocentric RGB 영상과 SLAM(Simultaneous Localization and Mapping) 및 손 포즈 추정 파이프라인을 통해 얻은 카메라 움직임(T_{t}^{w \leftarrow c} \in SE(3)) 및 인간 손 포즈(21개의 키포인트, 카메라 프레임에서의 강체 변환 H_{t}^{c,i} \in SE(3))를 활용합니다.
- 손목 수준 팔 움직임 (Wrist-level Arm Motion): 전역 카메라 움직임에 불변하는 동작 명령을 얻기 위해 연속적인 타임스텝 간의 상대적인 손목 움직임을 사용합니다. 이는 \Delta W_t = (W_{0w})^{-1} W_{tw}로 정의되며, 로봇 실행에서도 동일하게 사용되는 주요 팔 수준 동작 추상화(action abstraction)입니다.
- 손 관절 움직임 (Hand Articulation): 21개의 인간 손 키포인트를 Sharpa hand의 22-DoF 로봇 핸드 조인트 공간으로 리타겟팅(retargeting)합니다. 이는 최적화 기반 절차를 통해 수행되며, 조인트 한계(joint limits)와 운동학적 제약(kinematic constraints)을 고려하여 인간 손가락의 정교한 움직임을 보존합니다.
데이터 소스 및 처리 (Data Sources and Processing):
- 1단계: 대규모 자기 중심적 인간 사전 학습 데이터 (Large-Scale Egocentric Human Pretraining Data):
  - 총 20,854시간 분량의 자기 중심적 인간 활동 비디오 데이터를 사전 학습에 사용합니다. 이 중 대부분은 9,869개의 장면, 6,015개의 작업, 43,237개의 객체를 포함하는 실제 환경(가정, 산업, 소매, 교육 등)에서 수집된 야생(in-the-wild) 녹화본으로, 노이즈가 많지만 광범위한 조작 행동을 포괄합니다.
  - 추가적으로 Apple Vision Pro를 사용하여 정확한 손목 및 손 추적 데이터를 제공하는 EgoDex 데이터셋 829시간을 포함하여 사전 학습의 안정성을 높입니다.
- 2단계: 정렬된 인간-로봇 중간 학습 데이터 (Aligned Human-Robot Mid-Training Data):
  - 인간 시연과 로봇 실행 간의 신체적 간극(embodiment gap)을 줄이기 위해 인간 및 원격 조작 로봇 데이터가 포함된 더 작은 데이터셋을 도입합니다.
  - 총 344개의 테이블탑 조작 작업으로 구성되며, 각 작업당 약 30개의 인간 궤적(trajectory)과 5개의 로봇 궤적이 포함됩니다 (총 인간 50시간, 로봇 4시간).
  - 인간 시연은 로봇과 동일한 카메라 구성(일치하는 시점, 보정된 내재 매개변수)으로 수집되며, Vive trackers와 Manus gloves를 통해 손목 포즈와 전체 손 포즈가 기록됩니다. 이 데이터셋은 규모는 작지만 로봇 작업 공간과 운동학에 맞춰 명시적으로 신체 정렬(embodiment-aligned)되어 있습니다.

모델 아키텍처 및 훈련 (Model Architecture and Training):

모델은 GR00T N1 [19]과 유사한 플로우 기반 VLA(Vision-Language-Action) 아키텍처를 따릅니다. 각 타임스텝 t에서 모델은 이미지(I_t)와 언어 지시(l_t)로 구성된 관측값 o_t = (I_t, l_t)에 조건을 부여하여 vision-language embedding \phi_t로 인코딩한 후, 플로우 매칭(flow-matching) 목표를 사용하여 미래 동작 덩어리(chunk)를 예측합니다.
로봇 데이터는 로봇 고유 상태(proprioceptive state) q_t를 조건으로 하지만, 인간 시연에는 이러한 신호가 없습니다. 고유 상태가 없을 때는 학습 가능한 플레이스홀더 토큰으로 대체하여 통일된 모델 구성을 유지합니다.
다양한 로봇 신체에 대응하기 위해 경량의 신체 조건부 MLP 어댑터(embodiment-conditioned MLP adapters)를 입력 및 출력 인터페이스에 사용합니다. 이 어댑터들은 신체 특정 고유 상태를 인코딩하고 손 동작을 디코딩하며, 상대 손목 움직임 예측, vision-language backbone, DiT action expert는 완전히 공유됩니다.
훈련 레시피 (Training Recipe):
1. 1단계 (인간 사전 학습): 20,000시간의 egocentric 인간 데이터로 100,000 스텝 동안 학습하며, VLA 모델의 모든 파라미터를 완전히 해제(unfreezing)하여 대규모 데이터를 흡수합니다.
2. 2단계 (정렬된 중간 학습): 정렬된 인간-로봇 플레이 데이터셋으로 50,000 스텝 동안 학습하며, vision-language backbone은 고정하고(freezing) vision encoder와 DiT action expert만 업데이트하여 표현을 로봇 감각 및 제어에 고정(anchor)시킵니다.
3. 3단계 (후속 학습): 작업별 로봇 시연 데이터로 10,000 스텝 동안 미세 조정(fine-tuning)합니다. 중간 학습이 사용된 경우 vision encoder는 고정하고, 그렇지 않은 경우 해제하여 새로운 신체에 적응합니다.

실험 및 결과 (Experiments and Results):

RQ1: 대규모 인간 사전 학습의 효과: 인간 사전 학습은 모든 작업에서 훈련 스크래치(training from scratch) 대비 평균 작업 완료도(task completion)를 55% 이상 향상시켰습니다. 노이즈가 많고 제약이 없는 대규모 인간 사전 학습은 대부분의 작업에서 중간 학습만 적용한 기준선(mid-training-only baseline)보다 성능이 우수했습니다. 이는 인간 시연의 규모와 다양성이 정교한 조작을 위한 강력한 귀납적 편향(inductive biases)을 제공함을 시사합니다. 인간 사전 학습과 소량의 정렬된 중간 학습을 결합했을 때 최상의 전체 성능을 보였습니다.
RQ2: 데이터 스케일링 법칙 (Scaling Law): 인간 사전 학습 데이터 양을 1k에서 20k 시간으로 늘리면 평균 작업 완료도가 0.30에서 0.71로 꾸준히 증가했습니다. 훈련 중 모델의 행동 예측 검증 손실(validation loss)은 데이터 규모가 증가함에 따라 안정적이고 단조로운 개선을 보였습니다. 수렴 시 최적 검증 손실과 데이터 규모 사이에 L = 0.024 - 0.003 \cdot \ln(D)의 로그-선형(log-linear) 스케일링 법칙(R^2 = 0.9983)이 관찰되었으며, 이 오프라인 스케일링 행동은 실제 로봇 성능과 강력한 상관 관계를 보였습니다.
RQ3: 원샷 전이 (One-shot Transfer) 및 일반화 (Generalization): 정렬된 인간-로봇 중간 학습은 이전에 보지 못한 기술에 대한 원샷 전이를 가능하게 합니다. 중간 학습 데이터에 없던 ‘셔츠 접기(Fold Shirt)’ 및 ‘물병 뚜껑 풀기(Unscrewing Water Bottles)’ 작업에서, Pretrain + Midtrain 모델은 단일 로봇 시연과 정렬된 인간 시연을 보강하여 ’셔츠 접기’에서 0.88, ’물병 뚜껑 풀기’에서 0.55의 성공률을 달성했습니다. 이는 중간 학습이 공유된 동작 구조를 통해 새로운 작업으로의 효과적인 일반화를 가능하게 함을 보여줍니다.
RQ4: 교차 신체 전이 (Cross-embodiment Transfer): 인간 사전 학습으로 학습된 표현은 Unitree G1 로봇과 같은 현저하게 다른 운동학 및 7-DoF 삼지형 핸드(tri-finger hand)를 가진 로봇으로도 전이됩니다. G1 플레이 데이터를 중간 학습에 포함시켰을 때, G1 데이터만으로 학습한 경우보다 ‘Pen in Bin’ 및 ‘Dish in Rack’ 작업에서 현저히 높은 성능을 보였습니다. 이는 인간 사전 학습이 재사용 가능하며 신체 독립적인 모터 사전 지식(motor prior)을 제공함을 시사합니다.
RQ5: 손 동작 공간 설계 (Hand Action Space Design): 22-DoF 리타겟팅된 조인트 공간(retargeted joint space)에서 인간 손 동작을 표현하는 것이 가장 일관된 성능을 보였습니다. 손목 전용(wrist-only) 표현은 정교한 조작이 필요한 작업에서 저조한 성능을 보였고, 손가락 끝 기반(fingertip-based) 표현은 불가능한 조인트 구성으로 이어질 수 있어 불안정했습니다.

결론 (Conclusion):

본 연구는 정교한 로봇 조작을 위한 인간-로봇 전이가 근본적으로 스케일링 현상임을 입증합니다. EgoScale은 20,000시간 이상의 자기 중심적 인간 조작 데이터로 학습하여 인간 행동 예측 손실과 데이터 규모 사이의 명확한 로그-선형 스케일링 법칙을 발견했으며, 이 손실이 실제 로봇 성능을 강력하게 예측함을 보여주었습니다. 대규모 인간 사전 학습과 소량의 정렬된 인간-로봇 중간 학습을 결합하는 단순하고 효과적인 전이 방식은 강력한 장기 조작(long-horizon manipulation), 비상 원샷 적응(emergent one-shot adaptation), 그리고 현저히 다른 운동학을 가진 로봇 신체 간의 견고한 전이를 가능하게 합니다. 이는 인간을 일반적인 체화된 지능(embodied intelligence) 학습을 위한 진정한 스케일링 가능한 신체(embodiment)로 간주할 수 있는 미래를 제시합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한 줄 요약:
로봇에게 조작 기술을 가르치는 가장 스케일러블한 방법은 로봇 데이터를 더 모으는 게 아니라, 인간이 이미 수천 시간씩 수행해온 손동작 영상을 활용하는 것이다 — 그리고 이 방법은 예측 가능한 스케일링 법칙을 따른다.

서론: 왜 로봇은 아직도 손을 잘 못 쓰는가?

문제의 핵심 — 데이터가 없다

잠깐 생각해보자. 여러분은 지금까지 살면서 수백만 번 물건을 집고, 돌리고, 끼우고, 접었을 것이다. 젓가락질, 자동차 열쇠 꽂기, 셔츠 단추 채우기 — 이 모든 행동들은 별다른 교육 없이 몸에 익혀진 운동 지식(motor knowledge) 이다.

그런데 로봇은? 로봇에게 이 지식을 전달하려면 일일이 원격조작(teleoperation) 으로 시범을 보여줘야 한다. 로봇 팔 앞에 앉아 조이스틱이나 글러브로 제어하면서, 수십 번, 수백 번 같은 동작을 반복하며 데이터를 쌓는다. 시간도 돈도 엄청나게 든다.

LLM이나 컴퓨터 비전 분야는 인터넷에 넘쳐나는 텍스트와 이미지 덕분에 모델을 폭발적으로 스케일링할 수 있었다. 하지만 로봇 조작? 인터넷 규모의 로봇 데이터 코퍼스는 존재하지 않는다. Open X-Embodiment 같은 대규모 프로젝트를 통해 수천 시간의 데이터가 공개되었지만, 이것도 언어 모델이 학습하는 데이터 규모에 비하면 새발의 피다.

이 근본적인 병목을 풀기 위한 자연스러운 질문이 있다:

“인간 행동 데이터를 로봇 정책 학습의 주요 데이터 소스로 쓸 수 있을까?”

선행 연구의 한계

이 아이디어 자체는 새롭지 않다. 인간 영상에서 affordance를 추출하거나, hand keypoint를 추적해 로봇 액션으로 변환하는 연구들이 있어왔다. 그러나 공통된 한계가 있었다:

작은 규모: 대부분 수백~수천 시간 수준의 데이터로만 실험
제한된 설정: 특정 태스크나 환경에 특화된 방식
고자유도 손 제어 미지원: 손목 움직임만 다루거나, 손가락 수준의 dexterous control에는 적용하기 어려움
스케일링 법칙 미확인: 데이터를 더 늘리면 정말 성능이 좋아지는지 불분명

EgoScale은 이 모든 한계를 정면으로 부딪힌다.

EgoScale의 핵심 주장

NVIDIA GEAR 팀이 이끄는 이 연구는 세 가지 핵심 메시지를 전달한다:

EgoScale의 3대 핵심 주장

스케일링 법칙의 존재: 인간 데이터 규모와 validation loss 사이에는 로그-선형 관계가 성립하며, 이 loss는 실제 로봇 성능과 강한 상관관계를 보인다.
전이 레시피: 대규모 인간 사전학습 + 소량의 정렬된 인간-로봇 중간학습(mid-training) 조합이 효과적이다.
체화 불가지론적 표현: 인간 데이터로 학습된 표현은 손 설계가 다른 로봇에도 전이된다.

방법론: EgoScale의 구조를 해부한다

전체 파이프라인 개요

EgoScale은 3단계 학습 파이프라인으로 구성된다. 마치 아이가 언어를 배우는 과정과 비슷하게 생각할 수 있다 — 먼저 방대한 양의 언어를 듣고 패턴을 체득(사전학습), 그 다음 말하기 연습으로 실제 발화에 적응(중간학습), 마지막으로 특정 상황에 맞는 표현을 익히는(후처리 학습) 식이다.

EgoScale의 2단계 인간-로봇 학습 프레임워크 개요. 20,854시간의 에고센트릭 인간 비디오로 flow 기반 VLA 정책을 사전학습한 뒤, 소량의 정렬된 인간-로봇 플레이 데이터로 중간학습하고, 다운스트림 태스크에 후처리 학습하여 원샷 일반화를 가능하게 한다.

flowchart LR
    subgraph PRE["① 사전학습 (Pre-training)"]
        D1["20,854시간\n에고센트릭\n인간 영상"]
        A1["손목 6-DoF +\n22-DoF 손 관절\n액션 예측"]
        D1 --> A1
    end

    subgraph MID["② 중간학습 (Mid-training)"]
        D2["정렬된\n인간-로봇\n플레이 데이터"]
        A2["로봇 감지/제어\n도메인 적응"]
        D2 --> A2
    end

    subgraph POST["③ 후처리 학습 (Post-training)"]
        D3["태스크별\n소량 로봇 데이터\n(1-shot 포함)"]
        A3["다운스트림\n태스크 수행"]
        D3 --> A3
    end

    PRE -->|"표현 전이"| MID
    MID -->|"정책 적응"| POST

    style PRE fill:#e8f4f8,stroke:#2196F3
    style MID fill:#e8f8e8,stroke:#4CAF50
    style POST fill:#fff3e0,stroke:#FF9800

EgoScale 3단계 학습 파이프라인

1단계: 대규모 인간 데이터 사전학습

데이터셋: 20,854시간의 손

이 연구에서 사용한 데이터셋은 지금까지 human-to-robot transfer 연구에 쓰인 데이터보다 20배 이상 크다. 여러 공개 에고센트릭 데이터셋을 통합했으며, 각 비디오에서 손목 포즈와 손가락 관절 정보를 자동으로 추출해 액션 레이블을 생성한다.

에고센트릭 인간 활동 데이터셋의 통계 분포와 정성적 예시. 카테고리, 환경, 작업, 객체에 걸쳐 롱테일(long-tailed) 분포를 보이는 광범위한 커버리지를 확인할 수 있다.

Table 1: EgoScale 사전학습 데이터 개요

항목	내용
총 학습 시간	20,854 시간
기존 최대 규모 대비	약 20배 이상
데이터 유형	에고센트릭 인간 조작 영상
액션 레이블	손목 6-DoF + 22-DoF 손 관절 각도
획득 방법	손 추적 기술 자동 적용 (Apple Vision Pro 등)

핵심 설계 결정: 어떤 액션 표현을 쓸 것인가?

이 질문이 결과를 크게 좌우한다. EgoScale 팀은 세 가지 선택지를 비교했다:

액션 표현 선택지 비교

선택지 1 — 손목만 (Wrist-only)
손목의 위치/방향만 예측. 가장 단순하지만 손가락 수준의 dexterity 정보 없음.

선택지 2 — 손가락 끝점 (Fingertip SE(3))
각 손가락 끝의 SE(3) 궤적 예측, MLP로 관절 각도로 변환. EgoVLA 방식.

선택지 3 — 22-DoF 관절 공간 (EgoScale 기본값) ✓
22개 손 관절 각도 직접 예측. 가장 풍부한 정보, 로봇 손 retargeting과 직접 호환.

실험 결과, 22-DoF 관절 공간 표현이 가장 좋은 다운스트림 성능을 보였다. 직관적으로 이해가 된다 — 손가락 하나하나의 움직임 패턴을 학습해야 dexterous manipulation이 가능하니까.

모델 아키텍처: Flow 기반 VLA

EgoScale의 모델은 VLM 백본 + DiT(Diffusion Transformer) 액션 전문가로 구성된 flow-based VLA다. π₀(pi-zero)에서 영감을 받은 이 구조는 다음과 같다:

(왼쪽) 정렬된 인간-로봇 중간학습 데이터는 로봇과 동일한 센싱 셋업으로 수집된다. Vive 트래커와 Manus 글러브로 팔/손 동작을, 머리 장착 카메라와 손목 카메라로 시점 영상을 기록해 지각-행동 정렬을 맞춘다. (오른쪽) VLM 백본과 DiT 액션 전문가로 구성된 flow 기반 VLA 정책.

flowchart TB
    subgraph INPUT["입력"]
        I1["에고센트릭\n RGB 이미지"]
        I2["언어 지시문\n(Task description)"]
        I3["현재 손목/손\n고유감각 상태"]
    end

    subgraph VLM["VLM 백본 (Vision-Language Model)"]
        V1["비전 인코더\n(Visual Tokens)"]
        V2["언어 인코더\n(Text Tokens)"]
        V3["크로스-어텐션\n융합"]
    end

    subgraph ADAPT["경량 체화 어댑터"]
        AD1["인간용\n고유감각 임베딩"]
        AD2["로봇용\n고유감각 임베딩"]
    end

    subgraph EXPERT["DiT 액션 전문가"]
        E1["노이즈 액션 입력 xₜ"]
        E2["Flow Matching\n디노이징"]
        E3["예측 액션 출력\n(손목 6-DoF + 22-DoF 손)"]
    end

    I1 --> V1
    I2 --> V2
    I3 --> ADAPT
    V1 & V2 --> V3
    V3 & ADAPT --> E1
    E1 --> E2 --> E3

    style VLM fill:#e3f2fd,stroke:#1565C0
    style EXPERT fill:#fce4ec,stroke:#c62828
    style ADAPT fill:#f3e5f5,stroke:#6a1b9a

EgoScale 모델 아키텍처

Flow Matching이란?
간단히 말하면, 모델은 “노이즈로 뒤섞인 액션”에서 시작해 점점 실제 액션으로 정제해가는 프로세스를 학습한다. Diffusion policy의 친척이라 보면 된다. 수학적으로는 다음과 같이 표현할 수 있다:

\mathcal{L}_\text{flow} = \mathbb{E}_{t, x_0, x_1}\left[\|v_\theta(x_t, t, c) - (x_1 - x_0)\|^2\right]

여기서 x_t = (1-t)x_0 + tx_1은 노이즈 x_0에서 실제 액션 x_1으로의 선형 보간, v_\theta는 속도 필드를 예측하는 모델, c는 언어+비전 컨텍스트다.

왜 Diffusion/Flow를 쓰는가?
다자유도 손 동작은 본질적으로 다봉분포(multimodal distribution) 를 가진다 — 같은 상황에서도 여러 가지 유효한 손가락 배치가 존재한다. 단순한 MSE 손실로 학습하면 이 모든 가능성의 “평균값”을 출력해 흐릿하고 무효한 동작이 나온다. Flow matching은 이 분포를 제대로 모델링할 수 있다.

2단계: 정렬된 인간-로봇 중간학습 (Mid-training)

이것이 EgoScale의 가장 영리한 아이디어 중 하나다.

사전학습된 모델은 인간 손을 보고 인간 액션을 예측하도록 학습되어 있다. 그런데 실제 배포 환경에서는 로봇 손이 달린 로봇 팔의 카메라 영상이 들어오고, 로봇 관절 명령을 출력해야 한다. 이 간극을 어떻게 메울까?

중간학습의 핵심 아이디어: 쌍 데이터(Paired Data)

같은 조작 동작을 인간이 수행하면서 동시에 로봇도 수행한다. 이 두 쌍의 데이터를 함께 학습에 사용한다:

flowchart LR
    subgraph HUMAN["인간 플레이 데이터"]
        H1["손목/손 센서\n착용 인간"]
        H2["에고센트릭 카메라"]
        H3["인간 손 액션\n(22-DoF)"]
        H1 --> H2 & H3
    end

    subgraph ROBOT["로봇 플레이 데이터"]
        R1["동일/유사 환경\n로봇 팔 수행"]
        R2["로봇 탑재 카메라"]
        R3["로봇 관절 명령\n(22-DoF retargeted)"]
        R1 --> R2 & R3
    end

    subgraph ALIGN["정렬 매핑"]
        A1["공통 액션 공간\n(손목 위치 + 손 관절)"]
        A2["도메인 어댑터\n학습"]
    end

    H3 & R3 --> A1 --> A2

    style HUMAN fill:#e8f5e9,stroke:#388e3c
    style ROBOT fill:#e3f2fd,stroke:#1976d2
    style ALIGN fill:#fff8e1,stroke:#f57f17

중간학습 정렬 데이터 수집 방식

중요한 것은 중간학습 데이터가 소량이라는 점이다. 논문에서는 구체적으로 객체당 약 100개 궤적을 인간이 시연하면 충분하다고 보고한다. 수천 시간의 사전학습에 비하면 극소량이다.

왜 이것이 작동하는가?
사전학습된 표현은 이미 물리적 조작의 풍부한 구조 — 손이 어떻게 객체에 접근하고, 힘을 가하고, 릴리즈하는지 — 를 담고 있다. 중간학습은 이 구조를 “재발견”하는 게 아니라 단순히 인간의 감각→로봇의 감각으로, 인간의 관절→로봇의 관절로 매핑하는 “번역” 작업만 수행한다.

Retargeting: 인간 손 → 로봇 손
인간 손(22 DOF)과 로봇 손은 운동학적으로 다르다. 이 변환을 위해 최적화 기반 retargeting을 사용한다:

\hat{q}_\text{robot} = \arg\min_{q} \sum_{i \in \text{fingertips}} \|f_i^\text{robot}(q) - f_i^\text{human}\|^2 + \lambda \|q\|^2

손가락 끝점(fingertip) 위치를 최대한 매칭시키면서 관절 각도는 작게 유지하는 최적화다. 완벽한 변환은 불가능하지만, 중간학습을 통해 이 근사 오류를 보정한다.

3단계: 다운스트림 태스크 후처리 학습 (Post-training)

이 단계에서는 실제 수행할 태스크에 맞는 소량의 로봇 데이터로 파인튜닝한다. 놀라운 점은 원샷(one-shot) — 단 하나의 로봇 시연만으로도 새로운 태스크에 적응이 가능하다는 것이다.

이것이 가능한 이유는 중간학습 단계에서 인간 시연을 100개 제공하기 때문이다. 로봇은 딱 한 번만 직접 경험하고, 나머지는 인간이 같은 맥락에서 수행하는 걸 보고 학습한다. 인간 교사에게 시범을 99번 보고 본인이 한 번 해보는 학생과 같다.

스케일링 법칙: 이 논문의 가장 중요한 발견

로그-선형 관계의 발견

EgoScale 팀은 데이터를 1k, 2k, 4k, 10k, 20k 시간으로 늘려가며 validation loss를 측정했다. 결과는 놀랍도록 깔끔하다:

\mathcal{L}_\text{val} = a \cdot \log(D) + b

여기서 D는 학습 데이터 시간, a와 b는 상수. 논문에서 보고한 결정 계수는 R^2 = 0.9983 — 거의 완벽한 로그-선형 관계다.

인간 사전학습의 스케일링 행동. (왼쪽) 1k~20k 시간의 데이터로 사전학습한 모델의 인간 validation loss는 데이터 규모가 커질수록 안정적으로 감소한다. (오른쪽) 후처리 학습 이후 다운스트림 로봇 성능(평균 태스크 완료 점수)도 데이터 규모에 따라 일관되게 향상된다.

xychart-beta
    title "스케일링 법칙: 데이터 규모 vs. Validation Loss (개념적 표현)"
    x-axis ["1k hrs", "2k hrs", "4k hrs", "10k hrs", "20k hrs"]
    y-axis "Validation Loss" 0.5 --> 2.5
    line [2.3, 1.9, 1.6, 1.2, 1.0]

인간 데이터 스케일과 validation loss의 관계 (개념도)

왜 이것이 중요한가?

스케일링 법칙이 존재한다는 것은 예측 가능성을 의미한다. LLM 커뮤니티는 Chinchilla 법칙 덕분에 “이만큼 컴퓨팅을 쓰면 이만큼 성능이 나온다”를 미리 계산할 수 있게 됐다. EgoScale은 로봇 조작 분야에서 처음으로 이런 예측 가능한 스케일링 관계를 보여준다.

더 중요한 것은 validation loss가 실제 로봇 성능과 강한 상관관계를 보인다는 점이다. 시뮬레이션 proxy 메트릭이 아니라 실물 로봇 실험에서의 태스크 완료율이다. 즉, loss를 낮추는 것이 곧 로봇이 더 잘하는 것과 직결된다는 의미다.

연구자에게 주는 시사점

이 스케일링 법칙은 인간 데이터를 더 모을수록 성능이 더 좋아짐을 보장하며, 아직 포화(saturation) 조짐이 없다. 100k 시간, 1M 시간으로 가면 어떻게 될까? 논문 저자들도 이 질문을 열린 과제로 남겨두고 있다.

실험: 무엇을 어떻게 테스트했는가

실험 설정

로봇 플랫폼: Unitree G1 휴머노이드 로봇에 22-DoF 5지 Dexterous Hand 장착 (일부 실험은 다른 손 설계를 가진 로봇도 사용)

평가 태스크 — 5가지 고난이도 dexterous 조작:

후처리 학습 성능 평가에 사용된 5가지 정교한 조작 태스크. 변형 가능한 물체, 도구 사용, 정밀 파지, 나사형 운동 등 다양한 난이도의 dexterous manipulation을 포함한다.

Table 2: 평가 태스크 요약

태스크	설명	난이도 포인트
Shirt Rolling	티셔츠를 원통형으로 말아 바구니에 넣기	양손 협응, 변형 가능한 물체
Tong	집게로 물건 집기	도구 사용, 정밀 파지
Card Sorting	카드 분류	얇은 물체, 정밀 조작
Bottle	병뚜껑 돌려 열기/닫기	나사형 운동, 힘 제어
Syringe	주사기 조작	극도의 정밀성 요구

주요 결과 1: 사전학습의 효과

가장 핵심적인 ablation은 사전학습 유무에 따른 성능 비교다:

xychart-beta
    title "학습 구성별 성능 (평균 태스크 완료 점수)"
    x-axis ["No Pretrain", "Midtrain Only", "Human Pretrain", "Human Pretrain\n+ Midtrain"]
    y-axis "Task Completion Score (%)" 0 --> 100
    bar [20, 32, 51, 74]

학습 구성별 평균 태스크 완료율 (개념적 비교)

핵심 수치: Human Pretrain + Midtrain 조합은 사전학습 없는 베이스라인 대비 평균 성공률 54% 향상을 달성했다.

주요 실험 결과. 5가지 정교한 조작 태스크에서 Human Pretrain + Mid-Training, Human Pretraining, No Pretraining 구성을 두 가지 평가 지표로 비교한 결과.

주요 결과 2: 스케일에 따른 성능 향상

1k~20k 시간으로 데이터를 늘릴수록 다운스트림 로봇 성능이 단조 증가한다. 작은 데이터셋(1k 시간)에서는 과적합(overfitting) 조짐이 보이지만, 더 큰 데이터셋에서는 안정적이고 단조로운 성능 향상이 관찰된다.

이것이 왜 중요하냐면, 기존에는 “인간 데이터를 더 많이 써도 어느 이상은 도움이 안 된다”는 우려가 있었기 때문이다. EgoScale은 탐색된 범위(20k 시간) 내에서는 포화가 없음을 보여준다.

주요 결과 3: 액션 표현 비교

액션 표현	평균 점수	비고
Wrist-only	낮음	손가락 정보 없음
Fingertip SE(3)	중간	EgoVLA 방식
22-DoF Joint (EgoScale)	가장 높음	기본 설정

22-DoF 관절 표현의 우위는 dexterous manipulation에서 손가락 수준의 세밀한 제어 정보가 얼마나 중요한지를 보여준다.

주요 결과 4: 체화 전이 (Cross-Embodiment Transfer)

흥미로운 실험 중 하나는 동일한 사전학습 모델을 다른 손 설계를 가진 로봇에 전이하는 것이다.

G1 이외의 낮은 자유도 손을 가진 로봇에도 중간학습만 추가하면 유사한 성능 향상이 관찰된다. 이는 사전학습이 “22-DoF 손에만 맞는 표현”이 아니라 조작의 보편적 구조를 학습했음을 시사한다.

주요 결과 5: 원샷 전이

중간학습 후 후처리 학습 단계에서 태스크당 로봇 시연 1개만 제공했을 때의 결과:

기존 방법(사전학습 없음): 1개 시연으로는 거의 작동하지 않음
EgoScale: 의미있는 성공률 달성

직관적으로, 모델은 인간 시연 100개에서 “이 맥락에서 손을 어떻게 쓰는지”를 이미 학습했고, 로봇 시연 1개는 “같은 원리를 내 몸으로 어떻게 실행하는지”를 미세 조정하는 데 충분하다.

비판적 고찰: 강점, 약점, 그리고 열린 질문들

강점

1. 데이터 효율성의 새로운 패러다임
로봇 데이터 수집의 병목을 인간 데이터로 우회한다는 아이디어 자체가 실용적이고 스케일러블하다. Apple Vision Pro나 Meta Aria Glass 같은 웨어러블 센서의 보급은 이 방향의 잠재력을 더 높여준다.

2. 검증된 스케일링 법칙 (R^2 = 0.9983)
단순히 “많으면 좋다”가 아니라 정량적으로 예측 가능한 스케일링을 보인다는 것은 연구 커뮤니티와 투자자 모두에게 중요한 신호다.

3. 원샷 적응의 실용성
새로운 태스크에 로봇 시연 1개만으로 적응할 수 있다면, 현장 배포 비용이 극적으로 낮아진다. 이는 단순한 성능 지표를 넘어 실용적 가치가 매우 높다.

4. 체화 불가지론적 표현
22-DoF 손의 Unitree G1과 다른 설계의 로봇 모두에서 작동한다는 것은 하나의 사전학습 모델을 여러 하드웨어에 재사용할 수 있음을 의미한다.

약점 및 한계

1. 중간학습 데이터 수집 비용
중간학습에 필요한 “정렬된 인간-로봇 페어 데이터” 수집은 여전히 로봇이 필요하다. 완전히 로봇 없이 학습하는 것은 아니다. 중간학습 데이터 규모와 품질이 최종 성능에 얼마나 민감한지 더 세밀한 분석이 필요하다.

2. 손목 중심 표현의 한계
에고센트릭 비디오에서 손 관절을 정확하게 추적하는 것 자체가 어렵다. 특히 손이 가려지거나 빠르게 움직일 때 노이즈가 심하다. 학습 데이터의 액션 레이블 품질이 결과에 어떤 영향을 미치는지 더 깊은 분석이 필요하다.

3. 촉각(Tactile) 정보의 부재
섬세한 조작 — 예컨대 달걀을 깨지 않고 집거나, 얇은 카드를 집을 때 — 에는 촉각 피드백이 결정적이다. 에고센트릭 비디오는 본질적으로 시각 정보만 제공하므로, 이 한계는 구조적이다.

4. 양손(bimanual) 조작의 확장성 미확인
Shirt Rolling 태스크가 양손을 사용하긴 하지만, 더 복잡한 양손 협응이 필요한 태스크(예: 뚜껑을 한 손으로 잡고 다른 손으로 비틀기)에서의 성능은 아직 충분히 검증되지 않았다.

5. 장기 계획(Long-horizon Planning)의 한계 인정
저자들 스스로 인정하듯, 수십 단계에 걸친 장기 조작 계획은 여전히 열린 도전 과제다. 현재 결과는 주로 단일 또는 소수 단계 태스크에 집중되어 있다.

6. 데이터 다양성 vs. 데이터 품질 트레이드오프
대규모 공개 데이터셋을 통합하면 다양성은 높아지지만, 각 데이터 소스의 품질과 레이블 노이즈를 제어하기 어렵다. 데이터 큐레이션 전략에 대한 더 체계적인 분석이 필요하다.

방법	데이터 규모	DoF	스케일링 법칙	원샷	크로스 체화
EgoVLA	~수백 시간	6 DoF + fingertip	✗	✗	제한적
EgoDex	829시간	22 DoF	일부	✗	✗
In-N-On	~1M 에피소드	가변	✗	✗	일부
EgoScale	20,854시간	22 DoF	✓ (R²=0.9983)	✓	✓

요약 및 결론: 이 논문이 로봇공학계에 말하는 것

핵심 기여 요약

EgoScale 핵심 기여 5가지

스케일링 법칙 발견: 인간 에고센트릭 데이터와 dexterous manipulation 정책 학습 사이에 log-linear 스케일링 법칙이 존재함을 실증적으로 확인 (R^2 = 0.9983)
효과적인 전이 레시피: 대규모 인간 사전학습 + 소량 정렬 중간학습의 조합이 로봇 성능을 평균 54% 향상
원샷 태스크 적응: 중간학습 후 태스크당 로봇 시연 1개만으로 새로운 조작 태스크 수행 가능
체화 불가지론적 표현: 학습된 motor prior가 다른 손 설계를 가진 로봇에도 전이 가능
22-DoF 액션 표현의 중요성: 손목만이 아닌 손가락 수준의 관절 공간 표현이 dexterous manipulation에 결정적

이 연구가 열어두는 미래 방향

데이터 관점:
20k 시간에서 포화가 없다면, 100k 시간, 1M 시간에서는 어떻게 될까? YouTube나 공공장소의 보안카메라, 스마트폰 영상까지 활용 가능하다면 데이터는 사실상 무한하다. 이 방향의 자연스러운 다음 단계는 웹 스케일 비디오에서의 학습이다.

모델 관점:
데이터 스케일만이 아니라 모델 용량 스케일링과의 상호작용이 아직 미개척 영역이다. 더 큰 VLM 백본과 더 많은 인간 데이터를 동시에 늘리면 어떤 시너지가 생기는지 탐구할 여지가 크다.

촉각 통합:
시각 기반 학습의 한계를 넘으려면 웨어러블 촉각 센서로 수집한 멀티모달 인간 데이터가 필요하다. 이 방향은 기술적으로 더 어렵지만, 정밀 조작에서 질적 도약을 가져올 수 있다.

양손 복잡 조작:
인간의 양손 협응 능력은 단순 파지를 훨씬 넘어선다. 요리, 수리, 제조 현장에서의 복잡한 양손 조작으로 EgoScale의 접근을 확장하는 것이 중요한 과제다.

로봇공학자에게 주는 실용적 메시지

만약 여러분이 dexterous manipulation 연구를 하고 있다면, EgoScale은 다음을 시사한다:

데이터 전략을 재고하라: 로봇 텔레오퍼레이션에만 의존하는 것은 근본적인 스케일 한계가 있다. 인간 데이터를 사전학습에 활용하는 파이프라인 구축을 고려할 가치가 있다.
손 액션 표현에 투자하라: 22-DoF 관절 공간이 손목/fingertip보다 일관되게 우월하다. 고자유도 손 추적 파이프라인 구축에 시간을 투자할 가치가 있다.
스케일링 관계를 먼저 확인하라: 새로운 데이터 소스나 아키텍처를 평가할 때, validation loss와 실제 성능의 상관관계를 먼저 확인하는 것이 연구 자원을 효율적으로 쓰는 방법이다.
Allegro Hand나 다른 고자유도 손 플랫폼 연구자라면: EgoScale 방식의 사전학습이 여러분의 플랫폼에서도 작동하는지 탐구해볼 가치가 충분하다. 크로스 체화 전이 결과는 이 가능성에 희망적인 신호를 보낸다.

참고 문헌

Zheng, R., Niu, D., Xie, Y., et al. (2026). EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data. arXiv:2602.16710. https://arxiv.org/abs/2602.16710
Black, K., et al. (2024). π₀: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence.
Hoque, R., et al. (2025). EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video. arXiv:2505.11709.
Yang, Z., et al. (2025). EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos. arXiv:2507.12440.
Bjorck, J., et al. (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. NVIDIA.
Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of Egocentric Video. CVPR 2022.
O’Neill, J., et al. (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA 2024.

논문 정보

제목: EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
저자: Ruijie Zheng, Dantong Niu, Yuqi Xie*, Jing Wang, Mengda Xu, Yunfan Jiang, Fernando Castañeda, Fengyuan Hu, You Liang Tan, Letian Fu, Trevor Darrell, Furong Huang, Yuke Zhu†, Danfei Xu†, Linxi Fan†
소속: NVIDIA GEAR, UC Berkeley, University of Maryland
arXiv: 2602.16710
프로젝트 페이지: https://research.nvidia.com/labs/gear/egoscale/
제출일: 2026년 2월 18일