🧩NVIDIA GR00T N1.6

foundation model

vla

휴머노이드 로봇용 차세대 파운데이션 모델

Published

January 14, 2026

개요

GR00T N1.6은 엔비디아가 개발한 오픈 Vision-Language-Action(VLA) 파운데이션 모델의 최신 버전입니다. 로봇이 자연어 지시를 이해하고, 전체 몸 동작과 조작을 통합해 실제 세계에서 인간처럼 행동할 수 있도록 설계되었습니다.

기존 GR00T N1, N1.5 모델을 기반으로 하며, 데이터·아키텍처·추론 능력이 크게 강화되었습니다. CES 2026에서 공개된 이 모델은 Cosmos Reason을 두뇌로 활용하여 휴머노이드 로봇의 전신 제어(whole-body control)를 지원합니다.

핵심 특징

언어, 이미지, 로봇 상태 정보를 통합한 범용 로봇 지능
물리적 추론 능력을 갖춘 상황 이해 및 계획 수립
Hugging Face 및 GitHub를 통한 오픈 모델 접근
Cross-embodiment: 다양한 로봇 형태에 적용 가능

모델 스펙

GR00T-N1.6-3B 개요

Hugging Face에서 공개된 GR00T N1.6 모델의 상세 스펙입니다:

항목	값
파라미터 수	3B (30억)
텐서 타입	BF16
포맷	Safetensors
런타임	PyTorch
라이선스	NVIDIA One-Way Non-Commercial License

아키텍처 구성

Architecture Type: Vision Transformer + Multilayer Perceptron + Flow Matching Transformer

flowchart TB
    subgraph Input["입력"]
        A[RGB 이미지] --> D[Vision Encoder]
        B[텍스트 명령] --> E[Language Encoder]
        C[Proprioception] --> F[MLP + Embodiment ID]
    end

    subgraph VLM["Vision-Language Model"]
        D --> G[Cosmos-Reason-2B VLM]
        E --> G
    end

    subgraph ActionHead["Action Head"]
        G --> H[MLP Connector]
        F --> H
        H --> I[Flow Matching DiT]
        I --> J[Continuous Actions]
    end

구성 요소	모델/기술	설명
Vision Encoder	Cosmos-Reason-2B 내장	네이티브 종횡비 지원, 패딩 불필요
Language Encoder	Cosmos-Reason-2B 내장	텍스트 명령 인코딩
Proprioception	MLP + Embodiment ID	로봇 형태별 고유감각 인코딩
Action Decoder	Flow Matching DiT (32 layers)	AdaLN으로 확산 스텝 컨디셔닝

네트워크 아키텍처 상세

GR00T N1.6은 Vision Transformer와 Text Transformer를 사용하여 로봇의 이미지 관측과 텍스트 지시를 인코딩합니다.

다중 뷰 처리:

로봇 형태(embodiment)별로 가변적인 카메라 뷰 수를 처리
모든 프레임의 이미지 토큰 임베딩을 시퀀스로 연결(concatenate)
이미지 토큰 뒤에 언어 토큰 임베딩을 연결

flowchart LR
    subgraph ImageTokens["이미지 토큰"]
        A[View 1] --> D[Token Seq]
        B[View 2] --> D
        C[View N] --> D
    end
    D --> E[Language Tokens]
    E --> F[VLM Output]

Proprioception 인코딩:

Embodiment ID로 인덱싱된 MLP를 사용하여 로봇 고유감각 인코딩
가변 차원 proprioception 처리를 위해 configurable max length로 패딩 후 MLP에 입력
액션 인코딩 및 속도 예측 디코딩도 embodiment별 개별 MLP 사용

Flow Matching Transformer (DiT) 구현:

구성 요소	설명
Self-Attention	Proprioception과 Actions에 대한 self-attention
Cross-Attention	Vision 및 Language 임베딩에 대한 cross-attention
Interleaving	Self-attention과 Cross-attention을 교차 배치
AdaLN	Adaptive LayerNorm으로 diffusion step 컨디셔닝

N1.5 기준 네트워크 아키텍처 (참고)

N1.5에서는 다음 구성을 사용했습니다:

Vision: 사전학습된 Vision Transformer (SigLip2)로 RGB 프레임 처리
Language: 사전학습된 Transformer (T5)로 텍스트 인코딩
Proprioception: Embodiment ID로 인덱싱된 MLP
Action: Embodiment별 개별 MLP로 인코딩/디코딩
DiT: Adaptive LayerNorm (AdaLN)으로 diffusion step 컨디셔닝

N1.5 → N1.6 아키텍처 변경점

VLM 변경: SigLip2 + T5 → Cosmos-Reason-2B VLM (통합 모델)
DiT 확장: 16 layers → 32 layers (2배)
학습 목표 추가: Flow Matching + World-Modeling 공동 학습
MLP Connector 개선: 시뮬레이션 벤치마크 성능 향상

입출력 형식

입력 (Input):

유형	입력 타입	포맷	파라미터
Vision	Image Frames	로봇 카메라의 가변 개수 이미지 프레임	2D RGB 이미지, 임의 해상도
State	Robot Proprioception	Floating Point	1D 부동소수점 벡터
Language	Text Instruction	String	1D 문자열

출력 (Output):

유형	출력 타입	포맷	파라미터
Actions	Motor Controls	Continuous-value vectors	2D 벡터

출력 특성

출력되는 연속값 벡터는 로봇의 자유도(Degrees of Freedom, DOF)에 따라 다른 모터 제어값에 대응합니다. 로봇 형태(embodiment)에 따라 출력 차원이 달라집니다.

GPU 최적화

GR00T N1.6은 NVIDIA GPU 가속 시스템에서 실행되도록 설계 및 최적화되었습니다:

항목	설명
하드웨어 활용	NVIDIA GPU 코어 활용
소프트웨어 프레임워크	CUDA 라이브러리
성능 이점	CPU 전용 솔루션 대비 빠른 학습/추론 시간

학습 데이터

항목	값
데이터셋	`nvidia/PhysicalAI-Robotics-GR00T-X-Embodiment-Sim`
샘플 수	855K
구성	실제 로봇 데이터 + 합성 데이터 (Isaac GR00T Blueprint)
로봇 형태	Bimanual, Semi-Humanoid, Humanoid

학습 설정

항목	사전학습	파인튜닝
Steps	300K	10K~30K
Batch Size	16,384	≤1K
용도	범용 모델	태스크 특화

하드웨어 요구사항

항목	지원
GPU 아키텍처	Ampere, Hopper, Lovelace, Blackwell
Jetson	지원 (AGX Orin 등)
OS	Linux (권장)

시뮬레이션 벤치마크

GR00T N1.6은 다음 벤치마크에서 평가되었습니다:

벤치마크	태스크 수	설명
DexMG	9	Dexterous manipulation
RoboCasa	24	Mobile manipulator 시뮬레이션
Digital Cousin	24	GR-1 휴머노이드 manipulation

실제 로봇 검증:

Bimanual YAM
Agibot Genie-1
Unitree G1
GR-1 Humanoid

모델 버전 비교

항목	GR00T-N1-2B	GR00T-N1.5-3B	GR00T-N1.6-3B
파라미터	2B (2.2B)	3B	3B
VLM	Eagle-2 (1.34B)	SigLip2 + T5	Cosmos-Reason-2B
DiT	0.86B	16 layers	32 layers
행동 예측	절대 좌표	절대 좌표	상대 좌표
World-Modeling	X	X	O

Eagle VLM과의 관계

GR00T 시리즈의 VLM 백본은 NVIDIA의 Eagle VLM 연구에서 시작되었습니다:

Eagle VLM 계보

Eagle은 NVIDIA가 개발한 Vision-Language Model로, ICLR 2025 Spotlight 논문으로 채택되었습니다.

Eagle 1: Mixture of Vision Encoders (MoVE) 아키텍처 제안
Eagle 2: SigLIP + ConvNeXt 조합으로 고해상도 이미지 처리 강화
Eagle 2.5: Long-Context Post-Training으로 긴 비디오/고해상도 이미지 이해력 향상

GR00T 버전별 VLM 진화:

flowchart LR
    A[Eagle-2 VLM] --> B[GR00T N1-2B]
    C[SigLip2 + T5] --> D[GR00T N1.5-3B]
    E[Cosmos-Reason-2B] --> F[GR00T N1.6-3B]

    B --> D
    D --> F

    style A fill:#e1f5fe
    style C fill:#e1f5fe
    style E fill:#e1f5fe

버전	VLM 백본	특징
N1-2B	Eagle-2 (1.34B)	SmolLM2 + SigLIP-2 기반, 12번째 레이어에서 representation 추출
N1.5-3B	SigLip2 + T5	분리된 Vision/Language 인코더
N1.6-3B	Cosmos-Reason-2B	통합 VLM, 물리 추론 + embodied reasoning 특화

Eagle VLM의 핵심 기술:

기술	설명
Mixture of Vision Encoders (MoVE)	여러 비전 인코더 토큰을 단순 연결 (복잡한 mixing 불필요)
Tiled MoVE	SigLIP + ConvNeXt 조합으로 고해상도 처리
Pre-Alignment	비전 인코더와 언어 토큰 간 갭 해소
PixelShuffle	SigLIP 피처를 2x 다운샘플링하여 ConvNeXt 출력과 매칭

GR00T N1.6의 Hugging Face 모델 카드에서 Eagle 2.5 논문을 참조로 명시한 이유는, Eagle VLM 연구가 GR00T 시리즈의 Vision-Language 처리 기반 기술로 활용되었기 때문입니다. 다만 N1.6에서는 Eagle에서 Cosmos-Reason으로 VLM이 진화하여 물리적 추론 능력이 강화되었습니다.

기술적 특징

듀얼 시스템 아키텍처

GR00T N1.6은 듀얼 시스템 설계를 채택합니다:

flowchart LR
    subgraph System2["System 2 (Slow Thinking)"]
        A[Vision-Language Model] --> B[환경 이해]
        B --> C[지시 해석]
    end
    subgraph System1["System 1 (Fast Acting)"]
        D[Diffusion Transformer] --> E[연속 행동 생성]
    end
    C --> D
    E --> F[로봇 제어]

시스템	역할	구성 요소
System 2	느린 사고 (deliberate thinking)	Cosmos-Reason-2B VLM
System 1	빠른 행동 (real-time action)	32-layer Diffusion Transformer

멀티모달 입력 처리

GR00T N1.6은 세 가지 입력을 동시에 처리합니다:

입력 유형	설명	특징
텍스트	자연어 명령	모호한 지시도 단계별 계획으로 분해
이미지	카메라 입력	네이티브 종횡비 지원, 패딩 없이 인코딩
로봇 상태	Proprioception	관절 위치, 속도, 토크 등

Vision-Language Model (VLM)

GR00T N1.6의 VLM은 Cosmos-Reason-2B를 기반으로 합니다:

유연한 해상도: 이미지를 네이티브 종횡비로 인코딩 (패딩 불필요)
듀얼 학습: 일반 vision-language 태스크 + embodied reasoning 태스크
다음 행동 예측: next action prediction으로 훈련

Diffusion Transformer (DiT)

행동 생성을 담당하는 DiT의 주요 특징:

항목	N1.5	N1.6
DiT 레이어 수	16	32 (2배)
Post-VLM Adapter	4-layer transformer	제거
VLM 상위 레이어	Frozen	Unfrozen (상위 4개 레이어)
행동 예측 방식	절대 좌표	상대 좌표 (state-relative)

Flow Matching 기반 행동 생성

GR00T N1.6은 Flow Matching Transformer를 사용하여 연속적인 행동을 생성합니다:

학습 시: 클린 액션 벡터와 가우시안 노이즈 사이를 랜덤하게 보간하여 입력
추론 시: 가우시안 노이즈에서 시작하여 속도 예측을 통해 반복적으로 액션 복원
결과: 더 부드럽고 덜 떨리는(jittery) 동작 생성

Flow Matching의 이론적 배경

GR00T N1.6의 행동 생성 메커니즘은 Rectified Flow와 π₀ (Pi-Zero) 연구에 기반합니다:

Rectified Flow

Rectified Flow는 ICLR 2023 Spotlight 논문으로, 두 분포 사이의 transport를 학습하는 ODE 기반 방법입니다:

flowchart LR
    A["π₀ (노이즈 분포)"] -->|"직선 경로 학습"| B["π₁ (타겟 분포)"]
    B -->|"Rectification"| C["더 직선화된 경로"]
    C -->|"반복"| D["1-step 생성 가능"]

핵심 아이디어:

개념	설명
직선 경로 선호	두 점 사이 최단 경로 = 직선 → 시간 이산화 없이 정확한 시뮬레이션 가능
Rectification	임의 coupling을 점점 더 직선화된 결정론적 coupling으로 변환
Reflow	반복 적용으로 궁극적으로 1-step 생성 달성
손실 함수	간단한 비선형 최소제곱 → 대규모 모델 확장 용이

로봇 제어에서의 장점:

부드럽고 연속적인 행동 궤적 생성
빠른 추론 속도 (적은 denoising step)
GAN보다 높은 다양성, 빠른 diffusion보다 좋은 품질

π₀ (Pi-Zero) 아키텍처

π₀는 Physical Intelligence가 개발한 범용 로봇 제어용 VLA Flow Model입니다:

항목	π₀	GR00T N1.6
VLM 백본	PaliGemma	Cosmos-Reason-2B
Action Head	Flow Matching	Flow Matching DiT
Action Chunk	H=50 (50Hz)	H=16
VLM-DiT 연결	MoE-like 구조	Cross-Attention
학습 데이터	7개 로봇, 68개 태스크	시뮬레이션 + 실제 데이터 혼합

π₀의 주요 기술 (GR00T에 영향):

Flow Matching Action Generation: 랜덤 노이즈 → 모터 액션 시퀀스로 점진적 수렴
Pre-trained VLM 활용: 인터넷 규모 시맨틱 지식 상속
Cross-Embodiment: 단일 모델로 다양한 로봇 형태 지원
Real-time Control: 50Hz로 부드러운 실시간 액션 궤적 생성

flowchart TB
    subgraph FlowMatching["Flow Matching 프로세스"]
        A[가우시안 노이즈] -->|"t=0"| B[중간 상태]
        B -->|"t=0.5"| C[중간 상태]
        C -->|"t=1"| D[액션 시퀀스]
    end

    E[이미지 + 텍스트] --> F[VLM]
    F --> G[Cross-Attention]
    H[Proprioception] --> G
    G --> FlowMatching
    D --> I[로봇 제어]

GR00T vs π₀: 주요 차이점

측면	π₀	GR00T N1.6
데이터 전략	실제 로봇 데이터 중심 (Trossen ALOHA)	시뮬레이션 + 합성 데이터 활용
추론 속도	50Hz	10Hz (System 2) + 120Hz (System 1)
VLM 학습	Fine-tuning	Frozen + 상위 4개 레이어만 Unfrozen
Auxiliary Loss	-	Object Detection Loss (Ldet) 추가
타겟 로봇	다양한 형태	휴머노이드 특화

GR00T의 Object Detection Loss

GR00T N1은 Flow Matching Loss (Lfm) 외에 Object Detection Loss (Ldet)를 추가하여, 모델의 비전 시스템이 지시문에 언급된 핵심 객체를 명시적으로 위치 추정하도록 강제합니다. 이는 예측된 동작과 관련 객체 간의 연결을 학습하는 데 도움이 됩니다.

N1.6 주요 개선점

1. 향상된 Reasoning

Cosmos Reason 통합: 물리 법칙과 상식을 이해하는 추론 특화 VLM
Chain-of-Thought 추론: 복잡한 지시를 단계별 계획으로 분해
상황 일반화: 새로운 환경에서도 적절한 판단 수행

2. 확장된 데이터 및 로봇 접목

양손 로봇(dual-arm/bimanual) 데이터
Semi-humanoid 및 다양한 형태의 시뮬레이션 궤적
실제 로봇 데이터: Unitree G1, Agibot Genie-1, YAM 등

3. 성능 향상

N1.5 대비 시뮬레이션 벤치마크 및 실제 로봇 성능 모두 향상
더 빠른 수렴 속도 (단, 오버피팅 방지를 위한 튜닝 필요)
300K steps, batch size 16384로 사전학습

Cosmos Reason: 로봇의 두뇌

Cosmos Reason은 GR00T N1.6의 추론 엔진 역할을 합니다:

Cosmos Reason 특징

항목	설명
기반 모델	Qwen2.5-VL (Reason 1) / Qwen3-VL (Reason 2)
파라미터	2B, 7B, 8B 버전 제공
주요 능력	시공간 이해, 물리 법칙 추론, embodied decision making
특수 기능	2D/3D 포인트 로컬라이제이션, 바운딩 박스 좌표 추론

활용 사례

flowchart TB
    A[모호한 지시] --> B[Cosmos Reason]
    B --> C[단계별 계획 생성]
    C --> D[GR00T N1.6 Action Head]
    D --> E[로봇 제어 명령]

    F["'저기 있는 물건 가져와'"] --> B
    B --> G["1. 물건 위치 파악\n2. 경로 계획\n3. 그리퍼 접근\n4. 파지\n5. 복귀"]

Sim-to-Real 워크플로우

엔비디아는 시뮬레이션에서 실세계로의 전이를 지원하는 통합 워크플로우를 제공합니다:

flowchart LR
    A[Isaac Sim] --> B[COMPASS 합성 데이터]
    B --> C[GR00T N1.6 학습]
    C --> D[Fine-tuning]
    D --> E[실세계 배포]
    F[Whole-body RL] --> C
    G[cuVSLAM/cuVGL] --> E
    H[Newton Physics Engine] --> A

Isaac Lab

Isaac Lab은 로봇 학습을 위한 오픈소스 모듈형 프레임워크입니다:

특징	설명
기반	NVIDIA Isaac Sim 위에 구축
물리 엔진	NVIDIA PhysX (Newton 통합 예정)
렌더링	NVIDIA RTX 기반 물리 기반 렌더링
병렬화	GPU 기반 대규모 병렬 시뮬레이션

지원 RL 라이브러리:

RSL RL
RL-Games
SKRL
Stable Baselines3

Terminal

# Isaac Lab 설치 (예시)
git clone https://github.com/isaac-sim/IsaacLab.git
cd IsaacLab
./isaaclab.sh --install

Newton Physics Engine

Newton은 Google DeepMind, Disney Research, NVIDIA가 공동 개발하고 Linux Foundation이 관리하는 오픈소스 GPU 가속 물리 엔진입니다:

Newton의 특징

NVIDIA Warp 기반: 고속, 물리적으로 정확한 미분 가능 시뮬레이션
유연한 솔버: 눈/자갈 위 보행, 컵/과일 같은 취약 물체 조작 등 복잡한 태스크 시뮬레이션
로봇 학습 프레임워크 통합: MuJoCo Playground, Isaac Lab과 호환
Gradient 기반 학습: 미분 가능 시뮬레이션으로 데이터 효율적 학습 가능

얼리 어답터: ETH Zurich RSL, TU Munich, Peking University, Lightwheel, Style3D

COMPASS: 합성 내비게이션 데이터

COMPASS (Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis)는 cross-embodiment mobility policy 개발을 위한 워크플로우입니다:

flowchart TB
    subgraph Training["COMPASS 학습 파이프라인"]
        A[Imitation Learning] --> D[Policy Distillation]
        B[Residual RL] --> D
        C[시뮬레이션 궤적] --> A
        C --> B
    end
    D --> E[Vision-based Mobility Model]
    E --> F[Zero-shot Sim-to-Real 배포]

COMPASS 주요 특징:

항목	설명
입력	비전 기반 (카메라 이미지)
출력	Velocity 명령 → Whole-body Controller
전이 성능	추가 데이터 수집 없이 Zero-shot Sim-to-Real
Cross-embodiment	휴머노이드, 사족보행 로봇, AMR 등 다양한 형태 지원

활용 기업: ADATA, UCR, Foxlink

Terminal

# COMPASS 기반 내비게이션 데이터 생성 (Isaac Lab)
python scripts/generate_compass_data.py \
  --robot unitree_g1 \
  --env indoor_office \
  --num_episodes 1000

Isaac Lab-Arena

CES 2026에서 공개된 Isaac Lab-Arena는 오픈소스 시뮬레이션 프레임워크입니다:

GitHub에서 오픈소스로 제공
다양한 로봇 형태와 환경 시뮬레이션
GR00T 모델 학습 및 평가 지원

Visual Mapping & Localization (Isaac ROS)

실세계 배포 시 정확한 위치 추정을 위해 CUDA-X visual mapping and localization 라이브러리를 활용합니다:

cuVSLAM (CUDA Visual SLAM)

cuVSLAM은 NVIDIA 가속 Visual SLAM/Odometry 패키지입니다:

특징	설명
입력	스테레오 카메라 이미지 + IMU
성능	KITTI 벤치마크 최고 수준 (translation/rotation error)
처리 속도	Jetson AGX Orin에서 4개 스테레오 카메라 쌍으로 30+ fps
기능	맵 생성, 저장, 로드, 로컬라이제이션

주요 기능:

오프라인 맵핑: 텔레오퍼레이션으로 데이터 수집 후 맵 생성
런타임 로컬라이제이션: 생성된 맵 내에서 실시간 위치 추정
Pure Visual: 스테레오 feature matching만으로 환경 맵핑

cuVSLAM 제한사항

트래킹 손실 시 (카메라 가림, 모션 블러) 자동 복구 불가 → 외부 알고리즘 필요
“납치된 로봇(kidnapped robot)” 문제 미해결
GNSS, 휠 오도메트리, LiDAR 등 다른 센서와의 Kalman Filter 업데이트 미지원

cuVGL (Visual Global Localization)

cuVGL은 초기 위치를 모르거나 로컬라이제이션을 잃었을 때 전역 위치를 찾는 도구입니다:

flowchart LR
    A[로봇 시작/트래킹 손실] --> B[cuVGL]
    B --> C[기존 맵에서 전역 위치 찾기]
    C --> D[공유 글로벌 프레임에서 동작]

맵 생성 워크플로우

Visual Navigation을 위한 세 가지 맵을 생성해야 합니다:

flowchart TB
    A[스테레오 카메라 데이터 수집] --> B[Rectified Stereo Images]
    B --> C[cuVGL Map 생성]
    B --> D[cuVSLAM Map 생성]
    B --> E[Occupancy Grid Map 생성]
    C --> F[Isaac ROS Perceptor]
    D --> F
    E --> F
    F --> G[Visual Navigation]

맵 종류	용도	생성 도구
cuVGL Map	전역 로컬라이제이션	cuVGL
cuVSLAM Map	실시간 SLAM/Odometry	cuVSLAM
Occupancy Grid Map	장애물 회피, 경로 계획	Isaac ROS

로컬라이제이션 실행

Terminal

# 1. 맵 로드 및 로컬라이제이션 시작 (ROS2 서비스)
ros2 service call /visual_slam/localize_in_map \
  isaac_ros_visual_slam_interfaces/srv/LocalizeInMap \
  "{map_file_path: '/path/to/cuvslam_map', prior_pose: {position: {x: 0, y: 0, z: 0}}}"

# 2. cuVSLAM 노드 실행
ros2 launch isaac_ros_visual_slam isaac_ros_visual_slam.launch.py

# 3. cuVGL 전역 로컬라이제이션 (트래킹 손실 시)
ros2 launch isaac_ros_visual_slam isaac_ros_visual_slam_cuvgl.launch.py

Isaac ROS Perceptor

Isaac ROS Perceptor는 위의 모든 맵 레이어를 통합하여 비전 기반 내비게이션을 제공합니다:

cuVSLAM map + cuVGL map + Occupancy map + 실시간 카메라 데이터
LiDAR 없이 순수 비전 기반 내비게이션 가능
Nav2와 통합 지원

빠른 시작 가이드

환경 설정

Terminal

# Conda 환경 생성
conda create -n gr00t python=3.10
conda activate gr00t

# 패키지 설치
pip install --upgrade setuptools
pip install -e .[base]

# Flash Attention 설치 (성능 최적화)
pip install --no-build-isolation flash-attn==2.7.1.post4

저장소 클론

Terminal

# Git 및 서브모듈 포함 클론
git clone --recurse-submodules https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T

# 서브모듈 초기화 (누락 시)
git submodule update --init --recursive

공식 튜토리얼 구조

Isaac-GR00T 저장소의 getting_started/ 폴더에서 단계별 학습이 가능합니다:

순서	파일명	내용
0	`0_load_dataset.ipynb`	LeRobot 포맷 데이터 로드
1	`1_gr00t_inference.ipynb`	사전학습 모델로 추론 실행
2	`2_finetuning.ipynb`	파인튜닝으로 전문가 모델 생성
3	`3_0_new_embodiment_finetuning.md`	새로운 로봇에 적용하기
4	`4_deeper_understanding.md`	아키텍처 심층 이해

Policy Server 활용

서버 시작

Terminal

# GPU 서버에서 Policy Server 시작
uv run python gr00t/eval/run_gr00t_server.py \
  --embodiment-tag GR1 \
  --model-path nvidia/GR00T-N1.6-3B

클라이언트 연결

GR00T는 ZeroMQ 기반 서버-클라이언트 아키텍처를 제공합니다:

from gr00t.eval.client import Gr00tClient

# 클라이언트 생성 및 연결
client = Gr00tClient(server_address="tcp://gpu-server:5555")

# 관측값 전송 및 행동 수신
observation = {
    "image": rgb_image,
    "state": robot_state,
    "instruction": "Pick up the red cube"
}
action = client.get_action(observation)

데이터 준비: LeRobot 포맷

GR00T LeRobot 데이터 구조

my_robot_dataset/
├── meta/
│   ├── episodes.jsonl      # 에피소드 메타데이터
│   ├── modality.json       # ⭐ GR00T 전용 (필수!)
│   ├── info.json           # 데이터셋 정보
│   ├── tasks.jsonl         # 태스크 설명
│   ├── stats.json          # 통계 정보
│   └── relative_stats.json # 상대 통계
├── videos/
│   └── chunk-000/
│       └── observation.images.ego_view/
│           ├── episode_000000.mp4
│           └── episode_000001.mp4
└── data/
    └── chunk-000/
        ├── episode_000000.parquet
        └── episode_000001.parquet

modality.json 필수!

GR00T LeRobot은 표준 LeRobot v2와 호환되지만, meta/modality.json 파일이 반드시 필요합니다. 이 파일은 state와 action의 세부 구조를 정의합니다.

modality.json 예시

meta/modality.json

{
  "state": {
    "joint_positions": {"start": 0, "end": 7},
    "gripper_state": {"start": 7, "end": 8}
  },
  "action": {
    "joint_velocities": {"start": 0, "end": 7},
    "gripper_action": {"start": 7, "end": 8}
  }
}

데이터 수집 권장사항

항목	권장 사항
최소 샘플 수	50개 이상
카메라 설정	수집 시 카메라 이름 정확히 기록 (파인튜닝에서 참조)
데이터 형식	LeRobot v2 호환
어노테이션	coarse-grained, fine-grained 다중 채널 지원

파인튜닝 가이드

기본 파인튜닝

Terminal

python scripts/train.py \
  --config configs/gr00t_finetune.yaml \
  --model nvidia/GR00T-N1.6-3B \
  --dataset path/to/your/dataset \
  --output_dir checkpoints/my_robot

새로운 로봇에 적용 (New Embodiment)

데이터 준비: LeRobot 포맷으로 변환
Embodiment 설정: 로봇의 관절 구조, 카메라 구성 정의
파인튜닝 실행: 공식 튜토리얼 3_0_new_embodiment_finetuning.md 참조

Terminal

# 새 embodiment용 파인튜닝
python scripts/finetune_new_embodiment.py \
  --base-model nvidia/GR00T-N1.6-3B \
  --embodiment-config configs/my_robot.yaml \
  --dataset path/to/my_robot_data

Hugging Face 통합

NVIDIA는 Hugging Face와 협력하여 LeRobot 프레임워크와 GR00T를 통합했습니다:

비싼 하드웨어 없이도 로봇 학습 실험 가능
NVIDIA의 260만 로보틱스 개발자 + Hugging Face의 1,300만 AI 빌더 연결

실제 로봇 배포

Policy API 사용

from gr00t.policy import Gr00tPolicy

# 학습된 모델 로드
policy = Gr00tPolicy.from_pretrained("checkpoints/my_robot")

# 추론 루프
while robot.is_running():
    obs = robot.get_observation()
    action = policy.predict(obs)
    robot.execute(action)

ROS2 연동 예시

import rclpy
from sensor_msgs.msg import Image
from gr00t.policy import Gr00tPolicy

class GR00TNode:
    def __init__(self):
        self.policy = Gr00tPolicy.from_pretrained("nvidia/GR00T-N1.6-3B")
        self.sub = self.create_subscription(Image, '/camera/rgb', self.callback, 10)

    def callback(self, msg):
        rgb = self.bridge.imgmsg_to_cv2(msg)
        action = self.policy.predict({
            "image": rgb,
            "instruction": "Navigate to the target location"
        })
        self.send_to_robot(action)

산업 채택 현황

GR00T N1.6을 평가 중인 주요 기업들:

분야	기업
휴머노이드 로봇	Unitree, Agibot, Mentee Robotics, Neura Robotics
산업용 로봇	Franka Robotics, Techman Robot, Solomon
가전/서비스	LG Electronics, AeiROBOT
연구 기관	UCR, Lightwheel

활용 및 기대 효과

대상	기대 효과
연구자/개발자	Hugging Face 및 GitHub를 통한 오픈 모델 접근
로봇 제조사	범용적 행동 계획 및 빠른 커스터마이즈
Sim-to-Real 전이	최소한의 추가 데이터로 실제 적용 가능
물리 추론 능력	명령 → 행동 계획 실행 고도화

실전 적용 팁

Zero-shot vs Fine-tuning: 사전학습만으로 기본 태스크 수행 가능하나, 실환경에서는 파인튜닝으로 성능 향상
시뮬레이션 신뢰성: Isaac Sim + Newton Physics Engine 세팅이 Sim-to-Real 전이에 중요
데이터 믹스: 실제 로봇 데이터 + 시뮬레이션 데이터 혼합 사용 권장
오버피팅 주의: N1.6은 빠르게 수렴하므로, 적절한 early stopping 필요
최소 50개 샘플: 새로운 태스크 학습 시 최소 50개 이상의 데모 데이터 권장