flowchart LR
subgraph DATA["Human-centric Data Engine"]
G["EMF finger-tracking glove<br/>+ dense tactile"]
E["Egocentric video"]
T["Third-person video"]
end
DATA -->|"200k+ hours"| M["GENE-26.5<br/>robotics-native foundation model<br/>(flow matching)"]
VLM["Pretrained VLM / World Model priors"] --> M
M -->|"joint trajectory distribution"| CTRL["Low-latency control stack<br/>(EtherCAT 500 Hz, PREEMPT_RT)"]
CTRL --> HAND["Genesis Hand 1.0<br/>20 DoF, back-drivable, soft skin"]
HAND -->|"interaction"| WORLD["Real world / Genesis World sim"]
WORLD -->|"large-scale evaluation & sim-to-real"| M
📝GENE-26.5: 인간 수준 로봇 조작을 향하여
원문: Genesis AI Blog — GENE-26.5: Advancing Robotic Manipulation to Human-Level
이 글은 위 블로그의 구성·논지·수치를 충실히 따라 상세히 정리한 글입니다. 핵심 표현은 큰따옴표로 짧게 인용했고, 본문의 그림/영상은 원문 썸네일 링크로 삽입했습니다.
GENE-26.5 — Genesis AI의 첫 로봇 파운데이션 모델 시스템
GENE-26.5는 Genesis AI가 공개한 첫 로봇 파운데이션 모델 시스템(robotic foundation model system) 으로, “범용 로봇 조작을 인간 수준 능력으로 끌어올린다”는 목표를 내세웁니다. 가장 인상적인 주장은 하나의 모델, 하나의 하드웨어 플랫폼, 하나의 제어 스택으로 서로 다른 복잡한 과제들을 모두 수행한다는 점입니다. 그리고 (피아노 연주를 제외한) 모든 시연이 실제 속도(1× real-world speed) 로 이뤄집니다.
블로그가 처음부터 끝까지 반복하는 메시지는 한 줄로 압축됩니다 — “이것은 단순한 AI 문제가 아니라 시스템 문제다.”
블로그의 섹션 구성을 그대로 따라가며 정리하겠습니다.
- 조작(Manipulation): 왜, 그리고 어떻게
- AI만의 문제가 아니라 시스템 문제다
- 인간에 근접한 수준으로의 도약
- GENE-26.5가 할 수 있는 것
- 조작을 위한 스케일링 경로
- Genesis Hand 1.0
- 인간 중심 데이터 엔진
- 로보틱스-네이티브 파운데이션 모델
- 즉시 배포(instant deployment)를 향한 스케일링
- 저지연·고충실도 제어
- 결론 / 이름에 관하여
1. 조작: 왜, 그리고 어떻게
로봇이 “걷고 보는” 일은 최근 몇 년 사이 크게 발전했지만, 손으로 세상을 바꾸는 일(조작, manipulation) 은 여전히 가장 어려운 미개척지입니다. 조작은 단순히 물체를 집어 옮기는 것을 넘어, 접촉(contact) 을 통해 물리 세계와 끊임없이 협상하는 과정입니다. 접촉은 본질적으로 불연속적이고, 마찰·변형·미끄러짐처럼 모델링하기 까다로운 현상으로 가득 차 있습니다.
블로그는 조작 능력을 다섯 가지 축으로 분해해 정의합니다. 이 다섯 축은 이후 시연 과제들이 무엇을 증명하려는지 읽는 렌즈가 됩니다.
| 평가 축 | 의미 | 대표 과제 |
|---|---|---|
| 공간 정밀도(spatial precision) | 밀리미터 단위로 정확히 위치시키는 능력 | 피펫팅 |
| 시간적 구성(temporal composition) | 긴 과제를 여러 단계로 이어 붙이는 능력 | 4분 요리(20+ 서브태스크) |
| 접촉 풍부성(contact richness) | 다양한 물성·표면과 접촉을 다루는 능력 | 스무디(강체·변형체·액체) |
| 접촉 협응(contact coordination) | 여러 접촉점(양손 등)을 동시에 조율 | 양손 루빅스 큐브 |
| 도구 매개 상호작용(tool-mediated interaction) | 도구를 매개로 물체에 작용 | 칼·거품기·뒤집개 사용 |
2. AI만의 문제가 아니라 시스템 문제다
이 섹션이 블로그의 철학적 심장입니다. 핵심 주장은 이렇습니다.
“하드웨어는 모델의 하위(downstream)에 있는 것이 아니다. 하드웨어가 바로 올바른 데이터를 확장 가능하게 만드는 주체다.”
즉, 손재주 모델을 잘 만들려면 그에 걸맞은 물리적 인터페이스(손) 가 먼저 있어야 합니다. 사람과 형태·접촉 특성이 일치하는 손이라야 사람 시연을 손실 없이 데이터로 옮길 수 있고, 그렇게 모은 데이터라야 모델을 인간 수준으로 밀어 올릴 수 있습니다. 그리고 그 모델이 실제로 동작하려면 마이크로초·밀리초급 제어 스택이 받쳐줘야 하며, 능력의 검증은 대규모 시뮬레이션 평가로 이뤄져야 합니다.
그래서 Genesis는 데이터 엔진 → 모델 → 제어 → 하드웨어 → 시뮬레이션을 따로 떼지 않고 하나의 폐루프 시스템으로 설계했습니다.
3. 인간에 근접한 수준으로의 도약
블로그는 GENE-26.5가 위 다섯 축 모두에서 동시에 높은 수준을 보인다는 점을 강조합니다. 기존 시스템들이 보통 한두 축(예: 정밀 위치 지정 또는 단순 파지)에 특화돼 있던 것과 달리, 하나의 모델·하드웨어·제어 스택으로 다섯 축을 가로지른다는 것이 “인간에 근접한(near-human)”이라는 표현의 근거입니다.
그리고 이 모든 시연이 별도 가속 없이 실제 속도로 이뤄진다는 점을 반복해 강조합니다. 로봇 데모에서 흔히 보이는 “영상 배속”이 아니라는 것입니다.
4. GENE-26.5가 할 수 있는 것
가장 화려한 섹션으로, 다섯 축을 자극하는 시연들이 나열됩니다.
요리 (Cooking)
Cooking — 약 4분, 20+ 서브태스크의 장기 양손 과제
약 4분 길이의 장기(long-horizon) 과제로, 20개 이상의 서브태스크를 연속 수행합니다. 계란 깨기, 양손으로 토마토 자세 바꾸기(bimanual reorientation), 그리고 칼·거품기·뒤집개·프라이팬 같은 도구 사용이 포함됩니다. 시간적 구성 + 도구 매개 + 양손 협응이 한꺼번에 요구되는 과제입니다.
실험실 피펫팅 (Lab pipetting)
Lab pipetting — 밀리미터급 정밀 작업
피펫 삽입, 액체 이송, 튜브 밀봉, 원심분리기 조작까지 이어지는 밀리미터급 정밀 작업입니다. 공간 정밀도와 정교한 접촉을 입증하는 과제입니다.
루빅스 큐브 (Rubik’s Cube)
Rubik’s Cube — 양손 범용 시스템으로는 최초
양손(bimanual) 으로 큐브를 풉니다. 블로그는 이를 두고 “범용 양손 로봇 시스템이 이를 해낸 최초”라고 표현하며, 2019년 OpenAI의 한 손 큐브 해결을 이전 이정표로 인용해 대비합니다. 접촉 협응의 대표 사례입니다.
스무디 만들기 (Smoothie)
Smoothie — 강체·변형체·액체를 모두 다루는 장기 과제
강체(rigid)·변형체(deformable)·액체(liquid)를 모두 다루는 장기 과제로, 접촉 풍부성을 한 과제 안에서 종합적으로 보여줍니다.
빨대 인핸드 뒤집기 (Straw manipulation)
Straw flip — 깨지기 쉽고 반투명한 물체의 인핸드 조작
깨지기 쉽고(fragile) 반투명한(translucent) 빨대를 손안에서 뒤집습니다(in-hand flipping). 시각 인식이 어려운 반투명 물체 + 섬세한 힘 제어가 핵심입니다.
다물체 파지 (Multi-object grasping)
Multi-object grasping — 한 손으로 크기가 다른 4개 물체를 서로 다른 파지로
크기가 서로 다른 4개의 물체를 한 손으로, 각각 다른 파지 유형(grasp type)을 써서 동시에 잡습니다. 손 하나 안에서 여러 파지 전략을 조합하는 능력입니다.
와이어 하네싱 (Wire harnessing)
Wire harnessing — 자동차 산업의 “성배” 과제
부드럽고 변형되는 케이블(deformable linear object)을 다루는 과제로, 블로그는 이를 자동차 산업의 “성배(holy grail) 과제” 라고 부릅니다. 변형체 조작의 난도를 상징하는 사례입니다.
피아노 연주 (Piano playing)
Piano — 제어 스택 검증용 별도 RL 정책
피아노는 메인 파운데이션 모델과 별개로 RL로 학습한 정책으로, 제어 스택 자체의 대역폭·정밀도를 입증하기 위한 데모입니다(곡: Ferris Wheel, Rush E). 유일하게 실제 속도가 아닌 시연이며, 뒤의 “저지연 제어” 섹션과 짝을 이룹니다.
정리: 위 7개 과제(피아노 제외)는 다섯 평가 축을 골고루 덮도록 의도적으로 선택된 셋입니다. 요리=시간적 구성, 피펫=공간 정밀도, 스무디=접촉 풍부성, 큐브=접촉 협응, 도구 사용=도구 매개.
5. 조작을 위한 스케일링 경로
파운데이션 모델의 진짜 가치는 “새 과제를 얼마나 적은 데이터로 배우는가”에서 드러납니다. 블로그가 제시하는 수치는 강력합니다.
- 가장 어려운 스킬조차 task-specific 로봇 데이터가 1시간 미만으로 충분.
- 20초 미만 길이의 스킬은 200 에피소드 미만으로 학습.
- 제로샷(zero-shot) 영역의 새로운 과제는 약 20~30분 데이터로 처리.
또한 LLM에서 익숙한 스케일링 법칙이 조작에서도 관찰된다고 보고합니다.
- 모델 크기·연산을 키우면 검증 손실(validation loss)이 일관되게 감소.
- 큰 모델일수록 용량이 크고 추가 연산·데이터로 계속 이득을 봄.
- 사전학습 데이터를 키우면 제로샷 일반화와 미세조정 성능이 모두 향상.
이 두 가지(소량 미세조정 + 스케일링 법칙)가 함께 성립한다는 것은, “데이터·연산을 더 부으면 더 좋아지고, 새 과제는 점점 더 적은 데이터로 붙는다”는 파운데이션 모델의 핵심 약속을 조작에서 구현했다는 주장입니다.
6. Genesis Hand 1.0
Genesis Hand 1.0 — 인간 손과 1:1 크기, 20 DoF 역구동, 소프트 스킨
모델만큼 비중 있게 다뤄지는 것이 손 하드웨어입니다. 사양은 다음과 같습니다.
- 인간 손과 1:1 크기 일치(true 1:1 size match).
- 20개의 능동(active)·역구동 가능(back-drivable) 자유도.
- 손바닥·손가락을 부드러운 소재로 덮어 인간 피부의 소프트 접촉 물리(soft-contact physics) 를 모사.
- 결과적으로 사람 시연으로부터 거의 손실 없는 정보 전달(near-lossless information transfer) 을 달성.
설계 논리는 다시 2번 섹션의 철학과 이어집니다. 사람과 형태·접촉 특성이 같은 손이라야 사람의 시연을 그대로 로봇 데이터로 옮길 수 있고(도메인 갭 최소화), 역구동성과 소프트 스킨은 접촉이 많은 작업에서 순응적(compliant)·안전한 상호작용을 가능하게 합니다. Genesis Hand 1.0은 하드웨어 로드맵의 “다음 단계” 로 소개됩니다.
7. 인간 중심 데이터 엔진
GENE-26.5의 사전학습 규모는 여러 모달리티에 걸쳐 20만 시간(200,000+ hours) 이상입니다. 이 데이터는 세 갈래의 수집 경로를 결합해 만들어집니다.
flowchart TD
subgraph Sources["Data sources"]
A["EMF finger-tracking glove<br/>+ dense tactile sensing"]
B["Egocentric video<br/>(natural behavior)"]
C["Third-person video<br/>(internet-scale coverage)"]
end
A --> D["Unified human demonstrations"]
B --> D
C --> D
D --> E["Pretraining corpus<br/>(200k+ hours, multi-modal)"]
- EMF 기반 손가락 추적 글러브 + 고밀도 촉각 센싱: 손가락의 정밀한 움직임과 접촉 정보를 직접 기록. (Genesis Hand 1.0과 형태가 정합하므로 글러브로 모은 사람 데이터가 로봇으로 잘 옮겨짐.)
- 1인칭 영상(egocentric): 사람의 자연스러운 행동을 자연스러운 시점에서 포착.
- 3인칭 영상(third-person): 인터넷 규모의 폭넓은 커버리지로 다양성 확보.
핵심은 “비싼 로봇 텔레오퍼레이션 데이터”에만 의존하지 않고, 사람 중심의 확장 가능한 소스(글러브·영상)로 사전학습 코퍼스를 키운다는 점입니다. 하드웨어(손)와 데이터 엔진(글러브)이 같은 철학으로 맞물립니다.
8. 로보틱스-네이티브 파운데이션 모델
모델 자체의 설계는 다음과 같습니다.
- Flow matching 으로 관절 궤적 분포(joint trajectory distribution) 를 모델링.
- 직관: 디퓨전 계열처럼 멀티모달 행동 분포를 표현하되, 노이즈에서 궤적으로 가는 연속적 흐름(continuous flow) 을 학습하는 생성 방식. 손재주 작업처럼 “여러 정답 동작”이 존재하는 상황에 적합.
- 이종 입력(heterogeneous inputs) 을 함께 처리: 언어 · 시각 · 고유수용감각(proprioception) · 촉각(tactile) · 행동(action).
- 사전학습된 VLM(Vision-Language Model)과 World Model을 prior로 활용 — 인터넷 규모의 시각·언어 상식을 출발점으로 삼아 데이터 효율과 일반화를 높임.
- 조건부 추론(conditional inference) 을 단일 모델로 지원:
- 제어(control), 역동역학(inverse dynamics), 목표 추론(goal inference), 렌더링(rendering), 가치 추정(value estimation).
즉, “행동만 출력하는 정책”이 아니라 하나의 모델이 여러 방식으로 조건화되어 제어·예측·평가까지 수행하는 로보틱스-네이티브 구조입니다. (VLM은 시각·언어에서, World Model은 동역학·예측에서 사전지식을 제공하는 prior로 쓰입니다.)
9. 즉시 배포(instant deployment)를 향한 스케일링
블로그는 평가를 주로 시뮬레이션에서 수행한다는 점을 명확히 밝힙니다. 이때 쓰이는 것이 Genesis World 시뮬레이터이며, “전례 없는 사실성(unprecedented realism)” 수준을 강조합니다.
규모를 보여주는 수치가 인상적입니다.
- 평가 그래프의 데이터 포인트 하나 = 200개의 평가 설정 + 150시간 이상의 로봇 실행 시간.
- 완전한 평가 곡선 하나를 실제 세계에서 측정하려면 약 2,700 human-robot 시간이 필요 — 시뮬레이션으로 이를 대체.
- 시뮬레이션 학습 데이터 0개(zero simulation data) 로도 sim-to-real 전이가 된다고 주장 (학습 데이터는 사람·실제 기반, 시뮬레이션은 평가에 활용).
| 만약 실제로 평가한다면 | 시뮬레이션으로 대체 |
|---|---|
| 데이터 포인트당 200 설정 · 150+ 로봇 시간 | Genesis World에서 대규모 병렬 평가 |
| 전체 곡선 ≈ 2,700 human-robot 시간 | 사실적 시뮬로 단축 |
향후 릴리스에서 “시뮬레이션 평가와 실제 성능 사이의 강한 상관관계” 와 Genesis World 관련 업데이트를 더 공유하겠다고 예고하며, 궁극적 비전으로 “제로샷 일반화를 통한 즉시 배포(instant deployment)” 를 제시합니다.
10. 저지연·고충실도 제어
손재주 작업은 결국 의도를 얼마나 빠르고 정확하게 실행하느냐로 갈립니다. Genesis는 커스텀 제어 미들웨어를 직접 구축했습니다.
구성 요소
- KickCAT을 EtherCAT 마스터로 사용(Distributed Clocks 적용).
- PREEMPT_RT 커널 + 격리된(isolated) CPU 코어로 실시간성 확보.
- 고성능 임피던스 제어기(위치 제어 / 임피던스 제어 모드 모두 지원).
- 양팔 EtherCAT 네트워크에서 500 Hz 동작.
측정된 성능
| 항목 | 기본(default) | Genesis(tuned) | 개선 |
|---|---|---|---|
| 종단 지연(end-to-end latency) | — | 최저 3 ms | — |
| 추적 오차 (지름 15cm 원 추적) | 약 20 mm | 약 2 mm | 약 1자릿수(order-of-magnitude) |
| 응답 지연 (sinusoidal tracking) | 약 80 ms | 9 ms (→ 추가로 약 3 ms 까지) | 약 9~26배 |
직관: 추적 오차 20mm→2mm, 응답 지연 80ms→9ms는 “손이 명령을 따라가는 충실도”가 한 자릿수 좋아졌다는 뜻입니다. 앞서 본 피아노 연주 데모가 바로 이 제어 대역폭의 증거로 제시됩니다 — 빠르고 정확한 타건은 낮은 지연과 정밀 추적 없이는 불가능하기 때문입니다.
11. 결론과 이름에 관하여
블로그는 GENE-26.5를 조작을 인간 수준으로 끌어올리기 위한 “시스템적” 첫걸음으로 자리매김합니다. 모델·데이터·하드웨어·제어·시뮬레이션을 수직 통합한 점, 그리고 그 통합이 소량 데이터 학습 + 스케일링 법칙 + 실제 속도 시연으로 이어진다는 점이 핵심 자산입니다.
향후 관전 포인트로는 (1) Genesis World의 시뮬-실제 상관관계 실증, (2) 제로샷 일반화에 의한 즉시 배포, (3) 하드웨어 로드맵(Genesis Hand 이후)이 예고되어 있습니다.
비판적으로 함께 볼 지점
원문이 기업 발표인 만큼, 다음을 염두에 두면 균형 있게 읽을 수 있습니다.
- 수치·시연 대부분이 기업 블로그 발표 기반이며, 동료평가 논문이나 재현 가능한 공개 벤치마크는 (현재로선) 제시되지 않았습니다.
- “인간 수준(human-level)”, “near-lossless” 같은 표현은 강한 마케팅 뉘앙스를 포함하므로, 성공률의 정의·평가 프로토콜이 공개되어야 객관적 비교가 가능합니다.
- 평가가 주로 시뮬레이션(Genesis World) 에서 이뤄지므로, sim-to-real 상관관계의 실측 근거가 후속 공개의 핵심이 될 것입니다.
한 줄 요약
“손재주 조작은 모델만의 문제가 아니라 시스템 문제다 — 인간과 똑같은 손, 손실 없는 인간 데이터, 한 자릿수 빠른 제어, 대규모 시뮬 평가를 한데 묶어야 인간 수준에 다가간다.”
- 모델: flow matching 기반, 언어·시각·촉각·고유수용감각·행동 통합, VLM/World Model prior, 다중 조건부 추론.
- 데이터: 글러브+촉각·1인칭/3인칭 영상으로 20만 시간+ 사전학습. 새 과제는 2030분1시간 미만 데이터로 학습.
- 하드웨어: 인간 1:1, 20 DoF 역구동, 소프트 스킨의 Genesis Hand 1.0.
- 제어: EtherCAT 500Hz, PREEMPT_RT, 임피던스 제어 — 추적 오차 20mm→2mm, 응답 80ms→9ms(→3ms).
- 평가: Genesis World로 대규모 평가(데이터 포인트당 200 설정·150시간, 전체 ≈ 2,700 human-robot 시간 대체), zero sim-data sim-to-real.