flowchart LR
subgraph PRE["โ ์ฌ์ ํ์ต (Pre-training)"]
D1["20,854์๊ฐ\n์๊ณ ์ผํธ๋ฆญ\n์ธ๊ฐ ์์"]
A1["์๋ชฉ 6-DoF +\n22-DoF ์ ๊ด์ \n์ก์
์์ธก"]
D1 --> A1
end
subgraph MID["โก ์ค๊ฐํ์ต (Mid-training)"]
D2["์ ๋ ฌ๋\n์ธ๊ฐ-๋ก๋ด\nํ๋ ์ด ๋ฐ์ดํฐ"]
A2["๋ก๋ด ๊ฐ์ง/์ ์ด\n๋๋ฉ์ธ ์ ์"]
D2 --> A2
end
subgraph POST["โข ํ์ฒ๋ฆฌ ํ์ต (Post-training)"]
D3["ํ์คํฌ๋ณ\n์๋ ๋ก๋ด ๋ฐ์ดํฐ\n(1-shot ํฌํจ)"]
A3["๋ค์ด์คํธ๋ฆผ\nํ์คํฌ ์ํ"]
D3 --> A3
end
PRE -->|"ํํ ์ ์ด"| MID
MID -->|"์ ์ฑ
์ ์"| POST
style PRE fill:#e8f4f8,stroke:#2196F3
style MID fill:#e8f8e8,stroke:#4CAF50
style POST fill:#fff3e0,stroke:#FF9800
๐EgoScale ๋ฆฌ๋ทฐ
- ๐ค EgoScale์ 20,854์๊ฐ ์ด์์ egocentric human video๋ฅผ ํ์ฉํ์ฌ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ dexterous manipulation ์ ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๋ฐ์ดํฐ ๊ท๋ชจ์ action prediction validation loss ์ฌ์ด์ log-linear ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์์์ ๋ฐ๊ฒฌํ์ต๋๋ค.
- ๐ ์ด ํ๋ ์์ํฌ๋ ๋๊ท๋ชจ human pretraining๊ณผ ์๋์ aligned human-robot mid-training์ ๊ฒฐํฉํ๋ 2๋จ๊ณ ํ์ต ๋ฐฉ์์ ํตํด long-horizon dexterous manipulation ๋ฐ one-shot task adaptation์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ฆพ ๊ทธ ๊ฒฐ๊ณผ, ์ต์ข ์ ์ฑ ์ 22-DoF dexterous robotic hand์์ no-pretraining baseline ๋๋น ํ๊ท ์ฑ๊ณต๋ฅ ์ 54% ํฅ์์์ผฐ์ผ๋ฉฐ, ๋ ๋ฎ์ DoF์ robot hand์๋ ํจ๊ณผ์ ์ผ๋ก ์ ์ด๋์ด ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ embodiment-agnostic motor prior๋ฅผ ์ ๊ณตํจ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ์ฐ๊ตฌ๋ ๋ฐฉ๋ํ ์์ ์ธ๊ฐ์ ์๊ธฐ ์ค์ฌ์ (egocentric) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ฏธ์ธํ(fine-grained) ๊ณ ์์ ๋(high-DoF) ๋ก๋ด์ ์ ๊ตํ ์กฐ์(dexterous manipulation)์ ์ํ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ฐ์ดํฐ์ ๊ท๋ชจ๊ฐ ์๊ฑฐ๋ ์ ์์ ๋ ํธ๋(low-DoF hand)์ ์ง์ค๋์ด ์์ด, ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ณต์กํ ์ ๊ตํ ์กฐ์์ ์ผ๋ง๋ ์ง์ํ ์ ์๋์ง ๋ถ๋ถ๋ช ํ์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ์๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋๊ท๋ชจ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ์ธ๊ฐ-๋ก๋ด ์ ์ด ํ๋ ์์ํฌ์ธ EgoScale์ ์๊ฐํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology):
EgoScale์ ์ ๊ตํ ๋ก๋ด ์ ์ด์ ์ง์ ์ ์ผ๋ก ํ์ฉ๋ ์ ์๋ ํํ(representations)์ ๋๊ท๋ชจ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ ๊ฐ์ง ํต์ฌ์ ์ธ ์ค๊ณ ์ ํ์ ํฉ๋๋ค.
- ์ธ๊ฐ ํ๋ ํํ (Human Action Representation):
- ์์ ์ผ์ ์คํธ๋ฆผ (Raw Sensor Streams): ๋จธ๋ฆฌ ์ฅ์ฐฉํ ์นด๋ฉ๋ผ์์ ์ดฌ์๋ egocentric RGB ์์๊ณผ SLAM(Simultaneous Localization and Mapping) ๋ฐ ์ ํฌ์ฆ ์ถ์ ํ์ดํ๋ผ์ธ์ ํตํด ์ป์ ์นด๋ฉ๋ผ ์์ง์(T_{t}^{w \leftarrow c} \in SE(3)) ๋ฐ ์ธ๊ฐ ์ ํฌ์ฆ(21๊ฐ์ ํคํฌ์ธํธ, ์นด๋ฉ๋ผ ํ๋ ์์์์ ๊ฐ์ฒด ๋ณํ H_{t}^{c,i} \in SE(3))๋ฅผ ํ์ฉํฉ๋๋ค.
- ์๋ชฉ ์์ค ํ ์์ง์ (Wrist-level Arm Motion): ์ ์ญ ์นด๋ฉ๋ผ ์์ง์์ ๋ถ๋ณํ๋ ๋์ ๋ช ๋ น์ ์ป๊ธฐ ์ํด ์ฐ์์ ์ธ ํ์์คํ ๊ฐ์ ์๋์ ์ธ ์๋ชฉ ์์ง์์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ \Delta W_t = (W_{0w})^{-1} W_{tw}๋ก ์ ์๋๋ฉฐ, ๋ก๋ด ์คํ์์๋ ๋์ผํ๊ฒ ์ฌ์ฉ๋๋ ์ฃผ์ ํ ์์ค ๋์ ์ถ์ํ(action abstraction)์ ๋๋ค.
- ์ ๊ด์ ์์ง์ (Hand Articulation): 21๊ฐ์ ์ธ๊ฐ ์ ํคํฌ์ธํธ๋ฅผ Sharpa hand์ 22-DoF ๋ก๋ด ํธ๋ ์กฐ์ธํธ ๊ณต๊ฐ์ผ๋ก ๋ฆฌํ๊ฒํ (retargeting)ํฉ๋๋ค. ์ด๋ ์ต์ ํ ๊ธฐ๋ฐ ์ ์ฐจ๋ฅผ ํตํด ์ํ๋๋ฉฐ, ์กฐ์ธํธ ํ๊ณ(joint limits)์ ์ด๋ํ์ ์ ์ฝ(kinematic constraints)์ ๊ณ ๋ คํ์ฌ ์ธ๊ฐ ์๊ฐ๋ฝ์ ์ ๊ตํ ์์ง์์ ๋ณด์กดํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ค ๋ฐ ์ฒ๋ฆฌ (Data Sources and Processing):
- 1๋จ๊ณ: ๋๊ท๋ชจ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ์ฌ์ ํ์ต ๋ฐ์ดํฐ (Large-Scale Egocentric Human Pretraining Data):
- ์ด 20,854์๊ฐ ๋ถ๋์ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ํ๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต์ ์ฌ์ฉํฉ๋๋ค. ์ด ์ค ๋๋ถ๋ถ์ 9,869๊ฐ์ ์ฅ๋ฉด, 6,015๊ฐ์ ์์ , 43,237๊ฐ์ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ ์ค์ ํ๊ฒฝ(๊ฐ์ , ์ฐ์ , ์๋งค, ๊ต์ก ๋ฑ)์์ ์์ง๋ ์ผ์(in-the-wild) ๋ นํ๋ณธ์ผ๋ก, ๋ ธ์ด์ฆ๊ฐ ๋ง์ง๋ง ๊ด๋ฒ์ํ ์กฐ์ ํ๋์ ํฌ๊ดํฉ๋๋ค.
- ์ถ๊ฐ์ ์ผ๋ก Apple Vision Pro๋ฅผ ์ฌ์ฉํ์ฌ ์ ํํ ์๋ชฉ ๋ฐ ์ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ EgoDex ๋ฐ์ดํฐ์ 829์๊ฐ์ ํฌํจํ์ฌ ์ฌ์ ํ์ต์ ์์ ์ฑ์ ๋์ ๋๋ค.
- 2๋จ๊ณ: ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐ ํ์ต ๋ฐ์ดํฐ (Aligned Human-Robot Mid-Training Data):
- ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ์คํ ๊ฐ์ ์ ์ฒด์ ๊ฐ๊ทน(embodiment gap)์ ์ค์ด๊ธฐ ์ํด ์ธ๊ฐ ๋ฐ ์๊ฒฉ ์กฐ์ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ๋ ์์ ๋ฐ์ดํฐ์ ์ ๋์ ํฉ๋๋ค.
- ์ด 344๊ฐ์ ํ ์ด๋ธํ ์กฐ์ ์์ ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ์์ ๋น ์ฝ 30๊ฐ์ ์ธ๊ฐ ๊ถค์ (trajectory)๊ณผ 5๊ฐ์ ๋ก๋ด ๊ถค์ ์ด ํฌํจ๋ฉ๋๋ค (์ด ์ธ๊ฐ 50์๊ฐ, ๋ก๋ด 4์๊ฐ).
- ์ธ๊ฐ ์์ฐ์ ๋ก๋ด๊ณผ ๋์ผํ ์นด๋ฉ๋ผ ๊ตฌ์ฑ(์ผ์นํ๋ ์์ , ๋ณด์ ๋ ๋ด์ฌ ๋งค๊ฐ๋ณ์)์ผ๋ก ์์ง๋๋ฉฐ, Vive trackers์ Manus gloves๋ฅผ ํตํด ์๋ชฉ ํฌ์ฆ์ ์ ์ฒด ์ ํฌ์ฆ๊ฐ ๊ธฐ๋ก๋ฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๋ ์์ง๋ง ๋ก๋ด ์์ ๊ณต๊ฐ๊ณผ ์ด๋ํ์ ๋ง์ถฐ ๋ช ์์ ์ผ๋ก ์ ์ฒด ์ ๋ ฌ(embodiment-aligned)๋์ด ์์ต๋๋ค.
- 1๋จ๊ณ: ๋๊ท๋ชจ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ์ฌ์ ํ์ต ๋ฐ์ดํฐ (Large-Scale Egocentric Human Pretraining Data):
๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ํ๋ จ (Model Architecture and Training):
- ๋ชจ๋ธ์ GR00T N1 [19]๊ณผ ์ ์ฌํ ํ๋ก์ฐ ๊ธฐ๋ฐ VLA(Vision-Language-Action) ์ํคํ ์ฒ๋ฅผ ๋ฐ๋ฆ ๋๋ค. ๊ฐ ํ์์คํ t์์ ๋ชจ๋ธ์ ์ด๋ฏธ์ง(I_t)์ ์ธ์ด ์ง์(l_t)๋ก ๊ตฌ์ฑ๋ ๊ด์ธก๊ฐ o_t = (I_t, l_t)์ ์กฐ๊ฑด์ ๋ถ์ฌํ์ฌ vision-language embedding \phi_t๋ก ์ธ์ฝ๋ฉํ ํ, ํ๋ก์ฐ ๋งค์นญ(flow-matching) ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ๋ ๋์ ๋ฉ์ด๋ฆฌ(chunk)๋ฅผ ์์ธกํฉ๋๋ค.
- ๋ก๋ด ๋ฐ์ดํฐ๋ ๋ก๋ด ๊ณ ์ ์ํ(proprioceptive state) q_t๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ์ง๋ง, ์ธ๊ฐ ์์ฐ์๋ ์ด๋ฌํ ์ ํธ๊ฐ ์์ต๋๋ค. ๊ณ ์ ์ํ๊ฐ ์์ ๋๋ ํ์ต ๊ฐ๋ฅํ ํ๋ ์ด์คํ๋ ํ ํฐ์ผ๋ก ๋์ฒดํ์ฌ ํต์ผ๋ ๋ชจ๋ธ ๊ตฌ์ฑ์ ์ ์งํฉ๋๋ค.
- ๋ค์ํ ๋ก๋ด ์ ์ฒด์ ๋์ํ๊ธฐ ์ํด ๊ฒฝ๋์ ์ ์ฒด ์กฐ๊ฑด๋ถ MLP ์ด๋ํฐ(embodiment-conditioned MLP adapters)๋ฅผ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ธํฐํ์ด์ค์ ์ฌ์ฉํฉ๋๋ค. ์ด ์ด๋ํฐ๋ค์ ์ ์ฒด ํน์ ๊ณ ์ ์ํ๋ฅผ ์ธ์ฝ๋ฉํ๊ณ ์ ๋์์ ๋์ฝ๋ฉํ๋ฉฐ, ์๋ ์๋ชฉ ์์ง์ ์์ธก, vision-language backbone, DiT action expert๋ ์์ ํ ๊ณต์ ๋ฉ๋๋ค.
- ํ๋ จ ๋ ์ํผ (Training Recipe):
- 1๋จ๊ณ (์ธ๊ฐ ์ฌ์ ํ์ต): 20,000์๊ฐ์ egocentric ์ธ๊ฐ ๋ฐ์ดํฐ๋ก 100,000 ์คํ ๋์ ํ์ตํ๋ฉฐ, VLA ๋ชจ๋ธ์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ ํด์ (unfreezing)ํ์ฌ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ํก์ํฉ๋๋ค.
- 2๋จ๊ณ (์ ๋ ฌ๋ ์ค๊ฐ ํ์ต): ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ํ๋ ์ด ๋ฐ์ดํฐ์ ์ผ๋ก 50,000 ์คํ ๋์ ํ์ตํ๋ฉฐ, vision-language backbone์ ๊ณ ์ ํ๊ณ (freezing) vision encoder์ DiT action expert๋ง ์ ๋ฐ์ดํธํ์ฌ ํํ์ ๋ก๋ด ๊ฐ๊ฐ ๋ฐ ์ ์ด์ ๊ณ ์ (anchor)์ํต๋๋ค.
- 3๋จ๊ณ (ํ์ ํ์ต): ์์ ๋ณ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ก 10,000 ์คํ ๋์ ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํฉ๋๋ค. ์ค๊ฐ ํ์ต์ด ์ฌ์ฉ๋ ๊ฒฝ์ฐ vision encoder๋ ๊ณ ์ ํ๊ณ , ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ํด์ ํ์ฌ ์๋ก์ด ์ ์ฒด์ ์ ์ํฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results):
- RQ1: ๋๊ท๋ชจ ์ธ๊ฐ ์ฌ์ ํ์ต์ ํจ๊ณผ: ์ธ๊ฐ ์ฌ์ ํ์ต์ ๋ชจ๋ ์์ ์์ ํ๋ จ ์คํฌ๋์น(training from scratch) ๋๋น ํ๊ท ์์ ์๋ฃ๋(task completion)๋ฅผ 55% ์ด์ ํฅ์์์ผฐ์ต๋๋ค. ๋ ธ์ด์ฆ๊ฐ ๋ง๊ณ ์ ์ฝ์ด ์๋ ๋๊ท๋ชจ ์ธ๊ฐ ์ฌ์ ํ์ต์ ๋๋ถ๋ถ์ ์์ ์์ ์ค๊ฐ ํ์ต๋ง ์ ์ฉํ ๊ธฐ์ค์ (mid-training-only baseline)๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ์ต๋๋ค. ์ด๋ ์ธ๊ฐ ์์ฐ์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ ๊ตํ ์กฐ์์ ์ํ ๊ฐ๋ ฅํ ๊ท๋ฉ์ ํธํฅ(inductive biases)์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค. ์ธ๊ฐ ์ฌ์ ํ์ต๊ณผ ์๋์ ์ ๋ ฌ๋ ์ค๊ฐ ํ์ต์ ๊ฒฐํฉํ์ ๋ ์ต์์ ์ ์ฒด ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- RQ2: ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง ๋ฒ์น (Scaling Law): ์ธ๊ฐ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ์์ 1k์์ 20k ์๊ฐ์ผ๋ก ๋๋ฆฌ๋ฉด ํ๊ท ์์ ์๋ฃ๋๊ฐ 0.30์์ 0.71๋ก ๊พธ์คํ ์ฆ๊ฐํ์ต๋๋ค. ํ๋ จ ์ค ๋ชจ๋ธ์ ํ๋ ์์ธก ๊ฒ์ฆ ์์ค(validation loss)์ ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์ ์ ์ด๊ณ ๋จ์กฐ๋ก์ด ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์๋ ด ์ ์ต์ ๊ฒ์ฆ ์์ค๊ณผ ๋ฐ์ดํฐ ๊ท๋ชจ ์ฌ์ด์ L = 0.024 - 0.003 \cdot \ln(D)์ ๋ก๊ทธ-์ ํ(log-linear) ์ค์ผ์ผ๋ง ๋ฒ์น(R^2 = 0.9983)์ด ๊ด์ฐฐ๋์์ผ๋ฉฐ, ์ด ์คํ๋ผ์ธ ์ค์ผ์ผ๋ง ํ๋์ ์ค์ ๋ก๋ด ์ฑ๋ฅ๊ณผ ๊ฐ๋ ฅํ ์๊ด ๊ด๊ณ๋ฅผ ๋ณด์์ต๋๋ค.
- RQ3: ์์ท ์ ์ด (One-shot Transfer) ๋ฐ ์ผ๋ฐํ (Generalization): ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐ ํ์ต์ ์ด์ ์ ๋ณด์ง ๋ชปํ ๊ธฐ์ ์ ๋ํ ์์ท ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ค๊ฐ ํ์ต ๋ฐ์ดํฐ์ ์๋ โ์ ์ธ ์ ๊ธฐ(Fold Shirt)โ ๋ฐ โ๋ฌผ๋ณ ๋๊ป ํ๊ธฐ(Unscrewing Water Bottles)โ ์์ ์์, Pretrain + Midtrain ๋ชจ๋ธ์ ๋จ์ผ ๋ก๋ด ์์ฐ๊ณผ ์ ๋ ฌ๋ ์ธ๊ฐ ์์ฐ์ ๋ณด๊ฐํ์ฌ โ์ ์ธ ์ ๊ธฐโ์์ 0.88, โ๋ฌผ๋ณ ๋๊ป ํ๊ธฐโ์์ 0.55์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ์ค๊ฐ ํ์ต์ด ๊ณต์ ๋ ๋์ ๊ตฌ์กฐ๋ฅผ ํตํด ์๋ก์ด ์์ ์ผ๋ก์ ํจ๊ณผ์ ์ธ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ์ ๋ณด์ฌ์ค๋๋ค.
- RQ4: ๊ต์ฐจ ์ ์ฒด ์ ์ด (Cross-embodiment Transfer): ์ธ๊ฐ ์ฌ์ ํ์ต์ผ๋ก ํ์ต๋ ํํ์ Unitree G1 ๋ก๋ด๊ณผ ๊ฐ์ ํ์ ํ๊ฒ ๋ค๋ฅธ ์ด๋ํ ๋ฐ 7-DoF ์ผ์งํ ํธ๋(tri-finger hand)๋ฅผ ๊ฐ์ง ๋ก๋ด์ผ๋ก๋ ์ ์ด๋ฉ๋๋ค. G1 ํ๋ ์ด ๋ฐ์ดํฐ๋ฅผ ์ค๊ฐ ํ์ต์ ํฌํจ์์ผฐ์ ๋, G1 ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๊ฒฝ์ฐ๋ณด๋ค โPen in Binโ ๋ฐ โDish in Rackโ ์์ ์์ ํ์ ํ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ธ๊ฐ ์ฌ์ ํ์ต์ด ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ๋ฉฐ ์ ์ฒด ๋ ๋ฆฝ์ ์ธ ๋ชจํฐ ์ฌ์ ์ง์(motor prior)์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค.
- RQ5: ์ ๋์ ๊ณต๊ฐ ์ค๊ณ (Hand Action Space Design): 22-DoF ๋ฆฌํ๊ฒํ ๋ ์กฐ์ธํธ ๊ณต๊ฐ(retargeted joint space)์์ ์ธ๊ฐ ์ ๋์์ ํํํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ชฉ ์ ์ฉ(wrist-only) ํํ์ ์ ๊ตํ ์กฐ์์ด ํ์ํ ์์ ์์ ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๊ฐ๋ฝ ๋ ๊ธฐ๋ฐ(fingertip-based) ํํ์ ๋ถ๊ฐ๋ฅํ ์กฐ์ธํธ ๊ตฌ์ฑ์ผ๋ก ์ด์ด์ง ์ ์์ด ๋ถ์์ ํ์ต๋๋ค.
๊ฒฐ๋ก (Conclusion):
๋ณธ ์ฐ๊ตฌ๋ ์ ๊ตํ ๋ก๋ด ์กฐ์์ ์ํ ์ธ๊ฐ-๋ก๋ด ์ ์ด๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก ์ค์ผ์ผ๋ง ํ์์์ ์ ์ฆํฉ๋๋ค. EgoScale์ 20,000์๊ฐ ์ด์์ ์๊ธฐ ์ค์ฌ์ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ธ๊ฐ ํ๋ ์์ธก ์์ค๊ณผ ๋ฐ์ดํฐ ๊ท๋ชจ ์ฌ์ด์ ๋ช ํํ ๋ก๊ทธ-์ ํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์ด ์์ค์ด ์ค์ ๋ก๋ด ์ฑ๋ฅ์ ๊ฐ๋ ฅํ๊ฒ ์์ธกํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋๊ท๋ชจ ์ธ๊ฐ ์ฌ์ ํ์ต๊ณผ ์๋์ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐ ํ์ต์ ๊ฒฐํฉํ๋ ๋จ์ํ๊ณ ํจ๊ณผ์ ์ธ ์ ์ด ๋ฐฉ์์ ๊ฐ๋ ฅํ ์ฅ๊ธฐ ์กฐ์(long-horizon manipulation), ๋น์ ์์ท ์ ์(emergent one-shot adaptation), ๊ทธ๋ฆฌ๊ณ ํ์ ํ ๋ค๋ฅธ ์ด๋ํ์ ๊ฐ์ง ๋ก๋ด ์ ์ฒด ๊ฐ์ ๊ฒฌ๊ณ ํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ ์ธ๊ฐ์ ์ผ๋ฐ์ ์ธ ์ฒดํ๋ ์ง๋ฅ(embodied intelligence) ํ์ต์ ์ํ ์ง์ ํ ์ค์ผ์ผ๋ง ๊ฐ๋ฅํ ์ ์ฒด(embodiment)๋ก ๊ฐ์ฃผํ ์ ์๋ ๋ฏธ๋๋ฅผ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค ์์ฝ:
๋ก๋ด์๊ฒ ์กฐ์ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๋ ๊ฐ์ฅ ์ค์ผ์ผ๋ฌ๋ธํ ๋ฐฉ๋ฒ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ ๋ชจ์ผ๋ ๊ฒ ์๋๋ผ, ์ธ๊ฐ์ด ์ด๋ฏธ ์์ฒ ์๊ฐ์ฉ ์ํํด์จ ์๋์ ์์์ ํ์ฉํ๋ ๊ฒ์ด๋ค โ ๊ทธ๋ฆฌ๊ณ ์ด ๋ฐฉ๋ฒ์ ์์ธก ๊ฐ๋ฅํ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฐ๋ฅธ๋ค.
์๋ก : ์ ๋ก๋ด์ ์์ง๋ ์์ ์ ๋ชป ์ฐ๋๊ฐ?
๋ฌธ์ ์ ํต์ฌ โ ๋ฐ์ดํฐ๊ฐ ์๋ค
์ ๊น ์๊ฐํด๋ณด์. ์ฌ๋ฌ๋ถ์ ์ง๊ธ๊น์ง ์ด๋ฉด์ ์๋ฐฑ๋ง ๋ฒ ๋ฌผ๊ฑด์ ์ง๊ณ , ๋๋ฆฌ๊ณ , ๋ผ์ฐ๊ณ , ์ ์์ ๊ฒ์ด๋ค. ์ ๊ฐ๋ฝ์ง, ์๋์ฐจ ์ด์ ๊ฝ๊ธฐ, ์ ์ธ ๋จ์ถ ์ฑ์ฐ๊ธฐ โ ์ด ๋ชจ๋ ํ๋๋ค์ ๋ณ๋ค๋ฅธ ๊ต์ก ์์ด ๋ชธ์ ์ตํ์ง ์ด๋ ์ง์(motor knowledge) ์ด๋ค.
๊ทธ๋ฐ๋ฐ ๋ก๋ด์? ๋ก๋ด์๊ฒ ์ด ์ง์์ ์ ๋ฌํ๋ ค๋ฉด ์ผ์ผ์ด ์๊ฒฉ์กฐ์(teleoperation) ์ผ๋ก ์๋ฒ์ ๋ณด์ฌ์ค์ผ ํ๋ค. ๋ก๋ด ํ ์์ ์์ ์กฐ์ด์คํฑ์ด๋ ๊ธ๋ฌ๋ธ๋ก ์ ์ดํ๋ฉด์, ์์ญ ๋ฒ, ์๋ฐฑ ๋ฒ ๊ฐ์ ๋์์ ๋ฐ๋ณตํ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์๋๋ค. ์๊ฐ๋ ๋๋ ์์ฒญ๋๊ฒ ๋ ๋ค.
LLM์ด๋ ์ปดํจํฐ ๋น์ ๋ถ์ผ๋ ์ธํฐ๋ท์ ๋์ณ๋๋ ํ ์คํธ์ ์ด๋ฏธ์ง ๋๋ถ์ ๋ชจ๋ธ์ ํญ๋ฐ์ ์ผ๋ก ์ค์ผ์ผ๋งํ ์ ์์๋ค. ํ์ง๋ง ๋ก๋ด ์กฐ์? ์ธํฐ๋ท ๊ท๋ชจ์ ๋ก๋ด ๋ฐ์ดํฐ ์ฝํผ์ค๋ ์กด์ฌํ์ง ์๋๋ค. Open X-Embodiment ๊ฐ์ ๋๊ท๋ชจ ํ๋ก์ ํธ๋ฅผ ํตํด ์์ฒ ์๊ฐ์ ๋ฐ์ดํฐ๊ฐ ๊ณต๊ฐ๋์์ง๋ง, ์ด๊ฒ๋ ์ธ์ด ๋ชจ๋ธ์ด ํ์ตํ๋ ๋ฐ์ดํฐ ๊ท๋ชจ์ ๋นํ๋ฉด ์๋ฐ์ ํผ๋ค.
์ด ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ์ ํ๊ธฐ ์ํ ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์ด ์๋ค:
โ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์ ์ฑ ํ์ต์ ์ฃผ์ ๋ฐ์ดํฐ ์์ค๋ก ์ธ ์ ์์๊น?โ
์ ํ ์ฐ๊ตฌ์ ํ๊ณ
์ด ์์ด๋์ด ์์ฒด๋ ์๋กญ์ง ์๋ค. ์ธ๊ฐ ์์์์ affordance๋ฅผ ์ถ์ถํ๊ฑฐ๋, hand keypoint๋ฅผ ์ถ์ ํด ๋ก๋ด ์ก์ ์ผ๋ก ๋ณํํ๋ ์ฐ๊ตฌ๋ค์ด ์์ด์๋ค. ๊ทธ๋ฌ๋ ๊ณตํต๋ ํ๊ณ๊ฐ ์์๋ค:
- ์์ ๊ท๋ชจ: ๋๋ถ๋ถ ์๋ฐฑ~์์ฒ ์๊ฐ ์์ค์ ๋ฐ์ดํฐ๋ก๋ง ์คํ
- ์ ํ๋ ์ค์ : ํน์ ํ์คํฌ๋ ํ๊ฒฝ์ ํนํ๋ ๋ฐฉ์
- ๊ณ ์์ ๋ ์ ์ ์ด ๋ฏธ์ง์: ์๋ชฉ ์์ง์๋ง ๋ค๋ฃจ๊ฑฐ๋, ์๊ฐ๋ฝ ์์ค์ dexterous control์๋ ์ ์ฉํ๊ธฐ ์ด๋ ค์
- ์ค์ผ์ผ๋ง ๋ฒ์น ๋ฏธํ์ธ: ๋ฐ์ดํฐ๋ฅผ ๋ ๋๋ฆฌ๋ฉด ์ ๋ง ์ฑ๋ฅ์ด ์ข์์ง๋์ง ๋ถ๋ถ๋ช
EgoScale์ ์ด ๋ชจ๋ ํ๊ณ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ถ๋ชํ๋ค.
EgoScale์ ํต์ฌ ์ฃผ์ฅ
NVIDIA GEAR ํ์ด ์ด๋๋ ์ด ์ฐ๊ตฌ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋ฉ์์ง๋ฅผ ์ ๋ฌํ๋ค:
- ์ค์ผ์ผ๋ง ๋ฒ์น์ ์กด์ฌ: ์ธ๊ฐ ๋ฐ์ดํฐ ๊ท๋ชจ์ validation loss ์ฌ์ด์๋ ๋ก๊ทธ-์ ํ ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๋ฉฐ, ์ด loss๋ ์ค์ ๋ก๋ด ์ฑ๋ฅ๊ณผ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค.
- ์ ์ด ๋ ์ํผ: ๋๊ท๋ชจ ์ธ๊ฐ ์ฌ์ ํ์ต + ์๋์ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต(mid-training) ์กฐํฉ์ด ํจ๊ณผ์ ์ด๋ค.
- ์ฒดํ ๋ถ๊ฐ์ง๋ก ์ ํํ: ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ ํํ์ ์ ์ค๊ณ๊ฐ ๋ค๋ฅธ ๋ก๋ด์๋ ์ ์ด๋๋ค.
๋ฐฉ๋ฒ๋ก : EgoScale์ ๊ตฌ์กฐ๋ฅผ ํด๋ถํ๋ค
์ ์ฒด ํ์ดํ๋ผ์ธ ๊ฐ์
EgoScale์ 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๋ง์น ์์ด๊ฐ ์ธ์ด๋ฅผ ๋ฐฐ์ฐ๋ ๊ณผ์ ๊ณผ ๋น์ทํ๊ฒ ์๊ฐํ ์ ์๋ค โ ๋จผ์ ๋ฐฉ๋ํ ์์ ์ธ์ด๋ฅผ ๋ฃ๊ณ ํจํด์ ์ฒด๋(์ฌ์ ํ์ต), ๊ทธ ๋ค์ ๋งํ๊ธฐ ์ฐ์ต์ผ๋ก ์ค์ ๋ฐํ์ ์ ์(์ค๊ฐํ์ต), ๋ง์ง๋ง์ผ๋ก ํน์ ์ํฉ์ ๋ง๋ ํํ์ ์ตํ๋(ํ์ฒ๋ฆฌ ํ์ต) ์์ด๋ค.
1๋จ๊ณ: ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ์ฌ์ ํ์ต
๋ฐ์ดํฐ์ : 20,854์๊ฐ์ ์
์ด ์ฐ๊ตฌ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ์ง๊ธ๊น์ง human-to-robot transfer ์ฐ๊ตฌ์ ์ฐ์ธ ๋ฐ์ดํฐ๋ณด๋ค 20๋ฐฐ ์ด์ ํฌ๋ค. ์ฌ๋ฌ ๊ณต๊ฐ ์๊ณ ์ผํธ๋ฆญ ๋ฐ์ดํฐ์ ์ ํตํฉํ์ผ๋ฉฐ, ๊ฐ ๋น๋์ค์์ ์๋ชฉ ํฌ์ฆ์ ์๊ฐ๋ฝ ๊ด์ ์ ๋ณด๋ฅผ ์๋์ผ๋ก ์ถ์ถํด ์ก์ ๋ ์ด๋ธ์ ์์ฑํ๋ค.
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ์ด ํ์ต ์๊ฐ | 20,854 ์๊ฐ |
| ๊ธฐ์กด ์ต๋ ๊ท๋ชจ ๋๋น | ์ฝ 20๋ฐฐ ์ด์ |
| ๋ฐ์ดํฐ ์ ํ | ์๊ณ ์ผํธ๋ฆญ ์ธ๊ฐ ์กฐ์ ์์ |
| ์ก์ ๋ ์ด๋ธ | ์๋ชฉ 6-DoF + 22-DoF ์ ๊ด์ ๊ฐ๋ |
| ํ๋ ๋ฐฉ๋ฒ | ์ ์ถ์ ๊ธฐ์ ์๋ ์ ์ฉ (Apple Vision Pro ๋ฑ) |
ํต์ฌ ์ค๊ณ ๊ฒฐ์ : ์ด๋ค ์ก์ ํํ์ ์ธ ๊ฒ์ธ๊ฐ?
์ด ์ง๋ฌธ์ด ๊ฒฐ๊ณผ๋ฅผ ํฌ๊ฒ ์ข์ฐํ๋ค. EgoScale ํ์ ์ธ ๊ฐ์ง ์ ํ์ง๋ฅผ ๋น๊ตํ๋ค:
์ ํ์ง 1 โ ์๋ชฉ๋ง (Wrist-only)
์๋ชฉ์ ์์น/๋ฐฉํฅ๋ง ์์ธก. ๊ฐ์ฅ ๋จ์ํ์ง๋ง ์๊ฐ๋ฝ ์์ค์ dexterity ์ ๋ณด ์์.
์ ํ์ง 2 โ ์๊ฐ๋ฝ ๋์ (Fingertip SE(3))
๊ฐ ์๊ฐ๋ฝ ๋์ SE(3) ๊ถค์ ์์ธก, MLP๋ก ๊ด์ ๊ฐ๋๋ก ๋ณํ. EgoVLA ๋ฐฉ์.
์ ํ์ง 3 โ 22-DoF ๊ด์ ๊ณต๊ฐ (EgoScale ๊ธฐ๋ณธ๊ฐ) โ
22๊ฐ ์ ๊ด์ ๊ฐ๋ ์ง์ ์์ธก. ๊ฐ์ฅ ํ๋ถํ ์ ๋ณด, ๋ก๋ด ์ retargeting๊ณผ ์ง์ ํธํ.
์คํ ๊ฒฐ๊ณผ, 22-DoF ๊ด์ ๊ณต๊ฐ ํํ์ด ๊ฐ์ฅ ์ข์ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ ๋๋ค โ ์๊ฐ๋ฝ ํ๋ํ๋์ ์์ง์ ํจํด์ ํ์ตํด์ผ dexterous manipulation์ด ๊ฐ๋ฅํ๋๊น.
๋ชจ๋ธ ์ํคํ ์ฒ: Flow ๊ธฐ๋ฐ VLA
EgoScale์ ๋ชจ๋ธ์ VLM ๋ฐฑ๋ณธ + DiT(Diffusion Transformer) ์ก์ ์ ๋ฌธ๊ฐ๋ก ๊ตฌ์ฑ๋ flow-based VLA๋ค. ฯโ(pi-zero)์์ ์๊ฐ์ ๋ฐ์ ์ด ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค:
flowchart TB
subgraph INPUT["์
๋ ฅ"]
I1["์๊ณ ์ผํธ๋ฆญ\n RGB ์ด๋ฏธ์ง"]
I2["์ธ์ด ์ง์๋ฌธ\n(Task description)"]
I3["ํ์ฌ ์๋ชฉ/์\n๊ณ ์ ๊ฐ๊ฐ ์ํ"]
end
subgraph VLM["VLM ๋ฐฑ๋ณธ (Vision-Language Model)"]
V1["๋น์ ์ธ์ฝ๋\n(Visual Tokens)"]
V2["์ธ์ด ์ธ์ฝ๋\n(Text Tokens)"]
V3["ํฌ๋ก์ค-์ดํ
์
\n์ตํฉ"]
end
subgraph ADAPT["๊ฒฝ๋ ์ฒดํ ์ด๋ํฐ"]
AD1["์ธ๊ฐ์ฉ\n๊ณ ์ ๊ฐ๊ฐ ์๋ฒ ๋ฉ"]
AD2["๋ก๋ด์ฉ\n๊ณ ์ ๊ฐ๊ฐ ์๋ฒ ๋ฉ"]
end
subgraph EXPERT["DiT ์ก์
์ ๋ฌธ๊ฐ"]
E1["๋
ธ์ด์ฆ ์ก์
์
๋ ฅ xโ"]
E2["Flow Matching\n๋๋
ธ์ด์ง"]
E3["์์ธก ์ก์
์ถ๋ ฅ\n(์๋ชฉ 6-DoF + 22-DoF ์)"]
end
I1 --> V1
I2 --> V2
I3 --> ADAPT
V1 & V2 --> V3
V3 & ADAPT --> E1
E1 --> E2 --> E3
style VLM fill:#e3f2fd,stroke:#1565C0
style EXPERT fill:#fce4ec,stroke:#c62828
style ADAPT fill:#f3e5f5,stroke:#6a1b9a
Flow Matching์ด๋?
๊ฐ๋จํ ๋งํ๋ฉด, ๋ชจ๋ธ์ โ๋
ธ์ด์ฆ๋ก ๋ค์์ธ ์ก์
โ์์ ์์ํด ์ ์ ์ค์ ์ก์
์ผ๋ก ์ ์ ํด๊ฐ๋ ํ๋ก์ธ์ค๋ฅผ ํ์ตํ๋ค. Diffusion policy์ ์น์ฒ์ด๋ผ ๋ณด๋ฉด ๋๋ค. ์ํ์ ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค:
\mathcal{L}_\text{flow} = \mathbb{E}_{t, x_0, x_1}\left[\|v_\theta(x_t, t, c) - (x_1 - x_0)\|^2\right]
์ฌ๊ธฐ์ x_t = (1-t)x_0 + tx_1์ ๋ ธ์ด์ฆ x_0์์ ์ค์ ์ก์ x_1์ผ๋ก์ ์ ํ ๋ณด๊ฐ, v_\theta๋ ์๋ ํ๋๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ, c๋ ์ธ์ด+๋น์ ์ปจํ ์คํธ๋ค.
์ Diffusion/Flow๋ฅผ ์ฐ๋๊ฐ?
๋ค์์ ๋ ์ ๋์์ ๋ณธ์ง์ ์ผ๋ก ๋ค๋ด๋ถํฌ(multimodal distribution) ๋ฅผ ๊ฐ์ง๋ค โ ๊ฐ์ ์ํฉ์์๋ ์ฌ๋ฌ ๊ฐ์ง ์ ํจํ ์๊ฐ๋ฝ ๋ฐฐ์น๊ฐ ์กด์ฌํ๋ค. ๋จ์ํ MSE ์์ค๋ก ํ์ตํ๋ฉด ์ด ๋ชจ๋ ๊ฐ๋ฅ์ฑ์ โํ๊ท ๊ฐโ์ ์ถ๋ ฅํด ํ๋ฆฟํ๊ณ ๋ฌดํจํ ๋์์ด ๋์จ๋ค. Flow matching์ ์ด ๋ถํฌ๋ฅผ ์ ๋๋ก ๋ชจ๋ธ๋งํ ์ ์๋ค.
2๋จ๊ณ: ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต (Mid-training)
์ด๊ฒ์ด EgoScale์ ๊ฐ์ฅ ์๋ฆฌํ ์์ด๋์ด ์ค ํ๋๋ค.
์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ธ๊ฐ ์์ ๋ณด๊ณ ์ธ๊ฐ ์ก์ ์ ์์ธกํ๋๋ก ํ์ต๋์ด ์๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์๋ ๋ก๋ด ์์ด ๋ฌ๋ฆฐ ๋ก๋ด ํ์ ์นด๋ฉ๋ผ ์์์ด ๋ค์ด์ค๊ณ , ๋ก๋ด ๊ด์ ๋ช ๋ น์ ์ถ๋ ฅํด์ผ ํ๋ค. ์ด ๊ฐ๊ทน์ ์ด๋ป๊ฒ ๋ฉ์ธ๊น?
์ค๊ฐํ์ต์ ํต์ฌ ์์ด๋์ด: ์ ๋ฐ์ดํฐ(Paired Data)
๊ฐ์ ์กฐ์ ๋์์ ์ธ๊ฐ์ด ์ํํ๋ฉด์ ๋์์ ๋ก๋ด๋ ์ํํ๋ค. ์ด ๋ ์์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ต์ ์ฌ์ฉํ๋ค:
flowchart LR
subgraph HUMAN["์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ"]
H1["์๋ชฉ/์ ์ผ์\n์ฐฉ์ฉ ์ธ๊ฐ"]
H2["์๊ณ ์ผํธ๋ฆญ ์นด๋ฉ๋ผ"]
H3["์ธ๊ฐ ์ ์ก์
\n(22-DoF)"]
H1 --> H2 & H3
end
subgraph ROBOT["๋ก๋ด ํ๋ ์ด ๋ฐ์ดํฐ"]
R1["๋์ผ/์ ์ฌ ํ๊ฒฝ\n๋ก๋ด ํ ์ํ"]
R2["๋ก๋ด ํ์ฌ ์นด๋ฉ๋ผ"]
R3["๋ก๋ด ๊ด์ ๋ช
๋ น\n(22-DoF retargeted)"]
R1 --> R2 & R3
end
subgraph ALIGN["์ ๋ ฌ ๋งคํ"]
A1["๊ณตํต ์ก์
๊ณต๊ฐ\n(์๋ชฉ ์์น + ์ ๊ด์ )"]
A2["๋๋ฉ์ธ ์ด๋ํฐ\nํ์ต"]
end
H3 & R3 --> A1 --> A2
style HUMAN fill:#e8f5e9,stroke:#388e3c
style ROBOT fill:#e3f2fd,stroke:#1976d2
style ALIGN fill:#fff8e1,stroke:#f57f17
์ค์ํ ๊ฒ์ ์ค๊ฐํ์ต ๋ฐ์ดํฐ๊ฐ ์๋์ด๋ผ๋ ์ ์ด๋ค. ๋ ผ๋ฌธ์์๋ ๊ตฌ์ฒด์ ์ผ๋ก ๊ฐ์ฒด๋น ์ฝ 100๊ฐ ๊ถค์ ์ ์ธ๊ฐ์ด ์์ฐํ๋ฉด ์ถฉ๋ถํ๋ค๊ณ ๋ณด๊ณ ํ๋ค. ์์ฒ ์๊ฐ์ ์ฌ์ ํ์ต์ ๋นํ๋ฉด ๊ทน์๋์ด๋ค.
์ ์ด๊ฒ์ด ์๋ํ๋๊ฐ?
์ฌ์ ํ์ต๋ ํํ์ ์ด๋ฏธ ๋ฌผ๋ฆฌ์ ์กฐ์์ ํ๋ถํ ๊ตฌ์กฐ โ ์์ด ์ด๋ป๊ฒ ๊ฐ์ฒด์ ์ ๊ทผํ๊ณ , ํ์ ๊ฐํ๊ณ , ๋ฆด๋ฆฌ์ฆํ๋์ง โ ๋ฅผ ๋ด๊ณ ์๋ค. ์ค๊ฐํ์ต์ ์ด ๊ตฌ์กฐ๋ฅผ โ์ฌ๋ฐ๊ฒฌโํ๋ ๊ฒ ์๋๋ผ ๋จ์ํ ์ธ๊ฐ์ ๊ฐ๊ฐโ๋ก๋ด์ ๊ฐ๊ฐ์ผ๋ก, ์ธ๊ฐ์ ๊ด์ โ๋ก๋ด์ ๊ด์ ๋ก ๋งคํํ๋ โ๋ฒ์ญโ ์์
๋ง ์ํํ๋ค.
Retargeting: ์ธ๊ฐ ์ โ ๋ก๋ด ์
์ธ๊ฐ ์(22 DOF)๊ณผ ๋ก๋ด ์์ ์ด๋ํ์ ์ผ๋ก ๋ค๋ฅด๋ค. ์ด ๋ณํ์ ์ํด ์ต์ ํ ๊ธฐ๋ฐ retargeting์ ์ฌ์ฉํ๋ค:
\hat{q}_\text{robot} = \arg\min_{q} \sum_{i \in \text{fingertips}} \|f_i^\text{robot}(q) - f_i^\text{human}\|^2 + \lambda \|q\|^2
์๊ฐ๋ฝ ๋์ (fingertip) ์์น๋ฅผ ์ต๋ํ ๋งค์นญ์ํค๋ฉด์ ๊ด์ ๊ฐ๋๋ ์๊ฒ ์ ์งํ๋ ์ต์ ํ๋ค. ์๋ฒฝํ ๋ณํ์ ๋ถ๊ฐ๋ฅํ์ง๋ง, ์ค๊ฐํ์ต์ ํตํด ์ด ๊ทผ์ฌ ์ค๋ฅ๋ฅผ ๋ณด์ ํ๋ค.
3๋จ๊ณ: ๋ค์ด์คํธ๋ฆผ ํ์คํฌ ํ์ฒ๋ฆฌ ํ์ต (Post-training)
์ด ๋จ๊ณ์์๋ ์ค์ ์ํํ ํ์คํฌ์ ๋ง๋ ์๋์ ๋ก๋ด ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ๋ค. ๋๋ผ์ด ์ ์ ์์ท(one-shot) โ ๋จ ํ๋์ ๋ก๋ด ์์ฐ๋ง์ผ๋ก๋ ์๋ก์ด ํ์คํฌ์ ์ ์์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ด๋ค.
์ด๊ฒ์ด ๊ฐ๋ฅํ ์ด์ ๋ ์ค๊ฐํ์ต ๋จ๊ณ์์ ์ธ๊ฐ ์์ฐ์ 100๊ฐ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ก๋ด์ ๋ฑ ํ ๋ฒ๋ง ์ง์ ๊ฒฝํํ๊ณ , ๋๋จธ์ง๋ ์ธ๊ฐ์ด ๊ฐ์ ๋งฅ๋ฝ์์ ์ํํ๋ ๊ฑธ ๋ณด๊ณ ํ์ตํ๋ค. ์ธ๊ฐ ๊ต์ฌ์๊ฒ ์๋ฒ์ 99๋ฒ ๋ณด๊ณ ๋ณธ์ธ์ด ํ ๋ฒ ํด๋ณด๋ ํ์๊ณผ ๊ฐ๋ค.
์ค์ผ์ผ๋ง ๋ฒ์น: ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ๋ฐ๊ฒฌ
๋ก๊ทธ-์ ํ ๊ด๊ณ์ ๋ฐ๊ฒฌ
EgoScale ํ์ ๋ฐ์ดํฐ๋ฅผ 1k, 2k, 4k, 10k, 20k ์๊ฐ์ผ๋ก ๋๋ ค๊ฐ๋ฉฐ validation loss๋ฅผ ์ธก์ ํ๋ค. ๊ฒฐ๊ณผ๋ ๋๋๋๋ก ๊น๋ํ๋ค:
\mathcal{L}_\text{val} = a \cdot \log(D) + b
์ฌ๊ธฐ์ D๋ ํ์ต ๋ฐ์ดํฐ ์๊ฐ, a์ b๋ ์์. ๋ ผ๋ฌธ์์ ๋ณด๊ณ ํ ๊ฒฐ์ ๊ณ์๋ R^2 = 0.9983 โ ๊ฑฐ์ ์๋ฒฝํ ๋ก๊ทธ-์ ํ ๊ด๊ณ๋ค.
xychart-beta
title "์ค์ผ์ผ๋ง ๋ฒ์น: ๋ฐ์ดํฐ ๊ท๋ชจ vs. Validation Loss (๊ฐ๋
์ ํํ)"
x-axis ["1k hrs", "2k hrs", "4k hrs", "10k hrs", "20k hrs"]
y-axis "Validation Loss" 0.5 --> 2.5
line [2.3, 1.9, 1.6, 1.2, 1.0]
์ ์ด๊ฒ์ด ์ค์ํ๊ฐ?
์ค์ผ์ผ๋ง ๋ฒ์น์ด ์กด์ฌํ๋ค๋ ๊ฒ์ ์์ธก ๊ฐ๋ฅ์ฑ์ ์๋ฏธํ๋ค. LLM ์ปค๋ฎค๋ํฐ๋ Chinchilla ๋ฒ์น ๋๋ถ์ โ์ด๋งํผ ์ปดํจํ ์ ์ฐ๋ฉด ์ด๋งํผ ์ฑ๋ฅ์ด ๋์จ๋คโ๋ฅผ ๋ฏธ๋ฆฌ ๊ณ์ฐํ ์ ์๊ฒ ๋๋ค. EgoScale์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ฒ์์ผ๋ก ์ด๋ฐ ์์ธก ๊ฐ๋ฅํ ์ค์ผ์ผ๋ง ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ ์ค์ํ ๊ฒ์ validation loss๊ฐ ์ค์ ๋ก๋ด ์ฑ๋ฅ๊ณผ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค๋ ์ ์ด๋ค. ์๋ฎฌ๋ ์ด์ proxy ๋ฉํธ๋ฆญ์ด ์๋๋ผ ์ค๋ฌผ ๋ก๋ด ์คํ์์์ ํ์คํฌ ์๋ฃ์จ์ด๋ค. ์ฆ, loss๋ฅผ ๋ฎ์ถ๋ ๊ฒ์ด ๊ณง ๋ก๋ด์ด ๋ ์ํ๋ ๊ฒ๊ณผ ์ง๊ฒฐ๋๋ค๋ ์๋ฏธ๋ค.
์ด ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ ๋ชจ์์๋ก ์ฑ๋ฅ์ด ๋ ์ข์์ง์ ๋ณด์ฅํ๋ฉฐ, ์์ง ํฌํ(saturation) ์กฐ์ง์ด ์๋ค. 100k ์๊ฐ, 1M ์๊ฐ์ผ๋ก ๊ฐ๋ฉด ์ด๋ป๊ฒ ๋ ๊น? ๋ ผ๋ฌธ ์ ์๋ค๋ ์ด ์ง๋ฌธ์ ์ด๋ฆฐ ๊ณผ์ ๋ก ๋จ๊ฒจ๋๊ณ ์๋ค.
์คํ: ๋ฌด์์ ์ด๋ป๊ฒ ํ ์คํธํ๋๊ฐ
์คํ ์ค์
๋ก๋ด ํ๋ซํผ: Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ 22-DoF 5์ง Dexterous Hand ์ฅ์ฐฉ (์ผ๋ถ ์คํ์ ๋ค๋ฅธ ์ ์ค๊ณ๋ฅผ ๊ฐ์ง ๋ก๋ด๋ ์ฌ์ฉ)
ํ๊ฐ ํ์คํฌ โ 5๊ฐ์ง ๊ณ ๋์ด๋ dexterous ์กฐ์:
| ํ์คํฌ | ์ค๋ช | ๋์ด๋ ํฌ์ธํธ |
|---|---|---|
| Shirt Rolling | ํฐ์ ์ธ ๋ฅผ ์ํตํ์ผ๋ก ๋ง์ ๋ฐ๊ตฌ๋์ ๋ฃ๊ธฐ | ์์ ํ์, ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด |
| Tong | ์ง๊ฒ๋ก ๋ฌผ๊ฑด ์ง๊ธฐ | ๋๊ตฌ ์ฌ์ฉ, ์ ๋ฐ ํ์ง |
| Card Sorting | ์นด๋ ๋ถ๋ฅ | ์์ ๋ฌผ์ฒด, ์ ๋ฐ ์กฐ์ |
| Bottle | ๋ณ๋๊ป ๋๋ ค ์ด๊ธฐ/๋ซ๊ธฐ | ๋์ฌํ ์ด๋, ํ ์ ์ด |
| Syringe | ์ฃผ์ฌ๊ธฐ ์กฐ์ | ๊ทน๋์ ์ ๋ฐ์ฑ ์๊ตฌ |
์ฃผ์ ๊ฒฐ๊ณผ 1: ์ฌ์ ํ์ต์ ํจ๊ณผ
๊ฐ์ฅ ํต์ฌ์ ์ธ ablation์ ์ฌ์ ํ์ต ์ ๋ฌด์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต๋ค:
xychart-beta
title "ํ์ต ๊ตฌ์ฑ๋ณ ์ฑ๋ฅ (ํ๊ท ํ์คํฌ ์๋ฃ ์ ์)"
x-axis ["No Pretrain", "Midtrain Only", "Human Pretrain", "Human Pretrain\n+ Midtrain"]
y-axis "Task Completion Score (%)" 0 --> 100
bar [20, 32, 51, 74]
ํต์ฌ ์์น: Human Pretrain + Midtrain ์กฐํฉ์ ์ฌ์ ํ์ต ์๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํ๊ท ์ฑ๊ณต๋ฅ 54% ํฅ์์ ๋ฌ์ฑํ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ 2: ์ค์ผ์ผ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์
1k~20k ์๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ฆด์๋ก ๋ค์ด์คํธ๋ฆผ ๋ก๋ด ์ฑ๋ฅ์ด ๋จ์กฐ ์ฆ๊ฐํ๋ค. ์์ ๋ฐ์ดํฐ์ (1k ์๊ฐ)์์๋ ๊ณผ์ ํฉ(overfitting) ์กฐ์ง์ด ๋ณด์ด์ง๋ง, ๋ ํฐ ๋ฐ์ดํฐ์ ์์๋ ์์ ์ ์ด๊ณ ๋จ์กฐ๋ก์ด ์ฑ๋ฅ ํฅ์์ด ๊ด์ฐฐ๋๋ค.
์ด๊ฒ์ด ์ ์ค์ํ๋๋ฉด, ๊ธฐ์กด์๋ โ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ ๋ง์ด ์จ๋ ์ด๋ ์ด์์ ๋์์ด ์ ๋๋คโ๋ ์ฐ๋ ค๊ฐ ์์๊ธฐ ๋๋ฌธ์ด๋ค. EgoScale์ ํ์๋ ๋ฒ์(20k ์๊ฐ) ๋ด์์๋ ํฌํ๊ฐ ์์์ ๋ณด์ฌ์ค๋ค.
์ฃผ์ ๊ฒฐ๊ณผ 3: ์ก์ ํํ ๋น๊ต
| ์ก์ ํํ | ํ๊ท ์ ์ | ๋น๊ณ |
|---|---|---|
| Wrist-only | ๋ฎ์ | ์๊ฐ๋ฝ ์ ๋ณด ์์ |
| Fingertip SE(3) | ์ค๊ฐ | EgoVLA ๋ฐฉ์ |
| 22-DoF Joint (EgoScale) | ๊ฐ์ฅ ๋์ | ๊ธฐ๋ณธ ์ค์ |
22-DoF ๊ด์ ํํ์ ์ฐ์๋ dexterous manipulation์์ ์๊ฐ๋ฝ ์์ค์ ์ธ๋ฐํ ์ ์ด ์ ๋ณด๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
์ฃผ์ ๊ฒฐ๊ณผ 4: ์ฒดํ ์ ์ด (Cross-Embodiment Transfer)
ํฅ๋ฏธ๋ก์ด ์คํ ์ค ํ๋๋ ๋์ผํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋ค๋ฅธ ์ ์ค๊ณ๋ฅผ ๊ฐ์ง ๋ก๋ด์ ์ ์ดํ๋ ๊ฒ์ด๋ค.
G1 ์ด์ธ์ ๋ฎ์ ์์ ๋ ์์ ๊ฐ์ง ๋ก๋ด์๋ ์ค๊ฐํ์ต๋ง ์ถ๊ฐํ๋ฉด ์ ์ฌํ ์ฑ๋ฅ ํฅ์์ด ๊ด์ฐฐ๋๋ค. ์ด๋ ์ฌ์ ํ์ต์ด โ22-DoF ์์๋ง ๋ง๋ ํํโ์ด ์๋๋ผ ์กฐ์์ ๋ณดํธ์ ๊ตฌ์กฐ๋ฅผ ํ์ตํ์์ ์์ฌํ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ 5: ์์ท ์ ์ด
์ค๊ฐํ์ต ํ ํ์ฒ๋ฆฌ ํ์ต ๋จ๊ณ์์ ํ์คํฌ๋น ๋ก๋ด ์์ฐ 1๊ฐ๋ง ์ ๊ณตํ์ ๋์ ๊ฒฐ๊ณผ:
- ๊ธฐ์กด ๋ฐฉ๋ฒ(์ฌ์ ํ์ต ์์): 1๊ฐ ์์ฐ์ผ๋ก๋ ๊ฑฐ์ ์๋ํ์ง ์์
- EgoScale: ์๋ฏธ์๋ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
์ง๊ด์ ์ผ๋ก, ๋ชจ๋ธ์ ์ธ๊ฐ ์์ฐ 100๊ฐ์์ โ์ด ๋งฅ๋ฝ์์ ์์ ์ด๋ป๊ฒ ์ฐ๋์งโ๋ฅผ ์ด๋ฏธ ํ์ตํ๊ณ , ๋ก๋ด ์์ฐ 1๊ฐ๋ โ๊ฐ์ ์๋ฆฌ๋ฅผ ๋ด ๋ชธ์ผ๋ก ์ด๋ป๊ฒ ์คํํ๋์งโ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐ ์ถฉ๋ถํ๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ , ์ฝ์ , ๊ทธ๋ฆฌ๊ณ ์ด๋ฆฐ ์ง๋ฌธ๋ค
๊ฐ์
1. ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์๋ก์ด ํจ๋ฌ๋ค์
๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋ณ๋ชฉ์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ์ฐํํ๋ค๋ ์์ด๋์ด ์์ฒด๊ฐ ์ค์ฉ์ ์ด๊ณ ์ค์ผ์ผ๋ฌ๋ธํ๋ค. Apple Vision Pro๋ Meta Aria Glass ๊ฐ์ ์จ์ด๋ฌ๋ธ ์ผ์์ ๋ณด๊ธ์ ์ด ๋ฐฉํฅ์ ์ ์ฌ๋ ฅ์ ๋ ๋์ฌ์ค๋ค.
2. ๊ฒ์ฆ๋ ์ค์ผ์ผ๋ง ๋ฒ์น (R^2 = 0.9983)
๋จ์ํ โ๋ง์ผ๋ฉด ์ข๋คโ๊ฐ ์๋๋ผ ์ ๋์ ์ผ๋ก ์์ธก ๊ฐ๋ฅํ ์ค์ผ์ผ๋ง์ ๋ณด์ธ๋ค๋ ๊ฒ์ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ํฌ์์ ๋ชจ๋์๊ฒ ์ค์ํ ์ ํธ๋ค.
3. ์์ท ์ ์์ ์ค์ฉ์ฑ
์๋ก์ด ํ์คํฌ์ ๋ก๋ด ์์ฐ 1๊ฐ๋ง์ผ๋ก ์ ์ํ ์ ์๋ค๋ฉด, ํ์ฅ ๋ฐฐํฌ ๋น์ฉ์ด ๊ทน์ ์ผ๋ก ๋ฎ์์ง๋ค. ์ด๋ ๋จ์ํ ์ฑ๋ฅ ์งํ๋ฅผ ๋์ด ์ค์ฉ์ ๊ฐ์น๊ฐ ๋งค์ฐ ๋๋ค.
4. ์ฒดํ ๋ถ๊ฐ์ง๋ก ์ ํํ
22-DoF ์์ Unitree G1๊ณผ ๋ค๋ฅธ ์ค๊ณ์ ๋ก๋ด ๋ชจ๋์์ ์๋ํ๋ค๋ ๊ฒ์ ํ๋์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ฌ๋ฌ ํ๋์จ์ด์ ์ฌ์ฌ์ฉํ ์ ์์์ ์๋ฏธํ๋ค.
์ฝ์ ๋ฐ ํ๊ณ
1. ์ค๊ฐํ์ต ๋ฐ์ดํฐ ์์ง ๋น์ฉ
์ค๊ฐํ์ต์ ํ์ํ โ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ํ์ด ๋ฐ์ดํฐโ ์์ง์ ์ฌ์ ํ ๋ก๋ด์ด ํ์ํ๋ค. ์์ ํ ๋ก๋ด ์์ด ํ์ตํ๋ ๊ฒ์ ์๋๋ค. ์ค๊ฐํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ์ ํ์ง์ด ์ต์ข
์ฑ๋ฅ์ ์ผ๋ง๋ ๋ฏผ๊ฐํ์ง ๋ ์ธ๋ฐํ ๋ถ์์ด ํ์ํ๋ค.
2. ์๋ชฉ ์ค์ฌ ํํ์ ํ๊ณ
์๊ณ ์ผํธ๋ฆญ ๋น๋์ค์์ ์ ๊ด์ ์ ์ ํํ๊ฒ ์ถ์ ํ๋ ๊ฒ ์์ฒด๊ฐ ์ด๋ ต๋ค. ํนํ ์์ด ๊ฐ๋ ค์ง๊ฑฐ๋ ๋น ๋ฅด๊ฒ ์์ง์ผ ๋ ๋
ธ์ด์ฆ๊ฐ ์ฌํ๋ค. ํ์ต ๋ฐ์ดํฐ์ ์ก์
๋ ์ด๋ธ ํ์ง์ด ๊ฒฐ๊ณผ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋ ๊น์ ๋ถ์์ด ํ์ํ๋ค.
3. ์ด๊ฐ(Tactile) ์ ๋ณด์ ๋ถ์ฌ
์ฌ์ธํ ์กฐ์ โ ์์ปจ๋ ๋ฌ๊ฑ์ ๊นจ์ง ์๊ณ ์ง๊ฑฐ๋, ์์ ์นด๋๋ฅผ ์ง์ ๋ โ ์๋ ์ด๊ฐ ํผ๋๋ฐฑ์ด ๊ฒฐ์ ์ ์ด๋ค. ์๊ณ ์ผํธ๋ฆญ ๋น๋์ค๋ ๋ณธ์ง์ ์ผ๋ก ์๊ฐ ์ ๋ณด๋ง ์ ๊ณตํ๋ฏ๋ก, ์ด ํ๊ณ๋ ๊ตฌ์กฐ์ ์ด๋ค.
4. ์์(bimanual) ์กฐ์์ ํ์ฅ์ฑ ๋ฏธํ์ธ
Shirt Rolling ํ์คํฌ๊ฐ ์์์ ์ฌ์ฉํ๊ธด ํ์ง๋ง, ๋ ๋ณต์กํ ์์ ํ์์ด ํ์ํ ํ์คํฌ(์: ๋๊ป์ ํ ์์ผ๋ก ์ก๊ณ ๋ค๋ฅธ ์์ผ๋ก ๋นํ๊ธฐ)์์์ ์ฑ๋ฅ์ ์์ง ์ถฉ๋ถํ ๊ฒ์ฆ๋์ง ์์๋ค.
5. ์ฅ๊ธฐ ๊ณํ(Long-horizon Planning)์ ํ๊ณ ์ธ์
์ ์๋ค ์ค์ค๋ก ์ธ์ ํ๋ฏ, ์์ญ ๋จ๊ณ์ ๊ฑธ์น ์ฅ๊ธฐ ์กฐ์ ๊ณํ์ ์ฌ์ ํ ์ด๋ฆฐ ๋์ ๊ณผ์ ๋ค. ํ์ฌ ๊ฒฐ๊ณผ๋ ์ฃผ๋ก ๋จ์ผ ๋๋ ์์ ๋จ๊ณ ํ์คํฌ์ ์ง์ค๋์ด ์๋ค.
6. ๋ฐ์ดํฐ ๋ค์์ฑ vs. ๋ฐ์ดํฐ ํ์ง ํธ๋ ์ด๋์คํ
๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ ํตํฉํ๋ฉด ๋ค์์ฑ์ ๋์์ง์ง๋ง, ๊ฐ ๋ฐ์ดํฐ ์์ค์ ํ์ง๊ณผ ๋ ์ด๋ธ ๋
ธ์ด์ฆ๋ฅผ ์ ์ดํ๊ธฐ ์ด๋ ต๋ค. ๋ฐ์ดํฐ ํ๋ ์ด์
์ ๋ต์ ๋ํ ๋ ์ฒด๊ณ์ ์ธ ๋ถ์์ด ํ์ํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
์ธ๊ฐ-๋ก๋ด ์ ์ด ์ฐ๊ตฌ ๊ณ๋ณด
timeline
title ์ธ๊ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ก๋ด ํ์ต ์ฐ๊ตฌ ํ๋ฆ
section ๊ธฐ์ด ์ฐ๊ตฌ
2022 : Ego4D (Facebook/Meta)
: ์๊ณ ์ผํธ๋ฆญ ๋น๋์ค ๋๊ท๋ชจ ์์ง
: ์ ํฌ์ฆ ๋ ์ด๋ธ ์์
section ์ ์ถ์ + ๋ก๋ด
2023-2024 : R3M, VIP
: ์ธ๊ฐ ์์ ํํ ํ์ต
: ์๋ชฉ/๊ทธ๋ฆฌํผ ์ค์ฌ
section Dexterous๋ก ํ์ฅ
2025 : EgoDex (Apple Vision Pro)
: 829์๊ฐ, 194 ํ์คํฌ
: 22-DoF ์ ์ถ์
2025 : EgoVLA
: ์ธ๊ฐ VLA, IK+retargeting
: ์๊ท๋ชจ ๋ฐ์ดํฐ
section ๋๊ท๋ชจ ์ค์ผ์ผ๋ง
2026 : EgoScale (NVIDIA)
: 20,854์๊ฐ
: ์ค์ผ์ผ๋ง ๋ฒ์น ๋ฐ๊ฒฌ
: ์์ท ์ ์
์ฃผ์ ๊ฒฝ์ ์ฐ๊ตฌ์์ ์ ๋ ๋น๊ต
| ๋ฐฉ๋ฒ | ๋ฐ์ดํฐ ๊ท๋ชจ | DoF | ์ค์ผ์ผ๋ง ๋ฒ์น | ์์ท | ํฌ๋ก์ค ์ฒดํ |
|---|---|---|---|---|---|
| EgoVLA | ~์๋ฐฑ ์๊ฐ | 6 DoF + fingertip | โ | โ | ์ ํ์ |
| EgoDex | 829์๊ฐ | 22 DoF | ์ผ๋ถ | โ | โ |
| In-N-On | ~1M ์ํผ์๋ | ๊ฐ๋ณ | โ | โ | ์ผ๋ถ |
| EgoScale | 20,854์๊ฐ | 22 DoF | โ (Rยฒ=0.9983) | โ | โ |
ฯโ (pi-zero)์์ ๊ด๊ณ
EgoScale์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ Physical Intelligence์ ฯโ์์ ์๊ฐ์ ๋ฐ์๋ค. ฯโ๊ฐ ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ผ๋ฐํ๋ฅผ ์ถ๊ตฌํ๋ค๋ฉด, EgoScale์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ ์ค์ผ์ผ๋ง ์์ค๋ก ์ผ๋ ๋ณด์์ ์ ๊ทผ์ด๋ค. ๋ ๋ฐฉํฅ์ ์๋ก ๊ฒฝ์์ด ์๋ ์ํธ ๋ณด์์ ์ด๋ฉฐ, ๋ฏธ๋์๋ ์ธ๊ฐ ๋ฐ์ดํฐ + ๋ก๋ด ๋ฐ์ดํฐ์ ํผํฉ ํ์ต์ด ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ฐฉํฅ์ด ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
GR00T N1๊ณผ์ ๊ด๊ณ
NVIDIA์ ๋ ๋ค๋ฅธ ํ๋ก์ ํธ GR00T N1์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ํ ๋ฒ์ฉ VLA๋ค. EgoScale์ GR00T ์๋ฆฌ์ฆ์ ์ํธ ๋ณด์์ ์ด๋ค โ GR00T๊ฐ ์ํคํ ์ฒ์ ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ ํตํฉ์ ์ง์คํ๋ค๋ฉด, EgoScale์ ์ธ๊ฐ ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง์ด๋ผ๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค. EgoScale์ ์ฌ์ ํ์ต ์ ๊ทผ์ด GR00T์ ๊ฐ์ ์์คํ ์ ์ฌ์ ํ์ต ๋จ๊ณ์ ํตํฉ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก : ์ด ๋ ผ๋ฌธ์ด ๋ก๋ด๊ณตํ๊ณ์ ๋งํ๋ ๊ฒ
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
์ค์ผ์ผ๋ง ๋ฒ์น ๋ฐ๊ฒฌ: ์ธ๊ฐ ์๊ณ ์ผํธ๋ฆญ ๋ฐ์ดํฐ์ dexterous manipulation ์ ์ฑ ํ์ต ์ฌ์ด์ log-linear ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์กด์ฌํจ์ ์ค์ฆ์ ์ผ๋ก ํ์ธ (R^2 = 0.9983)
ํจ๊ณผ์ ์ธ ์ ์ด ๋ ์ํผ: ๋๊ท๋ชจ ์ธ๊ฐ ์ฌ์ ํ์ต + ์๋ ์ ๋ ฌ ์ค๊ฐํ์ต์ ์กฐํฉ์ด ๋ก๋ด ์ฑ๋ฅ์ ํ๊ท 54% ํฅ์
์์ท ํ์คํฌ ์ ์: ์ค๊ฐํ์ต ํ ํ์คํฌ๋น ๋ก๋ด ์์ฐ 1๊ฐ๋ง์ผ๋ก ์๋ก์ด ์กฐ์ ํ์คํฌ ์ํ ๊ฐ๋ฅ
์ฒดํ ๋ถ๊ฐ์ง๋ก ์ ํํ: ํ์ต๋ motor prior๊ฐ ๋ค๋ฅธ ์ ์ค๊ณ๋ฅผ ๊ฐ์ง ๋ก๋ด์๋ ์ ์ด ๊ฐ๋ฅ
22-DoF ์ก์ ํํ์ ์ค์์ฑ: ์๋ชฉ๋ง์ด ์๋ ์๊ฐ๋ฝ ์์ค์ ๊ด์ ๊ณต๊ฐ ํํ์ด dexterous manipulation์ ๊ฒฐ์ ์
์ด ์ฐ๊ตฌ๊ฐ ์ด์ด๋๋ ๋ฏธ๋ ๋ฐฉํฅ
๋ฐ์ดํฐ ๊ด์ :
20k ์๊ฐ์์ ํฌํ๊ฐ ์๋ค๋ฉด, 100k ์๊ฐ, 1M ์๊ฐ์์๋ ์ด๋ป๊ฒ ๋ ๊น? YouTube๋ ๊ณต๊ณต์ฅ์์ ๋ณด์์นด๋ฉ๋ผ, ์ค๋งํธํฐ ์์๊น์ง ํ์ฉ ๊ฐ๋ฅํ๋ค๋ฉด ๋ฐ์ดํฐ๋ ์ฌ์ค์ ๋ฌดํํ๋ค. ์ด ๋ฐฉํฅ์ ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๋ ์น ์ค์ผ์ผ ๋น๋์ค์์์ ํ์ต์ด๋ค.
๋ชจ๋ธ ๊ด์ :
๋ฐ์ดํฐ ์ค์ผ์ผ๋ง์ด ์๋๋ผ ๋ชจ๋ธ ์ฉ๋ ์ค์ผ์ผ๋ง๊ณผ์ ์ํธ์์ฉ์ด ์์ง ๋ฏธ๊ฐ์ฒ ์์ญ์ด๋ค. ๋ ํฐ VLM ๋ฐฑ๋ณธ๊ณผ ๋ ๋ง์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋์์ ๋๋ฆฌ๋ฉด ์ด๋ค ์๋์ง๊ฐ ์๊ธฐ๋์ง ํ๊ตฌํ ์ฌ์ง๊ฐ ํฌ๋ค.
์ด๊ฐ ํตํฉ:
์๊ฐ ๊ธฐ๋ฐ ํ์ต์ ํ๊ณ๋ฅผ ๋์ผ๋ ค๋ฉด ์จ์ด๋ฌ๋ธ ์ด๊ฐ ์ผ์๋ก ์์งํ ๋ฉํฐ๋ชจ๋ฌ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ์ด ๋ฐฉํฅ์ ๊ธฐ์ ์ ์ผ๋ก ๋ ์ด๋ ต์ง๋ง, ์ ๋ฐ ์กฐ์์์ ์ง์ ๋์ฝ์ ๊ฐ์ ธ์ฌ ์ ์๋ค.
์์ ๋ณต์ก ์กฐ์:
์ธ๊ฐ์ ์์ ํ์ ๋ฅ๋ ฅ์ ๋จ์ ํ์ง๋ฅผ ํจ์ฌ ๋์ด์ ๋ค. ์๋ฆฌ, ์๋ฆฌ, ์ ์กฐ ํ์ฅ์์์ ๋ณต์กํ ์์ ์กฐ์์ผ๋ก EgoScale์ ์ ๊ทผ์ ํ์ฅํ๋ ๊ฒ์ด ์ค์ํ ๊ณผ์ ๋ค.
๋ก๋ด๊ณตํ์์๊ฒ ์ฃผ๋ ์ค์ฉ์ ๋ฉ์์ง
๋ง์ฝ ์ฌ๋ฌ๋ถ์ด dexterous manipulation ์ฐ๊ตฌ๋ฅผ ํ๊ณ ์๋ค๋ฉด, EgoScale์ ๋ค์์ ์์ฌํ๋ค:
๋ฐ์ดํฐ ์ ๋ต์ ์ฌ๊ณ ํ๋ผ: ๋ก๋ด ํ ๋ ์คํผ๋ ์ด์ ์๋ง ์์กดํ๋ ๊ฒ์ ๊ทผ๋ณธ์ ์ธ ์ค์ผ์ผ ํ๊ณ๊ฐ ์๋ค. ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต์ ํ์ฉํ๋ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ ๊ณ ๋ คํ ๊ฐ์น๊ฐ ์๋ค.
์ ์ก์ ํํ์ ํฌ์ํ๋ผ: 22-DoF ๊ด์ ๊ณต๊ฐ์ด ์๋ชฉ/fingertip๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ๋ค. ๊ณ ์์ ๋ ์ ์ถ์ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ ์๊ฐ์ ํฌ์ํ ๊ฐ์น๊ฐ ์๋ค.
์ค์ผ์ผ๋ง ๊ด๊ณ๋ฅผ ๋จผ์ ํ์ธํ๋ผ: ์๋ก์ด ๋ฐ์ดํฐ ์์ค๋ ์ํคํ ์ฒ๋ฅผ ํ๊ฐํ ๋, validation loss์ ์ค์ ์ฑ๋ฅ์ ์๊ด๊ด๊ณ๋ฅผ ๋จผ์ ํ์ธํ๋ ๊ฒ์ด ์ฐ๊ตฌ ์์์ ํจ์จ์ ์ผ๋ก ์ฐ๋ ๋ฐฉ๋ฒ์ด๋ค.
Allegro Hand๋ ๋ค๋ฅธ ๊ณ ์์ ๋ ์ ํ๋ซํผ ์ฐ๊ตฌ์๋ผ๋ฉด: EgoScale ๋ฐฉ์์ ์ฌ์ ํ์ต์ด ์ฌ๋ฌ๋ถ์ ํ๋ซํผ์์๋ ์๋ํ๋์ง ํ๊ตฌํด๋ณผ ๊ฐ์น๊ฐ ์ถฉ๋ถํ๋ค. ํฌ๋ก์ค ์ฒดํ ์ ์ด ๊ฒฐ๊ณผ๋ ์ด ๊ฐ๋ฅ์ฑ์ ํฌ๋ง์ ์ธ ์ ํธ๋ฅผ ๋ณด๋ธ๋ค.
์ฐธ๊ณ ๋ฌธํ
- Zheng, R., Niu, D., Xie, Y., et al. (2026). EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data. arXiv:2602.16710. https://arxiv.org/abs/2602.16710
- Black, K., et al. (2024). ฯโ: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence.
- Hoque, R., et al. (2025). EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video. arXiv:2505.11709.
- Yang, Z., et al. (2025). EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos. arXiv:2507.12440.
- Bjorck, J., et al. (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. NVIDIA.
- Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of Egocentric Video. CVPR 2022.
- OโNeill, J., et al. (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA 2024.
์ ๋ชฉ: EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
์ ์: Ruijie Zheng, Dantong Niu, Yuqi Xie*, Jing Wang, Mengda Xu, Yunfan Jiang, Fernando Castaรฑeda, Fengyuan Hu, You Liang Tan, Letian Fu, Trevor Darrell, Furong Huang, Yuke Zhuโ , Danfei Xuโ , Linxi Fanโ
์์: NVIDIA GEAR, UC Berkeley, University of Maryland
arXiv: 2602.16710
ํ๋ก์ ํธ ํ์ด์ง: https://research.nvidia.com/labs/gear/egoscale/
์ ์ถ์ผ: 2026๋
2์ 18์ผ