graph TD
A[์ผ๋ฐํ ๋ฒค์น๋งํฌ] --> B["Scene (์ฅ๋ฉด ์ ์ด)"]
A --> C["Object (๊ฐ์ฒด ์ ์ด)"]
A --> D["Task (ํ์คํฌ ์ ์ด)"]
B --> B1["Spice: ์ ์ฃผ๋ฐฉ์์ ์๋
์ ๋ฆฌ"]
B --> B2["Dresser: ์ ์นจ์ค์์ ์๋์ฅ ์ ๋ฆฌ"]
C --> C1["Bussing: ์๋ก์ด ์ฃผ๋ฐฉ ๋๊ตฌ๋ค ์น์ฐ๊ธฐ"]
D --> D1["Sort Eggs: ์๊น๋ณ๋ก ๋ฌ๊ฑ ๋ถ๋ฅํ๊ธฐ"]
๐Human2Robot VLA ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ์ด ์ฐ๊ตฌ๋ Vision-Language-Action (VLA) ๋ชจ๋ธ์์ ์ธ๊ฐ-๋ก๋ด ์คํฌ ์ ์ด๊ฐ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋ํ๋๋ emergent property์์ ๋ฐํ์ต๋๋ค.
- ์ด๋ฌํ ๋ฅ๋ ฅ์ ๋ค์ํ ์ฌ์ ํ๋ จ์ด ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํ embodiment-agnostic representation์ ํ์ฑํ์ฌ, ๋ช ์์ ์ธ ์ ๋ ฌ ์์ด๋ ์์ฐ์ค๋ฌ์ด ๋๋ฉ์ธ ์ ๋ ฌ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์ ์๋ ๊ฐ๋จํ co-training ๋ฐฉ์์ ํตํด, ์ธ๊ฐ ๋ฐ์ดํฐ์๋ง ์กด์ฌํ๋ ์๋ก์ด generalization ์๋๋ฆฌ์ค์์ VLA ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์์ ํ์ธํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ์ฐ๊ตฌ๋ Vision-Language-Action (VLA) ๋ชจ๋ธ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์ ์ฑ ์ผ๋ก ์ ์ดํ๋ ๋ฅ๋ ฅ(human-to-robot transfer)์ด ๋ชจ๋ธ์ pre-training scale๊ณผ ๋ค์์ฑ๊ณผ ํจ๊ป emergence ํ์์ผ๋ก ๋ํ๋จ์ ๋ฐํ๋๋ค. ๋ฐฉ๋ํ ์์ human video๋ ๋ค์ํ ์ค์ ์ํฉ์ ํฌํจํ๊ณ ์์ง์ด ์ฉ์ดํ์ง๋ง, ์ด๋ฅผ VLA ํ์ต์ ํตํฉํ๋ ๊ฒ์ ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ์ embodiment gap์ผ๋ก ์ธํด ์ด๋ ค์ด ์ฐ๊ตฌ ๊ณผ์ ์์ต๋๋ค. ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์์ ์๋์ ์ธ ์์ง๋์ด๋ง๊ณผ ๋ช ์์ ์ธ alignment ๊ธฐ๋ฒ์ ์์กดํ์ฌ ์ ์ด์ ์ผ๋ฐ์ฑ์ ์ ํํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ Large Language Models(LLMs)์์ ๋ค์ํ supervision์ ํ์ตํ๋ ๋ฅ๋ ฅ์ด scale๊ณผ ํจ๊ป emergeํ๋ ํ์์ ์๊ฐ์ ๋ฐ์, VLA์์๋ ์ ์ฌํ ํ์์ด ๋ฐ์ํ๋์ง ํ๊ตฌํฉ๋๋ค.
ํต์ฌ ๊ฐ์ค ๋ฐ ๋ฐฉ๋ฒ๋ก (Core Hypothesis and Methodology)
์ฐ๊ตฌ์ ํต์ฌ ๊ฐ์ค์ ์ธ๊ฐ-๋ก๋ด ์ ์ด๊ฐ ๋ค์ํ๊ณ ์ถฉ๋ถํ VLA pre-training์ ํตํด emergent property๋ก ๋ํ๋๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋ค์ํ pre-training์ด ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํด embodiment-agnostic representations(embodiment์ ๊ตฌ์ ๋ฐ์ง ์๋ ํํ)์ ํ์ฑํ๊ฒ ํ์ฌ, ์๊ฐ์ ๋ฐ ์ด๋ํ์ Domain Shift์๋ ๋ถ๊ตฌํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌ์ํจ๋ค๋ ๊ฐ๋ ์ ๊ธฐ๋ฐํฉ๋๋ค.
์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ simple co-training recipe์ธ ฯ0.5 + ego๋ฅผ ๋์
ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ human video๋ฅผ robot data์ ๋์ผํ objective๋ฅผ ๊ฐ์ง ์ถ๊ฐ์ ์ธ embodiment๋ก ๊ฐ์ฃผํ๋ฉฐ, ๋ช
์์ ์ธ alignment ๋จ๊ณ๋ฅผ ์ํํ์ง ์์ต๋๋ค.
- Model Architecture: ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ๊ฐ๋ ฅํ VLA ๋ชจ๋ธ์ธ
ฯ0.5๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.ฯ0.5๋ ํ๋(action)์ ์ด์ฐ์ ์ธ FAST [35] action tokens๊ณผ ์ฐ์์ ์ธ ๊ฐ [8]์ผ๋ก ๋ชจ๋ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค. ๋ํ, ์๊ฐ์ ๊ด์ฐฐ(o_t)๊ณผ ์์ ์์ค ์ธ์ด ๋ช ๋ น(l_t)์ ํตํด subtask string(l_{subtask_t})์ ์์ธกํ๋ subtask prediction objective๋ฅผ ํฌํจํ๋ฉฐ, ์ด ์์ธก๋ subtask๋ ํ๋ ์์ฑ(\pi_\theta(a_{t:t+H} | o_t, l_{subtask_t}))์ ์กฐ๊ฑดํํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. - Human Data Collection Pipeline:
- ๋ฐ์ดํฐ ์์ง ์ฅ์น: ์ฌ์ฉ์๋ ๋จธ๋ฆฌ ์ฅ์ฐฉ ์นด๋ฉ๋ผ๋ฅผ ์ฐฉ์ฉํ๋ฉฐ, ๋ก๋ด ํ์ ์๋ชฉ ์นด๋ฉ๋ผ๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ์๋ชฉ ์ฅ์ฐฉ ์นด๋ฉ๋ผ๋ฅผ ์คํํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ง ํ๋กํ ์ฝ: ๋ก๋ด teleoperation data์ ์ ์ฌํ๊ฒ, ์ํผ์๋ ๋ฐฉ์์ผ๋ก ๋ฐ๋ณต์ ์ธ ์์ฐ์ ์์งํ๋ฉฐ, ์ด์์๋ ์์ด ์นด๋ฉ๋ผ ์์ผ์ ์๋๋ก ์ง์๋ฐ์ต๋๋ค.
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ ์ฃผ์ (Processing & Annotation):
- Visual SLAM์ ์ฌ์ฉํ์ฌ ๋จธ๋ฆฌ ์ฅ์ฐฉ ์นด๋ฉ๋ผ์ 6D ์์ง์(e_t \in R^6)์ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- ๋ ์์ 17๊ฐ 3D keypoint(h_{e,t_t} \in R^{3 \times 17}) ์์น๋ฅผ ๋จธ๋ฆฌ ์นด๋ฉ๋ผ ํ๋ ์์์ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- ๊ฐ ํ์ ํ๋์ ์ค๋ช ํ๋ text-based subtask๋ก ์ฃผ์์ ๋ต๋๋ค.
- Action Space Alignment: ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ์ ์ก์
ํํ์ ๋๋ต์ ์ผ๋ก ์ ๋ ฌํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
- ๋ก๋ด ์ก์ : 6-DoF end-effector trajectory (left/right arm) + gripper, 2D base actions์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ด ์ก์ ์ฒญํฌ๋ a \in R^{H \times 16}์ ๋๋ค.
- ์ธ๊ฐ ์ก์ : ๊ฐ ์์ ์๋ฐ๋ฅ(palm), ๊ฐ์ด๋ฐ ์๊ฐ๋ฝ(middle finger), ์ฝ์๊ฐ๋ฝ(ring finger)์ 3D keypoint๋ฅผ ์ฌ์ฉํ์ฌ โend-effectorโ pose๋ฅผ ์ ์ํฉ๋๋ค. ๋ก๋ด๊ณผ ์ ์ฌํ๊ฒ ํ์ฌ 6-DoF ์ํ๋ก๋ถํฐ์ ์๋์ ๋ณํ์ผ๋ก end-effector actions์ ๊ณ์ฐํฉ๋๋ค. ๋ก๋ด base actions์ ์ธ๊ฐ ๋น๋์ค์ base camera poses๋ฅผ ์ฒญํฌ์ ์ฒซ ๋ฒ์งธ timestep base camera pose ํ๋ ์์ผ๋ก ํฌ์ํ์ฌ ๊ทผ์ฌํํฉ๋๋ค. ์ธ๊ฐ ๋น๋์ค์ ๋ํ gripper actions์ ๋ช ์์ ์ผ๋ก ๊ทผ์ฌํํ์ง ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ธ๊ฐ ์ก์ ์ 2๊ฐ์ ์(๊ฐ 6 DoF)๊ณผ 6 DoF์ base action ๊ทผ์ฌ์น๋ฅผ ํฌํจํ์ฌ ์ด 18์ฐจ์์ ๋๋ค.
- Training Objectives:
- Low-level action prediction: ์ฐ์์ ์ธ ์ก์ ์ ๋ํ flow-based prediction๊ณผ ์ด์ฐ์ ์ธ FAST ํ ํฐ์ ๋ํ next-token prediction์ ํตํด action chunk prediction์ ๊ฐ๋ ํฉ๋๋ค.
- High-level subtask prediction: Subtask language tokens์ ๋ํ next-token prediction์ ํ๋ จํฉ๋๋ค.
- ์ด ๋ objective๋ ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ ๋ชจ๋์ ๋์ผํ๊ฒ ์ ์ฉ๋ฉ๋๋ค.
- Fine-tuning Mixture: Fine-tuning ์, ๋ชจ๋ธ์ ์๋ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ human data๋ก๋ถํฐ ์๋ก์ด ๊ฐ๋ ์ ๋์ ํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ฐ๋ผ์, human data for generalization tasks์ nearest neighbor robot task๋ฅผ 50-50 ๋น์จ๋ก co-trainํฉ๋๋ค.
์คํ ๋ฐ ์ฃผ์ ๊ฒฐ๊ณผ (Experiments and Key Findings)
์ฐ๊ตฌ๋ ์๋ก์ด ์ฅ๋ฉด, ๊ฐ์ฒด, ๊ทธ๋ฆฌ๊ณ ์์
์ ํฌํจํ๋ 4๊ฐ์ง generalization ์๋๋ฆฌ์ค๋ก ๊ตฌ์ฑ๋ benchmark suite๋ฅผ ๊ตฌ์ถํ์ฌ ฯ0.5 + ego์ ํจ๊ณผ๋ฅผ ํ๊ฐํฉ๋๋ค.
- Human to robot transfer benchmark:
- Scene transfer: ๋ก๋ด ๋ฐ์ดํฐ์์ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ์ ํ์ ์ธ ๋ฏธ์ง์ ๊ณต๊ฐ(์: spice rack ์ ๋ฆฌ, ์ท์ฅ ์ ๋ฆฌ)์ ๋ํ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ํ
ฯ0.5 + ego๋ฅผ ๋ฒค์น๋งํนํฉ๋๋ค. - Object transfer: ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ๋ค๋ฃจ์ง ์๋ ์๋ก์ด ๊ฐ์ฒด(์: ์ฃผ๋ฐฉ ๋๊ตฌ)๋ฅผ ํฌํจํ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ bussing task์ ๋ํด ๋ฒค์น๋งํนํฉ๋๋ค.
- Task transfer: ๋ก๋ด ๋ฐ์ดํฐ์ ์๋ ์๋ก์ด ์์
(์: ๊ณ๋ ์๊น๋ณ ๋ถ๋ฅ)์ ๋ํ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ฒค์น๋งํนํฉ๋๋ค. ๋ชจ๋ ์๋๋ฆฌ์ค์์
ฯ0.5 + ego๋ ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จ๋ ์ ์ฑ ์ ๋นํด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์์ ๋ณด์์ต๋๋ค (์: Spice task 32% โ 71%, Egg sorting 57% โ 78%).
- Scene transfer: ๋ก๋ด ๋ฐ์ดํฐ์์ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ์ ํ์ ์ธ ๋ฏธ์ง์ ๊ณต๊ฐ(์: spice rack ์ ๋ฆฌ, ์ท์ฅ ์ ๋ฆฌ)์ ๋ํ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ํ
- Emergence of Transfer: ๊ฐ์ฅ ์ค์ํ ๋ฐ๊ฒฌ์ ์ธ๊ฐ-๋ก๋ด ์ ์ด๊ฐ VLA pre-training์ ๋ค์์ฑ(์ฅ๋ฉด, ์์
, embodiment)์ ๋ฐ๋ผ emergeํ๋ค๋ ๊ฒ์
๋๋ค.
- ๋ค์ํ pre-training ์์ค์์ ์ฑ๋ฅ ํ๊ฐ: 0%(๊ธฐ๋ณธ VLM ์ด๊ธฐํ), 25%, 50%, 75%, 100%(์ ์ ๋ ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ), 100% + X-emb(ฯ0.5์ ์ ์ฒด VLA pre-training mix)์ ์ด๊ธฐํ๋ก ์คํํฉ๋๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก, pre-training ๋ค์์ฑ์ด ์ ๊ฑฐ๋ ์์ ๋๋ human data co-training์ผ๋ก๋ถํฐ ์ด์ ์ ์ป์ง ๋ชปํ์ง๋ง(0%, 25%), 75%, 100%์ ๊ฐ์ด ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ค์ํ๊ฒ pre-training๋ VLA๋ human data co-training์ผ๋ก๋ถํฐ ์๋นํ ์ด๋์ ์ป์ต๋๋ค. ํนํ cross-embodiment ๋ฐ์ดํฐ ๋ฏน์ค๋ก pre-trainingํ ๋ ์ ์ด๊ฐ ๋์ฑ ํฅ์๋ฉ๋๋ค.
- Embodiment-agnostic representations: TSNE ๋ถ์์ ํตํด, pre-training ๋ค์์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ์ latent representation์ด ์ผ์นํ์ฌ(converge), ๋ชจ๋ธ์ด ๋ embodiment์ ๋ํ ํตํฉ๋ ํํ์ ๊ตฌ์ถํจ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ถฉ๋ถํ ๋ค์ํ pre-training์ด ๋ช ์์ ์ธ alignment ์์ด๋ alignment๋ ํํ์ ๊ฐ๋ฅํ๊ฒ ํจ์ ์์ฌํฉ๋๋ค.
- Comparison with other robot data:
- Sort Eggs์ Dresser task์ ๊ฒฝ์ฐ, human data๋ฅผ ์ฌ์ฉํ์ฌ fine-tuningํ ๊ฒฐ๊ณผ๋ target robot data๋ก fine-tuningํ ๊ฒ๊ณผ ๊ฑฐ์ ๋์ผํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Bussing task์ ๊ฒฝ์ฐ, target robot data๊ฐ human data๋ณด๋ค ๋ ํจ๊ณผ์ ์ด์์ง๋ง, human data ์ ์ด์ cross-embodiment robot ์ ์ด(๋ค๋ฅธ UR5 ๋ก๋ด ๋ฐ์ดํฐ์์ ARX ๋ก๋ด์ผ๋ก์ ์ ์ด)๋ ์ ์ฌํ ํน์ฑ์ ๋ณด์์ต๋๋ค. ์ด๋ human data๊ฐ ๋ก๋ด ๋ฏน์ค์์ ๋ ๋ค๋ฅธ robot embodiment๋ก ํ์ฉ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
- Level of Transfer: ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ high-level semantic concepts๋ฟ๋ง ์๋๋ผ low-level action prediction๋ ์ ์ดํ ์ ์์์ ํ์ธํ์ต๋๋ค. ๋ชจ๋ฐ์ผ task (Spice ๋ฐ Dresser)์์ high-level subtask prediction๊ณผ low-level action prediction์ ๊ณต๋์ผ๋ก co-trainํ ๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ์ ์ด๊ฐ ๋ฐ์ํ์ผ๋ฉฐ, ์ด๋ ๋ ์์ค ๋ชจ๋์์ ์ ์ด๊ฐ ์ผ์ด๋จ์ ๋ํ๋ ๋๋ค.
- Importance of Wrist Cameras: ์ธ๊ฐ ์ฐฉ์ฉ ์๋ชฉ ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ๋ฉด Bussing ๋ฐ Dresser์ ๊ฐ์ ํน์ task์์ ์ ์ด๊ฐ ํฅ์๋ฉ๋๋ค. ์ด๋ ์ผ๋ถ task๊ฐ ์๋ชฉ ์นด๋ฉ๋ผ์ ์ถ๊ฐ์ ์ธ ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ์ผ๋ก๋ถํฐ ์ด์ ์ ์ป๋๋ค๋ ์ง๊ด๊ณผ ์ผ์นํฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์ด ์ฐ๊ตฌ๋ human-to-robot transfer๊ฐ ์ถฉ๋ถํ ๋ค์ํ๊ฒ pre-training๋ VLA์์ ๋ฐ์ํ๋ emergent property์์ ๊ฐ๋ ฅํ๊ฒ ์์ฌํฉ๋๋ค. ์ด๋ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ๋ฏธ๋์ ๋ ๊ด๋ฒ์ํ๊ณ ๋ค์ํ ๋ฐ์ดํฐ ์์ค, ํนํ ํ๋ถํ human video ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ์ฌ ์๋ก์ด ๋ฅ๋ ฅ์ ์ป์ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ฐ๋ฆฌ๋ ์ ์ธ๊ฐ์ ์์์ ๋ก๋ด์๊ฒ ๋ณด์ฌ์ฃผ๋ ค ํ๋๊ฐ?
์, ์ฌ๊ธฐ ํฅ๋ฏธ๋ก์ด ์ง๋ฌธ์ด ์์ต๋๋ค. ์ด๋ฆฐ์์ด๊ฐ ๋ถ๋ชจ๊ฐ ์๋ฆฌํ๋ ๊ฒ์ ๋ณด๊ณ ์ค์ค๋ก ์๋ฆฌ๋ฅผ ๋ฐฐ์ธ ์ ์๋ค๋ฉด, ๋ก๋ด์ ์ ๊ทธ๋ ๊ฒ ํ ์ ์์๊น์?
๋ก๋ด ํ์ต ๋ถ์ผ์์ ๊ฐ์ฅ ๊ณจ์น ์ํ ๋ฌธ์ ์ค ํ๋๋ ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ์ ๋๋ค. ๋ก๋ด ์๊ฒฉ์กฐ์ข (teleoperation)์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ค๋ฉด ๊ฐ๋น์ผ ์ฅ๋น์ ์๋ จ๋ ์กฐ์ข ์ฌ๊ฐ ํ์ํ๊ณ , ๋ค์ํ ํ๊ฒฝ์์ ์์ฒ, ์๋ง ๊ฐ์ ์์ฐ์ ์์งํด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด ์ธ๊ฐ์ด ์ผ์์ ์ธ ์์ ์ ์ํํ๋ ์์์? ์ ํ๋ธ์๋ง ํด๋ ์์ญ์ต ์๊ฐ ๋ถ๋์ด ์์ฃ .
๊ทธ๋ฐ๋ฐ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ธ๊ฐ์ ์๊ณผ ๋ก๋ด์ ๊ทธ๋ฆฌํผ(gripper)๋ ์์ ํ ๋ค๋ฅด๊ฒ ์๊ฒผ์ต๋๋ค. ์ธ๊ฐ์ด ๋ณด๋ ์์ ๊ณผ ๋ก๋ด์ ์นด๋ฉ๋ผ ์์ ๋ ๋ค๋ฆ ๋๋ค. ๋ง์น ์ธ๊ตญ์ด๋ฅผ ๋ชจ๊ตญ์ด๋ก ๋ฒ์ญํ๋ ค๋๋ฐ, ๋ ์ธ์ด๊ฐ ์์ ํ ๋ค๋ฅธ ๋ฌธ์ ์ฒด๊ณ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๊ฐ์ฃ .
๋ณธ ๋ ผ๋ฌธ์ ์ด ๋ฌธ์ ์ ๋ํด ๋๋ผ์ด ๋ฐ๊ฒฌ์ ๋ณด๊ณ ํฉ๋๋ค: ์ถฉ๋ถํ ๋ค์ํ ์ฌ์ ํ์ต์ ๊ฑฐ์น VLA(Vision-Language-Action) ๋ชจ๋ธ์ ๋ณ๋์ ์ ๋ ฌ(alignment) ์์ด๋ ์ธ๊ฐ ์์์์ ๋ก๋ด ์ ์ฑ ์ผ๋ก์ ์ง์ ์ ์ด๊ฐ โ์ฐฝ๋ฐ(emerge)โํ๋ค๋ ๊ฒ์ ๋๋ค.
์ด๊ฒ์ ๋ง์น ์ถฉ๋ถํ ๋ง์ ์ธ์ด๋ฅผ ๋ฐฐ์ด ์ฌ๋์ด ์๋ก์ด ์ธ์ด๋ฅผ ์ ํ์ ๋ ๋ฌธ๋ฒ์ฑ ์์ด๋ ํจํด์ ์ฐพ์๋ผ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
ํต์ฌ ๊ธฐ์ฌ: ์ด ๋ ผ๋ฌธ์ด ๋งํ๊ณ ์ ํ๋ ๊ฒ
1. ํต์ฌ ๋ฐ๊ฒฌ (Key Finding)
โHuman-to-robot transfer is an emergent property of diverse VLA pretraining.โ
(์ธ๊ฐ-๋ก๋ด ์ ์ด๋ ๋ค์ํ VLA ์ฌ์ ํ์ต์ ์ฐฝ๋ฐ์ ์์ฑ์ด๋ค)
๋ ผ๋ฌธ์ ํต์ฌ ๋ฉ์์ง๋ฅผ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด ์ด๋ ์ต๋๋ค:
์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ(์ฅ๋ฉด, ํ์คํฌ, ๋ก๋ด ์ข ๋ฅ)์ด ์๊ณ์ ์ ๋์ผ๋ฉด, VLA ๋ชจ๋ธ์ ์ธ๊ฐ ์์๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ์ฌ์ด์ โembodiment-agnostic(์ ์ฒด ๋ถ๊ฐ์ง๋ก ์ )โ ํํ์ ์์ฐ์ค๋ฝ๊ฒ ํ์ตํ๊ฒ ๋๊ณ , ์ด๋ฅผ ํตํด ์ธ๊ฐ ์์์์ ๋ก๋ด์ผ๋ก์ ๊ธฐ์ ์ ์ด๊ฐ ๊ฐ๋ฅํด์ง๋ค.
2. ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ฌ
- ฯ0.5 + ego ๋ ์ํผ: ์ธ๊ฐ์ โ๋ ๋ค๋ฅธ ๋ก๋ด ์ข ๋ฅ(embodiment)โ๋ก ์ทจ๊ธํ์ฌ ๋์ผํ ํ์ต ๋ชฉํ๋ก ๊ณต๋ ํ์ต
- ๋ช ์์ ์ ๋ ฌ ๋ถํ์: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ํ์๋ก ํ๋ ์๋ ์ ๋ ฌ ๋จ๊ณ ์์ด ์ ์ด ๋ฌ์ฑ
- ๋ค์์ฑ-์ ์ด ์๊ด๊ด๊ณ ์ ์ฆ: ์ฌ์ ํ์ต ๋ค์์ฑ๊ณผ ์ ์ด ๋ฅ๋ ฅ ๊ฐ์ ๋ช ํํ ์ค์ผ์ผ๋ง ๊ด๊ณ ๊ท๋ช
3. ์คํ์ ๊ฒ์ฆ
- ์ฅ๋ฉด(Scene), ๊ฐ์ฒด(Object), ํ์คํฌ(Task) ์ผ๋ฐํ ๋ฒค์น๋งํฌ์์ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ ์ ์ฑ๋ฅ ์ฝ 2๋ฐฐ ํฅ์
- ์ ์ฌ ํํ(latent representation) ๋ถ์์ ํตํ ๋ฉ์ปค๋์ฆ ์ค๋ช
๊ธฐ์ ์ ๋ฐฐ๊ฒฝ: VLA ๋ชจ๋ธ์ด๋ ๋ฌด์์ธ๊ฐ?
๋ณธ๋ก ์ ๋ค์ด๊ฐ๊ธฐ ์ ์, VLA ๋ชจ๋ธ์ด ๋ฌด์์ธ์ง ์ง๊ด์ ์ผ๋ก ์ดํดํด ๋ด ์๋ค.
VLA์ ๊ธฐ๋ณธ ๊ตฌ์กฐ
VLA(Vision-Language-Action) ๋ชจ๋ธ์ ์ด๋ฆ ๊ทธ๋๋ก ์ธ ๊ฐ์ง๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค:
์๊ฐ(Vision) โ โโโโโโโโโโโโโโโโโโโ โ ํ๋(Action)
๊ด์ฐฐ ์ด๋ฏธ์ง โ VLA ๋ชจ๋ธ โ ๋ก๋ด ์ ์ด ๋ช
๋ น
โ (Transformer) โ
์ธ์ด(Language) โ โโโโโโโโโโโโโโโโโโโ
"์ปต์ ์ง์ด์
ํ
์ด๋ธ์ ๋"
์ํ์ ์ผ๋ก ํํํ๋ฉด:
\pi_\theta(a_{t:t+H} | o_t, l_t)
์ฌ๊ธฐ์:
- o_t: ์๊ฐ t์์์ ๊ด์ฐฐ(observation) - ์นด๋ฉ๋ผ ์ด๋ฏธ์ง
- l_t: ์ธ์ด ๋ช ๋ น(language command) - โ๋ฌ๊ฑ์ ์ง์ดโ
- a_{t:t+H}: ๋ฏธ๋ H ์คํ ๋์์ ํ๋ ์ฒญํฌ(action chunk)
- \theta: ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ
ฯ0.5 ๋ชจ๋ธ์ ํน์ง
๋ณธ ๋ ผ๋ฌธ์ Physical Intelligence์ ฯ0.5 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ฯ0.5์ ์ฃผ์ ํน์ง:
- ์ด์ค ํ๋ ํํ:
- FAST ํ ํฐ: ์ด์ฐ์ (discrete) ํ๋ ํ ํฐ์ผ๋ก ํํ, ๋ค์ ํ ํฐ ์์ธก์ผ๋ก ํ์ต
- Flow Matching: ์ฐ์์ (continuous) ํ๋์ ์์ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ๋ก ๋์ฝ๋ฉ
- ๊ณ์ธต์ ์ ์ฑ
๊ตฌ์กฐ:
- ๊ณ ์์ค(High-Level): ์๋ธํ์คํฌ ์์ธก p(l^{subtask}_t | o_t, l_t)
- ์ ์์ค(Low-Level): ํ๋ ์์ธก \pi_\theta(a_{t:t+H} | o_t, l^{subtask})
์ด ๊ตฌ์กฐ๋ Chain-of-Thought์ ์ ์ฌํ๊ฒ ์๋ํฉ๋๋ค. โ๋ฌ๊ฑ์ ์ ๋ฆฌํดโ๋ผ๋ ์์ ๋ช ๋ น์ ๋ฐ์ผ๋ฉด, ๋จผ์ โํฐ ๋ฌ๊ฑ์ ์ง์ดโ๋ผ๋ ์๋ธํ์คํฌ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ตฌ์ฒด์ ์ธ ํ๋์ ์ถ๋ ฅํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก : ฯ0.5 + ego ๋ ์ํผ ์์ธ ๋ถ์
1. ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ
ํ๋์จ์ด ๊ตฌ์ฑ
๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์์ง ์ฅ์น๋ ์์ธ๋ก ๋จ์ํฉ๋๋ค:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ์ฅ์น โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ โโโโโโโโโโโ โ
โ โ ๋จธ๋ฆฌ ์นด๋ฉ๋ผโ โ ๊ณ ํด์๋, ๋ฉ์ธ ๋ทฐ โ
โ โโโโโโฌโโโโโ โ
โ โ โ
โ โโโโโโดโโโโโ โ
โ โ ์ฌ๋ โ โ
โ โโโโโโฌโโโโโ โ
โ โโโโโโดโโโโโฌโโโโโโโโโ โ
โ โ โ โ โ
โ โโโโดโโโ โโโโดโโโ โ
โ โ์ผ์ โ โ์ค๋ฅธ์โ โ
โ โ์นด๋ฉ๋ผโ โ์นด๋ฉ๋ผโ โ ์๋ชฉ ์ฅ์ฐฉ, ๋๊ธฐํ โ
โ โโโโโโโ โโโโโโโ โ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์ ์๋ชฉ ์นด๋ฉ๋ผ๊ฐ ์ค์ํ๊ฐ?
๋ก๋ด ํ์ต์์ ์๋ชฉ ์นด๋ฉ๋ผ(wrist camera)๊ฐ ์ ์ฉํ ์ด์ ๋ ์๋์ดํํฐ์ ๋ฌผ์ฒด ๊ฐ์ ์ํธ์์ฉ์ ๋ ์์ธํ ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ์์๋ ์ด๋ฅผ ๋ชจ๋ฐฉํ์ฌ ์๋ชฉ์ ์นด๋ฉ๋ผ๋ฅผ ์ฅ์ฐฉํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ผ๋ถ ํ์คํฌ(Bussing, Dresser)์์๋ ์๋ชฉ ์นด๋ฉ๋ผ๊ฐ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๊ณ , ๋ค๋ฅธ ํ์คํฌ์์๋ ํฐ ์ฐจ์ด๊ฐ ์์์ต๋๋ค.
๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ณผ์
์์ ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ ๋ก๋ด ํ์ต์ ์ฌ์ฉํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๊ณผ์ :
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ ์์ ์์ โ โโโบ โ Visual SLAM โ โโโบ โ 6D ์นด๋ฉ๋ผ ๊ถค์ โ
โ โ โ โ โ e_t โ R^6 โ
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ 3D ํธ๋ โ โโโบ โ 17๊ฐ ํคํฌ์ธํธ โ
โ ํธ๋ํน โ โ per ์ โ
โ โ โ ฤฅ_t โ R^(3ร17)โ
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโ
โ ์๋ธํ์คํฌ โ โโโบ "ํฐ ๋ฌ๊ฑ์ ์ง์ด"
โ ์ธ์ด ์ฃผ์ โ "์ผ์ชฝ ์นดํค์ ๋"
โโโโโโโโโโโโโโโโ
2. ํ๋ ๊ณต๊ฐ ์ ์ (Action Space)
ํต์ฌ ์์ด๋์ด: ์ธ๊ฐ ์์ ํ๋์ ๋ก๋ด ์๋์ดํํฐ์ โ๋๋ต์ ์ผ๋กโ ์ ๋ ฌ
๋ก๋ด ํ๋ ํํ
๋ก๋ด์ ๊ฒฝ์ฐ, ํ๋ ์ฒญํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋ฉ๋๋ค:
a \in \mathbb{R}^{H \times 16}
- ์ผํ ์๋์ดํํฐ: 6 DoF + ๊ทธ๋ฆฌํผ 1 = 7
- ์ค๋ฅธํ ์๋์ดํํฐ: 6 DoF + ๊ทธ๋ฆฌํผ 1 = 7
- ๋ฒ ์ด์ค(์ด๋ ๋ก๋ด): 2์ฐจ์
์ธ๊ฐ ํ๋ ํํ
์ธ๊ฐ์ ๊ฒฝ์ฐ, ์์ 3D ํคํฌ์ธํธ์์ โ๊ฐ์์ ์๋์ดํํฐโ๋ฅผ ์ ์ํฉ๋๋ค:
์ ํคํฌ์ธํธ 17๊ฐ ์ค ์ ํ:
- ์๋ฐ๋ฅ(palm)
- ์ค์ง(middle finger)
- ์ฝ์ง(ring finger)
์ด 3์ ์ผ๋ก ์์ 6 DoF ํฌ์ฆ ์ถ์
a_{human} \in \mathbb{R}^{H \times 18}
- ์ผ์: 6 DoF (ํฌ์ฆ)
- ์ค๋ฅธ์: 6 DoF (ํฌ์ฆ)
- ๋จธ๋ฆฌ ์นด๋ฉ๋ผ ์ด๋: 6 DoF (๋ฒ ์ด์ค ๋์ฉ)
์ฃผ๋ชฉํ ์ : ๊ทธ๋ฆฌํผ ํ๋์ ์ธ๊ฐ ๋ฐ์ดํฐ์์ ๋ช ์์ ์ผ๋ก ์ถ์ ํ์ง ์์ต๋๋ค. ์์ โ์ด๋ฆผ/๋ซํโ ์ ๋๋ฅผ ์ ํํ ์ถ์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ๊ทธ๋ฆฌํผ ์ ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ์์๋ง ํ์ตํฉ๋๋ค.
3. ํ์ต ๋ชฉํ (Training Objectives)
ฯ0.5 + ego๋ ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ๋ชจ๋์ ๋ํด ๋์ผํ ํ์ต ๋ชฉํ๋ฅผ ์ ์ฉํฉ๋๋ค:
๊ณ ์์ค: ์๋ธํ์คํฌ ์์ธก
\mathcal{L}_{subtask} = -\log p_\theta(l^{subtask}_t | o_t, l_t)
๋ค์ ํ ํฐ ์์ธก(next token prediction)์ผ๋ก ํ์ต. ์๋ฅผ ๋ค์ด:
- ์ ๋ ฅ: ์ด๋ฏธ์ง + โํ ์ด๋ธ์ ์ ๋ฆฌํดโ
- ์ถ๋ ฅ: โ์ปต์ ์ง์ดโ
์ ์์ค: ํ๋ ์์ธก
1) FAST ํ ํฐ ์์ธก: \mathcal{L}_{FAST} = -\log p_\theta(a^{token}_{t:t+H} | o_t, l^{subtask}_t)
2) Flow Matching ์์ค:
Flow matching์ ์ฐ์์ ์ธ ํ๋์ ์์ฑํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๋๋ค. ์ง๊ด์ ์ผ๋ก ์ค๋ช ํ๋ฉด:
โ๋๋คํ ๋ ธ์ด์ฆ์์ ์์ํด์, ๋ชฉํ ํ๋์ผ๋ก ํ๋ฅด๋(flow) ๊ถค์ ์ ํ์ตํ๋คโ
\mathcal{L}_{flow} = \mathbb{E}_{t, \epsilon} \left[ \| v_\theta(a^{noisy}_t, t) - (a_{target} - a^{noisy}_t) \|^2 \right]
์ฌ๊ธฐ์ v_\theta๋ โ์๋์ฅ(velocity field)โ์ ์์ธกํ๋ ์์ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ์ ๋๋ค.
4. ํ์ต ํผํฉ ๋น์จ (Training Mixture)
ํ์ธํ๋ ์์ ๋ฐ์ดํฐ ํผํฉ ์ ๋ต:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ํ์ธํ๋ ๋ฐ์ดํฐ ๋ฏน์ค โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ โโโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโโ โ
โ โ ์ธ๊ฐ ๋ฐ์ดํฐ โ โ ๋ก๋ด ๋ฐ์ดํฐ โ โ
โ โ (์ผ๋ฐํ ํ์คํฌ) โ โ (๊ฐ์ฅ ์ ์ฌ ํ์คํฌ)โ โ
โ โ โ โ โ โ
โ โ 50% โ โ 50% โ โ
โ โโโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโโ โ
โ โ
โ ์์: โ
โ - ๋ฌ๊ฑ ์ ๋ ฌ(์ธ๊ฐ) โ ๋ฌ๊ฑ ๋๊ธฐ(๋ก๋ด) โ
โ - ์ ์ํํธ ์ ๋ฆฌ(์ธ๊ฐ) โ ๊ธฐ์กด ํ๊ฒฝ ์ ๋ฆฌ(๋ก๋ด) โ
โ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
ํต์ฌ ํฌ์ธํธ: ์ธ๊ฐ ๋ฐ์ดํฐ๋ ๋ก๋ด ๋ฐ์ดํฐ์ ์๋ โ์๋ก์ด ๊ฐ๋ โ(์๋ก์ด ์ฅ๋ฉด, ๊ฐ์ฒด, ํ์คํฌ ์๋ฏธ)์ ๋ด๊ณ ์๊ณ , ๋ก๋ด ๋ฐ์ดํฐ๋ ๊ธฐ๋ณธ์ ์ธ ์กฐ์ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
ํต์ฌ ์คํ: ๋ค์์ฑ์ด ์ ์ด๋ฅผ ๋ณ๋๋ค
์คํ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ
๋ ผ๋ฌธ์ ์ธ ๊ฐ์ง ์ผ๋ฐํ ์ถ์ ํ ์คํธํฉ๋๋ค:
| ํ์คํฌ | ๋ก๋ด ๋ฐ์ดํฐ | ์ธ๊ฐ ๋ฐ์ดํฐ | ํ ์คํธ |
|---|---|---|---|
| Spice | ์ฌ๋ฌ ์ง์์ ์๋ ์ ๋ฆฌ | ์๋ก์ด ์ฃผ๋ฐฉ | ์ ์ฃผ๋ฐฉ์์ ์ํ |
| Dresser | ์ฌ๋ฌ ์ง์์ ์๋์ฅ ์ ๋ฆฌ | ์๋ก์ด ์นจ์ค | ์ ์นจ์ค์์ ์ํ |
| Bussing | ์ฐ๋ ๊ธฐ, ์๊ธฐ ์น์ฐ๊ธฐ | ์๋ก์ด ์ฃผ๋ฐฉ ๋๊ตฌ๋ค | ์ ๊ฐ์ฒด๋ค ์น์ฐ๊ธฐ |
| Sort Eggs | ๋ฌ๊ฑ ์ง์ด์ ์นดํค์ ๋ฃ๊ธฐ | ์๊น๋ณ ๋ฌ๊ฑ ๋ถ๋ฅ | ์๊น๋ณ ๋ถ๋ฅ ์ํ |
ํต์ฌ ๊ฒฐ๊ณผ 1: ์ธ๊ฐ ๋ฐ์ดํฐ๋ ์ฑ๋ฅ์ ๊ฑฐ์ 2๋ฐฐ๋ก ํฅ์์ํจ๋ค
| ํ์คํฌ | Robot Only | Robot + Human | ํฅ์ |
|---|---|---|---|
| Spice | 32% | 71% | +39%p |
| Dresser | 25% | 50% | +25%p |
| Bussing | 53์ | 63์ | +10์ |
| Sort Eggs | 57% ์ ํ๋ | 78% ์ ํ๋ | +21%p |
Sort Eggs๊ฐ ํนํ ์ธ์์ ์ธ ์ด์ :
๋ก๋ด ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋ฌ๊ฑ์ โ์ง์ด์ ์นดํค์ ๋ฃ๋โ ๊ธฐ๋ณธ ์กฐ์์ ํ ์ ์์ง๋ง, โ์๊น๋ณ๋ก ๋ถ๋ฅโ๋ผ๋ ๊ฐ๋ ์์ฒด๊ฐ ์์ต๋๋ค. ๊ทธ๋์ ๊ทธ๋ฅ ๋ฌด์์๋ก ๋ฃ์ด์ 57% ์ ํ๋(๊ฑฐ์ ์ฐ์ฐ)๊ฐ ๋์ต๋๋ค.
ํ์ง๋ง ์ธ๊ฐ ์์์์ ์๊น๋ณ ๋ถ๋ฅ ํจํด์ โ๋ณด๊ณ โ ๋๋ฉด, ๋ก๋ด์ ์ด ์๋ก์ด ํ์คํฌ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ 78%์ ์ ํ๋๋ก ๋ถ๋ฅํ ์ ์๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ 2: ์ ์ด ๋ฅ๋ ฅ์ ์ฌ์ ํ์ต ๋ค์์ฑ๊ณผ ํจ๊ป โ์ฐฝ๋ฐโํ๋ค
์ด๊ฒ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ๋ฐ๊ฒฌ์ ๋๋ค.
์ฑ๋ฅ ํฅ์
(Human+Robot - Robot Only)
โฒ
โ โ
100% + X-emb
โ โ 100%
โ โ
โ โ 75%
โ โ
โ โ 50%
โ โ 25%
โ0%
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโบ ์ฌ์ ํ์ต ๋ค์์ฑ
์์ ์ ์ ๋ง์ ์ต๋
๊ด์ฐฐ 1: ์๊ณ์ ์กด์ฌ
- ์ฌ์ ํ์ต ๋ค์์ฑ์ด 0~25%์ผ ๋: ์ธ๊ฐ ๋ฐ์ดํฐ ์ถ๊ฐํด๋ ํจ๊ณผ ์์ (๋๋ก๋ ์คํ๋ ค ์ฑ๋ฅ ์ ํ)
- 50~75%๋ถํฐ: ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ์ง์ ์ผ๋ก ๋์
- 100% + Cross-embodiment: ๋ช ํํ ์ฑ๋ฅ ํฅ์
๊ด์ฐฐ 2: ๋ค์์ฑ์ ๊ตฌ์ฑ ์์
- Scene ๋ค์์ฑ: ๋ค์ํ ํ๊ฒฝ(์ง, ์ฃผ๋ฐฉ ๋ฑ)
- Task ๋ค์์ฑ: ๋ค์ํ ์กฐ์ ํ์คํฌ
- Embodiment ๋ค์์ฑ: ๋ค์ํ ๋ก๋ด ์ข ๋ฅ (ARX, UR5 ๋ฑ)
ํนํ Cross-embodiment ๋ฐ์ดํฐ(ํ๊ฒ ๋ก๋ด์ด ์๋ ๋ค๋ฅธ ๋ก๋ด๋ค์ ๋ฐ์ดํฐ)๊ฐ ์ถ๊ฐ๋์์ ๋ ์ ์ด ๋ฅ๋ ฅ์ด ๊ธ๊ฒฉํ ํฅ์๋๋ ๊ฒ์ด ํฅ๋ฏธ๋กญ์ต๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ 3: Embodiment-Agnostic ํํ์ ์ฐฝ๋ฐ
์ ๋ค์ํ ์ฌ์ ํ์ต์ด ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ ๊น์? ๋ ผ๋ฌธ์ t-SNE ๋ถ์์ ํตํด ๋ต์ ์ ์ํฉ๋๋ค.
์ฌ์ ํ์ต ์์ ๋ค์ํ ์ฌ์ ํ์ต
โโโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโโ
โ โ โ โ โ โ โ โ โ โ
โ โ โ โ โ โ โ โ โ โ
โ โ โโโโบ โ โ โ โ โ โ โ
โ โ โ โ โ โ โ โ โ โ
โ โ โ โ โ โ โ โ โ โ
โโโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโโ
โ ๋ก๋ด ๋ฐ์ดํฐ (๋ถ๋ฆฌ๋จ) โ ํตํฉ๋ ํํ ๊ณต๊ฐ
โ ์ธ๊ฐ ๋ฐ์ดํฐ (๋ถ๋ฆฌ๋จ)
ํด์:
- ์ฌ์ ํ์ต์ด ๋ถ์กฑํ๋ฉด: ๋ชจ๋ธ์ด ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์์ ํ ๋ค๋ฅธ ๋ถํฌ๋ก ์ทจ๊ธ
- ๋ค์ํ ์ฌ์ ํ์ต ํ: ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ๋์ผํ ํํ ๊ณต๊ฐ์ ๋งคํ
์ด๊ฒ์ ๋ง์น ๋ค์ํ ์ธ์ด๋ฅผ ๋ฐฐ์ด ์ฌ๋์ ๋์์ โ์๋ฏธโ์ โ์ธ์ดโ๊ฐ ๋ถ๋ฆฌ๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ถฉ๋ถํ ๋ง์ ๋ก๋ด ์ข ๋ฅ์ ํ๊ฒฝ์ ๊ฒฝํํ๋ฉด, ๋ชจ๋ธ์ โ์ด ํ๋์ ๋ฌด์์ ์๋ฏธํ๋๊ฐโ์ โ์ด ๋ชธ์ฒด๋ ์ด๋ป๊ฒ ์๊ฒผ๋๊ฐโ๋ฅผ ๋ถ๋ฆฌํด์ ์ดํดํ๊ฒ ๋ฉ๋๋ค.
์ธ๋ถ ๋ถ์: ์ด๋์ ์ ์ด๊ฐ ์ผ์ด๋๋๊ฐ?
๊ณ ์์ค vs ์ ์์ค ์ ์ด
๋ ผ๋ฌธ์ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ๊ณ ์์ค(์๋ธํ์คํฌ ์์ธก)๊ณผ ์ ์์ค(ํ๋ ์์ธก) ์ค ์ด๋์ ๋์์ด ๋๋์ง ๋ถ์ํ์ต๋๋ค.
| ๊ตฌ์ฑ | ์ฑ๋ฅ |
|---|---|
| Robot HL + Robot LL | ๊ธฐ์ค์ |
| Human HL + Robot LL | ๊ฐ์ ๋์ง๋ง ๋ถ์์ |
| Robot HL + Human LL | ๊ฐ์ ๋์ง๋ง ๋ถ์์ |
| Human HL + Human LL | ์ต๊ณ ์ฑ๋ฅ |
๋ฐ๊ฒฌ: ์ ์ด๋ ์์ชฝ ์์ค ๋ชจ๋์์ ์ผ์ด๋ฉ๋๋ค.
๊ณ ์์ค๋ง ์ธ๊ฐ ๋ฐ์ดํฐ ์ฌ์ฉ ์ ๋ฌธ์ ์ :
- โ์๋ ๋ณ์ ์ง์ดโ๋ผ๊ณ ์์ธกํ๋๋ฐ, ์ ์์ค ์ ์ฑ ์ด ์ด๋ฏธ ํธ๋ ์ด์ ์๋ ๋ณ์ ์ง์ผ๋ ค ํจ
์ ์์ค๋ง ์ธ๊ฐ ๋ฐ์ดํฐ ์ฌ์ฉ ์ ๋ฌธ์ ์ :
- ๊ณ ์์ค ์ ์ฑ ์ด โ์๋ ๋ณ์ ์ง์ดโ๋ฅผ ๊ณ์ ๋ฐ๋ณต ์ถ๋ ฅ (๋ณ์ ์ด๋ฏธ ์ง์๋๋ฐ๋)
์ด๊ฒ์ ฯ0.5์ ๊ณ์ธต์ ๊ตฌ์กฐ๊ฐ ์๋ธํ์คํฌ์ โ์๋ฏธโ์ ๊ทธ์ ํด๋นํ๋ โํ๋โ ๋ชจ๋๊ฐ ์ ๋ ฌ๋์ด์ผ ํจ์ ๋ณด์ฌ์ค๋๋ค.
์ธ๊ฐ ๋ฐ์ดํฐ vs ๋ค๋ฅธ ๋ก๋ด ๋ฐ์ดํฐ
์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ํจ๊ณผ์ ์ธ์ง ๋น๊ตํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์ โํ๊ฒ ๋ก๋ด ๋ฐ์ดํฐโ์ โ๋ค๋ฅธ ๋ก๋ด(UR5) ๋ฐ์ดํฐโ์ ๋น๊ตํ์ต๋๋ค.
| ๋ฐ์ดํฐ ์์ค | Bussing ์ฑ๋ฅ |
|---|---|
| ๊ธฐ์ค์ (Robot Only) | ๋ฎ์ |
| + UR5 ๋ก๋ด ๋ฐ์ดํฐ | ์ค๊ฐ |
| + ์ธ๊ฐ ๋ฐ์ดํฐ | ์ค๊ฐ |
| + ํ๊ฒ ๋ก๋ด ๋ฐ์ดํฐ | ๋์ |
ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ:
- ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ๋ก๋ด(UR5) ๋ฐ์ดํฐ์ ํจ๊ณผ๊ฐ ๋น์ท
- ๋ ๋ค ํ๊ฒ ๋ก๋ด ๋ฐ์ดํฐ๋ณด๋ค๋ ๋ชปํจ
- ํ์ง๋ง ๋ ๋ค ํ์คํ ๊ธฐ์ค์ ๋ณด๋ค ๋์
์ด๊ฒ์ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ cross-embodiment ์ ์ด์ ์ผ์ข ์ผ๋ก ์๋ํจ์ ์์ฌํฉ๋๋ค. ์ธ๊ฐ์ โ๋งค์ฐ ๋ค๋ฅธ ๋ก๋ดโ์ผ๋ก ๋ณผ ์ ์๋ค๋ ๊ฒ์ด์ฃ .
์์๊ณผ ์๊ณ ๋ฆฌ์ฆ: ํต์ฌ ์์ ์ ๋ฆฌ
Flow Matching์ ์ง๊ด์ ์ดํด
Flow matching์ ์ต๊ทผ VLA ๋ชจ๋ธ์์ ๋ง์ด ์ฌ์ฉ๋๋ ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฒ์ ๋๋ค. Diffusion๊ณผ ์ ์ฌํ์ง๋ง ๋ ํจ์จ์ ์ ๋๋ค.
ํต์ฌ ์์ด๋์ด:
- ๋ฐ์ดํฐ a (๋ชฉํ ํ๋)์ ๋ ธ์ด์ฆ \epsilon ์ฌ์ด์ โํ๋ฆโ์ ์ ์
- ์๊ฐ t \in [0, 1]์์์ ์ค๊ฐ ์ํ: a_t = (1-t) \cdot \epsilon + t \cdot a
- ๋ชจ๋ธ์ ๊ฐ ์์ ์์์ โ์๋โ v = a - \epsilon๋ฅผ ์์ธกํ๋๋ก ํ์ต
\mathcal{L}_{flow} = \mathbb{E}_{a, \epsilon, t} \left[ \| v_\theta(a_t, t) - (a - \epsilon) \|^2 \right]
์ถ๋ก ์:
ํ๋ ์ฒญํฌ์ ์๋ ์ขํ ํํ
๋ก๋ด๊ณผ ์ธ๊ฐ ๋ชจ๋์๊ฒ ์ผ๊ด๋ ํ๋ ํํ์ ์ฌ์ฉํ๊ธฐ ์ํด, ์๋ ์ขํ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
a_i = T_{current}^{-1} \cdot T_i
- T_{current}: ํ์ฌ ์๋์ดํํฐ์ 6 DoF ํฌ์ฆ
- T_i: i๋ฒ์งธ ๋ฏธ๋ ์คํ ์์์ ํฌ์ฆ
- a_i: ์๋ ๋ณํ (ํ์ฌ ๊ธฐ์ค)
์ด๋ ๊ฒ ํ๋ฉด ์ ๋ ์ขํ์ ์์กดํ์ง ์๊ณ , โ์์ผ๋ก ์ด๋โ, โ์ผ์ชฝ์ผ๋ก ํ์ โ ๊ฐ์ ์๋์ ํ๋์ผ๋ก ํํ๋ฉ๋๋ค.
์ ์ฒด ํ์ดํ๋ผ์ธ ๋ค์ด์ด๊ทธ๋จ
flowchart TD
subgraph DataCollection["๋ฐ์ดํฐ ์์ง"]
H1[์ธ๊ฐ ์์] --> H2["Visual SLAM + ํธ๋ ํธ๋ํน"]
H2 --> H3[6D ์ ๊ถค์ + ์๋ธํ์คํฌ ์ธ์ด]
R1[๋ก๋ด ์๊ฒฉ์กฐ์ข
] --> R2["์๋์ดํํฐ ๊ถค์ + ์๋ธํ์คํฌ ์ธ์ด"]
end
subgraph Pretraining["์ฌ์ ํ์ต (Diverse)"]
P1[๋ค์ํ ์ฅ๋ฉด]
P2[๋ค์ํ ํ์คํฌ]
P3[๋ค์ํ ๋ก๋ด]
P1 & P2 & P3 --> P4[ฯ0.5 Base Model]
end
subgraph Finetuning["ํ์ธํ๋ (Co-training)"]
F1[์ธ๊ฐ ๋ฐ์ดํฐ 50%] --> F3["๋์ผํ ํ์ต ๋ชฉํ: Flow Matching, ์๋ธํ์คํฌ ์์ธก"]
F2[๋ก๋ด ๋ฐ์ดํฐ 50%] --> F3
F3 --> F4[ฯ0.5 + ego]
end
subgraph Inference["์ถ๋ก "]
I1[์๋ก์ด ํ๊ฒฝ/๊ฐ์ฒด/ํ์คํฌ] --> I2[ฯ0.5 + ego]
I2 --> I3[๋ก๋ด ํ๋ ์ถ๋ ฅ]
end
DataCollection --> Finetuning
Pretraining --> Finetuning
Finetuning --> Inference
๋นํ์ ๊ณ ์ฐฐ: ์ฅ์ , ํ๊ณ, ์ด๋ฆฐ ์ง๋ฌธ๋ค
๐ ๊ฐ์
- ๋จ์ํจ๊ณผ ์ฐ์ํจ
- ๋ณต์กํ ์ ๋ ฌ ๋ฉ์ปค๋์ฆ ์์ด โ๊ทธ๋ฅ ๊ฐ์ด ํ์ตโํ๋ ์ ๊ทผ
- ๊ธฐ์กด VLA ํ์ต ํ์ดํ๋ผ์ธ์ ์ฝ๊ฒ ํตํฉ ๊ฐ๋ฅ
- ์ค๋๋ ฅ ์๋ ์คํ ์ค๊ณ
- ๋ค์์ฑ ์ค์ผ์ผ๋ง ์คํ์ผ๋ก ์ธ๊ณผ๊ด๊ณ ์ ์ฆ
- t-SNE ๋ถ์์ผ๋ก ๋ฉ์ปค๋์ฆ ์ค๋ช
- ์ค์ฉ์ ํจ์
- 10~15์๊ฐ์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ์๋ฏธ ์๋ ํฅ์
- ์ํผ์๋ ํ์์ด ์๋ โ์์ฐ์ค๋ฌ์ดโ ์ธ๊ฐ ์์ ํ์ฉ ๊ฐ๋ฅ์ฑ ์์ฌ
- Cross-embodiment ๊ด์ ์ ํตํฉ
- ์ธ๊ฐ-๋ก๋ด ์ ์ด๋ฅผ ์๋ก์ด ๊ด์ (๋ค๋ฅธ ๋ก๋ด๊ณผ์ ์ ์ด์ ๊ทน๋จ์ ์ฌ๋ก)์ผ๋ก ์ฌํด์
๐ ํ๊ณ์ ์ด๋ฆฐ ์ง๋ฌธ
- ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ๋น์ฉ
- โ์ถฉ๋ถํ ๋ค์ํ ์ฌ์ ํ์ตโ์ด ์ ์ ์กฐ๊ฑด
- ์์ ์ฐ๊ตฌ ๊ทธ๋ฃน์์๋ ์ฌํํ๊ธฐ ์ด๋ ค์
- ฯ0.5 ์์ค์ ์ฌ์ ํ์ต์๋ ๋ง๋ํ ์์ ํ์
- ๊ทธ๋ฆฌํผ ํ๋์ ๋ถ์์ ํ ์ ์ด
- ์ธ๊ฐ ์์ โ์ด๋ฆผ/๋ซํโ์ ์ถ์ ํ์ง ์์
- ๊ทธ๋ฆฌํผ ์ ์ด๋ ์ฌ์ ํ ๋ก๋ด ๋ฐ์ดํฐ์ ์์กด
- ์ฌ์ธํ ๊ทธ๋์คํ ๊ธฐ์ ์ ์ ์ด๋ ์ ํ์ ์ผ ์ ์์
- ์ํผ์๋ ํ์์ ์ ์ฝ
- ์ธ๊ฐ ๋ฐ์ดํฐ๋ โ์ํผ์๋โ ํ์์ผ๋ก ์์ง (์์-๋์ด ๋ช ํํ ์์ฐ)
- YouTube ๊ฐ์ โ์์ฐ์ ์ธโ ์ธ๊ฐ ์์ ํ์ฉ์ ์์ง ๋ฏธํด๊ฒฐ
- ์ ๋์ ์๊ณ์ ๋ถ๋ช
ํ
- โ์ถฉ๋ถํ ๋ค์์ฑโ์ ๊ตฌ์ฒด์ ์ ์ ๋ถ์ฌ
- ์๋ก์ด ๋๋ฉ์ธ์ ์ ์ฉํ ๋ ์ผ๋ง๋ ๋ค์ํด์ผ ํ๋์ง ๋ถ๋ช ํ
- ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง์ ์ฌ์ ํ ๋ถ๋ด
- ๋จธ๋ฆฌ/์๋ชฉ ์นด๋ฉ๋ผ ์ฐฉ์ฉ ํ์
- ์์ ํ โ์์ฐ์ค๋ฌ์ดโ ํ๋์ ์๋
๐ฌ ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
- Passive ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ
- ์ํผ์๋๊ฐ ์๋ ์ฐ์์ ์ธ ์ผ์ ์์์์ ํ์ต
- Ego4D ๊ฐ์ ๋๊ท๋ชจ ์์์ค์ฌ ๋น๋์ค ๋ฐ์ดํฐ์ ํ์ฉ
- ์ ์ํ ์ถ์ ๊ฐ์
- ์์ ์ด๋ฆผ/๋ซํ, ํ ๋ฑ์ ์ถ์ ํ์ฌ ๊ทธ๋ฆฌํผ ํ๋ ์ ์ด
- ์ต์ ํธ๋ ํฌ์ฆ ์ถ์ ๋ชจ๋ธ (MANO ๋ฑ) ํ์ฉ
- ์ ์ ์ฌ์ ํ์ต์ผ๋ก ์ ์ด ๊ฐ๋ฅํ๊ฒ
- ์์ VLA์์๋ ์ ์ด๊ฐ ์ฐฝ๋ฐํ๋๋ก ํ๋ ๋ฐฉ๋ฒ
- ์ฌ์ ํ์ต ํจ์จ์ฑ ๊ฐ์
- ๋ค์ํ ์กฐ์ ์ ํ์ผ๋ก ํ์ฅ
- ๋๊ตฌ ์ฌ์ฉ, ์ฌ์ธํ ์กฐ์, ์ด์ค ํ ํ์ ๋ฑ
- ํ์ฌ ๋ฒค์น๋งํฌ๋ ์๋์ ์ผ๋ก ๋จ์ํ pick-and-place ์์ฃผ
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
| ์ ๊ทผ๋ฒ | ๋ฐฉ๋ฒ | ์ฅ์ | ๋จ์ |
|---|---|---|---|
| R3M, VIP | ์ธ๊ฐ ์์์ผ๋ก ๋น์ ์ธ์ฝ๋๋ง ํ์ต | ๋ฒ์ฉ์ ์๊ฐ ํํ | ํ๋ ์ ๋ณด ํ์ฉ ๋ชปํจ |
| Track2Act | ํคํฌ์ธํธ ํธ๋ํน์ผ๋ก ์ค๊ฐ ํํ | ํ๋ ์ ๋ณด ์ผ๋ถ ํฌ์ฐฉ | ์๋ ์ค๊ณ ํ์ |
| AR2-D2 | AR/VR๋ก ์ธ๊ฐ-๋ก๋ด ๋ช ์์ ์ ๋ ฌ | ์ ํํ ์ ๋ ฌ ๊ฐ๋ฅ | ํน์ ์ฅ๋น ํ์, ํ์ฅ์ฑ ์ ํ |
| EgoMimic | ์ธ๊ฐ ์์ + ๋ก๋ด ๊ณต๋ ํ์ต | ๊ฐ๋จํ ํ์ดํ๋ผ์ธ | ์์ ์ค์ผ์ผ์์ ๋ถ์์ |
| ฯ0.5 + ego (๋ณธ ๋ ผ๋ฌธ) | ๋ค์ํ ์ฌ์ ํ์ต + ๊ณต๋ ํ์ธํ๋ | ๋ช ์์ ์ ๋ ฌ ๋ถํ์ | ๋๊ท๋ชจ ์ฌ์ ํ์ต ํ์ |
๋ณธ ๋ ผ๋ฌธ์ ์ฐจ๋ณ์ :
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ธ๊ฐ-๋ก๋ด โ์ ๋ ฌโ์ ์ํ ๋ณ๋ ๋ฉ์ปค๋์ฆ ํ์
- ๋ณธ ๋ ผ๋ฌธ์ ์ถฉ๋ถํ ๋ค์์ฑ์ด ์ ๋ ฌ์ ์์ฐ์ค๋ฝ๊ฒ ์ฐฝ๋ฐ์ํจ๋ค๊ณ ์ฃผ์ฅ
์ค๋ฌด์๋ฅผ ์ํ ์์ฌ์
๐ ๏ธ ์ธ์ ์ด ๋ฐฉ๋ฒ์ ๊ณ ๋ คํ ๊น?
- ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ ๊ทผ ๊ฐ๋ฅํ ๋
- ฯ0.5 ๋๋ ์ ์ฌํ ๋ค์์ฑ์ ๊ฐ์ง VLA ํ์
- API๋ ์คํ์์ค ์ฒดํฌํฌ์ธํธ ํ์ฉ ๊ฐ๋ฅ
- ์๋ก์ด ํ๊ฒฝ/๊ฐ์ฒด/ํ์คํฌ๋ก ํ์ฅํ ๋
- ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ค์ด ํ๊ฒฝ
- ์ธ๊ฐ ์์ฐ์ด ๋ ์์ฐ์ค๋ฌ์ด ํ์คํฌ
- ๋น ๋ฅธ ํ๋กํ ํ์ดํ
- ์ ํ์คํฌ ์ปจ์ ์ ๋น ๋ฅด๊ฒ ํ ์คํธ
- ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ๋จผ์ ๊ฒ์ฆ ํ ๋ก๋ด ๋ฐ์ดํฐ ์์ง
โ ๏ธ ์ฃผ์์ฌํญ
- ์ฌ์ ํ์ต ํ์ง ํ์ธ
- ์ฌ์ฉํ๋ VLA๊ฐ ์ถฉ๋ถํ ๋ค์ํ ์ฌ์ ํ์ต์ ๊ฑฐ์ณค๋์ง ํ์ธ
- ๋ค์์ฑ ๋ถ์กฑ ์ ์คํ๋ ค ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
- ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ง
- ์ํผ์๋ ํ์์ผ๋ก ๋ช ํํ๊ฒ ๊ตฌ๋ถ
- ์ผ๊ด๋ ์์ ๊ณผ ์กฐ๋ช ์ ์ง
- ์๋ธํ์คํฌ ์ฃผ์์ ์ ํ์ฑ ์ค์
- ๊ทธ๋ฆฌํผ ์์กด ํ์คํฌ ์ฃผ์
- ์ฌ์ธํ ๊ทธ๋์คํ์ด ํต์ฌ์ธ ํ์คํฌ๋ ์ ํ์
- ๋ก๋ด ๋ฐ์ดํฐ๋ก ๊ทธ๋ฆฌํผ ๊ธฐ์ ๋ณด์ ํ์
์์ฝ ๋ฐ ๊ฒฐ๋ก
ํต์ฌ ๋ฉ์์ง
- ์ฐฝ๋ฐ์ ์ ์ด: ์ธ๊ฐ-๋ก๋ด ์ ์ด๋ ๋ค์ํ VLA ์ฌ์ ํ์ต์ ์ฐฝ๋ฐ์ ์์ฑ
- ๋ค์์ฑ์ด ํต์ฌ: ์ฅ๋ฉด, ํ์คํฌ, ๋ก๋ด ์ข ๋ฅ์ ๋ค์์ฑ์ด ์๊ณ์ ์ ๋์ผ๋ฉด ์ ์ด ๊ฐ๋ฅ
- Embodiment-Agnostic ํํ: ๋ค์ํ ํ์ต์ ์ ์ฒด ํํ์ ๋ ๋ฆฝ์ ์ธ ํํ์ ๋ง๋ฆ
- ์ค์ฉ์ ํจ๊ณผ: ์ ์ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ(10~15์๊ฐ)๋ก ์ฑ๋ฅ ๊ฑฐ์ 2๋ฐฐ ํฅ์
๋ก๋ด๊ณตํ์ ์ฃผ๋ ์์ฌ์
์ด ์ฐ๊ตฌ๋ ๋ก๋ด ํ์ต์ โ๋ฐ์ดํฐ ๋ณ๋ชฉโ์ ํด๊ฒฐํ๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์ ํต์ ์ผ๋ก:
โ๋ ๋ง์ ๋ก๋ด ๋ฐ์ดํฐ = ๋ ๋์ ๋ก๋ดโ
ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ๋ค์์ ์์ฌํฉ๋๋ค:
โ์ถฉ๋ถํ ๋ค์ํ๊ฒ ํ์ตํ ๋ก๋ด = ์ธ๊ฐ์๊ฒ์๋ ๋ฐฐ์ธ ์ ์๋ ๋ก๋ดโ
์ด๊ฒ์ ๋ง์น ์ธ์ด ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ปค์ง๋ฉด zero-shot์ผ๋ก ์๋ก์ด ํ์คํฌ๋ฅผ ์ํํ ์ ์๊ฒ ๋๋ ๊ฒ์ฒ๋ผ, ๋ก๋ด ๋ชจ๋ธ๋ ์ค์ผ์ผ์ ๋ง๋ฒ์ด ์๋ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
๋ฌผ๋ก ์์ง ๊ฐ ๊ธธ์ด ๋ฉ๋๋ค. YouTube์ ์๋ ์์ญ์ต ์๊ฐ์ ์ธ๊ฐ ์์์ ์ ๋ง๋ก ํ์ฉํ๋ ค๋ฉด, ์ํผ์๋ ํ์์ด ์๋ ์ฐ์์ ์ธ ์์, ๋ค์ํ ์์ , ๋ถ์์ ํ ๊ด์ฐฐ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ผ ํฉ๋๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ฐฉํฅ์ผ๋ก์ ์ฒซ๊ฑธ์์ ๋ด๋์์ต๋๋ค.
โ์ถฉ๋ถํ ๋ง์ ๊ฒ์ ๋ณธ ๋ก๋ด์ ์ธ๊ฐ์ ๊ด์ฐฐํ๋ ๊ฒ๋ง์ผ๋ก๋ ์๋ก์ด ๊ฒ์ ๋ฐฐ์ธ ์ ์๋ค. ๋ง์น ์์ด๊ฐ ๋ถ๋ชจ๋ฅผ ๋ณด๊ณ ๋ฐฐ์ฐ๋ฏ์ด.โ
์ฐธ๊ณ ๋ฌธํ (์ ๋ณ)
- [8] Black et al. โฯ0: A vision-language-action flow model for general robot control.โ 2024.
- [20] Physical Intelligence et al. โฯ0.5: a vision-language-action model with open-world generalization.โ 2025.
- [22] Kareer et al. โEgoMimic: Scaling imitation learning via egocentric video.โ 2024.
- [33] Open X-Embodiment Collaboration. โOpen X-Embodiment: Robotic learning datasets and RT-X models.โ 2023.
- [47] Wei et al. โEmergent abilities of large language models.โ 2022.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ๋ฌธ์ ์ ์ ๋ฐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
์ต์ ์๊ฐ-์ธ์ด-ํ๋(Vision-Language-Action, VLA) ๋ชจ๋ธ์ ํ ์คํธ, ์ด๋ฏธ์ง, ํ๋ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ๋ค์ํ ์์ ์ ํ์ตํ ์ ์๋ ๋ฒ์ฉ์ ์ธ ๋ก๋ด ์ ์ฑ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ํ๋ถํ ์๊ฐ-์ธ์ด ์ ๋ณด๋ฅผ ๋ก๋ด ๊ฒฝํ๊ณผ ๊ฒฐํฉํ์ฌ ๊ด๋ฒ์ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ง๋ง, ๊ทธ ๋๊ฐ๋ก ๋งค์ฐ ๋ฐฉ๋ํ ์์ ๋ค์ํ๊ณ ํ๋ถํ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ํนํ, ์ธ๊ฐ์ด ์ํํ๋ ๋ค์ํ ์ค์ ์ํฉ์ ๋ด์ ๋น๋์ค๋ ์ป๊ธฐ ์ฝ๊ณ ํ๋ถํ ์ ๋ณด๋ฅผ ํฌํจํ๊ธฐ ๋๋ฌธ์ ๋ก๋ด ํ๋ จ์ ํ์ฉํ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ํฌ๋ค. ๊ทธ๋ฌ๋ ์ ํต์ ์ผ๋ก ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ๊ณง๋ฐ๋ก ๋ก๋ด ํ๋์ผ๋ก ์ฐ๊ฒฐํ๋ ๊ฒ์ ์ด๋ ค์ด ๋ฌธ์ ์๋ค. ์ฌ๋๊ณผ ๋ก๋ด์ ์ฒดํ(embodiment)๋ฟ ์๋๋ผ ์์ ๊ณผ ๋์ ๋ฐฉ์์์๋ ํฐ ์ฐจ์ด๊ฐ ์์ด, ์ด๋ค ๊ฐ ๋์(mapping)์๋ ์๋์ ์ธ ์ค๊ณ๋ ๋ณต์กํ ์กฐ์ ์ด ํ์ํ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ์ฐ๊ตฌ์์ ๋ฐ๊ฒฌ๋ ์ ์ฌํ ํ์์ ์๊ฐ์ ์ป์ด, โ์ถฉ๋ถํ ํฌ๊ณ ๋ค์ํ ์ฌ์ ํ์ต(pre-training)โ์ด ๊ฐ๋ฅํ๋ค๋ฉด ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ์ ์ฑ ์ด ์์ฐ์ค๋ฝ๊ฒ ์ ์ด(transfer)๋๋ ๋ฅ๋ ฅ์ด ์ถํํ ์ ์๋์ง๋ฅผ ํ๊ตฌํ๋ค. ์ฆ, ๊ธฐ์กด์๋ ๋ณ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ ์ ๋ ฌ ๊ธฐ๋ฒ ์์ด๋ ๋ฐฐ์ธ ์ ์์ ๊ฒ ๊ฐ์๋ ์ธ๊ฐ-๋ก๋ด ์ง์ ์ ์ด๊ฐ, ๋ชจ๋ธ ๊ท๋ชจ๋ ๋ฐ์ดํฐ ๋ค์์ฑ์ด ์ผ์ ์์ค์ ๋์ผ๋ฉด ์๋ฌต์ ์ผ๋ก ํ์ต๋๊ธฐ ์์ํ ๊ฒ์ด๋ผ๋ ๊ฐ์ค์ด๋ค. ์ ์๋ค์ ์ด๋ฅผ ํ์ธํ๊ธฐ ์ํด ๊ฐ๋จํ ์ฝ-ํธ๋ ์ด๋(co-training) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฑฐ๋ํ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ VLA์ ์ธ๊ฐ ํ๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ๋ฏธ์ธ์กฐ์ (fine-tuning)ํ์ฌ, ์ธ๊ฐ ๋น๋์ค์๋ง ์กด์ฌํ๋ ์๋ก์ด ์ฅ๋ฉด(Scene), ๊ฐ์ฒด(Object), ์์ (Task)์์ ๋ก๋ด์ด ์ฑ๊ณต์ ์ผ๋ก ์ผ๋ฐํํ ์ ์๋์ง๋ฅผ ์ดํด๋ณธ๋ค.
์ฃผ์ ๋ฐ๊ฒฌ์ ๋ค์๊ณผ ๊ฐ๋ค. ์ถฉ๋ถํ ๋ค์ํ๊ณ ๋ง์ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ VLA๋, ํน๋ณํ ์ ๋ ฌ ์์ด ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ํ์ตํด๋ ์๋ก์ด ๊ฐ๋ ์ ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ถํ(emergent) ํ๋ค. ์ค์ ๋ก ์คํ ๊ฒฐ๊ณผ, ๋ค ๊ฐ์ง ์ผ๋ฐํ ์๋๋ฆฌ์ค(์๋ก์ด ๋ถ์๊ณผ ๋ฐฉ, ์๋ก์ด ์๊ธฐ ๋ฐ ์ํ, ์๊น๋ณ ๊ณ๋ ๋ถ๋ฅ)์์, ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํฌํจํด ๋ฏธ์ธ์กฐ์ ํ๋ฉด ๋ก๋ด ์ ์ฑ ์ฑ๋ฅ์ด ๋์ฒด๋ก 2๋ฐฐ ๊ฐ๊น์ด ์ฆ๊ฐํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด์ ๊ธฐ์ฌ, ์ ์๋ ๋ชจ๋ธ ๋ฐ ํ์ต ๋ฐฉ๋ฒ, ์คํ ๊ฒฐ๊ณผ์ ํด์, ํ๊ณ์ ๋ฏธ๋ ๋ฐฉํฅ์ ์์ธํ ์ดํด๋ณด๊ณ , ๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ตํด ๋ณธ๋ค.
์ ์ ๋ฐฉ๋ฒ: ๋ชจ๋ธ ๋ฐ ์๊ณ ๋ฆฌ์ฆ ์์ธ ๋ถ์
๋ชจ๋ธ ๊ฐ์ โ Vision-Language-Action (VLA) ๋ชจ๋ธ. ์ด ์ฐ๊ตฌ์์ ์ฌ์ฉํ๋ VLA๋ ๊ฑฐ๋ํ ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(์: RT-1์ ํ์ ๋ชจ๋ธ ๊ธฐ๋ฐ)์ ๊ธฐ๋ฐํ๋ฉฐ, ์ ๋ ฅ์ผ๋ก ์นด๋ฉ๋ผ ์์๊ณผ ์์ฐ์ด ๋ช ๋ น์ด๋ฅผ ๋ฐ์ ๋ก๋ด์ ์ฐ์์ ๋์์ ์์ธกํ๋ค. ์ผ๋ฐ์ ์ผ๋ก VLA๋ ํ ๋ ์คํผ๋ ์ด์ (์๊ฒฉ ์กฐ์ข )์ผ๋ก ์์งํ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ, ์น ์ค์ผ์ผ์ ์ด๋ฏธ์ง/๋น๋์ค-์ธ์ด ๋ฐ์ดํฐ, ์์ ์ ์ค๋ช ํ๋ ์ธ์ด ์ฃผ์ ๋ฑ์ ๊ฒฐํฉํด ํ๋ จ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋จผ์ ๋ค์ํ ๋ก๋ด ์์ ยท์ฅ๋ฉด ๋ฐ์ดํฐ(์๋ก ๋ค๋ฅธ ํ๊ฒฝ, ๋ค์ํ ๋ก๋ด ๊ธฐ๊ตฌ ํฌํจ)๋ก VLA๋ฅผ ์ฌ์ ํ์ตํ๊ณ , ์ดํ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ํ์ต์ํจ๋ค.
์ฌ์ ํ์ต(Pre-training). ์ฌ์ ํ์ต ๋จ๊ณ์์๋ ์ค์ง ๋ก๋ด ์๊ฒฉ ์กฐ์ข ๋ฐ์ดํฐ๋ง ์ฌ์ฉ๋๋ค. ์ฌ๋ฌ ์ข ๋ฅ์ ์ ๋ฐ์กฐ์(eg. ์ํ ์๋น, ๋ฌผ๊ฑด ์ ๋ฆฌ, ๋์ฌ ์ฒด๊ฒฐ ๋ฑ) ๋ฐ ๋ค์ํ ํ๊ฒฝ(๊ฐ์ , ์์ ์ฅ ๋ฑ)์ด ํฌํจ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ๋ก๋ด ์กฐ์๊ณผ ์๊ฐ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ตํ๋ค. ์ด๋ ๋ชจ๋ธ ์ํคํ ์ฒ๋ ๊ฑฐ๋ํ ์ธ์ด-๋น์ ๋ฐฑ๋ณธ(transformer) ์์ ํ๋ ์์ธก ํค๋๋ฅผ ์ถ๊ฐํ ํํ๋ก, ์ฐ์ ๋์์ ์์ธกํ๊ธฐ ์ํด FAST [35] ํ ํฐ(discrete ํ๋ ์ฝ๋)๊ณผ flow-matching ๋คํธ์ํฌ๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ค. ์ฆ, ๋ชจ๋ธ์ ์ผ์ ๊ธธ์ด์ ํ๋ ์ฒญํฌ(a chunk of actions)๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋ฉฐ, ์ด๋ ์ฐ์์ ์ธ ๋ง๋จ์์น/์์ธ๋ฅผ ํฌํจํ๋ค. ๋ํ ํ์๊ณผ์ (subtask) ์์ธก์ ์ํ ์ธ์ด ๋ชจ๋๋ ๋์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ๊ณ ์์ค ๋ช ๋ น(์: โ๊ณ๋์ ์ ๋ฆฌํด๋ผโ)์ ๋ฐ์ผ๋ฉด ๋จผ์ โ๊ณ๋์ ๋ ๋ค โ ์๊น์ ๋ฐ๋ผ ๋ถ๋ฅํ๋ค โ ์์์ ๋ฃ๋๋คโ์ ๊ฐ์ ์ค๊ฐ์ ํ์๊ณผ์ ์ํ์ค๋ฅผ ์ธ์ด๋ก ์์ธกํ๊ณ , ์ด๋ฅผ ๋ค์ ํ๋ ์์ฑ์ ํ์ฉํ๋ค(๋งํ์๋ฉด ์ผ์ข ์ โ์ฌ๊ณ ๊ณผ์ (chain-of-thought)โ์ฒ๋ผ ๋์). ์ด ๋ชจ๋ ํ์ต์ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํด ์ด๋ฃจ์ด์ง๋ฉฐ, ๋ค๋ฌํฐ๋ธ ํ ํฐ(next-token prediction)๊ณผ flow-matching ์์ค์ ๋์์ ์ต์ ํํ๋ค.
์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ๋ฐ ํํ. ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ ์ํด, ์ ์๋ค์ ์ญ๋ฐฉํฅ ํ ๋ ์คํผ๋ ์ด์ ์คํ์ผ(human teleop)์ผ๋ก ์ธ๊ฐ์ด ์์ ์ ์ํํ๋ ์์์ ์์งํ๋ค. ์์ง ์ฅ๋น๋ ๋จธ๋ฆฌ์ ์ฐฉ์ฉํ ๊ณ ํด์๋ ์นด๋ฉ๋ผ์ ๊ฒฝ์ฐ์ ๋ฐ๋ผ ์์ชฝ ์๋ชฉ ์นด๋ฉ๋ผ๋ฅผ ๋๊ธฐํํ์ฌ, ์ธ๊ฐ ์์ ์์ ๋์์ ๋ค์ํ ๊ด์ ์์ ๊ธฐ๋กํ ์ ์๋๋ก ์ค๊ณ๋์๋ค(๊ทธ๋ฆผ ์ฐธ์กฐ). ์ด๋ ๊ฒ ํ๋ํ ์์์ SLAM ๊ธฐ๋ฒ์ ์ด์ฉํด ์นด๋ฉ๋ผ์ 6์์ ๋ ์ด๋ ๊ถค์ ์ ๊ณ์ฐํ๊ณ , ์ต์ 3D ํคํฌ์ธํธ ์ถ์ ๋ชจ๋ธ๋ก ์์ 17๊ฐ ๊ด์ ์ 3D ์์น๋ฅผ ์ถ์ถํ๋ค. ๋ํ ์์ ํ๋ฆ์ ์ธ๋ถํํ ํ ์คํธ ๊ธฐ๋ฐ ํ์๊ณผ์ (subtask) ๋ ์ด๋ธ์ ์ถ๊ฐ๋ก ๋ฌ์, ์๋ฅผ ๋ค์ด โํฅ์ ๋ฃํต์ ๋ค์ด ์ฌ๋ฆฌ๊ธฐโ, โ๋ฌผ๊ฑด์ ์์์ ๋ฃ๊ธฐโ ๋ฑ์ ์ค๋ช ์ ๋ถ์ธ๋ค.
์ธ๊ฐ-๋ก๋ด ํ๋ ์ ๋ ฌ(Alignment). ์์ง๋ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ๋๊ณผ ๊ฐ์ ํ์์ผ๋ก ๋ง๋ค๊ธฐ ์ํด, ์ ์๋ค์ ์ธ๊ฐ ์ ๋ชจ์ ์ ๋ก๋ด ๋ง๋จํจ๊ณผ๊ธฐ(end-effector) ์์ง์์ผ๋ก ๋์์์ผฐ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ธ๊ฐ ์์ ์๋ฐ๋ฅ๊ณผ ์๊ฐ๋ฝ(์ค์ง, ์ฝ์ง)์ 3D ํคํฌ์ธํธ๋ค์ ํฉ์ณ ํ๋์ โ๊ฐ์ ๋ง๋จํจ๊ณผ๊ธฐ ํฌ์ฆโ๋ก ์ ์ํ๋ค(๊ทธ๋ฆผ 6 ์ฐธ์กฐ). ๊ฐ ์๊ฐ ๊ตฌ๊ฐ๋ง๋ค ์ธ๊ฐ ์์ ๋ง๋จํจ๊ณผ๊ธฐ ์์ธ๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๋ก๋ด ๋ง๋จํจ๊ณผ๊ธฐ ์์ธ์ ๋น์ทํ ํํ์ ์๋ ๋ณํ(relative transform)์ผ๋ก ๋ณํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ธ๊ฐ ๋ฐ์ดํฐ๋ ๋ ์์ 6์์ ๋ ๋ง๋จํจ๊ณผ๊ธฐ ๊ถค์ (์ด 12์์ ๋) + ๊ธฐ๋ณธ ๋ฒ ์ด์ค ์์ง์(6์์ ๋)์ผ๋ก ํํ๋๋ค. ๋จ, ์ธ๊ฐ์ ์๋ชฉ ๊ฒฐํฉ๋ถ๋ ๊ทธ๋ฆฌํผ ๋์ 6์์ ๋๋ง ๊ณ ๋ คํ์ฌ ์ด ํ๋ ์ฐจ์์ ๋ก๋ด(16์ฐจ์)๋ณด๋ค ์ฝ๊ฐ ์ ์ 18์ฐจ์(Hร18) ์ด ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์ธ๊ฐ์ ์์์ด ๋ก๋ด์ด ์ดํดํ ์ ์๋ ํ๋ ๋ ์ด๋ธ๋ก ๋ณํ๋๋ฉฐ, ๋ณ๋์ ์๋ ์ ๋ ฌ ์์ด ์ธ๊ฐ-๋ก๋ด ํ๋ ๊ฐ ์๋ฏธ์ ์ฐ๊ฒฐ์ด ๊ฐ๋ฅํด์ง๋ค.
graph LR
A["์ฌ์ ํ์ต: ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ"] --> B["๊ธฐ์ ๋ชจ๋ธ ฯ0.5"]
B --> C["์ธ๊ฐ ๋น๋์ค ์์ง ๋ฐ ์ฒ๋ฆฌ"]
C --> D["๋ก๋ด ๋ฐ์ดํฐ์ 50:50 ํผํฉ ๋ฏธ์ธ์กฐ์ "]
D --> E["์๋ก์ด ๊ฐ๋
์ผ๋ฐํ"]
๊ทธ๋ฆผ 1: ์ ์๋ VLA ํ๋ จ ๋ฐ ๋ฏธ์ธ์กฐ์ ํ์ดํ๋ผ์ธ. ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ VLA(ฯ0.5)์ ์ธ๊ฐ ๋น๋์ค๋ฅผ ์ถ๊ฐ๋ก ํ์ตํจ์ผ๋ก์จ, ์ธ๊ฐ ๋ฐ์ดํฐ์๋ง ์กด์ฌํ๋ ์๋ก์ด ์์ ๊ฐ๋ ์ ๋ก๋ด์ด ์ตํ ์ ์๋๋ก ํ๋ค.
Co-Training ๋ฐฉ๋ฒ. ๋ชจ๋ธ ์ธ๋ถ ์ค์ ์ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ , ๋ ๋ฒจ-0์์ ํ๋ จ๋ ๊ธฐ์ VLA(ฯ0.5)๋ฅผ ์ด๊ธฐํํ๋ค. ๊ทธ๋ฐ ๋ค์ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ์ ๊ฐ์ฅ ์ ์ฌํ ๋ก๋ด ์์ ๋ฐ์ดํฐ๋ฅผ ๋งค์นญํ์ฌ 1:1 ๋น์จ๋ก 50:50 ํผํฉํด ๋ฏธ์ธ์กฐ์ ํ๋ค. ์๋ฅผ ๋ค์ด, ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ๊ณ๋ ์์๋ณ ๋ถ๋ฅ ์์ ์ ํฌํจํ๋ค๋ฉด, ๋ก๋ด ๋ฐ์ดํฐ๋ก๋ โ๊ณ๋์ ์์์ ๋ฃ๊ธฐโ์ ๊ฐ์ ๊ฐ์ฅ ๊ทผ์ ํ ์์ ์ ์ ํํ๋ค. ์ด๋ ํ์ต ๋ชฉํ(Objectives)๋ ๋ก๋ด ๋ฐ์ดํฐ์ ์ ํ ๋์ผํ๊ฒ ์ ์ง๋๋ค: ์ธ์ด ๋ช ๋ น๊ณผ ์๊ฐ ๊ด์ฐฐ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ์๊ณผ์ ๋ ์ด๋ธ(subtask) ๋ฐ ์ฐ์ ํ๋์ ์์ธกํ๋ค. ๋ชจ๋ธ์ ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถ ์์ด ํจ๊ป ์ฒ๋ฆฌํ๋ฉฐ, ํน๋ณํ ๋๋ฉ์ธ ์ด๋ํฐ๋ ์ ๋ ฌ ์์ค ์์ด ํตํฉ๋ ํ๋์ ๋ชจ๋ธ๋ก ํ์ตํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ธ๊ฐ ๋น๋์ค๋ ๊ทธ์ ๋ ๋ค๋ฅธ โ์๋ฒ ๋๋ ํํ(์ธ๊ฐ ํํ)โ์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ ๊ณต๋๋ฉฐ, ๋๊ท๋ชจ ๋ชจ๋ธ์ ํํ ๋ฅ๋ ฅ์ด ์ด๋ค ๊ฐ์ ์๋งจํฑํ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ค.
์คํ: ์ค์ , ๊ฒฐ๊ณผ ๋ฐ ํด์
์ ์๋ค์ ์ ์๋ ์ฝ-ํธ๋ ์ด๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ธ๊ฐ ๋ฐ์ดํฐ์์๋ง ์๋ก์ด ๊ฐ๋ ์ด ๋ฑ์ฅํ๋ ์ผ๋ฐํ(generalization) ์๋๋ฆฌ์ค๋ค๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค(๊ทธ๋ฆผ 3 ์ฐธ์กฐ). ์ฃผ์ ํ ์คํธ ์๋๋ฆฌ์ค๋ ๋ค์ ์ธ ๊ฐ์ง ๋ฒ์ฃผ์ ์ํ๋ค:
- ์ฅ๋ฉด(Scene) ์ผ๋ฐํ: ์๋ฅผ ๋ค์ด, ๋ค์ํ ๊ฐ์ ์์ ํฅ์ ๋ฃ ์ ๋ฐ(spice rack)์ ์ ๋ฆฌํ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด, ์ธ๊ฐ ๋ฐ์ดํฐ๋ ์๋ก์ด ๋ถ์์ ๋ฐฐ๊ฒฝ์ผ๋ก ๊ฐ์ ์์ ์ ์ํํ๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ํ์ฅ๋(dresser) ์ ๋ฆฌ ์์ ์ ๋ง์ ์ง์์ ํ์ต์์ผฐ๋ค๋ฉด, ์ธ๊ฐ ๋ฐ์ดํฐ๋ ์์ง ํ์ต๋์ง ์์ ํน์ ์นจ์ค์์ ์ ๋ฆฌํ๋ ์์์ ์ ๊ณตํ๋ค.
- ๋ฌผ์ฒด(Object) ์ผ๋ฐํ: ์๋ฅผ ๋ค์ด ์ฐ๋ ๊ธฐ์ ์๊ธฐ๊ฐ ์ด์ง๋ฌ์ง ์ํ(table) ์ฒญ์ ์์ ์ ๋ก๋ด์ด ํ์ตํ๋ค๋ฉด, ์ธ๊ฐ ๋ฐ์ดํฐ๋ ์๋ก์ด ์ข ๋ฅ์ ๋ถ์ ๋๊ตฌ๋ ์ํ(ํ๋ผ์คํฑ ํต, ํค์นํ์ ๋ฑ)์ ํฌํจํ์ฌ ๊ฐ์ ํ ์ด๋ธ์ ์น์ฐ๋๋ก ํ๋ค.
- ์์ (Task) ์ผ๋ฐํ: ์๋ฅผ ๋ค์ด ๋ก๋ด ๋ฐ์ดํฐ๋ก๋ ๊ณ๋์ ์์์ ๋ด๋ ๋จ์ ์์ ๋ง ํ์ตํ๋ค๋ฉด, ์ธ๊ฐ ๋ฐ์ดํฐ๋ ๊ณ๋ ์๊น๋ณ ๋ถ๋ฅ(๋นจ๊ฐ ๊ณ๋์ ์ผ์ชฝ ์์, ํ๋ ๊ณ๋์ ์ค๋ฅธ์ชฝ ์์)์ ๊ฐ์ ์๋ก์ด ๊ฐ๋ ์ ํฌํจํ๋ค.
๊ฐ ์๋๋ฆฌ์ค์ ๋ํด ๋ก๋ด์ ฯ0.5 ๋ชจ๋ธ(๋ก๋ด ๋ฐ์ดํฐ๋ง ํ์ต)๊ณผ ฯ0.5+ego ๋ชจ๋ธ(๋ก๋ด+์ธ๊ฐ ๋ฐ์ดํฐ ์ฝํธ๋ ์ด๋)์ ๋น๊ตํ๋ค. ํ๊ฐ๋ ํด๋น ์ผ๋ฐํ ๊ณผ์ ์ ์ฑ๊ณต๋ฅ ์ด๋ ๋ฐฐ์น๋ ๊ฐ์ฒด ์ ๋ฑ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค(์: ๊ณ๋ ๋ถ๋ฅ์ ๊ฒฝ์ฐ ์์๋ณ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ๋ฃ์ ๊ณ๋ ์).
์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ํ์ตํ ฯ0.5+ego ๋ชจ๋ธ์ด ๋ชจ๋ ์๋๋ฆฌ์ค์์ ๊ธฐ์ค(๋ก๋ด๋ง ํ์ต)๋ณด๋ค ๋๋ ทํ๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค(๊ทธ๋ฆผ 7, ํ 1). ์๋ฅผ ๋ค์ด, ํฅ์ ๋ฃ ์ ๋ฆฌ(Spice) ์์ ์์๋ ์ ํ๋๊ฐ 32%์์ 71%๋ก, ํ์ฅ๋ ์ ๋ฆฌ(Dresser)๋ 25%์์ 50%๋ก ํฌ๊ฒ ํฅ์๋์๋ค. ํ ์ด๋ธ ์ฒญ์(Bussing) ์์ ๋ 53%์์ 63%๋ก ์์นํ๋ค. ํนํ ๊ณ๋ ๋ถ๋ฅ(Eggs) ์์ ์์๋ ฯ0.5๊ฐ ๋ถ๋ฅ ๊ฐ๋ ์ ์์ง ๋ชปํด ๋๋ค ์์ค(57% ์ ํ๋)์ ๋จธ๋ฌผ๋ ์ง๋ง, ฯ0.5+ego๋ ์๊น๋ณ ๋ถ๋ฅ๋ฒ์ ํ์ตํด 78% ์ ํ๋๋ฅผ ๊ธฐ๋กํ์์ผ๋ฉฐ ํ๊ท ์ ์ผ๋ก 4๊ฐ์ ๊ณ๋์ ๋ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅํ๋ค. ์ด์ฒ๋ผ ๋ค์ํ ์ผ๋ฐํ ์ถ(scene, object, task)์์ ๋ชจ๋ ์ธ๊ฐ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํจ์ผ๋ก์จ ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ด ํ์ธ๋์๋ค๋ ์ ์ด ํต์ฌ์ด๋ค.
| ํ์คํฌ (์์ ) | ์ผ๋ฐํ ์ ํ | ฯ0.5 (๋ก๋ด ๋ฐ์ดํฐ๋ง) | ฯ0.5+Ego (๋ก๋ด+์ธ๊ฐ) |
|---|---|---|---|
| ํฅ์ ๋ฃ ์ ๋ฆฌ (Spice) | ์ฅ๋ฉด (์ ๋ถ์) | 32% | 71% |
| ํ์ฅ๋ ์ ๋ฆฌ (Dresser) | ์ฅ๋ฉด (์ ๋ฐฉ) | 25% | 50% |
| ํ ์ด๋ธ ์ฒญ์ (Bussing) | ๋ฌผ์ฒด (์ ๋ฌผ์ฒด) | 53% | 63% |
| ๊ณ๋ ๋ถ๋ฅ (Eggs) | ์์ (์์๋ณ ๋ถ๋ฅ) | 57% (์ ํ๋) | 78% (์ ํ๋) |
ํ 1. ์ฃผ์ ์คํ ๊ฒฐ๊ณผ. ๊ฐ ํ์ ๊ฐ์ ฯ0.5 ๋ชจ๋ธ(๋ก๋ด ๋ฐ์ดํฐ๋ง ํ๋ จ)๊ณผ ฯ0.5+ego ๋ชจ๋ธ(๋ก๋ด+์ธ๊ฐ ๋ฐ์ดํฐ) ๊ฐ๊ฐ์ ์ผ๋ฐํ ์ฑ๋ฅ(%)์ ๋ํ๋ธ๋ค.
์ฌ์ ํ์ต ๋ค์์ฑ๊ณผ ์ ์ด ๋ฅ๋ ฅ์ ๊ด๊ณ
๋ค์์ผ๋ก ํต์ฌ ๊ฐ์ค์ธ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๋ค์์ฑ์ ์ค์์ฑ์ ๊ฒ์ฆํ๋ค. ์ฐ๊ตฌ์ง์ ์ฌ์ ํ์ต์ผ๋ก ์ฌ์ฉํ๋ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ค์์ฑ ๋น์จ์ 0% (์ฌ์ ํ์ต ์์), 25%, 50%, 75%, 100%๊น์ง ์ ์ง์ ์ผ๋ก ๋๋ ค๊ฐ๋ฉฐ ์คํ์ ๋ฐ๋ณตํ๋ค. 0%๋ ๋จ์ํ ๋น์ -์ธ์ด ๋ฐฑ๋ณธ ์ด๊ธฐํ๋ง ํ ์ํ์ด๊ณ , 100%๋ ๋ชจ๋ ๋ก๋ด ์์ ยทํ๊ฒฝ์ ๋ค ์ฌ์ฉํ ์ํ, 100%+Xemb๋ ๋ค๋ฅธ ๋ก๋ด ์๋ฒ ๋๋จผํธ๋ฅผ ๋ ํฌํจํ ์ต๋์น๋ค. ๊ฐ ๊ฒฝ์ฐ์์ ฯ0.5 ๋ชจ๋ธ์ ์ด๊ธฐํํ ํ์๋, ํญ์ ๋ ๊ฐ์ง ์กฐ๊ฑด(๋ก๋ด ๋ฐ์ดํฐ๋ง ์ฌ์ฉ vs. ๋ก๋ด+์ธ๊ฐ ๋ฐ์ดํฐ)์ผ๋ก ํ์ธํ๋ํด ๊ฐ์ ์ผ๋ฐํ ์์ ์ ํ๊ฐํ๋ค.
๊ทธ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๋ค์์ฑ์ด ๋ฎ์ ๋(0~50%)๋ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐํด๋ ์ ์ด ํจ๊ณผ๊ฐ ๊ฑฐ์ ์๊ฑฐ๋ ์คํ๋ ค ๋ถ์ ์ ์ด์๋ค. ๋ฐ๋ฉด, ๋ค์์ฑ์ด ์ถฉ๋ถํ ์ปค์ง๋ฉด(75% ์ด์) ์ธ๊ฐ ๋ฐ์ดํฐ์ ํ์ฉ ํจ๊ณผ๊ฐ ๊ธ์ฆํ์๋ค. ์ฆ, ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ค์ํ ๋ฒ์๋ฅผ ์ปค๋ฒํด์ผ๋ง ๋ชจ๋ธ์ด ์ธ๊ฐ์ ํ๋ ์์๋ฅผ ํ์ตํ์ฌ ์๋ก์ด ์์ ๊ฐ๋ ์ ์ตํ ์ ์๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด ๊ณ๋ ๋ถ๋ฅ ์คํ(Fig. 8 ์ฐธ์กฐ)์์ ์ฌ์ ํ์ต ๋ค์์ฑ์ด 75% ์ด์์ผ ๋๋ถํฐ ฯ0.5+ego์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์์นํ๋ ๋ฐ๋ฉด, ๋ค์์ฑ์ด ๋ฎ์ ๋๋ ๋ก๋ด๋ง ํ์ตํ ์ ์ฑ ์ ๊ณ๋ ๋ถ๋ฅ ๊ณผ์ ๋ฅผ ๊ฑฐ์ ์ํํ์ง ๋ชปํ๋ค. ์ด๋ ์ถฉ๋ถํ ํฌ๊ธฐ์ ๋ค์์ฑ์ ์ฌ์ ํ์ต์ด โ์ธ๊ฐ-๋ก๋ด ์ ๋ ฌโ ๋ฅ๋ ฅ์ emergentํ๊ฒ ํ์ฑํํจ์ ๊ฐํ๊ฒ ์์ฌํ๋ค.
ํํ ๊ณต๊ฐ ๋ถ์: ์๋ฒ ๋๋จผํธ ๋นํธํฅ์ฑ
์ ์ด ํ์์ด ์ ๋ํ๋๋์ง ์ดํดํ๊ธฐ ์ํด, ํ์ต๋ ๋ชจ๋ธ์ ์ ์ฌ ํํ(latent representation)์ ๋ถ์ํ๋ค. ์ธ๊ฐ๊ณผ ๋ก๋ด ์ ๋ ฅ์ ํน์ง์ ์ถ์ถํ์ฌ 2D TSNE๋ก ์๊ฐํํ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต ๋ค์์ฑ์ด ๋ฎ์ ๋๋ ๋ ๋ฐ์ดํฐ ๊ตฐ์ง์ด ๋ช ํํ ๋ถ๋ฆฌ๋์ด ์์๋ค. ๊ทธ๋ฌ๋ ๋ค์์ฑ์ด ์ปค์ง์๋ก ์ธ๊ฐ-๋ก๋ด ๋ฐ์ดํฐ์ ํน์ง ์ ๋ค์ด ์ ์ ๊ฒน์น๊ธฐ ์์ํ์๋ค. ์ฆ, ์ถฉ๋ถํ ๋ค์์ฑ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์์๋ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๋น์ฃผ์ผยท์ด๋์ ์ฐจ์ด๊ฐ ํํ ๊ณต๊ฐ์์ ์ํ๋์ด ๊ตฌํ ํ์(embodiment)์ ์์กดํ์ง ์๋ ์ถ์ํ๋ ํํ์ด ํ์ฑ๋๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํตํด, ๊ณ ์ฐจ์ ๋ชจ๋ธ์ ์ธ๊ฐ ํ์์ ๋ก๋ด ํ์๋ฅผ โ๊ฐ์ ์ข ๋ฅ์ ์ ๋ณดโ๋ก ์ฒ๋ฆฌํ ์ ์๊ฒ ๋์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ์ธ๊ฐ ๋น๋์ค์์ ๋ฐฐ์ด ์ง์์ด ๋ก๋ด ๋์์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ ์ด๋ ์ ์๊ฒ ๋๋ค.
์ธ๊ฐ ๋ฐ์ดํฐ vs. ๋ก๋ด ๋ฐ์ดํฐ ๋น๊ต
ํํธ, ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฅธ ๋ก๋ด ๋ฐ์ดํฐ์ ๋น๊ตํ์ฌ ๊ทธ ํจ์ฉ์ ํ๊ฐํ๋ค. ๋จผ์ , ์ค์ ๋ก ๋ชฉํ๋ก ํ๋ ๋ก๋ด(ARX)์์ ํด๋น ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ โ์ํ์ (upper bound)โ ์๋๋ฆฌ์ค์ ๋น๊ตํ๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ๊ณ๋ ๋ถ๋ฅ์ ํ์ฅ๋ ์์ ์์๋ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก๋ ๋ชฉํ ๋ก๋ด ๋ฐ์ดํฐ๋งํผ์ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค. ๋ฐ๋ฉด, ํ ์ด๋ธ ์ฒญ์(Bussing) ์์ ์์๋ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ์ธ๊ฐ ๋ฐ์ดํฐ๋ณด๋ค ํจ์ฌ ํจ๊ณผ์ (๋ชฉํ ๋ก๋ด: 65% vs ์ธ๊ฐ: 25%)์์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ ํ ์ด๋ธ ์์ ๋ฌผ์ฒด๋ฅผ ์น์ฐ๋ ์ ๊ตํ ๋์์์๋ ์ธ๊ฐ-๋ก๋ด ์ฐจ์ด๊ฐ ๋ ํฌ๊ฒ ์์ฉํ์์ ์๋ฏธํ๋ค.
๋ํ ๋ค๋ฅธ ๋ก๋ด ๊ฐ ์ ์ด(cross-embodiment transfer)๊ณผ ๋น๊ตํ๊ธฐ ์ํด, UR5 ๋ก๋ด์์ ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ARX๋ก ์ ์ดํ๋ ์คํ๋ ์ํํ๋ค. ๊ฒฐ๊ณผ๋ ์ธ๊ฐ->๋ก๋ด ์ ์ด์ ์ ์ฌํ ๊ฒฝํฅ์ ๋ณด์๋ค: ๋ ๋ค ๊ธฐ์ค๋ณด๋ค ๊ฐ์ ๋์ง๋ง, ๋ชฉํ ๋ก๋ด ๋ฐ์ดํฐ๋งํผ์ ์๋์๋ค. ์ฆ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ์ธํ ์ ์ด ํจ๊ณผ๋ ๋ค๋ฅธ ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ ์ ์ด์ ๋น์ทํ ์์ค์ผ๋ก, โ์ธ๊ฐ๋ ํ๋์ ๋ ๋ค๋ฅธ ๋ก๋ดโ์ผ๋ก ์ทจ๊ธํ ์ ์์์ ์์ฌํ๋ค.
๊ณ ์์ค vs ์ ์์ค ์ ์ด
์ธ๊ฐ ๋ฐ์ดํฐ์์ ์ ์ด๊ฐ ์ฃผ๋ก โ๊ณ ์์ค ์๋ฏธโ๋ฅผ ํตํด ๋ฐ์ํ๋์ง, ์๋๋ฉด โ์ ์์ค ํ๋ ์์ธกโ๊น์ง ํ์ต๋๋์ง๋ฅผ ์กฐ์ฌํ๋ค. Spice์ Dresser ์์ ์ ํ์๊ณผ์ +ํ๋ ๋ชจ๋ธ(High-level + Low-level)์ ๋ชจ๋ ํ๊ฐํ ์ ์๋ ๊ตฌ์กฐ์ด๊ณ , Bussing๊ณผ Eggs๋ ์ ์์ค๋ง์ผ๋ก ์คํํ๋ค. ์คํ ๊ฒฐ๊ณผ, ๊ณ ์์ค(subtask) ์ ๋ณด์ ์ ์์ค(action) ์ ๋ณด ๋ชจ๋ ์ ์ด์ ๊ธฐ์ฌํ์ง๋ง ํนํ ์ด๋ ค์ด ์์ ์์๋ ๋ ์ ๋ณด๋ฅผ ํจ๊ป ํ์ตํ์ ๋ ์ฑ๋ฅ์ด ์ต๊ณ ์๋ค. ์๋ฅผ ๋ค์ด, Dresser์ Spice์์๋ ๊ณ ์์ค ์์ธก๋ง์ผ๋ก๋ ์ด๋ ์ ๋ ์ฑ๋ฅ ํฅ์์ ์ป์์ผ๋, Eggs์ ๊ฐ์ด ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ์์ ์์๋ ์ ์์ค ํ๋ ์ ๋ณด๊ฐ ๊ฒฐํฉ๋์ด์ผ ๋น๋ก์ ํฌ๊ฒ ๊ฐ์ ๋์๋ค(๊ทธ๋ฆผ 11). ์์ฝํ๋ฉด, ์ธ๊ฐ ๋ฐ์ดํฐ๋ โ๊ณ๋์ ์์์ ์ฐจ๊ณก์ฐจ๊ณก ๋ฃ๋๋คโ๋ผ๋ ๊ณผ์ ์ ๋ฌธ์ฅ์ผ๋ก ์ ๋ฌํ๊ณ , ๋์์ ๊ตฌ์ฒด์ ์ธ ํ ๋์ ์์๋ฅผ ์ ๊ณตํ์ฌ ๋ ๋ค ๋์์ด ๋๋ ๊ฒ์ด๋ค.
์๋ชฉ ์นด๋ฉ๋ผ์ ์ํฅ ๋ถ์
๋ง์ง๋ง์ผ๋ก, ์ธ๊ฐ ์ฐฉ์ฉ ์๋ชฉ ์นด๋ฉ๋ผ์ ์ ์ฉ์ฑ์ ๋ถ์ํ๋ค. ์คํ ๊ฒฐ๊ณผ, ์ผ๋ถ ์์ (์: Bussing, Dresser)์์๋ ์๋ชฉ ์นด๋ฉ๋ผ๊ฐ ์ ๊ณตํ๋ ์ถ๊ฐ์ ์ธ ์์ผ ์ ๋ณด๊ฐ ์ ์ด ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ค. ๋ฐ๋ฉด, ํฅ์ ๋ฃ ์ ๋ฆฌ๋ ๊ณ๋ ๋ถ๋ฅ ์์ ์ฒ๋ผ ์ค์ ์ํฅ ์์ ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์์ ์์๋ ์๋ชฉ ์นด๋ฉ๋ผ๊ฐ ์์ด๋ ํฐ ์ฐจ์ด๊ฐ ์์๋ค. ์ด๋ ์์ ๋ง๋ค ๊ด์ธกํด์ผ ํ ๋ถ๋ถ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ ๋ก ์๋ชฉ ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ๋ฉด ์ธ๊ฐ์ ์๊ณผ ๊ฐ์ฒด ์ํธ์์ฉ์ ๋ ๋ฐ์ฐฉํด์ ๋ณผ ์ ์์ด ๋ณต์กํ ์ฌ์์ ์ ๋ฆฌํ๋ค. ํฅํ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ์์ง ์์๋ ๊ฐ๋ฅํ๋ฉด ์ฌ๋ฌ ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ๋ ๊ฒ์ด ์ ๋ฆฌํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๋นํ์ ๊ณ ์ฐฐ: ์ฅ๋จ์ ๋ฐ ํ๊ณ
๊ฐ์ : ์ด ์ฐ๊ตฌ์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ๋จ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์๋ค๋ ์ ์ด๋ค. ํน๋ณํ ๋๋ฉ์ธ ์ด๋ํฐ๋ ๋ณต์กํ ํ๋ ์ ๋ ฌ ์๊ณ ๋ฆฌ์ฆ ์์ด, ๊ทธ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ธ๊ฐ ๋น๋์ค๋ฅผ ๋๋ฑํ๊ฒ ์์ด ํ์ตํ์ ๋ฟ์ธ๋ฐ, ์๋ก์ด ์ง์์ด emergentํ๊ฒ ์ ์ด๋์๋ค. ์ด๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ ๋ฐ๊ฒฌ๋ โ์ค์ผ์ผ๋ง์ ํโ(์ด๋ฅธ๋ฐ emergent phenomena)์ ๋ก๋ด๊ณตํ์๋ ์ ์ฉํ ์ข์ ์๋ก ๋ณผ ์ ์๋ค. ๋ํ, ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ก๋ด์ด ํ์ง ๋ชปํ๋ ์๋ก์ด ์์ ๊ฐ๋ (์: ์๊น๋ณ ๋ถ๋ฅ)์ ๋ฐฐ์ฐ๋ ๋ฐ ์ฑ๊ณตํ๋ค๋ ์ ์ด ์ฃผ๋ชฉํ ๋งํ๋ค. ์คํ์ ์ผ๋ก๋ ์ฅ๋ฉด, ๋ฌผ์ฒด, ์์ ์ ์ธ ๊ฐ์ง ์ถ์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ ๊ฐ์ ์ด ๋ํ๋ฌ์ผ๋ฉฐ, ์ด๋ ์ฝ-ํธ๋ ์ด๋ ๋ฐฉ์์ ์ผ๋ฐ์ฑ์ ๋ท๋ฐ์นจํ๋ค.
์ฝ์ ๋ฐ ํ๊ณ: ๋ฐ๋ฉด์, ์ด ์ ๊ทผ์๋ ํ๊ณ๋ ์กด์ฌํ๋ค. ์ฒซ์งธ, ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ์์ง์ ๋งค์ฐ ํฌ๋ค. ์ฌ์ ํ์ต ๋ค์์ฑ์ด ๋ฎ์ผ๋ฉด ์ ์ด ํจ๊ณผ๊ฐ ๊ฑฐ์ ์์ด์ ธ, ๊ฒฐ๊ตญ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์ ๊ณ์ฐ ์์์ด ํ์ํ๋ค. ์ฆ, ์๊ท๋ชจ ์ฐ๊ตฌ์ค ๊ท๋ชจ์์๋ ๋ฐ๋ผํ๊ธฐ ํ๋ค ์ ์๋ค. ๋์งธ, ์ธ๊ฐ ๋ฐ์ดํฐ์ ์์ง๊ณผ ๊ฐ๊ณต ๋น์ฉ์ด ์ ์ง ์๋ค. ๋ณธ ์ฐ๊ตฌ์์์กฐ์ฐจ SLAM๊ณผ 3D ํฌ์ฆ ์ถ์ , ์๋ ์ฃผ์ ๋ฑ ๋ง์ ํ์ฒ๋ฆฌ ๊ณผ์ ์ด ํ์ํ๋ค. ์์ฉ ์์ค์ผ๋ก ํ์ฉํ๋ ค๋ฉด ๋ ์๋ํ๋ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ(์: ์ค์๊ฐ 3D ํฌ์ฆ ์ถ์ ๊ณผ ์ธ์ด ์์ฑ)์ด ์๊ตฌ๋๋ค. ์ ์งธ, ํ ์คํธ๋ ์์ ์ ๋ฒ์๊ฐ ์๋์ ์ผ๋ก ํ์ ๋์ด ์๋ค. ์ฃผ๋ก ๊ฐ์ ์ฉ ์์ ๊ณผ ๋จ์ ์กฐ์์ ์ด์ ์ด ๋ง์ถฐ์ ธ ์๋๋ฐ, ๋ณต์กํ ๋ค๋จ๊ณ ์กฐ๋ฆฝ์ด๋ ์ฌํ์ ์ํธ์์ฉ ๋ฑ์์๋ ํจ๊ณผ๊ฐ ๋ค๋ฅผ ์ ์๋ค. ๋ท์งธ, ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ ๋์ ์ฐจ์ด๋ฅผ ์๋ฒฝํ ๋ฉ์ฐ์ง๋ ๋ชปํ๋ค. ์๋ฅผ ๋ค์ด ๊ทธ๋ฆฌํผ(์๋) ๋์์ ์ถ์ ํ์ง ์์ ํด๋-๋นํด๋ ์ํ๋ง ์ด์ฐ์ผ๋ก ๊ณ ๋ คํ๋๋ฐ, ๋ก๋ด ๊ทธ๋ฆฌํผ์ ๋ฏธ์ธํ ์กฐ์๊ณผ ์ ํํ ๋์์ํค๊ธฐ์๋ ์ ๋ณด ์์ค์ด ์๋ค. ํฅํ ์ธ์ฒด ์ญํ์ ๊ฒฉ์ฐจ๋ฅผ ๋ ์ ๊ตํ ๋ชจ๋ธ๋งํ ํ์๊ฐ ์๋ค. ๋ง์ง๋ง์ผ๋ก, ํ ๋ฐฉ์์ ๊ฑฐ์ ์ง๋ํ์ต์ (imitation-style) ์ ๊ทผ์ด๋ฏ๋ก, ์ฃผ์ด์ง ๋น๋์ค ์ํ์ค ์ธ์ ์์๋ ํ๋ ์์ฑ์๋ ํ๊ณ๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด, ์ธ๊ฐ์ด ๋ช ์์ ์ผ๋ก ๋ณด์ฌ์ฃผ์ง ์์ ๋ฐฉ์(์: ๋ค๋ฅธ ์์์ ๋ฌผ์ฒด ๋ฐฐ์น)์ผ๋ก ์ผ๋ฐํํ๊ธฐ ์ด๋ ต๋ค.
์์ฉ ๊ฐ๋ฅ์ฑ ๋ฐ ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ
์ด ์ฐ๊ตฌ๋ ์ค์ธ๊ณ ๋ก๋ด์ ๋ฒ์ฉ์ฑ ํ์ฅ์ ๋ํ ํฌ๋ง์ ์ธ ์์ฌ์ ์ ์ ๊ณตํ๋ค. ์ค์ ๊ฐ์ ์ด๋ ๊ณต์ฅ ๋ฑ์์ ๋ก๋ด์ด ์๋ก์ด ์์ ์ ๋ฐฐ์ธ ๋, ์ด๋ฏธ ์ํ๋๋ ์ฌ๋์ ์์ ์์์ ๋๊ท๋ชจ๋ก ์์งํ์ฌ ํ์ฉํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค. ์๋ฅผ ๋ค์ด, ์ฃผ๋ฐฉ์์ ์ฌ๋์ด ์๊ธฐ๋ฅผ ์ ๋ฆฌํ๋ ๋ชจ์ต์ด๋ ๊ณต์ฅ์์ ์ฌ๋์ด ๊ธฐ๊ธฐ๋ฅผ ์กฐ๋ฆฝํ๋ ์์์ ๋ก๋ด์ด ํ์ตํจ์ผ๋ก์จ, ๋ก๋ด์ด ์ง์ ์์ฐํ์ง ์์ ๋ณํ๋ ์์ ๋ ์ดํดํ ์ ์๊ฒ ๋๋ค. ํนํ, ๋์ค์ด ๊ฐ์ง ์ค๋งํธํฐ์ด๋ AR/VR ๊ธฐ๊ธฐ๋ฅผ ํตํด ์ผ์์ ์ธ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฝ๊ฒ ๋ชจ์๋ค๋ฉด, ๋ก๋ด ํ์ต์ ์ ์ฉ ๋ฒ์๋ ํ๊ธฐ์ ์ผ๋ก ์ปค์ง ์ ์๋ค.
ํ์ ์ฐ๊ตฌ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉํฅ์ด ๊ธฐ๋๋๋ค:
- ์ฌ์ ํ์ต์ ์ธ๊ฐ ๋ฐ์ดํฐ ํฌํจ: ์ด ์ฐ๊ตฌ์์๋ ์ธ๊ฐ ๋ฐ์ดํฐ๋ ๋ฏธ์ธ์กฐ์ ๋จ๊ณ์์๋ง ์ฌ์ฉํ๋ค. ํฅํ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋จ๊ณ์ ๋ฐฉ๋ํ ์ธ๊ฐ ๋น๋์ค(์: Ego4D, ์ ํ๋ธ ๋์์ ๋ฑ)๊น์ง ํตํฉํ๋ฉด, ๋ชจ๋ธ์ด ์์ด๋ถํฐ ์ธ๊ฐ ํ๋ ํจํด์ ์ตํ ๋ ํจ์จ์ ์ธ ์ ์ด๊ฐ ๊ฐ๋ฅํด์ง ์ ์๋ค.
- ๋ค์ํ ์๋ฒ ๋๋จผํธ ์คํ: ๋ณธ ์ฐ๊ตฌ์์๋ ์ฃผ์ ๋ก๋ด ํํ(ARX ๋ฑ)์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก๋ง ์คํํ์ง๋ง, ๋ค๋ฅธ ๋ก๋ด(์: ํด๋จธ๋ ธ์ด๋), VR/AR์์ ์ป์ ๋ฐ์ดํฐ, ๋๋ ์ ๋๋ฉ์ด์ ์บ๋ฆญํฐ ๋ฐ์ดํฐ ๋ฑ์ ํผํฉ ํ์ตํ๋ฉด ๋ ์ผ๋ฐํ๋ ๋ชจ๋ธ์ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ค.
- ์์จ ๋ฐ์ดํฐ ์์ง: ํ์ฌ๋ ์ฌ๋์ด ์ง์ ์์ ์์ง์ ์ง์ํ์ง๋ง, ๋ก๋ด์ด ์ค์ค๋ก ์จ๋ผ์ธ ๋์์์ ๋ถ์ํ๊ฑฐ๋ ๊ณ ์์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์ธ๊ฐ-๋ก๋ด ๋์์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ ์ฐ๊ตฌํ ์ ์๋ค.
- ์์ ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ: ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์ฑ ์ด ์ค์ ๋ก๋ด์ ์ ์ฉ๋ ๋์ ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํ๊ฐํด์ผ ํ๋ค. ์๋ก์ด ๋๋ฉ์ธ์ ๋ํ ์ ์ด๋ ์ ์ฉํ์ง๋ง, ์๊ธฐ์น ๋ชปํ ํ๋์ ๋ง๋ค์ด๋ผ ์ํ๋ ์์ผ๋ฏ๋ก, ์ค๋ฆฌ์ /์์ ์ ํ์ ๋ง๋ จํด์ผ ํ๋ค.
- ๊ฒฐํฉ ๋ชจ๋ธ ๋ฐ ๋ฉํฐํ์คํฌ ํ์ต: ์ด ์ ๊ทผ๋ฒ์ ์์ฐ์ด ๋ช ๋ น๊ณผ ํ๋ ์์ธก์ ํจ๊ป ๋ค๋ฃจ๋ฏ๋ก, ํฅํ ๋ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(์: ์ธ์ด-๋น์ -์ก์ ํตํฉ)๊ณผ๋ ์์ฐ์ค๋ฝ๊ฒ ๊ฒฐํฉ๋ ์ ์๋ค. LLM๊ณผ ์๋ฎฌ๋ ์ด์ ์ธ๊ณต์ง๋ฅ(์: Gato) ๊ฐ์ ๋ฒ์ฉ ๋ชจ๋ธ๋ค๊ณผ ์ฐ๊ณํ์ฌ ๋ ๋ฐ์ด๋ ์ผ๋ฐํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์์ฝํ์๋ฉด, ์ด ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ์๊ฐ-์ธ์ด-ํ๋(VLA) ๋ชจ๋ธ์ด ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ์์ ํ์ต๋ ์๋ก์ด ์์ ๊ฐ๋ ์ ๋ณ๋ ์ค๊ณ ์์ด๋ ํก์ํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค. ์ ์๋ค์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ๋ฐ์ดํฐ์ ๋์ผํ ๋ฐฉ์์ผ๋ก ์ฝ-ํธ๋ ์ด๋ํจ์ผ๋ก์จ, ์ธ๊ฐ-๋ก๋ด ์ ์ด(human-to-robot transfer)๊ฐ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ๋ค์์ฑ๊ณผ ๊ท๋ชจ์ ๋น๋กํ์ฌ ๊ฐ๋ ฅํ๊ฒ ๋ฐํํจ์ ๋ฐ๊ฒฌํ๋ค. ํนํ ์ถฉ๋ถํ ๋ค์์ฑ์ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์์๋, ์ธ๊ฐ๊ณผ ๋ก๋ด ์ ๋ ฅ์ ๋ํ ์ ์ฌ ํํ์ด ์ ๋ ฌ(aligned)๋์ด ๊ตฌํ ์ฒดํ(embodiment)์ ๋ฌด๊ดํ๊ฒ ์ ์ฌํ ํ๋ ํจํด์ ์ธ์ํ๊ฒ ๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ LLM์์์ emergent behavior ์ฌ๋ก์ ๋ง์ฐฌ๊ฐ์ง๋ก, ๊ท๋ชจ์ ํ์ฅ(scale-up)์ด ์๋ก์ด ํ์ต ๋ฅ๋ ฅ์ ๊ฐ๋ฅ์ผ ํ ์ ์๋ค๋ ์ ์ ์์ฌํ๋ค. ๋ฏธ๋์ ๋ก๋ด ๊ณตํ ๋ถ์ผ์์ ์ฌ๋ฌผ์ธํฐ๋ท, ์ค๋งํธ ๊ธฐ๊ธฐ ๋ฑ์ ํตํ ๋ฐฉ๋ํ ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ค๋ฉด, ๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ ์ธ์ฌ์ดํธ์ ๋ฐ๋ผ ๋ก๋ด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ฑ ํฅ์๋ ๊ฒ์ด๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, ๋ก๋ด์ฉ ์ฌ๋จ(foundation) ๋ชจ๋ธ์ ๋ค์ ์ธ๋๋ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํก์ํ ์๋ก ๋ก๋ด์๊ฒ ์ด์ ์๋ ๋ถ๊ฐ๋ฅํ๋ ์๋ก์ด ๋ฅ๋ ฅ์ ๋ถ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ์ธ๊ฐ ๋น๋์ค๋ ๊ทธ ์ค ํ๋์ ์์ผ ๋ฟ์ด๋ฉฐ, ์ด ์ธ์๋ ์๋ก์ด ๋ฐ์ดํฐ ์์ค์ ํ์ต ๊ธฐ๋ฒ์ด ๊ฒฐํฉ๋๋ฉด ๋ก๋ด์ด ์ฐ๋ฆฌ์ ์ผ์ ์ธ์์ ์ดํดํ๋ ๋ฒ์๊ฐ ํฌ๊ฒ ๋์ด์ง ๊ฒ์ด๋ค.