graph TB
VLA[VLA Models] --> COMP["Components of VLA (VLA ๊ตฌ์ฑ ์์)"]
VLA --> CP["Control Policies (์ ์์ค ์ ์ด ์ ์ฑ
)"]
VLA --> TP["Task Planners (๊ณ ์์ค ํ์คํฌ ํ๋๋)"]
VLA --> DB["Datasets & Benchmarks (๋ฐ์ดํฐ์
& ๋ฒค์น๋งํฌ)"]
COMP --> RL[Reinforcement Learning]
COMP --> PVR[Pretrained Visual Repr.]
COMP --> DL[Dynamics Learning]
COMP --> WM[World Models]
COMP --> RS[Reasoning]
CP --> NONTF[Non-Transformer]
CP --> TF[Transformer-based]
CP --> DIFF[Diffusion-based]
CP --> LVLA[Large VLA]
TP --> MONO[Monolithic Planners]
TP --> MOD[Modular Planners]
๐VLA for Embodied AI ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค VLA(Vision-Language-Action) ๋ชจ๋ธ์ Vision, Language, Action ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํ์ฌ Embodied AI ํ๊ฒฝ์์ ๋ก๋ด ์์ ์ ์ํํ๋ ๋ฐ ์ค์ ์ ๋ ๋ฉํฐ๋ชจ๋ฌ(multimodal) ๋ชจ๋ธ์ ๋๋ค.
- ๐ ์ด ์๋ฒ ์ด๋ VLAs๋ฅผ ๊ฐ๋ณ ๊ตฌ์ฑ ์์(components), ์ ์์ค ์ ์ด ์ ์ฑ (low-level control policies), ๊ณ ์์ค ํ์คํฌ ํ๋๋(high-level task planners) ์ธ ๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๋ถ์ผ๋ก ๋ถ๋ฅํ๊ณ ๋ค์ํ ์ํคํ ์ฒ์ ํ์ต ๋ฐฉ๋ฒ์ ์ค๋ช ํฉ๋๋ค.
- ๐ ๏ธ ๋ํ, VLAs์ ๊ฐ๋ฐ์ ์ํ ๋ฐ์ดํฐ์ (datasets)๊ณผ ์๋ฎฌ๋ ์ดํฐ(simulators)์ ๊ฐ์ ํ์ ์์์ ์ ์ํ๊ณ , ๋ฐ์ดํฐ ํฌ์์ฑ(data scarcity), ์์ (safety) ๋ฑ์ ๊ณผ์ ์ ์ธ๊ณต ์ผ๋ฐ ์ง๋ฅ(AGI)์ ํฅํ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ ผ์ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ Embodied AI ๋ถ์ผ์์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ๋ํ ์ต์ด์ ํฌ๊ด์ ์ธ ์กฐ์ฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. VLA ๋ชจ๋ธ์ Large Language Models (LLMs) ๋ฐ Vision-Language Models (VLMs)์ ์ฑ๊ณต์ ๋ฐํ์ผ๋ก ๋ฑ์ฅํ์ผ๋ฉฐ, ์๊ฐ, ์ธ์ด, ํ๋ ์์์ ํตํฉํ์ฌ ์ธ์ด ์กฐ๊ฑด๋ถ ๋ก๋ด ์์ ์ ์ํํ๋ ๋ฐ ํนํ๋์ด ์์ต๋๋ค.
I. ์๋ก
VLA ๋ชจ๋ธ์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ๋ฌผ๋ฆฌ์ embodiments๋ฅผ ์ ์ดํ๋ฉฐ, ํนํ ๋ก๋ด ๋ถ์ผ์์ ์ธ์ด ์ง์์ ๋ฐ๋ผ ํ๊ฒฝ์ ์๊ฐ์ ์ผ๋ก ์ธ์ํ๊ณ ์ ์ ํ ํ๋์ ์์ฑํ๋ ๋ฐ ํ์ํ multimodal ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค. RT-2 [2]์์ ์ด ์ฉ์ด๊ฐ ์ฒ์ ์ ์๋์์ผ๋ฉฐ, ์ด๊ธฐ Deep Reinforcement Learning (RL) ์ ๊ทผ ๋ฐฉ์์ ๋นํด ํฅ์๋ ๋ค์ฉ์ฑ, dexterity ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ ผ๋ฌธ์ VLA๋ฅผ ์๊ฐ ๋ฐ ์ธ์ด๋ก๋ถํฐ multimodal ์ ๋ ฅ์ ์ฒ๋ฆฌํ์ฌ embodied ์์ ์ ์ํํ๋ ๋ก๋ด ํ๋์ ์์ฑํ ์ ์๋ ๋ชจ๋ ๋ชจ๋ธ๋ก ์ ์ํ๋ฉฐ, LLM ๋๋ Large VLM์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ VLA๋ฅผ โLarge VLA (LVLA)โ๋ก ๊ตฌ๋ถํฉ๋๋ค.
II. ๋ฐฐ๊ฒฝ
Embodied AI๋ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ๊ณผ ๋ฅ๋์ ์ผ๋ก ์ํธ์์ฉํ๋ ์ธ๊ณต์ง๋ฅ์ ํ ํํ๋ก, ๋ก๋ด ํ์ต์ ์ข ์ข Markov Decision Process (MDP) ๋๋ Partially-Observable Markov Decision Processes (POMDPs) ๋ฌธ์ ๋ก ์ ์ํ๋ฉ๋๋ค. ์ฃผ์ ๋ชฉํ๋ ํ์ฌ ์ํ s์์ ์ต์ ์ ํ๋ a๋ฅผ ์์ฑํ๋ ์ ์ฑ $ (a_t|s_{t}, a_{<t}) $๋ฅผ ํ๋ จํ๋ ๊ฒ์ ๋๋ค. Reward function ์ ์๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ Imitation Learning์ด ์ฌ์ฉ๋๋ฉฐ, ์ธ์ด ์ง์ p๋ฅผ ์ฌ์ฉํ ์ธ์ด ์กฐ๊ฑด๋ถ ๋ก๋ด ์ ์ฑ $ (a_t|p, s_{t}, a_{<t}) $๊ฐ ๊ฐ๋ฐ๋ฉ๋๋ค.
III. Vision-Language-Action ๋ชจ๋ธ
VLA ๋ชจ๋ธ์ ์ธ ๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: VLA์ ๊ฐ๋ณ ๊ตฌ์ฑ ์์, low-level ์ ์ด ์ ์ฑ , high-level task planner.
A. VLA์ ๊ตฌ์ฑ ์์
VLA ๋ชจ๋ธ์ Computer Vision (CV), Natural Language Processing (NLP), RL์ ์ฑ๊ณต์ ๋ฐํ์ผ๋ก ๊ฐ๋ณ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค.
- Reinforcement Learning: RL์ Embodied AI์ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ์ผ๋ฉฐ, Deep Q-Network (DQN)์ ๊ฐ์ ๋ชจ๋ธ์ ํตํด ๊ณ ์ฐจ์ ํฝ์ ์ ๋ ฅ์์ ์ ์ฑ ํ์ต ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค. Decision Transformer (DT) ๋ฐ Trajectory Transformer (TT)๋ Transformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ํ, ํ๋, ๋ณด์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์๊ฐ์ ์ฃผ์์ต๋๋ค. RL๊ณผ LLM ๊ฐ์ ์๋์ง ํจ๊ณผ๋ Human Feedback์ผ๋ก๋ถํฐ์ RL (RLHF)์ ํตํด LLM์ ์ธ๊ฐ ์ ํธ๋์ ๋ง์ถ๊ฑฐ๋, Reflexion๊ณผ ๊ฐ์ ์ธ์ด์ ํผ๋๋ฐฑ์ ํ์ฉํ ์๋ก์ด RL ๋ฐฉ๋ฒ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. Eureka [24]๋ LLM์ด ๋ก๋ด์ ์ํ ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- Pretrained Visual Representations (PVRs): Vision encoder์ ํจ๊ณผ๋ VLA์ ์ฑ๋ฅ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
- CLIP [25]: 4์ต ๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ๊ตฌ์ฑ๋ WIT ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋๋ฉฐ, ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์๋ณํ๋ ๋์กฐ ํ์ต objective๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- R3M [26]: ์๊ฐ์ ๋์กฐ ํ์ต(์ธ์ ํ๋ ์ ๊ฐ ๊ฑฐ๋ฆฌ ์ต์ํ, ๋น์ธ์ ํ๋ ์ ๊ฐ ๊ฑฐ๋ฆฌ ์ต๋ํ) ๋ฐ ๋น๋์ค-์ธ์ด ์ ๋ ฌ objective๋ฅผ ํตํด PVR์ ์์ฑํฉ๋๋ค.
- MVP [28]: ์ปดํจํฐ ๋น์ ์ Masked Autoencoder (MAE)๋ฅผ ๋ก๋ด ๋ฐ์ดํฐ์ ์ ์ ์ฉํ์ฌ ์์๋ ํจ์น๋ฅผ ์ฌ๊ตฌ์ฑํ๋ self-supervised ๋ฐฉ์์ผ๋ก ํ๋ จ๋ฉ๋๋ค.
- Voltron [35]: ์ธ์ด ์กฐ๊ฑด๋ถ MAE objective์ ์ธ์ด ์์ฑ objective๋ฅผ ํตํฉํ์ฌ ์ธ์ด-์๊ฐ ์์์ ์ ๋ ฌ์ ํฅ์์ํต๋๋ค.
- VC-1 [34]: ์ด์ PVR์ ๋ํ ์ฌ์ธต ๋ถ์์ ํตํด ์ต์ ์ ViT ๊ตฌ์ฑ์ ํ์ํ๊ณ , PVR ๊ฐ์ ์ ๊ธฐ์ฌํ๋ ํต์ฌ ์์๋ฅผ ๋ฐํ๋๋ค.
- DINOv2 [36]: self-distillation ํ๋ ์์ํฌ๋ฅผ ํตํด MAE๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ๊ต์ฌ ๋คํธ์ํฌ๋ ํ์ ๋คํธ์ํฌ์ EMA๋ก ์ ์ง๋ฉ๋๋ค.
- I-JEPA [39]: joint-embedding predictive architectures์์ ์๊ฐ์ ๋ฐ์ ํจ์น ์๋ฒ ๋ฉ์ ๋น๊ตํ์ฌ ๋ด๋ถ ์ธ๊ณ ๋ชจ๋ธ์ ๊ตฌ์ถํฉ๋๋ค. DINO์ ๋ฌ๋ฆฌ masked patches๋ฅผ ์ฌ์ฉํ๋ฉฐ, MAE์ ๋ฌ๋ฆฌ ๋น์์ฑ์ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
- Theia [40]: ๋ค์ํ vision foundation models (segmentation, depth, semantics ๋ฑ)์ ๋จ์ผ ๋ชจ๋ธ๋ก ์ฆ๋ฅํ์ฌ ์ด์ PVR์ ๋ฅ๊ฐํฉ๋๋ค.
- ๊ฐ์ ๋ฐ ํ๊ณ: MAE ๊ธฐ๋ฐ self-supervised ํ์ต์ pixel-level ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ์ ๋ฐํ ๋ก๋ด ์กฐ์์ ์ ์ฉํ๋ฉฐ, DINOv2 ๋ฐ I-JEPA๋ ๊ฐ๊ฐ pixel- ๋ฐ patch-level ํน์ง ํ์ต์ ๊ฐ์ ์ ๊ฐ์ง๋๋ค. Theia๋ ์ฌ๋ฌ VFM์ ์ ๋ณด๋ฅผ ์ตํฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- Video Representations: ๋น๋์ค๋ ์ด๋ฏธ์ง ์ํ์ค๋ก์, ์๊ฐ์ ๋์กฐ ํ์ต ๋ฐ MAE์ ๊ฐ์ ๊ณ ์ ํ ํํ ๊ธฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. NeRF [43, 44] ๋ฐ 3D Gaussian Splatting (3D-GS) [45, 46]๋ ํ๋ถํ 3D ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ค๋์ค [47]๋ ๋ก๋ด ์ ์ฑ ์ ์ค์ํ cues๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค.
- Dynamics Learning: ๋ชจ๋ธ $ f() $์ forward ๋๋ inverse dynamics ์ดํด๋ฅผ ๋ถ์ฌํ๋ objective๋ฅผ ํฌํจํฉ๋๋ค.
- Forward dynamics: $ {t+1} f{fwd}(s_t, a_t) $ (์ฃผ์ด์ง ํ๋์ ๋ฐ๋ฅธ ๋ค์ ์ํ ์์ธก).
- Inverse dynamics: $ t f{inv}(s_t, s_{t+1}) $ (์ด์ ์ํ์์ ๋ค์ ์ํ๋ก ์ ํํ๋ ๋ฐ ํ์ํ ํ๋ ๊ฒฐ์ ).
- Vi-PRoM [48]: ๋น๋์ค ๊ฐ ๊ตฌ๋ณ์ ์ํ ๋์กฐ์ self-supervised ํ์ต, ๋ค์์ธ ๋น๋์ค ํ๋ ์ ๋ณต๊ตฌ, pseudo labels๋ฅผ ์ฌ์ฉํ ์ด๋ฏธ์ง ๋ถ๋ฅ objective๋ฅผ ์ ์ํฉ๋๋ค.
- MIDAS [50]: pretraining์ ์ผ๋ถ๋ก inverse dynamics ์์ธก ์์ ์ ๋์ ํ์ฌ ํ๊ฒฝ์ ์ ํ dynamics ์ดํด๋ฅผ ํฅ์์ํต๋๋ค.
- SMART [51]: forward dynamics ์์ธก, inverse dynamics ์์ธก, ๋ฌด์์๋ก ๋ง์คํน๋ hindsight control์ ํฌํจํ pretraining scheme์ ์ ์ํฉ๋๋ค.
- MaskDP [49]: ์ํ ๋ฐ ํ๋ ํ ํฐ์ ๋ง์คํนํ์ฌ ์ฌ๊ตฌ์ฑํ๋ masked decision prediction ์์ ์ ํตํด forward ๋ฐ inverse dynamics ์ดํด๋ฅผ ์ป์ต๋๋ค.
- VPT [53]: ๋ ์ด๋ธ ์๋ ์ธํฐ๋ท ๋น๋์ค๋ฅผ ํ์ฉํ์ฌ Minecraft์ฉ foundation model์ pretrainํฉ๋๋ค.
- ๊ฐ์ ๋ฐ ํ๊ณ: ์ผ๋ฐ์ ์ผ๋ก forward dynamics ํ์ต์ด inverse dynamics ํ์ต๋ณด๋ค ์ด๋ ต์ง๋ง, ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ต๋๋ค. Inverse dynamics ๋ชจ๋ธ์ ์ํ๋ง ํฌํจ๋ ๋ฐ์ดํฐ์ ์ ํ๋ ๋ ์ด๋ธ์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- World Models: ์ธ๊ณ ๋ชจ๋ธ $ P() $์ ์ธ์์ ๋ํ ์์์ ์ง์์ ์ธ์ฝ๋ฉํ๊ณ ์ฃผ์ด์ง ํ๋์ ๋ํ ๋ฏธ๋ ์ํ $ {t+1} P({t+1}|s_t, a_t) $๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ model-based ์ ์ด ๋ฐ ๊ณํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Dreamer [55]: ์ ์ฌ dynamics ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ์ํด ํํ ๋ชจ๋ธ, ์ ํ ๋ชจ๋ธ, ๋ณด์ ๋ชจ๋ธ์ ์ธ ๊ฐ์ง ์ฃผ์ ๋ชจ๋์ ์ฌ์ฉํฉ๋๋ค. DreamerV2 [56]๋ discrete ์ ์ฌ ์ํ ๊ณต๊ฐ์ ๋์ ํ๊ณ , DreamerV3 [57]๋ ๋ ๋์ ๋๋ฉ์ธ์ผ๋ก ํ์ฅํ์ต๋๋ค.
- IRIS [59]: GPT์ ๊ฐ์ autoregressive Transformer๋ฅผ ์ธ๊ณ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, VQ-VAE๋ฅผ vision encoder๋ก ์ฌ์ฉํฉ๋๋ค.
- LLM-induced World Models: LLM์ ์์์ ์ง์์ ํ์ฉํ์ฌ VLA๋ฅผ ๊ฐ์ ํฉ๋๋ค.
- DECKARD [61]: LLM์ด Minecraft์ ์์ดํ ์ ์์ ์ํ directed acyclic graphs ํํ์ abstract world models (AWMs)๋ฅผ ์์ฑํ๋๋ก ํ๋กฌํํ ํฉ๋๋ค.
- LLM-DM [62]: LLM์ ์ฌ์ฉํ์ฌ Planning Domain Definition Language (PDDL)๋ก ์ธ๊ณ ๋ชจ๋ธ์ ๊ตฌ์ถํฉ๋๋ค.
- RAP [64]: LLM์ ํ๋์ ์์ธกํ๋ ์ ์ฑ ๊ณผ ์ํ ์ ํ ๋ถํฌ๋ฅผ ์ ๊ณตํ๋ ์ธ๊ณ ๋ชจ๋ธ๋ก ์ฌ์ฌ์ฉํฉ๋๋ค. Monte Carlo Tree Search (MCTS)๋ฅผ ํตํฉํ์ฌ ๊ตฌ์กฐํ๋ ๊ณํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- LLM-MCTS [66]: RAP์ ๊ธฐ๋ฐ์ผ๋ก POMDPs๋ก ํ์ฅํ๋ฉฐ, LLM์ด MCTS์ ๊ฒ์ ๊ณต๊ฐ์ ์ค์ฌ ํจ์จ์ฑ์ ํฅ์์ํต๋๋ค.
- Visual World Models: ํ
์คํธ ํํ์ LLM-induced ์ธ๊ณ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, ์๊ฐ ์ธ๊ณ ๋ชจ๋ธ์ ๋ฏธ๋ ์ํ์ ์ด๋ฏธ์ง, ๋น๋์ค, 3D ์ฅ๋ฉด์ ์์ฑํ์ฌ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ๋ ๋ฐ์ ํ๊ฒ ์ ๋ ฌ๋ฉ๋๋ค.
- Genie [69]: Generative Interactive Environments๋ผ๋ ์๋ก์ด ํด๋์ค์ ์์ฑ ๋ชจ๋ธ์ ์๊ฐํ๋ฉฐ, ๋น์ง๋ ๋ฐฉ์์ผ๋ก ํ๋ จ๋์ด ์ฌ์ฉ์๊ฐ ์์ฑ ํ๊ฒฝ๊ณผ ํ๋ ์๋ณ๋ก ์ํธ์์ฉํ ์ ์๋๋ก ํฉ๋๋ค.
- 3D-VLA [70]: diffusion models๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง, ๊น์ด ๋งต, ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ์ ์๊ฐ์ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ณ , ์ฌ์ฉ์์ ์ฟผ๋ฆฌ์ ์๋ตํ์ฌ ๋ชฉํ ์ํ(์ด๋ฏธ์ง ๋๋ ํฌ์ธํธ ํด๋ผ์ฐ๋)๋ฅผ ์์ฑํฉ๋๋ค.
- UniSim [71]: ์ค์ ์ํธ์์ฉ ๋น๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ ๋ชจ๋ธ์ ๊ตฌ์ถํ์ฌ high-level ๋ฐ low-level ํ๋ ๋ชจ๋์ ๋ํ ์๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค.
- E2WM [72]: ๊ธฐ์กด ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ธ๊ณ ๋ชจ๋ธ๋ก ์ฌ์ฉํ์ฌ MCTS๋ฅผ ํตํด embodied ๊ฒฝํ์ ์์งํฉ๋๋ค.
- Reasoning: LLM์ ํต์ฌ ๋ฅ๋ ฅ์ธ CoT (Chain-of-Thought) ์ถ๋ก ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ์ ์ฉํฉ๋๋ค.
- ThinkBot [75]: CoT๋ฅผ ์ ์ฉํ์ฌ sparseํ ์ธ๊ฐ ์ง์์์ ๋๋ฝ๋ ํ๋ ์ค๋ช ์ ๋ณต๊ตฌํฉ๋๋ค.
- ReAct [76]: ์ถ๋ก ํ์ ๊ณผ ํ๋์ interleaveํ์ฌ ํ๋ ๊ณํ์ ์์ฑํ๊ณ ์์์ ์ง์์ ์ฃผ์ ํ๋ฉฐ ์์ธ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
- ECoT [78]: low-level ์ ์ด ์ ์ฑ ์ embodied CoT ์ถ๋ก ์ ํ๋ จ์์ผ ๊ณํ, sub-tasks, ๋์, ์๊ฐ์ ํน์ง์ ๋ํด ์ถ๋ก ํ๋๋ก ํฉ๋๋ค.
B. Low-level Control Policies
VLA ๋ชจ๋ธ $ {} $๋ vision encoder์ language encoder์ ๊ฐ์ ์ง๊ฐ ๋ชจ๋์ action decoder์ ํตํฉํ์ฌ ์ธ์ด ์ง์ p๋ฅผ ์คํํ๋ ์ ์ด ์ ์ฑ ์ผ๋ก ํ์ฑ๋ฉ๋๋ค: $ t {}( t | p, s{t}, a{<t}) $.
- Non-Transformer Control Policies:
- CLIPort [31]: CLIP๊ณผ Transporter ๋คํธ์ํฌ๋ฅผ ํตํฉํ์ฌ โsemanticโ ์ ๋ณด์ โspatialโ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , CLIP ๋ฌธ์ฅ encoder๊ฐ SE(2) ํ๋์ ์ ๋ํฉ๋๋ค.
- BC-Z [79]: ์ธ์ด ์ง์ ๋๋ ์ธ๊ฐ ์์ฐ ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํ๊ณ , FiLM layer๋ฅผ ํตํด ์ง์ ์๋ฒ ๋ฉ๊ณผ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๊ฒฐํฉํ์ฌ ํ๋์ ์์ฑํฉ๋๋ค.
- UniPi [83]: ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํ ์คํธ ์กฐ๊ฑด๋ถ ๋น๋์ค ์์ฑ ๋ฌธ์ ๋ก ์ฒ๋ฆฌํ์ฌ, ์ฃผ์ด์ง ํ ์คํธ ์ง์์ ๋ฐ๋ผ ๋น๋์ค๋ฅผ ์์ฑํ๊ณ inverse dynamics๋ฅผ ํตํด ํ๋์ ์ถ์ถํฉ๋๋ค.
- Transformer-based Control Policies:
- Gato [19]: ๋จ์ผ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์ ์ธํธ๋ก Atari ๊ฒ์, ์ด๋ฏธ์ง ์บก์ , ๋ธ๋ก ์๊ธฐ ๋ฑ ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ โmulti-modal, multi-task, multi-embodiment generalist agentโ์ ๋๋ค.
- RoboCat [92]: Gato ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ self-improvement ํ๋ก์ธ์ค๋ฅผ ์ ์ํ์ฌ 100๊ฐ ๋ฏธ๋ง์ ์์ฐ์ผ๋ก ์๋ก์ด ์์ ์ ๋น ๋ฅด๊ฒ ์ ์ํฉ๋๋ค.
- RT-1 [94]: BC-Z์ ์ ์ฌํ์ง๋ง, EfficientNet ๊ธฐ๋ฐ์ vision encoder์ Transformer decoder๋ฅผ ์ฌ์ฉํ์ฌ ์ด์ฐํ๋ ํ๋์ ์์ฑํฉ๋๋ค.
- Q-Transformer [95]: RT-1์ ํ์ฅํ์ฌ autoregressive Q-functions๋ฅผ ๋์ ํ๊ณ , Q-learning ๋ฐฉ๋ฒ์ ์ฑํํ์ฌ ์ฑ๊ณต์ ์ธ ์์ฐ๋ฟ๋ง ์๋๋ผ ์คํจํ trajectories๋ ํ์ต์ ํ์ฉํฉ๋๋ค.
- ACT [97]: action chunking์ด ์๋ conditional VAE ์ ์ฑ ์ ๊ตฌ์ถํ์ฌ, ์ ์ฑ ์ด ๋จ์ผ ํ๋์ด ์๋ ํ๋ ์ํ์ค๋ฅผ ์์ธกํ๋๋ก ํฉ๋๋ค.
- Control Policies for Multimodal Instructions:
- VIMA [126]: multimodal prompts์ ์ค์ ์ ๋๋ฉฐ, ๊ฐ์ฒด ์กฐ์, ์๊ฐ์ ๋ชฉํ ๋๋ฌ, ์๋ก์ด ๊ฐ๋ ground, one-shot ๋น๋์ค ๋ชจ๋ฐฉ ๋ฑ ๋ณต์กํ ์์ ์ ์ธ์ด ํ๋กฌํํธ๋ง์ผ๋ก๋ ํํํ๊ธฐ ์ด๋ ค์ด ํ์คํฌ๋ฅผ ์ง์ํฉ๋๋ค.
- MOO [93]: RT-1์ ํ์ฅํ์ฌ multimodal prompts๋ฅผ ์ฒ๋ฆฌํ๊ณ , OWL-ViT๋ฅผ ํตํฉํ์ฌ ํ๋กฌํํธ ๋ด ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค.
- Control Policies with 3D Vision: 3D ๋น์ ์ 2D ์ด๋ฏธ์ง๋ณด๋ค ํ๋ถํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
- PerAct [87]: RGB-D ์ ๋ ฅ์์ ์ฌ๊ตฌ์ฑ๋ voxel map์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , gripper ์์ง์์ ์๋ดํ๋ ์ต์์ voxel์ ์ถ๋ ฅ์ผ๋ก ์์ฑํฉ๋๋ค.
- Act3D [88]: ์ฐ์ ํด์๋ 3D feature field๋ฅผ ๋์ ํ์ฌ voxelization์ ๊ณ์ฐ ๋น์ฉ์ ํด๊ฒฐํฉ๋๋ค.
- RVT, RVT-2 [89, 90]: ์ฅ๋ฉด ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ์ ๋ทฐ์์ ์ด๋ฏธ์ง๋ฅผ ์ฌ-๋ ๋๋งํ๊ณ ์ด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- Diffusion-based Control Policies:
- Diffusion Policy [104]: ๋ก๋ด ์ ์ฑ ์ DDPM [128]์ผ๋ก ์ ์ํํ๋ฉฐ, ์๊ฐ ์กฐ๊ฑด๋ถ ๋ฐ ์๊ณ์ด diffusion Transformer์ ๊ฐ์ ๊ธฐ์ ์ ํตํฉํฉ๋๋ค.
- SUDD [106]: LLM์ด ๋ฐ์ดํฐ ์์ฑ์ ์๋ดํ๊ณ , ํํฐ๋ง๋ ๋ฐ์ดํฐ์ ์ด visuo-linguo-motor ์ ์ฑ ์ผ๋ก ์ฆ๋ฅ๋๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- Octo [107]: OXE ๋ฐ์ดํฐ์ [112]์ ํ์ฉํ Transformer ๊ธฐ๋ฐ diffusion ์ ์ฑ ์ผ๋ก, ๋ค์ํ ๋ก๋ด ๋ฐ ์์ ์ ๊ฑธ์ณ ๊ธ์ ์ ์ธ transfer ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
- MDT [109]: DiT ๋ชจ๋ธ [129]์ action prediction head์ ์ ์ฉํ๋ฉฐ, masked generative foresight ๋ฐ contrastive latent alignment ๋ณด์กฐ objective๋ฅผ ํตํด U-Net ๊ธฐ๋ฐ diffusion ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- RDT-1B [110]: DiT๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ bimanual manipulation์ ์ํ diffusion foundation model์ ๋๋ค.
- Diffusion-based Control Policies with 3D Vision:
- DP3 [105]: diffusion ์ ์ฑ ์ 3D ์ ๋ ฅ์ ๋์ ํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- 3D Diffuser Actor [108]: Act3D์ Diffusion Policy๋ฅผ ๊ฒฐํฉํ ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Control Policies for Motion Planning:
- Language costs [84]: ์ธ๊ฐ ์ง์๋ก๋ถํฐ ์์ฑ๋ ์์ธก ๋น์ฉ ๋งต์ ์ฌ์ฉํ์ฌ motion planner๊ฐ ์ต์ ์ ํ๋์ ๊ณ์ฐํ๋๋ก ํฉ๋๋ค.
- VoxPoser [103]: LLM ๋ฐ VLM์ ์ฌ์ฉํ์ฌ affordance ๋ฐ constraint๋ฅผ ๋ํ๋ด๋ ๋ ๊ฐ์ 3D voxel map์ ์์ฑํ๊ณ , ๋ชจ๋ธ ์์ธก ์ ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์คํ ๊ฐ๋ฅํ trajectory๋ฅผ ์์ฑํฉ๋๋ค.
- Control Policies with Point-based Action:
- PIVOT [132]: ๋ก๋ด ์์ ์ ์๊ฐ์ ์ง์์๋ต์ผ๋ก ๊ฐ์ฃผํ์ฌ, VLM์ด ์๊ฐ์ proposals ์งํฉ์์ ์ต์ ์ ๋ก๋ด ํ๋์ ์ ํํ๋๋ก ํฉ๋๋ค.
- RoboPoint [91]: spatial affordance prediction ์์ ์ ์ฌ์ฉํ์ฌ VLM์ finetuneํ๋ฉฐ, 2D ์ด๋ฏธ์ง์ affordance points๋ฅผ ๊น์ด ๋งต์ ์ฌ์ฉํ์ฌ 3D ๊ณต๊ฐ์ผ๋ก ํฌ์ํฉ๋๋ค.
- Large VLA: RT-2 [2]์์ ์ ์๋ ์๋ VLA ์ ์์ ํด๋นํ๋ฉฐ, LLM ๋ฐ VLM๊ณผ ์ ์ฌํ๊ฒ ํฐ ๋ชจ๋ธ ๊ท๋ชจ๋ฅผ ํน์ง์ผ๋ก ํฉ๋๋ค.
- RT-2 [2]: PaLI-X ๋ฐ PaLM-E์ ๊ฐ์ large multimodal models์ ๊ธฐ๋ฅ์ ๋ก๋ด ์์ ์ ํ์ฉํ๋ฉฐ, ์ธํฐ๋ท ๊ท๋ชจ VQA ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํ์ตํ๋ co-fine-tuning์ ๋์ ํฉ๋๋ค.
- RT-H [111]: ์ธ์ด ์ง์์ low-level ํ๋ ์ฌ์ด์ ์ธ์ด ๋์์ ์ค๊ฐ ์์ธก ๋ ์ด์ด๋ฅผ ํฌํจํ๋ action hierarchy๋ฅผ ๋์ ํ์ฌ ๋ฐ์ดํฐ ๊ณต์ ๋ฅผ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
- RT-X [112]: RT-1 ๋ฐ RT-2 ๋ชจ๋ธ์ Open X-Embodiment (OXE)๋ผ๋ ๋ ํฐ ์คํ ์์ค ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌํ๋ จํฉ๋๋ค.
- OpenVLA [37]: RT-2-X์ ์คํ ์์ค ๋ฒ์ ์ผ๋ก, ํจ์จ์ ์ธ fine-tuning ๋ฐฉ๋ฒ์ ํ์ํ์ต๋๋ค.
- **$ _0 $** [115]: VLM์ VLA๋ก ๋ณํํ๊ธฐ ์ํ flow-matching ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ฉฐ, mixture-of-experts ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ถ๊ฐ action expert๋ฅผ ํตํฉํฉ๋๋ค.
- RoboMamba [116]: Transformer๋ฅผ Mamba state space model๋ก ๋์ฒดํ์ฌ ํจ์จ์ ์ธ ๋ก๋ด ์ถ๋ก ๋ฐ ํ๋ ๊ธฐ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
- WorldVLA [122] ๋ฐ UniVLA [123]: VLAs๋ฅผ ์ธ๊ณ ๋ชจ๋ธ๊ณผ ํตํฉํ์ฌ multimodal ๋ฐ์ดํฐ๋ฅผ discrete tokens๋ก ์์ํํ์ฌ, ํ๋ ๋ฐ ํ ์คํธ ์์ฑ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง ์์ฑ๋ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Instruct2Act [102]: LLM์ vision ๋ฐ action tools๋ฅผ ํตํฉํ์ฌ ๋ก๋ด ์์ ์ ์ํํ๋๋ก ํฉ๋๋ค.
- ๊ฐ์ ๋ฐ ํ๊ณ:
- ์ํคํ ์ฒ: FiLM, cross-attention, concatenation, quantization, tool-use ๋ฐฉ์์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ํ๋ ์ ํ ๋ฐ ํ๋ จ ๋ชฉํ: low-level ์ ์ด ์ ์ฑ ์ ์ฃผ๋ก end-effector pose์ ๋ํ ํ๋์ ์์ธกํ๋ฉฐ, ํ๋ ์ ํ์ ๋ฐ๋ผ ๋ค์ํ Behavior Cloning (BC) objective (์: ์ฐ์ ํ๋ $ L_{Cont} = _t MSE(a_t, t) $, ์ด์ฐ ํ๋ $ L{Disc} = _t CE(a_t, t) $) ๋ฐ Diffusion Policy์ DDPM objective (์: $ L{DDPM} = MSE(k, {}(a_t + _k, k)) $)๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- RT ์๋ฆฌ์ฆ: RT-1์ โRobotic Transformerโ ๋ชจ๋ธ ์๋ฆฌ์ฆ์ ์๊ฐ์ ์ฃผ์์ผ๋ฉฐ, Transformer ๋ฐฑ๋ณธ์ ๋ ํฐ ๋ก๋ด ๋ฐ์ดํฐ์ ์ ํก์ํ๋ ๋ฐ ํจ๊ณผ์ ์ ๋๋ค.
- LVLA vs. Generalized VLA: LVLA๋ ์ง์ ๋ฐ๋ฅด๊ธฐ ๋ฅ๋ ฅ์ ํฅ์์ํค์ง๋ง, ํ๋ จ ๋น์ฉ๊ณผ ๋ฐฐํฌ ์๋(๋๋ฆฐ ์ถ๋ก ์๋)๊ฐ ์ฐ๋ ค๋ฉ๋๋ค.
- Scaling Law: LLM๊ณผ ์ ์ฌํ๊ฒ, ๋ก๋ด ๊ณตํ์์๋ model size, data quality, ํ๊ฒฝ ๋ฐ ๊ฐ์ฒด ๋ค์์ฑ์ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ๋ scaling laws๊ฐ ๊ด์ฐฐ๋ฉ๋๋ค.
IV. Task Planners
High-level task planner $ {} $๋ ๋ณต์กํ ์์ $ $์ subtasks ์ํ์ค $ [p_1, p_2, , p_N] {}(, s_t) $๋ก ๋ถํดํ์ฌ low-level ์ ์ด ์ ์ฑ $ _{} $์ ์ง์๋ก ์ฌ์ฉํฉ๋๋ค. ์ด ๊ณผ์ ์ task ๋๋ subgoal decomposition์ผ๋ก ์๋ ค์ ธ ์์ผ๋ฉฐ, TAMP (Task and Motion Planning) ๋ฐ Embodied Decision Making๊ณผ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋์ด ์์ต๋๋ค.
A. Monolithic Task Planners
๋จ์ผ LLM ๋๋ Multimodal LLM (MLLM)์ด ๋ง์ถคํ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ embodied ๋ฐ์ดํฐ์ ์ finetuneํ์ฌ ์์ ๊ณํ์ ์์ฑํ ์ ์์ต๋๋ค.
- End-to-end Task Planners:
- PaLM-E [11]: ViT์ PaLM์ ํตํฉํ์ฌ high-level embodied ์ถ๋ก ์์ ์ ์ํํ ์ ์๋ large embodied multimodal language model์ ์์ฑํฉ๋๋ค. ์ธ์ง๋ ์ด๋ฏธ์ง์ high-level ์ธ์ด ์ง์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก low-level ๋ก๋ด ์ ์ฑ ์ ์ํ ํ ์คํธ ๊ณํ์ ์์ฑํฉ๋๋ค.
- EmbodiedGPT [136]: vision encoder ์๋ฒ ๋ฉ ๋ฐ LLM์ด ์ ๊ณตํ๋ embodied planning ์ ๋ณด๋ก๋ถํฐ task-relevant instance-level ํน์ง์ ์ถ๋ ฅํ๋ embodied-former๋ฅผ ๋์ ํฉ๋๋ค.
- End-to-end Task Planners with 3D Vision:
- LEO [137]: point cloud encoder๋ฅผ LLM๊ณผ ํตํฉํ๊ธฐ ์ํ 2๋จ๊ณ ํ๋ จ ์ ๋ต์ ์ฌ์ฉํ๋ฉฐ, 3D ์ง์์๋ต๋ฟ๋ง ์๋๋ผ ์กฐ์, ๋ด๋น๊ฒ์ด์ , ์์ ๊ณํ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- 3D-LLM [44]: LLM์ 3D ์ ๋ณด๋ฅผ ์ฃผ์ ํ์ฌ 3D-assisted dialog ๋ฐ ๋ด๋น๊ฒ์ด์ ๊ณผ ๊ฐ์ 3D ์์ ์ ์ํํ ์ ์๋๋ก ํฉ๋๋ค.
- ShapeLLM [138]: ์๋ก์ด 3D vision encoder์ธ ReCon++๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋๋ฉฐ, ReCon++๋ฅผ LLaMA์ ํตํฉํ์ฌ 3D MM-Vet ๋ฒค์น๋งํฌ์์ embodied ์ํธ์์ฉ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- Grounded Task Planners: low-level ์ ์ด ์ ์ฑ
์ ์ํด ์คํ๋ ์ ์๋์ง ์ฌ๋ถ๋ฅผ ๊ณ ๋ คํ์ฌ high-level ํ๋์ ์์ฑํฉ๋๋ค.
- SayCan [10]: high-level LLM planner์ low-level ์ ์ด ์ ์ฑ ์ ํตํฉํ๋ ํ๋ ์์ํฌ๋ก, LLM์ด ๋ค์ low-level skill์ โsaysโ (task-grounding)ํ๊ณ low-level ์ ์ฑ ์ด skill ์๋ฃ ๊ฐ๋ฅ์ฑ์ โcanโ (world-grounding)์ผ๋ก ์ ๊ณตํฉ๋๋ค.
- Translated $ LM $ [139]: pretrained causal LLM์ ์ฌ์ฉํ์ฌ high-level ์ง์๋ฅผ free-form ์ธ์ด ๊ตฌ๋ฌธ์ผ๋ก ๋ ๋ค์ ํ๋์ผ๋ก ๋ถํดํ๊ณ , pretrained masked LLM์ด ํ๋ ๋ฒ์ญ์ ์ํํฉ๋๋ค.
B. Modular Task Planners
end-to-end ๋ชจ๋ธ์ finetuneํ๋ ๋น์ฉ์ด ๋ง์ด ๋ค ์ ์์ผ๋ฏ๋ก, off-the-shelf LLM ๋ฐ VLM์ task planner๋ก ์กฐ๋ฆฝํ๋ ๋ชจ๋์ ์ค๊ณ๋ฅผ ์ฑํํฉ๋๋ค.
- Language-based Task Planners:
- Inner Monologue [9]: high-level ๋ช ๋ น๊ณผ low-level ์ ์ฑ ์ฌ์ด์ ์์นํ์ฌ, LLM์ด low-level ์ ์ด ์ ์ฑ ์ ์ํ ์ธ์ด ์ง์๋ฅผ ์์ฑํ๊ณ ์ ์ด ์ ์ฑ ์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฌํ ์ง์๋ฅผ ๋์ ์ผ๋ก ์ ๋ฐ์ดํธํฉ๋๋ค.
- LLM-Planner [141]: high-level planner์ low-level planner๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ์ ์ฑ ์ ๋์ ํ๋ฉฐ, ์ฌ๊ณํ ๋ฉ์ปค๋์ฆ์ ํตํฉํ์ฌ ๋ก๋ด์ด โget unstuckโ๋๋ ๊ฒ์ ๋์ต๋๋ค.
- Socratic Models (SMs) [143]: ๋ค์ํ pretrained ๋ชจ๋ธ์ finetune ์์ด ํจ๊ณผ์ ์ผ๋ก ๊ตฌ์ฑํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, multimodal-informed prompting์ ํตํด ๋ค์ํ multimodal ๊ธฐ๋ฅ์ ๊ฐ์ง ๋ชจ๋ธ ๊ฐ ์ ๋ณด ๊ตํ์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
- Code-based Task Planners: LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ํ๋ก๊ทธ๋จ ํํ์ ์์
๊ณํ์ ์์ฑํฉ๋๋ค.
- ProgPrompt [144]: LLM์ ์ฌ์ฉ ๊ฐ๋ฅํ ํ๋ ๋ฐ ๊ฐ์ฒด๋ฅผ ์์ธํ ์ค๋ช ํ๋ ํ๋ก๊ทธ๋จ๊ณผ ์ ์ฌํ ์ฌ์์ ํ๋กฌํํ ํ์ฌ high-level ๊ณํ์ ์์ฑํฉ๋๋ค.
- ChatGPT for Robotics [145]: ChatGPT์ ํ๋ก๊ทธ๋๋ฐ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ API๋ฅผ ํตํด low-level ํ๋์ ์์ฑํ๋ โuser on the loopโ ์ ์ด๋ฅผ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
- Code as policies (CaP) [146]: GPT-3 ๋๋ Codex๋ฅผ ์ฌ์ฉํ์ฌ perception ๋ชจ๋ ๋ฐ ์ ์ด API๋ฅผ ํธ์ถํ๋ ์ ์ฑ ์ฝ๋๋ฅผ ์์ฑํฉ๋๋ค.
- DEPS [147]: LLM์ด ํ๊ฒฝ์์ ์์ง๋ ํผ๋๋ฐฑ ์ค๋ช ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณํ์ ์์ฑํ๊ณ ์คํจ๋ฅผ ์ค๋ช (โself-explanationโ)ํ์ฌ ์ฌ๊ณํ์ ๋์์ ์ค๋๋ค.
- ConceptGraphs [148]: ๊ด์ฐฐ ์ํ์ค๋ฅผ open-vocabulary 3D scene graphs๋ก ๋ณํํ๋ฉฐ, VLM์ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด๋ฅผ ์บก์ ํ๊ณ ๊ฐ์ฒด ๊ฐ ๊ด๊ณ๋ฅผ ์ค์ ํ์ฌ LLM์ ํ๋ถํ semantic ๋ฐ spatial ๊ด๊ณ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๊ฐ์ ๋ฐ ํ๊ณ: End-to-end ๋ชจ๋ธ์ finetune์ ํตํด ์ฑ๋ฅ์ ๋์ผ ์ ์์ง๋ง ํ๋ จ ๋น์ฉ์ด ๋์ต๋๋ค. ๋ชจ๋์ ์ ๊ทผ ๋ฐฉ์์ ์ฆ์ ๋ฐฐํฌ ๊ฐ๋ฅํ๋ฉฐ, ์ธ์ด ๊ธฐ๋ฐ ๋ชจ๋ธ์ LLM๊ณผ VLM ํตํฉ์ด ์ฉ์ดํ์ง๋ง, ์ฝ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ ํฐ ์ ์ด๋ ฅ์ ์ ๊ณตํ๋ฉฐ ๋๋ฒ๊น ์ด ๊ฐ๋ฅํฉ๋๋ค.
V. Datasets and Benchmarks
Embodied AI๋ ์ค์ธ๊ณ ๋ก๋ด ๋ฐ์ดํฐ์ scarcity ๋ฌธ์ ์ ์ง๋ฉดํด ์์ต๋๋ค.
A. Real-world Robot Datasets & Benchmarks: ๋ก๋ด ์ฅ๋น ์กฐ๋ฌ, ํ๊ฒฝ ์ค์ , ๋ฐ์ดํฐ ์์ง ๋น์ฉ ๋ฐ ์๊ฐ, ๋ค์ํ ๋ก๋ด ์ ํ ๋ฐ ๊ตฌ์ฑ์ผ๋ก ์ธํ ๋ฐ์ดํฐ ๋ถ์ผ์น, ๊ฐ์ฒด 6D poses์ ์ ํํ ์บก์ฒ์ ์ด๋ ค์ ๋ฑ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค (ํ V).
B. Simulators, Simulated Robot Datasets & Benchmarks: ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ์ค์ ์ธ๊ณ์ ์ฅ์ ๋ฌผ์ ์ฐํํ๊ณ ๋ฐ์ดํฐ ์์ง ํ๋ก์ธ์ค๋ฅผ ํ์ฅํ๋ ๋ฐ ์ฌ์ฉ๋์ง๋ง, sim-to-real gap ๋ฌธ์ ๊ฐ ์์ต๋๋ค (ํ VI). ์ด๋ ๋นํ์ค์ ์ธ ๋ ๋๋ง ํ์ง, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๋ถ์ ํ์ฑ, ๊ฐ์ฒด ํน์ฑ ๋ฐ ๋ก๋ด ๋์ ๊ณํ์ ๋๋ฉ์ธ shift์์ ๋ฐ์ํฉ๋๋ค.
C. Automated Dataset Collection: RoboGen [187], AutoRT [188], DIAL [189] ๋ฐ RoboPoint [91]์ ๊ฐ์ ์ ๊ทผ ๋ฐฉ์์ ์๋ํ๋ ๋ฐ์ดํฐ์ ์์ง์ ์ ์ํฉ๋๋ค.
D. Human Datasets: ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๊ฒ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋์์ ์ธ ์ ๋ต์ ๋๋ค. ๊ทธ๋ฌ๋ ์ธ๊ฐ์ ์/๋ชธ ๋์์ ๋ก๋ด embodiment๋ก ์บก์ฒํ๊ณ ์ ์กํ๋ ์ด๋ ค์, ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ถ์ผ์น์ฑ, ์ ์ฉํ ์ ๋ณด ์ถ์ถ์ ๋ ธ๋ ์ง์ฝ์ฑ ๋ฑ์ ๋จ์ ์ด ์์ต๋๋ค.
E. Task Planning Benchmarks: EgoPlan-Bench [192], PlanBench [193, 194], LoTa-Bench [195]๋ ์์ ๊ณํ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Embodied Agent Interface (EAI) [196]๋ LLM ๊ธฐ๋ฐ ๋ชจ๋์ ์ ๋ ฅ-์ถ๋ ฅ์ ์ ์ํํ์ฌ ๋ ์ธ๋ถํ๋ metrics๋ฅผ ์ ๊ณตํฉ๋๋ค.
F. Embodied Question Answering Benchmarks: EQA ๋ฒค์น๋งํฌ (ํ VII)๋ ์ง์ ์ ์ผ๋ก ๋ก๋ด ์์ ์ ํ๊ฐํ์ง ์์ง๋ง, ๊ณต๊ฐ ์ถ๋ก , ๋ฌผ๋ฆฌ ์ดํด, ์ธ๊ณ ์ง์๊ณผ ๊ฐ์ embodied AI์ ๊ด๋ จ๋ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ์์ด์ ํธ๊ฐ ๋ต๋ณ์ ์ ๊ณตํ๊ธฐ ์ ์ ํ๊ฒฝ์ ๋ฅ๋์ ์ผ๋ก ํ์ํ ์ ์๋ค๋ ์ ์์ ์๊ฐ์ ์ง์์๋ต ๋ฒค์น๋งํฌ์ ๋ค๋ฆ ๋๋ค.
VI. Challenges and Future Directions
- Safety first: ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ํธ์์ฉํ๋ฏ๋ก ์์ ์ด ๊ฐ์ฅ ์ค์ํฉ๋๋ค.
- Datasets & Benchmarks: ๊ด๋ฒ์ํ ๊ธฐ์ , ๊ฐ์ฒด, embodiment ๋ฐ ํ๊ฒฝ์ ํฌ๊ดํ๋ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ๊ฐ ํ์ํ๋ฉฐ, ์ฑ๊ณต๋ฅ ์ด์์ ์ธ๋ถํ๋ metrics๊ฐ ํ์ํฉ๋๋ค.
- Foundation Models & Generalization: VLA foundation models ๋๋ robotic foundation models (RFM)์embodiments, ํ๊ฒฝ ๋ฐ ์์ ์ ๋ค์์ฑ์ผ๋ก ์ธํด ์ฌ์ ํ ๊ฐ๋ฐฉ๋ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค.
- Multimodality: ์ ์ฉํ ์๋ฒ ๋ฉ ํ๋ ๋ฐ ๋ค๋ฅธ ์์์ ์ ๋ ฌ๊ณผ ๊ฐ์ multimodal ๋ชจ๋ธ๊ณผ ๊ด๋ จ๋ ๋ง์ ๊ณผ์ ๋ฅผ ์์๋ฐ์ต๋๋ค.
- Framework for Long-Horizon Tasks: ๊ณ์ธต์ ํ๋ ์์ํฌ๊ฐ ๊ฐ์ฅ ์ค์ฉ์ ์ด์ง๋ง, ์์คํ ๋ณต์ก์ฑ๊ณผ ์ ์ฌ์ ์คํจ ์ง์ ์ ์ฆ๊ฐ์ํต๋๋ค. end-to-end ๋ฐฉ์์ผ๋ก long-horizon ์์ ์ low-level ์ ์ด ์ ํธ๋ก ์ง์ ๋ณํํ๋ ํตํฉ ํ๋ ์์ํฌ ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค.
- Real-Time Responsiveness: ๋ง์ ๋ก๋ด ์ ํ๋ฆฌ์ผ์ด์ ์ ๋์ ํ๊ฒฝ์ ๋์ํ๊ธฐ ์ํด ์ค์๊ฐ ์์ฌ๊ฒฐ์ ์ด ํ์ํ๋ฉฐ, ์ถ๋ก ์๊ฐ์ด ํ๊ฒฝ ๋ณํ๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๋ฉด obsolete ํ๋์ ์์ฑํ ์ ์์ต๋๋ค.
- Multi-agent Systems: ๋ถ์ฐ๋ ์ธ์ ๋ฐ ํ์ ์ ๊ณ ์ฅ ๋ณต๊ตฌ์ ๊ฐ์ ์ด์ ์ ์ ๊ณตํ์ง๋ง, ํจ๊ณผ์ ์ธ ํต์ , ์กฐ์ ๋ dispatching, fleet heterogeneity ๋ฑ์ ๋ฌธ์ ์ ์ง๋ฉดํฉ๋๋ค.
- Ethical and Societal Implications: ํ๋ผ์ด๋ฒ์, ์ผ์๋ฆฌ ๋์ฒด, ์์ฌ๊ฒฐ์ ํธํฅ, ์ฌํ ๊ท๋ฒ ๋ฐ ์ธ๊ฐ ๊ด๊ณ์ ๋ฏธ์น๋ ์ํฅ๊ณผ ๊ด๋ จ๋ ์ค๋ฆฌ์ , ์ฌํ์ , ๋ฒ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
- Applications: ๋๋ถ๋ถ์ ํ์ฌ VLA๋ ๊ฐ์ ๋๋ ์ฐ์ ํ๊ฒฝ์ ์ค์ ์ ๋์ง๋ง, ๊ฐ์ ๋น์, ์์จ ์ฃผํ์ฐจ, ๋์ ๋ก๋ด ๋ฑ ๋ ๋์ ๋ฒ์์ ์์ฉ ๋ถ์ผ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
VII. ๊ฒฐ๋ก
VLA ๋ชจ๋ธ์ embodied agents๊ฐ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ํธ์์ฉํ๊ณ ์ฌ์ฉ์ ์ง์๋ฅผ ์ดํํ๋ ๋ฐ ์์ฒญ๋ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ Large VLAs์ generalized VLAs๋ฅผ ๊ฒํ ํ ์ต์ด์ ์กฐ์ฌ ๋ ผ๋ฌธ์ผ๋ก, ๋ชจ๋ธ ์ํคํ ์ฒ, ํ๋ จ ์ ๋ต ๋ฐ ๊ฐ๋ณ ๋ชจ๋์ ํฌํจํ ๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ์ ๋ถ์ ๋ฐ ๋น๊ตํฉ๋๋ค. ๋ํ, ๋ฐ์ดํฐ์ , ์๋ฎฌ๋ ์ดํฐ ๋ฐ ๋ฒค์น๋งํฌ์ ๊ฐ์ VLA ํ๋ จ ๋ฐ ํ๊ฐ๋ฅผ ์ํ ํ์ ์์์ ๊ฐ์กฐํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
โ๋ฌผ๋ฆฌ ์ธ๊ณ์์ ํ๋ํ๋ AI๋ฅผ ๋ง๋ค๋ ค๋ฉด, ๋จผ์ ๋ณด๊ณ , ์ดํดํ๊ณ , ํ๋ํด์ผ ํฉ๋๋ค.โ
โ ์ด ์๋ฒ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ๋ฉ์์ง
๐ฏ ์๋ก : ์ VLA์ธ๊ฐ?
์ฌ๋ฌ๋ถ์ด ๋ก๋ด์๊ฒ โ์ ๋นจ๊ฐ ์ฌ๊ณผ๋ฅผ ์ง์ด์ ์ ์์ ์ฌ๋ ค์คโ๋ผ๊ณ ๋งํ๋ค๊ณ ์์ํด ๋ด ์๋ค. ์ด ๊ฐ๋จํ ์ง์๋ฅผ ์ํํ๋ ค๋ฉด ๋ก๋ด์:
- Vision (์๊ฐ): โ์ ๋นจ๊ฐ ์ฌ๊ณผโ๊ฐ ์ด๋์ ์๋์ง ๋ด์ผ ํฉ๋๋ค
- Language (์ธ์ด): โ์ง์ด์ ์ ์์ ์ฌ๋ คโ๋ผ๋ ๋ช ๋ น์ ์ดํดํด์ผ ํฉ๋๋ค
- Action (ํ๋): ์ค์ ๋ก ๊ทธ๋ฆฌํผ๋ฅผ ์์ง์ฌ ์์ ์ ์ํํด์ผ ํฉ๋๋ค
์ด ์ธ ๊ฐ์ง๊ฐ ์๋ฒฝํ๊ฒ ํตํฉ๋์ด์ผ๋ง ๋ก๋ด์ ์ผ์์ ์ธ ์์ ์ ์ํํ ์ ์์ต๋๋ค. ๋ฐ๋ก ์ด๊ฒ์ด Vision-Language-Action Model (VLA)์ ํต์ฌ์ ๋๋ค.
ChatGPT์ VLA์ ๊ฒฐ์ ์ ์ฐจ์ด
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Conversational AI (ChatGPT) โ
โ Input: Text โโโโโโโบ LLM โโโโโโโบ Output: Text โ
โ (์ธ์ด์ ์ธ๊ณ์์๋ง ๋์) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Embodied AI (VLA) โ
โ Input: Vision + Language โโโบ VLA โโโบ Output: Physical Actions โ
โ (๋ฌผ๋ฆฌ ์ธ๊ณ์ ์ํธ์์ฉ) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
ChatGPT๊ฐ โํ ์คํธ๋ฅผ ํ ์คํธ๋กโ ๋ณํํ๋ค๋ฉด, VLA๋ โ์๊ฐ๊ณผ ์ธ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ํ๋์ผ๋กโ ๋ณํํฉ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก AGI(๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ)๋ก ๊ฐ๋ ํต์ฌ ๋น๋ฉ ๋ธ๋ก์ธ ์ด์ ์ ๋๋ค.
๐บ๏ธ VLA์ ๋ถ๋ฅ ์ฒด๊ณ (Taxonomy)
์ด ์๋ฒ ์ด์ ๊ฐ์ฅ ํฐ ๊ณตํ ์ค ํ๋๋ VLA ์ฐ๊ตฌ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ ๊ฒ์ ๋๋ค. ์๋ ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ํ์ ํด ๋ด ์๋ค:
ํต์ฌ ํต์ฐฐ: โ๊ณ์ธต์ ํ๋ ์์ํฌโ
ํ๋ ๋ก๋ด ์์คํ ์ ๋๋ถ๋ถ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฑํํฉ๋๋ค:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๐ง High-Level Task Planner (๊ณ ์์ค ํ์คํฌ ํ๋๋) โ
โ "์ฌ๊ณผ๋ฅผ ์ง์ด์ ์ ์์ ์ฌ๋ ค" โ ์๋ธํ์คํฌ๋ก ๋ถํด โ
โ [1. ์ฌ๊ณผ ์์น ์ฐพ๊ธฐ] [2. ๊ทธ๋ฆฌํผ ์ด๋] [3. ์ง๊ธฐ] [4. ์ฎ๊ธฐ๊ธฐ] โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๐ฆพ Low-Level Control Policy (์ ์์ค ์ ์ด ์ ์ฑ
) โ
โ ๊ฐ ์๋ธํ์คํฌ๋ฅผ ์ค์ ๋ก๋ด ๋์์ผ๋ก ๋ณํ โ
โ a_t = ฯ_ฮธ(a_t | p, s_โคt, a_<t) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์ด ๊ตฌ์กฐ๊ฐ ํจ๊ณผ์ ์ธ ์ด์ : - ๊ณ ์์ค ํ๋๋: ๋์ฉ๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ํ์ฉ - ์ ์์ค ์ ์ฑ : ์๋์ ์ ๋ฐ๋์ ์ง์ค
๐งฉ Part 1: VLA์ ๊ตฌ์ฑ ์์ (Components)
1.1 ๊ฐํํ์ต (Reinforcement Learning)
VLA์ ๋ฟ๋ฆฌ๋ ๊ฐํํ์ต์ ์์ต๋๋ค. MDP(Markov Decision Process)๋ก ํํํ๋ฉด:
\tau = (s_1, a_1, r_1, \ldots, s_T, a_T, r_T)
์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ๋ฐ์ ๋ค:
| ๋ชจ๋ธ | ํต์ฌ ์์ด๋์ด | VLA์ ๋ฏธ์น ์ํฅ |
|---|---|---|
| Decision Transformer | RL ๊ถค์ ์ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ก ์ฌ์ ์ | Transformer๊ฐ RL์ ์ ์ฉ๋ ์ ์์์ ์ฆ๋ช |
| Trajectory Transformer | ์ ์ฒด ๊ถค์ ์ ํ๋์ ์ํ์ค๋ก ์ฒ๋ฆฌ | ๋ฉํฐ๋ชจ๋ฌ ์ํ์ค ์ฒ๋ฆฌ์ ๊ธฐ์ด |
| Gato | ๋ฉํฐ๋ชจ๋ฌ, ๋ฉํฐํ์คํฌ, ๋ฉํฐ-์ ๋ฐ๋๋จผํธ | ํ๋ VLA์ ์ง์ ์ ์ ์กฐ |
ํ์ธ๋ง์ ์ง๊ด
โRL ๊ถค์ ์ด ๋ฌธ์ฅ๊ณผ ๊ฐ๋ค๋ฉด, Decision Transformer๋ ๊ทธ ๋ฌธ์ฅ์ โ์ฝ๋โ ๋ฒ์ ๋ฐฐ์ด ๊ฒ์ ๋๋ค. ๋ง์น ์ฐ๋ฆฌ๊ฐ ์์ค์ ์ฝ์ผ๋ฉฐ ๋ค์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋ ์ง ์์ธกํ๋ฏ์ด, ๋ก๋ด๋ ์ด์ ์ํ์ ํ๋์ โ์ด์ผ๊ธฐโ๋ฅผ ์ฝ๊ณ ๋ค์ ํ๋์ ์์ธกํฉ๋๋ค.โ
1.2 ์ฌ์ ํ์ต๋ ์๊ฐ ํํ (Pretrained Visual Representations)
VLA์ ๋ ์ญํ ์ ํ๋ Vision Encoder๋ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ฃผ์ ์ ๊ทผ๋ฒ๋ค:
graph LR
subgraph Methods["์๊ฐ ํํ ํ์ต ๋ฐฉ๋ฒ"]
CLIP["CLIP (ํ
์คํธ-์ด๋ฏธ์ง ๋์กฐํ์ต)"]
TCL["Time Contrastive (์๊ฐ ๋์กฐํ์ต)"]
MAE["MAE (๋ง์คํฌ ์คํ ์ธ์ฝ๋)"]
DINO["DINOv2 (์๊ธฐ์ฆ๋ฅ)"]
end
CLIP --> |Image-level| VE[Vision Encoder]
TCL --> |Temporal| VE
MAE --> |Pixel-level| VE
DINO --> |Both levels| VE
์ฃผ์ PVR ๋ชจ๋ธ ๋น๊ต
| ๋ชจ๋ธ | ๋คํธ์ํฌ | ํ์ต ๋ฐฉ์ | ํน์ง |
|---|---|---|---|
| CLIP | ViT-B | VL ๋์กฐํ์ต | ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋จ |
| R3M | ResNet-50 | ์๊ฐ ๋์กฐํ์ต | ์๊ฐ์ ๊ด๊ณ ํ์ต |
| MVP | ViT-B/L | MAE | ํฝ์ ์์ค ์ธ๋ถ์ ๋ณด |
| VIP | ResNet-50 | ์๊ฐ ๋์กฐํ์ต | ๋ณด์ ํจ์๋ก๋ ํ์ฉ |
| VC-1 | ViT-L | MAE + CL | ์ข ํฉ์ ๋น๊ต ์ฐ๊ตฌ |
| DINOv2 | ViT | ์๊ธฐ์ฆ๋ฅ | ํฝ์ +์ด๋ฏธ์ง ์์ค ๋ชจ๋ |
| Theia | ViT | ์ฆ๋ฅ(Distillation) | ์ฌ๋ฌ VFM ํตํฉ |
ํต์ฌ ์์: ๋์กฐ ํ์ต
CLIP์ ํ์ต ๋ชฉํ: \mathcal{L} = -\sum_{i=1}^{N} \log \frac{\exp(\mathcal{S}(x_i, y_i))}{\sum_{j=1}^{N} \exp(\mathcal{S}(x_i, y_j))}
์ฌ๊ธฐ์ (x_i, y_i)๋ ์ด๋ฏธ์ง-ํ ์คํธ ์, \mathcal{S}(\cdot)๋ ์ ์ฌ๋ ์ธก์
1.3 ๋์ญํ ํ์ต (Dynamics Learning)
๋ก๋ด์ด โ๋ฌผ๋ฆฌ ๋ฒ์นโ์ ์ดํดํ๊ฒ ํ๋ ๋ฐฉ๋ฒ:
Forward Dynamics (์๋ฐฉํฅ ๋์ญํ):
ล_{t+1} โ f_fwd(s_t, a_t)
"์ด ํ๋์ ํ๋ฉด ๋ค์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋ ๊น?"
Inverse Dynamics (์ญ๋ฐฉํฅ ๋์ญํ):
รข_t โ f_inv(s_t, s_{t+1})
"์ด ์ํ์์ ์ ์ํ๋ก ๊ฐ๋ ค๋ฉด ์ด๋ค ํ๋์ ํด์ผ ํ ๊น?"
ํ์ธ๋ง์ ์ง๊ด
โ์๋ฐฉํฅ ๋์ญํ์ ๋น๊ตฌ๊ณต์ ์น ๋ ๊ณต์ด ์ด๋๋ก ๊ฐ์ง ์์ธกํ๋ ๊ฒ๊ณผ ๊ฐ๊ณ , ์ญ๋ฐฉํฅ ๋์ญํ์ ๊ณต์ด ํน์ ์์น์ ๊ฐ๊ฒ ํ๋ ค๋ฉด ์ด๋ป๊ฒ ์ณ์ผ ํ๋์ง ์์๋ด๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.โ
1.4 ์๋ ๋ชจ๋ธ (World Models)
์๋ ๋ชจ๋ธ์ ๋ก๋ด์ด โ์์ ์์์โ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๋ฅ๋ ฅ์ ๋๋ค:
\hat{s}_{t+1} \sim P(\hat{s}_{t+1} | s_t, a_t)
graph TB
subgraph WMTypes["์๋ ๋ชจ๋ธ์ ์ข
๋ฅ"]
LWM["LLM-induced World Models (ํ
์คํธ ๊ธฐ๋ฐ)"]
VWM["Visual World Models (์ด๋ฏธ์ง/์์ ๊ธฐ๋ฐ)"]
end
LWM --> DECKARD["DECKARD (DAG ํํ ์ถ์ ์๋ ๋ชจ๋ธ)"]
LWM --> RAP["RAP (MCTS + LLM)"]
LWM --> LLMDM["LLM-DM (PDDL ์์ฑ)"]
VWM --> Genie["Genie (์ํธ์์ฉ ํ๊ฒฝ ์์ฑ)"]
VWM --> 3DVLA["3D-VLA (3D ๋ชฉํ ์ํ ์์ฑ)"]
VWM --> UniSim["UniSim (์ค์ธ๊ณ ์๋ฎฌ๋ ์ด์
)"]
Dreamer ์๋ฆฌ์ฆ์ ํต์ฌ ์์ด๋์ด
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Dreamer์ ์ธ ๊ฐ์ง ํต์ฌ ๋ชจ๋ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ 1. Representation Model: ์ด๋ฏธ์ง โ ์ ์ฌ ์ํ ์ธ์ฝ๋ฉ โ
โ 2. Transition Model: ์ ์ฌ ์ํ ๊ฐ ์ ์ด ํ์ต โ
โ 3. Reward Model: ์ํ์ ๋ํ ๋ณด์ ์์ธก โ
โ โ
โ โ "๊ฟ์์์(imagination) ํ๋์ ํ์ตํ๊ณ ํ์ค์ ์ ์ฉ" โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
1.5 ์ถ๋ก (Reasoning)
Chain-of-Thought (CoT) ๊ธฐ๋ฒ์ด VLA์๋ ์ ์ฉ๋ฉ๋๋ค:
| ๋ชจ๋ธ | ์ ๊ทผ ๋ฐฉ์ | ์ ์ฉ ๋ ๋ฒจ |
|---|---|---|
| ThinkBot | CoT๋ก ๋๋ฝ๋ ํ๋ ์ค๋ช ๋ณต์ | ํ์คํฌ ํ๋๋ |
| ReAct | ์ถ๋ก ๊ณผ ํ๋์ ๋ฒ๊ฐ์ ์ํ | ์์ฌ๊ฒฐ์ |
| ECoT | VLA์ CoT ์ถ๋ก ๋ฅ๋ ฅ ๋ถ์ฌ | ์ ์์ค ์ ์ด |
ECoT์ ํ์ ์ ์ ๊ทผ
๊ธฐ์กด VLA:
๊ด์ฐฐ + ์ง์ โ ๋ฐ๋ก ํ๋ ์ถ๋ ฅ ("๊ทผ์ก ๊ธฐ์ต" ๋ฐฉ์)
ECoT:
๊ด์ฐฐ + ์ง์ โ [๊ณํ ์ถ๋ก ] โ [์๋ธํ์คํฌ ์ถ๋ก ] โ [๋์ ์ถ๋ก ] โ [์๊ฐ ํน์ง ์ถ๋ก ] โ ํ๋ ์ถ๋ ฅ
๐ฎ Part 2: ์ ์์ค ์ ์ด ์ ์ฑ (Low-Level Control Policies)
VLA ์ ์ด ์ ์ฑ ์ ์ผ๋ฐ ๊ณต์
\hat{a}_t \sim \pi_\theta(\hat{a}_t | p, s_{\leq t}, a_{<t})
- p: ์ธ์ด ์ง์
- s_{\leq t}: ํ์ฌ๊น์ง์ ์ํ (์ฃผ๋ก ์ด๋ฏธ์ง)
- a_{<t}: ์ด์ ํ๋๋ค
- \pi_\theta: ํ๋ผ๋ฏธํฐ \theta๋ฅผ ๊ฐ์ง ์ ์ฑ
2.1 ์ํคํ ์ฒ๋ณ ๋ถ๋ฅ
flowchart TB
subgraph Arch["์ ์ด ์ ์ฑ
์ํคํ
์ฒ"]
NT[Non-Transformer]
TF[Transformer-based]
DF[Diffusion-based]
LV[Large VLA]
end
NT --> CLIPort[CLIPort]
NT --> BCZ[BC-Z]
NT --> HULC[HULC]
TF --> RT1[RT-1]
TF --> Gato[Gato]
TF --> VIMA[VIMA]
TF --> PerAct[PerAct]
DF --> DiffPolicy[Diffusion Policy]
DF --> Octo[Octo]
DF --> DP3[DP3]
LV --> RT2[RT-2]
LV --> OpenVLA[OpenVLA]
LV --> Pi0[ฯ0]
2.2 ํต์ฌ ๋ชจ๋ธ ์ฌ์ธต ๋ถ์
CLIPort: VLA์ ์ ๊ตฌ์
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ CLIPort Architecture โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ RGB Image โโโบ CLIP Vision Encoder โโโบ "Semantic" Stream โ
โ โ โ โ
โ โผ โผ โ
โ RGB-D Image โโโบ Transporter Network โโโบ "Spatial" Stream โ
โ โ โ
โ Language โโโโโโโบ CLIP Sentence Encoder โโโโโโโค โ
โ โผ โ
โ SE(2) Action โ
โ (Pick & Place Pose) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
ํต์ฌ ์ธ์ฌ์ดํธ: โ๋ฌด์์(Semantic)โ + โ์ด๋์(Spatial)โ = ์์ ํ ์กฐ์
RT-1: ๋๊ท๋ชจ ์ค์ธ๊ณ ์ ์ด์ ์์
| ๊ตฌ์ฑ ์์ | ์์ธ |
|---|---|
| Vision Encoder | EfficientNet |
| Language Encoder | Universal Sentence Encoder |
| Action Decoder | Transformer with FiLM conditioning |
| ํ์ต ๋ฐ์ดํฐ | Fractal (130k ์ํผ์๋) |
| ํ๋ ํ์ | ์ด์ฐํ๋ ํ๋ (Discretized) |
VIMA: ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ์ ํ
VIMA์ ํ์ ์ ์ธ ์ ์ ์ธ์ด ์ธ์๋ ๋ค์ํ ํ๋กฌํํธ๋ฅผ ๋ฐ์ ์ ์๋ค๋ ๊ฒ:
์ง์ํ๋ ํ๋กฌํํธ ํ์
:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ํ
์คํธ๋ง: "Stack the red block on the blue block" โ
โ 2. ํ
์คํธ + ์ด๋ฏธ์ง: "Pick up the [๐ผ๏ธ] and place it here" โ
โ 3. ๋น๋์ค ๋ฐ๋ชจ: "Do what you see in this video" โ
โ 4. ๋ชฉํ ์ด๋ฏธ์ง: "Make the scene look like [๐ผ๏ธ]" โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
2.3 Diffusion-based ์ ์ฑ
Diffusion Policy๋ ๋ก๋ด ์กฐ์์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ต๋๋ค:
a_t^{(k-1)} = \frac{1}{\sqrt{\alpha_k}}\left(a_t^{(k)} - \frac{\beta_k}{\sqrt{1-\bar{\alpha}_k}}\epsilon_\theta(a_t^{(k)}, s_t, k)\right) + \sigma_k z
์ Diffusion์ธ๊ฐ?
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ: โ
โ - ๋จ์ผ ์ต์ ํ๋๋ง ์์ธก (unimodal) โ
โ - ๋ค์ค ๋ชจ๋ ๋ถํฌ ํํ ์ด๋ ค์ โ
โ โ
โ Diffusion์ ์ฅ์ : โ
โ - ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ํ๋ ๋ถํฌ ํ์ต ๊ฐ๋ฅ โ
โ - "Action Chunking": ํ ๋ฒ์ ์ฌ๋ฌ ์๊ฐ ์คํ
์ ํ๋ ์์ธก โ
โ - ๋ ๋ถ๋๋ฝ๊ณ ์ผ๊ด๋ ๊ถค์ ์์ฑ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
DP3 (3D Diffusion Policy)
graph LR
PC[Point Cloud] --> ENC[3D Encoder]
ENC --> DP[Diffusion Policy]
DP --> ACT[Action Sequence]
subgraph Adv["3D ํํ์ ์ฅ์ "]
ADV1[์์ ๋ถ๋ณ์ฑ]
ADV2[๊น์ด ์ ๋ณด ํ์ฉ]
ADV3[๊ณต๊ฐ ์ถ๋ก ํฅ์]
end
2.4 Large VLA (LVLA)
RT-2: VLM์ VLA๋ก ๋ณํํ๊ธฐ
RT-2์ ํต์ฌ ์์ด๋์ด: "Symbol Tuning"
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ PaLI-X/PaLM-E (Vision-Language Model) โ
โ โ โ
โ โผ โ
โ ๋ก๋ด ๋ฐ์ดํฐ๋ก Co-fine-tuning โ
โ โ โ
โ โผ โ
โ ํ๋์ "์ธ์ด ํ ํฐ"์ฒ๋ผ ์ถ๋ ฅ โ
โ ์: "1 128 91 241 5 101 127" โ
โ (๊ฐ ์ซ์๊ฐ ํ๋ ์ฐจ์์ ์ด์ฐํ๋ ๊ฐ) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
Web ์ง์์ ์ ์ด: RT-2๋ ์ธํฐ๋ท์์ ํ์ตํ ์ง์์ ๋ก๋ด ์ ์ด๋ก ์ ์ดํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
OpenVLA: ์คํ์์ค LVLA
| ํน์ง | ์์ธ |
|---|---|
| ๊ธฐ๋ฐ ๋ชจ๋ธ | Prismatic-7B VLM |
| Vision Encoders | SigLIP + DINOv2 (์ตํฉ) |
| ํ์ต ๋ฐ์ดํฐ | Open X-Embodiment |
| ์คํ์์ค | โ (์ฝ๋, ๊ฐ์ค์น ๋ชจ๋ ๊ณต๊ฐ) |
ฯ0 (Pi-Zero): Flow Matching ๊ธฐ๋ฐ VLA
ฯ0์ ํ์ :
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๊ธฐ์กด LVLA: ํ๋์ ์ด์ฐ ํ ํฐ์ผ๋ก ์ถ๋ ฅ โ
โ โ
โ ฯ0: Flow Matching์ผ๋ก ์ฐ์ ํ๋ ์ง์ ์์ฑ โ
โ - ๋ ์ ๋ฐํ ์ ์ด ๊ฐ๋ฅ โ
โ - ์ด์ฐํ ์์ค ์์ โ
โ - ๋ฉํฐ๋ชจ๋ฌ ํ๋ ๋ถํฌ ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ๋ง โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
2.5 3D Vision ๊ธฐ๋ฐ ์ ์ฑ
PerAct: 3D ์ดํฌ๋์ค ๋งต
# PerAct ์คํ์ผ ์์ฌ์ฝ๋
def peract_forward(rgb_d_images, language_instruction):
# 1. ์ฌ๋ฌ ์์ ์ RGB-D๋ฅผ 3D ๋ณต์
๊ทธ๋ฆฌ๋๋ก ๋ณํ
voxel_grid = images_to_voxels(rgb_d_images)
# 2. ์ธ์ด ์๋ฒ ๋ฉ
lang_embed = clip_encode(language_instruction)
# 3. PerceiverIO๋ก 3D ์ดํฌ๋์ค ๋งต ์์ธก
affordance_map = perceiver_io(voxel_grid, lang_embed)
# 4. ๊ฐ์ฅ ๋์ ์ดํฌ๋์ค ์์น = ๋ก๋ด์ด ํ๋ํ ์์น
action_pose = argmax(affordance_map)
return action_poseRVT (Robotic View Transformer)
RVT์ ํต์ฌ: 2D โ 3D ํ๋ก์ ์
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์
๋ ฅ: ์ฌ๋ฌ ์์ ์ RGB-D ์ด๋ฏธ์ง โ
โ โ โ
โ โผ โ
โ ๊ฐ์ ์ง๊ต ์์ ์ด๋ฏธ์ง ์์ฑ (Top, Front, Side ๋ฑ) โ
โ โ โ
โ โผ โ
โ ๊ฐ ์์ ์์ 2D ์ดํฌ๋์ค ์์ธก โ
โ โ โ
โ โผ โ
โ 2D ์ดํฌ๋์ค๋ฅผ 3D ๊ณต๊ฐ์ผ๋ก ์ญํฌ์ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์ฅ์ : PerAct๋ณด๋ค 10๋ฐฐ ๋น ๋ฅด๊ณ ๋๋ฑํ๊ฑฐ๋ ๋ ์ข์ ์ฑ๋ฅ
๐๏ธ Part 3: ๊ณ ์์ค ํ์คํฌ ํ๋๋ (Task Planners)
ํ์คํฌ ํ๋๋์ ์ญํ
\ell \xrightarrow{\pi_\phi} (p_1, p_2, \ldots, p_n)
๋ณต์กํ ์ง์ \ell์ ์๋ธํ์คํฌ ์ํ์ค (p_1, p_2, \ldots)๋ก ๋ถํด
3.1 ๋จ์ผ์ฒด ํ์คํฌ ํ๋๋ (Monolithic)
PaLM-E: ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ LLM
PaLM-E์ ๊ตฌ์กฐ:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์
๋ ฅ: โ
โ - ํ
์คํธ ํ ํฐ: "Put the rice chips bag..." โ
โ - ์ด๋ฏธ์ง ํ ํฐ: [๐ผ๏ธ] (ViT๋ก ์ธ์ฝ๋ฉ) โ
โ - ์ํ ํ ํฐ: ๋ก๋ด ์ํ ๋ฒกํฐ โ
โ โ
โ PaLM-E (562B ํ๋ผ๋ฏธํฐ): โ
โ ๋ชจ๋ ํ ํฐ์ ํ๋์ ์ํ์ค๋ก ์ฒ๋ฆฌ โ
โ โ
โ ์ถ๋ ฅ: โ
โ - ๊ณ ์์ค ๊ณํ: "1. Find bag 2. Pick up bag 3. Move to..."โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
3D Vision ๊ธฐ๋ฐ ํ๋๋๋ค
| ๋ชจ๋ธ | 3D ํํ | ํน์ง |
|---|---|---|
| 3D-LLM | NeRF ํน์ง | 3D ์ฅ๋ฉด ์ดํด |
| LEO | Scene Graph | 3D ์ธ๊ณ์ ์์ด์ ํธ |
| MultiPLY | Object-Centric | ๋ค์ค ๊ฐ๊ฐ ํตํฉ |
3.2 ๋ชจ๋ํ ํ์คํฌ ํ๋๋ (Modular)
graph TB
subgraph ModPlanner["Modular Task Planner"]
LLM["LLM Planner (SayCan, Inner Monologue)"]
VLM["VLM for Grounding (ํ๊ฒฝ ์ดํด)"]
SKILL["Skill Library (์คํ ๊ฐ๋ฅ ๊ธฐ์ ๋ค)"]
end
USER[์ฌ์ฉ์ ์ง์] --> LLM
LLM --> |ํ์คํฌ ๋ถํด| PLAN[๊ณ ์์ค ๊ณํ]
VLM --> |ํ๊ฒฝ ์ ๋ณด| LLM
PLAN --> |์คํฌ ํธ์ถ| SKILL
SKILL --> |ํผ๋๋ฐฑ| LLM
SayCan: ์ดํฌ๋์ค ๊ธฐ๋ฐ ๊ทธ๋ผ์ด๋ฉ
SayCan์ ํต์ฌ ๊ณต์:
P(action | instruction) = P(useful | instruction) ร P(feasible | state)
์ฌ๊ธฐ์:
- P(useful | instruction): LLM์ด ๊ณ์ฐ (์ด ํ๋์ด ์ ์ฉํ๊ฐ?)
- P(feasible | state): Value Function์ด ๊ณ์ฐ (์ง๊ธ ์คํ ๊ฐ๋ฅํ๊ฐ?)
Code as Policies (CaP): ์ฝ๋๋ก ์ ์ฑ ํํ
# CaP ์คํ์ผ ์์: LLM์ด ์์ฑํ๋ ์ฝ๋
def execute_task(instruction: str):
"""์ฌ์ฉ์ ์ง์: "Stack all the blocks on the green area" """
# LLM์ด ์์ฑํ ์ฝ๋
blocks = detect_objects("block")
green_area = detect_objects("green area")[0]
for i, block in enumerate(blocks):
pick(block)
place(green_area.position + [0, 0, 0.05 * i])
return "Task completed"
๐ Part 4: ๋ฐ์ดํฐ์ ๊ณผ ๋ฒค์น๋งํฌ
4.1 ์ค์ธ๊ณ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์ | ์ํผ์๋ ์ | ๋ก๋ด | ํ์คํฌ |
|---|---|---|---|
| RT-1 (Fractal) | 130,000+ | EDR | Pick, Place, Move |
| BridgeData V2 | 60,000+ | WidowX | ๋ค์ํ ์กฐ์ |
| Open X-Embodiment | 1,000,000+ | 22์ข ๋ก๋ด | 527๊ฐ ์คํฌ |
| DROID | 76,000+ | Franka | ์ผ์ ์กฐ์ |
4.2 ์๋ฎฌ๋ ์ดํฐ & ๋ฒค์น๋งํฌ
graph LR
subgraph Sims["์ฃผ์ ์๋ฎฌ๋ ์ดํฐ"]
MS["Meta-World (50๊ฐ ์กฐ์ ํ์คํฌ)"]
RLB["RLBench (100+ ํ์คํฌ)"]
CAL["CALVIN (์ฅ๊ธฐ ์กฐ์)"]
HAB["Habitat (๋ด๋น๊ฒ์ด์
)"]
end
subgraph Bench["์ต์ ๋ฒค์น๋งํฌ"]
LIBERO["LIBERO (์ง์ ์ ์ด ํ๊ฐ)"]
VIMAB["VIMA-Bench (๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ)"]
BEH["BEHAVIOR-1K (1000๊ฐ ์ผ์ ํ์คํฌ)"]
end
4.3 ์๋ ๋ฐ์ดํฐ ์์ง
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ๋ฒ๋ค โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ 1. RoboCat ์๊ธฐ๊ฐ์ : ๋ก๋ด์ด ์ค์ค๋ก ๋ฐ์ดํฐ ์์ฑ โ
โ 2. ์ธํฐ๋ท ๋น๋์ค: ์ธ๊ฐ ์กฐ์ ์์์์ ํ์ต โ
โ 3. ์๋ฎฌ๋ ์ด์
์ฆ๊ฐ: ๋๋ฉ์ธ ๋๋คํ โ
โ 4. LLM ์์ฑ: ์ธ์ด ์ง์ ์๋ ์์ฑ โ
โ 5. Diffusion ์ฆ๊ฐ: ์ด๋ฏธ์ง/์์ ํฉ์ฑ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๐ฎ Part 5: ๋์ ๊ณผ์ ์ ๋ฏธ๋ ๋ฐฉํฅ
5.1 ์์ ์ฑ (Safety First)
๋ฌผ๋ฆฌ์ ์์ ์ํ:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ์ถฉ๋ ์ํ: ๋ก๋ด์ด ์ฌ๋์ด๋ ๋ฌผ์ฒด์ ์ถฉ๋ โ
โ 2. ์์ธก ๋ถ๊ฐ๋ฅ์ฑ: LLM ๊ธฐ๋ฐ ์์คํ
์ ํ๊ฐ(hallucination) โ
โ 3. ์คํจ ๋ณต๊ตฌ: ์คํ ์ค ์ค๋ฅ ์ ์์ ํ ๋ณต๊ตฌ โ
โ โ
โ ์ฐ๊ตฌ ๋ฐฉํฅ: โ
โ - ์์ ์ ์ฝ ํ์ต (Safe RL) โ
โ - ๋ถํ์ค์ฑ ์ ๋ํ โ
โ - Human-in-the-loop ์์คํ
โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
5.2 ๋ฐ์ดํฐ & ๋ฒค์น๋งํฌ
| ๋์ ๊ณผ์ | ํ์ฌ ์ํ | ๋ฏธ๋ ๋ฐฉํฅ |
|---|---|---|
| ๋ฐ์ดํฐ ๋ถ์กฑ | Open X-Embodiment๋ก ๊ฐ์ ์ค | ํฌ๋ผ์ฐ๋์์ฑ, ํฉ์ฑ ๋ฐ์ดํฐ |
| ๋๋ฉ์ธ ์ฐจ์ด | Sim-to-Real gap ์กด์ฌ | ๋๋ฉ์ธ ์ ์, ์ฆ๋ฅ ๊ธฐ๋ฒ |
| ์ผ๊ด์ฑ ์๋ ํฌ๋งท | ๊ฐ ๋ฐ์ดํฐ์ ๋ง๋ค ๋ค๋ฆ | ํ์คํ๋ ํฌ๋งท ํ์ |
5.3 ์ผ๋ฐํ (Generalization)
graph TB
GEN[์ผ๋ฐํ์ ์ธ ์ถ]
GEN --> TASK["ํ์คํฌ ์ผ๋ฐํ (์๋ก์ด ํ์คํฌ ์ํ)"]
GEN --> ENV["ํ๊ฒฝ ์ผ๋ฐํ (์๋ก์ด ์ฅ์์์ ๋์)"]
GEN --> EMB["์ ๋ฐ๋๋จผํธ ์ผ๋ฐํ (๋ค๋ฅธ ๋ก๋ด์์ ๋์)"]
TASK --> |๋ฐฉ๋ฒ| FT["Foundation Models (๋๊ท๋ชจ ์ฌ์ ํ์ต)"]
ENV --> |๋ฐฉ๋ฒ| DA["Domain Adaptation (๋๋ฉ์ธ ์ ์)"]
EMB --> |๋ฐฉ๋ฒ| CROSS["Cross-Embodiment (๊ต์ฐจ ์ ๋ฐ๋๋จผํธ ํ์ต)"]
5.4 ์ค์๊ฐ ์๋ต์ฑ
ํ์ฌ ๋ฌธ์ :
- ๋ํ VLA: ์ถ๋ก ์ ์ ์ด ์์
- ์ค์๊ฐ ์ ์ด: ์์ญ~์๋ฐฑ Hz ํ์
ํด๊ฒฐ ๋ฐฉํฅ:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ๋ชจ๋ธ ์์ถ: ์์ํ, ํ๋ฃจ๋, ์ฆ๋ฅ โ
โ 2. ํจ์จ์ ์ํคํ
์ฒ: Mamba, State Space Models โ
โ 3. ๊ณ์ธต์ ๋ถ๋ฆฌ: ๊ณ ์์ค(๋๋ฆผ) + ์ ์์ค(๋น ๋ฆ) โ
โ 4. ์์ง ์ปดํจํ
: ์จ๋๋ฐ์ด์ค ์ถ๋ก ์ต์ ํ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
5.5 ์ฅ๊ธฐ ํ์คํฌ (Long-Horizon Tasks)
"์์นจ ์์ฌ ์ค๋นํ๊ธฐ"๋ฅผ ์๋ก ๋ค๋ฉด:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์๋ธํ์คํฌ ์ฒด์ธ: โ
โ โ
โ ๋์ฅ๊ณ ์ด๊ธฐ โ ๊ณ๋ ๊บผ๋ด๊ธฐ โ ๋์ฅ๊ณ ๋ซ๊ธฐ โ ํ๋ผ์ดํฌ ๊ฐ์ ธ์ค๊ธฐ โ
โ โ ๊ฐ์ค๋ ์ธ์ง ์ผ๊ธฐ โ ๊ณ๋ ๊นจ๊ธฐ โ ์กฐ๋ฆฌํ๊ธฐ โ ์ ์์ ๋ด๊ธฐ โ
โ โ
โ ๋์ ๊ณผ์ : โ
โ - ์ค๋ฅ ๋์ : ๊ฐ ๋จ๊ณ์ ์์ ์ค๋ฅ๊ฐ ๋์ โ
โ - ์ํ ์ถ์ : ๊ธด ์ํ์ค์์ ๋งฅ๋ฝ ์ ์ง โ
โ - ์์ธ ์ฒ๋ฆฌ: ์์์น ๋ชปํ ์ํฉ ๋์ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๐ ์์ฝ ๋ฐ ๊ฒฐ๋ก
VLA ๋ฐ์ ์ ํต์ฌ ํธ๋ ๋
timeline
title VLA ๋ฐ์ ํ์๋ผ์ธ
section ์ด๊ธฐ 2020-2021
Decision Transformer : RL์ ์ํ์ค ๋ชจ๋ธ๋งํ
CLIPort : ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์์ ์์
CLIP : ์๊ฐ-์ธ์ด ์ ๋ ฌ์ ํ๋ช
section ์ฑ์ฅ๊ธฐ 2022-2023
RT-1 : ๋๊ท๋ชจ ์ค์ธ๊ณ ๋ฐ์ดํฐ ํ์ต
RT-2 : VLM์ VLA๋ก ์ ํ
Diffusion Policy : ์๋ก์ด ํ๋ ์์ฑ ํจ๋ฌ๋ค์
PerAct : 3D ์ดํฌ๋์ค ๋งต ๋์
section ์ฑ์๊ธฐ 2024-ํ์ฌ
OpenVLA : ์คํ์์ค LVLA
ฯ0 : Flow Matching ๊ธฐ๋ฐ ์ ๋ฐ ์ ์ด
Open X-Embodiment : ๋๊ท๋ชจ ๊ต์ฐจ ๋ก๋ด ๋ฐ์ดํฐ์
RDT-1B : 10์ต ํ๋ผ๋ฏธํฐ ํ์ฐ ์ ์ฑ
๋ก๋ด๊ณตํ์๋ฅผ ์ํ ํต์ฌ ํ ์ดํฌ์ด์จ์ด
| ๋ถ๋ฅ | ํต์ฌ ๋ฉ์์ง |
|---|---|
| ์ํคํ ์ฒ | Transformer ๊ธฐ๋ฐ์ด ๋์ธ, Diffusion์ด ์๋ก์ด ํธ๋ ๋ |
| ๋ฐ์ดํฐ | ์๋ณด๋ค ์ง, ๊ต์ฐจ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ์ค์์ฑ |
| ํ์ต | Imitation Learning์ด ์ฃผ๋ฅ, RL์ ๋ฏธ์ธ์กฐ์ ์ฉ |
| ํํ | 3D ๋น์ ์ ์ค์์ฑ ์ฆ๊ฐ, DINOv2/SigLIP ์กฐํฉ ์ถ์ฒ |
| ์ค์ผ์ผ | ๋ ํฐ ๋ชจ๋ธ = ๋ ๋์ ์ผ๋ฐํ (์ค์ผ์ผ๋ง ๋ฒ์น) |
| ์ค์ฉ์ฑ | ๊ณ์ธต์ ๊ตฌ์กฐ(ํ๋๋ + ์ปจํธ๋กค๋ฌ)๊ฐ ํ์ค์ |
๋ง๋ฌด๋ฆฌ: ํ์ธ๋ง์ ๊ด์ ์์
โ๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ๋ฌด์ธ๊ฐ๋ฅผ ์ ๋ง๋ก ์ดํดํ๋ค๋ฉด, ๊ทธ๊ฒ์ ๊ฐ๋จํ๊ฒ ์ค๋ช ํ ์ ์์ด์ผ ํฉ๋๋ค.โ
VLA์ ํต์ฌ์ ๊ฒฐ๊ตญ ์ด๊ฒ์ ๋๋ค:
โ๋ก๋ด์ด ์ฌ๋์ฒ๋ผ ๋ณด๊ณ , ๋ฃ๊ณ , ์ดํดํ๊ณ , ํ๋ํ๊ฒ ๋ง๋ค๊ธฐโ
์ด๊ฒ์ ๋จ์ํ ์ธ ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํฉ์น๋ ๊ฒ์ด ์๋๋๋ค. ๋ฌผ๋ฆฌ ์ธ๊ณ์์ ์๋ฏธ ์๋ ๋ณํ๋ฅผ ๋ง๋ค์ด๋ด๋ AI๋ฅผ ๋ง๋๋ ๊ฒ์ ๋๋ค. ChatGPT๊ฐ ํ ์คํธ๋ก ์ธ์์ ๋ฐ๊ฟจ๋ค๋ฉด, VLA๋ ๋ฌผ๋ฆฌ์ ํ๋์ผ๋ก ์ธ์์ ๋ฐ๊ฟ ๊ฒ์ ๋๋ค.
๐ ์ถ๊ฐ ๋ฆฌ์์ค
์ฝ๋ & ๊ตฌํ
๊ด๋ จ ์๋ฒ ์ด
- Foundation Models in Robotics (2023)
- Real-World Robot Applications of Foundation Models (2024)
- Toward General-Purpose Robots via Foundation Models (2023)
์ฃผ์ ๋ฐ์ดํฐ์
- Open X-Embodiment
- BridgeData V2
- DROID
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
๋น์ -์ธ์ด-์ก์ ๋ชจ๋ธ (VLA)์ด๋ ๋ฌด์์ธ๊ฐ
๋น์ -์ธ์ด-์ก์ ๋ชจ๋ธ(Vision-Language-Action Models, VLAs)์ ์๊ฐ(Visual) ์ ๋ณด, ์ธ์ด(Language) ์ ๋ณด, ๊ทธ๋ฆฌ๊ณ ํ๋(Action) ์ถ๋ ฅ์ ๋์์ ์ฒ๋ฆฌํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ํ์ต ๋ชจ๋ธ์ ๋งํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์๊ฒ โ๋นจ๊ฐ ์ฌ๊ณผ๋ฅผ ์ง์ด ์ํ ์์ ์ฌ๋ ค๋โ๋ผ๋ ๋ช ๋ น์ ๋ด๋ฆด ๋, ์ฐ๋ฆฌ๋ ๋์ผ๋ก ์ฌ๊ณผ์ ์ํ์ ์๋ณํ๊ณ ๋์์ ์ ์ ํ ํ ๋์์ ๊ณํํฉ๋๋ค. ์ด์ ๋ง์ฐฌ๊ฐ์ง๋ก VLA๋ ๋ก๋ด์ด ์ธ์ด ์ง์๋ฅผ ์ดํดํ๊ณ , ์นด๋ฉ๋ผ๋ก ๊ด์ฐฐํ ์ฅ๋ฉด์ ์ธ์ํ์ฌ, ์ค์ ํ๋(ํ์ ์ด๋, ๊ทธ๋ฆฌํผ ์๋ ๋ฑ)์ ์์ฑํ๋๋ก ์ค๊ณ๋ ๋ชจ๋ธ์ ๋๋ค.
์๋ฒ ๋๋ AI(Embodied AI) โ ํนํ ๋ก๋ด ๊ณตํ โ์์๋ ์ด๋ ๊ฒ ๋ง๊ณผ ํ๋์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ ์ ๋๋ค. ์ผ๋ฐ์ ์ธ ๋ํํ AI(ChatGPT ๋ฑ)๋ ์ธ์ด ์ดํด์ ์ง์คํ์ง๋ง, VLAs๋ ๋ฌผ๋ฆฌ์ ์ธ ๋ชธ์ฒด(๋ก๋ด)๋ฅผ ์ ์ดํด์ผ ํ๋ฏ๋ก ์๊ฐ๊ณผ ํ๋๊น์ง ์ฐ๊ด ์ง์ต๋๋ค. Ma ์ธ๋ โVLA ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ณต์กํ ํ๊ฒฝ์์ ์ด์ ์ ๊ฐํํ์ต ๊ธฐ๋ฒ๋ณด๋ค ๋ฐ์ด๋ ๋ค์์ฑ๊ณผ ์ ์ฐ์ฑ, ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋คโ๊ณ ์ง์ ํฉ๋๋ค. ์ฆ, ๊ณต์ฅ์ฒ๋ผ ํต์ ๋ ํ๊ฒฝ๋ฟ ์๋๋ผ ์ฃผ๋ฐฉ์์ ์๋ฆฌํ๊ธฐ, ๋ฐฉ ์ฒญ์ํ๊ธฐ ๋ฑ์ ์ผ์์ ์์ ์๋ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ ๋๋ค.
๋ก๋ด ๋ถ์ผ์์ ์ ํต์ ์ธ ๊ฐํํ์ต ์ ์ฑ ์ ์ฃผ๋ก ํ ๊ฐ์ง ์์ (์: ๋ฌผ๊ฑด ์ก๊ธฐ)์ ๊ตญํ๋๊ณ , ์ดฌ์ ํ๊ฒฝ๋ ์คํ์ค์ฒ๋ผ ํ์ ์ ์ด์์ต๋๋ค. ๊ทธ๋ฌ๋ ํ๋์๋ ChatGPT์ ๊ฐ์ ๋ํ ์ธ์ด๋ชจ๋ธ(LLM)๊ณผ CLIP ๊ฐ์ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ์ฑ๊ณต์ ์๊ทน๋ฐ์, โํ๋์ ๋ก๋ด ์ ์ฑ ์ผ๋ก ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฒ์ฉ์ฑโ์ด ์๊ตฌ๋๊ณ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ธ์ด ๊ธฐ๋ฐ ์์ ์ง์๊ฐ ์ ๋ ฅํ ๋ฐฉ์์ผ๋ก ๋ ์ฌ๋์ผ๋ฉฐ, VLAs๋ ๋ฐ๋ก ์ด ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ์ต๋๋ค. VLA๋ ์ฌ์ ํ์ต๋ ๋น์ ์ธ์ฝ๋์ LLM์ ๊ฒฐํฉํด, ๋ณต์กํ ํ๊ฒฝ์ ์ ํํ ์ธ์ํ๊ณ โ๋นจ๊ฐ ์ฌ๊ณผโ ๊ฐ์ ๊ฐ์ฒด ์ ๋ณด๋ถํฐ โ๊ทธ๊ฒ์ ์ฎ๊ฒจ๋ผโ๋ผ๋ ์ธ์ด ์ง์๋ฅผ ํ๋์ ์ ์ฑ ์ผ๋ก ์ฐ๊ฒฐํฉ๋๋ค.
VLA ๋ชจ๋ธ์ ๋ถ๋ฅ ์ฒด๊ณ๋ ์ธ ๊ฐ์ง ์ถ์ผ๋ก ๋๋ฉ๋๋ค:
- ์ฌ์ ํ๋ จ(Pretraining): ๋น์ ์ธ์ฝ๋, ๋์ ๋ชจ๋ธ(dynamics), ์ธ๊ณ ๋ชจ๋ธ(world model) ๋ฑ์ ๊ฐ์ ํ์ฌ ๊ธฐ๋ฐ ๋ฅ๋ ฅ์ ํค์๋๋ค.
- ์ ์ด ์ ์ฑ (Control Policy): ์ฃผ์ด์ง ์ธ์ด ๋ช ๋ น๊ณผ ์๊ฐ ์ ๋ณด๋ฅผ ๋ฐ์ ๋ก๋ด์ ์ค์ ์ ์์ค ํ๋(ํ ๊ด์ ์ด๋, ๊ทธ๋ฆฌํผ ๋์ ๋ฑ)์ ์์ฑํฉ๋๋ค.
- ์์ ๊ณํ(Task Planner): ๊ณ ์์ค ์ธ์ด ๋ช ๋ น์ ์ฌ๋ฌ ๋จ๊ณ์ ํ์ ํ์คํฌ๋ก ๋ถํดํ์ฌ ์ ์์ค ์ ์ด ์ ์ฑ ์ ์์ฐจ์ ์ผ๋ก ์ ๋ฌํฉ๋๋ค.
์ด ์ธ ๊ฐ์ง ์์๊ฐ ๊ณ์ธต์ ์ผ๋ก ๊ฒฐํฉ๋์ด, โ์ฅ๊ธฐ ๊ณผ์ ๋ ๊ณํ์๊ฐ ์ ์ฒด๋ฅผ ๋๋๊ณ , ์ ์ด ์ ์ฑ ์ด ๊ฐ ๋ถ๋ถ์ ์ํโํ๋ ๊ตฌ์กฐ๋ฅผ ๋ง๋ญ๋๋ค. ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
flowchart LR
L[์ธ์ด ๋ช
๋ น] --> VLA[VLA ๋ชจ๋ธ]
V[์๊ฐ ๊ด์ธก] --> VLA
VLA --> A[ํ๋ ์คํ]
A --> E[ํ๊ฒฝ ๋ณํ]
E --> V
style VLA fill:#e0f7fa,stroke:#333,stroke-width:1px
์ ๊ณผ์ ์์ VLA ๋ชจ๋ธ์ ์ธ์ด์ ์๊ฐ ์ ๋ ฅ์ ๋ฐ์ ๋ก๋ด์ ๋์์ ์์ธกํ๋ฉฐ, ๊ทธ ๋์์ ์ค์ ๋ก๋ด ๋ชจ์ ํ๋๋(๊ฐ ๊ด์ ์ ์ ์ดํ๋ ํ๋ถ ๋ชจ๋)๊ฐ ์ํํฉ๋๋ค. ํํธ, ์ฅ๊ธฐ ๊ณผ์ ์ํ ์์๋ โ์์ ๊ณํ์(TP)โ๊ฐ ์ด ๊ณผ์ ์ ๊ฐ๋ ํ์ฌ ์ฌ๋ฌ ํ์ ๋ชฉํ๋ฅผ ์์ฑํ๊ณ , ๊ฐ๊ฐ ์ ์์ค ์ ์ฑ ์ ๋งก๊ธฐ๋ ์ญํ ์ ํฉ๋๋ค.
1. ์ฌ์ ํ๋ จ(Pretraining)
์ฌ์ ํ๋ จ ๋จ๊ณ์์๋ ๋ก๋ด์ด ์๊ฐ๊ณผ ๋์ ํ๊ฒฝ์ ๊ดํ ์ผ๋ฐ์ ์ง์์ ๋ฏธ๋ฆฌ ํ์ตํฉ๋๋ค. ์ด๋ ์ฌ๋์ด ์ฌ๋ฌผ ์ธ์ง์ ๊ธฐ๋ณธ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ด๋ฆฐ ์์ ๋ถํฐ ๋ฐฐ์ฐ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ฃผ์ ์ธ๋ถ ๋ถ์ผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ฌ์ ํ์ต๋ ๋น์ ํํ(Pretrained Vision Representation): ๋๊ท๋ชจ ์ด๋ฏธ์ง-์ธ์ด ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋น์ ๋ชจ๋ธ(CLIP ๋ฑ)์ ๋ก๋ด์ ์ ์ฉํฉ๋๋ค. CLIP์ฒ๋ผ ์ด๋ฏธ์ง๋ฅผ ์ธ์ด์ ํจ๊ป ๋ฒกํฐ๋ก ํํํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด, ๋ก๋ด์ด ํ๊ฒฝ์ ๋ณด์์ ๋ โ์ด๊ฒ์ ์ปต, ์ ๊ฒ์ ์ฌ๊ณผโ ๊ฐ์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ป์ ์ ์์ต๋๋ค. R3M, MVP, VIP, VC-1 ๋ฑ์ ๋ก๋ด ์กฐ์์ฉ ๋ฐ์ดํฐ๋ก ์๊ฐ ๋ชจ๋ธ์ ํนํํ์ฌ ์ฌ์ ํ์ตํ ์ฌ๋ก๋ค์ ๋๋ค. ์๋ฅผ ๋ค์ด, R3M์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ด๋ฏธ์ง๋ฅผ ์๋ฒ ๋ฉํจ์ผ๋ก์จ ์กฐ์ ์์ ์์ ๊ฐ๊ฑดํ ์๊ฐ ํผ์ฒ๋ฅผ ์ป์์ต๋๋ค.
๋น์ : ์ด๋ ๋ก๋ด์ด โ์๊ฐ์ ์ดํโ๋ฅผ ๋ฐฐ์ฐ๋ ๊ณผ์ ์ ํด๋นํฉ๋๋ค. ์ด๋ฆฐ์์ด๊ฐ ๋ค์ํ ์ฌ๋ฌผ๊ณผ ํ๋์ ๊ด์ฐฐํ๋ฉฐ ์ธ์์ ์ดํดํ๋ฏ, ๋ก๋ด๋ ์ฌ์ ํ์ต๋ ๋น์ ๋ชจ๋ธ๋ก ํ๊ฒฝ์ ๊ธฐ๋ณธ ์ดํ(์ฌ๋ฌผ ์ข ๋ฅ, ์์น, ์์ธ ๋ฑ)๋ฅผ ์ต๋ํฉ๋๋ค.
๋์ญํ ํ์ต(Dynamics Learning): ๋ก๋ด์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋๋ก ํ์ตํฉ๋๋ค. ์์ปจ๋, ๋ก๋ดํ์ด ์์๋ฅผ ๋ฐ ๋ ์์๊ฐ ์ด๋๋ก ์์ง์ผ์ง๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค. Vi-PRoM, MIDAS, SMART ๋ฑ์ ์ฐ๊ตฌ๋ ๋ฌผ์ฒด์ ์์ง์๊ณผ ์ํธ์์ฉ(์: ์์ ์ก๊ธฐ, ์๊ธฐ)์ ์์ธกํ๋๋ก ๋คํธ์ํฌ๋ฅผ ์ฌ์ ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ฌ ์ํ์ ํ๋์ ์ ๋ ฅ์ผ๋ก ๋ค์ ์ํ๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ํ์ตํ์ฌ, ๋ก๋ด์ด ํ๋ ์ ํ์ ๋ณํ๋ฅผ โ๋ง์น ๋๋ ์ ์๋ฎฌ๋ ์ด์ โ์ฒ๋ผ ๊ฐ๋ ํ ์ ์๋๋ก ๋์ต๋๋ค.
์ ์ถ: ์ด๋ ๋ง์น ๋น์ ์ด ํ๊ตฌ๊ณต์ ์น ๋ ๊ณต์ด ์ด๋๋ก ํ์ด๋๊ฐ์ง ์์ํด๋ณด๋ ๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค. ๋ก๋ด์ ๋์ญํ ๋ชจ๋ธ์ ํตํด โ์ด๋ ๊ฒ ์์ ์์ง์ด๋ฉด ๋ฌผ์ฒด๋ ์ ๋ ๊ฒ ์์ง์ผ ๊ฒ์ด๋คโ๋ฅผ ๋ฏธ๋ฆฌ ๋ด๋ค๋ณผ ์ ์์ต๋๋ค.
์๋ ๋ชจ๋ธ(World Model): ๊ด์ฐฐ๊ณผ ํ๋ ์์ธก์ ํตํฉํ๋ ๋ ๊ณ ์ฐจ์์ ๋ชจ๋ธ์ ๋๋ค. ์๋ฅผ ๋ค์ด Dreamer, ISO-Dream, IRIS ๊ฐ์ ์ฐ๊ตฌ๋ ์นด๋ฉ๋ผ ์์๊ณผ ๋ก๋ด ํ๋์ ํ๋์ ์ ์ฌ๊ณต๊ฐ์ ์ธ์ฝ๋ฉํ์ฌ, โ๋ก๋ด์ ๋โ ์์์ ํ๊ฒฝ์ ๋ด์ฌ์ ์ผ๋ก ์๋ฎฌ๋ ์ด์ ํ๋๋ก ํฉ๋๋ค. ์๋ ๋ชจ๋ธ์ ์ฅ๊ธฐ ๊ณํ๊ณผ ์์(imagination)์ ์ฌ์ฉ๋ฉ๋๋ค. ๋ง์น ์ฐ๋ฆฌ๊ฐ ์ํ๋ฅผ ๋จธ๋ฆฟ์์ผ๋ก ์ฌ์ํด๋ณด๋ฏ, ๋ก๋ด๋ ๋ด๋ถ ๋ชจ๋ธ์ ํตํด ๋ณต์กํ ์ํฉ์ ์๋ฎฌ๋ ์ด์ ํ๋ฉฐ ํ๋์ ๊ณํํ ์ ์์ต๋๋ค.
์ฌ์ ํ๋ จ ๋จ๊ณ์ ๋ชฉํ๋ ๋ก๋ด์ ๊ธฐ๋ณธ ๋ฅ๋ ฅ(์๊ฐ์ธ์, ๋ฌผ๋ฆฌ๋ชจ๋ธ๋ง ๋ฑ)์ ๊ฒฌ๊ณ ํ ํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํผํผํ ๊ธฐ๋ฐ ์์์, ์ดํ ์ ์ด ์ ์ฑ ์ด ๋ ๋น ๋ฅด๊ณ ์ผ๋ฐํ๋ ํ์ต์ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ ํ๋ จ๋ ๋น์ ์ธ์ฝ๋ ๋๋ถ์ ๋ก๋ด์ ๋ณต์กํ ์ฅ๋ฉด์์๋ ๊ฐ์ฒด์ ์ข ๋ฅ์ ์์ธ๋ฅผ ์ ํํ ์ธ์ํ ์ ์์ด, ์ดํ ์ ์ฑ ํ์ต ์ ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ฑ๋ฅ ์์ ์ฑ์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค.
2. ์ ์ด ์ ์ฑ (Control Policies)
์ ์ด ์ ์ฑ ์ ๋ก๋ด์ โํ๋ ์ ๊ฒฝ๋งโ์ ํด๋นํฉ๋๋ค. ์ธ์ด ์ง์์ ์๊ฐ ๊ด์ฐฐ์ ๋ฐ์ ์ค์ ์ ์์ค ํ๋(ํ์ ๊ด์ ๊ฐ๋, ๊ทธ๋ฆฌํผ์ ์คํ/ํด๋ก์ฆ ๋ฑ)์ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ ๊ตฌ์ฒด์ ์ธ ์ง์(โ๋นจ๊ฐ ์ปต์ ์ก์โ)๋ฅผ ์ค์ ์์ง์(โํ์ ํด๊ณ , ์์ ๋ด๋ฆฌ๊ณ , ๊ทธ๋ฆฌํผ๋ฅผ ๋ซ์โ)์ผ๋ก ๋ณํํฉ๋๋ค. ์ ์ด ์ ์ฑ ์ฐ๊ตฌ๋ ํฌ๊ฒ ๋ค์ ๋ค์ฏ ๊ฐ์ง ์ ํ์ผ๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค:
- CNN/RNN ๊ธฐ๋ฐ ์ ์ฑ (๋นํธ๋์คํฌ๋จธ): ์ ํต์ ์ธ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋์ ์์ธกํฉ๋๋ค. ์๋ฅผ ๋ค์ด CLIPort๋ ์ฌ์ ํ์ต๋ CLIP ๋น์ -์ธ์ด ์ธ์ฝ๋๋ก ์ด๋ฏธ์ง์ ๋ช ๋ น์ ํํํ ๋ค, ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ํตํด ํฝ์ ๊ณต๊ฐ์์ ์ก์ ์ ์์ธกํฉ๋๋ค. BC-Z, MCIL, HULC, UniPi ๋ฑ๋ ์ ์ฌํ๊ฒ CNN์ด๋ ๊ฐ๋จํ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ต๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๊ตฌํ์ด ๊ฐ๋จํ๊ณ ์์ ๋ชจ๋ธ๋ก๋ ๋์ํ์ง๋ง, ๊ธด ์ํ์ค๋ ๋ณต์กํ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
- Transformer ๊ธฐ๋ฐ ์ ์ฑ : Transformer ์ํคํ ์ฒ๋ก ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ ๋ ฅ ์์ ์ ์ด๋ฏธ์ง ํผ์ฒ์ ์ด์ ํ๋ ์ ๋ณด๋ฅผ ํ ํฐ ์ํ์ค๋ก ๋ง๋ค์ด, ๋ค์ ํ๋์ ์์ธกํฉ๋๋ค. ์๋ฅผ ๋ค์ด PerAct๋ ์ด๋ฏธ์ง ํฝ์ ๊ณต๊ฐ์ ์ง์ ํธ๋์คํฌ๋จธ๋ก ๋งคํํ์ฌ ํ๋์ ์์ฑํ๊ณ , Gato๋ ๋ค์ํ ๋ก๋ด ์์ ์ ํ๋์ ๊ฑฐ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ก ํ์ตํด ๋ฉํฐํ์คํน์ ๋ฌ์ฑํ์ต๋๋ค. Transformer ๊ธฐ๋ฐ์ ๋ฌธ๋งฅ์ ๊ธธ๊ฒ ๋ณด์กดํ ์ ์์ด, ์ฐ์๋ ํ๋ ์์์ ์ผ๊ด๋ ํ๋์ ๊ณํํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
- ๋ํ์ธ์ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์ ์ฑ : GPT๋ PaLM ๊ฐ์ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ๋์ ์์ธกํฉ๋๋ค. RT-2(google)๋ RoboFlamingo๊ฐ ๋ํ์ ์๋ก, LLM ๋ด๋ถ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํด ๋ก๋ด ํ๋์ ๊ฒฐ์ ํฉ๋๋ค. ์ด ๋ฐฉ์์์๋ ์ค์ ํ๋๋ ์ธ์ด ํํ๋ก ๋ชจ๋ธ์ ์ ๋ ฅํ๊ณ , ์ถ๋ ฅ์ผ๋ก ํ๋ ๋ช ๋ น(๋๋ ํ๋ ๊ธฐ์ ํ ์คํธ)์ ์ป์ ๋ค ์ด๋ฅผ ๋ก๋ด ์ ์ด ์ ํธ๋ก ๋ณํํฉ๋๋ค. ์ฅ์ ์ ํ๋ถํ ๊ณตํต ์์๊ณผ ์ธ์ด ์ดํด๋ฅผ ํ์ฉํ ์ ์๋ค๋ ์ ์ด๋, ๋จ์ ์ ์ฐ์ฐ ๋น์ฉ๊ณผ ์ง์ฐ์๊ฐ์ด ํฌ๋ค๋ ์ ์ ๋๋ค.
- ๋ค์ค ๋ชจ๋ฌ ๋ช ๋ น(Multi-modal Instruction): ์ธ์ด๋ฟ๋ง ์๋๋ผ ์์ฐ ๋ฐ์ดํฐ(trajectory, ๋น๋์ค ๋ฑ)๋ฅผ ํจ๊ป ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด VIMA๋ MOO, Octo๋ ์ธ์ด์ ํจ๊ป ๋ช ๊ฐ์ง ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ฉด, ์๋ก์ด ์กฐ์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋๋ก ํ์ตํฉ๋๋ค. ์ฌ๋์๊ฒ โํผ์๋ ธ ์กฐ๋ฆฝ ๋ฐฉ๋ฒ์ ์ค๋ช ํ๋ผโ๋ ๋ง๋ฟ ์๋๋ผ ์กฐ๋ฆฝ ์ฅ๋ฉด ๋น๋์ค๋ฅผ ํจ๊ป ๋ณด์ฌ์ฃผ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ํนํ ์ท ํ์ต(few-shot) ์ผ๋ฐํ์ ํจ๊ณผ์ ์ ๋๋ค.
- ๋ชฉํ-์ํ ์ง์(Goal-state Instruction): ์ธ์ด ๋์ ๋ชฉํ ์ํ(์: ๋ชฉํ ์ด๋ฏธ์ง๋ ๊ฒฝ๋ก ์ค์ผ์น)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด RoboCat์ ์ฃผ์ด์ง ๋ชฉํ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ต๋จ ๊ฒฝ๋ก๋ก ๋์ํ๋๋ก ํ์ตํ๊ณ , RT-Trajectory๋ ์ฌ๋์ด ๊ทธ๋ฆฐ ๊ถค์ ์ค์ผ์น๋ฅผ ๋ก๋ดํ์ ๊ฒฝ๋ก๋ก ๋ณํํฉ๋๋ค. ์ด๋ฌํ ์ ์ฑ ์ ์ธ์ด๋ฅผ ์ฌ์ฉํ์ง ์์ ๋ช ํํ โ๋งโ ๋์ ๊ตฌ์ฒด์ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ค๋ ์ ์์ VLAs์๋ ๊ตฌ๋ถ๋์ง๋ง, ๋ณต์กํ ๋ช ๋ น์ ์ ๊ณตํ๊ธฐ ์ด๋ ค์ด ์ํฉ์์ ๋์์ด ๋ฉ๋๋ค.
์ด๋ค ์ ์ด ์ ์ฑ ์ํคํ ์ฒ์์๋ ์๊ฐยท์ธ์ด ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ด ๋ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด FiLM(Feature-wise Linear Modulation), Cross-Attention, ๋จ์ Concatenation ๋ฑ์ด ์ฌ์ฉ๋์๋๋ฐ, ์์ ๋ชจ๋ธ์์๋ FiLM์ด๋ cross-attention์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ๊ฐ๋จํ ์กฐํฉ(concatenation)๋ ๋ชจ๋ธ์ ํฌ๊ฒ ํ๋ฉด ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
ํ๋ จ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ฃผ๋ก ์์ฐ(๋ฐ๋ชจ) ๋ฐ์ดํฐ์ ๋ํ ํ๋ ๋ณต์ (Behavior Cloning, BC)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฆ, ์ ๋ฌธ๊ฐ(๋๋ ์๋ฎฌ๋ ์ดํฐ)๋ก๋ถํฐ ์ป์ (์ํ, ํ๋) ์์ผ๋ก ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ฐ์์ ์ธ ํ๋(a)์ ์์ธกํ ๋ ์์ค ํจ์๋ ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE) ํํ๋ก ์ค์ ๋ฉ๋๋ค:
L_{BC} = \mathbb{E}\left\lbrack \frac{1}{2} \parallel a - a^{*} \parallel^{2} \right\rbrack,
์ฌ๊ธฐ์ a๋ ์ ์ฑ ์ด ์์ธกํ ํ๋, a^{*}๋ ์ ๋ฌธ๊ฐ๊ฐ ์ค์ ์ํํ ํ๋์ ๋๋ค. ๋ง์ฝ ํ๋์ ์ด์ฐ์ ์ผ๋ก ๋๋์ด ํํํ ๊ฒฝ์ฐ, ๋์ ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํฝ ์ค ํ๋ ์ด์ค(pick-and-place)์์๋ ๋ก๋ด ๋ง๋จ์ ํฝ(pick) ์์น์ ํ๋ ์ด์ค(place) ์์น ๋ ์ง์ ์ ์์ธกํ๋๋ฐ, ์ด๋๋ BC ๊ธฐ๋ฐ ์์ค์ ์ ์ฉํฉ๋๋ค. ์ด์ฒ๋ผ ๋ชจ๋ฐฉํ์ต์ ํตํด ์ ์ด ์ ์ฑ ์ ํ์ตํ๋ฉด, ์ฃผ์ด์ง ์ธ์ด ์ง์์ ๋ง๊ฒ ํ๋ ๊ฒฝ๋ก๋ฅผ ๋น ๋ฅด๊ฒ ์ตํ ์ ์์ง๋ง, ์ฌ๋์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํด์ผ ํ๊ณ ์๋ก์ด ์ํฉ์ ๋ํ ์ผ๋ฐํ๊ฐ ๋ถ์กฑํ ์ ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
# ๊ณ ์์ค ๊ณผ์ -ํ์ ๊ณผ์ ๊ณ์ธต ๋ชจ์
goal_instruction = "์ฑ
์ ์์ ๋ฌผ๊ฑด๋ค์ ์ ๋ฆฌํด ์ค"
# (1) ๊ณ ์์ค ๊ณํ: LLM ๋ฑ์ผ๋ก ์๋ธํ์คํฌ ์์ฑ
plan = TaskPlanner.generate_plan(goal_instruction)
# plan = ["์์ ๋ค๋ก ๋ฐ๊ธฐ", "์ฑ
์ ์ ์ฑ
๋ค ์ค ์ ๋ฆฌํ๊ธฐ", "์ปต๋ค์ ์ฎ๊ธฐ๊ธฐ"] ๋ฑ
# (2) ๊ฐ ์๋ธํ์คํฌ๋ณ๋ก ์ ์์ค ์ ์ด ์ ์ฑ
์คํ
for subtask in plan:
current_state = get_robot_observation()
while not subtask.is_finished(current_state):
action = ControlPolicy.predict(current_state, subtask)
execute_robot_action(action)
current_state = get_robot_observation()์ ์์ฌ์ฝ๋์์ ๋ณด๋ฏ, VLA๋ ๋จผ์ ์ฅ๊ธฐ ๋ช ๋ น์ ์ดํดํ์ฌ ๊ณํ์ ์ธ์ด ๋ค, ์ ์์ค ์ ์ฑ ์ด ์ค์ ํ๋์ ์ํํฉ๋๋ค. ์ฌ๊ธฐ์ TaskPlanner๋ ๋ค์ ์ ์์ ๋ค๋ฃจ๋ ๊ณ ์์ค ๊ณํ์์ด๋ฉฐ, ControlPolicy๋ ์ง๊ธ ์ดํด๋ณด๋ ์ ์์ค ์ ์ด ์ ์ฑ ์ ๋๋ค.
3. ์์ ๊ณํ(Task Planners)
๊ณ ์์ค ์์ ๊ณํ์๋ ์ฅ๊ธฐ ๊ณผ์ ๋ฅผ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋ถํดํ์ฌ ๋ก๋ด์ด ์ฐจ๋ก์ฐจ๋ก ์ํํ ์ ์๋๋ก ๋์ต๋๋ค. ์๋ฅผ ๋ค์ด โ๋ฐฉ์ ์ฒญ์ํดโ๋ผ๋ ๋ชฉํ๋ ์ฌ๋ฌ ํ์ ์์ ์ผ๋ก ๋๋์ด์ผ ํฉ๋๋ค(๋ฐ๋ฅ ์ฒญ์ํ๊ธฐ, ๋ฌผ๊ฑด ์ ์๋ฆฌ์ ๋๊ธฐ, ์ฐ๋ ๊ธฐํต ๋น์ฐ๊ธฐ ๋ฑ). ์ด๋ VLA์ Task Planner๋ ์ธ๊ฐ์ ํผ์ฆ ๋ง์ถ๊ธฐ์๋ ๊ฐ์ต๋๋ค. ๋ก๋ด์ ์์ผ์ ์ธ์ด ์ง์๋ฅผ ๋ณด๊ณ , โ์ด ์์ ์ ๋จผ์ ํ๊ณ , ๋ค์์ ์ ์์ โฆโ๊ณผ ๊ฐ์ ์์๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ํนํ ์ต๊ทผ์๋ ๋ํ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ ๊ณํ ๊ธฐ๋ฒ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ์ฃผ์ ์ ๊ทผ ๋ฐฉ์์ ํฌ๊ฒ ์ธ ๊ฐ์ง์ ๋๋ค: End-to-End, ์ธ์ด ๊ธฐ๋ฐ, ์ฝ๋ ๊ธฐ๋ฐ ๊ณํ์ ๋๋ค.
- End-to-End ๊ณํ: ์๊ฐ-์ธ์ด ์ ๋ ฅ์ ํฌํจํ ๋ชจ๋ ์ ๋ณด๋ฅผ LLM์ ํตํฉํ์ฌ ์ง์ ๊ณํ์ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด SayCan ํ๋ ์์ํฌ์์๋ PaLM๊ณผ ๊ฐ์ LLM์ด โ{ํ์ฌ ํ๊ฒฝ, ์ง์}โ๋ฅผ ์ ๋ ฅ๋ฐ์ ์ฐ์ ์์ ๊ธฐ๋ฐ์ ์์ ๋ฆฌ์คํธ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ดํ ๋ฎ์ ์์ค ์ ์ฑ ์ด ์์ฐจ์ ์ผ๋ก ์ํํ๋ฉฐ, ํ๊ฒฝ ๋ณํ์ ๋ฐ๋ผ LLM์ด ๋ค์ ์ฌ๊ณํํ ์๋ ์์ต๋๋ค. PaLM-E ์ฐ๊ตฌ์์๋ ViT์ PaLM์ ๊ฒฐํฉํด ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ํ ์คํธ ๊ณํ์ ์์ฑํ ๋ค, SayCan์ ํ์ฉํ์ฌ ๋ก๋ด ํ๋์ผ๋ก ๋ณํํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฅ์ ์ ์ธ๊ฐ์ ํ๋๋์ฒ๋ผ ํตํฉ์ ์ผ๋ก ์ฌ๊ณ ํ๋ค๋ ์ ์ด์ง๋ง, ๋ค๋์ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ด ํ์ํ๊ณ ์ฐ์ฐ ๋น์ฉ์ด ํฌ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
- ์ธ์ด ๊ธฐ๋ฐ ๊ณํ: LLM์ ์ฌ์ฉํ๋, ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๋ชจ๋ ์ธ์ด ํ์์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด Inner Monologue ๊ธฐ๋ฒ์ โ๋ํ ๋ด๋ ์ด์ โ์ฒ๋ผ LLM์ด ์์ฐจ์ ์ผ๋ก ๊ณํ์ ์ธ์ฐ๊ณ , ์ ์์ค ์ ์ฑ ์ ๊ทธ ํ ์คํธ ์ง์๋ฅผ ๋ฐ๋ผ ์์ง์ ๋๋ค. ์ด ๊ณผ์ ์์ ๋ก๋ด์ด๋ ์ผ์๋ก๋ถํฐ ๋ฐ์ ํผ๋๋ฐฑ(์ฑ๊ณต/์คํจ, ์ค๋ธ์ ํธ ๋ณํ ๋ฑ)์ ํ ์คํธ๋ก LLM์ ์ ๋ฌํ์ฌ ๊ณ์ ๋ณด์ ํด ๋๊ฐ๋๋ค. ๋ง์น ์ฌ๋์ด ๋ฏธ๋ฆฌ ๊ฒฐ๋ก ์ ๊ธ๋ก ์ ์ด๊ฐ๋ฉฐ ๋ค์ ํ๋์ ์ ํ๋ ์ ์ ๋๋ค. LLM-Planner๋ LLM์ด ์์ฑํ ์ธ์ด ๊ณํ์ ๋จ๊ณ๋ณ๋ก ์ ์ด ์ ์ฑ ์ ๋๊ธฐ๊ณ , ํ์ํ ๊ฒฝ์ฐ โ๋ค์ ๊ณํ ์๋ฆฝโํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. Socratic Models๋ ์ฌ๋ฌ ๋ชจ๋ธ(๋น์ , ์ธ์ด)์ ์ค์ฌ(prompts) ๋ฐฉ์์ผ๋ก ๊ฒฐํฉํ์ฌ, ๋น์ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ธ์ด ์ค๋ช ์ผ๋ก ๋ฐ๊พธ๊ณ ๋ค์ ๋ก๋ด์ ํ์ฉํฉ๋๋ค. ๊ณตํต์ ์ ๋ชจ๋ ์ธ์ด๋ผ๋ ์ค๊ฐ ๋งค๊ฐ์ฒด๋ก ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ค๋ ์ ์ ๋๋ค.
- ์ฝ๋ ๊ธฐ๋ฐ ๊ณํ: LLM์๊ฒ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ API ํธ์ถ ์ฝ๋ ํํ๋ก ๊ณํ์ ์์ฑํ๋๋ก ํฉ๋๋ค. ProgPrompt๋ LLM์ ์ฌ์ฉ ๊ฐ๋ฅํ ํจ์์ ๊ฐ์ฒด ๋ชฉ๋ก์ ์๋ ค์ฃผ๊ณ , โํ๋กฌํํธโ ํ์์ผ๋ก ํ์คํฌ ๊ณํ์ ์์ฒญํฉ๋๋ค. ChatGPT for Robotics๋ ์ฃผ์ด์ง ์๋ฎฌ๋ ์ดํฐ ํจ์(API)๋ฅผ ์ค๋ช
ํ ๋ค ChatGPT๊ฐ ๋จ๊ณ๋ณ๋ก ํ์ด์ฌ ์ฝ๋๋ฅผ ์์ฑํ๋๋ก ํ์ฌ ๋ก๋ด ์ ์ด์ ํ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด,
pick_object(),move_robot()์ ๊ฐ์ API ๋ชฉ๋ก์ ์ ์ํ๊ณ ChatGPT์๊ฒ โ์ปต์ ์ฎ๊ธฐ๋ ์ฝ๋๋ฅผ ์์ฑํด ์คโ๋ผ๊ณ ํ๋ฉด, ChatGPT๊ฐ ํด๋น ํจ์๋ฅผ ํธ์ถํ๋ ์ฝ๋๋ฅผ ๋ง๋ค์ด์ค๋๋ค. Code-as-Policies๋ LLM์ด ์ ์ฑ ์์ฒด๋ฅผ ์ฝ๋๋ก ์์ฑํ์ฌ ์คํํ๊ฒ ํ๊ณ , DEPS๋ LLM์ผ๋ก ๊ณํ์ ์ธ์ฐ๊ณ ์คํจ ์์ธ์ ์ค๋ช ํ๊ฒ ํ์ฌ ๋ค์ ๊ณํํ๋๋ก ํฉ๋๋ค. ์ด ๋ฐฉ์๋ค์ LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ๊ณผ ์ธ๊ณ์ง์์ ํ์ฉํ๋ฏ๋ก ๋ณต์กํ ๋ ผ๋ฆฌ ๊ณํ์ ๊ฐ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์์ ์ฑ ๊ฒ์ฌ, ๋ฒ๊ทธ ๊ฐ๋ฅ์ฑ ๋ฑ ์ค์ ๋ก๋ด ์ ์ฉ์ ์ํ์ฑ์ ์ธ์ฌํ ๊ด๋ฆฌํด์ผ ํฉ๋๋ค.
flowchart LR
SubtaskPlanner(๊ณ ์์ค ๊ณํ์) -->|์ฑ
์ ์ ๋ฆฌ| ActionPolicy(์ ์์ค ์ ์ฑ
)
ActionPolicy --> Robot(๋ก๋ด ๋์)
Robot --> Environment(ํ๊ฒฝ)
Environment --> SubtaskPlanner
style SubtaskPlanner fill:#ffe0b2,stroke:#333,stroke-width:1px
์ ๋ค์ด์ด๊ทธ๋จ์์ ๋ณผ ์ ์๋ฏ, ๊ณ ์์ค ๊ณํ์(SubtaskPlanner)๋ ์ธ์ด ์ง์๋ก๋ถํฐ ๊ตฌ์ฒด์ ์ธ ์๋ธํ์คํฌ๋ฅผ ์์ฑํด ์ ์์ค ์ ์ฑ ์ ์ ๋ฌํฉ๋๋ค. ์ ์์ค ์ ์ฑ ์ ๊ทธ์ ๋ฐ๋ผ ๋ก๋ด์ ์์ง์ฌ ํ๋ํ๊ณ , ํ๊ฒฝ ๋ณํ๋ฅผ ๋ค์ ๊ณํ์์๊ฒ ์๋ ค์ฃผ๋ ์ํ ๊ตฌ์กฐ์ ๋๋ค.
4. ๋ฐ์ดํฐ์ ยท์๋ฎฌ๋ ์ดํฐ์ ํ๊ฐ
VLA ์ฐ๊ตฌ์ ํ์ํ ๋ฐ์ดํฐ์ ๊ณผ ํ๊ฒฝ์ ํฌ๊ฒ ๋ ์ถ์ผ๋ก ๋๋ฉ๋๋ค. ํ์ค ๋ก๋ด ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๋๋ค. ํ์ค ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋งค์ฐ ๋ง์ด ๋ญ๋๋ค. ๋ก๋ด ์ฅ๋น ํ๋ณด, ํ๊ฒฝ ๊ตฌ์ถ, ์ ๋ฌธ ์กฐ์์ ํฌ์ ๋ฑ ์ ์ฝ์ด ๋ง๊ณ , ๋ค์ํ ๋ก๋ด ์ ํ๊ณผ ์ค์ ๊ฐ์ ๋ฐ์ดํฐ ๋ถ์ผ์น ๋ฌธ์ ๋ ํฝ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ค์์ ์ป์ ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ๋๋ญ ๋๋ค.
๋ฐ๋ฉด, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ด์ฉํ๋ฉด ๋น์ฉ์ ํฌ๊ฒ ์ค์ด๊ณ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์์ฑํ ์ ์์ต๋๋ค. ๋ํ์ ์๋ฎฌ๋ ์ดํฐ๋ก๋ Unity ๊ธฐ๋ฐ์ AI2-THOR, TDW, SAPIEN; Gazebo/Bullet ๊ธฐ๋ฐ์ iGibson, Habitat; MuJoCo ๊ธฐ๋ฐ์ Meta-World, RoboSuite ๋ฑ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด AI2-THOR๋ ๊ฐ์ ์ฃผ๋ฐฉ/๊ฑฐ์ค์์ ๋ฌผ์ฒด ์กฐ์ ํ์คํฌ๋ฅผ, Habitat/Gibson์ ์ค๋ด ๋ค๋น๊ฒ์ด์ ์, Meta-World๋ ๋ก๋ดํ ์กฐ์ ๊ณผ์ ๋ฅผ ์ง์ํฉ๋๋ค. ์ด๋ฌํ ์๋ฎฌ ํ๊ฒฝ์์๋ ๋ก๋ด ์นด๋ฉ๋ผ(RGB, ๊น์ด, ์ธ๊ทธ๋ฉํ ์ด์ ๋ฑ)๋ฅผ ์์ ๋กญ๊ฒ ์ค์ ํ ์ ์๊ณ , ๋ค์ํ ์์ ์๋๋ฆฌ์ค(์ผ๊ตด ๋ฆ๊ธฐ, ๊ทธ๋ฆ ์ ๋ฆฌ ๋ฑ)๋ฅผ ์๋ ์์ฑํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์๋ฎฌ๋ ์ด์ ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ํ์ค๊ณผ ์๋ฎฌ ๊ฐ ๋ถ์ผ์น(sim-to-real gap)๊ฐ ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ธ๋ฐ, ๊ทธ๋ํฝ ํ์ง ์ฐจ์ด, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๋ถ์ ํ์ฑ, ์๋ก์ด ๋ฌผ์ฒด ๋ชจ๋ธ๋ง ์ด๋ ค์ ๋ฑ์ด ๊ทธ ์์ธ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ก์ฒด๋ ์ฒ ๊ฐ์ ๋น๊ฐ์ฒด ๊ฐ์ฒด๋ฅผ ํ์ค์ฒ๋ผ ์๋ฎฌ๋ ์ด์ ํ๋ ๊ฒ์ ๋งค์ฐ ๊น๋ค๋กญ์ต๋๋ค. ๋ฐ๋ผ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ์ ํ์ต๋ VLA๋ ํ์ค ๋ก๋ด์ ์ฎ๊ธฐ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ๋๋ฉ์ธ ๋๋คํ, ์ ๊ตํ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง, ์๋ฎฌ๋ ์ดํฐ ๋ณด์ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
๋ก๋ด ์ฐ๊ตฌ์๋ค์ ๋ํ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ๊ฐํฉ๋๋ค. ์ ์ด ์ ์ฑ ์ ๋ณดํต ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์์์ ๋จ์ ์กฐ์ ์ ํ๋๋ ์ฑ๊ณต๋ฅ ๋ก ํ๊ฐ๋๋ฉฐ, ์์ ๊ณํ์๋ ์ฅ๊ธฐ ๊ณผ์ ์ฑ๊ณต๋ฅ (์: ALFRED, RoboTHOR์์ โ์ค๋ธ์ ์ผ๋ผโ)๋ก ํ๋จํฉ๋๋ค. ํ์ง๋ง ์ด๋ค ๋ฒค์น๋งํฌ๊ฐ ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ ์๋ฒฝํ ๋ฐ์ํ์ง ๋ชปํ๊ณ , ๊ณ ์์ค-์ ์์ค ํตํฉ ๋ฅ๋ ฅ์ ์ธก์ ํ๊ธฐ ์ด๋ ต๋ค๋ ์ง์ ๋ ์์ต๋๋ค. ํฅํ์๋ ์๋ฎฌ ์คํ๊ณผ ํจ๊ป ์ค์ ๋ก๋ด ์คํ๋ ํ์คํํ์ฌ, ๋ ํ์ค์ ์ธ ํ๊ฐ ์ฒด๊ณ๊ฐ ํ์ํฉ๋๋ค.
5. ๋์ ๊ณผ์ ์ ํฅํ ๋ฐฉํฅ
๋น์ -์ธ์ด-์ก์ ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ์ ์ฌ๋ ฅ์ ์ง๋ ์ง๋ง, ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ๋ ๋ง์ต๋๋ค. ์ฃผ์ ๋์ ๊ณผ์ ๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฐ์ดํฐ ๋ถ์กฑ(Scarcity): ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํฉ๋๋ค. ํ์ค ๋ฐ์ดํฐ ์์ง์ ๋น์ฉยท์๊ฐ์ ์ผ๋ก ์ด๋ ค์ ๋ฉํฐํ์คํฌ ํ์ต์ด ํ๋ญ๋๋ค. ๋ฐ๋ฉด ์๋ฎฌ ๋ฐ์ดํฐ๋ ํ๋ถํ์ง๋ง ์์ ์ธ๊ธํ ๊ฐญ ๋ฌธ์ ๋ก ํ์ค ์ ์ฉ์ฑ์ด ๋จ์ด์ง๋๋ค. ํด๊ฒฐ์ฑ ์ผ๋ก๋ ๊ธฐ๊ด ๊ฐ ํ์ ์ผ๋ก ๋ก๋ด ๋ฐ์ดํฐ ๊ณต์ , ํน์ ์ฌ๋ ๋์ ๋ฐ์ดํฐ ํ์ฉ(๋ฐ๋ชจ, AR/VR ํ์ฉ)์ด ๋ชจ์๋๊ณ ์์ต๋๋ค.
- ์ด๋ ๊ณํ(Motion Planning): ํ์ฌ์ ์ ์ฑ ์ ๋๋ถ๋ถ ๋จ์ผ ๊ด์ ํน์ ๋ง๋จ ๋ก๋ดํ์ ์์น๋ฅผ ์ ์ดํ์ง๋ง, ๋ณต์กํ ์ฅ๊ธฐ ์์ ์์ ํ์ํ ์ ๋ฐ ์ด๋ ๊ณํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค. ๊ณต๊ตฌ ์ฌ์ฉ, ๋ณต์กํ ๊ฒฝ๋ก ํํผ, ์ ๋ฐ ์กฐ์ ๋ฑ์์ ๋ ์ ๊ตํ ์ด๋ ๊ณํ ์๊ณ ๋ฆฌ์ฆ์ด ํ์ํฉ๋๋ค. ์ด๋ ๋ก๋ด์ ๋ฏผ์ฒฉ์ฑ๊ณผ ํผํฌ๋จผ์ค ํฅ์์ผ๋ก ์ด์ด์ง๋๋ค.
- ์ค์๊ฐ ์๋ต์ฑ(Real-Time): ๋ง์ ๋ก๋ด ์์ฉ์ ์งง์ ์ง์ฐ์ผ๋ก ๋น ๋ฅธ ์์ฌ๊ฒฐ์ ์ ์๊ตฌํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์ฐ๋ฉด ๊ณ์ฐ์ด ๋๋ฆฌ๊ณ , ์ค์ ํ๊ฒฝ ๋ณํ์ ์ฆ์ ๋์ํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ํจ์จ์ ์ธ ๊ฒฝ๋ํ ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ๋์จ์ด ๊ฐ์, ์ ์ฒด ์์คํ ์ต์ ํ๊ฐ ์๊ตฌ๋ฉ๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ํตํฉ(Multi-modal Fusion): ์๊ฐยท์ธ์ด ์ธ์๋ ์์ฑ, ์ด๊ฐ ๋ฑ ๋ค์ํ ์ผ์ ์ ๋ณด๋ฅผ ํตํฉํ๋ ์ผ์ด ์์ ์ ๋๋ค. ํนํ ์ฒญ๊ฐ ์ ๋ณด๋ฅผ ์ด์ฉํ๋ฉด ๊ฐ์ ์ ํ์ ์๋์์ผ๋ก ์ํฉ ํ์ ์ด ๊ฐ๋ฅํ๊ณ , ์์ฑ ๋ช ๋ น ์ฒ๋ฆฌ๋ก ์ฌ์ฉ์์ ์์ฐ์ค๋ ๋ํํ ์ ์์ต๋๋ค. ์์ผ๋ก๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ต๊ณผ ํจ์ ๊ธฐ์ ์ ๋ฐ์ ์ด VLA์ ํ์ค ๋ฐ์์ฑ์ ๋์ผ ๊ฒ์ ๋๋ค.
- ์ผ๋ฐํ(Generalization): VLA๊ฐ ๋ค์ํ ๋ฏธ์ง์ ์ํฉ์์๋ ์ธ์ด ์ง์๋ฅผ ์ดํดํ๊ณ ์คํํ๋ ค๋ฉด ์ฌ๋ ์์ค์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค. ChatGPT๊ฐ ๋ค์ํ ๋ํ์์ ์ ์ฐํ๋ฏ์ด, VLA๋ ๋ค์ํ ์์ , ํ๊ฒฝ, ๋ก๋ด ํ์ ์์ ๊ฒฌ๊ณ ํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ ํฐ ๊ท๋ชจ์ ๋ฉํฐํ์คํฌ ํ์ต, ๋๋ฉ์ธ ์ด๋ํ ์ด์ , meta-learning ๊ธฐ๋ฒ ์ฐ๊ตฌ๊ฐ ํ๋ฐํฉ๋๋ค.
- ์ฅ๊ธฐ ์์ (Long-Horizon Task): โํ๋ถ์ ๋ฌผ์ ์คโ ๊ฐ์ ์งง์ ๋ช ๋ น๋ ์ค์ ๋ก๋ ์ฌ๋ฌ ๋จ๊ณ ๊ณผ์ ๋ก ์ด์ด์ง ์ ์์ต๋๋ค(๋ก๋ดํ ์ด๋ โ ๋ฌผํต ์ง๊ธฐ โ ํ๋ถ์ผ๋ก ์ด๋ โ ๋ฌผ ๋ถ๊ธฐ). ํ์ฌ ๊ณ ์์ค ๊ณํ์ ๋ชจ๋ธ์ ์ด๊ธฐ ์ฑ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ๋๋ถ๋ถ์ LLM์ ์ธ๊ฐ์ ๋ฌผ๋ฆฌ์ ์ง์์ด ๋ถ์กฑํ์ฌ ๊ธด ๊ณํ์ ์๋ฒฝํ ์ํํ์ง ๋ชปํฉ๋๋ค. ์ฆ, ๊ณํ ๋ฅ๋ ฅ๊ณผ ์ธ์ง ๋ฅ๋ ฅ์ ๋์์ ํค์ฐ๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
- ๊ธฐ์ด ๋ชจ๋ธ(Foundation Model)์ ๋ถ์ฌ: ์ด๋ฏธ์ง๋ CLIP, ํ ์คํธ๋ GPT์ฒ๋ผ ๋จ์ผ ๋ฒ์ฉ ๋ชจ๋ธ์ด ์กด์ฌํ์ง๋ง, ๋ก๋ด ์ ์ด ์ ์ฉ์ ๊ฑฐ๋ ๋ชจ๋ธ์ ์์ง ์์ต๋๋ค. ๋ค์ํ ๋ก๋ด๊ณผ ํ๊ฒฝ์ ์์ฐ๋ฅด๋ ๊ณต์ฉ ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ฉด ์น ๊ท๋ชจ์ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ์ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ด ํ์ํฉ๋๋ค.
- ์์ ์ฑ(Safety)๊ณผ ์ค๋ฆฌ: ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ํธ์์ฉํ๋ฏ๋ก ์๋ชป๋ ๋์์ ์ธ๋ช ยท์ฌ์ฐ ํผํด๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ๋ฐ๋ผ์ VLA ์์ฌ๊ฒฐ์ ์ ํฌ๋ช ํ๊ฒ ํ๊ณ , ์์ธก ๋ถ๊ฐ๋ฅํ ํ๋์ ์ ์ดํ๋ ์์ ๋ฉ์ปค๋์ฆ ์ฐ๊ตฌ๊ฐ ํ์์ ์ ๋๋ค. ๋ํ ๊ฐ์ธ์ ๋ณด๋ ํธํฅ ์๋ ํ๋จ ๋ฑ ์ค๋ฆฌยท์ฌํ์ ๊ณ ๋ ค๋ ํจ๊ป ๋ ผ์๋์ด์ผ ํฉ๋๋ค.
์ด๋ฌํ ๋์ ๊ณผ์ ๋ค์ ํด๊ฒฐํ๋ฉด, VLA ๊ธฐ๋ฐ ๋ก๋ด์ ์ฐ์ ํ์ฅ๋ฟ ์๋๋ผ ๊ฐ์ , ์๋ฃ, ์๋น์ค ๋ฑ ๋ค์ํ ๋ถ์ผ์ ํญ๋๊ฒ ํ์ฉ๋ ์ ์์ต๋๋ค.
๊ฒฐ๋ก
๋น์ -์ธ์ด-์ก์ ๋ชจ๋ธ์ ๋ก๋ด๊ณตํ์์ ์ธ์ด์ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํด ๋ก๋ด ํ๋์ ์์ฑํ๋ค๋ ์ ์์ ํ์ ์ ์ธ ์ ๊ทผ์ ๋๋ค. ๋ณธ ์๋ฒ ์ด์์๋ VLAs๋ฅผ ์ฌ์ ํ๋ จ(๋น์ ยท๋์ญํยท์๋ ๋ชจ๋ธ), ์ ์ด ์ ์ฑ (์ธ์ด+์๊ฐโํ๋), ์์ ๊ณํ(์ฅ๊ธฐ๊ณผ์ ๋ถํด) ์ธ ์ถ์ผ๋ก ์ฒด๊ณํํ์ต๋๋ค. ๊ฐ ๋ถ๋ฌธ์์ CLIP, R3M, Dreamer ๊ฐ์ ๋ชจ๋ธ๋ถํฐ RT-2, PaLM-E ๊ฐ์ ์ต์ LLM ๊ธฐ๋ฐ ๋ชจ๋ธ, SayCan๊ณผ ProgPrompt ๊ฐ์ ๊ณ ์์ค ๊ณํ์๊น์ง ๋ค์ํ ์ฐ๊ตฌ๊ฐ ์งํ๋์ด ์์ต๋๋ค.
VLAs๋ ์ด๋ฏธ ๋ณต์กํ ํ๊ฒฝ์์ ๋ค์ํ ์์ ์ ์ํํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ ํฐ ๊ฐ๋ฅ์ฑ์ ๋๋ฌ๋์ง๋ง, ์ฌ์ ํ ์ผ๋ฐํ, ํจ์จ์ฑ, ์์ ๋ฑ ํด๊ฒฐ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค. ์์ผ๋ก ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ๊ตฌ์ถ, ์๋ฎฌ-์ค ๊ฐ ์ฐ๊ตฌ, ๋ฉํฐ๋ชจ๋ฌ ํ์ต ๊ธฐ๋ฒ ๊ฐ๋ฐ์ด ํ๋ฐํด์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋ณธ ๋ฆฌ๋ทฐ๊ฐ ๋ก๋ด๊ณตํ์๋ค์๊ฒ VLA ๊ฐ๋ ๊ณผ ์ต๊ทผ ์ฐ๊ตฌ ๋ํฅ์ ๋ํ ์ง๊ด์ ์ดํด์ ๊ธฐ์ ์ ํต์ฐฐ์ ์ ๊ณตํ์ฌ, ๋ฏธ๋์ ๋ก๋ด ์์คํ ๊ฐ๋ฐ์ ์ค์ง์ ์ธ ๋์์ด ๋๊ธธ ๋ฐ๋๋๋ค.
์ฐธ๊ณ ์ฌํญ