📃VLA for Embodied AI 리뷰

vla

embodied

A Survey on Vision-Language-Action Models for Embodied AI

Published

December 22, 2025

🔍 Ping. 🔔 Ring. ⛏️ Dig. A tiered review series: quick look, key ideas, deep dive.

🤖 VLA(Vision-Language-Action) 모델은 Vision, Language, Action 모달리티를 통합하여 Embodied AI 환경에서 로봇 작업을 수행하는 데 중점을 둔 멀티모달(multimodal) 모델입니다.
📚 이 서베이는 VLAs를 개별 구성 요소(components), 저수준 제어 정책(low-level control policies), 고수준 태스크 플래너(high-level task planners) 세 가지 주요 연구 분야로 분류하고 다양한 아키텍처와 학습 방법을 설명합니다.
🛠️ 또한, VLAs의 개발을 위한 데이터셋(datasets)과 시뮬레이터(simulators)와 같은 필수 자원을 제시하고, 데이터 희소성(data scarcity), 안전(safety) 등의 과제와 인공 일반 지능(AGI)을 향한 미래 연구 방향을 논의합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

이 논문은 Embodied AI 분야에서 Vision-Language-Action (VLA) 모델에 대한 최초의 포괄적인 조사를 제공합니다. VLA 모델은 Large Language Models (LLMs) 및 Vision-Language Models (VLMs)의 성공을 바탕으로 등장했으며, 시각, 언어, 행동 양식을 통합하여 언어 조건부 로봇 작업을 수행하는 데 특화되어 있습니다.

I. 서론

VLA 모델은 환경과 상호작용하는 물리적 embodiments를 제어하며, 특히 로봇 분야에서 언어 지시에 따라 환경을 시각적으로 인식하고 적절한 행동을 생성하는 데 필요한 multimodal 능력을 제공합니다. RT-2 [2]에서 이 용어가 처음 제안되었으며, 초기 Deep Reinforcement Learning (RL) 접근 방식에 비해 향상된 다용성, dexterity 및 일반화 능력을 보여줍니다. 이 논문은 VLA를 시각 및 언어로부터 multimodal 입력을 처리하여 embodied 작업을 수행하는 로봇 행동을 생성할 수 있는 모든 모델로 정의하며, LLM 또는 Large VLM을 기반으로 하는 VLA를 “Large VLA (LVLA)”로 구분합니다.

II. 배경

Embodied AI는 물리적 환경과 능동적으로 상호작용하는 인공지능의 한 형태로, 로봇 학습은 종종 Markov Decision Process (MDP) 또는 Partially-Observable Markov Decision Processes (POMDPs) 문제로 정식화됩니다. 주요 목표는 현재 상태 s에서 최적의 행동 a를 생성하는 정책 $ (a_t|s_{t}, a_{<t}) $를 훈련하는 것입니다. Reward function 정의가 어려운 경우 Imitation Learning이 사용되며, 언어 지시 p를 사용한 언어 조건부 로봇 정책 $ (a_t|p, s_{t}, a_{<t}) $가 개발됩니다.

III. Vision-Language-Action 모델

VLA 모델은 세 가지 주요 연구 분야로 구성됩니다: VLA의 개별 구성 요소, low-level 제어 정책, high-level task planner.

A. VLA의 구성 요소

VLA 모델은 Computer Vision (CV), Natural Language Processing (NLP), RL의 성공을 바탕으로 개별 구성 요소를 통합합니다.

Reinforcement Learning: RL은 Embodied AI의 기초를 마련했으며, Deep Q-Network (DQN)와 같은 모델을 통해 고차원 픽셀 입력에서 정책 학습 가능성을 입증했습니다. Decision Transformer (DT) 및 Trajectory Transformer (TT)는 Transformer 아키텍처를 사용하여 상태, 행동, 보상 시퀀스를 처리하는 데 영감을 주었습니다. RL과 LLM 간의 시너지 효과는 Human Feedback으로부터의 RL (RLHF)을 통해 LLM을 인간 선호도에 맞추거나, Reflexion과 같은 언어적 피드백을 활용한 새로운 RL 방법을 가능하게 합니다. Eureka [24]는 LLM이 로봇을 위한 보상 함수를 설계할 수 있음을 보여줍니다.
Pretrained Visual Representations (PVRs): Vision encoder의 효과는 VLA의 성능에 직접적인 영향을 미칩니다.
- CLIP [25]: 4억 개의 이미지-텍스트 쌍으로 구성된 WIT 데이터셋으로 훈련되며, 이미지-텍스트 쌍을 식별하는 대조 학습 objective를 사용합니다.
- R3M [26]: 시간적 대조 학습(인접 프레임 간 거리 최소화, 비인접 프레임 간 거리 최대화) 및 비디오-언어 정렬 objective를 통해 PVR을 생성합니다.
- MVP [28]: 컴퓨터 비전의 Masked Autoencoder (MAE)를 로봇 데이터셋에 적용하여 손상된 패치를 재구성하는 self-supervised 방식으로 훈련됩니다.
- Voltron [35]: 언어 조건부 MAE objective와 언어 생성 objective를 통합하여 언어-시각 양식의 정렬을 향상시킵니다.
- VC-1 [34]: 이전 PVR에 대한 심층 분석을 통해 최적의 ViT 구성을 탐색하고, PVR 개선에 기여하는 핵심 요소를 밝힙니다.
- DINOv2 [36]: self-distillation 프레임워크를 통해 MAE를 능가하는 성능을 달성합니다. 교사 네트워크는 학생 네트워크의 EMA로 유지됩니다.
- I-JEPA [39]: joint-embedding predictive architectures에서 영감을 받아 패치 임베딩을 비교하여 내부 세계 모델을 구축합니다. DINO와 달리 masked patches를 사용하며, MAE와 달리 비생성적 접근 방식입니다.
- Theia [40]: 다양한 vision foundation models (segmentation, depth, semantics 등)을 단일 모델로 증류하여 이전 PVR을 능가합니다.
- 강점 및 한계: MAE 기반 self-supervised 학습은 pixel-level 정보를 제공하여 정밀한 로봇 조작에 유용하며, DINOv2 및 I-JEPA는 각각 pixel- 및 patch-level 특징 학습에 강점을 가집니다. Theia는 여러 VFM의 정보를 융합하여 성능을 향상시킵니다.
Video Representations: 비디오는 이미지 시퀀스로서, 시간적 대조 학습 및 MAE와 같은 고유한 표현 기술을 가능하게 합니다. NeRF [43, 44] 및 3D Gaussian Splatting (3D-GS) [45, 46]는 풍부한 3D 정보를 제공하며, 오디오 [47]도 로봇 정책에 중요한 cues를 제공할 수 있습니다.
Dynamics Learning: 모델 $ f() $에 forward 또는 inverse dynamics 이해를 부여하는 objective를 포함합니다.
- Forward dynamics: $ {t+1} f{fwd}(s_t, a_t) $ (주어진 행동에 따른 다음 상태 예측).
- Inverse dynamics: $ t f{inv}(s_t, s_{t+1}) $ (이전 상태에서 다음 상태로 전환하는 데 필요한 행동 결정).
- Vi-PRoM [48]: 비디오 간 구별을 위한 대조적 self-supervised 학습, 뒤섞인 비디오 프레임 복구, pseudo labels를 사용한 이미지 분류 objective를 제시합니다.
- MIDAS [50]: pretraining의 일부로 inverse dynamics 예측 작업을 도입하여 환경의 전환 dynamics 이해를 향상시킵니다.
- SMART [51]: forward dynamics 예측, inverse dynamics 예측, 무작위로 마스킹된 hindsight control을 포함한 pretraining scheme을 제시합니다.
- MaskDP [49]: 상태 및 행동 토큰을 마스킹하여 재구성하는 masked decision prediction 작업을 통해 forward 및 inverse dynamics 이해를 얻습니다.
- VPT [53]: 레이블 없는 인터넷 비디오를 활용하여 Minecraft용 foundation model을 pretrain합니다.
- 강점 및 한계: 일반적으로 forward dynamics 학습이 inverse dynamics 학습보다 어렵지만, 더 큰 성능 향상을 가져옵니다. Inverse dynamics 모델은 상태만 포함된 데이터셋에 행동 레이블을 생성하는 데 사용될 수 있습니다.
World Models: 세계 모델 $ P() $은 세상에 대한 상식적 지식을 인코딩하고 주어진 행동에 대한 미래 상태 $ {t+1} P({t+1}|s_t, a_t) $를 예측합니다. 이는 model-based 제어 및 계획을 가능하게 합니다.
- Dreamer [55]: 잠재 dynamics 모델을 구축하기 위해 표현 모델, 전환 모델, 보상 모델의 세 가지 주요 모듈을 사용합니다. DreamerV2 [56]는 discrete 잠재 상태 공간을 도입했고, DreamerV3 [57]는 더 넓은 도메인으로 확장했습니다.
- IRIS [59]: GPT와 같은 autoregressive Transformer를 세계 모델의 기반으로 사용하며, VQ-VAE를 vision encoder로 사용합니다.
LLM-induced World Models: LLM의 상식적 지식을 활용하여 VLA를 개선합니다.
- DECKARD [61]: LLM이 Minecraft의 아이템 제작을 위한 directed acyclic graphs 형태의 abstract world models (AWMs)를 생성하도록 프롬프팅합니다.
- LLM-DM [62]: LLM을 사용하여 Planning Domain Definition Language (PDDL)로 세계 모델을 구축합니다.
- RAP [64]: LLM을 행동을 예측하는 정책과 상태 전환 분포를 제공하는 세계 모델로 재사용합니다. Monte Carlo Tree Search (MCTS)를 통합하여 구조화된 계획을 가능하게 합니다.
- LLM-MCTS [66]: RAP을 기반으로 POMDPs로 확장하며, LLM이 MCTS의 검색 공간을 줄여 효율성을 향상시킵니다.
Visual World Models: 텍스트 형태의 LLM-induced 세계 모델과 달리, 시각 세계 모델은 미래 상태의 이미지, 비디오, 3D 장면을 생성하여 물리적 세계와 더 밀접하게 정렬됩니다.
- Genie [69]: Generative Interactive Environments라는 새로운 클래스의 생성 모델을 소개하며, 비지도 방식으로 훈련되어 사용자가 생성 환경과 프레임별로 상호작용할 수 있도록 합니다.
- 3D-VLA [70]: diffusion models를 사용하여 이미지, 깊이 맵, 포인트 클라우드와 같은 시각적 입력을 처리하고, 사용자의 쿼리에 응답하여 목표 상태(이미지 또는 포인트 클라우드)를 생성합니다.
- UniSim [71]: 실제 상호작용 비디오를 기반으로 생성 모델을 구축하여 high-level 및 low-level 행동 모두에 대한 시각적 결과를 시뮬레이션합니다.
- E2WM [72]: 기존 시뮬레이터를 세계 모델로 사용하여 MCTS를 통해 embodied 경험을 수집합니다.
Reasoning: LLM의 핵심 능력인 CoT (Chain-of-Thought) 추론을 의사결정 과정에 적용합니다.
- ThinkBot [75]: CoT를 적용하여 sparse한 인간 지시에서 누락된 행동 설명을 복구합니다.
- ReAct [76]: 추론 흔적과 행동을 interleave하여 행동 계획을 생성하고 상식적 지식을 주입하며 예외를 처리하는 데 도움을 줍니다.
- ECoT [78]: low-level 제어 정책에 embodied CoT 추론을 훈련시켜 계획, sub-tasks, 동작, 시각적 특징에 대해 추론하도록 합니다.

B. Low-level Control Policies

VLA 모델 $ {} $는 vision encoder와 language encoder와 같은 지각 모듈을 action decoder와 통합하여 언어 지시 p를 실행하는 제어 정책으로 형성됩니다: $ t {}( t | p, s{t}, a{<t}) $.

Non-Transformer Control Policies:
- CLIPort [31]: CLIP과 Transporter 네트워크를 통합하여 “semantic” 정보와 “spatial” 정보를 추출하고, CLIP 문장 encoder가 SE(2) 행동을 유도합니다.
- BC-Z [79]: 언어 지시 또는 인간 시연 비디오를 처리하고, FiLM layer를 통해 지시 임베딩과 이미지 임베딩을 결합하여 행동을 생성합니다.
- UniPi [83]: 의사결정 문제를 텍스트 조건부 비디오 생성 문제로 처리하여, 주어진 텍스트 지시에 따라 비디오를 생성하고 inverse dynamics를 통해 행동을 추출합니다.
Transformer-based Control Policies:
- Gato [19]: 단일 모델 매개변수 세트로 Atari 게임, 이미지 캡션, 블록 쌓기 등 다양한 작업을 수행할 수 있는 “multi-modal, multi-task, multi-embodiment generalist agent”입니다.
- RoboCat [92]: Gato 모델을 기반으로 하는 self-improvement 프로세스를 제안하여 100개 미만의 시연으로 새로운 작업에 빠르게 적응합니다.
- RT-1 [94]: BC-Z와 유사하지만, EfficientNet 기반의 vision encoder와 Transformer decoder를 사용하여 이산화된 행동을 생성합니다.
- Q-Transformer [95]: RT-1을 확장하여 autoregressive Q-functions를 도입하고, Q-learning 방법을 채택하여 성공적인 시연뿐만 아니라 실패한 trajectories도 학습에 활용합니다.
- ACT [97]: action chunking이 있는 conditional VAE 정책을 구축하여, 정책이 단일 행동이 아닌 행동 시퀀스를 예측하도록 합니다.
Control Policies for Multimodal Instructions:
- VIMA [126]: multimodal prompts에 중점을 두며, 객체 조작, 시각적 목표 도달, 새로운 개념 ground, one-shot 비디오 모방 등 복잡한 작업을 언어 프롬프트만으로는 표현하기 어려운 태스크를 지원합니다.
- MOO [93]: RT-1을 확장하여 multimodal prompts를 처리하고, OWL-ViT를 통합하여 프롬프트 내 이미지를 인코딩합니다.
Control Policies with 3D Vision: 3D 비전은 2D 이미지보다 풍부한 정보를 제공합니다.
- PerAct [87]: RGB-D 입력에서 재구성된 voxel map을 입력으로 사용하고, gripper 움직임을 안내하는 최상의 voxel을 출력으로 생성합니다.
- Act3D [88]: 연속 해상도 3D feature field를 도입하여 voxelization의 계산 비용을 해결합니다.
- RVT, RVT-2 [89, 90]: 장면 포인트 클라우드의 가상 뷰에서 이미지를 재-렌더링하고 이를 입력으로 사용합니다.
Diffusion-based Control Policies:
- Diffusion Policy [104]: 로봇 정책을 DDPM [128]으로 정식화하며, 시각 조건부 및 시계열 diffusion Transformer와 같은 기술을 통합합니다.
- SUDD [106]: LLM이 데이터 생성을 안내하고, 필터링된 데이터셋이 visuo-linguo-motor 정책으로 증류되는 프레임워크를 제시합니다.
- Octo [107]: OXE 데이터셋 [112]을 활용한 Transformer 기반 diffusion 정책으로, 다양한 로봇 및 작업에 걸쳐 긍정적인 transfer 및 일반화 능력을 보여줍니다.
- MDT [109]: DiT 모델 [129]을 action prediction head에 적용하며, masked generative foresight 및 contrastive latent alignment 보조 objective를 통해 U-Net 기반 diffusion 모델보다 우수한 성능을 보여줍니다.
- RDT-1B [110]: DiT를 기반으로 하는 bimanual manipulation을 위한 diffusion foundation model입니다.
Diffusion-based Control Policies with 3D Vision:
- DP3 [105]: diffusion 정책에 3D 입력을 도입하여 성능을 향상시킵니다.
- 3D Diffuser Actor [108]: Act3D와 Diffusion Policy를 결합한 모델 아키텍처를 사용합니다.
Control Policies for Motion Planning:
- Language costs [84]: 인간 지시로부터 생성된 예측 비용 맵을 사용하여 motion planner가 최적의 행동을 계산하도록 합니다.
- VoxPoser [103]: LLM 및 VLM을 사용하여 affordance 및 constraint를 나타내는 두 개의 3D voxel map을 생성하고, 모델 예측 제어를 사용하여 실행 가능한 trajectory를 생성합니다.
Control Policies with Point-based Action:
- PIVOT [132]: 로봇 작업을 시각적 질의응답으로 간주하여, VLM이 시각적 proposals 집합에서 최적의 로봇 행동을 선택하도록 합니다.
- RoboPoint [91]: spatial affordance prediction 작업을 사용하여 VLM을 finetune하며, 2D 이미지의 affordance points를 깊이 맵을 사용하여 3D 공간으로 투영합니다.
Large VLA: RT-2 [2]에서 제안된 원래 VLA 정의에 해당하며, LLM 및 VLM과 유사하게 큰 모델 규모를 특징으로 합니다.
- RT-2 [2]: PaLI-X 및 PaLM-E와 같은 large multimodal models의 기능을 로봇 작업에 활용하며, 인터넷 규모 VQA 데이터와 로봇 데이터를 모두 학습하는 co-fine-tuning을 도입합니다.
- RT-H [111]: 언어 지시와 low-level 행동 사이에 언어 동작의 중간 예측 레이어를 포함하는 action hierarchy를 도입하여 데이터 공유를 용이하게 합니다.
- RT-X [112]: RT-1 및 RT-2 모델을 Open X-Embodiment (OXE)라는 더 큰 오픈 소스 데이터셋으로 재훈련합니다.
- OpenVLA [37]: RT-2-X의 오픈 소스 버전으로, 효율적인 fine-tuning 방법을 탐색했습니다.
- **$ _0 $** [115]: VLM을 VLA로 변환하기 위한 flow-matching 아키텍처를 제안하며, mixture-of-experts 프레임워크를 기반으로 하는 추가 action expert를 통합합니다.
- RoboMamba [116]: Transformer를 Mamba state space model로 대체하여 효율적인 로봇 추론 및 행동 기능을 달성합니다.
- WorldVLA [122] 및 UniVLA [123]: VLAs를 세계 모델과 통합하여 multimodal 데이터를 discrete tokens로 양자화하여, 행동 및 텍스트 생성뿐만 아니라 이미지 생성도 가능하게 합니다.
- Instruct2Act [102]: LLM에 vision 및 action tools를 통합하여 로봇 작업을 수행하도록 합니다.
- 강점 및 한계:
  - 아키텍처: FiLM, cross-attention, concatenation, quantization, tool-use 방식이 사용됩니다.
  - 행동 유형 및 훈련 목표: low-level 제어 정책은 주로 end-effector pose에 대한 행동을 예측하며, 행동 유형에 따라 다양한 Behavior Cloning (BC) objective (예: 연속 행동 $ L_{Cont} = _t MSE(a_t, t) $, 이산 행동 $ L{Disc} = _t CE(a_t, t) $) 및 Diffusion Policy의 DDPM objective (예: $ L{DDPM} = MSE(k, {}(a_t + _k, k)) $)가 사용됩니다.
  - RT 시리즈: RT-1은 “Robotic Transformer” 모델 시리즈에 영감을 주었으며, Transformer 백본은 더 큰 로봇 데이터셋을 흡수하는 데 효과적입니다.
  - LVLA vs. Generalized VLA: LVLA는 지시 따르기 능력을 향상시키지만, 훈련 비용과 배포 속도(느린 추론 속도)가 우려됩니다.
  - Scaling Law: LLM과 유사하게, 로봇 공학에서도 model size, data quality, 환경 및 객체 다양성의 중요성을 보여주는 scaling laws가 관찰됩니다.

IV. Task Planners

High-level task planner $ {} $는 복잡한 작업 $ $을 subtasks 시퀀스 $ [p_1, p_2, , p_N] {}(, s_t) $로 분해하여 low-level 제어 정책 $ _{} $에 지시로 사용합니다. 이 과정은 task 또는 subgoal decomposition으로 알려져 있으며, TAMP (Task and Motion Planning) 및 Embodied Decision Making과 밀접하게 관련되어 있습니다.

A. Monolithic Task Planners

단일 LLM 또는 Multimodal LLM (MLLM)이 맞춤형 프레임워크를 사용하거나 embodied 데이터셋에 finetune하여 작업 계획을 생성할 수 있습니다.

End-to-end Task Planners:
- PaLM-E [11]: ViT와 PaLM을 통합하여 high-level embodied 추론 작업을 수행할 수 있는 large embodied multimodal language model을 생성합니다. 인지된 이미지와 high-level 언어 지시를 기반으로 low-level 로봇 정책을 위한 텍스트 계획을 생성합니다.
- EmbodiedGPT [136]: vision encoder 임베딩 및 LLM이 제공하는 embodied planning 정보로부터 task-relevant instance-level 특징을 출력하는 embodied-former를 도입합니다.
End-to-end Task Planners with 3D Vision:
- LEO [137]: point cloud encoder를 LLM과 통합하기 위한 2단계 훈련 전략을 사용하며, 3D 질의응답뿐만 아니라 조작, 내비게이션, 작업 계획에서도 뛰어난 성능을 보여줍니다.
- 3D-LLM [44]: LLM에 3D 정보를 주입하여 3D-assisted dialog 및 내비게이션과 같은 3D 작업을 수행할 수 있도록 합니다.
- ShapeLLM [138]: 새로운 3D vision encoder인 ReCon++를 기반으로 구축되며, ReCon++를 LLaMA와 통합하여 3D MM-Vet 벤치마크에서 embodied 상호작용 성능을 향상시킵니다.
Grounded Task Planners: low-level 제어 정책에 의해 실행될 수 있는지 여부를 고려하여 high-level 행동을 생성합니다.
- SayCan [10]: high-level LLM planner와 low-level 제어 정책을 통합하는 프레임워크로, LLM이 다음 low-level skill을 “says” (task-grounding)하고 low-level 정책이 skill 완료 가능성을 “can” (world-grounding)으로 제공합니다.
- Translated $ LM $ [139]: pretrained causal LLM을 사용하여 high-level 지시를 free-form 언어 구문으로 된 다음 행동으로 분해하고, pretrained masked LLM이 행동 번역을 수행합니다.

B. Modular Task Planners

end-to-end 모델을 finetune하는 비용이 많이 들 수 있으므로, off-the-shelf LLM 및 VLM을 task planner로 조립하는 모듈식 설계를 채택합니다.

Language-based Task Planners:
- Inner Monologue [9]: high-level 명령과 low-level 정책 사이에 위치하여, LLM이 low-level 제어 정책을 위한 언어 지시를 생성하고 제어 정책의 피드백을 기반으로 이러한 지시를 동적으로 업데이트합니다.
- LLM-Planner [141]: high-level planner와 low-level planner로 구성된 계층적 정책을 도입하며, 재계획 메커니즘을 통합하여 로봇이 “get unstuck”되는 것을 돕습니다.
- Socratic Models (SMs) [143]: 다양한 pretrained 모델을 finetune 없이 효과적으로 구성할 수 있는 프레임워크를 제시하며, multimodal-informed prompting을 통해 다양한 multimodal 기능을 가진 모델 간 정보 교환을 용이하게 합니다.
Code-based Task Planners: LLM의 코딩 능력을 활용하여 프로그램 형태의 작업 계획을 생성합니다.
- ProgPrompt [144]: LLM에 사용 가능한 행동 및 객체를 자세히 설명하는 프로그램과 유사한 사양을 프롬프팅하여 high-level 계획을 생성합니다.
- ChatGPT for Robotics [145]: ChatGPT의 프로그래밍 능력을 활용하여 API를 통해 low-level 행동을 생성하는 “user on the loop” 제어를 용이하게 합니다.
- Code as policies (CaP) [146]: GPT-3 또는 Codex를 사용하여 perception 모듈 및 제어 API를 호출하는 정책 코드를 생성합니다.
- DEPS [147]: LLM이 환경에서 수집된 피드백 설명을 기반으로 계획을 생성하고 실패를 설명(“self-explanation”)하여 재계획에 도움을 줍니다.
- ConceptGraphs [148]: 관찰 시퀀스를 open-vocabulary 3D scene graphs로 변환하며, VLM을 사용하여 객체를 캡션하고 객체 간 관계를 설정하여 LLM에 풍부한 semantic 및 spatial 관계를 제공합니다.
- 강점 및 한계: End-to-end 모델은 finetune을 통해 성능을 높일 수 있지만 훈련 비용이 높습니다. 모듈식 접근 방식은 즉시 배포 가능하며, 언어 기반 모델은 LLM과 VLM 통합이 용이하지만, 코드 기반 모델은 더 큰 제어력을 제공하며 디버깅이 가능합니다.

V. Datasets and Benchmarks

Embodied AI는 실세계 로봇 데이터의 scarcity 문제에 직면해 있습니다.

A. Real-world Robot Datasets & Benchmarks: 로봇 장비 조달, 환경 설정, 데이터 수집 비용 및 시간, 다양한 로봇 유형 및 구성으로 인한 데이터 불일치, 객체 6D poses의 정확한 캡처의 어려움 등의 문제가 있습니다 (표 V).

B. Simulators, Simulated Robot Datasets & Benchmarks: 시뮬레이션 환경은 실제 세계의 장애물을 우회하고 데이터 수집 프로세스를 확장하는 데 사용되지만, sim-to-real gap 문제가 있습니다 (표 VI). 이는 비현실적인 렌더링 품질, 물리 시뮬레이션의 부정확성, 객체 특성 및 로봇 동작 계획의 도메인 shift에서 발생합니다.

C. Automated Dataset Collection: RoboGen [187], AutoRT [188], DIAL [189] 및 RoboPoint [91]와 같은 접근 방식은 자동화된 데이터셋 수집을 제안합니다.

D. Human Datasets: 인간 행동 데이터를 활용하는 것은 데이터 부족 문제를 해결하는 대안적인 전략입니다. 그러나 인간의 손/몸 동작을 로봇 embodiment로 캡처하고 전송하는 어려움, 인간 데이터의 불일치성, 유용한 정보 추출의 노동 집약성 등의 단점이 있습니다.

E. Task Planning Benchmarks: EgoPlan-Bench [192], PlanBench [193, 194], LoTa-Bench [195]는 작업 계획 능력을 평가합니다. Embodied Agent Interface (EAI) [196]는 LLM 기반 모듈의 입력-출력을 정식화하여 더 세분화된 metrics를 제공합니다.

F. Embodied Question Answering Benchmarks: EQA 벤치마크 (표 VII)는 직접적으로 로봇 작업을 평가하지 않지만, 공간 추론, 물리 이해, 세계 지식과 같은 embodied AI에 관련된 능력을 평가합니다. 에이전트가 답변을 제공하기 전에 환경을 능동적으로 탐색할 수 있다는 점에서 시각적 질의응답 벤치마크와 다릅니다.

VI. Challenges and Future Directions

Safety first: 로봇은 물리적 세계와 상호작용하므로 안전이 가장 중요합니다.
Datasets & Benchmarks: 광범위한 기술, 객체, embodiment 및 환경을 포괄하는 포괄적인 벤치마크가 필요하며, 성공률 이상의 세분화된 metrics가 필요합니다.
Foundation Models & Generalization: VLA foundation models 또는 robotic foundation models (RFM)은embodiments, 환경 및 작업의 다양성으로 인해 여전히 개방된 연구 주제입니다.
Multimodality: 유용한 임베딩 획득 및 다른 양식의 정렬과 같은 multimodal 모델과 관련된 많은 과제를 상속받습니다.
Framework for Long-Horizon Tasks: 계층적 프레임워크가 가장 실용적이지만, 시스템 복잡성과 잠재적 실패 지점을 증가시킵니다. end-to-end 방식으로 long-horizon 작업을 low-level 제어 신호로 직접 변환하는 통합 프레임워크 개발이 필요합니다.
Real-Time Responsiveness: 많은 로봇 애플리케이션은 동적 환경에 대응하기 위해 실시간 의사결정이 필요하며, 추론 시간이 환경 변화를 따라가지 못하면 obsolete 행동을 생성할 수 있습니다.
Multi-agent Systems: 분산된 인식 및 협업적 고장 복구와 같은 이점을 제공하지만, 효과적인 통신, 조정된 dispatching, fleet heterogeneity 등의 문제에 직면합니다.
Ethical and Societal Implications: 프라이버시, 일자리 대체, 의사결정 편향, 사회 규범 및 인간 관계에 미치는 영향과 관련된 윤리적, 사회적, 법적 문제가 있습니다.
Applications: 대부분의 현재 VLA는 가정 또는 산업 환경에 중점을 두지만, 가상 비서, 자율 주행차, 농업 로봇 등 더 넓은 범위의 응용 분야가 가능합니다.

VII. 결론

VLA 모델은 embodied agents가 물리적 세계와 상호작용하고 사용자 지시를 이행하는 데 엄청난 가능성을 제공합니다. 이 논문은 Large VLAs와 generalized VLAs를 검토한 최초의 조사 논문으로, 모델 아키텍처, 훈련 전략 및 개별 모듈을 포함한 기술적 세부 사항을 분석 및 비교합니다. 또한, 데이터셋, 시뮬레이터 및 벤치마크와 같은 VLA 훈련 및 평가를 위한 필수 자원을 강조합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

“물리 세계에서 행동하는 AI를 만들려면, 먼저 보고, 이해하고, 행동해야 합니다.”
— 이 서베이 논문의 핵심 메시지

🎯 서론: 왜 VLA인가?

여러분이 로봇에게 “저 빨간 사과를 집어서 접시에 올려줘”라고 말한다고 상상해 봅시다. 이 간단한 지시를 수행하려면 로봇은:

Vision (시각): “저 빨간 사과”가 어디에 있는지 봐야 합니다
Language (언어): “집어서 접시에 올려”라는 명령을 이해해야 합니다
Action (행동): 실제로 그리퍼를 움직여 작업을 수행해야 합니다

이 세 가지가 완벽하게 통합되어야만 로봇은 일상적인 작업을 수행할 수 있습니다. 바로 이것이 Vision-Language-Action Model (VLA)의 핵심입니다.

ChatGPT와 VLA의 결정적 차이

┌─────────────────────────────────────────────────────────────────┐
│                     Conversational AI (ChatGPT)                  │
│  Input: Text ──────► LLM ──────► Output: Text                   │
│                    (언어의 세계에서만 동작)                        │
└─────────────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────────────┐
│                        Embodied AI (VLA)                         │
│  Input: Vision + Language ──► VLA ──► Output: Physical Actions  │
│                    (물리 세계와 상호작용)                         │
└─────────────────────────────────────────────────────────────────┘

ChatGPT가 “텍스트를 텍스트로” 변환한다면, VLA는 “시각과 언어를 물리적 행동으로” 변환합니다. 이것이 바로 AGI(범용 인공지능)로 가는 핵심 빌딩 블록인 이유입니다.

🗺️ VLA의 분류 체계 (Taxonomy)

이 서베이의 가장 큰 공헌 중 하나는 VLA 연구를 체계적으로 분류한 것입니다. 아래 다이어그램으로 전체 구조를 파악해 봅시다:

graph TB
    VLA[VLA Models] --> COMP["Components of VLA (VLA 구성 요소)"]
    VLA --> CP["Control Policies (저수준 제어 정책)"]
    VLA --> TP["Task Planners (고수준 태스크 플래너)"]
    VLA --> DB["Datasets & Benchmarks (데이터셋 & 벤치마크)"]

    COMP --> RL[Reinforcement Learning]
    COMP --> PVR[Pretrained Visual Repr.]
    COMP --> DL[Dynamics Learning]
    COMP --> WM[World Models]
    COMP --> RS[Reasoning]

    CP --> NONTF[Non-Transformer]
    CP --> TF[Transformer-based]
    CP --> DIFF[Diffusion-based]
    CP --> LVLA[Large VLA]

    TP --> MONO[Monolithic Planners]
    TP --> MOD[Modular Planners]

핵심 통찰: “계층적 프레임워크”

현대 로봇 시스템의 대부분은 계층적 구조를 채택합니다:

┌─────────────────────────────────────────────────────────────────┐
│ 🧠 High-Level Task Planner (고수준 태스크 플래너)                │
│    "사과를 집어서 접시에 올려" → 서브태스크로 분해                 │
│    [1. 사과 위치 찾기] [2. 그리퍼 이동] [3. 집기] [4. 옮기기]     │
└─────────────────────────────────────────────────────────────────┘
                              │
                              ▼
┌─────────────────────────────────────────────────────────────────┐
│ 🦾 Low-Level Control Policy (저수준 제어 정책)                  │
│    각 서브태스크를 실제 로봇 동작으로 변환                        │
│    a_t = π_θ(a_t | p, s_≤t, a_<t)                               │
└─────────────────────────────────────────────────────────────────┘

이 구조가 효과적인 이유: - 고수준 플래너: 대용량 모델의 추론 능력 활용 - 저수준 정책: 속도와 정밀도에 집중

🧩 Part 1: VLA의 구성 요소 (Components)

1.1 강화학습 (Reinforcement Learning)

VLA의 뿌리는 강화학습에 있습니다. MDP(Markov Decision Process)로 표현하면:

\tau = (s_1, a_1, r_1, \ldots, s_T, a_T, r_T)

여기서 핵심적인 발전들:

모델	핵심 아이디어	VLA에 미친 영향
Decision Transformer	RL 궤적을 시퀀스 모델링 문제로 재정의	Transformer가 RL에 적용될 수 있음을 증명
Trajectory Transformer	전체 궤적을 하나의 시퀀스로 처리	멀티모달 시퀀스 처리의 기초
Gato	멀티모달, 멀티태스크, 멀티-엠바디먼트	현대 VLA의 직접적 선조

파인만식 직관

“RL 궤적이 문장과 같다면, Decision Transformer는 그 문장을 ‘읽는’ 법을 배운 것입니다. 마치 우리가 소설을 읽으며 다음에 무슨 일이 일어날지 예측하듯이, 로봇도 이전 상태와 행동의 ’이야기’를 읽고 다음 행동을 예측합니다.”

1.2 사전학습된 시각 표현 (Pretrained Visual Representations)

VLA의 눈 역할을 하는 Vision Encoder는 매우 중요합니다. 주요 접근법들:

graph LR
    subgraph Methods["시각 표현 학습 방법"]
        CLIP["CLIP (텍스트-이미지 대조학습)"]
        TCL["Time Contrastive (시간 대조학습)"]
        MAE["MAE (마스크 오토인코더)"]
        DINO["DINOv2 (자기증류)"]
    end

    CLIP --> |Image-level| VE[Vision Encoder]
    TCL --> |Temporal| VE
    MAE --> |Pixel-level| VE
    DINO --> |Both levels| VE

주요 PVR 모델 비교

모델	네트워크	학습 방식	특징
CLIP	ViT-B	VL 대조학습	가장 널리 사용됨
R3M	ResNet-50	시간 대조학습	시간적 관계 학습
MVP	ViT-B/L	MAE	픽셀 수준 세부정보
VIP	ResNet-50	시간 대조학습	보상 함수로도 활용
VC-1	ViT-L	MAE + CL	종합적 비교 연구
DINOv2	ViT	자기증류	픽셀+이미지 수준 모두
Theia	ViT	증류(Distillation)	여러 VFM 통합

핵심 수식: 대조 학습

CLIP의 학습 목표: \mathcal{L} = -\sum_{i=1}^{N} \log \frac{\exp(\mathcal{S}(x_i, y_i))}{\sum_{j=1}^{N} \exp(\mathcal{S}(x_i, y_j))}

여기서 (x_i, y_i)는 이미지-텍스트 쌍, \mathcal{S}(\cdot)는 유사도 측정

1.3 동역학 학습 (Dynamics Learning)

로봇이 “물리 법칙”을 이해하게 하는 방법:

Forward Dynamics (순방향 동역학):
ŝ_{t+1} ← f_fwd(s_t, a_t)
"이 행동을 하면 다음에 무슨 일이 일어날까?"

Inverse Dynamics (역방향 동역학):
â_t ← f_inv(s_t, s_{t+1})
"이 상태에서 저 상태로 가려면 어떤 행동을 해야 할까?"

파인만식 직관

“순방향 동역학은 당구공을 칠 때 공이 어디로 갈지 예측하는 것과 같고, 역방향 동역학은 공이 특정 위치에 가게 하려면 어떻게 쳐야 하는지 알아내는 것과 같습니다.”

1.4 월드 모델 (World Models)

월드 모델은 로봇이 “상상 속에서” 미래를 예측하는 능력입니다:

\hat{s}_{t+1} \sim P(\hat{s}_{t+1} | s_t, a_t)

graph TB
    subgraph WMTypes["월드 모델의 종류"]
        LWM["LLM-induced World Models (텍스트 기반)"]
        VWM["Visual World Models (이미지/영상 기반)"]
    end

    LWM --> DECKARD["DECKARD (DAG 형태 추상 월드 모델)"]
    LWM --> RAP["RAP (MCTS + LLM)"]
    LWM --> LLMDM["LLM-DM (PDDL 생성)"]

    VWM --> Genie["Genie (상호작용 환경 생성)"]
    VWM --> 3DVLA["3D-VLA (3D 목표 상태 생성)"]
    VWM --> UniSim["UniSim (실세계 시뮬레이션)"]

Dreamer 시리즈의 핵심 아이디어

┌────────────────────────────────────────────────────────────┐
│              Dreamer의 세 가지 핵심 모듈                    │
├────────────────────────────────────────────────────────────┤
│ 1. Representation Model: 이미지 → 잠재 상태 인코딩         │
│ 2. Transition Model: 잠재 상태 간 전이 학습                 │
│ 3. Reward Model: 상태에 대한 보상 예측                      │
│                                                            │
│ → "꿈속에서(imagination) 행동을 학습하고 현실에 적용"      │
└────────────────────────────────────────────────────────────┘

1.5 추론 (Reasoning)

Chain-of-Thought (CoT) 기법이 VLA에도 적용됩니다:

모델	접근 방식	적용 레벨
ThinkBot	CoT로 누락된 행동 설명 복원	태스크 플래닝
ReAct	추론과 행동을 번갈아 수행	의사결정
ECoT	VLA에 CoT 추론 능력 부여	저수준 제어

ECoT의 혁신적 접근

기존 VLA: 
  관찰 + 지시 → 바로 행동 출력 ("근육 기억" 방식)

ECoT:
  관찰 + 지시 → [계획 추론] → [서브태스크 추론] → [동작 추론] → [시각 특징 추론] → 행동 출력

🎮 Part 2: 저수준 제어 정책 (Low-Level Control Policies)

VLA 제어 정책의 일반 공식

\hat{a}_t \sim \pi_\theta(\hat{a}_t | p, s_{\leq t}, a_{<t})

p: 언어 지시
s_{\leq t}: 현재까지의 상태 (주로 이미지)
a_{<t}: 이전 행동들
\pi_\theta: 파라미터 \theta를 가진 정책

2.1 아키텍처별 분류

flowchart TB
    subgraph Arch["제어 정책 아키텍처"]
        NT[Non-Transformer]
        TF[Transformer-based]
        DF[Diffusion-based]
        LV[Large VLA]
    end

    NT --> CLIPort[CLIPort]
    NT --> BCZ[BC-Z]
    NT --> HULC[HULC]

    TF --> RT1[RT-1]
    TF --> Gato[Gato]
    TF --> VIMA[VIMA]
    TF --> PerAct[PerAct]

    DF --> DiffPolicy[Diffusion Policy]
    DF --> Octo[Octo]
    DF --> DP3[DP3]

    LV --> RT2[RT-2]
    LV --> OpenVLA[OpenVLA]
    LV --> Pi0[π0]

2.2 핵심 모델 심층 분석

CLIPort: VLA의 선구자

┌─────────────────────────────────────────────────────────────┐
│                      CLIPort Architecture                    │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  RGB Image ──► CLIP Vision Encoder ──► "Semantic" Stream   │
│                        │                      │             │
│                        ▼                      ▼             │
│  RGB-D Image ──► Transporter Network ──► "Spatial" Stream  │
│                                               │             │
│  Language ──────► CLIP Sentence Encoder ──────┤             │
│                                               ▼             │
│                                          SE(2) Action       │
│                                    (Pick & Place Pose)      │
└─────────────────────────────────────────────────────────────┘

핵심 인사이트: “무엇을(Semantic)” + “어디서(Spatial)” = 완전한 조작

RT-1: 대규모 실세계 제어의 시작

구성 요소	상세
Vision Encoder	EfficientNet
Language Encoder	Universal Sentence Encoder
Action Decoder	Transformer with FiLM conditioning
학습 데이터	Fractal (130k 에피소드)
행동 타입	이산화된 행동 (Discretized)

# RT-1 스타일의 행동 토큰화 (의사 코드)
def tokenize_action(action):
    # 7-DoF + gripper → 8 dimensions
    # 각 차원을 256개 빈으로 이산화
    tokens = []
    for dim in action:
        bin_idx = discretize(dim, num_bins=256)
        tokens.append(bin_idx)
    return tokens  # 총 8개의 토큰

VIMA: 멀티모달 프롬프트의 힘

VIMA의 혁신적인 점은 언어 외에도 다양한 프롬프트를 받을 수 있다는 것:

지원하는 프롬프트 타입:
┌──────────────────────────────────────────────────────────────┐
│ 1. 텍스트만: "Stack the red block on the blue block"        │
│ 2. 텍스트 + 이미지: "Pick up the [🖼️] and place it here"    │
│ 3. 비디오 데모: "Do what you see in this video"             │
│ 4. 목표 이미지: "Make the scene look like [🖼️]"             │
└──────────────────────────────────────────────────────────────┘

2.3 Diffusion-based 정책

Diffusion Policy는 로봇 조작에 새로운 패러다임을 제시했습니다:

a_t^{(k-1)} = \frac{1}{\sqrt{\alpha_k}}\left(a_t^{(k)} - \frac{\beta_k}{\sqrt{1-\bar{\alpha}_k}}\epsilon_\theta(a_t^{(k)}, s_t, k)\right) + \sigma_k z

왜 Diffusion인가?

┌─────────────────────────────────────────────────────────────┐
│ 기존 방식의 한계:                                            │
│ - 단일 최적 행동만 예측 (unimodal)                          │
│ - 다중 모드 분포 표현 어려움                                 │
│                                                             │
│ Diffusion의 장점:                                           │
│ - 복잡한 멀티모달 행동 분포 학습 가능                        │
│ - "Action Chunking": 한 번에 여러 시간 스텝의 행동 예측     │
│ - 더 부드럽고 일관된 궤적 생성                               │
└─────────────────────────────────────────────────────────────┘

DP3 (3D Diffusion Policy)

graph LR
    PC[Point Cloud] --> ENC[3D Encoder]
    ENC --> DP[Diffusion Policy]
    DP --> ACT[Action Sequence]

    subgraph Adv["3D 표현의 장점"]
        ADV1[시점 불변성]
        ADV2[깊이 정보 활용]
        ADV3[공간 추론 향상]
    end

2.4 Large VLA (LVLA)

RT-2: VLM을 VLA로 변환하기

RT-2의 핵심 아이디어: "Symbol Tuning"
┌─────────────────────────────────────────────────────────────┐
│ PaLI-X/PaLM-E (Vision-Language Model)                       │
│           │                                                 │
│           ▼                                                 │
│ 로봇 데이터로 Co-fine-tuning                                │
│           │                                                 │
│           ▼                                                 │
│ 행동을 "언어 토큰"처럼 출력                                 │
│ 예: "1 128 91 241 5 101 127"                               │
│     (각 숫자가 행동 차원의 이산화된 값)                      │
└─────────────────────────────────────────────────────────────┘

Web 지식의 전이: RT-2는 인터넷에서 학습한 지식을 로봇 제어로 전이할 수 있음을 보여주었습니다.

OpenVLA: 오픈소스 LVLA

특징	상세
기반 모델	Prismatic-7B VLM
Vision Encoders	SigLIP + DINOv2 (융합)
학습 데이터	Open X-Embodiment
오픈소스	✅ (코드, 가중치 모두 공개)

π0 (Pi-Zero): Flow Matching 기반 VLA

π0의 혁신:
┌─────────────────────────────────────────────────────────────┐
│ 기존 LVLA: 행동을 이산 토큰으로 출력                         │
│                                                             │
│ π0: Flow Matching으로 연속 행동 직접 생성                   │
│     - 더 정밀한 제어 가능                                   │
│     - 이산화 손실 없음                                      │
│     - 멀티모달 행동 분포 자연스럽게 모델링                   │
└─────────────────────────────────────────────────────────────┘

2.5 3D Vision 기반 정책

PerAct: 3D 어포던스 맵

# PerAct 스타일 의사코드
def peract_forward(rgb_d_images, language_instruction):
    # 1. 여러 시점의 RGB-D를 3D 복셀 그리드로 변환
    voxel_grid = images_to_voxels(rgb_d_images)
    
    # 2. 언어 임베딩
    lang_embed = clip_encode(language_instruction)
    
    # 3. PerceiverIO로 3D 어포던스 맵 예측
    affordance_map = perceiver_io(voxel_grid, lang_embed)
    
    # 4. 가장 높은 어포던스 위치 = 로봇이 행동할 위치
    action_pose = argmax(affordance_map)
    return action_pose

RVT (Robotic View Transformer)

RVT의 핵심: 2D → 3D 프로젝션
┌─────────────────────────────────────────────────────────────┐
│ 입력: 여러 시점의 RGB-D 이미지                               │
│                    │                                        │
│                    ▼                                        │
│ 가상 직교 시점 이미지 생성 (Top, Front, Side 등)            │
│                    │                                        │
│                    ▼                                        │
│ 각 시점에서 2D 어포던스 예측                                │
│                    │                                        │
│                    ▼                                        │
│ 2D 어포던스를 3D 공간으로 역투영                            │
└─────────────────────────────────────────────────────────────┘
장점: PerAct보다 10배 빠르고 동등하거나 더 좋은 성능

🗓️ Part 3: 고수준 태스크 플래너 (Task Planners)

태스크 플래너의 역할

\ell \xrightarrow{\pi_\phi} (p_1, p_2, \ldots, p_n)

복잡한 지시 \ell을 서브태스크 시퀀스 (p_1, p_2, \ldots)로 분해

3.1 단일체 태스크 플래너 (Monolithic)

PaLM-E: 거대 멀티모달 LLM

PaLM-E의 구조:
┌─────────────────────────────────────────────────────────────┐
│ 입력:                                                       │
│   - 텍스트 토큰: "Put the rice chips bag..."               │
│   - 이미지 토큰: [🖼️] (ViT로 인코딩)                        │
│   - 상태 토큰: 로봇 상태 벡터                               │
│                                                             │
│ PaLM-E (562B 파라미터):                                     │
│   모든 토큰을 하나의 시퀀스로 처리                          │
│                                                             │
│ 출력:                                                       │
│   - 고수준 계획: "1. Find bag 2. Pick up bag 3. Move to..."│
└─────────────────────────────────────────────────────────────┘

3D Vision 기반 플래너들

모델	3D 표현	특징
3D-LLM	NeRF 특징	3D 장면 이해
LEO	Scene Graph	3D 세계의 에이전트
MultiPLY	Object-Centric	다중 감각 통합

3.2 모듈형 태스크 플래너 (Modular)

graph TB
    subgraph ModPlanner["Modular Task Planner"]
        LLM["LLM Planner (SayCan, Inner Monologue)"]
        VLM["VLM for Grounding (환경 이해)"]
        SKILL["Skill Library (실행 가능 기술들)"]
    end

    USER[사용자 지시] --> LLM
    LLM --> |태스크 분해| PLAN[고수준 계획]
    VLM --> |환경 정보| LLM
    PLAN --> |스킬 호출| SKILL
    SKILL --> |피드백| LLM

SayCan: 어포던스 기반 그라운딩

SayCan의 핵심 공식:
P(action | instruction) = P(useful | instruction) × P(feasible | state)

여기서:
- P(useful | instruction): LLM이 계산 (이 행동이 유용한가?)
- P(feasible | state): Value Function이 계산 (지금 실행 가능한가?)

Code as Policies (CaP): 코드로 정책 표현

# CaP 스타일 예시: LLM이 생성하는 코드
def execute_task(instruction: str):
    """사용자 지시: "Stack all the blocks on the green area" """
    
    # LLM이 생성한 코드
    blocks = detect_objects("block")
    green_area = detect_objects("green area")[0]
    
    for i, block in enumerate(blocks):
        pick(block)
        place(green_area.position + [0, 0, 0.05 * i])
    
    return "Task completed"

📊 Part 4: 데이터셋과 벤치마크

4.1 실세계 데이터셋

데이터셋	에피소드 수	로봇	태스크
RT-1 (Fractal)	130,000+	EDR	Pick, Place, Move
BridgeData V2	60,000+	WidowX	다양한 조작
Open X-Embodiment	1,000,000+	22종 로봇	527개 스킬
DROID	76,000+	Franka	일상 조작

4.2 시뮬레이터 & 벤치마크

graph LR
    subgraph Sims["주요 시뮬레이터"]
        MS["Meta-World (50개 조작 태스크)"]
        RLB["RLBench (100+ 태스크)"]
        CAL["CALVIN (장기 조작)"]
        HAB["Habitat (내비게이션)"]
    end

    subgraph Bench["최신 벤치마크"]
        LIBERO["LIBERO (지식 전이 평가)"]
        VIMAB["VIMA-Bench (멀티모달 프롬프트)"]
        BEH["BEHAVIOR-1K (1000개 일상 태스크)"]
    end

4.3 자동 데이터 수집

┌─────────────────────────────────────────────────────────────┐
│ 데이터 부족 문제 해결 방법들                                 │
├─────────────────────────────────────────────────────────────┤
│ 1. RoboCat 자기개선: 로봇이 스스로 데이터 생성              │
│ 2. 인터넷 비디오: 인간 조작 영상에서 학습                   │
│ 3. 시뮬레이션 증강: 도메인 랜덤화                           │
│ 4. LLM 생성: 언어 지시 자동 생성                            │
│ 5. Diffusion 증강: 이미지/영상 합성                          │
└─────────────────────────────────────────────────────────────┘

🔮 Part 5: 도전 과제와 미래 방향

5.1 안전성 (Safety First)

물리적 안전 위험:
┌─────────────────────────────────────────────────────────────┐
│ 1. 충돌 위험: 로봇이 사람이나 물체와 충돌                    │
│ 2. 예측 불가능성: LLM 기반 시스템의 환각(hallucination)     │
│ 3. 실패 복구: 실행 중 오류 시 안전한 복구                   │
│                                                             │
│ 연구 방향:                                                  │
│ - 안전 제약 학습 (Safe RL)                                  │
│ - 불확실성 정량화                                           │
│ - Human-in-the-loop 시스템                                  │
└─────────────────────────────────────────────────────────────┘

5.2 데이터 & 벤치마크

도전 과제	현재 상태	미래 방향
데이터 부족	Open X-Embodiment로 개선 중	크라우드소싱, 합성 데이터
도메인 차이	Sim-to-Real gap 존재	도메인 적응, 증류 기법
일관성 없는 포맷	각 데이터셋마다 다름	표준화된 포맷 필요

5.3 일반화 (Generalization)

graph TB
    GEN[일반화의 세 축]
    GEN --> TASK["태스크 일반화 (새로운 태스크 수행)"]
    GEN --> ENV["환경 일반화 (새로운 장소에서 동작)"]
    GEN --> EMB["엠바디먼트 일반화 (다른 로봇에서 동작)"]

    TASK --> |방법| FT["Foundation Models (대규모 사전학습)"]
    ENV --> |방법| DA["Domain Adaptation (도메인 적응)"]
    EMB --> |방법| CROSS["Cross-Embodiment (교차 엠바디먼트 학습)"]

5.4 실시간 응답성

현재 문제:
- 대형 VLA: 추론에 수 초 소요
- 실시간 제어: 수십~수백 Hz 필요

해결 방향:
┌─────────────────────────────────────────────────────────────┐
│ 1. 모델 압축: 양자화, 프루닝, 증류                          │
│ 2. 효율적 아키텍처: Mamba, State Space Models               │
│ 3. 계층적 분리: 고수준(느림) + 저수준(빠름)                 │
│ 4. 에지 컴퓨팅: 온디바이스 추론 최적화                       │
└─────────────────────────────────────────────────────────────┘

5.5 장기 태스크 (Long-Horizon Tasks)

"아침 식사 준비하기"를 예로 들면:

┌─────────────────────────────────────────────────────────────┐
│ 서브태스크 체인:                                            │
│                                                             │
│ 냉장고 열기 → 계란 꺼내기 → 냉장고 닫기 → 프라이팬 가져오기 │
│      → 가스레인지 켜기 → 계란 깨기 → 조리하기 → 접시에 담기 │
│                                                             │
│ 도전 과제:                                                  │
│ - 오류 누적: 각 단계의 작은 오류가 누적                     │
│ - 상태 추적: 긴 시퀀스에서 맥락 유지                        │
│ - 예외 처리: 예상치 못한 상황 대응                          │
└─────────────────────────────────────────────────────────────┘

📈 요약 및 결론

VLA 발전의 핵심 트렌드

timeline
    title VLA 발전 타임라인

    section 초기 2020-2021
        Decision Transformer : RL의 시퀀스 모델링화
        CLIPort : 언어 조건부 조작의 시작
        CLIP : 시각-언어 정렬의 혁명

    section 성장기 2022-2023
        RT-1 : 대규모 실세계 데이터 학습
        RT-2 : VLM을 VLA로 전환
        Diffusion Policy : 새로운 행동 생성 패러다임
        PerAct : 3D 어포던스 맵 도입

    section 성숙기 2024-현재
        OpenVLA : 오픈소스 LVLA
        π0 : Flow Matching 기반 정밀 제어
        Open X-Embodiment : 대규모 교차 로봇 데이터셋
        RDT-1B : 10억 파라미터 확산 정책

로봇공학자를 위한 핵심 테이크어웨이

분류	핵심 메시지
아키텍처	Transformer 기반이 대세, Diffusion이 새로운 트렌드
데이터	양보다 질, 교차 도메인 데이터의 중요성
학습	Imitation Learning이 주류, RL은 미세조정용
표현	3D 비전의 중요성 증가, DINOv2/SigLIP 조합 추천
스케일	더 큰 모델 = 더 나은 일반화 (스케일링 법칙)
실용성	계층적 구조(플래너 + 컨트롤러)가 현실적

마무리: 파인만의 관점에서

“만약 우리가 무언가를 정말로 이해했다면, 그것을 간단하게 설명할 수 있어야 합니다.”

VLA의 핵심은 결국 이것입니다:

“로봇이 사람처럼 보고, 듣고, 이해하고, 행동하게 만들기”

이것은 단순히 세 가지 모달리티를 합치는 것이 아닙니다. 물리 세계에서 의미 있는 변화를 만들어내는 AI를 만드는 것입니다. ChatGPT가 텍스트로 세상을 바꿨다면, VLA는 물리적 행동으로 세상을 바꿀 것입니다.

📚 추가 리소스

코드 & 구현

⛏️ Dig Review

⛏️ Dig — Go deep, uncover the layers. Dive into technical detail.

비전-언어-액션 모델 (VLA)이란 무엇인가

비전-언어-액션 모델(Vision-Language-Action Models, VLAs)은 시각(Visual) 정보, 언어(Language) 정보, 그리고 행동(Action) 출력을 동시에 처리하는 멀티모달 로봇 학습 모델을 말합니다. 예를 들어, 사람에게 “빨간 사과를 집어 식탁 위에 올려놔”라는 명령을 내릴 때, 우리는 눈으로 사과와 식탁을 식별하고 뇌에서 적절한 팔 동작을 계획합니다. 이와 마찬가지로 VLA는 로봇이 언어 지시를 이해하고, 카메라로 관찰한 장면을 인식하여, 실제 행동(팔의 이동, 그리퍼 작동 등)을 생성하도록 설계된 모델입니다.

임베디드 AI(Embodied AI) – 특히 로봇 공학 –에서는 이렇게 말과 행동을 잇는 능력이 필수적입니다. 일반적인 대화형 AI(ChatGPT 등)는 언어 이해에 집중하지만, VLAs는 물리적인 몸체(로봇)를 제어해야 하므로 시각과 행동까지 연관 짓습니다. Ma 외는 “VLA 기반 정책은 복잡한 환경에서 이전의 강화학습 기법보다 뛰어난 다양성과 유연성, 일반화 능력을 보여준다”고 지적합니다. 즉, 공장처럼 통제된 환경뿐 아니라 주방에서 요리하기, 방 청소하기 등의 일상적 작업에도 적용 가능성을 보입니다.

로봇 분야에서 전통적인 강화학습 정책은 주로 한 가지 작업(예: 물건 잡기)에 국한되고, 촬영 환경도 실험실처럼 한정적이었습니다. 그러나 현대에는 ChatGPT와 같은 대형 언어모델(LLM)과 CLIP 같은 비전-언어 모델(VLM)의 성공에 자극받아, “하나의 로봇 정책으로 다양한 작업을 수행할 수 있는 범용성”이 요구되고 있습니다. 이를 위해 언어 기반 작업 지시가 유력한 방안으로 떠올랐으며, VLAs는 바로 이 과제를 해결하기 위해 등장했습니다. VLA는 사전 학습된 비전 인코더와 LLM을 결합해, 복잡한 환경을 정확히 인식하고 “빨간 사과” 같은 객체 정보부터 “그것을 옮겨라”라는 언어 지시를 하나의 정책으로 연결합니다.

VLA 모델의 분류 체계는 세 가지 축으로 나뉩니다:

사전 훈련(Pretraining): 비전 인코더, 동적 모델(dynamics), 세계 모델(world model) 등을 개선하여 기반 능력을 키웁니다.
제어 정책(Control Policy): 주어진 언어 명령과 시각 정보를 받아 로봇의 실제 저수준 행동(팔 관절 이동, 그리퍼 동작 등)을 생성합니다.
작업 계획(Task Planner): 고수준 언어 명령을 여러 단계의 하위 태스크로 분해하여 저수준 제어 정책에 순차적으로 전달합니다.

이 세 가지 요소가 계층적으로 결합되어, “장기 과제는 계획자가 전체를 나누고, 제어 정책이 각 부분을 수행”하는 구조를 만듭니다. 전체 구조를 그림으로 나타내면 다음과 같습니다:

flowchart LR
    L[언어 명령] --> VLA[VLA 모델]
    V[시각 관측] --> VLA
    VLA --> A[행동 실행]
    A --> E[환경 변화]
    E --> V
    style VLA fill:#e0f7fa,stroke:#333,stroke-width:1px

위 과정에서 VLA 모델은 언어와 시각 입력을 받아 로봇의 동작을 예측하며, 그 동작을 실제 로봇 모션 플래너(각 관절을 제어하는 하부 모듈)가 수행합니다. 한편, 장기 과제 수행 시에는 “작업 계획자(TP)”가 이 과정을 감독하여 여러 하위 목표를 생성하고, 각각 저수준 정책에 맡기는 역할을 합니다.

1. 사전 훈련(Pretraining)

사전 훈련 단계에서는 로봇이 시각과 동적 환경에 관한 일반적 지식을 미리 학습합니다. 이는 사람이 사물 인지와 기본 물리 법칙을 어린 시절부터 배우는 것과 비슷합니다. 주요 세부 분야는 다음과 같습니다:

사전 학습된 비전 표현(Pretrained Vision Representation): 대규모 이미지-언어 데이터로 학습된 비전 모델(CLIP 등)을 로봇에 적용합니다. CLIP처럼 이미지를 언어와 함께 벡터로 표현하는 모델을 사용하면, 로봇이 환경을 보았을 때 “이것은 컵, 저것은 사과” 같은 정보를 효율적으로 얻을 수 있습니다. R3M, MVP, VIP, VC-1 등은 로봇 조작용 데이터로 시각 모델을 특화하여 사전 학습한 사례들입니다. 예를 들어, R3M은 로봇 데이터를 이용해 이미지를 임베딩함으로써 조작 작업에서 강건한 시각 피처를 얻었습니다.

비유: 이는 로봇이 ’시각적 어휘’를 배우는 과정에 해당합니다. 어린아이가 다양한 사물과 행동을 관찰하며 세상을 이해하듯, 로봇도 사전 학습된 비전 모델로 환경의 기본 어휘(사물 종류, 위치, 자세 등)를 습득합니다.
동역학 학습(Dynamics Learning): 로봇의 행동 결과를 예측하도록 학습합니다. 예컨대, 로봇팔이 상자를 밀 때 상자가 어디로 움직일지를 학습하는 것입니다. Vi-PRoM, MIDAS, SMART 등의 연구는 물체의 움직임과 상호작용(예: 상자 잡기, 쌓기)을 예측하도록 네트워크를 사전 학습합니다. 구체적으로, 현재 상태와 행동을 입력으로 다음 상태를 예측하는 모델을 학습하여, 로봇이 행동 전후의 변화를 ’마치 두뇌 속 시뮬레이션’처럼 가늠할 수 있도록 돕습니다.

유추: 이는 마치 당신이 탁구공을 칠 때 공이 어디로 튀어나갈지 예상해보는 것과 유사합니다. 로봇은 동역학 모델을 통해 “이렇게 손을 움직이면 물체는 저렇게 움직일 것이다”를 미리 내다볼 수 있습니다.
월드 모델(World Model): 관찰과 행동 예측을 통합하는 더 고차원적 모델입니다. 예를 들어 Dreamer, ISO-Dream, IRIS 같은 연구는 카메라 영상과 로봇 행동을 하나의 잠재공간에 인코딩하여, ‘로봇의 뇌’ 안에서 환경을 내재적으로 시뮬레이션하도록 합니다. 월드 모델은 장기 계획과 상상(imagination)에 사용됩니다. 마치 우리가 영화를 머릿속으로 재생해보듯, 로봇도 내부 모델을 통해 복잡한 상황을 시뮬레이션하며 행동을 계획할 수 있습니다.

사전훈련 단계의 목표는 로봇의 기본 능력(시각인식, 물리모델링 등)을 견고히 하는 것입니다. 이렇게 튼튼한 기반 위에서, 이후 제어 정책이 더 빠르고 일반화된 학습을 할 수 있습니다. 예를 들어, 사전훈련된 비전 인코더 덕분에 로봇은 복잡한 장면에서도 객체의 종류와 자세를 정확히 인식할 수 있어, 이후 정책 학습 시 데이터 효율과 성능 안정성이 크게 향상됩니다.

2. 제어 정책(Control Policies)

제어 정책은 로봇의 ’행동 신경망’에 해당합니다. 언어 지시와 시각 관찰을 받아 실제 저수준 행동(팔의 관절 각도, 그리퍼의 오픈/클로즈 등)을 생성합니다. 이를 통해 로봇은 구체적인 지시(“빨간 컵을 잡아”)를 실제 움직임(“팔을 펴고, 손을 내리고, 그리퍼를 닫아”)으로 변환합니다. 제어 정책 연구는 크게 다음 다섯 가지 유형으로 분류할 수 있습니다:

CNN/RNN 기반 정책 (비트랜스포머): 전통적인 신경망 구조를 사용하여 행동을 예측합니다. 예를 들어 CLIPort는 사전 학습된 CLIP 비전-언어 인코더로 이미지와 명령을 표현한 뒤, 합성곱 신경망(CNN)을 통해 픽셀 공간에서 액션을 예측합니다. BC-Z, MCIL, HULC, UniPi 등도 유사하게 CNN이나 간단한 신경망을 사용했습니다. 이 접근법은 구현이 간단하고 작은 모델로도 동작하지만, 긴 시퀀스나 복잡한 문맥 정보를 처리하는 데는 한계가 있습니다.
Transformer 기반 정책: Transformer 아키텍처로 시퀀스 데이터를 처리합니다. 입력 시점의 이미지 피처와 이전 행동 정보를 토큰 시퀀스로 만들어, 다음 행동을 예측합니다. 예를 들어 PerAct는 이미지 픽셀 공간을 직접 트랜스포머로 매핑하여 행동을 생성하고, Gato는 다양한 로봇 작업을 하나의 거대 트랜스포머 모델로 학습해 멀티태스킹을 달성했습니다. Transformer 기반은 문맥을 길게 보존할 수 있어, 연속된 프레임에서 일관된 행동을 계획하는 데 유리합니다.
대형언어모델(LLM) 기반 정책: GPT나 PaLM 같은 언어모델을 사용하여 행동을 예측합니다. RT-2(google)나 RoboFlamingo가 대표적 예로, LLM 내부의 추론 능력을 활용해 로봇 행동을 결정합니다. 이 방식에서는 실제 행동도 언어 형태로 모델에 입력하고, 출력으로 행동 명령(또는 행동 기술 텍스트)을 얻은 뒤 이를 로봇 제어 신호로 변환합니다. 장점은 풍부한 공통 상식과 언어 이해를 활용할 수 있다는 점이나, 단점은 연산 비용과 지연시간이 크다는 점입니다.
다중 모달 명령(Multi-modal Instruction): 언어뿐만 아니라 시연 데이터(trajectory, 비디오 등)를 함께 입력으로 받습니다. 예를 들어 VIMA나 MOO, Octo는 언어와 함께 몇 가지 예시 이미지를 보여주면, 새로운 조작 과제를 해결하도록 학습합니다. 사람에게 “피아노 조립 방법을 설명하라”는 말뿐 아니라 조립 장면 비디오를 함께 보여주는 것과 비슷합니다. 이러한 방법은 특히 샷 학습(few-shot) 일반화에 효과적입니다.
목표-상태 지시(Goal-state Instruction): 언어 대신 목표 상태(예: 목표 이미지나 경로 스케치)를 사용합니다. 예를 들어 RoboCat은 주어진 목표 이미지를 보고 최단 경로로 동작하도록 학습하고, RT-Trajectory는 사람이 그린 궤적 스케치를 로봇팔의 경로로 변환합니다. 이러한 정책은 언어를 사용하지 않아 명확한 “말” 대신 구체적 시각 정보를 활용한다는 점에서 VLAs와는 구분되지만, 복잡한 명령을 제공하기 어려운 상황에서 대안이 됩니다.

이들 제어 정책 아키텍처에서는 시각·언어 정보를 결합하는 방식이 다양합니다. 예를 들어 FiLM(Feature-wise Linear Modulation), Cross-Attention, 단순 Concatenation 등이 사용되었는데, 작은 모델에서는 FiLM이나 cross-attention이 우수한 성능을 보이고, 간단한 조합(concatenation)도 모델을 크게 하면 유사한 결과를 얻을 수 있습니다.

훈련 방법으로는 주로 시연(데모) 데이터에 대한 행동 복제(Behavior Cloning, BC)를 사용합니다. 즉, 전문가(또는 시뮬레이터)로부터 얻은 (상태, 행동) 쌍으로 정책을 학습합니다. 연속적인 행동(a)을 예측할 때 손실 함수는 평균제곱오차(MSE) 형태로 설정됩니다:

L_{BC} = \mathbb{E}\left\lbrack \frac{1}{2} \parallel a - a^{*} \parallel^{2} \right\rbrack,

여기서 a는 정책이 예측한 행동, a^{*}는 전문가가 실제 수행한 행동입니다. 만약 행동을 이산적으로 나누어 표현할 경우, 대신 교차 엔트로피 손실을 사용합니다. 예를 들어 픽 앤 플레이스(pick-and-place)에서는 로봇 말단의 픽(pick) 위치와 플레이스(place) 위치 두 지점을 예측하는데, 이때도 BC 기반 손실을 적용합니다. 이처럼 모방학습을 통해 제어 정책을 학습하면, 주어진 언어 지시에 맞게 행동 경로를 빠르게 익힐 수 있지만, 사람의 시연 데이터가 충분해야 하고 새로운 상황에 대한 일반화가 부족할 수 있는 한계가 있습니다.

# 고수준 과제-하위 과제 계층 모의

goal_instruction = "책상 위의 물건들을 정리해 줘"

# (1) 고수준 계획: LLM 등으로 서브태스크 생성
plan = TaskPlanner.generate_plan(goal_instruction)
# plan = ["의자 뒤로 밀기", "책상 위 책들 줄 정리하기", "컵들을 옮기기"] 등

# (2) 각 서브태스크별로 저수준 제어 정책 실행
for subtask in plan:
    current_state = get_robot_observation()
    while not subtask.is_finished(current_state):
        action = ControlPolicy.predict(current_state, subtask)
        execute_robot_action(action)
        current_state = get_robot_observation()

위 의사코드에서 보듯, VLA는 먼저 장기 명령을 이해하여 계획을 세운 뒤, 저수준 정책이 실제 행동을 수행합니다. 여기서 TaskPlanner는 다음 절에서 다루는 고수준 계획자이며, ControlPolicy는 지금 살펴보는 저수준 제어 정책입니다.

3. 작업 계획(Task Planners)

고수준 작업 계획자는 장기 과제를 여러 단계로 분해하여 로봇이 차례차례 수행할 수 있도록 돕습니다. 예를 들어 “방을 청소해”라는 목표는 여러 하위 작업으로 나뉘어야 합니다(바닥 청소하기, 물건 제자리에 놓기, 쓰레기통 비우기 등). 이때 VLA의 Task Planner는 인간의 퍼즐 맞추기와도 같습니다. 로봇의 시야와 언어 지시를 보고, “이 작업을 먼저 하고, 다음엔 저 작업…”과 같은 순서를 결정합니다. 특히 최근에는 대형언어모델(LLM)을 활용한 계획 기법이 주목받고 있습니다. 주요 접근 방식은 크게 세 가지입니다: End-to-End, 언어 기반, 코드 기반 계획입니다.

End-to-End 계획: 시각-언어 입력을 포함한 모든 정보를 LLM에 통합하여 직접 계획을 생성합니다. 예를 들어 SayCan 프레임워크에서는 PaLM과 같은 LLM이 “{현재 환경, 지시}”를 입력받아 우선순위 기반의 작업 리스트를 출력합니다. 이후 낮은 수준 정책이 순차적으로 수행하며, 환경 변화에 따라 LLM이 다시 재계획할 수도 있습니다. PaLM-E 연구에서도 ViT와 PaLM을 결합해 이미지를 보고 텍스트 계획을 생성한 뒤, SayCan을 활용하여 로봇 행동으로 변환하는 방식을 사용했습니다. 이 방법의 장점은 인간의 플래너처럼 통합적으로 사고한다는 점이지만, 다량의 멀티모달 학습이 필요하고 연산 비용이 크다는 단점이 있습니다.
언어 기반 계획: LLM을 사용하되, 입력과 출력 모두 언어 형식으로 처리합니다. 예를 들어 Inner Monologue 기법은 “대화 내레이션”처럼 LLM이 순차적으로 계획을 세우고, 저수준 정책은 그 텍스트 지시를 따라 움직입니다. 이 과정에서 로봇이나 센서로부터 받은 피드백(성공/실패, 오브젝트 변화 등)을 텍스트로 LLM에 전달하여 계속 보정해 나갑니다. 마치 사람이 미리 결론을 글로 적어가며 다음 행동을 정하는 셈입니다. LLM-Planner는 LLM이 생성한 언어 계획을 단계별로 제어 정책에 넘기고, 필요한 경우 “다시 계획 수립”하도록 설계되었습니다. Socratic Models는 여러 모델(비전, 언어)을 중재(prompts) 방식으로 결합하여, 비언어 데이터를 언어 설명으로 바꾸고 다시 로봇에 활용합니다. 공통점은 모두 언어라는 중개 매개체로 멀티모달 정보를 처리한다는 점입니다.
코드 기반 계획: LLM에게 프로그래밍 언어나 API 호출 코드 형태로 계획을 생성하도록 합니다. ProgPrompt는 LLM에 사용 가능한 함수와 객체 목록을 알려주고, “프롬프트” 형식으로 태스크 계획을 요청합니다. ChatGPT for Robotics는 주어진 시뮬레이터 함수(API)를 설명한 뒤 ChatGPT가 단계별로 파이썬 코드를 생성하도록 하여 로봇 제어에 활용합니다. 예를 들어, pick_object(), move_robot()와 같은 API 목록을 정의하고 ChatGPT에게 “컵을 옮기는 코드를 작성해 줘”라고 하면, ChatGPT가 해당 함수를 호출하는 코드를 만들어줍니다. Code-as-Policies는 LLM이 정책 자체를 코드로 작성하여 실행하게 하고, DEPS는 LLM으로 계획을 세우고 실패 원인을 설명하게 하여 다시 계획하도록 합니다. 이 방식들은 LLM의 코딩 능력과 세계지식을 활용하므로 복잡한 논리 계획에 강점이 있습니다. 그러나 안정성 검사, 버그 가능성 등 실제 로봇 적용의 위험성을 세심히 관리해야 합니다.

flowchart LR
    SubtaskPlanner(고수준 계획자) -->|책상 정리| ActionPolicy(저수준 정책)
    ActionPolicy --> Robot(로봇 동작)
    Robot --> Environment(환경)
    Environment --> SubtaskPlanner
    style SubtaskPlanner fill:#ffe0b2,stroke:#333,stroke-width:1px

위 다이어그램에서 볼 수 있듯, 고수준 계획자(SubtaskPlanner)는 언어 지시로부터 구체적인 서브태스크를 생성해 저수준 정책에 전달합니다. 저수준 정책은 그에 따라 로봇을 움직여 행동하고, 환경 변화를 다시 계획자에게 알려주는 순환 구조입니다.

4. 데이터셋·시뮬레이터와 평가

VLA 연구에 필요한 데이터셋과 환경은 크게 두 축으로 나뉩니다. 현실 로봇 데이터와 시뮬레이션 환경입니다. 현실 데이터를 수집하는 것은 비용과 시간이 매우 많이 듭니다. 로봇 장비 확보, 환경 구축, 전문 조작자 투입 등 제약이 많고, 다양한 로봇 유형과 설정 간의 데이터 불일치 문제도 큽니다. 그 결과 현실에서 얻은 대규모 공개 데이터셋은 드뭅니다.

반면, 시뮬레이터를 이용하면 비용을 크게 줄이고 대량의 데이터를 빠르게 생성할 수 있습니다. 대표적 시뮬레이터로는 Unity 기반의 AI2-THOR, TDW, SAPIEN; Gazebo/Bullet 기반의 iGibson, Habitat; MuJoCo 기반의 Meta-World, RoboSuite 등이 있습니다. 예를 들어 AI2-THOR는 가상 주방/거실에서 물체 조작 태스크를, Habitat/Gibson은 실내 네비게이션을, Meta-World는 로봇팔 조작 과제를 지원합니다. 이러한 시뮬 환경에서는 로봇 카메라(RGB, 깊이, 세그멘테이션 등)를 자유롭게 설정할 수 있고, 다양한 작업 시나리오(얼굴 닦기, 그릇 정리 등)를 자동 생성할 수 있습니다.

하지만 시뮬레이션에도 한계가 있습니다. 현실과 시뮬 간 불일치(sim-to-real gap)가 가장 큰 문제인데, 그래픽 품질 차이, 물리 시뮬레이션의 부정확성, 새로운 물체 모델링 어려움 등이 그 원인입니다. 예를 들어 액체나 천 같은 비강체 객체를 현실처럼 시뮬레이션하는 것은 매우 까다롭습니다. 따라서 시뮬레이터 위에서 잘 학습된 VLA도 현실 로봇에 옮기면 성능이 크게 떨어질 수 있습니다. 이를 해결하려면 도메인 랜덤화, 정교한 물리 모델링, 시뮬레이터 보정 연구가 필요합니다.

로봇 연구자들은 또한 벤치마크를 통해 모델을 평가합니다. 제어 정책은 보통 시뮬레이션 환경 위에서 단순 조작 정확도나 성공률로 평가되며, 작업 계획자는 장기 과제 성공률(예: ALFRED, RoboTHOR에서 “오븐을 켜라”)로 판단합니다. 하지만 이들 벤치마크가 실제 물리 환경을 완벽히 반영하지 못하고, 고수준-저수준 통합 능력을 측정하기 어렵다는 지적도 있습니다. 향후에는 시뮬 실험과 함께 실제 로봇 실험도 표준화하여, 더 현실적인 평가 체계가 필요합니다.

5. 도전 과제와 향후 방향

비전-언어-액션 모델은 강력한 잠재력을 지녔지만, 해결해야 할 문제도 많습니다. 주요 도전 과제를 정리하면 다음과 같습니다:

데이터 부족(Scarcity): 실제 로봇 데이터가 부족합니다. 현실 데이터 수집은 비용·시간적으로 어려워 멀티태스크 학습이 힘듭니다. 반면 시뮬 데이터는 풍부하지만 앞서 언급한 갭 문제로 현실 적용성이 떨어집니다. 해결책으로는 기관 간 협업으로 로봇 데이터 공유, 혹은 사람 동작 데이터 활용(데모, AR/VR 활용)이 모색되고 있습니다.
운동 계획(Motion Planning): 현재의 정책은 대부분 단일 관절 혹은 말단 로봇팔의 위치를 제어하지만, 복잡한 장기 작업에서 필요한 정밀 운동 계획 능력이 부족합니다. 공구 사용, 복잡한 경로 회피, 정밀 조작 등에서 더 정교한 운동 계획 알고리즘이 필요합니다. 이는 로봇의 민첩성과 퍼포먼스 향상으로 이어집니다.
실시간 응답성(Real-Time): 많은 로봇 응용은 짧은 지연으로 빠른 의사결정을 요구합니다. 그러나 대형 언어모델을 쓰면 계산이 느리고, 실제 환경 변화에 즉시 대응하기 어렵습니다. 따라서 효율적인 경량화 알고리즘과 하드웨어 가속, 전체 시스템 최적화가 요구됩니다.
멀티모달 통합(Multi-modal Fusion): 시각·언어 외에도 음성, 촉각 등 다양한 센서 정보를 통합하는 일이 숙제입니다. 특히 청각 정보를 이용하면 가전제품의 작동음으로 상황 파악이 가능하고, 음성 명령 처리로 사용자와 자연스레 대화할 수 있습니다. 앞으로는 멀티모달 학습과 퓨전 기술의 발전이 VLA의 현실 반영성을 높일 것입니다.
일반화(Generalization): VLA가 다양한 미지의 상황에서도 언어 지시를 이해하고 실행하려면 사람 수준의 일반화 능력이 필요합니다. ChatGPT가 다양한 대화에서 유연하듯이, VLA도 다양한 작업, 환경, 로봇 타입에서 견고해야 합니다. 이를 위해 더 큰 규모의 멀티태스크 학습, 도메인 어댑테이션, meta-learning 기법 연구가 활발합니다.
장기 작업(Long-Horizon Task): “화분에 물을 줘” 같은 짧은 명령도 실제로는 여러 단계 과제로 이어질 수 있습니다(로봇팔 이동 → 물통 집기 → 화분으로 이동 → 물 붓기). 현재 고수준 계획자 모델은 초기 성과를 보였지만, 대부분의 LLM은 인간의 물리적 지식이 부족하여 긴 계획을 완벽히 수행하지 못합니다. 즉, 계획 능력과 인지 능력을 동시에 키우는 연구가 필요합니다.
기초 모델(Foundation Model)의 부재: 이미지는 CLIP, 텍스트는 GPT처럼 단일 범용 모델이 존재하지만, 로봇 제어 전용의 거대 모델은 아직 없습니다. 다양한 로봇과 환경을 아우르는 공용 모델을 만들려면 웹 규모의 로봇 행동 데이터와 멀티모달 학습이 필요합니다.
안전성(Safety)과 윤리: 로봇은 물리적 세계와 상호작용하므로 잘못된 동작은 인명·재산 피해로 이어질 수 있습니다. 따라서 VLA 의사결정을 투명하게 하고, 예측 불가능한 행동을 제어하는 안전 메커니즘 연구가 필수적입니다. 또한 개인정보나 편향 없는 판단 등 윤리·사회적 고려도 함께 논의되어야 합니다.

이러한 도전 과제들을 해결하면, VLA 기반 로봇은 산업 현장뿐 아니라 가정, 의료, 서비스 등 다양한 분야에 폭넓게 활용될 수 있습니다.

결론

비전-언어-액션 모델은 로봇공학에서 언어와 시각 정보를 활용해 로봇 행동을 생성한다는 점에서 혁신적인 접근입니다. 본 서베이에서는 VLAs를 사전훈련(비전·동역학·월드 모델), 제어 정책(언어+시각→행동), 작업 계획(장기과제 분해) 세 축으로 체계화했습니다. 각 부문에서 CLIP, R3M, Dreamer 같은 모델부터 RT-2, PaLM-E 같은 최신 LLM 기반 모델, SayCan과 ProgPrompt 같은 고수준 계획자까지 다양한 연구가 진행되어 왔습니다.

VLAs는 이미 복잡한 환경에서 다양한 작업을 수행하는 능력을 보여주며 큰 가능성을 드러냈지만, 여전히 일반화, 효율성, 안전 등 해결 과제가 남아 있습니다. 앞으로 실제 로봇 데이터 구축, 시뮬-실 간 연구, 멀티모달 학습 기법 개발이 활발해질 것으로 기대됩니다. 본 리뷰가 로봇공학자들에게 VLA 개념과 최근 연구 동향에 대한 직관적 이해와 기술적 통찰을 제공하여, 미래의 로봇 시스템 개발에 실질적인 도움이 되길 바랍니다.

🔍 Ping Review

🔔 Ring Review

🎯 서론: 왜 VLA인가?

ChatGPT와 VLA의 결정적 차이

🗺️ VLA의 분류 체계 (Taxonomy)

핵심 통찰: “계층적 프레임워크”

🧩 Part 1: VLA의 구성 요소 (Components)

1.1 강화학습 (Reinforcement Learning)

파인만식 직관

1.2 사전학습된 시각 표현 (Pretrained Visual Representations)

주요 PVR 모델 비교

핵심 수식: 대조 학습

1.3 동역학 학습 (Dynamics Learning)

파인만식 직관

1.4 월드 모델 (World Models)

Dreamer 시리즈의 핵심 아이디어

1.5 추론 (Reasoning)

ECoT의 혁신적 접근

🎮 Part 2: 저수준 제어 정책 (Low-Level Control Policies)

VLA 제어 정책의 일반 공식

2.1 아키텍처별 분류

2.2 핵심 모델 심층 분석

CLIPort: VLA의 선구자

RT-1: 대규모 실세계 제어의 시작

VIMA: 멀티모달 프롬프트의 힘

2.3 Diffusion-based 정책

왜 Diffusion인가?

DP3 (3D Diffusion Policy)

2.4 Large VLA (LVLA)

RT-2: VLM을 VLA로 변환하기

OpenVLA: 오픈소스 LVLA

π0 (Pi-Zero): Flow Matching 기반 VLA

2.5 3D Vision 기반 정책

PerAct: 3D 어포던스 맵

RVT (Robotic View Transformer)

🗓️ Part 3: 고수준 태스크 플래너 (Task Planners)

태스크 플래너의 역할

3.1 단일체 태스크 플래너 (Monolithic)

PaLM-E: 거대 멀티모달 LLM

3D Vision 기반 플래너들

3.2 모듈형 태스크 플래너 (Modular)

SayCan: 어포던스 기반 그라운딩

Code as Policies (CaP): 코드로 정책 표현

📊 Part 4: 데이터셋과 벤치마크

4.1 실세계 데이터셋

4.2 시뮬레이터 & 벤치마크

4.3 자동 데이터 수집

🔮 Part 5: 도전 과제와 미래 방향

5.1 안전성 (Safety First)

5.2 데이터 & 벤치마크

5.3 일반화 (Generalization)

5.4 실시간 응답성

5.5 장기 태스크 (Long-Horizon Tasks)

📈 요약 및 결론

VLA 발전의 핵심 트렌드

로봇공학자를 위한 핵심 테이크어웨이

마무리: 파인만의 관점에서

⛏️ Dig Review

비전-언어-액션 모델 (VLA)이란 무엇인가

1. 사전 훈련(Pretraining)

2. 제어 정책(Control Policies)

3. 작업 계획(Task Planners)

4. 데이터셋·시뮬레이터와 평가

5. 도전 과제와 향후 방향

결론

참고사항