📝 VLA Imitation Learning 지도: BC에서 Flow Matching까지

vla

2026

VLA의 학습을 지탱하는 imitation learning 계열을 손실함수 축과 파이프라인 축으로 정리

Published

July 3, 2026

VLA(Vision-Language-Action) 연구에서 imitation learning(IL)은 거의 모든 모델의 핵심 학습 방법이다. 최근 RL post-training이 추가되는 경우가 많지만, VLA의 성능을 결정하는 대부분의 학습은 여전히 IL 기반이다. 이 글의 결론을 먼저 정리하면 다음과 같다.

손실 함수 축: VLA의 IL은 Behavior Cloning(BC)의 변형들이고, action 표현 방식에 따라 (1) autoregressive token BC, (2) diffusion 기반 BC, (3) flow matching 기반 BC로 나뉜다. Action chunking은 세 계열 모두가 공유하는 공통 인프라다.
파이프라인 축: pretraining과 task-specific fine-tuning(SFT)을 IL이 담당하고, post-training RL 단계에서도 BC가 보조 손실(auxiliary loss)로 재등장한다. “IL로 만들고 RL로 다듬는” 하이브리드가 2024~2026년 현재의 합의점이다.
진화 방향: BC → ACT(chunking) → Diffusion Policy → Flow Matching 순서로 발전했고, 표현력(multimodality)과 추론 속도의 trade-off를 개선하는 방향이다.

1 전체 학습 파이프라인에서 IL의 위치

기법을 하나씩 보기 전에 전체 그림부터 잡는다. 현재 대부분의 최신 VLA(OpenVLA, π0, SmolVLA 등)가 공통적으로 채택하는 학습 구조는 다음과 같다.

flowchart TD
    A[Web-scale VLM Pretraining<br>PaliGemma, Prismatic, Qwen-VL ...] --> B[Robot Demonstrations<br>Open X-Embodiment, DROID, LeRobot ...]
    B --> C[Large-scale Imitation Learning<br>Cross-embodiment BC Pretraining]
    C --> C1[Token BC<br>RT-2, OpenVLA]
    C --> C2[Chunk BC<br>ACT, OpenVLA-OFT]
    C --> C3[Diffusion Policy<br>Octo, RDT-1B, MoDE]
    C --> C4[Flow Matching<br>pi0, SmolVLA]
    C1 --> D[Task-specific SFT<br>tens to hundreds of demos]
    C2 --> D
    C3 --> D
    C4 --> D
    D --> E[Optional: RL Post-training<br>PPO, GRPO, BC+RL Hybrid]

단계별로 IL이 하는 역할이 다르다.

단계	IL의 역할	데이터 규모
Pretraining	Cross-embodiment 데이터에 대한 대규모 BC. 시각-언어-행동 정렬과 일반화 가능한 visuomotor prior 획득	수십만~수백만 demo (OpenVLA는 970k)
Fine-tuning (SFT)	타겟 로봇/태스크에 대한 BC. Pretrained checkpoint에서 시작해 동일 objective로 재학습	수십~수백 demo
Post-training	RL의 보조 손실 및 안정화 장치. Filtered BC, self-BC, advantage-weighted regression 등	Rollout 수집량에 의존

기법별 요약은 다음과 같다.

기법	사용 단계	대표 모델
Behavior Cloning (BC)	Pretraining, Fine-tuning	RT-1, RT-2, OpenVLA
Autoregressive Token BC	Pretraining, Fine-tuning	RT-2, OpenVLA, π0-FAST
Chunked BC	Fine-tuning (현재 사실상 표준)	ACT, OpenVLA-OFT, π0, SmolVLA
Diffusion Policy	Policy 학습 (action head)	Diffusion Policy, DP3, Octo, RDT-1B
Flow Matching	Policy 학습 (action head)	π0, π0.5, SmolVLA
DAgger	온라인 데이터 수집 (일부)	연구용, sim-to-real
Action-free IL / Inverse Dynamics	Action 라벨 없는 데이터 활용	BCO, LAPA 계열 latent action 연구
RL + BC Hybrid	Post-training	SimpleVLA-RL, RIPT-VLA, IRL-VLA, RLinf-Co

2 1. Behavior Cloning: 모든 것의 기본형

가장 기본적인 IL이다. 전문가 시연 데이터에서 관측과 행동의 쌍을 만들고, 관측이 주어졌을 때 전문가의 행동을 supervised learning으로 회귀(또는 분류)한다.

(Image, Language, Robot State)
              |
              v
        Expert Action

손실 함수는 action 표현에 따라 달라진다.

Continuous action:  L = || a_pred - a_expert ||^2
Discrete token:     L = CrossEntropy(token_pred, token_expert)

BC가 VLA에서 특별한 이유는 objective가 단순해서가 아니라, VLM backbone의 학습 방식과 자연스럽게 이어지기 때문이다. 사용 흐름은 다음과 같다.

Open X-Embodiment (970k demonstrations)
              |
              v
      OpenVLA pretrained
              |
              v
   My robot data (~100 demos)
              |
              v
        BC Fine-tuning

OpenVLA 논문도 거의 전체가 BC 기반이다. Pretraining과 fine-tuning이 동일한 objective를 쓰기 때문에, “대규모로 배운 general policy를 소규모 데이터로 특화시킨다”는 LLM식 레시피가 로봇에도 그대로 적용된다.

2.1 BC의 구조적 한계

BC의 성능 상한은 데이터가 결정한다. 현재 VLA IL의 한계로 지적되는 것들은 다음과 같다.

인간 시연자 능력이 곧 정책의 상한선이 된다.
인간 시연 자체가 피로, 부주의, 개인 습관, 수집 장비의 센서 부정확성과 지연 때문에 suboptimal한 경우가 많다.
Demonstration의 state-action coverage가 제한적이라 out-of-distribution(OOD) 상황에 취약하다 (covariate shift, compounding error).
Goal-conditioned 실행 메커니즘이 없어서 “결과가 좋았는지”에 대한 피드백이 학습에 반영되지 않는다.

뒤에서 다룰 chunking, DAgger, RL post-training은 모두 이 한계들 중 일부를 공략하는 장치다.

3 2. Autoregressive Token BC: Action을 언어처럼

RT-2와 OpenVLA의 핵심이다. 연속 action을 discrete token으로 변환하고, VLM backbone이 next-token prediction으로 action을 생성하게 한다.

Move X   ->  token 182
Move Y   ->  token 51
Gripper  ->  token OPEN

Transformer 입장에서는 일반 LLM 학습과 동일하다.

<Image> <Instruction>
        |
        v
   Token1 -> Token2 -> Token3 -> ...

Loss는 cross entropy 그대로다. 이 방식의 장점은 VLM의 언어 모델링 인프라(tokenizer, loss, 학습 파이프라인)를 수정 없이 재활용할 수 있다는 것이다.

토큰화 방식도 진화했다. 초기에는 각 action 차원을 균등 binning(예: 256 bins)했지만, π0-FAST는 FAST tokenizer로 action chunk를 압축 토큰화해서 autoregressive 방식으로도 고주파 제어 데이터를 효율적으로 학습할 수 있게 했다. Fine-tuning 방식도 모델마다 다른데, OpenVLA(Prismatic-7B backbone)는 LoRA fine-tuning(r=32)이 표준 레시피이고, π0-FAST(PaliGemma-3B backbone)는 pretrained checkpoint에서 full fine-tuning을 수행한다.

4 3. Chunked BC와 ACT: 현재의 사실상 표준

기존 BC는 한 스텝의 action만 예측한다.

state_t -> action_t

Chunked BC는 미래 action 시퀀스를 한 번에 예측한다.

state_t -> [action_t, action_t+1, ..., action_t+H]

이 아이디어를 대중화한 것이 ACT(Action Chunking with Transformers)다. ACT는 transformer가 현재 관측에 조건화된 짧은 horizon의 미래 action들을 예측하게 해서, compounding error를 줄이면서 안정적인 long-horizon 실행을 가능하게 했다. 구조적으로는 CVAE를 써서 demonstration의 multimodality를 latent 변수로 흡수한다 (같은 상황에서 시연자마다 다른 행동을 했을 때 평균내버리는 문제를 완화).

장점은 세 가지다.

Temporal consistency: chunk 단위 실행이 떨림 없는 부드러운 동작을 만든다.
Inference 횟수 감소: 매 스텝이 아니라 chunk마다 한 번 추론한다 (대형 VLA에서 특히 중요).
Compounding error 완화: open-loop 구간이 길어져 분포 이탈이 누적되는 속도가 줄어든다.

인간 운동 제어에서 부분적으로 영감을 받은 action chunking은 현재 visuomotor control용 IL에서 사실상의 표준(de facto standard)이 됐다. ACT, OpenVLA-OFT, π0, SmolVLA가 모두 chunk를 예측하고, TorchRL의 VLA 튜토리얼 기본 예제도 chunked BC다. Chunk size는 hyperparameter로서 실제로 성능에 크게 영향을 준다 (Mean-Flow 기반 One-Step VLA 실험에서 chunk size 1은 성공률 0%, 20에서 84%, 50에서 50%로 떨어지는 식의 sweet spot이 관찰된다).

다만 chunked 실행은 reactivity를 희생한다. 고정 horizon chunk는 chunk 경계에서의 불연속과 반응 지연 문제를 낳는데, Physical Intelligence의 Real-Time Chunking처럼 비동기 추론(inference를 실행과 동시에 미리 시작)으로 이를 보완하는 연구가 이어지고 있다.

5 4. Diffusion Policy: 연속 action의 multimodal 분포

2023년 이후 continuous action policy의 대표 주자다. Action 분포를 conditional denoising process로 모델링한다.

expert action a
      |
      v
  add noise
      |
      v
denoise network (conditioned on observation)
      |
      v
recover original action

Loss는 noise prediction loss(denoising score matching)다. 학습 자체는 여전히 demonstration에 대한 supervised learning이므로 IL 범주 안에 있다.

Discretization 없이 연속 action 공간에서 multimodal 분포를 표현할 수 있다는 것이 token BC 대비 강점이다. 시연 데이터에 “왼쪽으로 돌아가는 경로”와 “오른쪽으로 돌아가는 경로”가 섞여 있을 때, 회귀 기반 BC는 둘의 평균(장애물 정면)으로 붕괴하지만 diffusion은 두 mode를 모두 유지한다.

대표 연구는 Diffusion Policy, DP3(3D 표현 결합)이고, VLA에서는 Octo, RDT-1B, MoDE 등이 diffusion action head를 채택했다. 단점은 추론 시 반복적인 denoising step이 필요해서 느리다는 것이다. 이 단점이 다음의 flow matching으로 넘어가는 직접적인 동기가 됐다.

6 5. Flow Matching: 2025년 이후의 대세

π0가 대표적이고, 2025년 이후 가장 빠르게 늘어나는 방식이다. Diffusion처럼 noise에서 action을 생성하지만, 확률적 denoising 대신 결정론적 vector field(velocity field)를 학습한다.

noise A0 ~ Gaussian
      |
      v
learned velocity field v_pi
(integrate from tau = 0 to 1)
      |
      v
action chunk

Flow matching policy가 VLA에서 매력적인 이유는 supervised training의 안정성, 표현력 있는 연속 action 분포, 유연한 sampling을 동시에 가지기 때문이다. Diffusion 대비 적은 integration step으로 추론이 가능해서 실시간 제어에 유리하고, diffusion policy를 추론 시점에 flow policy로 변환하는 것도 가능하다 (두 프레임워크는 수학적으로 밀접하게 연결되어 있다).

현대 VLA의 표준 아키텍처는 “VLM backbone + flow/diffusion action expert가 관측과 언어 지시에 조건화된 고정 길이 action chunk를 생성”하는 구조로 수렴했다. π0, π0.5, SmolVLA가 이 구조이고, NVIDIA와 Physical Intelligence 계열 모델들도 대부분 flow 기반으로 이동하는 추세다. 추론 속도를 더 밀어붙이는 방향으로는 Mean-Flow 기반 one-step 생성 연구가 있다 (NFE=1로 SmolVLA 대비 8.7배, Diffusion Policy 대비 83.9배 빠른 action 생성을 보고).

7 6. 계열 정리: Token BC vs Diffusion BC vs Flow BC

여기까지의 네 계열을 한 표로 정리하면 다음과 같다. 모두 “BC”라는 점, 즉 demonstration에 대한 supervised learning이라는 점은 동일하고, action의 확률 분포를 어떻게 표현하느냐만 다르다.

방식	대표	Loss	Action 표현	특징
Continuous regression BC	RT-1	MSE	연속값 직접 회귀	단순하지만 multimodality 붕괴
Token BC	RT-2, OpenVLA, π0-FAST	Cross Entropy	Discrete token	LLM 인프라 재활용, autoregressive 생성이 느림
Chunk regression BC	ACT, OpenVLA-OFT	MSE (+ CVAE KL)	연속 chunk	Temporal consistency, CVAE로 multimodality 흡수
Diffusion BC	Diffusion Policy, DP3, RDT-1B	Denoising loss	연속 chunk (iterative)	Multimodal 분포, 추론 느림
Flow BC	π0, SmolVLA	Flow matching loss	연속 chunk (few-step)	Diffusion의 표현력 + 빠른 sampling

8 7. DAgger: 온라인 데이터 수집

VLA 본체 학습에 많이 쓰이지는 않지만, IL의 근본 문제인 distribution shift를 다루는 고전적 해법이라 알아둘 필요가 있다.

train policy on expert data
        |
        v
  run policy (fails in new states)
        |
        v
  expert corrects those states
        |
        v
  add corrections to dataset
        |
        v
      retrain

정책이 실제로 방문하는 상태 분포에서 전문가 라벨을 받기 때문에 covariate shift가 줄어든다. VLA 맥락에서는 대규모 pretraining에 직접 쓰이기보다는, 연구용 데이터 수집이나 sim-to-real 전이 과정에서 실패 상태를 보강하는 용도로 쓰인다. 뒤의 self-BC 계열(성공한 rollout을 데이터셋에 추가하는 방식)은 전문가 개입 없이 DAgger의 아이디어를 재현하려는 시도로 볼 수 있다.

9 8. Action-free Imitation: Action 라벨 없는 데이터 활용

로봇 demo는 비싸지만 사람이 작업하는 영상은 넘쳐난다. Action 라벨이 없는 영상 데이터를 IL에 쓰려는 흐름이 최근 늘고 있고, 접근은 크게 두 가지다.

첫 번째는 inverse dynamics 기반이다.

video (no action labels)
        |
        v
inverse dynamics model
(infer action from state transition)
        |
        v
pseudo-labeled actions
        |
        v
        BC

BCO(Behavioral Cloning from Observation)가 원형이다. 관측 전이 (s_t, s_t+1)에서 action을 추정하는 inverse dynamics model을 별도로 학습하고, 이것으로 영상에 pseudo action label을 붙여 BC를 수행한다.

두 번째는 latent action 기반이다.

video
   |
   v
latent action model
(learn action-like representation without labels)
   |
   v
policy in latent action space
   |
   v
decode to real robot actions

명시적 action 복원 대신, 프레임 간 변화를 설명하는 latent action 표현을 자기지도로 학습하고 그 공간에서 정책을 학습한다. Latent action model로 전이 가능한 action 표현을 학습하면 latent action decoding을 통해 서로 다른 embodiment에 정책을 배포할 수 있다는 것이 이 계열의 핵심 주장이다 (LAPA, GR00T의 latent action pretraining이 이 흐름에 속한다). 사람 영상까지 pretraining 데이터로 끌어들일 수 있어서 데이터 병목을 푸는 방향으로 주목받고 있다.

10 9. RL + BC Hybrid: Post-training에서 IL의 재등장

최근 가장 활발한 영역이다. 결론부터 말하면, RL post-training에서도 IL은 사라지지 않고 정규화 장치이자 안정화 장치로 돌아온다.

배경은 이렇다. Pretrained VLA는 IL로 general visuomotor prior를 얻지만, 수집된 데이터셋의 제한된 state-action coverage 때문에 OOD 일반화에 약하다. RL은 self-exploration과 결과 기반 최적화로 이 간극을 메울 수 있어서, pretraining과 실제 배포 사이의 다리로 주목받고 있다. 2025~2026년에 SimpleVLA-RL, VLA-RFT, D-VLA, RL-VLA3 같은 RL post-training 프레임워크가 쏟아진 이유다.

문제는 순수 RL fine-tuning이 불안정하다는 것이다. Sparse reward, 대형 모델의 학습 불안정성, 그리고 배포 중 수집되는 데이터가 성공/부분 성공/복구 가능한 실수/실패가 섞인 mixed-quality라는 점이 걸림돌이다. 이 mixed-quality 데이터를 다루는 방식에 따라 접근이 갈린다.

Full BC: 전부 다시 BC하면 실패까지 모방한다.
Filtered BC: 성공한 trajectory만 골라 BC하면 유용한 sub-trajectory를 버린다.
Offline RL: 별도의 대형 critic이 필요해진다.
Advantage-weighted regression (AWR): BC loss에 advantage 가중치를 곱해 절충한다.

대표적인 hybrid 설계들은 다음과 같다.

Stage 1: Behavior Cloning (pretraining + SFT)
              |
              v
Stage 2: RL fine-tuning
         with BC as auxiliary loss
         L = L_RL + lambda * L_BC

Action-Chunked PPO + Self-BC: 연속 action을 chunk로 묶어 PPO를 적용하면 시간적 일관성과 피드백 밀도가 좋아지고, 학습 중 수집한 고품질 시도들을 demonstration buffer에 계속 쌓아 auxiliary BC loss로 쓴다. PPO objective와 self-BC loss의 상대 가중치를 online으로 조정해 post-training을 안정화한다.
RIPT-VLA: sparse binary success feedback만으로 pretrained VLA를 interactive하게 fine-tuning하는 post-training 방법으로, 1~few demo 저데이터 상황에서 특히 효과적이다.
SEIL: simulator 상호작용으로 self-evolve하는 few-shot IL 프레임워크다. 성공한 rollout을 추가 demonstration으로 수집해 반복적으로 재학습한다 (전문가 없는 DAgger에 가깝다).
ForesightFlow: flow policy 자체가 candidate action을 제안하고 점수까지 매기게 해서, 별도 critic 없이 mixed-quality 데이터에서 정책을 개선한다. Decoupling으로 value hallucination을 막고 self-guided sampling으로 long-horizon 실행을 개선했다고 보고한다.
IRL-VLA, RLinf-Co: inverse RL로 reward를 추정하거나 sim-real co-training으로 RL과 IL을 결합하는 계열이다.

공통 패턴은 명확하다. RL이 exploration과 결과 최적화를 담당하고, BC(원본 demo든 self-collected demo든)가 정책이 무너지지 않게 붙잡는다.

11 10. 모델별 정리

실제 논문 기준으로 대표 모델들이 어떤 IL 조합을 쓰는지 정리하면 다음과 같다.

모델	IL 방식	특징
RT-1	Continuous BC	연속 action 회귀
RT-2	Token BC	Action을 텍스트처럼 autoregressive 생성
OpenVLA	Token BC	Prismatic-7B, cross entropy, LoRA fine-tuning
π0-FAST	Token BC + Chunk	FAST tokenizer로 chunk 압축 토큰화
ACT	Chunk regression BC	CVAE + future action chunk 회귀
OpenVLA-OFT	Chunk BC	효율적인 task-specific fine-tuning
Diffusion Policy	Diffusion BC	Denoising 기반 action 생성
Octo, RDT-1B	Diffusion BC	Diffusion action head를 가진 generalist
π0 / π0.5	Flow Matching + Chunk	Flow action expert, π0.5는 reward/feedback 확장
SmolVLA	Flow Matching + Chunk	경량 flow 기반 정책
SimpleVLA-RL, RIPT-VLA 등	BC + RL Hybrid	IL 초기화 + RL post-training

12 마무리

두 축만 기억하면 된다. 기법 축에서 VLA의 IL은 전부 BC의 변형이고, action 분포 표현이 token → chunk regression → diffusion → flow로 진화하면서 multimodality 표현력과 추론 속도를 함께 개선해왔다. 파이프라인 축에서 IL은 pretraining/SFT의 주력 objective이면서, RL post-training 단계에서는 학습을 안정화하는 보조 손실로 역할을 바꿔 계속 살아남는다.

IL 단독의 한계(시연자 상한선, suboptimal demo, OOD 취약성)는 분명하므로, “IL로 prior를 만들고 RL로 다듬는” 구조는 당분간 더 정교해질 것이다. Latent action 기반 action-free IL이 사람 영상까지 pretraining에 흡수하는 흐름과, one-step flow 생성으로 추론 병목을 없애는 흐름이 다음 변곡점이 될 가능성이 높다.

13 참고 자료

OpenVLA: An Open-Source Vision-Language-Action Model (arXiv:2406.09246)
A Survey on Vision-Language-Action Models: An Action Tokenization Perspective (arXiv:2507.01925)
Behavioral Cloning from Observation (arXiv:1805.01954)
Real-Time Execution of Action Chunking Flow Policies (arXiv:2506.07339)
VLA Model Post-Training via Action-Chunked PPO and Self Behavior Cloning (arXiv:2509.25718)
Reinforcement Learning for Flow-Matching Policies (arXiv:2507.15073)
A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation (TechRxiv, 2025)
Vision-Language-Action (VLA) policies with TorchRL (PyTorch Docs)
Beyond Imitation: RL-Based Sim-Real Co-Training for VLA Models (RLinf-Co)
A Survey of Imitation Learning Methods, Environments and Metrics (arXiv:2404.19456)