📃RL Token

vla

rl-token

physical-intelligence

Precise Manipulation with Efficient Online RL

Published

May 9, 2026

🤖 본 논문은 Vision-Language-Action(VLA) 모델의 온라인 강화 학습(RL) 미세 조정을 위해, VLA의 내부 특징을 압축하여 “RL token”이라는 효율적인 표현을 생성하는 방법을 제안합니다.
🚀 RL token을 기반으로 학습된 경량 액터-크리틱 네트워크는 VLA의 초기 행동을 개선하고 정규화하여, 몇 시간 또는 몇 분의 로봇 경험만으로도 샘플 효율적인 학습을 가능하게 합니다.
⚡️ 실제 로봇 작업에서 RLT(RL with RL token)는 정밀한 작업의 성공률과 실행 속도를 최대 3배까지 향상시키며, 일부 작업에서는 전문가의 원격 조작 속도를 능가하는 성능을 보였습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

이 논문은 Vision-Language-Action (VLA) 모델을 실제 로봇 작업에 정밀하고 빠르게 적용하기 위한 효율적인 온라인 강화 학습 (RL) 미세 조정 방법인 RLT(RL Token)를 제안합니다. 기존 VLA 모델은 다양한 조작 스킬을 학습할 수 있지만, 실제 환경에서 요구되는 밀리미터 단위의 정밀도와 속도를 달성하는 데 어려움을 겪습니다. RL은 이러한 정밀 작업을 개선하는 효과적인 방법이지만, 대규모 VLA 모델을 RL로 직접 미세 조정하는 것은 계산 및 샘플 효율성 측면에서 비실용적입니다. RLT는 이 문제를 해결하기 위해 VLA의 일반화 능력을 활용하면서도 가벼운 온라인 RL의 샘플 효율성을 달성합니다.

1. 핵심 방법론 (Core Methodology)

RLT의 핵심 아이디어는 VLA 모델의 사전 학습된 지식을 최대한 활용하여 RL 훈련 효율성을 극대화하는 것입니다. 이를 위해 다음 세 단계로 구성됩니다.

A. RL Token 노출을 위한 VLA 적응 (Adapting the VLA to expose an RL interface)

샘플 효율적인 온라인 RL은 효과적인 상태 표현에 크게 의존합니다. VLA 모델의 내부 특징은 고차원적이며, 온라인 업데이트는 비용이 많이 듭니다. RLT는 VLA가 사전 학습된 지식을 보존하면서도 RL에 적합한 작고 효율적인 표현을 제공하도록 “RL token”을 도입합니다.

VLA 미세 조정 및 RL Token 학습:
- 먼저, 소량의 task-specific demonstration 데이터를 사용하여 VLA 모델을 미세 조정합니다. 이는 VLA의 초기 task policy를 개선하고, 동시에 RL token 학습을 위한 기반을 마련합니다.
- VLA의 최종 레이어 토큰 임베딩 z = f(s, \ell; \theta_{\text{vla}}) (상태 s와 언어 지시 \ell에 대한 VLA의 출력)를 활용합니다.
- 학습된 임베딩 e_{\text{rl}} = e_\phi(\text{<rl>})을 토큰 시퀀스에 추가하고, 경량 인코더 트랜스포머 g_\phi를 사용하여 확장된 시퀀스를 처리합니다.
- 특수 토큰 위치에서의 인코더 출력, 즉 z_{\text{rl}} = g_\phi([z_{1:M}, e_{\text{rl}}])_{M+1}이 RL token이 됩니다. 이 z_{\text{rl}}은 VLA의 지식을 요약하는 압축된 벡터 역할을 합니다.
- 디코더 트랜스포머 d_\phi와 선형 출력 프로젝션 h_\phi는 z_{\text{rl}}로부터 원본 임베딩을 재구성하도록 자기회귀적으로 훈련됩니다. 재구성 목적 함수는 데모 데이터 D에 대해 다음과 같습니다: L_{\text{ro}} = E_D \left[ \sum_{i=1}^M \left\| h_\phi d_\phi([z_{\text{rl}}, \bar{z}_{1:i-1}])_i - \bar{z}_i \right\|_2^2 \right] 여기서 \bar{z}_i = \text{sg}(z_i)는 VLA 임베딩에 적용된 stop-gradient 연산을 나타냅니다.
- 이 훈련 후, \theta_{\text{vla}} (VLA 모델)와 \phi (RL token 관련 매개변수)는 고정되며, 온라인 RL은 이 z_{\text{rl}} 표현을 기반으로 작동합니다.

B. VLA Action Chunks 정제를 위한 온라인 RL (Online RL to refine VLA action chunks)

RL token 표현이 고정된 후, 경량 액터(\pi_\theta) 및 크리틱(Q_\psi) 네트워크를 온라인으로 훈련합니다. 이들 네트워크는 RL token과 로봇의 고유수용성 상태(proprioceptive state)를 결합한 입력 x를 사용합니다.

크리틱 훈련 (Training the critic):
- 크리틱 Q_\psi(x, a_{1:C})는 상태와 액션 청크 a_{1:C}를 입력으로 받아 가치 함수를 추정합니다. 여기서 C는 RL 청크 길이이며, H는 VLA가 예측하는 청크 호라이즌입니다(C < H).
- 표준 오프-정책 시간차(temporal-difference) 학습을 사용하여 리플레이 버퍼 B에서 샘플링된 액션 청크 전환에 대해 크리틱을 훈련합니다. 목적 함수는 다음과 같습니다: L_Q = E_{(x,a_{1:C},x') \sim B} \left[ \left( \hat{Q} - Q_\psi(x, a_{1:C}) \right)^2 \right] 여기서 \hat{Q}는 타겟 Q 값이며 다음과 같이 계산됩니다: \hat{Q} = \sum_{t'=1}^C \gamma^{t'-1} r_{t'} + \gamma^C E_{a' \sim \pi_\theta} [Q_{\psi'}(x', a')] 여기서 x = (z_{\text{rl}}, s_p)이고 s_p는 고유수용성 상태입니다. TD3 [19]를 따라 \psi'는 타겟 네트워크의 매개변수입니다.
RL Policy 훈련 (Training the RL Policy):
- 액터 네트워크 \pi_\theta(\cdot|x, \tilde{a}_{1:C})는 액션 청크에 대한 가우시안 액션 분포를 생성합니다. 이는 입력 상태 x와 VLA가 제안한 참조 액션 청크 \tilde{a}_{1:C}를 입력으로 받습니다.
- 액션 분포는 다음과 같습니다: \pi_\theta(a_{1:C} | x, \tilde{a}_{1:C}) = \mathcal{N}(\mu_\theta(x, \tilde{a}_{1:C}), \sigma^2 I)
- 액터는 크리틱 가치를 최대화하면서 VLA 참조 청크 \tilde{a}에 가깝게 유지되도록 최적화됩니다. 이는 KL-정규화된 RL과 유사하며, 온라인 RL을 VLA의 강력한 초기 제안을 국소적으로 정제하는 것으로 변환합니다. 목적 함수는 다음과 같습니다: L_\pi(\theta) = E_{s \sim B, a_{1:C} \sim \pi_\theta} \left[ - Q_\psi(x, a_{1:C}) + \beta \|a_{1:C} - \tilde{a}_{1:C}\|_2^2 \right] 여기서 \tilde{a}_{1:C} \sim \pi_{\text{vla}}(\cdot | s, \ell)은 VLA에서 샘플링된 참조 액션 청크이고, \beta는 정규화 강도를 제어하는 계수입니다.
- Reference action dropout: 액터가 단순히 \tilde{a}를 모방하는 것을 방지하기 위해, 훈련 배치에서 무작위로 일부 전환에 대해 참조 청크를 0으로 대체합니다. 이는 액터가 독립적인 액션 생성 경로를 유지하도록 강제합니다.

C. 전체 시스템 (Complete System)

RLT의 전체 훈련 루프는 다음과 같습니다:

준비 단계 (Warmup): RL token 표현 훈련 후, 리플레이 버퍼 B를 기본 VLA 정책으로 N_{\text{warm}} 스텝만큼 채웁니다. 이는 크리틱에 초기 학습 신호를 제공하고 RL이 유능한 VLA 행동에서 시작하도록 보장합니다.
롤아웃 (Rollout): 온라인 데이터 수집 중 각 액션 청크 경계에서, 고정된 VLA는 참조 청크 \tilde{a}_{1:H}를 생성하고 RL token 모듈은 z_{\text{rl}}을 추출합니다. 그런 다음 액터는 액션 청크 a_{1:C} \sim \pi_\theta(\cdot | x, \tilde{a}_{1:C})를 출력합니다.
- 사람 작업자는 선택적으로 개입하여 액터 출력을 덮어쓸 수 있으며, 이 경우 개입된 액션이 리플레이 버퍼에 저장됩니다.
- 데이터 효율성을 위해, RL 정책이 사용하는 청크 길이 C와 무관하게 모든 중간 스텝에 대한 관측을 사용하여 중간 스텝을 리플레이 버퍼에 저장합니다 (예: < x_0, a_{0:C} >, < x_2, a_{2:C+2} > 등).
업데이트 (Update): 정책 업데이트는 리플레이 버퍼에서 오프-정책 방식으로 수행됩니다. 롤아웃과 학습은 비동기적으로 진행됩니다. 높은 update-to-data ratio (예: 5)를 사용하여 샘플 효율성을 높입니다.
Critical Phases의 타겟 개선 (Targeted improvement of critical phases): RLT는 각 작업에서 가장 어렵고 정밀도가 높은 “critical phase”를 개선하는 데 집중합니다. 에피소드는 기본 VLA 모델로 시작하며, 사람 작업자가 언제 VLA에서 RL 정책으로 제어를 넘길지 선택합니다. 이는 RL이 가장 중요한 행동 부분에 데이터를 집중하고 신용 할당을 집중하도록 합니다.

2. 실험 및 결과 (Experiments and Results)

RLT는 스크루 설치, 케이블 타이 체결, 이더넷 삽입, 충전기 삽입의 네 가지 실제 로봇 조작 작업에서 평가되었습니다. 이 작업들은 모두 밀리미터 또는 서브-밀리미터 수준의 정밀도를 요구합니다.

Q1: 기본 VLA 모델 대비 성능 개선:
- RLT는 모든 작업의 critical phase에서 성공률과 실행 속도를 일관되게 개선했습니다. 비교적 쉬운 충전기 및 이더넷 작업에서도 critical phase 속도가 약 3배 빨라졌습니다.
- 어려운 케이블 타이 및 스크루 작업에서는 성공률이 크게 향상되었습니다. 전체 작업 평가에서도 스크루 작업에서 40%, 케이블 타이 작업에서 60%의 성공률 향상을 보였습니다.
Q2: 다른 RL 방법론과의 비교:
- HIL-SERL 및 PLD와 같은 단일 스텝 온라인 RL 방법론은 희소 보상을 갖는 수백 스텝의 긴 작업에서 효과적으로 학습하지 못했습니다. 이는 액션 청크가 없는 경우 task horizon이 너무 길어 가치 함수 업데이트가 비효율적이기 때문입니다.
- DAgger 및 DSRL은 RLT와 유사한 성공률을 달성했지만 속도 향상은 훨씬 적었습니다. DSRL은 정책을 기본 VLA에 가깝게 강하게 제약하여 안정적인 훈련을 제공하지만 개선 잠재력은 제한적입니다.
- RLT는 기본 정책의 높은 성공률을 유지하면서 평균 완료 스텝 수를 2배 줄여 높은 처리량을 달성했습니다.
Q3: 각 구성 요소의 기여도:
- RL token, 액션 청크, BC (Behavioral Cloning) Regularizer, Reference-action pass-through의 네 가지 설계 선택 모두가 의미 있게 기여했습니다.
- RL token을 ImageNet 사전 학습된 ResNet-10 인코더로 대체하면 처리량이 50% 감소했습니다.
- 청크 (C=10) 대신 단일 스텝 액션을 사용하면 효과적인 horizon이 극적으로 증가하여 기본 정책 성능을 신뢰할 수 있게 맞추지 못했습니다.
- BC Regularizer (\beta=0)를 제거하는 것은 가장 큰 성능 저하를 초래했습니다.
- Reference-action pass-through를 제거하면 학습이 느려지고, 초기 탐색 이탈이 발생하며, 때때로 퇴행적 행동으로 이어졌습니다. 이는 결국 RLT의 성능과 일치할 수 있지만, 훈련 과정에서 더 많은 실패를 겪었습니다.
Q4: 새로운 효과적인 전략 발견:
- 이더넷 작업에서 RLT는 텔레오퍼레이션 데모나 기본 VLA 모델보다 훨씬 빠른 속도를 보여주었습니다.
- 기본 VLA가 접촉 근처에서 ‘탐색’ 행동을 자주 보인 반면, RLT는 포트에 접근하여 유동적인 움직임으로 커넥터를 삽입했습니다. 첫 시도에 실패하더라도 압력을 가하고 커넥터를 약간 흔들어 유연성을 활용하여 더 빠른 삽입을 가능하게 했습니다. 이 행동은 데모 데이터에서 볼 수 없었으며, 순전히 온라인 탐색을 통해 나타났습니다. 이는 RLT가 인간의 전략을 모방하는 것을 넘어설 수 있음을 보여줍니다.

3. 결론 (Conclusion)

RLT는 대규모 사전 학습된 VLA에서 추출한 표현을 기반으로 하는 빠르고 효율적인 온라인 RL 방법입니다. 이 방법은 VLA가 압축된 표현을 노출하도록 훈련함으로써, 경량 액터와 크리틱이 몇 시간의 실제 로봇 연습만으로도 매우 정밀하고 섬세한 작업을 개선할 수 있도록 합니다. RLT는 모든 작업에서 성공률과 실행 속도를 지속적으로 개선했으며, 가장 어려운 단계에서 최대 3배의 속도 향상을 달성하고, 일부 경우에는 온라인 RL에서 나타나는 전략을 통해 전문가 인간 텔레오퍼레이션 속도를 능가했습니다.

RLT는 빠른 학습을 제공하지만, 훈련 중 보상 신호, 개입 수정, RL과 기본 정책 간 전환 등 추가적인 인간 개입이 필요합니다. 향후 연구 방향으로는 보상 모델 및 진행 예측을 사용하여 이러한 구성 요소를 자동화하는 것이 제안됩니다. 이 연구는 로봇 시스템이 데모 데이터로부터 학습할 뿐만 아니라, 현장에서 직접 개선될 수 있도록 하는 중요한 진전이며, 사전 학습이 초기화 역할을 하고 실제 성능은 RL을 통해 발견될 수 있다는 가능성을 제시합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한 줄 요약 (TL;DR)

π₀.6 같은 거대한 VLA는 그대로 얼린 채, “RL token”이라는 작은 창문 하나만 학습 가능하게 열어두고, 그 위에 가벼운 actor-critic을 올려 몇 시간(때로는 몇 분) 만에 정밀 manipulation을 다듬는다. Ethernet 삽입에서는 사람보다도 빠른 정책이 나왔다.

Note

핵심 기여 4가지

VLA 내부 표현을 한 토큰(1 × 2048)으로 압축하는 encoder–decoder bottleneck (RL token)
Action chunk 단위로 작동하는 off-policy actor-critic — sparse reward 하의 credit assignment 문제 완화
VLA 참조 행동에 conditioning + BC regularization — 탐색 공간을 “지역 편집”으로 축소
참조 행동을 베끼기만 하는 실패 모드를 막는 reference action dropout

들어가며: 마지막 1 mm의 문제

VLA(π₀, π₀.6, OpenVLA, Gemini Robotics 등)는 한마디로 “수만 시간의 인간 demo를 본 일반론자”다. 빨래 개기, 식기 정리, 박스 조립 같은 long-horizon 과제를 그럭저럭 해낸다. 그런데 우리 로봇공학자가 일상적으로 부딪히는 벽은 다른 데 있다. 나사 머리가 드라이버 비트와 정확히 맞물리는 0.5 mm 영역, 이더넷 커넥터를 포트에 정확한 각도로 밀어 넣는 마지막 한 순간. 이 “마지막 1 mm”에서 VLA는 흔히 다음과 같이 행동한다:

천천히 접근한다 → 살짝 빗나가면 후퇴한다 → 다시 접근한다 → 또 빗나간다 → 뒤로 뺀다 → …

이걸 논문에서는 probing behavior라고 부른다. 사람의 demo가 그 영역에서 일관되지 않기 때문에 VLA가 평균을 내면 어정쩡한 동작이 나오는 것이다. demo를 더 모은다고 해결되는 문제가 아니다 — 그 영역 자체가 demo로 잘 안 잡히는 영역이기 때문이다.

이 지점에서 RL이 자연스럽게 떠오른다. 실제로 task를 시도하면서 강화학습으로 다듬으면 된다. 그런데 여기서 두 가지 흐름이 충돌한다:

VLA를 통째로 RL로 fine-tune하기 (예: RECAP, SimpleVLA-RL): 표현력은 살아 있지만 데이터/연산이 막대하다. 실시간 로봇 학습 budget에서 비현실적이다.
작은 정책을 처음부터 RL로 학습 (예: HIL-SERL, RL100): 몇 시간 안에 학습이 끝나지만, VLA가 가진 대규모 prior를 통째로 버린다.

RLT는 이 둘 사이의 깔끔한 절충점을 노린다.

flowchart LR
    A["거대 VLA<br>모든 파라미터 RL<br/>(RECAP 등)"] -->|"느림, 데이터 막대"| C
    B["작은 정책<br>scratch에서 RL<br/>(HIL-SERL)"] -->|"VLA prior 손실"| C
    C{"RLT의 자리"}
    C --> D["VLA freeze<br/>+ RL token<br/>+ 작은 actor-critic"]
    D --> E["몇 시간 ~ 몇 분<br/>VLA 지식 보존"]

배경: 왜 VLA만으로는 부족한가

먼저 VLA의 구조를 짚고 가자. π₀.6는 두 부분으로 구성된다:

구성 요소	역할	파라미터
VLM backbone (SigLIP + Gemma)	이미지 4장 + 자연어 + proprioceptive state를 token sequence로 인코딩	~4.4 B
Action expert	backbone token에 attention하며 diffusion으로 action chunk 생성	~860 M

50 Hz 제어, H = 50 step (약 1초)의 action chunk를 한 번에 뽑고, 보통 앞쪽 20 step만 open-loop로 실행한 뒤 다시 관측해서 re-plan하는 방식이다. 14차원 action × 50 step = 700차원 chunk가 한 번의 출력 단위가 된다.

이 거대한 모델 위에서 RL을 돌릴 때 부딪히는 본질적 어려움은 두 가지다:

Warning

문제 1: 표현 차원 폭발
Transformer 마지막 layer에서 N개 토큰 × 2048 차원 embedding이 쏟아져 나온다. 이걸 그대로 critic에 넣으면 small-data regime에서 학습이 안 된다.

문제 2: 긴 horizon × sparse reward
50 Hz × 5–20 초 critical phase = 250 ~ 1000 step. binary success/failure 한 번. TD learning으로 이 신호를 처음 step까지 propagation시키는 데 필요한 sample이 너무 많다.

RLT의 두 핵심 디자인은 정확히 이 두 문제에 대응한다.

핵심 아이디어: RL Token이라는 작은 창문

직관: bottleneck으로서의 readout token

VLA 내부에는 task에 필요한 정보가 이미 충분히 들어 있다. 문제는 어디에 있는지 모른다는 점이다. 어떤 layer의 어떤 토큰이 “지금 나사가 비뚤어져 있다”는 사실을 인코딩하고 있는지 알 길이 없다.

저자들의 답은 단순하지만 효과적이다 — VLA에게 “한 토큰으로 요약해 봐”라고 시킨다. 마치 BERT의 [CLS] 토큰처럼, 학습 가능한 special embedding <rl>을 입력 시퀀스 끝에 붙이고, 작은 transformer로 압축하게 만든다. 그런데 그냥 압축하면 어디로 수렴할지 모르니까, decoder가 원래 token sequence를 reconstruct할 수 있도록 강제한다.

Input tokens:    [z_1, z_2, ..., z_M, e_rl]
                              |
                         encoder g_phi
                              |
                              v
Output at last position:  z_rl  (1 x 2048)  <-- this is the RL token
                              |
                         decoder d_phi
                              |
                              v
Reconstruct:     [z_1, z_2, ..., z_M]   (autoregressive)

핵심 트릭: VLA의 원본 embedding z_i에는 stop-gradient를 걸어서 디코더가 reconstruct하는 동안 VLA 자체는 흔들리지 않게 한다. encoder와 decoder (\phi)만 학습된다.

수식으로 보면

VLA가 뽑은 token embedding을 z_{1:M}, 학습 가능한 special embedding을 e_{rl}이라 하자. RL token은:

z_{rl} = g_\phi\big([z_{1:M}, e_{rl}]\big)_{M+1}

reconstruction loss는:

\mathcal{L}_{ro} = \mathbb{E}_\mathcal{D}\Bigg[\sum_{i=1}^M \big\| h_\phi\big(d_\phi([z_{rl}, \bar{z}_{1:i-1}])\big) - \bar{z}_i \big\|^2 \Bigg]

여기서 \bar{z}_i = \text{sg}(z_i)는 stop-gradient. 이 loss로 (\phi, optionally \theta_{vla})를 학습하고, 이후엔 모두 freeze한다.

왜 이 게 잘 작동하는가 (직관)

이걸 다음과 같이 생각하면 편하다. VLA의 layer 출력은 책 한 권 분량의 도서관이다. 그 안 어딘가에 “지금 상황은 이렇고, 어떻게 움직이면 된다”는 답이 적혀 있긴 한데, 어느 책 어느 페이지인지 모른다. RL token은 “이 도서관 전체를 다시 복원할 수 있는 가장 작은 요약본”을 만들도록 학습된다. 그 요약은 자연스럽게 task에 관련된 정보를 우선순위로 담게 된다 — reconstruction이 안 되는 정보는 들어 있지 않은 셈이고, reconstruction에 본질적인 정보는 살아남기 때문이다.

ablation에서 이 RL token을 단순한 ImageNet-pretrained ResNet-10으로 교체하면 throughput이 절반으로 줄어든다. 표준 vision encoder로는 manipulation에 필요한 manipulation-specific structure를 못 잡는다는 뜻이다.

알고리즘: RL Token 위에서 학습하는 작은 actor-critic

이제 RL token이 준비됐다고 치자. 이 위에서 무엇을 학습할까?

전체 구조

flowchart TB
    subgraph FROZEN["FROZEN VLA (π0.6)"]
        VLM["VLM backbone<br/>SigLIP + Gemma"]
        AE["Action expert<br/>diffusion"]
        ENC["RL token encoder"]
    end
    
    OBS["관측<br/>이미지 + 언어 + s_p"] --> VLM
    VLM --> ENC
    VLM --> AE
    AE --> AREF["참조 action chunk<br/>ã_1:C"]
    ENC --> ZRL["RL token z_rl"]
    
    ZRL --> ACTOR
    AREF --> ACTOR["Actor π_θ<br/>(소형 MLP)"]
    SP["proprio s_p"] --> ACTOR
    ZRL --> CRITIC["Critic Q_ψ<br/>(소형 MLP)"]
    SP --> CRITIC
    
    ACTOR --> A["실행 action<br/>a_1:C"]
    A --> CRITIC
    
    style FROZEN fill:#e0e0e0
    style ACTOR fill:#ffe0b3
    style CRITIC fill:#b3d9ff

학습되는 부분은 주황(actor)과 파랑(critic)뿐이다. 회색은 모두 freeze.

MDP 정의: chunk 단위로 묶기

표준 MDP (S, A, p, r, \gamma)이지만, action 공간은 chunk 단위다:

a_{t:t+C-1} = (a_t, \dots, a_{t+C-1}) \in \mathbb{R}^{C \times d}

논문에서 C = 10, d = 14 → chunk 한 개 = 140차원. VLA가 뽑는 chunk 길이 H = 50보다 짧게 잡는다 (C < H). 이렇게 하면 재계획 빈도가 높아져 reactive해진다.

Chunk 단위 Q-function은:

Q^\pi(s_t, a_{t:t+C-1}) = \sum_{t'=t}^{t+C-1} \gamma^{t'-t} r_{t'} + \gamma^C \mathbb{E}_{a' \sim \pi}\big[Q^\pi(s_{t+C}, a')\big]

Tip

왜 chunking이 RL에 그렇게 중요한가?

50 Hz × 1000 step = 1000번의 TD backup이 필요하다. sparse reward 하나가 처음까지 propagate되려면 그만큼의 update가 필요한데, 이는 단순 산수로도 끔찍한 양이다. C = 10이면 effective horizon이 1000 → 100으로 10배 짧아진다. 이건 단순한 최적화 트릭이 아니라 sparse-reward RL의 근본적인 credit assignment 문제를 푸는 핵심 장치다.

ablation 결과에서 single-step 변형(w/o Chunk)은 사실상 학습이 안 됐다 (아래 그림 참조).

Critic 학습: 표준 TD3 스타일

\mathcal{L}_Q = \mathbb{E}_{(x, a_{1:C}, x') \sim \mathcal{B}}\Big[\big(\hat{Q} - Q_\psi(x, a_{1:C})\big)^2\Big]

\hat{Q} = \sum_{t'=1}^C \gamma^{t'-1} r_{t'} + \gamma^C \mathbb{E}_{a' \sim \pi_\theta}\big[Q_{\psi'}(x', a')\big]

여기서 x = (z_{rl}, s^p), 즉 RL token + proprioceptive state. TD3처럼 두 개의 Q 네트워크 ensemble을 쓰고 target value 계산 시 minimum을 취한다(overestimation 방지).

Actor 학습: 참조 행동 조건부 + BC regularizer

여기가 RLT의 또 다른 핵심이다. 그냥 RL 정책을 학습하는 게 아니라, VLA가 제안한 reference action chunk \tilde{a}_{1:C}를 입력으로 받고, 거기서 가까운 곳을 탐색하게 한다.

\pi_\theta(a_{1:C} \mid x, \tilde{a}_{1:C}) = \mathcal{N}\big(\mu_\theta(x, \tilde{a}_{1:C}), \sigma^2 I\big)

학습 objective는:

\mathcal{L}_\pi(\theta) = \mathbb{E}_{\substack{s \sim \mathcal{B} \\ a_{1:C} \sim \pi_\theta}}\Big[ -Q_\psi(x, a_{1:C}) + \beta \, \|a_{1:C} - \tilde{a}_{1:C}\|_2^2 \Big], \quad \tilde{a}_{1:C} \sim \pi_{vla}(\cdot \mid s, \ell)

두 항의 의미:

첫 항 -Q_\psi: critic이 좋다고 평가하는 행동을 향해 가라.
둘째 항 \beta \|a - \tilde{a}\|^2: 그러면서도 VLA의 제안에서 너무 멀어지지 마라.

이 둘을 합하면 “VLA가 추천한 행동의 근방에서 critic이 가리키는 방향으로 살짝 다듬어라”가 된다. 논문은 이걸 local action editing이라고 표현한다. KL-regularized RL과 정신적으로 같은 계열이다(MPO, Peng et al. 등).

Important

왜 residual이 아니라 absolute로 출력하는가?

PLD나 Policy Decorator 같은 기존 방법은 residual을 학습한다 — VLA 출력에 더할 작은 보정값. RLT는 absolute action을 직접 출력하되 conditioning + regularization으로 묶는 방식이다.

이 차이가 미묘하지만 중요하다:

residual은 hand-tuned scaling factor가 필요하다 (얼마나 강하게 보정할지).
absolute + regularization은 \beta 하나만 조정하면 되고, 무엇보다 \beta = 0이면 unconstrained RL, \beta \to \infty면 imitation으로 자연스러운 spectrum이 된다.
또 한 가지: VLA의 multimodal action distribution에서 하나의 mode를 sampling으로 뽑은 뒤 그 mode 근방에서 다듬게 된다. unimodal Gaussian actor가 multimodal demo를 직접 흉내내려 할 때의 모드 평균화 문제가 사라진다.

Reference action dropout: 베끼기 방지 장치

여기서 한 가지 함정이 있다. Actor가 reference \tilde{a}를 입력으로 받고 거기로부터 너무 멀어지지 말라고 regularize되면, 그냥 \tilde{a}를 그대로 출력하는 게 가장 손쉬운 답이 된다. 특히 학습 초기에 critic이 아직 informative하지 않을 때 이런 collapse가 잘 일어난다.

해결책은 단순하다. 각 batch에서 무작위로 절반의 transition에 대해 \tilde{a}를 0으로 마스킹한다. 그러면 actor는 reference 없이도 행동을 만들어낼 수 있는 독립적인 경로를 유지해야 한다. 추론 시에는 항상 reference를 제공한다.

이런 사소해 보이는 장치가 의외로 큰 차이를 만든다. ablation의 w/o Pass-Through(reference를 actor에서 아예 뺀 경우)는 결국 비슷한 최종 성능에 도달은 하지만, 학습 과정에서 훨씬 많은 실패를 겪는다.

시스템: 데이터 수집부터 정책 업데이트까지

의사코드로 보는 전체 흐름

# Stage 1: VLA & RL token 적응 (offline, 작은 demo dataset)
Train phi (and optionally theta_vla) with reconstruction loss L_ro

# Stage 2: Online RL
Initialize critic Q_psi, actor pi_theta from scratch
Pre-fill replay buffer B with N_warm steps of VLA rollouts

for environment_step t = 0, C, 2C, ...:
    sample reference chunk a_tilde from VLA
    form RL state x = (z_rl(s), s_p)
    
    if human_intervenes:
        a = a_human
    elif t < N_warm:
        a = a_tilde
    else:
        a ~ pi_theta(. | x, a_tilde)
    
    execute a; observe r, s', s_p'
    if intervention: a_tilde <- a_human   # log corrected reference
    push <x, a, a_tilde, r, x'> into B
    
    # G updates per environment step (UTD ratio = 5)
    for g = 1..G:
        sample batch from B
        update Q_psi via TD backup           (Eq. 3)
        update pi_theta via Q + BC loss      (Eq. 5)

작동 원리에서 눈여겨볼 디테일들

1. Update-to-data ratio = 5
환경 step 한 번마다 critic update를 5번 한다. small-data regime에서 sample efficiency를 짜내기 위한 표준 트릭이지만, value divergence 위험이 있어 ensemble과 BC reg가 안전장치 역할을 한다.

2. Action chunk subsampling (stride = 2)
chunk가 C step 단위지만, 실제로는 stride 2로 샘플을 만든다 — <x_0, a_{0:C}>, <x_2, a_{2:C+2}>, <x_4, a_{4:C+4}>, … 이런 식이다. off-policy니까 가능하고, 데이터 효율을 한 번 더 부스트한다.

3. Critical phase 집중 학습
RL이 정말 차이를 만드는 건 어려운 단계뿐이다. 그래서 episode를 base VLA로 시작하고, 사람이 critical phase에 진입하는 시점에 RL 정책으로 핸드오프한다 (interactive imitation learning과 비슷한 컨셉). 학습이 끝나면 마지막에 VLA를 짧게 fine-tune해서 언제 핸드오프할지를 자동으로 예측하게 만든다 — test time에는 사람 개입이 필요 없게.

4. Human-in-the-loop
필요할 때 teleoperation으로 개입할 수 있고, 그 corrected action도 buffer에 쌓인다. HIL-SERL의 디자인을 그대로 차용했다.

flowchart LR
    Start["에피소드 시작"] --> BaseVLA["base VLA로<br/>전반부 수행"]
    BaseVLA --> Trigger{"critical phase<br/>도달?"}
    Trigger -->|"학습 시: 사람 신호"| RL["RL 정책으로<br/>핸드오프"]
    Trigger -->|"테스트 시: VLA의 자체 예측"| RL
    RL --> Inter{"intervention<br/>필요?"}
    Inter -->|"네"| Tele["teleop으로 보정<br/>a_human"]
    Inter -->|"아니오"| Auto["actor 출력 실행"]
    Tele --> End["성공/실패<br/>sparse reward"]
    Auto --> End

실험: 4가지 정밀 manipulation task

Task 구성

Task	핵심 어려움	critical phase 지속시간
Screw installation	M3 나사를 sub-mm 정밀도로 정렬, 10 cm grip-tip 거리 때문에 회전 오차 증폭	5–20 s
Zip tie fastening	변형체 타이를 좁은 슬롯에 통과 (bimanual)	5–20 s
Ethernet insertion	정확한 각도 + 단호한 삽입 동작	5–20 s
Charger insertion	콘센트 정렬, 작은 오차도 반복 probing 유발	5–20 s

전체 task는 30–120 s, 50 Hz 제어니까 1500–6000 step. critical phase만 따로 떼면 250–1000 step 수준이다.

Q1: VLA baseline 대비 RLT가 정말 좋아지는가

답은 명확하게 “예”. critical-phase setting과 full-task setting 모두에서 success rate와 throughput(10분당 성공 횟수)이 크게 오른다.

Throughput 개선 (ASCII 차트, critical phase):

                Base VLA   RLT (Ours)
Screwdriver:    ~5         ~15        (3x)
Zip tie:        ~3         ~14        (~5x)
Ethernet:      ~150       ~400       (~3x)
Charger:       ~200       ~600       (~3x)

Full-task에서는 grasping 등 앞 단계 누적 오차 때문에 절대 성공률은 낮지만, screwdriver는 +40%p, zip tie는 +60%p의 개선이 보인다. 특히 어려운 screwdriver의 경우 critical phase 성공률이 20% → 65%로 점프한다.

Q2: 다른 RL 방법들과 비교하면

가장 도전적인 비교 대상들:

방법	핵심	Ethernet 결과
HIL-SERL	VLA 없이 ResNet + actor-critic	사실상 학습 실패 (50 Hz, action box 없음)
PLD (Probe-Learn-Distill)	single-step residual policy	학습 실패 (긴 horizon × sparse reward)
DSRL	diffusion noise space에서 RL	success rate는 비슷하나 throughput 크게 부족
DAgger	intervention data로 supervised fine-tuning	success rate 비슷하나 demo 속도 한계
RLT (ours)	RL token + chunked actor-critic + BC reg	성공률 유지 + 2× 빠른 평균 step

가장 의미 있는 발견: single-step 방법들(HIL-SERL, PLD)이 처참하게 실패한 것은 우연이 아니다. 50 Hz × 수백 step × sparse reward 조합에서는 chunking 없이는 TD가 작동하지 않는다.

Q3: 각 component가 정말 필요한가 (Ablation)

논문 Fig. 7, 8의 결과를 정리하면:

제거 항목	효과
RL token → ResNet-10	throughput 50% 감소
Action chunk → single-step	학습 자체가 어려움, base 정책 따라잡기도 힘듦
BC regularizer (\beta = 0)	가장 큰 성능 하락 — Q-gradient만으로는 행동 공간 탐색이 너무 넓음
Reference pass-through	최종 성능은 비슷하게 도달, 그러나 학습 중 실패가 훨씬 많음

Note

가장 의외였던 결과: w/o BC Regularizer가 가장 큰 성능 손실을 만든다. 이건 곧 “RL을 VLA 행동의 근처에 가두는 것”이 단순한 안전장치가 아니라 학습 효율의 핵심이라는 뜻이다. Unconstrained RL은 140차원 chunk 공간에서 길을 잃는다.

Q4: 정성적 발견 — 새로운 전략의 출현

이 부분이 개인적으로 가장 흥미로웠다. Ethernet task에서 base VLA, teleop demo, RLT 정책의 episode 길이 분포를 비교하면:

Episode length (timesteps) - Ethernet critical phase
  0     50    100   150   200   250   300   350   400
  +-----+-----+-----+-----+-----+-----+-----+-----+
                          *  Teleop median = 146
                                  *  Base policy median = 228
            *  RLT median = 66
  +-----+-----+-----+-----+-----+-----+-----+-----+

RLT episode의 절반이, 가장 빠른 사람 demo보다도 빠르다. 정책이 발견한 새로운 전략은 다음과 같다:

Base VLA: 접근 → 살짝 후퇴 → 재정렬 → 재시도 (probing)
Teleop: 한 번에 부드럽게 삽입
RLT: 유체적 접근 + 첫 시도 실패 시 살짝 흔들면서(wiggle) compliance를 활용

이 wiggle 전략은 demo data에 없다. 순전히 online exploration에서 emergent하게 나온 거다. 이건 imitation의 ceiling을 RL이 깬 명백한 증거이고, RECAP, RL100 등이 보여준 패턴과 일관된다 — 단, 훨씬 가벼운 학습 budget으로.

비판적 고찰

강점

1. 개념적 단순함과 명료함. 디자인 선택 하나하나가 명확한 이유로 정당화된다. RL token은 표현 압축, chunking은 credit assignment, BC reg는 탐색 제약, dropout은 collapse 방지. 군더더기가 없다.

2. Sample efficiency. “몇 시간”은 robotics 기준으로 진짜 짧다. 특히 5 minutes만에 baseline을 추월하는 ablation 결과는 강렬하다.

3. 사람보다 빠른 정책. Ethernet 결과는 단순히 “사람만큼 잘한다”가 아니라 “사람보다 빠르다 + 신뢰성 유지”의 영역이다. 산업적 의미가 크다.

4. 모듈성. VLA를 freeze한다는 건 여러 task별로 RL token + actor-critic만 따로 학습할 수 있다는 뜻이다. base model을 망치지 않고 task-specific 개선을 누적할 수 있다.

한계와 의문점

1. 사람이 여전히 많이 필요하다. 논문도 인정하듯, 이 시스템은 (a) sparse reward labeling, (b) intervention 제공, (c) RL/base 핸드오프 시점 결정에 사람 손이 들어간다. “automated reward model + progress prediction”으로 자동화 가능하다고 future work으로 언급은 했지만, 실제 현장 배포까지는 거리가 있다.

2. RL token 학습의 demo 의존성. Reconstruction objective는 VLA가 본 demo distribution 위에서 학습된다. 만약 RL이 distribution을 크게 벗어나는 행동(예: wiggle)을 발견하면, 그 새로운 상태에서 RL token이 여전히 informative한지는 보장되지 않는다. ablation에서 w/o RL Token이 학습이 되긴 하니까 catastrophic은 아니지만, OOD 강건성은 명시적으로 측정되지 않았다.

3. Critical phase가 짧은 task에 한정된 평가. 5–20 초의 critical phase는 manipulation 기준으로는 짧은 편이다. 분 단위 critical phase(예: 정밀 해체, 길이 있는 조립)에서도 chunked TD가 작동할지는 미지수다. C를 늘리면 chunk 차원이 그만큼 커져서 actor 학습이 다시 어려워진다.

4. \pi_{0.6} specific한 디자인. RL token encoder가 transformer의 final-layer embedding을 받는다. flow-based VLA(예: \pi_0, \pi_{0.5})에 직접 적용 가능한지, 또는 GR00T처럼 다른 backbone에서도 동작할지는 검증이 필요하다.

5. β 하이퍼파라미터. BC regularizer 강도 \beta는 task별 튜닝이 필요해 보인다(논문에 명확한 자동 조정 schema는 없음). 너무 크면 VLA 베끼기로 collapse, 너무 작으면 unconstrained RL의 함정. KL-budget을 자동 조정하는 MPO 류의 기법을 결합할 여지가 있어 보인다.

6. RL token을 “왜” 쓰는가에 대한 더 깊은 분석 부재. RL token이 ResNet보다 좋다는 건 보였지만, VLA의 어느 layer를 쓰는 게 최적인지, RL token 차원을 더 줄이거나 늘리면 어떻게 되는지, multi-token bottleneck은 안 되는지 등의 ablation이 빠져 있다. 디자인 공간이 더 풍부할 가능성이 있다.

로봇공학자가 이 논문에서 가져갈 통찰

이건 단순한 paper review를 넘어서, 실제로 dexterous manipulation을 하는 우리에게 무엇이 유용한지의 정리다.

1. “Bottleneck token”은 일반적인 도구다.
RL token 아이디어는 사실 VLA에 한정되지 않는다. 거대한 multi-modal 모델 위에 작은 downstream task를 올릴 때, encoder–decoder reconstruction으로 얻은 single readout은 좋은 출발점이 될 수 있다. tactile-conditioned policy, sim-to-real residual learning 등에서도 시도해볼 가치가 있다.

2. RL과 chunking은 떼어놓고 설계하면 안 된다.
Action chunk는 더 이상 단순히 “BC에서 재계획 빈도 줄이는 트릭”이 아니다. sparse reward 하에서 RL이 작동하기 위한 필수 구조다. 직접 50 Hz 단위 RL을 시도해본 사람이라면 이 차이가 얼마나 큰지 안다.

3. “VLA의 prior를 어떻게 보존하면서 그 위에서 학습하는가”가 핵심 질문이다.
이 논문의 답은 (a) freeze, (b) reference conditioning, (c) BC regularization. 이건 우리가 Allegro Hand같은 플랫폼에서 기존 RL pipeline을 VLA-augmented로 옮길 때 유용한 템플릿이다.

4. “Last millimeter”는 진짜로 RL이 빛나는 영역이다.
“전반부 VLA + 후반부 RL” 구조는 실용적으로 매우 매력적이다. 우리가 contact-rich 정밀 manipulation을 다룰 때, 전체 task를 RL로 학습할 필요는 없다 — 가장 어려운 phase에만 집중하는 게 sample efficiency 측면에서 압도적이다.

5. Wiggle 같은 emergent strategy는 demo data로는 절대 못 얻는다.
이건 imitation learning만으로는 가닿을 수 없는 영역이 있다는 명백한 증거다. compliance를 능동적으로 활용하는 정책은 sim-to-real에서 특히 의미가 크다 — Isaac Lab의 contact model 정확도와 직결된다.

마무리

RLT는 “거대 VLA + 작은 RL 모듈”이라는 익숙한 그림을 가장 깔끔한 방식으로 풀어낸 논문이다. 화려한 새 알고리즘은 아니다. RL token bottleneck, chunked TD, BC-regularized actor-critic — 각각은 모두 기존에 있던 아이디어다. 하지만 이걸 한 시스템으로 묶는 디자인이 명료하고 결과가 강렬하다는 점이 이 논문의 가치다.

특히 나는 두 가지 메시지가 우리 분야에 오래 남을 거라고 본다:

VLA는 freeze해도 충분하다 — 그 위에 작은 RL을 잘 올리면 된다. Full fine-tuning이 항상 답은 아니다.
사람보다 빠른 정책은 더 이상 sim 안의 환상이 아니다. Real robot에서, 몇 시간의 데이터로, 일반적 VLA 위에서 가능하다는 것이 입증됐다.

Allegro Hand 같은 dexterous platform에서 정밀 in-hand reorientation, peg-in-hole, tool-use 같은 과제를 풀 때, RLT의 디자인은 거의 그대로 차용 가능한 템플릿이다. tactile sensing(DIGIT, GelSight 등)을 RL token의 입력에 추가하는 확장도 자연스럽다. 다음 단계로는 (a) reward model 자동화, (b) RL/base 핸드오프의 완전 자동화, (c) 다양한 VLA backbone에서의 portability 검증이 가장 흥미로운 후속 연구 방향일 것이다.

Tip

한 줄로 정리하자면:
VLA의 거대한 사전지식을 작은 토큰 하나로 응축하고, 그 위에 가벼운 actor-critic으로 정밀함만 다듬는다. 결과적으로 사람보다 빠른, 그리고 사람의 demo로는 불가능한 행동이 emergent하게 나온다. 로봇공학에서 “작게 학습해서 크게 활용한다”의 모범 사례.

Reference
Xu et al., RL Token: Bootstrapping Online RL with Vision-Language-Action Models, Physical Intelligence, 2025. pi.website/research/rlt