flowchart LR
A["๊ฑฐ๋ VLA<br>๋ชจ๋ ํ๋ผ๋ฏธํฐ RL<br/>(RECAP ๋ฑ)"] -->|"๋๋ฆผ, ๋ฐ์ดํฐ ๋ง๋"| C
B["์์ ์ ์ฑ
<br>scratch์์ RL<br/>(HIL-SERL)"] -->|"VLA prior ์์ค"| C
C{"RLT์ ์๋ฆฌ"}
C --> D["VLA freeze<br/>+ RL token<br/>+ ์์ actor-critic"]
D --> E["๋ช ์๊ฐ ~ ๋ช ๋ถ<br/>VLA ์ง์ ๋ณด์กด"]
๐RL Token
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ Vision-Language-Action(VLA) ๋ชจ๋ธ์ ์จ๋ผ์ธ ๊ฐํ ํ์ต(RL) ๋ฏธ์ธ ์กฐ์ ์ ์ํด, VLA์ ๋ด๋ถ ํน์ง์ ์์ถํ์ฌ โRL tokenโ์ด๋ผ๋ ํจ์จ์ ์ธ ํํ์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๐ RL token์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ๊ฒฝ๋ ์กํฐ-ํฌ๋ฆฌํฑ ๋คํธ์ํฌ๋ VLA์ ์ด๊ธฐ ํ๋์ ๊ฐ์ ํ๊ณ ์ ๊ทํํ์ฌ, ๋ช ์๊ฐ ๋๋ ๋ช ๋ถ์ ๋ก๋ด ๊ฒฝํ๋ง์ผ๋ก๋ ์ํ ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- โก๏ธ ์ค์ ๋ก๋ด ์์ ์์ RLT(RL with RL token)๋ ์ ๋ฐํ ์์ ์ ์ฑ๊ณต๋ฅ ๊ณผ ์คํ ์๋๋ฅผ ์ต๋ 3๋ฐฐ๊น์ง ํฅ์์ํค๋ฉฐ, ์ผ๋ถ ์์ ์์๋ ์ ๋ฌธ๊ฐ์ ์๊ฒฉ ์กฐ์ ์๋๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ค์ ๋ก๋ด ์์ ์ ์ ๋ฐํ๊ณ ๋น ๋ฅด๊ฒ ์ ์ฉํ๊ธฐ ์ํ ํจ์จ์ ์ธ ์จ๋ผ์ธ ๊ฐํ ํ์ต (RL) ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ์ธ RLT(RL Token)๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ๋ค์ํ ์กฐ์ ์คํฌ์ ํ์ตํ ์ ์์ง๋ง, ์ค์ ํ๊ฒฝ์์ ์๊ตฌ๋๋ ๋ฐ๋ฆฌ๋ฏธํฐ ๋จ์์ ์ ๋ฐ๋์ ์๋๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. RL์ ์ด๋ฌํ ์ ๋ฐ ์์ ์ ๊ฐ์ ํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋๊ท๋ชจ VLA ๋ชจ๋ธ์ RL๋ก ์ง์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ฒ์ ๊ณ์ฐ ๋ฐ ์ํ ํจ์จ์ฑ ์ธก๋ฉด์์ ๋น์ค์ฉ์ ์ ๋๋ค. RLT๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด VLA์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ฉํ๋ฉด์๋ ๊ฐ๋ฒผ์ด ์จ๋ผ์ธ RL์ ์ํ ํจ์จ์ฑ์ ๋ฌ์ฑํฉ๋๋ค.
1. ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
RLT์ ํต์ฌ ์์ด๋์ด๋ VLA ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ง์์ ์ต๋ํ ํ์ฉํ์ฌ RL ํ๋ จ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ๋ค์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
A. RL Token ๋ ธ์ถ์ ์ํ VLA ์ ์ (Adapting the VLA to expose an RL interface)
์ํ ํจ์จ์ ์ธ ์จ๋ผ์ธ RL์ ํจ๊ณผ์ ์ธ ์ํ ํํ์ ํฌ๊ฒ ์์กดํฉ๋๋ค. VLA ๋ชจ๋ธ์ ๋ด๋ถ ํน์ง์ ๊ณ ์ฐจ์์ ์ด๋ฉฐ, ์จ๋ผ์ธ ์ ๋ฐ์ดํธ๋ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. RLT๋ VLA๊ฐ ์ฌ์ ํ์ต๋ ์ง์์ ๋ณด์กดํ๋ฉด์๋ RL์ ์ ํฉํ ์๊ณ ํจ์จ์ ์ธ ํํ์ ์ ๊ณตํ๋๋ก โRL tokenโ์ ๋์ ํฉ๋๋ค.
- VLA ๋ฏธ์ธ ์กฐ์ ๋ฐ RL Token ํ์ต:
- ๋จผ์ , ์๋์ task-specific demonstration ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ VLA ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์ด๋ VLA์ ์ด๊ธฐ task policy๋ฅผ ๊ฐ์ ํ๊ณ , ๋์์ RL token ํ์ต์ ์ํ ๊ธฐ๋ฐ์ ๋ง๋ จํฉ๋๋ค.
- VLA์ ์ต์ข ๋ ์ด์ด ํ ํฐ ์๋ฒ ๋ฉ z = f(s, \ell; \theta_{\text{vla}}) (์ํ s์ ์ธ์ด ์ง์ \ell์ ๋ํ VLA์ ์ถ๋ ฅ)๋ฅผ ํ์ฉํฉ๋๋ค.
- ํ์ต๋ ์๋ฒ ๋ฉ e_{\text{rl}} = e_\phi(\text{<rl>})์ ํ ํฐ ์ํ์ค์ ์ถ๊ฐํ๊ณ , ๊ฒฝ๋ ์ธ์ฝ๋ ํธ๋์คํฌ๋จธ g_\phi๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฅ๋ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
- ํน์ ํ ํฐ ์์น์์์ ์ธ์ฝ๋ ์ถ๋ ฅ, ์ฆ z_{\text{rl}} = g_\phi([z_{1:M}, e_{\text{rl}}])_{M+1}์ด RL token์ด ๋ฉ๋๋ค. ์ด z_{\text{rl}}์ VLA์ ์ง์์ ์์ฝํ๋ ์์ถ๋ ๋ฒกํฐ ์ญํ ์ ํฉ๋๋ค.
- ๋์ฝ๋ ํธ๋์คํฌ๋จธ d_\phi์ ์ ํ ์ถ๋ ฅ ํ๋ก์ ์ h_\phi๋ z_{\text{rl}}๋ก๋ถํฐ ์๋ณธ ์๋ฒ ๋ฉ์ ์ฌ๊ตฌ์ฑํ๋๋ก ์๊ธฐํ๊ท์ ์ผ๋ก ํ๋ จ๋ฉ๋๋ค. ์ฌ๊ตฌ์ฑ ๋ชฉ์ ํจ์๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ D์ ๋ํด ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{\text{ro}} = E_D \left[ \sum_{i=1}^M \left\| h_\phi d_\phi([z_{\text{rl}}, \bar{z}_{1:i-1}])_i - \bar{z}_i \right\|_2^2 \right] ์ฌ๊ธฐ์ \bar{z}_i = \text{sg}(z_i)๋ VLA ์๋ฒ ๋ฉ์ ์ ์ฉ๋ stop-gradient ์ฐ์ฐ์ ๋ํ๋ ๋๋ค.
- ์ด ํ๋ จ ํ, \theta_{\text{vla}} (VLA ๋ชจ๋ธ)์ \phi (RL token ๊ด๋ จ ๋งค๊ฐ๋ณ์)๋ ๊ณ ์ ๋๋ฉฐ, ์จ๋ผ์ธ RL์ ์ด z_{\text{rl}} ํํ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ํฉ๋๋ค.
B. VLA Action Chunks ์ ์ ๋ฅผ ์ํ ์จ๋ผ์ธ RL (Online RL to refine VLA action chunks)
RL token ํํ์ด ๊ณ ์ ๋ ํ, ๊ฒฝ๋ ์กํฐ(\pi_\theta) ๋ฐ ํฌ๋ฆฌํฑ(Q_\psi) ๋คํธ์ํฌ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ํ๋ จํฉ๋๋ค. ์ด๋ค ๋คํธ์ํฌ๋ RL token๊ณผ ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ ์ํ(proprioceptive state)๋ฅผ ๊ฒฐํฉํ ์ ๋ ฅ x๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ํฌ๋ฆฌํฑ ํ๋ จ (Training the critic):
- ํฌ๋ฆฌํฑ Q_\psi(x, a_{1:C})๋ ์ํ์ ์ก์ ์ฒญํฌ a_{1:C}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๊ฐ์น ํจ์๋ฅผ ์ถ์ ํฉ๋๋ค. ์ฌ๊ธฐ์ C๋ RL ์ฒญํฌ ๊ธธ์ด์ด๋ฉฐ, H๋ VLA๊ฐ ์์ธกํ๋ ์ฒญํฌ ํธ๋ผ์ด์ฆ์ ๋๋ค(C < H).
- ํ์ค ์คํ-์ ์ฑ ์๊ฐ์ฐจ(temporal-difference) ํ์ต์ ์ฌ์ฉํ์ฌ ๋ฆฌํ๋ ์ด ๋ฒํผ B์์ ์ํ๋ง๋ ์ก์ ์ฒญํฌ ์ ํ์ ๋ํด ํฌ๋ฆฌํฑ์ ํ๋ จํฉ๋๋ค. ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_Q = E_{(x,a_{1:C},x') \sim B} \left[ \left( \hat{Q} - Q_\psi(x, a_{1:C}) \right)^2 \right] ์ฌ๊ธฐ์ \hat{Q}๋ ํ๊ฒ Q ๊ฐ์ด๋ฉฐ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \hat{Q} = \sum_{t'=1}^C \gamma^{t'-1} r_{t'} + \gamma^C E_{a' \sim \pi_\theta} [Q_{\psi'}(x', a')] ์ฌ๊ธฐ์ x = (z_{\text{rl}}, s_p)์ด๊ณ s_p๋ ๊ณ ์ ์์ฉ์ฑ ์ํ์ ๋๋ค. TD3 [19]๋ฅผ ๋ฐ๋ผ \psi'๋ ํ๊ฒ ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์์ ๋๋ค.
- RL Policy ํ๋ จ (Training the RL Policy):
- ์กํฐ ๋คํธ์ํฌ \pi_\theta(\cdot|x, \tilde{a}_{1:C})๋ ์ก์ ์ฒญํฌ์ ๋ํ ๊ฐ์ฐ์์ ์ก์ ๋ถํฌ๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ ์ ๋ ฅ ์ํ x์ VLA๊ฐ ์ ์ํ ์ฐธ์กฐ ์ก์ ์ฒญํฌ \tilde{a}_{1:C}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
- ์ก์ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \pi_\theta(a_{1:C} | x, \tilde{a}_{1:C}) = \mathcal{N}(\mu_\theta(x, \tilde{a}_{1:C}), \sigma^2 I)
- ์กํฐ๋ ํฌ๋ฆฌํฑ ๊ฐ์น๋ฅผ ์ต๋ํํ๋ฉด์ VLA ์ฐธ์กฐ ์ฒญํฌ \tilde{a}์ ๊ฐ๊น๊ฒ ์ ์ง๋๋๋ก ์ต์ ํ๋ฉ๋๋ค. ์ด๋ KL-์ ๊ทํ๋ RL๊ณผ ์ ์ฌํ๋ฉฐ, ์จ๋ผ์ธ RL์ VLA์ ๊ฐ๋ ฅํ ์ด๊ธฐ ์ ์์ ๊ตญ์์ ์ผ๋ก ์ ์ ํ๋ ๊ฒ์ผ๋ก ๋ณํํฉ๋๋ค. ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_\pi(\theta) = E_{s \sim B, a_{1:C} \sim \pi_\theta} \left[ - Q_\psi(x, a_{1:C}) + \beta \|a_{1:C} - \tilde{a}_{1:C}\|_2^2 \right] ์ฌ๊ธฐ์ \tilde{a}_{1:C} \sim \pi_{\text{vla}}(\cdot | s, \ell)์ VLA์์ ์ํ๋ง๋ ์ฐธ์กฐ ์ก์ ์ฒญํฌ์ด๊ณ , \beta๋ ์ ๊ทํ ๊ฐ๋๋ฅผ ์ ์ดํ๋ ๊ณ์์ ๋๋ค.
- Reference action dropout: ์กํฐ๊ฐ ๋จ์ํ \tilde{a}๋ฅผ ๋ชจ๋ฐฉํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ํ๋ จ ๋ฐฐ์น์์ ๋ฌด์์๋ก ์ผ๋ถ ์ ํ์ ๋ํด ์ฐธ์กฐ ์ฒญํฌ๋ฅผ 0์ผ๋ก ๋์ฒดํฉ๋๋ค. ์ด๋ ์กํฐ๊ฐ ๋ ๋ฆฝ์ ์ธ ์ก์ ์์ฑ ๊ฒฝ๋ก๋ฅผ ์ ์งํ๋๋ก ๊ฐ์ ํฉ๋๋ค.
C. ์ ์ฒด ์์คํ (Complete System)
RLT์ ์ ์ฒด ํ๋ จ ๋ฃจํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ค๋น ๋จ๊ณ (Warmup): RL token ํํ ํ๋ จ ํ, ๋ฆฌํ๋ ์ด ๋ฒํผ B๋ฅผ ๊ธฐ๋ณธ VLA ์ ์ฑ ์ผ๋ก N_{\text{warm}} ์คํ ๋งํผ ์ฑ์๋๋ค. ์ด๋ ํฌ๋ฆฌํฑ์ ์ด๊ธฐ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๊ณ RL์ด ์ ๋ฅํ VLA ํ๋์์ ์์ํ๋๋ก ๋ณด์ฅํฉ๋๋ค.
- ๋กค์์ (Rollout): ์จ๋ผ์ธ ๋ฐ์ดํฐ ์์ง ์ค ๊ฐ ์ก์
์ฒญํฌ ๊ฒฝ๊ณ์์, ๊ณ ์ ๋ VLA๋ ์ฐธ์กฐ ์ฒญํฌ \tilde{a}_{1:H}๋ฅผ ์์ฑํ๊ณ RL token ๋ชจ๋์ z_{\text{rl}}์ ์ถ์ถํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์กํฐ๋ ์ก์
์ฒญํฌ a_{1:C} \sim \pi_\theta(\cdot | x, \tilde{a}_{1:C})๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
- ์ฌ๋ ์์ ์๋ ์ ํ์ ์ผ๋ก ๊ฐ์ ํ์ฌ ์กํฐ ์ถ๋ ฅ์ ๋ฎ์ด์ธ ์ ์์ผ๋ฉฐ, ์ด ๊ฒฝ์ฐ ๊ฐ์ ๋ ์ก์ ์ด ๋ฆฌํ๋ ์ด ๋ฒํผ์ ์ ์ฅ๋ฉ๋๋ค.
- ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์ํด, RL ์ ์ฑ ์ด ์ฌ์ฉํ๋ ์ฒญํฌ ๊ธธ์ด C์ ๋ฌด๊ดํ๊ฒ ๋ชจ๋ ์ค๊ฐ ์คํ ์ ๋ํ ๊ด์ธก์ ์ฌ์ฉํ์ฌ ์ค๊ฐ ์คํ ์ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ์ ์ฅํฉ๋๋ค (์: < x_0, a_{0:C} >, < x_2, a_{2:C+2} > ๋ฑ).
- ์ ๋ฐ์ดํธ (Update): ์ ์ฑ ์ ๋ฐ์ดํธ๋ ๋ฆฌํ๋ ์ด ๋ฒํผ์์ ์คํ-์ ์ฑ ๋ฐฉ์์ผ๋ก ์ํ๋ฉ๋๋ค. ๋กค์์๊ณผ ํ์ต์ ๋น๋๊ธฐ์ ์ผ๋ก ์งํ๋ฉ๋๋ค. ๋์ update-to-data ratio (์: 5)๋ฅผ ์ฌ์ฉํ์ฌ ์ํ ํจ์จ์ฑ์ ๋์ ๋๋ค.
- Critical Phases์ ํ๊ฒ ๊ฐ์ (Targeted improvement of critical phases): RLT๋ ๊ฐ ์์ ์์ ๊ฐ์ฅ ์ด๋ ต๊ณ ์ ๋ฐ๋๊ฐ ๋์ โcritical phaseโ๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ง์คํฉ๋๋ค. ์ํผ์๋๋ ๊ธฐ๋ณธ VLA ๋ชจ๋ธ๋ก ์์ํ๋ฉฐ, ์ฌ๋ ์์ ์๊ฐ ์ธ์ VLA์์ RL ์ ์ฑ ์ผ๋ก ์ ์ด๋ฅผ ๋๊ธธ์ง ์ ํํฉ๋๋ค. ์ด๋ RL์ด ๊ฐ์ฅ ์ค์ํ ํ๋ ๋ถ๋ถ์ ๋ฐ์ดํฐ๋ฅผ ์ง์คํ๊ณ ์ ์ฉ ํ ๋น์ ์ง์คํ๋๋ก ํฉ๋๋ค.
2. ์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
RLT๋ ์คํฌ๋ฃจ ์ค์น, ์ผ์ด๋ธ ํ์ด ์ฒด๊ฒฐ, ์ด๋๋ท ์ฝ์ , ์ถฉ์ ๊ธฐ ์ฝ์ ์ ๋ค ๊ฐ์ง ์ค์ ๋ก๋ด ์กฐ์ ์์ ์์ ํ๊ฐ๋์์ต๋๋ค. ์ด ์์ ๋ค์ ๋ชจ๋ ๋ฐ๋ฆฌ๋ฏธํฐ ๋๋ ์๋ธ-๋ฐ๋ฆฌ๋ฏธํฐ ์์ค์ ์ ๋ฐ๋๋ฅผ ์๊ตฌํฉ๋๋ค.
- Q1: ๊ธฐ๋ณธ VLA ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ ๊ฐ์ :
- RLT๋ ๋ชจ๋ ์์ ์ critical phase์์ ์ฑ๊ณต๋ฅ ๊ณผ ์คํ ์๋๋ฅผ ์ผ๊ด๋๊ฒ ๊ฐ์ ํ์ต๋๋ค. ๋น๊ต์ ์ฌ์ด ์ถฉ์ ๊ธฐ ๋ฐ ์ด๋๋ท ์์ ์์๋ critical phase ์๋๊ฐ ์ฝ 3๋ฐฐ ๋นจ๋ผ์ก์ต๋๋ค.
- ์ด๋ ค์ด ์ผ์ด๋ธ ํ์ด ๋ฐ ์คํฌ๋ฃจ ์์ ์์๋ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค. ์ ์ฒด ์์ ํ๊ฐ์์๋ ์คํฌ๋ฃจ ์์ ์์ 40%, ์ผ์ด๋ธ ํ์ด ์์ ์์ 60%์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
- Q2: ๋ค๋ฅธ RL ๋ฐฉ๋ฒ๋ก ๊ณผ์ ๋น๊ต:
- HIL-SERL ๋ฐ PLD์ ๊ฐ์ ๋จ์ผ ์คํ ์จ๋ผ์ธ RL ๋ฐฉ๋ฒ๋ก ์ ํฌ์ ๋ณด์์ ๊ฐ๋ ์๋ฐฑ ์คํ ์ ๊ธด ์์ ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ ์ก์ ์ฒญํฌ๊ฐ ์๋ ๊ฒฝ์ฐ task horizon์ด ๋๋ฌด ๊ธธ์ด ๊ฐ์น ํจ์ ์ ๋ฐ์ดํธ๊ฐ ๋นํจ์จ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
- DAgger ๋ฐ DSRL์ RLT์ ์ ์ฌํ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ง๋ง ์๋ ํฅ์์ ํจ์ฌ ์ ์์ต๋๋ค. DSRL์ ์ ์ฑ ์ ๊ธฐ๋ณธ VLA์ ๊ฐ๊น๊ฒ ๊ฐํ๊ฒ ์ ์ฝํ์ฌ ์์ ์ ์ธ ํ๋ จ์ ์ ๊ณตํ์ง๋ง ๊ฐ์ ์ ์ฌ๋ ฅ์ ์ ํ์ ์ ๋๋ค.
- RLT๋ ๊ธฐ๋ณธ ์ ์ฑ ์ ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ๋ฉด์ ํ๊ท ์๋ฃ ์คํ ์๋ฅผ 2๋ฐฐ ์ค์ฌ ๋์ ์ฒ๋ฆฌ๋์ ๋ฌ์ฑํ์ต๋๋ค.
- Q3: ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ๋:
- RL token, ์ก์ ์ฒญํฌ, BC (Behavioral Cloning) Regularizer, Reference-action pass-through์ ๋ค ๊ฐ์ง ์ค๊ณ ์ ํ ๋ชจ๋๊ฐ ์๋ฏธ ์๊ฒ ๊ธฐ์ฌํ์ต๋๋ค.
- RL token์ ImageNet ์ฌ์ ํ์ต๋ ResNet-10 ์ธ์ฝ๋๋ก ๋์ฒดํ๋ฉด ์ฒ๋ฆฌ๋์ด 50% ๊ฐ์ํ์ต๋๋ค.
- ์ฒญํฌ (C=10) ๋์ ๋จ์ผ ์คํ ์ก์ ์ ์ฌ์ฉํ๋ฉด ํจ๊ณผ์ ์ธ horizon์ด ๊ทน์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ๊ธฐ๋ณธ ์ ์ฑ ์ฑ๋ฅ์ ์ ๋ขฐํ ์ ์๊ฒ ๋ง์ถ์ง ๋ชปํ์ต๋๋ค.
- BC Regularizer (\beta=0)๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ์ ํ๋ฅผ ์ด๋ํ์ต๋๋ค.
- Reference-action pass-through๋ฅผ ์ ๊ฑฐํ๋ฉด ํ์ต์ด ๋๋ ค์ง๊ณ , ์ด๊ธฐ ํ์ ์ดํ์ด ๋ฐ์ํ๋ฉฐ, ๋๋๋ก ํดํ์ ํ๋์ผ๋ก ์ด์ด์ก์ต๋๋ค. ์ด๋ ๊ฒฐ๊ตญ RLT์ ์ฑ๋ฅ๊ณผ ์ผ์นํ ์ ์์ง๋ง, ํ๋ จ ๊ณผ์ ์์ ๋ ๋ง์ ์คํจ๋ฅผ ๊ฒช์์ต๋๋ค.
- Q4: ์๋ก์ด ํจ๊ณผ์ ์ธ ์ ๋ต ๋ฐ๊ฒฌ:
- ์ด๋๋ท ์์ ์์ RLT๋ ํ ๋ ์คํผ๋ ์ด์ ๋ฐ๋ชจ๋ ๊ธฐ๋ณธ VLA ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๊ธฐ๋ณธ VLA๊ฐ ์ ์ด ๊ทผ์ฒ์์ โํ์โ ํ๋์ ์์ฃผ ๋ณด์ธ ๋ฐ๋ฉด, RLT๋ ํฌํธ์ ์ ๊ทผํ์ฌ ์ ๋์ ์ธ ์์ง์์ผ๋ก ์ปค๋ฅํฐ๋ฅผ ์ฝ์ ํ์ต๋๋ค. ์ฒซ ์๋์ ์คํจํ๋๋ผ๋ ์๋ ฅ์ ๊ฐํ๊ณ ์ปค๋ฅํฐ๋ฅผ ์ฝ๊ฐ ํ๋ค์ด ์ ์ฐ์ฑ์ ํ์ฉํ์ฌ ๋ ๋น ๋ฅธ ์ฝ์ ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ์ด ํ๋์ ๋ฐ๋ชจ ๋ฐ์ดํฐ์์ ๋ณผ ์ ์์์ผ๋ฉฐ, ์์ ํ ์จ๋ผ์ธ ํ์์ ํตํด ๋ํ๋ฌ์ต๋๋ค. ์ด๋ RLT๊ฐ ์ธ๊ฐ์ ์ ๋ต์ ๋ชจ๋ฐฉํ๋ ๊ฒ์ ๋์ด์ค ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
3. ๊ฒฐ๋ก (Conclusion)
RLT๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ VLA์์ ์ถ์ถํ ํํ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์จ๋ผ์ธ RL ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ VLA๊ฐ ์์ถ๋ ํํ์ ๋ ธ์ถํ๋๋ก ํ๋ จํจ์ผ๋ก์จ, ๊ฒฝ๋ ์กํฐ์ ํฌ๋ฆฌํฑ์ด ๋ช ์๊ฐ์ ์ค์ ๋ก๋ด ์ฐ์ต๋ง์ผ๋ก๋ ๋งค์ฐ ์ ๋ฐํ๊ณ ์ฌ์ธํ ์์ ์ ๊ฐ์ ํ ์ ์๋๋ก ํฉ๋๋ค. RLT๋ ๋ชจ๋ ์์ ์์ ์ฑ๊ณต๋ฅ ๊ณผ ์คํ ์๋๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์ ํ์ผ๋ฉฐ, ๊ฐ์ฅ ์ด๋ ค์ด ๋จ๊ณ์์ ์ต๋ 3๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ๊ณ , ์ผ๋ถ ๊ฒฝ์ฐ์๋ ์จ๋ผ์ธ RL์์ ๋ํ๋๋ ์ ๋ต์ ํตํด ์ ๋ฌธ๊ฐ ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์๋๋ฅผ ๋ฅ๊ฐํ์ต๋๋ค.
RLT๋ ๋น ๋ฅธ ํ์ต์ ์ ๊ณตํ์ง๋ง, ํ๋ จ ์ค ๋ณด์ ์ ํธ, ๊ฐ์ ์์ , RL๊ณผ ๊ธฐ๋ณธ ์ ์ฑ ๊ฐ ์ ํ ๋ฑ ์ถ๊ฐ์ ์ธ ์ธ๊ฐ ๊ฐ์ ์ด ํ์ํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ณด์ ๋ชจ๋ธ ๋ฐ ์งํ ์์ธก์ ์ฌ์ฉํ์ฌ ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ฅผ ์๋ํํ๋ ๊ฒ์ด ์ ์๋ฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋ก๋ด ์์คํ ์ด ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ ๋ฟ๋ง ์๋๋ผ, ํ์ฅ์์ ์ง์ ๊ฐ์ ๋ ์ ์๋๋ก ํ๋ ์ค์ํ ์ง์ ์ด๋ฉฐ, ์ฌ์ ํ์ต์ด ์ด๊ธฐํ ์ญํ ์ ํ๊ณ ์ค์ ์ฑ๋ฅ์ RL์ ํตํด ๋ฐ๊ฒฌ๋ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค ์์ฝ (TL;DR)
ฯโ.6 ๊ฐ์ ๊ฑฐ๋ํ VLA๋ ๊ทธ๋๋ก ์ผ๋ฆฐ ์ฑ, โRL tokenโ์ด๋ผ๋ ์์ ์ฐฝ๋ฌธ ํ๋๋ง ํ์ต ๊ฐ๋ฅํ๊ฒ ์ด์ด๋๊ณ , ๊ทธ ์์ ๊ฐ๋ฒผ์ด actor-critic์ ์ฌ๋ ค ๋ช ์๊ฐ(๋๋ก๋ ๋ช ๋ถ) ๋ง์ ์ ๋ฐ manipulation์ ๋ค๋ฌ๋๋ค. Ethernet ์ฝ์ ์์๋ ์ฌ๋๋ณด๋ค๋ ๋น ๋ฅธ ์ ์ฑ ์ด ๋์๋ค.
ํต์ฌ ๊ธฐ์ฌ 4๊ฐ์ง
- VLA ๋ด๋ถ ํํ์ ํ ํ ํฐ(1 ร 2048)์ผ๋ก ์์ถํ๋ encoderโdecoder bottleneck (RL token)
- Action chunk ๋จ์๋ก ์๋ํ๋ off-policy actor-critic โ sparse reward ํ์ credit assignment ๋ฌธ์ ์ํ
- VLA ์ฐธ์กฐ ํ๋์ conditioning + BC regularization โ ํ์ ๊ณต๊ฐ์ โ์ง์ญ ํธ์งโ์ผ๋ก ์ถ์
- ์ฐธ์กฐ ํ๋์ ๋ฒ ๋ผ๊ธฐ๋ง ํ๋ ์คํจ ๋ชจ๋๋ฅผ ๋ง๋ reference action dropout
๋ค์ด๊ฐ๋ฉฐ: ๋ง์ง๋ง 1 mm์ ๋ฌธ์
VLA(ฯโ, ฯโ.6, OpenVLA, Gemini Robotics ๋ฑ)๋ ํ๋ง๋๋ก โ์๋ง ์๊ฐ์ ์ธ๊ฐ demo๋ฅผ ๋ณธ ์ผ๋ฐ๋ก ์โ๋ค. ๋นจ๋ ๊ฐ๊ธฐ, ์๊ธฐ ์ ๋ฆฌ, ๋ฐ์ค ์กฐ๋ฆฝ ๊ฐ์ long-horizon ๊ณผ์ ๋ฅผ ๊ทธ๋ญ์ ๋ญ ํด๋ธ๋ค. ๊ทธ๋ฐ๋ฐ ์ฐ๋ฆฌ ๋ก๋ด๊ณตํ์๊ฐ ์ผ์์ ์ผ๋ก ๋ถ๋ชํ๋ ๋ฒฝ์ ๋ค๋ฅธ ๋ฐ ์๋ค. ๋์ฌ ๋จธ๋ฆฌ๊ฐ ๋๋ผ์ด๋ฒ ๋นํธ์ ์ ํํ ๋ง๋ฌผ๋ฆฌ๋ 0.5 mm ์์ญ, ์ด๋๋ท ์ปค๋ฅํฐ๋ฅผ ํฌํธ์ ์ ํํ ๊ฐ๋๋ก ๋ฐ์ด ๋ฃ๋ ๋ง์ง๋ง ํ ์๊ฐ. ์ด โ๋ง์ง๋ง 1 mmโ์์ VLA๋ ํํ ๋ค์๊ณผ ๊ฐ์ด ํ๋ํ๋ค:
- ์ฒ์ฒํ ์ ๊ทผํ๋ค โ ์ด์ง ๋น๋๊ฐ๋ฉด ํํดํ๋ค โ ๋ค์ ์ ๊ทผํ๋ค โ ๋ ๋น๋๊ฐ๋ค โ ๋ค๋ก ๋บ๋ค โ โฆ
์ด๊ฑธ ๋ ผ๋ฌธ์์๋ probing behavior๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ฌ๋์ demo๊ฐ ๊ทธ ์์ญ์์ ์ผ๊ด๋์ง ์๊ธฐ ๋๋ฌธ์ VLA๊ฐ ํ๊ท ์ ๋ด๋ฉด ์ด์ ์ฉกํ ๋์์ด ๋์ค๋ ๊ฒ์ด๋ค. demo๋ฅผ ๋ ๋ชจ์๋ค๊ณ ํด๊ฒฐ๋๋ ๋ฌธ์ ๊ฐ ์๋๋ค โ ๊ทธ ์์ญ ์์ฒด๊ฐ demo๋ก ์ ์ ์กํ๋ ์์ญ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ์ง์ ์์ RL์ด ์์ฐ์ค๋ฝ๊ฒ ๋ ์ค๋ฅธ๋ค. ์ค์ ๋ก task๋ฅผ ์๋ํ๋ฉด์ ๊ฐํํ์ต์ผ๋ก ๋ค๋ฌ์ผ๋ฉด ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ๋ ๊ฐ์ง ํ๋ฆ์ด ์ถฉ๋ํ๋ค:
- VLA๋ฅผ ํต์งธ๋ก RL๋ก fine-tuneํ๊ธฐ (์: RECAP, SimpleVLA-RL): ํํ๋ ฅ์ ์ด์ ์์ง๋ง ๋ฐ์ดํฐ/์ฐ์ฐ์ด ๋ง๋ํ๋ค. ์ค์๊ฐ ๋ก๋ด ํ์ต budget์์ ๋นํ์ค์ ์ด๋ค.
- ์์ ์ ์ฑ ์ ์ฒ์๋ถํฐ RL๋ก ํ์ต (์: HIL-SERL, RL100): ๋ช ์๊ฐ ์์ ํ์ต์ด ๋๋์ง๋ง, VLA๊ฐ ๊ฐ์ง ๋๊ท๋ชจ prior๋ฅผ ํต์งธ๋ก ๋ฒ๋ฆฐ๋ค.
RLT๋ ์ด ๋ ์ฌ์ด์ ๊น๋ํ ์ ์ถฉ์ ์ ๋ ธ๋ฆฐ๋ค.
๋ฐฐ๊ฒฝ: ์ VLA๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ฐ
๋จผ์ VLA์ ๊ตฌ์กฐ๋ฅผ ์ง๊ณ ๊ฐ์. ฯโ.6๋ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค:
| ๊ตฌ์ฑ ์์ | ์ญํ | ํ๋ผ๋ฏธํฐ |
|---|---|---|
| VLM backbone (SigLIP + Gemma) | ์ด๋ฏธ์ง 4์ฅ + ์์ฐ์ด + proprioceptive state๋ฅผ token sequence๋ก ์ธ์ฝ๋ฉ | ~4.4 B |
| Action expert | backbone token์ attentionํ๋ฉฐ diffusion์ผ๋ก action chunk ์์ฑ | ~860 M |
50 Hz ์ ์ด, H = 50 step (์ฝ 1์ด)์ action chunk๋ฅผ ํ ๋ฒ์ ๋ฝ๊ณ , ๋ณดํต ์์ชฝ 20 step๋ง open-loop๋ก ์คํํ ๋ค ๋ค์ ๊ด์ธกํด์ re-planํ๋ ๋ฐฉ์์ด๋ค. 14์ฐจ์ action ร 50 step = 700์ฐจ์ chunk๊ฐ ํ ๋ฒ์ ์ถ๋ ฅ ๋จ์๊ฐ ๋๋ค.
์ด ๊ฑฐ๋ํ ๋ชจ๋ธ ์์์ RL์ ๋๋ฆด ๋ ๋ถ๋ชํ๋ ๋ณธ์ง์ ์ด๋ ค์์ ๋ ๊ฐ์ง๋ค:
๋ฌธ์ 1: ํํ ์ฐจ์ ํญ๋ฐ
Transformer ๋ง์ง๋ง layer์์ N๊ฐ ํ ํฐ ร 2048 ์ฐจ์ embedding์ด ์์์ ธ ๋์จ๋ค. ์ด๊ฑธ ๊ทธ๋๋ก critic์ ๋ฃ์ผ๋ฉด small-data regime์์ ํ์ต์ด ์ ๋๋ค.
๋ฌธ์ 2: ๊ธด horizon ร sparse reward
50 Hz ร 5โ20 ์ด critical phase = 250 ~ 1000 step. binary success/failure ํ ๋ฒ. TD learning์ผ๋ก ์ด ์ ํธ๋ฅผ ์ฒ์ step๊น์ง propagation์ํค๋ ๋ฐ ํ์ํ sample์ด ๋๋ฌด ๋ง๋ค.
RLT์ ๋ ํต์ฌ ๋์์ธ์ ์ ํํ ์ด ๋ ๋ฌธ์ ์ ๋์ํ๋ค.
ํต์ฌ ์์ด๋์ด: RL Token์ด๋ผ๋ ์์ ์ฐฝ๋ฌธ
์ง๊ด: bottleneck์ผ๋ก์์ readout token
VLA ๋ด๋ถ์๋ task์ ํ์ํ ์ ๋ณด๊ฐ ์ด๋ฏธ ์ถฉ๋ถํ ๋ค์ด ์๋ค. ๋ฌธ์ ๋ ์ด๋์ ์๋์ง ๋ชจ๋ฅธ๋ค๋ ์ ์ด๋ค. ์ด๋ค layer์ ์ด๋ค ํ ํฐ์ด โ์ง๊ธ ๋์ฌ๊ฐ ๋น๋ค์ด์ ธ ์๋คโ๋ ์ฌ์ค์ ์ธ์ฝ๋ฉํ๊ณ ์๋์ง ์ ๊ธธ์ด ์๋ค.
์ ์๋ค์ ๋ต์ ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ด๋ค โ VLA์๊ฒ โํ ํ ํฐ์ผ๋ก ์์ฝํด ๋ดโ๋ผ๊ณ ์ํจ๋ค. ๋ง์น BERT์ [CLS] ํ ํฐ์ฒ๋ผ, ํ์ต ๊ฐ๋ฅํ special embedding <rl>์ ์
๋ ฅ ์ํ์ค ๋์ ๋ถ์ด๊ณ , ์์ transformer๋ก ์์ถํ๊ฒ ๋ง๋ ๋ค. ๊ทธ๋ฐ๋ฐ ๊ทธ๋ฅ ์์ถํ๋ฉด ์ด๋๋ก ์๋ ดํ ์ง ๋ชจ๋ฅด๋๊น, decoder๊ฐ ์๋ token sequence๋ฅผ reconstructํ ์ ์๋๋ก ๊ฐ์ ํ๋ค.
Input tokens: [z_1, z_2, ..., z_M, e_rl]
|
encoder g_phi
|
v
Output at last position: z_rl (1 x 2048) <-- this is the RL token
|
decoder d_phi
|
v
Reconstruct: [z_1, z_2, ..., z_M] (autoregressive)
ํต์ฌ ํธ๋ฆญ: VLA์ ์๋ณธ embedding z_i์๋ stop-gradient๋ฅผ ๊ฑธ์ด์ ๋์ฝ๋๊ฐ reconstructํ๋ ๋์ VLA ์์ฒด๋ ํ๋ค๋ฆฌ์ง ์๊ฒ ํ๋ค. encoder์ decoder (\phi)๋ง ํ์ต๋๋ค.
์์์ผ๋ก ๋ณด๋ฉด
VLA๊ฐ ๋ฝ์ token embedding์ z_{1:M}, ํ์ต ๊ฐ๋ฅํ special embedding์ e_{rl}์ด๋ผ ํ์. RL token์:
z_{rl} = g_\phi\big([z_{1:M}, e_{rl}]\big)_{M+1}
reconstruction loss๋:
\mathcal{L}_{ro} = \mathbb{E}_\mathcal{D}\Bigg[\sum_{i=1}^M \big\| h_\phi\big(d_\phi([z_{rl}, \bar{z}_{1:i-1}])\big) - \bar{z}_i \big\|^2 \Bigg]
์ฌ๊ธฐ์ \bar{z}_i = \text{sg}(z_i)๋ stop-gradient. ์ด loss๋ก (\phi, optionally \theta_{vla})๋ฅผ ํ์ตํ๊ณ , ์ดํ์ ๋ชจ๋ freezeํ๋ค.
์ ์ด ๊ฒ ์ ์๋ํ๋๊ฐ (์ง๊ด)
์ด๊ฑธ ๋ค์๊ณผ ๊ฐ์ด ์๊ฐํ๋ฉด ํธํ๋ค. VLA์ layer ์ถ๋ ฅ์ ์ฑ ํ ๊ถ ๋ถ๋์ ๋์๊ด์ด๋ค. ๊ทธ ์ ์ด๋๊ฐ์ โ์ง๊ธ ์ํฉ์ ์ด๋ ๊ณ , ์ด๋ป๊ฒ ์์ง์ด๋ฉด ๋๋คโ๋ ๋ต์ด ์ ํ ์๊ธด ํ๋ฐ, ์ด๋ ์ฑ ์ด๋ ํ์ด์ง์ธ์ง ๋ชจ๋ฅธ๋ค. RL token์ โ์ด ๋์๊ด ์ ์ฒด๋ฅผ ๋ค์ ๋ณต์ํ ์ ์๋ ๊ฐ์ฅ ์์ ์์ฝ๋ณธโ์ ๋ง๋ค๋๋ก ํ์ต๋๋ค. ๊ทธ ์์ฝ์ ์์ฐ์ค๋ฝ๊ฒ task์ ๊ด๋ จ๋ ์ ๋ณด๋ฅผ ์ฐ์ ์์๋ก ๋ด๊ฒ ๋๋ค โ reconstruction์ด ์ ๋๋ ์ ๋ณด๋ ๋ค์ด ์์ง ์์ ์ ์ด๊ณ , reconstruction์ ๋ณธ์ง์ ์ธ ์ ๋ณด๋ ์ด์๋จ๊ธฐ ๋๋ฌธ์ด๋ค.
ablation์์ ์ด RL token์ ๋จ์ํ ImageNet-pretrained ResNet-10์ผ๋ก ๊ต์ฒดํ๋ฉด throughput์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ ๋ค. ํ์ค vision encoder๋ก๋ manipulation์ ํ์ํ manipulation-specific structure๋ฅผ ๋ชป ์ก๋๋ค๋ ๋ป์ด๋ค.
์๊ณ ๋ฆฌ์ฆ: RL Token ์์์ ํ์ตํ๋ ์์ actor-critic
์ด์ RL token์ด ์ค๋น๋๋ค๊ณ ์น์. ์ด ์์์ ๋ฌด์์ ํ์ตํ ๊น?
์ ์ฒด ๊ตฌ์กฐ
flowchart TB
subgraph FROZEN["FROZEN VLA (ฯ0.6)"]
VLM["VLM backbone<br/>SigLIP + Gemma"]
AE["Action expert<br/>diffusion"]
ENC["RL token encoder"]
end
OBS["๊ด์ธก<br/>์ด๋ฏธ์ง + ์ธ์ด + s_p"] --> VLM
VLM --> ENC
VLM --> AE
AE --> AREF["์ฐธ์กฐ action chunk<br/>รฃ_1:C"]
ENC --> ZRL["RL token z_rl"]
ZRL --> ACTOR
AREF --> ACTOR["Actor ฯ_ฮธ<br/>(์ํ MLP)"]
SP["proprio s_p"] --> ACTOR
ZRL --> CRITIC["Critic Q_ฯ<br/>(์ํ MLP)"]
SP --> CRITIC
ACTOR --> A["์คํ action<br/>a_1:C"]
A --> CRITIC
style FROZEN fill:#e0e0e0
style ACTOR fill:#ffe0b3
style CRITIC fill:#b3d9ff
ํ์ต๋๋ ๋ถ๋ถ์ ์ฃผํฉ(actor)๊ณผ ํ๋(critic)๋ฟ์ด๋ค. ํ์์ ๋ชจ๋ freeze.
MDP ์ ์: chunk ๋จ์๋ก ๋ฌถ๊ธฐ
ํ์ค MDP (S, A, p, r, \gamma)์ด์ง๋ง, action ๊ณต๊ฐ์ chunk ๋จ์๋ค:
a_{t:t+C-1} = (a_t, \dots, a_{t+C-1}) \in \mathbb{R}^{C \times d}
๋ ผ๋ฌธ์์ C = 10, d = 14 โ chunk ํ ๊ฐ = 140์ฐจ์. VLA๊ฐ ๋ฝ๋ chunk ๊ธธ์ด H = 50๋ณด๋ค ์งง๊ฒ ์ก๋๋ค (C < H). ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๊ณํ ๋น๋๊ฐ ๋์์ ธ reactiveํด์ง๋ค.
Chunk ๋จ์ Q-function์:
Q^\pi(s_t, a_{t:t+C-1}) = \sum_{t'=t}^{t+C-1} \gamma^{t'-t} r_{t'} + \gamma^C \mathbb{E}_{a' \sim \pi}\big[Q^\pi(s_{t+C}, a')\big]
์ chunking์ด RL์ ๊ทธ๋ ๊ฒ ์ค์ํ๊ฐ?
50 Hz ร 1000 step = 1000๋ฒ์ TD backup์ด ํ์ํ๋ค. sparse reward ํ๋๊ฐ ์ฒ์๊น์ง propagate๋๋ ค๋ฉด ๊ทธ๋งํผ์ update๊ฐ ํ์ํ๋ฐ, ์ด๋ ๋จ์ ์ฐ์๋ก๋ ๋์ฐํ ์์ด๋ค. C = 10์ด๋ฉด effective horizon์ด 1000 โ 100์ผ๋ก 10๋ฐฐ ์งง์์ง๋ค. ์ด๊ฑด ๋จ์ํ ์ต์ ํ ํธ๋ฆญ์ด ์๋๋ผ sparse-reward RL์ ๊ทผ๋ณธ์ ์ธ credit assignment ๋ฌธ์ ๋ฅผ ํธ๋ ํต์ฌ ์ฅ์น๋ค.
ablation ๊ฒฐ๊ณผ์์ single-step ๋ณํ(w/o Chunk)์ ์ฌ์ค์ ํ์ต์ด ์ ๋๋ค (์๋ ๊ทธ๋ฆผ ์ฐธ์กฐ).
Critic ํ์ต: ํ์ค TD3 ์คํ์ผ
\mathcal{L}_Q = \mathbb{E}_{(x, a_{1:C}, x') \sim \mathcal{B}}\Big[\big(\hat{Q} - Q_\psi(x, a_{1:C})\big)^2\Big]
\hat{Q} = \sum_{t'=1}^C \gamma^{t'-1} r_{t'} + \gamma^C \mathbb{E}_{a' \sim \pi_\theta}\big[Q_{\psi'}(x', a')\big]
์ฌ๊ธฐ์ x = (z_{rl}, s^p), ์ฆ RL token + proprioceptive state. TD3์ฒ๋ผ ๋ ๊ฐ์ Q ๋คํธ์ํฌ ensemble์ ์ฐ๊ณ target value ๊ณ์ฐ ์ minimum์ ์ทจํ๋ค(overestimation ๋ฐฉ์ง).
Actor ํ์ต: ์ฐธ์กฐ ํ๋ ์กฐ๊ฑด๋ถ + BC regularizer
์ฌ๊ธฐ๊ฐ RLT์ ๋ ๋ค๋ฅธ ํต์ฌ์ด๋ค. ๊ทธ๋ฅ RL ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ ์๋๋ผ, VLA๊ฐ ์ ์ํ reference action chunk \tilde{a}_{1:C}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , ๊ฑฐ๊ธฐ์ ๊ฐ๊น์ด ๊ณณ์ ํ์ํ๊ฒ ํ๋ค.
\pi_\theta(a_{1:C} \mid x, \tilde{a}_{1:C}) = \mathcal{N}\big(\mu_\theta(x, \tilde{a}_{1:C}), \sigma^2 I\big)
ํ์ต objective๋:
\mathcal{L}_\pi(\theta) = \mathbb{E}_{\substack{s \sim \mathcal{B} \\ a_{1:C} \sim \pi_\theta}}\Big[ -Q_\psi(x, a_{1:C}) + \beta \, \|a_{1:C} - \tilde{a}_{1:C}\|_2^2 \Big], \quad \tilde{a}_{1:C} \sim \pi_{vla}(\cdot \mid s, \ell)
๋ ํญ์ ์๋ฏธ:
- ์ฒซ ํญ -Q_\psi: critic์ด ์ข๋ค๊ณ ํ๊ฐํ๋ ํ๋์ ํฅํด ๊ฐ๋ผ.
- ๋์งธ ํญ \beta \|a - \tilde{a}\|^2: ๊ทธ๋ฌ๋ฉด์๋ VLA์ ์ ์์์ ๋๋ฌด ๋ฉ์ด์ง์ง ๋ง๋ผ.
์ด ๋์ ํฉํ๋ฉด โVLA๊ฐ ์ถ์ฒํ ํ๋์ ๊ทผ๋ฐฉ์์ critic์ด ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ผ๋ก ์ด์ง ๋ค๋ฌ์ด๋ผโ๊ฐ ๋๋ค. ๋ ผ๋ฌธ์ ์ด๊ฑธ local action editing์ด๋ผ๊ณ ํํํ๋ค. KL-regularized RL๊ณผ ์ ์ ์ ์ผ๋ก ๊ฐ์ ๊ณ์ด์ด๋ค(MPO, Peng et al. ๋ฑ).
์ residual์ด ์๋๋ผ absolute๋ก ์ถ๋ ฅํ๋๊ฐ?
PLD๋ Policy Decorator ๊ฐ์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ residual์ ํ์ตํ๋ค โ VLA ์ถ๋ ฅ์ ๋ํ ์์ ๋ณด์ ๊ฐ. RLT๋ absolute action์ ์ง์ ์ถ๋ ฅํ๋ conditioning + regularization์ผ๋ก ๋ฌถ๋ ๋ฐฉ์์ด๋ค.
์ด ์ฐจ์ด๊ฐ ๋ฏธ๋ฌํ์ง๋ง ์ค์ํ๋ค:
- residual์ hand-tuned scaling factor๊ฐ ํ์ํ๋ค (์ผ๋ง๋ ๊ฐํ๊ฒ ๋ณด์ ํ ์ง).
- absolute + regularization์ \beta ํ๋๋ง ์กฐ์ ํ๋ฉด ๋๊ณ , ๋ฌด์๋ณด๋ค \beta = 0์ด๋ฉด unconstrained RL, \beta \to \infty๋ฉด imitation์ผ๋ก ์์ฐ์ค๋ฌ์ด spectrum์ด ๋๋ค.
- ๋ ํ ๊ฐ์ง: VLA์ multimodal action distribution์์ ํ๋์ mode๋ฅผ sampling์ผ๋ก ๋ฝ์ ๋ค ๊ทธ mode ๊ทผ๋ฐฉ์์ ๋ค๋ฌ๊ฒ ๋๋ค. unimodal Gaussian actor๊ฐ multimodal demo๋ฅผ ์ง์ ํ๋ด๋ด๋ ค ํ ๋์ ๋ชจ๋ ํ๊ท ํ ๋ฌธ์ ๊ฐ ์ฌ๋ผ์ง๋ค.
Reference action dropout: ๋ฒ ๋ผ๊ธฐ ๋ฐฉ์ง ์ฅ์น
์ฌ๊ธฐ์ ํ ๊ฐ์ง ํจ์ ์ด ์๋ค. Actor๊ฐ reference \tilde{a}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ ๊ฑฐ๊ธฐ๋ก๋ถํฐ ๋๋ฌด ๋ฉ์ด์ง์ง ๋ง๋ผ๊ณ regularize๋๋ฉด, ๊ทธ๋ฅ \tilde{a}๋ฅผ ๊ทธ๋๋ก ์ถ๋ ฅํ๋ ๊ฒ ๊ฐ์ฅ ์์ฌ์ด ๋ต์ด ๋๋ค. ํนํ ํ์ต ์ด๊ธฐ์ critic์ด ์์ง informativeํ์ง ์์ ๋ ์ด๋ฐ collapse๊ฐ ์ ์ผ์ด๋๋ค.
ํด๊ฒฐ์ฑ ์ ๋จ์ํ๋ค. ๊ฐ batch์์ ๋ฌด์์๋ก ์ ๋ฐ์ transition์ ๋ํด \tilde{a}๋ฅผ 0์ผ๋ก ๋ง์คํนํ๋ค. ๊ทธ๋ฌ๋ฉด actor๋ reference ์์ด๋ ํ๋์ ๋ง๋ค์ด๋ผ ์ ์๋ ๋ ๋ฆฝ์ ์ธ ๊ฒฝ๋ก๋ฅผ ์ ์งํด์ผ ํ๋ค. ์ถ๋ก ์์๋ ํญ์ reference๋ฅผ ์ ๊ณตํ๋ค.
์ด๋ฐ ์ฌ์ํด ๋ณด์ด๋ ์ฅ์น๊ฐ ์์ธ๋ก ํฐ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค. ablation์ w/o Pass-Through(reference๋ฅผ actor์์ ์์ ๋บ ๊ฒฝ์ฐ)๋ ๊ฒฐ๊ตญ ๋น์ทํ ์ต์ข
์ฑ๋ฅ์ ๋๋ฌ์ ํ์ง๋ง, ํ์ต ๊ณผ์ ์์ ํจ์ฌ ๋ง์ ์คํจ๋ฅผ ๊ฒช๋๋ค.
์์คํ : ๋ฐ์ดํฐ ์์ง๋ถํฐ ์ ์ฑ ์ ๋ฐ์ดํธ๊น์ง
์์ฌ์ฝ๋๋ก ๋ณด๋ ์ ์ฒด ํ๋ฆ
# Stage 1: VLA & RL token ์ ์ (offline, ์์ demo dataset)
Train phi (and optionally theta_vla) with reconstruction loss L_ro
# Stage 2: Online RL
Initialize critic Q_psi, actor pi_theta from scratch
Pre-fill replay buffer B with N_warm steps of VLA rollouts
for environment_step t = 0, C, 2C, ...:
sample reference chunk a_tilde from VLA
form RL state x = (z_rl(s), s_p)
if human_intervenes:
a = a_human
elif t < N_warm:
a = a_tilde
else:
a ~ pi_theta(. | x, a_tilde)
execute a; observe r, s', s_p'
if intervention: a_tilde <- a_human # log corrected reference
push <x, a, a_tilde, r, x'> into B
# G updates per environment step (UTD ratio = 5)
for g = 1..G:
sample batch from B
update Q_psi via TD backup (Eq. 3)
update pi_theta via Q + BC loss (Eq. 5)์๋ ์๋ฆฌ์์ ๋์ฌ๊ฒจ๋ณผ ๋ํ ์ผ๋ค
1. Update-to-data ratio = 5
ํ๊ฒฝ step ํ ๋ฒ๋ง๋ค critic update๋ฅผ 5๋ฒ ํ๋ค. small-data regime์์ sample efficiency๋ฅผ ์ง๋ด๊ธฐ ์ํ ํ์ค ํธ๋ฆญ์ด์ง๋ง, value divergence ์ํ์ด ์์ด ensemble๊ณผ BC reg๊ฐ ์์ ์ฅ์น ์ญํ ์ ํ๋ค.
2. Action chunk subsampling (stride = 2)
chunk๊ฐ C step ๋จ์์ง๋ง, ์ค์ ๋ก๋ stride 2๋ก ์ํ์ ๋ง๋ ๋ค โ <x_0, a_{0:C}>, <x_2, a_{2:C+2}>, <x_4, a_{4:C+4}>, โฆ ์ด๋ฐ ์์ด๋ค. off-policy๋๊น ๊ฐ๋ฅํ๊ณ , ๋ฐ์ดํฐ ํจ์จ์ ํ ๋ฒ ๋ ๋ถ์คํธํ๋ค.
3. Critical phase ์ง์ค ํ์ต
RL์ด ์ ๋ง ์ฐจ์ด๋ฅผ ๋ง๋๋ ๊ฑด ์ด๋ ค์ด ๋จ๊ณ๋ฟ์ด๋ค. ๊ทธ๋์ episode๋ฅผ base VLA๋ก ์์ํ๊ณ , ์ฌ๋์ด critical phase์ ์ง์
ํ๋ ์์ ์ RL ์ ์ฑ
์ผ๋ก ํธ๋์คํํ๋ค (interactive imitation learning๊ณผ ๋น์ทํ ์ปจ์
). ํ์ต์ด ๋๋๋ฉด ๋ง์ง๋ง์ VLA๋ฅผ ์งง๊ฒ fine-tuneํด์ ์ธ์ ํธ๋์คํํ ์ง๋ฅผ ์๋์ผ๋ก ์์ธกํ๊ฒ ๋ง๋ ๋ค โ test time์๋ ์ฌ๋ ๊ฐ์
์ด ํ์ ์๊ฒ.
4. Human-in-the-loop
ํ์ํ ๋ teleoperation์ผ๋ก ๊ฐ์
ํ ์ ์๊ณ , ๊ทธ corrected action๋ buffer์ ์์ธ๋ค. HIL-SERL์ ๋์์ธ์ ๊ทธ๋๋ก ์ฐจ์ฉํ๋ค.
flowchart LR
Start["์ํผ์๋ ์์"] --> BaseVLA["base VLA๋ก<br/>์ ๋ฐ๋ถ ์ํ"]
BaseVLA --> Trigger{"critical phase<br/>๋๋ฌ?"}
Trigger -->|"ํ์ต ์: ์ฌ๋ ์ ํธ"| RL["RL ์ ์ฑ
์ผ๋ก<br/>ํธ๋์คํ"]
Trigger -->|"ํ
์คํธ ์: VLA์ ์์ฒด ์์ธก"| RL
RL --> Inter{"intervention<br/>ํ์?"}
Inter -->|"๋ค"| Tele["teleop์ผ๋ก ๋ณด์ <br/>a_human"]
Inter -->|"์๋์ค"| Auto["actor ์ถ๋ ฅ ์คํ"]
Tele --> End["์ฑ๊ณต/์คํจ<br/>sparse reward"]
Auto --> End
์คํ: 4๊ฐ์ง ์ ๋ฐ manipulation task
Task ๊ตฌ์ฑ
| Task | ํต์ฌ ์ด๋ ค์ | critical phase ์ง์์๊ฐ |
|---|---|---|
| Screw installation | M3 ๋์ฌ๋ฅผ sub-mm ์ ๋ฐ๋๋ก ์ ๋ ฌ, 10 cm grip-tip ๊ฑฐ๋ฆฌ ๋๋ฌธ์ ํ์ ์ค์ฐจ ์ฆํญ | 5โ20 s |
| Zip tie fastening | ๋ณํ์ฒด ํ์ด๋ฅผ ์ข์ ์ฌ๋กฏ์ ํต๊ณผ (bimanual) | 5โ20 s |
| Ethernet insertion | ์ ํํ ๊ฐ๋ + ๋จํธํ ์ฝ์ ๋์ | 5โ20 s |
| Charger insertion | ์ฝ์ผํธ ์ ๋ ฌ, ์์ ์ค์ฐจ๋ ๋ฐ๋ณต probing ์ ๋ฐ | 5โ20 s |
์ ์ฒด task๋ 30โ120 s, 50 Hz ์ ์ด๋๊น 1500โ6000 step. critical phase๋ง ๋ฐ๋ก ๋ผ๋ฉด 250โ1000 step ์์ค์ด๋ค.
Q1: VLA baseline ๋๋น RLT๊ฐ ์ ๋ง ์ข์์ง๋๊ฐ
๋ต์ ๋ช ํํ๊ฒ โ์โ. critical-phase setting๊ณผ full-task setting ๋ชจ๋์์ success rate์ throughput(10๋ถ๋น ์ฑ๊ณต ํ์)์ด ํฌ๊ฒ ์ค๋ฅธ๋ค.
Throughput ๊ฐ์ (ASCII ์ฐจํธ, critical phase):
Full-task์์๋ grasping ๋ฑ ์ ๋จ๊ณ ๋์ ์ค์ฐจ ๋๋ฌธ์ ์ ๋ ์ฑ๊ณต๋ฅ ์ ๋ฎ์ง๋ง, screwdriver๋ +40%p, zip tie๋ +60%p์ ๊ฐ์ ์ด ๋ณด์ธ๋ค. ํนํ ์ด๋ ค์ด screwdriver์ ๊ฒฝ์ฐ critical phase ์ฑ๊ณต๋ฅ ์ด 20% โ 65%๋ก ์ ํํ๋ค.
Q2: ๋ค๋ฅธ RL ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ๋ฉด
๊ฐ์ฅ ๋์ ์ ์ธ ๋น๊ต ๋์๋ค:
| ๋ฐฉ๋ฒ | ํต์ฌ | Ethernet ๊ฒฐ๊ณผ |
|---|---|---|
| HIL-SERL | VLA ์์ด ResNet + actor-critic | ์ฌ์ค์ ํ์ต ์คํจ (50 Hz, action box ์์) |
| PLD (Probe-Learn-Distill) | single-step residual policy | ํ์ต ์คํจ (๊ธด horizon ร sparse reward) |
| DSRL | diffusion noise space์์ RL | success rate๋ ๋น์ทํ๋ throughput ํฌ๊ฒ ๋ถ์กฑ |
| DAgger | intervention data๋ก supervised fine-tuning | success rate ๋น์ทํ๋ demo ์๋ ํ๊ณ |
| RLT (ours) | RL token + chunked actor-critic + BC reg | ์ฑ๊ณต๋ฅ ์ ์ง + 2ร ๋น ๋ฅธ ํ๊ท step |
๊ฐ์ฅ ์๋ฏธ ์๋ ๋ฐ๊ฒฌ: single-step ๋ฐฉ๋ฒ๋ค(HIL-SERL, PLD)์ด ์ฒ์ฐธํ๊ฒ ์คํจํ ๊ฒ์ ์ฐ์ฐ์ด ์๋๋ค. 50 Hz ร ์๋ฐฑ step ร sparse reward ์กฐํฉ์์๋ chunking ์์ด๋ TD๊ฐ ์๋ํ์ง ์๋๋ค.
Q3: ๊ฐ component๊ฐ ์ ๋ง ํ์ํ๊ฐ (Ablation)
๋ ผ๋ฌธ Fig. 7, 8์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ฆฌํ๋ฉด:
| ์ ๊ฑฐ ํญ๋ชฉ | ํจ๊ณผ |
|---|---|
| RL token โ ResNet-10 | throughput 50% ๊ฐ์ |
| Action chunk โ single-step | ํ์ต ์์ฒด๊ฐ ์ด๋ ค์, base ์ ์ฑ ๋ฐ๋ผ์ก๊ธฐ๋ ํ๋ฆ |
| BC regularizer (\beta = 0) | ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํ๋ฝ โ Q-gradient๋ง์ผ๋ก๋ ํ๋ ๊ณต๊ฐ ํ์์ด ๋๋ฌด ๋์ |
| Reference pass-through | ์ต์ข ์ฑ๋ฅ์ ๋น์ทํ๊ฒ ๋๋ฌ, ๊ทธ๋ฌ๋ ํ์ต ์ค ์คํจ๊ฐ ํจ์ฌ ๋ง์ |
๊ฐ์ฅ ์์ธ์๋ ๊ฒฐ๊ณผ: w/o BC Regularizer๊ฐ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ์์ค์ ๋ง๋ ๋ค. ์ด๊ฑด ๊ณง โRL์ VLA ํ๋์ ๊ทผ์ฒ์ ๊ฐ๋๋ ๊ฒโ์ด ๋จ์ํ ์์ ์ฅ์น๊ฐ ์๋๋ผ ํ์ต ํจ์จ์ ํต์ฌ์ด๋ผ๋ ๋ป์ด๋ค. Unconstrained RL์ 140์ฐจ์ chunk ๊ณต๊ฐ์์ ๊ธธ์ ์๋๋ค.
Q4: ์ ์ฑ์ ๋ฐ๊ฒฌ โ ์๋ก์ด ์ ๋ต์ ์ถํ
์ด ๋ถ๋ถ์ด ๊ฐ์ธ์ ์ผ๋ก ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ ๋ค. Ethernet task์์ base VLA, teleop demo, RLT ์ ์ฑ ์ episode ๊ธธ์ด ๋ถํฌ๋ฅผ ๋น๊ตํ๋ฉด:
RLT episode์ ์ ๋ฐ์ด, ๊ฐ์ฅ ๋น ๋ฅธ ์ฌ๋ demo๋ณด๋ค๋ ๋น ๋ฅด๋ค. ์ ์ฑ ์ด ๋ฐ๊ฒฌํ ์๋ก์ด ์ ๋ต์ ๋ค์๊ณผ ๊ฐ๋ค:
- Base VLA: ์ ๊ทผ โ ์ด์ง ํํด โ ์ฌ์ ๋ ฌ โ ์ฌ์๋ (probing)
- Teleop: ํ ๋ฒ์ ๋ถ๋๋ฝ๊ฒ ์ฝ์
- RLT: ์ ์ฒด์ ์ ๊ทผ + ์ฒซ ์๋ ์คํจ ์ ์ด์ง ํ๋ค๋ฉด์(wiggle) compliance๋ฅผ ํ์ฉ
์ด wiggle ์ ๋ต์ demo data์ ์๋ค. ์์ ํ online exploration์์ emergentํ๊ฒ ๋์จ ๊ฑฐ๋ค. ์ด๊ฑด imitation์ ceiling์ RL์ด ๊นฌ ๋ช ๋ฐฑํ ์ฆ๊ฑฐ์ด๊ณ , RECAP, RL100 ๋ฑ์ด ๋ณด์ฌ์ค ํจํด๊ณผ ์ผ๊ด๋๋ค โ ๋จ, ํจ์ฌ ๊ฐ๋ฒผ์ด ํ์ต budget์ผ๋ก.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ๊ฐ๋ ์ ๋จ์ํจ๊ณผ ๋ช ๋ฃํจ. ๋์์ธ ์ ํ ํ๋ํ๋๊ฐ ๋ช ํํ ์ด์ ๋ก ์ ๋นํ๋๋ค. RL token์ ํํ ์์ถ, chunking์ credit assignment, BC reg๋ ํ์ ์ ์ฝ, dropout์ collapse ๋ฐฉ์ง. ๊ตฐ๋๋๊ธฐ๊ฐ ์๋ค.
2. Sample efficiency. โ๋ช ์๊ฐโ์ robotics ๊ธฐ์ค์ผ๋ก ์ง์ง ์งง๋ค. ํนํ 5 minutes๋ง์ baseline์ ์ถ์ํ๋ ablation ๊ฒฐ๊ณผ๋ ๊ฐ๋ ฌํ๋ค.
3. ์ฌ๋๋ณด๋ค ๋น ๋ฅธ ์ ์ฑ . Ethernet ๊ฒฐ๊ณผ๋ ๋จ์ํ โ์ฌ๋๋งํผ ์ํ๋คโ๊ฐ ์๋๋ผ โ์ฌ๋๋ณด๋ค ๋น ๋ฅด๋ค + ์ ๋ขฐ์ฑ ์ ์งโ์ ์์ญ์ด๋ค. ์ฐ์ ์ ์๋ฏธ๊ฐ ํฌ๋ค.
4. ๋ชจ๋์ฑ. VLA๋ฅผ freezeํ๋ค๋ ๊ฑด ์ฌ๋ฌ task๋ณ๋ก RL token + actor-critic๋ง ๋ฐ๋ก ํ์ตํ ์ ์๋ค๋ ๋ป์ด๋ค. base model์ ๋ง์น์ง ์๊ณ task-specific ๊ฐ์ ์ ๋์ ํ ์ ์๋ค.
ํ๊ณ์ ์๋ฌธ์
1. ์ฌ๋์ด ์ฌ์ ํ ๋ง์ด ํ์ํ๋ค. ๋ ผ๋ฌธ๋ ์ธ์ ํ๋ฏ, ์ด ์์คํ ์ (a) sparse reward labeling, (b) intervention ์ ๊ณต, (c) RL/base ํธ๋์คํ ์์ ๊ฒฐ์ ์ ์ฌ๋ ์์ด ๋ค์ด๊ฐ๋ค. โautomated reward model + progress predictionโ์ผ๋ก ์๋ํ ๊ฐ๋ฅํ๋ค๊ณ future work์ผ๋ก ์ธ๊ธ์ ํ์ง๋ง, ์ค์ ํ์ฅ ๋ฐฐํฌ๊น์ง๋ ๊ฑฐ๋ฆฌ๊ฐ ์๋ค.
2. RL token ํ์ต์ demo ์์กด์ฑ. Reconstruction objective๋ VLA๊ฐ ๋ณธ demo distribution ์์์ ํ์ต๋๋ค. ๋ง์ฝ RL์ด distribution์ ํฌ๊ฒ ๋ฒ์ด๋๋ ํ๋(์: wiggle)์ ๋ฐ๊ฒฌํ๋ฉด, ๊ทธ ์๋ก์ด ์ํ์์ RL token์ด ์ฌ์ ํ informativeํ์ง๋ ๋ณด์ฅ๋์ง ์๋๋ค. ablation์์ w/o RL Token์ด ํ์ต์ด ๋๊ธด ํ๋๊น catastrophic์ ์๋์ง๋ง, OOD ๊ฐ๊ฑด์ฑ์ ๋ช
์์ ์ผ๋ก ์ธก์ ๋์ง ์์๋ค.
3. Critical phase๊ฐ ์งง์ task์ ํ์ ๋ ํ๊ฐ. 5โ20 ์ด์ critical phase๋ manipulation ๊ธฐ์ค์ผ๋ก๋ ์งง์ ํธ์ด๋ค. ๋ถ ๋จ์ critical phase(์: ์ ๋ฐ ํด์ฒด, ๊ธธ์ด ์๋ ์กฐ๋ฆฝ)์์๋ chunked TD๊ฐ ์๋ํ ์ง๋ ๋ฏธ์ง์๋ค. C๋ฅผ ๋๋ฆฌ๋ฉด chunk ์ฐจ์์ด ๊ทธ๋งํผ ์ปค์ ธ์ actor ํ์ต์ด ๋ค์ ์ด๋ ค์์ง๋ค.
4. \pi_{0.6} specificํ ๋์์ธ. RL token encoder๊ฐ transformer์ final-layer embedding์ ๋ฐ๋๋ค. flow-based VLA(์: \pi_0, \pi_{0.5})์ ์ง์ ์ ์ฉ ๊ฐ๋ฅํ์ง, ๋๋ GR00T์ฒ๋ผ ๋ค๋ฅธ backbone์์๋ ๋์ํ ์ง๋ ๊ฒ์ฆ์ด ํ์ํ๋ค.
5. ฮฒ ํ์ดํผํ๋ผ๋ฏธํฐ. BC regularizer ๊ฐ๋ \beta๋ task๋ณ ํ๋์ด ํ์ํด ๋ณด์ธ๋ค(๋ ผ๋ฌธ์ ๋ช ํํ ์๋ ์กฐ์ schema๋ ์์). ๋๋ฌด ํฌ๋ฉด VLA ๋ฒ ๋ผ๊ธฐ๋ก collapse, ๋๋ฌด ์์ผ๋ฉด unconstrained RL์ ํจ์ . KL-budget์ ์๋ ์กฐ์ ํ๋ MPO ๋ฅ์ ๊ธฐ๋ฒ์ ๊ฒฐํฉํ ์ฌ์ง๊ฐ ์์ด ๋ณด์ธ๋ค.
6. RL token์ โ์โ ์ฐ๋๊ฐ์ ๋ํ ๋ ๊น์ ๋ถ์ ๋ถ์ฌ. RL token์ด ResNet๋ณด๋ค ์ข๋ค๋ ๊ฑด ๋ณด์์ง๋ง, VLA์ ์ด๋ layer๋ฅผ ์ฐ๋ ๊ฒ ์ต์ ์ธ์ง, RL token ์ฐจ์์ ๋ ์ค์ด๊ฑฐ๋ ๋๋ฆฌ๋ฉด ์ด๋ป๊ฒ ๋๋์ง, multi-token bottleneck์ ์ ๋๋์ง ๋ฑ์ ablation์ด ๋น ์ ธ ์๋ค. ๋์์ธ ๊ณต๊ฐ์ด ๋ ํ๋ถํ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์์น ์ง๊ธฐ
flowchart TB
subgraph Full["Full VLA RL fine-tuning"]
RECAP["RECAP ฯ0.6*<br/>offline RL, advantage policy extraction"]
Simple["SimpleVLA-RL, ฯRL<br/>PPO ๊ณ์ด"]
end
subgraph Light["Lightweight VLA-augmented RL"]
ConRFT["ConRFT<br/>action head + consistency"]
PLD["PLD<br/>single-step residual"]
PolicyDec["Policy Decorator<br/>scaled residual"]
DSRL["DSRL<br/>noise-space steering"]
GRRL["GR-RL<br/>noise predictor for diffusion"]
RLT["RLT (this work)<br/>chunked actor-critic on RL token"]
end
subgraph NoVLA["VLA-free real-world RL"]
HILSERL["HIL-SERL"]
RL100["RL-100"]
SERL["SERL"]
end
Full -->|"compute heavy"| Cost["high cost"]
NoVLA -->|"no VLA prior"| NoGen["no generalization"]
Light --> Sweet["sample-efficient"]
style RLT fill:#ffe0b3
๊ฐ์ฅ ๊ฐ๊น์ด ์น์ฒ์ DSRL์ด๋ค. ๋ ๋ค VLA๋ฅผ freezeํ๊ณ ๊ทธ ์ฃผ๋ณ์์ RL์ ํ๋ค. ์ฐจ์ด๋ ์ด๋์ RL์ ๊ฑฐ๋๊ฐ:
- DSRL: VLA์ noise space์ RL์ ๊ฑด๋ค (๊ฐ์ ์ modulation).
- RLT: ์ค์ action space์ RL์ ๊ฑธ๋, VLA reference๋ก ๋ฌถ๋๋ค (์ง์ ์ refinement).
DSRL์ ์์ ์ ์ด์ง๋ง ๊ฐ์ ํญ์ด ์ ํ๋๋ค. RLT๋ ๋ ๊ณต๊ฒฉ์ ์ธ ๋ค๋ฌ๊ธฐ๊ฐ ๊ฐ๋ฅํด์ throughput์ด ํฌ๊ฒ ์ค๋ฅธ๋ค. ํํธ GR-RL์ด๋ ConRFT๋ latent / consistency ๋ฑ ๋ ๋ชจ๋ธ-์ข ์์ ์ธ ๋ฉ์ปค๋์ฆ์ ์์กดํ๋๋ฐ, RLT๋ ํ์ค off-policy actor-critic์ด๋ผ portability๊ฐ ์ข๋ค.
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋น๊ต๋ RECAP์ด๋ค. RECAP๋ ๊ฐ์ ํ์ฌ์ ๋ค๋ฅธ ์์ ์ผ๋ก, VLA ํต์งธ๋ก RL fine-tuneํด์ espresso ๋ง๋ค๊ธฐ, ๋นจ๋ ๊ฐ๊ธฐ ๊ฐ์ long-horizon task์์ throughput์ ๋ ๋ฐฐ ์ด์ ์ฌ๋ ธ๋ค. RLT๋ ๊ฑฐ๊ธฐ์ ๋นํ๋ฉด ํจ์ฌ ๊ฐ๋ณ๋ค. ๋ ์ ๊ทผ์ ์ฌ์ค ์๋ณด์ ์ผ๋ก ๋ณด์ธ๋ค โ RECAP-style ๋๊ท๋ชจ offline RL๋ก VLA ์์ฒด๋ฅผ ๊ฐํํ๊ณ , ๊ทธ ์์ RLT-style ๋น ๋ฅธ online refinement๋ฅผ ์ฌ๋ฆฌ๋ ๊ทธ๋ฆผ์ด ์์ฐ์ค๋ฝ๋ค.
๋ก๋ด๊ณตํ์๊ฐ ์ด ๋ ผ๋ฌธ์์ ๊ฐ์ ธ๊ฐ ํต์ฐฐ
์ด๊ฑด ๋จ์ํ paper review๋ฅผ ๋์ด์, ์ค์ ๋ก dexterous manipulation์ ํ๋ ์ฐ๋ฆฌ์๊ฒ ๋ฌด์์ด ์ ์ฉํ์ง์ ์ ๋ฆฌ๋ค.
1. โBottleneck tokenโ์ ์ผ๋ฐ์ ์ธ ๋๊ตฌ๋ค.
RL token ์์ด๋์ด๋ ์ฌ์ค VLA์ ํ์ ๋์ง ์๋๋ค. ๊ฑฐ๋ํ multi-modal ๋ชจ๋ธ ์์ ์์ downstream task๋ฅผ ์ฌ๋ฆด ๋, encoderโdecoder reconstruction์ผ๋ก ์ป์ single readout์ ์ข์ ์ถ๋ฐ์ ์ด ๋ ์ ์๋ค. tactile-conditioned policy, sim-to-real residual learning ๋ฑ์์๋ ์๋ํด๋ณผ ๊ฐ์น๊ฐ ์๋ค.
2. RL๊ณผ chunking์ ๋ผ์ด๋๊ณ ์ค๊ณํ๋ฉด ์ ๋๋ค.
Action chunk๋ ๋ ์ด์ ๋จ์ํ โBC์์ ์ฌ๊ณํ ๋น๋ ์ค์ด๋ ํธ๋ฆญโ์ด ์๋๋ค. sparse reward ํ์์ RL์ด ์๋ํ๊ธฐ ์ํ ํ์ ๊ตฌ์กฐ๋ค. ์ง์ 50 Hz ๋จ์ RL์ ์๋ํด๋ณธ ์ฌ๋์ด๋ผ๋ฉด ์ด ์ฐจ์ด๊ฐ ์ผ๋ง๋ ํฐ์ง ์๋ค.
3. โVLA์ prior๋ฅผ ์ด๋ป๊ฒ ๋ณด์กดํ๋ฉด์ ๊ทธ ์์์ ํ์ตํ๋๊ฐโ๊ฐ ํต์ฌ ์ง๋ฌธ์ด๋ค.
์ด ๋
ผ๋ฌธ์ ๋ต์ (a) freeze, (b) reference conditioning, (c) BC regularization. ์ด๊ฑด ์ฐ๋ฆฌ๊ฐ Allegro Hand๊ฐ์ ํ๋ซํผ์์ ๊ธฐ์กด RL pipeline์ VLA-augmented๋ก ์ฎ๊ธธ ๋ ์ ์ฉํ ํ
ํ๋ฆฟ์ด๋ค.
4. โLast millimeterโ๋ ์ง์ง๋ก RL์ด ๋น๋๋ ์์ญ์ด๋ค.
โ์ ๋ฐ๋ถ VLA + ํ๋ฐ๋ถ RLโ ๊ตฌ์กฐ๋ ์ค์ฉ์ ์ผ๋ก ๋งค์ฐ ๋งค๋ ฅ์ ์ด๋ค. ์ฐ๋ฆฌ๊ฐ contact-rich ์ ๋ฐ manipulation์ ๋ค๋ฃฐ ๋, ์ ์ฒด task๋ฅผ RL๋ก ํ์ตํ ํ์๋ ์๋ค โ ๊ฐ์ฅ ์ด๋ ค์ด phase์๋ง ์ง์คํ๋ ๊ฒ sample efficiency ์ธก๋ฉด์์ ์๋์ ์ด๋ค.
5. Wiggle ๊ฐ์ emergent strategy๋ demo data๋ก๋ ์ ๋ ๋ชป ์ป๋๋ค.
์ด๊ฑด imitation learning๋ง์ผ๋ก๋ ๊ฐ๋ฟ์ ์ ์๋ ์์ญ์ด ์๋ค๋ ๋ช
๋ฐฑํ ์ฆ๊ฑฐ๋ค. compliance๋ฅผ ๋ฅ๋์ ์ผ๋ก ํ์ฉํ๋ ์ ์ฑ
์ sim-to-real์์ ํนํ ์๋ฏธ๊ฐ ํฌ๋ค โ Isaac Lab์ contact model ์ ํ๋์ ์ง๊ฒฐ๋๋ค.
๋ง๋ฌด๋ฆฌ
RLT๋ โ๊ฑฐ๋ VLA + ์์ RL ๋ชจ๋โ์ด๋ผ๋ ์ต์ํ ๊ทธ๋ฆผ์ ๊ฐ์ฅ ๊น๋ํ ๋ฐฉ์์ผ๋ก ํ์ด๋ธ ๋ ผ๋ฌธ์ด๋ค. ํ๋ คํ ์ ์๊ณ ๋ฆฌ์ฆ์ ์๋๋ค. RL token bottleneck, chunked TD, BC-regularized actor-critic โ ๊ฐ๊ฐ์ ๋ชจ๋ ๊ธฐ์กด์ ์๋ ์์ด๋์ด๋ค. ํ์ง๋ง ์ด๊ฑธ ํ ์์คํ ์ผ๋ก ๋ฌถ๋ ๋์์ธ์ด ๋ช ๋ฃํ๊ณ ๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ ฌํ๋ค๋ ์ ์ด ์ด ๋ ผ๋ฌธ์ ๊ฐ์น๋ค.
ํนํ ๋๋ ๋ ๊ฐ์ง ๋ฉ์์ง๊ฐ ์ฐ๋ฆฌ ๋ถ์ผ์ ์ค๋ ๋จ์ ๊ฑฐ๋ผ๊ณ ๋ณธ๋ค:
- VLA๋ freezeํด๋ ์ถฉ๋ถํ๋ค โ ๊ทธ ์์ ์์ RL์ ์ ์ฌ๋ฆฌ๋ฉด ๋๋ค. Full fine-tuning์ด ํญ์ ๋ต์ ์๋๋ค.
- ์ฌ๋๋ณด๋ค ๋น ๋ฅธ ์ ์ฑ ์ ๋ ์ด์ sim ์์ ํ์์ด ์๋๋ค. Real robot์์, ๋ช ์๊ฐ์ ๋ฐ์ดํฐ๋ก, ์ผ๋ฐ์ VLA ์์์ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ด ์ ์ฆ๋๋ค.
Allegro Hand ๊ฐ์ dexterous platform์์ ์ ๋ฐ in-hand reorientation, peg-in-hole, tool-use ๊ฐ์ ๊ณผ์ ๋ฅผ ํ ๋, RLT์ ๋์์ธ์ ๊ฑฐ์ ๊ทธ๋๋ก ์ฐจ์ฉ ๊ฐ๋ฅํ ํ ํ๋ฆฟ์ด๋ค. tactile sensing(DIGIT, GelSight ๋ฑ)์ RL token์ ์ ๋ ฅ์ ์ถ๊ฐํ๋ ํ์ฅ๋ ์์ฐ์ค๋ฝ๋ค. ๋ค์ ๋จ๊ณ๋ก๋ (a) reward model ์๋ํ, (b) RL/base ํธ๋์คํ์ ์์ ์๋ํ, (c) ๋ค์ํ VLA backbone์์์ portability ๊ฒ์ฆ์ด ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ ๊ฒ์ด๋ค.
ํ ์ค๋ก ์ ๋ฆฌํ์๋ฉด:
VLA์ ๊ฑฐ๋ํ ์ฌ์ ์ง์์ ์์ ํ ํฐ ํ๋๋ก ์์ถํ๊ณ , ๊ทธ ์์ ๊ฐ๋ฒผ์ด actor-critic์ผ๋ก ์ ๋ฐํจ๋ง ๋ค๋ฌ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฌ๋๋ณด๋ค ๋น ๋ฅธ, ๊ทธ๋ฆฌ๊ณ ์ฌ๋์ demo๋ก๋ ๋ถ๊ฐ๋ฅํ ํ๋์ด emergentํ๊ฒ ๋์จ๋ค. ๋ก๋ด๊ณตํ์์ โ์๊ฒ ํ์ตํด์ ํฌ๊ฒ ํ์ฉํ๋คโ์ ๋ชจ๋ฒ ์ฌ๋ก.
Reference
Xu et al., RL Token: Bootstrapping Online RL with Vision-Language-Action Models, Physical Intelligence, 2025. pi.website/research/rlt