๐Residual Off-Policy RL ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ฆพ ์ด ์ฐ๊ตฌ๋ Behavior Cloning (BC) ์ ์ฑ ์ ๋ฐ์ดํฐ ํ๊ณ์ Reinforcement Learning (RL)์ ์ค์ ๋ก๋ด ์ ์ฉ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด, BC์ RL์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ์์ฐจ ํ์ต ํ๋ ์์ํฌ์ธ ResFiT(Residual Fine-tuning)๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค ResFiT๋ ์ฌ์ ํ์ต๋ BC ์ ์ฑ ์ ๋ธ๋๋ฐ์ค ๊ธฐ๋ฐ์ผ๋ก ํ์ฉํ๊ณ , ์ํ ํจ์จ์ ์ธ Off-policy RL์ ํตํด ๊ฐ๋ฒผ์ด ๋จ๊ณ๋ณ ์์ฐจ ๋ณด์ ์ ํ์ตํ์ฌ ๊ณ ์์ ๋ ์์คํ ์์ BC ์ ์ฑ ์ ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
- ๐ ์ ์๋ ๋ฐฉ๋ฒ์ ์๋ฎฌ๋ ์ด์ ์์ State-of-the-art ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ 200๋ฐฐ ํฅ์๋ ์ํ ํจ์จ์ฑ์ ๋ณด์๊ณ , ํนํ 5๊ฐ์ ์๊ฐ๋ฝ์ ๊ฐ์ง ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ๋ํ ์ต์ด์ ์ค์ ํ๊ฒฝ RL ํ์ต์ ์ฑ๊ณต์ ์ผ๋ก ์์ฐํ์ฌ ๋ก๋ด ๊ณตํ์ ์ค์ฉ์ ์ธ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ Behavior Cloning (BC)์ ์ฅ์ ๊ณผ Reinforcement Learning (RL)์ ์ฅ์ ์ ๊ฒฐํฉํ์ฌ ๊ณ ์์ ๋(high-degree-of-freedom, DoF) ๋ก๋ด ์์คํ ์์ ํจ๊ณผ์ ์ธ visuomotor ์ ์ด ์ ์ฑ ์ ํ์ตํ๊ธฐ ์ํ Residual Off-Policy RL (ResFiT) ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด BC๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ํ์ง, ๋ฐ์ดํฐ ์์ง ๋ ธ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํ๊ณ๋ก ์ธํด ์ ์ฑ ์ฑ๋ฅ์ด ํฌํ๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ฐ๋ฉด RL์ ์์จ์ ์ธ ํ๊ฒฝ ์ํธ์์ฉ์ ํตํด ํ์ตํ์ง๋ง, ์ํ ๋นํจ์จ์ฑ, ์์ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ํฌ์ํ ๋ณด์(sparse reward)์ผ๋ก๋ถํฐ ์ฅ๊ธฐ์ ์ธ ์์ ์ ํ์ตํ๋ ์ด๋ ค์ ๋๋ฌธ์ ์ค์ธ๊ณ ๋ก๋ด์ ์ง์ ์ ์ฉํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค.
ResFiT๋ ์ฌ์ ํ์ต๋ BC ์ ์ฑ ์ ๋ธ๋๋ฐ์ค(black-box) ๊ธฐ๋ณธ ์ ์ฑ ์ผ๋ก ํ์ฉํ๊ณ , ๊ทธ ์์ ๊ฒฝ๋์ ๋จ๊ณ๋ณ(per-step) ์์ฌ(residual) ๋ณด์ ๊ฐ์ ์ํ ํจ์จ์ ์ธ ์คํ-์ ์ฑ (off-policy) RL์ ํตํด ํ์ตํฉ๋๋ค. ์ด ๋ฐฉ์์ ๊ธฐ๋ณธ ์ ์ฑ ์ ํ๋ผ๋ฏธํฐํ๋ ์ก์ ์ฒญํน(action chunking) ๋ฐฉ์์ ๊ตฌ์ ๋ฐ์ง ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ธ๊ณ ๋ชจ๋์์ ๊ณ ์์ ๋ ์์คํ ์ ์กฐ์ ์ ์ฑ ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํ๋ฉฐ, ํนํ 5-fingered hand๋ฅผ ๊ฐ์ง ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ค์ธ๊ณ RL ํ๋ จ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์ต์ด์ ์ฌ๋ก๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
ResFiT๋ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๊ธฐ๋ณธ ์ ์ฑ
(Base Policy) ํ์ต (Behavior Cloning with Action Chunking):
- ์์ด์ ํธ๋ ๊ฐ ํ์์คํ t์์ ๊ด์ธก o_t๋ฅผ ๋ฐ๊ณ ํ๋ a_t๋ฅผ ์ํํฉ๋๋ค.
- ๋จผ์ ์ธ๊ฐ ์กฐ์(teleoperation)์ ํตํด ์ฑ๊ณต์ ์ธ ๊ถค์ \tau = (o_0, a_0, o_1, a_1, \dots)์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ D_{demos}๋ฅผ ์์งํฉ๋๋ค.
- ์ด ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ๊ธฐ๋ณธ ์ ์ฑ \pi_\psi(a_{t:t+k}|o_t)๋ฅผ ํ๋ ์ฒญํน(action chunking) ๋ฐฉ์์ผ๋ก ํ์ตํฉ๋๋ค. ์ด ์ ์ฑ ์ ๊ฐ ํ์์คํ ์์ k๊ฐ์ ๋ฏธ๋ ํ๋ ์ํ์ค๋ฅผ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค.
- ํ๋ จ ๋ชฉํ๋ ๋ฐ๋ชจ์์ ๊ฐ์ ธ์จ ํ๋ ์ฒญํฌ์ ๋ก๊ทธ-๊ฐ๋ฅ๋(log-likelihood)๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค: \min_\psi - \mathbb{P}_{o_t, a_{t:t+k} \in D_{demos}} \log \pi_\psi(a_{t:t+k}|o_t).
- ํ๋ ์ฒญํน์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ๋ชจ๋ฐฉ ํ์ต(imitation learning)์์์ ๋ณตํฉ ์ค๋ฅ(compounding errors)๋ฅผ ์ํํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ํ์ต๋ \pi_{base}๋ ๊ณ ์ (freeze)๋ฉ๋๋ค.
- ์คํ-์ ์ฑ
์์ฌ RL์ ํตํ ๋ฏธ์ธ ์กฐ์ (Fine-tuning with Off-Policy Residual RL):
- ๊ณ ์ ๋ ๊ธฐ๋ณธ ์ ์ฑ \pi_{base} ์์ ์๋ก์ด ์ ์ฑ \pi_{res}๋ฅผ RL๋ก ํ์ตํ์ฌ \pi_{base}๊ฐ ์ ์ง๋ฅด๋ ์ค์๋ฅผ ๋ณด์ ํ๊ณ ์ ์ฑ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์ด ์์ฌ ์ ์ฑ \pi_{res}๋ \pi_{base}์ ๋ด๋ถ ํ๋ผ๋ฏธํฐํ ๋ฐ ํ๋ จ ๋ฐฉ์์ ๊ตฌ์ ๋ฐ์ง ์์ผ๋ฉฐ, ์์ฌ๊ฐ์ ํฌ๊ธฐ๋ฅผ ์ ์ดํ์ฌ ์์ ์ ์ธ ํ์์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค.
- ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ ์ํ s_t \in \mathcal{S}, ํ๋ a_t \in \mathcal{A}, ๋ณด์ r_t = R(s_t, a_t), ํ ์ธ์จ \gamma, ์๊ฐ ๋ฒ์ H๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
- ํ์ค ์คํ-์ ์ฑ
RL ๋ฐฉ๋ฒ์ด Q_\phi(s_t, a_t)์ \pi_\theta(s_t)๋ฅผ ํ์ตํ๋ ๋ฐ๋ฉด, ResFiT๋ ์์ฌ ์ค์ ์ ์ํด ์ด๋ฅผ ์ฌ๋งค๊ฐ๋ณ์ํ(reparameterize)ํฉ๋๋ค:
- ๋นํ๊ฐ(critic) Q_\phi๋ Q_\phi(s_t, a_{base_t} + \pi_\theta(s_t, a_{base_t}))๋ฅผ ํ์ตํฉ๋๋ค. ์ฌ๊ธฐ์ a_{base_t}๋ \pi_{base}(s_t)์์ ์ป์ ๊ธฐ๋ณธ ํ๋์ ๋๋ค.
- ์ ์ฑ \pi_\theta๋ ์์ฌ ํ๋์ ์ถ๋ ฅํ๋ฏ๋ก \pi_\theta(s_t, a_{base_t})๋ก ํํ๋ฉ๋๋ค.
- ์ ์ฒด ํ๋์ a_t = a_{base_t} + a_{res_t}์ด๋ฉฐ, ์ฌ๊ธฐ์ a_{res_t} = \pi_\theta(s_t, a_{base_t})์ ๋๋ค. ๋นํ๊ฐ๋ ์ด ์ ์ฒด ํ๋์ ๊ฐ์น๋ฅผ ์์ธกํฉ๋๋ค.
- ๋นํ๊ฐ ํ์ต (Critic Learning):
- Bellman ๋ฐฉ์ ์์ ๋ฐ๋ผ ์ต์ ํ๋-๊ฐ์น ํจ์ Q^\star(s_t, a_t)๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํด ํ๊ท ์ ๊ณฑ Bellman ์ค๋ฅ(Mean-Squared Bellman Error, MSBE) ์์ค์ ์ฌ์ฉํฉ๋๋ค.
- ์ฃผ์ด์ง ์ ์ด(transition) ๋ฐ์ดํฐ์ D=(s_t, a_t, r_t, s_{t+1}, d_t)์ ๋ํด ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L(\phi) = \mathbb{E}_{(s_t, a_t, r_t, s_{t+1}, d_t) \sim D} \left[ \left( Q_\phi(s_t, a_t) - \left( r_t + \gamma(1 - d_t) Q_\phi(s_{t+1}, a_{base_{t+1}} + \pi_\theta(s_{t+1}, a_{base_{t+1}})) \right) \right)^2 \right] ์ฌ๊ธฐ์ a_{base_{t+1}} = \pi_{base}(s_{t+1})์ ๋๋ค.
- ์ ์ฑ
ํ์ต (Policy Learning):
- ์ ์ฑ \pi_\theta(s_t, a_{base_t})๋ ๊ฐ์น ํจ์์ ๋ํ ๊ฒฝ์ฌ ์์น(gradient ascent)์ ์ํํ์ฌ ํ์ต๋ฉ๋๋ค: L(\theta) = - \mathbb{E}_{(s_t, a_{base_t}) \sim D} \left[ Q_\phi(s_t, a_{base_t} + \pi_\theta(s_t, a_{base_t})) \right]
์ฃผ์ ์ค๊ณ ๊ฒฐ์ (Design Decisions)
์์ ์ ์ด๊ณ ์ํ ํจ์จ์ ์ธ ์์ฌ ๋ฏธ์ธ ์กฐ์ ์ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ์ค๊ณ ๊ฒฐ์ ๋ค์ด ์ ์ฉ๋์์ต๋๋ค:
- Update-to-Data (UTD) Ratio: ์ํ ํจ์จ์ฑ ํฅ์์ ์ํด 1๋ณด๋ค ํฐ UTD ๋น์จ์ ์ฌ์ฉํฉ๋๋ค.
- n-step Returns: ๊ธด ์๊ฐ ๋ฒ์์ ํฌ์ํ ๋ณด์ ์์ ์ ํจ๊ณผ์ ์ธ n-step return (๋ณธ ๋ ผ๋ฌธ์์๋ n=3)์ ์ฌ์ฉํฉ๋๋ค: \sum_{i=0}^{n-1} \gamma^i r_{t+i} + \gamma^n Q(s_{t+n}, a_{t+n}).
- Critic์ Layer Normalization: ํจ์ ๊ทผ์ฌ ์ฌ์ฉ์ผ๋ก ์ธํด ๋ฐ์ํ ์ ์๋ Q-ํจ์์ ๊ณผ๋ํ๊ฐ(overestimation)๋ฅผ ์ํํ๊ธฐ ์ํด ๋นํ๊ฐ์ Layer Normalization์ ์ถ๊ฐํฉ๋๋ค.
- TD3(Twin Delayed Deep Deterministic Policy Gradient) ๊ธฐ๋ฒ ์ ์ฉ: ๋ถ์์ ์ฑ์ ์ํํ๊ธฐ ์ํด ์ง์ฐ๋ ์กํฐ ์ ๋ฐ์ดํธ(delayed actor updates), Polyak ํ๊ท (Polyak averaging)์ ์ฌ์ฉํ ํ๊ฒ ๋คํธ์ํฌ ์ ๋ฐ์ดํธ, ํ๊ฒ ์ ์ฑ ์ค๋ฌด๋ฉ(target policy smoothing)์ ์ ์ฉํฉ๋๋ค.
- Randomized Ensembled Double Q-Learning (REDQ): ๊ณผ๋ํ๊ฐ ํธํฅ์ ์ค์ด๊ธฐ ์ํด Q-ํจ์ ์์๋ธ์ ์ฌ์ฉํ๋ฉฐ, TD-ํ๊ฒ ๊ณ์ฐ ์ ๋ฌด์์ ๋ถ๋ถ์งํฉ์ Q-ํจ์ ์ค ์ต์๊ฐ์ ์ฌ์ฉํ๊ณ , ์ ์ฑ ์ ๋ฐ์ดํธ ์์๋ ์ ์ฒด ์์๋ธ์ ํ์ฉํฉ๋๋ค.
- ์๊ฐ ์ ๋ ฅ ์ฒ๋ฆฌ: ์๊ฐ ์ ๋ ฅ์๋ DrQ ์คํ์ผ์ ๋ฌด์์ ์ฌํํธ ์ฆ๊ฐ(random shift augmentations)์ ์ ์ฉํ ์์ ViT ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๋์นญ ์ํ๋ง (Symmetric Sampling): ์จ๋ผ์ธ RL ๋จ๊ณ์์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ ์ํด ๊ฐ ๋ฐฐ์น(batch)์ 50%๋ ๊ณ ์ ๋ ์คํ๋ผ์ธ ๋ฐ๋ชจ ๋ฐ์ดํฐ์์, ๋๋จธ์ง 50%๋ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ ์จ๋ผ์ธ ๋ฒํผ์์ ์ํ๋งํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ
- ์๋ฎฌ๋ ์ด์
๊ฒฐ๊ณผ:
- ResFiT๋ ๋ชจ๋ ์๋ฎฌ๋ ์ด์ ์์ ์์ ๊ฑฐ์ ์๋ฒฝํ ์ ์ฑ ์ผ๋ก ์๋ ดํ๋ฉฐ, ์จ-์ ์ฑ (on-policy) RL ๋ฐฉ์์ธ PPO ๋๋น ์ฝ 200๋ฐฐ ๋์ ์ํ ํจ์จ์ฑ์ ๋ณด์์ต๋๋ค.
- ํนํ BoxCleanup, CanSort, Coffee์ ๊ฐ์ด DoF๊ฐ ๋๊ณ ์๊ฐ ๋ฒ์๊ฐ ๊ธด ์ด๋ ค์ด ์์ ์์ ResFiT๋ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ์ด๋ ์ด๋ธ๋ ์ด์ ๋ฒ์ ๋ณด๋ค ํจ์จ์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋๋ฌํ์ต๋๋ค.
- ํํฐ๋ง๋ BC(Filtered BC)๋ ์์ ์ ์ด์์ผ๋ ์ด๊ธฐ BC ์ ์ฑ ์ฑ๋ฅ์์ ์ต์ํ์ ๊ฐ์ ๋ง์ ๋ณด์ฌ, ์ ๋ฐ๋๊ฐ ์ค์ํ ์์ ์์๋ ๋ช ์์ ์ธ ๊ฐ์น ์ต๋ํ๊ฐ ํ์ํจ์ ์์ฌํ์ต๋๋ค.
- UTD ๋น์จ๊ณผ n-step return์ ์ค์์ฑ๋ ํ์ธ๋์์ผ๋ฉฐ, ํฌ์ํ ๋ณด์ ์์ ์์๋ 1๋ณด๋ค ํฐ n-step์ด ํ์์ ์์ ๋ณด์์ต๋๋ค.
- ์ค์ธ๊ณ RL ๊ฒฐ๊ณผ:
- 29-DoF ์ํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด Vega์์ WoollyBallPnP ๋ฐ PackageHandover ๋ ๊ฐ์ง ์์ ์ ResFiT๋ฅผ ์ ์ฉํ์ต๋๋ค.
- WoollyBallPnP ์์ ์์ ResFiT๋ 134๋ฒ์ ๋กค์์(์ฝ 15๋ถ ๋ก๋ด ์คํ ๋ฐ์ดํฐ) ํ ๊ธฐ๋ณธ ์ ์ฑ ์ 14% ์ฑ๊ณต๋ฅ ์ 64%๋ก ํฅ์์์ผฐ์ต๋๋ค.
- PackageHandover ์์ ์์๋ 343๋ฒ์ RL ์ํผ์๋(์ฝ 76๋ถ ๋ฐ์ดํฐ) ํ ๊ธฐ๋ณธ ์ ์ฑ ์ 23% ์ฑ๊ณต๋ฅ ์ 64%๋ก ๋์ด์ฌ๋ ธ์ต๋๋ค.
- ์ด๋ 5-fingered hand๋ฅผ ๊ฐ์ง ์ํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ค์ธ๊ณ RL์ ์ํํ ์ต์ด์ ์์ฐ์ผ๋ก ๋ณด๊ณ ๋ฉ๋๋ค.
๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ์ฌ์ ํ๋ จ๊ณผ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ๋ฅผ ๋ถ๋ฆฌํจ์ผ๋ก์จ BC ์ ์ฑ ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋์์ RL์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ธฐ๋ณธ ์ ์ฑ ์ ์ข์ ์ด๊ธฐํ๋ฅผ ์ ๊ณตํ ๋ฟ๋ง ์๋๋ผ, ์๋ฌต์ ์ธ ์์ ์ ์ฝ ์ญํ ๊ณผ ๊ฐ๋ ฅํ ํ์ ์ฌ์ ์ ๋ณด(exploration prior)๋ฅผ ์ ๊ณตํ์ฌ ๊ณ ์์ ๋ ํ๊ฒฝ์์ ํฌ์ํ ๋ณด์์ผ๋ก๋ RL์ด ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ResFiT์ ์ฃผ์ ํ๊ณ๋ ํ์ต๋ ํ๋์ด ๊ธฐ๋ณธ ์ ์ฑ ์ฃผ๋ณ์ ์ ์ฝ๋ ์ ์๋ค๋ ์ ์ด์ง๋ง, ์ค์ธ๊ณ ๊ฒ์ฆ์ ํตํด ์ํ ํจ์จ์ ์ธ RL์ด ์ํ ์กฐ์ ํ๋ซํผ์์ ์ฑ๊ณต์ ์ผ๋ก ์๋ํจ์ ์ ์ฆํ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ๋ก๋ด ํ์ต์ ๋ ๊ฐ์ง ํจ๋ฌ๋ค์์ด ๋ง๋๋ค
๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ๋ถ์ผ์์ ์ผํ๋ค ๋ณด๋ฉด ํ ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ๋๋ ๋ง์ ์์ฃผ ๋ง์ฃผ์น๊ฒ ๋ฉ๋๋ค. Behavior Cloning(BC)์ ์ธ์์ ์ธ visuomotor ์ ์ฑ ์ ๋ง๋ค์ด๋ด์ง๋ง, ๊ฒฐ๊ตญ ์ธ๊ฐ ์์ฐ์ ํ์ง์ ๊ฐํ๋ฒ๋ฆฝ๋๋ค. ์๋ฌด๋ฆฌ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํด๋ ์ด๋ ์๊ฐ ์ฑ๋ฅ์ด ์ ์ฒด๋๊ณ , ํ ๋ ์คํผ๋ ์ดํฐ์ ์ค์๋ ๋ถ์ ํํจ์ ๊ณ ์ค๋ํ ๋ฌผ๋ ค๋ฐ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ฉด Reinforcement Learning(RL)์ ์์จ์ ์ผ๋ก ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ํ์ตํ ์ ์์ง๋ง, ์ค์ ๋ก๋ด์์์ ์ํ ๋นํจ์จ์ฑ๊ณผ ์์ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ๊ณ ์์ ๋ ์์คํ ์์์ sparse reward ํ์ต ๋์ด๋๋ ์ฌ์ ํ ๊ทน๋ณตํ๊ธฐ ์ด๋ ค์ด ์ฅ๋ฒฝ์ ๋๋ค.
์ค๋ ๋ฆฌ๋ทฐํ ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด ๋ ํจ๋ฌ๋ค์์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ค๋ ์๋์ ๋๋ค. ๋ ์ ํํ ๋งํ๋ฉด, BC๋ก ํ์ต๋ ์ ์ฑ ์ โ๋ธ๋๋ฐ์คโ๋ก ์ทจ๊ธํ๊ณ , ๊ทธ ์์ ๊ฒฝ๋์ per-step residual correction์ off-policy RL๋ก ํ์ตํ๋ ์ ๊ทผ๋ฒ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ResFiT(Residual Fine-Tuning)์ด๋ผ ๋ช ๋ช ํ๊ณ , ์๋ฎฌ๋ ์ด์ ๋ฟ ์๋๋ผ ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ธ๊ณ ์ต์ด๋ก dexterous hand๋ฅผ ๊ฐ์ง ๋ก๋ด์ ์ค์ธ๊ณ RL ํ์ต์ ์์ฐํฉ๋๋ค.
์ด ๋ฆฌ๋ทฐ์์๋ ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ์ ๊น์ด ํ๊ณ ๋ค๋ฉฐ, ์ ์ด ์ ๊ทผ๋ฒ์ด ์๋ํ๋์ง, ์ด๋ค ์ค๊ณ ๊ฒฐ์ ์ด ์ค์ํ์ง, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ก์ ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ธ ์ ์๋ ์ค์ฉ์ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํด๋ณด๊ฒ ์ต๋๋ค.
1. ์ฐ๊ตฌ ๋๊ธฐ: BC์ RL์ ํ๊ณ๋ฅผ ๋์ด์
1.1 Behavior Cloning์ ๊ตฌ์กฐ์ ํ๊ณ
์ต๊ทผ ๋ช ๋ ๊ฐ BC๋ ๋๋ผ์ด ๋ฐ์ ์ ์ด๋ค์ต๋๋ค. Diffusion Policy, ACT(Action Chunking with Transformers), ฯ0 ๊ฐ์ ๋ชจ๋ธ๋ค์ ์๋ฐฑ๋ง ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์ ํ์ฉํด ๋ณต์กํ visuomotor ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ํนํ action chunkingโํ ๋ฒ์ ์ฌ๋ฌ ํ์์คํ ์ ์ก์ ์ ์์ธกํ๋ ๋ฐฉ์โ์ imitation learning์์ compounding error๋ฅผ ์ค์ด๋ ํจ๊ณผ์ ์ธ ๊ธฐ๋ฒ์ผ๋ก ์๋ฆฌ์ก์์ต๋๋ค.
ํ์ง๋ง BC์๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์์ต๋๋ค:
- ์์ฐ ํ์ง์ ์ฒ์ฅ: ์๋ฌด๋ฆฌ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํด๋ ํ ๋ ์คํผ๋ ์ดํฐ์ ์ฑ๋ฅ์ ๋์ด์๊ธฐ ์ด๋ ต์ต๋๋ค
- Diminishing returns: ์ต๊ทผ ์ฐ๊ตฌ๋ค์ด ์ผ๊ด๋๊ฒ ๋ณด์ฌ์ฃผ๋ฏ, ์์ฐ ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐํด๋ ์ฑ๋ฅ ํฅ์์ ์ ์ ๋ํ๋ฉ๋๋ค
- Distribution shift: ํ์ต ์ค ๋ณด์ง ๋ชปํ ์ํ์์์ ์๋ฌ๊ฐ ๋์ ๋๋ฉฐ, ์ด๋ ๊ธด horizon ํ์คํฌ์์ ํนํ ์น๋ช ์ ์ ๋๋ค
- Reactivity ๋ถ์กฑ: Action chunking์ horizon์ ์ค์ด์ง๋ง, open-loop ์คํ ํน์ฑ์ ์ฌ์ธํ ๋ฐ์์ฑ์ด ๋จ์ด์ง๋๋ค
1.2 Reinforcement Learning์ ์ค์ธ๊ณ ์ ์ฉ ๋์
RL์ ์ด๋ก ์ ์ผ๋ก ์์จ์ ๊ฐ์ ์ด ๊ฐ๋ฅํ์ง๋ง, ์ค์ ๋ก๋ด์์์ ์ ์ฉ์๋ ์๋ง์ ์ฅ์ ๋ฌผ์ด ์์ต๋๋ค:
- Sample inefficiency: ํนํ on-policy ๋ฐฉ๋ฒ(PPO ๋ฑ)์ ์์ฒ๋ง ์คํ ์ ๋ฐ์ดํฐ๊ฐ ํ์ํ ์ ์์ต๋๋ค
- ์์ ๋ฌธ์ : ํํ ๊ณผ์ ์์ ๋ก๋ด์ด๋ ํ๊ฒฝ์ ์์์ ์ค ์ํ
- Sparse reward์ ์ด๋ ค์: ๊ณ ์์ ๋ ์์คํ ์์ ๋ฌด์์ ํํ์ผ๋ก ์ฑ๊ณต์ ๋ฌ์ฑํ๊ธฐ๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค
- ์ํคํ ์ฒ ํธํ์ฑ: Action chunking์ด๋ diffusion ๊ธฐ๋ฐ BC ๋ชจ๋ธ์ RL์ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค
1.3 ๊ธฐ์กด ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ๋ค์ ํ๊ณ
BC์ RL์ ๊ฒฐํฉํ๋ ค๋ ์๋๋ ์ด์ ์๋ ์์์ต๋๋ค:
- IBRL: BC ์ ์ฑ ์ ์ฌ์ฉํด ์ก์ ์ ์ ์ํ๊ณ ํ๊ฒ ๊ฐ์ ๋ถํธ์คํธ๋ฉํ์ง๋ง, ๋ณต์กํ ํ์คํฌ์์ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค
- PA-RL: Q-function์ผ๋ก ์ก์ ์ ์ต์ ํํ์ง๋ง ์ ์ฑ ์์ฒด๋ฅผ ๊ฐ์ ํ์ง ์์ต๋๋ค
- Policy Decorator: ์ ์ฒด ์ก์ ์ฒญํฌ์ ๋ํ residual์ ํ์ตํ์ง๋ง, ์๋ฎฌ๋ ์ด์ ๊ณผ ๋จ์ผ ์ ํ์คํฌ๋ก ์ ํ๋ฉ๋๋ค
- ResiP: On-policy PPO๋ก residual์ ํ์ตํ์ง๋ง, ์ํ ํจ์จ์ฑ์ด ๋๋ฌด ๋ฎ์ ์ค์ธ๊ณ ์ ์ฉ์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค
2. ResFiT: ๋ฐฉ๋ฒ๋ก ์ ํต์ฌ
2.1 ์ ์ฒด ํ๋ ์์ํฌ ๊ฐ์
ResFiT์ ํต์ฌ ์์ด๋์ด๋ ๋๋๋๋ก ๋จ์ํฉ๋๋ค:
- Phase 1 (BC): ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ action chunking์ ์ฌ์ฉํ base policy ฯ_base๋ฅผ ํ์ต
- Phase 2 (Residual RL): Base policy๋ฅผ freezeํ๊ณ , per-step residual correction ฯ_res๋ฅผ off-policy RL๋ก ํ์ต
์ต์ข ์ก์ ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
a_t = a_t^base + a_t^res
์ฌ๊ธฐ์ a_t^base๋ frozen base policy์ ์ถ๋ ฅ(action chunk์ ํ์ฌ ์คํ )์ด๊ณ , a_t^res๋ residual policy๊ฐ ์์ธกํ ๋ณด์ ๊ฐ์ ๋๋ค.
2.2 Base Policy: Action Chunking๊ณผ BC
Base policy๋ ๊ด์ธก o_t๋ฅผ ๋ฐ์ k๊ฐ์ ๋ฏธ๋ ์ก์ ์ํ์ค๋ฅผ ์์ธกํฉ๋๋ค:
ฯ_ฯ(a_{t:t+k} | o_t)
ํ์ต์ ์์ฐ ๋ฐ์ดํฐ์ ๋ํ log-likelihood ์ต๋ํ๋ก ์ํ๋ฉ๋๋ค:
min_ฯ -E_{o_t, a_{t:t+k} โ D_demos} [log ฯ_ฯ(a_{t:t+k} | o_t)]
Action chunking์ ์ฅ์ ์ ์ ์๋ ค์ ธ ์์ต๋๋ค: - ํ์คํฌ์ effective horizon ๊ฐ์ - Compounding error ์ํ - Temporal consistency ํฅ์
2.3 Residual Policy์ ์ค๊ณ
Residual policy๋ ๋ค์์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค: - ํ์ฌ ๊ด์ธก s_t (๋๋ o_t) - Base policy์ ํ์ฌ ์คํ ์ก์ a_t^base
๊ทธ๋ฆฌ๊ณ ๋ณด์ ๊ฐ a_t^res๋ฅผ ์ถ๋ ฅํฉ๋๋ค:
ฯ_res(s_t, a_t^base) โ a_t^res
์ด ์ค๊ณ์ ํต์ฌ ์ฅ์ ๋ค:
- Base policy agnostic: Base policy์ ์ํคํ ์ฒ(diffusion, transformer ๋ฑ)์ ๋ฌด๊ดํ๊ฒ ์ ์ฉ ๊ฐ๋ฅ
- ์์ ์ฑ: Residual์ ํฌ๊ธฐ๋ฅผ ์ ์ดํจ์ผ๋ก์จ base policy ๊ทผ์ฒ์์ ์์ ํ ํํ ๊ฐ๋ฅ
- Per-step correction: Action chunk ์ ์ฒด๊ฐ ์๋ ๊ฐ๋ณ ์คํ ์์ ๋ณด์ ํ๋ฏ๋ก reactivity ํฅ์
- ๊ฒฝ๋ ๋ชจ๋ธ: ์๋ฐฑ๋ง ํ๋ผ๋ฏธํฐ์ base policy์ ๋ฌ๋ฆฌ, residual policy๋ ์๋์ ์ผ๋ก ์์ ๋คํธ์ํฌ
2.4 Off-Policy RL์ ์ํ์ ๊ธฐ์ด
์ ์๋ค์ DDPG ์คํ์ผ์ actor-critic ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Critic (Q-function)
Bellman equation์ ๊ธฐ๋ฐ์ผ๋ก Q-function์ ํ์ตํฉ๋๋ค:
Q*(s, a) = E[r + ฮณ max_{a'} Q*(s', a')]
Residual ์ธํ ์์ ์ด๋ฅผ ํ์ฅํ๋ฉด:
L_critic(ฯ) = E_{(s,a,r,s') ~ D} [(Q_ฯ(s, a^base + a^res) - y)ยฒ]
์ฌ๊ธฐ์ ํ๊ฒ y๋:
y = r + ฮณ Q_ฯ'(s', a'^base + ฯ_ฮธ'(s', a'^base))
Actor (Residual Policy)
Q-function์ gradient๋ฅผ ํตํด policy๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค:
โ_ฮธ J = E_s [โ_{a^res} Q_ฯ(s, a^base + a^res) ยท โ_ฮธ ฯ_ฮธ(s, a^base)]
์ด ๊ตฌ์กฐ์์ critic์ โbase + residualโ ์ ์ฒด ์ก์ ์ ๊ฐ์น๋ฅผ ํ๊ฐํ๊ณ , actor๋ residual๋ง ์กฐ์ ํฉ๋๋ค.
3. ํต์ฌ ์ค๊ณ ๊ฒฐ์ ๋ค: ์ค์ธ๊ณ RL์ ๊ฐ๋ฅ์ผ ํ ๋น๋ฐ
์ ์๋ค์ ๋จ์ํ off-policy RL์ residual ํ์ต์ ์ ์ฉํ ๊ฒ์ด ์๋๋๋ค. ์ค์ธ๊ณ ๋ก๋ด์์ ์๋ํ ์ ์๋๋ก ์๋ง์ ์ธ๋ถ ์ค๊ณ ๊ฒฐ์ ๋ค์ ์ ์คํ๊ฒ ์กฐํฉํ์ผ๋ฉฐ, ์ด๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ์ง์ ํ ๊ธฐ์ฌ์ ๋๋ค.
3.1 Update-to-Data (UTD) Ratio
UTD ratio๋ ์์ง๋ ๋ฐ์ดํฐ ํฌ์ธํธ๋น ์ํํ๋ ๋ชจ๋ธ ์ ๋ฐ์ดํธ ํ์๋ฅผ ์๋ฏธํฉ๋๋ค.
์ ์๋ค์ UTD=4๋ฅผ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ: - UTD=0.5: ํ์ต์ด ๋์ ๋๊ฒ ๋๋ฆผ - UTD=4: ๋๋ถ๋ถ์ ์ด๋์ ์ป์ - UTD=8+: ์ถ๊ฐ ์ด๋์ด ๋ฏธ๋ฏธํ๋ฉฐ ์คํ๋ ค ๋ถ์์ ํด์ง ์ ์์
์ด๋ ์ํ ํจ์จ์ฑ๊ณผ ํ์ต ์์ ์ฑ ์ฌ์ด์ ๊ท ํ์ ์ ์ฐพ๋ ๊ฒ์ ๋๋ค. Horizon์ด 150-250 ์คํ ์ธ ํ์คํฌ์์ UTD=4๊ฐ ์ต์ ์ด๋ผ๋ ๊ฒ์ ์ค์ฉ์ ์ผ๋ก ๋งค์ฐ ์ ์ฉํ ๊ฐ์ด๋๋ผ์ธ์ ๋๋ค.
3.2 N-step Returns
Sparse reward ํ๊ฒฝ์์ 1-step TD learning์ reward ์ ํธ๊ฐ Q-function๊น์ง ์ ํ๋๋ ๋ฐ ๋๋ฌด ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฝ๋๋ค.
์ ์๋ค์ n=5 step returns๋ฅผ ์ฌ์ฉํฉ๋๋ค:
G_t^{(n)} = r_t + ฮณr_{t+1} + ... + ฮณ^{n-1}r_{t+n-1} + ฮณ^n Q(s_{t+n}, a_{t+n})
์คํ์์ ๊ด์ฐฐ๋ ํจํด: - n=1: Sparse reward์์ ์ฑ๋ฅ ์ ํ - n=5: ์ต์ ์ ์ฑ๋ฅ - n>10: Bias ์ฆ๊ฐ๋ก ์ธํ ์ฑ๋ฅ ์ ํ
์ด๋ โvariance vs biasโ ํธ๋ ์ด๋์คํ์ ์ ํ์ ์ธ ์์ ๋๋ค.
3.3 Layer Normalization
Off-policy RL์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ์ค ํ๋๋ Q-function์ catastrophic overestimation์ ๋๋ค. Out-of-distribution ์ก์ ์ ๋ํด Q ๊ฐ์ด ๋น์ ์์ ์ผ๋ก ๋๊ฒ ์ถ์ ๋๋ฉด, policy๊ฐ ์ด๋ฅผ exploitํ๋ฉฐ ํ์ต์ด ๋ถ๊ดดํฉ๋๋ค.
์ ์๋ค์ RLPD์์ ์๊ฐ์ ๋ฐ์ critic MLP์ layer normalization์ ์ ์ฉํฉ๋๋ค. ์ด๋ Q ๊ฐ์ ๋ฒ์๋ฅผ ์๋ฌต์ ์ผ๋ก ์ ํํ์ฌ overestimation์ ์ํํฉ๋๋ค.
Ablation ๊ฒฐ๊ณผ, layer norm ์์ด๋ ํนํ ๋ณต์กํ ํ์คํฌ(Coffee ๋ฑ)์์ ํ์ต์ด ์คํจํฉ๋๋ค.
3.4 Randomized Ensembled Double Q-Learning (REDQ)
REDQ๋ ์ฌ๋ฌ Q-function์ ์์๋ธ์ ์ฌ์ฉํฉ๋๋ค: - TD ํ๊ฒ ๊ณ์ฐ ์: ๋๋ค subset์ Q-function๋ค ์ฌ์ฉ - Policy ์ ๋ฐ์ดํธ ์: ์ ์ฒด ์์๋ธ์ ํ๊ท ์ฌ์ฉ
์ด ์ญ์ overestimation bias๋ฅผ ์ค์ด๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
3.5 Symmetric Sampling
RLPD์์ ๋์ ๋ ์ด ๊ธฐ๋ฒ์ ๊ฐ training batch์ 50%๋ฅผ ์คํ๋ผ์ธ demonstration ๋ฐ์ดํฐ์์, ๋๋จธ์ง 50%๋ฅผ ์จ๋ผ์ธ ๋ฒํผ์์ ์ํ๋งํฉ๋๋ค.
์ด๊ฒ์ด ์ค์ํ ์ด์ : - Demonstration ๋ฐ์ดํฐ๋ ๊ณ ํ์ง์ state-action ์์ ์ ๊ณต - ํ์ต ์ด๊ธฐ์ critic์ด ์์ ์ ์ธ ๊ฐ์ ํ์ตํ ์ ์๋๋ก ๋์ - ์จ๋ผ์ธ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋๋ฌํ๊ธฐ ์ด๋ ค์ด ์ํ ๊ณต๊ฐ์ ์ปค๋ฒ
3.6 Delayed Actor Updates
TD3์์ ์ ๋ํ ์ด ๊ธฐ๋ฒ์ actor๋ฅผ critic๋ณด๋ค ๋ ์์ฃผ ์ ๋ฐ์ดํธํฉ๋๋ค(์: critic 2-8ํ ์ ๋ฐ์ดํธ๋น actor 1ํ).
์์ง ์ ํํ์ง ์์ Q-function์ผ๋ก policy๋ฅผ ์ ๋ฐ์ดํธํ๋ฉด ๋ถ์์ ํด์ง๊ธฐ ๋๋ฌธ์, critic์ด ๋จผ์ ์๋ ดํ ์๊ฐ์ ์ฃผ๋ ๊ฒ์ ๋๋ค.
3.7 Target Policy Smoothing
Q ํ๊ฒ ๊ณ์ฐ ์ ํ๊ฒ policy์ ์ก์ ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํฉ๋๋ค:
a' = ฯ_ฮธ'(s') + clip(ฮต, -c, c), ฮต ~ N(0, ฯ)
์ด๋ Q-function์ด ํน์ ์ก์ ์ ๋ํด ๋ ์นด๋ก์ด ํผํฌ๋ฅผ ํ์ฑํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ณ , ๋ smoothํ ๊ฐ ์ถ์ ์ ์ ๋ํฉ๋๋ค.
3.8 Visual Encoder: Shallow ViT + DrQ Augmentation
์ด๋ฏธ์ง ๊ด์ธก์ ์ฒ๋ฆฌํ๊ธฐ ์ํด: - Shallow ViT encoder: ๊น์ CNN ๋์ ์๋์ ์ผ๋ก ์์ Vision Transformer ์ฌ์ฉ - DrQ-style random shift augmentation: ์ด๋ฏธ์ง์ ๋๋ค ์ด๋์ ์ ์ฉํ์ฌ overfitting ๋ฐฉ์ง
Vision-based RL์์ data augmentation์ ์ํ ํจ์จ์ฑ์ ํต์ฌ์ ์ ๋๋ค.
4. ์คํ ํ๊ฒฝ๊ณผ ์ค์
4.1 ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ
์ ์๋ค์ ํ์ค์ ์ธ ์ ์ฝ ์กฐ๊ฑด์ ์๋ฎฌ๋ ์ด์ ์์๋ ์ ์งํฉ๋๋ค: - ๋จ์ผ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ (๋ณ๋ ฌํ ์์) - ์ด๋ฏธ์ง + ๋ก๋ด ๊ด์ ์ํ ๊ด์ธก (privileged object ์ํ ์ ๋ณด ์์) - Sparse binary reward
Robomimic ํ์คํฌ: - Can: ์บ์ ์ง์ด์ bin์ ๋๊ธฐ (7-DoF Franka, ๋จ์ผ ์) - Square: ์ฌ๊ฐํ ๊ฐ์ฒด๋ฅผ ์ ํํ ์์น์ ์กฐ๋ฆฝ (๋์ ์ ๋ฐ๋ ์๊ตฌ)
DexMimicGen ํ์คํฌ (bimanual + dexterous hands): - BoxCleanup: ๋ ํ๋ก ๋ฐ์ค ๋๊ป์ ์ง์ด์ ๋ฐ์ค ์์ ์ ํํ ๋๊ธฐ (dual Franka) - CanSort: ์ค๋ฆฐ๋๋ฅผ ํ ์์์ ๋ค๋ฅธ ์์ผ๋ก ๊ฑด๋ค๊ธฐ (GR1 ํด๋จธ๋ ธ์ด๋) - Coffee: ์ปคํผ ํฌ๋๋ฅผ ์ง์ด์ ์ปคํผ ๋จธ์ ์ ๋ฃ๊ณ ๋๊ป ๋ซ๊ธฐ (GR1, ๊ฐ์ฅ ๊ธด horizon)
Bimanual ํ์คํฌ๋ค์ 24์ฐจ์ action space (ํ๋น 6-DoF EE pose + ์๋น 6-DoF ๊ด์ )๋ฅผ ๊ฐ์ง๋๋ค.
4.2 ์ค์ธ๊ณ ํ๊ฒฝ
๋ก๋ด ํ๋ซํผ: Dexmate Vega ํ ํด๋จธ๋ ธ์ด๋ - 7-DoF ์ํ - 6-DoF OyMotion dexterous hands (์์) - Zed ์นด๋ฉ๋ผ (๋จธ๋ฆฌ ์ฅ์ฐฉ) - ์ด 29์ฐจ์ action space (์ ๋ ๊ด์ ์์น ์ ์ด)
ํ์คํฌ: - WoollyBallPnP: ํ ์ด๋ธ ์ ์์ ์์น์ ํธ์ค ๊ณต์ ์ง์ด์ tote์ ๋ฃ๊ธฐ - PackageHandover: ๋ณํ ๊ฐ๋ฅํ ํจํค์ง๋ฅผ ์ค๋ฅธ์์ผ๋ก ์ง๊ณ , ์ผ์์ ๊ฑด๋ค๊ณ , ์ผ์ชฝ tote์ ๋๊ธฐ
์์ ์ธํ๋ผ: - ์๋ชฉ force-torque ์ผ์๋ฅผ ํ์ฉํ ์์ ์ ํ - ์๊ธฐ ์ถฉ๋ ๋ฐฉ์ง ์ฒดํฌ
Asynchronous Actor-Learner: ๋์ UTD๋ก ์ธํ ๋ณ๋ชฉ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์์ง๊ณผ ๋ชจ๋ธ ํ์ต์ ๋ณ๋ ํ๋ก์ธ์ค๋ก ๋ถ๋ฆฌ
4.3 ๋น๊ต ๋์
- Tuned RLPD: ResFiT์ ๋ชจ๋ off-policy ์ค๊ณ ๊ฒฐ์ ์ ์ ์ฉํ์ง๋ง, base policy ์์ด ์ฒ์๋ถํฐ single-step policy ํ์ต
- IBRL: BC policy๋ฅผ ์ฌ์ฉํด ์ก์ ์ ์ ๋ฐ ํ๊ฒ ๋ถํธ์คํธ๋ํ
- Filtered BC: Base policy๋ฅผ ์จ๋ผ์ธ ์ฑ๊ณต trajectory๋ก ๊ณ์ fine-tuning (reward-weighted regression์ 0/1 ๋ฒ์ )
- On-policy Residual (PPO): ResiP ๋ฐฉ์์ on-policy residual RL
5. ์คํ ๊ฒฐ๊ณผ ์ฌ์ธต ๋ถ์
5.1 ์ํ ํจ์จ์ฑ: On-policy vs Off-policy
BoxCleanup ํ์คํฌ์์์ ๋น๊ต: - PPO (on-policy): 40M ์คํ ์์ ์๋ ด - ResFiT (off-policy): 200k ์คํ ์์ ์๋ ด
์ด๋ 200๋ฐฐ์ ์ํ ํจ์จ์ฑ ํฅ์์ ๋๋ค. ์ค์ธ๊ณ ๋ก๋ด์์ 40M ์คํ ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํฉ๋๋ค. 20Hz ์ ์ด ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ ํ๋ฉด: - 40M ์คํ โ 556์๊ฐ (์ฝ 23์ผ ์ฐ์ ๊ฐ๋) - 200k ์คํ โ 2.8์๊ฐ
์ด ์ฐจ์ด๋ โ์ค์ธ๊ณ RL์ด ๊ฐ๋ฅํ๊ฐโ์ ๋ถ๊ธฐ์ ์ ๋๋ค.
5.2 ํ์คํฌ๋ณ ์ฑ๋ฅ ๋ถ์
Can (๋จ์ ํ์คํฌ): - ๋ชจ๋ ๋ฐฉ๋ฒ์ด 150k ์คํ ๋ด ๋์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ - ResFiT์ด ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์๋ ด (75k ์คํ )
Square (์ ๋ฐ๋ ์๊ตฌ): - ResFiT๊ณผ Tuned RLPD๋ง 90% ์ด์ ๋ฌ์ฑ - IBRL, Filtered BC๋ ์ ์ฒด
BoxCleanup (bimanual ํ์กฐ): - Baseline๋ค์ 0%๋ก ๋ถ๊ดดํ๊ฑฐ๋ ๋๋ฆฐ ์๋ ด - ResFiT์ ์์ ์ ์ผ๋ก 95%+ ๋๋ฌ
CanSort (hand-to-hand transfer): - ์ ์ฌํ ํจํด, ResFiT ์ฐ์
Coffee (๊ฐ์ฅ ๊ธด horizon + ๋์ ์ ๋ฐ๋): - Action chunking ์๋ ๋ชจ๋ ๋ฐฉ๋ฒ ์คํจ - ResFiT๋ง ์์ ์ ํ์ต - Tuned RLPD๋ ์คํจ (action chunking์ ์ค์์ฑ ์ ์ฆ)
5.3 Filtered BC์ ํ๊ณ
ํฅ๋ฏธ๋กญ๊ฒ๋, Filtered BC๋ ์ฑ๊ณต trajectory๋ง ์ ํํด BC๋ฅผ ๊ณ์ํ๋ ํฉ๋ฆฌ์ ์ธ ์ ๊ทผ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์ค์ ๋ก๋ ๊ฑฐ์ ๊ฐ์ ์ด ์์ต๋๋ค.
์ ์๋ค์ ๋ถ์: ์ฃผ์ ์คํจ ๋ชจ๋๊ฐ ์ ๋ฐ๋์ผ ๋, ๋ช ์์ ์ธ value maximization ์์ด๋ ๊ฐ์ ํ๊ธฐ ์ด๋ ต๋ค. BC๋ โ์ด๋ค ํ๋์ด ๋ ๋์๊ฐโ๋ฅผ ํ๋จํ์ง ์๊ณ ๋จ์ํ ์์ฐ์ ๋ชจ๋ฐฉํ ๋ฟ์ ๋๋ค.
5.4 ์ค์ธ๊ณ ๊ฒฐ๊ณผ
WoollyBallPnP: - BC (ACT): 14% ์ฑ๊ณต๋ฅ - ResFiT ํ: 64% ์ฑ๊ณต๋ฅ (+50%p) - ์ฌ์ฉ๋ ๋ฐ์ดํฐ: 134 ์ํผ์๋ (์ฝ 71๋ถ์ ๋ก๋ด ์คํ ๋ฐ์ดํฐ)
PackageHandover: - BC (ACT): 23% ์ฑ๊ณต๋ฅ - ResFiT ํ: 64% ์ฑ๊ณต๋ฅ (+41%p) - ์ฌ์ฉ๋ ๋ฐ์ดํฐ: 343 ์ํผ์๋ (์ฝ 123๋ถ)
์ ์๋ค์ ์ด๊ฒ์ด ์ํ dexterous ํด๋จธ๋ ธ์ด๋์์ ์์ ํ ์ค์ธ๊ณ์์ ํ์ต๋ ์ฒซ ๋ฒ์งธ RL ๋ฐ๋ชจ๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค.
5.5 Ablation Studies ์์ฝ
| ์ค๊ณ ๊ฒฐ์ | ์ ๊ฑฐ ์ ์ํฅ |
|---|---|
| Layer Norm | Coffee์์ ์์ ์คํจ, ๋ค๋ฅธ ํ์คํฌ๋ ์ฑ๋ฅ ์ ํ |
| Demo during RL | Coffee์์๋ ์ํฅ ์ ์, ๋ค๋ฅธ ํ์คํฌ์์ ์ฝ๊ฐ์ ์ ํ |
| n-step returns (n=1) | Sparse reward ํ์คํฌ์์ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ |
| UTD < 1 | ์๋ ด ์๋ ํ์ ํ ๋๋ฆผ |
6. ๊ธฐ์ ์ ์ธ์ฌ์ดํธ์ ํ ๋ก
6.1 Base Policy์ ์ด์ค ์ญํ
์ ์๋ค์ด ๋ฐ๊ฒฌํ ์ค์ํ ํต์ฐฐ:
1. ์๋ฌต์ ์์ ์ ์ฝ Base policy ์์ด ํ์ต๋ ์ ์ฑ ์ ๋ ๋น ๋ฅด์ง๋ง ๊ณต๊ฒฉ์ ์ธ ํ๋์ ๋ณด์ ๋๋ค. ์ค์ธ๊ณ ๋ฐฐํฌ์๋ ๋ถ์ ํฉํฉ๋๋ค. Frozen base policy๋ ํํ์ ์์ ํ ์์ญ์ผ๋ก ์ ํํฉ๋๋ค.
2. ๊ฐ๋ ฅํ ํํ prior ๊ณ ์์ ๋ ๊ณต๊ฐ์์ sparse reward๋ก ํ์ตํ๋ ค๋ฉด, ๋ฌด์์ ํํ์ผ๋ก๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค. Base policy๋ โ๋๋ต์ ์ผ๋ก ์ณ์โ ํ๋์ ์ ๊ณตํ๊ณ , residual์ ์ด๋ฅผ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค.
6.2 ์ Per-step Residual์ธ๊ฐ?
Policy Decorator ๊ฐ์ ๋ฐฉ๋ฒ์ action chunk ์ ์ฒด์ ๋ํ residual์ ํ์ตํฉ๋๋ค. ํ์ง๋ง ResFiT์ per-step correction์ ์ ํํ์ต๋๋ค.
์ด์ : - Reactivity: ๊ฐ ์คํ ์์ ๊ด์ธก์ ๋ฐ์ํ ์ ์์ - ๋ ์์ action space: Chunk ์ ์ฒด๊ฐ ์๋ ๋จ์ผ ์คํ ์ก์ ๋ง ์์ธก - Action chunk ํฌ๊ธฐ์ ๋ฌด๊ด: Base policy์ chunk ํฌ๊ธฐ๊ฐ ๋ฐ๋์ด๋ residual policy๋ ๋์ผ
6.3 Off-policy์ ํต์ฌ์ ์ค์์ฑ
On-policy ๋ฐฉ๋ฒ(PPO)๊ณผ์ 200๋ฐฐ ํจ์จ์ฑ ์ฐจ์ด๋ ๋จ์ํ โ๋ ๋น ๋ฅด๋คโ๋ฅผ ๋์ด์๋ ์๋ฏธ๊ฐ ์์ต๋๋ค.
์ค์ธ๊ณ ๋ก๋ด RL์์: - ๋ก๋ด ๋ง๋ชจ์ ํผ๋ก - ์ธ๊ฐ ๊ฐ๋ ์์ ์๊ฐ ๋น์ฉ - ํ๊ฒฝ ๋ฆฌ์ ์ ์ด๋ ค์
์ด ๋ชจ๋ ๊ฒ์ด sample efficiency๋ฅผ critical factor๋ก ๋ง๋ญ๋๋ค.
6.4 Action Chunking์ ์๋ฉด์ฑ
Coffee ํ์คํฌ์์ action chunking ์๋ ๋ชจ๋ ๋ฐฉ๋ฒ์ด ์คํจํ์ต๋๋ค. ์ด๋ BC์์ action chunking์ด ์ ๊ณตํ๋ ์ฅ์ ์ด RL์์๋ ์ ์ง๋จ์ ๋ณด์ฌ์ค๋๋ค: - ๊ธด horizon ํ์คํฌ์์์ temporal consistency - Compounding error์ implicit ์ํ
ํ์ง๋ง ๋์์, action chunking์ RL ์ต์ ํ๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค (action space ํญ๋ฐ). ResFiT์ base policy์์ ์ด ์ฅ์ ์ ์ ์งํ๋ฉด์, per-step residual๋ก ์ต์ ํ tractability๋ฅผ ํ๋ณดํฉ๋๋ค.
6.5 ํ๊ณ์
์ ์๋ค์ด ๋ช ์ํ ํ๊ณ:
1. Base policy์ ์ข ์ Residual์ base policy๊ฐ ์ด๋ฏธ ์ธ์ฝ๋ฉํ ์ ๋ต ๋ฒ์ ๋ด์์๋ง ๊ฐ์ ํ ์ ์์ต๋๋ค. ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์คํฌ์ด๋ ์ ๋ต์ ๋ฐ๊ฒฌํ ์ ์์ต๋๋ค.
2. ์ธ๊ฐ ๊ฐ๋ ํ์ ํ์ฌ ์์คํ ์ ๋ฆฌ์ ๊ณผ reward labeling์ ์ธ๊ฐ ๊ฐ๋ ์ด ํ์ํฉ๋๋ค. ์์ ์์จ์ ์ธ ์คํฌ ๊ฐ์ ์๋ ์๋ ๋ฆฌ์ ๊ณผ ์ฑ๊ณต ๊ฐ์ง ๋ฉ์ปค๋์ฆ์ด ํ์ํฉ๋๋ค.
3. Frozen base ์ ์ฝ Base policy๋ฅผ freezeํ๋ฉด ์์ ์ฑ์ด ํ๋ณด๋์ง๋ง, base policy ์์ฒด์ ๊ฐ์ ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
7. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ด ์ ์ํ ๋ฐฉํฅ:
7.1 Frozen Base ์ ์ฝ ์ํ
์์ ์ฑ์ ์ ์งํ๋ฉด์ base policy๋ ํจ๊ป ๊ฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์์๊น์? ์ด๋ โ์ผ๋ง๋ ์ ์ฝ์ ํ์ด๋ ํ์ต์ด ๋ฐ์ฐํ์ง ์๋๊ฐโ์ ๋ฌธ์ ์ ๋๋ค.
7.2 Knowledge Distillation
Combined policy (base + residual)์ ๊ฐ์ ๋ ํ๋์ ๋ค์ base policy๋ก distillํ๋ฉด, residual์ด ๋ ๊ฐ์ ํ ์ฌ์ง๊ฐ ์๊น๋๋ค. ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด iterative improvement๊ฐ ๊ฐ๋ฅํ ์ ์์ต๋๋ค.
7.3 Multi-task Generalization
ํ์คํฌ๋ณ residual ๊ฐ์ ์ ์ ์ ๋ ๋ฅ๋ ฅ ์๋ generalist๋ก distillํ๋ ๊ฒ. ResFiT์ base model agnosticํ๋ฏ๋ก, ๋๊ท๋ชจ multi-task behavior model์ fine-tuning์๋ ์ ์ฉ ๊ฐ๋ฅํ ์ ์์ต๋๋ค.
7.4 ์๋ํ๋ ์ธํ๋ผ
์๋ ๋ฆฌ์ , ์ฑ๊ณต ๊ฐ์ง, safety rails๊ฐ ๊ฐ์ถฐ์ง๋ฉด ์ธ๊ฐ ๊ฐ๋ ์์ด ์์จ์ ์คํฌ ๊ฐ์ ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
8. ์ค์ฉ์ ์์ฌ์ : ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ฅผ ์ํ ํ ์ดํฌ์ด์จ์ด
8.1 โ๋ ์ํผโ์ ๊ฐ์น
์ด ๋ ผ๋ฌธ์ ์ง์ ํ ๊ธฐ์ฌ๋ ๊ฐ๋ณ ๊ธฐ๋ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๊ธฐ๋ฒ์ ์ ์คํ ์กฐํฉ์ ๋๋ค: - UTD=4 - n=5 step returns - Layer normalization - Symmetric sampling - Delayed actor updates - REDQ ensemble - DrQ augmentation
๊ฐ๊ฐ์ ์ด๋ฏธ ์๋ ค์ง ๊ธฐ๋ฒ์ด์ง๋ง, ์ด๋ค์ residual RL์ ์ฌ๋ฐ๋ฅด๊ฒ ์กฐํฉํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค.
8.2 BC + RL ํ์ด๋ธ๋ฆฌ๋์ ์ค์ฉ์ฑ
BC๋ก โ๋๋ต์ ์ผ๋ก ์๋ํ๋โ ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์ป๊ณ , RL๋ก fine-tuneํ๋ ์ ๊ทผ๋ฒ์ ๋งค์ฐ ์ค์ฉ์ ์ ๋๋ค: - ์ด๊ธฐ BC: 50-100ํ ์์ฐ์ผ๋ก 50-80% ์ฑ๊ณต๋ฅ - ResFiT fine-tuning: 1-2์๊ฐ ์ค์ธ๊ณ interaction์ผ๋ก 90%+ ๋๋ฌ ๊ฐ๋ฅ
8.3 Sparse Reward์ ๊ฐ๋ฅ์ฑ
Dense reward shaping ์์ด sparse binary reward๋ง์ผ๋ก ๊ณ ์์ ๋ bimanual ํ์คํฌ๋ฅผ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ์ค์ฉ์ ์ผ๋ก ๋งค์ฐ ์ค์ํฉ๋๋ค. Reward engineering์ ์ข ์ข trial-and-error๊ฐ ํ์ํ ๊ณ ํต์ค๋ฌ์ด ๊ณผ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
8.4 Action Chunking BC์ RL ํธํ์ฑ
Diffusion Policy, ACT ๋ฑ action chunking ๊ธฐ๋ฐ BC ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ ์๋ค๋ฉด, ResFiT ์คํ์ผ์ per-step residual์ด RL fine-tuning์ ์ค์ฉ์ ๊ฒฝ๋ก๊ฐ ๋ ์ ์์ต๋๋ค.
9. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
9.1 vs ResiP (Ankile et al., 2024)
๊ฐ์ 1์ ์์ ์ด์ ์ฐ๊ตฌ์ ๋๋ค. ResiP์: - On-policy PPO ์ฌ์ฉ โ ์ํ ๋นํจ์จ์ - ์๋ฎฌ๋ ์ด์ ๋ง ๊ฒ์ฆ - Sim-to-real ํ์ดํ๋ผ์ธ ์์กด
ResFiT์: - Off-policy TD3 ๊ธฐ๋ฐ โ 200๋ฐฐ ํจ์จ์ - ์ค์ธ๊ณ ์ง์ ํ์ต ๊ฒ์ฆ
9.2 vs Policy Decorator
- Chunk-level residual โ Per-step residual
- ์๋ฎฌ๋ ์ด์ ๋ง โ ์ค์ธ๊ณ ๊ฒ์ฆ
- ๋จ์ผ ์ โ Bimanual + dexterous
9.3 vs IBRL
IBRL์ BC policy๋ฅผ action proposal๊ณผ value bootstrapping์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง: - BC policy๋ฅผ ์ง์ fine-tuneํ์ง ์์ - ๋ณต์กํ ํ์คํฌ์์ ์ฑ๋ฅ ํ๊ณ
9.4 vs SERL
SERL์ ์ค์ธ๊ณ RL์ ์ ๊ตฌ์ ์ฐ๊ตฌ์ ๋๋ค: - Parallel jaw gripper + ๋จ์ผ ์ - ์๋์ ์ผ๋ก ๋จ์ํ ํ์คํฌ
ResFiT์ ๋ ๋์ ์์ ๋(29-DoF)์ dexterous manipulation์ผ๋ก ํ์ฅํ์ต๋๋ค.
10. ๊ฒฐ๋ก
ResFiT์ BC์ RL์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ์ค์ฉ์ ์ด๊ณ ์ฐ์ํ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. BC ์ ์ฑ ์ ๋ธ๋๋ฐ์ค๋ก ์ทจ๊ธํ๊ณ ๊ฒฝ๋ per-step residual์ off-policy RL๋ก ํ์ตํจ์ผ๋ก์จ:
- Base policy ์ํคํ ์ฒ์ ๋ฌด๊ดํ๊ฒ ์ ์ฉ ๊ฐ๋ฅ
- Sparse binary reward๋ง์ผ๋ก ๊ณ ์์ ๋ ํ์คํฌ ํ์ต ๊ฐ๋ฅ
- 1-2์๊ฐ์ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ก ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅ
- ์ธ๊ณ ์ต์ด๋ก dexterous hand๋ฅผ ๊ฐ์ง ํด๋จธ๋ ธ์ด๋์์ ์ค์ธ๊ณ RL ์์ฐ
๋ฌผ๋ก base policy์ ์ข ์๋๋ ํ๊ณ๋ ์์ง๋ง, ์ด๋ ์์ ์ฑ๊ณผ์ ํธ๋ ์ด๋์คํ์ ๋๋ค. ํฅํ frozen base ์ ์ฝ์ ์ํํ๊ณ , knowledge distillation์ ํตํด iterative improvement๊ฐ ๊ฐ๋ฅํด์ง๋ค๋ฉด, ๋ก๋ด ํ์ต์ ์๋ก์ด ํจ๋ฌ๋ค์์ด ์ด๋ฆด ์ ์์ต๋๋ค.
๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ์ฐ๊ตฌ์๋ก์, ์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ โ๋ ์ํผโ๋ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ ์ค์ฉ์ ๊ฐ์ด๋๋ผ์ธ์ ๋๋ค. BC๋ก ์์ํด RL๋ก ๊ฐ์ ํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ด ์ ์ ๋ ํ์ค์ด ๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Ball et al. (2023). RLPD: Efficient Online RL with Offline Data
- Zhao et al. (2023). ACT: Learning Fine-grained Bimanual Manipulation
- Chi et al. (2023). Diffusion Policy
- Luo et al. (2024). SERL: Sample-Efficient Robotic RL
- Ankile et al. (2024). ResiP: Residual for Precise Manipulation
- Yuan et al. (2024). Policy Decorator
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
Residual Off-Policy RL์ ํตํ Behavior Cloning ์ ์ฑ ์ ๊ตํ (ResFiT)
์ต๊ทผ Behavior Cloning(BC) ๊ธฐ๋ฒ์ ๋ณต์กํ ์๊ฐ๊ธฐ๋ฐ ์กฐ์ ์ ์ฑ ์ ์คํํ์ง๋ง, ์ฃผ๋ก ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ํ์ง๊ณผ ์์ ์์กดํด ์ฑ๋ฅ์ด ํ๊ณ์ ๋ด์ฐฉํ๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด Residual Off-Policy RL(ResFiT) ๊ธฐ๋ฒ์ BC๋ก ํ์ตํ ์ ์ฑ ์ โ๊ธฐ์ (base) ์ ์ฑ โ์ผ๋ก ์ทจ๊ธํ๊ณ , ์ฌ๊ธฐ์ ์์ ์์ฐจ(residual) ์์ ํญ์ ํ์ตํ๋ ํํ๋ก RL์ ์ ์ฉํ๋ค. ๊ทธ๋ฆผ 1์ ResFiT์ ๋ ๋จ๊ณ ์ ๊ทผ๋ฒ์ ๋ณด์ธ๋ค. ์ฒซ ๋จ๊ณ์์๋ ์์ฐ ๋ฐ์ดํฐ๋ก BC๋ฅผ ์ํํด ๊ธฐ์ ์ ์ฑ ์ ์ป๊ณ ์ด๋ฅผ ๊ณ ์ (frozen)์ํจ๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ์ด ๊ณ ์ ๋ ๊ธฐ์ ์ ์ฑ ์ ํ๋์ ๋ง๋ถ์ผ ์์ฐจ ์์ (action residual)์ ์์ฑํ๊ธฐ ์ํด ์ํ ํจ์จ์ ์ธ Off-Policy RL์ ์ํํ๋ค. ์ฆ, ์์ด์ ํธ๋ ํ์ฌ ๊ด์ธก(observation)๊ณผ ๊ธฐ์ ์ ์ฑ ์ด ์ถ๋ ฅํ ํ๋ a_{base}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์์ ์์ a_{res}์ ์์ฑํ๋ฉฐ, ์ค์ ํ๊ฒฝ์ ์คํ๋๋ ํ๋์ a = a_{base} + a_{res} ๊ฐ ๋๋ค. ์ด๋ก์จ ResFiT๋ ๊ธฐ์ ์ ์ฑ ์ํคํ ์ฒ์ ๊ตฌ์ ๋ฐ์ง ์๊ณ , ์ก์ ์ฒญํน(action chunking)์ด๋ ํ์ฐ ์ ์ฑ (difusion) ๊ฐ์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๋ ์ฑ ํธ๋ฆฌํ๊ฒ RL์ ์ ์ฉํ ์ ์๋ค. ๊ธฐ์ ์ ์ฑ ์ ์ ๋ฌธ๊ฐ ์์ฐ์์ ์ป์ ํฉ๋ฆฌ์ ์ธ ํ๋ ๋ถํฌ๋ฅผ ์ ๊ณตํ๋ฏ๋ก ์์ ์ ํํ๊ณผ ์ ์ฑ ์ด๊ธฐํ์ ์ ๋ฆฌํ๋ฉฐ, ์์ฐจ ํ์ต์ ์ค์ง ์์ ๋ณด์๊ฐ(Residual Reward)์ ์ต๋ํํจ์ผ๋ก์จ ์ ๋ฐ๋๋ฅผ ๋์ธ๋ค.
๊ทธ๋ฆผ 1: ResFiT(Residual Off-Policy RL) ๊ฐ์. (์ข) ๊ธฐ์ BC ์ ์ฑ ์ผ๋ก๋ถํฐ ์ป์ ํ๋ a_{base}์ ์คํํด๋ฆฌ์ RL๋ก ํ์ต๋ ์์ฐจ ์ ์ฑ ์ด a_{res}๋ฅผ ๋ํ์ฌ ์ต์ข ํ๋ a๋ฅผ ๋ง๋ ๋ค. (์ฐ) ๋ ๋จ๊ณ ํ์ต: ์์ฐ ๋ฐ์ดํฐ๋ก BC๋ฅผ ์ํํ ๋ค ์ ์ฑ ์ ๊ณ ์ ํ๊ณ , ์ดํ ์์ฐ ๋ฒํผ์ ์จ๋ผ์ธ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ณํฉํด ์คํํด๋ฆฌ์ RL๋ก ์์ฐจ ์ ์ฑ ์ ํ์ตํ๋ค.
์ํ์ ๊ธฐ๋ฒ๊ณผ ํต์ฌ ์๋ฆฌ
ResFiT๋ MDP (s,a,r,\gamma) ํ๊ฒฝ์์ ์๋ํ๋ฉฐ, ๊ธฐ์ ์ ์ฑ \pi_{\psi}(a_{t:t+k}|s_t)๋ ์์ฐ ๋ฐ์ดํฐ๋ก ํ๋ ์ฒญํน(action chunking) ๋ฐฉ์์ BC๋ก ํ์ต๋๋ค. ์ดํ ์ด \pi_{\psi}๋ฅผ ๊ณ ์ ํ๊ณ , ์๋ก์ด ์์ฐจ ์ ์ฑ \pi_{\theta}(s_t, a_{base_t})๋ฅผ ํ์ตํ๋ค. ์ ์ฒด ํ๋์
a_t = a_{base_t} + a_{res_t},\quad a_{base_t} = \pi_{base}(s_t)
๋ก ์ ์ํ๋ฉฐ, ํฌ๋ฆฌํฑ Q_\phi๋ ์ด ์ ์ฒด ํ๋์ ๋ํ ๊ฐ์นํจ์๋ฅผ ๊ทผ์ฌํ๋ค. ResFiT๋ DDPG ์คํ์ผ์ ์กํฐ-ํฌ๋ฆฌํฑ ํ์ต ๊ตฌ์กฐ๋ฅผ ์ฐจ์ฉํ์ฌ ๋์ํ๋ค. ๋จผ์ , ํฌ๋ฆฌํฑ์ ๋ค์ ๋ฒจ๋ง ๋ฐฉ์ ์์ ๋ง์กฑํ๋๋ก ํ์ต๋๋ค. ํ์ค Qํจ์์ ๋ํด
Q^\pi(s,a) = r(s,a) + \gamma \mathbb{E}_{s'}[Q^\pi(s', \pi(s'))]
์์ฐจ ์ค์ ์ ๋ง์ถ์ด ๊ฒฝ์ฌํ๊ฐ์ผ๋ก MSBE(Mean-Squared Bellman Error)๋ฅผ ์ต์ํํ๋ค. ์ฆ, ๋ฒํผ \mathcal{D}์์ ์ถ์ถํ ์ ์ด (s_t,a_t,r_t,s',d_t)์ ๋ํด ํฌ๋ฆฌํฑ ์์ค์ ๋ค์๊ณผ ๊ฐ๋ค:
\mathcal{L}(\phi) = \mathbb{E}_{\mathcal{D}}\Big[ \big(Q_\phi(s_t,a_t) - (r_t + \gamma (1-d_t) Q_\phi(s_{t+1}, a_{base_{t+1}} + \pi_\theta(s_{t+1},a_{base_{t+1}})))\big)^2 \Big]
์ฌ๊ธฐ์ a_{base_{t+1}}=\pi_{base}(s_{t+1})์ด๋ค. ํฌ๋ฆฌํฑ์ด ์ต์ ์ ๊ฐ์ ๊ทผ์ฌํ ์๋ก, ์ด๋ฅผ ํตํด ์กํฐ(์์ฐจ ์ ์ฑ )๋ฅผ ์ ๋ฐ์ดํธํ ์ ์๋ค. ์กํฐ๋ Qํจ์๋ฅผ ์ต๋ํํ๋๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ฉฐ, ๋ฏธ๋ถ ๊ฐ๋ฅํ Q๋ฅผ ๋ฐ๋ฅด๋ ๊ฒฝ์ฌ์์น์ผ๋ก ํ์ต๋๋ค. ์ฆ, ์กํฐ์ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค:
\mathcal{L}(\theta) = -\mathbb{E}_{(s_t,a_{base_t})\sim\mathcal{D}}\Big[ Q_\phi\big(s_t, a_{base_t} + \pi_{\theta}(s_t,a_{base_t})\big)\Big].
์ด์ ๊ฐ์ด, ResFiT๋ ์ ํต์ ์ธ off-policy RL์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด๋ฉด์๋ ์ ์ฒด ํ๋์ ๊ธฐ์ +์์ฐจ์ ํฉ์ผ๋ก ์ฌ์ ์ํ์ฌ, ์์ฐจ ํ์๋ง ํ์ตํ๋๋ก ๋ณํํ ๊ฒ์ด๋ค.
์ค๊ณ์ ์ผ๋ก ResFiT๋ ์ํ ํจ์จ๊ณผ ์์ ์ฑ์ ์ํด ์ฌ๋ฌ ๊ธฐ๋ฒ์ ์ฑํํ๋ค. ์ ๋ฐ์ดํธ ๋ ๋ฐ์ดํฐ ๋น์จ(UTD)์ 1๋ณด๋ค ํฌ๊ฒ ์ค์ ํ์ฌ ๋ฐ์ดํฐ๋น ์ฌ๋ฌ ๋ฒ ๋ชจ๋ธ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ๊ณ , n-์คํ ๋ฆฌํด(n-step return)์ ํ์ฉํด ํฌ์๋ณด์ ํ๊ฒฝ์์ ์ ๋ณด์ ๋ฌ์ ๋๋ฆฐ๋ค. ๋ํ TD3 ๊ธฐ๋ฐ์ ์ง์ฐ๋ ์กํฐ ์ ๋ฐ์ดํธ, ํ๊ฒ ๋คํธ์ํฌ ํด๋ฆฌ์ก ํ๊ท (Polyak averaging), ํ๊ฒ ์ ์ฑ ์ค๋ฌด๋ฉ ๋ฑ ํ์ค ๊ธฐ๋ฒ์ ์ ์ฉํ๊ณ , EnsQ(์์ฆ๋ฒ๋ธ Q) ๋ฐ ๋ ์ด์ด ์ ๊ทํ(layer norm)๋ฅผ ํตํด ์ค๋ฒ์์คํฐ๋ฉ์ด์ ์ ์ํํ๋ค. ๋น์ฃผ์ผ ์ ๋ ฅ์ ๊ณผ์ ํฉ์ ๋ง๊ธฐ ์ํด ViT ๋น์ ์ธ์ฝ๋์ DrQ ์คํ์ผ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํ์ฉํ๋ฉฐ, ์จ๋ผ์ธ ๋ฒํผ์ ๋ฐ์ดํฐ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ์ํ๋ง(์ฆํญ)ํ์ฌ ํ์ต ์์ ์ฑ์ ํ๋ณดํ๋ค.
๊ธฐ์กด BC Fine-tuning ๋ฐฉ์๊ณผ ROPI(ResFiT)์ ์ฐจ์ด์
์ ํต์ ์ผ๋ก BC ์ ์ฑ ์ ์ฑ๋ฅ ํฅ์์ ์ํด RL๋ก ํ์ธํ๋ํ๋ ค๋ ์๋๋ค์ด ์๋ค. ํ์ง๋ง ์ง์ ์ ์ธ RL fine-tuning์ ์ต๊ทผ ๋๊ท๋ชจ ๋คํธ์ํฌ์ ํ๋ ์ฒญํน, ํ์ฐ ๊ตฌ์กฐ ๋๋ฌธ์ ๋งค์ฐ ์ด๋ ค์ ๋ค. ์๋ฅผ ๋ค์ด, IBRL(Imitation Bootstrapped RL)์ ๋จผ์ ๋ชจ๋ฐฉ ์ ์ฑ ์ ํ์ตํ๊ณ ์ด๋ฅผ RL ํํ ๋ฐ ๊ฐ์น ์ถ์ ์ ์ด๊ธฐ๊ฐ์ผ๋ก ํ์ฉํ์ง๋ง, ์ฌ์ ํ ๋ณต์กํ ๋ชจ๋ธ ์์ฒด๋ฅผ ๋ณ๊ฒฝํ๋ค. PA-RL(Policy-Agnostic RL)์ ๋ณต์กํ ์ ์ฑ ๋์ Q-ํจ์๋ง ํ์ตํ์ฌ ๊ทผ์ฌํ์ง๋ง, ์ ์ฑ ๊ตฌ์กฐ๋ฅผ ์ง์ ์ ๋ฐ์ดํธํ์ง ์๊ธฐ ๋๋ฌธ์ ํ๊ณ๊ฐ ์๋ค. ๋ํ DSRL ๊ฐ์ ํ์ฐ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๊ณ ์ ๋ ํ์ฐ์ ์ฑ ์ ์ ์ฌ๋ ธ์ด์ฆ ๊ณต๊ฐ์์ ํ๋์ ์ต์ ํํ๋, ์ด ๋ฐฉ์๋ค์ ํน์ํ ์ ์ฑ ํํ์ ์์กดํ๋ฏ๋ก ์ผ๋ฐํ๊ฐ ์ด๋ ต๋ค.
๋ฐ๋ฉด ResFiT๋ ์์ฐจ ๋ณด์ ํ์ต(Residual RL) ๋ฐฉ์์ผ๋ก BC ์ ์ฑ ๊ณผ RL์ ๊ฒฐํฉํ๋ค. ๊ณผ๊ฑฐ Residual RL ์ฐ๊ตฌ๋ค์ ์๋ฎฌ๋ ์ด์ ์ด๋ ๋จ์ ํ๊ฒฝ์์ ์ ์ฉํ์ผ๋, ResFiT๋ ์ด๋ฅผ ๊ณ ์ฐจ์ ์ค์ธ๊ณ ๋ก๋ด์๋ ์ ์ฉํ๋ค. ๊ธฐ์กด Residual RL ์ฐ๊ตฌ ์ค ResiP๋ ๋จ์ผ ์คํ ์์ฐจ๋ฅผ PPO ๊ฐ์ ์จ-ํด๋ฆฌ์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ์ผ๋ ์ํ ํจ์จ์ด ๋ฎ์๋ค. Policy Decorator ์ฐ๊ตฌ๋ ์ ์ฒด ํ๋ ์ฒญํฌ์ ๋ํด ์์ฐจ๋ฅผ ํ์ตํ์ผ๋, ๋จ์ผ ์คํ ๊ธฐ์ค์ด ์๋๋ผ ์ฒญํฌ ๋จ์์ด๋ฏ๋ก ์์ ์ด ๊ฑฐ์น ๊ณ , EXPO ์ฐ๊ตฌ๋ ์ฒญํน ์๋ ์ ์ฑ ์ Residual RL์ ์ ์ฉํ์ผ๋ ๋จ์ผ ์ ์์ ๊ณผ ์๋ฎฌ๋ ์ด์ ๋ด ์คํ์ ๊ทธ์ณค๋ค. ์ด์ ๋ฌ๋ฆฌ ResFiT๋ ๋จ๊ณ๋ณ ์์ฐจ(per-step residual)๋ฅผ ํ์ตํ๊ณ ์คํํด๋ฆฌ์ RL์ ํ์ฉํ์ฌ ์ํ ํจ์จ์ ๋ํญ ๋์๋ค. ๋ํ ResFiT๋ ๊ธฐ์ ์ ์ฑ ์ ํ์์(black-box)๋ก ๋ค๋ฃจ๋ฏ๋ก ์ ์ฑ ๊ตฌ์กฐ์ ๋ฌด๊ดํ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ๋ค. ์๋ฅผ ๋ค์ด, ResFiT๋ ๋ํ ํ๋ ์ฒญํน ๊ธฐ๋ฐ ์ ์ฑ ์๋ ์์ฝ๊ฒ ๋ซํ ๋ฃจํ(called-loop) ํํ์ ์ ๋ฐ ์์ ์ด ๊ฐ๋ฅํ๋ฉฐ, ์์ฐจ ํฌ๊ธฐ๋ฅผ ์ ํํจ์ผ๋ก์จ ํ์ต ์ด๊ธฐ ๋จ๊ณ์์๋ ์์ ํ ํํ์ ๋ณด์ฅํ๋ค. ์์ฝํ๋ฉด, ResFiT๋ ๊ณ ์ ๋ BC ์ ์ฑ ์ผ๋ก๋ถํฐ ์์ํ์ฌ ์คํํด๋ฆฌ์ ๋ฐฉ์์ผ๋ก ์์ ๋ณด์ ํญ๋ง ํ์ตํจ์ผ๋ก์จ, ๊ธฐ์กด BC fine-tuning๊ณผ ๋ฌ๋ฆฌ ํ์ต ์์ ์ฑ๊ณผ ์ ์ฐ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ๋ค.
์คํ ๊ฒฐ๊ณผ ํด์: ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด์์์ ์ฑ๋ฅ
ResFiT๋ Robosuite(ฮผMuJoCo ๊ธฐ๋ฐ) ์๋ฎฌ๋ ์ดํฐ ์์ ๋ค์ํ ์กฐ์ ์์ ์์ ํ๊ฐ๋์๋ค. ์คํ ๊ณผ์ ๋ ๋จ์ผ ์ ์์ (Franka: Can, Square)๊ณผ ์์ ์์ (BoxCleanup, CanSort, Coffee)์ผ๋ก, ์ ์๋ ํ๋ ๊ณต๊ฐ 7์ฐจ์, ํ์๋ 24์ฐจ์์ผ๋ก ๋ณต์ก๋๋ฅผ ๋์๋ค. ๊ทธ๋ฆผ 4๋ ์ฃผ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ชจ๋ ๊ณผ์ ์์ ResFiT๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋น ๋ฅด๊ฒ ์๋ ดํ๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ๋จํ Can ๊ณผ์ ์์๋ 7๋ง ์คํ ๋ง์ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๋ฅ์ ๋๋ฌํ๋ค. ํนํ ๋์ด๋๊ฐ ๋์ bimanual ์์ (BoxCleanup, CanSort, Coffee)์์ ResFiT๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ค์ด 0%๋ก ์ถ๋ฝํ๊ฑฐ๋ ํ์ต ์๋๊ฐ ๋๋ฆฐ ๋ฐ ๋นํด ๋น ๋ฅด๊ฒ ์์ ์ ์ธ ์ฑ๋ฅ(90% ์ด์)์ ๋ฌ์ฑํ๋ค. ํํฐ๋ง BC(๊ธฐ์ ์ ์ฑ ๊ทธ๋๋ก ์ฌ์ฉ)์ ๊ฐ์ ๋จ์ ๊ฐ์ ๋ฐฉ์์ ์ด๊ธฐ ์ ์ฑ ๋ณด๋ค ๊ฑฐ์ ํฅ์๋์ง ๋ชปํ ๋ฐ๋ฉด, ResFiT๋ ์ ๋ฐ๋ ํฅ์์ด๋ผ๋ ๋ชฉํ๋ฅผ ์ํด ๊ฐํจ์ ์ต์ ํ๋ฅผ ํ์ฉํ๋ค.
๊ทธ๋ฆผ 4: ๋ค์ํ ์๋ฎฌ๋ ์ด์ ๊ณผ์ ์์ ResFiT ์ฑ๋ฅ ๋น๊ต. ResFiT๋ ๋ชจ๋ ์์ ์์ ๋น ๋ฅด๊ฒ ๋์ ์ฑ๊ณต๋ฅ ์ ์๋ ดํ๋ฉฐ, ๊ธฐ์กด ์คํํด๋ฆฌ์ RL์ด๋ Residual RL ๊ธฐ๋ฐ ๋์์ ๋นํด ๋ ์์ ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
๋ํ ResFiT๋ ์ค์ ๋ก๋ด(29-DOF ํด๋จธ๋ ธ์ด๋)์๋ ์ ์ฉ๋์๋ค. ๋ ์์ (WoollyBallPnP: ๋จ์ผ ์, PackageHandover: ์์)์ ๋์์ผ๋ก ์งํํ์ผ๋ฉฐ, ๋ ๋ค ์ด๋ฏธ ACT ๋ฑ ๊ธฐ์กด BC ์ ์ฑ ์ด ์กด์ฌํ๋ ์ค์ ์ด์๋ค. ์์ปจ๋ WoollyBallPnP์์ ๊ธฐ์ ์ ์ฑ ์ ๊ทนํ ์์ ๊ณต์ ์ง๋ ๋ฐ 14%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋, ์คํํด๋ฆฌ์ RL์ ์ด์ฉํ ์์ฐจ ํ์ธํ๋(134 ์ํผ์๋) ํ ์ฑ๊ณต๋ฅ ์ด 64%๋ก ๊ธ๋ฑํ๋ค. PackageHandover๋ ์ด๊ธฐ 23%์์ 343 ์ํผ์๋ ํ 64%๋ก ์ฆ๊ฐํ๋๋ฐ, ์ด๋ ์์ ํ ์ค์ ํ๊ฒฝ์์ ๋ ํ๊ณผ ๋ค์ฏ ์๊ฐ๋ฝ์ ๊ฐ์ง ํด๋จธ๋ ธ์ด๋๋ก RL์ ์ํํด ์ป์ ์ต์ด์ ์ฌ๋ก**๋ก ํ๊ฐ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ResFiT๋ ๊ธฐ์ ์ ์ฑ ์ด ๋ฏธํกํ ๋ถ๋ถ(์: ์ ๋ฐ ๊ทธ๋ฆฝ)์์ ๋๋ ทํ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ฌ์ ํ ์์ ํ ์คํ์ ์ํด ์ ํ๋ ์์ ํด๋จผ ๋ ์ด๋ธ๋ง(์์ ์์น, ๋ณด์ ์ฌ๋ถ ๋ฑ)๊ณผ ๋ฆฌ์ ์ด ํ์ํ๋ค.
์ข ํฉํ์๋ฉด ResFiT๋ MuJoCo ๊ธฐ๋ฐ ํ๊ฒฝ์์๋ state-of-the-art ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ค์ ๋ก๋ด์์๋ ์ ํ์ ์ด์ง๋ง ์ ์๋ฏธํ ์๋ํ ๊ฐ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ๋ค. ํนํ ํ 5-6์์ ๋ณด๋ฏ, off-policy ๋ฐฉ์์ด on-policy(PPO) ๋๋น ์ํ ํจ์จ ๋ฉด์์ ๋ช์ญ ๋ฐฐ ๋น ๋ฅธ ์๋ ด์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ฌ๋ฌ ablation ์ฐ๊ตฌ๋ฅผ ํตํด UTD ๋น์จ, n-์คํ ๋ฑ ์ค๊ณ ์์์ ํจ๊ณผ๊ฐ ํ์ธ๋์๋ค.
๋ก๋ด๊ณตํ์ ์ ์ฉ ๋ฐ ๊ณ ๋ ค์ฌํญ
ResFiT๋ ๊ณ ์ฐจ์ ์กฐ์ ๊ณผ์ ์ ์คํ๋ผ์ธ BC์ ์จ๋ผ์ธ RL์ ๊ฒฐํฉํ ์ ์๋ ์ค์ฉ์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค. ๊ธฐ์ BC ์ ์ฑ ์ ๋จ์ ์ด๊ธฐํ ์ด์์ ์ญํ ์ ์ํํ๋๋ฐ, ์คํ์์ ์ด๋ฅผ ํตํด ์์ ํ ํ๋ ๋ฒ์๊ฐ ์์๋์๊ณ , ํฌ์ ๋ณด์ ํ๊ฒฝ์์ ์ ์ฉํ ํํ prior๊ฐ ๋์๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ ๋ช ๊ฐ์ง ์ ์ฝ์ ๊ฐ๋๋ค. ์ฒซ์งธ, ์ ์ฑ ์ ๊ธฐ์ ์ ์ฑ ์ฃผ๋ณ ํด์์๋ง ๊ฐ์ ๋๋ฏ๋ก ์์ ํ ์๋ก์ด ์ ๋ต ํ์์๋ ํ๊ณ๊ฐ ์๋ค. ๋์งธ, ์ค์ ์ ์ฉ ์์๋ ์๋ ๋ฆฌ์ ๋ฉ์ปค๋์ฆ, ์ค์๊ฐ ์ฑ๊ณต ๊ฐ์ง, ์์ ์ฅ์น ๋ฑ์ด ํ์์ ์ด๋ค. ์ ์๋ ์ธ๊ธํ๋ฏ์ด ์์ง๋ ํด๋จผ ์ค๋ฒ์ฌ์ดํธ ์์ด ์์ ์๋ํ๋๊ธฐ์๋ ํ์ค์ ์ธ ์ด๋ ค์(๋ฆฌ์ , ๋ณด์ ๋ผ๋ฒจ๋ง ๋ฑ)์ด ๋จ์ ์๋ค.
์ข ํฉํ๋ฉด, ResFiT๋ ๊ณ ์์ ๋ ๋ก๋ด ํ์ต์ ์์ด BC๋ก ์ป์ ์ข์ ์ด๊ธฐํ๋ฅผ RL๋ก ํจ์จ์ ์ผ๋ก ๊ฐ์ ํ ์ ์๋ ๊ฐ๋ ฅํ ๊ธฐ๋ฒ์ด๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์์ฐจ ์ ์ฑ ์์ ์ป์ ํฅ์๋ ์ฑ๋ฅ์ ๋ค์ ๊ธฐ์ ์ ์ฑ ์ ์ฆ๋ฅ(distillation)ํ์ฌ ๋์ฑ ๊ฐ๋ ฅํ ์ผ๋ฐ ์ ์ฑ ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋, ๊ณ ์ ๊ธฐ์ ์ ์ฝ์ ์ํํด ๋ ๊ทผ๋ณธ์ ์ธ ๊ธฐ์ ์ต๋์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฐฉํฅ์ด ๋ชจ์๋ ์ ์๋ค. ํนํ ๋ฉํฐํ์คํฌ ํ์ต์์ ์ด ์์ด๋์ด๊ฐ ์ ์ฉํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ฉฐ, ๋ณธ ์ฐ๊ตฌ๋ ๊ณ ์ฐจ์ ์ค์ ๋ก๋ด์์์ RL ๊ฐ๋ฅ์ฑ์ ํ ๋จ๊ณ ์ง์ ์ํจ ์๋ก ๋ณผ ์ ์๋ค.