๐Batch Online RL ๋ฆฌ๋ทฐ
- ๐ค ๋ก๋ด ๋ถ์ผ์ Batch Online RL์ ๊ธฐ์กด์ ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๋ค์ํ ์์จ ์์ง ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค.
- ๐ก ์ฒด๊ณ์ ์ธ ์ฐ๊ตฌ๋ฅผ ํตํด ํจ๊ณผ์ ์ธ Batch Online RL์ ์ํด์๋ Value-based RL ์๊ณ ๋ฆฌ์ฆ, Implicit policy extraction ๋ฐฉ์, ๊ทธ๋ฆฌ๊ณ ํํ๋ ฅ ์๋ ์ ์ฑ (expressive policy)์ด ํต์ฌ ์์์์ ๋ฐํ์ต๋๋ค.
- โ ์ด๋ฌํ ๋ฐ๊ฒฌ์ ๋ฐํ์ผ๋ก ๋ ผ๋ฌธ์ ์ด ์์๋ค์ ๊ฒฐํฉํ ๋ ์ํผ๋ฅผ ์ ์ํ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด ํ์คํฌ์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Brief Review
๋ก๋ด ํ์ต ๋ถ์ผ๋ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด ์ด๋ ค์์ ๊ฒช๊ณ ์์ผ๋ฉฐ, ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ก๋ด์ด ์ค์ค๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์ ์ฑ ์ ๊ฐ์ ํ๋ โbatch online RLโ ํจ๋ฌ๋ค์์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ์ด ํจ๋ฌ๋ค์์ ์ธ๊ฐ์ ๋ฐ์ดํฐ ์์ง ๋ ธ๋ ฅ์ ํฌ๊ฒ ์ค์ด๋ฉด์ ์๊ฐ ๊ฐ์ ์ ์ด์ ์ ์ป์ ์ ์์ง๋ง, ํ์ฌ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์์จ์ ์ผ๋ก ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ง ๋ชปํ๋ ๋ฌธ์ ์ ์ง๋ฉดํด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธฐ์กด์ โimitation learningโ ๋๋ โfiltered imitation learningโ ๋ฐฉ๋ฒ์ ์์จ ์์ง ๋ฐ์ดํฐ๋ฅผ ํตํด ํจ์จ์ ์ผ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ๊ฑฐ๋ ์ต์ ์ ์์ ๋น ๋ฅด๊ฒ ์๋ ดํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ํจ๊ณผ์ ์ธ โbatch online RLโ์ ์ํด ์ค์ํ ์์๊ฐ ๋ฌด์์ธ์ง ํ๊ตฌํ๊ธฐ ์ํด ์ฒด๊ณ์ ์ธ ์ค์ฆ ์ฐ๊ตฌ๋ฅผ ์ํํฉ๋๋ค. ์ฐ๊ตฌ๋ ์ธ ๊ฐ์ง ์ถโ
- โalgorithm classโ,
- โpolicy extraction methodsโ,
- โpolicy expressivityโ
โ์ ์ค์ฌ์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ์ด๋ฌํ ์ถ๋ค์ด ์์จ์ ์ผ๋ก ์์ง๋ ๋ฐ์ดํฐ ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ฐ ํ์ฅ์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฏธ์น๋์ง ๋ถ์ํฉ๋๋ค.
๋ถ์์ ํตํด ๋ช ๊ฐ์ง ์ฃผ์ ๊ด์ฐฐ์ ๋์ถํฉ๋๋ค. ์ฒซ์งธ, โbatch online RLโ์์ โQ-functionsโ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์ ์๋ดํ๋ ๊ฒ์ด โimitation-based methodsโ๋ณด๋ค ์ฑ๋ฅ์ ํ์ ํ ๊ฐ์ ํจ์ ํ์ธํ์ต๋๋ค. ๋์งธ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก โpolicy extractionโ ๋ฐฉ์์ด ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค. ํนํ ์ ์ฑ ์ ๋ถํฌ ๋ด์์ ์ต์ ์ ํ๋์ ์ ํํ๋ โimplicit method of policy extractionโ์ด ์ ํต์ ์ธ โoffline RLโ์ โexplicit policy extractionโ ๋ฐฉ์๋ณด๋ค ํ์์ ์ด๋ฉฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ ์งธ, ํํ๋ ฅ์ด ํ๋ถํ ์ ์ฑ ํด๋์ค(โexpressive policy classโ)๊ฐ ๋ ํํ์ ์ธ ์ ์ฑ ํด๋์ค(โless expressive policy classesโ)๋ณด๋ค ์ ํธ๋จ์ ๋ณด์ฌ์ค๋๋ค.
์ด๋ฌํ ๋ถ์์ ๋ฐํ์ผ๋ก ํจ๊ณผ์ ์ธ โbatch online RLโ์ ์ํ ์ผ๋ฐ์ ์ธ ๋ ์ํผ๋ฅผ ์ ์ํฉ๋๋ค. ์ ์ํ๋ ๋ ์ํผ๋ โactorโ๋ก์ ํํ๋ ฅ์ด ํ๋ถํ โIL policyโ๋ฅผ ํ์ตํ๊ณ , ์์จ ๋ฐ์ดํฐ์ ๋ํด โQ-functionโ์ ํ์ตํ๋ฉฐ, โrolloutโ์ ์ํ ์ ์ฑ ์ผ๋ก โQ-functionโ์ ์ฌ์ฉํ โimplicit policy extractionโ์ ์ํํ๋ ๊ฒ์ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ โValue-based RLโ ๋ฐฉ๋ฒ ์ค ํ๋์ธ โImplicit Q-Learning (IQL)โ์ โQ-functionโ Q_\phi์ โvalue functionโ V_\psi๋ฅผ ๋ค์ ๋ชฉํ ํจ์๋ฅผ ์ต์ํํ์ฌ ํ์ตํฉ๋๋ค.
L_Q(\phi) = E_{(s,a,r,s') \sim D}[h(r + \gamma V_\psi(s') - Q_\phi(s, a))^2]
L_V(\psi) = E_{(s,a) \sim D} [L_\tau^2 (Q_{\phi'}(s, a) - V_\psi(s))]
์ฌ๊ธฐ์ L_\tau^2(x) = |\tau - 1(x < 0)|x^2๋ ๊ธฐ๋์น๋ฅผ ์ถ์ ํ๊ธฐ ์ํ ๋ก์ค ํจ์์ ๋๋ค.
โExplicit policy extractionโ์ ์์๋ก ์ฌ์ฉ๋ โAdvantage-Weighted Regression (AWR)โ์ ๋ค์ ๋ชฉ์ ํจ์๋ฅผ ์ต๋ํํ์ฌ ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
J_\pi(\theta) = E_{(s,a) \sim D} [e^{\beta(Q(s,a)-V(s))} \log \pi_\theta(a|s)]
์ ์๋ ๋ ์ํผ์ ๊ฐ๋จํ ์ถ๊ฐ ์ฌํญ์ผ๋ก, โrolloutโ ์ค โOrnsteinโUhlenbeck processโ๋ก ๋ชจ๋ธ๋ง๋๋ โtemporally-correlated noiseโ๋ฅผ ์๋ ์ถ๊ฐํ์ฌ ๋ ๋ง์ ๋ค์์ฑ์ ์ป๊ณ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ ์๋ ๋ ์ํผ๋ ์ด์ ๋ฐฉ๋ฒ๋ค ๋๋น ํจ์ฌ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ํ์ฅ์ฑ์ ๋ฌ์ฑํ๋ฉฐ, โRobomimicโ, โAdroitโ, โMimicGenโ์ 6๊ฐ์ง ๋ณต์กํ ๋ก๋ด ์กฐ์ ์์ ์์ ์ต๋ 2๋ฐฐ์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. ๋ํ, ์ค์ ๋ก๋ด ์์ (โhanging tape on a hookโ)์ ์ ์ฉํ์ฌ โbatch online RLโ 3๋ฒ์ ๋ฐ๋ณต๋ง์ผ๋ก ์ด๊ธฐ ์ ์ฑ ์ฑ๊ณต๋ฅ ๋๋น 30% ๊ฐ์ ์ ๋ฌ์ฑํ๋ฉฐ ๋ ์ํผ์ ์ค์ฉ์ฑ์ ๊ฒ์ฆํ์ต๋๋ค.
Detail Review
โWhat Matters for Batch Online Reinforcement Learning in Robotics?โ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
์ฐ๊ตฌ ๋๊ธฐ ๋ฐ ๋ฌธ์ ์ค์
ํ๋ ๋ฅ๋ฌ๋์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ฉ์ ํตํด ๋ฐ์ ํด์์ง๋ง, ๋ก๋ด ๊ณตํ ๋ถ์ผ๋ ํ์ค์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ๋ฐ์ดํฐ์ ์์ด ํ์ ํ ๋ถ์กฑํฉ๋๋ค. ๋ก๋ด์๊ฒ ์ผ์ผ์ด ์ฌ๋์ด ์์ฐํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ ํฐ ๋ ธ๋ ฅ๊ณผ ์๊ฐ์ด ๋ค๊ธฐ ๋๋ฌธ์, ์ฌ๋์ ๊ฐ์ ์ ์ต์ํํ๋ฉด์ ๋ก๋ด์ด ์ค์ค๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋ํ ๊ด์ฌ์ด ๋์ต๋๋ค. ์ด๋ฅผ ์ํด ๊ณผ๊ฑฐ์๋ ์ฌ๋์ด ์ ๊ณตํ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ๋ ๋ชจ๋ฐฉํ์ต(Imitation Learning, IL)์ ์ฃผ๋ก ํ์ฉํ์ง๋ง, ์ด ๋ฐฉ์์ ์ฃผ์ด์ง ๋ฐ์ดํฐ ๋ฒ์ ์ด์์ผ๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๋ฐ ํ๊ณ๊ฐ ์์ต๋๋ค.
๊ฐํํ์ต(RL)์ ์ ์ฉํ๋ฉด ๋ก๋ด์ด ์ค์ค๋ก ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ผ๋ฉฐ ํฅ์๋ ์ ์๋ค๋ ์ ์์ ๋งค๋ ฅ์ ์ด์ง๋ง, ์จ๋ผ์ธ RL(online RL), ์ฆ ๋ก๋ด์ด ์ค์๊ฐ ์ํธ์์ฉํ๋ฉฐ ๋์์ ํ์ต์ ์งํํ๋ ๋ฐฉ๋ฒ์ ํ์ค ๋ก๋ด์๊ฒ ์ ์ฉํ๊ธฐ์ ์ด๋ ค์์ด ๋ง์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ต ๋์ค ๋ก๋ด์ด ๊ณ์ ์์ง์ด๋ฉฐ ํ์ตํด์ผ ํ๋ฏ๋ก ๋ฌผ๋ฆฌ์ ํผ๋ก๋๋ ์์ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ํ์ต ๊ณผ์ ์์ ์ด๊ธฐ ์ ์ฑ ์ด ๋ง๊ฐ์ง๋ ๋ถํฌ ์ด๋(distribution shift) ๋ฌธ์ ๊ฐ ๋ํ๋ ์ ์์ต๋๋ค.
์ด์ ๋ํ ์ค๊ฐ ํด๊ฒฐ์ฑ (middle ground)์ผ๋ก ์ ์๋ ๊ฐ๋ ์ด โ๋ฐฐ์น ์จ๋ผ์ธ RLโ(batch online RL)์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์์๋ ์ด๊ธฐ์๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ์ ์ฑ ์ ํ์ต์ํค๊ณ (์: ์์ฐ ๋ฐ์ดํฐ๋ก ์ด๊ธฐ ์ ์ฑ \pi\_0 ํ์ต), ์ด ์ ์ฑ ์ ๋ก๋ด์ ๋ฐฐ์นํ์ฌ ์ผ์ ๋์ ๊ฒฝํ์ ํ๊บผ๋ฒ์ ์์งํ ๋ค, ๋ก๋ด์ ๋ฉ์ถ๊ณ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์คํ๋ผ์ธ์ผ๋ก ํ์ตํ์ฌ ์ ์ฑ ์ ๊ฐฑ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ์ ์ ์ฑ \pi\_1์ ์ป์ผ๋ฉด ๋ค์ ๋ก๋ด์ ์ฌ์ฉํด ์์จ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ (rollout), ์ถ์ ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ค์ ํ์ต์ ์งํํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค. ์์ปจ๋, ์คํ ํ๊ฒฝ์์ ์ ์ฑ ์ ์คํ(๋ฐ์ดํฐ ์์ง)๊ณผ ์ ์ฑ ์ ํ์ต(์ ๋ฐ์ดํธ) ๋จ๊ณ๋ฅผ ๊ต๋๋ก ๋ฐฐ์น ๋จ์๋ก ์ํํจ์ผ๋ก์จ, ์จ๋ผ์ธ RL์ ์๊ธฐ ํฅ์ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์๋ ์ค์ ๋ฐฐ์น ์์๋ ํ์ต์ ํ์ง ์์ผ๋ฏ๋ก ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์ธ ์ ๊ทผ์ ๋๋ค. ์ด๋ฌํ Batch online RL์ ์ค์ค๋ก ๋ชจ์ ๋๋์ ๋ฐ์ดํฐ๋ก ์ ์ฑ ์ ํฅ์์ํฌ ์ ์์ด ์ ์ฌ์ ์ผ๋ก ๋๊ท๋ชจ ๋ก๋ด ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
ํ์ง๋ง ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ค์ ๋ก ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํ๋ ๋ฐ์๋ ์ฌ์ ํ ๋์ ๊ณผ์ ๊ฐ ์์ต๋๋ค. ๊ณผ๊ฑฐ ์ผ๋ถ ์ฐ๊ตฌ๋ค์ ๋ฐฐ์น ์จ๋ผ์ธ RL ํ๊ฒฝ์ ๋ชจ๋ฐฉํ์ต์ด๋ ๋ณํ๋ ๋ชจ๋ฐฉํ์ต(filtered IL) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํด ๋ณด์์ผ๋, ์์จ ์์งํ ๋ฐ์ดํฐ๋ก๋ถํฐ ํจ๊ณผ์ ์ผ๋ก ์ฑ๋ฅ์ ๋์ด์ง ๋ชปํ๊ฑฐ๋ ๊ธ์ธ ์ด๋ ์์ค์์ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ ๋ฌธ์ ๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. ์ด์ ๋ฐ๋ผ ์ด ๋ ผ๋ฌธ์์๋ โ๋ก๋ด ๋ฐฐ์น ์จ๋ผ์ธ ๊ฐํํ์ต์์ ๋ฌด์์ด ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ง๋ ํต์ฌ ์์์ธ๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ ์ ๊ธฐํ๊ณ , ์ฒด๊ณ์ ์ธ ์คํ์ ํตํด ๋ต์ ์ฐพ๊ณ ์ ํฉ๋๋ค.
๊ธฐ์กด ๊ฐํํ์ต ๋ฐฉ์๊ณผ์ ์ฐจ๋ณ์
๋ฐฐ์น ์จ๋ผ์ธ RL์ ๊ธฐ์กด์ ์คํ๋ผ์ธ RL ๋ฐ ์จ๋ผ์ธ RL๊ณผ ๋น๊ตํด ๋ช ๊ฐ์ง ์ธก๋ฉด์์ ์ฐจ๋ณํ๋ฉ๋๋ค.
์จ๋ผ์ธ RL ๋๋น: ์ ํต์ ์ธ ์จ๋ผ์ธ RL์์๋ ๋ก๋ด์ด ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ฆ์ ํ์ต์ ์ ๋ฐ์ดํธํ์ง๋ง, ๋ฐฐ์น ์จ๋ผ์ธ RL์์๋ ๋ก๋ด์ด ๋ฐ์ดํฐ๋ง ์์งํ๊ณ ํ์ต์ ๋์ค์ ์คํ๋ผ์ธ์ผ๋ก ์งํ๋ฉ๋๋ค. ์ด๋ก ์ธํด ์จ๋ผ์ธ RL์์ ๋ฌธ์ ๊ฐ ๋์๋, ํ์ต ์ค ์ค์ ๋ก๋ด์ ์ง์ ์ด์ฉํด์ผ ํ๋ ๋ถ๋ด๊ณผ ํ๋ จ ๊ณผ์ ์์์ ๋ถ์์ ์ฑ์ ์ค์ผ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ โ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ ์ฑ ํ๋ จ๊ณผ ๋ฐ์ดํฐ ์์ง์ ๋ถ๋ฆฌํจ์ผ๋ก์จ ์จ๋ผ์ธ RL์ ๋ณต์กํ ๋ฌธ์ ์์ด๋ ์์ฒด ๋กค์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํฅ์์ ๊ฐ๋ฅ์ผ ํ๋คโ๊ณ ์ค๋ช ํฉ๋๋ค. ๋ํ ์จ๋ผ์ธ์ผ๋ก ๋ฐ๋ก ๋ฏธ์ธ์กฐ์ (fine-tuning)ํ๋ ๊ฒฝ์ฐ ๋ํ๋ ์ ์๋ ๋ถํฌ ์ฐจ์ด๋ก ์ธํ ์ฑ๋ฅ ๋ถ๊ดด๋ ์ด๊ธฐ ์ ์ฑ ์ ๋ง๊ฐ ํ์์ ๋ฐฐ์น ๋ฐฉ์์ ์ํํด ์ค๋๋ค.
์คํ๋ผ์ธ RL ๋๋น: ์คํ๋ผ์ธ RL์ ๊ณ ์ ๋ ์ ์ ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๊ณ ํ ๋ฒ์ ํ์ต์ ๋๋ด๋ ๋ฐ๋ฉด, ๋ฐฐ์น ์จ๋ผ์ธ RL์์๋ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ง์์ ์ผ๋ก ์ถ๊ฐํ๋ฉฐ ์ฌ๋ฌ ๋จ๊ณ์ ๊ฑธ์ณ ์ ์ฑ ์ ๊ฐ์ ํฉ๋๋ค. ์ฆ, ์คํ๋ผ์ธ RL์ด ์ด๊ธฐ ์ฃผ์ด์ง ๋ฐ์ดํฐ ํ์ง์ ์ ์ ์ผ๋ก ์์กดํ๋ ๋ฐ ๋ฐํด, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ ์ฑ ์ด ๊ฐ์ ๋จ์ ๋ฐ๋ผ ์๋ก์ด (์ ์ฌ์ ์ผ๋ก ๋ ๋์) ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ํ์ตํจ์ผ๋ก์จ ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ๋์ผ ์ ์์ต๋๋ค. ํํธ ๋ฐฐ์น ์จ๋ผ์ธ RL๋ ์คํ๋ผ์ธ RL์ฒ๋ผ ํ๋ จ๊ณผ ๋ฐ์ดํฐ ์์ง์ด ๋ถ๋ฆฌ๋ ์ํ์์ ํ์ตํ๋ฏ๋ก, ์์ ์จ๋ผ์ธ RL๋ณด๋ค ์์ ์ ์ผ๋ก ์ ์ฑ ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
์ ๋ฆฌํ๋ฉด, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์คํ๋ผ์ธ๊ณผ ์จ๋ผ์ธ์ ์ ์ถฉ ๋ฐฉ์์ผ๋ก, ์์จ์ฃผํ ๋ฐ์ดํฐ ์์ง์ ์ด์ ๊ณผ ์คํ๋ผ์ธ ํ์ต์ ์์ ์ฑ์ ๊ฒฐํฉํ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ์ ๊ทผ์ ๋ก๋ด์ด ์ค์ค๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ฉด์๋, ๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ต์ ๋ณ๋๋ก ์ํํจ์ผ๋ก์จ ์ค์๊ฐ ํ์ต์ ๋ถ๋ด ์์ด๋ ์๊ธฐ ๊ฐ์ ์ ๋ฌ์ฑํ๋ ค๋ ๊ฒ์ ๋๋ค.
์ ์๋ ์ ๊ทผ ๋ฐฉ์ ๋ฐ ํ๋ ์์ํฌ ์ค๋ช
์ด ๋ ผ๋ฌธ์์๋ ๋ฐฐ์น ์จ๋ผ์ธ RL ๋ฌธ์ ์์ ์ด๋ค ์ ๊ทผ์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง๋ฅผ ์คํ์ ์ผ๋ก ๊ท๋ช ํ ๋ค, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ ๋๋ก ์ผ๋ฐ์ ์ธ ํด๋ฒ(recipe)์ ์ ์ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ ์ฉ๋ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ์ธ ๊ฐ์ง ์ถ์ผ๋ก ๋ถ๋ฅํ์ฌ ์คํํ์๋๋ฐ, ๊ทธ ์ถ์ (i) ์๊ณ ๋ฆฌ์ฆ ์ ํ, (ii) ์ ์ฑ ์ถ์ถ ๋ฐฉ๋ฒ, (iii) ์ ์ฑ ์ ํํ๋ ฅ์ ๋๋ค. ๊ฐ ์ถ์์ ์ด๋ค ์ ํ์ ํ๋๋๊ฐ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ํ์ธํ ํ, ์ต์ ์ ์กฐํฉ์ ์ผ๋ฐ ์์น์ผ๋ก ์ ๋ฆฌํ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ ์์ ๋๋ค.
โ ์๊ณ ๋ฆฌ์ฆ ํด๋์ค: ๋จผ์ ์ ์ฑ ์ ๊ฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ธ ๊ฐ์ง๋ฅผ ๋น๊ตํ์ต๋๋ค. ํ๋๋ ๋ชจ๋ฐฉํ์ต(IL) ๊ธฐ๋ฐ์ผ๋ก, ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ๋ํด๋ก๋(Behavior Cloning) ๋ฐฉ์์ผ๋ก ํ์ตํ๋ ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ค๋ฅธ ํ๋๋ ํํฐ๋ง๋ ๋ชจ๋ฐฉํ์ต(filtered IL)์ผ๋ก, ์์จ์ฃผํ์ผ๋ก ๋ชจ์ ๋ฐ์ดํฐ ์ค ์ฑ๊ณต์ ์ด๊ฑฐ๋ ์์ง์ ๋ถ๋ถ๋ง ์ ๋ณํ์ฌ ๋ชจ๋ฐฉํ์ต์ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ง์ง๋ง์ ๊ฐ์น ๊ธฐ๋ฐ ๊ฐํํ์ต(value-based RL)์ผ๋ก, ์์ง ๋ฐ์ดํฐ์์ ๋ณด์์ ํธ๋ฅผ ํ์ฉํ์ฌ Q-ํจ์ ๋ฑ ๊ฐ์นํจ์๋ฅผ ํ์ตํ๊ณ ์ด๋ฅผ ํตํด ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ๋ ๊ฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์คํจ ์ฌ๋ก ๋ฑ๋ ํ์ต์ ํ์ฉํ๊ณ Bellman ์ ๋ฐ์ดํธ๋ฅผ ์ํํ๊ธฐ ๋๋ฌธ์, ์ค์ง ์ฑ๊ณต ์ฌ๋ก์ ์์กดํ๋ IL๋ณด๋ค ์ ์ฌ์ ์ผ๋ก ๋ ํ๋ถํ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
โก ์ ์ฑ ์ถ์ถ ๋ฐฉ๋ฒ: ๋ค์์ผ๋ก, ๊ฐ์น ๊ธฐ๋ฐ RL์ ์ธ ๊ฒฝ์ฐ ์ ์ฑ ์ ์ป๋ ๋ฐฉ์์ ๋ ๊ฐ์ง ๊ณ ์ฐฐํ์ต๋๋ค. ๋ช ์์ ์ ์ฑ ์ถ์ถ(explicit policy extraction)์ ์คํ๋ผ์ธ RL์์ ํํ ์ฐ์ด๋ ์ ๊ทผ์ผ๋ก, Qํจ์๋ฅผ ์ต๋ํํ๋ฉด์๋ ํ๋ ๋ถํฌ๊ฐ ๊ธฐ์กด ๋ฐ์ดํฐ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋๋ก ์ ์ฑ ์ ํ์ตํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด Advantage-Weighted Regression (AWR) ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ด ์ด์ ํด๋นํ๋ฉฐ, Qํจ์์ ์ ํธ๋ฅผ ์ ์ฑ ํ์ต์ ์ง์ ๋ฐ์ํ์ง๋ง ๋์์ ํ๋ํด๋ก๋ ์ ์ฝ์ ์ค์ ๊ธฐ์กด ๋ฐ์ดํฐ ๋ถํฌ์์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๊ฒ ํฉ๋๋ค. ๋ฐ๋ฉด ์์์ ์ ์ฑ ์ถ์ถ(implicit policy extraction)์ ์ ์ฑ ์ ๋ณ๋๋ก ์ต์ ํํ์ง ์๊ณ , ์คํ ์์ Qํจ์๋ฅผ ์ด์ฉํด ์ต์ ์ ํ๋์ ๊ณ ๋ฅด๋ ๋ฐฉ์์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋งค ์คํ ์ํ์์ ํ์ฌ ์ ์ฑ ์ผ๋ก ์ฌ๋ฌ ํ๋ณด ํ๋์ ์ํ๋งํ ํ, Q๊ฐ์ด ๊ฐ์ฅ ๋์ ํ๋์ ์ค์ ์คํ์ ์ ํํ๋ ๋ฐฉ์์ ๋๋ค. ์์์ ๋ฐฉ๋ฒ์ Qํจ์์ ์ ๋ณด๋ฅผ ์ ์ฑ ํ๋ผ๋ฏธํฐ ํ์ต์ ์ง์ ๋ฐ์ํ์ง ์๊ธฐ ๋๋ฌธ์ ํ์ต์ด ๋ ์์ ์ ์ผ ์ ์์ง๋ง, ๊ทธ ๋์ Qํจ์์ ์ ์ฉํ ์ ํธ๋ฅผ ์ ์ฑ ์ ๋ฐ์ดํธ์ ํ์ฉํ์ง ๋ชปํ๋ค๋ trade-off๊ฐ ์์ต๋๋ค.
โข ์ ์ฑ ์ ํํ๋ ฅ(Expressivity): ๋ง์ง๋ง์ผ๋ก ์ ์ฑ ๋ชจ๋ธ์ ํด๋์ค์ ๋ฐ๋ฅธ ํํ๋ ฅ ์ฐจ์ด๋ฅผ ์คํํ์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ฐํํ์ต์์ ๋ง์ด ์ฐ์ด๋ ์ ์ฑ ๋ชจ๋ธ์ ๊ฐ์ฐ์์ ์ ์ฑ ์ผ๋ก, ์ํ๋ฅผ ์ ๋ ฅ๋ฐ์ ํ๋์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์ถ๋ ฅํ๊ณ ์ ๊ท๋ถํฌ๋ก ํ๋์ ์ํ๋งํ๋ ๋น๊ต์ ๋จ์ํ ํํ์ ๋๋ค. ์ด๋ฐ ๊ฐ์ฐ์์ ์ ์ฑ ์ ๊ฒฝํ์ด ํ๋ถํ์ง ์์ ์ด๊ธฐ ๋จ๊ณ์์๋ ์์ ์ ์ด๊ณ ์ถ๋ก ์๋๊ฐ ๋น ๋ฅธ ์ฅ์ ์ด ์์ง๋ง, ๋ณต์กํ ์ฌ๋ฌ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ๋๋ถํฌ๋ฅผ ํํํ๊ธฐ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด์ ๋นํด ๋ ผ๋ฌธ์์ ํํ๋ ฅ์ด ๋๋ค๊ณ ์ง์นญํ๋ ์ ์ฑ ์ ๋ํจ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ฑ (diffusion-based policy)์ผ๋ก, ๋ง๋ฅด์ฝํ ํ๋ฅ ๊ณผ ๋ ธ์ด์ง/๋๋ ธ์ด์ง ๊ณผ์ ์ ํ์ฉํ์ฌ ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์์ฑ ๋ชจ๋ธ ํํ๋ก ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค. ๋ํจ์ ์ ์ฑ ์ ๋ค์ค ๋ชจ๋ฌ์ ํ๋ ๋ถํฌ๋ฅผ ๋ ์ ๋ชจ๋ธ๋งํ ์ ์๊ณ , ํนํ ์์์ ์ ์ฑ ์ถ์ถ ๋ฐฉ์๊ณผ๋ ์ ๋ง๋ ํน์ฑ์ด ์์ต๋๋ค (์ ์ฑ ์์ฒด๊ฐ ๋ค์ํ ํ๋ณด ํ๋์ ์ํ๋งํด๋ผ ์ ์์ผ๋ฏ๋ก, ๊ฑฐ๊ธฐ์ Q๊ฐ์ด ๋์ ๊ฒ์ ๊ณ ๋ฅด๋ ์ ๋ต๊ณผ ์๋์ง๊ฐ ์ข์ต๋๋ค).
์ด์ ์ธ ๊ฐ์ง ์ถ์์ ์ฐพ์ ์์ฌ์ ์ ๋ฐํ์ผ๋ก, ์ ์๋ค์ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๊ธฐ ์ํ ์ผ๋ฐ ํด๋ฒ(recipe)์ ์ ์ํฉ๋๋ค:
- ๊ฐ์ฅ ์ฒซ ๋จ๊ณ๋ก ํํ๋ ฅ์ด ๋์ ์ ์ฑ ๋ชจ๋ธ์ IL(๋ชจ๋ฐฉํ์ต)๋ก ์ด๊ธฐ ํ์ตํ์ฌ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ๋ฐฐ์ฐ(ํ๋์)๋ก ์ฌ์ฉํฉ๋๋ค. (๋ ผ๋ฌธ์์๋ Diffusion ๊ธฐ๋ฐ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ์ๆผ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ฌ์ฉํ์ต๋๋ค.)
- ๋ณํํด์, ๋์ผํ ์์จ์์ง ๋ฐ์ดํฐ์ ๋ํด Q-ํจ์๋ฅผ ํ์ตํฉ๋๋ค (๋ ผ๋ฌธ ๊ตฌํ์์๋ IQL ์๊ณ ๋ฆฌ์ฆ, ์ฆ ์คํ๋ผ์ธ RL ๋ฐฉ์์ผ๋ก Q๋ฅผ ์ ๋ฐ์ดํธ).
- ์ ์ฑ ์ ์ ๋ฐ์ดํธํ ๋๋ ์์์ ์ ์ฑ ์ถ์ถ ๋ฐฉ์์ ํ์ฉํฉ๋๋ค. ์ฆ, ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๋ ๋ฐฉ๊ธ ํ์ตํ Qํจ์๋ฅผ ์ด์ฉํด ํ์ฌ ์ ์ฑ ์์ ์ํํ ์ฌ๋ฌ ํ๋ ์ค Q๊ฐ์ด ๊ฐ์ฅ ๋์ ํ๋์ ์คํํ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ช ์์ ์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํ์ง ์๊ณ ๋ Qํจ์๊ฐ ๋์ ๋ฐฉํฅ์ผ๋ก ํ๋์ด ์ ๋๋์ด ์ ์ฑ ํฅ์์ด ์ด๋ค์ง๋๋ค.
- ์ ๊ณผ์ ์์ ํ์ํ ๊ฒฝ์ฐ ์ ์ฑ ์ ํ์์ ๋๊ธฐ ์ํด ์๊ฐ์ ์ผ๋ก ์๊ด๋ ๋ ธ์ด์ฆ(OrnsteinโUhlenbeck ๊ณผ์ ๋ฑ์ ํตํ ๋ ธ์ด์ฆ)๋ฅผ ํ๋์ ์ถ๊ฐ๋ก ์ฃผ์ ํ ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ์ข ๋ ๋ค์ํ ์๋๋ฅผ ํด๋ณด๋๋ก ์ ๋ํ์ฌ ๋ฐ์ดํฐ ๋ค์์ฑ์ ๋์ด๊ธฐ ์ํจ์ ๋๋ค.
์ด๋ฌํ ๋ ์ํผ๋ฅผ ์์ฝํ๋ฉด, โํํ๋ ฅ ๋์ ์ ์ฑ + Qํจ์ ๊ธฐ๋ฐ ๊ฐ์นํ์ต + ์์์ ์ ์ฑ ์ถ์ถโ์ ์กฐํฉ์ผ๋ก ์ ์ฑ ์ ๋ฐ๋ณต ๊ฐ์ ํ๋ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด ์กฐํฉ์ IDQL (Implicit Diffusion Q-Learning) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฌํํ์ผ๋ฉฐ, ์ด๋ ๋ฐฐ์น ์จ๋ผ์ธ RL 1ํ ๋ฐ๋ณต์ ํด๋นํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ ์ฒด ๋ฐฐ์น ์จ๋ผ์ธ RL ํ๋ก์ธ์ค์์๋ ์ด ๊ณผ์ ์ ์ฌ๋ฌ iteration ์ํํ๋ฉด์ ์ ์ฑ ์ ํฅ์์ํต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ ๋ ์ํผ์ ์ค์ฉ์ ๋ณด์์ฑ ์ผ๋ก ํ๋ ๋ ธ์ด์ฆ ์ฃผ์ ์ ์ ์ํ์๋๋ฐ, ์คํ ๊ฒฐ๊ณผ ์ฝ๊ฐ์ ๋ ธ์ด์ฆ ์ถ๊ฐ๋ ์ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค์ง๋ง ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ง์์ง๋ฉด ์์ฐ์ค๋ฝ๊ฒ ํ์ ๋ค์์ฑ์ด ํ๋ณด๋๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ์ ํจ๊ณผ๋ ์ ํ์ ์์ ํ์ธํ์ต๋๋ค. ์ฆ, ๋ ธ์ด์ฆ ์ถ๊ฐ๋ ์ ํ ์ฌํญ์ด์ง ํ์ ์์๋ ์๋๋ฉฐ, ๋ค๋ง ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ด๊ธฐ ๋จ๊ณ์์๋ ์๋์ ๋ ธ์ด์ฆ๋ก๋ ์ฑ๋ฅ์ ๋์ด๋ ๋ณดํฌ์ด ๋ ์ ์์ต๋๋ค.
์คํ ํ๊ฒฝ ๋ฐ ํ๊ฐ ์งํ
์ ์๋ค์ ์ ์ํ ์ ๊ทผ๊ณผ ๋ค๋ฅธ ๋์๋ค์ ์ฌ๋ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๊ณผ ์ค์ ๋ก๋ด ์์ ์ ๊ฑธ์ณ ํ๊ฐํ์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์คํ์ผ๋ก๋ ์ด 6๊ฐ์ ๋ณต์กํ ๋ก๋ด ์กฐ์ ๊ณผ์ ๋ฅผ ์ ํํ๋๋ฐ, ๊ตฌ์ฒด์ ์ผ๋ก RoboMimic ๋ฐ์ดํฐ์ ์ Lift, Can, Square ์์ , MimicGen์ Stack ๋ฐ Threading ์์ , ๊ทธ๋ฆฌ๊ณ Adroit์ Pen ์์ ์ ๋๋ค. ์ด๋ค ๊ณผ์ ๋ ์ฐ์์ ์ ์ด๊ฐ ํ์ํ ๊น๋ค๋ก์ด ์์ ๋ค๋ก, ๋์ด๋์ ๋ฐ๋ผ ์ด๊ธฐ ์ ๋ฐ์ดํฐ(Dโ)์ ํฌ๊ธฐ๋ฅผ 5๊ฐ์์ ์ต๋ 100๊ฐ๊น์ง ์ ๊ณตํ์ฌ ์ด๊ธฐ ์ ์ฑ \pi_0์ ์ฑ๊ณต๋ฅ ์ด ์ฝ 30~65% ์์ค์ด ๋๋๋ก ์ค์ ํ์ต๋๋ค. ์ด๋ ๊ฒ ๋น๊ต์ ๋ฏธ์์ฑ๋ ์ด๊ธฐ ์ฑ๋ฅ์์ ์์ํจ์ผ๋ก์จ, ํฅํ ์ค์ค๋ก ๊ฐ์ ํ ์ฌ์ง๊ฐ ์ถฉ๋ถํ ํ์ค์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ๋ง๋ค์์ต๋๋ค. ๊ฐ ๊ณผ์ ๋ง๋ค ๋ฐฐ์น ์จ๋ผ์ธ RL์ ๋ฐ๋ณต(iteration)์ 10~20ํ ์ํํ๋ฉฐ, ๋งค iteration๋ง๋ค 200๊ฐ์ ์ํผ์๋(rollouts)๋ฅผ ์์งํ๋๋ก ์ค์ ํ์ต๋๋ค. ํ์ต ์ค ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ๊ฐ ๋ฐ๋ณต ๋จ๊ณ๋ง๋ค ์ ์ฑ ์ ๊ณ ์ ์ํค๊ณ ์ฌ๋ฌ ์ํผ์๋๋ฅผ ์คํํ์ฌ ์ป์ ๋์ ๋ณด์(returns)์ด๋ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ์์ผ๋ฉฐ, ์ด๋ฌํ ์งํ๋ฅผ ์ด๊ธฐ ์ฑ๋ฅ ๋๋น ์ ๊ทํ(normalize)ํ์ฌ ๋น๊ตํ์์ต๋๋ค. (๊ทธ๋ํ ์์์ 100%๋ ๊ณผ์ ์ฑ๊ณต๋ฅ 100% ๋๋ ์ฃผ์ด์ง ๋ชฉํ ๋๋น ์ต๊ณ ์ ์ฑ๋ฅ์ผ๋ก ์ ๊ทํ๋์ด ์์ต๋๋ค.)
ํํธ ์ค์ ๋ก๋ด ์คํ์ผ๋ก๋ ๋น์ ๊ธฐ๋ฐ์ ๋ก๋ด ์กฐ์ ์์ ์ ํ๋ ์ ์ ํ์ต๋๋ค. 7์์ ๋ Franka ์ ๋ก๋ด์ผ๋ก ํ ์ดํ ๋กค์ ์ง์ด์ ๊ณ ๋ฆฌ์ ๊ฑฐ๋ ์์ ์ ์ํํ์ผ๋ฉฐ, ๋ก๋ด ์๋ชฉ ์นด๋ฉ๋ผ์ ์ธ๋ถ ์นด๋ฉ๋ผ์์ ์ป์ RGB ์์ ๋ฐ ๋ก๋ด์ ๊ด์ ๊ฐ/์๋์ดํํฐ ์ํ ๋ฑ์ proprioceptive ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ต๋๋ค. ์ด ์์ ์ ์ด๊ธฐ ์ ์ฑ ์ผ๋ก ์ฑ๊ณตํ๊ธฐ ์ด๋ ต๋๋ก ์ค๊ณ๋ ์ด๋ ค์ด ๊ณผ์ ๋ก, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ํตํ ์ฑ๋ฅ ๊ฐ์ ์ฌ๋ถ๋ฅผ ํ์ธํ๊ธฐ์ ์ ํฉํฉ๋๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ์ ๋ถ์
์ฃผํฉ์ ๊ณก์ ์ ๊ฐ์น ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ, ํ์์ ํํฐ๋ง๋ IL, ์ฐํ ํ์์ ๊ธฐ๋ณธ IL์ ๋ํ๋ ๋๋ค. ๊ฐ์น ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ์ด ๋๋ถ๋ถ์ ์์ ์์ ๋ฐ๋ณต์ด ์งํ๋ ์๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, IL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ด๊ธฐ ์ฑ๋ฅ์์ ํฌ๊ฒ ๊ฐ์ ๋์ง ๋ชปํ๊ฑฐ๋ ์ผ๋ถ ํฅ์ ํ ์ ์ฒด๋๋ ์์์ ๋ณด์ ๋๋ค.
1) ์๊ณ ๋ฆฌ์ฆ ํด๋์ค ๋น๊ต: ๊ฐ์น ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ์ด ๋๋๋ฌ์ง๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ ๊ทธ๋ํ์์ ๋ณด์ด๋ฏ IL(๋ชจ๋ฐฉํ์ต)๋ง์ผ๋ก ํ์ตํ๋ ๊ฒฝ์ฐ ์์จ์ ์ผ๋ก ๋ชจ์ ์คํจ ๋ฐ์ดํฐ๊น์ง ๊ทธ๋๋ก ๋ชจ๋ฐฉํด๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๊ฑฐ๋ ๊ฑฐ์ ํฅ์๋์ง ๋ชปํ์ต๋๋ค. ํํฐ๋ง๋ IL์ ๊ฒฝ์ฐ ์ด๊ธฐ์๋ ์ฝ๊ฐ์ ๊ฐ์ ์ ๋ณด์์ง๋ง, ๊ณง ์์ง ์ต์ ์ด ์๋ ์ฑ๋ฅ ์์ค์์ ์ ์ฒด๋์ด ๋ ์ด์ ๋์์ง์ง ๋ชปํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ๋ฐ๋ฉด ๊ฐ์น ๊ธฐ๋ฐ RL์ ๋ณด์ ์ ํธ๋ฅผ ํตํด ์ฑ๊ณต/์คํจ ์ฌ๋ก๋ฅผ ๋ชจ๋ ํ์ต์ ํ์ฉํจ์ผ๋ก์จ, iteration์ ๊ฑฐ๋ญํ ์๋ก ์ง์์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์๊ณ ์ต์ข ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด์ฒ๋ผ RL ๋ฐฉ๋ฒ์ด ์ฐ์ํ ์ด์ ๋, ์์จ ์์งํ ๋ฐ์ดํฐ์ ๋ด์ฌํ ๋ค์ํ ์ํฉ๊ณผ ์คํจ ์ฌ๋ก๋ก๋ถํฐ๋ ๊ตํ์ ์ป์ด ์ ์ฑ ์ ์์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์๋ RL ๊ธฐ๋ฒ์ด ๋ฐฐ์น ๋ฐ์ดํฐ๋ฅผ ๋ ๋ค์ํ๊ฒ ํ์ฉํ์ฌ IL์ ๋นํด ์ ์ฑ ํ์ ๋ฒ์๋ฅผ ๋ํ๋ค๊ณ ๋ถ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฑ๊ณตํ ๊ฒฝ๋ก๋ค์ ์ํ ๋ฐฉ๋ฌธ ๋ถํฌ๋ฅผ ์๊ฐํํ ๊ฒฐ๊ณผ RL ์๊ณ ๋ฆฌ์ฆ์ IL์ ๋นํด ํจ์ฌ ํญ๋์ ์ํ ๊ณต๊ฐ์ ์ปค๋ฒํ๊ณ ์์๋๋ฐ, ์ด๋ RL์ด ๋ค์ํ ์๋๋ฅผ ํตํด ์๋ก์ด ์ฑ๊ณต ๊ฒฝ๋ก๋ฅผ ๊ฐ์ฒํ ๋ฐ๋ฉด IL์ ์ฃผ์ด์ง ์ๆผ ๊ถค์ ์ฃผ๋ณ๋ง ๋ฐ๋ณตํ์์ ๋ณด์ฌ์ค๋๋ค. ๋ํ ๋ฐ์ดํฐ ๊ท๋ชจ๋ฅผ ํ์ฅํ์ ๋๋ RL์ ๊ฐ์ ์ด ํ์ธ๋์์ต๋๋ค. ๋ฐฐ์น๋น ์์งํ๋ ์ํผ์๋ ์(M)๋ฅผ ์/์ค/๋๋ก ๋๋ ค๊ฐ๋ฉฐ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ, ๊ฐ์น ๊ธฐ๋ฐ RL์ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง์๋ก ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋ ๋ฐ๋ฉด IL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ผ์ ์์ค ์ด์์์ ์ถ๊ฐ ๋ฐ์ดํฐ๊ฐ ํจ๊ณผ๋ฅผ ๋ฐํํ์ง ๋ชปํ๊ณ ์ ์ฒด๋์์ต๋๋ค. ์ฆ ๋ฐฐ์น ์จ๋ผ์ธ RL์์ ๋ ํฐ ๋ฐ์ดํฐ๋ก ์ค์ผ์ผํ๋ ค๋ฉด, IL๋ก๋ ํ๊ณ๊ฐ ์๊ณ RL ์๊ณ ๋ฆฌ์ฆ์ด ํ์์ ์์ ์ ์ ์์ต๋๋ค. ๋ค๋ง ์ ์๋ค์ โ๊ฐ์น ๊ธฐ๋ฐ RL๋ง์ผ๋ก ์ถฉ๋ถํ์ง ์๋คโ๊ณ ๊ฐ์กฐํ๋๋ฐ, ์ด๋ ์๋์ ๋ค๋ฅธ ์์๋ค(์ ์ฑ ์ถ์ถ ๋ฐฉ์, ์ ์ฑ ํํ๋ ฅ)๋ ์ ์ ํ ์ ํํด์ผ ์ง์ ํ ํจ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค๋ ์๋ฏธ์ ๋๋ค.
2) ์ ์ฑ ์ถ์ถ ๋ฐฉ๋ฒ ๋น๊ต: ๋ช ์์ vs. ์์์ ๋ ๋ฐฉ์์ ์ฑ๋ฅ ์ฐจ์ด๋ ๋๋ ทํ์ต๋๋ค. ์คํ์ ๋ฐ๋ฅด๋ฉด ์์์ ์ ์ฑ ์ถ์ถ์ด ๋ฐ๋ณต ํ์ต ํ์ ์ต์ข ์ฑ๋ฅ์์ ํญ์ ์ฐ์ํ์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ํ์ต ์ด๋ฐ์๋ ๋ช ์์ ๋ฐฉ๋ฒ(AWR ๋ฑ์ผ๋ก ์ ์ฑ ์ ํจ๊ป ์ต์ ํํ ๊ฒฝ์ฐ)์ด ๋ค์ ๋์ ์ฑ๋ฅ์ผ๋ก ์์ํ๋ ๊ฒฝํฅ์ด ์์์ผ๋, ์ฌ๋ฌ iteration์ ๊ฑฐ์น ํ์๋ ์์์ ๋ฐฉ๋ฒ์ด ํจ์ฌ ๋ ํฌ๊ฒ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค๋ ๊ฒ์ ๋๋ค. ๋ช ์์ ์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ๋ฒ์ Qํจ์์ ์ ํธ๋ฅผ ์ง์ ํ์ฉํ๋ค๋ ์ฅ์ ๋๋ฌธ์ ์ด๊ธฐ์ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์์ง๋ง, ์๋ก์ด ์์จ ๋ฐ์ดํฐ๊ฐ ๋์ ๋๋ฉด์ ๊ธฐ์กด ํ๋ ๋ถํฌ์ ๋ฌ๋ผ์ง๋ ๋ณํ์ ์ ์ํ์ง ๋ชปํ๊ณ ๋ฐ๋ชฉ์ ์กํ๋ ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์๋, ๋ช ์์ ๋ฐฉ๋ฒ์์๋ ๋งค iteration๋ง๋ค ์ ์ฑ ํ์ต ์ ์ด์ ๋ฐ์ดํฐ ๋ถํฌ์ ๋ฌถ์ด๋ ์ ์ฝ์ด ์กด์ฌํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ ๋ถํฌ๋ก์ ์ด๋์ด ์ด๋ ต๋ค๊ณ ์ง์ ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ฐฐ์น ์จ๋ผ์ธ RL ๊ณผ์ ์์ ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๋ค์ํด์ง์๋ก ๋ช ์์ ๋ฐฉ๋ฒ์ ์ ์ฑ ์ ์ด๋ฅผ ์ ๋๋ก ๋ฐ๋ผ๊ฐ์ง ๋ชปํด ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฐ๋ฉด, ์์์ ๋ฐฉ๋ฒ์ Qํจ์์ ์ ์ฑ ํ์ต์ ๋ถ๋ฆฌํ์ฌ ์ด๋ฌํ ๋ถํฌ ๋ณํ์ ์ ์ฐํ๊ฒ ๋์ํ ์ ์๊ธฐ ๋๋ฌธ์ ์์ ์ ์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ์ ์ด๋ฃจ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ๋ฐฐ์น ๋จ์ ์๊ธฐํ์ต ์์๋ ์์์ ์ ์ฑ ์ถ์ถ์ด ์ผ๊ด๋๊ฒ ํจ๊ณผ์ ์ด๋ฉฐ, ์ด๋ ์คํ๋ผ์ธ RL ๋ฐฉ์์ ์ ์ฑ ํ์ต์ด ํญ์ ์ต์ ์ ์๋ ์ ์์์ ์์ฌํฉ๋๋ค.
3) ์ ์ฑ ํํ๋ ฅ(๋ชจ๋ธ) ๋น๊ต: ์ ์ฑ ๋ชจ๋ธ์ ํํ๋ ฅ๋ ๊ฒฐ๊ณผ์ ํฐ ์ํฅ์ ๋ฏธ์ณค์ต๋๋ค. ๋น๊ต ์คํ์์๋ ํํ๋ ฅ์ด ๋ฎ์ ๊ฐ์ฐ์์ ์ ์ฑ ๊ณผ ํํ๋ ฅ์ด ๋์ ๋ํจ์ ์ ์ฑ ์ ๊ฐ๊ฐ ์ฌ์ฉํด ๋ณด์์ต๋๋ค. ๋จผ์ ๋ ์ ์ฑ ์ ๊ฐ๊ฐ ์ต์ ์ ๋ฐฉ์์ผ๋ก ์กฐํฉํ์ ๋ (๊ฐ์ฐ์์+๋ช ์์ , ๋ํจ์ +์์์ ) ๊ฒฐ๊ณผ๋ ๋ช ํํ์ต๋๋ค: ๋ํจ์ ๊ธฐ๋ฐ์ ๊ณ ํํ๋ ฅ ์ ์ฑ ์ด ๋ชจ๋ ์์ ์์ ์ผ๊ด๋๊ฒ ๊ฐ์ฐ์์ ์ ์ฑ ๋ณด๋ค ๋ฐ์ด๋ ์ต์ข ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ฐฐ์น RL ๋ฐ๋ณต ์ ํ์ ์ฑ๋ฅ ํฅ์ํญ์ ๋ณด๋ฉด, ๊ฐ์ฐ์์ ์ ์ฑ ์ ๊ฐ์ ํญ์ด ์ ํ์ ์ธ ๋ฐ๋ฉด ๋ํจ์ ์ ์ฑ ์ ํฌ๊ฒ ํฅ์ํ์ฌ ์ต์ข ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ก์ต๋๋ค. ์ด๋ ๊ณ ์ฐจ์ ๋ณต์กํ ํ๋ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์๋ ๋ฅ๋ ฅ์ด ์์ ๋ ๋ฐฐ์น RL ๊ณผ์ ์์ ๋ ๋ค์ํ ์๋๋ฅผ ํ๊ณ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์ผ๋ก, ์ ์๋ค์ ์์ ์ ์ฑ ์ถ์ถ ์คํ๊ณผ ์ฐ๊ด์ง์ด โํํ๋ ฅ ๋์ ์ ์ฑ ์ ์์์ ์ถ์ถ๊ณผ ํนํ ๊ถํฉ์ด ์ข๋คโ๊ณ ๋ถ์ํฉ๋๋ค. ์ถ๊ฐ๋ก ๊ฐ์ฐ์์ ์ ์ฑ ์๋ ์์์ ์ถ์ถ์ ์ ์ฉํด๋ณด๋ ๋์กฐ ์คํ์ ํ๋๋ฐ, ์ด ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ด๋ ์ ๋ ๊ฐ์ ๋์์ง๋ง ์ฌ์ ํ ๋ํจ์ ์ ์ฑ ์กฐํฉ์๋ ๋ชป ๋ฏธ์ณค์ต๋๋ค. ๊ฒฐ๊ตญ ํํ๋ ฅ ๊ทธ ์์ฒด์ ์ฐจ์ด๊ฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ์ ์ค์ํ ์์ธ์ด๋ผ๋ ๊ฒ์ ๋๋ค. ์ ์จ๋ผ์ธ RL์์๋ ๊ฐ์ฐ์์ ์ ์ฑ ์ผ๋ก๋ ์ ๋๋๋ฐ ๋ฐฐ์น RL์์๋ ๋ถ์กฑํ๊ฐ? ๋ผ๋ ์ง๋ฌธ์ ๋ํด, ๋ ผ๋ฌธ์์๋ โ์จ๋ผ์ธ RL์์๋ ์ ์ฑ ์ด ๋งค ์คํ ์ ๋ฐ์ดํธ๋๋ฏ๋ก ์ด๊ธฐ ๋ถํฌ๋ฅผ ์ ๋ชจ๋ธ๋งํ์ง ์์๋ ์๋ก์ด ํ๋์ ๊ณ์ ๋ฐ๊ตดํ์ง๋ง, ๋ฐฐ์น RL์์๋ ๊ฐ iteration ๋์ ์ ์ฑ ์ด ๊ณ ์ ๋๋ฏ๋ก ์ด๊ธฐ ์ ์ฑ ์ด ์ถฉ๋ถํ ๋ค์์ฑ์ ๊ฐ์ง์ง ๋ชปํ๋ฉด ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ธฐ ์ด๋ ต๋คโ๊ณ ์ค๋ช ํฉ๋๋ค. ์ฆ ๋ฐฐ์น ์จ๋ผ์ธ RL์์๋ ์ด๊ธฐ์ ์ ์ฑ ์ ํํ๋ ฅ์ด ๋์์ผ๋ง ์ถฉ๋ถํ ํ์์ ์ธ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ฃจ์ด์ง๊ณ , ์ด๋ ๊ณง ํฅ์์ผ๋ก ์ด์ด์ง๋ค๋ ํต์ฐฐ์ ๋๋ค.
์ด์์ ๊ฒฐ๊ณผ๋ค์ ์ข ํฉํ๋ฉด, ๋ฐฐ์น ์จ๋ผ์ธ RL์์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ํต์ฌ ์์๋
(a) ๊ฐ์น ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉ,
(b) ์์์ ์ ์ฑ ์ถ์ถ ๋ฐฉ์,
(c) ํํ๋ ฅ ๋์ ์ ์ฑ ๋ชจ๋ธ ์ฌ์ฉ์ผ๋ก ์์ฝ๋ฉ๋๋ค.
์ ์๋ค์ ์ด ์ธ ๊ฐ์ง๋ฅผ ๋ชจ๋ ๋ง์กฑํ๋ ์กฐํฉ(์์ ์ค๋ช ํ ๋ ์ํผ)์ ์ฌ์ฉํ์ ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค ๋๋น ํฌ๊ฒ ํฅ์๋ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง ํจ๊ณผ๋ฅผ ๊ฑฐ๋์์์ ๋ณด๊ณ ํฉ๋๋ค. ๋ํ ์ถ๊ฐ๋ก ์ ์๋ ํ๋ ๋ ธ์ด์ฆ ์ฃผ์ ์ ์ด๊ธฐ ํ์ต ๋จ๊ณ์์ ์ฑ๊ณผ๋ฅผ ์ฝ๊ฐ ๋์ฌ์ฃผ๋ ์ค์ฉ์ ํธ๋ฆญ์ผ๋ก ์์ฉํ์ง๋ง, ํต์ฌ์ ์๋์๋ค๊ณ ์ธ๊ธ๋ฉ๋๋ค. ๊ฒฐ๊ตญ ์ด ์ฐ๊ตฌ๋ ์ด๋ค ๋ฐฉ๋ฒ์ผ๋ก ๋ก๋ด์ด ์ค์ค๋ก ๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ตํด์ผ ํจ์จ์ ์ธ๊ฐ์ ๋ํ ๊ฒฝํ์ ํด๋ต์ ์ ์ํ ๊ฒ์ ๋๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ค์ง์ ์ธ ๋ก๋ด ์ ์ฉ ์ ๊ณ ๋ ค์ฌํญ
๋ฐฐ์น ์จ๋ผ์ธ RL ๋ ์ํผ์ ์ค์ฉ์ฑ์ ์ค์ ๋ก๋ด ์คํ์ ํตํด ๊ฒ์ฆ๋์์ต๋๋ค. ์ ์๋ค์ ํ๋์นด ์(arm) ๋ก๋ด์๊ฒ ํ ์ดํ ๊ฑธ๊ธฐ ์์ ์ ํ์ต์ํค๋ ์คํ์ 3ํ ๋ฐ๋ณตํ์ฌ, ์์ ๋์ถํ ๋ฐฉ๋ฒ์ด ํ์ค ๋ก๋ด์๋ ํตํ๋์ง ํ์ธํ์ต๋๋ค. ์ด๋ ๊ณ ๋ คํด์ผ ํ ์ค์ง์ ์์ ๋ช ๊ฐ์ง๊ฐ ์์ต๋๋ค:
7์์ ๋ ๋ก๋ด ์์ด ์ด๊ธฐ์๋ ์ง๊ฒ์ ํ ์ดํ ๋กค์ ์ฅ๊ณ ๋ชฉํ๋ฌผ ์์ ์์นํฉ๋๋ค (์ข์ธก). ์ดํ ์ ์ฑ ์ด ๊ฐ์ ๋๋ฉด ๋ก๋ด์ด ํ ์ดํ๋ฅผ ์ ํํ ๊ฐ๊ณ ๋ฆฌ ๋ชจ์์ ๊ฑธ์ด(hook)์ ๊ฑฐ๋ ์ต์ข ๋์(์ฐ์ธก)์ ์ฑ๊ณต์ ์ผ๋ก ์ํํฉ๋๋ค. ์ด ๊ณผ์ ๋ ์ปดํจํฐ ๋น์ (RGB ์ด๋ฏธ์ง ์ ๋ ฅ)๊ณผ ์ ๊ตํ ๋์ ์ ์ด๊ฐ ๋ชจ๋ ํ์ํ ์ด๋ ค์ด ์์ ์ผ๋ก, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ํจ๊ณผ๋ฅผ ์ํํ๊ธฐ ์ํ ํ์ค์ ์ธ ์๋๋ฆฌ์ค์ ๋๋ค.
๋ก๋ด ์คํ์์๋ ์ด๊ธฐ ์์ฐ์ ๋จ 5๊ฐ๋ง ์ ๊ณตํ์ฌ ์์ํ ํ, N=3ํ์ batch ์์จํ์ต ๋ฐ๋ณต, ๋งคํ 30๊ฐ์ ๋กค์์์ ์์งํ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ ๊ณ ๋ฌด์ ์ด์๋๋ฐ, ์ ์๋ ๋ ์ํผ๋ฅผ ๋ฐ๋ฅธ ๊ฒฝ์ฐ ๋จ 3๋ฒ์ ๋ฐ๋ณต๋ง์ ์ด๊ธฐ ์ ์ฑ ๋๋น ์ฑ๊ณต๋ฅ 30%p ์์น์ด๋ผ๋ ์ ์๋ฏธํ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. ์๋ ๊ทธ๋ํ์ ๋ น์ ์ (Recipe)์ด ๋ณด์ฌ์ฃผ๋ฏ, ์ฝ 45% ์ ๋์ด๋ ์ด๊ธฐ ์ฑ๊ณต๋ฅ ์ด ์ธ ๋ฒ์ ํ์ต์ ๊ฑฐ์ณ ์ฝ 70%๊น์ง ์์นํ์ต๋๋ค. ๋ฐ๋ฉด ํ์ ์ (Filtered-IL)์ผ๋ก ํ์๋ ํํฐ๋ง ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ์ ์ด๊ธฐ์ 60% ์์ค์์ ์์ํ์ผ๋ ์ถ๊ฐ ํฅ์์ด ๊ฑฐ์ ์์์ผ๋ฉฐ, ์์ฃผ์ ์ ์ (Steering)์ผ๋ก ํ์๋ ๋น๊ต ๊ธฐ์ค ๋ฐฉ๋ฒ(๊ธฐ์กด ์ฐ๊ตฌ [11]์ ์ ๊ทผ์ ์์ฉํ, ์๋ก์ด ๋ฐ์ดํฐ๋ก Qํจ์๋ฅผ ํ์ตํ๋ ์ ์ฑ ์ ๊ฐฑ์ ํ์ง ์๋ ์ผ์ข ์ โ์กฐ์ข โ ๋ฐฉ๋ฒ)์ ์คํ๋ ค ์ฑ๋ฅ์ด ์ ์ฒด๋์ด ์ฝ 50% ์ธ์ ๋ฆฌ์ ๋จธ๋ฌผ๋ ์ต๋๋ค. ์ด๋ ์๋ก์ด ๋กค์์ ๋ฐ์ดํฐ๋ก ์ ์ฑ ์์ฒด๋ฅผ ๊ณ์ ์ฌํ๋ จํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, ๋จ์ํ Qํจ์๋ก ๊ธฐ์กด ์ ์ฑ ์ ํ๋์ ๋ณด์ ํด์ฃผ๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถ์น ์์์ ์๋ฏธํฉ๋๋ค. ๋ํ ํํฐ๋ง๋ IL ๋ฐฉ์์ด ์ด๊ธฐ์ ๋์ ์ฑ๋ฅ์ผ๋ก ์์ํ๊ณ ๋ ์ถ๊ฐ ํฅ์์ ์คํจํ ๊ฒ์, ์ด๊ธฐ ์ ์ฑ ์ด ์ด๋ฏธ ์ๆผ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ฑฐ์ ํํํ๊ณ ์์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค. ์ด ๊ฒฝ์ฐ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋์ด๋ ๋ฐฐ์ธ ์๋ก์ด ๋ด์ฉ์ด ๊ฑฐ์ ์์ด ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง์ง ์์ ๊ฒ์ ๋๋ค.
๋ น์ ์ (Recipe)์ ๋ณธ ๋ ผ๋ฌธ์ ๋ ์ํผ ์ ์ฉ ๊ฒฐ๊ณผ, ํ์ ์ (Filtered IL)์ ํํฐ๋ง๋ ๋ชจ๋ฐฉํ์ต, ์์ฃผ์ ์ ์ (Steering)์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํ์ง ์๊ณ Qํจ์๋ก๋ง ๋ณด์กฐํ๋ ๊ธฐ์ค ๋ฐฉ๋ฒ์ ๋ํ๋ ๋๋ค. ๋ฐฐ์น ์จ๋ผ์ธ RL ๋ ์ํผ๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ(iteration 3) ์ฑ๊ณต๋ฅ ์ด ์ฝ 70%๋ก ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ์ด๊ธฐ ์์ค์ ํฌ๊ฒ ๋์ง ๋ชปํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
์ค์ ๋ก๋ด์ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ ์ฉํ ๋ ๊ณ ๋ คํ ํ์ค์ ์ฌํญ์ผ๋ก, ์์ ๊ณผ ํ์์ ๊ท ํ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฑ๋ฅ ํฅ์์ ์ํด ํ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ ์ฉํ์ง๋ง, ์์นซํ๋ฉด ๋ก๋ด์๊ฒ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ํํ ํ๋์ ์ ๋ฐํ ์ ์์ต๋๋ค. ๋คํํ ์ด ์คํ์์๋ ์๋์ Ornstein-Uhlenbeck ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด๋ ํ ์ดํ๋ฅผ ๋์น๋ค๊ฑฐ๋ ๋ก๋ด์ด ์ด์ ๋์์ ํ๋ ๋ฑ์ ๋ฌธ์ ์์ด ์์ ์ ์ผ๋ก ๋ค์ํ ์๋๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค. ํ์ง๋ง ์ผ๋ถ ์ค์ ํ๊ฒฝ์์๋ ์์์ ๋ ธ์ด์ฆ ์ฃผ์ ์ด ์ด๋ ค์ธ ์ ์์ผ๋ฏ๋ก, ๋ค๋ฅธ ์์ ํ์ ๊ธฐ๋ฒ์ด๋ ์๋ฎฌ๋ ์ด์ ์ ๋ณํํ ์ฌ์ ํ์ต ๋ฑ์ด ํ์ํ ์ ์์ต๋๋ค. ๋ํ ํ์ค ๋ก๋ด ์คํ์์๋ ์ผ์ ๋ ธ์ด์ฆ, ์์คํ ์ง์ฐ ๋ฑ ์๋ฎฌ๋ ์ด์ ์ ์๋ ๋ณ์๊ฐ ์กด์ฌํ๋ฏ๋ก, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์๊ณ ๋ฆฌ์ฆ์ด ์ด๋ฌํ ๋น์ด์์ ์ํฉ์์๋ ๊ฐ์ธํ๊ฒ ์๋ํ๋๋ก ์ค๊ณ๋์ด์ผ ํฉ๋๋ค. ๋ ผ๋ฌธ์ ์คํ์ ๋น๊ต์ ์์ ์ ์ธ ์ค๋ด ํ๊ฒฝ์์ ์ด๋ฃจ์ด์ก์ง๋ง, ํฅํ์๋ ๋ ๋ณต์กํ ์ค์ ์๋๋ฆฌ์ค(์: ์ด๋ ๋ก๋ด, ํ๋ ๋ก๋ด ๋ฑ)์์ ์ด ์ ๊ทผ๋ฒ์ ์ฑ๋ฅ๊ณผ ํ๊ณ๋ฅผ ์ถ๊ฐ ๊ฒ์ฆํด๋ณผ ํ์๊ฐ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ด ์ฐ๊ตฌ๋ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ํจ๊ณผ๋ฅผ ์ข์ฐํ๋ ์์๋ค์ ๋ฐํ๋ด๊ณ ์ผ๋ฐ์ ์ง์นจ์ ์ ์ํ์์ง๋ง, ์ ์๋ค์ด ์ธ๊ธํ ํ๊ณ์ ๋ ๋ช ๊ฐ์ง ์กด์ฌํฉ๋๋ค:
์ ์ฉ ๋ฒ์์ ํ๊ณ (์ฐ์ vs. ์ด์ฐ): ๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ ์คํ์ ์ฐ์์ ํ๋ ๊ณต๊ฐ์ ๊ฐ๋ ๋ก๋ด ์ ์ด ์์ ์ ๋ํด ์ด๋ฃจ์ด์ก์ต๋๋ค. ๋ง์ฝ ์ด์ฐ(discrete) ํ๋ ๊ณต๊ฐ์ ๊ฐ์ง๋ ๋ฌธ์ (์: ๊ฐํํ์ต์ Atari ๊ฒ์์ด๋ ๋ก๋ด์ ๊ด์ ์ ์ด๊ฐ ์๋ ๊ฐ๋ณ ๋ช ๋ น ์ ํ ๋ฌธ์ ๋ฑ)์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ฉด ๊ทธ๋๋ก ์ฑ๋ฆฝํ์ง ์์ ์ ์์ต๋๋ค. ์ด์ฐ ํ๊ฒฝ์์๋ Qํจ์๋ฅผ ์ง์ ์ ์ฑ ์ผ๋ก ์ฌ์ฉํ ์๋ ์๊ณ , ๋ โํํ๋ ฅ ๋์/๋ฎ์ ์ ์ฑ ํด๋์คโ๋ผ๋ ๊ตฌ๋ถ๋ ๋ชจํธํด์ง๊ธฐ ๋๋ฌธ์, ๋ฐฐ์น ์จ๋ผ์ธ RL์ ํต์ฌ ์์๊ฐ ๋ค๋ฅด๊ฒ ๋ํ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ํฅํ์๋ ์ด์ฐ ํ๋์ ํฌํจํ ๋ค์ํ ์์ญ์์ ๋ณธ ๋ ์ํผ์ ์ ํจ์ฑ์ ์ฐ๊ตฌํ ํ์๊ฐ ์์ต๋๋ค.
๋ ธ์ด์ฆ ์ฃผ์ ์ ๋ํ ๊ณ ๋ ค: ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ OU ๋ ธ์ด์ฆ ๋ฑ ํ์ ์ ๋ต์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ ํ๋ ์ค์ ์คํ์์ ์ผ์ ์์ค ํจ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ๋ชจ๋ ํ๊ฒฝ์์ ํต์ฉ๋ ์ ์๋์ง๋ ๋ฏธ์ง์์ ๋๋ค. ๊ฒฝ์ฐ์ ๋ฐ๋ผ์๋ ๋ ธ์ด์ฆ๋ก ์ธํ ํ์๋ณด๋ค ์์ ์ด ์ฐ์ ์ธ ์ํฉ๋ ์๊ณ , ๋ ธ์ด์ฆ๊ฐ ์ฑ๋ฅ์ ๊ฑฐ์ ์ํฅ์ ์ฃผ์ง ๋ชปํ ์๋ ์์ต๋๋ค. ์ ์๋ค๋ ์คํ์์ ์๋์ ๋ ธ์ด์ฆ ์ถ๊ฐ๊ฐ ์ ์ฑ ์ฑ๊ณต๋ฅ ์ ๊ทน์ ์ผ๋ก ๋์ด์ง๋ ๋ชปํ๊ณ ์ฝ๊ฐ์ ํฅ์๋ง ์ฃผ์๋ค๊ณ ๋ฐํ์ต๋๋ค. ๋ฐ๋ผ์ ๋ฏธ๋ ์ฐ๊ตฌ์์๋ ๋ ธ์ด์ฆ๋ฅผ ์ฐ์ง ์๊ณ ๋ ํ์ ๋ค์์ฑ์ ํ๋ณดํ ๋ฐฉ๋ฒ์ด๋, ๋ ํจ๊ณผ์ ์ธ ํ์ ๋ ธ์ด์ฆ ์ ๋ต์ ๋ชจ์ํ ํ์๊ฐ ์์ต๋๋ค.
์ด๊ธฐ ์ ์ฑ ์ฑ๋ฅ์ ๋ํ ๊ฐ์ : ๋ณธ ์ฐ๊ตฌ๋ ์ด๊ธฐ ์ ์ฑ ์ด ์ด๋ ์ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ฐ์ถ ์ํ(์ฝ 30~60%)์์ ์์ํ๋ ์๋๋ฆฌ์ค์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ง์ฝ ์ด๊ธฐ ์ ์ฑ ์ด ๊ฑฐ์ ์คํจ๋ง ํ๋ ์์ค(์ฑ๊ณต๋ฅ ~0%)์ด๋ผ๋ฉด, ๋ฐฐ์น ์จ๋ผ์ธ RL๋ก ๊ฐ์ ์ด ๊ฐ๋ฅํ ๊น์? ๋ ผ๋ฌธ์์๋ ์ด ๋ถ๋ถ์ด ์ด๋ฆฐ ๋ฌธ์ ๋ก ๋จ์ ์๋ค๊ณ ์ง์ ํฉ๋๋ค. ์ด๊ธฐ ์ ์ฑ ์ด ์ ํ ์ฑ๋ฅ์ด ์๋ค๋ฉด ์์จ์ ์ผ๋ก ์์งํ๋ ๋ฐ์ดํฐ๋ ์คํจ ํฌ์ฑ์ด์ผ ๊ฒ์ด๊ณ , ์๋ฌด๋ฆฌ RL์ด๋ผ๋ ์์ ํ ํ์๋ถํฐ ์์ํด์ผ ํ๋ ์ด๋ ค์์ด ์์ต๋๋ค. ํฅํ์๋ ์ด๊ธฐ ๋ฐ๋ชจ ์์ด๋ ํ์ต์ ์์ํ๊ฑฐ๋, ์์ ๋ฌด์์ ์ ์ฑ ์ผ๋ก๋ถํฐ ๋ฐฐ์น RL์ ์์ ์ ์ผ๋ก ์ํํ๋ ๊ธฐ๋ฒ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
์ด์์ ํ๊ณ๋ค์ ๋ฐํ์ผ๋ก, ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋: (1) ๋ค๋ฅธ ํํ์ ๋ฌธ์ ๋ค(ํนํ ์ด์ฐ์ ๊ฒฐ์ ๋ฌธ์ )์ ๋ํ ๋ฐฐ์น ์จ๋ผ์ธ RL ์ ๋ต ํ์ฅ, (2) ํํ-ํ์(exploration-exploitation) ์ ๋ต ๊ฐ์ โ ์๋ฅผ ๋ค์ด ์์ ํ ๋ฒ์ ๋ด์์์ ๋ ธ์ด์ฆ ์ฃผ์ , ํน์ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ ๊ธฐ๋ฒ๊ณผ์ ๊ฒฐํฉ ๋ฑ, (3) ์ด๊ธฐ ๋ชจ๋ธ ์์ด ์์จํ์ต์ ์์ํ๋ ๋ฐฉ๋ฒ โ ์๋ฅผ ๋ค์ด ํ๋ฆฌํธ๋ ์ด๋๋ ์ธ๊ณ ๋ชจ๋ธ ํ์ฉ์ด๋ ๋ณด์ ์ ํธ ์ค๊ณ๋ฅผ ํตํด ์์ ์๋ก์ด ์ ์ฑ ๋ ์ค์ค๋ก ๋ฐ์ ํ๊ฒ ํ๋ ์ฐ๊ตฌ ๋ฑ์ด ์ ์๋ ์ ์์ต๋๋ค. ๋ ๋์๊ฐ, ๋ณธ ๋ ผ๋ฌธ์ ๋ ์ํผ ์์ฒด๋ ๊ฐ๊ฐ์ ๊ตฌ์ฑ์์(๊ฐ์น ํ์ต ์๊ณ ๋ฆฌ์ฆ, ์ ์ฑ ๋ชจ๋ธ ๊ตฌ์กฐ, ์์์ ์ถ์ถ ๊ธฐ๋ฒ ๋ฑ)๋ฅผ ์ต์ ํํ๊ฑฐ๋ ๋์ฒดํ์ฌ ์ฑ๋ฅ์ ๋์ฑ ๋์ผ ์ฌ์ง๊ฐ ์์ต๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ํ์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๋ค๋ฉด ์ค์ค๋ก ๊ฐ์ ํ๋ ๋ก๋ด์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํจ์ฌ ๋์ด์ฌ๋ฆด ๊ฒ์ผ๋ก ๊ธฐ๋ํ๊ณ ์์ต๋๋ค.
์ ์ฒด์ ์ธ ๊ธฐ์ฌ๋์ ์์
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ๊ฐํํ์ต ๋ถ์ผ์์ โ์ค์ค๋ก ๋ชจ์ ๋ฐ์ดํฐ๋ก ์ ์ง์ ํ์ตโ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ์ ๋ตํ๊ธฐ ์ํด ์ฒด๊ณ์ ์ธ ์ค์ฆ ์ฐ๊ตฌ๋ฅผ ์ํํ๋ค๋ ์ ์์ ํฐ ์๋ฏธ๊ฐ ์์ต๋๋ค. ์ด์ ๊น์ง ์ฌ๋ฌ ์ฐ๊ตฌ๋ค์ด ์๋ํ์ง๋ง ๋ช ํํ ๊ฒฐ๋ก ์ ์ป์ง ๋ชปํ๋ ๋ฐฐ์น ์จ๋ผ์ธ RL์ ์ฑ๊ณต ์์ธ์ ์ธ ๊ฐ์ง ์ธก๋ฉด์์ ๋ถ์ํด์ฃผ์๊ณ , ์ด๋ฅผ ์ข ํฉํ์ฌ ์ค์ ๋ก ํจ๊ณผ๊ฐ ์ ์ฆ๋ ํ์ต ๋ ์ํผ๋ฅผ ์ ์ํ์์ต๋๋ค. ์ด ๋ ์ํผ๋ ๋ณต์กํ ์๊ณ ๋ฆฌ์ฆ์ด ์๋๋ผ๋ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ์กฐํฉ๊ณผ ์ด์ ๋ฐฉ๋ฒ์ ์กฐ๊ธ ๋ฐ๊พธ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ก๋ด์ ์๊ธฐํ์ต ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ผ ์ ์๋ค๋ ์ค์ฉ์ ์ง์นจ์ ์ ๊ณตํฉ๋๋ค. ํนํ ๋ชจ๋ฐฉํ์ต๋ง์ผ๋ก ๋ถ์กฑํ๋ ์ด์ ์ ๊ฐํํ์ต์ ๋์ ํ ๋ ์ฃผ์ํ ์ (์ ์ฑ ์ถ์ถ ๋ฐฉ๋ฒ, ๋ชจ๋ธ ํํ๋ ฅ)์ ๋ฐํ์ค์ผ๋ก์จ, ํฅํ ๋ก๋ด ํ์ต ์คํ์ ์ค๊ณํ๋ ์ฐ๊ตฌ์๋ค๊ณผ ํ์ฅ์์ ์ค์ ๋ก๋ด์ ํ์ต์์ผ์ผ ํ๋ ์ค๋ฌด ์์ง๋์ด ๋ชจ๋์๊ฒ ์ ์ฉํ ์ธ์ฌ์ดํธ๋ฅผ ์ค๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
๋ํ ์ด ์ฐ๊ตฌ๋ ๋ก๋ด ํ์ต์์ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์๋ํ์ ๋ํ ํฌ๋ง์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฌ๋์ด ์ผ์ผ์ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ์ง ์์๋, ๋ก๋ด์ด ์ฒ์ ๋ฐฐ์ด ์ ์ฑ ์ผ๋ก ์ค์ค๋ก ์คํํ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๋ ๋๋ํด์ง ์ ์์์ ์ค์ ์คํ์ผ๋ก ์ฆ๋ช ํ์์ต๋๋ค. ์ด๋ ๋ง์น ์์จ์ฃผํ์ฐจ๊ฐ ์ฃผํํ๋ฉฐ ๊ฒฝํ์ผ๋ก ํ์ตํ๋ ๊ทธ๋ฆผ์ ๋ ์ฌ๋ฆฌ๊ฒ ํ๋ฉฐ, ํฅํ ๋ก๋ด๊ณตํ์ด ๋์๊ฐ ๋ฐฉํฅ์ด ์ธ๊ฐ์ ์ง๋ ์ต์ํ์ ์์จ์ฑ ๊ทน๋ํ์ ์์์ ์์ฌํฉ๋๋ค. ๋ฌผ๋ก ์์ ํ ์์จํ์ต์ผ๋ก ๊ฐ๊ธฐ๊น์ง ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค(์์ , ์ด๊ธฐ ์ฑ๋ฅ ๋ฑ)์ ๋จ์ ์์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ๊ทธ ์ค๋ง๋ฆฌ๋ฅผ ์ ๊ณตํ๊ณ ์๋ค๊ณ ํ๊ฐํ ์ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ํ์ ์ ๊ธฐ์ฌ๋ ์ธก๋ฉด์์ ์ด ๋ ผ๋ฌธ์ ๋ฐฐ์น(off-policy) ํ๊ฒฝ์์์ ๊ฐํํ์ต ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ํ์ต๋๋ค. ๊ณผ๊ฑฐ์๋ ์จ๋ผ์ธ ์์์ ๋ฐ๋ก ํ์ตํ๋ RL๊ณผ, ๊ณ ์ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ offline RL์ด ๋ณ๊ฐ๋ก ์ฐ๊ตฌ๋๋ ๊ฒฝํฅ์ด ์์๋๋ฐ, ๋ณธ ์ฐ๊ตฌ๋ ์คํ๋ผ์ธ-์จ๋ผ์ธ์ ๊ฒฝ๊ณ๋ฅผ ๋๋๋๋ ๋ฐฐ์น ํ์ต์ ์ด์ ์ ๋ง์ถ์ด ์ค์ํ ํต์ฐฐ์ ์ป์์ต๋๋ค. ์ด๋ก์จ ์คํ๋ผ์ธ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ณต ์ ์ฉํ๋ฉด ์ด๋จ๊น?๋ผ๋ ๋ฌผ์์ ๋ต์ ์ฃผ๊ณ , ๋์๊ฐ ๋ ๋์ ์คํ๋ผ์ธ RL ๊ธฐ๋ฒ ๊ฐ๋ฐ์ด๋ ํจ๊ณผ์ ์ธ ํ์ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ๋ํ ํ์ ์ฐ๊ตฌ๋ฅผ ์ด๋ฐํ ์ ์์ต๋๋ค. ์ ์๋ค์ด ์ธ๊ธํ๋ฏ, ์ด ๋ ์ํผ์ ๊ฐ ์์๋ฅผ ๋ ๋ฐ์ ์ํค๋ ์ฐ๊ตฌ๋ฅผ ํตํด ์๊ธฐ ๊ฐ์ ํ ๋ก๋ด ๋ชจ๋ธ์ ํ์ธต ๋ ํฅ์์ํฌ ์ฌ์ง๊ฐ ํฝ๋๋ค. ๋ํ ์ ์๋ค์ ์ด๋ฒ ์ฐ๊ตฌ์ ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ ์ฝ๋๋ฅผ ๊ณต๊ฐํ ์์ ์ผ๋ก, ์ด๋ฅผ ํตํด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์ฝ๊ฒ ์ ๊ทผํ์ฌ ๋ฐฐ์น ์จ๋ผ์ธ RL ๋ถ์ผ์ ๋ฐ์ ์ ๊ฐ์ํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์์ฝํ๋ฉด, โWhat Matters for Batch Online RL in Robotics?โ ๋ ผ๋ฌธ์ ๋ก๋ด ๊ฐํํ์ต์์ ๋ฐ์ดํฐ ํจ์จ์ ์๊ธฐ ํ์ต์ ์คํํ๋ ๋ฐ ํ์ํ ์กฐ๊ฑด์ ๋ฐํ๋ด๊ณ ๊ฒ์ฆํจ์ผ๋ก์จ, ๋ก๋ด๊ณตํ ๋ฐ ๊ฐํํ์ต ์ปค๋ฎค๋ํฐ์ ์ค์ํ ์ง์๊ณผ ์ค์ฉ ํด๋ฒ์ ์ ๊ณตํ ์ํ์ด๋ผ ํ ์ ์์ต๋๋ค. ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ๋ ์ ์ ์ธ๊ฐ ๊ฐ์ ์ผ๋ก๋ ์ ์ ๋๋ํด์ง๋ ๋ก๋ด์ ๋ง๋๋ ๊ธธ์ ์ฌ๋ ์๋ฏธ์๋ ๊ฑธ์์ ๋๋ค.