๐DAPG ๋ฆฌ๋ทฐ
- ์ด ๋ ผ๋ฌธ์ ๊ณ ์ฐจ์ ๋ก๋ด ์์ผ๋ก ๋ณต์กํ ์ ์กฐ์ ์์ ์ ํ์ตํ๋ ์ฌ์ธต ๊ฐํ ํ์ต(DRL) ๋ฐฉ๋ฒ์ ์ ์ํ์ง๋ง, ๊ธฐ์กด DRL์ ์ํ ํจ์จ์ฑ์ด ๋ฎ์ ์ค์ ์์คํ ์ ์ฉ์ ์ด๋ ค์์ด ์์ต๋๋ค.
- ์ ์๋ค์ ์ ์ ์์ ์ธ๊ฐ ๋ฐ๋ชจ๋ฅผ ํ์ฉํ์ฌ ์ฌ์ธต ๊ฐํ ํ์ต(DAPG)์ ์ํ ๋ณต์ก์ฑ์ ๊ทน์ ์ผ๋ก ์ค์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์ด๋ ๋ช ์๊ฐ ๋ถ๋์ ๋ก๋ด ๊ฒฝํ๋ง์ผ๋ก๋ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ๋ฌผ์ฒด ์ฌ๋ฐฐ์น, ๋๊ตฌ ์ฌ์ฉ ๋ฑ ๋ณต์กํ ์ ์กฐ์ ์์ ์ ํ์ตํ ์ ์๊ฒ ํ๋ฉฐ, ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ชจ๋ก๋ถํฐ ์์ฐ์ค๋ฝ๊ณ ๊ฐ๊ฑดํ ์์ง์์ ๋ณด์ฌ์ค๋๋ค.


1 Brief Review
๊ณ ์ฐจ์ ๋ฏผ์ฒฉํ(dexterous) ๋ค์ง ๋ก๋ด ์ ์ ์ด๋ ๋ณต์กํ๊ณ ์ ์ด์ด ๋ง์ ์ด๋ ต์ต๋๋ค. ์ฌ์ธต ๊ฐํ ํ์ต(DRL)์ ๋ชจ๋ธ์ ๊ตฌ์ ๋ฐ์ง ์๋ ์ ๊ทผ ๋ฐฉ์์ด์ง๋ง, ๊ณ ์ฐจ์ ๋ฏผ์ฒฉ ์กฐ์์ ํ์ฅ๋๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ์ต๋๋ค. ๋ํ, ์ํ ๋นํจ์จ์ฑ ๋๋ฌธ์ ์ค์ ์์คํ ์ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ 24-DoF์ ๊ณ ์ฐจ์ ์์ผ๋ก ๋ณต์กํ ์กฐ์ ์์ ์ ๋ชจ๋ธ ํ๋ฆฌ(model-free) DRL๋ก ์คํฌ๋์น๋ถํฐ ํด๊ฒฐํ ์ ์์์ ์๋ฎฌ๋ ์ด์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ํ ๋นํจ์จ์ฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์์์ ์ธ๊ฐ ๋ฐ๋ชจ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ฐ๋ชจ๋ฅผ ํ์ฉํ๋ฉด ์ํ ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์ฌ ๋ช ์๊ฐ ๋ถ๋์ ๋ก๋ด ๊ฒฝํ๋ง์ผ๋ก ํ์ตํ ์ ์๊ฒ ๋ฉ๋๋ค. ๋ํ ๋ฐ๋ชจ ์ฌ์ฉ์ ์์ฐ์ค๋ฝ๊ณ ๊ฐ๊ฑดํ(robust) ์ ์ฑ ์ ๋ง๋ญ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ฐ์ฒด ์ฌ๋ฐฐ์น(object relocation), ์ ์ ์กฐ์(in-hand manipulation), ๋๊ตฌ ์ฌ์ฉ(tool use), ๋ฌธ ์ด๊ธฐ(door opening) ์์ ์ ๋ํ ์ฑ๊ณต์ ์ธ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์ ๋ณด์ฌ์ค๋๋ค.
์ฐ๊ตฌ์์๋ ๋ก๋ด์ด ์๋ฌํด์ผ ํ 4๊ฐ์ง ๋ํ์ ์ธ ๋ฏผ์ฒฉ ์กฐ์ ์์ ์ธํธ๋ฅผ ์ ์ํฉ๋๋ค.
- Object Relocation: ๊ฐ์ฒด๋ฅผ ์ง์ด ๋ชฉํ ์์น๋ก ์ฎ๊น๋๋ค.
- In-hand Manipulation (Pen Repositioning): ์ ์์์ ๊ฐ์ฒด(ํ)์ ๋ฐฉํฅ์ ์กฐ์ ํฉ๋๋ค.
- Manipulating Environmental Props (Door Opening): ํ๊ฒฝ์ ์ผ๋ถ(๋ฌธ)๋ฅผ ์กฐ์ํฉ๋๋ค.
- Tool Use (Hammer): ๋๊ตฌ(๋ง์น)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชป์ ๋ฐ์ต๋๋ค.
์คํ์๋ 24-DoF ADROIT ์๊ณผ MuJoCo ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ธ๊ฐ ๋ฐ๋ชจ๋ VR ์์คํ ์ ํตํด ์์ง๋์์ต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ฐ๋ชจ ๊ฐํ ์ ์ฑ ๊ฒฝ์ฌ๋ฒ(Demo Augmented Policy Gradient, DAPG)์ ๋๋ค. ์ด๋ ๊ฐํ ํ์ต๊ณผ ๋ชจ๋ฐฉ ํ์ต์ ๊ฒฐํฉํฉ๋๋ค. ์ ์ด ๋ฌธ์ ๋ MDP \mathcal{M} = \{\mathcal{S}, \mathcal{A}, R, \mathcal{T}, \rho_0, \gamma\}๋ก ๋ชจ๋ธ๋ง๋ฉ๋๋ค. ์ ์ฑ \pi_\theta๋ ๊ธฐ๋ ์ด ๋ณด์ \eta(\pi) = E_{\pi, \mathcal{M}}[\sum_{t=0}^\infty \gamma^t r_t]๋ฅผ ์ต๋ํํ๋๋ก ์ต์ ํ๋ฉ๋๋ค. ์ฐ๊ตฌ๋ Natural Policy Gradient(NPG)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
NPG๋ ๋ฐ๋๋ผ ์ ์ฑ ๊ฒฝ์ฌ(vanilla policy gradient) \mathbf{g} = \frac{1}{N T} \sum_{i=1}^N \sum_{t=1}^T \nabla_\theta \log \pi_\theta(a^i_t|s^i_t) \hat{A}^\pi(s^i_t, a^i_t, t)๋ฅผ ๊ณ์ฐํ๊ณ , Fisher Information Matrix \mathbf{F}_\theta = \frac{1}{N T} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(a^i_t|s^i_t) \nabla_\theta \log \pi_\theta(a^i_t|s^i_t)^T์ ์ญํ๋ ฌ๋ก ์ฌ์ ์กฐ๊ฑดํํ์ฌ
์ ๋ฐ์ดํธ \theta_{k+1} = \theta_k + \sqrt{\frac{\delta}{\mathbf{g}^T \mathbf{F}_{\theta_k}^{-1} \mathbf{g}}} \mathbf{F}_{\theta_k}^{-1} \mathbf{g}๋ฅผ ์ํํฉ๋๋ค.
DAPG๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ \rho_D๋ฅผ ํ์ฉํ์ฌ RL์ ๊ฐํํฉ๋๋ค.
- ์ฒซ์งธ, ํ๋ ๋ณต์ (Behavior Cloning, BC)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ \max_\theta \sum_{(s,a) \in \rho_D} \ln \pi_\theta(a|s)๋ฅผ ํตํด ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ฐฉํ๋๋ก ์ฌ์ ํ์ต(pretraining)ํ์ฌ ํ์์ ๋์์ ์ค๋๋ค.
- ๋์งธ, ์ฆ๊ฐ๋ ์์ค(augmented loss)์ ์ฌ์ฉํ RL ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์ํํฉ๋๋ค. ์ ์ฑ ๊ฒฝ์ฌ ์ ๋ฐ์ดํธ์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ํญ์ ์ถ๊ฐํฉ๋๋ค. ์ฆ๊ฐ๋ ๊ฒฝ์ฌ \mathbf{g}_{\text{aug}} = \sum_{(s,a) \in \rho_\pi} \nabla_\theta \ln \pi_\theta(a|s)A^\pi(s, a) + \sum_{(s,a) \in \rho_D} \nabla_\theta \ln \pi_\theta(a|s)w(s, a)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ฌ๊ธฐ์ w(s, a) = \lambda_0 \lambda_1^k \max_{(s',a') \in \rho_\pi} A^\pi(s',a')๋ ๋ฐ๋ชจ์ ๋ํ ์ด๋๋ฐดํฐ์ง ์ ๋ณด๋ฅผ ๊ทผ์ฌํ๊ธฐ ์ํ ํด๋ฆฌ์คํฑ ๊ฐ์ค์น๋ก, ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ๊ฐ์ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, sparse ๋ณด์์ผ๋ก๋ NPG์ DDPG ๋ชจ๋ ํ์ตํ์ง ๋ชปํ์ต๋๋ค (in-hand ์์ ์ ์ธ). shaped ๋ณด์์ผ๋ก๋ NPG๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ง๋ง ์ํ ๋นํจ์จ์ ์ด๊ณ (๋ช๋ฐฑ ๋ก๋ด ์๊ฐ ์์), ๋ถ์์ฐ์ค๋ฌ์ฐ๋ฉฐ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ์ง ์์์ต๋๋ค. DDPG๋ ์ฑ๊ณต์ ์ธ ์ ์ฑ ํ์ต์ ์คํจํ์ต๋๋ค.
๋ฐ๋ฉด, DAPG๋ ํฌ์ํ ๋ณด์ ์ค์ ์์ ๋ค๋ฅธ ๋ฐ๋ชจ ํ์ฉ ๋ฐฉ๋ฒ์ธ DDPGfD๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. DAPG๋ ๋ชจ๋ ์์ ์์ ๋ช ๋ก๋ด ์๊ฐ ์์ ์ ์ฑ ์ ํ์ตํ ์ ์์์ผ๋ฉฐ, Object Relocation ์์ ์์ ์คํฌ๋์น ํ์ต๋ณด๋ค ์ฝ 30๋ฐฐ ๋นจ๋์ต๋๋ค. DAPG๋ก ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ชจ๋ฅผ ํตํด ์ธ๊ฐ ์ ๋ต์ ๊ฐ๊ฑดํจ์ ํฌ์ฐฉํ์ฌ ํ๊ฒฝ ๋ณํ์ ๋ ๊ฐ๊ฑดํ๋ฉฐ, ๋ ์ธ๊ฐ์ ์ธ ๋์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ค์ํ ํ๊ฒฝ ์์๋ธ(ensemble)์ ๋ํด ํ์ตํ ๋๋ DAPG๊ฐ ์คํฌ๋์น RL๋ณด๋ค ๋ ๊ฐ๊ฑดํ ์ ์ฑ ์ ํ์ตํ ์ ์์์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ๊ณ ์ฐจ์ ๋ฏผ์ฒฉ ์กฐ์ ์์ ์ ์ํ DRL ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. DAPG๋ ๋ฐ๋ชจ๋ฅผ ํตํด ์ํ ํจ์จ์ฑ, ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ ๋ฐ ์์ฐ์ค๋ฌ์์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ๋ช ์๊ฐ ์์ ํ์ต์ด ๊ฐ๋ฅํ์ฌ ์ค์ ์์คํ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
2 Detail Review
2.1 ์๊ฐ ๋ฐ ๋ฐฐ๊ฒฝ
๋ค์์ ๊ด์ ์ ๊ฐ์ง ๋ค์ง ์ ๋ก๋ด(multi-fingered dexterous hand)์ ์ธ๊ฐ ํ๊ฒฝ์์ ๋ค์ํ ์์ ์ ์ํํ ์ ์ฌ๋ ฅ์ ์ง๋์ง๋ง, ์ ์ด์ ๋์ด๋๊ฐ ๋งค์ฐ ๋์ต๋๋ค. ์๊ฐ๋ฝ์ด ์ฌ๋ฌ ๊ฐ์ธ ๋ก๋ด ์์ ๊ณ ์ฐจ์ ๊ด์ ๊ณต๊ฐ๊ณผ ๋ณต์กํ ์ ์ด ์ํธ์์ฉ์ ๊ฐ๊ณ ์์ผ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ์ฅ๊ฑฐ๋ ์กฐ์ํ๋ ๊ณผ์ ์์ ์ ์ด ์ง์ ์ด ์์๋ก ๋ฐ๋๊ณ ๋์ญํ์ด ๋ถ์ฐ์์ ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ฐ ์ด์ ๋ก, ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ ๋ก๋ด ์ ์ด๋ฅผ ์ฝ๊ฒ ๋ง๋ค๊ธฐ ์ํด ๊ตฌ์กฐ์ ์ผ๋ก ๋จ์ํ ์์ด๋ ์ ํ๋ ๋์์ ์ง์คํ๊ณค ํ์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์๊ฐ๋ฝ์ ๋์ธ ๊ฐ๋ก ์ ํํ๊ฑฐ๋ ํน์ ๊ธฐ๊ณ์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ์ฌ ๋ฌธ์ ๋ฅผ ๋จ์ํํ๊ฑฐ๋, ํ์ง(grasping)๋ ๋ฌผ์ฒด๋ฅผ ์ ์์์ ๊ฐ๋จํ ํ์ ์ํค๋ ์ ๋์ ๋น๊ต์ ๋จ์ํ ์์ ์ ์ฃผ๋ก ๋ค๋ฃจ์์ต๋๋ค. ๋ชจ๋ธ ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฌํ ๊ธฐ๋ณธ ๋์๋ค์ ์ฑ๊ณต์ํจ ์ฌ๋ก๋ ์์์ง๋ง, ํ์ค ์ธ๊ณ์ ๋ณต์กํ ์ ์ด์ด ์๋ ์ํฉ์์ ์ ํํ ๋ชจ๋ธ๋ง์ด ์ด๋ ค์ ํ๊ณ๋ฅผ ๋ณด์์ต๋๋ค.
๊ฐํํ์ต(RL)์ ๋์ญํ ๋ชจ๋ธ ์์ด ์๋-์ค์ฐจ๋ฅผ ํตํด ์ ์ฑ ์ ํ์ตํ๋ฏ๋ก, ๋ณต์กํ ๋ก๋ด ์ ์ด ๋ฌธ์ ์ ์ ์ฐํ๊ฒ ์ ์ฉํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ํ์ง๋ง ๋ฅ ๊ฐํํ์ต(DRL)์ ๋ค์ง ์ ์กฐ์์ ์ ์ฉํ ์ ํ ์ฐ๊ตฌ๋ค์ ๊ฑฐ์ ์์๊ณ , ์ฃผ๋ก 7-DoF ๋ก๋ด ํ ๋ฑ ๋น๊ต์ ๊ฐ๋จํ ์กฐ์์ด๋ ๋ณดํ ๊ฐ์ ๋ค๋ฅธ ๋ถ์ผ์ ๊ตญํ๋์ด ์์์ต๋๋ค. ์ฌ์ง์ด ํ์ค์ ์ธ RL ๋ฒค์น๋งํฌ ๊ณผ์ ๋ค์ ์ฐจ์์ด ๋ฎ์, ์ ํ ์ ์ฑ ์ผ๋ก๋ ์ฝ๊ฒ ํด๊ฒฐ๋๋ ๊ฒฝ์ฐ๊ฐ ์์ ์ ๋๋ก ๋จ์ํ์ฌ, ๊ณ ์ฐจ์ ์ ์กฐ์์ ๋์ ๋ฅผ ๋๋ณํ์ง ๋ชปํ์ต๋๋ค. ๋ชจ๋ธ ํ๋ฆฌ RL์ด ์ด๋ ๊ฒ ๋ณต์กํ ์ ์กฐ์ ์์ ์ ์ง์ ์ ์ฉ๋์ด ์ฑ๊ณตํ ์ฌ๋ก๋ ๋ ผ๋ฌธ ๋ฐํ ์์ ๊น์ง ์ ๋ก๊ฐ ์์์ต๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์ ๋์์ธ Rajeswaran et al.(2018)์ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๊ฐ๊ทน์ ๋ฉ์ฐ๊ธฐ ์ํด ๊ณ ์ฐจ์ ๋ก๋ด ์์ ๋ณต์กํ ์กฐ์ ์์ ์ ๋ฅ RL๋ก ํด๊ฒฐํ ์ต์ด์ ์ฐ๊ตฌ ์ค ํ๋์ ๋๋ค. ํนํ, ์์์ ์ธ๊ฐ Demo(demonstrations) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๊ฐํํ์ต์ ํ์ ๋ฌธ์ ์ ํ๋ณธ ํจ์จ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ณผ๊ฑฐ์๋ ์๋ฎฌ๋ ์ด์ ์์ ์๋ฐฑ ์๊ฐ ๊ฑธ๋ฆฌ๋ ํ์ต์ ๋ถ๊ณผ ๋ช ์๊ฐ์ ๋ก๋ด ๊ฒฝํ(๋ช ํ์ ์ํผ์๋)์ผ๋ก ๋จ์ถํ์๊ณ , ํ์ต๋ ์ ์ฑ ์ ๋์์ด ๋ ์ธ๊ฐ์ฒ๋ผ ์์ฐ์ค๋ฝ๊ณ ํ๊ฒฝ ๋ณํ์ ๊ฒฌ๊ณ ํด์ง๋ ํจ๊ณผ๋ ํ์ธํ์์ต๋๋ค. ์ด ๋ฆฌ๋ทฐ์์๋ ํด๋น ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ์ ๊ธฐ์ ์ ์์ด๋์ด, ์ ์ํ ์๊ณ ๋ฆฌ์ฆ DAPG (Demo Augmented Policy Gradient)์ ๊ตฌ์ฒด์ ์ธ ๋์ ์๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ์ค์ ์ ์ผ๋ก ๊น์ด ์๊ฒ ๋ถ์ํฉ๋๋ค. ๋ํ ๊ธฐ์กด ๊ด๋ จ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ฌ ๋ณธ ๋ ผ๋ฌธ์ ์ฐจ๋ณ์ ๋ ํจ๊ป ์ง์ด๋ณด๊ฒ ์ต๋๋ค.
2.2 ์ฃผ์ ๊ธฐ์ฌ ์์ฝ
์ด ๋ ผ๋ฌธ์์ ์ ์๋ค์ ๋ณต์กํ ๋ค์ง ์ ์กฐ์ ํ์ต ๋ถ์ผ์ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ํ์์ต๋๋ค:
- ๋ชจ๋ธ ํ๋ฆฌ ๋ฅ RL๋ก ๊ณ ์ฐจ์ ์ ์กฐ์ ์์ ์ฑ๊ณต: ์ธ๊ฐ ์๊ณผ ์ ์ฌํ 5-์๊ฐ๋ฝ 24์์ ๋ ๋ก๋ด ์์ ์ด์ฉํด, ๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ, ์์์์ ๋ฌผ์ฒด ์ฌ๋ฐฐ์น, ๋๊ตฌ ์ฌ์ฉ, ๋ฌธ ์ด๊ธฐ์ ๊ฐ์ ๋ค์ํ ์ ์ด์ด ์๋ ๋ณต์กํ ์์ ๋ค์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฌ์ ์ง์ ์์ด RL๋ง์ผ๋ก ํ์ตํ์ฌ ์ฑ๊ณต์ ์ผ๋ก ์์ฐํ์์ต๋๋ค. ์ด๋ ์ด๋ก ์ ์ผ๋ก๋ ์คํ์ ์ผ๋ก ์ต์ด์ ์ฑ๊ณผ๋ก์, ๊ณ ์ฐจ์ ์ ์กฐ์์๋ ๋ชจ๋ธ ํ๋ฆฌ ๊ฐํํ์ต์ ์ ์ฉํ ์ ์์์ ๋ณด์์ต๋๋ค.
- Demo ๋ฐ์ดํฐ ํ์ฉ์ ํตํ ํ์ต ํจ์จ ๋น์ฝ์ ํฅ์: ๊ฐ ์์ ๋ง๋ค *25๊ฐ ์ ๋์ ์ธ๊ฐ Demo์ ๊ฐ์ํ์ค(VR) ์ธํฐํ์ด์ค๋ฅผ ํตํด ์์งํ๊ณ ํ์ฉํจ์ผ๋ก์จ, ํ์ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ํ์ต์ ํ์ํ ์ํ(๋ฐ์ดํฐ) ์์ ๋๋ผ๋งํฑํ๊ฒ ๊ฐ์์์ผฐ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ช ์๊ฐ์ ๋ถ๊ณผํ ๋ก๋ด ๊ฒฝํ(์: 5์๊ฐ ๊ฐ๋)๋ง์ผ๋ก๋ ํ์ต์ด ๊ฐ๋ฅํด์ก์ต๋๋ค. ์ด๋ ํด๋น ์์ ๋ค์ ์ค์ ๋ก๋ด์๋ ์ ์ฉํ ์ ์์ ๋งํผ ์ค์ฉ์ ์ธ ์๊ฐ ๋ด์ ํ์ต์ํฌ ์ ์๋ ์์ค์ผ๋ก ์ํ ํจ์จ์ ๊ฐ์ ํ ๊ฒ์ ๋๋ค.
- Demo์ผ๋ก ์ป์ ์์ฐ์ค๋ฌ์ ๋ฐ ๊ฐ์ธ์ฑ ํฅ์: Demo ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ตํ ์ ์ฑ ๋ค์ *๋ณด์ํจ์ ์ค๊ณ๋ฅผ ์ต์ํํด๋ ์ฑ๊ณต๋ฅ ์ด ๋์์ ๋ฟ ์๋๋ผ, ์ฌ๋์ ๋์์ ๋ฎ์ ๋ถ๋๋ฝ๊ณ ์์ฐ์ค๋ฌ์ด ์์ง์์ ๋ณด์์ต๋๋ค. ๋ํ ๋์ผํ ์์ ์ด๋ผ๋ ํ๊ฒฝ ์กฐ๊ฑด(์: ๋ฌผ์ฒด ์ง๋์ด๋ ๋ง์ฐฐ ๋ฑ)์ ๋ฐ๊พธ์์ ๋ ์ฑ๋ฅ ์ ํ๊ฐ ๋ํ๊ณ ๊ฒฌ๊ณ ํ๊ฒ ๋์ํ์ฌ, Demo์ ํตํด ์ธ๊ฐ ์ ๋ต์ ๋ด์ฌ๋ ๊ฐ์ธ์ฑ์ด ์ ์ฑ ์ ์ค๋ฉฐ๋ค์์์ ํ์ธํ์ต๋๋ค.
- ์๋ก์ด ํ์ค ๊ณผ์ ์ธํธ ์ ์: ์ ์๋ค์ ํฅํ ์ฐ๊ตฌ์ ํ์ฉํ ์ ์๋๋ก, ์์ ์ธ๊ธํ 4๊ฐ์ง *๋ค์ํ ์ ์กฐ์ ์์ ํ๊ฒฝ์ ์ ์์ผ๋ก ๊ตฌ์ถํ์ฌ ์ ์ํ์์ต๋๋ค. ์ด ์์ ๋ค์ ๊ณ ์ฐจ์, ํ๋ถํ ์ ์ด ์ํธ์์ฉ, ๊ณผ์ ์ ๋ค์์ฑ ์ธก๋ฉด์์ ์ค์ ์ธ๊ฐ ํ๊ฒฝ์ ๊ณผ์ ๋ฅผ ์ ๋ํํ๋ฉฐ, ๋ก๋ด ์กฐ์๊ณผ ๋จธ์ ๋ฌ๋ ๊ต์ฐจ ๋ถ์ผ ์ฐ๊ตฌ์๋ค์๊ฒ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.
์์ฝํ๋ฉด ์ด ๋ ผ๋ฌธ์, โ๊ณ ์ฐจ์ ๋ก๋ด ์๋ ๋ฅ RL๋ก ํ์ต์ํฌ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์๋์ Demo์ ๋ํ๋ฉด ํ์ต ์๋์ ์ ์ฑ ํ์ง ๋ชจ๋ ๊ทน์ ์ผ๋ก ํฅ์๋๋ค.โ๋ ๊ฒ์ ์ต์ด๋ก ์ฆ๋ช ํ๋ฉฐ, ๊ทธ ๋ฐฉ๋ฒ์ผ๋ก DAPG ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ ๊ฒ์ ๋๋ค.
์คํ ํ๊ฒฝ: ๋ณต์กํ ๋ค์ง ์ ์กฐ์ ๊ณผ์ ๋ค์ ์๋ค์ ์ธ๊ฐํ 5-์๊ฐ๋ฝ ๋ก๋ด ์ (24 DoF)์ ๋์ด๋๋ฅผ ์ถฉ๋ถํ ์ฒด๊ฐํ ์ ์๋ ๋ค ๊ฐ์ง ๋ํ ์์ ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๊ตฌํํ์์ต๋๋ค. ์ด ์์ ๋ค์ ์ผ์์์ ์ฌ๋์ด ์์ผ๋ก ํ๋ ๋ค์ํ ์กฐ์ ๊ธฐ์ ์ ๋ฐ์ํ๋ฉฐ, ๊ฐ์ ํ์ค(VR) ์ฅ์น๋ฅผ ํตํด ์ฌ๋์ผ๋ก๋ถํฐ Demo ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์๊ฒ ์ค๊ณ๋์์ต๋๋ค. ๊ฐ ์์ ์๋ ํ๊ฒฝ์ ๋ฌด์์์ฑ์ด ๋์ ๋์ด ์ด๊ธฐ ์ํ๋ ๋์์ ์์ฑ์ด ์ํผ์๋๋ง๋ค ๋ฌ๋ผ์ง๋ฉฐ, ์ต์ข ์ฑ๊ณต ์ฌ๋ถ๋ง์ผ๋ก ๋ณด์์ด ์ฃผ์ด์ง๋ ์ด์ง ์ฑ๊ณต ๊ธฐ์ค(sparsereward)์ ๊ฐ์ต๋๋ค.
๋ค ๊ฐ์ง ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ (Object Relocation): ํ ์ด๋ธ ์์ ๋์ธ ํ๋ ๊ณต์ ์ง์ด ๋ค์ด์ ์ด๋ก์ ๋ชฉํ ์ง์ ๊น์ง ์ฎ๊ธฐ๋ ์์ ์ ๋๋ค. ์ํผ์๋๋ง๋ค ๊ณต๊ณผ ๋ชฉํ ์์น๊ฐ ํ ์ด๋ธ ์ ์์์ ๊ณณ์ผ๋ก ์ค์ ๋๋ฉฐ, ๊ณต์ด ๋ชฉํ ์ง์ ์ ๋ฐ๊ฒฝ ฮต ์ด๋ด์ ๋์ด๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์ด ๊ณผ์ ๋ ๊ธฐ๋ณธ์ ์ธ ํ์ง ๋ฐ ์ด์ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ์-๋ฌผ์ฒด ๊ฐ ๋ค์ค ์ ์ด์ด ํ์ํ ๋ํ์ ์์ ์ ๋๋ค.
- ์ ์์์ ๋ฌผ์ฒด ์กฐ์ (In-hand Manipulation): ์์ ์ฅ ํ์ ๋ฐฉํฅ์ ์ฌ์กฐ์ ํ์ฌ ์ฃผ์ด์ง ๋ชฉํ ๋ฐฉํฅ(๋ น์ ํ์)์ ๋ง์ถ๋ ์์ ์ ๋๋ค. ์๋ชฉ์ ๊ณ ์ ๋ ์ฑ ์๊ฐ๋ฝ๋ค๋ง ์ด์ฉํ๋ฉฐ, ๋งค ์ํผ์๋๋ง๋ค ํ์ ์ด๊ธฐ ์์ธ์ ๋ชฉํ ์์ธ๊ฐ ๋ฌด์์๋ก ์ฃผ์ด์ง๋๋ค. ํ์ ๋ฐฉํฅ์ด ๋ชฉํ์ ์ผ์ ํ์ฉ ์ค์ฐจ ์ด๋ด๋ก ์ผ์นํ๋ฉด ์ฑ๊ณต์ ๋๋ค. ์ด ๊ณผ์ ๋ ์๊ฐ๋ฝ๋ค์ ํ์กฐ์ ์ธ ๋ฏธ์ธ ์กฐ์ ๋ฅ๋ ฅ์ ํ์๋ก ํ๋ฉฐ, ์ฐ์์ ์ ์ด ๋ฐ ์ฌ๊ทธ๋ฆฝ(re-grasping) ๋ฑ์ด ์๊ตฌ๋ฉ๋๋ค.
- ๋ฌธ ์ด๊ธฐ (Door Opening): ์์ผ๋ก ๋ฌธ ์์ก์ด์ ๊ฑธ์ (latch)๋ฅผ ํด์ ํ๊ณ ๋ฌธ์ ๋ฐ์ด ์ด๊ธฐ๊น์ง ์ํํ๋ ์์ ์ ๋๋ค. ๋ฌธ์ ์ด๊ธฐ ๋ซํ ๊ฐ๋์ ๊ฑธ์ ์ ์ํ๊ฐ ๋ฌด์์๋ก ์ค์ ๋๋ฉฐ, ๊ฑธ์ ์๋ ๋ง์ฐฐ๋ ฅ๊ณผ ๋ฌธ์ ๋ซํ๋๋ก ์ก์๋น๊ธฐ๋ ํ ํฌ(์คํ๋ง)๊ฐ ์กด์ฌํด ์์ก์ด๋ฅผ ์ด๋ ์ ๋ ํ์ค ๋๋ ค์ผ ์ด๋ฆฝ๋๋ค. ๋ฌธ์ด ์์ ํ ์ด๋ ค ๋ฌธํฑ(stopper)์ ๋ฟ์ผ๋ฉด ์ฑ๊ณต์ผ๋ก ํ์ ๋ฉ๋๋ค. ์ด ๊ณผ์ ๋ ๋ณต์กํ ๋๊ตฌ-ํ๊ฒฝ ์ํธ์์ฉ๊ณผ ๋ค๋จ๊ณ ํ๋ ์ํ์ค(๊ฑธ์ ํ๊ธฐ โ ๋ฐ๊ธฐ)๋ฅผ ํฌํจํ์ฌ, ์ ์กฐ์์ ํ์ ๋์ด๋๋ฅผ ํฌ๊ฒ ๋์ธ ๊ฒฝ์ฐ์ ๋๋ค.
- ๋๊ตฌ ์ฌ์ฉ (Tool Use โ Hammering): ๋ฐ๋ฅ์ ๊ณ ์ ๋ ๋ชป์ ๋ง์น๋ก ๋ด๋ฆฌ์ณ ๋ฐ๋ ์์ ์ ๋๋ค. ํ ์ด๋ธ ์์ ๋์ธ ๋ง์น๋ฅผ ์์ผ๋ก ์ง์ด ๋ค์ด ๋ชฉํ ๋ชป์ ๋จธ๋ฆฌ๋ฅผ ์ฌ๋ฌ ์ฐจ๋ก ๋๋๋ ค์, ๊ฒฐ๊ตญ ๋ชป ์ ์ฒด๋ฅผ ๋๋ฌด ํ์์ ๋ฐ์ ๋ฃ์ผ๋ฉด ์ฑ๊ณต์ ๋๋ค. ๋ชป์ ๋ง์ฐฐ๋ก ์ฝ 15N์ ํ๊น์ง ๋ฒํฐ๋๋ก ์ค๊ณ๋์ด, ์ถฉ๋ถํ ํ๊ฒฉ ํ์ ๊ฐํด์ผ ํฉ๋๋ค. ์ด ๊ณผ์ ๋ ๋ฌผ์ฒด ํ์ง โ ๊ทผ๋ ฅ ๋์์ผ๋ก ์ด์ด์ง๋ ๋ณต์กํ ํ์ฉ์ด๋ฉฐ, ๋น์ฐ์์ ์ธ ์ถฉ๊ฒฉ ์ ์ด๊ณผ ๋๊ตฌ์ ์ ํํ ์กฐ์์ด ์๊ตฌ๋๋ ๋๋ ๋์ ํ๊ฒฝ์ ๋๋ค.

DAPG ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต๋ ๋ก๋ด ์์ ๋๊ตฌ ์ฌ์ฉ (๋ง์น์ง) ๊ณผ์ ์ํ ์ฅ๋ฉด. ๋ก๋ด ์์ด ์ฑ ์ ์์ ๋ง์น๋ฅผ ์ง์ด ๋ค๊ณ ๋ฐ๋ฅ์ ๋ชป์ ์ฌ๋ฌ ์ฐจ๋ก ํ๊ฒฉํ์ฌ ๋๊น์ง ๋ฐ๋ ๋ณต์กํ ๋์์ ์ฑ๊ณต์์ผฐ๋ค. ๊ฐ ์์ ๋ง๋ค ์ฝ 25๊ฐ์ ์ธ๊ฐ Demo์ผ๋ก ์ด๊ธฐ์ ์ฑ ์ ํ์ต์ํจ ํ, ๊ฐํํ์ต์ ํตํด ๋ช ์๊ฐ ๋ง์ ์ด๋ฌํ ํ๋์ด ๊ฐ๋ฅํด์ก๋ค. ํด๋น ์ ์ฑ ์ ์ฌ๋ Demo์ ์ฐธ๊ณ ํ์ฌ ํ์ต๋์๊ธฐ ๋๋ฌธ์ ๋์์ด ๋น๊ต์ ์์ฐ์ค๋ฝ๊ณ , ํ๊ฒฝ ๋ณํ์๋ ๊ฐ๊ฑดํ ํน์ง์ ๋ณด์๋ค.
๊ฐ ์์ ์ ์๋ก ๋ค๋ฅธ ๊ธฐ์ ์ ๋์ ์์๋ฅผ ๊ฐ๊ณ ์์ด์, ํ๋์ ์๊ณ ๋ฆฌ์ฆ์ด ๋ค์ํ ์ธก๋ฉด์์ ์ฑ๋ฅ์ ๊ฒ์ฆ๋ฐ๋๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ๋ ์ ๊ทผ ๋ฐ ํ์ง(grasp & lift) ๋ฅ๋ ฅ, ์๋ด ์กฐ์์ ์ ๊ตํ ์์ธ ์ ์ด, ๋ฌธ ์ด๊ธฐ๋ ๋ค๋จ๊ณ ์ํธ์์ฉ ๋ฐ ํ ์กฐ์ , ๋ง์น์ง์ ๊ณต๊ตฌ ํ์ฉ ๋ฐ ์ถฉ๊ฒฉ๋ ฅ ์ ์ด๋ผ๋ ์์ผ๋ก, ์์ฌ์ฃผ(hand dexterity)์ ํญ๋์ ๋ฒ์๋ฅผ ์์ฐ๋ฅด๋๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. ํนํ ๋ง์น์ง์ด๋ ๋ฌธ ์ด๊ธฐ ๋ฑ์ ์์ ์ ์ด์ ์ฐ๊ตฌ๋ค์์ ๋ค๋ฃจ์ง ์์๋ ๋ณตํฉ ๊ณผ์ ๋ก์, ์ค์ ๊ฐ์ ํ๊ฒฝ์์ ๋ก๋ด ์์ด ํด์ผ ํ ์ ์ฉํ ์์ ๋ค์ ๊ฐ๊น์ต๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ํ์ค ๊ณผ์ ์ธํธ๋ฅผ ๊ตฌ์ถํจ์ผ๋ก์จ, ํฅํ ์ฐ๊ตฌ์๋ค์ด ๋ก๋ด ์+๊ฐํํ์ต ๋ถ์ผ์์ ๊ณตํต์ผ๋ก ๋์ ํ ์ ์๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์์ต๋๋ค.
2.2.1 NPG์ ํ๊ณ
Demo Augmented Policy Gradient (DAPG) ์๊ณ ๋ฆฌ์ฆ ํต์ฌ ์์ด๋์ด๋ ๊ฐํํ์ต(RL)๊ณผ ๋ชจ๋ฐฉํ์ต(Demo)์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ, ํ์ ์ด๋ ค์๊ณผ ์ํ ๋นํจ์จ ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์๋ค์ ์จ-ํด๋ฆฌ์(on-policy) ์ ์ฑ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์๋๋ฐ, ์ด๋ Natural Policy Gradient (NPG) ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ๋์์ต๋๋ค.
NPG๋ ์ ์ฑ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ Fisher Information Matrix๋ก ๊ทธ๋๋์ธํธ๋ฅผ ์ ๊ทํํ์ฌ ์ ๋ฐ์ดํธํ๋ ๊ธฐ๋ฒ์ผ๋ก, ๊ณ ์ฐจ์ ์ฐ์ ์ ์ด ๋ฌธ์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์์ ์ ์ด๊ณ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ ์๋ค์ ๋จผ์ ์ด ๊ธฐ๋ณธ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์์ ์ ํธ๋ ๊ฒ์ ์๋ํด๋ณด์๋๋ฐ, ๋ค์๊ณผ ๊ฐ์ ํ๊ณ๋ฅผ ํ์ธํ์ต๋๋ค:
- ๋ณด์ ์ค๊ณ์ ์ด๋ ค์: ์์ RL๋ก๋ ์ฑ๊ณต/์คํจ์ ๋ํ ์ด์ง ๋ณด์(sparse reward)๋ง ์ฃผ์์ ๋ ํ์ต์ด ์งํ๋์ง ์์์ต๋๋ค. ๋ฌด์์ ํ์์ผ๋ก๋ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๊ฑฐ์ ๋ชป ์ฐพ์๋ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฒฐ๊ตญ ์์ ๋ณ๋ก ์ฌ๋์ด ์ธ๋ฐํ shaping ๋ณด์(ํํธ์ฑ ์ค๊ฐ ๋ณด์)์ ์ค๊ณํด์ฃผ์ด์ผ ํ์ต์ด ๊ฒจ์ฐ ๊ฐ๋ฅํ์ต๋๋ค. ์ด๋ฌํ ๋ณด์ ์ค๊ณ๋ ๋ง์ ๋ ธ๋ ฅ๊ณผ ํด๋ฆฌ์คํฑ์ ํ์๋ก ํฉ๋๋ค.
- ์ํ ์๊ตฌ๋ ๋ฌธ์ : ๋ณด์์ ์ ์ค๊ณํด ์ฃผ์ด RL์ด ํ์ต์ ์ฑ๊ณตํ๋๋ผ๋, ์๋ฐฑ๋ง ์คํ ์ ๋ฌํ๋ ๊ฒฝํ์ด ํ์ํ์ฌ ํ์ต ์๊ฐ์ด ๋งค์ฐ ๊ธธ์์ต๋๋ค. ๋ ผ๋ฌธ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด ์ด๋ค ์์ ์ 100 ์๊ฐ๋ถ์ ํด๋นํ๋ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋๋ฐ, ์ด๋ ์ค์ ๋ก๋ด์ ์ ์ฉํ๊ธฐ์ ๋นํ์ค์ ์ผ๋ก ๋ง์ ์์ ๋๋ค (๋ก๋ด์ 100์๊ฐ ์ฐ์ ๊ตฌ๋ํ๋ฉฐ ํ์ต์ํค๋ ๊ฒ์ ์์ ์ด๋ ๋น์ฉ ๋ฉด์์ ์ฝ์ง ์์ต๋๋ค).
- ํ์ต๋ ์ ์ฑ ํ์ง ๋ฌธ์ : ์์ RL๋ก ๊ฒจ์ฐ ์ป์ด์ง ์ ์ฑ ๋ค์กฐ์ฐจ ๋์์ด ์ด์ํ๊ณ ๋นํจ์จ์ ์ด๋ฉฐ, ํ๊ฒฝ ์กฐ๊ฑด์ด ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ ์คํจํ ์ ๋๋ก ์ทจ์ฝ์ฑ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์ด๋ผ๋ฉด ํ์ง ์์ ๋ถํ์ํ ์๊ฐ๋ฝ ์์ง์์ ๋ฐ๋ณตํ๊ฑฐ๋ ๋น์ ์์ ์ธ ์์ธ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฑ ์ธ๊ฐ ๊ณต๊ฐ๋์ ๋๋จ์ด์ง ํ๋๋ค์ด ๋ํ๋ฌ๊ณ , ์ฝ๊ฐ ๋ค๋ฅธ ๋ฌผ์ฒด ํฌ๊ธฐ๋ ๋ง์ฐฐ์กฐ๊ฑด์์๋ ์ฑ๊ณต๋ฅ ์ด ๊ธ๊ฒฉํ ๋จ์ด์ก์ต๋๋ค.
DAPG (Demo Augmented Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ์ธ๊ฐ Demo ๋ฐ์ดํฐ๋ฅผ ๊ฐํํ์ต ๊ณผ์ ์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํฉ๋๋ค.
ํต์ฌ ๊ตฌ์ฑ์ ๋ ๊ฐ์ง ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค: (1) Behavior Cloning์ ํตํ ์ ์ฑ ์ด๊ธฐํ์ (2) Demo ์ ๋ณด๊ฐ ํฌํจ๋ ๋ณด์กฐ ์์ค๋ก ๊ฐํํ์ต ํ์ธํ๋์ ๋๋ค. ์๋์์๋ ์ด ๋ ๋จ๊ณ๋ฅผ ์์ธํ ์ค๋ช ํฉ๋๋ค.
2.2.2 Behavior Cloning(BC)์ผ๋ก ์ด๊ธฐ ์ ์ฑ ํ์ต
๋จผ์ ์๋์ ์ ๋ฌธ๊ฐ Demo ๋ฐ์ดํฐ์
\rho_D๋ฅผ ๋ชจ์ Behavior Cloning์ผ๋ก ์ด๊ธฐ ์ ์ฑ
์ ํ์ต์ํต๋๋ค. Demo ๋ฐ์ดํฐ์
\rho_D={(s_t^{(i)}, a_t^{(i)}, \dots)}๋ ์ฌ๋ฌ ์ํผ์๋ i์์ ์๊ฐ ๋จ๊ณ t๋ณ๋ก ์ํ s, ์ ๋ฌธ๊ฐ ํ๋ a (๊ทธ๋ฆฌ๊ณ ๋ณด์ r, ๋ค์ ์ํ ๋ฑ)์ ๋ชจ์๋ ๊ฒ์
๋๋ค. Behavior Cloning์ ์ด๋ฅผ ์ง๋ํ์ต ๋ฌธ์
๋ก ๋ณด์, ์ฃผ์ด์ง ์ํ์์ ์ ๋ฌธ๊ฐ์ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ์ ์ฑ
ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํฉ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \max_{\theta} \sum_{(s,a)\in \rho_D} \ln \pi_\theta(a \mid s)\,. \tag{1}
์ ์์ Demo ๋ฐ์ดํฐ์์ ์ ์ฑ
\pi_\theta์ ๋ก๊ทธ ํ๋ฅ ์ ์ต๋ํํ๋ ๋ฌธ์ ์
๋๋ค. ์ฆ, Demo ์ํ s์์ ์ ๋ฌธ๊ฐ๊ฐ ์ทจํ ํ๋ a๋ฅผ ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ๊ฒ ์ ํํ๋๋ก ์ ์ฑ
์ ํ๋ผ๋ฏธํฐ \theta๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์ป์ด์ง ๋ชจ๋ฐฉ ์ ์ฑ
์ ์ ๋ฌธ๊ฐ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋ ์ด๊ธฐ ์ ๋ต์ ์ ๊ณตํฉ๋๋ค. Behavior Cloning์ผ๋ก ์ด๊ธฐํ๋ฅผ ํ๋ฉด, ์์ ํ ๋ฌด์์ ์ ์ฑ
์ผ๋ก ์์ํ๋ ๊ฒ์ ๋นํด ํ์์ ํจ์ฌ ํจ์จ์ ์ผ๋ก ๋ง๋ค ์ ์์ต๋๋ค.
์ผ๋ฐ์ ์ธ ์ ์ฑ
๊ทธ๋๋์ธํธ ๋ฐฉ๋ฒ์ ์ ์ฑ
์ ํ๋ฅ ์ ํ์ ๋
ธ์ด์ฆ์๋ง ์์กดํ์ฌ ์๋ก์ด ๋์์ ์๋ํ๋๋ฐ, ๊ณ ์ฐจ์ ๋ฌธ์ ์์๋ ๋ฌด์์ ์๋๋ก๋ ์๋ฏธ ์๋ ์ํ์ ๋๋ฌํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด, Demo ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผํ๋๋ก ์ด๊ธฐ ์ ์ฑ
์ ์ก์์ฃผ๋ฉด ์ด๋ฐ๋ถํฐ ์ ๋งํ ์ํ-ํ๋ ์์ญ์ ํ์ํ๊ฒ ๋์ด, ํํ ํ์ํ๋ ๋ณต์กํ ๋ณด์ shaping ์์ด๋ ํ์ต์ ์์ํ ์ ์์ต๋๋ค.
์ค์ ๋
ผ๋ฌธ ๊ฒฐ๊ณผ์์๋, Demo์ ํ์ฉํ์ง ์์ ๊ฒฝ์ฐ์๋ ๊ฐ ์์
๋ง๋ค ์ฌ๋์ด ์ผ์ผ์ด ์ถ๊ฐ ๋ณด์ ์ ํธ๋ฅผ ์ค๊ณํด์ค์ผ ํ์ง๋ง, DAPG๋ Demo ๋๋ถ์ ์ด๋ฐ ๋ณด์ ์์ด๋ ํ์ต์ด ๊ฐ๋ฅํ์์ ๋ณด์ฌ์ค๋๋ค.
ํ์ง๋ง, Behavior Cloning๋ง์ผ๋ก ์ต์ข
์ ์ฑ
์ ์ป๊ธฐ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. Demo ๋ฐ์ดํฐ์ ์์ด ๋ง์ง ์์ผ๋ฉด ๋ชจ๋ฐฉ ํ์ต๋ ์ ์ฑ
์ ๋ถํฌ ์ด๋(distributional shift) ๋ฌธ์ ๋ก ์๋ก์ด ์ํ์ ๋์ํ์ง ๋ชปํด ์คํจํ๊ฒ ๋ฉ๋๋ค.
์ค์ ๋ก ์ ์๋ค์ ์คํ์ ์๋ BC๋ง์ผ๋ก ํ์ตํ ์ ์ฑ
์ ๋๋ถ๋ถ ์์
์ ๋๊น์ง ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ Demo ๊ฒฝ๋ก๋ฅผ ์กฐ๊ธ๋ง ๋ฒ์ด๋๋ ์ ์ฑ
์ด ์ด๋ป๊ฒ ํ๋ํด์ผ ํ ์ง ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์
๋๋ค. ๋์ฑ์ด, ๋ชจ๋ฐฉํ์ต๋ง์ผ๋ก๋ ์ ๋ฌธ๊ฐ๋ฅผ ๋์ด์ ์ฑ๋ฅ์ ํฅ์์ํฌ์๋ ์์ต๋๋ค
โ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฃผ์ด์ง Demo์ ๋ฐ๋ผํ๊ธฐ๋ง ํ๋ฏ๋ก ๊ณผ์
์ฑ๊ณต์ ๋ํ ํผ๋๋ฐฑ์ด ์๊ธฐ ๋๋ฌธ์
๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ฐฉ์ผ๋ก ์ด๊ธฐํํ ํ์๋ ๊ฐํํ์ต์ ํตํด ๋ณด์ ์ ํธ๋ก ์ ์ฑ
์ ํฅ์์ํค๋ ๋จ๊ณ๊ฐ ํ์ํฉ๋๋ค.
2.2.3 ๊ฐํํ์ต ํ์ธํ๋ (Demo ๋ณด์กฐ ์์ค ํฌํจ ์ ์ฑ ๊ทธ๋๋์ธํธ)
์ด๊ธฐ ์ ์ฑ
์ ์ป์๋ค๋ฉด, ์ดํ์๋ ์จ-ํด๋ฆฌ์ ๊ฐํํ์ต์ผ๋ก ์ ์ฑ
์ ๊ณ์ ํ์ธํ๋ํฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ธ ์ ์ฑ
๊ทธ๋๋์ธํธ ๋ฐฉ์๊ณผ ์ฐจ๋ณํ๋๋ ์ ์, Demo ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถ๊ฐ๋ก ์ป๋ ๊ทธ๋๋์ธํธ ํญ(term)์ ์์ค ํจ์์ ํฌํจ์ํจ๋ค
๋ ๊ฒ์
๋๋ค. ์ด๋ฅผ ํตํด ํ์ต ๋ด๋ด ์ ์ฑ
์ด Demo์ ์ ์ตํ ํ๋๋ค์ ์ฐธ๊ณ ํ๋๋ก ๋ง๋ค๊ณ , ์ค๊ฐ ๋จ๊ณ ํ๋๋ค์ ๋ํ ๊ฐ์ด๋์ค๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ ์๋ค์ ์ด ์ ๊ทผ์ โ๋ฐ๋ชจ ์ฆ๊ฐ ์ ์ฑ
๊ทธ๋๋์ธํธ(Demo Augmented Policy Gradient, DAPG)โ๋ผ ๋ช
๋ช
ํ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฑ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ ๋ ์ฌ์ฉ๋๋ ๋ชฉ์ ํจ์๋ฅผ ํ์ฅํฉ๋๋ค. ๊ธฐ๋ณธ์ด ๋๋ RL ๋ชฉํ๋ ์ ์ฑ ์ ๊ธฐ๋ ์ด ๋ณด์ J(\pi_\theta) = \mathbb{E}_\pi \left[\sum_t \gamma^t r_t\right]๋ฅผ ์ต๋ํํ๋ ๊ฒ์ผ๋ก, ์ด์ ๋์ํ๋ ์ ์ฑ ๊ทธ๋๋์ธํธ๋ REINFORCE ๊ณต์์ ํตํด ์๋์ฒ๋ผ ์ฃผ์ด์ง๋๋ค:
g_{\text{RL}} \;=\; \mathbb{E}{(s,a)\sim \rho\pi}!\Big[ \nabla_\theta \ln \pi_\theta(a|s)\; A^\pi(s,a) \Big] \,,
์ฌ๊ธฐ์ \rho_\pi๋ ํ์ฌ ์ ์ฑ \pi๋ก๋ถํฐ ์์งํ ์จ-ํด๋ฆฌ์ ๋ฐ์ดํฐ ๋ถํฌ์ด๊ณ , A^\pi(s,a)๋ ํ์ฌ ์ ์ฑ ์ ๋ํ ์ด๋๋ฐดํฐ์ง(advantage) ๊ฐ์ ๋๋ค. A^\pi(s,a)๋ ํด๋น ์ํ-ํ๋์ด ํ๊ท ์ ์ธ ์ํ ๋๋น ์ผ๋ง๋ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋์ง๋ฅผ ๋ํ๋ด๋ ๊ฐ์ผ๋ก, ๋ณด์ Q^\pi(s,a)์ ๊ฐ์นํจ์ V^\pi(s)์ ์ฐจ์ด๋ก ์ ์๋ฉ๋๋ค. DAPG์์๋ ์ด ์ ์ฑ ๊ทธ๋๋์ธํธ์ ์ถ๊ฐ๋ก Demo ๋ฐ์ดํฐ ๋ฐฉํฅ์ ๊ทธ๋๋์ธํธ๋ฅผ ๋ํด์ค๋๋ค. ์ฆ, ์ต์ข ์ฆ๊ฐ ๊ทธ๋๋์ธํธ g_{\text{aug}}๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋ฉ๋๋ค:
g_{\text{aug}} \;=\; \sum_{(s,a)\in \rho_\pi} \nabla_\theta \ln \pi_\theta(a|s)\; A^\pi(s,a)\;+\; \sum_{(s,a) \in \rho_D} \nabla_\theta \ln \pi_\theta(a|s)\; w(s,a)\,. \tag{2}
์ฒซ ๋ฒ์งธ ํญ์ ์จ-ํด๋ฆฌ์ RL ๊ทธ๋๋์ธํธ(์์ ์ค๋ช ํ g_{\text{RL}})์ด๊ณ , ๋ ๋ฒ์งธ ํญ์ด Demo ๋ฐ์ดํฐ๋ก๋ถํฐ ์ค๋ ์ถ๊ฐ ๊ทธ๋๋์ธํธ์ ๋๋ค. ์ด ์ถ๊ฐ ํญ์ Demo ๋ฐ์ดํฐ ๋ถํฌ \rho_D์ ๋ํด, ๊ทธ ์ํ์์ ์ ์ฑ ์ด Demo ํ๋ a๋ฅผ ์ทจํ๋๋ก ํ๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ์์ฉํฉ๋๋ค. ๋จ, ๋ชจ๋ Demo ๋ฐ์ดํฐ๋ฅผ ๋์ผํ๊ฒ ์ฌ์ฉํ๊ธฐ๋ณด๋ค๋ ๊ฐ๊ฐ์ ๊ฐ์ค์น w(s,a)๋ฅผ ๋ถ์ฌํ์ฌ ์ผ๋ง๋ ์ ๋ขฐํ ์ง ์กฐ์ ํฉ๋๋ค. ์ด๋ฐ ๋ฐฉ์์ผ๋ก Demo์ ํ์ฉํ๋ฉด ๋ชจ๋ฐฉ ํ์ต๊ณผ ๊ฐํํ์ต์ ์ฐ์์ ์ผ๋ก ์ ๋ชฉํ ์ ์์ต๋๋ค.
๋ช ๊ฐ์ง ๊ทน๋จ์ ์ธ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ง์ฝ ๋ชจ๋ (s,a)\in\rho_D์ ๋ํด w(s,a)=0์ด๋ผ๋ฉด ๋ ๋ฒ์งธ ํญ์ด ์์ด์ง๊ณ ์์ํ RL ํ์ต๊ณผ ๋์ผํด์ง๋๋ค. ๋ฐ๋๋ก w(s,a)๊ฐ ๋งค์ฐ ํฐ ์์๋ก ์ค์ ๋์ด Demo ํญ์ด ์ง๋ฐฐ์ ์ด๋ผ๋ฉด, ์ด๋ ์ฌ์ค์ Behavior Cloning๋ง์ ์ํํ๋ ๊ฒ๊ณผ ๊ฐ๊น์์ง๋๋ค. DAPG์ ๋ชฉํ๋ w(s,a)๋ฅผ ์ ์ ํ ์กฐ์ ํ์ฌ RL์ ์ฑ๋ฅ ํฅ์ ํจ๊ณผ์ Demo์ ๊ฐ์ด๋ ํจ๊ณผ๋ฅผ ๋์์ ์ป๋ ๊ฒ์ ๋๋ค.
์ ์๋ค์ ์ด์์ ์ธ w(s,a) ์ค๊ณ์ ๋ํด ๊ณ ์ฐฐํ๋ฉด์, \rho_\pi์ \rho_D์ ํผํฉ ๋ถํฌ ๊ด์ ์์ ๋ถ์ํฉ๋๋ค.
๋ถ์์ ๋ฐ๋ฅด๋ฉด, ์ด๋ก ์ ์ผ๋ก๋ Demo ๋ฐ์ดํฐ์์๋ ํ์ฌ ์ ์ฑ ์ Advantage๋ฅผ ๊ณ์ฐํ์ฌ w(s,a) = A^\pi(s,a)๋ก ๋๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ ๋๋ค. ์ฆ, Demo์์์ ํ๋์ด ํ์ฌ ์ ์ฑ ๋ณด๋ค ์ผ๋ง๋ ์ด๋์ธ์ง์ ๋ฐ๋ผ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๊ฒ์ด ์ต์ ์ด๋ผ๋ ๊ฒ์ด์ฃ . ํ์ง๋ง ํ์ค์ ์ผ๋ก Demo ๊ฐ ์ํ์ A^\pi(s,a) ๊ฐ์ ์ป์ผ๋ ค๋ฉด ์ถ๊ฐ์ ์ธ ์๋ฎฌ๋ ์ด์ ์ด๋ ๊ฐ์ ์ด ํ์ํ์ฌ ๊ณง๋ฐ๋ก ๊ณ์ฐํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋์ ์ ์๋ค์ ๊ฒฝํ์ ์ธ ํด๋ฆฌ์คํฑ์ผ๋ก์ ๋ค์๊ณผ ๊ฐ์ ๋จ์ํ ํํ์ ๊ฐ์ค์น๋ฅผ ์ ์ํฉ๋๋ค :
w(s,a) \;=\; \lambda_0 \,\lambda_1^k \; \max_{(s',a')\in \rho_\pi} A^\pi(s',a') \qquad \forall (s,a) \in \rho_D\,,
์ฌ๊ธฐ์ \lambda_0๋ ์ด๊ธฐ ๊ฐ์ค์น ์ค์ผ์ผ, \lambda_1์ ๊ฐ์์จ(decay factor), k๋ ํ์ต์ด ์งํ๋ iteration ํ์๋ฅผ ๋ํ๋ ๋๋ค. ์ฆ, ํ์ฌ ์ ์ฑ ์ผ๋ก ๋ชจ์ ์จ-ํด๋ฆฌ์ ๋ฐ์ดํฐ์์์ ์ต๋ advantage ๊ฐ (ํ ์ ์ฑ ์ด ์ป ์ ๊ฐ์ฅ ์ข์ ํ๋์ advantage)์ ํ๋์ ๊ธฐ์ค ์์๋ก ์ผ์์, ๋ชจ๋ Demo ์ํ์ ๋์ผํ ๊ฐ์น๋ก ํ ๋นํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ต์ด ๊ฑฐ๋ญ๋ ์๋ก \lambda_1^k ํญ์ ํตํด ์ด ๊ฐ์ค์น๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์์ํต๋๋ค.
์ด ์ค๊ณ์ ์๋๋ ๋ช ํํฉ๋๋ค: ์ด๊ธฐ ํ์ต ๋จ๊ณ์์๋ Demo๊ฐ ์ ์ฑ ๋ณด๋ค ํจ์ฌ ์ฐ์ํ ํ๋๋ค์ ๋ด๊ณ ์์ผ๋ฏ๋ก Demo์ ์ํฅ์ ๊ฐํ๊ฒ ์ฃผ์ด์ผ ํฉ๋๋ค. ๋ฐ๋ฉด ํ๊ธฐ ๋จ๊ณ์์๋ ์ ์ฑ ์ด ์ด๋ฏธ ์ฌ๋งํ ์ฑ๋ฅ์ ๋๋ฌํ๊ธฐ ๋๋ฌธ์ Demo๊ณผ ์ ์ฑ ์ ์์ค์ด ๋น์ทํด์ง๋๋ค. ์ด๋๊น์ง๋ Demo์ ๋๋ ค๋ค๋๋ฉด ์ ์ฑ ์ด ๋ ๋์์ง๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ํ๋ฐ์ผ๋ก ๊ฐ์๋ก Demo์ ๋น์ค์ ์ค์ฌ ์ ์ฑ ์ด ์ค์ค๋ก ์ฑ๋ฅ์ ์ต๋๋ก ๋์ด์ฌ๋ฆฌ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ด๋ฐ์ Demo ์์ฃผ ํ์ต โ ํ๋ฐ์ RL ์์ฃผ ํ์ต์ผ๋ก ์ ์ง์ ์ผ๋ก ์ ํ๋์ด, ์ ์ฒด์ ์ผ๋ก Demo+RL์ ์๋์ง๋ฅผ ์ป๋ ๊ฒ์ด DAPG์ ๋ชฉํ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ \lambda_0=0.1, \lambda_1=0.95๋ก ์ค์ ํ์ฌ ๋ชจ๋ ์คํ์ ์งํํ์ผ๋ฉฐ, ์ ์ ํ ๋ฒ์ ๋ด์์๋ ๊ฒฐ๊ณผ๊ฐ ํฌ๊ฒ ๋ฏผ๊ฐํ์ง๋ ์์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
์ด๋ฌํ ๊ฐ๋ ์ ์ข ํฉํ์ฌ DAPG ์๊ณ ๋ฆฌ์ฆ์ ํ๋ฆ์ ๋จ๊ณ๋ณ๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Demo ์์ง: ์ ๋ฌธ๊ฐ(ํด๋จผ)๊ฐ VR ์ฅ์น๋ฅผ ํตํด ๊ฐ ์์ ์ ์ํํ์ฌ ์ฑ๊ณต trajectories๋ฅผ N๊ฐ (๋ ผ๋ฌธ ์คํ์์๋ ์ฝ 25๊ฐ) ๊ธฐ๋กํฉ๋๋ค. ์ด๋ก๋ถํฐ Demo ๋ฐ์ดํฐ์ \rho_D๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
- Behavior Cloning ์ด๊ธฐํ: ์ (1)์ ์ต๋์ฐ๋ ์ถ์ ๋ฌธ์ ๋ฅผ ํ์ด Demo์ ๋ชจ๋ฐฉํ๋ ์ด๊ธฐ ์ ์ฑ \pi_{\theta_0}๋ฅผ ์ป์ต๋๋ค. (์ค์ ๋ก๋ ๋ฅ๋ฌ๋ ์ตํฐ๋ง์ด์ ๋ฅผ ํ์ฉํ์ฌ ์์ค ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ํ์ตํฉ๋๋ค.)
- ๊ฐํํ์ต ๋ฐ๋ณต: k=1,2,\dots ์ ๋ํด ๋ค์์ ์ํํฉ๋๋ค.
- ํ์ฌ ์ ์ฑ \pi_{\theta_{k-1}}์ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ดํฐ์์ ์ฌ๋ฌ ์ํผ์๋์ on-policy ๋ฐ์ดํฐ \rho_\pi๋ฅผ ์ํ๋งํฉ๋๋ค. (๋ ผ๋ฌธ ๊ตฌํ์ ํ iteration์ 200 ์ํผ์๋์ฉ ์์งํ์ฌ ์ฌ์ฉ.)
- ์์งํ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ state-action์ advantage \hat{A}^\pi(s,a) ๊ฐ์ ์ถ์ ํฉ๋๋ค (๊ฐ์นํจ์ baseline ๋ฑ์ ์ด์ฉ). ์ ์ฑ ๊ทธ๋๋์ธํธ g_{\text{RL}} (์จ-ํด๋ฆฌ์ ๋ถ๋ถ)์ Demo ๊ทธ๋๋์ธํธ ํญ์ ํฌํจํ ์ฆ๊ฐ ๊ทธ๋๋์ธํธ g_{\text{aug}}๋ฅผ ์ (2)์ ๋ฐ๋ผ ๊ณ์ฐํฉ๋๋ค.
- g_{\text{aug}}๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ฅผ ์ํํฉ๋๋ค. ์ด๋ Natural Policy Gradient ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฏ๋ก, ๊ทธ๋๋์ธํธ์ Fisher ์ ๋ณด ํ๋ ฌ์ ์ญ์ ๊ณฑํด ์คํ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ ์ ๋ฐ์ดํธ๋ฅผ ์ ์ฉํฉ๋๋ค. (์ฆ, $ k = {k-1} + , F^{-1} g_{} $ ํํ๋ก, \alpha๋ ์ ์ ํ ์คํ ํฌ๊ธฐ์ ๋๋ค.)
- Demo ๊ทธ๋๋์ธํธ์ ๊ฐ์ค์น ๊ณ์ \lambda_1^k๋ฅผ ๋ค์ iteration์ ์ํด ๊ฐ์์ํต๋๋ค.
- ์๋ ด ๋๋ ์ถฉ๋ถํ ์ฑ๋ฅ ๋ฌ์ฑ ์ ์ข ๋ฃ: ์ ์ฑ ์ ํ๊ฐํ์ฌ ์ฑ๊ณต๋ฅ ๋ฑ์ด ๊ธฐ์ค์ ๋์ผ๋ฉด ํ์ต์ ์ข ๋ฃํฉ๋๋ค.
์ด ์ ์ฒด ์๊ณ ๋ฆฌ์ฆ์์, Demo ๋ฐ์ดํฐ๋ ์ด๊ธฐ ํ์ต์์๋ ํ์์ ํฌ๊ฒ ๊ฐ์ํ๊ณ , ํ์ต ์ค๋ฐ์๋ ์ ์ฑ ์ด ๋์น๊ณ ์๋ ํ๋๋ค์ ๋ณด๊ฐํ๋ ๊ฐ์ด๋ ์ญํ ์ ํ๋ฉฐ, ํ์ต ํ๋ฐ์๋ ๋น์ค์ ์ค์ฌ ์ต์ข ์ฑ๋ฅ์ RL์ด ์ฃผ๋ํ๊ฒ ํฉ๋๋ค. ์ ์๋ค์ด ๋ ์๋ฅผ ๋ค์ ์๊ธฐํด ๋ณด๋ฉด, Behavior Cloning ๋จ๊ณ์์๋ ๋ง์น๋ฅผ ๋๋ ๊ฒ๊น์ง ๊ฒจ์ฐ ๋ฐฐ์ฐ์ง๋ง ๋ชป์ ์น์ง๋ ๋ชปํ์ต๋๋ค. ์ดํ ๊ฐํํ์ต์ด ๋ง์น ๋๋ ๋ถ๋ถ์ ์์ฒด์ ์ผ๋ก ๊ฐ์ ํ๊ณ ๋๋ฉด, ์ฌ์ ํ ์ด๋ ค์ด ๋ชป ์น๋ ๋์์ Demo ๋ฐ์ดํฐ๊ฐ ๋ท๋ฐ์นจํด์ฃผ์ด ์ ์ฑ ์ด ์ด๋ฅผ ์ต๋ํ๋๋ก ๋ง๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ Demo์ ์ ๋ณด๊ฐ ์ ํ์ต ๊ณผ์ ์ ๊ฑธ์ณ ํ์ฉ๋๊ธฐ ๋๋ฌธ์, ์ด๊ธฐ Demo์์ ๋ด์ง๋ชปํ ๋ณต์กํ ํ๋๊น์ง ์ต์ข ์ ์ฑ ์ด ์ป๊ฒ ๋๋ ๊ฒ์ด DAPG์ ์ฅ์ ์ ๋๋ค.
์ฐธ๊ณ : DAPG์ ๋๋น๋๋ ์ ๊ทผ์ผ๋ก, off-policy ๋ฐฉ๋ฒ์ธ DDPGfD (DDPG from Demonstrations)๊ฐ ์์ต๋๋ค. DDPGfD๋ Q๋ฌ๋ ๊ธฐ๋ฐ ์ฐ์์ ์ด ์๊ณ ๋ฆฌ์ฆ์ธ DDPG์ ๋ฆฌํ๋ ์ด ๋ฒํผ ์ด๊ธฐํ ํํ๋ก Demo์ ๋ฃ๊ณ , ์ฐ์ ์์ ๊ฒฝํ ์ฌ์(PER), n-step ๋ณด์, ๋คํธ์ํฌ ๊ฐ์ค์น ์ ๊ทํ ๋ฑ ์ฌ๋ฌ ๊ธฐ๋ฒ์ ์กฐํฉํ์ฌ Demo์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. off-policy ๋ฐฉ๋ฒ์ ๋์ผํ ๋ฐ์ดํฐ๋ก ๋ฐ๋ณต ํ์ตํ๋ฏ๋ก ํ๋ณธ ํจ์จ์ ๋์ ์ ์์ง๋ง, ํ๋ จ์ด ๋ถ์์ ํ๊ณ ํนํ ๊ณ ์ฐจ์ ํ๊ฒฝ์์๋ ๋ฏผ๊ฐ๋๊ฐ ๋๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ๋ฐ๋ฉด DAPG๋ on-policy ์ ๋ฐ์ดํธ๋ก ์์ ์ฑ์ ํ๋ณดํ๊ณ Demo์ผ๋ก ํจ์จ ํฅ์๊น์ง ์ป์ ๋ฐฉ๋ฒ์ผ๋ก, ๋ ผ๋ฌธ ์คํ์์๋ DDPGfD๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. (์์ธํ ๋น๊ต๋ ๋ค์ ์คํ ๊ฒฐ๊ณผ์์ ๋ค๋ฃน๋๋ค.)
2.3 ์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
2.3.1 ๊ฐํํ์ต ๋จ๋ ์ผ๋ก๋ ํ๊ณ
์ฐ์ Demo์ ์ฌ์ฉํ์ง ์๊ณ ์์ RL๋ง์ผ๋ก ์์ ์๊ฐํ ๋ค ๊ฐ์ง ์์ ์ ํ์ต์์ผ ๋ณธ ๊ฒฐ๊ณผ, ์ฌ๋ฌ ๋ฌธ์ ์ ์ด ๋ํ๋ฌ์ต๋๋ค. Sparse reward (์ต์ข ์ฑ๊ณต ์ฌ๋ถ๋ง ๋ณด์) ์ค์ ์์๋ ๋๋ค์ ์์ ์์ ์๋ฌด๋ฐ ํ์ต ์ง์ ์ด ์์๋๋ฐ, ์ด๋ ์์ ์ธ๊ธํ๋๋ก ๋ฌด์์ ํ์์ผ๋ก๋ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ง๋์ง ๋ชปํด ์ ์ฑ ์ด ์ณ์ ๋ฐฉํฅ์ผ๋ก ๊ฐฑ์ ๋์ง ์๊ธฐ ๋๋ฌธ์ด์์ต๋๋ค. ์์ธ์ ์ผ๋ก ํ ๋๋ฆฌ๊ธฐ (in-hand) ์์ ์ ๋งค์ฐ ๊ฐ๋จํ ์ฑ๊ณต ์กฐ๊ฑด ๋์ ๊ทนํ ๋๋ฌผ๊ฒ ์ฑ๊ณต ์ํผ์๋๊ฐ ๋ฐ์ํ์ฌ ์กฐ๊ธ์ด๋๋ง ํ์ต์ด ์งํ๋์์ผ๋, ๋ค๋ฅธ ์์ ๋ค์ ์ ํ ์ฑ๊ณต์ ๊ฒฝํํ์ง ๋ชปํ ์ฑ ๋ณด์์ด 0์ผ๋ก ๋จธ๋ฌผ๋ ์ต๋๋ค.
์ด ๋๋ฌธ์ ์ ์๋ค์ RL์ ํ์ต์ํค๊ธฐ ์ํด ๋ถ๋์ดํ๊ฒ ๊ฐ ์์ ๋ณ๋ก ์ธ๋ฐํ shaped reward๋ฅผ ์ค๊ณํ์ฌ ํฌ์ ํ์ต๋๋ค. ์์ปจ๋ ๋ฌธ ์ด๊ธฐ ์์ ์ ๊ฒฝ์ฐ โ๊ฑธ์ ๋ฅผ ์ด๋ ์ ๋ ๋๋ฆฌ๋ฉด +๋ณด์, ๋ฌธ์ ์ด์ง ์ด๋ฉด +๋ณด์โ ๋ฑ์ ์ค๊ฐ ๋ณด์์ ๋จ๊ณ๋ณ๋ก ์ฃผ๋ ์์ ๋๋ค. ์ด๋ฌํ ํด๋ฆฌ์คํฑ ๋ณด์ ๋๋ถ์ NPG ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ ์์ ์์ ์ ์ฑ ์ ์ด๋ ์ ๋ ํ์ตํ ์ ์์์ต๋๋ค. ์ต์ข ์ฑ๋ฅ์ 100ํ ์๋ ์ค ์ฑ๊ณต๋ฅ (%)๋ก ํ๊ฐํ์ ๋, NPG๋ ๊ฐ ๊ณผ์ ์์ ์๋นํ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.

Figure 7์ ์ ์๋ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด NPG์ ๊ฒฝ์ฐ ๋ค ์์ ๋ชจ๋ ์ฝ 80~100%์ ์๋ ดํ๋ ์ฑ๋ฅ์ ๋ณด์ธ ๋ฐ๋ฉด, DDPG ์๊ณ ๋ฆฌ์ฆ์ ๊ด๋ฒ์ํ ํ๋์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ ํ ์์ ๋ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ์ง ๋ชปํ์ต๋๋ค. (DDPG๋ ์คํํด๋ฆฌ์์ ์ฅ์ ์ผ๋ก ๋ฐ์ดํฐ ํจ์จ์ ๋์ง๋ง, ๊ณ ์ฐจ์ ์ฐ์์ ์ด์์๋ ํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ๋์ ๋ถ์์ ์ฑ์ผ๋ก ํ์ต ์คํจํ ๋๊ฐ ๋ง๋ค๋ ์ง์ ์ด ์์ต๋๋ค. ์ด ์คํ์์๋ ๋ณต์กํ ์ ํ๊ฒฝ์ ์ ํฉํ์ง ์์์ด ํ์ธ๋์์ต๋๋ค.) ๋น๋ก NPG๋ก shaped ๋ณด์ ํ์ ํ์ต์ด ๋๊ธด ํ์ง๋ง, ํ์ต ์๋์ ์ ์ฑ ํ์ง ๋ฉด์์ ๋ฌธ์ ๊ฐ ๋จ์์ต๋๋ค. ์ฐ์ ํ์ต์ ์๊ตฌ๋๋ ํ๋ณธ ์๊ฐ ๋งค์ฐ ์ปธ๋๋ฐ, ๋ ผ๋ฌธ ๋ถ์์๋ฃ์ Table I์ ์ ๋ฆฌ๋ ๋ฐ์ ๋ฐ๋ฅด๋ฉด Demo ์์ด shaped ๋ณด์์ผ๋ก ํ์ตํ ๊ฒฝ์ฐ ์๋ฐฑ ํ์ ์ ์ฑ ์ ๋ฐ์ดํธ(ํ๋์ ์ ๋ฐ์ดํธ๋น 200 ์ํผ์๋ ์ํ) ํ์์ผ 90% ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ์ต๋๋ค. ์ด๋ฅผ ์ค์ ๋ก๋ด ์๊ฐ์ผ๋ก ํ์ฐํ๋ฉด ์์ญ~์๋ฐฑ ์๊ฐ์ ์ด๋ฅด๋ ๋ถ๋์ ๋๋ค. ์๋ ํ๋ ๊ฐ ์์ ์ ๋ํด DAPG vs. ์์ RL์ ํ์ต ์์ ์๊ฐ์ ๋น๊ตํ ๊ฒ์ผ๋ก, DAPG๊ฐ ์ผ๋ง๋ ํ์ต์ ๊ฐ์ํ๋์ง ์ ๋ณด์ฌ์ค๋๋ค:
์์ (Task) | DAPG (Demo + sparse ๋ณด์) | RL (NPG) โ shaped ๋ณด์ | RL (NPG) โ sparse ๋ณด์ |
---|---|---|---|
Relocation (๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ) | 52ํ ์
๋ฐ์ดํธ (~5.8 ์๊ฐ) |
880ํ (~98 ์๊ฐ) |
์คํจ (ํ์ต ๋ถ๊ฐ) |
Hammer (๋ง์น์ง) | 55ํ ์
๋ฐ์ดํธ (~6.1 ์๊ฐ) |
448ํ (~50 ์๊ฐ) |
์คํจ (ํ์ต ๋ถ๊ฐ) |
Door (๋ฌธ ์ด๊ธฐ) | 42ํ ์
๋ฐ์ดํธ (~4.7 ์๊ฐ) |
146ํ (~16.2 ์๊ฐ) |
์คํจ (ํ์ต ๋ถ๊ฐ) |
Pen (ํ ํ์ ) | 30ํ ์
๋ฐ์ดํธ (~3.3 ์๊ฐ) |
864ํ (~96 ์๊ฐ) |
2900ํ (~322 ์๊ฐ) |
ํ 1: Demo ํ์ฉ ์ฌ๋ถ์ ๋ฐ๋ฅธ ํ์ต ์์ ๋น๊ต (๋ ผ๋ฌธ Table I ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ).
DAPG๋ Demo ๋๋ถ์ sparse ๋ณด์๋ง์ผ๋ก๋ ๊ฐ ์์ ์ ์ ์๊ฐ ๋ด์ ํ์ต์ ์๋ฃํ ๋ฐ๋ฉด, ์์ RL (NPG)๋ shaped ๋ณด์์ด ์์ด๋ ์์ญ~์๋ฐฑ ์๊ฐ์ ๊ฒฝํ์ ํ์๋ก ํ์ต๋๋ค. ํนํ sparse ๋ณด์๋ง ์ฃผ๋ ๊ฒฝ์ฐ, Pen ์์ ์ ์ ์ธํ๋ฉด RL์ ์์ ํ์ต ์งํ์ด ์ ๋์ด ๋ฌดํ๋(โ)๋ก ํ์๋์๊ณ , Pen๋ 300์๊ฐ ์ด์์ ๋ฐฉ๋ํ ๊ฒฝํ์ ์์์ผ ๊ฒจ์ฐ ์ฑ๊ณต๋ฅ ๊ธฐ์ค์ ๋ง์กฑ์์ผฐ์ต๋๋ค. ๋ํ ์ ์ฑ ์ ํ๋ ํ์ง๋ ํฐ ์ฐจ์ด๊ฐ ๋ํ๋ฌ์ต๋๋ค. ์์ RL๋ก ํ์ต๋ ์ ์ฑ ๋ค์ ์ ์๋ ๋ณด์๋ง ๊ทน๋ํํ๋ ค๋ค ๋ณด๋ ์ข ์ข ์๋ฑํ ๋ฐฉ์์ผ๋ก ๊ณผ์ ๋ฅผ ์ํํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด๋ฅผ ์ฎ๊ธฐ๋ ์์ ์์ ์ฌ๋์ด๋ผ๋ฉด ํธํ๊ฒ ์ฅ ๊ณต์ ๋งค์ฐ ์ด์ํ ์๊ฐ๋ฝ ๊ผฌ์ ์์ธ๋ก ์ฅ๋ค๋ ์ง, ๋ง์น์ง ์์ ์์ ๋ง์น๋ฅผ ๋นํ์ด์ ์ก๋ ๋ฑ ๋นํจ์จ์ ์ด๊ฑฐ๋ ๋ถ์์ฐ์ค๋ฌ์ด ๋์์ด ๊ด์ฐฐ๋์์ต๋๋ค (๋ ผ๋ฌธ Figure 8 ์ฐธ์กฐ).

์ด๋ฌํ ์ ์ฑ ์ ์ฌ์ํ ๋ณํ์๋ ์ฝ๊ฒ ์คํจํ๋๋ฐ, ์ ์๋ค์ด ์ ์ฑ ์ ๊ฐ์ธ์ฑ(robustness)์ ์คํํ ๊ฒฐ๊ณผ ์์ RL ์ ์ฑ ์ ํ๊ฒฝ ํ๋ผ๋ฏธํฐ๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ ์ฑ๊ณต ํ๋ฅ ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง ๋ฐ๋ฉด, DAPG๋ก ํ์ตํ ์ ์ฑ ์ ๋ณํ๋ ์ํฉ์์๋ ๋์ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค.

Figure 9์ ์ ์๋ ๊ทธ๋ํ์์, ์๋ฅผ ๋ค์ด DAPG ์ ์ฑ ์ ๊ณต์ ์ง๋์ด๋ ๋ง์ฐฐ๊ณ์๊ฐ ๋ฌ๋ผ์ ธ๋ ์ฑ๊ณต๋ฅ ๊ณก์ ์ด ์๋งํ๊ฒ ์ ์ง๋์ง๋ง, ์์ RL ์ ์ฑ ์ ๊ธฐ์ค ํ๊ฒฝ์์ ๋ฒ์ด๋๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๊ฑฐ๋ ์์ ํ์ต ์์ฒด๊ฐ ์ ๋๋ ๋ชจ์ต์ด ํ์ธ๋์์ต๋๋ค.
2.3.2 DAPG์ ์ฑ๋ฅ
๋น ๋ฅธ ํ์ต๊ณผ ํฅ์๋ ๋์ ํ์ง Demo์ ๋์ ํ DAPG ์๊ณ ๋ฆฌ์ฆ์ ์์ ๋ฌธ์ ๋ค์ ๊ทน์ ์ผ๋ก ๊ฐ์ ํ์์ต๋๋ค.
๊ฐ์ฅ ํฐ ๊ฐ์ ์ ํ์ต ํจ์จ๋ก, Table 1์์ ๋ณด๋ฏ์ด ๋ชจ๋ ์์ ์์ RL ๋จ๋ ๋๋น ์๋ฑํ ์ ์ ์๊ฐ ๋ด์ ์ ์ฑ ์ ํ์ตํ์ต๋๋ค. ํนํ Pen (ํ ๋๋ฆฌ๊ธฐ)์ ๊ฒฝ์ฐ shaped ๋ณด์์ผ๋ก 96์๊ฐ ๊ฑธ๋ฆฌ๋ ๊ฒ์ด 3.3์๊ฐ์ผ๋ก ๋จ์ถ๋์ด ์ฝ 30๋ฐฐ์ ๊ฐ์์ด ๋ฌ์ฑ๋์์ต๋๋ค. ๋ค๋ฅธ ์์ ๋ค๋ 8๋ฐฐ์์ 20๋ฐฐ ์ด์์ ์๋ ํฅ์์ ๋ณด์ฌ, ์ ๋ฐ์ ์ผ๋ก โDemo + RLโ ์กฐํฉ์ ํจ๊ณผ๊ฐ ์ ์ฆ๋์์ต๋๋ค. ์ ์๋ค์ DAPG๊ฐ ์๋์๋ค๋ฉด ์ ์ผ(๋๋ ์ ์ฃผ) ๊ฑธ๋ฆด ํ์ต์ ๋ช ์๊ฐ ์์ค์ผ๋ก ์ค์์ผ๋ก์จ, ๊ฐํํ์ต์ผ๋ก ๋ณต์กํ ์ ๊ธฐ์ ์ ๋ฐฐ์ฐ๋ ๊ฒ์ด ํ์ค์ ์ธ ์๊ฐ ์ค์ผ์ผ์์ ๊ฐ๋ฅํจ์ ๋ณด์๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. ์ค์ ๋ ผ๋ฌธ์์ DAPG๋ ๋ชจ๋ ์์ ์ 5์๊ฐ ์ด๋ด์ ํ์ต์์ผฐ์ผ๋ฉฐ, ์ด๋ ๊ณง ์ถฉ๋ถํ ๋ณ๋ ฌํ๋ ์๋ฎฌ๋ ์ดํฐ ๊ณ ์ํ๋ฅผ ํตํด ์ค์ ๋ก๋ด์ผ๋ก๋ ํ์ต์ ๋๋ ค๋ณผ ์ ์๋ ์์ค์ ๋๋ค. (๋ฌผ๋ก ์์ง ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฒ์ฆ๋์์ง๋ง, โfew hours of robot experienceโ๋ผ๋ ํํ์์ ์์ฌํ๋ฏ์ด ์ ์๋ค์ DAPG์ ํจ์จ์ด๋ผ๋ฉด ์ค์ ๋ก๋ด ํ์ต๋ ๋์ ํด๋ณผ ๋งํ๋ค๊ณ ์ธ๊ธํฉ๋๋ค.)
๋ค์์ผ๋ก ์ ์ฑ ์ ์ฑ๊ณต๋ฅ ๊ณผ ๊ฒฌ๊ณ ์ฑ ์ธก๋ฉด์์๋ DAPG๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. Demo ๋๋ถ์ ๋ณ๋ ๋ณด์ shaping ์์ด๋ ์ถฉ๋ถํ ํ์์ด ์ด๋ฃจ์ด์ ธ, ์ ์๋ค์ DAPG ์คํ์์๋ ์ต์ข ์ฑ๊ณต ์ฌ๋ถ์ ๋ํ sparse ๋ณด์๋ง ์ฌ์ฉํ์ฌ๋ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ์ค์ ํ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ DAPG ์ ์ฑ ์ ์ต์ข ์ฑ๊ณต๋ฅ ๋ฉด์์ ์์ shaped ๋ณด์์ผ๋ก ํ์ตํ NPG ์ ์ฑ ์ ๋ฒ๊ธ๊ฐ๊ฑฐ๋ ๋ ๋์ ์์ค์ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ ํฅ๋ฏธ๋กญ๊ฒ๋ ์ ์ฑ ์ ๊ฐ์ธ์ฑ์ด ํฌ๊ฒ ํฅ์๋์๋๋ฐ, DAPG๋ก ์ป์ ์ ์ฑ ์ ํ๊ฒฝ ๋ณํ(๋ฌด๊ฒ, ๋ง์ฐฐ, ์ด๊ธฐ ์กฐ๊ฑด ๋ฑ)์ ํจ์ฌ ๋๊ฐํ์ฌ ํญ๋์ ์ํฉ์์ ์ฑ๊ณต์ ๊ฑฐ๋์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ โ์ธ๊ฐ ์ ๋ต์ ๋ด์ฌ์ ๊ฐ์ธ์ฑ(intrinsic robustness of human strategies)โ์ด Demo์ ํตํด ํ์ต๋์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํด์ํ๊ณ ์์ต๋๋ค. ์ธ๊ฐ Demo ์ ๊ณต์๋ ์์ ์ ์ฑ๊ณตํ๊ธฐ ์ํด ๋ค์ํ ์์ธ์ ๋ณด์ ํ๋ฉฐ ํ๋ํ๋๋ฐ, ์ด๋ฐ ํด๋ฆฌ์คํฑ ๋ ธํ์ฐ๊ฐ ์ ์ฑ ๋คํธ์ํฌ์ ๋ฐ์๋์ด ํน์ ํ๊ฒฝ์ ์ค๋ฒํผํ ๋์ง ์๋ ์ผ๋ฐ์ ํด๊ฒฐ์ฑ ์ ์ป๊ฒ ๋์๋ค๋ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก ์ ์ฑ ๋์์ ์์ฐ์ค๋ฌ์๊ณผ ๊ด๋ จํด, DAPG๋ ๋์ ๋๊ฒ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ง์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ ๋์ ์งํ๋ก ์ธก์ ํ๊ธฐ๋ ์ด๋ ต์ง๋ง, ๋ ผ๋ฌธ ์ ์๋ค์ด ํจ๊ป ๊ณต๊ฐํ ๋น๋์ค์์ DAPG ์ ์ฑ ์ด ์ํํ๋ ๋์์ Demo ์ ๊ณต ์(์ธ๊ฐ)๊ฐ ํ์ ๋ฒํ ๋ฐฉ์๊ณผ ์ ์ฌํ ๋ถ๋ถ์ด ๋ง์์ ์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณต์ ์ง์ด ์ฎ๊ธธ ๋ ์๊ฐ๋ฝ์ ๋ชจ์์ ์ฅ๋ ๋ชจ์์๋, ๋ง์น๋ฅผ ํ๋๋ฅด๋ ์๋์ ๊ถค์ ๋ฑ์ด ๋น๊ต์ ์์ฐ์ค๋ฝ์ต๋๋ค. ๋ฐ๋ฉด ๋ณด์ ํจ์๋ฅผ ์๋ชป ์ค๊ณํ RL ์ ์ฑ ์ ๋๋ก ๊ด์ ๊ฐ๋ ๋ฒ์๋ฅผ ์ด์ํ๊ฒ ์ฐ๊ฑฐ๋ ๋ชฉ์ ์ ๋ง์ง ์๋ ์๊ฐ๋ฝ ์์ง์์ ๋ณด์๋๋ฐ, DAPG ์ ์ฑ ์๋ ๊ทธ๋ฐ ์๋ฑํ ํ๋์ด ํ์ ํ ์ค์ด๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ ์๋ค์ โ์ ์ฑ ์ด ํ์ต ๊ณผ์ ์์ ๋ช ์์ ์ผ๋ก ์ฃผ์ง ์์๋ โ์ธ๊ฐ์ค๋ฌ์โ์ ํน์ฑ์ Demo์ ํตํด ์ป๊ฒ ๋์๋คโ๊ณ ํํฉ๋๋ค. ๋ฌผ๋ก ์ด๋ ์ฌ์ด๋ ์ดํํธ์ด๊ธด ํ์ง๋ง, ํฅํ ์ธ๊ฐ๊ณผ ํจ๊ป ์์ ํ๋ ๋ก๋ด์์ด๋ผ๋ฉด ์ด๋ฌํ ์ฌ๋๋ค์ด ์์ง์์ด ์ฃผ๋ ์ ๋ขฐ์ฑ๊ณผ ์์ ์ฑ ์ด์ ๋ ๋ฌด์ํ ์ ์์ ๊ฒ์ ๋๋ค.
2.3.3 DAPG vs. DDPGfD ๋ฑ ๋ค๋ฅธ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต
DAPG์ ํจ๊ณผ๋ฅผ ๋ ์ ์ฆํ๊ธฐ ์ํด, ์ ์๋ค์ ๊ธฐ์กด์ Demo ํ์ฉ RL ๊ธฐ๋ฒ๋ค๊ณผ ์ ๋ ๋น๊ต๋ฅผ ์ํํ์ต๋๋ค. ๊ทธ ์ค ํ ๊ฐ์ง ๋ํ ๋น๊ต ๋์์ ์์ ์ธ๊ธํ DDPGfD ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์คํ ์กฐ๊ฑด์ ๋ง์ถ๊ธฐ ์ํด DAPG์ DDPGfD ๋ชจ๋ ๋์ผํ Demo ๋ฐ์ดํฐ(25๊ฐ)๋ฅผ ์ฌ์ฉํ๊ณ , sparse ๋ณด์๋ง์ผ๋ก ๊ฐ ์์ ์ ํ์ต์์ผฐ์ต๋๋ค.

๊ฒฐ๊ณผ๋ Figure 10์ ํ์ต ๊ณก์ ์ผ๋ก ์ ์๋์ด ์๋๋ฐ, DAPG๊ฐ ๋ชจ๋ ์์ ์์ DDPGfD๋ณด๋ค ํ์ ํ ๋น ๋ฅด๊ณ ๋์ ์ฑ๋ฅ์ ๋ณด์์์ ์ ์ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, DDPGfD๋ ํ์ต ์ด๋ฐ ๊ฑฐ์ ์ง์ ์ด ์๋ค๊ฐ ๋์ค์์์ผ ๊ฒจ์ฐ ์ฑ๊ณต๋ฅ ์ด ์ค๋ฅด๋ ์์์ ๋ณด์ธ ๋ฐ๋ฉด, DAPG๋ ๋งค์ฐ ์ด๊ธฐ๋ถํฐ ๊ธ๊ฒฉํ ์ฑ๋ฅ์ด ํฅ์๋์ด ์ผ์ ์ํผ์๋ ํ์๋ ๋ ๋ฐฉ๋ฒ ๊ฐ ํฐ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ์ ๊ฒฝ์ฐ, DAPG๋ ์์ญ ํ์ ์ ๋ฐ์ดํธ ๋ด์ ์ฑ๊ณต๋ฅ ๊ณก์ ์ด ๊ฐํ๋ฅด๊ฒ ์์นํ์ฌ ๋ชฉํ ์ฑ๋ฅ์ ๋๋ฌํ์ง๋ง, DDPGfD๋ ๊ฐ์ ์๊ฐ ๋ด ๊ฑฐ์ 0% ๊ทผ์ฒ์ ๋จธ๋ฌผ๋ ๋ค๊ฐ ํ์ฐธ ํ์์ผ ์์นํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก DAPG๋ ์์ ์ธ๊ธํ ๋๋ก 5์๊ฐ ๋ด์ธ๋ก ๋ชจ๋ ์์ ์ ๋๋์ง๋ง, DDPGfD๋ ๋ฌธ ์ด๊ธฐ ๋ฑ์ ๋ช๋ช ์์ ์ ๊ทธ๋ณด๋ค ํจ์ฌ ๋๋ฆฌ๊ฑฐ๋ ๋๋ด ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋๋ฌํ์ง ๋ชปํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์จ-ํด๋ฆฌ์ ์ ์ฑ ๊ทธ๋๋์ธํธ ๋ฐฉ์๊ณผ ์คํ-ํด๋ฆฌ์ Q๋ฌ๋ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด๊ธฐ๋ ํฉ๋๋ค. ์ ์๋ค์ DDPGfD๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก off-policy ์๋ ด ๋ถ์์ ์ฑ๊ณผ ๊ณ ์ฐจ์์์์ ํ๋ ์ด๋ ค์ ๋๋ฌธ์ ์ด๋ฐ ํ์์์ ํค๋งค๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค๊ณ ๋ถ์ํฉ๋๋ค. ๋ฐ๋๋ก DAPG๋ on-policy์ ์์ ๋ ๊ฐ์ ์ Demo์ ๋์๊น์ง ๋ํด์ ธ ์ด๋ฐ ํ์ ๋๊ด์ ๋น ๋ฅด๊ฒ ํ์ถํ ์ ์์๋ค๋ ๊ฒ์ ๋๋ค. ๋ํ DDPGfD๋ Demo์ ํ์ฉํ๊ธด ํด๋ ๊ฒฝํ ์ฌ์ ๋ฒํผ์ ์์ด์ฃผ๋ ๋ฐฉ์์ด๊ธฐ ๋๋ฌธ์, ํ์ต๊ณผ์ ์์ Demo๊ฐ ์ ์ฑ ์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ด ์ ์ฐจ ํฌ์๋ฉ๋๋ค. ๋ฐ๋ฉด DAPG๋ ํ์ต ๋ด๋ด ๋ช ์์ ์ธ Demo ๊ทธ๋๋์ธํธ๋ฅผ ์คฌ๋ค๋ ์ ๋ ์ฑ๋ฅ ์ฐจ์ด์ ์์ธ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
๊ด๋ จํ์ฌ, ๋ ผ๋ฌธ์์๋ ๊ทธ ๋ฐ์๋ ๋ช ๊ฐ์ง Demo+RL ๋ฐฉ๋ฒ๋ค์ ์๊ฐํ๊ณ ์ฐจ์ด์ ์ ์ธ๊ธํฉ๋๋ค. ์๋ฅผ ๋ค์ด Hester et al.(2018)์ DQfD (Deep Q-learning from Demonstrations) ๋ ๊ฐ ํจ์ ๊ธฐ๋ฐ์์ Demo์ ํ์ฉํ ์ด๊ธฐ ์ฐ๊ตฌ์ด๊ณ , ์ต๊ทผ์๋ Demo์ ๋ณด์ ํจ์์ ํตํฉํ๊ฑฐ๋ (IRL/๋ณด์ shaping ๋ฐฉ์), Demo ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ ์คํจ ์ฌ๋ก๊ฐ ํฌํจ๋์ด ์์ ๋์ ํ์ต๋ฒ ๋ฑ๋ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. Guided Policy Search (GPS) ๊ธฐ๋ฐ์ผ๋ก Demo์ ํ์ฉํ ์ฌ๋ก๋ ์๋๋ฐ, ์ฃผ๋ก ์ ์ฐจ์ ์ ์์ (์: ๋ง๋๊ธฐ ๋๋ฆฌ๊ธฐ ๋ฑ)์ ํ์ ๋์ด ์๊ณ ๋ชจํ ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ด๋ผ ์ค์ ์ ์ฉ์ ์ ์ฝ์ด ์์ต๋๋ค. DAPG๋ ์ด๋ฌํ ์ ํ ์ฐ๊ตฌ๋ค๊ณผ ๋ฌ๋ฆฌ, ๊ณ ์ฐจ์ ์ ์ฑ ์ ๊ฒฝ๋ง์ ๋๊น์ง end-to-end๋ก ํ์ตํ๋ฉด์๋ ์ํ ํจ์จ๊ณผ ์์ ์ฑ์ ํ๋ณดํ๋ค๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค. ๋ํ Demo์ ํ์ฉ ๋ฐฉ์์ ์์ด์๋ DAPG๋ ์ฌ์ ํ์ต + ํ์ต ์ค ๋ณด์กฐ์ ํธ๋ผ๋ ๋ ๋จ๊ณ ๊ฒฐํฉ์ ๋ช ํํ ์ ์ํ์ฌ, ๋ณต์กํ ํ๋์ ๋จ๊ณ๋ณ ํ์ต์ ๊ฐ๋ฅ์ผ ํ ์ ์ด ํน์ง์ ๋๋ค.
2.4 ๊ฒฐ๋ก ๋ฐ ํฅํ ์ ๋ง
Rajeswaran ๋ฑ(2018)์ ์ด ๋ ผ๋ฌธ์ ๋ฅ ๊ฐํํ์ต๊ณผ ์ธ๊ฐ Demo ๋ฐ์ดํฐ์ ๊ฒฐํฉ์ด ๋ณต์กํ ๋ก๋ด ์ ์กฐ์ ํ์ต์ ๋งค์ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค ์ฌ๋ก๋ก์, ์ดํ ๋ง์ ๊ด๋ จ ์ฐ๊ตฌ์ ์๊ฐ์ ์ฃผ์์ต๋๋ค. ์ ์๋ค์ โDAPGโ๋ก ๋ช ๋ช ๋ ์ด ์๊ณ ๋ฆฌ์ฆ์ด 30๋ฐฐ์ ๋ฌํ๋ ์ํ ํจ์จ ํฅ์๊ณผ ์ ์ฑ ํ์ง ๊ฐ์ ์ ์ด๋ฃจ์์์ ์คํ์ผ๋ก ์ ์ฆํ์๊ณ , ํนํ ์ธ๊ฐ ์์ค์ ๋ณต์กํ ์์ ๋ค๋ RL๋ก ํ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ฃผ์์ต๋๋ค. ์ด๋ ๋ก๋ด ๊ณตํ ๋ฐ ๊ฐํํ์ต ๋ถ์ผ ๋ชจ๋์ ์๋ฏธ ์๋ ์ฑ์ทจ๋ก, ๊ณผ๊ฑฐ์๋ ์ด๋ ค์ ๋๋ฌธ์ ์๋๋์ง ์๋ ๊ณ ์ฐจ์ ๋ค๊ด์ ์กฐ์ ๋ฌธ์ ๋ฅผ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ๋ค๋ฃฐ ์ ์์์ ๋ณด์ฌ์ค ๊ฒ์ ๋๋ค.
๋ฌผ๋ก ํ๊ณ๋ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ์์ ์ํ๋์์ผ๋ฉฐ, ํ์ค ๋ก๋ด์ ์ง์ ์ ์ฉํ๊ธฐ๊น์ง๋ ์ฌ์ ํ ๋์ด์ผ ํ ์ฅ์ ๋ฌผ์ด ์์ต๋๋ค. ์์ปจ๋ ์ค์ ๋ก๋ด ์์ ๋ฌผ๋ฆฌ์ ํ๊ณ, ์ผ์ ๋ ธ์ด์ฆ, ์ถฉ๋ ์ฒ๋ฆฌ, ๊ทธ๋ฆฌ๊ณ ๋ฌด์๋ณด๋ค ์ค์๊ฐ ํ์ต์์์ ์์ ์ฑ ๋ฑ์ด ํด๊ฒฐ๋์ด์ผ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ ผ๋ฌธ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด DAPG ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ 5์๊ฐ ์ด๋ด์ ๋ฐ์ดํฐ๋ก๋ ์ถฉ๋ถํ ํ์ต์ด ๊ฐ๋ฅํ๋ฏ๋ก, ์ด๋ฅผ ๊ทธ๋๋ก ์ค์ ๋ก๋ด์ ์ด์ํ๋ค๋ฉด ํ๋ฃจ ์์ ์ผ๋ก ์ ์ฑ ์ ํ์ต์ํฌ ์๋ ์์ ๊ฒ์ ๋๋ค. ์ ์๋ค๋ ๊ฒฐ๋ก ์์, ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ์ํ ํจ์จ ํฅ์์ ๋ฐํ์ผ๋ก ์ค์ ๋ณต์กํ ์ ์กฐ์ ํ์ต์ ํ ๋ฐ ๋ค๊ฐ์ฐ๋ค๊ณ ๋ฐํ๊ณ ์์ผ๋ฉฐ, ํฅํ์๋ ์ค์ ํ๋์จ์ด ์์์ DAPG๋ฅผ ๊ฒ์ฆํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋ฐํ ์ดํ, ๋๋ฉ์ธ ๋๋คํ(domain randomization) ๋ฑ์ ํตํด ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ ์ฉํ ์ฌ๋ก(์: OpenAI์ Rubikโs Cube ํด๋ฒ)๋, ์งํ ์ ๋ต๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต์ผ๋ก ์ํ ํจ์จ์ ๋์ด๋ ์ฐ๊ตฌ ๋ฑ ๋ค์ํ ํ์ ์ฐ๊ตฌ๋ค์ด ์งํ๋์์ต๋๋ค. ๊ทธ ์ค์ฌ์๋ โ์ด๋ป๊ฒ ํ๋ฉด ๋ณต์กํ ๋ก๋ด ํ๋์ ํ์ค์ ์ผ๋ก ํ์ต์ํฌ ๊ฒ์ธ๊ฐ?โ๋ผ๋ ํฐ ์ง๋ฌธ์ด ์์ต๋๋ค. DAPG๋ ๊ทธ ์ง๋ฌธ์ ๋ํด โ์ฐ์ ์ธ๊ฐ์๊ฒ ๋ฐฐ์๋ผ, ๊ทธ๋ฆฌ๊ณ ์ค์ค๋ก ํฅ์์์ผ๋ผโ๋ผ๋ ํต์ฐฐ์ ์ค ๋ฐฉ๋ฒ์ด๋ผ ํ ์ ์์ต๋๋ค. ์ด๋ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํ๋ ฅ ํ์ต์ด๋ผ๋ ๊ด์ ์์๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๋ค. ์์ผ๋ก๋ Demoํ์ต๊ณผ ๊ฐํํ์ต์ ์กฐํฉ์ ๋ก๋ด์๊ฒ ์๋ก์ด ๋ฅ๋ ฅ์ ๊ฐ๋ฅด์น๋ ๊ฐ๋ ฅํ ์๋จ์ผ๋ก ๊ณ์ ์ฐ๊ตฌ๋ ๊ฒ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ๊ทธ ํจ๊ณผ๋ฅผ ๊ทน์ ์ผ๋ก ๋ณด์ฌ์ค ์ ๊ตฌ์ ์ธ ์์๋ก ์ค๋ ํ์๋ ๊ฒ์ ๋๋ค.
Reference