๐Imitating Animals
- ๐พ ๋ณธ ๋ ผ๋ฌธ์ ์ค์ ๋๋ฌผ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ์ฌ ๋ค์กฑ ๋ก๋ด์ด ๋ค์ํ๊ณ ๋ฏผ์ฒฉํ locomotion skills๋ฅผ ํ์ตํ ์ ์๊ฒ ํ๋ imitation learning framework๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ ๏ธ ์ด framework๋ inverse-kinematics๋ฅผ ํตํ motion retargeting, reference motion์ ํ์ฉํ Reinforcement Learning ๊ธฐ๋ฐ ์ ์ฑ ํ๋ จ, ๊ทธ๋ฆฌ๊ณ information bottleneck์ด ์ ์ฉ๋ latent space๋ฅผ ํตํ sample-efficient domain adaptation์ผ๋ก sim-to-real transfer๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- โจ 18-DoF quadruped robot Laikago์ ์ ์ฉํ์ฌ ๋ค์ํ dynamic gaits ๋ฐ behaviors๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํ์ต์์ผฐ์ผ๋ฉฐ, adaptive policies๋ ์ค์ ํ๊ฒฝ์์ non-adaptive ๋ฐฉ์๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ๊ณผ robustness๋ฅผ ๋ณด์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์ค์ ๋๋ฌผ์ ์์ง์์ ๋ชจ๋ฐฉํ์ฌ ๋ฏผ์ฒฉํ ์ด๋(locomotion) ๊ธฐ์ ์ ํ์ตํ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ์๋ ์ ์ด๊ธฐ ์ค๊ณ์ ๋ณต์ก์ฑ๊ณผ ๊ฐํ ํ์ต(RL)์ ๋ณด์ ํจ์ ์ค๊ณ ๋ฐ sim-to-real ์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
I. ํ๋ ์์ํฌ ๊ฐ์ (Framework Overview)
์ด ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋ชจ์ ๋ฆฌํ๊ฒํ (Motion Retargeting): ๋๋ฌผ์์ ๊ธฐ๋ก๋ ๋ชจ์ ์บก์ฒ(mocap) ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด์ ํํ์ ๋ง๊ฒ ๋ณํํฉ๋๋ค.
- ๋ชจ์ ๋ชจ๋ฐฉ (Motion Imitation): ๋ฆฌํ๊ฒํ ๋ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ก๋ด ๋ชจ๋ธ์ด ํด๋น ๋ชจ์ ์ ๋ชจ๋ฐฉํ๋๋ก ๊ฐํ ํ์ต์ ํตํด ์ ์ฑ (policy)์ ํ๋ จํฉ๋๋ค.
- ๋๋ฉ์ธ ์ ์ (Domain Adaptation): ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ํจ์จ์ ์ผ๋ก ์ ์ด์ํค๊ธฐ ์ํ ๊ธฐ์ ์ ์ ์ฉํฉ๋๋ค.
II. ๋ชจ์ ๋ฆฌํ๊ฒํ (Motion Retargeting)
๋๋ฌผ์ ๋ชจ์ ๋ฐ์ดํฐ๋ ๋ก๋ด๊ณผ ํํ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ญ๊ธฐ๊ตฌํ(inverse-kinematics, IK)์ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ์ฌ๋งคํ(retargeting)๋ฉ๋๋ค.
- ๋๋ฌผ์ ํน์ ํคํฌ์ธํธ(๋ฐ, ์๋ฉ์ด ๋ฑ)๋ฅผ ๋ก๋ด์ ํด๋น ํคํฌ์ธํธ์ ๋งคํํฉ๋๋ค.
- ๊ฐ ํ์์คํ ์์ ์์ค ๋ชจ์ ์ 3D ํคํฌ์ธํธ ์์น \hat{x}_i(t)๋ฅผ ์ถ์ ํ๋๋ก ๋ก๋ด์ ํฌ์ฆ q_t ์ํ์ค q_{0:T}๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ์ต์ ํ ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \arg \min_{q_{0:T}} \sum_t \sum_i ||\hat{x}_i(t) - x_i(q_t)||^2 + (\bar{q} - q_t)^T W(\bar{q} - q_t) ์ฌ๊ธฐ์ \bar{q}๋ ๊ธฐ๋ณธ ํฌ์ฆ, W๋ ์ ๊ทํ ๊ณ์ ํ๋ ฌ์ ๋๋ค.
III. ๋ชจ์ ๋ชจ๋ฐฉ (Motion Imitation)
๋ชจ์ ๋ชจ๋ฐฉ์ ๊ฐํ ํ์ต ๋ฌธ์ ๋ก ๊ณต์ํ๋ฉ๋๋ค. ์ ์ฑ \pi๋ ํ๊ฒฝ ์ํ s_t์ ๋ชจ๋ฐฉํ ๋ชฉํ ๋ชจ์ g_t๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ๋ a_t๋ฅผ ์ํ๋งํฉ๋๋ค.
์ ์ฑ ์ ๋ ฅ: ์ํ s_t = (q_{t-2:t}, a_{t-3:t-1})๋ ์ด์ ์ธ ํ์์คํ ์ ๋ก๋ด ํฌ์ฆ(q)์ ํ๋(a)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํฌ์ฆ ํน์ง์ IMU(Inertial Measurement Unit)๋ฅผ ํตํด ์ป์ ๋ฃจํธ ๋ฐฉํฅ(root orientation) ๋ฐ ๊ฐ ๊ด์ ์ ๋ก์ปฌ ํ์ (local rotations)์ ํฌํจํฉ๋๋ค. ๋ฃจํธ ์์น๋ ์ค์ ๋ฐฐํฌ ์ ์ถ์ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ์ ์ธ๋ฉ๋๋ค.
๋ชฉํ ์ ๋ ฅ: g_t = (\hat{q}_{t+1}, \hat{q}_{t+2}, \hat{q}_{t+10}, \hat{q}_{t+30})๋ ์ฐธ์กฐ ๋ชจ์ ์์ ์ฝ 1์ด ๋์์ ๋ฏธ๋ ๋ค ๊ฐ ํ์์คํ ์ ๋ชฉํ ํฌ์ฆ๋ฅผ ๋ํ๋ ๋๋ค.
ํ๋ ์ถ๋ ฅ: a_t๋ ๊ฐ ๊ด์ ์ PD ์ ์ด๊ธฐ(PD controller)์ ๋ํ ๋ชฉํ ํ์ ์ ์ง์ ํฉ๋๋ค. ๋ถ๋๋ฌ์ด ์์ง์์ ์ํด ์ ์ญ ํต๊ณผ ํํฐ(low-pass filter)๋ฅผ ๊ฑฐ์นฉ๋๋ค.
๋ณด์ ํจ์ (Reward Function): ์ ์ฑ ์ด ์ฐธ์กฐ ๋ชจ์ ์ ๋ชฉํ ํฌ์ฆ ์ํ์ค (\hat{q}_0, \hat{q}_1, ..., \hat{q}_T)๋ฅผ ์ถ์ ํ๋๋ก ์ ๋ํฉ๋๋ค. ์ด ๋ณด์ r_t๋ ์ฌ๋ฌ ํญ์ ๊ฐ์ค ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: r_t = w_p r_{pt} + w_v r_{vt} + w_e r_{et} + w_{rp} r_{rpt} + w_{rv} r_{rvt}
- ์์ธ ๋ณด์ (Pose Reward) r_{pt}: ๋ก๋ด ๊ด์ ์ ๋ก์ปฌ ํ์ q_j^t๊ฐ ์ฐธ์กฐ ๋ชจ์ ์ \hat{q}_j^t์ ์ ์ฌํ๋๋ก ์ฅ๋ คํฉ๋๋ค: r_{pt} = \exp \left[ -5 \sum_j ||\hat{q}_j^t - q_j^t||^2 \right]
- ์๋ ๋ณด์ (Velocity Reward) r_{vt}: ๊ด์ ๊ฐ์๋ \dot{q}_j^t๊ฐ ์ฐธ์กฐ ๋ชจ์ ์ \hat{\dot{q}}_j^t์ ์ ์ฌํ๋๋ก ํฉ๋๋ค: r_{vt} = \exp \left[ -0.1 \sum_j ||\hat{\dot{q}}_j^t - \dot{q}_j^t||^2 \right]
- ๋ง๋จ ํจ๊ณผ๊ธฐ ๋ณด์ (End-effector Reward) r_{et}: ๋ง๋จ ํจ๊ณผ๊ธฐ(end-effector)์ 3D ์๋ ์์น x_e^t๊ฐ ์ฐธ์กฐ ๋ชจ์ ์ \hat{x}_e^t๋ฅผ ์ถ์ ํ๋๋ก ํฉ๋๋ค: r_{et} = \exp \left[ -40 \sum_e ||\hat{x}_e^t - x_e^t||^2 \right]
- ๋ฃจํธ ์์ธ ๋ฐ ์๋ ๋ณด์ (Root Pose and Velocity Reward) r_{rpt}, r_{rvt}: ๋ก๋ด์ ๋ฃจํธ(torso)์ ๊ธ๋ก๋ฒ ์์น ๋ฐ ์ ํ/๊ฐ์๋๊ฐ ์ฐธ์กฐ ๋ชจ์ ๊ณผ ์ ์ฌํ๋๋ก ํฉ๋๋ค: r_{rpt} = \exp [-20||\hat{x}_{\text{root}}^t - x_{\text{root}}^t||^2 - 10||\hat{q}_{\text{root}}^t - q_{\text{root}}^t||^2] r_{rvt} = \exp [-2||\hat{\dot{x}}_{\text{root}}^t - \dot{x}_{\text{root}}^t||^2 - 0.2||\hat{\dot{q}}_{\text{root}}^t - \dot{\dot{q}}_{\text{root}}^t||^2]
IV. ๋๋ฉ์ธ ์ ์ (Domain Adaptation)
์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ๋์ญํ์ ๋ถ์ผ์น(dynamics discrepancies)๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
A. ๋๋ฉ์ธ ๋ฌด์์ํ (Domain Randomization): ํ๋ จ ์ค ๋์ญํ ํ๋ผ๋ฏธํฐ(์: ์ง๋, ๊ด์ฑ, ๋ง์ฐฐ, ๋ชจํฐ ๊ฐ๋, ์ง์ฐ ์๊ฐ)๋ฅผ ๋ฌด์์๋ก ๋ณ๊ฒฝํ์ฌ ์ ์ฑ ์ด ๋ค์ํ ๋์ญํ์ ๋ํด ๊ฒฌ๊ณ (robust)ํด์ง๋๋ก ํฉ๋๋ค.
B. ๋๋ฉ์ธ ์ ์ (Latent Space Method): ๊ฐ๊ฑด์ฑ์ ๋์ด ์๋ก์ด ํ๊ฒฝ์ ์ ์ํ ์ ์๋ ์ ๋ต์ ํ์ตํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. ๋์ญํ ํ๋ผ๋ฏธํฐ \mu๋ฅผ ์ ์ฌ ์๋ฒ ๋ฉ(latent embedding) z๋ก ์ธ์ฝ๋ฉํ๋ stochastic encoder E(z|\mu)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ ์ฑ \pi(a|s, g, z)๋ ์ด z์ ์กฐ๊ฑดํ๋ฉ๋๋ค.
- ์ ๋ณด ๋ณ๋ชฉ (Information Bottleneck): ์ ์ฑ ์ด ์ค์ ์์คํ ์ ๋์ญํ์ ๊ณผ์ ํฉ(overfit)๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋์ญํ ํ๋ผ๋ฏธํฐ M๊ณผ ์ธ์ฝ๋ฉ Z ๊ฐ์ ์ํธ ์ ๋ณด๋(mutual information) I(M, Z)์ ์ํ I_c๋ฅผ ๋ก๋๋ค. ์ด ์ ์ฝ ์กฐ๊ฑด์ variational upper bound๋ฅผ ์ฌ์ฉํ์ฌ DKL(Kullback-Leibler divergence)๋ก ๊ทผ์ฌ๋ฉ๋๋ค.
- ์ต์ ํ ๋ชฉํ๋ ์ ๋ณด ์ ๊ทํ๋(information-regularized) ํํ๋ก ํํ๋ฉ๋๋ค: \arg \max_{\pi,E} E_{\mu \sim p(\mu)} E_{z \sim E(z|\mu)} E_{\tau \sim p(\tau|\pi,\mu,z)} \left[ \sum_{t=0}^{T-1} \gamma^t r_t \right] - \beta E_{\mu \sim p(\mu)} [D_{KL}[E(\cdot|\mu)||\rho(\cdot)]] ์ฌ๊ธฐ์ \beta \ge 0๋ ๋ผ๊ทธ๋์ฃผ ์น์(Lagrange multiplier)๋ก, ๊ฐ๊ฑด์ฑ(robustness)๊ณผ ์ ์์ฑ(adaptability) ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํฉ๋๋ค. \beta๊ฐ ํด์๋ก ๊ฐ๊ฑดํ์ง๋ง ๋น์ ์์ ์ธ ์ ์ฑ ์ด, ์์์๋ก ๋ ๊ฐ๊ฑดํ์ง๋ง ์ ์์ ์ธ ์ ์ฑ ์ด ์์ฑ๋ฉ๋๋ค.
C. ์ค์ธ๊ณ ์ ์ด (Real World Transfer): ์ค์ ๋ก๋ด์ ์ ์ฑ ์ ์ ์ฉํ๊ธฐ ์ํด, ์ค์ ๋์ญํ ํ์์ ๊ฐ์ฅ ๋์ ๋ฆฌํด(return)์ ์ ๊ณตํ๋ ์ต์ ์ ์ธ์ฝ๋ฉ z^*๋ฅผ ์ง์ ํ์ํฉ๋๋ค. z^* = \arg \max_z E_{\tau \sim p^*(\tau|\pi,z)} \left[ \sum_{t=0}^{T-1} \gamma^t r_t \right] ์ด z^*๋ฅผ ์ฐพ๊ธฐ ์ํด AWR(Advantage-Weighted Regression)์ ์ฌ์ฉํฉ๋๋ค.
- ์ด๊ธฐ ๊ฒ์ ๋ถํฌ \omega_0(z) = \mathcal{N}(0, I)์์ ์ธ์ฝ๋ฉ z_k๋ฅผ ์ํ๋งํฉ๋๋ค.
- z_k์ ์กฐ๊ฑดํ๋ ์ ์ฑ \pi๋ก ์ค์ ๋ก๋ด์์ ์ํผ์๋๋ฅผ ์คํํ๊ณ ๋ฆฌํด R_k๋ฅผ ๊ธฐ๋กํฉ๋๋ค.
- ์ด์ ์ํ๊ณผ ๋ฆฌํด์ ํฌํจํ๋ ๋ฆฌํ๋ ์ด ๋ฒํผ(replay buffer) D๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
- D์ ์ํ ์ค ๋ ํฐ ์ฅ์ (advantage)์ ๊ฐ์ง ์ํ์ ๋ ๋์ ๊ฐ๋ฅ๋(likelihood)๋ฅผ ๋ถ์ฌํ๋ ์๋ก์ด ๋ถํฌ \omega_{k+1}๋ฅผ ํ์ตํฉ๋๋ค. ์ด๋ \exp\left(\frac{1}{\alpha}(R_i - \bar{v})\right)๋ก ๊ฐ ์ํ z_i์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๊ธฐ์ธ๊ธฐ ํ๊ฐ(gradient descent)์ผ๋ก \omega_k(z)๋ฅผ ์ ์ง์ ์ผ๋ก ์ ๋ฐ์ดํธํจ์ผ๋ก์จ ์ํ๋ฉ๋๋ค.
V. ์คํ ๊ฒฐ๊ณผ (Experimental Results)
18 ์์ ๋(DoF) ์ฌ์กฑ๋ณดํ ๋ก๋ด์ธ Laikago๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋์ ์ด๋ ๊ธฐ์ ์ ํ์ตํ๊ณ ํ๊ฐํฉ๋๋ค.
- ํ์ต๋ ๊ธฐ์ : ํ์ด์ฑ(pacing), ํธ๋กํ (trotting), ์ญ๋ฐฉํฅ ๋ณดํ, ์ ์๋ฆฌ ๊ฑธ์(In-Place Steps), ์๊ฑธ์(Side-Steps), ํ์ (Turn), ํ-ํด(Hop-Turn) ๋ฑ ๋ค์ํ ๋ณดํ ํจํด๊ณผ ๋์ ๊ธฐ์ ์ ํ์ตํ์ต๋๋ค. Dog Trot ์ ์ฑ ์ 1.08m/s, ์ญ๋ฐฉํฅ ํธ๋กํ ์ 1.20m/s์ ๋๋ฌํ์ฌ ์ ์กฐ์ฌ ์๋ ์ ์ด๊ธฐ(0.84m/s)๋ณด๋ค ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋๋ฉ์ธ ์ ์ ํจ๊ณผ: โNo Randโ (๋ฌด์์ํ ์์ด ํ๋ จ), โRobustโ (๋ฌด์์ํ๋ง ์ ์ฉ), โAdaptiveโ (๋ณธ ๋
ผ๋ฌธ ์ ์ ์ ์ ๋ฐฉ์) ์ ์ฑ
์ ๋น๊ตํ์ต๋๋ค.
- ์ค์ ๋ก๋ด์ ๋ฐฐํฌ ์, โAdaptiveโ ์ ์ฑ ์ด ๋๋ถ๋ถ์ ๊ธฐ์ ์์ โNo Randโ ๋ฐ โRobustโ ์ ์ฑ ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ Dog Pace, Dog Spin๊ณผ ๊ฐ์ ๋์ ๊ธฐ์ ์์ โRobustโ ์ ์ฑ ์ ์์ฃผ ๋์ด์ก์ง๋ง โAdaptiveโ ์ ์ฑ ์ ๋ ์ผ๊ด๋๊ฒ ๊ธฐ์ ์ ์ํํ์ต๋๋ค.
- โAdaptiveโ ์ ์ฑ ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๊ท ํ์ ๋ ์ค๋ ์ ์งํ ์ ์์๊ณ , ๋ง์ ๊ฒฝ์ฐ ๋์ด์ง์ง ์๊ณ ์ต๋ ์ํผ์๋ ๊ธธ์ด์ ๋๋ฌํ์ต๋๋ค.
- ํ๋ จ ์ ์ฌ์ฉ๋ ๋ฒ์๋ณด๋ค ๋์ ๋์ญํ ํ๋ผ๋ฏธํฐ ๋ฒ์(out-of-distribution)์์ โAdaptiveโ ์ ์ฑ ์ด ๋ ๋์ ๋ฆฌํด์ ๋ฌ์ฑํ๋ฉฐ, ์ต์ํ์ง ์์ ๋์ญํ์ ๋ํ ๋ ๋์ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ์ค์ ์์คํ ์์ AWR์ ํตํ ์ ์์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ ์์ ์ํผ์๋(์ฝ 50ํ)๋ก ์๋ก์ด ํ๊ฒฝ์ ์ ์ํ ์ ์์์ ํ์ธํ์ต๋๋ค.
- ์ ๋ณด ๋ณ๋ชฉ ํจ๊ณผ: ์ ๋ณด ๋ณ๋ชฉ์ ๊ณ์ \beta์ ์ํฅ์ ๋ถ์ํ์ต๋๋ค.
- \beta ๊ฐ์ด ํด์๋ก ์ ์ฑ ์ ๋์ญํ ํ๋ผ๋ฏธํฐ์ ๋ํ ์์กด๋๊ฐ ๋ฎ์์ ธ, ์ ์ ์ ์ฑ๋ฅ(robustness)์ ํฅ์๋์ง๋ง ์ ์ ํ ์ฑ๋ฅ ํฅ์ ํญ(adaptability)์ ์์์ง๋๋ค.
- \beta ๊ฐ์ด ์์์๋ก ๋ ๊ฐ๊ฑดํ์ง๋ง ๋ ์ ์์ ์ธ ์ ์ฑ ์ด ์์ฑ๋ฉ๋๋ค.
- ๋ณธ ์ฐ๊ตฌ์์๋ \beta=10^{-4}๊ฐ ๊ฐ๊ฑด์ฑ๊ณผ ์ ์์ฑ ์ฌ์ด์ ์ข์ ๊ท ํ์ ์ ๊ณตํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ ๋ณด ๋ณ๋ชฉ์ด ์๋(No IB) ์ ์ฑ ๋ณด๋ค ์ ๋ณด ์ ์ฝ(information-constrained) ์ ์ฑ ์ด ์ ์ ์ ํ ๋ชจ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
VI. ๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ (Discussion and Future Work)
์ด ํ๋ ์์ํฌ๋ ๋ค์ํ ๋๋ฌผ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ์ฌ ์ฌ์กฑ๋ณดํ ๋ก๋ด์ด ๋ฏผ์ฒฉํ ์ด๋ ๊ธฐ์ ์ ํ์ตํ๊ณ ์ด๋ฅผ ์ค์ ์ธ๊ณ๋ก ํจ์จ์ ์ผ๋ก ์ ์ด์ํค๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ํ์ง๋ง ํ๋์จ์ด ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ก ์ธํด ์์ง ํฐ ์ ํ๋ ๋ฌ๋ฆฌ๊ธฐ์ ๊ฐ์ ๋ ์ญ๋์ ์ธ ํ๋์ ํ์ตํ์ง ๋ชปํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ํ์ต๋ ์ ์ด๊ธฐ์ ์์ ์ฑ ํฅ์, ๋ ๋ค์ํ ํ๋ ๋ฐ์ดํฐ ์์ค(์: ๋น๋์ค ํด๋ฆฝ)๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
RL๋ก ํ์ตํ ์์ด์ ํธ๋ ์๋ฎฌ๋ ์ด์ ์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด์ง๋ง, ์ค๋ก๋ด์ ์ฌ๋ฆฌ๋ฉด ๋ถ์์ฐ์ค๋ฝ๊ฑฐ๋ ์ํยท์คํ ๋ถ๊ฐ๋ฅํ ํ๋ ์ ๋ณด์ด๊ธฐ ์ฝ์ต๋๋ค. ๊ทธ๋์ ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์ด ์๊น๋๋ค โ ๋๋ฌผ์ ๋ชจ์ ์ ์ง์ ๋ชจ๋ฐฉํ๋ฉด, ๋ ์ ์ ๋ ธ๋ ฅ์ผ๋ก ๋ ๋ฏผ์ฒฉํ ์ปจํธ๋กค๋ฌ๋ฅผ ๋ง๋ค ์ ์์ง ์์๊น?
reference motion์ ์ฐ๋ฉด ์คํฌ๋ณ ๋ณด์ ํจ์ ์ค๊ณ์ ๋ถ๋ด ์ด ํฌ๊ฒ ์ค์ด๋ญ๋๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ธ๊ณ๋ก ์ฎ๊ธฐ๋ ค๋ฉด sim-to-real ๊ฐญ์ ๋์ด์ผ ํ๋๋ฐ, ์ ์๋ค์ sample-efficient adaptation ๊ธฐ๋ฒ์ผ๋ก ์ ์ฑ ์ ๊ฑฐ๋์ ๋ฏธ์ธ์กฐ์ ํฉ๋๋ค. ๋์ ๋ก๋ด์ Laikago 4์กฑ ๋ก๋ด์ด๋ฉฐ, ๋ค์ํ ๋ณดํ gait์ dynamic hopยทturn์ ๋ค๋ฃน๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ ์ค ์์ฝ: ๋๋ฌผ mocap์ ๋ชจ๋ฐฉ ํด ์คํฌ๋ณ ๋ณด์ ์ค๊ณ ์์ด ๋ค์ํ ๋ฏผ์ฒฉ ๋ณดํ์ ํ์ตํ๊ณ , latent space domain adaptation ์ผ๋ก ์๋ฎฌ๋ ์ด์ โ์ค๋ก๋ด ์ ์ด๋ฅผ ํจ์จํํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์ ์ฐจ๋ณ์
- Trajectory optimization / MPC: ์ปจํธ๋กค๋ฌ ์ค๊ณ์ ์์์ ์ ์ค์์ง๋ง, ๋ณดํ ์์คํ ์ ๊ณ ์ฐจ์ยท๋ณต์ก ๋์ญํ ๋๋ฌธ์ ์ถ์ฝ ๋ชจ๋ธ(reduced-order model) ์ ์์กดํ์ต๋๋ค.
- Motion imitation: ๋ณดํ ๋ก๋ด ์ ์ฉ์ ์ฃผ๋ก ์์ฒด ์์ฃผยท์ ์ ํ์ฒด ํ๋์ ๊ตญํ๋๊ณ ๊ท ํ ์ ์ด๋ ๋ณ๋ ์ ๋ต์ ๋งก๊ฒผ์ต๋๋ค. ์ต๊ทผ RL ๊ธฐ๋ฐ motion imitation์ ์๋ฎฌ๋ ์ด์ ์์ acrobatic ์คํฌ์ ์ ํ์ตํฉ๋๋ค.
- Sim-to-real: ์ ํํ ์๋ฎฌ๋ ์ดํฐ ๊ตฌ์ถ, ์ค๋ฐ์ดํฐ๋ก ์๋ฎฌ๋ ์ดํฐ ๋ณด์ , domain randomization(ํ์ต ์ค ๋์ญํ์ ๋ณํ์์ผ ๊ฐ๊ฑด์ฑ ํ๋ณด), fine-tuningยทmeta-learning ๊ฐ์ ์ ์ ๊ธฐ๋ฒ ๋ฑ์ด ์์ต๋๋ค.
์ฐจ๋ณ์ (Ours): latent space ๋ฐฉ๋ฒ ์ motion imitation ๊ณผ ๊ฒฐํฉํฉ๋๋ค. pre-training์์ ๋ค์ํ ์๋๋ฆฌ์ค์ ํจ๊ณผ์ ์ธ behavior๋ค์ latent ํํ์ ํ์ตํ๊ณ , ์ ๋๋ฉ์ธ์์๋ latent space๋ฅผ ํ์ํด ์์ ์ ์ฑ๊ณต์ํค๋ behavior๋ฅผ ์ฐพ์ต๋๋ค. ์ ๊ตํ ์คํฌ๋ณ ๋ณด์ ์ค๊ณ๋ system identification์ ์์กดํ ์ด์ ๋ฐฉ๋ฒ(Hwangbo et al. ANYmal, Xie et al. Cassie, Yu et al. Darwin OP2)๋ณด๋ค ๋ ๋ค์ํ๊ณ ๋ฏผ์ฒฉํ ํ๋ ์ ์ค๋ก๋ด์์ ์ํํฉ๋๋ค.
๋ฐฉ๋ฒ (Overview)
์ํ๋ ์คํฌ์ reference motion(์ค์ ๋๋ฌผ mocap ๋ฑ)์ ์ ๋ ฅ๋ฐ์, RL๋ก ๊ทธ ์คํฌ์ ์ค์ธ๊ณ์์ ์ฌํํ๋ ์ ์ฑ ์ ํฉ์ฑํฉ๋๋ค. 3๋จ๊ณ์ ๋๋ค.
- Motion Retargeting: ๋ชจ์ ํด๋ฆฝ์ ์ ๋์(๋๋ฌผ)์ ํํ์์ ๋ก๋ด ํํ๋ก inverse-kinematics ๋ฅผ ํตํด ๋งคํ.
- Motion Imitation: retarget๋ reference๋ฅผ ์๋ฎฌ๋ ์ด์ ๋ก๋ด์ด ์ฌํํ๋๋ก ์ ์ฑ ํ์ต. ์ ์ด๋ฅผ ์ํด domain randomization ์ ์ฉ.
- Domain Adaptation: ํ์ต๋ latent dynamics ํํ ์ ์ด์ฉํด ์ ์ฑ ์ ์ค๋ก๋ด์ sample-efficientํ๊ฒ ์ ์.
1. Motion Retargeting
๋ก๋ด๊ณผ ๋ชจ์ ์ ์ป์ ๋๋ฌผ์ ํํ๊ฐ ๋ค๋ฅด๋ฏ๋ก IK๋ก retargetํฉ๋๋ค. ํคํฌ์ธํธ๋ ๋ฐ(feet)๊ณผ ์๋ฉ์ด(hips) ์์น๋ฅผ ์๋๋ค. source ๋ชจ์ ์ด ๊ฐ ํคํฌ์ธํธ i ์ 3D ์์น \hat{\mathbf x}_i(t) ๋ฅผ ์ง์ ํ๋ฉด, ๋ก๋ด ์์ธ \mathbf q_t ์ ์ํด ๊ฒฐ์ ๋๋ ๋์ ํคํฌ์ธํธ \mathbf x_i(\mathbf q_t) ๊ฐ ์ด๋ฅผ ์ถ์ข ํ๋๋ก ์์ธ์ด \mathbf q_{0:T} ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. default ์์ธ \bar{\mathbf q} ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋๋ก ์ ๊ทํ ํญ(๊ด์ ๋ณ ๊ณ์ ๋๊ฐํ๋ ฌ \mathbf W)์ ๋ํฉ๋๋ค.
\underset{\mathbf q_{0:T}}{\arg\min} \sum_t \sum_i \big\lVert \hat{\mathbf x}_i(t) - \mathbf x_i(\mathbf q_t) \big\rVert^2 + (\bar{\mathbf q} - \mathbf q_t)^T \mathbf W (\bar{\mathbf q} - \mathbf q_t)
2. Motion Imitation
ํ์ค RL ๋ชฉํ J(\pi) = \mathbb E_{\tau\sim p(\tau\mid\pi)}\big[\sum_{t=0}^{T-1}\gamma^t r_t\big] ๋ฅผ ์ต๋ํํ๋, ์ ์ฑ ์ ๋ ฅ์ ๋ชจ๋ฐฉํ ๋ชจ์ ์ ์ง์ ํ๋ goal \mathbf g_t ๋ฅผ ์ถ๊ฐํฉ๋๋ค: \pi(\mathbf a_t \mid \mathbf s_t, \mathbf g_t). ์ ์ฑ ์ 30Hz ๋ก ์ง์๋ฉ๋๋ค.
- ์ํ \mathbf s_t = (\mathbf q_{t-2:t}, \mathbf a_{t-3:t-1}): ์ง์ 3์คํ ์์ธ + ์ง์ 3 ํ๋. ์์ธ feature๋ root ๋ฐฉํฅ(roll/pitch/yaw)์ IMU ๊ฐ๊ณผ ๊ฐ ๊ด์ ์ ๋ก์ปฌ ํ์ . root ์์น๋ ์ ์ธ(์ค์ธ๊ณ ๋ฐฐํฌ ์ root ์์น ์ถ์ ๋ถ๋ด ํํผ).
- goal \mathbf g_t = (\hat{\mathbf q}_{t+1}, \hat{\mathbf q}_{t+2}, \hat{\mathbf q}_{t+10}, \hat{\mathbf q}_{t+30}): reference์ ๋ฏธ๋ 4๊ฐ ์์ ๋ชฉํ ์์ธ(์ฝ 1์ด ๋ฒ์).
- ํ๋ \mathbf a_t: ๊ฐ ๊ด์ PD ์ปจํธ๋กค๋ฌ์ ๋ชฉํ ํ์ . ๋ถ๋๋ฌ์ด ๋ชจ์ ์ ์ํด PD ๋ชฉํ์ low-pass filter ์ ์ฉ.
๋ณด์ ํจ์ ๋ ๋ชฉํ ์์ธ์ด ์ถ์ข ์ ์ ๋ํ๋ 5๊ฐ ํญ์ ๊ฐ์คํฉ์ ๋๋ค.
r_t = w^p r_t^p + w^v r_t^v + w^e r_t^e + w^{rp} r_t^{rp} + w^{rv} r_t^{rv}
w^p=0.5,\ w^v=0.05,\ w^e=0.2,\ w^{rp}=0.15,\ w^{rv}=0.1
๊ฐ ํญ(๋ชจ๋ exp ํํ):
r_t^p = \exp\Big[-5\sum_j \lVert \hat{\mathbf q}_t^j - \mathbf q_t^j \rVert^2\Big] \quad\text{(pose: ๊ด์ ํ์ )}
r_t^v = \exp\Big[-0.1\sum_j \lVert \hat{\dot{\mathbf q}}_t^j - \dot{\mathbf q}_t^j \rVert^2\Big] \quad\text{(velocity: ๊ฐ์๋)}
r_t^e = \exp\Big[-40\sum_e \lVert \hat{\mathbf x}_t^e - \mathbf x_t^e \rVert^2\Big] \quad\text{(end-effector ์์น)}
r_t^{rp} = \exp\big[-20\lVert \hat{\mathbf x}_t^{\text{root}} - \mathbf x_t^{\text{root}} \rVert^2 - 10\lVert \hat{\mathbf q}_t^{\text{root}} - \mathbf q_t^{\text{root}} \rVert^2\big] \quad\text{(root pose)}
r_t^{rv} = \exp\big[-2\lVert \hat{\dot{\mathbf x}}_t^{\text{root}} - \dot{\mathbf x}_t^{\text{root}} \rVert^2 - 0.2\lVert \hat{\dot{\mathbf q}}_t^{\text{root}} - \dot{\mathbf q}_t^{\text{root}} \rVert^2\big] \quad\text{(root velocity)}
3. Domain Adaptation
(A) Domain Randomization. ํ์ต ์ค ๋์ญํ์ ๋ณํ์์ผ, ์๋ก ๋ค๋ฅธ ๋์ญํ์์ ๊ธฐ๋ฅํ๋ ์ ๋ต์ ์ ์ฑ ์ด ๋ฐฐ์ฐ๋๋ก ๊ฐ๊ฑด์ฑ์ ๋์ ๋๋ค. ๋ค๋ง ๋ชจ๋ ํ๊ฒฝ์ ํตํ๋ ๋จ์ผ ์ ๋ต์ ์์ต๋๋ค โ ๊ทธ๋์ ์ ์์ด ํ์ํฉ๋๋ค.
(B) Domain Adaptation (latent + information bottleneck). ์๋ฎฌ๋ ์ด์ ์์ ๋ฌด์์ํ๋๋ ๋์ญํ ํ๋ผ๋ฏธํฐ \boldsymbol\mu \sim p(\boldsymbol\mu) ๋ฅผ stochastic encoder E ๊ฐ latent embedding \mathbf z \sim E(\mathbf z\mid\boldsymbol\mu) ๋ก ์ธ์ฝ๋ฉํ๊ณ , ์ด๋ฅผ ์ ์ฑ ์ ์ถ๊ฐ ์ ๋ ฅ์ผ๋ก ์ค๋๋ค: \pi(\mathbf a\mid\mathbf s, \mathbf z). ํต์ฌ์ encoder์ information bottleneck ์ ๋ฃ์ด, ๋์ญํ ํ๋ผ๋ฏธํฐ \mathbf M ๊ณผ ์ธ์ฝ๋ฉ \mathbf Z ์ฌ์ด ์ํธ์ ๋ณด I(\mathbf M, \mathbf Z) ์ ์ํ I_c ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค.
\underset{\pi, E}{\arg\max}\ \mathbb E_{\boldsymbol\mu\sim p(\boldsymbol\mu)} \mathbb E_{\mathbf z\sim E(\mathbf z\mid\boldsymbol\mu)} \mathbb E_{\tau\sim p(\tau\mid\pi,\boldsymbol\mu,\mathbf z)}\Big[\sum_{t=0}^{T-1}\gamma^t r_t\Big] \quad \text{s.t. } I(\mathbf M, \mathbf Z) \le I_c
bottleneck์ด ๊ฐํ ์๋ก(์์ \beta) ์ ์ฑ ์ด ๋์ญํ์ ์ ํํ ๊ฐ์ ๋ ์์กดํด ์ ์ ์ ์ฑ๋ฅ์ด ๋์ง๋ง ์ ์ ํญ์ ์์์ง๊ณ , ์ฝํ ์๋ก ์ ์ ์ ์ ๋ ๊ฐ๊ฑดํ๋ ์ ์ ํ ๊ฐ์ ์ด ํฝ๋๋ค.
(C) Real World Transfer. ์ค์ธ๊ณ์์๋ latent space์์ ๋์ ๋ณด์์ ์ต๋ํํ๋ \mathbf z^* ๋ฅผ ํ์ํด ์ ์ํฉ๋๋ค.
\mathbf z^* = \underset{\mathbf z}{\arg\max}\ \mathbb E_{\tau\sim p^*(\tau\mid\pi,\mathbf z)}\Big[\sum_{t=0}^{T-1}\gamma^t r_t\Big]
๋ชจ๋ธ ๊ตฌ์กฐ
encoder E(\mathbf z\mid\boldsymbol\mu) ๋ ๋์ญํ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ถํฌ ํ๊ท ยทํ์คํธ์ฐจ๋ก ๋งคํํ๋ ์์ ์ฐ๊ฒฐ๋ง(256, 128 ReLU). ์ ์ฑ \pi(\mathbf a\mid\mathbf s, \mathbf g, \mathbf z) ๋ ์ํยทgoalยท๋์ญํ ์ธ์ฝ๋ฉ์ ๋ฐ์ ๊ฐ์ฐ์์ ํ๋ ๋ถํฌ์ ํ๊ท ์ ์ถ๋ ฅ(512, 256์ธต, ํ์คํธ์ฐจ๋ ๊ณ ์ ๋๊ฐํ๋ ฌ). ๊ฐ์นํจ์ V(\mathbf s, \mathbf g, \boldsymbol\mu) ๋ ๋ณ๋ ๋ง(512, 256).
์คํ
์ ์ : 18-DoF 4์กฑ ๋ก๋ด(๋ค๋ฆฌ๋น 3 ๊ตฌ๋ ์์ ๋ ร4 = 12 + root 6 ๋ฏธ๊ตฌ๋). mocap์ ๊ณต๊ฐ ๋ฐ์ดํฐ์ . ์ฑ๋ฅ์ ์ ๊ทํ return(0=์ต์, 1=์ต๋)์ผ๋ก ๊ธฐ๋ก. ๊ฐ ์ ์ฑ ์ PPO๋ก ์ฝ 2์ต ์ํ ์๋ฎฌ๋ ์ด์ ํ์ต(reparameterization trick์ผ๋ก end-to-end). ์ค์ธ๊ณ ์ ์์ AWR(Advantage-Weighted Regression) ์ latent dynamics ๊ณต๊ฐ์์ ์ํ, ์ ์ฑ ๋น ์ฝ 50ํ ์ค์ธ๊ณ trial(์คํฌ๋น 5~10์ด).
ํ์ตํ ์คํฌ
pacingยทtrotting ๊ฐ์ ๋ณดํ๊ณผ ๋ฏผ์ฒฉํ turningยทspinning์ ํ์ต โ ์๋ก ๋ค๋ฅธ reference motion์ ์ฃผ๋ ๊ฒ๋ง์ผ๋ก ๋ค์ํ gait๋ฅผ ํ์ตํฉ๋๋ค(pacing: ๊ฐ์ ์ชฝ ๋ ๋ค๋ฆฌ๊ฐ ํจ๊ป, ๋๋ฆฐ ์๋ / trotting: ๋๊ฐ ๋ค๋ฆฌ๊ฐ ํจ๊ป, ๋น ๋ฅธ ์๋). mocap์ ๊ฑฐ๊พธ๋ก ์ฌ์ํด ํ์ง gait ๋ ํ์ตํ๋๋ฐ, ์ ์กฐ์ฌ ์ปจํธ๋กค๋ฌ๋ณด๋ค ๋นจ๋์ต๋๋ค(์ ์กฐ์ฌ ์ต๊ณ 0.84 m/s, Dog Trot 1.08 m/s, ํ์ง trot 1.20 m/s). ์ํฐ์คํธ๊ฐ ๋ง๋ ์ ๋๋ฉ์ด์ (๊ณต์ค 90ยฐ ํ์ Hop-Turn ๋ฑ)๋ ๋ชจ๋ฐฉํ์ผ๋, Running Man์ฒ๋ผ ์ผ๋ถ ๋์์ ์ฌํ์ด ์ด๋ ค์ ์ต๋๋ค.
์ค์ธ๊ณ ์ฑ๋ฅ (Fig. 5, 7)
๋ค ๋ฐฉ๋ฒ ๋น๊ต โ No Rand(๋ฌด์์ํ ์์), Robust(๋ฌด์์ํO, ์ ์X), Adaptive (Before/After). 3๊ฐ ์๋ ร 5 ์ํผ์๋ = ๋ฐฉ๋ฒ๋น 15 trial.
- ์ ์ํ ์ ์ฑ ์ด ๋๋ถ๋ถ ์คํฌ์์ ๋น์ ์ ์ ์ฑ ์ ๋ฅ๊ฐ.
- ๋จ์ ์คํฌ(In-Place Steps, Side-Steps)์ Robust๋ง์ผ๋ก๋ ์ ์ด ์ถฉ๋ถ. ํ์ง๋ง ๋์ ์คํฌ(Dog Pace, Dog Spin)์ Robust๊ฐ ๋์ด์ง๊ธฐ ์ฌ์ด ๋ฐ๋ฉด adaptive๋ ์ผ๊ด๋๊ฒ ์ํ.
- ๋ฌด์์ํ ์๋ ์ ์ฑ ์ ๋๋ถ๋ถ ์คํฌ์์ ์ ์ด ์คํจ.
- Fig. 7(๋์ด์ง๊ธฐ๊น์ง ์๊ฐ): ์ ์ํ์ด ๊ท ํ์ ๋ ์ค๋ ์ ์งํ๋ฉฐ, ์ข ์ข ์ต๋ ์ํผ์๋ ๊ธธ์ด๊น์ง ๋ฒํ.
Out-of-distribution & Information Bottleneck (Fig. 8โ10)
- OOD: ํ์ต ๋ฒ์๋ณด๋ค ๋์ ๋์ญํ์ ์ํํ 100๊ฐ ์๋ฎฌ ํ๊ฒฝ์์, ์ ์ํ์ด ๋ ๋ค์ํ ๋์ญํ์์ ๋์ return ์ ๋ฌ์ฑ(์: Dog Pace์์ ์ ์ํ์ 50% ํ๊ฒฝ์์ return>0.6, robust๋ 38%). ์ ์ ํ์ต ๊ณก์ (Fig. 9)์ ๋น๊ต์ ์ ์ ์ํผ์๋๋ก ์ ํ๊ฒฝ์ ์ ์.
- Information bottleneck: \beta=10^{-4} ๊ฐ ๊ฐ๊ฑด์ฑ๊ณผ ์ ์์ฑ์ ์ข์ ์ ์ถฉ. bottleneck์ด ์๋(IB) ์ ์ฑ ์ด ์๋(No IB) ์ ์ฑ ๋ณด๋ค ์ ์ ์ ยทํ ๋ชจ๋ ๋์ฒด๋ก ์ฐ์.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ณด์ ์ค๊ณ ๋ถ๋ด ์ ๊ฑฐ. reference motion์ ๋ชจ๋ฐฉํจ์ผ๋ก์จ ์คํฌ๋ณ ์ ๊ตํ ๋ณด์ ํจ์ ์ค๊ณ๋ฅผ ์์ ๊ณ , ํ๋์ ์์คํ ์ผ๋ก ๋ค์ํ ๋ฏผ์ฒฉ ์คํฌ ์ ์๋ ํฉ์ฑํฉ๋๋ค. mocap์ ๊ฑฐ๊พธ๋ก ์ฌ์ํด ํ์ง gait๋ฅผ ์ป๋ ๋ฑ ํ์ฅ๋ ์์ฝ์ต๋๋ค.
- latent + IB ๊ธฐ๋ฐ ์ ์์ ํจ์จ์ฑ. domain randomization์ผ๋ก ๊ฐ๊ฑดํ ์ ์ํ ์ ์ฑ ์ ๋ง๋ค๊ณ , latent space ํ์์ผ๋ก ์ฝ 50ํ trial ๋ง์ ์ค๋ก๋ด์ ์ ์ํฉ๋๋ค. information bottleneck์ผ๋ก ๊ฐ๊ฑด์ฑโ๏ธ์ ์์ฑ ํธ๋ ์ด๋์คํ๋ฅผ ์กฐ์ ํ๋ ์ ์ด ์ฐ์ํฉ๋๋ค.
- ์ค๋ก๋ด ๊ฒ์ฆ์ ํญ. pacingยทtrottingยทspinยทhop-turn ๋ฑ ๋ค์ํ ๋์์ ์ค์ Laikago์์ ๋ณด์๊ณ , OOD ๋์ญํ์์๋ ์ ์ํ์ ์ฐ์๋ฅผ ์ ๋ํํ์ต๋๋ค.
- ์ค์ธ๊ณ ์นํ์ ์ค๊ณ. root ์์น๋ฅผ ์ํ์์ ์ ์ธํ๊ณ PD ์ ์ญํต๊ณผ ํํฐ๋ฅผ ์ฐ๋ ๋ฑ, ๋ฐฐํฌ ํ์ค(์ถ์ ๋ถํ์ค์ฑยท์ง๋)์ ๊ณ ๋ คํ์ต๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ ์๊ฐ ์ธ์ ํ ๋์ ํ๋์ ํ๊ณ. ํ๋์จ์ดยท์๊ณ ๋ฆฌ์ฆ ์ ์ฝ์ผ๋ก ํฐ ์ ํ๋ ๋น ๋ฅธ ๋ฌ๋ฆฌ๊ธฐ ๊ฐ์ ๋ ๋์ ์ธ ํ๋์ ํ์ตํ์ง ๋ชปํ์ต๋๋ค.
- ์์์ ์ปจํธ๋กค๋ฌ ๋๋น ์์ ์ฑ. ํ์ต๋ ์ปจํธ๋กค๋ฌ๋ ์ต๊ณ ์์ค์ ์๋ ์ค๊ณ ์ปจํธ๋กค๋ฌ๋งํผ ์์ ์ ์ด์ง ์์ต๋๋ค. ๋ ๋ณต์กํ ์ค์ธ๊ณ ์์ฉ์ ๊ฐ๊ฑด์ฑ ํฅ์์ด ํ์ํฉ๋๋ค.
- referenceยทmocap ์์กด. ์ข์ reference motion(mocap/์ ๋๋ฉ์ด์ )์ด ์์ด์ผ ํ๋ฉฐ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ์ ํํ ์ ๋๋ฉ์ด์ ์ ์ผ๋ถ ๋์(Running Man)์์ ์ฌํ ์คํจ๋ฅผ ๋ณ์์ต๋๋ค.
- ์ ์์ ์ค์ธ๊ณ trial ํ์. 50ํ ์์ค์ด๋ผ ์ ์ง๋ง, ์ํํ ๋์ ์คํฌ์์๋ ์ค์ธ๊ณ trial ์์ฒด๊ฐ ๋น์ฉยท์ํ์ ๋๋ฐํฉ๋๋ค(์ถ์ธก). ์ ์๋ ํฅํ ๋น๋์ค ํด๋ฆฝ ๋ฑ์ผ๋ก ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฌ๋ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ๋๋ฌผ mocap ๋ชจ๋ฐฉ ์ผ๋ก 4์กฑ ๋ก๋ด์ ๋ค์ํ๊ณ ๋ฏผ์ฒฉํ ๋ณดํ ์คํฌ์ ํ์ตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ํต์ฌ์ (1) IK ๊ธฐ๋ฐ motion retargeting, (2) goal-conditioned ๋ณด์์ผ๋ก ๋ชจ์ ์ ๋ฐ๋ผ๊ฐ๋ motion imitation(+ domain randomization), (3) latent dynamics + information bottleneck ๊ธฐ๋ฐ sample-efficient domain adaptation ์ ๋๋ค. reference motion์ด ์คํฌ๋ณ ๋ณด์ ์ค๊ณ๋ฅผ ๋์ฒดํ๊ณ , latent space ํ์์ด sim-to-real ์ ์ด๋ฅผ ํจ์จํํฉ๋๋ค.
์์น๋ก ์ ๋ฆฌํ๋ฉด, 18-DoF Laikago์์ pacingยทtrottingยทํ์ง gait(์ต๊ณ 1.20 m/s)ยทspinยทhop-turn์ ํ์ตํ๊ณ , ์ฝ 50ํ ์ค์ธ๊ณ trial ์ ์ ์์ผ๋ก ์ ์ํ ์ ์ฑ ์ด ๋น์ ์ ์ ์ฑ ๋๋น ๋ ์์ ์ ์ผ๋ก(๋์ด์ง๊ธฐ๊น์ง ์ค๋ ๋ฒํ) ๋์ํ์ผ๋ฉฐ, OOD ๋์ญํ์์๋ ์ฐ์๋ฅผ ๋ณด์์ต๋๋ค. information bottleneck \beta=10^{-4} ๊ฐ ๊ฐ๊ฑด์ฑ๊ณผ ์ ์์ฑ์ ์ข์ ์ ์ถฉ์ ์ด์์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โ์คํฌ๋ณ ๋ณด์ ์ค๊ณ ์์ด, ๋๋ฌผ ๋ชจ์ ์ ๋ชจ๋ฐฉํ๊ณ ํจ์จ์ ์ผ๋ก ์ ์์์ผ ๋ค์ํ ๋ฏผ์ฒฉ ๋ณดํ์ ์ค๋ก๋ด์์ ๊ตฌํํ ์ ์์์ ๋ณด์ธ ๊ฒโ ์ ์์ต๋๋ค. ํฐ ์ ํยท๋ฌ๋ฆฌ๊ธฐ ๊ฐ์ ๋์ ํ๋๊ณผ ์ต๊ณ ์๋ ์ปจํธ๋กค๋ฌ ์์ค์ ์์ ์ฑ์ ํ๊ณ๋ก ๋จ์ง๋ง, imitation + latent adaptation ์ด๋ผ๋ ํ์ ์ดํ ๋ณดํ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ์ค์ํ ํ ๋๊ฐ ๋์์ต๋๋ค.