flowchart LR
REF["Reference Trajectory<br/>ล_0 โ ล_1 โ ... โ ล_T"]
subgraph ROLL["Learner Rollout (Brax, ๋ฏธ๋ถ ๊ฐ๋ฅ)"]
S0["s_0"] -->|a_0~ฯ_ฮธ| S1["s_1"]
S1 -->|a_1| S2["s_2"]
S2 -.->|Demo Replay:<br/>์ค์ฐจ ํฌ๋ฉด ล๋ก ๊ต์ฒด| S3["ล_3"]
S3 -->|a_3| S4["s_4"]
end
REF -->|step-wise L2| LOSS["L = ฮฃ โs_t โ ล_tโยฒ"]
ROLL --> LOSS
LOSS -->|analytical gradient<br/>โ_ฮธ L (BPTT)| POLICY["Policy ฯ_ฮธ ์
๋ฐ์ดํธ"]
POLICY -.-> ROLL
๐DiffMimic
- ๐ ๊ธฐ์กด RL ๊ธฐ๋ฐ ๋ชจ์ ๋ฏธ๋ฏนํน์ ๋นํจ์จ์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ Differentiable Physics Simulators (DPS)๋ฅผ ํ์ฉํ์ฌ ๋ณต์กํ ์ ์ฑ ํ์ต ๋ฌธ์ ๋ฅผ ๋จ์ํ ์ํ ๋งค์นญ ๋ฌธ์ ๋ก ์ฌ๊ตฌ์ฑํ๋ DiffMimic์ ์ ์ํฉ๋๋ค.
- ๐ก DiffMimic์ DPS์ ๋ถ์์ ๊ทธ๋๋์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ ์ง์ ์ต์ ํํจ์ผ๋ก์จ RL ๊ธฐ๋ฐ ๋ฐฉ์๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ณ ์์ ์ ์ธ ์๋ ด์ ๋ฌ์ฑํ๋ฉฐ, local optima๋ฅผ ํผํ๊ณ ๊ธด horizon์์ ๊ทธ๋๋์ธํธ ์ ํ๋ฅผ ์์ ํํ๊ธฐ ์ํด Demonstration Replay ๋ฉ์ปค๋์ฆ์ ๋์ ํฉ๋๋ค.
- โฑ๏ธ ๊ด๋ฒ์ํ ์คํ ๊ฒฐ๊ณผ, DiffMimic์ DeepMimic๊ณผ ๊ฐ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋๋น ์ฐ์ํ ์ํ ๋ฐ ์๊ฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ Backflip๊ณผ ๊ฐ์ ์ด๋ ค์ด ๋์์ ๋จ 10๋ถ ๋ง์ ํ์ตํ๊ณ 3์๊ฐ ๋ง์ ๋ฐ๋ณตํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
DIFFMIMIC๋ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ ์ ํต์ฌ ๊ณผ์ ์ธ ๋ชจ์ ๋ฏธ๋ฏนํน(motion mimicking)์ ์ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ(Differentiable Physics Simulators, DPS)๋ฅผ ํ์ฉํ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ๋ชจ์ ๋ฏธ๋ฏนํน ๋ฐฉ๋ฒ๋ก ๋ค์ ๋๋ถ๋ถ ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ๊ธฐ๋ฐํ๋ฉฐ, ์ด๋ก ์ธํด ๋ณด์ ํจ์ ์ค๊ณ์ ์ด๋ ค์(heavy reward engineering), ๋์ ๋ถ์ฐ(high variance), ๋๋ฆฐ ์๋ ด(slow convergence), ๊ทธ๋ฆฌ๊ณ ํ์์ ์ด๋ ค์(hard explorations)๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์ง๋ฉดํด ์์์ต๋๋ค. ํนํ, ๋จ์ํ ๋ชจ์ ์ํ์ค๋ฅผ ๋ชจ๋ฐฉํ๋ ๋ฐ ์์ญ ์๊ฐ ๋๋ ๋ฉฐ์น ์ ํ๋ จ ์๊ฐ์ด ์์๋์ด ํ์ฅ์ฑ(scalability)์ด ๋ถ์กฑํ์ต๋๋ค.
DiffMimic์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ชจ์ ๋ฏธ๋ฏนํน์ ๋ณต์กํ ์ ์ฑ ํ์ต(policy learning) ๋ฌธ์ ๊ฐ ์๋ ํจ์ฌ ๊ฐ๋จํ ์ํ ๋งค์นญ(state matching) ๋ฌธ์ ๋ก ์ฌ์ ์ํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ DPS๊ฐ ์ ๊ณตํ๋ ๋ถ์์ ๊ธฐ์ธ๊ธฐ(analytical gradients)๋ฅผ ํ์ฉํ์ฌ ์ง๋ฉด ์ง๋ฆฌ(ground-truth) ๋ฌผ๋ฆฌ์ ์ฌ์ ์ ๋ณด์ ํจ๊ป ์ ์ฑ ์ ์์ ์ ์ผ๋ก ํ์ต์ํค๋ ๊ฒ์ ๋๋ค. ์ด๋ RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ณ ์์ ์ ์ธ ์๋ ด์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
- ํ๊ฒฝ ์ค์ :
Braxํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ฒฝ์ ๊ตฌ์ถํ๋ฉฐ,DeepMimic์ ์ค๊ณ๋ฅผ ๋ฐ๋ฅด๋ 13๊ฐ์ ๋งํฌ์ 34๊ฐ์ ์์ ๋(degrees of freedom)๋ฅผ ๊ฐ์ง ํด๋จธ๋ ธ์ด๋(humanoid) ์บ๋ฆญํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.- ์ํ(state) s๋ ๋ชจ๋ ๋งํฌ์ ์ ์ญ ์์น p, ํ์ q, ์ ํ ์๋ \dot{p}, ๊ฐ์๋ \dot{q}, ๊ทธ๋ฆฌ๊ณ ํ์์คํฌํ ์ญํ ์ ํ๋ ์์ ๋ณ์(phase variable) \varphi๋ฅผ ํฌํจํฉ๋๋ค: s := \{p, q, \dot{p}, \dot{q}, \varphi\}.
- PD ์ปจํธ๋กค๋ฌ(PD controller)๋ฅผ ์ฌ์ฉํ์ฌ ์บ๋ฆญํฐ๋ฅผ ๊ตฌ๋ํ๋ฉฐ, ์ ์ฑ ๋คํธ์ํฌ๋ ๊ฐ ์กฐ์ธํธ์ ๋ชฉํ ๊ฐ๋๋ฅผ ์์ธกํฉ๋๋ค.
- ๋ชจ์
๋ฏธ๋ฏนํน์ ์ํ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ํ์ฉ:
- DiffMimic์ ์ ์ฑ ๋กค์์(policy rollout)๊ณผ ์ฐธ์กฐ ๋ชจ์ (reference motion) ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ง์ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ์์ค ํจ์ L์ ๋กค์์ ๊ถค์ (s_t)๊ณผ ์ฐธ์กฐ ๊ถค์ (\hat{s}_t) ๊ฐ์ ๋จ๊ณ๋ณ(step-wise) L_2 ๊ฑฐ๋ฆฌ์ ํฉ์ผ๋ก ์ ์๋ฉ๋๋ค: L = \sum_{t=1}^T \|s_t - \hat{s}_t\|^2_2
- ์ฌ๊ธฐ์ \|s_t - \hat{s}_t\|^2_2๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ญ ์์น, ํ์ (6D ํ์ ํํ ์ฌ์ฉ), ์ ํ ์๋, ๊ฐ์๋์ ๋ํ ๊ฐ์ค ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: \|s_t - \hat{s}_t\|^2_2 = \frac{1}{\|J\|}\sum_{j \in J} w_p(p_j - \hat{p}_j)^2 + w_r(q_j - \hat{q}_j)^2 + w_v(\dot{p}_j - \hat{\dot{p}}_j)^2 + w_a(\dot{q}_j - \hat{\dot{q}}_j)^2 p_j, \hat{p}_j๋ J๋ฒ์งธ ์กฐ์ธํธ์ ์ ์ญ ์์น, q_j, \hat{q}_j๋ ์ ์ญ ํ์ , \dot{p}_j, \hat{\dot{p}}_j๋ ์ ํ ์๋, \dot{q}_j, \hat{\dot{q}}_j๋ ๊ฐ์๋์ ๋๋ค. w_p, w_r, w_v, w_a๋ ๊ฐ์ค์น์ ๋๋ค.
- DPS๋ ๋์ ์์คํ ์ ์ ์ด ํจ์(transition function) T ์ญํ ์ ํ๋ฉฐ, s_{t+1} = T(s_t, a_t)์ ๊ฐ์ด ๋ค์ ์ํ๋ฅผ ์์ฑํฉ๋๋ค. DPS๊ฐ ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ์์ค ํจ์์์ ํ๋ a_t์ ์ํ s_t์ ๋ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ง์ ์ ๋ํ ์ ์์ต๋๋ค: \frac{\partial L}{\partial a_t} = \left(\frac{\partial L}{\partial T(s_t, a_t)}\right) \left(\frac{\partial T(s_t, a_t)}{\partial a_t}\right) \frac{\partial L}{\partial s_t} = \left(\frac{\partial L}{\partial T(s_t, a_t)}\right) \left(\frac{\partial T(s_t, a_t)}{\partial s_t}\right) ์ด ๊ธฐ์ธ๊ธฐ๋ ์ ์ฒด ๊ถค์ ์ ๊ฑธ์ณ ์ฌ๊ท์ ์ผ๋ก ์ญ์ ํ(backpropagated)๋์ด ์ ์ฑ ์ ์ต์ ํํฉ๋๋ค.
- ๋ฐ๋ชจ ์ฌํ (Demonstration Replay) ๋ฉ์ปค๋์ฆ:
- DPS๋ฅผ ์ฌ์ฉํ ์ ์ฑ ํ์ต์ ์ฅ๊ธฐ๊ฐ ๊ถค์ ์์ ๊ธฐ์ธ๊ธฐ ํญ์ฃผ/์์ค(exploding/vanishing gradients) ๋ฌธ์ , ์ง์ญ ์ต์ ์ (local optima)์ ๊ฐํ๋ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ์ ์ด์ด ํ๋ถํ(contact-rich) ํ๊ฒฝ์์ ๋ ธ์ด์ฆ๊ฐ ๋ง๊ฑฐ๋ ์๋ชป๋ ๊ธฐ์ธ๊ธฐ ๋ฌธ์ ์ ์ง๋ฉดํ ์ ์์ต๋๋ค.
- ์ด๋ฌํ ๋ฌธ์ ์ ๋กค์์ ๊ถค์ ์ด ์ฐธ์กฐ ๊ถค์ ์์ ๋ฒ์ด๋๋ ๋ถํฌ ๋ณํ(distributional shift)๋ฅผ ์ํํ๊ธฐ ์ํด
Demonstration Replay๊ฐ ๋์ ๋ฉ๋๋ค. Demonstration Replay๋ ์๋ฎฌ๋ ์ด์ ๋ ์ํ(s_t)์ ์ฐธ์กฐ ์ํ(\hat{s}_t) ๊ฐ์ ํฌ์ฆ ์ค๋ฅ(pose error)๊ฐ ํน์ ์๊ณ๊ฐ \epsilon์ ์ด๊ณผํ ๊ฒฝ์ฐ, ํ์ฌ ์๋ฎฌ๋ ์ด์ ๋ ์ํ๋ฅผ ํด๋น ์ฐธ์กฐ ์ํ๋ก ๋์ฒดํ์ฌ ๋กค์์์ ์๋ดํฉ๋๋ค: s_{t+1} = \begin{cases} T(s_t, a_t), \quad a_t \sim \pi_\theta(a|s_t) & \text{if } \|s_t - \hat{s}_t\|^2_2 < \epsilon \\ T(\hat{s}_t, a_t), \quad a_t \sim \pi_\theta(a|\hat{s}_t) & \text{otherwise} \end{cases} ์ด ๋ฉ์ปค๋์ฆ์ ์ ์ฑ ์ ํ์ต์ ์์ ํํ๊ณ ๋ ๋ถ๋๋ฌ์ด ๊ธฐ์ธ๊ธฐ ์ถ์ (smoother gradient estimation)์ ์ ๊ณตํ์ฌ ์ง์ญ ์ต์ ์ ์์ ๋ฒ์ด๋ ๋ ์ถฉ์คํ๊ฒ ์ฐธ์กฐ ๋ชจ์ ์ ๋ชจ๋ฐฉํ๋๋ก ๋์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ:
DiffMimic์ DeepMimic, AMP, Spacetime Bound์ ๊ฐ์ ๊ธฐ์กด RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ๋น๊ตํ์ฌ ์ฐ์ํ ์ํ ํจ์จ์ฑ(sample efficiency)๊ณผ ์๊ฐ ํจ์จ์ฑ(time efficiency)์ ๋ณด์ฌ์ค๋๋ค. ํนํ, ๋์ ์ ์ธ Backflip ๋ชจ์
์ ๋จ 10๋ถ ๋ง์ ํ์ตํ๊ณ , 3์๊ฐ ๋ง์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ ์ ์์์ ์
์ฆํ์ต๋๋ค. ์ด๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด Backflip์ ์ํ์ ์ผ๋ก ์ํํ๋ ๋ฐ ์ฝ ํ๋ฃจ๊ฐ ๊ฑธ๋ฆฌ๋ ๊ฒ๊ณผ ๋์กฐ์ ์
๋๋ค. ๋ํ, Demonstration Replay๊ฐ ์ ์ฑ
ํ์ต์ ์์ ํ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ฉฐ, ํนํ Demonstration Replay (Threshold) ๋ฐฉ์์ด ๋ ๋์ ์ถฉ์ค๋๋ก ๋ฐ๋ชจ๋ฅผ ์ฌํํจ์ ์ ์ฑ์ ๋ฐ ์ ๋์ ๋ถ์์ ํตํด ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ถ๊ทน์ ์ผ๋ก DiffMimic์ DPS๋ฅผ ํ์ฉํ ๋ชจ์ ๋ฏธ๋ฏนํน์ ์๋ก์ด ์์์ ์ ์ ์ํ๋ฉฐ, ํฅํ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์๋ฅ ์๋ฎฌ๋ ์ด์ ๋ฑ ๋ ๋ณต์กํ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ ๋๋ฉ์ด์ ์์คํ ์๋ ์ ์ฉ๋ ์ ์๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
Motion mimicking์ ์์ฐ๋ ๋ชจ์ ๊ถค์ ์ ๋ณต์ํ๋ ์ ์ด ์ ํธ๋ฅผ ๋ง๋๋ ์ ์ฑ ์ ์ฐพ๋ ์ผ๋ก, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์ ์ ๊ทผ๊ฐ์ด๋ฉฐ control stylizationยทskill composition ๊ฐ์ ์์ฉ์ ์ ์ ์กฐ๊ฑด์ ๋๋ค. ์ต๊ทผ ํฐ ์ง์ ์ด ์์์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋๋ถ๋ถ RL ์ ์ฑํํด ๋ณด์ ํจ์์ ์ ์ด ์ ์ฑ ์ ๋ฒ๊ฐ์ ํ์ตํฉ๋๋ค. ์ด ๋ฐฉ์์ ๋ ๊ฐ์ง ๊ณ ์ง์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
- ํ์ฅ์ฑ: ๋จ์ผ ๋ชจ์ ํ๋๋ฅผ ๋ชจ๋ฐฉํ๋ ๋ฐ๋ ์์ญ ์๊ฐ~๋ฉฐ์น ์ด ๊ฑธ๋ฆฝ๋๋ค.
- ๋ณด์ ์ค๊ณ ์์กด: ์ฑ๋ฅ์ด ์ ๊ตํ๊ฒ ์ค๊ณ/ํ์ต๋ ๋ณด์ ํจ์์ ํ์ง์ ํฌ๊ฒ ์์กดํด, ๋ณต์กํ ์ค์ธ๊ณ ์์ฉ์ผ๋ก์ ์ผ๋ฐํ๊ฐ ์ด๋ ต์ต๋๋ค.
ํํธ ๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ(DPS) ๊ฐ ๋ก๋ด ์ ์ดยท๊ทธ๋ํฝ์ค์์ ์ธ์์ ์ธ ์ฑ๊ณผ๋ฅผ ๋์ต๋๋ค. DPS๋ ๋ฌผ๋ฆฌ ์ฐ์ฐ์๋ฅผ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๊ณ์ฐ ๊ทธ๋ํ ๋ก ๋ค๋ค, ๋ชฉํ(์ฆ ๋ณด์)๋ก๋ถํฐ ์ ์ด ์ ์ฑ ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ์ง์ ์ ํ ํฉ๋๋ค. ๋ณด์ ํจ์์ ์ ์ฑ ์ ๋ฒ๊ฐ์ ํ์ตํ ํ์ ์์ด, ์ ์ด ์ ์ฑ ํ์ต์ ์ง์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ต์ ํ ๋ก ํ ์ ์์ต๋๋ค.
ํ์ง๋ง DPS๋ ๋ง๋ฅ์ ์๋๋๋ค. ํด์์ ํ๊ฒฝ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋๋ผ๋, ํนํ stiffํ๊ณ ๋ถ์ฐ์์ ์ธ ๊ธฐ์ธ๊ธฐ ๋ฅผ ๋ด๋ contact-rich ๋ฌผ๋ฆฌ ์์คํ ์์๋ local optima์ ์ฝ๊ฒ ๋น ์ง๋๋ค. ๋ ๊ธด ๊ถค์ ์์๋ ์ญ์ ํ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ์์น ๊ธฐ์ธ๊ธฐ๊ฐ ์์ค/ํญ๋ฐ ํ ์ ์์ต๋๋ค.
DiffMimic์ ํ ์ค ์์ฝ: motion mimicking์ ์ํ ๋งค์นญ ๋ฌธ์ ๋ก ์ฌ์ ์ํํ๊ณ , DPS์ ๋ฏธ๋ถ ๊ฐ๋ฅ dynamics๋ก ๊ถค์ ๊ฑฐ๋ฆฌ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ์ฑ ์ ์ง์ ์ ํํด 1์ฐจ ๊ธฐ์ธ๊ธฐ๋ก ์ํ ํจ์จ์ ํฌ๊ฒ ๋์ด๋ฉฐ, Demonstration Replay ๋ก long-horizonยทlocal-minima ๋ฌธ์ ๋ฅผ ์์ ํํ๋ค. DiffMimic์ DPS๋ฅผ motion mimicking์ ์ฒ์ ์ ์ฉ ํ ์ฐ๊ตฌ์ด๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ค ๋ฒค์น๋งํฌ๋ก ๊ณต๊ฐํฉ๋๋ค.
๋ฐฉ๋ฒ
๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฌผ๋ฆฌ ์์ง ์ ๋ชจ๋ฐฉ ํ๊ฒฝ
ํ๊ฒฝ์ Brax ๋ก ๊ตฌ์ถํฉ๋๋ค. ์บ๋ฆญํฐ๋ DeepMimic์ ๋ฐ๋ผ ์ค๊ณํ humanoid๋ก, 13๊ฐ ๋งํฌ, 34 ์์ ๋, 45kg, 1.62m ์ ๋๋ค. ๋ชจ๋ ๋งํฌ๊ฐ ๋ฐ๋ฅ๊ณผ ์ ์ดํ ์ ์๊ณ , GPU ๋ณ๋ ฌํ๋ก ๊ฐ์ํ๋ฉฐ ์๋ฎฌ๋ ์ดํฐ๋ 480 FPS ๋ก ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ๋ ๋ถ๋๋ฌ์ด ๊ธฐ์ธ๊ธฐ ์ ํ๋ฅผ ์ํด ๊ด์ ํ๊ณ๋ฅผ ์ํ ํ๊ณ , ๋ง์ฐฐ ๊ณ์ ๋ฑ์ DeepMimic๊ณผ ๋์ผํ๊ฒ ์ ์งํฉ๋๋ค.
์ํ์ ํ๋. ์ํ๋ ๋ชจ๋ ๋งํฌ์ ์์น p, ํ์ q, ์ ์๋ \dot p, ๊ฐ์๋ \dot q ๋ฅผ ๋ก์ปฌ ์ขํ๋ก ๋ด๊ณ , ์ถ๊ฐ๋ก phase ๋ณ์ \phi \in [0,1] ๋ฅผ ํ์์คํฌํ๋ก ๋ฃ์ต๋๋ค: s := \{p, q, \dot p, \dot q, \phi\}. PD ์ปจํธ๋กค๋ฌ ๋ก ์บ๋ฆญํฐ๋ฅผ ๊ตฌ๋ํ๋ฉฐ, ๋ชฉํ ๊ฐ๋ \tilde q ์ ๋ํด ํ ํฌ๋
\tau = k_p(\tilde q - q) + k_d(\dot{\tilde q} - \dot q)
์ ์ฑ ๋คํธ์ํฌ๊ฐ ๊ฐ ๊ด์ ์ PD ๋ชฉํ ๊ฐ๋๋ฅผ 30 FPS ๋ก ์์ธกํฉ๋๋ค(k_p, k_d ๋ DeepMimic๊ณผ ๋์ผ).
๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฌผ๋ฆฌ๋ก ํ๋ ๋ชจ์ ๋ชจ๋ฐฉ
motion mimicking์ ๊ฒฐ๊ตญ ์ ์ฑ ๋กค์์์ reference ๋ชจ์ ์ ๋ง์ถ๋ ์ผ์ ๋๋ค. ๋ชฉํ ์์ฒด๋ ๋จ์ํ์ง๋ง, โ๊ฑธ์ด๋ผโ ๋๋ โ๋ฐฑํ๋ฆฝํ๋ผโ๋ฅผ ์ ๋ํ๋ ๋ณด์์ ์ค๊ณํ๋ ์ผ์ ์ด๋ ต์ต๋๋ค. DiffMimic์ ํต์ฐฐ์ ์ด ์์ ์ด ํด์์ ๊ธฐ์ธ๊ธฐ๋ก๋ ๋๋ ๋งํผ ์ฌ์์ง๋ค ๋ ๊ฒ์ ๋๋ค.
๊ฐ iteration์์ ์ํ๋ฅผ ์ฒซ reference ์ํ๋ก ์ด๊ธฐํํ๊ณ , ๋ณ๋ ฌ ํ๊ฒฝ์์ ์ต๋ ์ํผ์๋ ๊ธธ์ด๊น์ง ๋กค์์ํ ๋ค, ๋กค์์ ๊ถค์ ๊ณผ reference ๊ถค์ ์ฌ์ด์ ์คํ ๋ณ L2 ๊ฑฐ๋ฆฌ ๋ฅผ ๊ณ์ฐํฉ๋๋ค.
\mathcal{L} = \sum_{t=1}^{T} \lVert s_t - \hat s_t \rVert_2^2
\lVert s_t - \hat s_t \rVert_2^2 \triangleq \frac{1}{\lVert J \rVert}\sum_{j\in J} w_p(p^j - \hat p^j)^2 + w_r(q^j - \hat q^j)^2 + w_v(\dot p^j - \dot{\hat p}^j)^2 + w_a(\dot q^j - \dot{\hat q}^j)^2
์์นยทํ์ ยท์ ์๋ยท๊ฐ์๋ ์ค์ฐจ์ ๊ฐ์คํฉ์ด๋ฉฐ(ํ์ ์ quaternion๋ณด๋ค ๊ธฐ์ธ๊ธฐ ์ต์ ํ์ ์ ๋ฆฌํ 6D ํํ ์ฌ์ฉ), ๊ฐ์ค์น w_p, w_r, w_v, w_a ๋ ํฌ๊ธฐ๋ฅผ ๋๋ต ๋ง์ถ๋๋ก ๊ทผ์ฌ์ ์ผ๋ก๋ง ํ๋ํ๋ฉด ๋ฉ๋๋ค โ RL์ ์ ๊ตํ ๋ณด์ ์ค๊ณ์ ๋๋น๋ฉ๋๋ค.
DPS๊ฐ ์ ์ดํจ์ \mathcal T (s_{t+1} = \mathcal T(s_t, a_t)) ์ญํ ์ ํ๋ฉฐ ์์ ํ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ฏ๋ก, ์์ค๋ก๋ถํฐ ํ์ฌ ํ๋ a_t ์ ์ํ s_t ์์ชฝ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ์ง์ ์ ๋ํ ์ ์์ต๋๋ค.
\frac{\partial \mathcal L}{\partial a_t} = \left(\frac{\partial \mathcal L}{\partial \mathcal T(s_t, a_t)}\right)\left(\frac{\partial \mathcal T(s_t, a_t)}{\partial a_t}\right), \qquad \frac{\partial \mathcal L}{\partial s_t} = \left(\frac{\partial \mathcal L}{\partial \mathcal T(s_t, a_t)}\right)\left(\frac{\partial \mathcal T(s_t, a_t)}{\partial s_t}\right)
์ด๋ฅผ ์ฌ๊ท์ ์ผ๋ก ์ ์ฉํด ์ ์ฒด ๊ถค์ ์ ๊ฑธ์ณ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ํ(BPTT)ํฉ๋๋ค. learned world model์ ๊ธฐ๋๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, off-the-shelf DPS๋ ์์คํ ์ ์ค์ ๋ฌผ๋ฆฌ๋ฅผ ๋ด์ ๋ ์ ๋ขฐํ ์ ์๊ณ ํด์ ๊ฐ๋ฅํ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ค๋๋ค.
Demonstration Replay (ํต์ฌ)
DPS ์ ์ฑ ํ์ต์ ์ ์๋ ค์ง ์ธ ๊ฐ์ง ๋์ ๊ฐ ์์ต๋๋ค. (1) ๊ธด ์งํ์ ์์์ ๊ธฐ์ธ๊ธฐ ํญ๋ฐ/์์ค, (2) local minima ๋ก ์ธํ ์ ์ฒด, (3) ๋ ธ์ด์ฆ/์๋ชป๋ ๊ธฐ์ธ๊ธฐ.
motion mimicking ์์ ์ ๋์ ๋น๋ณผ๋ก์ฑ(non-convexity)์ด ์ด๋ฅผ ์ฌํ์ํต๋๋ค. ์์ปจ๋ Backflip ์ ๋ฐฐ์ธ ๋, ์ ์ฑ ์ ๊ณต์ค์ ๋น๋ฅผ ๋๋ ๋ ๋์ ์ธ ๋์์ ํ์ํ๋ ๋์ ํ๋ก ๋ชธ์ ์งํฑ ํ๋ ์์ดํ ์์ธ์ ๋น ์ง๊ธฐ ์ฝ์ต๋๋ค. ํํธ BPTT๋ฅผ ์งง๊ฒ ์๋ฅด๋(์: 10-step truncation) ๋จ์ ์ ๋จ์ ๊ถค์ ์ ๋ถ์ฐ์์ ๋ง๋ค์ด ๋ ๋์ local optimal ๋ก ์ด๋๋๋ค โ ๋์๋ค์ด ๊ฐํ๊ฒ ์ํธ์์กด์ (๊ณต์ค์์ ์ด๋ป๊ฒ ๋ค์ง์์ง)์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ธฐ์กด teacher forcing(Williams & Zipser 1989)์ ๋กค์์ ์ํ๋ฅผ reference๋ก ๋ฌด์์ ๊ต์ฒด(๋น์จ \gamma, Bernoulli)ํฉ๋๋ค.
s_{t+1} = \begin{cases} \mathcal T(s_t, a_t), \ a_t \sim \pi_\theta(a|s_t) & \text{if } b=0,\ b\sim\text{Bernoulli}(\gamma) \\ \mathcal T(\hat s_t, a_t), \ a_t \sim \pi_\theta(a|\hat s_t) & \text{otherwise} \end{cases}
ํ์ง๋ง ๋ฌด์์ ๊ต์ฒด๋ ์ ์ญ์ ์ผ๋ก๋ ๋์๋ ํ๋ ์๋ง๋ค ์ถฉ์คํ ๋ชจ๋ฐฉ ํจ์ ๋ณด์ฅํ์ง ๋ชปํฉ๋๋ค(์ผ๋ถ ํ๋ ์์์ ์ด์ํ ์์ธยทํฐ ์ค์ฐจ).
DiffMimic์ Demonstration Replay(demonstration-guided exploration) ๋ reference์์ ๋๋ฌด ๋ฉ์ด์ง ์ํ๋ง ์๊ณ๊ฐ \epsilon ๊ธฐ์ค์ผ๋ก ๊ต์ฒดํฉ๋๋ค.
s_{t+1} = \begin{cases} \mathcal T(s_t, a_t), \ a_t \sim \pi_\theta(a|s_t) & \text{if } \lVert s_t - \hat s_t \rVert_2^2 < \epsilon \\ \mathcal T(\hat s_t, a_t), \ a_t \sim \pi_\theta(a|\hat s_t) & \text{otherwise} \end{cases}
๊ต์ฒด ๊ธฐ์ค์ด ํ์ฌ ๋กค์์์ ์ฑ๋ฅ์ ๋ฌ๋ ค ์์ผ๋ฏ๋ก, ๊ต์ฒด ๋น๋๊ฐ ํ์ต ์ค ๋์ ์ผ๋ก ์๋ ์กฐ์ ๋ฉ๋๋ค. ๊ฒฝํ์ ์ผ๋ก ์ด ๋ฐฉ์์ด ๋ ๋งค๋๋ฌ์ด ๊ธฐ์ธ๊ธฐ ์ถ์ ์ ์ฃผ์ด ์ ์ฑ ํ์ต์ ํฌ๊ฒ ์์ ํํฉ๋๋ค.
์คํ
๋จ์ผ V100 GPU + Intel Xeon E5-2680์์ ์คํํฉ๋๋ค. ์ฃผ ์งํ๋ ํ๊ท pose error(๋ฃจํธ ๊ด์ ๊ธฐ์ค ์๋ ์์น ์ค์ฐจ, ๋ฏธํฐ ๋จ์)์ด๋ฉฐ reference์ ๋๊ธฐํ๋ฅผ ์ํด DTW๋ฅผ ์ ์ฉํฉ๋๋ค. ๋น๊ต ๋์์ DeepMimic(RL + ์ ๊ตํ ๋ณด์), Spacetime Bound(DeepMimic ํ์ดํผํ๋ผ๋ฏธํฐ ํ์), AMP(Adversarial Motion Prior).
์ํ ํจ์จ: ํด์์ ๊ธฐ์ธ๊ธฐ์ ํ (Table 2)
20์ด๋ฅผ ๋์ด์ง ๋๊น์ง ๋กค์์ํ๋ ๋ฐ ํ์ํ ์ํ ์(10^6 ๋จ์, DeepMimic ๋๋น ๋ณํ์จ):
| Motion | DeepMimic | Spacetime Bound | Ours |
|---|---|---|---|
| Back-Flip | 31.18 | 41.20 (+32.1%) | 14.88 (-52.2%) |
| Cartwheel | 30.45 | 17.35 (-43.0%) | 13.92 (-54.2%) |
| Walk | 23.80 | 4.08 (-79.5%) | 7.92 (-66.7%) |
| Run | 19.31 | 4.11 (-78.7%) | 8.16 (-57.7%) |
| Jump | 25.65 | 41.63 (+77.8%) | 5.28 (-79.4%) |
| Dance | 24.59 | 10.00 (-59.3%) | 16.56 (-32.6%) |
DiffMimic์ DeepMimic ๋๋น ์ผ๊ด๋๊ฒ ์ํ ํจ์จ์ด ๋์ต๋๋ค. DPS์ ํด์์ ๊ธฐ์ธ๊ธฐ๋ก ์ ์ ์ํ๋ก๋ ์ ์ฑ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ ์ ์๋ ๋ฐ๋ฉด, RL์ ๊ด์ฐฎ์ ์ถ์ ์ ์ํด ํฐ ๋ฐฐ์น๊ฐ ํ์ํฉ๋๋ค. Spacetime Bound๋ Jump ๊ฐ์ ๋จ์ ์์ ์์๋ DeepMimic๋ณด๋ค ๋ง์ ์ํ์ด ํ์ํ ๋ฑ ๋ถ์์ ํ ๋ฐ ๋นํด, DiffMimic์ ๋ค์ํ ์์ ์์ ์์ ์ ยท์ผ๊ด์ ์ ๋๋ค.
๋ชจ์ ํ์ง (Table 1)
12๊ฐ ๋ชจ์ ์ ํ๊ท pose error์์ DiffMimic์ AMP๋ฅผ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐ ํ๊ณ DeepMimic๊ณผ ๋น์ทํ ์์ค์ ๋๋ค. ์ฃผ๋ชฉํ ์ : DiffMimic์ ํ์ต์์ 4์ด ๋กค์์ ๋ง ๋ณด๊ณ ๋ DeepMimic์ 20์ด cyclic ๋กค์์ ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ด, reference์ ์์ ์ ยท์ถฉ์คํ ๋ณต์์ ์ ์ฆํฉ๋๋ค.
| Motion | DeepMimic | AMP | Ours |
|---|---|---|---|
| Back-Flip | 0.076 | 0.150 | 0.097 |
| Jump | 0.033 | 0.083 | 0.025 |
| Run | 0.028 | 0.056 | 0.039 |
| Side-Flip | 0.244 | 0.124 | 0.069 |
| Walk | 0.018 | 0.030 | 0.017 |
์๊ฐ ํจ์จ
ํด์์ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ์ด ์ถ์ ๊ธฐ์ธ๊ธฐ๋ณด๋ค ์ค๋ ๊ฑธ๋ฆฌ๋ฏ๋ก wall-clock ๋น๊ต๊ฐ ๊ณต์ ํฉ๋๋ค. GPU ๋ณ๋ ฌํ๋ฅผ ์ฐ๋ AMP์ ๋น๊ตํ์ ๋, DiffMimic์ ์ ๋ฐ์ ํ์ต ์๊ฐ ์ผ๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋๋ฌํฉ๋๋ค. Backflip์ 10๋ถ์ ํ์ต ํ๊ณ , 3์๊ฐ(14.88M ์ํ) ์ cycle ๊ฐ๋ฅํฉ๋๋ค.
Ablation: Truncation ๊ธธ์ด
์ ์ฒด ๊ถค์ ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ํํ๋ฉด ๊ธธ์ด ๋๋ฌธ์ ํ์ต์ด ์ด๋ ต์ง๋ง, ๋จ์ํ 10-step์ผ๋ก ์๋ฅด๋ฉด ๊ถค์ ์ ๋ถ์ฐ์์ด ์๊ฒจ ์คํ๋ ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ ๋๋ค(Fig. 7a-b). ๋ชจ์ ์ด ๊ฐํ๊ฒ ์ํธ์์กด์ ์ด๊ธฐ ๋๋ฌธ์ผ๋ก, ๋ ๋์ ์ ๋ต(=Demonstration Replay)์ ํ์์ฑ์ ๋ณด์ฌ์ค๋๋ค.
Ablation: Demonstration Replay
์ธ ๋ณํ์ ๋น๊ตํฉ๋๋ค โ Full Horizon Gradient(๊ต์ฒด ์์), Demo Replay (Random)(teacher forcing์ ๋ฌด์์ ๊ต์ฒด), Demo Replay (Threshold)(์ค์ฐจ ๊ธฐ์ค ๊ต์ฒด).
- Full Horizon Gradient ๋ local minimum์ ๋น ์ ธ, ๋ฐฑํ๋ฆฝ ๋์ ๋ชธ์ ๊ตฝํ ํ๋ก ์งํฑ ํ๋ ๋์์ ํ์ต(Fig. 6b). ๋ replay ๋ณํ์ ๋ชจ๋ ๊ณต์ค ๋ฐฑํ๋ฆฝ์ ์ฑ๊ณต.
- Random vs Threshold: ํ๊ท ์ค์ฐจ๋ ๋น์ทํ์ง๋ง, Threshold๊ฐ ํ๋ ์๋ณ ์ต๋ ์ค์ฐจ๊ฐ ๋ฎ์ ๋ ์ถฉ์คํ๊ฒ reference๋ฅผ ๋ณต์(Fig. 8). Random์ ์ ์ฒด ํ๊ท ์ ์ค์ฌ๋ ์ผ๋ถ ํ๋ ์์์ ํฐ ์ค์ฐจ๊ฐ ๋จ์ต๋๋ค. ์ฆ ๋จ์ํ ํ๊ท pose error๋ฅผ ์ค์ด๋ ๊ฒ๋ง์ผ๋ก๋ ๋ถ์กฑ ํ๋ฉฐ, ํ์ฌ ์ ์ฑ ์ฑ๋ฅ์ ๊ธฐ๋ฐํ ์ธ๋ฐํ ๊ฐ์ด๋(threshold) ๊ฐ ํ์ํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ฌธ์ ์ฌ์ ์ํ์ ์ฐ์ํจ. โ๋ณต์กํ ์ ์ฑ ํ์ต โ ๋จ์ํ ์ํ ๋งค์นญโ์ด๋ผ๋ ์ฌ๊ตฌ์ฑ์ด, DPS์ ๋ฏธ๋ถ ๊ฐ๋ฅ dynamics์ ๋ง๋ ๋ณด์ ์ค๊ณ ๋ถ๋ด์ ๊ฑฐ์ ์ ๊ฑฐํ๋ฉด์ ์ํยท์๊ฐ ํจ์จ์ ๊ทน์ ์ผ๋ก ๋์์ต๋๋ค. Backflip 10๋ถ ํ์ต์ ๊ฐ๋ ฌํ ๊ฒฐ๊ณผ์ ๋๋ค.
- DPS ํ์ต ๋์ ์ ์ค์ฉ์ ํด๊ฒฐ. long-horizon ๊ธฐ์ธ๊ธฐ ๋ฌธ์ ยทlocal minima๋ฅผ ๋จ์ truncation์ด ์๋ ๋์ Demonstration Replay ๋ก ๋ค๋ฃฌ ์ ์ด ํต์ฌ ๊ธฐ์ฌ์ ๋๋ค. Random vs Threshold์ ์ฐจ์ด๋ฅผ ํ๋ ์๋ณ ์ค์ฐจ๋ก ๋ถ์ํ ์ ๋ ์ค๋๋ ฅ ์์ต๋๋ค.
- ๊ณต์ ํ๊ณ ๋ค๊ฐ์ ์ธ ๋น๊ต. ์ํ ํจ์จ(vs DeepMimic/Spacetime)๊ณผ ์๊ฐ ํจ์จ(vs AMP)์ ๋ถ๋ฆฌํด ์ธก์ ํ๊ณ , 12๊ฐ ๋ชจ์ ยท8๊ฐ ํ์ต ๊ณก์ ์ผ๋ก ํญ๋๊ฒ ๊ฒ์ฆํ์ต๋๋ค.
- ๋ฒค์น๋งํฌ ๊ณต๊ฐ. DPS ๊ธฐ๋ฐ motion mimicking์ ํ์ค ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ณต๊ฐํด ํ์ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ ๋ง๋ จํ์ต๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ ์๊ฐ ์ธ์ ํ ํต์ฌ ํ๊ณ: ํ๊ฐํ ์์ ์ด ์๋์ ์ผ๋ก ์งง๊ณ , ๋ค๋ฅธ ๋ฌผ์ฒด์์ ์ํธ์์ฉ์ด ์์ต๋๋ค. ๋ค๋ฌผ์ฒดยท์ ์ด์ด ๋ณต์กํด์ง๋ ๋์ ์์คํ ์์์ ๊ฑฐ๋์ ๋ฏธํด๊ฒฐ๋ก ๋จ์ต๋๋ค.
- DPS/์๋ฎฌ๋ ์ดํฐ ์์กด์ฑ. ์ฑ๊ณต์ Brax์ ๋ฏธ๋ถ ๊ฐ๋ฅ์ฑ๊ณผ (๋ถ๋๋ฌ์ด ๊ธฐ์ธ๊ธฐ๋ฅผ ์ํ) ๊ด์ ํ๊ณ ์ํ ๊ฐ์ ์๋ฎฌ ์ค์ ์ ๊ธฐ๋๋๋ค. ๋ stiffยท๋ถ์ฐ์์ ์ธ ์ค์ ์ ์ด์ด๋ ๋ค๋ฅธ ์์ง์ผ๋ก์ ์ ์ด๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
- DeepMimic ๋๋น ํ์ง์ ๋๋ฑ ์์ค. ํจ์จ์ ํฌ๊ฒ ์์์ง๋ง pose error ํ์ง ์์ฒด๋ DeepMimic๊ณผ ๋น์ทํ๊ฑฐ๋ ์ผ๋ถ ์์ ์์ ์ฝ๊ฐ ๋ค์ ธ, โ๋ ์ ํโํ๋ค๊ธฐ๋ณด๋ค โ๋น์ทํ ํ์ง์ ํจ์ฌ ๋น ๋ฅด๊ฒโ์ ๊ฐ๊น์ต๋๋ค.
- ์๊ณ๊ฐ \epsilon ์ ํ๋. Demonstration Replay์ ํต์ฌ์ธ \epsilon ์ค์ ์ด ์์ ๋ง๋ค ๋ค๋ฅผ ์ ์์ผ๋ฉฐ, ์๋ ์กฐ์ ์ ๋น๋์ ํ์ ๋ฉ๋๋ค(์ถ์ธก: ์๊ณ๊ฐ ์์ฒด์ ๋ฏผ๊ฐ๋ ๋ถ์์ ์ ํ์ ).
์์ฝ ๋ฐ ๊ฒฐ๋ก
DiffMimic์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ์ motion mimicking์, RL์ ๋ณด์ ์ค๊ณยท๋ฎ์ ์ํ ํจ์จ ๋์ ๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฌผ๋ฆฌ(DPS) ๊ธฐ๋ฐ ์ํ ๋งค์นญ ์ผ๋ก ํผ ์ฐ๊ตฌ์ ๋๋ค. ํต์ฌ์ (1) ๊ถค์ ๊ฑฐ๋ฆฌ์ ํด์์ ๊ธฐ์ธ๊ธฐ ๋ฅผ DPS dynamics๋ก ์ ์ฑ ์ ์ง์ ์ ํํ๊ณ , (2) reference ์ํ๋ฅผ ์ค์ฐจ ๊ธฐ์ค์ผ๋ก ๋ผ์ ๋ฃ๋ Demonstration Replay ๋ก long-horizonยทlocal-minima๋ฅผ ์์ ํํ ๊ฒ์ ๋๋ค.
์์น๋ก ์ ๋ฆฌํ๋ฉด, DeepMimic ๋๋น ์ํ ํจ์จ ์ต๋ โ79%, AMP ๋๋น wall-clock ์ ๋ฐ, Backflip 10๋ถ ํ์ตยท3์๊ฐ cycle(๋จ์ผ V100)์ ๋ฌ์ฑํ๊ณ , 12๊ฐ ๋ชจ์ ์์ AMP๋ฅผ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ฉฐ DeepMimic๊ณผ ๋๋ฑํ ํ์ง์ ๋ณด์์ต๋๋ค. Demonstration Replay์ threshold ๋ฐฉ์์ด random๋ณด๋ค ํ๋ ์๋ณ๋ก ์ถฉ์คํ ๋ชจ๋ฐฉํจ๋ ์ ์ฆํ์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โ๋ณด์ ์ค๊ณ ์์ด, ๋ฏธ๋ถ ๊ฐ๋ฅ ๋ฌผ๋ฆฌ์ ํด์์ ๊ธฐ์ธ๊ธฐ๋ก ๊ณ ๋๋ ๋ชจ์ ์ ๋ถ ๋จ์๋ก ํ์ตํ ์ ์์์ ์ฒ์ ๋ณด์๋คโ ๋ ๋ฐ ์์ต๋๋ค. ์งง์ ์์ ยท๋ฌผ์ฒด ์ํธ์์ฉ ๋ถ์ฌ๋ผ๋ ํ๊ณ๋ ๋จ์ง๋ง, ์ํ ๋งค์นญ + Demonstration Replay ๋ผ๋ ํ์ ๋ฏธ๋ถ ๊ฐ๋ฅ ์ ๋๋ฉ์ด์ (์: differentiable clothes simulation)์ ํฅํ ์ ๋งํ ์ถ๋ฐ์ ์ ์ ์ํฉ๋๋ค.