๐DexTrack ๋ฆฌ๋ทฐ
- ๐ค ์ด ์ฐ๊ตฌ๋ ๋ณต์กํ ์ ์ด ์ญํ๊ณผ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์๊ตฌ๋๋ ์ธ๊ฐ ๋ ํผ๋ฐ์ค๋ก๋ถํฐ ๋ก๋ด์ ๋ฅ์ํ ์กฐ์์ ์ํ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ ๊ฒฝ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ๊ฐ๋ฐํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
- ๐ ๏ธ DexTrack์ ์ธ๊ฐ์ ์กฐ์ ๋ ํผ๋ฐ์ค๋ฅผ ํตํด ์ ๊ฒฝ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ตํ๋ฉฐ, ๊ฐํ ํ์ต๊ณผ ๋ชจ๋ฐฉ ํ์ต์ ํตํฉํ๊ณ ํธ๋ชจํ ํผ ์ต์ ํ๋ฅผ ํ์ฉํ์ฌ ๊ณ ํ์ง์ ๋ก๋ด ์ถ์ ๋ฐ๋ชจ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์ฑ ๋ฐ ํ์ฉํฉ๋๋ค.
- โจ ์ ์๋ ์ปจํธ๋กค๋ฌ๋ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 10% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ณต์กํ๊ณ ์๋ก์ด ์กฐ์๊ณผ ํฐ ๋ ธ์ด์ฆ์๋ ๊ฐ๊ฑดํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค.
Brief Review
DexTrack์ ์ธ๊ฐ ์ฐธ์กฐ(human references)๋ฅผ ํ์ฉํ์ฌ ์ ๊ตํ ์กฐ์(dexterous manipulation)์ ์ํ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ ๊ฒฝ๋ง ์ถ์ ์ปจํธ๋กค๋ฌ(neural tracking controller)๋ฅผ ๊ฐ๋ฐํ๋ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ์ด ์ปจํธ๋กค๋ฌ๋ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋๋ก ์ ๊ตํ ๋ก๋ด ํธ๋๋ฅผ ์ ์ดํ์ฌ, ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ์ ์ด๋ํ์ ๊ถค์ (kinematic human-object interaction trajectories)์ ์ํด ์ ์๋ ๋ค์ํ ๋ชฉ์ ์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ ๊ตํ ์กฐ์์ ๋ณต์กํ ์ ์ด ์ญํ(intricate contact dynamics)๊ณผ ์ ์์ฑ(adaptivity), ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ(generalizability), ๊ฐ๊ฑด์ฑ(robustness)์ ํ์์ฑ ๋๋ฌธ์ ์ด๋ฌํ ์ปจํธ๋กค๋ฌ๋ฅผ ๊ฐ๋ฐํ๋ ๊ฒ์ ์ด๋ ต์ต๋๋ค.
๊ธฐ์กด์ ๊ฐํ ํ์ต(reinforcement learning, RL) ๋ฐ ๊ถค์ ์ต์ ํ(trajectory optimization, TO) ๋ฐฉ๋ฒ์ ํ์คํฌ๋ณ ๋ณด์(task-specific rewards)์ด๋ ์ ๋ฐํ ์์คํ ๋ชจ๋ธ์ ์์กดํ๊ธฐ ๋๋ฌธ์ ํ๊ณ๊ฐ ์์ต๋๋ค. DexTrack์ ์ธ๊ฐ ์ฐธ์กฐ์ ๋ก๋ด ์ก์ ์์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ์ ์ฑ๊ณต์ ์ธ ๋ก๋ด ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์ (robot tracking demonstrations)์ ํ๋ ์ด์ ํ์ฌ ์ ๊ฒฝ๋ง ์ปจํธ๋กค๋ฌ๋ฅผ ํ๋ จ์ํค๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ํ๋ผ์ดํ (data flywheel)์ ํ์ฉํ์ฌ ์ปจํธ๋กค๋ฌ์ ์ฑ๋ฅ๊ณผ ์ฑ๊ณต์ ์ธ ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ์ ๋ฐ ํ์ง์ ๋ฐ๋ณต์ ์ผ๋ก ํฅ์์ํต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
DexTrack์ ๋ก๋ด ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ผ๋ก๋ถํฐ ์ ๊ฒฝ๋ง ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ตํ๋ ๊ณผ์ ๊ณผ ๊ณ ํ์ง ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ์ฑ๊ตดํ๋ ๊ณผ์ ์ ๋ฒ๊ฐ์ ์ํํฉ๋๋ค.
- ์ ๊ฒฝ๋ง ์ถ์ ์ปจํธ๋กค๋ฌ ํ์ต:
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ: ์ธ๊ฐ์ ์-๊ฐ์ฒด ์กฐ์ ๊ถค์ ์ ๋ก๋ด์ ์ด๋ํ์ ํธ๋ ์ํ์ค๋ก ๋ฆฌํ๊ฒํ (retargeting)ํ์ฌ ์ฐธ์กฐ ๋ชจ์ ์ธํธ๋ฅผ ์์ฑํฉ๋๋ค.
- ๊ฐํ ํ์ต(RL)๊ณผ ๋ชจ๋ฐฉ ํ์ต(imitation learning, IL)์ ๊ฒฐํฉ: ์ผ๋ฐํ ๊ฐ๋ฅํ๊ณ ๊ฐ๊ฑดํ ์ปจํธ๋กค๋ฌ๋ฅผ ๊ฐ๋ฐํ๊ธฐ ์ํด ๋ ํ์ต ๋ฐฉ์์ ํตํฉํฉ๋๋ค.
- ์ ๊ฒฝ๋ง ์ถ์ ์ปจํธ๋กค๋ฌ(\pi): ๊ฐ ํ์์คํ n์์ ์ ์ฑ ์ ํ์ฌ ์ํ s_n๊ณผ ๋ค์ ๋ชฉํ ์ํ \hat{s}_{n+1}์ ๊ด์ธกํ๊ณ , ์ก์ ์ ๋ถํฌ๋ฅผ ๊ณ์ฐํฉ๋๋ค: a_n \sim \pi(\cdot|o_n, \hat{s}_{n+1}). ํจ๊ณผ์ ์ธ ์ปจํธ๋กค๋ฌ๋ ๊ฒฐ๊ณผ ํธ๋ ๋ฐ ๊ฐ์ฒด ์ํ๊ฐ ํด๋น ๋ค์ ๋ชฉํ ์ํ์ ๋ฐ์ ํ๊ฒ ์ผ์นํ๋๋ก ๋ณด์ฅํด์ผ ํฉ๋๋ค.
- ๊ฐํ ํ์ต:
- ๋ชฉํ๋ ํ ์ธ๋ ๋์ ๋ณด์(discounted cumulative reward) J = E_{p(\tau|\pi)}\left[\sum_{n=0}^{N-1}\gamma^n r_n\right]์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค. ์ฌ๊ธฐ์ r_n = r(s_n, a_n, \hat{s}_{n+1}, s_{n+1})์ ๋ณด์์ ๋๋ค.
- ๋ก๋ด ํธ๋๋ ๋น๋ก ๋ฏธ๋ถ(proportional derivative, PD) ์ปจํธ๋กค๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ด๋๋ฉฐ, ์ก์ a_n์ ๋ชจ๋ ํธ๋ ๊ด์ ์ ๋ํ ๋ชฉํ ์์น ๋ช ๋ น์ ํฌํจํฉ๋๋ค.
- ์ํ ํจ์จ์ฑ ํฅ์์ ์ํด ์์ฐจ ์ก์ ๊ณต๊ฐ(residual action space)์ ๋์ ํฉ๋๋ค. a_n = s_n^b + \sum_{k=0}^n \Delta a_k๋ก ๋ชฉํ ์์น๋ฅผ ๊ณ์ฐํ๋ฉฐ, s_n^b๋ ๋ฒ ์ด์ค๋ผ์ธ ํธ๋ ๊ถค์ ์ ๋๋ค.
- ๊ด์ธก(o_n)์ ํ์ฌ ํธ๋ ๋ฐ ๊ฐ์ฒด ์ํ, ๋ฒ ์ด์ค๋ผ์ธ ๊ถค์ , ์ก์
, ์๋, ๊ฐ์ฒด ํ์(
feat_{obj}
) ๋ฐ ๋ณด์กฐ ํน์ง(aux_n
)์ ํฌํจํฉ๋๋ค: o_n = \{s_n, \dot{s}_n, s_n^b, a_n, \text{feat}_{obj}, \text{aux}_n\}.feat_{obj}
๋ ์ฌ์ ํ๋ จ๋ PointNet ๊ธฐ๋ฐ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ธ์ฝ๋์์ ์์ฑ๋ฉ๋๋ค. - ์กฐ์ ์ถ์ ์ ์ํ ๋ณด์(r)์ ์ ํ๋ ํธ๋ ๋ฐ ๊ฐ์ฒด ์ํ๊ฐ ์ฐธ์กฐ ์ํ์ ์ผ์นํ๋๋ก ์ฅ๋ คํ๋ฉฐ ํธ๋-๊ฐ์ฒด ์นํ๋(hand-object affinity)๋ฅผ ์ด์งํฉ๋๋ค: r = w_{o,p}r_{o,p} + w_{o,q}r_{o,q} + w_{wrist}r_{wrist} + w_{finger}r_{finger} + w_{affinity}r_{affinity} ์ฌ๊ธฐ์ r_{o,p}, r_{o,q}, r_{wrist}, r_{finger}, r_{affinity}๋ ๊ฐ๊ฐ ๊ฐ์ฒด ์์น, ๊ฐ์ฒด ๋ฐฉํฅ, ํธ๋ ์๋ชฉ, ํธ๋ ์๊ฐ๋ฝ, ํธ๋-๊ฐ์ฒด ์นํ๋์ ๋ํ ๋ณด์์ ๋๋ค.
- ๋ชจ๋ฐฉ ํ์ต: RL์ ์ํ ๋นํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ฑ๊ณต์ ์ด๊ณ ํ๋ถํ๋ฉฐ ๋ค์ํ โ์ถ์ ์ง์โ์ ์ปจํธ๋กค๋ฌ์ ์ฆ๋ฅํฉ๋๋ค. ์ปจํธ๋กค๋ฌ๋ ๊ณ ํ์ง ๋ก๋ด ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ๋ชจ๋ฐฉํ๋๋ก ํ๋ จ๋ฉ๋๋ค. ์กํฐ ์์ค(actor loss) ์ธ์ ์ก์ ์ง๋ ์์ค(action supervision loss)์ ํตํฉํ์ฌ ์ ์ฑ ์์ธก์ด ์ ๋ฌธ๊ฐ ์ก์ (a_n^L)์ผ๋ก ํธํฅ๋๋๋ก ํฉ๋๋ค: L_a = E_{a_n \sim \pi(\cdot|o_n, \hat{s}_{n+1})}\Vert a_n - a_n^L \Vert ์ด๋ ํ์์ ์๋ดํ๊ณ ์๋ ด ์๋๋ฅผ ๋์ด๋ฉฐ ๋ณต์กํ ๋ฌธ์ ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์ ๊ฒฝ๋ง ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ฉํ ๊ณ ํ์ง ๋ก๋ด ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์
์ฑ๊ตด:
- ๋จ์ผ ๊ถค์ ์ถ์ (Single Trajectory Tracking): ๊ธฐ๋ณธ์ ์ผ๋ก RL์ ์ฌ์ฉํ์ฌ ๊ฐ๋ณ ๊ถค์ ์ถ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง๋ง, ์ด๋ ๋ค์ํ๊ณ ๊ณ ํ์ง์ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํ๊ธฐ ์ด๋ ต์ต๋๋ค.
- โ์ถ์ ์ฌ์ ์ง์(tracking prior)โ ์ ์ด: ์ด๋ฏธ ๋ง์ ๊ถค์ ์ ์ถ์ ํ ์ ์๋ ์ง์์ ์ธ์ฝ๋ฉํ ๋ฉ์ธ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ฉํ์ฌ ๋จ์ผ ๊ถค์ ์ถ์ ์ ์ฑ ์ ๊ฐ์ ํฉ๋๋ค. ์ฆ, ์ฐธ์กฐ ๊ถค์ ์ ์ถ์ ํ๋ ๋ฐ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ๋จผ์ ์ฌ์ฉํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ก ์ป์ ์ก์ ์ํ์ค๋ฅผ ๋ฒ ์ด์ค๋ผ์ธ ๊ถค์ ์ผ๋ก ์ค์ ํ์ฌ ์์ฐจ ์ ์ฑ ์ ๋ค์ ์ต์ ํํฉ๋๋ค.
- ํธ๋ชจํ ํผ ์ต์ ํ ์คํด(Homotopy Optimization Scheme): ์์ฒด ์ฑ๊ตด๋ ๋ฐ์ดํฐ์์ ๋ฐ์ํ ์ ์๋ ํธํฅ๊ณผ ๋ค์์ฑ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํธ๋ชจํ ํผ ์ต์ ํ ์คํด์ ์ ์ํฉ๋๋ค. ํ์คํฌ T_0๋ฅผ ์ง์ ํด๊ฒฐํ๋ ๋์ , ์ต์ ํ ๊ฒฝ๋ก (T_K, T_{K-1}, ..., T_0)์ ๊ฐ ํ์คํฌ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ํด๊ฒฐํฉ๋๋ค. ์ด๋ โ์ฌ๊ณ ์ ์ฌ์ฌ(chain-of-thought)โ๊ณผ ์ ์ฌํ๋ฉฐ, T_{m+1}์ ์ถ์ ๊ฒฐ๊ณผ๋ฅผ T_m์ ๋ฒ ์ด์ค๋ผ์ธ ๊ถค์ ์ผ๋ก ์ค์ ํ์ฌ ์ ์ดํฉ๋๋ค.
- ํจ๊ณผ์ ์ธ ํธ๋ชจํ ํผ ๊ฒฝ๋ก ์์ฑ๊ธฐ ํ์ต: ์ถ๋ก ์ค ํจ๊ณผ์ ์ธ ํธ๋ชจํ ํผ ๊ฒฝ๋ก๋ฅผ ํจ์จ์ ์ผ๋ก ์์ฑํ๊ธฐ ์ํด ์์ ๋ฐ์ดํฐ์ ์์ ํธ๋ชจํ ํผ ๊ฒฝ๋ก ์์ฑ๊ธฐ M์ ํ์ตํฉ๋๋ค. ์ด ๋ฌธ์ ๋ ์ถ์ ํ์คํฌ ๋ณํ ๋ฌธ์ ๋ก ์ฌ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ์ถ์ ํ์คํฌ T_0์ ๋ํด ํจ๊ณผ์ ์ธ โ๋ถ๋ชจ ํ์คํฌ(parent task)โ์ ๋ถํฌ M(\cdot|T_0)๋ฅผ ์ ๊ณตํ๋ ์์ฑ๊ธฐ๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ(conditional diffusion model)์ ์ฌ์ฉํ์ฌ T_p \sim M(\cdot|T_c)์ ๊ฐ์ด ํ์ตํฉ๋๋ค.
- ๋ฐ๋ณต์ ์ต์ ํ๋ฅผ ํตํ ์ถ์ ์ปจํธ๋กค๋ฌ ๊ฐ์ :
- 1๋จ๊ณ: ์๊ท๋ชจ์ ์ถ์ ํ์คํฌ ์ํ์ ํตํด ์ด๊ธฐ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ธํธ๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ฒซ ๋ฒ์งธ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ตํฉ๋๋ค.
- 2๋จ๊ณ: ์ปจํธ๋กค๋ฌ์ ์ถ์ ์ค๋ฅ์ ๋น๋กํ์ฌ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ ๋ง์ ๊ถค์ ์ ์ํ๋งํฉ๋๋ค. RL๊ณผ ์ถ์ ์ฌ์ ์ง์์ ํตํฉํ์ฌ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ์ฑ๊ตดํ๊ณ , ํธ๋ชจํ ํผ ๊ฒฝ๋ก๋ฅผ ๊ฒ์ํ์ฌ ํธ๋ชจํ ํผ ๊ฒฝ๋ก ์์ฑ๊ธฐ๋ฅผ ํ๋ จํฉ๋๋ค. ๊ฐ์ฅ ์ ์ถ์ ๋ ๊ถค์ ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ์๋ก์ด ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ธํธ๋ก ํ๋ ์ด์ ํ์ฌ ์ปจํธ๋กค๋ฌ๋ฅผ ์ฌํ๋ จํฉ๋๋ค.
- 3๋จ๊ณ: ๋จ์์๋ ๊ถค์ ๋ค๋ก๋ถํฐ ์ถ๊ฐ๋ก ์ํ๋งํ๊ณ , RL, ์ถ์ ์ปจํธ๋กค๋ฌ, ํธ๋ชจํ ํผ ์์ฑ๊ธฐ๋ฅผ ํ์ฉํ์ฌ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ํ๋ ์ด์ ํฉ๋๋ค. ์ด ์ต์ข ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ถ์ ์ปจํธ๋กค๋ฌ๋ฅผ ์ต์ข ์ต์ ํํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ: DexTrack์ Isaac Gym ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๊ณผ ์ค์ ์ธ๊ณ ๋ชจ๋์์ ๊ด๋ฒ์ํ ์คํ์ ํตํด ๊ทธ ์ฐ์์ฑ์ ์ ์ฆํ์ต๋๋ค. GRAB ๋ฐ TACO ๋ฐ์ดํฐ์ ์ ๋ณต์กํ ์กฐ์ ์ถ์ ํ์คํฌ์์ ๊ธฐ์กด์ ์ต์ฒจ๋จ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 10% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ณธ ๋ฐฉ๋ฒ์ ์์ ๊ฐ์ฒด, ๋ณต์กํ ์์ง์, ๋ฏธ๋ฌํ ํธ๋ ๋ด ์ฌ์ ๋ ฌ(in-hand re-orientations)์ ํฌํจํ ์๋ก์ด ์กฐ์์ ์ฑ๊ณต์ ์ผ๋ก ์ผ๋ฐํ๋๋ฉฐ, ์๋นํ ์ด๋ํ์ ๋ ธ์ด์ฆ(kinematic noise)์ ๋ํ ๊ฐ๊ฑด์ฑ์ ๋ณด์ ๋๋ค. Ablation Study๋ฅผ ํตํด ๋ฐ๋ชฌ์คํธ๋ ์ด์ ์ ํ์ง๊ณผ ์์ด ์ปจํธ๋กค๋ฌ ํ๋ จ์ ์ค์ํจ์ด ์ ์ฆ๋์์ต๋๋ค.
ํ๊ณ: ๊ณ ํ์ง ๋ฐ๋ชฌ์คํธ๋ ์ด์ ํ๋ณด ๊ณผ์ ์ด ์๊ฐ์ด ๋ง์ด ์์๋๋ค๋ ์ ์ด ์ฃผ์ ํ๊ณ๋ก ์ธ๊ธ๋ฉ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํ๋ จ ์๋๋ฅผ ๋์ด๊ธฐ ์ํ ๋ ๋น ๋ฅด๊ณ ๊ทผ์ฌ์ ์ธ ํธ๋ชจํ ํผ ์ต์ ํ ๋ฐฉ๋ฒ์ ํ์ํ ์ ์์ต๋๋ค.
Detail Review
DexTrack: ์ธ๊ฐ ์๋ฒ ๋์์ผ๋ก ํ์ตํ ๋ฒ์ฉ ๋ก๋ด ์ ์ถ์ ์ ์ด
1. ๊ธฐ์ ์ ๊ธฐ์ฌ ๋ฐ ํต์ฌ ์์ด๋์ด ๋ถ์
DexTrack์ ์ธ๊ฐ์ ์๋์ ์๋ฒ(kinematic reference)์ ๋ฐํ์ผ๋ก ๋ฒ์ฉ์ ์ธ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ก๋ด ์ ์ถ์ ์ ์ด๊ธฐ๋ฅผ ์ ์ํ ์ฐ๊ตฌ์ด๋ค. ์ด ์ ์ด๊ธฐ๋ ์ฃผ์ด์ง ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ ๊ถค์ (์ํ์ค)์ ๋ก๋ด ์์ผ๋ก ์ต๋ํ ์ ํํ ๋ฐ๋ผํ๊ฒ ํจ์ผ๋ก์จ ๋ค์ํ ๋ฌผ์ฒด ์กฐ์ ์์ ์ ์ํํ๋ค. DexTrack์ ํต์ฌ ์์ด๋์ด๋ ๊ณ ํ์ง ๋ก๋ด ์ถ์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์งยทํ์ฅํ๊ณ ์ด๋ฅผ ํตํด ์ ๊ฒฝ๋ง ์ ์ฑ ์ ํ์ต์ํค๋ ๋ฐ์ดํฐ ํ๋ผ์ดํ (data flywheel) ๋ฐฉ์์ ๋์ ํ ๊ฒ์ด๋ค. ์ฆ, ์ด๊ธฐ์๋ ์ธ๊ฐ ์๋ฒ์ ๋ก๋ด์ ์ด๋ ์ฐธ์กฐ๋ก ๋ฆฌํ๊ฒํ (retargeting)ํ์ฌ ์ป์ ์ฑ๊ณต์ ์ธ ์ถ์ ๋ฐ๋ชจ๋ค๋ก๋ถํฐ ๋ชจ๋ฐฉ ํ์ต์ ์์ํ๊ณ , ํ์ต๋ ์ ์ด๊ธฐ๋ฅผ ๋ค์ ์ฌ์ฉํด ๋ ์ด๋ ค์ด ์๋ก์ด ์๋ฒ๋ค์ ์ถ์ ํจ์ผ๋ก์จ ๋ ๋ง์ ๋ฐ๋ชจ๋ฅผ ์ฑ๊ตดํ๊ณ ์ฑ๋ฅ์ ๋์ด๋ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก DexTrack์ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค: ์ฐ์ ๋ค์์ ์ธ๊ฐ ์๋์-๋ฌผ์ฒด ์ํธ์์ฉ ๊ถค์ ์ ๋ก๋ด ์์ ๊ด์ ๊ณต๊ฐ์ผ๋ก ๋ฆฌํ๊ฒํ ํ์ฌ ๋ก๋ด ๊ธฐ์ค์ ์ด๋ ์ฐธ์กฐ ์ํ์ค๋ฅผ ๋ง๋ ๋ค. ๊ทธ๋ฐ ๋ค์, ์ ๊ฒฝ๋ง ์ถ์ ์ ์ด๊ธฐ๋ ๋งค ์๊ฐ๊ฐ ํ์ฌ ๋ก๋ด ์ ์ํ์ ํฅํ ๋ชฉํ ์ํ(์ฐธ์กฐ ๊ถค์ ์ ๋ค์ ๋จ๊ณ๋ค)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ก๋ด ์์ ์ก์ ๋ช ๋ น(๊ด์ ์์น ๋๋ ํ ๋ฑ)์ ์ถ๋ ฅํ๋ค. ์ด๋ ์์ฌ(residual) ์ก์ ํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, ์ฐธ์กฐ ๊ถค์ ์์ฒด๋ฅผ ๊ธฐ๋ณธ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ๋๊ณ ์ ๊ฒฝ๋ง์ด ํ์ํ ๋ณด์ ๋์๋ง ์ถ๋ ฅํ๋๋ก ํจ์ผ๋ก์จ ํ์ต ํจ์จ์ ๋์๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๋ ์๊ณผ ๋ก๋ด ์์ ํํ ์ฐจ์ด๋ก ์ธํ ์ค์ฐจ๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ์ ๊ฒฝ๋ง์ด ๋ณด์ ํ์ฌ ์ฐธ์กฐ ๊ฒฝ๋ก๋ฅผ ๊ฐ๊น๊ฒ ์ถ์ ํ ์ ์๋ค.
ํ์ต ๋ฐฉ์ ์ธก๋ฉด์์, DexTrack์ ๊ฐํํ์ต(RL)๊ณผ ๋ชจ๋ฐฉํ์ต(IL)์ ์ ๊ตํ๊ฒ ๊ฒฐํฉํ์ฌ ์ ์ด๊ธฐ๋ฅผ ํ๋ จ์ํจ๋ค. ๋จผ์ ์ธ๊ฐ ์๋ฒ์ผ๋ก๋ถํฐ ์ป์ ๋ก๋ด ์ถ์ ๋ฐ๋ชฌ์คํธ๋ ์ด์ (์ฐธ์กฐ ๊ถค์ + ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ฐ๋ผ๊ฐ ๋ก๋ด ์ก์ ์ํ์ค)์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋ชจ์ ๋ค, ์ด๋ฅผ ๋ชจ๋ฐฉ ํ์ตํ์ฌ ์ด๊ธฐ ์ ์ฑ ์ ์ป๋๋ค. ๋์์ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ด๊ธฐ ์ํด, ํ๊ฒฝ ์์์ ์ถ๊ฐ์ ์ธ RL ํ์ธํ๋์ ์ํํ๋๋ฐ, ์ด๋ ๋ณด์์ ์ฐธ์กฐ ๊ถค์ ๊ณผ ๋ก๋ด ์ํ์ ์ผ์น๋๋ฅผ ์ธก์ ํ๋ ํธ๋ํน ๋ณด์์ผ๋ก ์ค๊ณ๋๋ค. ์ด๋ฌํ IL๋ก ํ์ต๋ ์ด๊ธฐ ์ ์ฑ + RL๋ก ๊ฐํ๋ ์ ์ฑ ์ ๊ฒฐํฉ์, ๋ณต์กํ ์ ์ด ๋์์ด ๋ง์ dexterous manipulation ๋ฌธ์ ์์๋ ํ์ต ์ ์์ฑ๊ณผ ๊ฐ์ธ์ฑ์ ๋ชจ๋ ํ๋ณดํ๊ฒ ํ๋ค. ํนํ RL ์์ด ๋ชจ๋ฐฉํ์ต๋ง์ผ๋ก๋ ์๊ธฐ์น ๋ชปํ ์ํฉ์ ์ทจ์ฝํ ์ ์๋๋ฐ, DexTrack์ RL์ ํตํด ์ก์์ด๋ ์์ธ ์ํฉ์์๋ ๋ณต๊ตฌ ํ๋์ ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ ์ด ํน์ง์ด๋ค.
DexTrack์ ๋ ๋ค๋ฅธ ํต์ฌ ๊ธฐ๋ฒ์ ํธ๋ชจํ ํผ ์ต์ ํ(homotopy optimization)๋ฅผ ํ์ฉํ ๊ฐ๋ณ ๊ถค์ ์ถ์ ํฅ์์ด๋ค. ์ด๋ ์ด๋ ค์ด ํน์ ์๋ฒ ๊ถค์ ์ ํ ๋ฒ์ ํ์ตํ๊ธฐ ์ด๋ ค์ธ ๊ฒฝ์ฐ, ํ์ฌ ํ์ต๋ ์ถ์ ์ ์ด๊ธฐ๋ฅผ ์ด์ฉํด ํด๋น ๊ถค์ ์ ์ ์ง์ ์ผ๋ก ๋์ด๋๋ฅผ ๋ฎ์ถ๋ ์ผ๋ จ์ ์ค๊ฐ ์ฐธ์กฐ ๊ฒฝ๋ก๋ก ๋ถํดํ์ฌ ๋ฐ๋ผ๊ฐ ๋ณด๋ ์ ๊ทผ๋ฒ์ด๋ค. ์๋ฅผ ๋ค์ด ์ฒด์ธ-์ค๋ธ-์ํธ(chain-of-thought)์ ์ ์ฌํ๊ฒ, ๋ณต์กํ ๋ชฉํ ๋์์ ๋จ๊ณ๋ณ ๋จ์ํํ ์ฌ๋ฌ ์ฐธ์กฐ ๋จ๊ณ๋ค์ ๋ง๋ค์ด ์ฌ์ด ๊ฒ๋ถํฐ ์ด๋ ค์ด ๊ฒ ์์๋ก ์ถ์ ์ํํ๋ค. ๊ฐ ๋จ๊ณ์์๋ RL ๊ธฐ๋ฐ์ ๋จ์ผ ๊ถค์ ์ถ์ ์ต์ ํ๋ฅผ ์ํํ์ฌ ์ฑ๊ณต์ ์ธ ๋ก๋ด ์ก์ ์ํ์ค๋ฅผ ์ฐพ์๋ด๊ณ , ๋จ๊ณ๊ฐ ์งํ๋ ์๋ก ์๋์ ์ด๋ ค์ด ์ฐธ์กฐ์ ๊ฐ๊น์์ง๋๋ก ํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฒ์์๋ ์คํจํ๋ ๋ณต์กํ ์๋ฒ๋ ์ ์ง์ ์ธ ์ฑ๊ณต ์ฌ๋ก๋ค์ ํตํด ์ต์ข ์ ์ผ๋ก ์ฑ๊ณต์ ์ธ ์ถ์ ๋ฐ๋ชจ๋ฅผ ์ป์ด๋ผ ์ ์๋ค. ์ด ํธ๋ชจํ ํผ ๊ฒฝ๋ก ์์ฑ ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ํ๋ผ์ดํ ๊ณผ์ ์์ ๋ฐ๋ชจ ๋ค์์ฑ์ ๋์ด๊ณ ํ์ง์ ํฅ์์์ผ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ฐ์ํ ์ ์ด๊ธฐ๋ฅผ ์ป๋ ๋ฐ ํฌ๊ฒ ๊ธฐ์ฌํ๋ค.
์์ฝํ๋ฉด, DexTrack์ ์ฃผ์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- ๋ฒ์ฉ ์ ๊ฒฝ ์ถ์ ์ ์ด๊ธฐ๋ฅผ ์ ์ํ๊ณ ๋ฐ์ดํฐ ํ๋ผ์ดํ ์ ํตํด ์ํ์ฐฉ์ค์ ์ฑ๋ฅ ํฅ์์ ์คํํจ (๋ ๋ง์ ๋ฐ๋ชจ๋ฅผ ๋ชจ์์๋ก ์ฑ๋ฅ์ด ํฅ์).
- ๊ฐํํ์ต + ๋ชจ๋ฐฉํ์ต ํตํฉ ํ์ต๋ฒ์ผ๋ก ๋ค๋์ ๊ณ ํ์ง ๋ฐ๋ชจ์ ํ์ ๋น๋ฆฌ๋ฉด์๋ ์ ํ๊ฒฝ์์๋ ๊ฒฌ๊ณ ํ ์ ์ฑ ์ ํ์ตํจ.
- ํธ๋ชจํ ํผ ๊ธฐ๋ฐ ๊ฐ๋ณ ๊ถค์ ์ต์ ํ ์คํด์ ๊ฐ๋ฐํ์ฌ ์ด๋ ค์ด ์ถ์ ๋ฌธ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ํ์ด๋ด๊ณ ๋ฐ๋ชจ ํ์ง๊ณผ ๋ค์์ฑ์ ๋์ด๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์๋ฃจ์ ์ ์ ์ํจ.
์ด์ ๊ฐ์ด DexTrack์ ๋ณต์กํ ์ ์ด ์ญํ์ ๊ฐ์ง๋ ๋ค์ง ๋ก๋ด ์ ์กฐ์ ๋ฌธ์ ์ ๋ํด, ์ธ๊ฐ ์๋ฒ์ผ๋ก๋ถํฐ ๋ณดํธ์ ์ธ ์ถ์ข ๋ฅ๋ ฅ์ ํ์ต์ํค๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์๋ค.
2. ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ ๋ฐ ๊ด๋ จ ์ฐ๊ตฌ ๋น๊ต
DexTrack์ ๊ธฐ์กด์ ๊ฐํํ์ต(RL) ๋๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ต์ ํ ์ ๊ทผ๋ฒ๊ณผ ๊ตฌ๋ณ๋๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค. ๊ณผ๊ฑฐ OpenAI ๋ฑ์ ์ฐ๊ตฌ์์๋ ํน์ ๊ณผ์ ๋ณ ๋ณด์ ์ค๊ณ๋ฅผ ํตํด RL๋ก ๋ก๋ด ์ ๋์์ ํ์ต์ํค๊ฑฐ๋, ํน์ ์ ํํ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๊ณผ ์ ์ด ํ์ด๋ฐ์ ์์กดํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฒฝ๋ก ์ต์ ํ๋ฅผ ์ฌ์ฉํด ์๋ค. ๊ทธ๋ฌ๋ ์ ์๋ ๋งค ๊ณผ์ ๋ง๋ค ๋ณด์์ ์์ ์ค๊ณํด์ผ ํ๋ฏ๋ก ์ผ๋ฐํ๋ ํ๋์ ์ ์ฑ ์ผ๋ก ์ฌ๋ฌ ์์ ์ ์ํํ๊ธฐ ์ด๋ ค์ ๊ณ , ํ์๋ ์ ์ด์ด ๋ง์ ํ๊ฒฝ์์ ์ ํํ ๋ชจ๋ธ๋ง์ด ์ด๋ ค์ ์๋ก์ด ๋ฌผ์ฒด๋ ๊ธฐ์ ์ ์ ์์ฑ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์๋ค. ์ธ๊ฐ ์์ฐ ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต ์ ๊ทผ๋ ์ผ๋ถ ์๋๋์์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ก์ ์๋ ์ด์์ ์ธ ๊ถค์ ๋ง์ ๋์์ผ๋ก ํ๊ฑฐ๋ ๊ฐ๋จํ ํ์ง(grasp)๋ ๊ฒฝ๋ก ์ถ์ข ๋ฑ์ ๊ตญํ๋์ด, ์ฌ์ธํ ์๋์์ด ํ์ํ ์ธํธ๋ ์กฐ์๊น์ง ๋ค๋ฃจ์ง ๋ชปํ๋ค. ์๋ฅผ ๋ค์ด OmniGrasp (2024)๋ผ๋ ์ ํ ์ฐ๊ตฌ์์๋ ๋ฒ์ฉ ์ ์ฑ ์ ํ์ตํ๊ธด ํ์ง๋ง, ๋ฌผ์ฒด ์ง๊ธฐ์ ๋จ์ ์ด๋ ์ ๋์ ์ ํ์ ์ธ ๋ชจ์ ๋ง ๊ณ ๋ คํ์ฌ ์ฌ์ ํ ๋ณต์กํ ์๋๋ฆผ์ด ์๊ตฌ๋๋ ์์ ์ ๋ค๋ฃจ์ง ์์๋ค. ์ด์ ๋ฐํด DexTrack์ ํจ์ฌ ๋ณต์กํ ๋์ (์์ ๋๊ตฌ ๋ค๋ฃจ๊ธฐ, ์ฐ์์ ์ธ ์ ์์์์ ์ฌ๋ฐฐ์น ๋ฑ)๊น์ง ํฌํจํ์ฌ ๋ณด๋ค ํ๋ถํ ๊ธฐ์ ์ต๋์ ๋ชฉํ๋ก ํ๋ค.
๋ํ DexTrack์ ์ธ๊ฐ ๋์ ๋ชจ๋ฐฉ์ ํ์ฉํ๋ค๋ ์ ์์ ๊ด๋ จ ์ฐ๊ตฌ๋ค๊ณผ ๋งฅ๋ฝ์ ๊ฐ์ดํ์ง๋ง, ๋ฐ์ดํฐ ์์ง๊ณผ ํ์ฉ ๋ฉด์์ ๋ ์ฐฝ์ฑ์ ๋ณด์ธ๋ค. ์ผ๋ถ ์ฐ๊ตฌ๋ค์ ๋ชจ๋ฐฉ ํ์ต์ RL์ ์ถ๊ฐ๋ก ํ์ฉํ์ฌ ์ํ ํจ์จ์ ๋์ด๋ ๋ฐ๋ชจ ๊ฐํ RL ๊ธฐ๋ฒ๋ค์ ์ ์ํ ๋ฐ ์๋ค. ํ์ง๋ง ์ด๋ค ์ฐ๊ตฌ์์๋ ๋ฐ๋ชฌ์คํธ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ์ด๋ฏธ ์ฃผ์ด์ ธ ์๋ค๋ ๊ฐ์ ์ ํ๋ฉฐ, ์ธ๊ฐ์ด๋ ํ ๋ ์ต์ผ๋ก ์ป์ ๋ฐ๋ชจ๋ฅผ ๊ทธ๋๋ก ํ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๋ฐ๋ฉด DexTrack์ ๊ณ ํ์ง ๋ฐ๋ชจ๋ฅผ ์ง์ ๋ง๋ค์ด๋ด๋ ๋ฃจํ๋ฅผ ํตํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๋ ์ ์์ ์ฐจ๋ณํ๋๋ค. ์ฆ, ์ถ์ ์ ์ด๊ธฐ ์์ฒด๊ฐ ๋ฐ๋ชจ ์์ฑ์ ๋์ฐ๋ฉด์ ์ฑ๋ฅ์ ๋์ด๋ ๋ถํธ์คํธ๋ํ์ ๊ตฌํํ์ฌ, ์๋ฒ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํ์๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ํ๋ผ์ดํ ๊ธฐ๋ฒ์ ์ต๊ทผ ๊ฑฐ๋ ๋ชจ๋ธ ํ์ต์์ ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ์ฑ๋ฅ์ ์ข์ฐํ๋ค๋ ํต์ฐฐ์ ์ฐฉ์ํ ๊ฒ์ผ๋ก์, ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ด๋ฅผ ์ ์ฉํด ํ์ต์ฉ ๋ฐ์ดํฐ์ ์ ์ฑ ์ ํจ๊ป ํฅ์์ํจ ์ฌ๋ก๋ผ ํ ์ ์๋ค.
Human demonstration ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ๋ค๋ฅธ ์์ ๋ค๊ณผ ๋น๊ตํ๋ฉด, DexTrack์ ๊ณ ์ฐจ์ ๋ชจ์ ์ถ์ข ์ ์ด์ ์ ๋ง์ถ ์ ์ด ๋๋ณด์ธ๋ค. ์๋ฅผ ๋ค์ด, DGrasp (Christen et al., 2022) ๋ฑ์ ๊ธฐ๋ฒ์ ๋น๊ต์ ๋จ์ํ ์ฐ์ ํ์ง ๋์์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋๋ ํธ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ง๋ง, ํ๋์ ๊ธด ๋ณต์ก ๋์์ ๋๊น์ง ์ถ์ ํ๋ ๋ฒ์ฉ ์ ์ฑ ์ ์๋์๋ค. DexTrack์ ํ๋์ ์ ๊ฒฝ๋ง์ด ์ฌ๋ฌ ์์ ์ข ๋ฅ์ ๋์ํ๋ฉด์๋ ์ธ๋ฐํ ์๊ฐ๋ฝ ์์ง์๊น์ง ์ ํํ ๋ชจ์ฌํ๋๋ก ํ๋ จ๋์๊ณ , ์ด๋ฅผ ํตํด ์ด์ ๊ธฐ๋ฒ๋ค์ด ์คํจํ๊ฑฐ๋ ์๋ํ์ง ์์ ์ฌ์ธํ ์กฐ์ ์๋๋ฆฌ์ค๋ค์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ค. ํนํ, ์์ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๊ฑฐ๋ ๋ฌผ์ฒด๋ฅผ ์ ์์์ ์์ ๋กญ๊ฒ ๋๋ฆฌ๋ ๋์, ๋๊ตฌ๋ฅผ ํ์ฉํ ๋ณตํฉ ์์ง์ ๋ฑ์ ์์ด์ DexTrack์ ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(PPO ๋ฑ)์ด ์ผ๋ฐํ์ ์คํจํ๋ ๊ฒฝ์ฐ์๋ ์์ ์ ์ผ๋ก ๋์ํจ์ ๋ณด์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก DexTrack์ ๊ธฐ์กด ๋ฐฉ์ ๋๋น ์ฝ 10% ์ด์์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ฉฐ, ๋ฒ์ฉ์ฑ๊ณผ ์ ์์ฑ ์ธก๋ฉด์์ ํ ์ํ-of-the-art๋ฅผ ํ ๋จ๊ณ ์ง๋ณด์ํจ ๊ฒ์ผ๋ก ํ๊ฐ๋๋ค.
์์ฝํ๋ฉด, DexTrack์ (a) ๊ณผ์ ๋ณ ์ค๊ณ๋ ์ ํํ ๋ชจ๋ธ ์์ด๋ ๋ค์ํ ์์ ์ ํตํ๋ ๋ฒ์ฉ ์ ์ด๊ธฐ๋ฅผ ์ ์ํ๊ณ , (b) ์ธ๊ฐ ์๋ฒ ํ์ฉ ์ฐ๊ตฌ๋ค ๊ฐ์ด๋ฐ์๋ ๋ ์ด๋ ค์ด ์์ ๊ณผ ๋ ธ์ด์ฆ์ ๊ฐํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ๋ณด์๋ค๋ ์ ์์ ๋ ์ฐฝ์ ์ด๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ด ์ฌ๋์ ๋ณต์กํ ์๋์๊น์ง ํ์ตํ์ฌ ๋ชจ๋ฐฉํ๋ ๊ธธ์ ํฌ๊ฒ ํ์ฅํ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค.
3. ์ค์ ์์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ์
DexTrack์์ ์ ์ํ ์ ์ด๊ธฐ๋ ์๋ฎฌ๋ ์ด์ ๋ฟ๋ง ์๋๋ผ ์ค์ ๋ก๋ด ์์๋ ๊ฒ์ฆ๋์ด ๊ทธ ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค. ์ฐ๊ตฌ์ง์ ์๋ฎฌ๋ ์ดํฐ(Isaac Gym) ์์์ ํ์ตํ ์ ์ฑ ์ ์ค์ 4์ง ๋ก๋ด ์(LEAP Hand)์ ์ด์ํ์ฌ ์ฌ๋ฌ ๊ฐ์ง ์ผ์ ๋ฌผ์ฒด ์กฐ์ ์คํ์ ์งํํ์๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋ ์ ์๋ฒ์ผ๋ก ๊ธฐ๋กํ ๋ฌผ์ฒด ์ฌ์ฉ ๋์(๋ง์น์ง, ์นผ๋ก ์๋ฅด๊ธฐ, ๋น๋ ์ก๊ธฐ ๋ฑ)์ ๋ก๋ด ์์ด ์ค์ ๋ก ๋ฐ๋ผํ๋๋ก ํ ๊ฒฐ๊ณผ, ์ฌ์ ์ ๋ณด์ง ๋ชปํ ์ ๋ฌผ์ฒด๋ ์ผ์ ์ก์์ด ์กด์ฌํด๋ ์๋นํ ์์ ์ ์ธ ์กฐ์์ด ๊ฐ๋ฅํจ์ ํ์ธํ๋ค. ์ฌ๊ณผ ๋ค์ด์ฌ๋ฆฌ๊ธฐ์ ๊ฐ์ด ๋ฅ๊ทผ ๋ฌผ์ฒด๋ฅผ ์ฅ๊ธฐ ์ด๋ ค์ด ์ํฉ์์๋ DexTrack ์ ์ด๊ธฐ๋ ๋๊น์ง ๋ฌผ์ฒด๋ฅผ ํ์งํ๊ณ ๋ค์ด์ฌ๋ฆฌ๋ ๋ฐ ์ฑ๊ณตํ ๋ฐ๋ฉด, ๊ธฐ์กด PPO ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ์์ ๋จ๊ณ๋ถํฐ ๋ฌผ์ฒด๋ฅผ ๋์น๋ ๋ฑ ์คํจํ์๋ค. ์ด๋ฌํ ์ค์ ์คํ์ ํตํด DexTrack์ ์ ์ฑ ์ด ์๋ฎฌ๋ ์ด์ -์ค์ธ๊ณ ๊ฐ ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ์ด๋ ์ ๋ ๊ทน๋ณตํ๊ณ ํ์ค ํ๊ฒฝ์ ๋ง์ฐฐยท๋์ญํ์์๋ ๋์ํจ์ ๋ณด์ฌ์ฃผ์๋ค. ๋์๊ฐ ํน์ํ ํ๋์ด๋ ์ถ๊ฐ ํ์ต ์์ด๋ ์ธ๊ฐ ์๋ฒ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ์ ์ฑ ์ ํ์ค์ ๋ฐ๋ก ํฌ์ ํด ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ค๋ ์ ์์, ํฅํ ๋ฒ์ฉ ๋ก๋ด ์กฐ์๊ธฐ๋ก์์ ์ ์ฌ๋ ฅ์ ์์ฌํ๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , DexTrack์๋ ๊ทน๋ณตํด์ผ ํ ํ๊ณ์ ์ด๋ ์ถ๊ฐ๋ก ๊ณ ๋ คํด์ผ ํ ๋ถ๋ถ๋ ์กด์ฌํ๋ค. ์ฒซ์งธ๋ก, ๊ณ ํ์ง ๋ฐ๋ชจ ์์ง ๊ณผ์ ์ ๋น์ฉ ๋ฌธ์ ๊ฐ ์๋ค. ๋ ผ๋ฌธ์์๋ ํ๊ณ๋ก ์ง์ ํ๋ฏ์ด, DexTrack์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ค๋ฉด ๋ค์ํ ์์ ์ ๋ํ ์ฑ๊ณต ์ฌ๋ก ๋ฐ์ดํฐ๊ฐ ๋ง์ด ํ์ํ๋ฐ, ์ด๋ฅผ ์ป๊ธฐ ์ํด ํธ๋ชจํ ํผ ์ต์ ํ๋ฅผ ํฌํจํ ๋ณต์กํ ์ ์ฐจ๋ฅผ ๊ฑฐ์ณ์ผ ํ๋ฏ๋ก ํ์ต์ ๋ง์ ์๊ฐ๊ณผ ๊ณ์ฐ ์์์ด ์์๋๋ค. ์์ฒ ๊ฐ ์ด์์ ์ํ์ค๋ฅผ ๋ณ๋ ฌ ํ๊ฒฝ(8192๊ฐ ์๋ฎฌ๋ ์ดํฐ)์์ ๋๋ ค๊ฐ๋ฉฐ ์ ์ฑ ์ ํ์ตํ๊ณ ๋ ๋ฐ๋ชจ๋ฅผ ์ถ๊ฐ ์์งํ๋ ์์ด์ด์, ํ๋ จ ํ์ดํ๋ผ์ธ์ด ๋ฌด๊ฒ๊ณ ๋น์ค์ฉ์ ์ผ ์ ์๋ค. ๋์งธ๋ก, ์ผ๋ถ ํ๊ณ ์ํฉ์์์ ์ฑ๋ฅ ์ ํ๊ฐ ๊ด์ฐฐ๋์๋ค. DexTrack ์ ์ด๊ธฐ๊ฐ ํ๋ จ ์ ๊ฒฝํํด๋ณด์ง ๋ชปํ ์์ ํ ์๋ก์ด ๋ฒ์ฃผ์ ๋ฌผ์ฒด ์ค ํนํ ํ์์ด ๋งค์ฐ ์๊ฑฐ๋ ํน์ดํ ๊ฒฝ์ฐ, ํด๋น ๋ฌผ์ฒด์ ๋ํ ํ์ง๊ฐ ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์์ ์ถ์ ์ ์คํจํ ์ ์๋ค. ์์ปจ๋ ํ๋ จ ๋ฐ์ดํฐ์ ์๋ ๊ทน๋จ์ ์ผ๋ก ์์ ๋๊ตฌ๋ฅผ ๋ค๋ค์ผ ํ๋ ๊ฒฝ์ฐ, ์ ์ด๊ธฐ๊ฐ ์ฌ๋ฐ๋ฅธ ํ ์กฐ์ ๊ณผ ์ ์ด ์์น๋ฅผ ์ฐพ์ง ๋ชปํด ์ฌ๋ ์๋ฒ ๋์์ ๋๊น์ง ์ฌํํ์ง ๋ชปํ๋ค. ์ด๋ ๋ชจ๋ธ์ ์ผ๋ฐํ ํ๊ณ๋ฅผ ๋๋ฌ๋ด๋ ๋ถ๋ถ์ผ๋ก, ์๋ก์ด ๋ฌผ์ฒด ๋ฌผ์ฑ์ด๋ ๋ง์ฐฐ๊ณ์๋ฅผ ๋ง๋ฌ์ ๋์ ๋์์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ์์ญ์ด๋ค.
๋ ๋ค๋ฅธ ํ์ค์ ๊ณ ๋ ค์ฌํญ์ผ๋ก๋, DexTrack์ด ๊ณ ์ ๋ ์ฐธ์กฐ ๊ถค์ ์ ์ถ์ข ํ๋ ๋ฐฉ์์ด๋ผ๋ ์ ์ด๋ค. ์ค์ ์์ฉ์์ ๋ก๋ด์ด ์์ ๋์ค ์ฐธ์กฐ ๋์์ ๋ณ๊ฒฝ์ด๋ ์๊ธฐ์น ์์ ์ฌ๊ฑด์ ์ง๋ฉดํ๋ฉด, ํ์ฌ์ DexTrack ์ ์ฑ ์ ๊ทธ ์ํฉ์ ๊ทน๋ณตํ๋๋ก ์ค๊ณ๋์ง ์์๋ค. ๋ฌผ๋ก ์ฐธ์กฐ ์์ฒด์ ํฐ ์ก์์ด๋ ๋นํ์ค์ ์ธ ๋์์ด ์์ด๋ ์ ์ฑ ์ด ์์์ ๋ณด์ ํด์ฃผ๋ ๊ฒฌ๊ณ ์ฑ์ ๊ฐ์ง๊ณ ์์ง๋ง, ์๋ฌด ๋ชฉํ ์์ฒด๋ฅผ ์ฌ์ค์ ํ๋ ๋ฅ๋์ ์ธ ์ง๋ฅ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ์๋ค. ๋ฐ๋ผ์ ์ฅ๊ธฐ์ ์ผ๋ก๋ ์ด๋ฌํ ๊ณ ์์ค ์์ฌ๊ฒฐ์ ๊ณผ ๊ฒฐํฉ๋์ด์ผ ๊ฐ์ ๋ ์ฐธ์กฐ ์์ด๋ ๋์ํ ์ ์์ ๊ฒ์ด๋ค. ๋ง์ง๋ง์ผ๋ก, ์ค์ธ๊ณ ์ ์ฉ์ ์ํด์๋ ์ ํํ ์ํ์ถ์ ์ด ํ์์ธ๋ฐ, ๋ ผ๋ฌธ์์๋ ๋ฌผ์ฒด ํฌ์ฆ ์ถ์ ์ ์ํด ํน์ ๋น์ ๋ชจ๋(FoundationPose)์ ์ฌ์ฉํ๊ณ ์๋ค. ๋ง์ผ ๊ฐ์ฒด ์ธ์์ด๋ ์ถ์ ์ ์ค๋ฅ๊ฐ ์๊ธฐ๋ฉด ์ ์ด ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ผ๋ฏ๋ก, ์ผ์ ์ ๋ขฐ๋์ ๋ํ ์์กด์ฑ๋ ๊ณ ๋ คํด์ผ ํ๋ค.
์ ๋ฆฌํ๋ฉด, DexTrack์ ํ์ค์ ์ธ ๋ก๋ด ์ ํ์ฉ์ ํ ๊ฑธ์ ๋ค๊ฐ์ ์ ๋งํ ๋ฐฉ์์ด์ง๋ง, ๋๋ ํ์ต ๋ฐ์ดํฐ ํ๋ณด ๋น์ฉ, ํ๋ จ ๋ฒ์๋ฅผ ๋ฒ์ด๋ ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ํ๊ณ, ์ค์๊ฐ ์ ์์ฑ ๋ถ์กฑ, ์ผ์ ์์กด์ฑ ๋ฑ์ ์ธก๋ฉด์์ ์์ผ๋ก ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค. ์ ์๋ค๋ ํฅํ ํธ๋ชจํ ํผ ์ต์ ํ ๊ณผ์ ์ ๊ฐ์ํํ๊ฑฐ๋ ๋ ํจ์จ์ ์ธ ๋ฐ๋ชจ ํ๋ณด ๋ฐฉ์์ ์ฐ๊ตฌํ์ฌ ํ๋ จ ์๋๋ฅผ ๋์ด๋ ๊ฒ์ด ๊ณผ์ ๋ก ๋จ์ ์๋ค๊ณ ๋ฐํ๊ณ ์๋ค.
4. ๊ตฌ์กฐํ๋ ์์ฝ ๋ฐ ์ฃผ์ ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ ๊ฐ์: DexTrack์ ๋ณต์กํ ๋ค์ง ๋ก๋ด ์ ์กฐ์ ๋ฌธ์ ์ ๋ํด, ์ธ๊ฐ ์๋ฒ ๊ฒฝ๋ก๋ฅผ ์ถ์ ํ๋ ๋ฒ์ฉ ์ ์ฑ ์ ํ์ต์ํค๋ ์ ๊ทผ๋ฒ์ด๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์์ ๋ง๋ค ๋ฐ๋ก ํ๋ จํ์ง ์๊ณ ๋ ๋ค์ํ ๋ฌผ์ฒด ์กฐ์ ๊ธฐ์ ์ ํ๋์ ์ ๊ฒฝ๋ง ์ ์ด๊ธฐ๋ก ์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ํต์ฌ ์์ด๋์ด๋ ๋๋์ ๋ก๋ด ์ถ์ ๋ฐ๋ชจ(์ธ๊ฐ ์ฐธ์กฐ + ์ฑ๊ณต ์ก์ ์ํ์ค)๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ํ๋ณดํ์ฌ, ๊ฐํํ์ต๊ณผ ๋ชจ๋ฐฉํ์ต์ ๊ฒฐํฉํด ์ ์ด๊ธฐ๋ฅผ ํฅ์์ํค๋ ๊ฒ์ด๋ค. ๋ํ ์ด๋ ค์ด ๊ฐ๋ณ ์๋ฒ์ ํธ๋ชจํ ํผ ๊ฒฝ๋ก๋ก ๋จ๊ณ์ ํด๊ฒฐํ์ฌ ๋ฐ๋ชจ์ ๋ค์์ฑ์ ๋์๋ค.
๊ธฐ์ ๊ตฌ์ฑ: DexTrack ์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ์ด๋ค์ง๋ค:
- ๋ฐ์ดํฐ ์ค๋น: ์ธ๊ฐ ์๋ฒ ๋ชจ์ ๋ฆฌํ๊ฒํ โ GRAB, TACO ๋ฑ ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ ๋ฐ์ดํฐ์ ์ ์๋์์ ๋ก๋ด ์๋ชจ๋ธ(์๋ฎฌ๋ ์ดํฐ ์ Allegro Hand)์ ๋ง๊ฒ ๋ณํํ์ฌ ๋ก๋ด ์ฐธ์กฐ ๊ถค์ ์งํฉ์ ์์ฑ. ์์ปจ๋ ์ปต์ ์ก๊ณ ๋ฐ๋ฅด๋ ์ฌ๋ ์ ์์ง์ โ ๋ก๋ด ์ ๊ด์ ๊ฐ๋ ์ฐธ์กฐ ์ํ์ค.
- ์ด๊ธฐ ๋ฐ๋ชจ ์์ง: ์ฐธ์กฐ ๊ถค์ ์ผ๋ถ๋ฅผ ๊ฐ๋ณ ๊ฐํํ์ต์ผ๋ก ์ต์ ์ถ์ข ํด๋ด์ผ๋ก์จ ์ฑ๊ณต ์ฌ๋ก(tracking demonstration)๋ฅผ ๋ชจ์๋ค. ์ด๋ ์์ฌ ์ ์ฑ (residual policy) ๊ธฐ๋ฒ์ผ๋ก ์ฐธ์กฐ ๋๋น ๋ณด์ ๋์๋ง ํ์ตํ์ฌ ํจ์จ์ ๋์ธ๋ค.
- ์ ์ฑ ํ์ต(RL+IL): ๋ชจ์ธ ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ฐฉํ์ต(Behavior Cloning)ํ์ฌ ์ถ์ ์ ์ฑ ์ ํ์ตํ๊ณ , ์ถ๊ฐ๋ก ์ถ์ ๋ณด์ ๊ธฐ๋ฐ RL(PPO)๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ ธ์ด์ฆ๋ ์๋ก์ด ์ํฉ์๋ ๊ฒฌ๋ ์ ์๊ฒ ๋ง๋ ๋ค. ๊ด์ธก ์ํ์๋ ํ์ฌ ๋ก๋ด ์/๋ฌผ์ฒด ์ํ, ์ฐธ์กฐ ๊ถค์ (์์ผ๋ก์ ๋ชฉํ ์์ธ), ์ด์ ์ก์ ๋ฑ์ด ํฌํจ๋๋ค.
- ํธ๋ชจํ ํผ ์ต์ ํ: ํ ์ ์ฑ ์ผ๋ก ์ถ์ ์ ์คํจํ๋ ์ด๋ ค์ด ์ฐธ์กฐ์ ๋ํด, ํด๋น ๊ถค์ ์ ๋จ๊ณ๋ณ ๋ ์ฌ์ด ์ฐธ์กฐ๋ค๋ก ๋ถํดํ์ฌ ๊ฐ ๋จ๊ณ๋ฅผ RL๋ก ํด๊ฒฐํจ์ผ๋ก์จ ์ต์ข ์ฑ๊ณต ๋ฐ๋ชจ๋ฅผ ์ป๋๋ค. ์ด๋ ๊ฒ ์ ๋ฐ๋ชจ๋ฅผ ๋ฐ์ดํฐ์ ์ ์ถ๊ฐํ์ฌ ๋ค์ ์ ์ฑ ์ ํ์ต์ํค๋ ๋ฃจํ๋ฅผ ๋ฐ๋ณตํ๋ค.
์คํ ์ค์ : ์ ์๋ค์ ๋ ๊ฐ์ง ๊ณต๊ฐ ๋ฐ์ดํฐ์ (GRAB: ์ผ์ ๋์ 1269๊ฐ ์ํ์ค, TACO: ๋๊ตฌ ์ฌ์ฉ ๋์ 2316๊ฐ ์ํ์ค)์ ํ์ฉํ์ฌ DexTrack์ ํ๋ จํ๊ณ ํ๊ฐํ๋ค. ํ๋ จ์ Isaac Gym ์๋ฎฌ๋ ์ดํฐ ์์์ 8192๋ณ๋ ฌ ํ๊ฒฝ์ผ๋ก ์งํ๋์๊ณ , Allegro ๋ก๋ด ์(4์๊ฐ๋ฝ, 16์์ ๋)์ ์ฌ์ฉํ๋ค. ํ๊ฐ๋ ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ฏธ๋ณดseen ๊ถค์ ์ ๋ํ ์ถ์ ์ฑ๊ณต๋ฅ ๋ก ์ธก์ ๋๋ฉฐ, ์ถ๊ฐ๋ก ์ค์ ๋ก๋ด ์(LEAP Hand)์ผ๋ก ํ์ค ์คํ๋ ์ํ๋์๋ค. ๋ฒค์น๋งํฌ๋ก๋ ์ธ ๊ฐ์ง ๋น๊ต ๋ฐฉ๋ฒ์ด ์ค์ ๋์๋ค: (1) DGrasp โ ๊ธฐ์กด ๋ชจ๋ฐฉ+์ต์ ํ ๊ธฐ๋ฒ์ ์ถ์ ๋ฌธ์ ๋ก ๋ณํ, (2) PPO (OmniGrasp reward) โ OmniGrasp ๋ ผ๋ฌธ์ ๋ณด์ํจ์๋ก PPO ํ์ต, (3) PPO (tracking reward) โ DexTrack์ด ์ ์ํ ๋์ผ ํ๊ฒฝ์์ ๋ณด์๋ง ๊ฐ์ง๊ณ PPO ํ์ตํ ์์ RL. ์ฑ๋ฅ ์งํ๋ก๋ ๋ฌผ์ฒด์ ํ์ /์ด๋ ์ค์ฐจ, ์๋ชฉ ์์ธ ์ค์ฐจ, ์๊ฐ๋ฝ ๊ด์ ์ค์ฐจ์ ํ๊ท ๊ณผ, ์ต์ข ์ ์ผ๋ก ์ฑ๊ณต๋ฅ (์ค์ฐจ๊ฐ ์๊ณ๊ฐ ์ดํ์ผ ๋ ์ฑ๊ณต) ๋ฑ์ด ์ฌ์ฉ๋์๋ค. ์ฑ๊ณต ๊ธฐ์ค์ ์ค์ฐจ ์๊ณ๊ฐ์ ์๊ฒฉํ๊ฒ(strict) ํน์ ์ํํ์ฌ(lenient) ๋ ์ข ๋ฅ๋ก ์ฐ์ ๋์๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ: DexTrack์ ๋ชจ๋ ๊ธฐ์ค์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์์๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ถ์ ์ ํ๋ ์งํ(๋ฌผ์ฒด ์์ธ ์ค์ฐจ ๋ฑ)์์ DexTrack์ด ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ธฐ๋กํ๊ณ , ๋ฌด์๋ณด๋ค ์์ ์ฑ๊ณต๋ฅ ์์ ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋ํ๋๋ค. ์๋ ํ๋ DexTrack๊ณผ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ ๊ธฐ์กด ๊ธฐ๋ฒ(PPO ๊ธฐ๋ฐ RL)์ ์ฑ๊ณต๋ฅ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค:
๋ฐ์ดํฐ์ | ๊ธฐ์กด PPO ๊ธฐ๋ฒ | DexTrack (์ ์) |
---|---|---|
GRAB (์ผ์ ๋์) | 38.58% / 54.82% | 46.70% / 65.48% |
TACO (๋๊ตฌ ์ฌ์ฉ) | 34.98% / 57.64% | 48.77% / 74.38% |
์ฐธ๊ณ : Strict์ ๋ ์๊ฒฉํ ์ฑ๊ณต ๊ธฐ์ค, Lenient๋ ๋ค์ ์ํ๋ ๊ธฐ์ค์ด๋ฉฐ, DexTrack์ ๋ ๊ฒฝ์ฐ ๋ชจ๋์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
DexTrack์ ํ๊ท ์ ์ผ๋ก 10%p ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ, ํนํ ๋ณต์กํ ๋์์ผ์๋ก ๊ฒฉ์ฐจ๊ฐ ๋์ฑ ์ปค์ก๋ค. ์๋ฅผ ๋ค์ด, ์๋ฐ๋ฅ์์ ๋ฌผ์ฒด๋ฅผ ์ฌ๋ฐฐ์นํ๋ ์ธ๋ฐํ ๋์์ด๋ ์์ ๋ฌผ์ฒด ์ก์ ํ๋ค๊ธฐ ๋ฑ์ ๊ณผ์ ์์ DexTrack์ ์ฐธ์กฐ ๊ฒฝ๋ก๋ฅผ ๊ฑฐ์ ์๋ฒฝํ๊ฒ ๋ฐ๋ผ๊ฐ ๋ฐ๋ฉด, ๊ธฐ์กด PPO ๊ธฐ๋ฐ ์ ์ฑ ์ ์ด๋ฐ ํ์ง๋ถํฐ ์คํจํ๋ ๋ชจ์ต์ ๋ณด์๋ค. ์ด๋ DexTrack์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ ์ด ๋ค๋ฃจ๋ ์ฌ์ธํจ์ด ๊ธฐ์กด ๋๋น ํฌ๊ฒ ํฅ์๋์์์ ์์ฌํ๋ค. ๋์ฑ์ด ์ก์์ด ํฐ ๋นํ์ค์ ์ฐธ์กฐ์ ๋ํ ์คํ์์๋, DexTrack ์ ์ฑ ์ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ํต๊ณผํ๋ ๋ฑ ๋ชจ์๋ ์ ๋ ฅ์ด ์ฃผ์ด์ ธ๋ ์ํฉ์ ๋ง๊ฒ ์์ธ๋ฅผ ์กฐ์ ํ๋ฉฐ ๋๊น์ง ๋์์ ์ํํ์ฌ ๊ฐ์ธํจ์ ๋ณด์ฌ์ฃผ์๋ค.
์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ: ์๋ฎฌ๋ ์ด์ ์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ DexTrack ์ ์ฑ ์ ํ์ค ํ๊ฒฝ์๋ ์ง์ ์ ์ฉ๋์๋ค. ์ฐ๊ตฌ์ง์ ํ์ต๋ ์ ์ด๊ธฐ๋ฅผ ๋ณ๋ ๋๋ฉ์ธ ์ ์ ์์ด ๋ฌผ์ฒด ์ธ์ ์์คํ (์นด๋ฉ๋ผ ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ )๊ณผ ์ฐ๋ํ์ฌ ์ค์ ๋ก๋ด ์+ํ๋ก ์คํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฌ๊ณผ ๋ค์ด์ฌ๋ฆฌ๊ธฐ, ๋ง์น์ง, ๋ฌผ์ฒด ๊ฑด๋ค์ฃผ๊ธฐ ๋ฑ 10์ฌ ๊ฐ์ง ์ค์ ์๋๋ฆฌ์ค์์ ๋๋ถ๋ถ ์ฑ๊ณต์ ์ธ ์กฐ์์ ์ํํด ๋ณด์๋ค. ์ ๋์ ์ผ๋ก ๋ดค์ ๋๋ ํ์ค ์ฑ๊ณต๋ฅ ์ DexTrack์ด ๊ธฐ์กด ๋๋น ์๋ฑํ ๋์๋๋ฐ, ์๋ฅผ ๋ค์ด ์ฌ๊ณผ ์ง์ด๋ค๊ธฐ์ ๊ฒฝ์ฐ ์๊ฒฉํ ๊ธฐ์ค์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ์ฑ๊ณต๋ฅ 0% vs DexTrack 25%, ๋ง์น ์ฅ๊ณ ์ฌ์ฉํ๊ธฐ 0% vs 50% ๋ฑ ๋ชจ๋ ๊ฐ์ฒด์ ๋ํด ์ฐ์๋ฅผ ๋ณด์๋ค. ์ด๋ฌํ ์คํ์ DexTrack์ ์ ๊ทผ๋ฒ์ด ์๋ฎฌ๋ ์ด์ ์ ๊ตญํ๋์ง ์๊ณ ์ค์ ๋ก๋ด์์๋ ํตํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๋ฉฐ, ๋ฒ์ฉ ๋ก๋ด ์ ๊ธฐ์ ์ ์ค์ฉํ ๊ฐ๋ฅ์ฑ์ ๋์ฌ์ค๋ค. ๋ค๋ง ํ์ค ์คํ์์๋ ์ํ ์ถ์ ์ค์ฐจ, ๋ง์ฐฐ ๊ณ์ ์ฐจ์ด ๋ฑ์ผ๋ก ์ธํด ์ฑ๊ณต๋ฅ ์ด ์๋ฎฌ๋ ์ด์ ๋งํผ ๋๊ฒ ๋์ค์ง ์์ ์ฌ๋ก๋ ์์๋ค. ๊ทธ๋ผ์๋ DexTrack์ ์ต๊ณ ์ฑ๋ฅ ๊ธฐ์ค์ผ๋ก ์ค์ธ๊ณ์์๋ ๊ธฐ์กด ๋๋น ๋๋ ทํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์คฌ์ผ๋ฉฐ, ์ด๋ ๊ณง ๋ณธ ๊ธฐ๋ฒ์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๊ตฌํ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๋ ๊ฒฐ๊ณผ์ด๋ค.
์์ฝ ๋ฐ ํ๊ฐ: DexTrack ๋ ผ๋ฌธ์ ์ธ๊ฐ ์๋ฒ ํ์ต์ ํตํ ๋ฒ์ฉ ๋ก๋ด ์กฐ์์ ์คํ์ ์์ด ์ค์ํ ์ง์ ์ ์ด๋ฃจ์๋ค. ๊ธฐ์ ์ ์ผ๋ก ๋ฐ์ดํฐ ์ฃผ๋ ์ ๊ทผ๊ณผ ํ์ต ๊ธฐ๋ฒ์ ์กฐํฉ์ผ๋ก ๋์ ๋ฅผ ํ์๊ณ , ์คํ์ ์ผ๋ก๋ ๋ค์ํ ๋ณต์ก ์์ ์์ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณต๋ฅ ๊ฐ์ ์ ์ ์ฆํ๋ค. ํนํ ๋ฐ์ดํฐ ํ๋ผ์ดํ ์ ํตํ ์ ์ง์ ํ์ต ํฅ์, ํธ๋ชจํ ํผ ์ต์ ํ๋ก ๋์ด๋ ์ํ, RL+IL ๋ณํ์ผ๋ก ๊ฐ์ธ์ฑ ํ๋ณด ๋ฑ์ ์์ด๋์ด๋ ๊ด๋ จ ์ฐ๊ตฌ ๋๋น ๋๋ ทํ ํ์ ํฌ์ธํธ๋ก ํ๊ฐ๋๋ค. ์ค์ ๋ก๋ด ์ ์ฉ ๊ฒฐ๊ณผ๋ ์ด ๋ฐฉ๋ฒ์ ์ค์ฉ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋์์ ๋ฐ์ดํฐ ํ๋ณด ๋น์ฉ ๋ฑ์ ํ์ค์ ์ธ ํ๊ณ๋ ๋๋ฌ๋๋ค. ์ ๋ฐ์ ์ผ๋ก DexTrack์ ํ๊ณ๊ฐ ๋ถ๋ช ํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋์ด, ๋ฒ์ฉ์ ์ธ ๋ก๋ด ์ ์ ์ด๊ธฐ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์๋ค. ํฅํ ๋ฐ๋ชจ ํ๋ณด ํจ์จํ, ์๋ก์ด ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ๋ํ ์ผ๋ฐํ ์ถ๊ฐ ๊ฐ์ ๋ฑ์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด, ์ธ๊ฐ์ ๋ฅ์ํ ์๋์์ ๋ก๋ด์ด ํ์ตํ์ฌ ๋ค์ํ ์์ ์ ์ํํ๋ ๋น์ ์ด ํ์ธต ๊ฐ๊น์์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.