๐DexCtrl ๋ฆฌ๋ทฐ
- ๐ค Dexterous manipulation์ sim-to-real transfer ๋ฌธ์ ๋ ์ ์์ค controller dynamic ๋ถ์ผ์น๋ก ์ธํด ๋ฐ์ํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ manual tuning์ด๋ randomization์ ์์กดํ์ต๋๋ค.
- ๐ง ๋ณธ ๋ ผ๋ฌธ์ historical information์ ํ์ฉํ์ฌ action๊ณผ controller parameters๋ฅผ ๋์์ ํ์ตํ๋ adaptive controller ํ์ต ํ๋ ์์ํฌ์ธ DexCtrl์ ์ ์ํฉ๋๋ค.
- ๐ DexCtrl์ ์คํ ์ค ์๋์ผ๋ก control parameters๋ฅผ ์กฐ์ ํ์ฌ sim-to-real gap์ ํฌ๊ฒ ์ค์ด๊ณ contact-rich dexterous task์์ ์ฐ์ํ real-world ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.

1 Brief Review
DexCtrl์ ์๋ฎฌ๋ ์ด์ (sim)์์ ํ๋ จ๋ ๋ก๋ด ์ ์ด ์ ์ฑ ์ ์ค์ (real) ํ๊ฒฝ์ผ๋ก ์ด์ ํ ๋ ๋ฐ์ํ๋ ๋์ , ํนํ ์ ์์ค(low-level) ์ ์ด๊ธฐ ๋์ญํ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋ ์ฐ๊ตฌ์ ๋๋ค. ๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์๋ค์ ์๋ ํ๋(manual tuning)์ด๋ ์ ์ด๊ธฐ ๋ฌด์์ํ(controller randomization)์ ์์กดํ๋๋ฐ, ์ด๋ ๋ ธ๋ ์ง์ฝ์ ์ด๊ณ ํน์ ์์ ์๋ง ์ ํจํ๋ฉฐ ํ์ต ๋์ด๋๋ฅผ ๋์ด๋ ๋จ์ ์ด ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋์(action)๊ณผ ์ ์ด ๋งค๊ฐ๋ณ์(controller parameter)๋ฅผ ๋์์ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ์ธ DexCtrl์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฌธ์ ์๋ณ:
์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ -์ค์ ๋ถ์ผ์น(sim-to-real gap)์ ์ค์ํ ์์ธ ์ค ํ๋๋ก ๋ก๋ด ์ ์ด๊ธฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ง๋ชฉํฉ๋๋ค. ๋์ผํ ๊ถค์ (trajectory)์ด๋ผ๋ ์ ์ด ๋งค๊ฐ๋ณ์๊ฐ ๋ค๋ฅด๋ฉด ์ค์ ์ ์ด๋ ฅ(contact force)๊ณผ ๋์์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ์์ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ๊ณ ์ ํ๊ฑฐ๋ ํ๋ จ ์ ๋ฌด์์ํํ์ฌ robustness๋ฅผ ๋์ด๋ ค ํ์ง๋ง, ์ด๋ ์ค์ง์ ์ธ ๋ฌธ์ ํด๊ฒฐ์ ํ๊ณ๊ฐ ์์์ต๋๋ค.
DexCtrl์ ๋ฐฉ๋ฒ๋ก :
DexCtrl์ ๊ณผ๊ฑฐ์ ๊ถค์ ์ ๋ณด์ ์ ์ด๊ธฐ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋์๊ณผ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ๋์์ ์์ธกํ๊ณ ์ ์์ ์ผ๋ก ์กฐ์ ํ๋ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ ์ฑ ์ด ์คํ ์ค์ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ์๋์ผ๋ก ํ๋ํ์ฌ ์๋ฎฌ๋ ์ด์ -์ค์ ๊ฐ๊ทน์ ์ํํ๊ณ , ์ ์ด๋ ฅ ์ํธ์์ฉ์ ๋ํ ์ถ๋ก ์ ๊ฐ์ ํ์ฌ ์ค์ ์๋๋ฆฌ์ค์์ ๋ก๋ฒ์คํธ๋์ค๋ฅผ ํฅ์์ํต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ธ๋ถ ์ฌํญ:
- ๋ฐ์ดํฐ ์์ง์ ์ํ Oracle Policy:
- DexCtrl์ ๋จผ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ค์ํ ๋ฌผ์ฒด ๋ฌผ๋ฆฌ ๋งค๊ฐ๋ณ์(object physical parameters)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋ โ์ค๋ผํด ์ ์ฑ (oracle policy)โ์ผ๋ก๋ถํฐ ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.
- ์ค๋ผํด ์ ์ฑ ์ ๋ชจ๋ธ-ํ๋ฆฌ(model-free) ๊ฐํ ํ์ต(Reinforcement Learning) ๊ธฐ๋ฒ์ธ PPO(Proximal Policy Optimization)๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค.
- ๊ฐ ์๊ฐ ๋จ๊ณ t์์ ์ค๋ผํด ์ ์ฑ \pi(a_t, K_t | s_t)๋ ํ์ฌ ์ํ s_t๋ฅผ ์ ๋ ฅ๋ฐ์ ์กฐ์ธํธ ๋์(joint action) a_t์ ์ ์ด ๋งค๊ฐ๋ณ์ K_t๋ฅผ ๋์์ ์ถ๋ ฅํฉ๋๋ค. ์ฌ๊ธฐ์ a_t๋ t ์์ ์ ์กฐ์ธํธ ์์น ๋ณํ๋์ ๋ํ๋ด๋ฉฐ, ์ํ๋ ์กฐ์ธํธ ๊ถค์ ์ ์ด์ desired joint position์ a_t๋ฅผ ๋ํ์ฌ q^d_t = q^d_{t-1} + a_t๋ก ์ป์ด์ง๋๋ค. desired joint velocity๋ 0์ผ๋ก ์ค์ ๋ฉ๋๋ค.
- ๋ก๋ด ์ ์ด๋ ์กฐ์ธํธ ํ ํฌ ์ ์ด(joint torque control) ๋ฐฉ์์ ๋ฐ๋ฅด๋ฉฐ, ํ ํฌ \tau๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \tau = K_P (q_d - q_c) + K_D (\dot{q}_d - \dot{q}_c) ์ฌ๊ธฐ์ q_d์ q_c๋ ๊ฐ๊ฐ ์ํ๋(desired) ์กฐ์ธํธ ์์น์ ํ์ฌ(current) ์กฐ์ธํธ ์์น๋ฅผ ๋ํ๋ด๋ฉฐ, \dot{q}_d์ \dot{q}_c๋ ๊ฐ๊ฐ ์ํ๋ ์กฐ์ธํธ ์๋์ ํ์ฌ ์กฐ์ธํธ ์๋๋ฅผ ๋ํ๋ ๋๋ค. K_P์ K_D๋ ๊ฐ์ฑ(stiffness) ๋ฐ ๊ฐ์ (damping) ํ๋ ฌ์ ๋ํ๋ด๋ ์ ์ด ๋งค๊ฐ๋ณ์์ด๋ฉฐ, ๊ฐ๋จํจ์ ์ํด ๋๊ฐ ํ๋ ฌ(diagonal matrices)๋ก ๊ฐ์ ํฉ๋๋ค. K = \{K_P, K_D\}๋ ์ ์ฒด ์ ์ด ๋งค๊ฐ๋ณ์ ์งํฉ์ ๋๋ค.
- ์ํ(State) ๊ตฌ์ฑ: ์ํ s_t \in \mathbb{R}^{219}๋ ์ง๋ ์ธ ๋จ๊ณ์ ๋ฌผ์ฒด ๋ฐ ๋ก๋ด ๊ด์ธก ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค.
- ๋ก๋ด ์ ๋ณด s^r_t \in \mathbb{R}^{64}: ํ์ฌ ์กฐ์ธํธ ์์น q^c_t, ์ํ๋ ์กฐ์ธํธ ์์น q^d_t, ์ ์ด ๋งค๊ฐ๋ณ์ K_t.
- ๋ฌผ์ฒด ์ ๋ณด s^{obj}_t \in \mathbb{R}^9: ๋ฌผ์ฒด ์์ธ(pose) p^{obj}_t \in \mathbb{R}^6, ๋ฌผ์ฒด ์์ฑ ๋ฒกํฐ \mu \in \mathbb{R}^3 (์ค์ผ์ผ, ์ง๋, ๋ง์ฐฐ). s_t \triangleq (s^r_{t-2:t}, s^{obj}_{t-2:t}) s^r_t \triangleq (q^c_t, q^d_t, K_t) s^{obj}_t \triangleq (p^{obj}_t, \mu)
- ๋ณด์(Reward) ํจ์: ๋ณด์ r_t๋ ์ฃผ๋ก ๋ค ๊ฐ์ง ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: r_t = r_{rotation} + r_{contact} + r_{smoothness} + r_{terminate}
- ๋์ ์์ธก ๋ฐ ์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก ๋ชจ๋:
- ์ค๋ผํด ์ ์ฑ ์ด ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ, DexCtrl์ ํ์ ์ ์ฑ (student policy)์ ๋ ๊ฐ์ ๋ถ๋ฆฌ๋ ๋ชจ๋๋ก ํ๋ จํฉ๋๋ค: ๋์ ์์ธก ๋ชจ๋(Action Prediction Module)๊ณผ ์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก ๋ชจ๋(Control Parameters Prediction Module). ์ด๋ ๊ฐ ๋ชจ๋์ด ํ์คํฌ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ธก๋ฉด์ ์ธ์ฝ๋ฉํ๋ฉฐ, ์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก์ด ๋์ ์์ธก์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ก ํ๊ธฐ ์ํจ์ ๋๋ค.
- Historical Information ์ฌ์ฉ: ์ค๋ผํด ์ ์ฑ ์ ์ค์ ํ๊ฒฝ์์ ์ง์ ์ ๊ทผํ๊ธฐ ์ด๋ ค์ด ๋ฌผ์ฒด ์์ฑ ๊ฐ์ ์์ ์ ๋ณด(primitive information)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DexCtrl์ ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ(proprioception) ์ด๋ ฅ ์ํ(last ten steps์ ํ์ฌ ๋ฐ ์ํ๋ ์กฐ์ธํธ ๊ถค์ , ํด๋น ์ ์ด ๋งค๊ฐ๋ณ์)๋ฅผ ํ์ ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- ๋ชจ๋ ์ค๊ณ:
- ๋์ ์์ธก ๋ชจ๋: temporal historical input์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์กฐ์ธํธ ๊ถค์ ๋ณํ์ ๊ฒฝํฅ(trend)์ ํ์ ํฉ๋๋ค.
- ์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก ๋ชจ๋: cross-attention์ ์ฌ์ฉํ๋ฉฐ, ํ์ฌ ๋์(current action)์ด ์ฟผ๋ฆฌ(query) ์ญํ ์ ํ๊ณ historical input๊ฐ ํค(key)์ ๊ฐ(value) ์ญํ ์ ํฉ๋๋ค. ์ด๋ ํ์ฌ ์กฐ์ธํธ ๋์๊ณผ ์ด๋ ฅ ์ ๋ณด ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๋ก ํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค.
- ํ๋ จ ๋ฐ ์ถ๋ก :
- ํ๋ จ: ๋ ๋ชจ๋์ ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) ๋ฐฉ์์ผ๋ก ํ๋ จ๋ฉ๋๋ค. ์ฆ, ๋ชจ๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ ์์ง๋ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์์ ์ง์ ๊ฐ์ ธ์ต๋๋ค.
- ์ถ๋ก : ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ํ์ ๋ฃจํ(closed-loop) ๋ฐฉ์์ผ๋ก ์ํ๋ฉ๋๋ค. ์ฆ, ํ์ฌ ๊ถค์ ๊ฐ์ ์ค์ ๋ก๋ด ์ผ์๋ก๋ถํฐ ์ป์ด์ง๋๋ค.
- ์๋ฎฌ๋ ์ด์ ์์ ์ค์ ์์คํ ์ผ๋ก ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ์ ํ์ ์ผ๋ก ๋งคํํ๋ฉฐ, ์ด๋ ๋๋ต์ ์ธ ์ํ ๋ฐ ํํ ์ถ์ ์น๋ง์ผ๋ก๋ ์ถฉ๋ถํฉ๋๋ค.
- ํ์ ์ ์ฑ ํ๋ จ ์ค ํ์ฌ ๊ถค์ ๊ฐ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(Gaussian noise)๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์๋ฎฌ๋ ์ด์ -์ค์ ์ ์ด(sim-to-real transfer)์ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ: ๋ ๊ฐ์ง ์ ์ด ๊ธฐ๋ฐ์ ๋ณต์กํ ์กฐ์ ์์ (in-hand object rotation, flipping)์์ DexCtrl์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ ํฅ์:
- ๊ต๋(disturbance) ์ ๋ฌด์ ๊ด๊ณ์์ด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ DexCtrl์ ๊ธฐ์กด์ โManual Tuningโ ๋ฐ โOurs w/o PDโ (์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก ๋ชจ๋์ด ์๋ ๋ฒ์ ) ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, ํ์ ์๋(RotR) ๋ฐ ์คํจ๊น์ง์ ์๊ฐ(TTF)์ด ํฌ๊ฒ ํฅ์๋์๊ณ , ํ ํฌ ํจ๋ํฐ(Torque) ๋ฐ ๋ฌผ์ฒด ์ ํ ์๋(ObjVel)๋ ๊ฐ์ํ์ต๋๋ค.
- ์ด๋ DexCtrl์ด ์ ์ด๊ธฐ ๋ถ์ผ์น๊ฐ ์๋ ์ํฉ์์๋ ๋์๊ณผ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ๋์์ ์กฐ์ ํจ์ผ๋ก์จ ์์ ํ๋ก์ธ์ค๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ ํํ๊ณ ๊ฐ์ํํ ์ ์์์ ์ ์ฆํฉ๋๋ค.
- Sim-to-Real Gap ์ํ:
- ์ค์ ํ๊ฒฝ์์ DexCtrl์ ์ ๋ก์ท(zero-shot) ์๋ฎฌ๋ ์ด์ -์ค์ ์ ์ด๋ฅผ ํตํด ๋ฒ ์ด์ค๋ผ์ธ๋ค์ ์๋์ ์ผ๋ก ๋ฅ๊ฐํ์ต๋๋ค. ํนํ, ์๋ฎฌ๋ ์ด์ ์์๋ณด๋ค ์ค์ ํ๊ฒฝ์์ DexCtrl๊ณผ โOurs w/o PDโ ๊ฐ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ํจ์ฌ ๋ ํฌ๊ฒ ๋ํ๋ฌ์ต๋๋ค.
- ์ด ๊ฒฐ๊ณผ๋ ์ค์ ๋ก๋ด์์ ๋งค ๋จ๊ณ๋ง๋ค ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ์ ์์ ์ผ๋ก ์กฐ์ ํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, DexCtrl์ด ์๋ฎฌ๋ ์ด์ -์ค์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํจ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ค์ํ ๋ฌผ๋ฆฌ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด์ ๋ํ ์ฑ๋ฅ:
- ์ง๋(mass)๊ณผ ๋ง์ฐฐ(friction)์ด ๋ค๋ฅธ ๋ฌผ์ฒด์ ๋ํ ์ถ๊ฐ ํ ์คํธ์์ DexCtrl์ ํนํ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์์ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ DexCtrl์ด ๋ค์ํ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ๊ฐ์ง ๋ฌผ์ฒด์ ๋ ์ ์ ์ํ ์ ์์์ ๋ํ๋ ๋๋ค.
- ์ ์ด ๋งค๊ฐ๋ณ์(ํนํ ๊ฐ์ฑ)์ ์ํฅ ๋ถ์:
- ํ์ต๋ ๊ฐ์ฑ(K_P)์ด ๋ฌผ์ฒด ์ง๋ ๋ฐ ๋ง์ฐฐ๊ณผ ์ด๋ป๊ฒ ๊ด๋ จ๋๋์ง ๋ถ์ํ์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ ๋ถ์ ๊ฒฐ๊ณผ, ๊ฐ์ฑ์ ์ง๋๊ณผ ๋จ์กฐ ์ฆ๊ฐ(monotonically increasing) ๊ด๊ณ๋ฅผ ๋ณด์์ต๋๋ค (๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ ๋ ํฐ ํ ํ์).
- ๋ง์ฐฐ๊ณผ์ ๊ด๊ณ๋ ๋ ๋ฏธ๋ฌํ์ฌ, ํน์ ๊ฒฝ์ฐ์๋ ์ฆ๊ฐํ๊ณ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๊ฐ์ํ๋ ๋ฑ ์์ ์์กด์ ์ธ ๋์ญํ์ ๋ํ๋์ต๋๋ค.
- ์ค์ ํ๊ฒฝ ๋ถ์์์๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ ๋ํด ๊ฐ์ฑ์ด ํน์ ์๊ฐ ๋จ๊ณ์์ ์ฆ๊ฐํ๊ฑฐ๋ ์ต๋ ๊ฐ์ผ๋ก ๋ ์ค๋ ์ ์ง๋๋ ๊ฒฝํฅ์, ๋ถ๋๋ฌ์ด(smoother) ๋ฌผ์ฒด์ ๋ํด์๋ ์ผ๋ถ ์กฐ์ธํธ์์ ์ ์ฌํ ํจํด์, ๋ค๋ฅธ ์กฐ์ธํธ์์๋ ์๋ฐ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค.
- ์ด๋ ํ์ต๋ ์ ์ด ๋งค๊ฐ๋ณ์๊ฐ ํ์ํ ์ ์ด๋ ฅ์ ๋ณํ๋ฅผ ์ธ์ฝ๋ฉํ๋ฉฐ, ๋ฌผ์ฒด ์กฐ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋ค๋ ๊ฐ์ค์ ๊ฒ์ฆํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํ๊ณ:
- DexCtrl์ ์ด๋ ฅ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋์๊ณผ ์ ์ด ๋งค๊ฐ๋ณ์๋ฅผ ๋์์ ์ถ๋ ฅํ์ฌ ๋ฏผ์ฒฉํ ์กฐ์(dexterous manipulation)์ ์๋ฎฌ๋ ์ด์ -์ค์ ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ์ค์์ต๋๋ค.
- ํฅํ ์ฐ๊ตฌ์์๋ ์ฌ๋ฌ ๋ฏผ์ฒฉํ ์์ ์ด ๋จ์ผ ์ ์ด ๋งค๊ฐ๋ณ์ ์์ธก ๋ชจ๋์ ๊ณต์ ํ๊ฑฐ๋, ํ๋์จ์ด ์ง์ ์ ์ค์๊ฐ ํ ํผ๋๋ฐฑ(force feedback) ๊ธฐ๋ฐ์ ์จ๋ผ์ธ ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์ํํ ๊ณํ์ ๋๋ค.
- ํ์ฌ ๋ฐฉ๋ฒ์ ํ๊ณ๋ ํ๋์จ์ด ์ ์ฝ์ผ๋ก ์ธํด ์ค์ ํ ๋๋ ์ด๊ฐ ์ผ์(tactile sensing)๋ฅผ ํตํฉํ์ง ๋ชปํ๊ณ , LeapHand ํ๋ซํผ์ ํ์ ๋ ์ค์ ํ๊ฒฝ ํ๊ฐ์ ์์ต๋๋ค.
2 Detail Review
3 ๊ฐ์
๋ก๋ด์ ์ฌ์ธํ ์กฐ์(dexterous manipulation) ๊ธฐ์ ์ ์ต๊ทผ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํฐ ์ง์ ์ ๋ณด์์ง๋ง, ์ด๋ฅผ ์ค์ ๋ก๋ด์ ์ฎ๊ธธ ๋ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ์ ์ฐจ์ด(sim-to-real gap)๋ก ์ธํด ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ ๋ฌธ์ ๊ฐ ๋จ์ ์์ต๋๋ค. ํนํ ์ ์์ค ์ ์ด๊ธฐ(dynamics controller)์ ์ฐจ์ด๊ฐ ํ ์์ธ์ธ๋ฐ, ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๋ก๋ด์์ PD ์ ์ด๊ธฐ(๋น๋ก-๋ฏธ๋ถ ์ ์ด) ํ๋ผ๋ฏธํฐ๊ฐ ๋ถ์ผ์นํ๋ฉด ๋์ผํ ๋ชจ์ ์ด๋ผ๋ ์ ์ด ์ ํ์ ์ํธ์์ฉ์ด ํฌ๊ฒ ๋ฌ๋ผ์ ธ ์์ ๋ฐ์ ๊ฑฐ๋์ ์ด๋ํฉ๋๋ค. ๊ธฐ์กด์๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ๋์ด ์ง์ PD ๊ฒ์ธ์ ์กฐ์ (์๋ ํ๋)ํ๊ฑฐ๋ ํ์ต ์ ๋ฌด์์ํ(domain randomization)๋ฅผ ํตํด ๋ค์ํ ์ ์ด ๋ํน์ฑ์ ์ ์ฑ ์ ๋ ธ์ถ์ํค๋ ๋ฐฉ๋ฒ์ด ํํ์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ ๊ทผ์ ์์ ๋ณ๋ก ๋ฒ๊ฑฐ๋ก์ด ํ๋์ด ํ์ํ๊ณ , ์ง๋์น ๋๋คํ๋ ํ์ต ๋์ด๋๋ฅผ ๋์ฌ๋ ์ฑ๋ฅ ํฅ์์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ํํธ, DexPilot๊ณผ ๊ฐ์ ์๊ฒฉ ์กฐ์(teleoperation) ๊ธฐ๋ฒ์ ์๋ จ๋ ์ธ๊ฐ ์กฐ์ข ์ฌ๊ฐ ๋ก๋ด ์์ ์ง์ ์ ์ดํจ์ผ๋ก์จ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ด๋ ์ด๋๊น์ง๋ ์ฌ๋์ ๊ฐ์ ์ ์์กดํ๋ฏ๋ก ์์จ์ ์ธ ํด๊ฒฐ์ฑ ์ด๋ผ ๋ณด๊ธฐ ์ด๋ ต์ต๋๋ค.
DexCtrl์ ์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ์ ์๋ ์๋ก์ด ํ๋ ์์ํฌ๋ก, ์ ์ํ ์ ์ด๊ธฐ ํ์ต(adaptive controller learning)์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ํ์ค ์ธ๊ณ์ ๋ก๋ด ์์ ํจ๊ณผ์ ์ผ๋ก ์ด์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์ ์ฑ ์ด ๋งค ์๊ฐ ํ๋(action)๊ณผ ์ ์ด ํ๋ผ๋ฏธํฐ(controller parameters)๋ฅผ ๋์์ ๊ฒฐ์ ํ์ฌ, ์คํ ์ค์ ์ค์๊ฐ์ผ๋ก ๋ก๋ด์ PD ์ ์ด ๊ฒ์ธ์ ์๋ ์กฐ์ ํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ๊ด์ธก ์ํ์ ํ์ฌ ์ฌ์ฉ ์ค์ธ ์ ์ด ํ๋ผ๋ฏธํฐ ๊ฐ์ ๋ช ์์ ์ผ๋ก ํฌํจ์์ผ ์ ์ฑ ์ด ์ ์ด ๊ณผ์ ์ ํ ์ ๋ณด๋ฅผ ์ถ๋ก ํ๊ฒ ํจ์ผ๋ก์จ, ์ถ๊ฐ์ ์ธ ์ผ์ ์์ด๋ ํ์ค์์์ ๊ฒฌ๊ณ ํจ์ ๋์์ต๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ํตํด ๋ณ๋์ ์ธ๊ฐ ๊ฐ์ ์ด๋ ๊ณผ๋ํ ๋๋คํ ์์ด๋ ์๋ฎฌ๋ ์ดํฐ-ํ์ค ๊ฐ ๋์ ํธ์ฐจ๋ฅผ ์ค์ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ์ฐ๊ตฌ์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: (1) ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๋ก๋ด ์ ์ด๊ธฐ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ dexterous manipulation ๋ถ์ผ์ ํต์ฌ sim-to-real ๊ฐญ์ผ๋ก ์ง๋ชฉํ๊ณ , ์ด๋ฅผ ์ ์์ ์ผ๋ก ๋ณด์ ํ๋ ๋ฐฉ๋ฒ์ ์ฒ์์ผ๋ก ์ ์ํ์์ผ๋ฉฐ, (2) ๊ณผ๊ฑฐ ์ด๋ ฅ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ ์ด ํ๋๊ณผ ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ๋์์ ์ฐ์ถํ๋ ๋จ์ํ๊ณ ์ฐ์ํ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ์ฌ ๋ค์ํ ํ ์ํธ์์ฉ ๋ณํ์ ๋์ํ ์ ์๊ฒ ํ์๊ณ , (3) ์ ์ด์ด ๋ง์ ๋ ๊ฐ์ง ์์ ์ ๋ํ ๊ด๋ฒ์ํ ์คํ์ ํตํด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ชจ๋์์ ๋ณธ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ์ ๋์ ์ผ๋ก ์ ์ฆํ์์ต๋๋ค. ์๋์์๋ DexCtrl์ ๋ฐฉ๋ฒ๋ก , ๋ ๊ฐ์ง baseline ์ ๊ทผ๋ฒ๊ณผ์ ๋น๊ต, ์คํ ๊ฒฐ๊ณผ ๋ฐ ๊ฒฐ๋ก ์ ์ฐจ๋ก๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
3.1 ๋ฐฉ๋ฒ๋ก
๋ฌธ์ ์ ์ ๋ฐ ์์ โ DexCtrl์ ๋ค์์ ๋ ๋ก๋ด ์์ ํ์ต๋ ์ ์ฑ ์ ํ์ค๋ก ์ด์ ํ ๋ ๋ฐ์ํ๋ ์ ์ด๊ธฐ ๊ฐญ(controller gap) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ๊ฒ์ฆ์ ์ํด ๋ ๊ฐ์ง ๋ํ ์์ ์ ๋ค๋ฃน๋๋ค. ์ฒซ์งธ๋ ์๊ฐ๋ฝ ๋์ผ๋ก ์๋ฐ๋ฅ ์์ ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ํ์ ์ํค๋ ์์ ์ด๊ณ , ๋์งธ๋ ์ฑ ์ ์์ ๋์ธ ๋ฌผ์ฒด๋ฅผ ์ง์ด ๋ค์ด ๋ค์ง๋ ์์ ์ ๋๋ค. ๋ชจ๋ ๋ฌผ์ฒด-์-ํ๊ฒฝ ๊ฐ์ ๋ณต์กํ ์ ์ด์ ํฌํจํ๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๊ฐ ์ ์ด ํ๋ผ๋ฏธํฐ ์ฐจ์ด๊ฐ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ฃผ๋ ๊ณผ์ ๋ค์ ๋๋ค. ๋ก๋ด ์์ 16์์ ๋์ UC Berkeley LEAP Hand๋ฅผ ์ฌ์ฉํ๊ณ , ๊ด์ ํ ํฌ ์ ์ด ๋ฐฉ์์ผ๋ก ๊ตฌ๋๋ฉ๋๋ค. ์ ์์ค ์ ์ด๊ธฐ๋ PD ํํ๋ก, ์ํ๋ ๊ด์ ์์น q_d์ ํ์ฌ ๊ด์ ์์น q ๊ฐ ์ค์ฐจ์ ๋ํด ๊ฐ์ฑ ํ๋ ฌ K (์คํ๋ง ์์์ ํด๋น)๊ณผ ๊ฐ์ ํ๋ ฌ D (๋ํ ๊ณ์)์ ๋น๋กํ๋ ํ ํฌ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ฆ, ๊ฐ ๊ด์ ์ \tau = K (q_d - q) + D (\dot{q}_d - \dot{q})์ ํ ํฌ๋ฅผ ๊ฐํฉ๋๋ค. ์ด๋ ์ ์ด ํ๋ผ๋ฏธํฐ c={K,D}์ ์ ํ์ด ๋ก๋ด ๊ฑฐ๋์ ํฌ๊ฒ ์ข์ฐํ๋ฏ๋ก ์ธ์ฌํ ํ๋์ด ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ฑ K๋ฅผ ๋์ด๋ฉด ์ ์ ์ํ ์ค์ฐจ๋ ์ค์ง๋ง ์ง๋์ด ์ ๋ฐ๋ ์ ์๊ณ , ๊ฐ์ D๋ฅผ ๋์ด๋ฉด ์ค๋ฒ์ํธ(overshoot)๋ฅผ ์ต์ ํ๋ ๊ณ ์ฃผํ ์ง๋์ ์ฆํญ์ํฌ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๊ธฐ์กด ์ ์ฑ ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ๊ณ ์ ๋ K,D๋ก๋ง ๋์ํ๊ณ (์ ์ ์ ์ด๊ฐ ์๋ ๊ฒฝ์ฐ), ์ด ๊ฐ ์ธํธ๋ฅผ ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ์์ ๋ง์ถ๊ธฐ ์ํด ๋ง์ ๋ ธ๋ ฅ์ด๋ ์ด์ ๋งก๊ธด ๋๋คํ๊ฐ ํ์ํ์ต๋๋ค. DexCtrl์ ๋ฐ๋ก ์ด ๋ถ๋ถ์ ๋ํํ๊ธฐ ์ํด ์ ์ฑ ์ด ์์ฒด์ ์ผ๋ก ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋๋ก ํฉ๋๋ค. ํ๋ง๋๋ก, โ์ ์ฑ ์ด ํ๋๋ง์ด ์๋๋ผ ์ ์ด๊ธฐ ์ค์ ๊น์ง ํจ๊ป ๊ฒฐ์ ํ๋ฉด ์ด๋จ๊น?โ๋ผ๋ ๋ฌผ์์ ๋ํ ํด๊ฒฐ์ฑ ์ ๋๋ค.
DexCtrl์ ํ์ต ๊ณผ์ โ DexCtrl์ ํ์ต์ ํฌ๊ฒ ๊ต์ฌ(oracle) ์ ์ฑ ๋จ๊ณ์ ํ์(student) ์ ์ฑ ๋จ๊ณ์ ๋ ๋ถ๋ถ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ๋จผ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด, ๋ชจ๋ธ ์์ ๊ฐํํ์ต (PPO) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ต์ฌ ์ ์ฑ ์ ํ๋ จํฉ๋๋ค. ์ด ๊ต์ฌ ์ ์ฑ ์ ๋งค ์๊ฐ-step๋ง๋ค ์ํ๋ฅผ ๋ฐ์ ๊ด์ ํ๋ a_t (์: ๋ค์ ๋ชฉํ ๊ด์ ์์น)์ ์ ์ด ํ๋ผ๋ฏธํฐ c_t (์: ํด๋น step์์ ์ฌ์ฉํ K,D ๊ฐ)์ ๋์์ ์ถ๋ ฅํฉ๋๋ค. ๊ณง๋ฐ๋ก a_t๋ c_t๋ฅผ ํ๋ผ๋ฏธํฐ๋ก ํ๋ PD ์ ์ด๊ธฐ์ ์ ๋ ฅ๋์ด ๋ก๋ด ์๊ฐ๋ฝ๋ค์ ํ ํฌ๋ก ๋ณํ๋๊ณ , ๋ก๋ด์ ์์ง์ด๊ฒ ํฉ๋๋ค. (์ด๋ a_t๋ ๋ชฉํ joint ๊ฐ๋๋ ์๋ ์์น ๋ฑ์ ํ์์ด๋ฉฐ, DexCtrl๊ณผ ๊ธฐ์กด ์ ์ฑ ๋ชจ๋ ๊ด์ ๋ชฉํ ์๋๋ 0์ผ๋ก ์ค์ ํฉ๋๋ค.) ์ด๋ ๊ฒ ํ๋ฉด ๊ต์ฌ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ๋ด์์ ๋์์ ์ต์ ์ ๋์๊ถค์ ๊ณผ ์ ์ด๊ธฐ ๊ฒ์ธ ์กฐํฉ์ ์ฐพ์๋ด๋๋ก ํ์ต๋ฉ๋๋ค. ๋ค๋ง ๊ต์ฌ ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ์ ์ด์ ์ ํ์ฉํด ๋ฌผ์ฒด์ ์ ํํ ์ํ์ ๋ฌผ๋ฆฌ ์์ฑ(์ง๋, ๋ง์ฐฐ ๋ฑ)๊น์ง ๊ด์ธก์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์์ปจ๋ ์ํ s_t์๋ ์ต๊ทผ 3 ์คํ ์ ๊ฑธ์น ๋ก๋ด ๊ด์ ์ ๋ณด (ํ์ฌ ์์น q, ๋ชฉํ ์์น q_d, ์ฌ์ฉํ K,D)์ ๋ฌผ์ฒด์ ํฌ์ฆ ๋ฐ ๋ฌผ์ฒด ์์ฑ ๋ฒกํฐ (ํฌ๊ธฐ, ๋ฌด๊ฒ, ๋ง์ฐฐ ๊ณ์) ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. ์ด๋ฌํ ํน๊ถ ์ ๋ณด(privileged info)๋ ํ์ค์์๋ ์๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, ๋ค์ ๋จ๊ณ์์ ์ด๋ฅผ ์ ๊ฑฐํ๋ ์์ ์ด ํ์ํฉ๋๋ค.
ํ์ ์ ์ฑ ํ์ต์ ์ํด, ์ฐ์ ์์ ํ๋ จ๋ ๊ต์ฌ ์ ์ฑ ์ผ๋ก ์ฌ๋ฌ ๋ฌผ์ฒด์ ๋ํ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ์์งํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ํ์ ์ ์ฑ ์ ๋ชจ์ฌ ํ์ต(distillation) ๋ฐฉ์์ผ๋ก ํ๋ จํ๋๋ฐ, ํ์ ์ ์ฑ ์ ๋ ๊ฐ์ ์๋ธ-๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ๋๋ ํ๋ ์์ธก ๋ชจ๋๋ก์ ๋ก๋ด์ ๋ค์ ๋ชฉํ joint ์์ง์์ ์์ฑํ๊ณ , ๋ค๋ฅธ ํ๋๋ ์ ์ด ํ๋ผ๋ฏธํฐ ์์ธก ๋ชจ๋๋ก์ ํด๋น step์ ์ฌ์ฉํ ์ ์ ํ K,D ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค. ๋ ๋ชจ๋ ๋ชจ๋ ์ ๋ ฅ์ผ๋ก ๊ณผ๊ฑฐ์ ์ด๋ ฅ ์ ๋ณด๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ต๊ทผ 10 ์คํ ๋ถ์ ๋ก๋ด ๊ด์ ์ํ ๊ธฐ๋ก์ ํ์ฉํ๋๋ฐ, ๊ฐ ์คํ ๋ง๋ค ๋ก๋ด์ ์ค์ joint ๊ฐ๋, ๊ทธ๋์ ๋ชฉํ joint ๊ฐ๋, ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ ์ฌ์ฉ๋ ์ ์ด ํ๋ผ๋ฏธํฐ(K,D)๋ฅผ ๋ฌถ์ด ์๊ณ์ด๋ก ์ ๊ณตํฉ๋๋ค. ๋ฌผ์ฒด์ ์์ฑ์ด๋ ์ฃผ๋ณ ํ๊ฒฝ ์ ๋ณด๋ ์ง์ ์ฃผ์ด์ง์ง ์์ง๋ง, ์ด๋ฌํ ํ๋กํ๋ฆฌ์ค์ ์ ์ด๋ ฅ ์์ ๊ฐ์ ์ ์ผ๋ก ๋ น์๋ค์ด ์๋ค๋ ๊ฐ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ฅผ ๋ค๊ณ ์์๋ค๋ฉด ๊ณผ๊ฑฐ 10 ์คํ ๋์ ๋ชจํฐ ํ ํฌ ์ฌ์ฉ๋๊ณผ ์ด๋ ํจํด์ ๊ทธ ์ ๋ณด๊ฐ ๋ฐ์๋ ๊ฒ์ด๊ณ , ๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด๋ผ๋ฉด ์์ ๋ง์ฐฐ๋ก ์ธํด ๋ํ๋ ๋ฏธ์ธํ ์์ง์ ์ฐจ์ด๊ฐ ์ด๋ ฅ์ ๋จ์ ๊ฒ์ ๋๋ค. DexCtrl ํ์ ์ ์ฑ ์ ์ด๋ ๊ฒ ์ค๋ก์ง ๋ก๋ด ์์ฒด ์ผ์ ๋ฐ์ดํฐ์ ์๊ฐ ์ด๋ ฅ๋ง์ผ๋ก ๋ฌผ์ฒด์ ํน์ฑ๊น์ง ์ถ์ธกํ๋ฉฐ ํ๋์ ๊ฒฐ์ ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ ํ์ค ํ๊ฒฝ์ผ๋ก ์ ์ฑ ์ ์ฎ๊ธธ ๋ ์ถ๊ฐ ์ผ์ ์์ด๋ ๋์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ค์ํ ์ค๊ณ์ ๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ์ด์ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ฅผ ์ธ์ฉํ์ฌ, ํ์ ์์ ๋ฑ์ ๊ฒฝ์ฐ ๊ณผ๊ฑฐ ๊ด์ ์ ๋ณด๋ง์ผ๋ก๋ ํ์ ๋ ๋ฌผ์ฒด์ ๋ฐฉํฅ ๋ฑ์ ์ถ์ ํ ์ ์์์ ์ธ๊ธํฉ๋๋ค.
๋ ๋ชจ๋์ ๊ตฌ์กฐ๋ ์๊ณ์ด ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํ์ฉํฉ๋๋ค. ํ๋ ์์ธก ๋ชจ๋์ ๊ณผ๊ฑฐ 10๊ฐ์ ์ํ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ์๊ธฐ-์ดํ ์ (self-attention)์ ์ํํ์ฌ, ๊ด์ ์์ง์์ ์๊ฐ์ ์ถ์ด๋ฅผ ํ์ ํ๊ณ ๋ค์ ๋ชฉํ joint ์์น๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ๋ฐ๋ฉด ์ ์ด ํ๋ผ๋ฏธํฐ ์์ธก ๋ชจ๋์ ๊ต์ฐจ-์ดํ ์ (cross-attention) ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ฐ, ์ด๋ ํ์ฌ ์์ฑ๋ ํ๋ a_t๋ฅผ ์ฟผ๋ฆฌ(query)๋ก ์ผ๊ณ , ๊ณผ๊ฑฐ ์ด๋ ฅ(์ต๊ทผ 10 ์คํ ๋ก๋ด ์ํ)์ ํค/๊ฐ (key/value)์ผ๋ก ์ผ์, ํ ํ๋์ ์ ํฉํ K,D ๊ฒ์ธ์ ์ฐ์ถํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ, ํ์ฌ ๋ก๋ด์ด ์ํํ๋ ค๋ ๋์๊ณผ ๊ณผ๊ฑฐ์ ์์ง์-์ ์ด ๋งฅ๋ฝ์ ์ฐ๊ด์ง์ด โ์ด๋ฒ ๋์์ ์์ ์ ์ผ๋ก ์ํํ๋ ค๋ฉด ์ ์ด๊ธฐ๋ฅผ ์ผ๋ง๋ ๋จ๋จํ๊ฒ ํน์ ๋ถ๋๋ฝ๊ฒ ์ค์ ํด์ผ ํ๋๊ฐ?โ๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ๋ ๋ชจ๋์ ์ ๋ ฅ ์ด๋ ฅ์ ๊ฐ์ง๋ง ์๋ฏธ๊ฐ ๋ค๋ฅด๋ค๊ณ ์ค๋ช ํฉ๋๋ค: ํ๋ ๋ชจ๋์ ์ด๋ ฅ์ผ๋ก๋ถํฐ ๊ถค์ ์ ์ถ์ธ๋ฅผ ์ฝ์ด๋ด๊ณ (์ด์ ์ฐ๊ตฌ๋ค๊ณผ ์ ์ฌ), ์ ์ด ๋ชจ๋์ ์ด๋ ฅ์ผ๋ก๋ถํฐ ์ด์ ๋์-์ ์ด๊ธฐ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ์ฌ ์ธ๊ฐ์ด ๊ณผ๊ฑฐ ์ด์ ๊ฐ์ผ๋ก ํ์ฌ ์ฐจ๋ ์ ์ด๋ฅผ ์กฐ์ ํ๋ฏ์ด ํ์ฌ ํ์ํ ์ ์ด๊ธฐ ์ค์ ์ ์ ์ถํ๋ค๊ณ ๋น์ ํฉ๋๋ค. ๋ํ ๋ชจ๋์ ๋ถ๋ฆฌํจ์ผ๋ก์จ ์ ์ด ํ๋ผ๋ฏธํฐ ํ์ต์ด ํ๋ ์์ฑ์ ๊ฐ์ญํ๋ ๊ฒ์ ๋ฐฉ์งํ์ฌ ํ์ต์ ์์ ํํ ์ ์์๋ค๊ณ ํฉ๋๋ค. (๋ง์ฝ ํ๋์ ๊ฑฐ๋ํ ๋คํธ์ํฌ๊ฐ ๋ ์ถ๋ ฅ์ ๋ชจ๋ ํ์ตํ๋ค๋ฉด, ์ ์ด ํ๋ผ๋ฏธํฐ ์ถ๋ ฅ์ด ์ ๋๋ก ์์ธก๋์ง ๋ชปํ๋ฉด ํ๋ ์ถ๋ ฅ๊น์ง ํผ๋์ ์ค ์ ์๋๋ฐ, ์ด๋ฅผ ๊ตฌ์กฐ์ ์ผ๋ก ์ฐจ๋จํ ๊ฒ์ด์ฃ .)
ํ์ ์ ์ฑ ์ ํ๋ จ ๊ณผ์ ์ ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ดํฐ์ ์ ํ์ฉํ ์คํ๋ผ์ธ ์ง๋ํ์ต(behavior cloning) ํํ๋ก ์งํ๋ฉ๋๋ค. ์์งํ ๋ฐ์ดํฐ์ ๊ฐ ์๊ฐ-step์์ ๊ต์ฌ ์ ์ฑ ์ด ์ฐ์ถํ a_t, c_t๋ฅผ ๋ชฉํ๋ก, ํ์ ์ ์ฑ ์ ๋ ๋ชจ๋์ ํ์ต์ํต๋๋ค. ์ด๋ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ ๊ณผ๊ฑฐ ์ด๋ ฅ ๊ฐ๋ค์ ๊ต์ฌ ์ ์ฑ ๋ฐ์ดํฐ์ ์ ๊ฐ๋ค์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฏ๋ก, ํ๋ จ ์์ฒด๋ ์คํ-๋ฃจํ(open-loop)๋ก ์ํ๋ฉ๋๋ค. (์ฆ, ํ์์ด ๋ด๋์ ์ถ๋ ฅ์ผ๋ก ๋ค์ ์ํ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ์ง ์๊ณ , ๋ชจ๋ ๊ธฐ๋ก๋ ๋ฐ์ดํฐ๋ก๋ง ํ์ต). ๋์ ํ์ต ํ ์ค์ ์คํ(์ถ๋ก ) ์์๋ ๋งค ์๊ฐ ์ค์ ๋ก๋ด์ ์ผ์์์ ๋ฐ์์จ ํ์ฌ ์ํ๋ฅผ ์ด๋ ฅ์ ์ถ๊ฐํ์ฌ ํ๋ฃจํ(closed-loop)๋ก ๋์ํฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๋ก๋ด ์ฌ์ด์ ์ ์ด ํ๋ผ๋ฏธํฐ ๋จ์ ์ฐจ์ด๊ฐ ์์ ๊ฒฝ์ฐ๋ฅผ ๋๋นํด, ๋ฏธ๋ฆฌ ์คํ์ ์ผ๋ก ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ํํ์ ๋น๊ตํ์ฌ ์ ํ ์ค์ผ์ผ๋งํด์ฃผ๋ ์ ๋์ ์ด์ ์์ ๋ง ๊ฑฐ์ณค๋ค๊ณ ํฉ๋๋ค. ๋ณ๋๋ก ํ์ค์์ ๋ฏธ์ธ ํ๋์ ํ์ง ์๊ณ ๋ ์ ๋์ํ์๋๋ฐ, ์ด๋ ๊ต์ฌ ์ ์ฑ ํ์ต ์์ ๋ฌด๋ฆฌํ ๋๋ค๋ ธ์ด์ฆ ์ฃผ์ ์์ด๋, ํ์ ์ ์ฑ ํ๋ จ ์ ํ์ฌ ๊ด์ ๊ฐ์ ์ฝ๊ฐ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ง ๋ํ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ์ ์๋ ์ค๋ช ํฉ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋, ๊ณผ๋ํ ๋๋ฉ์ธ ๋๋คํ ์์ด๋ sim-to-real ์ด์ ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ ๋์์, ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ ๊ด์ธก์ ์ ๊ณตํ๋ DexCtrl ์ ๊ทผ์ ์ด์ ์ ๋ถ๊ฐํฉ๋๋ค. ์ ๋ฆฌํ๋ฉด, DexCtrl์ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ๋ฌธ๊ฐ ์ ์ฑ ์ ๋ฐ์ดํฐ๋ก ํ์ฉํ์ฌ ์ด๋ ฅ ๊ธฐ๋ฐ ํ์ ์ ์ฑ ์ ๋ง๋ค๊ณ , ์ด ํ์ ์ ์ฑ ์ด ์คํ ์ ๋งค ์๊ฐ ํ๋๊ณผ ์ ์ด๊ธฐ๋ฅผ ๋ชจ๋ ์กฐ์ ํ๋๋ก ํจ์ผ๋ก์จ, ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ํ๊ฒฝ ์ฌ์ด์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์๋์ผ๋ก ๋ฉ์์ฃผ๋ ๊ฒ์ ๋๋ค.
Baseline ์ ๊ทผ๋ฒ๊ณผ์ ๋น๊ต โ DexCtrl๊ณผ ๋๋น๋๋ ๋ ๊ฐ์ง ์ฃผ์ baseline์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ์ฒซ์งธ, ์๋ ํ๋(Manual Tuning) ๋ฐฉ์์ ๋๋ค. ์ด๋ ์ฌ๋์ด ๋ง์ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๋ก๋ด์ ๋์ ๊ถค์ ์ ๋น๊ตํด๊ฐ๋ฉฐ PD ์ ์ด ๊ฒ์ธ์ ์กฐ์ ํ๊ณ , ์ถ๊ฐ๋ก ํ์ต ์ ์ ์ด ํ๋ผ๋ฏธํฐ์ ์ฝ๊ฐ์ ๋๋ค ๋ณ๋์ ์ค์ ์ป์ ์ ์ฑ ์ ๋๋ค. ์ด๋ ๊ฒ ๊ต์ฌ ์ ์ฑ ๋ถํฐ ํ์ค์ ๋ง์ถฐ ์๋ก ํ์ตํ ํ ํ์ ์ ์ฑ ์ ๋ง๋ค์ด ์ฌ์ฉํ์ง๋ง, ์ ์ฑ ์์ฒด๋ ์ ์ํ์ด ์๋์ด์ ์คํ ์ค์๋ ๊ณ ์ ๋ ์ ์ด ํ๋ผ๋ฏธํฐ๋ง์ ์ฌ์ฉํฉ๋๋ค. ์ด ์ ๊ทผ์ ํน์ ์์ ์ ๋ํด ์ฌ๋์ด ๋ ธํ์ฐ๋ก ๊ฒ์ธ์ ๋ง์ถ๋ ๊ฒ์ด๊ธฐ์ ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ์ ์ด ์กฐ๊ฑด์ด ์กฐ๊ธ๋ง ๋ฐ๋์ด๋ ์ฑ๋ฅ ๋ณด์ฅ์ด ์ ๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋์งธ baseline์ โOurs w/o PDโ, ์ฆ ๋น์ ์ํ DexCtrl์ ๋๋ค. ์ด๋ DexCtrl ํ์ ์ ์ฑ ์์ ์ ์ด ํ๋ผ๋ฏธํฐ ์์ธก ๋ชจ๋์ ์ ๊ฑฐํ๊ณ , ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์๋ ํ๋๊ณผ ๋์ผํ ๊ฐ์ผ๋ก ๊ณ ์ ์ํจ ๋ฒ์ ์ ๋๋ค. ๋์ ํ๋ ์์ธก ๋ชจ๋๋ง์ DexCtrl ๋ฐฉ์์ผ๋ก ํ์ตํ์ฌ, ๊ฐ์ธํ ํ๋ ๊ถค์ ์ ์ป๋ ์ ์ด ํ๋ผ๋ฏธํฐ๋ ์กฐ์ ํ์ง ์๋ ๊ตฌ์กฐ์ ๋๋ค. ์ด baseline์ โ์ ์ํ PDโ ๊ธฐ๋ฅ์ด ์๋ DexCtrl๋ก ๋ณผ ์ ์์ด, ์ ์ด๊ธฐ ์๋ ์กฐ์ ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๋ ์ฉ๋๋ก ์ฌ์ฉ๋ฉ๋๋ค.
DexCtrl์ ๋ฐฉ๋ฒ๋ก ์ ์ baseline๋ค๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ ๊ทผ์ด ๋ค๋ฆ ๋๋ค. ์๋ ํ๋์ ๊ฒฝ์ฐ ์ฌ๋ ์ ๋ฌธ๊ฐ์ ๊ฒฝํ์ ์์กดํด ๊ฒ์ธ์ ๋ง์ถ๋ค ๋ณด๋ ๋ฐ๋ณต ์์ ๊ณผ ์ํ์ฐฉ์ค๊ฐ ๋ง๊ณ , ํ ๋ฒ ํ๋ํ ๊ฐ์ ์คํ ์ค ๋์ ์ผ๋ก ๋ฐ๊ฟ ์ ์์ต๋๋ค. ํ์ต ์ ๋๋คํ ๊ธฐ๋ฒ์ ์ ์ฑ ์ด ๋ค์ํ ์ํฉ์ ๋ฒํฐ๋๋ก ํด์ฃผ์ง๋ง, ์ ์ ์ค์ํ ํน์ ํ ์กฐ๊ฑด์์๋ ์ต์ ์ ๋์์ ๋ฐฐ์ฐ์ง ๋ชปํ๊ณ ํ๊ท ์ ์ธ (์๊ทน์ ์ธ) ์ ๋ต์ ๋จธ๋ฌผ๊ธฐ ์ฝ์ต๋๋ค. ๋ฐ๋ฉด DexCtrl์ ์ ์ฑ ์ด ์ค์ค๋ก ํ์ํ ์๊ฐ์ ์ ์ด๊ธฐ ํน์ฑ์ ๋ณํ์ํค๋๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ฒ์ ์ ํ๋ ์ํฉ์์๋ ์ฆ๊ฐ์ ์ผ๋ก ๋์ํ ์ ์์ต๋๋ค. ๋ํ ๊ด์ธก์ ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจ์์ผ ์ ์ฑ ์ด ํ์ฌ ํ ์ ๋ฌ ํน์ฑ์ ์ธ์งํ๋๋ก ํ๋ค๋ ์ ๋ ์ฐจ๋ณ์ ์ ๋๋ค. ํํธ, DexCtrl๊ณผ ๋ฌธ์ ์ ๊ทผ๋ฐฉ์์ ๋ค๋ฅด์ง๋ง ๊ด๋ จ๋ ๋งฅ๋ฝ์ผ๋ก DexPilot์ ์ธ๊ธํ ์ ์์ต๋๋ค. DexPilot์ ์ฌ๋์ ์ ๋์์ ๋น์ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ ํ์ฌ ๋ก๋ด ์์ ์๊ฒฉ ์กฐ์ํจ์ผ๋ก์จ ์ฌ๋ฌ ์ ๊ตํ ์์ ์ ์ํํด๋ธ ์ฒด๊ณ๋ก, ์ธ๊ฐ ์กฐ์ข ์ฌ์ ์ง๊ด๊ณผ ์ ์๋ ฅ์ ๋ก๋ด ์ ์ด์ ํ์ฉํ ์ฌ๋ก์ ๋๋ค. DexPilot ์์คํ ์ ํตํด ์ป์ ์์ฐ ๋ฐ์ดํฐ๋ก ํฅํ ์์จ ์ ์ฑ ํ์ต์ ํ์ฉํ๋ ๋ฐฉ์๋ ์ ์๋์์ง๋ง, ์ค์ ์กฐ์ ์์๋ ์ด๋๊น์ง๋ ์๋ จ๋ ์ฌ๋์ ํ๋จ๊ณผ ์๊ฐ ํผ๋๋ฐฑ์ ์์กดํฉ๋๋ค. DexCtrl์ ์ด๋ฌํ ์ธ๊ฐ์ ์ญํ ์ ์ ์ฑ ์ด ๋์ฒดํ๋๋ก ํจ์ผ๋ก์จ, ๋ณ๋์ ์ด๊ฐ ์ผ์ ์์ด๋ ํ ์กฐ์ ์ ๋ฐฐ์ฐ๊ฒ ํ๋ค๋ ์ ์์ ์์จ์ฑ๊ณผ ์ค์ฉ์ฑ์ ๋์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ ์ํ ํ ์ ์ด(adaptive force control) ์์ฒด๋ ๋ก๋ด ์ ์ด ๋ถ์ผ์์ ์ต์ํ ๊ฐ๋ ์ผ๋ก, ๊ฐ๋จํ ์ ์ด ์์ (์: ํ ์ด๋ธ ๋ฆ๊ธฐ, ๋ฌผ์ฒด ์ ํ๊ธฐ, ์กฐ๋ฆฝ ์์ ๋ฑ)์๋ ๊ธฐ์กด์๋ ์ํฉ์ ๋ฐ๋ผ ์ ์ด ๊ฒ์ธ์ ๋ฐ๊พธ๋ ๊ธฐ๋ฒ์ด ์ฑ๊ณผ๋ฅผ ๋ณด์ธ ๋ฐ ์์ต๋๋ค. ๋ค๋ง ์ด๋ฐ ๊ธฐ๋ฒ์ด ๋ค์ง ์(dexterous hand)์ ๊ณ ๋๋ ์กฐ์์ ์ ์ฉ๋ ์ ์ ๊ฑฐ์ ์์๊ณ , DexCtrl์ ๋ณต์กํ ๋ค์ง ์กฐ์์์ ์ ์ ์ ์ด์ ํจ๊ณผ๋ฅผ ์ฒ์์ผ๋ก ์ ์ฆํ๋ค๋ ์์๋ฅผ ๊ฐ์ต๋๋ค.
3.2 ์คํ ๊ฒฐ๊ณผ
์คํ ์ค์ โ ์ ์๋ค์ DexCtrl์ ์ฑ๋ฅ์ ์์ ์ธ๊ธํ ๋ ๊ฐ์ง ์์ (์๋ฐ๋ฅ ์ ๋ฌผ์ฒด ํ์ , ํ ์ด๋ธ ์ ๋ฌผ์ฒด ๋ค์ง๊ธฐ)์์ ํ๊ฐํ์์ต๋๋ค. ํ๊ฐ ํ๊ฒฝ์ ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๋ก๋ด ๋ชจ๋ ์ฌ์ฉ๋์๋๋ฐ, ์๋ฎฌ๋ ์ดํฐ์์๋ ํ์ต๊ณผ ๋์ผํ๊ฒ Mujoco ๊ธฐ๋ฐ LEAP Hand ๋ชจ๋ธ์ ํ์ฉํ๊ณ , ์ค์ ๋ก๋ ๋์ผํ ํํ์ ๋ก๋ด ์(์ค์ LEAP Hand)์ ํ์ต๋ ์ ์ฑ ์ zero-shot์ผ๋ก ์ด์ํ์ฌ ์ํํ์ต๋๋ค. ํนํ ์ฌ๋ฌ ๊ฐ์ง ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด๊ธฐ ์ํด, ๋ฌด๊ฒ์ ๋ง์ฐฐ ๊ณ์๊ฐ ์๋ก ๋ค๋ฅธ ๋ค์ํ ๋ฌผ์ฒด๋ค์ ์ฌ์ฉํ์ต๋๋ค. ๋ํ ์ ์ด ํ๋ผ๋ฏธํฐ ์กฐ์ ์ ์ํฅ์ ์ธ๋ฐํ ๋ถ์ํ๊ธฐ ์ํด, ๊ฐ์ ๋ชจ์์ด์ง๋ง ์์ ์ฑ์ ๋ฌด๊ฒ๋ง ๋ฐ๊พผ ๋ฌผ์ฒด, ํ๋ฉด ์ฌ์ง๋ง ๋ฐ๊ฟ ๋ง์ฐฐ๊ณ์๋ง ๋ค๋ฅด๊ฒ ํ ๋ฌผ์ฒด ๋ฑ์ ์คํ์ ํฌํจ์์ผฐ์ต๋๋ค.
๋น๊ต๋ฅผ ์ํด ์์ ์ค๋ช ํ ๋ baseline (Manual Tuning, Ours w/o PD)์ ๋ชจ๋ ์๋ฎฌ๋ ์ดํฐ์์ ํ๋ จํ๊ณ ํ์ค์ ์ด์ํ์ฌ ํ ์คํธํ์ต๋๋ค. Manual Tuning์ ๊ฒฝ์ฐ, ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๋ก๋ด์ ์ถ๋ ฅ ๊ถค์ ์ ๋ง์ถ๊ธฐ ์ํด ์ธ๋ฐํ ํ๋๋ ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๊ณ ํ์ต ์์๋ ์๋์ ํ๋ผ๋ฏธํฐ ๋๋คํ๋ฅผ ์ถ๊ฐํ ๊ต์ฌ ์ ์ฑ ์ ์๋ก ํ๋ จํ ํ, ๊ทธ๋ก๋ถํฐ ํ์ ์ ์ฑ ์ ์ป์์ต๋๋ค. ์ด๋ฌํ ์ ์ฑ ๋ค์ ์คํ ์ ์ ์ํ ์ ์ด๊ธฐ ์ถ๋ ฅ์ ๋ด์ง ์์ผ๋ฏ๋ก DexCtrl๊ณผ ๊ตฌ์กฐ๋ง ๋ค๋ฅด๊ณ ์ผ๋ฐ์ ์ธ ๋ฐฉ์์ ์ ์ฑ ์ด๋ผ ํ ์ ์์ต๋๋ค. Ours w/o PD๋ DexCtrl์ ์ ์ด๊ธฐ ์์ธก ๋ถ๋ถ๋ง ์ ์ธํ ๊ฒ์ผ๋ก, ๊ต์ฌ ์ ์ฑ ์ ๋ณธ๋ DexCtrl ๊ต์ฌ์ ๋์ผํ์ง๋ง ํ์ ์ ์ฑ ์ด ํ๋ ์์ฑ ๋ชจ๋๋ง ํ์ต๋ ์ผ์ด์ค์ ๋๋ค. ๋ฐ๋ผ์ PD ๊ฒ์ธ์ ๊ณ ์ ๊ฐ์ด๊ณ (Manual Tuning๊ณผ ๋์ผํ ๊ฐ ์ฌ์ฉ), adaptiveness๊ฐ ์ ๊ฑฐ๋ DexCtrl๋ก ๋ณผ ์ ์์ต๋๋ค.
ํ๊ฐ์งํ(metrics)๋ก๋ ๋ค ๊ฐ์ง๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ํ์ ๋ณด์ (RotR)์ ๋ฌผ์ฒด๋ฅผ ์ํ๋ ์ถ์ผ๋ก ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ํ์ ์ํค๋์ง๋ฅผ ๋ํ๋ด๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ ์ํผ์๋ ๋์์ ํ๊ท ํ์ ์๋ ๋ณด์์ผ๋ก, ์ค์ ์์ ์ํผ์๋ ์ข ๋ฃ ์ ๋ฌผ์ฒด๊ฐ ํ์ ํ ๋ผ๋์ ๊ฐ๋๋ก ์ธก์ ํ์ต๋๋ค. ์คํจ๊น์ง ๊ฑธ๋ฆฐ ์๊ฐ (TTF, Time to Fail)์ ๋ฌผ์ฒด๋ฅผ ์์์ ๋จ์ด๋จ๋ฆฌ๊ฑฐ๋ (ํ์ ์์ ), ์ฒ์ ์์น์์ ๋๋ฌด ๋ฒ์ด๋ ๋ฒ๋ฆฌ๋ (๋ค์ง๊ธฐ ์์ ) ์์ ๊น์ง ์ง์๋ ์๊ฐ ์คํ ์์ ํ๊ท ์ ๋๋ค. ๊ฐ์ด ํด์๋ก ๋ฌผ์ฒด๋ฅผ ์ค๋ ์์ ์ ์ผ๋ก ๋ค๋ฃจ์์์ ์๋ฏธํฉ๋๋ค. ์ด ์ธ์ ๋ฌผ์ฒด์ ๋ถ๊ท์น ์๋ (ObjVel)๋ ํ ํฌ ํ๋ํฐ ๋ฑ๋ ์ธก์ ํ๋๋ฐ, ObjVel์ ๋ฌผ์ฒด๊ฐ ๋ถํ์ํ๊ฒ ํ๋ค๋ฆฌ๋ ์ ๋(ํ๋ ์คํ ๋น ํ๊ท ์๋)๋ก ์์ ์ฑ์ ๋ํ๋ด๋ฉฐ ์๋ฎฌ๋ ์ดํฐ์์๋ง ๊ณ์ฐํ๊ณ , ํ ํฌ ํ๋ํฐ๋ ์๋์ง ์๋ชจ๋ ๊ด๋ จ ์งํ์ ๋๋ค. ์คํ์ ์๋ฎฌ๋ ์ด์ ํ๊ฐ์ ์ค์ ๋ก๋ด ํ๊ฐ๋ก ๋๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์๋ ์ถ๊ฐ๋ก ๋ฌผ์ฒด์ ๋ฌด์์ ์ธ๋ ํ(disturbance)์ ๊ฐํ๋ ์ํฉ๊ณผ ๊ฐํ์ง ์๋ ์ํฉ์ ๋น๊ตํ์ฌ, ์๊ธฐ์น ์์ ํ ๊ต๋์ ๋ํ ๊ฒฌ๊ณ ์ฑ๋ ํ์ธํ์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ โ ๋จผ์ ์๋ฎฌ๋ ์ดํฐ ์์์ DexCtrl๊ณผ baseline๋ค์ ๋น๊ตํ ๊ฒฐ๊ณผ, DexCtrl๊ฐ ๋ชจ๋ ์งํ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. Table 1 (ํ์ ์์ )๊ณผ Table 2 (๋ค์ง๊ธฐ ์์ )์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์์ ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋๋ฐ, DexCtrl (Ours) ์ ์ฑ ์ ์๋ ํ๋ baseline๋ณด๋ค ์ผ๊ด๋๊ฒ ๋์ ํ์ ์๋(RotR)์ ๊ธด ์คํจ ์๊ฐ(TTF)์ ๊ธฐ๋กํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฐ๋ฅ ์ ๋ฌผ์ฒด ํ์ ์ ๊ฒฝ์ฐ, ์ธ๋ ํ์ด ์ฃผ์ด์ก์ ๋ DexCtrl์ ํ๊ท ํ์ ๋ณด์์ baseline๋ณด๋ค ์ฝ 24% ๋์๊ณ (35.05โ43.51), ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ๊ธฐ๊น์ง ๋ฒํด ์๊ฐ๋ ๋์ด๋ฌ์ต๋๋ค(239.4โ255.9). ์ธ๋์ด ์์ ๋๋ ์ฐจ์ด๊ฐ ๋ ์ปค์ ธ, DexCtrl์ ํ์ ์๋๊ฐ baseline๋ณด๋ค ์ฝ 39% ํฅ์๋์์ต๋๋ค(37.64โ52.33). ์ด๋ ์ ์ด ํ๋ผ๋ฏธํฐ๊ฐ ๋์ผํ ์กฐ๊ฑด์์๋ ํ๋+์ ์ด ๋์ ํ์ต์ด ๋จ์ ํ๋ ํ์ต๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์์ ์ ๊ฐ์ํํ๊ณ ์์ ํ์์ผฐ์์ ์๋ฏธํฉ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ DexCtrl์์ PD ์ ์๋ง ๋บ ๋ฒ์ (Ours w/o PD)๋ ์๋ ํ๋๋ณด๋ค๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ํนํ ํ์ ์์ ์์ baseline๋ณด๋ค ๋น ๋ฅธ ํ์ (52.33 ๋๋น 47.87)์ ๋ฌ์ฑํ์ต๋๋ค. ์ ์๋ค์ DexCtrl ๋ฐฉ์์ผ๋ก ์์ฑ๋ ๊ถค์ ์์ฒด๊ฐ ๊ฒฌ๊ณ ํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์ํฉ๋๋ค. ๋ค๋ง ์ ์ด์ด ๊ฒฉ๋ ฌํ ์์ ์ธ ๋ค์ง๊ธฐ์ ๊ฒฝ์ฐ, ๋น์ ์ํ DexCtrl(Ours w/o PD)์ baseline๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ด์ง ๋ชปํ์ต๋๋ค. Table 2๋ฅผ ๋ณด๋ฉด, ์ธ๋์ด ์์ ๋ ๋ค์ง๊ธฐ ์์ ์ RotR์ ์๋ ํ๋์ด 91.07, Ours w/o PD๊ฐ 82.23๋ก ์คํ๋ ค ๋ฎ์์ต๋๋ค. ๋ฐ๋ฉด DexCtrl์ 172.5๋ก ๋ ๋ฐฐ ๊ฐ๊น์ด ๋์์ต๋๋ค. ์ธ๋์ด ์์ ๋๋ ๋น์ทํ ๊ฒฝํฅ์ด์ด์, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ค์ง๊ธฐ ๊ฐ์ด ๋์ด๋ ๋์ ์ ์ด ์์ ์์๋ ์ค์๊ฐ์ผ๋ก ์ ์ด๊ธฐ๋ฅผ ์กฐ์ ํด์ฃผ๋ DexCtrl๋ง์ด ํ์คํ ์ฑ๋ฅ ๊ฐ์ ์ ์ด๋ฃจ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ๋ฐ๋ฅ-์์ ๋ณตํฉ ์ ์ด ์ํฉ์์, ๊ณ ์ ์ ์ด๊ธฐ๋ก๋ ํ๊ณ๊ฐ ์์ง๋ง adaptive ์ ์ด๋ฅผ ํตํด ํ ๋ถ๋ฐฐ๋ฅผ ์กฐ์ ํ๋ฉด ํจ์ฌ ์ ๋ฆฌํจ์ ๋ณด์ฌ์ค๋๋ค. ์ถ๊ฐ๋ก, DexCtrl์ ํ์ต ์๋ ์ธก๋ฉด์์๋ ์ฐ์๋ฅผ ๋ณด์ฌ์ฃผ์๋๋ฐ, ๋์ผ ์กฐ๊ฑด์์ ํ์ ์ ์ฑ ์ ํ์ต์ํฌ ๋ baseline๋ณด๋ค ๋น ๋ฅด๊ฒ ์๋ ดํ์ฌ ํจ์จ์ ์ด์๋ค๊ณ ํฉ๋๋ค. ์์ปจ๋ ์๋ฎฌ๋ ์ดํฐ ๊ฒฐ๊ณผ๋ง ๋๊ณ ๋ด๋ DexCtrl์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์์ ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
ํ์ค ์ธ๊ณ ์ฑ๋ฅ โ ๋ ์ค์ํ๊ฒ, ํ์ต๋ ์ ์ฑ ๋ค์ ์ค์ ๋ก๋ด ์์ ์ด์ํ์ฌ ํ ์คํธํ ๊ฒฐ๊ณผ, DexCtrl์ ์ฐ์์ฑ์ ํ์ค์์ ๋์ฑ ๋๋๋ฌ์ก์ต๋๋ค. ์๋ฐ๋ฅ ์ ๋ฌผ์ฒด ํ์ ์์ ์ ๊ฒฝ์ฐ, ์ง๋๊ณผ ๋ง์ฐฐ์ด ์๋ก ๋ค๋ฅธ 12์ข ์ ๋ฌผ์ฒด์ ๋ํด ๊ฐ ์ ์ฑ ์ ํ ๋ฒ๋ ์ถ๊ฐ ํ๋ จํ์ง ์๊ณ ๋ฐ๋ก ์ ์ฉํด ๋น๊ตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ DexCtrl์ ์ด๋ค ๋ฌผ์ฒด์ ๋ํด์๋ ์ผ๊ด๋๊ฒ ๊ฐ์ฅ ๋์ ํ์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ , baseline๋ค๊ณผ์ ๊ฒฉ์ฐจ๊ฐ ์๋ฎฌ๋ ์ดํฐ์์๋ณด๋ค ๋ ํฌ๊ฒ ๋ฒ์ด์ก์ต๋๋ค. Table 3์ ์์๋ก ๋ช ๊ฐ์ง ๋ฌผ์ฒด์ ๋ํ ์์น๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ๊ฐ๋ฒผ์ด ๋ฌผ์ฒด(์: 94g ํ๋ธ)์์๋ ์๋ ํ๋์ RotR์ด 1.963์ธ ๋ฐ๋ฉด DexCtrl์ 9.386์ผ๋ก ์ฝ 4.8๋ฐฐ ๋์์ต๋๋ค. ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด(221g ์ฌ๊ณผ ์ฅ๋๊ฐ)์์๋ baseline์ด 1.914์ธ ๋ฐ ๋ฐํด DexCtrl์ 9.676์ผ๋ก 5๋ฐฐ ์ด์ ์ฐจ์ด๊ฐ ๋ฌ์ต๋๋ค. ๊ฑฐ์ ๋ชจ๋ ๋ฌผ์ฒด์์ DexCtrl์ด ๋ช ๋ฐฐ์ฉ ๋น ๋ฅด๊ฒ ํ์ ์์ผฐ์ผ๋ฉฐ, ์ด๋ zero-shot sim-to-real ์ค์ ์์ ๊ฐ์ํ ๋ ๋๋ผ์ด ์ผ๋ฐํ ์ฑ๋ฅ์ ๋๋ค. ์์ ์ฑ ์ธก๋ฉด์์๋ DexCtrl์ด ๋ฐ์ด๋ฌ๋๋ฐ, ์คํจ๊น์ง์ ์๊ฐ(TTF)์ ๋ณด๋ฉด DexCtrl์ ์ฌ๋ฌ ๋ฌผ์ฒด์์ ํ๊ท ์ ์ผ๋ก ์ํผ์๋ ์ต๋ ์๊ฐ(300 ์คํ )์ ์ก๋ฐํ์ต๋๋ค. ์ด๋ DexCtrl์ด ๋๋ถ๋ถ ๋ฌผ์ฒด๋ฅผ ๋๊น์ง ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ์ ์ก๊ณ ์์๋ค๋ ๋ป์ ๋๋ค. ๋ฐ๋ฉด baseline๋ค์ TTF๋ ์กฐ๊ธ ๋ฎ์์, ์๋ฅผ ๋ค์ด ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ ๊ฒฝ์ฐ ์๋ ํ๋์ ํ๊ท 243 ์คํ ์ ๋์ ๋ฌผ์ฒด๋ฅผ ๋์ณค์ง๋ง DexCtrl์ 300 ์คํ ๋ด๋ด ์ฑ๊ณต์ ์ผ๋ก ์ก๊ณ ํ์ ์์ผฐ์ต๋๋ค. ์ ์ฒด์ ์ผ๋ก ํ์ค ํ๊ฒฝ์์ DexCtrl๊ณผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ๊ฒฉ์ฐจ๋ ์๋ฎฌ๋ ์ดํฐ๋ณด๋ค ์ปธ๋๋ฐ, ์ด๋ ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ์ฌ์ด์ ๋ฏธ์ธํ ์ฐจ์ด๋ฅผ DexCtrl๋ง์ด ์ ์์ ์ผ๋ก ๋ณด์ํ ๊ฒฐ๊ณผ์ ๋๋ค. ํนํ DexCtrl๊ณผ ๋น์ ์ํ DexCtrl(Ours w/o PD)์ ์ฐจ์ด๊ฐ ํ์ค์์ ํฌ๊ฒ ๋ฒ์ด์ก๋๋ฐ, ์ด๋ ๋งค ์๊ฐ ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด์ฃผ๋ ๊ธฐ๋ฅ์ด ์ค์ ๋ก๋ด์์ ๋งค์ฐ ์ค์ํจ์ ๊ฐ์กฐํด์ค๋๋ค. ์ฆ, ์๋ฎฌ๋ ์ดํฐ์์๋ ๋ ๋ค ์ผ์ ์ฑ๋ฅ์ ๋์ด๋, ์ค์ ์์๋ Ours w/o PD๊ฐ ๊ฐ๋น ๋ชป ํ๋ ํ ๋ณ๋์ DexCtrl์ ์ค์๊ฐ ๋์ํ๋ฉฐ ๊ทน๋ณตํ ๊ฒ์ ๋๋ค. ํํธ, ํ ์ด๋ธ ์ ๋ฌผ์ฒด ๋ค์ง๊ธฐ ์์ ๋ ์ค์ ๋ก ์ํ๋์๊ณ , Figure 3์ ๊ทธ ๊ฒฐ๊ณผ๊ฐ ์๊ฐ์ ์ผ๋ก ์ ์๋์์ต๋๋ค. DexCtrl ์ ์ฑ ์ ์ค์ ์์๋ ๋ฌผ์ฒด๋ฅผ ๋ค์ด์ฌ๋ ค ๋ค์ง๋ ๋์์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๊ณ , ๋ฐ๋ณต ์คํ์์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๋ฐ๋ฅ๊ณผ์ ์ถฉ๋์ด ์๋ ์ด ๋ณต์กํ ์ํฉ์์๋ adaptive ์ ์ด๋ฅผ ํตํด ์๊ฐ๋ฝ์ ์ถฉ๊ฒฉ ํก์์ ํ ๋ถ๋ฐฐ๊ฐ ์ ์ด๋ฃจ์ด์ ธ, baseline์ ๋นํด ๋ถ๋๋ฝ๊ณ ์์ ์ ์ธ ๋ค์ง๊ธฐ ๋์์ ๊ตฌํํ์ต๋๋ค. ์ด๋ก์จ DexCtrl์ ์ ๊ทผ์ด ํ ๊ฐ์ง ์์ ์ ํนํ๋ ๊ฒ ์๋๋ผ ๋ค์ํ ์กฐ์ ์์ ์ ์ผ๋ฐํ ๊ฐ๋ฅํจ๋ ํ์ธ๋์์ต๋๋ค. Figure 4๋ ์ค์ ๋ก๋ด์ผ๋ก ์ฌ๋ฌ ๊ฐ์ง ๋ฌผ์ฒด๋ฅผ ํ์ ์ํค๋ ์ฅ๋ฉด๋ค์ ๋ณด์ฌ์ฃผ๋๋ฐ, DexCtrl ์ ์ฑ ์ด ๋ฌผ์ฒด๋ง๋ค ์๋ง์ ํ์ผ๋ก ์ก๊ณ ํ์ ์ํค๋ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ฉด ๊ณ ์ ์ ์ด๊ธฐ์ baseline์ ์ด๋ค ๋ฌผ์ฒด๋ ํ์ด ๋ถ์กฑํด ๋จ์ด๋จ๋ฆฌ๊ณ , ์ด๋ค ๊ฒฝ์ฐ๋ ์ง๋์น๊ฒ ์ธ๊ฒ ์กฐ์ฌ ๋ถ์์ ํ ์์ง์์ ๋ณด์ด๋ ๋ฑ ์ผ๊ด์ฑ์ด ๋จ์ด์ง๋ ๋ชจ์ต์ด ๊ด์ฐฐ๋์์ต๋๋ค.
๋ฌผ์ฒด ๋ฌผ์ฑ ๋ณํ์ ๋ํ ์ ์๋ ฅ ๋ถ์ โ DexCtrl์ ๋ฐ์ด๋ ์ฑ๋ฅ์ด ์ด๋ค ์๋ฆฌ๋ก ๋์ค๋๊ฐ๋ฅผ ์์๋ณด๊ธฐ ์ํด, ์ ์๋ค์ ํนํ ์ง๋๊ณผ ๋ง์ฐฐ์ด๋ผ๋ ๋ฌผ์ฒด ๋ฌผ์ฑ ๋ณ์์ ๋ํ ์ ์ฑ ์ ๋ฐ์์ ์์ธํ ๋ถ์ํ์ต๋๋ค. ์์ ์ธ๊ธํ๋ฏ, ๋์ผํ ๋ชจ์์ ๋น ํ๋ผ์คํฑ ์์์ ๋ด๋ถ ๋ด์ฉ๋ฌผ์ ์ถ๊ฐํด ๋ฌด๊ฒ๋ฅผ ๊ฐ๋ณ๊ฒ/๋ฌด๊ฒ๊ฒ ๋ฐ๊พผ ๊ฒฝ์ฐ์, ๋์ผํ ๋ฌด๊ฒ ์์์ ํ๋ฉด ๋ง์ฐฐ ์ฝํ ๋ง ๋ฌ๋ฆฌํ ๋ง์ฐฐ ๊ณ์ ๋ณํ ๊ฒฝ์ฐ๋ฅผ ์คํํ์ต๋๋ค.
๊ทธ๋ฆผ โ ๋ฌผ์ฒด์ ์ง๋(์ผ์ชฝ) ๋ฐ ๋ง์ฐฐ ๊ณ์(์ค๋ฅธ์ชฝ) ๋ณํ์ ๋ฐ๋ฅธ ํ์ ์ฑ๋ฅ ๋น๊ต. ๊ทธ๋ํ์ ์ธ ๊ณก์ ์ ํ๋์ ์๋ ํ๋ baseline, ๋ น์ ๋น์ ์ํ(Ours w/o PD), ์์ฃผ์ DexCtrl์ ๋ํ๋ ๋๋ค. ์ผ์ชฝ ๊ทธ๋ฆผ์ ๊ฐ๋ฒผ์ด ๋ฌผ์ฒด๋ถํฐ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ก ์ง๋์ด ์ฆ๊ฐํ ๋ ์ธ ๋ฐฉ๋ฒ์ ํ์ ์๋(RotR)๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ์ค๋ฅธ์ชฝ์ ๋ง์ฐฐ ๊ณ์๊ฐ ๋ฎ์ ๋ฌผ์ฒด๋ถํฐ ๋์ ๋ฌผ์ฒด๋ก ๋ฐ๋ ๋์ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ํ๋ ๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด DexCtrl (์์ฃผ์)์ ๋ชจ๋ ์กฐ๊ฑด์์ ๊ฐ์ฅ ๋์ ํ์ ์๋๋ฅผ ์ ์งํ๋ฉฐ, ๋ฌผ์ฒด๊ฐ ๋ฌด๊ฑฐ์์ง๊ฑฐ๋ ๋ง์ฐฐ์ด ๋ณํํด๋ ์ฑ๋ฅ ์ ํ ํญ์ด ๋งค์ฐ ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ง๋์ด ๊ฐ๋ฒผ์ธ ๋๋ ์ธ ๋ฐฉ๋ฒ ๋ชจ๋ ๋น๊ต์ ๋์ ์๋๋ฅผ ๋ด์ง๋ง, ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ก ๊ฐ์๋ก baseline๋ค์ ์ฑ๋ฅ์ ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๋ฐ๋ฉด DexCtrl์ ์๋นํ ์๋๋ฅผ ์ ์งํ๊ณ ์์ต๋๋ค. ๊ฐ์ฅ ๋ฌด๊ฑฐ์ด ๊ฒฝ์ฐ๋ฅผ ๋ณด๋ฉด, ์๋ ํ๋(ํ๋์ )์ ํ์ ์๋๊ฐ ๊ฑฐ์ 0์ ์๋ ดํ ์ ๋๋ก ์คํจํ์ง๋ง DexCtrl(์์ฃผ์ )์ ์ฌ์ ํ ๋์ ์๋๋ก ๋ฌผ์ฒด๋ฅผ ๋๋ฆด ์ ์์ต๋๋ค. ๋ง์ฐฐ ๊ณ์ ๋ณํ์ ๋ํด์๋, DexCtrl์ ๋ง์ฐฐ์ด ์๋ ํฌ๋ ์์ ์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฐ๋ฉด, baseline๋ค์ ์ค๊ฐ ๋ง์ฐฐ ์์ญ ๋ฑ์์ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง๋ ๋ฑ ๋ค์ฅ๋ ์ฅํ ์์์ ๋ณด์ ๋๋ค. ์๋ ํ๋(ํ๋์ )์ ๋ง์ฐฐ๊ณ์๊ฐ ์ค๊ฐ์ผ ๋ ์ต์ ์ฑ๋ฅ์ ๋ด๊ณ , ๋น์ ์ํ(๋ น์)์ ๋ง์ฐฐ์ด ์์ ๋ ์ฝ๊ฐ ์ฑ๋ฅ์ด ๋์๋ค๊ฐ ํฐ ๋ง์ฐฐ์์ ๋ค์ ์กฐ๊ธ ๋ฎ์์ง๋ ๋ฑ, ํ ๊ฐ์ง ์ถ์ธ๋ก ์ค๋ช ํ๊ธฐ ์ด๋ ค์ด ๋ณํ๋ฅผ ๋ณด์ ๋๋ค. ์ด๋ ๊ณ ์ ์ ์ด๊ธฐ์์๋ ๋ง์ฐฐ ์กฐ๊ฑด์ ๋ฐ๋ผ ์๋นํ ๋ค๋ฅธ ๊ฑฐ๋์ ๋ณด์ฌ ์ ์ฑ ์ด ์ผ๊ด์ฑ ์๊ฒ ๋์ํ์ง ๋ชปํจ์ ๋ปํฉ๋๋ค. ๋ฐ๋ฉด DexCtrl์ ์ ์ฒด์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉฐ ์ฝ๊ฐ์ ๋ณํ๋ง ๋ณด์ผ ๋ฟ์ ๋๋ค. ์ข ํฉํ๋ฉด DexCtrl ์ ์ฑ ์ ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ์ ํน์ฑ์ด ๋ฐ๋์ด๋ ์์์ ์ ์ด ์ ๋ต์ ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฐ๋ฉด, baseline๋ค์ ํน์ ์กฐ๊ฑด์์ ํฌ๊ฒ ๋ฌด๋์ง๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ค์ ๋ฐ์ดํฐ์์๋ DexCtrl์ด ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ผ์๋ก ์คํจ ์์ด ์ค๋ ๋ฒํฐ๊ณ (TTF ์์น) ๊ฐ๋ฒผ์ด ๋ฌผ์ฒด์ผ์๋ก ๋น ๋ฅด๊ฒ ๋๋ฆฌ์ง๋ง ๋ถ์์ ์ฑ์ ์กฐ๊ธ ์๋(ํ์ ์๋ ๋์ง๋ง ObjVel ์ฝ๊ฐ ์์น) ๊ฒฝํฅ ๋ฑ์ ๋ณด์ฌ, ํ ์กฐ์ ์ ํตํด ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ด๋ฆฌํ๊ณ ์์์ ์ ์ ์์์ต๋๋ค. ์ด๋ ์ฌ๋์ด ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ฅผ ๋ค ๋ ํ์ ๋ ์ฃผ๊ณ , ๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๊ฒ๊ณผ ์ ์ฌํ ์ ์๋ ฅ์ด๋ผ ํ ์ ์์ต๋๋ค.
ํ์ต๋ ์ ์ด ํ๋ผ๋ฏธํฐ์ ํจํด โ ๋ง์ง๋ง์ผ๋ก, DexCtrl์ด ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๊ณ ์๋์ง๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํฉ๋๋ค. ์ ์๋ค์ ํนํ ์ ์ด ํ๋ผ๋ฏธํฐ ์ค ๊ฐ์ฑ(stiffness, K) ๊ฐ์ ์ฃผ๋ชฉํ๋๋ฐ, ์ด์ ๋ ๊ฐ์ฑ์ด ๊ฐ์ ๋ณด๋ค ์์ ์ฑ๋ฅ์ ๋ ํฐ ์ํฅ์ ์ฃผ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํฉ๋๋ค. ๊ฐ์ฑ์ ๋์ด๋ ๊ฒ์ ๊ณง ๊ฐ ๊ด์ ์ ๋ ํฐ ํ ํฌ๋ฅผ ๊ฐํ๋ ํจ๊ณผ๋ฅผ ๋ด์ด ์ ์ด force ํ๋กํ์ผ์ ๋ฐ๊พธ๋ฏ๋ก, ๋ฌผ์ฒด์ ๋ฌด๊ฒ๋ ๋ง์ฐฐ์ ๋ฐ๋ผ ๊ฐ์ฑ ์กฐ์ ํจํด์ด ๋ฌ๋ผ์ง ๊ฒ์ผ๋ก ์์ธกํ์ต๋๋ค. ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ดํฐ์์ ๋ค์ํ ๋ฌผ์ฒด์ DexCtrl ์ ์ฑ ์ ์ ์ฉํ trajactory ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๊ฐ์ฑ ๊ฐ ๋ณํ๋ฅผ ๋ถ์ํ์ต๋๋ค. Figure 6์ ์ข์ธก ๊ทธ๋ํ๋ ๋ฌผ์ฒด ์ง๋์ ๋ฐ๋ฅธ ํ๊ท ๊ฐ์ฑ ๋ณํ๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ๊ฒฐ๊ณผ๋ ๋ฌผ์ฒด๊ฐ ๋ฌด๊ฑฐ์์ง์๋ก ๊ฐ์ฑ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ์ ์ฑ ์ด ํ์ต๋์์์ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค. Light (๊ฐ๋ฒผ์) โ Heavy (๋ฌด๊ฑฐ์)์ผ๋ก ๊ฐ์๋ก ํ๊ท ๊ฐ์ฑ์ด ๋จ์กฐ ์ฆ๊ฐํ์๋๋ฐ, ์ด๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ฅผ ๋ค๊ณ ์กฐ์ํ๋ ค๋ฉด ๊ด์ ์ ๋ ํฐ ํ(ํ ํฌ)์ด ํ์ํ๋ฏ๋ก ๊ฐ์ฑ์ ํค์ด๋ค๋ ์ง๊ด์ ์ธ ์๋ฆฌ์ ๋ถํฉํฉ๋๋ค. ํํธ, Figure 6์ ์ค๊ฐ ๋ฐ ์ฐ์ธก ๊ทธ๋ํ๋ ๋ง์ฐฐ ๊ณ์์ ๋ฐ๋ฅธ ๊ฐ์ฑ ๋ณํ๋ฅผ ๋ํ๋ ๋๋ค. ์ฌ๊ธฐ์๋ ํฅ๋ฏธ๋กญ๊ฒ๋ ์ผ๋ถ ๊ด์ ์ ๋ง์ฐฐ์ด ์ฆ๊ฐํ ์๋ก ๊ฐ์ฑ์ด ์ฆ๊ฐํ์ง๋ง, ๋ค๋ฅธ ๊ด์ ์ ๋ง์ฐฐ์ด ์ฆ๊ฐํ ์๋ก ์คํ๋ ค ๊ฐ์ฑ์ด ๊ฐ์ํ๋ ์์์ด ๊ด์ฐฐ๋์์ต๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ์์ ๋ฐ ๊ด์ ๋ณ ์ญํ(dynamic)์ ์ฐจ์ด๋ก ํด์ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ์ ์์ ์์ ๋ง์ฐฐ์ด ํฐ ๊ฒฝ์ฐ ์ด๋ค ๊ด์ ๋ค(์: ๋ฌผ์ฒด๋ฅผ ์ง์ ๋นํ์ด ๋๋ฆฌ๋ ์ญํ ์ ๊ด์ )์๋ ์์ง์์ ์ ํญ์ด ์ปค์ง๋ฏ๋ก ๋ ํฐ ํ ํฌ, ์ฆ ๋์ ๊ฐ์ฑ์ด ํ์ํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด ๋ค๋ฅธ ๊ด์ ๋ค(์: ๋ฌผ์ฒด๋ฅผ ์ง์งํ๋ ์ญํ ์ ๊ด์ )์์๋ ๋ง์ฐฐ์ด ํด ๋ ์คํ๋ ค ๋ฌผ์ฒด๊ฐ ์ ๋ฏธ๋๋ฌ์ง์ง ์์ ์กฐ๊ธ ํ์ ๋นผ๋ ์ ์ด๊ฐ ๊ฐ๋ฅํ๊ณ , ๋๋ฌด ๊ฐํ๊ฒ ์ก์ผ๋ฉด ๋ถํ์ํ ํ ์ ๋ฌ๋ก ๋ถ์์ ํด์ง ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๊ด์ ๋ง๋ค ๋ง์ฐฐ์ด ๋ฏธ์น๋ ์ญํ ์ด ๋ฌ๋ผ์, ์ด๋ค ๊ด์ ์ ๋ง์ฐฐโ โ ๊ฐ์ฑโ, ๋ค๋ฅธ ๊ด์ ์ ๋ง์ฐฐโ โ ๊ฐ์ฑโ ํจํด์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ๋น์ผ๊ด์ ์ธ ๊ฐ์ฑ ์กฐ์ ์์์ ์ฒ์์ ์ด์ํด ๋ณด์ผ ์ ์์ผ๋, DexCtrl ์ ์ฑ ์ด ๊ด์ ๋ณ๋ก ์ต์ ์ ํ ๋ถ๋ฐฐ๋ฅผ ํ์ตํ ๊ฒฐ๊ณผ๋ผ๊ณ ์ดํดํ ์ ์์ต๋๋ค.
์์ ๊ฐ์ ๊ฒฝํฅ์ ์ค์ ๋ก๋ด ์คํ ๋ฐ์ดํฐ๋ฅผ ํตํด์๋ ํ์ธ๋์์ต๋๋ค. Figure 7์์๋ ์๋ก ๋ค๋ฅธ ๋ฌผ์ฒด๋ค์ ๋ํด ์๊ฐ์ ๋ฐ๋ฅธ ๊ฐ์ฑ ๋ณํ๋ฅผ ์๊ฐํํ์๋๋ฐ, ๋ ๊ฐ์ง ๋๋ ทํ ํจํด์ด ๋ฐ๊ฒฌ๋ฉ๋๋ค. (1) ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ ๊ฒฝ์ฐ ๋ช๋ช ์ค์ํ ๊ด์ ์์ ์ด๊ธฐ์ ๊ฐ์ฑ์ ํ ์ฌ๋ฆฌ๊ฑฐ๋ ์ต๋๊ฐ์ผ๋ก ์ ์งํ๋ ๊ตฌ๊ฐ์ด ๊ธธ์ด์ก๋ค๋ ์ , (2) ํ๋ฉด์ด ๋งค๋๋ฌ์ด(๋ฎ์ ๋ง์ฐฐ) ๋ฌผ์ฒด์ ๊ฒฝ์ฐ ์ด๋ค ๊ด์ ๋ค์ ๊ฐ์ฑ์ ํฌ๊ฒ ์ฃผ์๋ค๊ฐ ๊ณง ๋ฎ์ถ๋ ๋ฐ๋ฉด, ๋ค๋ฅธ ๊ด์ ๋ค์ ๋ฐ๋๋ก ์ฒ์ฒํ ๋์ด๋ ๋ฑ ์๊ฐ๋ฆฐ ํจํด์ด ๋ณด์๋ค๋ ์ ์ ๋๋ค. ์ด ์ญ์ ๊ด์ /์์ ๋ณ๋ก ํ์ํ ํ ์กฐ์ ์ ๋ต์ด ๋ค๋ฆ์ ๋ฐ์ํ๋ฉฐ, ์ข ํฉํ๋ฉด DexCtrl์ ์ ์ฑ ์ด ๋ฌผ์ฒด์ ๋ฌด๊ฒ์ ๋ง์ฐฐ์ ๋ฐ๋ผ ํ์ ์ ์ด๋ ฅ์ ํ๋จํ๊ณ ๊ทธ์ ๋ง๊ฒ ๊ฐ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ ํ๊ณ ์์์ ์ฆ๋ช ํฉ๋๋ค. ์ด๋ฌํ ํ์ต๋ ๊ฐ์ฑ ์กฐ์ ์ ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ ์ํฉ์์ ์ต์ ์ ํ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๊ฒ ํด ์ฃผ์ด ์กฐ์ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋ค๊ณ ์ ์๋ค์ ๊ฒฐ๋ก ์ง๊ณ ์์ต๋๋ค. ์์ปจ๋ DexCtrl์ ๋ด๋ถ๋ฅผ ๋ค์ฌ๋ค๋ณธ ๊ฒฐ๊ณผ, โ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ ์ธ๊ฒ ์ก์๋ผ, ๋ง์ฐฐ์ ์ํฉ์ ๋ง๊ฒ ํ์ ์ฌ๋ถ๋ฐฐํ๋ผโ๋ผ๋ ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ์๋ฌต์ ์ง์์ ์ค์ค๋ก ํฐ๋ํ ์ ์ ๋๋ค.
3.3 ๊ฒฐ๋ก
์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๋ก๋ด ์์ ์ ๊ตํ ์กฐ์ ๊ธฐ์ ์ ์ค์ ํ๊ฒฝ์ ์ฑ๊ณต์ ์ผ๋ก ์ด์ํ๊ธฐ ์ํด์๋ ๋์ด์ผ ํ ์ฅ๋ฒฝ์ด ๋ง์ต๋๋ค. DexCtrl์ ๊ทธ ์ค์์๋ ํนํ ๋ก๋ด ์ ์ด๊ธฐ์ ์ ์ ํ ํ๋ผ๋ฏธํฐ ์ ํ์ด๋ผ๋ ๋ฌธ์ ์ ์ฃผ๋ชฉํ์ฌ, ์ด๋ฅผ ํ์ต์ ํตํด ์๋ํํ ์ต์ด์ ์๋์ ๋๋ค. ์ ์ฑ ์ด ๋งค ์๊ฐ ์ ์ด๊ธฐ ๊ฒ์ธ์ ํจ๊ป ์ถ๋ ฅํ๋๋ก ์ค๊ณํจ์ผ๋ก์จ, ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๋ก๋ด ์ฌ์ด์ ๋ฏธ๋ฌํ ๋์ ์ฐจ์ด๋ฅผ ์ ์ฑ ์์ฒด๊ฐ ๋ฉ๊พธ๋๋ก ํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฌ๋์ด ์ผ์ผ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ๋ง์ถ๋ ๋ฒ๊ฑฐ๋ก์ ์์ด๋, ์ ์ด๋ ฅ์ ๋ํ ์ถ๋ก ๊ณผ ์ ์์ ํ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ๋ณต์กํ ๋ฌผ์ฒด ์กฐ์ ์์ ์์ ํ๊ธฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ์คํ ๋ชจ๋์์ DexCtrl์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ๋ค์ํ ๋ฌผ์ฒด ๋ฌผ์ฑ ๋ณํ์๋ ๋์ ๋ฒ์ฉ์ฑ(generalizability)์ ์ ์ฆํ์ต๋๋ค. ํนํ zero-shot ํ์ค ์ ์ฉ ์์๋ ์ฌ๋ฌ ๋ฌผ์ฒด๋ฅผ ๋ฌธ์ ์์ด ๋ค๋ฃจ๋ ๋ชจ์ต์, ํฅํ ๋ก๋ด์ด ํ์ต๋ ๊ธฐ์ ์ ์ค์ธ๊ณ์ ์ง์ ํ์ฉํ๋ ๋ฐ ํ ๊ฑธ์ ๋ ๋ค๊ฐ์ ์ฑ๊ณผ๋ก ํ๊ฐ๋ฉ๋๋ค.
๋ฌผ๋ก ํ๊ณ์ ํฅํ ๊ณผ์ ๋ ์กด์ฌํฉ๋๋ค. ํ์ฌ DexCtrl์ ๋ก๋ด์ ๊ณ ์ ๊ฐ๊ฐ(proprioception) ์ ๋ณด๋ง ํ์ฉํ๊ณ , ์ด๊ฐ/ํ ์ผ์๋ ์ฌ์ฉํ์ง ์์์ต๋๋ค. ํ๋์จ์ด ํ๊ณ๋ก ์คํ์ ํฌํจํ์ง ๋ชปํ์ง๋ง, ์ ์ด์ด ๋ง์ ์ค์ ์๋๋ฆฌ์ค์์ ์ด๋ฌํ ์ค์๊ฐ ํ ์ผ์ฑ์ด ์๋ค๋ฉด ๋์ฑ ์ ๊ตํ ์ ์ด๊ฐ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ฏธ๋์๋ ๊ณ ์ฑ๋ฅ ์ด๊ฐ ์ผ์๋ฅผ ํตํฉํ๊ณ , ๋์๊ฐ ํ๋์จ์ด๊ฐ ์ง์๋๋ค๋ฉด ์ค์๊ฐ์ผ๋ก ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ์จ๋ผ์ธ ํ์ต๊น์ง ๋์ ํ์ฌ (์์ปจ๋ ์ค์ ์ํ ์ค ์ฝ๊ฐ์ ์ถ๊ฐ PPO ํ์ธํ๋ ๋ฑ) ์ ์ ์ ์ด๋ฅผ ํ์ธต ๊ณ ๋ํํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ๋ ํ๋์ ์์ ์ ํนํ๋ ๋ ๋ชจ๋๋ก ์ ์ฑ ์ ํ๋ จํ๋๋ฐ, ์ด๋ ๊ฐ๊ฐ์ ์์ ์ ๋ณ๋ ํ์ต์ด ํ์ํจ์ ์๋ฏธํฉ๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ์กฐ์ ์์ ์ ๋ํด ๊ณต์ฉ์ ์ ์ด ํ๋ผ๋ฏธํฐ ์์ธก ๋ชจ๋์ ๊ฐ๋๋ก ์ ์ฑ ์ ํ์ฅํ๋ ์ฐ๊ตฌ๋ ๊ณ ๋ ค๋๊ณ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก๋ ๋ค์ํ ๋ก๋ด ์ ํ๋ซํผ์๋ ๋ณธ ๋ฐฉ๋ฒ์ ์ ์ฉํด๋ณด๋ ๊ฒ์ด ๋ชฉํ์ธ๋ฐ, Leap Hand ์ด์ธ์ ๋ค๋ฅธ ์์ ์ผ๋ฐํ๋๋์ง๋ ํฅํ ๊ฒ์ฆํ ๊ณํ์ ๋๋ค.
DexCtrl์ด ๋ณด์ฌ์ค ์ ์ํ ์ ์ด ํ์ต ๊ฐ๋ ์, ํฅํ ์ธ๊ฐ ์์ค์ ์ฌ์ธํ ๋ก๋ด ์กฐ์์ ์คํํ๋ ๋ฐ ์ค์ํ ๋จ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ฌ๋์ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ํ ์กฐ์ ์ ๋ฌด์์์ ์ผ๋ก ์ ํ๋๋ฐ, ์ด์ ๋ก๋ด๋ ํ์ต์ ํตํด ๊ทธ๋ฌํ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ ์์์ ์ฆ๋ช ํ ๊ฒ์ ๋๋ค. ๋ณต์กํ ์ ์ด์ด ์กด์ฌํ๋ ํ๊ฒฝ์์๋ ์์ ์ ์ด๋ฉด์ ๋ฏผ์ฒฉํ(dexterous yet robust) ๋ก๋ด ์ ์ด๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ธ DexCtrl์ ์ฑ๊ณผ๋, ํฅํ sim-to-real ๋ฌธ์ ๋ฅผ ๋์ด ์ค์ ์ฐ์ ๋ฐ ์ผ์์์ ๋ค์ฌ๋ค๋ฅํ ๋ก๋ด ์์ ๊ตฌํํ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ๋ ๊ฐํํ์ต ์ ์ฑ ๊ณผ ๊ณ ์ ์ ์ด์ ๋ง๋จ์ ์ฐฝ์์ ์ผ๋ก ์ด๋ฃจ์ด๋ธ ์ฌ๋ก๋ก์, ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ์๋ค์๊ฒ ์์ฌํ๋ ๋ฐ๊ฐ ํฌ๋ฉฐ, ์ถํ ๋ค์ํ ํ์ฅ๊ณผ ํ์ฉ์ด ๋ค๋ฐ๋ฅผ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Shuqi Zhao et al., โDexCtrl: Towards Sim-to-Real Dexterity with Adaptive Controller Learning,โ arXiv preprint arXiv:2505.00991, 2025.
- Ankur Handa et al., โDexPilot: Vision Based Teleoperation of Dexterous Robotic Hand-Arm System,โ ICRA 2020, arXiv:1910.03135.