๐ManipTrans ๋ฆฌ๋ทฐ
- ์ด ๋ ผ๋ฌธ์ ๋ณต์กํ ์์ ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ ํจ์จ์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ํ MANIPTRANS๋ผ๋ ์๋ก์ด 2๋จ๊ณ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- MANIPTRANS๋ ๋จผ์ ์ ๊ถค์ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ ํ, ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ ์ ์ฝ์ ์ํ ์์ฌ ํ์ต์ ํตํด ์ธ๊ฐ ๋์์ ์ ํํ๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฒ ๋ชจ๋ฐฉํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด SOTA๋ณด๋ค ์ฑ๊ณต๋ฅ , ์ ํ๋, ํจ์จ์ฑ ๋ฉด์์ ๋ฐ์ด๋๋ฉฐ, ๋๊ท๋ชจ ์์ ์กฐ์ ๋ฐ์ดํฐ์ ์ธ DEXMANIPNET์ ๊ตฌ์ถํ๊ณ ๋ค์ํ ๋ก๋ด ์ ์ฒด์ ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.

Brief Review
Embodied AI ๋ถ์ผ๋ dexterous robotic manipulation ์ฐ๊ตฌ๊ฐ ์ฆ๊ฐํ๋ฉฐ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ต๋๋ค. ๋ฐ์ดํฐ ์ค์ฌ Embodied AI ์๊ณ ๋ฆฌ์ฆ์ ์ ๋ฐํ๊ณ ๋๊ท๋ชจ์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์กฐ์ ์ํ์ค๋ฅผ ํ์๋ก ํ์ง๋ง, ๊ธฐ์กด ๊ฐํ ํ์ต(RL)์ด๋ ์ค์ ํ๊ฒฝ์์์ Teleoperation์ ์ด๋ฌํ ๋ฐ์ดํฐ๋ฅผ ์ป๋ ๋ฐ ์ด๋ ค์์ด ์์ต๋๋ค. RL์ task-specific reward function ์ค๊ณ๊ฐ ํ์ํ์ฌ ํ์ฅ์ฑ๊ณผ ์์ ๋ณต์ก์ฑ์ ์ ํ์ด ์๊ณ , Teleoperation์ ๋ ธ๋ ์ง์ฝ์ ์ด๊ณ ๋น์ฉ์ด ๋ง์ด ๋ค๋ฉฐ Embodiment-specific ๋ฐ์ดํฐ๋ง ์์ฑํฉ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ MANIPTRANS๋ฅผ ์๊ฐํฉ๋๋ค. MANIPTRANS๋ ์ธ๊ฐ์ ์์(bimanual) ์กฐ์ ๊ธฐ์ ์ ์๋ฎฌ๋ ์ด์ ์์ dexterous robotic hand๋ก ํจ์จ์ ์ผ๋ก ์ด์ ํ๊ธฐ ์ํ ์๋ก์ด 2๋จ๊ณ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค. MANIPTRANS๋ ๋จผ์ ์ ๋์์ ๋ชจ๋ฐฉํ๋ generalist trajectory imitator๋ฅผ ์ฌ์ ํ์ตํ๊ณ , ๊ทธ ๋ค์ ์ํธ์์ฉ ์ ์ฝ ์กฐ๊ฑด ํ์์ ํน์ residual module์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ณต์กํ ์์ ์์ ์ ํจ์จ์ ์ธ ํ์ต๊ณผ ์ ํํ ์คํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
MANIPTRANS์ ํต์ฌ ์์ด๋์ด๋ ์ด์ ํ๋ก์ธ์ค๋ฅผ ๋ ๋จ๊ณ๋ก ๋ถ๋ฆฌํ๋ ๊ฒ์ ๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ ๋์ ๋ชจ๋ฐฉ์ ์ด์ ์ ๋ง์ถ ์ฌ์ ํ์ต ๋จ๊ณ์ด๋ฉฐ, ๋ ๋ฒ์งธ ๋จ๊ณ๋ ์ํธ์์ฉ ์ ์ฝ ์กฐ๊ฑด์ ์ถฉ์กฑํ๊ธฐ ์ํ ํน์ action ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์ ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ๋ ฅํ generalist model์ด ๋ ธ์ด์ฆ์๋ ๊ฐ๊ฑดํ๊ฒ ์ธ๊ฐ ์๊ฐ๋ฝ ๋์์ ์ ํํ๊ฒ ๋ชจ๋ฐฉํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ด ์ด๊ธฐ ๋ชจ๋ฐฉ์ ๊ธฐ๋ฐ์ผ๋ก residual learning module์ ๋์ ํ์ฌ ๋ก๋ด์ actions์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค. ์ด ๋ชจ๋์ 1) ๋ฌผ๋ฆฌ์ ์ ์ฝ ํ์์ ๊ฐ์ฒด ํ๋ฉด๊ณผ์ ์์ ์ ์ธ ์ ์ด์ ๋ณด์ฅํ์ฌ ํจ๊ณผ์ ์ธ ๊ฐ์ฒด ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , 2) ์์์ ํ๋ ฅ์์ผ ๋ณต์กํ ์์ ์์ ์ ์ ๋ฐํ๊ณ ๊ณ ํ์ง(high-fidelity) ์คํ์ ๋ณด์ฅํ๋ ๋ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์ ์ง์คํฉ๋๋ค.
์ด ์ค๊ณ์ ์ฅ์ ์ ์ธ ๊ฐ์ง์ ๋๋ค.
- ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํตํ ๋์ ์ ๋ชจ๋ฐฉ์ ์ง์คํ์ฌ ํํํ์ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํฉ๋๋ค.
- ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๋ฒ์งธ ๋จ๊ณ๋ ์์ ๊ฐ์ฒด ์ํธ์์ฉ ์ถ์ ์ ์ง์คํ์ฌ ๋ฏธ๋ฌํ ์์ง์์ ์ ํํ๊ฒ ํฌ์ฐฉํ๊ณ ์์ฐ์ค๋ฌ์ด ๊ณ ํ์ง ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์ธ๊ฐ ์ ๋์ ๋ชจ๋ฐฉ๊ณผ physics-based object interaction constraints๋ฅผ ๋ถ๋ฆฌํ์ฌ action space ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์ฌ ํ์ต ํจ์จ์ฑ์ ํฅ์์ํต๋๋ค.
์ด ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก MANIPTRANS๋ ์์์, ๋ ธ์ด์ฆ๊ฐ ํฌํจ๋ ์ MoCap ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ๋์์ผ๋ก ์์ ํฉ๋๋ค. ์ด๋ ๋ฏธ๋ฆฌ ์ ์๋ ๋จ๊ณ(์: โ์ ๊ทผ-์ก๊ธฐ-์กฐ์โ)๋ task-specific reward engineering ์์ด ์ด๋ฃจ์ด์ง๋๋ค.
3. Method
MANIPTRANS๋ ์ฃผ์ด์ง ์ธ๊ฐ ์-๊ฐ์ฒด ์ํธ์์ฉ reference trajectories๋ฅผ dexterous robotic hand๊ฐ ์๋ฎฌ๋ ์ด์ ์์ ์ ํํ๊ฒ ๋ณต์ ํ๊ณ task์ semantic manipulation constraints๋ฅผ ๋ง์กฑํ๋๋ก ํ๋ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด 2๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
3.1. Preliminaries
๋ณต์กํ ์์ ํ๊ฒฝ์์ ์กฐ์ ์ด์ ๋ฌธ์ ๋ฅผ ๊ณต์ํํฉ๋๋ค. ์ผ์๊ณผ ์ค๋ฅธ์ dexterous hand d=\{d_l, d_r\}๋ ๋ ๊ฐ์ ๊ฐ์ฒด o=\{o_l, o_r\}์ ํ๋ ฅ์ ์ผ๋ก ์ํธ์์ฉํ๋ ์ธ๊ฐ ์ h=\{h_l, h_r\}์ ํ๋์ ๋ณต์ ํฉ๋๋ค. ์ธ๊ฐ demonstration์ reference trajectories๋ T^h=\{\tau_t^h\}_{t=1}^T์ T^o=\{\tau_t^o\}_{t=1}^T๋ก ์ ์๋ฉ๋๋ค.
\tau_t^h๋ wrist์ 6-DoF pose w^h \in SE(3), linear ๋ฐ angular velocities \dot{w}^h=\{v^h, u^h\}, MANO [96]๋ก ์ ์๋ finger joint positions j^h \in R^{F \times 3} ๋ฐ velocities \dot{j}^h=\{v^j, u^j\}๋ฅผ ํฌํจํฉ๋๋ค. F๋ ์ keypoint ์์ ๋๋ค. \tau_t^o๋ ๊ฐ ๊ฐ์ฒด์ 6-DoF pose p_t^o \in SE(3)์ velocities \dot{p}_t^o=\{v^o, u^o\}๋ฅผ ํฌํจํฉ๋๋ค. ๊ณต๊ฐ ๋ณต์ก์ฑ ๊ฐ์๋ฅผ ์ํด ๋ชจ๋ translation์ dexterous hand์ wrist position์ ์๋์ ์ผ๋ก ์ ๊ทํ๋ฉ๋๋ค.
๋ฌธ์ ๋ Implicit Markov Decision Process (MDP) M=\langle S, A, \mathcal{T}, R, \gamma \rangle๋ก ๋ชจ๋ธ๋ง๋ฉ๋๋ค. (State space S, Action space A, Transition dynamics \mathcal{T}, Reward function R, discount factor \gamma) ๊ฐ dexterous hand์ ์๊ฐ t์์์ action a_t \in A๋ PD control์ ์ํ ๊ฐ joint์ target positions a_t^q \in R^K์ robotic wrist์ ๊ฐํด์ง๋ 6-DoF force a_t^w \in R^6๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. K๋ robotic hand์ DoF์ ๋๋ค.
์ด์ ํ๋ก์ธ์ค๋ ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค.
- ์ฌ์ ํ์ต๋ hand-only trajectory imitation model I,
- coarse actions๋ฅผ task-compliant actions๋ก fine-tuningํ๋ residual module R. ์๊ฐ t์์์ state๋ ๊ฐ ๋จ๊ณ๋ณ๋ก s_t^I \in S_I์ s_t^R \in S_R๋ก ์ ์๋๋ฉฐ, ์์ํ๋ reward functions๋ r_t^I = R(s_t^I, a_t^I) ๋ฐ r_t^R = R(s_t^R, a_t^R)์ ๋๋ค.
๋จ๊ณ ๋ชจ๋ Proximal Policy Optimization (PPO) ๋ฅผ ์ฌ์ฉํ์ฌ discounted reward E[\sum_{t=1}^T \gamma^{t-1} r_t^{stage}]๋ฅผ ์ต๋ํํฉ๋๋ค.
3.2. Hand Trajectory Imitating
์ด ๋จ๊ณ์ ๋ชฉํ๋ ์์ธํ ์ธ๊ฐ ์๊ฐ๋ฝ ๋์์ ์ ํํ๊ฒ ๋ณต์ ํ๋ general hand trajectory imitation model I๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ๊ฐ dexterous hand์ ์๊ฐ t์์์ state๋ s_t^I = \{\tau_t^h, s_t^{prop}\}๋ก ์ ์๋๋ฉฐ, target hand trajectory \tau_t^h์ ํ์ฌ proprioception s_t^{prop} = \{q_t^d, \dot{q}_t^d, w_t^d, \dot{w}_t^d\}๋ฅผ ํฌํจํฉ๋๋ค. q_t^d, w_t^d๋ ๊ฐ๊ฐ joint angles์ wrist poses์ ๋๋ค. RL์ ์ฌ์ฉํ์ฌ policy \pi_I(a_t | s_t^I, a_{t-1})๋ฅผ ํ์ตํ์ฌ actions a_t^I๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
Reward Functions: r_t^I๋ dexterous hand๊ฐ reference hand trajectory \tau_t^h๋ฅผ ์ถ์ ํ๋ฉด์ ์์ ์ฑ๊ณผ ๋ถ๋๋ฌ์์ ๋ณด์ฅํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- Wrist tracking reward r_t^{wrist}: w_t^d \ominus w_t^h์ \dot{w}_t^d - \dot{w}_t^h์ ์ฐจ์ด๋ฅผ ์ต์ํํฉ๋๋ค. โ๋ SE(3) ๊ณต๊ฐ์์์ ์ฐจ์ด์ ๋๋ค.
- Finger imitation reward r_t^{finger}: Dexterous hand๊ฐ reference finger joint positions๋ฅผ ๋ฐ์ฐฉ ์ถ์ ํ๋๋ก ์ฅ๋ คํฉ๋๋ค. MANO model์ ํด๋นํ๋ F๊ฐ์ ์๊ฐ๋ฝ keypoint j_t^d๋ฅผ dexterous hand์ manually selection ํฉ๋๋ค. Weights w_f์ decay rates \lambda_f๋ ์๊ฐ๋ฝ ๋, ํนํ ์์ง, ๊ฒ์ง, ์ค์ง์ ๊ฐ์กฐ๋ฅผ ๋ก๋๋ค. ์ด๋ ์ธ๊ฐ๊ณผ ๋ก๋ด ์์ ํํํ์ ์ฐจ์ด ์ํฅ์ ์ํํฉ๋๋ค. r_t^{finger} = \sum_{f=1}^F w_f \cdot \exp (-\lambda_f \|j_t^d - j_t^h\|_2^2).
- Smoothness Reward r_t^{smooth}: ๊ฐ joint์ ๊ฐํด์ง๋ power์ ๋ฒ์ ์ ์ค๋๋ค.
\text{Total reward:} r_t^I = w_{wrist} \cdot r_t^{wrist} + w_{finger} \cdot r_t^{finger} + w_{smooth} \cdot r_t^{smooth}
Training Strategy:
์ ๋ชจ๋ฐฉ์ ๊ฐ์ฒด ์ํธ์์ฉ์์ ๋ถ๋ฆฌํ์ฌ, \pi_I๋ ํ๋ํ๊ธฐ ์ด๋ ค์ด ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง ์์ต๋๋ค. ๊ธฐ์กด hand motion datasets์ synthetic data๋ฅผ ํฌํจํ hand-only datasets๋ฅผ ์ฌ์ฉํ์ฌ policy๋ฅผ ํ์ตํฉ๋๋ค. ํจ์จ์ฑ์ ์ํด Reference State Initialization (RSI)์ early termination์ ์ฌ์ฉํฉ๋๋ค. Dexterous hand keypoint j_t^d๊ฐ ์๊ณ๊ฐ \epsilon_{finger} ์ด์ ๋ฒ์ด๋๋ฉด ์ํผ์๋๊ฐ ์กฐ๊ธฐ ์ข ๋ฃ๋๊ณ ๋ฌด์์๋ก ์ํ๋ง๋ MoCap state๋ก ์ฌ์ค์ ๋ฉ๋๋ค. Curriculum learning ์ ์ฌ์ฉํ์ฌ \epsilon_{finger}๋ฅผ ์ ์ง์ ์ผ๋ก ์ค์ฌ ์ด๊ธฐ ๋์ ํ์ ํ ๋ฏธ์ธํ ์๊ฐ๋ฝ ์ ์ด์ ์ง์คํฉ๋๋ค.
3.3. Residual Learning for Interaction
์ฌ์ ํ์ต๋ \pi_I๋ฅผ ๊ธฐ๋ฐ์ผ๋ก residual module R์ ์ฌ์ฉํ์ฌ coarse actions๋ฅผ fine-tuneํ๊ณ task-specific constraints๋ฅผ ๋ง์กฑ์ํต๋๋ค.
State Space Expansion for Interaction: Dexterous hand์ object ๊ฐ ์ํธ์์ฉ์ ๊ณ ๋ คํ์ฌ hand-related state s_t^I ์ธ์ ์ถ๊ฐ interaction-related information์ ํตํฉํ์ฌ state space๋ฅผ ํ์ฅํฉ๋๋ค.
- Object information: MoCap ๋ฐ์ดํฐ์ object meshes o์ convex hull หo๋ฅผ simulation ํ๊ฒฝ์์ ์์ฑ. Reference T^o ๋ฐ๋ผ ๊ฐ์ฒด ์กฐ์ ์ํด ๊ฐ์ฒด์ position p_t^{\hat{o}} (wrist position w_t^d ๊ธฐ์ค), velocities \dot{p}_t^{\hat{o}}, center of mass m_t^{\hat{o}}, gravitational force vector G_t^{\hat{o}} ํฌํจ. ๊ฐ์ฒด ํ์ ์ธ์ฝ๋ฉ ์ํด BPS [91] ์ฌ์ฉ.
- Spatial relationship: ์๊ณผ ๊ฐ์ฒด ๊ฐ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ distance metric D(j_t^d, p_t^{\hat{o}}) = \|j_t^d - p_t^{\hat{o}}\|_2^2์ผ๋ก ์ธ์ฝ๋ฉ.
- Contact force C_t: Simulation์์ ์ป์ contact force๋ฅผ ๋ช ์์ ์ผ๋ก ํฌํจ. ์์ ์ ์ธ grasping๊ณผ manipulation์ ์ค์.
Expanded interaction state: s_t^{interact} = \{\tau_t^o, p_t^{\hat{o}}, \dot{p}_t^{\hat{o}}, m_t^{\hat{o}}, G_t^{\hat{o}}, \text{BPS}(\hat{o}), D(j_t^d, p_t^{\hat{o}}), C_t\} Combined state: s_t^R = s_t^I \cup s_t^{interact}
Residual Actions Combining Strategy: Goal์ initial imitation actions a_t^I๋ฅผ refineํ๋ residual actions \Delta a_t^R๋ฅผ ํ์ตํ์ฌ task compliance๋ฅผ ๋ณด์ฅํ๋ ๊ฒ์ ๋๋ค. ์ต์ข action์ a_t = a_t^I + \Delta a_t^R๋ก ๊ณ์ฐ๋๋ฉฐ, residual action์ element-wise๋ก ๋ํด์ง๋๋ค. ๊ฒฐ๊ณผ action a_t๋ dexterous hand์ joint limit์ ๋ง๊ฒ clipping๋ฉ๋๋ค. ํ์ต ์ด๊ธฐ์๋ dexterous hand ์์ง์์ด ์ด๋ฏธ reference hand trajectory์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ residual actions์ 0์ ๊ฐ๊น๋๋ก ์์๋๋ฉฐ, ์ด๋ model collapse๋ฅผ ๋ฐฉ์งํ๊ณ convergence๋ฅผ ๊ฐ์ํํฉ๋๋ค. Residual module์ zero-mean Gaussian distribution์ผ๋ก ์ด๊ธฐํํ๊ณ warm-up strategy๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ง์ ์ผ๋ก ํ์ต์ ํ์ฑํํฉ๋๋ค.
Reward Functions: Task-agnosticํ๊ฒ ์ค๊ณ๋์ด task-specific reward engineering์ ํผํฉ๋๋ค.
- Hand imitation reward r_t^I (Sec 3.2) ํฌํจ.
- Object following reward r_t^{object}: Simulated object์ reference trajectory ๊ฐ positional ๋ฐ velocity ์ฐจ์ด ์ต์ํ (p_t^{\hat{o}} \ominus p_t^o and \dot{p}_t^{\hat{o}} - \dot{p}_t^o).
- Contact force reward r_t^{contact}: MoCap ๋ฐ์ดํฐ์์ hand-object distance๊ฐ ์๊ณ๊ฐ \xi_c ์ดํ์ผ ๋ ์ ์ ํ contact force ์ฅ๋ ค. r_t^{contact} = w_c \cdot \exp ( -\lambda_c \sum_{f=1}^F C_{t,f}^d \cdot \mathbf{1}_{D(j_{t,f}^h, p_t^o \cdot o) < \xi_c} ). ์ฌ๊ธฐ์ \mathbf{1}(\cdot)์ indicator function, C_{t,f}^d๋ fingertip์์์ contact force์ ๋๋ค.
\text{Total reward: } r_t^R = r_t^I + w_{object} \cdot r_t^{object} + w_{contact} \cdot r_t^{contact}
Training Strategy: QuasiSim ์์ ์๊ฐ์ ๋ฐ์ relaxation mechanism์ ๋์ . Isaac Gym ํ๊ฒฝ์์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด์ ์ง์ ์กฐ์ ํ์ฌ ํ์ต ํจ์จ์ฑ ํฅ์. ์ด๊ธฐ์๋ gravitational constant G๋ฅผ 0์ผ๋ก, friction coefficient F๋ฅผ ๋์ ๊ฐ์ผ๋ก ์ค์ . ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ G๋ฅผ ์ค์ ๊ฐ์ผ๋ก ๋ณต์ํ๊ณ F๋ฅผ ์ ์ ํ ๊ฐ์ผ๋ก ๊ฐ์. Imitation ๋จ๊ณ์ ์ ์ฌํ๊ฒ RSI, early termination(p_t^{\hat{o}}๊ฐ \epsilon_{object} ๋ฒ์ด๋ ์), curriculum learning ์ฌ์ฉ (\epsilon_{object} ์ ์ง์ ๊ฐ์). Contact termination ์กฐ๊ฑด ์ถ๊ฐ: MoCap์์ ์ธ๊ฐ ์์ด ๋จ๋จํ ์ก๊ณ ์์์ ๋ํ๋ผ ๋(D(j_{t,f}^h, p_t^o \cdot o) < \xi_t) C_{t,f}^d๊ฐ 0์ด ์๋์ด์ผ ํจ. ์ด ์กฐ๊ฑด์ ์ถฉ์กฑํ์ง ๋ชปํ๋ฉด ์กฐ๊ธฐ ์ข ๋ฃ.
3.4. DEXMANIPNET Dataset
MANIPTRANS๋ฅผ ์ฌ์ฉํ์ฌ DEXMANIPNET ๋ฐ์ดํฐ์ ์ ์์ฑํฉ๋๋ค. FAVOR์ OakInk-V2 ๋ ๋ํ์ ๋๊ท๋ชจ hand-object interaction datasets์์ ํ์๋ฉ๋๋ค. OakInk-V2๋ pen capping, bottle unscrewing ๊ฐ์ ๋ณต์กํ ์ํธ์์ฉ์, FAVOR๋ object rearrangement ๊ฐ์ ๊ธฐ์ด ์์ ์ ํฌํจํฉ๋๋ค. Dexterous robotic hand์ ํ์คํ ๋ถ์กฑ์ผ๋ก Inspire Hand (simulated 12-DoF)๋ฅผ ์ฃผ์ ํ๋ซํผ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
DEXMANIPNET์ 61๊ฐ์ง ๋ค์ํ๊ณ ์ด๋ ค์ด task๋ฅผ ํฌํจํ๋ฉฐ, 1.2K๊ฐ ๊ฐ์ฒด์ ๋ํ 3.3K episode์ robotic hand manipulation, ์ด 1.34 million frames์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ด ์ค ์ฝ 600 sequence๋ ๋ณต์กํ ์์ task๋ฅผ ํฌํจํฉ๋๋ค. ๊ฐ episode๋ Isaac Gym ์๋ฎฌ๋ ์ด์ ์์ ์ ํํ๊ฒ ์คํ๋ฉ๋๋ค.
4. Experiments
MANIPTRANS๋ฅผ manipulation precision, task compliance, transfer efficiency ์ธก๋ฉด์์ ํ๊ฐํฉ๋๋ค. Metrics๋ ์์ adapted๋์์ผ๋ ์์ task ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋ ์๊ฒฉํฉ๋๋ค.
- Per-frame Average Object Rotation and Translation Error: E_r = \frac{1}{TP} \sum_{t=1}^T (\text{prot}_t^{\hat{o}} \cdot (\text{prot}_t^o)^{-1}) E_t = \frac{1}{TP} \sum_{t=1}^T \| \text{ptsl}_t^{\hat{o}} - \text{ptsl}_t^o \|_2^2 Degree์ cm๋ก ๋ณด๊ณ .
- Mean Per-Joint Position Error (cm): E_j = \frac{1}{T \cdot F} \sum_{t=1}^T \sum_{f=1}^F \| j_t^d - j_t^h \|_2^2 Hand joint ์์น ํ๊ท ์ค๋ฅ.
- Mean Per-Fingertip Position Error (cm): E_{ft} = \frac{1}{T \cdot M} \sum_{t=1}^T \sum_{ft=1}^M \| t_t^{df t} - t_t^{hf t} \|_2^2 Fingertip motion ๋ชจ๋ฐฉ ํ์ง ํ๊ฐ. M์ ๋จ์ 5, ์์ 10.
- Success Rate (SR): E_r, E_t, E_j, E_{ft}๊ฐ ๊ฐ๊ฐ 30โฆ, 3 cm, 8 cm, 6 cm ์ดํ์ผ ๋ ์ฑ๊ณต. ์์ task๋ ์ด๋ ํ ์์ด๋ผ๋ ์กฐ๊ฑด์ ๋ง์กฑ ๋ชปํ๋ฉด ์คํจ.
Implementation Details: ๊ฐ dexterous robotic hand์ 21๊ฐ keypoints (fingertips, palm, phalangeal positions) ์๋ ์ ํ. Curriculum learning (\epsilon_{finger}: 6cm to 4cm, \epsilon_{object}: 90โฆ/6cm to 30โฆ/2cm). PPO ์ฌ์ฉ. Batch size 1024, \gamma=0.99. Isaac Gym ํ๊ฒฝ, 4096 environments ๋ณ๋ ฌ ์คํ (RTX 4090, i9-13900KF).
4.3. Evaluations
RL-combined methods์ optimization-based methods ๋น๊ต.
- RL-Combined: RL-Only, Retarget + Residual (human-robot keypoint alignment ํ residual action), Retarget-Only (naive baseline).
- Table 1: MANIPTRANS๊ฐ ๋ชจ๋ baseline ๋๋น ์ฐ์ํ precision๊ณผ SR (ํนํ bimanual SR 39.5% vs 13.9%, 12.1%, 0.0%). Retarget-Only๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ. RL-Only๋ ๋น์ต์ . Retarget+Residual ๋๋น ์ฌ์ ํ์ต ๋ชจ๋ธ ํ์ฉ์ผ๋ก ๋ ์ ํํ ์กฐ์ ๊ฐ๋ฅ. Retargeting ๋ฐฉ์์ ์ ์ด์ด ๋ง์ ์ํฉ์์ ๋ถ์์ ์ฑ ์ ๋ฐ. Fig 3์ MANIPTRANS์ qualitative ๊ฒฐ๊ณผ.
- Optimization-Based (QuasiSim ): Qualitative ๋น๊ต (Fig 4). MANIPTRANS๊ฐ Shadow Hand์์ ๋ ์์ฐ์ค๋ฝ๊ณ ์์ ์ ์ธ ์ ์ด, ๋ถ๋๋ฌ์ด ๋์ ์์ฑ. Efficientcy ์ธก๋ฉด์์ MANIPTRANS๊ฐ ํจ์ฌ ๋น ๋ฆ (minutes vs hours).
4.4. Cross-Embodiments Validation
Shadow Hand , articulated MANO hand [27, 96], Inspire Hand , Allegro Hand (DoF: 22, 22, 12, 16) ๋ฑ ๋ค์ํ embodiment์ ๋ํ extensibility ์์ฐ (Fig 4, 5, Appx A). ์ธ๊ฐ ์๊ฐ๋ฝ๊ณผ ๋ก๋ด joint ๊ฐ correspondence์๋ง ์์กดํ์ฌ embodiment-agnostic. Network hyperparameters๋ reward weights ๋ณ๊ฒฝ ์์ด ์ผ๊ด๋, ๋ถ๋๋ฝ๊ณ ์ ๋ฐํ ์ฑ๋ฅ ๋ฌ์ฑ. Allegro Hand (4 finger, ํผ) ์ ์ ์ํด fingertip mapping ๋ฐ \epsilon_{finger} (8cm๋ก ์ํ) ์กฐ์ . Appx A.3 (Table 3)๋ ํ์ฅ ์คํ ์ค์ ์์ฝ.
4.5. Real-World Deployment
๋ ๋์ 7-DoF Realman arm [95]๊ณผ upgraded Inspire Hands (tactile sensors ์ถ๊ฐ) ์ฌ์ฉ (Fig 6). Simulation์ 12-DoF ๋ก๋ด ์๊ณผ ์ค์ 6-DoF ํ๋์จ์ด ๊ฐ ๊ฒฉ์ฐจ ํด์๋ฅผ ์ํด fitting-based method ์ฌ์ฉ: fingertip alignment๋ฅผ ์ํด ์ค์ ๋ก๋ด์ joint angles qฬd \in R^6 ์ต์ ํ argmin_{qฬd} \frac{1}{T \cdot M} \sum_{t=1}^T \sum_{ft=1}^M \|t_t^{df t} - t_t^{\tilde{d}f t}\|_2^2. ์ถ๊ฐ temporal smoothness loss L_{smooth} = \frac{1}{T-1}\sum_{t=1}^{T-1} \|q_{t+1}^{\tilde{d}} - q_t^{\tilde{d}}\|_2^2 ํฌํจ. Inverse kinematics๋ก arm ์ ์ด. Replay ์ strict temporal alignment๋ ๊ฐ์ ํ์ง ์์. โOpening the toothpasteโ ๋ฑ ๋ณต์กํ ๋ฏธ์ธ ์์ ์กฐ์ ์ฑ๊ณต ์์ฐ.
4.6. Ablation Studies
- Tactile Information: Contact force C๋ฅผ observation, reward, termination ์กฐ๊ฑด์ผ๋ก ํตํฉ ํจ๊ณผ ๋ถ์ (Fig 7a). Reward์ C ํฌํจ ์ SR ๊ฐ์ . Observation ์ ์๋ ด ๊ฐ์. Termination ์กฐ๊ฑด์์ C ์ ์ธ ์ ์ด๊ธฐ ์ฑ๋ฅ ์ข์ผ๋ ์๋ ด ๋๋ ค์ง.
- Training Strategy (Curriculum Learning): Gravity relaxation, friction ์ฆ๊ฐ, thresholds relaxation ํจ๊ณผ ๋ถ์ (Fig 7b). Gravity ๋ฌด์, high friction ์ฌ์ฉ ์ ์๋ ด ๊ฐ์ ๋ฐ ์ต์ข SR ์ฆ๊ฐ. Threshold constraints ์ด๊ธฐ ์ํ ์์ผ๋ฉด ์๋ ด ์คํจ ๊ฐ๋ฅ.
4.7. DEXMANIPNET for Policy Learning
DEXMANIPNET์ policy learning ์ ์ฌ๋ ฅ ๋ฒค์น๋งํน. Rearrangement task (bottle to goal)์ IBC , BET [101], Diffusion Policy [25] (UNet, Transformer ๊ธฐ๋ฐ) ์ ์ฉ (Table 2, Fig 11). 85% ํ์ต, 15% ํ๊ฐ. SR์ ๊ฐ์ฒด ์ต์ข ์์น๊ฐ ๋ชฉํ 10cm ์ด๋ด์ผ ๋ ์ฑ๊ณต. Dexterous manipulation task์ ์ด๋ ค์ ๊ฐ์กฐ. Regression-based methods๋ error accumulation ๋ฌธ์ .
5. Conclusion and Discussion
MANIPTRANS๋ ์ธ๊ฐ ์กฐ์ ๊ธฐ์ ์ dexterous robotic hand์ ํจ์จ์ ์ผ๋ก ์ด์ ํ๋ 2๋จ๊ณ ํ๋ ์์ํฌ์ ๋๋ค. ์ ๋์ ๋ชจ๋ฐฉ๊ณผ ๊ฐ์ฒด ์ํธ์์ฉ์ residual learning์ผ๋ก ๋ถ๋ฆฌํ์ฌ ํํํ์ ์ฐจ์ด์ ๋ณต์กํ task ์ด๋ ค์์ ๊ทน๋ณตํ๋ฉฐ ๊ณ ํ์ง ๋์๊ณผ ํจ์จ์ ํ์ต์ ๋ณด์ฅํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ MANIPTRANS๊ฐ SOTA methods๋ฅผ motion precision ๋ฐ computational efficiency ๋ฉด์์ ๋ฅ๊ฐํ๋ฉฐ, cross-embodiment ์ ์์ฑ ๋ฐ real-world deployment ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ํ์ฅ ๊ฐ๋ฅํ DEXMANIPNET์ Embodied AI ๋ฐ์ ์ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํฉ๋๋ค.
Discussion and Limitations: MANIPTRANS๋ ๋๋ถ๋ถ์ MoCap ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ด์ ํ์ง๋ง, ์ผ๋ถ sequence๋ ๊ทธ๋ ์ง ๋ชปํฉ๋๋ค. ์ฃผ์ ์ด์ ๋ 1) ์ํธ์์ฉ poses์ ๊ณผ๋ํ noise, 2) simulation์ ์ํ ๊ฐ์ฒด ๋ชจ๋ธ, ํนํ articulated objects์ ๋ถ์ ํ์ฑ์ ๋๋ค. MANIPTRANS์ ๊ฐ๊ฑด์ฑ ํฅ์๊ณผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ๊ฐ์ฒด ๋ชจ๋ธ ์์ฑ์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋๋ค.
Supplementary Material์์๋ Extensibility (Articulated Object Manipulation - Appx A.1 Fig 8, Challenging Hand Embodiments like Allegro Hand - Appx A.2 Fig 9, Table 3), Robustness Evaluation (noisy hand trajectory input - Appx B Table 4), Time Cost Analysis (Appx C Fig 10), Settings Details (Hand/Dexterous Hand Correspondence, Training/Simulation Parameters - Appx D), DEXMANIPNET Statistics (Table 6), Rearrangement Policy Learning Details (Table 7, Fig 11)๋ฅผ ์ถ๊ฐ๋ก ์ ๊ณตํฉ๋๋ค.
Detail Review
๋ฐฐ๊ฒฝ๊ณผ ๋ฌธ์ ์ ์
ํ๋ ๋ค๊ด์ ๋ก๋ด ์(dexterous robotic hand)์ ์ธ๊ฐ ์์ฒ๋ผ ์ ๊ตํ ์กฐ์์ ๋ชฉํ๋ก ๊ฐ๋ฐ๋๊ณ ์์ผ๋ฉฐ, ํนํ ์์(bimanual) ํ๋ ์์ ์ ์ธ๊ฐ ์์ค์ผ๋ก ๊ตฌํํ๋ ๊ฒ์ ํฐ ๋์ ์ ๋๋ค. ์ธ๊ฐ์ ์์์ ํ ๋๊ป์ ์ด๊ณ ๋ซ๊ฑฐ๋ ๋ณ ๋๊ป์ ๋นํธ๋ ๋ฑ ๋ณต์กํ ํ์กฐ ๋์์ ์ํํ ์ ์์ง๋ง, ๋ก๋ด์๊ฒ ์ด๋ฌํ ๋ฅ๋ ฅ์ ํ์ต์ํค๋ ์ผ์ ์ฝ์ง ์์ต๋๋ค. ๊ธฐ์กด์ ์ ์๋ ๋ฐฉ๋ฒ๋ค์ ๊ฐํํ์ต(RL)์ ํตํด ๋ก๋ด ์ ํ๋์ ์ค์ค๋ก ํ์ํ๊ฒ ํ๊ฑฐ๋, ์ฌ๋ ์กฐ์์ ์๊ฒฉ์กฐ์(teleoperation)์ผ๋ก ๋ฐ์ดํฐ ์์งํ๋ ๋ฐฉ์์ ์ฌ์ฉํด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ํต์ RL์ ๊ณผ์ ๋ณ๋ก ์ ๊ตํ ๋ณด์ ํจ์๋ฅผ ์ค๊ณํด์ผ ํด ํ์ฅ์ฑ์ด ๋จ์ด์ง๊ณ ๋ณต์กํ ๊ณผ์ ์๋ ์ ์ฉ์ด ์ด๋ ต์ต๋๋ค. ํ ๋ ์คํผ๋ ์ด์ ์ ์ฌ๋ ์ด์์๊ฐ ๊ฐ์ํ์ค(VR) ๊ธฐ๊ธฐ๋ฅผ ํ์ฉํด ๋ก๋ด ์์ ์ง์ ์กฐ์ข ํ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋ฐฉ์์ธ๋ฐ, ๋น์ฉยท๋ ธ๋ ฅ ๋ฉด์์ ๋นํจ์จ์ ์ด๊ณ ํ์ ๋ ํ๊ฒฝ์ ํนํ๋ ๋ฐ์ดํฐ์ ๋ง ์ป๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ต๊ทผ์๋ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ(์: ๋ชจ์ ์บก์ฒ MoCap์ผ๋ก ๊ธฐ๋กํ ์ฌ๋ ์ ๋์)๋ฅผ ๋ก๋ด ์์ ๋ชจ๋ฐฉ ์ ์ดํ๋ ์ฐ๊ตฌ๊ฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ์ฌ๋์ ์กฐ์ ๊ถค์ ์ ๋ชจ๋ฐฉํ๋ฉด ์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ฐ์ค๋ฌ์ด ๋ฌผ์ฒด-์ ์ํธ์์ฉ์ ์ป์ ์ ์๊ณ , ๋๊ท๋ชจ MoCap ๋ฐ์ดํฐ์ ๊ณผ ์ ์ถ์ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ์์ง์ ์ธ๊ฐ ์กฐ์ ์ํ์ค๋ฅผ ์ฝ๊ฒ ํ๋ณดํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ด๋ฐ ๋ชจ๋ฐฉ ํ์ต์ ํ๋ฉด ํ์ค์์ ๋ฐ๋ก ์คํํ์ง ์๊ณ ๋ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ ์ ์๋ค๋ ์ฅ์ ๋ ์์ต๋๋ค.
๋ชจ์ ์ ์ด(motion transfer) ๋ฌธ์ ๋, ์ธ๊ฐ ๋ ์์ ์กฐ์ ์์ฐ์ ์ฃผ์ด์ง ๋ก๋ด ์์ ์์คํ ์ ์ฎ๊ฒจ์ ๋์ผํ ์์ ์ ์ํํ๋๋ก ๋ง๋๋ ๊ณผ์ ๋ฅผ ๋งํฉ๋๋ค. ๋ณด๋ค ๊ณต์์ ์ผ๋ก, ์ด ๋ ผ๋ฌธ์์๋ ์ผ์๊ณผ ์ค๋ฅธ์ ๋ ๊ฐ์ ๋ค๊ด์ ๋ก๋ด ์์ด ์ฃผ์ด์ง ์ธ๊ฐ์ ์ผ์, ์ค๋ฅธ์ ์์ง์์ ๋ชจ๋ฐฉํด ๋ ๋ฌผ์ฒด๋ฅผ ํ๋ ฅ ์กฐ์ํ๋๋ก ํ๋ ์๋๋ฆฌ์ค๋ก ๋ฌธ์ ๋ฅผ ์ ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํ์ชฝ ์์ด ํ ๋๊ป์ ์ก๊ณ ๋ค๋ฅธ ์์ด ํ ๋ชธ์ฒด๋ฅผ ์ฅ๋ ํ ๋ง๊ฐ ๋ซ๊ธฐ ์์ ์ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์ ๋ ฅ์ผ๋ก๋ ์ธ๊ฐ ์ ์์ฐ์ ์ฐธ์กฐ ๊ถค์ (ํ๋ ์ ์ํ์ค๋ก ํํ๋ ์๋ชฉ์ 6์์ ๋ ์์ธ, ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋ ๋ฐ ๊ฐ์๋ ๋ฑ)๊ณผ ๋ฌผ์ฒด๋ค์ ์์ง์ ๊ถค์ ์ด ์ฃผ์ด์ง๋ฉฐ, ๋ชฉํ๋ ๋ก๋ด ์๋ค์ด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์์ ์ด ์ฐธ์กฐ ๋์์ ์ ํํ ๋ฐ๋ผํ๋ฉด์๋ ์์ ์ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๋ง์กฑํ๋ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ ์ด์ ๊ฐ์ ์์ ์กฐ์ ๋ชจ์ ์ ์ด๋ ๋ช ๊ฐ์ง ์ด๋ ค์์ด ์์ต๋๋ค. ์ฐ์ ์ธ๊ฐ ์๊ณผ ๋ก๋ด ์์ ํํ(morphology)๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋จ์ํ ๊ด์ ๊ฐ๋๋ฅผ ๋งค์นญ์ํค๋ ์ง์ ๋ฆฌํ๊ฒํ ์ ๋ถ์์ฐ์ค๋ฌ์ด ์์ธ๋ฅผ ๋ง๋ค๊ธฐ ์ฝ์ต๋๋ค. ๋, ๋ชจ์บก ๋ฐ์ดํฐ ์์ฒด๊ฐ ์ ํํ๋ค ํ๋๋ผ๋ ํ๋ ์ ๋จ์์ ์์ ์ค์ฐจ๋ค์ด ๋์ ๋๋ฉด ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ๊ณ ์ ๋ฐ ์์ ์์๋ ์คํจ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ํ ์์ด ์๋ ๋ ์์ ๋์์ ์ ์ดํ๋ ค๋ฉด ๋์ ๊ณต๊ฐ์ ์ฐจ์์ด ๋งค์ฐ ๋์์ ธ ํ์ต ๋์ด๋๊ฐ ํญ์ฆํฉ๋๋ค. ์ด๋ฌํ ์ด์ ๋ก ์ ํ ์ฐ๊ตฌ๋ค ๋๋ถ๋ถ์ ๋จ์ผ ์์ grasp(์ฅ๊ธฐ)์ด๋ ๋ฌผ์ฒด ๋ค์ด์ฌ๋ฆฌ๊ธฐ ์ ๋์์ ๋ฉ์ถ๊ณ , ๋ณ ๋๊ป ๋๋ ค ์ด๊ธฐ๋ ํ ๋๊ป ์์ฐ๊ธฐ ๊ฐ์ ๋ณต์กํ ์์ ๋์์ ๊ฑฐ์ ๋ค๋ฃจ์ง ๋ชปํ์ต๋๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ์ด๋ฒ์ ์๊ฐํ ManipTrans (CVPR 2025 ์ฑํ ๋ ผ๋ฌธ)๋ ์ธ๊ฐ์ ์์ ์กฐ์ ์์ฐ์ ๋ก๋ด์ ๋ ์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํนํ โ๋ชจ์ ์ ์ดโ ๋ฌธ์ ๋ฅผ ๋ ๋จ๊ณ๋ก ๋ถํ ํ์ฌ ์๊ฐํ ๋ ์ฐฝ์ ์ ๊ทผ์ด ๋๋ณด์ ๋๋ค. ์ ํต์ ๋ฆฌํ๊ฒํ ๋ฐฉ๋ฒ์ด ๋ชจ์บก ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋ก๋ด ๊ด์ ๋ก ๋งคํํ๋ ค๋ค ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ์์ ํ ๋์์ ๋ง๋ค์ด๋ด๋ ๋ฐ ๋ฐํด, ManipTrans๋ ์์ฐ ๋ชจ์ ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ํ ๊ฐ๋ฅํ ๋ก๋ด ํ๋์ผ๋ก ๋ณํํ๋๋ฐ ์ฑ๊ณต์ ์ ๋๋ค. ๊ทธ๋ฆผ์ ๊ธฐ์กด ๋ฆฌํ๊ฒํ ์ ์คํจ ์ฌ๋ก(๋ก๋ด์ด ๋ชจ์บก ๊ถค์ ์ ๊ทธ๋๋ก ๋ฐ๋ฅด๋ค ๋ฌผ์ฒด๋ฅผ ๋์น๋ ๋ชจ์ต)์ ManipTrans๋ก ํ์ตํ ๊ฒฐ๊ณผ(ํ ๋๊ป ์์ฐ๊ธฐ, ๋ณ ๋ง๊ฐ ์ด๊ธฐ ๋ฑ ๋ค์ํ ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ฌํ)์ ๋น๊ต์ ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ ๋ฐ ํ์ ์
๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝํ ์ ์์ต๋๋ค:
- ์ด์ค ๋ก๋ด ์ ๋ชจ์ ์ ์ด๋ฅผ ์ํ 2๋จ๊ณ ํ๋ ์์ํฌ ์ ์ โ ์ธ๊ฐ์ ์์ ์กฐ์ ๊ธฐ์ ์ ๋ก๋ด์ ์ ๋ฐํ๊ฒ ์ ์ดํ๊ธฐ ์ํด, ๋จผ์ ์ ์์ง์ ์์ฒด๋ฅผ ๋ชจ๋ฐฉํ๊ณ ์ดํ ๋ฌผ์ฒด ์ํธ์์ฉ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ManipTrans ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ก์จ ์ฐธ์กฐ ์/๋ฌผ์ฒด ๊ถค์ ์ ๋ ๋ค ์ ํํ ์ถ์ ํ๋ฉฐ ๊ณผ์ ์ํ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ๋๊ท๋ชจ ๋ชจ์ฌ ๋ฐ์ดํฐ์ DexManipNet ๊ตฌ์ถ โ ์ ์๋ ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ๋ค์ํ ์๋ก์ด ์์ ์กฐ์ ์์ (ํ ๋๊ป ์์ฐ๊ธฐ, ๋ณ๋๊ป ๋๋ ค ์ด๊ธฐ, ์คํ์ฉ ํ๋ผ์คํฌ ํ๋ค๊ธฐ ๋ฑ)๊น์ง ํฌํจํ ๋๊ท๋ชจ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์ ์ ์์ฑํ์ต๋๋ค. DexManipNet์ 3,300๊ฐ ์ํผ์๋์์ ์ฝ 134๋ง ํ๋ ์์ ๋ก๋ด ์ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ด๊ณ ์์ผ๋ฉฐ, 61๊ฐ์ง์ ์ด๋ฅด๋ ํ๋ถํ ์์ ๋ค์ ํฌ๊ดํฉ๋๋ค. ์ด๋ ์ด์ ์ ๊ณต๊ฐ๋ ์ ์ฌ ๋ฐ์ดํฐ์ ๋ค๋ณด๋ค ๊ท๋ชจ๋ ๋ค์์ฑ ๋ฉด์์ ํจ์ฌ ํฌ๋ฉฐ, ํฅํ ๋ก๋ด ์ ์ฑ ํ์ต ์ฐ๊ตฌ์ ๊ท์คํ ์์์ด ๋ ๊ฒ์ ๋๋ค.
- ํ์ํ ์ฑ๋ฅ ๋ฐ ์ผ๋ฐํ โ ์ ์ ๋ฐฉ๋ฒ์ ๋ค์ํ ์คํ์ผ๋ก ๊ฒ์ฆํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ต์ ๊ธฐ๋ฒ ๋๋น ๋์ ์ ๋ฐ๋์ ์ ์ด ์ฑ๊ณต๋ฅ ์์ ํฌ๊ฒ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๊ฐ์ธ์ฉ PC ํ๊ฒฝ์์์กฐ์ฐจ ํ์ต ํจ์จ์ด ์ฐ์ํ์ฌ ์ ์ด ์๋๊ฐ ๋น ๋ฅด๊ณ , ์ฌ๋ฌ ํํ์ ์์ ๋๋ฅผ ๊ฐ์ง ๋ก๋ด ์(์: Shadow Hand, Allegro Hand ๋ฑ)์๋ ์ต์ํ์ ์์ ๋ง์ผ๋ก ์ ์ฉ๋์ด ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ฐํํ์ต๋๋ค. ๋ ๋์๊ฐ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด ์ฅ๋น๋ก ์ฌ์ํ์ฌ, ๊ธฐ์กด ๊ฐํํ์ต์ด๋ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก๋ ๋ฌ์ฑํ์ง ๋ชปํ๋ ๋ฏผ์ฒฉํ๊ณ ์์ฐ์ค๋ฌ์ด ์์ ์กฐ์์ ํ์ค์์๋ ๊ตฌํํด ๋ณด์์ต๋๋ค. ์ด์ฒ๋ผ ManipTrans๋ ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ์ด์ค ๋ก๋ด ์ ๋ชจ์ ์ ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ๋ณต์กํ ์ธ๊ฐ ์กฐ์ ์์ฐ์ ๋ก๋ด์์ ์ ํํ ์ฌํํ๋ ๋ฐ ์ฑ๊ณตํจ์ผ๋ก์จ ํ์ ์ ์ผ๋ก๋ ์ค์ฉ์ ์ผ๋ก ํฐ ์์๋ฅผ ์ง๋๋๋ค.
๊ธฐ์ ์ ๊ตฌ์ฑ: ManipTrans ๋ ๋จ๊ณ ๋ฐฉ๋ฒ๋ก
ManipTrans์ ํต์ฌ ์์ด๋์ด๋ ๋ชจ์ ์ ์ด๋ฅผ โ๋๋ก ๋๋์ดโ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์์ ์์ง์ ์์ฒด์ ์ง์คํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ์์ ๊ทธ ์์ง์์ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ์ธ๋ถ ์กฐ์์ ๋ณด์ ํฉ๋๋ค. ์ด๋ฌํ ๋ถ๋ฆฌ๋ ์ธ๊ฐ-๋ก๋ด ์ ๊ตฌ์กฐ ์ฐจ์ด๋ก ์ธํ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ , ๋์ ์ฐจ์์ ์์ ์ ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ํ ์ ๋ต์ ๋๋ค.
1๋จ๊ณ: ์ ๋์ ๋ชจ๋ฐฉ (Trajectory Imitation Pre-training)
์ด๊ธฐ ๋จ๊ณ์์๋ ๋ฌผ์ฒด์์ ์ํธ์์ฉ์ ๋ฐฐ์ ํ ์ฑ ์์ ๊ณ ์ ํ ์์ง์ ๊ถค์ ์ ๋ชจ๋ฐฉํ๋ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ธ๊ฐ ์์ฐ์์ ์ป์ ์์์ ์๋ชฉ 6์์ ๋ ์์ธ ๋ฐ ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋ ์ํ์ค๋ฅผ ๋ชฉํ๋ก, ๋ก๋ด ์์ด ์ด๋ฅผ ๋์ผํ๊ฒ ๋ฐ๋ผ๊ฐ๋๋ก ํ์ตํฉ๋๋ค[19]. ์ด๋ ๋ก๋ด ์์ ๋ฌผ์ฒด๋ฅผ ์ก๊ฑฐ๋ ํ์ ์ฃผ๋ ๋ฑ์ ์ํธ์์ฉ ์์ด ๊ณต์ค์์ ์๊ฐ๋ฝ ๋ชจ์๊ณผ ์์ง์๋ง ํ๋ด ๋ด๋๋ก ์ค์ ๋ฉ๋๋ค.
ํ์ต์๋ ๊ฐํํ์ต ๊ธฐ๋ฒ(PPO ์๊ณ ๋ฆฌ์ฆ)์ ํ์ฉํ๋ฉฐ, ์ค๊ณ๋ ๋ณด์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ ์์๋ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ์๋ชฉ ์์น/์์ธ ์ถ์ข ๋ณด์: ๋ก๋ด ์๋ชฉ์ด ์ฐธ์กฐ ๊ถค์ ์ ์๋ชฉ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง์ ๋ํ ๋ณด์์ ๋๋ค. ์๋ชฉ์ ์์น์ ๋ฐฉํฅ ์ค์ฐจ๋ฅผ ์ค์ด๋๋ก ์ ๋ํฉ๋๋ค.
- ์๊ฐ๋ฝ ์์ธ ์ถ์ข ๋ณด์: ๋ก๋ด ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋๊ฐ ์ฐธ์กฐ ์ธ๊ฐ ์๊ฐ๋ฝ ๊ด์ ๊ฐ๊ณผ ๊ฐ๊น์์ง๋๋ก ํฉ๋๋ค. ํนํ ์๊ฐ๋ฝ ๋ ์์น๊ฐ ์ ๋ง๋ ๊ฒ์ด ์ค์ํ๋ฏ๋ก, ์ฌ๋ ์ ๋ชจ๋ธ(MANO)๊ณผ ๋์๋๋ ๋ก๋ด ์์ ํต์ฌ ํคํฌ์ธํธ(์์ง, ๊ฒ์ง, ์ค์ง ๋ ๋ง๋ ๋ฑ)์ ๊ฐ์ค์น๋ฅผ ๋์ด ์ ๋ฐ ์ถ์ข ํ๋๋ก ์ค๊ณํ์ต๋๋ค[22]. ์ด๋ ์ฌ๋๊ณผ ๋ก๋ด ์์ ํํ ์ฐจ์ด๋ฅผ ๋ณด์ ํด์ฃผ๋ ์ญํ ์ ํฉ๋๋ค.
- ์์ง์ ๋ถ๋๋ฌ์ ๋ณด์: ๊ฐ์์ค๋ฝ๊ฒ ํ๋ ๋์์ ํผํ๊ธฐ ์ํด, ๋ก๋ด ์ ๊ด์ ์ ๊ฐ์๋ ๋ณํ๋ ํ ํฌ ์ฌ์ฉ๋์ด ๊ณผ๋ํ์ง ์๋๋ก ํ๋ํฐ๋ฅผ ์ค๋๋ค. ์ด๋ฅผ ํตํด ์์ฐ๊ณผ ์ ์ฌํ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์ป์ต๋๋ค.
ํ๋ จ ๋ฐ์ดํฐ๋ก๋ ์ ๋์๋ง ํฌํจ๋ ๋ชจ์บก ๋ฐ์ดํฐ์ ๋ค์ ํ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ธฐ์กด ๊ณต๊ฐ ์ ๋ชจ์ ์ปฌ๋ ์ ๋ฐ ํฉ์ฑ ๋ณด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ณ , ์ข์ฐ ์ ๋์ ๋น๋๋ฅผ ๊ท ํ ๋ง์ถ๊ธฐ ์ํด ์ข์ฐ ๋์นญ ๋ณํ์ ์ ์ฉํ์ต๋๋ค[23]. ๋ฌผ์ฒด๊ฐ ์๋ ์ ๋จ๋ ๋ฐ์ดํฐ๋ก ํ์ตํจ์ผ๋ก์จ, ๋ณต์กํ ๋ฌผ๋ฆฌ ์ํธ์์ฉ ์์ด๋ ์๊ฐ๋ฝ ์์ง์์ ์ ๊ตํ๊ฒ ๋ชจ๋ฐฉํ ์ ์์์ผ๋ฉฐ, ์ด๋ ์ธ๊ฐ-๋ก๋ด ์ ํํ ์ฐจ์ด๋ก ์ธํ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ์ค์ฌ์ค๋๋ค. ๋ํ ํ์ต ํจ์จ์ ๋์ด๊ธฐ ์ํด ์ด๊ธฐ ์ํ๋ฅผ ์์ฐ ๊ถค์ ์ ์์ ์ง์ ์์ ์์(reference state initialization)์ํค๊ณ , ๊ถค์ ์์ ํฌ๊ฒ ๋ฒ์ด๋๋ฉด ์กฐ๊ธฐ ์ข ๋ฃํ์ฌ ๋ค์ ์๋ํ๋๋ก ํ๋ ๋ฑ์ ์ปค๋ฆฌํ๋ผ ์ ๋ต์ ๋์ ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ 1๋จ๊ณ์์๋ ๋ ธ์ด์ฆ์ ๊ฐ์ธํ(hand motion with resilience to noise) ๋ฒ์ฉ ์ ๋ชจ์ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ์ป์ด์ก์ต๋๋ค[25].
2๋จ๊ณ: ์์ฐจ ์ ์ฑ ์ ํตํ ์ํธ์์ฉ ๋ฏธ์ธ ์กฐ์ (Residual Learning Fine-tuning)
1๋จ๊ณ์์ ์๊ฐ๋ฝ ์์ง์์ ์ ๋ฐ๋ผํ๊ฒ ๋ ์ ์ฑ ์ ๋ฐํ์ผ๋ก, ์ด์ ์ค์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์ ์ฝ์ ๋ฐ์ํ๋๋ก Residual Learning ๊ธฐ๋ฒ์ ์ ์ฉํ ์์ฐจ(residual) ์ ์ฑ ์ ํ์ตํฉ๋๋ค. Residual Learning์ด๋, ๊ธฐ์กด ์ ์ฑ ์ ํ๋์ ์์ ๋ณด์ ๋(์์ฐจ)์ ๋ํด์ฃผ๋ ํํ๋ก ์ ์ฑ ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ธฐ์กด ์๋ฃจ์ + ฮฑ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ์์ด ํจ์จ์ ์ด๊ณ ์์ ์ ์ธ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค[27]. ManipTrans์์๋ 1๋จ๊ณ ๋ชจ๋ฐฉ ์ ์ฑ ์ด ๋ด๋ ๊ธฐ๋ณธ ๋์์ ๋ํด, 2๋จ๊ณ ์์ฐจ ์ ์ฑ ์ด ํ์ํ ์ถ๊ฐ ์กฐ์์ ๊ณ์ฐํ์ฌ ํฉ์ฑ๋ ์ต์ข ํ๋์ ๋ก๋ด์ ์คํ์ํต๋๋ค.
์ด๋ 2๋จ๊ณ์์๋ ๋ก๋ด ์์ด ์ค์ ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ๋ค๋ฃจ๋ฏ๋ก, ์ํ ๊ณต๊ฐ(state)์๋ ๋ฌผ์ฒด์์ ์ํธ์์ฉ ์ ๋ณด๊ฐ ์ถ๊ฐ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, 1๋จ๊ณ์ ์ ๊ด์ ์ํ ๋ฑ์ ๋ํด ๋ฌผ์ฒด์ ์ํ(์๋ชฉ ๊ธฐ์ค ์๋ ์์น ๋ฐ ์๋, ์ง๋ ์ค์ฌ, ์ค๋ ฅ ๋ฐฉํฅ ๋ฑ)๋ฅผ ํฌํจ์ํค๊ณ , ๋ฌผ์ฒด์ ๋ชจ์์ BPS(Basis Point Set) ํํ์ผ๋ก ์๋ฒ ๋ฉํ์ฌ ์ ๊ณตํ์ต๋๋ค. ๋ํ ๊ฐ ๋ก๋ด ์๊ฐ๋ฝ ํคํฌ์ธํธ์ ๋ฌผ์ฒด ํ๋ฉด ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํด ์-๋ฌผ์ฒด ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ํผ์ฒ๋ก ๋ฃ๊ณ , ์๋ฎฌ๋ ์ด์ ์ผ๋ก๋ถํฐ ์ป๋ ์๊ฐ๋ฝ-๋ฌผ์ฒด ์ ์ด๋ ฅ๋ ๋ช ์์ ์ผ๋ก ํฌํจ์์ผฐ์ต๋๋ค[30]. ์ด๋ฅผ ํตํด ์ ์ฑ ์ด ์์๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์ธ์งํ๊ณ ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ฅ๊ฑฐ๋ ์กฐ์ํ๋ ๋ฐ ํ์ํ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ์ป๋๋ก ํ์์ต๋๋ค.
Residual ์ ์ฑ ์ ๋์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ์ฐ์ ๋งค ์๋ฎฌ๋ ์ด์ ์คํ ๋ง๋ค 1๋จ๊ณ ๋ชจ๋ฐฉ ์ ์ฑ ์ผ๋ก๋ถํฐ ํ์ฌ ์ํ์์์ ์์ ๋์ a_{\text{im}}์ ์ํ๋งํฉ๋๋ค. ์ด์ด์ Residual ์ ์ฑ ์ ํ์ฅ๋ ์ํ ํํ์ ๋ณด๊ณ ๋ณด์ ํ๋ a_{\text{res}}์ ์ฐ์ถํฉ๋๋ค. ์ต์ข ๋ก๋ด ์ ์ด ๋ช ๋ น์ ์ด ๋์ ํฉ์น a = a_{\text{im}} + a_{\text{res}} ํํ๋ก ๊ฒฐ์ ๋ฉ๋๋ค. (ํ์ํ ๊ฒฝ์ฐ ๋ก๋ด ๊ด์ ํ๊ณ ๋ฑ์ ๋์ง ์๋๋ก ํด๋ฆฌํ ์ฒ๋ฆฌํจ) ์ฒ์ ํ์ต์ ์์ํ ๋๋ ์ด๋ฏธ 1๋จ๊ณ ๋์๋ง์ผ๋ก๋ ์ฐธ์กฐ ๊ถค์ ๊ณผ ์ ์ฌํ ์์ง์์ด ๋์ค๊ธฐ ๋๋ฌธ์, Residual ์ถ๋ ฅ์ 0์ ๊ฐ๊น๊ฒ ์์ํ๋ ๊ฒ์ด ๋ฐ๋์งํฉ๋๋ค. ์ค์ ๋ก๋ Residual ์ ์ฑ ์ ๊ฐ์ค์น๋ ์ฒ์ ํ๊ท 0์ ์์ ๊ฐ๋ค๋ก ์ด๊ธฐํํ๊ณ , ํ์ต ์ด๋ฐ์๋ Residual์ ๊ธฐ์ฌ๋ฅผ ์์ํ ๋๋ ค๊ฐ๋ ์๋ฐ์ ์ ๋ต์ ์ฌ์ฉํ์ฌ ๊ธฐ์กด ๋ชจ๋ฐฉ ๋์์ ํด์น์ง ์๊ณ ๋ฏธ์ธ ์กฐ์ ๋ง ํ์ตํ๋๋ก ์ ๋ํ์ต๋๋ค.
2๋จ๊ณ์ ๋ณด์ ํจ์๋, 1๋จ๊ณ์์ ์ฐ์ธ ์๋์ ๋ชจ๋ฐฉ ๋ณด์์ ๋ํด ๋ ๊ฐ์ง ์์๋ฅผ ์ถ๊ฐํฉ๋๋ค:
- ๋ฌผ์ฒด ๊ฒฝ๋ก ์ถ์ข ๋ณด์์ ์๋ฎฌ๋ ์ดํฐ ์์ ๋ฌผ์ฒด๊ฐ ์ธ๊ฐ ์์ฐ์ ๋ฌผ์ฒด ๊ถค์ ์ ์ ๋ฐ๋ผ๊ฐ๋๋ก ์์น ๋ฐ ์๋ ์ค์ฐจ๋ฅผ ์ค์ด๋ ๋ณด์์ ๋๋ค.
- ์ ์ด ํ ๋ณด์์ ์ธ๊ฐ ์์ฐ์์ ๋ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์๋ ๊ตฌ๊ฐ์ ํด๋นํ๋ฉด ๋ก๋ด ์๊ฐ๋ฝ๋ ์ผ์ ์์ค ์ด์์ ์ ์ด๋ ฅ์ ๋ฐ์์ํค๋๋ก ์ฅ๋ คํ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋ชจ์บก ๋ฐ์ดํฐ์์ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ์๋ ํ๋ ์์์๋, ๋ก๋ด์ด ์ถฉ๋ถํ ํ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์ง ์๊ณ ์์ผ๋ฉด ๋ณด์์ด ๊ฐ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ํ์คํ ์ฅ๊ณ ๋์น์ง ์๋๋ก ํ์ตํ๊ฒ ๋ฉ๋๋ค. ์ ๋ฐ์ ์ผ๋ก ManipTrans๋ ํน์ ์์ ์ ๋ง์ถ ํน์ํ ๋ณด์ ์ค๊ณ ์์ด๋(task-agnostic ๋ณด์) ์ด๋ฌํ ์ผ๋ฐ์ ๋ณด์ ๊ตฌ์ฑ๋ง์ผ๋ก ๋ค์ํ ์์ ์์ ์ ๋์ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
ํ์ต ๊ณผ์ ์ ์ต์ ํ๋ฅผ ์ํด ๋ช ๊ฐ์ง ํธ๋ฆญ์ ํ์ฉํ์ต๋๋ค. ์์ฐจ ์ ์ฑ ํ์ต ์ด๋ฐ์ ํํ ๋ฐ์ํ๋ ๋ฌธ์ ๋, ๋ฌผ๋ฆฌ ์ํธ์์ฉ ์ ์ฝ ๋๋ฌธ์ ๊ตญ์์ต์ ํด์ ๋น ์ง๊ฑฐ๋ ํ์ต์ด ๋ถ์์ ํด์ง ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ด์(relaxation) ๊ธฐ๋ฒ์ ๋์ ํ๋๋ฐ, ํ๋ จ ์ด๊ธฐ์๋ ์ค๋ ฅ์ 0์ผ๋ก ์ค์ด๊ณ ๋ง์ฐฐ ๊ณ์๋ฅผ ๋์ด๋ ์์ผ๋ก ํ๊ฒฝ์ ์ผ์์ ์ผ๋ก ์ฝ๊ฒ ๋ง๋ค์ด์ค๋๋ค. ์ค๋ ฅ์ด ์๊ณ ๋ง์ฐฐ์ด ํฐ ์ํฉ์์๋ ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ณ๊ฒ ๋ถ์ก๊ณ ์ฐธ์กฐ ๊ถค์ ์ ๋ง์ถ๊ธฐ๊ฐ ์์ํด์ง๋ฏ๋ก, ์ด๊ธฐ์ ๋น ๋ฅด๊ฒ ์ฑ๊ณต ๊ถค์ ๋ค์ ์ฐพ์๋ผ ์ ์์ต๋๋ค. ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ์ ์ฐจ ์ค๋ ฅ์ ์ค์ ๊ฐ์ผ๋ก ๋ณต์ํ๊ณ ๋ง์ฐฐ ๊ณ์๋ฅผ ์ ์ ์์ค์ผ๋ก ๊ฐ์์์ผ, ์ต์ข ์ ์ผ๋ก๋ ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ ๊ฐ๊น๊ฒ ๋ง๋ญ๋๋ค. ์ด ๊ณผ์ ์ ์ธ์์ ์ธ ๋ณ๋ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ด ์ ํ์ฐ๊ตฌ(์: QuasiSim)์ ๋ฌ๋ฆฌ, ํ์ค ์๋ฎฌ๋ ์ดํฐ(Isaac Gym)์ ์ค์ ๋ง ๋์ ์ผ๋ก ๋ฐ๊พธ๋ ๋ฐฉ์์ด๋ผ ๊ตฌํ์ด ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ด์์ต๋๋ค. ์ด ๋ฐ์๋ 1๋จ๊ณ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๊ธฐ ์ํ๋ฅผ ์์ฐ ๊ถค์ ๊ทผ์ฒ์์ ์ํ๋งํ๊ณ , ๋ฌผ์ฒด๊ฐ ์ผ์ ๋ฒ์ ์ด์ ๋จ์ด์ง๋ฉด ์ํผ์๋๋ฅผ ์กฐ๊ธฐ ์ข ๋ฃํ๋ ๋ฑ์ ๊ท์น์ ์ ์ฉํ์ต๋๋ค[39]. ํนํ ์ธ๊ฐ ์์ฐ์์ ๋ ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๊ฝ ์ก๋ ์์ ์ ๋ก๋ด์ด ์ ๋๋ก ํ์ ์ฃผ์ง ๋ชปํ๋ฉด ๋ฐ๋ก ์ข ๋ฃํด๋ฒ๋ฆฌ๋ ์ ์ด๋ ฅ ์กฐ๊ฑด๋ ๋์ด, ๋ฐ๋์ ๋ฌผ์ฒด๋ฅผ ๋์น์ง ์๋๋ก ํ์ต์ํค๋ ์ธ๋ฐํ ์ฅ์น๋ฅผ ๋ง๋ จํ์ต๋๋ค. ์์ 1๋จ๊ณ ๋ชจ๋ฐฉ ์ ์ฑ ๊ณผ 2๋จ๊ณ ์์ฐจ ์ ์ฑ ์ NVIDIA Isaac Gym ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ์์ ๊ตฌ๋๋๋ ์์ฒ ๊ฐ์ ๋ณ๋ ฌ ์ํผ์๋๋ฅผ ํตํด ํจ์จ์ ์ผ๋ก ํ์ต๋์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ 4096๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์ ์ฌ์ฉํ์ฌ PPO ๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ตํ๊ณ , GPU ํ ๋๋ก๋ ์ํํ ํ๋ จ์ด ๊ฐ๋ฅํ์์ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ ์ ์ ๋ฐฉ๋ฒ์ ํ์ต ํจ์จ์ฑ์ด ๋์ ์ค์ฉ์ ์ด๋ผ๋ ์ ์ ๊ฐ์กฐํ๋ ๋ถ๋ถ์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ: ์ฑ๋ฅ ํ๊ฐ ๋ฐ ๋ถ์
ManipTrans์ ์ฑ๋ฅ์ ๋ค์ํ ์งํ์์ ํ๊ฐ๋์๊ณ , ์ฌ๋ฌ ๋น๊ต ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์ํํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์คํ์๋ ๋ํ์ ์ธ ์์ ์กฐ์ ๋ฐ์ดํฐ์ ์ธ OakInk-V2์ ๊ฒ์ฆ ์ธํธ๋ฅผ ํ์ฉํ์์ผ๋ฉฐ(์ฝ ์ ๋ฐ์ด ์์ ์์ ), ๊ทธ ์ธ์ GRAB, FAOVR, ARCTIC ๋ฑ์ ๋ฐ์ดํฐ๋ ์ ์ฑ ํ๊ฐ์ ์ฌ์ฉ๋์์ต๋๋ค. ํ๊ฐ ์งํ๋ก๋ ๋ฌผ์ฒด์ ์์น/์์ธ ์ค๋ฅ, ๋ก๋ด ์ ๊ด์ ์์น ์ค๋ฅ, ์๊ฐ๋ฝ ๋ ์์น ์ค๋ฅ ๋ฑ์ด ํ๊ท ์ ์ผ๋ก ์ผ๋ง๋ ๋ํ๋๋์ง ๊ณ์ฐํ๊ณ , ํนํ ์ฑ๊ณต๋ฅ (success rate)์ ๋ก๋ด ๋ ์ ๋ชจ๋๊ฐ ์ฐธ์กฐ ๊ถค์ ์ ์ผ์ ์ค์ฐจ ์ดํ๋ก ์ถ์ ํ๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผํ๋ ๋ฐฉ์์ผ๋ก ์ ์ํ์ต๋๋ค. (์์ ์์ ์ ๊ฒฝ์ฐ ์ด๋ ํ ์์ด๋ผ๋ ๊ธฐ์ค์ ๋ชป ๋ง์กฑํ๋ฉด ์คํจ๋ก ์ฒ๋ฆฌํ์ฌ ์ฑ๊ณต ์กฐ๊ฑด์ ์๊ฒฉํ๊ฒ ํ์ต๋๋ค.)
๋น๊ต ๋์ ๋ฐฉ๋ฒ์ผ๋ก๋
- Retarget-Only: ์๋ฌด ํ์ต ์์ด ๋ชจ์บก ์๋์์ ๋ก๋ด ๊ด์ ๋ก ๋จ์ ์ด์ํ ๊ฒฝ์ฐ,
- RL-Only: ๋ชจ๋ฐฉ ๋ณด์๋ง์ผ๋ก ์ฒ์๋ถํฐ ๋๊น์ง ๊ฐํํ์ตํ ๊ฒฝ์ฐ,
- Retarget + Residual: ์ธ๊ฐ-๋ก๋ด ์๊ฐ๋ฝ ๋์์ ๋ง์ถฐ ๋ฆฌํ๊ฒํ ํ ๊ถค์ ์ ๊ธฐ๋ณธ ๋์์ผ๋ก ํ๊ณ , ๊ทธ ์์ Residual RL๋ง ์ ์ฉํ ๊ฒฝ์ฐ ๋ฑ์ด ํฌํจ๋์์ต๋๋ค.
์ด๋ค์ ManipTrans์ ์ผ๋ถ ๊ตฌ์ฑ์์๋ง ์ฌ์ฉํ๋ ๋ถ๋ถ ๊ฒฐํฉ ๊ธฐ๋ฒ๋ค์ด๋ ๊ธฐ์กด ๋ฌธํ์ ์ ๊ทผ๋ฒ์ ์ฌ๊ตฌํํ ๊ฒ์ผ๋ก, ManipTrans์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํ ๋น๊ต๊ตฐ์ ๋๋ค.
๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด ManipTrans๊ฐ ๋ชจ๋ ์งํ์์ ๊ฐ์ฅ ์ฐ์ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฑ๊ณต๋ฅ ์ ๊ฒฝ์ฐ, ๋จ์ ๋ฆฌํ๊ฒํ ์ ์์ ์์ ์ฑ๊ณต๋ฅ 0%์ ๋ถ๊ณผํ๊ณ RL-Only๋ ์ฝ 12% ์์ค์ผ๋ก ๋งค์ฐ ๋ฎ์์ง๋ง, ManipTrans๋ ์ฝ 39.5%์ ์์ ์์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ ํฌ๊ฒ ์์ฐ์ต๋๋ค. ๋จ์ผ ์ ์์ ์์๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ด 30~47% ์ ์ ๋จธ๋ฌธ ๋ฐ ๋นํด ManipTrans๋ 58% ์์ค์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๋ํ ๋ฌผ์ฒด ์์ธ ์ค์ฐจ, ์๊ฐ๋ฝ ๋ ์์น ์ค์ฐจ ๋ฑ ์ ๋ฐ๋ ์งํ๋ ManipTrans๊ฐ ๊ฐ์ฅ ๋ฎ์ ์ฐธ์กฐ ๋์์ ๊ฐ์ฅ ์ ํํ๊ฒ ๋ฐ๋ผํจ์ ์ฆ๋ช ํ์ต๋๋ค. ์ด๋ฌํ ํฅ์์ ๋ ๋จ๊ณ ์ ์ด ํ๋ ์์ํฌ๊ฐ ์๊ฐ๋ฝ ์ธ๋ถ ์์ง์๊ณผ ๋ฌผ์ฒด ์ํธ์์ฉ์ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํด๋ด๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์๋ฉ๋๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์, Retarget-Only ๋ฐฉ์์ ๋์ ์์ ๋์ ๋ก๋ด ์ ๊ณต๊ฐ์์ ์ค๋ฅ ๋์ ์ ๊ฐ๋นํ์ง ๋ชปํด ์ฌ์ค์ ๊ฑฐ์ ์คํจํ๋ค๋ ๊ฒ์ ๋๋ค. ํํธ RL-Only๋ ์ฒ์๋ถํฐ ํ์ํ๋ค ๋ณด๋ ํ์ต ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ๋ชจ์ ์ ๋ฐ๋๊ฐ ๋จ์ด์ ธ ์์ฌ์ด ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. Retarget + Residual ๊ธฐ๋ฒ๋ ManipTrans๋ณด๋ค๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ํ๋๋๋ฐ, ์ด๋ ์ด๊ธฐ์ ๋ฆฌํ๊ฒํ ํ ๋์ ์์ฒด๊ฐ ๋ฌผ์ฒด ์ ์ด ์ํฉ์์ ์ถฉ๋์ ์ผ์ผํค๋ ๋ฑ ๋ถ์์ฐ์ค๋ฌ์ Residual ํ์ต์ ๋ฐฉํดํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ฉด ManipTrans๋ ์ฌ์ ํ์ต๋ ์ ๋ชจ์ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ ํ์ฉํจ์ผ๋ก์จ ๋ณด๋ค ์์ ์ ์ด๊ณ ์ ํํ ๊ธฐ๋ณธ ๋์์ ์ ๊ณตํ๊ณ , Residual ๋จ๊ณ์์๋ ์ถ๊ฐ ์ ์ฝ๋ง ํ์ตํ๋ฉด ๋๋ฏ๋ก ์ ์ด ๋์ด๋๊ฐ ๊ฐ์ํ์ฌ ์ต์ข ์ฑ๋ฅ์ด ๋์์ต๋๋ค.
์ ์ฑ์ ์ธ ๊ฒฐ๊ณผ๋ก๋ ManipTrans์ ์ฐ์์ฑ์ด ๋๋ฌ๋ฌ์ต๋๋ค. ๋ ผ๋ฌธ์์ ์ ์๋ ์๋ฎฌ๋ ์ด์ ๋์์๊ณผ ์ด๋ฏธ์ง์ ๋ฐ๋ฅด๋ฉด, ๋ก๋ด ์์ด ๊ฐ๋ ๊ฝ์ค๊ธฐ๋ฅผ ๋ ์๊ฐ๋ฝ์ผ๋ก ์ง์ด ๊ฝ๋ณ์ ๊ฝ๋๋ค๊ฑฐ๋, ๊ธด ์คํผ์ผ๋ก ๋ณ ์์ ๋ฌผ์ฒด๋ฅผ ํจ๊ป ๊ธ์ด๋ด๋ ์์ , ์์ ํ์ผ๋ก ๊ธ์จ ์ฐ๊ธฐ ๋ฑ ๋งค์ฐ ์ฌ์ธํ ๋์๋ค๋ ์์ฐ์ค๋ฝ๊ฒ ์ํํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.

๊ทธ๋ฆผ 3์ ์ผ๋ถ ์์๊ฐ ๋ํ๋ ์๋๋ฐ, ์๋จ ๋ ํ์ ๋จ์ผ ์ ์กฐ์(ํ๋ผ์คํฌ ํ๋ค๊ธฐ, ํ์ผ๋ก ์ฐ๊ธฐ) ์ฅ๋ฉด๋ค์ด๊ณ ํ๋จ ํ์ ์์ ์กฐ์(๊ฝ๊ฝ์ด, ๋ฌผ ๋ฐ๋ฅด๊ธฐ, ์คํผ์ผ๋ก ๊ธ์ด๋ด๊ธฐ) ์ฅ๋ฉด๋ค์ ๋๋ค. ์ฌ๋์ ์ฌ์ธํ ์๋๋ฆผ์ด ํ์ํ ์ด ์์ ๋ค์ ๋ก๋ด์ด ํฐ ์ด์ํจ ์์ด ์ฌํํ๋ค๋ ์ ์, ์ ์ํ ๋ชจ์ ์ ์ด ๋ฐฉ๋ฒ์ ํ์ค์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๋ค์์ผ๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ํ์ต๋ ์ ์ฑ ์ ๋ค์ํ ๋ก๋ด ์ ํ๋ซํผ์ ์ ์ฉํ ์คํ์ด ์งํ๋์์ต๋๋ค. Shadow Hand (๋ชจํฐ 24๊ฐ), MANO hand ๋ชจํ (๊ฐ์ ๊ด์ 22๊ฐ), Inspire Hand (12๊ฐ), Allegro Hand (16๊ฐ)์ฒ๋ผ ๊ตฌ์กฐ์ ์์ ๋๊ฐ ๋ค๋ฅธ ๋ก๋ด ์๋ค์ ๋ํด ManipTrans๋ฅผ ๋์ผํ๊ฒ ์ ์ฉํด๋ณธ ๊ฒฐ๊ณผ, ๋ณ๋์ ํ๋ผ๋ฏธํฐ ํ๋ ์์ด๋ ๋ชจ๋ ๊ฒฝ์ฐ์ ์ ์ฌํ ์ฑ๋ฅ๊ณผ ์์ฐ์ค๋ฌ์ด ๋์์ด ๋์ด์ ํ์ธํ์ต๋๋ค.


์ฆ, ManipTrans๋ ์ฌ๋ ์์ ์๊ฐ๋ฝ-๊ด์ ๋์๋ง ์ ํด์ฃผ๋ฉด ํน์ ์ ๊ตฌํ์ฒด์ ์ข ์๋์ง ์๊ณ ๋์์ ์ ์ดํ ์ ์์ด ํ๋ซํผ์ ๋ถ๊ฐ์ง๋ก ์ ์ธ ๋ฒ์ฉ์ฑ์ ์ง๋ ์ต๋๋ค. ์ด๋ 1๋จ๊ณ ๋ชจ๋ฐฉ ๋ชจ๋ธ์ด ์๊ฐ๋ฝ ํคํฌ์ธํธ ํธ๋ํน์๋ง ์ง์คํ๊ณ , 2๋จ๊ณ์์ ๋ฌผ๋ฆฌ ์ํธ์์ฉ์ ๋ค๋ฃจ๋ ๊ตฌ์กฐ ๋๋ถ์ ๋๋ค. ์ฌ์ง์ด ์๊ฐ๋ฝ 4๊ฐ์ง๋ฆฌ Allegro Hand์ ๊ฒฝ์ฐ๋ ์ผ๋ถ ์๊ฐ๋ฝ ๋์๋ง ์ค์ ํ๋ฉด ํฐ ๋ฌธ์ ์์ด ๋์ํ์์ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ํ์ค ์ธ๊ณ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํ ์๋๊ฐ ์ด๋ค์ก์ต๋๋ค. ์ฐ๊ตฌ์ง์ ๋ ๋์ 7์์ ๋ ๋ก๋ด ํ ๋์ ์ค์ Inspire ๋ก๋ด ์ ๋ ๊ฐ๋ฅผ ์ฅ์ฐฉํ๊ณ , ์์ ์๋ฎฌ๋ ์ด์ ์์ ์์ฑํ DexManipNet์ ์์ ์กฐ์ ๊ถค์ ๋ค์ ์ฌ์์ํค๋ ์คํ์ ํ์ต๋๋ค. ๋ค๋ง ์ค์ ํ๋์จ์ด์ธ ๋ก๋ด ์์ ์๋ฎฌ๋ ์ดํฐ ๋ชจ๋ธ๋ณด๋ค ๊ด์ ์์ ๋๊ฐ ์ ๊ธฐ ๋๋ฌธ์, ๊ด์ ๊ฐ๋๋ฅผ ํผํ (fitting)ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ถ๊ฐ๋ก ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์ 12-DoF ๋์์ ์ค์ 6-DoF ๊ธฐ๊ณ์ ์์ง์์ผ๋ก ๊ทผ์ฌํ์ต๋๋ค. ๋ํ ๋ก๋ด ํ์ ์ญ๊ธฐ๊ตฌํ(IK)์ ํ์ด ๋ก๋ด ์๋ชฉ์ด ์๋ฎฌ๋ ์ด์ ์๋ชฉ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋๋ก ์ ์ดํ์ต๋๋ค. ์ด๋ ๊ฒ ํด์ ์คํํ ๊ฒฐ๊ณผ, ์๋ฅผ ๋ค์ด โ์น์ฝ ๋๊ป ์ด๊ธฐโ ์์ ์์ ํ ์์ผ๋ก ํ๋ธ๋ฅผ ๊ฝ ์ฅ๊ณ ๋ค๋ฅธ ์์ ์์ง์ ๊ฒ์ง๋ก ์์ ๋๊ป์ ํก ๋๋ฌ ์ฌ๋ ๋์์ ๋ก๋ด์ด ์ํํด๋์ต๋๋ค. ์ฌ๋๋ ์ธ์ฌํ ํ ์กฐ์ ์ด ํ์ํ ์ด ์์ง์์ ์๊ฒฉ์กฐ์์ผ๋ก๋ ๊ตฌํํ๊ธฐ ์ด๋ ค์ด๋ฐ, ํ์ต๋ ์ ์ฑ ์ ์ด์ฉํด ๋น๊ต์ ์ฝ๊ฒ ์คํํ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์ ์ด ๋ฐ์๋ ์ฌ๋ฌ ์ค์ ๋ก๋ด ์คํ ์์์ ์น์ฌ์ดํธ์ ๊ณต๊ฐํ๋ฉฐ, ๋ณธ ๊ธฐ๋ฒ์ด ํฅํ ํ์ค ๋ก๋ด ํ์ต์ ํฐ ์ ์ฌ๋ ฅ์ ์ง๋์ ๊ฐ์กฐํ์ต๋๋ค.
๋ ผ์ ๋ฐ ํ๊ณ์
ManipTrans๋ ๋ค์ํ ๋ณต์กํ ์ธ๊ฐ ์กฐ์์ ๋ก๋ด ์์์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ดํ์ง๋ง, ์ ์๋ค์ ๋ช ๊ฐ์ง ํ๊ณ์ ํฅํ ๊ณผ์ ๋ ๋ ผ์ํฉ๋๋ค. ๋จผ์ , ์ ๋ ฅ ๋ชจ์บก ๋ฐ์ดํฐ์ ํ์ง์ ๋ฐ๋ฅธ ์ ์ฝ์ด ์์ต๋๋ค. ์ผ๋ถ ์ธ๊ฐ ์์ฐ์ ์ค์ฐจ๋ ์ก์์ด ๋ง์์, ์๊ณผ ๋ฌผ์ฒด์ ์ํธ์์ฉ์ด ์ ํํ ๊ธฐ๋ก๋์ง ์์ ๊ฒฝ์ฐ๊ฐ ์๋๋ฐ, ์ด๋ฐ ๋ ธ์ด์ฆ๊ฐ ํฐ ์์ฐ ๋ฐ์ดํฐ์์๋ ์ ์ด ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์์ ์ง์ ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ์ด์ง ๊ดํตํ๊ฑฐ๋ ๋ถ์์ ํ๊ฒ ์ก์ ์ฑ๋ก ๊ธฐ๋ก๋ ๋ฐ์ดํฐ๋ผ๋ฉด ๋ก๋ด์ด ๊ทธ ์์ง์์ ๋ฐ๋ผ๊ฐ๋ค ์คํจํ ์ ์์ต๋๋ค. ๋ ๋ฒ์งธ๋ก, ๋ฌผ์ฒด์ ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ ์ ํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ํ์ค์ ๋ฌผ์ฒด๋ ๋ชจ์์ด๋ ๊ด์ (์: ๋๊ป์ ๋์ฌ์ฐ ๋ฑ)์ด ์ ๊ตํ์ง๋ง, ์๋ฎฌ๋ ์ดํฐ์์ ์ฌ์ฉํ๋ ๋ฌผ์ฒด ๋ชจ๋ธ์ด ๋จ์/๋ถ์ ํํ๋ฉด ๋ก๋ด์ ์กฐ์์ด ์๋ฑํ๊ฒ ์งํ๋ ์ ์์ต๋๋ค. ํนํ ๋ณตํฉ ๊ตฌ์กฐ(articulated)๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด์ ๊ฒฝ์ฐ ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ๋ง์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ ์ด๊ฐ ์ ์ ๋๋ ์ฌ๋ก๊ฐ ์์๋ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ ํ๊ณ๋ค ๋๋ฌธ์ ์ผ๋ถ ์์ฐ ์ํ์ค๋ ManipTrans๋ก๋ ์๋ฒฝํ ์ฌํํ์ง ๋ชปํ๋ค๊ณ ๋ณด๊ณ ํ๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ๋ ๊ฐ์ธํ ํ์ต ๊ธฐ๋ฒ ๊ฐ๋ฐ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ์ฆ๊ฐ, ์ ๊ตํ ๋ฌผ์ฒด ๋ชจ๋ธ ํ๋ณด ๋ฑ์ด ํ์ํ๋ค๊ณ ์ ์ธํฉ๋๋ค. ์ ์๋ค์ ์์ผ๋ก ManipTrans์ ๊ฐ๊ฑด์ฑ ํฅ์, ํ์ค ๋ฌผ์ฒด ๋ชจ๋ธ์ ๋ฌผ๋ฆฌ์ ์ ํฉ์ฑ ๊ฐ์ ๋ฑ์ ์ฐ๊ตฌํ์ฌ ๋จ์ ์ด๋ ค์ด ์ฌ๋ก๋ค๋ ํ์ด๋๊ฐ๋ ๊ฒ์ด ์๋ฏธ์๋ ๋ฐฉํฅ์ด๋ผ๊ณ ์ ๋งํฉ๋๋ค.
์ ์ฒด์ ์ผ๋ก, โManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learningโ ๋ ผ๋ฌธ์ ์์ ๋ก๋ด ์์ ๋ณต์กํ ์กฐ์ ๋์์ ์ธ๊ฐ ์์ฐ์ ํตํด ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ ํ์ ์ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์์ฐจ ํ์ต์ ํ์ฉํ 2๋จ๊ณ ๋ชจ์ ์ ์ด ๊ตฌ์กฐ๋ ์๊ฐ๋ฝ ์์ง์ ๋ชจ๋ฐฉ๊ณผ ๋ฌผ์ฒด ์กฐ์ ์ ์ฝ ์ ์์ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๋์ง ๋ชปํ๋ ์ ํ๋์ ํจ์จ์ฑ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ ๋๊ป ์์ฐ๊ธฐ, ๋ณ ๋๊ป ๋๋ฆฌ๊ธฐ ๊ฐ์ ์๋ก์ด ๋์ ๊ณผ์ ๋ค๊น์ง ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํด ๋์ผ๋ฉฐ, ์ด๋ฅผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก๋ ์ ๋ฆฌํ์ฌ ๊ณต๊ฐํจ์ผ๋ก์จ ํฅํ ์ฐ๊ตฌ์ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค. ManipTrans๋ฅผ ํตํด ์ธ๊ฐ์ฒ๋ผ ์ฌ์ธํ ์์ ์กฐ์์ ๋ก๋ด์ด ์ํํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ํ์ธต ๊ฐ๊น์์ก์ผ๋ฉฐ, ์ถํ ๋จ์ ๊ณผ์ ๋ค๋ง ํด๊ฒฐ๋๋ค๋ฉด ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด์ด๋ ์ฐ์ ์ฉ ์กฐ์ ์์ ๋ฑ์ ํญ๋๊ฒ ํ์ฉ๋ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.