๐ImMimic ๋ฆฌ๋ทฐ
- ImMimic์ ๋ฐฉ๋ํ ์ธ๊ฐ ์์๊ณผ ์๋์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ ๊ฐ์ ์๊ฐ์ , ํํ์ , ๋ฌผ๋ฆฌ์ ๋๋ฉ์ธ ๊ฐ๊ทน์ ํด์ํ์ฌ ๋ก๋ด ์กฐ์ ํ์ต์ ์ํ ์๋ก์ด ๊ณต๋ ํ๋ จ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ์ด ํ๋ ์์ํฌ๋ Dynamic Time Warping(DTW)์ ํตํด retargeting๋ ์ธ๊ฐ ๋์ ๊ถค์ ๊ณผ ๋ก๋ด ๊ถค์ ์ ๋งคํํ๊ณ , MixUp ๋ณด๊ฐ์ ์ ์ฉํ์ฌ ์ค๊ฐ ๋๋ฉ์ธ์ ์์ฑํจ์ผ๋ก์จ ๋ก๋ด์ด ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ๋์ต๋๋ค.
- ๋ค ๊ฐ์ง ์กฐ์ ์์ ๊ณผ ๋ก๋ด ํํ์ ๋ํ ํ๊ฐ์์ ImMimic์ ์์ ์ฑ๊ณต๋ฅ ๊ณผ ์คํ ๋ถ๋๋ฌ์์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ํนํ retargeting๋ ์ธ๊ฐ ๋์ ์ ๋ณด๊ฐ ์๊ฐ ์ ๋ณด๋ณด๋ค ๋ก๋ด ํ์ต์ ๋ ํจ๊ณผ์ ์์ ์ ์ฆํ์ต๋๋ค.
1 Brief Review
ImMimic์ ํ๋ถํ ์ธ๊ฐ ๋น๋์ค์ ์๋์ ์๊ฒฉ ์กฐ์(teleoperated) ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ก๋ด ์กฐ์(robot manipulation)์ ํ์ตํ๋ ์๋ก์ด embodiment-agnostic co-training ํ๋ ์์ํฌ์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์๊ฐ์ (visual), ํํํ์ (morphological), ๋ฌผ๋ฆฌ์ ์ธก๋ฉด์์ ๋ฐ์ํ๋ ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์๋นํ ๋๋ฉ์ธ ๊ฐ๊ทน(domain gap)์ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
ImMimic์ ํต์ฌ์ ๋ค์ ์ธ ๊ฐ์ง ํต์ฐฐ๋ ฅ์ ๊ธฐ๋ฐํฉ๋๋ค:
- Retargeted Human Hand Trajectories์ ์ก์ ๋ ์ด๋ธ ํ์ฉ: ์๊ฐ์ ์ปจํ ์คํธ(visual contexts) ์ธ์๋, ์ฌ์ค์ ๋(retargeted) ์ธ๊ฐ ์ ๊ถค์ (hand trajectories)์ด ์ธ๊ฐ ์์ฐ์ ๋ํ ํ๋ถํ ์ก์ ๋ ์ด๋ธ(action labels)๋ก ๊ธฐ๋ฅํ ์ ์์ต๋๋ค.
- ๋ณด๊ฐ(Interpolation)์ ํตํ ์ค๊ฐ ๋๋ฉ์ธ(Intermediate Domains) ์์ฑ: ๋งคํ๋(mapped) ๋ฐ์ดํฐ์ ๋ํ MixUp ๊ธฐ๋ฐ ๋ณด๊ฐ์ ๊ฒฌ๊ณ ํ ์ ์(robust adaptation)์ผ๋ก ์ด์ด์ง๋ ์ค๊ฐ ๋๋ฉ์ธ์ ์์ฑํฉ๋๋ค.
- ํจ๊ณผ์ ์ธ ๋งคํ(Mapping)์ ์ค์์ฑ: ๊ณต๋ ํ๋ จ(co-training)์ ์ํด ์ธ๊ฐ ๋ฐ ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ์ ํจ๊ณผ์ ์ธ ๋งคํ์ ์ค์ ํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค.
ImMimic์ Diffusion Policy ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Hand Pose Retargeting System (์ธ๊ฐ ์ ํฌ์ฆ ์ฌ์ค์ ):
- Hand and Wrist Pose Estimation: MediaPipe [36]๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํ๋ ์์์ ์ธ๊ฐ ์์ ๊ฐ์งํ๊ณ ์๋ฆ ๋๋ค. FrankMocap [45]์ SMPL-X regressor๋ ์๋ชฉ(wrist) ๋ก์ปฌ ํ๋ ์์์ 21๊ฐ ์ ๊ด์ (hand joints)์ ์ ๋ฐํ 3D ์์น๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋ชฉ์ 6D ํฌ์ฆ๋ฅผ ๋ณต๊ตฌํฉ๋๋ค.
- Retargeting: AnyTeleop [44]์ ๋ฐ๋ผ, ์ธ๊ฐ ํคํฌ์ธํธ \mathbf{p}_t^i๋ฅผ ๋ก๋ด ๊ด์ ๊ฐ๋ \mathbf{q}_t๋ก ๋ค์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํตํด ๋งคํํฉ๋๋ค: \min_{\mathbf{q}_t} \sum_{i=1}^{N} \alpha \left\| \mathbf{p}_t^i - f_i(\mathbf{q}_t) \right\|^2 + \beta \left\| \mathbf{q}_t - \mathbf{q}_{t-1} \right\|^2, \quad \text{s.t.} \quad \mathbf{q}_l \le \mathbf{q}_t \le \mathbf{q}_u ์ฌ๊ธฐ์ f_i๋ ๋ก๋ด์ ์ ๊ธฐ๊ตฌํ(forward-kinematics), \alpha, \beta๋ ์ค์ผ์ผ ๋ฐ ์๊ฐ์ ๋ถ๋๋ฌ์(temporal smoothness) ๊ท ํ์ ์กฐ์ ํ๋ ๊ณ์์ ๋๋ค.
- Co-Training (๊ณต๋ ํ๋ จ):
- ImMimic์ ์ธ๊ฐ ๋น๋์ค์ ๋ก๋ด ์์ฐ์ ๋ชจ๋ ํ์ฉํ์ฌ ์ ์ฑ (policy)์ ๊ณต๋์ผ๋ก ํ๋ จํฉ๋๋ค. ๊ฐ ๋ฐฐ์น(batch)๋ ๋ก๋ด ๋ฐ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋๋ฑํ ๋น์จ๋ก ํฌํจํฉ๋๋ค.
- Robot Prediction Loss: ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํด ์์ด์ ํธ ๋ทฐ(agent-view) ์ด๋ฏธ์ง I_{a,t}^r, ์๋ชฉ ๋ทฐ(wrist-view) ์ด๋ฏธ์ง I_{w,t}^r, ๊ทธ๋ฆฌ๊ณ ๊ณ ์ ์์ฉ์ฑ(proprioception) r_t๋ฅผ ์กฐ๊ฑด ์ ๋ ฅ(condition input)์ผ๋ก ์ฌ์ฉํ์ฌ ๋ฏธ๋ ์ก์ ์ํ์ค \mathbf{a}_t^{r}๋ฅผ ์์ธกํฉ๋๋ค. ์์ค์ \ell_2 ์์ค๋ก ์ต์ํ๋ฉ๋๋ค: \mathcal{L}_{\text{robot}}(\phi) = \sum_{i=1}^{k} \left\| \mathbf{a}_{t+i}^{r} - \hat{\mathbf{a}}_{t+i}^{r} \right\|^2_2 ์ฌ๊ธฐ์ \hat{\mathbf{a}}_{t:t+k}^{r} = P_{\phi}(\tilde{\mathbf{a}}_{t:t+k}^{r} | \mathbf{z}_t^{r})์ด๋ฉฐ, \mathbf{z}_t^{r}๋ ์ธ์ฝ๋๋ก ์ถ์ถ๋ ์๊ฐ์ ํน์ง๊ณผ ๊ณ ์ ์์ฉ์ฑ์ ํฌํจํ๋ ๋ก๋ด์ ์กฐ๊ฑด์ ๋๋ค.
- Human Prediction Loss: ์ธ๊ฐ ๋น๋์ค I_{a,t}^h์ ๋ํด, ์กฐ๊ฑด ์ ๋ ฅ์ ์ด๋ฏธ์ง ํน์ง๊ณผ ์ฌ์ค์ ๋ ์ก์ (retargeted actions) a_{t}^{h \to r}์ ํฌํจํฉ๋๋ค. ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ์ ๋์ผํ ์ ์ฑ ๋ฐฑ๋ณธ(policy backbone)์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ฉ๋๋ค. ์์ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \mathcal{L}_{\text{human}}(\phi) = \sum_{i=1}^{k} \left\| \mathbf{a}_{t+i}^{h \to r} - \hat{\mathbf{a}}_{t+i}^{h \to r} \right\|^2_2
- Co-training Loss: ์ด ์์ค์ ๋ ์์ค์ ํฉ์ ๋๋ค: \mathcal{L}_{\text{total}}(\phi) = \mathcal{L}_{\text{robot}}(\phi) + \mathcal{L}_{\text{human}}(\phi).
- Mapping-guided MixUp (๋งคํ ์ ๋ MixUp):
- Mapping: ์ธ๊ฐ ์์ฐ D_h์ ๋ก๋ด ์์ฐ D_r ๊ฐ์ ์ํ์ค ์์ค ๋งคํ M^{h \to r}์ Dynamic Time Warping (DTW) [38]์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค. DTW๋ ์๊ฐ์ ๊ฑฐ๋ฆฌ(visual distance) ๋๋ ์ก์
๊ฑฐ๋ฆฌ(action distance)์ ๊ธฐ๋ฐํ ์ ์์ต๋๋ค.
- Action-based Mapping: ์ฌ์ค์ ๋ ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ์์ฐ ๊ฐ์ ์ก์ ๊ฑฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: d_{\text{act}} = \left\| \mathbf{t}^{h \to r} - \mathbf{t}^r \right\|_1 + \lambda_1 \left\| \mathbf{p}^{h \to r} - \mathbf{p}^r \right\|_1 + \lambda_2 d_{\text{rot}}(\mathbf{o}^{h \to r}, \mathbf{o}^r) ์ฌ๊ธฐ์ \mathbf{t}๋ ๋ณํ(translation), \mathbf{p}๋ ์ ํฌ์ฆ(hand pose), \mathbf{o}๋ ๋ฐฉํฅ(orientation), d_{\text{rot}}๋ ๊ฐ๋ ๊ฑฐ๋ฆฌ(angular distance)๋ฅผ ๋ํ๋ ๋๋ค.
- Visual-based Mapping: ํ๋ ์๋ณ(frame-wise) ๊ฑฐ๋ฆฌ๋ ์ฌ์ ํ๋ จ๋ ์ธ์ฝ๋์์ ์ถ์ถ๋ ์๊ฐ์ ํน์ง f๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค: d_{\text{vis}} = \left\| f^{h \to r} - f^r \right\|_2
- MixUp-based Interpolation: ๋งคํ์ด ์ค์ ๋๋ฉด, MixUp [62]์ ์ ์ฉํ์ฌ ์๋ณธ ์ธ๊ฐ ๋ฐ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ฐํ์ฌ ๋ณด๊ฐ๋(interpolated) ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ํ๋ จ ์ค, ๊ฐ ์ธ๊ฐ ํ์์คํ t์ ๋ํด ๋ฌด์์๋ก ๋ก๋ด ํ์์คํ t' \in M^{h \to r}(t)๋ฅผ ์ํ๋งํ๊ณ ํผํฉ๋ ์กฐ๊ฑด ์ ๋ ฅ ๋ฐ ์์ธก ์ก์ ์ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑํฉ๋๋ค: \mathbf{z}_t^{\text{mix}} = \alpha \cdot \mathbf{z}_t^{h} + (1-\alpha) \cdot \mathbf{z}_{t'}^{r} \mathbf{a}_{t:t+k}^{\text{mix}} = \alpha \cdot \mathbf{a}_{t:t+k}^{h \to r} + (1-\alpha) \cdot \mathbf{a}_{t':t'+k}^{r} ์ฌ๊ธฐ์ \alpha๋ MixUp ๊ณ์์ด๋ฉฐ, ํ๋ จ ์ค์ ์ ์ง์ ์ผ๋ก ๊ฐ์์์ผ ๋ถ๋๋ฌ์ด ๋๋ฉ์ธ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Mapping: ์ธ๊ฐ ์์ฐ D_h์ ๋ก๋ด ์์ฐ D_r ๊ฐ์ ์ํ์ค ์์ค ๋งคํ M^{h \to r}์ Dynamic Time Warping (DTW) [38]์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค. DTW๋ ์๊ฐ์ ๊ฑฐ๋ฆฌ(visual distance) ๋๋ ์ก์
๊ฑฐ๋ฆฌ(action distance)์ ๊ธฐ๋ฐํ ์ ์์ต๋๋ค.
์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ
- ํ๋์จ์ด: Franka Emika Panda ๋ก๋ด ํ์ Robotiq 2F-85 Gripper, Fin Ray Gripper, Allegro Hand, Ability Hand์ ๋ค ๊ฐ์ง ์๋ ์ดํํฐ(end-effectors)๋ฅผ ์ฅ์ฐฉํ์ฌ ๋ค์ํ dexterity ์์ค์ ํ๊ฐํฉ๋๋ค.
- ์์ : Pick and Place, Push (๊ธฐ๋ณธ ๊ฐ์ฒด ์กฐ์), Hammer, Flip (๋๊ตฌ ๊ธฐ๋ฐ ์กฐ์)์ ๋ค ๊ฐ์ง ์กฐ์ ์์ ์ ์ํํฉ๋๋ค.
- ๊ธฐ์ค์ (Baselines): Robot-only, Two-stage Fine-Tuning, Vanilla Co-Training, Random Mapping, Visual Mapping (ImMimic-V), Action Mapping (ImMimic-A)๊ณผ ๋น๊ตํฉ๋๋ค.
- ํ๊ฐ ์งํ: ์ฑ๊ณต๋ฅ (Success Rate, SR), ๊ถค์ ๋ถ๋๋ฌ์(Trajectory Smoothness, SPARC), ์ก์ ๊ฑฐ๋ฆฌ(Action Distance, AD)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ (Core Results):
- ์ธ๊ฐ ๋น๋์ค์ ์ ์ฑ ๊ฒฌ๊ณ ์ฑ ๋ฐ ๋ถ๋๋ฌ์ ํฅ์: ImMimic-A๋ ๋ชจ๋ ์์ ๋ฐ ์๋ ์ดํํฐ์์ Robot-only, Two-stage Fine-Tuning, Co-Training ๊ธฐ์ค์ ์ ๋นํด ์ผ๊ด๋๊ฒ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ, ๋ ๋์ SPARC ์ ์๋ฅผ ๋ฌ์ฑํ์ฌ ๊ถค์ ์ ๋ถ๋๋ฌ์์ ํฅ์์์ผฐ์ต๋๋ค. ์ด๋ ๋ณด๊ฐ๋ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation) ์ญํ ์ ํ์ฌ ๋ก๋ด ๋กค์์(rollouts)์ ๊ฒฌ๊ณ ์ฑ์ ๊ฐ์ ํจ์ ์์ฌํฉ๋๋ค.
- ์ก์ ๊ธฐ๋ฐ ๋งคํ์ ์ฐ์์ฑ: ์ก์ ๊ธฐ๋ฐ ๋งคํ(ImMimic-A)์ด ์๊ฐ ๊ธฐ๋ฐ ๋งคํ(ImMimic-V) ๋ฐ ๋ฌด์์ ๋งคํ(Random Mapping)๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ฌ์ค์ ๋ ์ธ๊ฐ ์ก์ ์ด ์๊ฐ์ ํน์ง๋ณด๋ค ๋ก๋ด ์ก์ ์ ๊ตฌ์กฐ์ ์ผ๋ก ๋ ์ ์ฌํ์ฌ ๊ณต๋ ํ๋ จ์ ๋ ์ ์ตํ๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค. ํนํ ๋ฏธ๋ฌํ ์ก์ ์ ํ์ด ์๋ ์์ ์์ ์๊ฐ์ ๋งคํ์ ํ์ง์ด ๋ฎ์ผ๋ฉด ์ฑ๋ฅ์ด ์ ํ๋จ์ ํ์ธํ์ต๋๋ค.
- ๋ค์ํ Embodiment ์ ๋ฐ์ ์ผ๊ด๋ ๊ฐ์ : ImMimic-A๋ ์ธ๊ฐ ์๊ณผ์ ํํํ์ ์ ์ฌ์ฑ์ ๊ด๊ณ์์ด ๋ชจ๋ ์๋ ์ดํํฐ์์ ์ ์ฑ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ผ๋ถ ํน์ embodiment-task ์กฐํฉ์์๋ ์ฌ์ ํ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋๋ฐ, ์ด๋ ํ๋์จ์ด ๊ตฌ์กฐ์ ํ๊ณ(์: Ability Hand์ ์งง์ ์์ง, Allegro Hand์ ํฐ ํฌ๊ธฐ)๊ฐ ์ ์ฑ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๊ฐ์กฐํฉ๋๋ค.
- ์ธ๊ฐ ๋ชจ๋ฐฉ์ ์ธ Embodiment๊ฐ ๋ฐ๋์ ๋ ๋์ ์ ์ด๋ฅผ ๊ฐ์ ธ์ค์ง ์์: ์ง๊ด๊ณผ ๋ฌ๋ฆฌ, ๋ ์ธ๊ฐ ๋ชจ๋ฐฉ์ ์ธ ์๋ ์ดํํฐ(Allegro, Ability)๊ฐ ๊ทธ๋ฆฌํผ(Robotiq, FR)์ ๋นํด ํ๊ท ์ก์ ๊ฑฐ๋ฆฌ(AD)๊ฐ ๋ ํฌ๊ฒ ๋ํ๋ฌ์ต๋๋ค. ์ด๋ ์๋ ์ดํํฐ ๋์์ธ ์ธ์๋ ๋ง์ดํ (mounting) ์กฐ๊ฑด ๋ฐ ์ ํค๋ค๋งํฑ์ค(arm kinematics)๊ฐ ์ก์ ์ฌ์ค์ ๋ฐ ๋ก๋ด์ ์์ ์ํ ๋ฐฉ์์ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
- ์ธ๊ฐ ์์ฐ์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ํ์ต ์ฑ๋ฅ ํฅ์: ์ธ๊ฐ ๋น๋์ค๋ ๋ก๋ด ๋ฐ์ดํฐ๋ณด๋ค ๋ ํฐ ๋ค์์ฑ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ๋ ๋์ ๋ฐ์ดํฐ์ ๋ด ์ก์ ๊ฑฐ๋ฆฌ(intra-dataset Action Distance)๋ก ๋ฐ์๋์์ต๋๋ค. ์ธ๊ฐ ๋ฐ์ดํฐ์ ์ถ๊ฐ๋ ๋ก๋ด ๋ฐ์ดํฐ์ ์์ด ์ ์ ๋์๋ ์ํ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ
ImMimic์ ํฐ ๋๋ฉ์ธ ๊ฐ๊ทน(์: ํ์ ํ ํ๊ท ์ก์ ๊ฑฐ๋ฆฌ ์ฐจ์ด, ์ฃผ์ ์๊ฐ์ ์ธ๊ด ์ฐจ์ด)์์๋ ์ฌ์ ํ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ ๋๋ค. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ ํฐ ๋๋ฉ์ธ ๊ฐ๊ทน์์๋ ํน์ง ์ ๋ ฌ(feature alignment)์ ๊ฐ์ ํ๋ ํํ ํ์ต(representation learning) ๋ฐฉ๋ฒ์ด ํฌํจ๋ ์ ์์ต๋๋ค. ๋ํ, embodiment ์ค๊ณ๊ฐ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ํ์ตํ ๋ ์ ์ฑ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๊ฒฝํ์ ์ผ๋ก ์กฐ์ฌํ์ฌ ๋ก๋ด์ด ์ธ๊ฐ ๊ธฐ์ ์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ต๋ํ๊ณ ์ ์ํ ์ ์๋ ํตํฉ ์์คํ ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
2 Detail Review
2.1 Summary
ImMimic์ ์ธ๊ฐ ์์ฐ ๋น๋์ค์ ์๋์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ฉํ์ฌ ๋ก๋ด ์กฐ์ ํ์ต์ ํจ์จ์ ๋์ด๋ ์๋ก์ด ๋ชจ๋ฐฉํ์ต ํ๋ ์์ํฌ์ ๋๋ค. ์ธ๊ฐ๊ณผ ๋ก๋ด ์ฌ์ด์๋ ์๊ฐ์ , ํํ์ (๋ชจ๋ฅดํฌLOGY), ๋ฌผ๋ฆฌ์ ๋๋ฉ์ธ ์ฐจ์ด(domain gap)๊ฐ ์กด์ฌํ์ฌ, ์ธ๊ฐ ๋น๋์ค๋ง์ผ๋ก ๋ก๋ด์ด ์ง์ ํ๋์ ๋ชจ๋ฐฉํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ฐญ์ ํจ๊ณผ์ ์ผ๋ก ๋ฉ๊พธ๊ธฐ ์ํด Embodiment(embodiment)์ ๊ตฌ์ ๋ฐ์ง ์๋ ๊ณต๋ ํ์ต(co-training) ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์ธ๊ฐ ์์ ์์ฐ ๊ฒฝ๋ก๋ฅผ ๋ก๋ด ๊ด์ ๊ณต๊ฐ์ผ๋ก retargeting(retargeting)ํ๊ณ , ๋์ ์๊ฐ ์๊ณก ์๊ณ ๋ฆฌ์ฆ(Dynamic Time Warping, DTW)์ ์ด์ฉํด ์ธ๊ฐ๊ณผ ๋ก๋ด ์์ฐ์ ์๊ณ์ด ์ ๋ ฌ์ ์ํํ ๋ค, ์ ๋ ฌ๋ ์์ MixUp ๋ณด๊ฐ ๊ธฐ๋ฒ์ผ๋ก ์์ด ์ค๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ์ค๊ฐ ๋ถํฌ์ ์์ฐ ๋ฐ์ดํฐ๋ค์ ์๋ ๋ก๋ด ๋ฐ์ดํฐ์ ํจ๊ป ๋์์ ํ์ตํจ์ผ๋ก์จ, ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ํ๋ํ ์ง์์ ๋ก๋ด ์ ์ฑ ์ ์ํํ ์ด์ ํฉ๋๋ค. ์ค์ 4๊ฐ์ง ์กฐ์ ๊ณผ์ (์ง์ด์ ๋๊ธฐ, ๋ฐ๊ธฐ, ๋ง์น์ง, ๋ค์ง๊ธฐ)์ ๋ํด 4์ข ์ ๋ก๋ด ์/๊ทธ๋ฆฌํผ(Robotiq ๊ทธ๋ฆฌํผ, Fin Ray ๊ทธ๋ฆฌํผ, Allegro ๋ค์ง ์, Ability ๋ค์ง ์)์์ ์คํํ ๊ฒฐ๊ณผ, ImMimic์ ์ ์ฉํ๋ฉด ์์ ์ฑ๊ณต๋ฅ ์ด ํฅ์๋๊ณ ๋ก๋ด ๋์์ด ํ์ธต ๋งค๋๋ฝ๊ฒ ์คํ๋จ์ด ํ์ธ๋์์ต๋๋ค. ์ด๋ ์๋์ ๋ก๋ด ๋ฐ์ดํฐ(์: 5๊ฐ)์ ๋๋์ ์ธ๊ฐ ๋น๋์ค(์: 100๊ฐ)๋ง์ผ๋ก๋, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค[4].
2.2 Contributions
์ธ๊ฐ-๋ก๋ด ์ๆผ ์ ๋ ฌ์ ํตํ ๊ต์ฐจ ๋๋ฉ์ธ ๋ชจ๋ฐฉํ์ต: ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์ป์ ์์ฐ์ ๋ก๋ด ์์ฐ๊ณผ ์ ๋ ฌ(mapping)ํ์ฌ ํจ๊ป ํ์ตํ ์ ์๋ ๊ณต๋ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์ต๋๋ค. ๋์ ์๊ฐ ์๊ณก(DTW)์ ํ์ฉํด ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ฐํ๊ฒ ๋ง์ถค์ผ๋ก์จ, ์ธ๊ฐ ์์ฐ์ ๋ก๋ด ์ ์ฑ ํ์ต์ ์ง์ ํ์ฉํ ์ ์๋ ๊ณตํต ํํ ๊ณต๊ฐ์ผ๋ก ๊ฐ์ ธ์ต๋๋ค. ํนํ ํ๋ ๊ธฐ๋ฐ๊ณผ ์๊ฐ ๊ธฐ๋ฐ ๋ ๊ฐ์ง ๋งคํ ์ ๋ต(DTW-A, DTW-V)์ ์ ์ํ์ฌ, ํ๋ ์ํ์ค ๋๋ ์๊ฐ ํผ์ฒ ์ ์ฌ๋๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํ์ต๋๋ค.
MixUp ๋ณด๊ฐ์ ์ด์ฉํ ์ค๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ ์์ฑ: ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์์ฐ ์์ MixUp ๊ธฐ๋ฒ์ผ๋ก ๋ณด๊ฐํ์ฌ, ์ธ๊ฐ ๋๋ฉ์ธ๊ณผ ๋ก๋ด ๋๋ฉ์ธ ์ฌ์ด์ ์ค๊ฐ ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ์์ฑํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฌ ๊ณต๊ฐ(latent space)์์์ ๊ด์ฐฐ ํํ๊ณผ ํ๋ ๊ณต๊ฐ(action space)์์์ ์ ์ด ์ ํธ๋ฅผ ๊ฐ๊ฐ ์ ํ ํผํฉํจ์ผ๋ก์จ, ์ธ๊ฐ ์์ฐ์ด ์ ์ง์ ์ผ๋ก ๋ก๋ด ์์ฐ์ ํน์ฑ์ ๋ ๋ ์ฐ์์ ์ธ ๋๋ฉ์ธ ์คํํธ๋ผ์ ๊ตฌ์ถํ์ต๋๋ค. ์ด๋ฌํ ์ค๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ค์ ๊ณต๋ ํ์ต ์ ์ธ๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๊ฐ ๋ก๋ด ๋๋ฉ์ธ์ผ๋ก ๋ถ๋๋ฝ๊ฒ ์ ์ํ๋๋ก ๋์์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋๋ฉ์ธ ๊ฐญ์ ์ํ**ํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค.
Embodiment์ ๋ถ๋ฌธํ ์ ์ฑ ๊ณต๋ํ์ต ๋ฐ ํ์ฐ ๋ชจ๋ธ ํ์ฉ: ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๋ฐ์ดํฐ๋ฅผ ๋จ์ผ ์ ์ฑ ๋ชจ๋ธ์ ํตํฉํ์ฌ ํ์ตํ๋ embodiment-agnostic co-training์ ๊ตฌํํ์ต๋๋ค. ์ด๋ฅผ ์ํด ๋น์ ๊ด์ฐฐ(์นด๋ฉ๋ผ ์์)๊ณผ ๋ก๋ด ๊ณ ์ ๊ฐ๊ฐ(proprioception) ์ ๋ณด๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ ๋ฏธ๋ ํ๋์ ์์ธกํ๋ ์ ์ฑ ์ ๊ฒฝ๋ง์ ์ค๊ณํ์๊ณ , ํนํ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ฑ (diffusion policy) ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ์ํ์ค ํํ์ ํ๋ ์์ฑ์ ์์ ์ฑ์ ๋ํ์ต๋๋ค. ์ธ๊ฐ ๋น๋์ค์ ๊ฒฝ์ฐ, ์ ํฌ์ฆ ์ถ์ ๋ชจ๋๋ก๋ถํฐ ์ป์ ๋ก๋ด ๊ด์ ํํ๋ก retargeting๋ ์๋์์ ํ๋ ๋ผ๋ฒจ๋ก ์ฌ์ฉํ์ฌ, ๋ง์น ๋ก๋ด์ด ํด๋น ์ํฉ์์ ์ทจํ์ ํ๋์ธ ๊ฒ์ฒ๋ผ ํ์ต์์ผฐ์ต๋๋ค. ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ์ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์ป์ (์ค์ +๋ณด๊ฐ) ๋ฐ์ดํฐ์ ๋ํด ๋์ผํ ๋ชจ๋ธ์ ๊ณต๋ ์ต์ ํํ๋ฉฐ, ๋ ๋๋ฉ์ธ์ ํ์ต ์์ค์ ํฉ์ฐํ ๋ชฉํ ํจ์๋ฅผ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ํ๋ จ์ ์งํํ์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ผ๋ก ๋ณ๋ ๋๋ฉ์ธ ๊ตฌ๋ถ ์์ด ํ๋์ ํตํฉ ์ ์ฑ ์ด ํ์ต๋๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์๋ ๋์ผํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ์ ์๋ ์ผ๋ฐ์ฑ์ ํ๋ณดํ์ต๋๋ค.
์คํ์ ํตํ ์ฑ๋ฅ ํฅ์ ๋ฐ ํน์ฑ ๋ถ์: ์ค์ ๋ก๋ด์ ์ฌ์ฉํ ๋ค์ํ ์คํ์ ํตํด ์ ์ ๊ธฐ๋ฒ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. 4๊ฐ์ ๊ณผ์ ์ 4๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ก๋ด ๋งค๋ํฐ๋ ์ดํฐ ์กฐํฉ์์, ImMimic์ ๊ธฐ์กด ๋๋น ์ฑ๊ณต๋ฅ ํฅ์๊ณผ ๋์ ์ํ์ฑ ๊ฐ์ ์ ์ผ๊ด๋๊ฒ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ ๋์กฐ ์คํ์ ํตํด, ์๋ฌด ๋ณด์ ์์ด ์ธ๊ฐ+๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ตํ ๊ฒฝ์ฐ(naive co-training)๋ ์ธ๊ฐ-๋ก๋ด ์์ฐ์ ๋ฌด์์๋ก ์ง์ง์ด ๋ณด๊ฐํ ๊ฒฝ์ฐ(random mapping) ๋๋น ์ ์ ๋ฐฉ๋ฒ์ ์ฐ์์ฑ์ ์ ๋์ ์ผ๋ก ํ์ธํ์ต๋๋ค. ํนํ ์๊ณ์ด ๋งคํ์ ์ค์์ฑ(random mapping ๋๋น)๊ณผ ์ค๊ฐ ๋๋ฉ์ธ ๋ณด๊ฐ์ ๊ธฐ์ฌ(vanilla co-training ๋๋น)๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ฒ์ฆํ์๊ณ , ๋์ ๊ณต๊ฐ ๊ธฐ๋ฐ ๋งคํ(ImMimic-A)์ด ์๊ฐ ํผ์ฒ ๊ธฐ๋ฐ ๋งคํ(ImMimic-V)๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ๋ ์คํ์ ์ผ๋ก ๋ฐํ๋ค. ๋ง์ง๋ง์ผ๋ก, t-SNE ์๊ฐํ๋ฅผ ํตํด ImMimic ์ ์ฉ ์ ์ธ๊ฐ ๋ฐ์ดํฐ์ ํํ ๊ณต๊ฐ์ด ๋ก๋ด ๋ฐ์ดํฐ ๊ณต๊ฐ๊ณผ ์ฐ์์ ์ผ๋ก ๊ฒน์ณ์ง์ ๋ณด์๋๋ฐ, ์ด๋ ํน๋ณํ ๋ณด์ ์ด ์์๋ ๊ฒฝ์ฐ ๋ ๋๋ฉ์ธ ๋ฐ์ดํฐ๊ฐ ๋ถ๋ฆฌ๋ ํด๋ฌ์คํฐ๋ก ๋จ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ ๋๋ค. ์ด๋ก์จ ImMimic์ ๋๋ฉ์ธ ์ ์ ํจ๊ณผ๋ฅผ ์ง๊ด์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค.
2.3 Methodology Analysis
ImMimic์ด ์ ์ํ๋ ๊ต์ฐจ ๋๋ฉ์ธ ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ค์ฏ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ ์์ง: ์ฐ์ ๊ฐ ์์ (task)์ ๋ํด ์์์ ๋ก๋ด ์์ฐ์ ์์งํฉ๋๋ค. ์ฌ๊ธฐ์๋ ์๊ฒฉ ์กฐ์(teleoperation)์ ์ฌ์ฉํ์ฌ ์ฌ๋ ์ด์์๊ฐ ๋ก๋ด์ ์ง์ ์กฐ์, ์๊ฐ ๊ด์ฐฐ๊ณผ ๋ก๋ด ์ํ-ํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋กํ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์นด๋ฉ๋ผ ์์(์ธ๋ถ ์์ + ์๋ชฉ๋ถ ์นด๋ฉ๋ผ)๊ณผ ๋ก๋ด ๊ด์ ๊ฐ/๊ทธ๋ฆฌํผ ์ํ ๋ฑ์ ํ๋กํ๋ฆฌ์ค์ ์ ์ด ์๊ฐ์ ๋ฐ๋ผ ๊ธฐ๋ก๋ฉ๋๋ค.
- ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ ์์ง ๋ฐ retargeting: ๋์์ ๊ฐ ์์ ์ ๋ํด ๋ค์์ ์ธ๊ฐ ์์ฐ ๋น๋์ค๋ฅผ ๋ นํํ์ฌ ํ๋ณดํฉ๋๋ค. ์ธ๊ฐ ์์ฐ์ ๋ก๋ด๊ณผ ์ ์ฌํ ํ๊ฒฝ(์: ๋์ผํ ์์ ๋์ ๋ฌผ์ฒด ๋ฐฐ์น)์์ ์์ด์ ํธ ์์ ์นด๋ฉ๋ผ(agent-view)๋ก ์ดฌ์ํ์ฌ, ๋ก๋ด์ด ๋ณด๊ฒ ๋ ์๊ฐ ์ ๋ณด์ ์ต๋ํ ์ ์ฌํ๊ฒ ํ์์ต๋๋ค. ์ด๋ ๊ฒ ์ป์ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ๋ ์ ์์ง์์ ์ถ์ ๋ฐ ์ถ์ถํ์ฌ, ๋ก๋ด์ ์ ์ด ์ ํธ๋ก ๋ณํ(retargeting)ํฉ๋๋ค. ์ด๋ ์ธ๊ฐ ์๊ฐ๋ฝ/ํ์ ์์ง์์ ๋ก๋ด์ ๊ด์ ๊ฐ ํน์ ๊ทธ๋ฆฌํผ ์์ง์ ๋ฑ์ ๋งคํํ๋ ๊ณผ์ ์ผ๋ก, ์์ปจ๋ ์ธ๊ฐ ์๊ฐ๋ฝ์ผ๋ก ๊ณต์ ์ก๋ ๋์์ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ํ์ ๋์์ ๋์์ํค๋ ์์ ๋๋ค. ์ด ์ ํฌ์ฆ retargeting ๋ชจ๋์ ์ถ๋ ฅ์ ํตํด, ์ธ๊ฐ ๋น๋์ค ๊ฐ ์์ ๋ง๋ค ํด๋น ์์ ์ ๋ก๋ด์ด ์ทจํ์ ๋ฒํ ํ๋(action label)์ ๋ผ๋ฒจ๋ก ํ ๋นํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ธ๊ฐ ์์ฐ์๋ ์๋ ์กด์ฌํ์ง ์๋ ๋ก๋ด ํ๋ ๋ผ๋ฒจ์ด ๋ถ์ฌ๋์ด, ์ง๋ํ์ต ํํ์ ๋ชจ๋ฐฉํ์ต์ด ๊ฐ๋ฅํด์ง๋๋ค.
- ๋์ ์๊ฐ ์๊ณก(DTW)์ ํตํ ์ํ์ค ์ ๋ ฌ: ๋ค์์ผ๋ก ๊ฐ ์ธ๊ฐ ์์ฐ ์ํ์ค์ ์ ์ฌํ ๋ก๋ด ์์ฐ ์ํ์ค๋ฅผ ์ง์ง์ด, ๋์ ์๊ฐ ์๊ณก ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํฉ๋๋ค. DTW๋ ๋ ์๊ณ์ด X=(x_1,โฆ,x_m) ์ Y=(y_1,โฆ,y_n) ์ฌ์ด์ ์ ์ฌ๋์ ๊ธฐ๋ฐํ ์ ๋ ฌ์ ์ฐพ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๊ธฐ์๋ ์ธ๊ฐ ์์ฐ์ ํน์ง๊ณผ ๋ก๋ด ์์ฐ์ ํน์ง ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์ํ๊ณ , DTW๋ฅผ ์ฌ์ฉํด ์๊ฐ ์ถ์ ๋น์ ํ์ ์ผ๋ก ์กฐ์ ํจ์ผ๋ก์จ ๋ ์ํ์ค ๊ฐ ์ต์ ๋งค์นญ์ ๊ตฌํฉ๋๋ค. ์ด๋ ์ ๋ ฌ ๊ธฐ์ค์ด ๋๋ ํน์ง์ ๋ฐ๋ผ ๋ ๊ฐ์ง ๋ฐฉ์์ ์ ์ํ์์ต๋๋ค:
- ํ๋ ๊ธฐ๋ฐ ๋งคํ(ImMimic-A): retargeting๋ ๋ก๋ด ๊ด์ ํ๋ ์ํ์ค๋ฅผ ๋น๊ต ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ฆ ์ธ๊ฐ ์์ฐ(๋ก๋ด ๊ณต๊ฐ์ผ๋ก ํฌ์๋)์ ๊ด์ ์์ง์ ๋ฒกํฐ์ ์ค์ ๋ก๋ด ์์ฐ์ ๊ด์ ์์ง์ ๋ฒกํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ๊ฑฐ๋ฆฌ ํจ์๋ก ์ ์ํ์ฌ DTW ์ ๋ ฌ์ ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋์ผํ๊ฑฐ๋ ์ ์ฌํ ๋์ ์๊ฐ๋ค์ด ์๊ฐ ์ถ์ ๋์ด ๋งค์นญ๋ฉ๋๋ค.
- ์๊ฐ ๊ธฐ๋ฐ ๋งคํ(ImMimic-V): ์๊ฐ ํผ์ฒ๋ฅผ ์ ๋ ฌ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ธ๊ฐ ๋น๋์ค ํ๋ ์๊ณผ ๋ก๋ด ์์ฐ ์์ ํ๋ ์์ ๊ฐ๊ฐ ์ธ์ฝ๋(์: ResNet)๋ก ๋ณํํด ์ป์ ์ ์ฌ ํํ(latent feature) ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ์ฌ DTW๋ฅผ ์ํํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ ์ํ์ค๊ฐ ์๊ฐ์ ์ผ๋ก ๋น์ทํ ์ํ(์: ๋ฌผ์ฒด์ ์์ ์๋ ์์น ๋ฑ)์ ์์ ๋๋ฅผ ์ ๋ ฌ์์ผ ์ค๋๋ค.
DTW ์ ๋ ฌ ๊ฒฐ๊ณผ, ์ธ๊ฐ ์์ฐ์ ๊ฐ ์๊ฐ ๋จ๊ณ t_h ๊ฐ ๋ก๋ด ์์ฐ์ ํ ์๊ฐ ๋จ๊ณ t_r ์ ์ฐ๊ฒฐ๋์ด ์์ ๋งค์นญ ์๋ค์ ์งํฉ {(t_h,t_r)} ์ด ์ป์ด์ง๋๋ค. ์ด ์ฐ๊ฒฐ์ ํตํด ์ธ๊ฐ ์์ฐ ๊ด์ฐฐ o_h (t_h) ์ ํด๋น ์์ ์ ํ๋ ๋ผ๋ฒจ a_h (t_h) (retargeting๋ ๊ฒ) ๊ทธ๋ฆฌ๊ณ ๋งค์นญ๋ ๋ก๋ด ๊ด์ฐฐ o_r (t_r) ์ ๋ก๋ด ํ๋ a_r (t_r) ๊ฐ ํ๋์ ์ ๋ ฌ๋ ์ํ์ค ์์ผ๋ก ๋ฌถ์ ๋๋ค.
- MixUp ๋ณด๊ฐ์ ํตํ ์ค๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ ์์ฑ: ์ด๋ ๊ฒ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์์ฐ ์์ ๋ํด, MixUp ๋ฐ์ดํฐ ๋ณด๊ฐ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ค์์ ์๋ก์ด ๊ฐ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ ๋๋ค. MixUp์ด๋ ๋ ์ํ์ ์ ํ ๊ฒฐํฉํ์ฌ ์๋ก์ด ์ํ์ ๋ง๋๋ ๊ธฐ๋ฒ์ผ๋ก, ์ฌ๊ธฐ์๋ ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ์์ฐ์ ํน์ฑ์ ๋ถ๋ถ์ ์ผ๋ก ์์ ์ค๊ฐ ์์ฐ์ ์์ฑํ๋ ๋ฐ ํ์ฉ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ๋ ฌ๋ ์์์ ๋์ผํ ์๋ ์์ ์ ์๋ ์ธ๊ฐ ๊ด์ฐฐ์ ์ ์ฌํํ z_h ์ ๋ก๋ด ๊ด์ฐฐ์ ์ ์ฌํํ z_r ์ ์๊ณ , ์ธ๊ฐ ํ๋ a_h ์ ๋ก๋ด ํ๋ a_r ๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ ์ ๋ ฌ๋ ์์ ์์ ๋ํด ์์์ ๋ณด๊ฐ ๊ณ์ ฮปโ[0,1] ๋ฅผ ์ ํํ๊ณ ๋ค์๊ณผ ๊ฐ์ด ์์ฑํฉ๋๋ค:
\begin{align*} z_{mixt} = \alpha \cdot z_{h t} + (1โ\alpha) \cdot z_{r tโฒ} , a_{mixt:t+k} = \alpha \cdot a^{hโr}_{t:t+k} + (1โ\alpha) \cdot a_{r tโฒ:tโฒ+k} \end{align*}
์ด z_โmixโ ์ a_โmixโ ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐ ํน์ฑ์ ๊ฐ๋ ํ๋์ ์๋ก์ด ํ์ต ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๋ํ๋ ๋๋ค. ์ ์ฒด ์ํ์ค์ ๋ํด ์ด๋ฐ ์์ ๋ณด๊ฐ์ ์ํํ๋ฉด, ์ธ๊ฐ ์์ฐ์ ์ฐ์๋ ํ๋ ์๋ค์ด ์ ์ฐจ ๋ก๋ด ์์ฐ์ ํน์ฑ์ผ๋ก ๋ณ๋ชจํ๋ ๊ฐ์ ์ํ์ค๊ฐ ์์ฑ๋ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ด์ฐฐ์ ์ ์ฌ๊ณต๊ฐ๊ณผ ํ๋๊ณต๊ฐ ๋ชจ๋์์ ๋ณด๊ฐ์ ์ํํ์ฌ ์ผ๊ด์ฑ ์๋ ์๋ก์ด ์ํ์ค๋ฅผ ์ป์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด ์ค๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ค์ ๊ฒ๋ณด๊ธฐ์๋ ์์ ํ ๋ก๋ด ์์ฐ๋, ์์ ํ ์ธ๊ฐ ์์ฐ๋ ์๋์ง๋ง ๋ ๋๋ฉ์ธ์ ํน์ง์ ๋ชจ๋ ์กฐ๊ธ์ฉ ๊ฐ๊ณ ์์ด, ํ์ต ์์ ์ธ๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ๋ก๋ด ๋๋ฉ์ธ์ผ๋ก ์ด์ด์ง๋๋ก ๋ง๋ค์ด์ฃผ๋ ๋ค๋ฆฌ ์ญํ ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์ ์ฌ๋ฌ ์ ๋ ฌ๋ ์์ฐ ์๋ค์ ๋ํด ๋ฐ๋ณตํ์ฌ ์ ์ฉ๋๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์ถ์ถ๋ ๋ค๋์ ๋ณด๊ฐ ์ํ์ค ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ก ํ๋ณด๋ฉ๋๋ค.
- ๊ณต๋ ํ์ต(co-training)์ผ๋ก ์ ์ฑ ํ๋ จ: ๋ง์ง๋ง์ผ๋ก, ์์์ ์ป์ด์ง ๋ณด๊ฐ๋ ์ธ๊ฐ ๋ฐ์ดํฐ + ์๋ณธ ์ธ๊ฐ ๋ฐ์ดํฐ + ์๋์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํจ๊ป ์ฌ์ฉํ์ฌ ํ๋์ ์ ์ฑ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค[20]. ์ ์ฑ ๋ชจ๋ธ์ ์ข ๋จ๊ฐ ๋น์ -๋ชจํฐ ์ ์ฑ ์ผ๋ก์, ์ฃผ์ด์ง ํ์ฌ ๊ด์ฐฐ์ ๋ํด ๋ค์ ์๊ฐ ์คํ ์ ๋ก๋ด ํ๋์ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค. ๋ก๋ด ๊ด์ฐฐ์ ๊ฒฝ์ฐ ๋ก๋ด์ ์นด๋ฉ๋ผ ์์(Agent-view ๋ฐ Wrist-view ๋ ์์ )๊ณผ ๋ก๋ด ๊ด์ ์ํ(ํ๋กํ๋ฆฌ์ค์ ์ )๋ฅผ ํจ๊ป ์ ๊ฒฝ๋ง ์ธ์ฝ๋๋ฅผ ํตํด ์ ์ฌ ์ํ๋ก ๋ณํํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ ๋ถํฌ์์ ๋ค์ ํ๋์ ์ํ๋งํ๊ฑฐ๋ ์ถ๋ก ํฉ๋๋ค. ์ธ๊ฐ ๊ด์ฐฐ์ ๊ฒฝ์ฐ ์ธ๊ฐ ๋น๋์ค ํ๋ ์์ ๋์ผํ ์ ์ฑ ๋คํธ์ํฌ์ ํต๊ณผ์ํค๋, ์ด๋ ํ์ฌ ๋ก๋ด ์ํ์ ํด๋นํ๋ ์ ๋ ฅ์ด ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์์ retargeting๋ ์ธ๊ฐ ์๋์์ ํด๋น ์์ ์ ๋ก๋ด ํ๋ ์์์์ ๊ด์ ์ํ(๊ฐ์์ ํ๋กํ๋ฆฌ์ค์ ์ )๋ก ๊ฐ์ฃผํ์ฌ ์ ๋ ฅ์ ํฌํจ์ํต๋๋ค. ๋ค์ ๋งํด, ์ธ๊ฐ ๋น๋์ค์ ๋์ํ๋ ์ ์ฑ ์ ๋ ฅ์๋ โ๋ง์ฝ ์ด ์์ ์ ๋ก๋ด์ด ์ด ๋์์ ์ํํ๊ณ ์๋ค๋ฉดโ์ด๋ผ๋ ๊ฐ์ ํ์ ๋ก๋ด์ ์ํ๋ก ์นํ๋ ์ ๋ณด๊ฐ ์ ๊ณต๋ฉ๋๋ค. ์ ์ฑ ์ถ๋ ฅ์ผ๋ก๋ ๋ก๋ด์ ๋ค์ ํ๋(๊ด์ ๋ช ๋ น)์ด ์์ธก๋๋๋ฐ, ๋ก๋ด ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ๋ ์ค์ ๋ก๋ด ์์ฐ์ ๋ค์ ํ๋๊ณผ ๋น๊ตํ๊ณ , ์ธ๊ฐ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ๋ retargeting๋ ๋ค์ ํ๋(์ธ๊ฐโ๋ก๋ด ๋ณํ๋)๊ณผ ๋น๊ตํ์ฌ ์์ค์ ๊ณ์ฐํฉ๋๋ค. ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ๋์ผํ ์ ์ฑ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๋ฉฐ, ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ์์ ์ค๋ ์ฌ๊ตฌ์ฑ ์์ค(๋ชจ๋ฐฉ ํ์ต ์ค์ฐจ)์ ํฉ์ฐํ์ฌ ๋ชจ๋ธ์ ์ต์ ํํฉ๋๋ค. ์ด๋ฌํ ๊ณต๋ ํ์ต์ ํตํด, ๋ชจ๋ธ์ ๋ก๋ด ์์ฐ์ ์ ํํ ํจํด์ ํ์ตํจ๊ณผ ๋์์ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ์ผ๋ฐํ์ ์ ์ฉํ ๋ค์์ฑ์ ํก์ํฉ๋๋ค. ํนํ ๋ณด๊ฐ๋ ์ค๊ฐ ๋ฐ์ดํฐ ๋๋ถ์, ํ์ต ๊ณผ์ ์์ ์ธ๊ฐ ๋๋ฉ์ธ ๋ถํฌ โ ์ค๊ฐ ๋ถํฌ โ ๋ก๋ด ๋ถํฌ๋ก ์ ์ง์ ์ธ ๋๋ฉ์ธ ์ด๋์ด ์ ๋๋์ด, ํ์ต ์์ ์ฑ๊ณผ ๋๋ฉ์ธ ์ ์ ๋ฅ๋ ฅ์ด ํฅ์๋ฉ๋๋ค. ์ค์ ์ ์๋ค์ t-SNE ์๊ฐํ๋ฅผ ํตํด, ImMimic์ผ๋ก ํ์ตํ ๊ฒฝ์ฐ ํ๋ จ ์ค ์ธ๊ฐ ๋ฐ์ดํฐ์ ์ ์ฌ ํํ๋ค์ด ๋ก๋ด ๋ฐ์ดํฐ ์ชฝ์ผ๋ก ์ฐ์์ ์ผ๋ก ๋ถํฌํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค (Vanilla ๊ณต๋ํ์ต์ ๊ฒฝ์ฐ ์ธ๊ฐ/๋ก๋ด ๋ฐ์ดํฐ๊ฐ ๋ถ๋ฆฌ๋ ๊ตฐ์ง์ ํ์ฑํจ). ์ด๋ ์ค๊ฐ ๋๋ฉ์ธ ๋ณด๊ฐ์ด ํํ ๊ณต๊ฐ ์์์ ๋ ๋๋ฉ์ธ์ ๊ฐ๊ทน์ ๋ฉ์ฐ๋ ์ญํ ์ ์ํํจ์ ๋ท๋ฐ์นจํฉ๋๋ค.
์ ์ฑ ๋ชจ๋ธ์ ํ์ต์ Diffusion Policy ๋ฐฉ์์ ์ฐจ์ฉํ์๋ค๊ณ ์ธ๊ธ๋๋๋ฐ, ์ด๋ ํ์ฐ ํ๋ฅ ๋ชจ๋ธ(denoising diffusion)์ ์ด์ฉํด ๋ฏธ๋ ํ๋ ์ํ์ค๋ฅผ ์์ฑํ๋๋ก ํ ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค. ํ์ฐ ์ ์ฑ ์ ์ฅ์ ์ ๋ค์ค ๋ชจ๋ฌ ํ๋ ๋ถํฌ๋ฅผ ์ ํํํ๊ณ ์์ ์ ์ผ๋ก ์ํ์ค๋ฅผ ์์ธกํ ์ ์๋ค๋ ์ ์ธ๋ฐ, ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ํ๋ ์์ธก์ ์๊ณ์ด ์์ฑ ๋ฌธ์ ๋ก ๋ค๋ฃฌ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํ๋ จ ๋ชฉํ๋ ๊ฐ ์์ ์์ ๋ชจ๋ธ์ด ๋ฐ๋ชจ ํ๋์ ์ฌ๊ตฌ์ฑํ๋๋ก ํ๋ ๊ฒ์ผ๋ก, ์ธ๊ฐ ๋ฐ ๋ก๋ด ๋ฐ์ดํฐ ๋ชจ๋์ ๋ํด ํ๋ ์์ธก ์ค๋ฅ(์: MSE ํน์ ์์ ๋ก๊ทธ์ฐ๋)๋ฅผ ์ต์ํํฉ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ์ ์ฑ ์ ์ถํ ๋ก๋ด์ ์ฃผ์ด์ก์ ๋, ์๋ก์ด ๊ด์ฐฐ(์นด๋ฉ๋ผ ์์)์ ์ ๋ ฅ๋ฐ์ ์ธ๊ฐ ์์ฐ์์ ํ์ตํ ํ๋ถํ ๋์์ ๋ฐํ์ผ๋ก๋, ์ค์ ๋ก๋ด์ ์ ํจํ ์ ์ด ์ ํธ๋ฅผ ์ถ๋ ฅํ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ฝํ๋ฉด, ImMimic์ ๋ฐฉ๋ฒ๋ก ์ ์ฐธ์ ์ฑ์ โ์ธ๊ฐโ๋ก๋ด ๋ฐ์ดํฐ์ ์ฌ์(mapping)๊ณผ ๋ถํฌ ๋ณด๊ฐ(interpolation)โ์ด๋ผ๋ ๋ ๊ฐ์ง ๊ธฐ์ ๋ก ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ ์ ์ ๋๋ค. ๋ณต์กํ ๋๋ฉ์ธ ์ ์ ์๊ณ ๋ฆฌ์ฆ ๋์ , ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์กฐ์ํ์ฌ ๋๋ฉ์ธ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๋ ์ ๊ทผ์ ์ทจํ๊ธฐ์ ๊ตฌํ์ด ๋น๊ต์ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ ๋๋ค. ๋ํ ์ฌ๋ฌ ๋ก๋ด ํํ์ ๋์ผํ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ ์ผ๋ฐ ํ๋ ์์ํฌ๋ก ์ค๊ณ๋์ด ๋ค์ํ ํ๋ซํผ์ ํ์ฅ ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
2.4 Experimental Results and Analysis
๋ ผ๋ฌธ์์๋ ๋ค ๊ฐ์ง ์ค์ ์กฐ์ ์์ ์ ๋ํด ์ ์ํ ImMimic์ ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค:
- ์ง์ด์ ๋๊ธฐ (Pick and Place): ํ ์ด๋ธ ์์ ์์ ๋ฌผ์ฒด๋ฅผ ์ง์ด์ ๋ค๋ฅธ ์์น์ ์ ํํ ๋ด๋ ค๋๋ ์์ .
- ๋ฐ๊ธฐ (Push): ๋ฌผ์ฒด๋ฅผ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ด์ ์ด๋์ํค๋ ์์ .
- ๋ง์น์ง (Hammer): ๋ง์น๋ ๋ง์นํ ๋๊ตฌ๋ฅผ ์ฌ์ฉํด ๋ชฉํ ์ง์ ์ ๋ด๋ฆฌ์น๋ ์์ (์: ๋ชป ๋ฐ๊ธฐ ๋ฑ ์ ์ฌ ๋์).
- ๋ค์ง๊ธฐ (Flip): ๋ฌผ์ฒด๋ฅผ ๋ค์ด์ฌ๋ ค์ ๋ค์ง๊ฑฐ๋, ๋๋ ์ง๋ ๋๋ฅผ ์ ํ์ ๋ฐฉํฅ์ ๋ฐ๊พธ๋ ์์ .
์ด๋ค ์์ ์ ์ ๋ฐํ ๊ทธ๋ฆฝ๋ถํฐ ๋์ ํ๊ฒฉ ๋์๊น์ง ๋ค์ํ ์กฐ์ ์คํํธ๋ผ์ ํฌํจํ์ฌ, ์๊ณ ๋ฆฌ์ฆ์ ๋ฒ์ฉ์ฑ์ ์ํํฉ๋๋ค. ๊ฐ ์์ ์ ๋ํด ์๋ก ๋ค๋ฅธ 4์ข ์ ๋ก๋ด ์/๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ๋๋ฐ, ๋ ์ข ๋ฅ๋ ํํ ๊ทธ๋ฆฌํผ(Robotiq 2F-85 ๊ทธ๋ฆฌํผ, ๊ทธ๋ฆฌ๊ณ Fin Ray ์ํํธ ๊ทธ๋ฆฌํผ)์ด๊ณ , ๋ ์ข ๋ฅ๋ ๋ค์ง(ๅคๆ) ๋ก๋ด ํธ๋(Shadow Allegro Hand V4, PSYONIC Ability Hand)์ ๋๋ค. ์ด๋ ๋จ์ ์ง๊ฒํ๋ถํฐ ์ธ๊ฐํ ์๊น์ง ๋ค์ํ ํํ์ Embodiment ์ฐจ์ด๋ฅผ ํฌ๊ดํจ์ผ๋ก์จ, ImMimic์ด ํํ์ ๊ตฌ์ ๋ฐ์ง ์๊ณ ๋์ํ์ต์ ๋์์ด ๋๋์ง ๊ฒ์ฆํ๊ธฐ ์ํจ์ ๋๋ค. ๊ฐ ๋ก๋ด์๋ ๊ณตํต์ ์ผ๋ก 7์์ ๋ ๋ก๋ด ํ(์: Franka Emika Panda)์ด ๋ถ์ด ์์ด ์์ ์ ์ํํ๋ฉฐ, ๊ทธ ๋๋จ์ ์์ ๊ทธ๋ฆฌํผ/ํธ๋๊ฐ ์ฅ์ฐฉ๋ ํํ๋ก ์คํ์ด ์ด๋ฃจ์ด์ง ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค.
๋ฐ์ดํฐ ๊ตฌ์ฑ: ์คํ์์ ์ฌ์ฉ๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ๊ท๋ชจ๋ ์ธ๊ฐ ์์ฐ์ด ์์ ๋น ์ฝ 100๊ฐ, ๋ก๋ด ์์ฐ์ด ์์ ๋น 5๊ฐ ์์ค์ผ๋ก ๋ช ์๋์ด ์์ต๋๋ค[4]. ์ด 20:1 ์ ๋์ ๋น์จ์ ์ธ๊ฐ ๋น๋์ค๊ฐ ๋งค์ฐ ํ๋ถํ์ง๋ง ๋ก๋ด ๋ฐ๋ชจ๋ ๊ทน๋๋ก ์ ํ์ ์ธ ์ํฉ์ ๊ฐ์ ํ ๊ฒ์ผ๋ก, ImMimic์ ๋ชฉํ์ธ โ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ + ์๊ท๋ชจ ๋ก๋ด ์์ฐโ ์ํฉ์ ์ ๋ฐ์ํฉ๋๋ค. ๊ฐ ์์ ๋ง๋ค 5๊ฐ์ ๋ก๋ด ์์ฐ์ ๋ค์ํ ์ด๊ธฐ์กฐ๊ฑด๊ณผ ์ ๋ต์ ๋ด๋๋ก ์ด๋ ์ ๋ ๋ค์์ฑ์ ๊ฐ์ง๊ฒ ์์ง๋์๊ณ , ์ธ๊ฐ ์์ฐ 100๊ฐ ์ญ์ ๊ฐ๋ฅํ ๋ค์ํ ์ฌ๋์ ๋์์ผ๋ก ๊ตฌ์ฑ๋์ด ๋ฐ์ดํฐ ํญ์ ๋๊ฒ ๊ฐ์ ธ๊ฐ์ ๊ฒ์ ๋๋ค.
ํ์ต ๋ฐ ํ๊ฐ: ImMimic ๋ชจ๋ธ์ ์์ ๊ธฐ์ ๋ ๋ฐฉ์๋๋ก ๋ชจ๋ ๋ฐ์ดํฐ(์๋ณธ ๋ก๋ด 5๊ฐ, ์๋ณธ ์ธ๊ฐ 100๊ฐ, ๊ทธ๋ฆฌ๊ณ ๋ณด๊ฐ ์์ฑ๋ ๊ฐ์ ์์ฐ ๋ค์)๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ํ๋ จ๋ฉ๋๋ค. ํ์ต ํ ๊ฐ ์์ -๋ก๋ด ์กฐํฉ์ ๋ํด 10ํ ์ด์์ ๋ฐ๋ณต ์คํ์ ํตํด ์ฑ๊ณต๋ฅ (task success rate)์ ์ธก์ ํ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ํ ํ์ต๋ ์ ์ฑ ์ผ๋ก ์์ ์ ์ํํ ๋ ๋ก๋ด ๋์์ ๋งค๋๋ฌ์(smoothness)์ ์ ์ฑ์ /์ ๋์ ์ผ๋ก ๋ถ์ํ์์ต๋๋ค. ๋งค๋๋ฌ์์ ์์ปจ๋ ๊ฒฝ๋ก์ ์ฐ์์ฑ, ์๋ ํ๋กํ์ผ์ ๋ถ๋๋ฌ์(๊ฐ์๋์ ๋ณํ), ๋ถํ์ํ ๋ฉ์ถค/์ง๋์ ๊ฐ์ ๋ฑ์ ํตํด ํ๊ฐ๋์์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ์ด์ธ์๋ ๋๋ฉ์ธ ์ ์ ํจ๊ณผ๋ฅผ ํ์ธํ๊ธฐ ์ํด ํ์ต ๊ณผ์ ์ค ์๋ฒ ๋ฉ ๋ถํฌ(t-SNE)๋ ์ํ ํจ์จ์ฑ ๋ถ์(๋ฐ๋ชจ ๊ฐ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๊ณก์ ) ๋ฑ์ด ์ํ๋์์ต๋๋ค.
๋น๊ต ๊ธฐ๋ฒ (Baselines): ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ๋ช ๊ฐ์ง ๋น๊ต ๋์์ด ์ค์ ๋์์ต๋๋ค:
- Robot-Only: ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์๊ณ ์๋์ ๋ก๋ด ๋ฐ๋ชจ(5๊ฐ)๋ง์ผ๋ก ์ ์ฑ ์ ํ์ตํ ๊ฒฝ์ฐ์ ๋๋ค. ์ด๋ ImMimic์ ์ฌ์ฉํ์ง ์์์ ๋ ๋ฐ์ดํฐ ๋ถ์กฑ ์ํฉ์์์ ๊ธฐ๋ณธ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฐ ๊ทน์๋ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ ์ฑ๊ณต๋ฅ ์ด ๋ฎ์ ๊ฒ์ผ๋ก ์์๋๋ฉฐ, ์ด๋ฅผ ๊ธฐ์ค์ ์ผ๋ก ์ผ์ต๋๋ค.
- Vanilla Co-Training: ImMimic์ ํต์ฌ ๊ธฐ๋ฒ(DTW ์ ๋ ฌ ๋ฐ MixUp ๋ณด๊ฐ)์ ์ ์ฉํ์ง ์๊ณ , ์ธ๊ฐ ๋น๋์ค์์ ์ถ์ถํ ํ๋ ๋ผ๋ฒจ๊ณผ ๋ก๋ด ๋ฐ๋ชจ๋ฅผ ๊ทธ๋ฅ ํตํฉํ์ฌ ํ๊บผ๋ฒ์ ํ์ตํ ๊ฒฝ์ฐ์ ๋๋ค. ์ฆ, ๋ณ๋ค๋ฅธ ๋๋ฉ์ธ ์ ์ ์ฒ๋ฆฌ ์์ด ๊ณต๋ํ์ต๋ง ์ํํ ๋ฐฉ๋ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋๊ธด ํ์ง๋ง ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ์ ๋๋ก ๋ค๋ฃจ์ง ์์, ์ฑ๋ฅ์ด Robot-Only๋ณด๋ค ๋์์ง์ง ์๊ฑฐ๋ ์คํ๋ ค ๊ต๋ ํจ๊ณผ๋ก ์ ํ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋๋ฉ์ธ ๊ฐญ์ ๋ค๋ฃจ๋ ๊ธฐ๋ฒ์ ์ค์์ฑ์ ํ๊ฐํฉ๋๋ค.
- Random Mapping: ImMimic๊ณผ ๋์ผํ๊ฒ ์ธ๊ฐ+๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ตํ๋, ์ธ๊ฐ-๋ก๋ด ์ํ์ค ๊ฐ ์๋ฏธ ์๋ ์ ๋ ฌ ์์ด ์์๋ก ์ง์ง์ด MixUp ๋ณด๊ฐ์ ์ํํ ๊ฒฝ์ฐ์ ๋๋ค. ์ด๋ DTW ๊ธฐ๋ฐ ์ ๋ ฌ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํ ์คํ์ผ๋ก, ์ ๋ ฌ ์์ด ๋ณด๊ฐํ๋ฉด ๋นํฉ๋ฆฌ์ ๋ฐ์ดํฐ(์: ์ ํ ๋ค๋ฅธ ๋งฅ๋ฝ์ ์ธ๊ฐ/๋ก๋ด ๋์์ ์์ ๋ฐ์ดํฐ)๊ฐ ์์ฑ๋์ด ํ์ต์ ์ ์ํฅ์ ์ค ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ์ค์ ์ด baseline๊ณผ์ ๋น๊ต๋ โ์ฌ๋ฐ๋ฅธ ๋งคํโ์ ์ค์์ฑ์ ๋ถ๊ฐํฉ๋๋ค.
- ImMimic-V: ์ ์ ๊ธฐ๋ฒ ์ค ์๊ฐ ๊ธฐ๋ฐ ๋งคํ๋ง์ ์ฌ์ฉํ ๋ณํ์ ๋๋ค. ์ฆ DTW ์ ๋ ฌ ์ ๋ก๋ด/์ธ๊ฐ ์๊ฐํผ์ฒ ์ ์ฌ๋๋ก ์ ๋ ฌํ๊ณ MixUp ๋ณด๊ฐํ๋ ๋ฐฉ์์ผ๋ก, ํ๋ ๊ธฐ๋ฐ ๋งคํ(ImMimic-A)๊ณผ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋น๊ตํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ค ๋งคํ ๊ธฐ์ค์ด ๋ ์ ํจํ์ง ํ์ธํ์์ต๋๋ค.
์ฑ๊ณผ (Results): ์ ๋ฐ์ ์ผ๋ก ImMimic์ ๋ชจ๋ ์์ ๊ณผ ๋ก๋ด์ ๊ฑธ์ณ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ ผ๋ฌธ ํ๋ก์ ํธ ํ์ด์ง์ ๊ณต๊ฐ๋ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, Robot-Only ๋๋น ImMimic ์ ์ฉ์ ์ฑ๊ณต๋ฅ ์ด ํ์ ํ ํฅ์๋์์ผ๋ฉฐ, Vanilla ๊ณต๋ํ์ต ๋๋น๋ก๋ ํฐ ๊ฐ์ ์ด ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Pick and Place ์์ ์์ 5๊ฐ ๋ก๋ด ๋ฐ๋ชจ๋ง์ผ๋ก ํ์ตํ ๊ฒฝ์ฐ ์ฑ๊ณต๋ฅ ์ด ๋งค์ฐ ๋ฎ์์ผ๋(ImMimic ๋ฏธ์ฌ์ฉ), ImMimic์ ํตํด 100๊ฐ์ ์ธ๊ฐ ๋น๋์ค๋ฅผ ํ์ฉํ๋ฉด ์ฑ๊ณต๋ฅ ์ด ์๋ฏธ ์๊ฒ ์์นํ๋ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์์ต๋๋ค. Push, Hammer, Flip ๋ฑ ๋ค๋ฅธ ์์ ๋ค์์๋ ์ผ๊ด๋๊ฒ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ํนํ ๋ณต์กํ ์กฐ์์ผ์๋ก ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ์ ์ด๋์ด ์ปธ๋ค๊ณ ์ ์ถํ ์ ์์ต๋๋ค. Hammer๋ Flip์ ๋์ด๋๊ฐ ๋์ ๋ก๋ด ๋ฐ๋ชจ 5๊ฐ๋ง์ผ๋ก ํ์ตํ๊ธฐ ์ด๋ ค์ด ๋ฐ๋ฉด, ์ธ๊ฐ ๋น๋์ค๋ก ๋ค์ํ ์ฌ๋ก๋ฅผ ํ์ตํ ImMimic ์ ์ฑ ์ ์ด๋ฌํ ์์ ์์๋ ์๋นํ ์ฑ๊ณต๋ฅ ๊ฐ์ ์ ์ด๋ค์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
๋น๊ต ๊ธฐ๋ฒ ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด:
- Vanilla Co-Training: ์ธ๊ฐ ๋ฐ์ดํฐ ์ถ๊ฐ์๋ ๋ถ๊ตฌํ๊ณ ๋๋ฉ์ธ ์ฐจ์ด๋ก ์ธํด Robot-Only ๋๋น ๋๋ ทํ ๊ฐ์ ์ ๋ชป ๋ด๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค. ์ผ๋ถ ์์ ์์๋ ์ฝ๊ฐ์ ํฅ์์ด ์์์ง๋ง, ๋ค๋ฅธ ์์ ์์๋ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ๋๋ก ํ์ฉ๋์ง ๋ชปํด ์ฑ๊ณต๋ฅ ์ ์ฒด ํน์ ๋ถ์์ ํ ํ์ต์ ๋ณด์์ต๋๋ค. ์ด๋ ๋๋ฉ์ธ ๊ฐญ์ ํด์ํ์ง ์๊ณ ๋ ์ธ๊ฐ ๋น๋์ค์ ์ ์ฌ๋ ฅ์ด ๋ฐํ๋์ง ์์์ ๋ณด์ฌ์ค๋๋ค.
- Random Mapping: ์ด ๋ฐฉ๋ฒ์ ๋์ฒด๋ก Vanilla ๊ณต๋ํ์ต๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋ฎ๊ฒ ๋์์ต๋๋ค. ์ธ๊ฐ-๋ก๋ด ๋์์ด ์๋ฑํ๊ฒ ์ด๋ฃจ์ด์ ธ ์๋ฏธ ์๋ ๋ณด๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ค์ ์์ฑ๋์๊ณ , ์ด๋ก ์ธํด ์ ์ฑ ํ์ต์ด ํผ๋์ ๊ฒช์์ ๊ฒ์ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก Robot-Only๋ณด๋ค๋ ๋ชปํ ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๊ฒฝ์ฐ๋ ์์ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ์ด ๋น๊ต๋ฅผ ํตํด, ์ธ๊ฐ-๋ก๋ด ์์ฐ ๊ฐ ์ฌ๋ฐ๋ฅธ ์๊ณ์ด ์ ๋ ฌ(DTW)์ ์ค์์ฑ์ด ์ค์ฆ๋์์ต๋๋ค โ ์๋ชป ์ฐ๊ฒฐ๋ ๋ฐ์ดํฐ๋ ์คํ๋ ค ๋ ์ด ๋จ์ ํ์ธํ ๊ฒ์ ๋๋ค.
- ImMimic-V vs ImMimic-A: ๋ ๋งคํ ์ ๋ต์ ๋น๊ตํ ๊ฒฐ๊ณผ, ํ๋ ๊ธฐ๋ฐ ๋งคํ(ImMimic-A)์ด ์๊ฐ ๊ธฐ๋ฐ ๋งคํ(ImMimic-V)๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ImMimic-A๊ฐ ImMimic-V๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋๋ฐ, ์ด๋ ๋ก๋ด ์/๊ทธ๋ฆฌํผ์ ๊ตฌ์ฒด์ ์ธ ๊ด์ ํ๋ ์ ๋ณด๊ฐ ๋๋ฉ์ธ ์ ๋ ฌ์ ๋ ํจ๊ณผ์ ์ด์๋ค๋ ๋ป์ ๋๋ค. ์๊ฐ ํผ์ฒ ๊ธฐ๋ฐ ์ ๋ ฌ๋ ์ด๋ ์ ๋ ํจ๊ณผ๋ ์์์ง๋ง, ์์ ํ ๋ค๋ฅธ ํํ์ ์/๊ทธ๋ฆฌํผ ์ฌ์ด์์๋ ์๊ฐ์ ์ ์ฌ์ฑ์ด ๊ณง ํ๋์ ์ ์ฌ์ฑ์ผ๋ก ์ด์ด์ง์ง ์์ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, retargeting์ ํตํด ์ธ๊ฐ ์๋์์ ๋ก๋ด ๊ด์ ๊ณต๊ฐ์ผ๋ก ๋ณํํ ๋ค ์ด๋ฅผ ์ง์ ๋น๊ตํ๋ฉด ๋ณด๋ค ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋งค์นญ์ ์ป์ ์ ์์ด ๋ณด์ ๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์ ๋ฐํ ํ๋ ๋ ๋ฒจ์ ๋์์ด ๋๋ฉ์ธ ๊ฐญ ํด์์ ์ค์ํจ์ ์์ฌํฉ๋๋ค. (์๊ฐ ๊ธฐ๋ฐ ์ ๋ ฌ์ ํ๊ฒฝ ๋ฐฐ๊ฒฝ ๋ฑ์ด ๋์ผํ ํต์ ๋ ์ํฉ์์๋ ๊ทธ๋ญ์ ๋ญ ๋์ํ์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก๋ ํ๋ ๊ธฐ๋ฐ ์ ๋ ฌ์ด ๋ฐ๋์งํ๋ค๋ ๊ฒฐ๋ก ์ ๋๋ค.)
์ฑ๊ณต๋ฅ ์ด์ธ์ ์งํ: ์ ์๋ค์ ์ ์ฑ์ ์ธ ๊ฒฐ๊ณผ๋ก์ ImMimic์ผ๋ก ํ์ตํ ๋ก๋ด์ด ๋ณด๋ค ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋์ ํจํด์ ๋ณด์ด๋ฉฐ, ์คํ์ด ๋งค๋๋ฝ๋ค(smoother)๊ณ ์ธ๊ธํฉ๋๋ค. ์๋ฅผ ๋ค์ด, Robot-Only ์ ์ฑ ์ ๊ฒฝ์ฐ ๋์์ด ๋ถ์์ ํ์ฌ ๋ฌผ์ฒด๋ฅผ ๋์น ์ ์์๋ ๋ฐ๋ฉด, ImMimic ์ ์ฑ ์ ์ฐ์์ ์ด๊ณ ์์ ์ ์ธ ์ ์ค์ฒ๋ก ์์ ์ ์ํํจ์ ํ์ธํ์ต๋๋ค. ์ด๋ ์๋ง ๋ชจ๋ธ์ ํ๋ ์ถ๋ ฅ์ ๊ฐํด์ง ์ธ๊ฐ ์ๆผ์ ์ํฅ์ผ๋ก, ์ธ๋ฐํ ์กฐ์ ์ด๋ ํ ์กฐ์ ๋ฉด์์ ํฅ์๋ ๊ฒฐ๊ณผ์ผ ๊ฒ์ ๋๋ค. ์คํ์ ๋งค๋๋ฌ์์ ๋ ๋ค๋ฅธ ๊ด์ ์์๋ ์ ๋ํ๋ ์งํ๋ก๋ ์ธก์ ํ์ ์ ์๋๋ฐ, ์์ปจ๋ ๋ชจ์ ์ ๊ฐ์๋ ๋ณํ์จ(jerk)์ ๋ถ์ฐ, ์๋-์ดํํฐ ๊ถค์ ์ ํํํจ, ์ถฉ๊ฒฉ ์์ด ์๋ฌด ์์ ๋ฑ์ ํ๊ฐํ์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ด ๋ถ๋ถ์ ๋ํ ์์น๋ ๋ ผ๋ฌธ์ ๋ช ํํ ์ ์๋์ง ์์์ง๋ง, ์ ๋ฐ์ ์ธ ๊ณผ์ ์ฑ๊ณต ๊ณผ์ ์์์ ํ์ง ๊ฐ์ ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค.
๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ๋ถ์์ผ๋ก, ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ์๊ณผ ๋ค์์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ํ๊ฐํ ๊ฒฐ๊ณผ๊ฐ ์์ต๋๋ค. ์ธ๊ฐ ์์ฐ์ ์๋ฅผ 0, 50, 100, 200๊ฐ๋ก ๋ฌ๋ฆฌํด๊ฐ๋ฉฐ ImMimic-A์ ์ฑ๋ฅ์ ์ธก์ ํ ๊ฒฐ๊ณผ, ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ง์์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ ์ํฅ ๊ณก์ ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์น๋ฅผ ์ค์ฆํ ๊ฒ์ผ๋ก, ์ถฉ๋ถํ ๋ค์ํ ์์ฐ์ ํ๋ณดํ๋ฉด ๋ก๋ด ๋ฐ๋ชจ ๋ช ๊ฐ๋ง์ผ๋ก๋ ์ ์ฑ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ด์ฌ๋ฆด ์ ์์์ ์๋ฏธํฉ๋๋ค. ๋ฐ๋๋ก ๋ก๋ด ๋ฐ๋ชจ์ ์๋ฅผ 1, 5, 20๊ฐ๋ก ๋ณํ์ํจ ์คํ์์๋, ๋ก๋ด ๋ฐ๋ชจ๊ฐ ๋์๋ก ์ฑ๋ฅ ํฅ์์ ์์ง๋ง ImMimic์ ์ ์ฉํ ๊ฒฝ์ฐ ์ ์ ๋ก๋ด ๋ฐ๋ชจ๋ก๋ ๋์ผ ์์ค์ ๋ฌ์ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํจ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ImMimic-A๋ฅผ ์ฌ์ฉํ๋ฉด ๋ก๋ด ๋ฐ๋ชจ 5๊ฐ๋ก ๋ฌ์ฑํ ์ฑ๋ฅ์ Robot-Only๋ 20๊ฐ๋ฅผ ์จ์ผ ๊ฒจ์ฐ ๋ฌ์ฑํ๋ ์์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ๊ฒ์ผ๋ก ์ถ์ธก๋ฉ๋๋ค. ์ด๋ฌํ ์ํ ํจ์จ์ฑ ๊ฐ์ ์ ImMimic์ ์ฃผ๋ ๋ชฉํ ์ค ํ๋๋ก์, ์ค์ ๋ก ์ ์ ๋ก๋ด ๋ฐ์ดํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ์ป๋๋ก ํด์ค๋ค๋ ์ ์ด ํ์ธ๋์์ต๋๋ค.
์์ฝํ๋ฉด, ์คํ ๊ฒฐ๊ณผ๋ ๋ค์์ ๋ณด์ฌ์ค๋๋ค:
- ImMimic์ด ๋๋ฉ์ธ ๊ฐญ์ ํจ๊ณผ์ ์ผ๋ก ์ํํ์ฌ ์ฑ๊ณต๋ฅ ํฅ์๊ณผ ๋์ ํ์ง ๊ฐ์ ์ ๋ฌ์ฑํ๋ค.
- ์ ๋ ฌ(DTW)๊ณผ ๋ณด๊ฐ(MixUp)์ด๋ผ๋ ๋ ๊ตฌ์ฑ ์์๊ฐ ๋ชจ๋ ์ค์ํ๋ฉฐ, ํ๋๋ผ๋ ๊ฒฐ์ฌ๋๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ํจ์ ๋ฐํ๋ค (Random Mapping์ด๋ Vanilla์ ๋น๊ต).
- ํ๋ ์์ค์ ๋งคํ์ด ์๊ฐ์ ๋งคํ๋ณด๋ค ํ์ฌ ์๋๋ฆฌ์ค์์๋ ๋ ํจ๊ณผ์ ์ด์๋ค.
- ์ธ๊ฐ ๋ฐ์ดํฐ๋ ๋ง์์๋ก ์ข๊ณ , ๋ก๋ด ๋ฐ์ดํฐ ์์กด๋๋ ์ค์ผ ์ ์๋ค๋ ๊ฒ์ ์ฆ๋ช ํ์ฌ, ํฅํ ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ ํ์ฉ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์, ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ํ์ต์ ๋์ด์ฌ๋ฆฌ๋ ๋ฐ ์์ด ImMimic ์ ๊ทผ๋ฒ์ ์ ์ฉ์ฑ์ ๋ท๋ฐ์นจํฉ๋๋ค. ํนํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ณต์กํ ์กฐ์์ด๋ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ค์ด ์๋๋ฆฌ์ค์์, ์ฌ๋์ด ๋งจ์์ผ๋ก ์์ฐํ ์์ ๋ช ๋ฐฑ ๊ฐ์ ๋ก๋ด ๋ฐ๋ชจ ๋ช ๊ฐ๋ง ์์ผ๋ฉด ์ถฉ๋ถํ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋งค์ฐ ๊ณ ๋ฌด์ ์ ๋๋ค. ์ด๋ ์ค์ ์ฐ์ ๋๋ ๊ฐ์ ์ฉ ๋ก๋ด ํ์ต์ ํฐ ์ ์ฌ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค.
2.5 Limitations and Discussion
ImMimic์ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ฃผ์ง๋ง, ํํธ์ผ๋ก ๋ช ๊ฐ์ง ํ๊ณ์ ํฅํ ๋ณด์์ ๋ ์กด์ฌํฉ๋๋ค:
์๋์ด๋๋ง ๋ก๋ด ์์ฐ์ด ํ์ํจ: ๋ณธ ๋ฐฉ๋ฒ์ ์์ ํ zero-shot ํ์ต์ ์๋๋๋ค. ์ฌ์ ํ ๋ช ๊ฐ์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ์ด๋ ์ค์ ๋ก๋ด์ ์กฐ์ํด ์์งํด์ผ ํ๋ ๋ถ๋ด์ด ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ 5๊ฐ์ ๋ก๋ด ๋ฐ๋ชจ๋ก ์ถฉ๋ถํ๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, ์์ ๋์ด๋๋ ๋ค์์ฑ์ ๋ฐ๋ผ ๋ ๋ง์ ๋ก๋ด ๋ฐ๋ชจ๊ฐ ํ์ํ ์ ์์ต๋๋ค. ๋ง์ฝ ๋ก๋ด ๋ฐ๋ชจ๊ฐ ์์ 0์ด๋ผ๋ฉด(ImMimic์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต), retargeting๋ ์ธ๊ฐ ํ๋๋ง์ผ๋ก ๊ณผ์ฐ ๋ก๋ด์ ์ ๋๋ก ๋์ํ ์ ์ฑ ์ ๋ฐฐ์ธ ์ ์์์ง ๋ฏธ์ง์์ ๋๋ค. (์ผ๋ถ ์ ํ ์ฐ๊ตฌ์์๋ ๋ก๋ด ๋ฐ์ดํฐ ์์ด ์ธ๊ฐ ๋น๋์ค๋ง์ผ๋ก๋ ํ์ตํ๋ ค๋ ์๋๊ฐ ์์ผ๋, ์์ ์ ์ฑ๋ฅ์ ๋ณด์ฅํ๊ธฐ๋ ์ด๋ ค์ ์ต๋๋ค.) ๋ฐ๋ผ์ ImMimic์ few-shot ํ๊ฒฝ์์๋ ๋ฐ์ด๋์ง๋ง, true one-shot/zero-shot ํ๊ฒฝ์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
retargeting ํ์ง๊ณผ ํด๋จผ demonstration์ ํ๊ณ: ImMimic์ ์ ์ ๋ ์ธ๊ฐ ์ ๋์์ ์ ํํ ๋ก๋ด ํ๋์ผ๋ก ๋ณํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ ์์์์ ์ธ๊ฐ ์์ 3D ์์ธ๋ฅผ ์ถ์ ํ๊ฑฐ๋ ์ด๋ฅผ ๋ก๋ด ๊ด์ ์์ง์์ผ๋ก ์ฎ๊ธฐ๋ ๊ฒ์ ์ค์ฐจ ๊ฐ๋ฅ์ฑ์ด ์๋ ๋ณต์กํ ๊ณผ์ ์ ๋๋ค. ์ถ์ ์ค๋ฅ๋ ๋งคํ ์ค๋ฅ๊ฐ ์๋ค๋ฉด, ์๋ชป๋ ํ๋ ๋ผ๋ฒจ์ด ์ธ๊ฐ ์์ฐ์ ๋ฌ๋ฆฌ๊ฒ ๋๊ณ ์ด๋ ํ์ต์ ๋ ธ์ด์ฆ๋ก ์์ฉํฉ๋๋ค. ํนํ ๋ค์ฏ ์๊ฐ๋ฝ์ ๊ฐ์ง ์ธ๊ฐ ์ โ ๋ ์๊ฐ๋ฝ ๊ทธ๋ฆฌํผ๋ก ๋งคํํ ๋ ์ ๋ณด ์์ค์ด ๋ฐ์ํฉ๋๋ค. ์ธ๊ฐ์ ์ฌ์ธํ ์๋๋ฆผ์ ํฌํ๊ฑฐ ๊ทธ๋ฆฌํผ์ ์ด๊ณ ๋ซ๋ ๊ฐ ํ๋๋ก ์ถ์ํด์ผ ํ๋๋ฐ, ์ด๋ ์ด๋ค ์ธ๋ถ ๋์์ ํํ๋์ง ๋ชปํ๊ณ ๋ฒ๋ ค์ง๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ ImMimic์ด ์ธ๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ป์ง ๋ชปํ ์ ์์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ๋ค๊ด์ ๋ก๋ด ์์ ๊ฒฝ์ฐ๋ ์ธ๊ฐ ์๊ณผ ํํ ์ฐจ์ด๊ฐ ์์ด, ๊ด์ ๊ฐ๋ ๋งคํ์ ๋ณด์ ์ด ํ์ํฉ๋๋ค. ๋ ผ๋ฌธ์์ ์ด ๋ถ๋ถ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋์ง ๊ตฌ์ฒด์ ์ธ๊ธ์ ์์ง๋ง, ์๊ฐ๋ฝ ๊ธธ์ด/๋น์จ ์ฐจ์ด ๋ฑ์ ๊ณ ๋ คํ ๋ณด์ ์ด ํ์ํ์ ๊ฒ์ ๋๋ค. retargeting ๋ชจ๋์ ์ ๋ขฐ์ฑ์ด ์ ์ฒด ์ฑ๋ฅ์ ์ง์ ์ํฅ์ ์ฃผ๋ฏ๋ก, ์ด ๋ถ๋ถ์ ํฅํ ๋ ๊ฐ์ ๋ ํด๋จผ-๋ก๋ด ๋งคํ ์๊ณ ๋ฆฌ์ฆ(์: ์ต์ ์ ์ด ๋ฐฉ์์ผ๋ก ์ธ๊ฐ ๋์์ ๋ก๋ด ๋ชจ์ ์ผ๋ก ๊ณ์ฐ)์ด๋ ํ์ต ๊ธฐ๋ฐ ๋งคํ์ผ๋ก ๋์ฒด๋ ์ฌ์ง๊ฐ ์์ต๋๋ค.
์๊ฐ์ ๋๋ฉ์ธ ์ฐจ์ด: ๋ณธ ์คํ์ ์ธ๊ฐ ๋น๋์ค์ ๋ก๋ด ์์ฐ์ด ๋์ผํ ํ๊ฒฝ(๋ฐฐ๊ฒฝ, ๋ฌผ์ฒด ๋ฑ)์์ ์ดฌ์๋์๊ธฐ ๋๋ฌธ์, ์๊ฐ์ ๋๋ฉ์ธ ๊ฐญ์ด ๋น๊ต์ ์์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ผ๋ฐ์ ์ผ๋ก ์ธํฐ๋ท์์ ์์งํ ์ธ๊ฐ ์์ฐ ์์์ด๋ ๋ค๋ฅธ ์ฅ์์์ ์ฐ์ ์์์ ๋ฐฐ๊ฒฝ, ์กฐ๋ช , ๋ฌผ์ฒด ํํ ๋ฑ์ด ๋ก๋ด ํ๊ฒฝ๊ณผ ํฌ๊ฒ ๋ค๋ฅผ ์ ์์ต๋๋ค. ImMimic์ ์ด๋ฌํ ์๊ฐ์ ์ฐจ์ด ์์ฒด๋ฅผ ์ ๊ทน์ ์ผ๋ก ๋ค๋ฃจ์ง๋ ์์์ต๋๋ค (์: ์ด๋ฏธ์ง ์คํ์ผ ์ ํ์ด๋ ๋๋ฉ์ธ ๋๋คํ ๋ฑ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์). ๋์ latent MixUp์ผ๋ก ์ด๋ ์ ๋ ์ค๊ฐ ํํ์ ์ป์์ง๋ง, ์๊ฐ ์ฐจ์ด๊ฐ ๊ทน์ฌํ๋ฉด ์ธ์ฝ๋๊ฐ ์ถฉ๋ถํ ๊ณตํต ํน์ง์ ๋ฝ์๋ด๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ํ๊ฒฝ์ด ๋ค๋ฅธ ์ธ๊ฐ ์์์๋ ๋ณธ ๊ธฐ๋ฒ์ด ํจ๊ณผ์ ์ธ์ง๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ํฅํ์๋ ์๊ฐ ๋๋ฉ์ธ ์ ์(visual domain adaptation)์ ์ํ ๋ชจ๋์ ๊ฒฐํฉํ๊ฑฐ๋, ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๋ก๋ด ์์ ์ผ๋ก ๋ณํํ๋ ๊ธฐ๋ฒ๊ณผ์ ์ ๋ชฉ๋ ๊ณ ๋ คํด๋ณผ ์ ์์ต๋๋ค.
์ ๋ ฌ ๊ฐ์ ์ ํ๊ณ: Dynamic Time Warping์ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด ์ํ์ค๋ฅผ ์ ๋ ฌํ๋ ค๋ฉด, ์์ชฝ ์ํ์ค๊ฐ ์ ์ฌํ ๋จ๊ณ๋ค์ ์ฐ์์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์์ ์ ์ ๋ก ํฉ๋๋ค. ์ฆ, ์ธ๊ฐ๊ณผ ๋ก๋ด์ด ๊ฐ์ ์์ ์ ์ํํ๋ฉฐ ์์๊ณผ ๋ ์ํ๋ ๋น์ทํด์ผ ํจ๊ณผ์ ์ผ๋ก ์ ๋ ฌ๋ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ธ๊ฐ/๋ก๋ด ๋ฐ๋ชจ๊ฐ ํ์ด๋ก ์์ง๋ ๊ฒ์ ์๋์ง๋ง, โ์ ์ฌํ ์ํ์์๋ ์ ์ฌํ ๋์์ ํ ๊ฒโ์ด๋ผ๋ ๊ฐ์ ์ ๋๊ณ ์์ต๋๋ค. ์ด ๋๋ฌธ์ ํ ์์ ๋ด์์๋ ์ธ๊ฐ์ด๋ ๋ก๋ด์ด๋ ๋น์ทํ ํด๊ฒฐ ์ ๋ต์ ๋ฐ๋ฅผ ๊ฒ์ ์๋ฌต์ ์ผ๋ก ์๊ตฌํฉ๋๋ค. ๋ง์ฝ ์ธ๊ฐ ์์ฐ ์ค ์ด๋ค ๊ฒ์ ๋ก๋ด ๋ฐ๋ชจ์๋ ์ ํ ๋ค๋ฅธ ์์๋ ๋ฐฉ์์ผ๋ก ์์ ์ ์ํํ๋ค๋ฉด, DTW๊ฐ ์๋ฑํ ๋งค์นญ์ ๋ง๋ค๊ฑฐ๋ ํด๋น ๋ฐ์ดํฐ๋ ํ์ฉํ๊ธฐ ์ด๋ ค์ ์ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ImMimic์ ํ์ฌ ๋จ์ผ ์์ ๋ด์์ ๋น๊ต์ ๋์ง์ ์ธ ์์ฐ๋ค์ ์ ์ ๋ก ๋์ํ๋ฉฐ, ๋ค์ํ ์ ๋ต์ด ์กด์ฌํ๋ ์์ ์ด๋ ์ฌ๋ฌ ์์ ์ด ์์ธ ์์ฐ์๋ ์ ์ฉํ๊ธฐ ํ๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ํ DTW ์๊ณ ๋ฆฌ์ฆ์ ์(pair) ๋จ์ ์ ๋ ฌ์ด๋ฏ๋ก, ๋ค์์ ์ธ๊ฐ ์์ฐ๊ณผ ๋ค์์ ๋ก๋ด ์์ฐ์ ์ฌ์ฉํ ๋ ์ด๋ ๊ฒ์ ์ด๋ ๊ฒ๊ณผ ์ ๋ ฌํ ์ง ์ง์ง๊ธฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์๋ง๋ ๊ฐ ๋ก๋ด ๋ฐ๋ชจ๋ง๋ค ๋ช ๊ฐ์ ์ธ๊ฐ ๋ฐ๋ชจ๋ฅผ ์ ํํ์ฌ ์ ๋ ฌํ ๋ฏํ๋ฉฐ, 5๊ฐ์ ๋ก๋ด ๋ฐ๋ชจ์ ๋ํด 100๊ฐ์ ์ธ๊ฐ ๋ฐ๋ชจ๋ฅผ ๋ถ๋ฐฐํด ์ฌ์ฉํ๋ ์์ผ๋ก ์ฒ๋ฆฌํ์ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ๋ฐ๋ชจ ๋งค์นญ์ ํ์ฌ๋ ์์์ ํน์ heuristic์ ์์กดํ์ง๋ง, ๊ท๋ชจ๊ฐ ๋ ์ปค์ง๋ฉด ์๋์ผ๋ก ์ ์ฌํ ์์ฐ์ ๊ตฐ์งํ/๋งค์นญํ๋ ๊ธฐ๋ฒ์ด ํ์ํ ์ ์์ต๋๋ค.
์ ์ฑ ์ ์ผ๋ฐํ ๋ฒ์: ImMimic์ผ๋ก ํ์ตํ ์ ์ฑ ์ ํ๋ จ๋ ์์ ๋ค ๋ด์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ํ๋ จ๋์ง ์์ ์๋ก์ด ์์ ์ ๋ฐ๋ก ์ ์ฉํ ์๋ ์์ต๋๋ค. ์ฆ ์์ ๊ฐ ์ผ๋ฐํ๋ ๊ณ ๋ ค ๋์์ด ์๋์์ต๋๋ค. ๋ง์ฝ ๋ฏธ๋์ ์ฌ๋ฌ ์์ ์ ์ธ๊ฐ ๋น๋์ค์ ๋ก๋ด ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ ๋ชจ์ ํ๊บผ๋ฒ์ ํ์ตํ๋ค๋ฉด, ์ด๋ ๋ฉํฐํ์คํฌ ํ์ต ๋ฌธ์ ๊ฐ ๋์ด ์๋ก์ด ๋์ ์ด ํ์ํฉ๋๋ค. ๋ํ ImMimic ์ ์ฑ ์ ์คํ๋ผ์ธ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ๋ ๊ฒ์ด๋ฏ๋ก, ๋ง์ฝ ์๋ก์ด ์ํฉ์ด ์ฃผ์ด์ง๊ฑฐ๋ ์์ ๋์ค ์๊ธฐ์น ์์ ๋ณํ(๋ฌผ์ฒด ๋ฏธ๋๋ฌ์ง ๋ฑ)๊ฐ ๋ฐ์ํ๋ฉด ๋์ฒ๊ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ฐฉํ์ต ์ ๋ฐ์ ํ๊ณ๋ก, ํ์ํ๋ฉด ์ถ๊ฐ์ ๊ฐํํ์ต ํ์ธํ๋์ด๋ ํด๋จผ ํผ๋๋ฐฑ ๋ฑ์ ๊ฒฐํฉํด ๊ทน๋ณตํด์ผ ํ ๊ฒ์ ๋๋ค.
์ค์๊ฐ์ฑ ๋ฐ ๊ณ์ฐ ๋น์ฉ: ImMimic์ ํ์ต ์ ๋ชจ๋ ์ธ๊ฐ-๋ก๋ด ๋ฐ์ดํฐ ์์ ๋ํ DTW ๊ณ์ฐ๊ณผ ๋๋์ MixUp ์ํ ์์ฑ์ด ํ์ํ๋ฏ๋ก, ์ ์ฒ๋ฆฌ ๋น์ฉ์ด ๋ค์ ํฝ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์คํ๋ผ์ธ ๋จ๊ณ์ด๋ฏ๋ก ํฐ ๋ฌธ์ ๋ ์๋์ง๋ง, ํฅํ ๋ฐ์ดํฐ ์์ด ๋งค์ฐ ๋์ด๋๋ฉด DTW์ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ๋ณ๋ชฉ์ด ๋ ์ ์์ต๋๋ค. ๋ํ ์ ์ฑ ์์ฒด๊ฐ Diffusion ๋ชจ๋ธ์ ํ์ฉํ๋ค๋ฉด, ์ถ๋ก ์ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. Diffusion ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ณดํต ๋ค์์ ์ํ๋ง ์คํ ์ ๊ฑฐ์ณ ํ๋์ ์์ฑํ๋ฏ๋ก, ์ค์๊ฐ ๋ก๋ด ์ ์ด์ ์ฌ์ฉํ๋ ค๋ฉด ์๋ ์ต์ ํ๋ ๋ชจ๋ธ ๊ฒฝ๋ํ๊ฐ ํ์ํ ์ ์์ต๋๋ค. (๋ฌผ๋ก ์งง์ horizon์ ํ๋๋ง ์์ธกํ๊ฑฐ๋ ๋คํธ์ํฌ ์ต์ ํ๋ก ์ผ์ ์์ค ์๋๋ฅผ ํ๋ณดํ ์๋ ์์ง๋ง, ์ผ๋ฐ์ ์ธ ํผ๋ํฌ์๋ ๋คํธ์ํฌ๋ณด๋ค๋ ๋ฌด๊ฑฐ์ธ ์ ์์ต๋๋ค.) ๋ฐ๋ผ์ ์ค์๊ฐ ๋ก๋ด์ ์ด ์ ์ฉ ์ธก๋ฉด์์์ ๊ฒํ ๋ ์ถํ ๋ณด์์ ์ ๋๋ค.
์์ฝํ๋ฉด, ImMimic์ ํ์ฌ ๋จ์ผ ์์ , ์ ํ๋ ํ๊ฒฝ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, retargeting ์ ํ๋, ๋ค์ํ ์ ๋ต ์กด์ฌ ์ ์ ๋ ฌ, ์๊ฐ ๋๋ฉ์ธ ํฐ ์ฐจ์ด, ์ ์์ ์ผ๋ฐํ, ์ค์๊ฐ์ฑ ๋ฑ์ ๋ฉด์์ ์ถ๊ฐ ์ฐ๊ตฌ์ ์ฌ์ง๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ๋ค์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉ ๋ฒ์๋ฅผ ๊ฒฐ์ ์ง๋ ์์์ด๋ฉฐ, ํฅํ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๊ฐ ํด๊ฒฐํด์ผ ํ ๋์ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค.
2.6 Conclusion and Future Work
์ด ๋ ผ๋ฌธ์ โ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ ๋ฐฐ์ฐ๋ ๋ก๋ดโ์ด๋ผ๋ ์ค๋ ๊ณผ์ ์ ๋ํด ์๋ก์ด ๊ด์ ์ ์ ์ํ์ต๋๋ค. ํต์ฌ์ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๊ฐ๊ทน์ ๋ฐ์ดํฐ ์ฐจ์์์ ๋ฉ๊พธ๋ ๊ฒ์ผ๋ก, Dynamic Time Warping ๊ธฐ๋ฐ ์ ๋ ฌ๊ณผ MixUp ๋ณด๊ฐ์ด๋ผ๋ ๋น๊ต์ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ ๋๊ตฌ๋ฅผ ์กฐํฉํด ๋ถ๋๋ฌ์ด ๋๋ฉ์ธ ์ ์ด๋ฅผ ๊ตฌํํ ์ ์ด ๋๋ณด์ ๋๋ค. ImMimic ํ๋ ์์ํฌ๋ฅผ ํตํด, ์์์ ๋ก๋ด ๋ฐ๋ชจ๋ง์ผ๋ก๋ ๋๋์ ์ธ๊ฐ ์์ฐ์์ ๋ฐฐ์ด ํ๋ถํ ์ ๋ณด๋ฅผ ๋ก๋ด ์ ์ฑ ์ ์ด์ํ ์ ์์๊ณ , ์ด๋ฅผ ์ค์ ๋ก๋ด ์คํ์ผ๋ก ์ ์ฆํ์์ต๋๋ค. ํนํ ๋ค์ํ ๋ก๋ด Embodiment(๊ทธ๋ฆฌํผ๋ถํฐ ๋ค์ง ์๊น์ง)์ ์ ์ฉํ์ฌ ๋ชจ๋ ์ฑ๋ฅ ๊ฐ์ ์ ์ป์์ผ๋ก์จ, ์ด ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ฑ๊ณผ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ์ฐ๊ตฌ์ ์ด๋ก ์ /๊ธฐ์ ์ ๊ธฐ์ฌ๋ ์ธ๊ฐ-๋ก๋ด ์์ฐ ์ฌ์ด์ ๊ณตํต ํํ(action label)์ ์ฐพ๊ณ ์ ํ ์ ๊ณผ, ๋ ๋๋ฉ์ธ์ ์๋ ์ฐ์์ ๋ฐ์ดํฐ ์คํํธ๋ผ์ ํ์ฑํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ๊ธฐ์กด์ ์ฃผ๋ก ์๋๋๋ ํํ ํ์ต + ๋๋ฉ์ธ ์ ์ ๋ชจ๋ธ(์: ๋๋ฉ์ธ ๋ถ๋ฅ์๋ adversarial training)๊ณผ๋ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก, ๋ฐ์ดํฐ ๋ณด๊ฐ์ ํตํด ๋ฌธ์ ๋ฅผ ํผ ์ ๊ทผ์ด๋ผ ํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ด์ ์ ์ ํ์ ํฅํ ๋ค๋ฅธ ๋ชจ๋ฐฉํ์ต ๋ฌธ์ , ์์ปจ๋ ์๋ฎฌ๋ ์ด์ โ์ค์ธ๊ณ ๋๋ฉ์ธ ์ ์ด๋ ๋ก๋ด ๊ฐ ๊ต์ฐจํ์ต ๋ฑ์๋ ์์ฉ๋ ์ ์์ ๊ฒ์ ๋๋ค.
์์ผ๋ก์ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ํ์ฅ์ด ๊ฐ๋ฅํด ๋ณด์ ๋๋ค:
์์ ํ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ต์ผ๋ก์ ํ์ฅ: ๊ถ๊ทน์ ์ผ๋ก๋ ๋ก๋ด ์์ฐ์ด ์ ํ ์์ด๋ ์ธ๊ฐ ์์๋ง์ผ๋ก ๋ก๋ด์ด ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ ์ ์์ต๋๋ค. ImMimic์ ์๋์ด๋๋ง ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋๋ฐ, ์ด๋ฅผ ์์ ๊ธฐ ์ํด์๋ ์๋ฎฌ๋ ์ดํฐ ํ์ฉ์ด๋ ์๊ฐ๊ธฐ๋ฐ ํ์ต ๋ฑ์ด ํ์ํ ์ ์์ต๋๋ค. ์์ปจ๋, ์ด๊ธฐ์๋ ์ธ๊ฐ ๋น๋์ค๋ก ํ์ตํ๊ณ ์๋ฎฌ๋ ์ดํฐ์์ ๊ฒ์ฆ/๋ณด์ ํ๊ฑฐ๋, ํ์ค์์ ์์ ํ ํ๋ ๋ด์์ ๋ก๋ด์ด ์์ฒด ์ํ์ฐฉ์ค๋ฅผ ํตํด ์ธ๊ฐ ๋์์ ๋ณด์ ํ๋ ๋ฐฉ์์ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉํฅ์ ์ถ๊ฐ์ ์ธ ๊ฐํํ์ต์ด๋ ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ๊ณผ์ ์ตํฉ์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
์๋ํ๋ ์ํ์ค ๋งคํ ๊ธฐ๋ฒ: ํ์ฌ DTW๋ฅผ ์ฌ์ฉํ ์ ๋ ฌ์ ๋ ์ํ์ค ๊ฐ ๊ตญ์์ ํผ์ฒ ๊ฑฐ๋ฆฌ ํฉ์ ์ต์ํํ๋ ๋ฐฉ์์ ๋๋ค. ํฅํ์๋ ๋ฐฐ์ฐ-๋น์ฃผ์ผ ํธ๋์คํฌ๋จธ๋ ์ํ์ค-to-์ํ์ค ๋งคํ ์ ๊ฒฝ๋ง์ ํ๋ จ์์ผ, ์ธ๊ฐ ์์ฐ์ ์ ๋ ฅํ๋ฉด ํด๋น ๋ก๋ด ์์ฐ(๋๋ ๊ทธ ๊ฒฝ๋ก)์ ์ง์ ์์ธกํ๋๋ก ํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ คํ ์ ์์ต๋๋ค. ์ฆ, ์ง๋ ํ์ต์ผ๋ก ์ธ๊ฐโ๋ก๋ด ์ํ์ค ๋งคํ์ ํ์ต์์ผ DTW๋ฅผ ๋์ฒดํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ค์์ ์์ฐ์ ๋์์ ์ ๋ ฌํ๊ฑฐ๋, ๋ถ๋ถ์ ์ผ๋ก ๊ฒน์น๋ ์์ฐ๋ ์ฒ๋ฆฌํ ์ ์์ ๊ฒ์ ๋๋ค. ๋ค๋ง ์ด๋ฅผ ์ํด์๋ ์ผ์ ๋์ ๋งค์นญ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฏ๋ก, ์ด๊ธฐ์๋ ImMimic์ฒ๋ผ DTW๋ก ์์ฑํ ์์ ํ์ต์ํค๊ณ ์ ์ฐจ ์ ๊ตํํ๋ ์์ ์ ๊ทผ์ด ์๊ฐ๋ฉ๋๋ค.
๋ค์ค์์ ๋ฐ ์ผ๋ฐํ: ๋ณธ ์ฐ๊ตฌ๋ฅผ ์ฌ๋ฌ ์์ ๋ฐ ํ๊ฒฝ์ผ๋ก ํ๋ํ๋ฉด, ์ง์ ํ ๋ฒ์ฉ ํ์ต ํ๋ ์์ํฌ๋ก ๋ฐ์ ์ํฌ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ ๋ด ์ฌ๋ฌ ๊ฐ์ง ์์ (์๋ฆฌ, ์ฒญ์, ์ ๋ฆฌ ๋ฑ)์ ๋ํ ์ธ๊ฐ ์์๊ณผ ๋ช ๊ฐ์ง ๋ก๋ด ๋ฐ๋ชจ๋ฅผ ๋ชจ์ ํตํฉ ํ์ตํ๋ค๋ฉด, ๋ก๋ด์ด ๋ค์ํ ์์ ์ ์ธ๊ฐ์ฒ๋ผ ๋ฐฐ์ธ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด์๋ ์์ ๊ตฌ๋ถ ์์ด ํ์ตํ ์ ์๋ ๊ฑฐ๋ ๋ชจ๋ธ์ด๋, ๋งฅ๋ฝ์ ๋ฐ๋ฅธ ํ๋ ์์ฑ์ ์ํ ์ถ๊ฐ ์ ๋ ฅ(์: ์์ ๋ช ๋ น์ด๋ ๋ชฉํ ์ ๋ณด) ๋ฑ์ด ํ์ํ ๊ฒ์ ๋๋ค. ๋ํ ๋ฉํฐํ์คํฌ ํ๊ฒฝ์์๋ ์์ ๊ฐ ๊ฐ์ญ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์์ผ๋ฏ๋ก, ๋ชจ๋ธ ์ํคํ ์ฒ์ ๊ฐ์ (์: ๋ชจ๋์ ์ ์ฑ )๋ ์ฐ๊ตฌํด์ผ ํฉ๋๋ค.
์๊ฐ์ ๋๋ฉ์ธ ์ ์ ํตํฉ: ImMimic์ด latent MixUp์ผ๋ก ๊ฐ์ ์ ์ผ๋ก ์๊ฐ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ์ํํ์ง๋ง, ๋ณด๋ค ์ง์ ์ ์ผ๋ก ์์ ๊ฐ ๋ณํ์ ํ๋ ๋ฐฉ์๋ ๊ณ ์ํ ์ ์์ต๋๋ค. ์์ปจ๋ ์์-to-์์ ๋ณํ ๋ชจ๋ธ์ ์ฌ์ฉํด ์ธ๊ฐ ์์ ์ ์ฅ๋ฉด์ ๋ก๋ด ์์ ์ ์ฅ๋ฉด์ผ๋ก ์คํ์ผ ๋ณํํ๊ฑฐ๋, ์์ฑ ๋ชจ๋ธ์ ํ์ฉํด ์ธ๊ฐ ์์ฐ ์์์ ์ ๋ ฅํ๋ฉด ๋ก๋ด์ด ๋ฑ์ฅํ๋ ๋ชจ์ฌ ์์์ผ๋ก ๋ณํํ๋ ๊ฒ๋ ํ ๋ฐฉํฅ์ ๋๋ค. ์ต๊ทผ์๋ ์์ ์กฐ๊ฑด ์์ฑ์ด๋ NeRF ๊ธฐ๋ฐ ์๊ฐ๋ณํ ๊ธฐ์ ๋ ๋ฐ์ ํ์ผ๋ฏ๋ก, ์ด๋ฌํ ๊ฒ์ ImMimic๊ณผ ๊ฒฐํฉํ๋ฉด ์๊ฐ+ํ๋ ์์ธก์ ๋๋ฉ์ธ ๊ฐญ์ ๋ชจ๋ ์ค์ผ ์ ์์ ๊ฒ์ ๋๋ค.
retargeting ๋ฐ ์ผ์ ์ตํฉ ๊ณ ๋ํ: ์๋์ retargeting์ ๋ ์ ํํ ํ๊ธฐ ์ํด, ์จ์ด๋ฌ๋ธ ์ผ์๋ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ์์๊ณผ ํจ๊ป ์ฌ์ฉํ๋ ๊ฒ๋ ๊ณ ๋ ค๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ์ด ์ฅ๊ฐํ ์ผ์๋ฅผ ๋ผ๊ณ ์์ฐํ์ฌ ์๊ฐ๋ฝ ๊ด์ ๊ฐ์ ์ง์ ์ธก์ ํ๋ฉด, ์์ ์ถ์ ๋ณด๋ค ํจ์ฌ ์ ํํ retargeting์ด ๊ฐ๋ฅํฉ๋๋ค. ๋ฌผ๋ก ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ์ฌ๋ผ๊ฐ์ง๋ง, ๋ง์ฝ ์์ง์ ๋งคํ์ด ๊ฐ๋ฅํ๋ค๋ฉด ์๋์ ๋ฐ์ดํฐ๋ก๋ ํฐ ํจ๊ณผ๋ฅผ ๋ณผ ์ ์์ต๋๋ค. ๋ํ ํ/์ด๊ฐ ์ ๋ณด ๋ฑ๋ ๋ก๋ด ๋ฐ๋ชจ์์๋ ์ป์ ์ ์์ผ๋ฏ๋ก, ์ธ๊ฐ ์์ฐ์์๋ ํ ๋์์ ์ถ์ ํ์ฌ ๋ก๋ด์ ํ ์ ์ด ๋ผ๋ฒจ๋ก ํ์ฉํ๋ ๋ฑ ๋ค์ค๋ชจ๋ฌ ํ์ฅ์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
์ค์ ์์ฉ ๋ฐ ๊ฒ์ฆ: ๋์ผ๋ก, ์ด ์๊ณ ๋ฆฌ์ฆ์ ํ์ค์ ์๋ก์ด ์์ ์๋๋ฆฌ์ค์ ์ ์ฉํด๋ณด๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์์ปจ๋ ์ฐ์ ํ์ฅ์์ ์ธ๊ฐ ์์ ์๋ค์ ์์์ผ๋ก๋ถํฐ ์กฐ๋ฆฝ ์์ ์ ํ์ตํ๊ฑฐ๋, ์ฌํ ์น๋ฃ ๋ก๋ด์ด ์น๋ฃ์ฌ์ ์์ฐ์ผ๋ก๋ถํฐ ๋์์ ๋ฐฐ์ฐ๋ ์์ ์์ฉ์ ์์ ํด๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋๋ฉ์ธ์์๋ ํ๊ฒฝ ๋ณํ๋ ์์ ์ ์ฝ ๋ฑ์ด ์์ ์ ์์ผ๋ฏ๋ก, ImMimic์ ์์ ์ฅ์น(safety layer)๋ ์ ์ ์ ์ด๋ฅผ ๋ถ๊ฐํ๋ ์ฐ๊ตฌ๋ ๋ค๋ฐ๋ผ์ผ ํ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation์ ์ธ๊ฐ ๋น๋์ค๋ฅผ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ ๋ถ์ผ์์ ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์๊ณผ ์๋ก์ด ๋ฐฉํฅ์ฑ์ ์ ์ํ ์ํ์ ๋๋ค. ๊ฐ๋จํ ์์ด๋์ด ์กฐํฉ์ผ๋ก๋ ํฐ ํจ๊ณผ๋ฅผ ๊ฑฐ๋ ์ ์์์ ๋ณด์ฌ์ฃผ์๊ณ , ํฅํ ์ด๋ฅผ ํ ๋๋ก ๋ค์ํ ๋ฐ์ ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ โ๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ ๋ฐฐ์ด๋คโ๋ ๋ชฉํ์ ํ ๊ฑธ์ ๋ค๊ฐ์๊ฒ ํ ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋, ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์์ ์ฃผ๋ชฉํ ๋งํ ์ด์ ํ๋ก ํ๊ฐ๋ ๋งํฉ๋๋ค.