Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 Summary
    • 2.2 Contributions
    • 2.3 Methodology Analysis
    • 2.4 Experimental Results and Analysis
    • 2.5 Limitations and Discussion
    • 2.6 Conclusion and Future Work

๐Ÿ“ƒImMimic ๋ฆฌ๋ทฐ

co-training
dtw
mimic
Cross-Domain Imitation from Human Videos via Mapping and Interpolation
Published

August 24, 2025

  • Paper Link
  • Project Link
  1. ImMimic์€ ๋ฐฉ๋Œ€ํ•œ ์ธ๊ฐ„ ์˜์ƒ๊ณผ ์†Œ๋Ÿ‰์˜ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์‹œ๊ฐ์ , ํ˜•ํƒœ์ , ๋ฌผ๋ฆฌ์  ๋„๋ฉ”์ธ ๊ฐ„๊ทน์„ ํ•ด์†Œํ•˜์—ฌ ๋กœ๋ด‡ ์กฐ์ž‘ ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ณต๋™ ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” Dynamic Time Warping(DTW)์„ ํ†ตํ•ด retargeting๋œ ์ธ๊ฐ„ ๋™์ž‘ ๊ถค์ ๊ณผ ๋กœ๋ด‡ ๊ถค์ ์„ ๋งคํ•‘ํ•˜๊ณ , MixUp ๋ณด๊ฐ„์„ ์ ์šฉํ•˜์—ฌ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ์„ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ๋กœ๋ด‡์ด ์ธ๊ฐ„ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
  3. ๋„ค ๊ฐ€์ง€ ์กฐ์ž‘ ์ž‘์—…๊ณผ ๋กœ๋ด‡ ํ˜•ํƒœ์— ๋Œ€ํ•œ ํ‰๊ฐ€์—์„œ ImMimic์€ ์ž‘์—… ์„ฑ๊ณต๋ฅ ๊ณผ ์‹คํ–‰ ๋ถ€๋“œ๋Ÿฌ์›€์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ํŠนํžˆ retargeting๋œ ์ธ๊ฐ„ ๋™์ž‘ ์ •๋ณด๊ฐ€ ์‹œ๊ฐ ์ •๋ณด๋ณด๋‹ค ๋กœ๋ด‡ ํ•™์Šต์— ๋” ํšจ๊ณผ์ ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


1 Brief Review

ImMimic์€ ํ’๋ถ€ํ•œ ์ธ๊ฐ„ ๋น„๋””์˜ค์™€ ์†Œ๋Ÿ‰์˜ ์›๊ฒฉ ์กฐ์ž‘(teleoperated) ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ์กฐ์ž‘(robot manipulation)์„ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด embodiment-agnostic co-training ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์‹œ๊ฐ์ (visual), ํ˜•ํƒœํ•™์ (morphological), ๋ฌผ๋ฆฌ์  ์ธก๋ฉด์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ธ๊ฐ„-๋กœ๋ด‡ ๊ฐ„์˜ ์ƒ๋‹นํ•œ ๋„๋ฉ”์ธ ๊ฐ„๊ทน(domain gap)์„ ํšจ๊ณผ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก  (Core Methodology)

ImMimic์˜ ํ•ต์‹ฌ์€ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ํ†ต์ฐฐ๋ ฅ์— ๊ธฐ๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค:

  1. Retargeted Human Hand Trajectories์˜ ์•ก์…˜ ๋ ˆ์ด๋ธ” ํ™œ์šฉ: ์‹œ๊ฐ์  ์ปจํ…์ŠคํŠธ(visual contexts) ์™ธ์—๋„, ์žฌ์„ค์ •๋œ(retargeted) ์ธ๊ฐ„ ์† ๊ถค์ (hand trajectories)์ด ์ธ๊ฐ„ ์‹œ์—ฐ์— ๋Œ€ํ•œ ํ’๋ถ€ํ•œ ์•ก์…˜ ๋ ˆ์ด๋ธ”(action labels)๋กœ ๊ธฐ๋Šฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋ณด๊ฐ„(Interpolation)์„ ํ†ตํ•œ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ(Intermediate Domains) ์ƒ์„ฑ: ๋งคํ•‘๋œ(mapped) ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ MixUp ๊ธฐ๋ฐ˜ ๋ณด๊ฐ„์€ ๊ฒฌ๊ณ ํ•œ ์ ์‘(robust adaptation)์œผ๋กœ ์ด์–ด์ง€๋Š” ์ค‘๊ฐ„ ๋„๋ฉ”์ธ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ํšจ๊ณผ์ ์ธ ๋งคํ•‘(Mapping)์˜ ์ค‘์š”์„ฑ: ๊ณต๋™ ํ›ˆ๋ จ(co-training)์„ ์œ„ํ•ด ์ธ๊ฐ„ ๋ฐ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ํšจ๊ณผ์ ์ธ ๋งคํ•‘์„ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

ImMimic์€ Diffusion Policy ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. Hand Pose Retargeting System (์ธ๊ฐ„ ์† ํฌ์ฆˆ ์žฌ์„ค์ •):
    • Hand and Wrist Pose Estimation: MediaPipe [36]๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํ”„๋ ˆ์ž„์—์„œ ์ธ๊ฐ„ ์†์„ ๊ฐ์ง€ํ•˜๊ณ  ์ž๋ฆ…๋‹ˆ๋‹ค. FrankMocap [45]์˜ SMPL-X regressor๋Š” ์†๋ชฉ(wrist) ๋กœ์ปฌ ํ”„๋ ˆ์ž„์—์„œ 21๊ฐœ ์† ๊ด€์ ˆ(hand joints)์˜ ์ •๋ฐ€ํ•œ 3D ์œ„์น˜๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์†๋ชฉ์˜ 6D ํฌ์ฆˆ๋ฅผ ๋ณต๊ตฌํ•ฉ๋‹ˆ๋‹ค.
    • Retargeting: AnyTeleop [44]์„ ๋”ฐ๋ผ, ์ธ๊ฐ„ ํ‚คํฌ์ธํŠธ \mathbf{p}_t^i๋ฅผ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ฐ๋„ \mathbf{q}_t๋กœ ๋‹ค์Œ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ๋งคํ•‘ํ•ฉ๋‹ˆ๋‹ค: \min_{\mathbf{q}_t} \sum_{i=1}^{N} \alpha \left\| \mathbf{p}_t^i - f_i(\mathbf{q}_t) \right\|^2 + \beta \left\| \mathbf{q}_t - \mathbf{q}_{t-1} \right\|^2, \quad \text{s.t.} \quad \mathbf{q}_l \le \mathbf{q}_t \le \mathbf{q}_u ์—ฌ๊ธฐ์„œ f_i๋Š” ๋กœ๋ด‡์˜ ์ •๊ธฐ๊ตฌํ•™(forward-kinematics), \alpha, \beta๋Š” ์Šค์ผ€์ผ ๋ฐ ์‹œ๊ฐ„์  ๋ถ€๋“œ๋Ÿฌ์›€(temporal smoothness) ๊ท ํ˜•์„ ์กฐ์ ˆํ•˜๋Š” ๊ณ„์ˆ˜์ž…๋‹ˆ๋‹ค.
  2. Co-Training (๊ณต๋™ ํ›ˆ๋ จ):
    • ImMimic์€ ์ธ๊ฐ„ ๋น„๋””์˜ค์™€ ๋กœ๋ด‡ ์‹œ์—ฐ์„ ๋ชจ๋‘ ํ™œ์šฉํ•˜์—ฌ ์ •์ฑ…(policy)์„ ๊ณต๋™์œผ๋กœ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ฐฐ์น˜(batch)๋Š” ๋กœ๋ด‡ ๋ฐ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋™๋“ฑํ•œ ๋น„์œจ๋กœ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
    • Robot Prediction Loss: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์—์ด์ „ํŠธ ๋ทฐ(agent-view) ์ด๋ฏธ์ง€ I_{a,t}^r, ์†๋ชฉ ๋ทฐ(wrist-view) ์ด๋ฏธ์ง€ I_{w,t}^r, ๊ทธ๋ฆฌ๊ณ  ๊ณ ์œ ์ˆ˜์šฉ์„ฑ(proprioception) r_t๋ฅผ ์กฐ๊ฑด ์ž…๋ ฅ(condition input)์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ๋ž˜ ์•ก์…˜ ์‹œํ€€์Šค \mathbf{a}_t^{r}๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค์€ \ell_2 ์†์‹ค๋กœ ์ตœ์†Œํ™”๋ฉ๋‹ˆ๋‹ค: \mathcal{L}_{\text{robot}}(\phi) = \sum_{i=1}^{k} \left\| \mathbf{a}_{t+i}^{r} - \hat{\mathbf{a}}_{t+i}^{r} \right\|^2_2 ์—ฌ๊ธฐ์„œ \hat{\mathbf{a}}_{t:t+k}^{r} = P_{\phi}(\tilde{\mathbf{a}}_{t:t+k}^{r} | \mathbf{z}_t^{r})์ด๋ฉฐ, \mathbf{z}_t^{r}๋Š” ์ธ์ฝ”๋”๋กœ ์ถ”์ถœ๋œ ์‹œ๊ฐ์  ํŠน์ง•๊ณผ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ์„ ํฌํ•จํ•˜๋Š” ๋กœ๋ด‡์˜ ์กฐ๊ฑด์ž…๋‹ˆ๋‹ค.
    • Human Prediction Loss: ์ธ๊ฐ„ ๋น„๋””์˜ค I_{a,t}^h์— ๋Œ€ํ•ด, ์กฐ๊ฑด ์ž…๋ ฅ์€ ์ด๋ฏธ์ง€ ํŠน์ง•๊ณผ ์žฌ์„ค์ •๋œ ์•ก์…˜(retargeted actions) a_{t}^{h \to r}์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๋™์ผํ•œ ์ •์ฑ… ๋ฐฑ๋ณธ(policy backbone)์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ์†์‹ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: \mathcal{L}_{\text{human}}(\phi) = \sum_{i=1}^{k} \left\| \mathbf{a}_{t+i}^{h \to r} - \hat{\mathbf{a}}_{t+i}^{h \to r} \right\|^2_2
    • Co-training Loss: ์ด ์†์‹ค์€ ๋‘ ์†์‹ค์˜ ํ•ฉ์ž…๋‹ˆ๋‹ค: \mathcal{L}_{\text{total}}(\phi) = \mathcal{L}_{\text{robot}}(\phi) + \mathcal{L}_{\text{human}}(\phi).
  3. Mapping-guided MixUp (๋งคํ•‘ ์œ ๋„ MixUp):
    • Mapping: ์ธ๊ฐ„ ์‹œ์—ฐ D_h์™€ ๋กœ๋ด‡ ์‹œ์—ฐ D_r ๊ฐ„์˜ ์‹œํ€€์Šค ์ˆ˜์ค€ ๋งคํ•‘ M^{h \to r}์€ Dynamic Time Warping (DTW) [38]์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. DTW๋Š” ์‹œ๊ฐ์  ๊ฑฐ๋ฆฌ(visual distance) ๋˜๋Š” ์•ก์…˜ ๊ฑฐ๋ฆฌ(action distance)์— ๊ธฐ๋ฐ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • Action-based Mapping: ์žฌ์„ค์ •๋œ ์ธ๊ฐ„ ์‹œ์—ฐ๊ณผ ๋กœ๋ด‡ ์‹œ์—ฐ ๊ฐ„์˜ ์•ก์…˜ ๊ฑฐ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: d_{\text{act}} = \left\| \mathbf{t}^{h \to r} - \mathbf{t}^r \right\|_1 + \lambda_1 \left\| \mathbf{p}^{h \to r} - \mathbf{p}^r \right\|_1 + \lambda_2 d_{\text{rot}}(\mathbf{o}^{h \to r}, \mathbf{o}^r) ์—ฌ๊ธฐ์„œ \mathbf{t}๋Š” ๋ณ€ํ™˜(translation), \mathbf{p}๋Š” ์† ํฌ์ฆˆ(hand pose), \mathbf{o}๋Š” ๋ฐฉํ–ฅ(orientation), d_{\text{rot}}๋Š” ๊ฐ๋„ ๊ฑฐ๋ฆฌ(angular distance)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
      • Visual-based Mapping: ํ”„๋ ˆ์ž„๋ณ„(frame-wise) ๊ฑฐ๋ฆฌ๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ธ์ฝ”๋”์—์„œ ์ถ”์ถœ๋œ ์‹œ๊ฐ์  ํŠน์ง• f๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค: d_{\text{vis}} = \left\| f^{h \to r} - f^r \right\|_2
    • MixUp-based Interpolation: ๋งคํ•‘์ด ์„ค์ •๋˜๋ฉด, MixUp [62]์„ ์ ์šฉํ•˜์—ฌ ์›๋ณธ ์ธ๊ฐ„ ๋ฐ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ฐ„ํ•˜์—ฌ ๋ณด๊ฐ„๋œ(interpolated) ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์ค‘, ๊ฐ ์ธ๊ฐ„ ํƒ€์ž„์Šคํ… t์— ๋Œ€ํ•ด ๋ฌด์ž‘์œ„๋กœ ๋กœ๋ด‡ ํƒ€์ž„์Šคํ… t' \in M^{h \to r}(t)๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ํ˜ผํ•ฉ๋œ ์กฐ๊ฑด ์ž…๋ ฅ ๋ฐ ์˜ˆ์ธก ์•ก์…˜์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค: \mathbf{z}_t^{\text{mix}} = \alpha \cdot \mathbf{z}_t^{h} + (1-\alpha) \cdot \mathbf{z}_{t'}^{r} \mathbf{a}_{t:t+k}^{\text{mix}} = \alpha \cdot \mathbf{a}_{t:t+k}^{h \to r} + (1-\alpha) \cdot \mathbf{a}_{t':t'+k}^{r} ์—ฌ๊ธฐ์„œ \alpha๋Š” MixUp ๊ณ„์ˆ˜์ด๋ฉฐ, ํ›ˆ๋ จ ์ค‘์— ์ ์ง„์ ์œผ๋กœ ๊ฐ์†Œ์‹œ์ผœ ๋ถ€๋“œ๋Ÿฌ์šด ๋„๋ฉ”์ธ ์ ์‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ

  • ํ•˜๋“œ์›จ์–ด: Franka Emika Panda ๋กœ๋ด‡ ํŒ”์— Robotiq 2F-85 Gripper, Fin Ray Gripper, Allegro Hand, Ability Hand์˜ ๋„ค ๊ฐ€์ง€ ์—”๋“œ ์ดํŽ™ํ„ฐ(end-effectors)๋ฅผ ์žฅ์ฐฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ dexterity ์ˆ˜์ค€์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž‘์—…: Pick and Place, Push (๊ธฐ๋ณธ ๊ฐ์ฒด ์กฐ์ž‘), Hammer, Flip (๋„๊ตฌ ๊ธฐ๋ฐ˜ ์กฐ์ž‘)์˜ ๋„ค ๊ฐ€์ง€ ์กฐ์ž‘ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ธฐ์ค€์„ (Baselines): Robot-only, Two-stage Fine-Tuning, Vanilla Co-Training, Random Mapping, Visual Mapping (ImMimic-V), Action Mapping (ImMimic-A)๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€ ์ง€ํ‘œ: ์„ฑ๊ณต๋ฅ (Success Rate, SR), ๊ถค์  ๋ถ€๋“œ๋Ÿฌ์›€(Trajectory Smoothness, SPARC), ์•ก์…˜ ๊ฑฐ๋ฆฌ(Action Distance, AD)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฒฐ๊ณผ (Core Results):

  • ์ธ๊ฐ„ ๋น„๋””์˜ค์˜ ์ •์ฑ… ๊ฒฌ๊ณ ์„ฑ ๋ฐ ๋ถ€๋“œ๋Ÿฌ์›€ ํ–ฅ์ƒ: ImMimic-A๋Š” ๋ชจ๋“  ์ž‘์—… ๋ฐ ์—”๋“œ ์ดํŽ™ํ„ฐ์—์„œ Robot-only, Two-stage Fine-Tuning, Co-Training ๊ธฐ์ค€์„ ์— ๋น„ํ•ด ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋” ๋†’์€ SPARC ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ถค์ ์˜ ๋ถ€๋“œ๋Ÿฌ์›€์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณด๊ฐ„๋œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ๋œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํšจ๊ณผ์ ์ธ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation) ์—ญํ• ์„ ํ•˜์—ฌ ๋กœ๋ด‡ ๋กค์•„์›ƒ(rollouts)์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๊ฐœ์„ ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ์•ก์…˜ ๊ธฐ๋ฐ˜ ๋งคํ•‘์˜ ์šฐ์›”์„ฑ: ์•ก์…˜ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-A)์ด ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-V) ๋ฐ ๋ฌด์ž‘์œ„ ๋งคํ•‘(Random Mapping)๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์žฌ์„ค์ •๋œ ์ธ๊ฐ„ ์•ก์…˜์ด ์‹œ๊ฐ์  ํŠน์ง•๋ณด๋‹ค ๋กœ๋ด‡ ์•ก์…˜์— ๊ตฌ์กฐ์ ์œผ๋กœ ๋” ์œ ์‚ฌํ•˜์—ฌ ๊ณต๋™ ํ›ˆ๋ จ์— ๋” ์œ ์ตํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฏธ๋ฌ˜ํ•œ ์•ก์…˜ ์ „ํ™˜์ด ์žˆ๋Š” ์ž‘์—…์—์„œ ์‹œ๊ฐ์  ๋งคํ•‘์˜ ํ’ˆ์งˆ์ด ๋‚ฎ์œผ๋ฉด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ Embodiment ์ „๋ฐ˜์˜ ์ผ๊ด€๋œ ๊ฐœ์„ : ImMimic-A๋Š” ์ธ๊ฐ„ ์†๊ณผ์˜ ํ˜•ํƒœํ•™์  ์œ ์‚ฌ์„ฑ์— ๊ด€๊ณ„์—†์ด ๋ชจ๋“  ์—”๋“œ ์ดํŽ™ํ„ฐ์—์„œ ์ •์ฑ… ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ผ๋ถ€ ํŠน์ • embodiment-task ์กฐํ•ฉ์—์„œ๋Š” ์—ฌ์ „ํžˆ ๋‚ฎ์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ํ•˜๋“œ์›จ์–ด ๊ตฌ์กฐ์  ํ•œ๊ณ„(์˜ˆ: Ability Hand์˜ ์งง์€ ์—„์ง€, Allegro Hand์˜ ํฐ ํฌ๊ธฐ)๊ฐ€ ์ •์ฑ… ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
  • ์ธ๊ฐ„ ๋ชจ๋ฐฉ์ ์ธ Embodiment๊ฐ€ ๋ฐ˜๋“œ์‹œ ๋” ๋‚˜์€ ์ „์ด๋ฅผ ๊ฐ€์ ธ์˜ค์ง€ ์•Š์Œ: ์ง๊ด€๊ณผ ๋‹ฌ๋ฆฌ, ๋” ์ธ๊ฐ„ ๋ชจ๋ฐฉ์ ์ธ ์—”๋“œ ์ดํŽ™ํ„ฐ(Allegro, Ability)๊ฐ€ ๊ทธ๋ฆฌํผ(Robotiq, FR)์— ๋น„ํ•ด ํ‰๊ท  ์•ก์…˜ ๊ฑฐ๋ฆฌ(AD)๊ฐ€ ๋” ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—”๋“œ ์ดํŽ™ํ„ฐ ๋””์ž์ธ ์™ธ์—๋„ ๋งˆ์šดํŒ…(mounting) ์กฐ๊ฑด ๋ฐ ์•” ํ‚ค๋„ค๋งˆํ‹ฑ์Šค(arm kinematics)๊ฐ€ ์•ก์…˜ ์žฌ์„ค์ • ๋ฐ ๋กœ๋ด‡์˜ ์ž‘์—… ์ˆ˜ํ–‰ ๋ฐฉ์‹์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ์ธ๊ฐ„ ์‹œ์—ฐ์˜ ๊ทœ๋ชจ์™€ ๋‹ค์–‘์„ฑ์ด ํ•™์Šต ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์ธ๊ฐ„ ๋น„๋””์˜ค๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ๋” ํฐ ๋‹ค์–‘์„ฑ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ๋” ๋†’์€ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด ์•ก์…˜ ๊ฑฐ๋ฆฌ(intra-dataset Action Distance)๋กœ ๋ฐ˜์˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ์ถ”๊ฐ€๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ ์„ ๋•Œ์—๋„ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

ImMimic์€ ํฐ ๋„๋ฉ”์ธ ๊ฐ„๊ทน(์˜ˆ: ํ˜„์ €ํ•œ ํ‰๊ท  ์•ก์…˜ ๊ฑฐ๋ฆฌ ์ฐจ์ด, ์ฃผ์š” ์‹œ๊ฐ์  ์™ธ๊ด€ ์ฐจ์ด)์—์„œ๋Š” ์—ฌ์ „ํžˆ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋” ํฐ ๋„๋ฉ”์ธ ๊ฐ„๊ทน์—์„œ๋„ ํŠน์ง• ์ •๋ ฌ(feature alignment)์„ ๊ฐœ์„ ํ•˜๋Š” ํ‘œํ˜„ ํ•™์Šต(representation learning) ๋ฐฉ๋ฒ•์ด ํฌํ•จ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, embodiment ์„ค๊ณ„๊ฐ€ ์ธ๊ฐ„ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•  ๋•Œ ์ •์ฑ… ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ์กฐ์‚ฌํ•˜์—ฌ ๋กœ๋ด‡์ด ์ธ๊ฐ„ ๊ธฐ์ˆ ์„ ๋ณด๋‹ค ํšจ๊ณผ์ ์œผ๋กœ ์Šต๋“ํ•˜๊ณ  ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.


2 Detail Review

2.1 Summary

ImMimic์€ ์ธ๊ฐ„ ์‹œ์—ฐ ๋น„๋””์˜ค์™€ ์†Œ๋Ÿ‰์˜ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ์กฐ์ž‘ ํ•™์Šต์˜ ํšจ์œจ์„ ๋†’์ด๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ์‚ฌ์ด์—๋Š” ์‹œ๊ฐ์ , ํ˜•ํƒœ์ (๋ชจ๋ฅดํฌLOGY), ๋ฌผ๋ฆฌ์  ๋„๋ฉ”์ธ ์ฐจ์ด(domain gap)๊ฐ€ ์กด์žฌํ•˜์—ฌ, ์ธ๊ฐ„ ๋น„๋””์˜ค๋งŒ์œผ๋กœ ๋กœ๋ด‡์ด ์ง์ ‘ ํ–‰๋™์„ ๋ชจ๋ฐฉํ•˜๊ธฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ฐญ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ฉ”๊พธ๊ธฐ ์œ„ํ•ด Embodiment(embodiment)์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ๊ณต๋™ ํ•™์Šต(co-training) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ธ๊ฐ„ ์†์˜ ์‹œ์—ฐ ๊ฒฝ๋กœ๋ฅผ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ณต๊ฐ„์œผ๋กœ retargeting(retargeting)ํ•˜๊ณ , ๋™์  ์‹œ๊ฐ„ ์™œ๊ณก ์•Œ๊ณ ๋ฆฌ์ฆ˜(Dynamic Time Warping, DTW)์„ ์ด์šฉํ•ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ์‹œ๊ณ„์—ด ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•œ ๋’ค, ์ •๋ ฌ๋œ ์Œ์„ MixUp ๋ณด๊ฐ„ ๊ธฐ๋ฒ•์œผ๋กœ ์„ž์–ด ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ์ค‘๊ฐ„ ๋ถ„ํฌ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋“ค์„ ์›๋ž˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ํ•จ๊ป˜ ๋™์‹œ์— ํ•™์Šตํ•จ์œผ๋กœ์จ, ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ํš๋“ํ•œ ์ง€์‹์„ ๋กœ๋ด‡ ์ •์ฑ…์— ์›ํ™œํžˆ ์ด์ „ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ 4๊ฐ€์ง€ ์กฐ์ž‘ ๊ณผ์ œ(์ง‘์–ด์„œ ๋†“๊ธฐ, ๋ฐ€๊ธฐ, ๋ง์น˜์งˆ, ๋’ค์ง‘๊ธฐ)์— ๋Œ€ํ•ด 4์ข…์˜ ๋กœ๋ด‡ ์†/๊ทธ๋ฆฌํผ(Robotiq ๊ทธ๋ฆฌํผ, Fin Ray ๊ทธ๋ฆฌํผ, Allegro ๋‹ค์ง€ ์†, Ability ๋‹ค์ง€ ์†)์—์„œ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, ImMimic์„ ์ ์šฉํ•˜๋ฉด ์ž‘์—… ์„ฑ๊ณต๋ฅ ์ด ํ–ฅ์ƒ๋˜๊ณ  ๋กœ๋ด‡ ๋™์ž‘์ด ํ•œ์ธต ๋งค๋„๋Ÿฝ๊ฒŒ ์‹คํ–‰๋จ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์†Œ๋Ÿ‰์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ(์˜ˆ: 5๊ฐœ)์™€ ๋Œ€๋Ÿ‰์˜ ์ธ๊ฐ„ ๋น„๋””์˜ค(์˜ˆ: 100๊ฐœ)๋งŒ์œผ๋กœ๋„, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค[4].

2.2 Contributions

  • ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œๆผ” ์ •๋ ฌ์„ ํ†ตํ•œ ๊ต์ฐจ ๋„๋ฉ”์ธ ๋ชจ๋ฐฉํ•™์Šต: ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ์–ป์€ ์‹œ์—ฐ์„ ๋กœ๋ด‡ ์‹œ์—ฐ๊ณผ ์ •๋ ฌ(mapping)ํ•˜์—ฌ ํ•จ๊ป˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๋™ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋™์  ์‹œ๊ฐ„ ์™œ๊ณก(DTW)์„ ํ™œ์šฉํ•ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ๋งž์ถค์œผ๋กœ์จ, ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ์ง์ ‘ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ณตํ†ต ํ‘œํ˜„ ๊ณต๊ฐ„์œผ๋กœ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. ํŠนํžˆ ํ–‰๋™ ๊ธฐ๋ฐ˜๊ณผ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋‘ ๊ฐ€์ง€ ๋งคํ•‘ ์ „๋žต(DTW-A, DTW-V)์„ ์ œ์‹œํ•˜์—ฌ, ํ–‰๋™ ์‹œํ€€์Šค ๋˜๋Š” ์‹œ๊ฐ ํ”ผ์ฒ˜ ์œ ์‚ฌ๋„๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ •๋ ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค.

  • MixUp ๋ณด๊ฐ„์„ ์ด์šฉํ•œ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: ์ •๋ ฌ๋œ ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œ์—ฐ ์Œ์„ MixUp ๊ธฐ๋ฒ•์œผ๋กœ ๋ณด๊ฐ„ํ•˜์—ฌ, ์ธ๊ฐ„ ๋„๋ฉ”์ธ๊ณผ ๋กœ๋ด‡ ๋„๋ฉ”์ธ ์‚ฌ์ด์˜ ์ค‘๊ฐ„ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์ˆ˜ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ์˜ ๊ด€์ฐฐ ํ‘œํ˜„๊ณผ ํ–‰๋™ ๊ณต๊ฐ„(action space)์—์„œ์˜ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ ๊ฐ๊ฐ ์„ ํ˜• ํ˜ผํ•ฉํ•จ์œผ๋กœ์จ, ์ธ๊ฐ„ ์‹œ์—ฐ์ด ์ ์ง„์ ์œผ๋กœ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ํŠน์„ฑ์„ ๋ ๋Š” ์—ฐ์†์ ์ธ ๋„๋ฉ”์ธ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๋“ค์€ ๊ณต๋™ ํ•™์Šต ์‹œ ์ธ๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋กœ๋ด‡ ๋„๋ฉ”์ธ์œผ๋กœ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ ์‘ํ•˜๋„๋ก ๋„์™€์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋„๋ฉ”์ธ ๊ฐญ์„ ์™„ํ™”**ํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • Embodiment์— ๋ถˆ๋ฌธํ•œ ์ •์ฑ… ๊ณต๋™ํ•™์Šต ๋ฐ ํ™•์‚ฐ ๋ชจ๋ธ ํ™œ์šฉ: ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ผ ์ •์ฑ… ๋ชจ๋ธ์— ํ†ตํ•ฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” embodiment-agnostic co-training์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋น„์ „ ๊ด€์ฐฐ(์นด๋ฉ”๋ผ ์˜์ƒ)๊ณผ ๋กœ๋ด‡ ๊ณ ์œ ๊ฐ๊ฐ(proprioception) ์ •๋ณด๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ ๋ฏธ๋ž˜ ํ–‰๋™์„ ์˜ˆ์ธกํ•˜๋Š” ์ •์ฑ… ์‹ ๊ฒฝ๋ง์„ ์„ค๊ณ„ํ•˜์˜€๊ณ , ํŠนํžˆ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ •์ฑ…(diffusion policy) ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‹œํ€€์Šค ํ˜•ํƒœ์˜ ํ–‰๋™ ์ƒ์„ฑ์— ์•ˆ์ •์„ฑ์„ ๋”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๋น„๋””์˜ค์˜ ๊ฒฝ์šฐ, ์† ํฌ์ฆˆ ์ถ”์  ๋ชจ๋“ˆ๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋กœ๋ด‡ ๊ด€์ ˆํ˜•ํƒœ๋กœ retargeting๋œ ์†๋™์ž‘์„ ํ–‰๋™ ๋ผ๋ฒจ๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ๋งˆ์น˜ ๋กœ๋ด‡์ด ํ•ด๋‹น ์ƒํ™ฉ์—์„œ ์ทจํ–ˆ์„ ํ–‰๋™์ธ ๊ฒƒ์ฒ˜๋Ÿผ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์™€ ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ์–ป์€ (์‹ค์ œ+๋ณด๊ฐ„) ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋™์ผํ•œ ๋ชจ๋ธ์„ ๊ณต๋™ ์ตœ์ ํ™”ํ•˜๋ฉฐ, ๋‘ ๋„๋ฉ”์ธ์˜ ํ•™์Šต ์†์‹ค์„ ํ•ฉ์‚ฐํ•œ ๋ชฉํ‘œ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์œผ๋กœ ๋ณ„๋„ ๋„๋ฉ”์ธ ๊ตฌ๋ถ„ ์—†์ด ํ•˜๋‚˜์˜ ํ†ตํ•ฉ ์ •์ฑ…์ด ํ•™์Šต๋˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—๋„ ๋™์ผํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์‹คํ—˜์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐ ํŠน์„ฑ ๋ถ„์„: ์‹ค์ œ ๋กœ๋ด‡์„ ์‚ฌ์šฉํ•œ ๋‹ค์–‘ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. 4๊ฐœ์˜ ๊ณผ์ œ์™€ 4๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ดํ„ฐ ์กฐํ•ฉ์—์„œ, ImMimic์€ ๊ธฐ์กด ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ๊ณผ ๋™์ž‘ ์›ํ™œ์„ฑ ๊ฐœ์„ ์„ ์ผ๊ด€๋˜๊ฒŒ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋Œ€์กฐ ์‹คํ—˜์„ ํ†ตํ•ด, ์•„๋ฌด ๋ณด์ • ์—†์ด ์ธ๊ฐ„+๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ•œ ๊ฒฝ์šฐ(naive co-training)๋‚˜ ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œ์—ฐ์„ ๋ฌด์ž‘์œ„๋กœ ์ง์ง€์–ด ๋ณด๊ฐ„ํ•œ ๊ฒฝ์šฐ(random mapping) ๋Œ€๋น„ ์ œ์•ˆ ๋ฐฉ๋ฒ•์˜ ์šฐ์ˆ˜์„ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‹œ๊ณ„์—ด ๋งคํ•‘์˜ ์ค‘์š”์„ฑ(random mapping ๋Œ€๋น„)๊ณผ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ณด๊ฐ„์˜ ๊ธฐ์—ฌ(vanilla co-training ๋Œ€๋น„)๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ฒ€์ฆํ•˜์˜€๊ณ , ๋™์ž‘ ๊ณต๊ฐ„ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-A)์ด ์‹œ๊ฐ ํ”ผ์ฒ˜ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-V)๋ณด๋‹ค ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฒƒ๋„ ์‹คํ—˜์ ์œผ๋กœ ๋ฐํ˜”๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, t-SNE ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ImMimic ์ ์šฉ ์‹œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ํ‘œํ˜„ ๊ณต๊ฐ„์ด ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„๊ณผ ์—ฐ์†์ ์œผ๋กœ ๊ฒน์ณ์ง์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ํŠน๋ณ„ํ•œ ๋ณด์ •์ด ์—†์—ˆ๋˜ ๊ฒฝ์šฐ ๋‘ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„๋ฆฌ๋œ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋‚จ๋Š” ๊ฒƒ๊ณผ ๋Œ€์กฐ์ ์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ ImMimic์˜ ๋„๋ฉ”์ธ ์ ์‘ ํšจ๊ณผ๋ฅผ ์ง๊ด€์ ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2.3 Methodology Analysis

ImMimic์ด ์ œ์•ˆํ•˜๋Š” ๊ต์ฐจ ๋„๋ฉ”์ธ ๋ชจ๋ฐฉํ•™์Šต ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ ๋‹ค์„ฏ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  • ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: ์šฐ์„  ๊ฐ ์ž‘์—…(task)์— ๋Œ€ํ•ด ์†Œ์ˆ˜์˜ ๋กœ๋ด‡ ์‹œ์—ฐ์„ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์›๊ฒฉ ์กฐ์ž‘(teleoperation)์„ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ๋žŒ ์šด์˜์ž๊ฐ€ ๋กœ๋ด‡์„ ์ง์ ‘ ์กฐ์ž‘, ์‹œ๊ฐ ๊ด€์ฐฐ๊ณผ ๋กœ๋ด‡ ์ƒํƒœ-ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋กํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์นด๋ฉ”๋ผ ์˜์ƒ(์™ธ๋ถ€ ์‹œ์  + ์†๋ชฉ๋ถ€ ์นด๋ฉ”๋ผ)๊ณผ ๋กœ๋ด‡ ๊ด€์ ˆ๊ฐ/๊ทธ๋ฆฌํผ ์ƒํƒœ ๋“ฑ์˜ ํ”„๋กœํ”„๋ฆฌ์˜ค์…‰์…˜์ด ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ธฐ๋ก๋ฉ๋‹ˆ๋‹ค.
  • ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ retargeting: ๋™์‹œ์— ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ๋‹ค์ˆ˜์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ๋น„๋””์˜ค๋ฅผ ๋…นํ™”ํ•˜์—ฌ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์‹œ์—ฐ์€ ๋กœ๋ด‡๊ณผ ์œ ์‚ฌํ•œ ํ™˜๊ฒฝ(์˜ˆ: ๋™์ผํ•œ ์ž‘์—…๋Œ€์™€ ๋ฌผ์ฒด ๋ฐฐ์น˜)์—์„œ ์—์ด์ „ํŠธ ์‹œ์  ์นด๋ฉ”๋ผ(agent-view)๋กœ ์ดฌ์˜ํ•˜์—ฌ, ๋กœ๋ด‡์ด ๋ณด๊ฒŒ ๋  ์‹œ๊ฐ ์ •๋ณด์™€ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ๋Š” ์† ์›€์ง์ž„์„ ์ถ”์  ๋ฐ ์ถ”์ถœํ•˜์—ฌ, ๋กœ๋ด‡์˜ ์ œ์–ด ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜(retargeting)ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„ ์†๊ฐ€๋ฝ/ํŒ”์˜ ์›€์ง์ž„์„ ๋กœ๋ด‡์˜ ๊ด€์ ˆ๊ฐ ํ˜น์€ ๊ทธ๋ฆฌํผ ์›€์ง์ž„ ๋“ฑ์— ๋งคํ•‘ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ, ์˜ˆ์ปจ๋Œ€ ์ธ๊ฐ„ ์†๊ฐ€๋ฝ์œผ๋กœ ๊ณต์„ ์žก๋Š” ๋™์ž‘์„ ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ์˜ ํ์‡„ ๋™์ž‘์— ๋Œ€์‘์‹œํ‚ค๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด ์† ํฌ์ฆˆ retargeting ๋ชจ๋“ˆ์˜ ์ถœ๋ ฅ์„ ํ†ตํ•ด, ์ธ๊ฐ„ ๋น„๋””์˜ค ๊ฐ ์‹œ์ ๋งˆ๋‹ค ํ•ด๋‹น ์‹œ์ ์— ๋กœ๋ด‡์ด ์ทจํ–ˆ์„ ๋ฒ•ํ•œ ํ–‰๋™(action label)์„ ๋ผ๋ฒจ๋กœ ํ• ๋‹นํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ธ๊ฐ„ ์‹œ์—ฐ์—๋Š” ์›๋ž˜ ์กด์žฌํ•˜์ง€ ์•Š๋˜ ๋กœ๋ด‡ ํ–‰๋™ ๋ผ๋ฒจ์ด ๋ถ€์—ฌ๋˜์–ด, ์ง€๋„ํ•™์Šต ํ˜•ํƒœ์˜ ๋ชจ๋ฐฉํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.
  • ๋™์  ์‹œ๊ฐ„ ์™œ๊ณก(DTW)์„ ํ†ตํ•œ ์‹œํ€€์Šค ์ •๋ ฌ: ๋‹ค์Œ์œผ๋กœ ๊ฐ ์ธ๊ฐ„ ์‹œ์—ฐ ์‹œํ€€์Šค์™€ ์œ ์‚ฌํ•œ ๋กœ๋ด‡ ์‹œ์—ฐ ์‹œํ€€์Šค๋ฅผ ์ง์ง€์–ด, ๋™์  ์‹œ๊ฐ„ ์™œ๊ณก ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. DTW๋Š” ๋‘ ์‹œ๊ณ„์—ด X=(x_1,โ€ฆ,x_m) ์™€ Y=(y_1,โ€ฆ,y_n) ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„์— ๊ธฐ๋ฐ˜ํ•œ ์ •๋ ฌ์„ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์—ฌ๊ธฐ์„œ๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ์˜ ํŠน์ง•๊ณผ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ํŠน์ง• ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ์ •์˜ํ•˜๊ณ , DTW๋ฅผ ์‚ฌ์šฉํ•ด ์‹œ๊ฐ„ ์ถ•์„ ๋น„์„ ํ˜•์ ์œผ๋กœ ์กฐ์ •ํ•จ์œผ๋กœ์จ ๋‘ ์‹œํ€€์Šค ๊ฐ„ ์ตœ์  ๋งค์นญ์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ •๋ ฌ ๊ธฐ์ค€์ด ๋˜๋Š” ํŠน์ง•์— ๋”ฐ๋ผ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค:
  • ํ–‰๋™ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-A): retargeting๋œ ๋กœ๋ด‡ ๊ด€์ ˆ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ๋น„๊ต ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ์ธ๊ฐ„ ์‹œ์—ฐ(๋กœ๋ด‡ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜๋œ)์˜ ๊ด€์ ˆ ์›€์ง์ž„ ๋ฒกํ„ฐ์™€ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ๊ด€์ ˆ ์›€์ง์ž„ ๋ฒกํ„ฐ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๊ฑฐ๋ฆฌ ํ•จ์ˆ˜๋กœ ์ •์˜ํ•˜์—ฌ DTW ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋™์ผํ•˜๊ฑฐ๋‚˜ ์œ ์‚ฌํ•œ ๋™์ž‘ ์ˆœ๊ฐ„๋“ค์ด ์‹œ๊ฐ„ ์ถ•์„ ๋„˜์–ด ๋งค์นญ๋ฉ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-V): ์‹œ๊ฐ ํ”ผ์ฒ˜๋ฅผ ์ •๋ ฌ ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„๊ณผ ๋กœ๋ด‡ ์‹œ์—ฐ ์˜์ƒ ํ”„๋ ˆ์ž„์„ ๊ฐ๊ฐ ์ธ์ฝ”๋”(์˜ˆ: ResNet)๋กœ ๋ณ€ํ™˜ํ•ด ์–ป์€ ์ž ์žฌ ํ‘œํ˜„(latent feature) ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ DTW๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋‘ ์‹œํ€€์Šค๊ฐ€ ์‹œ๊ฐ์ ์œผ๋กœ ๋น„์Šทํ•œ ์ƒํƒœ(์˜ˆ: ๋ฌผ์ฒด์™€ ์†์˜ ์ƒ๋Œ€ ์œ„์น˜ ๋“ฑ)์— ์žˆ์„ ๋•Œ๋ฅผ ์ •๋ ฌ์‹œ์ผœ ์ค๋‹ˆ๋‹ค.

DTW ์ •๋ ฌ ๊ฒฐ๊ณผ, ์ธ๊ฐ„ ์‹œ์—ฐ์˜ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t_h ๊ฐ€ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ํ•œ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t_r ์™€ ์—ฐ๊ฒฐ๋˜์–ด ์‹œ์  ๋งค์นญ ์Œ๋“ค์˜ ์ง‘ํ•ฉ {(t_h,t_r)} ์ด ์–ป์–ด์ง‘๋‹ˆ๋‹ค. ์ด ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ์ธ๊ฐ„ ์‹œ์—ฐ ๊ด€์ฐฐ o_h (t_h) ์™€ ํ•ด๋‹น ์‹œ์ ์˜ ํ–‰๋™ ๋ผ๋ฒจ a_h (t_h) (retargeting๋œ ๊ฒƒ) ๊ทธ๋ฆฌ๊ณ  ๋งค์นญ๋œ ๋กœ๋ด‡ ๊ด€์ฐฐ o_r (t_r) ์™€ ๋กœ๋ด‡ ํ–‰๋™ a_r (t_r) ๊ฐ€ ํ•˜๋‚˜์˜ ์ •๋ ฌ๋œ ์‹œํ€€์Šค ์Œ์œผ๋กœ ๋ฌถ์ž…๋‹ˆ๋‹ค.

  • MixUp ๋ณด๊ฐ„์„ ํ†ตํ•œ ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: ์ด๋ ‡๊ฒŒ ์ •๋ ฌ๋œ ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œ์—ฐ ์Œ์— ๋Œ€ํ•ด, MixUp ๋ฐ์ดํ„ฐ ๋ณด๊ฐ• ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ๋‹ค์ˆ˜์˜ ์ƒˆ๋กœ์šด ๊ฐ€์ƒ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. MixUp์ด๋ž€ ๋‘ ์ƒ˜ํ”Œ์„ ์„ ํ˜• ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ๋งŒ๋“œ๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ์—ฌ๊ธฐ์„œ๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ๊ณผ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ํŠน์„ฑ์„ ๋ถ€๋ถ„์ ์œผ๋กœ ์„ž์€ ์ค‘๊ฐ„ ์‹œ์—ฐ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ •๋ ฌ๋œ ์Œ์—์„œ ๋™์ผํ•œ ์ƒ๋Œ€ ์‹œ์ ์— ์žˆ๋Š” ์ธ๊ฐ„ ๊ด€์ฐฐ์˜ ์ž ์žฌํ‘œํ˜„ z_h ์™€ ๋กœ๋ด‡ ๊ด€์ฐฐ์˜ ์ž ์žฌํ‘œํ˜„ z_r ์„ ์„ž๊ณ , ์ธ๊ฐ„ ํ–‰๋™ a_h ์™€ ๋กœ๋ด‡ ํ–‰๋™ a_r ๋„ ์„ž์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ ์ •๋ ฌ๋œ ์‹œ์  ์Œ์— ๋Œ€ํ•ด ์ž„์˜์˜ ๋ณด๊ฐ„ ๊ณ„์ˆ˜ ฮปโˆˆ[0,1] ๋ฅผ ์„ ํƒํ•˜๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค:

\begin{align*} z_{mixt} = \alpha \cdot z_{h t} + (1โˆ’\alpha) \cdot z_{r tโ€ฒ} , a_{mixt:t+k} = \alpha \cdot a^{hโ†’r}_{t:t+k} + (1โˆ’\alpha) \cdot a_{r tโ€ฒ:tโ€ฒ+k} \end{align*}

์ด z_โ€œmixโ€ ์™€ a_โ€œmixโ€ ๋Š” ์ธ๊ฐ„-๋กœ๋ด‡ ์ค‘๊ฐ„ ํŠน์„ฑ์„ ๊ฐ–๋Š” ํ•˜๋‚˜์˜ ์ƒˆ๋กœ์šด ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ „์ฒด ์‹œํ€€์Šค์— ๋Œ€ํ•ด ์ด๋Ÿฐ ์‹์˜ ๋ณด๊ฐ„์„ ์ˆ˜ํ–‰ํ•˜๋ฉด, ์ธ๊ฐ„ ์‹œ์—ฐ์˜ ์—ฐ์†๋œ ํ”„๋ ˆ์ž„๋“ค์ด ์ ์ฐจ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ํŠน์„ฑ์œผ๋กœ ๋ณ€๋ชจํ•˜๋Š” ๊ฐ€์ƒ ์‹œํ€€์Šค๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ๊ด€์ฐฐ์˜ ์ž ์žฌ๊ณต๊ฐ„๊ณผ ํ–‰๋™๊ณต๊ฐ„ ๋ชจ๋‘์—์„œ ๋ณด๊ฐ„์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ผ๊ด€์„ฑ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์‹œํ€€์Šค๋ฅผ ์–ป์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๋“ค์€ ๊ฒ‰๋ณด๊ธฐ์—๋Š” ์™„์ „ํ•œ ๋กœ๋ด‡ ์‹œ์—ฐ๋„, ์™„์ „ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ๋„ ์•„๋‹ˆ์ง€๋งŒ ๋‘ ๋„๋ฉ”์ธ์˜ ํŠน์ง•์„ ๋ชจ๋‘ ์กฐ๊ธˆ์”ฉ ๊ฐ–๊ณ  ์žˆ์–ด, ํ•™์Šต ์‹œ์— ์ธ๊ฐ„ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋กœ๋ด‡ ๋„๋ฉ”์ธ์œผ๋กœ ์ด์–ด์ง€๋„๋ก ๋งŒ๋“ค์–ด์ฃผ๋Š” ๋‹ค๋ฆฌ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์—ฌ๋Ÿฌ ์ •๋ ฌ๋œ ์‹œ์—ฐ ์Œ๋“ค์— ๋Œ€ํ•ด ๋ฐ˜๋ณตํ•˜์—ฌ ์ ์šฉ๋˜๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ๋‹ค๋Ÿ‰์˜ ๋ณด๊ฐ„ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋กœ ํ™•๋ณด๋ฉ๋‹ˆ๋‹ค.

  • ๊ณต๋™ ํ•™์Šต(co-training)์œผ๋กœ ์ •์ฑ… ํ›ˆ๋ จ: ๋งˆ์ง€๋ง‰์œผ๋กœ, ์œ„์—์„œ ์–ป์–ด์ง„ ๋ณด๊ฐ„๋œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ + ์›๋ณธ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ + ์†Œ๋Ÿ‰์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ •์ฑ… ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค[20]. ์ •์ฑ… ๋ชจ๋ธ์€ ์ข…๋‹จ๊ฐ„ ๋น„์ „-๋ชจํ„ฐ ์ •์ฑ…์œผ๋กœ์„œ, ์ฃผ์–ด์ง„ ํ˜„์žฌ ๊ด€์ฐฐ์— ๋Œ€ํ•ด ๋‹ค์Œ ์‹œ๊ฐ„ ์Šคํ…์˜ ๋กœ๋ด‡ ํ–‰๋™์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๊ด€์ฐฐ์˜ ๊ฒฝ์šฐ ๋กœ๋ด‡์˜ ์นด๋ฉ”๋ผ ์˜์ƒ(Agent-view ๋ฐ Wrist-view ๋‘ ์‹œ์ )๊ณผ ๋กœ๋ด‡ ๊ด€์ ˆ ์ƒํƒœ(ํ”„๋กœํ”„๋ฆฌ์˜ค์…‰์…˜)๋ฅผ ํ•จ๊ป˜ ์‹ ๊ฒฝ๋ง ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ž ์žฌ ์ƒํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ ๋ถ„ํฌ์—์„œ ๋‹ค์Œ ํ–‰๋™์„ ์ƒ˜ํ”Œ๋งํ•˜๊ฑฐ๋‚˜ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๊ด€์ฐฐ์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„์„ ๋™์ผํ•œ ์ •์ฑ… ๋„คํŠธ์›Œํฌ์— ํ†ต๊ณผ์‹œํ‚ค๋˜, ์ด๋•Œ ํ˜„์žฌ ๋กœ๋ด‡ ์ƒํƒœ์— ํ•ด๋‹นํ•˜๋Š” ์ž…๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์•ž์„œ retargeting๋œ ์ธ๊ฐ„ ์†๋™์ž‘์„ ํ•ด๋‹น ์‹œ์ ์˜ ๋กœ๋ด‡ ํ”„๋ ˆ์ž„์—์„œ์˜ ๊ด€์ ˆ ์ƒํƒœ(๊ฐ€์ƒ์˜ ํ”„๋กœํ”„๋ฆฌ์˜ค์…‰์…˜)๋กœ ๊ฐ„์ฃผํ•˜์—ฌ ์ž…๋ ฅ์— ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ์ธ๊ฐ„ ๋น„๋””์˜ค์— ๋Œ€์‘ํ•˜๋Š” ์ •์ฑ… ์ž…๋ ฅ์—๋Š” โ€œ๋งŒ์•ฝ ์ด ์‹œ์ ์— ๋กœ๋ด‡์ด ์ด ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค๋ฉดโ€์ด๋ผ๋Š” ๊ฐ€์ • ํ•˜์— ๋กœ๋ด‡์˜ ์ƒํƒœ๋กœ ์น˜ํ™˜๋œ ์ •๋ณด๊ฐ€ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์ •์ฑ… ์ถœ๋ ฅ์œผ๋กœ๋Š” ๋กœ๋ด‡์˜ ๋‹ค์Œ ํ–‰๋™(๊ด€์ ˆ ๋ช…๋ น)์ด ์˜ˆ์ธก๋˜๋Š”๋ฐ, ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ๋‹ค์Œ ํ–‰๋™๊ณผ ๋น„๊ตํ•˜๊ณ , ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ๋Š” retargeting๋œ ๋‹ค์Œ ํ–‰๋™(์ธ๊ฐ„โ†’๋กœ๋ด‡ ๋ณ€ํ™˜๋œ)๊ณผ ๋น„๊ตํ•˜์—ฌ ์†์‹ค์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋™์ผํ•œ ์ •์ฑ… ๋„คํŠธ์›Œํฌ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณต์œ ํ•˜๋ฉฐ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์™€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ ์˜ค๋Š” ์žฌ๊ตฌ์„ฑ ์†์‹ค(๋ชจ๋ฐฉ ํ•™์Šต ์˜ค์ฐจ)์„ ํ•ฉ์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณต๋™ ํ•™์Šต์„ ํ†ตํ•ด, ๋ชจ๋ธ์€ ๋กœ๋ด‡ ์‹œ์—ฐ์˜ ์ •ํ™•ํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•จ๊ณผ ๋™์‹œ์— ์ธ๊ฐ„ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ์ผ๋ฐ˜ํ™”์— ์œ ์šฉํ•œ ๋‹ค์–‘์„ฑ์„ ํก์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณด๊ฐ„๋œ ์ค‘๊ฐ„ ๋ฐ์ดํ„ฐ ๋•๋ถ„์—, ํ•™์Šต ๊ณผ์ •์—์„œ ์ธ๊ฐ„ ๋„๋ฉ”์ธ ๋ถ„ํฌ โ†’ ์ค‘๊ฐ„ ๋ถ„ํฌ โ†’ ๋กœ๋ด‡ ๋ถ„ํฌ๋กœ ์ ์ง„์ ์ธ ๋„๋ฉ”์ธ ์ด๋™์ด ์œ ๋„๋˜์–ด, ํ•™์Šต ์•ˆ์ •์„ฑ๊ณผ ๋„๋ฉ”์ธ ์ ์‘ ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์ €์ž๋“ค์€ t-SNE ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด, ImMimic์œผ๋กœ ํ•™์Šตํ•  ๊ฒฝ์šฐ ํ›ˆ๋ จ ์ค‘ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ ํ‘œํ˜„๋“ค์ด ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ชฝ์œผ๋กœ ์—ฐ์†์ ์œผ๋กœ ๋ถ„ํฌํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค (Vanilla ๊ณต๋™ํ•™์Šต์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„/๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„๋ฆฌ๋œ ๊ตฐ์ง‘์„ ํ˜•์„ฑํ•จ). ์ด๋Š” ์ค‘๊ฐ„ ๋„๋ฉ”์ธ ๋ณด๊ฐ„์ด ํ‘œํ˜„ ๊ณต๊ฐ„ ์ƒ์—์„œ ๋‘ ๋„๋ฉ”์ธ์˜ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๋Š” ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•จ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

์ •์ฑ… ๋ชจ๋ธ์˜ ํ•™์Šต์€ Diffusion Policy ๋ฐฉ์‹์„ ์ฐจ์šฉํ•˜์˜€๋‹ค๊ณ  ์–ธ๊ธ‰๋˜๋Š”๋ฐ, ์ด๋Š” ํ™•์‚ฐ ํ™•๋ฅ ๋ชจ๋ธ(denoising diffusion)์„ ์ด์šฉํ•ด ๋ฏธ๋ž˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•œ ๊ฒƒ์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ ์ •์ฑ…์˜ ์žฅ์ ์€ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ–‰๋™ ๋ถ„ํฌ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์‹œํ€€์Šค๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ธ๋ฐ, ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ํ–‰๋™ ์˜ˆ์ธก์„ ์‹œ๊ณ„์—ด ์ƒ์„ฑ ๋ฌธ์ œ๋กœ ๋‹ค๋ฃฌ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋ชฉํ‘œ๋Š” ๊ฐ ์‹œ์ ์—์„œ ๋ชจ๋ธ์ด ๋ฐ๋ชจ ํ–‰๋™์„ ์žฌ๊ตฌ์„ฑํ•˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ธ๊ฐ„ ๋ฐ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋ชจ๋‘์— ๋Œ€ํ•ด ํ–‰๋™ ์˜ˆ์ธก ์˜ค๋ฅ˜(์˜ˆ: MSE ํ˜น์€ ์Œ์˜ ๋กœ๊ทธ์šฐ๋„)๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ์ •์ฑ…์€ ์ถ”ํ›„ ๋กœ๋ด‡์— ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ƒˆ๋กœ์šด ๊ด€์ฐฐ(์นด๋ฉ”๋ผ ์˜์ƒ)์„ ์ž…๋ ฅ๋ฐ›์•„ ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ ํ•™์Šตํ•œ ํ’๋ถ€ํ•œ ๋™์ž‘์„ ๋ฐ”ํƒ•์œผ๋กœ๋„, ์‹ค์ œ ๋กœ๋ด‡์— ์œ ํšจํ•œ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ImMimic์˜ ๋ฐฉ๋ฒ•๋ก ์  ์ฐธ์‹ ์„ฑ์€ โ€œ์ธ๊ฐ„โ†’๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ์‚ฌ์ƒ(mapping)๊ณผ ๋ถ„ํฌ ๋ณด๊ฐ„(interpolation)โ€์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๊ธฐ์ˆ ๋กœ ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•œ ์ ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๋„๋ฉ”์ธ ์ ์‘ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋Œ€์‹ , ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ์กฐ์ž‘ํ•˜์—ฌ ๋„๋ฉ”์ธ ๊ฐ„ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ด๋Š” ์ ‘๊ทผ์„ ์ทจํ–ˆ๊ธฐ์— ๊ตฌํ˜„์ด ๋น„๊ต์  ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ํ˜•ํƒœ์— ๋™์ผํ•˜๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ผ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์„ค๊ณ„๋˜์–ด ๋‹ค์–‘ํ•œ ํ”Œ๋žซํผ์— ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2.4 Experimental Results and Analysis

๋…ผ๋ฌธ์—์„œ๋Š” ๋„ค ๊ฐ€์ง€ ์‹ค์ œ ์กฐ์ž‘ ์ž‘์—…์— ๋Œ€ํ•ด ์ œ์•ˆํ•œ ImMimic์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ์ง‘์–ด์„œ ๋†“๊ธฐ (Pick and Place): ํ…Œ์ด๋ธ” ์œ„์˜ ์ž‘์€ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด์„œ ๋‹ค๋ฅธ ์œ„์น˜์— ์ •ํ™•ํžˆ ๋‚ด๋ ค๋†“๋Š” ์ž‘์—….
  • ๋ฐ€๊ธฐ (Push): ๋ฌผ์ฒด๋ฅผ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ€์–ด์„œ ์ด๋™์‹œํ‚ค๋Š” ์ž‘์—….
  • ๋ง์น˜์งˆ (Hammer): ๋ง์น˜๋‚˜ ๋ง์น˜ํ˜• ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด ๋ชฉํ‘œ ์ง€์ ์„ ๋‚ด๋ฆฌ์น˜๋Š” ์ž‘์—… (์˜ˆ: ๋ชป ๋ฐ•๊ธฐ ๋“ฑ ์œ ์‚ฌ ๋™์ž‘).
  • ๋’ค์ง‘๊ธฐ (Flip): ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ ค์„œ ๋’ค์ง‘๊ฑฐ๋‚˜, ๋˜๋Š” ์ง€๋ ›๋Œ€๋ฅผ ์ –ํ˜€์„œ ๋ฐฉํ–ฅ์„ ๋ฐ”๊พธ๋Š” ์ž‘์—….

์ด๋“ค ์ž‘์—…์€ ์ •๋ฐ€ํ•œ ๊ทธ๋ฆฝ๋ถ€ํ„ฐ ๋™์  ํƒ€๊ฒฉ ๋™์ž‘๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ํฌํ•จํ•˜์—ฌ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฒ”์šฉ์„ฑ์„ ์‹œํ—˜ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ 4์ข…์˜ ๋กœ๋ด‡ ์†/๊ทธ๋ฆฌํผ๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ๋‘ ์ข…๋ฅ˜๋Š” ํ‰ํ–‰ ๊ทธ๋ฆฌํผ(Robotiq 2F-85 ๊ทธ๋ฆฌํผ, ๊ทธ๋ฆฌ๊ณ  Fin Ray ์†Œํ”„ํŠธ ๊ทธ๋ฆฌํผ)์ด๊ณ , ๋‘ ์ข…๋ฅ˜๋Š” ๋‹ค์ง€(ๅคšๆŒ‡) ๋กœ๋ด‡ ํ•ธ๋“œ(Shadow Allegro Hand V4, PSYONIC Ability Hand)์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœ ์ง‘๊ฒŒํ˜•๋ถ€ํ„ฐ ์ธ๊ฐ„ํ˜• ์†๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์  Embodiment ์ฐจ์ด๋ฅผ ํฌ๊ด„ํ•จ์œผ๋กœ์จ, ImMimic์ด ํ˜•ํƒœ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๊ณ  ๋™์ž‘ํ•™์Šต์— ๋„์›€์ด ๋˜๋Š”์ง€ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ๊ฐ ๋กœ๋ด‡์—๋Š” ๊ณตํ†ต์ ์œผ๋กœ 7์ž์œ ๋„ ๋กœ๋ด‡ ํŒ”(์˜ˆ: Franka Emika Panda)์ด ๋ถ™์–ด ์žˆ์–ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๊ทธ ๋๋‹จ์— ์œ„์˜ ๊ทธ๋ฆฌํผ/ํ•ธ๋“œ๊ฐ€ ์žฅ์ฐฉ๋œ ํ˜•ํƒœ๋กœ ์‹คํ—˜์ด ์ด๋ฃจ์–ด์ง„ ๊ฒƒ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ: ์‹คํ—˜์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ์ด ์ž‘์—…๋‹น ์•ฝ 100๊ฐœ, ๋กœ๋ด‡ ์‹œ์—ฐ์ด ์ž‘์—…๋‹น 5๊ฐœ ์ˆ˜์ค€์œผ๋กœ ๋ช…์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค[4]. ์ด 20:1 ์ •๋„์˜ ๋น„์œจ์€ ์ธ๊ฐ„ ๋น„๋””์˜ค๊ฐ€ ๋งค์šฐ ํ’๋ถ€ํ•˜์ง€๋งŒ ๋กœ๋ด‡ ๋ฐ๋ชจ๋Š” ๊ทน๋„๋กœ ์ œํ•œ์ ์ธ ์ƒํ™ฉ์„ ๊ฐ€์ •ํ•œ ๊ฒƒ์œผ๋กœ, ImMimic์˜ ๋ชฉํ‘œ์ธ โ€œ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ์‹œ์—ฐ + ์†Œ๊ทœ๋ชจ ๋กœ๋ด‡ ์‹œ์—ฐโ€ ์ƒํ™ฉ์„ ์ž˜ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…๋งˆ๋‹ค 5๊ฐœ์˜ ๋กœ๋ด‡ ์‹œ์—ฐ์€ ๋‹ค์–‘ํ•œ ์ดˆ๊ธฐ์กฐ๊ฑด๊ณผ ์ „๋žต์„ ๋‹ด๋„๋ก ์–ด๋А ์ •๋„ ๋‹ค์–‘์„ฑ์„ ๊ฐ€์ง€๊ฒŒ ์ˆ˜์ง‘๋˜์—ˆ๊ณ , ์ธ๊ฐ„ ์‹œ์—ฐ 100๊ฐœ ์—ญ์‹œ ๊ฐ€๋Šฅํ•œ ๋‹ค์–‘ํ•œ ์‚ฌ๋žŒ์˜ ๋™์ž‘์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ๋ฐ์ดํ„ฐ ํญ์„ ๋„“๊ฒŒ ๊ฐ€์ ธ๊ฐ”์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•™์Šต ๋ฐ ํ‰๊ฐ€: ImMimic ๋ชจ๋ธ์€ ์•ž์„œ ๊ธฐ์ˆ ๋œ ๋ฐฉ์‹๋Œ€๋กœ ๋ชจ๋“  ๋ฐ์ดํ„ฐ(์›๋ณธ ๋กœ๋ด‡ 5๊ฐœ, ์›๋ณธ ์ธ๊ฐ„ 100๊ฐœ, ๊ทธ๋ฆฌ๊ณ  ๋ณด๊ฐ„ ์ƒ์„ฑ๋œ ๊ฐ€์ƒ ์‹œ์—ฐ ๋‹ค์ˆ˜)๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ํ•™์Šต ํ›„ ๊ฐ ์ž‘์—…-๋กœ๋ด‡ ์กฐํ•ฉ์— ๋Œ€ํ•ด 10ํšŒ ์ด์ƒ์˜ ๋ฐ˜๋ณต ์‹คํ—˜์„ ํ†ตํ•ด ์„ฑ๊ณต๋ฅ (task success rate)์„ ์ธก์ •ํ•˜์˜€์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต๋œ ์ •์ฑ…์œผ๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ๋กœ๋ด‡ ๋™์ž‘์˜ ๋งค๋„๋Ÿฌ์›€(smoothness)์„ ์ •์„ฑ์ /์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋งค๋„๋Ÿฌ์›€์€ ์˜ˆ์ปจ๋Œ€ ๊ฒฝ๋กœ์˜ ์—ฐ์†์„ฑ, ์†๋„ ํ”„๋กœํŒŒ์ผ์˜ ๋ถ€๋“œ๋Ÿฌ์›€(๊ฐ€์†๋„์˜ ๋ณ€ํ™”), ๋ถˆํ•„์š”ํ•œ ๋ฉˆ์ถค/์ง„๋™์˜ ๊ฐ์†Œ ๋“ฑ์„ ํ†ตํ•ด ํ‰๊ฐ€๋˜์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. ์ด์™ธ์—๋„ ๋„๋ฉ”์ธ ์ ์‘ ํšจ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๊ณผ์ • ์ค‘ ์ž„๋ฒ ๋”ฉ ๋ถ„ํฌ(t-SNE)๋‚˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ถ„์„(๋ฐ๋ชจ ๊ฐœ์ˆ˜์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๊ณก์„ ) ๋“ฑ์ด ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋น„๊ต ๊ธฐ๋ฒ• (Baselines): ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ๋น„๊ต ๋Œ€์ƒ์ด ์„ค์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  • Robot-Only: ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์†Œ๋Ÿ‰์˜ ๋กœ๋ด‡ ๋ฐ๋ชจ(5๊ฐœ)๋งŒ์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šตํ•œ ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ImMimic์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์„ ๋•Œ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ์ƒํ™ฉ์—์„œ์˜ ๊ธฐ๋ณธ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฐ ๊ทน์†Œ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ์„ฑ๊ณต๋ฅ ์ด ๋‚ฎ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋ฉฐ, ์ด๋ฅผ ๊ธฐ์ค€์„ ์œผ๋กœ ์‚ผ์Šต๋‹ˆ๋‹ค.
  • Vanilla Co-Training: ImMimic์˜ ํ•ต์‹ฌ ๊ธฐ๋ฒ•(DTW ์ •๋ ฌ ๋ฐ MixUp ๋ณด๊ฐ„)์„ ์ ์šฉํ•˜์ง€ ์•Š๊ณ , ์ธ๊ฐ„ ๋น„๋””์˜ค์—์„œ ์ถ”์ถœํ•œ ํ–‰๋™ ๋ผ๋ฒจ๊ณผ ๋กœ๋ด‡ ๋ฐ๋ชจ๋ฅผ ๊ทธ๋ƒฅ ํ†ตํ•ฉํ•˜์—ฌ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•œ ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ณ„๋‹ค๋ฅธ ๋„๋ฉ”์ธ ์ ์‘ ์ฒ˜๋ฆฌ ์—†์ด ๊ณต๋™ํ•™์Šต๋งŒ ์ˆ˜ํ–‰ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋˜๊ธด ํ•˜์ง€๋งŒ ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ์ œ๋Œ€๋กœ ๋‹ค๋ฃจ์ง€ ์•Š์•„, ์„ฑ๋Šฅ์ด Robot-Only๋ณด๋‹ค ๋‚˜์•„์ง€์ง€ ์•Š๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๊ต๋ž€ ํšจ๊ณผ๋กœ ์•…ํ™”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋„๋ฉ”์ธ ๊ฐญ์„ ๋‹ค๋ฃจ๋Š” ๊ธฐ๋ฒ•์˜ ์ค‘์š”์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • Random Mapping: ImMimic๊ณผ ๋™์ผํ•˜๊ฒŒ ์ธ๊ฐ„+๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋˜, ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œํ€€์Šค ๊ฐ„ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ ฌ ์—†์ด ์ž„์˜๋กœ ์ง์ง€์–ด MixUp ๋ณด๊ฐ„์„ ์ˆ˜ํ–‰ํ•œ ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” DTW ๊ธฐ๋ฐ˜ ์ •๋ ฌ์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ์‹คํ—˜์œผ๋กœ, ์ •๋ ฌ ์—†์ด ๋ณด๊ฐ„ํ•˜๋ฉด ๋น„ํ•ฉ๋ฆฌ์  ๋ฐ์ดํ„ฐ(์˜ˆ: ์ „ํ˜€ ๋‹ค๋ฅธ ๋งฅ๋ฝ์˜ ์ธ๊ฐ„/๋กœ๋ด‡ ๋™์ž‘์„ ์„ž์€ ๋ฐ์ดํ„ฐ)๊ฐ€ ์ƒ์„ฑ๋˜์–ด ํ•™์Šต์— ์•…์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์ด baseline๊ณผ์˜ ๋น„๊ต๋Š” โ€œ์˜ฌ๋ฐ”๋ฅธ ๋งคํ•‘โ€์˜ ์ค‘์š”์„ฑ์„ ๋ถ€๊ฐํ•ฉ๋‹ˆ๋‹ค.
  • ImMimic-V: ์ œ์•ˆ ๊ธฐ๋ฒ• ์ค‘ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋งคํ•‘๋งŒ์„ ์‚ฌ์šฉํ•œ ๋ณ€ํ˜•์ž…๋‹ˆ๋‹ค. ์ฆ‰ DTW ์ •๋ ฌ ์‹œ ๋กœ๋ด‡/์ธ๊ฐ„ ์‹œ๊ฐํ”ผ์ฒ˜ ์œ ์‚ฌ๋„๋กœ ์ •๋ ฌํ•˜๊ณ  MixUp ๋ณด๊ฐ„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ํ–‰๋™ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-A)๊ณผ์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–ด๋–ค ๋งคํ•‘ ๊ธฐ์ค€์ด ๋” ์œ ํšจํ•œ์ง€ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์„ฑ๊ณผ (Results): ์ „๋ฐ˜์ ์œผ๋กœ ImMimic์€ ๋ชจ๋“  ์ž‘์—…๊ณผ ๋กœ๋ด‡์— ๊ฑธ์ณ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€์— ๊ณต๊ฐœ๋œ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, Robot-Only ๋Œ€๋น„ ImMimic ์ ์šฉ์‹œ ์„ฑ๊ณต๋ฅ ์ด ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, Vanilla ๊ณต๋™ํ•™์Šต ๋Œ€๋น„๋กœ๋„ ํฐ ๊ฐœ์„ ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Pick and Place ์ž‘์—…์—์„œ 5๊ฐœ ๋กœ๋ด‡ ๋ฐ๋ชจ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ ์„ฑ๊ณต๋ฅ ์ด ๋งค์šฐ ๋‚ฎ์•˜์œผ๋‚˜(ImMimic ๋ฏธ์‚ฌ์šฉ), ImMimic์„ ํ†ตํ•ด 100๊ฐœ์˜ ์ธ๊ฐ„ ๋น„๋””์˜ค๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์„ฑ๊ณต๋ฅ ์ด ์˜๋ฏธ ์žˆ๊ฒŒ ์ƒ์Šนํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Push, Hammer, Flip ๋“ฑ ๋‹ค๋ฅธ ์ž‘์—…๋“ค์—์„œ๋„ ์ผ๊ด€๋˜๊ฒŒ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋Š”๋ฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์กฐ์ž‘์ผ์ˆ˜๋ก ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์˜ ์ด๋“์ด ์ปธ๋‹ค๊ณ  ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Hammer๋‚˜ Flip์€ ๋‚œ์ด๋„๊ฐ€ ๋†’์•„ ๋กœ๋ด‡ ๋ฐ๋ชจ 5๊ฐœ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฐ˜๋ฉด, ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ ๋‹ค์–‘ํ•œ ์‚ฌ๋ก€๋ฅผ ํ•™์Šตํ•œ ImMimic ์ •์ฑ…์€ ์ด๋Ÿฌํ•œ ์ž‘์—…์—์„œ๋„ ์ƒ๋‹นํ•œ ์„ฑ๊ณต๋ฅ  ๊ฐœ์„ ์„ ์ด๋ค˜์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.

๋น„๊ต ๊ธฐ๋ฒ• ๊ฐ„ ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด๋ฉด:

  • Vanilla Co-Training: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋„๋ฉ”์ธ ์ฐจ์ด๋กœ ์ธํ•ด Robot-Only ๋Œ€๋น„ ๋šœ๋ ทํ•œ ๊ฐœ์„ ์„ ๋ชป ๋‚ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ์ž‘์—…์—์„œ๋Š” ์•ฝ๊ฐ„์˜ ํ–ฅ์ƒ์ด ์žˆ์—ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์ž‘์—…์—์„œ๋Š” ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œ๋Œ€๋กœ ํ™œ์šฉ๋˜์ง€ ๋ชปํ•ด ์„ฑ๊ณต๋ฅ  ์ •์ฒด ํ˜น์€ ๋ถˆ์•ˆ์ •ํ•œ ํ•™์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋„๋ฉ”์ธ ๊ฐญ์„ ํ•ด์†Œํ•˜์ง€ ์•Š๊ณ ๋Š” ์ธ๊ฐ„ ๋น„๋””์˜ค์˜ ์ž ์žฌ๋ ฅ์ด ๋ฐœํœ˜๋˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • Random Mapping: ์ด ๋ฐฉ๋ฒ•์€ ๋Œ€์ฒด๋กœ Vanilla ๊ณต๋™ํ•™์Šต๋ณด๋‹ค๋„ ์„ฑ๋Šฅ์ด ๋‚ฎ๊ฒŒ ๋‚˜์™”์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„-๋กœ๋ด‡ ๋Œ€์‘์ด ์—‰๋šฑํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ ธ ์˜๋ฏธ ์—†๋Š” ๋ณด๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค์ˆ˜ ์ƒ์„ฑ๋˜์—ˆ๊ณ , ์ด๋กœ ์ธํ•ด ์ •์ฑ… ํ•™์Šต์ด ํ˜ผ๋ž€์„ ๊ฒช์—ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ Robot-Only๋ณด๋‹ค๋„ ๋ชปํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ธ ๊ฒฝ์šฐ๋„ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด ๋น„๊ต๋ฅผ ํ†ตํ•ด, ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œ์—ฐ ๊ฐ„ ์˜ฌ๋ฐ”๋ฅธ ์‹œ๊ณ„์—ด ์ •๋ ฌ(DTW)์˜ ์ค‘์š”์„ฑ์ด ์‹ค์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค โ€“ ์ž˜๋ชป ์—ฐ๊ฒฐ๋œ ๋ฐ์ดํ„ฐ๋Š” ์˜คํžˆ๋ ค ๋…์ด ๋จ์„ ํ™•์ธํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • ImMimic-V vs ImMimic-A: ๋‘ ๋งคํ•‘ ์ „๋žต์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, ํ–‰๋™ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-A)์ด ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๋งคํ•‘(ImMimic-V)๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด ImMimic-A๊ฐ€ ImMimic-V๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋กœ๋ด‡ ์†/๊ทธ๋ฆฌํผ์˜ ๊ตฌ์ฒด์ ์ธ ๊ด€์ ˆ ํ–‰๋™ ์ •๋ณด๊ฐ€ ๋„๋ฉ”์ธ ์ •๋ ฌ์— ๋” ํšจ๊ณผ์ ์ด์—ˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์‹œ๊ฐ ํ”ผ์ฒ˜ ๊ธฐ๋ฐ˜ ์ •๋ ฌ๋„ ์–ด๋А ์ •๋„ ํšจ๊ณผ๋Š” ์žˆ์—ˆ์ง€๋งŒ, ์™„์ „ํžˆ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์†/๊ทธ๋ฆฌํผ ์‚ฌ์ด์—์„œ๋Š” ์‹œ๊ฐ์  ์œ ์‚ฌ์„ฑ์ด ๊ณง ํ–‰๋™์˜ ์œ ์‚ฌ์„ฑ์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, retargeting์„ ํ†ตํ•ด ์ธ๊ฐ„ ์†๋™์ž‘์„ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค ์ด๋ฅผ ์ง์ ‘ ๋น„๊ตํ•˜๋ฉด ๋ณด๋‹ค ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๋งค์นญ์„ ์–ป์„ ์ˆ˜ ์žˆ์–ด ๋ณด์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” ์ •๋ฐ€ํ•œ ํ–‰๋™ ๋ ˆ๋ฒจ์˜ ๋Œ€์‘์ด ๋„๋ฉ”์ธ ๊ฐญ ํ•ด์†Œ์— ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. (์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ •๋ ฌ์€ ํ™˜๊ฒฝ ๋ฐฐ๊ฒฝ ๋“ฑ์ด ๋™์ผํ•œ ํ†ต์ œ๋œ ์ƒํ™ฉ์—์„œ๋Š” ๊ทธ๋Ÿญ์ €๋Ÿญ ๋™์ž‘ํ–ˆ์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ํ–‰๋™ ๊ธฐ๋ฐ˜ ์ •๋ ฌ์ด ๋ฐ”๋žŒ์งํ•˜๋‹ค๋Š” ๊ฒฐ๋ก ์ž…๋‹ˆ๋‹ค.)

์„ฑ๊ณต๋ฅ  ์ด์™ธ์˜ ์ง€ํ‘œ: ์ €์ž๋“ค์€ ์ •์„ฑ์ ์ธ ๊ฒฐ๊ณผ๋กœ์„œ ImMimic์œผ๋กœ ํ•™์Šตํ•œ ๋กœ๋ด‡์ด ๋ณด๋‹ค ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘ ํŒจํ„ด์„ ๋ณด์ด๋ฉฐ, ์‹คํ–‰์ด ๋งค๋„๋Ÿฝ๋‹ค(smoother)๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Robot-Only ์ •์ฑ…์˜ ๊ฒฝ์šฐ ๋™์ž‘์ด ๋ถˆ์•ˆ์ •ํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ๋†“์น  ์ˆ˜ ์žˆ์—ˆ๋˜ ๋ฐ˜๋ฉด, ImMimic ์ •์ฑ…์€ ์—ฐ์†์ ์ด๊ณ  ์•ˆ์ •์ ์ธ ์ œ์Šค์ฒ˜๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•„๋งˆ ๋ชจ๋ธ์˜ ํ–‰๋™ ์ถœ๋ ฅ์— ๊ฐ€ํ•ด์ง„ ์ธ๊ฐ„ ์‹œๆผ”์˜ ์˜ํ–ฅ์œผ๋กœ, ์„ธ๋ฐ€ํ•œ ์กฐ์ ˆ์ด๋‚˜ ํž˜ ์กฐ์ ˆ ๋ฉด์—์„œ ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ์ผ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹คํ–‰์˜ ๋งค๋„๋Ÿฌ์›€์€ ๋˜ ๋‹ค๋ฅธ ๊ด€์ ์—์„œ๋Š” ์ •๋Ÿ‰ํ™”๋œ ์ง€ํ‘œ๋กœ๋„ ์ธก์ •ํ–ˆ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜ˆ์ปจ๋Œ€ ๋ชจ์…˜์˜ ๊ฐ€์†๋„ ๋ณ€ํ™”์œจ(jerk)์˜ ๋ถ„์‚ฐ, ์—”๋“œ-์ดํŽ™ํ„ฐ ๊ถค์ ์˜ ํ‰ํƒ„ํ•จ, ์ถฉ๊ฒฉ ์—†์ด ์ž„๋ฌด ์™„์ˆ˜ ๋“ฑ์„ ํ‰๊ฐ€ํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•œ ์ˆ˜์น˜๋Š” ๋…ผ๋ฌธ์— ๋ช…ํ™•ํžˆ ์ œ์‹œ๋˜์ง„ ์•Š์•˜์ง€๋งŒ, ์ „๋ฐ˜์ ์ธ ๊ณผ์ œ ์„ฑ๊ณต ๊ณผ์ •์—์„œ์˜ ํ’ˆ์งˆ ๊ฐœ์„ ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ํฅ๋ฏธ๋กœ์šด ๋ถ„์„์œผ๋กœ, ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ๋‹ค์–‘์„ฑ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์‹œ์—ฐ์˜ ์ˆ˜๋ฅผ 0, 50, 100, 200๊ฐœ๋กœ ๋‹ฌ๋ฆฌํ•ด๊ฐ€๋ฉฐ ImMimic-A์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•œ ๊ฒฐ๊ณผ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ์ƒํ–ฅ ๊ณก์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋ฅผ ์‹ค์ฆํ•œ ๊ฒƒ์œผ๋กœ, ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘ํ•œ ์‹œ์—ฐ์„ ํ™•๋ณดํ•˜๋ฉด ๋กœ๋ด‡ ๋ฐ๋ชจ ๋ช‡ ๊ฐœ๋งŒ์œผ๋กœ๋„ ์ •์ฑ… ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๋กœ๋ด‡ ๋ฐ๋ชจ์˜ ์ˆ˜๋ฅผ 1, 5, 20๊ฐœ๋กœ ๋ณ€ํ™”์‹œํ‚จ ์‹คํ—˜์—์„œ๋„, ๋กœ๋ด‡ ๋ฐ๋ชจ๊ฐ€ ๋Š˜์ˆ˜๋ก ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์žˆ์ง€๋งŒ ImMimic์„ ์ ์šฉํ•œ ๊ฒฝ์šฐ ์ ์€ ๋กœ๋ด‡ ๋ฐ๋ชจ๋กœ๋„ ๋™์ผ ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ImMimic-A๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋กœ๋ด‡ ๋ฐ๋ชจ 5๊ฐœ๋กœ ๋‹ฌ์„ฑํ•œ ์„ฑ๋Šฅ์„ Robot-Only๋Š” 20๊ฐœ๋ฅผ ์จ์•ผ ๊ฒจ์šฐ ๋‹ฌ์„ฑํ•˜๋Š” ์‹์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚œ ๊ฒƒ์œผ๋กœ ์ถ”์ธก๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๊ฐœ์„ ์€ ImMimic์˜ ์ฃผ๋œ ๋ชฉํ‘œ ์ค‘ ํ•˜๋‚˜๋กœ์„œ, ์‹ค์ œ๋กœ ์ ์€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์–ป๋„๋ก ํ•ด์ค€๋‹ค๋Š” ์ ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค:

  • ImMimic์ด ๋„๋ฉ”์ธ ๊ฐญ์„ ํšจ๊ณผ์ ์œผ๋กœ ์™„ํ™”ํ•˜์—ฌ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ๊ณผ ๋™์ž‘ ํ’ˆ์งˆ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.
  • ์ •๋ ฌ(DTW)๊ณผ ๋ณด๊ฐ„(MixUp)์ด๋ผ๋Š” ๋‘ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ๋ชจ๋‘ ์ค‘์š”ํ•˜๋ฉฐ, ํ•˜๋‚˜๋ผ๋„ ๊ฒฐ์—ฌ๋˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๊ฐ์†Œํ•จ์„ ๋ฐํ˜”๋‹ค (Random Mapping์ด๋‚˜ Vanilla์™€ ๋น„๊ต).
  • ํ–‰๋™ ์ˆ˜์ค€์˜ ๋งคํ•‘์ด ์‹œ๊ฐ์  ๋งคํ•‘๋ณด๋‹ค ํ˜„์žฌ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ๋” ํšจ๊ณผ์ ์ด์—ˆ๋‹ค.
  • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ๋งŽ์„์ˆ˜๋ก ์ข‹๊ณ , ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์˜์กด๋„๋Š” ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜์—ฌ, ํ–ฅํ›„ ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ์‹œ์—ฐ ํ™œ์šฉ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์€, ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ํ•™์Šต์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๋ฐ ์žˆ์–ด ImMimic ์ ‘๊ทผ๋ฒ•์˜ ์œ ์šฉ์„ฑ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ณต์žกํ•œ ์กฐ์ž‘์ด๋‚˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ค์šด ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ, ์‚ฌ๋žŒ์ด ๋งจ์†์œผ๋กœ ์‹œ์—ฐํ•œ ์˜์ƒ ๋ช‡ ๋ฐฑ ๊ฐœ์™€ ๋กœ๋ด‡ ๋ฐ๋ชจ ๋ช‡ ๊ฐœ๋งŒ ์žˆ์œผ๋ฉด ์ถฉ๋ถ„ํ•œ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์€ ๋งค์šฐ ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ์‚ฐ์—… ๋˜๋Š” ๊ฐ€์ •์šฉ ๋กœ๋ด‡ ํ•™์Šต์— ํฐ ์ž ์žฌ์  ์˜๋ฏธ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

2.5 Limitations and Discussion

ImMimic์€ ํ˜์‹ ์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ํ•œํŽธ์œผ๋กœ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๋ณด์™„์ ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:

  • ์†Œ๋Ÿ‰์ด๋‚˜๋งˆ ๋กœ๋ด‡ ์‹œ์—ฐ์ด ํ•„์š”ํ•จ: ๋ณธ ๋ฐฉ๋ฒ•์€ ์™„์ „ํ•œ zero-shot ํ•™์Šต์€ ์•„๋‹™๋‹ˆ๋‹ค. ์—ฌ์ „ํžˆ ๋ช‡ ๊ฐœ์˜ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡์„ ์กฐ์ž‘ํ•ด ์ˆ˜์ง‘ํ•ด์•ผ ํ•˜๋Š” ๋ถ€๋‹ด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” 5๊ฐœ์˜ ๋กœ๋ด‡ ๋ฐ๋ชจ๋กœ ์ถฉ๋ถ„ํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•˜์ง€๋งŒ, ์ž‘์—… ๋‚œ์ด๋„๋‚˜ ๋‹ค์–‘์„ฑ์— ๋”ฐ๋ผ ๋” ๋งŽ์€ ๋กœ๋ด‡ ๋ฐ๋ชจ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋กœ๋ด‡ ๋ฐ๋ชจ๊ฐ€ ์•„์˜ˆ 0์ด๋ผ๋ฉด(ImMimic์—์„œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต), retargeting๋œ ์ธ๊ฐ„ ํ–‰๋™๋งŒ์œผ๋กœ ๊ณผ์—ฐ ๋กœ๋ด‡์— ์ œ๋Œ€๋กœ ๋™์ž‘ํ•  ์ •์ฑ…์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์„์ง€ ๋ฏธ์ง€์ˆ˜์ž…๋‹ˆ๋‹ค. (์ผ๋ถ€ ์„ ํ–‰ ์—ฐ๊ตฌ์—์„œ๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์—†์ด ์ธ๊ฐ„ ๋น„๋””์˜ค๋งŒ์œผ๋กœ๋„ ํ•™์Šตํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ์žˆ์œผ๋‚˜, ์•ˆ์ •์  ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜๊ธฐ๋Š” ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค.) ๋”ฐ๋ผ์„œ ImMimic์€ few-shot ํ™˜๊ฒฝ์—์„œ๋Š” ๋›ฐ์–ด๋‚˜์ง€๋งŒ, true one-shot/zero-shot ํ™˜๊ฒฝ์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  • retargeting ํ’ˆ์งˆ๊ณผ ํœด๋จผ demonstration์˜ ํ•œ๊ณ„: ImMimic์˜ ์ „์ œ๋Š” ์ธ๊ฐ„ ์† ๋™์ž‘์„ ์ •ํ™•ํžˆ ๋กœ๋ด‡ ํ–‰๋™์œผ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜์ƒ์—์„œ ์ธ๊ฐ„ ์†์˜ 3D ์ž์„ธ๋ฅผ ์ถ”์ •ํ•˜๊ฑฐ๋‚˜ ์ด๋ฅผ ๋กœ๋ด‡ ๊ด€์ ˆ ์›€์ง์ž„์œผ๋กœ ์˜ฎ๊ธฐ๋Š” ๊ฒƒ์€ ์˜ค์ฐจ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š” ๋ณต์žกํ•œ ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ถ”์  ์˜ค๋ฅ˜๋‚˜ ๋งคํ•‘ ์˜ค๋ฅ˜๊ฐ€ ์žˆ๋‹ค๋ฉด, ์ž˜๋ชป๋œ ํ–‰๋™ ๋ผ๋ฒจ์ด ์ธ๊ฐ„ ์‹œ์—ฐ์— ๋‹ฌ๋ฆฌ๊ฒŒ ๋˜๊ณ  ์ด๋Š” ํ•™์Šต์— ๋…ธ์ด์ฆˆ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์„ฏ ์†๊ฐ€๋ฝ์„ ๊ฐ€์ง„ ์ธ๊ฐ„ ์† โ†’ ๋‘ ์†๊ฐ€๋ฝ ๊ทธ๋ฆฌํผ๋กœ ๋งคํ•‘ํ•  ๋•Œ ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ์„ฌ์„ธํ•œ ์†๋†€๋ฆผ์„ ํˆฌํ•‘๊ฑฐ ๊ทธ๋ฆฌํผ์˜ ์—ด๊ณ  ๋‹ซ๋Š” ๊ฐ’ ํ•˜๋‚˜๋กœ ์ถ•์†Œํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๋•Œ ์–ด๋–ค ์„ธ๋ถ€ ๋™์ž‘์€ ํ‘œํ˜„๋˜์ง€ ๋ชปํ•˜๊ณ  ๋ฒ„๋ ค์ง‘๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ImMimic์ด ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์–ป์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡ ์†์˜ ๊ฒฝ์šฐ๋„ ์ธ๊ฐ„ ์†๊ณผ ํ˜•ํƒœ ์ฐจ์ด๊ฐ€ ์žˆ์–ด, ๊ด€์ ˆ ๊ฐ๋„ ๋งคํ•‘์— ๋ณด์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ ์ด ๋ถ€๋ถ„์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ–ˆ๋Š”์ง€ ๊ตฌ์ฒด์  ์–ธ๊ธ‰์€ ์—†์ง€๋งŒ, ์†๊ฐ€๋ฝ ๊ธธ์ด/๋น„์œจ ์ฐจ์ด ๋“ฑ์„ ๊ณ ๋ คํ•œ ๋ณด์ •์ด ํ•„์š”ํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. retargeting ๋ชจ๋“ˆ์˜ ์‹ ๋ขฐ์„ฑ์ด ์ „์ฒด ์„ฑ๋Šฅ์— ์ง์ ‘ ์˜ํ–ฅ์„ ์ฃผ๋ฏ€๋กœ, ์ด ๋ถ€๋ถ„์€ ํ–ฅํ›„ ๋” ๊ฐœ์„ ๋œ ํœด๋จผ-๋กœ๋ด‡ ๋งคํ•‘ ์•Œ๊ณ ๋ฆฌ์ฆ˜(์˜ˆ: ์ตœ์  ์ œ์–ด ๋ฐฉ์‹์œผ๋กœ ์ธ๊ฐ„ ๋™์ž‘์„ ๋กœ๋ด‡ ๋ชจ์…˜์œผ๋กœ ๊ณ„์‚ฐ)์ด๋‚˜ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋งคํ•‘์œผ๋กœ ๋Œ€์ฒด๋  ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ์  ๋„๋ฉ”์ธ ์ฐจ์ด: ๋ณธ ์‹คํ—˜์€ ์ธ๊ฐ„ ๋น„๋””์˜ค์™€ ๋กœ๋ด‡ ์‹œ์—ฐ์ด ๋™์ผํ•œ ํ™˜๊ฒฝ(๋ฐฐ๊ฒฝ, ๋ฌผ์ฒด ๋“ฑ)์—์„œ ์ดฌ์˜๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์‹œ๊ฐ์  ๋„๋ฉ”์ธ ๊ฐญ์ด ๋น„๊ต์  ์ž‘์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ผ๋ฐ˜์ ์œผ๋กœ ์ธํ„ฐ๋„ท์—์„œ ์ˆ˜์ง‘ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ์ด๋‚˜ ๋‹ค๋ฅธ ์žฅ์†Œ์—์„œ ์ฐ์€ ์˜์ƒ์€ ๋ฐฐ๊ฒฝ, ์กฐ๋ช…, ๋ฌผ์ฒด ํ˜•ํƒœ ๋“ฑ์ด ๋กœ๋ด‡ ํ™˜๊ฒฝ๊ณผ ํฌ๊ฒŒ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ImMimic์€ ์ด๋Ÿฌํ•œ ์‹œ๊ฐ์  ์ฐจ์ด ์ž์ฒด๋ฅผ ์ ๊ทน์ ์œผ๋กœ ๋‹ค๋ฃจ์ง€๋Š” ์•Š์•˜์Šต๋‹ˆ๋‹ค (์˜ˆ: ์ด๋ฏธ์ง€ ์Šคํƒ€์ผ ์ „ํ™˜์ด๋‚˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋“ฑ์˜ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ). ๋Œ€์‹  latent MixUp์œผ๋กœ ์–ด๋А ์ •๋„ ์ค‘๊ฐ„ ํ‘œํ˜„์„ ์–ป์—ˆ์ง€๋งŒ, ์‹œ๊ฐ ์ฐจ์ด๊ฐ€ ๊ทน์‹ฌํ•˜๋ฉด ์ธ์ฝ”๋”๊ฐ€ ์ถฉ๋ถ„ํžˆ ๊ณตํ†ต ํŠน์ง•์„ ๋ฝ‘์•„๋‚ด๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ™˜๊ฒฝ์ด ๋‹ค๋ฅธ ์ธ๊ฐ„ ์˜์ƒ์—๋„ ๋ณธ ๊ธฐ๋ฒ•์ด ํšจ๊ณผ์ ์ธ์ง€๋Š” ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์‹œ๊ฐ ๋„๋ฉ”์ธ ์ ์‘(visual domain adaptation)์„ ์œ„ํ•œ ๋ชจ๋“ˆ์„ ๊ฒฐํ•ฉํ•˜๊ฑฐ๋‚˜, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๋กœ๋ด‡ ์‹œ์ ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ๋ฒ•๊ณผ์˜ ์ ‘๋ชฉ๋„ ๊ณ ๋ คํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ •๋ ฌ ๊ฐ€์ •์˜ ํ•œ๊ณ„: Dynamic Time Warping์„ ํ†ตํ•ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ์‹œํ€€์Šค๋ฅผ ์ •๋ ฌํ•˜๋ ค๋ฉด, ์–‘์ชฝ ์‹œํ€€์Šค๊ฐ€ ์œ ์‚ฌํ•œ ๋‹จ๊ณ„๋“ค์˜ ์—ฐ์†์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Œ์„ ์ „์ œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์ด ๊ฐ™์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ์‹œ์ž‘๊ณผ ๋ ์ƒํƒœ๋„ ๋น„์Šทํ•ด์•ผ ํšจ๊ณผ์ ์œผ๋กœ ์ •๋ ฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ ์ธ๊ฐ„/๋กœ๋ด‡ ๋ฐ๋ชจ๊ฐ€ ํŽ˜์–ด๋กœ ์ˆ˜์ง‘๋œ ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ, โ€œ์œ ์‚ฌํ•œ ์ƒํƒœ์—์„œ๋Š” ์œ ์‚ฌํ•œ ๋™์ž‘์„ ํ•  ๊ฒƒโ€์ด๋ผ๋Š” ๊ฐ€์ •์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋•Œ๋ฌธ์— ํ•œ ์ž‘์—… ๋‚ด์—์„œ๋Š” ์ธ๊ฐ„์ด๋“  ๋กœ๋ด‡์ด๋“  ๋น„์Šทํ•œ ํ•ด๊ฒฐ ์ „๋žต์„ ๋”ฐ๋ฅผ ๊ฒƒ์„ ์•”๋ฌต์ ์œผ๋กœ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ธ๊ฐ„ ์‹œ์—ฐ ์ค‘ ์–ด๋–ค ๊ฒƒ์€ ๋กœ๋ด‡ ๋ฐ๋ชจ์™€๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ์ˆœ์„œ๋‚˜ ๋ฐฉ์‹์œผ๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค๋ฉด, DTW๊ฐ€ ์—‰๋šฑํ•œ ๋งค์นญ์„ ๋งŒ๋“ค๊ฑฐ๋‚˜ ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋Š” ํ™œ์šฉํ•˜๊ธฐ ์–ด๋ ค์› ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ImMimic์€ ํ˜„์žฌ ๋‹จ์ผ ์ž‘์—… ๋‚ด์—์„œ ๋น„๊ต์  ๋™์งˆ์ ์ธ ์‹œ์—ฐ๋“ค์„ ์ „์ œ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์ „๋žต์ด ์กด์žฌํ•˜๋Š” ์ž‘์—…์ด๋‚˜ ์—ฌ๋Ÿฌ ์ž‘์—…์ด ์„ž์ธ ์‹œ์—ฐ์—๋Š” ์ ์šฉํ•˜๊ธฐ ํž˜๋“  ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ DTW ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์Œ(pair) ๋‹จ์œ„ ์ •๋ ฌ์ด๋ฏ€๋กœ, ๋‹ค์ˆ˜์˜ ์ธ๊ฐ„ ์‹œ์—ฐ๊ณผ ๋‹ค์ˆ˜์˜ ๋กœ๋ด‡ ์‹œ์—ฐ์„ ์‚ฌ์šฉํ•  ๋•Œ ์–ด๋А ๊ฒƒ์„ ์–ด๋А ๊ฒƒ๊ณผ ์ •๋ ฌํ• ์ง€ ์ง์ง“๊ธฐ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์•„๋งˆ๋„ ๊ฐ ๋กœ๋ด‡ ๋ฐ๋ชจ๋งˆ๋‹ค ๋ช‡ ๊ฐœ์˜ ์ธ๊ฐ„ ๋ฐ๋ชจ๋ฅผ ์„ ํƒํ•˜์—ฌ ์ •๋ ฌํ•œ ๋“ฏํ•˜๋ฉฐ, 5๊ฐœ์˜ ๋กœ๋ด‡ ๋ฐ๋ชจ์— ๋Œ€ํ•ด 100๊ฐœ์˜ ์ธ๊ฐ„ ๋ฐ๋ชจ๋ฅผ ๋ถ„๋ฐฐํ•ด ์‚ฌ์šฉํ•˜๋Š” ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ๋ชจ ๋งค์นญ์€ ํ˜„์žฌ๋Š” ์ˆ˜์ž‘์—… ํ˜น์€ heuristic์— ์˜์กดํ•˜์ง€๋งŒ, ๊ทœ๋ชจ๊ฐ€ ๋” ์ปค์ง€๋ฉด ์ž๋™์œผ๋กœ ์œ ์‚ฌํ•œ ์‹œ์—ฐ์„ ๊ตฐ์ง‘ํ™”/๋งค์นญํ•˜๋Š” ๊ธฐ๋ฒ•์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™” ๋ฒ”์œ„: ImMimic์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ํ›ˆ๋ จ๋œ ์ž‘์—…๋“ค ๋‚ด์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ํ›ˆ๋ จ๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋ฐ”๋กœ ์ ์šฉํ•  ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค. ์ฆ‰ ์ž‘์—… ๊ฐ„ ์ผ๋ฐ˜ํ™”๋Š” ๊ณ ๋ ค ๋Œ€์ƒ์ด ์•„๋‹ˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋ฏธ๋ž˜์— ์—ฌ๋Ÿฌ ์ž‘์—…์˜ ์ธ๊ฐ„ ๋น„๋””์˜ค์™€ ๋กœ๋ด‡ ๋ฐ๋ชจ๋ฅผ ๋ชจ๋‘ ๋ชจ์•„ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•œ๋‹ค๋ฉด, ์ด๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ๋ฌธ์ œ๊ฐ€ ๋˜์–ด ์ƒˆ๋กœ์šด ๋„์ „์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ImMimic ์ •์ฑ…์€ ์˜คํ”„๋ผ์ธ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ์ด๋ฏ€๋กœ, ๋งŒ์•ฝ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์ด ์ฃผ์–ด์ง€๊ฑฐ๋‚˜ ์ž‘์—… ๋„์ค‘ ์˜ˆ๊ธฐ์น˜ ์•Š์€ ๋ณ€ํ™”(๋ฌผ์ฒด ๋ฏธ๋„๋Ÿฌ์ง ๋“ฑ)๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉด ๋Œ€์ฒ˜๊ฐ€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ฐฉํ•™์Šต ์ „๋ฐ˜์˜ ํ•œ๊ณ„๋กœ, ํ•„์š”ํ•˜๋ฉด ์ถ”๊ฐ€์  ๊ฐ•ํ™”ํ•™์Šต ํŒŒ์ธํŠœ๋‹์ด๋‚˜ ํœด๋จผ ํ”ผ๋“œ๋ฐฑ ๋“ฑ์„ ๊ฒฐํ•ฉํ•ด ๊ทน๋ณตํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์‹ค์‹œ๊ฐ„์„ฑ ๋ฐ ๊ณ„์‚ฐ ๋น„์šฉ: ImMimic์€ ํ•™์Šต ์‹œ ๋ชจ๋“  ์ธ๊ฐ„-๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์Œ์— ๋Œ€ํ•œ DTW ๊ณ„์‚ฐ๊ณผ ๋Œ€๋Ÿ‰์˜ MixUp ์ƒ˜ํ”Œ ์ƒ์„ฑ์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ „์ฒ˜๋ฆฌ ๋น„์šฉ์ด ๋‹ค์†Œ ํฝ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ์˜คํ”„๋ผ์ธ ๋‹จ๊ณ„์ด๋ฏ€๋กœ ํฐ ๋ฌธ์ œ๋Š” ์•„๋‹ˆ์ง€๋งŒ, ํ–ฅํ›„ ๋ฐ์ดํ„ฐ ์–‘์ด ๋งค์šฐ ๋Š˜์–ด๋‚˜๋ฉด DTW์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ๋ณ‘๋ชฉ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ •์ฑ… ์ž์ฒด๊ฐ€ Diffusion ๋ชจ๋ธ์„ ํ™œ์šฉํ–ˆ๋‹ค๋ฉด, ์ถ”๋ก ์— ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. Diffusion ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๋ณดํ†ต ๋‹ค์ˆ˜์˜ ์ƒ˜ํ”Œ๋ง ์Šคํ…์„ ๊ฑฐ์ณ ํ–‰๋™์„ ์ƒ์„ฑํ•˜๋ฏ€๋กœ, ์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡ ์ œ์–ด์— ์‚ฌ์šฉํ•˜๋ ค๋ฉด ์†๋„ ์ตœ์ ํ™”๋‚˜ ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™”๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (๋ฌผ๋ก  ์งง์€ horizon์˜ ํ–‰๋™๋งŒ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๋„คํŠธ์›Œํฌ ์ตœ์ ํ™”๋กœ ์ผ์ • ์ˆ˜์ค€ ์†๋„๋ฅผ ํ™•๋ณดํ•  ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, ์ผ๋ฐ˜์ ์ธ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค๋Š” ๋ฌด๊ฑฐ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.) ๋”ฐ๋ผ์„œ ์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡์ œ์–ด ์ ์šฉ ์ธก๋ฉด์—์„œ์˜ ๊ฒ€ํ† ๋„ ์ถ”ํ›„ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ImMimic์€ ํ˜„์žฌ ๋‹จ์ผ ์ž‘์—…, ์ œํ•œ๋œ ํ™˜๊ฒฝ์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, retargeting ์ •ํ™•๋„, ๋‹ค์–‘ํ•œ ์ „๋žต ์กด์žฌ ์‹œ ์ •๋ ฌ, ์‹œ๊ฐ ๋„๋ฉ”์ธ ํฐ ์ฐจ์ด, ์ƒˆ ์ž‘์—… ์ผ๋ฐ˜ํ™”, ์‹ค์‹œ๊ฐ„์„ฑ ๋“ฑ์˜ ๋ฉด์—์„œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋“ค์€ ์ด ๋ฐฉ๋ฒ•์˜ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ๊ฒฐ์ •์ง“๋Š” ์š”์†Œ์ด๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋„์ „๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

2.6 Conclusion and Future Work

์ด ๋…ผ๋ฌธ์€ โ€œ์ธ๊ฐ„ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ๋ฐฐ์šฐ๋Š” ๋กœ๋ด‡โ€์ด๋ผ๋Š” ์˜ค๋žœ ๊ณผ์ œ์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ๊ฐ„๊ทน์„ ๋ฐ์ดํ„ฐ ์ฐจ์›์—์„œ ๋ฉ”๊พธ๋Š” ๊ฒƒ์œผ๋กœ, Dynamic Time Warping ๊ธฐ๋ฐ˜ ์ •๋ ฌ๊ณผ MixUp ๋ณด๊ฐ„์ด๋ผ๋Š” ๋น„๊ต์  ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ ๋„๊ตฌ๋ฅผ ์กฐํ•ฉํ•ด ๋ถ€๋“œ๋Ÿฌ์šด ๋„๋ฉ”์ธ ์ „์ด๋ฅผ ๊ตฌํ˜„ํ•œ ์ ์ด ๋‹๋ณด์ž…๋‹ˆ๋‹ค. ImMimic ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด, ์†Œ์ˆ˜์˜ ๋กœ๋ด‡ ๋ฐ๋ชจ๋งŒ์œผ๋กœ๋„ ๋Œ€๋Ÿ‰์˜ ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ ๋ฐฐ์šด ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ๋กœ๋ด‡ ์ •์ฑ…์— ์ด์‹ํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ์ด๋ฅผ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์œผ๋กœ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ Embodiment(๊ทธ๋ฆฌํผ๋ถ€ํ„ฐ ๋‹ค์ง€ ์†๊นŒ์ง€)์— ์ ์šฉํ•˜์—ฌ ๋ชจ๋‘ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ์–ป์Œ์œผ๋กœ์จ, ์ด ๋ฐฉ๋ฒ•์˜ ์ผ๋ฐ˜์„ฑ๊ณผ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์˜ ์ด๋ก ์ /๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ์ธ๊ฐ„-๋กœ๋ด‡ ์‹œ์—ฐ ์‚ฌ์ด์˜ ๊ณตํ†ต ํ‘œํ˜„(action label)์„ ์ฐพ๊ณ ์ž ํ•œ ์ ๊ณผ, ๋‘ ๋„๋ฉ”์ธ์„ ์ž‡๋Š” ์—ฐ์†์  ๋ฐ์ดํ„ฐ ์ŠคํŽ™ํŠธ๋Ÿผ์„ ํ˜•์„ฑํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์— ์ฃผ๋กœ ์‹œ๋„๋˜๋˜ ํ‘œํ˜„ ํ•™์Šต + ๋„๋ฉ”์ธ ์ ์‘ ๋ชจ๋ธ(์˜ˆ: ๋„๋ฉ”์ธ ๋ถ„๋ฅ˜์ž๋‚˜ adversarial training)๊ณผ๋Š” ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ, ๋ฐ์ดํ„ฐ ๋ณด๊ฐ•์„ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ํ‘ผ ์ ‘๊ทผ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ด€์ ์˜ ์ „ํ™˜์€ ํ–ฅํ›„ ๋‹ค๋ฅธ ๋ชจ๋ฐฉํ•™์Šต ๋ฌธ์ œ, ์˜ˆ์ปจ๋Œ€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜โ†’์‹ค์„ธ๊ณ„ ๋„๋ฉ”์ธ ์ „์ด๋‚˜ ๋กœ๋ด‡ ๊ฐ„ ๊ต์ฐจํ•™์Šต ๋“ฑ์—๋„ ์‘์šฉ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•ด ๋ณด์ž…๋‹ˆ๋‹ค:

  • ์™„์ „ํ•œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ•™์Šต์œผ๋กœ์˜ ํ™•์žฅ: ๊ถ๊ทน์ ์œผ๋กœ๋Š” ๋กœ๋ด‡ ์‹œ์—ฐ์ด ์ „ํ˜€ ์—†์–ด๋„ ์ธ๊ฐ„ ์˜์ƒ๋งŒ์œผ๋กœ ๋กœ๋ด‡์ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ImMimic์€ ์†Œ๋Ÿ‰์ด๋‚˜๋งˆ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ–ˆ๋Š”๋ฐ, ์ด๋ฅผ ์—†์• ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ™œ์šฉ์ด๋‚˜ ์ž๊ฐ€๊ธฐ๋ฐ˜ ํ•™์Šต ๋“ฑ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์ดˆ๊ธฐ์—๋Š” ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ ํ•™์Šตํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ฒ€์ฆ/๋ณด์ •ํ•˜๊ฑฐ๋‚˜, ํ˜„์‹ค์—์„œ ์•ˆ์ „ํ•œ ํ•œ๋„ ๋‚ด์—์„œ ๋กœ๋ด‡์ด ์ž์ฒด ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ๋™์ž‘์„ ๋ณด์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉํ–ฅ์€ ์ถ”๊ฐ€์ ์ธ ๊ฐ•ํ™”ํ•™์Šต์ด๋‚˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ•๊ณผ์˜ ์œตํ•ฉ์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ž๋™ํ™”๋œ ์‹œํ€€์Šค ๋งคํ•‘ ๊ธฐ๋ฒ•: ํ˜„์žฌ DTW๋ฅผ ์‚ฌ์šฉํ•œ ์ •๋ ฌ์€ ๋‘ ์‹œํ€€์Šค ๊ฐ„ ๊ตญ์†Œ์  ํ”ผ์ฒ˜ ๊ฑฐ๋ฆฌ ํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ๋ฐฐ์šฐ-๋น„์ฃผ์–ผ ํŠธ๋žœ์Šคํฌ๋จธ๋‚˜ ์‹œํ€€์Šค-to-์‹œํ€€์Šค ๋งคํ•‘ ์‹ ๊ฒฝ๋ง์„ ํ›ˆ๋ จ์‹œ์ผœ, ์ธ๊ฐ„ ์‹œ์—ฐ์„ ์ž…๋ ฅํ•˜๋ฉด ํ•ด๋‹น ๋กœ๋ด‡ ์‹œ์—ฐ(๋˜๋Š” ๊ทธ ๊ฒฝ๋กœ)์„ ์ง์ ‘ ์˜ˆ์ธกํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ง€๋„ ํ•™์Šต์œผ๋กœ ์ธ๊ฐ„โ†’๋กœ๋ด‡ ์‹œํ€€์Šค ๋งคํ•‘์„ ํ•™์Šต์‹œ์ผœ DTW๋ฅผ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋‹ค์ˆ˜์˜ ์‹œ์—ฐ์„ ๋™์‹œ์— ์ •๋ ฌํ•˜๊ฑฐ๋‚˜, ๋ถ€๋ถ„์ ์œผ๋กœ ๊ฒน์น˜๋Š” ์‹œ์—ฐ๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ผ์ •๋Ÿ‰์˜ ๋งค์นญ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ดˆ๊ธฐ์—๋Š” ImMimic์ฒ˜๋Ÿผ DTW๋กœ ์ƒ์„ฑํ•œ ์Œ์„ ํ•™์Šต์‹œํ‚ค๊ณ  ์ ์ฐจ ์ •๊ตํ™”ํ•˜๋Š” ์‹์˜ ์ ‘๊ทผ์ด ์ƒ๊ฐ๋ฉ๋‹ˆ๋‹ค.

  • ๋‹ค์ค‘์ž‘์—… ๋ฐ ์ผ๋ฐ˜ํ™”: ๋ณธ ์—ฐ๊ตฌ๋ฅผ ์—ฌ๋Ÿฌ ์ž‘์—… ๋ฐ ํ™˜๊ฒฝ์œผ๋กœ ํ™•๋Œ€ํ•˜๋ฉด, ์ง„์ •ํ•œ ๋ฒ”์šฉ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ€์ • ๋‚ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ž‘์—…(์š”๋ฆฌ, ์ฒญ์†Œ, ์ •๋ฆฌ ๋“ฑ)์— ๋Œ€ํ•œ ์ธ๊ฐ„ ์˜์ƒ๊ณผ ๋ช‡ ๊ฐ€์ง€ ๋กœ๋ด‡ ๋ฐ๋ชจ๋ฅผ ๋ชจ์•„ ํ†ตํ•ฉ ํ•™์Šตํ•œ๋‹ค๋ฉด, ๋กœ๋ด‡์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ž‘์—… ๊ตฌ๋ถ„ ์—†์ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ์ด๋‚˜, ๋งฅ๋ฝ์— ๋”ฐ๋ฅธ ํ–‰๋™ ์ƒ์„ฑ์„ ์œ„ํ•œ ์ถ”๊ฐ€ ์ž…๋ ฅ(์˜ˆ: ์ž‘์—… ๋ช…๋ น์ด๋‚˜ ๋ชฉํ‘œ ์ •๋ณด) ๋“ฑ์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ™˜๊ฒฝ์—์„œ๋Š” ์ž‘์—… ๊ฐ„ ๊ฐ„์„ญ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐœ์„ (์˜ˆ: ๋ชจ๋“ˆ์‹ ์ •์ฑ…)๋„ ์—ฐ๊ตฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ์  ๋„๋ฉ”์ธ ์ ์‘ ํ†ตํ•ฉ: ImMimic์ด latent MixUp์œผ๋กœ ๊ฐ„์ ‘์ ์œผ๋กœ ์‹œ๊ฐ ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ์™„ํ™”ํ–ˆ์ง€๋งŒ, ๋ณด๋‹ค ์ง์ ‘์ ์œผ๋กœ ์˜์ƒ ๊ฐ„ ๋ณ€ํ™˜์„ ํ•˜๋Š” ๋ฐฉ์•ˆ๋„ ๊ณ ์•ˆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์˜์ƒ-to-์˜์ƒ ๋ณ€ํ™˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด ์ธ๊ฐ„ ์˜์ƒ ์† ์žฅ๋ฉด์„ ๋กœ๋ด‡ ์‹œ์ ์˜ ์žฅ๋ฉด์œผ๋กœ ์Šคํƒ€์ผ ๋ณ€ํ™˜ํ•˜๊ฑฐ๋‚˜, ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ์„ ์ž…๋ ฅํ•˜๋ฉด ๋กœ๋ด‡์ด ๋“ฑ์žฅํ•˜๋Š” ๋ชจ์‚ฌ ์˜์ƒ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ๋„ ํ•œ ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” ์˜์ƒ ์กฐ๊ฑด ์ƒ์„ฑ์ด๋‚˜ NeRF ๊ธฐ๋ฐ˜ ์‹œ๊ฐ๋ณ€ํ™˜ ๊ธฐ์ˆ ๋„ ๋ฐœ์ „ํ–ˆ์œผ๋ฏ€๋กœ, ์ด๋Ÿฌํ•œ ๊ฒƒ์„ ImMimic๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ์‹œ๊ฐ+ํ–‰๋™ ์–‘์ธก์˜ ๋„๋ฉ”์ธ ๊ฐญ์„ ๋ชจ๋‘ ์ค„์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • retargeting ๋ฐ ์„ผ์„œ ์œตํ•ฉ ๊ณ ๋„ํ™”: ์†๋™์ž‘ retargeting์„ ๋” ์ •ํ™•ํžˆ ํ•˜๊ธฐ ์œ„ํ•ด, ์›จ์–ด๋Ÿฌ๋ธ” ์„ผ์„œ๋‚˜ ๋ชจ์…˜ ์บก์ฒ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์˜์ƒ๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋„ ๊ณ ๋ ค๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ฐ„์ด ์žฅ๊ฐ‘ํ˜• ์„ผ์„œ๋ฅผ ๋ผ๊ณ  ์‹œ์—ฐํ•˜์—ฌ ์†๊ฐ€๋ฝ ๊ด€์ ˆ๊ฐ์„ ์ง์ ‘ ์ธก์ •ํ•˜๋ฉด, ์˜์ƒ ์ถ”์ •๋ณด๋‹ค ํ›จ์”ฌ ์ •ํ™•ํ•œ retargeting์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์€ ์˜ฌ๋ผ๊ฐ€์ง€๋งŒ, ๋งŒ์•ฝ ์–‘์งˆ์˜ ๋งคํ•‘์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ํฐ ํšจ๊ณผ๋ฅผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํž˜/์ด‰๊ฐ ์ •๋ณด ๋“ฑ๋„ ๋กœ๋ด‡ ๋ฐ๋ชจ์—์„œ๋Š” ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ๋Š” ํž˜ ๋™์ž‘์„ ์ถ”์ •ํ•˜์—ฌ ๋กœ๋ด‡์˜ ํž˜ ์ œ์–ด ๋ผ๋ฒจ๋กœ ํ™œ์šฉํ•˜๋Š” ๋“ฑ ๋‹ค์ค‘๋ชจ๋‹ฌ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์‹ค์ œ ์‘์šฉ ๋ฐ ๊ฒ€์ฆ: ๋์œผ๋กœ, ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ˜„์‹ค์˜ ์ƒˆ๋กœ์šด ์ž‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์šฉํ•ด๋ณด๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‚ฐ์—…ํ˜„์žฅ์—์„œ ์ธ๊ฐ„ ์ž‘์—…์ž๋“ค์˜ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ์กฐ๋ฆฝ ์ž‘์—…์„ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ์žฌํ™œ ์น˜๋ฃŒ ๋กœ๋ด‡์ด ์น˜๋ฃŒ์‚ฌ์˜ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ๋™์ž‘์„ ๋ฐฐ์šฐ๋Š” ์‹์˜ ์‘์šฉ์„ ์ƒ์ •ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋„๋ฉ”์ธ์—์„œ๋Š” ํ™˜๊ฒฝ ๋ณ€ํ™”๋‚˜ ์•ˆ์ „ ์ œ์•ฝ ๋“ฑ์ด ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ImMimic์— ์•ˆ์ „์žฅ์น˜(safety layer)๋‚˜ ์ ์‘ ์ œ์–ด๋ฅผ ๋ถ€๊ฐ€ํ•˜๋Š” ์—ฐ๊ตฌ๋„ ๋’ค๋”ฐ๋ผ์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ImMimic: Cross-Domain Imitation from Human Videos via Mapping and Interpolation์€ ์ธ๊ฐ„ ๋น„๋””์˜ค๋ฅผ ๋กœ๋ด‡ ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ๋ถ„์•ผ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ ์ž‘ํ’ˆ์ž…๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ์•„์ด๋””์–ด ์กฐํ•ฉ์œผ๋กœ๋„ ํฐ ํšจ๊ณผ๋ฅผ ๊ฑฐ๋‘˜ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ํ–ฅํ›„ ์ด๋ฅผ ํ† ๋Œ€๋กœ ๋‹ค์–‘ํ•œ ๋ฐœ์ „ํ˜• ์—ฐ๊ตฌ๊ฐ€ ์ด๋ฃจ์–ด์งˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ๊ฒฉ์ฐจ๋ฅผ ์ขํ˜€ โ€œ๋กœ๋ด‡์ด ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋ฐฐ์šด๋‹คโ€๋Š” ๋ชฉํ‘œ์— ํ•œ ๊ฑธ์Œ ๋‹ค๊ฐ€์„œ๊ฒŒ ํ•œ ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ์—ฌ๋Š”, ๋กœ๋ด‡ ํ•™์Šต ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์ด์ •ํ‘œ๋กœ ํ‰๊ฐ€๋  ๋งŒํ•ฉ๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee