Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • Introduction
    • 1. ๋ฐฉ๋ฒ•๋ก ์˜ ๋…์ฐฝ์„ฑ: DexMachina๋งŒ์˜ ๋ฆฌํƒ€๊ฒŒํŒ… ์ ‘๊ทผ๋ฒ•
    • 2. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„: ์„ฑ๋Šฅ, ์ ์‘์„ฑ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ
    • 3. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต: DexMachina์˜ ๊ธฐ์—ฌ๋„์™€ ์ฐจ๋ณ„ํ™”
    • Conclusion

๐Ÿ“ƒDexMachina ๋ฆฌ๋ทฐ

retargeting
hand
Functional Retargeting for Bimanual Dexterous Manipulation
Published

July 30, 2025

  • Paper Link
  • Project Link
  • Github Link
  1. ๐Ÿค– ์ด ์—ฐ๊ตฌ๋Š” ์ธ๊ฐ„์˜ ์†-๊ฐ์ฒด ์‹œ์—ฐ์„ ๋กœ๋ด‡์˜ ์–‘์†์œผ๋กœ ๊ด€์ ˆํ˜• ๊ฐ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ๊ธฐ๋Šฅ์  ๋ฆฌํƒ€๊ฒŸํŒ…(functional retargeting) ์ •์ฑ…์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  2. ๐Ÿ’ก ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ€์ƒ ๊ฐ์ฒด ์ปจํŠธ๋กค๋Ÿฌ(virtual object controllers)์˜ ๊ฐ•๋„๋ฅผ ์ ์ง„์ ์œผ๋กœ ์•ฝํ™”์‹œํ‚ค๋Š” ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜ RL(๊ฐ•ํ™” ํ•™์Šต) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DexMachina๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ์ •์ฑ…์ด ์ดˆ๊ธฐ์—๋Š” ๊ฐ์ฒด๋ฅผ ์ž๋™์œผ๋กœ ๋ชฉํ‘œ ์ƒํƒœ๋กœ ์ด๋™์‹œํ‚ค๋ฉด์„œ ์ ์ฐจ ์กฐ์ž‘์„ ์ธ์ˆ˜ํ•˜๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  3. โœ… ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ธฐ์กด์˜ ๊ธฐ์ค€ ๋ฐฉ๋ฒ•๋ก ์„ ํ›จ์”ฌ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฑ์Šคํ„ฐ๋Ÿฌ์Šค ํ•ธ๋“œ(dexterous hands)์™€ ์ž‘์—…์„ ํฌํ•จํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ณต๊ฐœํ•˜์—ฌ ํ•˜๋“œ์›จ์–ด ์„ค๊ณ„์˜ ๊ธฐ๋Šฅ์  ๋น„๊ต๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

Brief Review

์ด ๋…ผ๋ฌธ์€ ์ธ์ฒด-๊ฐ์ฒด ๋ฐ๋ชจ๋กœ๋ถ€ํ„ฐ ๊ฐ์ฒด ์ƒํƒœ๋ฅผ ์ถ”์ ํ•˜๊ธฐ ์œ„ํ•œ ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” functional retargeting ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ํŠนํžˆ, ๋†’์€ ์ฐจ์›์˜ ์•ก์…˜ ๊ณต๊ฐ„, ์‹œ๊ณต๊ฐ„์  ๋ถˆ์—ฐ์†์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์ธ๊ฐ„ ์†๊ณผ ๋กœ๋ด‡ ์† ์‚ฌ์ด์˜ embodiment gap์œผ๋กœ ์ธํ•ด ์–ด๋ ค์šด ์žฅ๊ธฐ์ ์ด๊ณ  ์–‘์†์„ ์‚ฌ์šฉํ•˜๋Š”(bimanual) articulated object ์ž‘์—…์— ์ค‘์ ์„ ๋‘”๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ๊ฐ€์ƒ ๊ฐ์ฒด ์ปจํŠธ๋กค๋Ÿฌ(virtual object controllers, VOCs)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DexMachina๋ฅผ ์ œ์•ˆํ•œ๋‹ค. DexMachina์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ€์ƒ ๊ฐ์ฒด ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ๋ชฉํ‘œ ์ƒํƒœ๋กœ ์ž๋™์œผ๋กœ ์›€์ง์ด๊ฒŒ ํ•จ์œผ๋กœ์จ, ์ •์ฑ…์ด ๋™์ž‘ ๋ฐ ์ ‘์ด‰ ์ง€์นจ ํ•˜์—์„œ ์ ์ง„์ ์œผ๋กœ ์ œ์–ด๊ถŒ์„ ์ธ๊ณ„๋ฐ›๋„๋ก ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ดˆ๊ธฐ์—๋Š” VOCs๊ฐ€ ๊ฐ์ฒด ์›€์ง์ž„์˜ ๋Œ€๋ถ€๋ถ„์„ ๋‹ด๋‹นํ•˜๋ฉฐ, ์ •์ฑ…์€ ์ž‘์—…์„ ๋ง์น˜์ง€ ์•Š์œผ๋ฉด์„œ ์ธ๊ฐ„์˜ ๋™์ž‘์„ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ์„ ํ•™์Šตํ•œ๋‹ค. ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ VOCs์˜ ๊ฐ•๋„๊ฐ€ ์•ฝํ•ด์ง€๋ฉด์„œ, ์ •์ฑ…์€ ์ ์ฐจ์ ์œผ๋กœ ๊ฐ์ฒด ์กฐ์ž‘์„ ์Šค์Šค๋กœ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•™์Šตํ•œ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก : DexMachina

DexMachina๋Š” RL ํ™˜๊ฒฝ์—์„œ functional retargeting ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚จ๋‹ค.

  1. RL ํ™˜๊ฒฝ ๋ฐ Task Reward: ๊ฐ ํƒ€์ž„์Šคํ… t์—์„œ ๊ฐ์ฒด์˜ ์‹ค์ œ ๋‹ฌ์„ฑ ์ƒํƒœ \hat{G}_t = \{\hat{g}_t^P, \hat{g}_t^R, \hat{g}_t^J\} (์œ„์น˜, ํšŒ์ „, ์กฐ์ธํŠธ ๊ฐ๋„)์™€ ๋ฐ๋ชจ์˜ ๋ชฉํ‘œ ์ƒํƒœ G_t = \{g_t^P, g_t^R, g_t^J\}๋ฅผ ๋น„๊ตํ•œ๋‹ค. task reward r_{\text{task}}๋Š” ๊ฐ ์ƒํƒœ ๊ตฌ์„ฑ ์š”์†Œ์˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ์„ธ ํ•ญ์˜ ๊ณฑ์œผ๋กœ ์ •์˜๋˜์–ด ๊ท ํ˜• ์žกํžŒ ํ•™์Šต์„ ์žฅ๋ คํ•œ๋‹ค.
    • ์œ„์น˜ ์˜ค์ฐจ: d_{\text{pos}} = || \hat{g}_t^P - g_t^P ||_2
    • ํšŒ์ „ ์˜ค์ฐจ: d_{\text{rot}} = 2 \cos^{-1}(|\langle \hat{g}_t^R, g_t^R \rangle|)
    • ๊ด€์ ˆ ์˜ค์ฐจ: d_{\text{ang}} = || \hat{g}_t^J - g_t^J ||_2
    • Task reward: r_{\text{task}} = \exp(-\beta_{\text{pos}}d_{\text{pos}}) \exp(-\beta_{\text{rot}}d_{\text{rot}}) \exp(-\beta_{\text{ang}}d_{\text{ang}}) ์—ฌ๊ธฐ์„œ \beta_{\text{pos}}, \beta_{\text{rot}}, \beta_{\text{ang}}๋Š” ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜์ด๋‹ค.
  2. ์•ก์…˜ ์ •ํ˜•ํ™” ๋ฐ Aux Reward (Auxiliary Rewards): task reward๋งŒ์œผ๋กœ๋Š” ๋ณต์žกํ•œ ์žฅ๊ธฐ ์ž‘์—…์—์„œ ์ •์ฑ…์ด ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.
    • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์•ก์…˜ ์ •ํ˜•ํ™” (Hybrid Action Formulation): ์ธ๊ฐ„ ๋ฐ๋ชจ์™€ ๋” ์ž˜ ์ผ์น˜ํ•˜๋„๋ก ์†๋ชฉ(wrist) ์•ก์…˜ ๊ณต๊ฐ„์„ ์ œํ•œํ•˜๊ณ , ๋‚˜๋จธ์ง€ ์†๊ฐ€๋ฝ(finger) ๊ด€์ ˆ์€ ์ ˆ๋Œ€ ์•ก์…˜์„ ์‚ฌ์šฉํ•œ๋‹ค. kinematics-only retargeting ์•Œ๊ณ ๋ฆฌ์ฆ˜ (Anyteleop [3] ๊ธฐ๋ฐ˜)์„ ํ†ตํ•ด ์–ป์€ retargeted joint ๊ฐ’ Q \in \mathbb{R}^{T \times J}๋ฅผ ์†๋ชฉ ๊ด€์ ˆ์˜ ๊ธฐ๋ณธ ์•ก์…˜์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ •์ฑ…์€ ๊ทธ ์œ„์— ์ž”์ฐจ(residual) ์•ก์…˜์„ ์ถœ๋ ฅํ•œ๋‹ค. ์†๊ฐ€๋ฝ ๊ด€์ ˆ์€ ๊ด€์ ˆ ํ•œ๊ณ„์— ์˜ํ•ด ์ •๊ทœํ™”๋œ ์ ˆ๋Œ€ ์•ก์…˜์„ ์‚ฌ์šฉํ•œ๋‹ค.
    • Aux Reward (Auxiliary Rewards): ์ •์ฑ…์ด ์ธ๊ฐ„์˜ ์†-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ์ „๋žต์„ ๋”ฐ๋ฅด๋„๋ก ์œ ๋„ํ•œ๋‹ค.
      • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ: ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ D_\eta์—์„œ collision-aware kinematic retargeted joints Q์™€ ์ฐธ์กฐ ํ‚คํฌ์ธํŠธ(reference keypoints) X \in \mathbb{R}^{T \times K \times 3}๋ฅผ ์ถ”์ถœํ•œ๋‹ค. ๋˜ํ•œ, ์† ๋งํฌ์™€ ๊ฐ์ฒด ๋ถ€ํ’ˆ ์‚ฌ์ด์˜ ๊ทผ์‚ฌ ์ ‘์ด‰ ์œ„์น˜ C \in \mathbb{R}^{(T \times N \times K \times 3)}์™€ ์œ ํšจ์„ฑ ๋งˆ์Šคํฌ M \in \mathbb{R}^{(T \times N \times K)}๋ฅผ ์ถ”์ถœํ•œ๋‹ค.
      • ๋™์ž‘ ๋ชจ๋ฐฉ Reward (Motion Imitation Reward): ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์† ๋™์ž‘์„ ์žฅ๋ คํ•˜๊ธฐ ์œ„ํ•ด ํ‚คํฌ์ธํŠธ ๋งค์นญ ๊ธฐ๋ฐ˜์˜ r_{\text{imi}}์™€ ๊ด€์ ˆ ๊ฐ๋„ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜์˜ ํ–‰๋™ ๋ณต์ œ(behavior-cloning) Reward r_{\text{bc}}๋ฅผ ์ •์˜ํ•œ๋‹ค. r_{\text{imi}} = \frac{1}{K} \sum_{i=1}^K \exp(-\beta_{\text{imi}}||\hat{x}_i - x_i||_2) r_{\text{bc}} = \frac{1}{J} \sum_{i=1}^J \exp(-\beta_{\text{bc}}||\hat{q}_i - q_i||_2)
      • ์ ‘์ด‰ Reward (Contact Reward): ์ •์ฑ…์˜ ์ ‘์ด‰์„ ๋ฐ๋ชจ์˜ ์ ‘์ด‰๊ณผ ์ผ์น˜์‹œ์ผœ ๊ณ„์‚ฐํ•œ๋‹ค. ์ ‘์ด‰ ๊ฑฐ๋ฆฌ D \in \mathbb{R}^{N \times K}๋Š” ์œ ํšจ์„ฑ ๋งˆ์Šคํฌ์— ์˜ํ•ด ๊ฐ€๋ ค์ง„ L2 ๊ฑฐ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋œ๋‹ค. r_{\text{con}} = \frac{1}{2NK} (\sum_{i=1}^N \sum_{j=1}^K \exp(-\beta_{\text{con}}D(i,j)_{\text{left}}) + \sum_{i=1}^N \sum_{j=1}^K \exp(-\beta_{\text{con}}D(i,j)_{\text{right}})) ์ตœ์ข… RL Reward r_t๋Š” ์ด ๋ชจ๋“  ํ•ญ์˜ ๊ฐ€์ค‘ ํ•ฉ์ด๋‹ค: r_t = \lambda_{\text{task}}r_{\text{task}} + \lambda_{\text{imi}}r_{\text{imi}} + \lambda_{\text{bc}}r_{\text{bc}} + \lambda_{\text{con}}r_{\text{con}}
  3. ๊ฐ€์ƒ ๊ฐ์ฒด ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์ด์šฉํ•œ ์ž๋™ ์ปค๋ฆฌํ˜๋Ÿผ (Auto-Curriculum with Virtual Object Controllers): ์ •์ฑ…์ด ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ์ดˆ๊ธฐ ์‹คํŒจ์— ๋น ์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด VOCs๋ฅผ ๋„์ž…ํ•œ๋‹ค. VOCs๋Š” ๋ฐ๋ชจ ์ƒํƒœ G๋ฅผ ์ œ์–ด ๋ชฉํ‘œ๋กœ ์‚ผ์•„ ๊ฐ€์ƒ ์Šคํ”„๋ง-๋Œํผ ์ œ์•ฝ(spring-damper constraints)์„ ์ ์šฉํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ๋ชฉํ‘œ ๊ถค์ ์„ ๋”ฐ๋ผ ์›€์ง์ด๊ฒŒ ํ•œ๋‹ค.
    • ๊ตฌํ˜„: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ privileged information์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌํ˜„๋œ๋‹ค. ๊ฐ ๊ฐ์ฒด๋Š” ๊ธฐ๋ณธ ํฌ์ฆˆ์— ๋Œ€ํ•ด 6-DoF, ๊ด€์ ˆ ๋™์ž‘์— ๋Œ€ํ•ด 1-DoF๋ฅผ ๊ฐ€์ง„ ๊ฐ€์ƒ ๊ด€์ ˆ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋ชจ๋“  ๊ด€์ ˆ์€ PD ์ปจํŠธ๋กค๋Ÿฌ์— ์˜ํ•ด ๊ตฌ๋™๋œ๋‹ค.
    • ์ปค๋ฆฌํ˜๋Ÿผ ์Šค์ผ€์ค„๋ง: ํ•™์Šต ์‹œ์ž‘ ์‹œ์—๋Š” ๋†’์€ VOC ์ด๋“(gains) (k_p, k_v)์„ ์„ค์ •ํ•˜๊ณ , ์ •์ฑ…์˜ ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ์ด ์ด๋“์„ ์ ์ง„์ ์œผ๋กœ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œ์‹œํ‚จ๋‹ค. ์ •์ฑ…์ด ๋ชจ๋“  Reward(task, imi, bc, con)์— ๋Œ€ํ•ด ์ผ์ • ์ž„๊ณ„๊ฐ’(threshold)์„ ์ดˆ๊ณผํ•˜๋ฉด ์ด๋“์ด ๊ฐ์†Œํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ •์ฑ…์€ ์ดˆ๊ธฐ์— ๋†’์€ task reward๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ Aux Reward์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๊ณ , VOCs๊ฐ€ ์•ฝํ•ด์ง€๋ฉด ๋†’์€ task reward๋ฅผ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ž์ฒด ๋™์ž‘์„ ์กฐ์ •ํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šด๋‹ค.

์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ

์ €์ž๋“ค์€ 6๊ฐœ์˜ ๋Šฅ์ˆ™ํ•œ ๋กœ๋ด‡ ์†(Inspire, Allegro, Xhand, Schunk, Ability, DexRobot Hand)๊ณผ 5๊ฐœ์˜ articulated object๋กœ ๊ตฌ์„ฑ๋œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ๋‹ค. Genesis ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ DexMachina๋ฅผ ํ‰๊ฐ€ํ–ˆ๋‹ค.

  • ์ฃผ์š” ๊ฒฐ๊ณผ: DexMachina๋Š” ๋ชจ๋“  ์†๊ณผ ์ž‘์—…์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์žฅ๊ธฐ ์ž‘์—…์—์„œ ๊ธฐ์ค€์„ (baseline) ๋ฐฉ๋ฒ•๋“ค(Kinematics Only, ObjDex, Task + Auxiliary Rewards without curriculum, ManipTrans)์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. kinematic retargeting๋งŒ์œผ๋กœ๋Š” ์ž‘์—…์„ ์™„๋ฃŒํ•  ์ˆ˜ ์—†์—ˆ๋‹ค.
  • ํ•˜๋“œ์›จ์–ด ์ ์‘์„ฑ: DexMachina๋Š” ์ •์ฑ…์ด ํ•˜๋“œ์›จ์–ด ์ œ์•ฝ์— ๋งž์ถฐ ์ž‘์—… ์ „๋žต์„ ํ•™์Šตํ•˜๋„๋ก ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Notebook-300 ์ž‘์—…์—์„œ XHand๋Š” ์ธ๊ฐ„ ๋ฐ๋ชจ๋ฅผ ๋”ฐ๋ž์ง€๋งŒ, ๋” ์ž‘๊ณ  ๊ตฌ๋™์ด ์ ์€ Inspire Hand๋Š” ๊ฐ์ฒด๋ฅผ ์•ˆ์ •ํ™”ํ•˜๊ณ  ์ปค๋ฒ„๋ฅผ ๋‹ซ๊ธฐ ์œ„ํ•ด ์–‘์†์„ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ์ „๋žต์„ ํ•™์Šตํ–ˆ๋‹ค. ์ด๋Š” Aux Reward์ด ์—„๊ฒฉํ•œ ์ง€์นจ์ด ์•„๋‹Œ ์œ ์—ฐํ•œ ์•ˆ๋‚ด ์—ญํ• ์„ ํ•˜์—ฌ ์ •์ฑ…์ด ๋” ๋‚˜์€ task reward๋ฅผ ์œ„ํ•ด ์ฐธ์กฐ ๋™์ž‘์—์„œ ๋ฒ—์–ด๋‚  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.
  • Ablation Study:
    • ์•ก์…˜ Ablation: ์ œ์•ˆ๋œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์•ก์…˜ ์ •ํ˜•ํ™”(์†๋ชฉ ์›€์ง์ž„์— ๋” ์ œํ•œ์ ์ธ ๊ฒฝ๊ณ„๋ฅผ ์‚ฌ์šฉ)๊ฐ€ ์ ˆ๋Œ€ ์•ก์…˜์ด๋‚˜ ๋œ ์ œ์•ฝ์ ์ธ ์ž”์ฐจ ์•ก์…˜๋ณด๋‹ค ์ „๋ฐ˜์ ์œผ๋กœ ๋” ๋‚˜์€ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
    • ์ปค๋ฆฌํ˜๋Ÿผ Ablation: ManipTrans์˜ ์ปค๋ฆฌํ˜๋Ÿผ(์˜ค์ฐจ ์ž„๊ณ„๊ฐ’, ์ค‘๋ ฅ, ๋งˆ์ฐฐ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ์†Œ)์€ DexMachina์˜ VOC ๊ธฐ๋ฐ˜ ์ปค๋ฆฌํ˜๋Ÿผ๋งŒํผ ํšจ๊ณผ์ ์ด์ง€ ์•Š์•˜๋‹ค. ๋ฌผ๋ฆฌ ๋งค๊ฐœ๋ณ€์ˆ˜๋งŒ ๊ฐ์†Œ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ๋Š” ์žฅ๊ธฐ์  articulated object ์ž‘์—…์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  • ์† ๊ตฌํ˜„์ฒด ๋ถ„์„ (Hand Embodiment Analysis): DexMachina์™€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ ๋Šฅ์ˆ™ํ•œ ์† ๋””์ž์ธ์„ ๊ธฐ๋Šฅ์ ์œผ๋กœ ๋น„๊ตํ–ˆ๋‹ค. ๋” ํฌ๊ณ  ์™„์ „ํžˆ ๊ตฌ๋™๋˜๋Š” ์†(Allegro Hand ๋“ฑ)์ด ๋” ๋†’์€ ์ตœ์ข… ์„ฑ๋Šฅ๊ณผ ๋” ๋‚˜์€ ํ•™์Šต ํšจ์œจ์„ ๋ณด์˜€๋‹ค. ํฌ๊ธฐ๋ณด๋‹ค๋Š” ์ž์œ ๋„(degrees of freedom, DoF)๊ฐ€ ๋” ์ค‘์š”ํ•˜๋ฉฐ, Schunk Hand๋Š” Inspire, Ability์™€ ๋น„์Šทํ•œ ํฌ๊ธฐ์ž„์—๋„ ๋” ๋งŽ์€ DoF์™€ ์œ ์—ฐํ•œ ๋””์ž์ธ ๋•๋ถ„์— ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ•œ๊ณ„

์ด ์ž‘์—…์€ functional retargeting์„ ์œ„ํ•œ DexMachina ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํฌ๊ด„์ ์ธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. DexMachina๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋‹ค์–‘ํ•œ ๋Šฅ์ˆ™ํ•œ ์† ๋””์ž์ธ์— ๋Œ€ํ•œ ๊ธฐ๋Šฅ์  ๋น„๊ต๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ํ•œ๊ณ„์ ์œผ๋กœ๋Š”, ์ •์ฑ…์ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ privileged information์— ์˜์กดํ•˜๋Š” ์ƒํƒœ ๊ธฐ๋ฐ˜ ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ (์‹ค์ œ ์„ธ๊ณ„์—์„œ์˜ ์ทจ๋“ ์–ด๋ ค์›€), ๊ณ ํ’ˆ์งˆ ์ธ๊ฐ„ ์†-๊ฐ์ฒด ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ(์ˆ˜์ง‘ ๋น„์šฉ๊ณผ ํ๋ ˆ์ด์…˜), ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์† ๋ชจ๋ธ์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ ์ถ”์ •์œผ๋กœ ์ธํ•œ ์‹ค์ œ ํ•˜๋“œ์›จ์–ด์™€์˜ ๋™์—ญํ•™ ๋ถˆ์ผ์น˜ ๊ฐ€๋Šฅ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ์„ธ๊ณ„์—์„œ์˜ ํ‰๊ฐ€ ๋ถ€์กฑ ๋“ฑ์ด ์žˆ๋‹ค.


Detail Review

DexMachina: ๊ธฐ๋Šฅ์  ๋ฆฌํƒ€๊ฒŒํŒ…์„ ํ†ตํ•œ ์–‘์† ์„ฌ์„ธ ์กฐ์ž‘

Introduction

์ธ๊ฐ„์˜ ์†์žฌ์ฃผ๋Š” ๋กœ๋ด‡ ๊ณตํ•™์—์„œ ์˜ค๋žซ๋™์•ˆ ๊ถ๊ทน์ ์ธ ๋ชฉํ‘œ์˜€์ง€๋งŒ, ์ธ๊ฐ„ ์†๊ณผ ๋กœ๋ด‡ ์†์˜ ์ฐจ์ด(embodiment gap)๋กœ ์ธํ•ด ๋™์ผํ•œ ๋™์ž‘์„ ์ด์‹(retarget)ํ•˜๋Š” ๋ฐ ๋งŽ์€ ์–ด๋ ค์›€์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. 2025๋…„ 5์›” Arxiv์— ๊ณต๊ฐœ๋œ โ€œDexMachina: Functional Retargeting for Bimanual Dexterous Manipulationโ€ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์ƒˆ๋กœ์šด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ๊ธ€์—์„œ๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ ๋ฐฉ๋ฒ•๋ก , ์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ  ๊ธฐ์กด ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค๊ณผ์˜ ๋น„๊ต๋ฅผ ์ „๋ฌธ๊ฐ€์˜ ์‹œ๊ฐ์—์„œ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ โ‘  ๋ฐฉ๋ฒ•๋ก ์˜ ๋…์ฐฝ์„ฑ (๊ธฐ์กด ๋ฆฌํƒ€๊ฒŒํŒ…/๋ชจ์…˜ ํŠธ๋žœ์Šคํผ ๊ธฐ๋ฒ• ๋Œ€๋น„ ์ฐจ๋ณ„์ ), โ‘ก ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„ (๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ์„ฑ๋Šฅ๊ณผ ํšจ๊ณผ), โ‘ข ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต (์œ ์‚ฌ ๋ชฉ์ ์„ ๊ฐ€์ง„ ํ”„๋ ˆ์ž„์›Œํฌ๋“ค๊ณผ์˜ ๊ธฐ์ˆ ์  ์ฐจ์ด์™€ ๊ธฐ์—ฌ๋„)์— ์ค‘์ ์„ ๋‘์–ด ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ๋Šฅ์  ๋ฆฌํƒ€๊ฒŒํŒ…์˜ ๊ฐœ๋…: DexMachina๋Š” ๊ธฐ๋Šฅ์  ๋ฆฌํƒ€๊ฒŒํŒ…(functional retargeting)์ด๋ผ๋Š” ๊ฐœ๋…์„ ์ •๋ฆฝํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ์˜ โ€œ๊ฒฐ๊ณผโ€์— ์ดˆ์ ์„ ๋งž์ถฐ ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ๋™์ผํ•˜๊ฒŒ ์กฐ์ž‘ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ๋‹จ์ˆœํžˆ ์ธ๊ฐ„์˜ ์†๋™์ž‘์„ ํ‰๋‚ด๋‚ด๋Š” ์šด๋™ํ•™์  ๋ฆฌํƒ€๊ฒŒํŒ…๊ณผ ๋Œ€๋น„๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์šด๋™ํ•™์  ๋ฆฌํƒ€๊ฒŒํŒ…์€ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ ์œ„์น˜๋ฅผ ์‚ฌ๋žŒ ์†๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋”ฐ๋ผํ•˜๊ฒŒ ํ•  ์ˆ˜๋Š” ์žˆ์–ด๋„ ๋ฌผ์ฒด ์กฐ์ž‘ ์„ฑ๊ณต์„ ๋ณด์žฅํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฐ˜๋ฉด, DexMachina๋Š” ๋ฌผ์ฒด์˜ ๋ชฉํ‘œ ์ƒํƒœ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋„๋ก ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ ์—์„œ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

  • ๊ฐ€์ƒ ๊ฐ์ฒด ์ œ์–ด์™€ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต: DexMachina์˜ ๊ฐ€์žฅ ๋…์ฐฝ์ ์ธ ์•„์ด๋””์–ด๋Š” โ€œ๊ฐ€์ƒ ๊ฐ์ฒด ์ œ์–ด๊ธฐ(virtual object controller)โ€๋ฅผ ํ™œ์šฉํ•œ ์ž๋™ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต์ž…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ์™ธ๋ถ€ ํž˜(๊ฐ€์ƒ ์ œ์–ด๊ธฐ)์ด ๋ฌผ์ฒด๋ฅผ ์ž๋™์œผ๋กœ ๋ชฉํ‘œ ์œ„์น˜๊นŒ์ง€ ๋ฐ€์–ด์ฃผ๋ฉด์„œ ์ •์ฑ… ํ•™์Šต์„ ๋•๊ณ , ์ ์ง„์ ์œผ๋กœ ๊ทธ ๋„์›€์„ ์ค„์—ฌ๋‚˜๊ฐ์œผ๋กœ์จ ์ตœ์ข…์ ์œผ๋กœ ๋กœ๋ด‡ ์ •์ฑ…์ด ์Šค์Šค๋กœ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ๊ฐ์  Aux ๋ฐฉ์‹์€ ์ดˆ๋ฐ˜ ํ•™์Šต์˜ ๋‚œ์ด๋„๋ฅผ ํฌ๊ฒŒ ๋‚ฎ์ถฐ์ฃผ์–ด, ๊ธด ์‹œํ€€์Šค ์ž‘์—…์—์„œ๋„ ์ดˆ๊ธฐ ์‹คํŒจ๋ฅผ ๋ฐฉ์ง€ํ•˜๊ณ  ์•ˆ์ •์ ์œผ๋กœ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

  • ๋‹ค์–‘ํ•œ ์†๊ณผ ์ž‘์—…์— ๋Œ€ํ•œ ๋ฒ”์šฉ์„ฑ: ์ €์ž๋“ค์€ 6์ข…์˜ ๋กœ๋ด‡ ์†(Inspire Hand, Allegro Hand, X-Hand, Schunk Hand ๋“ฑ)๊ณผ 5์ข…์˜ ๋ณต์žกํ•œ ๋ฌผ์ฒด(๋…ธํŠธ๋ถ, ์ฃผ๋ฐฉ๊ธฐ๊ตฌ ๋“ฑ ๊ด€์ ˆ๋ถ€๋ฅผ ๊ฐ€์ง„ ๋ฌผ์ฒด๋“ค)๋กœ ๊ตฌ์„ฑ๋œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ DexMachina์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ DexMachina๋Š” ๋ชจ๋“  ์†๊ณผ ์ž‘์—…์— ๊ฑธ์ณ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์–‘์† ์žฅ๊ธฐ ์ž‘์—…(long-horizon)์—์„œ ๋‘๊ฐ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•˜๋‚˜์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์— ๋ณ„๋„ ํŠœ๋‹ ์—†์ด ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์–ด, ํ–ฅํ›„ ๋กœ๋ด‡ ์† ํ•˜๋“œ์›จ์–ด ์„ค๊ณ„ ๋น„๊ต์—๋„ ์œ ์šฉํ•œ ํ‘œ์ค€์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์ด์ œ ์œ„ ์„ธ ๊ฐ€์ง€ ์ฃผ์ œ์— ๋Œ€ํ•ด ์ˆœ์„œ๋Œ€๋กœ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

1. ๋ฐฉ๋ฒ•๋ก ์˜ ๋…์ฐฝ์„ฑ: DexMachina๋งŒ์˜ ๋ฆฌํƒ€๊ฒŒํŒ… ์ ‘๊ทผ๋ฒ•

์ธ๊ฐ„ ์‹œ์—ฐ์˜ โ€œ๊ธฐ๋Šฅโ€์„ ํ•™์Šต ๋ชฉํ‘œ๋กœ ์‚ผ๋‹ค. DexMachina๋Š” ์ธ๊ฐ„ ์†-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ์‹œ์—ฐ(์˜ˆ: ์‚ฌ๋žŒ์ด ๋‘ ์†์œผ๋กœ ์™€ํ”Œ ๊ธฐ๊ณ„๋ฅผ ๋“ค์–ด ์—ด์—ˆ๋‹ค ๋‹ซ๋Š” ์‹œ์—ฐ)์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ๋กœ๋ด‡์˜ ๋‘ ์†์ด ๋ฌผ์ฒด์˜ ๋™์ผํ•œ ๊ธฐ๋Šฅ์  ๊ฒฐ๊ณผ๋ฅผ ์žฌํ˜„ํ•˜๋„๋ก ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ธฐ๋Šฅ์  ๊ฒฐ๊ณผ๋ž€ ๋ฌผ์ฒด์˜ ์ƒํƒœ ๋ณ€ํ™”์— ์ดˆ์ ์„ ๋‘” ๊ฒƒ์œผ๋กœ, ์‚ฌ๋žŒ ์‹œ์—ฐ๊ณผ ๋˜‘๊ฐ™์€ ๋™์ž‘ ๊ฒฝ๋กœ๋ฅผ ๊ทธ๋ฆฌ์ง€ ์•Š๋”๋ผ๋„ ๋ฌผ์ฒด์˜ ์›€์ง์ž„์ด ๊ฐ™๋‹ค๋ฉด ์„ฑ๊ณต์œผ๋กœ ๊ฐ„์ฃผํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ ์›€์ง์ž„ ์ž์ฒด๋ฅผ ๋”ฐ๋ผํ•˜๋ ค๋Š” ๊ธฐ์กด์˜ ์ ‘๊ทผ๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๋žŒ์ด ๊ณต์„ ๋˜์ง€๋Š” ์‹œ์—ฐ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, DexMachina๋Š” ๋กœ๋ด‡์ด ๊ณต์„ ๊ฐ™์€ ๋ชฉํ‘œ์— ๋งžํžˆ๋Š” ๊ฒƒ์— ์ง‘์ค‘ํ•˜์ง€, ์ธ๊ฐ„์˜ ๋ชจ๋“  ์†๊ฐ€๋ฝ ๊ฐ๋„๋ฅผ ๊ทธ๋Œ€๋กœ ์žฌํ˜„ํ•˜๋ ค ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ์ƒ์˜ ์ „ํ™˜ ๋•๋ถ„์—, ๋กœ๋ด‡๊ณผ ์ธ๊ฐ„ ์† ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ๋„ Task ์ค‘์‹ฌ์œผ๋กœ ํ•™์Šต์ด ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ์ž๋™ Reward ์„ค๊ณ„: DexMachina๋Š” ํ•œ ํŽธ์˜ ์ธ๊ฐ„ ๋ฐ๋ชจ(๋ชจ์…˜ ์บก์ณ๋œ ์†/๋ฌผ์ฒด ๊ถค์ )๋งŒ์œผ๋กœ๋„ ์ถ”๊ฐ€ Reward ์„ค๊ณ„ ์—†์ด ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋ฐ๋ชจ์˜ ๋ฌผ์ฒด ์ƒํƒœ ๊ถค์ ์„ ์ถ”์ถœํ•˜์—ฌ ๋กœ๋ด‡์ด ๋”ฐ๋ผ๊ฐ€์•ผ ํ•  Task Reward(task reward)์„ ์ •ํ•˜๊ณ , ์ธ๊ฐ„ ์†๋™์ž‘์„ ๋กœ๋ด‡ ์†์œผ๋กœ ์ถฉ๋Œ ์—†๊ฒŒ ๋ณ€ํ™˜ํ•œ ๊ธฐ์ค€ ๋ชจ์…˜์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ์…˜ ๋ชจ๋ฐฉ Reward์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฐ๋ชจ์—์„œ ์†-๋ฌผ์ฒด ์ ‘์ด‰ ์ง€์ ์„ ๊ทผ์‚ฌ์ถ”์ •ํ•˜์—ฌ, ๋กœ๋ด‡ ์†๋„ ๋น„์Šทํ•œ ์ง€์ ์— ์ ‘์ด‰ํ•˜๋„๋ก ์ ‘์ด‰ Reward์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, ๋กœ๋ด‡ ์†๋ชฉ(wrist) ์›€์ง์ž„์€ ๋ฐ๋ชจ ๊ถค์ ์„ ์ตœ๋Œ€ํ•œ ๋”ฐ๋ฅด๋„๋ก ์ œํ•œํ•˜๊ณ  ์†๊ฐ€๋ฝ ๊ด€์ ˆ์€ ์ ˆ๋Œ€ ์ œ์–ดํ•˜๊ฒŒ ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํฐ ํŒ” ๋™์ž‘์€ ์ธ๊ฐ„๊ณผ ๋น„์Šทํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ์„ธ๋ฐ€ํ•œ ์†๊ฐ€๋ฝ ์›€์ง์ž„์€ ๋กœ๋ด‡์ด ์ž์œ ๋กญ๊ฒŒ ์กฐ์ •ํ•˜์—ฌ ์ž๊ธฐ ๊ตฌ์กฐ์— ๋งž๊ฒŒ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, DexMachina๋Š” ๋ฐ๋ชจ โ†’ (Task + ๋ชจ์…˜ + ์ ‘์ด‰) Reward์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฐ์ฒด ์ค‘์‹ฌ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ž๋™ ๊ตฌ์ถ•ํ•˜์—ฌ, ๋ณ„๋„์˜ Reward ํ•จ์ˆ˜ ์„ค๊ณ„ ์—†์ด๋„ ํšจ๊ณผ์ ์ธ ๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝ์„ ๋งˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

โ€œDeus ex machinaโ€ โ€“ ๊ฐ€์ƒ ์Šคํ”„๋ง์œผ๋กœ ์‹œ์ž‘ํ•˜๋Š” ์ปค๋ฆฌํ˜๋Ÿผ RL: DexMachina๋ผ๋Š” ์ด๋ฆ„์—๋Š” โ€œ๊ธฐ๊ณ„์—์„œ ๋‚ด๋ ค์˜จ ์‹ โ€์ด๋ผ๋Š” ๋œป์ด ๋‹ด๊ฒจ ์žˆ๋Š”๋ฐ, ์ด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ดˆ๋ฐ˜์— ๋งˆ์น˜ ๋ณด์ด์ง€ ์•Š๋Š” ์†์ฒ˜๋Ÿผ ๋ฌผ์ฒด๋ฅผ ์›€์ง์—ฌ์ฃผ๋Š” ๋ชจ์Šต์— ์ฐฉ์•ˆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ •์ฑ… ํ•™์Šต์ด ํŠนํžˆ ์–ด๋ ค์šด ์žฅ๊ธฐ๊ฐ„ ์–‘์† ์กฐ์ž‘์˜ ๊ฒฝ์šฐ, ๋‘ ์†์˜ ๋ฏธ์„ธํ•œ ํ˜‘์‘ ์‹คํŒจ๋กœ ์ดˆ๋ฐ˜์— ๊ณง์ž˜ ์ž„๋ฌด๊ฐ€ ์ขŒ์ดˆ๋˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด DexMachina๋Š” ์ž๋™ ์ปค๋ฆฌํ˜๋Ÿผ(auto-curriculum) ์ „๋žต์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ๊ฐ€์ƒ ๊ฐ์ฒด ์ œ์–ด๊ธฐ(Virtual Object Controller)๊ฐ€ ์ผ์ข…์˜ ์Šคํ”„๋ง ํž˜์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์‚ฌ๋žŒ์ด ๋ณด์—ฌ์ค€ ๋ฐฉํ–ฅ๋Œ€๋กœ ์›€์ง์—ฌ ์ค๋‹ˆ๋‹ค. ์ •์ฑ…์€ ์ด ๋•Œ ์‹คํŒจ ์œ„ํ—˜ ์—†์ด ๋”ฐ๋ผํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šฐ๊ณ , ์ ์ฐจ ์ •์ฑ…์ด ์„ฑ๊ณผ๋ฅผ ๋‚ด๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ๊ฐ€์ƒ ํž˜์˜ ์„ธ๊ธฐ๋ฅผ ์ค„์—ฌ ์ •์ฑ…์ด ์ž์œจ์ ์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ์ง„์  ๋‚œ์ด๋„ ์ƒ์Šน์€ ๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ”ํžˆ ์“ฐ์ด๋Š” ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต ๊ฐœ๋…์„ ์‘์šฉํ•œ ๊ฒƒ์œผ๋กœ, ๋ฌผ์ฒด ๋ฌผ๋ฆฌ ๋™์—ญํ•™์„ ์ œ์–ดํ•˜๋Š” ์™ธ๋ ฅ์œผ๋กœ ๋‚œ์ด๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

DexMachina ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ฐœ์š”๋„. ์™ผ์ชฝ์€ ์ธ๊ฐ„ ์–‘์† ๋ฐ๋ชจ์—์„œ ์–ป์€ ๋ฌผ์ฒด ์ƒํƒœ ๋ณ€ํ™”(์˜ˆ: ์™€ํ”Œ ๊ธฐ๊ณ„ ๋šœ๊ป‘์˜ ๊ฐ๋„)์™€ ๋กœ๋ด‡ ๋ชจ์…˜/์ ‘์ด‰ Reward ์‹ ํ˜ธ ์ถ”์ถœ ๊ณผ์ •์„ ๋ณด์—ฌ์ค€๋‹ค. ์˜ค๋ฅธ์ชฝ์€ ์ž๋™ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต ๊ณผ์ •์œผ๋กœ, ์ดˆ๊ธฐ์—๋Š” ๊ฐ•ํ•œ ๊ฐ€์ƒ ์Šคํ”„๋ง(๊ฐ€์ƒ ๊ฐ์ฒด ์ œ์–ด๊ธฐ)์ด ๋ฌผ์ฒด๋ฅผ ๋ชฉํ‘œ๋Œ€๋กœ ์›€์ง์—ฌ์ฃผ์–ด ๋กœ๋ด‡ ์ •์ฑ…์ด ์‹คํŒจ ์—†์ด ๋ชจ๋ฐฉํ•™์Šต์„ ํ•˜๊ณ , ์ค‘๊ธฐ์—๋Š” ์•ฝํ•œ ์Šคํ”„๋ง์œผ๋กœ Aux๋ฅผ ์ค„์ด๋ฉด์„œ, ์ตœ์ข…์ ์œผ๋กœ ์Šคํ”„๋ง ์—†์ด ์ •์ฑ… ํ˜ผ์ž์„œ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ DexMachina๋Š” ์šด๋™ํ•™์  ๋ฆฌํƒ€๊ฒŒํŒ…์˜ ์ดˆ๊ธฐ ๊ฐ€์ด๋“œ์™€ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ž์œจ ํƒ์ƒ‰์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐํ•œ๋‹ค.

๊ธฐ์กด ๊ธฐ๋ฒ• ๋Œ€๋น„ ์ฐจ๋ณ„์„ฑ: DexMachina์˜ ๋ฐฉ๋ฒ•๋ก ์€ ๊ธฐ์กด ๋ฆฌํƒ€๊ฒŒํŒ… ๋ฐ ๋ชจ์…˜ ํŠธ๋žœ์Šคํผ ๊ธฐ์ˆ ๊ณผ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์ฐจ์ด๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ์ฒซ์งธ, ์‚ฌ๋žŒ ์†๋™์ž‘์„ ๋กœ๋ด‡์— ๋‹จ์ˆœ ์ด์‹ํ•˜๋˜ ์ ‘๊ทผ๊ณผ ๋‹ฌ๋ฆฌ, DexMachina๋Š” ์‚ฌ๋žŒ-๋กœ๋ด‡ ๊ฐ„ ๊ณตํ†ต์˜ Task ๊ณต๊ฐ„(object state trajectory)์—์„œ ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•˜์—ฌ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ „๋žต์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ Park ๋“ฑ(2025)์€ ์ธ๊ฐ„-๋กœ๋ด‡-๋ฌผ์ฒด ์›€์ง์ž„์˜ ๊ณต๋™ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์„ ํ•™์Šตํ•˜์—ฌ ๊ฑฐ๊ธฐ์„œ ๋กœ๋ด‡ ๋™์ž‘์„ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฆฌํƒ€๊ฒŒํŒ…์„ ์ˆ˜ํ–‰ํ•˜์˜€๋Š”๋ฐ, DexMachina๋Š” ์ด๋ฅผ ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์œผ๋กœ ๊ตฌํ˜„ํ•จ์œผ๋กœ์จ ์ƒˆ๋กœ์šด ์†/ํ™˜๊ฒฝ์—๋„ ์˜จ๋ผ์ธ ์ ์‘ ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ๊ธฐ์กด ๋งŽ์€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์‹œ์—ฐ ๋ฐฉ๋ฒ•๋“ค์€ ๋กœ๋ด‡ ์†๋งˆ๋‹ค ๋ณ„๋„ ์‹œ์Šคํ…œ ๊ตฌ์ถ•์ด ํ•„์š”ํ•˜๊ณ  ์ฃผ๋กœ ๋‹จ๋ฐœ์  ๊ทธ๋ฆฝ ๋™์ž‘์— ๊ทธ์ณค์ง€๋งŒ, DexMachina๋Š” ๋‹จ ํ•˜๋‚˜์˜ ์‹œ์—ฐ๋งŒ์œผ๋กœ ์žฅ์‹œ๊ฐ„์˜ ๋ณต์žกํ•œ ์กฐ์ž‘์„ ๊ฐ€๋Šฅ์ผ€ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ DeepMimic์ด๋‚˜ DAPG(Rajeswaran et al., 2018)์ฒ˜๋Ÿผ ์˜ˆ์ œ ๋ชจ์…˜์„ RL๋กœ ๋”ฐ๋ผํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์ด ์žˆ์—ˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„ ๋‹จ์ผ ๋กœ๋ด‡ ์†์— ๋‹จ์ผ ์ž‘์—…์„ ๋‹ค๋ฃจ๊ณ  Reward ์‹ ํ˜ธ๋„ ์ œํ•œ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด DexMachina๋Š” Reward ๊ตฌ์„ฑ์˜ ๋‹ค์–‘ํ™”(Task+๋ชจ์…˜+์ ‘์ด‰)์™€ ์™ธ๋ ฅ ์ปค๋ฆฌํ˜๋Ÿผ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์š”์†Œ๋กœ ์ด๋Ÿฌํ•œ ๋ชจ์…˜ ํŠธ๋žœ์Šคํผ ๋ฌธ์ œ๋ฅผ ํ™•์žฅํ–ˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋‘ ์†์ด ํ˜‘์‘ํ•ด์•ผ ํ•˜๋Š” ๋ณต์žกํ•œ ์ž‘์—…๋„ ์ž๋™ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜๋ฉด DexMachina๋Š” โ€œ์‹œ์—ฐ ๋ฐ์ดํ„ฐ + ๊ฐ•ํ™”ํ•™์Šต + ์ปค๋ฆฌํ˜๋Ÿผโ€์˜ ์„ธ ๋ฐ•์ž๋ฅผ ๋งž์ถ”์–ด, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ํ•ด๊ฒฐํ–ˆ๋˜ ๋ฌธ์ œ๋“ค์„ ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์›Œํฌ์— ํ†ตํ•ฉํ•œ ์ ์—์„œ ๋…์ฐฝ์ ์ž…๋‹ˆ๋‹ค.

2. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„: ์„ฑ๋Šฅ, ์ ์‘์„ฑ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ

๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ: ์ €์ž๋“ค์€ ์‚ฌ๋žŒ์ด ์–‘์†์œผ๋กœ ์ˆ˜ํ–‰ํ•œ ๊ธด ์กฐ์ž‘ ์‹œ์—ฐ 7๊ฐœ๋ฅผ ์„ ํƒํ•˜์—ฌ, ์ด๋ฅผ ๋ชจ์‚ฌํ•ด์•ผ ํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ARCTIC์ด๋ผ๋Š” ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์˜ ์ผ๋ถ€๋กœ, ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐ•์Šค๋ฅผ ์ง‘์–ด๋“ค์–ด ๋šœ๊ป‘ ์—ด๊ธฐ, ๋…ธํŠธ๋ถ ๋“ค์–ด ๋ฎ๊ธฐ, ๋ฏน์„œ๊ธฐ ๋šœ๊ป‘ ๋‹ซ๊ธฐ, ์™€ํ”Œ ๊ธฐ๊ณ„ ๋“ค์–ด ์—ด๊ธฐ ๋“ฑ 5๊ฐ€์ง€ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ๋‹จ๊ธฐ/์žฅ๊ธฐ ๊ณผ์ œ๋“ค์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์†์œผ๋กœ๋Š” ์˜คํ”ˆ์†Œ์Šค 6์ข…์˜ ๋กœ๋ด‡ ํ•ธ๋“œ(Inspire, Allegro, X-Hand, Schunk, Ability, DexRobot ๋“ฑ ํฌ๊ธฐ์™€ ๊ตฌ์กฐ๊ฐ€ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ)๋ฅผ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์„ฑ๋Šฅ ํ‰๊ฐ€๋Š” ๋ฌผ์ฒด ์ถ”์  ์˜ค์ฐจ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ๋ฐ๋ชจ์˜ ๋ฌผ์ฒด ๊ถค์  ๋Œ€๋น„ ๋กœ๋ด‡์ด ์กฐ์ž‘ํ•œ ๋ฌผ์ฒด์˜ ์œ„์น˜/์ž์„ธ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ AUC-ADD(ํ‰๊ท  ๊ฑฐ๋ฆฌ ์˜ค์ฐจ์— ๋Œ€ํ•œ ๊ณก์„  ์•„๋ž˜ ๋ฉด์ ) ํ˜•ํƒœ์˜ ์ ์ˆ˜๋กœ ํ™˜์‚ฐํ•˜๊ณ , ์ด๋ฅผ ์„ฑ๊ณต๋ฅ (%)๋กœ ํ‘œํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ 100%๋ฉด ๋ฌผ์ฒด๋ฅผ ์ •ํ™•ํžˆ ๋”ฐ๋ผ๊ฐ„ ๊ฒƒ์ด๊ณ , 0%๋ฉด ์ „ํ˜€ ๋”ฐ๋ผ๊ฐ€์ง€ ๋ชปํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ๋น„๊ต ๋ฐฉ๋ฒ•: ์‹คํ—˜์—์„œ๋Š” DexMachina๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค:

  • Kinematic Only: ์ธ๊ฐ„ ์šด๋™ํ•™์  ๋ฆฌํƒ€๊ฒŒํŒ… ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋Œ€๋กœ ์žฌ์ƒ. (์ •์ฑ… ํ•™์Šต ์—†์Œ)
  • Task Rew Only: ObjDex๋ผ ๋ช…๋ช…๋œ ๊ธฐ์ค€์œผ๋กœ, Task Reward๋งŒ์œผ๋กœ RL ์ •์ฑ… ํ•™์Šต (์ธ๊ฐ„ ๋ฐ๋ชจ์˜ ๋ฌผ์ฒด ๊ถค์ ๋งŒ ๋ชฉํ‘œ, ๋ชจ์…˜/์ ‘์ด‰ Reward ์—†์Œ).
  • Task + Aux Reward: DexMachina์—์„œ ์ œ์•ˆํ•œ Task + ๋ชจ์…˜ + ์ ‘์ด‰ Reward์€ ์“ฐ๋˜, ์ปค๋ฆฌํ˜๋Ÿผ ์—†์ด ํ•™์Šต (์ฆ‰, ๊ฐ€์ƒ ๊ฐ์ฒด ์ œ์–ด ๋ฏธ์‚ฌ์šฉ).
  • ManipTrans (2025): Li ๋“ฑ(2025)์ด ์ œ์•ˆํ•œ ์ตœ์‹  ๋ฐฉ๋ฒ•์œผ๋กœ, ์‚ฌ์ „ ๋ชจ๋ฐฉํ•™์Šต + ์ž”์—ฌ(residual) ์ •์ฑ… RL 2๋‹จ๊ณ„๋กœ ์ธ๊ฐ„ ์–‘์† ์‹œ์—ฐ์„ ์ด์‹ํ•˜๋Š” ๊ธฐ๋ฒ•. (์ €์ž๋“ค์ด ๊ณต๊ฐœํ•œ ์ฝ”๋“œ/๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ๊ฒฐ๊ณผ)

์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•์˜ ์„ฑ๊ณต๋ฅ  ๋น„๊ต (๋†’์„์ˆ˜๋ก ์šฐ์ˆ˜). ๊ฐ€๋กœ์ถ•์€ ์ž‘์—… ์ข…๋ฅ˜(์˜ˆ: Ketchup-100์€ ์งง์€ ์ผ€์ฒฉ ํ†ต ํ”๋“ค๊ธฐ ๊ณผ์ œ, Waffleiron-300์€ ๊ธด ์™€ํ”Œ๊ธฐ๊ณ„ ์กฐ์ž‘ ๊ณผ์ œ)์ด๋ฉฐ, ์„ธ๋กœ์ถ•์€ ํ•ด๋‹น ๊ณผ์ œ ์™„๋ฃŒ ์„ฑ๊ณต๋ฅ (%)์ž…๋‹ˆ๋‹ค. ๋…ธ๋ž‘์€ ํ•™์Šต ์—†์ด ์šด๋™ํ•™์  ๋ฆฌํƒ€๊ฒŒํŒ…๋งŒ์œผ๋กœ ์‹คํ–‰ํ•œ ๊ฒฝ์šฐ, ๊ฐˆ์ƒ‰(ObjDex)์€ Task Reward๋งŒ์œผ๋กœ RLํ•œ ๊ฒฝ์šฐ, ํšŒ์ƒ‰์€ Task+Aux Reward์œผ๋กœ RLํ–ˆ์œผ๋‚˜ ์ปค๋ฆฌํ˜๋Ÿผ ์—†๋Š” ๊ฒฝ์šฐ, ๋…น์ƒ‰(DexMachina)์€ ์ œ์•ˆ ๊ธฐ๋ฒ• (Aux Reward+์ปค๋ฆฌํ˜๋Ÿผ)์ด๋ฉฐ, ์ง„๊ฐˆ์ƒ‰(ManipTrans)์€ ์ตœ์‹  2๋‹จ๊ณ„ ์ž”์—ฌํ•™์Šต ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. DexMachina(๋…น์ƒ‰)๊ฐ€ ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํŠนํžˆ ๋‚œ์ด๋„๊ฐ€ ๋†’์€ -300 ์žฅ๊ธฐ ๊ณผ์ œ๋“ค์—์„œ ๋‘๋“œ๋Ÿฌ์ง€๊ฒŒ ์•ž์„œ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ManipTrans ๋Œ€๋น„ํ•ด์„œ๋„ DexMachina๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋Š”๋ฐ, ์ด๋Š” ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ํƒ์›”ํ•œ ์žฅ๊ธฐ ํƒ์ƒ‰ ๋Šฅ๋ ฅ์„ ๋ฐฉ์ฆํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ManipTrans ์—ฐ๊ตฌ์—์„œ๋„ ์ž์‚ฌ ๋ฐฉ๋ฒ•์ด ์„ฑ๊ณต๋ฅ ๊ณผ ๋ชจ์…˜ ์žฌํ˜„ ์ •ํ™•๋„์—์„œ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•œ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜์˜€์ง€๋งŒ, DexMachina์˜ ์ปค๋ฆฌํ˜๋Ÿผ ์ „๋žต์ด ๋™์ผ ๊ณผ์ œ์—์„œ ํ•œ์ธต ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๋‚ธ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ข…ํ•ฉ ์„ฑ๋Šฅ: ๊ฒฐ๊ณผ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด DexMachina(๋…น์ƒ‰ ๋ง‰๋Œ€)๊ฐ€ ๋ชจ๋“  ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹จ์ˆœ ๋ฆฌํƒ€๊ฒŒํŒ… ์žฌ์ƒ(Kinematic Only)์˜ ๊ฒฝ์šฐ ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡ ์† ๊ตฌ์กฐ ์ฐจ์ด๋กœ ์ธํ•ด ๋ฌผ์ฒด๋ฅผ ์ œ๋Œ€๋กœ ๋‹ค๋ฃจ์ง€ ๋ชปํ•ด ์„ฑ๊ณต๋ฅ ์ด ๊ฑฐ์˜ 0์— ์ˆ˜๋ ดํ•˜๋ฉฐ, Reward๋งŒ ์ค€ RL(ObjDex)๋„ ์ดˆ๋ฐ˜ ํƒ์ƒ‰ ์‹คํŒจ๋กœ ์žฅ๊ธฐ ์ž‘์—…์„ ๋๋‚ด์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค.
  • ๋ฐ˜๋ฉด DexMachina๋Š” ์ปค๋ฆฌํ˜๋Ÿผ์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์—†๋Š” ๊ฒฝ์šฐ ๋Œ€๋น„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์–ด, ๋ชจ๋“  ์†๊ณผ ๋ชจ๋“  ์ž‘์—…์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฐ ์ž‘์—… ์ด๋ฆ„์— -300์ด ๋ถ™์€ ์žฅ๊ธฐ ์‹œ๋‚˜๋ฆฌ์˜ค(์˜ˆ: Notebook-300, Waffleiron-300 ๋“ฑ)์—์„œ ๊ทธ ๊ฒฉ์ฐจ๊ฐ€ ๋‘๋“œ๋Ÿฌ์กŒ์Šต๋‹ˆ๋‹ค.

์ •๋Ÿ‰์  ์ˆ˜์น˜ ๋ฐ ๋ถ„์„:

  • DexMachina๋Š” ์ „๋ฐ˜์ ์ธ ํ‰๊ท  ์•ฝ 85% ์ˆ˜์ค€์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•˜์˜€๋Š”๋ฐ, ์ด๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์— ๋น„ํ•ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค.
  • ํŠนํžˆ ๋‹จ๊ธฐ ๊ณผ์ œ์˜ ๊ฒฝ์šฐ ๋ชจ๋“  ๋กœ๋ด‡ ์†์ด 70~90%์— ๋‹ฌํ•˜๋Š” ์ค€์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๊ณ , ์žฅ๊ธฐ ๊ณผ์ œ์—์„œ๋„ ๊ฐ€์žฅ ์–ด๋ ค์šด ์‹œ๋‚˜๋ฆฌ์˜ค(Waffleiron-300 ๋“ฑ)์กฐ์ฐจ ์„ฑ๊ณต๋ฅ  40~80% ๋ฒ”์œ„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋‚œ์ œ ํ•ด๊ฒฐ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ˜๋ฉด Aux Reward์ด๋‚˜ ์ปค๋ฆฌํ˜๋Ÿผ์ด ์—†์—ˆ๋˜ RL ์ •์ฑ…์€ ์žฅ๊ธฐ ๊ณผ์ œ์—์„œ 0~30% ์ˆ˜์ค€์— ๋จธ๋ฌด๋Š” ๋“ฑ ๋ถˆ์•ˆ์ •ํ•œ ๋ชจ์Šต์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ์ดˆ๊ธฐ ํƒ์ƒ‰ ์‹คํŒจ์™€ ์ ‘์ด‰ ํƒ€์ด๋ฐ ํ•™์Šต ๋ฏธ๋น„ ๋“ฑ์— ๊ธฐ์ธํ•ฉ๋‹ˆ๋‹ค.
  • DexMachina๋Š” ๊ฐ€์ƒ ์ œ์–ด๊ธฐ์˜ ์ดˆ๊ธฐ ๊ฐœ์ž… ๋•๋ถ„์— ์ด๋Ÿฌํ•œ ์‹คํŒจ ๊ตฌ๊ฐ„์„ ๊ฑด๋„ˆ๋›ฐ๊ณ  ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰, ์—ํ”ผ์†Œ๋“œ ๋ง๋ฏธ๊นŒ์ง€ ์ž„๋ฌด๋ฅผ ์™„์ˆ˜ํ•˜๋Š” ๋น„์œจ์„ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆฐ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์งˆ์  ๊ฒฐ๊ณผ: ์ ์‘์  ์ „๋žต์˜ ํ•™์Šต

  • ํฅ๋ฏธ๋กœ์šด ๊ฒƒ์€, DexMachina๋กœ ํ•™์Šต๋œ ์ •์ฑ…์ด ์ฃผ์–ด์ง„ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋งน๋ชฉ์ ์œผ๋กœ ๋ณต์ œํ•˜์ง€ ์•Š๊ณ , ๋กœ๋ด‡ ์ž์‹ ์˜ ์‹ ์ฒด์— ๋งž๊ฒŒ ์ „๋žต์„ ์žฌ๊ตฌ์„ฑํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด ๋…ธํŠธ๋ถ ๋ฎ๊ธฐ ์ž‘์—…์—์„œ, XHand ๋กœ๋ด‡ ์†์€ ์ธ๊ฐ„ ์‹œ์—ฐ๊ณผ ๋™์ผํ•˜๊ฒŒ ์™ผ์†์œผ๋กœ ๋…ธํŠธ๋ถ์„ ๋“ค๊ณ  ์˜ค๋ฅธ์†์œผ๋กœ ๋ฎ๊ฐœ๋ฅผ ๋‹ซ๋Š” ์ „๋žต์„ ๋”ฐ๋ผํ•œ ๋ฐ˜๋ฉด, ๋” ์ž‘๊ณ  ์ž์œ ๋„๊ฐ€ ๋‚ฎ์€ Inspire Hand๋Š” ์–‘์† ๋ชจ๋‘๋กœ ๋…ธํŠธ๋ถ์„ ์ง€ํƒฑํ•˜๋ฉด์„œ ๋ฎ๊ฐœ๋ฅผ ๋‹ซ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž„๋ฌด๋ฅผ ์™„์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋™์ผํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ์ฐธ๊ณ ํ–ˆ์Œ์—๋„ ๊ฐ ๋กœ๋ด‡์˜ ํฌ๊ธฐ์™€ ๊ด€์ ˆ ํ•œ๊ณ„์— ์ตœ์ ํ™”๋œ ๋™์ž‘์„ ์Šค์Šค๋กœ ์ฐพ์•„๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋น„์Šทํ•˜๊ฒŒ ๋ฏน์„œ๊ธฐ ๋šœ๊ป‘ ๋‹ซ๊ธฐ ์ž‘์—…์—์„œ๋Š”, Allegro Hand๊ฐ€ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๊ธด ์—„์ง€์†๊ฐ€๋ฝ์„ ํ™œ์šฉํ•ด ๋šœ๊ป‘์„ ๋ˆŒ๋Ÿฌ ๋‹ซ์€ ๋ฐ˜๋ฉด, ๊ตฌ์กฐ๊ฐ€ ๋‹ค๋ฅธ Schunk Hand๋Š” ์†๋ฐ”๋‹ฅ๊ณผ ์†๋ชฉ์„ ์ด์šฉํ•ด ๋šœ๊ป‘์„ ๋ฐ€์–ด ๋‹ซ๋Š” ๋“ฑ ์ƒ์ดํ•œ ์ ‘๊ทผ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ์ด๋Ÿฌํ•œ ์‚ฌ๋ก€๋“ค์€ DexMachina์˜ ์ •์ฑ…์ด ํ•˜๋“œ์›จ์–ด ์ œ์•ฝ์— ์ ์‘ํ•˜์—ฌ ๊ธฐ๋Šฅ์  ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฒ•์„ ํ•™์Šตํ–ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์‹œ์—ฐํ•œ ๋ฐฉ์‹์„ ๊ทธ๋Œ€๋กœ ํ‰๋‚ด๋‚ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์‹œ์—ฐ์˜ ์˜๋„๋ฅผ ์ดํ•ดํ•ด ๋กœ๋ด‡ ์ž์‹ ์˜ ๋ฐฉ์‹์œผ๋กœ ์ž„๋ฌด๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์† ์„ค๊ณ„ ๊ฐ„ ๋น„๊ต:

  • ์ €์ž๋“ค์€ ๋‚˜์•„๊ฐ€ ์ œ์•ˆํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™œ์šฉํ•œ ๋กœ๋ด‡ ์† ์„ค๊ณ„ ๋น„๊ต ์‹คํ—˜๋„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ํ•ธ๋“œ๋Š” ๋™์ผํ•œ ์ธ๊ฐ„ ์† ๋ชจ์…˜ ์ฐธ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์ •์ฑ…์ด ์‚ฌ๋žŒ์˜ ์ง€์นจ์—์„œ ๋ฒ—์–ด๋‚˜๋Š” ์ •๋„๋Š” ํ•ธ๋“œ ํฌ๊ธฐ์™€ ์šด๋™ํ•™์  ์ œ์•ฝ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.
  • ๋™์ผํ•œ ๋„ค ๊ฐ€์ง€ ์žฅ๊ธฐ ๊ณผ์ œ์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์†๋“ค์ด DexMachina๋กœ ํ•™์Šตํ–ˆ์„ ๋•Œ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, ๋” ํฐ ํฌ๊ธฐ์ด๋ฉด์„œ ๋ชจ๋“  ์†๊ฐ€๋ฝ์ด ๋Šฅ๋™ ๊ตฌ๋™๋˜๋Š” ์†์ผ์ˆ˜๋ก ํ•™์Šต ํšจ์œจ๊ณผ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ์ด ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด Schunk Hand๋‚˜ X-Hand๋Š” ์ž‘์€ Inspire Hand๋‚˜ Ability Hand๋ณด๋‹ค ์„ฑ๊ณต๋ฅ ๊ณผ ํ•™์Šต์†๋„ ๋ชจ๋‘ ์šฐ์ˆ˜ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋‹จ์ˆœํ•œ ํฌ๊ธฐ ์ฐจ์ด๋ฟ ์•„๋‹ˆ๋ผ ์ž์œ ๋„์˜ ์ฐจ์ด์—์„œ ๊ธฐ์ธํ•œ ๊ฒƒ์œผ๋กœ ๋ถ„์„๋ฉ๋‹ˆ๋‹ค.
  • ํฌ๊ธฐ๋ณด๋‹ค ์ž์œ ๋„(degrees of freedom, DOF)๊ฐ€ ๋” ์ค‘์š”ํ•œ ์„ฑ๋Šฅ ๊ฒฐ์ • ์š”์ธ์ž„์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํฐ ์‚ฌ์ด์ฆˆ์™€ ์™„์ „ํžˆ ์ž‘๋™ํ•˜๋Š” ํ•ธ๋“œ(fully-actuated hands)๋Š” ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์ตœ์ข… ์„ฑ๋Šฅ ๋ฉด์—์„œ ๋›ฐ์–ด๋‚˜๋ฉฐ, ๊ธด ์†๊ฐ€๋ฝ์„ ๊ฐ€์ง„ Allegro Hand๊ฐ€ ํŠนํžˆ ์šฐ์ˆ˜ํ•œ ์•ˆ์ •์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • ํฌ๊ธฐ๊ฐ€ ๋น„์Šทํ•œ Inspire, Ability, Schunk ํ•ธ๋“œ ์ค‘์—์„œ๋Š” Schunk ํ•ธ๋“œ๊ฐ€ ์†๊ฐ€๋ฝ ๋ ๋ถ€๋ถ„์ด ์ž‘๋™ํ•˜๊ณ  ์ ‘ํžˆ๋Š” ์†๋ฐ”๋‹ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด ํ‰๊ท ์ ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค.
  • ์ ๊ฒŒ ์ž‘๋™ํ•˜๋Š” ํ•ธ๋“œ๋“ค์€ ์ธ๊ฐ„ ์†๊ณผ ๋” ๋‹ฎ์•„ ๋ณด์ด์ง€๋งŒ ํ•™์Šต๋œ ์ „๋žต์€ ๋” ํฌ๊ณ  ๊ธฐ๋Šฅ์ ์ธ ํ•ธ๋“œ๋ณด๋‹ค ๋œ ์ธ๊ฐ„์ ์ž…๋‹ˆ๋‹ค.
  • ๊ฒฐ๊ณผ์ ์œผ๋กœ Inspire์™€ Ability ํ•ธ๋“œ๋Š” ์ฃผ์–ด์ง„ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์ „๋žต์„ ์ž์ฃผ ์„ ํƒํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ตฌ๋™ ๊ฐ€๋Šฅํ•œ ๊ด€์ ˆ ์ˆ˜(DoF)๊ฐ€ ๋งŽ์€ ์†์€ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” ๋Œ€์ฒด ๋™์ž‘์„ ์ฐพ๊ธฐ ์‰ฝ๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์— ์œ ๋ฆฌํ•˜๋ฉฐ, ๋ฐ˜๋Œ€๋กœ ์ธ๊ฐ„ ์† ํฌ๊ธฐ์— ๊ฐ€๊น๋”๋ผ๋„ ์ œ์•ฝ์ด ๋งŽ์€ ์†์€ ํ•™์Šต ๋‚œ์ด๋„๊ฐ€ ๋†’์•˜์Šต๋‹ˆ๋‹ค.
  • ์ด๋Ÿฌํ•œ ์ •๋Ÿ‰์  ๋น„๊ต๋Š” DexMachina๊ฐ€ ์ œ์‹œํ•œ ํ•˜๋‚˜์˜ ์ค‘์š”ํ•œ ํ™œ์šฉ ์˜ˆ๋กœ, ๋™์ผํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์•„๋ž˜ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์˜ ๊ธฐ๋Šฅ์  ์„ฑ๋Šฅ์„ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ํ•ธ๋“œ ์„ค๊ณ„์‹œ ์–ด๋–ค ๊ตฌ์กฐ๊ฐ€ ์‹ค์ œ ์ž‘์—…์— ์œ ๋ฆฌํ•œ์ง€ ๊ฐ€๋Š ํ•˜๋Š” ๋ฐ์—๋„ ํฐ ๋„์›€์„ ์ค„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

3. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต: DexMachina์˜ ๊ธฐ์—ฌ๋„์™€ ์ฐจ๋ณ„ํ™”

๋งˆ์ง€๋ง‰์œผ๋กœ, DexMachina๋ฅผ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„ ๊ธฐ์กด ํ”„๋ ˆ์ž„์›Œํฌ/๋…ผ๋ฌธ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ทธ ๊ธฐ์ˆ ์  ์œ„์น˜๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ํฌ๊ฒŒ (a) ๊ธฐ์กด ๋ฆฌํƒ€๊ฒŒํŒ… ๊ธฐ๋ฒ•, (b) ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ํ•™์Šต(RL/IL) ๊ธฐ๋ฒ•, (c) ์ตœ๊ทผ ๋ฐœํ‘œ๋œ ์œ ์‚ฌ ์—ฐ๊ตฌ ์„ธ ๋ฒ”์ฃผ๋กœ ๋‚˜๋ˆ„์–ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.

(a) ์ „ํ†ต์  ๋ฆฌํƒ€๊ฒŒํŒ… vs. DexMachina: ๊ณผ๊ฑฐ์˜ ์† ๋™์ž‘ ๋ฆฌํƒ€๊ฒŒํŒ… ๊ธฐ์ˆ ์€ ์ฃผ๋กœ ์ธ๊ฐ„ ์†๊ฐ€๋ฝ ๊ถค์ ์„ ๋กœ๋ด‡ ์†์œผ๋กœ ๋Œ€์‘์‹œ์ผœ๋ณด๋Š” ์ˆ˜์ค€์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด VR ์žฅ๊ฐ‘์ด๋‚˜ ๋ชจ์บก์œผ๋กœ ์ธ๊ฐ„ ์† ์›€์ง์ž„์„ ์ฝ์–ด ๋กœ๋ด‡ ์†๊ฐ€๋ฝ ๊ด€์ ˆ๋กœ ๋งคํ•‘ํ•˜๋Š”๋ฐ, ์ด๋Š” ๋กœ๋ด‡๊ณผ ์ธ๊ฐ„์˜ ํ˜•ํƒœ ์ฐจ์ด ๋•Œ๋ฌธ์— ์ถฉ๋Œ์„ ์ผ์œผํ‚ค๊ฑฐ๋‚˜ ๋ฌผ์ฒด๋ฅผ ์ œ๋Œ€๋กœ ์ฅ์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. Park ๋“ฑ(2025)์€ ์ด๋Ÿฌํ•œ ๊ธฐ์กด end-effector ์ •๋ ฌ ๊ธฐ๋ฐ˜ ๋ฆฌํƒ€๊ฒŒํŒ…์ด ๋น„ํ˜„์‹ค์ ์ธ ๋™์ž‘์„ ๋งŒ๋“ค๊ธฐ ์‰ฝ๋‹ค๊ณ  ์ง€์ ํ•˜๋ฉฐ, ์ธ๊ฐ„-๋กœ๋ด‡-๋ฌผ์ฒด ์‚ฌ์ด์˜ ๊ณต๋™ ๋ชจ์…˜ manifold๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋ณด๋‹ค ํ”Œ๋ผ์šฐ์ €๋ธ”(plausible)ํ•œ ๋กœ๋ด‡ ๋™์ž‘์„ ์–ป๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ๋ฐฉ๋ฒ•์€ ๋Œ€๋Ÿ‰์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ์ธ๊ฐ„-๋ฌผ์ฒด-๋กœ๋ด‡ ์‚ฌ์ด์˜ ๊ด€๊ณ„ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•œ ํ›„, ์ฃผ์–ด์ง„ ์ƒˆ๋กœ์šด ์‹œ์—ฐ์— ๋Œ€ํ•ด ๋กœ๋ด‡ ํ–‰๋™์„ ์ง์ ‘ ์ถ”๋ก ํ•˜๋Š” ์ ‘๊ทผ์œผ๋กœ, ์‹ค์ œ ๋กœ๋ด‡์— ์‹คํ—˜ํ•˜์—ฌ ๊ธฐ์กด ๋‹จ์ˆœ ๋งคํ•‘๋ณด๋‹ค ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์„ ์‹œ์—ฐํ–ˆ์Šต๋‹ˆ๋‹ค. DexMachina ์—ญ์‹œ ์ธ๊ฐ„ ์‹œ์—ฐโ†’๋กœ๋ด‡ ๋™์ž‘์ด๋ผ๋Š” ํฐ ํ๋ฆ„์€ ๊ฐ™์ง€๋งŒ, ์ ‘๊ทผ๋ฒ•์€ ์‚ฌ๋ญ‡ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. DexMachina๋Š” ๋ช…์‹œ์ ์œผ๋กœ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ RL๋กœ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ฏ€๋กœ, ์ค‘๊ฐ„์— ์ธ๊ฐ„ ๋ชจ๋ธ์„ ๋กœ๋ด‡์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ชจ์…˜ ์ƒ์„ฑ๊ธฐ๊ฐ€ ํ•„์š”ํ•œ ๋Œ€์‹ , ๊ฐ•ํ™”ํ•™์Šต ์ž์ฒด๊ฐ€ ๋ชจ์…˜์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ์จ ํ•œํŽธ์œผ๋กœ๋Š” ์‹œ์—ฐ์ด ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ๋„ (์ •์ฑ…์ด ํƒ์ƒ‰์„ ํ†ตํ•ด) ๋‹ต์„ ์ฐพ์•„๊ฐˆ ์ˆ˜ ์žˆ๊ณ , ๋‹ค๋ฅธ ํ•œํŽธ์œผ๋กœ๋Š” ํ•™์Šต๋œ ์ •์ฑ…์ด ์˜จ๋ผ์ธ์œผ๋กœ ๋ฌผ์ฒด ๋ฐ˜์‘์— ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ์–ด ๊ฐ•์ธ์„ฑ์„ ์–ป์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ DexMachina๋Š” ํ˜„์žฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์–ด ์ฆ‰์‹œ ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡์— ์ ์šฉ๋˜์ง€๋Š” ์•Š์•˜๋Š”๋ฐ, Park ๋“ฑ์˜ ์ ‘๊ทผ์€ ์• ์ดˆ์— ์‹ค๋ฌผ ๋กœ๋ด‡ ๋Œ€์ƒ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต/๊ฒ€์ฆ๋˜์—ˆ๋‹ค๋Š” ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ๊ธฐ์กด ๋ฆฌํƒ€๊ฒŒํŒ… ๊ธฐ๋ฒ•๋“ค์ด โ€œ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ํ•œ ๋ฒˆ์— ๋งคํ•‘โ€ํ•˜๋Š” ๊ฒฝํ–ฅ์ด๋ผ๋ฉด, DexMachina๋Š” โ€œ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์•ˆ์—์„œ ์ง์ ‘ ๋ฐฐ์šฐ๊ฒŒโ€ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฌธ์ œ๋ฅผ ํ‘ผ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ปค๋ฆฌํ˜๋Ÿผ์„ ํ†ตํ•œ ํƒ์ƒ‰ Aux๋ผ๋Š” ํ˜์‹ ์„ ์ถ”๊ฐ€ํ•˜์—ฌ, ์ธ๊ฐ„์ฒ˜๋Ÿผ ์–‘์† ํ˜‘์‘์ด ํ•„์š”ํ•œ ๋ณต์žกํ•œ ์ž‘์—…๋„ ์‹คํŒจ ์—†์ด ํ•™์Šตํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ์ ์ด ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค.

(b) ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(IL/RL) vs. DexMachina: ์ธ๊ฐ„ ์‹œ์—ฐ์„ ํ™œ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค์€ ๋ชจ๋ฐฉํ•™์Šต(IL)๊ณผ Reward ๊ฐ•ํ™”ํ•™์Šต(RL)๋กœ ํฌ๊ฒŒ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ๋ชจ๋ฐฉํ•™์Šต์˜ ๊ฒฝ์šฐ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ •์ฑ…์„ ๋ชจ๋ฐฉํ•˜๊ฒŒ ํ•˜๋Š”๋ฐ, ๋กœ๋ด‡ ์†์˜ ๊ฒฝ์šฐ ์ •ํ™•ํ•œ ๋กœ๋ด‡ํ–‰๋™-๊ฒฐ๊ณผ ํŽ˜์–ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ค์›Œ ์ œํ•œ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์žฅ๋น„(VR ์žฅ๊ฐ‘ ๋“ฑ)๋ฅผ ์ด์šฉํ•ด ์‚ฌ๋žŒ์ด ๋กœ๋ด‡ ์†์„ ์ง์ ‘ ์›๊ฒฉ์กฐ์ž‘ํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์€ ์—ฐ๊ตฌ๋“ค์ด ๋‹ค์ˆ˜ ์žˆ์—ˆ์œผ๋‚˜, ํŠน์ • ๋กœ๋ด‡์— ์‹œ์Šคํ…œ์„ ํŠนํ™”ํ•ด์•ผ ํ•˜๊ณ  ์ฃผ๋กœ ๋‹จ์ˆœ ์ง‘๊ธฐ(grasp) ๋“ฑ ์งง์€ ์ž‘์—…์— ๋จธ๋ฌด๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด DexMachina๋Š” ๋‹จ ํ•œ ๋ฒˆ์˜ ์ธ๊ฐ„ ์‹œ์—ฐ๋งŒ์œผ๋กœ๋„ ๊ธด ์ž‘์—…์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ๊ณ , ์ธ๊ฐ„-๋กœ๋ด‡ ์‚ฌ์ด์˜ ์ž์„ธํ•œ ๋งคํ•‘ ๋ฐ์ดํ„ฐ ์—†์ด๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์—์„œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•œํŽธ ๊ฐ•ํ™”ํ•™์Šต+์‹œ์—ฐ ํ˜ผํ•ฉ ๊ธฐ๋ฒ•์œผ๋กœ 2018๋…„ DAPG ๋“ฑ์ด ์ธ๊ฐ„ ์‹œๆผ”์„ ์ดˆ๊ธฐ ์ •์ฑ…์œผ๋กœ ํ™œ์šฉํ•˜๊ณ  ์ถ”๊ฐ€ RL ํ›ˆ๋ จ์„ ํ†ตํ•ด ์„ฑ๊ณผ๋ฅผ ๋‚ธ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ DAPG๋Š” ๋ฌธ ์†์žก์ด ๋Œ๋ฆฌ๊ธฐ ๋“ฑ ๋‹จ์ผ ์†์˜ ๋น„๊ต์  ์งง์€ ์ž‘์—…์„ ๋Œ€์ƒ์œผ๋กœ ํ–ˆ๊ณ , Reward๋„ ์‹œ์—ฐ ๋ชจ์…˜ ๋ชจ๋ฐฉ๊ณผ ์ž‘์—… ์™„๋ฃŒ ์‹ ํ˜ธ๋ฅผ ์ˆ˜๋™ ์„ค์ •ํ•˜๋Š” ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. DexMachina๋Š” ์ด๋Ÿฌํ•œ ์„ ํ–‰๋“ค์˜ ๊ตํ›ˆ โ€“ ์‹œ์—ฐ์ด ์ฃผ๋Š” ํƒ์ƒ‰ ๊ฐ€์ด๋“œ ํšจ๊ณผ โ€“ ์„ ๋ฐ›์•„๋“ค์ด๋ฉด์„œ๋„, Reward ์‹ ํ˜ธ๋ฅผ ์ž๋™์œผ๋กœ ๊ตฌ์„ฑํ•˜๊ณ  ์™ธ๋ ฅ ์ง€์›์œผ๋กœ ํƒ์ƒ‰ ํšจ์œจ์„ ๋†’์ด๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๊ฐœ์„ ์„ ํ†ตํ•ด ๋ฌธ์ œ ๋‚œ์ด๋„๋ฅผ ํ•œ ๋‹จ๊ณ„ ๋Œ์–ด์˜ฌ๋ฆฐ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์žฅ๊ธฐ๊ฐ„์˜ ์—ฐ์†์ ์ธ ๋ฌผ์ฒด ์กฐ์ž‘์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์˜์—ญ์—์„œ ์‹œ์—ฐ+RL์˜ ์œ„๋ ฅ์„ ์ž…์ฆํ•œ ์ ์€ ํ•™์ˆ ์ ์œผ๋กœ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค.

(c) ์ตœ์‹  ์œ ์‚ฌ ์—ฐ๊ตฌ๋“ค๊ณผ์˜ ๋น„๊ต: DexMachina์™€ ๊ฐ™์€ ์‹œ๊ธฐ์— ๋ฐœํ‘œ๋œ ๋ช‡๋ช‡ ์—ฐ๊ตฌ๋“ค๋„ ์–‘์† ์กฐ์ž‘ ํ•™์Šต์— ๋„์ „ํ•˜๊ณ  ์žˆ์–ด ํฅ๋ฏธ๋กœ์šด ๋น„๊ต๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ManipTrans (Li et al., CVPR 2025)๋Š” DexMachina์™€ ๋™์ผํ•˜๊ฒŒ ์ธ๊ฐ„์˜ ์–‘์† ๊ธฐ์ˆ ์„ ๋กœ๋ด‡์— ์ „์ดํ•˜๋Š” ๋ชฉํ‘œ๋ฅผ ๊ฐ–๋˜, โ€œ๋‘ ๋‹จ๊ณ„โ€๋กœ ์ ‘๊ทผํ•œ ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. ๋จผ์ € ์ธ๊ฐ„ ์‹œ์—ฐ์„ ํ‰๋‚ด๋‚ด๋Š” ํŠธ๋ž˜์ ํ† ๋ฆฌ ๋ชจ๋ฐฉ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ ๋’ค, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž”์—ฌ ์ •์ฑ…(residual policy)์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ์ „ํ•™์Šต+๋ฏธ์„ธ์กฐ์ • ๋ฐฉ์‹์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ ๋†’์ด๊ณ  ํ•™์Šต์„ ๊ฐ€์†ํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์–ด, ์ €์ž๋“ค์€ ๋‹ค์–‘ํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ๊ฑฐ๋Œ€ํ•œ DexManipNet์ด๋ผ๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ์…‹๊นŒ์ง€ ๊ตฌ์ถ•ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ManipTrans ์—ญ์‹œ ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์ง€๋งŒ, ์ •์ฑ… ์ตœ์ข… ์„ฑ๋Šฅ ์ธก๋ฉด์—์„œ๋Š” DexMachina๊ฐ€ ์•ž์„œ๋Š” ๊ฒƒ์œผ๋กœ DexMachina ๋…ผ๋ฌธ ์‹คํ—˜์—์„œ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค (์œ„ ๊ฒฐ๊ณผ ๊ทธ๋ž˜ํ”„์—์„œ ๊ฐˆ์ƒ‰ ๋ง‰๋Œ€ ๋น„๊ต). ์ด๋Š” ์ž”์—ฌ ํ•™์Šต๋‹จ๊ณ„์˜ ์ œํ•œ์  ํƒ์ƒ‰๋ณด๋‹ค DexMachina์˜ ์ดˆ๊ธฐ๋ถ€ํ„ฐ ๋๊นŒ์ง€ RL๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ์ ‘๊ทผ์ด ์žฅ๊ธฐ์ ์œผ๋กœ ๋” ๋‚˜์€ ์†”๋ฃจ์…˜์„ ์ฐพ์•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ManipTrans๋Š” ์‹œ์—ฐ ๋ชจ๋ฐฉ ๋ชจ๋ธ ๋•๋ถ„์— 3์ฒœ ๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—… ์—ํ”ผ์†Œ๋“œ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•œ ๋ฐ˜๋ฉด, DexMachina๋Š” ๊ฐ ์ž‘์—…๋ณ„ ํ•œ ๊ฐœ์˜ ์‹œ์—ฐ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ผ๋Œ€์ผ ์ „์ด ํ•™์Šต ํšจ์œจ์€ DexMachina๊ฐ€ ๋†’์ง€๋งŒ, ๋Œ€๋Ÿ‰์˜ ์‹œ์—ฐ์„ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ์ธก๋ฉด์€ ManipTrans ์ชฝ์ด ๋ฐฉํ–ฅ์„ฑ์ด ๋‹ค๋ฅด๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ ํ•˜๋‚˜ ์ฃผ๋ชฉํ•  ๊ฒƒ์€ ์‹ค์ œ๋กœ๋ด‡ ์ ์šฉ์ธ๋ฐ, ManipTrans ์ชฝ์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ด์‹ํ•˜๋Š” ์‹คํ—˜์„ ์‹œ๋„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. DexMachina๋Š” ํ˜„์žฌ ๊ฒฐ๊ณผ๊ฐ€ ๋ชจ๋‘ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์ด์ง€๋งŒ, ์ •๋ฐ€ํ•œ ์ƒํƒœ ์ž…๋ ฅ์— ์˜์กดํ•˜๊ณ  ์žˆ์–ด ์‹œ๊ฐ์„ผ์„œ ๊ธฐ๋ฐ˜ ์ •์ฑ…์œผ๋กœ์˜ ํ™•์žฅ์€ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค๋„ ํ–ฅํ›„ ๋น„์ „ ๊ธฐ๋ฐ˜ RL ์ •์ฑ…์ด๋‚˜ ๊ณ ๊ธ‰ ์„ผ์„œ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์„ ํ†ตํ•ด ์‹ค์„ธ๊ณ„ ์ ์šฉ์„ ๋ชจ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, Videodex (Shaw et al., 2022)๋‚˜ XSkill (Xu et al., 2023)์ฒ˜๋Ÿผ ์‚ฌ์ „ ๋…นํ™” ๋™์˜์ƒ์ด๋‚˜ ๋‹ค๋ฅธ ๋กœ๋ด‡์˜ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ„์ ‘์ ์œผ๋กœ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๋Š” ์‹œ๋„๋“ค๋„ ์žˆ์Šต๋‹ˆ๋‹ค. Videodex๋Š” ์›น ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ์ธ๊ฐ„์˜ ์กฐ์ž‘ ์‹œํ€€์Šค๋ฅผ ์ถ”์ถœํ•ด ๋กœ๋ด‡์— ํ•™์Šต์‹œ์ผฐ๊ณ , XSkill์€ ๊ต์ฐจ ํ˜•ํƒœ ๊ฐ„(skill transfer across embodiments) ์œ ์šฉํ•œ ์Šคํ‚ฌ์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋“ค์€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅด์ง€๋งŒ, ๋กœ๋ด‡์ด ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ๋‹ค์–‘ํ•œ ์กฐ์ž‘์„ ๋ฐฐ์šฐ๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•œ๋‹ค๋Š” ์ ์—์„œ DexMachina์™€ ๋งฅ์„ ๊ฐ™์ด ํ•ฉ๋‹ˆ๋‹ค. DexMachina์˜ ๊ฐ€์น˜๋Š” ํŠนํžˆ ๊ณ ํ’ˆ์งˆ์˜ ํ•œ์ •๋œ ์‹œ์—ฐ์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ์ž„๋ฌด๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ์ชฝ์— ์žˆ๋Š”๋ฐ, ์ด๋Š” ํ–ฅํ›„ ๋น„๋””์˜ค๋‚˜ ์ €ํ•ด์ƒ๋„ ๋ฐ์ดํ„ฐ์—๋„ ์‘์šฉ๋  ์ˆ˜ ์žˆ๋Š” ํ†ต์ฐฐ์„ ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ AnyTeleop (Qin et al., 2023) ๊ฐ™์€ ์›๊ฒฉ ์กฐ์ž‘ ์‹œ์Šคํ…œ๋“ค์€ ์‚ฌ๋žŒ์˜ ์ฆ‰๊ฐ์ ์ธ ์กฐ์ž‘์„ ๋กœ๋ด‡์œผ๋กœ ํˆฌ์˜ํ•˜์—ฌ ๋ณต์žกํ•œ ์ž„๋ฌด๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋Š”๋ฐ, DexMachina๋Š” ํ•œ ๊ฑธ์Œ ๋” ๋‚˜์•„๊ฐ€ ์ด๋Ÿฌํ•œ ์ธ๊ฐ„ ๊ฐœ์ž… ์—†์ด๋„ ์ž์œจ ์ •์ฑ…์œผ๋กœ ์ž„๋ฌด๋ฅผ ์ง€์† ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ์ ์—์„œ ์™„์ „์ž์œจ์„ฑ์— ํ•œ์ธต ๊ฐ€๊นŒ์›Œ์กŒ์Šต๋‹ˆ๋‹ค.

Conclusion

DexMachina๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ์–‘์† ๋กœ๋ด‡ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๋ฐฐ์šฐ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ํ˜„์žฌ ํ™œ๋ฐœํ•œ ์„ฌ์„ธ ์กฐ์ž‘(dexterous manipulation) ์—ฐ๊ตฌ ๋ถ„์•ผ์— ํฐ ์ง„์ „์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ๋ฐฉ๋ฒ•๋ก ์ ์œผ๋กœ ๋ณด๋ฉด, Reward ์„ค๊ณ„์˜ ์ž๋™ํ™”์™€ ์ปค๋ฆฌํ˜๋Ÿผ์„ ํ†ตํ•œ ํƒ์ƒ‰ ์ง€์›์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ทจ์•ฝ์ ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์™„ํ•œ ์ ์ด ๋‹๋ณด์ž…๋‹ˆ๋‹ค. ์‹คํ—˜์ ์œผ๋กœ๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ์šฐ์œ„๋ฅผ ์ฆ๋ช…ํ•จ์œผ๋กœ์จ, ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ๋ฒ”์šฉ์„ฑ๊ณผ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ•˜๋“œ์›จ์–ด ์„ฑ๋Šฅ์„ ๋น„๊ต ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ด€์ ์€, ํ–ฅํ›„ ๋กœ๋ด‡ ์† ๊ฐœ๋ฐœ์ž๋“ค์ด ๋””์ž์ธ ์„ ํƒ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐ์—๋„ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๋„ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด DexMachina๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒํƒœ์ •๋ณด์— ํฌ๊ฒŒ ์˜์กดํ•˜๊ณ  ์žˆ์–ด, ์ด๋ฅผ ์‹ค์„ธ๊ณ„ ์„ผ์„œ ์ž…๋ ฅ(์‹œ๊ฐ/์ด‰๊ฐ)์œผ๋กœ ์˜ฎ๊ธฐ๋Š” ์ž‘์—…์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ํ˜„์‹ค์—์„œ๋Š” ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ๊ต๋ž€์ด๋‚˜ ๋ฌผ์ฒด ๋ชจ๋ธ์˜ ๋ถˆํ™•์‹ค์„ฑ ๋“ฑ์ด ์กด์žฌํ•˜๋ฏ€๋กœ, ์ •์ฑ…์ด ์˜ค๋ฅ˜ ๋ณต๊ตฌ๋‚˜ ์ ์‘์  ์žฌ๊ณ„ํš์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ•ํ™”ํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์ค‘์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ธก๋ฉด์—์„œ๋Š”, ํ˜„์žฌ๋Š” ์‚ฌ๋žŒ ์‹œ์—ฐ์„ ๋ณ„๋„๋กœ ์บก์ณํ•ด์•ผ ํ•˜์ง€๋งŒ, ๋ฏธ๋ž˜์—๋Š” 3D ๋น„์ „์ด๋‚˜ ๋ชจ์…˜ ์บก์ณ ์ž๋™ํ™” ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์œผ๋กœ ๋ณด๋‹ค ์†์‰ฝ๊ฒŒ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์™„์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด DexMachina์˜ ์ ‘๊ทผ๋ฒ•์€ ์‚ฐ์—… ํ˜„์žฅ์ด๋‚˜ ์„œ๋น„์Šค ๋กœ๋ด‡์—์„œ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋„๊ตฌ๋ฅผ ๋‹ค๋ฃจ๊ณ  ํ˜‘์—…ํ•˜๋Š” ๋กœ๋ด‡์„ ํ›ˆ๋ จํ•˜๋Š” ๋ฐ ํฐ ์—ญํ• ์„ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, DexMachina๋Š” ๊ธฐ๋Šฅ์  ๋ฆฌํƒ€๊ฒŒํŒ…์ด๋ผ๋Š” ๊ฐœ๋…์„ ํ†ตํ•ด ๋กœ๋ด‡์—๊ฒŒ โ€œ๋™์ž‘์˜ ํ˜•ํƒœโ€๋ณด๋‹ค โ€œ๋™์ž‘์˜ ๋ชฉ์ โ€์„ ๊ฐ€๋ฅด์น˜๋Š” ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ๋‹ค์žฌ๋‹ค๋Šฅํ•œ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์‹คํ˜„ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋ฉฐ, ํ˜„์žฌ ์ง„ํ–‰ ์ค‘์ธ ๋งŽ์€ ํ›„์† ์—ฐ๊ตฌ๋“ค์˜ ๊ธฐ๋ฐ˜์ด ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ์‹œ์—ฐํ•˜๊ณ  ๋กœ๋ด‡์ด ๋ฐฐ์›Œ์„œ ์ž๊ธฐ๋งŒ์˜ ๋ฐฉ์‹์œผ๋กœ ์ž„๋ฌด๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ์Šต์€, ๊ถ๊ทน์ ์œผ๋กœ ํœด๋จผ-๋กœ๋ด‡ ํ˜‘์—…๊ณผ ์ž์œจ ๊ธฐ์ˆ  ํ•™์Šต์˜ ์ ‘์ ์—์„œ ๋งค์šฐ ์œ ๋งํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee