Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • 1. ๋ฐฉ๋ฒ•๋ก  (Methodology)
      • 1.1 ๋‹จ์ผ ์นด๋ฉ”๋ผ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ๋ฐ๋ชจ ์ˆ˜์ง‘
      • 1.2 ๋‹ค์ค‘ ๋กœ๋ด‡ ์†์œผ๋กœ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜ (Multi-Hand Demonstration Translation)
      • 1.3 ๋ชจ๋ฐฉ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ •์ฑ… ํ•™์Šต
    • 2. ์‹คํ—˜ ์„ค์ •๊ณผ ๊ฒฐ๊ณผ ํ‰๊ฐ€ (Experiments and Results)
      • 2.1 ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ๊ณผ์ œ ๊ตฌ์„ฑ
      • 2.2 ์‚ฌ์šฉ์ž ์›๊ฒฉ์กฐ์ž‘ ์‹คํ—˜: ์ปค์Šคํ…€ ์† vs. ๊ธฐ์กด ๋กœ๋ด‡ ์†
      • 2.3 ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ ๋น„๊ต: RL vs. ๋ชจ๋ฐฉ ํ•™์Šต
      • 2.4 ์ถ”๊ฐ€ ์‹คํ—˜: Ablation ๋ฐ ์˜ํ–ฅ ์š”์†Œ ๋ถ„์„
      • 2.5 ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡์—์˜ ์ ์šฉ ๋ฐ ์„ฑ๋Šฅ
    • 3. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต (Comparison with Prior Work)

๐Ÿ“ƒFrom One Hand to Multiple Hands ๋ฆฌ๋ทฐ

il
rl
vision
Imitation Learning for Dexterous Manipulation from Single-Camera Teleoperation
Published

August 11, 2025

  • Paper Link
  • Project Link
  • Code Link
  1. ๐Ÿ’ก ์ด ์—ฐ๊ตฌ๋Š” ๋‹จ์ผ ์นด๋ฉ”๋ผ ์›๊ฒฉ ์กฐ์ž‘ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ๋‹ค์ค‘ ์†๊ฐ€๋ฝ ๋กœ๋ด‡์˜ ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘์„ ์œ„ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿค– ๋ณธ ์‹œ์Šคํ…œ์€ iPad๋กœ ์ธ๊ฐ„์˜ ์†์„ ์ดฌ์˜ํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ๋งž์ถคํ˜• ๋กœ๋ด‡ ์†์„ ์ƒ์„ฑํ•œ ํ›„, ์ด ๋ฐ์ดํ„ฐ๋ฅผ Allegro, Schunk ๋“ฑ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ์‹ค์ œ ๋กœ๋ด‡ ์†์— ๋งž๊ฒŒ ์˜คํ”„๋ผ์ธ์œผ๋กœ ๋ฆฌํƒ€๊ฒŸํŒ…ํ•˜์—ฌ ๋ชจ๋ฐฉ ํ•™์Šต์— ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿ† ์ œ์•ˆ๋œ ๋ฐฉ์‹์œผ๋กœ ์ˆ˜์ง‘๋œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ฐฉ ํ•™์Šต ์ •์ฑ…์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , Sim2Real ์ „ํ™˜ ์‹œ ๋” ๊ฒฌ๊ณ ํ•˜๊ณ  ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Brief Review

๋ณธ ๋…ผ๋ฌธ์€ ๋‹จ์ผ ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(teleoperation)์„ ํ†ตํ•ด ์ˆ™๋ จ๋œ ์กฐ์ž‘(dexterous manipulation)์„ ์œ„ํ•œ ์ธ๊ฐ„ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ(human demonstration data)๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ ์ด์šฉํ•˜์—ฌ ๋‹ค์ง€(multi-finger) ๋กœ๋ด‡ ํ•ธ๋“œ์— ๋Œ€ํ•œ Imitation Learning ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์„ฑ๊ณต์ ์œผ๋กœ ์ „์ด(transfer)์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

I. ์†Œ๊ฐœ

๋‹ค์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ์ด์šฉํ•œ Dexterous Manipulation์€ ๋กœ๋ด‡๊ณตํ•™์—์„œ ๊ฐ€์žฅ ๋„์ „์ ์ด๊ณ  ์ค‘์š”ํ•œ ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํ•ธ๋“œ์™€ ์กฐ์ž‘ ๋Œ€์ƒ ๊ฐ„์˜ ๋ณต์žกํ•œ ์ ‘์ด‰ ํŒจํ„ด์€ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์–ด๋ ต๊ณ , ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ ์ ‘์ด‰์ด ๋งŽ์€ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ์ œ์–ด๊ธฐ๋ฅผ ์ˆ˜๋™์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ Reinforcement Learning (RL)์ด ์œ ๋งํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ๋†’์€ Degree-of-Freedom (DoF)๊ณผ ๋ถˆ์—ฐ์†์ ์ธ ์ ‘์ด‰์€ RL ์ •์ฑ… ํ›ˆ๋ จ์˜ ์ƒ˜ํ”Œ ๋ณต์žก์„ฑ(sample complexity)์„ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค. ๋˜ํ•œ, RL ๋ณด์ƒ์„ ํ†ตํ•œ ๋ธ”๋ž™๋ฐ•์Šค ์ตœ์ ํ™”๋Š” ์˜ˆ์ƒ์น˜ ๋ชปํ•˜๊ฑฐ๋‚˜ ์•ˆ์ „ํ•˜์ง€ ์•Š์€ ํ–‰๋™์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ์ˆ˜์ง‘๋œ ์ธ๊ฐ„ ์‹œ๋ฒ”์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ Dexterous Manipulation์„ ์œ„ํ•œ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ•ด๊ฒฐ์ฑ…์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์€ Virtual Reality (VR) ์žฅ์น˜๋‚˜ ์œ ์„  ๊ธ€๋Ÿฌ๋ธŒ(wired gloves)๋ฅผ ํ•„์š”๋กœ ํ•˜์—ฌ ์œ ์—ฐ์„ฑ๊ณผ ํ™•์žฅ์„ฑ(scalability)์ด ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. Vision-based ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ํŠน์ˆ˜ ์žฅ๋น„ ์ฐฉ์šฉ์˜ ํ•„์š”์„ฑ์„ ์—†์•  ๋น„์šฉ์„ ์ ˆ๊ฐํ•˜๊ณ  ํ™•์žฅ์„ฑ์„ ๋†’์ด์ง€๋งŒ, ์ธ๊ฐ„ ์† ์›€์ง์ž„์„ ๋กœ๋ด‡ ์† ์›€์ง์ž„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ชจ์…˜ ๋ฆฌํƒ€๊ฒŸํŒ…(Motion Retargeting)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์ด ์ง๊ด€์ ์ด์ง€ ์•Š์œผ๋ฉด ์ธ๊ฐ„ ์ž‘์—…์ž๊ฐ€ ๋กœ๋ด‡์„ ์ œ์–ดํ•˜๊ธฐ ์–ด๋ ต๊ณ , ํŠน์ • ๋กœ๋ด‡ ์†์œผ๋กœ ์ˆ˜์ง‘๋œ ์‹œ๋ฒ”์€ ๋™์ผํ•œ ๋กœ๋ด‡์—์„œ๋งŒ Imitation Learning์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋„์ „ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ผ ์นด๋ฉ”๋ผ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ iPad์™€ ์ปดํ“จํ„ฐ๋งŒ์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ 3D ์‹œ๋ฒ”์„ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(physical simulator) ๋‚ด์—์„œ ๊ฐ ์‚ฌ์šฉ์ž์— ๋Œ€ํ•ด ์‚ฌ์šฉ์ž ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ(customized robot hand)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด ํ•ธ๋“œ๋Š” ์ž‘์—…์ž ์†๊ณผ ๋™์ผํ•œ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ฐฉํ•˜์—ฌ ์ง๊ด€์ ์ธ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ณ  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ ๋ถˆ์•ˆ์ •ํ•œ ์ธ๊ฐ„-๋กœ๋ด‡ ํ•ธ๋“œ ๋ฆฌํƒ€๊ฒŸํŒ…์„ ํ”ผํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ›„, ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ์˜ ๊ถค์ (trajectory)์€ ๋‹ค์–‘ํ•œ ์‹ค์ œ ๋กœ๋ด‡ ํ•ธ๋“œ(์˜ˆ: Schunk Robot Hand, Adroit Robot Hand, Allegro Robot Hand)๋กœ ๋ณ€ํ™˜๋˜์–ด ํ›ˆ๋ จ ์‹œ๋ฒ”์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐ์ดํ„ฐ์™€ Imitation Learning์„ ํ†ตํ•ด ์—ฌ๋Ÿฌ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๊ธฐ์กด baseline ๋Œ€๋น„ ํฐ ๊ฐœ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ํ•™์Šต๋œ ์ •์ฑ…์ด ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ „์ด๋  ๋•Œ ํ›จ์”ฌ ๋” ๊ฐ•๊ฑดํ•จ(robust)์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

II. ์ œ์•ˆํ•˜๋Š” ์‹œ์Šคํ…œ ๊ฐœ์š”

์ œ์•ˆํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹ค์Œ ์„ธ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค (๊ทธ๋ฆผ 2 ์ฐธ์กฐ):

  1. Customized Hand Teleoperation: iPad์—์„œ RGB-D ๋น„๋””์˜ค ์ŠคํŠธ๋ฆฌ๋ฐ์„ ํ†ตํ•ด ์ž‘์—…์ž์˜ ์† ๋ชจ์–‘์„ ์ถ”์ •ํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ์‚ฌ์šฉ์ž ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์ž‘์—…์ž๋Š” ์ด ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ์ œ์–ดํ•˜์—ฌ Dexterous Manipulation ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์‹œ๊ฐ„๋‹น ์•ฝ 60๊ฐœ์˜ ์„ฑ๊ณต์ ์ธ ์‹œ๋ฒ”์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. Multi-Robots Demonstration Translation: ๋งž์ถคํ˜• ํ•ธ๋“œ๋กœ ์ˆ˜์ง‘๋œ ์‹œ๋ฒ” ๊ถค์ ์„ ์˜คํ”„๋ผ์ธ์—์„œ Motion Retargeting ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์‹ค์ œ ๋กœ๋ด‡ ํ•ธ๋“œ(Schunk, Allegro, Adroit Robot Hand ๋“ฑ)์˜ ์ƒํƒœ-์•ก์…˜ ๊ถค์ (joint position ๋ฐ motor command)์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณ€ํ™˜์€ ์†์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ, DoF, ์‹ฌ์ง€์–ด ์†๊ฐ€๋ฝ ๊ฐœ์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ๋กœ๋ด‡์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  3. Demonstration-Augmented Policy Learning: ๋ณ€ํ™˜๋œ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Dexterous Manipulation ์ •์ฑ…์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” RL ๋ชฉ์  ํ•จ์ˆ˜์— ์‹œ๋ฒ”์„ ์‚ฌ์šฉํ•˜์—ฌ Behavior Cloning์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค (Demo Augmented Policy Gradient, DAPG). ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” RL ๋‹จ๋…์œผ๋กœ๋Š” ์ž˜ ํ•ด๊ฒฐ๋˜์ง€ ์•Š๋Š” ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ํšจ์œจ์ ์œผ๋กœ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

ํ•™์Šต๋œ ์ •์ฑ…์€ XArm-6 ๋กœ๋ด‡์— ๋ถ€์ฐฉ๋œ ์‹ค์ œ Allegro Hand๋กœ Sim2Real ์ „์ด ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€์œผ๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์˜ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์— ํ†ตํ•ฉํ•จ์œผ๋กœ์จ Sim2Real ๊ฐญ(gap)์— ๋Œ€ํ•œ ์ •์ฑ…์˜ ๊ฐ•๊ฑดํ•จ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

III. Customized Hand Teleoperation

ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์€ iPad์™€ ๋…ธํŠธ๋ถ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค (๊ทธ๋ฆผ 3 ์ฐธ์กฐ). iPad์˜ ์ „๋ฉด ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 25fps๋กœ ์ธ๊ฐ„ ์ž‘์—…์ž์˜ RGB-D ๋น„๋””์˜ค๋ฅผ ์ŠคํŠธ๋ฆฌ๋ฐํ•ฉ๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ์€ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ, ์ธ๊ฐ„ ๋™์ž‘์„ ํฌ์ฐฉํ•˜๋Š” Hand Detector, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ์‹œ๊ฐํ™”ํ•˜๋Š” GUI๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

A. Task Description

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์€ SAPIEN [47]์—์„œ ๊ตฌ์ถ•๋˜์—ˆ์œผ๋ฉฐ, ์„ธ ๊ฐ€์ง€ Dexterous Manipulation ์ž‘์—…์ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  • Relocate: ๋กœ๋ด‡์ด ๋ฌผ์ฒด(์˜ˆ: YCB dataset์˜ Tomato Soup Can, Potted Meat Can, Mustard Bottle)๋ฅผ ๋“ค์–ด ๋ชฉํ‘œ ์œ„์น˜๋กœ ์˜ฎ๊น๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ๋ฐ ๋ชฉํ‘œ ํฌ์ฆˆ๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •๋˜๋Š” ๋ชฉํ‘œ-์กฐ๊ฑด๋ถ€(goal-conditioned) ์ž‘์—…์ž…๋‹ˆ๋‹ค (๊ทธ๋ฆผ 1, ์ฒซ์งธ ์ค„).
  • Flip: ๋กœ๋ด‡์ด ํ…Œ์ด๋ธ” ์œ„์˜ ๋จธ๊ทธ์ปต์„ ๋’ค์ง‘์Šต๋‹ˆ๋‹ค. ๋จธ๊ทธ์ปต์˜ ์œ„์น˜์™€ ์ค‘๋ ฅ ๋ฐฉํ–ฅ์„ ๋”ฐ๋ผ ์ˆ˜ํ‰ ํšŒ์ „์ด ๋ฌด์ž‘์œ„๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค (๊ทธ๋ฆผ 1, ๋‘˜์งธ ์ค„).
  • Open Door: ๋กœ๋ด‡์ด ๋ฌธ ์†์žก์ด๋ฅผ ๋Œ๋ ค ๋ฌธ์„ ์ž ๊ธˆ ํ•ด์ œํ•œ ๋‹ค์Œ ๋‹น๊ฒจ์„œ ๋ฌธ์„ ์—ฝ๋‹ˆ๋‹ค. ๋ฌธ์˜ ์œ„์น˜๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค (๊ทธ๋ฆผ 1, ์…‹์งธ ์ค„).

B. Hand Detector

Hand Detector๋Š” RGB-D ํ”„๋ ˆ์ž„์„ ์ž…๋ ฅ๋ฐ›์•„ ์†๋ชฉ ํฌ์ฆˆ, ์† ํฌ์ฆˆ ํŒŒ๋ผ๋ฏธํ„ฐ, ์† ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. MediaPipe [49]์™€ FrankMocap [50]์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. MediaPipe hand tracker๋กœ ์† ์˜์—ญ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ๊ฐ์ง€ํ•˜๊ณ , ์ด๋ฅผ FrankMocap ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์—ฌ SMPL-X [51] ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ํฌ์ฆˆ ๋ฐ ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. SMPL-X ๋ชจ๋ธ์€ ์†์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ณ€ํ˜•์— ๋Œ€ํ•œ ํฌ์ฆˆ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์†์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ถ”์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ PnP (Perspective-n-Point) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ์†๋ชฉ์˜ ์นด๋ฉ”๋ผ ๋ณ€ํ™˜์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

C. Customized Robot Hand

๋ณธ ์‹œ์Šคํ…œ์€ ๊ฐ ์‚ฌ์šฉ์ž์˜ ์† ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐํ™” ์‹œ ์ถ”์ •๋œ ์† ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋ถ€ํ„ฐ ์ธ๊ฐ„ ์†์˜ ๊ด€์ ˆ ๊ณจ๊ฒฉ(joint skeleton)์„ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ๋™์ผํ•œ ์šด๋™ํ•™์  ๊ตฌ์กฐ(kinematics structure)๋ฅผ ๊ฐ€์ง„ ๋กœ๋ด‡ ๋ชจ๋ธ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค (๊ทธ๋ฆผ 4 ์ฐธ์กฐ). ํšจ์œจ์ ์ธ ์ถฉ๋Œ ๊ฐ์ง€ ๋ฐ ์•ˆ์ •์ ์ธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์œ„ํ•ด ์†๋ฐ”๋‹ฅ์€ ์ƒ์ž, ์†๊ฐ€๋ฝ์€ ์บก์А๊ณผ ๊ฐ™์€ ๊ธฐ๋ณธ ๋„ํ˜•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋งž์ถคํ˜• ํ•ธ๋“œ๋Š” SMPL-X ๋ชจ๋ธ๊ณผ ์ผ์น˜ํ•˜๋Š” 45 DoF (15 * 3)๋ฅผ ๊ฐ€์ง€๋ฉฐ, Motion Retargeting ์—†์ด ๊ฐ์ง€๋œ ํฌ์ฆˆ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ง์ ‘ ์ œ์–ด๋ฉ๋‹ˆ๋‹ค (ํ‘œ I ์ฐธ์กฐ).

Customized Robot Hand์˜ ๊ด€์ ˆ ๊ฐ๋„๋Š” PD controller๋กœ ์ œ์–ด๋ฉ๋‹ˆ๋‹ค. ์ถ”์ •๋œ ํฌ์ฆˆ๋Š” ์ €์—ญ ํ†ต๊ณผ ํ•„ํ„ฐ(low-pass filter)๋ฅผ ๊ฑฐ์ณ ์œ„์น˜ ๋ชฉํ‘œ(position target)๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์‹œ๊ฐ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์˜ ์ง€๊ฐ ์˜ค๋ฅ˜(perception error) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์† ๋ชจ์–‘ ์ถ”์ • ๊ฒฐ๊ณผ๋ฅผ ์‹ ๋ขฐ๋„ ์ ์ˆ˜(confidence score)๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐํ™” ์‹œ ์ตœ์ ์˜ ์‹œ์•ผ์—์„œ ์ถ”์ •๋œ ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ground-truth๋กœ ์‚ฌ์šฉํ•˜๊ณ , ํ˜„์žฌ ํ”„๋ ˆ์ž„์˜ ๋ชจ์–‘ ํŒŒ๋ผ๋ฏธํ„ฐ์™€์˜ ์˜ค์ฐจ๋ฅผ ํ†ตํ•ด ํฌ์ฆˆ ์ •ํ™•๋„์˜ ์‹ ๋ขฐ๋„๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์‹ ๋ขฐ๋„ ๊ธฐ๋ฐ˜ PD ์ œ์–ด๋Š” ๋‹ค์Œ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

u(t) = p(t)K_pe(t) + k_d\frac{de(t)}{dt}

์—ฌ๊ธฐ์„œ u(t)๋Š” ๊ด€์ ˆ ํ† ํฌ(joint torque), K_p์™€ K_d๋Š” PD ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, p(t)๋Š” ์ •๊ทœํ™”๋œ ํ™•๋ฅ  ๋ฐ€๋„(normalized probability density)๋กœ ๊ณ„์‚ฐ๋œ ์‹ ๋ขฐ๋„ ์ ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ง€๊ฐ ์˜ค๋ฅ˜๊ฐ€ ํด ๊ฒฝ์šฐ, ์ œ์–ด๊ธฐ์˜ ๊ฐ•์„ฑ(stiffness)์„ ์ค„์—ฌ ์›์น˜ ์•Š๋Š” ๊ฐ‘์ž‘์Šค๋Ÿฌ์šด ์›€์ง์ž„์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.

IV. Multi-Robots Demonstration Translation

A. Hand Pose Retargeting

๋งž์ถคํ˜• ํ•ธ๋“œ์—์„œ ์ˆ˜์ง‘๋œ ์‹œ๋ฒ”์„ ํŠน์ • ๋กœ๋ด‡ ํ•ธ๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด Hand Pose Retargeting์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์‹œ์Šคํ…œ์€ ์ด๋ฅผ ์˜คํ”„๋ผ์ธ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

\begin{gathered} \min _{q_t^R} \sum_{i=0}^N\left\|f_i^C\left(q_t^C\right)-f_i^R\left(q_t^R\right)\right\|^2+\alpha\left\|q_t^R-q_{t-1}^R\right\|^2 \\ \quad \text { s.t. } \quad q_{\text {lower }}^R \leq q_t^R \leq q_{\text {upper }}^R, \end{gathered}

์—ฌ๊ธฐ์„œ q_t^C๋Š” ๋งž์ถคํ˜• ๋กœ๋ด‡์˜ ์‹œ๊ฐ„ t์—์„œ์˜ ๊ด€์ ˆ ์œ„์น˜, q_t^R๋Š” ํŠน์ • ๋กœ๋ด‡(์˜ˆ: Schunk Robot Hand)์˜ ํ•ด๋‹น ๊ด€์ ˆ ์œ„์น˜์ž…๋‹ˆ๋‹ค. f_C^i์™€ f_R^i๋Š” ๋‘ ๋กœ๋ด‡์˜ i-๋ฒˆ์งธ ํ‚คํฌ์ธํŠธ(์˜ˆ: ์†๊ฐ€๋ฝ ๋ ์œ„์น˜)์— ๋Œ€ํ•œ ์ „๋ฐฉ ์šด๋™ํ•™(forward kinematics) ํ•จ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ(temporal consistency)์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๊ด€์ ˆ ์œ„์น˜ ๋ณ€ํ™”๋ฅผ ํŒจ๋„ํ‹ฐํ•˜๋Š” ์ •๊ทœํ™” ํ•ญ์„ ์ถ”๊ฐ€ํ•˜๊ณ , q_t^R๋ฅผ q_{t-1}^R์˜ ๊ฐ’์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉด ์–ด๋–ค ํŠน์ • ๋กœ๋ด‡์— ๋Œ€ํ•ด์„œ๋„ ๊ด€์ ˆ ์œ„์น˜ ๊ถค์  q_t^R๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (๊ทธ๋ฆผ 5 ์ฐธ์กฐ).

B. Action Computation

Joint Pose Trajectory ์™ธ์—๋„ Demo-augmented Policy Learning์„ ์œ„ํ•ด ๊ฐ ์†๊ฐ€๋ฝ ๊ด€์ ˆ์— ๋Œ€ํ•œ ์•ก์…˜(action), ์ฆ‰ joint torque ๋˜๋Š” motor control command๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. DexMV [54]์˜ ์ ˆ์ฐจ๋ฅผ ๋”ฐ๋ผ, ๋จผ์ € joint pose trajectory๋ฅผ 1์ฐจ ์ €์—ญ ํ†ต๊ณผ ํ•„ํ„ฐ์— ํ†ต๊ณผ์‹œํ‚จ ํ›„, ๋กœ๋ด‡ ์—ญ๋™ํ•™(inverse dynamics)์˜ ์กฐ์ž‘๊ธฐ ๋ฐฉ์ •์‹(manipulator equation) \tau = f_{inv}(q, q', q'')๋ฅผ ํ†ตํ•ด joint torque๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

V. Demonstration-Augmented Policy Learning

๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋˜๊ฑฐ๋‚˜ ๋ชฉํ‘œ ํฌ์ฆˆ๊ฐ€ ์ฃผ์–ด์ง€๋Š” ์ž‘์—…์—์„œ๋Š” ๋‹จ์ˆœํ•œ Behavior Cloning๋งŒ์œผ๋กœ๋Š” ์„ฑ๊ณตํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ณธ ๋…ผ๋ฌธ์€ ์‹œ๋ฒ”์„ RL์— ํ†ตํ•ฉํ•˜๋Š” Imitation Learning ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ Demo Augmented Policy Gradient (DAPG) [3]๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. DAPG์˜ ๋ชฉ์  ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

g_{aug} = \sum_{(s,a)\in\rho^\pi}\nabla \ln \pi(a|s)A^\pi (s, a)+\sum_{(s,a)\in\rho^{\pi_{demo}}}\nabla \ln \pi_\theta (a|s)\lambda_0\frac{\lambda_1}{k} \max_{(s',a')\in\rho^\pi}A^\pi (s', a')

์—ฌ๊ธฐ์„œ ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ RL์˜ ์ผ๋ฐ˜์ ์ธ ์ •์ฑ… ๊ธฐ์šธ๊ธฐ(policy gradient) ๋ชฉ์  ํ•จ์ˆ˜์ด๊ณ , ๋‘ ๋ฒˆ์งธ ํ•ญ์€ ์‹œ๋ฒ”์„ ์ด์šฉํ•œ Imitation ๋ชฉ์  ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด๋Š” Behavior Cloning๊ณผ ์˜จ๋ผ์ธ RL์˜ ์กฐํ•ฉ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. \rho^\pi๋Š” ์ •์ฑ… \pi ํ•˜์—์„œ์˜ ์ ์œ  ์ธก์ •(occupancy measure), \lambda_0์™€ \lambda_1์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ, k๋Š” ํ›ˆ๋ จ ๋ฐ˜๋ณต ํšŸ์ˆ˜์ž…๋‹ˆ๋‹ค. A^\pi (s', a')๋Š” ์ด์  ํ•จ์ˆ˜(advantage function)์ž…๋‹ˆ๋‹ค.

VI. ์‹คํ—˜

A. Teleoperation User Study

์ œ์•ˆ๋œ Customized Robot Hand์˜ ์ด์ ์„ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด 17๋ช…์˜ ์ธ๊ฐ„ ์ž‘์—…์ž๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ž‘์—…์ž๋“ค์€ Customized Robot Hand, Schunk SVH Hand, Adroit Hand, Allegro Hand์˜ ๋„ค ๊ฐ€์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ Relocate ๋ฐ Open Door ์ž‘์—…์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. Customised Robot Hand์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„ ํฌ์ฆˆ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ ๊ด€์ ˆ์˜ PD ๋ชฉํ‘œ๋กœ ์ง์ ‘ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ๋‚˜๋จธ์ง€ ์„ธ ๋กœ๋ด‡์˜ ๊ฒฝ์šฐ ์˜จ๋ผ์ธ Motion Retargeting์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ํ‘œ II(Relocate)์™€ ํ‘œ III(Open Door)์— ๋‚˜ํƒ€๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค. Customized Robot Hand๋Š” ๋‹ค๋ฅธ ์„ธ ๋กœ๋ด‡ ํ•ธ๋“œ์˜ ์˜จ๋ผ์ธ Retargeting ๋ฐฉ์‹์— ๋น„ํ•ด ๋ชจ๋“  ์ž‘์—…์—์„œ ์›”๋“ฑํžˆ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Relocate ์ž‘์—…์˜ ๊ฒฝ์šฐ Customized Hand๋Š” ์‹œ๊ฐ„๋‹น ์•ฝ 60๊ฐœ์˜ ์„ฑ๊ณต์ ์ธ ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ, Allegro Hand๋ฅผ ์ง์ ‘ ์กฐ์ž‘ํ•  ๋•Œ๋Š” 10๊ฐœ์— ๋ถˆ๊ณผํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋“ค์€ Customized Hand๊ฐ€ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ•ธ๋“œ๋ณด๋‹ค ์ œ์–ดํ•˜๊ธฐ ์‰ฝ๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜จ๋ผ์ธ Motion Retargeting ๋‹จ๊ณ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ œ์–ด ๋ถˆ๊ฐ€๋Šฅํ•œ ์‹œ๊ฐ„ ์†Œ๋ชจ(ํ‰๊ท  76 ยฑ 65ms, ํฐ ํŽธ์ฐจ) ๋•Œ๋ฌธ์ธ ๊ฒƒ์œผ๋กœ ๋ถ„์„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜จ๋ผ์ธ Retargeting์„ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ์‹œ์Šคํ…œ์€ ๋” ๋ถ€๋“œ๋Ÿฝ๊ณ  ์ฆ‰๊ฐ์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

B. Task Learning Comparison

Relocate (์„ธ ๊ฐ€์ง€ ๋‹ค๋ฅธ ๋ฌผ์ฒด), Flip, Open Door ์ž‘์—…์—์„œ ์ฒ˜๋ฆฌ๋œ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ…์„ ํ›ˆ๋ จํ•˜๊ณ  RL baseline๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. RL baseline์œผ๋กœ๋Š” Trust Region Policy Optimization (TRPO) [56]์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •์ฑ… ๋ฐ ๊ฐ€์น˜ ํ•จ์ˆ˜(value function)๋Š” 32 ร— 32์˜ 2-layer Multi-Layer Perceptrons (MLPs)๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๊ณ , TRPO๋Š” ๊ฐ ์Šคํ…๋งˆ๋‹ค 200๊ฐœ์˜ ๊ถค์ ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. Imitation Learning ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ DAPG๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด 50๊ฐœ์˜ ์‹œ๋ฒ” ๊ถค์ ์„ ์ˆ˜์ง‘ํ•˜๊ณ  ์ด๋ฅผ ํŠน์ • ๋กœ๋ด‡์œผ๋กœ Retargetingํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ›ˆ๋ จ ๊ณก์„ ์€ ๊ทธ๋ฆผ 6์—, ์„ธ ๊ฐ€์ง€ ํŠน์ • ๋กœ๋ด‡ ํ•ธ๋“œ์˜ ์„ฑ๊ณต๋ฅ ์€ ํ‘œ IV์— ์š”์•ฝ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Imitation Learning ๋ฐฉ์‹์ธ DAPG๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…๊ณผ ๋กœ๋ด‡์—์„œ RL baseline์„ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Motion Retargeting์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์‹œ๋ฒ”์ด ์ •์ฑ… ํ›ˆ๋ จ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์œ ์ผํ•œ ์˜ˆ์™ธ๋Š” Allegro Hand๋ฅผ ์‚ฌ์šฉํ•œ Open Door ์ž‘์—…์ด์—ˆ๋Š”๋ฐ, DAPG๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ํ–‰๋™์œผ๋กœ ์†์žก์ด๋ฅผ ์žก๊ณ  ๋ฌธ์„ ์—ด๋ ค๊ณ  ์‹œ๋„ํ•˜๋Š” ๋ฐ˜๋ฉด, RL ์ •์ฑ…์€ ํฐ ํž˜์œผ๋กœ ์†์žก์ด๋ฅผ ๋ˆ„๋ฅด๋ฉฐ ๋งˆ์ฐฐ์— ์˜์กดํ•˜์—ฌ ๋ฌธ์„ ์—ฌ๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค (๊ทธ๋ฆผ 8). ์ด๋Š” ์‹œ๋ฒ”์ด ์ •์ฑ…์˜ ํ–‰๋™์„ ์˜ˆ์ƒ๋œ(์ธ๊ฐ„๊ณผ ๊ฐ™์€) ์•ˆ์ „ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ์ ˆํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•จ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

C. Ablation Study

๋‹ค์–‘ํ•œ ๋™์  ์กฐ๊ฑด๊ณผ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ ์ˆ˜์˜ ์˜ํ–ฅ์„ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด, ๋ฌผ์ฒด ๋งˆ์ฐฐ, ์ œ์–ด๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ, ๋ฌผ์ฒด ๋ฐ€๋„, ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ๋Œ€์ƒ์œผ๋กœ Relocate (tomato soup can, Schunk Robot) ์ž‘์—…์—์„œ Ablation Study๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค (๊ทธ๋ฆผ 7). ํ•™์Šต ๊ณก์„ ์€ ๋งˆ์ฐฐ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•จ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ๋‹ค์ง€ ํ•ธ๋“œ๊ฐ€ ์—ฌ๋Ÿฌ ์ ‘์ด‰์ ์„ ํ†ตํ•ด ํž˜ ํ์‡„(force closure)๋ฅผ ํ˜•์„ฑํ•˜์—ฌ ๋งˆ์ฐฐ์— ๋œ ๋ฏผ๊ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ฌผ์ฒด ๋ฐ€๋„์— ๋Œ€ํ•ด์„œ๋„ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ œ์–ด๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฒฝ์šฐ, ๊ฐ•์„ฑ์ด ํด์ˆ˜๋ก ๋” ๋นจ๋ฆฌ ๋ชฉํ‘œ์— ๋„๋‹ฌํ–ˆ์ง€๋งŒ, ์ž‘์€ PD ๊ฐ’์œผ๋กœ๋„ ์ž‘์—…์„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋” ๋งŽ์€ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ• ์ˆ˜๋ก ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, 20-30๊ฐœ์˜ ๋ฐ๋ชจ์—์„œ๋Š” ๋ถ„์‚ฐ(variance)์ด ๋” ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

D. Real-World Robot Experiments

์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ๋Š” XArm-6 ๋กœ๋ด‡ ์•” [58]์— Allegro Hand๋ฅผ ๋ถ€์ฐฉํ–ˆ์Šต๋‹ˆ๋‹ค (๊ทธ๋ฆผ 9 ์ฐธ์กฐ). Relocate ๋ฐ Flip ์ž‘์—…์„ ํ‰๊ฐ€ํ–ˆ์œผ๋ฉฐ, Sim2Real ์ „์ด๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์ค‘ ๋ฌผ์ฒด ํฌ์ฆˆ์— ๊ฐ€์‚ฐ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ(additive Gaussian noise)๋ฅผ ์ ์šฉํ•˜๊ณ  ๋งˆ์ฐฐ, ๋ฐ€๋„, PD ์ œ์–ด ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ฐ™์€ ๋™์  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฌด์ž‘์œ„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ด€์ธก ๊ณต๊ฐ„์€ ๋กœ๋ด‡ ๊ณ ์œ  ์ƒํƒœ(proprioceptive state), ๋ฌผ์ฒด ํฌ์ฆˆ(์ดˆ๊ธฐ ํฌ์ฆˆ๋Š” RealSense D435 ์นด๋ฉ”๋ผ๋กœ ์บก์ฒ˜๋œ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ICP ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ถ”์ •), ๊ทธ๋ฆฌ๊ณ  Relocate์˜ ๊ฒฝ์šฐ ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค.

Relocate ์ž‘์—…์—์„œ๋Š” ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋œ ๋ฌผ์ฒด(known object)์™€ ํ›ˆ๋ จ ์ค‘ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด(novel object) ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ •์ฑ…์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค (๊ทธ๋ฆผ 10). ์ •๋Ÿ‰์  ๊ฒฐ๊ณผ(ํ‘œ V)๋Š” Imitation Learning (DAPG)์ด ์ˆœ์ˆ˜ RL๋ณด๋‹ค ์‹ค์ œ ๋กœ๋ด‡ ์ „์ด ์‹œ ํ›จ์”ฌ ๋” ํฐ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ณด์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์กฐ์ž‘ ์ •์ฑ…์ด Sim2Real ๊ฐญ์— ๋” ๊ฐ•๊ฑดํ•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ๋”์šฑ ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ํ•™์Šต๋œ ์ •์ฑ…์€ ํ›ˆ๋ จ ์ค‘ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด์—๋„ ์ผ๋ฐ˜ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์ง€ ํ•ธ๋“œ๊ฐ€ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ž‘๋™ํ•  ๋•Œ ํ˜•์ƒ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ผ์ • ์ˆ˜์ค€์˜ ๊ฐ•๊ฑดํ•จ์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ •์ฑ… ์‹œ๊ฐํ™”(๊ทธ๋ฆผ 11)๋Š” Sim2Real ๊ฐญ์— ๋Œ€ํ•œ Imitation Learning ์ •์ฑ…์˜ ๊ฐ•๊ฑดํ•จ์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. Relocate ์ž‘์—…์—์„œ RL ์ •์ฑ…์€ ๋ถˆ์•ˆ์ •ํ•œ ์ ‘์ด‰(๋‘ ์†๊ฐ€๋ฝ๋งŒ ์‚ฌ์šฉ)์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ์ง€๋งŒ, ์‹œ๋ฒ”์œผ๋กœ ํ›ˆ๋ จ๋œ ์ •์ฑ…์€ ๋„ค ์†๊ฐ€๋ฝ ๋ชจ๋‘๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•ˆ์ •์ ์œผ๋กœ ์žก์•˜์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์‹ค์ œ ๋กœ๋ด‡์—์„œ๋Š” RL ์ •์ฑ…์˜ ๋ฌผ์ฒด๊ฐ€ ์†์—์„œ ๋ฏธ๋„๋Ÿฌ์ง€๋Š” ๋ฐ˜๋ฉด, Imitation Learning ์ •์ฑ…์€ ์•ˆ์ •์ ์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก์•˜์Šต๋‹ˆ๋‹ค. Flip ์ž‘์—…์—์„œ๋„ ์ˆœ์ˆ˜ RL ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์ปต์„ ๋น ๋ฅด๊ฒŒ ๋ฐ€์–ด ํ•ด๊ฒฐํ–ˆ์ง€๋งŒ, Imitation Learning ์ •์ฑ…์€ ํ•œ ์†๊ฐ€๋ฝ์„ ์ปต ์•ˆ์— ๋„ฃ๊ณ  ์†๋ชฉ์„ ํšŒ์ „์‹œํ‚ค๋Š” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํ–‰๋™์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ RL ์ •์ฑ…์˜ ํ–‰๋™์€ ์‹ค์ œ ๋กœ๋ด‡ ํ•ธ๋“œ์—์„œ๋Š” ๊ฑฐ์˜ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๊ฐ€์ง€ ์˜ˆ์‹œ ๋ชจ๋‘์—์„œ ์ˆœ์ˆ˜ RL์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ โ€™ํ•ดํ‚นโ€™ํ•˜์—ฌ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ค์ œ ์„ธ๊ณ„๋กœ ์ „์ด๋˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ณธ ๋…ผ๋ฌธ์˜ ์‹œ๋ฒ”์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” Imitation Learning์€ ์‹ค์ œ ์„ธ๊ณ„ ์‘์šฉ์— ํ›จ์”ฌ ๋” ๊ฐ•๊ฑดํ•˜๊ณ  ์•ˆ์ •์ ์ธ ์ •์ฑ…์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

VII. ๊ฒฐ๋ก 

๋ณธ ๋…ผ๋ฌธ์€ Imitation Learning์„ ์œ„ํ•œ ์ธ๊ฐ„ ์† ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๋‹จ์ผ ์นด๋ฉ”๋ผ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‹ค์–‘ํ•œ ์ธ๊ฐ„ ์ž‘์—…์ž๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๋‹ค ์ง๊ด€์ ์œผ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งž์ถคํ˜• ๋กœ๋ด‡ ํ•ธ๋“œ(customized robot hand) ๊ฐœ๋…์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์ง‘๋œ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๊ฐ€ ์—ฌ๋Ÿฌ ๋กœ๋ด‡์—์„œ์˜ Dexterous Manipulation ํ•™์Šต์„ ๊ฐœ์„ ํ•˜๊ณ , ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ๋‹จ ํ•œ ๋ฒˆ๋งŒ ํ•„์š”ํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹ค์ œ ์„ธ๊ณ„์— ๋ฐฐ์น˜๋  ๋•Œ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์ž„์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.


Detail Review

๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: From One Hand to Multiple Hands โ€“ Single-Camera Teleoperation์„ ํ™œ์šฉํ•œ ๋‹ค์ง€ ๋กœ๋ด‡ ์† ๋ชจ๋ฐฉํ•™์Šต

1. ๋ฐฉ๋ฒ•๋ก  (Methodology)

1.1 ๋‹จ์ผ ์นด๋ฉ”๋ผ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ๋ฐ๋ชจ ์ˆ˜์ง‘

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ๋‹จ์ผ RGB-D ์นด๋ฉ”๋ผ(์•„์ดํŒจ๋“œ)์— ๊ธฐ๋ฐ˜ํ•œ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์ธ๊ฐ„ ์† ์‹œ์—ฐ(demonstration)์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ํŠน์ˆ˜ ์žฅ๋น„ ์—†์ด ์•„์ดํŒจ๋“œ ํ•œ ๋Œ€๋งŒ์œผ๋กœ ์ž์‹ ์˜ ์† ๋™์ž‘์„ ์ดฌ์˜ํ•˜์—ฌ 3์ฐจ์› ์† ์ž์„ธ์™€ ํ˜•์ƒ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ถ”์ •ํ•œ๋‹ค. ์ €์ž๋“ค์€ MediaPipe์™€ FrankMocap ๊ธฐ๋ฐ˜์˜ ์† ์ถ”์ ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์ž…๋ ฅ RGB-D ์˜์ƒ์—์„œ ์†๋ชฉ ์œ„์น˜, ์†๊ฐ€๋ฝ ๊ด€์ ˆ ๊ฐ๋„(ํฌ์ฆˆ) ๋ฐ ์† ํ˜•ํƒœ(shape) ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ SMPL-X ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์†์˜ ํ˜•์ƒ๊ณผ ํฌ์ฆˆ๋ฅผ ํŒŒ๋ผ๋ฏธํ„ฐํ™”ํ•˜๋ฉฐ, ์ดˆ๊ธฐ ํ”„๋ ˆ์ž„์—์„œ ์ถ”์ •๋œ ์† ํ˜•ํƒœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž์˜ ์† ํฌ๊ธฐ์™€ ๋ชจ์–‘์„ ํŒŒ์•…ํ•œ๋‹ค. ์ดํ›„ ์ด ์ •๋ณด๋ฅผ ์ด์šฉํ•ด ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(SAPIEN) ์ƒ์— ์‚ฌ์šฉ์ž ์†๊ณผ ๋™์ผํ•œ ํ˜•ํƒœใƒปํฌ๊ธฐ์˜ ๋งž์ถคํ˜• ๋กœ๋ด‡ ์† ๋ชจ๋ธ์„ ์ฆ‰์„์—์„œ ์ƒ์„ฑํ•œ๋‹ค. ์ด ์ปค์Šคํ…€ ๋กœ๋ด‡ ์†(customized robot hand)์€ ์‚ฌ์šฉ์ž์˜ ์† ๊ณจ๊ฒฉ๊ณผ ์šด๋™ํ•™ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๋ฐ˜์˜ํ•˜๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ์šฉ์ž์˜ ์—„์ง€์†๊ฐ€๋ฝ์ด ์งง๋‹ค๋ฉด ์ƒ์„ฑ๋œ ๋กœ๋ด‡ ์†์—์„œ๋„ ์—„์ง€๊ฐ€ ์งง๊ฒŒ ๊ตฌํ˜„๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์–ด์ง„ ๋กœ๋ด‡ ์† ๋ชจ๋ธ์€ ์•ฝ 45์ž์œ ๋„(DoF)๋ฅผ ๊ฐ€์ ธ ์ธ๊ฐ„ ์†์˜ ์„ฌ์„ธํ•œ ์›€์ง์ž„์„ ๋ชจ์‚ฌํ•œ๋‹ค.

์‚ฌ์šฉ์ž๋Š” ์ž์‹ ์˜ ์†์„ ์›€์ง์ด๋ฉด, PD ์ œ์–ด๊ธฐ๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๊ด€์ ˆ ๋ชฉํ‘œ๊ฐ์ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ์ปค์Šคํ…€ ๋กœ๋ด‡ ์†์— ์ „๋‹ฌ๋˜์–ด ๋กœ๋ด‡ ์†์ด ๋”ฐ๋ผ ์›€์ง์ธ๋‹ค. ์ด๋•Œ ์˜์ƒ ๊ธฐ๋ฐ˜ ์ถ”์ ์˜ ์˜ค์ฐจ๋กœ ์ธํ•œ ์žก์Œ์ด๋‚˜ ํŠ€๋Š” ๋™์ž‘์„ ์ค„์ด๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์† ํ˜•ํƒœ ์ถ”์ •๊ฐ’์˜ ์‹ ๋ขฐ๋„๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ™œ์šฉํ•œ PD ์ œ์–ด ๊ธฐ๋ฒ•์„ ๊ณ ์•ˆํ•˜์˜€๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ดˆ๊ธฐ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ์‹œ ์–ป์€ ์† shape ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ธฐ์ค€๊ฐ’์œผ๋กœ ์‚ผ๊ณ , ๋งค ํ”„๋ ˆ์ž„์˜ shape ์ถ”์ •์น˜์™€์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ถ”์  ์ •ํ™•๋„์˜ ์‹ ๋ขฐ๋„๋กœ ํ™œ์šฉํ•œ๋‹ค. ์‹ ๋ขฐ๋„๊ฐ€ ๋‚ฎ์€ ๊ฒฝ์šฐ(์† ์ถ”์  ์˜ค์ฐจ๊ฐ€ ํฐ ๊ฒฝ์šฐ) PD ์ œ์–ด์˜ ๊ฐ•์„ฑ์„ ๋‚ฎ์ถ”์–ด ๊ฐ‘์ž‘์Šค๋Ÿฐ ์ž˜๋ชป๋œ ๋™์ž‘ ์ „์†ก์„ ์–ต์ œํ•จ์œผ๋กœ์จ, ๋ถ€๋“œ๋Ÿฝ๊ณ  ์•ˆ์ •์ ์ธ ์›๊ฒฉ์กฐ์ž‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์˜€๋‹ค.

์ด ์‹œ์Šคํ…œ์€ ์˜จ๋ผ์ธ ๋ชจ์…˜ ๋ฆฌํƒ€๊ธฐํŒ…(motion retargeting)์„ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์—์„œ ๊ธฐ์กด ๋ฐฉ์‹๊ณผ ์ฐจ๋ณ„ํ™”๋œ๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋น„์ „ ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์—์„œ๋Š” ์‚ฌ๋žŒ ์†์˜ ๊ด€์ ˆ ์›€์ง์ž„์„ ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ๋กœ ์‹ค์‹œ๊ฐ„ ๋ณ€ํ™˜ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์‚ฌ๋žŒ ์†๊ณผ ๋กœ๋ด‡ ์† ๊ตฌ์กฐ ์ฐจ์ด๋กœ ์ธํ•ด ์ œ์–ด๊ฐ€ ์–ด๋ ต๊ณ  ์ง€์—ฐ์ด ๋ฐœ์ƒํ•˜๊ณค ํ–ˆ๋‹ค. ๋ฐ˜๋ฉด ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‚ฌ์šฉ์ž๋ณ„๋กœ ๋™์ผํ•œ ๊ตฌ์กฐ์˜ ๋กœ๋ด‡ ์†์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ๋งคํ•‘ ๊ณผ์ •์ด ๋ถˆํ•„์š”ํ•˜๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์‚ฌ์šฉ์ž๋Š” ๋งˆ์น˜ ์ž์‹ ์˜ ์†์„ ๊ทธ๋Œ€๋กœ ๊ฐ€์ƒ ๊ณต๊ฐ„์— ์˜ฎ๊ฒจ๋†“์€ ๋“ฏํ•œ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฐฉ์‹์œผ๋กœ ๋ฌผ์ฒด ์กฐ์ž‘ ์‹œ์—ฐ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋“ค์˜ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, ์ œ์•ˆ ์‹œ์Šคํ…œ์œผ๋กœ๋Š” 1์‹œ๊ฐ„์— ์•ฝ 60๊ฐœ์˜ ์„ฑ๊ณต ์‹œ์—ฐ์„ ๋ชจ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ์˜ˆ์ปจ๋Œ€ ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ Allegro ๋กœ๋ด‡ ์†(4์†๊ฐ€๋ฝ ๋กœ๋ด‡)์„ ์กฐ์ž‘ํ•ด ์‹œ์—ฐ์„ ๋ชจ์„ ๋•Œ์˜ ์•ฝ 10๊ฐœ์— ๋น„ํ•ด 6๋ฐฐ์— ๋‹ฌํ•˜๋Š” ์ˆ˜์น˜๋‹ค. ์‹คํ—˜์— ์ฐธ์—ฌํ•œ ์‚ฌ๋žŒ๋“ค ์—ญ์‹œ ์ปค์Šคํ…€ ์†์ด ๊ธฐ์กด ๋กœ๋ด‡ ์†๋ณด๋‹ค ์กฐ์ž‘ํ•˜๊ธฐ ํ›จ์”ฌ ์‰ฝ๋‹ค๊ณ  ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ ๋†’์€ ๋ฐ๋ชจ ์ˆ˜์ง‘ ํšจ์œจ์€ ๋Œ€๊ทœ๋ชจ์˜ ์–‘์งˆ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๊ฒŒ ํ•ด์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋ฐฉ ํ•™์Šต ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง„๋‹ค.

1.2 ๋‹ค์ค‘ ๋กœ๋ด‡ ์†์œผ๋กœ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜ (Multi-Hand Demonstration Translation)

์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์ˆ˜์ง‘๋œ ๋งž์ถคํ˜• ๋กœ๋ด‡ ์†์˜ ์‹œ์—ฐ trajectories๋Š”, ์˜คํ”„๋ผ์ธ ๋‹จ๊ณ„์—์„œ ์ž„์˜์˜ ํƒ€๊นƒ ๋กœ๋ด‡ ์† ๋ชจ๋ธ๋กœ ๋ณ€ํ™˜(retargeting)๋œ๋‹ค. ์ด๋Š” ํ•œ ๋ฒˆ์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์œผ๋กœ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋กœ๋ด‡ ์† ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Schunk SVH 5์†๊ฐ€๋ฝ ๋กœ๋ด‡ ์†, Adroit ์†(์ƒŒ๋””์—์ด๊ณ  ๋Œ€ํ•™ Adroit) ๋ฐ Allegro Hand(4์†๊ฐ€๋ฝ)์˜ ์„ธ ๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์ƒ์šฉ ๋กœ๋ด‡ ์†์„ ๋Œ€์ƒ์œผ๋กœ ์‹คํ—˜ํ•˜์˜€๋‹ค. ์ด๋“ค ๋กœ๋ด‡ ์†๋“ค์€ ํ˜•ํƒœ(geometry)์™€ ์šด๋™ ๋ฒ”์œ„(DOF)๋ฟ ์•„๋‹ˆ๋ผ ์†๊ฐ€๋ฝ ๊ฐœ์ˆ˜๊นŒ์ง€ ์‚ฌ๋žŒ ์†๊ณผ ์ƒ์ดํ•˜์ง€๋งŒ, ์ปค์Šคํ…€ ์† ์‹œ์—ฐ์„ ๊ฐ ๋กœ๋ด‡ ์†์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ ๋™์ผ ๊ณผ์ œ์— ๋Œ€ํ•œ ๋‹ค์ข… ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ชจ์…˜ ๋ฆฌํƒ€๊ธฐํŒ…์€ ๊ฐ ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ ์›€์ง์ž„ ๊ถค์ ์„ ์ฐพ๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ๊ณต์‹ํ™”๋œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ปค์Šคํ…€ ์†๊ณผ ํƒ€๊นƒ ๋กœ๋ด‡ ์†์˜ ์ค‘์š” ํ‚คํฌ์ธํŠธ (์†๊ฐ€๋ฝ ๋ ์œ„์น˜ ๋“ฑ)๊ฐ€ ์ตœ๋Œ€ํ•œ ์ผ์น˜ํ•˜๋„๋ก ๋‘ ์†์˜ ๊ด€์ ˆ๊ฐ์„ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค. ๊ฐ ์‹œ์ ์—์„œ ์–‘ ์† ๋ชจ๋ธ์˜ ์ •๋ฐฉํ–ฅ ์šด๋™ํ•™ ๊ฒฐ๊ณผ(์†๊ฐ€๋ฝ ํ‚คํฌ์ธํŠธ ์ขŒํ‘œ) ๊ฐ„ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ด€์ ˆ ๊ตฌ์„ฑ์„ ์ฐพ์•„๋‚ด๋ฉฐ, ์‹œ๊ฐ„์  ์—ฐ์†์„ฑ์„ ์œ„ํ•ด ์ด์ „ ํ”„๋ ˆ์ž„์˜ ํ•ด๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ๊ด€์ ˆ ๋ณ€ํ™”๋Ÿ‰์— ๋Œ€ํ•œ ์ •๊ทœํ™” ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ถ€๋“œ๋Ÿฌ์šด ๊ถค์ ์„ ์–ป๋Š”๋‹ค. ์ด๋ ‡๊ฒŒ ๊ณ„์‚ฐ๋œ ๊ด€์ ˆ ์œ„์น˜ trajectory๋Š” ํ•ด๋‹น ๋กœ๋ด‡ ์†์—์„œ์˜ ์‹œ์—ฐ์œผ๋กœ ๊ฐ„์ฃผ๋˜๋ฉฐ, ์ดํ›„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ํˆฌ์ž…๋  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ Allegro Hand์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„ ์†๊ฐ€๋ฝ๋ณด๋‹ค ํ•˜๋‚˜ ์ ์€ 4๊ฐœ ์†๊ฐ€๋ฝ๋งŒ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ตœ์ ํ™” ๊ณผ์ •์—์„œ ์ธ๊ฐ„์˜ ์•ฝ์ง€/์†Œ์ง€ ์›€์ง์ž„์„ ๋‚˜๋จธ์ง€ ์†๊ฐ€๋ฝ์— ๋ถ„์‚ฐ์‹œํ‚ค๋Š” ๋“ฑ ํ˜•ํƒœ ์ฐจ์ด๋ฅผ ๋ณด์ •ํ•œ๋‹ค. ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ์˜คํ”„๋ผ์ธ ๋ฆฌํƒ€๊ธฐํŒ…์€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ•  ๋•Œ๋ณด๋‹ค ๊ณ„์‚ฐ ๋น„์šฉ์ด ํฌ์ง€๋งŒ, ํ•œ ๋ฒˆ๋งŒ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋˜๋ฏ€๋กœ ์ถฉ๋ถ„ํžˆ ๊ฐ๋‚ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์ด๋ผ๊ณ  ์„ค๋ช…ํ•œ๋‹ค. ์‹ค์ œ๋กœ ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด ์˜คํ”„๋ผ์ธ ๋ฆฌํƒ€๊ธฐํŒ…์— ์ˆ˜ ๋ฐ€๋ฆฌ์ดˆ ๋‹จ์œ„์˜ ๊ณ„์‚ฐ ์‹œ๊ฐ„์ด ๋“ค์ง€๋งŒ, ์˜จ๋ผ์ธ ๋ฆฌํƒ€๊ธฐํŒ… ์‹œ์—๋Š” ๋ฐ˜๋ณต ์ตœ์ ํ™”๋กœ ์ธํ•ด ํ”„๋ ˆ์ž„ ๊ฐ„ ์ง€์—ฐ์ด ๋“ค์‘ฅ๋‚ ์‘ฅ ์ปค์ ธ ์‚ฌ๋žŒ์ด ๋‹ค์Œ ๋™์ž‘์„ ์˜ˆ์ธกํ•˜๋ฉฐ ์กฐ์ž‘ํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋œ๋‹ค๊ณ  ์ง€์ ํ•œ๋‹ค. ์ปค์Šคํ…€ ์† ์ ‘๊ทผ๋ฒ•์€ ์ด๋Ÿฌํ•œ ์˜จ๋ผ์ธ retargeting์— ๋”ฐ๋ฅธ ์ง€์—ฐ๊ณผ ๋ถˆ์•ˆ์ •์„ฑ ๋ฌธ์ œ๋ฅผ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด์†Œํ•˜์˜€๋‹ค.

๋ฆฌํƒ€๊ธฐํŒ…๋œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์—๋Š” ๊ฐ ๋กœ๋ด‡ ์†์˜ ์ƒํƒœ(๊ด€์ ˆ๊ฐ ๋“ฑ) ๋ฟ ์•„๋‹ˆ๋ผ ํ–‰๋™(action) ๋ฐ์ดํ„ฐ๋„ ํ•„์š”ํ•˜๋‹ค. ๋ชจ๋ฐฉ ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ์‹œ์—ฐ ์‹œํ€€์Šค์˜ ์ƒํƒœ-์•ก์…˜ ์Œ์ด ํ•„์š”ํ•œ๋ฐ, ๊ด€์ ˆ ์œ„์น˜ ๊ถค์ ์œผ๋กœ๋ถ€ํ„ฐ ํ•ด๋‹น ๋กœ๋ด‡ ์†์˜ ๊ตฌ๋™ ๋ช…๋ น(ํ† ํฌ ๋˜๋Š” ๋ชจํ„ฐ ์ž…๋ ฅ)์„ ๊ณ„์‚ฐํ•˜๋Š” ์ ˆ์ฐจ๊ฐ€ ์ถ”๊ฐ€๋œ๋‹ค. ์ด ๋ถ€๋ถ„์—์„œ ์ €์ž๋“ค์€ ์ด์ „ ์—ฐ๊ตฌ์ธ DexMV ๋ฐฉ๋ฒ•๋ก ์„ ์ฐธ๊ณ ํ•˜์—ฌ, ์šฐ์„  ๊ด€์ ˆ๊ฐ ์‹œํ€€์Šค์— 1์ฐจ ์ €์—ญํ†ต๊ณผ ํ•„ํ„ฐ๋ฅผ ์ ์šฉํ•˜๊ณ , ๋กœ๋ด‡ ์—ญ๋™์—ญํ•™(manipulator equation) ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ์‹œ์ ์˜ ๊ด€์ ˆ ํ† ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ์—ฐ ๊ถค์ ์„ ๋”ฐ๋ผ๊ฐ€๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ทผ์‚ฌ ์ œ์–ด ์‹ ํ˜ธ๊นŒ์ง€ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ, ์ตœ์ข…์ ์œผ๋กœ โ€œ(์ƒํƒœ, ์•ก์…˜) ๊ถค์ โ€ ํ˜•ํƒœ์˜ ํ•™์Šต์šฉ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์™„์„ฑํ•œ๋‹ค.

1.3 ๋ชจ๋ฐฉ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ •์ฑ… ํ•™์Šต

์ด๋ ‡๊ฒŒ ์ค€๋น„๋œ ๋‹ค์ˆ˜ ๋กœ๋ด‡ ์†์˜ ์ธ๊ฐ„ ์‹œ์—ฐ๋“ค์„ ํ™œ์šฉํ•˜์—ฌ, ์ตœ์ข…์ ์œผ๋กœ ๋‹ค์ด๋ ‰ํŠธ ์ •์ฑ… ํ•™์Šต(policy learning)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ์ ‘๊ทผ์ธ ํ–‰๋™ ํด๋กœ๋‹(Behavior Cloning)์˜ ๊ฒฝ์šฐ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”๋กœ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ•™์Šตํ•˜๋ฉด ๋˜์ง€๋งŒ, ์ดˆ๊ธฐ ์ƒํƒœ๋‚˜ ๋ชฉํ‘œ ์กฐ๊ฑด์ด ๋ณ€ํ•˜๋Š” ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋Š” ์ˆœ์ˆ˜ ํ–‰๋™ ํด๋กœ๋‹๋งŒ์œผ๋กœ๋Š” ์„ฑ๊ณต์ ์ธ ์ •์ฑ…์„ ์–ป๊ธฐ ์–ด๋ ต๋‹ค. ๋”ฐ๋ผ์„œ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ•ํ™”ํ•™์Šต(RL)์— ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ํ˜•ํƒœ์˜ ๋ชจ๋ฐฉ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ฑ„ํƒํ•˜์˜€๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, Rajeswaran ๋“ฑ์ด ์ œ์•ˆํ•œ DAPG (Demo Augmented Policy Gradient) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ•ํ™”ํ•™์Šต ๋ชฉํ‘œ์— ์‹œ์—ฐ ๋ชจ๋ฐฉ ํ•ญ(term)์„ ์ถ”๊ฐ€ํ•˜์˜€๋‹ค. DAPG๋Š” ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต(behavior cloning)์„ ์‹ค์‹œํ•œ ํ›„, ์ดํ›„ ํ•™์Šต ๊ณผ์ •์—์„œ๋„ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ ๊ณ„์‚ฐ ์‹œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์œ ๋„๋œ ๋ณด์ƒ(or ์ •๊ทœํ™” ํ•ญ)์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ, ํ‘œ์ค€ RL๊ณผ BC์˜ ์กฐํ•ฉ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” TRPO(Trust Region Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜ RL ๊ธฐ๋ฒ•์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ , ์—ฌ๊ธฐ์— ๋™์ผํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŒ…์œผ๋กœ DAPG๋ฅผ ์ ์šฉํ•˜์—ฌ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค.

์ •์ฑ… ํ•™์Šต์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์ด๋ฃจ์–ด์ง€๋ฉฐ, ๊ด€์ธก ์ƒํƒœ์—๋Š” ๋กœ๋ด‡ ์† ๊ด€์ ˆ ์ƒํƒœ, ์†๋ฐ”๋‹ฅ(ํŒœ)์˜ ์†๋„, ๋ฌผ์ฒด์˜ 3D ์œ„์น˜์™€ ์ž์„ธ ๋“ฑ์ด ํฌํ•จ๋œ๋‹ค. ๊ณผ์ œ์— ๋”ฐ๋ผ ๋ชฉํ‘œ๋ฌผ์˜ ์œ„์น˜๋‚˜ ๋ฌธ์˜ ํžŒ์ง€ ๊ฐ๋„ ๋“ฑ์˜ ๋ชฉํ‘œ ์กฐ๊ฑด๋„ ๊ด€์ธก์— ์ฃผ์–ด์ง€๋ฉฐ, ์—์ด์ „ํŠธ์˜ ํ–‰๋™์€ ์†๋ฐ”๋‹ฅ ์ด๋™(์ž์œ  ๊ณต๊ฐ„์—์„œ์˜ 6-์ž์œ ๋„ ์›€์ง์ž„์€ 6์ฐจ์› ์†๋„ ์ œ์–ด)๊ณผ ์†๊ฐ€๋ฝ ๊ด€์ ˆ ์ œ์–ด(PD ์œ„์น˜ ์ œ์–ด ์ž…๋ ฅ)๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ์ •์ฑ…์€ ํ•ด๋‹น ๋กœ๋ด‡ ์† ๋ชจ๋ธ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋™์ž‘์„ ์ตํžˆ๊ฒŒ ๋˜๋ฉฐ, ์ดํ›„ ์‹ค์ œ ๋กœ๋ด‡ ์†์œผ๋กœ์˜ ์ด์‹์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ํŠนํžˆ ์‹ค์„ธ๊ณ„๋กœ์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ๋•๊ธฐ ์œ„ํ•ด, ํ•™์Šต ์ค‘์— ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌผ์ฒด์˜ ์ดˆ๊ธฐ ์œ„์น˜๋‚˜ ๋ฌผ๋ฆฌ ์†์„ฑ(๋งˆ์ฐฐ ๊ณ„์ˆ˜, ๋ฌด๊ฒŒ ๋“ฑ)์„ ๋‹ค์–‘ํ•˜๊ฒŒ ๋žœ๋คํ™”ํ•˜๊ณ , ๊ด€์ธก๋˜๋Š” ๋ฌผ์ฒด ์ƒํƒœ์— ๊ฐ€์šฐ์‹œ์•ˆ ์žก์Œ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์„ผ์„œ ๋…ธ์ด์ฆˆ์™€ ํ™˜๊ฒฝ ์ฐจ์ด๋ฅผ ๊ฒฌ๋””๋„๋ก ํ›ˆ๋ จํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋žต๊ณผ ์ธ๊ฐ„ ์‹œๆผ”์˜ ๋„์ž…์œผ๋กœ ์ •์ฑ…์ด ์‚ฌ๋žŒ๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘ ์ „๋žต์„ ํ•™์Šตํ•˜๊ฒŒ ๋˜์–ด, ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์„ธ๊ณ„ ๊ฐ„ ๊ฒฉ์ฐจ(sim2real gap)๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ฐ ํฐ ๋„์›€์ด ๋˜์—ˆ๋‹ค๊ณ  ์ €์ž๋“ค์€ ๋ฐํžˆ๊ณ  ์žˆ๋‹ค.

2. ์‹คํ—˜ ์„ค์ •๊ณผ ๊ฒฐ๊ณผ ํ‰๊ฐ€ (Experiments and Results)

2.1 ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ๊ณผ์ œ ๊ตฌ์„ฑ

์ €์ž๋“ค์€ ์•ž์„œ ๊ตฌ์ถ•ํ•œ SAPIEN ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ์„ธ ๊ฐ€์ง€ ๋ณต์žกํ•œ ๋‹ค์ง€ ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์‹คํ—˜ํ–ˆ๋‹ค. ๊ฐ ๊ณผ์ œ๋Š” ์‹ค์ œ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์ง‘๋˜๊ณ , ์ดํ›„ ์ •์ฑ… ํ•™์Šต ๋ฐ ํ‰๊ฐ€์— ํ™œ์šฉ๋˜์—ˆ๋‹ค:

  • Relocate (๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ): ๋กœ๋ด‡ ์†์ด ํƒ์ž ์œ„์˜ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด์„œ ์ž„์˜์˜ ๋ชฉํ‘œ ์œ„์น˜๋กœ ์˜ฎ๊ธฐ๋Š” ์ž‘์—…์ด๋‹ค. ์ดˆ๊ธฐ ๋ฌผ์ฒด์˜ ์ž์„ธ์™€ ๋ชฉํ‘œ ์œ„์น˜๋Š” ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋ฌด์ž‘์œ„๋กœ ์„ค์ •๋˜๋ฉฐ, ๋กœ๋ด‡์€ ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ ค ์ •ํ•ด์ง„ ์œ„์น˜์— ๋†“๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด ๊ณผ์ œ์—๋Š” YCB ๊ฐ์ฒด์…‹์˜ ํ† ๋งˆํ†  ์ˆ˜ํ”„ ์บ”, ํ†ต์กฐ๋ฆผ(Potted Meat Can), ๋จธ์Šคํƒ€๋“œ ๋ณ‘์˜ ์„ธ ๊ฐ€์ง€ ๋ฌผ์ฒด๊ฐ€ ์‚ฌ์šฉ๋˜์–ด, ๋ชฉํ‘œ์ง€ํ–ฅ ๋‹ค์ค‘ ๋ฌผ์ฒด ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.
  • Flip (๋จธ๊ทธ์ปต ๋’ค์ง‘๊ธฐ): ํ‰ํ‰ํ•œ ํ…Œ์ด๋ธ” ์œ„์— ๋†“์ธ ๋จธ๊ทธ์ž”์„ 90๋„ ํšŒ์ „์‹œ์ผœ ์˜†์œผ๋กœ ๋ˆ•ํžˆ๋Š” ์ž‘์—…์ด๋‹ค. ๋กœ๋ด‡ ์†์€ ์ž”์„ ์›€์ผœ์ฅ๊ณ  ์ฒœ์ฒœํžˆ ๊ธฐ์šธ์—ฌ ๋ˆ•ํ˜€์•ผ ํ•˜๋ฉฐ, ์ง€๋‚˜์นœ ํž˜์„ ์ฃผ๋ฉด ๋ฌผ์ฒด๊ฐ€ ๋ฏธ๋„๋Ÿฌ์ง€๊ฑฐ๋‚˜ ํŠ•๊ฒจ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ํž˜์„ ๋ฏธ์„ธํ•˜๊ฒŒ ๊ฐ€ํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ๋งค ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋จธ๊ทธ์ž”์˜ ์ดˆ๊ธฐ ์œ„์น˜์™€ ํšŒ์ „ ๊ฐ๋„๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ๋ณ€๊ฒฝ๋œ๋‹ค.
  • Open Door (๋ฌธ ์—ด๊ธฐ): ๋ฌธ์— ๋‹ฌ๋ฆฐ ๋ ˆ๋ฒ„ ํ˜•ํƒœ์˜ ์†์žก์ด๋ฅผ ๋Œ๋ ค์„œ ๋ฌธ์„ ์—ฌ๋Š” ์ด๋‹จ๊ณ„ ์ž‘์—…์ด๋‹ค. ๋จผ์ € ์†์žก์ด๋ฅผ ์ฅ๊ณ  ํšŒ์ „์‹œ์ผœ ์ž ๊ธˆ์„ ํ•ด์ œํ•œ ๋’ค, ๊ณ„์† ์žก์€ ์ƒํƒœ๋กœ ๋ฌธ์„ ๋‹น๊ฒจ์„œ ์—ฐ๋‹ค. ๋กœ๋ด‡ ์†์€ ์†์žก์ด๋ฅผ ๋‹จ๋‹จํžˆ ํŒŒ์ง€ํ•˜๋ฉด์„œ๋„ ํšŒ์ „๊ณผ ๋‹น๊ธฐ๊ธฐ ๋‘ ๋™์ž‘์„ ๋ชจ๋‘ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ ์ ˆํ•œ ์†๊ฐ€๋ฝ ๊ตฌ์„ฑ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๋งค ์‹œ๋„๋งˆ๋‹ค ๋ฌธ์˜ ์œ„์น˜(๊ฑฐ๋ฆฌ ๋“ฑ)๊ฐ€ ์•ฝ๊ฐ„์”ฉ ๋ฐ”๋€Œ์–ด, ์ผ๋ฐ˜ํ™”๋œ ๋ฌธ ์—ด๊ธฐ ๋™์ž‘์„ ์ตํ˜€์•ผ ํ•œ๋‹ค.

๊ฐ ๊ณผ์ œ์˜ ์„ฑ๊ณต ๊ธฐ์ค€์€ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋˜์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Relocate์˜ ๊ฒฝ์šฐ ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ ์‹œ ๋ฌผ์ฒด์™€ ๋ชฉํ‘œ ์ง€์  ์‚ฌ์ด ๊ฑฐ๋ฆฌ๊ฐ€ ์ผ์ • ์ž„๊ณ„๊ฐ’ ์ดํ•˜์ด๋ฉด ์„ฑ๊ณต์œผ๋กœ ํŒ์ •ํ•˜๊ณ , Flip์€ ๋จธ๊ทธ์ž”์˜ ๊ธฐ์šธ๊ธฐ ๊ฐ๋„๊ฐ€ ๋ชฉํ‘œ ๋ฒ”์œ„์— ๋“ค์–ด์˜ค๋ฉด ์„ฑ๊ณต์œผ๋กœ ๋ณธ๋‹ค. Open Door๋Š” ๋ฌธ ๊ฒฝ์ฒฉ์˜ ํšŒ์ „๊ฐ์ด ์ผ์ • ๊ฐ๋„ ์ด์ƒ ๋ฒŒ์–ด์ ธ ์‹ค์ œ๋กœ ๋ฌธ์ด ์—ด๋ ธ์„ ๋•Œ ์„ฑ๊ณต ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์„ฑ๊ณต๋ฅ (success rate)์ด๋‚˜ ์—ํ”ผ์†Œ๋“œ ๋ฆฌํ„ด(return) ๋“ฑ์„ ์ธก์ •ํ•˜์˜€๋‹ค.

2.2 ์‚ฌ์šฉ์ž ์›๊ฒฉ์กฐ์ž‘ ์‹คํ—˜: ์ปค์Šคํ…€ ์† vs. ๊ธฐ์กด ๋กœ๋ด‡ ์†

๋จผ์ € ๋ฐ๋ชจ ์ˆ˜์ง‘ ๋‹จ๊ณ„์˜ ํšจ์šฉ์„ฑ์„ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์ˆ˜ํ–‰๋œ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ(user study) ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณธ๋‹ค. 17๋ช…์˜ ํ”ผํ—˜์ž๋“ค์ด ์•ž์„œ ์ •์˜ํ•œ Relocate ๊ณผ์ œ์™€ Open Door ๊ณผ์ œ๋ฅผ ๊ฐ๊ธฐ ์ˆ˜ํ–‰ํ•˜๋˜, ๋„ค ๊ฐ€์ง€ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์† ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋„๋ก ํ–ˆ๋‹ค. ๋น„๊ต ๋Œ€์ƒ์€ (1) ์ œ์•ˆํ•œ ๋งž์ถคํ˜• ๋กœ๋ด‡ ์†, (2) Schunk SVH 5์†๊ฐ€๋ฝ ๋กœ๋ด‡ ์†, (3) Adroit ๋กœ๋ด‡ ์†, (4) Allegro ๋กœ๋ด‡ ์†์ด์—ˆ๋‹ค. ์ปค์Šคํ…€ ์† ์ด์™ธ์˜ ์„ธ ๊ฒฝ์šฐ์—๋Š” ๋ชจ๋‘ ์˜จ๋ผ์ธ ๋ชจ์…˜ ๋ฆฌํƒ€๊ธฐํŒ…์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž์˜ ์† ๋™์ž‘์ด ํ•ด๋‹น ๋กœ๋ด‡ ์†์œผ๋กœ ๋งคํ•‘๋˜์—ˆ๊ณ , ์ปค์Šคํ…€ ์†์˜ ๊ฒฝ์šฐ ์•ž์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ 1:1 ์ง์ ‘ ์ œ์–ด๊ฐ€ ์ด๋ฃจ์–ด์กŒ๋‹ค.

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ฐ ์กฐํ•ฉ(์ž‘์—… + ๋กœ๋ด‡ ์†)์— ๋Œ€ํ•ด 5ํšŒ์”ฉ ์—ฐ์† ์‹œ๋„ํ•˜๊ฒŒ ํ•˜๊ณ  ๊ทธ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ๊ณผ ์ž‘์—… ์™„๋ฃŒ ์‹œ๊ฐ„์„ ์ธก์ •ํ•˜์˜€๋‹ค. Relocate์™€ Open Door ๋ชจ๋‘ ๋‘ ๋‹จ๊ณ„(stage)๋กœ ๋‚˜๋ˆ„์–ด ์„ธ๋ถ„ํ™” ํ‰๊ฐ€ํ•˜์˜€๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด Open Door์˜ ๊ฒฝ์šฐ ์†์žก์ด ํšŒ์ „ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ 1๋‹จ๊ณ„, ๋ฌธ ์—ด๊ธฐ ์™„๋ฃŒ ์—ฌ๋ถ€๋ฅผ 2๋‹จ๊ณ„๋กœ ๊ตฌ๋ถ„ํ•ด ๊ฐ๊ฐ์˜ ์„ฑ๊ณต๋ฅ ๊ณผ ์†Œ์š” ์‹œ๊ฐ„์„ ๊ธฐ๋กํ–ˆ๋‹ค. ์ด๋Š” ์ž‘์—… ๋‚ด ์„ธ๋ถ€ ๋‹จ๊ณ„๋ณ„๋กœ ์–ด๋А ๋ถ€๋ถ„์—์„œ ์‹คํŒจํ•˜๊ฑฐ๋‚˜ ์‹œ๊ฐ„์ด ์ง€์—ฐ๋˜๋Š”์ง€ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ปค์Šคํ…€ ๋กœ๋ด‡ ์†์„ ์ด์šฉํ•œ ๊ฒฝ์šฐ ์••๋„์ ์œผ๋กœ ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ๋” ๋น ๋ฅธ ์ˆ˜ํ–‰ ์‹œ๊ฐ„์„ ๋ณด์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Relocate ๊ณผ์ œ์—์„œ 1๋‹จ๊ณ„(๋ฌผ์ฒด ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ) ์„ฑ๊ณต๋ฅ ์€ ์ปค์Šคํ…€ ์† 78.9%๋กœ, Schunk(61.2%), Adroit(58.8%), Allegro(44.7%)์— ๋น„ํ•ด ์›”๋“ฑํžˆ ๋†’์•˜๋‹ค. 2๋‹จ๊ณ„(๋ฌผ์ฒด ์ด๋™ ์™„๋ฃŒ) ์—ญ์‹œ ์ปค์Šคํ…€ ์†์ด 55.3%๋กœ ๋‚˜๋จธ์ง€(30.6%, 28.2%, 16.9%)๋ณด๋‹ค ํ›จ์”ฌ ๋†’์•˜๋‹ค. Open Door ๊ณผ์ œ์—์„œ๋„ ์ปค์Šคํ…€ ์†์˜ 1๋‹จ๊ณ„(์†์žก์ด ๋Œ๋ฆฌ๊ธฐ) ์„ฑ๊ณต๋ฅ ์ด 95.3%๋กœ ๋‹ค๋ฅธ ์†๋“ค(71~83%)๋ณด๋‹ค ๋†’์•˜๊ณ , 2๋‹จ๊ณ„(๋ฌธ ์—ด๊ธฐ)๋„ 82.4%๋กœ ํƒ€ ๋กœ๋ด‡ ์†๋“ค(41~61%) ๋Œ€๋น„ ํฌ๊ฒŒ ์•ž์„ฐ๋‹ค. ์ž‘์—… ์™„๋ฃŒ ์‹œ๊ฐ„๋„ ์ผ๊ด€๋˜๊ฒŒ ์ปค์Šคํ…€ ์†์ด ์งง์•„์„œ, ๋” ๋น ๋ฅด๊ฒŒ ๊ณผ์ œ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ์šฉ์ž ์‹คํ—˜์„ ํ†ตํ•ด, ๋งž์ถคํ˜• ์†์„ ์ด์šฉํ•œ ๋น„์ „ ๊ธฐ๋ฐ˜ ์›๊ฒฉ์กฐ์ž‘์ด ์ „ํ†ต์ ์ธ ๋กœ๋ด‡ ์† ์ง์ ‘ ์ œ์–ด๋ณด๋‹ค ํ›จ์”ฌ ํšจ์œจ์ ์ž„์ด ๊ฒ€์ฆ๋˜์—ˆ๋‹ค. ์ €์ž๋“ค์€ ํŠนํžˆ Allegro ์†์˜ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ €์กฐํ–ˆ๋˜ ์ ์„ ์ง€์ ํ–ˆ๋Š”๋ฐ, ๊ทธ ์ด์œ ๋กœ โ€œAllegro๋Š” ์†๊ฐ€๋ฝ์ด 4๊ฐœ๋ผ ์ธ๊ฐ„ ์† ๋™์ž‘์„ ์ถฉ์‹คํžˆ ๋งตํ•‘ํ•˜๊ธฐ ์–ด๋ ต๊ณ , ์† ํฌ๊ธฐ๋„ ์‚ฌ๋žŒ ์†๋ณด๋‹ค ํ›จ์”ฌ ์ปค ์ œ์–ด๊ฐ€ ์–ด์ƒ‰ํ•˜๋‹คโ€๊ณ  ๋ถ„์„ํ–ˆ๋‹ค. ๋ฐ˜๋ฉด ์ปค์Šคํ…€ ์†์€ ์‚ฌ์šฉ์ž ์†๊ณผ ํฌ๊ธฐ/๊ตฌ์กฐ๊ฐ€ ๊ฐ™๊ณ  ์ถ”๊ฐ€ ๋งคํ•‘ ๊ณ„์‚ฐ์ด ์—†๊ธฐ์— ์ฆ‰๊ฐ์ ์ด๊ณ  ์ง๊ด€์ ์ธ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์–ด ์กฐ์ž‘์„ ์ˆ˜์›”ํ•˜๊ฒŒ ๋งŒ๋“  ๊ฒƒ์ด๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ๋งž์ถคํ˜• ์† ์‹œ์Šคํ…œ์€ ๋ฐ๋ชจ ์ˆ˜์ง‘ ๋‹จ๊ณ„๋ถ€ํ„ฐ ์งˆ์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ๋ฐ์ดํ„ฐ(๋†’์€ ์„ฑ๊ณต๋ฅ ์˜ ์‹œ์—ฐ)๋ฅผ ๋‹ค๋Ÿ‰ ํ™•๋ณดํ•˜๊ฒŒ ํ•ด์ฃผ๋ฉฐ, ์ด๋Š” ์ดํ›„ ํ•™์Šต ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.

2.3 ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ ๋น„๊ต: RL vs. ๋ชจ๋ฐฉ ํ•™์Šต

๋‹ค์Œ์œผ๋กœ, ์ด๋ ‡๊ฒŒ ์ˆ˜์ง‘๋œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์ •์ฑ… ํ•™์Šต ๊ฒฐ๊ณผ๋ฅผ ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋น„๊ต ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ๊ฐ ๊ณผ์ œ(Relocate - 3๊ฐ€์ง€ ๊ฐ์ฒด, Flip, Open Door)์— ๋Œ€ํ•ด TRPO ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(RL)์œผ๋กœ ํ›ˆ๋ จํ•œ ์ •์ฑ…๊ณผ, DAPG ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉ ํ•™์Šต(IL)์œผ๋กœ ํ›ˆ๋ จํ•œ ์ •์ฑ…์„ ๋น„๊ตํ•˜์˜€๋‹ค. ์—ฌ๊ธฐ์„œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ์–‘์€ ๊ณผ์ œ๋‹น 50๊ฐœ ์—ํ”ผ์†Œ๋“œ๋กœ ๋™์ผํ•˜๊ฒŒ ์ œํ•œํ•˜์˜€๊ณ , ์ •์ฑ… ํ•™์Šต์€ 3๊ฐœ์˜ ์‹œ๋“œ๋กœ ๋ฐ˜๋ณตํ•˜์—ฌ ์ˆ˜๋ ด ์†๋„์™€ ์ตœ์ข… ์„ฑ๋Šฅ์˜ ํ‰๊ท ์„ ๋น„๊ตํ–ˆ๋‹ค. Figure 4์˜ ํ•™์Šตๆ›ฒ์„  ๋ฐ Table VI์˜ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ์ด ๋‘ ๋ฐฉ๋ฒ•์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.

ํ•™์Šตๆ›ฒ์„ ์„ ๋ณด๋ฉด, ๋ชจ๋ฐฉ ํ•™์Šต(DAPG)์ด ์ˆœ์ˆ˜ RL๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์ดˆ๊ธฐ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๊ณ  ๋” ๋†’์€ ์ˆ˜์ค€์—์„œ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฝํ–ฅ์ด ๋ช…ํ™•ํ•˜๋‹ค. ํŠนํžˆ ๋‚œ์ด๋„๊ฐ€ ๋†’์€ ๊ณผ์ œ์ผ์ˆ˜๋ก ๊ทธ ๊ฒฉ์ฐจ๊ฐ€ ํฌ๊ฒŒ ๋ฒŒ์–ด์กŒ๋‹ค. ์ตœ์ข… ์„ฑ๊ณต๋ฅ  ์ง€ํ‘œ๋กœ ๋ณด์•„๋„, ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ-๋กœ๋ด‡ ์กฐํ•ฉ์—์„œ DAPG ์ •์ฑ…์ด RL ์ •์ฑ…์„ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Relocate-ํ† ๋งˆํ† ์บ”, ๋จธ๊ทธ ๋’ค์ง‘๊ธฐ ๋“ฑ์—์„œ ๋ชจ๋“  ๋กœ๋ด‡ ์†์— ๋Œ€ํ•ด ๋ชจ๋ฐฉ ํ•™์Šต์ด ๋” ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•˜์˜€๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต์— ์œ ์˜๋ฏธํ•œ ์‹ ํ˜ธ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ๊ณ ์ฐจ์› ํƒ์ƒ‰ ๊ณต๊ฐ„์—์„œ RL ํ˜ผ์ž ํ•™์Šตํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํฌ๊ฒŒ ์ค„์—ฌ์ฃผ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€ Open Door ๊ณผ์ œ์—์„œ Allegro ์†์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ์˜€๋‹ค. ์ด ํ•œ ๊ฐ€์ง€ ์‚ฌ๋ก€์—์„œ๋Š” DAPG ์ •์ฑ…์˜ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ์ด RL๊ณผ ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ๋Š”๋ฐ, ์ด๋Š” Allegro ์†์˜ ๊ตฌ์กฐ์  ํ•œ๊ณ„์™€ ๊ณผ์ œ์˜ ๋‚œ์ด๋„๊ฐ€ ๋งž๋ฌผ๋ ค ๋‚˜ํƒ€๋‚œ ๊ฒฐ๊ณผ๋กœ ๋ณด์ธ๋‹ค. ๋น„๋ก ์ •๋Ÿ‰์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ž‘์•˜์ง€๋งŒ, ๋‘ ์ ‘๊ทผ๋ฒ•์˜ ๋™์ž‘ ์–‘์ƒ์€ ํฌ๊ฒŒ ๋‹ฌ๋ž๋‹ค. ์ €์ž๋“ค์ด ์‹œ๊ฐ์ ์œผ๋กœ ์ •์ฑ… ํ–‰๋™์„ ๊ด€์ฐฐํ•œ ๋ฐ”๋กœ๋Š”, DAPG๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์†์žก์ด๋ฅผ ์ฅ๊ณ  ๋Œ๋ฆฐ ํ›„ ๋‹น๊ธฐ๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ์ „๋žต์„ ๊ตฌ์‚ฌํ•œ ๋ฐ˜๋ฉด, ์ˆœ์ˆ˜ RL ์ •์ฑ…์€ ์†์žก์ด๋ฅผ ์ œ๋Œ€๋กœ ์ฅ์ง€ ๋ชปํ•˜๊ณ  ์†๋ฐ”๋‹ฅ์œผ๋กœ ๊ฐ•์••์ ์œผ๋กœ ๋ˆ„๋ฅด๋ฉด์„œ ๋งˆ์ฐฐ๋ ฅ์œผ๋กœ ๋ฌธ์„ ์—ฌ๋Š” ๋น„๊ต์  ๋น„์ •์ƒ์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ํ›„์ž๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ๋Š” ์šฐ์—ฐํžˆ ์„ฑ๊ณตํ• ์ง€ ๋ชจ๋ฅด๋‚˜ ์‹ค์ œ ์„ธ๊ณ„์—์„  ํ†ตํ•˜์ง€ ์•Š์„ ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค. ์ด ์‚ฌ๋ก€๋Š”, ๋ชจ๋ฐฉ ํ•™์Šต์„ ํ†ตํ•ด ์–ป์€ ์ •์ฑ…์ด ๋ณด๋‹ค ์ธ๊ฐ„์Šค๋Ÿฌ์šด ๋™์ž‘์œผ๋กœ ์•ˆ์ „ํ•˜๊ณ  ์˜ˆ์ƒ ๊ฐ€๋Šฅํ•œ ๋ฒ”์œ„ ๋‚ด์—์„œ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฒฐ๊ตญ ๋Œ€๋ถ€๋ถ„์˜ ์ƒํ™ฉ์—์„œ ์ธ๊ฐ„ ๋ฐ๋ชจ ํ™œ์šฉ์ด ํ•™์Šต ์„ฑ๋Šฅ๊ณผ ํ–‰๋™ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ด์ด ์ž…์ฆ๋˜์—ˆ๋‹ค.

2.4 ์ถ”๊ฐ€ ์‹คํ—˜: Ablation ๋ฐ ์˜ํ–ฅ ์š”์†Œ ๋ถ„์„

์ €์ž๋“ค์€ ๋ชจ๋ฐฉ ๊ฐ•ํ™”ํ•™์Šต์˜ ์„ฑ๊ณต์— ๊ธฐ์—ฌํ•˜๋Š” ์š”์†Œ๋“ค์„ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ๋ช‡ ๊ฐ€์ง€ ์š”์ธ ๋ณ„ Ablation ์‹คํ—˜๋„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Relocate(ํ† ๋งˆํ†  ์ˆ˜ํ”„ ์บ”) + Schunk Hand ์กฐํ•ฉ์— ๋Œ€ํ•ด, (a) ๋ฌผ์ฒด ๋งˆ์ฐฐ๊ณ„์ˆ˜, (b) ๋ฌผ์ฒด ๋ฐ€๋„(๋ฌด๊ฒŒ), (c) PD ์ œ์–ด๊ธฐ์˜ ๊ฐ•์„ฑ/๊ฐ์‡  ๊ณ„์ˆ˜, (d) ํ•™์Šต์— ์‚ฌ์šฉํ•œ ๋ฐ๋ชจ ๊ฐœ์ˆ˜ ๋“ฑ์„ ๋ณ€ํ™”์‹œ์ผœ ๊ฐ€๋ฉฐ DAPG ํ•™์Šต์˜ ๋ฏผ๊ฐ๋„๋ฅผ ๊ด€์ฐฐํ–ˆ๋‹ค. Figure 5์— ์ œ์‹œ๋œ ํ•™์Šตๆ›ฒ์„ ์„ ํ†ตํ•ด ๊ฐ ์กฐ๊ฑด ๋ณ€ํ™”๊ฐ€ ํ•™์Šต ์†๋„์™€ ์ตœ์ข… ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋น„๊ตํ•˜์˜€๋Š”๋ฐ, ์ „๋ฐ˜์ ์œผ๋กœ ํ™˜๊ฒฝ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ณ€ํ™”์—๋„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ํ•™์Šต์€ ์•ˆ์ •์ ์œผ๋กœ ๋™์ž‘ํ•จ์„ ๋ณด์˜€๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ฌผ์ฒด ๋งˆ์ฐฐ์ด๋‚˜ ๋ฌด๊ฒŒ๊ฐ€ ๋‹ฌ๋ผ์ ธ๋„ ๋ฐ๋ชจ๋ฅผ ํฌํ•จํ•œ ์ •์ฑ…์€ ๋น„๊ต์  ๊ฐ•์ธํ•œ ์„ฑ๋Šฅ ์œ ์ง€๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ์‹œ์—ฐ์„ ํ†ตํ•ด ํ•™์Šตํ•œ ์ธ๊ฐ„ ํŠน์œ ์˜ ์ ์‘์  ์กฐ์ž‘ ์ „๋žต์ด ์ž‘์šฉํ•œ ๊ฒฐ๊ณผ๋กœ ํ•ด์„๋œ๋‹ค. ๋˜ํ•œ ๋ฐ๋ชจ ๊ฐœ์ˆ˜์— ๋”ฐ๋ฅธ ์‹คํ—˜์—์„œ๋Š”, ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„์ˆ˜๋ก ํ•™์Šต ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜๋‹ค๊ฐ€ ์–ด๋А ์ •๋„ ์ˆ˜๋ ดํ•˜๋Š” ์–‘์ƒ์ด ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ์ด๋Š” ์ถ”๊ฐ€ ๋ฐ๋ชจ๊ฐ€ ์ดˆ๊ธฐ ํ•™์Šต์— ๋„์›€์€ ๋˜์ง€๋งŒ ๊ณผ๋„ํ•œ ๊ฒฝ์šฐ ์ˆ˜ํ™• ์ฒด๊ฐ์ด ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. PD ์ œ์–ด ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฒฝ์šฐ ๋„ˆ๋ฌด ๋‚ฎ์€ ๊ฐ•์„ฑ์€ ์ •ํ™•๋„ ์ €ํ•˜๋กœ, ๋„ˆ๋ฌด ๋†’์€ ๊ฐ•์„ฑ์€ ์ง„๋™ ์ฆ๊ฐ€๋กœ ์ด์–ด์ ธ, ์ ์ ˆํ•œ ํŠœ๋‹์ด ํ•„์š”ํ•จ์„ ์‹คํ—˜์œผ๋กœ ํ™•์ธํ•˜์˜€๋‹ค.

2.5 ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡์—์˜ ์ ์šฉ ๋ฐ ์„ฑ๋Šฅ

์ตœ์ข…์ ์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ํ˜„์‹ค์˜ ๋กœ๋ด‡ ์†์— ์ด์‹ํ•˜์—ฌ ๊ฒ€์ฆํ•˜์˜€๋‹ค. ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ์€ Allegro Hand + XArm-6 ๋กœ๋ด‡ ํŒ” ์กฐํ•ฉ์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ Allegro Hand ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ๋กœ๋ด‡ ์†์„ 6์ž์œ ๋„ ๋กœ๋ด‡ ํŒ” ๋์— ์žฅ์ฐฉํ•œ ๊ตฌ์„ฑ์ด๋‹ค. ์ €์ž๋“ค์€ ํ•™์Šต๋œ ์ •์ฑ…์œผ๋กœ ์‹ค์„ธ๊ณ„์—์„œ ์œ„ ๊ณผ์ œ๋“ค์„ ์ˆ˜ํ–‰ํ•ด๋ณด๊ณ  ์„ฑ๊ณต๋ฅ ๊ณผ ๋™์ž‘์˜ ์•ˆ์ •์„ฑ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ธ๊ฐ„ ์‹œ์—ฐ์„ ํฌํ•จํ•˜์—ฌ ํ•™์Šต๋œ ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ๊ฐ•์ธํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋”์šฑ์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ƒˆ๋กœ์šด ๊ฐ์ฒด๋‚˜ ๋ณ€ํ˜•๋œ ์ƒํ™ฉ์—๋„ ์ •์ฑ…์ด ๋น„๊ต์  ์ž˜ ์ ์‘ํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ํ†ตํ•ด ์–ป์€ ์ผ๋ฐ˜์ ์ธ ์กฐ์ž‘ ์›๋ฆฌ์™€ ์ž์—ฐ์Šค๋Ÿฌ์šด ํž˜ ๊ฐ€ํ•˜๊ธฐ ์ „๋žต ๋•๋ถ„์œผ๋กœ ํ’€์ด๋œ๋‹ค. ๋ฐ˜๋ฉด, ๋™์ผ ํ™˜๊ฒฝ์—์„œ ์ˆœ์ˆ˜ RL๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ํ˜„์‹ค์—์„œ ๊ฑฐ์˜ ์‹คํŒจํ•˜์˜€๋Š”๋ฐ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์˜ ๋น„ํ˜„์‹ค์ ์ธ ์ „๋žต(์˜ˆ: ๋งˆ์ฐฐ๋กœ ๋ฌธ ๋ฐ€๊ธฐ ๋“ฑ)์ด ํ˜„์‹ค์—์„  ํ†ตํ•˜์ง€ ์•Š๊ณ , ๋ฏธ์„ธํ•œ ๋™์ž‘ ์˜ค์ฐจ์— ๋Œ€ํ•œ ๋ณด์ • ๋Šฅ๋ ฅ๋„ ๋ถ€์กฑํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ •๋Ÿ‰์ ์œผ๋กœ ์‹คํ—˜ ํšŸ์ˆ˜๊ฐ€ ์ œํ•œ๋˜์–ด ๊ตฌ์ฒด์ ์ธ ์„ฑ๊ณต๋ฅ  ์ˆ˜์น˜๋กœ ๋น„๊ตํ•˜์ง„ ์•Š์•˜์ง€๋งŒ, ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด ์›”๋“ฑํžˆ ์•ˆ์ •์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋ณด์ธ ๊ฒƒ์€ ๋ถ„๋ช…ํ•˜๋‹ค. ์š”์•ฝํ•˜๋ฉด, ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ๋ฒ•์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ๊ฒฉ์ฐจ๋ฅผ ์ค„์—ฌ์ฃผ๋Š” ์ธ๊ฐ„ ๋ฐ๋ชจ์˜ ํž˜์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ๋ณต์žกํ•œ ๋‹ค๊ด€์ ˆ ์† ์กฐ์ž‘ ์ž‘์—…์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์žˆ์–ด ๋ชจ๋ฐฉ ํ•™์Šต์˜ ์œ ์šฉ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

3. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต (Comparison with Prior Work)

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์ง€ ๋กœ๋ด‡ ์†์˜ ์ •๊ตํ•œ ์กฐ์ž‘๊ณผ ์ธ๊ฐ„ ์‹œ์—ฐ ํ•™์Šต ๋ถ„์•ผ์—์„œ ์—ฌ๋Ÿฌ ๊ธฐ์กด ์ ‘๊ทผ๋“ค๊ณผ ๊ตฌ๋ณ„๋˜๋Š” ํ˜์‹ ์ ์„ ์ œ์‹œํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๊ด€๋ จ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์ด ๋…ผ๋ฌธ์˜ ์ฐจ๋ณ„์„ฑ๊ณผ ๊ธฐ์—ฌ๋„๋ฅผ ๋ถ„์„ํ•œ๋‹ค.

  • VR ๊ธ€๋Ÿฌ๋ธŒ ๊ธฐ๋ฐ˜ ๋ฐ๋ชจ ์ˆ˜์ง‘ vs. ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ๋ฐ๋ชจ ์ˆ˜์ง‘: ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋กœ๋ด‡ ํ•™์Šต์— ํ™œ์šฉํ•˜๋ ค๋Š” ์‹œ๋„๋Š” ์ด์ „๋ถ€ํ„ฐ ์žˆ์–ด ์™”๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ 2018๋…„ Rajeswaran ๋“ฑ์€ VR ์žฅ๋น„์™€ ๋ฐ์ดํ„ฐ๊ธ€๋Ÿฌ๋ธŒ๋ฅผ ํ™œ์šฉํ•ด ์ธ๊ฐ„์ด ๊ฐ€์ƒํ˜„์‹ค์—์„œ ๋กœ๋ด‡ ์†์„ ์กฐ์ž‘ํ•˜๋ฉฐ ๋ฐ๋ชจ๋ฅผ ๋ชจ์œผ๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•ด DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์„ฑ๊ณต์ ์ธ Dexterous ํ•ธ๋“œ ์กฐ์ž‘์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ์ „์šฉ ์žฅ๋น„๊ฐ€ ํ•„์š”ํ•˜๊ณ  ํ•œ์ •๋œ ์ธ์›๋งŒ ์ฐธ์—ฌํ•  ์ˆ˜ ์žˆ์–ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ํ™•์žฅ์„ฑ(scalability)์ด ๋–จ์–ด์ง„๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์—ˆ๋‹ค. ๋ฐ˜๋ฉด ๋ณธ ๋…ผ๋ฌธ์€ ํŠน์ˆ˜ ์žฅ๋น„ ์—†์ด ์นด๋ฉ”๋ผ๋งŒ์œผ๋กœ ๋ˆ„๊ตฌ๋‚˜ ๋ฐ๋ชจ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์„ ๋งˆ๋ จํ•จ์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž๋กœ๋ถ€ํ„ฐ ๋Œ€๋Ÿ‰์˜ ๋ฐ๋ชจ๋ฅผ ์†์‰ฝ๊ฒŒ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค. ์‹ค์ œ๋กœ โ€œVR์„ ํ†ตํ•œ ์ˆ˜์ง‘์€ ๋งŽ์€ ์ธ์  ๋…ธ๋ ฅ(human effort)์„ ์š”ํ•ด ํ™•์žฅ์„ฑ์ด ๋‚ฎ์ง€๋งŒ, ๋‹จ์ผ ์นด๋ฉ”๋ผ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋”์šฑ ์†์‰ฝ๊ณ  ๋Œ€๊ทœ๋ชจ๋กœ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ ๋‹คโ€๊ณ  ์ €์ž๋“ค๋„ ๊ฐ•์กฐํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ํ–ฅํ›„ ํด๋ผ์šฐ๋“œ ๋กœ๋ณดํ‹ฑ์Šค๋‚˜ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ์„ ํ†ตํ•ด ๋ฐฉ๋Œ€ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์„ ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ํฌ๋‹ค.

  • ๋ฉ€ํ‹ฐ์บ  Vision ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ vs. ๋‹จ์ผ์บ  ์ ‘๊ทผ: ๋น„์ „ ๊ธฐ๋ฐ˜์˜ ์›๊ฒฉ์กฐ์ž‘ ์ž์ฒด๋Š” ๊ณผ๊ฑฐ์—๋„ ์—ฐ๊ตฌ๋œ ๋ฐ” ์žˆ๋Š”๋ฐ, DexPilot ์—ฐ๊ตฌ๊ฐ€ ๊ทธ ์„ ๊ตฌ์  ์˜ˆ๋‹ค. DexPilot์—์„œ๋Š” 4๋Œ€์˜ ๊นŠ์ด ์นด๋ฉ”๋ผ(RealSense)๋ฅผ ํ…Œ์ด๋ธ” ์ฃผ๋ณ€์— ๋ฐฐ์น˜ํ•˜๊ณ  ๋ฐฐ๊ฒฝ์„ ๊ฒ€์€ ์ฒœ์œผ๋กœ ๋ง‰๋Š” ๋“ฑ ์ƒ๋‹นํžˆ ๋ณต์žกํ•œ ์„ธํŒ…์„ ํ†ตํ•ด, ์ธ๊ฐ„ ์† ์˜์ƒ์„ ์ธ์‹ํ•ด Allegro ๋กœ๋ด‡ ์†์„ ์ œ์–ดํ•˜์˜€๋‹ค. ์ด์™€ ๋น„๊ตํ•˜๋ฉด ๋ณธ ๋…ผ๋ฌธ์€ ์นด๋ฉ”๋ผ ํ•œ ๋Œ€(iPad)๋กœ ๋™์ผํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ, ์ถ”๊ฐ€๋กœ ์‚ฌ์šฉ์ž๋ณ„ ์ปค์Šคํ…€ ์† ์ธํ„ฐํŽ˜์ด์Šค๊นŒ์ง€ ์ œ๊ณตํ•˜์—ฌ ์กฐ์ž‘์˜ ์ง๊ด€์„ฑ์„ ๋†’์˜€๋‹ค. ๋ฌด์—‡๋ณด๋‹ค๋„, DexPilot ๋“ฑ ์ด์ „ ์—ฐ๊ตฌ๋“ค์€ ๋‹จ์ผ ํŠน์ • ๋กœ๋ด‡ ์†(์˜ˆ: Allegro)๋งŒ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜์˜€๋Š”๋ฐ, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋™์ผํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ๋ฒ”์šฉ์„ฑ์„ ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ์ด์ „์—๋Š” ๋ณผ ์ˆ˜ ์—†์—ˆ๋˜ ์ƒˆ๋กœ์šด ๊ฐœ๋…์œผ๋กœ, ์˜ˆ์ปจ๋Œ€ ํ•œ ์‚ฌ๋žŒ์˜ ์‹œ์—ฐ์œผ๋กœ ์‰ฅํฌ ์†, ์–ด๋“œ๋กœ์ดํŠธ ์†, ์•Œ๋ ˆ๊ทธ๋กœ ์† ๊ฐ๊ฐ์˜ ์ •์ฑ…์„ ๋ชจ๋‘ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ฒ˜์Œ์œผ๋กœ ์‹ค์ฆํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ Multi-hand demonstration ์•„์ด๋””์–ด๋Š” ๋กœ๋ด‡ ํ•ธ๋“œ ํ•˜๋“œ์›จ์–ด๊ฐ€ ๋‹ค์–‘ํ•œ ํ˜„์‹ค์—์„œ ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.

  • ๋‹จ์ˆœ ๊ทธ๋ฆฌํผ(2-jaw) ์ž‘์—… vs. ๊ณ ์ฐจ์› ๋‹ค์ง€ ์กฐ์ž‘: ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋น„์ „์œผ๋กœ๋ถ€ํ„ฐ ๊ฐ€์ ธ์™€ ํ•™์Šตํ•˜๋Š” ์—ฐ๊ตฌ ์ค‘์—๋Š”, ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ(์ง‘๊ฒŒ ํ˜•ํƒœ ๋กœ๋ด‡ ํ•ธ๋“œ)๋กœ ํ”ฝ์•คํ”Œ๋ ˆ์ด์Šค ๊ฐ™์€ ์ž‘์—…์„ ๊ฐ€๋ฅด์น˜๋Š” ์‚ฌ๋ก€๋“ค์ด ์žˆ์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ฐ„ ๋™์ž‘ ์˜์ƒ์„ ๋ชจ๋ฐฉํ•ด 2-finger ๊ทธ๋ฆฌํผ๋กœ ๋ฌผ์ฒด๋ฅผ ์ง‘๋Š” ์ •๋„์˜ ๊ณผ์ œ๋Š” 3D ์ •๋ณด ์—†์ด๋„ ๊ฐ€๋Šฅํ•˜์—ฌ, 2D ์˜์ƒ ๊ธฐ๋ฐ˜ imitation์ด ์‹œ๋„๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์€ ์ €์ฐจ์› ์ œ์–ด(๋ช‡ ๊ฐœ ๊ด€์ ˆ)์™€ ๋‹จ์ˆœ ์ž‘์—…์— ๊ตญํ•œ๋˜์–ด, ๋ณต์žกํ•œ ์†๊ฐ€๋ฝ๋“ค์„ ํ™œ์šฉํ•œ 3D ์ƒํ˜ธ์ž‘์šฉ ๊ณผ์ œ์—๋Š” ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์› ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ์‹œ์Šคํ…œ์€ RGB-D๋ฅผ ํ†ตํ•ด 3D ์†-๋ฌผ์ฒด ํฌ์ฆˆ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•ด ๋ณต์žกํ•œ ์ ‘์ด‰์ด ์žˆ๋Š” ์ž‘์—…๋“ค(์˜ˆ: ์†์žก์ด ๋Œ๋ ค๋‹น๊ธฐ๊ธฐ)์„ ์‹œ์—ฐ ๋ฐ ํ•™์Šตํ•˜์˜€๋‹ค๋Š” ์ ์—์„œ, ๊ธฐ์กด ์˜์ƒ ๋ชจ๋ฐฉํ•™์Šต ์—ฐ๊ตฌ๋“ค์„ ํ•œ ๋‹จ๊ณ„ ๋ฐœ์ „์‹œ์ผฐ๋‹ค. ์š”์ปจ๋Œ€ ๋ณด๋‹ค ๋‚œ์ด๋„ ๋†’์€ ๋‹ค์ง€ ์กฐ์ž‘ ์ž‘์—…์— ๋น„์ „ ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉํ•™์Šต์„ ํ™•์žฅํ•œ ์‚ฌ๋ก€๋กœ ํ‰๊ฐ€๋œ๋‹ค.

  • ๋‹ค์ˆ˜ ๋กœ๋ด‡ ์† ๊ฐ„ ์ •์ฑ… ์ „์ด: ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡ ์† ์—ฐ๊ตฌ์—์„œ ๋กœ๋ด‡ ๊ตฌ์กฐ๊ฐ€ ๋ฐ”๋€Œ๋ฉด ์ƒˆ๋กœ ํ•™์Šต์„ ํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋Š” ์˜ค๋ž˜ ์ง€์†๋œ ์ˆ™์ œ์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 5์†๊ฐ€๋ฝ ๋กœ๋ด‡์— ๋งž์ถฐ ํ•™์Šต๋œ ์ •์ฑ…์€ 4์†๊ฐ€๋ฝ ๋กœ๋ด‡์—๋Š” ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๊ณ , ์‹ฌ์ง€์–ด ์†๊ฐ€๋ฝ ๊ธธ์ด ๋น„์œจ ์ฐจ์ด๋งŒ ์žˆ์–ด๋„ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์ด ์žˆ์—ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ์‹œ๋„๋กœ meta-learning์ด๋‚˜ ์ด์ข… ๋กœ๋ด‡ ๊ฐ„ domain adaptation ๋“ฑ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ผ๋ถ€ ์žˆ์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์‚ฌ์ „ ๋ฐ์ดํ„ฐ ์ค€๋น„๋‚˜ ๋ณด์ •์ด ๊นŒ๋‹ค๋กœ์› ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์‚ฌ๋žŒ ์†์ด๋ผ๋Š” ๊ณตํ†ต ์ฐธ์กฐ ๊ธฐ์ค€(human hand as common reference)์„ ํ™œ์šฉํ•˜์—ฌ, ์ฒ˜์Œ์—๋Š” ์‚ฌ๋žŒ ์†๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์˜ ์ปค์Šคํ…€ ์†์œผ๋กœ ์‹œ์—ฐ์„ ๋ชจ์œผ๊ณ  ๋‚˜์„œ ์ด๋ฅผ ๊ฐ ๋กœ๋ด‡ ์†์œผ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ–ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ๊ฑธ์ณ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต์œ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ฐ ๋กœ๋ด‡๋ณ„ ์ตœ์  ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ฉด์„œ๋„ ํ•„์š”ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ํšŸ์ˆ˜๋Š” ์ตœ์†Œํ™”ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ multi-finger manipulation ์—ฐ๊ตฌ์—์„œ ํ•œ ์ข…๋ฅ˜ ๋กœ๋ด‡์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ผ๋˜ ๊ด€ํ–‰๊ณผ ๋‹ฌ๋ฆฌ, ๋ฒ”์šฉ์ ์ธ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ฒ˜์Œ ๋ณด์—ฌ์ค€ ๊ฒƒ์ด๋‹ค.

  • ์ •์ฑ…์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€๊ณผ ์•ˆ์ „์„ฑ: OpenAI์˜ ์œ ๋ช…ํ•œ Rubikโ€™s Cube ํ‘ธ๋Š” ๋กœ๋ด‡ ์†๊ณผ ๊ฐ™์€ ์‚ฌ๋ก€์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ, ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋‹ค๊ด€์ ˆ ์† ์กฐ์ž‘์„ ์Šต๋“์‹œํ‚ค๋Š” ๊ฒƒ์€ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ์ข…์ข… ๋น„์ธ๊ฐ„์ ์ธ ํ•ด๋ฒ•(์˜ˆ: ํ๋ธŒ ๋˜์กŒ๋‹ค ๋ฐ›๊ธฐ ๋“ฑ)์ด ๋‚˜ํƒ€๋‚˜๊ฑฐ๋‚˜, ํ˜„์‹ค ์ ์šฉ ์‹œ ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ๋™์ž‘์„ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค. ์ด์— ๋น„ํ•ด ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ์€ ์ธ๊ฐ„์˜ ๋ฐ๋ชจ๋ฅผ ํ†ตํ•ด ์ •์ฑ…์ด ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋„๋ก ์œ ๋„ํ•˜์˜€๊ณ , ๊ทธ ๊ฒฐ๊ณผ RL๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋‚˜ํƒ€๋‚˜๋Š” ์œ„ํ—˜ํ•˜๊ฑฐ๋‚˜ ์ด์ƒํ•œ ํ–‰๋™์„ ์–ต์ œํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์—ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ ๋ฌ˜์‚ฌ๋œ ๊ฒƒ์ฒ˜๋Ÿผ, ๋ฌธ ์—ด๊ธฐ ๋™์ž‘์—์„œ ์ˆœ์ˆ˜ RL ์ •์ฑ…์€ ๋ฌธ์„ ๋งˆ์ฐฐ๋กœ ์–ต์ง€๋กœ ์—ฌ๋Š” ๋ฐฉ๋ฒ•์„ ํƒํ–ˆ์ง€๋งŒ, ๋ฐ๋ชจ๋ฅผ ์ฐธ๊ณ ํ•œ ์ •์ฑ…์€ ์†์žก์ด๋ฅผ ์ œ๋Œ€๋กœ ์žก๊ณ  ํŠธ๋Š” ๋ณด๋‹ค ์•ˆ์ „ํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•์„ ๊ตฌ์‚ฌํ–ˆ๋‹ค. ์ด๋Ÿฐ ์ฐจ์ด๋Š” ์‚ฐ์—…์  ์‘์šฉ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์ฆ‰, ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ธฐ์กด ๋Œ€๋น„ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์ง€ ์† ์กฐ์ž‘ ์ •์ฑ…์„ ์–ป๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, โ€œFrom One Hand to Multiple Handsโ€ ๋…ผ๋ฌธ์€ ๋น„์ „ ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜, ๋งž์ถคํ˜• ๋กœ๋ด‡ ์† ๊ฐœ๋…, ๋‹ค์ค‘ ๋กœ๋ด‡ ๊ฐ„ ์‹œ์—ฐ ์ด์‹, ๋ฐ๋ชจ-๊ฐ•ํ™” ํ•™์Šต ํ†ตํ•ฉ ๋“ฑ์„ ํ•œ ๋ฐ ๋ฌถ์–ด ๋‹ค์ง€ ๋กœ๋ด‡ ์† ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ฐ ์—ฐ๊ตฌ๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ๋“ค์— ๋น„ํ•ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ์šฉ์ด์„ฑ๊ณผ ํ™•์žฅ์„ฑ, ํ•™์Šต ์ •์ฑ…์˜ ์„ฑ๋Šฅ๊ณผ ํ˜„์‹ค ์ ํ•ฉ์„ฑ ์ธก๋ฉด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์†์ด๋‚˜ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์— ๋ฒ”์šฉ์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์„œ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

Copyright 2024, Jung Yeon Lee