Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • 1. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ•ต์‹ฌ ์•„์ด๋””์–ด ๋ถ„์„
    • 2. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์  ๋ฐ ๊ด€๋ จ ์—ฐ๊ตฌ ๋น„๊ต
    • 3. ์‹ค์ œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„์ 
    • 4. ๊ตฌ์กฐํ™”๋œ ์š”์•ฝ ๋ฐ ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

๐Ÿ“ƒDexTrack ๋ฆฌ๋ทฐ

il
rl
Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References
Published

August 10, 2025

  • Paper Link
  • Project Link
  1. ๐Ÿค– ์ด ์—ฐ๊ตฌ๋Š” ๋ณต์žกํ•œ ์ ‘์ด‰ ์—ญํ•™๊ณผ ๋†’์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋˜๋Š” ์ธ๊ฐ„ ๋ ˆํผ๋Ÿฐ์Šค๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡์˜ ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘์„ ์œ„ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์‹ ๊ฒฝ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  2. ๐Ÿ› ๏ธ DexTrack์€ ์ธ๊ฐ„์˜ ์กฐ์ž‘ ๋ ˆํผ๋Ÿฐ์Šค๋ฅผ ํ†ตํ•ด ์‹ ๊ฒฝ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ•™์Šตํ•˜๋ฉฐ, ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๋ชจ๋ฐฉ ํ•™์Šต์„ ํ†ตํ•ฉํ•˜๊ณ  ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™”๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชจ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ƒ์„ฑ ๋ฐ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. โœจ ์ œ์•ˆ๋œ ์ปจํŠธ๋กค๋Ÿฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ 10% ์ด์ƒ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋ณต์žกํ•˜๊ณ  ์ƒˆ๋กœ์šด ์กฐ์ž‘๊ณผ ํฐ ๋…ธ์ด์ฆˆ์—๋„ ๊ฐ•๊ฑดํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Brief Review

DexTrack์€ ์ธ๊ฐ„ ์ฐธ์กฐ(human references)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ •๊ตํ•œ ์กฐ์ž‘(dexterous manipulation)์„ ์œ„ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์‹ ๊ฒฝ๋ง ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ(neural tracking controller)๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๋„์ „ ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด ์ปจํŠธ๋กค๋Ÿฌ๋Š” ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋„๋ก ์ •๊ตํ•œ ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ์ œ์–ดํ•˜์—ฌ, ์ธ๊ฐ„-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ์˜ ์šด๋™ํ•™์  ๊ถค์ (kinematic human-object interaction trajectories)์— ์˜ํ•ด ์ •์˜๋œ ๋‹ค์–‘ํ•œ ๋ชฉ์ ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ •๊ตํ•œ ์กฐ์ž‘์˜ ๋ณต์žกํ•œ ์ ‘์ด‰ ์—ญํ•™(intricate contact dynamics)๊ณผ ์ ์‘์„ฑ(adaptivity), ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ(generalizability), ๊ฐ•๊ฑด์„ฑ(robustness)์˜ ํ•„์š”์„ฑ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๊ฐ•ํ™” ํ•™์Šต(reinforcement learning, RL) ๋ฐ ๊ถค์  ์ตœ์ ํ™”(trajectory optimization, TO) ๋ฐฉ๋ฒ•์€ ํƒœ์Šคํฌ๋ณ„ ๋ณด์ƒ(task-specific rewards)์ด๋‚˜ ์ •๋ฐ€ํ•œ ์‹œ์Šคํ…œ ๋ชจ๋ธ์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. DexTrack์€ ์ธ๊ฐ„ ์ฐธ์กฐ์™€ ๋กœ๋ด‡ ์•ก์…˜ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ์˜ ์„ฑ๊ณต์ ์ธ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜(robot tracking demonstrations)์„ ํ๋ ˆ์ด์…˜ํ•˜์—ฌ ์‹ ๊ฒฝ๋ง ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ (data flywheel)์„ ํ™œ์šฉํ•˜์—ฌ ์ปจํŠธ๋กค๋Ÿฌ์˜ ์„ฑ๋Šฅ๊ณผ ์„ฑ๊ณต์ ์ธ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์˜ ์ˆ˜ ๋ฐ ํ’ˆ์งˆ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

DexTrack์€ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์œผ๋กœ๋ถ€ํ„ฐ ์‹ ๊ฒฝ๋ง ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •๊ณผ ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์„ ์ฑ„๊ตดํ•˜๋Š” ๊ณผ์ •์„ ๋ฒˆ๊ฐˆ์•„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  1. ์‹ ๊ฒฝ๋ง ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ ํ•™์Šต:
    • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ: ์ธ๊ฐ„์˜ ์†-๊ฐ์ฒด ์กฐ์ž‘ ๊ถค์ ์„ ๋กœ๋ด‡์˜ ์šด๋™ํ•™์  ํ•ธ๋“œ ์‹œํ€€์Šค๋กœ ๋ฆฌํƒ€๊ฒŒํŒ…(retargeting)ํ•˜์—ฌ ์ฐธ์กฐ ๋ชจ์…˜ ์„ธํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ•ํ™” ํ•™์Šต(RL)๊ณผ ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning, IL)์˜ ๊ฒฐํ•ฉ: ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ•๊ฑดํ•œ ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ํ•™์Šต ๋ฐฉ์‹์„ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • ์‹ ๊ฒฝ๋ง ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ(\pi): ๊ฐ ํƒ€์ž„์Šคํ… n์—์„œ ์ •์ฑ…์€ ํ˜„์žฌ ์ƒํƒœ s_n๊ณผ ๋‹ค์Œ ๋ชฉํ‘œ ์ƒํƒœ \hat{s}_{n+1}์„ ๊ด€์ธกํ•˜๊ณ , ์•ก์…˜์˜ ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค: a_n \sim \pi(\cdot|o_n, \hat{s}_{n+1}). ํšจ๊ณผ์ ์ธ ์ปจํŠธ๋กค๋Ÿฌ๋Š” ๊ฒฐ๊ณผ ํ•ธ๋“œ ๋ฐ ๊ฐ์ฒด ์ƒํƒœ๊ฐ€ ํ•ด๋‹น ๋‹ค์Œ ๋ชฉํ‘œ ์ƒํƒœ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•˜๋„๋ก ๋ณด์žฅํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ•ํ™” ํ•™์Šต:
      • ๋ชฉํ‘œ๋Š” ํ• ์ธ๋œ ๋ˆ„์  ๋ณด์ƒ(discounted cumulative reward) J = E_{p(\tau|\pi)}\left[\sum_{n=0}^{N-1}\gamma^n r_n\right]์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ r_n = r(s_n, a_n, \hat{s}_{n+1}, s_{n+1})์€ ๋ณด์ƒ์ž…๋‹ˆ๋‹ค.
      • ๋กœ๋ด‡ ํ•ธ๋“œ๋Š” ๋น„๋ก€ ๋ฏธ๋ถ„(proportional derivative, PD) ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ œ์–ด๋˜๋ฉฐ, ์•ก์…˜ a_n์€ ๋ชจ๋“  ํ•ธ๋“œ ๊ด€์ ˆ์— ๋Œ€ํ•œ ๋ชฉํ‘œ ์œ„์น˜ ๋ช…๋ น์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
      • ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•ด ์ž”์ฐจ ์•ก์…˜ ๊ณต๊ฐ„(residual action space)์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. a_n = s_n^b + \sum_{k=0}^n \Delta a_k๋กœ ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉฐ, s_n^b๋Š” ๋ฒ ์ด์Šค๋ผ์ธ ํ•ธ๋“œ ๊ถค์ ์ž…๋‹ˆ๋‹ค.
      • ๊ด€์ธก(o_n)์€ ํ˜„์žฌ ํ•ธ๋“œ ๋ฐ ๊ฐ์ฒด ์ƒํƒœ, ๋ฒ ์ด์Šค๋ผ์ธ ๊ถค์ , ์•ก์…˜, ์†๋„, ๊ฐ์ฒด ํ˜•์ƒ(feat_{obj}) ๋ฐ ๋ณด์กฐ ํŠน์ง•(aux_n)์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค: o_n = \{s_n, \dot{s}_n, s_n^b, a_n, \text{feat}_{obj}, \text{aux}_n\}. feat_{obj}๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ PointNet ๊ธฐ๋ฐ˜ ๊ฐ์ฒด ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ธ์ฝ”๋”์—์„œ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.
      • ์กฐ์ž‘ ์ถ”์ ์„ ์œ„ํ•œ ๋ณด์ƒ(r)์€ ์ „ํ™˜๋œ ํ•ธ๋“œ ๋ฐ ๊ฐ์ฒด ์ƒํƒœ๊ฐ€ ์ฐธ์กฐ ์ƒํƒœ์™€ ์ผ์น˜ํ•˜๋„๋ก ์žฅ๋ คํ•˜๋ฉฐ ํ•ธ๋“œ-๊ฐ์ฒด ์นœํ™”๋„(hand-object affinity)๋ฅผ ์ด‰์ง„ํ•ฉ๋‹ˆ๋‹ค: r = w_{o,p}r_{o,p} + w_{o,q}r_{o,q} + w_{wrist}r_{wrist} + w_{finger}r_{finger} + w_{affinity}r_{affinity} ์—ฌ๊ธฐ์„œ r_{o,p}, r_{o,q}, r_{wrist}, r_{finger}, r_{affinity}๋Š” ๊ฐ๊ฐ ๊ฐ์ฒด ์œ„์น˜, ๊ฐ์ฒด ๋ฐฉํ–ฅ, ํ•ธ๋“œ ์†๋ชฉ, ํ•ธ๋“œ ์†๊ฐ€๋ฝ, ํ•ธ๋“œ-๊ฐ์ฒด ์นœํ™”๋„์— ๋Œ€ํ•œ ๋ณด์ƒ์ž…๋‹ˆ๋‹ค.
    • ๋ชจ๋ฐฉ ํ•™์Šต: RL์˜ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์„ฑ๊ณต์ ์ด๊ณ  ํ’๋ถ€ํ•˜๋ฉฐ ๋‹ค์–‘ํ•œ โ€œ์ถ”์  ์ง€์‹โ€์„ ์ปจํŠธ๋กค๋Ÿฌ์— ์ฆ๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค. ์ปจํŠธ๋กค๋Ÿฌ๋Š” ๊ณ ํ’ˆ์งˆ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ์•กํ„ฐ ์†์‹ค(actor loss) ์™ธ์— ์•ก์…˜ ์ง€๋„ ์†์‹ค(action supervision loss)์„ ํ†ตํ•ฉํ•˜์—ฌ ์ •์ฑ… ์˜ˆ์ธก์ด ์ „๋ฌธ๊ฐ€ ์•ก์…˜(a_n^L)์œผ๋กœ ํŽธํ–ฅ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค: L_a = E_{a_n \sim \pi(\cdot|o_n, \hat{s}_{n+1})}\Vert a_n - a_n^L \Vert ์ด๋Š” ํƒ์ƒ‰์„ ์•ˆ๋‚ดํ•˜๊ณ  ์ˆ˜๋ ด ์†๋„๋ฅผ ๋†’์ด๋ฉฐ ๋ณต์žกํ•œ ๋ฌธ์ œ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  2. ์‹ ๊ฒฝ๋ง ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ™œ์šฉํ•œ ๊ณ ํ’ˆ์งˆ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜ ์ฑ„๊ตด:
    • ๋‹จ์ผ ๊ถค์  ์ถ”์ (Single Trajectory Tracking): ๊ธฐ๋ณธ์ ์œผ๋กœ RL์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐœ๋ณ„ ๊ถค์  ์ถ”์  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€๋งŒ, ์ด๋Š” ๋‹ค์–‘ํ•˜๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
    • โ€œ์ถ”์  ์‚ฌ์ „ ์ง€์‹(tracking prior)โ€ ์ „์ด: ์ด๋ฏธ ๋งŽ์€ ๊ถค์ ์„ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๋Š” ์ง€์‹์„ ์ธ์ฝ”๋”ฉํ•œ ๋ฉ”์ธ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์ผ ๊ถค์  ์ถ”์  ์ •์ฑ…์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ฐธ์กฐ ๊ถค์ ์„ ์ถ”์ ํ•˜๋Š” ๋ฐ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ๋จผ์ € ์‚ฌ์šฉํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ ์–ป์€ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ๋ฒ ์ด์Šค๋ผ์ธ ๊ถค์ ์œผ๋กœ ์„ค์ •ํ•˜์—ฌ ์ž”์ฐจ ์ •์ฑ…์„ ๋‹ค์‹œ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™” ์Šคํ‚ด(Homotopy Optimization Scheme): ์ž์ฒด ์ฑ„๊ตด๋œ ๋ฐ์ดํ„ฐ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ํŽธํ–ฅ๊ณผ ๋‹ค์–‘์„ฑ ๊ฐ์†Œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™” ์Šคํ‚ด์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํƒœ์Šคํฌ T_0๋ฅผ ์ง์ ‘ ํ•ด๊ฒฐํ•˜๋Š” ๋Œ€์‹ , ์ตœ์ ํ™” ๊ฒฝ๋กœ (T_K, T_{K-1}, ..., T_0)์˜ ๊ฐ ํƒœ์Šคํฌ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” โ€œ์‚ฌ๊ณ ์˜ ์‚ฌ์Šฌ(chain-of-thought)โ€๊ณผ ์œ ์‚ฌํ•˜๋ฉฐ, T_{m+1}์˜ ์ถ”์  ๊ฒฐ๊ณผ๋ฅผ T_m์˜ ๋ฒ ์ด์Šค๋ผ์ธ ๊ถค์ ์œผ๋กœ ์„ค์ •ํ•˜์—ฌ ์ „์ดํ•ฉ๋‹ˆ๋‹ค.
    • ํšจ๊ณผ์ ์ธ ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ ์ƒ์„ฑ๊ธฐ ํ•™์Šต: ์ถ”๋ก  ์ค‘ ํšจ๊ณผ์ ์ธ ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ž‘์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ ์ƒ์„ฑ๊ธฐ M์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋Š” ์ถ”์  ํƒœ์Šคํฌ ๋ณ€ํ™˜ ๋ฌธ์ œ๋กœ ์žฌ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ ์ถ”์  ํƒœ์Šคํฌ T_0์— ๋Œ€ํ•ด ํšจ๊ณผ์ ์ธ โ€œ๋ถ€๋ชจ ํƒœ์Šคํฌ(parent task)โ€์˜ ๋ถ„ํฌ M(\cdot|T_0)๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ƒ์„ฑ๊ธฐ๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์กฐ๊ฑด๋ถ€ ํ™•์‚ฐ ๋ชจ๋ธ(conditional diffusion model)์„ ์‚ฌ์šฉํ•˜์—ฌ T_p \sim M(\cdot|T_c)์™€ ๊ฐ™์ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  3. ๋ฐ˜๋ณต์  ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ ๊ฐœ์„ :
    • 1๋‹จ๊ณ„: ์†Œ๊ทœ๋ชจ์˜ ์ถ”์  ํƒœ์Šคํฌ ์ƒ˜ํ”Œ์„ ํ†ตํ•ด ์ดˆ๊ธฐ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜ ์„ธํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฒซ ๋ฒˆ์งธ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    • 2๋‹จ๊ณ„: ์ปจํŠธ๋กค๋Ÿฌ์˜ ์ถ”์  ์˜ค๋ฅ˜์— ๋น„๋ก€ํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋” ๋งŽ์€ ๊ถค์ ์„ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. RL๊ณผ ์ถ”์  ์‚ฌ์ „ ์ง€์‹์„ ํ†ตํ•ฉํ•˜์—ฌ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์„ ์ฑ„๊ตดํ•˜๊ณ , ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ๋ฅผ ๊ฒ€์ƒ‰ํ•˜์—ฌ ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ ์ƒ์„ฑ๊ธฐ๋ฅผ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ž˜ ์ถ”์ ๋œ ๊ถค์ ๋“ค์˜ ๊ฒฐ๊ณผ๋ฅผ ์ƒˆ๋กœ์šด ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜ ์„ธํŠธ๋กœ ํ๋ ˆ์ด์…˜ํ•˜์—ฌ ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์žฌํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
    • 3๋‹จ๊ณ„: ๋‚จ์•„์žˆ๋Š” ๊ถค์ ๋“ค๋กœ๋ถ€ํ„ฐ ์ถ”๊ฐ€๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , RL, ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ, ํ˜ธ๋ชจํ† ํ”ผ ์ƒ์„ฑ๊ธฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์„ ํ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ตœ์ข… ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”์  ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์ตœ์ข… ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ: DexTrack์€ Isaac Gym ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ๊ณผ ์‹ค์ œ ์„ธ๊ณ„ ๋ชจ๋‘์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ๊ทธ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. GRAB ๋ฐ TACO ๋ฐ์ดํ„ฐ์…‹์˜ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ถ”์  ํƒœ์Šคํฌ์—์„œ ๊ธฐ์กด์˜ ์ตœ์ฒจ๋‹จ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ 10% ์ด์ƒ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋ฐฉ๋ฒ•์€ ์–‡์€ ๊ฐ์ฒด, ๋ณต์žกํ•œ ์›€์ง์ž„, ๋ฏธ๋ฌ˜ํ•œ ํ•ธ๋“œ ๋‚ด ์žฌ์ •๋ ฌ(in-hand re-orientations)์„ ํฌํ•จํ•œ ์ƒˆ๋กœ์šด ์กฐ์ž‘์— ์„ฑ๊ณต์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋˜๋ฉฐ, ์ƒ๋‹นํ•œ ์šด๋™ํ•™์  ๋…ธ์ด์ฆˆ(kinematic noise)์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์„ ๋ณด์ž…๋‹ˆ๋‹ค. Ablation Study๋ฅผ ํ†ตํ•ด ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜์˜ ํ’ˆ์งˆ๊ณผ ์–‘์ด ์ปจํŠธ๋กค๋Ÿฌ ํ›ˆ๋ จ์— ์ค‘์š”ํ•จ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•œ๊ณ„: ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜ ํ™•๋ณด ๊ณผ์ •์ด ์‹œ๊ฐ„์ด ๋งŽ์ด ์†Œ์š”๋œ๋‹ค๋Š” ์ ์ด ์ฃผ์š” ํ•œ๊ณ„๋กœ ์–ธ๊ธ‰๋ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ํ›ˆ๋ จ ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋” ๋น ๋ฅด๊ณ  ๊ทผ์‚ฌ์ ์ธ ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์„ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


Detail Review

DexTrack: ์ธ๊ฐ„ ์‹œ๋ฒ” ๋™์ž‘์œผ๋กœ ํ•™์Šตํ•œ ๋ฒ”์šฉ ๋กœ๋ด‡ ์† ์ถ”์  ์ œ์–ด

1. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ•ต์‹ฌ ์•„์ด๋””์–ด ๋ถ„์„

DexTrack์€ ์ธ๊ฐ„์˜ ์†๋™์ž‘ ์‹œ๋ฒ”(kinematic reference)์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฒ”์šฉ์ ์ธ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์† ์ถ”์  ์ œ์–ด๊ธฐ๋ฅผ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ์ด ์ œ์–ด๊ธฐ๋Š” ์ฃผ์–ด์ง„ ์ธ๊ฐ„-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๊ถค์ (์‹œํ€€์Šค)์„ ๋กœ๋ด‡ ์†์œผ๋กœ ์ตœ๋Œ€ํ•œ ์ •ํ™•ํžˆ ๋”ฐ๋ผํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ์กฐ์ž‘ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. DexTrack์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ณ ํ’ˆ์งˆ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜์ง‘ยทํ™•์žฅํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์‹ ๊ฒฝ๋ง ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ (data flywheel) ๋ฐฉ์‹์„ ๋„์ž…ํ•œ ๊ฒƒ์ด๋‹ค. ์ฆ‰, ์ดˆ๊ธฐ์—๋Š” ์ธ๊ฐ„ ์‹œ๋ฒ”์„ ๋กœ๋ด‡์˜ ์šด๋™ ์ฐธ์กฐ๋กœ ๋ฆฌํƒ€๊ฒŒํŒ…(retargeting)ํ•˜์—ฌ ์–ป์€ ์„ฑ๊ณต์ ์ธ ์ถ”์  ๋ฐ๋ชจ๋“ค๋กœ๋ถ€ํ„ฐ ๋ชจ๋ฐฉ ํ•™์Šต์„ ์‹œ์ž‘ํ•˜๊ณ , ํ•™์Šต๋œ ์ œ์–ด๊ธฐ๋ฅผ ๋‹ค์‹œ ์‚ฌ์šฉํ•ด ๋” ์–ด๋ ค์šด ์ƒˆ๋กœ์šด ์‹œ๋ฒ”๋“ค์„ ์ถ”์ ํ•จ์œผ๋กœ์จ ๋” ๋งŽ์€ ๋ฐ๋ชจ๋ฅผ ์ฑ„๊ตดํ•˜๊ณ  ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ DexTrack์˜ ๊ตฌ์กฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: ์šฐ์„  ๋‹ค์ˆ˜์˜ ์ธ๊ฐ„ ์†๋™์ž‘-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๊ถค์ ์„ ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ๊ณต๊ฐ„์œผ๋กœ ๋ฆฌํƒ€๊ฒŒํŒ…ํ•˜์—ฌ ๋กœ๋ด‡ ๊ธฐ์ค€์˜ ์šด๋™ ์ฐธ์กฐ ์‹œํ€€์Šค๋ฅผ ๋งŒ๋“ ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ, ์‹ ๊ฒฝ๋ง ์ถ”์  ์ œ์–ด๊ธฐ๋Š” ๋งค ์‹œ๊ฐ๊ฐ ํ˜„์žฌ ๋กœ๋ด‡ ์† ์ƒํƒœ์™€ ํ–ฅํ›„ ๋ชฉํ‘œ ์ƒํƒœ(์ฐธ์กฐ ๊ถค์ ์˜ ๋‹ค์Œ ๋‹จ๊ณ„๋“ค)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋กœ๋ด‡ ์†์˜ ์•ก์…˜ ๋ช…๋ น(๊ด€์ ˆ ์œ„์น˜ ๋˜๋Š” ํž˜ ๋“ฑ)์„ ์ถœ๋ ฅํ•œ๋‹ค. ์ด๋•Œ ์ž”์—ฌ(residual) ์•ก์…˜ ํ•™์Šต ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ฐธ์กฐ ๊ถค์  ์ž์ฒด๋ฅผ ๊ธฐ๋ณธ ๋ฒ ์ด์Šค๋ผ์ธ์œผ๋กœ ๋‘๊ณ  ์‹ ๊ฒฝ๋ง์ด ํ•„์š”ํ•œ ๋ณด์ • ๋™์ž‘๋งŒ ์ถœ๋ ฅํ•˜๋„๋ก ํ•จ์œผ๋กœ์จ ํ•™์Šต ํšจ์œจ์„ ๋†’์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ๋žŒ ์†๊ณผ ๋กœ๋ด‡ ์†์˜ ํ˜•ํƒœ ์ฐจ์ด๋กœ ์ธํ•œ ์˜ค์ฐจ๋‚˜ ๋ฌผ๋ฆฌ์  ์ œ์•ฝ์„ ์‹ ๊ฒฝ๋ง์ด ๋ณด์ •ํ•˜์—ฌ ์ฐธ์กฐ ๊ฒฝ๋กœ๋ฅผ ๊ฐ€๊น๊ฒŒ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•™์Šต ๋ฐฉ์‹ ์ธก๋ฉด์—์„œ, DexTrack์€ ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ๋ชจ๋ฐฉํ•™์Šต(IL)์„ ์ •๊ตํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•˜์—ฌ ์ œ์–ด๊ธฐ๋ฅผ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค. ๋จผ์ € ์ธ๊ฐ„ ์‹œ๋ฒ”์œผ๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜(์ฐธ์กฐ ๊ถค์  + ์ด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋”ฐ๋ผ๊ฐ„ ๋กœ๋ด‡ ์•ก์…˜ ์‹œํ€€์Šค)์˜ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๋ชจ์€ ๋’ค, ์ด๋ฅผ ๋ชจ๋ฐฉ ํ•™์Šตํ•˜์—ฌ ์ดˆ๊ธฐ ์ •์ฑ…์„ ์–ป๋Š”๋‹ค. ๋™์‹œ์— ์ •์ฑ…์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, ํ™˜๊ฒฝ ์ƒ์—์„œ ์ถ”๊ฐ€์ ์ธ RL ํŒŒ์ธํŠœ๋‹์„ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ, ์ด๋•Œ ๋ณด์ƒ์€ ์ฐธ์กฐ ๊ถค์ ๊ณผ ๋กœ๋ด‡ ์ƒํƒœ์˜ ์ผ์น˜๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ํŠธ๋ž˜ํ‚น ๋ณด์ƒ์œผ๋กœ ์„ค๊ณ„๋œ๋‹ค. ์ด๋Ÿฌํ•œ IL๋กœ ํ•™์Šต๋œ ์ดˆ๊ธฐ ์ •์ฑ… + RL๋กœ ๊ฐ•ํ™”๋œ ์ •์ฑ…์˜ ๊ฒฐํ•ฉ์€, ๋ณต์žกํ•œ ์ ‘์ด‰ ๋™์ž‘์ด ๋งŽ์€ dexterous manipulation ๋ฌธ์ œ์—์„œ๋„ ํ•™์Šต ์‹ ์†์„ฑ๊ณผ ๊ฐ•์ธ์„ฑ์„ ๋ชจ๋‘ ํ™•๋ณดํ•˜๊ฒŒ ํ•œ๋‹ค. ํŠนํžˆ RL ์—†์ด ๋ชจ๋ฐฉํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ์ƒํ™ฉ์— ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, DexTrack์€ RL์„ ํ†ตํ•ด ์žก์Œ์ด๋‚˜ ์˜ˆ์™ธ ์ƒํ™ฉ์—์„œ๋„ ๋ณต๊ตฌ ํ–‰๋™์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ์ ์ด ํŠน์ง•์ด๋‹ค.

DexTrack์˜ ๋˜ ๋‹ค๋ฅธ ํ•ต์‹ฌ ๊ธฐ๋ฒ•์€ ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™”(homotopy optimization)๋ฅผ ํ™œ์šฉํ•œ ๊ฐœ๋ณ„ ๊ถค์  ์ถ”์  ํ–ฅ์ƒ์ด๋‹ค. ์ด๋Š” ์–ด๋ ค์šด ํŠน์ • ์‹œ๋ฒ” ๊ถค์ ์„ ํ•œ ๋ฒˆ์— ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์šธ ๊ฒฝ์šฐ, ํ˜„์žฌ ํ•™์Šต๋œ ์ถ”์  ์ œ์–ด๊ธฐ๋ฅผ ์ด์šฉํ•ด ํ•ด๋‹น ๊ถค์ ์„ ์ ์ง„์ ์œผ๋กœ ๋‚œ์ด๋„๋ฅผ ๋‚ฎ์ถ”๋Š” ์ผ๋ จ์˜ ์ค‘๊ฐ„ ์ฐธ์กฐ ๊ฒฝ๋กœ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๋”ฐ๋ผ๊ฐ€ ๋ณด๋Š” ์ ‘๊ทผ๋ฒ•์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒด์ธ-์˜ค๋ธŒ-์˜ํŠธ(chain-of-thought)์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ๋ณต์žกํ•œ ๋ชฉํ‘œ ๋™์ž‘์„ ๋‹จ๊ณ„๋ณ„ ๋‹จ์ˆœํ™”ํ•œ ์—ฌ๋Ÿฌ ์ฐธ์กฐ ๋‹จ๊ณ„๋“ค์„ ๋งŒ๋“ค์–ด ์‰ฌ์šด ๊ฒƒ๋ถ€ํ„ฐ ์–ด๋ ค์šด ๊ฒƒ ์ˆœ์„œ๋กœ ์ถ”์  ์ˆ˜ํ–‰ํ•œ๋‹ค. ๊ฐ ๋‹จ๊ณ„์—์„œ๋Š” RL ๊ธฐ๋ฐ˜์˜ ๋‹จ์ผ ๊ถค์  ์ถ”์  ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์„ฑ๊ณต์ ์ธ ๋กœ๋ด‡ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ์ฐพ์•„๋‚ด๊ณ , ๋‹จ๊ณ„๊ฐ€ ์ง„ํ–‰๋ ์ˆ˜๋ก ์›๋ž˜์˜ ์–ด๋ ค์šด ์ฐธ์กฐ์— ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ฒ˜์Œ์—๋Š” ์‹คํŒจํ•˜๋˜ ๋ณต์žกํ•œ ์‹œ๋ฒ”๋„ ์ ์ง„์ ์ธ ์„ฑ๊ณต ์‚ฌ๋ก€๋“ค์„ ํ†ตํ•ด ์ตœ์ข…์ ์œผ๋กœ ์„ฑ๊ณต์ ์ธ ์ถ”์  ๋ฐ๋ชจ๋ฅผ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์ด ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ  ๊ณผ์ •์—์„œ ๋ฐ๋ชจ ๋‹ค์–‘์„ฑ์„ ๋†’์ด๊ณ  ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œ์ผœ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ์ œ์–ด๊ธฐ๋ฅผ ์–ป๋Š” ๋ฐ ํฌ๊ฒŒ ๊ธฐ์—ฌํ•œ๋‹ค.

์š”์•ฝํ•˜๋ฉด, DexTrack์˜ ์ฃผ์š” ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  • ๋ฒ”์šฉ ์‹ ๊ฒฝ ์ถ”์  ์ œ์–ด๊ธฐ๋ฅผ ์ œ์‹œํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ ์„ ํ†ตํ•ด ์‹œํ–‰์ฐฉ์˜ค์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์‹คํ˜„ํ•จ (๋” ๋งŽ์€ ๋ฐ๋ชจ๋ฅผ ๋ชจ์„์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ).
  • ๊ฐ•ํ™”ํ•™์Šต + ๋ชจ๋ฐฉํ•™์Šต ํ†ตํ•ฉ ํ•™์Šต๋ฒ•์œผ๋กœ ๋‹ค๋Ÿ‰์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ์˜ ํž˜์„ ๋นŒ๋ฆฌ๋ฉด์„œ๋„ ์ƒˆ ํ™˜๊ฒฝ์—์„œ๋„ ๊ฒฌ๊ณ ํ•œ ์ •์ฑ…์„ ํ•™์Šตํ•จ.
  • ํ˜ธ๋ชจํ† ํ”ผ ๊ธฐ๋ฐ˜ ๊ฐœ๋ณ„ ๊ถค์  ์ตœ์ ํ™” ์Šคํ‚ด์„ ๊ฐœ๋ฐœํ•˜์—ฌ ์–ด๋ ค์šด ์ถ”์  ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ํ’€์–ด๋‚ด๊ณ  ๋ฐ๋ชจ ํ’ˆ์งˆ๊ณผ ๋‹ค์–‘์„ฑ์„ ๋†’์ด๋Š” ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์†”๋ฃจ์…˜์„ ์ œ์•ˆํ•จ.

์ด์™€ ๊ฐ™์ด DexTrack์€ ๋ณต์žกํ•œ ์ ‘์ด‰ ์—ญํ•™์„ ๊ฐ€์ง€๋Š” ๋‹ค์ง€ ๋กœ๋ด‡ ์† ์กฐ์ž‘ ๋ฌธ์ œ์— ๋Œ€ํ•ด, ์ธ๊ฐ„ ์‹œ๋ฒ”์œผ๋กœ๋ถ€ํ„ฐ ๋ณดํŽธ์ ์ธ ์ถ”์ข… ๋Šฅ๋ ฅ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜์˜€๋‹ค.

2. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์  ๋ฐ ๊ด€๋ จ ์—ฐ๊ตฌ ๋น„๊ต

DexTrack์€ ๊ธฐ์กด์˜ ๊ฐ•ํ™”ํ•™์Šต(RL) ๋˜๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™” ์ ‘๊ทผ๋ฒ•๊ณผ ๊ตฌ๋ณ„๋˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค. ๊ณผ๊ฑฐ OpenAI ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ๋Š” ํŠน์ • ๊ณผ์ œ๋ณ„ ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด RL๋กœ ๋กœ๋ด‡ ์† ๋™์ž‘์„ ํ•™์Šต์‹œํ‚ค๊ฑฐ๋‚˜, ํ˜น์€ ์ •ํ™•ํ•œ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๊ณผ ์ ‘์ด‰ ํƒ€์ด๋ฐ์— ์˜์กดํ•˜๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฒฝ๋กœ ์ตœ์ ํ™”๋ฅผ ์‚ฌ์šฉํ•ด ์™”๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ „์ž๋Š” ๋งค ๊ณผ์ œ๋งˆ๋‹ค ๋ณด์ƒ์„ ์†์ˆ˜ ์„ค๊ณ„ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ์ผ๋ฐ˜ํ™”๋œ ํ•˜๋‚˜์˜ ์ •์ฑ…์œผ๋กœ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์–ด๋ ค์› ๊ณ , ํ›„์ž๋Š” ์ ‘์ด‰์ด ๋งŽ์€ ํ™˜๊ฒฝ์—์„œ ์ •ํ™•ํ•œ ๋ชจ๋ธ๋ง์ด ์–ด๋ ค์›Œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋‚˜ ๊ธฐ์ˆ ์— ์ ์‘์„ฑ์ด ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค. ์ธ๊ฐ„ ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉ ํ•™์Šต ์ ‘๊ทผ๋„ ์ผ๋ถ€ ์‹œ๋„๋˜์—ˆ์ง€๋งŒ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ์žก์Œ ์—†๋Š” ์ด์ƒ์ ์ธ ๊ถค์ ๋งŒ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜๊ฑฐ๋‚˜ ๊ฐ„๋‹จํ•œ ํŒŒ์ง€(grasp)๋‚˜ ๊ฒฝ๋กœ ์ถ”์ข… ๋“ฑ์— ๊ตญํ•œ๋˜์–ด, ์„ฌ์„ธํ•œ ์ž”๋™์ž‘์ด ํ•„์š”ํ•œ ์ธํ•ธ๋“œ ์กฐ์ž‘๊นŒ์ง€ ๋‹ค๋ฃจ์ง€ ๋ชปํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด OmniGrasp (2024)๋ผ๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฒ”์šฉ ์ •์ฑ…์„ ํ•™์Šตํ•˜๊ธด ํ–ˆ์ง€๋งŒ, ๋ฌผ์ฒด ์ง‘๊ธฐ์™€ ๋‹จ์ˆœ ์ด๋™ ์ •๋„์˜ ์ œํ•œ์ ์ธ ๋ชจ์…˜๋งŒ ๊ณ ๋ คํ•˜์—ฌ ์—ฌ์ „ํžˆ ๋ณต์žกํ•œ ์†๋†€๋ฆผ์ด ์š”๊ตฌ๋˜๋Š” ์ž‘์—…์€ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๋‹ค. ์ด์— ๋ฐ˜ํ•ด DexTrack์€ ํ›จ์”ฌ ๋ณต์žกํ•œ ๋™์ž‘ (์–‡์€ ๋„๊ตฌ ๋‹ค๋ฃจ๊ธฐ, ์—ฐ์†์ ์ธ ์† ์•ˆ์—์„œ์˜ ์žฌ๋ฐฐ์น˜ ๋“ฑ)๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ ๋ณด๋‹ค ํ’๋ถ€ํ•œ ๊ธฐ์ˆ  ์Šต๋“์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

๋˜ํ•œ DexTrack์€ ์ธ๊ฐ„ ๋™์ž‘ ๋ชจ๋ฐฉ์„ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์—์„œ ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค๊ณผ ๋งฅ๋ฝ์„ ๊ฐ™์ดํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ํ™œ์šฉ ๋ฉด์—์„œ ๋…์ฐฝ์„ฑ์„ ๋ณด์ธ๋‹ค. ์ผ๋ถ€ ์—ฐ๊ตฌ๋“ค์€ ๋ชจ๋ฐฉ ํ•™์Šต์— RL์„ ์ถ”๊ฐ€๋กœ ํ™œ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋†’์ด๋Š” ๋ฐ๋ชจ ๊ฐ•ํ™” RL ๊ธฐ๋ฒ•๋“ค์„ ์ œ์•ˆํ•œ ๋ฐ” ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋“ค ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ด๋ฏธ ์ฃผ์–ด์ ธ ์žˆ๋‹ค๋Š” ๊ฐ€์ •์„ ํ•˜๋ฉฐ, ์ธ๊ฐ„์ด๋‚˜ ํ…”๋ ˆ์˜ต์œผ๋กœ ์–ป์€ ๋ฐ๋ชจ๋ฅผ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๋ฐ˜๋ฉด DexTrack์€ ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ๋ฅผ ์ง์ ‘ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ฐจ๋ณ„ํ™”๋œ๋‹ค. ์ฆ‰, ์ถ”์  ์ œ์–ด๊ธฐ ์ž์ฒด๊ฐ€ ๋ฐ๋ชจ ์ƒ์„ฑ์„ ๋„์šฐ๋ฉด์„œ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์„ ๊ตฌํ˜„ํ•˜์—ฌ, ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ์ฐฝ์˜์ ์œผ๋กœ ํ’€์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ  ๊ธฐ๋ฒ•์€ ์ตœ๊ทผ ๊ฑฐ๋Œ€ ๋ชจ๋ธ ํ•™์Šต์—์„œ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ์„ฑ๋Šฅ์„ ์ขŒ์šฐํ•œ๋‹ค๋Š” ํ†ต์ฐฐ์— ์ฐฉ์•ˆํ•œ ๊ฒƒ์œผ๋กœ์„œ, ๋กœ๋ด‡ ์ œ์–ด ๋ถ„์•ผ์— ์ด๋ฅผ ์ ์šฉํ•ด ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์™€ ์ •์ฑ…์„ ํ•จ๊ป˜ ํ–ฅ์ƒ์‹œํ‚จ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

Human demonstration ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ์ž‘์—…๋“ค๊ณผ ๋น„๊ตํ•˜๋ฉด, DexTrack์€ ๊ณ ์ฐจ์› ๋ชจ์…˜ ์ถ”์ข…์— ์ดˆ์ ์„ ๋งž์ถ˜ ์ ์ด ๋‹๋ณด์ธ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, DGrasp (Christen et al., 2022) ๋“ฑ์˜ ๊ธฐ๋ฒ•์€ ๋น„๊ต์  ๋‹จ์ˆœํ•œ ์—ฐ์† ํŒŒ์ง€ ๋™์ž‘์„ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ  ํ‘ธ๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ํ•˜๋‚˜์˜ ๊ธด ๋ณต์žก ๋™์ž‘์„ ๋๊นŒ์ง€ ์ถ”์ ํ•˜๋Š” ๋ฒ”์šฉ ์ •์ฑ…์€ ์•„๋‹ˆ์—ˆ๋‹ค. DexTrack์€ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์ด ์—ฌ๋Ÿฌ ์ž‘์—… ์ข…๋ฅ˜์— ๋Œ€์‘ํ•˜๋ฉด์„œ๋„ ์„ธ๋ฐ€ํ•œ ์†๊ฐ€๋ฝ ์›€์ง์ž„๊นŒ์ง€ ์ •ํ™•ํžˆ ๋ชจ์‚ฌํ•˜๋„๋ก ํ›ˆ๋ จ๋˜์—ˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ด์ „ ๊ธฐ๋ฒ•๋“ค์ด ์‹คํŒจํ•˜๊ฑฐ๋‚˜ ์‹œ๋„ํ•˜์ง€ ์•Š์€ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค๋“ค์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ํŠนํžˆ, ์–‡์€ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๊ฑฐ๋‚˜ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ์—์„œ ์ž์œ ๋กญ๊ฒŒ ๋Œ๋ฆฌ๋Š” ๋™์ž‘, ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•œ ๋ณตํ•ฉ ์›€์ง์ž„ ๋“ฑ์— ์žˆ์–ด์„œ DexTrack์€ ๊ธฐ์กด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•(PPO ๋“ฑ)์ด ์ผ๋ฐ˜ํ™”์— ์‹คํŒจํ•˜๋Š” ๊ฒฝ์šฐ์—๋„ ์•ˆ์ •์ ์œผ๋กœ ๋™์ž‘ํ•จ์„ ๋ณด์˜€๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ DexTrack์€ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ์•ฝ 10% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๋ฒ”์šฉ์„ฑ๊ณผ ์ ์‘์„ฑ ์ธก๋ฉด์—์„œ ํ˜„ ์ƒํƒœ-of-the-art๋ฅผ ํ•œ ๋‹จ๊ณ„ ์ง„๋ณด์‹œํ‚จ ๊ฒƒ์œผ๋กœ ํ‰๊ฐ€๋œ๋‹ค.

์š”์•ฝํ•˜๋ฉด, DexTrack์€ (a) ๊ณผ์ œ๋ณ„ ์„ค๊ณ„๋‚˜ ์ •ํ™•ํ•œ ๋ชจ๋ธ ์—†์ด๋„ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ํ†ตํ•˜๋Š” ๋ฒ”์šฉ ์ œ์–ด๊ธฐ๋ฅผ ์ œ์‹œํ–ˆ๊ณ , (b) ์ธ๊ฐ„ ์‹œ๋ฒ” ํ™œ์šฉ ์—ฐ๊ตฌ๋“ค ๊ฐ€์šด๋ฐ์„œ๋„ ๋” ์–ด๋ ค์šด ์ž‘์—…๊ณผ ๋…ธ์ด์ฆˆ์— ๊ฐ•ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์—์„œ ๋…์ฐฝ์ ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์ด ์‚ฌ๋žŒ์˜ ๋ณต์žกํ•œ ์†๋™์ž‘๊นŒ์ง€ ํ•™์Šตํ•˜์—ฌ ๋ชจ๋ฐฉํ•˜๋Š” ๊ธธ์„ ํฌ๊ฒŒ ํ™•์žฅํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

3. ์‹ค์ œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„์ 

DexTrack์—์„œ ์ œ์•ˆํ•œ ์ œ์–ด๊ธฐ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์ œ ๋กœ๋ด‡ ์†์—๋„ ๊ฒ€์ฆ๋˜์–ด ๊ทธ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(Isaac Gym) ์ƒ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ 4์ง€ ๋กœ๋ด‡ ์†(LEAP Hand)์— ์ด์‹ํ•˜์—ฌ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ผ์ƒ ๋ฌผ์ฒด ์กฐ์ž‘ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๋žŒ ์† ์‹œ๋ฒ”์œผ๋กœ ๊ธฐ๋กํ•œ ๋ฌผ์ฒด ์‚ฌ์šฉ ๋™์ž‘(๋ง์น˜์งˆ, ์นผ๋กœ ์ž๋ฅด๊ธฐ, ๋น„๋ˆ„ ์žก๊ธฐ ๋“ฑ)์„ ๋กœ๋ด‡ ์†์ด ์‹ค์ œ๋กœ ๋”ฐ๋ผํ•˜๋„๋ก ํ•œ ๊ฒฐ๊ณผ, ์‚ฌ์ „์— ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ ๋ฌผ์ฒด๋‚˜ ์„ผ์„œ ์žก์Œ์ด ์กด์žฌํ•ด๋„ ์ƒ๋‹นํžˆ ์•ˆ์ •์ ์ธ ์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•จ์„ ํ™•์ธํ–ˆ๋‹ค. ์‚ฌ๊ณผ ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ์™€ ๊ฐ™์ด ๋‘ฅ๊ทผ ๋ฌผ์ฒด๋ฅผ ์ฅ๊ธฐ ์–ด๋ ค์šด ์ƒํ™ฉ์—์„œ๋„ DexTrack ์ œ์–ด๊ธฐ๋Š” ๋๊นŒ์ง€ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•˜๊ณ  ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๋ฐ ์„ฑ๊ณตํ•œ ๋ฐ˜๋ฉด, ๊ธฐ์กด PPO ๊ธฐ๋ฐ˜ ์ œ์–ด๊ธฐ๋Š” ์‹œ์ž‘ ๋‹จ๊ณ„๋ถ€ํ„ฐ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜๋Š” ๋“ฑ ์‹คํŒจํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ ์‹ค์ œ ์‹คํ—˜์„ ํ†ตํ•ด DexTrack์˜ ์ •์ฑ…์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์„ธ๊ณ„ ๊ฐ„ ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ์–ด๋А ์ •๋„ ๊ทน๋ณตํ•˜๊ณ  ํ˜„์‹ค ํ™˜๊ฒฝ์˜ ๋งˆ์ฐฐยท๋™์—ญํ•™์—์„œ๋„ ๋™์ž‘ํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ํŠน์ˆ˜ํ•œ ํŠœ๋‹์ด๋‚˜ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ์ธ๊ฐ„ ์‹œ๋ฒ” ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์„ ํ˜„์‹ค์— ๋ฐ”๋กœ ํˆฌ์ž…ํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ, ํ–ฅํ›„ ๋ฒ”์šฉ ๋กœ๋ด‡ ์กฐ์ž‘๊ธฐ๋กœ์„œ์˜ ์ž ์žฌ๋ ฅ์„ ์‹œ์‚ฌํ•œ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , DexTrack์—๋Š” ๊ทน๋ณตํ•ด์•ผ ํ•  ํ•œ๊ณ„์ ์ด๋‚˜ ์ถ”๊ฐ€๋กœ ๊ณ ๋ คํ•ด์•ผ ํ•  ๋ถ€๋ถ„๋„ ์กด์žฌํ•œ๋‹ค. ์ฒซ์งธ๋กœ, ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ ์ˆ˜์ง‘ ๊ณผ์ •์˜ ๋น„์šฉ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ ํ•œ๊ณ„๋กœ ์ง€์ ํ–ˆ๋“ฏ์ด, DexTrack์˜ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋ ค๋ฉด ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์„ฑ๊ณต ์‚ฌ๋ก€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ด ํ•„์š”ํ•œ๋ฐ, ์ด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™”๋ฅผ ํฌํ•จํ•œ ๋ณต์žกํ•œ ์ ˆ์ฐจ๋ฅผ ๊ฑฐ์ณ์•ผ ํ•˜๋ฏ€๋กœ ํ•™์Šต์— ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๊ณ„์‚ฐ ์ž์›์ด ์†Œ์š”๋œ๋‹ค. ์ˆ˜์ฒœ ๊ฐœ ์ด์ƒ์˜ ์‹œํ€€์Šค๋ฅผ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ(8192๊ฐœ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ)์—์„œ ๋Œ๋ ค๊ฐ€๋ฉฐ ์ •์ฑ…์„ ํ•™์Šตํ•˜๊ณ  ๋˜ ๋ฐ๋ชจ๋ฅผ ์ถ”๊ฐ€ ์ˆ˜์ง‘ํ•˜๋Š” ์‹์ด์–ด์„œ, ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์ด ๋ฌด๊ฒ๊ณ  ๋น„์‹ค์šฉ์ ์ผ ์ˆ˜ ์žˆ๋‹ค. ๋‘˜์งธ๋กœ, ์ผ๋ถ€ ํ•œ๊ณ„ ์ƒํ™ฉ์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ๋‹ค. DexTrack ์ œ์–ด๊ธฐ๊ฐ€ ํ›ˆ๋ จ ์‹œ ๊ฒฝํ—˜ํ•ด๋ณด์ง€ ๋ชปํ•œ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋ฒ”์ฃผ์˜ ๋ฌผ์ฒด ์ค‘ ํŠนํžˆ ํ˜•์ƒ์ด ๋งค์šฐ ์–‡๊ฑฐ๋‚˜ ํŠน์ดํ•œ ๊ฒฝ์šฐ, ํ•ด๋‹น ๋ฌผ์ฒด์— ๋Œ€ํ•œ ํŒŒ์ง€๊ฐ€ ์ œ๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•„ ์ถ”์ ์— ์‹คํŒจํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์—†๋˜ ๊ทน๋‹จ์ ์œผ๋กœ ์–‡์€ ๋„๊ตฌ๋ฅผ ๋‹ค๋ค„์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ, ์ œ์–ด๊ธฐ๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ํž˜ ์กฐ์ ˆ๊ณผ ์ ‘์ด‰ ์œ„์น˜๋ฅผ ์ฐพ์ง€ ๋ชปํ•ด ์‚ฌ๋žŒ ์‹œ๋ฒ” ๋™์ž‘์„ ๋๊นŒ์ง€ ์žฌํ˜„ํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋‚ด๋Š” ๋ถ€๋ถ„์œผ๋กœ, ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ๋ฌผ์„ฑ์ด๋‚˜ ๋งˆ์ฐฐ๊ณ„์ˆ˜๋ฅผ ๋งŒ๋‚ฌ์„ ๋•Œ์˜ ๋Œ€์‘์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•œ ์˜์—ญ์ด๋‹ค.

๋˜ ๋‹ค๋ฅธ ํ˜„์‹ค์  ๊ณ ๋ ค์‚ฌํ•ญ์œผ๋กœ๋Š”, DexTrack์ด ๊ณ ์ •๋œ ์ฐธ์กฐ ๊ถค์ ์„ ์ถ”์ข…ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๋Š” ์ ์ด๋‹ค. ์‹ค์ œ ์‘์šฉ์—์„œ ๋กœ๋ด‡์ด ์ž‘์—… ๋„์ค‘ ์ฐธ์กฐ ๋™์ž‘์˜ ๋ณ€๊ฒฝ์ด๋‚˜ ์˜ˆ๊ธฐ์น˜ ์•Š์€ ์‚ฌ๊ฑด์— ์ง๋ฉดํ•˜๋ฉด, ํ˜„์žฌ์˜ DexTrack ์ •์ฑ…์€ ๊ทธ ์ƒํ™ฉ์„ ๊ทน๋ณตํ•˜๋„๋ก ์„ค๊ณ„๋˜์ง€ ์•Š์•˜๋‹ค. ๋ฌผ๋ก  ์ฐธ์กฐ ์ž์ฒด์— ํฐ ์žก์Œ์ด๋‚˜ ๋น„ํ˜„์‹ค์ ์ธ ๋™์ž‘์ด ์žˆ์–ด๋„ ์ •์ฑ…์ด ์•Œ์•„์„œ ๋ณด์ •ํ•ด์ฃผ๋Š” ๊ฒฌ๊ณ ์„ฑ์€ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ์ž„๋ฌด ๋ชฉํ‘œ ์ž์ฒด๋ฅผ ์žฌ์„ค์ •ํ•˜๋Š” ๋Šฅ๋™์ ์ธ ์ง€๋Šฅ๊ณผ๋Š” ๊ฑฐ๋ฆฌ๊ฐ€ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ์ด๋Ÿฌํ•œ ๊ณ ์ˆ˜์ค€ ์˜์‚ฌ๊ฒฐ์ •๊ณผ ๊ฒฐํ•ฉ๋˜์–ด์•ผ ๊ฐ€์ •๋œ ์ฐธ์กฐ ์—†์ด๋„ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์‹ค์„ธ๊ณ„ ์ ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ์ •ํ™•ํ•œ ์ƒํƒœ์ถ”์ •์ด ํ•„์ˆ˜์ธ๋ฐ, ๋…ผ๋ฌธ์—์„œ๋„ ๋ฌผ์ฒด ํฌ์ฆˆ ์ถ”์ •์„ ์œ„ํ•ด ํŠน์ • ๋น„์ „ ๋ชจ๋“ˆ(FoundationPose)์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹ค. ๋งŒ์ผ ๊ฐ์ฒด ์ธ์‹์ด๋‚˜ ์ถ”์ ์— ์˜ค๋ฅ˜๊ฐ€ ์ƒ๊ธฐ๋ฉด ์ œ์–ด ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์„ผ์„œ ์‹ ๋ขฐ๋„์— ๋Œ€ํ•œ ์˜์กด์„ฑ๋„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, DexTrack์€ ํ˜„์‹ค์ ์ธ ๋กœ๋ด‡ ์† ํ™œ์šฉ์— ํ•œ ๊ฑธ์Œ ๋‹ค๊ฐ€์„  ์œ ๋งํ•œ ๋ฐฉ์‹์ด์ง€๋งŒ, ๋Œ€๋Ÿ‰ ํ•™์Šต ๋ฐ์ดํ„ฐ ํ™•๋ณด ๋น„์šฉ, ํ›ˆ๋ จ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚œ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„, ์‹ค์‹œ๊ฐ„ ์ ์‘์„ฑ ๋ถ€์กฑ, ์„ผ์„œ ์˜์กด์„ฑ ๋“ฑ์˜ ์ธก๋ฉด์—์„œ ์•ž์œผ๋กœ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค. ์ €์ž๋“ค๋„ ํ–ฅํ›„ ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™” ๊ณผ์ •์„ ๊ฐ€์†ํ™”ํ•˜๊ฑฐ๋‚˜ ๋” ํšจ์œจ์ ์ธ ๋ฐ๋ชจ ํ™•๋ณด ๋ฐฉ์‹์„ ์—ฐ๊ตฌํ•˜์—ฌ ํ›ˆ๋ จ ์†๋„๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์ด ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค๊ณ  ๋ฐํžˆ๊ณ  ์žˆ๋‹ค.

4. ๊ตฌ์กฐํ™”๋œ ์š”์•ฝ ๋ฐ ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ ๊ฐœ์š”: DexTrack์€ ๋ณต์žกํ•œ ๋‹ค์ง€ ๋กœ๋ด‡ ์† ์กฐ์ž‘ ๋ฌธ์ œ์— ๋Œ€ํ•ด, ์ธ๊ฐ„ ์‹œ๋ฒ” ๊ฒฝ๋กœ๋ฅผ ์ถ”์ ํ•˜๋Š” ๋ฒ”์šฉ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ ‘๊ทผ๋ฒ•์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…๋งˆ๋‹ค ๋”ฐ๋กœ ํ›ˆ๋ จํ•˜์ง€ ์•Š๊ณ ๋„ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง ์ œ์–ด๊ธฐ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋Œ€๋Ÿ‰์˜ ๋กœ๋ด‡ ์ถ”์  ๋ฐ๋ชจ(์ธ๊ฐ„ ์ฐธ์กฐ + ์„ฑ๊ณต ์•ก์…˜ ์‹œํ€€์Šค)๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ™•๋ณดํ•˜์—ฌ, ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋ชจ๋ฐฉํ•™์Šต์„ ๊ฒฐํ•ฉํ•ด ์ œ์–ด๊ธฐ๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ ์–ด๋ ค์šด ๊ฐœ๋ณ„ ์‹œ๋ฒ”์€ ํ˜ธ๋ชจํ† ํ”ผ ๊ฒฝ๋กœ๋กœ ๋‹จ๊ณ„์  ํ•ด๊ฒฐํ•˜์—ฌ ๋ฐ๋ชจ์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์˜€๋‹ค.

๊ธฐ์ˆ  ๊ตฌ์„ฑ: DexTrack ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๋กœ ์ด๋ค„์ง„๋‹ค:

  • ๋ฐ์ดํ„ฐ ์ค€๋น„: ์ธ๊ฐ„ ์‹œ๋ฒ” ๋ชจ์…˜ ๋ฆฌํƒ€๊ฒŒํŒ… โ€“ GRAB, TACO ๋“ฑ ์ธ๊ฐ„-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ์…‹์˜ ์†๋™์ž‘์„ ๋กœ๋ด‡ ์†๋ชจ๋ธ(์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ Allegro Hand)์— ๋งž๊ฒŒ ๋ณ€ํ™˜ํ•˜์—ฌ ๋กœ๋ด‡ ์ฐธ์กฐ ๊ถค์  ์ง‘ํ•ฉ์„ ์ƒ์„ฑ. ์˜ˆ์ปจ๋Œ€ ์ปต์„ ์žก๊ณ  ๋”ฐ๋ฅด๋Š” ์‚ฌ๋žŒ ์† ์›€์ง์ž„ โ†’ ๋กœ๋ด‡ ์† ๊ด€์ ˆ๊ฐ๋„ ์ฐธ์กฐ ์‹œํ€€์Šค.
  • ์ดˆ๊ธฐ ๋ฐ๋ชจ ์ˆ˜์ง‘: ์ฐธ์กฐ ๊ถค์  ์ผ๋ถ€๋ฅผ ๊ฐœ๋ณ„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ์ตœ์  ์ถ”์ข…ํ•ด๋ด„์œผ๋กœ์จ ์„ฑ๊ณต ์‚ฌ๋ก€(tracking demonstration)๋ฅผ ๋ชจ์€๋‹ค. ์ด๋•Œ ์ž”์—ฌ ์ •์ฑ…(residual policy) ๊ธฐ๋ฒ•์œผ๋กœ ์ฐธ์กฐ ๋Œ€๋น„ ๋ณด์ • ๋™์ž‘๋งŒ ํ•™์Šตํ•˜์—ฌ ํšจ์œจ์„ ๋†’์ธ๋‹ค.
  • ์ •์ฑ… ํ•™์Šต(RL+IL): ๋ชจ์ธ ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ฐฉํ•™์Šต(Behavior Cloning)ํ•˜์—ฌ ์ถ”์  ์ •์ฑ…์„ ํ•™์Šตํ•˜๊ณ , ์ถ”๊ฐ€๋กœ ์ถ”์  ๋ณด์ƒ ๊ธฐ๋ฐ˜ RL(PPO)๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋…ธ์ด์ฆˆ๋‚˜ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์—๋„ ๊ฒฌ๋”œ ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ ๋‹ค. ๊ด€์ธก ์ƒํƒœ์—๋Š” ํ˜„์žฌ ๋กœ๋ด‡ ์†/๋ฌผ์ฒด ์ƒํƒœ, ์ฐธ์กฐ ๊ถค์ (์•ž์œผ๋กœ์˜ ๋ชฉํ‘œ ์ž์„ธ), ์ด์ „ ์•ก์…˜ ๋“ฑ์ด ํฌํ•จ๋œ๋‹ค.
  • ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™”: ํ˜„ ์ •์ฑ…์œผ๋กœ ์ถ”์ ์— ์‹คํŒจํ•˜๋Š” ์–ด๋ ค์šด ์ฐธ์กฐ์— ๋Œ€ํ•ด, ํ•ด๋‹น ๊ถค์ ์„ ๋‹จ๊ณ„๋ณ„ ๋” ์‰ฌ์šด ์ฐธ์กฐ๋“ค๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ฐ ๋‹จ๊ณ„๋ฅผ RL๋กœ ํ•ด๊ฒฐํ•จ์œผ๋กœ์จ ์ตœ์ข… ์„ฑ๊ณต ๋ฐ๋ชจ๋ฅผ ์–ป๋Š”๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒˆ ๋ฐ๋ชจ๋ฅผ ๋ฐ์ดํ„ฐ์…‹์— ์ถ”๊ฐ€ํ•˜์—ฌ ๋‹ค์‹œ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฃจํ”„๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค.

์‹คํ—˜ ์„ค์ •: ์ €์ž๋“ค์€ ๋‘ ๊ฐ€์ง€ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹(GRAB: ์ผ์ƒ ๋™์ž‘ 1269๊ฐœ ์‹œํ€€์Šค, TACO: ๋„๊ตฌ ์‚ฌ์šฉ ๋™์ž‘ 2316๊ฐœ ์‹œํ€€์Šค)์„ ํ™œ์šฉํ•˜์—ฌ DexTrack์„ ํ›ˆ๋ จํ•˜๊ณ  ํ‰๊ฐ€ํ–ˆ๋‹ค. ํ›ˆ๋ จ์€ Isaac Gym ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ 8192๋ณ‘๋ ฌ ํ™˜๊ฒฝ์œผ๋กœ ์ง„ํ–‰๋˜์—ˆ๊ณ , Allegro ๋กœ๋ด‡ ์†(4์†๊ฐ€๋ฝ, 16์ž์œ ๋„)์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ‰๊ฐ€๋Š” ๊ฐ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฏธ๋ณดseen ๊ถค์ ์— ๋Œ€ํ•œ ์ถ”์  ์„ฑ๊ณต๋ฅ ๋กœ ์ธก์ •๋˜๋ฉฐ, ์ถ”๊ฐ€๋กœ ์‹ค์ œ ๋กœ๋ด‡ ์†(LEAP Hand)์œผ๋กœ ํ˜„์‹ค ์‹คํ—˜๋„ ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค. ๋ฒค์น˜๋งˆํฌ๋กœ๋Š” ์„ธ ๊ฐ€์ง€ ๋น„๊ต ๋ฐฉ๋ฒ•์ด ์„ค์ •๋˜์—ˆ๋‹ค: (1) DGrasp โ€“ ๊ธฐ์กด ๋ชจ๋ฐฉ+์ตœ์ ํ™” ๊ธฐ๋ฒ•์„ ์ถ”์  ๋ฌธ์ œ๋กœ ๋ณ€ํ˜•, (2) PPO (OmniGrasp reward) โ€“ OmniGrasp ๋…ผ๋ฌธ์˜ ๋ณด์ƒํ•จ์ˆ˜๋กœ PPO ํ•™์Šต, (3) PPO (tracking reward) โ€“ DexTrack์ด ์ œ์•ˆํ•œ ๋™์ผ ํ™˜๊ฒฝ์—์„œ ๋ณด์ƒ๋งŒ ๊ฐ€์ง€๊ณ  PPO ํ•™์Šตํ•œ ์ˆœ์ˆ˜ RL. ์„ฑ๋Šฅ ์ง€ํ‘œ๋กœ๋Š” ๋ฌผ์ฒด์˜ ํšŒ์ „/์ด๋™ ์˜ค์ฐจ, ์†๋ชฉ ์ž์„ธ ์˜ค์ฐจ, ์†๊ฐ€๋ฝ ๊ด€์ ˆ ์˜ค์ฐจ์˜ ํ‰๊ท ๊ณผ, ์ตœ์ข…์ ์œผ๋กœ ์„ฑ๊ณต๋ฅ (์˜ค์ฐจ๊ฐ€ ์ž„๊ณ„๊ฐ’ ์ดํ•˜์ผ ๋•Œ ์„ฑ๊ณต) ๋“ฑ์ด ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ์„ฑ๊ณต ๊ธฐ์ค€์€ ์˜ค์ฐจ ์ž„๊ณ„๊ฐ’์„ ์—„๊ฒฉํ•˜๊ฒŒ(strict) ํ˜น์€ ์™„ํ™”ํ•˜์—ฌ(lenient) ๋‘ ์ข…๋ฅ˜๋กœ ์‚ฐ์ •๋˜์—ˆ๋‹ค.

์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ: DexTrack์€ ๋ชจ๋“  ๊ธฐ์ค€์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ์•ž์„œ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ถ”์  ์ •ํ™•๋„ ์ง€ํ‘œ(๋ฌผ์ฒด ์ž์„ธ ์˜ค์ฐจ ๋“ฑ)์—์„œ DexTrack์ด ๊ฐ€์žฅ ๋‚ฎ์€ ์˜ค์ฐจ๋ฅผ ๊ธฐ๋กํ–ˆ๊ณ , ๋ฌด์—‡๋ณด๋‹ค ์ž‘์—… ์„ฑ๊ณต๋ฅ ์—์„œ ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋‚˜ํƒ€๋ƒˆ๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” DexTrack๊ณผ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ ๊ธฐ์กด ๊ธฐ๋ฒ•(PPO ๊ธฐ๋ฐ˜ RL)์˜ ์„ฑ๊ณต๋ฅ  ๋น„๊ต๋ฅผ ๋ณด์—ฌ์ค€๋‹ค:

์„ฑ๊ณต๋ฅ  ๋น„๊ต (Strict / Lenient ๊ธฐ์ค€)
๋ฐ์ดํ„ฐ์…‹ ๊ธฐ์กด PPO ๊ธฐ๋ฒ• DexTrack (์ œ์•ˆ)
GRAB (์ผ์ƒ ๋™์ž‘) 38.58% / 54.82% 46.70% / 65.48%
TACO (๋„๊ตฌ ์‚ฌ์šฉ) 34.98% / 57.64% 48.77% / 74.38%

์ฐธ๊ณ : Strict์€ ๋” ์—„๊ฒฉํ•œ ์„ฑ๊ณต ๊ธฐ์ค€, Lenient๋Š” ๋‹ค์†Œ ์™„ํ™”๋œ ๊ธฐ์ค€์ด๋ฉฐ, DexTrack์€ ๋‘ ๊ฒฝ์šฐ ๋ชจ๋‘์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

DexTrack์€ ํ‰๊ท ์ ์œผ๋กœ 10%p ์ด์ƒ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ๋™์ž‘์ผ์ˆ˜๋ก ๊ฒฉ์ฐจ๊ฐ€ ๋”์šฑ ์ปค์กŒ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์†๋ฐ”๋‹ฅ์—์„œ ๋ฌผ์ฒด๋ฅผ ์žฌ๋ฐฐ์น˜ํ•˜๋Š” ์„ธ๋ฐ€ํ•œ ๋™์ž‘์ด๋‚˜ ์–‡์€ ๋ฌผ์ฒด ์žก์•„ ํ”๋“ค๊ธฐ ๋“ฑ์˜ ๊ณผ์ œ์—์„œ DexTrack์€ ์ฐธ์กฐ ๊ฒฝ๋กœ๋ฅผ ๊ฑฐ์˜ ์™„๋ฒฝํ•˜๊ฒŒ ๋”ฐ๋ผ๊ฐ„ ๋ฐ˜๋ฉด, ๊ธฐ์กด PPO ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ์ดˆ๋ฐ˜ ํŒŒ์ง€๋ถ€ํ„ฐ ์‹คํŒจํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€๋‹ค. ์ด๋Š” DexTrack์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์ ‘์ด‰ ๋‹ค๋ฃจ๋Š” ์„ฌ์„ธํ•จ์ด ๊ธฐ์กด ๋Œ€๋น„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋”์šฑ์ด ์žก์Œ์ด ํฐ ๋น„ํ˜„์‹ค์  ์ฐธ์กฐ์— ๋Œ€ํ•œ ์‹คํ—˜์—์„œ๋„, DexTrack ์ •์ฑ…์€ ์†๊ฐ€๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ํ†ต๊ณผํ•˜๋Š” ๋“ฑ ๋ชจ์ˆœ๋œ ์ž…๋ ฅ์ด ์ฃผ์–ด์ ธ๋„ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์ž์„ธ๋ฅผ ์กฐ์ •ํ•˜๋ฉฐ ๋๊นŒ์ง€ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ฐ•์ธํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜ ๊ฒฐ๊ณผ: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ DexTrack ์ •์ฑ…์€ ํ˜„์‹ค ํ™˜๊ฒฝ์—๋„ ์ง์ ‘ ์ ์šฉ๋˜์—ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ํ•™์Šต๋œ ์ œ์–ด๊ธฐ๋ฅผ ๋ณ„๋„ ๋„๋ฉ”์ธ ์ ์‘ ์—†์ด ๋ฌผ์ฒด ์ธ์‹ ์‹œ์Šคํ…œ(์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ํฌ์ฆˆ ์ถ”์ )๊ณผ ์—ฐ๋™ํ•˜์—ฌ ์‹ค์ œ ๋กœ๋ด‡ ์†+ํŒ”๋กœ ์‹คํ–‰ํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์‚ฌ๊ณผ ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ, ๋ง์น˜์งˆ, ๋ฌผ์ฒด ๊ฑด๋„ค์ฃผ๊ธฐ ๋“ฑ 10์—ฌ ๊ฐ€์ง€ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋Œ€๋ถ€๋ถ„ ์„ฑ๊ณต์ ์ธ ์กฐ์ž‘์„ ์‹œํ˜„ํ•ด ๋ณด์˜€๋‹ค. ์ •๋Ÿ‰์ ์œผ๋กœ ๋ดค์„ ๋•Œ๋„ ํ˜„์‹ค ์„ฑ๊ณต๋ฅ ์€ DexTrack์ด ๊ธฐ์กด ๋Œ€๋น„ ์›”๋“ฑํžˆ ๋†’์•˜๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๊ณผ ์ง‘์–ด๋“ค๊ธฐ์˜ ๊ฒฝ์šฐ ์—„๊ฒฉํ•œ ๊ธฐ์ค€์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ• ์„ฑ๊ณต๋ฅ  0% vs DexTrack 25%, ๋ง์น˜ ์ฅ๊ณ  ์‚ฌ์šฉํ•˜๊ธฐ 0% vs 50% ๋“ฑ ๋ชจ๋“  ๊ฐ์ฒด์— ๋Œ€ํ•ด ์šฐ์œ„๋ฅผ ๋ณด์˜€๋‹ค. ์ด๋Ÿฌํ•œ ์‹คํ—˜์€ DexTrack์˜ ์ ‘๊ทผ๋ฒ•์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ  ์‹ค์ œ ๋กœ๋ด‡์—์„œ๋„ ํ†ตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜๋ฉฐ, ๋ฒ”์šฉ ๋กœ๋ด‡ ์† ๊ธฐ์ˆ ์˜ ์‹ค์šฉํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์—ฌ์ค€๋‹ค. ๋‹ค๋งŒ ํ˜„์‹ค ์‹คํ—˜์—์„œ๋Š” ์ƒํƒœ ์ถ”์ • ์˜ค์ฐจ, ๋งˆ์ฐฐ ๊ณ„์ˆ˜ ์ฐจ์ด ๋“ฑ์œผ๋กœ ์ธํ•ด ์„ฑ๊ณต๋ฅ ์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋งŒํผ ๋†’๊ฒŒ ๋‚˜์˜ค์ง€ ์•Š์€ ์‚ฌ๋ก€๋„ ์žˆ์—ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ DexTrack์€ ์ตœ๊ณ  ์„ฑ๋Šฅ ๊ธฐ์ค€์œผ๋กœ ์‹ค์„ธ๊ณ„์—์„œ๋„ ๊ธฐ์กด ๋Œ€๋น„ ๋šœ๋ ทํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์คฌ์œผ๋ฉฐ, ์ด๋Š” ๊ณง ๋ณธ ๊ธฐ๋ฒ•์˜ ์šฐ์ˆ˜ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ๊ตฌํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ•˜๋Š” ๊ฒฐ๊ณผ์ด๋‹ค.

์š”์•ฝ ๋ฐ ํ‰๊ฐ€: DexTrack ๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ์‹œ๋ฒ” ํ•™์Šต์„ ํ†ตํ•œ ๋ฒ”์šฉ ๋กœ๋ด‡ ์กฐ์ž‘์˜ ์‹คํ˜„์— ์žˆ์–ด ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ๋‹ค. ๊ธฐ์ˆ ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ์ฃผ๋„ ์ ‘๊ทผ๊ณผ ํ•™์Šต ๊ธฐ๋ฒ•์˜ ์กฐํ•ฉ์œผ๋กœ ๋‚œ์ œ๋ฅผ ํ’€์—ˆ๊ณ , ์‹คํ—˜์ ์œผ๋กœ๋„ ๋‹ค์–‘ํ•œ ๋ณต์žก ์ž‘์—…์—์„œ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณต๋ฅ  ๊ฐœ์„ ์„ ์ž…์ฆํ–ˆ๋‹ค. ํŠนํžˆ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ ์„ ํ†ตํ•œ ์ ์ง„์  ํ•™์Šต ํ–ฅ์ƒ, ํ˜ธ๋ชจํ† ํ”ผ ์ตœ์ ํ™”๋กœ ๋‚œ์ด๋„ ์™„ํ™”, RL+IL ๋ณ‘ํ–‰์œผ๋กœ ๊ฐ•์ธ์„ฑ ํ™•๋ณด ๋“ฑ์˜ ์•„์ด๋””์–ด๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ ๋Œ€๋น„ ๋šœ๋ ทํ•œ ํ˜์‹  ํฌ์ธํŠธ๋กœ ํ‰๊ฐ€๋œ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ์ ์šฉ ๊ฒฐ๊ณผ๋Š” ์ด ๋ฐฉ๋ฒ•์˜ ์‹ค์šฉ์  ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ๋™์‹œ์— ๋ฐ์ดํ„ฐ ํ™•๋ณด ๋น„์šฉ ๋“ฑ์˜ ํ˜„์‹ค์ ์ธ ํ•œ๊ณ„๋„ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ DexTrack์€ ํ•œ๊ณ„๊ฐ€ ๋ถ„๋ช…ํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋„˜์–ด, ๋ฒ”์šฉ์ ์ธ ๋กœ๋ด‡ ์† ์ œ์–ด๊ธฐ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„ ๋ฐ๋ชจ ํ™•๋ณด ํšจ์œจํ™”, ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์ถ”๊ฐ€ ๊ฐœ์„  ๋“ฑ์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด, ์ธ๊ฐ„์˜ ๋Šฅ์ˆ™ํ•œ ์†๋™์ž‘์„ ๋กœ๋ด‡์ด ํ•™์Šตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋น„์ „์ด ํ•œ์ธต ๊ฐ€๊นŒ์›Œ์งˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

Copyright 2024, Jung Yeon Lee