Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
  • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ๋ฒ”์šฉ ํŒŒ์ง€ ์ •์ฑ…: CrossDex ๋…ผ๋ฌธ ์‹ฌ์ธต ๋ฆฌ๋ทฐ
    • 1. ๋ฐฐ๊ฒฝ๊ณผ ๋ฌธ์ œ ์ •์˜
    • 2. ์ œ์•ˆ ๋ฐฉ๋ฒ•์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ  ๋‚ด์šฉ
    • 3. ๊ธฐ์กด ์—ฐ๊ตฌ ๋Œ€๋น„ ์ฃผ์š” ๊ธฐ์—ฌ์ 
    • 4. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ตฌ์„ฑ ํ‰๊ฐ€
    • 5. ์ฃผ์š” ๊ฒฐ๊ณผ ๋ฐ ํ•œ๊ณ„์  ๋…ผ์˜
    • 6. ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์–ธ

๐Ÿ“ƒCrossDex ๋ฆฌ๋ทฐ

isaacgym
grasp
il
Cross-Embodiment Dexterous Grasping with Reinforcement Learning
Published

September 12, 2025

  • Paper Link
  • Homepage
  • Code Link
  1. ๊ธฐ์กด ๋กœ๋ด‡ dexterous grasping ์ •์ฑ…๋“ค์ด ํŠน์ • ๋กœ๋ด‡ ํ•ธ๋“œ์—๋งŒ ์ ์šฉ๋˜์–ด ๋‹ค์–‘ํ•œ ํ•ธ๋“œ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๊ฐ€ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฐ•ํ™” ํ•™์Šต(RL)์„ ์ด์šฉํ•œ cross-embodiment dexterous grasping ์ •์ฑ… ํ•™์Šต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ธ๊ฐ„ ์†์˜ eigengrasps ๊ธฐ๋ฐ˜ ํ†ตํ•ฉ ์•ก์…˜ ๊ณต๊ฐ„๊ณผ ์†๊ฐ€๋ฝ ๋ ๋ฐ ์†๋ฐ”๋‹ฅ ์œ„์น˜๋งŒ์„ ํฌํ•จํ•˜๋Š” ํ†ต์ผ๋œ ๊ด€์ฐฐ ๊ณต๊ฐ„์„ ์„ค๊ณ„ํ•˜์—ฌ, ๋‹จ์ผ ์ •์ฑ…์œผ๋กœ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ•ธ๋“œ๋ฅผ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋ฉฐ, ํ›ˆ๋ จ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ฐ€์†ํ™”๋œ ๋ฆฌํƒ€๊ฒŸํŒ… ๋งคํ•‘์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. ์ œ์•ˆ๋œ CrossDex ์ •์ฑ…์€ ๋‹จ์ผ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ •์ฑ…์œผ๋กœ ๋„ค ๊ฐ€์ง€ ํ›ˆ๋ จ ํ•ธ๋“œ์™€ YCB ๋ฐ์ดํ„ฐ์…‹ ๊ฐ์ฒด์— ๋Œ€ํ•ด 80%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด์ „์— ๋ณธ ์  ์—†๋Š” ๋‘ ๊ฐ€์ง€ ํ•ธ๋“œ์— ๋Œ€ํ•œ zero-shot generalization๊ณผ ํšจ์œจ์ ์ธ finetuning ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Brief Review

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†(dexterous hand)์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ์ ์ธ dexterity grasping ์ •์ฑ… ํ•™์Šต์— ๋Œ€ํ•œ ๋‚œ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ํŠน์ • ๋กœ๋ด‡ ์†์— ํŠนํ™”๋œ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๋ฐ˜๋ฉด, ๋ณธ ๋…ผ๋ฌธ์€ CrossDex๋ผ๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์„ ์ œ์–ดํ•˜๋Š” ๋‹จ์ผ ์ •์ฑ…์„ ํ•™์Šตํ•œ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์•„์ด๋””์–ด์—์„œ ์ถœ๋ฐœํ•œ๋‹ค. ์ฒซ์งธ, ์‚ฌ๋žŒ์˜ ์†์ด ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์„ ์›๊ฒฉ ์กฐ์ž‘(teleoperation)ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์— ์˜๊ฐ์„ ๋ฐ›์•„, ์‚ฌ๋žŒ ์†์˜ โ€™eigengraspsโ€™๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋ณดํŽธ์ ์ธ ์•ก์…˜ ๊ณต๊ฐ„์„ ์ œ์•ˆํ•œ๋‹ค. Eigengrasps๋Š” MANO(Romero et al., 2022) ์† ๋ชจ๋ธ์˜ 45์ฐจ์› ์† ํฌ์ฆˆ๋ฅผ ์••์ถ•ํ•œ ์ €์ฐจ์› ๊ณ ์œ ๋ฒกํ„ฐ๋“ค(e_i)๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ •์ฑ…์€ k-์ฐจ์› ์† ์•ก์…˜ w = (w_1, \ldots, w_k)๋ฅผ ์ถœ๋ ฅํ•˜๋ฉฐ, ์ด๋Š” ๊ณ ์œ ๋ฒกํ„ฐ๋“ค์˜ ๊ฐ€์ค‘ํ•ฉ์œผ๋กœ ์‚ฌ๋žŒ ์† ํฌ์ฆˆ \theta = \sum_{i=1}^{k} w_i e_i๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด \theta๋Š” MANO ๋ชจ๋ธ์„ ํ†ตํ•ด 3D keypoint๋กœ ๋ณ€ํ™˜๋œ ํ›„, retargeting ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฑฐ์ณ ๊ฐ ๋กœ๋ด‡ ์†์˜ ํŠน์ • ๊ด€์ ˆ ์•ก์…˜(\hat{J_h})์œผ๋กœ ์ „ํ™˜๋œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด retargeting ํ”„๋กœ์„ธ์Šค์˜ ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์‹ ๊ฒฝ๋ง P_{\xi}^h๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ์‚ฌ๋žŒ ์† ํฌ์ฆˆ \theta_i์—์„œ ๋กœ๋ด‡ ์† ๊ด€์ ˆ ์œ„์น˜ J_h^i๋กœ์˜ ๋งคํ•‘์„ ํ•™์Šตํ•œ๋‹ค. ์›๋ž˜์˜ retargeting์€ ๊ฐ time step t๋งˆ๋‹ค ๋กœ๋ด‡ ์† ๊ด€์ ˆ ์œ„์น˜ J_h^t๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ณผ์ •์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ quadratic programming ๋ฌธ์ œ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค: \min_{J_h^t} S(f_h(J_h^t), x_M^t) + \|J_h^t - J_h^{t-1}\|_2^2

\text{s.t. } J_h^{\text{lower}} \le J_h^t \le J_h^{\text{upper}} ์—ฌ๊ธฐ์„œ f_h๋Š” ๋กœ๋ด‡ ์†์˜ forward kinematics ํ•จ์ˆ˜์ด๊ณ , x_M^t๋Š” ์‚ฌ๋žŒ ์† keypoint ์œ„์น˜์ด๋ฉฐ, S๋Š” ๋กœ๋ด‡ ์†๊ณผ ์‚ฌ๋žŒ ์† ํฌ์ฆˆ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ํ•จ์ˆ˜์ด๋‹ค.

๋‘˜์งธ, ๋กœ๋ด‡ ์†์˜ ๊ณ ์œ  ์ˆ˜์šฉ์„ฑ(proprioception)์„ ๊ฐ„์†Œํ™”ํ•˜์—ฌ ํ†ต์ผ๋œ ๊ด€์ฐฐ ๊ณต๊ฐ„์„ ์ œ๊ณตํ•œ๋‹ค. ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ ์œ„์น˜(J_h)์™€ ๊ฐ™์ด ์†๋งˆ๋‹ค ๋‹ค๋ฅธ ๊ณ ์œ ํ•œ ์ •๋ณด ๋Œ€์‹ , ๋ชจ๋“  ๋กœ๋ด‡ ์†์— ๊ณตํ†ต์ ์œผ๋กœ ์ค‘์š”ํ•œ ์ •๋ณด์ธ ์†๋๊ณผ ์†๋ฐ”๋‹ฅ์˜ 3D ์œ„์น˜(x_h)๋งŒ์„ ๊ด€์ฐฐ ๊ณต๊ฐ„์— ํฌํ•จ์‹œํ‚จ๋‹ค. ์ด๋Š” ์†๊ณผ ๊ฐ์ฒด ๊ฐ„์˜ ๊ณต๊ฐ„์  ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”๋ก ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋ฉฐ, ๋‹ค์–‘ํ•œ embodiment์— ๊ฑธ์ณ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•œ๋‹ค.

์ •์ฑ… ํ•™์Šต์€ IsaacGym ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ teacher-student ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค. ๋จผ์ € PPO(Schulman et al., 2017)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•œ state-based teacher ์ •์ฑ…(\pi_S)์„ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์† ํ™˜๊ฒฝ์„ ๋ณ‘๋ ฌ๋กœ ํ™œ์šฉํ•˜์—ฌ cross-embodiment co-training์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ดํ›„, DAgger(Ross et al., 2011)๋ฅผ ํ†ตํ•ด ํ•™์Šต๋œ teacher ์ •์ฑ…๋“ค์„ ๋‹จ์ผ vision-based student ์ •์ฑ…(\pi_V)์œผ๋กœ ์ฆ๋ฅ˜ํ•œ๋‹ค. ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, ์†๊ณผ ํŒ” ์—ฐ๊ฒฐ ์ง€์ ์˜ ์œ„์น˜์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” embodiment randomization์„ ์ ์šฉํ•˜์—ฌ ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ๊ณผ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, CrossDex๋Š” YCB ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ์ฒด๋“ค์— ๋Œ€ํ•ด 4๊ฐ€์ง€ ํ›ˆ๋ จ์šฉ ๋กœ๋ด‡ ์†๊ณผ 2๊ฐ€์ง€ ๋ฏธํ›ˆ๋ จ ๋กœ๋ด‡ ์†(LEAP Hand, Inspire Hand) ๋ชจ๋‘์—์„œ 80% ์ด์ƒ์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, baseline ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. ํŠนํžˆ, ๋ฏธํ›ˆ๋ จ ๋กœ๋ด‡ ์†์— ๋Œ€ํ•œ zero-shot generalization ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚˜๋ฉฐ, finetuning ์‹œ ํ•™์Šต ํšจ์œจ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€๋‹ค. Cross-embodiment co-training์ด ๊ฐœ๋ณ„ ์† ํ›ˆ๋ จ๋ณด๋‹ค ์•ˆ์ •์„ฑ๊ณผ ํšจ์œจ์„ฑ ๋ฉด์—์„œ ์ด์ ์„ ์ œ๊ณตํ•จ๋„ ํ™•์ธ๋˜์—ˆ๋‹ค. Ablation ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด eigengrasp ์•ก์…˜ ๊ณต๊ฐ„์˜ ๊ฒฌ๊ณ ์„ฑ๊ณผ embodiment randomization์˜ ๊ธ์ •์  ํšจ๊ณผ, ๊ทธ๋ฆฌ๊ณ  embodiment-specific ๊ด€์ฐฐ ์ •๋ณด๊ฐ€ ์˜คํžˆ๋ ค ์ผ๋ฐ˜ํ™”์— ๋ฐฉํ•ด๊ฐ€ ๋จ์„ ์ž…์ฆํ–ˆ๋‹ค.


Detail Review

๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ๋ฒ”์šฉ ํŒŒ์ง€ ์ •์ฑ…: CrossDex ๋…ผ๋ฌธ ์‹ฌ์ธต ๋ฆฌ๋ทฐ

1. ๋ฐฐ๊ฒฝ๊ณผ ๋ฌธ์ œ ์ •์˜

๋‹ค์ง€(ๅคšๆŒ‡) ๋กœ๋ด‡ ์†์„ ์ด์šฉํ•œ ๋ฌผ์ฒด ํŒŒ์ง€(grasping)๋Š” ๋กœ๋ด‡์ด ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ฌผ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์˜ค๋ž˜์ „๋ถ€ํ„ฐ ์—ฐ๊ตฌ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ํŠน์ • ๋กœ๋ด‡ ์†์— ํ•œ์ •๋œ ํŒŒ์ง€ ์ •์ฑ… ํ•™์Šต์— ์ง‘์ค‘ํ•ด ์™”์ง€๋งŒ, ์„œ๋กœ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์†๋“ค์— ๊ณตํ†ต์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์ •์ฑ…์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๋Š” ๊ฑฐ์˜ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 5์†๊ฐ€๋ฝ์— 22์ž์œ ๋„๋ฅผ ๊ฐ€์ง„ ShadowHand์™€ 4์†๊ฐ€๋ฝ์— 16์ž์œ ๋„์ธ LEAP Hand๋ฅผ ์ƒ๊ฐํ•ด ๋ณด๋ฉด, ๋‘ ์†์˜ ํ˜•ํƒœ ์ฐจ์ด๋กœ ์ธํ•ด ํ•œ ์†์˜ ๋™์ž‘ ์ œ์–ด ๋ช…๋ น์„ ๋‹ค๋ฅธ ์†์— ์ง์ ‘ ์ ์šฉํ•˜๊ธฐ๊ฐ€ ๋งค์šฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์†๊ฐ€๋ฝ ์ˆ˜์™€ ๊ด€์ ˆ๊ตฌ์กฐ, ๊ฐ€๋™ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ํ–‰๋™ ๊ณต๊ฐ„(์ œ์–ด ๋ช…๋ น์˜ ํ˜•ํƒœ)์„ ํ†ต์ผํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๊ณ , ๋ฌผ์ฒด์™€ ์ ‘์ด‰ํ•˜๋Š” ๋ฐฉ์‹๋„ ๋‹ฌ๋ผ ๋‹จ์ผ ์ •์ฑ…์œผ๋กœ ๋‹ค์–‘ํ•œ ์†์„ ์ œ์–ดํ•˜๋Š” ๊ฒƒ์€ ํฐ ๋„์ „ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ์˜์‹ ์•„๋ž˜, Cross-Embodiment Dexterous Grasping(์ดํ•˜ CrossDex) ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์† ์ฒดํ˜•์— ํ†ต์šฉ๋˜๋Š” ๋‹จ์ผ ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์„ ๊ฐœ๋ฐœํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋กœ๋ด‡ ์†๋งˆ๋‹ค ๋ณ„๋„์˜ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , ๊ณต์œ ๋˜๋Š” ๊ตฌ์กฐ์  ํŠน์ง•์„ ํ™œ์šฉํ•ด ์—ฌ๋Ÿฌ ์†์— ๊ฑธ์ณ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ์ง€ ๊ธฐ์ˆ ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ์†์ด ํˆฌ์ž…๋  ๋•Œ ์ผ์ผ์ด ์ดˆ๊ธฐ๋ถ€ํ„ฐ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ๋น„์šฉ์„ ์ค„์ด๊ณ , ์ด๋ฏธ ํ•™์Šต๋œ ์ •์ฑ…์„ ๋น ๋ฅด๊ฒŒ ์ด์ „ํ•˜๊ฑฐ๋‚˜ ์ œ๋กœ์ƒท(Zero-shot)์œผ๋กœ ์ ์šฉํ•˜๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ๋‹ค๋Š” ์ ์—์„œ ์‹ค์šฉ์ ์ธ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์€ โ€œ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์— ๋Œ€ํ•ด ํ•˜๋‚˜์˜ ๋‡Œ(์ •์ฑ…)๋กœ ๋ฌผ์ฒด ์žก๊ธฐ๋ฅผ ์ž˜ ํ•ด๋ณด์žโ€๋ผ๋Š” ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

2. ์ œ์•ˆ ๋ฐฉ๋ฒ•์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ  ๋‚ด์šฉ

CrossDex์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ธ๊ฐ„ ์† ๋™์ž‘ ๊ณต๊ฐ„์„ ๋งค๊ฐœ์ฒด๋กœ ๋กœ๋ด‡ ์†๋“ค์˜ ํ–‰๋™๊ณผ ๊ด€์ธก ๊ณต๊ฐ„์„ ํ†ต์ผํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‚ฌ๋žŒ์ด ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์„ ์›๊ฒฉ ์กฐ์ž‘(teleoperation)ํ•  ๋•Œ, ์ž์‹ ์˜ ์† ๋™์ž‘์„ ํ†ตํ•ด ์ง๊ด€์ ์œผ๋กœ ๋กœ๋ด‡ ์†์„ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ณธ๋œฌ โ€œํœด๋จผ-๋ผ์ดํฌ (human-like) ์ •์ฑ…โ€์„ ๋„์ž…ํ•˜์—ฌ, ์ •์ฑ…์˜ ํ–‰๋™ ์ถœ๋ ฅ์ด ๊ณง ์ธ๊ฐ„ ์†์˜ ์ž์„ธ๋กœ ํ‘œํ˜„๋˜๋„๋ก ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ธ๊ฐ„ ์†์˜ ๋‹ค์–‘ํ•œ ์ž์„ธ๋ฅผ ์ฃผ์„ฑ๋ถ„๋ถ„์„(PCA)์„ ํ†ตํ•ด ์–ป์€ eigengrasp(๊ณ ์œ  ๊ทธ๋ฆฝ ๋ชจ๋“œ)๋ฅผ ํ†ตํ•ฉ ํ–‰๋™ ๊ณต๊ฐ„์œผ๋กœ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. MANO๋ผ๋Š” ์ธ๊ฐ„ ์† ๋ชจ๋ธ์˜ 45์ฐจ์› ๊ด€์ ˆ ๊ฐ๋„ ํ‘œํ˜„์„ ์ €์ฐจ์›(e.g. ์ˆ˜ ๊ฐœ์—์„œ ์ˆ˜์‹ญ ๊ฐœ ์ฐจ์›) eigengrasp ๋ฒกํ„ฐ๋กœ ์••์ถ•ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ•˜๋‚˜์˜ ์ •์ฑ…์ด ์ถœ๋ ฅํ•˜๋Š” ์ด eigengrasp ๋ฒกํ„ฐ๊ฐ€ ์–ด๋–ค ๋กœ๋ด‡ ์†์„ ์ œ์–ดํ•  ๋•Œ๋“  ๊ณตํ†ต๋œ ์˜๋ฏธ๋ฅผ ๊ฐ–๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ ๋‹จ๊ณ„๋Š” ์ด๋ ‡๊ฒŒ ๋‚˜์˜จ ์ธ๊ฐ„ ์† ํ˜•ํƒœ์˜ ๋™์ž‘ ๋ช…๋ น์„ ๊ฐ ๋กœ๋ด‡ ์†์˜ ๊ฐœ๋ณ„ ๊ด€์ ˆ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฆฌํƒ€๊ฒŒํŒ…(retargeting)์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ฃผ๋กœ DexPilot ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋˜, ์ดˆ๊ธฐ์—๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฐ˜์˜ ๋ฆฌํƒ€๊ฒŒํŒ…์„ ํ™œ์šฉํ•˜๊ณ  ์ดํ›„์—” ์ด๋ฅผ ๋Œ€์‹ ํ•  ์‹ ๊ฒฝ๋ง ๋งคํ•‘์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋ฆฌํƒ€๊ฒŒํŒ…์€ ์ธ๊ฐ„ ์† ๋ชจ๋“œ์˜ ์›€์ง์ž„์„ ๊ฐœ๋ณ„ ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ๊ฐ’(๊ฐ ์†์˜ PD ์ œ์–ด๊ธฐ์— ๋„˜๊ฒจ์ค„ ๋ชฉํ‘œ ๊ฐ๋„)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ •์ฑ…์ด โ€œ์†์„ ์ฅ๋Š”โ€ ๋ฐฉํ–ฅ์˜ eigengrasp ๊ฐ’์„ ์ถœ๋ ฅํ•˜๋ฉด, 5์†๊ฐ€๋ฝ ShadowHand๋“  4์†๊ฐ€๋ฝ Allegro Hand๋“  ํ•ด๋‹น ์†๊ฐ€๋ฝ๋“ค์ด ๋ชจ๋‘ ์˜ค๋ฏ€๋ ค์ ธ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ด€์ ˆ์ด ์›€์ง์ด๋„๋ก ๋งคํ•‘๋ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ๋งคํ•‘์„ ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋กœ๋ด‡ ์†๋ณ„๋กœ 4์ธต MLP ์‹ ๊ฒฝ๋ง์„ ํ•™์Šต์‹œ์ผœ ์ตœ์ ํ™” ๊ณผ์ •์„ ๋Œ€์ฒดํ•˜์˜€๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋Œ€๋Ÿ‰์˜ ๋ณ‘๋ ฌ ๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝ์—์„œ๋„ ์†๋„ ๋ณ‘๋ชฉ ์—†์ด ๋™์ž‘ ๋ณ€ํ™˜์„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•œํŽธ, ๊ด€์ธก ๊ณต๊ฐ„์˜ ํ†ตํ•ฉ๋„ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์†์˜ ์ž๊ธฐ ์ˆ˜์šฉ๊ฐ๊ฐ(proprioception) ์ •๋ณด, ์ฆ‰ ๊ด€์ ˆ ๊ฐ๋„๋“ค์€ ์ข…๋ฅ˜๋งˆ๋‹ค ์ฐจ์›์ด ๋‹ค๋ฅด๊ณ  ์˜๋ฏธ๋„ ๋‹ฌ๋ผ ์ง์ ‘ ๋น„๊ตํ•˜๊ฑฐ๋‚˜ ํ•˜๋‚˜์˜ ์ •์ฑ… ์ž…๋ ฅ์œผ๋กœ ํ•ฉ์น˜๋Š” ๋ฐ ๋ฌด๋ฆฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. CrossDex์—์„œ๋Š” ์†๋ฐ”๋‹ฅ๊ณผ ์†๊ฐ€๋ฝ ๋ ํฌ์ธํŠธ์˜ 3์ฐจ์› ์œ„์น˜ ์ •๋ณด๋งŒ ๊ด€์ธก์— ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์ด ๋ฌธ์ œ๋ฅผ ํ’€์—ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์†์˜ ๊ตฌ์ฒด์ ์ธ ๊ด€์ ˆ๊ฐ ๋Œ€์‹ , ๊ฐ ์†์˜ ์†๋ฐ”๋‹ฅ ์ค‘์‹ฌ๊ณผ ๋‹ค์„ฏ ์†๊ฐ€๋ฝ(๋˜๋Š” ๋„ค ์†๊ฐ€๋ฝ) ๋์ ๋“ค์˜ ์œ„์น˜๋ฅผ ์ทจํ•˜๋ฉด, ๋น„๋ก ์†๋งˆ๋‹ค ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ๋„ โ€œ์†๊ฐ€๋ฝ ๋์ด ์–ด๋”” ์žˆ๋Š”๊ฐ€โ€๋ผ๋Š” ๊ณตํ†ต ํ‘œํ˜„์œผ๋กœ ์ •๊ทœํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•ด๋‹น ์œ„์น˜๋“ค์ด ํŒŒ์ง€์—์„œ ๋ฌผ์ฒด์™€์˜ ์ ‘์ด‰ ๋ฐ ๋ฐฐ์น˜์— ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋ฉฐ, Handa ๋“ฑ(2020)์˜ ์—ฐ๊ตฌ์—์„œ๋„ ์ธ๊ฐ„ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜์˜ ์ค‘์š”์„ฑ์ด ๊ฐ•์กฐ๋œ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ํ–‰๋™ ๊ณต๊ฐ„์€ โ€œ์ธ๊ฐ„ ์† ๊ณ ์œ  ๋™์ž‘ ๋ชจ๋“œโ€๋กœ, ๊ด€์ธก ๊ณต๊ฐ„์€ โ€œ์†๋ฐ”๋‹ฅ๊ณผ ์†๊ฐ€๋ฝ ๋์˜ ์œ„์น˜โ€๋กœ ํ†ตํ•ฉํ•˜์—ฌ ๋กœ๋ด‡ ์† ์ข…๋ฅ˜์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ์ •์ฑ… ์ž…๋ ฅ/์ถœ๋ ฅ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•œ ๊ฒƒ์ด CrossDex ๋ฐฉ๋ฒ•์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํ†ตํ•ฉ๋œ ๊ด€์ธกยทํ–‰๋™ ํ‘œํ˜„์„ ๊ฐ€์ง€๊ณ , ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ… ํ•™์Šต์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. (i) ์šฐ์„  teacher-student ์ „๋žต์„ ํ™œ์šฉํ•˜์—ฌ, ์ƒํƒœ๊ธฐ๋ฐ˜(state-based) ๊ต์‚ฌ ์ •์ฑ…๋“ค์„ ๊ฐœ๋ณ„ ๋ฌผ์ฒด ๋Œ€์ƒ ํŒŒ์ง€์— ๋Œ€ํ•ด ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ƒํƒœ๊ธฐ๋ฐ˜์ด๋ž€ ๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜์™€ ํ˜•์ƒ, ๋กœ๋ด‡ ์†์˜ ์ƒํƒœ ๋“ฑ์„ ์™„์ „ ๊ด€์ธกํ•œ ์กฐ๊ฑด์—์„œ ํ•™์Šตํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ฌผ์ฒด๋งˆ๋‹ค PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ตœ์  ์ •์ฑ…์„ ์ฐพ๊ณ , ์ด๋ฅผ ๊ฐ ๋ฌผ์ฒด์˜ ํŒŒ์ง€ ์ „๋ฌธ๊ฐ€(๊ต์‚ฌ)๋กœ ๊ฐ„์ฃผํ•ฉ๋‹ˆ๋‹ค. (ii) ์ดํ›„ ์ด๋Ÿฌํ•œ ๋‹ค์ˆ˜์˜ ๊ต์‚ฌ๋“ค์„ ์ด์šฉํ•ด ๋น„์ „๊ธฐ๋ฐ˜(vision-based) ํ•™์ƒ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š”๋ฐ, ์—ฌ๊ธฐ์—๋Š” DAgger(Dataset Aggregation) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋น„์ „ ์ •์ฑ…์€ ๋ฌผ์ฒด์˜ 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ(์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์˜ depth sensor ๋ฐ์ดํ„ฐ)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋™์ž‘์„ ๊ฒฐ์ •ํ•˜๋ฉฐ, ์ดˆ๊ธฐ์—๋Š” ๊ต์‚ฌ ์ •์ฑ…๋“ค์˜ ์‹œ์—ฐ์„ ๋ชจ๋ฐฉํ•˜๊ณ  ์ ์ง„์ ์œผ๋กœ ์ž๊ธฐ ์ •์ฑ…์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅํ•ด๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ์ด ๋น„์ „ ์ •์ฑ…์ด ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋“  ๋ฌผ์ฒด์™€ ๋ชจ๋“  ๋กœ๋ด‡ ์†์„ ํ•œ๊บผ๋ฒˆ์— ๋‹ค๋ฃจ๋Š” ๋ฒ”์šฉ ํŒŒ์ง€ ์ •์ฑ…์ด ๋ฉ๋‹ˆ๋‹ค. ํ•™์Šต์—๋Š” NVIDIA Isaac Gym ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ด 8192๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ๋Œ€๋Ÿ‰์˜ ๊ฒฝํ—˜์„ ๋ชจ์•˜๊ณ , ์ดํ›„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— 16,384๊ฐœ ํ™˜๊ฒฝ์„ ํ™œ์šฉํ•˜์—ฌ ๋น„์ „ ์ •์ฑ…์œผ๋กœ ์ง€์‹์„ ์ดํ–‰(distill)ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ•™์Šต ์„ธํŒ… ๋•๋ถ„์— ์ˆ˜์‹ญ ๊ฐ€์ง€ ๋ฌผ์ฒด์™€ ์—ฌ๋Ÿฌ ์†์— ๋Œ€ํ•œ ๋ณต์žกํ•œ ์ •์ฑ…์„ ํ˜„์‹ค์ ์ธ ์‹œ๊ฐ„ ์•ˆ์— ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. (์ฐธ๊ณ ๋กœ ์ •์ฑ… ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋Š” ์ƒํƒœ๊ธฐ๋ฐ˜์˜ ๊ฒฝ์šฐ 5๊ฐœ ๋ ˆ์ด์–ด MLP, ๋น„์ „ ์ •์ฑ…์˜ ๊ฒฝ์šฐ PointNet ๊ธฐ๋ฐ˜์˜ ๊ฐ„์†Œํ™”๋œ ๊ตฌ์กฐ๋กœ ๋ฌผ์ฒด ์ ๊ตฐ์„ ์ฒ˜๋ฆฌํ•œ ํ›„ MLP๋กœ ์•กํ„ฐ/ํฌ๋ฆฌํ‹ฑ์„ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.)

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ €์ž๋“ค์€ ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ์ •์ฑ…์„ ์ƒˆ๋กœ์šด ์†์ด๋‚˜ ์ƒˆ๋กœ์šด ๊ฐ์ฒด์— ๋น ๋ฅด๊ฒŒ ์ ์‘์‹œํ‚ค๋Š” ํŒŒ์ธํŠœ๋‹(fine-tuning) ๊ธฐ๋ฒ•๋„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ํ•™์Šต๋œ CrossDex ์ •์ฑ…์„ ์ดˆ๊ธฐํ™” ๊ฐ’์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ PPO ์žฌํ•™์Šต์„ ํ•  ๋•Œ, ๊ธฐ์กด ์ •์ฑ…๊ณผ์˜ KL ๋ฐœ์‚ฐ ํŽ˜๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€๋กœ ์ค˜์„œ ๊ธ‰๊ฒฉํ•œ ๋ณ€ํ™”(ํฌ๊ฒŸํŒ…)๋ฅผ ๋ง‰๋Š” ํ˜•ํƒœ๋กœ ๋ฏธ์„ธ์กฐ์ •์„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์†์ด๋‚˜ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ์„ธํŠธ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ํ•™์Šต ํšจ์œจ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

3. ๊ธฐ์กด ์—ฐ๊ตฌ ๋Œ€๋น„ ์ฃผ์š” ๊ธฐ์—ฌ์ 

CrossDex๋Š” ์•ž์„œ์˜ ๊ธฐ์ˆ ์  ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์—ฐ๊ตฌ ๋Œ€๋น„ ๋ช‡ ๊ฐ€์ง€ ๋‘๋“œ๋Ÿฌ์ง„ ๊ธฐ์—ฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋ฒ”์šฉ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์ •์ฑ…์˜ ๊ตฌํ˜„์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ๋กœ๋ด‡ ์†๋งˆ๋‹ค ๋ณ„๋„์˜ ์ •์ฑ…์„ ๋งŒ๋“ค์–ด์•ผ ํ–ˆ๊ณ , ์‹ฌ์ง€์–ด ์œ ์‚ฌํ•œ ํ˜•ํƒœ์˜ ์† ์‚ฌ์ด์—์„œ๋„ ์ •์ฑ…์„ ์žฌํ•™์Šตํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. Patel & Song (2024)์˜ GET-Zero ์—ฐ๊ตฌ๊ฐ€ ๋™์ผํ•œ LEAP Hand์˜ ๋ณ€ํ˜•๋“ค ์‚ฌ์ด์—์„œ ์ •์ฑ… ์ผ๋ฐ˜ํ™”๋ฅผ ์‹œ๋„ํ–ˆ์ง€๋งŒ, ์„œ๋กœ ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ๋กœ๋ด‡ ์† ๊ฐ„ ์ผ๋ฐ˜ํ™”์—๋Š” ์‹คํŒจํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด CrossDex๋Š” ShadowHand, Allegro Hand, Schunk SVH, Ability Hand์ฒ˜๋Ÿผ ๊ตฌ์กฐ๊ฐ€ ์ œ๊ฐ๊ฐ์ธ ์† ๋„ค ์ข…๋ฅ˜๋ฅผ ํ•œ ๋ฒˆ์— ํ•™์Šต์‹œํ‚ค๊ณ , ํ•™์Šต์— ํฌํ•จ๋˜์ง€ ์•Š์€ LEAP Hand์™€ Inspire Hand๊นŒ์ง€ ๋‹จ์ผ ์ •์ฑ…์œผ๋กœ ์ œ์–ด ๊ฐ€๋Šฅํ•จ์„ ์ฒ˜์Œ์œผ๋กœ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ์† ๋ถ„์•ผ ์ตœ์ดˆ์˜ ๋ฒ”์šฉ ์ •์ฑ… ์‹œ๋„๋กœ์„œ ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ์ธ๊ฐ„ ์† ๊ธฐ๋ฐ˜์˜ ํ–‰๋™ ๊ณต๊ฐ„ ํ†ตํ•ฉ๊ณผ ์†๊ฐ€๋ฝ ๋ ๊ด€์ธก์„ ํ†ตํ•œ ์ผ๋ฐ˜ํ™” ์ „๋žต ์ž์ฒด๊ฐ€ ๊ธฐ์—ฌ์ ์ž…๋‹ˆ๋‹ค. ์•ž์„œ ์„ค๋ช…ํ•œ ์ธ๊ฐ„ eigengrasp ๊ณต๊ฐ„์„ ํ™œ์šฉํ•œ ํ–‰๋™ ํ†ตํ•ฉ์€ ์ธ๊ฐ„ ์กฐ์ž‘์˜ ๊ณตํ†ต ๋ถ„๋ชจ๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ฐฝ์˜์ ์ธ ์ ‘๊ทผ์œผ๋กœ์„œ, ์„œ๋กœ ๋‹ค๋ฅธ ์†์˜ ์›€์ง์ž„์„ ์ผ๊ด€๋œ ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ €์ž๋“ค์€ ๊ธฐ์กด์— ๋ณต์žกํ•œ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์ด๋‚˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋“ฑ์„ ์‚ฌ์šฉํ•ด ๊ฐ ๋กœ๋ด‡ ํ˜•ํƒœ๋ฅผ ์ธ์ฝ”๋”ฉํ•ด์•ผ ํ–ˆ๋˜ ์ ‘๊ทผ๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ํ›จ์”ฌ ๋ช…์‹œ์ ์ด๊ณ  ํ•ด์„์ ์ธ ๊ณต์šฉ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ teleoperation (์›๊ฒฉ ์กฐ์ž‘) ๋ถ„์•ผ์˜ ์ง€์‹์„ ์ •์ฑ… ํ•™์Šต์— ์ ‘๋ชฉํ•˜์—ฌ, ์ธ๊ฐ„-๋กœ๋ด‡ ์‚ฌ์ด์˜ ์ œ์–ด ๋งตํ•‘์„ ๋กœ๋ด‡-๋กœ๋ด‡ ์‚ฌ์ด์—๋„ ์ ์šฉํ•œ ์ ์ด ํฅ๋ฏธ๋กœ์šด ํ˜์‹ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜๋งŒ์œผ๋กœ ๊ด€์ธก์„ ๊ตฌ์„ฑํ•œ ๊ฒƒ์€ ๋‹จ์ˆœํžˆ ์ฐจ์›์„ ์ค„์ด๋Š” ํšจ๊ณผ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์† ํฌ๊ธฐ๋‚˜ ๊ด€์ ˆ ๊ตฌ์„ฑ ์ฐจ์ด์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํŒŒ์ง€์˜ ํ•ต์‹ฌ์ธ ์†-๋ฌผ์ฒด ๊ด€๊ณ„๋ฅผ ๊ณตํ†ต๋˜๊ฒŒ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์…‹์งธ, ์‹คํ—˜์ ์œผ๋กœ ๋†’์€ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. CrossDex ์ •์ฑ…์€ YCB ๋ฒค์น˜๋งˆํฌ ๊ฐ์ฒด๋“ค์„ ๋Œ€์ƒ์œผ๋กœ 4๊ฐ€์ง€ ํ›ˆ๋ จ ์†์—์„œ ํ‰๊ท  ์•ฝ 80%์˜ ๊ทธ๋ฆฝ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ํ•™์Šต์— ์ „ํ˜€ ํฌํ•จ๋˜์ง€ ์•Š์•˜๋˜ ๋‘ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ์†์— ๋Œ€ํ•ด์„œ๋„ ์ œ๋กœ์ƒท์œผ๋กœ 35% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ํ•˜๋‚˜์˜ ์†์— ํŠนํ™”๋œ ์ •์ฑ…์„ ์ƒˆ๋กœ์šด ์†์— ์ ์šฉํ–ˆ์„ ๋•Œ ๊ธฐ๋Œ€๋˜๋Š” ์„ฑ๋Šฅ (๊ฑฐ์˜ 0์— ์ˆ˜๋ ด)๊ณผ ๋น„๊ตํ•˜๋ฉด ํฌ๊ฒŒ ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ CrossDex๋Š” ๋™์‹œ ํ•™์Šตํ•œ ์†๋“ค์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ ์†๋ณ„ ์ „์šฉ ์ •์ฑ…๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ, ์ƒˆ๋กœ์šด ์†์— ๋Œ€ํ•ด์„œ๋Š” ์›”๋“ฑํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์šฐ์œ„๋Š” ์ €์ž๋“ค์ด ๊ณ ์•ˆํ•œ ํ†ตํ•ฉ ๊ด€์ธก/๋™์ž‘ ๊ณต๊ฐ„์˜ ํšจ๊ณผ์™€, ๊ต์‚ฌ-ํ•™์ƒ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํšจ์šฉ์„ ํ•จ๊ป˜ ๋ณด์—ฌ์ฃผ๋Š” ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ํ•™์Šต ํšจ์œจ ๋ฐ ์ „์ด ํ•™์Šต ์ธก๋ฉด์˜ ๊ฐœ์„ ๋„ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค. ๋‹ค์ค‘ ์†์„ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” ํฌ๋กœ์Šค-์ž„๋ฐ”๋””๋จผํŠธ ํ›ˆ๋ จ์€ ๊ฐœ๋ณ„ ์†๋ณ„๋กœ ๋”ฐ๋กœ ํ•™์Šตํ•  ๋•Œ์— ๋น„ํ•ด ์•ฝ๊ฐ„ ๋” ์•ˆ์ •์ ์ด๊ณ  ํšจ์œจ์ ์ธ ํ•™์Šต๊ณก์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๊ณตํ†ต ์ •์ฑ…์œผ๋กœ ๋ฌถ์–ด์„œ ํ•™์Šตํ•˜๋ฉด ์˜คํžˆ๋ ค ํ›ˆ๋ จ์ด ์ˆ˜๋ ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๊ณ  ๊ฐ ์†์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋„ ์—†์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ํ•™์Šต๋œ ์ •์ฑ…์„ ํ™œ์šฉํ•œ ํŒŒ์ธํŠœ๋‹ ์‹คํ—˜์—์„œ๋Š”, ์‚ฌ์ „ ํ•™์Šต ์—†์ด ์ฒ˜์Œ๋ถ€ํ„ฐ ์ƒˆ ์†์— ๋Œ€ํ•ด ํ•™์Šตํ•˜๋Š” ๊ฒฝ์šฐ๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ์Œ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ LEAP Hand์— ๋Œ€ํ•ด ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ์ •์ฑ…์˜ ๋‹ค์ค‘ ๋ฌผ์ฒด ์„ฑ๊ณต๋ฅ ์ด 43.6%์˜€๋‹ค๋ฉด, CrossDex ์‚ฌ์ „ํ•™์Šต ์ •์ฑ…์„ ๋ฏธ์„ธ์กฐ์ •ํ•œ ๊ฒฝ์šฐ 64.3%๊นŒ์ง€ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ƒˆ๋กœ์šด ๊ฐ์ฒด๋“ค์— ๋Œ€ํ•œ ํ•™์Šต์—์„œ๋„ ์‚ฌ์ „ํ•™์Šต์˜ ์ด์ ์ด ๋‚˜ํƒ€๋‚˜, ๋ฒ”์šฉ ํŒŒ์ง€ ์ •์ฑ…์ด ํ”„๋ฆฌํŠธ๋ ˆ์ธ ๋ชจ๋ธ๋กœ์„œ ์œ ์šฉํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

4. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ตฌ์„ฑ ํ‰๊ฐ€

๋…ผ๋ฌธ์˜ ์‹คํ—˜์€ ์ฃผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ์˜ ๋‹ค์ˆ˜ ๊ฐ์ฒด ํŒŒ์ง€ ํ‰๊ฐ€๋กœ ์ด๋ฃจ์–ด์กŒ์œผ๋ฉฐ, ์„ค๊ณ„ ๋ฉด์—์„œ ๋น„๊ต์  ์ฒ ์ €ํ•˜๊ณ  ์‹ ์ค‘ํ•˜๊ฒŒ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์— ์‚ฌ์šฉ๋œ ๋กœ๋ด‡ ์† ํ”Œ๋žซํผ์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ 4๊ฐ€์ง€ ํ›ˆ๋ จ์šฉ ์†(ShadowHand, Allegro Hand, Schunk SVH Hand, Ability Hand)๊ณผ 2๊ฐ€์ง€ ํ…Œ์ŠคํŠธ์šฉ ์†(LEAP Hand, Inspire Hand)์ž…๋‹ˆ๋‹ค. ์ด๋“ค์€ ์†๊ฐ€๋ฝ ๊ฐœ์ˆ˜(4~5๊ฐœ)์™€ ์ž์œ ๋„(10~22 DoF)๊ฐ€ ์ƒ์ดํ•˜์—ฌ, CrossDex์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ์— ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์‚ฌ๋ก€๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ์†์€ RealMan RM65 6์ž์œ ๋„ ๋กœ๋ด‡ํŒ” ๋๋‹จ์— ์žฅ์ฐฉ๋˜์–ด ์žˆ๊ณ , ๋กœ๋ด‡ํŒ”์˜ ๋ฒ ์ด์Šค๋Š” ์ฑ…์ƒ ์˜†๋ฉด์— ๊ณ ์ •๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์„ ์—ผ๋‘์— ๋‘” ๊ตฌ์„ฑ์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ์˜ ์„ค์ •์ด ํ˜„์‹ค์˜ ํ•˜๋“œ์›จ์–ด ๋ฐฐ์น˜์™€ ์ผ์น˜ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•™์Šต ํ™˜๊ฒฝ์œผ๋กœ๋Š” NVIDIA์˜ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์ธ Isaac Gym์„ ์‚ฌ์šฉํ•˜์˜€๊ณ , ํ•œ ๋ฒˆ์— ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์„ ๋Œ๋ ค ๋ฐ์ดํ„ฐ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด PPO ๊ธฐ๋ฐ˜ ์ƒํƒœ์ •์ฑ… ํ•™์Šต ์‹œ 8192๊ฐœ ํ™˜๊ฒฝ์„ ๋ณ‘๋ ฌ ์‹คํ–‰ํ•˜์—ฌ 4๋งŒ iteration์„ ์ˆ˜ํ–‰ํ–ˆ๊ณ , ๋น„์ „ ์ •์ฑ… ํ•™์Šต ์‹œ๋Š” 16,384๊ฐœ ํ™˜๊ฒฝ๊นŒ์ง€ ํ™œ์šฉํ•˜์—ฌ ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋Œ€๊ทœ๋ชจ ํ™˜๊ฒฝ์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„, ํ•œ ๋Œ€์˜ GPU์—์„œ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก(8192 ํ™˜๊ฒฝ์˜ ๊ฒฝ์šฐ RTX 4090 ํ•œ ์žฅ์œผ๋กœ ๊ฐ€๋Šฅ) ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์ตœ์ ํ™”ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹คํ—˜ ๊ฒฐ๊ณผ์˜ ์‹ ๋ขฐ์„ฑ ์ธก๋ฉด์—์„œ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ๊ฒฐ๊ณผ๋Š” ๋ณดํ†ต ๋ฌด์ž‘์œ„์„ฑ์— ๋ฏผ๊ฐํ•œ๋ฐ, ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์„ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋ฉด ์šด์— ๋”ฐ๋ฅธ ํŽธ์ฐจ๋ฅผ ์ค„์ด๊ณ  ๋” ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ ์ถ”์ •์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋…ผ๋ฌธ์—์„œ๋Š” ํ‘œ์™€ ๊ทธ๋ž˜ํ”„์— ์„ฑ๊ณต๋ฅ ์˜ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ(๋˜๋Š” ํ‘œ์ค€์˜ค์ฐจ)๋ฅผ ํ•จ๊ป˜ ์ œ์‹œํ•˜์—ฌ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•จ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ๋ฐฉ์‹์€ YCB Object Set์— ์†ํ•œ 45๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ๋กœ๋ด‡ ์†์ด ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š”์ง€(์„ฑ๊ณต/์‹คํŒจ)๋ฅผ ์ธก์ •ํ•˜๋Š” ํ˜•ํƒœ์˜€์Šต๋‹ˆ๋‹ค. ๋ฌผ์ฒด๋Š” ์ฑ…์ƒ ์œ„์— ๋ฌด์ž‘์œ„๋กœ ๋†“์—ฌ ์žˆ๊ณ , ๋กœ๋ด‡ ์†์€ ์ดˆ๊ธฐ ์ž์„ธ๋กœ๋ถ€ํ„ฐ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•ด ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ์—ํ”ผ์†Œ๋“œ๋ฅผ ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ์†-๋ฌผ์ฒด ์กฐํ•ฉ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ์‹œ๋„๋ฅผ ์ˆ˜ํ–‰ํ•ด ์„ฑ๊ณต๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋ฉฐ, ์ด๋ฅผ ๋ชจ๋“  ์†์— ๋Œ€ํ•ด ํ‰๊ท ๋‚ด์–ด ์ข…ํ•ฉ ์„ฑ๋Šฅ์œผ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

Baseline(๋น„๊ต ๋ฐฉ๋ฒ•)์œผ๋กœ๋Š” ๋‹ค์ค‘์ž‘์—…(Multi-task) RL ๋ฐฉ์‹๋“ค์„ ์„ค์ •ํ•˜์—ฌ CrossDex์˜ ์„ค๊ณ„ ์š”์†Œ๋“ค์„ ํ•˜๋‚˜์”ฉ ์ œ๊ฑฐํ•ด๋ณธ ๋ณ€ํ˜•๋“ค์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MT-Raw-OA๋ผ๋Š” ๋ฒ ์ด์Šค๋ผ์ธ์€ ๊ด€์ธก๊ณผ ํ–‰๋™์„ ๊ทธ๋Œ€๋กœ(raw) ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹  ์† ์ข…๋ฅ˜๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ์›-ํ•ซ ์ž„๋ฒ ๋”ฉ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์—ฌ๋Ÿฌ ์†์„ ํ•จ๊ป˜ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ์†๋ณ„ ๊ด€์ ˆ ์ƒํƒœ ์ฐจ์›์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด ๋‚จ๋Š” ๋ถ€๋ถ„์„ 0์œผ๋กœ ํŒจ๋”ฉํ•˜๊ณ , ๊ด€์ ˆ ์ฆ๊ฐ€ ๋ฐฉํ–ฅ๋„ ํ†ต์ผ์‹œํ‚ค๋Š” ๋“ฑ์˜ ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ MT-Raw-A๋Š” ๊ด€์ธก์€ CrossDex์ฒ˜๋Ÿผ ํ†ตํ•ฉํ•˜๋˜ ํ–‰๋™์€ ์›๋ž˜ ๊ฐ ์†์˜ ๊ด€์ ˆ ๋ช…๋ น์„ ์“ฐ๋Š” ๊ฒฝ์šฐ, MT-Raw-O๋Š” ๊ทธ ๋ฐ˜๋Œ€๋กœ ํ–‰๋™์€ eigengrasp๋กœ ํ†ต์ผํ•˜๋˜ ๊ด€์ธก์€ ๊ฐ ์†์˜ ์›๋ž˜ ๊ด€์ ˆ๊ฐ์„ ๋ชจ๋‘ ํฌํ•จํ•œ ๊ฒฝ์šฐ๋กœ ์„ค์ •ํ•˜์—ฌ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ baseline์„ ๊ตฌ์„ฑํ•จ์œผ๋กœ์จ, ๊ณต์šฉ ๊ด€์ธก/ํ–‰๋™ ๊ณต๊ฐ„์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ ค๋Š” ์˜๋„๊ฐ€ ์—ฟ๋ณด์ž…๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ ์‹คํ—˜ ์„ค๊ณ„๋Š” ์ ์ ˆํ•œ ๋Œ€์กฐ๊ตฐ์„ ๊ฐ–์ถ”๊ณ  ์žˆ๊ณ , ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์†๊ณผ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋กœ์˜ ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ ์ œ์•ˆ ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๋‹ค๊ฐ๋„๋กœ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์•„์‰ฌ์šด ๋ถ€๋ถ„์„ ๊ผฝ์ž๋ฉด, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ฃผ๋œ ๊ฒฐ๊ณผ๊ฐ€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์˜ ์„ฑ๊ณต๋ฅ ์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด ์‹ค์ œ ๋กœ๋ด‡์—์˜ ์ ์šฉ ๊ฒ€์ฆ์ด ์ œํ•œ์ ์ด์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์ด ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€๋ฅผ ํ†ตํ•ด LEAP Hand ์‹ค๋ฌผ๊ณผ RealSense ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•œ Sim-to-Real ์‹คํ—˜ ์˜์ƒ์„ ๊ณต๊ฐœํ•˜๊ธด ํ–ˆ์ง€๋งŒ, ๋…ผ๋ฌธ ๋ณธ๋ฌธ์—์„œ๋Š” ์ด ๋ถ€๋ถ„์ด ์ •๋Ÿ‰์ ์ธ ํ‰๊ฐ€๋กœ ๋‹ค๋ฃจ์–ด์ง€์ง„ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ๋‹ค์–‘ํ•œ ์†์œผ๋กœ ๋ฒ”์šฉ ์ •์ฑ…์„ ์ ์šฉํ•  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋ฏธ์ง€์˜ ๋ณ€์ˆ˜๋“ค(์„ผ์„œ ๋…ธ์ด์ฆˆ, ๋ชจ๋ธ๋ง ์˜ค์ฐจ ๋“ฑ)์— ๋Œ€ํ•œ ๊ฒ€์ฆ์€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‚ด์—์„œ ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ์‹คํ—˜ํ–ˆ๊ณ , ์ฝ”๋“œ์™€ ํ™˜๊ฒฝ ์„ค์ •์„ ๊ณต๊ฐœ(PKU-RL/CrossDex ๊นƒํ—ˆ๋ธŒ)ํ•˜์—ฌ ์žฌํ˜„์„ฑ๋„ ๋†’์ธ ์ ์€ ๊ธ์ •์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์ฃผ์š” ๊ฒฐ๊ณผ ๋ฐ ํ•œ๊ณ„์  ๋…ผ์˜

CrossDex์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋ฒ”์šฉ ์ •์ฑ…์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ์ธ์ƒ์ ์ธ ์ˆ˜์น˜๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์šฐ์„ , ํ•˜๋‚˜์˜ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋œ 4๊ฐ€์ง€ ์†์— ๋Œ€ํ•ด ํ‰๊ท  ์•ฝ 80%์˜ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ณ„ ๊ฐ์ฒด๋ณ„๋กœ ๋ณด๋ฉด 45๊ฐœ YCB ๋ฌผ์ฒด ์ค‘ 42๊ฐœ์—์„œ ์„ฑ๊ณต๋ฅ ์ด ๊ฑฐ์˜ 100%์— ๊ฐ€๊น๊ฒŒ ๋‚˜์™”์œผ๋ฉฐ, ์ด๋Š” ์—ฌ๋Ÿฌ ์†์„ ๋™์‹œ์— ์ œ์–ดํ•˜๋„๋ก ํ•™์Šตํ–ˆ์Œ์—๋„ ๊ฐ ์†์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ํฌ์ƒ์ด ํฌ์ง€ ์•Š์•˜๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๋™์‹œํ•™์Šต์˜ ์ด์ ์œผ๋กœ, ์ €์ž๋“ค์€ ๋™์ผ ์กฐ๊ฑด์—์„œ ์†๋ณ„๋กœ ๋”ฐ๋กœ ํ•™์Šต์‹œํ‚จ ์ •์ฑ…๋“ค๊ณผ ๋น„๊ตํ•ด๋ณผ ๋•Œ ํฌ๊ฒŒ ๋’ค์ง€์ง€ ์•Š๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ํ•™์Šต ์•ˆ์ •์„ฑ์ด ๋†’์•˜๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. Figure 3์˜ ํ•™์Šต ๊ณก์„  ๋น„๊ต๋ฅผ ๋ณด๋ฉด CrossDex์™€ ๊ฐœ๋ณ„ ํ•™์Šต์˜ ์ˆ˜๋ ด ์†๋„ ๋ฐ ์ตœ์ข… ์„ฑ๋Šฅ์ด ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ์•ฝ๊ฐ„ ๋” ๋‚˜์€๋ฐ, ์ด๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์† ๊ฐ„์— ๊ฒฝํ—˜์ด ์ผ๋ถ€ ๊ณต์œ ๋˜๋ฉด์„œ ํ•™์Šต ์‹ ํ˜ธ์˜ ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•œ ๋•๋ถ„์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Baseline ๋Œ€๋น„ ์„ฑ๋Šฅ์„ ์‚ดํŽด๋ณด๋ฉด, CrossDex์˜ ํ†ตํ•ฉ ๊ด€์ธก/ํ–‰๋™ ๊ณต๊ฐ„ ์ „๋žต์ด ๊ธฐ์กด ๋ฐฉ์‹๋“ค์„ ํ™•์—ฐํžˆ ๋Šฅ๊ฐ€ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Table 1์˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, CrossDex ์ •์ฑ…์€ ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋œ ์†๋“ค์€ ๋ฌผ๋ก  ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์†๋“ค์— ๋Œ€ํ•ด์„œ๋„ ๋ชจ๋“  baseline๋ณด๋‹ค ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, raw ๊ด€์ธก/ํ–‰๋™์„ ์‚ฌ์šฉํ•œ ๋‹ค์ค‘ํ•™์Šต๋„ ์–ด๋А ์ •๋„ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ–๊ธด ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด MT-Raw-A (๊ด€์ธก ํ†ต์ผ/ํ–‰๋™ ์›๋ž˜๊ฐ’) ๋ฐฉ๋ฒ•์€ ์ƒˆ๋กœ์šด ์†์— ๋Œ€ํ•ด 21% ์ •๋„์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ๊ฐœ๋ฐœ์ž๋“ค์ด URDF ์ •๋ ฌ ๋“ฑ์„ ํ†ตํ•ด ์†๋“ค ๊ฐ„ ๊ด€์ ˆ ์ •์˜๋ฅผ ์‹ ์ค‘ํžˆ ๋งž์ถฐ์ค€ ๋•๋ถ„์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์†๊ฐ€๋ฝ ์ˆœ์„œ๋‚˜ ๊ด€์ ˆ ์ฆ๊ฐ ๋ฐฉํ–ฅ ๋“ฑ์„ ์ˆ˜์ž‘์—…์œผ๋กœ ํ†ต์ผํ•œ ๊ฒฐ๊ณผ ์–ด๋А ์ •๋„ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”๊ฐ€ ๊ฐ€๋Šฅํ–ˆ์ง€๋งŒ, ์ธ๊ฐ„ ์† eigengrasp๋ฅผ ํ™œ์šฉํ•œ CrossDex์˜ ์„ฑ๋Šฅ(35% ์ด์ƒ ์„ฑ๊ณต๋ฅ )์—๋Š” ํฌ๊ฒŒ ๋ชป ๋ฏธ์ณค์Šต๋‹ˆ๋‹ค. ๋”์šฑ์ด ๋‹ค๋ฅธ baseline์ธ MT-Raw-O๋‚˜ MT-Raw-OA์˜ ๊ฒฝ์šฐ, ์ƒํƒœ๊ธฐ๋ฐ˜ ํ•™์Šต ์‹œ ๋กœ๋ด‡ ์ข…๋ฅ˜ ์›-ํ•ซ๋ฒกํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ํƒ“์— ๋น„์ „ ์ •์ฑ…์œผ๋กœ ์ง€์‹์„ ์ฆ๋ฅ˜ํ•  ๋•Œ ๊ด€์ธก ์ •๋ณด๊ฐ€ ๊ฐ์†Œํ•˜์—ฌ ์„ฑ๋Šฅ ํ•˜๋ฝ์ด ๋‘๋“œ๋Ÿฌ์กŒ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถ„์„์€ CrossDex์˜ ์„ค๊ณ„ ์„ ํƒ์ด ๋‹จ์ˆœํžˆ ํŽธ์˜์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์„ฑ๋Šฅ ๋ฉด์—์„œ๋„ ์ตœ์ ์ž„์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ, CrossDex๊ฐ€ ์ƒˆ๋กœ์šด ์†์— ๋Œ€ํ•ด ๋‹ฌ์„ฑํ•œ ์ œ๋กœ์ƒท ์„ฑ๊ณต๋ฅ  ~35% ์ˆ˜์ค€์€ ์ ˆ๋Œ€์ ์œผ๋กœ ๋ณด๋ฉด ๋‚ฎ๊ฒŒ ๋А๊ปด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ ์ „ํ˜€ ๋ณด์ง€ ๋ชปํ•œ ์†์˜ ๊ฒฝ์šฐ ์ผ๋ฐ˜์ ์ธ ์ •์ฑ…์€ ๊ฑฐ์˜ ์‹คํŒจํ•˜๋Š” ๋ฐ˜๋ฉด, 3๋ฒˆ ์ค‘ 1๋ฒˆ ์ด์ƒ ์„ฑ๊ณตํ•˜๊ฒŒ ๋งŒ๋“  ๊ฒƒ๋งŒ์œผ๋กœ๋„ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ถ”๊ฐ€ ํ•™์Šต(finetuning)์„ ํ†ตํ•ด ์‰ฝ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ์ถœ๋ฐœ์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

CrossDex์˜ ํ•œ๊ณ„์ ๋„ ์งš๊ณ  ๋„˜์–ด๊ฐˆ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ์„ , ํ˜„์žฌ์˜ ๋ฒ”์šฉ ์ •์ฑ…์€ ํŒŒ์ง€(grasp) ๋™์ž‘์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ…Œ์ด๋ธ” ์œ„์˜ ์ •์ (static)์ธ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ๋“œ๋Š” ๊ณผ์ œ์— ํŠนํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ์ฅ” ํ›„ ์„ฌ์„ธํ•œ ์กฐ์ž‘(in-hand manipulation)์ด๋‚˜ ์—ฐ์†์ ์ธ ์ž‘์—…์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™”๋Š” ๋‹ค๋ฃจ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—ฐ๊ตฌ ๋ฒ”์œ„๋ฅผ ๋„˜๋Š” ๋ถ€๋ถ„์ด์ง€๋งŒ, ๊ฒฐ๊ตญ ๊ถ๊ทน์ ์ธ ๋กœ๋ด‡ ์† ํ™œ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ํŒŒ์ง€ ์ดํ›„์˜ ๋‹จ๊ณ„(์˜ˆ: ๋ฌผ์ฒด ํšŒ์ „์‹œํ‚ค๊ธฐ, ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ)๋„ ๋ฒ”์šฉ ์ •์ฑ…์œผ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์–ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ํ•™์Šต๊ณผ ํ‰๊ฐ€๋ผ๋Š” ํ•œ๊ณ„ ๋•Œ๋ฌธ์—, ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋งˆ์ฐฐ ๋ชจ๋ธ ์ฐจ์ด๋‚˜ ์„ผ์„œ ์˜ค์ฐจ, ์นด๋ฉ”๋ผ ์ธ์‹ ๋ฌธ์ œ ๋“ฑ์ด ๊ณ ๋ ค๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€์—์„œ ์‹œ๋„๋œ Sim-to-Real ์ ์šฉ์—์„œ๋Š” ์–ด๋А ์ •๋„ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์ง€๋งŒ, ์‹ค์ œ ์‹คํ—˜์—์„œ๋Š” ์นด๋ฉ”๋ผ์— ์†์ด ๊ฐ€๋ ค ๋ฌผ์ฒด๊ฐ€ ๋ณด์ด์ง€ ์•Š๊ฒŒ ๋œ๋‹ค๊ฑฐ๋‚˜, ๋กœ๋ด‡ํŒ”์ด ํ…Œ์ด๋ธ”๊ณผ ์ถฉ๋Œํ•˜๋Š” ๋“ฑ์˜ ์‹คํŒจ ์‚ฌ๋ก€๋„ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์„ผ์„œ ์œตํ•ฉ์ด๋‚˜ ๋ชจ์…˜ ํ”Œ๋ž˜๋‹์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐœ์„ ํ•  ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ํ•œ๊ณ„๋กœ, ํ–‰๋™ ๊ณต๊ฐ„์„ ์ธ๊ฐ„ ์† ๋ชจ๋“œ๋กœ ์ œํ•œํ•œ ๊ฒƒ์ด ๋ณต์žกํ•œ ์† ๋™์ž‘์„ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ์ œ์•ฝ์ด ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ MANO ๊ธฐ๋ฐ˜ eigengrasp๋ฅผ 6๊ฐœ, 12๊ฐœ ๋“ฑ ์—ฌ๋Ÿฌ ๊ฐœ์ˆ˜๋กœ ์‹œ๋„ํ•œ ๊ฒฐ๊ณผ ํฐ ์„ฑ๋Šฅ ์ฐจ์ด๋Š” ์—†์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์–ด ํ˜„์žฌ ์„ค์ •์ด ์ถฉ๋ถ„ํ•จ์„ ์‹œ์‚ฌํ•˜์ง€๋งŒ, ์ด ๊ณต๊ฐ„์ด ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•˜๋Š” ํŠน์ดํ•œ ์† ์ž์„ธ๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜๋งŒ์œผ๋กœ ๊ด€์ธก์„ ๊ตฌ์„ฑํ•œ ๊ฒƒ๋„ ํŒŒ์ง€์—๋Š” ์ถฉ๋ถ„ํ–ˆ์œผ๋‚˜, ์†๊ฐ€๋ฝ์˜ ์„ธ๋ถ€ ๊ตฝํž˜ ์ •๋„๋‚˜ ๊ด€์ ˆ ํ† ํฌ ๋“ฑ์˜ ์ •๋ณด๊ฐ€ ๋ฐฐ์ œ๋˜์—ˆ๋‹ค๋Š” ์ ์—์„œ ํ–ฅํ›„ ๋” ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์—๋Š” ๋ณด์™„์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, CrossDex์˜ ๊ฒฐ๊ณผ๋Š” ํ˜„์žฌ ์ˆ˜์ค€์—์„œ ๋ฒ”์šฉ ๋‹ค์ง€ ์† ํŒŒ์ง€์˜ ๊ฐœ๋… ์ฆ๋ช…(proof of concept)์„ ์„ฑ๊ณต์ ์œผ๋กœ ๋ณด์—ฌ์คฌ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋™์ผํ•œ ์ •์ฑ…์œผ๋กœ ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์†์— ์ผ๊ด€๋˜๊ฒŒ ๋ฌผ์ฒด ํŒŒ์ง€ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๊ณ , ์ƒˆ๋กœ์šด ์†์—๋„ ์ผ๋ถ€ ์ผ๋ฐ˜ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ•œ ๊ฒƒ์€ ํฐ ์ง„์ „์ž…๋‹ˆ๋‹ค. ๋™์‹œ์—, ํ˜„์‹ค ์ ์šฉ๊นŒ์ง€ ๋„˜์–ด์„œ๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ช‡ ๊ฐ€์ง€ ๋‚œ์ œ๋“ค โ€“ ์˜ˆ๋ฅผ ๋“ค์–ด ๋” ๋ณต์žกํ•œ ์ž‘์—…์œผ๋กœ์˜ ํ™•์žฅ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ถˆํ™•์‹ค์„ฑ ๋Œ€์‘, ๋”์šฑ ๋‹ค์–‘ํ•œ ์† ๊ตฌ์กฐ (์˜ˆ: ๋‘ ์†๊ฐ€๋ฝ ์ง‘๊ฒŒ ๊ทธ๋ฆฌํผ ๋“ฑ ๊ทน๋‹จ์ ์œผ๋กœ ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅธ ์†) โ€“ ์ด ๋‚จ์•„ ์žˆ์Œ์„ ํ™•์ธํ•˜๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

6. ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์–ธ

์ด๋ฒˆ ์—ฐ๊ตฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์‹ค์„ธ๊ณ„ ์ ์šฉ ๋ฐ ๊ฒ€์ฆ ํ™•๋Œ€: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ž…์ฆ๋œ CrossDex ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ ๋”์šฑ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‹œํ—˜ํ•˜๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์„ผ์„œ ํ”ผ๋“œ๋ฐฑ(์˜ˆ: ์ด‰๊ฐ์„ผ์„œ)๊ณผ ์นด๋ฉ”๋ผ ํ™˜๊ฒฝ์—์„œ ์ •์ฑ…์ด ์–ผ๋งˆ๋‚˜ ๊ฐ•์ธํ•œ์ง€ ํ‰๊ฐ€ํ•˜๊ณ , Sim-to-Real ๊ฐ„ ๊ฐญ์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๋„๊ตฌ(๋„๋ฉ”์ธ ๋žœ๋คํ™”, ์ ๋Œ€์  ํ•™์Šต ๋“ฑ)๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์œ ๋งํ•ฉ๋‹ˆ๋‹ค.

  • ๋‹ค์–‘ํ•œ ์ž‘์—…๊ณผ ๋ชฉํ‘œ๋กœ์˜ ์ผ๋ฐ˜ํ™”: ํŒŒ์ง€ ์™ธ์— ์กฐ์ž‘(manipulation) ์ž‘์—…์—๋„ ๋ฒ”์šฉ ์ •์ฑ…์„ ํ™•์žฅํ•˜๋Š” ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•˜๋‚˜์˜ ์ •์ฑ…์ด ์—ฌ๋Ÿฌ ์†์œผ๋กœ ๋ณ‘๋šœ๊ป‘ ์—ด๊ธฐ, ๊ณต ๋Œ๋ฆฌ๊ธฐ, ๋„๊ตฌ ์‚ฌ์šฉํ•˜๊ธฐ ๋“ฑ์˜ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ๊ณผ์ œ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ง„์ •ํ•œ ๋ฒ”์šฉ ์† ์‚ฌ์šฉ ๋กœ๋ด‡์— ๊ฐ€๊นŒ์›Œ์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๊ณ ์ฐจ์› ํ–‰๋™์„ ํšจ์œจ์ ์œผ๋กœ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„์ธต์  RL์ด๋‚˜ ๋ชจ๋ฐฉํ•™์Šต ๊ฒฐํ•ฉ ๊ธฐ๋ฒ• ๋“ฑ์„ ๊ณ ๋ คํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ •์ฑ… ์•„ํ‚คํ…์ฒ˜์˜ ์ง„ํ™”: ํ˜„์žฌ CrossDex๋Š” ์ธ๊ฐ„ ์†์ด๋ผ๋Š” ์ •์  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์†๋“ค์„ ๋ฌถ์—ˆ์ง€๋งŒ, ํ–ฅํ›„์—๋Š” ๋ชจ๋“  ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์†์„ ํฌ๊ด„ํ•  ์ˆ˜ ์žˆ๋Š” ํ•™์Šต ๊ธฐ๋ฐ˜ ํ‘œํ˜„์„ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋กœ๋ด‡ ์†์˜ ํ˜•ํƒœ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ณ , ๊ฑฐ๊ธฐ์— ์ •์ฑ…์„ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ(condition)ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‚˜, ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ด์šฉํ•ด ์† ๊ตฌ์กฐ๋ฅผ ํ† ํฐํ™”ํ•˜์—ฌ in-context๋กœ ์ œ์–ด ๋ช…๋ น์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ• ๋“ฑ์ด ๋Œ€์•ˆ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ์ƒˆ๋กœ์šด ์†์ด ํˆฌ์ž…๋˜์—ˆ์„ ๋•Œ ์ธ๊ฐ„ ์† ๊ณต๊ฐ„์— ๋งž์ถ”๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํœด๋จผ ๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜๊ณผ์˜ ๊ฒฐํ•ฉ: CrossDex๋Š” ์ธ๊ฐ„ ์† ๊ณต๊ฐ„์„ ํ™œ์šฉํ–ˆ์ง€๋งŒ ์ •์ž‘ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ๊ฐ•ํ™”ํ•™์Šต ๊ต์‚ฌ๋กœ ์ง์ ‘ ์“ฐ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์˜คํ”„๋ผ์ธ RL์ด๋‚˜ IL(๋ชจ๋ฐฉํ•™์Šต) ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๊ณ , ์ •์ฑ…์ด ๋”์šฑ ์ธ๊ฐ„์Šค๋Ÿฌ์šด ๋™์ž‘์„ ํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ teleoperation ์‹œ์Šคํ…œ์—์„œ ์–ป์€ ์ธ๊ฐ„-๋กœ๋ด‡ ์† ๋™์ž‘ ์ง(pair) ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋ฆฌํƒ€๊ฒŒํŒ… ํ•™์Šต์ด๋‚˜ ์ดˆ๊ธฐ ์ •์ฑ… ๊ตฌ์„ฑ์— ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์ถ”๊ฐ€์ ์ธ ์•ˆ์ „ ๋ฐ ์ œ์•ฝ ์š”์†Œ ํ†ตํ•ฉ: ๋กœ๋ด‡ ์†์ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ๋™์ž‘ํ•˜๋ ค๋ฉด, ๋‹จ์ˆœ ์„ฑ๊ณต๋ฅ ๋ฟ ์•„๋‹ˆ๋ผ ์•ˆ์ „์„ฑ๋„ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ •์ฑ… ํ•™์Šต ์‹œ ๋กœ๋ด‡ ์†์˜ ์ถฉ๋Œ ํšŒํ”ผ๋‚˜ ํž˜ ์ œ์–ด ์•ˆ์ •์„ฑ ๋“ฑ์˜ ์ œ์•ฝ์„ ๋ชจ๋ธ์— ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ๋„ ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์†๊ฐ€๋ฝ ๋์— ๊ณผ๋„ํ•œ ํž˜์ด ๊ฐ€ํ•ด์ง€๋ฉด ๊ฐ์ง€ํ•˜์—ฌ ๋†“์•„์ฃผ๋„๋ก ํ•˜๊ฑฐ๋‚˜, ํ…Œ์ด๋ธ”๊ณผ ๋ถ€๋”ชํžˆ์ง€ ์•Š๋„๋ก ํ•™์Šต์— ํŽ˜๋„ํ‹ฐ๋ฅผ ์ฃผ๋Š” ๋“ฑ ํ˜„์‹ค์ ์ธ ์ œ์•ฝ์„ ๋„ฃ์œผ๋ฉด, ์‹ค์ œ ์ ์šฉ์— ํ•œ์ธต ๊ฐ€๊นŒ์›Œ์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, Cross-Embodiment Dexterous Grasping with RL ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์†์— ๊ฑธ์ณ ํ†ตํ•ฉ์ ์œผ๋กœ ๋™์ž‘ํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€ ์„ ๊ตฌ์ ์ธ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๋ฐฐ๊ฒฝ์˜ ๋‚œ์ œ๋ถ€ํ„ฐ ์ œ์•ˆ ๊ธฐ๋ฒ•, ์‹คํ—˜ ๊ฒ€์ฆ๊นŒ์ง€ ๋…ผ๋ฆฌ์ ์ด๊ณ  ๋ช…ํ™•ํ•˜๊ฒŒ ์ „๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๋กœ๋ด‡๊ณตํ•™ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์ด ๋ฐฉํ–ฅ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ง€์†๋˜์–ด, ์‚ฌ๋žŒ ์†์ฒ˜๋Ÿผ ์œ ์—ฐํ•˜๊ณ  ๋ฒ”์šฉ์ ์ธ ๋กœ๋ด‡ ์† ์กฐ์ž‘ ์ •์ฑ…์ด ์‹คํ˜„๋˜๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•ด๋ด…๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee