Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 ํ•ต์‹ฌ ์•„์ด๋””์–ด ๋ฐ ๋ฌธ์ œ ์„ค์ •
    • 2.2 ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์„ฑ
    • 2.3 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ๋ฐฉ๋ฒ•์˜ ๊ตฌ์ฒด์  ๋ถ„์„
    • 2.4 ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„ โ€“ ๋ฐ์ดํ„ฐ์…‹, ๋น„๊ต ๋Œ€์ƒ, ์„ฑ๋Šฅ ์ง€ํ‘œ ํ‰๊ฐ€
    • 2.5 ๊ฐ•์ ๊ณผ ํ•œ๊ณ„, ํ–ฅํ›„ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ

๐Ÿ“ƒGrasp as You Say ๋ฆฌ๋ทฐ

llm
retargeting
Language-guided Dexterous Grasp Generation
Published

August 14, 2025

  • Paper Link
  • Project Link
  • Code Link
  1. ๐Ÿค– ๋ณธ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡์ด ์ž์—ฐ์–ด ๋ช…๋ น์— ๋”ฐ๋ผ ์ •๊ตํ•œ ์กฐ์ž‘(dexterous grasping)์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ์ธ DexGYS๋ฅผ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ์œ„ํ•ด ์–ธ์–ด ์•ˆ๋‚ด๊ฐ€ ํฌํ•จ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ DexGYSNet์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.
  2. ๐Ÿ“š DexGYSNet์€ ์ธ๊ฐ„-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋ฆฌํƒ€๊ฒŸํŒ…(HOIR) ๋ฐ LLM(Large Language Model) ์ง€์› ์–ธ์–ด ์ฃผ์„ ์‹œ์Šคํ…œ์„ ํ™œ์šฉํ•˜์—ฌ ๋น„์šฉ ํšจ์œจ์ ์œผ๋กœ ๊ตฌ์ถ•๋˜์—ˆ์œผ๋ฉฐ, 5๋งŒ ์Œ์˜ ๊ณ ํ’ˆ์งˆ ๋ฑ์Šคํ„ฐ๋Ÿฌ์Šค ๊ทธ๋žฉ ๋ฐ์ดํ„ฐ์™€ ํ•ด๋‹น ์–ธ์–ด ์ง€์‹œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿง  ๋˜ํ•œ, ์˜๋„ ์ผ์น˜, ๋†’์€ ๋‹ค์–‘์„ฑ, ๊ณ ํ’ˆ์งˆ ๊ทธ๋žฉ ์ƒ์„ฑ์„ ์œ„ํ•œ DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋Š” ๋ณต์žกํ•œ ํ•™์Šต ๊ณผ์ •์„ ๋‘ ๊ฐ€์ง€ ์ ์ง„์  ๋ชฉํ‘œ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ธฐ์กด ์ตœ์‹  ๋ฐฉ๋ฒ•๋ก  ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

1 Brief Review

์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡์ด ์ž์—ฐ์–ด ๋ช…๋ น์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ •๊ตํ•œ(dexterous) ๊ทธ๋ฆฝ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ์ธ โ€œ์–ธ์–ด๋ฅผ ํ†ตํ•œ ์ •๊ตํ•œ ๊ทธ๋ฆฝ(Dexterous Grasp as You Say, DexGYS)โ€์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ„์•ผ์˜ ๋ฐœ์ „์„ ๊ฐ€๋กœ๋ง‰๋Š” ์ฃผ์š” ์žฅ์• ๋ฌผ์€ ์ž์—ฐ์–ด ์•ˆ๋‚ด๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ€์กฑ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ๊ณ ํ’ˆ์งˆ์˜ ์ •๊ตํ•œ ๊ทธ๋ฆฝ ์ฃผ์„๊ณผ ์œ ์—ฐํ•˜๊ณ  ์„ธ๋ฐ€ํ•œ ์ธ๊ฐ„ ์–ธ์–ด ์•ˆ๋‚ด๋ฅผ ์ œ๊ณตํ•˜๋Š” ์–ธ์–ด ์•ˆ๋‚ด ์ •๊ตํ•œ ๊ทธ๋ฆฝ ๋ฐ์ดํ„ฐ์…‹์ธ DexGYSNet์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

DexGYSNet ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•:

DexGYSNet์€ ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ๊ตฌ์ถ•๋ฉ๋‹ˆ๋‹ค.

  1. Hand-Object Interaction Retargeting (HOIR): ์‰ฝ๊ฒŒ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ธ๊ฐ„์˜ ์†-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡์˜ ์ •๊ตํ•œ ์†์— ์žฌํƒ€๊ฒŸํŒ…ํ•˜์—ฌ ์ ‘์ด‰ ์ผ๊ด€์„ฑ๊ณผ ๊ณ ํ’ˆ์งˆ ๊ทธ๋ฆฝ ์ž์„ธ๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. HOIR ์ „๋žต์€ ์„ธ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:
    • ์ž์„ธ ์ดˆ๊ธฐํ™”(pose initialization): ์ธ๊ฐ„ ์ž์„ธ์˜ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋กœ๋ถ€ํ„ฐ ์ •๊ตํ•œ ์† ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ณต์‚ฌํ•˜์—ฌ ์ดˆ๊ธฐ๊ฐ’์„ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์†๊ฐ€๋ฝ ๋ ์ •๋ ฌ(fingertip alignment): ์ •๊ตํ•œ ์† ์ž์„ธ๋ฅผ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„์—์„œ ์ตœ์ ํ™”ํ•˜์—ฌ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜๋ฅผ ์ธ๊ฐ„์˜ ์†๊ณผ ์ •๋ ฌ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ์˜ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋‹ฌ์„ฑ๋ฉ๋‹ˆ๋‹ค: \min_{G_{dex}=(r,t,q)} \sum_k \|p_{dex,ft_k} - p_{mano,ft_k}\|_2^2 ์—ฌ๊ธฐ์„œ p_{dex,ft_k}๋Š” ์ •๊ตํ•œ ์†์˜ k๋ฒˆ์งธ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜๋ฅผ, p_{mano,ft_k}๋Š” MANO ๋ชจ๋ธ์˜ k๋ฒˆ์งธ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์ƒํ˜ธ์ž‘์šฉ ์ •์ œ(interaction refinement): ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์˜ ํƒ€๋‹น์„ฑ์„ ๋†’์ด๊ณ  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ •๊ตํ•œ ์† ์ž์„ธ๋ฅผ ์ถ”๊ฐ€๋กœ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์ ‘์ด‰ ์˜์—ญ์„ ์ด์ „ ๋‹จ๊ณ„์˜ ์ถœ๋ ฅ๊ณผ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€ํ•˜๊ณ  ์ด๋™(translation)์„ ๊ณ ์ •์‹œํ‚ต๋‹ˆ๋‹ค. ์ตœ์ ํ™” ๋ชฉ์  ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: \min_{(r,q)} (\lambda_{1pen}L_{pen} + \lambda_{1spen}L_{spen} + \lambda_{1joint}L_{joint} + \lambda_{1cmap}L_{cmap}) ์—ฌ๊ธฐ์„œ L_{pen}์€ ๊ฐ์ฒด ์นจํˆฌ ์†์‹ค(object penetration loss), L_{spen}์€ ์ž๊ธฐ-์นจํˆฌ ์†์‹ค(self-penetration loss), L_{joint}๋Š” ๊ด€์ ˆ ๊ฐ๋„ ์†์‹ค(joint angle loss), L_{cmap}์€ ์ ‘์ด‰ ๋งต ์†์‹ค(contact map loss)์ž…๋‹ˆ๋‹ค. ๊ฐ ์†์‹ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:
      • ๊ฐ์ฒด ์นจํˆฌ ์†์‹ค L_{pen}: \sum_i I(dsdf_i > 0) \cdot dsdf_i, ์—ฌ๊ธฐ์„œ dsdf_i๋Š” ๊ฐ์ฒด ์ ์œผ๋กœ๋ถ€ํ„ฐ ์† ๋ฉ”์‹œ๊นŒ์ง€์˜ ๋ถ€ํ˜ธํ™”๋œ ๊ฑฐ๋ฆฌ์ž…๋‹ˆ๋‹ค.
      • ์ž๊ธฐ-์นจํˆฌ ์†์‹ค L_{spen}: \sum_{i,j}I(i=j) \cdot \max(0, \delta - d(p_{dex,sp_i}, p_{dex,sp_j})), ์—ฌ๊ธฐ์„œ p_{dex,sp}๋Š” ์†์— ๋ฏธ๋ฆฌ ์ •์˜๋œ ์•ต์ปค ์Šคํ”ผ์–ด์ด๋ฉฐ, \delta๋Š” ์ž„๊ณ„๊ฐ’์ž…๋‹ˆ๋‹ค. (๋…ผ๋ฌธ์— ์ œ์‹œ๋œ I(i=j) ํ‘œ๊ธฐ๋Š” ํ†ต์ƒ์ ์ธ ์ž๊ธฐ-์นจํˆฌ ์†์‹ค ํ‘œํ˜„๊ณผ ๋‹ค์†Œ ์ƒ์ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.)
      • ๊ด€์ ˆ ๊ฐ๋„ ์†์‹ค L_{joint}: \sum_i(\max(0, q_i - q_{max_i}) + \max(0, q_{min_i} - q_i)), ์—ฌ๊ธฐ์„œ q_i๋Š” ๊ด€์ ˆ ๊ฐ๋„, q_{max_i}์™€ q_{min_i}๋Š” ๊ฐ๊ฐ ์ตœ๋Œ€ ๋ฐ ์ตœ์†Œ ๊ด€์ ˆ ๊ฐ๋„์ž…๋‹ˆ๋‹ค.
      • ์ ‘์ด‰ ๋งต ์†์‹ค L_{cmap}: \sum_i\|c_{obj_i} - \hat{c}_{obj_i}\|_2^2, ์—ฌ๊ธฐ์„œ c_{obj_i}๋Š” ๋Œ€์ƒ ์ ‘์ด‰ ๋งต, \hat{c}_{obj_i}๋Š” ์˜ˆ์ธก๋œ ์ ‘์ด‰ ๋งต์ž…๋‹ˆ๋‹ค.
  2. LLM-assisted Language Guidance Annotation: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋„์›€์„ ๋ฐ›์•„ ์œ ์—ฐํ•˜๊ณ  ์„ธ๋ฐ€ํ•œ ์–ธ์–ด ์•ˆ๋‚ด ์ฃผ์„์„ ์ƒ์„ฑํ•˜๋Š” coarse-to-fine ์ž๋™ ์ฃผ์„ ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ๊ฐ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ์™€ ๊ฐ„๋žตํ•œ ์ธ๊ฐ„ ์˜๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ„๋žตํ•œ ์•ˆ๋‚ด๋ฅผ ์ƒ์„ฑํ•œ ๋‹ค์Œ, ๊ฐ ์†๊ฐ€๋ฝ์˜ ์ ‘์ด‰ ์ •๋ณด๋ฅผ ์–ธ์–ด ์„ค๋ช…์ž๋กœ ๊ตฌ์„ฑํ•˜๊ณ , ์ตœ์ข…์ ์œผ๋กœ ์ด ์ •๋ณด๋“ค์„ GPT-3.5์— ์ž…๋ ฅํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ฃผ์„ ์•ˆ๋‚ด๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ:

DexGYSNet ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ €์ž๋“ค์€ ์˜๋„ ์ •๋ ฌ, ๊ณ ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ์„ ๋ณด์žฅํ•˜๋Š” DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ณต์žกํ•œ ํ•™์Šต ๊ณผ์ •์„ ๋‘ ๊ฐ€์ง€ ๊ด€๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ ์ง„์  ๋ชฉํ‘œ๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ์ด๋ฅผ ์‹คํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค.

์ ์ง„์  ๊ทธ๋ฆฝ ๋ชฉํ‘œ (Progressive Grasp Objectives):

๋‹จ์ผ ๋ชจ๋ธ์ด ์˜๋„ ์ •๋ ฌ, ๋‹ค์–‘์„ฑ, ๊ณ ํ’ˆ์งˆ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ์š”๊ตฌ์‚ฌํ•ญ์„ ๋™์‹œ์— ์ถฉ์กฑํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํŠนํžˆ ์†-๊ฐ์ฒด ์นจํˆฌ๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์นจํˆฌ ์†์‹ค(L_{pen})์ด ๋‹ค์–‘์„ฑ๊ณผ ์˜๋„ ์ •๋ ฌ์„ ์ €ํ•ดํ•˜๋Š” ๋ฌธ์ œ์— ์ฃผ๋ชฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค:

  1. ์ƒ์„ฑ์  ๋ชฉํ‘œ: ๊ทธ๋ฆฝ ๋ถ„ํฌ ํ•™์Šต์— ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ํ’ˆ์งˆ๋ณด๋‹ค๋Š” ์˜๋„ ์ •๋ ฌ๊ณผ ์ƒ์„ฑ ๋‹ค์–‘์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, ์นจํˆฌ ์†์‹ค์˜ ์ œ์•ฝ ์—†์ด ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  2. ํšŒ๊ท€์  ๋ชฉํ‘œ: ์ดˆ๊ธฐ ๊ฑฐ์นœ ๊ทธ๋ฆฝ์„ ๋™์ผํ•œ ์˜๋„์™€ ๋‹ค์–‘์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ณ ํ’ˆ์งˆ ๊ทธ๋ฆฝ์œผ๋กœ ์ •์ œํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์นจํˆฌ ์†์‹ค์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ์ฒด ์นจํˆฌ๋ฅผ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

์ ์ง„์  ๊ทธ๋ฆฝ ๊ตฌ์„ฑ ์š”์†Œ (Progressive Grasp Components):

์ด๋Ÿฌํ•œ ์ ์ง„์  ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค:

  1. ์˜๋„ ๋ฐ ๋‹ค์–‘์„ฑ ๊ทธ๋ฆฝ ๊ตฌ์„ฑ ์š”์†Œ (Intention and Diversity Grasp Component, IDGC):
    • ๊ทธ๋ฆฝ ๋ถ„ํฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ  ์˜๋„ ์ •๋ ฌ ๋ฐ ๋‹ค์–‘ํ•œ ์ƒ์„ฑ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์กฐ๊ฑด๋ถ€ ํ™•์‚ฐ ๋ชจ๋ธ(conditional diffusion model)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
    • ์ž…๋ ฅ์œผ๋กœ ๊ฐ์ฒด ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ(O)๋Š” PointNet++ [45]๋กœ ์ธ์ฝ”๋”ฉ๋˜๊ณ , ์–ธ์–ด ์•ˆ๋‚ด(L)๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ CLIP ๋ชจ๋ธ [46]๋กœ ์ธ์ฝ”๋”ฉ๋˜์–ด ์กฐ๊ฑด๋ถ€ ์ •๋ณด๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • DDPM [47]์„ ์ƒ˜ํ”Œ๋ง ํ”„๋กœ์„ธ์Šค๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •ํ˜•ํ™”๋ฉ๋‹ˆ๋‹ค: p_{\theta}(G_{dex0} | O, L) = p(G_T) \prod_{t=1}^T p(G_{t-1} | G_t, O, L) ์—ฌ๊ธฐ์„œ G_{dex0}๋Š” ์›๋ž˜์˜ ๊ทธ๋ฆฝ ์ž์„ธ, G_T๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ์ž์„ธ, G_t๋Š” ์ค‘๊ฐ„ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์ž์„ธ์ž…๋‹ˆ๋‹ค.
    • ํ•™์Šต ์‹œ์—๋Š” ํšŒ๊ท€ ์†์‹ค๋งŒ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์นจํˆฌ ์†์‹ค์€ ์˜๋„ ์ผ๊ด€์„ฑ๊ณผ ๊ทธ๋ฆฝ ๋‹ค์–‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ฐฐ์ œ๋ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: L_{IDG} = \lambda_{2para}L_{para}(G_{dex0}, \hat{G}_{dex}) + \lambda_{2chamfer}L_{chamfer}(H(G_{dex0}), H(\hat{G}_{dex})) ์—ฌ๊ธฐ์„œ L_{para}๋Š” ์ž์„ธ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ MSE ์†์‹ค์ด๋ฉฐ, L_{chamfer}๋Š” ์† ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์— ๋Œ€ํ•œ Chamfer Distance ์†์‹ค์ž…๋‹ˆ๋‹ค.
  2. ํ’ˆ์งˆ ๊ทธ๋ฆฝ ๊ตฌ์„ฑ ์š”์†Œ (Quality Grasp Component, QGC):
    • ์ฒซ ๋ฒˆ์งธ ๊ตฌ์„ฑ ์š”์†Œ์—์„œ ์ƒ์„ฑ๋œ ๊ฑฐ์นœ ๊ทธ๋ฆฝ์€ ์˜๋„๋Š” ์ž˜ ์ •๋ ฌ๋˜๊ณ  ๋‹ค์–‘ํ•˜์ง€๋งŒ, ๊ฐ์ฒด ์นจํˆฌ๊ฐ€ ์‹ฌํ•˜์—ฌ ํ’ˆ์งˆ์ด ์ข‹์ง€ ์•Š์Šต๋‹ˆ๋‹ค. QGC๋Š” ์ด๋Ÿฌํ•œ ๊ฑฐ์นœ ๊ทธ๋ฆฝ(\hat{G}_{dex})์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ’ˆ์งˆ์„ ์ •์ œํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • ์ž…๋ ฅ์œผ๋กœ ๊ฑฐ์นœ ์ž์„ธ \hat{G}_{dex}, ๊ฑฐ์นœ ์† ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ H(\hat{G}_{dex}) ๋ฐ ๊ฐ์ฒด ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ O๋ฅผ ๋ฐ›์œผ๋ฉฐ, \Delta G_{dex}๋ฅผ ์ถœ๋ ฅํ•˜์—ฌ ์ •์ œ๋œ ๊ทธ๋ฆฝ \tilde{G}_{dex} = \hat{G}_{dex} + \Delta G_{dex}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค.
    • ํ•™์Šต ์Œ์€ IDGC๊ฐ€ ์ƒ์„ฑํ•œ ๊ฑฐ์นœ ๊ทธ๋ฆฝ๊ณผ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๊ทธ๋ผ์šด๋“œ-ํŠธ๋ฃจ์Šค ๊ทธ๋ฆฝ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด, ์ •์ œ๋œ ๊ทธ๋ฆฝ์ด ์˜๋„๋œ ํ–‰๋™๊ณผ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์นจํˆฌ ์†์‹ค์„ ํฌํ•จํ•œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: L_{QG} = \lambda_{3para}L_{para} + \lambda_{3chamfer}L_{chamfer} + \lambda_{3pen}L_{pen} + \lambda_{3cmap}L_{cmap} + \lambda_{3spen}L_{spen} ์—ฌ๊ธฐ์„œ \lambda๋Š” ๊ฐ ์†์‹ค ํ•ญ์˜ ๊ฐ€์ค‘์น˜์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ:

DexGYSNet ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์ด ๋‹ค์–‘ํ•œ ๊ฐ์ฒด์— ๋Œ€ํ•ด ์˜๋„ ์ผ๊ด€์„ฑ, ๋†’์€ ๋‹ค์–‘์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ๊ทธ๋ฆฝ ์ž์„ธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์ตœ์ฒจ๋‹จ(SOTA) ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์˜๋„ ์ผ๊ด€์„ฑ๊ณผ ๊ทธ๋ฆฝ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๊ทธ๋ฆฝ ํ’ˆ์งˆ ์ธก๋ฉด์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์นจํˆฌ ์†์‹ค์˜ ์˜ํ–ฅ์— ๋Œ€ํ•œ ์ •๋Ÿ‰์  ๋ถ„์„๊ณผ ์ ์ง„์  ๊ตฌ์„ฑ ์š”์†Œ ๋ฐ ์†์‹ค์˜ ํ•„์š”์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ์–ด๋ธ”๋ ˆ์ด์…˜ ์—ฐ๊ตฌ๋Š” ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ๋ ฅ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, HOIR ์ „๋žต์˜ ํšจ๊ณผ์„ฑ๊ณผ ๋‹ค๋ฅธ SOTA ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ํ”Œ๋Ÿฌ๊ทธ-์•ค-ํ”Œ๋ ˆ์ด(Plug-and-play) ๊ฐ€๋Šฅ์„ฑ๋„ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์„ธ๊ณ„ ์‹คํ—˜์—์„œ๋Š” Allegro hand, Flexiv Rizon 4 ์•”, Intel Realsense D415 ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์˜ ์‹ค์šฉ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡์ด ์ธ๊ฐ„ ์–ธ์–ด์— ๋งž์ถฐ ๊ณ ํ’ˆ์งˆ์˜ ์ •๊ตํ•œ ๊ทธ๋ฆฝ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” โ€œDexterous Grasp as You Sayโ€๋ผ๋Š” ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋ฅผ ํƒ๊ตฌํ•˜๊ณ , ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ์…‹ DexGYSNet๊ณผ ์ ์ง„์  ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ DexGYSGrasp๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ์„ ์ด‰์ง„ํ•˜๊ณ  ๋กœ๋ด‡์˜ ์‹ค์ œ ํ™˜๊ฒฝ ๋ฐฐํฌ๋ฅผ ๊ฐ€์†ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค.


2 Detail Review

Grasp as You Say: ์–ธ์–ด๋กœ ์•ˆ๋‚ดํ•˜๋Š” ๋‹ค์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ ๊ทธ๋ฆฝ ์ƒ์„ฑ โ€“ NeurIPS 2024 ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

2.1 ํ•ต์‹ฌ ์•„์ด๋””์–ด ๋ฐ ๋ฌธ์ œ ์„ค์ •

๋‹ค์ง€ ๋กœ๋ด‡ ์†์„ ์ด์šฉํ•œ ์„ฌ์„ธํ•œ ํŒŒ์ง€(dexterous grasping)๋ฅผ ์‚ฌ๋žŒ์˜ ์ž์—ฐ์–ด ์ง€์‹œ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ โ€œDexterous Grasp as You Say (DexGYS)โ€๋ฅผ ์ œ์•ˆํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ๊ทธ๋ฆฝ ์•ˆ์ •์„ฑ ํ™•๋ณด์— ์ง‘์ค‘ํ–ˆ์ง€๋งŒ, ์‚ฌ๋žŒ ์˜๋„์— ๋งž๋Š” ์„ฌ์„ธํ•œ ํŒŒ์ง€์—๋Š” ๋ฏธ์น˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด์ „ ์ž‘์—…๋“ค์€ ๋กœ๋ด‡ ์†์ด ๋ฌผ์ฒด๋ฅผ ๋–จ์–ด๋œจ๋ฆฌ์ง€ ์•Š๋„๋ก ์žก๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋‚˜, โ€œ์†์žก์ด๋ฅผ ๊ฒ€์ง€๋กœ ๋ˆŒ๋Ÿฌ ์žก์•„๋ผโ€์™€ ๊ฐ™์ด ํŠน์ • ๋ฐฉ์‹์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ธ๊ฐ„์˜ ์˜๋„๋ฅผ ๋ฐ˜์˜ํ•˜์ง€๋Š” ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ ๊ณผ์—… ์ง€ํ–ฅ ๋˜๋Š” ๊ธฐ๋Šฅ ์ง€ํ–ฅ ๋‹ค์ง€ ํŒŒ์ง€ ์—ฐ๊ตฌ๋“ค์ด ๋“ฑ์žฅํ–ˆ์ง€๋งŒ, ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ํ•œ์ •์  ์ž‘์—…๋“ค๋งŒ ๋Œ€์‘ํ•˜์—ฌ ์œ ์—ฐ์„ฑ๊ณผ ๋ฒ”์šฉ์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค.

DexGYS ๊ณผ์ œ๋Š” ์‚ฌ๋žŒ์ด ์ž์—ฐ์–ด๋กœ ์„ค๋ช…ํ•˜๋Š” ์œ ์—ฐํ•˜๊ณ  ์„ธ๋ถ„ํ™”๋œ ํŒŒ์ง€ ์˜๋„๋ฅผ ๋กœ๋ด‡ ์†์ด ๊ทธ๋Œ€๋กœ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ ์„ค์ •์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š”, ๋กœ๋ด‡์—๊ฒŒ ์–ธ์–ด๋กœ ์˜๋„๋ฅผ ์ „๋‹ฌํ•˜์—ฌ ์ธ๊ฐ„๊ณผ ๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๊ณ , ๋กœ๋ด‡ ๋‹ค์ง€ ์†์˜ ์ž ์žฌ๋ ฅ์„ ์˜๋„ ๊ธฐ๋ฐ˜์˜ ์ธ๊ฐ„์œ ์‚ฌ ํŒŒ์ง€๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์ƒˆ๋กœ์šด ๊ณผ์ œ์—๋Š” ๋‘ ๊ฐ€์ง€ ํฐ ๋„์ „์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ์ž์—ฐ์–ด ์ง€์‹œ๊ฐ€ ํฌํ•จ๋œ ๋‹ค์ง€ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์ง€ ์†์˜ ์ž์„ธ์™€ ๊ทธ์— ๋Œ€์‘๋˜๋Š” ์‚ฌ๋žŒ์˜ ์–ธ์–ด ์ง€์‹œ๋ฅผ ๋™์‹œ์— ๊ณ ํ’ˆ์งˆ๋กœ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ์ด ๋งค์šฐ ๋†’๊ณ  ๋ฒˆ๊ฑฐ๋กญ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์— ์–ธ์–ด์™€ ๊ฒฐํ•ฉ๋œ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹์ด ์—†๊ธฐ ๋•Œ๋ฌธ์—, ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ž์ฒด๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์˜๋„ ์ •ํ•ฉ์„ฑ, ํŒŒ์ง€ ํ’ˆ์งˆ(์•ˆ์ •์„ฑ), ๋‹ค์–‘์„ฑ์„ ๋ชจ๋‘ ๋งŒ์กฑํ•˜๋Š” ๋กœ๋ด‡ ์† ์ž์„ธ๋ฅผ ๋™์‹œ์— ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‹ค์ง€ ์†์ด ๋ฌผ์ฒด๋ฅผ ๊ด€ํ†ตํ•˜์ง€ ์•Š๋„๋ก ํ•˜๋Š” penetration loss๋ฅผ ํ•™์Šต์— ๋„ฃ์œผ๋ฉด ํŒŒ์ง€ ํ’ˆ์งˆ์€ ์ข‹์•„์ง€์ง€๋งŒ ์˜คํžˆ๋ ค ์˜๋„์—์„œ ๋ฒ—์–ด๋‚˜๊ฑฐ๋‚˜ ๋‹ค์–‘์„ฑ์ด ๊ฐ์†Œํ•˜๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ๋ฅผ ์—†์• ๋ฉด ์†๊ฐ€๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ๋šซ๊ณ  ์ง€๋‚˜๊ฐ€๋Š” ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•œ ํŒŒ์ง€๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๋•Œ๋ฌธ์— ์˜๋„-ํ’ˆ์งˆ-๋‹ค์–‘์„ฑ์„ ํ•œ๊บผ๋ฒˆ์— ๋‹ฌ์„ฑํ•˜๊ธฐ๊ฐ€ ๊นŒ๋‹ค๋กœ์šด ๋ฌธ์ œ๊ฐ€ ์ œ๊ธฐ๋ฉ๋‹ˆ๋‹ค.

2.2 ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์„ฑ

์ด ๋…ผ๋ฌธ์˜ ๊ธฐ์—ฌ๋Š” ๋ฐ์ดํ„ฐ์…‹๋ถ€ํ„ฐ ๋ชจ๋ธ์— ์ด๋ฅด๋Š” ์ด์ฒด์  ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ์™€ ๊ธฐ์กด ์ž‘์—…๊ณผ์˜ ์ฐจ๋ณ„์„ฑ์„ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • ์„ธ๊ณ„ ์ตœ์ดˆ์˜ ์–ธ์–ด ์•ˆ๋‚ด ๋‹ค์ง€ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ์ €์ž๋“ค์€ DexGYSNet์ด๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด-๋‹ค์ง€ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ์ƒˆ๋กœ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ 1,800๊ฐœ ์ผ์ƒ ๋ฌผ์ฒด์— ๋Œ€ํ•ด 50,000์Œ์˜ ๋กœ๋ด‡ ์† ์ž์„ธ์™€ ์ธ๊ฐ„ ์ž์—ฐ์–ด ์ง€์‹œ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ „์—๋Š” ์ด๋Ÿฌํ•œ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์–ด ํ•™์Šต์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ๋Š”๋ฐ, DexGYSNet์€ LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)์„ ํ™œ์šฉํ•œ ํ…์ŠคํŠธ ์ฃผ์„ ์ƒ์„ฑ๊ณผ ์†-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ์žฌํƒ€๊นƒํŒ…(HOIR) ๊ธฐ๋ฒ•์œผ๋กœ ๋น„์šฉ ํšจ์œจ์ ์ด๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. HOIR ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ธ๊ฐ„ ์† ๋ชจ์…˜ ์บก์ฒ˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ์† ๋ชจ๋ธ๋กœ ์ „์ดํ•˜์—ฌ ์ ‘์ด‰ ์ง€์ ์˜ ์ผ์น˜์™€ ์ž์—ฐ์Šค๋Ÿฌ์šด ์† ์ž์„ธ๋ฅผ ์–ป์—ˆ๊ณ , LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ฃผ์„์œผ๋กœ ์„ธ๋ฐ€ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ‘œํ˜„์˜ ์–ธ์–ด ์ง€์‹œ๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ์ž‘์—…๋“ค์ด ์†Œ์ˆ˜์˜ ์ •ํ˜•ํ™”๋œ ์ง€์‹œ๋‚˜ ์ œํ•œ๋œ ๊ธฐ๋Šฅ๋งŒ ๋‹ค๋ฃฌ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์œ ์—ฐํ•˜๊ณ  ํ’๋ถ€ํ•œ ์–ธ์–ด-ํ–‰๋™ ์Œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜์Œ ์ œ๊ณตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์˜๋„ ์ •ํ•ฉ์„ฑ๊ณผ ํ’ˆ์งˆ์„ ๋ชจ๋‘ ๋งŒ์กฑํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒŒ์ง€ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ:** ๋ฐ์ดํ„ฐ์…‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์ €์ž๋“ค์€ DexGYSGrasp๋ผ๋Š” 2๋‹จ๊ณ„ ํŒŒ์ง€ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์— ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ๋ชจ๋“  ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ ค๋‹ค ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ๋กœ ์ธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ๊ฒช์—ˆ๋˜ ์ ‘๊ทผ๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ๋‘ ๋‹จ๊ณ„๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” โ€œ์˜๋„ ๋ฐ ๋‹ค์–‘์„ฑ ํŒŒ์ง€ ์ƒ์„ฑ (IDGC: Intention & Diversity Grasp Component)โ€์œผ๋กœ, ์–ธ์–ด ์˜๋„์— ๋ถ€ํ•ฉํ•˜๋ฉด์„œ ๋‹ค์–‘ํ•œ ํŒŒ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ™•์‚ฐ ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๊ด€ํ†ต์— ๋Œ€ํ•œ ์ œ์•ฝ์„ ๊ณผ๊ฐํžˆ ์ œ์™ธํ•˜์—ฌ, ๋ชจ๋ธ์ด ์˜๋„ ์ •ํ•ฉํ•œ ๋‹ค์–‘ํ•œ ์† ์ž์„ธ ๋ถ„ํฌ๋ฅผ ์ž์œ ๋กญ๊ฒŒ ํ•™์Šตํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” โ€œํ’ˆ์งˆ ํ–ฅ์ƒ ํŒŒ์ง€ ์ƒ์„ฑ (QGC: Quality Grasp Component)โ€์œผ๋กœ, 1๋‹จ๊ณ„ ์ถœ๋ ฅ์ธ ๊ฑฐ์นœ ํŒŒ์ง€ ๊ฒฐ๊ณผ(coarse pose)๋ฅผ ๋ฐ›์•„ ๋ฏธ์„ธ ์กฐ์ •ํ•จ์œผ๋กœ์จ ์•ˆ์ •์ ์ด๊ณ  ๋ฌผ์ฒด๋ฅผ ๊ด€ํ†ตํ•˜์ง€ ์•Š๋Š” ๊ณ ํ’ˆ์งˆ ํŒŒ์ง€๋กœ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๊ด€ํ†ต ์†์‹ค๊ณผ ํ’ˆ์งˆ ๊ด€๋ จ ์†์‹ค์„ ์ ์šฉํ•˜์—ฌ ์†๊ฐ€๋ฝ๋“ค์ด ๋ฌผ์ฒด ํ‘œ๋ฉด์— ๋ฐ€์ฐฉ๋˜๋„๋ก ์กฐ์ •ํ•˜๋˜, ์†๋ฐ”๋‹ฅ์˜ ์œ„์น˜๋‚˜ ์ „์ฒด ์˜๋„๋Š” ์œ ์ง€ํ•˜์—ฌ ์ฒ˜์Œ ์˜๋„์—์„œ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ์ง„์  ํ•™์Šต ์ „๋žต์€ ๊ธฐ์กด ์—ฐ๊ตฌ์— ์—†๋˜ ๋ฐœ์ƒ์œผ๋กœ, ๋ณต์žกํ•œ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ๋‘˜๋กœ ์ชผ๊ฐœ์–ด ๊ฐ๊ฐ ํ•ด๊ฒฐํ•จ์œผ๋กœ์จ ์˜๋„-ํ’ˆ์งˆ-๋‹ค์–‘์„ฑ์„ ๋ชจ๋‘ ๋‹ฌ์„ฑํ•œ๋‹ค๋Š” ์ ์—์„œ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ํŠนํžˆ ๊ด€ํ†ต ์†์‹ค์„ 1๋‹จ๊ณ„์—์„œ ๋ฐฐ์ œํ•˜๊ณ  2๋‹จ๊ณ„์—์„œ๋งŒ ์ ์šฉํ•˜๋Š” ํ”„๋กœ๊ทธ๋ ˆ์‹œ๋ธŒ ํ•™์Šต ์•„์ด๋””์–ด๋กœ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ง๋ฉดํ–ˆ๋˜ ํ•™์Šต ์ƒ์ถฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๊ธฐ๋ฒ• ๋Œ€๋น„ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ ์ž…์ฆ: ์ œ์•ˆํ•œ DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹ค์–‘ํ•œ ๋น„๊ต ๋Œ€์ƒ(SOTA ๊ธฐ๋ฒ•)๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, GraspCVAE(ํ™•๋ฅ ์  ์ƒ์„ฑ๋ชจ๋ธ), GraspTTA(ํ…Œ์ŠคํŠธ์‹œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•), SceneDiffuser(ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜), DGTR(Transformer ๊ธฐ๋ฐ˜) ๋“ฑ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ์˜๋„ ์ •ํ•ฉ์„ฑ ์˜ค์ฐจ๊ฐ€ ๊ฐ€์žฅ ๋‚ฎ๊ณ  ํŒŒ์ง€ ์ž์„ธ์˜ ๋‹ค์–‘์„ฑ์€ ์›”๋“ฑํžˆ ๋†’์œผ๋ฉด์„œ๋„ ํŒŒ์ง€ ์•ˆ์ •์„ฑ๋„ ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต ์ „๋žต์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ๋‚ด๋ถ€ ์‹คํ—˜(์‚ญ์ œ ์‹คํ—˜)์—์„œ๋„, ์ œ์•ˆํ•œ 2๋‹จ๊ณ„ ๊ตฌ์„ฑ๊ณผ ์†์‹ค ์„ค๊ณ„๊ฐ€ ์—†์œผ๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์•…ํ™”๋จ์„ ๋ณด์—ฌ์ฃผ์–ด, ํ•ด๋‹น ์„ค๊ณ„๊ฐ€ ์ด ๋ฌธ์ œ์— ํ•„์ˆ˜์ ์ž„์„ ์ฆ๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๋ฌธ์ œ ์„ค์ •๊ณผ ํ•จ๊ป˜ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹, ๋ชจ๋ธ, ํ•™์Šต๋ฒ•์„ ๋ชจ๋‘ ์ œ์‹œํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ ์‚ฌ๋ก€ ์—ฐ๊ตฌ ๋ถ„์•ผ์—์„œ์˜ ์ƒˆ๋กœ์šด SOTA๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ๊ธฐ์ˆ ์  ์˜๋ฏธ๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค.

2.3 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ๋ฐฉ๋ฒ•์˜ ๊ตฌ์ฒด์  ๋ถ„์„

DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋‘ ๊ฐ€์ง€ ์ปดํฌ๋„ŒํŠธ(๋‹จ๊ณ„)๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ์ปดํฌ๋„ŒํŠธ(IDGC)๋Š” ์กฐ๊ฑด๋ถ€ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ์„œ, ๋ฌผ์ฒด์˜ ์  ๊ตฌ๋ฆ„(point cloud)๊ณผ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ์„ ์ž…๋ ฅ ๋ฐ›์•„ ๋กœ๋ด‡ ์†์˜ ํฌ์ฆˆ(์ž์„ธ ํŒŒ๋ผ๋ฏธํ„ฐ)๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋ฌผ์ฒด์˜ ํ˜•์ƒ ์ •๋ณด๋Š” PointNet++๋กœ ์ธ์ฝ”๋”ฉํ•˜๊ณ , ์–ธ์–ด ์ง€์‹œ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ CLIP ๋ชจ๋ธ๋กœ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ ์กฐ๊ฑด์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ๋ชจ๋ธ์€ DDPM (Denoising Diffusion Probabilistic Model) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋…ธ์ด์ฆˆ์—์„œ๋ถ€ํ„ฐ ์ ์ง„์ ์œผ๋กœ ์† ์ž์„ธ๋ฅผ ์ƒ์„ฑํ•ด๋ƒ…๋‹ˆ๋‹ค. ํ•œ๋งˆ๋””๋กœ, IDGC๋Š” โ€œ๋…ธ์ด์ฆˆ โ†’ ์† ํŒŒ์ง€ ์ž์„ธโ€๋กœ์˜ ๋ถ„ํฌ ์ƒ์„ฑ์„ ํ•™์Šตํ•˜๋Š” ๋ชจ๋“ˆ์ž…๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ ์†์‹ค ํ•จ์ˆ˜๋Š” L2 ํšŒ๊ท€ ์†์‹ค(์˜ˆ์ธกํ•œ ๊ด€์ ˆ ๊ฐ๋„ ๋“ฑ์ด ์‹ค์ œ ๊ฐ’๊ณผ ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก)๊ณผ ์† ๋ชจ์–‘ ์ฑ”ํผ ์†์‹ค(์˜ˆ์ธก ์† ๋ชจ๋ธ๊ณผ ์ •๋‹ต ์† ๋ชจ๋ธ ๊ฐ„์˜ Chamfer ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”)๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€, ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋ฌผ์ฒด์™€ ์†์˜ ๊ฒน์นจ(๊ด€ํ†ต)์— ๋Œ€ํ•œ ํŽ˜๋„ํ‹ฐ๋ฅผ ๋„ฃ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ด€ํ†ต ์ œ์•ฝ์ด ์—†์–ด์•ผ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž์„ธ๋ฅผ ์ž์œ ๋กญ๊ฒŒ ์‹œ๋„ํ•˜๋ฉฐ ์–ธ์–ด ์˜๋„์— ๋งž๋Š” ๊ฑฐ์นœ ํŒŒ์ง€ ํ˜•ํƒœ๋“ค์„ ํญ๋„“๊ฒŒ ์ตํž ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ IDGC๋Š” ์˜๋„ ์ •ํ•ฉ์„ฑ๊ณผ ๋‹ค์–‘์„ฑ์„ ์ตœ์šฐ์„ ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ ์ปดํฌ๋„ŒํŠธ(QGC)๋Š” Transformer ๊ธฐ๋ฐ˜์˜ ํ›„์ฒ˜๋ฆฌ ๋ชจ๋“ˆ๋กœ, 1๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋œ ๊ฑฐ์นœ ํŒŒ์ง€ ๊ฒฐ๊ณผ๋ฅผ ์„ธ๋ฐ€ ์กฐ์ •ํ•˜์—ฌ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ณ ํ’ˆ์งˆ ํŒŒ์ง€๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. QGC๋Š” ํšŒ๊ท€์  ์ ‘๊ทผ(regressive manner)์„ ์ทจํ•˜๋Š”๋ฐ, ๊ฑฐ์นœ ์† ์ž์„ธ์™€ ํ•ด๋‹น ์ƒํ™ฉ์˜ ๋ฌผ์ฒด/์† ์ ๊ตฌ๋ฆ„ ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋ฏธ์„ธ ์กฐ์ •๋œ ์ƒˆ๋กœ์šด ์† ์ž์„ธ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋Š” IDGC๋กœ ์ƒ์„ฑํ•œ ๊ฑฐ์นœ ํŒŒ์ง€ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด, ์œ ์‚ฌํ•œ ์˜๋„์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ์ •๋‹ต(grasp)์„ ํƒ€๊ฒŸ์œผ๋กœ ์ง์ง€์–ด ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ธ์–ด ์ง€์‹œ๊ฐ€ โ€œ์ปต์„ ์˜†๋ฉด์—์„œ ์ง‘๊ฒŒ์†๊ฐ€๋ฝ๊ณผ ์—„์ง€๋กœ ์ง‘์–ด๋ผโ€์ธ ๊ฒฝ์šฐ, IDGC ์ถœ๋ ฅ์ด ์ปต ์˜†๋ฉด์„ ํ–ฅํ•˜๊ณ  ์žˆ๋‹ค๋ฉด, ๊ทธ์™€ ์˜๋„์ ์œผ๋กœ ๋น„์Šทํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์˜ ์‹ค์ œ ๊ทธ๋ฆฝ ์ž์„ธ๋ฅผ ์ฐพ์•„ ๋ชฉํ‘œ ๊ฐ’์œผ๋กœ ์‚ผ์•„ QGC๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด QGC๊ฐ€ ์–ธ์–ด ์˜๋„์— ๋ถ€ํ•ฉํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋„๋ก ๋ณด์žฅํ•˜๋ฉด์„œ, ๋™์‹œ์— ํƒ€๊ฒŸ ํŒŒ์ง€๋ฅผ ๋ชจ๋ฐฉํ•˜๋ฉฐ ํ’ˆ์งˆ ํ–ฅ์ƒ์„ ๋ฐฐ์šฐ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. QGC์˜ ๋„คํŠธ์›Œํฌ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋ฌผ์ฒด์™€ ์†์˜ ๋ณตํ•ฉ ํŠน์ง•์„ ๊ณ ๋ คํ•˜๋ฉด์„œ ๊ด€์ ˆ ๊ฐ๋„ ๋“ฑ์„ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ํ•™์Šต ์‹œ ์†๋ฐ”๋‹ฅ์˜ ์œ„์น˜๋‚˜ ๋ฐฉํ–ฅ(6-์ž์œ ๋„ ๋ฃจํŠธ ํฌ์ฆˆ)๋Š” ํฌ๊ฒŒ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๊ณ  ๊ณ ์ •ํ•˜๊ฑฐ๋‚˜ ์ž‘์€ ๋ฒ”์œ„์—์„œ๋งŒ ์ˆ˜์ •ํ•˜๋„๋ก ํ•จ์œผ๋กœ์จ, ์ดˆ๊ธฐ ๊ฑฐ์นœ ํŒŒ์ง€์˜ ์˜๋„๋ฅผ ์œ ์ง€ํ•œ ์ฑ„ ์†๊ฐ€๋ฝ ๋ฐฐ์น˜๋งŒ ์ตœ์ ํ™”ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. QGC ๋‹จ๊ณ„์˜ ์†์‹ค ํ•จ์ˆ˜์—๋Š” ๋ฌผ์ฒด ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ๊ฐ€ ๋น„๋กœ์†Œ ํฌํ•จ๋˜๋ฉฐ, ๊ทธ ์™ธ์— ๋ชฉํ‘œ ํŒŒ์ง€์™€์˜ ํšŒ๊ท€ ์†์‹ค ๋“ฑ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ๋Š” ์† ๋ชจ๋ธ(mesh)๊ณผ ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ„ ๊ฐ„ ์ตœ๋Œ€ ๊ด€ํ†ต ๊นŠ์ด(P)๋ฅผ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ž‘์šฉํ•˜์—ฌ, ์ถœ๋ ฅ ์ž์„ธ์—์„œ ์†์ด ๋ฌผ์ฒด๋ฅผ ๋šซ๊ณ  ๋“ค์–ด๊ฐ€์ง€ ์•Š๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ QGC๋Š” ํ’ˆ์งˆ๋งŒ์„ ์ง‘์ค‘์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, 1๋‹จ๊ณ„์™€ ๋Œ€๋น„ํ•˜์—ฌ ํ›จ์”ฌ ์ข์€ ํƒ์ƒ‰ ๊ณต๊ฐ„(์ดˆ๊ธฐ ํŒŒ์ง€ ์ฃผ๋ณ€์˜ ์ž‘์€ ์กฐ์ •)์—์„œ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ ๋‘ ๋‹จ๊ณ„์˜ ๋ถ„๋ฆฌ ๋•๋ถ„์—, 1๋‹จ๊ณ„ IDGC๋Š” ์˜๋„์™€ ๋‹ค์–‘์„ฑ์— ํŠนํ™”๋˜์–ด ํ•™์Šตํ•˜๊ณ  2๋‹จ๊ณ„ QGC๋Š” ๋ฌผ๋ฆฌ์  ํƒ€๋‹น์„ฑ๊ณผ ์•ˆ์ •์„ฑ ํ™•๋ณด์— ์ฃผ๋ ฅํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํ”„๋กœ๊ทธ๋ ˆ์‹œ๋ธŒ ํ•™์Šต ์ „๋žต์œผ๋กœ ๊ฐ ๋‹จ๊ณ„์˜ ์ตœ์ ํ™” ๋ชฉํ‘œ๊ฐ€ ๋‹จ์ˆœํ™”๋˜์–ด, ๋‹จ์ผ ๋ชจ๋ธ๋กœ ํ•œ ๋ฒˆ์— ํ•™์Šตํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋˜ ์˜๋„-ํ’ˆ์งˆ ์ƒ์ถฉ ๋ฌธ์ œ๋ฅผ ํ•ด์†Œํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์˜ ์„ค๋ช…์— ๋”ฐ๋ฅด๋ฉด, ๋ชจ๋“  ์†์‹ค์„ ํ•œ ๋‹จ๊ณ„์— ๋™์‹œ์— ์ตœ์ ํ™”ํ•˜๋ ค ํ•˜๋ฉด ํ•œ ์ชฝ์„ ์ถฉ์กฑํ•˜๋ฉด ๋‹ค๋ฅธ ์ชฝ์ด ๋‚˜๋น ์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์ปธ์ง€๋งŒ, ๋‹จ๊ณ„๋ฅผ ๋‚˜๋ˆ„๊ณ  ์ ์ ˆํ•œ ์†์‹ค์„ ๋ฐฐ์น˜ํ•œ ๋•๋ถ„์— ์˜๋„ ์ •ํ•ฉ์„ฑ, ๊ทธ๋ฆฝ ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ ๋ชจ๋‘์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

ํ•œํŽธ, DexGYSNet ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๊ณผ์ •์˜ ๊ธฐ์ˆ ์  ์š”์†Œ๋„ ๋ˆˆ์—ฌ๊ฒจ๋ณผ ๋งŒํ•ฉ๋‹ˆ๋‹ค. HOIR(Human-to-robot Hand-Object Interaction Retargeting) ์ „๋žต์„ ํ†ตํ•ด ์‚ฌ๋žŒ ์† ๋™์ž‘์„ ๋กœ๋ด‡ ์†์œผ๋กœ ์˜ฎ๊ธธ ๋•Œ ์ ‘์ด‰ ์ง€์ ๊ณผ ํฌ์ฆˆ์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ์จ ๋กœ๋ด‡ ์†์ด ์‚ฌ๋žŒ์ด ์žก์€ ํ˜•ํƒœ๋ฅผ ์ตœ๋Œ€ํ•œ ๊ทธ๋Œ€๋กœ ๋ชจ์‚ฌํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์–ธ์–ด ์ฃผ์„์„ ๋‹ฌ๊ธฐ ์œ„ํ•ด GPT ๋“ฑ์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉ, ๊ฐ ํŒŒ์ง€์— ๋Œ€ํ•ด ์œ ์—ฐํ•˜๊ณ  ์ƒ์„ธํ•œ ์ž์—ฐ์–ด ์„ค๋ช…์„ ์ž๋™ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ ์† ์ž์„ธ์— ๋Œ€ํ•ด โ€œ๊ฒ€์ง€๋กœ ์Šคํ”„๋ ˆ์ด์˜ ๋ฐฉ์•„์‡ ๋ฅผ ๋ˆ„๋ฅด๋“ฏ์ด ์žก๋Š”๋‹คโ€์™€ ๊ฐ™์€ ๋ฌธ์žฅ์ด ์ฃผ์–ด์ง€๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ LLM ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์€ ์‚ฌ๋žŒ์„ ์ผ์ผ์ด ์ฐธ์—ฌ์‹œํ‚ค์ง€ ์•Š๊ณ ๋„ ๋‹ค์–‘ํ•œ ํ‘œํ˜„์˜ ์ง€์‹œ ๋ฌธ์žฅ์„ ๋ถ™์ผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด, ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ’๋ถ€ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ €๋น„์šฉ์œผ๋กœ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ๋ชจ๋ธ์˜ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์„ ๋ณด๋ฉด, 1๋‹จ๊ณ„ ํ™•์‚ฐ ๋ชจ๋ธ(IDGC)์€ ์•ฝ 100 epoch ๋™์•ˆ ํ•™์Šตํ•˜๊ณ , 2๋‹จ๊ณ„ QGC๋Š” 20 epoch ๋‚จ์ง“ ํ•™์Šตํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ƒ˜ํ”Œ๋ง ํŠน์„ฑ์ƒ ์—ฌ๋Ÿฌ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, ์‹คํ—˜์—์„œ๋Š” ํ•˜๋‚˜์˜ ์กฐ๊ฑด์— ๋Œ€ํ•ด 8๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ๋ฝ‘์•„ ๋‹ค์–‘์„ฑ์„ ํ‰๊ฐ€์— ํ™œ์šฉํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต์—๋Š” SGD ๋“ฑ์˜ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์ด ์“ฐ์˜€์œผ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(์˜ˆ: ๊ด€ํ†ต ์†์‹ค ๊ฐ€์ค‘์น˜๋Š” 2๋‹จ๊ณ„์—์„œ ์–ผ๋งˆ๋ฅผ ์‚ฌ์šฉ ๋“ฑ)๋Š” ๋…ผ๋ฌธ์— ๊ธฐ์ˆ ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜๋ฉด, DexGYSGrasp์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ + ํŠธ๋žœ์Šคํฌ๋จธ์˜ 2๋‹จ ๊ตฌ์กฐ, ์†์‹คํ•จ์ˆ˜์˜ ๋‹จ๊ณ„์  ์ ์šฉ, ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜ ์ง€๋„ํ•™์Šต์˜ ์กฐํ•ฉ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

2.4 ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„ โ€“ ๋ฐ์ดํ„ฐ์…‹, ๋น„๊ต ๋Œ€์ƒ, ์„ฑ๋Šฅ ์ง€ํ‘œ ํ‰๊ฐ€

DexGYSNet ๋ฐ์ดํ„ฐ์…‹์€ ์•ž์„œ ๋งํ•œ ๋Œ€๋กœ ์ด 50,000๊ฐœ์˜ (์–ธ์–ด ์ง€์‹œ, ๋กœ๋ด‡ ์† ํŒŒ์ง€ ์ž์„ธ) ํŽ˜์–ด๋กœ ์ด๋ฃจ์–ด์ง„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ์ฒด ์ธ์Šคํ„ด์Šค ์ˆ˜์ค€์—์„œ ๋ถ„๋ฆฌํ•˜์—ฌ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ™์€ ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋ฌผ์ฒด๋ผ๋„ ์ผ๋ถ€๋Š” ํ•™์Šต์šฉ, ๋‚˜๋จธ์ง€ 20%๋Š” ํ‰๊ฐ€์šฉ์œผ๋กœ ํ•˜์—ฌ, ๋ชจ๋ธ์ด ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„œ๋„ ํŒŒ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด๊ธฐ ์œ„ํ•จ์œผ๋กœ, ํŠน์ • ๋ฌผ์ฒด ๋ชจ์–‘๋งŒ ์™ธ์šฐ์ง€ ์•Š๊ณ  ์ƒˆ ๋ฌผ์ฒด์—๋„ ์–ธ์–ด ์ง€์‹œ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•œ์ง€๋ฅผ ํ‰๊ฐ€ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ์˜๋„ ์ •ํ•ฉ์„ฑ, ํŒŒ์ง€ ํ’ˆ์งˆ(์•ˆ์ •์„ฑ), ํŒŒ์ง€ ๋‹ค์–‘์„ฑ์˜ ์„ธ ์ธก๋ฉด์—์„œ ์„ค์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜๋„ ์ •ํ•ฉ์„ฑ์€ ์˜ˆ์ธกํ•œ ๋กœ๋ด‡ ์†์˜ ํ˜•ํƒœ๊ฐ€ ๋ชฉํ‘œ ์˜๋„์™€ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, Chamfer ๊ฑฐ๋ฆฌ์™€ Contact distance ๋‘ ๊ฐ€์ง€๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. Chamfer ๊ฑฐ๋ฆฌ๋Š” ์˜ˆ์ธกํ•œ ์† ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹ ์ •๋‹ต ์† ๋ชจ๋ธ ๊ฐ„ ์ ๊ตฌ๋ฆ„ ๊ฑฐ๋ฆฌ๋กœ, ๊ฐ’์ด ์ž‘์„์ˆ˜๋ก ์†์˜ ํ˜•ํƒœ๊ฐ€ ์ •๋‹ต๊ณผ ๋น„์Šทํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Contact distance๋Š” ์˜ˆ์ธก ์†๊ณผ ์ •๋‹ต ์†์ด ๋ฌผ์ฒด๋ฅผ ์ ‘์ด‰ํ•œ ์ง€์ ๋“ค์˜ ๋ถ„ํฌ ์ฐจ์ด๋ฅผ L2 ๊ฑฐ๋ฆฌ๋กœ ์ธก์ •ํ•œ ๊ฒƒ์œผ๋กœ, ์ด๊ฒƒ ์—ญ์‹œ ๋‚ฎ์„์ˆ˜๋ก ์ ‘์ด‰ ํŒจํ„ด์ด ์œ ์‚ฌํ•จ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด Chamfer์™€ Contact ์ง€ํ‘œ๊ฐ€ ์ž‘์œผ๋ฉด, โ€œ๋กœ๋ด‡ ์†์ด ์žก์€ ๋ชจ์–‘๊ณผ ์œ„์น˜๊ฐ€ ์‚ฌ๋žŒ์ด ์˜๋„ํ•œ ๊ทธ๊ฒƒ์— ๊ฐ€๊น๋‹คโ€๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŒŒ์ง€ ํ’ˆ์งˆ์€ ์•ˆ์ •์ ์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก์•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, Q1 ์ง€ํ‘œ์™€ ๊ด€ํ†ต ๊นŠ์ด(P)๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. Q1์€ DexGraspNet ๋…ผ๋ฌธใ€15โ€ ใ€‘์—์„œ ์ •์˜๋œ ์ง€ํ‘œ๋กœ์„œ, ์ผ์ • ๊ธฐ์ค€(์ถฉ๋ถ„ํ•œ ์ ‘์ด‰๋ฉด์ , ํ—ˆ์šฉ ๊ด€ํ†ต๋ฒ”์œ„ ๋“ฑ)์„ ๋งŒ์กฑํ•˜๋Š” ์„ฑ๊ณต ๊ทธ๋ฆฝ์˜ ๋น„์œจ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ’์ด ๋†’์„์ˆ˜๋ก ํŒŒ์ง€๊ฐ€ ์„ฑ๊ณต์ ์ด๋ผ๋Š” ๋œป์ธ๋ฐ, 0~1 ๋ฒ”์œ„๊ฐ€ ์•„๋‹Œ ํ‰๊ท  ์ ‘์ด‰์ˆ˜ ๋“ฑ์˜ ํ˜•ํƒœ๋กœ ์‚ฐ์ถœ๋˜์–ด ์ƒ๋Œ€ ๋น„๊ต์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ด€ํ†ต ๊นŠ์ด(P)๋Š” ๋ฌผ์ฒด ํ‘œ๋ฉด๊ณผ ์† ๋ชจ๋ธ ์‚ฌ์ด์˜ ์ตœ๋Œ€ ๊ฒน์นจ ๊นŠ์ด(cm)๋กœ, ๊ฐ’์ด ํด์ˆ˜๋ก ์†์ด ๋ฌผ์ฒด๋ฅผ ๋งŽ์ด ๋šซ๊ณ  ๋“ค์–ด๊ฐ”์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด์ƒ์ ์ธ ํŒŒ์ง€๋ผ๋ฉด P=0(๊ด€ํ†ต ์—†์Œ)์ด๊ฒ ์ง€๋งŒ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜/๋ชจ๋ธ ํ•œ๊ณ„์ƒ ์•ฝ๊ฐ„์˜ ๊ฒน์นจ์€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ž‘์„์ˆ˜๋ก ์ข‹๋‹ค๊ณ  ๋ด…๋‹ˆ๋‹ค. ํŒŒ์ง€ ๋‹ค์–‘์„ฑ์€ ๋™์ผ ์กฐ๊ฑด์—์„œ ์ƒ์„ฑ๋œ ์—ฌ๋Ÿฌ ํŒŒ์ง€ ๊ฒฐ๊ณผ์˜ ๋ณ€๋™ ํญ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ์–ธ์–ด ์ง€์‹œ์™€ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ๋ฒˆ ํŒŒ์ง€๋ฅผ ์ƒ์„ฑํ•ด๋ณด๋ฉด ๋งค๋ฒˆ ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅธ ์ž์„ธ๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด ์ž์„ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค(์†์˜ ์œ„์น˜, ํšŒ์ „, ๊ฐ ๊ด€์ ˆ๊ฐ)์˜ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ˆ˜์น˜ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ’์ด ํฌ๋ฉด ๋‹ค์–‘ํ•œ ์ž์„ธ๊ฐ€ ๋‚˜์˜จ๋‹ค๋Š” ๋œป์ด๊ณ , 0์— ๊ฐ€๊นŒ์šฐ๋ฉด ๋งค๋ฒˆ ๋น„์Šทํ•œ ์ž์„ธ๋งŒ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

์ €์ž๋“ค์€ ์—ฌ๋Ÿฌ ์ตœ์‹  ๊ธฐ๋ฒ•(SOTA)๋“ค์„ ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ ์„ ์ •ํ•˜์—ฌ, ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ด๋ธ” 1์—๋Š” ๋Œ€ํ‘œ์ ์ธ ๋น„๊ต ๊ฒฐ๊ณผ๊ฐ€ ์ •๋ฆฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๊ต ๊ธฐ๋ฒ•์œผ๋กœ๋Š” GraspCVAEใ€48โ€ ใ€‘(์กฐ๊ฑด๋ถ€ ๋ณ€๋ถ„์˜คํ† ์ธ์ฝ”๋” ๊ธฐ๋ฐ˜ ์ƒ์„ฑ), GraspTTAใ€41โ€ ใ€‘(๊ธฐ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ…Œ์ŠคํŠธ์‹œ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ๊ธฐ๋ฒ•), SceneDiffuserใ€4โ€ ใ€‘(3D ์žฅ๋ฉด ํ™•์‚ฐ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ƒ์„ฑ), DGTRใ€7โ€ ใ€‘(Dexterous Grasping Transformer, ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ) ๋“ฑ์ด ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์ด๋“ค ๊ธฐ์กด ๊ธฐ๋ฒ•์—๋„ ์–ธ์–ด ์กฐ๊ฑด์„ ์ž…๋ ฅ์œผ๋กœ ์ค„ ์ˆ˜ ์žˆ๋„๋ก ์•ฝ๊ฐ„์˜ ๊ตฌ์กฐ ์ˆ˜์ •(์˜ˆ: ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ„ ํŠน์ง•๊ณผ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ์„ ๊ฒฐํ•ฉ)ํ•˜์—ฌ ์‹คํ—˜ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด๋ฉด, DexGYSGrasp(ours)๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜๋„ ์ •ํ•ฉ์„ฑ ์ธก๋ฉด์—์„œ, Chamfer ๊ฑฐ๋ฆฌ์™€ Contact ๊ฑฐ๋ฆฌ ๋ชจ๋‘ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์ด ๊ฐ€์žฅ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ Chamfer ๊ฑฐ๋ฆฌ์˜ ๊ฒฝ์šฐ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์€ 1.198๋กœ, ๋‘ ๋ฒˆ์งธ๋กœ ๋‚ฎ์€ SceneDiffuser์˜ 1.679๋ณด๋‹ค ํ›จ์”ฌ ์ž‘๊ณ , ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค(๋Œ€๋ถ€๋ถ„ 2.03.1 ์ด์ƒ)์— ๋น„ํ•ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Contact ๊ฑฐ๋ฆฌ๋„ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์€ 0.036์œผ๋กœ, ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค(0.045 ์ด์ƒ) ๋Œ€๋น„ ๋šœ๋ ทํ•˜๊ฒŒ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜ˆ์ธกํ•œ ์† ์ž์„ธ๊ฐ€ ์ •๋‹ต ๋Œ€๋น„ ๋งค์šฐ ์ •ํ™•ํžˆ ์˜๋„๋ฅผ ๋”ฐ๋ผ์žก๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŒŒ์ง€ ํ’ˆ์งˆ(์•ˆ์ •์„ฑ) ์ธก๋ฉด์—์„œ๋Š”, ๊ด€ํ†ต ๊นŠ์ด(P)์˜ ๊ฒฝ์šฐ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์€ 0.223 cm ์ •๋„๋กœ, GraspTTA๊ฐ€ 0.188 cm๋กœ ๊ฐ€์žฅ ์ž‘๊ธด ํ–ˆ์ง€๋งŒ ๊ทธ ์™ธ ๋‹ค์ˆ˜ ๊ธฐ๋ฒ•๋“ค์€ 0.250.55 cm ์ˆ˜์ค€์ด์–ด์„œ, ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์ด ์ƒ๋‹นํžˆ ๋‚ฎ์€ ๊ด€ํ†ต์„ ์œ ์ง€ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Q1 ์ง€ํ‘œ๋Š” ๊ฐ’์ด ๋†’์„์ˆ˜๋ก ์•ˆ์ •์ ์ธ๋ฐ, ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์ด 0.083์œผ๋กœ ๊ฐ€์žฅ ๋†’์•˜๊ณ , ๋‹ค๋ฅธ ๊ธฐ๋ฒ•๋“ค์€ 0.050.08 ์‚ฌ์ด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ GraspTTA๋Š” ๊ด€ํ†ต์ด ์ ์€ ๋Œ€์‹  Q1์ด 0.071๋กœ ์šฐ๋ฆฌ๋ณด๋‹ค ๋‚ฎ์•˜๊ณ , SceneDiffuser ๋“ฑ์€ ๊ด€ํ†ต์ด ์•ฝ๊ฐ„ ๋” ํฌ๋ฉด์„œ Q1์€ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์ข…ํ•ฉํ•˜๋ฉด ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์€ ํ’ˆ์งˆ ๋ฉด์—์„œ๋„ ํƒ€ ๊ธฐ๋ฒ•๋“ค๊ณผ ๋Œ€๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•˜๊ณ  ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํŒŒ์ง€ ๋‹ค์–‘์„ฑ์€ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์˜ ๋‘๋“œ๋Ÿฌ์ง„ ๊ฐ•์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์€ ๋™์ผ ์กฐ๊ฑด 8ํšŒ ์ƒ์„ฑ ์‹œ ์†๋ฐ”๋‹ฅ ์œ„์น˜์˜ ํ‘œ์ค€ํŽธ์ฐจ ์•ฝ 6.118, ํšŒ์ „ ๊ฐ๋„ ํ‘œ์ค€ํŽธ์ฐจ 55.68, ๊ด€์ ˆ ๊ฐ๋„ ํ‘œ์ค€ํŽธ์ฐจ 6.118 ๋“ฑ์„ ๊ธฐ๋กํ–ˆ๋Š”๋ฐ, ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค์€ ํšŒ์ „ ๊ฐ๋„ ๋ณ€๋™์ด ๋งŽ์•„์•ผ 14 ์ •๋„(DGTR)์ด๊ณ  ๋Œ€๋ถ€๋ถ„ 18 ๋ฒ”์œ„์— ๊ทธ์ณ ํ˜„์ €ํžˆ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•์ด ํ•˜๋‚˜์˜ ์ง€์‹œ์—๋„ ์•„์ฃผ ๋‹ค์–‘ํ•œ ์† ๋ชจ์–‘์œผ๋กœ ์žก์„ ์ˆ˜ ์žˆ์Œ์„ ๋œปํ•˜๋ฉฐ, ์ƒ์„ฑ์˜ ํ’๋ถ€ํ•จ ์ธก๋ฉด์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ํ…Œ์ด๋ธ” 1์˜ ๊ฒฐ๊ณผ๋Š” DexGYSGrasp๊ฐ€ ์˜๋„ ์ผ์น˜๋„์™€ ๋‹ค์–‘์„ฑ์—์„œ ์›”๋“ฑํ•˜๋ฉฐ, ํ’ˆ์งˆ๋„ ํฌ์ƒํ•˜์ง€ ์•Š๋Š” ๊ท ํ˜• ์žกํžŒ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ •๋Ÿ‰ ํ‰๊ฐ€ ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ๋ถ„์„ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ๋™์ž‘์„ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํ…Œ์ด๋ธ” 2์—์„œ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์„ฑ์š”์†Œ์™€ ํ•™์Šต ์ „๋žต์— ๋Œ€ํ•œ ablation(์š”์†Œ ์ œ๊ฑฐ) ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ํ•œ ๋‹จ๊ณ„ ๋ชจ๋ธ๋กœ ๋ชจ๋“  ๊ฒƒ์„ ํ•™์Šตํ•˜๊ฑฐ๋‚˜(IDGC๋งŒ ์‚ฌ์šฉ), 1๋‹จ๊ณ„ ํ•™์Šต ์ค‘๊ฐ„์— ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ๋ฅผ ์„œ์„œํžˆ ๋†’์ด๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ๋ณ€ํ˜•์„ ์‹œํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์ง€ ์•Š๊ณ  ๋‹จ์ผ ๋ชจ๋ธ๋กœ ํ•™์Šตํ•˜๋ฉด ์˜๋„-ํ’ˆ์งˆ-๋‹ค์–‘์„ฑ์˜ ๊ท ํ˜•์„ ์ด๋ฃจ์ง€ ๋ชปํ•˜๊ณ  ํ•œ๋‘ ์ธก๋ฉด๋งŒ ๋งŒ์กฑ์‹œํ‚ค๋Š” ๋ฐ˜์ชฝ์งœ๋ฆฌ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋‹จ๊ณ„๋ฅผ ๋‚˜๋ˆ„๋”๋ผ๋„ ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ ์‚ฌ์šฉ ๋ฐฉ์‹ ๋“ฑ์„ ์šฐ๋ฆฌ์ฒ˜๋Ÿผ ํ•˜์ง€ ์•Š์œผ๋ฉด ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋˜์ง€ ์•Š์•˜๊ณ , 2๋‹จ๊ณ„ ์—†์ด 1๋‹จ๊ณ„๋กœ๋งŒ ๊ด€ํ†ต๊นŒ์ง€ ๋ชจ๋‘ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒฝ์šฐ ์—ญ์‹œ ์˜๋„๊ฐ€ ํฌ๊ฒŒ ์–ด๊ธ‹๋‚˜๋Š” ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒผ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์šฐ๋ฆฌ์˜ ํ”„๋กœ๊ทธ๋ ˆ์‹œ๋ธŒ ์„ค๊ณ„(IDGC+QGC ๋‘˜ ๋‹ค ์ ์šฉ, ๋‹จ๊ณ„๋ณ„ ์†์‹ค ํ• ๋‹น)๋งŒ์ด ์˜๋„ ์ •ํ•ฉ์„ฑ, ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ ์„ธ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ๋™์‹œ์— ์žก๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ ์‘ ๊ธฐ๋ฒ•(TTA)์„ ํ™œ์šฉํ•ด ํ’ˆ์งˆ์„ ๋†’์ด๋ฉด ๊ด€ํ†ต์€ ์ค„์—ˆ์ง€๋งŒ ์˜๋„ ์ผ๊ด€์„ฑ์ด ์‹ฌ๊ฐํ•˜๊ฒŒ ๋–จ์–ด์ง€๋Š” ํ˜„์ƒ๋„ ๊ด€์ฐฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ํ’ˆ์งˆ๋งŒ ํ›„์ฒ˜๋ฆฌ๋กœ ๋†’์ด๋Š” ๊ธฐ์กด ์ ‘๊ทผ์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์˜ˆ๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜๋ฉด ablation ์‹คํ—˜์€ ์ œ์•ˆํ•œ 2๋‹จ๊ณ„ ๊ตฌ์กฐ์˜ ํ•„์š”์„ฑ๊ณผ ์„ค๊ณ„ ์„ ํƒ์˜ ํƒ€๋‹น์„ฑ์„ ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

HOIR ์ „๋žต์˜ ํšจ๊ณผ๋„ ๋ณ„๋„๋กœ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋™์ผํ•œ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ๋กœ๋ด‡ ์†์œผ๋กœ ๋ณ€๊ฒฝํ•œ ๊ฒฝ์šฐ์™€ HOIR๋ฅผ ํ†ตํ•ด ์ ‘์ด‰ ์ผ์น˜์‹œํ‚ค๋ฉฐ ๋ณ€๊ฒฝํ•œ ๊ฒฝ์šฐ๋ฅผ ๋น„๊ตํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ HOIR๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์˜ ์†-๋ฌผ์ฒด ์ ‘์ด‰ ๋ถ„ํฌ๊ฐ€ ์‹ค์ œ ์‚ฌ๋žŒ ํŒŒ์ง€์™€ ํ›จ์”ฌ ์œ ์‚ฌํ•ด์กŒ๊ณ , ๋ชจ๋ธ ํ•™์Šต ์‹œ์—๋„ ๋” ์•ˆ์ •์ ์ธ ์ˆ˜๋ ด๊ณผ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค (์„ธ๋ถ€ ์ˆ˜์น˜๋Š” ๋ถ€๋ก์— ์ œ์‹œ). ์ด๋Š” HOIR๊ฐ€ ์—†๋‹ค๋ฉด ๋ฐ์ดํ„ฐ์— ๋ฌผ์ฒด ํ‘œ๋ฉด์„ ์Šค์น˜์ง€ ๋ชปํ•œ ๋ถ€์‹คํ•œ ํŒŒ์ง€๋‚˜ ๋น„ํ˜„์‹ค์  ์† ๋ชจ์–‘์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ์ง€๋งŒ, HOIR๋กœ ์ž์—ฐ์Šค๋Ÿฌ์šด ํŒŒ์ง€ ์˜ˆ์‹œ๋“ค์„ ์ œ๊ณตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ํ˜„์‹ค์„ฑ ๋†’์€ ํŒŒ์ง€๋ฅผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์—ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ €์ž๋“ค์€ ์‹ค๋ฌผ ๋กœ๋ด‡ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ํ˜„์‹ค ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๋„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์•Œ๋ ˆ๊ทธ๋กœ(Allegro) ๋กœ๋ด‡ ํ•ธ๋“œ์™€ Flexiv Rizon 4 ๋กœ๋ด‡ ํŒ”, ๊ทธ๋ฆฌ๊ณ  Intel RealSense D415 ์นด๋ฉ”๋ผ๋กœ ๊ตฌ์„ฑ๋œ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ, ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ฌผ์ฒด๋ฅผ ๋†“๊ณ  ์ž์—ฐ์–ด ์ง€์‹œ๋Œ€๋กœ ์ง‘์–ด๋ณด๋Š” ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์‹ค์—์„œ๋Š” ๋ฌผ์ฒด์˜ ์™„์ „ํ•œ 3D ํ˜•ํƒœ๋ฅผ ์•Œ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ, ์นด๋ฉ”๋ผ๋กœ ์ดฌ์˜ํ•œ ๋ฌผ์ฒด ์˜์ƒ์„ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ถ€๋ถ„ ์ ๊ตฌ๋ฆ„์„ ์–ป์€ ๋’ค, SAM(Segment Anything Model)์„ ํ™œ์šฉํ•œ ์‹œ๊ฐ์  ๊ทธ๋ผ์šด๋”ฉ์œผ๋กœ ๋ฌผ์ฒด๋งŒ ๋ถ„๋ฆฌํ•˜๊ณ  ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๋ณด์™„ ๋„คํŠธ์›Œํฌ๋กœ ์™„์ „ํ•œ ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ„์„ ๋ณต์›ํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ์ถ”์ • ๋ฌผ์ฒด ํ˜•์ƒ์„ ์ด์šฉํ•ด ์šฐ๋ฆฌ ๋ชจ๋ธ์ด ํŒŒ์ง€ ์ž์„ธ๋ฅผ ์˜ˆ์ธกํ•˜๋ฉด, ๋กœ๋ด‡ ํŒ”์„ ํ•ด๋‹น ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๊ณ  ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ ๊ฐ๋„๋ฅผ ์˜ˆ์ธก ๊ฐ’์œผ๋กœ ์„ค์ •ํ•˜์—ฌ ํŒŒ์ง€๋ฅผ ์‹คํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ๋ชจ์–‘์˜ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ์ง€์‹œํ•œ ๋ฐฉ์‹์œผ๋กœ ๋กœ๋ด‡ ์†์ด ๋ฌผ์ฒด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์›€์ผœ์ฅ๋Š” ๋ชจ์Šต์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ  (์˜ˆ: ์Šคํ”„๋ ˆ์ด ๋ณ‘์˜ ๋ฐฉ์•„์‡  ๋ˆ„๋ฅด๊ธฐ, ๋จธ๊ทธ์ปต ์†์žก์ด ์žก๊ธฐ ๋“ฑ), ์ด๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฒ•์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋„˜์–ด ํ˜„์‹ค ๋กœ๋ด‡์—์„œ๋„ ํšจ๊ณผ์ ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋™์˜์ƒ ์˜ˆ์‹œ๋Š” ๋…ผ๋ฌธ ์‚ฌ์ดํŠธ๋ฅผ ํ†ตํ•ด ๊ณต๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ์ „๋ฐ˜์ ์œผ๋กœ ์‚ฌ๋žŒ์˜ ์–ธ์–ด ์ง€์‹œ์— ๋”ฐ๋ผ ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋ฐ ์„ฑ๊ณตํ•˜๋Š” ์žฅ๋ฉด๋“ค์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์„ผ์„œ ์˜ค์ฐจ๋‚˜ ์ ๊ตฌ๋ฆ„ ๋ณด์™„์˜ ํ•œ๊ณ„๋กœ ์ธํ•ด ์ผ๋ถ€ ํŒŒ์ง€์—์„œ ์•„์ฃผ ๋ฏธ์„ธํ•œ ๊ด€ํ†ต์ด๋‚˜ ๋ถˆ์™„์ „ ์ ‘์ด‰์ด ๋ฐœ์ƒํ•˜๊ธฐ๋„ ํ–ˆ์ง€๋งŒ, ์ด๋Š” ์ถ”๊ฐ€์ ์ธ ์ œ์–ด ๋ณด์ •์œผ๋กœ ๊ฐœ์„  ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ „๋ฐ˜์ ์ธ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์•ˆ ๊ธฐ๋ฒ•์ด ํ˜„์žฌ๊นŒ์ง€ ๋ณด๊ณ ๋œ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•˜๋ฉฐ, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ์œ ์šฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

2.5 ๊ฐ•์ ๊ณผ ํ•œ๊ณ„, ํ–ฅํ›„ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ

โ€œGrasp as You Sayโ€ ๋…ผ๋ฌธ์˜ ๊ฐ•์ ์€ ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋ฌธ์ œ ์ •์˜์˜ ์ฐธ์‹ ์„ฑ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํŒŒ์ง€์— ์ผ๋ฐ˜์ ์ธ ์ž์—ฐ์–ด๋ฅผ ์ ์šฉํ•จ์œผ๋กœ์จ ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด์—ˆ๊ณ , ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ๋‹ค๋ฃจ์ง€ ๋ชปํ•œ ์œ ์—ฐํ•œ ์˜๋„ ๋ฐ˜์˜ ํŒŒ์ง€๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ด๋ฅผ ๋’ท๋ฐ›์นจํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ธฐ๋ฒ•์˜ ์™„์„ฑ๋„์ž…๋‹ˆ๋‹ค. DexGYSNet ๋ฐ์ดํ„ฐ์…‹์€ ํ•™๊ณ„ ์ตœ์ดˆ๋กœ ์ž์—ฐ์–ด ์„ค๋ช…์ด ํฌํ•จ๋œ ๋Œ€๊ทœ๋ชจ ๋‹ค์ง€ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ํ–ฅํ›„ ๊ด€๋ จ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. HOIR+LLM์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์€ ํšจ์œจ์„ฑ๊ณผ ๋‹ค์–‘์„ฑ์„ ๋ชจ๋‘ ํ™•๋ณดํ•œ ๋›ฐ์–ด๋‚œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์ดํ›„ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ–‰๋™ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ์—๋„ ์‘์šฉ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์…‹์งธ, DexGYSGrasp ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋…์ฐฝ์  ์„ค๊ณ„์™€ ํšจ๊ณผ์„ฑ์ž…๋‹ˆ๋‹ค. ๊ด€ํ†ต ํŽ˜๋„ํ‹ฐ์— ๊ธฐ์ธํ•œ ํ•™์Šต ์–ด๋ ค์›€์„ 2๋‹จ๊ณ„ ํ”„๋กœ๊ทธ๋ ˆ์‹œ๋ธŒ ํ•™์Šต์œผ๋กœ ํ’€์–ด๋‚ธ ๊ฒƒ์€ ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์—์„œ ๋ณต์žกํ•œ ๋‹ค๋ชฉ์  ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ํ‰๊ฐ€ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜์œผ๋กœ ์ž…์ฆ๋˜์—ˆ๋“ฏ, ์ด ์ ‘๊ทผ๋ฒ•์€ ์˜๋„, ํ’ˆ์งˆ, ๋‹ค์–‘์„ฑ์ด๋ผ๋Š” ์ƒ์ถฉํ•˜๋Š” ์š”์†Œ๋“ค์„ ๋ชจ๋‘ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด์ „๊นŒ์ง€ ์–ด๋ ค์› ๋˜ ์˜์—ญ์—์„œ ์„ฑ๊ณผ๋ฅผ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋„ท์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ์‹คํ—˜์„ ์•„์šฐ๋ฅด๋Š” ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•œ ์ ๋„ ๊ฐ•์ ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ œ์•ˆ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , ์‹ค์ œ ๋กœ๋ด‡ ํŒ”๊ณผ ์†์œผ๋กœ ๋™์ž‘์‹œ์ผœ ๋ด„์œผ๋กœ์จ ํ˜„์‹ค์„ฑ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•ด๋‹น ๊ธฐ๋ฒ•์ด ์ด๋ก ์  ์„ฑ๋Šฅ๋ฟ ์•„๋‹ˆ๋ผ ์‹ค์šฉ์  ๊ฐ€์น˜๋„ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์—ฐ๊ตฌ์˜ ์™„์„ฑ๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ณผ์ œ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„ , ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฒ”์œ„์— ๊ด€ํ•œ ํ•œ๊ณ„์ž…๋‹ˆ๋‹ค. DexGYSNet์€ 1,800๊ฐœ์˜ ์ผ์ƒ ๋ฌผ์ฒด๋ฅผ ํฌ๊ด„ํ•˜์ง€๋งŒ, ์‚ฐ์—…์šฉ ๋ณต์žกํ•œ ๋ถ€ํ’ˆ์ด๋‚˜ ๋น„์ •ํ˜• ๋ฌผ์ฒด ๋“ฑ์€ ํฌํ•จ๋˜์ง€ ์•Š์•˜์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์–ธ์–ด ์ง€์‹œ๋„ ํŒŒ์ง€ ๋™์ž‘์— ์ดˆ์ ์„ ๋งž์ถ˜ ๋ฌธ์žฅ๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด, ๋ณตํ•ฉ์  ์ž‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค(์˜ˆ: โ€œ์žก์•„์„œ ์˜ฎ๊ฒจ ๋†“์•„๋ผโ€์™€ ๊ฐ™์ด ํŒŒ์ง€ ํ›„ ๋‹ค๋ฅธ ํ–‰๋™์„ ์ˆ˜๋ฐ˜ํ•˜๋Š” ์ง€์‹œ)์—๋Š” ๋Œ€์‘ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๊ฐ์ฒด ๋ฐ ์ž‘์—…์— ๋Œ€ํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ํ™•์žฅํ•˜๊ณ , ์—ฐ์†์  ์กฐ์ž‘๊นŒ์ง€ ํฌํ•จํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋ชจ๋ธ์˜ ๋ณต์žก๋„์™€ ์‹คํ–‰ ์‹œ๊ฐ„๋„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ 1๋‹จ๊ณ„ ์ƒ์„ฑ์€ ๋ณธ์งˆ์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง์— ๋‹ค์ˆ˜์˜ ํ™•๋ฅ ์  ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๊ธฐ ๋•Œ๋ฌธ์—, ์‹ค์‹œ๊ฐ„ ์‘์šฉ์—๋Š” ์†๋„ ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜๋ ค๋ฉด ์ƒ์„ฑ ์‹œ๊ฐ„ ๋‹จ์ถ•์ด๋‚˜ ๊ฒฝ๋Ÿ‰ํ™”๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๊ฐ€์†ํ™” ๊ธฐ๋ฒ•์ด๋‚˜ ๋‹จ๊ณ„ ์ถ•์†Œ(์˜ˆ: DDIM), ๋˜๋Š” ํ•™์Šต๋œ ํ”ฝ์Šค๋“œ ๋ชจ์…˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉ ๋“ฑ์ด ์—ฐ๊ตฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์…‹์งธ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ์ƒˆ ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„œ๋„ ์‹คํ—˜ํ–ˆ์ง€๋งŒ, ์ „ํ˜€ ๋ณด์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์œ ํ˜•์˜ ๋ฌผ์ฒด๋‚˜ ์•„์ฃผ ๋‹ค๋ฅธ ๋ฌธ์žฅ ํ‘œํ˜„์— ๋Œ€ํ•ด์„œ๋Š” ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋˜๋Š”์ง€ ๋” ์‚ดํŽด๋ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, โ€œ์ด ๋ฌผ์ฒด๋ฅผ ์•„์ฃผ ๋А์Šจํ•˜๊ฒŒ ์ฅ์–ด๋ดโ€์™€ ๊ฐ™์€ ๋ฏธ๋ฌ˜ํ•œ ํž˜ ์กฐ์ ˆ์ด๋‚˜ ์ถ”์ƒ์ ์ธ ์ง€์‹œ๋„ ์ฒ˜๋ฆฌํ•˜๋ ค๋ฉด, ๋ชจ๋ธ์„ ๋ณด์™„ํ•˜๊ฑฐ๋‚˜ ์ถ”๊ฐ€ ํ•™์Šต์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋„ท์งธ, ๋ฌผ๋ฆฌ๊ธฐ๋ฐ˜ ์ œํ•œ์˜ ๋ถ€์กฑ์ž…๋‹ˆ๋‹ค. 2๋‹จ๊ณ„์—์„œ ๊ด€ํ†ต์„ ์ค„์˜€๋‹ค๊ณ ๋Š” ํ•˜๋‚˜, ์ ‘์ด‰ ๋งˆ์ฐฐ์ด๋‚˜ ๋™์  ์•ˆ์ •์„ฑ ๋“ฑ ์ •๋Ÿ‰ํ™”ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฌผ๋ฆฌ์  ์š”์†Œ๋Š” ๊ณ ๋ ค๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ๊ฐ•ํ™”ํ•™์Šต(RL)์ด๋‚˜ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์˜ fine-tuning์œผ๋กœ ์ง„์งœ ๋–จ์–ด๋œจ๋ฆฌ์ง€ ์•Š๊ณ  ์žก๋Š” ์•ˆ์ •์„ฑ๊นŒ์ง€ ํ™•๋ณดํ•˜๋ฉด ๋” ์™„๋ฒฝํ•œ ์†”๋ฃจ์…˜์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„, ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋“ค์€ ํ˜„์žฌ ์—ฐ๊ตฌ์˜ ๋ฒ”์œ„ ๋ฐ–์˜ ๊ฒƒ๋“ค์ด๊ณ , ๋ณธ ๋…ผ๋ฌธ์˜ ๊ธฐ์—ฌ๋ฅผ ํ„ํ•˜ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ์˜คํžˆ๋ ค ์ด ํ•œ๊ณ„๋“ค์€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ธฐํšŒ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ๋Š”, ์–ธ์–ด-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ์„ ๋”์šฑ ํ™•์žฅํ•˜์—ฌ ๋‹ค๋‹จ๊ณ„ ์ž‘์—…๊ณ„ํš์— ์–ธ์–ด ์ง€์‹œ๋ฅผ ์—ฐ๊ฒฐํ•˜๊ฑฐ๋‚˜, ์‹œ๊ฐ ์ธ์ง€์™€ ์–ธ์–ด, ํ–‰์œ„๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ์ข…ํ•ฉ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์˜ ๋ฐœ์ „์ด ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ปต์„ ์ง‘์–ด ์‹ํƒ ์˜ค๋ฅธ์ชฝ ๊ตฌ์„์— ๋†“์•„๋‘ฌโ€ ๊ฐ™์€ ๋ณตํ•ฉ ์ง€์‹œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด, ํŒŒ์ง€๋ฟ ์•„๋‹ˆ๋ผ ์ด๋™, ๋†“๊ธฐ๊นŒ์ง€ ํ†ตํ•ฉ๋œ ๊ณ„ํš์ด ํ•„์š”ํ•˜๋ฉฐ, ๋ณธ ์—ฐ๊ตฌ์˜ ์„ฑ๊ณผ๋Š” ์ด๋Ÿฌํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๋Š” ์‹œ๋ฐœ์ ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํœด๋จผ ํ”ผ๋“œ๋ฐฑ ๊ฐ•ํ™”ํ•™์Šต(RLHF) ๋“ฑ์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋กœ๋ถ€ํ„ฐ ํŒŒ์ง€์— ๋Œ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์•„ ๋” ๋ฏธ์„ธํ•œ ์กฐ์ •์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ๊ณ ๋ คํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Grasp as You Say ๋…ผ๋ฌธ์€ ์ž์—ฐ์–ด๋กœ ๋กœ๋ด‡ ์† ํŒŒ์ง€๋ฅผ ์ œ์–ดํ•˜๋Š” ํ˜์‹ ์  ์•„์ด๋””์–ด๋ฅผ ์ œ์‹œํ•˜๊ณ , ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹, ๋ชจ๋ธ, ํ•™์Šต๊ธฐ๋ฒ•์˜ ์ •๊ตํ•œ ์กฐํ•ฉ์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๋กœ๋ณดํ‹ฑ์Šค ์ „๋ฌธ๊ฐ€์—๊ฒŒ ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ๋ฒ•์€ ๋‹ค์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ ํ™œ์šฉ๊ณผ ์ธ๊ฐ„-๋กœ๋ด‡ ์ธํ„ฐ๋ž™์…˜ ์˜์—ญ์—์„œ ๋งŽ์€ ์˜๊ฐ๊ณผ ์‹œ์‚ฌ์ ์„ ์ค„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์ด ๊ฐœ๋…์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•œ ๋‹ค์–‘ํ•œ ์‘์šฉ๊ณผ ์—ฐ๊ตฌ์˜ ์ „๊ฐœ๊ฐ€ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee