Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 Introduction
    • 2.2 Related Work
    • 2.3 GraspGen ํ”„๋ ˆ์ž„์›Œํฌ (Proposed Method)
      • 2.3.1 Grasp Generation with Diffusion
      • 2.3.2 Grasp Evaluation with On-Generator Training
      • 2.3.3 GraspGen Dataset
    • 2.4 Experimental Evaluation
      • 2.4.1 Simulation Results
      • 2.4.2 Analysis of On-Generator Training
      • 2.4.3 Ablation Studies
      • 2.4.4 Performance on Multiple Grippers
      • 2.4.5 Real Robot Evaluation
    • 2.5 Conclusion & Limitations

๐Ÿ“ƒGraspGen ๋ฆฌ๋ทฐ

difussion
grasp
A Diffusion-based Framework for 6-DOF Grasping with On-Generator Training
Published

August 2, 2025

  • Paper Link
  • Project Link
  • Github Link
  1. ๐Ÿค– GraspGen์€ ๋‹ค์–‘ํ•œ ๊ทธ๋ฆฌํผ์™€ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ 6-DOF ๊ทธ๋ฆฝ ์ƒ์„ฑ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์‹๋“ค์˜ ์ผ๋ฐ˜ํ™” ๋ฐ ์•ˆ์ •์„ฑ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿš€ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” Diffusion-Transformer ์•„ํ‚คํ…์ฒ˜์™€ ์ƒ์„ฑ ๋ชจ๋ธ ์ž์ฒด์˜ ์˜ค๋ฅ˜๋ฅผ ํ•™์Šตํ•˜์—ฌ ํ•„ํ„ฐ๋งํ•˜๋Š” ์˜จ-์ œ๋„ˆ๋ ˆ์ดํ„ฐ(On-Generator) ํ•™์Šต ๋ฐฉ์‹์„ ์ ์šฉํ•œ ํšจ์œจ์ ์ธ Discriminator๋ฅผ ํ†ตํ•ฉํ•˜๋ฉฐ, 5,300๋งŒ ๊ฐœ ์ด์ƒ์˜ ๋Œ€๊ทœ๋ชจ ๊ทธ๋ฆฝ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  3. โœจ GraspGen์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ด์ „ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , FetchBench ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ(SOTA) ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์‹œ๋„๋Ÿฌ์šด ์‹œ๊ฐ์  ๊ด€์ธก์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ธ ๊ทธ๋ฆฝ ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

1 Brief Review

๋ณธ ๋…ผ๋ฌธ์€ 6-์ž์œ ๋„(DOF) ๊ทธ๋ฆฝ ์ƒ์„ฑ์„ ์œ„ํ•œ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์ธ GraspGen์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ํ•™์Šต ๊ธฐ๋ฐ˜ 6-DOF ๊ทธ๋ฆฝ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋‹ค์–‘ํ•œ ์—”๋“œ์ดํŽ™ํ„ฐ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ผ๋ฐ˜ํ™”์— ์–ด๋ ค์›€์„ ๊ฒช๊ณ , ํŠนํžˆ FetchBench์™€ ๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‚ฎ์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” ํ™•์‚ฐ ํŠธ๋žœ์Šคํฌ๋จธ(Diffusion-Transformer) ์•„ํ‚คํ…์ฒ˜์™€ ์ƒ˜ํ”Œ๋ง๋œ ๊ทธ๋ฆฝ์˜ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๊ณ  ํ•„ํ„ฐ๋งํ•˜๋Š” ํšจ์œจ์ ์ธ ํŒ๋ณ„์ž(discriminator)๋ฅผ ๊ฒฐํ•ฉํ•œ GraspGen์„ ์„ ๋ณด์ธ๋‹ค.

GraspGen์˜ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‘ ๊ฐ€์ง€๋‹ค.

  • ์ฒซ์งธ, 6-DOF ๊ทธ๋ฆฝ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ SE(3) ๋ฆฌ ๊ตฐ(Lie group) ์ƒ์˜ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ ์ •์‹ํ™”ํ•œ๋‹ค. ๊ธฐ์กด ์—๋„ˆ์ง€ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(EBM) ๋Œ€์‹  Denoising Diffusion Probabilistic Model(DDPM)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ  ๊ตฌํ˜„์„ ๊ฐ„์†Œํ™”ํ•œ๋‹ค. ๊ทธ๋ฆฝ์˜ translation ์„ฑ๋ถ„์„ ๋ฐ์ดํ„ฐ์…‹ ํ†ต๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋Š” ๊ณ„์ˆ˜ \kappa = \frac{1}{N}\sum_{i=0}^{N}(max(t_i) - min(t_i))๋ฅผ ๋„์ž…ํ•˜๋ฉฐ, ์ด๋Š” translation์ด ๊ฐ์ฒด ํฌ๊ธฐ์— ๋ฌด๊ด€ํ•˜๊ฒŒ ์ •๊ทœํ™”๋˜๋„๋ก ๋•๋Š”๋‹ค. ๊ฐ์ฒด ์ธ์ฝ”๋”๋กœ๋Š” ๊ณ„์ธต์  ํŠน์ง• ์ฒ˜๋ฆฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์šฐํšŒํ•˜๊ณ  ๋น„์ •ํ˜• ์  ๊ตฌ๋ฆ„์„ ๊ตฌ์กฐํ™”๋œ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํŠธ๋žœ์Šคํฌ๋จธ์— ์ ์šฉํ•˜๋Š” PointTransformerV3(PTv3)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ๋Š” ์  ๊ตฌ๋ฆ„๊ณผ ๊ทธ๋ฆฝ ํฌ์ฆˆ๋ฅผ ๊ฐ์ฒด ํ‰๊ท  ์ค‘์‹ฌ์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ž…๋ ฅ๋ฐ›๊ณ , ํ›ˆ๋ จ ์†์‹ค์€ ์˜ˆ์ธก ๋…ธ์ด์ฆˆ์™€ ์‹ค์ œ ๋…ธ์ด์ฆˆ ๊ฐ„์˜ ์œ„์น˜ ๋ฐ ๋ฐฉํ–ฅ ์ฐจ์ด์— ๋Œ€ํ•œ ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ๋กœ ์ •์˜๋œ๋‹ค: L = \|\epsilon - \varphi(t, \tilde{g}, \mathcal{X})\|_2^2 ์—ฌ๊ธฐ์„œ \varphi๋Š” ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ, \mathcal{X}๋Š” ๊ฐ์ฒด ์  ๊ตฌ๋ฆ„, \tilde{g}๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ๊ทธ๋ฆฝ, t๋Š” ํ™•์‚ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์ด๋‹ค. ํŠนํžˆ translation๊ณผ orientation ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•ด ๋‘ ๊ฐœ์˜ ๋ณ„๋„ ๋””๋…ธ์ด์ง• ํ”„๋กœ์„ธ์Šค๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

  • ๋‘˜์งธ, ์ƒ์„ฑ ๋ชจ๋ธ์˜ ์˜คํƒ(false positives) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด โ€œ์˜จ-์ œ๋„ˆ๋ ˆ์ดํ„ฐ ํ›ˆ๋ จ(On-Generator Training)โ€์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒ๋ณ„์ž ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์…‹๋งŒ์œผ๋กœ๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ด ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ทธ๋ฆฝ์˜ ๋ถ„ํฌ์™€ ์‹ค์ œ ์‹คํŒจ ํŒจํ„ด์„ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ•œ๋‹ค. ๋ณธ ๋ฐฉ๋ฒ•์€ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ ์ƒ˜ํ”Œ๋ง๋œ ๊ทธ๋ฆฝ๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ์„ฑ๊ณต/์‹คํŒจ ์—ฌ๋ถ€๋ฅผ ๋‹ค์‹œ ์–ด๋…ธํ…Œ์ด์…˜ํ•˜์—ฌ โ€œ์˜จ-์ œ๋„ˆ๋ ˆ์ดํ„ฐ ๋ฐ์ดํ„ฐ์…‹โ€์„ ๊ตฌ์ถ•ํ•˜๊ณ , ์ด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํŒ๋ณ„์ž๋ฅผ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ํŒ๋ณ„์ž๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•˜๋Š” ์•ฝ๊ฐ„์˜ ์ถฉ๋Œ์ด๋‚˜ ์ด์ƒ์น˜์™€ ๊ฐ™์€ ํŠน์ • ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ์ธ์ง€ํ•˜๊ณ  ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ํ• ๋‹นํ•˜๋„๋ก ํ•™์Šต๋œ๋‹ค. ํŒ๋ณ„์ž ์•„ํ‚คํ…์ฒ˜๋Š” ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ๋œ PointTransformerV3 ๊ธฐ๋ฐ˜์˜ ๊ฐ์ฒด ์ธ์ฝ”๋”๋ฅผ ์žฌ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด ์ธ์ฝ”๋”ฉ๋œ ๊ฐ์ฒด ์ž„๋ฒ ๋”ฉ๊ณผ ๊ทธ๋ฆฝ ํฌ์ฆˆ(SE(3) ํ‘œํ˜„)๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ๋ฉ€ํ‹ฐ๋ ˆ์ด์–ด ํผ์…‰ํŠธ๋ก (MLP)์— ์ž…๋ ฅํ•ด ๊ทธ๋ฆฝ ์„ฑ๊ณต ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ธฐ์กด ํŒ๋ณ„์ž๋ณด๋‹ค ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์ด 21๋ฐฐ ๋†’๊ณ  ์ •ํ™•๋„๋„ ๊ฐœ์„ ๋˜์—ˆ๋‹ค.

GraspGen์˜ ์Šค์ผ€์ผ ํ™•์žฅ์„ ์œ„ํ•ด Objaverse ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ 8,515๊ฐœ ๊ฐ์ฒด์— ๋Œ€ํ•ด Franka Panda, Robotiq-2f-140, ์ง„๊ณต ๊ทธ๋ฆฌํผ์˜ ์„ธ ๊ฐ€์ง€ ๊ทธ๋ฆฌํผ ์œ ํ˜•์— ๊ฑธ์ณ ์ด 5์ฒœ3๋ฐฑ๋งŒ ๊ฐœ ์ด์ƒ์˜ ๊ทธ๋ฆฝ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•œ๋‹ค. ๊ทธ๋ฆฝ ๋ผ๋ฒจ๋ง์€ Isaac ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ฐ์ฒด ํ”๋“ค๋ฆผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ์•ˆ์ •์ ์ธ ์ ‘์ด‰ ๊ตฌ์„ฑ์„ ํ™•์ธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค.

์‹คํ—˜ ํ‰๊ฐ€๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ ๋ชจ๋‘์—์„œ ์ด๋ฃจ์–ด์กŒ๋‹ค.

  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ACRONYM ๋ฐ์ดํ„ฐ์…‹์˜ ๋‹จ์ผ ๊ฐ์ฒด ๊ทธ๋ฆฝ ์ƒ์„ฑ ๋ฐ FetchBench ๋ฒค์น˜๋งˆํฌ์˜ ๋ณต์žกํ•œ ํด๋Ÿฌํ„ฐ ํ™˜๊ฒฝ์—์„œ GraspGen์ด ๊ธฐ์กด์˜ Contact-point ๊ธฐ๋ฐ˜(M2T2, Contact-GraspNet) ๋ฐ ํ™•์‚ฐ ๊ธฐ๋ฐ˜(DexDiffuser, SE3-Diffusion Fields) ๋ฐฉ๋ฒ•๋“ค์„ ์••๋„ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ SOTA๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ, Precision-Coverage ๊ณก์„ ์˜ AUC(Area Under Curve) ์ง€ํ‘œ์—์„œ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. ๋˜ํ•œ, ๋ถ€๋ถ„/๋‹จ์ผ ์‹œ์  ์  ๊ตฌ๋ฆ„๊ณผ ์ „์ฒด ์  ๊ตฌ๋ฆ„์— ๋ชจ๋‘ ์ผ๋ฐ˜ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉ ํ›ˆ๋ จํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ์˜จ-์ œ๋„ˆ๋ ˆ์ดํ„ฐ ํ›ˆ๋ จ์˜ ์ค‘์š”์„ฑ์€ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์…‹๊ณผ์˜ EMD(Earth Moverโ€™s Distance) ๋ถ„์„์„ ํ†ตํ•ด ํ™•์‚ฐ ๋ชจ๋ธ ์ƒ์„ฑ ๊ทธ๋ฆฝ ๋ถ„ํฌ์™€์˜ ์ฐจ์ด๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ์ด๋กœ ์ธํ•ด ํŒ๋ณ„์ž์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ํ™•์ธํ–ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๊ทธ๋ฆฌํผ(Franka, Robotiq-2F-140, ์ง„๊ณต)์— ๊ฑธ์ณ GraspGen์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ ์‘ํ˜• ๊ทธ๋ฆฌํผ์ธ Robotiq-2F-140์—์„œ๋Š” ๊ธฐ์กด ์ ‘์ด‰์  ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ๋‹ค.
  • ์‹ค์ œ ๋กœ๋ด‡ ํ‰๊ฐ€์—์„œ๋Š” UR10 ํŒ”๊ณผ RealSense D435 ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฉ๋ฆฌ๋œ ๊ฐ์ฒด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ…Œ์ด๋ธ”, ๋ฐ”๊ตฌ๋‹ˆ, ์„ ๋ฐ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ํด๋Ÿฌํ„ฐ ํ™˜๊ฒฝ์—์„œ M2T2 ๋ฐ AnyGrasp ๋Œ€๋น„ ์›”๋“ฑํžˆ ๋†’์€ ๊ทธ๋ฆฝ ์„ฑ๊ณต๋ฅ (81.3%)์„ ๋‹ฌ์„ฑํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ์˜ ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ๋‹ค.

GraspGen์€ ์‹ฌ์ธต ์„ผ์‹ฑ ๋ฐ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ํ’ˆ์งˆ์— ์˜์กดํ•˜๋ฉฐ, ํŠน์ • ๊ธฐํ•˜ํ•™์  ํ˜•ํƒœ(์˜ˆ: ํ๋ณด์ด๋“œ)์— ๋Œ€ํ•œ ๊ทธ๋ฆฝ ์˜ˆ์ธก์— ์–ด๋ ค์›€์„ ๊ฒช๋Š” ํ•œ๊ณ„์™€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ํ›ˆ๋ จ์— ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›(์•ฝ 3K GPU ์‹œ๊ฐ„)์ด ์†Œ์š”๋œ๋‹ค๋Š” ์ ์„ ์–ธ๊ธ‰ํ•œ๋‹ค.


2 Detail Review

GraspGen: On-Generator ํ›ˆ๋ จ์„ ์ ์šฉํ•œ 6-์ž์œ ๋„ ํŒŒ์ง€์šฉ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ โ€“ ์‹ฌ์ธต ๋ฆฌ๋ทฐ

2.1 Introduction

๋กœ๋ด‡์˜ 6-์ž์œ ๋„ ํŒŒ์ง€(Grasping) ๋ฌธ์ œ๋Š” ์ตœ๊ทผ ๋งŽ์€ ๋ฐœ์ „์ด ์žˆ์—ˆ์ง€๋งŒ, ์ผ๋ฐ˜์ ์ธ ๋กœ๋ด‡ ํŒŒ์ง€ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ์—๋Š” ์—ฌ์ „ํžˆ ์–ด๋ ค์›€์ด ๋‚จ์•„ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ตœ์‹  ๋ฒค์น˜๋งˆํฌ์ธ FetchBench์—์„œ ํ˜„์žฌ ์ตœ์ฒจ๋‹จ(SoTA) ๊ธฐ๋ฒ•์กฐ์ฐจ๋„ 20% ๋ฏธ๋งŒ์˜ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ง€์‹ ๊ธฐ๋ฐ˜ ๋ชจ๋ฐ”์ผ ์กฐ์ž‘ ์‹œ์Šคํ…œ์ธ OK-Robot์˜ ๊ฒฝ์šฐ ํŒŒ์ง€ ๋ชจ๋“ˆ ์‹คํŒจ๋งŒ์œผ๋กœ๋„ ์•ฝ 8%์˜ ์ž‘์—… ์˜ค๋ฅ˜์œจ์„ ๊ธฐ๋กํ•˜์˜€๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ˜•ํƒœ๋‚˜ ๋ณต์žกํ•œ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ํŒŒ์ง€ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ธฐ์กด์˜ ํŒŒ์ง€ ๊ธฐ๋ฒ•๋“ค์€ ์ •๋ฐ€ํ•œ ๋ฌผ์ฒด ์ž์„ธ ์ •๋ณด๋ฅผ ํ•„์š”๋กœ ํ•˜๊ฑฐ๋‚˜, ๋‹จ์ผ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ๋‹ค์ค‘ ๋ทฐ ์Šค์บ”์„ ์š”๊ตฌํ•˜์—ฌ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—๋Š” ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๊ณ , ํ˜น์€ ์ ‘์ด‰์  ๊ธฐ๋ฐ˜(contact-point-based) ํ‘œํ˜„์— ์˜์กดํ•จ์œผ๋กœ์จ ๊ทธ๋ฆฌํผ(๋ง๋‹จ์ž‘๋™๊ธฐ)์˜ ํ˜•ํƒœ๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค. ํŠนํžˆ ์ ‘์ด‰์  ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ๋ชจ๋ธ๋“ค์€ ๋Œ€์นญ์ ์ธ ํ‰ํ–‰ ๊ทธ๋ฆฌํผ ์ด์™ธ์˜ ๋‹ค๋ฅธ ํ˜•ํƒœ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๊ธฐ ์–ด๋ ต๊ณ , ์˜ˆ์ธกํ•œ ๊ทธ๋ฆฝ์˜ ์ ์ˆ˜ํ™”๋ฅผ ์ •ํ™•ํžˆ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ์—๋„ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€๋‹ค. ์ผ๋ถ€ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ณต์žกํ•œ ์ ์žฌ ํ™˜๊ฒฝ(clutter)์—์„œ ์—ฌ๋Ÿฌ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ํŒŒ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•˜์˜€์œผ๋‚˜, ์ด๋Ÿฌํ•œ ํ™˜๊ฒฝ ์ค‘์‹ฌ(scene-centric) ์ ‘๊ทผ์€ ์ „์ฒด Scene์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ฑฐ๋‚˜ ๋Œ€๊ทœ๋ชจ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ํ•„์š”ํ•ด ํ™•์žฅ์„ฑ์ด ๋–จ์–ด์ง€๋ฉฐ, ํ…Œ์ŠคํŠธ ์‹œ ํ˜„์‹ค ์„ธ๊ณ„ ๋ถ„ํฌ์™€์˜ ๊ดด๋ฆฌ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค. ๋”์šฑ์ด ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค๋„ ๊ถ๊ทน์ ์œผ๋กœ๋Š” ์ธ์Šคํ„ด์Šค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ชฉํ‘œ ๋ฌผ์ฒด๋ฅผ ์ง€์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์ตœ๊ทผ SAM ๋“ฑ์˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ถ„ํ•  ๊ธฐ๋ฒ•์˜ ๋ฐœ์ „์œผ๋กœ ๋ฌผ์ฒด ์ค‘์‹ฌ(object-centric) ์ ‘๊ทผ์œผ๋กœ ํšŒ๊ท€ํ•˜์—ฌ ํŒŒ์ง€ ์ƒ์„ฑ์„ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋…ผ์˜๊ฐ€ ์ œ๊ธฐ๋˜๊ณ  ์žˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ์—์„œ, ๋ณธ ๋ฆฌ๋ทฐ์˜ ๋Œ€์ƒ์ธ GraspGen์€ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ํšจ์œจ์ ์ธ Discriminator(discriminator)๋ฅผ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด 6-์ž์œ ๋„ ํŒŒ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์„œ, ๊ธฐ์กด ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ๋‘ ๊ฐ€์ง€๋กœ ์š”์•ฝ๋œ๋‹ค:

  • ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์— ๋Œ€ํ•œ ์œ ์—ฐํ•œ ํŒŒ์ง€ ์ƒ์„ฑ: GraspGen์€ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ Diffusion-Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋กœ ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ๊ทธ๋ฆฌํผ(ํ‰ํ–‰ ๊ทธ๋ฆฌํผ ๋‘ ์ข…๋ฅ˜์™€ ํก์ฐฉ ํŒจ๋“œ)์™€ ๋‹ค์–‘ํ•œ ๊ด€์ธก ํ™˜๊ฒฝ(๋ถ€๋ถ„ point cloud vs. ์™„์ „ point cloud), Scene ๋ณต์žก๋„(๋‹จ์ผ ๋ฌผ์ฒด vs. ๋ณต์žกํ•œ ์ ์žฌ ํ™˜๊ฒฝ), ์‹œ๋ฎฌ๋ ˆ์ด์…˜ vs. ์‹ค์ œ ๋“ฑ ๋‹ค์–‘ํ•œ ์„ค์ •์— ๊ฑธ์ณ ํ™•์žฅ์„ฑ์„ ๋ณด์ด๋Š” ํŒŒ์ง€ ์ƒ์„ฑ ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ•˜์˜€๋‹ค. ์ด๋Š” ํ˜„์กด ํŒŒ์ง€ ์‹œ์Šคํ…œ์˜ ์œ ์—ฐ์„ฑ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ๊ฐœ์„ ํ•œ ๊ฒƒ์ด๋‹ค.

  • On-Generator ํ›ˆ๋ จ์„ ํ†ตํ•œ Discriminator ๊ฐœ์„ : ๊ธฐ์กด 6-์ž์œ ๋„ ํŒŒ์ง€ Discriminator๋“ค์€ ์‚ฌ์ „ ์ˆ˜์ง‘๋œ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šต๋˜์—ˆ์œผ๋‚˜, GraspGen์€ ์ƒ์„ฑ๊ธฐ๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ์ƒ˜ํ”Œ ๋ถ„ํฌ๋ฅผ ์ง์ ‘ ํ™œ์šฉํ•˜์—ฌ Discriminator๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๋Š” On-Generator ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•˜์˜€๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Discriminator๊ฐ€ ์ƒ์„ฑ ๋ชจ๋ธ์ด ๋ฒ”ํ•˜๋Š” ์˜ค๋ฅ˜ ํŒจํ„ด์„ ์ธ์ง€ํ•˜๊ณ  ์ž ์žฌ์  ๊ฑฐ์ง“ ์–‘์„ฑ(false positive) ํŒŒ์ง€ ํ›„๋ณด์— ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜๋„๋ก ํ•™์Šต๋จ์œผ๋กœ์จ, ์˜ค์ง ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šต๋œ ํ‘œ์ค€ Discriminator์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€๋‹ค. ๋‹ค์‹œ ๋งํ•ด, GraspGen์˜ Discriminator๋Š” ํ™•์‚ฐ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ณ ์งˆ์  ์‹ค์ˆ˜(์˜ˆ: ๋ฌผ์ฒด์™€ ๋ฏธ์„ธ ์ถฉ๋Œํ•˜๊ฑฐ๋‚˜ ๋ฌผ์ฒด์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋ถ€์ ์ ˆํ•œ ํŒŒ์ง€ ์ž์„ธ)๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด๋Š” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.

์ถ”๊ฐ€์ ์œผ๋กœ ์ €์ž๋“ค์€ GraspGen์˜ ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ์„ ํƒ(ํ›ˆ๋ จ ๋ ˆ์‹œํ”ผ๋ถ€ํ„ฐ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ๊นŒ์ง€)์ด ์ด์ „ ์—ฐ๊ตฌ ๋Œ€๋น„ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ถ”๋ก  ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๋ฉด์—์„œ๋„ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋ณด๊ณ ํ•˜์˜€๋‹ค. ๋˜ํ•œ 5,300๋งŒ ๊ฐœ ์ด์ƒ์˜ ํŒŒ์ง€ ์‚ฌ๋ก€๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•˜์—ฌ, ๋ณธ ๋ถ„์•ผ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ž์›์„ ์ œ๊ณตํ•˜๊ณ  GraspGen์˜ ๊ฐ์ฒด/๊ทธ๋ฆฌํผ ํ™•์žฅ์„ฑ์„ ๋’ท๋ฐ›์นจํ•˜์˜€๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” ์ด ๋…ผ๋ฌธ์˜ ๋™๊ธฐ์™€ ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ์‚ดํŽด๋ณด๊ณ , GraspGen ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ „์ฒด์ ์ธ ๊ตฌ์„ฑ๊ณผ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ƒ์„ฑ ์•„ํ‚คํ…์ฒ˜์˜ ์„ค๊ณ„ ๋ฐ ์ฐธ์‹ ์„ฑ, On-Generator ํ›ˆ๋ จ ์ „๋žต์˜ ๊ตฌ์ฒด์  ๋ฐฉ๋ฒ•๊ณผ ํšจ๊ณผ๋ฅผ ๋ถ„์„ํ•œ๋‹ค. ์ด์–ด์„œ ์‹คํ—˜ ๊ตฌ์„ฑ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์„น์…˜๋ณ„๋กœ ์ƒ์„ธํžˆ ๊ฒ€ํ† ํ•˜๊ณ , ์„ฑ๋Šฅ์ƒ์˜ ์šฐ์œ„์™€ ํ•œ๊ณ„์ ์„ ๋น„ํŒ์ ์œผ๋กœ ๋…ผ์˜ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ณ ์ฐฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์— ๋Œ€ํ•ด ์ œ์–ธํ•œ๋‹ค.

2.2 Related Work

6-์ž์œ ๋„ ํŒŒ์ง€๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ Grasp Sampling(GS)๊ณผ Grasp Analysis(GA)์˜ ๋‘ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ตœ๊ทผ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๋ฐœ์ „์— ํž˜์ž…์–ด GS ๋‹จ๊ณ„์— ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ ํ™•๋ฅ  ์ƒ์„ฑ ๊ธฐ๋ฒ•๋“ค์ด ๋„์ž…๋˜์—ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ์ด๋‚˜ ๋ณ€๋ถ„ ์˜คํ† ์ธ์ฝ”๋”(VAE) ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด ์‹œ๋„๋˜์—ˆ์œผ๋ฉฐ, ํ›„์† ์—ฐ๊ตฌ์—์„œ๋Š” ํ™•์‚ฐ ๋ชจ๋ธ(diffusion model)์„ 6-DoF ํŒŒ์ง€ ์ƒ์„ฑ์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๊ณ  ์žˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ, Mousavian ๋“ฑ์˜ VAE ๊ธฐ๋ฐ˜ GraspNet, Urain ๋“ฑ์˜ SE3-DiffusionFields, Weng ๋“ฑ์˜ DexDiffuser ๋“ฑ์ด 6-์ž์œ ๋„ ํŒŒ์ง€ ๋ฌธ์ œ์— ํ™•์‚ฐ ๋ชจ๋ธ์„ ์ ์šฉํ•œ ์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์ด๋‹ค. ํ•œํŽธ GA ๋‹จ๊ณ„์—์„œ๋Š” ์ƒ์„ฑ๋œ ํŒŒ์ง€ ํ›„๋ณด์˜ ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ์„ ์ ์ˆ˜ํ™”ํ•˜๊ณ  ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ ์œ„ํ•œ Discriminator ๋ชจ๋ธ์ด ์ฃผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, GQCN (Grasp Quality CNN, Mousavian ๋“ฑ 2019)์ด๋‚˜ PointNetGPD (Liang ๋“ฑ 2019) ๋“ฑ์ด ๋‹จ์ผ ํŒŒ์ง€ ํ‰๊ฐ€๊ธฐ(discriminator)๋กœ ํ™œ์šฉ๋œ ๋ฐ” ์žˆ์œผ๋ฉฐ, Weng ๋“ฑ์€ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ๊ธฐ์— ๋ณ„๋„์˜ Discriminator๋ฅผ ์ ‘๋ชฉํ•˜์˜€๋‹ค. ํฅ๋ฏธ๋กœ์šด ์‹œ๋„๋กœ๋Š” ๋‹จ์ผ ๋ชจ๋ธ์ด ํŒŒ์ง€ ํ›„๋ณด ์ƒ์„ฑ๊ณผ ํ‰๊ฐ€๋ฅผ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•œ ๋ฐฉ๋ฒ•๋„ ์žˆ๋Š”๋ฐ, Sundermeyer ๋“ฑ์€ ๊ทธ๋ฆฌํผ ์ ‘์ด‰์ ์„ ํ‘œํ˜„ํ•œ ํ›„ ์ด๋ฅผ ํ•™์Šตํ•ด ๊ณง๋ฐ”๋กœ ์ตœ๊ณ  ํŒŒ์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•˜์˜€๊ณ , Yuan ๋“ฑ์€ ์ด๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ Transformer๋ฅผ ํ™œ์šฉํ•œ M2T2 ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜์˜€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ ‘์ด‰์  ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์€ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ๊ทธ๋ฆฌํผ ํ˜•ํƒœ๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

์ž…๋ ฅ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ ์ธก๋ฉด์—์„œ๋„ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๊ฐ€ ์ด๋ฃจ์–ด์กŒ๋‹ค. ํŒŒ์ง€ ๋ชจ๋ธ์€ ๋ฌผ์ฒด์˜ 3D ํ˜•์ƒ์„ ๋ฐ›์•„๋“ค์ด๋Š”๋ฐ, point cloud ๊ธฐ๋ฐ˜ ํ‘œํ˜„์ด ๋งŽ์ด ํ™œ์šฉ๋˜์—ˆ๊ณ , ์ด์™ธ์—๋„ ์•”์‹œ์  ํ‘œํ˜„(Implicit surface)์ด๋‚˜ ๋ณต์…€(voxel) ํ‘œํ˜„ ๋“ฑ์„ ์‚ฌ์šฉํ•œ ์‚ฌ๋ก€๊ฐ€ ์žˆ๋‹ค. GraspGen์„ ๋น„๋กฏํ•œ ๋‹ค์ˆ˜์˜ ์ตœ์‹  ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ฌผ์ฒด ์ค‘์‹ฌ์˜ 3D point cloud ์ž…๋ ฅ์„ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ์ด๋Š” ์ „์ดํ•™์Šต๋œ ์ธ์Šคํ„ด์Šค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋“ˆ ๋“ฑ์„ ํ†ตํ•ด Scene์—์„œ ๋Œ€์ƒ ๋ฌผ์ฒด์˜ point cloud์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ณต๊ธ‰๋ฐ›๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๊ฐ€์ •ํ•œ๋‹ค. ๋ฌผ์ฒด ์ค‘์‹ฌ ์ ‘๊ทผ์˜ ์žฅ์ ์€ ํ›ˆ๋ จ ์‹œ ๋ณต์žกํ•œ Scene์„ ์ผ์ผ์ด ์ƒ์„ฑํ•˜์ง€ ์•Š์•„๋„ ๋œ๋‹ค๋Š” ์ ์ด๋ฉฐ, SAM2 ๋“ฑ ๋ถ„ํ•  ๋ชจ๋ธ์˜ ์„ฑ์ˆ™์œผ๋กœ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์ด ํ˜„์‹ค์ ์œผ๋กœ ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค๋Š” ๊ฒƒ์ด ์ €์ž๋“ค์˜ ์ฃผ์žฅ์ด๋‹ค.

ํ™•์‚ฐ ๋ชจ๋ธ๊ณผ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์˜ ์ ‘๋ชฉ์€ ์ตœ๊ทผ ํ™œ๋ฐœํ•˜๋‹ค. ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion model)์€ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ๊ณ  (Ho ๋“ฑ 2020; Song & Ermon 2019) ๋†’์€ ์ฐจ์› ์—ฐ์†ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š”๋ฐ ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๋กœ ์ธ์ •๋ฐ›๊ณ  ์žˆ๋‹ค. ๋กœ๋ด‡ ๋ถ„์•ผ์—์„œ๋„ ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋น„์ „-๋ชจํ„ฐ ์ •์ฑ… ํ•™์Šต (Chi ๋“ฑ 2024), ๋ชจ์…˜ ํ”Œ๋ž˜๋‹ (Huang ๋“ฑ 2024), Scene ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ํŒŒ์ง€ ์ƒ์„ฑ์—๋Š” ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ๊ฐ€ ์‹œ๋„๋˜์—ˆ๋‹ค. Urain ๋“ฑ์€ antipodal ๊ทธ๋ฆฝ์˜ 6-DoF ์œ„์น˜๋ฅผ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ ์ƒ์„ฑํ•˜๋Š” ๊ฐœ๋…์„ ์ฒ˜์Œ ์ œ์•ˆํ•˜์˜€๊ณ , Weng ๋“ฑ์€ ์ด๋ฅผ ๋ฏธ์ง€์˜ ๋ฌผ์ฒด์™€ ๋ฉ€ํ‹ฐํ•‘๊ฑฐ ์† ๋™์ž‘์œผ๋กœ ํ™•์žฅํ•˜์—ฌ DexDiffuser๋ฅผ ๋ฐœํ‘œํ•˜๋ฉด์„œ Discriminator๋ฅผ ์ถ”๊ฐ€ํ•˜์˜€๋‹ค. ์ด ๋‘ ์—ฐ๊ตฌ๋Š” GraspGen์— ์ง์ ‘์ ์ธ ์„ ํ–‰์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ, GraspGen์€ ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘-๊ทธ๋ฆฌํผ ๋ฐ์ดํ„ฐ์…‹์„ ์ถ”๊ฐ€๋กœ ๊ตฌ์ถ•ํ•˜๊ณ  ์ƒ์„ฑ(ํŒŒ์ง€ ํ›„๋ณด ์ƒ์„ฑ)๊ณผ ํ‰๊ฐ€(ํŒŒ์ง€ ํŒ๋ณ„) ๋‹จ๊ณ„ ๋ชจ๋‘์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊พ€ํ•œ ์ ์—์„œ ์ฐจ๋ณ„ํ™”๋œ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, GraspGen์€ ์ด์ „ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ƒ์„ฑ๊ธฐ์˜ ๊ฐœ๋…์„ ๋ฐœ์ „์‹œํ‚ค๋ฉด์„œ, ์˜จ-์ œ๋„ˆ๋ ˆ์ดํ„ฐ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ Discriminator ํ•™์Šต์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์š”์†Œ๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ „์ฒด ํŒŒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ •ํ™•๋„์™€ ํšจ์œจ์„ ๊ฐœ์„ ํ•œ ์ตœ์‹  ํ”„๋ ˆ์ž„์›Œํฌ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

2.3 GraspGen ํ”„๋ ˆ์ž„์›Œํฌ (Proposed Method)

GraspGen์€ ํŒŒ์ง€ ํ›„๋ณด ์ƒ์„ฑ๊ณผ ํŒŒ์ง€ ํ‰๊ฐ€์˜ ๋‘ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋œ ๋ชจ๋“ˆ์‹ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์ „์ž๋Š” ํ™•์‚ฐ ๋ชจ๋ธ์— ๊ธฐ๋ฐ˜ํ•œ ์ƒ์„ฑ๊ธฐ(generator)๊ฐ€ ๋งก๊ณ , ํ›„์ž๋Š” ๋ณ„๋„๋กœ ํ•™์Šต๋œ Discriminator(discriminator)๊ฐ€ ๋‹ด๋‹นํ•œ๋‹ค. ์ƒ์„ฑ๊ธฐ์™€ Discriminator๋Š” ๋ชจ๋‘ ๋ฌผ์ฒด ์ค‘์‹ฌ์˜ point cloud ์ž…๋ ฅ์— ์กฐ๊ฑด๋ถ€๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ๋‘ ๋ชจ๋“ˆ ๋ชจ๋‘์— Transformer ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•œ ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค. ์ดํ•˜์—์„œ๋Š” ๋จผ์ € ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ƒ์„ฑ๊ธฐ์˜ ์„ค๊ณ„์™€ ํ•™์Šต ๋ฐฉ์‹์„ ์‚ดํŽด๋ณด๊ณ , ์ด์–ด์„œ On-Generator ํ›ˆ๋ จ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ Discriminator์˜ ๊ตฌ์กฐ์™€ ํ›ˆ๋ จ๋ฒ•์„ ์„ค๋ช…ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ GraspGen์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ์— ๋Œ€ํ•ด ์–ธ๊ธ‰ํ•œ๋‹ค.

2.3.1 Grasp Generation with Diffusion

GraspGen์˜ ํ•ต์‹ฌ์€ SE(3) ๊ณต๊ฐ„์—์„œ์˜ 6-์ž์œ ๋„ ํŒŒ์ง€ ๋ถ„ํฌ๋ฅผ ํ™•์‚ฐ ๋ชจ๋ธ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ์„ฑ๊ณต ๊ฐ€๋Šฅํ•œ ํŒŒ์ง€ ์ž์„ธ๋Š” ์—ฐ์†์ ์ด๋ฉด์„œ๋„ ๊ณ ๋„๋กœ ๋‹ค์ค‘๋ชจ๋“œ(multimodal) ๋ถ„ํฌ๋ฅผ ์ด๋ฃจ๋ฏ€๋กœ, ์ด๋ฅผ ๋ฐ์ดํ„ฐ ์ฃผ๋„์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์ด ์ ํ•ฉํ•˜๋‹ค. ํ™•์‚ฐ ๋ชจ๋ธ์—์„œ๋Š” ํ•™์Šต ์‹œ ์ •๋‹ต ๋ฐ์ดํ„ฐ์— ์ ์ฐจ ๋…ธ์ด์ฆˆ๋ฅผ ์ฃผ์ž…ํ•˜๊ณ , ์ถ”๋ก  ์‹œ๋Š” ๋ฐ˜๋Œ€๋กœ ๋…ธ์ด์ฆˆ๋กœ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›ํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. Urain ๋“ฑ(2023)์€ 6-DoF ํŒŒ์ง€๋ฅผ ์—๋„ˆ์ง€ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(EBM)๋กœ ์ •์‹ํ™”ํ•˜์—ฌ score-matching Langevin dynamics ๋ฐฉ์‹์˜ ํ™•์‚ฐ์„ ๊ตฌํ˜„ํ•˜์˜€์œผ๋‚˜, ์ด ์ ‘๊ทผ์€ ์ถ”๋ก  ์‹œ ๋งค ๋‹จ๊ณ„๋งˆ๋‹ค EBM์˜ ๋กœ๊ทธ-๋ฐ€๋„ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋งค์šฐ ๋А๋ฆฌ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. GraspGen์€ ๋Œ€์‹  DDPM(Denoising Diffusion Probabilistic Model) ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ, ๋ฐ˜๋ณต์  ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๋กœ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•œ๋‹ค. DDPM์€ ๊ตฌํ˜„์ด ๊ฐ„๋‹จํ•˜๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์ด ๋†’์•„ ํŒŒ์ง€ ๋ฌธ์ œ์— ๋” ์ ํ•ฉํ•˜๋ฉฐ, ์ตœ๊ทผ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด EBM ๊ธฐ๋ฐ˜ SMLD์™€ DDPM ์‚ฌ์ด์— ์ด๋ก ์  ๋™๋“ฑ์„ฑ์ด ์„ฑ๋ฆฝํ•จ์ด ์•Œ๋ ค์ ธ ์žˆ๋‹ค.

ํ•œ ๊ฐ€์ง€ ๋ฌธ์ œ๋Š” SE(3) ๊ณต๊ฐ„ ์ค‘ ํšŒ์ „ ๊ณต๊ฐ„(SO(3))์ด ์œ ํด๋ฆฌ๋“œ ๊ณต๊ฐ„์ด ์•„๋‹ˆ๋ผ๋Š” ์ ์ธ๋ฐ, GraspGen์€ Urain ๋“ฑ์˜ ์„ ํ–‰ ์—ฐ๊ตฌ์™€ ์œ ์‚ฌํ•˜๊ฒŒ SE(3)์„ translation(ํ‰ํ–‰์ด๋™) ๋ถ€๋ถ„๊ณผ ํšŒ์ „ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„๋ฆฌ(factorize)ํ•˜์—ฌ ๋‹ค๋ฃฌ๋‹ค. SO(3)๋Š” ํŠน์ˆ˜ํ•œ ๋ฆฌ ๊ตฐ ๊ณต๊ฐ„์ด์ง€๋งŒ, ์ด๋ฅผ ์ ์ ˆํ•œ ํ‘œํ˜„(์˜ˆ: ํšŒ์ „ ํ–‰๋ ฌ ๋˜๋Š” ๋ฆฌ ๋Œ€์ˆ˜ ๋“ฑ)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด ์‚ฌ์‹ค์ƒ ์œ ํด๋ฆฌ๋“œ ๊ณต๊ฐ„์ฒ˜๋Ÿผ ์ทจ๊ธ‰ํ•  ์ˆ˜ ์žˆ๋‹ค. GraspGen์€ translation ๋ฒกํ„ฐ(3์ฐจ์›)์™€ ํšŒ์ „ ํ‘œํ˜„(3์ฐจ์›; ์˜ˆ: Lie algebra)๋กœ ๊ทธ๋ฆฝ์„ ํ‘œํ˜„ํ•˜๊ณ , ์ด๋“ค ๊ฐ๊ฐ์— ๋ณ„๋„์˜ ํ™•์‚ฐ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ ์šฉํ•˜์˜€๋‹ค. ํ•˜๋‚˜์˜ DDPM์œผ๋กœ translation+ํšŒ์ „์„ ๋™์‹œ์— ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋‘ ๊ฐœ์˜ ํ”„๋กœ์„ธ์Šค๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ณ‘ํ–‰ ์ƒ์„ฑํ•˜๋Š” ํŽธ์ด ์„ฑ๋Šฅ์ด ๋” ์šฐ์ˆ˜ํ–ˆ๋Š”๋ฐ, ์ €์ž๋“ค์€ ์ด๋ ‡๊ฒŒ ๋ถ„ํ• ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์ด ๊ฐ ๋ถ€๋ถ„์— ๋ณด๋‹ค ํŠนํ™”๋œ ํ•™์Šต์„ ํ•  ์ˆ˜ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ํ•ด์„ํ•œ๋‹ค. ๋˜ํ•œ ํŒŒ์ง€์˜ ์ด ์ฐจ์›์ด 6์œผ๋กœ ๋น„๊ต์  ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ํ”ํžˆ ์“ฐ์ด๋Š” 100ํšŒ ์ด์ƒ์˜ ํ™•์‚ฐ ๋‹จ๊ณ„ ๋Œ€์‹  20ํšŒ ๋ฏธ๋งŒ์˜ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์Šคํ…๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค. (์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ ํ”ฝ์…€ ์ฐจ์›์ด ์ˆ˜๋งŒ ์ด์ƒ์ด๋ฏ€๋กœ ํ›จ์”ฌ ๋ณต์žกํ•œ ๋ฐ˜๋ฉด, ํŒŒ์ง€ ์ž์„ธ๋Š” 6์ฐจ์›์˜ ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ์ถœ๋ ฅ์ด๋ผ๋Š” ์ ์„ ๊ณ ๋ คํ•œ ๊ฒƒ์ด๋‹ค.)

ํ™•์‚ฐ ๋ชจ๋ธ ํ•™์Šต ์‹œ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์Šค์ผ€์ผ ์ •๊ทœํ™”๋„ ์ค‘์š”ํ•œ ์ด์Šˆ์ด๋‹ค. ํŠนํžˆ translation ์„ฑ๋ถ„์˜ ๊ฒฝ์šฐ ๋ฌผ์ฒด ํฌ๊ธฐ์— ๋”ฐ๋ผ ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค. GraspGen์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํ†ต๊ณ„์น˜๋ฅผ ์ด์šฉํ•˜์—ฌ translation ๋ฒกํ„ฐ๋ฅผ ์ •๊ทœํ™”ํ•˜์˜€๋Š”๋ฐ, ๋ชจ๋“  ํ•™์Šต ๋ฐ์ดํ„ฐ(์„ฑ๊ณต ํŒŒ์ง€๋“ค์˜ translation ์„ฑ๋ถ„)๋ฅผ ๋ชจ์€ ๋’ค ๊ทธ ํ‘œ์ค€ํŽธ์ฐจ์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’์„ ์Šค์ผ€์ผ ์ธ์ž๋กœ ์ฑ„ํƒํ•˜์˜€๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ณ„๋„ ๊ทธ๋ฆฌ๋“œ ํƒ์ƒ‰ ์—†์ด ์ž๋™์œผ๋กœ ์ ์ ˆํ•œ ์ •๊ทœํ™” ๊ณ„์ˆ˜๋ฅผ ์„ค์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ ์ด ๊ฐ’์ด ์„ฑ๋Šฅ ์ธก๋ฉด์—์„œ ํ•ฉ๋ฆฌ์ ์ธ ๊ตญ์†Œ ์ตœ์  ์—ญํ• ์„ ํ•จ์„ ํ™•์ธํ•˜์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Franka ๊ทธ๋ฆฌํผ์˜ ๊ฒฝ์šฐ ์•ฝ 3.27์˜ ์Šค์ผ€์ผ ์ธ์ž๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ํ•œํŽธ ํšŒ์ „ ์„ฑ๋ถ„์€ ์ด๋ฏธ ์ œํ•œ๋œ ๋ฒ”์œ„๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ (์˜ˆ: 6D ํšŒ์ „ ํ‘œํ˜„์˜ ๊ฒฝ์šฐ ํ•œ์ •๋œ ๊ณต๊ฐ„), ์ถ”๊ฐ€ ์ •๊ทœํ™”๊ฐ€ ํ•„์š” ์—†๋‹ค.

GraspGen์˜ ํ™•์‚ฐ ๋ชจ๋ธ ๋„คํŠธ์›Œํฌ๋Š” Transformer ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์šฐ์„  ๋ฌผ์ฒด์˜ point cloud์€ ์ตœ์‹  ๊ตฌ์กฐ์ธ PointTransformerV3 (PTv3)๋กœ ์ž„๋ฒ ๋”ฉ๋œ๋‹ค. ์ด์ „๊นŒ์ง€์˜ ์ƒ์„ฑ์  ํŒŒ์ง€ ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ PointNet++์™€ ๊ฐ™์€ PointNet ๊ณ„์—ด ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ–ˆ์œผ๋‚˜, GraspGen์€ ์ฒ˜์Œ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ point cloud ์ธ์ฝ”๋”๋ฅผ ๋„์ž…ํ•˜์˜€๋‹ค. PTv3๋Š” ๋น„์ •ํ˜• point cloud์„ ์ผ๋ จ์˜ ํ† ํฐ(์‹œํ€€์Šค)์œผ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„ self-attention์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๊ธฐ์กด PointNet++์˜ ๋ณต์žกํ•œ ์ด์›ƒ ํƒ์ƒ‰ ์—ฐ์‚ฐ์„ ํ”ผํ•˜๋ฉด์„œ๋„ ๋†’์€ ํ‘œํ˜„๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ๋ฒ•์ด๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ๋ฌผ์ฒด ์ž„๋ฒ ๋”ฉ ํ† ํฐ๊ณผ, ๊ทธ๋ฆฝ์˜ ํ˜„์žฌ ๋…ธ์ด์ฆˆ ์ƒํƒœ(ํ˜น์€ ์‹œ๊ฐ„ step) ๋“ฑ์˜ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ตฌ์„ฑ๋œ๋‹ค. ํ•ด๋‹น ๋„คํŠธ์›Œํฌ๋Š” Diffusion-Transformer ์•„ํ‚คํ…์ฒ˜๋ผ ๋ถˆ๋ฆฌ๋ฉฐ, ์‹œ๊ฐ„ ์Šคํ… ์ธ๋ฑ์Šค t๋Š” ์‚ฌ์ธ-์ฝ”์‚ฌ์ธ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์œผ๋กœ ์ž„๋ฒ ๋”ฉ๋˜๊ณ  ๊ทธ๋ฆฝ ํฌ์ฆˆ๋Š” MLP๋ฅผ ํ†ตํ•ด ๋ณ€ํ™˜๋œ ํ›„ Transformer์— ์ž…๋ ฅ๋œ๋‹ค.

ํ•™์Šต ์‹œ์—๋Š” ์ž„์˜์˜ ์Šคํ… t๋ฅผ ์„ ํƒํ•˜์—ฌ ํ˜„์žฌ์˜ ๊ทธ๋ฆฝ ๋ฐ์ดํ„ฐ์— ๋…ธ์ด์ฆˆ๋ฅผ ์„ž์€ ํ›„, ๋„คํŠธ์›Œํฌ๊ฐ€ ์ฃผ์ž…๋œ ๋…ธ์ด์ฆˆ๋ฅผ ๋งž์ถ”๋„๋ก ํ•™์Šตํ•œ๋‹ค (denoising loss). ๋ณด๋‹ค ๊ตฌ์ฒด์ ์œผ๋กœ, ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ f_\theta๊ฐ€ ๋ฌผ์ฒด point cloud P์— ์กฐ๊ฑด๋ถ€๋กœ ์ฃผ์–ด์ง„๋‹ค๊ณ  ํ•  ๋•Œ, ์†์‹คํ•จ์ˆ˜๋Š” ์‹ค์ œ ๋…ธ์ด์ฆˆ \epsilon๊ณผ ์˜ˆ์ธก ๋…ธ์ด์ฆˆ \hat{\epsilon}=f_\theta(P, t, \text{noisy grasp}) ์‚ฌ์ด์˜ ์ฐจ์ด(ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ)๋กœ ์ •์˜๋œ๋‹ค.

์ด๋ ‡๊ฒŒ ํ›ˆ๋ จ๋œ ์ƒ์„ฑ๊ธฐ๋Š” ์ถ”๋ก  ์‹œ ์ƒˆ๋กœ์šด point cloud P์— ๋Œ€ํ•ด ๋žœ๋ค ๋…ธ์ด์ฆˆ๋กœ ์ดˆ๊ธฐํ™”๋œ ๊ทธ๋ฆฝ ํฌ์ฆˆ๋“ค์„ ์ ์ง„์ ์œผ๋กœ denoisingํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํŒŒ์ง€ ํ›„๋ณด๋“ค์„ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค. GraspGen์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ๋ฌผ์ฒด point cloud๊ณผ ๊ทธ๋ฆฝ ์ขŒํ‘œ๊ณ„๋ฅผ ๋ฌผ์ฒด์˜ ์ค‘์‹ฌ์œผ๋กœ ์ •๊ทœํ™”(ํ‰ํ–‰์ด๋™)ํ•˜์—ฌ ์ž…๋ ฅํ•จ์œผ๋กœ์จ, ์ขŒํ‘œ๊ณ„ ์„ค์ •์— ๋”ฐ๋ฅธ ํ˜ผ๋™์„ ์ค„์˜€๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ์ƒ์„ฑ๋œ ๋‹ค์ˆ˜์˜ ํŒŒ์ง€ ํ›„๋ณด๋“ค์€ ๋‹ค์Œ ๋‹จ๊ณ„์ธ Discriminator๋กœ ๋„˜์–ด๊ฐ€ ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌ๋ฐ›๊ฒŒ ๋œ๋‹ค.

2.3.2 Grasp Evaluation with On-Generator Training

์ƒ์„ฑ ๋ชจ๋ธ๋งŒ์œผ๋กœ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•  ๊ฒฝ์šฐ ๋ชจ๋ธ์˜ ๊ทผ์‚ฌ ์˜ค๋ฅ˜๋กœ ์ธํ•ด ํ˜„์‹ค์ ์œผ๋กœ๋Š” ์„ฑ๊ณต ํ™•๋ฅ ์ด ๋‚ฎ์€ ๊ฑฐ์ง“ ์–‘์„ฑ ํŒŒ์ง€(False Positive Grasp)๋“ค๋„ ์ƒ๋‹น์ˆ˜ ํฌํ•จ๋  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ๊ทธ๋ฆฝ์ด ์‚ด์ง ๋ฌผ์ฒด๋ฅผ ๊ด€ํ†ตํ•˜๊ฑฐ๋‚˜ ๋ฌผ์ฒด์—์„œ ์ƒ๋‹นํžˆ ๋–จ์–ด์ง„ ์œ„์น˜๋กœ ์ƒ์„ฑ๋˜๋Š” ๋“ฑ, ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ๋“œ๋ฌธ ์˜์—ญ์—์„œ ๋‚˜์˜จ ๋ถ€์ ์ ˆํ•œ ๊ทธ๋ฆฝ๋“ค์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ตœ์ข… ๋กœ๋ด‡ ์‹คํ–‰ ์ „์— ์ด๋Ÿฌํ•œ ํ›„๋ณด๋“ค์„ ๊ฑธ๋Ÿฌ๋‚ผ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ•„์ˆ˜์ ์ด๋ฉฐ, ๋งŽ์€ ์„ ํ–‰ ์—ฐ๊ตฌ๊ฐ€ ๋ณ„๋„์˜ ํ•™์Šต๋œ Discriminator๋กœ ๊ฐ ํŒŒ์ง€์˜ ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ์„ ์ ์ˆ˜ํ™”ํ•˜์—ฌ ์ƒ์œ„ ๋ช‡ ๊ฐœ๋ฅผ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด์™”๋‹ค. GraspGen ์—ญ์‹œ Discriminator๋ฅผ ํ™œ์šฉํ•˜๋‚˜, ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„ ์ ์„ ๋„์ž…ํ•˜์—ฌ ๊ธฐ์กด ์ ‘๊ทผ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ–ˆ๋‹ค.

2.3.2.1 On-Generator Training

์ฒซ์งธ๋Š” ์•ž์„œ ๊ฐ•์กฐํ•œ On-Generator ํ›ˆ๋ จ ๊ธฐ๋ฒ•์ด๋‹ค. ๊ธฐ์กด์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค(Sim-to-real) ํŒŒ์ง€ ํ•™์Šต์—์„œ๋Š” ์„ฑ๊ณต/์‹คํŒจ๋กœ ๋ผ๋ฒจ๋ง๋œ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์…‹๋งŒ์œผ๋กœ Discriminator๋ฅผ ํ•™์Šต์‹œ์ผฐ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ €์ž๋“ค์€ ์ƒ์„ฑ๊ธฐ๊ฐ€ ๋งŒ๋“ค์–ด๋‚ด๋Š” ํŒŒ์ง€ ๋ถ„ํฌ๊ฐ€ ์ด ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์™€ ๋‹ค๋ฅด๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•˜์˜€๋‹ค. ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์˜ ์‹คํŒจ ์‚ฌ๋ก€๋Š” ์ฃผ๋กœ ๋ฌผ์ฒด์— ์ „ํ˜€ ์ ‘์ด‰ํ•˜์ง€ ๋ชปํ•œ ๊ทธ๋ฆฝ(์˜ˆ: ์ถฉ๋Œ ์—†์ด ํ—ˆ๊ณต์„ ์ง‘๋Š” ๊ทธ๋ฆฝ)์ด๊ฑฐ๋‚˜ ์•„์ฃผ ์—‰๋šฑํ•œ ์œ„์น˜์˜ ๊ทธ๋ฆฝ๋“ค๋กœ ์ด๋ฃจ์–ด์ง€์ง€๋งŒ, ํ™•์‚ฐ ์ƒ์„ฑ๊ธฐ๊ฐ€ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ทธ๋ฆฝ ์ค‘์—๋Š” ๋ฌผ์ฒด๋ฅผ ์‚ด์ง ๊ด€ํ†ตํ•˜๋Š” ๋“ฑ ๋ฏธ์„ธํ•œ ์ถฉ๋Œ์„ ์ผ์œผํ‚ค๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ๋˜ํ•œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ™•๋ฅ  ๋ถ„ํฌ ๊ผฌ๋ฆฌ์— ํ•ด๋‹นํ•˜๋Š” ์ด์ƒ์น˜(outlier) ๊ทธ๋ฆฝโ€”์˜ˆ๋ฅผ ๋“ค๋ฉด ๋ฌผ์ฒด์—์„œ ๋น„์ •์ƒ์ ์œผ๋กœ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๊ทธ๋ฆฝโ€”๋„ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ๋ก€๋“ค์€ ๊ธฐ์กด ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์˜ ์‹คํŒจ ๋ฒ”์ฃผ์—๋Š” ๊ฑฐ์˜ ํฌํ•จ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค (์˜ˆ: ACRONYM ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒฝ์šฐ ์ถฉ๋Œํ•˜๋Š” ์‹คํŒจ ๊ทธ๋ฆฝ์€ ์•„์˜ˆ ์ƒ์„ฑํ•˜์ง€ ์•Š์•˜๋‹ค ๋ณด๊ณ ๋จ). ๋”ฐ๋ผ์„œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ณ ์œ ํ•œ ์—๋Ÿฌ ๋ชจ๋“œ๋ฅผ Discriminator๊ฐ€ ํ•™์Šตํ•˜๋ ค๋ฉด, ์ƒ์„ฑ๊ธฐ ์‚ฐ์ถœ๋ฌผ์„ ํ™œ์šฉํ•œ ๋ณ„๋„ ํ•™์Šต์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์ด ์ €์ž๋“ค์˜ ๊ฐ€์„ค์˜€๋‹ค.

์ด๋ฅผ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด, GraspGen์€ Algorithm 1๋กœ ์ œ์‹œ๋œ ์ ˆ์ฐจ์— ๋”ฐ๋ผ On-Generator ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ Discriminator๋ฅผ ํ•™์Šต์‹œ์ผฐ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, ์šฐ์„  ํ•™์Šต์— ์‚ฌ์šฉ๋œ ๋ชจ๋“  ํ›ˆ๋ จ ๊ฐ์ฒด ์•ฝ 7์ฒœ ๊ฐœ์— ๋Œ€ํ•ด ์ƒ์„ฑ๊ธฐ ๋ชจ๋ธ์„ ๋™๊ฒฐํ•œ ์ฑ„ ์ถฉ๋ถ„ํ•œ ์ˆ˜์˜ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๊ฐ ๊ฐ์ฒด๋งˆ๋‹ค ์•ฝ 2์ฒœ ๊ฐœ์”ฉ, ์ด 1,400๋งŒ ๊ฐœ ๊ฐ€๋Ÿ‰์˜ ํŒŒ์ง€ ์ƒ˜ํ”Œ์„ ์–ป์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์ดˆ๊ธฐ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์…‹(์„ฑ๊ณต/์‹คํŒจ ๋ผ๋ฒจ์ด ์žˆ๋Š” ํŒŒ์ง€ ๋ฐ์ดํ„ฐ)์˜ ๊ทœ๋ชจ์™€ ๋น„์Šทํ•œ ์–‘์ด๋‹ค. ๋‹ค์Œ์œผ๋กœ ์ด ์ƒ์„ฑ๋œ ํŒŒ์ง€๋“ค์— ๋Œ€ํ•ด, ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋•Œ์™€ ๋™์ผํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ ˆ์ฐจ(์˜ˆ: ๊ทธ๋ฆฝ ํ›„ ํ”๋“ค์–ด์„œ ์œ ์ง€๋˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ํ…Œ์ŠคํŠธ)๋ฅผ ๊ฑฐ์ณ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๋ผ๋ฒจ๋งํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ On-Generator ๋ฐ์ดํ„ฐ์…‹(์ƒ์„ฑ๊ธฐ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ผ๋ฒจ)์€ ์ƒ์„ฑ๊ธฐ์˜ ์˜ค๋ฅ˜ ํŒจํ„ด์ด ๋ฐ˜์˜๋œ ์‹คํŒจ ์‚ฌ๋ก€๋“ค์„ ๋‹ค์ˆ˜ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด Discriminator๋ฅผ ํ•™์Šต์‹œํ‚ค๋ฉด ์ƒ์„ฑ๊ธฐ์™€ ๋™์ผ ๋ถ„ํฌ์—์„œ์˜ ํŒ๋ณ„ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์˜ ๋ถ„์„์— ๋”ฐ๋ฅด๋ฉด, ์˜ค์ง ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ ๋Œ€๋น„ On-Generator ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ Discriminator๊ฐ€ ํ˜„์ €ํžˆ ๋†’์€ AUC๋ฅผ ๊ธฐ๋กํ•˜์—ฌ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ๋‘ ๋ถ„ํฌ๋ฅผ ๋ชจ๋‘ ์„ž์–ด์„œ ํ•™์Šตํ•œ ๊ฒฝ์šฐ ๊ทธ ์ค‘๊ฐ„ ์ •๋„ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์š”์ปจ๋Œ€ ์ƒ์„ฑ๊ธฐ ์‚ฐ์ถœ๋ฌผ์— ํŠนํ™”๋œ ํ›ˆ๋ จ์ด Discriminator์˜ ๊ฑฐ์ง“ ์–‘์„ฑ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ๋น„์•ฝ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ฐธ๊ณ ๋กœ, ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์˜ ๋‹น์œ„์„ฑ์€ ์ €์ž๋“ค์ด ์ œ์‹œํ•œ ๋ถ„ํฌ ๋น„๊ต๋ฅผ ํ†ตํ•ด์„œ๋„ ํ™•์ธ๋œ๋‹ค. ์ง€๊ตฌ ์ด๋™ ๊ฑฐ๋ฆฌ(EMD)๋กœ ์˜คํ”„๋ผ์ธ vs. On-Generator ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ ์ฐจ์ด๋ฅผ ์ •๋Ÿ‰ํ™”ํ•œ ๊ฒฐ๊ณผ, ๋‘ ๋ถ„ํฌ ๊ฐ„์— ์ƒ๋‹นํ•œ ์ฐจ์ด๊ฐ€ ์กด์žฌํ•˜๋ฉฐ ํŠนํžˆ ์‹คํŒจ ๊ทธ๋ฆฝ๋“ค์—์„œ ๊ทธ ์ฐจ์ด๊ฐ€ ํ›จ์”ฌ ํผ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ์‹คํŒจ ์‚ฌ๋ก€์˜ ๊ณต๊ฐ„์  ๋ถ„ํฌ๊ฐ€ ์ƒ์„ฑ๊ธฐ ์ถœ๋ ฅ ์ชฝ์ด ๋” ๋„“๊ฒŒ ํผ์ ธ์žˆ์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, On-Generator ํ›ˆ๋ จ์˜ ํ•„์š”์„ฑ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค.

2.3.2.2 Efficient Distriminator

๋‘˜์งธ ๊ฐœ์„ ์ ์€ ํšจ์œจ์ ์ธ Discriminator ์•„ํ‚คํ…์ฒ˜์ด๋‹ค. ๊ธฐ์กด์˜ 6-DoF ํŒŒ์ง€ Discriminator๋Š” ๋ฌผ์ฒด ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋ณ„๋„์˜ PointNet ๊ธฐ๋ฐ˜ ๋„คํŠธ์›Œํฌ๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‹ค์‹œ ํ•™์Šต์‹œํ‚ค๋Š” ๋“ฑ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, GraspGen์€ ์ƒ์„ฑ๊ธฐ ๋‹จ๊ณ„์—์„œ ํ•™์Šตํ•œ ๋ฌผ์ฒด ์ž„๋ฒ ๋”ฉ์„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ์ค‘๋ณต์„ ์ œ๊ฑฐํ–ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์•ž ๋‹จ๊ณ„์˜ PTv3 ๋ฌผ์ฒด ์ธ์ฝ”๋”๊ฐ€ ์ถœ๋ ฅํ•œ ๋ฌผ์ฒด ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ , ์—ฌ๊ธฐ์— ๋Œ€์‘ํ•˜๋Š” ๊ทธ๋ฆฝ ์ž์„ธ๋ฅผ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•œ ๋ฒกํ„ฐ๋ฅผ ๋‹จ์ˆœ ์—ฐ๊ฒฐ(concatenation)ํ•˜์—ฌ MLP Discriminator์— ์ž…๋ ฅํ•œ๋‹ค. ๊ทธ๋ฆฝ ์ž์„ธ์˜ ํ‘œํ˜„์œผ๋กœ๋Š” SO(3)์˜ ํšŒ์ „ ๋ถ€๋ถ„์„ ์ขŒํ‘œ๋กœ ๋‚˜ํƒ€๋‚ธ ๋ฒกํ„ฐ ๋“ฑ์„ ์ด์šฉํ•œ๋‹ค. ์ด๋Š” Mousavian ๋“ฑ(2019)์˜ GQCN์—์„œ ์‚ฌ์šฉํ•œ ๊ธฐ๋ฒ•โ€”๊ทธ๋ฆฝ์˜ 6D pose๋กœ ๋ฏธ๋ฆฌ ์ •์˜๋œ ๊ทธ๋ฆฌํผ ์ ๋“ค์„ ๋ณ€ํ™˜์‹œ์ผœ ๋ฌผ์ฒด point cloud๊ณผ ํ•จ๊ป˜ PointNet์— ๋„ฃ๋Š” ๋ณต์žกํ•œ ๋ฐฉ์‹โ€”๋ณด๋‹ค ํ›จ์”ฌ ๋‹จ์ˆœํ™”๋œ ์ฒ˜๋ฆฌ์ด๋‹ค. ๋•๋ถ„์— GraspGen์˜ Discriminator๋Š” ์ตœ์†Œํ•œ์˜ ์ถ”๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ์—ฐ์‚ฐ๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ๋ฌผ์ฒด ์ž„๋ฒ ๋”ฉ ๋ถ€๋ถ„์€ ํ•™์Šต๋œ ๊ฒƒ์„ frozenํ•˜์—ฌ ์“ฐ๊ณ  ์˜ค์ง ๋งˆ์ง€๋ง‰ MLP ๊ณ„์ธต๋งŒ ์ด์ง„ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค๋กœ ํ•™์Šตํ•˜๋ฉด ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ๋Ÿ‰ ์„ค๊ณ„๋กœ ์ธํ•ด GraspGen์˜ Discriminator๋Š” ๊ธฐ์กด ๋Œ€๋น„ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•˜๋ฉด์„œ๋„ ์ •ํ™•๋„๋ฅผ ๋†’์˜€๋Š”๋ฐ, ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด ์ด์ „ SoTA Discriminator ๊ตฌ์กฐ์— ๋น„ํ•ด ์•ฝ 6.7 ํฌ์ธํŠธ ๋†’์€ AUC๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ 21% ๊ฐ์†Œ์‹œ์ผฐ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด์ฒ˜๋Ÿผ ๊ฐ€๋ฒผ์šด Discriminator๋Š” ๋‹ค์ˆ˜์˜ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ๋น ๋ฅด๊ฒŒ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•˜๋ฉฐ, ์‹ค์ œ GraspGen ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์‹œ๊ฐ„ ์ถ”๋ก  ์„ฑ๋Šฅ(๋ณ„๋„ ์ตœ์ ํ™” ์ „ ์•ฝ 20Hz ์ˆ˜์ค€)์—๋„ ๊ธฐ์—ฌํ•˜๋Š” ๋ถ€๋ถ„์ด๋‹ค.

2.3.3 GraspGen Dataset

GraspGen์˜ ์„ฑ๊ณต์€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌ๊ฒŒ ํž˜์ž…๊ณ  ์žˆ๋‹ค. ์ €์ž๋“ค์€ GraspGen์„ ํ™•์žฅ์„ฑ ์žˆ๊ฒŒ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์™€ ๊ทธ๋ฆฌํผ๋ฅผ ํฌ๊ด„ํ•˜๋Š” ๋ฐฉ๋Œ€ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์ด 3์ข…์˜ ๊ทธ๋ฆฌํผ(Franka Panda, Robotiq 2F-140 ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ ๋‘ ๊ฐ€์ง€; ์ง๊ฒฝ 30mm์˜ ์ง„๊ณต ํก์ฐฉ ํŒจ๋“œ) ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์•ฝ 1,700๋งŒ ๊ฐœ์”ฉ์˜ ํŒŒ์ง€ ์‹œ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ด ํ•ฉํ•˜๋ฉด 5,300๋งŒ์— ์ด๋ฅด๋Š” ๊ทœ๋ชจ์ด๋‹ค.

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ์œ„ํ•ด ์‚ฌ์šฉ๋œ ๋ฌผ์ฒด๋Š” ๋Œ€๊ทœ๋ชจ 3D ์ž์œจํ˜• ๊ฐ์ฒด ๋ชจ์Œ์ธ Objaverse์—์„œ ์„ ์ •๋˜์—ˆ๋‹ค. Objaverse๋Š” ์ˆ˜์‹ญ๋งŒ ๊ฐœ์˜ 3D ๋ชจ๋ธ์„ ๋‹ด๊ณ  ์žˆ๋Š”๋ฐ, ์ด ์ค‘ ์ €์ž๋“ค์€ LVIS ๋ฐ์ดํ„ฐ์…‹์˜ 1,156๊ฐœ ๋ฒ”์ฃผ์™€ ๊ฒน์น˜๋ฉด์„œ ๋ผ์ด์„ ์Šค๊ฐ€ CC-BY์ธ 36,366๊ฐœ์˜ ๋ฉ”์‰ฌ๋ฅผ ์„ ๋ณ„ํ•˜์˜€๋‹ค. ์ด ๋ฐฉ๋Œ€ํ•œ ๋ฌผ์ฒด ํ’€(pool)๋กœ๋ถ€ํ„ฐ ShapeNetSem ๊ธฐ๋ฐ˜์˜ ๊ธฐ์กด ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹(์˜ˆ: ACRONYM)๋ณด๋‹ค ๋” ํฌ๊ณ  ๋‹ค์–‘ํ•˜๋ฉฐ ๋ผ์ด์„ ์Šค ์ œ์•ฝ์ด ์ ์€ ํ•™์Šต ์ž์›์„ ํ™•๋ณดํ•˜์˜€๋‹ค. ๋‹ค๋งŒ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์ด ์ค‘ ๋ฌด์ž‘์œ„๋กœ 8,515๊ฐœ์˜ ๊ฐ์ฒด๋ฅผ ๋ฝ‘์•„ ACRONYM๊ณผ ๋™์ผํ•œ ๊ทœ๋ชจ์˜ ํ•˜์œ„์…‹์„ ๊ตฌ์„ฑํ•˜๊ณ  ์ด๋ฅผ ์ผ๋ถ€ ์‹คํ—˜์— ํ™œ์šฉํ•˜๊ธฐ๋„ ํ–ˆ๋‹ค.

๊ฐ ๊ฐ์ฒด์— ๋Œ€ํ•ด์„œ๋Š” ํ‘œ๋ฉด ์ฃผ๋ณ€์˜ ๊ณต๊ฐ„์—์„œ uniform random๋กœ 2,000๊ฐœ์˜ ํŒŒ์ง€ ํ›„๋ณด(6D ๊ทธ๋ฆฝ ์ž์„ธ)๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ ํ›„, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๋ ˆ์ด๋ธ”๋งํ•˜์˜€๋‹ค. ๋ ˆ์ด๋ธ”๋ง ํŒŒ์ดํ”„๋ผ์ธ์€ ACRONYM์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๋™์ผํ•˜๊ฒŒ, NVIDIA Isaac Gym/Sim ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์•ˆ์—์„œ ๊ทธ๋ฆฌํผ๋กœ ๋ฌผ์ฒด๋ฅผ ์ฅ” ํ›„ ํ”๋“œ๋Š”(shaking) ๋™์—ญํ•™ ํ…Œ์ŠคํŠธ๋ฅผ ๊ฑฐ์ณ ๋ฌผ์ฒด๊ฐ€ ๋–จ์–ด์ง€์ง€ ์•Š์œผ๋ฉด ์„ฑ๊ณต์œผ๋กœ ํŒ์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ๋”ฐ๋ž๋‹ค. ๋‹ค๋งŒ ํก์ฐฉ ํŒจ๋“œ ๊ทธ๋ฆฌํผ์˜ ๊ฒฝ์šฐ ํก์ฐฉ ๋ชจ๋ธ ํŠน์„ฑ์ƒ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋ณด๋‹ค๋Š” ๋ถ„์„์  ๋ชจ๋ธ(Mahler ๋“ฑ 2018์˜ ํก์ฐฉ ์„ฑ๊ณต ํŒ์ • ๊ณต์‹)์„ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜์˜€๋‹ค.

์ด๋ ‡๊ฒŒ ํ•˜์—ฌ ํ‰ํ–‰ ๊ทธ๋ฆฌํผ 2์ข…๊ณผ ํก์ฐฉ ํŒจ๋“œ ๊ฐ๊ฐ์— ๋Œ€ํ•ด ๋…๋ฆฝ๋œ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ์–ป์—ˆ์œผ๋ฉฐ, GraspGen์€ ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์ค‘-๊ทธ๋ฆฌํผ์— ๊ณต์šฉ์œผ๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹์€ ํ˜„ ์‹œ์  ๊ฐ€์žฅ ํฐ ๊ทœ๋ชจ์˜ ๊ณต๊ฐœ 6-DoF ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ์„œ, ํ–ฅํ›„ ๋ณด๋‹ค ๋ณต์žกํ•œ ํŒŒ์ง€ ๋ฌธ์ œ(์˜ˆ: ๋‹ค์ง€ ์†๊ฐ€๋ฝ ๊ทธ๋ฆฌํผ๋‚˜ ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ดํ„ฐ ํ™˜๊ฒฝ)๋กœ์˜ ํ™•์žฅ ์—ฐ๊ตฌ์—๋„ ์œ ์šฉํ•œ ์ž์›์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

2.4 Experimental Evaluation

GraspGen์˜ ์„ฑ๋Šฅ์€ ๋‹ค์–‘ํ•˜๊ฒŒ ๊ฒ€์ฆ๋˜์—ˆ๋‹ค. ์ €์ž๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ต ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€๊ณ , ๋ณต์žกํ•œ ์ ์žฌ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์˜€์œผ๋ฉฐ, ๋ถ€๋ถ„ ๊ด€์ธก vs. ์™„์ „ ๊ด€์ธก ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์‹คํ—˜๋„ ์ง„ํ–‰ํ•˜์˜€๋‹ค. ์•„์šธ๋Ÿฌ On-Generator ํ›ˆ๋ จ์˜ ํšจ๊ณผ๋ฅผ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€ ์‹คํ—˜๊ณผ, ๋ชจ๋ธ ์„ค๊ณ„ ์š”์†Œ๋“ค์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ๊ธฐ์—ฌ๋„ ๋ถ„์„(ablation)์„ ์‹ค์‹œํ•˜์˜€๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ํ•™์Šต๋œ GraspGen์˜ ํ˜„์‹ค ์ ์šฉ์„ฑ์„ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์‚ดํŽด๋ณธ๋‹ค.

2.4.1 Simulation Results

์‹คํ—˜ ์…‹ํŒ…

์šฐ์„  ๋‹จ์ผ ๋ฌผ์ฒด์— ๋Œ€ํ•œ 6-DoF ํŒŒ์ง€ ์ƒ์„ฑ ์ •ํ™•๋„๋ฅผ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•˜์˜€๋‹ค.

๋น„๊ต ๋Œ€์ƒ ๋ฒ ์ด์Šค๋ผ์ธ์œผ๋กœ๋Š” ์ ‘์ด‰์  ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ธ M2T2 (Yuan ๋“ฑ 2023)์™€ Contact-GraspNet (Sundermeyer ๋“ฑ 2021), ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ธ SE3-DiffusionFields (Urain ๋“ฑ 2023)์™€ DexDiffuser (Weng ๋“ฑ 2024), ๊ทธ๋ฆฌ๊ณ  ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์˜ AnyGrasp (Fang ๋“ฑ 2023)๋ฅผ ํฌํ•จํ•˜์˜€๋‹ค. ๋‹ค๋งŒ Contact-GraspNet์€ ์ด์ „ ์—ฐ๊ตฌ์—์„œ ์ด๋ฏธ M2T2๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ๊ฒƒ์œผ๋กœ ๋ณด๊ณ ๋˜์–ด ๋ณธ ์žฅ์˜ ์ฃผ์š” ๋น„๊ต์—์„œ๋Š” ์ œ์™ธํ•˜๊ณ , ํ›„์ˆ ํ•˜๋Š” ์ถ”๊ฐ€ ์‹คํ—˜์—์„œ ๋‹ค๋ฃจ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ๋˜ํ•œ AnyGrasp์˜ ๊ฒฝ์šฐ ๋ผ์ด์„ ์Šค ๋ฌธ์ œ๋กœ ์ธํ•ด ํด๋Ÿฌ์Šคํ„ฐ ์ƒ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ง์ ‘ ์‹คํ–‰ํ•˜์ง€ ๋ชปํ•ด, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋น„๊ต์—์„œ๋Š” ๋น ์ง€๊ณ  ์ถ”ํ›„ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ๋งŒ ๋‹ค๋ฃจ์—ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋ชจ๋“  ํ•™์Šต ๋ชจ๋ธ์€ ์•ž์„œ ์†Œ๊ฐœํ•œ ๋™์ผํ•œ GraspGen ๋ฐ์ดํ„ฐ์…‹(Franka-ACRONYM ํ•˜์œ„์…‹, ์•ฝ 8.5k ๊ฐ์ฒด)์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ํ…Œ์ŠคํŠธ๋Š” ๊ทธ ์ค‘ 815๊ฐœ์˜ ๋ฏธ์‚ฌ์šฉ ๊ฐ์ฒด์— ๋Œ€ํ•ด ๊ฐ 2,000๊ฐœ์˜ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์ด 162๋งŒ ํšŒ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํŒŒ์ง€ ์‹œ๋„๋กœ ์„ฑ๊ณต๋ฅ ์„ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋˜์—ˆ๋‹ค.

Full Point Cloud of Single Objects

์ด ์‹คํ—˜์—์„œ๋Š” full point cloud โ€“ ์ฆ‰ ๋ฌผ์ฒด์˜ 3D ๋ฉ”์‰ฌ๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ ์™„์ „ํ•œ point cloud (์Šค์Šค๋กœ ๊ฐ€๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์—†๋Š” ์ƒํ™ฉ) โ€“ ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ์ˆœ์ˆ˜ ํŒŒ์ง€ ์ƒ์„ฑ๊ธฐ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ๋Š” Precision-Coverage ๊ณก์„ ์„ ์‚ฌ์šฉํ•˜์˜€๋Š”๋ฐ, Precision์€ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ (์ •๋ฐ€๋„)์— ํ•ด๋‹นํ•˜๊ณ  Coverage๋Š” ์˜ˆ์ธกํ•œ ๊ทธ๋ฆฝ๋“ค์ด ์‹ค์ œ ์–‘์„ฑ ๊ทธ๋ฆฝ ๋ถ„ํฌ๋ฅผ ์–ผ๋งˆ๋‚˜ ํฌ๊ด„ํ•˜๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ๋กœ์„œ, ์ผ์ • ๊ฑฐ๋ฆฌ ์ด๋‚ด์— ์˜ˆ์ธก ๊ทธ๋ฆฝ์ด ์กด์žฌํ•˜๋Š” ์‹ค์ œ ์„ฑ๊ณต ๊ทธ๋ฆฝ์˜ ๋น„์œจ(Recall์— ์œ ์‚ฌํ•œ ๊ฐœ๋…)๋กœ ์ •์˜๋œ๋‹ค. Coverage๋Š” ํŒŒ์ง€ ๊ฒฐ๊ณผ์˜ ๊ณต๊ฐ„์  ๋‹ค์–‘์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ฒ™๋„์ด๋ฉฐ, ๋‘ ๊ฐ’ ์‚ฌ์ด์˜ AUC (๊ณก์„  ์•„๋ž˜ ๋ฉด์ )๊ฐ€ ๋†’์„์ˆ˜๋ก ์ด์ƒ์ ์ด๋‹ค.

๋น„๊ต ๊ฒฐ๊ณผ, GraspGen์ด ๋ชจ๋“  ๊ธฐ์ค€์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. Precision-Coverage ๊ณก์„ ์˜ AUC ์ธก๋ฉด์—์„œ GraspGen์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ํฌ๊ฒŒ ์ƒํšŒํ•˜์˜€์œผ๋ฉฐ, AUC ๊ธฐ์ค€ 2์œ„์™€์˜ ๊ฒฉ์ฐจ๊ฐ€ ์ƒ๋‹นํ•œ ๊ฒƒ์œผ๋กœ ๋ณด๊ณ ๋˜์—ˆ๋‹ค. ํŠนํžˆ Discriminator๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค(GraspGen, DexDiffuser, M2T2)์ด ์ˆœ์ˆ˜ ์ƒ์„ฑ ๋ชจ๋ธ์ธ SE3-DiffusionFields๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, Discriminator์˜ ์ค‘์š”์„ฑ์„ ์žฌํ™•์ธ์‹œ์ผฐ๋‹ค. ๊ทธ ์ค‘์—์„œ๋„ GraspGen์˜ Discriminator๋Š” On-Generator ํ›ˆ๋ จ ๋•๋ถ„์— DexDiffuser์˜ Discriminator๋ณด๋‹ค ์ƒ์„ฑ๊ธฐ ์ถœ๋ ฅ ๋ถ„ํฌ์— ์ž˜ ์ ์‘๋˜์–ด ์žˆ์–ด, ์ƒ์„ฑ๋œ ๊ทธ๋ฆฝ์˜ ์ˆœ์œ„๋งค๊น€์„ ๋” ์ •ํ™•ํžˆ ์ˆ˜ํ–‰ํ•œ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๋ฐ˜๋ฉด M2T2์˜ ์ ‘์ด‰์  ํŒ๋ณ„ ๋ชจ๋“ˆ์€ ์„ฑ๊ณต ๊ทธ๋ฆฝ์— ๋Œ€ํ•ด์„œ๋งŒ ํ•™์Šต๋˜์–ด ์‹ค์ œ๋กœ๋Š” ์ข‹์€/๋‚˜์œ ์ ‘์ด‰์  ๊ตฌ๋ณ„์— ๊ทธ์น˜๋ฏ€๋กœ, ์‹คํŒจ ๊ทธ๋ฆฝ์„ ๊ฑธ๋Ÿฌ๋‚ด๋Š” ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ ธ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” GraspGen์˜ ์ƒ์„ฑ-ํ‰๊ฐ€ ๊ฒฐํ•ฉ ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•˜๋Š” ๋™์‹œ์—, ํŒŒ์ง€ ๋ฌธ์ œ์—์„œ ์ƒ์„ฑ ํ’ˆ์งˆ๊ณผ ํ•จ๊ป˜ ํ‰๊ฐ€(์Šค์ฝ”์–ด๋ง) ํ’ˆ์งˆ์ด ์ค‘์š”ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Task-level Evaluation in Clutter

์ถ”๊ฐ€๋กœ, GraspGen์€ FetchBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ ์ ์žฌ ํ™˜๊ฒฝ(clutter)์—์„œ์˜ ํŒŒ์ง€ ์„ฑ๋Šฅ๋„ ํ‰๊ฐ€๋˜์—ˆ๋‹ค.

FetchBench (Han ๋“ฑ 2024)๋Š” ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋“ค์ด ๋†“์ธ ํ…Œ์ด๋ธ” ํ™˜๊ฒฝ์—์„œ ์ธ์‹-ํŒŒ์ง€-๊ฒฝ๋กœ๊ณ„ํš-๋ฐฐ์น˜์— ์ด๋ฅด๋Š” ์ „์ฒด ํŒŒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ข…ํ•ฉ ํ‰๊ฐ€ํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค. ์‹คํ—˜์—์„œ๋Š” Franka Panda ๋กœ๋ด‡ํŒ”๊ณผ 100๊ฐœ์˜ ์ž„์˜ ์ƒ์„ฑ ์žฅ๋ฉด์— ๋Œ€ํ•ด, ๊ฐ ์žฅ๋ฉด๋งˆ๋‹ค 60๊ฐœ์˜ ํŒŒ์ง€-์ด๋™ ์ž‘์—…์„ ์‹œ๋„ํ•˜์—ฌ ์ด 6,000ํšŒ์˜ grasp-place ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ์ด๋•Œ GraspGen์˜ ์ž…๋ ฅ์€ ๋‹จ์ผ RGB-D ์นด๋ฉ”๋ผ ๊ด€์ธก์œผ๋กœ ์ƒ์„ฑ๋œ ๋ถ€๋ถ„ point cloud๋“ค์ด๋ฉฐ, ์ธ์Šคํ„ด์Šค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ํ†ตํ•ด ๋ฌผ์ฒด๋ณ„ point cloud์„ ์–ป๋Š”๋‹ค (์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜๊ณผ ๋™์ผํ•œ ์„ค์ •). ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ๊ฒฝ๋กœ๊ณ„ํš์—๋Š” ์žฅ๋ฉด์˜ ์ •ํ™•ํ•œ ์ถฉ๋Œ ๋ชจ๋ธ(ground-truth collision mesh)์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์ธ์‹ ์˜ค์ฐจ๋‚˜ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ์˜ ๋ถˆ์™„์ „์„ฑ์ด ํŒŒ์ง€ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋ผ์น˜๋Š” ์˜ํ–ฅ์„ ์ค„์˜€๋‹ค.

๊ฒฐ๊ณผ ์ง€ํ‘œ๋กœ๋Š” task success๊ณผ grasp success์ด ์‚ฌ์šฉ๋˜์—ˆ๋Š”๋ฐ, ์ „์ž๋Š” ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ๋ชฉํ‘œ ์œ„์น˜์— ๋†“๋Š” ์ „์ฒด ์ž‘์—…์˜ ์„ฑ๊ณต ๋น„์œจ์ด๊ณ  ํ›„์ž๋Š” ์ง‘์–ด ๋“œ๋Š” ๋‹จ๊ณ„๊นŒ์ง€๋งŒ ๊ณ ๋ คํ•œ ๋น„์œจ์ด๋‹ค. (๋ณดํ†ต grasp success๊ฐ€ ๋” ๋†’๊ฒŒ ๋‚˜์˜ค๋ฉฐ, grasp ์ดํ›„ ์šด๋ฐ˜ ์ค‘ ๋ฏธ๋„๋Ÿฌ์ง์ด๋‚˜ ์ถฉ๋Œ์ด ์ถ”๊ฐ€๋กœ ๊ณผ์ œ ์‹คํŒจ๋ฅผ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค.) ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ์ „์ง€์  ์‹œ์ ์—์„œ ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” Oracle ํ”Œ๋ž˜๋„ˆ(์ฆ‰ ๋ฐ์ดํ„ฐ์…‹์— ์žˆ๋Š” ์‹ค์ œ ์„ฑ๊ณต ๊ทธ๋ฆฝ์„ ์•Œ๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •)๊ฐ€ ์‹œ๋„๋˜์–ด ๋น„๊ต๋˜์—ˆ๋Š”๋ฐ, ์ด Oracle์˜ ์„ฑ๋Šฅ์กฐ์ฐจ grasp success ์•ฝ 80%, task success 65% ๋‚จ์ง“์— ๊ทธ์ณค๋‹ค. ์ด๋Š” FetchBench์˜ ๋‚œ์ด๋„๊ฐ€ ๋งค์šฐ ๋†’์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ฃผ์š” ์›์ธ์œผ๋กœ๋Š” ์ถฉ๋Œ ์—†๋Š” ๊ฒฝ๋กœ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ, ๊ธฐ์กด ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ ํ•œ๊ณ„๋กœ ๊ฒฝ๋กœ ํƒ์ƒ‰ ์‹คํŒจ, ๋ฌผ์ฒด๊ฐ€ ๋น„์ข์€ ๊ณต๊ฐ„์— ์žˆ์–ด ๊ทธ๋ฆฝ์ด ์žˆ์–ด๋„ ์ง„์ž… ๋ถˆ๊ฐ€๋Šฅ ๋“ฑ์˜ ํ˜„์‹ค์ ์ธ ๋ฌธ์ œ๊ฐ€ ์ง€๋ชฉ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋Š” GraspGen ๋“ฑ ํŒŒ์ง€ ๋ชจ๋“ˆ ์™ธ์ ์ธ ์š”์†Œ๋กœ ์ธํ•œ ์‹คํŒจ ์š”์ธ์œผ๋กœ, ์ฐจํ›„ ๋ณด๋‹ค ๊ณ ์ฐจ์›์ ์ธ ํ†ตํ•ฉ์  ๊ณ„ํš/์ œ์–ด ์ •์ฑ… ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , GraspGen์€ FetchBench์—์„œ ์ตœ์‹  ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. Contact-GraspNet๊ณผ M2T2 ๋Œ€๋น„ ๊ฐ๊ฐ ์œ ์˜๋ฏธํ•œ ํ–ฅ์ƒํญ(์ˆ˜ %~๋‘ ์ž๋ฆฟ์ˆ˜ %๋Œ€)์„ ๊ธฐ๋กํ•˜๋ฉฐ ์ข…ํ•ฉ์ ์ธ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” GraspGen์ด ๋ณต์žกํ•œ ์ ์žฌ ํ™˜๊ฒฝ์—์„œ๋„ ๊ฐ•์ธํ•œ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ ๋“ฑ์˜ ํ›„์† ๋‹จ๊ณ„์—์„œ ํ•„ํ„ฐ๋ง์„ ๊ฑฐ์นœ ํ›„์—๋„ ์—ฌ์ „ํžˆ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ข‹์€ ํŒŒ์ง€๋“ค์„ ์ œ๊ณตํ•จ์„ ๋œปํ•œ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ๋‹จ์ˆœ Scene(๋‹จ์ผ ๋ฌผ์ฒด)๋ถ€ํ„ฐ ๋ณต์žกํ•œ Scene(๋‹ค์ค‘ ๋ฌผ์ฒด)๊นŒ์ง€ GraspGen์˜ ํŒŒ์ง€ ์ƒ์„ฑ/ํ‰๊ฐ€ ํ’ˆ์งˆ์ด ๋™๊ธ‰ ์ตœ๊ณ  ์ˆ˜์ค€์ž„์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ์ž…์ฆํ•œ ๊ฒƒ์ด๋‹ค.

Sensitivity to Occlucions

๋งˆ์ง€๋ง‰์œผ๋กœ, ๊ด€์ธก ์ •๋ณด์˜ ๋ถˆ์™„์ „์„ฑ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์‚ดํŽด๋ณด์ž.

GraspGen์€ ๋ถ€๋ถ„ point cloud๊ณผ ์™„์ „ point cloud ๋ชจ๋‘์— ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ €์ž๋“ค์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ•˜์˜€๋‹ค. ํ•˜๋‚˜์˜ GraspGen ๋ชจ๋ธ์„ ๋ถ€๋ถ„ ๊ด€์ธก ๋ฐ์ดํ„ฐ(๋‹จ์ผ ๋ทฐ point cloud)๋งŒ์œผ๋กœ ํ›ˆ๋ จํ•œ ๊ฒฝ์šฐ ์™„์ „ point cloud ์ƒํ™ฉ์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋šœ๋ ทํ–ˆ๊ณ , ๊ทธ ๋ฐ˜๋Œ€์˜ ๊ฒฝ์šฐ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋ถ€๋ถ„ point cloud์— ๋Œ€ํ•ด ์„ฑ๋Šฅ ๋ฌธ์ œ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์ด๋Š” ๊ฐ๊ฐ์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์ด ํ•œ์ชฝ ๋ถ„ํฌ์— ๊ณผ์ ํ•ฉ๋˜์–ด ๋‹ค๋ฅธ ๊ฒฝ์šฐ์— ์ ์‘ํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ point cloud ๋ฐ์ดํ„ฐ๋ฅผ 50:50 ๋น„์œจ๋กœ ์„ž์–ด ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์€ ๋ถ€๋ถ„/์™„์ „ point cloud ๋ชจ๋‘์— ๊ฒฌ๊ณ ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์ด GraspGen์˜ ๊ด€์ธก ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”์— ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ์‹ค์ œ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์„ผ์„œ ๊ตฌ์„ฑ์ด ๋‹ฌ๋ผ์ง€๊ฑฐ๋‚˜ ๋ฉ€ํ‹ฐ๋ทฐ/์‹ฑ๊ธ€๋ทฐ ํ™˜๊ฒฝ์ด ํ˜ผ์žฌํ•  ๊ฒฝ์šฐ๋ฅผ ๋Œ€๋น„ํ•ด ํ˜ผํ•ฉ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ํ•„์š”๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

2.4.2 Analysis of On-Generator Training

๋ณธ ์ ˆ์—์„œ๋Š” On-Generator ํ›ˆ๋ จ ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ์กฐ๊ธˆ ๋” ์ž์„ธํžˆ ์–ธ๊ธ‰ํ•œ๋‹ค. ์•ž์„œ On-Generator ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„ํฌ ์ฐจ์ด๋ฅผ EMD๋กœ ๋น„๊ตํ•˜์—ฌ ๊ทธ ํ•„์š”์„ฑ์„ ๋ณด์ธ ๋ฐ” ์žˆ๋Š”๋ฐ, ์ถ”๊ฐ€๋กœ Discriminator ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ์„ ์ง์ ‘ ์‹œํ—˜ํ•˜์˜€๋‹ค.

Discriminator๋ฅผ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•œ ๊ฒฝ์šฐ, On-Generator ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•œ ๊ฒฝ์šฐ, ๊ทธ๋ฆฌ๊ณ  ๋‘ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šตํ•œ ๊ฒฝ์šฐ๋ฅผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, On-Generator ์ „์šฉ ํ•™์Šต ๋ชจ๋ธ์ด ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ  ํ˜ผํ•ฉ ํ•™์Šต์ด ๊ทธ ๋‹ค์Œ, ์ˆœ์ˆ˜ ์˜คํ”„๋ผ์ธ ํ•™์Šต์ด ๊ฐ€์žฅ ์ €์กฐํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด AUC ๊ธฐ์ค€์œผ๋กœ ์˜คํ”„๋ผ์ธ ์ „์šฉ ๋Œ€๋น„ On-Generator ์ „์šฉ์ด ์ƒ๋‹นํ•œ ์ƒ์Šนํญ์„ ๋ณด์˜€๋‹ค๊ณ  ๋ณด๊ณ ๋œ๋‹ค. ์ด๋Š” On-Generator ํ›ˆ๋ จ์ด ์ƒ์„ฑ๊ธฐ ๊ณ ์œ ์˜ ์‹คํŒจ ์–‘์ƒ์„ ์žก์•„๋‚ด๋Š” ๋ฐ ํšจ๊ณผ์ ์ž„์„ ์žฌํ™•์ธํ•ด์ค€๋‹ค. ๋˜ํ•œ On-Generator ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์˜ ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ๋ถ„์„ํ•ด๋ณด๋ฉด, ๋ฌผ์ฒด์™€ ์‚ด์ง ๊ฒน์น˜๋Š” ๊ทธ๋ฆฝ์ด๋‚˜ ๊ฒฝ๋ฏธํ•œ ์ž์„ธ ์˜ค๋ฅ˜๋กœ ์ธํ•ด ๋ถˆ์•ˆ์ •ํ•œ ๊ทธ๋ฆฝ ๋“ฑ์„ ์ž˜ ๊ฑธ๋Ÿฌ๋‚ธ๋‹ค๋Š” ์ ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ Discriminator๋Š” ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ์— ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์€ ์ ์ˆ˜๋ฅผ ์คŒ์œผ๋กœ์จ ์ž˜๋ชป๋œ ์–‘์„ฑ์œผ๋กœ ๋‚จ๊ธฐ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ๊ฒฐ๊ตญ On-Generator ํ›ˆ๋ จ ๋•๋ถ„์— GraspGen์˜ Discriminator๋Š” ์ž๊ธฐ ์ƒ์„ฑ๊ธฐ์˜ ๊ณ ์งˆ์  ์‹ค์ˆ˜๊นŒ์ง€๋„ ์ธ์ง€ํ•˜์—ฌ ๊ฑธ๋Ÿฌ์ค„ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๊ณ , ์ด๊ฒƒ์ด ์ „์ฒด ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์— ํ•ต์‹ฌ์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ–ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

์ถ”๊ฐ€์ ์ธ ์†Œ๊ทœ๋ชจ ablation ์‹คํ—˜๋„ Discriminator ๊ตฌ์กฐ์˜ ์žฅ์ ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋ณต์žกํ•œ PointNet ๊ธฐ๋ฐ˜ Discriminator(Mousavian ๋“ฑ, 2019 ๋“ฑ)์™€ ๋น„๊ตํ•˜์—ฌ GraspGen์˜ ๊ฒฝ๋Ÿ‰ Discriminator๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ 1/5 ์ˆ˜์ค€(์•ฝ 21%)์œผ๋กœ ์ค„์ด๋ฉด์„œ๋„ ์ •ํ™•๋„๋ฅผ ๋†’์˜€๋‹ค๊ณ  ๋ณด๊ณ ๋œ๋‹ค. ์ด๋Š” ๋™์ผํ•œ hardware ์ž์›์—์„œ ํ›จ์”ฌ ๋งŽ์€ ์ˆ˜์˜ ํŒŒ์ง€๋ฅผ ๋™์‹œ์— ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ Scene์—์„œ ์ƒ์œ„ ํŒŒ์ง€๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ์ˆ˜๋ฐฑ~์ˆ˜์ฒœ ๊ฐœ์˜ ํ›„๋ณด๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด์•ผ ํ•˜๋Š” ์ƒํ™ฉ์—์„œ ํฐ ์ด์ ์ด ๋œ๋‹ค.

2.4.3 Ablation Studies

GraspGen์— ๋„์ž…๋œ ๋ช‡ ๊ฐ€์ง€ ์„ค๊ณ„์ƒ์˜ ์„ ํƒ๋“ค์— ๋Œ€ํ•ด, ์ €์ž๋“ค์€ ๋ณ„๋„์˜ ์‹คํ—˜์„ ํ†ตํ•ด ๊ฐ๊ฐ์˜ ์„ฑ๋Šฅ ์˜ํ–ฅ๋„๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ์ฃผ์š” ablation ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  • translation ์ •๊ทœํ™” ์Šค์ผ€์ผ: ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋Œ€๋กœ, translation ์„ฑ๋ถ„์— ๋Œ€ํ•œ ์ •๊ทœํ™” ์Šค์ผ€์ผ์˜ ํฌ๊ธฐ๋Š” ์„ฑ๋Šฅ์— ๋น„์„ ํ˜•์ (convex) ๊ด€๊ณ„๋ฅผ ๋ณด์˜€๋‹ค. ๋„ˆ๋ฌด ์ž‘๊ฑฐ๋‚˜ ๋„ˆ๋ฌด ํฌ๊ฒŒ ์ •๊ทœํ™”ํ•˜๋ฉด ์˜คํžˆ๋ ค ํŒŒ์ง€ ์˜ˆ์ธก ์˜ค์ฐจ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ฑฐ๋‚˜ recall(coverage)์ด ๊ฐ์†Œํ•˜์˜€์œผ๋ฉฐ, ์ ์ ˆํ•œ ์ค‘๊ฐ„๊ฐ’์—์„œ ๊ท ํ˜•์ด ๋งž์ถฐ์กŒ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ์ €์ž๋“ค์ด ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณต์‹์œผ๋กœ ๊ณ„์‚ฐํ•œ ๊ฐ’์ด ์ด ์ตœ์ ์  ๊ทผ์ฒ˜์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ, ๋ฒˆ๊ฑฐ๋กœ์šด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ•˜์˜€๋‹ค.
  • ํšŒ์ „ ํ‘œํ˜„: ํšŒ์ „์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” 6์ฐจ์› ํšŒ์ „ ๋ฒกํ„ฐ ํ‘œํ˜„, ์˜ค์ผ๋Ÿฌ ๊ฐ, Lie Algebra ๋“ฑ ์—ฌ๋Ÿฌ ๊ฐ€์ง€๋ฅผ ์‹œํ—˜ํ–ˆ๋Š”๋ฐ, ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์•˜๋‹ค๊ณ  ํ•œ๋‹ค. ์ด๋Š” GraspGen์˜ ํ™•์‚ฐ ๋ชจ๋ธ์ด ํšŒ์ „ ๊ณต๊ฐ„์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์žˆ์–ด ํŠน์ • ํ‘œํ˜„์— ํฌ๊ฒŒ ์˜์กดํ•˜์ง€ ์•Š์„ ๋งŒํผ ์ถฉ๋ถ„ํ•œ ํ•™์Šต ์šฉ๋Ÿ‰์„ ์ง€๋‹Œ ๊ฒƒ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • point cloud ์ธ์ฝ”๋” ๋ฐฑ๋ณธ: PointNet++ ๋Œ€๋น„ PointTransformerV3๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์„ฑ๊ณต๋ฅ  ๋ฐ ์ •๋ฐ€๋„ ํ–ฅ์ƒ์„ ์–ป์—ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, PTv3๋กœ ๊ต์ฒด ์‹œ translation ์˜ค์ฐจ๊ฐ€ ๊ฐ์†Œํ•˜๊ณ  recall(coverage)์ด ์ฆ๊ฐ€ํ•˜๋Š” ์œ ์˜ํ•œ ๊ฐœ์„ ์ด ์žˆ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์ตœ์‹  Transformer ๊ธฐ๋ฐ˜ point cloud ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์ด ํŒŒ์ง€ ์ƒ์„ฑ ๋ฌธ์ œ์—๋„ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค.

2.4.4 Performance on Multiple Grippers

GraspGen์€ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๊ทธ๋ฆฌํผ์— ๋Œ€ํ•ด ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ•™์Šต๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์œ ์—ฐ์„ฑ์„ ๊ฐ–๋Š”๋‹ค. ๋ณธ๋ฌธ์—์„œ๋Š” ์ฃผ๋กœ Franka ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฃจ์—ˆ์ง€๋งŒ, ๋ถ€๋ก์— Robotiq-2F-140 ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ์™€ ํก์ฐฉ ํŒจ๋“œ gripper์— ๋Œ€ํ•œ ์‹คํ—˜๋„ ํฌํ•จ๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ํ•ต์‹ฌ์ ์œผ๋กœ, GraspGen์€ ๋ชจ๋“  ๊ทธ๋ฆฌํผ์— ๋Œ€ํ•ด ๊ฐ€์žฅ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋Š” ๊ทธ๋ฆฌํผ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Franka ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜์—์„œ GraspGen์ด M2T2 ๋Œ€๋น„ ์•ฝ ๋‘ ์ž๋ฆฟ์ˆ˜ ํผ์„ผํŠธ์˜ ํ–ฅ์ƒ์„ ๋ณด์˜€๋Š”๋ฐ, Robotiq-2F-140์˜ ๊ฒฝ์šฐ ๊ทธ ๊ฒฉ์ฐจ๊ฐ€ ๋” ๋ฒŒ์–ด์กŒ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด๋Š” M2T2๊ฐ€ ์ ‘์ด‰์  ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ํ•ด๋‹น ํ‘œํ˜„์ด Robotiq ๊ฐ™์€ adaptive ๊ทธ๋ฆฌํผ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์•„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ถ„์„๋œ๋‹ค. ๋ฐ˜๋ฉด GraspGen์€ ์ž…๋ ฅ point cloud ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ๊ทธ๋ฆฌํผ ํ˜•์ƒ ๋ณ€ํ™”์— ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ•์ธํ•˜์—ฌ, ๋‘ ํ‰ํ–‰ ๊ทธ๋ฆฌํผ ๋ชจ๋‘์—์„œ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜์˜€๋‹ค. ๋˜ํ•œ ํก์ฐฉ ํŒจ๋“œ์˜ ๊ฒฝ์šฐ์—๋„ GraspGen์ด SE3-DiffusionFields ๋“ฑ ๋‹ค๋ฅธ ์ƒ์„ฑ ๋ชจ๋ธ ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ๋œ๋‹ค. ์ด๋Š” GraspGen์˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๊ทธ๋ฆฌํผ ์ž„๋ฒ ๋””๋“œ ํ˜•ํƒœ (์ฆ‰, ๋ฌผ์ฒด+๊ทธ๋ฆฌํผ ์กฐ๊ฑด) ํ•™์Šต์— ๋ฌด๋ฆฌ๊ฐ€ ์—†์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ๋‚˜์•„๊ฐ€ ํ–ฅํ›„ ๋‹ค์ง€๊ทธ๋ฆฌํผ๋‚˜ ๋กœ๋ด‡ ํ•ธ๋“œ์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ํ˜•ํƒœ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐ๋„ ๊ธฐ๋ฐ˜์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

2.4.5 Real Robot Evaluation

๋งˆ์ง€๋ง‰์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ GraspGen์˜ Real World ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ์‹คํ—˜์ด ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค.

ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ์€ UR10 ๋กœ๋ด‡ ํŒ”์— Robotiq-2F-140 ๊ทธ๋ฆฌํผ๋ฅผ ์žฅ์ฐฉํ•˜๊ณ , ์ƒ๋‹จ์— Intel RealSense D435 RGB-D ์นด๋ฉ”๋ผ ํ•œ ๋Œ€๋ฅผ ์„ค์น˜ํ•˜์—ฌ ํ…Œ์ด๋ธ”์„ ๋‚ด๋ ค๋‹ค๋ณด๋Š” ํ˜•ํƒœ์˜€๋‹ค. ์†Œํ”„ํŠธ์›จ์–ด์ ์œผ๋กœ๋Š” Jetson ๋ณด๋“œ ์ƒ์—์„œ cuRobo (์ƒ˜ํ”Œ ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฝ๋กœ๊ณ„ํš ๋ฐ ์—ญ๊ธฐ๊ตฌํ•™ ํ•„ํ„ฐ๋ง์„ ์ˆ˜ํ–‰ํ•˜๊ณ , NVBlox๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ์ถฉ๋Œ ๋งต์„ ์ƒ์„ฑํ•˜์˜€๋‹ค. Object instance ๋ถ„ํ• ์—๋Š” SAM2 (์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ), depth ๋ณด์™„์—๋Š” FoundationStereo ๋ชจ๋ธ ๋“ฑ์„ ํ™œ์šฉํ•˜์—ฌ, ๊ฐ€๋Šฅํ•œ ํ˜„์‹ค์—์„œ์˜ ์ธ์‹ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ ธ๋‹ค.

ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์€ ๋„ค ๊ฐ€์ง€๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค:

  • ๋‹จ์ผ ๋ฌผ์ฒด (isolated)
  • ํ…Œ์ด๋ธ” ์œ„ ๋‹ค์ˆ˜ ๋ฌผ์ฒด (table clutter)
  • ๋ฐ”๊ตฌ๋‹ˆ ์•ˆ์˜ ๋ฌผ์ฒด๋“ค (basket)
  • ์„ ๋ฐ˜ ์œ„์˜ ๋ฌผ์ฒด๋“ค (shelf)

์ ์ฐจ ๋‚œ๋„๊ฐ€ ์˜ฌ๋ผ๊ฐ€๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ, ํŠนํžˆ ๋ฐ”๊ตฌ๋‹ˆ๋‚˜ ์„ ๋ฐ˜์˜ ๊ฒฝ์šฐ ๊ฒฉ์ž ๋‚ด๋ถ€๋‚˜ ์ข์€ ๊ณต๊ฐ„์ด๋ผ ํŒŒ์ง€ ๋ฐ ์ธ์ถœ ๋™์ž‘์ด ์–ด๋ ต๋‹ค. ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ M2T2์™€, ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ AnyGrasp๋ฅผ ์„ ์ •ํ•˜์˜€๋‹ค. ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ ๊ณต๊ฐœ๋œ ํ•™์Šต ๊ฐ€์ค‘์น˜์™€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋˜, ์‹คํ—˜ ํ™˜๊ฒฝ์— ๋งž๊ฒŒ ๋ช‡ ๊ฐ€์ง€ ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋ฅผ ์กฐ์ •ํ•˜์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด M2T2๋Š” ์›๋ž˜ Scene ์ „์ฒด point cloud์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋„๋ก ํ•™์Šต๋˜์—ˆ๋Š”๋ฐ, ๋ณธ ์‹คํ—˜์—์„œ๋Š” ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„๋ฅผ ๊ธฐ์ค€์œผ๋กœ point cloud์„ 90๋„ ํšŒ์ „์‹œํ‚ค๊ณ  ๋กœ๋ด‡ ์ž‘์—… ๊ณต๊ฐ„์— ํ•ด๋‹นํ•˜๋Š” ์˜์—ญ๋งŒ ํฌ๋กญํ•˜์—ฌ ์ฃผ๋Š” ๋ฐฉ์‹์œผ๋กœ, ํ›ˆ๋ จ ์‹œ ๋ถ„ํฌ์™€์˜ ์ฐจ์ด๋ฅผ ์ค„์—ฌ์ฃผ์—ˆ๋‹ค. AnyGrasp์˜ ๊ฒฝ์šฐ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ ์ •๋œ ์นด๋ฉ”๋ผ ๊ณ ๋„์—์„œ ์ˆ˜์ง‘๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์šฐ๋ฆฌ ํ™˜๊ฒฝ์˜ ์นด๋ฉ”๋ผ ๊นŠ์ด์— ๋งž์ถฐ z์ถ• ๋ฐฉํ–ฅ ์˜คํ”„์…‹์„ point cloud์— ์ฃผ์–ด ๋ณด์ •ํ•˜์˜€๋‹ค. ๋˜ํ•œ AnyGrasp๋Š” ์›๋ž˜ ๋‹ค์ค‘ ์˜ˆ์ธก๋œ ๊ทธ๋ฆฝ ์ค‘ Non-Maximum Suppression์„ ์ ์šฉํ•˜์—ฌ ์ค‘๋ณต์„ ์ œ๊ฑฐํ•˜๋Š” ํ›„์ฒ˜๋ฆฌ๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ, ์ด ์—ฐ๊ตฌ์˜ ์„ค์ •์—์„œ๋Š” NMS๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ํŽธ์ด ์„ฑ๋Šฅ์ด ๋‚˜์•„ ์ด๋ฅผ ์ƒ๋žตํ•˜์˜€๋‹ค. (์•„๋งˆ๋„ ์šฐ๋ฆฌ์˜ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ๊ฐ€ ๋ชฉํ‘œ ๊ทธ๋ฆฝ ์…‹์— ๋Œ€ํ•ด ์ž์ฒด์ ์œผ๋กœ ์ถฉ๋Œ ์ œ๊ฑฐ ๋“ฑ์„ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, ์ค‘๋ณต์ด ์žˆ์–ด๋„ ๊ดœ์ฐฎ์•˜๋˜ ๊ฒƒ์œผ๋กœ ์ถ”์ธก๋œ๋‹ค.) ์ด๋Ÿฌํ•œ ์ „์ฒ˜๋ฆฌ ์—†์ด๋Š” M2T2๋‚˜ AnyGrasp ๋ชจ๋‘ ๊ฒฐ๊ณผ ๊ทธ๋ฆฝ์„ ๊ฑฐ์˜ ๋‚ด์ง€ ๋ชปํ•ด, ๋ถ€๋“์ด ์ €์ž๋“ค์ด ์–ธ๊ธ‰ํ•œ ์ด๋Ÿฌํ•œ ์กฐ์ •๋“ค์„ ๊ฑฐ์ณค์Œ์„ ๋ฐํžˆ๊ณ  ์žˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์˜ ๋ถ„ํฌ ์ฐจ์ด์— ๋Œ€ํ•œ ํƒ€ ๋ชจ๋ธ๋“ค์˜ ์ทจ์•ฝ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์œผ๋กœ, GraspGen์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๊ด€์ธก ๋ถ„ํฌ์— ๋Œ€ํ•ด ํ›ˆ๋ จ๋˜์ง€ ์•Š์•˜์„ ๊ฒฝ์šฐ ํ˜„์‹ค ์ ์šฉ์ด ์–ด๋ ต๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•œ๋‹ค.

๊ฐ ๋ฐฉ๋ฒ•์€ Scene ๋‹น ์—ฌ๋Ÿฌ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ถœ๋ ฅํ•˜๋ฉฐ, ์ƒ์œ„ 100๊ฐœ ๊ทธ๋ฆฝ์„ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ์˜ ๋ชฉํ‘œ๋กœ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ํ”Œ๋ž˜๋„ˆ๋Š” ์ด ์ค‘ ๋กœ๋ด‡ ์ถฉ๋Œ์ด๋‚˜ ์—ญ๊ธฐ๊ตฌํ•™ ๋ถˆ๋Šฅ์ธ ๊ทธ๋ฆฝ์„ ๊ฑธ๋Ÿฌ๋‚ด๊ณ , ๋‚จ์€ ๊ทธ๋ฆฝ๋“ค ์ค‘ ์ถฉ๋Œ ์—†๋Š” ๊ฒฝ๋กœ๋ฅผ ์ฐพ์•„ ์ง‘์–ด์˜ฌ๋ฆฌ๊ธฐ๋ฅผ ์‹œ๋„ํ•œ๋‹ค. ์ตœ์ข… ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์€ ํ•ด๋‹น ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์žก๊ธฐ์— ์„ฑ๊ณตํ•œ ๋น„์œจ๋กœ ์ธก์ •๋˜์—ˆ๋‹ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, GraspGen์€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค. ํŠนํžˆ ๋น„๊ต ๋Œ€์ƒ๋“ค์ด ํŠน์ • ์–ด๋ ค์šด ํ™˜๊ฒฝ์—์„œ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง„ ๋ฐ ๋น„ํ•ด, GraspGen์€ ๋ชจ๋“  ํ™˜๊ฒฝ์—์„œ ๊ณ ๋ฅธ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‹จ์ผ ๋ฌผ์ฒด ํ™˜๊ฒฝ์—์„œ๋Š” GraspGen์ด 90.5%์˜ ์„ฑ๊ณต๋ฅ ๋กœ M2T2(81.0%)์™€ AnyGrasp(85.7%)๋ณด๋‹ค ๋†’์•˜๊ณ , ํ…Œ์ด๋ธ” ์œ„ ๋ณต์žก ์ ์žฌ์˜ ๊ฒฝ์šฐ์—๋„ GraspGen 83.3%๋กœ M2T2(75.0%)๋ฅผ ์ƒํšŒํ•˜์˜€๋‹ค. ๊ฐ€์žฅ ์–ด๋ ค์šด ์„ ๋ฐ˜(shelf) ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” GraspGen 71.4%์— ๋น„ํ•ด M2T2๋Š” 14.3%์— ๋ถˆ๊ณผํ–ˆ๊ณ , AnyGrasp๋„ 42.9%๋กœ ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋‹ค. ์ „์ฒด ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์„ ๋ณด๋ฉด GraspGen์ด ์•ฝ 81.3%๋กœ, M2T2์˜ 52.6%, AnyGrasp์˜ 63.7%๋ฅผ ํฌ๊ฒŒ ์•ž์„ฐ๋‹ค. ๋ฌผ๋ก  GraspGen๋„ ์„ ๋ฐ˜/๋ฐ”๊ตฌ๋‹ˆ ํ™˜๊ฒฝ์—์„œ ๋‹ค๋ฅธ ๊ฒฝ์šฐ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์•„์กŒ๋Š”๋ฐ, ์ด๋Š” ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ ๋Œ€๋กœ ๋กœ๋ด‡ ํŒ”์˜ ๊ฐ€์šฉ ๋™์ž‘ ๋ฒ”์œ„ ์ œํ•œ์œผ๋กœ ์ธํ•ด ๋‹ค์ˆ˜์˜ ํŒŒ์ง€ ํ›„๋ณด๋“ค์ด ์‹คํ–‰ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•„ํ„ฐ๋ง๋œ ์˜ํ–ฅ์ด ํฌ๋‹ค. ์ด๋Ÿฌํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ๋ชจ๋ธ์ด ์• ์ดˆ์— ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ ๊ทธ๋ฆฝ์„ ๋งŽ์ด ์ƒ์„ฑํ•ด์•ผ๋งŒ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š”๋ฐ, GraspGen์€ ๋ถ€๋ถ„์ ์œผ๋กœ๋‚˜๋งˆ ๊ทธ ์—ญ๋Ÿ‰์„ ๋ณด์ธ ๋ฐ˜๋ฉด, M2T2์™€ AnyGrasp๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹จ์ˆœ ํƒ์ƒ ํ™˜๊ฒฝ์— ๊ตญํ•œ๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ํ™˜๊ฒฝ(basket, shelf)์— ์ „ํ˜€ ์ผ๋ฐ˜ํ™”ํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์œผ๋กœ ๋ถ„์„๋œ๋‹ค. ํŠนํžˆ M2T2๋Š” scene-level ๋ชจ๋ธ๋กœ ํ•™์Šต๋œ ํ•œ๊ณ„์ƒ ์ž‘์€ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ํŒŒ์ง€ ์˜ˆ์ธก์„ ๋ˆ„๋ฝํ•˜๋Š” ๋ฌธ์ œ๋„ ์žˆ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์š”์ปจ๋Œ€, GraspGen์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜โ†’ํ˜„์‹ค ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ํ™˜๊ฒฝ ๋‹ค์–‘์„ฑ์— ๋Œ€ํ•œ ์ ์‘๋ ฅ์ด ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ๋„ ํ™•์ธ๋œ ์…ˆ์ด๋‹ค. ์ €์ž๋“ค์€ ์ถ”๊ฐ€๋กœ ์—ฌ๋Ÿฌ ํŒŒ์ง€ ์˜ˆ์ธก ์˜ˆ์‹œ๋ฅผ ๋ถ€๋ก์— ์ œ์‹œํ•˜์˜€๋Š”๋ฐ, GraspGen์ด ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋“ค์— ๋Œ€ํ•ด ํ˜„์‹ค์—์„œ๋„ ์•ˆ์ •์ ์ธ ํŒŒ์ง€ ์ž์„ธ๋“ค์„ ์‚ฐ์ถœํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

2.5 Conclusion & Limitations

๋ณธ ๋…ผ๋ฌธ์€ GraspGen์ด๋ผ๋Š” ์ƒˆ๋กœ์šด 6-DoF ํŒŒ์ง€ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๊ณ , ๊ทธ ๊ธฐ์ˆ ์  ์šฐ์ˆ˜์„ฑ์„ ๋‹ค๊ฐ๋„๋กœ ์ž…์ฆํ•˜์˜€๋‹ค. GraspGen์€ ํ™•์‚ฐ ๊ธฐ๋ฐ˜์˜ ์ƒ์„ฑ๊ธฐ์™€ ํšจ์œจ์ ์ธ Discriminator๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ๋ฌผ์ฒด ์ค‘์‹ฌ ํŒŒ์ง€ ๋ฌธ์ œ์—์„œ ์ •ํ™•๋„์™€ ๋ฒ”์šฉ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ๋‹ค์–‘ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , FetchBench์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ์ตœ๊ณ  ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์œผ๋ฉฐ, ๋‚˜์•„๊ฐ€ ๋‹จ ํ•œ ๋ฒˆ๋„ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ ๋„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์šฐ์ˆ˜ํ•œ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ž„์œผ๋กœ์จ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-ํ˜„์‹ค ๊ฐ„ ๊ฒฉ์ฐจ๋ฅผ ์ƒ๋‹น ๋ถ€๋ถ„ ์ขํ˜”๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๊ณผ๋ฅผ ํ†ตํ•ด GraspGen์€ ํ–ฅํ›„ ์—ฌ๋Ÿฌ ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ์˜ ๊ธฐ๋ฐ˜ ๋ชจ๋“ˆ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, GraspGen์„ ์‘์šฉํ•˜๋ฉด ๋ชฉ์  ์ง€ํ–ฅ ํŒŒ์ง€(ํŠน์ • ๋ถ€์œ„๋ฅผ ์žก๊ธฐ)๋‚˜ ์–ธ์–ด ์ง€์‹œ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ๋“ฑ์˜ ๋ฌธ์ œ์— ๋ณด๋‹ค ๊ฐ•์ธํ•œ ํŒŒ์ง€ ์ƒ์„ฑ๊ธฐ๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๊ณ , ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํŒŒ์ง€ ์‹คํŒจ์œจ์„ ๋‚ฎ์ถฐ ์ง€๋Šฅํ˜• ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋™์‹œ์— ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ๊ณผ์ œ๋ฅผ ๋‚จ๊ธด๋‹ค.

  • ์šฐ์„ , GraspGen์˜ ์„ฑ๋Šฅ์€ ์—ฌ์ „ํžˆ ์„ผ์„œ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค๋Š” ์ ์ด ์ง€์ ๋œ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ ๋ณด์•˜๋“ฏ์ด, ์ •ํ™•ํ•œ ๊นŠ์ด ์ถ”์ •๊ณผ ๋ฌผ์ฒด ๋ถ„ํ• ์ด ๋’ท๋ฐ›์นจ๋˜์ง€ ๋ชปํ•˜๋ฉด ํŒŒ์ง€ ํ›„๋ณด์˜ ์ •ํ™•๋„๋„ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” GraspGen์ด ๋ฌผ์ฒด ์ค‘์‹ฌ point cloud์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ, ํ–ฅํ›„์—๋Š” ์žก์Œ์— ๊ฐ•์ธํ•œ ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋‚˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์œตํ•ฉ์„ ํ†ตํ•œ ๋ณด์™„์ด ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค.
  • ๋‘ ๋ฒˆ์งธ ํ•œ๊ณ„๋กœ, ํŠน์ • ํ˜•์ƒ์˜ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋ถ€์กฑ์ด ๊ด€์ฐฐ๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์ €์ž๋“ค์€ ํŠนํžˆ ์ง์œก๋ฉด์ฒด ์ƒ์ž(cuboid) ํ˜•ํƒœ์˜ ๋ฌผ์ฒด์— ๋Œ€ํ•ด GraspGen์ด ์‹คํ—˜์—์„œ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Œ์„ ๋ณด๊ณ ํ•˜๋ฉฐ, ์ด๋Š” ํ˜„์žฌ ๋ฐ์ดํ„ฐ์…‹์— ๊ทธ๋Ÿฌํ•œ ํ˜•ํƒœ์˜ ๋ฌผ์ฒด๊ฐ€ ๋ถ€์กฑํ•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ์ถ”์ •ํ•˜์˜€๋‹ค. ํ–ฅํ›„ ๋ฒ„์ „์—์„œ๋Š” ๋ณด๋‹ค ๋ฐ•์Šคํ˜• ๋ฌผ์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ ค ์ด ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•  ๊ณ„ํš์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ํŽธํ–ฅ์— ๋”ฐ๋ฅธ ํŠน์ • ๊ฒฝ์šฐ ์„ฑ๋Šฅ ์ €ํ•˜๋Š”, ๋ฐ์ดํ„ฐ ์ปค๋ฒ„๋ฆฌ์ง€ ํ™•๋Œ€ ๋ฐ ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™” ๊ธฐ๋ฒ• ๋“ฑ์„ ํ†ตํ•ด ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
  • ์…‹์งธ๋กœ, GraspGen์˜ ํ•™์Šต์—๋Š” ๋ง‰๋Œ€ํ•œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์†Œ์š”๋œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ณผ ํ•™์Šต์„ ํ•ฉ์ณ ์•ฝ 3,000 GPU-์‹œ๊ฐ„์ด ์š”๊ตฌ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ˆ„๊ตฌ๋‚˜ ๋ชจ๋ฐฉํ•˜๊ธฐ ํž˜๋“  ๋†’์€ ์žฅ๋ฒฝ์œผ๋กœ ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ ๋‹ค์–‘ํ•œ embodiment๋ฅผ ๋‹ค๋ฃจ๋ ค๋ฉด ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๋ณ„๋„ ํ•™์Šต์„ ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์–ด, ์ถ”ํ›„ ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™”๋‚˜ ์ „์ด ํ•™์Šต์„ ํ†ตํ•œ ํšจ์œจ ํ–ฅ์ƒ ์—ฐ๊ตฌ๋„ ๊ณ ๋ ค๋˜์–ด์•ผ ํ•œ๋‹ค.
  • ๋งˆ์ง€๋ง‰์œผ๋กœ, GraspGen์€ ํŒŒ์ง€ ์ž์ฒด์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘์—ˆ์ง€๋งŒ, ์•ž์„œ FetchBench ๋ถ„์„์—์„œ ๋…ผ์˜๋˜์—ˆ๋“ฏ ํŒŒ์ง€ ์ดํ›„์˜ ์ด๋™ ๊ฒฝ๋กœ ๊ณ„ํš์ด๋‚˜ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ ํ†ตํ•ฉ ๋ฌธ์ œ๋Š” ๋ณ„๋„์˜ ๋„์ „ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ณต์žกํ•œ ์žฅ์• ๋ฌผ ํ™˜๊ฒฝ์—์„œ ๋กœ๋ด‡ํŒ”์ด ํŒŒ์ง€ํ•œ ๋ฌผ์ฒด๋ฅผ ๊บผ๋‚ด์˜ค๋Š” ๋ฌธ์ œ ๋“ฑ์€ ๋‹จ์ˆœํžˆ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ๋งŒ ๋†’์ธ๋‹ค๊ณ  ํ•ด๊ฒฐ๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ํ–ฅํ›„์—๋Š” ํŒŒ์ง€ ์ƒ์„ฑ๊ณผ ํ›„์† ๋™์ž‘ ๊ณ„ํš์„ ๊ณต๋™์œผ๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์˜ ์—ฐ๊ตฌ๋„ ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค.

์ข…ํ•ฉ์ ์œผ๋กœ, GraspGen์€ ๋กœ๋ด‡ ํŒŒ์ง€ ๋ถ„์•ผ์— ํ™•์‚ฐ ๋ชจ๋ธ์˜ ๊ฐ•๋ ฅํ•จ์„ ์ฆ๋ช…ํ•˜๊ณ , ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ Discriminator์˜ ์ƒํ˜ธ๋ณด์™„์  ํ•™์Šต์„ ํ†ตํ•ด ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๋ŒํŒŒํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋กœ ํ‰๊ฐ€๋œ๋‹ค. ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์†๊ณผ ๋Œ€์ƒ์— ๋‘๋ฃจ ์ ์šฉ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ ํŒŒ์ง€ ์ƒ์„ฑ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ์„œ๋น„์Šค ๋กœ๋ด‡, ์ œ์กฐ ์ž๋™ํ™”, ์˜๋ฃŒ ๋ณด์กฐ ๋“ฑ ์ •๋ฐ€ ์กฐ์ž‘์ด ์š”๊ตฌ๋˜๋Š” ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋  ์—ฌ์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

์ฐธ๊ณ 

  • ์—”๋น„๋””์•„, ์ฐจ์„ธ๋Œ€ ๋กœ๋ด‡ ์† ๊ธฐ์ˆ  AI โ€˜๊ทธ๋žฉ์  โ€™ ๊ณต๊ฐœ

Copyright 2024, Jung Yeon Lee