Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ
    • 2.2 ์‹คํ—˜ ๊ฒฐ๊ณผ ํ•ด์„
    • 2.3 ์žฅ์ ๊ณผ ํ•œ๊ณ„

๐Ÿ“ƒ3D Motion Field ๋ฆฌ๋ทฐ

diffusion
motion
Object-centric 3D Motion Field for Robot Learning from Human Videos
Published

August 13, 2025

  • Paper Link
  • Project Link
  1. ๐Ÿค– ๋กœ๋ด‡ ํ•™์Šต์—์„œ ์ธ๊ฐ„ ์˜์ƒ์„ ํ™œ์šฉํ•˜๋Š” ์ฃผ์š” ๊ณผ์ œ๋Š” ์•ก์…˜ ์ง€์‹์„ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์•ก์…˜ ํ‘œํ˜„์œผ๋กœ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. โš™๏ธ ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต์„ ํ†ตํ•ด ๋…ธ์ด์ฆˆ๊ฐ€ ์‹ฌํ•œ RGBD ์˜์ƒ์—์„œ ์ •๋ฐ€ํ•œ ๊ฐ์ฒด 3D ๋ชจ์…˜์„ ๊ฐ•๊ฑดํ•˜๊ฒŒ ์ถ”์ถœํ•˜๋Š” โ€˜๋””๋…ธ์ด์ง•โ€™ 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ •๊ธฐ๋ฅผ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿ“Š ์‹ค์ œ ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋ณธ ๋ฐฉ๋ฒ•์€ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ 3D ๋ชจ์…˜ ์ถ”์ • ์˜ค๋ฅ˜๋ฅผ 50% ์ด์ƒ ์ค„์˜€๊ณ , ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ด์ „ ๋ฐฉ์‹๋ณด๋‹ค ์›”๋“ฑํžˆ ๋†’์€ ํ‰๊ท  ์•ฝ 55%์˜ ์ œ๋กœ์ƒท ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ •๋ฐ€ ์กฐ์ž‘ ๋Šฅ๋ ฅ๊นŒ์ง€ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

1 Brief Review

๋กœ๋ด‡ ํ•™์Šต์—์„œ ๋ฐ์ดํ„ฐ๋Š” ์ฃผ๋œ ๋ณ‘๋ชฉ ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ์„ธ๊ณ„์—์„œ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ๋ณต์žกํ•œ ์ž‘์—…์˜ ๊ฒฝ์šฐ ์ •์‹ ์ ์œผ๋กœ๋„ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋น„๋””์˜ค๋Š” ์ด๋Ÿฌํ•œ ๊ณผ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์œ ๋งํ•œ ์ˆ˜๋‹จ์œผ๋กœ ๋– ์˜ค๋ฅด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋น„๋””์˜ค๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋ฉฐ ํ’๋ถ€ํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ณต์žกํ•œ ์ž‘์—… ์‹œ์—ฐ์„ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋น„๋””์˜ค์—์„œ ์•ก์…˜ ์ง€์‹ (๋˜๋Š” ์•ก์…˜ ํ‘œํ˜„)์„ ์ถ”์ถœํ•˜์—ฌ ์ •์ฑ… ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ์ „ํžˆ ํ•ต์‹ฌ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์•ก์…˜ ํ‘œํ˜„๋“ค(์˜ˆ: video frames, pixelflow, pointcloud flow)์€ ๋ชจ๋ธ๋ง ๋ณต์žก์„ฑ ๋˜๋Š” ์ •๋ณด ์†์‹ค๊ณผ ๊ฐ™์€ ๋‚ด์žฌ์  ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ๋น„๋””์˜ค์—์„œ ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•œ ์•ก์…˜ ํ‘œํ˜„์œผ๋กœ object-centric 3D motion field๋ฅผ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. object-centric 3D motion field๋Š” ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด ํ”ฝ์…€์— ๋Œ€ํ•œ ๋ฐ€์ง‘๋œ ์œ„์น˜ ๋ฐ ๋ชจ์…˜ ํ•„๋“œ๋กœ, ๊ฐ์ฒด์˜ ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ ๊ฐ ์ง€์ ์ด ๊ฐ ์ž‘์—…์—์„œ ์–ด๋–ป๊ฒŒ ์›€์ง์—ฌ์•ผ ํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด ํ‘œํ˜„์€ ๋กœ๋ด‡ ์ œ์–ด๋ฅผ ์œ„ํ•œ ์ตœ์†Œํ•œ์˜ ์ถฉ๋ถ„ํ•œ 3D ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๊ณ , ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜์ด๋ฉฐ, ๊ฐ์ฒด ์ค‘์‹ฌ์ ์ด์–ด์„œ cross-embodiment transfer๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๋ฉฐ, RGBD ๋น„๋””์˜ค์—๋งŒ ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ zero-shot control์„ ์œ„ํ•ด ์ด ํ‘œํ˜„์„ ๋น„๋””์˜ค์—์„œ ์ถ”์ถœํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

Phase I: Seeing 3D Motion Field in Noise (3D Motion Field ์ถ”์ถœ)

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ RGBD ๋น„๋””์˜ค์—์„œ ์ •ํ™•ํ•œ 3D motion field๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ direct approach๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ depth ์ธก์ •๊ฐ’๊ณผ pixel tracker ์˜ค๋ฅ˜๋กœ ์ธํ•ด ๋ถ€์ •ํ™•ํ•œ 3D ๋ชจ์…˜์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์„ผ์„œ ์ธก์ •๊ฐ’์œผ๋กœ๋ถ€ํ„ฐ groundtruth 3D motion field๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” โ€œdenoisingโ€ 3D motion field estimator๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊นŠ์ด ๋…ธ์ด์ฆˆ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ธฐ ์‰ฌ์šด ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ์ด ํƒœ์Šคํฌ๋Š” ๊ธฐํ•˜ํ•™์  ๋ฐ์ดํ„ฐ๋งŒ ํฌํ•จํ•˜๋ฏ€๋กœ simulation์œผ๋กœ ํ›ˆ๋ จ๋œ estimator๋Š” real world๋กœ ์ž˜ ์ „์ด๋ฉ๋‹ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: ShapeNet ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ์ฒด์™€ ๋ฌด์ž‘์œ„๋กœ ์ƒ์„ฑ๋œ ๊ฐ•์ฒด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ ๊ฐ์ฒด๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋ฌด์ž‘์œ„๋กœ ์นด๋ฉ”๋ผ์™€ ๊ฐ์ฒด ์œ„์น˜๋ฅผ ์„ค์ •ํ•˜๊ณ  ๋ฌด์ž‘์œ„ twist motion(translation ๋ฐ rotation)์„ ์ ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ์Šคํ… ๋™์•ˆ ๊ฐ์ฒด๋ฅผ ์ด๋™์‹œํ‚ต๋‹ˆ๋‹ค. ray casting ๋ฐ projection์„ ํ†ตํ•ด ์ดˆ๊ธฐ ํ”„๋ ˆ์ž„์˜ ๊ฐ ๊ด€์ฐฐ๋œ ํ”ฝ์…€์— ๋Œ€ํ•œ 3D pixel movement์™€ groundtruth 3D motion์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ž…๋ ฅ ๋ฐ ๋ ˆ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค (Figure 3 ์ขŒ์ธก). 256x256 ํ•ด์ƒ๋„์˜ 8M ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•: ํ›ˆ๋ จ ์ค‘ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ augmentation์„ ์ ์šฉํ•˜์—ฌ ์„ผ์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค. depth์—๋Š” ๋ฌด์ž‘์œ„ missing value, white noise, wrong value ํšจ๊ณผ๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. pixel flow ์ž…๋ ฅ์—๋Š” ๋ฌด์ž‘์œ„ Gaussian noise๋ฅผ ์ ์šฉํ•˜๊ณ  random dropout์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ€๋ถ„์ /ํฌ์†Œํ•œ pixel flow์—์„œ๋„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค (Phase II-A ๋ผ๋ฒจ๋ง ์†๋„ ํ–ฅ์ƒ). subset masking๋„ ์ ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ๊ฐ์ฒด ์œค๊ณฝ์„ ๊ทผ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” Denoising Autoencoder์™€ ์œ ์‚ฌํ•œ ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: 3D motion field estimator f๋Š” dual head UNet ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค (Figure 4). ์ด ๋ชจ๋ธ์€ Fdepth์™€ Fmotion์„ ๋ณ„๋„์˜ ์ €์ˆ˜์ค€ ๋””์ฝ”๋” ๋ธŒ๋žœ์น˜(fdepth, fmotion)๋ฅผ ํ†ตํ•ด ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ์— denseํ•œ โ€œintrinsicโ€ map feature Imap \in R^{H \times W \times 4}์„ concatenated ํ•ฉ๋‹ˆ๋‹ค. Imap์€ ((y - c_y)/f_y, (x - c_x)/f_x, 1/f_y, 1/f_x)๋กœ ์ •์˜๋˜๋ฉฐ (์‹ 1), ์ •ํ™•ํ•œ Fmotion ์˜ˆ์ธก์— ์ค‘์š”ํ•œ low-level ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ํ›ˆ๋ จ: weighted Huber loss๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค (์‹ 2): L = E_{x,F,M \sim D_{sim}} \|M \odot (f_{depth}(x) - F_{depth})\| + \alpha\|M \odot (f_{motion}(x) - F_{motion})\|. ์—ฌ๊ธฐ์„œ Dsim์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ์…‹, M์€ ๊ฐ์ฒด ๋งˆ์Šคํฌ, \odot๋Š” ์š”์†Œ๋ณ„ ๊ณฑ์ด๋ฉฐ, ์†์‹ค์€ ๊ฐ์ฒด ๋ถ€๋ถ„์—๋งŒ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. \alpha๋Š” ๊ฐ€์ค‘์น˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค. AdamW optimizer๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Phase II: Predicting Object 3D Motion Field for Control (์ œ์–ด๋ฅผ ์œ„ํ•œ 3D Motion Field ์˜ˆ์ธก)

์ •ํ™•ํ•œ 3D motion field๋ฅผ ์ถ”์ถœํ•˜๋Š” estimator๋ฅผ ํ™•๋ณดํ•œ ํ›„, ์ธ๊ฐ„ ๋น„๋””์˜ค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ œ์–ด ์ •์ฑ…์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ์…‹: ์ธ๊ฐ„ ๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹ Dhuman์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ SAM2๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํ”„๋ ˆ์ž„์—์„œ ์ž‘์—… ๊ด€๋ จ ๊ฐ์ฒด์˜ segmentation์„ ์ถ”์ถœํ•˜๊ณ , CoTracker3๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๊ฐ์ฒด ์ง€์ ์˜ noisy 3D pixel flow๋ฅผ ์ถ”์ถœํ•œ ๋‹ค์Œ, ๋ฏธ๋ฆฌ ํ•™์Šต๋œ estimator๋ฅผ ํ†ตํ•ด ์ •ํ™•ํ•œ 3D motion field๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ๊ฐ์ฒด๊ฐ€ ๋น„๋””์˜ค ์„ธ๊ทธ๋จผํŠธ ์ „์ฒด์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๋ณด์ด๋Š” (์™„์ „ํžˆ ๊ฐ€๋ ค์ง€์ง€ ์•Š์€) ๊ฒฝ์šฐ์—๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ๋ฐ ํ›ˆ๋ จ: ์ •์ฑ… ๋„คํŠธ์›Œํฌ \pi๋Š” segmented RGBD ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ ˆ์ด๋ธ”๋œ 3D motion field๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. motion field๊ฐ€ ์ด๋ฏธ์ง€ ํ˜•ํƒœ์ด๋ฏ€๋กœ, Gaussian policy ๋˜๋Š” Diffusion policy๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Figure 4). dual-head UNet ์•„ํ‚คํ…์ฒ˜๋ฅผ ์žฌ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ํšŒ๊ท€ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค (์‹ 3): L_{\pi} = E_{o,F,M \sim D_{human}} \|M \odot (\pi_{depth}(o, \tilde{F}, t) - F_{depth})\| + \alpha\|M \odot (\pi_{motion}(o, \tilde{F}, t) - F_{motion})\|. ์—ฌ๊ธฐ์„œ o๋Š” segmented RGBD ๊ด€์ฐฐ, F๋Š” groundtruth object 3D motion field (์ถ”์ •๊ธฐ๊ฐ€ ๋ ˆ์ด๋ธ”๋ง), M์€ ๊ฐ์ฒด ๋งˆ์Šคํฌ์ž…๋‹ˆ๋‹ค. (\tilde{F}, t)๋Š” Diffusion model์˜ noised motion field sample๊ณผ timestep์ž…๋‹ˆ๋‹ค. ์ •์ฑ… ๋„คํŠธ์›Œํฌ๋Š” ์ž‘์—… ๊ด€๋ จ ๊ฐ์ฒด ์ •๋ณด๋งŒ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ human domain๊ณผ robot domain ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์ตœ์†Œํ™”๋ฉ๋‹ˆ๋‹ค. random masking data augmentation์„ ์ ์šฉํ•˜์—ฌ robustness๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. Diffusion model์˜ ๊ฒฝ์šฐ โ€œmasked noise sampleโ€์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐฐํฌ: ์ถ”๋ก  ์‹œ, ์˜ˆ์ธก๋œ 3D motion field F๋ฅผ ๋กœ๋ด‡ ์•ก์…˜์œผ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์ด๋ฏธ ๊ฐ์ฒด๋ฅผ ๋‹จ๋‹จํžˆ ์žก๊ณ  ์žˆ์œผ๋ฏ€๋กœ ๋ณ€ํ™˜์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ์ฒด ๋งˆ์Šคํฌ์˜ ๊ฐ ํ”ฝ์…€์— ๋Œ€ํ•ด F๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์นด๋ฉ”๋ผ ํ”„๋ ˆ์ž„์—์„œ์˜ ํ˜„์žฌ ๋ฐ ๋ฏธ๋ž˜ 3D ์ขŒํ‘œ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋‘ ๊ฐœ์˜ point cloud P_0, P_1 \in R^{N \times 3}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด point cloud๋“ค์€ ์ ๋ณ„ ๋Œ€์‘ ๊ด€๊ณ„๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ SE(3) transformation T_o = \{R, t\}๋ฅผ ์ง์ ‘ ํ•ด๊ฒฐํ•˜์—ฌ ์ •๋ ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. \|RP_0^T + t - P_1^T\|^2๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉฐ, Kabsch method๋ฅผ ํ†ตํ•ด ํ์‡„ํ˜• ํ•ด๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. outlier ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด RANSAC๋„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์นด๋ฉ”๋ผ ํฌ์ฆˆ๊ฐ€ ๋กœ๋ด‡ ๋ฒ ์ด์Šค ํ”„๋ ˆ์ž„ {b}์—์„œ T_{bc}๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋ฉด, ์›ํ•˜๋Š” ๋กœ๋ด‡ ์•ก์…˜์€ T_a = T_{bc}T_oT_{bc}^{-1}๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

์‹คํ—˜: real world ์‹คํ—˜์„ ํ†ตํ•ด ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. Intel D435 RGBD ์นด๋ฉ”๋ผ์™€ XArm7 ๋กœ๋ด‡ ํŒ”์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • 3D Motion Field Estimator ํ‰๊ฐ€: ๋กœ๋ด‡ ํŒ”๋กœ ๊ฐ์ฒด๋ฅผ ์žก๊ณ  ์นด๋ฉ”๋ผ ์•ž์—์„œ ์›€์ง์ด๋Š” RGBD ๋น„๋””์˜ค๋ฅผ ์ดฌ์˜ํ•˜์—ฌ ground truth transformation๊ณผ ํ•จ๊ป˜ test set์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ baseline์ธ โ€œdirectโ€ method๋ณด๋‹ค 50% ์ด์ƒ ๋‚ฎ์€ SE(3) motion error๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค (Figure 8 ์ขŒ์ธก). ์ž…๋ ฅ ๊นŠ์ด์— ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ๋”๋ผ๋„ ๋ถ€๋“œ๋Ÿฌ์šด ๊นŠ์ด์™€ ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค (Figure 6, 14). adversarial robustness ํ…Œ์ŠคํŠธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋…ธ์ด์ฆˆ์— ๋” ๊ฐ•๊ฑดํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Ablation studies์—์„œ๋Š” intrinsic map์˜ ๋‘ ์š”์†Œ (์ขŒํ‘œ ๋ฐ inverse focal length) ๋ชจ๋‘ ์„ฑ๊ณต์ ์ธ ํ•™์Šต์— ์ค‘์š”ํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค (Figure 8 ์ค‘์•™).
  • ๋กœ๋ด‡ ํ•™์Šต ์ •์ฑ… ํ‰๊ฐ€: ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ๋œ ์ •์ฑ…์„ ์‚ฌ์šฉํ•˜์—ฌ real world task์—์„œ zero-shot success rate๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Task๋“ค์€ Pick, Rotate, and Place, Line Tracking, Tool Use I: Pushing, Tool Use II: Wrench, Insertion์ž…๋‹ˆ๋‹ค. ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค(General Flow ๋“ฑ)๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค (์•ฝ 55%, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ 10% ๋ฏธ๋งŒ) (Figure 8 ์šฐ์ธก). fine-grained manipulation์ธ insertion ํƒœ์Šคํฌ์—์„œ๋„ ๋†’์€ ์ •๋ฐ€๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ ์„ฑ๊ณตํ•ฉ๋‹ˆ๋‹ค (Figure 7). ๊ฐ์ฒด ์ค‘์‹ฌ์  ์ž…๋ ฅ ํ‘œํ˜„ ๋•๋ถ„์— ๋ฐฐ๊ฒฝ ๋ณ€ํ™”์— ๋Œ€ํ•œ robustness๋„ ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค.
  • ์ •์ฑ… Ablation: Fine-grained task์˜ ๊ฒฝ์šฐ Diffusion policy๊ฐ€ Gaussian policy๋ณด๋‹ค ์ •ํ™•ํ•˜๊ณ  ๊ณ ํ’ˆ์งˆ์˜ motion field๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Diffusion model์—์„œ ๊ฐ์ฒด ๋งˆ์Šคํฌ ์™ธ๋ถ€ ์˜์—ญ์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๋งˆ์Šคํ‚นํ•˜๋Š” ๊ฒƒ์ด ํ›ˆ๋ จ์„ ๋‹จ์ˆœํ™”ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ํ›ˆ๋ จ ์ค‘ object masking augmentation์ด subtleํ•œ domain gap์„ ์ค„์ด๋Š” ๋ฐ ์ค‘์š”ํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค (Table 1).

๊ฒฐ๋ก : ๋ณธ ๋…ผ๋ฌธ์€ object-centric 3D motion field ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ์ œ์–ด ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹œ์—ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ฐ•๋ ฅํ•œ 3D motion estimator์™€ ๋ฐ€์ง‘๋œ flow prediction ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋„์ž…ํ•˜์—ฌ ๊ธฐ์กด ํ‘œํ˜„์˜ ์ฃผ์š” ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋” ๋‚˜์€ cross-embodiment transfer ๋ฐ ๋ฐฐ๊ฒฝ ์ผ๋ฐ˜ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋ชจ์…˜ ์ถ”์ • ๋ฐ ๋‹ค์–‘ํ•œ real world task ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ •๋ฐ€ ์กฐ์ž‘ ํƒœ์Šคํฌ ์ฒ˜๋ฆฌ์—์„œ ์ „๋ก€ ์—†๋Š” ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋ฐฉ๋ฒ•์€ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์žฌ๋‹ค๋Šฅํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๋กœ๋ด‡ ์—์ด์ „ํŠธ๋ฅผ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค.

์ œํ•œ ์‚ฌํ•ญ: ์™„์ „ํ•œ occlusion ์ƒํ™ฉ์—์„œ์˜ ์ง€์‹ ์ถ”์ถœ ๋ฏธ๊ณ ๋ ค, ๊ทธ๋ฆฌํผ ์™ธ ๋กœ๋ด‡ ์†์œผ๋กœ์˜ ํ™•์žฅ, ์›€์ง์ด๋Š” ์นด๋ฉ”๋ผ๋กœ์˜ ํ™•์žฅ, soft-body ์ฒ˜๋ฆฌ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ ํ•„์š”.

์ฃผ์š” ๊ธฐ์—ฌ:

  1. ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•ด object-centric 3D motion field๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์ด๋ฅผ ๋น„๋””์˜ค์—์„œ ์ถ”์ถœํ•˜๋Š” ์ƒˆ๋กœ์šด ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ.
  2. real world์—์„œ object-centric 3D motion field๋ฅผ ํ•™์Šตํ•˜๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜ ์ œ์‹œ (์ธ๊ฐ„ ๋น„๋””์˜ค๋งŒ์œผ๋กœ ๋กœ๋ด‡ ๊ธฐ์ˆ  ํ•™์Šต ๊ฐ€๋Šฅ).
  3. ๊ตฌ์„ฑ ์š”์†Œ์˜ real world ๊ฒ€์ฆ (motion estimation ์˜ค๋ฅ˜ 50% ์ด์ƒ ๊ฐ์†Œ, ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Šฅ๊ฐ€, fine-grained manipulation ๊ธฐ์ˆ  ํš๋“).

2 Detail Review

๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ: ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ ๋กœ๋ด‡ ํ•™์Šตํ•˜๊ธฐ (์‹ฌ์ธต ๋ฆฌ๋ทฐ)

์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ(์™ผ์ชฝ)๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๋กœ๋ด‡์ด ์œ ์‚ฌํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ์Šต(์˜ค๋ฅธ์ชฝ). ์ด ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡์ด ์‚ฌ๋žŒ ์˜์ƒ์„ ๋ณด๊ณ  ์ œ๋กœ์ƒท์œผ๋กœ ๋™์ž‘์„ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

2.1 ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ

๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉ ๋ฌธ์ œ์™€ ๊ธฐ์กด ์ ‘๊ทผ์˜ ํ•œ๊ณ„: ๋กœ๋ด‡ ์ œ์–ด ์ •์ฑ… ํ•™์Šต์—๋Š” ๋Œ€๊ทœ๋ชจ์˜ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์–‘์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๋Š” ์ผ์€ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“œ๋Š” ์–ด๋ ค์šด ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•œ ๋Œ€์•ˆ์œผ๋กœ ์ธ๊ฐ„-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋น„๋””์˜ค๊ฐ€ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‚ฌ๋žŒ์ด ๋“ฑ์žฅํ•˜๋Š” ์˜์ƒ์„ ๋กœ๋ด‡ ํ•™์Šต์— ํ™œ์šฉํ•˜๋ ค๋ฉด, ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ํ–‰๋™ ํ‘œํ˜„(action representation)์„ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์ด ๊ด€๊ฑด์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์— ์ œ์•ˆ๋œ ๋‹ค์–‘ํ•œ ํ‘œํ˜„ ๋ฐฉ์‹๋“ค์ด ์žˆ์ง€๋งŒ ๊ฐ๊ฐ ๋‹จ์ ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฏธ๋ž˜ ๋น„๋””์˜ค ํ”„๋ ˆ์ž„ ์ž์ฒด๋ฅผ ํ–‰๋™์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ์ ‘๊ทผ์€ ์˜์ƒ์ด ๋ถˆํ•„์š”ํ•˜๊ฒŒ ๋ณต์žกํ•˜๊ณ  ํ๋ฆฟํ•ด ํ•™์Šต์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค์—ˆ๊ณ , 2D ํ”ฝ์…€ ํ๋ฆ„(Optical Flow) ๊ธฐ๋ฐ˜ ํ‘œํ˜„์€ 3์ฐจ์› ์ •๋ณด๊ฐ€ ์†์‹ค๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ํ๋ฆ„์€ ์„ผ์„œ ์žก์Œ์— ๋ฏผ๊ฐํ•ด ๋ถ€์ •ํ™•ํ–ˆ๊ณ , SE(3) ๊ฐ์ฒด ์ž์„ธ ๋ณ€ํ™˜ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ๋ฏธ๋ฆฌ ์•Œ๊ณ  ์žˆ๋Š” ๋ฌผ์ฒด 3D ๋ชจ๋ธ์— ์˜์กดํ•˜๋ฉฐ ๊ฐ•์ฒด(rigid) ๋ฌผ์ฒด๋กœ ํ•œ์ •๋˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•œ ์ด์ƒ์ ์ธ ํ–‰๋™ ํ‘œํ˜„์ด ๋ฌด์—‡์ธ์ง€ ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ์ƒํ™ฉ์ด์—ˆ๊ณ , ์ด์— ๋Œ€ํ•œ ํ•ด๋‹ต์„ ์ด ๋…ผ๋ฌธ์ด ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ(Object-centric 3D Motion Field)์˜ ๊ฐœ๋…: ์ €์ž๋“ค์€ ๊ฐ์ฒด์˜ 3์ฐจ์› ์›€์ง์ž„ ์ž์ฒด์— ์ดˆ์ ์„ ๋งž์ถ˜ ์ƒˆ๋กœ์šด ํ–‰๋™ ํ‘œํ˜„์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์—ฐ์†๋œ ๋‘ ์˜์ƒ ํ”„๋ ˆ์ž„ ์‚ฌ์ด์—์„œ ํ™”๋ฉด์— ๋ณด์ด๋Š” ๊ฐ ์ง€์ (pixel)์˜ ๊นŠ์ด ๋ฐ 3D ์ด๋™๊ฐ’์„ ๋‚˜ํƒ€๋‚ธ 4์ฑ„๋„ ๋ฐ€์ง‘ ์ด๋ฏธ์ง€ ํ˜•ํƒœ์˜ ์ •๋ณด๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ์ฑ„๋„์—๋Š” ํ˜„์žฌ ํ”„๋ ˆ์ž„ ๊ฐ ํ”ฝ์…€์˜ ๊นŠ์ด๊ฐ’์ด, ๋‚˜๋จธ์ง€ ์„ธ ์ฑ„๋„์—๋Š” ๋‹ค์Œ ํ”„๋ ˆ์ž„์œผ๋กœ์˜ 3D ์ด๋™ ๋ฒกํ„ฐ(dx, dy, dz)๊ฐ€ ์ €์žฅ๋ฉ๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ํ•ด๋‹น ๋ฌผ์ฒด ํ‘œ๋ฉด์˜ ์ด๋™์„ ํ‘œํ˜„ํ•จ์œผ๋กœ์จ, ์นด๋ฉ”๋ผ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ(intrinsics)์™€ ํ•จ๊ป˜ํ•˜๋ฉด ๊ฐ ์ ์˜ 3D ์œ„์น˜ ๋ณ€ํ™”๊นŒ์ง€ ์™„์ „ํžˆ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ด ํ‘œํ˜„์ด ์˜ค์ง ๊ด€์‹ฌ ๋ฌผ์ฒด(object)์— ๊ตญํ•œ๋˜๋„๋ก ๊ฐ์ฒด ์ค‘์‹ฌ์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์–ด๋–ป๊ฒŒ ์†์„ ์›€์ง์˜€๋Š”์ง€ ๋“ฑ์˜ ์ •๋ณด๋Š” ๋ฐฐ์ œํ•˜๊ณ , ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•จ์— ์žˆ์–ด ๋ฌผ์ฒด๊ฐ€ ์–ด๋–ป๊ฒŒ ์ด๋™ํ•ด์•ผ ํ•˜๋Š”์ง€๋งŒ ์บก์ฒ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š” ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ํŒ”/์† ๊ตฌ์กฐ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•ด ํ”Œ๋žซํผ ๊ฐ„(embodiment ๊ฐ„) ์ง€์‹ ์ „์ด๋ฅผ ์‰ฝ๊ฒŒ ํ•˜๊ณ , ๋ฐฐ๊ฒฝ์ด๋‚˜ ์‚ฌ๋žŒ ๋ชจ์Šต์ด ๋‹ฌ๋ผ๋„ ๋™์ผํ•œ ์ž‘์—…์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋Š” ๋กœ๋ด‡ ์ œ์–ด์— ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ 3D ์ •๋ณด๋งŒ ์œ ์ง€ํ•˜๊ณ , ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํ‘œํ˜„์œผ๋กœ์„œ ๊ฐ•๋ ฅํ•œ ๋น„์ „ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ 3D ๋ชจ๋ธ ์‚ฌ์ „ ์ง€์‹ ์—†์ด RGB-D ์˜์ƒ๋งŒ์œผ๋กœ ์ถ”์ถœ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด ๋ฐ ์ฐจ๋ณ„์„ฑ: ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ด ์—ฐ๊ตฌ๋Š” ์‚ฌ๋žŒ ์‹œ์—ฐ ์˜์ƒ๋งŒ์œผ๋กœ ๋กœ๋ด‡์„ ๊ฐ€๋ฅด์น˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ์ด ์ ‘๊ทผ๋ฒ•์€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ์ „ํ˜€ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ์ œ๋กœ์ƒท ํ•™์Šต, ๋ฌผ์ฒด 3D ๋ชจ๋ธ์ด๋‚˜ ์ž์„ธ ์ถ”์ • ๋ถˆํ•„์š”, ์‹คํ–‰ ์ค‘ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ํ๋ฃจํ”„ ์ œ์–ด, ๊นŠ์ด ์„ผ์„œ ๋…ธ์ด์ฆˆ์— ๊ฐ•์ธํ•จ, ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ์ด๋‚˜ ๋ฐฉํ•ด๋ฌผ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋“ฑ์˜ ์ธก๋ฉด์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ์ด์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŠน์ง•๋“ค์€ ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฒ•์ด ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ทน๋ณตํ–ˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

๊ทธ๋ฆผ: ๋…ผ๋ฌธ์˜ ์ „์ฒด์ ์ธ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”. (์œ„) Phase I: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด์™€ ๋žœ๋ค 3D ์ด๋™์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ, 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ •๊ธฐ๋ฅผ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ๊นŠ์ด/ํ๋ฆ„ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ๋ถ€๋“œ๋Ÿฝ๊ณ  ์ •ํ™•ํ•œ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋ณต์›ํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. (์•„๋ž˜) Phase II-A: ํ•™์Šต๋œ ์ถ”์ •๊ธฐ๋ฅผ ํ™œ์šฉํ•ด ์‹ค์ œ ์ธ๊ฐ„ ์˜์ƒ์—์„œ ๊ฐ์ฒด์˜ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. SAM๊ณผ CoTracker๋กœ ๋ฌผ์ฒด๋ฅผ ๋ถ„ํ•  ๋ฐ ์ถ”์ ํ•œ ํ›„, ์ถ”์  ๊ฒฐ๊ณผ(๋…ธ์ด์ฆˆ ์žˆ๋Š” 3D ํ”ฝ์…€ ํ๋ฆ„)๋ฅผ ์ถ”์ •๊ธฐ์— ๋„ฃ์–ด ์ •ํ™•ํ•œ 3D ๋ชจ์…˜ ํ•„๋“œ ๋ ˆ์ด๋ธ”์„ ์–ป์Šต๋‹ˆ๋‹ค. Phase II-B: ์ด๋ ‡๊ฒŒ ๋ ˆ์ด๋ธ”๋ง๋œ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ 3D ๋ชจ์…˜ ํ•„๋“œ ์˜ˆ์ธก ์ •์ฑ… ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ์ƒˆ๋กœ์šด ๊ด€์ธก ์ด๋ฏธ์ง€(๋ถ„ํ• ๋œ RGB-D ์ž…๋ ฅ)๋ฅผ ๋ฐ›์•„ ํ•ด๋‹น ์ž‘์—…์—์„œ ๋ฌผ์ฒด๊ฐ€ ์–ด๋–ป๊ฒŒ ์›€์ง์—ฌ์•ผ ํ•˜๋Š”์ง€๋ฅผ 3D ๋ชจ์…˜ ํ•„๋“œ ํ˜•ํƒœ๋กœ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์˜ˆ์ธกํ•œ ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋กœ๋ด‡ ์ œ์–ด ๋ช…๋ น(SE(3) ์ด๋™)์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์‹ค์ œ ๋กœ๋ด‡์„ ์›€์ง์ž…๋‹ˆ๋‹ค.

Phase I: ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ •๊ธฐ โ€“ ๊นŠ์ด ๋…ธ์ด์ฆˆ ๋ฌธ์ œ ํ•ด๊ฒฐ: ์ผ๋ฐ˜์ ์ธ RGB-D ์นด๋ฉ”๋ผ๋Š” ์กฐ๋ช…์ด๋‚˜ ๋ฌผ์ฒด ์›€์ง์ž„์— ๋”ฐ๋ผ ์‹ฌ๊ฐํ•œ ๊นŠ์ด ๋…ธ์ด์ฆˆ๋ฅผ ๋ฐœ์ƒ์‹œํ‚ค๋ฉฐ, ์ด๋Š” 3D ๋ชจ์…˜ ์ถ”์ •์— ํฐ ์˜ค์ฐจ๋ฅผ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ โ€˜๋””๋…ธ์ด์ง•(denoising) 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ •๊ธฐโ€™๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ShapeNet ๋“ฑ์—์„œ ๋‹ค์–‘ํ•œ ๋ชจ์–‘์˜ ๊ฐ€์ƒ ๊ฐ์ฒด๋ฅผ ๊ฐ€์ ธ์™€ ๋ฌด์ž‘์œ„ ํฌ๊ธฐ์™€ ์œ„์น˜๋กœ ๋ฐฐ์น˜ํ•˜๊ณ , ์ž„์˜์˜ 3D ์ด๋™(๋ณ‘์ง„+ํšŒ์ „)์„ ๋ฐœ์ƒ์‹œ์ผœ ๋‹ค๋Ÿ‰์˜ ํ•ฉ์„ฑ RGB-D ์˜์ƒ ์Œ์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์‚ฌ๋ก€๋งˆ๋‹ค ๋…ธ์ด์ฆˆ ์—†๋Š” ์ •ํ™•ํ•œ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋ ˆ์ด๋ธ”๋กœ ๊ณ„์‚ฐํ•˜๊ณ , ์ž…๋ ฅ์œผ๋กœ๋Š” ์ธ์œ„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•œ ๊นŠ์ด ์ง€๋„์™€ 2D ์ถ”์  ๊ฒฐ๊ณผ(ํ”ฝ์…€ ํ๋ฆ„)๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ 8๋ฐฑ๋งŒ ๊ฐœ๊ฐ€ ๋„˜๋Š” ํ•™์Šต ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜์—ฌ ์ถ”์ •๊ธฐ ์‹ ๊ฒฝ๋ง์„ ํ›ˆ๋ จํ–ˆ๋Š”๋ฐ, ์ฃผ๋กœ U-Net ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์˜€๊ณ  ์ถœ๋ ฅ์œผ๋กœ ๊นŠ์ด ๋ณด์ •๊ฐ’๊ณผ 3D ์ด๋™๊ฐ’์„ ๊ฐ๊ฐ ์˜ˆ์ธกํ•˜๋Š” ๋“€์–ผ ํ—ค๋“œ(decoder) ๋ฐฉ์‹์„ ์ทจํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์นด๋ฉ”๋ผ ์ขŒํ‘œ๊ณ„์—์„œ์˜ ํ”ฝ์…€ ์œ„์น˜์ขŒํ‘œ ๋ฐ ์ดˆ์ ๊ฑฐ๋ฆฌ ์—ญ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ง„ ๋‚ด๋ถ€ํŒŒ๋ผ๋ฏธํ„ฐ ๋งต์„ ์ถ”๊ฐ€ ์ž…๋ ฅ ์ฑ„๋„๋กœ ์ฃผ์–ด, ์‹ ๊ฒฝ๋ง์ด ํˆฌ์˜ ๊ธฐํ•˜์˜ ๋ฏธ๋ถ„๊ด€๊ณ„๊นŒ์ง€ ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ํ”ฝ์…€ ์›€์ง์ž„์„ ์ •ํ™•ํ•œ 3D ์ด๋™์œผ๋กœ ํ™˜์‚ฐํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ •๋ณด(์˜ˆ: ๊นŠ์ด์— ๋”ฐ๋ฅธ z์ถ• ์ด๋™ ์Šค์ผ€์ผ ๋ณ€ํ™”)๋ฅผ ๋„คํŠธ์›Œํฌ๊ฐ€ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์†์‹ค์€ ๊ฐ์ฒด ์˜์—ญ์— ํ•œํ•ด ์ ์šฉ๋˜๋Š” Huber ์†์‹ค๋กœ ์•ˆ์ •์ ์œผ๋กœ ๊ตฌ์„ฑํ–ˆ๊ณ , ๊นŠ์ด ๊ตฌ๋ฉ(missing data)์ด๋‚˜ ์˜ค์ฐจ์— robustํ•˜๋„๋ก ์ž…๋ ฅ์— ๋งˆ์Šคํฌ ๋ฐ ๋ถ€๋ถ„ ๋žœ๋ค ๊ฒฐ์† ๋“ฑ์˜ ๋…ธ์ด์ฆˆ ์ฆ๊ฐ•๋„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ์‹ค์ œ RGB-D ์˜์ƒ์—์„œ๋„ ์ •ํ™•ํ•œ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋ณต์›ํ•ด๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๊ณ , ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ํ•™์Šตํ–ˆ์Œ์—๋„ ๋‚ด์šฉ์ด ์ˆœ์ˆ˜ ๊ธฐํ•˜ํ•™์ ์ด๋ผ ์‹ค์„ธ๊ณ„๋กœ์˜ sim-to-real ๊ฒฉ์ฐจ๊ฐ€ ๋งค์šฐ ์ž‘์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์—์„œ ์ด ๊ธฐ๋ฒ•์€ ๊ธฐ์กด์˜ ์ง์ ‘ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ• ๋Œ€๋น„ 3D ์šด๋™ ์ถ”์ • ์˜ค์ฐจ๋ฅผ 50% ์ด์ƒ ์ค„์—ฌ์ฃผ๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Phase II: ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ ์˜ˆ์ธก ์ •์ฑ… โ€“ ์˜์ƒ์—์„œ ์ •์ฑ…์œผ๋กœ: Phase I์ด 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ โ€œ๋ณด๋Š”โ€ ๋Šฅ๋ ฅ์„ ํ™•๋ณดํ–ˆ๋‹ค๋ฉด, Phase II์—์„œ๋Š” ๋กœ๋ด‡์ด ์‹ค์ œ๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋„๋ก โ€œ์˜ˆ์ธกํ•˜๊ณ  ๋”ฐ๋ผํ•˜๋Š”โ€ ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„  ๋‹ค์–‘ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ RGB-D ์˜์ƒ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜์—ฌ, ์•ž์„œ ํ•™์Šตํ•œ ์ถ”์ •๊ธฐ๋กœ ๊ฐ ์˜์ƒ์˜ ๊ณผ์ œ ๊ด€๋ จ ๋ฌผ์ฒด ์›€์ง์ž„์„ ๋ชจ๋‘ 3D ๋ชจ์…˜ ํ•„๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ๋ ˆ์ด๋ธ”๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. ์ด ๋•Œ SAM (Segment Anything Model)์„ ํ™œ์šฉํ•ด ๊ด€์‹ฌ ๊ฐ์ฒด๋ฅผ ๋งค ํ”„๋ ˆ์ž„ ์ž๋™ ๋ถ„ํ• ํ•˜๊ณ , CoTracker๋กœ ๊ฐ์ฒด ํ”ฝ์…€๋“ค์„ ํ”„๋ ˆ์ž„ ๊ฐ„ ์ถ”์ ํ•˜์—ฌ ํ”ฝ์…€ ํ๋ฆ„์„ ์–ป์€ ๋’ค, ์ถ”์ •๊ธฐ๋ฅผ ํ†ตํ•ด ์ •๋ฐ€ํ•œ 3D ์šด๋™ ๋ ˆ์ด๋ธ”์„ ํš๋“ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ค€๋น„๋œ ๋ฐ์ดํ„ฐ๋กœ ์ •์ฑ… ์‹ ๊ฒฝ๋ง(๋ชจ์…˜ ํ•„๋“œ ์˜ˆ์ธก๊ธฐ)์„ ํ•™์Šตํ•˜๋Š”๋ฐ, ์ž…๋ ฅ์€ ๋ถ„ํ• ๋œ ๊ฐ์ฒด์˜ RGB-D ์˜์ƒ์ด๊ณ  ์ถœ๋ ฅ์€ ํ•ด๋‹น ์žฅ๋ฉด์—์„œ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋ฌผ์ฒด์˜ 3D ๋ชจ์…˜ ํ•„๋“œ์ž…๋‹ˆ๋‹ค. ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋Š” Phase I์˜ U-Net ๊ธฐ๋ฐ˜์„ ๋Œ€๋ถ€๋ถ„ ๊ณต์œ ํ•˜๋ฉฐ, ์ถœ๋ ฅ์ด ์ด๋ฏธ์ง€ ํ˜•ํƒœ์ด๋ฏ€๋กœ ํ™•๋ฅ ์  ์ƒ์„ฑ ๋ชจ๋ธ์ธ ํ™•์‚ฐ ๋ชจ๋ธ(diffusion model)์„ ๋„์ž…ํ•ด ์ •๋ฐ€๋„๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค. diffusion ์ •์ฑ…์˜ ํ•™์Šต์—๋Š” ์ถœ๋ ฅ ๋ชจ์…˜ ํ•„๋“œ์— ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•œ ์ƒ˜ํ”Œ๋“ค์„ ๋‹จ๊ณ„๋ณ„ ๋ณต์›ํ•˜๋„๋ก ํ•˜์—ฌ, ๊ธฐ์กด ํšŒ๊ท€(gaussian) ์ ‘๊ทผ๋ณด๋‹ค ์•ˆ์ •์ ์ด๊ณ  ๋†’์€ ํ•ด์ƒ๋„์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ ๊ฐ์ฒด ๋งˆ์Šคํฌ ์˜์—ญ ์™ธ์˜ ๋ถ€๋ถ„์€ ๋ฌด์‹œํ•˜๋„๋ก ํ•˜์—ฌ ๋ฐฐ๊ฒฝ์˜ ๋ถˆํ•„์š”ํ•œ ๋…ธ์ด์ฆˆ ์˜ํ–ฅ์„ ์ค„์˜€์œผ๋ฉฐ, ์ธ๊ฐ„ ์† vs ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ๋กœ ์ธํ•œ ๋ฌผ์ฒด ์™ธํ˜• ์ฐจ์ด์— ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด ๋žœ๋ค ๋งˆ์Šคํ‚น ์ฆ๊ฐ•์„ ์‹ค์‹œํ•˜์—ฌ ์•ฝ๊ฐ„์˜ ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ๋ณด์™„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ค€๋น„๋œ ์ •์ฑ…์€ ์‚ฌ๋žŒ์ด๋‚˜ ๋กœ๋ด‡์˜ ํ˜•ํƒœ ์ •๋ณด๋ฅผ ์ „ํ˜€ ๋ณด์ง€ ์•Š๊ณ  ์˜ค์ง ๋ฌผ์ฒด์™€ ์ž‘์—… ๋งฅ๋ฝ๋งŒ ํ™œ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์‚ฌ๋žŒ ์˜์ƒ์œผ๋กœ ํ•™์Šตํ–ˆ์–ด๋„ ๋กœ๋ด‡์— ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๋Š” ๋ฐ ๊ฒฉ์ฐจ๊ฐ€ ๋งค์šฐ ์ž‘์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ํ•™์Šต๋œ ์ •์ฑ…๋ง์€ ์นด๋ฉ”๋ผ ์˜์ƒ๋งŒ ๋ณด๊ณ ๋„ ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ ์ถ”์ถœํ•œ ๊ฒƒ๊ณผ ๋™์ผํ•œ ํ˜•์‹์˜ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ์˜ˆ์ธกํ•˜๋ฉฐ, ์ด๋ฅผ ์ตœ์ข… ๋กœ๋ด‡ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์ฆ‰๊ฐ ์‹คํ–‰์— ์˜ฎ๊ธธ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์ œ์–ด๋กœ์˜ ๋ณ€ํ™˜: ์ •์ฑ…์ด ์ถœ๋ ฅํ•œ 3D ๋ชจ์…˜ ํ•„๋“œ๋Š” ๊ณง ๋ฌผ์ฒด์˜ 3์ฐจ์› ๋ชฉํ‘œ ์ด๋™์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ, ์ด๋ฅผ ๋กœ๋ด‡์˜ ์žก๊ณ  ์žˆ๋Š” ๋ฌผ์ฒด ์ด๋™ ๋ช…๋ น(SE(3) ๋ณ€ํ™˜)์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฉ๋ฒ•์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค: ํ˜„์žฌ ํ”„๋ ˆ์ž„์—์„œ ๋ฌผ์ฒด ๋งˆ์Šคํฌ ๋‚ด ๊ฐ ํ”ฝ์…€์˜ ํ˜„์žฌ 3D ์ขŒํ‘œ๋ฅผ ๊นŠ์ด๊ฐ’๊ณผ ์นด๋ฉ”๋ผ ํˆฌ์˜์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ณ , ๋ชจ์…˜ ํ•„๋“œ์˜ (dx,dy,dz)๋ฅผ ๋”ํ•ด ๋ชฉํ‘œ 3D ์ขŒํ‘œ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ํ˜„์žฌ-๋ชฉํ‘œ ์ ๊ตฐ(point cloud) ์Œ์€ ํ”ฝ์…€ ๋‹จ์œ„๋กœ 1:1 ๅฏพ์‘๋˜๋ฏ€๋กœ, ์ด๋“ค์„ ๊ฐ€์žฅ ์ž˜ ๋งž์ถฐ์ฃผ๋Š” ์ตœ์ ์˜ ํšŒ์ „ยท๋ณ‘์ง„ ๋ณ€ํ™˜(SE(3))์„ ํ์‡„ํ•ดํ˜• ํ•ด๋ฒ•(Kabsch ์•Œ๊ณ ๋ฆฌ์ฆ˜)์œผ๋กœ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋…ธ์ด์ฆˆ๋‚˜ ์™ธ๋ž€์— ๊ฐ•๊ฑดํ•˜๋„๋ก RANSAC์œผ๋กœ ์ด์ƒ์น˜๋„ ์ œ๊ฑฐํ•œ ๋’ค ์ตœ์ข… ๋ณ€ํ™˜์„ ์–ป์œผ๋ฉด, ๋กœ๋ด‡ ๊ธฐ์ค€ ์ขŒํ‘œ๊ณ„๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋กœ๋ด‡ ํŒ”์— ํ•ด๋‹น ์ด๋™์„ ์‹คํ–‰์‹œํ‚ค๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ณ€ํ™˜ ๊ณ„์‚ฐ์€ ๋งค์šฐ ๋น ๋ฅด๊ณ  (300~1000Hz ์ˆ˜์ค€) ๋กœ๋ด‡ ์ œ์–ด ๋ฃจํ”„์— ๋ฌด๋ฆฌ ์—†์ด ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค. ๋‹จ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋กœ๋ด‡์˜ ๋ฌผ์ฒด ์žก๊ธฐ/๋†“๊ธฐ ๋™์ž‘์€ ๋ณ„๋„์˜ ๋ชจ๋“ˆ(์‚ฌ์ „์— ํ™•๋ณด๋œ ๊ทธ๋ฆฌํผ ์ œ์–ด ์ •์ฑ…)์— ๋งก๊ธฐ๊ณ  ์žˆ์œผ๋ฉฐ, ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ฌผ์ฒด๋ฅผ ์žก์€ ์ดํ›„์˜ ์›€์ง์ž„์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ ์†๋™์ž‘์„ ๋กœ๋ด‡์— ๊ทธ๋Œ€๋กœ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๊ณ  ๋ถˆํ•„์š”ํ•˜๋‹ค๋Š” ์ €์ž๋“ค์˜ ํŒ๋‹จ์— ๋”ฐ๋ฅธ ๊ฒƒ์œผ๋กœ, ์ฐจํ›„ ์–ด๋–ค ๋ถ€๋ถ„์„ ์žก์•„์•ผ ํ•˜๋Š”์ง€ ๋“ฑ์˜ ์ ‘์ด‰์— ๋Œ€ํ•œ ์•”๋ฌต์  ์ง€์‹(affordance)์€ ์ถ”๊ฐ€ ํ•™์Šต์ด ํ•„์š”ํ•˜์ง€๋งŒ ํ˜„์žฌ๋Š” ๋ถ„๋ฆฌํ•˜์—ฌ ๊ณ ๋ คํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ํ–‰๋™์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํ–‰๋™ ํ‘œํ˜„์œผ๋กœ ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋„์ž…ํ•˜๊ณ , ์ด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜์˜ 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ถœ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ˜„์‹ค ์„ธ๊ณ„ ์˜์ƒ์—์„œ์˜ ์˜ˆ์ธก ๋ชจ๋ธ์ด๋ผ๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ณ ์•ˆํ•˜์—ฌ, ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ RGB-D ์˜์ƒ์—์„œ๋„ ์ •๊ตํ•œ ๊ฐ์ฒด ์›€์ง์ž„ ์ถ”์ถœ์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ์˜์ƒ๋งŒ์œผ๋กœ ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ๊ธฐ์ˆ ์„ ๊ฐ€๋ฅด์น  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ œ์•ˆํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์œผ๋กœ ๊ฒ€์ฆํ•œ ๊ฒฐ๊ณผ, ๋ชจ์…˜ ์ถ”์ • ์˜ค์ฐจ 50% ์ด์ƒ ๊ฐ์†Œ, ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ํ‰๊ท  55%์˜ ์„ฑ๊ณต๋ฅ (์ด์ „ ๊ธฐ๋ฒ•๋“ค์€ 10% ๋ฏธ๋งŒ)์ด๋ผ๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ์ˆœ์ˆ˜ ์ธ๊ฐ„ ์† ์‹œ์—ฐ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์ด ์ •๋ฐ€ ์‚ฝ์ž… ์ž‘์—…๊นŒ์ง€ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์„ ์ตœ์ดˆ๋กœ ์‹œํ˜„ํ•ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

2.2 ์‹คํ—˜ ๊ฒฐ๊ณผ ํ•ด์„

์‹คํ—˜ ํ™˜๊ฒฝ: ์ €์ž๋“ค์€ Intel RealSense D435 RGB-D ์นด๋ฉ”๋ผ(์ •์ง€๋œ ์ƒํƒœ)๋กœ ์‚ฌ๋žŒ ์‹œ์—ฐ ์˜์ƒ์„ ์ˆ˜์ง‘ํ•˜๊ณ , UCT ๊ต์œก์šฉ ๋กœ๋ด‡ํŒ”(XArm7)๊ณผ ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ๋กœ ์‹ค์ œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹คํ—˜์„ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์นด๋ฉ”๋ผ๋Š” ์ž‘์—…๋Œ€๋กœ๋ถ€ํ„ฐ ์•ฝ 40โ€“50cm ๊ฑฐ๋ฆฌ์—์„œ ๋ฌผ์ฒด๋ฅผ ๋ฐ”๋ผ๋ณด๋„๋ก ๋ฐฐ์น˜๋˜์—ˆ๊ณ , ๋กœ๋ด‡ ์†๋ชฉ ์นด๋ฉ”๋ผ๋Š” ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ํ•™์Šต์‹œ ์ž…๋ ฅ ์˜์ƒ ํ•ด์ƒ๋„๋Š” ์ ์ ˆํžˆ ํฌ๋กญ ๋ฐ ๋ฆฌ์‚ฌ์ด์ฆˆํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์€ ํฌ๊ฒŒ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค: (1) 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ •๊ธฐ(Phase I)์˜ ์ •๋ฐ€๋„ ํ‰๊ฐ€, (2) ํ•™์Šต๋œ ์ •์ฑ…(Phase II)์˜ ๋กœ๋ด‡ ์ž‘์—… ์„ฑ๊ณต๋ฅ  ํ‰๊ฐ€์ž…๋‹ˆ๋‹ค.

1. 3D ๋ชจ์…˜ ํ•„๋“œ ์ถ”์ • ์„ฑ๋Šฅ ํ‰๊ฐ€: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ์ถ”์ •๊ธฐ ๋ชจ๋ธ์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ์ •ํ™•ํžˆ ์ž‘๋™ํ•˜๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์ž„์˜๋กœ ์›€์ง์ด๋Š” ์žฅ๋ฉด์„ ์ง์ ‘ ๋งŒ๋“ค์–ด ์ •ํ™•ํ•œ ๊ธฐ์ค€ ๋‹ต๊ณผ ํ•จ๊ป˜ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ๋กœ ๋‹ค์–‘ํ•œ ๋ชจ์–‘์˜ ๋ฌผ์ฒด๋“ค์„ ์ฅ” ์ฑ„ ๋ฌด์ž‘์œ„๋กœ ํ”๋“ค์–ด์„œ (๋ณ‘์ง„+ํšŒ์ „ ์šด๋™) ์นด๋ฉ”๋ผ ์•ž์—์„œ ์›€์ง์ด๊ณ , ์ด ๋•Œ ๋กœ๋ด‡์˜ ์‹ค์ œ ๊ทธ๋ฆฌํผ ํฌ์ฆˆ ๋ณ€ํ™”๋กœ๋ถ€ํ„ฐ ๋ฌผ์ฒด์˜ ์‹ค์ œ 3D ๋ณ€ํ™˜๋Ÿ‰(ground-truth)์„ ๊ณ„์‚ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ œ์•ˆ๋œ ์ถ”์ •๊ธฐ์™€ ๊ธฐ์กด์˜ ์ง์ ‘ ๊ณ„์‚ฐ ๋ฐฉ์‹(๊นŠ์ด๊ฐ’+์ถ”์  ๊ฒฐ๊ณผ๋กœ ๋ฐ”๋กœ 3D ๊ณ„์‹ผ)์„ ๋น„๊ตํ•˜์—ฌ, ๋ณต์›๋œ ๋ฌผ์ฒด ์ด๋™ ๋ณ€ํ™˜์˜ ์˜ค์ฐจ๋ฅผ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” Figure 8 (์™ผ์ชฝ) ๊ทธ๋ž˜ํ”„๋กœ ์ œ์‹œ๋˜๋Š”๋ฐ, ๋ฌผ์ฒด์˜ ํ‰ํ–‰์ด๋™ MSE์™€ ํšŒ์ „ ํ–‰๋ ฌ ์˜ค์ฐจ(norm) ์ง€ํ‘œ ๋ชจ๋‘์—์„œ ์ œ์•ˆ ๋ฐฉ๋ฒ•์ด ๊ธฐ์กด ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋‚ฎ์€ ์˜ค์ฐจ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊นŠ์ด ์ž…๋ ฅ์— ์ธ์œ„์ ์œผ๋กœ ์žก์Œ(Gaussian noise)์„ ์ถ”๊ฐ€ํ•ด ๊ณต๊ฒฉ์ ์ธ ๊ฐ•๊ฑด์„ฑ ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•œ ๊ฒฝ์šฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์˜ค์ฐจ๊ฐ€ ๊ธ‰๊ฒฉํžˆ ์ปค์ง„ ๋ฐ˜๋ฉด ์ œ์•ˆ ๋ฐฉ๋ฒ•์€ ํ›ˆ๋ จ์‹œ ๋…ธ์ด์ฆˆ์— ๋Œ€๋น„ํ•œ ๋•๋ถ„์— ์˜ค์ฐจ ์ˆ˜์ค€์ด ๊ฑฐ์˜ ์ฆ๊ฐ€ํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋„คํŠธ์›Œํฌ ์„ค๊ณ„ ์š”์†Œ์˜ ์œ ํšจ์„ฑ๋„ ํ™•์ธํ–ˆ๋Š”๋ฐ, ์นด๋ฉ”๋ผ ๋‚ด๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ ๋งต์„ ์ž…๋ ฅ์— ํฌํ•จ์‹œํ‚จ ๊ฒฝ์šฐ์™€ ์•„๋‹Œ ๊ฒฝ์šฐ๋ฅผ ๋น„๊ตํ•œ ์–ด๋ธ”๋ ˆ์ด์…˜(ablation)์—์„œ, ํ”ฝ์…€ ์ขŒํ‘œ์™€ ์ดˆ์ ๊ฑฐ๋ฆฌ ์ •๋ณด๊ฐ€ ์—†์„ ๋•Œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณธ๋ฌธ์˜ ์œ ๋„๋Œ€๋กœ ํ™”๋ฉด ์ขŒํ‘œ์™€ ์นด๋ฉ”๋ผ ๋ชจ๋ธ ์ •๋ณด๊ฐ€ 3D ์šด๋™ ์˜ˆ์ธก์— ํ•„์ˆ˜์ ์ž„์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ž‘์€ ์‹œ์•ผ๊ฐ ๋ณ€ํ™”(ยฑ10๋„)์—์„œ์กฐ์ฐจ ์ดˆ์ ๊ฑฐ๋ฆฌ ๊ฐ’์˜ ์ฐจ์ด๊ฐ€ ์˜ˆ์ธก ์ •ํ™•๋„์— ์˜ํ–ฅ์„ ์คŒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ์ธ๊ฐ„ ์˜์ƒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์˜ ๋กœ๋ด‡ ์ž‘์—… ํ‰๊ฐ€: ๋‹ค์Œ์œผ๋กœ, ์ง„์งœ ์ธ๊ฐ„ ์‹œ์—ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์ด ์‹ค์ œ ๋กœ๋ด‡ ๋ฌผ์ฒด ์กฐ์ž‘ ์ž‘์—…๋“ค์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹œํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ๋ฌผ์ฒด ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์„ ์ •ํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ํ•œ ์‹ค์ œ ์ž‘์—…๊ณผ ๋ชฉํ‘œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • 1. ์žก์•„์„œ ๋Œ๋ ค ๋†“๊ธฐ (Pick, Rotate, and Place): ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด๋“ค๊ณ  ํŠน์ • ๊ฐ๋„๋กœ ํšŒ์ „์‹œํ‚จ ํ›„ ๋ชฉํ‘œ ์œ„์น˜์— ๋‚ด๋ ค๋†“๋Š” ์ž‘์—…. ์ตœ์ข…์ ์œผ๋กœ ์ •ํ•ด์ง„ ์ž์„ธ๋กœ ์ •ํ™•ํžˆ ๋ฌผ์ฒด๋ฅผ ๋ฐฐ์น˜ํ•ด์•ผ ์„ฑ๊ณต์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.
  • 2. ์„  ์ถ”์  (Line Tracking): ํŽœ ๋ชจ์–‘์˜ ์†์ „๋“ฑ์„ ์ง‘์–ด ๋“ค์–ด ์ฑ…์ƒ ์œ„์— ๋†“์ธ ์ „์„  ๋ชจ์–‘ ๋ผ์ธ์„ ๋”ฐ๋ผ ์ด๋™์‹œํ‚ค๋Š” ์ž‘์—…. ์†์ „๋“ฑ ๋ถˆ๋น›์ด ๊ณ„์† ์„ ์„ ๋น„์ถ”๋ฉด์„œ ์ •ํ•ด์ง„ ๊ฒฝ๋กœ๋ฅผ ๋๊นŒ์ง€ ๋”ฐ๋ผ๊ฐ€๋ฉด ์„ฑ๊ณต์ด๋ฉฐ, ์ค‘๊ฐ„์— ํฌ๊ฒŒ ๋ฒ—์–ด๋‚˜๋ฉด ์‹คํŒจ์ž…๋‹ˆ๋‹ค.
  • 3. ๋„๊ตฌ ์‚ฌ์šฉ I - ๋ฐ€์–ด์„œ ์˜ฎ๊ธฐ๊ธฐ (Tool Use I: Pushing): ๋ง‰๋Œ€๊ธฐ๋‚˜ ๋ฐ€๋Œ€ ๊ฐ™์€ ๋„๊ตฌ๋ฅผ ์ง‘์–ด ํ•œ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ‘œ ์œ„์น˜๊นŒ์ง€ ๋ฐ€์–ด์„œ ์ด๋™์‹œํ‚ค๋Š” ์ž‘์—….
  • 4. ๋„๊ตฌ ์‚ฌ์šฉ II - ๋ Œ์น˜ ์กฐ์ด๊ธฐ (Tool Use II: Wrench): ๋ Œ์น˜(์ŠคํŒจ๋„ˆ)๋กœ ๋„ˆํŠธ๋ฅผ ํ•œ ๋ฐ”ํ€ด ์กฐ์ด๋Š” ์ž‘์—…. ํšŒ์ „ํ•˜์—ฌ ๋ผ์šฐ๋Š” ๋™์ž‘์ด๋ผ 1๋ฒˆ ์ž‘์—…๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ๋ฌผ์ฒด ๊ฐ„ ๊ธฐ๊ตฌ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์–ด ํšŒ์ „ ๊ฐ๋„๊ฐ€ ์ œ์•ฝ๋˜๊ณ  ์ •๋ฐ€ํ•œ ๋งž์ถค์ด ํ•„์š”ํ•œ ๋” ์–ด๋ ค์šด ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.
  • 5. ์‚ฝ์ž… (Insertion): ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด์„œ ํšŒ์ „์‹œํ‚จ ํ›„ ์ž‘์€ ๊ตฌ๋ฉ์ด๋‚˜ ์Šฌ๋กฏ์— ์ •ํ™•ํžˆ ๋ผ์›Œ๋„ฃ๋Š” ์ž‘์—…. ํ—ˆ์šฉ ์˜ค์ฐจ๊ฐ€ 2.5mm์— ๋ถˆ๊ณผํ•˜์—ฌ, ๋ช‡ ๋„์˜ ๊ฐ๋„๋‚˜ ๋ช‡ mm ์œ„์น˜ ์–ด๊ธ‹๋‚จ๋„ ์‹คํŒจ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ์•„์ฃผ ๊ณ ๋‚œ์ด๋„ ์ •๋ฐ€ ์ž‘์—…์ž…๋‹ˆ๋‹ค.

๊ฐ ์ž‘์—…๋งˆ๋‹ค 50~150๊ฐœ์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ์„ ์ˆ˜์ง‘ํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉํ–ˆ๊ณ , ๊ณผ์ œ ๋ณต์žก๋„์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์— ์•ฝ 2~15๋ถ„ ์ •๋„ ์†Œ์š”๋˜์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ๋ฉ๋‹ˆ๋‹ค. (์‹œ์—ฐ ์˜์ƒ์€ ์ผ๋ฐ˜์ธ์ด ํœด๋Œ€ํฐ ๋“ฑ์œผ๋กœ ์ดฌ์˜ํ•œ ์งง์€ 3~5์ดˆ ๊ธธ์ด์˜ RGB-D ํด๋ฆฝ๋“ค๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.) ํ•™์Šต ์‹œ์—๋Š” ๊ฐ ํ”„๋ ˆ์ž„์˜ ๋ฌผ์ฒด ๋ถ„ํ• ๊ณผ ์ถ”์ ์ด ์ž๋™ํ™”๋˜์—ˆ์ง€๋งŒ, ํ‰๊ฐ€ ์‹œ์—๋Š” ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋ชจ๋“  ๋น„๊ต ๋ฐฉ๋ฒ•๋“ค์— ๋Œ€ํ•ด ๋ฌผ์ฒด ๋ถ„ํ• ๊ณผ ์ดˆ๊ธฐ ํŒŒ์ง€(grasp)๊ฐ€ ์ œ๋Œ€๋กœ ๋œ ๊ฒฝ์šฐ๋งŒ ์ง‘๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ๊ฒฐ๊ณผ, Figure 8 (์˜ค๋ฅธ์ชฝ)์— ์ œ์‹œ๋œ ์ž‘์—…๋ณ„ ์„ฑ๊ณต๋ฅ ์—์„œ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์ด ๋‹ค๋ฅธ ๋ชจ๋“  ๋น„๊ต ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์›”๋“ฑํžˆ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธฐ์กด ์ตœ์‹  ๋ฐฉ๋ฒ•์œผ๋กœ ์•Œ๋ ค์ง„ General 3D Flow ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๊ฑฐ์˜ ๋ชจ๋“  ์ž‘์—…์—์„œ ํ•œ ์ž๋ฆฟ์ˆ˜ ๋˜๋Š” 0%์— ๊ฐ€๊นŒ์šด ์„ฑ๊ณต๋ฅ ์— ๊ทธ์นœ ๋ฐ˜๋ฉด (์ •๋ฐ€ ์ž‘์—…์—์„œ๋Š” ์ „ํ˜€ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ•จ), ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•์€ ํ‰๊ท  55%์˜ ์„ฑ๊ณต๋ฅ ๋กœ ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋”์šฑ์ด ๋กœ๋ด‡์˜ ๋™์ž‘ ๊ถค์ ์„ ๊ด€์ฐฐํ•œ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์ดˆ๋ฐ˜๋ถ€ํ„ฐ ๋ฌผ์ฒด๋ฅผ ์—‰๋šฑํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์—ฌ ๊ฒฝ๋กœ๋ฅผ ์ดํƒˆํ•˜๋Š” ๋ฐ˜๋ฉด, ์ œ์•ˆ ๋ฐฉ๋ฒ•์€ ๋๊นŒ์ง€ ์ธ๊ฐ„ ์‹œ์—ฐ ๊ฒฝ๋กœ๋ฅผ ์ž˜ ๋”ฐ๋ผ๊ฐ€๋ฉด์„œ ๊ณผ์ œ๋ฅผ ์™„์ˆ˜ํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์„œ ์ถ”์ถœํ•œ ๋ชจ์…˜ ํ•„๋“œ๊ฐ€ ์ •ํ™•ํ•˜๊ณ  ๋งค๋„๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐ๋œ ์›€์ง์ž„ ์ •๋ณด์ด๊ธฐ์— ๊ฐ€๋Šฅํ•œ ์ผ๋กœ, ๋ถ€๋“œ๋Ÿฌ์šด ์ถ”์ •์ด ๊ณง ์ •ํ™•ํ•œ ์ œ์–ด๋กœ ์ด์–ด์ง„ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋ฐฐ๊ฒฝ์ด ํ•™์Šต ๋•Œ์™€ ๋‹ฌ๋ผ์ ธ๋„, ์ž…๋ ฅ์œผ๋กœ ๋ฐฐ๊ฒฝ์„ ์ œ์™ธํ•œ ๊ฐ์ฒด ์ค‘์‹ฌ ์ •๋ณด๋งŒ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์— ๋ฌธ์ œ๊ฐ€ ์—†์—ˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฐ€์žฅ ๋‚œ์ด๋„๊ฐ€ ๋†’์€ ์‚ฝ์ž… ์ž‘์—…์˜ ๊ฒฝ์šฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด, ์ธ๊ฐ„ ์˜์ƒ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์ด ์ด์ฒ˜๋Ÿผ ์„ฌ์„ธํ•œ ์ž‘์—…์„ ํ•ด๋‚ธ ๊ฒƒ์€ ์ฒ˜์Œ์ด๋ผ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์„ฑ๊ณต๋ฅ ์€ ์•ฝ 35% ์ •๋„๋กœ ์™„๋ฒฝํ•˜๋‹ค๊ณ  ํ•  ์ˆ˜๋Š” ์—†์ง€๋งŒ, ๋น„๊ต๊ตฐ๋“ค์€ ๋‹จ ํ•œ ๋ฒˆ๋„ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ–ˆ์Œ์„ ๊ฐ์•ˆํ•˜๋ฉด ์ƒ๋‹นํžˆ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‚ฝ์ž… ์ž‘์—… ์‹คํ–‰ ์˜์ƒ์„ ๋ฉด๋ฐ€ํžˆ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ๋กœ๋ด‡์ด ํ•œ ๋ฒˆ์— ๋งค๋„๋Ÿฝ๊ฒŒ ๊ฝ‚์ง€๋Š” ๋ชปํ•˜๊ณ  โ€œ๋•…๋•…(bang-bang) ์ œ์–ดโ€์— ๊ฐ€๊นŒ์šด ๋ฏธ์„ธ ์กฐ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ๊ฐ„์‹ ํžˆ ์„ฑ๊ณตํ•˜๋Š” ์–‘์ƒ์„ ๋ณด์˜€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ์€ ์†๋์˜ ๋ฏธ์„ธ ๊ฐ๊ฐ์œผ๋กœ ํ•œ ๋ฒˆ์— ๊ฝ‚๋Š” ๋ฐ˜๋ฉด ๋กœ๋ด‡์€ ์นด๋ฉ”๋ผ ๊ด€์ฐฐ๋งŒ์œผ๋กœ ์›€์ง์ด๋‹ค ๋ณด๋‹ˆ ์•ฝ๊ฐ„์”ฉ ์œ„์น˜๋ฅผ ๋ณด์ •ํ•ด๊ฐ€๋Š” ๊ฒƒ์œผ๋กœ, ์—ฌ์ „ํžˆ ์ธ๊ฐ„์— ๋น„ํ•ด ๋ถ€์กฑํ•œ ๋ถ€๋ถ„์ด์ง€๋งŒ ์ตœ์ข…์ ์œผ๋กœ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค๋Š” ์ ์—์„œ ํ•™์Šต ํšจ๊ณผ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด๋Ÿฌํ•œ ์ถ”๊ฐ€ ๋ฏธ์„ธ ์กฐ์ • ๋™์ž‘๋„ ์ •์ฑ…์ด ๋ชจ์…˜ ํ•„๋“œ ํ˜•ํƒœ๋กœ ๋ชฉํ‘œ ์ด๋™์„ ์ง€์† ์˜ˆ์ธกํ•˜๋ฉฐ ๋งˆ๋ฌด๋ฆฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ–ˆ๊ธฐ์— ๊ฐ€๋Šฅํ•œ ๊ฒƒ์œผ๋กœ, ์™„์ „ํžˆ ์‹คํŒจํ•˜๋Š” ๊ธฐ์กด ์ •์ฑ…๋“ค๊ณผ ๋น„๊ต๋ฉ๋‹ˆ๋‹ค.

์ •์ฑ… ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๋ถ„์„: Table 1์€ ์ •๋ฐ€ ์ž‘์—…๋“ค์— ๋Œ€ํ•œ ์ •์ฑ… ์„ค๊ณ„ ์„ ํƒ์˜ ์˜ํ–ฅ์„ ์š”์•ฝํ•œ ์–ด๋ธ”๋ ˆ์ด์…˜ ์‹คํ—˜ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. diffusion ๋ชจ๋ธ ๋Œ€์‹  ์ „ํ†ต์  Gaussian ํšŒ๊ท€ ์ถœ๋ ฅ์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜, diffusion ๋‹จ๊ณ„์—์„œ ๊ฐ์ฒด ๋งˆ์Šคํฌ ์ ์šฉ์„ ์ƒ๋žตํ•œ ๊ฒฝ์šฐ ์‚ฝ์ž…๊ณผ ๋ Œ์น˜ ์ž‘์—…์—์„œ 0% ์„ฑ๊ณต์œผ๋กœ ์ „ํ˜€ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต ์‹œ ๊ฐ์ฒด ๋งˆ์Šคํฌ ์ฆ๊ฐ•์„ ํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ ์„ฑ๊ณต๋ฅ ์ด 5%๋กœ ๋งค์šฐ ์ €์กฐํ–ˆ์œผ๋‚˜, ์ œ์•ˆํ•œ ๋ชจ๋“  ๊ธฐ๋ฒ•์„ ํฌํ•จํ•œ ์™„์ „ํ•œ ๋ชจ๋ธ์€ 35%๊นŒ์ง€ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” diffusion ๊ธฐ๋ฐ˜์˜ ๊ณ ํ•ด์ƒ๋„ ์˜ˆ์ธก์ด ์ •๋ฐ€ ์ž‘์—…์— ํ•„์ˆ˜์ ์ด๊ณ , ๋น„๊ฐ์ฒด ์˜์—ญ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ์™€ ๋กœ๋ด‡-์ธ๊ฐ„ ๋ฌผ์ฒด ์™ธํ˜• ์ฐจ์ด์— ๋Œ€ํ•œ ์ฆ๊ฐ•์ด ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์ œ์•ˆํ•œ ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ ์ ‘๊ทผ์ด ์‹ค์ œ ํ˜„์‹ค์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ์กฐ์ž‘ ์ž‘์—…์—์„œ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค์ด ์‹คํŒจํ•˜๋˜ ๊ฒƒ์„ ์„ฑ๊ณต์œผ๋กœ ๋ฐ”๊ฟ”๋†“์„ ๋งŒํผ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์˜์ƒ์—์„œ ์ถ”์ถœํ•œ ์ •ํ™•ํ•œ 3D ํ–‰๋™ ํ‘œํ˜„์„ ํ† ๋Œ€๋กœ ํ•™์Šต๋œ ๋กœ๋ด‡ ์ •์ฑ…์€, ๋ณ„๋„์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์—†์ด๋„ ๋†€๋ผ์šธ ์ •๋„์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋น„๋ก ์„ฑ๊ณต๋ฅ ์ด 100%๋Š” ์•„๋‹ˆ์ง€๋งŒ, ๋ฐ์ดํ„ฐ ์ค€๋น„์˜ ์šฉ์ด์„ฑ๊ณผ ํ•™์Šต ํšจ์œจ์„ ๊ณ ๋ คํ•˜๋ฉด ํ–ฅํ›„ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•๋ ฅํžˆ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

2.3 ์žฅ์ ๊ณผ ํ•œ๊ณ„

์žฅ์  โ€“ ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ์ผ๋ฐ˜ํ™”์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰: ์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ๋Š” ๋กœ๋ด‡ ํ•™์Šต์˜ ๋ฐ์ดํ„ฐ ๋ฌธ์ œ๋ฅผ ์ธ๊ฐ„ ์‹œ์—ฐ ์˜์ƒ์œผ๋กœ ํ’€์–ด๋‚ธ ์ ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์œผ๋กœ ์‹œ์—ฐํ•œ ์งง์€ ์˜์ƒ ์ˆ˜์‹ญ ๊ฐœ๋งŒ์œผ๋กœ๋„ ๋กœ๋ด‡์—๊ฒŒ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ๊ฐ€๋ฅด์น  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€, ํ–ฅํ›„ ๋กœ๋ด‡์—๊ฒŒ ํ•„์š”ํ•œ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๋‹ค ์‰ฝ๊ฒŒ ํš๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋ผ๋Š” ํ‘œํ˜„์€ ๋กœ๋ด‡ ์ œ์–ด์— ํ•„์š”ํ•œ ํ•ต์‹ฌ ์ •๋ณด๋งŒ ๋‹ด๊ณ  ์žˆ์–ด ํšจ์œจ์ ์ผ ๋ฟ ์•„๋‹ˆ๋ผ, ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡์˜ ํ˜•ํƒœ ์ฐจ์ด๋ฅผ ์ดˆ์›”ํ•ด ๋™์ž‘์„ ์ „๋‹ฌํ•œ๋‹ค๋Š” ๋ฐœ์ƒ์˜ ์ „ํ™˜์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๋•๋ถ„์— ํ•˜๋‚˜์˜ ์ •์ฑ…์œผ๋กœ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ์ ์šฉํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋‚˜ ๋ฐฐ๊ฒฝ ํ™˜๊ฒฝ์—๋„ ๋น„๊ต์  ๊ฐ•์ธํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์—์„œ๋„ ๋ฐฐ๊ฒฝ์ด ๋ฐ”๋€Œ๊ฑฐ๋‚˜ distractor๊ฐ€ ์žˆ์–ด๋„ ๋ฌธ์ œ์—†์—ˆ๊ณ , ํ•™์Šต์— ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„œ๋„ ์ œ๋Œ€๋กœ ๋™์ž‘ํ•˜๋Š” ๋“ฑ ๋ฒ”์šฉ์„ฑ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•œ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์ถ”์ •๊ธฐ๋Š” ๋น„๊ต์  ๋‹จ์ˆœํ•œ ์•„์ด๋””์–ด์ด์ง€๋งŒ, ๊ธฐ์กด์— ์„ผ์„œ ์˜ค์ฐจ๋กœ ์–ด๋ ค์›€์„ ๊ฒช๋˜ 3D ์ถ”์  ๋ฌธ์ œ์— ํฐ ๋ŒํŒŒ๊ตฌ๋ฅผ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ž…๋ ฅ ๊นŠ์ด์— ๋ถ€๋ถ„ ๊ฒฐํ•จ์ด๋‚˜ ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด๋„ 2D ์ถ”์  ์ •๋ณด๋กœ ๋ณด์™„ํ•˜์—ฌ 3D ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›ํ•ด์ฃผ๋ฏ€๋กœ, ๊ฐ’๋น„์‹ผ ๊ณ ์„ฑ๋Šฅ ์„ผ์„œ๋ฅผ ์“ฐ์ง€ ์•Š๊ณ ๋„ ์ €๋ ดํ•œ RGB-D ์นด๋ฉ”๋ผ๋กœ ์ •๋ฐ€ ์ œ์–ด๋ฅผ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€ ์ •์ฑ…๋ง์— ํ™•์‚ฐ ๋ชจ๋ธ์„ ๋„์ž…ํ•œ ๊ฒƒ์€ ๋กœ๋ด‡ ์ œ์–ด ๋ถ„์•ผ์— ์ตœ์‹  ์ƒ์„ฑ ๋ชจ๋ธ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ ํฅ๋ฏธ๋กœ์šด ์‹œ๋„๋กœ์„œ, ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ•ด์ƒ๋„ ์—ฐ์† ํ–‰๋™ ์ถœ๋ ฅ์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ์ด ์—ฐ๊ตฌ๋Š” ์‚ฌ๋žŒ ์˜์ƒ์—์„œ ๋กœ๋ด‡์ด ํ•™์Šตํ•œ๋‹ค๋Š” ํฅ๋ฏธ๋กœ์šด ๋ฐฉํ–ฅ์„ฑ์— ๋Œ€ํ•ด, ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ˆ ์  ํ•ด๋ฒ•๊ณผ ๊ฐ€๋Šฅ์„ฑ์„ ์ฆ๋ช…ํ•ด ๋ณด์˜€๋‹ค๋Š” ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‚ฝ์ž… ์ž‘์—… ์„ฑ๊ณต๊ณผ ๊ฐ™์€ ์„ฑ๊ณผ๋Š” ์ด ๋ฐฉ๋ฒ•์˜ ์‹ค์šฉ์  ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ์‚ฌ๋ก€๋กœ, ํ–ฅํ›„ ์‚ฐ์—… ํ˜„์žฅ์ด๋‚˜ ๊ฐ€์ •์—์„œ ์‚ฌ๋žŒ ์‹œ์—ฐ ํ•œ๋‘ ๋ฒˆ์œผ๋กœ ๋กœ๋ด‡์—๊ฒŒ ์ƒˆ๋กœ์šด ์ž‘์—…์„ ๊ฐ€๋ฅด์น˜๋Š” ๋ชจ์Šต๋„ ์ƒ์ƒํ•ด๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

ํ•œ๊ณ„ โ€“ ๊นŠ์ด ๋ฐ์ดํ„ฐ ์˜์กด ๋ฐ ๋‹ค์ค‘ ๊ฐ์ฒด ๋“ฑ ํ˜„์‹ค์  ๊ณผ์ œ: ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ˜„์žฌ ๋‹จ๊ณ„์˜ ๊ธฐ๋ฒ•์—๋Š” ๋ถ„๋ช…ํ•œ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ณผ์ œ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋จผ์ €, RGB-D ์˜์ƒ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜์กด์„ฑ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ •ํ™•ํ•œ 3D ๋ชจ์…˜ ์ถ”์ •์„ ์œ„ํ•ด ๊นŠ์ด ์ฑ„๋„์ด ํ•„์ˆ˜์ ์ด๋ผ๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์ˆ ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ์ฃผ์žฅ์ด๋‚˜, ํ˜„์‹ค์ ์œผ๋กœ ์ธํ„ฐ๋„ท์ƒ์˜ ๋ฐฉ๋Œ€ํ•œ ๊ธฐ์กด RGB ์˜์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ œํ•œ์ด ๋ฉ๋‹ˆ๋‹ค. ๋‹คํ–‰ํžˆ ํœด๋Œ€ํฐ ๋“ฑ ๊นŠ์ด ์„ผ์„œ๊ฐ€ ๋‹ฌ๋ฆฐ ๊ธฐ๊ธฐ๊ฐ€ ๋Š˜์–ด๋‚˜๊ณ  ์žˆ์–ด ์ƒˆ๋กœ์šด RGB-D ๋ฐ์ดํ„ฐ ์ถ•์ ๋„ ๊ธฐ๋Œ€ํ•ด๋ณผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์–ด๋””๊นŒ์ง€๋‚˜ ์ถ”๊ฐ€๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„์•ผ ํ•œ๋‹ค๋Š” ์ ์€ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋ฌผ์ฒด๊ฐ€ ์นด๋ฉ”๋ผ์— ์™„์ „ํžˆ ๊ฐ€๋ ค์ง€๋Š” ๊ฒฝ์šฐ์—๋Š” ํ˜„์žฌ ๋ฐฉ๋ฒ•์ด ํ†ตํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ ์™„์ „ ๊ฐ€๋ ค์ง„ ๊ตฌ๊ฐ„์˜ ์˜์ƒ์€ ์ œ์™ธํ–ˆ๊ณ , ์‹คํ–‰ ์ค‘์—๋„ ๋ฌผ์ฒด๊ฐ€ ๋ณด์ด๋Š” ์ „์ œํ•˜์— ์ œ์–ด๊ฐ€ ์ด๋ค„์ง‘๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‚ฌ๋žŒ ์‹œ์—ฐ์ด๋‚˜ ๋กœ๋ด‡ ์ˆ˜ํ–‰ ์ค‘์— ๋ฌผ์ฒด๊ฐ€ ์˜ค๋žซ๋™์•ˆ ์•ˆ ๋ณด์ด๊ฒŒ ๋˜๋Š” ์ž‘์—… (์˜ˆ: ํ†ต ์•ˆ์— ๋„ฃ์—ˆ๋‹ค ๊บผ๋‚ด๋Š” ๋“ฑ)์—๋Š” ๋Œ€์‘ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ถ”ํ›„ ์ถ”์ ์ด ๋Š๊ธฐ๋”๋ผ๋„ ์žฌ์‹๋ณ„ํ•˜๊ฑฐ๋‚˜ ๊ธฐ์–ตํ•˜๋Š” ๊ธฐ์ˆ ๋กœ ๋ณด์™„ํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์…‹์งธ, ๋‹ค์ค‘ ๊ฐ์ฒด ๋˜๋Š” ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์˜ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ์ฃผ๋œ ์ž‘์—… ๋Œ€์ƒ์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ๋กœ๋ด‡์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ฌผ์ฒด๋ฅผ ๋™์‹œ์— ๋‹ค๋ฃจ๊ฑฐ๋‚˜, ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ๋„๊ตฌ/๋Œ€์ƒ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฑฐ์น˜๋Š” ์ผ์ด ๋งŽ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ๋ฐฉ๋ฒ•์„ ๊ทธ๋Œ€๋กœ ํ™•์žฅํ•˜๋ฉด ๊ฐ ๊ฐ์ฒด๋งˆ๋‹ค ๋ชจ์…˜ ํ•„๋“œ๋ฅผ ๋”ฐ๋กœ ์˜ˆ์ธกํ•˜๊ณ  ์ˆœ์ฐจ ์ œ์–ดํ•ด์•ผ ํ• ํ…๋ฐ, ์ด ๊ฒฝ์šฐ ์ƒํ˜ธ ์˜์กด์„ฑ๊นŒ์ง€ ๊ณ ๋ คํ•˜๋ ค๋ฉด ๋” ๋ฐœ์ „๋œ ํ‘œํ˜„๊ณผ ์ •์ฑ…์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค (์˜ˆ๋ฅผ ๋“ค์–ด ๋ˆ์œผ๋กœ ์—ฐ๊ฒฐ๋œ ๋‘ ๋ฌผ์ฒด๋ฅผ ๋™์‹œ์— ์ถ”์ ํ•˜๋Š” ๋“ฑ). ๋„ท์งธ, ๋กœ๋ด‡ ์žก๊ธฐ ๋™์ž‘์˜ ํ†ตํ•ฉ์ž…๋‹ˆ๋‹ค. ์•ž์„œ ๊ฐ€์ •ํ•œ ๋Œ€๋กœ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฌผ์ฒด ์žก๋Š” ์ •์ฑ…์€ ๋ณ„๋„๋กœ ๊ฐ€์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‚ฌ๋žŒ ์˜์ƒ์—๋Š” ๋ฌผ์ฒด๋ฅผ ์–ด๋–ป๊ฒŒ ์ฅ๋Š”์ง€๊นŒ์ง€ ๋ชจ๋‘ ๋‚˜ํƒ€๋‚˜๋ฏ€๋กœ, ์ด๋ฅผ ํ™œ์šฉํ•˜๋ฉด ๋กœ๋ด‡์ด ์ ์ ˆํ•œ ํŒŒ์ง€ ๋ฐฉ๋ฒ•์ด๋‚˜ ๋„๊ตฌ ์‚ฌ์šฉ๋ฒ•๊นŒ์ง€ ๋ฐฐ์šธ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์–ดํฌ๋˜์Šค ํ•™์Šต์ด๋‚˜ ์ž„์˜ ํ˜•ํƒœ ๊ทธ๋ฆฌํผ์—์˜ ์ผ๋ฐ˜ํ™” ๋“ฑ์œผ๋กœ ์ด ๋ถ€๋ถ„๊นŒ์ง€ ํ†ตํ•ฉํ•œ๋‹ค๋ฉด ๋”์šฑ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹ค์„ฏ์งธ, ๋กœ๋ด‡ ๊ตฌ์„ฑ๊ณผ ํ™˜๊ฒฝ์— ๋”ฐ๋ฅธ ์ œ์•ฝ์ž…๋‹ˆ๋‹ค. ํ˜„์žฌ ๋ฐฉ๋ฒ•์€ UC Berkeley์˜ XArm7 ๋กœ๋ด‡์œผ๋กœ ๊ฒ€์ฆ๋˜์—ˆ๋Š”๋ฐ, ๋‹ค๋ฅธ ๋กœ๋ด‡์ด๋ผ๋„ ๋ฌผ์ฒด๋ฅผ task-space์—์„œ ์›€์ง์ด๋Š” ๊ธฐ๋Šฅ๋งŒ ์žˆ์œผ๋ฉด ์ ์šฉ ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋กœ๋ด‡๋งˆ๋‹ค ๊ด€์ ˆ ๊ตฌ์„ฑ์ด๋‚˜ ์ž‘์—…๊ณต๊ฐ„์ด ๋‹ค๋ฅด๋ฏ€๋กœ, ์ถ”ํ›„ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡์— ์ด์‹ํ•˜๋ฉฐ ๋ฏธ์„ธ ์กฐ์ •์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ™˜๊ฒฝ์ ์œผ๋กœ๋Š” ์นด๋ฉ”๋ผ๊ฐ€ ๊ณ ์ •๋˜์–ด ์žˆ๊ณ  ๋น„๊ต์  ๋‹จ์ˆœํ•œ ํƒ์ƒ ํ™˜๊ฒฝ์ด์—ˆ๋Š”๋ฐ, ์นด๋ฉ”๋ผ๊ฐ€ ์ด๋™ํ•˜๊ฑฐ๋‚˜ ์ž‘์—… ๊ณต๊ฐ„์ด ๋ณต์žกํ•œ ๊ฒฝ์šฐ ์ถ”๊ฐ€ ๋ชจ๋“ˆ(SLAM ๋“ฑ)๋กœ ์นด๋ฉ”๋ผ ์›€์ง์ž„์„ ๋ณด์ •ํ•˜๋Š” ํ™•์žฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ์—ฌ์ง€์ž…๋‹ˆ๋‹ค. ์„ฑ๊ณต๋ฅ  55%๋Š” ๊ธฐ์กด ๋Œ€๋น„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ ๊ฒƒ์ด์ง€๋งŒ, ์‹ค์ œ ์„œ๋น„์Šค ๋กœ๋ด‡์— ์ ์šฉํ•˜๊ธฐ์—” ์•„์ง ์‹คํŒจ ํ™•๋ฅ ์ด ๋†’์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ •๋ฐ€ ์ž‘์—…์€ 3๋ฒˆ ์ค‘ 1๋ฒˆ๋งŒ ์„ฑ๊ณตํ•˜๋Š” ์ˆ˜์ค€์ด๋ฏ€๋กœ, ๋”์šฑ ๋งŽ์€ ๋ฐ์ดํ„ฐ ์ถ•์ ์ด๋‚˜ ๋ชจ๋ธ ๊ฐœ์„ ์œผ๋กœ ์„ฑ๊ณต๋ฅ ์„ ๋†’์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋‹จ์ˆœํžˆ ๋”ฐ๋ผํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด ์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์˜ค์ฐจ๋ฅผ ๋ณด์ •ํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต์ด๋‚˜, ๋ฉ€ํ‹ฐ์Šคํ… ๊ณ„ํš์„ ์ ‘๋ชฉํ•˜๋ฉด ์„ฑ๊ณต๋ฅ ๊ณผ ์•ˆ์ •์„ฑ์ด ํ–ฅ์ƒ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋น„๋””์˜ค ์ดํ•ด ์ธก๋ฉด์—์„œ, ์‚ฌ๋žŒ์˜ ์˜๋„๋‚˜ ํ–‰๋™ ๋‹จ์œ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ๋” ๊ณ ์ฐจ์›์˜ ๊ฐœ๋…์œผ๋กœ๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์ „๋ง: ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ์ธ์ง€ํ•˜๊ณ  ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฌผ์ฒด๊ฐ€ ์žˆ๋Š” ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ ์ƒํ™ฉ, ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ์ ์šฉ, ํ™˜๊ฒฝ์  ์ œ์•ฝ ์ฒ˜๋ฆฌ, ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋“ฑ์„ ์ œ์‹œํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ด ์—ฐ๊ตฌ๋Š” โ€œ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋ณด๊ณ  ๋ฐฐ์šฐ๋Š” ๋กœ๋ด‡โ€์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ•œ ๋‹จ๊ณ„ ๋ณด์—ฌ์ค€ ๊ฒƒ์œผ๋กœ์„œ, ์•ž์œผ๋กœ ๋‚จ์€ ๋„์ „๋“ค์€ ์ด ๊ฐœ๋…์„ ๋”์šฑ ์ผ๋ฐ˜์ ์ด๊ณ  ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณตํ•™์˜ ๊ด€์ ์—์„œ, ์ธ๊ฐ„ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ํ•™็ฟ’ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ๋กœ๋ด‡์ด ์„ธ์ƒ์˜ ๋ฐฉ๋Œ€ํ•œ ๋น„๋””์˜ค ์ง€์‹์„ ํ™œ์šฉํ•  ๊ธธ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค. ์ด๋ฒˆ ๋…ผ๋ฌธ์˜ ๊ฐ์ฒด ์ค‘์‹ฌ 3D ๋ชจ์…˜ ํ•„๋“œ๋Š” ๊ทธ ์ค‘์š”ํ•œ ํผ์ฆ ์กฐ๊ฐ ์ค‘ ํ•˜๋‚˜๋กœ, ํ–ฅํ›„ ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค๊ณผ ํ•ฉ์ณ์ ธ ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ๋ณด๋Š” ์œ ํŠœ๋ธŒ ์˜์ƒ๋งŒ ๋ณด๊ณ ๋„ ์ฒ™์ฒ™ ๋ฐฐ์šฐ๋Š” ๋ฏธ๋ž˜ ๋กœ๋ด‡์˜ ๋ชจ์Šต์„ ํ˜„์‹ค์— ๊ฐ€๊นŒ์ด ๋ฐ๋ ค์˜ฌ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee