๐3D Motion Field ๋ฆฌ๋ทฐ
- ๐ค ๋ก๋ด ํ์ต์์ ์ธ๊ฐ ์์์ ํ์ฉํ๋ ์ฃผ์ ๊ณผ์ ๋ ์ก์ ์ง์์ ์ถ์ถํ๋ ๊ฒ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ฅผ ๋ก๋ด ํ์ต์ ์ํ ์๋ก์ด ์ก์ ํํ์ผ๋ก ์ ์ํฉ๋๋ค.
- โ๏ธ ์ ์๋ ํ๋ ์์ํฌ๋ ์๋ฎฌ๋ ์ด์ ํ์ต์ ํตํด ๋ ธ์ด์ฆ๊ฐ ์ฌํ RGBD ์์์์ ์ ๋ฐํ ๊ฐ์ฒด 3D ๋ชจ์ ์ ๊ฐ๊ฑดํ๊ฒ ์ถ์ถํ๋ โ๋๋ ธ์ด์งโ 3D ๋ชจ์ ํ๋ ์ถ์ ๊ธฐ๋ฅผ ๊ตฌํํฉ๋๋ค.
- ๐ ์ค์ ์คํ ๊ฒฐ๊ณผ, ๋ณธ ๋ฐฉ๋ฒ์ ๊ธฐ์กด ๋ฐฉ์ ๋๋น 3D ๋ชจ์ ์ถ์ ์ค๋ฅ๋ฅผ 50% ์ด์ ์ค์๊ณ , ๋ค์ํ ์์ ์์ ์ด์ ๋ฐฉ์๋ณด๋ค ์๋ฑํ ๋์ ํ๊ท ์ฝ 55%์ ์ ๋ก์ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ ์ ๋ฐ ์กฐ์ ๋ฅ๋ ฅ๊น์ง ๋ณด์ฌ์ฃผ์์ต๋๋ค.
1 Brief Review
๋ก๋ด ํ์ต์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ ๋ณ๋ชฉ ํ์์ ๋๋ค. ๋๊ท๋ชจ์ ๊ณ ํ์ง ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ค์ ์ธ๊ณ์์ ์์งํ๋ ๊ฒ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ๋ณต์กํ ์์ ์ ๊ฒฝ์ฐ ์ ์ ์ ์ผ๋ก๋ ์ด๋ ต์ต๋๋ค. ์ธ๊ฐ ๊ฐ์ฒด ์ํธ์์ฉ ๋น๋์ค๋ ์ด๋ฌํ ๊ณผ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ์ ๋งํ ์๋จ์ผ๋ก ๋ ์ค๋ฅด๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๋น๋์ค๋ ํ์ฅ ๊ฐ๋ฅํ๋ฉฐ ํ๋ถํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ณต์กํ ์์ ์์ฐ์ ๋ด๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋น๋์ค์์ ์ก์ ์ง์ (๋๋ ์ก์ ํํ)์ ์ถ์ถํ์ฌ ์ ์ฑ ํ์ต์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ ํ ํต์ฌ ๊ณผ์ ์ ๋๋ค. ๊ธฐ์กด์ ์ก์ ํํ๋ค(์: video frames, pixelflow, pointcloud flow)์ ๋ชจ๋ธ๋ง ๋ณต์ก์ฑ ๋๋ ์ ๋ณด ์์ค๊ณผ ๊ฐ์ ๋ด์ฌ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ธ๊ฐ ๋น๋์ค์์ ๋ก๋ด ํ์ต์ ์ํ ์ก์ ํํ์ผ๋ก object-centric 3D motion field๋ฅผ ์ฌ์ฉํ ๊ฒ์ ์ ์ํฉ๋๋ค. object-centric 3D motion field๋ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๊ฐ์ฒด ํฝ์ ์ ๋ํ ๋ฐ์ง๋ ์์น ๋ฐ ๋ชจ์ ํ๋๋ก, ๊ฐ์ฒด์ ๊ด์ฐฐ ๊ฐ๋ฅํ ๊ฐ ์ง์ ์ด ๊ฐ ์์ ์์ ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋์ง๋ฅผ ๋ํ๋ ๋๋ค. ์ด ํํ์ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ์ต์ํ์ ์ถฉ๋ถํ 3D ์ ๋ณด๋ฅผ ๋ณด์กดํ๊ณ , ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ด๋ฉฐ, ๊ฐ์ฒด ์ค์ฌ์ ์ด์ด์ cross-embodiment transfer๋ฅผ ๋จ์ํํ๋ฉฐ, RGBD ๋น๋์ค์๋ง ์์กดํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ zero-shot control์ ์ํด ์ด ํํ์ ๋น๋์ค์์ ์ถ์ถํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
์ด ํ๋ ์์ํฌ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Phase I: Seeing 3D Motion Field in Noise (3D Motion Field ์ถ์ถ)
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ RGBD ๋น๋์ค์์ ์ ํํ 3D motion field๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด์ direct approach๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ depth ์ธก์ ๊ฐ๊ณผ pixel tracker ์ค๋ฅ๋ก ์ธํด ๋ถ์ ํํ 3D ๋ชจ์ ์ ์ด๋ํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ผ์ ์ธก์ ๊ฐ์ผ๋ก๋ถํฐ groundtruth 3D motion field๋ฅผ ์ฌ๊ตฌ์ฑํ๋ โdenoisingโ 3D motion field estimator๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊น์ด ๋ ธ์ด์ฆ๋ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ฌ์ด ํน์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ด ํ์คํฌ๋ ๊ธฐํํ์ ๋ฐ์ดํฐ๋ง ํฌํจํ๋ฏ๋ก simulation์ผ๋ก ํ๋ จ๋ estimator๋ real world๋ก ์ ์ ์ด๋ฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ฑ: ShapeNet ๋ฐ์ดํฐ์ ์ ๊ฐ์ฒด์ ๋ฌด์์๋ก ์์ฑ๋ ๊ฐ์ฒด๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ ๊ฐ์ฒด๋ฅผ ์์ฑํฉ๋๋ค. ๋ฌด์์๋ก ์นด๋ฉ๋ผ์ ๊ฐ์ฒด ์์น๋ฅผ ์ค์ ํ๊ณ ๋ฌด์์ twist motion(translation ๋ฐ rotation)์ ์ ์ฉํ์ฌ ์ฌ๋ฌ ์คํ ๋์ ๊ฐ์ฒด๋ฅผ ์ด๋์ํต๋๋ค. ray casting ๋ฐ projection์ ํตํด ์ด๊ธฐ ํ๋ ์์ ๊ฐ ๊ด์ฐฐ๋ ํฝ์ ์ ๋ํ 3D pixel movement์ groundtruth 3D motion์ ๊ณ์ฐํ์ฌ ์ ๋ ฅ ๋ฐ ๋ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค (Figure 3 ์ข์ธก). 256x256 ํด์๋์ 8M ์ํ์ ์์ฑํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ฆ๊ฐ: ํ๋ จ ์ค ๋ค์ํ ๋ฐ์ดํฐ augmentation์ ์ ์ฉํ์ฌ ์ผ์ ๋ ธ์ด์ฆ๋ฅผ ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค. depth์๋ ๋ฌด์์ missing value, white noise, wrong value ํจ๊ณผ๋ฅผ ์ ์ฉํฉ๋๋ค. pixel flow ์ ๋ ฅ์๋ ๋ฌด์์ Gaussian noise๋ฅผ ์ ์ฉํ๊ณ random dropout์ ์ฌ์ฉํ์ฌ ๋ถ๋ถ์ /ํฌ์ํ pixel flow์์๋ ์ถ๋ก ํ ์ ์๋๋ก ํฉ๋๋ค (Phase II-A ๋ผ๋ฒจ๋ง ์๋ ํฅ์). subset masking๋ ์ ์ฉํ์ฌ ๋ณต์กํ ๊ฐ์ฒด ์ค๊ณฝ์ ๊ทผ์ฌํฉ๋๋ค. ์ด๋ Denoising Autoencoder์ ์ ์ฌํ ์์ด๋์ด์ ๋๋ค.
- ๋ชจ๋ธ ์ํคํ ์ฒ: 3D motion field estimator f๋ dual head UNet ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค (Figure 4). ์ด ๋ชจ๋ธ์ Fdepth์ Fmotion์ ๋ณ๋์ ์ ์์ค ๋์ฝ๋ ๋ธ๋์น(fdepth, fmotion)๋ฅผ ํตํด ์์ธกํฉ๋๋ค. ์ ๋ ฅ์ denseํ โintrinsicโ map feature Imap \in R^{H \times W \times 4}์ concatenated ํฉ๋๋ค. Imap์ ((y - c_y)/f_y, (x - c_x)/f_x, 1/f_y, 1/f_x)๋ก ์ ์๋๋ฉฐ (์ 1), ์ ํํ Fmotion ์์ธก์ ์ค์ํ low-level ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ํ๋ จ: weighted Huber loss๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค (์ 2): L = E_{x,F,M \sim D_{sim}} \|M \odot (f_{depth}(x) - F_{depth})\| + \alpha\|M \odot (f_{motion}(x) - F_{motion})\|. ์ฌ๊ธฐ์ Dsim์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ , M์ ๊ฐ์ฒด ๋ง์คํฌ, \odot๋ ์์๋ณ ๊ณฑ์ด๋ฉฐ, ์์ค์ ๊ฐ์ฒด ๋ถ๋ถ์๋ง ์ ์ฉ๋ฉ๋๋ค. \alpha๋ ๊ฐ์ค์น ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค. AdamW optimizer๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Phase II: Predicting Object 3D Motion Field for Control (์ ์ด๋ฅผ ์ํ 3D Motion Field ์์ธก)
์ ํํ 3D motion field๋ฅผ ์ถ์ถํ๋ estimator๋ฅผ ํ๋ณดํ ํ, ์ธ๊ฐ ๋น๋์ค๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ด ์ ์ฑ ์ ํ๋ จํฉ๋๋ค.
- ๋ฐ์ดํฐ์ : ์ธ๊ฐ ๊ฐ์ฒด ์ํธ์์ฉ ๋น๋์ค ๋ฐ์ดํฐ์ Dhuman์ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ SAM2๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํ๋ ์์์ ์์ ๊ด๋ จ ๊ฐ์ฒด์ segmentation์ ์ถ์ถํ๊ณ , CoTracker3๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๊ฐ์ฒด ์ง์ ์ noisy 3D pixel flow๋ฅผ ์ถ์ถํ ๋ค์, ๋ฏธ๋ฆฌ ํ์ต๋ estimator๋ฅผ ํตํด ์ ํํ 3D motion field๋ก ๋ณํํ๋ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค. ๊ฐ์ฒด๊ฐ ๋น๋์ค ์ธ๊ทธ๋จผํธ ์ ์ฒด์์ ์ผ๊ด๋๊ฒ ๋ณด์ด๋ (์์ ํ ๊ฐ๋ ค์ง์ง ์์) ๊ฒฝ์ฐ์๋ง ์ฌ์ฉํฉ๋๋ค.
- ๋ชจ๋ธ ๋ฐ ํ๋ จ: ์ ์ฑ ๋คํธ์ํฌ \pi๋ segmented RGBD ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ ์ด๋ธ๋ 3D motion field๋ฅผ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค. motion field๊ฐ ์ด๋ฏธ์ง ํํ์ด๋ฏ๋ก, Gaussian policy ๋๋ Diffusion policy๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค (Figure 4). dual-head UNet ์ํคํ ์ฒ๋ฅผ ์ฌ์ฌ์ฉํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ํ๊ท ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จํฉ๋๋ค (์ 3): L_{\pi} = E_{o,F,M \sim D_{human}} \|M \odot (\pi_{depth}(o, \tilde{F}, t) - F_{depth})\| + \alpha\|M \odot (\pi_{motion}(o, \tilde{F}, t) - F_{motion})\|. ์ฌ๊ธฐ์ o๋ segmented RGBD ๊ด์ฐฐ, F๋ groundtruth object 3D motion field (์ถ์ ๊ธฐ๊ฐ ๋ ์ด๋ธ๋ง), M์ ๊ฐ์ฒด ๋ง์คํฌ์ ๋๋ค. (\tilde{F}, t)๋ Diffusion model์ noised motion field sample๊ณผ timestep์ ๋๋ค. ์ ์ฑ ๋คํธ์ํฌ๋ ์์ ๊ด๋ จ ๊ฐ์ฒด ์ ๋ณด๋ง ์ฌ์ฉํ๋ฏ๋ก human domain๊ณผ robot domain ๊ฐ์ ์ฐจ์ด๊ฐ ์ต์ํ๋ฉ๋๋ค. random masking data augmentation์ ์ ์ฉํ์ฌ robustness๋ฅผ ํฅ์์ํต๋๋ค. Diffusion model์ ๊ฒฝ์ฐ โmasked noise sampleโ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- ๋ฐฐํฌ: ์ถ๋ก ์, ์์ธก๋ 3D motion field F๋ฅผ ๋ก๋ด ์ก์ ์ผ๋ก ๋ณํํด์ผ ํฉ๋๋ค. ๋ก๋ด์ด ์ด๋ฏธ ๊ฐ์ฒด๋ฅผ ๋จ๋จํ ์ก๊ณ ์์ผ๋ฏ๋ก ๋ณํ์ ๊ฐ๋จํฉ๋๋ค. ๊ฐ์ฒด ๋ง์คํฌ์ ๊ฐ ํฝ์ ์ ๋ํด F๋ฅผ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ ํ๋ ์์์์ ํ์ฌ ๋ฐ ๋ฏธ๋ 3D ์ขํ๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๊ฐ์ point cloud P_0, P_1 \in R^{N \times 3}๋ฅผ ์ป์ต๋๋ค. ์ด point cloud๋ค์ ์ ๋ณ ๋์ ๊ด๊ณ๊ฐ ์์ผ๋ฏ๋ก SE(3) transformation T_o = \{R, t\}๋ฅผ ์ง์ ํด๊ฒฐํ์ฌ ์ ๋ ฌํ ์ ์์ต๋๋ค. \|RP_0^T + t - P_1^T\|^2๋ฅผ ์ต์ํํ๋ฉฐ, Kabsch method๋ฅผ ํตํด ํ์ํ ํด๋ฅผ ์ป์ต๋๋ค. outlier ์ฒ๋ฆฌ๋ฅผ ์ํด RANSAC๋ ์ฌ์ฉํฉ๋๋ค. ์นด๋ฉ๋ผ ํฌ์ฆ๊ฐ ๋ก๋ด ๋ฒ ์ด์ค ํ๋ ์ {b}์์ T_{bc}๋ผ๊ณ ๊ฐ์ ํ๋ฉด, ์ํ๋ ๋ก๋ด ์ก์ ์ T_a = T_{bc}T_oT_{bc}^{-1}๋ก ๊ณ์ฐ๋ฉ๋๋ค.
์คํ: real world ์คํ์ ํตํด ์ ์ํ๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ์ ์ฆํฉ๋๋ค. Intel D435 RGBD ์นด๋ฉ๋ผ์ XArm7 ๋ก๋ด ํ์ ์ฌ์ฉํฉ๋๋ค.
- 3D Motion Field Estimator ํ๊ฐ: ๋ก๋ด ํ๋ก ๊ฐ์ฒด๋ฅผ ์ก๊ณ ์นด๋ฉ๋ผ ์์์ ์์ง์ด๋ RGBD ๋น๋์ค๋ฅผ ์ดฌ์ํ์ฌ ground truth transformation๊ณผ ํจ๊ป test set์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ ์ํ๋ ๋ฐฉ๋ฒ์ baseline์ธ โdirectโ method๋ณด๋ค 50% ์ด์ ๋ฎ์ SE(3) motion error๋ฅผ ๋ฌ์ฑํฉ๋๋ค (Figure 8 ์ข์ธก). ์ ๋ ฅ ๊น์ด์ ๋ ธ์ด์ฆ๊ฐ ๋ง๋๋ผ๋ ๋ถ๋๋ฌ์ด ๊น์ด์ ๋ชจ์ ํ๋๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค (Figure 6, 14). adversarial robustness ํ ์คํธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๋ ธ์ด์ฆ์ ๋ ๊ฐ๊ฑดํจ์ ๋ณด์ฌ์ค๋๋ค. Ablation studies์์๋ intrinsic map์ ๋ ์์ (์ขํ ๋ฐ inverse focal length) ๋ชจ๋ ์ฑ๊ณต์ ์ธ ํ์ต์ ์ค์ํจ์ ํ์ธํ์ต๋๋ค (Figure 8 ์ค์).
- ๋ก๋ด ํ์ต ์ ์ฑ ํ๊ฐ: ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋ ์ ์ฑ ์ ์ฌ์ฉํ์ฌ real world task์์ zero-shot success rate๋ฅผ ํ๊ฐํฉ๋๋ค. Task๋ค์ Pick, Rotate, and Place, Line Tracking, Tool Use I: Pushing, Tool Use II: Wrench, Insertion์ ๋๋ค. ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค(General Flow ๋ฑ)๋ณด๋ค ํจ์ฌ ๋์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค (์ฝ 55%, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ 10% ๋ฏธ๋ง) (Figure 8 ์ฐ์ธก). fine-grained manipulation์ธ insertion ํ์คํฌ์์๋ ๋์ ์ ๋ฐ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ ์ฑ๊ณตํฉ๋๋ค (Figure 7). ๊ฐ์ฒด ์ค์ฌ์ ์ ๋ ฅ ํํ ๋๋ถ์ ๋ฐฐ๊ฒฝ ๋ณํ์ ๋ํ robustness๋ ๊ด์ฐฐ๋ฉ๋๋ค.
- ์ ์ฑ Ablation: Fine-grained task์ ๊ฒฝ์ฐ Diffusion policy๊ฐ Gaussian policy๋ณด๋ค ์ ํํ๊ณ ๊ณ ํ์ง์ motion field๋ฅผ ์์ฑํ๋ ๋ฐ ์ค์ํจ์ ํ์ธํ์ต๋๋ค. ๋ํ Diffusion model์์ ๊ฐ์ฒด ๋ง์คํฌ ์ธ๋ถ ์์ญ์ ๋ ธ์ด์ฆ๋ฅผ ๋ง์คํนํ๋ ๊ฒ์ด ํ๋ จ์ ๋จ์ํํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๋ฉฐ, ํ๋ จ ์ค object masking augmentation์ด subtleํ domain gap์ ์ค์ด๋ ๋ฐ ์ค์ํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค (Table 1).
๊ฒฐ๋ก : ๋ณธ ๋ ผ๋ฌธ์ object-centric 3D motion field ํํ์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ์ ์ด ์ ์ฑ ์ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์์ฐํ์ต๋๋ค. ์ ์ํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ ฅํ 3D motion estimator์ ๋ฐ์ง๋ flow prediction ์ํคํ ์ฒ๋ฅผ ๋์ ํ์ฌ ๊ธฐ์กด ํํ์ ์ฃผ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ ๋์ cross-embodiment transfer ๋ฐ ๋ฐฐ๊ฒฝ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ ๋ชจ์ ์ถ์ ๋ฐ ๋ค์ํ real world task ์ ๋ฐ์ ๊ฑธ์ณ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์๋นํ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ ๋ฐ ์กฐ์ ํ์คํฌ ์ฒ๋ฆฌ์์ ์ ๋ก ์๋ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. ๋ณธ ๋ฐฉ๋ฒ์ ํ์ฅ ๊ฐ๋ฅํ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ๋ค์ฌ๋ค๋ฅํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ก๋ด ์์ด์ ํธ๋ฅผ ํ๋ จํ ์ ์๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค๋๋ค.
์ ํ ์ฌํญ: ์์ ํ occlusion ์ํฉ์์์ ์ง์ ์ถ์ถ ๋ฏธ๊ณ ๋ ค, ๊ทธ๋ฆฌํผ ์ธ ๋ก๋ด ์์ผ๋ก์ ํ์ฅ, ์์ง์ด๋ ์นด๋ฉ๋ผ๋ก์ ํ์ฅ, soft-body ์ฒ๋ฆฌ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ ํ์.
์ฃผ์ ๊ธฐ์ฌ:
- ๋ก๋ด ํ์ต์ ์ํด object-centric 3D motion field๋ฅผ ์ฌ์ฉํ๊ณ ์ด๋ฅผ ๋น๋์ค์์ ์ถ์ถํ๋ ์๋ก์ด ํ์ต ํ๋ ์์ํฌ ์ ์.
- real world์์ object-centric 3D motion field๋ฅผ ํ์ตํ๊ณ ์์ธกํ๋ ๊ฐ๋จํ๊ณ ์๋ก์ด ์ํคํ ์ฒ ์ ์ (์ธ๊ฐ ๋น๋์ค๋ง์ผ๋ก ๋ก๋ด ๊ธฐ์ ํ์ต ๊ฐ๋ฅ).
- ๊ตฌ์ฑ ์์์ real world ๊ฒ์ฆ (motion estimation ์ค๋ฅ 50% ์ด์ ๊ฐ์, ๊ธฐ์กด ๋ฐฉ๋ฒ ๋ฅ๊ฐ, fine-grained manipulation ๊ธฐ์ ํ๋).
2 Detail Review
๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋: ์ธ๊ฐ ๋น๋์ค๋ก ๋ก๋ด ํ์ตํ๊ธฐ (์ฌ์ธต ๋ฆฌ๋ทฐ)
์ธ๊ฐ ์์ฐ ์์(์ผ์ชฝ)๋ง์ผ๋ก ํ์ตํ ๋ก๋ด์ด ์ ์ฌํ ์์ ์ ์ํํ๋ ๋ชจ์ต(์ค๋ฅธ์ชฝ). ์ด ์ฐ๊ตฌ๋ ๋ก๋ด์ด ์ฌ๋ ์์์ ๋ณด๊ณ ์ ๋ก์ท์ผ๋ก ๋์์ ํ์ตํ๋๋ก ํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
2.1 ๊ธฐ์ ์ ๊ธฐ์ฌ
๋ฐ์ดํฐ ๋ณ๋ชฉ ๋ฌธ์ ์ ๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ: ๋ก๋ด ์ ์ด ์ ์ฑ ํ์ต์๋ ๋๊ท๋ชจ์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง๋ง, ์ค์ ๋ก๋ด์ผ๋ก ์์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ์ผ์ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋๋ ์ด๋ ค์ด ์์ ์ ๋๋ค. ์ด์ ๋ํ ๋์์ผ๋ก ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ ๋น๋์ค๊ฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ฌ๋์ด ๋ฑ์ฅํ๋ ์์์ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ ค๋ฉด, ์์์ผ๋ก๋ถํฐ ํ๋ ํํ(action representation)์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ๋ ๊ฒ์ด ๊ด๊ฑด์ ๋๋ค. ๊ธฐ์กด์ ์ ์๋ ๋ค์ํ ํํ ๋ฐฉ์๋ค์ด ์์ง๋ง ๊ฐ๊ฐ ๋จ์ ์ด ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฏธ๋ ๋น๋์ค ํ๋ ์ ์์ฒด๋ฅผ ํ๋์ผ๋ก ์์ธกํ๋ ์ ๊ทผ์ ์์์ด ๋ถํ์ํ๊ฒ ๋ณต์กํ๊ณ ํ๋ฆฟํด ํ์ต์ ์ด๋ ต๊ฒ ๋ง๋ค์๊ณ , 2D ํฝ์ ํ๋ฆ(Optical Flow) ๊ธฐ๋ฐ ํํ์ 3์ฐจ์ ์ ๋ณด๊ฐ ์์ค๋๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. 3D ํฌ์ธํธํด๋ผ์ฐ๋ ํ๋ฆ์ ์ผ์ ์ก์์ ๋ฏผ๊ฐํด ๋ถ์ ํํ๊ณ , SE(3) ๊ฐ์ฒด ์์ธ ๋ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ฏธ๋ฆฌ ์๊ณ ์๋ ๋ฌผ์ฒด 3D ๋ชจ๋ธ์ ์์กดํ๋ฉฐ ๊ฐ์ฒด(rigid) ๋ฌผ์ฒด๋ก ํ์ ๋๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์์ปจ๋, ๋ก๋ด ํ์ต์ ์ํ ์ด์์ ์ธ ํ๋ ํํ์ด ๋ฌด์์ธ์ง ๋ช ํํ์ง ์์ ์ํฉ์ด์๊ณ , ์ด์ ๋ํ ํด๋ต์ ์ด ๋ ผ๋ฌธ์ด ์ ์ํฉ๋๋ค.
๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋(Object-centric 3D Motion Field)์ ๊ฐ๋ : ์ ์๋ค์ ๊ฐ์ฒด์ 3์ฐจ์ ์์ง์ ์์ฒด์ ์ด์ ์ ๋ง์ถ ์๋ก์ด ํ๋ ํํ์ ์ ์ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ์๋ ๋ ์์ ํ๋ ์ ์ฌ์ด์์ ํ๋ฉด์ ๋ณด์ด๋ ๊ฐ ์ง์ (pixel)์ ๊น์ด ๋ฐ 3D ์ด๋๊ฐ์ ๋ํ๋ธ 4์ฑ๋ ๋ฐ์ง ์ด๋ฏธ์ง ํํ์ ์ ๋ณด๋ฅผ ์ ์ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ์ฑ๋์๋ ํ์ฌ ํ๋ ์ ๊ฐ ํฝ์ ์ ๊น์ด๊ฐ์ด, ๋๋จธ์ง ์ธ ์ฑ๋์๋ ๋ค์ ํ๋ ์์ผ๋ก์ 3D ์ด๋ ๋ฒกํฐ(dx, dy, dz)๊ฐ ์ ์ฅ๋ฉ๋๋ค. ์ด์ฒ๋ผ ํฝ์ ๋จ์๋ก ํด๋น ๋ฌผ์ฒด ํ๋ฉด์ ์ด๋์ ํํํจ์ผ๋ก์จ, ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ(intrinsics)์ ํจ๊ปํ๋ฉด ๊ฐ ์ ์ 3D ์์น ๋ณํ๊น์ง ์์ ํ ์ฌ๊ตฌ์ฑํ ์ ์์ต๋๋ค. ์ค์ํ ๊ฒ์ ์ด ํํ์ด ์ค์ง ๊ด์ฌ ๋ฌผ์ฒด(object)์ ๊ตญํ๋๋๋ก ๊ฐ์ฒด ์ค์ฌ์ผ๋ก ์ค๊ณ๋์๋ค๋ ์ ์ ๋๋ค. ์ฌ๋์ด ์ด๋ป๊ฒ ์์ ์์ง์๋์ง ๋ฑ์ ์ ๋ณด๋ ๋ฐฐ์ ํ๊ณ , ์์ ์ ์ํํจ์ ์์ด ๋ฌผ์ฒด๊ฐ ์ด๋ป๊ฒ ์ด๋ํด์ผ ํ๋์ง๋ง ์บก์ฒํฉ๋๋ค. ์ด๋ฌํ ์ค๊ณ๋ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํ/์ ๊ตฌ์กฐ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํด ํ๋ซํผ ๊ฐ(embodiment ๊ฐ) ์ง์ ์ ์ด๋ฅผ ์ฝ๊ฒ ํ๊ณ , ๋ฐฐ๊ฒฝ์ด๋ ์ฌ๋ ๋ชจ์ต์ด ๋ฌ๋ผ๋ ๋์ผํ ์์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค. ์์ฝํ๋ฉด ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ ๋ก๋ด ์ ์ด์ ํ์ํ ์ต์ํ์ 3D ์ ๋ณด๋ง ์ ์งํ๊ณ , ์ด๋ฏธ์ง ๊ธฐ๋ฐ ํํ์ผ๋ก์ ๊ฐ๋ ฅํ ๋น์ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฐํฉํ ์ ์์ผ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ 3D ๋ชจ๋ธ ์ฌ์ ์ง์ ์์ด RGB-D ์์๋ง์ผ๋ก ์ถ์ถ ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
ํต์ฌ ์์ด๋์ด ๋ฐ ์ฐจ๋ณ์ฑ: ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ฅผ ํ์ฉํจ์ผ๋ก์จ ์ด ์ฐ๊ตฌ๋ ์ฌ๋ ์์ฐ ์์๋ง์ผ๋ก ๋ก๋ด์ ๊ฐ๋ฅด์น๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ๊ตฌํํ์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, ์ด ์ ๊ทผ๋ฒ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ ํ ์ฌ์ฉํ์ง ์๋ ์ ๋ก์ท ํ์ต, ๋ฌผ์ฒด 3D ๋ชจ๋ธ์ด๋ ์์ธ ์ถ์ ๋ถํ์, ์คํ ์ค ํผ๋๋ฐฑ์ ํตํ ํ๋ฃจํ ์ ์ด, ๊น์ด ์ผ์ ๋ ธ์ด์ฆ์ ๊ฐ์ธํจ, ๋ณต์กํ ๋ฐฐ๊ฒฝ์ด๋ ๋ฐฉํด๋ฌผ์ ๋ํ ์ผ๋ฐํ ๋ฑ์ ์ธก๋ฉด์์ ๋๋๋ฌ์ง ์ด์ ์ ๋ณด์ ๋๋ค. ์ด๋ฌํ ํน์ง๋ค์ ๋ ผ๋ฌธ์ ๊ธฐ๋ฒ์ด ์์ ์ธ๊ธํ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ์์ ๋ํ๋ ๋๋ค.
๊ทธ๋ฆผ: ๋ ผ๋ฌธ์ ์ ์ฒด์ ์ธ ํ์ต ํ๋ ์์ํฌ ๊ฐ์. (์) Phase I: ์๋ฎฌ๋ ์ด์ ์์ ๋ค์ํ ๊ฐ์ฒด์ ๋๋ค 3D ์ด๋์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ, 3D ๋ชจ์ ํ๋ ์ถ์ ๊ธฐ๋ฅผ ํ์ต์ํต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ์์ธ ๊น์ด/ํ๋ฆ ์ ๋ ฅ์ผ๋ก๋ถํฐ ๋ถ๋๋ฝ๊ณ ์ ํํ 3D ๋ชจ์ ํ๋๋ฅผ ๋ณต์ํ๋๋ก ํ๋ จ๋ฉ๋๋ค. (์๋) Phase II-A: ํ์ต๋ ์ถ์ ๊ธฐ๋ฅผ ํ์ฉํด ์ค์ ์ธ๊ฐ ์์์์ ๊ฐ์ฒด์ 3D ๋ชจ์ ํ๋๋ฅผ ์ถ์ถํฉ๋๋ค. SAM๊ณผ CoTracker๋ก ๋ฌผ์ฒด๋ฅผ ๋ถํ ๋ฐ ์ถ์ ํ ํ, ์ถ์ ๊ฒฐ๊ณผ(๋ ธ์ด์ฆ ์๋ 3D ํฝ์ ํ๋ฆ)๋ฅผ ์ถ์ ๊ธฐ์ ๋ฃ์ด ์ ํํ 3D ๋ชจ์ ํ๋ ๋ ์ด๋ธ์ ์ป์ต๋๋ค. Phase II-B: ์ด๋ ๊ฒ ๋ ์ด๋ธ๋ง๋ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ก 3D ๋ชจ์ ํ๋ ์์ธก ์ ์ฑ ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค. ์ด ์ ์ฑ ์ ์๋ก์ด ๊ด์ธก ์ด๋ฏธ์ง(๋ถํ ๋ RGB-D ์ ๋ ฅ)๋ฅผ ๋ฐ์ ํด๋น ์์ ์์ ๋ฌผ์ฒด๊ฐ ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋์ง๋ฅผ 3D ๋ชจ์ ํ๋ ํํ๋ก ์์ธกํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์์ธกํ ๋ชจ์ ํ๋๋ฅผ ๋ก๋ด ์ ์ด ๋ช ๋ น(SE(3) ์ด๋)์ผ๋ก ๋ณํํ์ฌ ์ค์ ๋ก๋ด์ ์์ง์ ๋๋ค.
Phase I: ๋ ธ์ด์ฆ ์ ๊ฑฐ 3D ๋ชจ์ ํ๋ ์ถ์ ๊ธฐ โ ๊น์ด ๋ ธ์ด์ฆ ๋ฌธ์ ํด๊ฒฐ: ์ผ๋ฐ์ ์ธ RGB-D ์นด๋ฉ๋ผ๋ ์กฐ๋ช ์ด๋ ๋ฌผ์ฒด ์์ง์์ ๋ฐ๋ผ ์ฌ๊ฐํ ๊น์ด ๋ ธ์ด์ฆ๋ฅผ ๋ฐ์์ํค๋ฉฐ, ์ด๋ 3D ๋ชจ์ ์ถ์ ์ ํฐ ์ค์ฐจ๋ฅผ ์ ๋ฐํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ํ์ตํ โ๋๋ ธ์ด์ง(denoising) 3D ๋ชจ์ ํ๋ ์ถ์ ๊ธฐโ๋ฅผ ์ ์ํ์ต๋๋ค. ์ฐ๊ตฌ์ง์ ShapeNet ๋ฑ์์ ๋ค์ํ ๋ชจ์์ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์ ธ์ ๋ฌด์์ ํฌ๊ธฐ์ ์์น๋ก ๋ฐฐ์นํ๊ณ , ์์์ 3D ์ด๋(๋ณ์ง+ํ์ )์ ๋ฐ์์์ผ ๋ค๋์ ํฉ์ฑ RGB-D ์์ ์์ ์์ฑํ์ต๋๋ค. ๊ฐ ์ฌ๋ก๋ง๋ค ๋ ธ์ด์ฆ ์๋ ์ ํํ 3D ๋ชจ์ ํ๋๋ฅผ ๋ ์ด๋ธ๋ก ๊ณ์ฐํ๊ณ , ์ ๋ ฅ์ผ๋ก๋ ์ธ์์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ๊น์ด ์ง๋์ 2D ์ถ์ ๊ฒฐ๊ณผ(ํฝ์ ํ๋ฆ)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๊ฒ 8๋ฐฑ๋ง ๊ฐ๊ฐ ๋๋ ํ์ต ์ํ์ ์์ฑํ์ฌ ์ถ์ ๊ธฐ ์ ๊ฒฝ๋ง์ ํ๋ จํ๋๋ฐ, ์ฃผ๋ก U-Net ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์๊ณ ์ถ๋ ฅ์ผ๋ก ๊น์ด ๋ณด์ ๊ฐ๊ณผ 3D ์ด๋๊ฐ์ ๊ฐ๊ฐ ์์ธกํ๋ ๋์ผ ํค๋(decoder) ๋ฐฉ์์ ์ทจํ์ต๋๋ค. ๋ํ ์นด๋ฉ๋ผ ์ขํ๊ณ์์์ ํฝ์ ์์น์ขํ ๋ฐ ์ด์ ๊ฑฐ๋ฆฌ ์ญ์๋ก ์ด๋ฃจ์ด์ง ๋ด๋ถํ๋ผ๋ฏธํฐ ๋งต์ ์ถ๊ฐ ์ ๋ ฅ ์ฑ๋๋ก ์ฃผ์ด, ์ ๊ฒฝ๋ง์ด ํฌ์ ๊ธฐํ์ ๋ฏธ๋ถ๊ด๊ณ๊น์ง ํ์ตํ๋๋ก ์ค๊ณํ์ต๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ํฝ์ ์์ง์์ ์ ํํ 3D ์ด๋์ผ๋ก ํ์ฐํ๋ ๋ฐ ํ์ํ ์ ๋ณด(์: ๊น์ด์ ๋ฐ๋ฅธ z์ถ ์ด๋ ์ค์ผ์ผ ๋ณํ)๋ฅผ ๋คํธ์ํฌ๊ฐ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์์์ต๋๋ค. ํ์ต ์์ค์ ๊ฐ์ฒด ์์ญ์ ํํด ์ ์ฉ๋๋ Huber ์์ค๋ก ์์ ์ ์ผ๋ก ๊ตฌ์ฑํ๊ณ , ๊น์ด ๊ตฌ๋ฉ(missing data)์ด๋ ์ค์ฐจ์ robustํ๋๋ก ์ ๋ ฅ์ ๋ง์คํฌ ๋ฐ ๋ถ๋ถ ๋๋ค ๊ฒฐ์ ๋ฑ์ ๋ ธ์ด์ฆ ์ฆ๊ฐ๋ ์ํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด ๋ชจ๋ธ์ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ค์ RGB-D ์์์์๋ ์ ํํ 3D ๋ชจ์ ํ๋๋ฅผ ๋ณต์ํด๋ผ ์ ์๊ฒ ๋์๊ณ , ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ตํ์์๋ ๋ด์ฉ์ด ์์ ๊ธฐํํ์ ์ด๋ผ ์ค์ธ๊ณ๋ก์ sim-to-real ๊ฒฉ์ฐจ๊ฐ ๋งค์ฐ ์์์ ํ์ธํ์ต๋๋ค. ์ค์ ์คํ์์ ์ด ๊ธฐ๋ฒ์ ๊ธฐ์กด์ ์ง์ ๊ณ์ฐ ๋ฐฉ๋ฒ ๋๋น 3D ์ด๋ ์ถ์ ์ค์ฐจ๋ฅผ 50% ์ด์ ์ค์ฌ์ฃผ๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
Phase II: ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋ ์์ธก ์ ์ฑ โ ์์์์ ์ ์ฑ ์ผ๋ก: Phase I์ด 3D ๋ชจ์ ํ๋๋ฅผ โ๋ณด๋โ ๋ฅ๋ ฅ์ ํ๋ณดํ๋ค๋ฉด, Phase II์์๋ ๋ก๋ด์ด ์ค์ ๋ก ๋์ํ ์ ์๋๋ก โ์์ธกํ๊ณ ๋ฐ๋ผํ๋โ ๋ฅ๋ ฅ์ ํ์ตํฉ๋๋ค. ์ฐ์ ๋ค์ํ ์ธ๊ฐ ์์ฐ RGB-D ์์ ๋ฐ์ดํฐ์ ์ ์์งํ์ฌ, ์์ ํ์ตํ ์ถ์ ๊ธฐ๋ก ๊ฐ ์์์ ๊ณผ์ ๊ด๋ จ ๋ฌผ์ฒด ์์ง์์ ๋ชจ๋ 3D ๋ชจ์ ํ๋๋ก ๋ณํํ๊ณ ๋ ์ด๋ธ๋ก ์ผ์์ต๋๋ค. ์ด ๋ SAM (Segment Anything Model)์ ํ์ฉํด ๊ด์ฌ ๊ฐ์ฒด๋ฅผ ๋งค ํ๋ ์ ์๋ ๋ถํ ํ๊ณ , CoTracker๋ก ๊ฐ์ฒด ํฝ์ ๋ค์ ํ๋ ์ ๊ฐ ์ถ์ ํ์ฌ ํฝ์ ํ๋ฆ์ ์ป์ ๋ค, ์ถ์ ๊ธฐ๋ฅผ ํตํด ์ ๋ฐํ 3D ์ด๋ ๋ ์ด๋ธ์ ํ๋ํฉ๋๋ค. ์ด๋ ๊ฒ ์ค๋น๋ ๋ฐ์ดํฐ๋ก ์ ์ฑ ์ ๊ฒฝ๋ง(๋ชจ์ ํ๋ ์์ธก๊ธฐ)์ ํ์ตํ๋๋ฐ, ์ ๋ ฅ์ ๋ถํ ๋ ๊ฐ์ฒด์ RGB-D ์์์ด๊ณ ์ถ๋ ฅ์ ํด๋น ์ฅ๋ฉด์์ ๋ชฉํ๋ก ํ๋ ๋ฌผ์ฒด์ 3D ๋ชจ์ ํ๋์ ๋๋ค. ๋คํธ์ํฌ ๊ตฌ์กฐ๋ Phase I์ U-Net ๊ธฐ๋ฐ์ ๋๋ถ๋ถ ๊ณต์ ํ๋ฉฐ, ์ถ๋ ฅ์ด ์ด๋ฏธ์ง ํํ์ด๋ฏ๋ก ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ์ธ ํ์ฐ ๋ชจ๋ธ(diffusion model)์ ๋์ ํด ์ ๋ฐ๋๋ฅผ ๋์์ต๋๋ค. diffusion ์ ์ฑ ์ ํ์ต์๋ ์ถ๋ ฅ ๋ชจ์ ํ๋์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ํ๋ค์ ๋จ๊ณ๋ณ ๋ณต์ํ๋๋ก ํ์ฌ, ๊ธฐ์กด ํ๊ท(gaussian) ์ ๊ทผ๋ณด๋ค ์์ ์ ์ด๊ณ ๋์ ํด์๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์์ต๋๋ค. ํ์ต ์ ๊ฐ์ฒด ๋ง์คํฌ ์์ญ ์ธ์ ๋ถ๋ถ์ ๋ฌด์ํ๋๋ก ํ์ฌ ๋ฐฐ๊ฒฝ์ ๋ถํ์ํ ๋ ธ์ด์ฆ ์ํฅ์ ์ค์์ผ๋ฉฐ, ์ธ๊ฐ ์ vs ๋ก๋ด ๊ทธ๋ฆฌํผ๋ก ์ธํ ๋ฌผ์ฒด ์ธํ ์ฐจ์ด์ ๋์ํ๊ธฐ ์ํด ๋๋ค ๋ง์คํน ์ฆ๊ฐ์ ์ค์ํ์ฌ ์ฝ๊ฐ์ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ๋ณด์ํ์ต๋๋ค. ์ด๋ ๊ฒ ์ค๋น๋ ์ ์ฑ ์ ์ฌ๋์ด๋ ๋ก๋ด์ ํํ ์ ๋ณด๋ฅผ ์ ํ ๋ณด์ง ์๊ณ ์ค์ง ๋ฌผ์ฒด์ ์์ ๋งฅ๋ฝ๋ง ํ์ฉํ๊ธฐ ๋๋ฌธ์, ์ฌ๋ ์์์ผ๋ก ํ์ตํ์ด๋ ๋ก๋ด์ ๊ทธ๋๋ก ์ ์ฉํ๋ ๋ฐ ๊ฒฉ์ฐจ๊ฐ ๋งค์ฐ ์์ต๋๋ค. ์ค์ ๋ก ํ์ต๋ ์ ์ฑ ๋ง์ ์นด๋ฉ๋ผ ์์๋ง ๋ณด๊ณ ๋ ์ธ๊ฐ ์์ฐ์์ ์ถ์ถํ ๊ฒ๊ณผ ๋์ผํ ํ์์ 3D ๋ชจ์ ํ๋๋ฅผ ์์ธกํ๋ฉฐ, ์ด๋ฅผ ์ต์ข ๋ก๋ด ๋ช ๋ น์ผ๋ก ๋ณํํด ์ฆ๊ฐ ์คํ์ ์ฎ๊ธธ ์ ์๊ฒ ๋ฉ๋๋ค.
๋ก๋ด ์ ์ด๋ก์ ๋ณํ: ์ ์ฑ ์ด ์ถ๋ ฅํ 3D ๋ชจ์ ํ๋๋ ๊ณง ๋ฌผ์ฒด์ 3์ฐจ์ ๋ชฉํ ์ด๋์ ์๋ฏธํ๋ฏ๋ก, ์ด๋ฅผ ๋ก๋ด์ ์ก๊ณ ์๋ ๋ฌผ์ฒด ์ด๋ ๋ช ๋ น(SE(3) ๋ณํ)์ผ๋ก ๋ณํํฉ๋๋ค. ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค: ํ์ฌ ํ๋ ์์์ ๋ฌผ์ฒด ๋ง์คํฌ ๋ด ๊ฐ ํฝ์ ์ ํ์ฌ 3D ์ขํ๋ฅผ ๊น์ด๊ฐ๊ณผ ์นด๋ฉ๋ผ ํฌ์์ผ๋ก ๊ณ์ฐํ๊ณ , ๋ชจ์ ํ๋์ (dx,dy,dz)๋ฅผ ๋ํด ๋ชฉํ 3D ์ขํ๋ฅผ ์ป์ต๋๋ค. ์ด๋ ๊ฒ ์ป์ ํ์ฌ-๋ชฉํ ์ ๊ตฐ(point cloud) ์์ ํฝ์ ๋จ์๋ก 1:1 ๅฏพ์๋๋ฏ๋ก, ์ด๋ค์ ๊ฐ์ฅ ์ ๋ง์ถฐ์ฃผ๋ ์ต์ ์ ํ์ ยท๋ณ์ง ๋ณํ(SE(3))์ ํ์ํดํ ํด๋ฒ(Kabsch ์๊ณ ๋ฆฌ์ฆ)์ผ๋ก ๊ณ์ฐํฉ๋๋ค. ๋ ธ์ด์ฆ๋ ์ธ๋์ ๊ฐ๊ฑดํ๋๋ก RANSAC์ผ๋ก ์ด์์น๋ ์ ๊ฑฐํ ๋ค ์ต์ข ๋ณํ์ ์ป์ผ๋ฉด, ๋ก๋ด ๊ธฐ์ค ์ขํ๊ณ๋ก ๋ณํํ์ฌ ๋ก๋ด ํ์ ํด๋น ์ด๋์ ์คํ์ํค๋ฉด ๋ฉ๋๋ค. ์ด ๋ณํ ๊ณ์ฐ์ ๋งค์ฐ ๋น ๋ฅด๊ณ (300~1000Hz ์์ค) ๋ก๋ด ์ ์ด ๋ฃจํ์ ๋ฌด๋ฆฌ ์์ด ํตํฉ๋ฉ๋๋ค. ๋จ, ์ด ๋ ผ๋ฌธ์์๋ ๋ก๋ด์ ๋ฌผ์ฒด ์ก๊ธฐ/๋๊ธฐ ๋์์ ๋ณ๋์ ๋ชจ๋(์ฌ์ ์ ํ๋ณด๋ ๊ทธ๋ฆฌํผ ์ ์ด ์ ์ฑ )์ ๋งก๊ธฐ๊ณ ์์ผ๋ฉฐ, ํ์ต๋ ์ ์ฑ ์ ๋ฌผ์ฒด๋ฅผ ์ก์ ์ดํ์ ์์ง์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ์ด๋ ์ฌ๋ ์๋์์ ๋ก๋ด์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ ๊ฒ์ด ์ด๋ ต๊ณ ๋ถํ์ํ๋ค๋ ์ ์๋ค์ ํ๋จ์ ๋ฐ๋ฅธ ๊ฒ์ผ๋ก, ์ฐจํ ์ด๋ค ๋ถ๋ถ์ ์ก์์ผ ํ๋์ง ๋ฑ์ ์ ์ด์ ๋ํ ์๋ฌต์ ์ง์(affordance)์ ์ถ๊ฐ ํ์ต์ด ํ์ํ์ง๋ง ํ์ฌ๋ ๋ถ๋ฆฌํ์ฌ ๊ณ ๋ คํ ๊ฒ์ ๋๋ค.
์์ฝํ๋ฉด, ์ด ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ธ๊ฐ ์์ฐ ์์์ผ๋ก๋ถํฐ ๋ก๋ด ํ๋์ ํ์ตํ๊ธฐ ์ํ ์๋ก์ด ํ๋ ํํ์ผ๋ก ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ฅผ ๋์ ํ๊ณ , ์ด๋ฅผ ์ถ์ถํ๊ณ ํ์ฉํ๋ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ์ 3D ๋ชจ์ ํ๋ ์ถ์ถ ํ์ดํ๋ผ์ธ๊ณผ ํ์ค ์ธ๊ณ ์์์์์ ์์ธก ๋ชจ๋ธ์ด๋ผ๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์ํคํ ์ฒ๋ฅผ ๊ณ ์ํ์ฌ, ๋ ธ์ด์ฆ๊ฐ ๋ง์ RGB-D ์์์์๋ ์ ๊ตํ ๊ฐ์ฒด ์์ง์ ์ถ์ถ์ด ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ธ๊ฐ ์์๋ง์ผ๋ก ์๋ก์ด ๋ก๋ด ๊ธฐ์ ์ ๊ฐ๋ฅด์น ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
- ์ ์ํ ๊ตฌ์ฑ ์์๋ค์ ์ค์ ๋ก๋ด ์คํ์ผ๋ก ๊ฒ์ฆํ ๊ฒฐ๊ณผ, ๋ชจ์ ์ถ์ ์ค์ฐจ 50% ์ด์ ๊ฐ์, ๋ค์ํ ์์ ์์ ํ๊ท 55%์ ์ฑ๊ณต๋ฅ (์ด์ ๊ธฐ๋ฒ๋ค์ 10% ๋ฏธ๋ง)์ด๋ผ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์์ ์ธ๊ฐ ์ ์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ด ์ ๋ฐ ์ฝ์ ์์ ๊น์ง ๊ตฌํํ๋ ๊ฒ์ ์ต์ด๋ก ์ํํด ๋ณด์์ต๋๋ค.
2.2 ์คํ ๊ฒฐ๊ณผ ํด์
์คํ ํ๊ฒฝ: ์ ์๋ค์ Intel RealSense D435 RGB-D ์นด๋ฉ๋ผ(์ ์ง๋ ์ํ)๋ก ์ฌ๋ ์์ฐ ์์์ ์์งํ๊ณ , UCT ๊ต์ก์ฉ ๋ก๋ดํ(XArm7)๊ณผ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๋ก ์ค์ ์์ ์ ์ํํ๋ ์คํ์ ๊ตฌ์ฑํ์ต๋๋ค. ์นด๋ฉ๋ผ๋ ์์ ๋๋ก๋ถํฐ ์ฝ 40โ50cm ๊ฑฐ๋ฆฌ์์ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ผ๋ณด๋๋ก ๋ฐฐ์น๋์๊ณ , ๋ก๋ด ์๋ชฉ ์นด๋ฉ๋ผ๋ ์ฌ์ฉํ์ง ์์์ต๋๋ค. ํ์ต์ ์ ๋ ฅ ์์ ํด์๋๋ ์ ์ ํ ํฌ๋กญ ๋ฐ ๋ฆฌ์ฌ์ด์ฆํ์ฌ ์ฌ์ฉํ์ต๋๋ค. ์คํ์ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ฉ๋๋ค: (1) 3D ๋ชจ์ ํ๋ ์ถ์ ๊ธฐ(Phase I)์ ์ ๋ฐ๋ ํ๊ฐ, (2) ํ์ต๋ ์ ์ฑ (Phase II)์ ๋ก๋ด ์์ ์ฑ๊ณต๋ฅ ํ๊ฐ์ ๋๋ค.
1. 3D ๋ชจ์ ํ๋ ์ถ์ ์ฑ๋ฅ ํ๊ฐ: ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ถ์ ๊ธฐ ๋ชจ๋ธ์ด ์ค์ ํ๊ฒฝ์์๋ ์ ํํ ์๋ํ๋์ง ํ์ธํ๊ธฐ ์ํด, ์ ์๋ค์ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์์๋ก ์์ง์ด๋ ์ฅ๋ฉด์ ์ง์ ๋ง๋ค์ด ์ ํํ ๊ธฐ์ค ๋ต๊ณผ ํจ๊ป ํ ์คํธํ์ต๋๋ค. ๋ก๋ด ๊ทธ๋ฆฌํผ๋ก ๋ค์ํ ๋ชจ์์ ๋ฌผ์ฒด๋ค์ ์ฅ ์ฑ ๋ฌด์์๋ก ํ๋ค์ด์ (๋ณ์ง+ํ์ ์ด๋) ์นด๋ฉ๋ผ ์์์ ์์ง์ด๊ณ , ์ด ๋ ๋ก๋ด์ ์ค์ ๊ทธ๋ฆฌํผ ํฌ์ฆ ๋ณํ๋ก๋ถํฐ ๋ฌผ์ฒด์ ์ค์ 3D ๋ณํ๋(ground-truth)์ ๊ณ์ฐํ์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ ์๋ ์ถ์ ๊ธฐ์ ๊ธฐ์กด์ ์ง์ ๊ณ์ฐ ๋ฐฉ์(๊น์ด๊ฐ+์ถ์ ๊ฒฐ๊ณผ๋ก ๋ฐ๋ก 3D ๊ณ์ผ)์ ๋น๊ตํ์ฌ, ๋ณต์๋ ๋ฌผ์ฒด ์ด๋ ๋ณํ์ ์ค์ฐจ๋ฅผ ์ธก์ ํ์ต๋๋ค. ๊ฒฐ๊ณผ๋ Figure 8 (์ผ์ชฝ) ๊ทธ๋ํ๋ก ์ ์๋๋๋ฐ, ๋ฌผ์ฒด์ ํํ์ด๋ MSE์ ํ์ ํ๋ ฌ ์ค์ฐจ(norm) ์งํ ๋ชจ๋์์ ์ ์ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด ๋๋น ํ์ ํ ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ๊น์ด ์ ๋ ฅ์ ์ธ์์ ์ผ๋ก ์ก์(Gaussian noise)์ ์ถ๊ฐํด ๊ณต๊ฒฉ์ ์ธ ๊ฐ๊ฑด์ฑ ํ ์คํธ๋ฅผ ์ํํ ๊ฒฝ์ฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ค์ฐจ๊ฐ ๊ธ๊ฒฉํ ์ปค์ง ๋ฐ๋ฉด ์ ์ ๋ฐฉ๋ฒ์ ํ๋ จ์ ๋ ธ์ด์ฆ์ ๋๋นํ ๋๋ถ์ ์ค์ฐจ ์์ค์ด ๊ฑฐ์ ์ฆ๊ฐํ์ง ์์์ต๋๋ค. ๋ํ ๋คํธ์ํฌ ์ค๊ณ ์์์ ์ ํจ์ฑ๋ ํ์ธํ๋๋ฐ, ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ ๋งต์ ์ ๋ ฅ์ ํฌํจ์ํจ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ ์ด๋ธ๋ ์ด์ (ablation)์์, ํฝ์ ์ขํ์ ์ด์ ๊ฑฐ๋ฆฌ ์ ๋ณด๊ฐ ์์ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ๊ฒ์ด ์ ์ฆ๋์์ต๋๋ค. ์ด๋ ๋ณธ๋ฌธ์ ์ ๋๋๋ก ํ๋ฉด ์ขํ์ ์นด๋ฉ๋ผ ๋ชจ๋ธ ์ ๋ณด๊ฐ 3D ์ด๋ ์์ธก์ ํ์์ ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์์ ์์ผ๊ฐ ๋ณํ(ยฑ10๋)์์์กฐ์ฐจ ์ด์ ๊ฑฐ๋ฆฌ ๊ฐ์ ์ฐจ์ด๊ฐ ์์ธก ์ ํ๋์ ์ํฅ์ ์ค์ ํ์ธํ์ต๋๋ค.
2. ์ธ๊ฐ ์์์ผ๋ก ํ์ตํ ์ ์ฑ ์ ๋ก๋ด ์์ ํ๊ฐ: ๋ค์์ผ๋ก, ์ง์ง ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก ํ์ต๋ ์ ์ฑ ์ด ์ค์ ๋ก๋ด ๋ฌผ์ฒด ์กฐ์ ์์ ๋ค์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์ ์๋์ง ์ํํ์ต๋๋ค. ์ ์๋ค์ ์ฌ๋ฌ ๊ฐ์ง ๋ํ์ ์ธ ๋ฌผ์ฒด ์กฐ์ ๊ณผ์ ๋ฅผ ์ ์ ํ์ฌ ๋ฒค์น๋งํฌ๋ก ์ฌ์ฉํ์ต๋๋ค. ํ๊ฐํ ์ค์ ์์ ๊ณผ ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- 1. ์ก์์ ๋๋ ค ๋๊ธฐ (Pick, Rotate, and Place): ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ง์ด๋ค๊ณ ํน์ ๊ฐ๋๋ก ํ์ ์ํจ ํ ๋ชฉํ ์์น์ ๋ด๋ ค๋๋ ์์ . ์ต์ข ์ ์ผ๋ก ์ ํด์ง ์์ธ๋ก ์ ํํ ๋ฌผ์ฒด๋ฅผ ๋ฐฐ์นํด์ผ ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
- 2. ์ ์ถ์ (Line Tracking): ํ ๋ชจ์์ ์์ ๋ฑ์ ์ง์ด ๋ค์ด ์ฑ ์ ์์ ๋์ธ ์ ์ ๋ชจ์ ๋ผ์ธ์ ๋ฐ๋ผ ์ด๋์ํค๋ ์์ . ์์ ๋ฑ ๋ถ๋น์ด ๊ณ์ ์ ์ ๋น์ถ๋ฉด์ ์ ํด์ง ๊ฒฝ๋ก๋ฅผ ๋๊น์ง ๋ฐ๋ผ๊ฐ๋ฉด ์ฑ๊ณต์ด๋ฉฐ, ์ค๊ฐ์ ํฌ๊ฒ ๋ฒ์ด๋๋ฉด ์คํจ์ ๋๋ค.
- 3. ๋๊ตฌ ์ฌ์ฉ I - ๋ฐ์ด์ ์ฎ๊ธฐ๊ธฐ (Tool Use I: Pushing): ๋ง๋๊ธฐ๋ ๋ฐ๋ ๊ฐ์ ๋๊ตฌ๋ฅผ ์ง์ด ํ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ ์์น๊น์ง ๋ฐ์ด์ ์ด๋์ํค๋ ์์ .
- 4. ๋๊ตฌ ์ฌ์ฉ II - ๋ ์น ์กฐ์ด๊ธฐ (Tool Use II: Wrench): ๋ ์น(์คํจ๋)๋ก ๋ํธ๋ฅผ ํ ๋ฐํด ์กฐ์ด๋ ์์ . ํ์ ํ์ฌ ๋ผ์ฐ๋ ๋์์ด๋ผ 1๋ฒ ์์ ๊ณผ ์ ์ฌํ์ง๋ง, ๋ฌผ์ฒด ๊ฐ ๊ธฐ๊ตฌ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์์ด ํ์ ๊ฐ๋๊ฐ ์ ์ฝ๋๊ณ ์ ๋ฐํ ๋ง์ถค์ด ํ์ํ ๋ ์ด๋ ค์ด ๊ณผ์ ์ ๋๋ค.
- 5. ์ฝ์ (Insertion): ๋ฌผ์ฒด๋ฅผ ์ง์ด์ ํ์ ์ํจ ํ ์์ ๊ตฌ๋ฉ์ด๋ ์ฌ๋กฏ์ ์ ํํ ๋ผ์๋ฃ๋ ์์ . ํ์ฉ ์ค์ฐจ๊ฐ 2.5mm์ ๋ถ๊ณผํ์ฌ, ๋ช ๋์ ๊ฐ๋๋ ๋ช mm ์์น ์ด๊ธ๋จ๋ ์คํจ๋ก ์ด์ด์ง ์ ์๋ ์์ฃผ ๊ณ ๋์ด๋ ์ ๋ฐ ์์ ์ ๋๋ค.
๊ฐ ์์ ๋ง๋ค 50~150๊ฐ์ ์ธ๊ฐ ์์ฐ ์์์ ์์งํ์ฌ ํ์ต์ ์ฌ์ฉํ๊ณ , ๊ณผ์ ๋ณต์ก๋์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์์ง์ ์ฝ 2~15๋ถ ์ ๋ ์์๋์๋ค๊ณ ๋ณด๊ณ ๋ฉ๋๋ค. (์์ฐ ์์์ ์ผ๋ฐ์ธ์ด ํด๋ํฐ ๋ฑ์ผ๋ก ์ดฌ์ํ ์งง์ 3~5์ด ๊ธธ์ด์ RGB-D ํด๋ฆฝ๋ค๋ก ๊ตฌ์ฑ๋์์ต๋๋ค.) ํ์ต ์์๋ ๊ฐ ํ๋ ์์ ๋ฌผ์ฒด ๋ถํ ๊ณผ ์ถ์ ์ด ์๋ํ๋์์ง๋ง, ํ๊ฐ ์์๋ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ ๋น๊ต ๋ฐฉ๋ฒ๋ค์ ๋ํด ๋ฌผ์ฒด ๋ถํ ๊ณผ ์ด๊ธฐ ํ์ง(grasp)๊ฐ ์ ๋๋ก ๋ ๊ฒฝ์ฐ๋ง ์ง๊ณํ์ต๋๋ค.
ํ๊ฐ ๊ฒฐ๊ณผ, Figure 8 (์ค๋ฅธ์ชฝ)์ ์ ์๋ ์์ ๋ณ ์ฑ๊ณต๋ฅ ์์ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ค๋ฅธ ๋ชจ๋ ๋น๊ต ๋ฐฉ๋ฒ ๋๋น ์๋ฑํ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ๊ธฐ์กด ์ต์ ๋ฐฉ๋ฒ์ผ๋ก ์๋ ค์ง General 3D Flow ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ฑฐ์ ๋ชจ๋ ์์ ์์ ํ ์๋ฆฟ์ ๋๋ 0%์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๊ทธ์น ๋ฐ๋ฉด (์ ๋ฐ ์์ ์์๋ ์ ํ ์ฑ๊ณตํ์ง ๋ชปํจ), ๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ํ๊ท 55%์ ์ฑ๊ณต๋ฅ ๋ก ์ ์๋ฏธํ๊ฒ ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ๋์ฑ์ด ๋ก๋ด์ ๋์ ๊ถค์ ์ ๊ด์ฐฐํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ด๋ฐ๋ถํฐ ๋ฌผ์ฒด๋ฅผ ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ์์ง์ฌ ๊ฒฝ๋ก๋ฅผ ์ดํํ๋ ๋ฐ๋ฉด, ์ ์ ๋ฐฉ๋ฒ์ ๋๊น์ง ์ธ๊ฐ ์์ฐ ๊ฒฝ๋ก๋ฅผ ์ ๋ฐ๋ผ๊ฐ๋ฉด์ ๊ณผ์ ๋ฅผ ์์ํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ด๋ ์์ ์ถ์ถํ ๋ชจ์ ํ๋๊ฐ ์ ํํ๊ณ ๋งค๋๋ฝ๊ฒ ์ฐ๊ฒฐ๋ ์์ง์ ์ ๋ณด์ด๊ธฐ์ ๊ฐ๋ฅํ ์ผ๋ก, ๋ถ๋๋ฌ์ด ์ถ์ ์ด ๊ณง ์ ํํ ์ ์ด๋ก ์ด์ด์ง ์ฌ๋ก์ ๋๋ค. ๋ฐฐ๊ฒฝ์ด ํ์ต ๋์ ๋ฌ๋ผ์ ธ๋, ์ ๋ ฅ์ผ๋ก ๋ฐฐ๊ฒฝ์ ์ ์ธํ ๊ฐ์ฒด ์ค์ฌ ์ ๋ณด๋ง ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ์ ๋ฌธ์ ๊ฐ ์์์์ ํ์ธํ์ต๋๋ค.
๊ฐ์ฅ ๋์ด๋๊ฐ ๋์ ์ฝ์ ์์ ์ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด๋ฉด, ์ธ๊ฐ ์์๋ง์ผ๋ก ํ์ตํ ์ ์ฑ ์ด ์ด์ฒ๋ผ ์ฌ์ธํ ์์ ์ ํด๋ธ ๊ฒ์ ์ฒ์์ด๋ผ ์๋ฏธ๊ฐ ํฝ๋๋ค. ์ฑ๊ณต๋ฅ ์ ์ฝ 35% ์ ๋๋ก ์๋ฒฝํ๋ค๊ณ ํ ์๋ ์์ง๋ง, ๋น๊ต๊ตฐ๋ค์ ๋จ ํ ๋ฒ๋ ์ฑ๊ณตํ์ง ๋ชปํ์์ ๊ฐ์ํ๋ฉด ์๋นํ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ ๋๋ค. ์ ์๋ค์ ์ฝ์ ์์ ์คํ ์์์ ๋ฉด๋ฐํ ๋ถ์ํ ๊ฒฐ๊ณผ, ๋ก๋ด์ด ํ ๋ฒ์ ๋งค๋๋ฝ๊ฒ ๊ฝ์ง๋ ๋ชปํ๊ณ โ๋ ๋ (bang-bang) ์ ์ดโ์ ๊ฐ๊น์ด ๋ฏธ์ธ ์กฐ์ ์ ๋ฐ๋ณตํ๋ฉฐ ๊ฐ์ ํ ์ฑ๊ณตํ๋ ์์์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ์ด๋ ์ฌ๋์ ์๋์ ๋ฏธ์ธ ๊ฐ๊ฐ์ผ๋ก ํ ๋ฒ์ ๊ฝ๋ ๋ฐ๋ฉด ๋ก๋ด์ ์นด๋ฉ๋ผ ๊ด์ฐฐ๋ง์ผ๋ก ์์ง์ด๋ค ๋ณด๋ ์ฝ๊ฐ์ฉ ์์น๋ฅผ ๋ณด์ ํด๊ฐ๋ ๊ฒ์ผ๋ก, ์ฌ์ ํ ์ธ๊ฐ์ ๋นํด ๋ถ์กฑํ ๋ถ๋ถ์ด์ง๋ง ์ต์ข ์ ์ผ๋ก ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ค๋ ์ ์์ ํ์ต ํจ๊ณผ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค. ๋ํ ์ด๋ฌํ ์ถ๊ฐ ๋ฏธ์ธ ์กฐ์ ๋์๋ ์ ์ฑ ์ด ๋ชจ์ ํ๋ ํํ๋ก ๋ชฉํ ์ด๋์ ์ง์ ์์ธกํ๋ฉฐ ๋ง๋ฌด๋ฆฌ ๋ฐฉํฅ์ ์ ์ํ๊ธฐ์ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก, ์์ ํ ์คํจํ๋ ๊ธฐ์กด ์ ์ฑ ๋ค๊ณผ ๋น๊ต๋ฉ๋๋ค.
์ ์ฑ ๊ตฌ์ฑ ์์์ ๋ํ ์ถ๊ฐ ๋ถ์: Table 1์ ์ ๋ฐ ์์ ๋ค์ ๋ํ ์ ์ฑ ์ค๊ณ ์ ํ์ ์ํฅ์ ์์ฝํ ์ด๋ธ๋ ์ด์ ์คํ ๊ฒฐ๊ณผ์ ๋๋ค. diffusion ๋ชจ๋ธ ๋์ ์ ํต์ Gaussian ํ๊ท ์ถ๋ ฅ์ ์ฌ์ฉํ๊ฑฐ๋, diffusion ๋จ๊ณ์์ ๊ฐ์ฒด ๋ง์คํฌ ์ ์ฉ์ ์๋ตํ ๊ฒฝ์ฐ ์ฝ์ ๊ณผ ๋ ์น ์์ ์์ 0% ์ฑ๊ณต์ผ๋ก ์ ํ ์ฑ๊ณตํ์ง ๋ชปํ์ต๋๋ค. ๋ํ ํ์ต ์ ๊ฐ์ฒด ๋ง์คํฌ ์ฆ๊ฐ์ ํ์ง ์์ ๊ฒฝ์ฐ ์ฑ๊ณต๋ฅ ์ด 5%๋ก ๋งค์ฐ ์ ์กฐํ์ผ๋, ์ ์ํ ๋ชจ๋ ๊ธฐ๋ฒ์ ํฌํจํ ์์ ํ ๋ชจ๋ธ์ 35%๊น์ง ํฅ์๋์์ต๋๋ค. ์ด๋ diffusion ๊ธฐ๋ฐ์ ๊ณ ํด์๋ ์์ธก์ด ์ ๋ฐ ์์ ์ ํ์์ ์ด๊ณ , ๋น๊ฐ์ฒด ์์ญ ๋ ธ์ด์ฆ ์ ๊ฑฐ์ ๋ก๋ด-์ธ๊ฐ ๋ฌผ์ฒด ์ธํ ์ฐจ์ด์ ๋ํ ์ฆ๊ฐ์ด ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ์ ์ฆํฉ๋๋ค.
์ ๋ฆฌํ๋ฉด, ์ด ๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ๋ ์ ์ํ ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋ ์ ๊ทผ์ด ์ค์ ํ์ค์ ๋ค์ํ ๋ฌผ์ฒด ์กฐ์ ์์ ์์ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ด ์คํจํ๋ ๊ฒ์ ์ฑ๊ณต์ผ๋ก ๋ฐ๊ฟ๋์ ๋งํผ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ธ๊ฐ ์์์์ ์ถ์ถํ ์ ํํ 3D ํ๋ ํํ์ ํ ๋๋ก ํ์ต๋ ๋ก๋ด ์ ์ฑ ์, ๋ณ๋์ ๋ก๋ด ๋ฐ์ดํฐ ์์ง ์์ด๋ ๋๋ผ์ธ ์ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฐํํ์ต๋๋ค. ๋น๋ก ์ฑ๊ณต๋ฅ ์ด 100%๋ ์๋์ง๋ง, ๋ฐ์ดํฐ ์ค๋น์ ์ฉ์ด์ฑ๊ณผ ํ์ต ํจ์จ์ ๊ณ ๋ คํ๋ฉด ํฅํ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋ ฅํ ์์ฌํฉ๋๋ค.
2.3 ์ฅ์ ๊ณผ ํ๊ณ
์ฅ์ โ ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ผ๋ฐํ์ ์๋ก์ด ์งํ: ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ์ฑ๊ณผ๋ ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ๋ฌธ์ ๋ฅผ ์ธ๊ฐ ์์ฐ ์์์ผ๋ก ํ์ด๋ธ ์ ์ ๋๋ค. ์ฌ๋ ์์ผ๋ก ์์ฐํ ์งง์ ์์ ์์ญ ๊ฐ๋ง์ผ๋ก๋ ๋ก๋ด์๊ฒ ์๋ก์ด ๊ธฐ์ ์ ๊ฐ๋ฅด์น ์ ์๋ค๋ ๊ฒ์, ํฅํ ๋ก๋ด์๊ฒ ํ์ํ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ค ์ฝ๊ฒ ํ๋ํ ์ ์์์ ์๋ฏธํฉ๋๋ค. ๋ํ ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ผ๋ ํํ์ ๋ก๋ด ์ ์ด์ ํ์ํ ํต์ฌ ์ ๋ณด๋ง ๋ด๊ณ ์์ด ํจ์จ์ ์ผ ๋ฟ ์๋๋ผ, ์ฌ๋๊ณผ ๋ก๋ด์ ํํ ์ฐจ์ด๋ฅผ ์ด์ํด ๋์์ ์ ๋ฌํ๋ค๋ ๋ฐ์์ ์ ํ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋๋ถ์ ํ๋์ ์ ์ฑ ์ผ๋ก ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ์ ์ฉํ๊ฑฐ๋ ์๋ก์ด ๋ฌผ์ฒด๋ ๋ฐฐ๊ฒฝ ํ๊ฒฝ์๋ ๋น๊ต์ ๊ฐ์ธํ ์ผ๋ฐํ๋ฅผ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ์ค์ ์คํ์์๋ ๋ฐฐ๊ฒฝ์ด ๋ฐ๋๊ฑฐ๋ distractor๊ฐ ์์ด๋ ๋ฌธ์ ์์๊ณ , ํ์ต์ ์ฌ์ฉํ์ง ์์ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํด์๋ ์ ๋๋ก ๋์ํ๋ ๋ฑ ๋ฒ์ฉ์ฑ์ ํ์ธํ์ต๋๋ค. ๋ํ ์๋ฎฌ๋ ์ด์ ์ ํ์ฉํ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์ถ์ ๊ธฐ๋ ๋น๊ต์ ๋จ์ํ ์์ด๋์ด์ด์ง๋ง, ๊ธฐ์กด์ ์ผ์ ์ค์ฐจ๋ก ์ด๋ ค์์ ๊ฒช๋ 3D ์ถ์ ๋ฌธ์ ์ ํฐ ๋ํ๊ตฌ๋ฅผ ๋ง๋ จํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ ๋ ฅ ๊น์ด์ ๋ถ๋ถ ๊ฒฐํจ์ด๋ ์ค๋ฅ๊ฐ ์์ด๋ 2D ์ถ์ ์ ๋ณด๋ก ๋ณด์ํ์ฌ 3D ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํด์ฃผ๋ฏ๋ก, ๊ฐ๋น์ผ ๊ณ ์ฑ๋ฅ ์ผ์๋ฅผ ์ฐ์ง ์๊ณ ๋ ์ ๋ ดํ RGB-D ์นด๋ฉ๋ผ๋ก ์ ๋ฐ ์ ์ด๋ฅผ ํ ์ ์๊ฒ ํฉ๋๋ค. ๋ ๋์๊ฐ ์ ์ฑ ๋ง์ ํ์ฐ ๋ชจ๋ธ์ ๋์ ํ ๊ฒ์ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ต์ ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฒ์ ์ ์ฉํ ํฅ๋ฏธ๋ก์ด ์๋๋ก์, ์ด๋ฅผ ํตํด ๊ณ ํด์๋ ์ฐ์ ํ๋ ์ถ๋ ฅ์ด ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ์ ๋ฐ์ ์ผ๋ก ์ด ์ฐ๊ตฌ๋ ์ฌ๋ ์์์์ ๋ก๋ด์ด ํ์ตํ๋ค๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ฑ์ ๋ํด, ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ์ ํด๋ฒ๊ณผ ๊ฐ๋ฅ์ฑ์ ์ฆ๋ช ํด ๋ณด์๋ค๋ ์์๊ฐ ์์ต๋๋ค. ํนํ ์ฝ์ ์์ ์ฑ๊ณต๊ณผ ๊ฐ์ ์ฑ๊ณผ๋ ์ด ๋ฐฉ๋ฒ์ ์ค์ฉ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก๋ก, ํฅํ ์ฐ์ ํ์ฅ์ด๋ ๊ฐ์ ์์ ์ฌ๋ ์์ฐ ํ๋ ๋ฒ์ผ๋ก ๋ก๋ด์๊ฒ ์๋ก์ด ์์ ์ ๊ฐ๋ฅด์น๋ ๋ชจ์ต๋ ์์ํด๋ณผ ์ ์๊ฒ ํฉ๋๋ค.
ํ๊ณ โ ๊น์ด ๋ฐ์ดํฐ ์์กด ๋ฐ ๋ค์ค ๊ฐ์ฒด ๋ฑ ํ์ค์ ๊ณผ์ : ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ์ฌ ๋จ๊ณ์ ๊ธฐ๋ฒ์๋ ๋ถ๋ช ํ ํ๊ณ์ ํฅํ ๊ณผ์ ๊ฐ ์กด์ฌํฉ๋๋ค. ๋จผ์ , RGB-D ์์ ๋ฐ์ดํฐ์ ๋ํ ์์กด์ฑ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ ํํ 3D ๋ชจ์ ์ถ์ ์ ์ํด ๊น์ด ์ฑ๋์ด ํ์์ ์ด๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ ๊ธฐ์ ์ ์ผ๋ก ํ๋นํ ์ฃผ์ฅ์ด๋, ํ์ค์ ์ผ๋ก ์ธํฐ๋ท์์ ๋ฐฉ๋ํ ๊ธฐ์กด RGB ์์ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ํ์ฉํ์ง ๋ชปํ๋ค๋ ์ ํ์ด ๋ฉ๋๋ค. ๋คํํ ํด๋ํฐ ๋ฑ ๊น์ด ์ผ์๊ฐ ๋ฌ๋ฆฐ ๊ธฐ๊ธฐ๊ฐ ๋์ด๋๊ณ ์์ด ์๋ก์ด RGB-D ๋ฐ์ดํฐ ์ถ์ ๋ ๊ธฐ๋ํด๋ณผ ์ ์์ง๋ง, ์ด๋๊น์ง๋ ์ถ๊ฐ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์์ผ ํ๋ค๋ ์ ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋์งธ, ๋ฌผ์ฒด๊ฐ ์นด๋ฉ๋ผ์ ์์ ํ ๊ฐ๋ ค์ง๋ ๊ฒฝ์ฐ์๋ ํ์ฌ ๋ฐฉ๋ฒ์ด ํตํ์ง ์์ต๋๋ค. ํ์ต ์ ์์ ๊ฐ๋ ค์ง ๊ตฌ๊ฐ์ ์์์ ์ ์ธํ๊ณ , ์คํ ์ค์๋ ๋ฌผ์ฒด๊ฐ ๋ณด์ด๋ ์ ์ ํ์ ์ ์ด๊ฐ ์ด๋ค์ง๋๋ค. ๋ฐ๋ผ์ ์ฌ๋ ์์ฐ์ด๋ ๋ก๋ด ์ํ ์ค์ ๋ฌผ์ฒด๊ฐ ์ค๋ซ๋์ ์ ๋ณด์ด๊ฒ ๋๋ ์์ (์: ํต ์์ ๋ฃ์๋ค ๊บผ๋ด๋ ๋ฑ)์๋ ๋์ํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋ ์ถํ ์ถ์ ์ด ๋๊ธฐ๋๋ผ๋ ์ฌ์๋ณํ๊ฑฐ๋ ๊ธฐ์ตํ๋ ๊ธฐ์ ๋ก ๋ณด์ํด์ผ ํ ๊ฒ์ ๋๋ค. ์ ์งธ, ๋ค์ค ๊ฐ์ฒด ๋๋ ๋ณต์กํ ์ํธ์์ฉ์ ๋ฌธ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ํ ๋ฒ์ ํ๋์ ์ฃผ๋ ์์ ๋์์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ์๋๋ฆฌ์ค์์๋ ๋ก๋ด์ด ์ฌ๋ฌ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋์์ ๋ค๋ฃจ๊ฑฐ๋, ์ฌ๋ฌ ๋จ๊ณ์ ๋๊ตฌ/๋์ ์ํธ์์ฉ์ ๊ฑฐ์น๋ ์ผ์ด ๋ง์ต๋๋ค. ํ์ฌ ๋ฐฉ๋ฒ์ ๊ทธ๋๋ก ํ์ฅํ๋ฉด ๊ฐ ๊ฐ์ฒด๋ง๋ค ๋ชจ์ ํ๋๋ฅผ ๋ฐ๋ก ์์ธกํ๊ณ ์์ฐจ ์ ์ดํด์ผ ํ ํ ๋ฐ, ์ด ๊ฒฝ์ฐ ์ํธ ์์กด์ฑ๊น์ง ๊ณ ๋ คํ๋ ค๋ฉด ๋ ๋ฐ์ ๋ ํํ๊ณผ ์ ์ฑ ์ด ํ์ํ ๊ฒ์ ๋๋ค (์๋ฅผ ๋ค์ด ๋์ผ๋ก ์ฐ๊ฒฐ๋ ๋ ๋ฌผ์ฒด๋ฅผ ๋์์ ์ถ์ ํ๋ ๋ฑ). ๋ท์งธ, ๋ก๋ด ์ก๊ธฐ ๋์์ ํตํฉ์ ๋๋ค. ์์ ๊ฐ์ ํ ๋๋ก ๋ณธ ์ฐ๊ตฌ์์๋ ๋ฌผ์ฒด ์ก๋ ์ ์ฑ ์ ๋ณ๋๋ก ๊ฐ์ ํ์ต๋๋ค. ํ์ง๋ง ์ฌ๋ ์์์๋ ๋ฌผ์ฒด๋ฅผ ์ด๋ป๊ฒ ์ฅ๋์ง๊น์ง ๋ชจ๋ ๋ํ๋๋ฏ๋ก, ์ด๋ฅผ ํ์ฉํ๋ฉด ๋ก๋ด์ด ์ ์ ํ ํ์ง ๋ฐฉ๋ฒ์ด๋ ๋๊ตฌ ์ฌ์ฉ๋ฒ๊น์ง ๋ฐฐ์ธ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ํฅํ์๋ ์ดํฌ๋์ค ํ์ต์ด๋ ์์ ํํ ๊ทธ๋ฆฌํผ์์ ์ผ๋ฐํ ๋ฑ์ผ๋ก ์ด ๋ถ๋ถ๊น์ง ํตํฉํ๋ค๋ฉด ๋์ฑ ์์ฐ์ค๋ฌ์ด ํ์ต ํ๋ ์์ํฌ๊ฐ ๋ ๊ฒ์ ๋๋ค. ๋ค์ฏ์งธ, ๋ก๋ด ๊ตฌ์ฑ๊ณผ ํ๊ฒฝ์ ๋ฐ๋ฅธ ์ ์ฝ์ ๋๋ค. ํ์ฌ ๋ฐฉ๋ฒ์ UC Berkeley์ XArm7 ๋ก๋ด์ผ๋ก ๊ฒ์ฆ๋์๋๋ฐ, ๋ค๋ฅธ ๋ก๋ด์ด๋ผ๋ ๋ฌผ์ฒด๋ฅผ task-space์์ ์์ง์ด๋ ๊ธฐ๋ฅ๋ง ์์ผ๋ฉด ์ ์ฉ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํ์ง๋ง ๋ก๋ด๋ง๋ค ๊ด์ ๊ตฌ์ฑ์ด๋ ์์ ๊ณต๊ฐ์ด ๋ค๋ฅด๋ฏ๋ก, ์ถํ ๋ค์ํ ๋ก๋ด์ ์ด์ํ๋ฉฐ ๋ฏธ์ธ ์กฐ์ ์ด ํ์ํ ์ ์์ต๋๋ค. ๋ํ ํ๊ฒฝ์ ์ผ๋ก๋ ์นด๋ฉ๋ผ๊ฐ ๊ณ ์ ๋์ด ์๊ณ ๋น๊ต์ ๋จ์ํ ํ์ ํ๊ฒฝ์ด์๋๋ฐ, ์นด๋ฉ๋ผ๊ฐ ์ด๋ํ๊ฑฐ๋ ์์ ๊ณต๊ฐ์ด ๋ณต์กํ ๊ฒฝ์ฐ ์ถ๊ฐ ๋ชจ๋(SLAM ๋ฑ)๋ก ์นด๋ฉ๋ผ ์์ง์์ ๋ณด์ ํ๋ ํ์ฅ์ด ํ์ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฑ๋ฅ ํฅ์์ ์ฌ์ง์ ๋๋ค. ์ฑ๊ณต๋ฅ 55%๋ ๊ธฐ์กด ๋๋น ํฌ๊ฒ ํฅ์๋ ๊ฒ์ด์ง๋ง, ์ค์ ์๋น์ค ๋ก๋ด์ ์ ์ฉํ๊ธฐ์ ์์ง ์คํจ ํ๋ฅ ์ด ๋์ต๋๋ค. ํนํ ์ ๋ฐ ์์ ์ 3๋ฒ ์ค 1๋ฒ๋ง ์ฑ๊ณตํ๋ ์์ค์ด๋ฏ๋ก, ๋์ฑ ๋ง์ ๋ฐ์ดํฐ ์ถ์ ์ด๋ ๋ชจ๋ธ ๊ฐ์ ์ผ๋ก ์ฑ๊ณต๋ฅ ์ ๋์ฌ์ผ ํฉ๋๋ค. ์์ปจ๋, ์ธ๊ฐ ์์ฐ์ ๋จ์ํ ๋ฐ๋ผํ๋ ๊ฒ์ ๋์ด ์ค์๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ค์ฐจ๋ฅผ ๋ณด์ ํ๋ ๊ฐํํ์ต์ด๋, ๋ฉํฐ์คํ ๊ณํ์ ์ ๋ชฉํ๋ฉด ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์ฑ์ด ํฅ์๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ๋ํ ๋น๋์ค ์ดํด ์ธก๋ฉด์์, ์ฌ๋์ ์๋๋ ํ๋ ๋จ์๋ฅผ ํ์ ํ์ฌ ๋ ๊ณ ์ฐจ์์ ๊ฐ๋ ์ผ๋ก๋ ํ์ตํ ์ ์์ ๊ฒ์ ๋๋ค.
ํฅํ ์ ๋ง: ์ ์๋ค์ ์ด๋ฌํ ํ๊ณ๋ฅผ ์ธ์งํ๊ณ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ์ฌ๋ฌ ๋ฌผ์ฒด๊ฐ ์๋ ๋ณต์กํ ์ํธ์์ฉ ์ํฉ, ๋ค๋ฅธ ํํ์ ๋ก๋ด ์ ์ฉ, ํ๊ฒฝ์ ์ ์ฝ ์ฒ๋ฆฌ, ๋ณด์ง ๋ชปํ ์๋ก์ด ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฑ์ ์ ์ํ๊ณ ์์ต๋๋ค. ๊ฒฐ๊ตญ ์ด ์ฐ๊ตฌ๋ โ์ฌ๋์ฒ๋ผ ๋ณด๊ณ ๋ฐฐ์ฐ๋ ๋ก๋ดโ์ ๊ฐ๋ฅ์ฑ์ ํ ๋จ๊ณ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก์, ์์ผ๋ก ๋จ์ ๋์ ๋ค์ ์ด ๊ฐ๋ ์ ๋์ฑ ์ผ๋ฐ์ ์ด๊ณ ๊ฐ๋ ฅํ๊ฒ ๋ง๋๋ ๊ณผ์ ์ด๋ผ ํ ์ ์์ต๋๋ค. ๋ก๋ด๊ณตํ์ ๊ด์ ์์, ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ ํ็ฟํ๋ค๋ ๊ฒ์ ๋ก๋ด์ด ์ธ์์ ๋ฐฉ๋ํ ๋น๋์ค ์ง์์ ํ์ฉํ ๊ธธ์ ์ด์ด์ค๋๋ค. ์ด๋ฒ ๋ ผ๋ฌธ์ ๊ฐ์ฒด ์ค์ฌ 3D ๋ชจ์ ํ๋๋ ๊ทธ ์ค์ํ ํผ์ฆ ์กฐ๊ฐ ์ค ํ๋๋ก, ํฅํ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค๊ณผ ํฉ์ณ์ ธ ์ฐ๋ฆฌ๊ฐ ํํ ๋ณด๋ ์ ํ๋ธ ์์๋ง ๋ณด๊ณ ๋ ์ฒ์ฒ ๋ฐฐ์ฐ๋ ๋ฏธ๋ ๋ก๋ด์ ๋ชจ์ต์ ํ์ค์ ๊ฐ๊น์ด ๋ฐ๋ ค์ฌ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.