๐GraspGen ๋ฆฌ๋ทฐ
- ๐ค GraspGen์ ๋ค์ํ ๊ทธ๋ฆฌํผ์ ๋ณต์กํ ํ๊ฒฝ์์ 6-DOF ๊ทธ๋ฆฝ ์์ฑ์ ์ํ ์๋ก์ด ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์๋ค์ ์ผ๋ฐํ ๋ฐ ์์ ์ฑ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
- ๐ ์ด ํ๋ ์์ํฌ๋ Diffusion-Transformer ์ํคํ ์ฒ์ ์์ฑ ๋ชจ๋ธ ์์ฒด์ ์ค๋ฅ๋ฅผ ํ์ตํ์ฌ ํํฐ๋งํ๋ ์จ-์ ๋๋ ์ดํฐ(On-Generator) ํ์ต ๋ฐฉ์์ ์ ์ฉํ ํจ์จ์ ์ธ Discriminator๋ฅผ ํตํฉํ๋ฉฐ, 5,300๋ง ๊ฐ ์ด์์ ๋๊ท๋ชจ ๊ทธ๋ฆฝ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค.
- โจ GraspGen์ ์๋ฎฌ๋ ์ด์ ์์ ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , FetchBench ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ(SOTA) ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ์๋๋ฌ์ด ์๊ฐ์ ๊ด์ธก์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ํจ๊ณผ์ ์ธ ๊ทธ๋ฆฝ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.

1 Brief Review
๋ณธ ๋ ผ๋ฌธ์ 6-์์ ๋(DOF) ๊ทธ๋ฆฝ ์์ฑ์ ์ํ ํ์ฐ ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ธ GraspGen์ ์ ์ํ๋ค. ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ 6-DOF ๊ทธ๋ฆฝ ์ ๊ทผ ๋ฐฉ์์ ๋ค์ํ ์๋์ดํํฐ ๋ฐ ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ์ ์ด๋ ค์์ ๊ฒช๊ณ , ํนํ FetchBench์ ๊ฐ์ ๋ฒค์น๋งํฌ์์ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ๋ ํ์ฐ ํธ๋์คํฌ๋จธ(Diffusion-Transformer) ์ํคํ ์ฒ์ ์ํ๋ง๋ ๊ทธ๋ฆฝ์ ์ ์๋ฅผ ๋งค๊ธฐ๊ณ ํํฐ๋งํ๋ ํจ์จ์ ์ธ ํ๋ณ์(discriminator)๋ฅผ ๊ฒฐํฉํ GraspGen์ ์ ๋ณด์ธ๋ค.
GraspGen์ ํต์ฌ์ ์ธ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ ๊ฐ์ง๋ค.
์ฒซ์งธ, 6-DOF ๊ทธ๋ฆฝ ์์ฑ ๋ฌธ์ ๋ฅผ SE(3) ๋ฆฌ ๊ตฐ(Lie group) ์์ ํ์ฐ ๋ชจ๋ธ๋ก ์ ์ํํ๋ค. ๊ธฐ์กด ์๋์ง ๊ธฐ๋ฐ ๋ชจ๋ธ(EBM) ๋์ Denoising Diffusion Probabilistic Model(DDPM)์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ ๊ตฌํ์ ๊ฐ์ํํ๋ค. ๊ทธ๋ฆฝ์ translation ์ฑ๋ถ์ ๋ฐ์ดํฐ์ ํต๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๊ทํํ๋ ๊ณ์ \kappa = \frac{1}{N}\sum_{i=0}^{N}(max(t_i) - min(t_i))๋ฅผ ๋์ ํ๋ฉฐ, ์ด๋ translation์ด ๊ฐ์ฒด ํฌ๊ธฐ์ ๋ฌด๊ดํ๊ฒ ์ ๊ทํ๋๋๋ก ๋๋๋ค. ๊ฐ์ฒด ์ธ์ฝ๋๋ก๋ ๊ณ์ธต์ ํน์ง ์ฒ๋ฆฌ์ ๋ณ๋ชฉ ํ์์ ์ฐํํ๊ณ ๋น์ ํ ์ ๊ตฌ๋ฆ์ ๊ตฌ์กฐํ๋ ํ์์ผ๋ก ๋ณํํ์ฌ ํธ๋์คํฌ๋จธ์ ์ ์ฉํ๋ PointTransformerV3(PTv3)๋ฅผ ์ฌ์ฉํ๋ค. ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ๋ ์ ๊ตฌ๋ฆ๊ณผ ๊ทธ๋ฆฝ ํฌ์ฆ๋ฅผ ๊ฐ์ฒด ํ๊ท ์ค์ฌ์ผ๋ก ๋ณํํ์ฌ ์ ๋ ฅ๋ฐ๊ณ , ํ๋ จ ์์ค์ ์์ธก ๋ ธ์ด์ฆ์ ์ค์ ๋ ธ์ด์ฆ ๊ฐ์ ์์น ๋ฐ ๋ฐฉํฅ ์ฐจ์ด์ ๋ํ ํ๊ท ์ ๊ณฑ ์ค์ฐจ๋ก ์ ์๋๋ค: L = \|\epsilon - \varphi(t, \tilde{g}, \mathcal{X})\|_2^2 ์ฌ๊ธฐ์ \varphi๋ ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ, \mathcal{X}๋ ๊ฐ์ฒด ์ ๊ตฌ๋ฆ, \tilde{g}๋ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ๊ทธ๋ฆฝ, t๋ ํ์ฐ ์๊ฐ ๋จ๊ณ์ด๋ค. ํนํ translation๊ณผ orientation ๊ตฌ์ฑ ์์์ ๋ํด ๋ ๊ฐ์ ๋ณ๋ ๋๋ ธ์ด์ง ํ๋ก์ธ์ค๋ฅผ ์คํํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
๋์งธ, ์์ฑ ๋ชจ๋ธ์ ์คํ(false positives) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด โ์จ-์ ๋๋ ์ดํฐ ํ๋ จ(On-Generator Training)โ์ด๋ผ๋ ์๋ก์ด ํ๋ณ์ ํ๋ จ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๋ง์ผ๋ก๋ ์์ฑ ๋ชจ๋ธ์ด ๋ง๋ค์ด๋ด๋ ๊ทธ๋ฆฝ์ ๋ถํฌ์ ์ค์ ์คํจ ํจํด์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ ์ ์ ์ฐฉ์ํ๋ค. ๋ณธ ๋ฐฉ๋ฒ์ ํ์ฐ ๋ชจ๋ธ๋ก ์ํ๋ง๋ ๊ทธ๋ฆฝ๋ค์ ๋์์ผ๋ก ์๋ฎฌ๋ ์ด์ ์ ํตํด ์ฑ๊ณต/์คํจ ์ฌ๋ถ๋ฅผ ๋ค์ ์ด๋ ธํ ์ด์ ํ์ฌ โ์จ-์ ๋๋ ์ดํฐ ๋ฐ์ดํฐ์ โ์ ๊ตฌ์ถํ๊ณ , ์ด ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ณ์๋ฅผ ํ๋ จ์ํจ๋ค. ์ด ๊ณผ์ ์ ํตํด ํ๋ณ์๋ ํ์ฐ ๋ชจ๋ธ์ด ์์ฑํ๋ ์ฝ๊ฐ์ ์ถฉ๋์ด๋ ์ด์์น์ ๊ฐ์ ํน์ ์คํจ ๋ชจ๋๋ฅผ ์ธ์งํ๊ณ ๋ฎ์ ์ ์๋ฅผ ํ ๋นํ๋๋ก ํ์ต๋๋ค. ํ๋ณ์ ์ํคํ ์ฒ๋ ์์ฑ ๋จ๊ณ์์ ์ฌ์ฉ๋ PointTransformerV3 ๊ธฐ๋ฐ์ ๊ฐ์ฒด ์ธ์ฝ๋๋ฅผ ์ฌ์ฌ์ฉํ๋ฉฐ, ์ด ์ธ์ฝ๋ฉ๋ ๊ฐ์ฒด ์๋ฒ ๋ฉ๊ณผ ๊ทธ๋ฆฝ ํฌ์ฆ(SE(3) ํํ)๋ฅผ ์ฐ๊ฒฐํ์ฌ ๋ฉํฐ๋ ์ด์ด ํผ์ ํธ๋ก (MLP)์ ์ ๋ ฅํด ๊ทธ๋ฆฝ ์ฑ๊ณต ํ๋ฅ ์ ์์ธกํ๋ค. ์ด ๋ฐฉ์์ ๊ธฐ์กด ํ๋ณ์๋ณด๋ค ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ด 21๋ฐฐ ๋๊ณ ์ ํ๋๋ ๊ฐ์ ๋์๋ค.
GraspGen์ ์ค์ผ์ผ ํ์ฅ์ ์ํด Objaverse ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก 8,515๊ฐ ๊ฐ์ฒด์ ๋ํด Franka Panda, Robotiq-2f-140, ์ง๊ณต ๊ทธ๋ฆฌํผ์ ์ธ ๊ฐ์ง ๊ทธ๋ฆฌํผ ์ ํ์ ๊ฑธ์ณ ์ด 5์ฒ3๋ฐฑ๋ง ๊ฐ ์ด์์ ๊ทธ๋ฆฝ์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ๋ค. ๊ทธ๋ฆฝ ๋ผ๋ฒจ๋ง์ Isaac ์๋ฎฌ๋ ์ดํฐ์์ ๊ฐ์ฒด ํ๋ค๋ฆผ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์์ ์ ์ธ ์ ์ด ๊ตฌ์ฑ์ ํ์ธํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ค.
์คํ ํ๊ฐ๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ ๋ชจ๋์์ ์ด๋ฃจ์ด์ก๋ค.
- ์๋ฎฌ๋ ์ด์ ์์๋ ACRONYM ๋ฐ์ดํฐ์ ์ ๋จ์ผ ๊ฐ์ฒด ๊ทธ๋ฆฝ ์์ฑ ๋ฐ FetchBench ๋ฒค์น๋งํฌ์ ๋ณต์กํ ํด๋ฌํฐ ํ๊ฒฝ์์ GraspGen์ด ๊ธฐ์กด์ Contact-point ๊ธฐ๋ฐ(M2T2, Contact-GraspNet) ๋ฐ ํ์ฐ ๊ธฐ๋ฐ(DexDiffuser, SE3-Diffusion Fields) ๋ฐฉ๋ฒ๋ค์ ์๋ํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ SOTA๋ฅผ ๋ฌ์ฑํ๋ค. ํนํ, Precision-Coverage ๊ณก์ ์ AUC(Area Under Curve) ์งํ์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ค. ๋ํ, ๋ถ๋ถ/๋จ์ผ ์์ ์ ๊ตฌ๋ฆ๊ณผ ์ ์ฒด ์ ๊ตฌ๋ฆ์ ๋ชจ๋ ์ผ๋ฐํํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ํผํฉ ํ๋ จํ๋ ์ ๊ทผ ๋ฐฉ์์ ํจ๊ณผ๋ฅผ ์ ์ฆํ๋ค. ์จ-์ ๋๋ ์ดํฐ ํ๋ จ์ ์ค์์ฑ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๊ณผ์ EMD(Earth Moverโs Distance) ๋ถ์์ ํตํด ํ์ฐ ๋ชจ๋ธ ์์ฑ ๊ทธ๋ฆฝ ๋ถํฌ์์ ์ฐจ์ด๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ์๊ณ , ์ด๋ก ์ธํด ํ๋ณ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ํ์ธํ๋ค. ๋ค์ํ ๊ทธ๋ฆฌํผ(Franka, Robotiq-2F-140, ์ง๊ณต)์ ๊ฑธ์ณ GraspGen์ ์ฐ์์ฑ์ ์ ์ฆํ์ผ๋ฉฐ, ํนํ ์ ์ํ ๊ทธ๋ฆฌํผ์ธ Robotiq-2F-140์์๋ ๊ธฐ์กด ์ ์ด์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค.
- ์ค์ ๋ก๋ด ํ๊ฐ์์๋ UR10 ํ๊ณผ RealSense D435 ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฉ๋ฆฌ๋ ๊ฐ์ฒด๋ฟ๋ง ์๋๋ผ ํ ์ด๋ธ, ๋ฐ๊ตฌ๋, ์ ๋ฐ ๋ฑ ๋ค์ํ ํด๋ฌํฐ ํ๊ฒฝ์์ M2T2 ๋ฐ AnyGrasp ๋๋น ์๋ฑํ ๋์ ๊ทธ๋ฆฝ ์ฑ๊ณต๋ฅ (81.3%)์ ๋ฌ์ฑํ์ฌ ์ค์ ํ๊ฒฝ์ผ๋ก์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ๋ค.
GraspGen์ ์ฌ์ธต ์ผ์ฑ ๋ฐ ์ธ์คํด์ค ๋ถํ ํ์ง์ ์์กดํ๋ฉฐ, ํน์ ๊ธฐํํ์ ํํ(์: ํ๋ณด์ด๋)์ ๋ํ ๊ทธ๋ฆฝ ์์ธก์ ์ด๋ ค์์ ๊ฒช๋ ํ๊ณ์ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ํ๋ จ์ ์๋นํ ๊ณ์ฐ ์์(์ฝ 3K GPU ์๊ฐ)์ด ์์๋๋ค๋ ์ ์ ์ธ๊ธํ๋ค.
2 Detail Review
GraspGen: On-Generator ํ๋ จ์ ์ ์ฉํ 6-์์ ๋ ํ์ง์ฉ ํ์ฐ ๊ธฐ๋ฐ ํ๋ ์์ํฌ โ ์ฌ์ธต ๋ฆฌ๋ทฐ
2.1 Introduction
๋ก๋ด์ 6-์์ ๋ ํ์ง(Grasping) ๋ฌธ์ ๋ ์ต๊ทผ ๋ง์ ๋ฐ์ ์ด ์์์ง๋ง, ์ผ๋ฐ์ ์ธ ๋ก๋ด ํ์ง ์์คํ ์ ๊ตฌ์ถํ๊ธฐ์๋ ์ฌ์ ํ ์ด๋ ค์์ด ๋จ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์ต์ ๋ฒค์น๋งํฌ์ธ FetchBench์์ ํ์ฌ ์ต์ฒจ๋จ(SoTA) ๊ธฐ๋ฒ์กฐ์ฐจ๋ 20% ๋ฏธ๋ง์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, ์ง์ ๊ธฐ๋ฐ ๋ชจ๋ฐ์ผ ์กฐ์ ์์คํ ์ธ OK-Robot์ ๊ฒฝ์ฐ ํ์ง ๋ชจ๋ ์คํจ๋ง์ผ๋ก๋ ์ฝ 8%์ ์์ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์๋ค. ์ด๋ ๋ค์ํ ๋ก๋ด ํํ๋ ๋ณต์กํ ์ค์ ํ๊ฒฝ์์ ํ์ง ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ณ๊ฐ ์์์ ๋ณด์ฌ์ค๋ค. ๊ธฐ์กด์ ํ์ง ๊ธฐ๋ฒ๋ค์ ์ ๋ฐํ ๋ฌผ์ฒด ์์ธ ์ ๋ณด๋ฅผ ํ์๋ก ํ๊ฑฐ๋, ๋จ์ผ ๋ฌผ์ฒด์ ๋ํด ๋ค์ค ๋ทฐ ์ค์บ์ ์๊ตฌํ์ฌ ๋ณต์กํ ํ๊ฒฝ์๋ ์ ์ฉํ๊ธฐ ์ด๋ ต๊ณ , ํน์ ์ ์ด์ ๊ธฐ๋ฐ(contact-point-based) ํํ์ ์์กดํจ์ผ๋ก์จ ๊ทธ๋ฆฌํผ(๋ง๋จ์๋๊ธฐ)์ ํํ๊ฐ ๋ฌ๋ผ์ง๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ ๋ฌธ์ ๊ฐ ์์๋ค. ํนํ ์ ์ด์ ๊ธฐ๋ฐ ํ์ง ๋ชจ๋ธ๋ค์ ๋์นญ์ ์ธ ํํ ๊ทธ๋ฆฌํผ ์ด์ธ์ ๋ค๋ฅธ ํํ๋ก ์ผ๋ฐํํ๊ธฐ ์ด๋ ต๊ณ , ์์ธกํ ๊ทธ๋ฆฝ์ ์ ์ํ๋ฅผ ์ ํํ ์ํํ๋ ๋ฐ์๋ ํ๊ณ๋ฅผ ๋ณด์๋ค. ์ผ๋ถ ์ฐ๊ตฌ์์๋ ๋ณต์กํ ์ ์ฌ ํ๊ฒฝ(clutter)์์ ์ฌ๋ฌ ๋ฌผ์ฒด์ ๋ํด ํ์ง๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ์ ์ํ์์ผ๋, ์ด๋ฌํ ํ๊ฒฝ ์ค์ฌ(scene-centric) ์ ๊ทผ์ ์ ์ฒด Scene์ ์๋ฎฌ๋ ์ด์ ํ๊ฑฐ๋ ๋๊ท๋ชจ์ ์ค์ ๋ฐ์ดํฐ ์์ง์ด ํ์ํด ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ฉฐ, ํ ์คํธ ์ ํ์ค ์ธ๊ณ ๋ถํฌ์์ ๊ดด๋ฆฌ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ๋์ฑ์ด ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค๋ ๊ถ๊ทน์ ์ผ๋ก๋ ์ธ์คํด์ค ์ธ๊ทธ๋ฉํ ์ด์ ๊ณผ ๊ฒฐํฉํ์ฌ ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ์ง์ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ฏ๋ก, ์ต๊ทผ SAM ๋ฑ์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ถํ ๊ธฐ๋ฒ์ ๋ฐ์ ์ผ๋ก ๋ฌผ์ฒด ์ค์ฌ(object-centric) ์ ๊ทผ์ผ๋ก ํ๊ทํ์ฌ ํ์ง ์์ฑ์ ๋จ์ํํ ์ ์๋ค๋ ๋ ผ์๊ฐ ์ ๊ธฐ๋๊ณ ์๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์, ๋ณธ ๋ฆฌ๋ทฐ์ ๋์์ธ GraspGen์ ํ์ฐ ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ๊ณผ ํจ์จ์ ์ธ Discriminator(discriminator)๋ฅผ ๊ฒฐํฉํ ์๋ก์ด 6-์์ ๋ ํ์ง ํ๋ ์์ํฌ๋ก์, ๊ธฐ์กด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํ๋ค. ์ด ์ฐ๊ตฌ์ ํต์ฌ ๊ธฐ์ฌ๋ ๋ ๊ฐ์ง๋ก ์์ฝ๋๋ค:
๋ค์ํ ์กฐ๊ฑด์ ๋ํ ์ ์ฐํ ํ์ง ์์ฑ: GraspGen์ ํ๋์ ํตํฉ๋ Diffusion-Transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ก ์ฌ๋ฌ ํํ์ ๊ทธ๋ฆฌํผ(ํํ ๊ทธ๋ฆฌํผ ๋ ์ข ๋ฅ์ ํก์ฐฉ ํจ๋)์ ๋ค์ํ ๊ด์ธก ํ๊ฒฝ(๋ถ๋ถ point cloud vs. ์์ point cloud), Scene ๋ณต์ก๋(๋จ์ผ ๋ฌผ์ฒด vs. ๋ณต์กํ ์ ์ฌ ํ๊ฒฝ), ์๋ฎฌ๋ ์ด์ vs. ์ค์ ๋ฑ ๋ค์ํ ์ค์ ์ ๊ฑธ์ณ ํ์ฅ์ฑ์ ๋ณด์ด๋ ํ์ง ์์ฑ ์์คํ ์ ๊ตฌํํ์๋ค. ์ด๋ ํ์กด ํ์ง ์์คํ ์ ์ ์ฐ์ฑ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ ๊ฒ์ด๋ค.
On-Generator ํ๋ จ์ ํตํ Discriminator ๊ฐ์ : ๊ธฐ์กด 6-์์ ๋ ํ์ง Discriminator๋ค์ ์ฌ์ ์์ง๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก๋ง ํ์ต๋์์ผ๋, GraspGen์ ์์ฑ๊ธฐ๊ฐ ๋ง๋ค์ด๋ธ ์ํ ๋ถํฌ๋ฅผ ์ง์ ํ์ฉํ์ฌ Discriminator๋ฅผ ํ๋ จ์ํค๋ On-Generator ํ๋ จ ๋ฐฉ๋ฒ์ ๋์ ํ์๋ค. ์ด๋ฅผ ํตํด Discriminator๊ฐ ์์ฑ ๋ชจ๋ธ์ด ๋ฒํ๋ ์ค๋ฅ ํจํด์ ์ธ์งํ๊ณ ์ ์ฌ์ ๊ฑฐ์ง ์์ฑ(false positive) ํ์ง ํ๋ณด์ ๋ฎ์ ์ ์๋ฅผ ๋ถ์ฌํ๋๋ก ํ์ต๋จ์ผ๋ก์จ, ์ค์ง ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก๋ง ํ์ต๋ ํ์ค Discriminator์ ๋นํด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ๋ณด์๋ค. ๋ค์ ๋งํด, GraspGen์ Discriminator๋ ํ์ฐ ์์ฑ ๋ชจ๋ธ์ ๊ณ ์ง์ ์ค์(์: ๋ฌผ์ฒด์ ๋ฏธ์ธ ์ถฉ๋ํ๊ฑฐ๋ ๋ฌผ์ฒด์์ ๋ฉ๋ฆฌ ๋จ์ด์ง ๋ถ์ ์ ํ ํ์ง ์์ธ)๋ฅผ ๊ฑธ๋ฌ๋ด๋ ๋ฅ๋ ฅ์ด ํฅ์๋์๋ค.
์ถ๊ฐ์ ์ผ๋ก ์ ์๋ค์ GraspGen์ ๋ค์ํ ์ค๊ณ ์ ํ(ํ๋ จ ๋ ์ํผ๋ถํฐ ์ํคํ ์ฒ ๊ฐ์ ๊น์ง)์ด ์ด์ ์ฐ๊ตฌ ๋๋น ์ฑ๋ฅ์ ํฅ์์ํด์ ์ ์ฆํ๊ณ ์์ผ๋ฉฐ, ์ถ๋ก ์๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฉด์์๋ ๊ฐ์ ์ ๋ฌ์ฑํ์์ ๋ณด๊ณ ํ์๋ค. ๋ํ 5,300๋ง ๊ฐ ์ด์์ ํ์ง ์ฌ๋ก๋ก ๊ตฌ์ฑ๋ ์๋ก์ด ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ฌ, ๋ณธ ๋ถ์ผ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์์์ ์ ๊ณตํ๊ณ GraspGen์ ๊ฐ์ฒด/๊ทธ๋ฆฌํผ ํ์ฅ์ฑ์ ๋ท๋ฐ์นจํ์๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ ์ด ๋ ผ๋ฌธ์ ๋๊ธฐ์ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ์ดํด๋ณด๊ณ , GraspGen ํ๋ ์์ํฌ์ ์ ์ฒด์ ์ธ ๊ตฌ์ฑ๊ณผ ํ์ฐ ๊ธฐ๋ฐ ํ์ง ์์ฑ ์ํคํ ์ฒ์ ์ค๊ณ ๋ฐ ์ฐธ์ ์ฑ, On-Generator ํ๋ จ ์ ๋ต์ ๊ตฌ์ฒด์ ๋ฐฉ๋ฒ๊ณผ ํจ๊ณผ๋ฅผ ๋ถ์ํ๋ค. ์ด์ด์ ์คํ ๊ตฌ์ฑ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์น์ ๋ณ๋ก ์์ธํ ๊ฒํ ํ๊ณ , ์ฑ๋ฅ์์ ์ฐ์์ ํ๊ณ์ ์ ๋นํ์ ์ผ๋ก ๋ ผ์ํ๋ค. ๋ง์ง๋ง์ผ๋ก ์ด๋ฌํ ๊ณ ์ฐฐ์ ๋ฐํ์ผ๋ก ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํด ์ ์ธํ๋ค.
2.3 GraspGen ํ๋ ์์ํฌ (Proposed Method)
GraspGen์ ํ์ง ํ๋ณด ์์ฑ๊ณผ ํ์ง ํ๊ฐ์ ๋ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ ๋ชจ๋์ ํ๋ ์์ํฌ์ด๋ค. ์ ์๋ ํ์ฐ ๋ชจ๋ธ์ ๊ธฐ๋ฐํ ์์ฑ๊ธฐ(generator)๊ฐ ๋งก๊ณ , ํ์๋ ๋ณ๋๋ก ํ์ต๋ Discriminator(discriminator)๊ฐ ๋ด๋นํ๋ค. ์์ฑ๊ธฐ์ Discriminator๋ ๋ชจ๋ ๋ฌผ์ฒด ์ค์ฌ์ point cloud ์ ๋ ฅ์ ์กฐ๊ฑด๋ถ๋ก ๋์ํ๋ฉฐ, ๋ ๋ชจ๋ ๋ชจ๋์ Transformer ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ฅผ ํ์ฉํ ๊ฒ์ด ํน์ง์ด๋ค. ์ดํ์์๋ ๋จผ์ ํ์ฐ ๊ธฐ๋ฐ ํ์ง ์์ฑ๊ธฐ์ ์ค๊ณ์ ํ์ต ๋ฐฉ์์ ์ดํด๋ณด๊ณ , ์ด์ด์ On-Generator ํ๋ จ ๊ธฐ๋ฒ์ ์ ์ฉํ Discriminator์ ๊ตฌ์กฐ์ ํ๋ จ๋ฒ์ ์ค๋ช ํ๋ค. ๋ง์ง๋ง์ผ๋ก GraspGen์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ์ ๋ํด ์ธ๊ธํ๋ค.
2.3.1 Grasp Generation with Diffusion
GraspGen์ ํต์ฌ์ SE(3) ๊ณต๊ฐ์์์ 6-์์ ๋ ํ์ง ๋ถํฌ๋ฅผ ํ์ฐ ๋ชจ๋ธ๋ก ํ์ตํ๋ ๊ฒ์ด๋ค. ๊ฐ ๋ฌผ์ฒด์ ๋ํด ์ฑ๊ณต ๊ฐ๋ฅํ ํ์ง ์์ธ๋ ์ฐ์์ ์ด๋ฉด์๋ ๊ณ ๋๋ก ๋ค์ค๋ชจ๋(multimodal) ๋ถํฌ๋ฅผ ์ด๋ฃจ๋ฏ๋ก, ์ด๋ฅผ ๋ฐ์ดํฐ ์ฃผ๋์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๋ฐ ํ์ฐ ๊ธฐ๋ฐ ์ ๊ทผ์ด ์ ํฉํ๋ค. ํ์ฐ ๋ชจ๋ธ์์๋ ํ์ต ์ ์ ๋ต ๋ฐ์ดํฐ์ ์ ์ฐจ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ๊ณ , ์ถ๋ก ์๋ ๋ฐ๋๋ก ๋ ธ์ด์ฆ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค. Urain ๋ฑ(2023)์ 6-DoF ํ์ง๋ฅผ ์๋์ง ๊ธฐ๋ฐ ๋ชจ๋ธ(EBM)๋ก ์ ์ํํ์ฌ score-matching Langevin dynamics ๋ฐฉ์์ ํ์ฐ์ ๊ตฌํํ์์ผ๋, ์ด ์ ๊ทผ์ ์ถ๋ก ์ ๋งค ๋จ๊ณ๋ง๋ค EBM์ ๋ก๊ทธ-๋ฐ๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ๋งค์ฐ ๋๋ฆฌ๋ค๋ ๋จ์ ์ด ์๋ค. GraspGen์ ๋์ DDPM(Denoising Diffusion Probabilistic Model) ๋ฐฉ์์ ์ฑํํ์ฌ, ๋ฐ๋ณต์ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ก ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ค. DDPM์ ๊ตฌํ์ด ๊ฐ๋จํ๊ณ ๊ณ์ฐ ํจ์จ์ด ๋์ ํ์ง ๋ฌธ์ ์ ๋ ์ ํฉํ๋ฉฐ, ์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด EBM ๊ธฐ๋ฐ SMLD์ DDPM ์ฌ์ด์ ์ด๋ก ์ ๋๋ฑ์ฑ์ด ์ฑ๋ฆฝํจ์ด ์๋ ค์ ธ ์๋ค.
ํ ๊ฐ์ง ๋ฌธ์ ๋ SE(3) ๊ณต๊ฐ ์ค ํ์ ๊ณต๊ฐ(SO(3))์ด ์ ํด๋ฆฌ๋ ๊ณต๊ฐ์ด ์๋๋ผ๋ ์ ์ธ๋ฐ, GraspGen์ Urain ๋ฑ์ ์ ํ ์ฐ๊ตฌ์ ์ ์ฌํ๊ฒ SE(3)์ translation(ํํ์ด๋) ๋ถ๋ถ๊ณผ ํ์ ๋ถ๋ถ์ผ๋ก ๋ถ๋ฆฌ(factorize)ํ์ฌ ๋ค๋ฃฌ๋ค. SO(3)๋ ํน์ํ ๋ฆฌ ๊ตฐ ๊ณต๊ฐ์ด์ง๋ง, ์ด๋ฅผ ์ ์ ํ ํํ(์: ํ์ ํ๋ ฌ ๋๋ ๋ฆฌ ๋์ ๋ฑ)์ผ๋ก ๋ณํํ๋ฉด ์ฌ์ค์ ์ ํด๋ฆฌ๋ ๊ณต๊ฐ์ฒ๋ผ ์ทจ๊ธํ ์ ์๋ค. GraspGen์ translation ๋ฒกํฐ(3์ฐจ์)์ ํ์ ํํ(3์ฐจ์; ์: Lie algebra)๋ก ๊ทธ๋ฆฝ์ ํํํ๊ณ , ์ด๋ค ๊ฐ๊ฐ์ ๋ณ๋์ ํ์ฐ ํ๋ก์ธ์ค๋ฅผ ์ ์ฉํ์๋ค. ํ๋์ DDPM์ผ๋ก translation+ํ์ ์ ๋์์ ์์ฑํ๋ ๊ฒ๋ณด๋ค ๋ ๊ฐ์ ํ๋ก์ธ์ค๋ก ๋ถ๋ฆฌํ์ฌ ๋ณํ ์์ฑํ๋ ํธ์ด ์ฑ๋ฅ์ด ๋ ์ฐ์ํ๋๋ฐ, ์ ์๋ค์ ์ด๋ ๊ฒ ๋ถํ ํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ๊ฐ ๋ถ๋ถ์ ๋ณด๋ค ํนํ๋ ํ์ต์ ํ ์ ์์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์ํ๋ค. ๋ํ ํ์ง์ ์ด ์ฐจ์์ด 6์ผ๋ก ๋น๊ต์ ๋ฎ๊ธฐ ๋๋ฌธ์, ์ด๋ฏธ์ง ์์ฑ์ ํํ ์ฐ์ด๋ 100ํ ์ด์์ ํ์ฐ ๋จ๊ณ ๋์ 20ํ ๋ฏธ๋ง์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์คํ ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค๊ณ ๋ณด๊ณ ํ๋ค. (์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ํฝ์ ์ฐจ์์ด ์๋ง ์ด์์ด๋ฏ๋ก ํจ์ฌ ๋ณต์กํ ๋ฐ๋ฉด, ํ์ง ์์ธ๋ 6์ฐจ์์ ๋น๊ต์ ๊ฐ๋จํ ์ถ๋ ฅ์ด๋ผ๋ ์ ์ ๊ณ ๋ คํ ๊ฒ์ด๋ค.)
ํ์ฐ ๋ชจ๋ธ ํ์ต ์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ค์ผ์ผ ์ ๊ทํ๋ ์ค์ํ ์ด์์ด๋ค. ํนํ translation ์ฑ๋ถ์ ๊ฒฝ์ฐ ๋ฌผ์ฒด ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ฐ์ ๋ฒ์๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์๋ค. GraspGen์ ํ์ต ๋ฐ์ดํฐ์ ํต๊ณ์น๋ฅผ ์ด์ฉํ์ฌ translation ๋ฒกํฐ๋ฅผ ์ ๊ทํํ์๋๋ฐ, ๋ชจ๋ ํ์ต ๋ฐ์ดํฐ(์ฑ๊ณต ํ์ง๋ค์ translation ์ฑ๋ถ)๋ฅผ ๋ชจ์ ๋ค ๊ทธ ํ์คํธ์ฐจ์ ํด๋นํ๋ ๊ฐ์ ์ค์ผ์ผ ์ธ์๋ก ์ฑํํ์๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ณ๋ ๊ทธ๋ฆฌ๋ ํ์ ์์ด ์๋์ผ๋ก ์ ์ ํ ์ ๊ทํ ๊ณ์๋ฅผ ์ค์ ํ ์ ์์ผ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ์ด ๊ฐ์ด ์ฑ๋ฅ ์ธก๋ฉด์์ ํฉ๋ฆฌ์ ์ธ ๊ตญ์ ์ต์ ์ญํ ์ ํจ์ ํ์ธํ์๋ค. ์๋ฅผ ๋ค์ด Franka ๊ทธ๋ฆฌํผ์ ๊ฒฝ์ฐ ์ฝ 3.27์ ์ค์ผ์ผ ์ธ์๋ฅผ ์ฌ์ฉํ์๋ค. ํํธ ํ์ ์ฑ๋ถ์ ์ด๋ฏธ ์ ํ๋ ๋ฒ์๋ฅผ ๊ฐ์ง๋ฏ๋ก (์: 6D ํ์ ํํ์ ๊ฒฝ์ฐ ํ์ ๋ ๊ณต๊ฐ), ์ถ๊ฐ ์ ๊ทํ๊ฐ ํ์ ์๋ค.
GraspGen์ ํ์ฐ ๋ชจ๋ธ ๋คํธ์ํฌ๋ Transformer ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์ฐ์ ๋ฌผ์ฒด์ point cloud์ ์ต์ ๊ตฌ์กฐ์ธ PointTransformerV3 (PTv3)๋ก ์๋ฒ ๋ฉ๋๋ค. ์ด์ ๊น์ง์ ์์ฑ์ ํ์ง ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก PointNet++์ ๊ฐ์ PointNet ๊ณ์ด ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ผ๋, GraspGen์ ์ฒ์์ผ๋ก ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ point cloud ์ธ์ฝ๋๋ฅผ ๋์ ํ์๋ค. PTv3๋ ๋น์ ํ point cloud์ ์ผ๋ จ์ ํ ํฐ(์ํ์ค)์ผ๋ก ๋ณํํ ํ self-attention์ ์ ์ฉํ๋ ๋ฐฉ์์ผ๋ก, ๊ธฐ์กด PointNet++์ ๋ณต์กํ ์ด์ ํ์ ์ฐ์ฐ์ ํผํ๋ฉด์๋ ๋์ ํํ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ์ต์ฒจ๋จ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ ๊ฒ ์ป์ ๋ฌผ์ฒด ์๋ฒ ๋ฉ ํ ํฐ๊ณผ, ๊ทธ๋ฆฝ์ ํ์ฌ ๋ ธ์ด์ฆ ์ํ(ํน์ ์๊ฐ step) ๋ฑ์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ๊ฐ ๊ตฌ์ฑ๋๋ค. ํด๋น ๋คํธ์ํฌ๋ Diffusion-Transformer ์ํคํ ์ฒ๋ผ ๋ถ๋ฆฌ๋ฉฐ, ์๊ฐ ์คํ ์ธ๋ฑ์ค t๋ ์ฌ์ธ-์ฝ์ฌ์ธ ์์น ์ธ์ฝ๋ฉ์ผ๋ก ์๋ฒ ๋ฉ๋๊ณ ๊ทธ๋ฆฝ ํฌ์ฆ๋ MLP๋ฅผ ํตํด ๋ณํ๋ ํ Transformer์ ์ ๋ ฅ๋๋ค.
ํ์ต ์์๋ ์์์ ์คํ t๋ฅผ ์ ํํ์ฌ ํ์ฌ์ ๊ทธ๋ฆฝ ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ฅผ ์์ ํ, ๋คํธ์ํฌ๊ฐ ์ฃผ์ ๋ ๋ ธ์ด์ฆ๋ฅผ ๋ง์ถ๋๋ก ํ์ตํ๋ค (denoising loss). ๋ณด๋ค ๊ตฌ์ฒด์ ์ผ๋ก, ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ f_\theta๊ฐ ๋ฌผ์ฒด point cloud P์ ์กฐ๊ฑด๋ถ๋ก ์ฃผ์ด์ง๋ค๊ณ ํ ๋, ์์คํจ์๋ ์ค์ ๋ ธ์ด์ฆ \epsilon๊ณผ ์์ธก ๋ ธ์ด์ฆ \hat{\epsilon}=f_\theta(P, t, \text{noisy grasp}) ์ฌ์ด์ ์ฐจ์ด(ํ๊ท ์ ๊ณฑ์ค์ฐจ)๋ก ์ ์๋๋ค.
์ด๋ ๊ฒ ํ๋ จ๋ ์์ฑ๊ธฐ๋ ์ถ๋ก ์ ์๋ก์ด point cloud P์ ๋ํด ๋๋ค ๋ ธ์ด์ฆ๋ก ์ด๊ธฐํ๋ ๊ทธ๋ฆฝ ํฌ์ฆ๋ค์ ์ ์ง์ ์ผ๋ก denoisingํ์ฌ ๋ค์ํ ํ์ง ํ๋ณด๋ค์ ๋ง๋ค์ด๋ธ๋ค. GraspGen์์๋ ์ด๋ฌํ ์์ฑ ๊ณผ์ ์์ ๋ฌผ์ฒด point cloud๊ณผ ๊ทธ๋ฆฝ ์ขํ๊ณ๋ฅผ ๋ฌผ์ฒด์ ์ค์ฌ์ผ๋ก ์ ๊ทํ(ํํ์ด๋)ํ์ฌ ์ ๋ ฅํจ์ผ๋ก์จ, ์ขํ๊ณ ์ค์ ์ ๋ฐ๋ฅธ ํผ๋์ ์ค์๋ค. ์ต์ข ์ ์ผ๋ก ์์ฑ๋ ๋ค์์ ํ์ง ํ๋ณด๋ค์ ๋ค์ ๋จ๊ณ์ธ Discriminator๋ก ๋์ด๊ฐ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ ์ ์๋ฅผ ๋ถ์ฌ๋ฐ๊ฒ ๋๋ค.
2.3.2 Grasp Evaluation with On-Generator Training
์์ฑ ๋ชจ๋ธ๋ง์ผ๋ก ํ์ง ํ๋ณด๋ฅผ ์์ฑํ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ๊ทผ์ฌ ์ค๋ฅ๋ก ์ธํด ํ์ค์ ์ผ๋ก๋ ์ฑ๊ณต ํ๋ฅ ์ด ๋ฎ์ ๊ฑฐ์ง ์์ฑ ํ์ง(False Positive Grasp)๋ค๋ ์๋น์ ํฌํจ๋ ์ ์๋ค. ์์ปจ๋, ๊ทธ๋ฆฝ์ด ์ด์ง ๋ฌผ์ฒด๋ฅผ ๊ดํตํ๊ฑฐ๋ ๋ฌผ์ฒด์์ ์๋นํ ๋จ์ด์ง ์์น๋ก ์์ฑ๋๋ ๋ฑ, ๋ฐ์ดํฐ ๋ถํฌ์ ๋๋ฌธ ์์ญ์์ ๋์จ ๋ถ์ ์ ํ ๊ทธ๋ฆฝ๋ค์ด ์์ ์ ์๋ค. ๋ฐ๋ผ์ ์ต์ข ๋ก๋ด ์คํ ์ ์ ์ด๋ฌํ ํ๋ณด๋ค์ ๊ฑธ๋ฌ๋ผ ํ๊ฐ ๋ฉ์ปค๋์ฆ์ด ํ์์ ์ด๋ฉฐ, ๋ง์ ์ ํ ์ฐ๊ตฌ๊ฐ ๋ณ๋์ ํ์ต๋ Discriminator๋ก ๊ฐ ํ์ง์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ์ ์ํํ์ฌ ์์ ๋ช ๊ฐ๋ฅผ ์ ํํ๋ ๋ฐฉ์์ ์ฌ์ฉํด์๋ค. GraspGen ์ญ์ Discriminator๋ฅผ ํ์ฉํ๋, ๋ ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ ์ ๋์ ํ์ฌ ๊ธฐ์กด ์ ๊ทผ์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํ๋ค.
2.3.2.1 On-Generator Training
์ฒซ์งธ๋ ์์ ๊ฐ์กฐํ On-Generator ํ๋ จ ๊ธฐ๋ฒ์ด๋ค. ๊ธฐ์กด์ ์๋ฎฌ๋ ์ด์ -ํ์ค(Sim-to-real) ํ์ง ํ์ต์์๋ ์ฑ๊ณต/์คํจ๋ก ๋ผ๋ฒจ๋ง๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๋ง์ผ๋ก Discriminator๋ฅผ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฌ๋ ์ ์๋ค์ ์์ฑ๊ธฐ๊ฐ ๋ง๋ค์ด๋ด๋ ํ์ง ๋ถํฌ๊ฐ ์ด ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋ถํฌ์ ๋ค๋ฅด๋ค๋ ์ ์ ์ฃผ๋ชฉํ์๋ค. ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์คํจ ์ฌ๋ก๋ ์ฃผ๋ก ๋ฌผ์ฒด์ ์ ํ ์ ์ดํ์ง ๋ชปํ ๊ทธ๋ฆฝ(์: ์ถฉ๋ ์์ด ํ๊ณต์ ์ง๋ ๊ทธ๋ฆฝ)์ด๊ฑฐ๋ ์์ฃผ ์๋ฑํ ์์น์ ๊ทธ๋ฆฝ๋ค๋ก ์ด๋ฃจ์ด์ง์ง๋ง, ํ์ฐ ์์ฑ๊ธฐ๊ฐ ๋ง๋ค์ด๋ด๋ ๊ทธ๋ฆฝ ์ค์๋ ๋ฌผ์ฒด๋ฅผ ์ด์ง ๊ดํตํ๋ ๋ฑ ๋ฏธ์ธํ ์ถฉ๋์ ์ผ์ผํค๋ ๊ฒฝ์ฐ๊ฐ ์๋ค. ๋ํ ์์ฑ ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ ๊ผฌ๋ฆฌ์ ํด๋นํ๋ ์ด์์น(outlier) ๊ทธ๋ฆฝโ์๋ฅผ ๋ค๋ฉด ๋ฌผ์ฒด์์ ๋น์ ์์ ์ผ๋ก ๋ฉ๋ฆฌ ๋จ์ด์ง ๊ทธ๋ฆฝโ๋ ๋ํ๋ ์ ์๋ค. ์ด๋ฌํ ์ฌ๋ก๋ค์ ๊ธฐ์กด ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์คํจ ๋ฒ์ฃผ์๋ ๊ฑฐ์ ํฌํจ๋์ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค (์: ACRONYM ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ ์ถฉ๋ํ๋ ์คํจ ๊ทธ๋ฆฝ์ ์์ ์์ฑํ์ง ์์๋ค ๋ณด๊ณ ๋จ). ๋ฐ๋ผ์ ์์ฑ ๋ชจ๋ธ์ ๊ณ ์ ํ ์๋ฌ ๋ชจ๋๋ฅผ Discriminator๊ฐ ํ์ตํ๋ ค๋ฉด, ์์ฑ๊ธฐ ์ฐ์ถ๋ฌผ์ ํ์ฉํ ๋ณ๋ ํ์ต์ด ํ์ํ๋ค๋ ๊ฒ์ด ์ ์๋ค์ ๊ฐ์ค์๋ค.
์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํด, GraspGen์ Algorithm 1๋ก ์ ์๋ ์ ์ฐจ์ ๋ฐ๋ผ On-Generator ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ Discriminator๋ฅผ ํ์ต์์ผฐ๋ค.

๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ์ ํ์ต์ ์ฌ์ฉ๋ ๋ชจ๋ ํ๋ จ ๊ฐ์ฒด ์ฝ 7์ฒ ๊ฐ์ ๋ํด ์์ฑ๊ธฐ ๋ชจ๋ธ์ ๋๊ฒฐํ ์ฑ ์ถฉ๋ถํ ์์ ํ์ง ํ๋ณด๋ฅผ ์์ฑํ๋ค. ๊ฐ ๊ฐ์ฒด๋ง๋ค ์ฝ 2์ฒ ๊ฐ์ฉ, ์ด 1,400๋ง ๊ฐ ๊ฐ๋์ ํ์ง ์ํ์ ์ป์์ผ๋ฉฐ, ์ด๋ ์ด๊ธฐ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ (์ฑ๊ณต/์คํจ ๋ผ๋ฒจ์ด ์๋ ํ์ง ๋ฐ์ดํฐ)์ ๊ท๋ชจ์ ๋น์ทํ ์์ด๋ค. ๋ค์์ผ๋ก ์ด ์์ฑ๋ ํ์ง๋ค์ ๋ํด, ์คํ๋ผ์ธ ๋ฐ์ดํฐ ์์ฑ ๋์ ๋์ผํ ์๋ฎฌ๋ ์ด์ ์ ์ฐจ(์: ๊ทธ๋ฆฝ ํ ํ๋ค์ด์ ์ ์ง๋๋์ง ํ์ธํ๋ ํ ์คํธ)๋ฅผ ๊ฑฐ์ณ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๋ผ๋ฒจ๋งํ๋ค. ์ด๋ ๊ฒ ์ป์ On-Generator ๋ฐ์ดํฐ์ (์์ฑ๊ธฐ ์ถ๋ ฅ์ ๋ํ ์๋ฎฌ๋ ์ด์ ๋ผ๋ฒจ)์ ์์ฑ๊ธฐ์ ์ค๋ฅ ํจํด์ด ๋ฐ์๋ ์คํจ ์ฌ๋ก๋ค์ ๋ค์ ํฌํจํ๊ณ ์์ผ๋ฏ๋ก, ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด Discriminator๋ฅผ ํ์ต์ํค๋ฉด ์์ฑ๊ธฐ์ ๋์ผ ๋ถํฌ์์์ ํ๋ณ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ผ ์ ์๋ค. ์ค์ ๋ก ์ ์๋ค์ ๋ถ์์ ๋ฐ๋ฅด๋ฉด, ์ค์ง ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ ๋๋น On-Generator ๋ฐ์ดํฐ๋ก ํ์ตํ Discriminator๊ฐ ํ์ ํ ๋์ AUC๋ฅผ ๊ธฐ๋กํ์ฌ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ๋ ๋ถํฌ๋ฅผ ๋ชจ๋ ์์ด์ ํ์ตํ ๊ฒฝ์ฐ ๊ทธ ์ค๊ฐ ์ ๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ์์ปจ๋ ์์ฑ๊ธฐ ์ฐ์ถ๋ฌผ์ ํนํ๋ ํ๋ จ์ด Discriminator์ ๊ฑฐ์ง ์์ฑ ์ธ์ง ๋ฅ๋ ฅ์ ๋น์ฝ์ ์ผ๋ก ํฅ์์์ผฐ์์ ์ ์ ์๋ค. ์ฐธ๊ณ ๋ก, ์ด๋ฌํ ์ ๊ทผ์ ๋น์์ฑ์ ์ ์๋ค์ด ์ ์ํ ๋ถํฌ ๋น๊ต๋ฅผ ํตํด์๋ ํ์ธ๋๋ค. ์ง๊ตฌ ์ด๋ ๊ฑฐ๋ฆฌ(EMD)๋ก ์คํ๋ผ์ธ vs. On-Generator ๋ฐ์ดํฐ์ ๋ถํฌ ์ฐจ์ด๋ฅผ ์ ๋ํํ ๊ฒฐ๊ณผ, ๋ ๋ถํฌ ๊ฐ์ ์๋นํ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ฉฐ ํนํ ์คํจ ๊ทธ๋ฆฝ๋ค์์ ๊ทธ ์ฐจ์ด๊ฐ ํจ์ฌ ํผ์ ๋ณด์๋ค. ์ด๋ ์คํจ ์ฌ๋ก์ ๊ณต๊ฐ์ ๋ถํฌ๊ฐ ์์ฑ๊ธฐ ์ถ๋ ฅ ์ชฝ์ด ๋ ๋๊ฒ ํผ์ ธ์์์ ์๋ฏธํ๋ฉฐ, On-Generator ํ๋ จ์ ํ์์ฑ์ ๋ท๋ฐ์นจํ๋ค.
2.3.2.2 Efficient Distriminator
๋์งธ ๊ฐ์ ์ ์ ํจ์จ์ ์ธ Discriminator ์ํคํ ์ฒ์ด๋ค. ๊ธฐ์กด์ 6-DoF ํ์ง Discriminator๋ ๋ฌผ์ฒด ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ณ๋์ PointNet ๊ธฐ๋ฐ ๋คํธ์ํฌ๋ฅผ ์ฒ์๋ถํฐ ๋ค์ ํ์ต์ํค๋ ๋ฑ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋๋ฐ, GraspGen์ ์์ฑ๊ธฐ ๋จ๊ณ์์ ํ์ตํ ๋ฌผ์ฒด ์๋ฒ ๋ฉ์ ๊ทธ๋๋ก ํ์ฉํจ์ผ๋ก์จ ์ด๋ฌํ ์ค๋ณต์ ์ ๊ฑฐํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ๋จ๊ณ์ PTv3 ๋ฌผ์ฒด ์ธ์ฝ๋๊ฐ ์ถ๋ ฅํ ๋ฌผ์ฒด ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ๊ฐ์ ธ์ค๊ณ , ์ฌ๊ธฐ์ ๋์ํ๋ ๊ทธ๋ฆฝ ์์ธ๋ฅผ ๊ฐ๋จํ ํํ๋ก ํํํ ๋ฒกํฐ๋ฅผ ๋จ์ ์ฐ๊ฒฐ(concatenation)ํ์ฌ MLP Discriminator์ ์ ๋ ฅํ๋ค. ๊ทธ๋ฆฝ ์์ธ์ ํํ์ผ๋ก๋ SO(3)์ ํ์ ๋ถ๋ถ์ ์ขํ๋ก ๋ํ๋ธ ๋ฒกํฐ ๋ฑ์ ์ด์ฉํ๋ค. ์ด๋ Mousavian ๋ฑ(2019)์ GQCN์์ ์ฌ์ฉํ ๊ธฐ๋ฒโ๊ทธ๋ฆฝ์ 6D pose๋ก ๋ฏธ๋ฆฌ ์ ์๋ ๊ทธ๋ฆฌํผ ์ ๋ค์ ๋ณํ์์ผ ๋ฌผ์ฒด point cloud๊ณผ ํจ๊ป PointNet์ ๋ฃ๋ ๋ณต์กํ ๋ฐฉ์โ๋ณด๋ค ํจ์ฌ ๋จ์ํ๋ ์ฒ๋ฆฌ์ด๋ค. ๋๋ถ์ GraspGen์ Discriminator๋ ์ต์ํ์ ์ถ๊ฐ ๋งค๊ฐ๋ณ์์ ์ฐ์ฐ๋ง์ผ๋ก ๋์ํ๋ฉฐ, ๋ฌผ์ฒด ์๋ฒ ๋ฉ ๋ถ๋ถ์ ํ์ต๋ ๊ฒ์ frozenํ์ฌ ์ฐ๊ณ ์ค์ง ๋ง์ง๋ง MLP ๊ณ์ธต๋ง ์ด์ง ๊ต์ฐจ ์ํธ๋กํผ ์์ค๋ก ํ์ตํ๋ฉด ๋๋ค. ์ด๋ฌํ ๊ฒฝ๋ ์ค๊ณ๋ก ์ธํด GraspGen์ Discriminator๋ ๊ธฐ์กด ๋๋น ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ํฌ๊ฒ ์ ๊ฐํ๋ฉด์๋ ์ ํ๋๋ฅผ ๋์๋๋ฐ, ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ์ด์ SoTA Discriminator ๊ตฌ์กฐ์ ๋นํด ์ฝ 6.7 ํฌ์ธํธ ๋์ AUC๋ฅผ ๋ฌ์ฑํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 21% ๊ฐ์์์ผฐ๋ค๊ณ ํ๋ค. ์ด์ฒ๋ผ ๊ฐ๋ฒผ์ด Discriminator๋ ๋ค์์ ํ์ง ํ๋ณด๋ฅผ ๋น ๋ฅด๊ฒ ํ๊ฐํ๋ ๋ฐ ์ ๋ฆฌํ๋ฉฐ, ์ค์ GraspGen ํ๋ ์์ํฌ์ ์ค์๊ฐ ์ถ๋ก ์ฑ๋ฅ(๋ณ๋ ์ต์ ํ ์ ์ฝ 20Hz ์์ค)์๋ ๊ธฐ์ฌํ๋ ๋ถ๋ถ์ด๋ค.
2.3.3 GraspGen Dataset
GraspGen์ ์ฑ๊ณต์ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ฒ ํ์ ๊ณ ์๋ค. ์ ์๋ค์ GraspGen์ ํ์ฅ์ฑ ์๊ฒ ํ์ต์ํค๊ธฐ ์ํด ๋ค์ํ ๋ฌผ์ฒด์ ๊ทธ๋ฆฌํผ๋ฅผ ํฌ๊ดํ๋ ๋ฐฉ๋ํ ์๋ฎฌ๋ ์ด์ ํ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ด 3์ข ์ ๊ทธ๋ฆฌํผ(Franka Panda, Robotiq 2F-140 ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ ๋ ๊ฐ์ง; ์ง๊ฒฝ 30mm์ ์ง๊ณต ํก์ฐฉ ํจ๋) ๊ฐ๊ฐ์ ๋ํด ์ฝ 1,700๋ง ๊ฐ์ฉ์ ํ์ง ์๋ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ฉฐ, ์ด ํฉํ๋ฉด 5,300๋ง์ ์ด๋ฅด๋ ๊ท๋ชจ์ด๋ค.
๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ํด ์ฌ์ฉ๋ ๋ฌผ์ฒด๋ ๋๊ท๋ชจ 3D ์์จํ ๊ฐ์ฒด ๋ชจ์์ธ Objaverse์์ ์ ์ ๋์๋ค. Objaverse๋ ์์ญ๋ง ๊ฐ์ 3D ๋ชจ๋ธ์ ๋ด๊ณ ์๋๋ฐ, ์ด ์ค ์ ์๋ค์ LVIS ๋ฐ์ดํฐ์ ์ 1,156๊ฐ ๋ฒ์ฃผ์ ๊ฒน์น๋ฉด์ ๋ผ์ด์ ์ค๊ฐ CC-BY์ธ 36,366๊ฐ์ ๋ฉ์ฌ๋ฅผ ์ ๋ณํ์๋ค. ์ด ๋ฐฉ๋ํ ๋ฌผ์ฒด ํ(pool)๋ก๋ถํฐ ShapeNetSem ๊ธฐ๋ฐ์ ๊ธฐ์กด ํ์ง ๋ฐ์ดํฐ์ (์: ACRONYM)๋ณด๋ค ๋ ํฌ๊ณ ๋ค์ํ๋ฉฐ ๋ผ์ด์ ์ค ์ ์ฝ์ด ์ ์ ํ์ต ์์์ ํ๋ณดํ์๋ค. ๋ค๋ง ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ์ด ์ค ๋ฌด์์๋ก 8,515๊ฐ์ ๊ฐ์ฒด๋ฅผ ๋ฝ์ ACRONYM๊ณผ ๋์ผํ ๊ท๋ชจ์ ํ์์ ์ ๊ตฌ์ฑํ๊ณ ์ด๋ฅผ ์ผ๋ถ ์คํ์ ํ์ฉํ๊ธฐ๋ ํ๋ค.
๊ฐ ๊ฐ์ฒด์ ๋ํด์๋ ํ๋ฉด ์ฃผ๋ณ์ ๊ณต๊ฐ์์ uniform random๋ก 2,000๊ฐ์ ํ์ง ํ๋ณด(6D ๊ทธ๋ฆฝ ์์ธ)๋ฅผ ์ํ๋งํ ํ, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๋ ์ด๋ธ๋งํ์๋ค. ๋ ์ด๋ธ๋ง ํ์ดํ๋ผ์ธ์ ACRONYM์์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๋์ผํ๊ฒ, NVIDIA Isaac Gym/Sim ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์์ ๊ทธ๋ฆฌํผ๋ก ๋ฌผ์ฒด๋ฅผ ์ฅ ํ ํ๋๋(shaking) ๋์ญํ ํ ์คํธ๋ฅผ ๊ฑฐ์ณ ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง์ง ์์ผ๋ฉด ์ฑ๊ณต์ผ๋ก ํ์ ํ๋ ๋ฐฉ์์ ๋ฐ๋๋ค. ๋ค๋ง ํก์ฐฉ ํจ๋ ๊ทธ๋ฆฌํผ์ ๊ฒฝ์ฐ ํก์ฐฉ ๋ชจ๋ธ ํน์ฑ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ณด๋ค๋ ๋ถ์์ ๋ชจ๋ธ(Mahler ๋ฑ 2018์ ํก์ฐฉ ์ฑ๊ณต ํ์ ๊ณต์)์ ์ฌ์ฉํ์ฌ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ์๋ค.

์ด๋ ๊ฒ ํ์ฌ ํํ ๊ทธ๋ฆฌํผ 2์ข ๊ณผ ํก์ฐฉ ํจ๋ ๊ฐ๊ฐ์ ๋ํด ๋ ๋ฆฝ๋ ํ์ง ๋ฐ์ดํฐ์ ์ ์ป์์ผ๋ฉฐ, GraspGen์ ์ด๋ฅผ ํ์ฉํ์ฌ ๋ค์ค-๊ทธ๋ฆฌํผ์ ๊ณต์ฉ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ ์์ฑ ๋ชจ๋ธ์ ํ์ตํ ์ ์์๋ค. ์ด ์๋ก์ด ๋ฐ์ดํฐ์ ์ ํ ์์ ๊ฐ์ฅ ํฐ ๊ท๋ชจ์ ๊ณต๊ฐ 6-DoF ํ์ง ๋ฐ์ดํฐ์ ์ผ๋ก์, ํฅํ ๋ณด๋ค ๋ณต์กํ ํ์ง ๋ฌธ์ (์: ๋ค์ง ์๊ฐ๋ฝ ๊ทธ๋ฆฌํผ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ ํ๊ฒฝ)๋ก์ ํ์ฅ ์ฐ๊ตฌ์๋ ์ ์ฉํ ์์์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
2.4 Experimental Evaluation
GraspGen์ ์ฑ๋ฅ์ ๋ค์ํ๊ฒ ๊ฒ์ฆ๋์๋ค. ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต ์คํ์ ์ํํ์๊ณ , ๋ณต์กํ ์ ์ฌ ์๋๋ฆฌ์ค ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ ์ธก์ ํ์์ผ๋ฉฐ, ๋ถ๋ถ ๊ด์ธก vs. ์์ ๊ด์ธก ์ํฉ์ ๋ํ ์ผ๋ฐํ ์คํ๋ ์งํํ์๋ค. ์์ธ๋ฌ On-Generator ํ๋ จ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ๊ธฐ ์ํ ์ถ๊ฐ ์คํ๊ณผ, ๋ชจ๋ธ ์ค๊ณ ์์๋ค์ ๋ํ ์ฑ๋ฅ ๊ธฐ์ฌ๋ ๋ถ์(ablation)์ ์ค์ํ์๋ค. ๋ง์ง๋ง์ผ๋ก ์ค์ ๋ก๋ด ์คํ์ ํตํด ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ต๋ GraspGen์ ํ์ค ์ ์ฉ์ฑ์ ํ๊ฐํ์๋ค. ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์์ฐจ์ ์ผ๋ก ์ดํด๋ณธ๋ค.
2.4.1 Simulation Results
์คํ ์ ํ

์ฐ์ ๋จ์ผ ๋ฌผ์ฒด์ ๋ํ 6-DoF ํ์ง ์์ฑ ์ ํ๋๋ฅผ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ์๋ค.
๋น๊ต ๋์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก๋ ์ ์ด์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ธ M2T2 (Yuan ๋ฑ 2023)์ Contact-GraspNet (Sundermeyer ๋ฑ 2021), ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ธ SE3-DiffusionFields (Urain ๋ฑ 2023)์ DexDiffuser (Weng ๋ฑ 2024), ๊ทธ๋ฆฌ๊ณ ๊ฐํํ์ต ๊ธฐ๋ฐ์ AnyGrasp (Fang ๋ฑ 2023)๋ฅผ ํฌํจํ์๋ค. ๋ค๋ง Contact-GraspNet์ ์ด์ ์ฐ๊ตฌ์์ ์ด๋ฏธ M2T2๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์ด ๋ณธ ์ฅ์ ์ฃผ์ ๋น๊ต์์๋ ์ ์ธํ๊ณ , ํ์ ํ๋ ์ถ๊ฐ ์คํ์์ ๋ค๋ฃจ์๋ค๊ณ ํ๋ค. ๋ํ AnyGrasp์ ๊ฒฝ์ฐ ๋ผ์ด์ ์ค ๋ฌธ์ ๋ก ์ธํด ํด๋ฌ์คํฐ ์์ ์๋ฎฌ๋ ์ด์ ์์ ์ง์ ์คํํ์ง ๋ชปํด, ์๋ฎฌ๋ ์ด์ ๋น๊ต์์๋ ๋น ์ง๊ณ ์ถํ ์ค์ ๋ก๋ด ์คํ์์๋ง ๋ค๋ฃจ์๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ ํ์ต ๋ชจ๋ธ์ ์์ ์๊ฐํ ๋์ผํ GraspGen ๋ฐ์ดํฐ์ (Franka-ACRONYM ํ์์ , ์ฝ 8.5k ๊ฐ์ฒด)์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ํ ์คํธ๋ ๊ทธ ์ค 815๊ฐ์ ๋ฏธ์ฌ์ฉ ๊ฐ์ฒด์ ๋ํด ๊ฐ 2,000๊ฐ์ ํ์ง ํ๋ณด๋ฅผ ์์ฑํ์ฌ ์ด 162๋ง ํ์ ์๋ฎฌ๋ ์ด์ ํ์ง ์๋๋ก ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ๋ ๋ฐฉ์์ผ๋ก ์งํ๋์๋ค.
Full Point Cloud of Single Objects

์ด ์คํ์์๋ full point cloud โ ์ฆ ๋ฌผ์ฒด์ 3D ๋ฉ์ฌ๋ฅผ ์ํ๋งํ ์์ ํ point cloud (์ค์ค๋ก ๊ฐ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ์๋ ์ํฉ) โ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ์์ ํ์ง ์์ฑ๊ธฐ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ํ๊ฐ ์งํ๋ก๋ Precision-Coverage ๊ณก์ ์ ์ฌ์ฉํ์๋๋ฐ, Precision์ ํ์ง ์ฑ๊ณต๋ฅ (์ ๋ฐ๋)์ ํด๋นํ๊ณ Coverage๋ ์์ธกํ ๊ทธ๋ฆฝ๋ค์ด ์ค์ ์์ฑ ๊ทธ๋ฆฝ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ํฌ๊ดํ๋์ง ๋ํ๋ด๋ ์งํ๋ก์, ์ผ์ ๊ฑฐ๋ฆฌ ์ด๋ด์ ์์ธก ๊ทธ๋ฆฝ์ด ์กด์ฌํ๋ ์ค์ ์ฑ๊ณต ๊ทธ๋ฆฝ์ ๋น์จ(Recall์ ์ ์ฌํ ๊ฐ๋ )๋ก ์ ์๋๋ค. Coverage๋ ํ์ง ๊ฒฐ๊ณผ์ ๊ณต๊ฐ์ ๋ค์์ฑ์ ๋ํ๋ด๋ ์ฒ๋์ด๋ฉฐ, ๋ ๊ฐ ์ฌ์ด์ AUC (๊ณก์ ์๋ ๋ฉด์ )๊ฐ ๋์์๋ก ์ด์์ ์ด๋ค.
๋น๊ต ๊ฒฐ๊ณผ, GraspGen์ด ๋ชจ๋ ๊ธฐ์ค์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. Precision-Coverage ๊ณก์ ์ AUC ์ธก๋ฉด์์ GraspGen์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ์ํํ์์ผ๋ฉฐ, AUC ๊ธฐ์ค 2์์์ ๊ฒฉ์ฐจ๊ฐ ์๋นํ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์๋ค. ํนํ Discriminator๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ค(GraspGen, DexDiffuser, M2T2)์ด ์์ ์์ฑ ๋ชจ๋ธ์ธ SE3-DiffusionFields๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, Discriminator์ ์ค์์ฑ์ ์ฌํ์ธ์์ผฐ๋ค. ๊ทธ ์ค์์๋ GraspGen์ Discriminator๋ On-Generator ํ๋ จ ๋๋ถ์ DexDiffuser์ Discriminator๋ณด๋ค ์์ฑ๊ธฐ ์ถ๋ ฅ ๋ถํฌ์ ์ ์ ์๋์ด ์์ด, ์์ฑ๋ ๊ทธ๋ฆฝ์ ์์๋งค๊น์ ๋ ์ ํํ ์ํํ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๋ฐ๋ฉด M2T2์ ์ ์ด์ ํ๋ณ ๋ชจ๋์ ์ฑ๊ณต ๊ทธ๋ฆฝ์ ๋ํด์๋ง ํ์ต๋์ด ์ค์ ๋ก๋ ์ข์/๋์ ์ ์ด์ ๊ตฌ๋ณ์ ๊ทธ์น๋ฏ๋ก, ์คํจ ๊ทธ๋ฆฝ์ ๊ฑธ๋ฌ๋ด๋ ๋ฅ๋ ฅ์ด ๋จ์ด์ ธ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ด ๋ฎ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ GraspGen์ ์์ฑ-ํ๊ฐ ๊ฒฐํฉ ์ ๋ต์ ํจ๊ณผ๋ฅผ ์ ์ฆํ๋ ๋์์, ํ์ง ๋ฌธ์ ์์ ์์ฑ ํ์ง๊ณผ ํจ๊ป ํ๊ฐ(์ค์ฝ์ด๋ง) ํ์ง์ด ์ค์ํจ์ ๋ณด์ฌ์ค๋ค.
Task-level Evaluation in Clutter
์ถ๊ฐ๋ก, GraspGen์ FetchBench ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ณต์กํ ์ ์ฌ ํ๊ฒฝ(clutter)์์์ ํ์ง ์ฑ๋ฅ๋ ํ๊ฐ๋์๋ค.

FetchBench (Han ๋ฑ 2024)๋ ๋ค์ํ ๋ฌผ์ฒด๋ค์ด ๋์ธ ํ ์ด๋ธ ํ๊ฒฝ์์ ์ธ์-ํ์ง-๊ฒฝ๋ก๊ณํ-๋ฐฐ์น์ ์ด๋ฅด๋ ์ ์ฒด ํ์ง ํ์ดํ๋ผ์ธ์ ์ข ํฉ ํ๊ฐํ๋ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ์ด๋ค. ์คํ์์๋ Franka Panda ๋ก๋ดํ๊ณผ 100๊ฐ์ ์์ ์์ฑ ์ฅ๋ฉด์ ๋ํด, ๊ฐ ์ฅ๋ฉด๋ง๋ค 60๊ฐ์ ํ์ง-์ด๋ ์์ ์ ์๋ํ์ฌ ์ด 6,000ํ์ grasp-place ์๋๋ฆฌ์ค๋ฅผ ํ๊ฐํ์๋ค. ์ด๋ GraspGen์ ์ ๋ ฅ์ ๋จ์ผ RGB-D ์นด๋ฉ๋ผ ๊ด์ธก์ผ๋ก ์์ฑ๋ ๋ถ๋ถ point cloud๋ค์ด๋ฉฐ, ์ธ์คํด์ค ์ธ๊ทธ๋ฉํ ์ด์ ์ ํตํด ๋ฌผ์ฒด๋ณ point cloud์ ์ป๋๋ค (์ค์ ๋ก๋ด ์คํ๊ณผ ๋์ผํ ์ค์ ). ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ๊ฒฝ๋ก๊ณํ์๋ ์ฅ๋ฉด์ ์ ํํ ์ถฉ๋ ๋ชจ๋ธ(ground-truth collision mesh)์ ์ฌ์ฉํจ์ผ๋ก์จ ์ธ์ ์ค์ฐจ๋ ๋ชจ์ ํ๋๋์ ๋ถ์์ ์ฑ์ด ํ์ง ์ฑ๋ฅ ํ๊ฐ์ ๋ผ์น๋ ์ํฅ์ ์ค์๋ค.
๊ฒฐ๊ณผ ์งํ๋ก๋ task success๊ณผ grasp success์ด ์ฌ์ฉ๋์๋๋ฐ, ์ ์๋ ๋ฌผ์ฒด๋ฅผ ์ง์ด ๋ชฉํ ์์น์ ๋๋ ์ ์ฒด ์์ ์ ์ฑ๊ณต ๋น์จ์ด๊ณ ํ์๋ ์ง์ด ๋๋ ๋จ๊ณ๊น์ง๋ง ๊ณ ๋ คํ ๋น์จ์ด๋ค. (๋ณดํต grasp success๊ฐ ๋ ๋๊ฒ ๋์ค๋ฉฐ, grasp ์ดํ ์ด๋ฐ ์ค ๋ฏธ๋๋ฌ์ง์ด๋ ์ถฉ๋์ด ์ถ๊ฐ๋ก ๊ณผ์ ์คํจ๋ฅผ ์ผ๊ธฐํ ์ ์๋ค.) ํฅ๋ฏธ๋กญ๊ฒ๋, ์ ์ง์ ์์ ์์ ์ต์์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ Oracle ํ๋๋(์ฆ ๋ฐ์ดํฐ์ ์ ์๋ ์ค์ ์ฑ๊ณต ๊ทธ๋ฆฝ์ ์๊ณ ์๋ค๊ณ ๊ฐ์ )๊ฐ ์๋๋์ด ๋น๊ต๋์๋๋ฐ, ์ด Oracle์ ์ฑ๋ฅ์กฐ์ฐจ grasp success ์ฝ 80%, task success 65% ๋จ์ง์ ๊ทธ์ณค๋ค. ์ด๋ FetchBench์ ๋์ด๋๊ฐ ๋งค์ฐ ๋์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฃผ์ ์์ธ์ผ๋ก๋ ์ถฉ๋ ์๋ ๊ฒฝ๋ก๊ฐ ์๋ ๊ฒฝ์ฐ, ๊ธฐ์กด ๋ชจ์ ํ๋๋ ํ๊ณ๋ก ๊ฒฝ๋ก ํ์ ์คํจ, ๋ฌผ์ฒด๊ฐ ๋น์ข์ ๊ณต๊ฐ์ ์์ด ๊ทธ๋ฆฝ์ด ์์ด๋ ์ง์ ๋ถ๊ฐ๋ฅ ๋ฑ์ ํ์ค์ ์ธ ๋ฌธ์ ๊ฐ ์ง๋ชฉ๋์๋ค. ์ด๋ฌํ ํ๊ณ๋ GraspGen ๋ฑ ํ์ง ๋ชจ๋ ์ธ์ ์ธ ์์๋ก ์ธํ ์คํจ ์์ธ์ผ๋ก, ์ฐจํ ๋ณด๋ค ๊ณ ์ฐจ์์ ์ธ ํตํฉ์ ๊ณํ/์ ์ด ์ ์ฑ ์ฐ๊ตฌ๊ฐ ํ์ํจ์ ์์ฌํ๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , GraspGen์ FetchBench์์ ์ต์ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค. Contact-GraspNet๊ณผ M2T2 ๋๋น ๊ฐ๊ฐ ์ ์๋ฏธํ ํฅ์ํญ(์ %~๋ ์๋ฆฟ์ %๋)์ ๊ธฐ๋กํ๋ฉฐ ์ข ํฉ์ ์ธ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ์ด๋ GraspGen์ด ๋ณต์กํ ์ ์ฌ ํ๊ฒฝ์์๋ ๊ฐ์ธํ ํ์ง ํ๋ณด๋ฅผ ์์ฑํ๊ณ , ๋ชจ์ ํ๋๋ ๋ฑ์ ํ์ ๋จ๊ณ์์ ํํฐ๋ง์ ๊ฑฐ์น ํ์๋ ์ฌ์ ํ ์คํ ๊ฐ๋ฅํ ์ข์ ํ์ง๋ค์ ์ ๊ณตํจ์ ๋ปํ๋ค. ์์ฝํ๋ฉด, ๋จ์ Scene(๋จ์ผ ๋ฌผ์ฒด)๋ถํฐ ๋ณต์กํ Scene(๋ค์ค ๋ฌผ์ฒด)๊น์ง GraspGen์ ํ์ง ์์ฑ/ํ๊ฐ ํ์ง์ด ๋๊ธ ์ต๊ณ ์์ค์์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์ ์ฆํ ๊ฒ์ด๋ค.
Sensitivity to Occlucions
๋ง์ง๋ง์ผ๋ก, ๊ด์ธก ์ ๋ณด์ ๋ถ์์ ์ฑ์ ๋ํ ์ผ๋ฐํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด์.

GraspGen์ ๋ถ๋ถ point cloud๊ณผ ์์ point cloud ๋ชจ๋์ ๋์ํ ์ ์๋๋ก ํ๋ จ๋ ์ ์๋๋ฐ, ์ ์๋ค์ ํ๋ จ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํ์๋ค. ํ๋์ GraspGen ๋ชจ๋ธ์ ๋ถ๋ถ ๊ด์ธก ๋ฐ์ดํฐ(๋จ์ผ ๋ทฐ point cloud)๋ง์ผ๋ก ํ๋ จํ ๊ฒฝ์ฐ ์์ point cloud ์ํฉ์์ ์ฑ๋ฅ ์ ํ๊ฐ ๋๋ ทํ๊ณ , ๊ทธ ๋ฐ๋์ ๊ฒฝ์ฐ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ถ๋ถ point cloud์ ๋ํด ์ฑ๋ฅ ๋ฌธ์ ๊ฐ ๋ํ๋ฌ๋ค. ์ด๋ ๊ฐ๊ฐ์ ๊ฒฝ์ฐ ๋ชจ๋ธ์ด ํ์ชฝ ๋ถํฌ์ ๊ณผ์ ํฉ๋์ด ๋ค๋ฅธ ๊ฒฝ์ฐ์ ์ ์ํ์ง ๋ชปํ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค. ๋ฐ๋ฉด ๋ ๊ฐ์ง ์ ํ์ point cloud ๋ฐ์ดํฐ๋ฅผ 50:50 ๋น์จ๋ก ์์ด ํ๋ จํ ๋ชจ๋ธ์ ๋ถ๋ถ/์์ point cloud ๋ชจ๋์ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ ํ๋ จ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ด GraspGen์ ๊ด์ธก ๋ณํ์ ๋ํ ์ผ๋ฐํ์ ์ค์ํจ์ ์์ฌํ๋ฉฐ, ์ค์ ์ดํ๋ฆฌ์ผ์ด์ ์์ ์ผ์ ๊ตฌ์ฑ์ด ๋ฌ๋ผ์ง๊ฑฐ๋ ๋ฉํฐ๋ทฐ/์ฑ๊ธ๋ทฐ ํ๊ฒฝ์ด ํผ์ฌํ ๊ฒฝ์ฐ๋ฅผ ๋๋นํด ํผํฉ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ํ์๊ฐ ์์์ ๋ณด์ฌ์ค๋ค.
2.4.2 Analysis of On-Generator Training
๋ณธ ์ ์์๋ On-Generator ํ๋ จ ๊ธฐ๋ฒ์ ํจ๊ณผ๋ฅผ ์ ๋์ ์ผ๋ก ๋ถ์ํ ๊ฒฐ๊ณผ์ ๋ํด ์กฐ๊ธ ๋ ์์ธํ ์ธ๊ธํ๋ค. ์์ On-Generator ๋ฐ์ดํฐ์ ์ ๋ถํฌ ์ฐจ์ด๋ฅผ EMD๋ก ๋น๊ตํ์ฌ ๊ทธ ํ์์ฑ์ ๋ณด์ธ ๋ฐ ์๋๋ฐ, ์ถ๊ฐ๋ก Discriminator ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ์ง์ ์ํํ์๋ค.

Discriminator๋ฅผ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ ๊ฒฝ์ฐ, On-Generator ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ ๊ฒฝ์ฐ, ๊ทธ๋ฆฌ๊ณ ๋ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ํ์ตํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ, On-Generator ์ ์ฉ ํ์ต ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์๊ณ ํผํฉ ํ์ต์ด ๊ทธ ๋ค์, ์์ ์คํ๋ผ์ธ ํ์ต์ด ๊ฐ์ฅ ์ ์กฐํ๋ค. ์๋ฅผ ๋ค์ด AUC ๊ธฐ์ค์ผ๋ก ์คํ๋ผ์ธ ์ ์ฉ ๋๋น On-Generator ์ ์ฉ์ด ์๋นํ ์์นํญ์ ๋ณด์๋ค๊ณ ๋ณด๊ณ ๋๋ค. ์ด๋ On-Generator ํ๋ จ์ด ์์ฑ๊ธฐ ๊ณ ์ ์ ์คํจ ์์์ ์ก์๋ด๋ ๋ฐ ํจ๊ณผ์ ์์ ์ฌํ์ธํด์ค๋ค. ๋ํ On-Generator ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ถ์ํด๋ณด๋ฉด, ๋ฌผ์ฒด์ ์ด์ง ๊ฒน์น๋ ๊ทธ๋ฆฝ์ด๋ ๊ฒฝ๋ฏธํ ์์ธ ์ค๋ฅ๋ก ์ธํด ๋ถ์์ ํ ๊ทธ๋ฆฝ ๋ฑ์ ์ ๊ฑธ๋ฌ๋ธ๋ค๋ ์ ์ ํ์ธํ ์ ์๋ค. ๋ฐ๋ฉด ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ํ์ตํ Discriminator๋ ์ด๋ฌํ ๊ฒฝ์ฐ์ ์๋์ ์ผ๋ก ๋์ ์ ์๋ฅผ ์ค์ผ๋ก์จ ์๋ชป๋ ์์ฑ์ผ๋ก ๋จ๊ธฐ๋ ๊ฒฝํฅ์ด ์์๋ค๊ณ ํ๋ค. ๊ฒฐ๊ตญ On-Generator ํ๋ จ ๋๋ถ์ GraspGen์ Discriminator๋ ์๊ธฐ ์์ฑ๊ธฐ์ ๊ณ ์ง์ ์ค์๊น์ง๋ ์ธ์งํ์ฌ ๊ฑธ๋ฌ์ค ์ ์๊ฒ ๋์๊ณ , ์ด๊ฒ์ด ์ ์ฒด ํ์ง ์ฑ๊ณต๋ฅ ํฅ์์ ํต์ฌ์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ์์ ์ ์ ์๋ค.
์ถ๊ฐ์ ์ธ ์๊ท๋ชจ ablation ์คํ๋ Discriminator ๊ตฌ์กฐ์ ์ฅ์ ์ ๋ท๋ฐ์นจํ๋ค. ๊ธฐ์กด์ ๋ณต์กํ PointNet ๊ธฐ๋ฐ Discriminator(Mousavian ๋ฑ, 2019 ๋ฑ)์ ๋น๊ตํ์ฌ GraspGen์ ๊ฒฝ๋ Discriminator๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ 1/5 ์์ค(์ฝ 21%)์ผ๋ก ์ค์ด๋ฉด์๋ ์ ํ๋๋ฅผ ๋์๋ค๊ณ ๋ณด๊ณ ๋๋ค. ์ด๋ ๋์ผํ hardware ์์์์ ํจ์ฌ ๋ง์ ์์ ํ์ง๋ฅผ ๋์์ ํ๊ฐํ ์ ์์์ ์๋ฏธํ๋ฉฐ, ํนํ ๋ณต์กํ Scene์์ ์์ ํ์ง๋ฅผ ์ฐพ๊ธฐ ์ํด ์๋ฐฑ~์์ฒ ๊ฐ์ ํ๋ณด๋ฅผ ๊ฑธ๋ฌ๋ด์ผ ํ๋ ์ํฉ์์ ํฐ ์ด์ ์ด ๋๋ค.
2.4.3 Ablation Studies
GraspGen์ ๋์ ๋ ๋ช ๊ฐ์ง ์ค๊ณ์์ ์ ํ๋ค์ ๋ํด, ์ ์๋ค์ ๋ณ๋์ ์คํ์ ํตํด ๊ฐ๊ฐ์ ์ฑ๋ฅ ์ํฅ๋๋ฅผ ํ๊ฐํ์๋ค. ์ฃผ์ ablation ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค:
- translation ์ ๊ทํ ์ค์ผ์ผ: ์์ ์ธ๊ธํ ๋๋ก, translation ์ฑ๋ถ์ ๋ํ ์ ๊ทํ ์ค์ผ์ผ์ ํฌ๊ธฐ๋ ์ฑ๋ฅ์ ๋น์ ํ์ (convex) ๊ด๊ณ๋ฅผ ๋ณด์๋ค. ๋๋ฌด ์๊ฑฐ๋ ๋๋ฌด ํฌ๊ฒ ์ ๊ทํํ๋ฉด ์คํ๋ ค ํ์ง ์์ธก ์ค์ฐจ๊ฐ ์ฆ๊ฐํ๊ฑฐ๋ recall(coverage)์ด ๊ฐ์ํ์์ผ๋ฉฐ, ์ ์ ํ ์ค๊ฐ๊ฐ์์ ๊ท ํ์ด ๋ง์ถฐ์ก๋ค. ์คํ ๊ฒฐ๊ณผ ์ ์๋ค์ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณต์์ผ๋ก ๊ณ์ฐํ ๊ฐ์ด ์ด ์ต์ ์ ๊ทผ์ฒ์ ์ฑ๋ฅ์ ๋ณด์ฌ, ๋ฒ๊ฑฐ๋ก์ด ํ์ดํผํ๋ผ๋ฏธํฐ ํ์์ ๋์ฒดํ ์ ์์์ ํ์ธํ์๋ค.

ํ์ ํํ: ํ์ ์ ๋ํ๋ด๋ ๋ฐฉ๋ฒ์ผ๋ก๋ 6์ฐจ์ ํ์ ๋ฒกํฐ ํํ, ์ค์ผ๋ฌ ๊ฐ, Lie Algebra ๋ฑ ์ฌ๋ฌ ๊ฐ์ง๋ฅผ ์ํํ๋๋ฐ, ์ ์๋ฏธํ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋ํ๋์ง ์์๋ค๊ณ ํ๋ค. ์ด๋ GraspGen์ ํ์ฐ ๋ชจ๋ธ์ด ํ์ ๊ณต๊ฐ์ ํ์ตํ๋ ๋ฐ ์์ด ํน์ ํํ์ ํฌ๊ฒ ์์กดํ์ง ์์ ๋งํผ ์ถฉ๋ถํ ํ์ต ์ฉ๋์ ์ง๋ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
point cloud ์ธ์ฝ๋ ๋ฐฑ๋ณธ: PointNet++ ๋๋น PointTransformerV3๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ์ฑ๊ณต๋ฅ ๋ฐ ์ ๋ฐ๋ ํฅ์์ ์ป์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, PTv3๋ก ๊ต์ฒด ์ translation ์ค์ฐจ๊ฐ ๊ฐ์ํ๊ณ recall(coverage)์ด ์ฆ๊ฐํ๋ ์ ์ํ ๊ฐ์ ์ด ์์์ผ๋ฉฐ, ์ด๋ ์ต์ Transformer ๊ธฐ๋ฐ point cloud ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ด ํ์ง ์์ฑ ๋ฌธ์ ์๋ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋ค.
2.4.4 Performance on Multiple Grippers
GraspGen์ ์ฌ๋ฌ ์ข ๋ฅ์ ๊ทธ๋ฆฌํผ์ ๋ํด ๋จ์ผ ํ๋ ์์ํฌ๋ก ํ์ต๋ ์ ์๋ค๋ ์ ์ฐ์ฑ์ ๊ฐ๋๋ค. ๋ณธ๋ฌธ์์๋ ์ฃผ๋ก Franka ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ์ ๋ํ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃจ์์ง๋ง, ๋ถ๋ก์ Robotiq-2F-140 ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ์ ํก์ฐฉ ํจ๋ gripper์ ๋ํ ์คํ๋ ํฌํจ๋์๋ค๊ณ ํ๋ค. ํต์ฌ์ ์ผ๋ก, GraspGen์ ๋ชจ๋ ๊ทธ๋ฆฌํผ์ ๋ํด ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ ๊ทธ๋ฆฌํผ ์ข ๋ฅ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ๋ํ๋ฌ๋ค. ์๋ฅผ ๋ค์ด, Franka ์๋ฎฌ๋ ์ด์ ์คํ์์ GraspGen์ด M2T2 ๋๋น ์ฝ ๋ ์๋ฆฟ์ ํผ์ผํธ์ ํฅ์์ ๋ณด์๋๋ฐ, Robotiq-2F-140์ ๊ฒฝ์ฐ ๊ทธ ๊ฒฉ์ฐจ๊ฐ ๋ ๋ฒ์ด์ก๋ค๊ณ ํ๋ค. ์ด๋ M2T2๊ฐ ์ ์ด์ ํํ์ ์ฌ์ฉํ๋๋ฐ, ํด๋น ํํ์ด Robotiq ๊ฐ์ adaptive ๊ทธ๋ฆฌํผ์๋ ์ ํฉํ์ง ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋๋ค. ๋ฐ๋ฉด GraspGen์ ์ ๋ ฅ point cloud ๊ธฐ๋ฐ์ด๋ฏ๋ก ๊ทธ๋ฆฌํผ ํ์ ๋ณํ์ ์๋์ ์ผ๋ก ๊ฐ์ธํ์ฌ, ๋ ํํ ๊ทธ๋ฆฌํผ ๋ชจ๋์์ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์งํ์๋ค. ๋ํ ํก์ฐฉ ํจ๋์ ๊ฒฝ์ฐ์๋ GraspGen์ด SE3-DiffusionFields ๋ฑ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ ๋๋น ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค๊ณ ๋ณด๊ณ ๋๋ค. ์ด๋ GraspGen์ ์ํคํ ์ฒ๊ฐ ๊ทธ๋ฆฌํผ ์๋ฒ ๋๋ ํํ (์ฆ, ๋ฌผ์ฒด+๊ทธ๋ฆฌํผ ์กฐ๊ฑด) ํ์ต์ ๋ฌด๋ฆฌ๊ฐ ์์์ ์์ฌํ๋ฉฐ, ๋์๊ฐ ํฅํ ๋ค์ง๊ทธ๋ฆฌํผ๋ ๋ก๋ด ํธ๋์ ๊ฐ์ ๋ณต์กํ ํํ๋ก ํ์ฅํ๋ ๋ฐ๋ ๊ธฐ๋ฐ์ด ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค.
2.4.5 Real Robot Evaluation
๋ง์ง๋ง์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ GraspGen์ Real World ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํ ์คํ์ด ์ํ๋์๋ค.

ํ๋์จ์ด ๊ตฌ์ฑ์ UR10 ๋ก๋ด ํ์ Robotiq-2F-140 ๊ทธ๋ฆฌํผ๋ฅผ ์ฅ์ฐฉํ๊ณ , ์๋จ์ Intel RealSense D435 RGB-D ์นด๋ฉ๋ผ ํ ๋๋ฅผ ์ค์นํ์ฌ ํ ์ด๋ธ์ ๋ด๋ ค๋ค๋ณด๋ ํํ์๋ค. ์ํํธ์จ์ด์ ์ผ๋ก๋ Jetson ๋ณด๋ ์์์ cuRobo (์ํ ๊ธฐ๋ฐ ๋ชจ์ ํ๋๋)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฝ๋ก๊ณํ ๋ฐ ์ญ๊ธฐ๊ตฌํ ํํฐ๋ง์ ์ํํ๊ณ , NVBlox๋ฅผ ํตํด ์ค์๊ฐ ์ถฉ๋ ๋งต์ ์์ฑํ์๋ค. Object instance ๋ถํ ์๋ SAM2 (์ธ๊ทธ๋ฉํ ์ด์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ), depth ๋ณด์์๋ FoundationStereo ๋ชจ๋ธ ๋ฑ์ ํ์ฉํ์ฌ, ๊ฐ๋ฅํ ํ์ค์์์ ์ธ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค.
ํ ์คํธ ํ๊ฒฝ์ ๋ค ๊ฐ์ง๋ก ๊ตฌ์ฑ๋์๋ค:
- ๋จ์ผ ๋ฌผ์ฒด (isolated)
- ํ ์ด๋ธ ์ ๋ค์ ๋ฌผ์ฒด (table clutter)
- ๋ฐ๊ตฌ๋ ์์ ๋ฌผ์ฒด๋ค (basket)
- ์ ๋ฐ ์์ ๋ฌผ์ฒด๋ค (shelf)
์ ์ฐจ ๋๋๊ฐ ์ฌ๋ผ๊ฐ๋ ์๋๋ฆฌ์ค๋ก, ํนํ ๋ฐ๊ตฌ๋๋ ์ ๋ฐ์ ๊ฒฝ์ฐ ๊ฒฉ์ ๋ด๋ถ๋ ์ข์ ๊ณต๊ฐ์ด๋ผ ํ์ง ๋ฐ ์ธ์ถ ๋์์ด ์ด๋ ต๋ค. ๋น๊ต ๋์์ผ๋ก๋ ์๋ฎฌ๋ ์ด์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ M2T2์, ์ค์ ๋ฐ์ดํฐ๋ก ํ์ต๋ AnyGrasp๋ฅผ ์ ์ ํ์๋ค. ๋ ๋ชจ๋ธ ๋ชจ๋ ๊ณต๊ฐ๋ ํ์ต ๊ฐ์ค์น์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๋, ์คํ ํ๊ฒฝ์ ๋ง๊ฒ ๋ช ๊ฐ์ง ์ ๋ ฅ ์ฒ๋ฆฌ๋ฅผ ์กฐ์ ํ์๋ค. ์๋ฅผ ๋ค์ด M2T2๋ ์๋ Scene ์ ์ฒด point cloud์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋๋ก ํ์ต๋์๋๋ฐ, ๋ณธ ์คํ์์๋ ์นด๋ฉ๋ผ ์ขํ๊ณ๋ฅผ ๊ธฐ์ค์ผ๋ก point cloud์ 90๋ ํ์ ์ํค๊ณ ๋ก๋ด ์์ ๊ณต๊ฐ์ ํด๋นํ๋ ์์ญ๋ง ํฌ๋กญํ์ฌ ์ฃผ๋ ๋ฐฉ์์ผ๋ก, ํ๋ จ ์ ๋ถํฌ์์ ์ฐจ์ด๋ฅผ ์ค์ฌ์ฃผ์๋ค. AnyGrasp์ ๊ฒฝ์ฐ ํ์ต ๋ฐ์ดํฐ๊ฐ ๊ณ ์ ๋ ์นด๋ฉ๋ผ ๊ณ ๋์์ ์์ง๋์๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ ํ๊ฒฝ์ ์นด๋ฉ๋ผ ๊น์ด์ ๋ง์ถฐ z์ถ ๋ฐฉํฅ ์คํ์ ์ point cloud์ ์ฃผ์ด ๋ณด์ ํ์๋ค. ๋ํ AnyGrasp๋ ์๋ ๋ค์ค ์์ธก๋ ๊ทธ๋ฆฝ ์ค Non-Maximum Suppression์ ์ ์ฉํ์ฌ ์ค๋ณต์ ์ ๊ฑฐํ๋ ํ์ฒ๋ฆฌ๊ฐ ์์์ง๋ง, ์ด ์ฐ๊ตฌ์ ์ค์ ์์๋ NMS๋ฅผ ์ฌ์ฉํ์ง ์๋ ํธ์ด ์ฑ๋ฅ์ด ๋์ ์ด๋ฅผ ์๋ตํ์๋ค. (์๋ง๋ ์ฐ๋ฆฌ์ ๋ชจ์ ํ๋๋๊ฐ ๋ชฉํ ๊ทธ๋ฆฝ ์ ์ ๋ํด ์์ฒด์ ์ผ๋ก ์ถฉ๋ ์ ๊ฑฐ ๋ฑ์ ์ํํ๋ฏ๋ก, ์ค๋ณต์ด ์์ด๋ ๊ด์ฐฎ์๋ ๊ฒ์ผ๋ก ์ถ์ธก๋๋ค.) ์ด๋ฌํ ์ ์ฒ๋ฆฌ ์์ด๋ M2T2๋ AnyGrasp ๋ชจ๋ ๊ฒฐ๊ณผ ๊ทธ๋ฆฝ์ ๊ฑฐ์ ๋ด์ง ๋ชปํด, ๋ถ๋์ด ์ ์๋ค์ด ์ธ๊ธํ ์ด๋ฌํ ์กฐ์ ๋ค์ ๊ฑฐ์ณค์์ ๋ฐํ๊ณ ์๋ค. ์ด๋ ์ค์ ํ๊ฒฝ์ ๋ถํฌ ์ฐจ์ด์ ๋ํ ํ ๋ชจ๋ธ๋ค์ ์ทจ์ฝ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ผ๋ก, GraspGen์ฒ๋ผ ๋ค์ํ ๊ด์ธก ๋ถํฌ์ ๋ํด ํ๋ จ๋์ง ์์์ ๊ฒฝ์ฐ ํ์ค ์ ์ฉ์ด ์ด๋ ต๋ค๋ ์ ์ ์์ฌํ๋ค.
๊ฐ ๋ฐฉ๋ฒ์ Scene ๋น ์ฌ๋ฌ ํ์ง ํ๋ณด๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์์ 100๊ฐ ๊ทธ๋ฆฝ์ ๋ชจ์ ํ๋๋์ ๋ชฉํ๋ก ์ฌ์ฉํ์๋ค. ํ๋๋๋ ์ด ์ค ๋ก๋ด ์ถฉ๋์ด๋ ์ญ๊ธฐ๊ตฌํ ๋ถ๋ฅ์ธ ๊ทธ๋ฆฝ์ ๊ฑธ๋ฌ๋ด๊ณ , ๋จ์ ๊ทธ๋ฆฝ๋ค ์ค ์ถฉ๋ ์๋ ๊ฒฝ๋ก๋ฅผ ์ฐพ์ ์ง์ด์ฌ๋ฆฌ๊ธฐ๋ฅผ ์๋ํ๋ค. ์ต์ข ํ์ง ์ฑ๊ณต๋ฅ ์ ํด๋น ์๋๋ฆฌ์ค์์ ์ก๊ธฐ์ ์ฑ๊ณตํ ๋น์จ๋ก ์ธก์ ๋์๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, GraspGen์ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์๋ค. ํนํ ๋น๊ต ๋์๋ค์ด ํน์ ์ด๋ ค์ด ํ๊ฒฝ์์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง ๋ฐ ๋นํด, GraspGen์ ๋ชจ๋ ํ๊ฒฝ์์ ๊ณ ๋ฅธ ์ฑ๋ฅ์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด ๋จ์ผ ๋ฌผ์ฒด ํ๊ฒฝ์์๋ GraspGen์ด 90.5%์ ์ฑ๊ณต๋ฅ ๋ก M2T2(81.0%)์ AnyGrasp(85.7%)๋ณด๋ค ๋์๊ณ , ํ ์ด๋ธ ์ ๋ณต์ก ์ ์ฌ์ ๊ฒฝ์ฐ์๋ GraspGen 83.3%๋ก M2T2(75.0%)๋ฅผ ์ํํ์๋ค. ๊ฐ์ฅ ์ด๋ ค์ด ์ ๋ฐ(shelf) ์๋๋ฆฌ์ค์์๋ GraspGen 71.4%์ ๋นํด M2T2๋ 14.3%์ ๋ถ๊ณผํ๊ณ , AnyGrasp๋ 42.9%๋ก ์ฑ๋ฅ์ด ๋ฎ์๋ค. ์ ์ฒด ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ณด๋ฉด GraspGen์ด ์ฝ 81.3%๋ก, M2T2์ 52.6%, AnyGrasp์ 63.7%๋ฅผ ํฌ๊ฒ ์์ฐ๋ค. ๋ฌผ๋ก GraspGen๋ ์ ๋ฐ/๋ฐ๊ตฌ๋ ํ๊ฒฝ์์ ๋ค๋ฅธ ๊ฒฝ์ฐ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ์์ก๋๋ฐ, ์ด๋ ์์์ ์ธ๊ธํ ๋๋ก ๋ก๋ด ํ์ ๊ฐ์ฉ ๋์ ๋ฒ์ ์ ํ์ผ๋ก ์ธํด ๋ค์์ ํ์ง ํ๋ณด๋ค์ด ์คํ ๋ถ๊ฐ๋ฅํ๊ฒ ํํฐ๋ง๋ ์ํฅ์ด ํฌ๋ค. ์ด๋ฌํ ํ๊ฒฝ์์๋ ๋ชจ๋ธ์ด ์ ์ด์ ์ ๊ทผ ๊ฐ๋ฅํ ๊ทธ๋ฆฝ์ ๋ง์ด ์์ฑํด์ผ๋ง ์ต์ข ์ฑ๊ณต๋ฅ ์ ๋์ผ ์ ์๋๋ฐ, GraspGen์ ๋ถ๋ถ์ ์ผ๋ก๋๋ง ๊ทธ ์ญ๋์ ๋ณด์ธ ๋ฐ๋ฉด, M2T2์ AnyGrasp๋ ํ๋ จ ๋ฐ์ดํฐ๊ฐ ๋จ์ ํ์ ํ๊ฒฝ์ ๊ตญํ๋์ด ์์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ํํ์ ํ๊ฒฝ(basket, shelf)์ ์ ํ ์ผ๋ฐํํ์ง ๋ชปํ ๊ฒ์ผ๋ก ๋ถ์๋๋ค. ํนํ M2T2๋ scene-level ๋ชจ๋ธ๋ก ํ์ต๋ ํ๊ณ์ ์์ ๋ฌผ์ฒด์ ๋ํ ํ์ง ์์ธก์ ๋๋ฝํ๋ ๋ฌธ์ ๋ ์์๋ค๊ณ ํ๋ค. ์์ปจ๋, GraspGen์ ์๋ฎฌ๋ ์ด์ โํ์ค ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ํ๊ฒฝ ๋ค์์ฑ์ ๋ํ ์ ์๋ ฅ์ด ์ค์ ๋ก๋ด ์คํ์์๋ ํ์ธ๋ ์ ์ด๋ค. ์ ์๋ค์ ์ถ๊ฐ๋ก ์ฌ๋ฌ ํ์ง ์์ธก ์์๋ฅผ ๋ถ๋ก์ ์ ์ํ์๋๋ฐ, GraspGen์ด ๋ค์ํ ๋ฌผ์ฒด๋ค์ ๋ํด ํ์ค์์๋ ์์ ์ ์ธ ํ์ง ์์ธ๋ค์ ์ฐ์ถํจ์ ๋ณด์ฌ์ค๋ค.
2.5 Conclusion & Limitations
๋ณธ ๋ ผ๋ฌธ์ GraspGen์ด๋ผ๋ ์๋ก์ด 6-DoF ํ์ง ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ๊ทธ ๊ธฐ์ ์ ์ฐ์์ฑ์ ๋ค๊ฐ๋๋ก ์ ์ฆํ์๋ค. GraspGen์ ํ์ฐ ๊ธฐ๋ฐ์ ์์ฑ๊ธฐ์ ํจ์จ์ ์ธ Discriminator๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ๋ฌผ์ฒด ์ค์ฌ ํ์ง ๋ฌธ์ ์์ ์ ํ๋์ ๋ฒ์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ๋ค. ๋ค์ํ ์๋ฎฌ๋ ์ด์ ์คํ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , FetchBench์ ๊ฐ์ ๋ณต์กํ ๋ฒค์น๋งํฌ์์ ์ต์ ์ต๊ณ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์์ผ๋ฉฐ, ๋์๊ฐ ๋จ ํ ๋ฒ๋ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ง ์๊ณ ๋ ์ค์ ๋ก๋ด์์ ์ฐ์ํ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ก์จ ์๋ฎฌ๋ ์ดํฐ-ํ์ค ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์๋น ๋ถ๋ถ ์ขํ๋ค. ์ด๋ฌํ ์ฑ๊ณผ๋ฅผ ํตํด GraspGen์ ํฅํ ์ฌ๋ฌ ๊ณ ์ฐจ์ ๋ก๋ด ์กฐ์ ๊ณผ์ ์ ๊ธฐ๋ฐ ๋ชจ๋๋ก ํ์ฉ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค. ์๋ฅผ ๋ค์ด, GraspGen์ ์์ฉํ๋ฉด ๋ชฉ์ ์งํฅ ํ์ง(ํน์ ๋ถ์๋ฅผ ์ก๊ธฐ)๋ ์ธ์ด ์ง์ ๊ธฐ๋ฐ ์กฐ์ ๋ฑ์ ๋ฌธ์ ์ ๋ณด๋ค ๊ฐ์ธํ ํ์ง ์์ฑ๊ธฐ๋ฅผ ์ ๊ณตํ ์ ์๊ณ , ๋ณต์กํ ์กฐ์ ์์ ์์ ๋ฐ์ํ๋ ํ์ง ์คํจ์จ์ ๋ฎ์ถฐ ์ง๋ฅํ ๋งค๋ํฐ๋ ์ด์ ์์คํ ์ ์ ๋ขฐ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ ๋์์ ๋ณธ ์ฐ๊ตฌ๋ ๋ช ๊ฐ์ง ํ๊ณ์ ๊ณผ ํฅํ ๊ณผ์ ๋ฅผ ๋จ๊ธด๋ค.
- ์ฐ์ , GraspGen์ ์ฑ๋ฅ์ ์ฌ์ ํ ์ผ์ ๋ฐ์ดํฐ ํ์ง์ ํฌ๊ฒ ์์กดํ๋ค๋ ์ ์ด ์ง์ ๋๋ค. ์ค์ ๋ก๋ด ์คํ์์ ๋ณด์๋ฏ์ด, ์ ํํ ๊น์ด ์ถ์ ๊ณผ ๋ฌผ์ฒด ๋ถํ ์ด ๋ท๋ฐ์นจ๋์ง ๋ชปํ๋ฉด ํ์ง ํ๋ณด์ ์ ํ๋๋ ๋จ์ด์ง ์ ์๋ค. ์ด๋ GraspGen์ด ๋ฌผ์ฒด ์ค์ฌ point cloud์ ์์กดํ๊ธฐ ๋๋ฌธ์ผ๋ก, ํฅํ์๋ ์ก์์ ๊ฐ์ธํ ์ ๋ ฅ ์ฒ๋ฆฌ๋ ๋ฉํฐ์ผ์ ์ตํฉ์ ํตํ ๋ณด์์ด ํ์ํ ๊ฒ์ด๋ค.
- ๋ ๋ฒ์งธ ํ๊ณ๋ก, ํน์ ํ์์ ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ถ์กฑ์ด ๊ด์ฐฐ๋์๋ค๊ณ ํ๋ค. ์ ์๋ค์ ํนํ ์ง์ก๋ฉด์ฒด ์์(cuboid) ํํ์ ๋ฌผ์ฒด์ ๋ํด GraspGen์ด ์คํ์์ ์ด๋ ค์์ ๊ฒช์์์ ๋ณด๊ณ ํ๋ฉฐ, ์ด๋ ํ์ฌ ๋ฐ์ดํฐ์ ์ ๊ทธ๋ฌํ ํํ์ ๋ฌผ์ฒด๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ผ๋ก ์ถ์ ํ์๋ค. ํฅํ ๋ฒ์ ์์๋ ๋ณด๋ค ๋ฐ์คํ ๋ฌผ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋๋ ค ์ด ๋ฌธ์ ๋ฅผ ์ํํ ๊ณํ์ด๋ผ๊ณ ์ธ๊ธํ๊ณ ์๋ค. ์ด์ฒ๋ผ ๋ฐ์ดํฐ ๋ถํฌ์ ํธํฅ์ ๋ฐ๋ฅธ ํน์ ๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ๋, ๋ฐ์ดํฐ ์ปค๋ฒ๋ฆฌ์ง ํ๋ ๋ฐ ๋๋ฉ์ธ ์ผ๋ฐํ ๊ธฐ๋ฒ ๋ฑ์ ํตํด ๊ฐ์ ํ ์ ์์ ๊ฒ์ด๋ค.
- ์ ์งธ๋ก, GraspGen์ ํ์ต์๋ ๋ง๋ํ ๊ณ์ฐ ๋น์ฉ์ด ์์๋๋ค. ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ ์์ฑ๊ณผ ํ์ต์ ํฉ์ณ ์ฝ 3,000 GPU-์๊ฐ์ด ์๊ตฌ๋์๋๋ฐ, ์ด๋ ๋๊ตฌ๋ ๋ชจ๋ฐฉํ๊ธฐ ํ๋ ๋์ ์ฅ๋ฒฝ์ผ๋ก ์์ฉํ ์ ์๋ค. ํนํ ๋ค์ํ embodiment๋ฅผ ๋ค๋ฃจ๋ ค๋ฉด ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ณ๋ ํ์ต์ ํด์ผ ํ ์๋ ์์ด, ์ถํ ๋ชจ๋ธ ๊ฒฝ๋ํ๋ ์ ์ด ํ์ต์ ํตํ ํจ์จ ํฅ์ ์ฐ๊ตฌ๋ ๊ณ ๋ ค๋์ด์ผ ํ๋ค.
- ๋ง์ง๋ง์ผ๋ก, GraspGen์ ํ์ง ์์ฒด์ ์ฑ๋ฅ์ ํฅ์ํ๋ ๋ฐ ์ด์ ์ ๋์์ง๋ง, ์์ FetchBench ๋ถ์์์ ๋ ผ์๋์๋ฏ ํ์ง ์ดํ์ ์ด๋ ๊ฒฝ๋ก ๊ณํ์ด๋ ํ๊ฒฝ ์ํธ์์ฉ ๋ฑ ํตํฉ ๋ฌธ์ ๋ ๋ณ๋์ ๋์ ๊ณผ์ ๋ก ๋จ์ ์๋ค. ์๋ฅผ ๋ค์ด, ๋ณต์กํ ์ฅ์ ๋ฌผ ํ๊ฒฝ์์ ๋ก๋ดํ์ด ํ์งํ ๋ฌผ์ฒด๋ฅผ ๊บผ๋ด์ค๋ ๋ฌธ์ ๋ฑ์ ๋จ์ํ ํ์ง ์ฑ๊ณต๋ฅ ๋ง ๋์ธ๋ค๊ณ ํด๊ฒฐ๋์ง ์์ผ๋ฏ๋ก, ํฅํ์๋ ํ์ง ์์ฑ๊ณผ ํ์ ๋์ ๊ณํ์ ๊ณต๋์ผ๋ก ์ต์ ํํ๋ ๋ฐฉํฅ์ ์ฐ๊ตฌ๋ ํ์ํ ๊ฒ์ด๋ค.
์ข ํฉ์ ์ผ๋ก, GraspGen์ ๋ก๋ด ํ์ง ๋ถ์ผ์ ํ์ฐ ๋ชจ๋ธ์ ๊ฐ๋ ฅํจ์ ์ฆ๋ช ํ๊ณ , ์์ฑ ๋ชจ๋ธ๊ณผ Discriminator์ ์ํธ๋ณด์์ ํ์ต์ ํตํด ์ฑ๋ฅ ํ๊ณ๋ฅผ ๋ํํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ก ํ๊ฐ๋๋ค. ๋ค์ํ ํํ์ ๋ก๋ด ์๊ณผ ๋์์ ๋๋ฃจ ์ ์ฉ๊ฐ๋ฅํ ๋ฒ์ฉ ํ์ง ์์ฑ์ ๊ฐ๋ฅ์ฑ์ ์ด์์ผ๋ฉฐ, ์ด๋ ํฅํ ์๋น์ค ๋ก๋ด, ์ ์กฐ ์๋ํ, ์๋ฃ ๋ณด์กฐ ๋ฑ ์ ๋ฐ ์กฐ์์ด ์๊ตฌ๋๋ ๋ถ์ผ์์ ํ์ฉ๋ ์ฌ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
์ฐธ๊ณ