๐SeqMultiGrasp ๋ฆฌ๋ทฐ
- ๐ค๋ณธ ๋ ผ๋ฌธ์ Allegro Hand๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ํ ์์ผ๋ก ์์ฐจ์ ์ผ๋ก ํ์งํ๋ ๋ก๋ด ์์คํ ์ธ SeqMultiGrasp์ ์ ์ํฉ๋๋ค.
- โ์ด ์์คํ ์ ๋จผ์ ์์ ํน์ ๋งํฌ์ ์ ์ฝ๋ ๋จ์ผ ๊ฐ์ฒด ํ์ง ํ๋ณด๋ฅผ ํฉ์ฑํ๊ณ ์๋ฎฌ๋ ์ด์ ์์ ๊ฒ์ฆํ ํ, ์ด๋ฅผ ๋ณํฉํ์ฌ ๋ค์ค ๊ฐ์ฒด ํ์ง ๊ตฌ์ฑ์ ์์ฑํฉ๋๋ค.
- โ ์ค์ ํ๊ฒฝ ๋ฐฐํฌ๋ฅผ ์ํด Point Cloud ๊ธฐ๋ฐ์ Diffusion Model์ด ํ์ง ์์ธ๋ฅผ ์ ์ํ๊ณ ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ์ ์คํ ์ ๋ต์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ 65.8%, ์ค์ ํ๊ฒฝ์์ 56.7%์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.

1 Brief Review
๋ณธ ๋ ผ๋ฌธ์ ํ๋์ ๋ฏผ์ฒฉํ ์์ผ๋ก ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ์์ฐจ์ ์ผ๋ก ํ์งํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ด๋ฅผ ์ํ ์์คํ ์ธ SeqMultiGrasp๋ฅผ ์ ์ํฉ๋๋ค. ์ธ๊ฐ์ ์์ ๋ฐ์ด๋ ๋ฏผ์ฒฉ์ฑ์ ํ์ฉํ์ฌ ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ๋์์ ๋๋ ์์ฐจ์ ์ผ๋ก ํ์งํ ์ ์์ง๋ง, ๋ก๋ด์๊ฒ ์ด๋ ๊ฐ์ฒด์ ๋ค์ํ ํ์๊ณผ ๋์ ์์ ๋(high-DOF) ์์ ๋ณต์กํ ์ ์ด ์ํธ์์ฉ์ผ๋ก ์ธํด ์ด๋ ค์ด ๋์ ๊ณผ์ ์ ๋๋ค. ํนํ ํ๋์ ๊ฐ์ฒด๋ฅผ ํ์งํ ์ํ์์ ๋ค๋ฅธ ๊ฐ์ฒด๋ฅผ ํ์งํด์ผ ํ๋ ์์ฐจ์ ์๋๋ฆฌ์ค์์ ๋์ด๋๋ ๋์ฑ ์ฆ๊ฐํฉ๋๋ค.
SeqMultiGrasp๋ ๋ค ์๊ฐ๋ฝ์ ๊ฐ์ง Allegro Hand๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์์ฐจ์ ์ผ๋ก ํ์งํ๋ ๋ฐ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด ์์คํ ์ ์ฒซ ๋ฒ์งธ ๊ฐ์ฒด๋ฅผ ์์ ํ ๊ฐ์ธ ๋ค์ด ์ฌ๋ฆฐ ํ, ์ฒซ ๋ฒ์งธ ๊ฐ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์์ผ๋ฉด์ ๋ ๋ฒ์งธ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๋จ์ผ ๊ฐ์ฒด ๊ทธ๋ฉ ํ๋ณด ํฉ์ฑ:
- ์ฐ์ , Differentiable Force Closure (DFC) [13] ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ผ ๊ฐ์ฒด ๊ทธ๋ฉ ํฌ์ฆ๋ฅผ ํฉ์ฑํฉ๋๋ค. ์ด ๊ณผ์ ์ ํ์ง ๋ฌธ์ ๋ฅผ ์๋์ง ํจ์์ ์ต์ ํ๋ก ์ ์ํํ์ฌ ํด๊ฒฐํฉ๋๋ค.
- ์ ๊ตฌ์ฑ H = (\theta , T)๋ ๋ก๋ด ์์ ๊ด์ ๊ตฌ์ฑ \theta \in \mathbb{R}^d์ ๊ฐ์ฒด O์ ๋ํ ์๋ ํฌ์ฆ T \in SE(3)๋ฅผ ๋ํ๋ ๋๋ค.
- ์๋์ง ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: E = E_{fc} + w_{dis}E_{dis} + w_pE_p + w_{sp}E_{sp} + w_qE_q ์ฌ๊ธฐ์ E_{fc}๋ force closure ํญ, E_{dis}๋ ์ ์ด์ ๊ณผ ๊ฐ์ฒด ํ๋ฉด ๊ฐ์ ๊ฑฐ๋ฆฌ์ ๋ํ ํ๋ํฐ, E_p๋ ์, ๊ฐ์ฒด, ํ์ ๊ฐ์ ์นจํฌ(penetration)์ ๋ํ ํ๋ํฐ, E_{sp}๋ ์์ ์๊ธฐ ์นจํฌ(self-penetration)์ ๋ํ ํ๋ํฐ, E_q๋ ๊ด์ ํ๊ณ ์๋ฐ์ ๋ํ ํ๋ํฐ๋ฅผ ๋ํ๋ ๋๋ค. w ํญ๋ค์ ๊ฐ ๊ตฌ์ฑ ์์์ ๊ฐ์ค์น ๊ณ์์ ๋๋ค.
- ํฉ์ฑ ๊ณผ์ ์์๋ ์ ํ๋ฉด์ ์ ์ด ํ๋ณด์ ์์ ์ ์ด์ ์ ์ํ๋งํ๊ณ ์ด๊ธฐ ๊ตฌ์ฑ์ ์ค์ ํฉ๋๋ค. ์ดํ Metropolis-Adjusted Langevin Algorithm (MALA)๊ณผ ๊ฒฐํฉ๋ ๊ฒฝ์ฌ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ต์ ํํฉ๋๋ค. ํน์ ์๊ณ๊ฐ์ ์ด๊ณผํ๋ ์๋์ง๋ฅผ ๊ฐ์ง ๊ตฌ์ฑ์ ํํฐ๋ง๋ฉ๋๋ค.
- ์์ฐจ์ ๋ค์ค ๊ฐ์ฒด ํ์ง๋ฅผ ์ํด, ์ฒซ ๋ฒ์งธ ๊ฐ์ฒด๋ ์์ง, ๊ฒ์ง, ์ค์ง๋ฅผ ์ฌ์ฉํ๋ pinch-like grasp, ๋ ๋ฒ์งธ ๊ฐ์ฒด๋ ์ฝ์ง์ ์๋ฐ๋ฅ์ ์ฌ์ฉํ๋ side grasp์ ์ ์ด ํ๋ณด์ ์ ์ ํํ๋ ๋ฑ ๊ธฐ์กด DFC ํ์ดํ๋ผ์ธ์ ์ฌ๋ฌ ์์ ์ฌํญ์ด ์ ์ฉ๋์์ต๋๋ค.
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๊ทธ๋ฉ ์ ํจ์ฑ ๊ฒ์ฆ:
- ํฉ์ฑ๋ ๊ทธ๋ฉ ํ๋ณด๋ค์ GPU ๊ฐ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ธ ManiSkill [39]์์ ๊ทธ๋ฉ์ ์คํํ์ฌ ์์ ์ฑ๊ณผ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํฉ๋๋ค.
- Rotation Robustness: ๊ฐ์ฒด๊ฐ 6๊ฐ์ง ์ถ ์ ๋ ฌ ์ค๋ ฅ ๋ฐฉํฅ(ยฑx, ยฑy, ยฑz) ํ์์ 2.5์ด ์๋ฎฌ๋ ์ด์ ํ์๋ ์๊ณผ ์ ์ด์ ์ ์งํ๋์ง ํ๊ฐํฉ๋๋ค.
- Execution Feasibility: ๊ทธ๋ฉ์ด ํ๊ฒฝ๊ณผ์ ์ถฉ๋ ์์ด ์ฑ๊ณต์ ์ผ๋ก ์คํ๋ ์ ์๋์ง ํ์ธํฉ๋๋ค.
- ๋ค์ค ๊ฐ์ฒด ๊ทธ๋ฉ ๊ตฌ์ฑ ๋ณํฉ:
- ๊ฒ์ฆ๋ ๋จ์ผ ๊ฐ์ฒด ๊ทธ๋ฉ ํฌ์ฆ๋ค์ ๋ณํฉํ์ฌ ๋ค์ค ๊ฐ์ฒด ๊ทธ๋ฉ ๊ตฌ์ฑ์ ์์ฑํฉ๋๋ค. ์ด ๊ณผ์ ์ ๊ด๋ จ ์ ๋งํฌ์ ๊ด์ ์ด ์์ ํ ๋ถ๋ฆฌ๋์ด ์์ ๋๋ง ๊ฐ๋ฅํฉ๋๋ค.
- ๋ณํฉ ์, ๊ฐ ์๊ฐ๋ฝ์ ๊ด์ ๊ฐ๋๋ ํด๋น ์๊ฐ๋ฝ์ด ์ก๋ ๊ฐ์ฒด์ ์ ์ด์ ์ ๋ฐ๋ผ ์ค์ ๋ฉ๋๋ค. ์ด๋ค ๊ฐ์ฒด๋ ์ก์ง ์๋ ์๊ฐ๋ฝ์ ๊ด์ ๊ฐ๋๋ ๋จ์ผ ๊ฐ์ฒด ๊ทธ๋ฉ ์ค ํ๋์์ ๋ฌด์์๋ก ์์๋ฐ์ ๋น๊ฒน์นจ ์ ์ด ์ ์ฝ ์กฐ๊ฑด์ ์ ์งํฉ๋๋ค.
- Diffusion-based ํฌ์ฆ ์์ฑ:
- ๊ทธ๋ฉ ํฌ์ฆ ์์ฑ์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด, ๊ฐ์ฒด์ point cloud P = \{P_j\}_{j=1}^{N_o}์ ์กฐ๊ฑดํ๋ diffusion model [40]์ ํ๋ จํ์ฌ ์ ํฌ์ฆ๋ฅผ ์ ์ํฉ๋๋ค.
- Forward Process (๋ ธ์ด์ฆ ์ถ๊ฐ): q(H_t |H_{t-1}) = \mathcal{N} \left( H_t ; \sqrt{1 - \beta_t} H_{t-1}, \beta_t \mathbf{I} \right) ์ฌ๊ธฐ์ \beta_t๋ ๋ ธ์ด์ฆ ๋ ๋ฒจ์ ์ ์ดํ๊ณ \mathbf{I}๋ ํญ๋ฑ ํ๋ ฌ์ ๋๋ค.
- Reverse Process (๋ ธ์ด์ฆ ์ ๊ฑฐ ๋ฐ ์ฌ๊ตฌ์ฑ): p_\phi (H_{t-1}|H_t , P) = \mathcal{N} \left( H_{t-1}; \mu_\phi (H_t ,t, P), \Sigma_\phi (H_t ,t, P) \right) ์ฌ๊ธฐ์ \mu_\phi์ \Sigma_\phi๋ ๊ฐ๊ฐ ์์ธก๋ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๋๋ค.
- ๋คํธ์ํฌ๋ PointNet++ [43]๋ฅผ ์ฌ์ฉํ์ฌ point cloud ํน์ง์ ์ถ์ถํ๊ณ , ํ์ ํ๋ ฌ๋ก ๊ฐ์ฒด ๋ฐฉํฅ์ ํํํ๋ฉฐ, singular value decomposition (SVD) [44]๋ฅผ ์ ์ฉํ์ฌ ์ง๊ต์ฑ์ ๋ณด์ฅํฉ๋๋ค.
- ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ ์คํ ์ ๋ต:
- ๋ณต์กํ reinforcement learning (RL) ์ ์ฑ ๋์ , simple squeeze-and-lift ์ ์ฐจ๋ฅผ ์ฑํํฉ๋๋ค.
- CuRobo [45]๋ฅผ ์ฌ์ฉํ์ฌ ์๋ ์ดํํฐ๋ฅผ ๊ทธ๋ฉ ํฌ์ฆ์์ ์คํ์ ๋ ์ถฉ๋ ์๋ ํฌ์ฆ๋ก ๋ชจ์ ํ๋๋ํฉ๋๋ค.
- ์ดํ ์ถฉ๋ ๊ฒ์ฌ ์์ด ๊ทธ๋ฉ ํฌ์ฆ๋ก ๋๋ฆฌ๊ฒ ์ด๋ํ๋ฉฐ, ์ ๊ด์ ์์น๋ฅผ ๋ ๋จ๊ณ๋ก ์กฐ์ ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋
pre-grasp joint position
์ผ๋ก ์๊ฐ๋ฝ ๋์ ํํด์ํค๊ณ , ๋ ๋ฒ์งธ๋target joint position
์ผ๋ก ์๊ฐ๋ฝ์ ๋ซ์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ๊ด๋ฒ์ํ ์คํ์ด ์ํ๋์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ 8x8 ๊ฐ์ฒด ์กฐํฉ์ ๋ํด Synthesized Grasp (SG) ๋ฐฉ์์ด ํ๊ท 82.7%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, diffusion model ๊ธฐ๋ฐ Learned Grasp (LG) ๋ฐฉ์์ 65.8%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ค์ ๋ก๋ด ์์คํ ์ ์ฌ์ฉํ ์คํ์์๋ 6x3 ๊ฐ์ฒด ์กฐํฉ์ ๋ํด SG๊ฐ 64.4%, LG๊ฐ 56.7%์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์ค์ ํ๊ฒฝ point cloud ํ๋์ ์ํด Nerfstudio [50], COLMAP [51], Stable Normal [52], 2D Gaussian Splatting [53] ๋ฑ์ ๊ธฐ์ ์ด ํ์ฉ๋์ด sim-to-real gap์ ์ค์์ต๋๋ค.
SeqMultiGrasp๋ ์ฌ์ ํ ๋ ๊ฐ์ ๊ฐ์ฒด๋ง ๋ค๋ฃจ๋ฉฐ ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ค์์ฑ, ๊ทธ๋ฆฌ๊ณ ํด๋ฆฌ์คํฑ์ ๋ํ ์์กด์ฑ ๋ฑ ๋ช ๊ฐ์ง ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ค์ฌ๋ค๋ฅํ ๋ค์ค ๊ฐ์ฒด ํ์ง ๋ถ์ผ์ ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ์ ๋งํ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.