๐Grasp as You Say ๋ฆฌ๋ทฐ
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์์ฐ์ด ๋ช ๋ น์ ๋ฐ๋ผ ์ ๊ตํ ์กฐ์(dexterous grasping)์ ์ํํ๋ ์๋ก์ด ๊ณผ์ ์ธ DexGYS๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ์ํด ์ธ์ด ์๋ด๊ฐ ํฌํจ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ DexGYSNet์ ๊ตฌ์ถํ์ต๋๋ค.
- ๐ DexGYSNet์ ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ ๋ฆฌํ๊ฒํ (HOIR) ๋ฐ LLM(Large Language Model) ์ง์ ์ธ์ด ์ฃผ์ ์์คํ ์ ํ์ฉํ์ฌ ๋น์ฉ ํจ์จ์ ์ผ๋ก ๊ตฌ์ถ๋์์ผ๋ฉฐ, 5๋ง ์์ ๊ณ ํ์ง ๋ฑ์คํฐ๋ฌ์ค ๊ทธ๋ฉ ๋ฐ์ดํฐ์ ํด๋น ์ธ์ด ์ง์๋ฅผ ํฌํจํฉ๋๋ค.
- ๐ง ๋ํ, ์๋ ์ผ์น, ๋์ ๋ค์์ฑ, ๊ณ ํ์ง ๊ทธ๋ฉ ์์ฑ์ ์ํ DexGYSGrasp ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ๋ณต์กํ ํ์ต ๊ณผ์ ์ ๋ ๊ฐ์ง ์ ์ง์ ๋ชฉํ๋ก ๋ถํดํ์ฌ ๊ธฐ์กด ์ต์ ๋ฐฉ๋ฒ๋ก ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
1 Brief Review
์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์์ฐ์ด ๋ช ๋ น์ ๊ธฐ๋ฐํ์ฌ ์ ๊ตํ(dexterous) ๊ทธ๋ฆฝ์ ์ํํ ์ ์๋๋ก ํ๋ ์๋ก์ด ํ์คํฌ์ธ โ์ธ์ด๋ฅผ ํตํ ์ ๊ตํ ๊ทธ๋ฆฝ(Dexterous Grasp as You Say, DexGYS)โ์ ํ๊ตฌํฉ๋๋ค. ์ด ๋ถ์ผ์ ๋ฐ์ ์ ๊ฐ๋ก๋ง๋ ์ฃผ์ ์ฅ์ ๋ฌผ์ ์์ฐ์ด ์๋ด๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ์ ์ ๋ถ์กฑ์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ ๊ณ ํ์ง์ ์ ๊ตํ ๊ทธ๋ฆฝ ์ฃผ์๊ณผ ์ ์ฐํ๊ณ ์ธ๋ฐํ ์ธ๊ฐ ์ธ์ด ์๋ด๋ฅผ ์ ๊ณตํ๋ ์ธ์ด ์๋ด ์ ๊ตํ ๊ทธ๋ฆฝ ๋ฐ์ดํฐ์ ์ธ DexGYSNet์ ์ ์ํฉ๋๋ค.
DexGYSNet ๋ฐ์ดํฐ์ ๊ตฌ์ถ:
DexGYSNet์ ๋น์ฉ ํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ๊ตฌ์ถ๋ฉ๋๋ค.
- Hand-Object Interaction Retargeting (HOIR): ์ฝ๊ฒ ์ป์ ์ ์๋ ์ธ๊ฐ์ ์-๊ฐ์ฒด ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด์ ์ ๊ตํ ์์ ์ฌํ๊ฒํ
ํ์ฌ ์ ์ด ์ผ๊ด์ฑ๊ณผ ๊ณ ํ์ง ๊ทธ๋ฆฝ ์์ธ๋ฅผ ์ ์งํฉ๋๋ค. HOIR ์ ๋ต์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ์์ธ ์ด๊ธฐํ(pose initialization): ์ธ๊ฐ ์์ธ์ ์ ์ฌํ ๊ตฌ์กฐ๋ก๋ถํฐ ์ ๊ตํ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณต์ฌํ์ฌ ์ด๊ธฐ๊ฐ์ ์ค์ ํฉ๋๋ค.
- ์๊ฐ๋ฝ ๋ ์ ๋ ฌ(fingertip alignment): ์ ๊ตํ ์ ์์ธ๋ฅผ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ์ต์ ํํ์ฌ ์๊ฐ๋ฝ ๋ ์์น๋ฅผ ์ธ๊ฐ์ ์๊ณผ ์ ๋ ฌ์ํต๋๋ค. ์ด๋ ๋ค์์ ๋ชฉ์ ํจ์๋ฅผ ํตํด ๋ฌ์ฑ๋ฉ๋๋ค: \min_{G_{dex}=(r,t,q)} \sum_k \|p_{dex,ft_k} - p_{mano,ft_k}\|_2^2 ์ฌ๊ธฐ์ p_{dex,ft_k}๋ ์ ๊ตํ ์์ k๋ฒ์งธ ์๊ฐ๋ฝ ๋ ์์น๋ฅผ, p_{mano,ft_k}๋ MANO ๋ชจ๋ธ์ k๋ฒ์งธ ์๊ฐ๋ฝ ๋ ์์น๋ฅผ ๋ํ๋ ๋๋ค.
- ์ํธ์์ฉ ์ ์ (interaction refinement): ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ํ๋น์ฑ์ ๋์ด๊ณ ์ผ๊ด์ฑ์ ์ ์งํ๊ธฐ ์ํด ์ ๊ตํ ์ ์์ธ๋ฅผ ์ถ๊ฐ๋ก ์ต์ ํํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ์ ์ด ์์ญ์ ์ด์ ๋จ๊ณ์ ์ถ๋ ฅ๊ณผ ์ผ๊ด๋๊ฒ ์ ์งํ๊ณ ์ด๋(translation)์ ๊ณ ์ ์ํต๋๋ค. ์ต์ ํ ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \min_{(r,q)} (\lambda_{1pen}L_{pen} + \lambda_{1spen}L_{spen} + \lambda_{1joint}L_{joint} + \lambda_{1cmap}L_{cmap}) ์ฌ๊ธฐ์ L_{pen}์ ๊ฐ์ฒด ์นจํฌ ์์ค(object penetration loss), L_{spen}์ ์๊ธฐ-์นจํฌ ์์ค(self-penetration loss), L_{joint}๋ ๊ด์ ๊ฐ๋ ์์ค(joint angle loss), L_{cmap}์ ์ ์ด ๋งต ์์ค(contact map loss)์
๋๋ค. ๊ฐ ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
- ๊ฐ์ฒด ์นจํฌ ์์ค L_{pen}: \sum_i I(dsdf_i > 0) \cdot dsdf_i, ์ฌ๊ธฐ์ dsdf_i๋ ๊ฐ์ฒด ์ ์ผ๋ก๋ถํฐ ์ ๋ฉ์๊น์ง์ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ์ ๋๋ค.
- ์๊ธฐ-์นจํฌ ์์ค L_{spen}: \sum_{i,j}I(i=j) \cdot \max(0, \delta - d(p_{dex,sp_i}, p_{dex,sp_j})), ์ฌ๊ธฐ์ p_{dex,sp}๋ ์์ ๋ฏธ๋ฆฌ ์ ์๋ ์ต์ปค ์คํผ์ด์ด๋ฉฐ, \delta๋ ์๊ณ๊ฐ์ ๋๋ค. (๋ ผ๋ฌธ์ ์ ์๋ I(i=j) ํ๊ธฐ๋ ํต์์ ์ธ ์๊ธฐ-์นจํฌ ์์ค ํํ๊ณผ ๋ค์ ์์ดํ ์ ์์ต๋๋ค.)
- ๊ด์ ๊ฐ๋ ์์ค L_{joint}: \sum_i(\max(0, q_i - q_{max_i}) + \max(0, q_{min_i} - q_i)), ์ฌ๊ธฐ์ q_i๋ ๊ด์ ๊ฐ๋, q_{max_i}์ q_{min_i}๋ ๊ฐ๊ฐ ์ต๋ ๋ฐ ์ต์ ๊ด์ ๊ฐ๋์ ๋๋ค.
- ์ ์ด ๋งต ์์ค L_{cmap}: \sum_i\|c_{obj_i} - \hat{c}_{obj_i}\|_2^2, ์ฌ๊ธฐ์ c_{obj_i}๋ ๋์ ์ ์ด ๋งต, \hat{c}_{obj_i}๋ ์์ธก๋ ์ ์ด ๋งต์ ๋๋ค.
- LLM-assisted Language Guidance Annotation: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋์์ ๋ฐ์ ์ ์ฐํ๊ณ ์ธ๋ฐํ ์ธ์ด ์๋ด ์ฃผ์์ ์์ฑํ๋ coarse-to-fine ์๋ ์ฃผ์ ์์คํ ์ ๊ฐ๋ฐํฉ๋๋ค. ์ด ์์คํ ์ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ๊ฐ๋ตํ ์ธ๊ฐ ์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ตํ ์๋ด๋ฅผ ์์ฑํ ๋ค์, ๊ฐ ์๊ฐ๋ฝ์ ์ ์ด ์ ๋ณด๋ฅผ ์ธ์ด ์ค๋ช ์๋ก ๊ตฌ์ฑํ๊ณ , ์ต์ข ์ ์ผ๋ก ์ด ์ ๋ณด๋ค์ GPT-3.5์ ์ ๋ ฅํ์ฌ ์์ฐ์ค๋ฌ์ด ์ฃผ์ ์๋ด๋ฅผ ์์ฑํฉ๋๋ค.
DexGYSGrasp ํ๋ ์์ํฌ:
DexGYSNet ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์๋ค์ ์๋ ์ ๋ ฌ, ๊ณ ํ์ง, ๋ค์์ฑ์ ๋ณด์ฅํ๋ DexGYSGrasp ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ณต์กํ ํ์ต ๊ณผ์ ์ ๋ ๊ฐ์ง ๊ด๋ฆฌ ๊ฐ๋ฅํ ์ ์ง์ ๋ชฉํ๋ก ๋ถํดํ๊ณ ์ด๋ฅผ ์คํํ๊ธฐ ์ํ ๋ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ฅผ ๋์ ํฉ๋๋ค.
์ ์ง์ ๊ทธ๋ฆฝ ๋ชฉํ (Progressive Grasp Objectives):
๋จ์ผ ๋ชจ๋ธ์ด ์๋ ์ ๋ ฌ, ๋ค์์ฑ, ๊ณ ํ์ง์ด๋ผ๋ ์ธ ๊ฐ์ง ์๊ตฌ์ฌํญ์ ๋์์ ์ถฉ์กฑํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํนํ ์-๊ฐ์ฒด ์นจํฌ๋ฅผ ๋ฐฉ์งํ๋ ๋ฐ ์ฌ์ฉ๋๋ ์นจํฌ ์์ค(L_{pen})์ด ๋ค์์ฑ๊ณผ ์๋ ์ ๋ ฌ์ ์ ํดํ๋ ๋ฌธ์ ์ ์ฃผ๋ชฉํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ์ต ๋ชฉํ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ถํดํฉ๋๋ค:
- ์์ฑ์ ๋ชฉํ: ๊ทธ๋ฆฝ ๋ถํฌ ํ์ต์ ์ค์ ์ ๋ก๋๋ค. ์ด ๋จ๊ณ์์๋ ํ์ง๋ณด๋ค๋ ์๋ ์ ๋ ฌ๊ณผ ์์ฑ ๋ค์์ฑ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, ์นจํฌ ์์ค์ ์ ์ฝ ์์ด ์ต์ ํํฉ๋๋ค.
- ํ๊ท์ ๋ชฉํ: ์ด๊ธฐ ๊ฑฐ์น ๊ทธ๋ฆฝ์ ๋์ผํ ์๋์ ๋ค์์ฑ์ ์ ์งํ๋ฉด์ ๊ณ ํ์ง ๊ทธ๋ฆฝ์ผ๋ก ์ ์ ํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ์นจํฌ ์์ค์ ํ์ฉํ์ฌ ๊ฐ์ฒด ์นจํฌ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
์ ์ง์ ๊ทธ๋ฆฝ ๊ตฌ์ฑ ์์ (Progressive Grasp Components):
์ด๋ฌํ ์ ์ง์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ฅผ ์ค๊ณํฉ๋๋ค:
- ์๋ ๋ฐ ๋ค์์ฑ ๊ทธ๋ฆฝ ๊ตฌ์ฑ ์์ (Intention and Diversity Grasp Component, IDGC):
- ๊ทธ๋ฆฝ ๋ถํฌ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ ์๋ ์ ๋ ฌ ๋ฐ ๋ค์ํ ์์ฑ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ(conditional diffusion model)์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
- ์ ๋ ฅ์ผ๋ก ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋(O)๋ PointNet++ [45]๋ก ์ธ์ฝ๋ฉ๋๊ณ , ์ธ์ด ์๋ด(L)๋ ์ฌ์ ํ์ต๋ CLIP ๋ชจ๋ธ [46]๋ก ์ธ์ฝ๋ฉ๋์ด ์กฐ๊ฑด๋ถ ์ ๋ณด๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- DDPM [47]์ ์ํ๋ง ํ๋ก์ธ์ค๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ์ ํํ๋ฉ๋๋ค: p_{\theta}(G_{dex0} | O, L) = p(G_T) \prod_{t=1}^T p(G_{t-1} | G_t, O, L) ์ฌ๊ธฐ์ G_{dex0}๋ ์๋์ ๊ทธ๋ฆฝ ์์ธ, G_T๋ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์์ธ, G_t๋ ์ค๊ฐ ์๊ฐ ๋จ๊ณ์ ์์ธ์ ๋๋ค.
- ํ์ต ์์๋ ํ๊ท ์์ค๋ง์ ์ฌ์ฉํ๋ฉฐ, ์นจํฌ ์์ค์ ์๋ ์ผ๊ด์ฑ๊ณผ ๊ทธ๋ฆฝ ๋ค์์ฑ์ ํฅ์์ํค๊ธฐ ์ํด ๋ฐฐ์ ๋ฉ๋๋ค. ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{IDG} = \lambda_{2para}L_{para}(G_{dex0}, \hat{G}_{dex}) + \lambda_{2chamfer}L_{chamfer}(H(G_{dex0}), H(\hat{G}_{dex})) ์ฌ๊ธฐ์ L_{para}๋ ์์ธ ํ๋ผ๋ฏธํฐ์ ๋ํ MSE ์์ค์ด๋ฉฐ, L_{chamfer}๋ ์ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ํ Chamfer Distance ์์ค์ ๋๋ค.
- ํ์ง ๊ทธ๋ฆฝ ๊ตฌ์ฑ ์์ (Quality Grasp Component, QGC):
- ์ฒซ ๋ฒ์งธ ๊ตฌ์ฑ ์์์์ ์์ฑ๋ ๊ฑฐ์น ๊ทธ๋ฆฝ์ ์๋๋ ์ ์ ๋ ฌ๋๊ณ ๋ค์ํ์ง๋ง, ๊ฐ์ฒด ์นจํฌ๊ฐ ์ฌํ์ฌ ํ์ง์ด ์ข์ง ์์ต๋๋ค. QGC๋ ์ด๋ฌํ ๊ฑฐ์น ๊ทธ๋ฆฝ(\hat{G}_{dex})์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ์ง์ ์ ์ ํ๋ ์ญํ ์ ํฉ๋๋ค.
- ์ ๋ ฅ์ผ๋ก ๊ฑฐ์น ์์ธ \hat{G}_{dex}, ๊ฑฐ์น ์ ํฌ์ธํธ ํด๋ผ์ฐ๋ H(\hat{G}_{dex}) ๋ฐ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋ O๋ฅผ ๋ฐ์ผ๋ฉฐ, \Delta G_{dex}๋ฅผ ์ถ๋ ฅํ์ฌ ์ ์ ๋ ๊ทธ๋ฆฝ \tilde{G}_{dex} = \hat{G}_{dex} + \Delta G_{dex}๋ฅผ ์ป์ต๋๋ค.
- ํ์ต ์์ IDGC๊ฐ ์์ฑํ ๊ฑฐ์น ๊ทธ๋ฆฝ๊ณผ ๊ฐ์ฅ ์ ์ฌํ ๊ทธ๋ผ์ด๋-ํธ๋ฃจ์ค ๊ทธ๋ฆฝ์ผ๋ก ๊ตฌ์ฑ๋์ด, ์ ์ ๋ ๊ทธ๋ฆฝ์ด ์๋๋ ํ๋๊ณผ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ๋ณด์ฅํฉ๋๋ค.
- ์ด ๊ตฌ์ฑ ์์๋ ์นจํฌ ์์ค์ ํฌํจํ ์์ค ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค: L_{QG} = \lambda_{3para}L_{para} + \lambda_{3chamfer}L_{chamfer} + \lambda_{3pen}L_{pen} + \lambda_{3cmap}L_{cmap} + \lambda_{3spen}L_{spen} ์ฌ๊ธฐ์ \lambda๋ ๊ฐ ์์ค ํญ์ ๊ฐ์ค์น์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
DexGYSNet ๋ฐ์ดํฐ์ ๋ฐ ์ค์ ํ๊ฒฝ์์์ ๊ด๋ฒ์ํ ์คํ์ ํตํด ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ค์ํ ๊ฐ์ฒด์ ๋ํด ์๋ ์ผ๊ด์ฑ, ๋์ ๋ค์์ฑ, ๊ทธ๋ฆฌ๊ณ ๊ณ ํ์ง์ ๊ทธ๋ฆฝ ์์ธ๋ฅผ ์์ฑํ ์ ์์์ ์ ์ฆํฉ๋๋ค. ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ ์๋ ์ผ๊ด์ฑ๊ณผ ๊ทธ๋ฆฝ ๋ค์์ฑ ์ธก๋ฉด์์ ํจ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๊ทธ๋ฆฝ ํ์ง ์ธก๋ฉด์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ํนํ, ์นจํฌ ์์ค์ ์ํฅ์ ๋ํ ์ ๋์ ๋ถ์๊ณผ ์ ์ง์ ๊ตฌ์ฑ ์์ ๋ฐ ์์ค์ ํ์์ฑ์ ๊ฒ์ฆํ๋ ์ด๋ธ๋ ์ด์ ์ฐ๊ตฌ๋ ์ ์๋ ํ๋ ์์ํฌ์ ํต์ฌ ํต์ฐฐ๋ ฅ์ ๋ท๋ฐ์นจํฉ๋๋ค. ๋ํ, HOIR ์ ๋ต์ ํจ๊ณผ์ฑ๊ณผ ๋ค๋ฅธ SOTA ๋ฐฉ๋ฒ์ ๋ํ ํ๋ฌ๊ทธ-์ค-ํ๋ ์ด(Plug-and-play) ๊ฐ๋ฅ์ฑ๋ ํ์ธ๋์์ต๋๋ค. ์ค์ ์ธ๊ณ ์คํ์์๋ Allegro hand, Flexiv Rizon 4 ์, Intel Realsense D415 ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์๋ ๋ฐฉ๋ฒ์ ์ค์ฉ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์ธ๊ฐ ์ธ์ด์ ๋ง์ถฐ ๊ณ ํ์ง์ ์ ๊ตํ ๊ทธ๋ฆฝ์ ์ํํ ์ ์๋๋ก ํ๋ โDexterous Grasp as You Sayโ๋ผ๋ ์๋ก์ด ํ์คํฌ๋ฅผ ํ๊ตฌํ๊ณ , ์ด๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ๋น์ฉ ํจ์จ์ ์ธ ๋ฐ์ดํฐ์ DexGYSNet๊ณผ ์ ์ง์ ํ์ต ํ๋ ์์ํฌ DexGYSGrasp๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์ด์งํ๊ณ ๋ก๋ด์ ์ค์ ํ๊ฒฝ ๋ฐฐํฌ๋ฅผ ๊ฐ์ํํ๋ ๋ฐ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค.
2 Detail Review
Grasp as You Say: ์ธ์ด๋ก ์๋ดํ๋ ๋ค์ง ๋ก๋ด ํธ๋ ๊ทธ๋ฆฝ ์์ฑ โ NeurIPS 2024 ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
2.1 ํต์ฌ ์์ด๋์ด ๋ฐ ๋ฌธ์ ์ค์
๋ค์ง ๋ก๋ด ์์ ์ด์ฉํ ์ฌ์ธํ ํ์ง(dexterous grasping)๋ฅผ ์ฌ๋์ ์์ฐ์ด ์ง์๋ก ์ํํ๋ ์๋ก์ด ๊ณผ์ โDexterous Grasp as You Say (DexGYS)โ๋ฅผ ์ ์ํ ๋ ผ๋ฌธ์ ๋๋ค. ๊ธฐ์กด์ ๋ค์ง ์ ํ์ง ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ๊ทธ๋ฆฝ ์์ ์ฑ ํ๋ณด์ ์ง์คํ์ง๋ง, ์ฌ๋ ์๋์ ๋ง๋ ์ฌ์ธํ ํ์ง์๋ ๋ฏธ์น์ง ๋ชปํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด์ ์์ ๋ค์ ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์๋๋ก ์ก๋ ๋ฐ ์ด์ ์ ๋ง์ถ์์ผ๋, โ์์ก์ด๋ฅผ ๊ฒ์ง๋ก ๋๋ฌ ์ก์๋ผโ์ ๊ฐ์ด ํน์ ๋ฐฉ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ์ธ๊ฐ์ ์๋๋ฅผ ๋ฐ์ํ์ง๋ ๋ชปํ์ต๋๋ค. ์ต๊ทผ ๊ณผ์ ์งํฅ ๋๋ ๊ธฐ๋ฅ ์งํฅ ๋ค์ง ํ์ง ์ฐ๊ตฌ๋ค์ด ๋ฑ์ฅํ์ง๋ง, ๋ฏธ๋ฆฌ ์ ํด์ง ํ์ ์ ์์ ๋ค๋ง ๋์ํ์ฌ ์ ์ฐ์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ด ๋ถ์กฑํ์ต๋๋ค.
DexGYS ๊ณผ์ ๋ ์ฌ๋์ด ์์ฐ์ด๋ก ์ค๋ช ํ๋ ์ ์ฐํ๊ณ ์ธ๋ถํ๋ ํ์ง ์๋๋ฅผ ๋ก๋ด ์์ด ๊ทธ๋๋ก ๊ตฌํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด ๊ณผ์ ์ค์ ์ ํต์ฌ ์์ด๋์ด๋, ๋ก๋ด์๊ฒ ์ธ์ด๋ก ์๋๋ฅผ ์ ๋ฌํ์ฌ ์ธ๊ฐ๊ณผ ๋ณด๋ค ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ ๊ฐ๋ฅ์ผ ํ๊ณ , ๋ก๋ด ๋ค์ง ์์ ์ ์ฌ๋ ฅ์ ์๋ ๊ธฐ๋ฐ์ ์ธ๊ฐ์ ์ฌ ํ์ง๋ก ํ์ฉํ๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์๋ก์ด ๊ณผ์ ์๋ ๋ ๊ฐ์ง ํฐ ๋์ ์ด ์กด์ฌํฉ๋๋ค.
์ฒซ์งธ, ์์ฐ์ด ์ง์๊ฐ ํฌํจ๋ ๋ค์ง ํ์ง ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํฉ๋๋ค. ๋ค์ง ์์ ์์ธ์ ๊ทธ์ ๋์๋๋ ์ฌ๋์ ์ธ์ด ์ง์๋ฅผ ๋์์ ๊ณ ํ์ง๋ก ์์งํ๋ ๊ฒ์ ๋น์ฉ์ด ๋งค์ฐ ๋๊ณ ๋ฒ๊ฑฐ๋กญ์ต๋๋ค. ๊ธฐ์กด์ ์ธ์ด์ ๊ฒฐํฉ๋ ํ์ง ๋ฐ์ดํฐ์ ์ด ์๊ธฐ ๋๋ฌธ์, ํ์ต์ ์ํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฒด๊ฐ ๋ถ์กฑํ ์ํฉ์ด์์ต๋๋ค. ๋์งธ, ์๋ ์ ํฉ์ฑ, ํ์ง ํ์ง(์์ ์ฑ), ๋ค์์ฑ์ ๋ชจ๋ ๋ง์กฑํ๋ ๋ก๋ด ์ ์์ธ๋ฅผ ๋์์ ์์ฑํ๋ ๊ฒ์ด ์ด๋ ต์ต๋๋ค. ํนํ, ๋ค์ง ์์ด ๋ฌผ์ฒด๋ฅผ ๊ดํตํ์ง ์๋๋ก ํ๋ penetration loss๋ฅผ ํ์ต์ ๋ฃ์ผ๋ฉด ํ์ง ํ์ง์ ์ข์์ง์ง๋ง ์คํ๋ ค ์๋์์ ๋ฒ์ด๋๊ฑฐ๋ ๋ค์์ฑ์ด ๊ฐ์ํ๋ ํ์์ด ๋ฐ์ํฉ๋๋ค. ๋ฐ๋๋ก ๊ดํต ํ๋ํฐ๋ฅผ ์์ ๋ฉด ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ๋ซ๊ณ ์ง๋๊ฐ๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ํ์ง๊ฐ ์๊ธธ ์ ์์ต๋๋ค. ์ด๋ฌํ ํธ๋ ์ด๋์คํ ๋๋ฌธ์ ์๋-ํ์ง-๋ค์์ฑ์ ํ๊บผ๋ฒ์ ๋ฌ์ฑํ๊ธฐ๊ฐ ๊น๋ค๋ก์ด ๋ฌธ์ ๊ฐ ์ ๊ธฐ๋ฉ๋๋ค.
2.2 ์ ์ํ ๋ฐฉ๋ฒ์ ๊ธฐ์ ์ ๊ธฐ์ฌ ๋ฐ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ฑ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ ๋ฐ์ดํฐ์ ๋ถํฐ ๋ชจ๋ธ์ ์ด๋ฅด๋ ์ด์ฒด์ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค๋ ๋ฐ ์์ต๋๋ค. ์ฃผ์ ๊ธฐ์ ์ ๊ธฐ์ฌ์ ๊ธฐ์กด ์์ ๊ณผ์ ์ฐจ๋ณ์ฑ์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ธ๊ณ ์ต์ด์ ์ธ์ด ์๋ด ๋ค์ง ํ์ง ๋ฐ์ดํฐ์ ๊ตฌ์ถ: ์ ์๋ค์ DexGYSNet์ด๋ผ๋ ๋๊ท๋ชจ ์ธ์ด-๋ค์ง ํ์ง ๋ฐ์ดํฐ์ ์ ์๋ก ๊ตฌ์ถํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ 1,800๊ฐ ์ผ์ ๋ฌผ์ฒด์ ๋ํด 50,000์์ ๋ก๋ด ์ ์์ธ์ ์ธ๊ฐ ์์ฐ์ด ์ง์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ์ด์ ์๋ ์ด๋ฌํ ํํ์ ๋ฐ์ดํฐ๊ฐ ์์ด ํ์ต์ ์ด๋ ค์์ด ์์๋๋ฐ, DexGYSNet์ LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)์ ํ์ฉํ ํ ์คํธ ์ฃผ์ ์์ฑ๊ณผ ์-๋ฌผ์ฒด ์ํธ์์ฉ ์ฌํ๊นํ (HOIR) ๊ธฐ๋ฒ์ผ๋ก ๋น์ฉ ํจ์จ์ ์ด๋ฉด์๋ ๊ณ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ค๋ ์ ์์ ํฐ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค. HOIR ๊ธฐ๋ฒ์ ํตํด ์ธ๊ฐ ์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์ ๋ชจ๋ธ๋ก ์ ์ดํ์ฌ ์ ์ด ์ง์ ์ ์ผ์น์ ์์ฐ์ค๋ฌ์ด ์ ์์ธ๋ฅผ ์ป์๊ณ , LLM ๊ธฐ๋ฐ ์๋ ์ฃผ์์ผ๋ก ์ธ๋ฐํ๊ณ ๋ค์ํ ํํ์ ์ธ์ด ์ง์๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๋ ๊ธฐ์กด ์์ ๋ค์ด ์์์ ์ ํํ๋ ์ง์๋ ์ ํ๋ ๊ธฐ๋ฅ๋ง ๋ค๋ฃฌ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ ์ฐํ๊ณ ํ๋ถํ ์ธ์ด-ํ๋ ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ์ ์ ๊ณตํ ๊ฒ์ ๋๋ค.
์๋ ์ ํฉ์ฑ๊ณผ ํ์ง์ ๋ชจ๋ ๋ง์กฑํ๋ ์๋ก์ด ํ์ง ์์ฑ ํ๋ ์์ํฌ ์ ์:** ๋ฐ์ดํฐ์ ์ ๋ฐํ์ผ๋ก ์ ์๋ค์ DexGYSGrasp๋ผ๋ 2๋จ๊ณ ํ์ง ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ ๊ธฐ์กด์ ํ๋์ ๋ชจ๋ธ๋ก ๋ชจ๋ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ค๋ค ๊ดํต ํ๋ํฐ๋ก ์ธํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช์๋ ์ ๊ทผ๋ค๊ณผ ๋ฌ๋ฆฌ, ํ์ต ๋ชฉํ๋ฅผ ๋ ๋จ๊ณ๋ก ๋ถ๋ฆฌํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ โ์๋ ๋ฐ ๋ค์์ฑ ํ์ง ์์ฑ (IDGC: Intention & Diversity Grasp Component)โ์ผ๋ก, ์ธ์ด ์๋์ ๋ถํฉํ๋ฉด์ ๋ค์ํ ํ์ง๋ฅผ ์์ฑํ๋ ํ์ฐ ์์ฑ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋จ๊ณ์์๋ ๊ดํต์ ๋ํ ์ ์ฝ์ ๊ณผ๊ฐํ ์ ์ธํ์ฌ, ๋ชจ๋ธ์ด ์๋ ์ ํฉํ ๋ค์ํ ์ ์์ธ ๋ถํฌ๋ฅผ ์์ ๋กญ๊ฒ ํ์ตํ๋๋ก ํฉ๋๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ๋ โํ์ง ํฅ์ ํ์ง ์์ฑ (QGC: Quality Grasp Component)โ์ผ๋ก, 1๋จ๊ณ ์ถ๋ ฅ์ธ ๊ฑฐ์น ํ์ง ๊ฒฐ๊ณผ(coarse pose)๋ฅผ ๋ฐ์ ๋ฏธ์ธ ์กฐ์ ํจ์ผ๋ก์จ ์์ ์ ์ด๊ณ ๋ฌผ์ฒด๋ฅผ ๊ดํตํ์ง ์๋ ๊ณ ํ์ง ํ์ง๋ก ๊ฐ์ ํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ๊ดํต ์์ค๊ณผ ํ์ง ๊ด๋ จ ์์ค์ ์ ์ฉํ์ฌ ์๊ฐ๋ฝ๋ค์ด ๋ฌผ์ฒด ํ๋ฉด์ ๋ฐ์ฐฉ๋๋๋ก ์กฐ์ ํ๋, ์๋ฐ๋ฅ์ ์์น๋ ์ ์ฒด ์๋๋ ์ ์งํ์ฌ ์ฒ์ ์๋์์ ๋ฒ์ด๋์ง ์๋๋ก ํฉ๋๋ค. ์ด๋ฌํ ์ ์ง์ ํ์ต ์ ๋ต์ ๊ธฐ์กด ์ฐ๊ตฌ์ ์๋ ๋ฐ์์ผ๋ก, ๋ณต์กํ ์ต์ ํ ๋ฌธ์ ๋ฅผ ๋๋ก ์ชผ๊ฐ์ด ๊ฐ๊ฐ ํด๊ฒฐํจ์ผ๋ก์จ ์๋-ํ์ง-๋ค์์ฑ์ ๋ชจ๋ ๋ฌ์ฑํ๋ค๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค. ์ ์๋ค์ ํนํ ๊ดํต ์์ค์ 1๋จ๊ณ์์ ๋ฐฐ์ ํ๊ณ 2๋จ๊ณ์์๋ง ์ ์ฉํ๋ ํ๋ก๊ทธ๋ ์๋ธ ํ์ต ์์ด๋์ด๋ก, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ง๋ฉดํ๋ ํ์ต ์์ถฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค.
๊ธฐ์กด ๊ธฐ๋ฒ ๋๋น ํฅ์๋ ์ฑ๋ฅ ์ ์ฆ: ์ ์ํ DexGYSGrasp ํ๋ ์์ํฌ๋ ๋ค์ํ ๋น๊ต ๋์(SOTA ๊ธฐ๋ฒ)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, GraspCVAE(ํ๋ฅ ์ ์์ฑ๋ชจ๋ธ), GraspTTA(ํ ์คํธ์ ์ต์ ํ ๊ธฐ๋ฒ), SceneDiffuser(ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ), DGTR(Transformer ๊ธฐ๋ฐ) ๋ฑ๊ณผ ๋น๊ตํ์ ๋, ์๋ ์ ํฉ์ฑ ์ค์ฐจ๊ฐ ๊ฐ์ฅ ๋ฎ๊ณ ํ์ง ์์ธ์ ๋ค์์ฑ์ ์๋ฑํ ๋์ผ๋ฉด์๋ ํ์ง ์์ ์ฑ๋ ์ฐ์ํ์ต๋๋ค. ๋ํ ํ์ต ์ ๋ต์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ด๋ถ ์คํ(์ญ์ ์คํ)์์๋, ์ ์ํ 2๋จ๊ณ ๊ตฌ์ฑ๊ณผ ์์ค ์ค๊ณ๊ฐ ์์ผ๋ฉด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋จ์ ๋ณด์ฌ์ฃผ์ด, ํด๋น ์ค๊ณ๊ฐ ์ด ๋ฌธ์ ์ ํ์์ ์์ ์ฆ๋ช ํ์์ต๋๋ค. ์์ฝํ๋ฉด, ์ด ๋ ผ๋ฌธ์ ์๋ก์ด ๋ฌธ์ ์ค์ ๊ณผ ํจ๊ป ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐ์ดํฐ์ , ๋ชจ๋ธ, ํ์ต๋ฒ์ ๋ชจ๋ ์ ์ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ก ์ฌ๋ก ์ฐ๊ตฌ ๋ถ์ผ์์์ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ๋ค๋ ์ ์์ ํฐ ๊ธฐ์ ์ ์๋ฏธ๋ฅผ ๊ฐ์ต๋๋ค.
2.3 ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ํ์ต ๋ฐฉ๋ฒ์ ๊ตฌ์ฒด์ ๋ถ์
DexGYSGrasp ํ๋ ์์ํฌ๋ ์์ ์ธ๊ธํ ๋ ๊ฐ์ง ์ปดํฌ๋ํธ(๋จ๊ณ)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฒซ ๋ฒ์งธ ์ปดํฌ๋ํธ(IDGC)๋ ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ๋ก์, ๋ฌผ์ฒด์ ์ ๊ตฌ๋ฆ(point cloud)๊ณผ ์ธ์ด ์๋ฒ ๋ฉ์ ์ ๋ ฅ ๋ฐ์ ๋ก๋ด ์์ ํฌ์ฆ(์์ธ ํ๋ผ๋ฏธํฐ)๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ ๋ฌผ์ฒด์ ํ์ ์ ๋ณด๋ PointNet++๋ก ์ธ์ฝ๋ฉํ๊ณ , ์ธ์ด ์ง์๋ ์ฌ์ ํ์ต๋ CLIP ๋ชจ๋ธ๋ก ์๋ฒ ๋ฉํ์ฌ ์กฐ๊ฑด์ผ๋ก ํ์ฉํฉ๋๋ค. ํ์ฐ๋ชจ๋ธ์ DDPM (Denoising Diffusion Probabilistic Model) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, ๋ ธ์ด์ฆ์์๋ถํฐ ์ ์ง์ ์ผ๋ก ์ ์์ธ๋ฅผ ์์ฑํด๋ ๋๋ค. ํ๋ง๋๋ก, IDGC๋ โ๋ ธ์ด์ฆ โ ์ ํ์ง ์์ธโ๋ก์ ๋ถํฌ ์์ฑ์ ํ์ตํ๋ ๋ชจ๋์ ๋๋ค. ํ์ต ์ ์์ค ํจ์๋ L2 ํ๊ท ์์ค(์์ธกํ ๊ด์ ๊ฐ๋ ๋ฑ์ด ์ค์ ๊ฐ๊ณผ ๊ฐ๊น์์ง๋๋ก)๊ณผ ์ ๋ชจ์ ์ฑํผ ์์ค(์์ธก ์ ๋ชจ๋ธ๊ณผ ์ ๋ต ์ ๋ชจ๋ธ ๊ฐ์ Chamfer ๊ฑฐ๋ฆฌ ์ต์ํ)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ค์ํ ์ ์, ์ด ๋จ๊ณ์์๋ ๋ฌผ์ฒด์ ์์ ๊ฒน์นจ(๊ดํต)์ ๋ํ ํ๋ํฐ๋ฅผ ๋ฃ์ง ์์ต๋๋ค. ๊ดํต ์ ์ฝ์ด ์์ด์ผ ๋ชจ๋ธ์ด ๋ค์ํ ์์ธ๋ฅผ ์์ ๋กญ๊ฒ ์๋ํ๋ฉฐ ์ธ์ด ์๋์ ๋ง๋ ๊ฑฐ์น ํ์ง ํํ๋ค์ ํญ๋๊ฒ ์ตํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ IDGC๋ ์๋ ์ ํฉ์ฑ๊ณผ ๋ค์์ฑ์ ์ต์ฐ์ ์ผ๋ก ํ์ตํฉ๋๋ค.
๋ ๋ฒ์งธ ์ปดํฌ๋ํธ(QGC)๋ Transformer ๊ธฐ๋ฐ์ ํ์ฒ๋ฆฌ ๋ชจ๋๋ก, 1๋จ๊ณ์์ ์์ฑ๋ ๊ฑฐ์น ํ์ง ๊ฒฐ๊ณผ๋ฅผ ์ธ๋ฐ ์กฐ์ ํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ณ ํ์ง ํ์ง๋ก ๋ณํํฉ๋๋ค. QGC๋ ํ๊ท์ ์ ๊ทผ(regressive manner)์ ์ทจํ๋๋ฐ, ๊ฑฐ์น ์ ์์ธ์ ํด๋น ์ํฉ์ ๋ฌผ์ฒด/์ ์ ๊ตฌ๋ฆ ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ฏธ์ธ ์กฐ์ ๋ ์๋ก์ด ์ ์์ธ ์ถ๋ ฅ์ ์์ธกํฉ๋๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ๋ IDGC๋ก ์์ฑํ ๊ฑฐ์น ํ์ง ๊ฒฐ๊ณผ์ ๋ํด, ์ ์ฌํ ์๋์ ์ธ๊ฐ ์์ฐ ์ ๋ต(grasp)์ ํ๊ฒ์ผ๋ก ์ง์ง์ด ๊ตฌ์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ธ์ด ์ง์๊ฐ โ์ปต์ ์๋ฉด์์ ์ง๊ฒ์๊ฐ๋ฝ๊ณผ ์์ง๋ก ์ง์ด๋ผโ์ธ ๊ฒฝ์ฐ, IDGC ์ถ๋ ฅ์ด ์ปต ์๋ฉด์ ํฅํ๊ณ ์๋ค๋ฉด, ๊ทธ์ ์๋์ ์ผ๋ก ๋น์ทํ ๋ฐ์ดํฐ์ ๋ด์ ์ค์ ๊ทธ๋ฆฝ ์์ธ๋ฅผ ์ฐพ์ ๋ชฉํ ๊ฐ์ผ๋ก ์ผ์ QGC๋ฅผ ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด QGC๊ฐ ์ธ์ด ์๋์ ๋ถํฉํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ก ๋ณด์ฅํ๋ฉด์, ๋์์ ํ๊ฒ ํ์ง๋ฅผ ๋ชจ๋ฐฉํ๋ฉฐ ํ์ง ํฅ์์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค. QGC์ ๋คํธ์ํฌ๋ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ ๋ฑ์ ์ฌ์ฉํ์ฌ, ๋ฌผ์ฒด์ ์์ ๋ณตํฉ ํน์ง์ ๊ณ ๋ คํ๋ฉด์ ๊ด์ ๊ฐ๋ ๋ฑ์ ์กฐ์ ํ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํนํ ํ์ต ์ ์๋ฐ๋ฅ์ ์์น๋ ๋ฐฉํฅ(6-์์ ๋ ๋ฃจํธ ํฌ์ฆ)๋ ํฌ๊ฒ ๋ณ๊ฒฝํ์ง ์๊ณ ๊ณ ์ ํ๊ฑฐ๋ ์์ ๋ฒ์์์๋ง ์์ ํ๋๋ก ํจ์ผ๋ก์จ, ์ด๊ธฐ ๊ฑฐ์น ํ์ง์ ์๋๋ฅผ ์ ์งํ ์ฑ ์๊ฐ๋ฝ ๋ฐฐ์น๋ง ์ต์ ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. QGC ๋จ๊ณ์ ์์ค ํจ์์๋ ๋ฌผ์ฒด ๊ดํต ํ๋ํฐ๊ฐ ๋น๋ก์ ํฌํจ๋๋ฉฐ, ๊ทธ ์ธ์ ๋ชฉํ ํ์ง์์ ํ๊ท ์์ค ๋ฑ์ด ์ฌ์ฉ๋ฉ๋๋ค. ๊ดํต ํ๋ํฐ๋ ์ ๋ชจ๋ธ(mesh)๊ณผ ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ ๊ฐ ์ต๋ ๊ดํต ๊น์ด(P)๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์์ฉํ์ฌ, ์ถ๋ ฅ ์์ธ์์ ์์ด ๋ฌผ์ฒด๋ฅผ ๋ซ๊ณ ๋ค์ด๊ฐ์ง ์๋๋ก ๋ง๋ญ๋๋ค. ์ด์ฒ๋ผ QGC๋ ํ์ง๋ง์ ์ง์ค์ ์ผ๋ก ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์, 1๋จ๊ณ์ ๋๋นํ์ฌ ํจ์ฌ ์ข์ ํ์ ๊ณต๊ฐ(์ด๊ธฐ ํ์ง ์ฃผ๋ณ์ ์์ ์กฐ์ )์์ ํจ์จ์ ์ผ๋ก ํ์ต๋ ์ ์์ต๋๋ค.
์ ์ฒด์ ์ผ๋ก ๋ ๋จ๊ณ์ ๋ถ๋ฆฌ ๋๋ถ์, 1๋จ๊ณ IDGC๋ ์๋์ ๋ค์์ฑ์ ํนํ๋์ด ํ์ตํ๊ณ 2๋จ๊ณ QGC๋ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ์์ ์ฑ ํ๋ณด์ ์ฃผ๋ ฅํ๊ฒ ๋ฉ๋๋ค. ํ๋ก๊ทธ๋ ์๋ธ ํ์ต ์ ๋ต์ผ๋ก ๊ฐ ๋จ๊ณ์ ์ต์ ํ ๋ชฉํ๊ฐ ๋จ์ํ๋์ด, ๋จ์ผ ๋ชจ๋ธ๋ก ํ ๋ฒ์ ํ์ตํ ๋ ๋ฐ์ํ๋ ์๋-ํ์ง ์์ถฉ ๋ฌธ์ ๋ฅผ ํด์ํ ์ ์์์ต๋๋ค. ์ ์๋ค์ ์ค๋ช ์ ๋ฐ๋ฅด๋ฉด, ๋ชจ๋ ์์ค์ ํ ๋จ๊ณ์ ๋์์ ์ต์ ํํ๋ ค ํ๋ฉด ํ ์ชฝ์ ์ถฉ์กฑํ๋ฉด ๋ค๋ฅธ ์ชฝ์ด ๋๋น ์ง๋ ๋ฌธ์ ๊ฐ ์ปธ์ง๋ง, ๋จ๊ณ๋ฅผ ๋๋๊ณ ์ ์ ํ ์์ค์ ๋ฐฐ์นํ ๋๋ถ์ ์๋ ์ ํฉ์ฑ, ๊ทธ๋ฆฝ ํ์ง, ๋ค์์ฑ ๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ป์ ์ ์์๋ค๊ณ ํฉ๋๋ค.
ํํธ, DexGYSNet ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๊ณผ์ ์ ๊ธฐ์ ์ ์์๋ ๋์ฌ๊ฒจ๋ณผ ๋งํฉ๋๋ค. HOIR(Human-to-robot Hand-Object Interaction Retargeting) ์ ๋ต์ ํตํด ์ฌ๋ ์ ๋์์ ๋ก๋ด ์์ผ๋ก ์ฎ๊ธธ ๋ ์ ์ด ์ง์ ๊ณผ ํฌ์ฆ์ ์ผ๊ด์ฑ์ ์ ์งํ๋๋ก ํ์ต๋๋ค. ์ด๋ก์จ ๋ก๋ด ์์ด ์ฌ๋์ด ์ก์ ํํ๋ฅผ ์ต๋ํ ๊ทธ๋๋ก ๋ชจ์ฌํ๋ ๊ณ ํ์ง ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ป์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ธ์ด ์ฃผ์์ ๋ฌ๊ธฐ ์ํด GPT ๋ฑ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉ, ๊ฐ ํ์ง์ ๋ํด ์ ์ฐํ๊ณ ์์ธํ ์์ฐ์ด ์ค๋ช ์ ์๋ ์์ฑํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ ์ ์์ธ์ ๋ํด โ๊ฒ์ง๋ก ์คํ๋ ์ด์ ๋ฐฉ์์ ๋ฅผ ๋๋ฅด๋ฏ์ด ์ก๋๋คโ์ ๊ฐ์ ๋ฌธ์ฅ์ด ์ฃผ์ด์ง๋ ์์ ๋๋ค. ์ด๋ฌํ LLM ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ ์ฌ๋์ ์ผ์ผ์ด ์ฐธ์ฌ์ํค์ง ์๊ณ ๋ ๋ค์ํ ํํ์ ์ง์ ๋ฌธ์ฅ์ ๋ถ์ผ ์ ์๊ฒ ํด, ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๋ถํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๋น์ฉ์ผ๋ก ํ๋ณดํ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ๋ชจ๋ธ์ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ณด๋ฉด, 1๋จ๊ณ ํ์ฐ ๋ชจ๋ธ(IDGC)์ ์ฝ 100 epoch ๋์ ํ์ตํ๊ณ , 2๋จ๊ณ QGC๋ 20 epoch ๋จ์ง ํ์ตํ๋ค๊ณ ํฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ ์ํ๋ง ํน์ฑ์ ์ฌ๋ฌ ์ํ์ ์์ฑํ ์๋ ์๋๋ฐ, ์คํ์์๋ ํ๋์ ์กฐ๊ฑด์ ๋ํด 8๊ฐ์ ์ํ์ ๋ฝ์ ๋ค์์ฑ์ ํ๊ฐ์ ํ์ฉํ๊ธฐ๋ ํ์ต๋๋ค. ํ์ต์๋ SGD ๋ฑ์ ์ต์ ํ ๋ฐฉ๋ฒ์ด ์ฐ์์ผ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ ํ์ดํผํ๋ผ๋ฏธํฐ(์: ๊ดํต ์์ค ๊ฐ์ค์น๋ 2๋จ๊ณ์์ ์ผ๋ง๋ฅผ ์ฌ์ฉ ๋ฑ)๋ ๋ ผ๋ฌธ์ ๊ธฐ์ ๋์ด ์์ต๋๋ค. ์ข ํฉํ๋ฉด, DexGYSGrasp์ ์ํคํ ์ฒ๋ ํ์ฐ ๋ชจ๋ธ + ํธ๋์คํฌ๋จธ์ 2๋จ ๊ตฌ์กฐ, ์์คํจ์์ ๋จ๊ณ์ ์ ์ฉ, ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ ์ง๋ํ์ต์ ์กฐํฉ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
2.4 ์คํ ๊ฒฐ๊ณผ ๋ถ์ โ ๋ฐ์ดํฐ์ , ๋น๊ต ๋์, ์ฑ๋ฅ ์งํ ํ๊ฐ
DexGYSNet ๋ฐ์ดํฐ์ ์ ์์ ๋งํ ๋๋ก ์ด 50,000๊ฐ์ (์ธ์ด ์ง์, ๋ก๋ด ์ ํ์ง ์์ธ) ํ์ด๋ก ์ด๋ฃจ์ด์ง ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๋๋ค. ์ ์๋ค์ ์ด ๋ฐ์ดํฐ์ ์ ๊ฐ์ฒด ์ธ์คํด์ค ์์ค์์ ๋ถ๋ฆฌํ์ฌ ์คํํ์ต๋๋ค. ์ฆ, ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ์ ๋ฌผ์ฒด๋ผ๋ ์ผ๋ถ๋ ํ์ต์ฉ, ๋๋จธ์ง 20%๋ ํ๊ฐ์ฉ์ผ๋ก ํ์ฌ, ๋ชจ๋ธ์ด ๋ณด์ง ๋ชปํ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํด์๋ ํ์ง๋ฅผ ์์ฑํ๋๋ก ์ค์ ํ์ต๋๋ค. ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด๊ธฐ ์ํจ์ผ๋ก, ํน์ ๋ฌผ์ฒด ๋ชจ์๋ง ์ธ์ฐ์ง ์๊ณ ์ ๋ฌผ์ฒด์๋ ์ธ์ด ์ง์ ๊ธฐ๋ฐ ํ์ง ์์ฑ์ด ๊ฐ๋ฅํ์ง๋ฅผ ํ๊ฐํ ๊ฒ์ ๋๋ค.
ํ๊ฐ ์งํ๋ ์๋ ์ ํฉ์ฑ, ํ์ง ํ์ง(์์ ์ฑ), ํ์ง ๋ค์์ฑ์ ์ธ ์ธก๋ฉด์์ ์ค์ ๋์์ต๋๋ค. ์๋ ์ ํฉ์ฑ์ ์์ธกํ ๋ก๋ด ์์ ํํ๊ฐ ๋ชฉํ ์๋์ ์ผ๋ง๋ ์ผ์นํ๋๊ฐ๋ฅผ ๋ํ๋ด๋ฉฐ, Chamfer ๊ฑฐ๋ฆฌ์ Contact distance ๋ ๊ฐ์ง๋ฅผ ์ฌ์ฉํ์ต๋๋ค. Chamfer ๊ฑฐ๋ฆฌ๋ ์์ธกํ ์ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ๋ต ์ ๋ชจ๋ธ ๊ฐ ์ ๊ตฌ๋ฆ ๊ฑฐ๋ฆฌ๋ก, ๊ฐ์ด ์์์๋ก ์์ ํํ๊ฐ ์ ๋ต๊ณผ ๋น์ทํจ์ ์๋ฏธํฉ๋๋ค. Contact distance๋ ์์ธก ์๊ณผ ์ ๋ต ์์ด ๋ฌผ์ฒด๋ฅผ ์ ์ดํ ์ง์ ๋ค์ ๋ถํฌ ์ฐจ์ด๋ฅผ L2 ๊ฑฐ๋ฆฌ๋ก ์ธก์ ํ ๊ฒ์ผ๋ก, ์ด๊ฒ ์ญ์ ๋ฎ์์๋ก ์ ์ด ํจํด์ด ์ ์ฌํจ์ ๋ปํฉ๋๋ค. ์ฝ๊ฒ ๋งํด Chamfer์ Contact ์งํ๊ฐ ์์ผ๋ฉด, โ๋ก๋ด ์์ด ์ก์ ๋ชจ์๊ณผ ์์น๊ฐ ์ฌ๋์ด ์๋ํ ๊ทธ๊ฒ์ ๊ฐ๊น๋คโ๊ณ ๋ณผ ์ ์์ต๋๋ค. ํ์ง ํ์ง์ ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์๋์ง๋ฅผ ํ๊ฐํ๋ฉฐ, Q1 ์งํ์ ๊ดํต ๊น์ด(P)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. Q1์ DexGraspNet ๋ ผ๋ฌธใ15โ ใ์์ ์ ์๋ ์งํ๋ก์, ์ผ์ ๊ธฐ์ค(์ถฉ๋ถํ ์ ์ด๋ฉด์ , ํ์ฉ ๊ดํต๋ฒ์ ๋ฑ)์ ๋ง์กฑํ๋ ์ฑ๊ณต ๊ทธ๋ฆฝ์ ๋น์จ์ ์๋ฏธํฉ๋๋ค. ๊ฐ์ด ๋์์๋ก ํ์ง๊ฐ ์ฑ๊ณต์ ์ด๋ผ๋ ๋ป์ธ๋ฐ, 0~1 ๋ฒ์๊ฐ ์๋ ํ๊ท ์ ์ด์ ๋ฑ์ ํํ๋ก ์ฐ์ถ๋์ด ์๋ ๋น๊ต์ ์ฌ์ฉ๋ฉ๋๋ค. ๊ดํต ๊น์ด(P)๋ ๋ฌผ์ฒด ํ๋ฉด๊ณผ ์ ๋ชจ๋ธ ์ฌ์ด์ ์ต๋ ๊ฒน์นจ ๊น์ด(cm)๋ก, ๊ฐ์ด ํด์๋ก ์์ด ๋ฌผ์ฒด๋ฅผ ๋ง์ด ๋ซ๊ณ ๋ค์ด๊ฐ์์ ์๋ฏธํฉ๋๋ค. ์ด์์ ์ธ ํ์ง๋ผ๋ฉด P=0(๊ดํต ์์)์ด๊ฒ ์ง๋ง, ์๋ฎฌ๋ ์ด์ /๋ชจ๋ธ ํ๊ณ์ ์ฝ๊ฐ์ ๊ฒน์นจ์ ๋ฐ์ํ ์ ์์ผ๋ฏ๋ก ์์์๋ก ์ข๋ค๊ณ ๋ด ๋๋ค. ํ์ง ๋ค์์ฑ์ ๋์ผ ์กฐ๊ฑด์์ ์์ฑ๋ ์ฌ๋ฌ ํ์ง ๊ฒฐ๊ณผ์ ๋ณ๋ ํญ์ ๋ํ๋ ๋๋ค. ํ๋์ ์ธ์ด ์ง์์ ๋ฌผ์ฒด์ ๋ํด ๋ชจ๋ธ์ด ์ฌ๋ฌ ๋ฒ ํ์ง๋ฅผ ์์ฑํด๋ณด๋ฉด ๋งค๋ฒ ์กฐ๊ธ์ฉ ๋ค๋ฅธ ์์ธ๊ฐ ๋์ฌ ์ ์๋๋ฐ, ์ด ์์ธ ํ๋ผ๋ฏธํฐ๋ค(์์ ์์น, ํ์ , ๊ฐ ๊ด์ ๊ฐ)์ ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํ์ฌ ์์นํํ์ต๋๋ค. ๊ฐ์ด ํฌ๋ฉด ๋ค์ํ ์์ธ๊ฐ ๋์จ๋ค๋ ๋ป์ด๊ณ , 0์ ๊ฐ๊น์ฐ๋ฉด ๋งค๋ฒ ๋น์ทํ ์์ธ๋ง ์์ฑํ๋ค๋ ์๋ฏธ์ ๋๋ค.
์ ์๋ค์ ์ฌ๋ฌ ์ต์ ๊ธฐ๋ฒ(SOTA)๋ค์ ๋น๊ต ๋์์ผ๋ก ์ ์ ํ์ฌ, ์ ์ํ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ํ ์ด๋ธ 1์๋ ๋ํ์ ์ธ ๋น๊ต ๊ฒฐ๊ณผ๊ฐ ์ ๋ฆฌ๋์ด ์์ต๋๋ค. ๋น๊ต ๊ธฐ๋ฒ์ผ๋ก๋ GraspCVAEใ48โ ใ(์กฐ๊ฑด๋ถ ๋ณ๋ถ์คํ ์ธ์ฝ๋ ๊ธฐ๋ฐ ์์ฑ), GraspTTAใ41โ ใ(๊ธฐ ํ์ต๋ ๋ชจ๋ธ์ ํ ์คํธ์ ๋ฏธ์ธ์กฐ์ ํ๋ ๊ธฐ๋ฒ), SceneDiffuserใ4โ ใ(3D ์ฅ๋ฉด ํ์ฐ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ง ์์ฑ), DGTRใ7โ ใ(Dexterous Grasping Transformer, ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์์ฑ) ๋ฑ์ด ํฌํจ๋์์ต๋๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ์ด๋ค ๊ธฐ์กด ๊ธฐ๋ฒ์๋ ์ธ์ด ์กฐ๊ฑด์ ์ ๋ ฅ์ผ๋ก ์ค ์ ์๋๋ก ์ฝ๊ฐ์ ๊ตฌ์กฐ ์์ (์: ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ ํน์ง๊ณผ ์ธ์ด ์๋ฒ ๋ฉ์ ๊ฒฐํฉ)ํ์ฌ ์คํํ๋ค๊ณ ํฉ๋๋ค.
๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, DexGYSGrasp(ours)๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์๋ ์ ํฉ์ฑ ์ธก๋ฉด์์, Chamfer ๊ฑฐ๋ฆฌ์ Contact ๊ฑฐ๋ฆฌ ๋ชจ๋ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ๋ฎ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก Chamfer ๊ฑฐ๋ฆฌ์ ๊ฒฝ์ฐ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ 1.198๋ก, ๋ ๋ฒ์งธ๋ก ๋ฎ์ SceneDiffuser์ 1.679๋ณด๋ค ํจ์ฌ ์๊ณ , ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค(๋๋ถ๋ถ 2.03.1 ์ด์)์ ๋นํด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค. Contact ๊ฑฐ๋ฆฌ๋ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ 0.036์ผ๋ก, ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค(0.045 ์ด์) ๋๋น ๋๋ ทํ๊ฒ ๋ฎ์์ต๋๋ค. ์ด๋ ์์ธกํ ์ ์์ธ๊ฐ ์ ๋ต ๋๋น ๋งค์ฐ ์ ํํ ์๋๋ฅผ ๋ฐ๋ผ์ก๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํ์ง ํ์ง(์์ ์ฑ) ์ธก๋ฉด์์๋, ๊ดํต ๊น์ด(P)์ ๊ฒฝ์ฐ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ 0.223 cm ์ ๋๋ก, GraspTTA๊ฐ 0.188 cm๋ก ๊ฐ์ฅ ์๊ธด ํ์ง๋ง ๊ทธ ์ธ ๋ค์ ๊ธฐ๋ฒ๋ค์ 0.250.55 cm ์์ค์ด์ด์, ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ์๋นํ ๋ฎ์ ๊ดํต์ ์ ์งํจ์ ์ ์ ์์ต๋๋ค. Q1 ์งํ๋ ๊ฐ์ด ๋์์๋ก ์์ ์ ์ธ๋ฐ, ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด 0.083์ผ๋ก ๊ฐ์ฅ ๋์๊ณ , ๋ค๋ฅธ ๊ธฐ๋ฒ๋ค์ 0.050.08 ์ฌ์ด์์ต๋๋ค. ํนํ GraspTTA๋ ๊ดํต์ด ์ ์ ๋์ Q1์ด 0.071๋ก ์ฐ๋ฆฌ๋ณด๋ค ๋ฎ์๊ณ , SceneDiffuser ๋ฑ์ ๊ดํต์ด ์ฝ๊ฐ ๋ ํฌ๋ฉด์ Q1์ ๋น์ทํ๊ฑฐ๋ ๋ ๋ฎ์์ต๋๋ค. ์ด๋ฅผ ์ข
ํฉํ๋ฉด ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ ํ์ง ๋ฉด์์๋ ํ ๊ธฐ๋ฒ๋ค๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์์ ์ฑ์ ํ๋ณดํ๊ณ ์์์ ์๋ฏธํฉ๋๋ค. ํ์ง ๋ค์์ฑ์ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ ๋๋๋ฌ์ง ๊ฐ์ ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ ๋์ผ ์กฐ๊ฑด 8ํ ์์ฑ ์ ์๋ฐ๋ฅ ์์น์ ํ์คํธ์ฐจ ์ฝ 6.118, ํ์ ๊ฐ๋ ํ์คํธ์ฐจ 55.68, ๊ด์ ๊ฐ๋ ํ์คํธ์ฐจ 6.118 ๋ฑ์ ๊ธฐ๋กํ๋๋ฐ, ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ํ์ ๊ฐ๋ ๋ณ๋์ด ๋ง์์ผ 14 ์ ๋(DGTR)์ด๊ณ ๋๋ถ๋ถ 18 ๋ฒ์์ ๊ทธ์ณ ํ์ ํ ๋ฎ์์ต๋๋ค. ์ด๋ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ํ๋์ ์ง์์๋ ์์ฃผ ๋ค์ํ ์ ๋ชจ์์ผ๋ก ์ก์ ์ ์์์ ๋ปํ๋ฉฐ, ์์ฑ์ ํ๋ถํจ ์ธก๋ฉด์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ฐจ๋ณํ๋๋ ๊ฒฐ๊ณผ์
๋๋ค. ๊ฒฐ๊ตญ ํ
์ด๋ธ 1์ ๊ฒฐ๊ณผ๋ DexGYSGrasp๊ฐ ์๋ ์ผ์น๋์ ๋ค์์ฑ์์ ์๋ฑํ๋ฉฐ, ํ์ง๋ ํฌ์ํ์ง ์๋ ๊ท ํ ์กํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์
์ฆํฉ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ์ ๋ ํ๊ฐ ์ธ์๋ ๋ค์ํ ๋ถ์ ์คํ์ ์ํํ์ฌ ์ ์ ๊ธฐ๋ฒ์ ๋์์ ๊ฒ์ฆํ์์ต๋๋ค. ํ ์ด๋ธ 2์์๋ ํ๋ ์์ํฌ ๊ตฌ์ฑ์์์ ํ์ต ์ ๋ต์ ๋ํ ablation(์์ ์ ๊ฑฐ) ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์๋ ํ ๋จ๊ณ ๋ชจ๋ธ๋ก ๋ชจ๋ ๊ฒ์ ํ์ตํ๊ฑฐ๋(IDGC๋ง ์ฌ์ฉ), 1๋จ๊ณ ํ์ต ์ค๊ฐ์ ๊ดํต ํ๋ํฐ๋ฅผ ์์ํ ๋์ด๋ ๋ฑ ๋ค์ํ ๋ณํ์ ์ํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ ๋จ๊ณ๋ก ๋๋์ง ์๊ณ ๋จ์ผ ๋ชจ๋ธ๋ก ํ์ตํ๋ฉด ์๋-ํ์ง-๋ค์์ฑ์ ๊ท ํ์ ์ด๋ฃจ์ง ๋ชปํ๊ณ ํ๋ ์ธก๋ฉด๋ง ๋ง์กฑ์ํค๋ ๋ฐ์ชฝ์ง๋ฆฌ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ ๋จ๊ณ๋ฅผ ๋๋๋๋ผ๋ ๊ดํต ํ๋ํฐ ์ฌ์ฉ ๋ฐฉ์ ๋ฑ์ ์ฐ๋ฆฌ์ฒ๋ผ ํ์ง ์์ผ๋ฉด ์ฑ๋ฅ์ด ๊ฐ์ ๋์ง ์์๊ณ , 2๋จ๊ณ ์์ด 1๋จ๊ณ๋ก๋ง ๊ดํต๊น์ง ๋ชจ๋ ํ์ต์ํค๋ ๊ฒฝ์ฐ ์ญ์ ์๋๊ฐ ํฌ๊ฒ ์ด๊ธ๋๋ ๋ฌธ์ ๊ฐ ์๊ฒผ์ต๋๋ค. ๋ฐ๋ฉด ์ฐ๋ฆฌ์ ํ๋ก๊ทธ๋ ์๋ธ ์ค๊ณ(IDGC+QGC ๋ ๋ค ์ ์ฉ, ๋จ๊ณ๋ณ ์์ค ํ ๋น)๋ง์ด ์๋ ์ ํฉ์ฑ, ํ์ง, ๋ค์์ฑ ์ธ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ๋์์ ์ก๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ํ ์คํธ ํ์ ์ ์ ๊ธฐ๋ฒ(TTA)์ ํ์ฉํด ํ์ง์ ๋์ด๋ฉด ๊ดํต์ ์ค์์ง๋ง ์๋ ์ผ๊ด์ฑ์ด ์ฌ๊ฐํ๊ฒ ๋จ์ด์ง๋ ํ์๋ ๊ด์ฐฐ๋์๋๋ฐ, ์ด๋ ํ์ง๋ง ํ์ฒ๋ฆฌ๋ก ๋์ด๋ ๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์๋ผ ํ ์ ์์ต๋๋ค. ์ข ํฉํ๋ฉด ablation ์คํ์ ์ ์ํ 2๋จ๊ณ ๊ตฌ์กฐ์ ํ์์ฑ๊ณผ ์ค๊ณ ์ ํ์ ํ๋น์ฑ์ ๊ฐ๋ ฅํ๊ฒ ๋ท๋ฐ์นจํฉ๋๋ค.
HOIR ์ ๋ต์ ํจ๊ณผ๋ ๋ณ๋๋ก ํ๊ฐ๋์์ต๋๋ค. ์ ์๋ค์ ๋์ผํ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ๋ก๋ด ์์ผ๋ก ๋ณ๊ฒฝํ ๊ฒฝ์ฐ์ HOIR๋ฅผ ํตํด ์ ์ด ์ผ์น์ํค๋ฉฐ ๋ณ๊ฒฝํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ์ฌ ๋ฐ์ดํฐ ํ์ง์ ๋ถ์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ HOIR๋ฅผ ์ฌ์ฉํ์ ๋ ์์ฑ๋ ๋ฐ์ดํฐ์ ์-๋ฌผ์ฒด ์ ์ด ๋ถํฌ๊ฐ ์ค์ ์ฌ๋ ํ์ง์ ํจ์ฌ ์ ์ฌํด์ก๊ณ , ๋ชจ๋ธ ํ์ต ์์๋ ๋ ์์ ์ ์ธ ์๋ ด๊ณผ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์์ต๋๋ค (์ธ๋ถ ์์น๋ ๋ถ๋ก์ ์ ์). ์ด๋ HOIR๊ฐ ์๋ค๋ฉด ๋ฐ์ดํฐ์ ๋ฌผ์ฒด ํ๋ฉด์ ์ค์น์ง ๋ชปํ ๋ถ์คํ ํ์ง๋ ๋นํ์ค์ ์ ๋ชจ์์ด ์๊ธธ ์ ์์ง๋ง, HOIR๋ก ์์ฐ์ค๋ฌ์ด ํ์ง ์์๋ค์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ํ์ค์ฑ ๋์ ํ์ง๋ฅผ ๋ฐฐ์ธ ์ ์์์์ ์๋ฏธํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ ์ค๋ฌผ ๋ก๋ด ์คํ์ ํตํด ์ ์ ๊ธฐ๋ฒ์ ํ์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ๋ ๊ฒ์ฆํ์ต๋๋ค. ์๋ ๊ทธ๋ก(Allegro) ๋ก๋ด ํธ๋์ Flexiv Rizon 4 ๋ก๋ด ํ, ๊ทธ๋ฆฌ๊ณ Intel RealSense D415 ์นด๋ฉ๋ผ๋ก ๊ตฌ์ฑ๋ ์ค์ ํ๊ฒฝ์์, ์ฌ๋ฌ ๊ฐ์ง ๋ฌผ์ฒด๋ฅผ ๋๊ณ ์์ฐ์ด ์ง์๋๋ก ์ง์ด๋ณด๋ ์คํ์ ์ํํ์ต๋๋ค. ํ์ค์์๋ ๋ฌผ์ฒด์ ์์ ํ 3D ํํ๋ฅผ ์ ์ ์์ผ๋ฏ๋ก, ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ ๋ฌผ์ฒด ์์์ ์ฒ๋ฆฌํ์ฌ ๋ถ๋ถ ์ ๊ตฌ๋ฆ์ ์ป์ ๋ค, SAM(Segment Anything Model)์ ํ์ฉํ ์๊ฐ์ ๊ทธ๋ผ์ด๋ฉ์ผ๋ก ๋ฌผ์ฒด๋ง ๋ถ๋ฆฌํ๊ณ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ณด์ ๋คํธ์ํฌ๋ก ์์ ํ ๋ฌผ์ฒด ์ ๊ตฌ๋ฆ์ ๋ณต์ํ๋ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๊ฒ ์ป์ ์ถ์ ๋ฌผ์ฒด ํ์์ ์ด์ฉํด ์ฐ๋ฆฌ ๋ชจ๋ธ์ด ํ์ง ์์ธ๋ฅผ ์์ธกํ๋ฉด, ๋ก๋ด ํ์ ํด๋น ์์น๋ก ์ด๋์ํค๊ณ ๋ก๋ด ์์ ๊ด์ ๊ฐ๋๋ฅผ ์์ธก ๊ฐ์ผ๋ก ์ค์ ํ์ฌ ํ์ง๋ฅผ ์คํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฌ๋ฌ ๊ฐ์ง ๋ค์ํ ๋ชจ์์ ๋ฌผ์ฒด์ ๋ํด ์ง์ํ ๋ฐฉ์์ผ๋ก ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์ผ์ฅ๋ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์๊ณ (์: ์คํ๋ ์ด ๋ณ์ ๋ฐฉ์์ ๋๋ฅด๊ธฐ, ๋จธ๊ทธ์ปต ์์ก์ด ์ก๊ธฐ ๋ฑ), ์ด๋ ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ๋ฒ์ด ์๋ฎฌ๋ ์ด์ ์ ๋์ด ํ์ค ๋ก๋ด์์๋ ํจ๊ณผ์ ์์ ์ ์ฆํ์ต๋๋ค. ์ค์ ๋์์ ์์๋ ๋ ผ๋ฌธ ์ฌ์ดํธ๋ฅผ ํตํด ๊ณต๊ฐ๋์์ผ๋ฉฐ, ์ ๋ฐ์ ์ผ๋ก ์ฌ๋์ ์ธ์ด ์ง์์ ๋ฐ๋ผ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฐ ์ฑ๊ณตํ๋ ์ฅ๋ฉด๋ค์ ํ์ธํ ์ ์์ต๋๋ค. ๋ค๋ง ์ผ์ ์ค์ฐจ๋ ์ ๊ตฌ๋ฆ ๋ณด์์ ํ๊ณ๋ก ์ธํด ์ผ๋ถ ํ์ง์์ ์์ฃผ ๋ฏธ์ธํ ๊ดํต์ด๋ ๋ถ์์ ์ ์ด์ด ๋ฐ์ํ๊ธฐ๋ ํ์ง๋ง, ์ด๋ ์ถ๊ฐ์ ์ธ ์ ์ด ๋ณด์ ์ผ๋ก ๊ฐ์ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ ์๋ค์ ์ ๋ฐ์ ์ธ ์คํ์ ํตํด ์ ์ ๊ธฐ๋ฒ์ด ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ๋ฉฐ, ์ค์ ํ๊ฒฝ์์๋ ์ ์ฉํ๋ค๋ ๊ฒ์ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค.
2.5 ๊ฐ์ ๊ณผ ํ๊ณ, ํฅํ ๋ฐ์ ๊ฐ๋ฅ์ฑ
โGrasp as You Sayโ ๋ ผ๋ฌธ์ ๊ฐ์ ์ ๋ช ํํฉ๋๋ค. ์ฒซ์งธ, ๋ฌธ์ ์ ์์ ์ฐธ์ ์ฑ์ ๋๋ค. ๋ก๋ด ํ์ง์ ์ผ๋ฐ์ ์ธ ์์ฐ์ด๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ์๋ก์ด ์งํ์ ์ด์๊ณ , ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ๋ค๋ฃจ์ง ๋ชปํ ์ ์ฐํ ์๋ ๋ฐ์ ํ์ง๋ฅผ ๊ฐ๋ฅ์ผ ํ์ต๋๋ค. ๋์งธ, ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ ๋ฐ์ดํฐ์ ๊ณผ ๊ธฐ๋ฒ์ ์์ฑ๋์ ๋๋ค. DexGYSNet ๋ฐ์ดํฐ์ ์ ํ๊ณ ์ต์ด๋ก ์์ฐ์ด ์ค๋ช ์ด ํฌํจ๋ ๋๊ท๋ชจ ๋ค์ง ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ ํฅํ ๊ด๋ จ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋ ์ ์์ต๋๋ค. HOIR+LLM์ ํตํ ๋ฐ์ดํฐ ๊ตฌ์ถ์ ํจ์จ์ฑ๊ณผ ๋ค์์ฑ์ ๋ชจ๋ ํ๋ณดํ ๋ฐ์ด๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ดํ ๋ค๋ฅธ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ์๋ ์์ฉ๋ ์ ์์ ๊ฒ์ ๋๋ค. ์ ์งธ, DexGYSGrasp ํ๋ ์์ํฌ์ ๋ ์ฐฝ์ ์ค๊ณ์ ํจ๊ณผ์ฑ์ ๋๋ค. ๊ดํต ํ๋ํฐ์ ๊ธฐ์ธํ ํ์ต ์ด๋ ค์์ 2๋จ๊ณ ํ๋ก๊ทธ๋ ์๋ธ ํ์ต์ผ๋ก ํ์ด๋ธ ๊ฒ์ ๋ก๋ด ํ์ต ๋ถ์ผ์์ ๋ณต์กํ ๋ค๋ชฉ์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ผ๋ก ํ๊ฐํ ๋งํฉ๋๋ค. ์คํ์ผ๋ก ์ ์ฆ๋์๋ฏ, ์ด ์ ๊ทผ๋ฒ์ ์๋, ํ์ง, ๋ค์์ฑ์ด๋ผ๋ ์์ถฉํ๋ ์์๋ค์ ๋ชจ๋ ๋ฌ์ฑํ์ฌ ์ด์ ๊น์ง ์ด๋ ค์ ๋ ์์ญ์์ ์ฑ๊ณผ๋ฅผ ๋์ต๋๋ค. ๋ท์งธ, ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์คํ์ ์์ฐ๋ฅด๋ ๊ฒ์ฆ์ ์ํํ ์ ๋ ๊ฐ์ ์ ๋๋ค. ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ ์ ์์ ๊ทธ์น์ง ์๊ณ , ์ค์ ๋ก๋ด ํ๊ณผ ์์ผ๋ก ๋์์์ผ ๋ด์ผ๋ก์จ ํ์ค์ฑ์ ๊ฒ์ฆํ์ต๋๋ค. ์ด๋ ํด๋น ๊ธฐ๋ฒ์ด ์ด๋ก ์ ์ฑ๋ฅ๋ฟ ์๋๋ผ ์ค์ฉ์ ๊ฐ์น๋ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฐ๊ตฌ์ ์์ฑ๋๋ฅผ ๋์ ๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋ช ๊ฐ์ง ํ๊ณ์ ํฅํ ๊ณผ์ ๋ ์กด์ฌํฉ๋๋ค. ์ฐ์ , ๋ฐ์ดํฐ์ ์ ๋ฒ์์ ๊ดํ ํ๊ณ์ ๋๋ค. DexGYSNet์ 1,800๊ฐ์ ์ผ์ ๋ฌผ์ฒด๋ฅผ ํฌ๊ดํ์ง๋ง, ์ฐ์ ์ฉ ๋ณต์กํ ๋ถํ์ด๋ ๋น์ ํ ๋ฌผ์ฒด ๋ฑ์ ํฌํจ๋์ง ์์์ ์ ์์ต๋๋ค. ๋ํ ์ธ์ด ์ง์๋ ํ์ง ๋์์ ์ด์ ์ ๋ง์ถ ๋ฌธ์ฅ๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ด, ๋ณตํฉ์ ์์ ์๋๋ฆฌ์ค(์: โ์ก์์ ์ฎ๊ฒจ ๋์๋ผโ์ ๊ฐ์ด ํ์ง ํ ๋ค๋ฅธ ํ๋์ ์๋ฐํ๋ ์ง์)์๋ ๋์ํ์ง ๋ชปํฉ๋๋ค. ํฅํ์๋ ๋ณด๋ค ๋ค์ํ ๊ฐ์ฒด ๋ฐ ์์ ์ ๋ํด ๋ฐ์ดํฐ์ ์ ํ์ฅํ๊ณ , ์ฐ์์ ์กฐ์๊น์ง ํฌํจํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์ ๋๋ค. ๋์งธ, ๋ชจ๋ธ์ ๋ณต์ก๋์ ์คํ ์๊ฐ๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ 1๋จ๊ณ ์์ฑ์ ๋ณธ์ง์ ์ผ๋ก ์ํ๋ง์ ๋ค์์ ํ๋ฅ ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์, ์ค์๊ฐ ์์ฉ์๋ ์๋ ์ ์ฝ์ด ์์ต๋๋ค. ์ค์ ๋ก๋ด์ ์ ์ฉํ๋ ค๋ฉด ์์ฑ ์๊ฐ ๋จ์ถ์ด๋ ๊ฒฝ๋ํ๊ฐ ํ์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ํจ์ ๋ชจ๋ธ์ ๊ฐ์ํ ๊ธฐ๋ฒ์ด๋ ๋จ๊ณ ์ถ์(์: DDIM), ๋๋ ํ์ต๋ ํฝ์ค๋ ๋ชจ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ ๋ฑ์ด ์ฐ๊ตฌ๋ ์ ์์ต๋๋ค. ์ ์งธ, ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ํ์ต์ ์ฌ์ฉ๋์ง ์์ ์ ๋ฌผ์ฒด์ ๋ํด์๋ ์คํํ์ง๋ง, ์ ํ ๋ณด์ง ์์ ์๋ก์ด ์ ํ์ ๋ฌผ์ฒด๋ ์์ฃผ ๋ค๋ฅธ ๋ฌธ์ฅ ํํ์ ๋ํด์๋ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋๋์ง ๋ ์ดํด๋ด์ผ ํฉ๋๋ค. ์์ปจ๋, โ์ด ๋ฌผ์ฒด๋ฅผ ์์ฃผ ๋์จํ๊ฒ ์ฅ์ด๋ดโ์ ๊ฐ์ ๋ฏธ๋ฌํ ํ ์กฐ์ ์ด๋ ์ถ์์ ์ธ ์ง์๋ ์ฒ๋ฆฌํ๋ ค๋ฉด, ๋ชจ๋ธ์ ๋ณด์ํ๊ฑฐ๋ ์ถ๊ฐ ํ์ต์ด ํ์ํ ๊ฒ์ ๋๋ค. ๋ท์งธ, ๋ฌผ๋ฆฌ๊ธฐ๋ฐ ์ ํ์ ๋ถ์กฑ์ ๋๋ค. 2๋จ๊ณ์์ ๊ดํต์ ์ค์๋ค๊ณ ๋ ํ๋, ์ ์ด ๋ง์ฐฐ์ด๋ ๋์ ์์ ์ฑ ๋ฑ ์ ๋ํํ๊ธฐ ์ด๋ ค์ด ๋ฌผ๋ฆฌ์ ์์๋ ๊ณ ๋ ค๋์ง ์์์ต๋๋ค. ํฅํ์๋ ๊ฐํํ์ต(RL)์ด๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์ fine-tuning์ผ๋ก ์ง์ง ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ์ก๋ ์์ ์ฑ๊น์ง ํ๋ณดํ๋ฉด ๋ ์๋ฒฝํ ์๋ฃจ์ ์ด ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ผ์๋, ์ด๋ฌํ ํ๊ณ๋ค์ ํ์ฌ ์ฐ๊ตฌ์ ๋ฒ์ ๋ฐ์ ๊ฒ๋ค์ด๊ณ , ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ฅผ ํํํ์ง๋ ์์ต๋๋ค. ์คํ๋ ค ์ด ํ๊ณ๋ค์ ํฅํ ์ฐ๊ตฌ ๊ธฐํ๋ฅผ ์ ์ํฉ๋๋ค. ํฅํ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ผ๋ก๋, ์ธ์ด-๋ก๋ด ์ํธ์์ฉ์ ๋์ฑ ํ์ฅํ์ฌ ๋ค๋จ๊ณ ์์ ๊ณํ์ ์ธ์ด ์ง์๋ฅผ ์ฐ๊ฒฐํ๊ฑฐ๋, ์๊ฐ ์ธ์ง์ ์ธ์ด, ํ์๋ฅผ ํตํฉํ๋ ์ข ํฉ์ ์ธ ํ๋ ์์ํฌ๋ก์ ๋ฐ์ ์ด ๊ธฐ๋๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ปต์ ์ง์ด ์ํ ์ค๋ฅธ์ชฝ ๊ตฌ์์ ๋์๋ฌโ ๊ฐ์ ๋ณตํฉ ์ง์๋ฅผ ์ํํ๋ ค๋ฉด, ํ์ง๋ฟ ์๋๋ผ ์ด๋, ๋๊ธฐ๊น์ง ํตํฉ๋ ๊ณํ์ด ํ์ํ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์ ์ฑ๊ณผ๋ ์ด๋ฌํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ์๋ฐ์ ์ด ๋ ์ ์์ต๋๋ค. ๋ํ ํด๋จผ ํผ๋๋ฐฑ ๊ฐํํ์ต(RLHF) ๋ฑ์ ํตํด ์ฌ์ฉ์๋ก๋ถํฐ ํ์ง์ ๋ํ ํผ๋๋ฐฑ์ ๋ฐ์ ๋ ๋ฏธ์ธํ ์กฐ์ ์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ คํด๋ณผ ์ ์์ต๋๋ค.
์์ฝํ๋ฉด, Grasp as You Say ๋ ผ๋ฌธ์ ์์ฐ์ด๋ก ๋ก๋ด ์ ํ์ง๋ฅผ ์ ์ดํ๋ ํ์ ์ ์์ด๋์ด๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํ ๋ฐ์ดํฐ์ , ๋ชจ๋ธ, ํ์ต๊ธฐ๋ฒ์ ์ ๊ตํ ์กฐํฉ์ ํตํด ์๋ก์ด ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ฐ๊ตฌ์ ๋๋ค. ๋ก๋ณดํฑ์ค ์ ๋ฌธ๊ฐ์๊ฒ ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์ ๋ค์ง ๋ก๋ด ํธ๋ ํ์ฉ๊ณผ ์ธ๊ฐ-๋ก๋ด ์ธํฐ๋์ ์์ญ์์ ๋ง์ ์๊ฐ๊ณผ ์์ฌ์ ์ ์ค ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์์ผ๋ก ์ด ๊ฐ๋ ์ ๋ฐํ์ผ๋ก ํ ๋ค์ํ ์์ฉ๊ณผ ์ฐ๊ตฌ์ ์ ๊ฐ๊ฐ ๊ธฐ๋๋ฉ๋๋ค.