flowchart TB
A["๐ค ์ธ๊ฐ ์ฃผ์ ํ
ํ๋ฆฟ<br/>(ํ์ง ์ ํ๋น 1๊ฐ)"] --> B["โก Global Alignment<br/>(GPU ๋ณ๋ ฌ ์ต์ ํ)"]
B --> C["๐ง Local Refinement<br/>(MuJoCo ์๋ฎฌ๋ ์ด์
)"]
C --> D{"โ
Simulation<br/>Validation"}
D -->|์ฑ๊ณต| E["๐ Dexonomy Dataset<br/>9.5M grasps"]
D -->|์ฑ๊ณต| F["๐ ์ ํ
ํ๋ฆฟ์ผ๋ก<br/>๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฅ"]
F --> B
D -->|์คํจ| G["โ ํ๊ธฐ"]
E --> H["๐ง Type-Conditional<br/>์์ฑ ๋ชจ๋ธ ํ์ต"]
H --> I["๐ค ์ค์ธ๊ณ ํ์ง<br/>82.3% ์ฑ๊ณต๋ฅ "]
style A fill:#4CAF50,color:white
style E fill:#2196F3,color:white
style I fill:#FF9800,color:white
๐Dexonomy ๋ฆฌ๋ทฐ
- ๐ค ์ด ์ฐ๊ตฌ๋ ํ๋์ ํด๋จผ-์ด๋ ธํ ์ดํธ๋ ํ ํ๋ฆฟ์ผ๋ก๋ถํฐ ์ปจํํธ๊ฐ ํ๋ถํ๊ณ ์นจํฌ๊ฐ ์์ผ๋ฉฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋ฑ์คํฐ๋ฌ์ค ๊ทธ๋ฉ์ ํจ์จ์ ์ผ๋ก ํฉ์ฑํ๋ ์๋ก์ด ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
- ๐ ์ ์๋ ํ์ดํ๋ผ์ธ์ผ๋ก 10.7k ๊ฐ์ ๊ฐ์ฒด์ GRASP taxonomy์ 31๊ฐ ๊ทธ๋ฉ ์ ํ์ ํฌํจํ๋ 9.5M ๊ท๋ชจ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ ์ด์ ์ type-unaware ๋ฒ ์ด์ค๋ผ์ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค.
- ๐ค ์ด ๋ฐ์ดํฐ์ ์ ํตํด ๋จ์ผ ๋ทฐ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋๋ง์ผ๋ก ์ํ๋ ๊ทธ๋ฉ ์ ํ์ ์์ฑํ๋ type-conditional ์์ฑ ๋ชจ๋ธ์ ํ์ต์์ผฐ์ผ๋ฉฐ, ์ด๋ ์ค์ ํ๊ฒฝ์์ 82.3%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ GRASP taxonomy์ ์ ์๋ ๋ชจ๋ dexterous grasp type์ ํจ์จ์ ์ผ๋ก ํฉ์ฑํ๋ ํ์ดํ๋ผ์ธ์ธ Dexonomy๋ฅผ ์ ์ํฉ๋๋ค. ์ง๋ฅํ ๋ก๋ด์ด ํ๊ฒฝ๊ณผ ์ ์ฐํ๊ฒ ์ํธ์์ฉํ๊ธฐ ์ํ fundamental skill์ธ generalizable dexterous grasping์ ์ํด, ๊ธฐ์กด ์๋ grasp ํฉ์ฑ ๋ฐฉ๋ฒ๋ค์ ํน์ grasp type ๋๋ object category์ ๋ํ ํ๊ณ์ ์ ๊ทน๋ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋๊ท๋ชจ์ ๊ณ ํ์ง grasp ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด, ์๊ณผ grasp type๋ณ๋ก ๋จ ํ๋์ ์ธ๊ฐ ์ฃผ์(human-annotated) template๋ง์ผ๋ก contact-rich, penetration-free, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ dexterous grasp๋ฅผ ์์ฑํ๋ pipeline์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
์ ์ํ๋ ํ์ดํ๋ผ์ธ์ ๋ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๊ฒฝ๋ ์ ์ญ ์ ๋ ฌ (Lightweight Global Alignment) ๋จ๊ณ: ์ด ๋จ๊ณ์์๋ ์ ํ๋ grasp template์ ์ ์ ์ด ์ ๋ณด(์ contact point p^h_i ๋ฐ normal n^h_i)์ ๋ง์ถฐ object pose๋ฅผ ์ํ๋งํ๊ณ ์ต์ ํํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ ์ pose๋ฅผ ๊ณ ์ ํ ์ฑ object pose๋ง ์กฐ์ ํฉ๋๋ค.
- ์ํ๋ง: ๋ฌด์์ grasp template์ ์ ํํ๊ณ , template์์ ๋ฌด์์ ์ contact point๋ฅผ ์ ํํฉ๋๋ค. ๊ทธ ๋ค์ ๋ฌด์์ object์ ๊ทธ object์ ๋ฌด์์ ํ๋ฉด์ ์ ์ ํํฉ๋๋ค. ์ํ๋ง๋ ์๊ณผ object contact point๋ฅผ ์ ๋ ฌํ๊ณ , contact normal ๋ฐฉํฅ์ ๋ฐ๋๋ก ์ค์ ํ์ฌ object๋ฅผ ์ด๊ธฐํํฉ๋๋ค. object์ scale๊ณผ normal ๋ฐฉํฅ์ ์์ง์ธ ํ๋ฉด ๋ด ํ์ ์ ๋ฌด์์๋ก ์ํ๋ง๋ฉ๋๋ค. ์ด ๊ณผ์ ์ ๋จ์ผ GPU์์ ๋๋์ ์ํ์ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ ์ ์์ด ํจ์จ์ ์ ๋๋ค.
- ์ต์ ํ: ์ต์ ํ ๋ณ์๋ object์ ๋ณํ(scale s_o \in \mathbb{R}, rotation R_o \in \mathrm{S}^3, translation t_o \in \mathbb{R}^3)์
๋๋ค. ๊ฐ ์ contact point p^h_i์ ๋ํด
Warp๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ object ํ๋ฉด์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ p^o_i๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์๊ณผ object contact์ ๋ถ์ผ์น์ ๋ํ ํจ๋ํฐ๋ฅผ ์ฃผ๊ธฐ ์ํด ๋ค์ ์๋์ง ํจ์๋ฅผ ์ต์ํํ์ฌ object pose๋ฅผ ์ต์ ํํฉ๋๋ค: L = k_p \sum_{i=1}^m \|p^h_i - p^o_i\|^2 + k_n \sum_{i=1}^m \|n^h_i - n^o_i\|^2 ์ฌ๊ธฐ์ k_p์ k_n์ hyperparameter์ ๋๋ค. - ํ์ฒ๋ฆฌ ํํฐ๋ง: ์ต์ ํ ํ, ๊ฒฐ๊ณผ๋ ๋ค ๊ฐ์ง ๊ธฐ์ค์ ๋ฐ๋ผ ํํฐ๋ง๋ฉ๋๋ค:
- ์ต์ข ์๋์ง ํจ์ L์ด ํน์ ์๊ณ๊ฐ ๋ฏธ๋ง์ด์ด์ผ ํฉ๋๋ค.
- ์๊ณผ object ๊ฐ์ ์ฌ๊ฐํ ๊ดํต(penetration)์ด ์์ด์ผ ํฉ๋๋ค. ์ด๋ ์ ๋ถ์ผ๋ก parameterization๋ ์ ์ถฉ๋ ๊ณจ๊ฒฉ(collision skeleton)์ ์ฌ์ฉํ์ฌ ํจ์จ์ ์ผ๋ก ๊ฐ์ง๋ฉ๋๋ค.
- object contact quality(Section III์ Eq. 6์ผ๋ก ์ธก์ )๊ฐ ์๊ณ๊ฐ์ ์ด๊ณผํด์ผ ํฉ๋๋ค.
- ์ค๋ณต๋๋ object ๋ณํ์ ์ ๊ฑฐํ๊ธฐ ์ํด farthest point sampling๊ณผ ์ ์ฌํ process๋ฅผ ์ ์ฉํฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ง์ญ ์ ๊ตํ (Simulation-based Local Refinement) ๋จ๊ณ: object๊ฐ ๊ณ ์ ๋ ์ํ์์ ์ pose๋ฅผ ์ง์ญ์ ์ผ๋ก ์ ๊ตํํ์ฌ ์-object ์ ์ด์ ๊ฐ์ ํฉ๋๋ค. MuJoCo ํ๊ฒฝ์์ ๊ฐ์์ ํ f_i๋ฅผ ๊ฐ ์ contact point p^h_i์์ ํด๋น object์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ p^o_i ๋ฐฉํฅ์ผ๋ก ์ ์ฉํฉ๋๋ค. ์ด๋ฌํ ๊ฐ์์ ํ์ ๋ค์ simplified transposed Jacobian control์ ํตํด ์์ joint torque \tau๋ก ๋ณํ๋ฉ๋๋ค: f_i = k_f (p^h_i - p^o_i), \quad \tau = \sum_{i=1}^m J^T_{h,i} f_i ์ฌ๊ธฐ์ k_f๋ hyperparameter์ด๊ณ , J^T_{h,i} \in \mathbb{R}^{q \times 3}๋ ์ contact Jacobian์ ์ ์น(transpose)์
๋๋ค. ์ด ๊ณผ์ ์ MuJoCo์ second-order Newton optimizer๋ฅผ ํ์ฉํ์ฌ submillimeter-level์ ์ ์ด ์๋ ด์ ๋ฌ์ฑํฉ๋๋ค.
- ๊ดํต ๋ฐฉ์ง: ์๊ณผ object ๊ฐ์ strict penetration-free๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด MuJoCo์์ 1mm contact margin์ ์ ์ฉํฉ๋๋ค. ์ด๋ ์์ด object ํ๋ฉด 1mm ์ด๋ด๋ก ์ ๊ทผํ๋ฉด ๋ฐ๋ฐ๋ ฅ์ ๊ฐํ์ฌ 0-2mm ๋ฒ์ ๋ด์์ ์ ์ด ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๋๋ก ํฉ๋๋ค.
- ํ์ฒ๋ฆฌ ํํฐ๋ง: ์ต์ ํ ํ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ง ๊ธฐ์ค์ ๋ฐ๋ผ ํํฐ๋ง๋ฉ๋๋ค:
- ์๊ณผ object ์ฌ์ด์ ๊ดํต์ด ์์ด์ผ ํฉ๋๋ค (์ถฉ๋ mesh ์ฌ์ฉ).
- ์ฃผ์์ด ๋ฌ๋ฆฐ(annotated) contact๋ฅผ ๊ฐ์ง ์๊ฐ๋ฝ์ object์ ์ ์ดํด์ผ ํฉ๋๋ค.
- Grasp quality(Section III์ Eq. 6์ผ๋ก ์ธก์ )๊ฐ ์๊ณ๊ฐ์ ์ด๊ณผํด์ผ ํฉ๋๋ค.
Grasp Quality Metric (Section III):
๋ ผ๋ฌธ์ grasp quality metric์ผ๋ก force closure metric์ ์ฌ์ฉํ๋ฉฐ, ์ด๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์์ ์ฌ์ฉ๋ metric์ ํตํฉํ์ฌ ์ค๋ช ํฉ๋๋ค. object O๊ฐ m๊ฐ์ contact point๋ฅผ ๊ฐ์ง ๋ก๋ด ์์ ์ํด grasp๋ ๋, ๊ฐ contact i์ ๋ํด contact position p_i \in \mathbb{R}^3, inward-pointing surface unit normal n_i \in \mathbb{R}^3, ๊ทธ๋ฆฌ๊ณ ๋ ๊ฐ์ unit tangent vector d_i, c_i \in \mathbb{R}^3 (n_i = d_i \times c_i)๊ฐ ์ ์๋ฉ๋๋ค. ์ฟจ๋กฑ ๋ง์ฐฐ ์์ถ(Coulomb friction cone) F_i์ object์ ๋ํ contact Jacobian J_{o,i}๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: F_i = \{x_i \in \mathbb{R}^3 \mid 0 \leq x_{i,1} \leq 1, x_{i,2}^2 + x_{i,3}^2 \leq \mu^2 x_{i,1}^2 \} J^T_{o,i} = \begin{pmatrix} n_i & d_i & c_i \\ p_i \times n_i & p_i \times d_i & p_i \times c_i \end{pmatrix} \in \mathbb{R}^{6 \times 3} ์ฌ๊ธฐ์ \mu๋ ๋ง์ฐฐ ๊ณ์์ ๋๋ค. ์ธ๋ถ wrench g \in \mathbb{R}^6 (์: object์ ์ค๋ ฅ)์ ๋ํด ์ต์ ์ contact force \{f_i\}_{i=1}^m๋ ๋ค์ 2์ฐจ ๊ณํ๋ฒ(QP)์ ํ์ด ์ป์ต๋๋ค: (f_1, \dots, f_m) = \arg \min_{(x_1, \dots, x_m)} \left\| \sum_{i=1}^m J^T_{o,i} x_i - g \right\|^2 \text{s.t.} \quad x_i \in F_i, \quad i \in \{1, \dots, m\} \sum_{i=1}^m x_{i,1} \geq \lambda ์ฌ๊ธฐ์ \lambda๋ ์ต์ ์ด normal force๋ฅผ ๊ฐ์ ํ๋ hyperparameter์ ๋๋ค. ๋ง์ฐฐ ์์ถ๋ ๊ณ์ฐ ํจ์จ์ฑ์ ์ํด ํผ๋ผ๋ฏธ๋๋ก ๊ทผ์ฌ๋ฉ๋๋ค. ์ต์ข grasp quality metric e๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: e = \left\| \sum_{i=1}^m J^T_{o,i} f_i - g \right\|^2 e ๊ฐ์ด ๋ฎ์์๋ก ์์ ์ ์ธ grasp๋ฅผ ๋ํ๋ ๋๋ค.
์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ (Simulation Validation) ๋ฐ Template ๊ตฌ์ถ:
ํฉ์ฑ๋ grasp๋ MuJoCo์์ ์์ ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ๊ฒ์ฆ๋ฉ๋๋ค. ์ ์๋ contact-aware control strategy๋ Eq. 3 (g=0)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ contact์ ํ์ํ force๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ์ ์น Jacobian ์ ์ด๋ฅผ ํตํด joint torque๋ก ๋ณํํฉ๋๋ค. Grasp๋ object๊ฐ ์๋ฎฌ๋ ์ด์ ์์ 2์ด ๋์ 6๊ฐ์ orthogonal ์ธ๋ถ ํ(external forces) ํ์์๋ ์์ ์ ์ผ๋ก ์ ์ง๋ ๊ฒฝ์ฐ ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์ฑ๊ณต์ ์ธ grasp๋ ์๋ก์ด grasp template์ผ๋ก ๊ตฌ์ถ๋์ด template library์ ์ถ๊ฐ๋๋ฉฐ, ์ดํ iteration์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
Dexonomy ๋ฐ์ดํฐ์ :
์ ์๋ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ์ฌ Shadow hand์ ๋ํ GRASP taxonomy์ 31๊ฐ grasp type์ ํฌ๊ดํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. 10.7k๊ฐ์ object asset (DexGraspNet์์ 5,697๊ฐ, Objaverse์์ 5,000๊ฐ)๊ณผ 9.5M๊ฐ์ ์ฑ๊ณต์ ์ธ grasp ๋ฐ์ดํฐ ํฌ์ธํธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ grasp pose, pre-grasp pose (์ถฉ๋ ์๋ ๋ชจ์ ๊ณํ์ ์ํด 2cm contact margin์ ์ ์ฉํ์ฌ ์์ฑ), squeeze pose (์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ์ ์ฌ์ฉ๋ ์ ์ด ์ ํธ์์ ํ์)์ ์ธ ๊ฐ์ง ํต์ฌ pose๋ฅผ ํฌํจํฉ๋๋ค.
Type-Conditional Grasp Generative Model:
์ค์ ํ๊ฒฝ ๋ฐฐํฌ๋ฅผ ์ํ ๋ถ๋ถ ๊ด์ธก(partial observation)์ผ๋ก๋ถํฐ grasp๋ฅผ ์์ฑํ๊ธฐ ์ํด type-conditional generative model์ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋จ์ผ ์์ (single-view) object point cloud์ grasp-type codebook์์ ์ ํ๋ type feature f^i_t๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. point cloud๋ Sparse3DConv ๋คํธ์ํฌ๋ฅผ ํตํด vision feature f_v๋ก ์ธ์ฝ๋ฉ๋ฉ๋๋ค. f_v์ f_t๋ ์ฐ๊ฒฐ๋์ด ์กฐ๊ฑด๋ถ feature f_c๋ฅผ ํ์ฑํฉ๋๋ค. f_c์ ์กฐ๊ฑดํ๋ Mobius normalizing flow๋ base distribution์ ๋ฌด์์ ์ํ์ grasp pose (R_g, T_g)๋ก ๋งคํํ๊ณ pose ํ์ง์ ๋ํ๋ด๋ ํ๋ฅ p๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์์ธก๋ grasp pose๋ f_c์ ์ฐ๊ฒฐ๋์ด MLP๋ฅผ ํตํด pre-grasp pose (R_p, T_p)์ ์ธ ๊ฐ์ง ์ joint configuration (q_p, q_g, q_s)์ ์์ธกํฉ๋๋ค. ๋ชจ๋ธ์ end-to-end ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ:
- Type-Unaware Grasp Synthesis ๋น๊ต: DexGraspNet, FRoGGeR, SpringGrasp, BODex์ ๊ฐ์ ๊ธฐ์กด analytical method๋ค๊ณผ ๋น๊ตํ์ฌ, ์ ์๋ ๋ฐฉ๋ฒ์ Allegro hand์ ๋ํด ๊ฐ์ฅ ๋์ Grasp Success Rate (60.50%), ์ฐ์ํ Contact Link Number (4.38), ๋ฎ์ Contact Distance Consistency (0.21mm), Penetration Depth (0.00mm), Self-Penetration Depth (0.00mm)๋ฅผ ๋ฌ์ฑํ๋ฉฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, object์ ์ง๋์ ๋์ด๊ณ ๋ง์ฐฐ ๊ณ์๋ฅผ ์ค์ด๋ ๋ฑ ๋ ์ด๋ ค์ด ๋ฒค์น๋งํฌ ์กฐ๊ฑด์์๋ BODex๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ์ฌ in-the-wild object์ ๋ํ generalizability๋ฅผ ์ ์ฆํ์ต๋๋ค.
- Type-Aware Grasp Synthesis: power, intermediate, precision grasp ์ ํ์ ๋ํ ํต๊ณ๋ฅผ ์ ์ํ๋ฉฐ, ์ ๊ตํ contact-rich grasp๋ฅผ ํฉ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ชจ๋๋ณ Ablation Study: Global Alignment ๋จ๊ณ์ ์ต์ ํ ๋ฐ ํ์ฒ๋ฆฌ ํํฐ๋ง, Local Refinement ๋จ๊ณ์ ์ต์ ํ, ๊ทธ๋ฆฌ๊ณ ์๋ก์ด grasp template ๊ตฌ์ถ ์ ๋ต์ด ์ ์ฒด ์ฑ๋ฅ์ ๋ฏธ์น๋ ๊ธ์ ์ ์ธ ์ํฅ์ ํ์ธํ์ต๋๋ค. ํนํ template ์ถ๊ฐ ์ ๋ต์ ์ด๊ธฐ template์ ๋ ธ์ด์ฆ๋ ๋ณํ์ ๋ํ pipeline์ ๊ฒฌ๊ณ ์ฑ(robustness)์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
- ํ์ต ๊ธฐ๋ฐ Grasp Synthesis: Dexonomy ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ type-conditional model์ ๋จ์ผ ์์ object point cloud๋ก๋ถํฐ grasp๋ฅผ ์์ฑํ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ baseline๋ค์ ๋ฅ๊ฐํ์ต๋๋ค.
- ์ค์ ํ๊ฒฝ ์คํ: ํ์ต๋ type-conditional model์ 13๊ฐ์ ๋ค์ํ object์ ๋ํด 12๊ฐ์ง grasp type์ ์๋ํ์ฌ 82.3%์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ์ํ๋ grasp type์ ํจ๊ณผ์ ์ผ๋ก ํฉ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ๋ฐ ํ๊ณ:
์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ semantic grasp ๋ฐ์ดํฐ ์์ง์ ์ํ ํจ์จ์ ์ธ annotation UI ๊ฐ๋ฐ์ ํ์ฉ๋ ์ ์์ต๋๋ค. ์ฌ์ฉ์๋ object์ contact point์ grasp type์ ์ง์ ํ๋ ๊ฐ๋จํ ํด๋ฆญ๋ง์ผ๋ก ๊ณ ํ์ง grasp๋ฅผ ํฉ์ฑํ ์ ์์ต๋๋ค. ํ๊ณ์ ์ผ๋ก๋ ์ผ๋ถ grasp type์ ๋ถ์ ํฉ์ฑ ๋๋ ๋ถ์์ ์ฑ, ์ ์ grasp pose ํฉ์ฑ์ ์ง์คํ๋ฉฐ ๋์ grasping์ ์ํ ๊ถค์ ์์ฑ(trajectory generation) ๋ถ์กฑ, ๊ทธ๋ฆฌ๊ณ ๋จ์ผ object grasp์ ๊ตญํ๋๋ค๋ ์ ์ด ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
โ์๊ฐ๋ฝ ํ๋ํ๋๊ฐ ์ด๋ป๊ฒ ๋ฌผ๊ฑด์ ์ก์์ผ ํ๋์ง, ์ธ๊ฐ์ด ์๋ ค์ค ๋ฑ ํ ์ฅ์ โ๋ ์ํผโ๋ง์ผ๋ก 950๋ง ๊ฐ์ ํ์ง๋ฅผ ๋ง๋ค์ด๋๋ค.โ
์๋ก : ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๋ฌธ์ ์ ๋ณธ์ง โ ๋ก๋ด ์์ ์ ์์ง๋ ์ํฐ๊ฐ
์ฐ๋ฆฌ ์ธ๊ฐ์ ์์นจ์ ์นซ์์ ์ง๋ ๊ฒ๋ถํฐ, ์ฐํ์ ์ฅ๊ณ ๊ธ์จ๋ฅผ ์ฐ๊ณ , ์ด์ ๋ฅผ ๋๋ฆฌ๊ณ , ์ฌ๊ณผ๋ฅผ ์์ผ์ฅ๋ ๊ฒ๊น์ง โ ํ๋ฃจ์๋ ์๋ฐฑ ๊ฐ์ง์ ์๋ก ๋ค๋ฅธ ํ์ง(grasp) ์ ํ์ ์์ ์์ฌ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๊ฑธ ์์ํ์ง ๋ชปํ๋ ๊ฒ ์์ฒด๊ฐ ์ธ๊ฐ ์์ ๋๋ผ์ด ๋ฅ๋ ฅ์ด์ฃ .
๋ก๋ด๊ณตํ์์ ์ด๋ฅผ ์ฌํํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น์? ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ๋๋ถ๋ถ ํ๋์ ํ์ง ์ ํ, ์ฃผ๋ก โpower graspโ(๋ฌผ๊ฑด์ ๊ฝ ์์ผ์ฅ๋ ํํ)์ ์ง์คํด์์ต๋๋ค. ์ด์ ๋ ๊ฐ๋จํฉ๋๋ค. ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ธฐ๊ฐ ์ด๋ ต๊ฑฐ๋ ์. ๋ค์ฏ ์๊ฐ๋ฝ ๋ก๋ด ํธ๋์ ์์ ๋(DoF)๋ 20๊ฐ๊ฐ ๋๊ณ , ์ ์ด ์กฐ๊ฑด์ ๋น์ ํ์ด๋ฉฐ, ์นจํฌ(penetration) ์์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ํ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ ์ต์ ํ ๋ฌธ์ ๋ก์ ๊ทน๋๋ก ๊น๋ค๋กญ์ต๋๋ค.
GRASP Taxonomy โ ์ธ๊ฐ ํ์ง์ ์ฃผ๊ธฐ์จํ
2016๋ Feix ๋ฑ์ด ์ ๋ฆฌํ GRASP Taxonomy๋ ์ธ๊ฐ ํ์ง๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ ์ผ์ข ์ โ์ฃผ๊ธฐ์จํโ์ ๋๋ค. ์ด 33๊ฐ์ง ํ์ง ์ ํ์ด ๋ค์ ๊ธฐ์ค์ผ๋ก ์ ๋ฆฌ๋ฉ๋๋ค:
- Opposition Type (๋ํฅ ์ ํ): Pad, Palm, Side
- Virtual Finger (๊ฐ์ ์๊ฐ๋ฝ ํ ๋น): ์ด๋ค ์๊ฐ๋ฝ๋ค์ด ํ ํ์ผ๋ก ์๋ํ๋๊ฐ
- Power / Precision / Intermediate: ํ ์ค์ฌ์ธ๊ฐ, ์ ๋ฐ๋ ์ค์ฌ์ธ๊ฐ
- Thumb Position (์์ง ์์น): ์์ง๊ฐ ์ด๋์ ๋์ด๋๊ฐ
| ๋๋ถ๋ฅ | ์ค๋ช | ์์ |
|---|---|---|
| Power Grasp | ์๋ฐ๋ฅ๊ณผ ์๊ฐ๋ฝ ์ ์ฒด๋ก ๊ฐ์ธ๋ ํ์ง | Large Diameter (#1), Medium Wrap (#2) |
| Intermediate Grasp | Power์ Precision์ ์ค๊ฐ | Lateral Tripod (#10), Thumb-2 Finger (#12) |
| Precision Grasp | ์๊ฐ๋ฝ ๋์ผ๋ก ์ธ๋ฐํ๊ฒ ์ก๋ ํ์ง | Tip Pinch (#17), Palmar Pinch (#18) |
๊ธฐ์กด ์๋ ํ์ง ํฉ์ฑ ๋ฐฉ๋ฒ๋ค โ DexGraspNet, BODex ๋ฑ โ ์ ์ด ์ค ์ผ๋ถ๋ง ๋ค๋ฃจ๊ฑฐ๋, ํ์ง ์ ํ์ ๊ตฌ๋ถํ์ง ์๋(type-unaware) ์ ๊ทผ๋ฒ์ด์์ต๋๋ค. Dexonomy๋ ์ด GRASP Taxonomy์ 31๊ฐ์ง ์ ํ์ ๋ชจ๋ ํฉ์ฑํ ์ ์๋ ์ต์ด์ ๋ฒ์ฉ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ
์ด ๋ ผ๋ฌธ(RSS 2025)์ ๊ธฐ์ฌ๋ฅผ ์ธ ๊ฐ์ง๋ก ์์ฝํ๋ฉด:
- ๋ฒ์ฉ ํ์ง ํฉ์ฑ ํ์ดํ๋ผ์ธ: ์ด๋ค ํ์ง ์ ํ, ์ด๋ค ๋ฌผ์ฒด, ์ด๋ค ๊ด์ ํ ํธ๋์๋ ์ ์ฉ ๊ฐ๋ฅ. ํธ๋์ ํ์ง ์ ํ๋น ๋จ ํ๋์ ์ธ๊ฐ ์ฃผ์ ํ ํ๋ฆฟ๋ง ํ์
- Dexonomy ๋ฐ์ดํฐ์ : 10,700๊ฐ ๋ฌผ์ฒด ร 31๊ฐ์ง ํ์ง ์ ํ = 950๋ง ๊ฐ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํ์ง ๋ฐ์ดํฐ
- Type-Conditional ์์ฑ ๋ชจ๋ธ: ๋จ์ผ ๋ทฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ์ํ๋ ํ์ง ์ ํ์ผ๋ก ์์ฑ, ์ค์ธ๊ณ 82.3% ์ฑ๊ณต๋ฅ
๋ฐฉ๋ฒ๋ก : ํ๋์ ๋ ์ํผ์์ ์๋ฐฑ๋ง ๊ฐ์ ํ์ง๋ก
Dexonomy์ ํต์ฌ ์์ด๋์ด๋ ๋๋๋๋ก ์ง๊ด์ ์ ๋๋ค. ๋น์ ํ์๋ฉด ์ด๋ ์ต๋๋ค:
์ฌ๋ฌ๋ถ์ด ์๋ฆฌ์ฌ๋ผ๊ณ ํฉ์๋ค. โ์ด ์ ๋ชจ์์ผ๋ก ์ด ํฌ๊ธฐ์ ๋ฌผ๊ฑด์ ์ก์ผ๋ฉด ์ด๋ ๊ฒ ์ ์ดํด์ผ ํฉ๋๋คโ๋ผ๋ ๋ ์ํผ๊ฐ ํ๋ ์์ต๋๋ค. ์ด์ ์๋ก์ด ๋ฌผ๊ฑด์ด ์์ ๋, (1) ๋จผ์ ๋ฌผ๊ฑด์ ์์ ๋ง์ถฐ๋ณด๊ณ โ ๋ฌผ๊ฑด ์ชฝ์ ์กฐ์ ํ๊ณ , (2) ๊ทธ๋ค์์ ์์ ๋ฏธ์ธ ์กฐ์ ํด์ โ ์ ๋๋ก ์ฅ ์ ์๊ฒ ๋ง๋๋ ๊ฒ๋๋ค.
์ด ๋ ๋จ๊ณ ์ค๊ณ๊ฐ Dexonomy ํ์ดํ๋ผ์ธ์ ํต์ฌ์ ๋๋ค.
Stage 1: Grasp Template Library (ํ์ง ํ ํ๋ฆฟ ๋ผ์ด๋ธ๋ฌ๋ฆฌ)
ํ์ดํ๋ผ์ธ์ ์ถ๋ฐ์ ์ Grasp Template์ ๋๋ค. ๊ฐ ํ ํ๋ฆฟ์ ๋ค์ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค:
- ์ ๊ด์ ๊ฐ๋ (\mathbf{q} \in \mathbb{R}^{n_\text{dof}}): ํธ๋์ ๊ฐ ๊ด์ ์ํ
- ์ ์ด์ (\mathbf{p}_i \in \mathbb{R}^3): ์ ํ๋ฉด์์ ๋ฌผ์ฒด์ ๋ฟ์์ผ ํ ์ง์ ๋ค
- ์ ์ด ๋ฒ์ (\mathbf{n}_i \in \mathbb{R}^3): ๊ฐ ์ ์ด์ ์์์ ํ ๋ฐฉํฅ
์ค์ํ ๊ฒ์, ํ์ง ์ ํ๋น ๋จ ํ๋์ ํ ํ๋ฆฟ๋ง ์ฌ๋์ด ์ง์ ๋ง๋ค๋ฉด ๋๋ค๋ ์ ์ ๋๋ค. Shadow Hand์ 31๊ฐ์ง ํ์ง ์ ํ์ด๋ฉด 31๊ฐ์ ์ด๊ธฐ ํ ํ๋ฆฟ๋ง ํ์ํฉ๋๋ค. ์ดํ ํ์ดํ๋ผ์ธ์ด ์ฑ๊ณตํ ํ์ง์์ ์๋์ผ๋ก ์ ํ ํ๋ฆฟ์ ์์ฑํ์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฅํฉ๋๋ค โ ์ผ์ข ์ ์๊ธฐ ์ฆํญ(self-amplification) ๋ฉ์ปค๋์ฆ์ด์ฃ .
Stage 2: Global Alignment (๊ธ๋ก๋ฒ ์ ๋ ฌ)
ํต์ฌ ์ง๋ฌธ: โ์ด ๋ฌผ์ฒด๋ฅผ ์ ํ ํ๋ฆฟ์ ์ด๋ป๊ฒ ๋ง์ถ ๊ฒ์ธ๊ฐ?โ
์ ํต์ ์ ๊ทผ๋ฒ์ ์์ ๋ฌผ์ฒด์ ๋ง์ถ๋ ค ํฉ๋๋ค. Dexonomy๋ ์ญ๋ฐ์์ผ๋ก ์ ๊ทผํฉ๋๋ค โ ๋ฌผ์ฒด์ ์์นยท์์ธ๋ฅผ ์ต์ ํํ์ฌ ์ ํ ํ๋ฆฟ์ ๋ง์ถฅ๋๋ค.
์ ์ด๋ ๊ฒ ํ ๊น์? ๋ฌผ์ฒด์ ํฌ์ฆ๋ SE(3), ์ฆ 6์ฐจ์(3 ์ด๋ + 3 ํ์ )์ด์ง๋ง, ์์ ๊ด์ ๊ณต๊ฐ์ 20์ฐจ์์ด ๋์ต๋๋ค. 6์ฐจ์ ์ต์ ํ๊ฐ ํจ์ฌ ๋น ๋ฅด๊ณ ์์ ์ ์ ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ๋ฌผ์ฒด ํฌ์ฆ \mathbf{T} = (\mathbf{R}, \mathbf{t})๋ฅผ ์ต์ ํํ์ฌ ๋ค์ ์๋์ง๋ฅผ ์ต์ํํฉ๋๋ค:
E_\text{align}(\mathbf{T}) = \sum_{i=1}^{K} \left[ \lambda_d \cdot d(\mathbf{p}_i, \text{Surf}(\mathcal{O}, \mathbf{T}))^2 + \lambda_n \cdot (1 - \mathbf{n}_i \cdot \mathbf{n}_{\text{obj},i})^2 \right]
์ฌ๊ธฐ์:
- d(\mathbf{p}_i, \text{Surf}(\mathcal{O}, \mathbf{T})): ์์ ์ ์ด์ \mathbf{p}_i์์ ๋ณํ๋ ๋ฌผ์ฒด ํ๋ฉด๊น์ง์ ๊ฑฐ๋ฆฌ
- \mathbf{n}_i \cdot \mathbf{n}_{\text{obj},i}: ์ ์ ์ด ๋ฒ์ ๊ณผ ๋ฌผ์ฒด ํ๋ฉด ๋ฒ์ ์ ๋ด์ (์ ๋ ฌ๋)
- K: ์ด ์ ์ด์ ์
์ฝ๊ฒ ๋งํ๋ฉด, โ์์ ์ง์ ๋ ์ ์ด์ ์ ๋ฌผ์ฒด ํ๋ฉด์ด ๊ฐ๊น์ด ์ค๊ณ , ๊ทธ ์ง์ ์ ๋ฒ์ ๋ฐฉํฅ์ด ์ผ์นํ๋๋กโ ๋ฌผ์ฒด๋ฅผ ์์ง์ด๋ ๊ฒ์ ๋๋ค. ์ด ์ต์ ํ๋ GPU์์ ์์ฒ ๊ฐ๋ฅผ ๋ณ๋ ฌ๋ก ์คํ๋๋ฏ๋ก ๋งค์ฐ ๋น ๋ฆ ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ง ์ค์ํ ํํฐ๋ง์ด ์ด ๋จ๊ณ์์ ์ํ๋ฉ๋๋ค:
- ์ฌ๊ฐํ ์นจํฌ ๊ฒ์ถ: ์์ ์ง์ ์ธ๊ทธ๋จผํธ(skeleton)๋ก ๊ฐ์ํํ์ฌ ๋ฌผ์ฒด ๋ฉ์์์ ๊ต์ฐจ๋ฅผ ๋น ๋ฅด๊ฒ ๊ฒ์ฌ
- ์ ์ด ํ์ง ํํฐ: ์ ์ด์ ๊ฑฐ๋ฆฌ์ ๋ฒ์ ์ผ์น๋์ ์ต์ ์๊ณ๊ฐ ํ์ธ
Stage 3: Local Refinement (๋ก์ปฌ ๋ฏธ์ธ์กฐ์ )
Global Alignment ์ดํ์๋ ์๊ณผ ๋ฌผ์ฒด์ ์ ์ด์ ์๋ฒฝํ์ง ์์ต๋๋ค. ๋ฌผ์ฒด ํํ๋ ์ ๋ง๋ค ๋ค๋ฅด๋๊น์. ์ด ๋จ๊ณ์์๋ MuJoCo ์๋ฎฌ๋ ์ด์ ์์์ ์์ ๊ด์ ์ ๋ฏธ์ธํ๊ฒ ์กฐ์ ํฉ๋๋ค.
์ฌ๊ธฐ์ Dexonomy์ ๊ธฐ์ ์ ์ผ๋ก ๊ฐ์ฅ ์ฐ์ํ ๋ถ๋ถ์ด ๋ฑ์ฅํฉ๋๋ค โ Transposed Jacobian Control์ ํ์ฉํ ์ ์ด ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ์ ๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ณต์กํ ๋ชฉ์ ํจ์์ ์ปค์คํ ์ตํฐ๋ง์ด์ ๋ฅผ ์ค๊ณํ์ต๋๋ค. Dexonomy๋ ๋์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ์ญํ์ ์ง์ ํ์ฉํฉ๋๋ค:
- ์ ํ๋ฉด์ ์ ์ด์ ์ ๋ฌผ์ฒด ํ๋ฉด์ ํฅํ ๊ฐ์์ ํ์ ์ ์
- ์ด ํ์ ๊ด์ ํ ํฌ๋ก ๋ณํ: \boldsymbol{\tau} = \mathbf{J}^\top \mathbf{f}
- MuJoCo๊ฐ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ฌผ์ฒด์ ๋ฐ์ฐฉ
์ด ์ ๊ทผ๋ฒ์ ์ฅ์ ์ ์ฌ๋ฌ ๊ฐ์ง์ ๋๋ค:
- ์นจํฌ๊ฐ ์์ฒ์ ์ผ๋ก ๋ถ๊ฐ๋ฅ: ๋ฌผ๋ฆฌ ์์ง์ด ์ถฉ๋์ ์ฒ๋ฆฌํ๋ฏ๋ก
- ์ฝ๋ฉ์ด ๊ฐ๋จ: ๋ณต์กํ ์ปค์คํ ์๋์ง ํจ์๋ฅผ ์ค๊ณํ ํ์ ์์
- ์ ์ด์ด ํ๋ถ: ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ์ด ์ญํ์ ์์ฐ์ค๋ฝ๊ฒ ํด๊ฒฐ
flowchart LR
subgraph GA["Stage 2: Global Alignment"]
A1["๋ฌผ์ฒด ํฌ์ฆ T ์ํ๋ง<br/>(์์ฒ ๊ฐ ๋ณ๋ ฌ)"] --> A2["์ ์ด์ ๊ฑฐ๋ฆฌ +<br/>๋ฒ์ ์ ๋ ฌ ์ต์ ํ"]
A2 --> A3["์นจํฌ ๊ฒ์ฌ +<br/>ํ์ง ํํฐ"]
end
subgraph LR["Stage 3: Local Refinement"]
B1["MuJoCo์<br/>์+๋ฌผ์ฒด ๋ฐฐ์น"] --> B2["๊ฐ์ ํ ์ ์<br/>f โ ๋ฌผ์ฒด ํ๋ฉด ๋ฐฉํฅ"]
B2 --> B3["ฯ = J^T f<br/>Jacobian ์ ์น ์ ์ด"]
B3 --> B4["๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
<br/>์ ๋ฏธ์ธ์กฐ์ "]
end
GA --> LR
style GA fill:#E3F2FD
style LR fill:#FFF3E0
Stage 4: Simulation Validation (์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ)
ํ์ง๊ฐ ์์ฑ๋์๋ค๊ณ ๋์ด ์๋๋๋ค. ์ค์ ๋ก ๋ฌผ๊ฑด์ โ๋ค ์ ์๋์งโ ๊ฒ์ฆํด์ผ ํฉ๋๋ค. Dexonomy๋ ์ด๋ฅผ ์ํด Contact-Aware Control Strategy๋ฅผ ์ ์ํฉ๋๋ค.
Force-Closure ๊ฒ์ฆ์ ํต์ฌ ์์ด๋์ด
Force-closure๋ โ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์ธ๋ ฅ์ด ๊ฐํด์ ธ๋ ํ์ง๊ฐ ์ ์ง๋๋๊ฐ?โ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ํ์ ์ผ๋ก ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณต์ํ๋ฉ๋๋ค:
๊ฐ ์ ์ด์ i์์์ ํ \mathbf{f}_i๊ฐ ๋ง์ฐฐ์๋ฟ(friction cone) \mathcal{F}_i ์์ ์์ผ๋ฉด์, ๋ชจ๋ ์ ์ด๋ ฅ์ ํฉ์ด ์ธ๋ถ ๋ ์น(wrench) \mathbf{w}_\text{ext}๋ฅผ ์์ํด์ผ ํฉ๋๋ค:
\min_{\mathbf{f}_1, \ldots, \mathbf{f}_K} \sum_{i=1}^{K} \|\mathbf{f}_i\|^2 \quad \text{s.t.} \quad \sum_{i=1}^{K} \mathbf{G}_i \mathbf{f}_i = -\mathbf{w}_\text{ext}, \quad \mathbf{f}_i \in \mathcal{F}_i
๋ง์ฐฐ์๋ฟ \mathcal{F}_i๋ฅผ ํผ๋ผ๋ฏธ๋๋ก ๊ทผ์ฌํ๋ฉด ์ด ๋ฌธ์ ๋ ์ ํ ์ ์ฝ ์ด์ฐจ๊ณํ๋ฒ(LCQP)์ผ๋ก ๋ณํ๋์ด ํจ์จ์ ์ผ๋ก ํ ์ ์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ ์ผ๋ฐ์ ์ธ force-closure ๊ฒ์ฆ์ 6๋ฐฉํฅ ์ค๋ ฅ์ ๋ชจ๋ ํ ์คํธํด์ผ ํด์ LCQP๋ฅผ 6๋ฒ ํ์ด์ผ ํฉ๋๋ค. Dexonomy๋ ์ด๋ฅผ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๊ฒ์ฆ์ผ๋ก ๋์ฒดํฉ๋๋ค:
- LCQP๋ก ๊ฐ ์ ์ด์ ์์์ ์ํ๋ ํ \mathbf{f}_i^*๋ฅผ ๊ณ์ฐ
- Transposed Jacobian control๋ก ์์ด ์ด ํ์ ๊ทผ์ฌ์ ์ผ๋ก ๊ฐํ๋๋ก ์ ์ด: \boldsymbol{\tau} = \mathbf{J}^\top \mathbf{f}^*
- ์๋ฎฌ๋ ์ด์ ์์ ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง๋์ง ํ์ธ
์ด ๋ฐฉ์์ ๊ธฐ์กด ํด๋ฆฌ์คํฑ(์์ ๊ฝ ์ฅ๋ ๋ฐฉ์)๊ณผ ๋ฌ๋ฆฌ, ๋ชจ๋ ํ์ง ์ ํ์ ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉ๋ฉ๋๋ค. Precision grasp์์ ์๊ฐ๋ฝ ๋๋ง ํ์ ๊ฐํ๋ ๊ฒฝ์ฐ์๋, power grasp์์ ์๋ฐ๋ฅ๊น์ง ํ์ฉํ๋ ๊ฒฝ์ฐ์๋ ๋์ผํ ํ๋ ์์ํฌ๊ฐ ์๋ํฉ๋๋ค.
Stage 5: Template Self-Amplification (ํ ํ๋ฆฟ ์๊ธฐ ํ์ฅ)
์ฑ๊ณตํ ํ์ง๋ ์๋ก์ด ํ ํ๋ฆฟ์ด ๋ฉ๋๋ค. ์ด๋ ์ค์ํ ์ค๊ณ ์์น์ด ์์ต๋๋ค:
- ๊ด์ ๊ฐ๋: ์ฑ๊ณตํ ํ์ง์์ ์ง์ ๊ฐ์ ธ์ด
- ์ ์ด ์ ๋ณด: ์๋ ์ ์ด์ ๊ทผ์ฒ์์ ์ค์ ์ ์ด์ด ๊ฐ์ง๋ ๊ฒฝ์ฐ์๋ง ์ ๋ฐ์ดํธ
์ด ๋ณด์์ ์ธ ์ ๋ฐ์ดํธ ์ ๋ต์ ํ ํ๋ฆฟ์ด ์๋ ํ์ง ์ ํ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋๋ก ๋ณด์ฅํฉ๋๋ค. 10 ์ํญ์ ๊ฑธ์ณ ์ ์ฒด ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ณต ์ฒ๋ฆฌํ๋ฉด์ ํ ํ๋ฆฟ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ์ง์ ์ผ๋ก ์ฑ์ฅํฉ๋๋ค.
Dexonomy ๋ฐ์ดํฐ์ : ์ซ์๋ก ๋ณด๋ ๊ท๋ชจ
| ํญ๋ชฉ | ์์น |
|---|---|
| ์ด ๋ฌผ์ฒด ์ | 10,700๊ฐ (DexGraspNet 5k + Objaverse 5.7k) |
| ์ด ํ์ง ์ | 9,500,000๊ฐ |
| ํ์ง ์ ํ ์ | 31๊ฐ์ง (GRASP Taxonomy) |
| ๋ก๋ด ํธ๋ | Shadow Hand |
| ๋ฌผ์ฒด ์ค์ผ์ผ ๋ฒ์ | 0.06 ~ 0.12 (ํ์ค์ ํฌ๊ธฐ) |
| ๋ฌผ์ฒด ์ง๋ | 100g (๊ธฐ์กด ์ฐ๊ตฌ๋ณด๋ค ๋ฌด๊ฑฐ์) |
๋ฐ์ดํฐ์ ์ ํ์ง ์ ํ ๋ถํฌ๋ ์์ฐ์ค๋ฝ๊ฒ ๋ถ๊ท ํ์ ๋ณด์ ๋๋ค. ์ด๋ ๋ถ๊ฐํผํ๋ฐ, Lateral grasp(#16)๋ ๋ฉ์ํ๊ณ ์์ ๋ฌผ์ฒด์๋ง ์ ํฉํ๊ณ , Large Diameter grasp(#1)๋ ๋ค์ํ ๋ฌผ์ฒด์ ์ ์ฉ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํ์ต ๊ธฐ๋ฐ ํ์ง ์์ฑ: Type-Conditional Generative Model
๋ฐ์ดํฐ์ ์ ์ง์ ํ ๊ฐ์น๋ ํ์ต ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๋ จํ ์ ์๋ค๋ ์ ์ ์์ต๋๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ
๋ ผ๋ฌธ์์๋ CVAE(Conditional Variational Autoencoder) ๊ธฐ๋ฐ์ type-conditional ์์ฑ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค:
- ์ ๋ ฅ: ๋จ์ผ ๋ทฐ ํฌ์ธํธ ํด๋ผ์ฐ๋ (๋ถ๋ถ ๊ด์ฐฐ)
- ์กฐ๊ฑด: ํ์ง ์ ํ (31๊ฐ์ง ์ค ํ๋)
- ์ถ๋ ฅ: ์์ ๊ด์ ๊ฐ๋ + ์๋ชฉ ํฌ์ฆ (SE(3) ๋ณํ)
์ฌ๊ธฐ์ ํ์ง ์ ํ ๋ถ๋ฅ๊ธฐ(classifier)๋ฅผ ๋ณ๋๋ก ํ์ตํ์ฌ, ์ฃผ์ด์ง ๋ฌผ์ฒด์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก๋ถํฐ ์ต์ ์ ํ์ง ์ ํ์ ์๋ ์ ํํฉ๋๋ค.
flowchart LR
A["๐ท ๋จ์ผ ๋ทฐ<br/>ํฌ์ธํธ ํด๋ผ์ฐ๋"] --> B["๐ท๏ธ Type Classifier<br/>(์ต์ ํ์ง ์ ํ ์ ํ)"]
A --> C["๐ง Type-Conditional<br/>CVAE"]
B -->|"ํ์ง ์ ํ t"| C
C --> D["โ ํ์ง ์์ฑ<br/>(๊ด์ ๊ฐ + ์๋ชฉ ํฌ์ฆ)"]
D --> E["๐ ์๋ฎฌ๋ ์ด์
<br/>๊ฒ์ฆ"]
E -->|์ฑ๊ณต| F["๐ค ์คํ"]
style C fill:#9C27B0,color:white
style F fill:#4CAF50,color:white
์๋ฎฌ๋ ์ด์ ์คํ ๊ฒฐ๊ณผ
10,700๊ฐ ๋ฌผ์ฒด๋ฅผ 4:1๋ก ํ๋ จ/ํ ์คํธ ๋ถํ ํ์ฌ ๋น๊ตํ ์ฃผ์ ๊ฒฐ๊ณผ:
| ๋ฐฉ๋ฒ | ๋ฐ์ดํฐ์ | ์ฑ๊ณต๋ฅ (Normal) | ์ฑ๊ณต๋ฅ (Hard) |
|---|---|---|---|
| BODex ๋ฐ์ดํฐ์ + ํ์ต | 0.7M grasps | ๋ฎ์ | ๋งค์ฐ ๋ฎ์ |
| Ours-type1 (Large Diameter๋ง) | 0.4M | ์ค๊ฐ | ์ค๊ฐ |
| Ours-all (31 ์ ํ ์ ์ฒด) | 9.5M | ์ต๊ณ | ์ต๊ณ |
ํต์ฌ ์ธ์ฌ์ดํธ: ๋จ์ผ ํ์ง ์ ํ๋ง ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ๋ชจ๋ ํ์ง ์ ํ์ ํฌํจํ ๋ฐ์ดํฐ๊ฐ ์ ์ฒด ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฝ๋๋ค. ์ด๋ ์๋ก ๋ค๋ฅธ ํ์ง ์ ํ์ด ์๋ก ๋ค๋ฅธ ๋ฌผ์ฒด ํํ์ ๋ํ ๋ณด์์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ค์ธ๊ณ ์คํ
Shadow Hand๋ฅผ ์ฌ์ฉํ ์ค์ธ๊ณ ์คํ์์ 82.3% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ๋จ์ผ ๋ทฐ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ง์ผ๋ก ์ํ๋ ํ์ง ์ ํ์ ์ํํ ์ ์๋ค๋ ์ ์ด ์ธ์์ ์ ๋๋ค.
์คํ ๋ถ์: ๋ฌด์์ด ์๋ํ๊ณ , ๋ฌด์์ด ์๋๊ฐ
Type-Unaware ํ์ง ํฉ์ฑ ๋น๊ต (์๋ฎฌ๋ ์ด์ )
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค(DexGraspNet, BODex ๋ฑ)๊ณผ ๋น๊ตํ ํ๊ฑฐํ ํ์ง ํฉ์ฑ ๊ฒฐ๊ณผ:
| ์งํ | Dexonomy | BODex | DexGraspNet |
|---|---|---|---|
| ์ฑ๊ณต๋ฅ | ์ต๊ณ | ์ค๊ฐ | ๋ฎ์ |
| ์ ์ด ํ๋ถ๋ | ์ต๊ณ | ์ค๊ฐ | ์ค๊ฐ |
| ์นจํฌ | ์ต์ | ์ ์ | ์ค๊ฐ |
| ์๋ | ์ค๊ฐ | ์ต๊ณ (GPU ์ต์ ํ) | ๋๋ฆผ |
| ๋ค์์ฑ | ์ค๊ฐ | ๋์ | ๋์ |
Dexonomy์ ์๋๊ฐ BODex๋ณด๋ค ์ฝ๊ฐ ๋๋ฆฐ ์ด์ ๋, Local Refinement ๋จ๊ณ๊ฐ MuJoCo์ CPU ๋ฒ์ ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ทธ๋ฌ๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํ์ง ๋ค์์ฑ์ 31๊ฐ์ง ์ ํ์ ํฌํจํ๋ฏ๋ก ์๋์ ์ผ๋ก ์ฐ์ํฉ๋๋ค.
ํ์ง ์ ํ๋ณ ์ฑ๊ณต๋ฅ ๋ถ์
GRASP Taxonomy์ ๋ฐ๋ฅธ ์ธ ๋๋ถ๋ฅ๋ณ ํ๋ ์ฐจ์ด๊ฐ ํฅ๋ฏธ๋กญ์ต๋๋ค:
| ํ์ง ๋ถ๋ฅ | Normal ์กฐ๊ฑด ์ฑ๊ณต๋ฅ | Hard ์กฐ๊ฑด ์ฑ๊ณต๋ฅ | ํน์ง |
|---|---|---|---|
| Precision | ์ต๊ณ | ๊ธ๊ฒฉํ ํ๋ฝ | ์๊ฐ๋ฝ ๋๋ง ์ฌ์ฉ, ๋ค์ํ ๋ฌผ์ฒด์ ์ ์ฉ ๊ฐ๋ฅํ๋ ๋ง์ฐฐ ์์กด๋ ๋์ |
| Power | ๋์ | ์๋์ ์ ์ง | ๋์ ์ ์ด ๋ฉด์ ์ผ๋ก ๋ง์ฐฐ ๊ฐ์์ ๊ฐ๊ฑด |
| Intermediate | ์ค๊ฐ | ์ค๊ฐ | ๋ ์ ํ์ ์ค๊ฐ์ ํน์ฑ |
์ด ๊ฒฐ๊ณผ๋ ์ง๊ด๊ณผ ์๋ฒฝํ ์ผ์นํฉ๋๋ค. ์ ๋ฐ ํ์ง๋ ์ ์ด ๋ฉด์ ์ด ์์์ ๋ง์ฐฐ์ด ์ค์ด๋ค๋ฉด ์ทจ์ฝํด์ง์ง๋ง, ํ์ ํ์ง๋ ์๋ฐ๋ฅ๊น์ง ๋์ํ์ฌ ๋์ ์ ์ด์ ํ๋ณดํ๋ฏ๋ก ๋ ๊ฐ๊ฑดํฉ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ํ์ง ์ ํ ๋ค์์ฑ์ด ์ ์ค์ํ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ฆ๊ฑฐ์ ๋๋ค โ ์ํฉ์ ๋ง๋ ํ์ง ์ ๋ต์ ์ ํํ ์ ์์ด์ผ ํฉ๋๋ค.
ํ ํ๋ฆฟ ๊ฐ๊ฑด์ฑ
๋ ผ๋ฌธ์ Figure 5์์ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ๊ฐ ์ธ์์ ์ ๋๋ค. ๋งค์ฐ ๋ถ์ ํํ ์ ์ด ์ฃผ์์ผ๋ก ์์ํด๋ ํฉ๋ฆฌ์ ์ธ ํ์ง๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ Global Alignment โ Local Refinement์ 2๋จ๊ณ ์ค๊ณ๊ฐ ์ด๊ธฐ ๋ ธ์ด์ฆ์ ๊ฐ๊ฑดํจ์ ์๋ฏธํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ๋ฌธ์ ์ค์ ์ ์ฐ์ํจ
โ๋ฌผ์ฒด๋ฅผ ์์ ๋ง์ถ๊ณ , ๊ทธ๋ค์ ์์ ๋ฌผ์ฒด์ ๋ง์ถ๋คโ๋ 2๋จ๊ณ ์ ๋ต์ 20+์ฐจ์ ๋์ ์ต์ ํ๋ฅผ 6์ฐจ์ + ๋ก์ปฌ ์กฐ์ ์ผ๋ก ๋ถํดํ๋ ํ์ํ ๋ฌธ์ ๋ถํด์ ๋๋ค. ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ฐ๋จํ ํ์ ๋ฌธ์ ๋ค๋ก ๋๋๋ ๊ฒ โ ์ด๊ฒ์ด ์ข์ ๊ณตํ์ ์ ์์ ๋๋ค.
2. Transposed Jacobian์ ์๋ฆฌํ ํ์ฉ
๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ โ์ตํฐ๋ง์ด์ โ๋ก ํ์ฉํ๋ ๋ฐ์์ด ๋ฐ์ด๋ฉ๋๋ค. ์ปค์คํ ์๋์ง ํจ์๋ฅผ ์ค๊ณํ๊ณ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ๋์ , MuJoCo๊ฐ ์ด๋ฏธ ์ ํ๋ ๊ฒ(์ ์ด ํด์, ์นจํฌ ๋ฐฉ์ง)์ ๊ทธ๋๋ก ํ์ฉํฉ๋๋ค. ์ต์ํ์ ์ฝ๋ฉ์ผ๋ก ์ต๋์ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ์ ์ป๋ ์ ์ด์ฃ .
3. Self-Amplification ๋ฉ์ปค๋์ฆ
์ฑ๊ณตํ ํ์ง๊ฐ ์ ํ ํ๋ฆฟ์ด ๋๋ ํผ๋๋ฐฑ ๋ฃจํ๋ โ๋ฐ์ดํฐ ํ๋ผ์ดํ โ ํจ๊ณผ๋ฅผ ๋ง๋ญ๋๋ค. ์ด๊ธฐ์ ํ์ง ์ ํ๋น 1๊ฐ์ ํ ํ๋ฆฟ์ผ๋ก ์์ํด์, ์ ์ ๋ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ์ ์๋ ํ ํ๋ฆฟ์ด ์ถ์ ๋ฉ๋๋ค.
4. ์ค์ผ์ผ๊ณผ ์ค์ฉ์ฑ
10,700๊ฐ ๋ฌผ์ฒด, 950๋ง ํ์ง, 31 ์ ํ โ ์ด ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ์ด ๋ถ์ผ์์ ์ ๋ก๊ฐ ์์ต๋๋ค. ๋ฐ์ดํฐ์ ์ด Hugging Face์ ๊ณต๊ฐ๋์ด ์์ด ํ์ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. Shadow Hand ์ค์ฌ ์ค๊ณ
๋ฐ์ดํฐ์ ์ Shadow Hand๋ก๋ง ๊ตฌ์ถ๋์์ต๋๋ค. ๋ ผ๋ฌธ์ ํ์ดํ๋ผ์ธ์ด โ์ด๋ค ๊ด์ ํ ํธ๋โ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, Allegro Hand๋ LEAP Hand ๋ฑ ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก์ ์ค์ง์ ํ์ฅ์ ๋ณด์ฌ์ฃผ์ง ์์ต๋๋ค. Shadow Hand๋ 24 DoF์ ๊ณ ๋๋ก ์ธ๊ฐ๋ชจ๋ฐฉ์ ์ธ ํธ๋์ด๋ฏ๋ก, 16 DoF์ธ Allegro Hand์์ 31๊ฐ์ง ํ์ง ์ ํ์ด ๋ชจ๋ ์คํ ๊ฐ๋ฅํ์ง๋ ๋ณ๋์ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
2. ์๋-ํ์ง ํธ๋ ์ด๋์คํ
Local Refinement๊ฐ MuJoCo CPU์ ์์กดํ์ฌ BODex ๋๋น ์๋๊ฐ ๋๋ฆฝ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์๋ ์ถฉ๋ถํ์ง๋ง, ์ค์๊ฐ ํ์ง ๊ณํ์ ์ง์ ์ฌ์ฉํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค.
3. ํ์ง ์ ํ๋ณ ์ฑ๊ณต๋ฅ ๋ถ๊ท ํ
์ผ๋ถ ํน์ ํ์ง ์ ํ(์: Lateral, Sphere 4 Finger)์ ์ฑ๊ณต๋ฅ ์ด ๋งค์ฐ ๋ฎ์ต๋๋ค. ์ด๋ ํด๋น ์ ํ์ด ํน์ ๋ฌผ์ฒด ํํ์๋ง ์ ํฉํ๊ธฐ ๋๋ฌธ์ด์ง๋ง, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ์ ์ ํ์ง ์ ํ ๋ถํฌ๊ฐ ๋ถ๊ท ํํฉ๋๋ค.
4. ์ ์ ํ์ง ํ์
์ด ์ฐ๊ตฌ๋ ์ ์ ํ์ง(static grasp)๋ง ๋ค๋ฃน๋๋ค. ์ค์ ์กฐ์ ์์ ์์ ํ์ํ in-hand manipulation, ๋ฆฌ๊ทธ๋์คํ(regrasping), ๋๊ตฌ ์ฌ์ฉ ๋ฑ์ ๋์ ํ๋์ ๋ฒ์ ๋ฐ์ ๋๋ค.
5. Type Classifier์ ํ๊ณ
ํ์ง ์ ํ ์๋ ์ ํ๊ธฐ๋ ๋ฌผ์ฒด์ ํํ๋ง ๊ณ ๋ คํ๋ฉฐ, ์์ ์๋ฏธ๋ก (task semantics)์ ๋ฐ์ํ์ง ์์ต๋๋ค. ๊ฐ์ ์ปต์ด๋ผ๋ โ๋ง์๊ธฐ ์ํด ์ก๊ธฐโ์ โ์๊ธฐ ์ํด ์ก๊ธฐโ๋ ๋ค๋ฅธ ํ์ง ์ ํ์ด ํ์ํ๋ฐ, ์ด๋ฌํ ๊ธฐ๋ฅ์ ํ์ง(functional grasping)๋ ๋ค๋ฃจ์ง ์์ต๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
ํ์ง ํฉ์ฑ ๋ฐฉ๋ฒ๋ก ์ ์งํ
timeline
title ๋ก๋ด ์ ํ์ง ํฉ์ฑ์ ๋ฐ์ ์ฌ
section ์ด๊ธฐ (2020 ์ด์ )
Sampling ๊ธฐ๋ฐ : Simulated annealing ๋ฑ ๋น๋ฏธ๋ถ ์ต์ ํ
section DexGraspNet ์๋ (2023)
DexGraspNet : ๋ฏธ๋ถ ๊ฐ๋ฅ ์๋์ง + ๊ทธ๋๋์ธํธ ์ต์ ํ
: 1.32M grasps, type-unaware
section Bilevel ์ต์ ํ (2025)
BODex : GPU ๊ฐ์ bilevel ์ต์ ํ
: ์ด๋น 49+ grasps ํฉ์ฑ
section Taxonomy-Aware (2025)
Dexonomy : 31 ํ์ง ์ ํ ๋ฒ์ฉ ํฉ์ฑ
: 9.5M grasps
OmniDexVLG : ์ธ์ด ์กฐ๊ฑด + ๊ธฐ๋ฅ์ ์ดํฌ๋์ค
| ๋ฐฉ๋ฒ | ์ ํ ์ธ์ | ํธ๋ ๋ฒ์ฉ์ฑ | ๊ท๋ชจ | ๋ฌผ๋ฆฌ ๊ฒ์ฆ | ํ์ต ๋ชจ๋ธ |
|---|---|---|---|---|---|
| DexGraspNet (2023) | โ | Shadow | 1.32M | ์ ํ์ | CVAE |
| DexGraspNet 2.0 (2024) | โ | Shadow | 427M | MuJoCo | CVAE |
| BODex (2025) | โ | Shadow/Allegro/LEAP | ~์M | MuJoCo | - |
| GraspXL (2025) | ๋ถ๋ถ์ | Shadow | RL ๊ธฐ๋ฐ | IsaacGym | Policy |
| OmniDexVLG (2025) | โ (์ธ์ด+) | Shadow | - | ๋ฌผ๋ฆฌ ์ต์ ํ | VLM ์กฐ๊ฑด |
| Dexonomy (2025) | โ (31 ์ ํ) | Shadow | 9.5M | MuJoCo | CVAE |
| DemoGrasp (2025) | โ | ๋ค์ค ํธ๋ | RL ๊ธฐ๋ฐ | IsaacGym | RL Policy |
DemoGrasp์์ ๋๋น
๊ฑฐ์ ๋์๊ธฐ์ ๋ฐํ๋ DemoGrasp๋ RL ๊ธฐ๋ฐ์ผ๋ก ๋ฒ์ฉ ํ์ง๋ฅผ ํ์ตํ๋ฉฐ ์ค์ธ๊ณ 110๊ฐ ๋ฌผ์ฒด์์ ์๋ํฉ๋๋ค. ์ฐจ์ด์ ์ ๋ช ํํฉ๋๋ค:
- DemoGrasp: ํ์ง ์ ํ์ ๊ตฌ๋ถํ์ง ์์ง๋ง, closed-loop ์ ๊ทผ์ ๋ ๊ฐ๊น์
- Dexonomy: ํ์ง ์ ํ์ ๋ช ์์ ์ผ๋ก ์ ์ดํ์ง๋ง, open-loop ํ์ง ํฌ์ฆ ์์ฑ์ ์ง์ค
๋ ์ ๊ทผ๋ฒ์ ์ํธ ๋ณด์์ ์ด๋ฉฐ, Dexonomy์ type-aware ๋ฐ์ดํฐ์ ์ผ๋ก DemoGrasp ๋ฅ์ RL ์ ์ฑ ์ ํ์ตํ๋ฉด ์๋์ง๊ฐ ๊ธฐ๋๋ฉ๋๋ค.
OmniDexVLG์์ ๋น๊ต
OmniDexVLG๋ ํ์ง ๋ถ๋ฅ ์ฒด๊ณ๋ฟ ์๋๋ผ ๊ธฐ๋ฅ์ ์ดํฌ๋์ค(functional affordance)๊น์ง ๊ณ ๋ คํ๋ฉฐ, VLM(Vision-Language Model)์ ํ์ฉํ ์๋ฏธ๋ก ์ ํ์ง ์์ฑ์ ๋ค๋ฃน๋๋ค. Dexonomy๊ฐ ํ์ง ํฉ์ฑ์ โ์(quantity)โ๊ณผ โ๋ฌผ๋ฆฌ์ ์ ํ์ฑโ์ ์ง์คํ๋ค๋ฉด, OmniDexVLG๋ โ์๋ฏธ๋ก (semantics)โ์ ์ง์คํ๋ ์ ์ ๋๋ค.
์ฐ๋ฆฌ ์ฐ๊ตฌ์์ ์์ฌ์
RL ์ฐ๊ตฌ ๊ด์ ์์
Dexonomy ๋ฐ์ดํฐ์ ์ RL ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ์ ์ง์ ํ์ฉ๋ ์ ์์ต๋๋ค:
- Goal-conditioned RL: ๋ชฉํ ํ์ง ํฌ์ฆ๋ฅผ Dexonomy์์ ์ํ๋ง
- Reward shaping: type-aware ์ ์ด ๋ณด์ ์ค๊ณ
- Curriculum learning: ์ฌ์ด power grasp โ ์ด๋ ค์ด precision grasp ์์๋ก ํ์ต
VLA ๋ชจ๋ธ ๊ด์ ์์
Type-conditional ์์ฑ ๋ชจ๋ธ ์์ ์ธ์ด ์กฐ๊ฑด์ ์ถ๊ฐํ๋ฉด, โ์ด ์ปต์ ํ์น๋ก ์ก์โ์ ๊ฐ์ ์์ฐ์ด ๋ช ๋ น์ ๋ฐ๋ฅธ ํ์ง ์์ฑ์ด ๊ฐ๋ฅํด์ง๋๋ค. ์ด๋ VLA(Vision-Language-Action) ๋ชจ๋ธ์ action space๋ฅผ ํ์ง ์ ํ์ผ๋ก ๊ตฌ์กฐํํ๋ ๋ฐฉํฅ๊ณผ ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
Dexonomy๋ โ์ธ๊ฐ์ ํ์ง ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ๋ก๋ด์ด ์๋ฒฝํ๊ฒ ์ฌํํ ์ ์๋๊ฐ?โ๋ผ๋ ๊ทผ๋ณธ์ ์ง๋ฌธ์ ๋ํ ๋งค์ฐ ์ค๋๋ ฅ ์๋ ๋ต๋ณ์ ์ ์ํฉ๋๋ค.
- ์ญ๋ฐ์์ ํ: ์์ ๋ฌผ์ฒด์ ๋ง์ถ๋ ๋์ ๋ฌผ์ฒด๋ฅผ ์์ ๋ง์ถ๋ Global Alignment์ ์ฐจ์ ์ถ์์ ์๋ฆ๋ค์ด ์ฌ๋ก์ ๋๋ค
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ = ์ตํฐ๋ง์ด์ : Transposed Jacobian control๋ก MuJoCo๋ฅผ โ์ ์ด ์ต์ ํ๊ธฐโ๋ก ํ์ฉํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ฉ์ ์ธ ํต์ฐฐ์ ๋๋ค
- 1๊ฐ์ ํ ํ๋ฆฟ โ 950๋ง ํ์ง: Self-amplification์ผ๋ก ์ต์ํ์ ์ธ๊ฐ ๋ ธ๋ ฅ์์ ์ต๋ํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ด๋ ๋ฐ์ดํฐ ํจ์จ์ฑ
- ๋ค์์ฑ์ด ๊ณง ์ฑ๋ฅ: 31๊ฐ์ง ํ์ง ์ ํ ์ ์ฒด๋ฅผ ํ์ตํ ๋ชจ๋ธ์ด ๋จ์ผ ์ ํ๋ณด๋ค ์ฐ์ํ ๊ฒ์, ํ์ง ์ ํ์ ๋ณด์์ฑ(complementarity)์ ์ฆ๋ช ํฉ๋๋ค
๋จ์ ๊ณผ์
- ๋ค์ํ ๋ก๋ด ํธ๋(Allegro, LEAP, RUKA ๋ฑ)๋ก์ ํ์ฅ
- ๋์ ์กฐ์๊ณผ์ ํตํฉ (grasp โ manipulate ์ฐ์ ๋์)
- ๊ธฐ๋ฅ์ ํ์ง(functional grasping)๋ก์ ์๋ฏธ๋ก ์ ํ์ฅ
- GPU ๊ธฐ๋ฐ Local Refinement๋ก์ ์๋ ๊ฐ์
Dexonomy๋ dexterous grasping ์ฐ๊ตฌ์ ์ธํ๋ผ๋ฅผ ํ ๋จ๊ณ ๋์ด์ฌ๋ฆฌ๋ ์ฐ๊ตฌ์ ๋๋ค. ๋ง์น ImageNet์ด ์ปดํจํฐ ๋น์ ์ ๋ฏธ์น ์ํฅ์ฒ๋ผ, ๋๊ท๋ชจ ๊ณ ํ์ง ํ์ง ๋ฐ์ดํฐ์ ์ ์ด ๋ถ์ผ์ ์๋ก์ด ๋ฒค์น๋งํฌ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ด์ด์ค ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ์ ๋ณด
| ํญ๋ชฉ | ์ ๋ณด |
|---|---|
| ๋ ผ๋ฌธ | Dexonomy: Synthesizing All Dexterous Grasp Types in a Grasp Taxonomy |
| ์ ์ | Jiayi Chen, Yubin Ke, Lin Peng, He Wang (Peking University / Galbot) |
| ๋ฐํ | RSS 2025 (Robotics: Science and Systems) |
| ArXiv | 2504.18829 |
| ํ๋ก์ ํธ | pku-epic.github.io/Dexonomy |
| ์ฝ๋ | github.com/JYChen18/Dexonomy |
| ๋ฐ์ดํฐ์ | HuggingFace |
| ๋ผ์ด์ ์ค | CC BY-NC 4.0 |