flowchart TD
A[Input RGB image of human grasp] --> B[Stage 1: Hand-Object Modelling]
B --> B1[ResNet-18 encoder]
B1 --> B2[Hand branch: MANO params theta_h, beta_h -> hand mesh + joints]
B1 --> B3[Object branch: object center + SDF values -> object mesh]
B2 --> C[Stage 2: Contact Anchor + Force Closure]
B3 --> C
C --> C1[Extract fingertip contacts + normals, filter by SDF and antipodal]
C1 --> C2[HDBSCAN clustering on normals -> force components]
C1 --> C3[HDBSCAN clustering on positions -> contact components]
C2 --> C4[Hierarchical anchor assignment by gripper capacity]
C3 --> C4
C4 --> C5[Differentiable force-closure optimisation -> optimal contacts x*]
C5 --> D[Stage 3: Kinematics Optimisation]
D --> D1[LA-ICP correspondence between robot links and x*]
D1 --> D2[Optimise q, R, T under joint limits and collision]
D2 --> E[Physically plausible robot grasp]
E --> F[PyBullet simulation validation]
๐GenHand
- ๐ค GenHand๋ ์ฌ๋ ์๊ณผ ๋ก๋ด ๊ทธ๋ฆฌํผ ๊ฐ์ ํํํ์ ์ฐจ์ด๋ก ์ธํด ๋ฐ์ํ๋ teleoperation ๋ฐ imitation learning์์์ kinematic retargeting ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ์๋ก์ด object-oriented ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
- ๐ฆพ ์ด ํ๋ ์์ํฌ๋ ์ฌ๊ตฌ์ฑ๋ hand-object geometry์์ contact region์ ์ถ์ถํ๊ณ , force closure optimization์ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ ์ ์ธ contact anchor๋ฅผ ์์ฑํ๋ฉฐ, kinematics optimization์ผ๋ก ๊ทธ๋ฆฌํผ ๊ตฌ์ฑ์ ์ต์ ํํ์ฌ human-like grasp๋ฅผ ๊ตฌํํฉ๋๋ค.
- ๐ extensive evaluation ๊ฒฐ๊ณผ, GenHand๋ ๋ค์ํ ๊ทธ๋ฆฌํผ์ ๊ฐ์ฒด์ ๋ํด ๊ธฐ์กด baseline ๋๋น net wrench residual๊ณผ surface contact consistency์์ ํฌ๊ฒ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, simulation success rate๋ 39.8% ๋ ๋์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ์ฌ๋์ ์ ์ค์ฒ๋ฅผ ๋ก๋ด ๋งค๋ํฐ๋ ์ดํฐ์ ๋์์ผ๋ก, ํนํ ๊ฒฌ๊ณ ํ๊ณ ์ธ๊ฐ๊ณผ ์ ์ฌํ grasping์ด ํ์ํ ๊ฐ์ฒด ์กฐ์ ์์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ณํํ๋ ๋ฐ ํ์์ ์ธ kinematic retargeting ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก ์์ ํํ, ํนํ ์๊ฐ๋ฝ ๋ ์์น๋ฅผ ๋ณต์ ํ๋ ๋ฐ ์ค์ ์ ๋์์ง๋ง, ๋ค์ํ ํํ์ grippers์ ์ ์ํ ๋ grasp ํ์ง์ด ์ ํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ force closure์ kinematic similarity๋ฅผ ์ต์ ํํ์ฌ ๋ค์ํ grippers์ ๋ํด ์ธ๊ฐ๊ณผ ์ ์ฌํ grasps๋ฅผ ์์ฑํ๋ kinematic retargeting ์๊ณ ๋ฆฌ์ฆ์ธ GenHand๋ฅผ ์ ์ํฉ๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ ๋ฐ ํ๊ณ:
Kinematic retargeting ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅ๋ฉ๋๋ค:
- Hand-oriented (Key-vector based) approaches: ์ธ๊ฐ์ ์ ์ค์ฒ๋ฅผ ์ง์ captureํ์ฌ ๋ก๋ด์ mappingํฉ๋๋ค. ์ฃผ๋ก ์ธ๊ฐ๊ณผ ๋ก๋ด ์์ ์๊ฐ๋ฝ ๋ ์ฌ์ด์ ๊ณต๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต์ํํ๋ kinematics optimization์ ์์กดํฉ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ธ๊ฐ ์๊ณผ ๋ก๋ด gripper ์ฌ์ด์ kinematic similarity์ ์ ์ฝ์ ๋ฐ์ผ๋ฉฐ, gripper๊ฐ ์ถฉ๋ถํ contact region์ ์ ๊ณตํ์ง ๋ชปํ ๊ฒฝ์ฐ retargeting์ ์์ ์ฑ์ ๋ณด์ฅํ์ง ๋ชปํฉ๋๋ค. ๋ํ, ๊ฐ์ฒด ํ์์ ๊ณ ๋ คํ์ง ์์ contact consistency๋ stability analysis๋ฅผ ๋ณด์ฅํ์ง ๋ชปํฉ๋๋ค.
- Object-oriented approaches: ๊ฐ์ฒด ํ๋ฉด์ contact region์ ๋ชจ๋ธ๋งํ๊ณ ๋ก๋ด gripper๊ฐ ํด๋น ์์ญ์ ๋ฎ๋๋ก mappingํฉ๋๋ค. ์ด๋ ๊ฐ์ฒด ํ์์ ๋ํ ๋ ๋์ ์ ์์ฑ์ ์ ๊ณตํ์ง๋ง, ์๊ฐ๋ฝ ์๊ฐ ์ ๊ฑฐ๋ dexterous ๋ฅ๋ ฅ์ด ์ ํ์ ์ธ ๋ก๋ด gripper์ retargetingํ ๋ grasp ํ์ง๊ณผ ์์ ์ฑ์ ์ ์งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค.
GenHand์ ํต์ฌ ์์ด๋์ด:
GenHand๋ kinematic retargeting๊ณผ grasp synthesis๋ฅผ ๊ฒฐํฉํ์ฌ ์์ ์ฑ์ ๋ช ์์ ์ผ๋ก ํ๋ณดํ๋ ์๋ก์ด object-oriented ์ ๊ทผ ๋ฐฉ์์ ๋๋ค. ์ฌ๊ตฌ์ฑ๋ hand-object geometry๋ก๋ถํฐ ํ๋ณด contact regions๋ฅผ ์ถ์ถํ๊ณ , ๋น์ง๋ ํ์ต(unsupervised) ๊ธฐ๋ฐ์ clustering ๋ถ์์ ํตํด ์ธ๊ฐ์ grasps๋ฅผ ๊ตฌ์กฐํ๋ sub-representations๋ก ์ถ์ํํฉ๋๋ค. ์ด ์ถ์ํ๋ dexterity๊ฐ ์ ํ๋ gripper์ ๋ํ ํฉ๋ฆฌ์ ์ธ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๊ทธ ๋ค์, differentiable force-closure optimization์ ์ํํ์ฌ sub-representations๋ฅผ ๋ง์ฐฐ ์ ์ฝ ํ์์ ํํ ์ํ(equilibrium-feasible configurations)๋ก ์ ๋ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, collision ๋ฐ joint-limit ์ ์ฝ ํ์์ ๋ก๋ด ๋งํฌ์ target contact ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต์ํํ๋ kinematics optimization์ ์ ์ํฉ๋๋ค. ์ด optimization์ in-loop linear-assignment and iterative closest point (LA-ICP) ๊ธฐ๋ฐ์ ๋จ๊ณ๋ฅผ ํฌํจํ์ฌ ๋ก๋ด๊ณผ target contact ๊ฐ์ correspondence๋ฅผ ๋์ ์ผ๋ก matchingํจ์ผ๋ก์จ ํฉ๋ฒ์ ์ด๊ณ ์คํ ๊ฐ๋ฅํ grasp configuration์ ๊ตฌํํฉ๋๋ค.
GenHand์ ๋ฐฉ๋ฒ๋ก (๊ธฐ์ ์ ์ธ๋ถ ์ฌํญ):
- Hand-Object Contact Modelling:
- ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ฐ์ฒด์ ์ธ๊ฐ ์์ ์ํธ์์ฉ์ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- DeepSDF๋ฅผ ๊ฐ์ฒด ํํ์, MANO๋ฅผ ์ธ๊ฐ ์ ํํ์ ์ฌ์ฉํฉ๋๋ค.
AlignSDF์ ์ค๊ณ๋ฅผ ๋ฐ๋ผ ๋ ๊ฐ์ branch๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:- Hand-branch decoder:
MANOpose parameter \theta_h์ shape parameter \beta_h๋ฅผ ์์ธกํ๊ณ ,MANO layer๋ฅผ ํตํด ์์ joint ์์น์ surface mesh๋ฅผ ์์ฑํฉ๋๋ค. - Object-branch decoder: point samples๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ํด๋น
SDF๊ฐ์ ์์ธกํฉ๋๋ค. ๋ํ ๊ฐ์ฒด์ ์ค์ฌ(center)๋ ์์ธกํฉ๋๋ค.
- Hand-branch decoder:
- ์๊ณผ ๊ฐ์ฒด ๋ชจ๋ธ๋ง์ ์ํ Loss Function์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{HO}(\mathbf{p}, \mathbf{g}) = \lambda_{sdf_o} | \Delta sdf_o - sdf_o | + \lambda_t || \Delta t_o - t_o ||^2 + \lambda_j || \Delta j_h - j_h ||^2 + \lambda_h || (\theta_h, \beta_h) ||^2 ์ฌ๊ธฐ์ \mathbf{p}๋ ์์ธก๊ฐ, \mathbf{g}๋ ground truth ๊ฐ์ ๋๋ค.
ResNet-18์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ multiscale visual features๋ฅผ ์ถ์ถํฉ๋๋ค.
- Contact Anchor Generation:
- ์ธ๊ฐ์ grasp ํจํด์ ๋ถ์ํ๊ณ ๋ก๋ด gripper ๊ตฌ์กฐ์ ๋ง๋ ์๋ก์ด grasp structure๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- Valid Human Contact Point ์ถ์ถ:
MANO๋ชจ๋ธ๋ก ์์ฑ๋ ์ธ๊ฐ ์ mesh๋ก๋ถํฐ ์๊ฐ๋ฝ ๋(fingertip) contact points์ ํด๋น surface normals๋ฅผ ์ถ์ถํฉ๋๋ค.SDF๊ฐ์ ํตํด ๊ฐ์ฒด ํ๋ฉด๊ณผ์ ๊ทผ์ ๋๋ฅผ ํ์ธํ๊ณ , contact points๊ฐ ๊ฐ์ฒด ํ๋ฉด์ ํน์ ๊ฑฐ๋ฆฌ ๋ด์ ์๊ณ hand contact normal๊ณผ object surface normal์ด antipodal ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๊ฒฝ์ฐ ์ ํจํ contact point๋ก ์ ํํฉ๋๋ค. - Contact Information ๋ถ์ (HDBSCAN Clustering):
- Contact normals์ ๋ํ clustering: grasp ๋ด์ ์ง๋ฐฐ์ ์ธ force directions๋ฅผ ์๋ณํฉ๋๋ค. centroid๋ ํด๋น contact positions์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค.
- Contact positions์ ๋ํ clustering: ์ธ๊ฐ grasp์ ๊ตฌ์กฐ์ ๋ฐฐ์น์ ๊ธฐํํ์ ๋ฐฐ์ด์ captureํฉ๋๋ค.
- Robot Gripper์ Contact Anchor ํ ๋น: gripper์ kinematic configuration์ ๊ณ ๋ คํ์ฌ ๊ณ์ธต์ ์ ๋ต์ผ๋ก ํ ๋นํฉ๋๋ค.
- ๊ฐ์ฅ ๋๋ ทํ force components (์ผ๋ฐ์ ์ผ๋ก antipodal grasping points)๋ฅผ ์ฐ์ ์ ์ผ๋ก ํ ๋นํฉ๋๋ค.
- Dexterous gripper์ ๊ฒฝ์ฐ, normal-based clustering์ผ๋ก ์๋ณ๋ ๋ชจ๋ primary force components๋ฅผ ๋ค๋ฃฐ ๋๊น์ง contact anchors๋ฅผ ๊ณ์ ํ ๋นํฉ๋๋ค.
- ์ถ๊ฐ์ ์ธ contact capacity๊ฐ ์๋ ๊ฒฝ์ฐ, position-based clustering์ centroids๋ฅผ ํตํฉํ์ฌ grasp๋ฅผ ์ ๊ตํํฉ๋๋ค.
- ์ด๋ฌํ ๊ณผ์ ์ ๋ก๋ด gripper์ ์ด๋ฐ contact region์ธ \mathbf{x}_h๋ฅผ ์ ๊ณตํ๋ฉฐ, ๋ค์ ๋จ๊ณ์ force-closure optimization์ ์ํ ์ ๋ ฅ์ด ๋ฉ๋๋ค. ์ธ๊ฐ์ grasping๊ณผ ์ ์ฌ์ฑ์ ์ถ๊ตฌํ๊ธฐ ์ํด ์ฌ๊ตฌ์ฑ๋ ์ธ๊ฐ contact anchor \mathbf{x}_h ๊ทผ๋ฐฉ์ ๋ก๋ด grasping position \mathbf{x}๊ฐ ์์นํ๋๋ก ์ถ๊ฐ์ ์ธ penalty term์ ๋์ ํฉ๋๋ค: L_d(\mathbf{x}, \mathbf{x}_h) = \text{ReLU}(||\mathbf{x} - \mathbf{x}_h||^2 - \epsilon)
- Differentiable Force Closure Optimization:
- Force closure๋ ๊ฐ์ฒด์ ๊ฐํด์ง๋ ๋ชจ๋ ์ธ๋ถ wrenches๋ฅผ n๊ฐ์ contact points \mathbf{x}^n \in \mathbb{R}^3๊ฐ ๊ท ํ์ ๋ง์ถ ์ ์์์ ์ค๋ช ํฉ๋๋ค.
- ์ ํํ๋ ๋ง์ฐฐ ํผ๋ผ๋ฏธ๋(linearised frictional pyramid) ์ ์ฝ ์กฐ๊ฑด ํ์์ force closure๋ฅผ ๋ค์ ์ต์ ํ ๋ฌธ์ ๋ก ๊ณต์ํํฉ๋๋ค: \min_{\mathbf{x},\mathbf{w}} L_{fc}(\mathbf{x}, \mathbf{w}, \mathbf{x}_h, O) = L_d(\mathbf{x}, \mathbf{x}_h) + || G \sum_{j=1}^n w_j e_j ||^2 - \text{ReLU}(G G^T - \epsilon I_{6 \times 6}) + \text{ReLU}(-\mathbf{w}) + || \text{SDF}(O, \mathbf{x}) - \epsilon || ์ฌ๊ธฐ์:
- G = \begin{bmatrix} I_{3 \times 3} & \cdots & I_{3 \times 3} \\ S(\mathbf{x}_0) & \cdots & S(\mathbf{x}_n) \end{bmatrix} \in \mathbb{R}^{6 \times 3(n+1)}
- S(\mathbf{x}) = \begin{bmatrix} 0 & -x_z & x_y \\ x_z & 0 & -x_x \\ -x_y & x_x & 0 \end{bmatrix} \in \mathbb{R}^{3 \times 3}๋ contact forces๋ฅผ wrenches๋ก mappingํ๋ cross product matrix์ ๋๋ค.
- G G^T \succeq \epsilon I_{6 \times 6}๋ wrench space๊ฐ ์ ํ์ ์ผ๋ก ๋ ๋ฆฝ์ ์ด๋ฉฐ force closure๋ฅผ ์ํ full-rank grasp์์ ๋ณด์ฅํฉ๋๋ค.
- \mathbf{f} = \sum_{j=1}^n w_j e_j (e_j๋ ์ ๊ท n-๋ณ ๋ค๊ฐํ ๊ทผ์ฌ์ edge, \sum w_j = 1, w_j > 0)๋ ์ ํํ๋ Coulomb frictional cone
FC์ ์ฝ์ ๋๋ค. - |\text{SDF}(O, \mathbf{x}_j)| = 0๋ contact point๊ฐ ๊ฐ์ฒด ํ๋ฉด์ ์์นํ๋๋ก ๊ฐ์ ํฉ๋๋ค.
- Kinematics Optimization:
- ๋ก๋ด configuration์ joint values \mathbf{q}, global rotations \mathbf{R}, global translation vector \mathbf{T}๋ก ์ ์ํฉ๋๋ค.
- ๋ก๋ด์ contact positions \mathbf{x}_r์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \begin{bmatrix} \mathbf{x}_{r1} \\ \vdots \end{bmatrix} = \mathbf{R} \begin{bmatrix} \mathbf{f}_k(\mathbf{q}_1) \\ \vdots \end{bmatrix} + \mathbf{T} ์ฌ๊ธฐ์ \mathbf{f}_k(\cdot)๋ joint values \mathbf{q}๋ฅผ local frame์ contact positions์ผ๋ก mappingํ๋ forward kinematics์ ๋๋ค.
- ์ต์ ์ contact anchor \mathbf{x}^*์ ๋ก๋ด contact points \mathbf{x}_r ๊ฐ์ correspondence๋ฅผ ํ๋ฆฝํ๊ธฐ ์ํด ๊ฐ optimization ๋จ๊ณ์์ LA-ICP (Linear Assignment Iterative Closest Point) ๊ธฐ๋ฐ์ ์ ๋ ฌ(alignment) ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- ์ฃผ์ด์ง ๋ชฉํ contact anchors \mathbf{x}^*์ ๋ํด ์ต์ ์ ๋ก๋ด configuration \mathbf{q}, \mathbf{R}, \mathbf{T}๋ฅผ ์ถ์ ํ๋ optimization objective๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \min_{\mathbf{q},\mathbf{R},\mathbf{T}} L_k(\mathbf{q}, \mathbf{R}, \mathbf{T}, \mathbf{x}^*) = || \mathbf{x}^* - \mathbf{R} \cdot \mathbf{f}_k(\mathbf{q}) + \mathbf{T} ||^2 + \text{ReLU}(\mathbf{q} - \overline{\mathbf{q}}) + \text{ReLU}(\underline{\mathbf{q}} - \mathbf{q}) ์ฌ๊ธฐ์ \overline{\mathbf{q}}์ \underline{\mathbf{q}}๋ ๊ฐ๊ฐ joint limit์ ์ํ๊ณผ ํํ์ ๋๋ค.
GenDexGrasp์์ ๋์ ๋ pointwise surface-normal-based penetration detection ์ ๋ต์ ์ฌ์ฉํ์ฌ ๋ก๋ด contact surface์ ๊ฐ์ฒด surface ์ฌ์ด์ signed distance๋ฅผ ๊ณ์ฐ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ grasp๋ฅผ ์ ์งํ๊ณ interpenetrating configuration์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํฉ๋๋ค.
ํ๊ฐ ๋ฐ ๊ฒฐ๊ณผ:
GenHand๋ DexYCB ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ hand-object reconstruction, kinematic retargeting, physics-based simulation์ ์ธ ๋จ๊ณ์ ๊ฑธ์ณ ํ๊ฐ๋์์ต๋๋ค.
- Hand-object reconstruction:
CDh,Errj,FSh1,FSh5,CDo,Errc,FSh5,FSh10์งํ์์gSDF์ ๋นํด ์ฝ๊ฐ ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์์ง๋ง, 3.5๋ฐฐ ์ ์ ํ๋ผ๋ฏธํฐ์ 1.9๋ฐฐ ๋น ๋ฅธ ์๋(17.38M,475.57ms/iter)๋ก ๋ ๋์ ์ฑ๋ฅ-ํจ์จ์ฑ trade-off๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. - Kinematic retargeting:
- CDc (Chamfer Distance of Contact Regions): GenHand๋ baseline๊ณผ ์ ์ฌํ (
0.1-0.2mm์ฐจ์ด) contact-region similarity๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. - Computational time: GenHand๋ ์ถ๊ฐ์ ์ธ force-closure optimization ๋จ๊ณ๋ก ์ธํด baseline๋ณด๋ค (
29.31svs24.69sfor Shadow Hand) ์ฝ๊ฐ ๋ ๊ธด ๋ฐํ์์ ๊ฐ์ก์ง๋ง, ์ด๋ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ์ถ๋ก ์ ํตํฉํ์ฌ ๋ ๋์ grasp ์์ ์ฑ๊ณผ ์ฑ๊ณต๋ฅ ์ ๊ธฐ์ฌํ์ต๋๋ค. - Net wrench residual: GenHand๋ ๋ชจ๋ gripper ์ ํ๊ณผ ๋ง์ฐฐ ์์ค์์ ์ผ๊ด๋๊ฒ ๋ ๋ฎ์ net wrench residuals๋ฅผ ๋ฌ์ฑํ์ฌ ๋ ์์ ์ ์ด๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ grasp configuration์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. Shadow Hand์ ๊ฒฝ์ฐ
26.77์์0.45๋ก, Robotiq gripper์ ๊ฒฝ์ฐ4.44์์0.12๋ก ๊ฐ์ํ์ต๋๋ค. - SDF value residual: GenHand๋ ๋ชจ๋ gripper ์ ํ๊ณผ ๋ง์ฐฐ ๊ณ์์์ ์ผ๊ด๋๊ฒ ๋ ๋ฎ์ SDF value residuals๋ฅผ ๋ฌ์ฑํ์ฌ ๋ ๋์ contact accuracy๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. Shadow, Allegro, Barrett์ ๊ฒฝ์ฐ
0.35cm๋ฏธ๋ง์ด์์ง๋ง, baseline์1.34์์1.82cm์์ต๋๋ค. - Distance residual: ๊ณ ์์ ๋(high-DOF) gripper์ผ์๋ก ๊ฑฐ๋ฆฌ ์์ฐจ๊ฐ ๋ฎ๊ฒ ์ ์ง๋์ด kinematic optimization ๋จ๊ณ๊ฐ ์๋๋ force-stable contact arrangement๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ณด์กดํจ์ ๋ํ๋์ต๋๋ค. Shadow Hand๋
0.28cm, Allegro๋0.39cm, Barrett๋0.56cm์์ต๋๋ค.
- CDc (Chamfer Distance of Contact Regions): GenHand๋ baseline๊ณผ ์ ์ฌํ (
- Simulation:
PyBulletํ๊ฒฝ์์ grasp success rates๋ฅผ ํ๊ฐํ์ต๋๋ค.- GenHand+HO (์ ์ฒด ์์คํ )๋ baseline (ground-truth ์ ๋ ฅ ์ ๊ณต ์์๋)์ ๋ฅ๊ฐํ์ต๋๋ค. GenHand+GT (optimization stage๋ง)๋ ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ํนํ baseline์
Robotiq gripper์์ ํ์ ํ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. - ์ผ๋ฐ์ ์ธ ๊ธฐํํ์ ํํ์ ๊ฐ์ฒด(
cylindrical cans,box-like containers)์์๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๋ฐ๋ฉด, ๋ณต์กํ ํํ(scissors)๋ ์๊ฑฐ๋ ์์ ๊ฐ์ฒด(bowls,mugs)์์๋ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
๊ฒฐ๋ก :
GenHand๋ ์ธ๊ฐ ์ grasping์ ๋ค์ํ end-effector ์ ํ์ ๋ํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ณ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋ก๋ด grasp๋ก retargetingํ๋ ์๋ก์ด ํ๋ ์์ํฌ์
๋๋ค. ์ด ๋ฐฉ๋ฒ์ MANO์ DeepSDF๋ฅผ ์ฌ์ฉํ์ฌ RGB ์ด๋ฏธ์ง๋ก๋ถํฐ hand-object interaction์ ๋ชจ๋ธ๋งํ๊ณ , ๋น์ง๋ clustering ๊ธฐ๋ฐ์ contact ๋ถ์์ ํตํด ์ธ๊ฐ grasp ์๋๋ฅผ ์ถ์ํํฉ๋๋ค. ์ด๋ฌํ ์ถ์ํ๋ contact anchors๋ force-closure optimization์ ํตํด ์ ๊ตํ๋๊ณ , ์ต์ข
์ ์ผ๋ก kinematic optimization ๋จ๊ณ๋ฅผ ํตํด ๋ก๋ด์ mechanical constraints๋ฅผ ์ค์ํ๋ฉด์ ์์ ์ ์ธ contact anchors๋ฅผ ์คํํ๋ ๋ก๋ด configuration์ ๊ณ์ฐํฉ๋๋ค. GenHand๋ ๊ธฐ์กด kinematic retargeting baseline์ ๋ฅ๊ฐํ๋ฉฐ, ํนํ key-vector ๊ธฐ๋ฐ retargeting์ด ์ด๋ ค์ด ์ ์์ ๋(low-DOF) gripper์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
์ฌ๋์ ์์ ์ ๋ง ๋๋ผ์ด ๋๊ตฌ์ ๋๋ค. ์ปต์ ์ก๋ , ๊ฐ์๋ฅผ ์ฅ๋ , ๋ง์น๋ฅผ ํ๋๋ฅด๋ , ์ฐ๋ฆฌ๋ ๊ฑฐ์ ์์ํ์ง ์๊ณ ๋ ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃน๋๋ค. ๋ก๋ด๊ณตํ์์๋ ์ด๋ฐ ์ธ๊ฐ์ ์๋์์ ์นด๋ฉ๋ผ๋ก ๊ด์ฐฐํด ๋ก๋ด ์(๊ทธ๋ฆฌํผ)์ผ๋ก โ์ฎ๊ฒจ ๋ด๋โ ์์ ์ kinematic retargeting(์ด๋ํ์ ๋ฆฌํ๊ฒํ )์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์๊ฒฉ์กฐ์(teleoperation)์ด๋ ์ฌ๋ ์์ฐ์ผ๋ก๋ถํฐ ๋ฐฐ์ฐ๋ ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ํต์ฌ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ฃ .
๋ฌธ์ ๋ ์ฌ๋ ์๊ณผ ๋ก๋ด ์์ ํํ(morphology)๊ฐ ๋๋ฌด ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋๋ค. ์ฌ๋ ์์ ๋ค์ฏ ์๊ฐ๋ฝ์ ์์ญ ๊ฐ์ ์์ ๋๋ฅผ ๊ฐ์ง์ง๋ง, ์ฐ์ ์ฉ ํํ ์ง๊ฒ(parallel-jaw gripper)๋ ์๊ฐ๋ฝ์ด ๋ ๊ฐ๋ฟ์ ๋๋ค. ์๊ฐ๋ฝ ๊ฐ์๋, ํฌ๊ธฐ๋, ๊ด์ ๊ตฌ์กฐ๋ ๋ค๋ฅธ ๋ก๋ด์๊ฒ โ์ฌ๋์ด ํ๋ ๊ทธ๋๋กโ ๋ฐ๋ผ ํ๋ผ๊ณ ๊ฐ์ํ๋ฉด ์ด๋ป๊ฒ ๋ ๊น์? ์ ๋ชจ์์ ๋น์ทํด ๋ณด์ผ์ง ๋ชฐ๋ผ๋, ์ ์ ๋ฌผ์ฒด๋ฅผ ๋ค์ด ์ฌ๋ฆฌ๋ ค๋ ์๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ๋จ์ด๋จ๋ฆฝ๋๋ค.
๊ธฐ์กด ๋ฆฌํ๊ฒํ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ๋์์ต๋๋ค.
- Hand-oriented(์ ์ค์ฌ) / key-vector ๋ฐฉ์: ์ฌ๋์ ์๊ฐ๋ฝ ๋(fingertip) ์์น๋ฅผ ๋ก๋ด ์๊ฐ๋ฝ ๋์ ์ต๋ํ ์ผ์น์ํค๋๋ก ์ต์ ํํฉ๋๋ค. โ์ ๋ชจ์์ ๋ฒ ๋ผ๋โ ์ ๊ทผ์ ๋๋ค. ์ง๊ด์ ์ด๊ณ ๋น ๋ฅด์ง๋ง, ์น๋ช ์ ์ธ ์ฝ์ ์ด ์์ต๋๋ค. ๋ฌผ์ฒด์ ๊ธฐํ ์ ๋ณด๋ฅผ ์ ํ ๋ณด์ง ์์ต๋๋ค. ์ ๋ชจ์๋ง ํ๋ด ๋ด๋ค ๋ณด๋ ์ ์ด์ ์ด ๋ฌผ์ฒด ํ๋ฉด์์ ๋ ์๊ฑฐ๋, ์๊ฐ๋ฝ ๊ฐ์๊ฐ ๋ค๋ฅธ ๊ทธ๋ฆฌํผ์์๋ ์์ ์ฑ์ด ๋ฌด๋์ง๋๋ค.
- Object-oriented(๋ฌผ์ฒด ์ค์ฌ) ๋ฐฉ์: ๋ฌผ์ฒด ํ๋ฉด์ ์ด๋ ์์ญ์ ์ ์ดํด์ผ ํ๋์ง๋ฅผ ๋ชจ๋ธ๋งํ๊ณ , ๋ก๋ด์ด ๊ทธ ์์ญ์ ๋ฎ๋๋ก ํฉ๋๋ค. ํ๋ฉด ๊ธฐํ์๋ ๋ ์ ์ ์ํ์ง๋ง, ์๊ฐ๋ฝ์ด ์ ๊ฑฐ๋ ์์ฌ์ฃผ(dexterity)๊ฐ ๋จ์ด์ง๋ ๊ทธ๋ฆฌํผ๋ก ์ฎ๊ธธ ๋๋ ์ฌ์ ํ ์ ์ด ์์ ๋๊ฐ ๋ถ์กฑํด ํ์ง์ด ๋จ์ด์ง๋๋ค.
์ด ๋ ผ๋ฌธ GenHand์ ํต์ฌ ํต์ฐฐ์ ๋ค์ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝ๋ฉ๋๋ค.
โ์ ๋ชจ์์ ๋ฒ ๋ผ๋ ๊ฒ(kinematic similarity)๊ณผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ ์ ์ธ ์ก๊ธฐ(force closure)๋ฅผ ํ๋์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ต์ ํ ํ์ดํ๋ผ์ธ์ผ๋ก ํจ๊ป ํ์.โ
๋น์ ํ์๋ฉด, ๊ธฐ์กด key-vector ๋ฐฉ์์ โ์ ์๋์ ์๋์์ ๊ฑฐ์ธ์ฒ๋ผ ๋ฐ๋ผ ํ๋ ํ์โ์ ๋๋ค. ์ ๋ชจ์์ ๋๊ฐ์ด ๋ง๋ค์ง๋ง ์ ์ ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง๋์ง๋ ์ ๊ฒฝ ์ฐ์ง ์์ฃ . GenHand๋ โ์ ์๋์ด ์ ๊ทธ๋ ๊ฒ ์ก์๋์ง(์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ ์ฃผ๊ณ , ์ด๋๋ฅผ ๋๋ฌ์ผ ์ ๋จ์ด์ง๋์ง)๋ฅผ ์ดํดํ ๋ค, ์๊ธฐ ์ ๊ตฌ์กฐ์ ๋ง๊ฒ ๋ค์ ์ก๋ ํ์โ์ ๋๋ค.
GenHand์ ์ฃผ์ ๊ธฐ์ฌ๋ ์ธ ๊ฐ์ง์ ๋๋ค.
- RGB ์ด๋ฏธ์ง ํ ์ฅ์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋ก๋ด ์ก๊ธฐ๋ฅผ ์์ฑํ๋ ์ ์ฒด ํ์ดํ๋ผ์ธ. ํํ ์ง๊ฒ๋ถํฐ ๊ณ ์์ ๋ anthropomorphic hand(์ธ๊ฐํ ์)๊น์ง ๋ค์ํ ๊ทธ๋ฆฌํผ์ ์ ์ฉ๋ฉ๋๋ค.
- ๋น์ง๋(unsupervised) ์ ์ด ๋ถ์ ์๊ณ ๋ฆฌ์ฆ. ์ฌ๋ ์ก๊ธฐ๋ฅผ โํ ์ฑ๋ถ(force component)โ๊ณผ โ์ ์ด ์ฑ๋ถ(contact component)โ์ด๋ผ๋ ๊ตฌ์กฐํ๋ ํ์ ํํ์ผ๋ก ์ถ์ํํด, ์์ฌ์ฃผ๊ฐ ๋ถ์กฑํ ๊ทธ๋ฆฌํผ์๋ ์ ์ํ ์ ์๊ฒ ํฉ๋๋ค.
- LA-ICP ๋งค์นญ์ ๋ฃจํ ์์ ๋ฃ์ ์ด๋ํ ์ต์ ํ. ์ ์ด์ ๋ฐฐ์น์ ๋ก๋ด ์์ธ๋ฅผ ๋์์ ๋ค๋ฌ์ด ์์ ์ ์ธ ์ก๊ธฐ๋ฅผ ์คํํฉ๋๋ค.
ํต์ฌ ์ฑ๊ณผ๋ฅผ ๋ฏธ๋ฆฌ ๋งํ๋ฉด, GenHand๋ ์๋ฎฌ๋ ์ด์ ์์ 4์ข ์ ๊ทธ๋ฆฌํผ์ 20๊ฐ ๋ฌผ์ฒด์ ๊ฑธ์ณ key-vector ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ฑ๊ณต๋ฅ ์ 39.8% ํฅ์์์ผฐ๊ณ , net wrench residual(์์ฌ ํฉ๋ ฅ/ํ ํฌ)๊ณผ ํ๋ฉด ์ ์ด ์ผ๊ด์ฑ์์ ๋ชจ๋ ์ฐ์๋ฅผ ๋ณด์ด๋ฉด์๋ ์ก๊ธฐ ์ ์ฌ๋(grasp similarity)๋ ๋น์ทํ ์์ค์ ์ ์งํ์ต๋๋ค.
๋ฐฉ๋ฒ
GenHand๋ ๊ทธ๋ฆผ 1์ ๋ฌ์ฌ๋ ๋๋ก ์ธ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ๋ ฅ์ ์ฌ๋์ด ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์๋ RGB ์ด๋ฏธ์ง ํ ์ฅ์ด๊ณ , ์ถ๋ ฅ์ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ์ค์ ๊ฐ \{R, T, q\}์ ๋๋ค. ์ฌ๊ธฐ์ q๋ ๊ด์ ๊ฐ(joint values), R์ ์ ์ญ ํ์ (global rotation), T๋ ์ ์ญ ๋ณ์ง(translation)์ ๋๋ค.
์ ์ฒด ํ๋ฆ์ ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1๋จ๊ณ: ์-๋ฌผ์ฒด ์ ์ด ๋ชจ๋ธ๋ง (Hand-Object Contact Modelling)
๋จผ์ ์ด๋ฏธ์ง์์ ์๊ณผ ๋ฌผ์ฒด์ 3D ๊ธฐํ๋ฅผ ๋ณต์ํด์ผ ํฉ๋๋ค. GenHand๋ AlignSDF์ ์ค๊ณ๋ฅผ ๋ฐ๋ผ ๋ ๊ฐ๋(dual-branch) ๊ตฌ์กฐ๋ฅผ ์๋๋ค(๊ทธ๋ฆผ 10).
- ์ธ์ฝ๋: ResNet-18์ด 256ร256์ผ๋ก ์๋ฆฐ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ๋ค์ค ์ค์ผ์ผ ํน์ง ๋ฒกํฐ๋ฅผ ๋ฝ์ต๋๋ค.
- Hand branch: MLP๊ฐ MANO ๋ชจ๋ธ์ ํฌ์ฆ ํ๋ผ๋ฏธํฐ \theta_h์ ํ์ ํ๋ผ๋ฏธํฐ \beta_h๋ฅผ ํ๊ทํฉ๋๋ค. MANO๋ ์ฌ๋ ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํ๋ผ๋ฉํธ๋ฆญ ๋ชจ๋ธ๋ก ํํํด, ์ด ํ๋ผ๋ฏธํฐ๋ก๋ถํฐ ์ ๋ฉ์ ์ ์ v_h์ ๊ด์ ์์น j_h๋ฅผ ๊ณง๋ฐ๋ก ๊ณ์ฐํฉ๋๋ค.
- Object branch: ํ์ชฝ์ transposed convolution์ผ๋ก ๋ฌผ์ฒด ์ค์ฌ t_o๋ฅผ ์์ธกํ๊ณ , ๋ค๋ฅธ ์ชฝ์ ์ ํ ๋ ์ด์ด ์คํ์ด SDF(signed distance field, ๋ถํธ ๊ฑฐ๋ฆฌ ํจ์) ๊ฐ์ ์์ธกํฉ๋๋ค. ์ ๋ ฅ์ ์ํ ์ขํ + ์ถ์ ๋ ๋ฌผ์ฒด ์ค์ฌ + ์ธ์ฝ๋ ํน์ง์ ๊ฒฐํฉํ ์ฆ๊ฐ ๋ฒกํฐ์ ๋๋ค.
์ง๊ด์ ์ผ๋ก, SDF๋ โ๊ณต๊ฐ์ ์์ ํ ์ ์ด ๋ฌผ์ฒด ํ๋ฉด์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋๊ฐ(ํ๋ฉด ์์ชฝ์ ์์, ๋ฐ๊นฅ์ชฝ์ ์์, ํ๋ฉด ์๋ 0)โ๋ฅผ ์๋ ค์ฃผ๋ ํจ์์ ๋๋ค. ์ด๊ฒ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์, ๋์ค์ โ์ ์ด์ ์ ํ๋ฉด ์(SDF=0)์ ์ฌ๋ ค๋์๋ผโ๋ ์ ์ฝ์ ๋ถ๋๋ฌ์ด ์ต์ ํ ํญ์ผ๋ก ๋ฃ์ ์ ์์ต๋๋ค.
ํ์ต ์์ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค. ์์ธก๊ฐ \mathbf{p}=\{\widehat{sdf_o}, \widehat{t_o}, \widehat{j_h}, (\theta_h, \beta_h)\}, ์ ๋ต \mathbf{g}=\{sdf_o, t_o, j_h\}์ ๋ํด
L_{HO}(\mathbf{p}, \mathbf{g}) = \lambda_{sdf_o}\,|\widehat{sdf_o} - sdf_o| + \lambda_t\,\|\widehat{t_o} - t_o\|_2 + \lambda_j\,\|\widehat{j_h} - j_h\|_2 + \lambda_h\,\|(\theta_h, \beta_h)\|_2 .
๋ง์ง๋ง ํญ์ MANO ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ๊ทํ๋ก, ๋นํ์ค์ ์ธ ์ ๋ณํ์ ๋ง์ต๋๋ค. PyTorch + Adam์ผ๋ก ํ์ต๋ฅ 1\times10^{-4}์์ ์์ํด 500 ์ํญ๋ง๋ค ์ ๋ฐ์ผ๋ก ๊ฐ์ ํ๋ฉฐ 1600 ์ํญ, RTX 6000 ๋ ์ฅ์์ ์ฝ 60์๊ฐ ํ์ตํฉ๋๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ์ค๊ณ ์ ํ: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๊ณผ ๋ฌผ์ฒด๋ฅผ ๋ ๋ค SDF๋ก ๋ณต์ํ์ง๋ง, GenHand๋ ๋ฌผ์ฒด๋ง SDF๋ก ๋ณต์ํ๊ณ ์์ MANO๋ก ์์ธกํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ๋ผ๋ฏธํฐ ์๊ฐ 3.5๋ฐฐ ์ ๊ณ , ๋ฐ๋ณต๋น ์๋๊ฐ 1.9๋ฐฐ ๋น ๋ฆ ๋๋ค. ์ค์๊ฐ ์๊ฒฉ์กฐ์์ ์ค์ํ ์ ์ถฉ์ ๋๋ค. (gSDF๊ฐ ์ผ๋ถ ๋ณต์ ์ ํ๋ ์งํ์์ ์ฝ๊ฐ ๋ ์ข์ง๋ง, GenHand๋ ์ ํ๋-ํจ์จ ๊ท ํ์ ํํ ๊ฒ์ ๋๋ค.)
2๋จ๊ณ: ์ ์ด ์ต์ปค ๊ตฌ์ฑ๊ณผ ๋ฏธ๋ถ ๊ฐ๋ฅํ Force Closure
์ด ๋จ๊ณ๊ฐ GenHand์ ์ฌ์ฅ์ ๋๋ค. ๋ ๊ฐ์ง ๊ฐ์ ์ ๋ก๋๋ค. (1) ์ ๋ ฅ ์ฌ๋ ์ก๊ธฐ๋ ์ด๋ฏธ force closure๋ฅผ ๋ง์กฑํ๋ค(์ฑ๊ณตํ ์์ฐ์์ ์ํ๋งํ์ผ๋ฏ๋ก). (2) ์ ์ด์ ์ฃผ๋ก ์๊ฐ๋ฝ ๋์์ ์ผ์ด๋๋ค.
(a) ์ ํจ ์ ์ด์ ์ถ์ถ ๋ฐ ํํฐ๋ง. MANO ์ ๋ฉ์์์ ์๊ฐ๋ฝ ๋ ์ ์ด์ ๊ณผ ํ๋ฉด ๋ฒ์ ์ ๋ฝ๊ณ , ๊ฐ ์ ์์ ๋ฌผ์ฒด์ SDF๋ฅผ ์ง์ํฉ๋๋ค. ๋ ์กฐ๊ฑด์ ํต๊ณผํ ์ ๋ง ์ ํจ ์ ์ด์ ์ผ๋ก ๋จ๊น๋๋ค. - ๊ทผ์ ์กฐ๊ฑด: SDF ๊ฐ์ผ๋ก ๋ณธ ๋ฌผ์ฒด ํ๋ฉด๊น์ง ๊ฑฐ๋ฆฌ๊ฐ ์๊ณ๊ฐ ์ด๋ด. - Antipodal(๋ํฅ) ์กฐ๊ฑด: ์ ์ ์ด ๋ฒ์ ๊ณผ ๋ฌผ์ฒด ํ๋ฉด ๋ฒ์ ์ด ์ ๋ ฌ๋์ด ์์(์๋ก ๋ง๋๋ฅด๋ ํํ).
(b) HDBSCAN ์ด์ค ํด๋ฌ์คํฐ๋ง. ๋ฐ๋ ๊ธฐ๋ฐ ๋น์ง๋ ํด๋ฌ์คํฐ๋ง์ธ HDBSCAN์ ๋ ๋ฒ ์ ์ฉํฉ๋๋ค. - ๋ฒ์ ์ ๋ํ ํด๋ฌ์คํฐ๋ง โ ์ก๊ธฐ ์์ ์ง๋ฐฐ์ ์ธ ํ ๋ฐฉํฅ(force components)์ ์ฐพ์ต๋๋ค. ๋ค๋ง ๊ตฐ์ง ์ค์ฌ์ ํด๋น ์ ์ด ์์น๋ก ๊ณ์ฐํด, โ์ด๋์ ์ฃผ๋ ํ์ด ๊ฐํด์ง๋์งโ๋ฅผ ๊ตญ์ํํฉ๋๋ค. - ์์น์ ๋ํ ํด๋ฌ์คํฐ๋ง โ ์ก๊ธฐ์ ๊ณต๊ฐ์ ๋ฐฐ์น(contact components)๋ฅผ ํฌ์ฐฉํฉ๋๋ค.
์ด ๋์ ๊ณ์ธต์ ๊ด๊ณ์ ๋๋ค. ์ฆ ํ๋์ force component(ํ ๋ฐฉํฅ) ์๋์ ์ฌ๋ฌ contact component(์ ์ด ์์น)๊ฐ ์ํฉ๋๋ค. ๋ ผ๋ฌธ ๊ทธ๋ฆผ 1์ ์์๋ 2๊ฐ์ ํ ๋ฐฉํฅ๊ณผ 5๊ฐ์ ์ ์ด ์ฑ๋ถ์ผ๋ก ๋ถํด๋ฉ๋๋ค.
๋น์ ํ์๋ฉด, ์ฌ๋์ด ๋จธ๊ทธ์ปต์ ์ก์ ๋ โ์์ง๋ก ํ์ชฝ์ ๋ฐ๊ณ ๋๋จธ์ง ์๊ฐ๋ฝ์ผ๋ก ๋ฐ๋์ชฝ์ ๋ฐ์น๋คโ๋ ํฐ ๊ทธ๋ฆผ์ด 2๊ฐ์ ํ ๋ฐฉํฅ์ด๊ณ , ๊ทธ ์์์ ๊ฒ์งยท์ค์งยท์ฝ์ง๊ฐ ์ด๋๋ฅผ ๋๋ฅด๋์ง๊ฐ ์ ์ด ์ฑ๋ถ์ ๋๋ค. ์ด๋ ๊ฒ ์ถ์ํํ๋ฉด, ์๊ฐ๋ฝ์ด 2๊ฐ๋ฟ์ธ ํํ ์ง๊ฒ์๋ โ2๊ฐ์ ํ ๋ฐฉํฅโ๋ง ๋ผ์ด๋ด ํ ๋นํ๊ณ , Shadow ๊ฐ์ 5์ง ์์๋ ์ ์ด ์ฑ๋ถ๊น์ง ๋ชจ๋ ํ ๋นํ๋ ์์ผ๋ก ๊ทธ๋ฆฌํผ ์์ ๋์ ๋ง์ถฐ ์ ์ฐํ๊ฒ ๋งคํํ ์ ์์ต๋๋ค.
(c) ๊ณ์ธต์ ์ต์ปค ํ ๋น. ๋จผ์ ๊ฐ์ฅ ๋๋ ทํ ํ ์์ ํ ์ฑ๋ถ(๋ณดํต antipodal ์ก๊ธฐ์ )์ ๊ณ ๋ฆ ๋๋ค. ๊ทธ๋ฆฌํผ๊ฐ ๋ ์์ฌ์ฃผ๊ฐ ์ข์ผ๋ฉด, ๋ชจ๋ ์ฃผ์ ํ ์ฑ๋ถ์ ๋ฎ์ ๋๊น์ง ์ต์ปค๋ฅผ ์ถ๊ฐํ๊ณ , ๊ทธ๋๋ ์ ์ด ์ฌ์ ๊ฐ ์์ผ๋ฉด ์์น ๊ธฐ๋ฐ ๊ตฐ์ง ์ค์ฌ๊น์ง ์ฑ์ ๋ฃ์ต๋๋ค.
(d) ๋ฏธ๋ถ ๊ฐ๋ฅํ Force Closure. ์ด์ ํ ๋น๋ ์ต์ปค ๊ทผ์ฒ์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ ์ ์ธ ์ ์ด์ x^*๋ฅผ ์ฐพ์ต๋๋ค. Force closure๋ n๊ฐ์ ์ ์ด์ x_n \in \mathbb{R}^3์ด ๋ฌผ์ฒด์ ๊ฐํด์ง๋ ์์์ ์ธ๋ ฅ์ ์์ํ ์ ์๋ค๋ ์กฐ๊ฑด์ ๋๋ค. ๊ฐ ์ ์ด์ wrench(ํ-ํ ํฌ)๋ \lambda = [f_n,\; f_n \times x_n]^T๋ก ํํ๋ฉ๋๋ค. ๊ณ ์ ์ ์ธ ์ ํํ ๋ง์ฐฐ ํผ๋ผ๋ฏธ๋ ๊ณต์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
GG^T \succcurlyeq \epsilon I_{6\times 6}, \qquad Gf = 0, f = \sum_{j=1}^{n_e} w_j e_j,\quad \sum_{j=1}^{n_e} w_j = 1,\quad w_j > 0, \qquad |SDF(\mathcal{O}_i, x_j)| = 0,
์ฌ๊ธฐ์ grasp matrix G์ cross-product matrix S(\cdot)๋
G = \begin{bmatrix} I_{3\times3} & \cdots & I_{3\times3} \\ S(x_0) & \cdots & S(x_n) \end{bmatrix} \in \mathbb{R}^{6\times 6}, \qquad S(x) = \begin{bmatrix} 0 & -x_z & x_y \\ x_z & 0 & -x_x \\ -x_y & x_x & 0 \end{bmatrix}.
์ง๊ด์ ์ผ๋ก ํ์ด๋ณด๋ฉด, - GG^T \succcurlyeq \epsilon I_{6\times6}: wrench ๊ณต๊ฐ์ด 6์ฐจ์(3D ํ + 3D ํ ํฌ)์ ๋ชจ๋ ๊ฝ ์ฑ์(full-rank) ์ด๋ค ๋ฐฉํฅ์ ์ธ๋๋ ๋ง์ ์ ์๊ฒ ํฉ๋๋ค. ํ ๋ฐฉํฅ์ด๋ผ๋ ๋น๋ฉด ๊ทธ์ชฝ์ผ๋ก ๋ฌผ์ฒด๊ฐ ๋น ์ ธ๋๊ฐ๋๋ค. - Gf=0: ์ ์ด๋ ฅ๋ค์ ํฉ๋ ฅ๊ณผ ํฉํ ํฌ๊ฐ 0, ์ฆ ์ ์ ํํ. - f = \sum w_j e_j: ์ ์ด๋ ฅ์ด ์ n๊ฐํ์ผ๋ก ๊ทผ์ฌํ ๋ง์ฐฐ ์ฝ(Coulomb friction cone) ์์ ๋ค์ด๊ฐ์ผ ํจ(๋ฏธ๋๋ฌ์ง์ง ์์ ์กฐ๊ฑด). - |SDF(\mathcal{O}, x)|=0: ์ ์ด์ ์ด ์ ํํ ๋ฌผ์ฒด ํ๋ฉด ์์ ์์ด์ผ ํจ.
๊ทธ๋ฆฌ๊ณ โ์ฌ๋๊ณผ ๋น์ทํ ์ก๊ธฐโ๋ฅผ ์ ์งํ๊ธฐ ์ํด, ๋ก๋ด ์ ์ด์ x๊ฐ ๋ณต์๋ ์ฌ๋ ์ ์ด ์ต์ปค x_h ๊ทผ์ฒ(\epsilon ๋ฐ๊ฒฝ ์)์ ๋จธ๋ฌผ๋๋ก ํจ๋ํฐ๋ฅผ ๋ก๋๋ค.
L_d(x, x_h) = \mathrm{ReLU}\big(\|x - x_h\|_2 - \epsilon\big).
์ด ๋ชจ๋ ์ ์ฝ์ ํ๋์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ชฉ์ ํจ์๋ก ํฉ์นฉ๋๋ค.
\min_{x, w} L_{fc}(x, w, x_h, \mathcal{O}) = L_d(x, x_h) + \Big\| G\sum_{j=1}^{n_e} w_j e_j \Big\|_2 - \mathrm{ReLU}(GG^T - \epsilon I_{6\times6}) + \mathrm{ReLU}(-w) + \|SDF(\mathcal{O}, x) - \epsilon\|.
ReLU ํญ๋ค์ด ๋ถ๋ฑ์ ์ ์ฝ(full-rank, ๊ฐ์ค์น ์์)์ ๋ถ๋๋ฌ์ด ํจ๋ํฐ๋ก ๋ฐ๊ฟ์ฃผ๋ ๊ฒ์ด ํต์ฌ ํธ๋ฆญ์
๋๋ค. ๋๋ถ์ ๊ฒฝ์ฌํ๊ฐ(Adam)์ผ๋ก ์ ๋ถ ํ ์ ์์ต๋๋ค.
3๋จ๊ณ: ์ด๋ํ ์ต์ ํ (Kinematics Optimisation)
๋ง์ง๋ง์ผ๋ก force closure๊ฐ ์ฐพ์๋ธ ๋ชฉํ ์ ์ด์ x^*๋ฅผ ์ค์ ๋ก๋ด ๊ทธ๋ฆฌํผ๋ก ์คํํฉ๋๋ค. ๋ก๋ด ์ ์ด์ ์ ์๋ ์ขํ๋ ์์ด๋ํ f_k(q)์ ์ ์ญ ๋ณํ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
\begin{bmatrix} x_r \\ 1 \end{bmatrix} = \begin{bmatrix} R & T \\ 0 & 1 \end{bmatrix} \begin{bmatrix} f_k(q) \\ 1 \end{bmatrix}.
์ฌ๊ธฐ์ ์๋ฆฌํ ๋ถ๋ถ์ด in-loop LA-ICP(Linear Assignment + Iterative Closest Point) ๋งค์นญ์ ๋๋ค. ๋ฌธ์ ๋ โ๋ก๋ด์ ์ด๋ ๋งํฌ(์๊ฐ๋ฝ)๋ฅผ ์ด๋ ๋ชฉํ ์ต์ปค์ ๋์์ํฌ ๊ฒ์ธ๊ฐโ๊ฐ ์๋ช ํ์ง ์๋ค๋ ๊ฒ์ ๋๋ค. ๋งค ์ต์ ํ ์คํ ๋ง๋ค, 1. ๋ก๋ด ์ ์ด์ x_r'์ ๋ชฉํ ์ต์ปค x^*๋ฅผ ์ ๊ทํํ๊ณ ICP๋ก ๋ ์งํฉ์ ๊ฐ์ ์ขํ๊ณ์ ์ ๋ ฌํฉ๋๋ค(์ ์ญ ์์ธ ์ค์ฐจ ์ ๊ฑฐ). 2. ์๋ณ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ํ๋ ฌ์ ๋ง๋ค๊ณ linear assignment ๋ฌธ์ ๋ฅผ ํ์ด ์ต์ ๋์ ๊ด๊ณ๋ฅผ ๋์ ์ผ๋ก ๊ฒฐ์ ํฉ๋๋ค. (๋ก๋ด ์ ์ด ์์ญ์ด ์ต์ปค๋ณด๋ค ๋ง์ผ๋ฉด ๋ํ ๋ถ๋ถ์งํฉ์ ๋จผ์ ๊ณ ๋ฆ ๋๋ค.)
์ด๋ ๊ฒ ๋์์ ๋งค๋ฒ ๊ฐฑ์ ํ๋ฉด์, ๋ค์ ๋ชฉ์ ํจ์๋ก q, R, T๋ฅผ ์ต์ ํํฉ๋๋ค.
\min_{q, R, T} L_k(q, R, T, x^*) = \|x^* - R\cdot f_k(q) + T\|_2 + \mathrm{ReLU}(q - \bar{q}) + \mathrm{ReLU}(\underline{q} - q),
๋ค์ ๋ ReLU ํญ์ ๊ด์ ํ๊ณ [\underline{q}, \bar{q}]๋ฅผ ๋์ง ์๋๋ก ๊ฐ์ ํฉ๋๋ค. ์ถ๊ฐ๋ก GenDexGrasp์ ์ ๋ณ ํ๋ฉด ๋ฒ์ ๊ธฐ๋ฐ ์นจํฌ ๊ฒ์ถ(penetration detection)์ ์ฑํํด, ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ ์๊ธฐ ์์ ์ ๋ซ๊ณ ๋ค์ด๊ฐ๋ ๋นํ์ค์ ์์ธ๋ฅผ ํจ๋ํฐํฉ๋๋ค. ๋ค์์ ์ด ๋จ๊ณ์ ์์ฌ์ฝ๋์
๋๋ค.
Input: target anchors x_star, robot model FK f_k, init R,T from MANO, init q
for step in 1..N:
x_r = transform(R, T, f_k(q)) # robot contact points in world
align x_r and x_star via ICP # remove global pose mismatch
D = pairwise_distance(x_star, x_r)
match = linear_assignment(D) # dynamic correspondence
loss = || x_star - (R * f_k(q) + T) ||_2
loss += relu(q - q_upper) + relu(q_lower - q)
loss += penetration_penalty(q, R, T) # GenDexGrasp normal-based
update q, R, T via Adam on loss
return q, R, T์คํ
ํ๊ฐ๋ (1) ์-๋ฌผ์ฒด ๋ณต์, (2) ์ด๋ํ ๋ฆฌํ๊ฒํ , (3) ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์ธ ์ถ์ผ๋ก ์ด๋ค์ก์ต๋๋ค. ๋ฐ์ดํฐ์ ์ DexYCB(10๋ช ํผํ์๊ฐ 20๊ฐ ๋ฌผ์ฒด๋ฅผ ์ก๋ 8์ฒ์ฌ RGB ์์, 8๊ฐ ์นด๋ฉ๋ผ ์์ ). ์ผ์ยท๋น์ ์ด ํ๋ ์์ ์ ์ธํ๊ณ ref.24์ ์ํ๋ง ํ๋กํ ์ฝ๋ก ํ์ต 29,656 / ํ ์คํธ 5,928 ์ํ์ ์ถ๋ ธ์ต๋๋ค(์๋ณธ 857,000 ํ๋ ์์์).
์-๋ฌผ์ฒด ๋ณต์
์งํ๋ Chamfer Distance(CD, cmยฒ, ์์์๋ก ์ข์), F-score(FS, 1/5/10mm ์๊ณ๊ฐ, ํด์๋ก ์ข์), ๊ด์ ์ค์ฐจ Err_j(mm), ๋ฌผ์ฒด ์ค์ฌ ์ค์ฐจ Err_c(mm)์ ๋๋ค(ํ 1).
ํต์ฌ ๋ฐ๊ฒฌ: gSDF๊ฐ ์ผ๋ถ ๋ณต์ ์งํ์์ ๊ทผ์ํ๊ฒ ์์์ง๋ง, GenHand๋ ํ๋ผ๋ฏธํฐ 3.5๋ฐฐ ์ ๊ณ 1.9๋ฐฐ ๋น ๋ฅธ ๊ท ํ์ ํํ์ต๋๋ค(RTX 6000 ๋จ์ผ GPU ๊ธฐ์ค). ๋ฌผ์ฒด๋ง SDF๋ก ๋ฐ๋ก ์ต์ ํํ ๊ฒฐ๊ณผ๋ CD_o = 0.42, FS_{h5} = 0.70, FS_{h10} = 0.88๋ก ๋ณด๊ณ ๋ฉ๋๋ค.
์ด๋ํ ๋ฆฌํ๊ฒํ
๋ณต์ก๋๊ฐ ๋ค๋ฅธ 4์ข ๊ทธ๋ฆฌํผ์์ ํ๊ฐํ์ต๋๋ค.
| ๊ทธ๋ฆฌํผ | ์๊ฐ๋ฝ | ๊ด์ ์ | ํน์ง |
|---|---|---|---|
| Robotiq 2F | 2 | 6 (๋์นญ ๊ฒฐํฉ) | ๊ฐ์ฅ ๋จ์ํ ํํ ์ง๊ฒ |
| Barrett Hand | 3 | 12 (2๊ฐ ํ์ , 1๊ฐ ๊ณ ์ ) | ์ค๊ฐ ์์ฌ์ฃผ |
| Allegro Hand | 4 | 16 (๋ ๋ฆฝ ๊ตฌ๋) | ๊ฒฝ๋ ๊ณ ์์ ๋ |
| Shadow Hand | 5 | 24 (20 ๊ตฌ๋ + 4 ๊ฒฐํฉ underactuated) | ๊ฐ์ฅ ์์ฌ์ฃผ ์ข์ ์ธ๊ฐํ ์ |
๋น๊ต ๋์์ fingertip-to-palm, fingertip-to-fingertip ํ์ ์ฐจ์ด + ์๋-๋ฌผ์ฒด์ค์ฌ ๋ฒกํฐ ์ ๋ ฌ + ์ ๊ธฐ์ ํ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ์ ํ์ ์ธ key-vector hand-oriented ๋ฒ ์ด์ค๋ผ์ธ์ ๋๋ค.
์ ์ด ์์ญ Chamfer Distance (CD_c, mm). ๋ฒ ์ด์ค๋ผ์ธ์ ์ ์ด์ โ์ ๋ชจ์ ๋ณด์กดโ์ ์ํด ์ค๊ณ๋๋๋ฐ๋, GenHand๋ ๋ชจ๋ ๊ทธ๋ฆฌํผ์์ ํ๊ท 0.1~0.2mm ์ฐจ์ด ์ด๋ด์ ์ ์ฌ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค(ํ 2). ์ฆ ์ ์ฌ๋๋ฅผ ๊ฑฐ์ ํฌ์ํ์ง ์์ผ๋ฉด์ ์์ ์ฑ์ ํฌ๊ฒ ์ป์๋ค๋ ๋ป์ ๋๋ค.
๊ณ์ฐ ์๊ฐ(ํ 3). GenHand๊ฐ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ๋ค์ ๋๋ฆฝ๋๋ค. force closure ๋จ๊ณ๊ฐ ์ถ๊ฐ๋๊ณ , ์ฌ์ต์ปค๋ง์ด ์ด๊ธฐ ์์ธ์์ ๋ฒ์ด๋๋ฉด์ ์ด๋ํ ๋จ๊ณ์ ์ถฉ๋ ํด๊ฒฐยท๋ฐฉํฅ ์ต์ ํ ๋ถ๋ด์ด ์ปค์ง๊ธฐ ๋๋ฌธ์ ๋๋ค. BarrettยทRobotiq๋ ๊ตฌ์กฐ๊ฐ ๋จ์ํ๊ณ ์๊ธฐ ์นจํฌ ์ํ์ด ๋ฎ์ ์นจํฌ ๊ฒ์ฌ๋ฅผ ์๋ตํด ๋ ๋น ๋ฆ ๋๋ค. ์ ์๋ค์ ์ด ์ถ๊ฐ ์๊ฐ์ด โ์ค๋ณต ๊ณ์ฐ์ด ์๋๋ผ ๋ฌผ๋ฆฌ ์ถ๋ก ์ ๋ํ ๋๊ฐโ๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค.
Net wrench residual(๊ทธ๋ฆผ 2). ์ ์ด๋ ฅ ์ ์ฉ ํ ๋ฌผ์ฒด์ ๋จ๋ ๋ถ๊ท ํ wrench์ ์ ๊ทํ ํฌ๊ธฐ ํฉ์ผ๋ก, ์์์๋ก ์ ์ ํํ์ ๊ฐ๊น๋ค(= ๋ ์์ ์ ). ๋ง์ฐฐ๊ณ์ \mu = 0.1 \sim 0.9 ์ ๋ฒ์์์ ์ธก์ ํ์ต๋๋ค(๋ฒ ์ด์ค๋ผ์ธ์ ๋จ์ ๋ง์ฐฐ ์ฝ ์ฌ์ฉ). - Shadow hand: ๋ฒ ์ด์ค๋ผ์ธ ~26.77 โ GenHand 0.45 - Robotiq: ~4.44 โ 0.12
์ ๊ทธ๋ฆฌํผยท์ ๋ง์ฐฐ ์์ค์์ GenHand๊ฐ ์ผ๊ด๋๊ฒ ๋ฎ์์ต๋๋ค. ๋ํ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ง์ฐฐ๊ณ์๊ฐ ๋ณํด๋ ์์ฐจ๊ฐ ๊ฑฐ์ ๋ณํ์ง ์๋๋ฐ(์ ์ด ์์ ์ฑ ์ถ๋ก ์ด ์์ผ๋ฏ๋ก), GenHand๋ force-closure ์ต์ ํ ๋๋ถ์ ๋ง์ฐฐ ๋ณํ์๋ ๊ฒฌ๊ณ ํ์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ์๊ฐ๋ฝ์ด ๋ง์์๋ก ์์ฐจ๊ฐ ์ปค์ง๋ ๊ฒฝํฅ์ด ๋ณด์ ๋๋ค. ๊ณ ์์ ๋ ์์ ๊ด์ ยท์ ์ด ๊ฐ๋ฅ์ฑ์ด ๋ง์ ํด ๊ณต๊ฐ์ด ์ปค์ง๊ณ ๋ ์ด๋ ต๋ค๋ ์๋ฏธ์ ๋๋ค. ๊ทธ๋๋ GenHand๋ ์ด ์ด๋ ค์ด ์ค์ ์์๋ ๋ฎ์ ์์ฐจ๋ฅผ ์ ์งํ์ต๋๋ค.
SDF value residual(๊ทธ๋ฆผ 3, 4). ๋ก๋ด ์ ์ด ์์ญ๊ณผ ๋ฌผ์ฒด ํ๋ฉด ์ฌ์ด์ ๋ถํธ ๊ฑฐ๋ฆฌ๋ก, ์ค์ ๋ก ํ๋ฉด์ ์ ๋ถ์ด ์๋์ง๋ฅผ ๋ด ๋๋ค. GenHand๋ ShadowยทAllegroยทBarrett์์ 0.35cm ์ดํ๋ฅผ ์ ์งํ ๋ฐ๋ฉด, ๋ฒ ์ด์ค๋ผ์ธ์ 1.34~1.82cm๋ก ํจ์ฌ ๋ ์์์ต๋๋ค(์ ํคํฌ์ธํธ๋ง ๋ง์ถ๊ณ ํ๋ฉด ์ ์ด์ ์ ๊ฒฝ ์ ์ฐ๋ฏ๋ก). Robotiq๋ ๊ธธ๊ณ ํํํ๋ฉฐ ๋ปฃ๋ปฃํ ์๋ ๋๋ฌธ์ GenHand์์๋ ์์ฐจ๊ฐ ๊ฐ์ฅ ์ปธ์ต๋๋ค.
Distance residual(๊ทธ๋ฆผ 5). ์ต์ข ๋ก๋ด ์ ์ด์ด force-closure ์ต์ปค์ ์ผ๋ง๋ ๊ฐ๊น์ด์ง. ๊ณ ์์ ๋์ผ์๋ก ์์์ต๋๋ค: Shadow <0.28cm, Allegro ~0.39cm, Barrett ~0.56cm. ๋ฐ๋ฉด Robotiq์ ์ ๋ง์ฐฐ์์ ์ต๋ ~5cm, ๊ณ ๋ง์ฐฐ์์ ~3cm๋ก ์ปธ์ต๋๋ค. ํํ ์ง๊ฒ์ ์ ํ๋ ์์ ๋์ ์ต๋ ํ์ง ํญ ๋๋ฌธ์ ํฐ ์ฌ๋ฐฐํฅ๊ณผ ์ ์ด์ ํํ์ด ๋ถ๊ฐํผํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์๋ฎฌ๋ ์ด์
PyBullet์์ ๊ฒ์ฆํ์ต๋๋ค. ์์ net wrench๋ฅผ ๊ฐ์ ํ๋ฏ๋ก ์ค๋ ฅ์ ๋ฅ๋ ์ธ๋์ผ๋ก ์ทจ๊ธํฉ๋๋ค. ๊ทธ๋ฆฌํผ๊ฐ pre-grasp ์์ธ์์ ์ ๊ทผโํ์งโ์์ง ๋ค์ด์ฌ๋ฆผ์ ์ํํ๊ณ , 2์ด๊ฐ ์์ ์ ์ผ๋ก ๋ค๊ณ ์์ผ๋ฉด ์ฑ๊ณต์ผ๋ก ๋ด ๋๋ค. ์ธ ๊ตฌ์ฑ์ ๋น๊ตํ์ต๋๋ค(ํ 4). - GenHand + HO: ์ ์ฒด ํ์ดํ๋ผ์ธ(์ด๋ฏธ์ง์์ ์-๋ฌผ์ฒด ๋ชจ๋ธ๋ง๊น์ง ํฌํจ, ์๋ฎฌ๋ ์ด์ ์ GT ๋ฌผ์ฒด ๋ชจ๋ธ ์ฌ์ฉ). - GenHand + GT: GT ์ยท๋ฌผ์ฒด ๋ฉ์ ์ฌ์ฉ(์ต์ ํ ๋จ๊ณ๋ง ๊ฒฉ๋ฆฌ โ ์ํ ์ฑ๋ฅ). - Baseline + GT: ๋ฒ ์ด์ค๋ผ์ธ์ GT ๋ฉ์ ์ ๊ณต.
ํต์ฌ ๊ฒฐ๊ณผ: GenHand+HO๊ฐ ๋ฒ ์ด์ค๋ผ์ธ์ GT๋ฅผ ์คฌ์ ๋๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋์์ต๋๋ค. ์ฆ ํ์ดํ๋ผ์ธ ์์ฒด์ ์ฐ์๊ฐ ์ ๋ ฅ ํ์ง ์ฐจ์ด๋ฅผ ์๋ํ ๊ฒ์ ๋๋ค. GenHand+GT๋ ๋๋ถ๋ถ์ ๊ทธ๋ฆฌํผยท๋ง์ฐฐ์์ ์ต๊ณ ์ฑ๊ณต๋ฅ (์ํ)์ ๋ณด์๊ณ , ๋ง์ฐฐ๊ณ์๊ฐ ํด์๋ก ์ฑ๊ณต๋ฅ ์ด ์ฌ๋์ต๋๋ค. ์ข ํฉ์ ์ผ๋ก GenHand๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 39.8% ํฅ์์ ๊ธฐ๋กํ์ต๋๋ค. ๋ฒ ์ด์ค๋ผ์ธ์ ํนํ Robotiq์์ ํฌ๊ฒ ๋ถ์งํ๋๋ฐ, ํคํฌ์ธํธ ๊ธฐํ ์์กด์ด ์๊ฐ๋ฝ ์ยท๊ด์ ์ด ๋ค๋ฅธ ์์ผ๋ก ์ ์ผ๋ฐํ๋์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ฌผ์ฒด๋ณ ์ฑ๊ณต๋ฅ (๊ทธ๋ฆผ 8, \mu=0.9). ์ํตํ ์บ, ๋ฐ์คํ ์ฉ๊ธฐ์ฒ๋ผ ํ๋ฉด ๋ฒ์ ์ด ์ ๋ถ๋ฆฌ๋ ๊ท์น์ ๊ธฐํ์์๋ ์ฑ๊ณต๋ฅ ์ด ๋์์ต๋๋ค(๋ฒ์ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง์ด ์ ์๋). ๋ฐ๋๋ก ๊ฐ์์ฒ๋ผ ๋ฒ์ ์ด ๋ฌด์์๋ก ํฉ์ด์ง ๋ณต์กํ ๋ฌผ์ฒด, ๊ทธ๋ฆฌ๊ณ ์๊ฑฐ๋ ๊ป์ง ๊ฐ์(shell-like) ๋ฌผ์ฒด๋ ์ฑ๊ณต๋ฅ ์ด ๋ฎ์์ต๋๋ค(๊ณ ํด์๋ SDF์ ์ ๋ฐ ์ถฉ๋ ์ฒ๋ฆฌ๊ฐ ํ์).
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๊ฐ๋
์ ํตํฉ์ด ๊น๋ํฉ๋๋ค. โ์ ๋ชจ์ ์ ์ฌ์ฑโ๊ณผ โ๋ฌผ๋ฆฌ์ ์์ ์ฑโ์ ๋ณ๊ฐ๋ก ๋ณด๋ ๋ ์ง์์, ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋จ์ผ ์ต์ ํ๋ก ๋ฌถ์์ต๋๋ค. ํนํ force closure๋ฅผ
ReLUํจ๋ํฐ๋ก ๋ถ๋๋ฝ๊ฒ ํ์ด ๊ฒฝ์ฌ ๊ธฐ๋ฐ์ผ๋ก ํตํฉํ ์ ์ด ์ฐ์ํฉ๋๋ค. - ์ ์์ ๋ ๊ทธ๋ฆฌํผ์์ ํนํ ๊ฐ๋ ฅํฉ๋๋ค. Robotiq ๊ฐ์ ํํ ์ง๊ฒ๋ ๊ธฐ์กด key-vector ๋ฐฉ์์ด ๊ฐ์ฅ ์ฝํ ์ง์ ์ธ๋ฐ, โํ ๋ฐฉํฅ์ ๋จผ์ ์ถ์ํํ๊ณ ๊ทธ ๋ค ์ ์ด ์ฑ๋ถ์ ์ฑ์ด๋คโ๋ ๊ณ์ธต์ ์ต์ปค ํ ๋น์ด ์ ํํ ์ด ์ฝ์ ์ ๊ณต๋ตํฉ๋๋ค. net wrench residual 26.77โ0.45 ๊ฐ์ ์์น๋ ์ธ์์ ์ ๋๋ค.
- ์ค์ฉ์ ํจ์จ ์ ์ถฉ. ์์ MANO, ๋ฌผ์ฒด๋ง SDF๋ก ๋ณต์ํด ํ๋ผ๋ฏธํฐ 3.5๋ฐฐยท์๋ 1.9๋ฐฐ๋ฅผ ํ๋ณดํ ๊ฒ์ ์ค์๊ฐ ์๊ฒฉ์กฐ์์ ์ผ๋์ ๋ ํฉ๋ฆฌ์ ์ ํ์ ๋๋ค.
- ๋ง์ฐฐ ๊ฒฌ๊ณ ์ฑ. \mu=0.1\sim0.9 ์ ๋ฒ์์์ ์์ ์ ์ด๋ผ๋ ์ ์ force-closure ์ถ๋ก ์ด ์ค์ ๋ก ์๋ํจ์ ๋ณด์ฌ์ค๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ๊ธฐ๋ฅ์ ์๋(functional intent)๋ฅผ ๋ณด์กดํ์ง ์์ต๋๋ค. ์ ์๋ค๋ ๋ช ์ํ๋ฏ, GenHand๋ โ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ๋จ์ด์ง๋ ์ก๊ธฐโ๋ ๋ณด์ฅํ์ง๋ง โ๋๊ตฌ๋ฅผ ์ธ ๋ ์์ก์ด๋ฅผ ์ ํํ ์ก๋โ ๊ฐ์ ๊ธฐ๋ฅ์ ์ ๋ฐ์ฑ์ ๋ณด์ฅํ์ง ์์ต๋๋ค. ๋ง์น๋ฅผ ๋จธ๋ฆฌ ์ชฝ์ผ๋ก ์์ ์ ์ผ๋ก ์ฅ์ด๋ฒ๋ฆฌ๋ฉด mechanically stable์ด์ด๋ task๋ ์คํจ์ ๋๋ค. ๋๊ตฌ ์ฌ์ฉยท์ ๋ฐ ์กฐ์ ์์ฉ์์๋ ์น๋ช ์ ์ผ ์ ์์ต๋๋ค.
- ์ง๊ฐ ๋จ๊ณ๊ฐ ๋ณ๋ชฉ์ ๋๋ค. ํ 4๊ฐ ๋ณด์ฌ์ฃผ๋ฏ ๋ณต์ ์ ํ๋๊ฐ ๊ณง ์ก๊ธฐ ์ฑ๊ณต๋ฅ ๋ก ์ง๊ฒฐ๋ฉ๋๋ค. ์์ ๊ป์ง ๋ฌผ์ฒด์ ๋ถ์์ ๋ณต์, ๊ณผ๋ํ๊ฒ ๋งค๋๋ฌ์์ง ๋ฉ์(๊ฐ์ ๊ตฌ๋ฉ ์์ค), ์๋ชป๋ MANO ํฌ์ฆ ์์ธก์ด ๋ชจ๋ ๋ค์ด์คํธ๋ฆผ ์คํจ๋ก ์ด์ด์ง๋๋ค.
- ์ต์ ํ ๋จ๊ณ์ ์ทจ์ฝ์ . (1) ์ต์ ์ต์ปค x^*๊ฐ ๋๋ฌด ๊ฐ๊น์ด ๋ญ์น๋ฉด linear assignment๊ฐ ๋ชจํธํด์ ธ ์ ์ด ์ค์ ๋ ฌ์ด ์๊น๋๋ค. (2) ์นจํฌ ๊ฒ์ฌ ํด์๋์ ํจ์จ์ ์ ์ถฉ ๋๋ฌธ์ ์์ ๋ฌผ์ฒด์์ ์๊ธฐ/๋ฌผ์ฒด ์นจํฌ๊ฐ ๋ฐ์ํฉ๋๋ค. (3) ์์ ๋ฌผ์ฒด๋ ๋ฏธ์ธํ ์์น ๋ณํ์๋ SDF๊ฐ ํฌ๊ฒ ๋ณํด, ํฐ step size์์ ์ต์ ํ๊ฐ ์์ ํด๋ฅผ ์ง๋์ณ๋ฒ๋ฆฝ๋๋ค(overshoot).
- ์๋ฎฌ๋ ์ด์ ๊ฒ์ฆ์ ๊ทธ์นฉ๋๋ค. ๋ชจ๋ ๊ฒฐ๊ณผ๊ฐ PyBullet ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ์ด๋ฉฐ, ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ sim-to-real ๊ฒ์ฆ์ ๋ณด๊ณ ๋์ง ์์์ต๋๋ค. ์ ์ด ๋ชจ๋ธยท๋ง์ฐฐ ์ถ์ ์ ํ์ค ๊ฒฉ์ฐจ๊ฐ ์ด๋ป๊ฒ ์์ฉํ ์ง๋ ๋ฏธ์ง์์ ๋๋ค. (์ถ์ธก) sim-to-real ๊ฒฉ์ฐจ๊ฐ ์ ์์ ๋ ๊ทธ๋ฆฌํผ์์ ํนํ ํด ์ ์์ต๋๋ค.
- ์๋. force closure ์ถ๊ฐ๋ก ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ๋๋ฆฝ๋๋ค. โ์ค์๊ฐ ์๊ฒฉ์กฐ์โ์ ํ๋ฐฉํ์ง๋ง ์ ํํ ms ๋จ์ ์ง์ฐ์ด๋ ์ค์๊ฐ ๋ฃจํ ํตํฉ ๊ฒฐ๊ณผ๋ ๋ณธ๋ฌธ์์ ๊ฐ์กฐ๋์ง ์์ต๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ ๋น๊ต
- Key-vector hand-oriented ๋ฐฉ์(DexPilot ๊ณ์ด, refs.7-13): ์๋ ์ ๋ ฌ์ ์ง์คํด ๋ฌผ์ฒด ๊ธฐํ๋ฅผ ๋ฌด์ โ GenHand๊ฐ ์ ๋ฉด์ผ๋ก ๊ฐ์ ํ ๋ฒ ์ด์ค๋ผ์ธ.
- Object-oriented / contact ๊ธฐ๋ฐ(Contact2Grasp, ContactOpt ๊ณ์ด, refs.17-20): ์ ์ด ์์ญ ๋ชจ๋ธ๋ง์ ํ์ง๋ง ์ ์์ ๋ ๊ทธ๋ฆฌํผ ์ ์์ด ์ฝํจ. GenHand๋ ์ฌ๊ธฐ์ ๊ณ์ธต์ ์ถ์ํ + force closure๋ฅผ ๋ํด ํ์ฅ.
- ๋ฏธ๋ถ ๊ฐ๋ฅ force closure: Liu et al.(ref.32)์ differentiable force closure estimator, Dai et al.(ref.33)์ sequential SDP๋ฅผ grasp synthesis ํ ๋๋ก ์ฐจ์ฉ.
- Grasp synthesis: DexNet(antipodal ์ํ๋ง), GenDexGrasp(ref.35, ์นจํฌ ๊ฒ์ถ ์ ๋ต์ ์ง์ ์ฑํ)์ ๊ฐ์ ์ผ๋ฐํ ๊ฐ๋ฅ ์ก๊ธฐ ํฉ์ฑ ํ๋ฆ์ ์ํจ. GenHand์ ์ฐจ๋ณ์ ์ โ์ฌ๋ ์์ฐ ์ด๋ฏธ์ง โ ๋ค์ํ ๊ทธ๋ฆฌํผโ๋ผ๋ ๋ฆฌํ๊ฒํ ๊ด์ ์์ force closure๋ฅผ ํตํฉํ ๊ฒ์ ๋๋ค.
- ๋ณต์ ๋ฐฑ๋ณธ: DeepSDF, AlignSDF, gSDF, MANO, Obman/AtlasNet ๊ณ๋ณด๋ฅผ ๋ฐ๋ฆ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
GenHand๋ โ์ฌ๋์ ์ ๋ชจ์์ ๋ฒ ๋ผ๋ ๊ฒโ๊ณผ โ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ ์ ์ธ ์ก๊ธฐโ๋ผ๋, ๊ทธ๋์ ๋ฐ๋ก ๋ค๋ค์ง๋ ๋ ๋ชฉํ๋ฅผ ํ๋์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ธ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ฒฐํฉํ ์ด๋ํ ๋ฆฌํ๊ฒํ ํ๋ ์์ํฌ์ ๋๋ค.
- MANO + DeepSDF๋ก RGB ์ด๋ฏธ์ง์์ ์-๋ฌผ์ฒด ๊ธฐํ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ณต์ํ๊ณ ,
- HDBSCAN ์ด์ค ํด๋ฌ์คํฐ๋ง์ผ๋ก ์ฌ๋ ์ก๊ธฐ๋ฅผ ํ ์ฑ๋ถยท์ ์ด ์ฑ๋ถ์ผ๋ก ์ถ์ํํ ๋ค ๊ทธ๋ฆฌํผ ์์ ๋์ ๋ง์ถฐ ๊ณ์ธต์ ์ผ๋ก ์ต์ปค๋ฅผ ํ ๋นํ๊ณ , ๋ฏธ๋ถ ๊ฐ๋ฅํ force closure๋ก ์์ ์ ์ ์ด์ x^*๋ฅผ ์ฐพ๊ณ ,
- in-loop LA-ICP ์ด๋ํ ์ต์ ํ๋ก ๊ด์ ํ๊ณยท์ถฉ๋์ ์งํค๋ฉฐ ๋ก๋ด ์์ธ q, R, T๋ฅผ ์คํํฉ๋๋ค.
ํต์ฌ ์ฑ๊ณผ๋ 4์ข ๊ทธ๋ฆฌํผยท20๊ฐ ๋ฌผ์ฒดยท๋ค์ํ ๋ง์ฐฐ์์ key-vector ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์๋ฎฌ๋ ์ด์ ์ฑ๊ณต๋ฅ 39.8% ํฅ์, net wrench residual(์: Shadow 26.77โ0.45)๊ณผ SDF ์ ์ด ์์ฐจ์ ๋ํญ ๊ฐ์์ด๋ฉฐ, ๊ทธ๋ฌ๋ฉด์๋ ์ ์ด ์์ญ ์ ์ฌ๋๋ 0.1~0.2mm ์ด๋ด๋ก ์ ์งํ์ต๋๋ค. ํนํ ๊ธฐ์กด ๋ฐฉ์์ด ๊ฐ์ฅ ์ฝํ๋ ์ ์์ ๋ ํํ ์ง๊ฒ์์ ์ฐ์๊ฐ ๋๋๋ฌ์ง๋๋ค.
๋ก๋ด๊ณตํ ์ค๋ฌด์์ ๊ด์ ์์ GenHand๊ฐ ์ฃผ๋ ๋ฉ์์ง๋ ๋ถ๋ช ํฉ๋๋ค. โ์๋์์ ๊ทธ๋๋ก ๋ฒ ๋ผ์ง ๋ง๊ณ , ์ ๊ทธ๋ ๊ฒ ์ก์๋์ง(ํ์ ๊ตฌ์กฐ)๋ฅผ ์ดํดํ ๋ค ๋ด ์์ ๋ง๊ฒ ๋ค์ ์ก์๋ผ.โ ๋ค๋ง ๊ธฐ๋ฅ์ ์๋ ๋ณด์กด ๋ถ์ฌ, ์ง๊ฐ ๋จ๊ณ ๋ณ๋ชฉ, ์๋ฎฌ๋ ์ด์ ํ์ ๊ฒ์ฆ์ ๋ถ๋ช ํ ํ๊ณ์ด๋ฉฐ, ์ ์๋ค๋ ํฅํ ๊ณผ์ ๋ก ์ง๊ฐ ํ์ง ํฅ์๊ณผ task-specific ์ ์ฝ ํตํฉ(ํนํ ๋๊ตฌ ์ฌ์ฉ ๊ฐ์ ์ ๋ฐ ์ก๊ธฐ)์ ์ ์ํฉ๋๋ค. ์๊ฒฉ์กฐ์๊ณผ ๋ชจ๋ฐฉ ํ์ต์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ ๊ณง๋ฐ๋ก ์ธ ์ ์๋, ์ค์ฉ์ ์ด๋ฉด์ ์ด๋ก ์ ์ผ๋ก๋ ์ ์ ๋๋ ๊ธฐ์ฌ์ ๋๋ค.