flowchart TD
A[๋ฐ๋ชจ ์์ง ๋ฐฉ๋ฒ] --> B[์๋ฎฌ/๋น๋์ค]
A --> C[์๊ฒฉ์กฐ์]
A --> D[์ฐฉ์ฉํ ์ฅ์น]
B --> B1[๊ท๋ชจ: ๋ฌดํ๋]
B --> B2[์ ์ด fidelity: ๋ฎ์]
C --> C1[์ ์ด๊ณต๊ฐ ์ผ์น]
C --> C2[์๋์ ์ง๊ด์ฑ ์์ค]
D --> E[๋ฐ์ดํฐ ๊ธ๋ฌ๋ธ]
D --> F[์ธ๊ณจ๊ฒฉ Exoskeleton]
E --> E1[Correspondence ๋ฌธ์ ]
F --> G[DexUMI: ์๊ฐ ๊ธฐ๋ฐ ์ ๋ ฌ]
F --> H[DexOP: ๊ฐ์ฒด ๋งํค์ง ์ ๋ ฌ]
F --> I[DexEXO: ํฌ์ฆ ํ์ฉ + Passive Hand]
G --> G1[Segmentation/Inpainting ํ์]
H --> H1[๋ก๋ด ์ ์ข
์, ์ธ์ฒด๊ณตํ ์ ํ]
I --> I1[Raw RGB๋ก ์ง์ ํ์ต]
๐DexEXO
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ค์ํ๊ณ ์ด์ง์ ์ธ ์์ ์๋ก๋ถํฐ ๊ณ ํ์ง์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ฐ ๋ฐ๋ฅด๋ ์ด๋ ค์์ผ๋ก ์ธํด ์๋ จ๋ ๋ก๋ด ํ์ต์ ํ์ฅ์ด ์ ์ฝ๋ฐ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ๊ธฐ์กด์ ์จ์ด๋ฌ๋ธ ์ธํฐํ์ด์ค๋ ์ข ์ข ์ฐฉ์ฉ์ฑ(wearability)๊ณผ ์ฌ์ฉ์ ๊ฐ ์ ์์ฑ์ ํฌ์ํ๋ฉด์ ์ด๋ํ์ ์ถฉ์ค๋(kinematic fidelity)๋ฅผ ๋์ด๋ ค ํ๋ฉฐ, ๋ฐ๋ชจ ๋จ๊ณ์ ๋ฐฐํฌ ๋จ๊ณ ๊ฐ์ ์๋ฐ๋๋จผํธ ๋ถ์ผ์น(embodiment mismatch)๋ ์ ์ฑ ํ์ต ์ ์ ์๊ฐ์ ํ์ฒ๋ฆฌ(visual post-processing)๋ฅผ ์๊ตฌํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ ์ฐฉ์ฉ์ฑ์ ์ต์ฐ์ ์ผ๋ก ๊ณ ๋ คํ ํธ๋ ์ธ๊ณจ๊ฒฉ์ธ DexEXO๋ฅผ ์ ์ํฉ๋๋ค. DexEXO๋ ํ๋์จ์ด ์์ค์์ ์๊ฐ์ ์ธํ(visual appearance), ์ ์ด ๊ธฐํํ(contact geometry), ์ด๋ํ(kinematics)์ ์ ๋ ฌ์ํต๋๋ค. ํต์ฌ์ ์ธ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ฐฉ์ฉ์ฑ ๋ฐ ๊ต์ฐจ ์ฌ์ฉ์ ์ ์์ฑ:
- Slider-Based Finger Interface: ๊ฐ ์๊ฐ๋ฝ์ ์๋ ์คํ๋ง ์ฅ์ฐฉ ์ ํ ์ฌ๋ผ์ด๋(linear slider)๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ๋ฝ ๊ธธ์ด ๋ณํ๋ฅผ ์์ฉํ๊ณ ์ถฉ๋ถํ ์ปฌ(curl) ๋ณ์๋ฅผ ์ ์งํฉ๋๋ค. ์ด๋ ์ฝ์ ๊น์ด์ ๊ด์ ์ถ ์ ๋ ฌ์ ๋ถ๋ฆฌํ์ฌ ์ฐฉ์ฉ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํต๋๋ค. ๋ถ์์ ๋ชจ๋ธ๋ง์ ํตํด 140 mm์์ 217 mm๊น์ง์ ์ ๊ธธ์ด๋ฅผ ์ง์ํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ด๋ ์ฌ์ฉ์์ ์ ๊ธธ์ด์ ๋ฐ๋ผ ์๊ฐ๋ฝ TPU ๋ง์ด ์๊ฐ๋ฝ ๋ฌผ๊ฐํด(webbing) ์๋ก ์ต๋ \delta = 17 \text{ mm}๊น์ง ์์นํ ์ ์๋๋ก ํ์ฉํฉ๋๋ค. ์ต์ ๋ฐ ์ต๋ ํธํ ์ ๊ธธ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \text{H}_{\text{min}} = \text{L}_{\text{min}} / r \text{H}_{\text{max}} = (\text{d}_{\text{max}} - \text{d}_{\text{curl}} + \delta) / r ์ฌ๊ธฐ์ \text{L}_{\text{min}}์ ์ต์ TPU ๋ง-์๊ฐ๋ฝ ๋ฎ๊ฐ ๊ฑฐ๋ฆฌ, \text{d}_{\text{max}}๋ ์ฌ๋ผ์ด๋์ ์ต๋ ์ด๋ ๊ฑฐ๋ฆฌ, \text{d}_{\text{curl}}์ ์์ ํ ์๊ฐ๋ฝ ๊ตฝํ์ ํ์ํ ์ต์ ์์ ์ฌ๋ผ์ด๋ ๊ธธ์ด, r์ ์๊ฐ๋ฝ ๊ธธ์ด-์ ๊ธธ์ด ๋น์จ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ณ ํผํ ๋ฐ ๊ต์ ์ ํ์์ฑ์ ์ค์ฌ ํ์ฅ ๊ฐ๋ฅํ ๊ต์ฐจ ์ฌ์ฉ์ ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Pose-Tolerant Thumb Mechanism: ์ด ๋ฉ์ปค๋์ฆ์ ์ธ๊ฐ ์์ง์๊ฐ๋ฝ์ ์์ฐ์ค๋ฌ์ด ์์ ๊ณต๊ฐ(workspace)์ ๋ณด์กดํ๋ฉด์๋ ๋ก๋ด ์์ง์๊ฐ๋ฝ ์์ ๋(DOFs)์ ๋ํ ์ผ๊ด๋ ๋งคํ์ ์ ์งํฉ๋๋ค. ์ธ๊ณจ๊ฒฉ ์์ง์๊ฐ๋ฝ์ ๊ณ์ธก๋ IP ๊ด์ \text{J}_1 (๊ฐ๋ \theta_1)์ ํฌํจํ๋ฉฐ, ์๋ ์์ง์๊ฐ๋ฝ์ IP ๊ด์ \text{J}_2 (๊ฐ๋ \theta_2)์ TM ์ธ์ /๋ด์ (abduction/adduction) ๊ด์ \text{J}_4 (๊ฐ๋ \theta_4)๋ฅผ ํฌํจํฉ๋๋ค. ์ฌ๊ธฐ์ \text{J}_3๋ \text{J}_2์ ๊ธฐ๊ณ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ธ๊ณจ๊ฒฉ ์์ง์๊ฐ๋ฝ์ ๋ ๊ฐ์ ๊ฐ์ฑ ๋งํค์ง(distal linkage ๋ฐ metacarpal linkage)๋ฅผ ํตํด ์๋ ์์ง์๊ฐ๋ฝ์ ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ด ์ํคํ ์ฒ๋ ์ธ๊ณจ๊ฒฉ๊ณผ ์ธ๊ฐ ์์ง์๊ฐ๋ฝ ์ฌ์ด์ ๊ฐ์ฑ ๋ฐฉํฅ ์ ๋ ฌ์ ๊ฐ์ ํ์ง ์๊ณ , ๋์ ๊ธฐํํ์ ๊ฑฐ๋ฆฌ ์ ์ฝ ์กฐ๊ฑด๋ง ๋ถ์ฌํ์ฌ ์ธ๊ณจ๊ฒฉ์ด ์๋ฐ๋ฅ์ ๋ํด ๋ฒ์ญ(translate) ๋ฐ ํ์ (rotate)ํ ์ ์๋๋ก ํฉ๋๋ค. ์ธ๊ณจ๊ฒฉ์ ํฌ์ฆ \text{B}\text{T}_{\text{E}}๋ 6์์ ๋๋ฅผ ๊ฐ์ง๋ฉฐ, ๋ค์์ ํ๋ก๋ ธ๋ฏน(holonomic) ๊ฑฐ๋ฆฌ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํฉ๋๋ค: \lVert \text{B}\text{r}_{\text{d}}^{\text{E}} - \text{B}\text{r}_{\text{d}}(\text{q}_{\text{p}}) \rVert = \text{L}_{\text{d}} \lVert \text{B}\text{r}_{\text{m}}^{\text{E}} - \text{B}\text{r}_{\text{m}}(\text{q}_{\text{p}}) \rVert = \text{L}_{\text{m}} ์ฌ๊ธฐ์ \text{L}_{\text{d}}์ \text{L}_{\text{m}}์ ์์(distal) ๋ฐ ์ค์๊ณจ(metacarpal) ๋งํค์ง ๊ธธ์ด๋ฅผ ๋ํ๋ ๋๋ค. ์ด๋ฌํ ์์ฌ ์์ ๋(residual freedom)๋ โ๊ฟํ๊ฑฐ๋ฆผ ๊ณต๊ฐ(wiggle space)โ์ผ๋ก ๋ํ๋๋ฉฐ, ์ธ๊ณจ๊ฒฉ ๋ชธ์ฒด๊ฐ ์๋ฐ๋ฅ์ ๋ํด ์ด๋ ๋ฐ ํ์ ํ๋ฉด์๋ ์๋ ์์ง์๊ฐ๋ฝ ์์ธ๋ฅผ ๋ณ๊ฒฝํ์ง ์๋๋ก ํฉ๋๋ค.
- ์๋ฐ๋๋จผํธ ์ ๋ ฌ:
- ๋ฐฐํฌ๋ ๋ก๋ด(OYMotion ROH-AP001)๊ณผ ์๊ฐ์ ์ผ๋ก ์ผ์นํ๋ ์๋ ์(passive hand)์ ํตํฉํ์ฌ, ์๋ชฉ์ ์ฅ์ฐฉ๋ ์นด๋ฉ๋ผ ๊ด์ ์ด ๋ก๋ด ์์ ๊ด์ ๊ณผ ์ผ์นํ๋๋ก ํฉ๋๋ค. ์ด๋ ์์ง ๋ฐ ์ถ๋ก ๊ณผ์ ์์ ์๊ฐ์ ๋ถ์ผ์น๋ฅผ ์ ๊ฑฐํ๊ณ , ์ธ๊ทธ๋ฉํ ์ด์ (segmentation) ๋ฐ ๋น์ฃผ์ผ ํฌ์คํธ ํ๋ก์ธ์ฑ(visual post-processing) ์์ด ์์(raw) ์๋ชฉ ์ฅ์ฐฉ RGB ๊ด์ฐฐ์์ ์ง์ ์ ์ฑ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฑ ํ์ต:
๋ฐ์ดํฐ๋ ์ธ๊ณจ๊ฒฉ ๋ฉ์ปค๋์ฆ ๋ด๋ถ์ ๋ด์ฅ๋ 6๊ฐ์ ์๋ ๋ก๊ทธ ์์ฝ๋(finger joint positions), iPhone ๊ธฐ๋ฐ AR ์ถ์ ์์คํ (6-DOF end-effector pose), ๊ทธ๋ฆฌ๊ณ ์๋ชฉ ์ฅ์ฐฉ Intel RealSense ์นด๋ฉ๋ผ(RGB images)๋ฅผ ํตํด ์์ง๋ฉ๋๋ค. ๋ชจ๋ ์ผ์ ๋ฐ์ดํฐ๋ ๋๊ธฐํ๋ฉ๋๋ค. ์ ์ฑ ํ์ต์๋ ๋ํจ์ ์ ์ฑ (diffusion policy)์ ์ฌ์ฉํ๋ฉฐ, ๊ด์ฐฐ๊ฐ์ผ๋ก๋ ์๋ชฉ ์ฅ์ฐฉ ์นด๋ฉ๋ผ์ RGB ์ด๋ฏธ์ง์ (์ ํ์ ์ผ๋ก) ์ ์ฐจ์ ์ ์ํ๊ฐ ํฌํจ๋ฉ๋๋ค. RGB ์ด๋ฏธ์ง๋ DINOv2 ViT-S/14 ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ์ ํน์ง์ ์ถ์ถํ๊ณ ์ ์ฑ ์ ์ฃผ์ ์กฐ๊ฑดํ ์ ํธ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ ์ฑ ์ 16๋จ๊ณ์ ์์ธก ํ๋ ํธ๋ผ์ด์ฆ์ ์ถ๋ ฅํ๋ฉฐ, ์ฒซ 8๊ฐ ํ๋์ ๋ฆฌ์๋ฉ ํธ๋ผ์ด์ฆ(receding-horizon) ๋ฐฉ์์ผ๋ก ์คํ๋ฉ๋๋ค.
๊ฒฐ๊ณผ:
์ฌ์ฉ์ ์ฐ๊ตฌ์์ DexEXO๋ ๊ธฐ์กด ์จ์ด๋ฌ๋ธ ์์คํ (DexUMI) ๋ฐ ํ ๋ ์คํผ๋ ์ด์ (teleoperation)์ ๋นํด ํฅ์๋ ํธ์ํจ๊ณผ ์ฌ์ฉ์ฑ(์: ๊ฐ์ ์๋ฅด๊ธฐ ์์ ์ ์ผํ๊ฒ ์ํ, ํผ์๋ ธ ์์ ์ฑ๊ณต๋ฅ 54.5% ๋์, ์๋ฃ ์๊ฐ 16.6% ๋น ๋ฆ)์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์ฐฉ์ฉ์๋ ์ธ๊ณจ๊ฒฉ ๋์์ธ์ ๋ํด ๋ ๋์ ์๊ฐ๋ฝ ๋ ๋ฆฝ์ฑ(finger independence), ๋ฌผ๋ฆฌ์ ํธ์ํจ(physical comfort), ๋ฎ์ ์ข์ ๊ฐ์ ๋ณด๊ณ ํ์ต๋๋ค. ์ ์ฑ ํ๊ฐ ๊ฒฐ๊ณผ, ํ๋์จ์ด ์์ค์ ๊ธฐํํ์ ๋ฐ ์๊ฐ์ ์ ๋ ฌ์ ์๊ฐ์ ํ์ฒ๋ฆฌ ์์ด ํจ๊ณผ์ ์ธ ์๋ํฌ์๋ ์ ์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์์ RGB ๊ด์ฐฐ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋ช ์์ ์ธ ์ ์ํ ์กฐ๊ฑดํ(explicit hand-state conditioning)๊ฐ ๋ถํ์ํ๋ค๋ ๊ฒ์ ์ ์ฆํ์ต๋๋ค. DexUMI์ ์ต์ ๊ตฌ์ฑ(์ธ๊ทธ๋ฉํ ์ด์ ๋ฐ ์ธํ์ธํ ํฌํจ)๊ณผ ๋น๊ตํ์ ๋, DexEXO๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ด๋ ์ธํ์ธํ ์์ด ์ ์ฌํ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, DexEXO๋ ์ฐฉ์ฉ์ฑ๊ณผ ํ๋์จ์ด ์์ค์ ์๋ฐ๋๋จผํธ ์ ๋ ฌ์ ์ฐ์ ์ํจ์ผ๋ก์จ ์๋ จ๋ ๋ก๋ด ํ์ต์์ ์ธ๊ฐ ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ณ๋ชฉ ํ์์ ์ค์ด๋ฉด์๋ ์์ ์ฑ๋ฅ์ ํฌ์ํ์ง ์๋ ํจ๊ณผ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
The bulk of the paper is in hand, but I still need the policy evaluation (V-C), limitations, and conclusion sections. Let me grab those. ## ์์ํ๋ฉฐ: ์์ด ์ ๋ง์ผ๋ฉด ๋ฐ์ดํฐ๋ ์๋ค
์๊ธฐ์ (dexterous manipulation)์ ํ์ต์ํจ๋ค๋ ๊ฑด ๊ฒฐ๊ตญ ๋ฐ์ดํฐ ์ธ์์ ๋๋ค. ๋ค๊ด์ ์์์ ์ ์ด์ด ํ๋ถํ ๋์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ์ผ์ ๊ทธ๋์คํผ(parallel-jaw gripper) ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ์ผ๊ณผ ๋น๊ต๊ฐ ์ ๋ฉ๋๋ค. ์์ ๋๊ฐ ๋ง๊ณ , ์์ ๊ฐ๋ฆผ(occlusion)์ด ์ผ์์ด๋ฉฐ, ์ ์ด์ด ๋์์์ด ๋ง๋ค์ด์ง๊ณ ํ๋ฆฝ๋๋ค. ์์ ๋ฌด์ธ๊ฐ๋ฅผ ๋ผ์ฐ๋ ์๊ฐ ์ฌ์ฉ์๋ ๋ถํธํจ์ ํธ์ํ๊ณ , ์๋ง๋ค ํฌ๊ธฐ์ ๋น์จ์ด ๋ฌ๋ผ ํ ์ฌ๋์๊ฒ ๋ง์ถ ์ฅ์น๋ ๋ค๋ฅธ ์ฌ๋์๊ฒ ํ๊ฒ๊ฑฐ๋ ๋ผ์ด๊ฒ ๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ด ๋์ง๋ ์ง๋ฌธ์ ๋จ์ํฉ๋๋ค. โ์๊ธฐ์ ๋ฐ๋ชจ ์์ง ์ฅ์น์ ์ง์ง ๋ณ๋ชฉ์ ์ ํ๋๊ฐ ์๋๋ผ ์ฐฉ์ฉ์ฑ(wearability)์ด ์๋๊น?โ ๊ทธ๋ฆฌ๊ณ ํ ๊ฐ์ง ๋. โ๊ธฐ๊ตฌํ์ ์ผ๋ก๋ ์ผ์น์ํค๋๋ผ๋ ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ์์๊น์ง ์ผ์น์ํค์ง ์์ผ๋ฉด, ๊ฒฐ๊ตญ ์ ์ฑ ํ์ต์์๋ ํ์ฒ๋ฆฌ๊ฐ ๋ ํ์ํ์ง ์์๊ฐ?โ DexEXO๋ ์ด ๋ ๋ฌธ์ ๋ฅผ ํ๋์จ์ด ์์ค์์ ๋์์ ํด๊ฒฐํ๋ ค๋ ์๋์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ํด๊ฒฐ์ฑ ์ ๋ณธ์ง์ ์์ธ๋ก ๋จ์ํฉ๋๋ค. โ๋ง์ถ๋ ค๊ณ ํ์ง ๋ง๊ณ , ์ด๊ธ๋จ์ ํก์ํ๋ผ.โ
์ด ๊ธ์ UCLA์ RoMeLa์ PRG ๊ทธ๋ฃน์ด ๋ฐํํ DexEXO๋ฅผ ๋ค๊ด์ ์๊ธฐ์ ์ ๋ค๋ฃจ๋ ๋ก๋ด๊ณตํ์์ ๊ด์ ์์ ๊น์ด ์๊ฒ ๋ค์ฌ๋ค๋ด ๋๋ค. ํนํ Allegro Hand๋ ์ ์ฌ ๋ก๋ด ์ ํ๋ซํผ์์ ๋ฐ์ดํฐ ์์ง์ ๊ณ ๋ฏผํ๋ ๋ถ๋ค์ด๋ผ๋ฉด, ์ด ๋ ผ๋ฌธ์ ์ค๊ณ ์ฒ ํ์ด ๋๊ตฌ ์ ํ์ ๋์ด์ ์ฐ๊ตฌ ๋ฐฉํฅ์๊น์ง ์ํฅ์ ์ค ์ ์๋ค๊ณ ์๊ฐํฉ๋๋ค.
๋ฌธ์ ์ ํ๊ฒฝ: ๋ฐ๋ชจ๋ฅผ ์ป๋ ์ธ ๊ฐ๋๊ธธ
์๊ธฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์ ์ ๋๋ค.
์ฒซ์งธ, ์๋ฎฌ๋ ์ด์ ๊ณผ ๋น๋์ค์ ๋๋ค. ์์ ํ๋ถํฉ๋๋ค. ์ธํฐ๋ท ์์์ ๋ฌดํ๋์ ๊ฐ๊น๊ณ ์๋ฎฌ๋ ์ด์ ์ ๋ณ๋ ฌ๋ก ๋ฌดํํ ๊ตด๋ฆด ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ์ด๋ ฅ๊ณผ ๋ฏธ์ธํ ์๊ฐ๋ฝ-๋ฌผ์ฒด ์ํธ์์ฉ์ ์ค์ฌ์ฒ๋ผ ํฌ์ฐฉํ๋ ์ผ์ ์ฌ์ ํ ์ด๋ ต์ต๋๋ค. ์๊ฐ๋ฝ์ด ์ข ์ด ํ ์ฅ์ ์ง์ด ์ฌ๋ฆด ๋ ์ํฑ์ด ๋ฏธ๋๋ฌ์ง๋ ๊ทธ ์ฐฐ๋์ dynamics๋ ๋น๋์ค์ ์ ์ฐํ๊ณ ์๋ฎฌ๋ ์ดํฐ์ ์ข ์ข ๋น ์ ธ ์์ต๋๋ค.
๋์งธ, ์๊ฒฉ์กฐ์(teleoperation)์ ๋๋ค. ๋ก๋ด์ ์ ์ด๊ณต๊ฐ์์ ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ฐ์ฅ ์ ํํฉ๋๋ค. ๋ค๋ง ๋ค๊ด์ ์์ ์๊ฒฉ์กฐ์์ ๋๋ฆฌ๊ณ , ์ง๊ด์ ์ด์ง ์์ผ๋ฉฐ, ํ ํฑ ํผ๋๋ฐฑ์ด ๋ถ์กฑํด ์ ์ด์ด ํ๋ถํ ์์ ์์ ์ฌ์ฉ์๊ฐ ์๊ธฐ ์์ด ๋ญ ํ๊ณ ์๋์ง ์๊ธฐ๊ฐ ํ๋ญ๋๋ค.
์ ์งธ, ์ฐฉ์ฉํ ์ฅ์น(glove, exoskeleton)์ ๋๋ค. ์ฌ๋ ์์ ์์ง์์ ๋ก๋ด ์์ ์์ ๋๋ก ์ง์ ๋งคํํ ์ ์์ด retargeting์ ๋ชจํธ์ฑ์ ์ค์ฌ์ค๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ ๋ค์ ๋ ๊ฐ๋๋ก ๋๋ฉ๋๋ค.
DexUMI๋ ๊ฐ๋ฒผ์ด ์ธ๊ณจ๊ฒฉ + ๋น์ ๊ธฐ๋ฐ ๋ณต์์ ์ถ๊ตฌํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ธ๊ณจ๊ฒฉ ํ์์ด ๋ก๋ด ์ ๋น์จ์ ๋ฐ๋ฅด๋ค ๋ณด๋ ์ฌ๋ ์ ํฌ๊ธฐ ๋ค์์ฑ์ ๋๊ฐํ๊ณ , ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ์์ ๋ชจ์์ด ์ค์ ๋ก๋ด ์๊ณผ ๋ฌ๋ผ ํ์ต ์ segmentation๊ณผ inpainting์ ๊ฑฐ์ณ์ผ ํฉ๋๋ค. DexOP๋ ๊ฐ์ฒด ๋งํค์ง๋ก ์ฌ๋ ์๊ณผ ๋ก๋ด ์ ์ด๋ํ์ ๊ฐํ๊ฒ ๋ฌถ์์ต๋๋ค. ์ ํ๋๋ ์ข์ง๋ง ํน์ ๋ก๋ด ์ ๊ธฐํ์ ๋ฐํ๋ฒ๋ ค ๋ค๋ฅธ ์์ ๋ชป ์๋๋ค.
DexEXO๋ ์ด ๋์ ์ค๊ฐ์ด ์๋๋ผ, ์ฌ์ค์ ์ง๊ตํ๋ ์์น์ ์๋ฆฌ๋ฅผ ์ก์ต๋๋ค. โ๊ธฐ๊ตฌํ์ ์ ๋ ฌ์ ๊ฐ์ ํ์ง ๋ง๊ณ , ์ด๊ธ๋จ์ ๋ฐ์๋ค์ด๋ ์์ ๋๋ฅผ ์๋์ ์ผ๋ก ๋จ๊ฒจ๋์โ๋ผ๋ ๋ฐ์์ด ํต์ฌ์ ๋๋ค.
ํต์ฌ ์์ด๋์ด: ๋ง์ถ์ง ๋ง๊ณ ํก์ํ๋ผ
์ฌ๋ ์์ ๊ธธ์ด๋ ๋น์จ๋ ๋ค๋ฆ ๋๋ค. ๊ฐ์ฒด ์ธ๊ณจ๊ฒฉ์ด ์ฌ๋ ์ ๊ด์ ์ถ๊ณผ ์ธ๊ณจ๊ฒฉ ๊ด์ ์ถ์ ์ผ์น์ํค๋ ค ๋ค๋ฉด, ๋๊ตฐ๊ฐ์๊ฒ ์ ๋ง๊ณ ๋๊ตฐ๊ฐ์๊ฒ ํต์ฆ์ ์ค๋๋ค. ์ฌ์ฉ์๋ณ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ๋์ ํ๋ฉด ๋ง์ถ ์๋ ์์ง๋ง ๋ฐ์ดํฐ ์์ง ํ์ฅ์ฑ์ด ์ฃฝ์ต๋๋ค. ๋งค๋ฒ ์ฅ๋น๋ฅผ ์ฌ๋๋ง๋ค ์กฐ์ ํ๋ ๋น์ฉ์ด ๋๋ฌด ํฝ๋๋ค.
DexEXO์ ์์ด๋์ด๋ ์ด ๋ฐ์์ ์ ํ์ ๋๋ค. ๊ธฐ๊ตฌํ์ ์ผ์น๋ฅผ ๊ฐ์ ํ์ง ์๊ณ , ์ฌ๋ ์๊ณผ ์ธ๊ณจ๊ฒฉ ์ฌ์ด์ ์๋๋ ์์ ๋(์ฌ์ ์์ ๋, residual DoF)๋ฅผ ๋จ๊ฒจ๋ก๋๋ค. ์ด ์์ ๋๊ฐ ์ฌ๋๋ง๋ค ๋ค๋ฅธ ํด๋ถํ์ ๊ตญ์์ ์ผ๋ก ํก์ํฉ๋๋ค. ํต์ฌ์ ๋์ ๋๋ค.
- ์๊ฐ๋ฝ์๋ ์คํ๋ง์ด ๋ค์ด๊ฐ ์ฌ๋ผ์ด๋(spring-loaded slider)๋ฅผ ๋ฌ์ ์๊ฐ๋ฝ ๊ธธ์ด ๋ณ๋์ ํก์ํฉ๋๋ค.
- ์์ง์๋ ๋ ๊ฐ์ ๋งํค์ง(distal + metacarpal)๋ก ๊ตฌ์ฑ๋ ํฌ์ฆ-ํ์ฉ(pose-tolerant) ์ปคํ๋ง์ ๋ฌ์ ์ธ๊ณจ๊ฒฉ ๋ณธ์ฒด๊ฐ ์๋ฐ๋ฅ์ ๋ํด ์์ ๋กญ๊ฒ ๋ ๋ค๋ ์ ์๊ฒ ํฉ๋๋ค.
์ฌ๊ธฐ์ ๋ํด ํ ๊ฐ์ง ์๋ฆฌํ ํธ๋ฆญ์ด ์์ต๋๋ค. Passive Hand, ์ฆ ์ฌ๋ ์์ ๋งค๋ค๋ โ๋ก๋ด ์ ํ์์ ๋๋ฏธโ์ ๋๋ค. ์ด passive hand๋ ์ค์ ๋ฐฐ์น ์ ์ฌ์ฉ๋ ๋ก๋ด ์(ROHand)๊ณผ ์๊ฐ์ ์ผ๋ก ๊ฑฐ์ ๋์ผํฉ๋๋ค. ์๋ชฉ์ ์ฅ์ฐฉ๋ ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ํ๊ฒฝ์ด ๋ฐ๋ชจ ์์ ์ถ๋ก ์์ ๋๊ฐ์์ง๋๋ค. ๊ทธ๋ฌ๋ฉด ์ ์ฑ ์ raw RGB๋ก๋ถํฐ ๊ณง์ฅ ํ์ตํด๋ ๋ฉ๋๋ค. Segmentation, masking, inpainting์ ๋ค ๊ฑด๋๋ฐ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํ๋์จ์ด ์ค๊ณ ๊น์ด ๋ค์ฌ๋ค๋ณด๊ธฐ
์์คํ ๊ฐ์
DexEXO๋ ์ธ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๋งํค์ง ๊ตฌ๋ ์ธ๊ณจ๊ฒฉ(linkage-driven wearable exoskeleton), (2) ์๋ ๋ฐ๋ชจ ํธ๋(passive demonstration hand), (3) ๋ฌด์ ๋์์ ์ํ ์จ๋ณด๋ ์ผ์ฑ/์ ๋ ฅ ๋ชจ๋์ ๋๋ค. Passive hand๋ 6 ์์ ๋์ OYMotion ROH-AP001 (ROHand) ๊ธฐํ๋ฅผ ๋ฐ๋ฆ ๋๋ค. ROHand๋ ์์ง์ 2์์ ๋(IP flexion/extension, TM abduction/adduction), ๋๋จธ์ง ๋ค ์๊ฐ๋ฝ์ ๊ฐ๊ฐ 1์์ ๋์ ๊ตด๊ณก(flexion)์ ๊ฐ์ง๋๋ค. ๊ทธ๋ฌ๋๊น ์ด 6 ์์ ๋์ ๋๋ค.
[Dorsal-mounted electronics module]
|
v
[Exoskeleton structure (linkage)]
|
+-- 4-finger parallel four-bar linkage -> [Passive finger]
| (parallel motion transmission)
|
+-- 2-link distal+metacarpal coupling -> [Passive thumb]
| (pose-tolerant)
|
v
[Wrist-mounted RealSense RGB + iPhone (AR pose)]
์ด ๊ตฌ์กฐ์ ๋ฌ๋ฏธ๋, ์ธ๊ณจ๊ฒฉ์ด ์ฌ๋ ์ ์์ โํ๊ฒ๊ฒโ ๋ ์๊ณ , ์ฌ๋ ์์ ์์ง์์ ๋งํค์ง๋ฅผ ํตํด passive hand๋ก ์ ๋ฌ๋๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์นด๋ฉ๋ผ๋ passive hand๋ฅผ ๋ด ๋๋ค. ์ฌ๋ ์์ ์นด๋ฉ๋ผ ์์ผ์ ๊ฑฐ์ ๋ค์ด์ค์ง ์๊ฑฐ๋, ๋ค์ด์๋ ์ธ๊ณจ๊ฒฉ ๋๋จธ์ ์์ด ๋ฌด์ํ ๋งํฉ๋๋ค.
์ฌ๋ผ์ด๋ ๊ธฐ๋ฐ ์๊ฐ๋ฝ ์ธํฐํ์ด์ค
๊ฐ ์๊ฐ๋ฝ์๋ ์คํ๋ง์ด ๋ฌ๋ฆฐ ์ ํ ์ฌ๋ผ์ด๋๊ฐ ์๊ณ , ๊ทธ ๋์ TPU(thermoplastic polyurethane)๋ก ๋ง๋ ์ปดํ๋ผ์ด์ธํธ ํ๊ฑฐ์ฝง(fingercot)์ด ๋ถ์ด ์์ต๋๋ค. ํ๊ฑฐ์ฝง์ ์๊ฐ๋ฝ ๋์ ๊ฐ์ธ๋ ์ผ์ข ์ ๋ถ๋๋ฌ์ด ๊ณจ๋ฌด ๊ฐ์ ๊ฒ์ ๋๋ค. ์ฌ๋ผ์ด๋๋ ์๊ฐ๋ฝ ๊ธธ์ด๊ฐ ์ฌ์ฉ์๋ง๋ค ๋ฌ๋ผ๋ ๊ฐ์ ๊ตด๊ณก ๋ณ์(curl displacement)๋ฅผ ๋ณด์ฅํ๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค. ํต์ฌ์ ์ฝ์ ๊น์ด(insertion depth)์ ๊ด์ ์ถ ์ ๋ ฌ(joint-axis alignment)์ ๋ถ๋ฆฌํ ๊ฒ์ ๋๋ค. ์๊ฐ๋ฝ์ด ๊ธธ๋ ์งง๋ , ์ฌ๋ผ์ด๋๊ฐ ๊ทธ ์ฐจ์ด๋ฅผ ๋นจ์๋ค์ ๋๋ค.
๋ ผ๋ฌธ์ ์ด ์ฌ๋ผ์ด๋์ ๊ธฐํ์ ํ๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. ์ค์ง(middle finger)๋ฅผ ๊ธฐ์ค์ผ๋ก, ๋ค์ ๋ถ๋ฑ์์ด ๋ง์กฑ๋์ด์ผ ํฉ๋๋ค.
L_{max} = d_{max} - d_{curl}, \quad MFL_{max} = L_{max} + \delta
H_{min} = \frac{L_{min}}{r}, \quad H_{max} = \frac{MFL_{max}}{r}
์ฌ๊ธฐ์ L_{min}์ TPU ๋ง๊ณผ ํ๊ฑฐ์ฝง ๊ฐ ํด์ ์ ์ต์ ๊ฑฐ๋ฆฌ, d_{max}๋ ์ฌ๋ผ์ด๋ ์ต๋ ์ด๋ ๊ฑฐ๋ฆฌ, d_{curl}์ ์์ ๊ตด๊ณก์ ํ์ํ ์ฌ๋ผ์ด๋ ์ฌ์ , \delta๋ TPU ๋ง์ด ์๊ฐ๋ฝ ์ฌ์ด ๋ง(webbing) ์์ ๋ ์์ ์ ์๋ ํ์ฉ ์คํ์ , r์ ์ค์ง-์ ๊ธธ์ด ๋น์จ(์ฝ 0.39~0.40)์ ๋๋ค.
์์์ ์ง๊ด์ ์ผ๋ก ํ์ด๋ณด๋ฉด ์ด๋ฐ ์ด์ผ๊ธฐ์ ๋๋ค. โ์ฌ๋ผ์ด๋๋ ์๊ฐ๋ฝ ๊ธธ์ด ๋ณ๋์ ํก์ํ์ง๋ง, ๊ทธ ํก์๋์๋ ํ๊ณ๊ฐ ์๋ค. ๊ทธ ํ๊ณ๋ ์ฌ๋ผ์ด๋์ ๋ฌผ๋ฆฌ์ ์ด๋ ๋ฒ์(d_{max})์์ ๊ตด๊ณก์ ํ์ํ ์ต์ ์ฌ์ (d_{curl})๋ฅผ ๋บ ๊ฒ์ด๋ค. ์๋ฐ๋ฅ ์์ชฝ์ ๋ง์ด ๋ ์์ด๋ ๋๋ ์(\delta)์ ๋ํ๋ฉด ์ฌ์ฉ ๊ฐ๋ฅํ ์๊ฐ๋ฝ ๊ธธ์ด๊ฐ ์ ํด์ง๊ณ , ์ธ์ฒด ๋น์จ(r)๋ก ๋๋๋ฉด ์ฌ์ฉ ๊ฐ๋ฅํ ์ ์ ์ฒด ๊ธธ์ด๊ฐ ๋์จ๋ค.โ
๋ ผ๋ฌธ์ด ์ ์ํ ์์น(L_{min}=56 mm, d_{max}=86 mm, d_{curl}=16 mm, \delta=17 mm, r=0.40)๋ฅผ ๋์ ํ๋ฉด H_{min}=140 mm, H_{max}=217 mm๊ฐ ๋์ต๋๋ค. ์ ๊ธธ์ด 140~217 mm ๋ฒ์๋ฅผ ์บ๋ฆฌ๋ธ๋ ์ด์ ์์ด ๋ค ์ปค๋ฒํ๋ค๋ ๋ป์ ๋๋ค. ์ฌ์ฉ์ ์ฐ๊ตฌ์ ์ฐธ์ฌํ 14๋ช (์ ๊ธธ์ด 165~195 mm)์ ๋ชจ๋ ์ด ๋ฒ์ ์์ ์์์ต๋๋ค.
์ด ๋จ์ํ ๋ถ์์ด ์์ฌํ๋ ๋ฐ๋ ํฝ๋๋ค. ์ ํฌ๊ธฐ ํธํ ๋ฒ์๋ฅผ ํ๋์จ์ด ์ค๊ณ ์์ ์์ ๋ถ๋ฑ์ ํ ์ค๋ก ํต์ ํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ ์ถ์ฑ ์ง๋ฌผ์ด๋ ๋จธ์ ๋ฌ๋์ผ๋ก ์ฌํ์ ๋ณด์ ํ๋ ์ ๊ทผ๊ณผ ๋ณธ์ง์ด ๋ค๋ฆ ๋๋ค.
ํฌ์ฆ-ํ์ฉ ์์ง ๋ฉ์ปค๋์ฆ: ๊ฐ์ฅ ์๋ฆฌํ ๋ถ๋ถ
์์ง๋ ์์์ ๊ฐ์ฅ ๊น๋ค๋ก์ด ์๊ฐ๋ฝ์ ๋๋ค. abduction, adduction, opposition์ ํตํด ๋ค๋ฅธ ์๊ฐ๋ฝ๊ณผ ๋ง์ฃผ ๋ณด๋ฉฐ in-hand manipulation์ ์ ๋ฐ ์ด์์ ๋ด๋นํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ๋๋ง๋ค ์์ง ๊ด์ ์์น๊ฐ ๋๋ฌด ๋ค๋ฆ ๋๋ค. ์ธ๊ณจ๊ฒฉ์ด ์ฌ๋ ์์ง ๊ด์ ์ถ๊ณผ ์ผ์นํ๋๋ก ๊ฐ์ฒด๋ก ๋ง๋ค๋ฉด ์ด๋ค ์ฌ๋์๊ฒ ํต์ฆ์ ์ฃผ๊ณ , ์ด๋ค ์ฌ๋์๊ฒ ์ด๋์ ์ ํํฉ๋๋ค.
DexEXO์ ํด๋ฒ์ ํฅ๋ฏธ๋กญ์ต๋๋ค. ๋ฐฉํฅ(orientation)์ ๊ฐ์ ํ์ง ์๊ณ ๊ฑฐ๋ฆฌ(distance)๋ง ๊ตฌ์ํฉ๋๋ค. ์ธ๊ณจ๊ฒฉ ์์ง์ passive ์์ง ์ฌ์ด์ distal link(๋ง๋จ ๋งํค์ง)์ metacarpal link(์ํ๋ฆฌ ๋งํค์ง) ๋ ๊ฐ๋ฅผ ๋ก๋๋ค. ๊ฐ ๋งํค์ง๋ ์ ๋์ swivel joint(์์ ํ์ ๊ด์ )๋ฅผ ๊ฐ์ง๋๋ค. ์ด ๊ตฌ์กฐ๋ link ๊ธธ์ด๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ๋ฉด์, ์ธ๊ณจ๊ฒฉ์ด ์๋ฐ๋ฅ์ ๋ํด ํ์ ํ๊ณ ํํ์ด๋ํ ์์ ๋ฅผ ์ค๋๋ค.
๋ ผ๋ฌธ์ ์ด๋ฅผ SE(3)์์ ํ์ํํฉ๋๋ค. Palm-base frame \{B\}์ ๋ํ ์ธ๊ณจ๊ฒฉ frame \{E\}์ ์์ธ๋ฅผ ๋ค์์ฒ๋ผ ๋ก๋๋ค.
{}^{B}T_{E} = \begin{bmatrix} {}^{B}R_{E} & {}^{B}p_{E} \\ 0 & 1 \end{bmatrix} \in SE(3)
Passive thumb์ ๊ตฌ์ฑ์ q_p = [\theta_2, \theta_4]^\top (IP angle, TM ab/ad angle), ๊ทธ๋ฆฌ๊ณ \theta_3 = f(\theta_2) (๊ธฐ๊ตฌ์ ์ผ๋ก ๊ฒฐํฉ)์ด๋ผ ๋๊ณ , ๋ ๋ถ์ฐฉ์ \{}^{B}r_d, {}^{B}r_m\}์ด passive thumb ์ด๋ํ์์ ๊ณ์ฐ๋๋ค๊ณ ํฉ์๋ค. ์ธ๊ณจ๊ฒฉ ์ชฝ ๋ถ์ฐฉ์ ์ frame \{E\}์์ ์์ ๋ฒกํฐ \{}^{E}\bar{r}_d, {}^{E}\bar{r}_m\}์ด๊ณ , ์ด๋ฅผ \{B\}๋ก ์ฎ๊ธฐ๋ฉด
{}^{B}r^E_i = {}^{B}R_E \, {}^{E}\bar{r}_i + {}^{B}p_E, \quad i \in \{d, m\}
๋งํค์ง ๋ ๊ฐ๊ฐ ๊ฐ์ํ๋ holonomic ์ ์ฝ์ ๋จ์ํ ๊ฑฐ๋ฆฌ ๋์ผ์ฑ์ ๋๋ค.
\|{}^{B}r^E_d - {}^{B}r_d(q_p)\| = L_d, \quad \|{}^{B}r^E_m - {}^{B}r_m(q_p)\| = L_m
ํต์ฌ์ ์ด ๋ ์์ด ๋ฌด์์ ํ์ง ์๋๋์ ์์ต๋๋ค. ๋ฐฉํฅ ์ผ์น(orientation alignment)๋ ๊ฐ์ํ์ง ์์ต๋๋ค. ๋ ๋ถ์ฐฉ์ ์ด ์ ํด์ง ๊ฑฐ๋ฆฌ๋งํผ ๋จ์ด์ ธ ์๊ธฐ๋ง ํ๋ฉด ๊ทธ๋ง์ ๋๋ค.
์ด์ ์์ ๋ ์ฐ์๋ฅผ ํด๋ด ์๋ค. {}^{B}T_E๋ 6์์ ๋์ ๋๋ค. ๊ฑฐ๋ฆฌ ์ ์ฝ์ ๋ ๊ฐ์ ์ค์นผ๋ผ holonomic ์ ์ฝ์ ๋๋ค. ๋ฐ๋ผ์ passive thumb ์์ธ q_p๋ฅผ ๊ณ ์ ํ ์ํ์์, ์ธ๊ณจ๊ฒฉ ์์ธ \{}^{B}T_E\}๋ ์ผ๋ฐ์ ์ผ๋ก 4์ฐจ์ self-motion manifold ์์์ ์์ ๋กญ๊ฒ ์์ง์ผ ์ ์์ต๋๋ค.
\text{Residual DoF} = 6 - 2 = 4
์ด 4์์ ๋๊ฐ ๊ณง ๋ ผ๋ฌธ์ด ๋งํ๋ โwiggle spaceโ์ ๋๋ค. ์ฌ์ฉ์๊ฐ ์์ง๋ฅผ ๊ฑฐ์ ๊ฐ์ ์์ธ๋ก ์ ์งํ ์ฑ ์ธ๊ณจ๊ฒฉ ๋ณธ์ฒด๋ฅผ ์๋ฐ๋ฅ ์์์ ์ด์ง ํ๋ค๊ฑฐ๋ ๋นํ์ด๋, passive thumb์ ๊ฐ์ ์์ธ๋ฅผ ์ ์งํฉ๋๋ค. ๋ค์ ๋งํด ์ฌ๋ ์์ง์ ์์ ํ๋ค๋ฆผ์ด๋ ์ฌ๋๋ง๋ค ๋ค๋ฅธ ์์ง ๋ฒ ์ด์ค ์์น๋ฅผ 4์ฐจ์ self-motion manifold๊ฐ ๊ทธ๋๋ก ํก์ํฉ๋๋ค.
์ด๊ฑด ๋จ์ํ ์ปดํ๋ผ์ด์ธ์ค๊ฐ ์๋๋๋ค. ์์๊ธฐํ์ ์ผ๋ก โํ์ํ ์ ๋ณด๋ง ๊ฐ์ ํ๊ณ ๋๋จธ์ง๋ ํ์ด์คโ ์ค๊ณ์ ๋๋ค. ๋ก๋ด๊ณตํ์์ ํํ ๋ณด๋ โconstrain only what you mustโ ์์น์ ๊น๋ํ ์ฌ๋ก์ ๋๋ค.
Passive Hand: ์นด๋ฉ๋ผ๊ฐ ๊ฑฐ์ง๋ง์ ํ์ง ์๊ฒ
์๋ ํธ๋๋ ROHand์ ์ธํ์ ๊ทธ๋๋ก ๋ฐ๋ผ ๋ง๋ ๋ถํ์ ๋๋ค. ์๋ชฉ์ ์ฅ์ฐฉ๋ RealSense ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ์์ ๋ฐ๋ชจ ์์๋ passive hand์ด๊ณ , ์ถ๋ก ์์๋ ์ค์ ROHand์ ๋๋ค. ๋์ด ์๊ฐ์ ์ผ๋ก ๊ฑฐ์ ๋์ผํ๊ธฐ ๋๋ฌธ์ embodiment gap์ด ์์ ๋ ๋ฒจ์์ ์์ค๋ฉ๋๋ค.
DexUMI๋ ์ด ๋ฌธ์ ๋ฅผ ํ์ต ๋จ๊ณ์์ ํ๋ ค๊ณ ํ์ต๋๋ค. Segmentation์ผ๋ก ์ธ๊ณจ๊ฒฉ ๋ถ๋ถ์ ๋ผ์ด๋ด๊ณ inpainting์ผ๋ก ๊ทธ ์๋ฆฌ์ ๋ก๋ด ์์ ํฉ์ฑํด ๋ฃ์์ต๋๋ค. DexEXO๋ ๊ทธ ๋ชจ๋ ํ์ฒ๋ฆฌ๋ฅผ ํ๋์จ์ด๋ก ํด๊ฒฐํฉ๋๋ค. ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ๊ทธ๋ฆผ์ด ์ฒ์๋ถํฐ ๋ง์ผ๋๊น์.
์ด ์ฐจ์ด๋ ํ๋ฉด์ ์ผ๋ก๋ ๋จ์ํ์ง๋ง, ์ ์ฑ ํ์ต ํ์ดํ๋ผ์ธ ์ ์ฒด์ ์ํฅ์ ์ค๋๋ค. Segmentation ํ์ง์ ์์กดํ์ง ์๊ณ , inpainting์ ์๊ฐ์ ์ธ๊ณต๋ฌผ(visual artifact)๋ ๋ค์ด๊ฐ์ง ์์ผ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ๊ฐ sim-to-real ๊ฐญ์ด ์๋๋ผ real-to-real ๋์น์ฑ์ ๊ฐ์ง๋๋ค.
๋ฐ์ดํฐ ์์ง๊ณผ ์ ์ฑ ํ์ต ํ์ดํ๋ผ์ธ
๋ฐ์ดํฐ ํ๋ฆ์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
[1 kHz] 6 analog encoders (finger joints) -- onboard MCU --
\
+--> Host PC
/ |
[60 Hz] iPhone AR (6-DoF EE pose via TeleDex) -----------/ |
|
[30 Hz] Intel RealSense RGB (wrist-mounted, 640x480) --------------+
|
v
Time-synchronized via video timestamps
|
v
[DINOv2 ViT-S/14 encoder] + (optional 6D finger state)
|
v
[Diffusion Policy backbone]
|
v
12-D action (6 EE delta + 6 finger commands)
horizon=16, execute first 8, receding horizon
์๊ฐ๋ฝ ์์น๋ ์ธ๊ณจ๊ฒฉ ์์ ๋ฐํ 6๊ฐ์ ์๋ ๋ก๊ทธ ์์ฝ๋๋ก 1 kHz์์ ์ธก์ ๋ฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ธ๊ณจ๊ฒฉ ์์ฝ๋ ๊ฐ์ด ๊ณง๋ฐ๋ก ๋ก๋ด ์ actuator ๋ช ๋ น์ด ๋์ง ์์ต๋๋ค. ROHand์ actuation์ ๋น์ ํ์ด๋ผ์, ๊ฐ์ ๋ฌผ๋ฆฌ์ ์์ธ๋ฅผ ์ธ๊ณจ๊ฒฉ๊ณผ ROHand์์ ๊ฐ๊ฐ samplingํ waypoint๋ค๋ก piecewise linear interpolation์ ๋ง๋ค์ด ๋งคํํฉ๋๋ค. ์ด๊ฑด ํํ ๋ณด๋ retargeting์ ํ ํํ์ ๋๋ค.
End-effector 6์์ ๋ ์์ธ๋ iPhone์ ARKit ๊ธฐ๋ฐ ์ถ์ (TeleDex ์ฑ)์ผ๋ก ์ก์ต๋๋ค. iPhone์ ์๋ชฉ์ ๋งค๋จ๋ค๋ ๋ฐ์์ ์๋ฆฌํฉ๋๋ค. ๋น์ผ ๋ชจ์ ์บก์ณ ์์คํ ์์ด๋ in-the-wild ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ ์๊ฒ ํด์ค๋๋ค.
์๊ฐ ๊ด์ธก์ ์๋ชฉ ์ฅ์ฐฉ RealSense RGB(640ร480, 30 Hz)์ ๋๋ค. ํ์ต ์ 240ร240์ผ๋ก ๋ฆฌ์ฌ์ด์ฆํ๊ณ 224ร224๋ก random crop, color jitter๋ฅผ ๊ฐํฉ๋๋ค. ์ธ์ฝ๋๋ DINOv2 ViT-S/14์ ๋๋ค. Self-supervised pretrain๋ ๊ฐ๋ ฅํ ์๊ฐ ํน์ง์ ๊ทธ๋๋ก ๊ฐ์ ธ์ต๋๋ค. ๋ณด์กฐ ์ ๋ ฅ์ผ๋ก 6D ์๊ฐ๋ฝ ์ํ๋ฅผ ์ถ๊ฐํ ์๋ ์์ต๋๋ค(์์ ๋์ ์์ ๋์ ์ฐจ์ด๋ V-C์์ ablation์ผ๋ก ๊ฒํ ํฉ๋๋ค).
์ ์ฑ ์ diffusion policy(Chi et al., RSS 2023)์ ๋๋ค. 16-step action์ ํ ๋ฒ์ ์์ธกํ๊ณ ์ฒซ 8๊ฐ๋ฅผ receding horizon์ผ๋ก ์คํํฉ๋๋ค. Action์ horizon ์์ ์์ ์ ๋ํ ์๋๊ฐ(T_k - T_0)์ผ๋ก ํํํฉ๋๋ค. 12์ฐจ์ action์ EE 6์์ ๋์ finger 6์์ ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
์ฌ๊ธฐ์ ํ ๊ฐ์ง ์ฃผ๋ชฉํ ์ ์ด ์์ต๋๋ค. DexEXO ํ์ดํ๋ผ์ธ์๋ segmentation, masking, inpainting์ด ์์ต๋๋ค. Raw RGB๊ฐ ๊ทธ๋๋ก ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋๋ค. ์ด๊ฒ ๊ฐ๋ฅํ ์ด์ ๋ hardware-level visual alignment ๋๋ถ์ ๋๋ค. ํ์ต ํ์ดํ๋ผ์ธ์ด ๋จ์ํด์ง ๋งํผ, ์๊ฐ ํ์ฒ๋ฆฌ์์ ๋์ ๋๋ ์ค์ฐจ๋ ์ฌ๋ผ์ง๋๋ค.
์คํ๊ณผ ๊ฒฐ๊ณผ
Wiggle Space ์ธก์ : ์ด๋ก ์ด ๋ง๋๊ฐ?
์ด๋ก ์ ์ผ๋ก 4์ฐจ์ self-motion manifold๊ฐ ์กด์ฌํ๋ค๊ณ ํ๋๋ฐ, ์ค์ ๋ก๋ ์ด๋จ๊น์? ๋ ผ๋ฌธ์ ๋ชจ์ ์บก์ณ๋ก ์ค์ธกํฉ๋๋ค. Pinch ์์ธ๋ฅผ ์ ์งํ ์ํ์์, base์ ์ธ๊ณจ๊ฒฉ ์์ง ๋งํค์ง์ reflective marker๋ฅผ ๋ถ์ด๊ณ 25์ด ๋์ ์ฌ์ฉ์๊ฐ ์์ฐ์ค๋ฝ๊ฒ ์์ ์กฐ์ ์ ํ๋๋ก ํฉ๋๋ค. ์ธ๊ณจ๊ฒฉ์ด base์ ๋ํด ๊ทธ๋ฆฌ๋ ์ ๊ตฌ๋ฆ(point cloud)์ด ๋ฐ๋ก wiggle space์ ๋๋ค.
์ด ์ ๊ตฌ๋ฆ์ ๋ถํฌ๋ฅผ covariance๋ก ์์ฝํฉ๋๋ค.
\Sigma = \frac{1}{N-1} \sum_{i=1}^{N} (p_i - \bar{p})(p_i - \bar{p})^\top
\Sigma์ ๊ณ ์ ๊ฐ \lambda_i๋ก๋ถํฐ ํ์์ฒด ๋ฐ์ถ ๊ธธ์ด a_i = k\sqrt{\lambda_i}๋ฅผ ๊ตฌํฉ๋๋ค(k=2๋ก 95% ์ ๋ขฐ์์ญ). ์ธก์ ๊ฒฐ๊ณผ๋ 66.12 mm, 49.19 mm, 21.14 mm์ ๋ฐ์ถ์ ๊ฐ์ง๋ ํ์์ฒด์์ต๋๋ค.
์ด ์ซ์๊ฐ ์์ฌํ๋ ๋ฐ๋ ๋ถ๋ช ํฉ๋๋ค. ์ธ๊ณจ๊ฒฉ์ด ์๋ฐ๋ฅ์ ๋ํด ๊ฐ์ฅ ๊ธด ์ถ์ผ๋ก 6 cm ์ด์ ์์ ๋กญ๊ฒ ์์ง์ฌ๋ passive thumb ์์ธ๋ ๊ฑฐ์ ๊ทธ๋๋ก ์ ์ง๋๋ค๋ ๋ป์ ๋๋ค. ์ฌ๋ ์์ง ๊ธธ์ด๊ฐ 6 cm ์ ๋๋ผ๋ ์ ์ ์๊ฐํ๋ฉด, ์ฌ๋๋ง๋ค ์์ง ์์น๊ฐ ํ ์๊ฐ๋ฝ ๊ธธ์ด๋งํผ ๋ค๋ฅด๋๋ผ๋ ๊ฐ์ ์ธ๊ณจ๊ฒฉ์ด ์๋ํ๋ค๋ ์๋ฏธ์ ๋๋ค. ์บ๋ฆฌ๋ธ๋ ์ด์ ์์ด cross-user ๋ฐ๋ชจ ์์ง์ด ๊ฐ๋ฅํ๋ค๋ ์ฃผ์ฅ์ ์ค์ฆ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
์ฌ์ฉ์ ์ฐ๊ตฌ: ๊ฐ์์ง์ด ๋ณด์ฌ์ค ์ง์ค
14๋ช (7๋ช ๋จ, 7๋ช ์ฌ, 18~27์ธ, ์ ๊ธธ์ด 165~195 mm)์ด ์ธ ๊ฐ์ง ์ฅ์น๋ก ๋ค ๊ฐ์ง ์์ ์ ์ํํ์ต๋๋ค. ์ฅ์น๋ DexEXO, DexUMI, ๊ทธ๋ฆฌ๊ณ ๋น์ ๊ธฐ๋ฐ ์๊ฒฉ์กฐ์(TeleDex)์ ๋๋ค. ์์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๊ฐ์์ง(Scissors cutting): ๊ฐ์๋ฅผ ๋ค์ด ํ ์ดํ๋ฅผ ์๋ฅด๊ธฐ
- ํ์ด์ง ๋๊ธฐ๊ธฐ(Page flipping): ์๊ฐ๋ฝ ๋์ผ๋ก ๋ ธํธ๋ถ ํ์ด์ง ๋๊ธฐ๊ธฐ
- ์ปต ์๊ธฐ(Cup stacking): ์ปต 3๊ฐ๋ฅผ ์๋ก ํฅํ๊ฒ ์๊ธฐ
- ํผ์๋ ธ ์ฐ์ฃผ(Piano playing): 4๊ฐ ์๊ฐ๋ฝ์ผ๋ก 16๊ฐ ์ ์ฐ์ฃผ
ํ๋ก ์ ๋ฆฌํ ๊ฒฐ๊ณผ(120์ด ์ ํ, ํ๊ท ยฑ SEM):
| ๋ฐฉ๋ฒ | ๊ฐ์์ง ์ฑ๊ณต๋ฅ | ๊ฐ์์ง ์๊ฐ(s) | ํ์ด์ง ์ฑ๊ณต๋ฅ | ํ์ด์ง ์๊ฐ(s) | ์ปต์๊ธฐ ์ฑ๊ณต๋ฅ | ์ปต์๊ธฐ ์๊ฐ(s) | ํผ์๋ ธ ์ฑ๊ณต๋ฅ | ํผ์๋ ธ ์๊ฐ(s) |
|---|---|---|---|---|---|---|---|---|
| DexEXO | 0.79 ยฑ 0.10 | 11.7 ยฑ 1.4 | 0.88 ยฑ 0.03 | 5.4 ยฑ 0.6 | 0.82 ยฑ 0.07 | 12.0 ยฑ 1.1 | 0.96 ยฑ 0.02 | 21.6 ยฑ 1.8 |
| DexUMI | 0.00 ยฑ 0.00 | โ | 0.86 ยฑ 0.04 | 4.7 ยฑ 0.7 | 0.80 ยฑ 0.07 | 8.9 ยฑ 1.0 | 0.62 ยฑ 0.13 | 25.9 ยฑ 2.5 |
| Teleoperation | 0.00 ยฑ 0.00 | โ | 0.51 ยฑ 0.06 | 18.0 ยฑ 2.1 | 0.33 ยฑ 0.09 | 68.6 ยฑ 13.1 | 0.60 ยฑ 0.09 | 97.4 ยฑ 7.8 |
์ด ํ์์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ํ์ ๊ฐ์์ง์ ๋๋ค. DexEXO๋ง ์ฑ๊ณตํฉ๋๋ค. DexUMI๋ ์ธ๊ณจ๊ฒฉ์ด robot hand ํ์์๋ ์๋ ์ธ๋ถ ๊ธฐํ๋ฅผ ์ถ๊ฐํด์ ๊ฐ์ ์์ก์ด ๊ตฌ๋ฉ์ ์๊ฐ๋ฝ์ด ์ ๋ค์ด๊ฐ๋ค๊ณ ํฉ๋๋ค. ์๊ฒฉ์กฐ์์ ์ ๋ฐ๋, ๋ฐ์์ฑ, ํ ํผ๋๋ฐฑ ๋ถ์กฑ์ผ๋ก ์คํจํ์ต๋๋ค. ์ด ํ ์ค์ด ๋ณด์ฌ์ฃผ๋ ๋ฐ๊ฐ ํฝ๋๋ค. ์ธ๊ณจ๊ฒฉ ํ์์ด ๋ก๋ด ์ ํ์๊ณผ ๋ค๋ฅด๋ฉด, ์ฌ๋์ด ๋๊ตฌ๋ฅผ ๋ค๋ฃจ๋ ๋ฅ๋ ฅ ์์ฒด๊ฐ ์์๋ฉ๋๋ค. ๋ฐ์ดํฐ fidelity ์ด์ ์ ๋ฌธ์ ์ ๋๋ค.
ํ์ด์ง ๋๊ธฐ๊ธฐ์ ์ปต ์๊ธฐ์์๋ DexUMI๊ฐ ์๊ฐ์ ๋ ๋น ๋ฆ ๋๋ค(๊ฐ๊ฐ 13.0%, 25.8%). ๊ทธ๋ฌ๋ ์ฑ๊ณต๋ฅ ์ DexEXO๊ฐ ์ฝ๊ฐ ๋์ต๋๋ค. ํธ๋ ์ด๋์คํ๊ฐ ์๋ ์ ์ ๋๋ค.
ํผ์๋ ธ ์ฐ์ฃผ์์๋ ์ฐจ์ด๊ฐ ํฝ๋๋ค. DexEXO 0.82(๋๋ ํ์ ๋ค๋ฅธ ์ 0.96 โ ์์ ๋ณํ ์ฐจ์ด๋ก ์ถ์ ), DexUMI 0.33. ์๊ฐ๋ฝ ๋ ๋ฆฝ์ฑ(finger independence)์ด ์ค์ํ ์์ ์์ ์ธ๊ณจ๊ฒฉ ์ค๊ณ ์ฒ ํ์ด ๊ฒฐ์ ์ ์ ๋๋ค. ์ฃผ๊ด ํ๊ฐ์์๋ ์๊ฐ๋ฝ ๋ ๋ฆฝ์ฑ์์ p \ll 0.01๋ก DexEXO๊ฐ ์ฐ์ธํ์ต๋๋ค. ๋ฌผ๋ฆฌ์ ํธ์ํจ(p = 0.0127), ์ข์ ๊ฐ ๊ฐ์(p = 0.0219)์์๋ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ๋ฌ์ต๋๋ค.
์๊ฒฉ์กฐ์์ด ๋ชจ๋ ์์ ์์ ์ธ๊ณจ๊ฒฉ ๋ ๋ฐฉ์์ ํฌ๊ฒ ๋ชป ๋ฏธ์น๋ค๋ ์ ๋ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์๊ธฐ์ ์์ง์์ ๋น์ ๊ธฐ๋ฐ ์๊ฒฉ์กฐ์์ด ์ฌ์ค์ baseline ์ดํ์ ๋๊ตฌ์์ ๋ค์ ํ ๋ฒ ํ์ธํ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
์ ์ฑ ํ๊ฐ: Raw RGB๋ง์ผ๋ก๋ ์ถฉ๋ถํ๊ฐ
๋ ผ๋ฌธ์ block pick-and-place, egg carton ์ ๋ฆฌ, bottle ์กฐ์ ์์ ์ ๋ํด diffusion policy๋ฅผ ํ์ตํ๊ณ roll-out์ ๋ณด์ฌ์ค๋๋ค(Figure 7). ํต์ฌ ์ฃผ์ฅ์ embodiment-aligned RGB๋ง์ผ๋ก๋(์ฆ, segmentation/inpainting ์์ด๋) ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ด ๋์จ๋ค๋ ๊ฒ์ ๋๋ค. ํ์ต ํ์ดํ๋ผ์ธ์ด ํจ์ฌ ๋จ์ํด์ง๋ฉด์ task performance๋ ์ ์ง ๋๋ ํฅ์๋ฉ๋๋ค.
Ablation์์๋ ์๊ฐ ์ ๋ ฅ ๋จ๋ vs ์๊ฐ + ์๊ฐ๋ฝ ์ํ(state proprioception)์ ๋น๊ต, action ํํ(์ ๋ vs ์๋) ๋น๊ต ๋ฑ์ ์ดํด๋ด ๋๋ค. ์์ธํ ์์น๋ ๋ ผ๋ฌธ V-C ์ ์ ํ๋ก ๋์ค๋๋ฐ, ํต์ฌ ๋ฉ์์ง๋ ์ผ๊ด๋ฉ๋๋ค. ํ๋์จ์ด๊ฐ ์๊ฐ ๋๋ฉ์ธ์ ์ผ์น์ํค๋ฉด, ์๊ณ ๋ฆฌ์ฆ ์ธก์์ ํด์ผ ํ ์ผ์ด ์ค์ด๋ ๋ค๋ ๊ฒ์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
์ฒซ์งธ, โ๋ง์ถ์ง ๋ง๊ณ ํก์ํ๋ผโ๋ ์ค๊ณ ์ฒ ํ์ ๋ช ๋ฃ์ฑ์ ๋๋ค. ๊ธฐ๊ตฌํ์ ์ ๋ ฌ์ ์ค์ด๊ณ ์์ ๋๋ฅผ ์ผ๋ถ๋ฌ ๋จ๊ธฐ๋ ๋ฐ์์ ์ง๊ด์ ๋ฐํ์ง๋ง, ์ฌ์ฉ์ ๋ค์์ฑ์ ๋ฐ์๋ผ ์ ์๋ ๊ฑฐ์ ์ ์ผํ ๊ธธ์ ๋๋ค. Holonomic ์ ์ฝ ๋ ๊ฐ๋ก 4์ฐจ์ self-motion manifold๋ฅผ ๋ง๋ค๊ณ ์ด๋ฅผ ์ ๋์ ์ผ๋ก ์ธก์ ํด์ ๋ณด์ฌ์ค ์ ์ ๊น๋ํฉ๋๋ค.
๋์งธ, hardware-level visual alignment๋ฅผ ํตํ ํ์ต ํ์ดํ๋ผ์ธ ๋จ์ํ์ ๋๋ค. Passive hand ํ๋๋ก segmentation, masking, inpainting์ ๋ชจ๋ ์ ๊ฑฐํฉ๋๋ค. ์ด๊ฑด ํ๋ฉด์ ์ผ๋ก โ๋ณด์ ์ฉ ๋ถํ ํ๋ ์ถ๊ฐโ๋ก ๋ณด์ด์ง๋ง, ์ ์ฑ ํ์ต์ ์๊ฐ ๋๋ฉ์ธ ์ ๋ขฐ๋ ์ธก๋ฉด์์ ํฐ ์ฐจ์ด์ ๋๋ค.
์ ์งธ, ๊ฐ์์ง ์์ ์ด ๋ณด์ฌ์ค differentiator์ ๋๋ค. ์ธ๊ณจ๊ฒฉ ํ์์ด ๋ก๋ด ์ ํ์๊ณผ ๋ค๋ฅด๋ฉด ์ฌ๋์ด ๋๊ตฌ๋ฅผ ์ก๋ ์ผ์กฐ์ฐจ ๋ชป ํ๋ค๋ ์ ์ ๋ค๋ฅธ ๋ ผ๋ฌธ์์ ๊ฑฐ์ ์ ๋ค๋ฃจ๋ ์ธก๋ฉด์ ๋๋ค. ์ด๊ฑด wearable ์ธ๊ณจ๊ฒฉ ํ๊ฐ์์ ์๋ก์ด ๊ธฐ์ค์ด ๋ ๋งํฉ๋๋ค.
๋ท์งธ, ๋ถ์์ ๋จ์์ฑ๊ณผ ๊ฒ์ฆ์ ์ง์ ์ฑ์ ๋๋ค. ์ ํฌ๊ธฐ ํธํ ๋ฒ์๋ฅผ ๋ถ๋ฑ์ ๋ ์ค๋ก ๋์ถํ๊ณ 14๋ช ๋ชจ๋ ๊ทธ ๋ฒ์ ์์ ์์์ ๋ณด์์ต๋๋ค. Wiggle space๋ฅผ motion capture๋ก ์ค์ธกํ๊ณ covariance ellipsoid๋ก ์์ฝํ์ต๋๋ค. ๋จ์ํ์ง๋ง ๊ฒฐ์ ์ ์ธ ์ฆ๊ฑฐ ์ ๊ณต์ ๋๋ค.
๋ค์ฏ์งธ, 14๋ช ์ฌ์ฉ์ ์ฐ๊ตฌ์ ํญ๊ณผ ๋น๊ต baseline์ ์ ์ ์ฑ์ ๋๋ค. DexUMI, teleoperation์ ๊ฐ์ ์์ ์์ ์ง์ ๋น๊ตํ ์ , NASA-TLX ๊ธฐ๋ฐ ์ฃผ๊ด ํ๊ฐ๊น์ง ํฌํจํ ์ ์ด ์ ๋ขฐ๋๋ฅผ ๋์ ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
์ฒซ์งธ, ROHand 6์์ ๋๋ผ๋ ์์ ํ๊ฒ์ ์ข ์์ ์ ๋๋ค. Allegro Hand(16์์ ๋)๋ LEAP Hand(16์์ ๋)์ฒ๋ผ ์์ ๋๊ฐ ๋ ๋ง์ ์์์ ๊ฐ์ ์ค๊ณ ์ฒ ํ์ด ํตํ ์ง๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ์์ ๋๊ฐ ๋์ด๋๋ฉด abduction-adduction(AA) ์ ์ด๊ฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ํ์ํ๋ฐ, ๋ณธ ์ค๊ณ๋ calibration-free๋ฅผ ์ํด AA joint๋ฅผ ์๋์ ์ผ๋ก ๋บ์ต๋๋ค. ํ์ ์์ (WHED ๋ผ์ธ์ , DEX-Mouse ๋ฑ ๋์ผ ๊ทธ๋ฃน/๊ด๋ จ ๊ทธ๋ฃน ์์ )์์ flexure ์ผ์๋ก lateral motion์ ์ถ๊ฐํ๊ฒ ๋ค๊ณ ์ธ๊ธ๋์ง๋ง, DexEXO ์์ฒด๋ AA ๋ถ์ฌ๋ผ๋ ํํ๋ ฅ ์์ค์ ์๊ณ ์์ต๋๋ค.
๋์งธ, ์์ ์์ (bimanual)์ด๋ ๋๊ตฌ๋ฅผ ๋ค๊ณ ํ๋ ์ ๋ฐ ์์ ์ ํ๊ฐ๊ฐ ์ ํ์ ์ ๋๋ค. ๊ฐ์์ง์ด ํต์ฌ ์ฌ๋ก์ง๋ง, ์์ ํ์ ์ด ํ์ํ ์์ (์: ๋ณ๋๊ป ์ด๊ธฐ๋ฅผ ์์์ผ๋ก)์ด๋ in-hand re-orientation์ฒ๋ผ ์ง์ ํ in-hand dexterity๊ฐ ์๊ตฌ๋๋ ์์ ์ ์ ๋ ํ๊ฐ๋ ๋ถ์กฑํฉ๋๋ค.
์ ์งธ, ์ด๊ฐ ๊ฐ๊ฐ์ด ๋น ์ ธ ์์ต๋๋ค. Diffusion policy๊ฐ raw RGB๋ก ํ์ต ๊ฐ๋ฅํ๋ค๋ ์ฃผ์ฅ์ ๊ฐ๋ ฅํ์ง๋ง, ์ ์ด์ด ํ๋ถํ ์์ ์์๋ ์๊ฐ๋ง์ผ๋ก ํ๊ณ๊ฐ ์์ต๋๋ค. MILE(fingertip visuotactile sensing ํตํฉ)์ด๋ PolyTouch(tactile-diffusion policy) ๊ฐ์ ๋์๊ธฐ ์์ ๊ณผ ๋น๊ตํ๋ฉด tactile ๋ถ์ฌ๋ ๋ช ๋ฐฑํ ์ฝ์ ์ ๋๋ค. DIGIT/GelSight ๊ฐ์ vision-based tactile sensor๋ฅผ passive hand ์๊ฐ๋ฝ ๋์ ํตํฉํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๋ก ๋ณด์ ๋๋ค.
๋ท์งธ, ์๋ชฉ ์ฅ์ฐฉ RGB ๋จ์ผ ์์ ์์กด์ฑ์ ๋๋ค. Wrist camera ์์ ์ ๊ฐ๋ฆผ๊ณผ ์์ผ ์ข์์ ๋ฌธ์ ๊ฐ ์๊ณ , third-person ์์ ์ด๋ multi-view fusion์ด ํ์ํ ์์ ์๋ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. DexCap์ด mocap ๊ธ๋ฌ๋ธ์ third-person view๋ฅผ ๊ฒฐํฉํ ๊ฒ์ ๋ ์ฌ๋ฆฌ๋ฉด ๋น๊ต๋ฉ๋๋ค.
๋ค์ฏ์งธ, โcalibration-freeโ์ ํ๊ณ. ์ ๊ธธ์ด 140~217 mm ๋ฒ์๋ ๊ด๋ฒ์ํ์ง๋ง, ์ ํญ์ด๋ ๋๊ป, ์๋ฐ๋ฅ-์๊ฐ๋ฝ ๋น์จ์ ๋ณ๋์ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ์ง ์์ต๋๋ค. ๋ ์ฌ์ฉ์๊ฐ ๋งค๋ฒ ๋๊ฐ์ด ์ฅ์ฐฉํ ์ ์์์ง(๋ฐ๋ณต์ฑ)๋ 14๋ช ์ฐ๊ตฌ๋ก๋ ์์ ํ ๊ฒ์ฆํ๊ธฐ ์ด๋ ต์ต๋๋ค.
์ฌ์ฏ์งธ, end-effector pose์ iPhone AR ์์กด์ ๋๋ค. ARKit์ ์ ํ๋์ drift๋ ์ค๋ด ํ๊ฒฝ์์ ์ถฉ๋ถํ์ง๋ง long-horizon ์์ ์ด๋ metallic/reflective ํ๊ฒฝ์์๋ ๋ฌธ์ ๊ฐ ๋ ์ ์์ต๋๋ค. ์ด๊ฑด in-the-wild ๋ฐ์ดํฐ ์์ง์ ๋ช ์์ ์ฝ์ ์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
flowchart LR
subgraph ์๋ฎฌ๋ ์ด์
๋น๋์ค
A1[Real2Render2Real]
A2[Hand-object pretrain]
end
subgraph ์๊ฒฉ์กฐ์
B1[DexPilot]
B2[OmniH2O]
B3[GELLO]
B4[Mobile ALOHA]
end
subgraph ๊ธ๋ฌ๋ธ ๋น์
C1[DexCap]
C2[Doglove]
C3[TeleDex]
end
subgraph ์ธ๊ณจ๊ฒฉ
D1[DexUMI: ์๊ฐ ์ ๋ ฌ ํ์ฒ๋ฆฌ]
D2[DexOP: ๊ฐ์ฒด ๋งํค์ง]
D3[MILE: ์ด๊ฐ ํตํฉ]
D4[Tilde: delta hand]
D5[WHED: ์ด์ ์์
]
E[DexEXO: ํฌ์ฆ ํ์ฉ + Passive Hand]
end
D1 --> E
D2 --> E
D5 --> E
DexUMI์ ๋น๊ตํ๋ฉด, DexEXO๋ visual gap์ algorithm์ด ์๋๋ผ hardware๋ก ํด๊ฒฐํฉ๋๋ค. DexUMI์ segmentation-inpainting ํ์ดํ๋ผ์ธ์ visual artifact๋ boundary ์ค๋ฅ๊ฐ ๋์ ๋๊ธฐ ์ฝ๊ณ , ๋ค์ํ ์กฐ๋ช /๋ฐฐ๊ฒฝ์์ ๋๋ฉ์ธ ์ผ๋ฐํ๊ฐ ์ฝ์ ์ด ๋ฉ๋๋ค. DexEXO๋ ์ด ๋ฌธ์ ๋ฅผ ์์ฒ์ ์ผ๋ก ํํผํฉ๋๋ค.
DexOP์ ๋น๊ตํ๋ฉด, DexEXO๋ ํ ๋ฐ ์๋ณดํฉ๋๋ค. DexOP๋ ๊ฐ์ฒด ๋งํค์ง๋ก ์ฌ๋๊ณผ ๋ก๋ด ์ ์ด๋ํ์ 1:1๋ก ๋ฌถ์ด motion fidelity๋ฅผ ์ต๋ํํฉ๋๋ค. ๋์ ํน์ ๋ก๋ด ์์ ๋ฐํ๋ฒ๋ฆฝ๋๋ค. DexEXO๋ motion fidelity๋ฅผ ์ฝ๊ฐ ์๋ณด(self-motion manifold๋ฅผ ์ธ์ )ํ๊ณ , ๊ทธ ๋๊ฐ๋ก cross-user ํ์ฅ์ฑ๊ณผ ์ธ์ฒด๊ณตํ์ ํธ์ํจ์ ์ป์ต๋๋ค.
MILE๋ ์ง๊ตํ๋ ๋ฐฉํฅ์ ๋๋ค. MILE๋ fingertip visuotactile sensing์ ์ธ๊ณจ๊ฒฉ ์๋์ ํตํฉํด ์ ์ด ์ ๋ณด๋ฅผ ํ๋ถํ๊ฒ ์บก์ณํฉ๋๋ค. DexEXO๋ ์๊ฐ ์ ๋ ฌ์ ์ฐ์ ํ์ง๋ง ์ด๊ฐ์ ๋ค๋ฃจ์ง ์์ต๋๋ค. ๋ ์ ๊ทผ์ด ํตํฉ๋๋ฉด(์: passive hand ์๋์ GelSight ๋ฏธ๋ ์ผ์) ๋งค์ฐ ๊ฐ๋ ฅํ ์์คํ ์ด ๋ ๊ฒ์ ๋๋ค.
๊ฐ์ UCLA ๊ทธ๋ฃน์ WHED(arXiv 2602.17908, 2026๋ 2์)๋ DexEXO์ ์ง์ ์ ์ ์ ์ผ๋ก ๋ณด์ ๋๋ค. WHED๋ wearability-first + pose-tolerant thumb์ ๊ฐ์กฐํ์ง๋ง, passive hand๋ฅผ ํตํ visual alignment๋ DexEXO์์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋์ ๋ ์ฐจ๋ณ์ ์ ๋๋ค.
UMI(Universal Manipulation Interface)์์ ๋น๊ต๋ ํฅ๋ฏธ๋กญ์ต๋๋ค. UMI๋ parallel-jaw ๊ทธ๋์คํผ์ฉ hand-held ์ธํฐํ์ด์ค๋ก ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์ต๋๋ค. DexEXO๋ ๊ทธ ์ ์ (in-the-wild, portable, embodiment-aligned)์ multi-finger ์์ญ์ผ๋ก ํ์ฅํ๋ ค๋ ์๋์ ๋๋ค.
๋ก๋ด๊ณตํ์์๊ฒ ์ฃผ๋ ํต์ฐฐ
๋ค๊ด์ ์ ํ๋ซํผ์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์์ ์ ์ฅ์์ ์ด ๋ ผ๋ฌธ์ด ์์ฌํ๋ ๋ฐ๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฒซ์งธ, โ์ ํํ ์ ๋ ฌโ์ด ํญ์ ์ณ์ ๋ชฉํ๊ฐ ์๋๋๋ค. ์ฌ์ฉ์ ๋ค์์ฑ์ ๋ค๋ฃจ๋ ค๋ฉด ์ผ๋ถ ์์ ๋๋ฅผ ์๋์ ์ผ๋ก ํ์ด์ฃผ๋ ์ค๊ณ๊ฐ ๋ ๊ฒฌ๊ณ ํฉ๋๋ค. Allegro Hand์ฒ๋ผ 16์์ ๋ ์์์๋ base joint ์ ๋ ฌ๋ณด๋ค fingertip workspace ๋งค์นญ์ด ๋ ์ค์ํ ์์ ์ด ๋ง์ต๋๋ค. ์ฌ๋-๋ก๋ด ๋งคํ ์ ์ด๋ค ์ ๋ณด๋ฅผ ๊ฐ์ ํ๊ณ ์ด๋ค ์ ๋ณด๋ฅผ ํ์ด์ค์ง๋ฅผ ๋ช ์์ ์ผ๋ก ์ค๊ณํ๋ ๊ด์ ์ด ์ ์ฉํฉ๋๋ค.
๋์งธ, hardware-level visual alignment๋ ์ค์ฉ์ ์ธ ํฐ leverage์ ๋๋ค. Passive hand ํ๋๋ก ํ์ต ํ์ดํ๋ผ์ธ์ ํ์ฒ๋ฆฌ๋ฅผ ์ ๊ฑฐํ ๊ฒ์ ์๋ฎฌ๋ ์ด์ ์ sim-to-real ๊ฐญ์ ์ค์ด๋ ค๊ณ ๋ค์ด๋ ๋ ธ๋ ฅ์ ๋น๊ตํ๋ฉด ๋น์ฉ ๋๋น ํจ๊ณผ๊ฐ ๋งค์ฐ ํฝ๋๋ค. Allegro Hand๋ก ๋ฐ๋ชจ ์์งํ ๋๋ wrist-mounted camera ์์์ด ์ค๋ฐฐ์น ์์ ์์๊ณผ ์ผ์นํ๋์ง ์ ๊ฒํด๋ณผ ๊ฐ์น๊ฐ ์์ต๋๋ค.
์ ์งธ, DINOv2 + Diffusion Policy + relative action์ ์กฐํฉ์ด raw RGB๋ก ๋ค๊ด์ ์์ ์์ ํตํ๋ค๋ ์ ์ ๋๋ค. DINOv2 ViT-S/14์ ๊ฐ๋ ฅํ self-supervised feature๊ฐ raw ๊ด์ธก์์๋ ์ถฉ๋ถํ ์ ํธ๋ฅผ ๋ฝ์๋ ๋๋ค. ์ด๋ VLA(RT-2, OpenVLA, ฯ0 ๋ฑ) ํ์ต์ฉ ๋ฐ๋ชจ ์์ง ํ์ดํ๋ผ์ธ์ ์ค๊ณํ ๋๋ ์์ฌ์ ์ ์ค๋๋ค. ์๊ฐ ์ธ์ฝ๋์ ์ ํ๊ณผ ์๊ฐ ๋๋ฉ์ธ ์ ๋ ฌ์ด alignment ํ์ฒ๋ฆฌ๋งํผ์ด๋ ์ค์ํ๋ค๋ ์ ์ ๋๋ค.
๋ท์งธ, ์ฌ์ฉ์ ์ฐ๊ตฌ์ ์์ ์ ํ์์ โ๊ฐ์์งโ์ ๊ฐ์น์ ๋๋ค. ์ธ๊ณจ๊ฒฉ ํ์์ด ๋๊ตฌ ์ฌ์ฉ์ ๋ฏธ์น๋ ์ํฅ์ ๋๋ฌ๋ด๋ ์์ ์ ๋๋ค. ๋ฐ๋ชจ ์์ง ์ฅ์น๋ฅผ ํ๊ฐํ ๋, ์ ์์ฒด์ ์์ ๋ฟ ์๋๋ผ ์์ด ๋ค๊ณ ์๋ ๋๊ตฌ๊ฐ ์์ ์ ์ํํด์ผ ํ๋ ์์ ์ ํฌํจ์ํค๋ฉด ์ธ๊ณจ๊ฒฉ ๋ถํผ์ ์ํฅ์ ๋ ธ์ถ์ํฌ ์ ์์ต๋๋ค.
๋ค์ฏ์งธ, โwiggle spaceโ๋ผ๋ ๊ฐ๋ ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋๋ค. ๊ฐ์ฒด ์ ๋ ฌ์ ๊ฐ์ํ์ง ์๊ณ self-motion manifold๋ฅผ ์๋์ ์ผ๋ก ๋ง๋๋ ์ค๊ณ๋ ์ ์ธ๊ณจ๊ฒฉ์ ๋์ด humanoid ์ ์ teleoperation, wearable haptic ์ธํฐํ์ด์ค ๋ฑ์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฐ์์ ๋๋ค. Holonomic ์ ์ฝ์ ์์ ์ข ๋ฅ๋ฅผ ์๋์ ์ผ๋ก ์ ํํด residual DoF์ ์ฐจ์์ ํต์ ํ๋ ์ผ๋ฐ์ ์ค๊ณ ์๋ฆฌ๋ก ํ์ฅํ ์ ์์ต๋๋ค.
๋ง๋ฌด๋ฆฌ
DexEXO๋ฅผ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด ์ด๋ ๊ฒ ๋ฉ๋๋ค. โ๊ธฐ๊ตฌํ์ ์ผ์น๋ฅผ ๊ฐ์ํ์ง ๋ง๊ณ , ์๊ฐ์ ์ผ์น๋ฅผ ํ๋์จ์ด๋ก ๋ณด์ฅํ๋ผ.โ ์ด ๋ ์์น์ด ์ฌ์ฉ์ ๋ค์์ฑ ํก์์ ํ์ต ํ์ดํ๋ผ์ธ ๋จ์ํ๋ผ๋ ๋ ๊ฐ์ง ์ค์ฉ์ ์ด๋์ ํ ๋ฒ์ ๊ฐ์ ธ์ต๋๋ค.
๋ ผ๋ฌธ์ด ๋์ง๋ ๋ ํฐ ๋ฉ์์ง๋ ์ด๋ ์ต๋๋ค. ๋ฐ๋ชจ ์์ง์ ์ง์ง ๋ณ๋ชฉ์ ์๊ณ ๋ฆฌ์ฆ์ด ์๋๋ผ ์ฌ๋์ด ๊ทธ ์ฅ์น๋ฅผ ์ค๋, ํธํ๊ฒ, ์ ํํ๊ฒ ์ธ ์ ์๋๋์ ๋๋ค. ์ด ๊ด์ ์ dexterous manipulation ๋ฐ์ดํฐ ํ๋ณด๋ฅผ ๊ณ ๋ฏผํ๋ ๋ชจ๋ ์ฐ๊ตฌ์์๊ฒ ์ ํจํฉ๋๋ค. ๋ ์ ํํ retargeting ์๊ณ ๋ฆฌ์ฆ์ ์ง๊ธฐ ์ ์, ์ธ๊ณจ๊ฒฉ์ด ๋๊ตฌ ์์ก์ด์ ์ ๊ฑธ๋ฆฌ๋์ง๋ถํฐ ํ์ธํด๋ด์ผ ํ๋ค๋ ์ด์ผ๊ธฐ์ ๋๋ค.
๋จ๋ ์ง๋ฌธ๋ ์์ต๋๋ค. 16์์ ๋ ์์์ ๊ฐ์ ์ฒ ํ์ด ์ ํจํ ๊น์? Tactile sensing์ด ๊ฒฐํฉ๋๋ฉด passive hand ์ค๊ณ๊ฐ ์ด๋ป๊ฒ ๋ฐ๋์ด์ผ ํ ๊น์? Bimanual๋ก ํ์ฅํ๋ ค๋ฉด wrist pose ์ถ์ ์ ์ด๋ป๊ฒ ๊ฐํํด์ผ ํ ๊น์? ์ด ์ง๋ฌธ๋ค์ ๋ํ ๋ต์ด ํ์ ์ฐ๊ตฌ์์ ๋์ค๋ฉด, DexEXO์ ์ฒ ํ์ ๋จ์ํ ํ ์ฅ์น๋ฅผ ๋์ด ๋ค๊ด์ ์๊ธฐ์ ๋ฐ์ดํฐ ์์ง์ ํ์ค์ ์ค๊ณ ์์น์ผ๋ก ์๋ฆฌ์ก์ ๊ฐ๋ฅ์ฑ์ด ์ถฉ๋ถํฉ๋๋ค.
๋๊ท๋ชจ ๋ฐ์ดํฐ ์๋์ ์๊ธฐ์ ํ์ต์์, ๊ฐ์ฅ ์๋ฆฌํ algorithmic trick์ ์ข ์ข hardware trick์ผ๋ก ํ๋ฆฐ๋ค๋ ์ ์ ๋ค์ ํ ๋ฒ ์ผ๊นจ์์ฃผ๋ ์์ ์ ๋๋ค.