flowchart LR
subgraph Input["์
๋ ฅ"]
PC["ํฌ์ธํธ ํด๋ผ์ฐ๋\nP โ โ^(Nร3)"]
TXT["์ธ์ด ์ง์\n'grasp handle to pour'"]
end
subgraph Encoder["์ธ์ฝ๋"]
PF["PartField\n3D ์ธ์ฝ๋\n(ํํธ ์ธ์ ํน์ง)"]
TE["Qwen2.5 Tokenizer\nํ
์คํธ ํ ํฌ๋์ด์ "]
MLP["MLP Projector\n(2-layer)"]
end
subgraph Backbone["LLM ๋ฐฑ๋ณธ (Qwen2.5-0.5B)"]
direction TB
VT["๋น์ฃผ์ผ ํ ํฐ\n(768๊ฐ, ์๋ฐฉํฅ ์ดํ
์
)"]
LT["์ธ์ด ํ ํฐ\n(์ธ๊ณผ์ ์ดํ
์
)"]
CT["์ ์ด ํ ํฐ ์์ฑ\nโจcontact_startโฉ\nโจlinkโฉโจpxโฉโจpyโฉโจpzโฉ...\nโจcontact_endโฉ"]
AT["์ก์
ํ ํฐ ์์ฑ\nโจaction_startโฉ\n{28ร256-bin ํ ํฐ}\nโจaction_endโฉ"]
end
subgraph Output["์ถ๋ ฅ"]
CP["์ ์ด ์์น\n(๋ฌผ์ฒด ํ๋ฉด 3D ์ขํ)"]
GP["ํ์ง ์์ธ\n(ํ ํฌ์ฆ + ๊ด์ ๊ฐ๋)"]
end
PC --> PF --> MLP --> VT
TXT --> TE --> LT
VT & LT --> CT --> AT
CT --> CP
AT --> GP
๐DextER ๋ฆฌ๋ทฐ
์ธ์ด๋ก ์๋์ ์์ง์ด๊ฒ ํ๋ ๋ฐฉ๋ฒ
- ๐ค DextER๋ ์ธ์ด ๊ธฐ๋ฐ dexterous grasp ์์ฑ์ ์ํด hand link๊ฐ ๊ฐ์ฒด์ ์ ์ดํ๋ ์์น๋ฅผ ์์ธกํ๋ contact-based embodied reasoning ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
- ๐ ์ด ๋ชจ๋ธ์ DexGYS ๋ฒค์น๋งํฌ์์ 67.14%์ grasp success rate๋ฅผ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด state-of-the-art๋ฅผ ๋ฅ๊ฐํ์ผ๋ฉฐ, intention alignment์์ 96.4% ํฅ์์ ๋ณด์์ต๋๋ค.
- ๐ฏ DextER์ autoregressive framework๋ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ contact constraints๋ฅผ ์ง์ ํ์ฌ grasp ์์ฑ์ steerableํ๊ฒ ์ ์ดํ ์ ์๋ fine-grained control ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ์ธ์ด ๊ธฐ๋ฐ์ ์ ๊ตํ dexterous grasp ์์ฑ์ ์ํ DextER๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ Vision-Language Models (VLMs)์ ๊ด์ธก๊ฐ์ ์ง์ grasp parameter๋ก ๋งคํํ์ฌ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ํ ์ค๊ฐ ์ถ๋ก ์ด ๋ถ์กฑํ์ต๋๋ค. DextER๋ ๋ค์ง ๋ก๋ด ํ(multi-finger hand) ์กฐ์์ ์ํด ์ ์ด ๊ธฐ๋ฐ์ embodied reasoning์ ๋์ ํ๋ฉฐ, ์ด๋ ์ด๋ค ์ ๋งํฌ(hand link)๊ฐ ๊ฐ์ฒด์ ์ด๋ ์์น์์ ์ ์ดํ๋์ง๋ฅผ ์์ธกํ๋ ๊ฒ์ด ํต์ฌ ํต์ฐฐ์ ๋๋ค. ์ด ์ ์ด ์์ธก์ ๋์ ์์ค์ task semantics์ ๋ก๋ด์ embodiment ๋ฐ ๊ฐ์ฒด ํ์์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด์ ์ฐ๊ฒฐํ๋ embodiment-aware ์ค๊ฐ ํํ์ ์ ๊ณตํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
DextER๋ ์ฃผ์ด์ง 3D point cloud P \in \mathbb{R}^{N \times 3}์ ์ธ์ด ์ง์ T๋ก๋ถํฐ dexterous hand์ grasp pose \mathbf{a} \in \mathbb{R}^D๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ฌ๊ธฐ์ D๋ ์์ ์์ ๋(degrees of freedom)๋ฅผ ๋ํ๋ ๋๋ค. ๋ณธ ๋ชจ๋ธ์ ์ด ์์ธก์ ์ค๊ฐ ๋จ๊ณ์ธ ์ ์ด ํจํด(contact patterns) C๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๋ถํดํฉ๋๋ค: p(\mathbf{a}, C|P, T) = p(C|P, T) \cdot p(\mathbf{a}|C, P, T) ์ฌ๊ธฐ์ ์ ์ด ์์ธก p(C|P, T)๊ฐ ์ธ์ด์ ๊ธฐํํ์ ์ดํด๋ฅผ grasp ์์ฑ์ ์ฐ๊ฒฐํ๋ embodied reasoning ๊ณผ์ ์ผ๋ก ์์ฉํฉ๋๋ค.
1. ๋ชจ๋ธ ์ํคํ ์ฒ (Model Architecture)
DextER๋ 3D vision encoder, multimodal projector, Large Language Model (LLM) backbone์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Point Cloud Encoding: ์ ๋ ฅ point cloud P๋ก๋ถํฐ PartField [22]๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐํํ์ ํน์ง F \in \mathbb{R}^{M \times d}๋ฅผ ์ถ์ถํฉ๋๋ค. PartField๋ 2D SAM mask๋ฅผ ์ด์ฉํ ๋์กฐ ํ์ต(contrastive learning)์ ํตํด ํํธ ๋ถํ (part-segmentation)์ ์ํ ์ฌ์ ํ์ต์ด ๋์ด ์์ผ๋ฉฐ, ์ด๋ ๊ฐ์ฒด ํ๋ฉด์ ์ ์ด ์์น๋ฅผ ์ ํํ๊ฒ ์ฐพ์๋ด๋ ๋ฐ ์ ๋ฆฌํ ํํธ ๊ธฐํํ ์ธ์ง ํน์ง(part geometry-aware features)์ ์์ฑํฉ๋๋ค. ์ถ์ถ๋ ํน์ง์ ๊ฒฝ๋ MLP๋ฅผ ํตํด LLM์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์๋ฉ๋๋ค.
- Action Tokenization: ์ฐ์์ ์ธ grasp parameter \mathbf{a} (28์ฐจ์, ์๋ฐ๋ฅ ์์ธ ๋ฐ ๊ด์ ๊ฐ๋ ํฌํจ)๋ ์ด์ฐ์ ์ธ ํ ํฐ ๊ณต๊ฐ์ผ๋ก ํ ํฐํ๋ฉ๋๋ค. ๊ฐ ์ฐจ์์ N_a๊ฐ์ ๊ท ์ผํ bin์ผ๋ก ์์ํ๋๋ฉฐ, ๊ฐ ์์ํ๋ ๊ฐ์ ๊ณ ์ ํ ํ ํฐ \langle \text{action\_bin\_i} \rangle์ผ๋ก ํํ๋ฉ๋๋ค. ์ ์ฒด ์ก์ ์ํ์ค๋ \langle |\text{action\_start}| \rangle์ \langle |\text{action\_end}| \rangle ํน์ ํ ํฐ์ผ๋ก ๊ฐ์ธ์ง๋๋ค.
- LLM Backbone: Qwen2.5-0.5B [30, 42]๋ฅผ LLM backbone์ผ๋ก ์ฌ์ฉํ๋ฉฐ, point cloud embedding๊ณผ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ตํฉํ์ฌ ์ด์ฐ์ ์ธ ์ ์ด ๋ฐ ์ก์ ํ ํฐ์ autoregressively ์์ฑํฉ๋๋ค.
2. Embodied Reasoning์ ํตํ ์ ์ด ์์ธก (Embodied Reasoning via Contact Prediction)
- Meta-prompts: ๋ชจ๋ธ์ด ์ก์ ์์ฑ ์ ์ ์ ์ด ์ถ๋ก ์ ์ฐธ์ฌํ๋๋ก ์ ๋ํ๊ธฐ ์ํด, โThink step by step: first predict which links contact where on the object, then predict the grasp poseโ์ ๊ฐ์ ๋ช ์์ ์ธ ์ง์๋ฅผ ํฌํจํ๋ meta-prompt๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Contact Representation: ์ ์ด์ ์์ ๋งํฌ l_i (์: index finger middle link)์ ๊ฐ์ฒด ํ๋ฉด์ 3D ์ ์ด ์์น p_i \in \mathbb{R}^3์ ์์ผ๋ก ๊ตฌ์ฑ๋ C = \{(l_i, p_i)\}๋ก ํํ๋ฉ๋๋ค. ์ ์ด ์์น p_i์ ์ขํ๋ ๋ฐ์ดํฐ์ ์์ ๊ณ์ฐ๋ ๊ณ ์ ๋ 3D bounding box ๋ด๋ก ์ ๊ทํ๋ ๋ค์, ๊ฐ ๊ณต๊ฐ ์ฐจ์์ด N_{pos}๊ฐ์ bin์ผ๋ก ๊ท ์ผํ๊ฒ ์ด์ฐํ๋์ด position token์ผ๋ก ๋งคํ๋ฉ๋๋ค. ๊ฐ ์ ์ด์ \langle l_i \rangle \langle p_{ix} \rangle \langle p_{iy} \rangle \langle p_{iz} \rangle์ ๊ฐ์ ์ํ์ค๋ก ํํ๋๋ฉฐ, ์ ์ฒด ์ ์ด ์์ธก์ \langle |\text{contact\_start}| \rangle์ \langle |\text{contact\_end}| \rangle๋ก ๊ฐ์ธ์ง๋๋ค. ํ์ํ ๋ชจ๋ ํน์ ํ ํฐ(action bin, position bin, link, delimiter ํ ํฐ)์ ์ฌ์ ํ์ต๋ tokenizer์ ๋ฑ๋ก๋ฉ๋๋ค.
3. ํ๋ จ ์ ๋ต (Training Strategy)
- End-to-end ํ์ต: point cloud ํ ํฐ, task description, contact ํ ํฐ, action ํ ํฐ์ ํฌํจํ๋ ์ ์ฒด ์ํ์ค์ ๋ํด ํ์ค next-token prediction์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ end-to-end๋ก ํ๋ จํฉ๋๋ค. ๋ชจ๋ธ์ ๋จผ์ ์ ์ด ํจํด์ ์์ธกํ ๋ค์, ์ด์ ์์ํ๋ grasp pose๋ฅผ autoregressively ์์ฑํ๋๋ก ํ์ตํฉ๋๋ค.
- Hybrid Attention Mechanism: point cloud ํ ํฐ์ ์ ์ญ์ ์ธ ๊ธฐํํ์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํ๊ธฐ ์ํด ์๋ฐฉํฅ ์ดํ ์ (bidirectional attention)์ ์ฌ์ฉํ๊ณ , ์ธ์ด ๋ฐ ์ก์ ํ ํฐ์ ์ธ๊ณผ์ ์ดํ ์ (causal attention)์ ์ฌ์ฉํฉ๋๋ค.
- Contact Position Dropout: ์ ๊ทํ๋ฅผ ์ํด ํ๋ จ ์ค p_{drop} ํ๋ฅ ๋ก ์ ์ด ์ํ์ค์์ position ํ ํฐ์ ์ ๊ฑฐํ๊ณ link ํ ํฐ๋ง ์ ์งํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ์์ค์ ์ ์ด ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋๋ก ๋์ต๋๋ค.
4. ๋ฐ์ดํฐ์ ํ๋ ์ด์ (Dataset Curation)
DexGYS [36]์ Dexonomy [5] ๋ฐ์ดํฐ์ ์ ํ์ฉํฉ๋๋ค.
- Physics-based Contact Annotation: MuJoCo ๋ฌผ๋ฆฌ ์์ง์ ์ฌ์ฉํ์ฌ ๊ฐ grasp์ ๋ํ ์ ์ด ์ ๋ณด๋ฅผ ์๋์ผ๋ก ์ถ์ถํฉ๋๋ค. ์ ๋ฐ ๊ฐ์ฒด ๋ชจ๋ธ์ MuJoCo์ ๋ก๋ํ๊ณ , ๊ฐ grasp pose์ ๋ํด ์ ๋ฐฉํฅ ์ด๋ํ(forward kinematics)์ ์คํํ ๋ค์, ์ ๋งํฌ์ ๊ฐ์ฒด๊ฐ ์ ์ดํ๋ 3D ํ๋ฉด ์์น๋ฅผ ๋ฌผ๋ฆฌ ๋ฒํผ์์ ์ถ์ถํฉ๋๋ค.
- Grasp Instruction Annotation (Dexonomy์ฉ): Gemma-3 [29] VLM์ ์ฌ์ฉํ์ฌ Dexonomy์ ๋ํ grasp description์ ์์ฑํฉ๋๋ค. ๊ฐ grasp์ ๋ํด ์ฌ๋ฌ ์์ ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ๊ณ , ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ์ ์ด ์ ๋ณด์ ๊ธฐ๋ฐํ์ฌ VLM์ ํ๋กฌํํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. VLM์ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ์๋ณํ๊ณ , ์ ์ด๋ ๊ธฐ๋ฅ์ ๋ถ๋ถ์ ์ถ๋ก ํ๋ฉฐ, ํ ์คํธ ํํ์ grasp description์ ์์ฑํฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
DextER๋ DexGYS validation set์์ ์ธ์ด ์กฐ๊ฑด๋ถ dexterous grasp ์์ฑ task๋ฅผ ํ๊ฐํ์ต๋๋ค.
- DexGYS ๋ฒค์น๋งํฌ: DextER๋ 67.14%์ grasp ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ ์ด์ SOTA๋ณด๋ค 3.83%p ์ฐ์ํฉ๋๋ค. P-FID (Frรฉchet Distance) ์ ์ 0.20์ ๊ธฐ๋กํ์ฌ ์ด์ SOTA์ธ DexGYSNet [36]์ 5.60 ๋๋น 96.4%์ ์๋ ์ ๋ ฌ(intention alignment) ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ด๋ ์์ฑ๋ grasp๊ฐ ์ธ์ด๋ก ์ง์ ๋ task ์๋์ ํจ์ฌ ๋ ์ ์ผ์นํจ์ ๋ํ๋
๋๋ค.
- Embodied Reasoning (ER)์ ์ญํ : ER์ด ์๋ ๋ชจ๋ธ(w/o ER)์ P-FID๊ฐ 0.20์์ 0.30์ผ๋ก ์ฆ๊ฐ(50% ์ฑ๋ฅ ์ ํ)ํ๊ณ , ์ฑ๊ณต๋ฅ ์ 67.14%์์ 62.37%๋ก ๊ฐ์ํ๋ ๋ฑ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์์ต๋๋ค. ์ด๋ ๋ช ์์ ์ธ ์ ์ด ์์ธก์ด ์๋ ์ ๋ ฌ ๋ฐ ๋ฌผ๋ฆฌ์ ํ์ง ๋ชจ๋์ ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค.
- Ablation Study (Table 2):
- ECoT: ECoT๋ฅผ ์ ๊ฑฐํ๋ฉด P-FID์ ์ฑ๊ณต๋ฅ ๋ชจ๋ ํฌ๊ฒ ์ ํ๋ฉ๋๋ค.
- Token discretization granularity: Action ๋ฐ position ํ ํฐ ๋ชจ๋ N_a = N_{pos} = 256 bins์ด ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Contact position dropout (p_{drop}): p_{drop} = 0.5๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ ์ ํ dropout์ด ์ ๊ทํ ํจ๊ณผ๋ฅผ ์ ๊ณตํจ์ ํ์ธํ์ต๋๋ค.
- Point Cloud Encoder: PartField [22]๊ฐ Uni3D [49]๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ PartField์ ํํธ ์ธ์ง ํน์ง ์ถ์ถ์ด ์ ์ด ๊ธฐ๋ฐ ์ถ๋ก ์ ์์ฐ์ค๋ฝ๊ฒ ๋ถํฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Zero-Shot Generalization (Table 3, ์๋จ): Dexonomy ๋ฐ์ดํฐ์ ์์ ํ๋ จ ๋ฐ ํ๊ฐ๋ฅผ ์งํํ์ผ๋ฉฐ, DextER๋ โUnseen Objectsโ, โUnseen Grasp Taxonomyโ, โUnseen Bothโ๋ฅผ ํฌํจํ ๋ชจ๋ zero-shot ์๋๋ฆฌ์ค์์ ๊ธฐ์ค์ (baseline) ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ฅ๊ฐํ์ต๋๋ค.
- Steerable Grasp Generation (Table 3, ํ๋จ): DextER์ autoregressive ํน์ฑ์ ํ์ฉํ์ฌ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ ECoT ์ํ์ค๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ grasp ์์ฑ์ ์ ์ดํ ์ ์์ต๋๋ค. 1๊ฐ์์ 5๊ฐ๊น์ง์ ๋งํฌ๋ฅผ ์ง์ ํ์ ๋, ์ง์ ๋ ๋งํฌ์ ์๊ฐ ๋ง์์๋ก ์๋ ์ ๋ ฌ(P-FID, CD)๊ณผ ์ฑ๊ณต๋ฅ ์ด ๋ชจ๋ ํฅ์๋๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
- Contact Reasoning Quality (Table 4): ์ ์ด ๋งํฌ ์์ธก์ ์ํ IoU, Precision, Recall, F1 ๋ฐ ๊ณต๊ฐ ์ ํ๋๋ฅผ ์ํ Position Accuracy (1cm ์๊ณ๊ฐ)๋ฅผ ํ๊ฐํ ๊ฒฐ๊ณผ, ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ณด์ฌ ์ ์ด ๊ธฐ๋ฐ embodied reasoning์ ์ ํ์ฑ์ ์ ์ฆํ์ต๋๋ค.
๊ฒฐ๋ก (Conclusion)
DextER๋ ์ ์ด ์์ธก์ ํตํด embodied reasoning์ ํ์ฉํ๋ ์ธ์ด ์กฐ๊ฑด๋ถ dexterous grasp ์์ฑ์ ๋ํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ๋ณธ ๋ฐฉ๋ฒ๋ก ์ DexGYS์์ 67.14%์ grasp ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ ์ด์ SOTA ๋๋น 3.83%p ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๋ ์ ๋ ฌ์์๋ 96.4%์ ๊ด๋ชฉํ ๋งํ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ด๋ ์ ์ด ์ถ๋ก ์ด task semantics๋ฅผ ์ดํดํ๊ณ ๋ค์ํ๊ณ ์์ ์ ์ธ grasp ๊ตฌ์ฑ์ ์์ฑํ๋ ๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, autoregressive ์์ฑ ํ๋ ์์ํฌ๋ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ ์ ์ด ์ ์ฝ ์กฐ๊ฑด์ ์ง์ ํ์ฌ ๋ชจ๋ธ์ ์๋ดํ ์ ์๋ steerable grasp generation์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, grasp ์์ฑ์ ๋ํ ์ธ๋ฐํ ์ ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ ํ์ฌํญ (Limitations)
Autoregressive ํ๋ ์์ํฌ๋ compounding errors์ ์ทจ์ฝํ๋ฉฐ, ํ์ฌ ํ๊ฐ๋ ๋จ์ผ์ ์ ์ ๊ฐ์ฒด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด ์ค์ ๋ณต์กํ ์ฅ๋ฉด์์์ ์ ์ฉ์ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ํ, ์์ฐจ์ ์ธ ํ ํฐ ์์ธก ๋ฐฉ์์ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์ฝ์ ์ค ์ ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ์ ๋ก๋ด์ ์์ ์์ง๋ ์ํฐ๊ฐ?
์ธ๊ฐ์ ์์ ๋๋๋๋ก ์ ์ฐํ๋ค. โ๋จธ๊ทธ์์ ์์ก์ด ์ก์์ ๋ฐ๋ผ์คโ๋ผ๋ ๋ง ํ๋ง๋์ ์ฐ๋ฆฌ๋ ์์ง์ ๊ฒ์ง๋ฅผ ์์ก์ด ๊ณก๋ฉด์ ๋ง๊ฒ ๊ฐ์ธ๊ณ , ๋๋จธ์ง ์๊ฐ๋ฝ์ผ๋ก ์์ ๊ฐ์ ๋ํ๋ฉฐ, ์๋ชฉ ๊ฐ๋๊น์ง ์์ฐ์ค๋ฝ๊ฒ ์กฐ์ ํ๋ค. ์ด ๋ชจ๋ ๊ฒ์ด ์์๊ฐ์, ์์ํ์ง ์์๋ ์ผ์ด๋๋ค.
๋ค๊ด์ ๋ก๋ด ์(dexterous hand)์๊ฒ ๊ฐ์ ์ผ์ ์ํค๋ฉด ์ด๋จ๊น? 20๊ฐ ์ด์์ ์์ ๋(DOF)๋ฅผ ๋์์ ์ ์ดํด์ผ ํ๊ณ , ๋ฌผ์ฒด์ 3D ํ์์ ํ์ ํด์ผ ํ๊ณ , โ์์ก์ด๋ฅผ ์ก์ผ๋ผโ๋ ์ธ์ด ์ง์๋ฅผ ๋ฌผ๋ฆฌ์ ์ ์ด ํจํด์ผ๋ก ๋ณํํด์ผ ํ๋ค. ์ด๊ฒ์ด ์ธ์ด ๊ธฐ๋ฐ ์ ๊ต ํ์ง(language-driven dexterous grasp generation) ๋ฌธ์ ๋ค.
1.1 ๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ
์ต๊ทผ Vision-Language Model(VLM)์ ํ์ฉํ ์ฐ๊ตฌ๋ค์ด ์ด ๋ฌธ์ ์ ๋์ ํด์๋ค. DexGYSNet, SemGrasp, DexVLG ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด 3D ์๊ฐ ํํ๊ณผ ์ธ์ด ์ดํด๋ฅผ ์ตํฉํด ์ฑ๊ณผ๋ฅผ ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ด๋ค์๋ ๊ณตํต์ ์ธ ๋ฌธ์ ๊ฐ ์๋ค.
๊ด์ฐฐ โ ํ์ง ํ๋ผ๋ฏธํฐ ๋ผ๋ ์ง์ ๋งคํ(direct mapping)
์ธ์ด ์ง์์ 3D ํ์์ ๋ฐ์ ๊ณง๋ฐ๋ก ์์ ๊ด์ ๊ฐ๋์ ์์น๋ฅผ ์ถ๋ ฅํ๋ค. ์ค๊ฐ์ โ์์ด ์ด๋์ ๋ฟ์ ๊ฒ์ธ๊ฐโ์ ๋ํ ๋ช ์์ ์ถ๋ก ์ด ์๋ค. ๋ง์น ์ํ ์ํ์์ ํ์ด ๊ณผ์ ์์ด ๋ต๋ง ์ฐ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๋ต์ด ๋ง์ ๋๋ ์์ง๋ง, ์ ๋ง๋์ง ์ค๋ช ํ ์ ์๊ณ , ์๋ก์ด ๋ฌธ์ ์ ํ์ ์ทจ์ฝํ๋ค.
1.2 DextER์ ํต์ฌ ์์ด๋์ด
POSTECH ์ฐ๊ตฌํ์ด ์ ์ํ DextER(Dexterous Grasp Generation with Embodied Reasoning)๋ ์ด ์ง๋ฌธ์์ ์ถ๋ฐํ๋ค.
โ๋ค๊ด์ ์์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์์ ์ค๊ฐ ์ถ๋ก ํํ์ ๋ฌด์์ด์ด์ผ ํ๋๊ฐ?โ
๊ทธ ๋ต์ ์ ์ด์ (contact)์ด๋ค. โ์ด๋ค ์๊ฐ๋ฝ ๋งํฌ๊ฐ ๋ฌผ์ฒด์ ์ด๋ค ์์น์ ๋ฟ๋์งโ๋ฅผ ๋จผ์ ์์ธกํ๊ณ , ๊ทธ๊ฒ์ ๋ฐํ ์ผ์ ์ต์ข ํ์ง ์์ธ๋ฅผ ์์ฑํ๋ค.
์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณด์. ์ฌ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ค. ๊ฐ์๋ฅผ ์ก์ ๋ ์ฐ๋ฆฌ๋ ๋ฌด์์์ ์ผ๋ก โ์ง๊ฒ์๊ฐ๋ฝ๊ณผ ์ค์ง๊ฐ ๊ณ ๋ฆฌ์ ๋ค์ด๊ฐ์ผ ํ๋คโ๋ ์ ์ด ๊ณํ์ ๋จผ์ ์ธ์ด๋ค. DextER๋ ์ด ์์ฐ์ค๋ฌ์ด ์ถ๋ก ๊ณผ์ ์ ๋ชจ๋ธ์ ๋ช ์์ ์ผ๋ก ์ง์ด๋ฃ๋๋ค.
์ด๊ฒ์ด ๋ฐ๋ก Embodied Chain-of-Thought(ECoT) โ ๋ก๋ด ์ ์ฒด์ ๋ฌผ๋ฆฌ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ ์ฌ๊ณ ์ ์ฐ์๋ค.
2. ๋ฐฉ๋ฒ๋ก : DextER ์ํคํ ์ฒ ํด๋ถ
2.1 ๋ฌธ์ ๊ณต์ํ
์ํ์ ์ผ๋ก ํํํ๋ฉด DextER๊ฐ ํ๋ ค๋ ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์
๋ ฅ: ๋ฌผ์ฒด์ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ \mathbf{P} \in \mathbb{R}^{N \times 3}, ์ธ์ด ์ง์ \mathbf{T}
์ถ๋ ฅ: ์์ ํ์ง ์์ธ \mathbf{a} \in \mathbb{R}^D (D=28, ํ ํฌ์ฆ + ๊ด์ ๊ฐ๋)
๊ธฐ์กด ๋ฐฉ๋ฒ์ด p(\mathbf{a} \mid \mathbf{P}, \mathbf{T})๋ฅผ ์ง์ ๋ชจ๋ธ๋งํ๋ค๋ฉด, DextER๋ ์ด๋ฅผ ๋ ๋จ๊ณ๋ก ๋ถํดํ๋ค:
p(\mathbf{a}, \mathcal{C} \mid \mathbf{P}, \mathbf{T}) = \underbrace{p(\mathcal{C} \mid \mathbf{P}, \mathbf{T})}_{\text{์ ์ด ์ถ๋ก }} \cdot \underbrace{p(\mathbf{a} \mid \mathcal{C}, \mathbf{P}, \mathbf{T})}_{\text{ํ์ง ์์ฑ}}
์ฌ๊ธฐ์ \mathcal{C} = \{(l_i, \mathbf{p}_i)\}๋ ์ ์ด ์งํฉ์ผ๋ก, l_i๋ ์ ๋งํฌ ์ด๋ฆ, \mathbf{p}_i \in \mathbb{R}^3๋ ๋ฌผ์ฒด ํ๋ฉด ์ ์ ์ด ์์น๋ค.
์ด ๋ถํด๊ฐ ์ ๊ฐ๋ ฅํ๊ฐ? ์ ์ด ํจํด \mathcal{C}๊ฐ โ์ธ์ด ์๋ฏธโ์ โ๋ฌผ๋ฆฌ์ ์ ์ฝโ ์ฌ์ด์ ๋ค๋ฆฌ ์ญํ ์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. โ์์ก์ด๋ฅผ ์ก์๋ผโ๋ ๋ง์ด โ โthumb_base, ff_distal์ด handle ๋ถ์์ ์ ์ดโ โ ๊ตฌ์ฒด์ ์ธ ๊ด์ ๊ฐ๋๋ก ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๋ค.
2.2 ์ ์ฒด ์ํคํ ์ฒ
DextER๋ ์ธ ๋ชจ๋๋ก ๊ตฌ์ฑ๋๋ค.
โ 3D ๋น์ ์ธ์ฝ๋: PartField
ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ PartField๋ฅผ ์ ํํ ์ด์ ๊ฐ ํฅ๋ฏธ๋กญ๋ค. PartField๋ 2D SAM ๋ง์คํฌ์์ ๋์กฐ ํ์ต(contrastive learning)์ผ๋ก ์ฌ์ ํ์ต๋ ํํธ-๋ถํ ์ธ์ 3D ์ธ์ฝ๋๋ค. ๊ธ๋ก๋ฒ ์ค๋ธ์ ํธ ํน์ง์ด ์๋, ๋ก์ปฌ ํํธ ๊ธฐํํ ํน์ง์ ์ถ์ถํ๋ค.
์ ์ค์ํ๊ฐ? DextER์ ์ ์ด ์ถ๋ก ์ โ์ด๋ ํํธ์ ๋ฟ๋๊ฐโ๋ฅผ ์์ธกํด์ผ ํ๋ค. ์์ก์ด(handle), ๋๊ป(lid), ๋ฒํผ ๋ฑ ์ธ๋ถ ํํธ๋ฅผ ์ ์ธ์ํ๋ ํน์ง์ด ์ ์ด์ ์์ธก์ ์ง์ ๋์์ด ๋๋ค. Ablation ๊ฒฐ๊ณผ์์๋ Uni3D ๋๋น P-FID 0.52โ0.20, ์ฑ๊ณต๋ฅ 59.07%โ67.14%๋ก ์๋์ ์ฐจ์ด๋ฅผ ๋ณด์ธ๋ค.
์ธ์ฝ๋ ์ถ๋ ฅ์ triplane feature map์์ ๋ค์ด์ํ๋ง๋ 768๊ฐ์ ์๊ฐ ํ ํฐ์ด๋ค.
โก ์ก์ ํ ํฌ๋์ด์ ์ด์
์ฐ์์ ์ธ ํ์ง ํ๋ผ๋ฏธํฐ๋ฅผ ์ด์ฐ ํ ํฐ์ผ๋ก ๋ณํํ๋ ๊ณผ์ ์ด๋ค.
- ๊ฐ 28๊ฐ ์ฐจ์์ ๋ํด 1~99 ํผ์ผํ์ผ ๊ฐ์ [-1, 1]๋ก ์ ๊ทํ
- ๊ฐ ์ฐจ์์ N_\mathbf{a} = 256 ๊ฐ ๊ท ๋ฑ ๊ตฌ๊ฐ์ผ๋ก ๋ถํ
- ๊ฐ ๊ตฌ๊ฐ์ ๊ณ ์ ํ ํฐ
โจaction_bin_iโฉํ ๋น
๋ฐ๋ผ์ ํ๋์ ํ์ง ์์ธ๋ 28๊ฐ์ ์ด์ฐ ํ ํฐ ์ํ์ค๋ก ํํ๋๋ค.
์ ์ฐ์๊ฐ ๋์ ํ ํฐ์ธ๊ฐ? LLM์ next-token prediction ๋ชฉ์ ํจ์๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณ๋์ ํ๊ท ํค๋ ์์ด ๊ธฐ์กด VLM ํ์ต ํ์ดํ๋ผ์ธ์ ์ฌํ์ฉํ๋ค.
โข ์ ์ด ํํ (Contact Tokens)
์ ์ด ์ ๋ณด๋ ๋ค์ ํ์์ผ๋ก ํ ํฐํ๋๋ค:
โจ|contact_start|โฉ
โจthbaseโฉโจpxโฉโจpyโฉโจpzโฉ โ ์์ง ๋ฐ๋์ด (px,py,pz)์ ๋ฟ์
โจffdistalโฉโจpxโฉโจpyโฉโจpzโฉ โ ๊ฒ์ง ๋๋ง๋๊ฐ (px,py,pz)์ ๋ฟ์
โจmfmiddleโฉโจpxโฉโจpyโฉโจpzโฉ โ ์ค์ง ์ค๊ฐ๋ง๋๊ฐ (px,py,pz)์ ๋ฟ์
โจ|contact_end|โฉ
์์น ์ขํ๋ N_{\text{pos}} = 256 ๊ฐ ๋น์ผ๋ก ์ด์ฐํ๋๋ค. ๋งํฌ ์ด๋ฆ ํ ํฐ๊ณผ ์์น ํ ํฐ ๋ชจ๋ ์ฌ์ ํ์ต๋ ํ ํฌ๋์ด์ ์ vocabulary์ ํน์ ํ ํฐ์ผ๋ก ์ถ๊ฐ๋๋ค.
2.3 ํ์ด๋ธ๋ฆฌ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ
ํธ๋์คํฌ๋จธ ์ดํ ์ ์ค๊ณ์์ ์๋ฆฌํ ์ ํ์ด ์๋ค.
- ํฌ์ธํธ ํด๋ผ์ฐ๋ ํ ํฐ: ์๋ฐฉํฅ(bidirectional) ์ดํ ์ โ ์ ์ฒด 3D ํ์์ ๋ํ ๊ธ๋ก๋ฒ ์ปจํ ์คํธ ํ์
- ์ธ์ด ๋ฐ ์ก์ ํ ํฐ: ์ธ๊ณผ์ (causal) ์ดํ ์ โ ํ์ค ์๊ธฐํ๊ท ์์ฑ ์ ์ง
์ด ์ค๊ณ๋ ์ง๊ด์ ์ด๋ค. ๋ฌผ์ฒด์ ํ์์ โ์ ์ฒดโ๋ฅผ ๋์์ ๋ด์ผ ์ดํดํ ์ ์๋ค. ๋ฐ๋ฉด ํ ์คํธ์ ์ก์ ์ ์์๊ฐ ์ค์ํ๋ค. ๋ ํน์ฑ์ ํผํฉํ๋ค.
2.4 ๋ฉํ-ํ๋กฌํํธ์ ์ ์ด ์์น ๋๋กญ์์
๋ฉํ-ํ๋กฌํํธ: ๋ชจ๋ธ์ด ์ ์ด ์ถ๋ก ์ ๋จผ์ ์ํํ๋๋ก ์ ๋ํ๋ ํ๋กฌํํธ. ์์:
> โThink step by step: first predict which links contact where on the object, then predict the grasp poseโ
ํ์ต ์ ๋ค์ํ ํํ์ ๋ฉํ-ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํด ํน์ ๋ฌธ๊ตฌ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
์ ์ด ์์น ๋๋กญ์์: ํ์ต ์ ํ๋ฅ p_{\text{drop}} = 0.5๋ก ์์น ํ ํฐ \langle p_{ix} \rangle \langle p_{iy} \rangle \langle p_{iz} \rangle๋ฅผ ์ ๊ฑฐํ๋, ๋งํฌ ํ ํฐ \langle l_i \rangle๋ ์ ์งํ๋ค.
์ด๊ฒ์ด ์ ํ์ํ๊ฐ? ๋ ๊ฐ์ง ํจ๊ณผ๊ฐ ์๋ค. ์ฒซ์งธ, ๊ณผ์ ํฉ ๋ฐฉ์ง. ๋์งธ, Steerable Generation ํ์ฑํ โ ์ถ๋ก ์ ์ฌ์ฉ์๊ฐ ๋งํฌ๋ง ์ง์ ํ๊ฑฐ๋, ๋งํฌ+์์น๋ฅผ ๋ถ๋ถ ์ง์ ํ์ฌ ๋ชจ๋ธ ์์ฑ์ ์ ๋ํ ์ ์๊ฒ ๋๋ค.
2.5 ๋ฐ์ดํฐ์ ํ๋ ์ด์ : MuJoCo + VLM ์๋ ์ฃผ์
DextER์ ํ์ต์๋ ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค:
| ๋ฐ์ดํฐ์ | ํน์ง | DextER์์์ ์ญํ |
|---|---|---|
| DexGYS | 1,800๊ฐ ๊ฐ์ฒด, 50,000 ํ์ง-์ธ์ด ์ | ์ค์ผ์ผ๊ณผ ์ธ์ด ๋ค์์ฑ ์ ๊ณต |
| Dexonomy | 31๊ฐ์ง ํ์ง ๋ถ๋ฅ์ฒด๊ณ (power grasp, precision pinch ๋ฑ) | ๊ตฌ์กฐํ๋ ํ์ง ๋ณํ ์ ๊ณต |
๋ ๋ฐ์ดํฐ์ ๋ชจ๋์ ์ ์ด ์ฃผ์์ด ์์๊ธฐ ๋๋ฌธ์, MuJoCo ๋ฌผ๋ฆฌ ์์ง์ผ๋ก ์๋ ์์ฑํ๋ค:
- ์๊ณผ ๋ฌผ์ฒด ๋ชจ๋ธ์ MuJoCo์ ๋ก๋
- Forward kinematics ์คํ
- ๋ฌผ๋ฆฌ ๋ฒํผ์์ ์ ์ด ๋ฐ์ดํฐ ์ถ์ถ โ ์ด๋ค ๋งํฌ๊ฐ ์ด๋์ ๋ฟ๋์ง ํ๋
Dexonomy๋ ์ธ์ด ์ค๋ช ์ด ์์ด์, Gemma VLM์ผ๋ก ์๋ ์์ฑํ๋ค: 1. ๊ฐ ํ์ง์ ๋ํด 5๊ฐ ๋ฉํฐ๋ทฐ ์ด๋ฏธ์ง ๋ ๋๋ง 2. VLM์ ๋ ๋๋ง + ์ ์ด ํด๋ถํ ์ ๋ณด๋ฅผ ํ๋กฌํํธ๋ก ์ ๋ ฅ 3. ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ, ์ ์ด ๊ธฐ๋ฅ๋ถ์(handle, rim ๋ฑ), ํ์ง ์ค๋ช ํ ์คํธ ์์ฑ
์ด ํ์ดํ๋ผ์ธ์ผ๋ก ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ ์๋์ผ๋ก ๊ตฌ์ถํ๋ค๋ ์ ์ด ์ค์ฉ์ ์ผ๋ก ์ค์ํ๋ค.
3. ์คํ: ์ซ์๋ก ํ์ธํ๋ DextER์ ์ฑ๋ฅ
3.1 ๊ตฌํ ์ธ๋ถ์ฌํญ
- ์๊ฐ ์ธ์ฝ๋: PartField (์ฌ์ ํ์ต ๊ฐ์ค์น ๊ณ ์ )
- LLM ๋ฐฑ๋ณธ: Qwen2.5-0.5B (Qwen2.5 ํจ๋ฐ๋ฆฌ ์ต์ ๋ชจ๋ธ)
- ์๊ฐ ํ๋ก์ ํฐ: 2-layer MLP
- ํ์ต: AdamW, lr=1e-4, cosine decay, batch=64, 100K iterations
- ํ๋์จ์ด: NVIDIA A6000 GPU ร 8
- ์๋ฎฌ๋ ์ด์ : DexGYS๋ Isaac Gym, Dexonomy๋ MuJoCo(DexGraspBench)
์ฃผ๋ชฉํ ์ : 0.5B ํ๋ผ๋ฏธํฐ ์ํ LLM์ ์ฌ์ฉํ์์๋ SOTA๋ฅผ ๋ฌ์ฑํ๋ค. ๋ชจ๋ธ ํฌ๊ธฐ๋ณด๋ค ์ถ๋ก ๊ตฌ์กฐ ์ค๊ณ๊ฐ ๋ ์ค์ํ๋ค๋ ๋ฉ์์ง๋ค.
3.2 DexGYS ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ
ํ๊ฐ ์งํ ํด์ค: - P-FID โ: ์์ฑ๋ ํ์ง์ ์ฐธ์กฐ ํ์ง์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ํน์ง ๋ถํฌ Frรฉchet ๊ฑฐ๋ฆฌ. ๋ฎ์์๋ก ์๋ ์ ๋ ฌ์ด ์ข์ - CD โ: Chamfer Distance, ์ ๋ฉ์ ํ์ ์ฐจ์ด - Con. โ: ์ ์ด ๋งต L2 ๊ฑฐ๋ฆฌ - Success โ: Isaac Gym ์๋ฎฌ๋ ์ด์ ์ฑ๊ณต๋ฅ - Qโ โ: Force-closure ํ์ง (ํ์ง ์์ ์ฑ) - Pen. โ: ์-๋ฌผ์ฒด ์นจํฌ ๊น์ด - ฮดt, ฮดr, ฮดq โ: ์์ฑ ๋ค์์ฑ (์์น, ํ์ , ๊ด์ )
| ๋ฐฉ๋ฒ | P-FIDโ | CDโ | Con.โ | ์ฑ๊ณต๋ฅ โ(%) | Qโโ | Pen.โ | ฮดtโ | ฮดrโ | ฮดqโ |
|---|---|---|---|---|---|---|---|---|---|
| GraspCVAE | 29.02 | 3.14 | 0.96 | 29.12 | 0.54 | 0.55 | 0.18 | 1.76 | 0.18 |
| GraspTTA | 33.15 | 12.19 | 1.11 | 43.46 | 0.71 | 0.19 | 2.11 | 6.15 | 3.87 |
| SceneDiffusers | 7.93 | 1.68 | 0.45 | 62.24 | 0.83 | 0.25 | 0.35 | 3.46 | 0.39 |
| DGTR | 15.77 | 2.90 | 0.78 | 51.91 | 0.78 | 0.16 | 2.05 | 14.01 | 4.30 |
| DexGYSNet | 5.60 | 1.20 | 0.36 | 63.31 | 0.83 | 0.22 | 6.12 | 55.68 | 6.12 |
| DextER (w/o ER) | 0.30 | 1.95 | 0.40 | 62.37 | 0.66 | 0.44 | 8.78 | 77.13 | 13.77 |
| DextER | 0.20 | 1.46 | 0.34 | 67.14 | 0.89 | 0.37 | 8.84 | 77.98 | 13.63 |
๊ฒฐ๊ณผ ํด์:
๊ฐ์ฅ ๋์ ๋๋ ์์น๋ P-FID 0.20์ด๋ค. ์ด์ SOTA DexGYSNet์ 5.60 ๋๋น 96.4% ํฅ์์ด๋ค. ์ด๋ DextER๊ฐ ์์ฑํ ํ์ง๊ฐ ์ธ์ด ์ง์๊ฐ ์๋ํ๋ ํ์ง ๋ถํฌ์ ํจ์ฌ ๋ ์ ์ผ์นํ๋ค๋ ๋ป์ด๋ค.
์ฑ๊ณต๋ฅ ๋ 63.31% โ 67.14% (3.83%p ํฅ์)๋ก ๊ฐ์ ๋์๋ค. ๋จ์ํ โ์ด๋ป๊ฒ ์ก๋๊ฐโ๋ง์ด ์๋๋ผ โ์ ์กํ๋๊ฐโ๋ ๋์์ ๊ฐ์ ๋์๋ค.
ECoT ์ ๊ฑฐ ์คํ(w/o ER)์ด ๋ ํฅ๋ฏธ๋กญ๋ค. ECoT ์์ด๋ P-FID 0.30, ์ฑ๊ณต๋ฅ 62.37%๋ก DexGYSNet์ ๋์ด์ ๋ค. ์ด๋ VLA ์ํคํ ์ฒ ์์ฒด(PartField + Qwen2.5)์ ๊ธฐ์ฌ๋๋ค. ๊ทธ๋ฌ๋ ECoT๋ฅผ ์ถ๊ฐํ๋ฉด P-FID๊ฐ 0.30โ0.20 (33% ์ถ๊ฐ ๊ฐ์ ), ์ฑ๊ณต๋ฅ 62.37%โ67.14% ํฅ์. ์ ์ด ์ถ๋ก ์ด ์ํคํ ์ฒ ๊ฐ์ ์์ ์๋ฏธ ์๋ ์ถ๊ฐ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๋ค์์ฑ ์งํ๋ ์ฃผ๋ชฉํ ๋งํ๋ค. ฮดr์ด 77.98๋ก ์ด์ ๋ฐฉ๋ฒ ๋๋น ์๋์ ์ผ๋ก ๋๋ค. ๊ฐ์ ์ง์์ ๋ํด ๋ค์ํ ํ์ง ์ ๋ต์ ์์ฑํ ์ ์๋ค๋ ๊ฒ์ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์ ์ค์ํ๋ค.
3.3 Ablation Study
xychart-beta
title "P-FID (๋ฎ์์๋ก ์ข์) - Ablation ๋น๊ต"
x-axis ["w/o ECoT", "ECoT(๊ธฐ๋ณธ)", "Na=128", "Na=256", "Na=512", "Npos=128", "Npos=256", "pdrop=0.0", "pdrop=0.5", "pdrop=1.0", "Uni3D", "PartField"]
y-axis "P-FID" 0 --> 0.6
bar [0.30, 0.20, 0.21, 0.20, 0.26, 0.21, 0.20, 0.22, 0.20, 0.30, 0.52, 0.20]
| ์ค๊ณ ์ ํ | ๊ธฐ๋ณธ๊ฐ | ํต์ฌ ๋ฐ๊ฒฌ |
|---|---|---|
| ECoT | ํ์ฑํ | ์์ผ๋ฉด P-FID +50%, ์ฑ๊ณต๋ฅ -4.77%p |
| Action bin (N_\mathbf{a}) | 256 | 128์ ์ ๋ฐ๋ ์์ค, 512๋ ์ดํ ๋ณต์ก๋ ์ฆ๊ฐ๋ก ์ฑ๋ฅ ์ ํ |
| Position bin (N_{\text{pos}}) | 256 | ๋์ผ ํจํด. โGoldilocksโ 256์ด ์ต์ |
| Contact position dropout (p_{\text{drop}}) | 0.5 | ๊ณผ์(0.0)๋ ์ผ๋ฐํ ์ฝํ, ๊ณผ๋ค(1.0)๋ ECoT ํจ๊ณผ ์๋ฉธ |
| ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ธ์ฝ๋ | PartField | Uni3D ๋๋น P-FID 0.52โ0.20, ์ฑ๊ณต๋ฅ +8.07%p |
ํนํ ์ธ์ฝ๋ ์ ํ์ ์ํฅ์ด ECoT๋ณด๋ค ํฌ๋ค๋ ์ ์ด ์ค์ฉ์ ์ผ๋ก ์ค์ํ๋ค. ํํธ-์ธ์ ๊ธฐํํ ํํ์ด ์ ์ด ๊ธฐ๋ฐ ์ถ๋ก ๊ณผ ์ ๋ง๋ฌผ๋ฆฐ๋ค๋ ๊ฒ์ Ablation์ด ๋ช ํํ ๋ณด์ฌ์ค๋ค.
3.4 ์ ๋ก์ท ์ผ๋ฐํ (Dexonomy ๋ฐ์ดํฐ์ )
DextER๊ฐ ํ์ต ์ ๋ชป ๋ณธ ๊ฐ์ฒด์ ํ์ง ์ ํ์ ์ด๋ป๊ฒ ๋์ฒํ๋์ง ํ์ธํ๊ธฐ ์ํด 4๊ฐ์ง ๋ถํ ๋ก ํ ์คํธํ๋ค.
| ๋ถํ | P-FIDโ | ์ฑ๊ณต๋ฅ โ(%) |
|---|---|---|
| Seen Obj. & Grasp | 0.44 | 12.24 |
| Unseen Obj. | 1.44 | 10.86 |
| Unseen Grasp Taxonomy | 1.04 | 9.10 |
| Unseen Both | 1.23 | 8.41 |
๋น๊ต ๊ธฐ์ค์ธ DexGYS ๋ฐฉ๋ฒ์ โSeenโ ์กฐ๊ฑด์์๋ P-FID 1.89, ์ฑ๊ณต๋ฅ 0.97%๋ก ํจ์ฌ ๋ฎ๋ค. DextER๋ ๋ชจ๋ ์กฐ๊ฑด์์ ์๋์ ์ผ๋ก ์ฐ์ํ๋ค.
ํฅ๋ฏธ๋ก์ด ํจํด: ์๋ก์ด ๊ฐ์ฒด๋ณด๋ค ์๋ก์ด ํ์ง ์ ํ(taxonomy) ์ ๋ํ ์ผ๋ฐํ๊ฐ ๋ ์ด๋ ต๋ค. ์ด๋ ์ง๊ด์ ์ผ๋ก ๋ง์ด ๋๋ค โ ์ ๋ฌผ์ฒด๋ผ๋ ๋น์ทํ ํ์์ด ์์ง๋ง, ์ ํ ๋ค๋ฅธ ํ์ง ์ ๋ต(์: ์๋ก์ด precision manipulation)์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ ์ด ํจํด์ ์๊ตฌํ๋ค.
3.5 Steerable Generation: โ์ํ๋ ๋๋ก ์ก๊ธฐโ
DextER์ ๊ฐ์ฅ ๋ ์ฐฝ์ ์ธ ๊ธฐ๋ฅ ์ค ํ๋๋ค. ์๊ธฐํ๊ท ์์ฑ์ ํน์ฑ์ ํ์ฉํด, ๋ถ๋ถ ์ ์ด ๋ช ์ธ๋ฅผ prefix๋ก ์ ๊ณตํ๋ฉด ๋ชจ๋ธ์ด ๋๋จธ์ง๋ฅผ ์์ฑํ๋ค.
์: ์ฌ์ฉ์๊ฐ โ์์ง์ ๊ฒ์ง๊ฐ ์ฌ๊ธฐ์ ๋ฟ์์ผ ํดโ๋ผ๊ณ ์ง์ ํ๋ฉด, ๋ชจ๋ธ์ด ๋๋จธ์ง ์๊ฐ๋ฝ์ ์ ์ด๊ณผ ์ ์ฒด ํ์ง ์์ธ๋ฅผ ์์ฑํ๋ค.
| ์ง์ ๋งํฌ ์ | P-FIDโ | CDโ | ์ฑ๊ณต๋ฅ โ(%) |
|---|---|---|---|
| 0 (์์ ์์ฑ) | 0.44 | 18.32 | 12.24 |
| 1๊ฐ ๋งํฌ | 0.43 | 5.51 | 10.40 |
| 2๊ฐ ๋งํฌ | 0.28 | 2.33 | 14.67 |
| 3๊ฐ ๋งํฌ | 0.18 | 1.50 | 17.84 |
| 4๊ฐ ๋งํฌ | 0.14 | 0.91 | 20.14 |
| 5๊ฐ ๋งํฌ | 0.12 | 0.73 | 21.35 |
๋ ๋ง์ ์ ์ฝ โ ๋ ๋์ ์๋ ์ ๋ ฌ, ๊ทธ๋ฆฌ๊ณ ๋ ๋์ ์ฑ๊ณต๋ฅ . ์ ์ฝ์ด ์ค์ง์ ์ธ ๊ฐ์ด๋ ์ญํ ์ ํ๋ค๋ ๋ป์ด๋ค. ์ ๋ฐ ์กฐ๋ฆฝ์ด๋ ํน์ ๋๊ตฌ ์ฌ์ฉ์ฒ๋ผ โ๋ฐ๋์ ์ด๋ ๊ฒ ์ก์์ผ ํ๋โ ์ฐ์ ์์ฉ์ ์ง์ ํ์ฉ ๊ฐ๋ฅํ๋ค.
3.6 ์ ์ด ์ถ๋ก ํ์ง ํ๊ฐ
| ์งํ | ๊ฐ |
|---|---|
| IoU (๋งํฌ ์์ธก) | 0.42 |
| Precision | 0.59 |
| Recall | 0.63 |
| F1 | 0.57 |
| Position Accuracy (1cm ์ด๋ด) | 0.79 |
F1 0.57์ ์๋ฒฝํ์ง ์๋ค. ํ์ง๋ง ์์น ์ ํ๋ 79%๋ ์ธ์์ ์ด๋ค โ ์์ธกํ ์ ์ด ์์น์ 79%๊ฐ ์ค์ ์ forward kinematics ๊ฒฐ๊ณผ๋ก ๊ณ์ฐํ ๋งํฌ ์์น 1cm ์ด๋ด์ ์๋ค. ์ด ์ ๋ ๊ณต๊ฐ ์ ๋ฐ๋๋ฉด ์ ์ด ์ถ๋ก ์ด ํ์ง ์์ฑ์ ์ค์ง์ ์ธ ๊ธฐํํ์ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
4. ๋นํ์ ๊ณ ์ฐฐ: DextER์ ๊ฐ์ ๊ณผ ํ๊ณ
4.1 ๊ฐ์ ๋ถ์
โ ์ถ๋ก ๊ตฌ์กฐ์ ์ค๊ณ ์ฒ ํ์ด ์ฌ๋ฐ๋ฅด๋ค
โ์ ๋ ฅ โ ์ถ๋ ฅโ ์ง์ ๋งคํ์ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ , ๋ก๋ด๊ณตํ์ ์ผ๋ก ์๋ฏธ ์๋ ์ค๊ฐ ํํ(์ ์ด์ )์ ์ค๊ณํ๋ค. ์ด๊ฒ์ ๋จ์ํ ์์ง๋์ด๋ง ํธ๋ฆญ์ด ์๋๋ค. ๋ฌผ๋ฆฌ ์ธ๊ณ์์ ํ์ง๊ฐ ์ฑ๊ณตํ๋ ค๋ฉด ์ ์ด์ด ์ฌ๋ฐ๋์ผ ํ๋ค๋ ๊ทผ๋ณธ ์๋ฆฌ๋ฅผ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ง์ ์ธ์ฝ๋ฉํ ๊ฒ์ด๋ค.
โก ์๋ํ๋ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ
MuJoCo ๊ธฐ๋ฐ ์ ์ด ์๋ ์ฃผ์, VLM ๊ธฐ๋ฐ ์ธ์ด ์๋ ์ฃผ์ ํ์ดํ๋ผ์ธ์ ํ์ฅ์ฑ์ด ๋๋ค. ์ ๋ฐ์ดํฐ์ ์๋ ๋์ผ ํ์ดํ๋ผ์ธ์ ์ ์ฉํ ์ ์๋ค.
โข Steerable Generation์ ์ค์ฉ์ฑ
์ฐ์ ํ์ฅ์์๋ ์ข ์ข โํน์ ๋ถ์๋ฅผ ํน์ ๋ฐฉ์์ผ๋ก ์ก์์ผโํ๋ ์ ์ฝ์ด ์๋ค. Steerable Generation์ ์ด๋ฐ ์๊ตฌ์ฌํญ์ ์์ฐ์ค๋ฝ๊ฒ ์์ฉํ๋ค. ์ด๊ฒ์ VLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ซํ ์์คํ (closed-loop) ๋ฌธ์ ๋ฅผ ์ด๋ฆฐ ์ธํฐํ์ด์ค๋ก ์ ํํ๋ค.
โฃ ์ํ ๋ชจ๋ธ๋ก SOTA ๋ฌ์ฑ
Qwen2.5-0.5B๋ ๋ํ VLM ๋๋น ํจ์ฌ ์๋ค. ์ค์๊ฐ ๋ก๋ด ์ ์ด์ ๋ ์ ํฉํ ์ง์ฐ ์๊ฐ(latency)์ ๋ฌ์ฑํ ์ ์๋ค.
4.2 ํ๊ณ์ ์ด๋ฆฐ ์ง๋ฌธ๋ค
โ Sim-to-Real ๊ฐญ: ์์ง ์๋ฎฌ๋ ์ด์ ์ ๋จธ๋ฌผ๋ค
DextER์ ๋ชจ๋ ์คํ์ Isaac Gym๊ณผ MuJoCo ์๋ฎฌ๋ ์ด์ ์ด๋ค. ์ค์ ๋ก๋ด์ ๋ํ ๊ฒ์ฆ์ด ์๋ค. ์ค์ ์ผ์ ๋ ธ์ด์ฆ, ๋ฌผ์ฒด ํ๋ฉด์ ๋ง์ฐฐ ๋ถ๊ท ์ผ์ฑ, ์ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ค์ฐจ ๋ฑ์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ด ํจํด์ ๋ฌดํจํํ ์ ์๋ค. ๋ค๊ด์ ์์ sim-to-real์ ํํ ๊ทธ๋ฆฌํผ๋ณด๋ค ํจ์ฌ ๋ ์ด๋ ต๋ค.
โก ์ ์ด ์ถ๋ก ์ F1=0.57: ์ค๊ฐ ๋จ๊ณ์ ๋ถ์์ ์ฑ
ECoT์ ์ค๊ฐ ํํ(์ ์ด ์์ธก)์ด ์๋ฒฝํ์ง ์๋ค. F1 0.57์ ์ฝ 43%์ ๊ฒฝ์ฐ ์๋ชป๋ ์ ์ด ๋งํฌ๋ฅผ ์์ธกํ๋ค๋ ๋ป์ด๋ค. ๊ทธ๋ผ์๋ ์ต์ข ํ์ง ์ฑ๋ฅ์ด ์ข๋ค๋ฉด, ์ด๋ ๋ชจ๋ธ์ด โ์๋ชป๋ ์ ์ด ์ถ๋ก โ ์ฌ๋ฐ๋ฅธ ํ์งโ๋ผ๋ ๋จ๋ฝ(shortcut)์ ํ์ตํ์ ๊ฐ๋ฅ์ฑ๋ ์๋ค. ์ฆ, ECoT๊ฐ ์ง์ ํ ์ถ๋ก ์ ํ๋์ง, ์๋๋ฉด ๋จ์ ์ฑ๋ฅ ํฅ์ ํธ๋ฆญ์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต๋ค.
โข ์๋ก์ด ํ์ง ์ ํ์ ๋ํ ์ทจ์ฝ์ฑ
Dexonomy ์คํ์์ unseen grasp taxonomy์ ๋ํ ์ผ๋ฐํ๊ฐ ์ ํ์ ์ด๋ค. ์ ์๋ค๋ โ๋ชจ๋ธ์ด ๋ฌผ์ฒด๋ ์ก์ง๋ง ๋ถ์์ (shaking)โํ๋ค๊ณ ์ธ์ ํ๋ค. ํ์ง ๋ถ๋ฅ์ฒด๊ณ๊ฐ ๋ค๋ฅด๋ฉด ์ ์ด ํจํด์ด ๊ทผ๋ณธ์ ์ผ๋ก ๋ฌ๋ผ์ง๋๋ฐ, ํ์ฌ ๋ชจ๋ธ์ ์ด๋ฅผ ์ ๋๋ก ์ถ๋ก ํ์ง ๋ชปํ๋ค.
โฃ ๋จ์ผ ํ์ง ์์ธ ์์ฑ
์ค์ ์กฐ์์์๋ ํ์ง โ ์ด๋ โ ์กฐ์์ด๋ผ๋ ์ํ์ค๊ฐ ํ์ํ๋ค. DextER๋ ๋จ์ผ ์์ ์ ํ์ง ์์ธ๋ง์ ์์ฑํ๋ค. ์ด ํ์ง๊ฐ ์ดํ ์กฐ์ ํ์คํฌ์ ์ต์ ์ธ์ง, ์๋ฅผ ๋ค์ด โ๋ฐ๋ฅด๊ธฐ ์ํด ์ก๊ธฐโ๊ฐ โ์ค์ ๋ก ๋ฐ๋ฅด๋ ๋์โ์ ์ ํฉํ์ง๋ ํ๊ฐํ์ง ์๋๋ค.
โค ์ ์ด ๋๋กญ์์ = ๋ถ์์ ํ ECoT
p_{\text{drop}} = 0.5๋ ์ ๋ฐ์ ํ์ต ์ํ์์ ์ ์ด ์์น ์์ด ๋งํฌ๋ง์ผ๋ก ํ์ต๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๋ ECoT์ ๊ณต๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฝํ์ํฌ ์ ์๋ค. Steerable Generation์ ํธ์์ฑ๊ณผ ์ถ๋ก ์์ ์ฑ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ค.
โฅ ๋จ์ผ ์ ๋ชจ๋ธ (ShadowHand)
๋งํฌ ํ ํฐ์ด ShadowHand ์ ์ฉ์ผ๋ก ์ค๊ณ๋์๋ค. Allegro Hand, LEAP Hand ๋ฑ ๋ค๋ฅธ ์ ํ๋ซํผ์ผ๋ก ์ ์ดํ๋ ค๋ฉด ์๋ก์ด ๋งํฌ ํ ํฐ๊ณผ ์ฌํ์ต์ด ํ์ํ๋ค. Embodiment-agnosticํ ์ค๊ณ๊ฐ ์๋๋ค.
5. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
| ๋ฐฉ๋ฒ | ํจ๋ฌ๋ค์ | ์ค๊ฐ ํํ | ์๋ ์ ๋ ฌ | ๋ฌผ๋ฆฌ ํ์ง | ์ ์ด ๊ฐ๋ฅ์ฑ |
|---|---|---|---|---|---|
| DexGYSNet | End-to-End | ์์ | ๋ณดํต | ์ข์ | ์์ |
| DexVLG | End-to-End VLM | ์์ | ์ข์ | ์ข์ | ์์ |
| AffordDexGrasp | 2๋จ๊ณ | ์ดํฌ๋์ค ๋งต | ์ข์ | ์ข์ | ์ ํ์ |
| DexGraspVLA | 2๋จ๊ณ + VLA | ๊ณํ ํ ์คํธ | ์ข์ | ๋งค์ฐ ์ข์ | ์ ํ์ |
| DextER | End-to-End ECoT | ์ ์ด์ (๋ฌผ๋ฆฌ์ ) | ๋งค์ฐ ์ข์ | ๋งค์ฐ ์ข์ | ๋์ |
DexGraspVLA์์ ๋น๊ต๋ ํฅ๋ฏธ๋กญ๋ค. DexGraspVLA๋ 89.6%๋ผ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด๊ณ ํ์ง๋ง, ์ด๋ ๋จ์ ํ์ง(non-prehensile ํฌํจ)์ ๋ํ ์์น์ด๋ฉฐ, ์ธ์ด-์๋ ์ ๋ ฌ์ ๋ช ์์ ์ผ๋ก ์ธก์ ํ์ง ์๋๋ค. DextER๋ ํนํ ์๋ ์ ๋ ฌ์์ ๋ ๋ณด์ ์ด๋ค.
6. ์์ฝ ๋ฐ ๊ฒฐ๋ก
DextER๋ ์ธ์ด ๊ธฐ๋ฐ ๋ค๊ด์ ๋ก๋ด ํ์ง ์์ฑ์์ โ์ค๊ฐ์์ ๋ฌด์์ ์ถ๋ก ํ ๊ฒ์ธ๊ฐโ๋ผ๋ ๊ทผ๋ณธ์ ์ง๋ฌธ์ ๋ค๋ฃฌ๋ค. ๊ทธ ๋ต์ ์ ์ด โ ์์ ์ด๋ค ๋งํฌ๊ฐ ๋ฌผ์ฒด์ ์ด๋์ ๋ฟ๋๊ฐ โ ์ด๋ค.
์ด ์์ด๋์ด๋ ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํ๋ค. ์ธ์ด(โ์์ก์ด ์ก์โ)์ ๋ฌผ๋ฆฌ(โff_distal์ด handle ๋ถ์ 3D ์ขํ์ ์ ์ดโ)๋ฅผ ์ฐ๊ฒฐํ๋ ๋ค๋ฆฌ๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ตํ๋ค.
ํต์ฌ ๊ธฐ์ฌ ์์ฝ: - Contact-based Embodied Reasoning (ECoT): ์ ์ด์ ์ ์ค๊ฐ ์ฌ๊ณ ๋จ๊ณ๋ก ์ฌ์ฉ - ์๋ํ๋ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ (MuJoCo + VLM) - Steerable Generation: ๋ถ๋ถ ์ ์ด ๋ช ์ธ๋ก ํ์ง ๊ฐ์ด๋ - DexGYS SOTA: ์ฑ๊ณต๋ฅ 67.14%, P-FID 96.4% ํฅ์
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ: - ์ค๋ฌผ ๋ก๋ด ๊ฒ์ฆ (sim-to-real) - ๋ค์ํ ์ ํ๋ซํผ์ผ๋ก์ ์ ์ด (Allegro, LEAP ๋ฑ) - ์ ์ด ์ถ๋ก ๊ณผ ์กฐ์ ๊ณํ(manipulation planning)์ ํตํฉ - ๋ ๊ฐ๋ ฅํ ์ค๊ฐ ์ถ๋ก (๋จ์ ์ ์ด์ โ ์ ์ด๋ ฅ, ์ ์ด ์์)
๋ก๋ด์ด ์ธ์ด๋ฅผ ์ดํดํ๊ณ ์์ ์์ ์์ฌ๋ก ์์ง์ด๋ ๋ ์, ์ด๋ ๊ฒ ์ฐจ๊ทผ์ฐจ๊ทผ ์์ด๋ ์ถ๋ก ๊ตฌ์กฐ ์ฐ๊ตฌ๋ค ์์ ์ธ์์ง ๊ฒ์ด๋ค. DextER๋ ๊ทธ ๊ธธ์์ ์ค๊ณ ์ฒ ํ์ ์ ๋ณด์ฌ์ฃผ๋ ์ข์ ์ด์ ํ๋ค.