๐DextER ๋ฆฌ๋ทฐ
- ๐ค DextER๋ ์ธ์ด ๊ธฐ๋ฐ dexterous grasp ์์ฑ์ ์ํด hand link๊ฐ ๊ฐ์ฒด์ ์ ์ดํ๋ ์์น๋ฅผ ์์ธกํ๋ contact-based embodied reasoning ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
- ๐ ์ด ๋ชจ๋ธ์ DexGYS ๋ฒค์น๋งํฌ์์ 67.14%์ grasp success rate๋ฅผ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด state-of-the-art๋ฅผ ๋ฅ๊ฐํ์ผ๋ฉฐ, intention alignment์์ 96.4% ํฅ์์ ๋ณด์์ต๋๋ค.
- ๐ฏ DextER์ autoregressive framework๋ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ contact constraints๋ฅผ ์ง์ ํ์ฌ grasp ์์ฑ์ steerableํ๊ฒ ์ ์ดํ ์ ์๋ fine-grained control ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ์ธ์ด ๊ธฐ๋ฐ์ ์ ๊ตํ dexterous grasp ์์ฑ์ ์ํ DextER๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ Vision-Language Models (VLMs)์ ๊ด์ธก๊ฐ์ ์ง์ grasp parameter๋ก ๋งคํํ์ฌ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ํ ์ค๊ฐ ์ถ๋ก ์ด ๋ถ์กฑํ์ต๋๋ค. DextER๋ ๋ค์ง ๋ก๋ด ํ(multi-finger hand) ์กฐ์์ ์ํด ์ ์ด ๊ธฐ๋ฐ์ embodied reasoning์ ๋์ ํ๋ฉฐ, ์ด๋ ์ด๋ค ์ ๋งํฌ(hand link)๊ฐ ๊ฐ์ฒด์ ์ด๋ ์์น์์ ์ ์ดํ๋์ง๋ฅผ ์์ธกํ๋ ๊ฒ์ด ํต์ฌ ํต์ฐฐ์ ๋๋ค. ์ด ์ ์ด ์์ธก์ ๋์ ์์ค์ task semantics์ ๋ก๋ด์ embodiment ๋ฐ ๊ฐ์ฒด ํ์์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด์ ์ฐ๊ฒฐํ๋ embodiment-aware ์ค๊ฐ ํํ์ ์ ๊ณตํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
DextER๋ ์ฃผ์ด์ง 3D point cloud P \in \mathbb{R}^{N \times 3}์ ์ธ์ด ์ง์ T๋ก๋ถํฐ dexterous hand์ grasp pose \mathbf{a} \in \mathbb{R}^D๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ฌ๊ธฐ์ D๋ ์์ ์์ ๋(degrees of freedom)๋ฅผ ๋ํ๋ ๋๋ค. ๋ณธ ๋ชจ๋ธ์ ์ด ์์ธก์ ์ค๊ฐ ๋จ๊ณ์ธ ์ ์ด ํจํด(contact patterns) C๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๋ถํดํฉ๋๋ค: p(\mathbf{a}, C|P, T) = p(C|P, T) \cdot p(\mathbf{a}|C, P, T) ์ฌ๊ธฐ์ ์ ์ด ์์ธก p(C|P, T)๊ฐ ์ธ์ด์ ๊ธฐํํ์ ์ดํด๋ฅผ grasp ์์ฑ์ ์ฐ๊ฒฐํ๋ embodied reasoning ๊ณผ์ ์ผ๋ก ์์ฉํฉ๋๋ค.
1. ๋ชจ๋ธ ์ํคํ ์ฒ (Model Architecture)
DextER๋ 3D vision encoder, multimodal projector, Large Language Model (LLM) backbone์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Point Cloud Encoding: ์ ๋ ฅ point cloud P๋ก๋ถํฐ PartField [22]๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐํํ์ ํน์ง F \in \mathbb{R}^{M \times d}๋ฅผ ์ถ์ถํฉ๋๋ค. PartField๋ 2D SAM mask๋ฅผ ์ด์ฉํ ๋์กฐ ํ์ต(contrastive learning)์ ํตํด ํํธ ๋ถํ (part-segmentation)์ ์ํ ์ฌ์ ํ์ต์ด ๋์ด ์์ผ๋ฉฐ, ์ด๋ ๊ฐ์ฒด ํ๋ฉด์ ์ ์ด ์์น๋ฅผ ์ ํํ๊ฒ ์ฐพ์๋ด๋ ๋ฐ ์ ๋ฆฌํ ํํธ ๊ธฐํํ ์ธ์ง ํน์ง(part geometry-aware features)์ ์์ฑํฉ๋๋ค. ์ถ์ถ๋ ํน์ง์ ๊ฒฝ๋ MLP๋ฅผ ํตํด LLM์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์๋ฉ๋๋ค.
- Action Tokenization: ์ฐ์์ ์ธ grasp parameter \mathbf{a} (28์ฐจ์, ์๋ฐ๋ฅ ์์ธ ๋ฐ ๊ด์ ๊ฐ๋ ํฌํจ)๋ ์ด์ฐ์ ์ธ ํ ํฐ ๊ณต๊ฐ์ผ๋ก ํ ํฐํ๋ฉ๋๋ค. ๊ฐ ์ฐจ์์ N_a๊ฐ์ ๊ท ์ผํ bin์ผ๋ก ์์ํ๋๋ฉฐ, ๊ฐ ์์ํ๋ ๊ฐ์ ๊ณ ์ ํ ํ ํฐ \langle \text{action\_bin\_i} \rangle์ผ๋ก ํํ๋ฉ๋๋ค. ์ ์ฒด ์ก์ ์ํ์ค๋ \langle |\text{action\_start}| \rangle์ \langle |\text{action\_end}| \rangle ํน์ ํ ํฐ์ผ๋ก ๊ฐ์ธ์ง๋๋ค.
- LLM Backbone: Qwen2.5-0.5B [30, 42]๋ฅผ LLM backbone์ผ๋ก ์ฌ์ฉํ๋ฉฐ, point cloud embedding๊ณผ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ตํฉํ์ฌ ์ด์ฐ์ ์ธ ์ ์ด ๋ฐ ์ก์ ํ ํฐ์ autoregressively ์์ฑํฉ๋๋ค.
2. Embodied Reasoning์ ํตํ ์ ์ด ์์ธก (Embodied Reasoning via Contact Prediction)
- Meta-prompts: ๋ชจ๋ธ์ด ์ก์ ์์ฑ ์ ์ ์ ์ด ์ถ๋ก ์ ์ฐธ์ฌํ๋๋ก ์ ๋ํ๊ธฐ ์ํด, โThink step by step: first predict which links contact where on the object, then predict the grasp poseโ์ ๊ฐ์ ๋ช ์์ ์ธ ์ง์๋ฅผ ํฌํจํ๋ meta-prompt๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Contact Representation: ์ ์ด์ ์์ ๋งํฌ l_i (์: index finger middle link)์ ๊ฐ์ฒด ํ๋ฉด์ 3D ์ ์ด ์์น p_i \in \mathbb{R}^3์ ์์ผ๋ก ๊ตฌ์ฑ๋ C = \{(l_i, p_i)\}๋ก ํํ๋ฉ๋๋ค. ์ ์ด ์์น p_i์ ์ขํ๋ ๋ฐ์ดํฐ์ ์์ ๊ณ์ฐ๋ ๊ณ ์ ๋ 3D bounding box ๋ด๋ก ์ ๊ทํ๋ ๋ค์, ๊ฐ ๊ณต๊ฐ ์ฐจ์์ด N_{pos}๊ฐ์ bin์ผ๋ก ๊ท ์ผํ๊ฒ ์ด์ฐํ๋์ด position token์ผ๋ก ๋งคํ๋ฉ๋๋ค. ๊ฐ ์ ์ด์ \langle l_i \rangle \langle p_{ix} \rangle \langle p_{iy} \rangle \langle p_{iz} \rangle์ ๊ฐ์ ์ํ์ค๋ก ํํ๋๋ฉฐ, ์ ์ฒด ์ ์ด ์์ธก์ \langle |\text{contact\_start}| \rangle์ \langle |\text{contact\_end}| \rangle๋ก ๊ฐ์ธ์ง๋๋ค. ํ์ํ ๋ชจ๋ ํน์ ํ ํฐ(action bin, position bin, link, delimiter ํ ํฐ)์ ์ฌ์ ํ์ต๋ tokenizer์ ๋ฑ๋ก๋ฉ๋๋ค.
3. ํ๋ จ ์ ๋ต (Training Strategy)
- End-to-end ํ์ต: point cloud ํ ํฐ, task description, contact ํ ํฐ, action ํ ํฐ์ ํฌํจํ๋ ์ ์ฒด ์ํ์ค์ ๋ํด ํ์ค next-token prediction์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ end-to-end๋ก ํ๋ จํฉ๋๋ค. ๋ชจ๋ธ์ ๋จผ์ ์ ์ด ํจํด์ ์์ธกํ ๋ค์, ์ด์ ์์ํ๋ grasp pose๋ฅผ autoregressively ์์ฑํ๋๋ก ํ์ตํฉ๋๋ค.
- Hybrid Attention Mechanism: point cloud ํ ํฐ์ ์ ์ญ์ ์ธ ๊ธฐํํ์ ๋ฌธ๋งฅ์ ํฌ์ฐฉํ๊ธฐ ์ํด ์๋ฐฉํฅ ์ดํ ์ (bidirectional attention)์ ์ฌ์ฉํ๊ณ , ์ธ์ด ๋ฐ ์ก์ ํ ํฐ์ ์ธ๊ณผ์ ์ดํ ์ (causal attention)์ ์ฌ์ฉํฉ๋๋ค.
- Contact Position Dropout: ์ ๊ทํ๋ฅผ ์ํด ํ๋ จ ์ค p_{drop} ํ๋ฅ ๋ก ์ ์ด ์ํ์ค์์ position ํ ํฐ์ ์ ๊ฑฐํ๊ณ link ํ ํฐ๋ง ์ ์งํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ์์ค์ ์ ์ด ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋๋ก ๋์ต๋๋ค.
4. ๋ฐ์ดํฐ์ ํ๋ ์ด์ (Dataset Curation)
DexGYS [36]์ Dexonomy [5] ๋ฐ์ดํฐ์ ์ ํ์ฉํฉ๋๋ค.
- Physics-based Contact Annotation: MuJoCo ๋ฌผ๋ฆฌ ์์ง์ ์ฌ์ฉํ์ฌ ๊ฐ grasp์ ๋ํ ์ ์ด ์ ๋ณด๋ฅผ ์๋์ผ๋ก ์ถ์ถํฉ๋๋ค. ์ ๋ฐ ๊ฐ์ฒด ๋ชจ๋ธ์ MuJoCo์ ๋ก๋ํ๊ณ , ๊ฐ grasp pose์ ๋ํด ์ ๋ฐฉํฅ ์ด๋ํ(forward kinematics)์ ์คํํ ๋ค์, ์ ๋งํฌ์ ๊ฐ์ฒด๊ฐ ์ ์ดํ๋ 3D ํ๋ฉด ์์น๋ฅผ ๋ฌผ๋ฆฌ ๋ฒํผ์์ ์ถ์ถํฉ๋๋ค.
- Grasp Instruction Annotation (Dexonomy์ฉ): Gemma-3 [29] VLM์ ์ฌ์ฉํ์ฌ Dexonomy์ ๋ํ grasp description์ ์์ฑํฉ๋๋ค. ๊ฐ grasp์ ๋ํด ์ฌ๋ฌ ์์ ์ด๋ฏธ์ง๋ฅผ ๋ ๋๋งํ๊ณ , ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ์ ์ด ์ ๋ณด์ ๊ธฐ๋ฐํ์ฌ VLM์ ํ๋กฌํํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. VLM์ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ์๋ณํ๊ณ , ์ ์ด๋ ๊ธฐ๋ฅ์ ๋ถ๋ถ์ ์ถ๋ก ํ๋ฉฐ, ํ ์คํธ ํํ์ grasp description์ ์์ฑํฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
DextER๋ DexGYS validation set์์ ์ธ์ด ์กฐ๊ฑด๋ถ dexterous grasp ์์ฑ task๋ฅผ ํ๊ฐํ์ต๋๋ค.
- DexGYS ๋ฒค์น๋งํฌ: DextER๋ 67.14%์ grasp ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ ์ด์ SOTA๋ณด๋ค 3.83%p ์ฐ์ํฉ๋๋ค. P-FID (Frรฉchet Distance) ์ ์ 0.20์ ๊ธฐ๋กํ์ฌ ์ด์ SOTA์ธ DexGYSNet [36]์ 5.60 ๋๋น 96.4%์ ์๋ ์ ๋ ฌ(intention alignment) ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ด๋ ์์ฑ๋ grasp๊ฐ ์ธ์ด๋ก ์ง์ ๋ task ์๋์ ํจ์ฌ ๋ ์ ์ผ์นํจ์ ๋ํ๋
๋๋ค.
- Embodied Reasoning (ER)์ ์ญํ : ER์ด ์๋ ๋ชจ๋ธ(w/o ER)์ P-FID๊ฐ 0.20์์ 0.30์ผ๋ก ์ฆ๊ฐ(50% ์ฑ๋ฅ ์ ํ)ํ๊ณ , ์ฑ๊ณต๋ฅ ์ 67.14%์์ 62.37%๋ก ๊ฐ์ํ๋ ๋ฑ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์์ต๋๋ค. ์ด๋ ๋ช ์์ ์ธ ์ ์ด ์์ธก์ด ์๋ ์ ๋ ฌ ๋ฐ ๋ฌผ๋ฆฌ์ ํ์ง ๋ชจ๋์ ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค.
- Ablation Study (Table 2):
- ECoT: ECoT๋ฅผ ์ ๊ฑฐํ๋ฉด P-FID์ ์ฑ๊ณต๋ฅ ๋ชจ๋ ํฌ๊ฒ ์ ํ๋ฉ๋๋ค.
- Token discretization granularity: Action ๋ฐ position ํ ํฐ ๋ชจ๋ N_a = N_{pos} = 256 bins์ด ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- Contact position dropout (p_{drop}): p_{drop} = 0.5๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ ์ ํ dropout์ด ์ ๊ทํ ํจ๊ณผ๋ฅผ ์ ๊ณตํจ์ ํ์ธํ์ต๋๋ค.
- Point Cloud Encoder: PartField [22]๊ฐ Uni3D [49]๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ PartField์ ํํธ ์ธ์ง ํน์ง ์ถ์ถ์ด ์ ์ด ๊ธฐ๋ฐ ์ถ๋ก ์ ์์ฐ์ค๋ฝ๊ฒ ๋ถํฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Zero-Shot Generalization (Table 3, ์๋จ): Dexonomy ๋ฐ์ดํฐ์ ์์ ํ๋ จ ๋ฐ ํ๊ฐ๋ฅผ ์งํํ์ผ๋ฉฐ, DextER๋ โUnseen Objectsโ, โUnseen Grasp Taxonomyโ, โUnseen Bothโ๋ฅผ ํฌํจํ ๋ชจ๋ zero-shot ์๋๋ฆฌ์ค์์ ๊ธฐ์ค์ (baseline) ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ฅ๊ฐํ์ต๋๋ค.
- Steerable Grasp Generation (Table 3, ํ๋จ): DextER์ autoregressive ํน์ฑ์ ํ์ฉํ์ฌ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ ECoT ์ํ์ค๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ grasp ์์ฑ์ ์ ์ดํ ์ ์์ต๋๋ค. 1๊ฐ์์ 5๊ฐ๊น์ง์ ๋งํฌ๋ฅผ ์ง์ ํ์ ๋, ์ง์ ๋ ๋งํฌ์ ์๊ฐ ๋ง์์๋ก ์๋ ์ ๋ ฌ(P-FID, CD)๊ณผ ์ฑ๊ณต๋ฅ ์ด ๋ชจ๋ ํฅ์๋๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
- Contact Reasoning Quality (Table 4): ์ ์ด ๋งํฌ ์์ธก์ ์ํ IoU, Precision, Recall, F1 ๋ฐ ๊ณต๊ฐ ์ ํ๋๋ฅผ ์ํ Position Accuracy (1cm ์๊ณ๊ฐ)๋ฅผ ํ๊ฐํ ๊ฒฐ๊ณผ, ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ๋ณด์ฌ ์ ์ด ๊ธฐ๋ฐ embodied reasoning์ ์ ํ์ฑ์ ์ ์ฆํ์ต๋๋ค.
๊ฒฐ๋ก (Conclusion)
DextER๋ ์ ์ด ์์ธก์ ํตํด embodied reasoning์ ํ์ฉํ๋ ์ธ์ด ์กฐ๊ฑด๋ถ dexterous grasp ์์ฑ์ ๋ํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ๋ณธ ๋ฐฉ๋ฒ๋ก ์ DexGYS์์ 67.14%์ grasp ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ ์ด์ SOTA ๋๋น 3.83%p ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๋ ์ ๋ ฌ์์๋ 96.4%์ ๊ด๋ชฉํ ๋งํ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ด๋ ์ ์ด ์ถ๋ก ์ด task semantics๋ฅผ ์ดํดํ๊ณ ๋ค์ํ๊ณ ์์ ์ ์ธ grasp ๊ตฌ์ฑ์ ์์ฑํ๋ ๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, autoregressive ์์ฑ ํ๋ ์์ํฌ๋ ์ฌ์ฉ์๊ฐ ๋ถ๋ถ์ ์ธ ์ ์ด ์ ์ฝ ์กฐ๊ฑด์ ์ง์ ํ์ฌ ๋ชจ๋ธ์ ์๋ดํ ์ ์๋ steerable grasp generation์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, grasp ์์ฑ์ ๋ํ ์ธ๋ฐํ ์ ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ ํ์ฌํญ (Limitations)
Autoregressive ํ๋ ์์ํฌ๋ compounding errors์ ์ทจ์ฝํ๋ฉฐ, ํ์ฌ ํ๊ฐ๋ ๋จ์ผ์ ์ ์ ๊ฐ์ฒด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด ์ค์ ๋ณต์กํ ์ฅ๋ฉด์์์ ์ ์ฉ์ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ํ, ์์ฐจ์ ์ธ ํ ํฐ ์์ธก ๋ฐฉ์์ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์ฝ์ ์ค ์ ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.