๐ZeroDex ๋ฆฌ๋ทฐ
Code: Coming Soon (๋ฏธ๊ณต๊ฐ)
Jisoo Kim, Sangwon Baik, Taeksoo Kim, SungJoo Kim, Junyoung Lee, Mingi Choi, Hanbyul Joo
Seoul National University ยท RLWRLD
Preprint, 2026
- ๐ก ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ ์ฑ ์ ์๋ก ํ์ตํ์ง ์๊ณ , VLM์ zero-shot ์ถ๋ก (๋ฌด์์ยท์ด๋๋ฅผยท์ด๋ป๊ฒ)์ ๋ค์์ (multi-view) 3D ๊ทธ๋ผ์ด๋ฉ์ผ๋ก ๋ฌผ๋ฆฌ ์คํ์ ์๋ ๋ชจ๋์ ์์ฌ์ฃผ(dexterous) ์กฐ์ ํ๋ ์์ํฌ.
- โ๏ธ VLM์ด ์ธ์ด ์ง์๋ฅผ atomic primitive ์ํ์ค(graspยทapply_actionยทwaypointยทreleaseยทhold)๋ก ๋ถํดํ๊ณ , ๊ฐ 2D ํคํฌ์ธํธ๋ฅผ RANSAC ์ผ๊ฐ์ธก๋ + reference-view ray voting์ผ๋ก 3D๋ก ์ฌ๋ฆฐ ๋ค, ์ดํฌ๋์ค ๊ธฐ๋ฐ ์ grasp์ ๋๊ตฌ ๊ถค์ (Bag of Atomic Actions)์ ์ ๋ ฌํด ์คํํ๋ค.
- ๐ฏ ์ค๋ก๋ด tabletop์์ ๋จ์ผ์์ RGB-D ๊ทธ๋ผ์ด๋ฉ์ ๋ฅ๊ฐํ๊ณ (grasp ์์น์ค์ฐจ 16.43โ4.58cm), ํ์คํฌ๋น 30๊ฐ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ VLA ๋ฒ ์ด์ค๋ผ์ธ(GR00TยทBeing-H0)์ด 0/5๋ก ์ ๋ฉธํ ์์ ๋ zero-shot์ผ๋ก ์ฑ๊ณตํ๋ฉฐ, ์คํจ ๊ฐ์งยท์ฌ๊ณํ์ผ๋ก long-horizon๊น์ง ์ํ.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
ZeroDex๋ โ์์ฌ์ฃผ ์กฐ์์ ์ํด ๋งค๋ฒ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ ์ฑ ์ ํ์ตํด์ผ ํ๋๊ฐโ๋ผ๋ ์ง๋ฌธ์ โ์๋์คโ๋ผ๊ณ ๋ตํ๋ค. ํต์ฌ ๊ด์ฐฐ์, ํ๋ VLM์ด ์ด๋ฏธ zero-shot์ผ๋ก ์กฐ์์ ํ์ ์ง๋ฌธ ๋๋ถ๋ถ(๋ฌด์์ ์ก์์ง, ๋๊ตฌ์ ์ด๋ ๊ธฐ๋ฅ๋ถ๋ฅผ ์ด๋ป๊ฒ ์ฅ์ง, ์ด๋ค ์์๋ก ์์ง์ผ์ง)์ ๋ตํ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ ์ ์ฑ ์ ํ์ตํ๋ ๋์ , ์๋ฏธ ์ถ๋ก (VLM)๊ณผ ๋ฌผ๋ฆฌ ์คํ(primitive ์ปจํธ๋กค๋ฌ)์ ๋ถ๋ฆฌ(modular)ํ๋ค. ๋ค๋ง ์ด ๋ชจ๋์ ์ค๊ณ๋ 2D๋ง์ผ๋ก๋ ํ ์ ์๋ ๊ธฐํ ์๊ฑด์ ์๋๋ค โ ์ด๋๋ฅผ ์ก๊ณ , ๋์ ์ ์ด๋๋ก ์ฎ๊ธฐ๋ฉฐ, ๋๊ตฌ๋ฅผ ์ด๋ป๊ฒ ํ๋๋ฅผ์ง๋ ๋ณธ์ง์ ์ผ๋ก 3D ๊ถค์ ๋์ด๋ค. ZeroDex์ ์ค์ฌ ์์ด๋์ด๋ VLM ๊ทธ๋ผ์ด๋ฉ์ ์ฌ๋ฌ ์์ ์ ๊ฑธ์ณ ์ตํฉํด view-dependentํ 2D ์์ธก์ ์ผ๊ด๋ 3D๋ก ๋ค์ด์ฌ๋ฆฌ๋ ๊ฒ์ด๋ค.

ZeroDex ๊ฐ์(Fig. 1) โ ์ธ์ด ์ง์์ ๋ณด์ ๋ ๋ค์์ ๊ด์ธก์ ์ ๋ ฅ์ผ๋ก, ๊ฐ๊ฑดํ ์ผ๊ฐ์ธก๋ + reference-view ray voting์ผ๋ก task-relevant 3D ๊ทธ๋ผ์ด๋ฉ์ ์ถ๋ก ํ๊ณ , ์ดํฌ๋์ค ๊ธฐ๋ฐ ์ grasp๋ฅผ ์์ฑํด pick-and-placeยทtool-use ๊ณํ์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ action primitive๋ก ์คํํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
VLM \Phi๋ ๋ค์์ ์ด๋ฏธ์ง \mathcal{I}=\{I_v\}_{v=1}^{M}์ ์ง์ l๋ก๋ถํฐ reference view r, ๋ชจ๋ z\in\{\mathrm{pick},\mathrm{tool}\}, ๋ชจ๋๋ณ ๊ทธ๋ผ์ด๋ฉ g_z๋ฅผ ๊ณ ๋ฅธ๋ค:
(r,z,g_z)=\Phi(\mathcal{I},l).
์ด์ด I_r ์์์ primitive ์ํ์ค \mathcal{Q}_r=\{(m_t,\mathcal{P}_r^t)\}_{t=1}^T๋ฅผ ์์ฑํ๋ค(m_t\in\{\mathrm{grasp},\mathrm{apply\_action},\mathrm{waypoint},\mathrm{release},\mathrm{hold}\}). ๊ฐ 2D ํคํฌ์ธํธ๋ ๋ ๊ฐ๋๋ก 3D๋ก ์ฌ๋ฆฐ๋ค. โ RANSAC ์ผ๊ฐ์ธก๋ โ ๋ทฐ ์ (a,b)์ ํ๋ณด X_{a,b}^{t,j}๋ฅผ reprojection ํฉ์๋ก ์ฑ์ ํ๊ณ (S_{\mathrm{tri}}) ์ต๋ ํฉ์ ํ๋ณด๋ฅผ ํํ๋ค. โก reference-view ray voting โ reference ์นด๋ฉ๋ผ ๊ด์ ์ ๋ฐ๋ผ ๊น์ด ํ๋ณด N_\delta๊ฐ๋ฅผ ์ํํด ๊ฐ ๋ทฐ์ ๋ฒํธ ๋ง์ปค๋ก ํฌ์ํ๊ณ , VLM์ด ์ค๋ช d_{t,j}์ ๊ฐ์ฅ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ํฌํ๋ก ๊ณ ๋ฅธ๋ค. ์ต์ข 3D ํคํฌ์ธํธ๋ ์ผ๊ฐ์ธก๋ ํฉ์๊ฐ ์๊ณ \tau_{\mathrm{tri}} ์ด์์ด๋ฉด ์ผ๊ฐ์ธก๋๊ฐ์, ์๋๋ฉด voting๊ฐ์ผ๋ก ๋์ ์ ํํ๋ค:
X_\star^{t,j}=\begin{cases}X_{\mathrm{tri}}^{t,j} & \text{if } \max_{a,b}S_{\mathrm{tri}}(a,b)\geq\tau_{\mathrm{tri}},\\ X_{\mathrm{vote}}^{t,j} & \text{otherwise}.\end{cases}
๋๊ตฌ ์ฌ์ฉ์ Bag of Atomic Actions \mathcal{A}=(c,\mathcal{T},X_s,X_e) โ ์คํฌ ๋ฒ์ฃผ c, 6D ๋๊ตฌ ๊ถค์ \mathcal{T}, ์์ยท๋ ์ต์ปค๋ฅผ ๋ด์ ์ฌ์ฌ์ฉ ๋ผ์ด๋ธ๋ฌ๋ฆฌ โ ์์ ๊ฐ์ c์ ๊ถค์ ์ ๊บผ๋ด, ์ ์ฅ ์ต์ปค (X_s,X_e)๋ฅผ ํ์ฌ ์ฅ๋ฉด์ lifted ํคํฌ์ธํธ (X_{\mathrm{app}},X_{\mathrm{term}})๋ก ๋ณด๋ด๋ ๊ฐ์ฒด๋ณํ T_{\mathrm{align}}์ผ๋ก ์ ๋ ฌํ๋ค(\hat{T}_i=T_{\mathrm{align}}\cdot T_i).
์ฃผ์ ๊ฒฐ๊ณผ: (ํ์ธ๋ ์์น๋ง)
- ์ค๋ก๋ด tabletop์์ ๋จ์ผ์์ RGB-D ๋ฒ ์ด์ค๋ผ์ธ์ ๋งค์นญ ๋๋ ๋ฅ๊ฐ โ โCluttered Precise Pick-and-Placeโ์์ 2/5 โ 4/5.
- ๋ค์์ ์ตํฉ์ด grasp ์์น์ค์ฐจ๋ฅผ ํฌ๊ฒ ์ค์ โ Stereo(RGB-D) L_{\mathrm{grasp}} 16.43cm โ Ours(2 views) 4.58cm, L_{\mathrm{apply}} 2.72 โ 1.35cm(3 views).
- ํ์คํฌ๋น 30๊ฐ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ VLA ๋ ์ข (GR00T, Being-H0)์ ํ๊ฐ ์์ ์์ 0/5๋ก ์ ๋ฉธํ ๋ฐ๋ฉด, ZeroDex๋ zero-shot์ผ๋ก โThrow Away Trashโ 10/10, โBroom Cleanโ 8/10.
- Long-horizon์์ VLM์ด ์คํจ ์ํ๋ฅผ ๊ฐ์งํด ์ฌ๊ณํ(closed-loop retry) โ โOrganize Objectsโ end-to-end 4/6, โCookingโ 1/3.
๊ฒฐ๋ก : ZeroDex๋ โVLM ์ถ๋ก + ๋ค์์ 3D ๊ทธ๋ผ์ด๋ฉ + ์ฌ์ฌ์ฉ primitiveโ์ ๋ชจ๋์ ์กฐํฉ๋ง์ผ๋ก, ํ์คํฌ๋ณ ๋ฐ์ดํฐ ์์งยท๋ฏธ์ธ์กฐ์ ์์ด ์์ฌ์ฃผ tool-use์ long-horizon ์กฐ์์ zero-shot์ผ๋ก ์ํํ ์ ์์์ ์ค์ฆํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
VLM์ ์ด๋ฏธ ์กฐ์์ โ๋ฌด์ยท์ด๋ยท์ด๋ป๊ฒยท์์โ๋ฅผ zero-shot์ผ๋ก ๋ตํ ์ค ์๋ค โ ๊ทธ๋ ๋ค๋ฉด ์ ์ฑ ์ ์๋ก ํ์ตํ์ง ๋ง๊ณ , VLM์ ์๋ฏธ ์ถ๋ก ์ ๋ค์์ ์ผ๋ก 3D์ ๋ฌถ์ด ๊ทธ๋๋ก ์คํํ๋ฉด ๋๋ค. ๋จ, ๊ทธ ๋ฌถ์(grounding)์ด ์์ฌ์ฃผ ์กฐ์์ ์ถฉ๋ถํ ์ ๋ฐํด์ผ ํ๋ค๋ ๊ฒ์ด ZeroDex๊ฐ ๋ ์๋ ์ง์ง ๋ฌธ์ ๋ค.
์ ์ด๋ ค์ด๊ฐ โ ๋ชจ๋์ ์ค๊ณ์ ๊ธฐํ ์๊ฑด
์์ฌ์ฃผ ์กฐ์์ ํธ๋ ์ง๋ฐฐ์ ์ ๊ทผ์ end-to-end๋ค. VLA ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ด๋ฏธ์งยท์ง์์์ ํ๋์ ์ง์ ์์ธกํด ํฐ ์ง์ ์ ์ด๋ค์ง๋ง, ๋ค์ํ ์์ ์์ ์์ ์ ์ด๋ ค๋ฉด ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์์งยทํ์คํฌ๋ณ ์ ์ยทํ๊ฒฝ๋ณ ๋ฏธ์ธ์กฐ์ ์ด ํ์ํด ๊ฐ๋ฐฉํ ํ๊ฒฝ์ ๋ฌผ์ฒดยท๋๊ตฌยท๊ณต๊ฐ ๋ค์์ฑ์ผ๋ก ํ์ฅํ๊ธฐ ์ด๋ ต๋ค. ์ฌ๋ ์์ฐ retargeting๋ ๋ ๋ค๋ฅธ ๊ธธ์ด์ง๋ง, ์ฌ๋โ๋ก๋ด ์์ embodiment ๊ฒฉ์ฐจ๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ์ ์ด์ด๋ ๋ถ์์ ํ grasp๋ฅผ ๋ณ์ ์ถ๊ฐ ์ ์ ๋ RL์ ์๊ตฌํ๋ค.
์ ์๋ค์ ๋ชจ๋์ ์ค๊ณ๊ฐ ๋ ํจ์จ์ ์ด๋ผ ์ฃผ์ฅํ๋ค. ํ๋์ end-to-end ์ ์ฑ ๋์ , ์๋ฏธ ์ถ๋ก (VLM)๊ณผ ๋ฌผ๋ฆฌ ์คํ(motion primitiveยท์ปจํธ๋กค๋ฌ)์ ๋ถ๋ฆฌํ๋ค. ํต์ฌ ๊ด์ฐฐ์ modern VLM์ด zero-shot์ผ๋ก ์กฐ์์ ํ์ ์ง๋ฌธ ๋๋ถ๋ถ์ ๋ตํ๋ค๋ ๊ฒ โ ๋ฌด์์ ์ก์์ง, ๊ธฐ๋ฅ์ ์ดํฌ๋์ค๋ก์ ์ด๋๋ฅผ ์ก์์ง, ์ด๋ป๊ฒ ์์ง์ผ์ง, ์ด๋ค ์์์ธ์ง. ๊ทธ๋ฌ๋ฉด ์ ์ ์ฑ ์ ํ์ตํ ํ์ ์์ด, VLM์ด ๊ณํ์ ๋ด๋ฉด ๋ณต์กํ ์์ ์ pickยทmove ๊ฐ์ ๋จ์ atomic ์์ ์ ์ํ์ค๋ก ๋ถํดํด ์ ๋ขฐํ ์ ์๋ primitive ์ปจํธ๋กค๋ฌ๋ก ์คํํ๋ฉด ๋๋ค.
๊ทธ๋ฌ๋ ์ด ์ค๊ณ๋ 2D ์ถ๋ก ๋ง์ผ๋ก๋ ์ถฉ์กฑํ ์ ์๋ ๊ธฐํ ์๊ฑด์ ๊ฑธ๋ฆฐ๋ค. ์ก์ ์์น๋ 2D๊ฐ ์๋๋ผ 3D๋ก ์ง์ ๋์ด์ผ ํ๊ณ , ๋ ์ค์ํ๊ฒ ์๋์ดํํฐ๋ฅผ ์ด๋ป๊ฒ ์์ง์ด๊ณ ๋ฌผ์ฒด๋ฅผ ์ด๋๋ก ์ฎ๊ธธ์ง๋ 3D ๊ถค์ ๋์ด๋ค. ๋จ์ผ ์์ ์ ์ด๋ฐ 3D ๊ถค์ ์ ์ ๋ขฐ์ฑ ์๊ฒ ์ถ๋ก ํ ๊ธฐํ ์ ๋ณด๋ฅผ ๊ฑฐ์ ๋ด์ง ๋ชปํ๋ค. ๊ทธ๋์ ZeroDex์ ์ค์ฌ ์์ด๋์ด๋ VLM ๊ทธ๋ผ์ด๋ฉ์ ์ฌ๋ฌ ์์ ์ ๊ฑธ์ณ ์ตํฉํ๋ ๊ฒ์ด๋ค.
๋ฐฉ๋ฒ ์์ธ
ZeroDex๋ ๋ณด์ ๋ ๋ค์์ RGB ์ด๋ฏธ์ง์ ๊ณ ์์ค ์ธ์ด ์ง์๋ฅผ ๋ฐ์, ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ arm-hand ์คํ ๊ณํ์ ๋ธ๋ค. ํ์ดํ๋ผ์ธ์ ๋ค ๋จ๊ณ๋ค โ (1) reference-view ์๋ฏธ ๊ทธ๋ผ์ด๋ฉ, (2) ๋ค์์ ์ตํฉ ๊ธฐ๋ฐ 3D lifting, (3) tool-use๋ฅผ ์ํ object-centric atomic action ์ ๋ ฌ, (4) ์ดํฌ๋์ค ๊ธฐ๋ฐ ์ graspยทmotion ์์ฑ.
3.1 Reference-Frame Grounding
VLM \Phi๋ (r,z,g_z)=\Phi(\mathcal{I},l)๋ก reference view r, ๋ชจ๋ z\in\{\mathrm{pick},\mathrm{tool}\}, ๋ชจ๋๋ณ ๊ทธ๋ผ์ด๋ฉ g_z๋ฅผ ๊ณ ๋ฅธ๋ค. pick-and-place๋ฉด g_{\mathrm{pick}}=(O_{\mathrm{tar}},\mathbf{p}_{\mathrm{dst}})(๋์ ๋ฌผ์ฒด + I_r ์์ 2D ๋ชฉ์ ์ง ํฝ์ ), tool-use๋ฉด g_{\mathrm{tool}}=(O_{\mathrm{tool}},c,O_{\mathrm{tar}},\mathbf{p}_{\mathrm{dst}})๋ก ๋๊ตฌ O_{\mathrm{tool}}๊ณผ ์คํฌ ๋ฒ์ฃผ c(pouringยทsweeping ๋ฑ)๊น์ง ์๋ณํ๋ค. ์ด์ด planning ํ๋กฌํํธ l'๋ก primitive ์ํ์ค๋ฅผ ์์ฑํ๋ค:
\mathcal{Q}_r=\Phi(I_r,l')=\{(m_t,\mathcal{P}_r^t)\}_{t=1}^{T},\quad \mathcal{P}_r^t=\{(\mathbf{p}_r^{t,j},d_{t,j})\}_{j=1}^{N_t},
์ฌ๊ธฐ์ m_t\in\{\mathrm{grasp},\mathrm{apply\_action},\mathrm{waypoint},\mathrm{release},\mathrm{hold}\}, ๊ฐ 2D ํคํฌ์ธํธ \mathbf{p}_r^{t,j}๋ 3D uplifting์ ์ํ ์๋ฏธ ์ค๋ช d_{t,j}์ ์ง์ง์ด์ง๋ค. pick์ (grasp, waypoint, release), tool-use๋ (grasp, apply_action, release/hold) ๊ตฌ์กฐ๋ค. ํคํฌ์ธํธ ์๋ tool-use์ grasp ๋จ๊ณ์์๋ง N_t=2(์ฅ ์ + ๊ธฐ๋ฅ tip, ์: ๋น์๋ฃจ ๋จธ๋ฆฌยท์ฃผ์ ์ ์ฃผ๋ฅ์ด), ๋๋จธ์ง๋ N_t=1.
3.2 Multi-View Fusion-Based 3D Lifting
๋จ์ผ ์์ ์ ๊น์ด ๋ชจํธ์ฑ๊ณผ ๋ค์์ ๊ฐ๋ฆผ์ ๋์์ ๋๊ธฐ ์ํด ์ผ๊ฐ์ธก๋ + reference-view ray voting์ ๊ฒฐํฉํ๋ค. ๊ฐ ํคํฌ์ธํธ์ ๋ํด ๋ชจ๋ ๋ทฐ์์ view-wise 2D ๊ทธ๋ผ์ด๋ฉ \mathbf{p}_v^{t,j}=\Phi(I_v,l'')๋ฅผ ์ป๋๋ค.
๋จผ์ RANSAC ์คํ์ผ ์ผ๊ฐ์ธก๋: ๋ทฐ ์ (a,b)์ ํ๋ณด X_{a,b}^{t,j}=\operatorname{Triangulate}(\mathbf{p}_a^{t,j},\mathbf{p}_b^{t,j})๋ฅผ, reprojection ์ค์ฐจ๊ฐ ํฝ์ ์๊ณ \epsilon_{\mathrm{tri}} ์ดํ์ธ ๋ทฐ ์๋ก ์ฑ์ ํ๋ค:
S_{\mathrm{tri}}(a,b)=\sum_{v=1}^{M}\mathbf{1}\!\left[\left\|\pi_v(X_{a,b}^{t,j})-\mathbf{p}_v^{t,j}\right\|_2\leq\epsilon_{\mathrm{tri}}\right],
์ต๋ ํฉ์ ํ๋ณด๋ฅผ X_{\mathrm{tri}}^{t,j}๋ก ํํ๋ค. ๋ณด์ ์ถ์ ์ผ๋ก reference-view ray voting: reference ๊ด์ ์ ๋ฐ๋ผ ๊น์ด ํ๋ณด X_n^{t,j}๋ฅผ N_\delta๊ฐ ์ํํด, ๊ฐ ๋น-reference ๋ทฐ์ ๋ฒํธ ๋ง์ปค๋ก ํฌ์ํ \tilde{I}_v^{t,j}๋ฅผ ๋ง๋ค๊ณ VLM์ด d_{t,j}์ ๊ฐ์ฅ ๋ง๋ ์ธ๋ฑ์ค \mathcal{C}_v^{t,j}๋ฅผ ๊ณ ๋ฅธ๋ค. ํฌํ๋ฅผ ํฉ์ฐํด X_{\mathrm{vote}}^{t,j}๋ฅผ ์ป๋๋ค:
S_{\mathrm{vote}}^{t,j}(n)=\sum_{v\neq r}\mathbf{1}[n\in\mathcal{C}_v^{t,j}],\qquad X_{\mathrm{vote}}^{t,j}=X_{\arg\max_n S_{\mathrm{vote}}^{t,j}(n)}^{t,j}.
์ต์ข ํคํฌ์ธํธ X_\star^{t,j}๋ ์ผ๊ฐ์ธก๋ ํฉ์๊ฐ \tau_{\mathrm{tri}} ์ด์์ด๋ฉด X_{\mathrm{tri}}, ์๋๋ฉด robustํ X_{\mathrm{vote}}๋ก ๋์ ์ ํํ๋ค(Ping์ ์). ๋ ๊ฐ๋๋ ๊ฐ์ ๋ค์์ ์ตํฉ์ ์๋ณด์ ๋ถ๋ถ์ผ๋ก, ๊ฐ๋ฆผยท์์ ๋ชจํธ์ฑ ์๋์์ ์ ๋ขฐํ ๋งํ 3D ๊ทธ๋ผ์ด๋ฉ์ ๋ง๋ ๋ค. ๋ชจ๋ ํคํฌ์ธํธ๋ ๋ณด์ ์ธ๋ถํ๋ผ๋ฏธํฐ๋ก world frame์ผ๋ก ๋ณํ๋๋ค.

๊ทธ๋ผ์ด๋ฉ ๋น๊ต(Fig. S1) โ ์ด์์ ํ ์ฅ๋ฉด์์ ๋จ์ผ์์ RGB-D ๋ฒ ์ด์ค๋ผ์ธ vs ๋ค์์ ๊ทธ๋ผ์ด๋ฉ. ๋นจ๊ฐยทํ๋ยท์ด๋ก ๊ตฌ๋ ๊ฐ๊ฐ ์์ธก๋ graspยทwaypointยทdestination.
3.3 Object-Centric Atomic Action Alignment
pick-and-place๋ ๋์ ๋ฌผ์ฒด์ ํ์ฌ ์์ธ์์ lifted release ํคํฌ์ธํธ๊น์ง์ ์ ์ก ๊ถค์ ์ off-the-shelf ๋ชจ์ ์์ฑ์ผ๋ก ๋ง๋ค๋ฉด ๋๋ค. ๋ฐ๋ฉด tool-use๋ โ๋๊ตฌ๊ฐ ๋์์ ๋ํด ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋๊ฐโ๋ผ๋ ์ถ๊ฐ motion prior๊ฐ ํ์ํ๋ค. ์ด๋ฅผ ์ํด Bag of Atomic Actions๋ฅผ ๋์ ํ๋ค โ ๋๊ตฌ๊ฐ ๋์์ ์๋์ ์ผ๋ก ์ด๋ป๊ฒ ์์ง์ด๋์ง๋ฅผ ๋ถํธํํ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ object-centric primitive ๋ผ์ด๋ธ๋ฌ๋ฆฌ:
\mathcal{A}=(c,\mathcal{T},X_s,X_e),\qquad \mathcal{T}=\{T_i\}_{i=0}^{N_a},\ T_i\in SE(3),
c๋ ์ฌ์ ์ ์ ์คํฌ ๋ฒ์ฃผ, \mathcal{T}๋ ๋๊ตฌ์ 6D ๊ถค์ , X_s,X_e\in\mathbb{R}^3๋ ์ ์ฅ๋ ์์ยท๋ ์ต์ปค๋ค. ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ๊ธฐ๋ก๋ ์์ฐ๊ณผ ์์ฑ ๊ถค์ ์ผ๋ก ์คํ๋ผ์ธ ๊ตฌ์ถ๋๋ฉฐ, ๊ตฌํ์์ ์์ฑ ๊ถค์ ์ VLMPose๋ก ์ป๋๋ค. ํ ์คํธ ์ ๊ฐ์ c์ atomic action์ ๊บผ๋ด, ์ ์ฅ ์ต์ปค (X_s,X_e)๋ฅผ ํ์ฌ ์ฅ๋ฉด์ lifted apply_actionยทterminal ํคํฌ์ธํธ (X_{\mathrm{app}},X_{\mathrm{term}})๋ก ๋ณด๋ด๋ ๊ฐ์ฒด๋ณํ T_{\mathrm{align}}\in SE(3)๋ฅผ ๊ตฌํด ์ ์ฅ ๊ถค์ ์ ์ ์ฉํ๋ค:
\hat{\mathcal{T}}=\{\hat{T}_i\}_{i=0}^{N_a},\qquad \hat{T}_i=T_{\mathrm{align}}\cdot T_i.
์ ๋ ฌ๋ \hat{\mathcal{T}}๊ฐ ๋ค์ ๋จ๊ณ์ ๋๊ตฌ graspยท๋ชจ์ ์์ฑ์ผ๋ก ๋์ด๊ฐ๋ค.

Bag of Atomic Actions(Fig. S2) โ (A) โPour water from the kettleโ ํ๋กฌํํธ๋ก VLMPose๊ฐ ์์ฑํ ๋ฌผ์ฒด ๊ถค์ , (B) ์ค๋ก๋ด์์ ์คํ๋ object-centric atomic action๋ค.
3.4 Dexterous Affordance-Guided Grasp and Motion Generation
lifted grasp ํคํฌ์ธํธ X_{\mathrm{grasp}}๋ ์๋ฏธ ์ต์ปค์ผ ๋ฟ, ์์ฌ์ฃผ grasp์๋ ์์ ์กฐ๊ฑด์ ์ ์ด ์์ญ์ด ๋ ํ์ํ๋ค. ์กฐ์ ๋ฌผ์ฒด O_m(pick์ O_{\mathrm{tar}}, tool-use๋ O_{\mathrm{tool}})์ ๋ํด ๊ฐ ๋ทฐ์์ grasp ํคํฌ์ธํธ๋ฅผ ํฌ์ํด ์ดํฌ๋์ค ํ๋กฌํํธ๋ก 2D graspable bounding box B_v=\Phi(I_v,l''')๋ฅผ ์์ธกํ๋ค. ์ด๋ฅผ 3D๋ก ์ฌ๋ฆฌ๊ธฐ ์ํด O_m ๋ฉ์์ ๊ฐ ์ ์ q_i๋ฅผ ๋ชจ๋ ๋ทฐ์ ํฌ์ํ ๋ค์์ inclusion score๋ก ์ดํฌ๋์ค ์์ญ์ ์ ์ํ๋ค:
s(q_i)=\frac{1}{M}\sum_{v=1}^{M}\mathbf{1}\!\left[\pi_v(q_i)\in B_v\right],\qquad \mathcal{R}_{\mathrm{aff}}=\{q_i\mid s(q_i)\geq\tau\}.
\mathcal{R}_{\mathrm{aff}}์์ ์์ก์ดํ์ cylindrical template sampler, ์ผ๋ฐ ํ์์ optimization ๊ธฐ๋ฐ generator๋ก ์ grasp ํ๋ณด G๋ฅผ ๋ง๋ ๋ค. ๋ฌผ๋ฆฌ ํ๋น์ฑ์ ์ํด, ๋ฌผ์ฒด ๋ฐฐ์นยท๋๊ตฌ ์ข ๋จ ์์ธ๋ฅผ ์ ํ๋ ๊ทธ๋ผ์ด๋ฉ ์ ์ collision-aware ์์น ์ ์ ๋ฅผ ์ ์ฉํ๋ค โ ํ๊ฒฝ ์นจํฌ ๊น์ด \phi_m(\cdot)์ด 0์ด ๋๋ ๊ฐ์ฅ ๊ฐ๊น์ด ์ถฉ๋-์๋ ์์น๋ฅผ ๊ตญ์ ์์ง ๊ฒฉ์์์ ์ฐพ๋๋ค:
X_{\mathrm{loc}}^*=\arg\min_{X'\in\mathcal{G}(X_{\mathrm{loc}})}\|X'-X_{\mathrm{loc}}\|_2\quad\text{s.t.}\quad\phi_m(X')=0.
์ ์ ๋ ํคํฌ์ธํธ๋ก O_m์ 6D ๊ถค์ \mathcal{T}_{\mathrm{obj}}๋ฅผ ๊ตฌ์ฑํ๊ณ , ๊ฐ grasp ํ๋ณด g์ ๋ํด off-the-shelf arm-hand ๋ชจ์ ์์ฑ๊ธฐ๊ฐ \mathcal{T}_{\mathrm{obj}}๋ฅผ ์ถ์ข ํ๋ฉฐ ๊ธฐ๊ตฌํยท์ถฉ๋ ์ ์ฝ์ ํผ๋ค: (\mathcal{T}_{\mathrm{robot}},\eta)=f_{\mathrm{motion}}(\mathcal{T}_{\mathrm{obj}},g). ํ๋น์ฑ \eta=1์ธ ์์ ์ค๋ก๋ด ์คํ์ผ๋ก ์ ํํ๋ค.

์ดํฌ๋์ค ๊ทธ๋ผ์ด๋ฉยทgrasp ์์ฑ(Fig. S3) โ ๋ค์์ ์ ์ดํฌ๋์ค bounding box๋ฅผ ๊ฒฐํฉํด 3D ์ดํฌ๋์ค ์์ญ์ ๋ง๋ค๊ณ ์ grasp๋ฅผ ์์ฑํ๋ค.
์ง๊ด โ ์ ๋ค์์ + voting์ธ๊ฐ
VLM์ 2D ๊ทธ๋ผ์ด๋ฉ์ ์๋ฏธ์ ์ด๋ฉด์ ์์ ์์กด์ ์ด๋ค. ๋ทฐ๋ง๋ค ๋ณด์ด๋ ๋ถ๋ถ์ด ๋ค๋ฅด๊ณ , ๊ฐ๋ฆผ์ด ์์ธก ์์น๋ฅผ ํ๋ค๋ฉฐ, ๋ชจํธํ ์์ ๋งฅ๋ฝ์ ์นด๋ฉ๋ผ๋ง๋ค ๋ค๋ฅธ ์์ธก์ ๋ธ๋ค. ์ผ๊ฐ์ธก๋์ ๋ทฐ ์ฌ์ด์ ๊ฐํ ๊ธฐํ ์ ์ฝ(ํนํ wide-baseline ์)์ ํ์ฉํด ์ ํํ์ง๋ง, ์ผ๋ถ ๋ทฐ์ 2D ์์ธก์ด ์ด๊ธ๋๋ฉด ํฉ์๊ฐ ๊นจ์ง๋ค. ๊ทธ๋ reference-view voting์ด reference ๊ด์ ์์์ โ๋ค๋ฅธ ๋ทฐ๋ค๊ณผ ๊ฐ์ฅ ์ผ๊ด๋ ๊น์ด ํ๋ณดโ๋ฅผ ๊ณจ๋ผ ์ถ์ ์ reference์ ๋จ๋จํ ๊ณ ์ ํ๋ค. ๋์ ํฉ์ ์ ์๋ก ๋์ ์ ํํ๋ ๊ฒ์ด ์ด ๋ฐฉ๋ฒ์ ๊ฒฌ๊ณ ํจ์ ํต์ฌ์ด๋ค โ ๊ธฐํ๊ฐ ์ถฉ๋ถํ๋ฉด ์ผ๊ฐ์ธก๋, ๋ถ์กฑํ๋ฉด robust voting.
์คํ
ํ๊ฐ๋ ์ค์ธ๊ณ tabletop์์ zero-shot ์กฐ์์ ๋ค๋ฃฌ๋ค. ๋ค ๋ฅ๋ ฅ์ ๋ณธ๋ค โ (1) distractor ์ ๋์ ๊ทธ๋ผ์ด๋ฉ + ์ถฉ๋ ๊ฒฌ๊ณ ์ฑ(์ถ๋ก ํ ์ฐ๋ ๊ธฐ๋ฅผ ๋ฐ๊ตฌ๋์ ๋ฃ๊ธฐ), (2) ๊ณต๊ฐ๊ด๊ณ ์ถ๋ก (๋๊ตฌ๋ฅผ ์คํ ๋ธ์ ๋๊ธฐ), (3) ์ดํฌ๋์ค ๊ธฐ๋ฐ tool-use(๋น์๋ฃจ๋ก ์ธ๊ธฐ), (4) long-horizon ์ํ์ฑ(3โ4๊ฐ ๋ฌผ์ฒด ์๋ฆฌยท์ ๋ฆฌ).
ํ๋์จ์ด. xArm + Inspire ์์ฌ์ฃผ ์, ๋ณด์ ๋ ๋ค์ RGB ์นด๋ฉ๋ผ(stereo pair ํฌํจ). ๊น์ด๋ FoundationStereo, ๋ค๋ฌผ์ฒด 6D ์์ธ๋ FoundationPose๋ฅผ ์ด๋ค.
๋ฒ ์ด์ค๋ผ์ธ. โ ๋จ์ผ ์์ ์์ 2D ํคํฌ์ธํธ๋ฅผ ์์ธกํด ์ ๋ ฌ ๊น์ด๋งต์ผ๋ก 3D๋ก ์ฌ๋ฆฌ๋ RGB-D ๊ทธ๋ผ์ด๋ฉ, โก ํ์คํฌ๋น 30๊ฐ teleoperation ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ VLA ๋ ์ข (GR00T, Being-H0). ZeroDex๋ ๊ฐ์ค์น ๊ฐฑ์ ยทํ์คํฌ ์์ฐ ์์ด ์ ์ ์ผ๋ก zero-shot์ด๋ค.

์ ์ฑ ๊ฒฐ๊ณผ(Fig. 2) โ ๊ฐ ๊ณ ์์ค ์ง์ l์ ๋ํด 3D ๊ทธ๋ผ์ด๋ฉ์ ์ถ๋ก ํ๊ณ , tool-use๋ object-centric atomic action์ ํ์ฌ ์ฅ๋ฉด์ ์ ๋ ฌํ๋ค. ์ง์ ยท๊ฐ์ ์คํ์ผ ์ง์ ๋ชจ๋์์ ๋ค์ํ ํ๊ฒฝ์ ๊ฑธ์ณ ๊ทธ๋ผ์ด๋ฉ ์ฑ๊ณต.
์ค๋ก๋ด ์ฑ๊ณต๋ฅ . ๋จ์ผ์์ RGB-D ๋๋น ๋งค์นญ ๋๋ ํฅ์ โ โThrow Away Trashโ 4/5 โ 5/5, โPlace Pot on Stoveโ 4/5 โ 4/5. ๊ฐ์ ์ ์ด์์ ยท์ ๋ฐ ๋ฐฐ์น์์ ๋๋๋ฌ์ ธ โCluttered Precise Pick-and-Placeโ๋ 2/5 โ 4/5(Table 1). 30 ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ VLA ๋ ์ข ์ ํ๊ฐ ์์ ์์ ๋ชจ๋ ์คํจ(0/5)ํ ๋ฐ๋ฉด, ZeroDex๋ zero-shot์ผ๋ก โThrow Away Trashโ 10/10, โBroom Cleanโ 8/10์ ๋ฌ์ฑ(Table 2).
3D ๊ทธ๋ผ์ด๋ฉ ํ์ง(Table 3). ๋ค์์ ์ตํฉ์ด grasp ์์น์ค์ฐจ๋ฅผ ํฌ๊ฒ ์ค์ธ๋ค.
| Method | L_{\mathrm{grasp}} (cm) โ | L_{\mathrm{apply}} (cm) โ | \phi_m(X_{\mathrm{wp}}) โ |
|---|---|---|---|
| Stereo (RGB-D) | 16.43 | 2.72 | 9.91 |
| Ours (2 views) | 4.58 | 1.70 | 9.81 |
| Ours (3 views) | 4.60 | 1.35 | 10.95 |
| Ours (5 views) | 4.77 | 1.94 | 9.78 |
| Ours (w/ refinement) | 4.77 | 1.63 | 9.60 |
๋ทฐ ์๋ฅผ ๋๋ฆฌ๋ฉด ์ด ์ฅ๋ฉด๋ค์์ ์ํ ์ฒด๊ฐ์ด๋ค โ wide-baseline ์์ด ์ด๋ฏธ ๊ฐํ ๊ธฐํ ์ ์ฝ์ ์ฃผ๊ธฐ ๋๋ฌธ. collision-aware ์ ์ ๊ฐ ์นจํฌ(penetration) ์ค์ฐจ๋ฅผ ์ต์ ๋ก ๋ฎ์ถ๋ค.
Long-horizon(Table 4). primitive ์์ค ํ์ํ๊ฐ ์์ฐ์ค๋ฝ๊ฒ closed-loop๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ค โ ์คํจ๊ฐ ๋๋ฉด ํด๋น subtask๋ฅผ retry budget ์์์ ์ฌ๊ทธ๋ผ์ด๋ฉยท์ฌ๊ณํ์ผ๋ก ๋ณต๊ตฌํ๋ค. โOrganize Objectsโ๋ ๋จ๊ณ๋ณ 6/6ยท5/6ยท3/5ยท3/3, end-to-end 4/6; โCookingโ์ 3/3ยท3/3ยท1/3, end-to-end 1/3. ์คํจ๋ ์ฃผ๋ก arm ๊ด์ ํ๊ณยทํ๊ฒฝ ์ถฉ๋ยท๋ถ์์ grasp์์ ์จ๋ค.

Long-horizon ์ ์ฑ ๊ฒฐ๊ณผ(Fig. 3) โ ์ฌ๋ฌ subtask๋ก ๊ตฌ์ฑ๋ ์๋๋ฆฌ์ค. ์ ์์์ grasp๊ฐ ์คํจํ์ VLM์ด ์คํจ ์ํ๋ฅผ ๊ฐ์งํ๊ณ ๋ค์ ํ๋์ ์ฌ๊ณํํ๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ๋ฐ์ดํฐ ์๋ ์์ฌ์ฃผ tool-use. ํ์คํฌ๋ณ ์์ฐยท๋ฏธ์ธ์กฐ์ ์์ด zero-shot์ผ๋ก pouringยทsweeping ๊ฐ์ ๊ธฐ๋ฅ์ tool-use๋ฅผ ์ํํ๋ค. 30 ์์ฐ VLA๊ฐ 0/5์ธ ์์ ์ zero-shot์ผ๋ก ํธ๋ ๋๋น๋ ๋ชจ๋์ ์ค๊ณ ์ฃผ์ฅ์ ๊ฐํ ์ฆ๊ฑฐ๋ค.
- ๋ค์์ ์ตํฉ์ด ๊ทธ๋ผ์ด๋ฉ ์ ๋ฐ๋๋ฅผ ์ค์ ๋ก ๋์ด์ฌ๋ฆฐ๋ค. L_{\mathrm{grasp}} 16.43 โ 4.58cm๋ ์์ฌ์ฃผ grasp์ ์์ ์ฑ์ ์ง๊ฒฐ๋๋, ์ธก์ ์ผ๋ก ๋ถ๋ฆฌ๋ ์ด๋์ด๋ค. ์ผ๊ฐ์ธก๋โ๏ธvoting ๋์ ์ ํ์ด๋ผ๋ ์ค๊ณ๋ ๊น๋ํ๋ค.
- closed-loop๊ฐ ํ์์์ ์์ฐํ ๋์จ๋ค. primitive ์ํ์ค ํ์ ๋์ VLM์ด ๋จ๊ณ ์งํ์ ๊ฒ์ฆํ๊ณ ์คํจ subtask๋ง ์ฌ๊ณํํ ์ ์๋ค โ long-horizon์ ์ค์ฉ์ ๊ฒฌ๊ณ ํจ.
- ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ์ถ์ํ(BoAA). ๋๊ตฌ ์ด๋์ object-centric 6D ๊ถค์ + ์ต์ปค๋ก ๋ฌถ์ด ์ฅ๋ฉด์ ๊ฐ์ฒด์ ๋ ฌํ๋ ๋ฐฉ์์ ์ ์ฅ๋ฉดยท๋ฌผ์ฒด๋ก์ ์ผ๋ฐํ๋ฅผ ๊ฐ์ธ๊ฒ ๋ง๋ ๋ค.
์ฝ์ ยทํ๊ณ
- 2D VLM ์ ๋ขฐ์ฑ์ ์ํ์ด ๋ฌถ์ธ๋ค(์ ์ ์ธ์ ). ๋ค์์ liftingยท๊ตญ์ ์ ์ ๊ฐ ๊ธฐํ ์ผ๊ด์ฑ์ ๋์ฌ๋, ์์ ๋ถํดยท์ดํฌ๋์ค ์ ํยท2D ์๋ฏธ ๊ทธ๋ผ์ด๋ฉ์ ์ค๋ฅ๋ ํ๋ฅ ์คํ ์คํจ๋ก ์ ํ๋๋ค. ์์คํ ์ ์ฒ์ฅ์ด ๊ณง VLM์ ์ฒ์ฅ์ด๋ค.
- off-the-shelf ๋ชจ์ ํ๋๋ ์์กด(์ ์ ์ธ์ ). ๊ธฐ๊ตฌํ์ ํน์ด์ ยท์ถฉ๋ ๊ฒ์ฌ timeoutยท๋ถ์์ grasp๊ฐ ์ฌ์ ํ ์คํจ๋ฅผ ์ ๋ฐํ๊ณ ์ถ๋ก โ์คํ ์ง์ฐ(latency)์ ํค์ด๋ค.
- in-hand manipulation ๋ฏธ์ง์(์ ์ ์ธ์ ). ์ ์์์ ๋ฌผ์ฒด ํ์ , ๊ฐ์ ์กฐ์, ์์ ์ฅ ๋๊ตฌ์ ๋ฒํผ ๋๋ฅด๊ธฐ ๊ฐ์ ์ง์ง dexterous in-hand ๋ฅ๋ ฅ์ ๋ฒ์ ๋ฐ์ด๋ค โ ํ ํ์์ object-centric ์กฐ์ยทtool-use์ ํ์ ๋๋ค.
- ํ๊ฐ ๊ท๋ชจ๊ฐ ์๋ค. ์ค๋ก๋ด ํ๋ ์์ ๋น 5โ10ํ ์๋, long-horizon์ ์์ ๋น 3โ6ํ๋ก ํ๋ณธ์ด ์์ ํต๊ณ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ ผํ๊ธฐ ์ด๋ ต๋ค. โCookingโ end-to-end 1/3 ๊ฐ์ ์์น๋ ํ๋ณธ ๋ณ๋์ ์ฌ์ง๊ฐ ํฌ๋ค.
- ์ธํ๋ผ ๊ฐ์ ์ด ๋ฌด๊ฒ๋ค. ๋ณด์ ๋ ๋ค์์ (+stereo) ์นด๋ฉ๋ผ, FoundationStereo/FoundationPose, ๋ฌผ์ฒด ๋ฉ์(์ดํฌ๋์ค ์ ์ ํฌํ์ฉ)๋ฅผ ์ ์ ํ๋ค. โ๋ฐ์ดํฐ ์์ดโ๋ ๋ง์ง๋ง ์ฅ๋ฉด ์ ์ ยท์บ๋ฆฌ๋ธ๋ ์ด์ ยท๋ฌผ์ฒด ๋ชจ๋ธ์ด๋ผ๋ ๋ค๋ฅธ ๋น์ฉ์ ์ง๋ค.
- ๋ค์ค VLM ์ง์ ๋น์ฉ. ๋ทฐ๋ง๋ค, ํคํฌ์ธํธ๋ง๋ค, voting ํ๋ณด๋ง๋ค VLM์ ๋ถ๋ฅด๋ ๊ตฌ์กฐ๋ผ ํธ์ถ ์ยท์ง์ฐยท๊ธ์ ๋น์ฉ์ด ๋จ์ผ ์ ์ฑ ์ถ๋ก ๋ณด๋ค ํฌ๋ค(๋ ผ๋ฌธ์ ์ ๋ ๋น์ฉ์ ๋ณธ๋ฌธ์์ ๊ฐ์กฐํ์ง ์์).
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ๋งค๊น
ZeroDex๋ ์ธ ํ๋ฆ์ ๊ต์ฐจ์ ์ ์๋ค. ์ฒซ์งธ, manipulation์ ์ํ VLA: ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ๋ก ํ๋์ ์ง์ ์์ธกํ๋ ๊ณ์ด์ ๊ฐํ์ง๋ง ์ ๋ฌผ์ฒดยท๋๊ตฌยทembodiment์ ์ถ๊ฐ ๋ฐ์ดํฐ/์ ์์ ์๊ตฌํ๋ค โ ZeroDex๋ ์ ๋ฐ๋๋ก ๊ฐ์ค์น ๊ฐฑ์ ์์ด zero-shot์ผ๋ก ์๋ํ๋ค. ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ธ UniDex ๋ฆฌ๋ทฐ(์ฌ๋ ์์โ๋ก๋ด ๋ฐ์ดํฐ๋ก VLA ์ฌ์ ํ์ต)์๋ โ๋ฐ์ดํฐ๋ก ํ์ต vs VLM์ผ๋ก ์ถ๋ก โ์ด๋ผ๋ ๋์ฒ์ ์์ ํฅ๋ฏธ๋ก์ด ๋๋น๋ฅผ ์ด๋ฃฌ๋ค. embodied reasoning์ ๋ด์ฌํํ VLA์ธ MolmoAct2 ๋ฆฌ๋ทฐ์๋ โ์ถ๋ก ์ ์ ์ฑ ์ ํ์ต vs ์ฌ์ ํ์ต VLM์ ๊ทธ๋๋ก ์ฌ์ฉโ์ผ๋ก ๋น๊ตํ ๋งํ๋ค. ๋์งธ, foundation model ๊ธฐ๋ฐ zero-shot ์กฐ์: LLM์ผ๋ก ์ฝ๋ยท๊ณํ์ ์์ฑํ๊ฑฐ๋(code-gen), ์ด๋ฏธ์ง์ ํคํฌ์ธํธยทvisual markยท์ดํฌ๋์ค๋ฅผ ์ฐ๋(visual-prompting) ๊ณ์ด๊ณผ ๋๊ธฐ๋ฅผ ๊ณต์ ํ์ง๋ง, ๋ง์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ด ์์ฌ์ฃผ ์กฐ์์ ํ์ํ task-relevant 3D ๊ธฐํ(์ ์ด์ ยท๋ฐฐ์น ๋ชฉํยท๋๊ตฌ ๊ถค์ )์ ์ทจ์ฝํ image-space/ํฌ์ ์ค๊ฐํํ์ ๋จธ๋ฌธ๋ค โ ZeroDex๋ ์ด๋ฅผ ์ง์ 3D์ ๊ทธ๋ผ์ด๋ฉํ๋ค. ์ ์งธ, 3D ๊ทธ๋ผ์ด๋ฉยท์์ฌ์ฃผ ์คํ: 2D ๊ด์ธก์ multi-view stereo lifting์ VLM ์๋ฏธ ๊ทธ๋ผ์ด๋ฉ๊ณผ ๊ฒฐํฉํ๋ค. ์์ฌ์ฃผ grasp ์์ฑ์ ๋ค๋ฃจ๋ GenHand ๋ฆฌ๋ทฐ์๋ grasp ํฉ์ฑ์ ์ ๋ ฅ(์ดํฌ๋์ค ์์ญ)์ ์ด๋ป๊ฒ ์ป๋๋์ ๊ด์ ์์ ๋ง๋ฟ๋๋ค.
์์ฝ
ZeroDex์ ๊ธฐ์ฌ๋ โ์์ฌ์ฃผ ์กฐ์์ ์ํด ์ ์ฑ ์ ์๋ก ํ์ตํ ํ์๊ฐ ์๋ค โ VLM์ zero-shot ์ถ๋ก ์ ๋ค์์ 3D ๊ทธ๋ผ์ด๋ฉ์ผ๋ก ์ถฉ๋ถํ ์ ๋ฐํ๊ฒ ๋ฌถ์ผ๋ฉด ๋๋คโ๋ ๋ชจ๋์ ๊ด์ ์ ์ค์ฆํ ๋ฐ ์๋ค. VLM์ด ์ง์๋ฅผ atomic primitive๋ก ๋ถํดํ๊ณ , ๊ฐ 2D ํคํฌ์ธํธ๋ฅผ ์ผ๊ฐ์ธก๋+ray voting์ผ๋ก 3D๋ก ์ฌ๋ฆฌ๋ฉฐ, ์ดํฌ๋์ค grasp์ Bag-of-Atomic-Actions ๋๊ตฌ ๊ถค์ ์ ์ฅ๋ฉด์ ์ ๋ ฌํด ์คํํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋จ์ผ์์ RGB-D๋ฅผ grounding ์ ๋ฐ๋์์ ๋ฅ๊ฐํ๊ณ (16.43โ4.58cm), 30 ์์ฐ VLA๊ฐ ์ ๋ฉธํ ์์ ์ zero-shot์ผ๋ก ํ๋ฉฐ, ์คํจ ๊ฐ์งยท์ฌ๊ณํ์ผ๋ก long-horizon๊น์ง ๋ฟ๋๋ค. ํ๊ณ๋ ๋ถ๋ช ํ๋ค โ 2D VLM๊ณผ off-the-shelf ํ๋๋์ ์ฒ์ฅ์ด ๋ฌถ์ด๊ณ , in-hand manipulation์ ๋ชป ํ๋ฉฐ, ํ๊ฐ ํ๋ณธ์ด ์๊ณ , ๋ณด์ ๋ค์์ ยท๋ฌผ์ฒด ๋ฉ์๋ผ๋ ์ธํ๋ผ ๋น์ฉ์ ์ง๋ค. ๊ทธ๋ผ์๋ โ์ถ๋ก ์ ์ฌ์ ํ์ต VLM์ ๋งก๊ธฐ๊ณ , ์ ๋ฐ๋๋ ๋ค์์ ๊ธฐํ๋ก ๋ฉ์ด๋คโ๋ ๋ถ์ ์ ๋ฐ์ดํฐ ๋น์ผ ์์ฌ์ฃผ ์กฐ์์ ๋ํ ์ค๋๋ ฅ ์๋ ๋์ ์ฒญ์ฌ์ง์ด๋ค. (์ฝ๋๋ ์ถํ ๊ณต๊ฐ ์์ โ ์ฌํ ํ๊ฐ๋ ๊ณต๊ฐ ํ ๊ฐ๋ฅ.)