๐UniDex ๋ฆฌ๋ทฐ
Gu Zhang ์ธ (UniDex ํ)
CVPR 2026
- ๐ก ์ฌ๋์ 1์ธ์นญ(egocentric) ๋น๋์ค๋ฅผ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฐ๊ฟ ๋ง๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณผ, ์ ์ข ๋ฅ๋ฅผ ๊ฐ๋ก์ง๋ฅด๋ ํต์ผ ํ๋๊ณต๊ฐ(FAAS), 3D VLA ์ ์ฑ ์ ๋ฌถ์ด ๋ฒ์ฉ ์์ฌ์ฃผ(dexterous) ์ ์ด์ ํ์ด๋ฐ์ด์ ์ค์ํธ๋ฅผ ์ ์ํ๋ค.
- โ๏ธ ์ฌ๋ ์๊ฐ๋ฝ ๋ ๊ถค์ ์ 6-DoF ๋ฒ ์ด์ค ๋ณด์ ๊ณผ ํจ๊ป ๋ก๋ด์ผ๋ก retargetํ๊ณ ์ฌ๋ ์์ ๋ง์คํนํ 3D ํฌ์ธํธํด๋ผ์ฐ๋๋ก ํ์ตํ๋ฉฐ, ๊ธฐ๋ฅ์ ์ผ๋ก ๊ฐ์ ์ก์ถ์์ดํฐ๋ฅผ ๊ณต์ ์ขํ๋ก ๋ฌถ์ด(FAAS) ์ฌ๋ฌ ์์ ์ ์ดํ๊ณ , flow-matching VLA๋ฅผ ๋๊ท๋ชจ ์ฌ์ ํ์ต ํ ํ์คํฌ๋น 50๊ฐ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ค.
- ๐ฏ ๋ ๊ฐ์ ์ยท5๊ฐ ๋๊ตฌ์ฌ์ฉ ํ์คํฌ์์ ํ๊ท task progress 81.0%(์ฑ๊ณต๋ฅ 76.0%)๋ก DPยทDP3ยทฯโ ๋ฒ ์ด์ค๋ผ์ธ์ ํฐ ํญ์ผ๋ก ๋ฅ๊ฐํ๊ณ , ๊ณต๊ฐยท๋ฌผ์ฒดยท์(zero-shot)์ ๋ํ ์ผ๋ฐํ๊น์ง ๋ณด์ธ๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
UniDex๋ โ์์ฌ์ฃผ(dexterous) ์กฐ์์ ์ํ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ธ๊ฒ, ๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ ์์ ํตํ๊ฒ ๋ง๋ค๊นโ๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ ์ธ ์กฐ๊ฐ์ ์ค์ํธ๋ค. (1) ์ฌ๋์ 1์ธ์นญ ๋น๋์ค๋ฅผ ๋ก๋ด์ด ์คํ ๊ฐ๋ฅํ ๊ถค์ ์ผ๋ก ๋ณํํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ UniDex-Dataset, (2) ์๋ก ๋ค๋ฅธ ์์ ์ก์ถ์์ดํฐ๋ฅผ ๊ธฐ๋ฅ ๊ธฐ์ค์ผ๋ก ๋ฌถ์ด ํ๋์ ํ๋๊ณต๊ฐ์ผ๋ก ํต์ผํ FAAS, (3) 3D ํฌ์ธํธํด๋ผ์ฐ๋์ ์ธ์ด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ UniDex-VLA ์ ์ฑ . ํต์ฌ ํต์ฐฐ์ โ๋ก๋ด ์๊ฒฉ์กฐ์ ๋ฐ์ดํฐ๋ ๋น์ธ์ง๋ง ์ฌ๋์ ์ ์์์ ๋์ณ๋๋ค โ ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ๋ฐ์ดํฐ๋ก ๋ฐ๊พธ๊ณ , ์๋ง๋ค ๋ค๋ฅธ ์ ์ด๋ฅผ ๊ธฐ๋ฅ ์ขํ๋ก ํต์ผํ๋ฉด ํ์ด๋ฐ์ด์ ํ์ต์ด ๊ฐ๋ฅํ๋คโ๋ ๊ฒ์ด๋ค.

UniDex-VLA ๊ฐ์(Fig. 4) โ ์์ t์์ ๋จ์ผ ์์ ์ปฌ๋ฌ ํฌ์ธํธํด๋ผ์ฐ๋ P_t, ์ธ์ด ์ง์ \ell_t, ๊ณ ์ ์์ฉ์ฑ ์ํ q_t๋ฅผ ๋ฐ์ FAAS ํ๋๊ณต๊ฐ ์์์ H-์คํ ํ๋ ์ฒญํฌ๋ฅผ ์ถ๋ ฅํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
์ธ ์์๊ฐ ๋ง๋ฌผ๋ฆฐ๋ค. ์ฒซ์งธ, ์ฌ๋ ์ ์์์ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฐ๊พธ๋ human-to-robot transformation์ ์๊ฐ๋ฝ ๋(fingertip) IK์ 6-DoF ๋ฒ ์ด์ค ๋ณด์ (dummy base)์ ๋ํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ์ ์ด์ ์ ์งํ๊ณ , ์ฌ๋ ์์ ๋ง์คํนํ 3D ํฌ์ธํธํด๋ผ์ฐ๋๋ก ์๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ค์ธ๋ค. ๋์งธ, FAAS(FunctionโActuatorโAligned Space)๋ ์๋ง๋ค ๋ค๋ฅธ ์ก์ถ์์ดํฐ(6~24 DoF)๋ฅผ โ์์ง-๊ฒ์ง ํ์น, ์๊ฐ๋ฝ ๋ง๊ธฐ, ์ธก๋ฉด ์ธ์ โ ๊ฐ์ ๊ธฐ๋ฅ ๋จ์๋ก ๋ฌถ์ด ๊ณต์ ์ขํ์ ๋งคํํ๋ค โ ์๋ฒ ๋๋จผํธ ๊ณ ์ ์ ์ก์์ ๋ฒ๋ฆฌ๊ณ ์์ ๊ฐ๋ก์ง๋ฅด๋ ์ ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ค. ์ ์งธ, UniDex-VLA๋ ๋จ์ผ ์์ ์ปฌ๋ฌ ํฌ์ธํธํด๋ผ์ฐ๋ P_t, ์ธ์ด \ell_t, ๊ณ ์ ์์ฉ q_t๋ฅผ ๋ฐ์ ํ๋ ์ฒญํฌ p(A_t \mid o_t)๋ฅผ flow-matching์ผ๋ก ๋ชจ๋ธ๋งํ๋ฉฐ, UniDex-Dataset์ผ๋ก ์ฌ์ ํ์ต ํ ํ์คํฌ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ:
- 5๊ฐ ์ค์ธ๊ณ ๋๊ตฌ์ฌ์ฉ ํ์คํฌยท๋ ์ยทํ์คํฌ๋น ์์ฐ 50๊ฐ ๊ธฐ์ค, ํ๊ท task progress 81.0ยฑ12.1%, ์ต์ข ์ฑ๊ณต๋ฅ 76.0ยฑ17.8%.
- ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํฐ ๊ฒฉ์ฐจ: DP 29.0% ยท DP3 35.0% ยท ฯโ 38.0% ยท UniDex-VLA(No-Pretrain) 32.5% โ UniDex-VLA 81.0%.
- ๊ฐ์ฅ ์ด๋ ค์ด โ๊ฐ์๋ก ๋ด์ง ์๋ฅด๊ธฐโ์์ ์ต๊ณ ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ํ๊ท task progress +84.6% ์๋ ํฅ์.
- ๊ณต๊ฐ(OOD ์์น)ยท๋ฌผ์ฒด(๋ฏธํ์ต ์ฃผ์ ์)ยท์(InspireโWuji/Oymotion zero-shot) ์ผ๋ฐํ๋ฅผ ๋ชจ๋ ๋ณด์.
๊ฒฐ๋ก : UniDex๋ โ์ฌ๋ ์์ โ ๋ก๋ด ๋ฐ์ดํฐโ, โ์๋ง๋ค ๋ค๋ฅธ ์ ์ด โ ๊ธฐ๋ฅ ํต์ผ ํ๋๊ณต๊ฐโ, โ2D ๊ทธ๋ฆฌํผ VLA โ 3D ๊ณ DoF VLAโ๋ผ๋ ์ธ ์ ํ์ ํ๋ฐ ๋ฌถ์ด, ๋น์ผ ๋ก๋ด ๋ฐ์ดํฐ ์์กด์ ์ค์ด๋ฉด์๋ ์ฌ๋ฌ ์์ ํตํ๋ ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ ์ค์ฆํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
์์ฌ์ฃผ ์กฐ์์ ์ธ ๊ฐ์ง ๋ฒฝ์ ๋ฐ์ดํฐ ๋น์ฉ(๋ก๋ด ์๊ฒฉ์กฐ์์ ๋น์ธ๋ค), ์์ ์ด์ง์ฑ(์์ง ๋ช ๊ฐ, DoF ๋ช ๊ฐ๊ฐ ์ ๊ฐ๊ฐ), ๊ณ ์ฐจ์ ์ ์ด(6~24 DoF)๋ค. UniDex์ ํต์ฐฐ์ ๋จ์ํ๋ค. ์ฌ๋์ 1์ธ์นญ ์ ์์์ ํ๋ถํ๋ ๊ทธ๊ฑธ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฐ๊ฟ ๋ฐ์ดํฐ๋ฅผ ์ฑ์ฐ๊ณ (๋ฐ์ดํฐ ๋น์ฉ), ์๋ง๋ค ๋ค๋ฅธ ์ก์ถ์์ดํฐ๋ฅผ ๊ธฐ๋ฅ ๊ธฐ์ค์ผ๋ก ํต์ผํด ํ ์ ์ฑ ์ด ์ฌ๋ฌ ์์ ๋ค๋ฃจ๊ฒ ํ๋ฉฐ(์ด์ง์ฑ), 3D ํฌ์ธํธํด๋ผ์ฐ๋ ์์์ ์ธ์ด์กฐ๊ฑด ํ๋์ ํ์ตํ๋ค(๊ณ ์ฐจ์). ๋ฐ์ดํฐยทํ๋๊ณต๊ฐยท์ ์ฑ ์ ํ ๋ฌถ์์ผ๋ก ์ ๋ ฌํ ํ์ด๋ฐ์ด์ ์ค์ํธ๋ผ๋ ์ ์ด ์ด ๋ ผ๋ฌธ์ ๋ฌด๊ฒ์ค์ฌ์ด๋ค.
์ ์์ฌ์ฃผ ์กฐ์์ด ์ด๋ ค์ด๊ฐ
ํํ ๊ทธ๋ฆฌํผ๋ ์ฌ์ค์ 1 DoF๋ค. ๋ฐ๋ฉด ์ฌ๋ํ/๋ค์ง ๋ก๋ด ์์ 6~24 DoF์ ์ด๋ฅด๊ณ , ๋๊ตฌ๋ฅผ ์ฅ๊ณ ์ฐ๋ ์์ (์ฃผ์ ์๋ก ์ปคํผ ๋ด๋ฆฌ๊ธฐ, ๊ฐ์๋ก ์๋ฅด๊ธฐ)์ ๋ฏธ์ธํ 3D ๊ธฐํ์ ์ ์ด ์ดํฌ๋์ค๋ฅผ ์๊ตฌํ๋ค. ์ฌ๊ธฐ์ ๋ํด ๋ก๋ด๋ง๋ค ์ ๊ตฌ์กฐ๊ฐ ๋ฌ๋ผ ํ ์์์ ๋ชจ์ ๋ฐ์ดํฐยท์ ์ฑ ์ด ๋ค๋ฅธ ์์ผ๋ก ์ ์ฎ๊ฒจ๊ฐ์ง ์๋๋ค. ๊ฒฐ๊ตญ โ์๋ง๋ค ๋น์ผ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ก ๋ชจ์ ๋ฐ๋ก ํ์ตโํ๋ ๋นํจ์จ์ด ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ ๊ฐ์ฅ ํฐ ์ฅ๋ฒฝ์ด์๋ค.
UniDex-Dataset: ์ฌ๋ ์์์ ๋ก๋ด ๊ถค์ ์ผ๋ก
UniDex-Dataset์ 1์ธ์นญ ์ฌ๋ ์์์์ ํ์ํ 5๋ง ๊ฐ ์ด์์ ๊ถค์ ์, 8์ข ์ ์(6~24 DoF)์ ๊ฑธ์ณ ๊ตฌ์ถํ ๋ก๋ด ์ค์ฌ ๋ฐ์ดํฐ์ ์ด๋ค. ํต์ฌ์ ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด์ด ์คํ ๊ฐ๋ฅํ ํํ๋ก ๋ฐ๊พธ๋ ๋ณํ ํ์ดํ๋ผ์ธ์ด๋ค.

์ฌ๋โ๋ก๋ด ๋ณํ ํ์ดํ๋ผ์ธ(Fig. 1) โ ์๋ณธ ์ฅ๋ฉด ํฌ์ธํธํด๋ผ์ฐ๋์์ ์ฌ๋ ์์ ๋ง์คํนํ๊ณ , ์๊ฐ๋ฝ ๋ ๊ถค์ ์ ๋ก๋ด ์์ ์ ๋ ฌํด ๋ก๋ด ์คํ ๊ถค์ ์ผ๋ก ๋ฐ๊พผ๋ค.
๋ณํ์ ๋ ๊ฒฉ์ฐจ๋ฅผ ๋์ด์ผ ํ๋ค. ๊ธฐ๊ตฌํ์ (kinematic) ๊ฒฉ์ฐจ๋ ์๊ฐ๋ฝ ๋ retargeting์ผ๋ก ํผ๋ค. ์ฌ๋ ์์์ m๊ฐ์ ์๊ฐ๋ฝ ๋ ๋ชฉํ X^\star=[x_1^\star,\ldots,x_m^\star]\in\mathbb{R}^{3\times m}(m=๋ก๋ด ์๊ฐ๋ฝ ์)๋ฅผ ๋ฝ๊ณ , ์๊ฐ๋ฝ ๋ ๊ธฐ๋ฐ IK๋ฅผ ์ ์ฉํ๋ 6-DoF ์ ๋ ฌ ์คํ์ (์ค์ ๋ฒ ์ด์ค ์์ ์ฝ์ ํ dummy base)์ ํ์ฉํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ์โ๋ฌผ์ฒด ์ ์ด์ ์ ์งํ๋ค. ์๊ฐ๋ฝ ๋์ด ์ ์ด์ 1์ฐจ ์ง์ ์ด๋ฏ๋ก ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ง์ถ๋ ๊ฒ์ด ์์ฐ์ค๋ฝ๋ค. ์๊ฐ(visual) ๊ฒฉ์ฐจ๋ ์ฌ๋ ์์ ๋ง์คํนํ ๋ช ์์ 3D ํฌ์ธํธํด๋ผ์ฐ๋ ์์์ ๋์ํจ์ผ๋ก์จ ์ขํ๋ค โ ์ ์ฑ ์ด โ์ฌ๋ ์โ์ด๋ผ๋ ๋ถํฌ ๋ฐ ์ ๋ ฅ์ ํ๋๋ฆฌ์ง ์๊ฒ ํ๋ค.

UniDex-Dataset ์๊ฐํ(Fig. 2) โ ๋์ฌโ๋ฌผ์ฒด ์๋ํด๋ผ์ฐ๋์ ๋ฐ์ดํฐ์ ์ ์ผ๋ถ. ์์ ์๋ก ๋ค๋ฅธ ์์ ์๋ฏธํ๋ค.
FAAS: ์์ ๊ฐ๋ก์ง๋ฅด๋ ํต์ผ ํ๋๊ณต๊ฐ
์๋ก ๋ค๋ฅธ ์ ์์์ ํ๋์ ํ์ด๋ฐ์ด์ ์ ์ฌ์ ํ์ตํ๋ ค๋ฉด, ์์ ๊ฐ๋ก์ง๋ฌ ์ ์ด๋๋ ํ๋ ํํ์ด ํ์๋ค. FAAS(FunctionโActuatorโAligned Space)๋ ๊ทธ ๋ต์ด๋ค. n๊ฐ์ ์๋ DoF๋ฅผ ๊ฐ์ง ์์์ ์์ ๋ํด, ๊ฐ ์ก์ถ์์ดํฐ(URDF์์ ํ์ํ ์ ์ด ๊ฐ๋ฅํ DoF, mimic ๊ด์ ํฌํจ)๋ฅผ ๊ทธ ๊ธฐ๋ฅ์ ์ญํ ์ ํด๋นํ๋ FAAS ์ธ๋ฑ์ค๋ก ๋งคํํ๋ค. ์๋ง๋ค ๋งํฌ ๊ธธ์ดยท์ปคํ๋งยท๋ฐฐ์น๊ฐ ๋ฌ๋ผ๋, ๋ชจ๋ โ์์งโ๊ฒ์ง ํ์น, ์์ก์ด๋ฅผ ๊ฐ์ธ๋ ์๊ฐ๋ฝ ๋ง๊ธฐ, ์์ ํ๋ฅผ ์ํ ์ธก๋ฉด ์ธ์ /๋ด์ โ ๊ฐ์ ์์์ ๊ธฐ๋ฅ ํ๋ฆฌ๋ฏธํฐ๋ธ๋ฅผ ๊ตฌํํ๋ค๋ ๊ด์ฐฐ์ด ํต์ฌ์ด๋ค. FAAS๋ ์ก์ถ์์ดํฐ๋ฅผ ์ด ๊ธฐ๋ฅ ์ญํ ๋ก ๋ฌถ์ด ๊ณตํต ์ขํ๊ณ์ ๋งคํํ๊ณ , ์๋ฒ ๋๋จผํธ ๊ณ ์ ์ ์ก์ ์์ธ์ ๋ฒ๋ฆฐ๋ค.

FAAS(Fig. 3) โ Oymotion(11), Allegro(16), Inspire(12), Wuji ๋ฑ ์๋ก ๋ค๋ฅธ ์์ ์์งยท์ฝ์ง๋ฅผ ๊ธฐ๋ฅ ์ญํ ๊ธฐ์ค์ผ๋ก ๊ณต์ ์ขํ์ ์ ๋ ฌํ๋ค.
์ด โURDF ๊ณ ์ ๊ด์ ๊ณต๊ฐโ์ด ์๋๋ผ โ๊ธฐ๋ฅ ์ค์ฌ ์ ์ด ์ธํฐํ์ด์คโ๋ผ๋ ๋ฐ์์ด cross-hand ์ ์ด์ ํ ๋๊ฐ ๋๋ค.
UniDex-VLA: 3D ์ธ์ด์กฐ๊ฑด ํ์ด๋ฐ์ด์ ์ ์ฑ
UniDex-VLA๋ 3Dยท์ธ์ด์กฐ๊ฑด ์์ฌ์ฃผ ์ ์ด ๋ชจ๋ธ์ ์งํฅํ๋ค. 2D ์ธ์ฝ๋์ ์ ์ฐจ์ ๊ทธ๋ฆฌํผ ํ๋์ ์ง์ง๋ ๊ธฐ์กด VLA์ ๋ฌ๋ฆฌ, ์ด ๋ฌธ์ ๋ ๋ณธ์ง์ ์ผ๋ก ๋ถํผ์ (volumetric)์ด๊ณ ๊ณ DoF๋ค โ ํนํ 1์ธ์นญ ๋จ์ผ ์์ ๊ด์ธก์์ ๋๊ตฌ์ฌ์ฉ์ ๋ฏธ์ธํ 3D ๊ธฐํ์ ์ ์ด ์ดํฌ๋์ค ์ถ๋ก ์ ์๊ตฌํ๋ค. UniDex-VLA๋ 3D ์๊ฐ ์ ๋ ฅ์ FAAS ํ๋๊ณต๊ฐ๊ณผ ๊ฒฐํฉํด ์ง๊ฐ๊ณผ ์ ์ด๋ฅผ ๊ณต์ ํํ์ผ๋ก ์ ๋ ฌํ๋ค.
๊ด์ธก์ o_t=[P_t,\ell_t,q_t]๋ก, P_t๋ RGB-D์์ ๋ง๋ ๋จ์ผ ์์ ์ปฌ๋ฌ ํฌ์ธํธํด๋ผ์ฐ๋(ํฌ๋กญยท๋ค์ด์ํ), \ell_t๋ ์์ฐ์ด ์ง์, q_t๋ ๋ก๋ด ๊ณ ์ ์์ฉ ์ํ๋ค. ๋ชจ๋ธ์ H-์คํ ํ๋ ์ฒญํฌ A_t=[a_t,\ldots,a_{t+H-1}]์ ๋ํ ๋ถํฌ p(A_t\mid o_t)๋ฅผ ๋ชจ๋ธ๋งํ๋ฉฐ, ํ์ต์ flow-matching ์์ค์ ์ด๋ค(๋ถ๋ก A). ์ ์ฑ ์ UniDex-Dataset์ผ๋ก ์ฌ์ ํ์ตํ ๋ค ํ์คํฌ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ๋๋ค.
์คํ: ์ฑ๋ฅ
ํ๊ฐ๋ ๋ ์์ ๊ฑธ์น 5๊ฐ ์ค์ธ๊ณ ๋๊ตฌ์ฌ์ฉ ํ์คํฌ์์ ์ด๋ค์ง๋ค. ํ์คํฌ๋น ์์ฐ 50๊ฐ, ์๊ณ ๋ฆฌ์ฆยทํ์คํฌ๋ณ 20ํ ์๋๋ค.

์ค์ธ๊ณ ๋ฒค์น๋งํฌ(Fig. 6) โ 5๊ฐ์ ๊น๋ค๋ก์ด ๋๊ตฌ์ฌ์ฉ ํ์คํฌ. ๊ฐ ํ์คํฌ์ ํต์ฌ ๋จ๊ณ์ ์๊ตฌ๋๋ ์ ๋ฐํ ์์ฌ์ฃผ๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ฒฐ๊ณผ๋ ๋ถ๋ช ํ๋ค. ์์ฐ 50๊ฐ๋ง์ผ๋ก UniDex-VLA๋ ๊ธธ๊ณ ์ด๋ ค์ด ๋๊ตฌ์ฌ์ฉ ํ์คํฌ์์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์ ํฐ ํญ์ผ๋ก ์์ ๋ค.

ํ๊ท task progress(Fig. 10) โ 5๊ฐ ํ์คํฌ ํ๊ท (์)๊ณผ ํ๊ท task progressยท์ต์ข ์ฑ๊ณต๋ฅ ์ ์ง๊ณ(์๋).
| Model | Avg Task Progress | Final Success Rate |
|---|---|---|
| DP | 29.0 ยฑ 19.9% | 22.0 ยฑ 22.5% |
| DP3 | 35.0 ยฑ 17.1% | 30.0 ยฑ 18.7% |
| ฯโ | 38.0 ยฑ 7.4% | 35.0 ยฑ 10.0% |
| UniDex-VLA (No-Pretrain) | 32.5 ยฑ 18.5% | 23.0 ยฑ 12.0% |
| UniDex-VLA | 81.0 ยฑ 12.1% | 76.0 ยฑ 17.8% |
ํนํ ๊ฐ์ฅ ์ด๋ ค์ด โ๊ฐ์๋ก ๋ด์ง ์๋ฅด๊ธฐโ์์ ์ต๊ณ ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ํ๊ท task progress๊ฐ +84.6% ์๋ ํฅ์ํ๋ค. No-Pretrain๊ณผ์ ๊ฒฉ์ฐจ๋ UniDex-Dataset ์ฌ์ ํ์ต์ ํจ๊ณผ๋ฅผ ๊น๋ํ๊ฒ ๋ถ๋ฆฌํด ๋ณด์ฌ์ค๋ค โ ์ฌ์ ํ์ต์ด ์์ฌ์ฃผ ์ ์ด๋ฅผ ์ํ ๊ฐํ ์ด๋ prior๋ฅผ ๋ถ์ฌํ๋ค๋ ์ฆ๊ฑฐ๋ค.
์ผ๋ฐํ: ๊ณต๊ฐยท๋ฌผ์ฒดยท์
์ฑ๋ฅ์ ๋์ด, UniDex-VLA๋ ์ธ ๋ฐฉํฅ์ ์ผ๋ฐํ๋ฅผ ๋ณด์ธ๋ค.
๊ณต๊ฐ ์ผ๋ฐํ. 3D ์ง๊ฐ ๋๋ถ์ ํฌ์ธํธํด๋ผ์ฐ๋์ ๊ธฐํ ํธ์ง์ผ๋ก ๊ฐ๋จํ ์๋ ์ฆ๊ฐ์ด ๊ฐ๋ฅํ๋ค. Make Coffee์์ ์ฃผ์ ์ยท๋๋ฆฌํผ์ ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ๋ถํ ํด ํ ์ด๋ธ x/y์ถ์ผ๋ก ์ฎ๊ฒจ OOD ๋ฐฐ์น๋ฅผ ๋ง๋ค๊ณ , TAMP๋ก ๋ก๋ด ์ํ๋ฅผ ์ ์ฅ๋ฉด์ ์ ๋ ฌํ๋ค(DemoGen์ผ๋ก ์๋ํ). ๊ทธ ๊ฒฐ๊ณผ ์ ์์ ๊ณต๊ฐ์์ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ทผ์ ํ๋ค.

์ ์ผ๋ฐํ(Fig. 9) โ Inspire Hand๋ก ํ์ตํ ์ ์ฑ ์ WujiยทOymotion์ผ๋ก zero-shot ์ ์ดํ๋ค(์คํฌ ์ ์ด).
๋ฌผ์ฒด ์ผ๋ฐํ. ๊ฒ์ ์ฃผ์ ์๋ฅผ ์ยทํฌ๊ธฐยท๊ธฐ๋ฅ๋ถ(์์ก์ดยท์ฃผ๋ฅ์ด)๊ฐ ๋ค๋ฅธ ์์ ๋ณด๋ผ์ ์ฃผ์ ์๋ก ๋ฐ๊ฟ๋ ๊ฐํ ์ฑ๋ฅ์ ์ ์งํ๋ค. ์ ์ผ๋ฐํ. Inspire Hand๋ก ํ์ตํ ์ ์ฑ ์ WujiยทOymotion์ผ๋ก zero-shot ์ ์ดํ๋ค โ FAAS๊ฐ ๋ง๋ ๊ธฐ๋ฅ ํต์ผ ํ๋๊ณต๊ฐ์ด cross-hand ์คํฌ ์ ์ด๋ฅผ ์ค์ ๋ก ๊ฐ๋ฅ์ผ ํจ์ ๋ณด์ฌ์ค๋ค.
UniDex-Cap: ํด๋์ฉ ์บก์ฒ์ ์ฌ๋โ๋ก๋ด ๊ณต๋ํ์ต
UniDex-Cap์ ๋๊ธฐํ๋ RGB-D์ ์/๋จธ๋ฆฌ ์์ธ๋ฅผ ๊ธฐ๋กํ๋ ์ค์ฉ์ ์บก์ฒ ์ ์ ์ด๋ค. ์/๋จธ๋ฆฌ ์์ธ ์ถ์ ์ฉ Apple Vision Pro, ๊ณ ํ์ง RGB-D์ฉ Intel RealSense L515, ๊ทธ๋ฆฌ๊ณ ๋์ ๊ณ ์ ๊ฐ์ฒด ๋ณํ์ผ๋ก ๋ฌถ๋ 3D ํ๋ฆฐํ ๋ง์ดํธ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ด ๋ณํ์ ์บ๋ฆฌ๋ธ๋ ์ด์ ํด RGB-D์ ์์ธ๋ฅผ ๊ณต์ ์ขํ๊ณ์์ ์๊ฐ ๋๊ธฐํํ๋ค.

UniDex-Cap(Fig. 11) โ (a,b) ๊ตฌ์ฑ์์, (c,d) ์บก์ฒ ๋ฐ์ดํฐ์ ๋ณํ๋ ๋ก๋ด ์คํ ๊ถค์ .
์บก์ฒํ ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ 3.2์ ๋ณํ ํ์ดํ๋ผ์ธ์ผ๋ก ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฐ๊พธ๊ณ , ์์ ๋ณํ๊ณผ ๋ค์ด์ํ๋ง์ผ๋ก ๋ก๋ด ๊ด์ ยท์๋์ ๋ง์ถ ๋ค, ์ค๋ก๋ด ๋ฐ์ดํฐ์ ๊ณต๋ํ์ต(co-train)ํ๋ค. ์ด๋ก์จ ๋น์ผ ๋ก๋ด ์์ฐ ์์กด์ ์ค์ธ๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ์ธ ์ ํ์ ํ ๋ฌถ์์ผ๋ก ์ ๋ ฌํ๋ค. โ์ฌ๋ ์์โ๋ก๋ด ๋ฐ์ดํฐโ, โ์๋ณ ์ ์ดโ๊ธฐ๋ฅ ํต์ผ ํ๋๊ณต๊ฐ(FAAS)โ, โ2D ๊ทธ๋ฆฌํผ VLAโ3D ๊ณ DoF VLAโ๊ฐ ๋ฐ๋ก ๋ ธ๋ ๊ฒ ์๋๋ผ ๋ฐ์ดํฐโํ๋๊ณต๊ฐโ์ ์ฑ ์ผ๋ก ์ผ๊ด๋๊ฒ ๋ง๋ฌผ๋ฆฐ๋ค. ์ข์ ์์คํ ๋ ผ๋ฌธ์ ์ ํ์ด๋ค.
- cross-hand ์ ์ด๊ฐ ์ค์ฆ๋๋ค. FAAS ์์์ InspireโWuji/Oymotion zero-shot ์ ์ด๊ฐ ๋๋ค๋ ๊ฒ์ ํต์ผ ํ๋๊ณต๊ฐ์ด๋ผ๋ ์ฃผ์ฅ์ ๊ฐ์ฅ ๊ฐํ ์ฆ๊ฑฐ๋ค.
- ์ฌ์ ํ์ต ํจ๊ณผ๊ฐ ๋ถ๋ฆฌ๋๋ค. No-Pretrain ๋๋น 32.5%โ81.0%์ ๊ฒฉ์ฐจ๊ฐ ๋ฐ์ดํฐ์ ยท์ฌ์ ํ์ต์ ๊ฐ์น๋ฅผ ๊น๋ํ๊ฒ ๋ณด์ฌ์ค๋ค.
- ์ค์ฉ์ ์บก์ฒ ๊ฒฝ๋ก(UniDex-Cap). Vision Pro+L515๋ผ๋ ์ ๊ทผ ๊ฐ๋ฅํ ํ๋์จ์ด๋ก ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๊ณต๋ํ์ตํ๋ ๊ธธ์ ์ ์ํ๋ค.
์ฝ์ ยทํ๊ณ
- action-free ๋๊ท๋ชจ ์์์ ์์ง ๋ชป ์ด๋ค. ์ ์๋ ์ธ์ ํ๋ฏ, ์ฝํ๊ฒ ๋ผ๋ฒจ๋/ํ๋ ์๋ ๋๊ท๋ชจ 1์ธ์นญ ํ๋ ์์์ ์์ง ํ์ฉํ์ง ๋ชปํ๋ค โ ์ง์ง โ์น ์ค์ผ์ผโ ์ฌ์ ํ์ต์ ์ ์ฌ๋ ฅ์ ๋ฏธ๊ฐ๋ด์ด๋ค.
- ํ์คํฌยท์์ ๊ท๋ชจ๊ฐ ์ ํ์ . ๋ณธ๋ฌธ ๋ฒค์น๋งํฌ๋ 5๊ฐ ๋๊ตฌ์ฌ์ฉ ํ์คํฌยท๋ ์ ํ๊ฐ๋ค. โuniversalโ์ด๋ผ๋ ์ฃผ์ฅ์ ๋นํด ์ค์ธ๊ณ ํ๊ฐ ์/ํ์คํฌ ๋ค์์ฑ์ ๋ ๋์ด์ง ์ฌ์ง๊ฐ ์๋ค.
- FAAS์ ์์ค. ๊ธฐ๋ฅ ์ญํ ๋ก ๋ฌถ์ผ๋ฉฐ ์๋ฒ ๋๋จผํธ ๊ณ ์ ์ ๋ณด๋ฅผ โ์ก์โ์ผ๋ก ๋ฒ๋ฆฌ๋๋ฐ, ๋ฏธ์ธํ ์๋ณ ์ด๋ํ ์ฐจ์ด๊ฐ ์ค์ํ ์์ ์์๋ ์ด ์ถ์ํ๊ฐ ํ๊ณ๊ฐ ๋ ์ ์๋ค(๋ณธ๋ฌธ์ ๊ฐ์ ์์ฃผ๋ก ๋ณด๊ณ ).
- ํ์ดํ๋ผ์ธ ๋ณต์ก๋. retargeting(IK+dummy base), ์ ๋ง์คํน, TAMP/DemoGen ์ฆ๊ฐ, ์บ๋ฆฌ๋ธ๋ ์ด์ ๋ฑ ๊ตฌ์ฑ์์๊ฐ ๋ง์ ์ฌํยท์ด์ฉ ๋น์ฉ์ด ์์ง ์๋ค.
- ๋จ์ผ ์์ ๊ฐ์ . 1์ธ์นญ ๋จ์ผ ์์ ํฌ์ธํธํด๋ผ์ฐ๋์ ์์กดํ๋ฏ๋ก ๊ฐ๋ฆผ(occlusion)์ด ์ฌํ ์ ์ด ๋จ๊ณ์์์ ๊ฐ๊ฑด์ฑ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ๋งค๊น
UniDex๋ ์ธ ํ๋ฆ์ ๊ต์ฐจ์ ์ ์๋ค. ์ฒซ์งธ, ์์ฌ์ฃผ ์กฐ์(๋ค์ง ์ ์ ์ด)์์ ๋ฐ์ดํฐยท์๋ฒ ๋๋จผํธ ์ด์ง์ฑ ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ๋ค(DexNDM ๋ฆฌ๋ทฐ ๋ฑ cross-embodiment ์ ์ ์ด ๊ณ์ด๊ณผ ๋ง๋ฟ๋๋ค). ๋์งธ, ๋ก๋ด ํ์ด๋ฐ์ด์ /ํต์ผ ํ๋๊ณต๊ฐ์์ FAAS๋ cross-hand ์ ์ด๋ฅผ ์ํ ํ๋ ํ๋ผ๋ฏธํฐํ๋ฅผ ์ ์ํ๋ค(VLA ๊ณ์ด์ธ XL-VLA ๋ฆฌ๋ทฐ์ ๋น๊ตํด ๋ณผ ๋งํ๋ค). ์ ์งธ, ์ฌ๋ ์์์์ ๋ฐฐ์ฐ๊ธฐ์์ 1์ธ์นญ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ณํํ๋ ์ ๋ต์ ์ทจํ๋ค(EgoScale ๋ฆฌ๋ทฐ์ egocentric ํ์ต๊ณผ ์๋ณด์ ์ด๋ค).
์ด ์ธ ํ๋ฆ์ ๋ฐ๋ก ๋ค๋ฃจ๋ ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, UniDex๋ โ๋ฐ์ดํฐ(์ฌ๋ ์์)โํํ(FAAS)โ์ ์ฑ (3D VLA)โ์ ํ ์ค์ํธ๋ก ์ ๋ ฌํ๋ค๋ ๋ฐ ์ฐจ๋ณ์ ์ด ์๋ค. ์ฝ๋๊ฐ ๊ณต๊ฐ๋์ด ์์ด(unidex-ai/UniDex) ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ฐ๊ตฌ์ ์ถ๋ฐ ํ๋ซํผ์ผ๋ก ๋์ด ์ฐ๊ธฐ ์ข๋ค๋ ์ ๋ ์ค๋ฌด์ ๊ฐ์น๋ค.
์์ฝ
UniDex์ ๊ธฐ์ฌ๋ โ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ ๋ฐ์ดํฐยทํ๋๊ณต๊ฐยท์ ์ฑ ์ ํ๊บผ๋ฒ์ ์ ๋ ฌํด์ผ ํ๋คโ๋ ์์คํ ๊ด์ ์ ์๋ค. ์ฌ๋ 1์ธ์นญ ์์์ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฐ๊ฟ 5๋ง ๊ถค์ ยท8์ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ณ (UniDex-Dataset), ๊ธฐ๋ฅ ๊ธฐ์ค์ผ๋ก ์์ ํต์ผํ๊ณ (FAAS), 3D ์ธ์ด์กฐ๊ฑด VLA๋ฅผ ์ฌ์ ํ์ตยท๋ฏธ์ธ์กฐ์ ํด(UniDex-VLA), ๋ ์ยท5ํ์คํฌ์์ ํ๊ท task progress 81%์ zero-shot ์ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค. ํ๊ณ๋ ๋ถ๋ช ํ๋ค โ action-free ๋๊ท๋ชจ ์์ ๋ฏธํ์ฉ, ํ๊ฐ ๊ท๋ชจ, ์ถ์ํ์ ์์ค, ํ์ดํ๋ผ์ธ ๋ณต์ก๋. ํ์ง๋ง ๊ทธ ํ๊ณ ๋๋ถ๋ถ์ โ๋ ๋ง์ ๋ฐ์ดํฐโ์ โ๋ ๋์ ํ๊ฐโ๋ผ๋ ํ์ฅ ๋ฌธ์ ์ด๊ณ , ๋ฐ์ดํฐโํํโ์ ์ฑ ์ ์ ๋ ฌํ๋ค๋ ํต์ฌ ์ค๊ณ๋ ์์ฌ์ฃผ ํ์ด๋ฐ์ด์ ์ ์์ฐ์ค๋ฌ์ด ์ฒญ์ฌ์ง์ผ๋ก ์ฝํ๋ค.