Curieux.JY
  • JungYeon Lee
  • Post
  • ๐Ÿ•ธ๏ธ Graph
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด
    • ์™œ ์†์žฌ์ฃผ ์กฐ์ž‘์ด ์–ด๋ ค์šด๊ฐ€
    • UniDex-Dataset: ์‚ฌ๋žŒ ์˜์ƒ์„ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ
    • FAAS: ์†์„ ๊ฐ€๋กœ์ง€๋ฅด๋Š” ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„
    • UniDex-VLA: 3D ์–ธ์–ด์กฐ๊ฑด ํŒŒ์šด๋ฐ์ด์…˜ ์ •์ฑ…
    • ์‹คํ—˜: ์„ฑ๋Šฅ
    • ์ผ๋ฐ˜ํ™”: ๊ณต๊ฐ„ยท๋ฌผ์ฒดยท์†
    • UniDex-Cap: ํœด๋Œ€์šฉ ์บก์ฒ˜์™€ ์‚ฌ๋žŒโ€“๋กœ๋ด‡ ๊ณต๋™ํ•™์Šต
    • ๋น„ํŒ์ ์œผ๋กœ ๋ณด๋ฉด
      • ๊ฐ•์ 
      • ์•ฝ์ ยทํ•œ๊ณ„
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ž๋ฆฌ๋งค๊น€
    • ์š”์•ฝ

๐Ÿ“ƒUniDex ๋ฆฌ๋ทฐ

vla
dexterity
manipulation
foundation-model
point-cloud
cross-embodiment
egocentric
UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos
Published

June 25, 2026

  • Paper Link

  • Code Link

  • Project

  • Gu Zhang ์™ธ (UniDex ํŒ€)

  • CVPR 2026

  1. ๐Ÿ’ก ์‚ฌ๋žŒ์˜ 1์ธ์นญ(egocentric) ๋น„๋””์˜ค๋ฅผ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ฐ”๊ฟ” ๋งŒ๋“  ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ, ์† ์ข…๋ฅ˜๋ฅผ ๊ฐ€๋กœ์ง€๋ฅด๋Š” ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„(FAAS), 3D VLA ์ •์ฑ…์„ ๋ฌถ์–ด ๋ฒ”์šฉ ์†์žฌ์ฃผ(dexterous) ์ œ์–ด์˜ ํŒŒ์šด๋ฐ์ด์…˜ ์Šค์œ„ํŠธ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
  2. โš™๏ธ ์‚ฌ๋žŒ ์†๊ฐ€๋ฝ ๋ ๊ถค์ ์„ 6-DoF ๋ฒ ์ด์Šค ๋ณด์ •๊ณผ ํ•จ๊ป˜ ๋กœ๋ด‡์œผ๋กœ retargetํ•˜๊ณ  ์‚ฌ๋žŒ ์†์„ ๋งˆ์Šคํ‚นํ•œ 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ๋กœ ํ•™์Šตํ•˜๋ฉฐ, ๊ธฐ๋Šฅ์ ์œผ๋กœ ๊ฐ™์€ ์•ก์ถ”์—์ดํ„ฐ๋ฅผ ๊ณต์œ  ์ขŒํ‘œ๋กœ ๋ฌถ์–ด(FAAS) ์—ฌ๋Ÿฌ ์†์— ์ „์ดํ•˜๊ณ , flow-matching VLA๋ฅผ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ํ›„ ํƒœ์Šคํฌ๋‹น 50๊ฐœ ์‹œ์—ฐ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•œ๋‹ค.
  3. ๐ŸŽฏ ๋‘ ๊ฐœ์˜ ์†ยท5๊ฐœ ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌ์—์„œ ํ‰๊ท  task progress 81.0%(์„ฑ๊ณต๋ฅ  76.0%)๋กœ DPยทDP3ยทฯ€โ‚€ ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฐ ํญ์œผ๋กœ ๋Šฅ๊ฐ€ํ•˜๊ณ , ๊ณต๊ฐ„ยท๋ฌผ์ฒดยท์†(zero-shot)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๊นŒ์ง€ ๋ณด์ธ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

UniDex๋Š” โ€œ์†์žฌ์ฃผ(dexterous) ์กฐ์ž‘์„ ์œ„ํ•œ ๋กœ๋ด‡ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ์–ด๋–ป๊ฒŒ ์‹ธ๊ฒŒ, ๊ทธ๋ฆฌ๊ณ  ์—ฌ๋Ÿฌ ์†์— ํ†ตํ•˜๊ฒŒ ๋งŒ๋“ค๊นŒโ€๋ผ๋Š” ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ์„ธ ์กฐ๊ฐ์˜ ์Šค์œ„ํŠธ๋‹ค. (1) ์‚ฌ๋žŒ์˜ 1์ธ์นญ ๋น„๋””์˜ค๋ฅผ ๋กœ๋ด‡์ด ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ถค์ ์œผ๋กœ ๋ณ€ํ™˜ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ UniDex-Dataset, (2) ์„œ๋กœ ๋‹ค๋ฅธ ์†์˜ ์•ก์ถ”์—์ดํ„ฐ๋ฅผ ๊ธฐ๋Šฅ ๊ธฐ์ค€์œผ๋กœ ๋ฌถ์–ด ํ•˜๋‚˜์˜ ํ–‰๋™๊ณต๊ฐ„์œผ๋กœ ํ†ต์ผํ•œ FAAS, (3) 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ์™€ ์–ธ์–ด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” UniDex-VLA ์ •์ฑ…. ํ•ต์‹ฌ ํ†ต์ฐฐ์€ โ€œ๋กœ๋ด‡ ์›๊ฒฉ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋Š” ๋น„์‹ธ์ง€๋งŒ ์‚ฌ๋žŒ์˜ ์† ์˜์ƒ์€ ๋„˜์ณ๋‚œ๋‹ค โ†’ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ๋ฐ”๊พธ๊ณ , ์†๋งˆ๋‹ค ๋‹ค๋ฅธ ์ œ์–ด๋ฅผ ๊ธฐ๋Šฅ ์ขŒํ‘œ๋กœ ํ†ต์ผํ•˜๋ฉด ํŒŒ์šด๋ฐ์ด์…˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹คโ€๋Š” ๊ฒƒ์ด๋‹ค.


UniDex-VLA ๊ฐœ์š”(Fig. 4) โ€” ์‹œ์  t์—์„œ ๋‹จ์ผ ์‹œ์  ์ปฌ๋Ÿฌ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ P_t, ์–ธ์–ด ์ง€์‹œ \ell_t, ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ƒํƒœ q_t๋ฅผ ๋ฐ›์•„ FAAS ํ–‰๋™๊ณต๊ฐ„ ์œ„์—์„œ H-์Šคํ… ํ–‰๋™ ์ฒญํฌ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

์„ธ ์š”์†Œ๊ฐ€ ๋งž๋ฌผ๋ฆฐ๋‹ค. ์ฒซ์งธ, ์‚ฌ๋žŒ ์† ์˜์ƒ์„ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ฐ”๊พธ๋Š” human-to-robot transformation์€ ์†๊ฐ€๋ฝ ๋(fingertip) IK์— 6-DoF ๋ฒ ์ด์Šค ๋ณด์ •(dummy base)์„ ๋”ํ•ด ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ทธ๋Ÿด๋“ฏํ•œ ์ ‘์ด‰์„ ์œ ์ง€ํ•˜๊ณ , ์‚ฌ๋žŒ ์†์„ ๋งˆ์Šคํ‚นํ•œ 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ๋กœ ์‹œ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ธ๋‹ค. ๋‘˜์งธ, FAAS(Functionโ€“Actuatorโ€“Aligned Space)๋Š” ์†๋งˆ๋‹ค ๋‹ค๋ฅธ ์•ก์ถ”์—์ดํ„ฐ(6~24 DoF)๋ฅผ โ€œ์—„์ง€-๊ฒ€์ง€ ํ•€์น˜, ์†๊ฐ€๋ฝ ๋ง๊ธฐ, ์ธก๋ฉด ์™ธ์ „โ€ ๊ฐ™์€ ๊ธฐ๋Šฅ ๋‹จ์œ„๋กœ ๋ฌถ์–ด ๊ณต์œ  ์ขŒํ‘œ์— ๋งคํ•‘ํ•œ๋‹ค โ€” ์ž„๋ฒ ๋””๋จผํŠธ ๊ณ ์œ ์˜ ์žก์Œ์„ ๋ฒ„๋ฆฌ๊ณ  ์†์„ ๊ฐ€๋กœ์ง€๋ฅด๋Š” ์ „์ด๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ•œ๋‹ค. ์…‹์งธ, UniDex-VLA๋Š” ๋‹จ์ผ ์‹œ์  ์ปฌ๋Ÿฌ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ P_t, ์–ธ์–ด \ell_t, ๊ณ ์œ ์ˆ˜์šฉ q_t๋ฅผ ๋ฐ›์•„ ํ–‰๋™ ์ฒญํฌ p(A_t \mid o_t)๋ฅผ flow-matching์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, UniDex-Dataset์œผ๋กœ ์‚ฌ์ „ํ•™์Šต ํ›„ ํƒœ์Šคํฌ ์‹œ์—ฐ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•œ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ:

  • 5๊ฐœ ์‹ค์„ธ๊ณ„ ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌยท๋‘ ์†ยทํƒœ์Šคํฌ๋‹น ์‹œ์—ฐ 50๊ฐœ ๊ธฐ์ค€, ํ‰๊ท  task progress 81.0ยฑ12.1%, ์ตœ์ข… ์„ฑ๊ณต๋ฅ  76.0ยฑ17.8%.
  • ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ํฐ ๊ฒฉ์ฐจ: DP 29.0% ยท DP3 35.0% ยท ฯ€โ‚€ 38.0% ยท UniDex-VLA(No-Pretrain) 32.5% โ†’ UniDex-VLA 81.0%.
  • ๊ฐ€์žฅ ์–ด๋ ค์šด โ€œ๊ฐ€์œ„๋กœ ๋ด‰์ง€ ์ž๋ฅด๊ธฐโ€์—์„œ ์ตœ๊ณ  ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ ํ‰๊ท  task progress +84.6% ์ƒ๋Œ€ ํ–ฅ์ƒ.
  • ๊ณต๊ฐ„(OOD ์œ„์น˜)ยท๋ฌผ์ฒด(๋ฏธํ•™์Šต ์ฃผ์ „์ž)ยท์†(Inspireโ†’Wuji/Oymotion zero-shot) ์ผ๋ฐ˜ํ™”๋ฅผ ๋ชจ๋‘ ๋ณด์ž„.

๊ฒฐ๋ก : UniDex๋Š” โ€œ์‚ฌ๋žŒ ์˜์ƒ โ†’ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐโ€, โ€œ์†๋งˆ๋‹ค ๋‹ค๋ฅธ ์ œ์–ด โ†’ ๊ธฐ๋Šฅ ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„โ€, โ€œ2D ๊ทธ๋ฆฌํผ VLA โ†’ 3D ๊ณ DoF VLAโ€๋ผ๋Š” ์„ธ ์ „ํ™˜์„ ํ•œ๋ฐ ๋ฌถ์–ด, ๋น„์‹ผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์˜์กด์„ ์ค„์ด๋ฉด์„œ๋„ ์—ฌ๋Ÿฌ ์†์— ํ†ตํ•˜๋Š” ์†์žฌ์ฃผ ํŒŒ์šด๋ฐ์ด์…˜์„ ์‹ค์ฆํ–ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด

์†์žฌ์ฃผ ์กฐ์ž‘์˜ ์„ธ ๊ฐ€์ง€ ๋ฒฝ์€ ๋ฐ์ดํ„ฐ ๋น„์šฉ(๋กœ๋ด‡ ์›๊ฒฉ์กฐ์ž‘์€ ๋น„์‹ธ๋‹ค), ์†์˜ ์ด์งˆ์„ฑ(์—„์ง€ ๋ช‡ ๊ฐœ, DoF ๋ช‡ ๊ฐœ๊ฐ€ ์ œ๊ฐ๊ฐ), ๊ณ ์ฐจ์› ์ œ์–ด(6~24 DoF)๋‹ค. UniDex์˜ ํ†ต์ฐฐ์€ ๋‹จ์ˆœํ•˜๋‹ค. ์‚ฌ๋žŒ์˜ 1์ธ์นญ ์† ์˜์ƒ์€ ํ’๋ถ€ํ•˜๋‹ˆ ๊ทธ๊ฑธ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ฐ”๊ฟ” ๋ฐ์ดํ„ฐ๋ฅผ ์ฑ„์šฐ๊ณ (๋ฐ์ดํ„ฐ ๋น„์šฉ), ์†๋งˆ๋‹ค ๋‹ค๋ฅธ ์•ก์ถ”์—์ดํ„ฐ๋ฅผ ๊ธฐ๋Šฅ ๊ธฐ์ค€์œผ๋กœ ํ†ต์ผํ•ด ํ•œ ์ •์ฑ…์ด ์—ฌ๋Ÿฌ ์†์„ ๋‹ค๋ฃจ๊ฒŒ ํ•˜๋ฉฐ(์ด์งˆ์„ฑ), 3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ์œ„์—์„œ ์–ธ์–ด์กฐ๊ฑด ํ–‰๋™์„ ํ•™์Šตํ•œ๋‹ค(๊ณ ์ฐจ์›). ๋ฐ์ดํ„ฐยทํ–‰๋™๊ณต๊ฐ„ยท์ •์ฑ…์„ ํ•œ ๋ฌถ์Œ์œผ๋กœ ์ •๋ ฌํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ์Šค์œ„ํŠธ๋ผ๋Š” ์ ์ด ์ด ๋…ผ๋ฌธ์˜ ๋ฌด๊ฒŒ์ค‘์‹ฌ์ด๋‹ค.

์™œ ์†์žฌ์ฃผ ์กฐ์ž‘์ด ์–ด๋ ค์šด๊ฐ€

ํ‰ํ–‰ ๊ทธ๋ฆฌํผ๋Š” ์‚ฌ์‹ค์ƒ 1 DoF๋‹ค. ๋ฐ˜๋ฉด ์‚ฌ๋žŒํ˜•/๋‹ค์ง€ ๋กœ๋ด‡ ์†์€ 6~24 DoF์— ์ด๋ฅด๊ณ , ๋„๊ตฌ๋ฅผ ์ฅ๊ณ  ์“ฐ๋Š” ์ž‘์—…(์ฃผ์ „์ž๋กœ ์ปคํ”ผ ๋‚ด๋ฆฌ๊ธฐ, ๊ฐ€์œ„๋กœ ์ž๋ฅด๊ธฐ)์€ ๋ฏธ์„ธํ•œ 3D ๊ธฐํ•˜์™€ ์ ‘์ด‰ ์–ดํฌ๋˜์Šค๋ฅผ ์š”๊ตฌํ•œ๋‹ค. ์—ฌ๊ธฐ์— ๋”ํ•ด ๋กœ๋ด‡๋งˆ๋‹ค ์† ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ ํ•œ ์†์—์„œ ๋ชจ์€ ๋ฐ์ดํ„ฐยท์ •์ฑ…์ด ๋‹ค๋ฅธ ์†์œผ๋กœ ์ž˜ ์˜ฎ๊ฒจ๊ฐ€์ง€ ์•Š๋Š”๋‹ค. ๊ฒฐ๊ตญ โ€œ์†๋งˆ๋‹ค ๋น„์‹ผ ๋ฐ์ดํ„ฐ๋ฅผ ๋”ฐ๋กœ ๋ชจ์•„ ๋”ฐ๋กœ ํ•™์Šตโ€ํ•˜๋Š” ๋น„ํšจ์œจ์ด ์†์žฌ์ฃผ ํŒŒ์šด๋ฐ์ด์…˜์˜ ๊ฐ€์žฅ ํฐ ์žฅ๋ฒฝ์ด์—ˆ๋‹ค.

UniDex-Dataset: ์‚ฌ๋žŒ ์˜์ƒ์„ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ

UniDex-Dataset์€ 1์ธ์นญ ์‚ฌ๋žŒ ์˜์ƒ์—์„œ ํŒŒ์ƒํ•œ 5๋งŒ ๊ฐœ ์ด์ƒ์˜ ๊ถค์ ์„, 8์ข…์˜ ์†(6~24 DoF)์— ๊ฑธ์ณ ๊ตฌ์ถ•ํ•œ ๋กœ๋ด‡ ์ค‘์‹ฌ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ํ•ต์‹ฌ์€ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡์ด ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ฐ”๊พธ๋Š” ๋ณ€ํ™˜ ํŒŒ์ดํ”„๋ผ์ธ์ด๋‹ค.


์‚ฌ๋žŒโ€“๋กœ๋ด‡ ๋ณ€ํ™˜ ํŒŒ์ดํ”„๋ผ์ธ(Fig. 1) โ€” ์›๋ณธ ์žฅ๋ฉด ํฌ์ธํŠธํด๋ผ์šฐ๋“œ์—์„œ ์‚ฌ๋žŒ ์†์„ ๋งˆ์Šคํ‚นํ•˜๊ณ , ์†๊ฐ€๋ฝ ๋ ๊ถค์ ์„ ๋กœ๋ด‡ ์†์— ์ •๋ ฌํ•ด ๋กœ๋ด‡ ์‹คํ–‰ ๊ถค์ ์œผ๋กœ ๋ฐ”๊พผ๋‹ค.

๋ณ€ํ™˜์€ ๋‘ ๊ฒฉ์ฐจ๋ฅผ ๋„˜์–ด์•ผ ํ•œ๋‹ค. ๊ธฐ๊ตฌํ•™์ (kinematic) ๊ฒฉ์ฐจ๋Š” ์†๊ฐ€๋ฝ ๋ retargeting์œผ๋กœ ํ‘ผ๋‹ค. ์‚ฌ๋žŒ ์†์—์„œ m๊ฐœ์˜ ์†๊ฐ€๋ฝ ๋ ๋ชฉํ‘œ X^\star=[x_1^\star,\ldots,x_m^\star]\in\mathbb{R}^{3\times m}(m=๋กœ๋ด‡ ์†๊ฐ€๋ฝ ์ˆ˜)๋ฅผ ๋ฝ‘๊ณ , ์†๊ฐ€๋ฝ ๋ ๊ธฐ๋ฐ˜ IK๋ฅผ ์ ์šฉํ•˜๋˜ 6-DoF ์ •๋ ฌ ์˜คํ”„์…‹(์‹ค์ œ ๋ฒ ์ด์Šค ์•ž์— ์‚ฝ์ž…ํ•œ dummy base)์„ ํ—ˆ์šฉํ•ด ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ทธ๋Ÿด๋“ฏํ•œ ์†โ€“๋ฌผ์ฒด ์ ‘์ด‰์„ ์œ ์ง€ํ•œ๋‹ค. ์†๊ฐ€๋ฝ ๋์ด ์ ‘์ด‰์˜ 1์ฐจ ์ง€์ ์ด๋ฏ€๋กœ ์ด๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๋งž์ถ”๋Š” ๊ฒƒ์ด ์ž์—ฐ์Šค๋Ÿฝ๋‹ค. ์‹œ๊ฐ(visual) ๊ฒฉ์ฐจ๋Š” ์‚ฌ๋žŒ ์†์„ ๋งˆ์Šคํ‚นํ•œ ๋ช…์‹œ์  3D ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ์œ„์—์„œ ๋™์ž‘ํ•จ์œผ๋กœ์จ ์ขํžŒ๋‹ค โ€” ์ •์ฑ…์ด โ€œ์‚ฌ๋žŒ ์†โ€์ด๋ผ๋Š” ๋ถ„ํฌ ๋ฐ– ์ž…๋ ฅ์— ํœ˜๋‘˜๋ฆฌ์ง€ ์•Š๊ฒŒ ํ•œ๋‹ค.


UniDex-Dataset ์‹œ๊ฐํ™”(Fig. 2) โ€” ๋™์‚ฌโ€“๋ฌผ์ฒด ์›Œ๋“œํด๋ผ์šฐ๋“œ์™€ ๋ฐ์ดํ„ฐ์…‹์˜ ์ผ๋ถ€. ์ƒ‰์€ ์„œ๋กœ ๋‹ค๋ฅธ ์†์„ ์˜๋ฏธํ•œ๋‹ค.

FAAS: ์†์„ ๊ฐ€๋กœ์ง€๋ฅด๋Š” ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„

์„œ๋กœ ๋‹ค๋ฅธ ์† ์œ„์—์„œ ํ•˜๋‚˜์˜ ํŒŒ์šด๋ฐ์ด์…˜์„ ์‚ฌ์ „ํ•™์Šตํ•˜๋ ค๋ฉด, ์†์„ ๊ฐ€๋กœ์งˆ๋Ÿฌ ์ „์ด๋˜๋Š” ํ–‰๋™ ํ‘œํ˜„์ด ํ•„์ˆ˜๋‹ค. FAAS(Functionโ€“Actuatorโ€“Aligned Space)๋Š” ๊ทธ ๋‹ต์ด๋‹ค. n๊ฐœ์˜ ์ž‘๋™ DoF๋ฅผ ๊ฐ€์ง„ ์ž„์˜์˜ ์†์— ๋Œ€ํ•ด, ๊ฐ ์•ก์ถ”์—์ดํ„ฐ(URDF์—์„œ ํŒŒ์ƒํ•œ ์ œ์–ด ๊ฐ€๋Šฅํ•œ DoF, mimic ๊ด€์ ˆ ํฌํ•จ)๋ฅผ ๊ทธ ๊ธฐ๋Šฅ์  ์—ญํ• ์— ํ•ด๋‹นํ•˜๋Š” FAAS ์ธ๋ฑ์Šค๋กœ ๋งคํ•‘ํ•œ๋‹ค. ์†๋งˆ๋‹ค ๋งํฌ ๊ธธ์ดยท์ปคํ”Œ๋งยท๋ฐฐ์น˜๊ฐ€ ๋‹ฌ๋ผ๋„, ๋ชจ๋‘ โ€œ์—„์ง€โ€“๊ฒ€์ง€ ํ•€์น˜, ์†์žก์ด๋ฅผ ๊ฐ์‹ธ๋Š” ์†๊ฐ€๋ฝ ๋ง๊ธฐ, ์•ˆ์ •ํ™”๋ฅผ ์œ„ํ•œ ์ธก๋ฉด ์™ธ์ „/๋‚ด์ „โ€ ๊ฐ™์€ ์†Œ์ˆ˜์˜ ๊ธฐ๋Šฅ ํ”„๋ฆฌ๋ฏธํ‹ฐ๋ธŒ๋ฅผ ๊ตฌํ˜„ํ•œ๋‹ค๋Š” ๊ด€์ฐฐ์ด ํ•ต์‹ฌ์ด๋‹ค. FAAS๋Š” ์•ก์ถ”์—์ดํ„ฐ๋ฅผ ์ด ๊ธฐ๋Šฅ ์—ญํ• ๋กœ ๋ฌถ์–ด ๊ณตํ†ต ์ขŒํ‘œ๊ณ„์— ๋งคํ•‘ํ•˜๊ณ , ์ž„๋ฒ ๋””๋จผํŠธ ๊ณ ์œ ์˜ ์žก์Œ ์š”์ธ์„ ๋ฒ„๋ฆฐ๋‹ค.


FAAS(Fig. 3) โ€” Oymotion(11), Allegro(16), Inspire(12), Wuji ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ์†์˜ ์—„์ง€ยท์•ฝ์ง€๋ฅผ ๊ธฐ๋Šฅ ์—ญํ•  ๊ธฐ์ค€์œผ๋กœ ๊ณต์œ  ์ขŒํ‘œ์— ์ •๋ ฌํ•œ๋‹ค.

์ด โ€œURDF ๊ณ ์œ  ๊ด€์ ˆ ๊ณต๊ฐ„โ€์ด ์•„๋‹ˆ๋ผ โ€œ๊ธฐ๋Šฅ ์ค‘์‹ฌ ์ œ์–ด ์ธํ„ฐํŽ˜์ด์Šคโ€๋ผ๋Š” ๋ฐœ์ƒ์ด cross-hand ์ „์ด์˜ ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.

UniDex-VLA: 3D ์–ธ์–ด์กฐ๊ฑด ํŒŒ์šด๋ฐ์ด์…˜ ์ •์ฑ…

UniDex-VLA๋Š” 3Dยท์–ธ์–ด์กฐ๊ฑด ์†์žฌ์ฃผ ์ œ์–ด ๋ชจ๋ธ์„ ์ง€ํ–ฅํ•œ๋‹ค. 2D ์ธ์ฝ”๋”์™€ ์ €์ฐจ์› ๊ทธ๋ฆฌํผ ํ–‰๋™์„ ์ง์ง“๋˜ ๊ธฐ์กด VLA์™€ ๋‹ฌ๋ฆฌ, ์ด ๋ฌธ์ œ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋ถ€ํ”ผ์ (volumetric)์ด๊ณ  ๊ณ DoF๋‹ค โ€” ํŠนํžˆ 1์ธ์นญ ๋‹จ์ผ ์‹œ์  ๊ด€์ธก์—์„œ ๋„๊ตฌ์‚ฌ์šฉ์€ ๋ฏธ์„ธํ•œ 3D ๊ธฐํ•˜์™€ ์ ‘์ด‰ ์–ดํฌ๋˜์Šค ์ถ”๋ก ์„ ์š”๊ตฌํ•œ๋‹ค. UniDex-VLA๋Š” 3D ์‹œ๊ฐ ์ž…๋ ฅ์„ FAAS ํ–‰๋™๊ณต๊ฐ„๊ณผ ๊ฒฐํ•ฉํ•ด ์ง€๊ฐ๊ณผ ์ œ์–ด๋ฅผ ๊ณต์œ  ํ‘œํ˜„์œผ๋กœ ์ •๋ ฌํ•œ๋‹ค.

๊ด€์ธก์€ o_t=[P_t,\ell_t,q_t]๋กœ, P_t๋Š” RGB-D์—์„œ ๋งŒ๋“  ๋‹จ์ผ ์‹œ์  ์ปฌ๋Ÿฌ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ(ํฌ๋กญยท๋‹ค์šด์ƒ˜ํ”Œ), \ell_t๋Š” ์ž์—ฐ์–ด ์ง€์‹œ, q_t๋Š” ๋กœ๋ด‡ ๊ณ ์œ ์ˆ˜์šฉ ์ƒํƒœ๋‹ค. ๋ชจ๋ธ์€ H-์Šคํ… ํ–‰๋™ ์ฒญํฌ A_t=[a_t,\ldots,a_{t+H-1}]์— ๋Œ€ํ•œ ๋ถ„ํฌ p(A_t\mid o_t)๋ฅผ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ํ•™์Šต์€ flow-matching ์†์‹ค์„ ์“ด๋‹ค(๋ถ€๋ก A). ์ •์ฑ…์€ UniDex-Dataset์œผ๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ ๋’ค ํƒœ์Šคํฌ ์‹œ์—ฐ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •๋œ๋‹ค.

์‹คํ—˜: ์„ฑ๋Šฅ

ํ‰๊ฐ€๋Š” ๋‘ ์†์— ๊ฑธ์นœ 5๊ฐœ ์‹ค์„ธ๊ณ„ ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌ์—์„œ ์ด๋ค„์ง„๋‹ค. ํƒœ์Šคํฌ๋‹น ์‹œ์—ฐ 50๊ฐœ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ยทํƒœ์Šคํฌ๋ณ„ 20ํšŒ ์‹œ๋„๋‹ค.


์‹ค์„ธ๊ณ„ ๋ฒค์น˜๋งˆํฌ(Fig. 6) โ€” 5๊ฐœ์˜ ๊นŒ๋‹ค๋กœ์šด ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌ. ๊ฐ ํƒœ์Šคํฌ์˜ ํ•ต์‹ฌ ๋‹จ๊ณ„์™€ ์š”๊ตฌ๋˜๋Š” ์ •๋ฐ€ํ•œ ์†์žฌ์ฃผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋ถ„๋ช…ํ•˜๋‹ค. ์‹œ์—ฐ 50๊ฐœ๋งŒ์œผ๋กœ UniDex-VLA๋Š” ๊ธธ๊ณ  ์–ด๋ ค์šด ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌ์—์„œ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฐ ํญ์œผ๋กœ ์•ž์„ ๋‹ค.


ํ‰๊ท  task progress(Fig. 10) โ€” 5๊ฐœ ํƒœ์Šคํฌ ํ‰๊ท (์œ„)๊ณผ ํ‰๊ท  task progressยท์ตœ์ข… ์„ฑ๊ณต๋ฅ ์˜ ์ง‘๊ณ„(์•„๋ž˜).
Model Avg Task Progress Final Success Rate
DP 29.0 ยฑ 19.9% 22.0 ยฑ 22.5%
DP3 35.0 ยฑ 17.1% 30.0 ยฑ 18.7%
ฯ€โ‚€ 38.0 ยฑ 7.4% 35.0 ยฑ 10.0%
UniDex-VLA (No-Pretrain) 32.5 ยฑ 18.5% 23.0 ยฑ 12.0%
UniDex-VLA 81.0 ยฑ 12.1% 76.0 ยฑ 17.8%

ํŠนํžˆ ๊ฐ€์žฅ ์–ด๋ ค์šด โ€œ๊ฐ€์œ„๋กœ ๋ด‰์ง€ ์ž๋ฅด๊ธฐโ€์—์„œ ์ตœ๊ณ  ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ ํ‰๊ท  task progress๊ฐ€ +84.6% ์ƒ๋Œ€ ํ–ฅ์ƒํ•œ๋‹ค. No-Pretrain๊ณผ์˜ ๊ฒฉ์ฐจ๋Š” UniDex-Dataset ์‚ฌ์ „ํ•™์Šต์˜ ํšจ๊ณผ๋ฅผ ๊น”๋”ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•ด ๋ณด์—ฌ์ค€๋‹ค โ€” ์‚ฌ์ „ํ•™์Šต์ด ์†์žฌ์ฃผ ์ œ์–ด๋ฅผ ์œ„ํ•œ ๊ฐ•ํ•œ ์šด๋™ prior๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค๋Š” ์ฆ๊ฑฐ๋‹ค.

์ผ๋ฐ˜ํ™”: ๊ณต๊ฐ„ยท๋ฌผ์ฒดยท์†

์„ฑ๋Šฅ์„ ๋„˜์–ด, UniDex-VLA๋Š” ์„ธ ๋ฐฉํ–ฅ์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ๋ณด์ธ๋‹ค.

๊ณต๊ฐ„ ์ผ๋ฐ˜ํ™”. 3D ์ง€๊ฐ ๋•๋ถ„์— ํฌ์ธํŠธํด๋ผ์šฐ๋“œ์˜ ๊ธฐํ•˜ ํŽธ์ง‘์œผ๋กœ ๊ฐ„๋‹จํ•œ ์ž๋™ ์ฆ๊ฐ•์ด ๊ฐ€๋Šฅํ•˜๋‹ค. Make Coffee์—์„œ ์ฃผ์ „์žยท๋“œ๋ฆฌํผ์˜ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ๋ฅผ ๋ถ„ํ• ํ•ด ํ…Œ์ด๋ธ” x/y์ถ•์œผ๋กœ ์˜ฎ๊ฒจ OOD ๋ฐฐ์น˜๋ฅผ ๋งŒ๋“ค๊ณ , TAMP๋กœ ๋กœ๋ด‡ ์ƒํƒœ๋ฅผ ์ƒˆ ์žฅ๋ฉด์— ์ •๋ ฌํ•œ๋‹ค(DemoGen์œผ๋กœ ์ž๋™ํ™”). ๊ทธ ๊ฒฐ๊ณผ ์ „ ์ž‘์—…๊ณต๊ฐ„์—์„œ ๋†’์€ ์„ฑ๊ณต๋ฅ ์— ๊ทผ์ ‘ํ•œ๋‹ค.


์† ์ผ๋ฐ˜ํ™”(Fig. 9) โ€” Inspire Hand๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์„ WujiยทOymotion์œผ๋กœ zero-shot ์ „์ดํ•œ๋‹ค(์Šคํ‚ฌ ์ „์ด).

๋ฌผ์ฒด ์ผ๋ฐ˜ํ™”. ๊ฒ€์€ ์ฃผ์ „์ž๋ฅผ ์ƒ‰ยทํฌ๊ธฐยท๊ธฐ๋Šฅ๋ถ€(์†์žก์ดยท์ฃผ๋‘ฅ์ด)๊ฐ€ ๋‹ค๋ฅธ ์ž‘์€ ๋ณด๋ผ์ƒ‰ ์ฃผ์ „์ž๋กœ ๋ฐ”๊ฟ”๋„ ๊ฐ•ํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•œ๋‹ค. ์† ์ผ๋ฐ˜ํ™”. Inspire Hand๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์„ WujiยทOymotion์œผ๋กœ zero-shot ์ „์ดํ•œ๋‹ค โ€” FAAS๊ฐ€ ๋งŒ๋“  ๊ธฐ๋Šฅ ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„์ด cross-hand ์Šคํ‚ฌ ์ „์ด๋ฅผ ์‹ค์ œ๋กœ ๊ฐ€๋Šฅ์ผ€ ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

UniDex-Cap: ํœด๋Œ€์šฉ ์บก์ฒ˜์™€ ์‚ฌ๋žŒโ€“๋กœ๋ด‡ ๊ณต๋™ํ•™์Šต

UniDex-Cap์€ ๋™๊ธฐํ™”๋œ RGB-D์™€ ์†/๋จธ๋ฆฌ ์ž์„ธ๋ฅผ ๊ธฐ๋กํ•˜๋Š” ์‹ค์šฉ์  ์บก์ฒ˜ ์…‹์—…์ด๋‹ค. ์†/๋จธ๋ฆฌ ์ž์„ธ ์ถ”์ •์šฉ Apple Vision Pro, ๊ณ ํ’ˆ์งˆ RGB-D์šฉ Intel RealSense L515, ๊ทธ๋ฆฌ๊ณ  ๋‘˜์„ ๊ณ ์ • ๊ฐ•์ฒด ๋ณ€ํ™˜์œผ๋กœ ๋ฌถ๋Š” 3D ํ”„๋ฆฐํŒ… ๋งˆ์šดํŠธ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ด ๋ณ€ํ™˜์„ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ํ•ด RGB-D์™€ ์ž์„ธ๋ฅผ ๊ณต์œ  ์ขŒํ‘œ๊ณ„์—์„œ ์‹œ๊ฐ„ ๋™๊ธฐํ™”ํ•œ๋‹ค.


UniDex-Cap(Fig. 11) โ€” (a,b) ๊ตฌ์„ฑ์š”์†Œ, (c,d) ์บก์ฒ˜ ๋ฐ์ดํ„ฐ์™€ ๋ณ€ํ™˜๋œ ๋กœ๋ด‡ ์‹คํ–‰ ๊ถค์ .

์บก์ฒ˜ํ•œ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ 3.2์˜ ๋ณ€ํ™˜ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ฐ”๊พธ๊ณ , ์‹œ์  ๋ณ€ํ™˜๊ณผ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์œผ๋กœ ๋กœ๋ด‡ ๊ด€์ ยท์†๋„์— ๋งž์ถ˜ ๋’ค, ์‹ค๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๊ณต๋™ํ•™์Šต(co-train)ํ•œ๋‹ค. ์ด๋กœ์จ ๋น„์‹ผ ๋กœ๋ด‡ ์‹œ์—ฐ ์˜์กด์„ ์ค„์ธ๋‹ค.

๋น„ํŒ์ ์œผ๋กœ ๋ณด๋ฉด

๊ฐ•์ 

  • ์„ธ ์ „ํ™˜์„ ํ•œ ๋ฌถ์Œ์œผ๋กœ ์ •๋ ฌํ–ˆ๋‹ค. โ€œ์‚ฌ๋žŒ ์˜์ƒโ†’๋กœ๋ด‡ ๋ฐ์ดํ„ฐโ€, โ€œ์†๋ณ„ ์ œ์–ดโ†’๊ธฐ๋Šฅ ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„(FAAS)โ€, โ€œ2D ๊ทธ๋ฆฌํผ VLAโ†’3D ๊ณ DoF VLAโ€๊ฐ€ ๋”ฐ๋กœ ๋…ธ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐโ€“ํ–‰๋™๊ณต๊ฐ„โ€“์ •์ฑ…์œผ๋กœ ์ผ๊ด€๋˜๊ฒŒ ๋งž๋ฌผ๋ฆฐ๋‹ค. ์ข‹์€ ์‹œ์Šคํ…œ ๋…ผ๋ฌธ์˜ ์ „ํ˜•์ด๋‹ค.
  • cross-hand ์ „์ด๊ฐ€ ์‹ค์ฆ๋๋‹ค. FAAS ์œ„์—์„œ Inspireโ†’Wuji/Oymotion zero-shot ์ „์ด๊ฐ€ ๋œ๋‹ค๋Š” ๊ฒƒ์€ ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„์ด๋ผ๋Š” ์ฃผ์žฅ์˜ ๊ฐ€์žฅ ๊ฐ•ํ•œ ์ฆ๊ฑฐ๋‹ค.
  • ์‚ฌ์ „ํ•™์Šต ํšจ๊ณผ๊ฐ€ ๋ถ„๋ฆฌ๋๋‹ค. No-Pretrain ๋Œ€๋น„ 32.5%โ†’81.0%์˜ ๊ฒฉ์ฐจ๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ยท์‚ฌ์ „ํ•™์Šต์˜ ๊ฐ€์น˜๋ฅผ ๊น”๋”ํ•˜๊ฒŒ ๋ณด์—ฌ์ค€๋‹ค.
  • ์‹ค์šฉ์  ์บก์ฒ˜ ๊ฒฝ๋กœ(UniDex-Cap). Vision Pro+L515๋ผ๋Š” ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ ํ•˜๋“œ์›จ์–ด๋กœ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„ ๊ณต๋™ํ•™์Šตํ•˜๋Š” ๊ธธ์„ ์ œ์‹œํ•œ๋‹ค.

์•ฝ์ ยทํ•œ๊ณ„

  • action-free ๋Œ€๊ทœ๋ชจ ์˜์ƒ์„ ์•„์ง ๋ชป ์“ด๋‹ค. ์ €์ž๋„ ์ธ์ •ํ•˜๋“ฏ, ์•ฝํ•˜๊ฒŒ ๋ผ๋ฒจ๋œ/ํ–‰๋™ ์—†๋Š” ๋Œ€๊ทœ๋ชจ 1์ธ์นญ ํ™œ๋™ ์˜์ƒ์„ ์•„์ง ํ™œ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค โ€” ์ง„์งœ โ€œ์›น ์Šค์ผ€์ผโ€ ์‚ฌ์ „ํ•™์Šต์˜ ์ž ์žฌ๋ ฅ์€ ๋ฏธ๊ฐœ๋ด‰์ด๋‹ค.
  • ํƒœ์Šคํฌยท์†์˜ ๊ทœ๋ชจ๊ฐ€ ์ œํ•œ์ . ๋ณธ๋ฌธ ๋ฒค์น˜๋งˆํฌ๋Š” 5๊ฐœ ๋„๊ตฌ์‚ฌ์šฉ ํƒœ์Šคํฌยท๋‘ ์† ํ‰๊ฐ€๋‹ค. โ€œuniversalโ€์ด๋ผ๋Š” ์ฃผ์žฅ์— ๋น„ํ•ด ์‹ค์„ธ๊ณ„ ํ‰๊ฐ€ ์†/ํƒœ์Šคํฌ ๋‹ค์–‘์„ฑ์€ ๋” ๋„“์–ด์งˆ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.
  • FAAS์˜ ์†์‹ค. ๊ธฐ๋Šฅ ์—ญํ• ๋กœ ๋ฌถ์œผ๋ฉฐ ์ž„๋ฒ ๋””๋จผํŠธ ๊ณ ์œ  ์ •๋ณด๋ฅผ โ€œ์žก์Œโ€์œผ๋กœ ๋ฒ„๋ฆฌ๋Š”๋ฐ, ๋ฏธ์„ธํ•œ ์†๋ณ„ ์šด๋™ํ•™ ์ฐจ์ด๊ฐ€ ์ค‘์š”ํ•œ ์ž‘์—…์—์„œ๋Š” ์ด ์ถ”์ƒํ™”๊ฐ€ ํ•œ๊ณ„๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค(๋ณธ๋ฌธ์€ ๊ฐ•์  ์œ„์ฃผ๋กœ ๋ณด๊ณ ).
  • ํŒŒ์ดํ”„๋ผ์ธ ๋ณต์žก๋„. retargeting(IK+dummy base), ์† ๋งˆ์Šคํ‚น, TAMP/DemoGen ์ฆ๊ฐ•, ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ๋“ฑ ๊ตฌ์„ฑ์š”์†Œ๊ฐ€ ๋งŽ์•„ ์žฌํ˜„ยท์šด์šฉ ๋น„์šฉ์ด ์ž‘์ง€ ์•Š๋‹ค.
  • ๋‹จ์ผ ์‹œ์  ๊ฐ€์ •. 1์ธ์นญ ๋‹จ์ผ ์‹œ์  ํฌ์ธํŠธํด๋ผ์šฐ๋“œ์— ์˜์กดํ•˜๋ฏ€๋กœ ๊ฐ€๋ฆผ(occlusion)์ด ์‹ฌํ•œ ์ ‘์ด‰ ๋‹จ๊ณ„์—์„œ์˜ ๊ฐ•๊ฑด์„ฑ์€ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ž๋ฆฌ๋งค๊น€

UniDex๋Š” ์„ธ ํ๋ฆ„์˜ ๊ต์ฐจ์ ์— ์žˆ๋‹ค. ์ฒซ์งธ, ์†์žฌ์ฃผ ์กฐ์ž‘(๋‹ค์ง€ ์† ์ œ์–ด)์—์„œ ๋ฐ์ดํ„ฐยท์ž„๋ฒ ๋””๋จผํŠธ ์ด์งˆ์„ฑ ๋ฌธ์ œ๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค(DexNDM ๋ฆฌ๋ทฐ ๋“ฑ cross-embodiment ์† ์ œ์–ด ๊ณ„์—ด๊ณผ ๋งž๋‹ฟ๋Š”๋‹ค). ๋‘˜์งธ, ๋กœ๋ด‡ ํŒŒ์šด๋ฐ์ด์…˜/ํ†ต์ผ ํ–‰๋™๊ณต๊ฐ„์—์„œ FAAS๋Š” cross-hand ์ „์ด๋ฅผ ์œ„ํ•œ ํ–‰๋™ ํŒŒ๋ผ๋ฏธํ„ฐํ™”๋ฅผ ์ œ์‹œํ•œ๋‹ค(VLA ๊ณ„์—ด์ธ XL-VLA ๋ฆฌ๋ทฐ์™€ ๋น„๊ตํ•ด ๋ณผ ๋งŒํ•˜๋‹ค). ์…‹์งธ, ์‚ฌ๋žŒ ์˜์ƒ์—์„œ ๋ฐฐ์šฐ๊ธฐ์—์„œ 1์ธ์นญ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ „๋žต์„ ์ทจํ•œ๋‹ค(EgoScale ๋ฆฌ๋ทฐ์˜ egocentric ํ•™์Šต๊ณผ ์ƒ๋ณด์ ์ด๋‹ค).

์ด ์„ธ ํ๋ฆ„์„ ๋”ฐ๋กœ ๋‹ค๋ฃจ๋˜ ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋‹ฌ๋ฆฌ, UniDex๋Š” โ€œ๋ฐ์ดํ„ฐ(์‚ฌ๋žŒ ์˜์ƒ)โ€“ํ‘œํ˜„(FAAS)โ€“์ •์ฑ…(3D VLA)โ€์„ ํ•œ ์Šค์œ„ํŠธ๋กœ ์ •๋ ฌํ–ˆ๋‹ค๋Š” ๋ฐ ์ฐจ๋ณ„์ ์ด ์žˆ๋‹ค. ์ฝ”๋“œ๊ฐ€ ๊ณต๊ฐœ๋˜์–ด ์žˆ์–ด(unidex-ai/UniDex) ์†์žฌ์ฃผ ํŒŒ์šด๋ฐ์ด์…˜ ์—ฐ๊ตฌ์˜ ์ถœ๋ฐœ ํ”Œ๋žซํผ์œผ๋กœ ๋Œ์–ด ์“ฐ๊ธฐ ์ข‹๋‹ค๋Š” ์ ๋„ ์‹ค๋ฌด์  ๊ฐ€์น˜๋‹ค.

์š”์•ฝ

UniDex์˜ ๊ธฐ์—ฌ๋Š” โ€œ์†์žฌ์ฃผ ํŒŒ์šด๋ฐ์ด์…˜์€ ๋ฐ์ดํ„ฐยทํ–‰๋™๊ณต๊ฐ„ยท์ •์ฑ…์„ ํ•œ๊บผ๋ฒˆ์— ์ •๋ ฌํ•ด์•ผ ํ•œ๋‹คโ€๋Š” ์‹œ์Šคํ…œ ๊ด€์ ์— ์žˆ๋‹ค. ์‚ฌ๋žŒ 1์ธ์นญ ์˜์ƒ์„ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ฐ”๊ฟ” 5๋งŒ ๊ถค์ ยท8์† ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค๊ณ (UniDex-Dataset), ๊ธฐ๋Šฅ ๊ธฐ์ค€์œผ๋กœ ์†์„ ํ†ต์ผํ•˜๊ณ (FAAS), 3D ์–ธ์–ด์กฐ๊ฑด VLA๋ฅผ ์‚ฌ์ „ํ•™์Šตยท๋ฏธ์„ธ์กฐ์ •ํ•ด(UniDex-VLA), ๋‘ ์†ยท5ํƒœ์Šคํฌ์—์„œ ํ‰๊ท  task progress 81%์™€ zero-shot ์† ์ „์ด๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํ•œ๊ณ„๋„ ๋ถ„๋ช…ํ•˜๋‹ค โ€” action-free ๋Œ€๊ทœ๋ชจ ์˜์ƒ ๋ฏธํ™œ์šฉ, ํ‰๊ฐ€ ๊ทœ๋ชจ, ์ถ”์ƒํ™”์˜ ์†์‹ค, ํŒŒ์ดํ”„๋ผ์ธ ๋ณต์žก๋„. ํ•˜์ง€๋งŒ ๊ทธ ํ•œ๊ณ„ ๋Œ€๋ถ€๋ถ„์€ โ€œ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐโ€์™€ โ€œ๋” ๋„“์€ ํ‰๊ฐ€โ€๋ผ๋Š” ํ™•์žฅ ๋ฌธ์ œ์ด๊ณ , ๋ฐ์ดํ„ฐโ€“ํ‘œํ˜„โ€“์ •์ฑ…์„ ์ •๋ ฌํ•œ๋‹ค๋Š” ํ•ต์‹ฌ ์„ค๊ณ„๋Š” ์†์žฌ์ฃผ ํŒŒ์šด๋ฐ์ด์…˜์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ฒญ์‚ฌ์ง„์œผ๋กœ ์ฝํžŒ๋‹ค.

Copyright 2026, JungYeon Lee