Curieux.JY
  • JungYeon Lee
  • Post
  • ๐Ÿ•ธ๏ธ Graph
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด
    • ์™œ ์–ด๋ ค์šด๊ฐ€ โ€” pairedยทcross-embodiment ๋ฐ์ดํ„ฐ์˜ ๊ณต๋ฐฑ
    • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ โ€” ์บก์ฒ˜ ์‹œ์Šคํ…œ๊ณผ ์ง์ง“๊ธฐ ํ”„๋กœํ† ์ฝœ
    • ๋‹ค์ค‘๋ชจ๋‹ฌ ์ƒํƒœ ๋ณต์›
    • ์‹คํ—˜ โ€” ๋ฐ์ดํ„ฐ์˜ ์“ธ๋ชจ๋ฅผ ๋ณด์ด๋Š” 4๊ฐœ ๋ฒค์น˜๋งˆํฌ
      • 4.1 ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ์ ‘์ด‰๋งต ์ „์ด
      • 4.2 ์ž ์žฌ๊ณต๊ฐ„ ๋กœ๋ด‡ ํŒŒ์ง€ ๊ฒ€์ƒ‰
      • 4.3 3D ์† ํฌ์ฆˆ ์ถ”์ • ๋ฒค์น˜๋งˆํฌ
      • 4.4 ๋ฌผ์ฒด 6D ํฌ์ฆˆ ์ถ”์ • ๋ฒค์น˜๋งˆํฌ
    • ๋น„ํŒ์ ์œผ๋กœ ๋ณด๋ฉด
      • ๊ฐ•์ 
      • ์•ฝ์ ยทํ•œ๊ณ„
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ž๋ฆฌ ๋งค๊น€
    • ์š”์•ฝ

๐Ÿ“ƒHRDexDB ๋ฆฌ๋ทฐ

dataset
dexterity
grasp
cross-embodiment
tactile
benchmark
pose-estimation
multi-view
HRDexDB: A Paired Human-Robot Dataset for Cross-Embodiment Dexterous Grasping
Published

June 21, 2026

  • Paper Link

  • Code Link

  • Project

  • Jongbin Lim, Taeyun Ha, Mingi Choi, Jisoo Kim, Byungjun Kim, Subin Jeon, Hanbyul Joo

  • Seoul National University (SNU VCLab), 2026 (arXiv preprint)

  1. ๐Ÿ’ก ์‚ฌ๋žŒ ์†๊ณผ 4์ข… ๋กœ๋ด‡ ์†์ด ๊ฐ™์€ ๋ฌผ์ฒด๋ฅผ ๊ฐ™์€ ์˜๋„๋กœ ์ฅ๋Š” ์žฅ๋ฉด์„ ์ง์ง€์–ด(paired) ๋‹ด์€, ์ตœ์ดˆ์˜ ๋งˆ์ปค๋ฆฌ์Šค(markerless) ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์†์žฌ์ฃผ ํŒŒ์ง€ ๋ฐ์ดํ„ฐ์…‹ HRDexDB๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
  2. โš™๏ธ 21๋Œ€ exocentric + 2๋Œ€ egocentric = 23๋Œ€ ์นด๋ฉ”๋ผ ๋ฆฌ๊ทธ์™€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(Xsens+MANUS)์œผ๋กœ ์‚ฌ๋žŒ/๋กœ๋ด‡ ํŒŒ์ง€๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , HaMeRยทSAM3ยทFoundationStereoยทFoundationPose ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ 3D ์†ยท๋ฌผ์ฒด 6Dยท์ ‘์ด‰๋ ฅ์„ ๋ณต์›ํ•œ๋‹ค.
  3. ๐ŸŽฏ 100๊ฐœ ๋ฌผ์ฒดยท2.1K ์‹œํ€€์Šคยท24M ํ”„๋ ˆ์ž„ ๊ทœ๋ชจ๋กœ, ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ์ ‘์ด‰๋งต ์ „์ดยท์ž ์žฌ๊ณต๊ฐ„ ํŒŒ์ง€ ๊ฒ€์ƒ‰ยท3D ์† ํฌ์ฆˆ/๋ฌผ์ฒด 6D ํฌ์ฆˆ ์ถ”์ •์˜ 4๊ฐœ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

HRDexDB๋Š” โ€œ์‚ฌ๋žŒ์˜ ์†์žฌ์ฃผ(dexterity)๋ฅผ ๋กœ๋ด‡ ์†์œผ๋กœ ์–ด๋–ป๊ฒŒ ์˜ฎ๊ธธ๊นŒโ€๋ผ๋Š” ๋ฌธ์ œ๋ฅผ ๋ฐ์ดํ„ฐ์˜ ๊ด€์ ์—์„œ ๊ณต๋žตํ•œ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์€ ์‚ฌ๋žŒ ์†-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ(HOI)์ด๋‚˜ ๋กœ๋ด‡ ์กฐ์ž‘(ROI) ์ค‘ ํ•œ์ชฝ์— ์น˜์šฐ์ณ ์žˆ์–ด, ๊ฐ™์€ ๋ฌผ์ฒด ์œ„์—์„œ ์‚ฌ๋žŒ๊ณผ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์ด ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ์ฅ๋Š”์ง€๋ฅผ ์ง์ง€์–ด ๋น„๊ตํ•  ์ž๋ฃŒ๊ฐ€ ์‚ฌ์‹ค์ƒ ์—†์—ˆ๋‹ค. HRDexDB๋Š” ์‚ฌ๋žŒ ์† + 4์ข… ๋กœ๋ด‡ ์†(Allegro V4ยทV5 Plus, Inspire RH56DFTPยทRH56F1)์ด ๊ณต์œ ๋œ 100๊ฐœ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•˜๋Š” ์‹œํ€€์Šค๋ฅผ, ๋งˆ์ปค ์—†์ด ๋‹ค์‹œ์  RGB๋กœ ์ •๋ฐ€ํ•˜๊ฒŒ ๋ณต์›ํ•ด ์ง์ง€์–ด(paired) ์ œ๊ณตํ•œ๋‹ค.


๊ฐœ์š”(Fig. 1) โ€” ์‚ฌ๋žŒ๊ณผ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์ด 100๊ฐœ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•˜๋Š” ์ง์ง€์–ด์ง„ ์—ํ”ผ์†Œ๋“œ. ๋™๊ธฐํ™”๋œ ๋‹ค์‹œ์  ์บก์ฒ˜๋กœ 3D ์†ยท๋กœ๋ด‡ ๊ถค์ , ๋ฌผ์ฒด 6D ํฌ์ฆˆ, egocentric ๊ด€์ฐฐ, ์ด‰๊ฐ ์ ‘์ด‰๋ ฅ, ์„ฑ๊ณต/์‹คํŒจ ๋ผ๋ฒจ์„ ํ•จ๊ป˜ ๊ธฐ๋กํ•œ๋‹ค.

ํ•ต์‹ฌ ์ฐจ๋ณ„์ ์€ ์„ธ ๊ฐ€์ง€๋‹ค. (1) Paired: ๊ฐ™์€ ๋ฌผ์ฒด๋ฅผ ์‚ฌ๋žŒ์ด ๋จผ์ € ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ฅ๊ณ , ํ…”๋ ˆ์˜คํผ๋ ˆ์ดํ„ฐ๊ฐ€ ๊ทธ ์˜๋„๋ฅผ ๋ณด์กดํ•œ ๋Œ€์‘ ํŒŒ์ง€๋ฅผ ๋กœ๋ด‡์œผ๋กœ ์žฌํ˜„ํ•œ๋‹ค. (2) Cross-embodiment: ์‚ฌ๋žŒ ํฌํ•จ 5๊ฐœ ์ž„๋ฒ ๋””๋จผํŠธ๊ฐ€ ๊ฐ™์€ ๋ฌผ์ฒด ์ง‘ํ•ฉ์„ ๊ณต์œ ํ•œ๋‹ค. (3) Markerless + multi-modal: ๋งˆ์ปค ์—†์ด ๋‹ค์‹œ์  RGB๋งŒ์œผ๋กœ ๊ณ ์ •๋ฐ€ 3D๋ฅผ ๋ณต์›ํ•˜๊ณ , ์ด‰๊ฐ ์ง€์› ๋กœ๋ด‡ ์†์—์„œ๋Š” ์ ‘์ด‰๋ ฅ๊นŒ์ง€ ๋‹ด๋Š”๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

๋กœ๋ด‡ ํŒŒ์ง€ ์‹œํ€€์Šค๋Š” ์‹œ๊ฐ„ ์ธ๋ฑ์Šค๋œ ๋‹ค์ค‘๋ชจ๋‹ฌ ํŠœํ”Œ๋กœ ํ‘œํ˜„๋œ๋‹ค.

\mathcal{T}^{\mathrm{robot}}=\left\{\{\mathbf{I}^{c_i}_{t}\}_{c_i=1}^{21},\ \mathbf{I}^{\mathrm{ego}}_{t},\ \bm{q}^{\mathrm{robot}}_{t},\ \bm{T}^{\mathrm{object}}_{t},\ \bm{F}^{\mathrm{tactile}}_{t},\ y\right\}_{t=1}^{T_r}

์—ฌ๊ธฐ์„œ \mathbf{I}^{1..21}_tยท\mathbf{I}^{\mathrm{ego}}_t๋Š” ๋™๊ธฐํ™”๋œ exo/ego RGB, \bm{q}^{\mathrm{robot}}_t๋Š” ๋กœ๋ด‡ ์ƒํƒœ, \bm{T}^{\mathrm{object}}_t\in\mathrm{SE}(3)๋Š” ๋ฌผ์ฒด 6D ํฌ์ฆˆ, \bm{F}^{\mathrm{tactile}}_t๋Š” ์ง€๋ฌธ ์ด‰๊ฐ ์‹ ํ˜ธ, y\in\{0,1\}์€ ์„ฑ๊ณต ์—ฌ๋ถ€๋‹ค. ์‚ฌ๋žŒ ํŒŒ์ง€๋Š” ๋กœ๋ด‡ ์ƒํƒœยท์ด‰๊ฐ ๋Œ€์‹  MANO ํฌ์ฆˆ \bm{\theta}^{\mathrm{human}}_t\in\mathbb{R}^{51}๋กœ ๊ธฐ์ˆ ๋œ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ (๋ฒค์น˜๋งˆํฌ 4์ข…):

  • ์ ‘์ด‰๋งต ์ „์ด: ์‚ฌ๋žŒ ์ ‘์ด‰์„ ๊ทธ๋Œ€๋กœ ์“ด ๊ฒƒ๋ณด๋‹ค, HRDexDB๋กœ ํ•™์Šตํ•œ ๋กœ๋ด‡ ์ „์šฉ ์ ‘์ด‰๋งต์œผ๋กœ ํŒŒ์ง€๋ฅผ ์ตœ์ ํ™”ํ•˜๋ฉด ์‹ค๊ธฐ ์„ฑ๊ณต๋ฅ ์ด Inspire 66.7โ†’73.3%, Allegro 63.3โ†’80.0%๋กœ ์ƒ์Šน(Table 2).
  • ์ž ์žฌ๊ณต๊ฐ„ ํŒŒ์ง€ ๊ฒ€์ƒ‰: 33๊ฐœ ํ›„๋ณด ์ค‘ Humanโ†’Inspire R@5 100%, R@1 36.36%. ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋กœ BODex ์ตœ์ ํ™”๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๋ฉด kinematic retargeting์„ ๋Šฅ๊ฐ€(Table 3โ€“4).
  • 3D ์† ํฌ์ฆˆ ์ถ”์ •: ๋ชจ๋“  SOTA ๋ชจ๋ธ์ด FreiHAND๋ณด๋‹ค ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ์—์„œ ์˜ค์ฐจ๊ฐ€ ํผ โ†’ ๋” ์–ด๋ ค์šด ๋ฒค์น˜๋งˆํฌ์ž„์„ ํ™•์ธ. 6k ์ƒ˜ํ”Œ์„ ์„ž์œผ๋ฉด FreiHAND ์„ฑ๋Šฅ๋„ ์†Œํญ ๊ฐœ์„ (Table 5โ€“6).
  • ๋ฌผ์ฒด 6D ํฌ์ฆˆ ์ถ”์ •: ๋กœ๋ด‡ ํŒŒ์ง€๊ฐ€ ์‚ฌ๋žŒ ํŒŒ์ง€๋ณด๋‹ค ํ•ญ์ƒ ๋” ์–ด๋ ค์›€(๋กœ๋ด‡ ๋งํฌ๊ฐ€ ๋ฌผ์ฒด ๊ฒฝ๊ณ„๋ฅผ ๊ฐ€๋ฆผ). MegaPose refiner๋ฅผ HRDexDB๋กœ ๋ฏธ์„ธ์กฐ์ • ์‹œ ADD-S 10.2% ๊ฐœ์„ (Table 7โ€“8).

๊ฒฐ๋ก : HRDexDB๋Š” ์‚ฌ๋žŒ๊ณผ ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ์†์˜ ํŒŒ์ง€๋ฅผ ๊ณต์œ  ๋ฌผ์ฒด ์œ„์—์„œ ์ง์ง€์–ด ๋‹ด์€ ์ฒซ ๋งˆ์ปค๋ฆฌ์Šค ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์ „์ด ์—ฐ๊ตฌ์™€ ์ƒํ˜ธ์ž‘์šฉ ์ค‘์‹ฌ ์ง€๊ฐ(perception) ๋ฒค์น˜๋งˆํฌ์˜ ๊ณตํ†ต ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด

์‚ฌ๋žŒ ์†์žฌ์ฃผ๋ฅผ ๋กœ๋ด‡์— ์˜ฎ๊ธฐ๋Š” ์—ฐ๊ตฌ์˜ ๊ทผ๋ณธ ๋ณ‘๋ชฉ์€ โ€œ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ์˜ ๋ถ€์žฌโ€์˜€๋‹ค. HRDexDB๋Š” ๋…ผ๋ฌธ ๋Œ€๋ถ€๋ถ„์„ ์ •์ฑ…ยท๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ ์บก์ฒ˜ยท๋ณต์› ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ์— ์Ÿ๋Š” ๋ฐ์ดํ„ฐ์…‹ ๋…ผ๋ฌธ์ด๋ฉฐ, ๊ทธ ์œ„์—์„œ ๋„ค ๊ฐœ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฐ์ดํ„ฐ์˜ ์“ธ๋ชจ๋ฅผ ์‹ค์ฆํ•œ๋‹ค.

์™œ ์–ด๋ ค์šด๊ฐ€ โ€” pairedยทcross-embodiment ๋ฐ์ดํ„ฐ์˜ ๊ณต๋ฐฑ

์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡ ์†์€ ํ˜•ํƒœ(morphology)ยท๊ธฐ๊ตฌํ•™(kinematics)ยท๊ตฌ๋™(actuation)์ด ๋‹ค๋ฅด๊ณ , ์ด ์ž„๋ฒ ๋””๋จผํŠธ ๊ฒฉ์ฐจ๋Š” ๋กœ๋ด‡ ์†๋“ค ์‚ฌ์ด์—์„œ๋„ ์กด์žฌํ•œ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ๋‹ค์ง€ ์†์€ ์ €๋งˆ๋‹ค ๋ฌผ๋ฆฌยท๊ธฐ๊ตฌํ•™ ์ œ์•ฝ์„ ์ง€๋…€ ์‹คํ˜„ ๊ฐ€๋Šฅํ•œ ์ ‘์ด‰ ํŒจํ„ด๊ณผ ํŒŒ์ง€ ์ „๋žต์ด ๋‹ค๋ฅด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์€ ์ด ๊ฒฉ์ฐจ๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃฐ ์žฌ๋ฃŒ๋ฅผ ์ฃผ์ง€ ๋ชปํ–ˆ๋‹ค.

  • HOI(์‚ฌ๋žŒ-๋ฌผ์ฒด) ๋ฐ์ดํ„ฐ์…‹ โ€” FreiHAND, DexYCB, ARCTIC, HOI4D, GigaHands ๋“ฑ์€ ๊ทœ๋ชจยท์‹œ์ ยท๋ฌผ์ฒด ๋‹ค์–‘์„ฑ์„ ํ‚ค์› ์ง€๋งŒ ์‚ฌ๋žŒ ์ค‘์‹ฌ์ด๋ผ ๋กœ๋ด‡ ์ž„๋ฒ ๋””๋จผํŠธ์™€์˜ ์ง(pair)์ด ์—†๋‹ค.
  • ROI(๋กœ๋ด‡-๋ฌผ์ฒด) ๋ฐ์ดํ„ฐ์…‹ โ€” Open X-Embodiment, DROID๋Š” ๋Œ€๊ทœ๋ชจ์ง€๋งŒ ์ƒ๋‹น์ˆ˜๊ฐ€ ์ €-DoF ๊ทธ๋ฆฌํผ์ด๊ณ  ๋ฌผ์ฒด ๋ชจ์…˜์ด ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ์ถ”์ ๋œ๋‹ค.
  • ์†Œ์ˆ˜์˜ HROI(์‚ฌ๋žŒ-๋กœ๋ด‡) ์‹œ๋„ โ€” RH20T, DexWild, H&R ๋“ฑ์ด ์žˆ์œผ๋‚˜, ์—ฌ๋Ÿฌ ๋‹ค์ง€ ๋กœ๋ด‡ ์ž„๋ฒ ๋””๋จผํŠธ๋ฅผ ๊ณต์œ  ๋ฌผ์ฒด ์œ„์—์„œ ์ง์ง€์–ด ๋‹ด์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ๋งˆ์ปค๋ฆฌ์Šค RGBยท์ด‰๊ฐ์ด ๋น ์ ธ ์žˆ๋‹ค.

HRDexDB๋Š” ์ €์ž๋“ค์ด ์•„๋Š” ํ•œ, ๊ณต์œ  ๋ฌผ์ฒด ์œ„์—์„œ ์‚ฌ๋žŒ๊ณผ ๋‹ค์ค‘ ๋กœ๋ด‡ ์†์˜ ์†์žฌ์ฃผ ํŒŒ์ง€๋ฅผ ๋งˆ์ปค๋ฆฌ์Šค ๋‹ค์‹œ์  RGB๋กœ ํ†ต์ผยท์ง์ง€์–ด ๋‹ด์€ ์ฒซ ๋ฐ์ดํ„ฐ์…‹์ด๋ผ๊ณ  ์ฃผ์žฅํ•œ๋‹ค.


๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ(Fig. 1) โ€” 100๊ฐœ ๋ฌผ์ฒด ร— (์‚ฌ๋žŒ + 4 ๋กœ๋ด‡ ์†). ์ง์ง€์–ด์ง„ ํŒŒ์ง€ ๊ถค์ ยท๋ฌผ์ฒด 6Dยท์ด‰๊ฐยท์„ฑ๊ณต๋ผ๋ฒจ.

Table 1์˜ ๋น„๊ต์—์„œ HRDexDB๋Š” HROI ํƒ€์ž…, ์ž„๋ฒ ๋””๋จผํŠธ 5(์‚ฌ๋žŒ+4๋กœ๋ด‡), ๋‹ค์ง€(Dex) โœ“, 23 ์‹œ์ , 100 ๋ฌผ์ฒด, 2048ร—1536 ํ•ด์ƒ๋„, 2.1K ์‹œํ€€์Šคยท24M ํ”„๋ ˆ์ž„, ์ด‰๊ฐยท๋งˆ์ปค๋ฆฌ์Šคยท3D ์†ยท๋ฌผ์ฒด 6D๋ฅผ ๋ชจ๋‘ ๊ฐ–์ถ˜ ์œ ์ผํ•œ ํ•ญ๋ชฉ์œผ๋กœ ์ œ์‹œ๋œ๋‹ค. (๊ทœ๋ชจ ์ž์ฒด๋Š” GigaHands(183M ํ”„๋ ˆ์ž„)๋‚˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์…‹(OXE 130M)์ด ๋” ํฌ์ง€๋งŒ, HRDexDB์˜ ๊ฐ•์ ์€ ํ”„๋ ˆ์ž„ ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ผ pairedยทmulti-embodimentยทmulti-modal ์กฐํ•ฉ์˜ ์™„๋น„์— ์žˆ๋‹ค.)

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ โ€” ์บก์ฒ˜ ์‹œ์Šคํ…œ๊ณผ ์ง์ง“๊ธฐ ํ”„๋กœํ† ์ฝœ


์บก์ฒ˜ยท๋ณต์› ํŒŒ์ดํ”„๋ผ์ธ(Fig. 2) โ€” ๋‹ค์‹œ์  ๋…นํ™”๋ฅผ ์ฒ˜๋ฆฌํ•ด ์† ๋ชจ์…˜ยท๋ฌผ์ฒด 6D ๊ถค์ ์„ ๋ณต์›ํ•˜๊ณ , ์ •๋ ฌ๋œ ์‚ฌ๋žŒยท๋กœ๋ด‡ ํŒŒ์ง€๋ฅผ ์‚ฐ์ถœํ•œ๋‹ค.

์บก์ฒ˜ ๋ฆฌ๊ทธ. ์ž‘์—…๊ณต๊ฐ„์„ 3๋ฉด์œผ๋กœ ๋‘˜๋Ÿฌ์‹ผ ๊ธˆ์† ํ”„๋ ˆ์ž„์— 21๋Œ€ exocentric RGB ์นด๋ฉ”๋ผ๋ฅผ ๋ฐฐ์น˜ํ•ด ์‹ฌํ•œ ์†-๋ฌผ์ฒด ๊ฐ€๋ฆผ(occlusion) ์†์—์„œ๋„ ์กฐ๋ฐ€ํ•œ ๋‹ค์‹œ์  ์บก์ฒ˜๋ฅผ ์–ป๋Š”๋‹ค. ์—ฌ๊ธฐ์— 2๋Œ€ egocentric ์Šคํ…Œ๋ ˆ์˜ค๋ฅผ ๋”ํ•˜๋Š”๋ฐ, ๋กœ๋ด‡ ์‹œํ–‰์€ ์–ด๊นจ ๋„ˆ๋จธ(over-the-shoulder) ๋ฆฌ๊ทธ, ์‚ฌ๋žŒ ์‹œ์—ฐ์€ ์ปค์Šคํ…€ ์Šคํ…Œ๋ ˆ์˜ค ํ—ฌ๋ฉง์œผ๋กœ ์ดฌ์˜ํ•œ๋‹ค. ๋กœ๋ด‡์€ Xsens ๊ด€์„ฑ ๋ชจ์…˜์บก์ฒ˜ ์ŠˆํŠธ + MANUS ๊ธ€๋Ÿฌ๋ธŒ๋กœ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๋˜์–ด, ์กฐ์ž‘์ž์˜ ์†๋ชฉยท์†๊ฐ€๋ฝ ์›€์ง์ž„์„ ๋กœ๋ด‡ ํŒ”๊ณผ ์†์— ๋งคํ•‘ํ•œ๋‹ค.

์ง์ง“๊ธฐ(paired) ํ”„๋กœํ† ์ฝœ โ€” 2๋‹จ๊ณ„. ๊ฐ™์€ ๋ฌผ์ฒดยท๊ฐ™์€ ์ž‘์—…๊ณต๊ฐ„ ์กฐ๊ฑด์—์„œ, โ‘  ์‚ฌ๋žŒ ํ”ผํ—˜์ž๊ฐ€ ๋จผ์ € ์ž์—ฐ์Šค๋Ÿฌ์šด ํŒŒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋‹ค์‹œ์  ๋…นํ™”๋กœ ์‚ฌ๋žŒ ์†ยท๋ฌผ์ฒด ๊ถค์ ์„ ๋ณต์›ํ•œ๋‹ค. โ‘ก ํ…”๋ ˆ์˜คํผ๋ ˆ์ดํ„ฐ๊ฐ€ ๊ทธ ์‹œ์—ฐ์„ ๊ด€์ฐฐํ•˜๊ณ  ์˜๋ฏธ์ ์œผ๋กœ ๋Œ€์‘ํ•˜๋Š”(semantically corresponding) ํŒŒ์ง€๋ฅผ ๋กœ๋ด‡์œผ๋กœ ์žฌํ˜„ํ•˜๋˜, ํ˜•ํƒœยท๊ธฐ๊ตฌํ•™ยทํƒ€์ด๋ฐ์˜ ์ž„๋ฒ ๋””๋จผํŠธ๋ณ„ ์ฐจ์ด๋Š” ํ—ˆ์šฉํ•œ๋‹ค. ์ฆ‰ ์ง์ง“๊ธฐ๋Š” ํ”„๋ ˆ์ž„ ๋‹จ์œ„ ์ •ํ•ฉ์ด ์•„๋‹ˆ๋ผ ํŒŒ์ง€ ์˜๋„(intent) ์ˆ˜์ค€์˜ ๋Œ€์‘์ด๋‹ค โ€” ์ด ์„ค๊ณ„ ์„ ํƒ์€ ๋’ค์˜ ํ•œ๊ณ„์™€ ์ง์ ‘ ์—ฐ๊ฒฐ๋œ๋‹ค.

๋‹ค์ค‘๋ชจ๋‹ฌ ์ƒํƒœ ๋ณต์›

ํ†ต์ผ ์›”๋“œ ์ขŒํ‘œ๊ณ„ ์•ˆ์—์„œ ์„ธ ์š”์†Œ๋ฅผ ๋ณต์›ํ•œ๋‹ค.

  • ์‚ฌ๋žŒ ์† โ€” MANO ํŒŒ๋ผ๋ฉ”ํŠธ๋ฆญ ๋ชจ๋ธ์„ ์‚ฌ์šฉ. GigaHands์˜ ๋‹ค์‹œ์  ํ”ผํŒ… ์ „๋žต์„ ๋”ฐ๋ผ ๊ฐ ๋ณด์ • ์‹œ์ ์—์„œ HaMeR๋กœ 2D ํ‚คํฌ์ธํŠธ๋ฅผ ๊ฒ€์ถœโ†’์‚ผ๊ฐ์ธก๋Ÿ‰์œผ๋กœ 3D ๊ด€์ ˆ์„ ์–ป๊ณ โ†’ํ”„๋ ˆ์ž„๋งˆ๋‹ค MANO ํฌ์ฆˆ๋ฅผ ์ตœ์ ํ™”ํ•œ๋‹ค. ํ”ผํ—˜์ž๋ณ„ ์† ํ˜•์ƒ์€ SAM3 ๋งˆ์Šคํฌ์™€์˜ ์‹ค๋ฃจ์—ฃ ์ •๋ ฌ๋กœ ๋ณด์ •ํ•˜๊ณ , ์‹œ๊ฐ„ ํ•„ํ„ฐ๋ง์œผ๋กœ ์ง€ํ„ฐ๋ฅผ ์ค„์ธ๋‹ค.
  • ๋ฌผ์ฒด 6D ์ถ”์  โ€” ๋ณด์ •๋œ ์Šคํ…Œ๋ ˆ์˜ค ์Œ์—์„œ FoundationStereo๋กœ ๋ฐ€์ง‘ ๊นŠ์ด๋ฅผ, SAM3๋กœ ๋ฌผ์ฒด ๋งˆ์Šคํฌ๋ฅผ ์–ป๋Š”๋‹ค. RGB-D์™€ CAD ๋ชจ๋ธ์„ FoundationPose์— ๋„ฃ์–ด ์ฒซ ํ”„๋ ˆ์ž„์„ ์ „์—ญ ์ •ํ•ฉ์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ  ์ดํ›„ ์‹œ๊ฐ„ ์ถ”์ ์œผ๋กœ ์ •๋ จํ•œ๋‹ค. ๋‹จ์ผ ์‹œ์  ์Šคํ…Œ๋ ˆ์˜ค์˜ ๋“œ๋ฆฌํ”„ํŠธ๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด, ๋ฌผ์ฒด ๋ฉ”์‰ฌ๋ฅผ ๋ชจ๋“  ๋ณด์ • ์‹œ์ ์— ๋ Œ๋”๋งํ•ด ์‹œ์  ๊ฐ„ ์‹ค๋ฃจ์—ฃ ๋ถˆ์ผ์น˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ต์ฐจ ์‹œ์  ๊ธฐํ•˜ ์ผ๊ด€์„ฑ ์ œ์•ฝ์„ ์ถ”๊ฐ€ํ•œ๋‹ค.

์ด ํŒŒ์ดํ”„๋ผ์ธ์€ ์ „๋ถ€ ๊ธฐ์กด SOTA ๋น„์ „ ๋ชจ๋ธ์˜ ์กฐํ•ฉ์ด๋ผ๋Š” ์ ์„ ์งš์–ด๋‘˜ ๋งŒํ•˜๋‹ค โ€” ์ƒˆ ๋ณต์› ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜๊ธฐ๋ณด๋‹ค, ์ •๋ฐ€ ๋‹ค์‹œ์  ๋ฆฌ๊ทธ ์œ„์—์„œ ๊ฒ€์ฆ๋œ ๋„๊ตฌ๋“ค์„ ํ†ตํ•ฉํ•ด ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ํ™•๋ณดํ•˜๋Š” ์—”์ง€๋‹ˆ์–ด๋ง์— ๊ฐ€๊น๋‹ค.

์‹คํ—˜ โ€” ๋ฐ์ดํ„ฐ์˜ ์“ธ๋ชจ๋ฅผ ๋ณด์ด๋Š” 4๊ฐœ ๋ฒค์น˜๋งˆํฌ

๋…ผ๋ฌธ์€ ๋‘ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ๋‹ค: (A) ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ์ „์ด(4.1 ์ ‘์ด‰๋งต ์ „์ด, 4.2 ํŒŒ์ง€ ๊ฒ€์ƒ‰)์™€ (B) ์ƒํ˜ธ์ž‘์šฉ ์ค‘์‹ฌ ์ง€๊ฐ ๋ฒค์น˜๋งˆํฌ(4.3 ์† ํฌ์ฆˆ, 4.4 ๋ฌผ์ฒด 6D ํฌ์ฆˆ).

4.1 ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ์ ‘์ด‰๋งต ์ „์ด


์ ‘์ด‰ ์ „์ด์™€ ์‹ค๊ธฐ ํŒŒ์ง€(Fig. 3) โ€” (a) ์‚ฌ๋žŒ ์ ‘์ด‰/๋ถ€์œ„ ๋งต (C^h,P^h)๋ฅผ ๋กœ๋ด‡ ์ „์šฉ ๋งต (\hat{C}^r,\hat{P}^r)๋กœ ๋ณ€ํ™˜ํ•ด ํŒŒ์ง€ ํ•ฉ์„ฑ์˜ ์ตœ์ ํ™” ๋ชฉํ‘œ๋กœ ์‚ผ๋Š”๋‹ค. (b) ๊ฐ™์€ ๋ฌผ์ฒดยท๊ฐ™์€ ์ž…๋ ฅ์—์„œ, ์ „์ด๋œ ๋งต์œผ๋กœ ์ตœ์ ํ™”ํ•œ ํŒŒ์ง€๋Š” ์„ฑ๊ณตํ•˜๊ณ  ์‚ฌ๋žŒ ๋งต ๊ทธ๋Œ€๋กœ ์“ด ํŒŒ์ง€๋Š” ์‹คํŒจํ•œ๋‹ค.

์ฐฉ์ƒ. ๋‹ค์ง€ ๋กœ๋ด‡ ์†์ด ์‚ฌ๋žŒ ์†์„ ๋‹ฎ์•˜์–ด๋„, ์‚ฌ๋žŒ ์ ‘์ด‰ ํŒจํ„ด์„ ๊ทธ๋Œ€๋กœ ๋ชจ๋ฐฉํ•˜๋ฉด ํ˜•ํƒœยท๊ธฐ๊ตฌํ•™ ์ฐจ์ด๋กœ ์ตœ์ ์ด ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค. CEDex ๊ฐ™์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ์ ‘์ด‰ ๋Œ€์‘์„ ์‚ฌ์ „ ์ •์˜ํ–ˆ์ง€๋งŒ, HRDexDB๋Š” ์ง์ง€์€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ์ „์šฉ ์ ‘์ด‰๋งต์„ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๋Œ€์•ˆ์„ ์—ฐ๋‹ค.

์„ค์ •. ๋ฌผ์ฒด ํฌ์ธํŠธํด๋ผ์šฐ๋“œ O\in\mathbb{R}^{N\times3} ์œ„์˜ ํŒŒ์ง€๋ฅผ, ์ ๋ณ„ ์ ‘์ด‰ํ™•๋ฅ  C\in[0,1]^N๊ณผ ๋ถ€์œ„ ๋งต P(์ ‘์ด‰์ ์„ ์† ๋ถ€์œ„์— ํ• ๋‹น)๋กœ ํ‘œํ˜„ํ•œ๋‹ค. ์‚ฌ๋žŒ ๋ถ€์œ„ ๋งต P^h\in\mathbb{R}^{N\times6}, ๋กœ๋ด‡ ๋ถ€์œ„ ๋งต P^r\in\mathbb{R}^{N\times B}(Inspire B=6, Allegro B=5). ์‚ฌ๋žŒ ํ‘œํ˜„ [C^h,P^h]์™€ PointNet++ ๋ฌผ์ฒด ํŠน์ง•์„ ์กฐ๊ฑด์œผ๋กœ ๋กœ๋ด‡ ํ‘œํ˜„ [C^r,P^r]๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , C^r์— ์ ‘์ด‰ ๊ฐ€์ค‘ L_1, P^r์— ๊ต์ฐจ์—”ํŠธ๋กœํ”ผ๋กœ ํ•™์Šตํ•œ๋‹ค. ์˜ˆ์ธก๋œ ๋กœ๋ด‡ ์ ‘์ด‰์œผ๋กœ CEDex์˜ ๋ฌผ๋ฆฌ ์ธ์ง€ ์ตœ์ ํ™”(์ ‘์ด‰ยท๊ด€ํ†ตยท์ž๊ธฐ์ถฉ๋Œ ํ•ญ)๋กœ ํŒŒ์ง€๋ฅผ ํ•ฉ์„ฑํ•œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์€ Isaac Gym์—์„œ 6์ถ• ํž˜, ์‹ค๊ธฐ๋Š” ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด 10์ดˆ ์œ ์ง€ํ•˜๋ฉด ์„ฑ๊ณต์œผ๋กœ ๋ณธ๋‹ค(pre-grasp/squeeze๋Š” BODex, ์‹คํ–‰ ๊ถค์ ์€ CuRobo).

๊ฒฐ๊ณผ(Table 2, ์„ฑ๊ณต๋ฅ  %). ์ตœ์ ํ™”๊ธฐ๋Š” ๊ณ ์ •ํ•˜๊ณ  ์ ‘์ด‰ ํ•ญ์˜ ์ถœ์ฒ˜๋งŒ ๋ฐ”๊พผ ๋น„๊ต:

Method Inspire Sim โ†‘ Inspire Real โ†‘ Allegro Sim โ†‘ Allegro Real โ†‘
Human-Contact 54.6 66.7 60.2 63.3
Transferred (Ours) 55.6 73.3 65.8 80.0

Sim ์‹œํ–‰ 1000/1000, Real ์‹œํ–‰ 60/30(Inspire/Allegro). ์ „์ด๋œ ์ ‘์ด‰๋งต์ด ์‹œ๋ฎฌยท์‹ค๊ธฐ ๋ชจ๋‘์—์„œ ์‚ฌ๋žŒ ์ ‘์ด‰์„ ๊ทธ๋Œ€๋กœ ์“ด ๊ฒฝ์šฐ๋ณด๋‹ค ์„ฑ๊ณต๋ฅ ์„ ๋†’์˜€๋‹ค. ํŠนํžˆ ์‹ค๊ธฐ์—์„œ ๊ฒฉ์ฐจ๊ฐ€ ํฌ๋‹ค(Allegro +16.7%p). ๋‹ค๋งŒ ์‹œ๋ฎฌ ํ–ฅ์ƒํญ(Inspire +1.0%p)์€ ์ž‘์•„, ์ด๋“์˜ ์ƒ๋‹น ๋ถ€๋ถ„์ด ์‹ค๊ธฐ ์ ‘์ด‰ ์ •ํ•ฉ์—์„œ ๋‚˜์˜จ๋‹ค.

4.2 ์ž ์žฌ๊ณต๊ฐ„ ๋กœ๋ด‡ ํŒŒ์ง€ ๊ฒ€์ƒ‰


์‚ฌ๋žŒ ์กฐ๊ฑด๋ถ€ ๋กœ๋ด‡ ํŒŒ์ง€ ๊ฒ€์ƒ‰์˜ ์ •์„ฑ ์˜ˆ์‹œ(Fig. 4) โ€” ์‚ฌ๋žŒ ์†-๋ฌผ์ฒด ํŒŒ์ง€ ์งˆ์˜๋กœ ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ๋กœ๋ด‡ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ๊ฒ€์ƒ‰. same-object๋Š” ์งˆ์˜ ๋ฌผ์ฒด๋กœ ํ›„๋ณด๋ฅผ ์ œํ•œ, cross-object๋Š” ํ•™์Šต ๋ฌผ์ฒด์—์„œ ๊ฒ€์ƒ‰ํ•ด ๋ฏธํ•™์Šต ์งˆ์˜์— ํ˜ธํ™˜๋˜๋Š” ํŒŒ์ง€ ์‚ฌ์ „์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•œ๋‹ค.

์ฐฉ์ƒ. ์ง์ง€์€ ์‚ฌ๋žŒยท๋กœ๋ด‡ ํŒŒ์ง€๋กœ๋ถ€ํ„ฐ, ๊ธฐํ•˜ยท๊ธฐ๋Šฅ์ ์œผ๋กœ ๋Œ€์‘ํ•˜๋Š” ํŒŒ์ง€๋ฅผ ์ž„๋ฒ ๋””๋จผํŠธ ๊ฐ„์— ์ •๋ ฌํ•˜๋Š” ๊ณต์œ  ์ž ์žฌ ํ‘œํ˜„์„ ํ•™์Šตํ•œ๋‹ค. ์ถ”๋ก  ์‹œ ์‚ฌ๋žŒ ์†-๋ฌผ์ฒด ํŒŒ์ง€๋ฅผ ์งˆ์˜๋กœ, HRDexDB์˜ ๋กœ๋ด‡ ํŒŒ์ง€ ํ›„๋ณด๋ฅผ ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„๋กœ ๋žญํ‚นํ•œ๋‹ค. ๊ตฌํ˜„์€ CLIP ์Šคํƒ€์ผ ๋‹ค๋ถ„๊ธฐ ๊ฒ€์ƒ‰ ๋ชจ๋ธ(์‚ฌ๋žŒยทInspire-F1ยทAllegro-V5์šฉ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ์ธ์ฝ”๋” + ๊ณต์œ  ๋ฌผ์ฒด ์ธ์ฝ”๋”)์„ ๋Œ€์นญ ๋Œ€์กฐ ์†์‹ค๋กœ ํ•™์Šตํ•œ๋‹ค.

๊ฒฐ๊ณผ(Table 3, 33๊ฐœ ํ›„๋ณด ๊ฒ€์ƒ‰).

Retrieval Direction R@1 R@3 R@5
Human โ†’ Inspire 36.36% 81.82% 100.00%
Human โ†’ Allegro 24.24% 63.64% 72.73%
Inspire โ†’ Allegro 8.18% 57.58% 72.73%

์‚ฌ๋žŒโ†’Inspire๊ฐ€ ๊ฐ€์žฅ ์ž˜ ๋˜๊ณ (R@5 100%), ๋กœ๋ด‡โ†’๋กœ๋ด‡(Inspireโ†’Allegro)์€ R@1์ด 8.18%๋กœ ์–ด๋ ต๋‹ค โ€” ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์† ์‚ฌ์ด ์ •๋ ฌ์ด ์‚ฌ๋žŒโ†”๏ธŽ๋กœ๋ด‡๋ณด๋‹ค ์˜คํžˆ๋ ค ๊นŒ๋‹ค๋กœ์›€์„ ์‹œ์‚ฌํ•œ๋‹ค.

๋‹ค์šด์ŠคํŠธ๋ฆผ(Table 4, BODex ์ดˆ๊ธฐํ™” ์ „๋žต๋ณ„ ์„ฑ๊ณต๋ฅ  %). ๊ฒ€์ƒ‰๋œ ํŒŒ์ง€๋กœ BODex ๋ฏธ์„ธ ๋‹จ๊ณ„๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , AnyTeleop ์Šคํƒ€์ผ kinematic retargeting๊ณผ ๋น„๊ต(๊ฐ™์€ BODex ๋ฐฑ์—”๋“œยทMuJoCo, 7๊ฐœ ๋ฏธํ•™์Šต ๋ฌผ์ฒด 33 ์—ํ”ผ์†Œ๋“œ, ์—ํ”ผ์†Œ๋“œ๋‹น 50 ์‹œ๋“œ).

Initialization Seed Inspire-F1 Seed Allegro-v5 Episode Inspire-F1 Episode Allegro-v5
Vanilla 3.39 16.24 69.70 84.85
Kinematic Retargeting 3.52 1.21 42.42 30.30
Retrieval-top5 10.79 17.09 75.76 93.94
Retrieval-top1 12.24 21.33 57.58 75.76

๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐํ™”๊ฐ€ Vanilla BODex๋ณด๋‹ค ๋‚ซ๊ณ , kinematic retargeting์€ ์˜คํžˆ๋ ค Vanilla๋ณด๋‹ค๋„ ๋‚˜์˜๋‹ค(์ž„๋ฒ ๋””๋จผํŠธ ๋ถˆ์ผ์น˜์—์„œ ์ง์ ‘ ํฌ์ฆˆ ์ „์ด์˜ ์ทจ์•ฝ์„ฑ). Retrieval-top1์€ ์‹œ๋“œ ์„ฑ๊ณต๋ฅ  ์ตœ๊ณ , top5๋Š” ์—ํ”ผ์†Œ๋“œ ์„ฑ๊ณต๋ฅ  ์ตœ๊ณ  โ€” ์ •๋ฐ€๋„ยท์ปค๋ฒ„๋ฆฌ์ง€ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„.

4.3 3D ์† ํฌ์ฆˆ ์ถ”์ • ๋ฒค์น˜๋งˆํฌ

HRDexDB๋Š” ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์†์„ ์ •๋ฐ€ 3D ์ง€๋„(supervision)์™€ ํ•จ๊ป˜ ๋‹ค์‹œ์  RGB๋กœ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์† ์žฌ๊ตฌ์„ฑ ๋ชจ๋ธ์„ ์–ด๋ ค์šด ์กฐ๊ฑด์—์„œ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. Table 5์—์„œ WiLoRยทHaMeRยทHambaยทMeshGraphormerยทFrankMocap ๋ชจ๋‘ FreiHAND๋ณด๋‹ค ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ์—์„œ ์˜ค์ฐจ(PA-MPJPE/PA-MPVPE mm)๊ฐ€ ๋Œ€์ฒด๋กœ ํฌ๋‹ค(์˜ˆ: WiLoR 5.94 vs 5.71). ์ฆ‰ ๋” ์–ด๋ ค์šด ๋ฒค์น˜๋งˆํฌ์ž„์„ ํ™•์ธ. ๋‚˜์•„๊ฐ€ ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ 6k ์ƒ˜ํ”Œ์„ 10๊ฐœ ์† ๋ฐ์ดํ„ฐ์…‹(์ด 2.7M) ๋ฏธ์„ธ์กฐ์ • ์„ธํŠธ์— ์„ž์œผ๋ฉด(Table 6), HaMeRยทWiLoR ๋ชจ๋‘ FreiHAND์—์„œ ์†Œํญ ๊ฐœ์„ ๋˜์–ด ์ค‘๋ณต์ด ์•„๋‹Œ ๋ณด์™„์  ์‹ ํ˜ธ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.

4.4 ๋ฌผ์ฒด 6D ํฌ์ฆˆ ์ถ”์ • ๋ฒค์น˜๋งˆํฌ

CADยท6D ๋ผ๋ฒจ์„ ์‚ฌ๋žŒยท๋กœ๋ด‡ ํŒŒ์ง€ ํ”„๋ ˆ์ž„ ๋ชจ๋‘์— ์ œ๊ณตํ•˜๋ฏ€๋กœ ์ƒํ˜ธ์ž‘์šฉ ์ค‘์‹ฌ 6D ํฌ์ฆˆ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. FoundPoseยทGigaPoseยทPicoPose(์ •๋ จ์€ ์ƒ์œ„ 5๊ฐœ๋ฅผ MegaPose๋กœ)๋ฅผ ๋™์ผ RGB+๋งˆ์Šคํฌ ํ”„๋กœํ† ์ฝœ๋กœ ํ‰๊ฐ€(Table 7). ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ๋กœ๋ด‡ ํŒŒ์ง€์—์„œ ์‚ฌ๋žŒ ํŒŒ์ง€๋ณด๋‹ค ๋‚˜์˜๋‹ค(์˜ˆ: FoundPose+MegaPose ADD ์‚ฌ๋žŒ 3.35โ†’๋กœ๋ด‡ 4.40cm) โ€” ๋กœ๋ด‡์˜ ๊ฐ•์ฒด ๋งํฌยท์ง€๋ฌธ์ด ๋ฌผ์ฒด ๊ฒฝ๊ณ„๋ฅผ ๊ฐ€๋ฆฌ๊ณ  ๋ฌผ์ฒด ๊ฐ™์€ ์‹œ๊ฐ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด ๊ตญ์†Œํ™”๋ฅผ ์–ด๋ ต๊ฒŒ ํ•œ๋‹ค. ๋˜ MegaPose refiner๋ฅผ 100k GSO ํ•ฉ์„ฑ + 5.3k HRDexDB ๋กœ๋ด‡ ํŒŒ์ง€๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋ฉด, HRDexDB์™€ ๋ถ„๋ฆฌ๋œ OmniRobotHome ํ™˜๊ฒฝ์—์„œ ํ‰๊ท  ADD-S๊ฐ€ 10.2% ๊ฐœ์„ (Table 8)๋˜์–ด, ์ƒํ˜ธ์ž‘์šฉ ์„ธํŒ… ์ ์‘์— ๋ฐ์ดํ„ฐ๊ฐ€ ๋„์›€๋จ์„ ๋ณด์ธ๋‹ค.

๋น„ํŒ์ ์œผ๋กœ ๋ณด๋ฉด

๊ฐ•์ 

  • ๊ณต๋ฐฑ์„ ์ •ํ™•ํžˆ ๊ฒจ๋ƒฅํ•œ ๋ฐ์ดํ„ฐ. pairedยทmulti-embodimentยทmarkerlessยทmulti-modal(์ด‰๊ฐ ํฌํ•จ)์„ ํ•œ ๋ฒˆ์— ๊ฐ–์ถ˜ ์กฐํ•ฉ์€ ์‹ค์ œ๋กœ ๊ธฐ์กด์— ๋ถ€์žฌํ–ˆ๊ณ , Table 1์˜ ๋น„๊ต๊ฐ€ ์ด๋ฅผ ์„ค๋“๋ ฅ ์žˆ๊ฒŒ ๋ณด์—ฌ์ค€๋‹ค. ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์ „์ด ์—ฐ๊ตฌ์˜ ๊ณตํ†ต ํ† ๋Œ€๋กœ์„œ ๊ฐ€์น˜๊ฐ€ ๋ถ„๋ช…ํ•˜๋‹ค.
  • ๋ฐ์ดํ„ฐ์˜ ์“ธ๋ชจ๋ฅผ 4๊ฐœ ๋ฒค์น˜๋งˆํฌ๋กœ ์‹ค์ฆ. ๋ฐ์ดํ„ฐ์…‹ ๋…ผ๋ฌธ์ด ํ”ํžˆ ๋น ์ง€๋Š” โ€œ๋งŒ๋“ค์—ˆ์œผ๋‹ˆ ์“ธ๋ชจ ์žˆ์„ ๊ฒƒโ€ ์‹ ์ฃผ์žฅ์„ ๋„˜์–ด, ์ „์ด(์ ‘์ด‰๋งตยท๊ฒ€์ƒ‰)์™€ ์ง€๊ฐ(์†ยท๋ฌผ์ฒด ํฌ์ฆˆ) ์–‘์ชฝ์—์„œ ์ •๋Ÿ‰ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ์ ‘์ด‰๋งต ์ „์ด์˜ ์‹ค๊ธฐ +16.7%p, retargeting์ด Vanilla๋ณด๋‹ค๋„ ๋‚˜์˜๋‹ค๋Š” ๊ฒฐ๊ณผ๋Š” paired ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•œ๋‹ค.
  • ์ •์งํ•œ ํŒŒ์ดํ”„๋ผ์ธ ํ†ตํ•ฉ. ์ƒˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ณผ์žฅํ•˜์ง€ ์•Š๊ณ  ๊ฒ€์ฆ๋œ SOTA(HaMeRยทSAM3ยทFoundationStereoยทFoundationPose)๋ฅผ ์ •๋ฐ€ ๋ฆฌ๊ทธ๋กœ ํ†ตํ•ฉํ–ˆ๋‹ค. ์žฌํ˜„ยทํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

์•ฝ์ ยทํ•œ๊ณ„

  • ๊ทœ๋ชจ์˜ ํ•œ๊ณ„. 100 ๋ฌผ์ฒดยท2.1K ์‹œํ€€์Šค๋Š” โ€œfoundational benchmarkโ€๋ฅผ ํ‘œ๋ฐฉํ•˜๊ธฐ์—” ๋ฌผ์ฒดยทํ–‰๋™ ๋‹ค์–‘์„ฑ์ด ์ œํ•œ์ ์ด๋‹ค. ํ”„๋ ˆ์ž„ ์ˆ˜(24M)๋Š” ํฌ์ง€๋งŒ ํŒŒ์ง€ ์‹œํ€€์Šค๋Š” 2.1K๋กœ, VLA ์‚ฌ์ „ํ•™์Šต ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์—๋Š” ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋„ 1,000 ๋ฌผ์ฒด๋กœ ํ™•์žฅ ์ค‘์ด๋ผ๊ณ  ๋ฐํžŒ๋‹ค.
  • ํŒŒ์ง€์— ๊ตญํ•œ. ์ด๋ฆ„ ๊ทธ๋Œ€๋กœ dexterous grasping ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ๋„๊ตฌ ์‚ฌ์šฉยท๊ธฐ๋Šฅ์  ์กฐ์ž‘(functional manipulation) ๊ฐ™์€ ์žฅ๊ธฐ(long-horizon)ยท์ ‘์ด‰ ํ’๋ถ€ ํƒœ์Šคํฌ๋Š” ์•„์ง ์—†๋‹ค(ํ–ฅํ›„ ๊ณ„ํš).
  • ์˜๋ฏธ์  ์ง์ง“๊ธฐ์˜ ๋А์Šจํ•จ. ์ €์ž๊ฐ€ ํ•œ๊ณ„ (2)๋กœ ์ธ์ •ํ•˜๋“ฏ, ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡ ํŒŒ์ง€๋Š” ์˜๋ฏธ ์ˆ˜์ค€์—์„œ๋งŒ ์ง์ง€์–ด์ง„๋‹ค. ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅธ ์† ์‚ฌ์ด์—์„œ ๊ธฐ๋Šฅ์ ์œผ๋กœ ๋“ฑ๊ฐ€์ธ ๋ชจ์…˜์„ ์ •์˜ํ•˜๋Š” ๋ฌธ์ œ๋Š” ๋ฏธํ•ด๊ฒฐ์ด๋ผ, ํ”„๋ ˆ์ž„ ๋‹จ์œ„ ๋Œ€์‘์ด ํ•„์š”ํ•œ imitation์—๋Š” ๊ทธ๋Œ€๋กœ ์“ฐ๊ธฐ ์–ด๋ ต๋‹ค.
  • ์ด‰๊ฐ ์ด์งˆ์„ฑ. ์ด‰๊ฐ์€ ๋กœ๋ด‡ ์†์—๋งŒ ์žˆ๊ณ  ์„ผ์„œ ์‚ฌ์–‘๋„ ํ”Œ๋žซํผ๋งˆ๋‹ค ๋‹ฌ๋ผ(ํ•œ๊ณ„ 1) ํ†ต์ผ๋œ ์ด‰๊ฐ ๋ถ„์„์ด ์–ด๋ ต๋‹ค. โ€œ์ด‰๊ฐ ํฌํ•จโ€์ด ๊ฐ•์ ์ด์ง€๋งŒ ์‹ค์‚ฌ์šฉ์—๋Š” ์ •๊ทœํ™”๊ฐ€ ์„ ํ–‰๋ผ์•ผ ํ•œ๋‹ค.
  • ์ „์ด ์‹คํ—˜์˜ ๋ฒ”์œ„. ์ ‘์ด‰๋งต ์ „์ดยท๊ฒ€์ƒ‰ ์‹คํ—˜์€ Inspire-F1ยทAllegro-V5 ๋‘ ์†์œผ๋กœ๋งŒ ํ•™์Šตยทํ‰๊ฐ€๋˜์–ด, ๋ฐ์ดํ„ฐ์…‹์ด ํ‘œ๋ฐฉํ•˜๋Š” โ€œ5 ์ž„๋ฒ ๋””๋จผํŠธโ€์˜ ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์ž ์žฌ๋ ฅ์„ ์•„์ง ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ํ™œ์šฉํ•œ๋‹ค. ๋กœ๋ด‡โ†’๋กœ๋ด‡ ๊ฒ€์ƒ‰ R@1 8.18%๋„ ์ด ๋ฐฉํ–ฅ์˜ ๋‚œ์ด๋„๋ฅผ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.
  • (์ฐธ๊ณ ) ์›๋ฌธ์— ํ‘œ ์ฐธ์กฐ ๋ฒˆํ˜ธ ์˜คํƒ€๊ฐ€ ๋ณด์ธ๋‹ค(๋ณธ๋ฌธ์ด Table 4/6์„ ๊ฐ€๋ฆฌํ‚ค๋Š”๋ฐ ๋‚ด์šฉ์ƒ Table 3/5) โ€” ๋ฆฌ๋ทฐ์—์„œ๋Š” ๋‚ด์šฉ์— ๋งž๋Š” ํ‘œ ๋ฒˆํ˜ธ๋กœ ์ธ์šฉํ–ˆ๋‹ค.

์žฌํ˜„ ๊ด€์  ๋…ธํŠธ(์›๋ฌธ ์ฃผ์žฅ๊ณผ ๋ฌด๊ด€, ๊ณต๊ฐœ ์‹œ์  ๋ฆด๋ฆฌ์Šค ์„ฑ์ˆ™๋„). ์‹ค์ œ ์žฌํ˜„์„ ์‹œ๋„ํ•ด ๋ณด๋ฉด, ํ˜„์žฌ ๊ณต๊ฐœ๋œ HuggingFace ๋ฆด๋ฆฌ์Šค(cc-by-nc-4.0, ์•ฝ 680GB์ด์ง€๋งŒ allow_patterns๋กœ scene ๋‹จ์œ„ ์„ ํƒ ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅ)์—๋Š” ๋…ผ๋ฌธ์ด ๊ธฐ์ˆ ํ•œ 5๊ฐœ ์ž„๋ฒ ๋””๋จผํŠธ ์ค‘ human/๊ณผ allegro_v5/ split๋งŒ ์˜ฌ๋ผ์™€ ์žˆ์–ด, README quick-start์˜ --hand inspire_f1 ์˜ˆ์ œ๋Š” ๋Œ€์‘ scene ๋ฐ์ดํ„ฐ๊ฐ€ ์•„์ง ์—†์–ด ๊ทธ๋Œ€๋กœ ์‹คํ–‰๋˜์ง€ ์•Š๋Š”๋‹ค(์ฝ”๋“œ๋Š” ์ •์ƒ, ๋ฐ์ดํ„ฐ ๋ฆด๋ฆฌ์Šค๊ฐ€ ๋ถ€๋ถ„์ ). ๋˜ robot(allegro_v5) scene์€ ํŒ”ยท์†์€ ์ •์ƒ ์• ๋‹ˆ๋ฉ”์ด์…˜๋˜์ง€๋งŒ ๋ฌผ์ฒด 6D ํฌ์ฆˆ ํŒŒ์ผ ํฌ๋งท ๋ถˆ์ผ์น˜(object_6d_pose.npz vs ์ฝ”๋“œ๊ฐ€ ๊ธฐ๋Œ€ํ•˜๋Š” object_6d/pose_*.txt)๋กœ ๋ฌผ์ฒด๊ฐ€ ์กฐ์šฉํžˆ ๋ˆ„๋ฝ๋œ๋‹ค. ๋…ผ๋ฌธ ์ฃผ์žฅ์˜ ํ•œ๊ณ„๊ฐ€ ์•„๋‹ˆ๋ผ ๊ณต๊ฐœ ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ/์ฝ”๋“œ ์„ฑ์ˆ™๋„ ์ด์Šˆ๋‹ค(์žฌํ˜„ PR ์ฐธ๊ณ ).

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ž๋ฆฌ ๋งค๊น€

HRDexDB๋Š” โ€œ์‚ฌ๋žŒ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ์˜ ๋กœ๋ด‡ ์†์žฌ์ฃผ ํ•™์Šตโ€์ด๋ผ๋Š” ํ๋ฆ„์˜ ๋ฐ์ดํ„ฐ ์ธํ”„๋ผ ์ถ•์— ์œ„์น˜ํ•œ๋‹ค.

  • UniDex ๋ฆฌ๋ทฐ โ€” ์‚ฌ๋žŒ egocentric ์˜์ƒ์„ ๋กœ๋ด‡ ๊ถค์ ์œผ๋กœ ๋ณ€ํ™˜ํ•ด ์†์„ ๊ฐ€๋กœ์ง€๋ฅด๋Š” ํŒŒ์šด๋ฐ์ด์…˜์„ ํ•™์Šต. HRDexDB๊ฐ€ ์ •๋ฐ€ ๋‹ค์‹œ์  ๋ฆฌ๊ทธ๋กœ GT๋ฅผ ํ™•๋ณดํ•œ๋‹ค๋ฉด, UniDex๋Š” ์•ผ์ƒ ์˜์ƒ ๊ทœ๋ชจ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฑ„์šด๋‹ค โ€” ์ƒ๋ณด์  ์ ‘๊ทผ์ด๋‹ค.
  • CHORD ๋ฆฌ๋ทฐ โ€” ์‚ฌ๋žŒ ์‹œ์—ฐ์˜ ์ ‘์ด‰ ๋ Œ์น˜(wrench)๋กœ ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์†์žฌ์ฃผ ์กฐ์ž‘์„ ํ•™์Šต. HRDexDB์˜ ์ ‘์ด‰๋งต ์ „์ด์™€ ๋ฌธ์ œ์˜์‹(์‚ฌ๋žŒ ์ ‘์ด‰โ†’๋กœ๋ด‡)์ด ๋งž๋‹ฟ๋Š”๋‹ค.
  • Do as I Do ๋ฆฌ๋ทฐ โ€” ์ผ์ƒ ์‚ฌ๋žŒ ์˜์ƒ์—์„œ ์†์žฌ์ฃผ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ. ์‚ฌ๋žŒโ†’๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ํ™•๋ณด ์ „๋žต์˜ ๋‹ค๋ฅธ ๊ฐˆ๋ž˜.
  • GenHand ๋ฆฌ๋ทฐ โ€” ์‚ฌ๋žŒ ํŒŒ์ง€์˜ kinematic retargeting. HRDexDB 4.2๊ฐ€ retargeting์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐํ™”๋ฅผ ๋ณด์—ฌ, ์ด ๊ณ„์—ด์˜ ํ•œ๊ณ„๋ฅผ ๋ฐ์ดํ„ฐ๋กœ ์งš๋Š”๋‹ค.

์ „์ด ๋ฐฉ๋ฒ•(์ •์ฑ…ยท๋ชจ๋ธ) ์—ฐ๊ตฌ๊ฐ€ ๊ทธ๋™์•ˆ ํ‰๊ฐ€ํ•  ๊ณต์œ  ๋ฌผ์ฒด ์œ„ paired ๋ฐ์ดํ„ฐ์˜ ๋ถ€์žฌ๋กœ ์„œ๋กœ ๋น„๊ต๋˜๊ธฐ ์–ด๋ ค์› ๋˜ ์ƒํ™ฉ์—์„œ, HRDexDB๋Š” ๊ทธ ๊ณต๋ฐฑ์„ ๋ฉ”์šฐ๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ ์ž๋ฆฌํ•œ๋‹ค.

์š”์•ฝ

HRDexDB๋Š” ์‚ฌ๋žŒ ์† + 4์ข… ๋กœ๋ด‡ ์†์ด ๊ณต์œ  100๊ฐœ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•˜๋Š” ์žฅ๋ฉด์„ ๋งˆ์ปค๋ฆฌ์Šค ๋‹ค์‹œ์  RGB๋กœ ์ง์ง€์–ด ๋‹ด์€ ์ฒซ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค(2.1K ์‹œํ€€์Šคยท24M ํ”„๋ ˆ์ž„ยท์ด‰๊ฐยท3D ์†ยท๋ฌผ์ฒด 6D). 23๋Œ€ ์นด๋ฉ”๋ผ ๋ฆฌ๊ทธ์™€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์ˆ˜์ง‘ํ•˜๊ณ , ๊ฒ€์ฆ๋œ SOTA ๋น„์ „ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ 3D ์ƒํƒœ๋ฅผ ๋ณต์›ํ•œ๋‹ค. ์ ‘์ด‰๋งต ์ „์ด(์‹ค๊ธฐ ์„ฑ๊ณต +16.7%p)ยท์ž ์žฌ ํŒŒ์ง€ ๊ฒ€์ƒ‰(retargeting ๋Šฅ๊ฐ€)ยท์† ํฌ์ฆˆยท๋ฌผ์ฒด 6D ํฌ์ฆˆ์˜ 4๊ฐœ ๋ฒค์น˜๋งˆํฌ๋กœ ๋ฐ์ดํ„ฐ์˜ ์“ธ๋ชจ๋ฅผ ์‹ค์ฆํ–ˆ๋‹ค. ๊ทœ๋ชจยทํƒœ์Šคํฌ ๋‹ค์–‘์„ฑยท์ง์ง“๊ธฐ์˜ ๋А์Šจํ•จ์ด๋ผ๋Š” ํ•œ๊ณ„๋Š” ๋‚จ์ง€๋งŒ, ํฌ๋กœ์Šค-์ž„๋ฒ ๋””๋จผํŠธ ์†์žฌ์ฃผ ์ „์ด ์—ฐ๊ตฌ์˜ ๊ณตํ†ต ํ† ๋Œ€๋กœ์„œ์˜ ๊ธฐ์—ฌ๊ฐ€ ๋šœ๋ ทํ•˜๋‹ค.

Copyright 2026, JungYeon Lee