๐HRDexDB ๋ฆฌ๋ทฐ
Jongbin Lim, Taeyun Ha, Mingi Choi, Jisoo Kim, Byungjun Kim, Subin Jeon, Hanbyul Joo
Seoul National University (SNU VCLab), 2026 (arXiv preprint)
- ๐ก ์ฌ๋ ์๊ณผ 4์ข ๋ก๋ด ์์ด ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ ์๋๋ก ์ฅ๋ ์ฅ๋ฉด์ ์ง์ง์ด(paired) ๋ด์, ์ต์ด์ ๋ง์ปค๋ฆฌ์ค(markerless) ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์์ฌ์ฃผ ํ์ง ๋ฐ์ดํฐ์ HRDexDB๋ฅผ ์ ์ํ๋ค.
- โ๏ธ 21๋ exocentric + 2๋ egocentric = 23๋ ์นด๋ฉ๋ผ ๋ฆฌ๊ทธ์ ํ ๋ ์คํผ๋ ์ด์ (Xsens+MANUS)์ผ๋ก ์ฌ๋/๋ก๋ด ํ์ง๋ฅผ ์์งํ๊ณ , HaMeRยทSAM3ยทFoundationStereoยทFoundationPose ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ผ๋ก 3D ์ยท๋ฌผ์ฒด 6Dยท์ ์ด๋ ฅ์ ๋ณต์ํ๋ค.
- ๐ฏ 100๊ฐ ๋ฌผ์ฒดยท2.1K ์ํ์คยท24M ํ๋ ์ ๊ท๋ชจ๋ก, ์ฌ๋โ๋ก๋ด ์ ์ด๋งต ์ ์ดยท์ ์ฌ๊ณต๊ฐ ํ์ง ๊ฒ์ยท3D ์ ํฌ์ฆ/๋ฌผ์ฒด 6D ํฌ์ฆ ์ถ์ ์ 4๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
HRDexDB๋ โ์ฌ๋์ ์์ฌ์ฃผ(dexterity)๋ฅผ ๋ก๋ด ์์ผ๋ก ์ด๋ป๊ฒ ์ฎ๊ธธ๊นโ๋ผ๋ ๋ฌธ์ ๋ฅผ ๋ฐ์ดํฐ์ ๊ด์ ์์ ๊ณต๋ตํ๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์ฌ๋ ์-๋ฌผ์ฒด ์ํธ์์ฉ(HOI)์ด๋ ๋ก๋ด ์กฐ์(ROI) ์ค ํ์ชฝ์ ์น์ฐ์ณ ์์ด, ๊ฐ์ ๋ฌผ์ฒด ์์์ ์ฌ๋๊ณผ ์ฌ๋ฌ ๋ก๋ด ์์ด ์ด๋ป๊ฒ ๋ค๋ฅด๊ฒ ์ฅ๋์ง๋ฅผ ์ง์ง์ด ๋น๊ตํ ์๋ฃ๊ฐ ์ฌ์ค์ ์์๋ค. HRDexDB๋ ์ฌ๋ ์ + 4์ข ๋ก๋ด ์(Allegro V4ยทV5 Plus, Inspire RH56DFTPยทRH56F1)์ด ๊ณต์ ๋ 100๊ฐ ๋ฌผ์ฒด๋ฅผ ํ์งํ๋ ์ํ์ค๋ฅผ, ๋ง์ปค ์์ด ๋ค์์ RGB๋ก ์ ๋ฐํ๊ฒ ๋ณต์ํด ์ง์ง์ด(paired) ์ ๊ณตํ๋ค.

๊ฐ์(Fig. 1) โ ์ฌ๋๊ณผ ์ฌ๋ฌ ๋ก๋ด ์์ด 100๊ฐ ๋ฌผ์ฒด๋ฅผ ํ์งํ๋ ์ง์ง์ด์ง ์ํผ์๋. ๋๊ธฐํ๋ ๋ค์์ ์บก์ฒ๋ก 3D ์ยท๋ก๋ด ๊ถค์ , ๋ฌผ์ฒด 6D ํฌ์ฆ, egocentric ๊ด์ฐฐ, ์ด๊ฐ ์ ์ด๋ ฅ, ์ฑ๊ณต/์คํจ ๋ผ๋ฒจ์ ํจ๊ป ๊ธฐ๋กํ๋ค.
ํต์ฌ ์ฐจ๋ณ์ ์ ์ธ ๊ฐ์ง๋ค. (1) Paired: ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ฌ๋์ด ๋จผ์ ์์ฐ์ค๋ฝ๊ฒ ์ฅ๊ณ , ํ ๋ ์คํผ๋ ์ดํฐ๊ฐ ๊ทธ ์๋๋ฅผ ๋ณด์กดํ ๋์ ํ์ง๋ฅผ ๋ก๋ด์ผ๋ก ์ฌํํ๋ค. (2) Cross-embodiment: ์ฌ๋ ํฌํจ 5๊ฐ ์๋ฒ ๋๋จผํธ๊ฐ ๊ฐ์ ๋ฌผ์ฒด ์งํฉ์ ๊ณต์ ํ๋ค. (3) Markerless + multi-modal: ๋ง์ปค ์์ด ๋ค์์ RGB๋ง์ผ๋ก ๊ณ ์ ๋ฐ 3D๋ฅผ ๋ณต์ํ๊ณ , ์ด๊ฐ ์ง์ ๋ก๋ด ์์์๋ ์ ์ด๋ ฅ๊น์ง ๋ด๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
๋ก๋ด ํ์ง ์ํ์ค๋ ์๊ฐ ์ธ๋ฑ์ค๋ ๋ค์ค๋ชจ๋ฌ ํํ๋ก ํํ๋๋ค.
\mathcal{T}^{\mathrm{robot}}=\left\{\{\mathbf{I}^{c_i}_{t}\}_{c_i=1}^{21},\ \mathbf{I}^{\mathrm{ego}}_{t},\ \bm{q}^{\mathrm{robot}}_{t},\ \bm{T}^{\mathrm{object}}_{t},\ \bm{F}^{\mathrm{tactile}}_{t},\ y\right\}_{t=1}^{T_r}
์ฌ๊ธฐ์ \mathbf{I}^{1..21}_tยท\mathbf{I}^{\mathrm{ego}}_t๋ ๋๊ธฐํ๋ exo/ego RGB, \bm{q}^{\mathrm{robot}}_t๋ ๋ก๋ด ์ํ, \bm{T}^{\mathrm{object}}_t\in\mathrm{SE}(3)๋ ๋ฌผ์ฒด 6D ํฌ์ฆ, \bm{F}^{\mathrm{tactile}}_t๋ ์ง๋ฌธ ์ด๊ฐ ์ ํธ, y\in\{0,1\}์ ์ฑ๊ณต ์ฌ๋ถ๋ค. ์ฌ๋ ํ์ง๋ ๋ก๋ด ์ํยท์ด๊ฐ ๋์ MANO ํฌ์ฆ \bm{\theta}^{\mathrm{human}}_t\in\mathbb{R}^{51}๋ก ๊ธฐ์ ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ (๋ฒค์น๋งํฌ 4์ข ):
- ์ ์ด๋งต ์ ์ด: ์ฌ๋ ์ ์ด์ ๊ทธ๋๋ก ์ด ๊ฒ๋ณด๋ค, HRDexDB๋ก ํ์ตํ ๋ก๋ด ์ ์ฉ ์ ์ด๋งต์ผ๋ก ํ์ง๋ฅผ ์ต์ ํํ๋ฉด ์ค๊ธฐ ์ฑ๊ณต๋ฅ ์ด Inspire 66.7โ73.3%, Allegro 63.3โ80.0%๋ก ์์น(Table 2).
- ์ ์ฌ๊ณต๊ฐ ํ์ง ๊ฒ์: 33๊ฐ ํ๋ณด ์ค HumanโInspire R@5 100%, R@1 36.36%. ๊ฒ์ ๊ฒฐ๊ณผ๋ก BODex ์ต์ ํ๋ฅผ ์ด๊ธฐํํ๋ฉด kinematic retargeting์ ๋ฅ๊ฐ(Table 3โ4).
- 3D ์ ํฌ์ฆ ์ถ์ : ๋ชจ๋ SOTA ๋ชจ๋ธ์ด FreiHAND๋ณด๋ค ์ฐ๋ฆฌ ๋ฐ์ดํฐ์์ ์ค์ฐจ๊ฐ ํผ โ ๋ ์ด๋ ค์ด ๋ฒค์น๋งํฌ์์ ํ์ธ. 6k ์ํ์ ์์ผ๋ฉด FreiHAND ์ฑ๋ฅ๋ ์ํญ ๊ฐ์ (Table 5โ6).
- ๋ฌผ์ฒด 6D ํฌ์ฆ ์ถ์ : ๋ก๋ด ํ์ง๊ฐ ์ฌ๋ ํ์ง๋ณด๋ค ํญ์ ๋ ์ด๋ ค์(๋ก๋ด ๋งํฌ๊ฐ ๋ฌผ์ฒด ๊ฒฝ๊ณ๋ฅผ ๊ฐ๋ฆผ). MegaPose refiner๋ฅผ HRDexDB๋ก ๋ฏธ์ธ์กฐ์ ์ ADD-S 10.2% ๊ฐ์ (Table 7โ8).
๊ฒฐ๋ก : HRDexDB๋ ์ฌ๋๊ณผ ์ฌ๋ฌ ๋ก๋ด ์์ ํ์ง๋ฅผ ๊ณต์ ๋ฌผ์ฒด ์์์ ์ง์ง์ด ๋ด์ ์ฒซ ๋ง์ปค๋ฆฌ์ค ๋ฐ์ดํฐ์ ์ผ๋ก, ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์ ์ด ์ฐ๊ตฌ์ ์ํธ์์ฉ ์ค์ฌ ์ง๊ฐ(perception) ๋ฒค์น๋งํฌ์ ๊ณตํต ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
์ฌ๋ ์์ฌ์ฃผ๋ฅผ ๋ก๋ด์ ์ฎ๊ธฐ๋ ์ฐ๊ตฌ์ ๊ทผ๋ณธ ๋ณ๋ชฉ์ โ๋น๊ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ์ ๋ถ์ฌโ์๋ค. HRDexDB๋ ๋ ผ๋ฌธ ๋๋ถ๋ถ์ ์ ์ฑ ยท๋ชจ๋ธ์ด ์๋๋ผ ์บก์ฒยท๋ณต์ ํ์ดํ๋ผ์ธ๊ณผ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ์๋ ๋ฐ์ดํฐ์ ๋ ผ๋ฌธ์ด๋ฉฐ, ๊ทธ ์์์ ๋ค ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ๋ฒค์น๋งํฌ๋ก ๋ฐ์ดํฐ์ ์ธ๋ชจ๋ฅผ ์ค์ฆํ๋ค.
์ ์ด๋ ค์ด๊ฐ โ pairedยทcross-embodiment ๋ฐ์ดํฐ์ ๊ณต๋ฐฑ
์ฌ๋๊ณผ ๋ก๋ด ์์ ํํ(morphology)ยท๊ธฐ๊ตฌํ(kinematics)ยท๊ตฌ๋(actuation)์ด ๋ค๋ฅด๊ณ , ์ด ์๋ฒ ๋๋จผํธ ๊ฒฉ์ฐจ๋ ๋ก๋ด ์๋ค ์ฌ์ด์์๋ ์กด์ฌํ๋ค. ์๋ก ๋ค๋ฅธ ๋ค์ง ์์ ์ ๋ง๋ค ๋ฌผ๋ฆฌยท๊ธฐ๊ตฌํ ์ ์ฝ์ ์ง๋ ์คํ ๊ฐ๋ฅํ ์ ์ด ํจํด๊ณผ ํ์ง ์ ๋ต์ด ๋ค๋ฅด๋ค. ๊ทธ๋ฐ๋ฐ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์ด ๊ฒฉ์ฐจ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฐ ์ฌ๋ฃ๋ฅผ ์ฃผ์ง ๋ชปํ๋ค.
- HOI(์ฌ๋-๋ฌผ์ฒด) ๋ฐ์ดํฐ์ โ FreiHAND, DexYCB, ARCTIC, HOI4D, GigaHands ๋ฑ์ ๊ท๋ชจยท์์ ยท๋ฌผ์ฒด ๋ค์์ฑ์ ํค์ ์ง๋ง ์ฌ๋ ์ค์ฌ์ด๋ผ ๋ก๋ด ์๋ฒ ๋๋จผํธ์์ ์ง(pair)์ด ์๋ค.
- ROI(๋ก๋ด-๋ฌผ์ฒด) ๋ฐ์ดํฐ์ โ Open X-Embodiment, DROID๋ ๋๊ท๋ชจ์ง๋ง ์๋น์๊ฐ ์ -DoF ๊ทธ๋ฆฌํผ์ด๊ณ ๋ฌผ์ฒด ๋ชจ์ ์ด ๋ถ๋ถ์ ์ผ๋ก๋ง ์ถ์ ๋๋ค.
- ์์์ HROI(์ฌ๋-๋ก๋ด) ์๋ โ RH20T, DexWild, H&R ๋ฑ์ด ์์ผ๋, ์ฌ๋ฌ ๋ค์ง ๋ก๋ด ์๋ฒ ๋๋จผํธ๋ฅผ ๊ณต์ ๋ฌผ์ฒด ์์์ ์ง์ง์ด ๋ด์ง ๋ชปํ๊ฑฐ๋ ๋ง์ปค๋ฆฌ์ค RGBยท์ด๊ฐ์ด ๋น ์ ธ ์๋ค.
HRDexDB๋ ์ ์๋ค์ด ์๋ ํ, ๊ณต์ ๋ฌผ์ฒด ์์์ ์ฌ๋๊ณผ ๋ค์ค ๋ก๋ด ์์ ์์ฌ์ฃผ ํ์ง๋ฅผ ๋ง์ปค๋ฆฌ์ค ๋ค์์ RGB๋ก ํต์ผยท์ง์ง์ด ๋ด์ ์ฒซ ๋ฐ์ดํฐ์ ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค.

๋ฐ์ดํฐ์ ๊ตฌ์ฑ(Fig. 1) โ 100๊ฐ ๋ฌผ์ฒด ร (์ฌ๋ + 4 ๋ก๋ด ์). ์ง์ง์ด์ง ํ์ง ๊ถค์ ยท๋ฌผ์ฒด 6Dยท์ด๊ฐยท์ฑ๊ณต๋ผ๋ฒจ.
Table 1์ ๋น๊ต์์ HRDexDB๋ HROI ํ์ , ์๋ฒ ๋๋จผํธ 5(์ฌ๋+4๋ก๋ด), ๋ค์ง(Dex) โ, 23 ์์ , 100 ๋ฌผ์ฒด, 2048ร1536 ํด์๋, 2.1K ์ํ์คยท24M ํ๋ ์, ์ด๊ฐยท๋ง์ปค๋ฆฌ์คยท3D ์ยท๋ฌผ์ฒด 6D๋ฅผ ๋ชจ๋ ๊ฐ์ถ ์ ์ผํ ํญ๋ชฉ์ผ๋ก ์ ์๋๋ค. (๊ท๋ชจ ์์ฒด๋ GigaHands(183M ํ๋ ์)๋ ๋ก๋ด ๋ฐ์ดํฐ์ (OXE 130M)์ด ๋ ํฌ์ง๋ง, HRDexDB์ ๊ฐ์ ์ ํ๋ ์ ์๊ฐ ์๋๋ผ pairedยทmulti-embodimentยทmulti-modal ์กฐํฉ์ ์๋น์ ์๋ค.)
๋ฐ์ดํฐ ์์ง โ ์บก์ฒ ์์คํ ๊ณผ ์ง์ง๊ธฐ ํ๋กํ ์ฝ

์บก์ฒยท๋ณต์ ํ์ดํ๋ผ์ธ(Fig. 2) โ ๋ค์์ ๋ นํ๋ฅผ ์ฒ๋ฆฌํด ์ ๋ชจ์ ยท๋ฌผ์ฒด 6D ๊ถค์ ์ ๋ณต์ํ๊ณ , ์ ๋ ฌ๋ ์ฌ๋ยท๋ก๋ด ํ์ง๋ฅผ ์ฐ์ถํ๋ค.
์บก์ฒ ๋ฆฌ๊ทธ. ์์ ๊ณต๊ฐ์ 3๋ฉด์ผ๋ก ๋๋ฌ์ผ ๊ธ์ ํ๋ ์์ 21๋ exocentric RGB ์นด๋ฉ๋ผ๋ฅผ ๋ฐฐ์นํด ์ฌํ ์-๋ฌผ์ฒด ๊ฐ๋ฆผ(occlusion) ์์์๋ ์กฐ๋ฐํ ๋ค์์ ์บก์ฒ๋ฅผ ์ป๋๋ค. ์ฌ๊ธฐ์ 2๋ egocentric ์คํ ๋ ์ค๋ฅผ ๋ํ๋๋ฐ, ๋ก๋ด ์ํ์ ์ด๊นจ ๋๋จธ(over-the-shoulder) ๋ฆฌ๊ทธ, ์ฌ๋ ์์ฐ์ ์ปค์คํ ์คํ ๋ ์ค ํฌ๋ฉง์ผ๋ก ์ดฌ์ํ๋ค. ๋ก๋ด์ Xsens ๊ด์ฑ ๋ชจ์ ์บก์ฒ ์ํธ + MANUS ๊ธ๋ฌ๋ธ๋ก ํ ๋ ์คํผ๋ ์ด์ ๋์ด, ์กฐ์์์ ์๋ชฉยท์๊ฐ๋ฝ ์์ง์์ ๋ก๋ด ํ๊ณผ ์์ ๋งคํํ๋ค.
์ง์ง๊ธฐ(paired) ํ๋กํ ์ฝ โ 2๋จ๊ณ. ๊ฐ์ ๋ฌผ์ฒดยท๊ฐ์ ์์ ๊ณต๊ฐ ์กฐ๊ฑด์์, โ ์ฌ๋ ํผํ์๊ฐ ๋จผ์ ์์ฐ์ค๋ฌ์ด ํ์ง๋ฅผ ์ํํ๊ณ ๋ค์์ ๋ นํ๋ก ์ฌ๋ ์ยท๋ฌผ์ฒด ๊ถค์ ์ ๋ณต์ํ๋ค. โก ํ ๋ ์คํผ๋ ์ดํฐ๊ฐ ๊ทธ ์์ฐ์ ๊ด์ฐฐํ๊ณ ์๋ฏธ์ ์ผ๋ก ๋์ํ๋(semantically corresponding) ํ์ง๋ฅผ ๋ก๋ด์ผ๋ก ์ฌํํ๋, ํํยท๊ธฐ๊ตฌํยทํ์ด๋ฐ์ ์๋ฒ ๋๋จผํธ๋ณ ์ฐจ์ด๋ ํ์ฉํ๋ค. ์ฆ ์ง์ง๊ธฐ๋ ํ๋ ์ ๋จ์ ์ ํฉ์ด ์๋๋ผ ํ์ง ์๋(intent) ์์ค์ ๋์์ด๋ค โ ์ด ์ค๊ณ ์ ํ์ ๋ค์ ํ๊ณ์ ์ง์ ์ฐ๊ฒฐ๋๋ค.
๋ค์ค๋ชจ๋ฌ ์ํ ๋ณต์
ํต์ผ ์๋ ์ขํ๊ณ ์์์ ์ธ ์์๋ฅผ ๋ณต์ํ๋ค.
- ์ฌ๋ ์ โ MANO ํ๋ผ๋ฉํธ๋ฆญ ๋ชจ๋ธ์ ์ฌ์ฉ. GigaHands์ ๋ค์์ ํผํ ์ ๋ต์ ๋ฐ๋ผ ๊ฐ ๋ณด์ ์์ ์์ HaMeR๋ก 2D ํคํฌ์ธํธ๋ฅผ ๊ฒ์ถโ์ผ๊ฐ์ธก๋์ผ๋ก 3D ๊ด์ ์ ์ป๊ณ โํ๋ ์๋ง๋ค MANO ํฌ์ฆ๋ฅผ ์ต์ ํํ๋ค. ํผํ์๋ณ ์ ํ์์ SAM3 ๋ง์คํฌ์์ ์ค๋ฃจ์ฃ ์ ๋ ฌ๋ก ๋ณด์ ํ๊ณ , ์๊ฐ ํํฐ๋ง์ผ๋ก ์งํฐ๋ฅผ ์ค์ธ๋ค.
- ๋ฌผ์ฒด 6D ์ถ์ โ ๋ณด์ ๋ ์คํ ๋ ์ค ์์์ FoundationStereo๋ก ๋ฐ์ง ๊น์ด๋ฅผ, SAM3๋ก ๋ฌผ์ฒด ๋ง์คํฌ๋ฅผ ์ป๋๋ค. RGB-D์ CAD ๋ชจ๋ธ์ FoundationPose์ ๋ฃ์ด ์ฒซ ํ๋ ์์ ์ ์ญ ์ ํฉ์ผ๋ก ์ด๊ธฐํํ๊ณ ์ดํ ์๊ฐ ์ถ์ ์ผ๋ก ์ ๋ จํ๋ค. ๋จ์ผ ์์ ์คํ ๋ ์ค์ ๋๋ฆฌํํธ๋ฅผ ๋ง๊ธฐ ์ํด, ๋ฌผ์ฒด ๋ฉ์ฌ๋ฅผ ๋ชจ๋ ๋ณด์ ์์ ์ ๋ ๋๋งํด ์์ ๊ฐ ์ค๋ฃจ์ฃ ๋ถ์ผ์น๋ฅผ ์ต์ํํ๋ ๊ต์ฐจ ์์ ๊ธฐํ ์ผ๊ด์ฑ ์ ์ฝ์ ์ถ๊ฐํ๋ค.
์ด ํ์ดํ๋ผ์ธ์ ์ ๋ถ ๊ธฐ์กด SOTA ๋น์ ๋ชจ๋ธ์ ์กฐํฉ์ด๋ผ๋ ์ ์ ์ง์ด๋ ๋งํ๋ค โ ์ ๋ณต์ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๊ธฐ๋ณด๋ค, ์ ๋ฐ ๋ค์์ ๋ฆฌ๊ทธ ์์์ ๊ฒ์ฆ๋ ๋๊ตฌ๋ค์ ํตํฉํด ๋ฐ์ดํฐ ํ์ง์ ํ๋ณดํ๋ ์์ง๋์ด๋ง์ ๊ฐ๊น๋ค.
์คํ โ ๋ฐ์ดํฐ์ ์ธ๋ชจ๋ฅผ ๋ณด์ด๋ 4๊ฐ ๋ฒค์น๋งํฌ
๋ ผ๋ฌธ์ ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ค: (A) ์ฌ๋โ๋ก๋ด ์ ์ด(4.1 ์ ์ด๋งต ์ ์ด, 4.2 ํ์ง ๊ฒ์)์ (B) ์ํธ์์ฉ ์ค์ฌ ์ง๊ฐ ๋ฒค์น๋งํฌ(4.3 ์ ํฌ์ฆ, 4.4 ๋ฌผ์ฒด 6D ํฌ์ฆ).
4.1 ์ฌ๋โ๋ก๋ด ์ ์ด๋งต ์ ์ด

์ ์ด ์ ์ด์ ์ค๊ธฐ ํ์ง(Fig. 3) โ (a) ์ฌ๋ ์ ์ด/๋ถ์ ๋งต (C^h,P^h)๋ฅผ ๋ก๋ด ์ ์ฉ ๋งต (\hat{C}^r,\hat{P}^r)๋ก ๋ณํํด ํ์ง ํฉ์ฑ์ ์ต์ ํ ๋ชฉํ๋ก ์ผ๋๋ค. (b) ๊ฐ์ ๋ฌผ์ฒดยท๊ฐ์ ์ ๋ ฅ์์, ์ ์ด๋ ๋งต์ผ๋ก ์ต์ ํํ ํ์ง๋ ์ฑ๊ณตํ๊ณ ์ฌ๋ ๋งต ๊ทธ๋๋ก ์ด ํ์ง๋ ์คํจํ๋ค.
์ฐฉ์. ๋ค์ง ๋ก๋ด ์์ด ์ฌ๋ ์์ ๋ฎ์์ด๋, ์ฌ๋ ์ ์ด ํจํด์ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ฉด ํํยท๊ธฐ๊ตฌํ ์ฐจ์ด๋ก ์ต์ ์ด ์๋ ์ ์๋ค. CEDex ๊ฐ์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ฌ๋โ๋ก๋ด ์ ์ด ๋์์ ์ฌ์ ์ ์ํ์ง๋ง, HRDexDB๋ ์ง์ง์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ก๋ด ์ ์ฉ ์ ์ด๋งต์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ ๋์์ ์ฐ๋ค.
์ค์ . ๋ฌผ์ฒด ํฌ์ธํธํด๋ผ์ฐ๋ O\in\mathbb{R}^{N\times3} ์์ ํ์ง๋ฅผ, ์ ๋ณ ์ ์ดํ๋ฅ C\in[0,1]^N๊ณผ ๋ถ์ ๋งต P(์ ์ด์ ์ ์ ๋ถ์์ ํ ๋น)๋ก ํํํ๋ค. ์ฌ๋ ๋ถ์ ๋งต P^h\in\mathbb{R}^{N\times6}, ๋ก๋ด ๋ถ์ ๋งต P^r\in\mathbb{R}^{N\times B}(Inspire B=6, Allegro B=5). ์ฌ๋ ํํ [C^h,P^h]์ PointNet++ ๋ฌผ์ฒด ํน์ง์ ์กฐ๊ฑด์ผ๋ก ๋ก๋ด ํํ [C^r,P^r]๋ฅผ ์์ธกํ๊ณ , C^r์ ์ ์ด ๊ฐ์ค L_1, P^r์ ๊ต์ฐจ์ํธ๋กํผ๋ก ํ์ตํ๋ค. ์์ธก๋ ๋ก๋ด ์ ์ด์ผ๋ก CEDex์ ๋ฌผ๋ฆฌ ์ธ์ง ์ต์ ํ(์ ์ดยท๊ดํตยท์๊ธฐ์ถฉ๋ ํญ)๋ก ํ์ง๋ฅผ ํฉ์ฑํ๋ค. ์๋ฎฌ๋ ์ด์ ์ Isaac Gym์์ 6์ถ ํ, ์ค๊ธฐ๋ ๋ฌผ์ฒด๋ฅผ ๋ค์ด 10์ด ์ ์งํ๋ฉด ์ฑ๊ณต์ผ๋ก ๋ณธ๋ค(pre-grasp/squeeze๋ BODex, ์คํ ๊ถค์ ์ CuRobo).
๊ฒฐ๊ณผ(Table 2, ์ฑ๊ณต๋ฅ %). ์ต์ ํ๊ธฐ๋ ๊ณ ์ ํ๊ณ ์ ์ด ํญ์ ์ถ์ฒ๋ง ๋ฐ๊พผ ๋น๊ต:
| Method | Inspire Sim โ | Inspire Real โ | Allegro Sim โ | Allegro Real โ |
|---|---|---|---|---|
| Human-Contact | 54.6 | 66.7 | 60.2 | 63.3 |
| Transferred (Ours) | 55.6 | 73.3 | 65.8 | 80.0 |
Sim ์ํ 1000/1000, Real ์ํ 60/30(Inspire/Allegro). ์ ์ด๋ ์ ์ด๋งต์ด ์๋ฎฌยท์ค๊ธฐ ๋ชจ๋์์ ์ฌ๋ ์ ์ด์ ๊ทธ๋๋ก ์ด ๊ฒฝ์ฐ๋ณด๋ค ์ฑ๊ณต๋ฅ ์ ๋์๋ค. ํนํ ์ค๊ธฐ์์ ๊ฒฉ์ฐจ๊ฐ ํฌ๋ค(Allegro +16.7%p). ๋ค๋ง ์๋ฎฌ ํฅ์ํญ(Inspire +1.0%p)์ ์์, ์ด๋์ ์๋น ๋ถ๋ถ์ด ์ค๊ธฐ ์ ์ด ์ ํฉ์์ ๋์จ๋ค.
4.2 ์ ์ฌ๊ณต๊ฐ ๋ก๋ด ํ์ง ๊ฒ์

์ฌ๋ ์กฐ๊ฑด๋ถ ๋ก๋ด ํ์ง ๊ฒ์์ ์ ์ฑ ์์(Fig. 4) โ ์ฌ๋ ์-๋ฌผ์ฒด ํ์ง ์ง์๋ก ํ์ต๋ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๋ก๋ด ํ์ง ํ๋ณด๋ฅผ ๊ฒ์. same-object๋ ์ง์ ๋ฌผ์ฒด๋ก ํ๋ณด๋ฅผ ์ ํ, cross-object๋ ํ์ต ๋ฌผ์ฒด์์ ๊ฒ์ํด ๋ฏธํ์ต ์ง์์ ํธํ๋๋ ํ์ง ์ฌ์ ์ ์ฐพ์ ์ ์๋์ง ํ๊ฐํ๋ค.
์ฐฉ์. ์ง์ง์ ์ฌ๋ยท๋ก๋ด ํ์ง๋ก๋ถํฐ, ๊ธฐํยท๊ธฐ๋ฅ์ ์ผ๋ก ๋์ํ๋ ํ์ง๋ฅผ ์๋ฒ ๋๋จผํธ ๊ฐ์ ์ ๋ ฌํ๋ ๊ณต์ ์ ์ฌ ํํ์ ํ์ตํ๋ค. ์ถ๋ก ์ ์ฌ๋ ์-๋ฌผ์ฒด ํ์ง๋ฅผ ์ง์๋ก, HRDexDB์ ๋ก๋ด ํ์ง ํ๋ณด๋ฅผ ์๋ฒ ๋ฉ ์ ์ฌ๋๋ก ๋ญํนํ๋ค. ๊ตฌํ์ CLIP ์คํ์ผ ๋ค๋ถ๊ธฐ ๊ฒ์ ๋ชจ๋ธ(์ฌ๋ยทInspire-F1ยทAllegro-V5์ฉ ํฌ์ธํธํด๋ผ์ฐ๋ ์ธ์ฝ๋ + ๊ณต์ ๋ฌผ์ฒด ์ธ์ฝ๋)์ ๋์นญ ๋์กฐ ์์ค๋ก ํ์ตํ๋ค.
๊ฒฐ๊ณผ(Table 3, 33๊ฐ ํ๋ณด ๊ฒ์).
| Retrieval Direction | R@1 | R@3 | R@5 |
|---|---|---|---|
| Human โ Inspire | 36.36% | 81.82% | 100.00% |
| Human โ Allegro | 24.24% | 63.64% | 72.73% |
| Inspire โ Allegro | 8.18% | 57.58% | 72.73% |
์ฌ๋โInspire๊ฐ ๊ฐ์ฅ ์ ๋๊ณ (R@5 100%), ๋ก๋ดโ๋ก๋ด(InspireโAllegro)์ R@1์ด 8.18%๋ก ์ด๋ ต๋ค โ ์๋ก ๋ค๋ฅธ ๋ก๋ด ์ ์ฌ์ด ์ ๋ ฌ์ด ์ฌ๋โ๏ธ๋ก๋ด๋ณด๋ค ์คํ๋ ค ๊น๋ค๋ก์์ ์์ฌํ๋ค.
๋ค์ด์คํธ๋ฆผ(Table 4, BODex ์ด๊ธฐํ ์ ๋ต๋ณ ์ฑ๊ณต๋ฅ %). ๊ฒ์๋ ํ์ง๋ก BODex ๋ฏธ์ธ ๋จ๊ณ๋ฅผ ์ด๊ธฐํํ๊ณ , AnyTeleop ์คํ์ผ kinematic retargeting๊ณผ ๋น๊ต(๊ฐ์ BODex ๋ฐฑ์๋ยทMuJoCo, 7๊ฐ ๋ฏธํ์ต ๋ฌผ์ฒด 33 ์ํผ์๋, ์ํผ์๋๋น 50 ์๋).
| Initialization | Seed Inspire-F1 | Seed Allegro-v5 | Episode Inspire-F1 | Episode Allegro-v5 |
|---|---|---|---|---|
| Vanilla | 3.39 | 16.24 | 69.70 | 84.85 |
| Kinematic Retargeting | 3.52 | 1.21 | 42.42 | 30.30 |
| Retrieval-top5 | 10.79 | 17.09 | 75.76 | 93.94 |
| Retrieval-top1 | 12.24 | 21.33 | 57.58 | 75.76 |
๊ฒ์ ๊ธฐ๋ฐ ์ด๊ธฐํ๊ฐ Vanilla BODex๋ณด๋ค ๋ซ๊ณ , kinematic retargeting์ ์คํ๋ ค Vanilla๋ณด๋ค๋ ๋์๋ค(์๋ฒ ๋๋จผํธ ๋ถ์ผ์น์์ ์ง์ ํฌ์ฆ ์ ์ด์ ์ทจ์ฝ์ฑ). Retrieval-top1์ ์๋ ์ฑ๊ณต๋ฅ ์ต๊ณ , top5๋ ์ํผ์๋ ์ฑ๊ณต๋ฅ ์ต๊ณ โ ์ ๋ฐ๋ยท์ปค๋ฒ๋ฆฌ์ง ํธ๋ ์ด๋์คํ.
4.3 3D ์ ํฌ์ฆ ์ถ์ ๋ฒค์น๋งํฌ
HRDexDB๋ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์์ ์ ๋ฐ 3D ์ง๋(supervision)์ ํจ๊ป ๋ค์์ RGB๋ก ์ ๊ณตํ๋ฏ๋ก, ์ ์ฌ๊ตฌ์ฑ ๋ชจ๋ธ์ ์ด๋ ค์ด ์กฐ๊ฑด์์ ํ๊ฐํ ์ ์๋ค. Table 5์์ WiLoRยทHaMeRยทHambaยทMeshGraphormerยทFrankMocap ๋ชจ๋ FreiHAND๋ณด๋ค ์ฐ๋ฆฌ ๋ฐ์ดํฐ์์ ์ค์ฐจ(PA-MPJPE/PA-MPVPE mm)๊ฐ ๋์ฒด๋ก ํฌ๋ค(์: WiLoR 5.94 vs 5.71). ์ฆ ๋ ์ด๋ ค์ด ๋ฒค์น๋งํฌ์์ ํ์ธ. ๋์๊ฐ ์ฐ๋ฆฌ ๋ฐ์ดํฐ 6k ์ํ์ 10๊ฐ ์ ๋ฐ์ดํฐ์ (์ด 2.7M) ๋ฏธ์ธ์กฐ์ ์ธํธ์ ์์ผ๋ฉด(Table 6), HaMeRยทWiLoR ๋ชจ๋ FreiHAND์์ ์ํญ ๊ฐ์ ๋์ด ์ค๋ณต์ด ์๋ ๋ณด์์ ์ ํธ์์ ์์ฌํ๋ค.
4.4 ๋ฌผ์ฒด 6D ํฌ์ฆ ์ถ์ ๋ฒค์น๋งํฌ
CADยท6D ๋ผ๋ฒจ์ ์ฌ๋ยท๋ก๋ด ํ์ง ํ๋ ์ ๋ชจ๋์ ์ ๊ณตํ๋ฏ๋ก ์ํธ์์ฉ ์ค์ฌ 6D ํฌ์ฆ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ๋ค. FoundPoseยทGigaPoseยทPicoPose(์ ๋ จ์ ์์ 5๊ฐ๋ฅผ MegaPose๋ก)๋ฅผ ๋์ผ RGB+๋ง์คํฌ ํ๋กํ ์ฝ๋ก ํ๊ฐ(Table 7). ๋ชจ๋ ๋ฐฉ๋ฒ์ด ๋ก๋ด ํ์ง์์ ์ฌ๋ ํ์ง๋ณด๋ค ๋์๋ค(์: FoundPose+MegaPose ADD ์ฌ๋ 3.35โ๋ก๋ด 4.40cm) โ ๋ก๋ด์ ๊ฐ์ฒด ๋งํฌยท์ง๋ฌธ์ด ๋ฌผ์ฒด ๊ฒฝ๊ณ๋ฅผ ๊ฐ๋ฆฌ๊ณ ๋ฌผ์ฒด ๊ฐ์ ์๊ฐ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด ๊ตญ์ํ๋ฅผ ์ด๋ ต๊ฒ ํ๋ค. ๋ MegaPose refiner๋ฅผ 100k GSO ํฉ์ฑ + 5.3k HRDexDB ๋ก๋ด ํ์ง๋ก ๋ฏธ์ธ์กฐ์ ํ๋ฉด, HRDexDB์ ๋ถ๋ฆฌ๋ OmniRobotHome ํ๊ฒฝ์์ ํ๊ท ADD-S๊ฐ 10.2% ๊ฐ์ (Table 8)๋์ด, ์ํธ์์ฉ ์ธํ ์ ์์ ๋ฐ์ดํฐ๊ฐ ๋์๋จ์ ๋ณด์ธ๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ๊ณต๋ฐฑ์ ์ ํํ ๊ฒจ๋ฅํ ๋ฐ์ดํฐ. pairedยทmulti-embodimentยทmarkerlessยทmulti-modal(์ด๊ฐ ํฌํจ)์ ํ ๋ฒ์ ๊ฐ์ถ ์กฐํฉ์ ์ค์ ๋ก ๊ธฐ์กด์ ๋ถ์ฌํ๊ณ , Table 1์ ๋น๊ต๊ฐ ์ด๋ฅผ ์ค๋๋ ฅ ์๊ฒ ๋ณด์ฌ์ค๋ค. ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์ ์ด ์ฐ๊ตฌ์ ๊ณตํต ํ ๋๋ก์ ๊ฐ์น๊ฐ ๋ถ๋ช ํ๋ค.
- ๋ฐ์ดํฐ์ ์ธ๋ชจ๋ฅผ 4๊ฐ ๋ฒค์น๋งํฌ๋ก ์ค์ฆ. ๋ฐ์ดํฐ์ ๋ ผ๋ฌธ์ด ํํ ๋น ์ง๋ โ๋ง๋ค์์ผ๋ ์ธ๋ชจ ์์ ๊ฒโ ์ ์ฃผ์ฅ์ ๋์ด, ์ ์ด(์ ์ด๋งตยท๊ฒ์)์ ์ง๊ฐ(์ยท๋ฌผ์ฒด ํฌ์ฆ) ์์ชฝ์์ ์ ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค. ํนํ ์ ์ด๋งต ์ ์ด์ ์ค๊ธฐ +16.7%p, retargeting์ด Vanilla๋ณด๋ค๋ ๋์๋ค๋ ๊ฒฐ๊ณผ๋ paired ๋ฐ์ดํฐ์ ํ์์ฑ์ ๊ตฌ์ฒด์ ์ผ๋ก ๋ท๋ฐ์นจํ๋ค.
- ์ ์งํ ํ์ดํ๋ผ์ธ ํตํฉ. ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ณผ์ฅํ์ง ์๊ณ ๊ฒ์ฆ๋ SOTA(HaMeRยทSAM3ยทFoundationStereoยทFoundationPose)๋ฅผ ์ ๋ฐ ๋ฆฌ๊ทธ๋ก ํตํฉํ๋ค. ์ฌํยทํ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
์ฝ์ ยทํ๊ณ
- ๊ท๋ชจ์ ํ๊ณ. 100 ๋ฌผ์ฒดยท2.1K ์ํ์ค๋ โfoundational benchmarkโ๋ฅผ ํ๋ฐฉํ๊ธฐ์ ๋ฌผ์ฒดยทํ๋ ๋ค์์ฑ์ด ์ ํ์ ์ด๋ค. ํ๋ ์ ์(24M)๋ ํฌ์ง๋ง ํ์ง ์ํ์ค๋ 2.1K๋ก, VLA ์ฌ์ ํ์ต ๊ฐ์ ๋๊ท๋ชจ ํ์ต์๋ ๋ถ์กฑํ ์ ์๋ค. ์ ์๋ 1,000 ๋ฌผ์ฒด๋ก ํ์ฅ ์ค์ด๋ผ๊ณ ๋ฐํ๋ค.
- ํ์ง์ ๊ตญํ. ์ด๋ฆ ๊ทธ๋๋ก dexterous grasping ๋ฐ์ดํฐ์ ์ด๋ค. ๋๊ตฌ ์ฌ์ฉยท๊ธฐ๋ฅ์ ์กฐ์(functional manipulation) ๊ฐ์ ์ฅ๊ธฐ(long-horizon)ยท์ ์ด ํ๋ถ ํ์คํฌ๋ ์์ง ์๋ค(ํฅํ ๊ณํ).
- ์๋ฏธ์ ์ง์ง๊ธฐ์ ๋์จํจ. ์ ์๊ฐ ํ๊ณ (2)๋ก ์ธ์ ํ๋ฏ, ์ฌ๋๊ณผ ๋ก๋ด ํ์ง๋ ์๋ฏธ ์์ค์์๋ง ์ง์ง์ด์ง๋ค. ํํ๊ฐ ๋ค๋ฅธ ์ ์ฌ์ด์์ ๊ธฐ๋ฅ์ ์ผ๋ก ๋ฑ๊ฐ์ธ ๋ชจ์ ์ ์ ์ํ๋ ๋ฌธ์ ๋ ๋ฏธํด๊ฒฐ์ด๋ผ, ํ๋ ์ ๋จ์ ๋์์ด ํ์ํ imitation์๋ ๊ทธ๋๋ก ์ฐ๊ธฐ ์ด๋ ต๋ค.
- ์ด๊ฐ ์ด์ง์ฑ. ์ด๊ฐ์ ๋ก๋ด ์์๋ง ์๊ณ ์ผ์ ์ฌ์๋ ํ๋ซํผ๋ง๋ค ๋ฌ๋ผ(ํ๊ณ 1) ํต์ผ๋ ์ด๊ฐ ๋ถ์์ด ์ด๋ ต๋ค. โ์ด๊ฐ ํฌํจโ์ด ๊ฐ์ ์ด์ง๋ง ์ค์ฌ์ฉ์๋ ์ ๊ทํ๊ฐ ์ ํ๋ผ์ผ ํ๋ค.
- ์ ์ด ์คํ์ ๋ฒ์. ์ ์ด๋งต ์ ์ดยท๊ฒ์ ์คํ์ Inspire-F1ยทAllegro-V5 ๋ ์์ผ๋ก๋ง ํ์ตยทํ๊ฐ๋์ด, ๋ฐ์ดํฐ์ ์ด ํ๋ฐฉํ๋ โ5 ์๋ฒ ๋๋จผํธโ์ ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์ ์ฌ๋ ฅ์ ์์ง ๋ถ๋ถ์ ์ผ๋ก๋ง ํ์ฉํ๋ค. ๋ก๋ดโ๋ก๋ด ๊ฒ์ R@1 8.18%๋ ์ด ๋ฐฉํฅ์ ๋์ด๋๋ฅผ ๋๋ฌ๋ธ๋ค.
- (์ฐธ๊ณ ) ์๋ฌธ์ ํ ์ฐธ์กฐ ๋ฒํธ ์คํ๊ฐ ๋ณด์ธ๋ค(๋ณธ๋ฌธ์ด Table 4/6์ ๊ฐ๋ฆฌํค๋๋ฐ ๋ด์ฉ์ Table 3/5) โ ๋ฆฌ๋ทฐ์์๋ ๋ด์ฉ์ ๋ง๋ ํ ๋ฒํธ๋ก ์ธ์ฉํ๋ค.
์ฌํ ๊ด์ ๋ ธํธ(์๋ฌธ ์ฃผ์ฅ๊ณผ ๋ฌด๊ด, ๊ณต๊ฐ ์์ ๋ฆด๋ฆฌ์ค ์ฑ์๋). ์ค์ ์ฌํ์ ์๋ํด ๋ณด๋ฉด, ํ์ฌ ๊ณต๊ฐ๋ HuggingFace ๋ฆด๋ฆฌ์ค(cc-by-nc-4.0, ์ฝ 680GB์ด์ง๋ง
allow_patterns๋ก scene ๋จ์ ์ ํ ๋ค์ด๋ก๋ ๊ฐ๋ฅ)์๋ ๋ ผ๋ฌธ์ด ๊ธฐ์ ํ 5๊ฐ ์๋ฒ ๋๋จผํธ ์คhuman/๊ณผallegro_v5/split๋ง ์ฌ๋ผ์ ์์ด, README quick-start์--hand inspire_f1์์ ๋ ๋์ scene ๋ฐ์ดํฐ๊ฐ ์์ง ์์ด ๊ทธ๋๋ก ์คํ๋์ง ์๋๋ค(์ฝ๋๋ ์ ์, ๋ฐ์ดํฐ ๋ฆด๋ฆฌ์ค๊ฐ ๋ถ๋ถ์ ). ๋ robot(allegro_v5) scene์ ํยท์์ ์ ์ ์ ๋๋ฉ์ด์ ๋์ง๋ง ๋ฌผ์ฒด 6D ํฌ์ฆ ํ์ผ ํฌ๋งท ๋ถ์ผ์น(object_6d_pose.npzvs ์ฝ๋๊ฐ ๊ธฐ๋ํ๋object_6d/pose_*.txt)๋ก ๋ฌผ์ฒด๊ฐ ์กฐ์ฉํ ๋๋ฝ๋๋ค. ๋ ผ๋ฌธ ์ฃผ์ฅ์ ํ๊ณ๊ฐ ์๋๋ผ ๊ณต๊ฐ ์ด๊ธฐ ๋ฐ์ดํฐ/์ฝ๋ ์ฑ์๋ ์ด์๋ค(์ฌํ PR ์ฐธ๊ณ ).
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ ๋งค๊น
HRDexDB๋ โ์ฌ๋ ์์ฐ์ผ๋ก๋ถํฐ์ ๋ก๋ด ์์ฌ์ฃผ ํ์ตโ์ด๋ผ๋ ํ๋ฆ์ ๋ฐ์ดํฐ ์ธํ๋ผ ์ถ์ ์์นํ๋ค.
- UniDex ๋ฆฌ๋ทฐ โ ์ฌ๋ egocentric ์์์ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ณํํด ์์ ๊ฐ๋ก์ง๋ฅด๋ ํ์ด๋ฐ์ด์ ์ ํ์ต. HRDexDB๊ฐ ์ ๋ฐ ๋ค์์ ๋ฆฌ๊ทธ๋ก GT๋ฅผ ํ๋ณดํ๋ค๋ฉด, UniDex๋ ์ผ์ ์์ ๊ท๋ชจ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฑ์ด๋ค โ ์๋ณด์ ์ ๊ทผ์ด๋ค.
- CHORD ๋ฆฌ๋ทฐ โ ์ฌ๋ ์์ฐ์ ์ ์ด ๋ ์น(wrench)๋ก ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์์ฌ์ฃผ ์กฐ์์ ํ์ต. HRDexDB์ ์ ์ด๋งต ์ ์ด์ ๋ฌธ์ ์์(์ฌ๋ ์ ์ดโ๋ก๋ด)์ด ๋ง๋ฟ๋๋ค.
- Do as I Do ๋ฆฌ๋ทฐ โ ์ผ์ ์ฌ๋ ์์์์ ์์ฌ์ฃผ ๋ฐ์ดํฐ๋ฅผ ์์ฑ. ์ฌ๋โ๋ก๋ด ๋ฐ์ดํฐ ํ๋ณด ์ ๋ต์ ๋ค๋ฅธ ๊ฐ๋.
- GenHand ๋ฆฌ๋ทฐ โ ์ฌ๋ ํ์ง์ kinematic retargeting. HRDexDB 4.2๊ฐ retargeting์ ๋ฅ๊ฐํ๋ ๊ฒ์ ๊ธฐ๋ฐ ์ด๊ธฐํ๋ฅผ ๋ณด์ฌ, ์ด ๊ณ์ด์ ํ๊ณ๋ฅผ ๋ฐ์ดํฐ๋ก ์ง๋๋ค.
์ ์ด ๋ฐฉ๋ฒ(์ ์ฑ ยท๋ชจ๋ธ) ์ฐ๊ตฌ๊ฐ ๊ทธ๋์ ํ๊ฐํ ๊ณต์ ๋ฌผ์ฒด ์ paired ๋ฐ์ดํฐ์ ๋ถ์ฌ๋ก ์๋ก ๋น๊ต๋๊ธฐ ์ด๋ ค์ ๋ ์ํฉ์์, HRDexDB๋ ๊ทธ ๊ณต๋ฐฑ์ ๋ฉ์ฐ๋ ๋ฒค์น๋งํฌ๋ก ์๋ฆฌํ๋ค.
์์ฝ
HRDexDB๋ ์ฌ๋ ์ + 4์ข ๋ก๋ด ์์ด ๊ณต์ 100๊ฐ ๋ฌผ์ฒด๋ฅผ ํ์งํ๋ ์ฅ๋ฉด์ ๋ง์ปค๋ฆฌ์ค ๋ค์์ RGB๋ก ์ง์ง์ด ๋ด์ ์ฒซ ๋ฐ์ดํฐ์ ์ด๋ค(2.1K ์ํ์คยท24M ํ๋ ์ยท์ด๊ฐยท3D ์ยท๋ฌผ์ฒด 6D). 23๋ ์นด๋ฉ๋ผ ๋ฆฌ๊ทธ์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์์งํ๊ณ , ๊ฒ์ฆ๋ SOTA ๋น์ ํ์ดํ๋ผ์ธ์ผ๋ก 3D ์ํ๋ฅผ ๋ณต์ํ๋ค. ์ ์ด๋งต ์ ์ด(์ค๊ธฐ ์ฑ๊ณต +16.7%p)ยท์ ์ฌ ํ์ง ๊ฒ์(retargeting ๋ฅ๊ฐ)ยท์ ํฌ์ฆยท๋ฌผ์ฒด 6D ํฌ์ฆ์ 4๊ฐ ๋ฒค์น๋งํฌ๋ก ๋ฐ์ดํฐ์ ์ธ๋ชจ๋ฅผ ์ค์ฆํ๋ค. ๊ท๋ชจยทํ์คํฌ ๋ค์์ฑยท์ง์ง๊ธฐ์ ๋์จํจ์ด๋ผ๋ ํ๊ณ๋ ๋จ์ง๋ง, ํฌ๋ก์ค-์๋ฒ ๋๋จผํธ ์์ฌ์ฃผ ์ ์ด ์ฐ๊ตฌ์ ๊ณตํต ํ ๋๋ก์์ ๊ธฐ์ฌ๊ฐ ๋๋ ทํ๋ค.