flowchart LR
subgraph REC["1 ๋ณต์ (Reconstruction)"]
VID["๋จ์ RGB ์์<br/>(์ธํฐ๋ท/ego/์์ฑ)"]
HAND["HaWoR<br/>์ ํฌ์ฆ ์ถ์ "]
OBJ["SAM 3D<br/>๋จ์ผ ํ๋ ์ ๋ฉ์"]
TRACK["guided diffusion ํธ๋์ปค<br/>flow matching ํฌ์ฆ ์ถ์ <br/>+ SE(3) ํด๋ฌ์คํฐ ์ ํ"]
ALIGN["์ ๋ ฌ<br/>centroid + ์ต์์ ๊ณฑ<br/>+ GeoCalib ์ค๋ ฅ"]
VID --> HAND
VID --> OBJ --> TRACK
HAND --> ALIGN
TRACK --> ALIGN
end
subgraph RET["2 ๋ฆฌํ๊ฒํ
(Retargeting)"]
SPIDER["SPIDER ๊ธฐ๋ฐ<br/>MPPI ์ํ๋ง ์ต์ ํ"]
W["+ warmup ๋จ๊ณ"]
F["+ ๋๋ค ํ ์ญ๋"]
T["+ ์ ์ด ๋ณด์"]
SPIDER --- W --- F --- T
end
ALIGN --> SPIDER
T --> ROB["๋ก๋ด-์๊ฒฐ ๋ฐ์ดํฐ<br/>UR3e + Sharpa Wave 22-DoF"]
๐Do as I Do
- ๐ค DO AS I DO๋ ์ผ๋ฐ์ ์ธ ๋จ์ผ ์์ RGB ์์์์ ์๊ณผ ๋ฌผ์ฒด์ ์ํธ์์ฉ์ 3D๋ก ์ฌ๊ตฌ์ฑํ ๋ค, ์ด๋ฅผ ๋ค์งํ ๋ก๋ด ์์ด ์ํํ ์ ์๋ ๋์์ผ๋ก ๋ณํํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค.
- ๐ ์ ์๋ ๋ฐฉ์์ SAM 3D์ Guided Diffusion์ ํ์ฉํ์ฌ ๋ณต์กํ ํ๊ฒฝ์ ์์์์๋ ์ ๊ตํ๊ฒ ๋ฌผ์ฒด ์ํ๋ฅผ ์ถ์ ํ๊ณ , ๋์ญํ ๊ธฐ๋ฐ์ ์ต์ ํ ๊ธฐ๋ฒ์ ํตํด ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด์ ์ถฉ์กฑํ๋ ์์ ์ ์ธ ์กฐ์ ๊ถค์ ์ ์์ฑํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, ๋ณธ ํ๋ ์์ํฌ๋ ๊ธฐ์กด ์ํ ๊ธฐ์ (SOTA) ๋๋น ๋ฐ์ด๋ ์ฌ๊ตฌ์ฑ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ๋ค์ํ dexterous manipulation ๊ณผ์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํจ์ผ๋ก์จ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ๋ณด๋ฅผ ์ํ ์ค์ฉ์ ์ธ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ์ผ์์ ์ธ ๋จ์ RGB(monocular RGB) ์ธ๊ฐ ๋์์์ผ๋ก๋ถํฐ ๋ณต์กํ ๋ค์ง(multi-fingered) ๋ก๋ด์ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ธ DO AS I DO๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ธ๊ฐ์ ๊ด์ฐฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด์ด ์คํ ๊ฐ๋ฅํ ๊ฒฝํ์ ๋ฐ์ดํฐ๋ก ๋ณํํจ์ผ๋ก์จ, ๋ก๋ด ํ์ต์ ํ์ํ ๋ฐ์ดํฐ ํ๋ณด์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก
1. ์ฌ๊ตฌ์ฑ(Reconstruction):
์ธ๊ฐ์ ์๊ณผ ๋ฌผ์ฒด์ ์ํธ์์ฉ์ 3D๋ก ๋ณต์ํ๊ธฐ ์ํด HaWoR(Hand tracking)๊ณผ SAM 3D(Object meshing)๋ฅผ ํ์ฉํฉ๋๋ค. ํนํ ๊ฐ๋ ค์ง(occlusion)์ด๋ ํด์๋ ์ ํ๊ฐ ๋น๋ฒํ ์ธํฐ๋ท ๋์์์์ ๋ฌผ์ฒด ์ถ์ ์ ๊ฐ๊ฑด์ฑ์ ํ๋ณดํ๊ธฐ ์ํด โGuided Diffusionโ ๊ธฐ๋ฒ์ ๋์ ํ์ต๋๋ค.
- Guided Diffusion ๊ธฐ๋ฐ ๋ฌผ์ฒด ์ถ์ : ๋ฌผ์ฒด์ ํํ(shape)๋ฅผ ๊ณ ์ ํ๊ณ ์ด์ ํ๋ ์์ ํฌ์ฆ(xp_{k-1})๋ฅผ ์ฐธ์กฐํ์ฌ ํ์ฌ ํ๋ ์์ ํฌ์ฆ(xp_k)๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋, ๋ชจ๋ธ์ ODE ์ ๋ฐ์ดํธ ๊ณผ์ ์์ ๋ค์ ์๊ณผ ๊ฐ์ด ๋ฌผ๋ฆฌ์ ๊ฐ์ด๋๋ฅผ ๊ฒฐํฉํฉ๋๋ค: xs_t = (1 - \alpha_s)(xs_{t-\Delta} + \Delta vs_{\theta}) + \alpha_s zs_{ref}(t) xp_t = (1 - \alpha_p)(xp_{t-\Delta} + \Delta vp_{\theta}) + \alpha_p zp_{ref}(t)
- Adaptive Guidance: ํฌ์ธํธ ์ถ์ ๊ธฐ(BootsTAPIR)๋ฅผ ํตํด ๋ฌผ์ฒด์ ํ์ ์๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฌ์ฆ ๊ฐ์ด๋ ๊ฐ๋ \alpha_p๋ฅผ ๋์ ์ผ๋ก ์ค์ ํ์ฌ ์ถ์ ์ ์์ ์ฑ์ ๋์ ๋๋ค.
- ์ ๋ ฌ(Alignment): ์๊ณผ ๋ฌผ์ฒด์ ์ค์ผ์ผ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด MoGe๋ก ์ถ์ ๋ ๊น์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์๊ณผ ๋ฌผ์ฒด์ ์ค์ฌ(centroid)์ ๊ธฐ์ค์ผ๋ก ์งํ ๋จ์(metric unit)์ 4D ๊ถค์ ์ ์ฐ์ถํฉ๋๋ค.
2. ์ฌ๋์ํ(Retargeting):
๋ณต์๋ ๋ ธ์ด์ฆ ์์ธ ์ธ๊ฐ์ ๊ถค์ ์ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์ผ๋ก ์ด์ ํ๊ธฐ ์ํด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ด์์ ์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ(MPPI-style optimization)๋ฅผ ์ํํฉ๋๋ค.
- Warmup Steps: ์ต์ ํ ์ด๊ธฐ ํ๋ ์์ ๋ ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ๋ด์ โWarmupโ ๋จ๊ณ๋ฅผ ์ถ๊ฐํ์ฌ ๋ก๋ด์ด ์ค์ ์กฐ์์ ์์ํ๊ธฐ ์ ๋ฌผ์ฒด์์ ์ ๋ ฌ์ ์กฐ์ ํ๊ฒ ํฉ๋๋ค.
- Random Force Perturbation: ๋ค์ํ ์ธ๋ถ ํ์ ๊ฐํด rollouts์ ์ํ๋งํจ์ผ๋ก์จ, ์ข์ ์ง์ญ ์ต์ ํด์ ๋น ์ง์ง ์๊ณ ๋ก๋ด์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๊ฑดํ ์ ์ด ์ ๋ต์ ํ์ตํ๋๋ก ์ ๋ํฉ๋๋ค.
- Transition Reward: ๋ฌผ์ฒด๋ฅผ ์ก๊ฑฐ๋ ๋๋ ์ค์ํ ์ ํ์ ์์์ ์ฑ๊ณต๋ฅ ์ ๋์ด๊ธฐ ์ํด, ์-๋ฌผ์ฒด ๊ฐ ์ ์ด ์ฌ๋ถ๋ฅผ ํ๊ฐํ๋ ํ๋ํฐ ํญ์ ์ถ๊ฐํ์ฌ ๋จ๊ณ์ ์ํธ์์ฉ์ ๊ฐํํฉ๋๋ค.
์ฃผ์ ์ฑ๊ณผ ๋ฐ ๊ฒฐ๋ก
DO AS I DO๋ ๊ธฐ์กด์ SOTA ๋ชจ๋ธ๋ณด๋ค ์-๋ฌผ์ฒด ๋ณต์ ์ฑ๋ฅ์ด ์ฐ์ํจ์ DexYCB ๋ฐ HOI4D ๋ฒค์น๋งํฌ๋ฅผ ํตํด ์ ์ฆํ์ต๋๋ค. ๋ํ, ์ธํฐ๋ท, ์์ ์ค์ฌ(egocentric), ์์ฑํ ๋ชจ๋ธ ๋์์์ ํฌํจํ ๋ค์ํ ์์ค์์ 500๊ฐ ์ด์์ ์กฐ์ ๊ถค์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ถ์ถํ์ผ๋ฉฐ, ์ค์ bimanual ๋ก๋ด ํ๊ฒฝ์์ 10๊ฐ์ง ์ด์์ ๋ณต์กํ ์กฐ์ ํ์คํฌ๋ฅผ ์ํํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ ์ธํฐ๋ท ๋ฐ์ดํฐ์ ํ์ง์ ์ ๋ณํ๋ โEfficacy Playbookโ์ ์ ์ํ๋ฉฐ, ๋จ์ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ๋ณด๋ค ์ ๊ตํ ํํฐ๋ง์ด ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ทน๋ํํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ฅ์ ์กฐ์(dexterous manipulation)์ ๋ฐ๋ชฉ์ ์ก๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ด ์๋๋ผ ๋ฐ์ดํฐ ์ ๋๋ค.
- ์ฌ๋ ์ ๋ฎ์ ๋ค์ง ํ๋ซํผ ์ ์์ ๋๊ฐ ๋์, ํ ๋ ์คํผ๋ ์ด์ ยท๋ชจ์ ์บก์ฒ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋น์ฉ์ด ๋ง๋ํฉ๋๋ค. ํน์ ์ฅ๊ฐยท๋ง์ปคยท์คํ๋์ค๊ฐ ํ์ํ๊ณ , ์์ ยท๋ฌผ์ฒด๋ง๋ค ์๋ก ์์งํด์ผ ํฉ๋๋ค.
- ๋ฐ๋ฉด ์ธํฐ๋ทยท์๊ธฐ์ค์ฌ ์์ ์๋ ์ฌ๋์ด ์ปต์ ๋ค๊ณ , ๋๊ป์ ๋๋ฆฌ๊ณ , ๋๊ตฌ๋ฅผ ์ฐ๋ ์ฅ๋ฉด์ด ์ฌ์ค์ ๋ฌดํํ ์กด์ฌํฉ๋๋ค. ๋ฌธ์ ๋ ์ด ํ๋ฒํ RGB ์์์ด ๋ก๋ด์ด ๋ฐ๋ก ์ธ ์ ์๋ ํํ๊ฐ ์๋๋ผ๋ ๊ฒ ์ ๋๋ค โ 3D๋, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๊ถค์ ๋, ๋ก๋ด ์๋ฒ ๋๋จผํธ๋ก์ ๋งคํ๋ ์์ต๋๋ค.
์ ์๋ค์ด ๋์ง๋ ์ง๋ฌธ์ ๋ช ํํฉ๋๋ค. โํน์ ์ฅ๋น ์๋ ์ผ์์ ๋จ์ RGB ์์๋ง์ผ๋ก, ๋ค์ง ๋ฅ์ ์์ด ์ค์ ๋ก ์คํํ ์ ์๋ โ๋ก๋ด-์๊ฒฐ(robot-complete)โ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ผ ์ ์๋๊ฐ?โ
์ฌ๊ธฐ์ ๋ ๊ฐ์ ํฐ ๊ฐ๊ทน์ด ์์ต๋๋ค. ์ฒซ์งธ ์ง๊ฐ ๊ฐ๊ทน โ ๋จ์ ์์์์ ์๊ณผ ๋ฌผ์ฒด์ 3D ํฌ์ฆ๋ฅผ ์๊ฐ์ ๊ฑธ์ณ ์ผ๊ด๋๊ฒ ๋ณต์ํ๊ธฐ. ๋์งธ ์๋ฒ ๋๋จผํธ ๊ฐ๊ทน โ ์ฌ๋ ์์ ์ด๋ํ์ ๊ถค์ ์, ํํ๊ฐ ๋ค๋ฅธ ๋ก๋ด ์์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฒ ์คํํ๋๋ก ์ฎ๊ธฐ๊ธฐ. Do as I Do๋ ์ด ๋์ ๊ฐ๊ฐ ๋ณต์(reconstruction) ๊ณผ ๋ฆฌํ๊ฒํ (retargeting) ์ผ๋ก ๋ถ๋ฆฌํด ๊ณต๋ตํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ ์ค ์์ฝ: SAM 3D๋ฅผ guided diffusion ๋น๋์ค ํธ๋์ปค ๋ก ์ฌํ์ฉํด ๋จ์ RGB์์ ์-๋ฌผ์ฒด 4D๋ฅผ ๋ณต์ํ๊ณ , SPIDER ๊ธฐ๋ฐ์ warmupยท๋๋ค ํยท์ ์ด ๋ณด์ ์ ๋ํ ๋์ญํ ์ธ์ง ๋ฆฌํ๊ฒํ ์ผ๋ก ๋ก๋ด-์๊ฒฐ ๊ถค์ ์ ๋ง๋ ๋ค โ ํน์ ์ฅ๋น ์์ด ์ผ์ ์์์์ ๋ฅ์ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ๋๊ท๋ชจ๋ก.
๋ฐฉ๋ฒ
์ ์ฒด๋ ๋ณต์ โ ๋ฆฌํ๊ฒํ ์ 2๋จ๊ณ์ ๋๋ค. ๋ณต์์ โ๋จ์ RGB์์ ์๊ฐ ์ผ๊ด๋ ์-๋ฌผ์ฒด 4Dโ๋ฅผ, ๋ฆฌํ๊ฒํ ์ โ๊ทธ ๊ถค์ ์ ๋ก๋ด์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ๊ฒโ๋ฅผ ์ฑ ์์ง๋๋ค.
1๋จ๊ณ: ์-๋ฌผ์ฒด ๋ณต์
์ ์ถ์ . HaWoR ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํฉ๋๋ค. in-the-wild ์์์์๋ ์์ ์์ด ํฉ๋ฆฌ์ ์ธ ์ ํฌ์ฆ๋ฅผ ๋ ๋๋ค.
๋ฌผ์ฒด โ ๋จ์ผ ํ๋ ์ ์์ฑ. SAM 3D(์ด๋ฏธ์ง ์กฐ๊ฑด๋ถ 3D ์์ฑ foundation model)๋ก ๊ฐ๋ณ ํ๋ ์์์ ๋ฌผ์ฒด ๋ฉ์๋ฅผ ๋ง๋ญ๋๋ค.
๋ฌผ์ฒด โ ์๊ฐ์ ์ถ์ (ํต์ฌ ํ์ ). ๋จ์ํ ๋งค ํ๋ ์ ๋ ๋ฆฝ ์์ฑํ๋ฉด ์๊ฐ ์ผ๊ด์ฑ์ด ๊นจ์ง๋๋ค. ์ ์๋ค์ SAM 3D๋ฅผ ๋น๋์ค ํธ๋์ปค๋ก ์ฌํ์ฉ ํฉ๋๋ค.
- ์ต์ปค ํ๋ ์์์ ๋ฌผ์ฒด ํ์์ ๊ณ ์ .
- flow matching ์ถ๋ก ์ผ๋ก ํ๋ ์ ๊ฐ ํฌ์ฆ ๋ณํ๋ฅผ ์์ธก.
- ๋ชจ๋ธ์ denoising ์ ๋ฐ์ดํธ u_\theta ์ ๋ชฉํ interpolant x^{\text{target}} ๋ฅผ ๋ธ๋ ๋ฉ(Eq. 1):
x_{k+1} = (1-\lambda)\, \big(x_k + u_\theta(x_k, k)\big) + \lambda\, x^{\text{target}}_k
์ฌ๊ธฐ์ ๊ฐ์ด๋ ๊ฐ๋ \lambda ๋ ๊ณ ์ ๊ฐ์ด ์๋๋ผ 2D ํฌ์ธํธ ์ถ์ ์ผ๋ก ์ธก์ ํ ํ์ ์๋ ์์ ๋์ถํฉ๋๋ค. ๋ฌผ์ฒด๊ฐ ๊ฐ์ฒด์ฒ๋ผ ์ฒ์ฒํ ๋๋ฉด ์ถ์ ์ ๊ฐํ๊ฒ, ๋น ๋ฅด๊ฒ ๋ณํ๋ฉด ์ ์ฐํ๊ฒ ์กฐ์ ํฉ๋๋ค.
ํฌ์ฆ ํ๋ณด ์ ํ. ํ๋ ์๋น 25๊ฐ ํฌ์ฆ ํ๋ณด ๋ฅผ ์ํ๋งํ ๋ค, ๊ฐ์ค SE(3) ๊ฑฐ๋ฆฌ ๋ก ํด๋ฌ์คํฐ๋งํด ๋ํ ํฌ์ฆ๋ฅผ ๊ณ ๋ฆ ๋๋ค. likelihood ๊ธฐ๋ฐ ๋ญํน๊ณผ ํ์ง์ ๋น์ทํ๋ฉด์ ์ต๋ 30๋ฐฐ ๋น ๋ฆ ๋๋ค.
์ ๋ ฌ(Alignment). ์๊ณผ ๋ฌผ์ฒด๋ฅผ ๋ ๋ฆฝ ๋ณต์ํ์ผ๋ฏ๋ก ์ขํ๊ณ๋ฅผ ๋ง์ถฐ์ผ ํฉ๋๋ค. ์์ชฝ ์ค์ฌ(centroid)์ ๊ณ์ฐํ๊ณ , ํ๋ ์๋ณ ๋ณ์ง ์ค์ผ์ผ์ ์ต์์ ๊ณฑ ์ผ๋ก ํ๋ฉฐ, GeoCalib ์ผ๋ก ๊ถค์ ์ ์ค๋ ฅ ๋ฐฉํฅ์ ์ ๋ ฌํฉ๋๋ค.
2๋จ๊ณ: ๋์ญํ ์ธ์ง ๋ฆฌํ๊ฒํ
๋ณต์๋ (์ด๋ํ์ ) ์-๋ฌผ์ฒด ๊ถค์ ์ ๊ทธ๋๋ก ๋ก๋ด์ ์ฌ๋ฆฌ๋ฉด ์ ์ด ๋ถ์์ ยท๊ดํต ๋ฑ์ผ๋ก ์คํจํฉ๋๋ค. SOTA ๋ฒ ์ด์ค๋ผ์ธ SPIDER ์์์ MPPI ์คํ์ผ ์ํ๋ง ์ต์ ํ(๋ฐ๋ณตยท์์ธก ์งํ์ ์์ชฝ์ kernel annealing)๋ก ๋์ญํ์ ๊ณ ๋ ค ํ ์ ์ด๋ฅผ ์ฐพ์ต๋๋ค. ํํ ์ธ ๊ฐ์ง ์คํจ ๋ชจ๋๋ฅผ ๊ฐ๊ฐ ํ ์์๋ก ์ก์ต๋๋ค.
- Warmup ๋จ๊ณ. ๋ ธ์ด์ฆ ๋ ์ด๊ธฐํ์์ ์์ด ์ด์ํ ์์ธ๋ก ์์ํ๋ฉด ์ถ์ ์ฒซ ํ๋ ์๋ถํฐ ์คํจํฉ๋๋ค. ๊ทธ๋์ H ๊ฐ ์คํ ์ ์์ ๋ถ์ฌ ๋ฌผ์ฒด๋ฅผ (์: ๊ณต์ค์) ๊ณ ์ ํ ์ฑ ์๋ง ์์ ๋กญ๊ฒ ์์ง์ฌ ์์ธ๋ฅผ ์ ๋ ฌํ ๋ค ๋ณธ ์ถ์ ์ ์์ํฉ๋๋ค.
- ๋๋ค ํ ์ญ๋. ๋ถ์์ ํ ํ์ง๋ ๋ณด์ ์งํ์ ์ง์ญ ์ต์๊ฐ์ ๊ฐํ๊ธฐ ์ฝ์ต๋๋ค. ๋กค์์ ์ํ์ ๋๋ค ํ ์ ๊ฐํด, ๊ทธ๋ฐ ์ญ๋์๋ ๊ฒฌ๋๋(์ฆ ์์ ์ ์ผ๋ก ์ก๋) ์ ์ด๋ฅผ ์ ํธํ๊ฒ ๋ง๋ญ๋๋ค(sim-to-real robustness ์ฐฉ์).
- ์ ์ด(transition) ๋ณด์. ๋จ๊ณ ์ ํ์ ์ ๋ํ๋ ํ๋ํฐ์ ๋๋ค โ โrestโ์์ ๋ฌผ์ฒด-๋ฐ๋ฅ ์ ์ด์ด ์์ผ๋ฉด, โin-handโ์์ ์-๋ฌผ์ฒด ์ ์ด์ด ์์ผ๋ฉด ๋ฒ์ ์ ์ค, ๋ค์ด์ฌ๋ฆผยท๋ด๋ ค๋์ ๊ฐ์ ์ ์ด ์ํ ์ ์ด ๋ฅผ ๋ช ํํ ํฉ๋๋ค.
์๋ฎฌ๋ ์ด์ ์ค์
- ๋ฌผ๋ฆฌ ์์ง: MuJoCo Warp, 0.005s ํ์์คํ (200Hz).
- ๋ฉ์ ์ฒ๋ฆฌ: CoACD ๋ณผ๋ก ๋ถํด + ๋ค์ค ์ ์ด ์์ ํ๋ฅผ ์ํด 2mm dilate.
- ์ต์ ํ: ๊ณํ ์คํ ๋น 1024 ์ํ, 32 ๋ฐ๋ณต, 3์ด ์งํ์ , 0.5์ด ๊ณํ ๊ฐ๊ฒฉ.
์คํ
๋ณต์ (Reconstruction)
| ๋ฒค์น๋งํฌ | ์งํ | ๊ฒฐ๊ณผ |
|---|---|---|
| DexYCB (160 ์์) | F-5 | 0.71 (SOTA) |
| HOI4D (12 ์์) | F-5 | 0.72 (SOTA) |
| In-the-wild (150 ์์) | ์ธ๊ฐ ์ ํธ | FoundationPose ๋๋น 67% ์ ํธ |
๋ฒ ์ด์ค๋ผ์ธ์ HOยทIHOIยทHORSEยทMCC-HOยทG-HOP(joint ๋ณต์) ๋ฐ FoundationPoseยทAny6D(๋ฌผ์ฒด ํธ๋์ปค)์ ๋๋ค. Do as I Do๋ ์-๋ฌผ์ฒด ์ํธ์์ฉ ์ถ์ ๊ณผ ๊ถค์ ์ถ์ถ ๋ชจ๋์์ ์ด๋ค์ ๋ฅ๊ฐํฉ๋๋ค.
๋ฆฌํ๊ฒํ (Retargeting)
์ฑ๊ณต ๊ธฐ์ค์ E_{pos} < 0.1\text{m}, E_{rot} < 0.5\text{rad} ์ ๋๋ค. SPIDER์ ์ธ ์์๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ๋ฉฐ ๋น๊ตํฉ๋๋ค.
| ๋ฐ์ดํฐ | ๋ฒ ์ด์ค๋ผ์ธ(SPIDER) | Do as I Do |
|---|---|---|
| ๋ณต์ ๋ฐ์ดํฐ (655 reference) | 25% | 71% |
| OakInk2 (1,352 clean mocap) | โ | 81% |
๋ณต์ ๋ฐ์ดํฐ์์ 25% โ 71% ์ ํฐ ๋์ฝ์, warmupยท๋๋ค ํยท์ ์ด ๋ณด์์ด ๋ ธ์ด์ฆ ๋ ์ค์ ๋ณต์ ๊ถค์ ์์ ํนํ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค. ๊นจ๋ํ mocap(OakInk2)์์๋ 81%๋ก ๋ ๋์, ๋ณต์ ๋ ธ์ด์ฆ๊ฐ ๋จ์ ๊ฒฉ์ฐจ์ ์ฃผ์์ธ์์ ์์ฌํฉ๋๋ค.
์ค์ธ๊ณ ๋ฐฐํฌ
์ํ UR3e + Sharpa Wave 22-DoF ์ ์ผ๋ก, 10๊ฐ ์์ ์ ๊ฑธ์ณ 500๊ฐ ๊ฒ์ฆ ๊ถค์ ์ ์ค์ ์คํํ์ต๋๋ค. ์ผ์ RGB ์์์์ ์ถ์ถํ ๋ฐ์ดํฐ๊ฐ ์ค๋ก๋ด์์ ์๋ํจ์ ์ ์ฆํฉ๋๋ค.
๋ฐ์ดํฐ ํํฐ๋ง ๋ถ์
์ธํฐ๋ท ์์์ ํ์ง ํธ์ฐจ๊ฐ ํฝ๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ 100DOH ์ํ ํด๋ฆฝ์ ๋จ 4%๋ง ํ์ง ๊ฒ์ฌ๋ฅผ ํต๊ณผํด, ์ธํฐ๋ท ์์ค๋ฅผ ์ธ ๋ ์๋นํ ์ ์ฒ๋ฆฌ ๋น์ฉ ์ด ๋ ๋ค๋ ์ ์ ์ ๋์ ์ผ๋ก ๋๋ฌ๋ ๋๋ค โ ์ค๋ฌด์์๊ฒ ๋ฐ์ดํฐ ์์ง ๊ฐ์ด๋๋ผ์ธ์ ์ ๊ณตํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ์ ๋ฉด ๊ณต๋ต. ํน์ ์ฅ๋น ์๋ ์ผ์ RGB ์์์์ ๋ก๋ด-์๊ฒฐ ๊ถค์ ์ ๋ฝ์, ๋ฅ์ ์กฐ์์ ๊ฐ์ฅ ํฐ ๋น์ฉ(๋ฐ์ดํฐ ์์ง)์ ์ค์ง์ ์ผ๋ก ๋ฎ์ถฅ๋๋ค. ์ธํฐ๋ทยทegoยท์์ฑ ์์๊น์ง ๋ค์ํ ์์ค๋ฅผ ๋ค๋ฃฌ ์ ์ด ํ์ฅ์ฑ ์ธก๋ฉด์์ ์ธ์์ ์ ๋๋ค.
- SAM 3D์ ์๋ฆฌํ ์ฌํ์ฉ. ๋จ์ผ ํ๋ ์ ์์ฑ ๋ชจ๋ธ์ guided diffusion ํธ๋์ปค๋ก ๋ฐ๊ฟ ์๊ฐ ์ผ๊ด์ฑ์ ํ๋ณดํ๊ณ , SE(3) ํด๋ฌ์คํฐ๋ง์ผ๋ก 30๋ฐฐ ๊ฐ์ํ ์์ง๋์ด๋ง์ด ํต์ฌ ๊ธฐ์ฌ์ ๋๋ค. ๊ฐ์ด๋ ๊ฐ๋๋ฅผ ํ์ ์๋๋ก ์ ์์ํจ ๋ํ ์ผ๋ ์ค์ฉ์ ์ ๋๋ค.
- ์ธ ๋ณด์ ์์์ ๋ถ๋ฆฌ๋ ํจ๊ณผ. warmupยท๋๋ค ํยท์ ์ด ๋ณด์์ ์ ์ง ์ถ๊ฐํ๋ฉฐ 25%โ71%์ ๊ฐ์ ์ ๋ถ๋ฆฌ ๊ฒ์ฆํด, ๊ฐ ์์๊ฐ ์ด๋ค ์คํจ ๋ชจ๋๋ฅผ ์ก๋์ง ๋ช ํํ ํ์ต๋๋ค.
- ์ค์ธ๊ณ ๊ฒ์ฆ + ์ ์งํ ๋น์ฉ ๋ณด๊ณ . 10๊ฐ ์์ 500๊ถค์ ์คํ์ ๋ํด, ์ธํฐ๋ท ์์์ 4% ์์กด์จ์ ๊ณต๊ฐํด ๋ฐฉ๋ฒ์ ํ๊ณ์ ์ ์ฒ๋ฆฌ ๋ถ๋ด์ ํฌ๋ช ํ๊ฒ ๋๋ฌ๋์ต๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ๋ณต์ ๋ ธ์ด์ฆ๊ฐ ์ํ์ ๊ฒฐ์ . ๋ณต์ ๋ฐ์ดํฐ 71% vs ๊นจ๋ํ mocap 81%์ ๊ฒฉ์ฐจ๋, ์ต์ข ํ์ง์ด ์ฌ์ ํ ๋จ์ ๋ณต์ ์ ํ๋์ ๋ฌถ์ฌ ์์ ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ค์ด ๊ฐ๋ฆผ(occlusion)ยท๋น ๋ฅธ ๋์ ์์์์์ ๊ฒฌ๊ณ ์ฑ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค(์ถ์ธก).
- ๊ทน์ฌํ ๋ฐ์ดํฐ ํํฐ๋ง. 100DOH ํด๋ฆฝ์ 4%๋ง ํต๊ณผํ๋ค๋ ๊ฒ์, โ๋ฌดํํ ์ธํฐ๋ท ์์โ์ด๋ผ๋ ์ ์ ๊ฐ ์ค์ ๋ก๋ ์์์ ๊ณ ํ์ง ํด๋ฆฝ ์ผ๋ก ์ถ์๋จ์ ๋ปํฉ๋๋ค. ์๋ ํํฐ๋ง์ ์ ๋ฐ๋/์ฌํ์จ์ ๋ ๋ค๋ค์ง ์ฌ์ง๊ฐ ์์ต๋๋ค.
- ๋จ์ผ ๋ฌผ์ฒด ๊ฐ์ฒด ๊ฐ์ ์ ๊ฐ๊น์. ํ์์ ์ต์ปค ํ๋ ์์ ๊ณ ์ ํ๋ ์ถ์ ์ ๊ฐ์ฒดยท๋น๋ณํ ๋ฌผ์ฒด์ ์ ํฉํ๋ฉฐ, ๋ณํ์ฒดยท๋ค๋ฌผ์ฒดยท๊ด์ ๋ฌผ์ฒด๋ก์ ์ผ๋ฐํ๋ ์ ํ์ ์ผ ์ ์์ต๋๋ค(์ถ์ธก).
- ๊ณ์ฐ ๋น์ฉ. ํ๋ ์๋น 25 ํฌ์ฆ ํ๋ณด + 1024 ์ํยท32 ๋ฐ๋ณต์ MPPI๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ์ ์๋นํ ์ฐ์ฐ์ ์๊ตฌํฉ๋๋ค. ์ค์ผ์ผ๋ง ์ ๋น์ฉ-ํ์ง ํธ๋ ์ด๋์คํ์ ์ ๋ ๋ถ์์ ์ ํ์ ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
Do as I Do๋ ๋ฅ์ ์กฐ์์ ๋ฐ์ดํฐ ๋ณ๋ชฉ ์, ํน์ ์ฅ๋น ์๋ ์ผ์์ ๋จ์ RGB ์์ ์์ ๋ก๋ด-์๊ฒฐ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฝ์๋ด๋ ๋ฐฉ์์ผ๋ก ๊ณต๋ตํฉ๋๋ค. ๋ณต์ ๋จ๊ณ๋ HaWoR ์ ์ถ์ ๊ณผ SAM 3D๋ฅผ ์ฌํ์ฉํ guided diffusion ๋น๋์ค ํธ๋์ปค(flow matching + ์ ์ํ ๊ฐ์ด๋ + 30๋ฐฐ ๋น ๋ฅธ SE(3) ํด๋ฌ์คํฐ ์ ํ)๋ก ์๊ฐ ์ผ๊ด๋ ์-๋ฌผ์ฒด 4D๋ฅผ ๋ง๋ค๊ณ , ๋ฆฌํ๊ฒํ ๋จ๊ณ๋ SPIDER ๊ธฐ๋ฐ์ warmupยท๋๋ค ํ ์ญ๋ยท์ ์ด ๋ณด์ ์ ๋ํ ๋์ญํ ์ธ์ง ์ต์ ํ๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋ก๋ด ๊ถค์ ์ ๋ง๋ญ๋๋ค.
ํต์ฌ ์์น๋ก ์ ๋ฆฌํ๋ฉด, ๋ณต์์ DexYCBยทHOI4D์์ F-5 0.71/0.72 SOTA, in-the-wild ์ธ๊ฐ ์ ํธ 67% ๋ฅผ ๋ฌ์ฑํ๊ณ , ๋ฆฌํ๊ฒํ ์ ๋ณต์ ๋ฐ์ดํฐ์์ 25% โ 71%, ๊นจ๋ํ OakInk2์์ 81% ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ํ UR3e + Sharpa Wave 22-DoF ์์ผ๋ก 10๊ฐ ์์ 500๊ถค์ ์ ์ค์ธ๊ณ์์ ์คํํ์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โํ๋ฒํ ์ธ๊ฐ ์์์, ๋ค์ง ๋ก๋ด์ด ์ค์ ๋ก ์คํ ๊ฐ๋ฅํ ์กฐ์ ๋ฐ์ดํฐ๋ก ๋ณํํ๋ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธโ ์ ์ ์ํ ๋ฐ ์์ต๋๋ค. ๋ณต์ ๋ ธ์ด์ฆ ์์กด์ฑ๊ณผ ๊ทน์ฌํ ๋ฐ์ดํฐ ํํฐ๋ง(4% ์์กด์จ)์ด๋ผ๋ ํ๊ณ๋ ๋ถ๋ช ํ์ง๋ง, ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ 4D ๋ณต์ + ๋์ญํ ์ธ์ง ๋ฆฌํ๊ฒํ ์ด๋ผ๋ ํ์ ํฅํ ์ธ๊ฐ ์์ ๊ธฐ๋ฐ ๋ฅ์ ์กฐ์ ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ๋ ฅํ ํ์ค์ ์ด ๋ ๊ฒ์ ๋๋ค.