๐CHORD ๋ฆฌ๋ทฐ
Code ยท arXiv: Coming Soon (2026-06 ๊ธฐ์ค ๋ฏธ๊ณต๊ฐ)
Xinghao Zhu*, Zixi Liu*, Shalin Jain*, Chenran Liโ , Milad Nooriโ , Huihua Zhao, John Welsh, Michael Andres Lin, Wei Liu, Tingwu Wang, Xingye Da, Zhengyi Luo, Vishal Kulkarni, Naema Bhatti, Yuke Zhu, Linxi Fan, Bowen Wen, Danfei Xu, Soha Pouya, Yan Changโก
NVIDIA (Isaac ยท video_to_data) โ *equal, โ core, โกproject leadยทcorresponding
Preprint, 2026
- ๐ก ์ฌ๋ ์์ฐ์ ์์ฌ์ฃผ(dexterous) ๋ก๋ด ์ ์ฑ ์ผ๋ก ์ฎ๊ธธ ๋, ์ ๋ชจ์ยท์ ์ด ์์น๋ฅผ ๊ทธ๋๋ก ๋ฒ ๋ผ๋ ๋์ ์ ์ด์ด ๋ฌผ์ฒด์ ๊ฐํ ์ ์๋ ํยทํ ํฌ(contact wrench) ๋ฅผ ๋ง์ถ๊ฒ ํ๋ฉด ํํ๊ฐ ๋ค๋ฅธ ๋ก๋ด๋ ๊ฐ์ โ๋ฌผ์ฒด ์ด๋ ํจ๊ณผโ๋ฅผ ์ฌํํ ์ ์๋ค.
- โ๏ธ ์ฌ๋ ์์ฐ์์ ์ ์ด์ ยท๋ง์ฐฐ์ฝ โ ์ ์ด ๋ ์น ํ๋ ฌ โ support function์ ๋ฝ์, ๋ก๋ด์ ๋ ์น๊ฐ ์ฌ๋ ๋ ์น๋ฅผ ์ฌํํ๋๋ก ํ๋ contact wrench-space reward ๋ฅผ RL(taskยทimitation reward + VOC)์ ๋ํ๋ค.
- ๐ฏ 4,739๊ฐ bimanual ํ์คํฌ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๊ณ , ๊ทธ์ค 1,831๊ฐ์์ ํ๊ท ์ฑ๊ณต๋ฅ 82.12%, whole-body loco-manipulation์์ 90.77%, ์ค์ธ๊ณ open/closed-loop ์ ์ด๊น์ง ๋ณด์๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์์ฌ์ฃผ ์กฐ์์ ์ฌ๋ ์์ฐ์ผ๋ก ๊ฐ๋ฅด์น ๋ ๊ฐ์ฅ ํํ ํจ์ ์ โ์ฌ๋ ์๋์์ ๊ทธ๋๋ก ๋ฐ๋ผ ํ๊ฒ ํ๋ ๊ฒโ์ด๋ค. ์ฌ๋ ์๊ณผ ๋ก๋ด ์์ ํํยท์ด๋ํยท์ ์ด ๊ธฐํ๊ฐ ๋ค๋ฅด๋ฏ๋ก, ๊ฐ์ ๋ฌผ์ฒด ํจ๊ณผ๋ฅผ ๋ด๋ ค๋ฉด ๋ค๋ฅธ ์ ์ด์ ์จ์ผ ํ๋ค. CHORD์ ํต์ฌ ํต์ฐฐ์ ์ ์ด(contact)์ด ์ฌ๋ ์์ฐ๊ณผ ๋ก๋ด ํ๋์ ์๋ ์์ฐ์ค๋ฌ์ด ๋ค๋ฆฌ ๋ผ๋ ๊ฒ์ด๋ค. ๋จ, 3D ์ ์ด ์์น ๋ฅผ ๋ง์ถ๋ ๊ฒ์ผ๋ก๋ ๋ถ์กฑํ๋ค โ ๊ฐ์ ํ๋ฉด์ ๋ง์ ธ๋ ์ ์ด ๋ฒ์ ยทํ ๋ฐฉํฅ์ ๋ฐ๋ผ ๋ฌผ์ฒด์ ์๊ธฐ๋ ์ด๋์ด ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ CHORD๋ ์ ์ด์ object-centric wrench space(์ ์ด์ด ๋ฌผ์ฒด์ ๊ฐํ ์ ์๋ forceโtorque ๋ฐฉํฅ์ ๊ณต๊ฐ)์์ ํํํ๊ณ , ์ฌ๋๊ณผ ๋ก๋ด์ ์ ์ด์ โ์ด๋ค ๋ฌผ์ฒด ์ด๋์ ์ ๋ฐํ ์ ์๋๊ฐโ๋ก ๋น๊ตํ๋ค. ์ ์ด ์์นยท๊ฐ์ยท์ ๋ชจ์์ด ๋ฌ๋ผ๋ wrench space์์๋ ๋น๊ต๊ฐ ๋๋ค.

CHORD ๊ฐ์(Fig. 1) โ (a) ์ฌ๋ ์์ฐ์ hand-object ๊ถค์ ์ ์ ๋ ฅ์ผ๋ก (b) ์๋ฎฌ๋ ์ด์ ์์ ๋ก๋ด ์ ์ฑ ์ ํ์ตํด (c) ์ค๋ก๋ด์ผ๋ก ์ ์ดํ๋ค. (d) articulated, (e) rigid ๋ฌผ์ฒด ์กฐ์๊ณผ (f, g) whole-body ์๋ฒ ๋๋จผํธ๋ก ์ผ๋ฐํ. ๋ฐฐ๊ฒฝ์ 4,739๊ฐ bimanual ํ์คํฌ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
๊ฐ ์์ ยท๊ฐ์ฒด ๋ถ๋ถ k์ ๋ํด ์ฌ๋ ์์ฐ์์ ์ ์ด์ p^{h,k}_i์ ๋ฒ์ n^{h,k}_i๋ฅผ ๋ฝ๋๋ค. ์ ์ด i์์ ๊ฐ๋ฅํ ์ ์ด๋ ฅ f๊ฐ ๋ง๋๋ primitive wrench ๋ force์ ๊ทธ ๋ชจ๋ฉํธ๋ฅผ ์์ 6D ๋ฒกํฐ๋ค:
w^{i,j}_{h,k} = \left[\, f^{j}_{h,k},\; p^{i}_{h,k}\times f^{j}_{h,k} \,\right]^{\top}\in\mathbb{R}^6 .
Coulomb ๋ง์ฐฐ์ฝ์ d๊ฐ์ ๋ชจ์๋ฆฌ ํ์ผ๋ก ๊ทผ์ฌํด ๋ชจ๋ primitive wrench๋ฅผ ๋ชจ์ผ๋ฉด wrench matrix \mathcal{W}_{h,k}\in\mathbb{R}^{6\times(c_{h,k}d)} ๊ฐ ๋๋ค โ ์ด ํ๋ ฌ์ด โ์ฌ๋ ์ ์ด์ด ๋ฌผ์ฒด์ ๊ฐํ ์ ์๋ forceโtorque ๋ฐฉํฅโ ์ ์ฒด๋ฅผ ๋ด๋๋ค. ๋ wrench matrix๋ ์ด ๊ฐ์ยท์์๊ฐ ๋ฌ๋ผ ์ง์ ๋น๊ต๊ฐ ์ด๋ ต๋ค. ๊ทธ๋์ ๋ฏธ๋ฆฌ ๋ฝ์ b๊ฐ์ ๋จ์ ๋ฐฉํฅ \mathcal{B}\in\mathbb{R}^{6\times b}์ ๋ํ support function ์ผ๋ก ๊ธฐํ๋ฅผ ์์ฝํ๋ค:
\sigma_{h,k} = \max_{\mathrm{col}}\big(\mathcal{B}^{\top}\mathcal{W}_{h,k}\big)\in\mathbb{R}^{b}.
๋ก๋ด support \sigma_{r,k}๋ฅผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๊ตฌํด, ์๋ ํ์ฉ์ค์ฐจ \beta ์์์ ์ฌ๋ reference์ ๋น๊ตํ๋ ๊ฒ์ด contact wrench-space(CWS) reward ๋ค:
r^{k}_{\mathrm{cws}} = \exp\!\left(-\frac{\lVert\max(0,(1-\beta)\sigma_{h,k}-\sigma_{r,k})\rVert_2^2}{v_{\mathrm{cws}}} - \frac{\lVert\max(0,\sigma_{r,k}-(1+\beta)\sigma_{h,k})\rVert_2^2}{v_{\mathrm{cws}}}\right).
์ ํญ์ ๋ก๋ด support๊ฐ ํํ๋ณด๋ค ์์ผ๋ฉด, ๋ค ํญ์ ์ํ์ ๋์ผ๋ฉด ๋ฒ์ ์ ์ค๋ค. ์ถ๊ฐ๋ก ์ฌ๋ ์ ์ด์ด ์๋๋ฐ(\sigma_{h,k}=0) ๋ก๋ด์ด ์ ์ดํ๋ฉด(r_{\mathrm{unintend}}), ์ฌ๋ ์ ์ด์ด ์๋๋ฐ ๋ก๋ด์ด ๋์น๋ฉด(r_{\mathrm{miss}}) ๋ฐ๋ก ํ๋ํฐ๋ฅผ ์ค๋ค. ์ ์ฒด ๋ณด์์ r = r_{\mathrm{task}} + r_{\mathrm{imit}} + r_{\mathrm{contact}}์ด๋ฉฐ, ์ฌ๊ธฐ์ DexMachina์ virtual object controller(VOC) ๋ฅผ ์ปค๋ฆฌํ๋ผ์ผ๋ก annealingํด ํ์์ ๋๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ: (PDF์์ ํ์ธํ ์์น๋ง)
- ๋จ์ผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๋ฒค์น๋งํฌ 1,831๊ฐ ํ์คํฌ ํ๊ท ์ฑ๊ณต๋ฅ 82.12% โ ์ ์ ์ฃผ์ฅ์ ์ด ๊ท๋ชจ๋ก ํ๊ฐ๋ ์ฒซ RL ๊ธฐ๋ฐ ์์ฌ์ฃผ ์กฐ์.
- baseline์ ์๋ ํ์คํฌ ์ค์ํธยท์งํ๋ก ๋น๊ต ์(Table 1) DexMachina ์ค์ํธ AUC 0.232โ0.687, ManipTrans SR 0.428โ0.639; ์์ฒด ์ค์ํธ์์๋ Ours-1 AUC 0.211โ0.895, Ours-2 SP-SR 0.533โ0.982 ๋ฑ baseline์ ๋งค์นญยท์ํ.
- reward ํํ ablation(Table 2): box grab SR 0.702(CHORD) vs 0.334(Position Only) vs 0.384(No Contact), mixer use 0.894 vs 0.624 vs 0.423.
- CWS reward์ ํ์คํฌ ์ฑ๊ณต์ ์๊ด: Pearson r\approx0.80(๋ฐ์ดํฐ์ ๋ณ 0.76โ0.89), ๋จ์กฐยทํฌํ ๊ด๊ณ.
- whole-body loco-manipulation 90.77%, ๋ค๋ฅธ ์ ํํ(G1 + Dex3 3์ง)๋ก์ cross-embodiment ์ ์ด์์ position reward(0.217)๋ฅผ ํฌ๊ฒ ์ํ(0.925, Table 3).
- Dexmate + Sharpa ๋ ์ ์ค๋ก๋ด์์ open-loopยทclosed-loop ์ ์ด ์ฑ๊ณต(Fig. 9).
๊ฒฐ๋ก : CHORD๋ โ์ ์ด ์์นโ๊ฐ ์๋๋ผ โ์ ์ด์ด ๋ง๋๋ ๋ฌผ์ฒด ์ด๋(wrench)โ์ ๋ง์ถ๋ ๋ณด์์ผ๋ก, ์ฌ๋ ์์ฐ โ ์์ฌ์ฃผ RL ์ ์ฑ ์ ์ด๋ฅผ ์๋ฒ ๋๋จผํธยท์ ์ด ํํ์ ๋ฌด๊ดํ๊ฒ ํ์ฅ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค. ๋๊ท๋ชจ ๋ฒค์น๋งํฌ์ ์ผ๊ด๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๊ฐ๋ก ํ์ฅ์ฑ์ ์ค์ฆํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
โ๊ฐ์ ๊ณณ์ ๋ง์ง๋ผโ๊ฐ ์๋๋ผ โ๊ฐ์ ๋ฌผ์ฒด ์ด๋์ ๋ง๋ค ์ ์๊ฒ ๋ง์ง๋ผโ โ ์ ์ด์ wrench space์์ ๋น๊ตํ๋ ๋ณด์ ํ๋๋ก ์ฌ๋ ์์ฐ์ ํํ๊ฐ ๋ค๋ฅธ ์์ฌ์ฃผ ๋ก๋ด์ ์ฎ๊ธฐ๊ณ , ๊ทธ ํจ๊ณผ๋ฅผ 4,739๊ฐ ํ์คํฌ ๊ท๋ชจ๋ก ๊ฒ์ฆํ ์ฐ๊ตฌ๋ค.
๋ฐฐ๊ฒฝ: ์ ์ฌ๋ ์์ฐ ์ ์ด๊ฐ ์ด๋ ค์ด๊ฐ
์์ฌ์ฃผ ์กฐ์์ ์ฌ๋ ์์ฐ์ด ํ๋ถํ๋ค๋ ์ด์ ์ด ์์ง๋ง, ๊ทธ ์์ฐ์ ๋ก๋ด ์ ์ฑ ์ผ๋ก ์ฎ๊ธฐ๋ ์ผ์ ์ฌ์ ํ ์ด๋ ต๋ค. CHORD๋ ๋ ๊ฐ๋์ ๊ธฐ์กด ์ ๊ทผ์ด ๋ชจ๋ ํ๊ณ๊ฐ ์๋ค๊ณ ๋ณธ๋ค. โ ์ต์ ํ์ ์์ฐ์ ์ฐ๋ ๋ฐฉ๋ฒ ์ โ์์ฐ์ ์ด๋ป๊ฒ ์ ์ดํ ์งโ์ ๋ํ brittleํ ๊ฐ์ ์ ์์กดํ๊ณ , โก ํํ ํ์ต(representation learning) ๋ฐฉ๋ฒ ์ ํ์คํฌยท๋ฌผ์ฒด๋ง๋ค ์ ๋ ฌ๋ human-robot ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํด curated ์ธํ ๋ฐ์ผ๋ก ํ์ฅํ๊ธฐ ์ด๋ ต๋ค. ๊ทผ๋ณธ ๋์ ์ ํํยท์ด๋ํยท์ ๊ธฐํ์ ์ฐจ์ด ๋๋ฌธ์ ๋ก๋ด์ด ์ฌ๋ ์๋์์ ๊ทธ๋๋ก replay ํด์๋ ๊ฐ์ ์กฐ์์ ์ฌํํ ์ ์๋ค ๋ ๋ฐ ์๋ค.
์ ์ด ๊ฐ์ด๋๋ฅผ ์ฐ๋ ์ต๊ทผ RL ์ฐ๊ตฌ๋ค๋ ํ๊ณ๊ฐ ์๋ค. ManipTrans๋ ์์ฐ๋ hand-object ์ํธ์์ฉ ๊ทผ์ฒ์ ์ ์ด๋ ฅ ์ ๋ณด์์ ์ฃผ๊ณ , DexMachinaยทSPIDER๋ ์์ฐ๋ ์ ์ด ์์น ์ VOC ๊ฐ์ ์ปค๋ฆฌํ๋ผ์ ํจ๊ป ์ด๋ค. VOC๋ ์ด๊ธฐ ํ์ต ๋์ ๋ณด์กฐ wrench๋ก ๋ฌผ์ฒด๋ฅผ reference ๊ถค์ ์ ๋ฐ๋ผ ์์ง์ฌ, ์ ์ฑ ์ด ์ ํํ ์ ์ด ํ์ด๋ฐยทํ์ ์ฆ์ ์ฐพ์ง ์์๋ ๋๊ฒ ํด ํ์์ ๋งค๋๋ฝ๊ฒ ํ๋ค. ๊ทธ๋ฌ๋ ์์น ๊ธฐ๋ฐ ์ ์ด ๋ณด์์ ์ ์ด ์์น๋ง์ผ๋ก๋ ์ ์ด์ ํจ๊ณผ๊ฐ ์ ํด์ง์ง ์๋๋ค ๋ ๋ณธ์ง์ ์ฝ์ ์ ์๋๋ค โ ๊ฐ์ ๋ฌผ์ฒด ์์ญ๋ ์ ์ด ๋ฒ์ ยทํ ๋ฐฉํฅ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ฌผ์ฒด ์ด๋์ ๋ธ๋ค(์ ์๋ค์ box-opening ์์: ์์น๋ ์ฌ๋๊ณผ ๊ฐ๊น์ง๋ง ์ ์ด ๋ฒ์ ์ด ๊ฑฐ์ ์์ง์ผ๋ก ์ด๊ธ๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก mismatch). ํํธ ๊ธฐ์กด grasp ์ชฝ์ wrench ๋ณด์์ ์ ์ ์์ ์ฑ(force closure) ๋ง ์ต์ ํํด grasp์ ์ข์ง๋ง ์ผ๋ฐ ์กฐ์์ ๋๋ฌด ๊ฒฝ์ง๋ผ ์๋ค. CHORD๋ wrench space๋ฅผ ์ฌ๋ ์์ฐ๊ณผ ๋ก๋ด ์คํ์ โ์ ๋ฐ ์ด๋โ์ผ๋ก ๋น๊ตํ๋ ์ฒ๋ ๋ก ์ฒ์ ์ด๋ค๊ณ ์ฃผ์ฅํ๋ฉฐ, ์ด๋ pushingยทleveringยทsliding ๊ฐ์ ๋น-force-closure ๊ตฌ๊ฐ๊ณผ articulated ๋ฌผ์ฒด๊น์ง ํฌ๊ดํ๋ค.
๋ฐฉ๋ฒ ์์ธ
๋ฌธ์ ์ค์ . K๊ฐ ๊ฐ์ฒด ๋ถ๋ถ์ ๊ฐ์ง ๋ฌผ์ฒด(๋ถ๋ฆฌ ๊ฐ์ฒด ๋๋ articulated)๋ฅผ ๋ค๋ฃฌ๋ค. ์์ฐ \tau^{\mathrm{ref}}=\{x^{\mathrm{human}}_t, x^{\mathrm{object}}_t\}_{t=1}^{H}๋ 3D ์ keypoint์ ๋ถ๋ถ๋ณ SE(3) pose๋ฅผ ์ค๋ค. ๋จผ์ keypoint์์ IK๋ก ๋ก๋ด ๊ตฌ์ฑ x^{\mathrm{robot}}_t๋ก retargetํ ๋ค, ์ ์ฑ \pi(a_t\mid o^{\mathrm{robot}}_t, o^{\mathrm{object}}_t; x^{\mathrm{robot}}_t, x^{\mathrm{object}}_t)์ด rollout์ ๋ฌผ์ฒด pose๊ฐ reference๋ฅผ ์ถ์ข ํ๋๋ก ํ๋์ ๋ธ๋ค.
๋ณด์ 3์ข + VOC. r=r_{\mathrm{task}}+r_{\mathrm{imit}}+r_{\mathrm{contact}}.
- r_{\mathrm{task}}: ๋ถ๋ถ๋ณ pose ์ถ์ข \exp(-\sum_k \lVert x^{\mathrm{object},k}_t\ominus s^{\mathrm{object},k}_t\rVert_2^2/\mathrm{var})์ ๋ํด, insertionยทpouringยทscoopingยทtool use ์ฒ๋ผ ๋ฌผ์ฒด-๋ฌผ์ฒด ๊ธฐํ๊ฐ ์ค์ํ ๊ตฌ๊ฐ์์๋ง ์ผ์ง๋ ์๋ ๋ณด์ r_{\mathrm{relative}}=m(t)\exp(-e_{\mathrm{object}}/\mathrm{var}_{\mathrm{rel}})๋ฅผ ๋๋ค.
- r_{\mathrm{imit}}: retarget๋ ์ฌ๋ ๋ชจ์ ์ชฝ์ผ๋ก์ ์ ๊ทํ \exp(-\lVert x^{\mathrm{robot}}_t-s^{\mathrm{robot}}_t\rVert_2^2/\mathrm{var}_{\mathrm{imit}}).
- r_{\mathrm{contact}}: ์ Ping์ CWS reward r^k_{\mathrm{cws}} + unintended/missed ์ ์ด ํ๋ํฐ.

CHORD ๋ณด์ ๊ตฌ์ฑ(Fig. 2, mixer-closing ํ์คํฌ) โ ์ผ์ชฝ: ์ฌ๋ ์์ฐ์์ ์ถ์ถํ ์ ์ด wrench reference(์๋์ ์ ์ด ์์นยท๋ง์ฐฐ์ฝ์ ๋นจ๊ฐ). ๊ฐ์ด๋ฐ: ์๊ฐ์ ๋ฐ๋ฅธ per-hand ์ ์ด wrench๋ฅผ force manifold๋ก ์๊ฐํ, ๋นจ๊ฐ=์ฌ๋, ํ๋=CHORD ์ ์ฑ ์ด ๋ง๋ ์ ์ด wrench. ์=์ฌ๋ ์์ฐ, ์๋=ํ์ต๋ ๋ก๋ด ์ ์ฑ .
์ support function์ธ๊ฐ(์ง๊ด). wrench matrix \mathcal{W}๋ ์ ์ด๋ค์ด ๋ฌผ์ฒด์ ๊ฐํ ์ ์๋ 6D forceโtorque์ โ๊ตฌ๋ฆโ์ด๋ค. ๋ ๊ตฌ๋ฆ์ ์ง์ ๋น๊ตํ๋ ค๋ฉด ์ด์ ๊ฐ์ยท์์๊ฐ ๋ง์์ผ ํ๋๋ฐ, ์ฌ๋๊ณผ ๋ก๋ด์ ์ ์ด ๊ฐ์ยท์์๊ฐ ๋ค๋ฅด๋ค. support function \sigma=\max_{\mathrm{col}}(\mathcal{B}^{\top}\mathcal{W})๋ ๋ฏธ๋ฆฌ ์ ํ b๊ฐ ๋ฐฉํฅ๋ง๋ค โ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ผ๋ง๋ ๋ฉ๋ฆฌ ๋ฐ ์ ์๋๊ฐโ๋ฅผ ์ฌ โ ์ฆ wrench ๋คํฌ์ฒด(polytope)์ ์ง์ง ํญ ์ ๋ฐฉํฅ๋ณ๋ก ์์ฝํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ ์ด์ ๊ฐ์ยท์์ยท์์น๊ฐ ๋ฌ๋ผ๋ โ๋ฌผ์ฒด์ ์ด๋ค ์ด๋์ ์ ๋ฐํ ๋ฅ๋ ฅ์ด ์๋๊ฐโ๋ผ๋ ์๋ฒ ๋๋จผํธ-๋ถ๋ณ ์ฒ๋ ๋ก ํ์๋๋ค. CWS reward๋ ๋ก๋ด์ ์ง์ง ํญ์ด ์ฌ๋์ [(1-\beta)\sigma_h,\,(1+\beta)\sigma_h] ๋ฐด๋ ์์ ๋ค๋ฉด ๋ณด์ํ๋ ๊ตฌ์กฐ๋ผ, ๋๋ฌด ์ฝํ(๋ชป ๋ฏธ๋) ์ ์ด๊ณผ ๋๋ฌด ๊ณผํ(๊ณผ๋ํ๊ฒ ๋ฏธ๋) ์ ์ด์ ๋ชจ๋ ์ต์ ํ๋ค.
ํจ์จยท๊ฐ๊ฑดยท์ผ๋ฐํ ์ฅ์น(3.2). โ reference ๊ถค์ ์ ์์ ์ํ๋ก simulator๋ฅผ resetํ๋ VOC๋ฅผ ์งง์ stabilization window ๋์ ์์ ํ์ฑํํด ์ ์ด ํ๋ณต ํ ๋ณด์กฐ๋ฅผ annealing, โก ๋ฌผ์ฒด ๋ถ๋ถ์ \mathcal{W}_{h,k}์์ ์ํํ wrench๋ก ํ์คํฌ-๊ด๋ จ ๊ต๋ ์ ๊ฐํด ๊ฐ๊ฑดํ, โข retarget ๋ชจ์ ์ prior๋ก ํ residual action space(ManipTrans์) + VOC ์ปค๋ฆฌํ๋ผ(DexMachina์).
๋ ธ์ด์ฆ ๋์ โ reduced force-closure objective. RGB ๋น๋์ค ์ฌ๊ตฌ์ฑ์ฒ๋ผ hand-object ์ ํฉ์ด noisyํด ์ ์ด ์ถ์ ์ด ๋ถ์์ ํ๋ฉด, ์ฌ๋ wrench๋ฅผ ์ง์ ๋ง์ถ๋ ๋์ ๊ฐ basis ๋ฐฉํฅ์ผ๋ก ์์ ์ง์ง ๋ฅผ ๋ด๊ฒ ํ๋ ์ํ๋ ๋ชฉํ๋ก ์ ํํ๋ค:
r^{k}_{\mathrm{fc}} = \frac{1}{B}\sum_{b=1}^{B}\mathbb{1}[\sigma_{r,k,b} > \epsilon].
์ด๋ฅผ ์ต๋ํํ๋ฉด force closure์ ๋์น๊ฐ ๋๋ค. Whole-body ํ์ฅ ๋ ๊ฐ์ ๊ณจ๊ฒฉ์ด๋ค โ hand-only reference(egocentric ์ฌ๊ตฌ์ฑ)๋ inpainting ๋ชจ๋๋ก ์ ์ ๋ชจ์ ์ ์ฑ์ด ๋ค CWS reward๋ฅผ, whole-body reference(third-person ์ฌ๊ตฌ์ฑ)๋ ์๊ฐ๋ฝ ์ฌ๊ตฌ์ฑ์ด ๋ถ์ ํํ๋ฏ๋ก reduced r^k_{\mathrm{fc}}๋ฅผ ์ด๋ค.
๋ฒค์น๋งํฌ(3.3). mocap ๋ฐ์ดํฐ์ (ARCTICยทOakInk2ยทHOT3DยทTACO ๋ฑ)๊ณผ in-house ๋น๋์ค ์ฌ๊ตฌ์ฑ์ Isaac Lab์ผ๋ก ๊ฐ์ ธ์ 4,739๊ฐ simulatableยทtrainable ํ์คํฌ๋ก ๋ณํํ๋ค. single/multi rigid + articulated bimanual ์กฐ์์ ํฌ๊ดํ๋ค. ๊ธฐ์กด์ ๋๋น ์๊ฐ horizonยทํ์คํฌ๋น ์ ์ด ์ด๋ฒคํธ ์ยทgrasp ์์ ์ฑ(Ferrari-Canny epsilon) ์ธ ์งํ์์ ๋ ๊ธธ๊ณ ๋ denseํ๋ค.

๋ฒค์น๋งํฌ ๋ถํฌ(Fig. 3) โ ์๊ฐ horizon, ํ์คํฌ๋น ์ ์ด ์ด๋ฒคํธ ์, Ferrari-Canny epsilon ๋ถํฌ. CHORD(์ฃผํฉ)๊ฐ DexMachinaยทManipTransยทSPIDER๋ณด๋ค ๋ ๋ง์ ํ์คํฌยท๋ ๊ธด horizonยท๋ denseํ ์ ์ด์ ํฌํจ.
์คํ
๋๊ท๋ชจ ํ๊ฐ(4.1). 1,831๊ฐ ํ์คํฌ์ ๋์ผ ํ์ดํผํ๋ผ๋ฏธํฐ(VOC gainยท์ปค๋ฆฌํ๋ผยทreward weight)๋ฅผ ์จ์ ํ๊ฐํ๋ค. ์ฑ๊ณต ํ์ ์ object-centric termination(์์น ์ค์ฐจ 15cm ๋๋ ํ์ 40ยฐ ์ด๊ณผ) ์์ด ์๋ฃํ๋ฉด rollout ์ฑ๊ณต, completion ratio > 0.7์ด๋ฉด ํ์คํฌ ์ฑ๊ณต์ด๋ค. ๊ฒฐ๊ณผ๋ ๋ฐ์ดํฐ์ ยทhorizon ์ ๋ฐ์์ ๊ณ ๋ฅด๊ฒ ๊ฐํ๋ค.

๋ฐ์ดํฐ์ ๋ณ ์ฑ๊ณต๋ฅ (Fig. 5์ ๋์) โ ์ผ์ชฝ: 1,831 ํ์คํฌ(HOT3D-1Obj 0.772, OakInk2-1Obj 0.786, OakInk2-2Obj 0.746, ARCTIC 0.814, TACO 0.935, HOT3D-2Obj 0.753). ์ค๋ฅธ์ชฝ: whole-body ํ๊ฐ(ARCTIC 0.994, TPV 0.867, ARCTIC-articulated 0.914, TACO 0.866). ์=rigid/articulated/multi-object.
baseline ๋น๊ต(4.1, Table 1). ManipTransยทDexMachinaยทSPIDER๋ฅผ ๊ฐ์์ ์๋ ํ์คํฌ ์ค์ํธยท์งํ ๋ก ๋น๊ตํ๋ค(Sharpa hand, Isaac Lab์์ ์ ๋ขฐ์ฑ ์๊ฒ ์๋ฎฌ๋ ์ด์ ๊ฐ๋ฅํ ํ์คํฌ๋ง: MT 8, SP 3, DM 7๊ฐ + ์์ฒด 9๊ฐ). CHORD๋ ๋ชจ๋ ํ์์ ๋งค์นญยท์ํํ๊ณ , ๋ฌด์๋ณด๋ค ๊ธฐ์กด์์ด rigid/articulated/multi-object ์ค ์ผ๋ถ์ ๊ตญํ๋ ๋ฐ๋ฉด ์ธ ๋ฒ์ฃผ ๋ชจ๋ ๋ฅผ ํผ๋ค.
์ ์ด ๊ฐ์ด๋ ๊ฒ์ฆ(4.2, Table 2). ๋์ผํ non-contact reward๋ฅผ ๋๊ณ ์ ์ด ๊ฐ๋ ๋ง ๋ฐ๊ฟ ๋น๊ตํ๋ค โ CHORD(wrench support) > Position Only(DexMachina์ ์์น ๋ณด์) > No Contact(์ถ์ข ๋ง). box grab 0.702/0.334/0.384, mixer use 0.894/0.624/0.423. ์์น๋ง ๋ง์ถ๋ ๊ฒ์ผ๋ก๋ ์ ์ด-rich ์กฐ์์ ์ถฉ์คํ ์ฌํํ๊ธฐ ๋ถ์กฑํจ์ ๋ณด์ธ๋ค.
rewardโ์ฑ๊ณต ์๊ด(4.3). 1,831 run์์ ์ ๊ทํ CWS reward์ ์ฑ๊ณต๋ฅ ์ Pearson r\approx0.80(๋ฐ์ดํฐ์ ๋ณ 0.76โ0.89). ๋จ์กฐ์ด๋ ํฌํํ๋ ๊ด๊ณ(๊ณ -reward ์์ญ์์ 1์ plateau)๋ผ, OLS ์ง์ ์ ์ ์ฒด ์ถ์ธ์ ~2/3 ๋ถ์ฐ์ ์ค๋ช ํ๋ฉด์ ๊ณ -reward ์์ญ์ ์ ํฉ๋๋ฅผ ๊ณผ์ํ๊ฐํ๋ค. CWS reward๊ฐ ํ์ต ์ ํธ์ด์ proxy metric ์ผ๋ก ์ ์ฉํจ์ ์์ฌ.

long-horizon(4.4). ์ ์ด wrench๋ฅผ ๋จ์ผ ์ถ์์ผ๋ก ๋ค์ํ ์กฐ์์ ํ ๋ฉ์ปค๋์ฆ์ผ๋ก ํฉ์ฑํ๋ฏ๋ก, ๊ฑฐ์ 1๋ถ์ ์ด๋ฅด๋ ํ์คํฌ ์ํ์ค๊น์ง ํ์ฅ๋๋ค. ๋๋ถ๋ถ ์ํ์ค์์ near-saturated ์ถ์ข ์ ์ ์งํ๋ค.
whole-body ์ผ๋ฐํ(4.5, Table 3). hand-only reference 12๊ฐ(rigidยทarticulatedยทmulti ๊ฐ 4) + TPV whole-body 5๊ฐ loco-manipulation. ์ฌ๋ 5์ง ์ โ G1 + Dex3 3์ง ์์ด๋ผ๋ ํํ ์ฐจ์ด์๋ wrench-space ์ ๋ ฌ์ด ํจ๊ณผ์ ์ ์ด์ ํ์ตํ๊ฒ ํ๋ค. ๋์ผ ๋ ์ํผ์์ position reward๋ก ๋ฐ๊พธ๋ฉด(rigid 0.460, articulated 0.000, multi 0.192, overall 0.217) ํฌ๊ฒ ๋ฌด๋์ง๋ ๋ฐ๋ฉด CHORD๋ 0.994/0.914/0.866/0.925 โ ์์น ๋ณด์์ ์์ฐ ์๋ฒ ๋๋จผํธ์ ๊ฐํ๊ฒ ๊ฒฐํฉ๋ผ cross-embodiment์ ์ทจ์ฝํจ์ ๋ณด์ธ๋ค. TPV๋ ์ฌ๊ตฌ์ฑ ๋ ธ์ด์ฆ ๋๋ฌธ์ force-closure ๋ชฉํ๋ก ์ผ๊ด ์ฑ๊ณต.
์ค์ธ๊ณ(4.6). Dexmate + Sharpa ๋ ์, mocap pose tracking. open-loop action-chunk์ closed-loop inference ๋ชจ๋์์ rigidยทarticulated ๋ฌผ์ฒด๋ฅผ bimanual๋ก ์กฐ์.

์ค์ธ๊ณ ๋ฐฐ์น(Fig. 9) โ ์ข์๋จ์ด closed-loop, ๋๋จธ์ง๋ open-loop ๋ฐฐ์น. ๋ฐ์คยทarticulated ๋ฌผ์ฒด๋ฅผ ๋ ์ ํ์์ผ๋ก ์กฐ์.
teleoperation ๋์กฐ(4.7). RL์ ๊ฐ์น๋ฅผ ๊ฐ๋ ํ๋ ค ์๊ท๋ชจ ์ ์ฑ pilot์ ํ๋ค. ์์ธ๋ก box-lifting์ด ๊ฐ์ฅ ์ด๋ ค์ ๋ค โ grasp ํ์ฑยท์ ์ด ํ์ด๋ฐยทํ ์ ์ฉ์ ์ ๋ฐ ํ์์ด ํ์. ์ธ ๊ฐ์ง ๋์ : โ IK๊ฐ ๋์ aperture๋ ํ๊ณ ๊ทผ์ฒ์์ ์๋ํ ์๊ฐ๋ฝ ๊ตฌ์ฑ์ ๋ณด์กด ๋ชป ํจ, โก hapticยท์ ์ด ํผ๋๋ฐฑ ๋ถ์ฌ๋ก ์ ์ด ์ํ๋ฅผ ์๊ฐ์ผ๋ก๋ง ์ถ์ (occlusion์ ์ทจ์ฝ), โข joint torque ์ง์ ์ ์ด ๋ถ๊ฐ๋ก ํน์ ์๊ฐ๋ฝ์ ์๋์ ํ์ ๋ชป ์ค. mixerยทwaffle-iron์ ์ฐ์ต ํ ๋๋ต ๋ง๋ ๊ถค์ ์ ์ฐพ์๋ ์ ์ด ์ํธ์์ฉ์ด ๋ฌ๋ผ grasp๊ฐ fragileํ๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ํํ์ ํต์ฌ์ ์ ํํ ์ง์๋ค. โ์ ์ด ์์น โ ์ ์ด ํจ๊ณผโ๋ผ๋ ๊ด์ฐฐ์ ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํ๊ณ , support function์ผ๋ก wrench polytope๋ฅผ ์๋ฒ ๋๋จผํธ-๋ถ๋ณ ์ฒ๋๋ก ํ์ํ ์ค๊ณ๊ฐ ๊น๋ํ๋ค. position reward๊ฐ articulated cross-embodiment์์ 0.000 ์ผ๋ก ๋ถ๊ดดํ๋ ๋๋น(Table 3)๋ ์ด ์ฃผ์ฅ์ ์ค๋๋ ฅ ์๊ฒ ๋ง๋ ๋ค.
- ๊ท๋ชจ์ ํต์ ๋ ํ๊ฐ. ๋จ์ผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก 1,831 ํ์คํฌ๋ฅผ ๋๋ฆฐ ์ , baseline์ ๊ฐ์์ ์๋ ์งํ๋ก ์ฌํํด ๋น๊ตํ ์ ์ cherry-picking ์ฐ๋ ค๋ฅผ ์ค์ธ๋ค. rewardโ์ฑ๊ณต ์๊ด(r\approx0.80)์ CWS๊ฐ proxy metric์ผ๋ก ์ฐ์ผ ์ ์์์ ์ ๋ํํ๋ค.
- ๋ ธ์ด์ฆ์ ๋ํ graceful degradation. ๊นจ๋ํ ์์ฐ์ full CWS, noisyํ๋ฉด reduced force-closure๋ก ์๋ ์ ํํ๋ ์ค๊ณ๋ ๋น๋์ค ์ฌ๊ตฌ์ฑยทTPV๊น์ง ๊ฐ์ ๊ณจ๊ฒฉ์ผ๋ก ํก์ํ๋ค.
- ํ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋์ ์ปค๋ฒ๋ฆฌ์ง. rigidยทarticulatedยทmulti-object๋ฅผ ๋ชจ๋, ๊ทธ๋ฆฌ๊ณ hand-only/whole-body๊น์ง ๋์ผ ๋ณด์ ์ถ์์ผ๋ก ๋ค๋ฃฌ๋ค โ ๊ธฐ์กด์์ด ๋ถ๋ถ์งํฉ์ ๊ตญํ๋ ๊ฒ๊ณผ ๋๋น๋๋ค.
์ฝ์ ยทํ๊ณ
- ์ํ ๊ธฐ๋ฐ ๊ด์ธก์ ์์กด(์ ์ ๋ช ์). ์ค์ธ๊ณ ๋ฐฐ์น๊ฐ mocap์ผ๋ก ๋ฌผ์ฒดยท๋ก๋ด pose๋ฅผ ์ถ์ ํ๋ state-based๋ค. vision-based ๋ฐฐ์น๊ฐ ์์ผ๋ฏ๋ก ์ง์ง ์ผ์ธ ์ผ๋ฐํ๋ ๋ฏธ๊ฒ์ฆ์ด๋ค.
- ๊นจ๋ํ ์์ฐ ๊ฐ์ . ํจ๊ณผ์ ์ ์ด ๊ฐ์ด๋๋ ๋น๊ต์ ๊นจ๋ํ ์์ฐ์ ์๊ตฌํ๊ณ , noisyํ๋ฉด force-closure ๊ฐ์ ์ผ๋ก ํํดํ๋ค โ ์ด๋ wrench ๋งค์นญ์ ๊ฐ์ ์ ์ผ๋ถ ํฌ๊ธฐํ๋ trade-off๋ค. ๋ ธ์ด์ฆ๊ฐ ๋ณด์ ํ์ง์ ์ผ๋ง๋ ๋จ์ด๋จ๋ฆฌ๋์ง์ ์ฒด๊ณ์ ๋ถ์์ ๋ถ์กฑํ๋ค.
- ํ๊ฐ ์งํ์ ํ๊ณ(์ ์ ๋ช ์). ๋ฌผ์ฒด pose ์ค์ฐจ๋ ๋ถ์์ ํ ์ฑ๊ณต ์ฒ๋๋ค โ ์ ํํ ๋ฐฐ์น๊ฐ ๋ถํ์ํ ํ์คํฌ๋, ์์ pose ์ค์ฐจ๊ฐ ๊ธฐ๋ฅ์ ์คํจ๋ก ์ด์ด์ง๋ ํ์คํฌ๋ ์๋ค. completion ratio>0.7, 15cm/40ยฐ ์๊ณ ๊ฐ์ cutoff์ ๋ฏผ๊ฐ๋๋ ๋ ๋ค์ฌ๋ค๋ณผ ์ฌ์ง๊ฐ ์๋ค.
- VOCยทIK ๋ฑ ์ธ๋ถ ๋ถํ ์์กด. ํ์์ DexMachina VOC, retarget์ ๋จ์ keypoint IK์ ๊ธฐ๋๋ค. teleop pilot์์ ๋๋ฌ๋ IK์ ์๊ฐ๋ฝ ๊ตฌ์ฑ ๋ณด์กด ์คํจ๋ retarget ํ์ง์ด ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์ฝํ ๊ณ ๋ฆฌ์ผ ์ ์์์ ์์ฌํ๋ค.
- ์ฌํ ๊ฒ์ฆ ๋ถ๊ฐ(ํ ์์ ). ์ฝ๋ยทarXiv๊ฐ ๋ชจ๋ ๋ฏธ๊ณต๊ฐ๋ผ ๋ณธ ๋ฆฌ๋ทฐ๋ PDF๋ง์ผ๋ก ์์ฑํ๋ค. ๋ฒค์น๋งํฌ 4,739ยทํ๊ฐ 1,831ยท82.12% ๋ฑ ํต์ฌ ์์น๋ PDF๋ก ๊ต์ฐจ๊ฒ์ฆํ์ผ๋, ์ธ๋ถ ์ฌํ์ ์์ง ๋ถ๊ฐ๋ฅ ํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ ๋งค๊น
CHORD๋ ์ฌ๋ ์์ฐ ๊ธฐ๋ฐ ์์ฌ์ฃผ RL ๊ณ์ด์์ ์ ์ด ํํ ์ ๋ฐ๊พผ ์์ ์ผ๋ก ์๋ฆฌํ๋ค. ์ง์ baseline์ธ SPIDERยทDexMachinaยทManipTrans๊ฐ ์ ์ด ์์น/ํ ๊ณผ VOC ์ปค๋ฆฌํ๋ผ์ ์ฐ๋ ๋ฐ ๋นํด, CHORD๋ ์ ์ด์ wrench space์ ์ ๋ฐ ์ด๋ ์ผ๋ก ๋น๊ตํ๋ค. ์ฌ๋ ๋น๋์ค์์ ์์ฌ์ฃผ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ Do as I Do, egocentric ๋น๋์ค๋ก ๋ณดํธ ์ ์ ์ด๋ฅผ ํ์ตํ๋ UniDex์๋ โ์ฌ๋ ์์ฐ โ ๋ก๋ด ์์ฌ์ฃผโ ๋ฌธ์ ๋ฅผ ๊ณต์ ํ๋, CHORD๋ ๋ฐ์ดํฐ ์์ฑยทํํ ํ์ต๋ณด๋ค RL ๋ณด์ ์ค๊ณ ์ ๋ฌด๊ฒ๋ฅผ ๋๋ค. wrenchยทforce-closure๋ฅผ grasp ํฉ์ฑ์ ์ฐ๋ GraspQP ๊ณ์ด๊ณผ๋ wrench space๋ผ๋ ๋๊ตฌ๋ฅผ ๊ณต์ ํ์ง๋ง, CHORD๋ ์ ์ ์์ ์ฑ์ด ์๋๋ผ ๋์ ์กฐ์์์์ ์ ๋ฐ ์ด๋ ์ ์ฌ๋ ๋ก ๊ทธ ๋๊ตฌ๋ฅผ ์ฌํด์ํ ์ ์ด ๋ค๋ฅด๋ค. whole-body ํ์ฅ์ humanoid ๋ชจ์ ์ถ์ข ๊ณ์ด์ธ WholeBody-Loco์ ๋ง๋ฟ์, hand-only ์์ฐ์ inpainting์ผ๋ก ์ ์ ๋ชจ์ ์ผ๋ก ๋ค์ด์ฌ๋ฆฐ ๋ค ๊ฐ์ ์ ์ด ๋ณด์์ ์ ์ฉํ๋ค.
์์ฝ
CHORD์ ํ ๋ฌธ์ฅ์ โ์ ์ด์ ์์น๊ฐ ์๋๋ผ wrench(์ ๋ฐ ์ด๋)๋ก ๋น๊ตํ๋ผโ ๋ค. ์ฌ๋ ์ ์ด์ wrench matrix๋ฅผ support function์ผ๋ก ์์ฝํด ์๋ฒ ๋๋จผํธ-๋ถ๋ณ ๋ณด์์ผ๋ก ์ฐ๊ณ , ์ฌ๊ธฐ์ taskยทimitation reward์ VOC ์ปค๋ฆฌํ๋ผ, noisy ์์ฐ์ฉ force-closure ํํด๋ฅผ ๋ํด ์ฌ๋ ์์ฐ โ ์์ฌ์ฃผ RL ์ ์ด๋ฅผ ํ์ฅ ๊ฐ๋ฅํ๊ฒ ํ๋ค. 4,739 ํ์คํฌ ๋ฒค์น๋งํฌ์ 1,831 ํ์คํฌ 82.12%(whole-body 90.77%), rewardโ์ฑ๊ณต ์๊ด r\approx0.80, ์ค์ธ๊ณ open/closed-loop ์ ์ด๊ฐ ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ค. ๋ค๋ง state-based ๋ฐฐ์นยท๊นจ๋ํ ์์ฐ ๊ฐ์ ยทpose ๊ธฐ๋ฐ ์งํ์ ํ๊ณ, ๊ทธ๋ฆฌ๊ณ ํ์ฌ ์ฝ๋ยทarXiv ๋ฏธ๊ณต๊ฐ๋ก ์ธํ ์ธ๋ถ ์ฌํ ๋ถ๊ฐ๋ ๋จ๋ ๊ณผ์ ๋ค.