flowchart TB
A["Simulated base policy actions<br/>(open-loop replay)"] --> B{"Add Gaussian noise?<br/>p=0.5"}
B -->|"yes"| C["a_t + noise"]
B -->|"no"| D["a_t"]
C --> E["Execute on LEAP hand<br/>inside Chaos Box"]
D --> E
E --> F["Hand interacts with<br/>soft balls -> random loads"]
F --> G["Record (q_t, a_t) histories"]
G --> H["Train joint-wise<br/>neural dynamics f_psi"]
๐DexNDM ๋ฆฌ๋ทฐ
Xueyi Liu, He Wang, Li Yi
- ๐ค ๋ณธ ์ฐ๊ตฌ๋ sim-to-real reality gap์ผ๋ก ์ธํด ์ด๋ ค์์ด ํฐ dexterous in-hand rotation์์ ์ ๋ก ์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ๐ฆพ ์ด๋ฅผ ์ํด, limited real-world data๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ณ sim policy์ actions๋ฅผ ์กฐ์ ํ๋ joint-wise neural dynamics model๊ณผ autonomous data collection ์ ๋ต์ ์ ์ํฉ๋๋ค.
- โจ DexNDM์ ๋จ์ผ policy๋ก ๋ณต์กํ ํ์, ๋์ aspect ratio, ๋ค์ํ wrist orientation์ ๊ฐ์ง ๋ฌผ์ฒด๋ฅผ ํ์ค ์ธ๊ณ์์ ์ฑ๊ณต์ ์ผ๋ก ์กฐ์ํ์ฌ, teleoperation๊ณผ ๊ฐ์ complex dexterous tasks๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
DEXNDM: CLOSING THE REALITY GAP FOR DEXTEROUS IN-HAND ROTATION VIA JOINT-WISENEURAL DYNAMICS MODEL ๋ ผ๋ฌธ์ dexterous in-hand rotation์์ ๋ฐ์ํ๋ sim-to-real gap์ ์ขํ๊ธฐ ์ํด joint-wise neural dynamics model์ ํ์ฉํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ธ DexNDM์ ์ ์ํฉ๋๋ค.
๋ก๋ด ๊ณตํ์์ ์ผ๋ฐํ๋ ์์ ๊ฐ์ฒด ํ์ ์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ฌ์ ํ ์ค๋ํ ๋์ ๊ณผ์ ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋จ์ํ ๊ธฐํํ์ ํํ, ์ ํ๋ ๊ฐ์ฒด ํฌ๊ธฐ, ๊ณ ์ ๋ ์๋ชฉ ์์ธ, ๋ง์ถคํ ํ๋์จ์ด ๋ฑ ์ ์ฝ๋ ์๋๋ฆฌ์ค์ ๊ตญํ๋์ด ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ์ ์ฃผ๋ ์์ธ์ ๋ณต์กํ๊ณ ์ ์ด์ด ๋ง์ ๋์ญํ์ผ๋ก ์ธํด ๋ฐ์ํ๋ โํ์ค-์๋ฎฌ๋ ์ด์ (sim-to-real) ๊ฐ๊ทนโ์ ๋๋ค. ํนํ, dexterous manipulation์์๋ ๋ถํฌ ๊ด๋ จ ๋ฐ์ดํฐ์ ๋๋ ์์ง์ด ์ด๋ ต๊ณ , ์น๋ช ์ ์ธ ์คํจ(์: ๊ฐ์ฒด ๋ํ) ์ ๋น๋ฒํ ์ธ๊ฐ ๊ฐ์ ์ด ํ์ํ๋ฉฐ, ์์ผ๋ก ์ธํ ๊ฐ๋ฆผ์ผ๋ก ๊ฐ์ฒด ์ํ ์ถ์ ์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
DexNDM์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ํต์ฌ ์ค๊ณ๋ฅผ ๋์ ํฉ๋๋ค.
- ์ ๋ฌธ๊ฐ-์ผ๋ฐ์ฃผ์์(Specialist-to-Generalist) ์ ์ฑ ํ๋ จ: ๋จผ์ , ๋ค์ํ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ(์ํต, ์ง์ก๋ฉด์ฒด, ๋ณต์กํ ํ์ ๋ฑ)์ ๊ฑธ์ณ RL(Reinforcement Learning)์ ํตํด oracle policy๋ฅผ ํ๋ จํฉ๋๋ค. ์ด oracle policy๋ค์ ํ๋ถํ privileged observation์ ํ์ฉํฉ๋๋ค. ์ดํ, ์ฑ๊ณต์ ์ธ oracle ๊ถค์ ๋ง์ ์ง๊ณํ์ฌ Behavior Cloning (BC)์ ํตํด ๋จ์ผ generalist policy๋ฅผ ํ๋ จํฉ๋๋ค. generalist policy์ ๊ด์ธก์น o_{gen_t}๋ proprioception history, ์๋ชฉ ๋ฐฉํฅ, ํ์ ์ถ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค. ์ด ๋ฐฉ์์ ์ด๋ ค์ด ์์ ์์ ์๋ฎฌ๋ ์ด์ ์ต์ ํ ์คํจ๋ ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํผํ๋ฉด์ ๋์ ํ์ง์ oracle behavior๋ฅผ ๋ชจ๋ฐฉํ์ฌ ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌ ๊ฐ๋ฅํ ์ ์ฑ ์ ์์ฑํฉ๋๋ค.
- ์กฐ์ธํธ๋ณ ์ ๊ฒฝ ๋์ญํ ๋ชจ๋ธ (Joint-Wise Neural Dynamics Model): ์ด ๋ชจ๋ธ์ ํ์ค-์๋ฎฌ๋ ์ด์
๊ฐ๊ทน์ ๋ฉ์ฐ๋ ํต์ฌ ์์์
๋๋ค.
- ๋ชจ๋ธ ์ค๊ณ: ๊ธฐ์กด์ โ์ ์ฒด ์(whole-hand)โ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, ๊ฐ ์กฐ์ธํธ i์ ๋์ญํ์ ๊ฐ๋ณ์ ์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ฐ ์กฐ์ธํธ์ ๋ค์ ์ํ q^i_{t+1}๋ ์ค์ง ํด๋น ์กฐ์ธํธ์ W ์คํ ์ํ-์ก์ ์ด๋ ฅ h^i_t = \{q^i_j, a^i_j\}_{j=t-W+1}^t๋ก๋ถํฐ ์์ธก๋ฉ๋๋ค. ์ด๋ q^i_{t+1} = f_{\psi^i}(h^i_t)์ ๊ฐ์ด ํํ๋ฉ๋๋ค. ์ด ์ค๊ณ๋ ๊ณ ์ฐจ์์ ์ธ ์์คํ ์ ๋ฐ์ ์ํฅ(์: ์กฐ์ธํธ ๊ฐ ์ปคํ๋ง, ์๋, ๊ฐ์ฒด ์ ๋ฐ ํจ๊ณผ)์ ์ ์ฐจ์์ โ์ ํจํ(effective)โ ๋ณ์๋ก ์ฆ๋ฅํ์ฌ ๊ฐ ์กฐ์ธํธ์ ๋์ญํ์ ํ๋กํ๋ก๋ถํฐ ๊ทธ ์งํ๋ฅผ ์์์ ์ผ๋ก ํฌ์ฐฉํ๊ฒ ํฉ๋๋ค.
- ์ด๋ก ์ ๊ทผ๊ฑฐ (์ ๋ณด ์์ถ์ ํตํ ์ผ๋ฐํ): ์ด ๋ชจ๋ธ์ ํต์ฌ ๊ฐ์ ์ ์ ๋ณด ์์ถ(Information Contraction)์ ํตํด ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์
๋๋ค.
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ถ๋ฑ์ (Data Processing Inequality for KL divergence, Theorem 3.1): ์ ์ฒด ์์คํ ์ํ X = H_t์ ์กฐ์ธํธ๋ณ ์ํ Y = h^i_t ๊ฐ์ ๋งคํ g: X \to Y๊ฐ ์ฃผ์ด์ก์ ๋, KL(P\|Q) \ge KL(g(P)\|g(Q))์ด ์ฑ๋ฆฝํฉ๋๋ค. ์ฌ๊ธฐ์ P๋ ์ค์ ํ๊ฒฝ ๋ถํฌ, Q๋ ์๋ฎฌ๋ ์ด์ ๋๋ ์์ง๋ ๋ฐ์ดํฐ ๋ถํฌ์ ๋๋ค. ํนํ, g๊ฐ P์ Q๊ฐ ๋ค๋ฅธ ์๋์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ ์ง์ ๋ค์ ๋ณํฉํ๋ ๋ฐฉ์์ผ๋ก ๋น๋จ์ฌ์ (non-injective)์ด๋ฉด, ์ด ๋ถ๋ฑ์์ ์๋ฐํ๊ฒ ์ฑ๋ฆฝํฉ๋๋ค (>). ์ด๋ ๊ณ ์ฐจ์ ์ ๋ณด๋ฅผ ์ ์ฐจ์์ผ๋ก ์ถ์ํ ๋, ๋ ๋ถํฌ ๊ฐ์ KL ๋ฐ์ฐ์ด ์ค์ด๋ค์ด ๋ถํฌ ๋ณํ(distribution shift)๊ฐ ์ํ๋จ์ ์๋ฏธํฉ๋๋ค.
- ์ผ๋ฐํ ๊ฐ๊ทน ์์ถ (Generalization Gap Contraction, Theorem 3.2): KL(g(P)\|g(Q)) < KL(P\|Q)์ธ ๊ฒฝ์ฐ, ์กฐ์ธํธ๋ณ ๋ชจ๋ธ f_2 \circ g_X์ generalization gap์ด ์ ์ฒด ์ ๋ชจ๋ธ f_1์ generalization gap๋ณด๋ค ์์์ง๋๋ค. ์ฆ, ์ถ์๋ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ด ํ์ค-์๋ฎฌ๋ ์ด์ ๊ฐ๊ทน๊ณผ ๊ฐ์ ๋ถํฌ ๋ณํ ์ํฉ์์ ๋ ์ ์ผ๋ฐํ๋ฉ๋๋ค.
- ์์จ ๋ฐ์ดํฐ ์์ง (Autonomous Data Collection): โ์นด์ค์ค ๋ฐ์ค(Chaos Box)โ๋ผ๋ ์ ๋น์ฉ์ ์์จ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ๋ก๋ด ์์ ์ํํธ๋ณผ์ด ๊ฐ๋ ์ฐฌ ์ปจํ ์ด๋์ ๋ฐฐ์น๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ํ๋ จ๋ ๊ธฐ๋ณธ ์ ์ฑ ์ ์ก์ ์ open-loop์ผ๋ก ์ฌ์ํ๊ณ ๊ฐ ์ก์ ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(\sigma=0.01)๋ฅผ ์ถ๊ฐํ์ฌ ๋ค์ํ ๋ฌด์์ ๋ถํ(randomized loads)๋ฅผ ๊ฐํฉ๋๋ค. ์ด ๊ณผ์ ์ ์์ ํ ์์จ์ ์ด๊ณ ํ๋์จ์ด ์์ ํ๋ฉฐ, ๊ฐ์ฒด ๋ํ ์์ ์ธ๊ฐ ๊ฐ์ ์ด๋ ๋ฆฌ์ ์ด ํ์ ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์์ฌ ์ ์ฑ (Residual Policy): ํ์ต๋ ์กฐ์ธํธ๋ณ ๋์ญํ ๋ชจ๋ธ f_\psi๋ฅผ ํ์ฉํ์ฌ ๊ธฐ๋ณธ ์ ์ฑ ์ ์ก์ ์ ๋ณด์ํ๋ ์์ฌ ์ ์ฑ \pi_{res}๋ฅผ ํ๋ จํฉ๋๋ค. ๊ธฐ๋ณธ ์ ์ฑ ์ ๊ด์ธก์น o_{gen_t}์ ๊ธฐ๋ณธ ์ก์ a_t๊ฐ ์ฃผ์ด์ง๋ฉด, \pi_{res}๋ ๋ณด์ ์น a_{res,t}๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์ค์ ๋ฐฐํฌ ์์๋ a_t + a_{res,t}๊ฐ ์คํ๋ฉ๋๋ค. ์ด ๋ฐฉ์์ ๊ธฐ์กด ์ ์ฑ ์ ๋์์ ํฌ๊ฒ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์ ์ค์ ํ๊ฒฝ์ ๋์ญํ์ ํน์ฑ์ ๋ฐ์ํ๋๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋๋ค.
์คํ ๊ฒฐ๊ณผ:
์๋ฎฌ๋ ์ด์ ํ๊ฐ์์ DexNDM์ generalist policy๋ ๋ฏธ๊ณต๊ฐ ๊ฐ์ฒด์ ๋ํด ๊ธฐ์กด AnyRotate ๊ตฌํ๋ณด๋ค 37%~81% ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ค์ ํ๊ฒฝ์์ DexNDM์ ์ ๋ก ์๋ dexterity๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ณต์กํ ํ์(๋๋ฌผ ๋ชจ๋ธ), ๋์ ์ข ํก๋น(์ต๋ 5.33), ์์ ํฌ๊ธฐ ๊ฐ์ฒด์ ๋ํด ๋ค์ํ ์๋ชฉ ๋ฐฉํฅ ๋ฐ ํ์ ์ถ์์ ์ฑ๊ณต์ ์ธ ๊ณต์ค ํ์ ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ, 10-16cm ๊ธธ์ด์ ๊ธด ๊ฐ์ฒด๋ฅผ palm-down ๊ตฌ์ฑ์์ ๊ณต์ค์์ ๊ฑฐ์ ํ ๋ฐํด ํ์ ์ํค๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์๋๋ฐ, ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์๋๋์ง ์์๊ฑฐ๋ ์ด๋ ค์ ๋ ๋ถ๋ถ์ ๋๋ค. Visual Dexterity ๋ฐ AnyRotate์ ๋น๊ตํ์ฌ ํ์ํ ์ฑ๋ฅ๊ณผ ๊ด๋ฒ์ํ ๊ฐ์ฒด ๋ฐ ์กฐ๊ฑด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. Whole-Hand Neural Dynamics Model๊ณผ์ ๋น๊ต๋ฅผ ํตํด, DexNDM์ joint-wise model์ด ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ด๊ฑฐ๋ train-test distribution shift๊ฐ ์๋ ํ๊ฒฝ์์ ํจ์ฌ ๋ ๋์ ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง์ ํ์ธํ์ต๋๋ค. ๋ฐ๋ฉด ASAP ๋ฐ UAN๊ณผ ๊ฐ์ ๊ธฐ์กด sim-to-real ๋ฐฉ๋ฒ๋ค์ object-loaded ์ํธ์์ฉ ๋์ญํ์ ๋ํ generalization์ด ๋ถ์กฑํ์ฌ ์ค์ ํ๊ฒฝ์์ ์คํจํ์ต๋๋ค. DexNDM์ tool-using ๋ฐ ์กฐ๋ฆฝ๊ณผ ๊ฐ์ ๋ณต์กํ dexterous task๋ฅผ ์ํ teleoperation ์์คํ ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋ ์ ์์์ ์์ฐํ์ต๋๋ค.
๊ฒฐ๋ก :
DexNDM์ joint-wise neural dynamics model๊ณผ ์์จ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ก์ด sim-to-real framework๋ฅผ ์ ๊ณตํ์ฌ ์ ๋ก ์๋ ์์ ๊ฐ์ฒด ํ์ ๋ฅ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ dexterous manipulation์ โํ์ค-์๋ฎฌ๋ ์ด์ ๊ฐ๊ทนโ์ ์ขํ๋ ๋ฐ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ํฅํ ์ด๊ฐ ์ผ์ ๋ฐ ๋ ํ๋ถํ ์ ํธ ํตํฉ์ ํตํด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ๋์ ๋ณด๋ ํต์ฌ
DexNDM์ ์ ์์์์ ๋ฌผ์ฒด ํ์ (in-hand rotation)์์ sim-to-real ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ ์ ํ๋ ์์ํฌ๋ค. ํต์ฌ ์์ด๋์ด๋ ๋ ๊ฐ์ง๋ก ์์ถ๋๋ค. ์ฒซ์งธ, ์ ์ฒด ์-๋ฌผ์ฒด ์์คํ ์ ํ ๋ฉ์ด๋ฆฌ๋ก ํ์ตํ์ง ๋ง๊ณ ๊ด์ ํ๋ํ๋๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ๋ผ. ๋์งธ, ๊ทธ ๋ชจ๋ธ์ด ์ผ๋ฐํ๊ฐ ์ ๋๋๊น ๊ณต ํต(Chaos Box)์ ์์ ์ฒ๋ฐ๊ณ ๋ฌด์์ ๋ถํ๋ฅผ ๋ฐ๊ฒ ๋ง๋ค๋ฉด์ ์๋ ๋ฐ์ดํฐ ์์ง์ ํ๋ผ. ์ด ๋ ๊ฒฐ์ ์ด ๊ฒฐํฉ๋์ด, ๋จ์ผ ์ ์ฑ ํ๋๊ฐ ๋๋ฌผ ๋ชจ์, 5.33์ ์ข ํก๋น, ์๋ฑ์ด ์๋๋ก ํฅํ ์์ธ๊น์ง ๊ด๋ฒ์ํ ์กฐ๊ฑด์์ ์ ์๋ํ๋ค. ํนํ ์๋ฑ์ด ์๋๋ฅผ ํฅํ ์ํ์์ 10~16cm ๊ธธ์ด์ ๋ง๋๋ฅผ ๊ณต์ค์์ ํ ๋ฐํด ๊ตด๋ฆฐ ์ฒซ ์์ฐ์ด๋ผ๋ ์ ์ ์ฃผ๋ชฉํ ๋งํ๋ค.
DexNDM์ LEAP hand ๊ฒฐ๊ณผ๋ ๋ ์๊ณ ๋ ํน์ํ ํ๋์จ์ด์์ Visual Dexterity์ DโClaw ์ฑ๋ฅ์ ๋ฐ๋ผ์ก๊ฑฐ๋ ๋ฅ๊ฐํ๋ค. ์ด๋ dexterous manipulation ์ฐ๊ตฌ์์๊ฒ ์์ฌํ๋ ๋ฐ๊ฐ ํฌ๋ค. โํ๋์จ์ด๋ฅผ ๋ ๋น์ธ๊ฒ ๋ง๋๋ ๊ฒโ์ด ์๋๋ผ โ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ์๋ณด๋ ๊ฒโ์ด sim-to-real์ ๋ค์ ๋ํ๊ตฌ๋ผ๋ ๋ฉ์์ง๊ฐ ๋ช ํํ๋ค.
๋ฌธ์ : ์ธํธ๋ ํ์ ์ sim-to-real, ์ ์์ง๋ ํ๋ฆฌ์ง ์๋๊ฐ
์ ์์์ ๋ฌผ์ฒด๋ฅผ ๊ตด๋ฆฌ๋ ์ผ์ ์ธ๊ฐ์๊ฒ ์์ฝ์ง๋ง, ๋ก๋ด์๊ฒ ๊ฐ์ฅ ์ด๋ ค์ด manipulation ๊ณผ์ ์ค ํ๋๋ค. ๋ฌด์์ด ์ด๋ ค์ด๊ฐ? ์ ์ด์ด ๋น ๋ฅด๊ฒ ๋ณํ๊ณ , ์๊ฐ๋ฝ ์ฌ์ด๋ก ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๋ฉฐ, ์ธ๋ถ ๋ถํ๊ฐ ๋งค ์๊ฐ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ชจ๋ ๊ฒ์ด ์๋ฎฌ๋ ์ดํฐ์์๋ โ๊ทธ๋ญ์ ๋ญ ๋น์ทํ ๋ฐฉ์โ์ผ๋ก ๋ชจ๋ธ๋ง๋์ง๋ง ์ค์ ํ๋์จ์ด์์๋ ์์ ๋ง์ฐฐ๊ณ์ ์ฐจ์ด, ๋ชจํฐ์ ๋ฐฑ๋์, ์๊ฐ๋ฝ ํ๋ฉด์ ๋ง๋ชจ, PD ์ ์ด์ ์๋ต ์ง์ฐ ๊ฐ์ ๊ฒ๋ค์ด ๋์ ๋์ด ์ ์ฑ ์ ๋ฌด๋๋จ๋ฆฐ๋ค. ์ด๊ฒ์ด sim-to-real gap์ด๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ค์ ์ธ ๊ฐ์ง ์ค ํ๋๋ก ํํผํ๋ค.
| ์ ๊ทผ๋ฒ | ๋ํ ์ฐ๊ตฌ | ํ๊ณ |
|---|---|---|
| ์๋ฐ๋ฅ์ด ์๋ฅผ ํฅํ ์์ธ๋ง ๊ฐ์ | RotateIt (Qi 2023), PenSpin (Wang 2024) | ๋ค์ํ wrist orientation ์ฒ๋ฆฌ ๋ถ๊ฐ |
| ๋จ์ํ ์ ํ ๋ฌผ์ฒด๋ง ๋ค๋ฃธ | RotateIt, AnyRotate (Yang 2024) | ๋๋ฌผ ๋ชจ์, ๋ง๋ ๋ฑ ๋ณต์ก ํ์ ์ฒ๋ฆฌ ๋ถ๊ฐ |
| ๋น์ผ ๋ง์ถคํ ํ๋์จ์ด + ์ ๋ฐ ์ด๊ฐ์ผ์ | Visual Dexterity (Chen 2022, DโClaw) | ์ผ๋ฐ ํ๋์จ์ด๋ก ์ฌํ ์ด๋ ค์ |
AnyRotate๋ wrist orientation๊ณผ ํ์ ์ถ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ์ง๋ง ๊ฐ์ฒด๋ ํ๋ฒํ ํฌ๊ธฐ/ํ์์ ๋จธ๋ฌผ๋ ๊ณ , Visual Dexterity๋ ๋ณต์ก ํ์์ ๊ณต์ค์์ ๊ตด๋ ธ์ง๋ง ์์ ๋ฌผ์ฒด๋ ๊ธธ์ญํ ๋ฌผ์ฒด์์ ์ฑ๋ฅ์ด ๊ฒ์ฆ๋์ง ์์๋ค. โ๋ชจ๋ ์ฐจ์์ ์ผ๋ฐ์ฑ์ ๋์์ ๊ฐ์ถ ๋จ์ผ ์ ์ฑ โ์ด ์์ง ์์๋ค๋ ๊ฒ์ด DexNDM์ด ์ ์กฐ์คํ ๋น์๋ฆฌ๋ค.
๊ธฐ์กด sim-to-real ์ ๋ต์ ํ๊ณ๋ ๋ช ํํ๋ค. ๋๋ฉ์ธ ๋๋คํ๋ ํด๋ฆฌ์คํฑํ ๋ถํฌ ํญ์ ์์กดํ๊ณ , ์์คํ ์๋ณ(SysID)์ ํ๋ผ๋ฏธํฐํ ๊ฐ๋ฅํ ๋ถ๋ถ๋ง ์ก์๋ธ๋ค. ๋ ์ผ์ฌ์ฐฌ ์ ๊ทผ์ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ก ์ ๊ฒฝ๋ง ๋์ญํ์ ํ์ตํ๋ ๊ฒ์ธ๋ฐ(ASAP, UAN, MB-Max), locomotion์์๋ ์ ํตํ์ง๋ง dexterous manipulation์์๋ ๋ค์ ๋ชจ์์ ๋งํ๋ค.
๋ฐ์ดํฐ ๋ชจ์: ์ผ๋ฐ์ฑ์ ๊ฐ์ถ๋ ค๋ฉด ๋ค์ํ ๊ฐ์ฒด์ ๋ํ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ๊ทธ๋ฌ๋ ๊ทธ ๋ฐ์ดํฐ๊ฐ ๋ถํฌ์ ์ผ๋ก task-relevantํ๋ ค๋ฉด ์ ์ฑ ์ด ์ด๋ฏธ ๊ทธ ๊ฐ์ฒด๋ค์ ๋ค๋ฃฐ ์ ์์ด์ผ ํ๋ค. ๊ทธ๋ฐ๋ฐ ์ ์ฑ ์ด ์ ์๋ํ์ง ๋ชปํด์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ค๋ ๊ฒ์ด๋ค. ์ฆ ๋ญ์ด ๋จผ์ ๋ ๋ฌ๊ฑ์ด ๋จผ์ ๋์ ๋ฌธ์ ๋ค.
๊ฒ๋ค๊ฐ ์ค์ ๋ฐ์ดํฐ ์์ง์ ๋ ๋ค๋ฅธ ํจ์ ์ ๋น ์ง๋ค. ๋ง๋์ฒ๋ผ ์ด๋ ค์ด ๋ฌผ์ฒด๋ ๋ฏธํกํ ์ ์ฑ ์ผ๋ก ์๊พธ ๋จ์ด๋จ๋ ค์ ์ฌ๋์ด ๊ณ์ ๋ค์ ์ธํ ํด์ค์ผ ํ๊ณ , ์์ ๊ฐ๋ ค์ง ์์ ๋ฌผ์ฒด์ ์ํ๋ฅผ ๋น์ ์ผ๋ก ์ ํํ ์ถ์ ํ๋ ๊ฒ๋ ์ด๋ ต๋ค. ๋ฐ์ดํฐ์ ์ ์๊ณ , ํธํฅ๋๊ณ , ๋ ธ์ด์ฆ๊ฐ ๋ง๋ค. DexNDM์ ์ด ๋งค๋ญ์ ๋ชจ๋ธ ์ชฝ๊ณผ ๋ฐ์ดํฐ ์ชฝ์์ ๋์์ ํผ๋ค.
์ฒซ ๋ฒ์งธ ํต์ฐฐ: ๋์ญํ์ ๊ด์ ๋จ์๋ก ๋ถํดํ๋ค
์ ํต์ ์ธ ์ ๊ฒฝ๋ง ๋์ญํ ๋ชจ๋ธ์ ์ ์ ์ฒด๋ฅผ ํ๊บผ๋ฒ์ ๋ณธ๋ค. ์ฆ ์์ ๊ธธ์ด W ์ง๋ฆฌ ์ํ-ํ๋ ํ์คํ ๋ฆฌ H_t = \{\mathbf{q}_j, \mathbf{a}_j\}_{j=t-W+1}^{t} ๋ฅผ ๋ฐ์์ ๋ค์ ์ํ ์ ์ฒด๋ฅผ ์์ธกํ๋ค.
\mathbf{q}^{t+1} = f_\theta(H_t)
์ด๊ฑด RMA (Kumar 2021)์ ์ ๊ทผ์์ ๋น๋กฏ๋ ์์ด๋์ด๋ค. 16-DoF ์์ด๋ผ๋ฉด H_t์ ์ฐจ์์ด 2 \times 16 \times W๊ฐ ๋์ด ๋งค์ฐ ํฌ๋ค. ํฐ ์ฐจ์ = ๋ฐ์ดํฐ ๋ง์ด ํ์ = ๋ถํฌ ์ผ์น ๋นก์ธ์ง์ด๋ค. DexNDM์ ์ด๋ฅผ ๋ค์ง๋๋ค.
๊ด์ i ํ๋์ ๋ค์ ์ํ๋, ๊ทธ ๊ด์ ์์ ์ ํ์คํ ๋ฆฌ๋ง ๋ณด๊ณ ์์ธกํ์.
\mathbf{q}_{t+1}^i = f_{\psi_i}(h_t^i), \quad h_t^i = \{\mathbf{q}_j^i, \mathbf{a}_j^i\}_{j=t-W+1}^{t}
์ด๊ฒ ์ ๋ง์ด ๋๋๊ฐ? ํ ๊ด์ ์ ์ด๋๋ฐฉ์ ์์ ๋ณด์. ํ์ค ๋งค๋ํฐ๋ ์ดํฐ ๋์ญํ์์
M(\mathbf{q})\ddot{\mathbf{q}} + C(\mathbf{q},\dot{\mathbf{q}})\dot{\mathbf{q}} + G(\mathbf{q}) = \boldsymbol{\tau} + \boldsymbol{\tau}_{\text{ext}}
์ด๊ฑธ โ๋ชจ๋ธ๋ง ๋์ ๊ด์ mโ๊ณผ โ๊ทธ ์ธ ๋ชจ๋ ์ฌ๋ ์ด๋ธ ๊ด์ sโ๋ก ์ชผ๊ฐ๋ฉด, ์ ์ ๊ฐ์ ํ์์ Coriolis๋ฅผ ๋ฌด์ํ๊ณ ์์ด ๋ณด์(Schur complement)๋ก ์ ๋ฆฌํด ๋ค์๊ณผ ๊ฐ์ด ์์ถ๋๋ค.
\mathbf{H}_t^{\text{eff}} \ddot{\mathbf{q}}_t^i + \mathbf{G}_t^{\text{eff}} = \tau_t^i
์ฌ๊ธฐ์ \mathbf{H}_t^{\text{eff}}, \mathbf{G}_t^{\text{eff}} \in \mathbb{R} ์ ์ค์นผ๋ผ๋ค. ์ธ์ ๊ด์ ์ ๊ฐ์๋, ์ค๋ ฅ, ์ธ๋ถ ๋ถํ, ๊ฐ์ฒด์์ ์ ์ด๋ ฅ์ด ์ ๋ถ ์ด ๋ ๊ฐ์ ํจ๊ณผ ํญ(effective term)์ผ๋ก ์์ถ๋๋ค. ์ด ๋ ํญ๋ง ์๋ฉด, ๊ทธ ๊ด์ ์ ๋ค์ ์ํ๋ ๊ฒฐ์ ๋๋ค.
์ง๊ด์ ์ผ๋ก ํํํ๋ฉด ์ด๋ ๋ค. 16๋ช ์ด ์์ ์ก๊ณ ์ค๋ค๋ฆฌ๊ธฐ๋ฅผ ํ๋ ์ํฉ์์, ๊ฐ ์ฌ๋์ ์๊ธฐ๊ฐ ๋ฐ๋ ์์ง ํ๊ณผ ์๊ธฐ ๋ฌด๊ฒ์ค์ฌ๋ง ์๋ฉด ๋ค์ ํ ๋ฐ์ ์ ํํ ๋ด๋์ ์ ์๋ค. ์ ์ฌ๋์ด ์ด๋ค ์์ธ๋ก ์ด๋ค ๊ทผ์ก์ ์ผ๋์ง ์ ํ์๊ฐ ์๋ค. ์ ์ฌ๋๋ค์ ๋ชจ๋ ์ํ๋ โ๋ด ์๋ฐ๋ฅ์ ์ ํด์ง ์์ง ์ฅ๋ ฅโ์ด๋ผ๋ ํ๋์ ์ ํธ๋ก ์์ถ๋์ด ๋ด๊ฒ ๋๋ฌํ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฌผ๋ก ์ฐ๋ฆฌ๋ ์ด ํจ๊ณผ ํญ์ ์ง์ ์ธก์ ํ์ง ๋ชปํ๋ค. ๊ทธ๋ฌ๋ ์งง์ ํ์คํ ๋ฆฌ h_t^i ์์๋ ๊ฐ์๋, ์๋, ์์น, ๋ช ๋ น ํ ํฌ๊ฐ ๋ค ๋ค์ด ์๊ณ , ํจ๊ณผ ํญ์ด ์งง์ ์๊ฐ ๋์ ์ฐ์ํจ์์ฒ๋ผ ๋ณํ๋ค๊ณ ๊ฐ์ ํ๋ฉด ์ด ํ์คํ ๋ฆฌ๋ง์ผ๋ก ์ถฉ๋ถํ ๋ค์ ์ํ๋ฅผ ์์ธกํ ์ ์๋ค. ์ ๊ฒฝ๋ง์ ์ด ํจ์ ๋งคํ์ ํ์ตํ๋ค.
%%| label: fig-jointwise
%%| fig-cap: "๊ด์ ๋จ์ ๋์ญํ ๋ชจ๋ธ์ ๊ตฌ์กฐ. ๊ฐ ๊ด์ i๋ ์๊ธฐ ์์ ์ W-step ํ์คํ ๋ฆฌ๋ง ์
๋ ฅ์ผ๋ก ๋ฐ์ ๋ค์ ์ํ๋ฅผ ์์ธกํ๋ค."
flowchart LR
subgraph WHOLE["์ ์ฒด ์ ๋ชจ๋ธ f_theta"]
H["H_t<br/>(์ ์ฒด ์ ํ์คํ ๋ฆฌ)<br/>์ฐจ์: 2*W*d"] --> Q["q_{t+1}<br/>(์ ์ฒด ์ ์ํ)"]
end
subgraph JOINT["๊ด์ ๋ณ ๋ชจ๋ธ f_psi_i"]
H1["h_t^1"] --> Q1["q_{t+1}^1"]
H2["h_t^2"] --> Q2["q_{t+1}^2"]
HN["..."] --> QN["..."]
HD["h_t^d"] --> QD["q_{t+1}^d"]
end
WHOLE -.->|"๋ถํด<br/>(factorize)"| JOINT์ด ๊ฒฐ์ ์ด ๊ฐ์ ธ์ค๋ ๋ ๊ฐ์ง ๊ฒฐ๊ณผ๊ฐ ์๋ค.
- ์ํ ํจ์จ์ฑ: ์ ๋ ฅ ์ฐจ์์ด 2Wd ์์ 2W ๋ก ์ค์ด๋ ๋ค. d=16์ด๋ผ๋ฉด 16๋ฐฐ ์ ์ ์ฐจ์์ด๋ค. ๋ฐ์ดํฐ ํ trajectory๊ฐ d๊ฐ์ ํ์ต ์ํ์ ๋ง๋ค์ด๋ด๋ ํจ๊ณผ๋ ๋ถ์์ ์ผ๋ก ๋ฐ๋ผ์จ๋ค.
- ๊ฐ์ฒด ์ํ ์ถ์ ์์กด์ฑ ์ ๊ฑฐ: ์๊ฐ๋ฝ ์ฌ์ด์์ ๊ฐ๋ ค์ง๋ ๋ฌผ์ฒด์ 6D ์์ธ๋ฅผ ์ถ์ ํ ํ์๊ฐ ์๋ค. ๊ฐ์ฒด์ ์ํฅ์ ํจ๊ณผ ํญ์ ์๋์ผ๋ก ์์ถ๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋น์ ์ถ์ ์ ๋ ธ์ด์ฆ์ occlusion ๋ฌธ์ ๊ฐ ์ฌ๋ผ์ง๋ค.
๋ ๋ฒ์งธ ํต์ฐฐ: ์ ๋ณด ์์ถ์ด ์ผ๋ฐํ ๊ฒฉ์ฐจ๋ฅผ ์ค์ธ๋ค
์ฌ๊ธฐ๊น์ง๋ โ๊ทธ๋ด๋ฏํ ๋ชจ๋ธ๋ง ์ ํโ ์ ๋๋ค. ๋ ผ๋ฌธ์ด ํ ๋ฐ ๋ ๋์๊ฐ๋ ๊ณณ์, ์ ์ด ๋ถํด๊ฐ ๋ถํฌ ๋ณํ(distribution shift)์ ๊ฐ๊ฑดํ์ง๋ฅผ ์ํ์ ์ผ๋ก ์ฆ๋ช ํ๋ ๋ถ๋ถ์ด๋ค.
๋ฌธ์ ์ค์ ์ ์ด๋ ๋ค. ํ์ต ๋ถํฌ \mathcal{Q} (Chaos Box์์ ๋ชจ์ ๋ฐ์ดํฐ)์ ํ๊ฒ ๋ถํฌ \mathcal{P} (์ค์ ํ์ task)์ด ๋ค๋ฅด๋ค. ์ฐ๋ฆฌ๋ \mathcal{Q} ์์์ ํ์ตํ ๋ชจ๋ธ์ด \mathcal{P} ์์์๋ ์ ์๋ํ๊ธฐ๋ฅผ ์ํ๋ค.
ํต์ฌ ๋๊ตฌ๋ Data Processing Inequality (DPI) ๋ค. ์ด๋ค ์ธก์ ๊ฐ๋ฅํ ๋ณํ g (๋น๋จ์ฌ์ , non-injective)์ ๋ํด
\mathrm{KL}(\mathcal{P} \| \mathcal{Q}) \geq \mathrm{KL}(g(\mathcal{P}) \| g(\mathcal{Q}))
๊ฐ ์ฑ๋ฆฝํ๋ค. ์ฆ ๋ณํ g๋ฅผ ๊ฑฐ์น๊ณ ๋๋ฉด ๋ ๋ถํฌ ์ฌ์ด์ KL ๋ฐ์ฐ์ ์์์ง ๋ฟ, ์ปค์ง์ง ์๋๋ค. ๋ ๊ฐํ ํํ๋, g๊ฐ ์ง์ ์ผ๋ก ์ ๋ณด๋ฅผ ์์ ๋ ๋ถ๋ฑ์์ด ์๊ฒฉํ๊ฒ ์ฑ๋ฆฝํ๋ค๋ ๊ฒ์ด๋ค.
DexNDM์์ g๋ โ์ ์ฒด ์ ํ์คํ ๋ฆฌ์์ ๊ด์ i์ ํ์คํ ๋ฆฌ๋ง ์ถ์ถํ๋ ์ฌ์โ์ด๋ค. ์ ์์ญ ์ฐจ์ 2Wd์์ ๊ณต์ญ ์ฐจ์ 2W๋ก ์ค์ด๋, ์ ๋ณด๋ฅผ ์๋๋ค. ๋ฐ๋ผ์
\mathrm{KL}(g(\mathcal{P}) \| g(\mathcal{Q})) < \mathrm{KL}(\mathcal{P} \| \mathcal{Q})
์ด KL ์ถ์๊ฐ ์ผ๋ฐํ ๊ฒฉ์ฐจ์ ์ถ์๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ด Theorem 3.2์ ๋ด์ฉ์ด๋ค. ๊ณต๋ณ๋ ์ํํธ(covariate shift) ๊ฐ์ ์๋์์, ์์์ ํ์ต๋ ํจ์์ ๋ํด
\sup |R_{\mathcal{P}}(f_2 \circ g_X) - R_{\mathcal{Q}}(f_2 \circ g_X)| < \sup |R_{\mathcal{P}}(f_1) - R_{\mathcal{Q}}(f_1)|
์ด ์ฑ๋ฆฝํ๋ค. ํ์ด ์ฐ๋ฉด ์ด๋ ๋ค.
๊ฐ์ ์์ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋, ์ ์ฐจ์ ์ฌ์ ๊ณต๊ฐ์์ ํ์ตํ ๊ด์ ๋ณ ๋ชจ๋ธ์ด, ๊ณ ์ฐจ์ ์๊ณต๊ฐ์์ ํ์ตํ ์ ์ฒด ์ ๋ชจ๋ธ๋ณด๋ค ๋ ์์ ์ผ๋ฐํ ๊ฒฉ์ฐจ๋ฅผ ๊ฐ๋๋ค.
์ง๊ด์ผ๋ก ํ์ด๋ณด์. ํ์ต ๋ถํฌ์ ํ๊ฐ ๋ถํฌ๊ฐ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์๋ก ๋ค๋ฅธ ๊ตฌ์์ ์๋ค๊ณ ํ์. ๊ทธ๋ฐ๋ฐ ๋ ๋ถํฌ๋ฅผ ๋์ผํ ์ ์ฐจ์ ์ถ์ผ๋ก ์ฌ์ํ๋ฉด, ๋ ๋ถํฌ๋ ๊ทธ ์ถ ์์์ ํจ์ฌ ๋ ๋น์ทํ๊ฒ ๋ณด์ธ๋ค. ํฉ์ด์ง ๋ค์ฑ๋ก์ด ๋ณ์๋ฆฌ๊ฐ ๋ฉ๋ฆฌ์ ๋ณด๋ฉด ๋น์ทํ ์๊ฐ๋ก ๋ญ๋ฑ๊ทธ๋ ค์ง๋ ๊ฒ๊ณผ ๊ฐ๋ค. ์ด โ์๊ทผ ํจ๊ณผโ๊ฐ ์ ๋ณด ์์ถ์ ๋ณธ์ง์ด๋ค.
DexNDM์ ์ฝ์ ์ด ๋ ๋งํ ๋ถ๋ถ๋ ๋์์ ๋ณดํธ๋๋ค. ๋จ์ผ ๊ด์ ํ์คํ ๋ฆฌ๋ ํจ๊ณผ ํญ์ ์ถ์ ํ๊ธฐ์๋ ์ถฉ๋ถํ์ง๋ง, ๋ค๋ฅธ ๊ด์ ๋ค์ ๊ณ ์ฐจ์ ์ํฅ๋ ฅ์ ๋ณต์ํ๊ธฐ์๋ ๋ถ์กฑํ๋ค. ํํ๋ ฅ์ ์ด์๋จ๊ณ , ํ๋ ์๊ด๊ด๊ณ๋ ์ฐจ๋จ๋๋ค. ์ด๊ฒ์ด ์ ๋ณด ๋ณ๋ชฉ(information bottleneck)์ด ์๋ํ๋ ๋ฐฉ์์ด๋ค.
๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ์ฌ ์ด๊ธฐ๊ฐ์ ์ก๊ณ , ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ๋ค. ์ฌ์ ํ์ต์ด ablation์์ ํฐ ์ฐจ์ด๋ฅผ ๋ง๋ค์๋ค.
์ธ ๋ฒ์งธ ํต์ฐฐ: Chaos Box๋ก ๋ฐ์ดํฐ๋ฅผ ๊ฑฐ์ ๋ชจ์๋ค
๋ชจ๋ธ์ด ๋ถํฌ ๋ณํ์ ๊ฐ๊ฑดํ๋ค๋ ์ฌ์ค์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ผ๋ก ๋จ์ํํ ์ ์๊ฒ ํ๋ค. ์ด ๋ถ๋ถ์ด DexNDM์์ ์ค๋ฌด์์๊ฒ ๊ฐ์ฅ ๋งค๋ ฅ์ ์ธ ๋๋ชฉ์ด๋ค.
๊ธฐ์กด ๋ฐ์ดํฐ ์์ง์ ํจ์ ์ ์ง์ด๋ณด์.
| ๋ฐฉ์ | ๋ฌธ์ ์ |
|---|---|
| ๋ฒ ์ด์ค ์ ์ฑ ๋กค์์ (ASAP, MB-Max) | ์ด๋ ค์ด ๋ฌผ์ฒด์์ ์๊พธ ๋จ์ด๋จ๋ฆผ. ์ฌ๋์ด ๊ณ์ ๋ค์ ์ธํ ํด์ผ ํจ |
| Wave action (UAN) | ๊ฐ์ฒด ๋ถํ๊ฐ ์์ด์ ์ค์ dynamics์ ๋๋จ์ด์ง |
| ๋น์ ๊ธฐ๋ฐ ๊ฐ์ฒด ์ถ์ | ์์ ๊ฐ๋ ค์ ธ ์ถ์ ์คํจ. ์์ ๋ฌผ์ฒด์ผ์๋ก ์ฌํจ |
DexNDM์ ๋ต์ ๋จ์ํ๋ค. ๊ณต ํต(Chaos Box)์ ์์ ์ฒ๋ฐ๋๋ค. ๋ถ๋๋ฌ์ด ๊ณต์ผ๋ก ๊ฐ๋ ์ฐฌ ํต ์์ LEAP hand๋ฅผ ๋ฃ๊ณ , ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ํ๋์ open-loop๋ก ์ฌ์ํ๋ค. 50% ํ๋ฅ ๋ก ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(\sigma=0.01)๋ฅผ ์ถ๊ฐํ๋ค. ๊ทธ๊ฒ ์ ๋ถ๋ค.
์ด ๋จ์ํ ์ธํ ์ด ๋ค ๊ฐ์ง ์์น์ ๋์์ ๋ง์กฑํ๋ค.
- Policy-awareness: ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ํ๋ ๋ถํฌ๋ฅผ ์ฌ์ํ๋ฏ๋ก, ๊ฑฐ์์ ์ผ๋ก๋ task์ ๋น์ทํ ํ๋ ์์ญ์ ๋จธ๋ฌธ๋ค.
- Object-loaded interaction: ๊ณต๋ค์ด ์๊ฐ๋ฝ ์ฌ์ด์์ ๋ฌด์์ ๋ถํ๋ฅผ ๋ง๋ ๋ค. ๋จ์ wave action๊ณผ ๊ฒฐ์ ์ ์ผ๋ก ๋ค๋ฅธ ์ ์ด๋ค.
- Broad coverage: ๋ ธ์ด์ฆ ์ถ๊ฐ์ ๊ณต๋ค์ ๋ฌด์์์ฑ์ด ๋ถํฌ ํญ์ ๋ํ๋ค.
- Scalability: ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆด ์ผ์ด ์๋ค. ์ฌ๋์ด ๊ฐ์ ํ ํ์๊ฐ ์๋ค. ํ๋์จ์ด ์์ ์ํ๋ ๋ฎ๋ค.
๊ฒฐ๊ณผ๋ ์ธ์์ ์ด๋ค. ๋ ผ๋ฌธ์ task-aware ๋ฐ์ดํฐ ์์ง์ผ๋ก ๋์ผํ ์ฑ๋ฅ์ ๋ด๋ ค๋ฉด ์ฝ 750๋ง ๊ฐ์ trajectory, ์ฝ 41๋ง 7์ฒ ์๊ฐ์ด ํ์ํ๋ค๊ณ ์ธ์ฝํ๋ค. Chaos Box๋ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ฉฐ์น ์์ ๋ธ๋ค. ํต์ฌ์ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฐ์ดํฐ์ ๋ถํฌ ์ผ์น ์๊ตฌ๋ฅผ ์ํํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ๊ธฐ์ ์์ฃผ ๋ฐ์ ๋งํ ์๋ฌธ์ ๋ฏธ๋ฆฌ ๋ตํ์. โ๋ถํฌ๊ฐ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ด ์ ์ task์์ ์ ์๋ํ ๊น?โ ๋ ผ๋ฌธ์ Figure 4๋ ์ด ์ง๋ฌธ์ ๋ํ ๊ฒฝํ์ ์ฆ๊ฑฐ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋จ์ผ ๊ด์ ์ ์ ์ถ๋ ฅ ํ์คํ ๋ฆฌ ๋ถํฌ๋ Chaos Box ๋ฐ์ดํฐ์ ์ค์ task ๋ฐ์ดํฐ ์ฌ์ด์์ ๊ฑฐ์ ๊ฒน์น๋ค. ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒด ์ ๋จ์๋ก ๋ณด๋ฉด ๋ ๋ถํฌ๊ฐ ๋ถ๋ฆฌ๋๋ค. ์ด๊ฒ์ด ์ฌ์ g๊ฐ KL์ ์ถ์ํ๋ ๋ชจ์ต์ ๊ทธ๋๋ก ์๊ฐํํ ๊ฒฐ๊ณผ๋ค.
๋ค ๋ฒ์งธ ํต์ฐฐ: ๋ฒ ์ด์ค ์ ์ฑ ์ ๊ฑด๋๋ฆฌ์ง ์๋๋ค (residual policy)
ํ์ต๋ dynamics ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ธ ๊ฒ์ธ๊ฐ? ์์ฐ์ค๋ฌ์ด ์ ํ์ง๋ ๋ ๊ฐ์ง๋ค.
- ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด(MPC)๋ ์ ์ฑ ํ์ธํ๋: ํ์ต๋ dynamics๋ก ์๋ฎฌ๋ ์ด์ ์ ๋ง๋ค์ด ์ ์ฑ ์ ์ฌํ์ตํ๋ค. ASAP, UAN์ ์ ๊ทผ.
- Residual policy: ๋ฒ ์ด์ค ์ ์ฑ ์ ์ถ๋ ฅ์ ๋ณด์ ํ๋ ์์ ์ ์ฑ ์ ๋ณ๋๋ก ํ์ตํ๋ค.
DexNDM์ ํ์๋ฅผ ์ ํํ๋ค. ์ด์ ๋? ํ์ต๋ dynamics ๋ชจ๋ธ์ ๋ถ๋ถ์ ์ผ๋ก๋ง ์ ํํ๋ค(global accuracy ๋ณด์ฅ ์์). ๊ทธ ์์์ ์ ์ฑ ์ ๋ค์ ํ์ต์ํค๋ฉด ๋ชจ๋ธ ์ค์ฐจ์ ์ ์ฑ ์ด ๊ณผ์ ํฉํ๋ค. Residual์ ๊ทธ ์ํ์ ์ค์ธ๋ค.
์์์ผ๋ก ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
{\pi^{\text{res}}}^{*} = \arg\min_{\pi^{\text{res}}} \mathbb{E}_{\tau \sim p_{\pi^*}(\tau)} \sum_{t=1}^{N-1} \left\| \mathbf{q}_{t+1} - f_\psi\left(\{\mathbf{q}_j, \mathbf{a}_j + \pi^{\text{res}}(\mathbf{o}_j^{\text{gene}}, \mathbf{a}_j)\}_{j=t-W+1}^{t}\right) \right\|
์ง๊ด์ ์ผ๋ก ํ๋ฉด ์ด๋ ๋ค. ์๋ฎฌ๋ ์ด์ ์ ์ ๋ต trajectory๋ฅผ ๊ฐ์ง๊ณ , โ๋ณด์ ๋ ์ก์ ์ ์ค์ธ๊ณ dynamics ๋ชจ๋ธ์ ๋ฃ์์ ๋ ์๋ฎฌ๋ ์ด์ ์ ๋ค์ ์ํ๊ฐ ๋์ค๋๋กโ ๋ณด์ ํญ์ ํ์ตํ๋ค. ๊ทธ๋ฌ๋ฉด ์ค์ ๋ก๋ด์ ๋ณด์ ๋ ์ก์ ์ ์คฌ์ ๋, ์๋ฎฌ๋ ์ด์ ์ด ๋ณด์ฌ์ค ํ๋๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค๋ ๋ ผ๋ฆฌ๋ค.
๋ฐฐํฌ ์์๋ ๋จ์ํ \mathbf{a}_t + \mathbf{a}_t^{\text{res}} ๋ฅผ ์คํํ๋ค. ๋ฒ ์ด์ค ์ ์ฑ ์ ๊ทธ๋๋ก๋ค. ์ด๊ฑด ์ค๋ฌด์ ์ผ๋ก ํฐ ์ด์ ์ด๋ค. ์ ๊ฐ์ฒด๋ ์ wrist ์์ธ๋ฅผ ์ถ๊ฐํ ๋, ๋ฒ ์ด์ค ์ ์ฑ ์ ๋ค์ ํ์ตํ ํ์ ์์ด dynamics ๋ชจ๋ธ๊ณผ residual๋ง ์ ๋ฐ์ดํธํ๋ฉด ๋๋ค.
์ ์ฒด ํ์ดํ๋ผ์ธ
์ ์ฒด ํ์ดํ๋ผ์ธ์ ํ ์ฅ์ผ๋ก ์ ๋ฆฌํ๋ฉด ์ด๋ ๋ค.
flowchart TB
subgraph SIM["Simulation training"]
A["(A) Train category-specific<br/>oracle policies (PPO)"] --> B["(B) Distill into generalist<br/>via Behavior Cloning"]
end
subgraph S2R["Neural sim-to-real"]
C["(C) Chaos Box<br/>autonomous data collection"] --> D["(D) Train joint-wise<br/>neural dynamics f_psi"]
D --> E["(E) Train residual policy<br/>pi_res via supervised learning"]
end
B --> E
E --> F["Deploy: a_t + a_t^res<br/>on LEAP hand"]
๋ฒ ์ด์ค ์ ์ฑ ํ์ต ์์ฒด์๋ ํ ๊ฐ์ง ๋ํ ์ผ์ด ์๋ค. DAgger ์คํ์ผ distillation์ ์ด setting์์ ๋ฌด๋์ง๋ค. ์๋ฎฌ๋ ์ด์ ์ต์ ํ๊ฐ ์ ๋๊ฑฐ๋ ์ค์ธ๊ณ์์ ์ ์ฑ ์ด ๋ถ๊ดด๋๋ค. ๋ ผ๋ฌธ์ PenSpin์ ๊ด์ฐฐ๊ณผ ์ผ์นํ๋ค๊ณ ๋ณธ๋ค. ๋์์ ๋จ์ํ BC๋ค. ์นดํ ๊ณ ๋ฆฌ๋ณ oracle ์ ์ฑ ์ ๋กค์์ํ๊ณ , ์ฑ๊ณตํ trajectory๋ง ๊ณจ๋ผ์ generalist๋ฅผ supervised๋ก ํ์ตํ๋ค. ๊ณ ํ์ง ํ๋๋ง ๋ชจ๋ฐฉํ๋ ๊ฒ์ด ์ด ๋์ด๋์์๋ ๋ ์ ํตํ๋ค.
์คํ: ๋ฌด์์, ์ด๋ป๊ฒ, ์
์ค์
- ํ๋์จ์ด: LEAP hand (16-DoF, 4-finger). Visual Dexterity์ ์ปค์คํ DโClaw๋ณด๋ค ์๊ณ ์ผ๋ฐ์ ์ด๋ค.
- ๊ฐ์ฒด ๋ถํฌ: ๋๋ฌผ ๋ชจ์(์ฝ๋ผ๋ฆฌ, ํ ๋ผ, ์ฐป์ฃผ์ ์), ์ข ํก๋น ์ต๋ 5.33 (์: 20cm ๋ง๋), ์์ ๋ฌผ์ฒด(2-3cm). object-to-hand ratio 0.31์์ 1.68.
- Wrist orientation: palm up/down, base up/down, thumb up/down ๋ฑ ๋ค์ํ ๋ฐฉํฅ.
- ํ์ ์ถ: ๋ค์ถ.
์ฃผ์ ๊ฒฐ๊ณผ
์๋ฎฌ๋ ์ด์ ์ผ๋ฐํ: ๋ฒ ์ด์ค ์ ์ฑ ์ด ์๋ก์ด ๋ณต์ก ํ์์ ๋ํด baseline์ 37%-81% ์ฐจ์ด๋ก ์์ ๋ค. ๋จ์ผ ์ ์ฑ ์ผ๋ก ์นดํ ๊ณ ๋ฆฌ ๊ฐ generalist ๋ฅ๋ ฅ์ ํ๋ณดํ๋ค๋ ์ฆ๊ฑฐ๋ค.
์ค์ธ๊ณ ๊ฒ์ฆ: sim-to-real ๋ชจ๋์ด ์ผ๊ด๋๊ฒ ํ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฐ๋ค. ํนํ ์๋ฑ์ด ์๋๋ก ํฅํ ์์ธ์์ 10-16cm ๋ง๋๋ฅผ ์ฅ์ถ ๊ธฐ์ค์ผ๋ก ํ ๋ฐํด ๊ฐ๊น์ด ๊ณต์ค์์ ํ์ ์ํจ ์ฒซ ์์ฐ์ด๋ค. ์ด๊ฑด dexterous manipulation์ โ์ด๋ ต๋ค๊ณ ์๋ ค์ง ์์ธโ์์์ ๋ํ๋ค.
Visual Dexterity ๋น๊ต: VD๊ฐ ํฐ DโClaw๋ก ๋ณด์ฌ์คฌ๋ ๋ณต์ก ํ์ ํ์ ์ฑ๋ฅ์, DexNDM์ ๋ ์์ LEAP hand์์ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ๊ฒ ๋ฌ์ฑํ๋ค. VD๊ฐ ์ด๋ ค์ํ ์ฝ๋ผ๋ฆฌ, ํ ๋ผ, ์ฐป์ฃผ์ ์ ๊ฐ์ ํ์์์ ๋ ์ ์๋ํ๋ค. โsurvival angle(๋จ์ด๋จ๋ฆฌ๊ธฐ ์ ๊น์ง์ ๋์ ํ์ ๊ฐ)โ ์งํ์์ ๋น์ทํ๊ฑฐ๋ ์ฐ์ํ๋ค.
AnyRotate ๋น๊ต: AnyRotate์ axis/wrist ์ผ๋ฐ์ฑ์ ์ ํ ๊ฐ์ฒด์ ํ์ ๋์๋ค. DexNDM์ ๊ฐ์ ์ผ๋ฐ์ฑ์ ์ ์งํ๋ฉด์ ๋ ์ด๋ ค์ด ๊ฐ์ฒด ๋ถํฌ(์์ ํฌ๊ธฐ, ๋์ ์ข ํก๋น)๊น์ง ๋ค๋ฃฌ๋ค. ์๊ฐ๋ฝ ๊ฒ์ดํ (finger gaiting)๋ ๋ ์ ๊ตํ๋ค.
ASAP/UAN ๋น๊ต: ์ด ๋ sim-to-real ๊ธฐ๋ฒ์ dexterous manipulation์์ ์์ ํ ์คํจํ๋ค. ์ด์ ๋ ๋ช ํํ๋ค. ๊ทธ๋ค์ dynamics ๋ชจ๋ธ/compensator๋ ์์ ์ด๋(๊ฐ์ฒด ์์) ๋ฐ์ดํฐ๋ก ํ์ต๋๊ธฐ ๋๋ฌธ์, ๊ฐ์ฒด์์ ํ๋ถํ ์ ์ด dynamics๋ฅผ ์ผ๋ฐํํ์ง ๋ชปํ๋ค. DexNDM์ Chaos Box๋ก ๊ฐ์ฒด ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์๊ธฐ ๋๋ฌธ์ ์ด ๊ฒฉ์ฐจ๊ฐ ์๋ค.
Ablation ๋ถ์ ์์ฝ
| ๋ณ๊ฒฝ์ | ์ํฅ |
|---|---|
| Joint-wise โ Whole-hand dynamics | ์ ์ ๋ฐ์ดํฐ/๋ถํฌ ์ํํธ ํ๊ฒฝ์์ 37%-81% ์ฑ๋ฅ ํ๋ฝ |
| Joint-wise โ Finger-wise dynamics | ์ค๊ฐ ์ ๋ ํ๋ฝ. ์๊ฐ๋ฝ ๋จ์๋ ์ ๋ณด ์์ถ์ด ๋ถ์กฑ |
| ์๋ฎฌ๋ ์ด์ ์ฌ์ ํ์ต ์ ๊ฑฐ | ํฐ ํญ์ ์ฑ๋ฅ ํ๋ฝ |
| Chaos Box โ wave action๋ง | ๊ฐ์ฒด ๋ถํ ๋ถ์ฌ๋ก ์ค์ธ๊ณ dynamics ํ์ต ์คํจ |
| ๋ ธ์ด์ฆ ์ฃผ์ ์ ๊ฑฐ | ๋ถํฌ ํญ์ด ์ข์์ ธ ์ผ๋ฐํ ์ ํ |
| Policy-aware replay ์ ๊ฑฐ | task ์์ญ์์์ ์ ํ๋ ํ๋ฝ |
๊ฐ ์ค๊ณ ์ ํ์ด ์ฐ์ฐ์ด ์๋๋ผ๋ ์ ์ด ablation์ผ๋ก ๋ช ํํ ๋๋ฌ๋๋ค.
์์ฉ: Teleoperation
์ผ๋ฐํ๋ ํ์ ์ ์ฑ ์์ Meta Quest 3 ๊ธฐ๋ฐ teleoperation ์์คํ ์ ์น์ด, ๋๋ผ์ด๋ฒ ์ฌ์ฉ, ์นผ ๋ค๋ฃจ๊ธฐ, ๋ถํ ์กฐ๋ฆฝ ๊ฐ์ long-horizon dexterous task๋ฅผ ์ํํ๋ค. ํ์ ๋ฅ๋ ฅ์ด ์ผ๋ฐ์ ์ด๋ผ๋ ๊ฒ์, ๊ทธ ์์ ๋ ๋ณต์กํ task layer๋ฅผ ์น์ ์ ์๋ค๋ ์๋ฏธ๋ค. ์ด๊ฑด ์ฐ์ ์ ํจ์๊ฐ ํฌ๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์ด๋ก ๊ณผ ์คํ์ด ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํจ๋ค. DPI ๊ธฐ๋ฐ ์ผ๋ฐํ ๋ถ์์ด ๊ฒฐ๊ณผ๋ฅผ ๊น๋ํ๊ฒ ์ค๋ช ํ๋ค. โ๋จ์ผ ๊ด์ ํ์คํ ๋ฆฌ๋ ์๊ธฐ ๋์ญํ์ ์์ธกํ๊ธฐ์ ์ถฉ๋ถํ๋, ๋ค๋ฅธ ๊ด์ ์ ์ํฅ์ ๋ณต์ํ๊ธฐ์ ๋ถ์กฑํ๋คโ๋ ๋ถ์์ ํํ๋ ฅ๊ณผ ์ ๊ทํ์ ๊ท ํ์ ์ ์ก์๋ค.
- ํ๋์จ์ด ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถ๋ค. ๋น์ผ ์ด๊ฐ ์ผ์๋ ์ปค์คํ hand ์์ด LEAP hand๋ก SOTA๋ฅผ ์น๋ค. Allegro Hand ๊ฐ์ ์ผ๋ฐ ์ฐ๊ตฌ์ฉ hand๋ก๋ follow-up์ด ๊ฐ๋ฅํด ๋ณด์ธ๋ค.
- ๋ฐ์ดํฐ ์์ง์ ์ค์ฉ์ฑ. Chaos Box๋ ์ด๋ค ์ฐ๊ตฌ์ค์ด๋ ๋ฉฐ์น ์์ ์ฌํํ ์ ์์ ๋งํผ ๋จ์ํ๋ค. ์ฌ๋ ๊ฐ์ ๊ณผ ๋น์ ์ถ์ ์์กด์ ๋ชจ๋ ์ ๊ฑฐํ ๊ฒ์ด ํต์ฌ ๊ฐ์น๋ค.
- ๋ชจ๋์ ์ค๊ณ. ๋ฒ ์ด์ค ์ ์ฑ , dynamics ๋ชจ๋ธ, residual policy๊ฐ ๋ถ๋ฆฌ๋์ด ์์ด ๋ถ๋ถ ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋ฅํ๋ค. ์ ๊ฐ์ฒด ์ถ๊ฐ๋ ์ wrist ์์ธ ์ถ๊ฐ ์, ์ ์ฒด ์ฌํ์ต์ด ์๋ ๋ชจ๋ ๊ต์ฒด๋ก ๋์ํ ์ ์๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ด๊ฐ ์ผ์ ๋ถ์ฌ. ๋ ผ๋ฌธ ์ค์ค๋ก ์ธ์ ํ ํ๊ณ๋ค. ๋ฏธ๋๋ผ ๋ฐ์, ๋ฏธ์ธ ์ ์ด ๊ฒ์ถ, ํ๋ฉด ์ฌ์ง ์ถ์ ๊ฐ์ ๋ฅ๋ ฅ์ด ๋น ์ ธ์๋ค. DIGIT์ด๋ GelSight ํตํฉ์ ์์ฐ์ค๋ฌ์ด ํ์ ๋ฐฉํฅ์ด๋ค.
- ์ ์ ๊ฐ์ . Coriolis ํญ ๋ฌด์๋ ์ผ๋ฐ์ ์ธ in-hand ํ์ ์๋์์๋ ํฉ๋ฆฌ์ ์ด์ง๋ง, ๋น ๋ฅธ finger gaiting์ด๋ ๋์ manipulation์์๋ ๊นจ์ง ์ ์๋ค. ํจ๊ณผ ํญ์ด ์งง์ ์๋์ฐ์์ ์ฐ์ํจ์์ฒ๋ผ ๋ณํ๋ค๋ ๊ฐ์ ์ด ํ๋ค๋ฆฌ๋ ๊ฒฝ์ฐ๋ค.
- ํ์ task์ ํนํ๋ ๊ฒ์ฆ. Residual policy์ ํ์ต ๋ชฉํ๊ฐ โ์๋ฎฌ๋ ์ด์ ์ด ๋ณธ ๋ค์ ์ํ์ ๋๋ฌํ๊ธฐโ๋ค. ์ด๋ trajectory๊ฐ ๋ณธ์ง์ ์ผ๋ก ํ์ ์ธ ๊ฒฝ์ฐ์ ์ ์๋ํ์ง๋ง, ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด๋ grasping/handover ๊ฐ์ task๋ก ์ฎ๊ธฐ๋ฉด dynamics ๋ชจ๋ธ์ ํํ ํ๊ณ๊ฐ ๋๋ฌ๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
- Chaos Box์ ๋ถํฌ๊ฐ ์ถฉ๋ถํ๊ฐ?. Figure 4๊ฐ ๋ณด์ฌ์ฃผ๋ ๋ถํฌ ์ผ์น๋ ๋งค๋ ฅ์ ์ด์ง๋ง, ์ค์ ๋ก ๋ ๊ทน๋จ์ ์ธ ์์ธ๋ ๋งค์ฐ ์์ ๋ฌผ์ฒด์์ ํจ๊ณผ ํญ์ ๋ถํฌ๊ฐ Chaos Box๋ก ์ถฉ๋ถํ ์ปค๋ฒ๋๋์ง๋ case-by-case๋ค. ๊ทน๋จ ์ผ์ด์ค์์ ๋ถํฌ ๋ณด์ ์ ๋ต์ด ๋ณ๋๋ก ํ์ํ ์ ์๋ค.
- Residual policy์ ๋ณด์ ๋ฒ์. ๋ฒ ์ด์ค ์ ์ฑ ์ด ์์ ํ ๋ถ์ ํฉํ ๊ฒฝ์ฐ(์: ์๋ฎฌ๋ ์ด์ ์์๋ ๋ชป ํธ๋ ์๋ก์ด task), residual์ ํ๊ณ๊ฐ ์๋ค. ๋ฒ ์ด์ค ์ ์ฑ ์ ํ์ง์ด ceiling์ ์ ํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์์น ์ง๊ธฐ
| ์ฐ๊ตฌ | ์ ๊ทผ | DexNDM๊ณผ์ ๊ด๊ณ |
|---|---|---|
| RMA (Kumar 2021) | proprioceptive history๋ก ์ ์ฌ ํํ ํ์ต | DexNDM์ ๊ด์ ๋ณ ๋ชจ๋ธ๋ง์ด RMA๋ฅผ ๊ด์ ๋จ์๋ก ๋ถํดํ ์ผ๋ฐํ |
| Visual Dexterity (Chen 2022) | ๋น์ + RL + ํฐ DโClaw | DexNDM์ ๋ ์์ hand๋ก ๋๋ฑ ์ด์. Wrist orientation ์ผ๋ฐ์ฑ์์ ์ฐ์ |
| AnyRotate (Yang 2024) | ์ด๊ฐ + axis/wrist ์ผ๋ฐํ | DexNDM์ ์ด๊ฐ ์์ด ๊ฐ์ฒด ์ผ๋ฐ์ฑ๊น์ง ํ์ฅ |
| ASAP (He 2025) | ์ ์ฒด ์์คํ dynamics ํ์ต, locomotion ์ค์ฌ | DexNDM์ dexterous manipulation์ ์ ํฉํ๋๋ก ๋ถํด๋ dynamics |
| UAN (Fey 2025) | sim-real delta action ํ์ต | UAN์ ๊ฐ์ฒด ๋ถํ ์์ด ํ์ต. Manipulation ์ผ๋ฐํ ์คํจ |
| HORA (Qi 2023) | proprioception ๊ธฐ๋ฐ in-hand ํ์ | DexNDM์ sim-to-real ๋ชจ๋์ HORA ๋ฅ์ ๊ฒฐํฉํ๋ฉด hardware ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ |
Allegro Hand ์ฐ๊ตฌ์๊ฐ ๊ฐ์ ธ๊ฐ ๋งํ ์ธ์ฌ์ดํธ
DexNDM์ ์ค๊ณ ๊ฒฐ์ ์ Allegro Hand ๊ธฐ๋ฐ ์ฐ๊ตฌ์๋ ์ง์ ์ ์ฉ ๊ฐ๋ฅํ ์์ฌ์ ์ ๋์ง๋ค.
- HORA, RotateIt ๋ฅ ์ ์ฑ ์ sim-to-real ๋ณด์ ๋ชจ๋๋ก ์น์ด๋ณผ ์ ์๋ค. ์ด๋ฏธ ์๋ ๋ฒ ์ด์ค ์ ์ฑ ์ ์ฌํ์ตํ์ง ์๊ณ , ๊ด์ ๋ณ dynamics๋ง Allegro Hand์์ ๋ชจ์์ residual policy๋ฅผ ์น๋ ์๋๋ฆฌ์ค๊ฐ ์์ฐ์ค๋ฝ๋ค. IsaacLab์์ PD ๊ฒ์ธ์ ์ก์๋๊ณ , Chaos Box ๋ฐ์ดํฐ๋ก ์ค์ธ๊ณ dynamics๋ฅผ ์ธก์ ํ ๋ค residual์ ํ์ตํ๋ ์ํฌํ๋ก์ฐ๊ฐ ๊ฐ๋ฅํ๋ค.
- ๊ฐ์ฒด ์ํ ์ถ์ ์ ๋ถ๋ด์ ๋ ์ ์๋ค. DIGIT/GelSight ํตํฉ ์ ์ด๋ผ๋, ๋น์ ๊ธฐ๋ฐ ๊ฐ์ฒด ํธ๋ํน ์์ด sim-to-real ๋ณด์ ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ setup์ ๋จ์ํํ๋ค.
- PD ๊ฒ์ธ ๋๋ฉ์ธ ๋๋คํ์ ๋ณด์. ๋๋ฉ์ธ ๋๋คํ๋ก ๋ชป ์ก๋ modeling discrepancy๋ฅผ residual์ด ๋ฉ์ด๋ค. ์ฆ DR๊ณผ residual์ ์ํธ ๋ฐฐ์ ๊ฐ ์๋๋ผ ๋ณด์ ๊ด๊ณ๋ค.
- F/T ์ผ์ ๋ฐ์ดํฐ๋ก ํจ๊ณผ ํญ์ ๊ฒ์ฆ. ATI Mini45 ๊ฐ์ sensor๊ฐ ์๋ค๋ฉด, ํ์ต๋ dynamics์ effective term ์์ธก์ด ์ค์ ์ธก์ ๊ณผ ์ด๋ป๊ฒ ๋น๊ต๋๋์ง ์ ๋์ ์ผ๋ก ์ดํด๋ณผ ์ ์๋ค. ์ด๋ก ์ ํจ๊ณผ ํญ์ด ์ ๊ฒฝ๋ง์ ์ด๋ป๊ฒ ์ธ์ฝ๋ฉ๋๋์ง ๊ฒ์ฆํ๋ ํฅ๋ฏธ๋ก์ด ๋ถ์ ์ฃผ์ ๋ค.
- VLA ๋ชจ๋ธ๊ณผ์ ๊ฒฐํฉ ๊ฐ๋ฅ์ฑ. ๋ฒ ์ด์ค ์ ์ฑ ์ VLA๋ก ๋๊ณ dynamics ๋ณด์ ๋ง residual๋ก ์ฒ๋ฆฌํ๋ฉด, vision-language๋ก ์ ์๋ ์ด๋ ค์ด manipulation task์์๋ sim-to-real์ ๋จ์ํํ ์ ์๋ค. ฯ0/ฯ0.5, GR00T ๊ฐ์ ๋ชจ๋ธ์ ์ก์ ์ถ๋ ฅ์ residual๋ก ๋ณด์ ํ๋ ์คํ์ ์๋๋ฆฌ์ค๋ฅผ ์๊ฐํด๋ณผ ๋งํ๋ค.
๋ง์น๋ฉฐ
DexNDM์ ๊ฐ์น๋ ๋จ์ผ ํธ๋ฆญ์ด ์๋๋ผ ๋ ๊ฒฐ์ ์ ๊ฒฐํฉ์ ์๋ค. ๋ชจ๋ธ์ ๊ด์ ๋จ์๋ก ๋ถํดํด ์ผ๋ฐํ๋ฅผ ๋์ด์ฌ๋ ธ๊ณ , ๊ทธ ์ผ๋ฐํ๊ฐ ๋ฐ์ดํฐ ์์ง์ ๋จ์ํํ ์ ์๊ฒ ํ์ด์คฌ๋ค. ๋ ๊ฒฐ์ ์ด ๋ฐ๋ก ๋จ์ด์ ธ ์์๋ค๋ฉด ํ๋ฒํ์ ๊ฒ์ด๋ค. ํจ๊ป ๋ฌถ์ด๋ sim-to-real์ด๋ผ๋ ์ค๋ ๋งค๋ญ์ด ํ๋ฆฐ๋ค.
๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ถ๋ฑ์์ด dexterous manipulation์ ์ผ๋ฐํ์ ์ ์ฉ๋๋ค๋ ๊ด์ ์ ์ ์ ํ๋ค. ์ด ๊ด์ ์ ๋ค์ ์ง๋ฌธ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๋ค. โ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ธ๋งํ๋ ์์คํ ์ ์ด๋ค ์ฌ์์ด task-sufficientํ๋ฉด์ ๋ถํฌ ์ฐจ์ด๋ฅผ ๊ฐ์ฅ ์ ์์ถํ๋๊ฐ?โ ๊ด์ ๋จ์๊ฐ ๋ต์ธ ๊ฒฝ์ฐ๋ in-hand ํ์ ์ด์๋ค. ๋ค๋ฅธ task์์๋ ๋ค๋ฅธ ์ฌ์์ด ๋ต์ผ ์ ์๋ค(์๊ฐ๋ฝ ๋จ์, ์๋ฐ๋ฅ ๋จ์, ๊ฐ์ฒด-์๊ฐ๋ฝ ์ ์ด ํจ์น ๋จ์ ๋ฑ). ์ด framework๋ฅผ ์ผ๋ฐํํ๋ฉด dexterous manipulation ์ ๋ฐ์ ์ ์ฉ ๊ฐ๋ฅํ sim-to-real ๋ ์ํผ๊ฐ ๋ง๋ค์ด์ง ๊ฐ๋ฅ์ฑ์ด ๋ณด์ธ๋ค.
์ด๊ฐ ์ ๋ณด ๋ถ์ฌ๊ฐ ceiling์ ๋ง๋ ๋ค๋ ์ ์ ๋ช ๋ฐฑํ ํ์ ๋ฐฉํฅ์ด๋ค. DIGIT ๊ฐ์ vision-based tactile ์ผ์๋ฅผ ํตํฉํ๊ณ , ํจ๊ณผ ํญ์ ์ง์ ์ถ์ ํ ์ ์๋ ์ ํธ๋ก ํ์ฉํ๋ ํ์ ์ฐ๊ตฌ๊ฐ ๊ณง ๋ฐ๋ผ์ฌ ๊ฒ์ด๋ค. ๊ทธ ์์ ์์ DexNDM์ frame์ ํ ๋จ๊ณ ๋ ๋จ๋จํด์ง ๊ฒ์ด๋ค.
์ง๊ธ ์์ ์์ ๊ฐ์ฅ ๋งค๋ ฅ์ ์ธ ๋ถ๋ถ์ ์ฌํ ๊ฐ๋ฅ์ฑ์ด๋ค. ๋น์ผ ํ๋์จ์ด๊ฐ ํ์ ์๊ณ , ๋ฐ์ดํฐ ์์ง์ ๊ณต ํต ํ๋๋ฉด ๋๋ค. ํต์ฌ ์์ด๋์ด ๋ ๊ฐ๊ฐ ๋ช ํํ๋ค. ์ฆ ๋๊ตฌ๋ ๋ฉฐ์น ์์ ์๋ํด๋ณผ ์ ์๋ ํํ๋ก ๊ฒฐ๊ณผ๊ฐ ์ ๋ฆฌ๋์ด ์๋ค๋ ์ ์ด, ์ด ๋ ผ๋ฌธ์ด dexterous manipulation ์ปค๋ฎค๋ํฐ์ ๋ฏธ์น ์ค์ ์ํฅ์ ๊ฒฐ์ ํ ๊ฒ์ด๋ค.