๐DexNDM ๋ฆฌ๋ทฐ
Xueyi Liu, He Wang, Li Yi
- ๐ค ๋ณธ ์ฐ๊ตฌ๋ sim-to-real reality gap์ผ๋ก ์ธํด ์ด๋ ค์์ด ํฐ dexterous in-hand rotation์์ ์ ๋ก ์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ๐ฆพ ์ด๋ฅผ ์ํด, limited real-world data๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ณ sim policy์ actions๋ฅผ ์กฐ์ ํ๋ joint-wise neural dynamics model๊ณผ autonomous data collection ์ ๋ต์ ์ ์ํฉ๋๋ค.
- โจ DexNDM์ ๋จ์ผ policy๋ก ๋ณต์กํ ํ์, ๋์ aspect ratio, ๋ค์ํ wrist orientation์ ๊ฐ์ง ๋ฌผ์ฒด๋ฅผ ํ์ค ์ธ๊ณ์์ ์ฑ๊ณต์ ์ผ๋ก ์กฐ์ํ์ฌ, teleoperation๊ณผ ๊ฐ์ complex dexterous tasks๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
DEXNDM: CLOSING THE REALITY GAP FOR DEXTEROUS IN-HAND ROTATION VIA JOINT-WISENEURAL DYNAMICS MODEL ๋ ผ๋ฌธ์ dexterous in-hand rotation์์ ๋ฐ์ํ๋ sim-to-real gap์ ์ขํ๊ธฐ ์ํด joint-wise neural dynamics model์ ํ์ฉํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ธ DexNDM์ ์ ์ํฉ๋๋ค.
๋ก๋ด ๊ณตํ์์ ์ผ๋ฐํ๋ ์์ ๊ฐ์ฒด ํ์ ์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ฌ์ ํ ์ค๋ํ ๋์ ๊ณผ์ ์ ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋จ์ํ ๊ธฐํํ์ ํํ, ์ ํ๋ ๊ฐ์ฒด ํฌ๊ธฐ, ๊ณ ์ ๋ ์๋ชฉ ์์ธ, ๋ง์ถคํ ํ๋์จ์ด ๋ฑ ์ ์ฝ๋ ์๋๋ฆฌ์ค์ ๊ตญํ๋์ด ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ์ ์ฃผ๋ ์์ธ์ ๋ณต์กํ๊ณ ์ ์ด์ด ๋ง์ ๋์ญํ์ผ๋ก ์ธํด ๋ฐ์ํ๋ โํ์ค-์๋ฎฌ๋ ์ด์ (sim-to-real) ๊ฐ๊ทนโ์ ๋๋ค. ํนํ, dexterous manipulation์์๋ ๋ถํฌ ๊ด๋ จ ๋ฐ์ดํฐ์ ๋๋ ์์ง์ด ์ด๋ ต๊ณ , ์น๋ช ์ ์ธ ์คํจ(์: ๊ฐ์ฒด ๋ํ) ์ ๋น๋ฒํ ์ธ๊ฐ ๊ฐ์ ์ด ํ์ํ๋ฉฐ, ์์ผ๋ก ์ธํ ๊ฐ๋ฆผ์ผ๋ก ๊ฐ์ฒด ์ํ ์ถ์ ์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
DexNDM์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ํต์ฌ ์ค๊ณ๋ฅผ ๋์ ํฉ๋๋ค.
- ์ ๋ฌธ๊ฐ-์ผ๋ฐ์ฃผ์์(Specialist-to-Generalist) ์ ์ฑ ํ๋ จ: ๋จผ์ , ๋ค์ํ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ(์ํต, ์ง์ก๋ฉด์ฒด, ๋ณต์กํ ํ์ ๋ฑ)์ ๊ฑธ์ณ RL(Reinforcement Learning)์ ํตํด oracle policy๋ฅผ ํ๋ จํฉ๋๋ค. ์ด oracle policy๋ค์ ํ๋ถํ privileged observation์ ํ์ฉํฉ๋๋ค. ์ดํ, ์ฑ๊ณต์ ์ธ oracle ๊ถค์ ๋ง์ ์ง๊ณํ์ฌ Behavior Cloning (BC)์ ํตํด ๋จ์ผ generalist policy๋ฅผ ํ๋ จํฉ๋๋ค. generalist policy์ ๊ด์ธก์น o_{gen_t}๋ proprioception history, ์๋ชฉ ๋ฐฉํฅ, ํ์ ์ถ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค. ์ด ๋ฐฉ์์ ์ด๋ ค์ด ์์ ์์ ์๋ฎฌ๋ ์ด์ ์ต์ ํ ์คํจ๋ ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํผํ๋ฉด์ ๋์ ํ์ง์ oracle behavior๋ฅผ ๋ชจ๋ฐฉํ์ฌ ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌ ๊ฐ๋ฅํ ์ ์ฑ ์ ์์ฑํฉ๋๋ค.
- ์กฐ์ธํธ๋ณ ์ ๊ฒฝ ๋์ญํ ๋ชจ๋ธ (Joint-Wise Neural Dynamics Model): ์ด ๋ชจ๋ธ์ ํ์ค-์๋ฎฌ๋ ์ด์
๊ฐ๊ทน์ ๋ฉ์ฐ๋ ํต์ฌ ์์์
๋๋ค.
- ๋ชจ๋ธ ์ค๊ณ: ๊ธฐ์กด์ โ์ ์ฒด ์(whole-hand)โ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, ๊ฐ ์กฐ์ธํธ i์ ๋์ญํ์ ๊ฐ๋ณ์ ์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ฐ ์กฐ์ธํธ์ ๋ค์ ์ํ q^i_{t+1}๋ ์ค์ง ํด๋น ์กฐ์ธํธ์ W ์คํ ์ํ-์ก์ ์ด๋ ฅ h^i_t = \{q^i_j, a^i_j\}_{j=t-W+1}^t๋ก๋ถํฐ ์์ธก๋ฉ๋๋ค. ์ด๋ q^i_{t+1} = f_{\psi^i}(h^i_t)์ ๊ฐ์ด ํํ๋ฉ๋๋ค. ์ด ์ค๊ณ๋ ๊ณ ์ฐจ์์ ์ธ ์์คํ ์ ๋ฐ์ ์ํฅ(์: ์กฐ์ธํธ ๊ฐ ์ปคํ๋ง, ์๋, ๊ฐ์ฒด ์ ๋ฐ ํจ๊ณผ)์ ์ ์ฐจ์์ โ์ ํจํ(effective)โ ๋ณ์๋ก ์ฆ๋ฅํ์ฌ ๊ฐ ์กฐ์ธํธ์ ๋์ญํ์ ํ๋กํ๋ก๋ถํฐ ๊ทธ ์งํ๋ฅผ ์์์ ์ผ๋ก ํฌ์ฐฉํ๊ฒ ํฉ๋๋ค.
- ์ด๋ก ์ ๊ทผ๊ฑฐ (์ ๋ณด ์์ถ์ ํตํ ์ผ๋ฐํ): ์ด ๋ชจ๋ธ์ ํต์ฌ ๊ฐ์ ์ ์ ๋ณด ์์ถ(Information Contraction)์ ํตํด ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์
๋๋ค.
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ถ๋ฑ์ (Data Processing Inequality for KL divergence, Theorem 3.1): ์ ์ฒด ์์คํ ์ํ X = H_t์ ์กฐ์ธํธ๋ณ ์ํ Y = h^i_t ๊ฐ์ ๋งคํ g: X \to Y๊ฐ ์ฃผ์ด์ก์ ๋, KL(P\|Q) \ge KL(g(P)\|g(Q))์ด ์ฑ๋ฆฝํฉ๋๋ค. ์ฌ๊ธฐ์ P๋ ์ค์ ํ๊ฒฝ ๋ถํฌ, Q๋ ์๋ฎฌ๋ ์ด์ ๋๋ ์์ง๋ ๋ฐ์ดํฐ ๋ถํฌ์ ๋๋ค. ํนํ, g๊ฐ P์ Q๊ฐ ๋ค๋ฅธ ์๋์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ ์ง์ ๋ค์ ๋ณํฉํ๋ ๋ฐฉ์์ผ๋ก ๋น๋จ์ฌ์ (non-injective)์ด๋ฉด, ์ด ๋ถ๋ฑ์์ ์๋ฐํ๊ฒ ์ฑ๋ฆฝํฉ๋๋ค (>). ์ด๋ ๊ณ ์ฐจ์ ์ ๋ณด๋ฅผ ์ ์ฐจ์์ผ๋ก ์ถ์ํ ๋, ๋ ๋ถํฌ ๊ฐ์ KL ๋ฐ์ฐ์ด ์ค์ด๋ค์ด ๋ถํฌ ๋ณํ(distribution shift)๊ฐ ์ํ๋จ์ ์๋ฏธํฉ๋๋ค.
- ์ผ๋ฐํ ๊ฐ๊ทน ์์ถ (Generalization Gap Contraction, Theorem 3.2): KL(g(P)\|g(Q)) < KL(P\|Q)์ธ ๊ฒฝ์ฐ, ์กฐ์ธํธ๋ณ ๋ชจ๋ธ f_2 \circ g_X์ generalization gap์ด ์ ์ฒด ์ ๋ชจ๋ธ f_1์ generalization gap๋ณด๋ค ์์์ง๋๋ค. ์ฆ, ์ถ์๋ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ด ํ์ค-์๋ฎฌ๋ ์ด์ ๊ฐ๊ทน๊ณผ ๊ฐ์ ๋ถํฌ ๋ณํ ์ํฉ์์ ๋ ์ ์ผ๋ฐํ๋ฉ๋๋ค.
- ์์จ ๋ฐ์ดํฐ ์์ง (Autonomous Data Collection): โ์นด์ค์ค ๋ฐ์ค(Chaos Box)โ๋ผ๋ ์ ๋น์ฉ์ ์์จ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ๋ก๋ด ์์ ์ํํธ๋ณผ์ด ๊ฐ๋ ์ฐฌ ์ปจํ ์ด๋์ ๋ฐฐ์น๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ํ๋ จ๋ ๊ธฐ๋ณธ ์ ์ฑ ์ ์ก์ ์ open-loop์ผ๋ก ์ฌ์ํ๊ณ ๊ฐ ์ก์ ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(\sigma=0.01)๋ฅผ ์ถ๊ฐํ์ฌ ๋ค์ํ ๋ฌด์์ ๋ถํ(randomized loads)๋ฅผ ๊ฐํฉ๋๋ค. ์ด ๊ณผ์ ์ ์์ ํ ์์จ์ ์ด๊ณ ํ๋์จ์ด ์์ ํ๋ฉฐ, ๊ฐ์ฒด ๋ํ ์์ ์ธ๊ฐ ๊ฐ์ ์ด๋ ๋ฆฌ์ ์ด ํ์ ์์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์์ฌ ์ ์ฑ (Residual Policy): ํ์ต๋ ์กฐ์ธํธ๋ณ ๋์ญํ ๋ชจ๋ธ f_\psi๋ฅผ ํ์ฉํ์ฌ ๊ธฐ๋ณธ ์ ์ฑ ์ ์ก์ ์ ๋ณด์ํ๋ ์์ฌ ์ ์ฑ \pi_{res}๋ฅผ ํ๋ จํฉ๋๋ค. ๊ธฐ๋ณธ ์ ์ฑ ์ ๊ด์ธก์น o_{gen_t}์ ๊ธฐ๋ณธ ์ก์ a_t๊ฐ ์ฃผ์ด์ง๋ฉด, \pi_{res}๋ ๋ณด์ ์น a_{res,t}๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์ค์ ๋ฐฐํฌ ์์๋ a_t + a_{res,t}๊ฐ ์คํ๋ฉ๋๋ค. ์ด ๋ฐฉ์์ ๊ธฐ์กด ์ ์ฑ ์ ๋์์ ํฌ๊ฒ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์ ์ค์ ํ๊ฒฝ์ ๋์ญํ์ ํน์ฑ์ ๋ฐ์ํ๋๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ํจ๊ณผ๋ฅผ ๊ฐ์ง๋๋ค.
์คํ ๊ฒฐ๊ณผ:
์๋ฎฌ๋ ์ด์ ํ๊ฐ์์ DexNDM์ generalist policy๋ ๋ฏธ๊ณต๊ฐ ๊ฐ์ฒด์ ๋ํด ๊ธฐ์กด AnyRotate ๊ตฌํ๋ณด๋ค 37%~81% ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ค์ ํ๊ฒฝ์์ DexNDM์ ์ ๋ก ์๋ dexterity๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ณต์กํ ํ์(๋๋ฌผ ๋ชจ๋ธ), ๋์ ์ข ํก๋น(์ต๋ 5.33), ์์ ํฌ๊ธฐ ๊ฐ์ฒด์ ๋ํด ๋ค์ํ ์๋ชฉ ๋ฐฉํฅ ๋ฐ ํ์ ์ถ์์ ์ฑ๊ณต์ ์ธ ๊ณต์ค ํ์ ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ, 10-16cm ๊ธธ์ด์ ๊ธด ๊ฐ์ฒด๋ฅผ palm-down ๊ตฌ์ฑ์์ ๊ณต์ค์์ ๊ฑฐ์ ํ ๋ฐํด ํ์ ์ํค๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์๋๋ฐ, ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์๋๋์ง ์์๊ฑฐ๋ ์ด๋ ค์ ๋ ๋ถ๋ถ์ ๋๋ค. Visual Dexterity ๋ฐ AnyRotate์ ๋น๊ตํ์ฌ ํ์ํ ์ฑ๋ฅ๊ณผ ๊ด๋ฒ์ํ ๊ฐ์ฒด ๋ฐ ์กฐ๊ฑด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. Whole-Hand Neural Dynamics Model๊ณผ์ ๋น๊ต๋ฅผ ํตํด, DexNDM์ joint-wise model์ด ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ด๊ฑฐ๋ train-test distribution shift๊ฐ ์๋ ํ๊ฒฝ์์ ํจ์ฌ ๋ ๋์ ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง์ ํ์ธํ์ต๋๋ค. ๋ฐ๋ฉด ASAP ๋ฐ UAN๊ณผ ๊ฐ์ ๊ธฐ์กด sim-to-real ๋ฐฉ๋ฒ๋ค์ object-loaded ์ํธ์์ฉ ๋์ญํ์ ๋ํ generalization์ด ๋ถ์กฑํ์ฌ ์ค์ ํ๊ฒฝ์์ ์คํจํ์ต๋๋ค. DexNDM์ tool-using ๋ฐ ์กฐ๋ฆฝ๊ณผ ๊ฐ์ ๋ณต์กํ dexterous task๋ฅผ ์ํ teleoperation ์์คํ ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋ ์ ์์์ ์์ฐํ์ต๋๋ค.
๊ฒฐ๋ก :
DexNDM์ joint-wise neural dynamics model๊ณผ ์์จ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ก์ด sim-to-real framework๋ฅผ ์ ๊ณตํ์ฌ ์ ๋ก ์๋ ์์ ๊ฐ์ฒด ํ์ ๋ฅ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ dexterous manipulation์ โํ์ค-์๋ฎฌ๋ ์ด์ ๊ฐ๊ทนโ์ ์ขํ๋ ๋ฐ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ํฅํ ์ด๊ฐ ์ผ์ ๋ฐ ๋ ํ๋ถํ ์ ํธ ํตํฉ์ ํตํด ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. # ๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
- ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ action์ ์ค์ ํ๊ฒฝ ์กฐ๊ฑด์ ๋ง๊ฒ ๋ณํํ๋ joint-wise dynamics model์ด ํต์ฌ
- ์ต์ํ์ ์ธ๊ฐ ๊ฐ์ ์ผ๋ก ์์ ์์จ์ ์ธ ์ค์ ๋ฐ์ดํฐ ์์ง ์ ๋ต ์ ์
- ๋ณต์กํ ํ์์ ๋ฌผ์ฒด, ๋์ ์ข ํก๋น(์ต๋ 5.33), ์ํ ๋ฌผ์ฒด, ๋ค์ํ ์๋ชฉ ๋ฐฉํฅ์์ ์ฑ๊ณต์ ์ธ ํ์ ์์ฐ
- ํ ๋ ์คํผ๋ ์ด์ ์์ฉ์์๋ ์ ํจ์ฑ ๊ฒ์ฆ