๐Dexterity-Gen ๋ฆฌ๋ทฐ

์ด๋ฒ ํฌ์คํ ์์ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์ DEXTERITYGEN: Foundation Controller for Unprecedented Dexterity ์ ๋๋ค.
- ๐ค ๋ค์ํ ์์ ์์ ๋ก๋ด ์์ ์์ ํ๊ณ ์ ๊ตํ ๋์ ์์ฑ.
- ๐ ์ธ๊ฐ์ ํ ๋ ์คํผ๋ ์ด์ ์ ํตํด ๋ก๋ด์ ๊ณ ์์ค ์ ์ฑ ์ ๋ณด์กฐ.
- ๐ ๏ธ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ ํตํด ๋๊ท๋ชจ ์ด๋ ๊ธฐ๋ณธ(primitive) ์์๋ฅผ ํ์ต.
1 Brief Review
์ด ๋ ผ๋ฌธ์ ๋ณต์กํ ์ ์กฐ์ ๊ธฐ์ ์ ๋ก๋ด์๊ฒ ๊ฐ๋ฅด์น๋ ๋ฐ ์์ด ๊ธฐ์กด ๋ฐฉ์๋ค์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ DexterityGen (DexGen)์ด๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. DexGen์ ๊ฐํ ํ์ต(RL)์ ํตํด ๋๊ท๋ชจ์ ์ ์กฐ์ ๋์ primitive๋ฅผ ์ฌ์ ํ์ตํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ํผํผํ(robust) foundational controller๋ฅผ ํ์ตํฉ๋๋ค. ์ค์ ํ๊ฒฝ์์๋ ์ธ๊ฐ์ ํ ๋ ์คํผ๋ ์ด์ (teleoperation)๊ณผ ๊ฐ์ ์ธ๋ถ ์ ์ฑ ์ ํตํด DexGen์ ํ๋กฌํํธํ์ฌ ๊ณ ๋์ ์์ฌ์ฃผ๋ฅผ ๋ฐํํ ์ ์๋๋ก ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
DexGen์ ํต์ฌ์ RL์ ํตํด ์์ฑ๋ ๋ค์ํ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ํ๋ ์์ฑ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ coarseํ ๋์ ๋ช ๋ น์ ์์ ํ๊ณ ์ ์ฉํ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๋ฐ์ดํฐ์ ์์ฑ: โAnygrasp-to-Anygraspโ๋ผ๋ ํ์คํฌ๋ฅผ ์ค์ฌ์ผ๋ก RL์ ํตํด ๋ค์ํ ๋ฌผ์ฒด ์กฐ์ ๊ถค์ ์ ์์งํฉ๋๋ค. ์ด ํ์คํฌ๋ ๋ฌผ์ฒด๋ฅผ ์์์ ์์ธ๋ก ์ด๋์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ฉฐ, ๋ค์ํ ์๋ชฉ ์์ธ, ์์ง์, ๋๋ฉ์ธ ๋๋คํ๋ฅผ ํตํด ๋ฐ์ดํฐ์ ์ ๋ค์์ฑ์ ํ๋ณดํฉ๋๋ค. RL ํ์ต ๊ณผ์ ์์ ๋ชฉํ๋ฅผ ๊ทผ์ ํ ์์น๋ก ์ค์ ํ์ฌ ํ์ต์ ํจ์จ์ฑ์ ๋์ ๋๋ค. ๋ฐ์ดํฐ์ ์ ๋ชฉํ ๋ฌผ์ฒด ์์ธ์ ์๊ฐ๋ฝ ๊ด์ ์์น๋ฅผ ํฌํจํ๋ goal-related reward, ์คํ์ผ ๊ด๋ จ reward, ๊ทธ๋ฆฌ๊ณ regularization term์ผ๋ก ๊ตฌ์ฑ๋ ๋ณด์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ฉ๋๋ค.
- ์์ ํํ:
- ์ ์ฒด ๋ณด์ ํจ์: r = w_{goal}r_{goal} + w_{style}r_{style} + w_{reg}r_{reg}
- Goal-related reward: r_{goal} = exp(-\alpha_{pos}\|p_{obj} - p_{obj}^{target}\|^2 - \alpha_{orn}d(R_{obj}, R_{obj}^{target})) - \alpha_{hand}\|q - q^{target}\|^2 + \alpha_{bonus}\mathbb{1}(goal\ achieved)
- Regularization term: r_{reg} = -\alpha_{work}\|\dot{q}^T\|\|\tau\| - \alpha_{action}\|a\|^2 - \alpha_{\tau}\|\tau\|^2
- Style reward: r_{style} = \sum_{i} \alpha_{i} \|\dot{x}_i^{tip}\|
- ์์ ํํ:
๋ชจ๋ธ ์ํคํ ์ฒ: DexGen์ ๋ ๊ฐ์ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Diffusion Model: ๋ก๋ด์ ํ์ฌ ์ํ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ก๋ด ์๊ฐ๋ฝ ํต์ฌ์ (keypoint)์ ์์ง์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. ์ด๋ UNet ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ, FiLM-conditioning์ ํตํด task/mode ์ ๋ณด๋ฅผ ์ฃผ์ ํฉ๋๋ค.
- Inverse Dynamics Model: ํต์ฌ์ ์์ง์์ ์คํ ๊ฐ๋ฅํ ๋ก๋ด ๋์(๊ด์ ๋ชฉํ ์์น)์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ residual multilayer perceptron (MLP)์ผ๋ก ๊ตฌํ๋ฉ๋๋ค.
์ถ๋ก (Inference): ํ์ต๋ ๋ถํฌ์์ ์์ ํ ๋์์ ์ํ๋งํ๋ ๋์์, ์ ๋ ฅ๋ ์ฐธ์กฐ ๋์์ ์ต๋ํ ๋ณด์กดํ๋ ๋ฐฉํฅ์ผ๋ก ๋์์ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ์ํด gradient guidance๋ฅผ diffusion sampling ๊ณผ์ ์ ์ ์ฉํ์ฌ motion conditioning์ ์ํํฉ๋๋ค. ์ด๋ ๋ค์ ์์์ผ๋ก ํํ๋ฉ๋๋ค.
- \Delta x \sim p_\theta(\Delta x|o) \exp(-Dist(\Delta x, \Delta x^{input}))
- Dist(\Delta x, \Delta x^{input}) = \sum_{i=1}^T \|\Delta x_i - \Delta x^{input}\|^2
๊ฒฐ๊ณผ:
์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ ์คํ์ ํตํด DexGen์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ DexGen์ด suboptimalํ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ(robustness)๊ณผ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ค์ ํ๊ฒฝ์์๋ ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ๋ฅผ ํตํด DexGen์ ํ์ฉํ์ฌ ๋ค์ํ ๋ฌผ์ฒด ์ฌ์ ๋ ฌ, ์ฃผ์ฌ๊ธฐ ์ฌ์ฉ, ๋๋ผ์ด๋ฒ ์ฌ์ฉ๊ณผ ๊ฐ์ ๋ณต์กํ ์ ์กฐ์ ๊ธฐ์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ ๊ฒ์ ์ ์ฆํฉ๋๋ค. ํนํ, ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ์ ์งํ๋ ์๊ฐ์ด 10๋ฐฐ์์ 100๋ฐฐ๊น์ง ํฅ์๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ ๋ฐ์ ์ผ๋ก, DexGen์ coarseํ ๋ช ๋ น์ ์ฌ์ธํ ์ ๋์์ผ๋ก ๋ณํํ์ฌ ๋ก๋ด์ ์์ฌ์ฃผ๋ฅผ ํฌ๊ฒ ํฅ์์ํค๋ foundational controller๋ก์์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
2 Detail Review
DEXTERITYGEN: ์ ๋ก ์๋ ๊ธฐ๊ต๋ฅผ ์ํ Foundation Controller ๋ฆฌ๋ทฐ
2.1 ๋ฐฐ๊ฒฝ: Dexterous Manipulation๊ณผ Foundation Model ์ ๊ทผ
Dexterous manipulation (์ ๊ตํ ๋ฌผ์ฒด ์กฐ์)๋ ์ธ๊ฐ ์๊ณผ ์ ์ฌํ ๋ค์์ ๋ ๋ก๋ด ์์ ์ด์ฉํด ๋ฌผ์ฒด๋ฅผ ์ฌ์ธํ๊ณ ๋ฅ์ํ๊ฒ ๋ค๋ฃจ๋ ๋ฌธ์ ์ ๋๋ค. ์ด๋ฌํ dexterous manipulation ๊ธฐ์ ์ ๋ก๋ด์๊ฒ ๊ฐ๋ฅด์น๋ ์ผ์ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ๋๋ก ๋๋ฉ๋๋ค. - ์ฒซ์งธ, ์ธ๊ฐ ์๊ฒฉ์กฐ์ (teleoperation)์ ํตํ ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๋ ์ด์์๊ฐ VR ์ฅ๊ฐ ๋ฑ์ผ๋ก ๋ก๋ด ์์ ์๊ฒฉ ์ ์ดํ๋ฉฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ ์ฑ (policy)์ ํ์ต์ํค๋ ๋ฐฉ์์ด์ง๋ง, ์ด๊ฐ ํผ๋๋ฐฑ ๋ถ์ฌ์ ๋ค๋ฅธ ๊ตฌ์กฐ์ ๋ก๋ด ์ ์กฐ์์ ๋ํดํจ ๋๋ฌธ์ ์์ ํ๊ณ ์ ๊ตํ ๋์์ ์ธ๊ฐ์ด ๋ง๋ค์ด๋ด๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. - ๋์งธ, ์๋ฎฌ๋ ์ด์ ๊ฐํํ์ต (sim-to-real RL) ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ์ ํ๊ฒฝ์์ ๊ฐํํ์ต์ผ๋ก ์ ์ฑ ์ ํ๋ จํ ํ ์ค์ ๋ก๋ด์ ์ด์ (sim-to-real)ํ๋ ์ ๊ทผ์ ๋๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ๋ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๋๋ฉ์ธ ์ฐจ์ด๋ก ์ธํ ์ฑ๋ฅ ์ ํ์, ๋ณต์กํ ์์ ์ ํ์ํ ํน์ํ ๋ณด์ํจ์ ์ค๊ณ ๋ฑ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
์ด๋ฌํ ํ๊ณ ๋๋ฌธ์, ์ต๊ทผ ๋ก๋ด ์ ์ด ๋ถ์ผ์์๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ (foundation model) ๊ฐ๋ ์ ๋์ ํ ์๋ก์ด ์ ๊ทผ๋ค์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. DeepMind์ Gato ๋ชจ๋ธ์ด ๋ํ์ ์ธ ์๋ก, ํ๋์ ๊ฑฐ๋ Transformer ๋คํธ์ํฌ๋ก 604๊ฐ์ง์ ๋ฌํ๋ ๋ค์ํ ๊ณผ์ ๋ฅผ ํ์ตํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ ์ ๊ตฌํํ์ต๋๋ค. Gato๋ ๋์ผํ ํ๋ผ๋ฏธํฐ๋ก ์ํ๋ฆฌ ๊ฒ์ ํ๋ ์ด, ์ด๋ฏธ์ง ์๋ง ์์ฑ, ๋ํ, ๋ก๋ด ํ๋ก ๋ธ๋ก ์๊ธฐ ๋ฑ์ ์๋ก ๋ค๋ฅธ ์์ ์ ๋ชจ๋ ์ํํด โGeneralist Agentโ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์์ง๋ง, ์ฃผ๋ก ๋น๊ต์ ๋จ์ํ ๅนณ่ก ๊ทธ๋ฆฌํผ ๋ก๋ด (parallel gripper)์ ์กฐ์ ๋ฑ์ ํ์ ๋์ด ์ ๊ตํ ์๋์๊น์ง ๋ณด์ฌ์ฃผ์ง๋ ๋ชปํ์ต๋๋ค.
ํํธ, Google์ Robotics Transformer (RT-1)์ 13๋์ ๋ก๋ด์ ํตํด 17๊ฐ์๊ฐ 130k ์ํผ์๋์ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ 700๊ฐ์ง ์ด์์ ์์ ์ ํ์ตํ ๊ฑฐ๋ ๋น์ -๋ชจํฐ ์ ์ฑ ์ ๋๋ค (Robotics Transformer: RT-1). RT-1์ ์นด๋ฉ๋ผ ์์๊ณผ ์์ ์ง์์ด๋ฅผ ์ ๋ ฅ ๋ฐ์ End-to-End๋ก ๋ก๋ด ์ ์ด ๋ช ๋ น์ ์ถ๋ ฅํ๋ Transformer๋ก, ์๋ก์ด ๋ฌผ์ฒด๋ ํ๊ฒฝ์์๋ ์ผ๋ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ดํ ๋ฒ์ ์ธ RT-2์์๋ ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ ๋ชฉํ์ฌ ์๊ฐ์ ๊ฐ๋ ๊ณผ ์ธ์ด์ง์์ ํ์ฉํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅ๋์์ง๋ง, ์ด๋ค ์ญ์ ์ง๊ฒ(gripper) ํํ ๋ก๋ด ์กฐ์์ ์ด์ ์ ๋ง์ถฐ ๋ค์๊ฐ๋ฝ ์ฌ์ธ ์กฐ์์๋ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.
๋ ๋ค๋ฅธ ํ๋ฆ์ผ๋ก Diffusion Policy ๋ฐฉ๋ฒ๋ก ์ด ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ ์ ์ฑ ์ ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ๋ก ๊ฐ์ฃผํ์ฌ ํ์ฐ ๋ชจ๋ธ (diffusion model)๋ก ๊ตฌํํ ์ ๊ทผ์ ๋๋ค. ์๋ฅผ ๋ค์ด Diffusion Policy๋ ๋ก๋ด์ ์๊ฐ-์ด๋ (visuomotor) ์ ์ฑ ์ ์กฐ๊ฑด๋ถ ํ์ฐ ๊ณผ์ ์ผ๋ก ํํํ์ฌ ๋จ์ผ ์ ์ฑ ์ด ๋ค๋ชจ๋ฌ ํ๋ ๋ถํฌ๋ฅผ ํ์ตํ๋๋ก ํฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ ๋ฉํฐ๋ชจ๋ฌ ํ๋ ๋ถํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์บก์ฒํ์ฌ, ์๋ฎฌ๋ ์ด์ ๋ก๋ด ์กฐ์ ๋ฒค์น๋งํฌ์์ LSTM ๊ธฐ๋ฐ ์ ์ฑ ์ด๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, 10Hz์ ์ ๋น๋ ์ ์ด ์ถ๋ ฅ์ ์์ฑํ๊ณ , ์ด๋ฏธ์ง ์ง์ฐ ๋ฑ์ latency ๋ณด์ ์ ์ํด ํ ๋ฒ์ ์ฌ๋ฌ ์คํ ์ ์ก์ ์ ์์ธกํ๋ receding horizon ํน์ฑ์ ํ์ฉํ๋ ๋ฑ, ๋ค๋จ๊ณ ํ๋ ์์ฑ(autoregressive)๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์์ฌ๊ฒฐ์ ์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ํ์ง๋ง ๊ธฐ์กด diffusion policy ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ๋จ์ํ ํ-๊ทธ๋ฆฌํผ ์กฐ์์ด๋ ์งง์ ์ํ ์ด๋ ๋ฑ์ ์์ ์ ์ง์ค๋์ด ์์ด, ๊ณ ์ฐจ์ ๋ค์ง ๊ด์ ์ ๊ฐ์ง ๋ก๋ด ์์ ์ธ๋ฐํ ์ ์ด์ ์ง์ ์ ์ฉ๋ ์ฌ๋ก๋ ๋๋ฌผ์์ต๋๋ค.
์์ฝํ๋ฉด, ๋๊ท๋ชจ Foundation Model ๊ธฐ๋ฐ ์ ๊ทผ(Gato, RT ๊ณ์ด)๊ณผ Diffusion ๊ธฐ๋ฐ ์ ์ฑ ๋ฑ์ด ๋ก๋ด ์ ์ด์ ๋์ ๋์ด์์ง๋ง, ๋ค์์ ๋ ๋ก๋ด ์์ ์ฌ์ธํ ์กฐ์์ด๋ผ๋ ์์ญ์์๋ ์์ ์ฑ๊ณผ ์ ๋ฐ ์ ์ด ์ธก๋ฉด์ ๋์ ๊ฐ ์ฌ์ ํ ๋จ์ ์์ต๋๋ค. DexterityGen (DexGen)์ ์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ๊ณ ์๋ ์๋ก์ด foundation ์ปจํธ๋กค๋ฌ๋ก, ์ธ๊ฐ ์๊ฒฉ์กฐ์๊ณผ ๊ฐํํ์ต์ ์ฅ์ ์ ๊ฒฐํฉํด ์ ๋ก์๋ ์์ค์ ๊ธฐ๊ต์๋ ๋ก๋ด ์๋์์ ๋ฌ์ฑํ์ต๋๋ค.
2.2 DexterityGen์ ์ฃผ์ ์์ด๋์ด: RL๋ก ํ์ตํ Skill Prior + Teleop ํ๋กฌํํธ
DexterityGen(์ดํ DexGen)์ โFoundation Controllerโ, ์ฆ ๋ฒ์ฉ์ ์ธ ์ ์์ค ์ ์ด ๋ชจ๋์ ์งํฅํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๊ฐํํ์ต(RL)์ผ๋ก ๋ค์ํ low-level ์๋์ ์คํฌ์ ๋ฏธ๋ฆฌ ํ์ตํด ์คํฌ ํ๋ผ์ด์ด(prior)๋ฅผ ๋ง๋ค๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ๊ฐ ์๊ฒฉ์กฐ์ ๋ช
๋ น์ ์์ ํ๊ณ ์ธ๋ฐํ ๋์์ผ๋ก ๋ณํ์ํค๋ ์์ฑํ ์ ์ฑ
์ ๊ตฌ์ถํ๋ ๊ฒ์
๋๋ค. ์ ์๋ค์ โRL์ ์ ์์ค ๋ชจ์
ํ๋ฆฌ๋ฏธํฐ๋ธ๋ฅผ ๋ฐฐ์ฐ๋ ๋ฐ ํจ๊ณผ์ ์ด๊ณ , ์ธ๊ฐ์ ๊ณ ์์ค์ ๊ฑฐ์น ๋์ ๋ช
๋ น์ ์ ๊ณตํ๋ ๋ฐ ๋ฐ์ด๋๋คโ
๋ ํต์ฐฐ์ ๊ฐ์กฐํ๋ฉฐ, ๋ ์ ๊ทผ์ ๊ฒฐํฉ์ด ์ต์ ํด๋ฒ์์ ์ฃผ์ฅํฉ๋๋ค. ์ค์ ๋ก DexGen์ ์๋ฎฌ๋ ์ด์
์์ RL๋ก ๋ฐฉ๋ํ ๋ค์ค ์์
๋ฐ์ดํฐ์
์ ์์ฑํ์ฌ ์ ์ฑ
์ ์ฌ์ ํ์ตํ๊ณ (Training ๋จ๊ณ), ์ค์ ๋ก๋ด ์ ์ด ์์๋ ์ธ๊ฐ teleoperator์ ์กฐ์ ์ ํธ๋ฅผ ํ๋กฌํํธ๋ก ๋ฐ์ ์ธ๋ฐํ ์ก์
์ ์์ฑํฉ๋๋ค(Inference ๋จ๊ณ). ์ด๋ ๊ฒ ํจ์ผ๋ก์จ, ์ฌ๋์ด ์ง์ ์กฐ์ํ ๋ ๋ฐ์ํ๋ ์ํํ๊ฑฐ๋ ๋ถ์์ ํ ๋์์ ๋ชจ๋ธ์ด ํ์ต๋ ์์ ๋์ ๋ถํฌ ๋ด์ ํ๋์ผ๋ก ํฌ์(projection)ํ์ฌ ์คํํ๊ฒ ๋ฉ๋๋ค.
- DexGen์ ํธ๋ ์ด๋/์ธํผ๋ฐ์ค ๊ฐ์.
์ผ์ชฝ: ์๋ฎฌ๋ ์ด์ ์์ ๋ค์ค ์์ ๋ฐ์ดํฐ์ ์ ๋ชจ์ DexGen ์์ฑ๋ชจ๋ธ์ ํ์ตํ๋ค. ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ํ์์ ๋ค์ํ ์ ๊ตํ ๋์๋ค์ ํ๋ฅ ์ ์ผ๋ก ์์ฑํ๋๋ก ํ๋ จ๋๋ค (๋ถํฌ ์์: ํ์ , ๋ณ์ง ๋ฑ).
์ค๋ฅธ์ชฝ: ์ค์ ์ธํผ๋ฐ์ค ์, ์ธ๊ฐ Teleop ๋๋ ์์ ์ ์ฑ ์ด ๋ธ ๊ฑฐ์น Motion ๋ช ๋ น์ด DexGen์ ๋ถํฌ ์์ ํฌ์๋์ด ์์ ํ ํ๋์ ์ฐ์ถํ๋ค. ์ด ๊ณผ์ ์ ํตํด ๊ณ ์ฐจ์ ํธ๋์ ๋ณต์กํ ์กฐ์์ ์์ ์ ์ผ๋ก ์ํํ ์ ์๋ค.*
๋ฐ์ดํฐ ์์ง ๋ฐ ์ฌ์ ํ์ต: DexGen์ ํ์ต์ ์ํด ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ธ โAnygrasp-to-Anygraspโ๋ฅผ ๊ตฌ์ถํฉ๋๋ค. ์ด๋ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์์์ ๊ทธ๋ฆฝ(grasp) ์ํ์์ ๋ค๋ฅธ ์์์ ๊ทธ๋ฆฝ ์ํ๋ก ์ฎ๊ธฐ๋ ๋ฒ์ฉ ์กฐ์ ๊ณผ์ ๋ก, ๋ค์ํ ์-๋ฌผ์ฒด ์ํธ์์ฉ์ ํต์ฌ์ ํฌ๊ดํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ๋ฌผ์ฒด์ ๋ํด ๊ฐ๋ฅํ ๋ชจ๋ ์ก๊ธฐ ๊ตฌ์ฑ์ ํ์ํ ๋ค ์ด๋ฅผ ์ด๊ธฐ ์ํ์ ๋ชฉํ ์ํ๋ก ์ค์ ํ๊ณ , RL ์์ด์ ํธ๊ฐ ํ ๊ทธ๋ฆฝ์์ ๋ค๋ฅธ ๊ทธ๋ฆฝ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ฎ๊ธฐ๋๋ก ํ์ต์ํต๋๋ค. ํ์ต๋ RL ์ ์ฑ ์ ๋ค์ rolloutํ์ฌ ์-๋ฌผ์ฒด ์ด๋ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ๋๋์ผ๋ก ๋ชจ์๋๋ค. ์ ์๋ค์ 100,000๊ฐ ์ด์์ ๊ณ ์ ๊ทธ๋ฆฝ์ ์ํ๋งํ์ฌ ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ๊ทน๋ํํ๊ณ , ์ถ๊ฐ๋ก ์์ ์๊ฐ๋ฝ ์ด๋์ด๋ ์ ๋ฐ ํ์ ์กฐ์ ๋ฑ์ ๊ณผ์ ๋ฅผ ๋ํด ๋ฏธ์ธ ๋์ ๋ฐ์ดํฐ๋ ํ๋ณดํ์ต๋๋ค. ์ด๋ ๊ฒ ๋ชจ์ธ ๋ฉํฐํ์คํฌ ๋ฐ์ดํฐ๋ ์ดํ ์์ฑ๋ชจ๋ธ์ ํ์ต๋ฐ์ดํฐ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ํํธ, ์ด๋ฌํ ์ ๊ทผ์ ๊ธฐ์กด foundation model๋ค์ด ๋ณดํต ์ค์ธ๊ณ ์ๆผ ๋ฐ์ดํฐ์ ์์กดํ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ ๋๋ค. DexGen์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํจ์ผ๋ก์จ ๋ฐฉ๋ํ ๋ฐ์ดํฐ ์์ง์ ํ์ํ ์ธ๊ฐ ๋ ธ๋์ ์ค์ด๊ณ , ๋๋ฉ์ธ ๋๋คํ ๋ฑ์ ํตํด ํ์ค ์ ์๋ ฅ์ ํ๋ณดํ๊ณ ์ ํ์ต๋๋ค.
2.3 DexGen์ ๋ชจ๋ธ ๊ตฌ์ฑ: Autoregressive ์์ฑ ์ ์ฑ ๊ณผ Goal/State Network ๊ตฌ์กฐ
DexGen์ ์ปจํธ๋กค๋ฌ๋ ํฌ๊ฒ ๋ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: (1) ์์ฑ ์ ์ฑ ๋ชจ๋๊ณผ (2) ์ญ๊ธฐ๊ตฌํ ๋ชจ๋์ ๋๋ค.
์ฒซ ๋ฒ์งธ ์์ฑ ์ ์ฑ ์ ํ์ฐ ๋ชจ๋ธ (diffusion model) ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋ ํ๋ฅ ์ ์ ์ฑ ์์ฑ๊ธฐ๋ก์, ํ์ฌ ๋ก๋ด ์ํ(state)๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ฏธ๋์ ์๋์ ๋ถํฌ๋ก๋ถํฐ ์ํ์ ์์ฑํฉ๋๋ค.
๋ ๋ฒ์งธ ์ญ๊ธฐ๊ตฌํ(inverse dynamics) ๋ชจ๋์, ์์ฑ๋ ์๊ฐ๋ฝ ์์ง์(motion)์ ์ค์ ๋ก๋ด์ ๊ตฌ๋ ๋ช ๋ น(action)์ผ๋ก ๋ณํํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด๋ ๊ธฐ์ ์ ์ธ ์ฉ์ด๋ฅผ ๋น๋ฆฌ์๋ฉด, ์ ์ฑ ๋ชจ๋์ ํ์ฌ ์ํ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ถ๋ถ(์ด๊ฒ์ ํธ์์ StateNet์ด๋ผ ์ง์นญ)๊ณผ, ์ธ๋ถ ๋ชฉํ ๋์ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ ๋ถ๋ถ(๋ง์ฐฌ๊ฐ์ง๋ก GoalNet์ด๋ผ ์ง์นญ)์ผ๋ก ๋๋ ๋ณผ ์๋ ์์ต๋๋ค. DexGen์ ๊ตฌ์กฐ์์ StateNet์ ๋ก๋ด ์์ ๊ณผ๊ฑฐ ๋ช ์คํ ์ ๊ฑธ์น ํ๋กํ๋ฆฌ์ค์ ์ (proprioception) ์ํ ์ ๋ ฅ์ ๋ฐ์ ๋ด์ฌ ์ํ ํํ์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ํํธ, GoalNet์ ํด๋นํ๋ ๋ถ๋ถ์ ๋ช ์์ ์ธ ๋คํธ์ํฌ ๋ชจ๋๋ก ์กด์ฌํ๋ ๊ฒ์ ์๋์ง๋ง, ์ธ๋ถ์์ ์ฃผ์ด์ง๋ ๋ชฉํ ๋์(Motion Conditioning)์ ์์ฑ ๊ณผ์ ์ ๋ฐ์ํ๋ ๋ฉ์ปค๋์ฆ์ด ๋์ ๋์ด ์์ต๋๋ค. ์ฆ, DexGen์ ์ธ๊ฐ ์กฐ์์๊ฐ ์๋ํ๋ ์๊ฐ๋ฝ ์์ง์์ ์ง์ ๋คํธ์ํฌ ์ ๋ ฅ์ผ๋ก ์ทจํ์ง ์๊ณ , ์์ฑ ๊ณผ์ ์ค์ ๋ชฉํ ๋ฐฉํฅ์ผ๋ก ์ํ์ ์ ๋ํ๋ ๋ฐฉ์(guidance)์ผ๋ก ๋ฐ์ํฉ๋๋ค. ์ด๋ฌํ Guided Sampling ์ ๋ต์ ํตํด ๋ชจ๋ธ์ ํ์ต ์ ๋ถํฌ์์ ๋ฒ์ด๋๋ ๋น์์ ํ ๋ช ๋ น์ ๊ฑธ๋ฌ๋ด๋ฉด์๋, ์ฌ์ฉ์ ๋ช ๋ น์ ์๋๋ ์ต๋ํ ์ด๋ฆฐ ํ๋์ ์์ฑํ ์ ์์ต๋๋ค.
Diffusion ๊ธฐ๋ฐ Autoregressive Policy: DexGen์ ์ ์ฑ ๋ชจ๋์ UNet ๊ธฐ๋ฐ ํ์ฐ ๋ชจ๋ธ๋ก ๊ตฌํ๋์์ผ๋ฉฐ, ํ ๋ฒ์ Horizon H๋งํผ์ ๋ฏธ๋ ์๊ฐ๋ฝ ์์ง์ ์คํ์ ์ํ์ค๋ฅผ ์์ธกํฉ๋๋ค. ์์ปจ๋ 0.1์ด ๊ฐ๊ฒฉ์ผ๋ก 5์คํ ๋ฏธ๋ (H=5, 0.5์ด) ์ ๋์ ์๊ฐ๋ฝ ์์น ๋ณํ๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๊ณ , ์ ์ด ์ฃผ๊ธฐ๋ 10Hz๋ก ๋์ํฉ๋๋ค. ์ด๋ autoregressiveํ๊ฒ ์ ์ฑ ์ ์์ฑํ๋ ๊ฒ๊ณผ ์ ์ฌํ๋ฐ, ๋งค ์๊ฐ์คํ ๋ง๋ค ํ์ฌ ์ํ๋ฅผ ๋ฐ์ํด ๋จ๊ธฐ ๊ณํ์ ์ถ๋ ฅํ๊ณ , ์คํ ํ ๋ค์ ์ ๋ฐ์ดํธ๋ ์ํ๋ก ๋ค์ ๊ณํ์ ์ธ์ฐ๋ receding horizon ์ ์ด ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค. Mode conditioning ์ ๋ ฅ๋ ํจ๊ป ์ ๊ณตํ์ฌ, ํน์ ์์ ๋ชจ๋(์: ๋๋ผ์ด๋ฒ๋ก ๋์ฌ๋ฅผ ์กฐ์ผ ๋์ ์ ๋ฐํ์ ๋ชจ๋)๋ฅผ ๋ชจ๋ธ์ ์๋ ค์ค ์ ์์ต๋๋ค. (๋๋ถ๋ถ์ ๋ฐ์ดํฐ๋ โdefaultโ ๋ชจ๋๋ก ํ์ต๋๊ณ , ํน๋ณํ ๊ฒฝ์ฐ์๋ง ๋ ์ด๋ธ๋ง๋ ๋ชจ๋๋ฅผ ์ฌ์ฉ.) ์ด ์์ฑ ์ ์ฑ ์ ํ์ฐ๋ชจ๋ธ ํ์ค ํ์ต๋ชฉํ(๋ ธ์ด์ฆ ์์ธก ์์ค)๋ก ํ์ต๋๋ฉฐ, ํ์ต๋ ๋ชจ๋ธ์ ๋ค์ํ ํ์ , ์ด๋, ์ฌ๊ทธ๋ฆฝ ๋ฑ์ ๋์์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ ํํ๋ก ๋ด์ฌํ๊ฒ ๋ฉ๋๋ค. ์ค์ํ ์ ์, ์ธ๋ถ Motion ํ๋กฌํํธ๋ ์ด ํ์ฐ ์ ์ฑ ๋คํธ์ํฌ์ ์ง์ ์ฃผ์ ๋์ง ์๊ณ , ๋์ ์ํ๋ง ๋จ๊ณ์์์ Gradient Guidance๋ก ํ์ฉ๋๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ํ์ต ์ ๋ถํฌ ์๊ณก ์์ด ์์ ์ ์ธ ๋ชจ์ ๋ถํฌ๋ฅผ ์ตํ๊ฒ ํ๊ณ , ์ถ๋ก ์์๋ง ์ธ๊ฐ ๋ช ๋ น์ ์ด์ง ๋์ด๋น๊ธฐ๋ ์ญํ ์ ํ๋๋ก ๋ถ๋ฆฌํ ์ค๊ณ์ ๋๋ค.
Inverse Dynamics ๋ชจ๋: ์ ํ์ฐ ์ ์ฑ ์ด ์ถ๋ ฅํ๋ ์๊ฐ๋ฝ ํคํฌ์ธํธ์ ์์ง์์ ๋ก๋ด ์๊ฐ๋ฝ์ ๋ชฉํ ๊ด์ ๊ฐ(position)์ผ๋ก ๋ณํ๋์ด์ผ ์ค์ ์ ์ด์ ์ฌ์ฉํ ์ ์์ต๋๋ค. DexGen์์๋ ์ด๋ฅผ ์ํด ์์ฐจ(residual) ๊ตฌ์กฐ์ ๋ค์ธตํผ์ ํธ๋ก (MLP)์ผ๋ก ๋จ์ํ ์ญ๊ธฐ๊ตฌํ ๋ชจ๋ธ์ ๊ตฌํํ์ต๋๋ค. ์ด MLP๋ ํ์ฌ ๋ก๋ด ์ํ์ ์์ฑ๋ Motion์ ์ ๋ ฅ๋ฐ์, ๊ฐ ์กฐ์ธํธ์ ๋ชฉํ ์์น๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์ถ๋ ฅํฉ๋๋ค (ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋ด๋ Gaussian ์ถ๋ ฅ). ํ์ต ์์๋ MSE ์์ค๋ก ํด๋น ๋์์ด ์ค์ ๋ฐ์ดํฐ์ ์กฐ์ธํธ ๋ณ์์ ์ผ์นํ๋๋ก ํ์ต๋์์ต๋๋ค. ์ด ๋ชจ๋์ ๋น๊ต์ ๋จ์ํ ํ๊ท๋ง์ด์ง๋ง, ์์ ํ ์์ฑ ์ ์ฑ ์ ์ถ๋ ฅ (๋ฏธ๋ ์๋ ์์ง์)์ ๋ฌผ๋ฆฌ์ ์ธ ๋ก๋ด ๋ช ๋ น์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ํ์์ ์ธ ์ญํ ์ ํฉ๋๋ค.
*DexGen ์ปจํธ๋กค๋ฌ์ ๋ชจ๋ ๊ตฌ์กฐ (๋ ผ๋ฌธ Figure 4 ์ฌ๊ตฌ์ฑ).
Diffusion Model์ ํ์ฌ State (๋ก๋ด ์ํ)์ Mode๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค๋ค์ต์ ํ Motion(์๊ฐ๋ฝ ํคํฌ์ธํธ ์์ง์)์ ์์ฑํ๋ค. ์ด ๋ ์ธ๋ถ Motion Conditioning (์ฌ์ฉ์์ ๋ชฉํ ๋์)์ ๋คํธ์ํฌ ์ ๋ ฅ์ผ๋ก ์ง์ ๋ค์ด๊ฐ์ง ์๊ณ , Gradient Guidance ๋ฐฉ์์ผ๋ก ํ์ฐ ๋ชจ๋ธ์ ์ํ์ ์ ์ ํ ์ ๋ํ๋ค. ์ด๋ ๊ฒ ์์ฑ๋ Motion์ Inverse Dynamics Model์ ์ํด ๋ก๋ด ๊ด์ Action ๋ช ๋ น์ผ๋ก ๋ณํ๋๋ค.*
Guided Sampling (๋ชจ์ ์กฐ๊ฑด ์ ๋): DexGen์ด ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ์ ๋ช ๋ น์ ๋ฐ์ํ๋ ๋ฐฉ์์ ํ์ฐ ๋ชจ๋ธ์ Guided Sampling ๊ธฐ๋ฒ์ผ๋ก ๊ตฌํ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ชจ๋ธ์ด ์์ธกํ ๋ค์ ์๊ฐ๋ฝ ์์น ์ํ์ค๊ฐ ์ ๋ ฅ๋ ๋ชฉํ ์์ง์๊ณผ ๊ฐ๊น์์ง๋๋ก, ํ์ฐ ๊ณผ์ ์ ๊ฐ ์คํ ์์ ์๊ฐ๋ฝ ์คํ์ ์ฐจ์ด์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ์ํ์ ๊ฐ์ด๋๋ก ๋ํด์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ๊ฐ๋จํ ๋งํด, ์์ฑ ์ค์ธ ๋์์ด ํ์ต๋ ์์ ๋์ ๋ถํฌ๋ฅผ ์ ์งํ๋ฉด์๋ ์ฌ์ฉ์ ๋ช ๋ น ๋ฐฉํฅ์ผ๋ก ์ฝ๊ฐ ํธํฅ๋๋๋ก ํ์ ์ฃผ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฐ์ด๋ ์ธ๊ธฐ์ธ ฮป ๊ฐ์ ๋ฐ๋ผ DexGen์ ๋ณด์์ฑ์ด ์กฐ์ ๋ฉ๋๋ค. ฮป๊ฐ ๋๋ฌด ์์ผ๋ฉด ๋ชจ๋ธ์ด ์์ ํ๊ฒ๋ง ๊ตด๋ฌ๊ฐ์ ์ฌ์ฉ์๊ฐ ์ํ๋ ๋ชฉํ์ ์ถฉ๋ถํ ๋ชป ๋ฏธ์น๊ฒ ๋๊ณ , ฮป๊ฐ ๋๋ฌด ํฌ๋ฉด ์คํ๋ ค ์ฌ์ฉ์ ๋ช ๋ น(๋๋ก๋ ์ํฌ๋ฅด๊ฑฐ๋ ์ํํ ๋์)์ด ๋ชจ๋ธ์ ์์ ์ฅ์น๋ฅผ ์ด๊ฒจ๋ฒ๋ฆด ์ ์์ต๋๋ค. ๋ ผ๋ฌธ ์คํ์์๋ ๋ชจ๋ ์คํ์ ์ ๋ง๋ ๊ณตํต์ ์ค๊ฐ ์ธ๊ธฐ๋ฅผ ์ฐพ์ ์ ์ฉํ๋ค๊ณ ํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, DexGen์ ํ์ต๋ ์ ์์ค ํ๋ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ง ๊ฐํด ์์ ์ฑ๊ณผ ๋ชฉํ์ถ์ข ์ ๋์์ ๋ง์กฑ์ํค๋ ํ๋์ ์์ฑํฉ๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ์ธ๊ฐ ์กฐ์ ์ ํธ๋ฅผ ๊ฐํํ์ต ์ ์ฑ ์ ๊ด์ธก์ผ๋ก ๋ฃ๋ ๊ธฐ์กด Shared Autonomy ๋ฐฉ์๋ค๊ณผ ์ฐจ๋ณํ๋๋ฉฐ, ๊ณ ์ฐจ์ ์๊ฐ๋ฝ ์ ์ด์์ ์ฌ์ฉ์ ์๋์ ๋ฐ๋ฅธ ์ฐ์์ ๋ฏธ์ธ ํ๋ ์ํ๋ง์ ๊ฐ๋ฅ์ผ ํ ์ ์์ ์์๊ฐ ์์ต๋๋ค.
2.4 ์คํ ๊ฒฐ๊ณผ: ์์ ์ฑ 10~100๋ฐฐ ํฅ์, ์ธ๊ฐ-๋ก๋ด ํ์ ์ ํตํ ์ ๋ก์๋ ์ฑ๊ณผ
์ ์๋ค์ DexGen์ ์ฑ๋ฅ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ์คํ์ผ๋ก ๊ฒ์ฆํ์์ต๋๋ค.
๋จผ์ ์๋ฎฌ๋ ์ดํฐ์์, ์์ ์์ฑํ ๋ค์ํ RL ์ ์ฑ ๋ค๊ณผ ๊ฒฐํฉํ์ฌ DexGen์ด ์ผ๋ง๋ ์ฑ๋ฅ์ ํฅ์์ํค๋์ง ํ๊ฐํ์ต๋๋ค. Figure 8์์, ๋ ธ์ด์ฆ๊ฐ ์์ธ suboptimal ์ ๋ฌธ๊ฐ ์ ์ฑ ์ DexGen์ ์ ์ฉํ ๊ฒฝ์ฐ์ ์๋ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ๋๋ฐ, DexGen ์์ด ์ ์์ฐ ์ ์ฑ ๋ง ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ฌผ์ฒด๋ฅผ ์ ๋๋ก ์ก์ง ๋ชปํ๊ณ ๊ณ์ ๋จ์ด๋จ๋ฆฌ๋ catastrophic failure๊ฐ ๋น๋ฒํ์ต๋๋ค. ๋ฐ๋ฉด DexGen์ด ๋ณด์กฐํด์ค ๊ฒฝ์ฐ์๋ ๊ฐ์ฒด๋ฅผ ์์์ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ์ ์งํ๋ ์๊ฐ์ด ์๋ฑํ ์ฆ๊ฐํ๊ณ , ์ฌ์ง์ด ๋๋ถ๋ถ์ด ์ก์๋ฟ์ธ ์๋ง์ธ ์ ์ฑ ์กฐ์ฐจ DexGen์ด ์ผ๋ถ ๊ต์ ํ์ฌ ๋ชฉํ ๋์์ ์ด๋ ์ ๋ ์ฑ๊ณต์ํค๋ ์ฌ๋ก๋ฅผ ๋ณด์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ DexGen์ด ๋ค์ํ ์์ ์ ์ฑ ์ ๋ํด ๋ฌผ์ฒด ํ๋ฉ ์ง์์๊ฐ์ 10๋ฐฐ์์ ์ต๋ 100๋ฐฐ๊น์ง ๋๋ ค์ฃผ์๊ณ , ๊ธฐ์กด์ ์คํจํ๋ ๊ฒฝ์ฐ์๋ ์ฑ๊ณต์ ๋ฌ์ฑํ๊ฒ ํด์ฃผ์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ DexGen์ด ์ธ๋ถ ์ ์ฑ ์ ๋ถ์์ ์ฑ์ ํฌ๊ฒ ์ํ์์ผ์ค๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ํนํ ์ง๋ ์ ํธ ฮป์ ๋ฐ๋ฅธ ์ํฅ๋ ๋ถ์ํ๋๋ฐ, ฮป=0 (guidance ์์)์์๋ ์์ ํ์ง๋ง ๋ชฉํ ๋ฌ์ฑ์ ์ ๋๊ณ , ฮป๊ฐ ๋๋ฌด ํฌ๋ฉด ์์ ์ฑ์ด ๋จ์ด์ง๋ ํ์์ ํ์ธํ์ฌ, ์ ์ ํ trade-off ์ง์ ์ ์ฐพ์ ์ฌ์ฉํ์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ DexGen์ guided sampling ์ ๊ทผ์ด ์ฑ๊ณต์ ์ผ๋ก ์๋ํจ์ ๋ณด์ฌ์ค๋๋ค.
์ค์ ๋ก๋ด ์คํ์์๋ Allegro 4-ํ๊ฑฐ ๋ก๋ด ํธ๋ + Franka ์ ์กฐํฉ์ผ๋ก ๋ค์ํ ๋์ด๋์ ๋ฑ์คํฐ๋ฌ์ค ์์ ์ ์ํํ์ต๋๋ค. ์ธ๊ฐ ์กฐ์์๋ ์๊ฒฉ์ง์์ master ์ฅ์น๋ฅผ ํตํด ๊ณ ์์ค ์์ง์์ ๋ช ๋ นํ๊ณ , DexGen ์ปจํธ๋กค๋ฌ๊ฐ ์ด๋ฅผ ๋ฐ์ ์๊ฐ๋ฝ ์ธ๋ฐ ์กฐ์์ ์ค์๊ฐ ์์ฑํฉ๋๋ค. ํ๊ฐํ ์์ ์ผ๋ก๋ (1) ๊ณต์ค์์ ๋ฌผ์ฒด ์ก๊ณ ์์ ๋ฐฉํฅ์ผ๋ก ์ฌ๋ฐฐํฅํ๊ธฐ (In-hand Object Reorientation), (2) ํด ํธ๋ค ์ฌ๊ทธ๋ฆฝ ํ ํ์ ๊ทธ๋ฆฝ ์ ์งํ๊ธฐ (Functional Grasping), (3) ๋ฌผ์ฒด๋ฅผ ์๊ฐ๋ฝ ์ฌ์ด์์ ๋ค๋ฅธ ๊ทธ๋ฆฝ์ผ๋ก ์ฎ๊ฒจ์ก๊ธฐ (In-hand Regrasping) ๋ฑ์ด ์์์ต๋๋ค. ๋ํ ์ด๋ฌํ ๊ธฐ๋ณธ ์คํฌ๋ค์ ์กฐํฉํด์ผ ํ๋ ํ ์ก๊ณ ์ฐ๊ธฐ, ์ฃผ์ฌ๊ธฐ ์ฌ์ฉํ๊ธฐ, ๋๋ผ์ด๋ฒ๋ก ๋์ฌ ์กฐ์ด๊ธฐ ๊ฐ์ ์ฅ์๊ฐ(long-horizon) ๊ณต๊ตฌ ์ฌ์ฉ ์์ ๋ ๋์ ํ์์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, DexGen ์์ด๋ ๋๋ถ๋ถ์ ์์ ์์ ์ธ๊ฐ ์กฐ์๋ง์ผ๋ก๋ ์คํจํ๋ ๊ฒ์ด, DexGen์ ๋์์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, โํฐ ๋ฌผ์ฒด ์ธ๋ก ๋ฐฉํฅ ์ฌ๋ฐฐํฅโ ์์ ์์ Teleop ๋จ๋ ์ผ๋ก๋ 20ํ ์ค 0ํ ์ฑ๊ณต, ํ๊ท ๋ฌผ์ฒด ํ๋ฉ ์๊ฐ 5% (๊ฑฐ์ ๋ฐ๋ก ๋๋กญ)์์ผ๋, Teleop + DexGen์ ๊ฒฝ์ฐ 20ํ ์ค 12ํ ์ฑ๊ณต, ํ๋ฉ ์๊ฐ 75%๋ก ํฌ๊ฒ ํฅ์๋์์ต๋๋ค. ์์ ๋ฌผ์ฒด ์ฌ๋ฐฐํฅ๋ 0โ13ํ ์ฑ๊ณต์ผ๋ก ๊ฐ์ ๋์๊ณ , ๊ณต๊ตฌ ์ฌ๊ทธ๋ฆฝ ์์ ๋ํ Teleop ๋จ๋ 0%โ DexGen ๋ณด์กฐ 50~70%๋๋ก ์ฑ๊ณต๋ฅ ์ด ์ฌ๋์ต๋๋ค. ์๋ ํ๋ ๋ํ์ ์ธ ํ๊ฐ ๊ณผ์ ๋ค์ ๋ํ ์ฑ๊ณต๋ฅ (SR)๊ณผ ๋ฌผ์ฒด ๋จ์ด๋จ๋ฆฌ๊ธฐ ์ ๊น์ง ์ ์ง ์๊ฐ(TTF)์ ๋น๊ตํ ๊ฒฐ๊ณผ์ ๋๋ค:
์์ | Teleop (์ฑ๊ณต/์๋) | Teleop TTF | Teleop + DexGen (์ฑ๊ณต/์๋) | DexGen TTF |
---|---|---|---|---|
ํฐ ๋ฌผ์ฒด ์ฌ๋ฐฐํฅ (์ธ๋ก ๋ฐฉํฅ) | 0/20 | 5% | 12/20 | 75% |
์์ ๋ฌผ์ฒด ์ฌ๋ฐฐํฅ (์ธ๋ก ๋ฐฉํฅ) | 0/20 | 5% | 13/20 | 79% |
๊ณต๊ตฌ ์์ง ์ฌ๊ทธ๋ฆฝ (ํ์๊ทธ๋ฆฝ) | 0/10 | 5% | 7/10 | 87% |
๊ณต๊ตฌ ์ํ ์ฌ๊ทธ๋ฆฝ (ํ์๊ทธ๋ฆฝ) | 1/10 | 10% | 6/10 | 80% |
์์ ๊ณต ๊ณต์ค ์ฌ๊ทธ๋ฆฝ | 0/10 | 5% | 5/10 | 78% |
์ค๋ฆฐ๋ ๊ณต์ค ์ฌ๊ทธ๋ฆฝ | 0/10 | 5% | 5/10 | 74% |
ํ 1: ์ฃผ์ ์ค์ ์์ ์์ Teleop ๋จ๋ vs DexGen ๋ณด์กฐ ์ฑ๋ฅ ๋น๊ต (์ฑ๊ณต๋ฅ ๊ณผ ํ๋ฉ ์๊ฐ). DexGen์ ๋์ ์์ด๋ ์ธ๊ฐ์ด ๋ฌผ์ฒด๋ฅผ ๊ฑฐ์ ๋ฐ๋ก ๋จ์ด๋จ๋ ค ์ฑ๊ณตํ ์ ์๋ ์์ ๋ค๋, DexGen์ ํตํด ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ฉฐ ์ ๋ฐ ์ด์ ์ฑ๊ณตํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค.
ํนํ ํ์ผ๋ก ์ฐ๊ธฐ, ์ฃผ์ฌ๊ธฐ ์ฌ์ฉ, ๋๋ผ์ด๋ฒ ์ฌ์ฉ๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์ ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ์ฐจ๋ก๋ก ์ํํด์ผ ํ๋๋ฐ, DexGen์ ์ด๋ฌํ ์ฅ๊ธฐ๊ฐ ์กฐ์์๋ ์ฒ์์ผ๋ก ๋์ ํ์ฌ ๋ถ๋ถ์ ์ธ ์ฑ๊ณต์ ๊ฑฐ๋์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด
๋๋ผ์ด๋ฒ ์์
์ ๊ฒฝ์ฐ, โ๋ฌผ์ฒด ์ฌ๋ฐฐํฅโ์ฌ๊ทธ๋ฆฝโ๋์ฌ ํ ์ ๋ ฌโ์กฐ์ด๊ธฐโ์ 4๋จ๊ณ ์ค, ์ฌ๋ฐฐํฅ์ 16/20ํ, ์ฌ๊ทธ๋ฆฝ 11/20ํ, ๋๋ผ์ด๋ฒ ๋์ ํ์ ๋ง์ถ๊ธฐ 5/20ํ, ์ต์ข ์ ์ผ๋ก ๋์ฌ ์กฐ์ด๊ธฐ ๋์ ์์ 3/20ํ ์ฑ๊ณตํ์์ต๋๋ค. ์ฃผ์ฌ๊ธฐ ์ฌ์ฉ
์ญ์, โ์ฌ๋ฐฐํฅโ์ฌ๊ทธ๋ฆฝโ๋ฐ์ด ๋ฃ๊ธฐโ 3๋จ๊ณ ์ค ์ต์ข ๋ฐ์ด ๋ฃ๊ธฐ 4/20ํ ์ฑ๊ณต์ผ๋ก ์์ ํ ์ฑ๊ณต๋ฅ ์ ์์ง ๋ฎ์ง๋ง ๋จ๊ณ๋ณ๋ก๋ ๊ฝค ๋์ ์ฑ๊ณต ๋น์จ์ ๋ณด์์ต๋๋ค.
์ด๋ ํด๋น ์์
์ ๋์ด๋๋ฅผ ๊ณ ๋ คํ๋ฉด ์ ์๋ฏธํ ์ฑ๊ณผ๋ก, ์ ์๋ค์ โ์ธ๊ณ ์ต์ด๋ก ์ด๋ฌํ ์ฅ๊ธฐ๊ฐ์ ๋ณต์กํ ๊ธฐ๊ต ์กฐ์์ Teleop์ผ๋ก ์คํํ๋คโ
๊ณ ๊ฐ์กฐํฉ๋๋ค. ๋น๋ก ์ฌ๋ฌ ๋จ๊ณ๋ฅผ ์ฐ๋ฌ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ ์ฐ๊ณ ์ฑ๊ณต๋ฅ ์ ๋ฎ์์ง๋ง, ์ด๋ ๊ฐ ์๋ธ์คํฌ์ ์ฑ๊ณต๋ฅ ์ ํฅ์ํ๊ณ ํตํฉํ๋ ์ถ๊ฐ ์ฐ๊ตฌ๋ก ๊ทน๋ณต ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์ ๋งํ๊ณ ์์ต๋๋ค.
ํํธ, DexGen๊ณผ ์์ฃผ ๋น๊ต๋ ์ ์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ์ ์ฐจ์ด๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ฐ์ดํฐ: ๊ธฐ์กด์ Gato, RT-1 ๋ฑ ๋ก๋ด Foundation ๋ชจ๋ธ๋ค์ ์ค์ธ๊ณ์ ๊ฑฐ๋ํ ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ฐ๋ฉด, DexGen์ ์ ์ ์ผ๋ก ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ก ํ์ต๋์์ต๋๋ค. ์ด๋ ํ์ค ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์์ ์ฐํํ๋ฉด์๋, Domain Randomization ๋ฑ์ ํตํด ํ์ค ์ ์ฉ๋ ฅ์ ํ๋ณดํ๋ ค ํ ๊ฒ์ผ๋ก, sim-to-real์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
- ๊ณ ์ฐจ์ ๋ค์ง ๋ก๋ด ์ ์กฐ์: ์ด์ ์ ์ผ๋ฐist ์ ์ฑ
๋ค์ ์ฃผ๋ก 2-finger ๊ทธ๋ฆฌํผ์ ๊ฐ์ ์ ์ฐจ์ ์ ์ด์ ์ง์ค๋์์ต๋๋ค. DexGen์ Degrees of Freedom 16์ Allegro Hand๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํจ์ผ๋ก์จ, ์ ๊ตํ ์๋์ ๋ถ์ผ์์ generative pretraining์ ์ฑ๊ณต์ ์ธ ์ฌ๋ก๋ฅผ ์ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ Rubikโs Cube ํ๊ธฐ(OpenAI Dactyl) ๋ฑ ๋จ์ผ ๊ณผ์ RL ์ฑ๊ณต ์ดํ๋ก, ๋ค์ํ ๋ฌผ์ฒด์ ๋๊ตฌ ์ฌ์ฉ์๊น์ง ๋ฒ์ฉ์ฑ์ ํ์ฅํ ์์๊ฐ ์์ต๋๋ค.
- ์ฐ์์ ํ๋กฌํํธ์ ์ํ ์ ์์ค ์ ์ด: ๋๋ถ๋ถ์ ๊ธฐ์กด ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์์ฐ์ด ์ง์๋ ํ์คํฌ ID์ฒ๋ผ ์ด์ฐ์ ์ด๊ณ ์์ ์์ค์ conditioning๋ง์ ๋ฐ์ต๋๋ค. ๋ฐ๋ฉด DexGen์ ์ฐ์์ ์ธ ๋ฏธ์ธ ๋์์ ํ๋กฌํํธ๋ก ๋ฐ์๋ค์ด๊ณ , ์ด๋ฅผ ์ค์๊ฐ ํ๋์ผ๋ก ๋ณํํ๋ ์ ์์ค ์ปจํธ๋กค๋ฌ๋ผ๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค. ์ด๋ ํฅํ ๊ณ ๋ ๋ฒจ ํ๋๋๋ ์ธ์ด ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ์ฌ ์๋ํ๋ ๊ธฐ๋ณธ ์ ์ด๊ธฐ๋ก ํ์ฉ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
2.5 ๊ฒฐ๋ก ๋ฐ ์ ๋ง
DexterityGen ํ๋ก์ ํธ๋ ์ธ๊ฐ-๋ก๋ด ํ์
๊ณผ ์์ฑํ ์ ์ฑ
์ ๊ฒฐํฉ์ผ๋ก ๋ก๋ด ์์ ์ ์ฌ๋ ฅ์ ํฌ๊ฒ ๋์ด์ฌ๋ฆฐ ์ฌ๋ก์
๋๋ค. ์์ฝํ๋ฉด, DexGen์ ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ ๊ฑฐ๋ํ skill prior๋ฅผ ํ์ฉํ์ฌ, ํ์ค์์ ์ธ๊ฐ์ ๊ณ ์์ค ์กฐ์์ ์์ ํ ์ธ๋ถ ํ๋์ผ๋ก ๊ตฌํํ๋ foundation controller๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ์ด๋ ค์ ๋ ๋ค์ํ ๋ฌผ์ฒด์ ๊ณต์ค ์กฐ์, ๋๊ตฌ ์ฌ์ฉ ๋ฑ์ ์ต์ด๋ก ์์ฐํ๋ฉฐ, ์์ ์ฑ ์ธก๋ฉด์์ 10~100๋ฐฐ ํฅ์์ด๋ผ๋ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. DexGen์ ๋ฑ์ฅ์ ํฅํ ๋ก๋ด ์ฐ๊ตฌ์ ์ฌ๋ฌ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ์ด์ด์ค๋๋ค. ์๋ฅผ ๋ค์ด, ์ด low-level dexterous controller๋ฅผ high-level task planning์ด๋ ์ธ์ด์ง์ ์ ์ฑ
๊ณผ ๊ฒฐํฉํ๋ฉด, ๋์ฑ ๋ณต์กํ ์์
์ ์ธ๊ฐ์ ๊ฐ๋จํ ๋ช
๋ น์ผ๋ก ์ํํ๋ ๋ฉํฐ๋ ๋ฒจ ๋ก๋ด ์ ์ด ์์คํ
์ ๊ตฌ์ฑํ ์ ์์ ๊ฒ์
๋๋ค. ๋ํ DexGen์ด ๊ฐ๋ฅ์ผ ํ ์์ ์ ์ธ ๊ณต๊ตฌ ์ฌ์ฉ ๋ฐ์ดํฐ ์์ง์ ๋ฐํ์ผ๋ก, ์ถํ์๋ ์์ ์์จ์ ์ธ ์ฌ์ธ ์กฐ์ ์ ์ฑ
์ผ๋ก๋ ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์
๋๋ค. ์ ์๋ค๋ DexGen์ด โ๋ฏธ๋ ๋ก๋ด ์์ด์ ํธ์ ํต์ฌ ๋น๋ฉ๋ธ๋กโ
์ผ๋ก์ ์ญํ ํ๋ฉฐ, ์์ผ๋ก ๋์๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค ๊ฒ์ผ๋ก ๊ธฐ๋ํ๊ณ ์์ต๋๋ค.
๊ถ๊ทน์ ์ผ๋ก, DexterityGen์ ๋ค์์ ๋ ๋ก๋ด ์ ์ ์ด ๋ถ์ผ์์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ๊ฐ๋ ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ ์ฒซ ์ฌ๋ก ์ค ํ๋๋ก์, ๋ณต์กํ ์ธ๊ฐ ์์ค์ ๊ธฐ๊ต๋ฅผ ๋ก๋ด์๊ฒ ํ์ต์ํค๋ ๋ฐฉํฅ์ ํฐ ์ด์ ํ๋ฅผ ์ธ์ ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ฅผ ํตํด ๋จ์์๋ ํ๊ณ์ ๋ค โ ์๋ฅผ ๋ค์ด ์ฅ๊ธฐ ์ฐ์ ๋์์ ์์ฑ๋ ํฅ์, ์ด๊ฐ์ผ์ ๊ฒฐํฉ, ์ค์๊ฐ ์ฑ๋ฅ ์ต์ ํ ๋ฑ โ ์ด ๊ฐ์ ๋๋ค๋ฉด, ์ง์ ํ ์๋ฏธ์ ๋ฒ์ฉ ์กฐ์ ๋ก๋ด์ ํ ๊ฑธ์ ๋ ๋ค๊ฐ์ค ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.