๐Dextreme ๋ฆฌ๋ทฐ
CoRL 2021
- ๐ค DeXtreme์ ์ฌ์ธต ๊ฐํ ํ์ต์ ํตํด ์ธ๊ฐํ ๋ก๋ด ์์ ์ ๊ตํ ์กฐ์ ์ ์ฑ ์ ํ๋ จํ๊ณ , ๋ฌผ์ฒด์ ์ํ์ ๋ํ ์ ๋ขฐ์ฑ ์๋ ์ค์๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฐ๋ ฅํ ์์ธ ์ถ์ ๊ธฐ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
- ๐ช ์๋ฎฌ๋ ์ด์ ์์ ๋ค์ํ ์กฐ๊ฑด์ ์ ์ํ๋๋ก ํ๋ จ๋ ์ ์ฑ ์ ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ฉฐ ๋ชจ์ ์บก์ฒ ์์คํ ์ ํตํด ํน๊ถ์ ์ธ ์ํ ์ ๋ณด๋ฅผ ์ ๊ณต๋ฐ์ ์ ์ฑ ๊ณผ ๊ฒฝ์๋ ฅ์ ๊ฐ์ต๋๋ค.
- ๐ฐ Allegro Hand ๋ฐ Isaac Gym GPU ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์ ๊ทผ ๊ฐ๋ฅํ ๋ก๋ด ์๊ณผ ์นด๋ฉ๋ผ๋ก ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ฌ ๋ฏผ์ฒฉํ ์กฐ์ ๊ฐ๋ฐ ๋ฐ ๋ฐฐํฌ ๊ณผ์ ์ ๋จ์ํํ์ต๋๋ค.
1 Brief Review
์ด ๋ ผ๋ฌธ์ ๋ค์ง ๋ก๋ด ์์ผ๋ก ๋ฏผ์ฒฉํ ์กฐ์์ ํ์ตํ๊ณ ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก ์ด์ ํ๋ ๊ธฐ์ ์ธ DeXtreme์ ์ ์ํฉ๋๋ค. ํต์ฌ์ ์ฌ์ธต ๊ฐํ ํ์ต(RL)์ ์ฌ์ฉํ์ฌ ๋ก๋ด ์์ ๊ฒฌ๊ณ ํ ์กฐ์ ์ ์ฑ ์ ํ๋ จํ๊ณ , ์กฐ์ ๋์ ๊ฐ์ฒด์ ์ํ์ ๋ํ ์ ๋ขฐํ ์ ์๋ ์ค์๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฐ๋ ฅํ ์์ธ ์ถ์ ๊ธฐ๋ฅผ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
๊ณผ์ ์ค์ : ์ธ๊ฐํ ๋ก๋ด ์์ผ๋ก ๋ฌผ์ฒด ๋ฐฉํฅ์ ๋ฐ๊พธ๋ ๊ณผ์ ๋ฅผ ์ค์ ํฉ๋๋ค. ์๋ฐ๋ฅ ์์ ๋์ธ ๋ฌผ์ฒด๋ฅผ ์ํ๋ ๋ชฉํ ๋ฐฉํฅ์ผ๋ก ํ์ ์ํค๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. ๋ชฉํ ๋ฐฉํฅ์ ๋๋ฌํ๋ฉด ์๋ก์ด ๋ชฉํ ๋ฐฉํฅ์ด ์ฃผ์ด์ง๊ณ , ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ๊ฑฐ๋ ์ ์งํ์ง ์๊ณ ์ฐ์์ ์ผ๋ก ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ํ์๋ฅผ ์ธก์ ํฉ๋๋ค.
ํ๋์จ์ด ๊ตฌ์ฑ: Allegro Hand (์๋ชฉ ๊ณ ์ )์ 3๋์ Intel D415 RGB ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์นด๋ฉ๋ผ๋ ์๋ฐ๋ฅ์ ๊ธฐ์ค์ผ๋ก ์ธ๋ถ ์บ๋ฆฌ๋ธ๋ ์ด์ ๋ฉ๋๋ค. ๋ง์ปค ๊ธฐ๋ฐ ์์คํ ๋์ ๋น์ ๊ธฐ๋ฐ ์์คํ ์ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด ์์ธ๋ฅผ ์ถ์ ํฉ๋๋ค.
์ ์ฑ ํ์ต:
- RL ๊ณต์ํ: ๋ฌผ์ฒด ์กฐ์ ๊ณผ์ ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ํ๋ก์ธ์ค(POMDP)๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. Proximal Policy Optimization (PPO) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ด์ธก๊ฐ์์ ํ๋์ผ๋ก์ ๋งคํ์ ํ์ตํ๋ ํ๋ฅ ์ ์ ์ฑ \pi_\theta (actor)๋ฅผ ํ์ตํฉ๋๋ค. ๋ํ ๊ฐ์น ํจ์ V^{\pi}_\phi (s, o) (critic)๋ฅผ ํ์ตํ์ฌ ์ ์ฑ ๊ฐ์น๋ฅผ ์ถ์ ํฉ๋๋ค.
- Actor์ Critic: Critic์ Actor์ ๋ค๋ฅธ ๊ด์ธก๊ฐ์ ์ฌ์ฉํ๋ฉฐ, ์ํ s \in S์ ๋ํ ์ถ๊ฐ ์ ๋ณด๋ฅผ ๋ฐ์ต๋๋ค. Actor์ ์ ๋ ฅ์ ๋ฌผ์ฒด ์์น, ๋ฐฉํฅ, ๋ชฉํ ์์น, ๋ฐฉํฅ, ์๋์ ๋ชฉํ ๋ฐฉํฅ, ์ด์ ํ๋, ์ ๊ด์ ๊ฐ๋, ํ๋ฅ ์ ์ง์ฐ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค (์ด 50์ฐจ์). Critic์ Actor์ ์ ๋ ฅ ์ธ์๋ ํ๊ฑฐํ ์์น/ํ์ /์๋/ํ, ์ ๊ด์ ์๋/ํ, ๋ฌผ์ฒด ์์ฑ, ์ค๋ ฅ ๋ฒกํฐ ๋ฑ ์ถ๊ฐ ์ํ ์ ๋ณด๋ฅผ ํ์ฉํฉ๋๋ค (์ด 265์ฐจ์).
- ์ ๊ฒฝ๋ง ๊ตฌ์กฐ: ์ ์ฑ ์ LSTM(Long Short-Term Memory) ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด์ hidden state h \in H์ ํ๊ฒฝ ๊ด์ธก๊ฐ o๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. LSTM์ 1024๊ฐ์ hidden unit๊ณผ layer normalization์ ์ฌ์ฉํ๊ณ , ๊ทธ ๋ค์ 512 ํฌ๊ธฐ์ MLP(Multilayer Perceptron) ๋ ์ด์ด 2๊ฐ๊ฐ ELU ํ์ฑํ ํจ์์ ํจ๊ป ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ก์ ๊ณต๊ฐ A๋ ๋ก๋ด ์์ 16๊ฐ ๊ด์ ์ ๋ํ PD ์ปจํธ๋กค๋ฌ ๋ชฉํ์ ๋๋ค. ๊ฐ์น ํจ์ LSTM ๋ ์ด์ด๋ 2048๊ฐ์ hidden unit์ ๊ฐ๊ณ layer normalization์ ์ฌ์ฉํ๋ฉฐ, 1024 ๋ฐ 512 ์ ๋์ MLP ๋ ์ด์ด 2๊ฐ์ ELU ํ์ฑํ ํจ์๊ฐ ๋ค๋ฐ๋ฆ ๋๋ค. ์ ์ฑ ์ ์ถ๋ ฅ์ ์ง์ ์ด๋ ํ๊ท (EMA) ํํํ ํํฐ๋ฅผ ํต๊ณผํฉ๋๋ค.
๋ณด์ ํจ์: Isaac Gym์ Shadow Hand ํ๊ฒฝ์์ ์๊ฐ์ ๋ฐ์ ์ค๊ณ๋ ๋ณด์ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ชฉํ์ ๊ฐ๊น์ด ํ์ , ๊ณ ์ ๋ชฉํ ์์น์ ๊ฐ๊น์ด ์์น, ์ก์ ํ๋ํฐ, ์ก์ ๋ณํ ํ๋ํฐ, ๊ด์ ์๋ ํ๋ํฐ ๋ฑ์ ๊ณ ๋ คํฉ๋๋ค.
์๋ฎฌ๋ ์ด์ ํ๊ฒฝ: GPU ๊ธฐ๋ฐ Isaac Gym ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ฒ ๊ฐ์ ๋ก๋ด์ ๋ณ๋ ฌ๋ก ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค.
๋๋ฉ์ธ ๋๋คํ: ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์ฌ์ด์ ๊ฐ๊ทน์ ์ค์ด๊ธฐ ์ํด ๋ค์ํ ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ์ ์ ์ฉํฉ๋๋ค.
- Vectorized Automatic Domain Randomization (VADR): ๋๋ฉ์ธ ๋๋คํ ํ๋ผ๋ฏธํฐ๋ฅผ ์๋์ผ๋ก ์กฐ์ ํ์ฌ ์ ์ฑ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋๋คํ ๋ฒ์๋ฅผ ์ต๋ํํฉ๋๋ค. ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํด ๋ณ๋์ ์คํ ํฌ๊ธฐ \Delta_n์ ์ค์ ํ๊ณ , ํ๊ฒฝ์ 40%๋ฅผ ํ๊ฐ์ ์ฌ์ฉํฉ๋๋ค. ํ๊ฐ ํ๊ฒฝ์์๋ ADR ๋๋คํ ์ฐจ์ ์ค ํ๋๋ฅผ ํ์ฌ ์ํ ๋๋ ํํ ๊ฒฝ๊ณ๋ก ๊ณ ์ ํฉ๋๋ค. ์ํผ์๋ ์ข ๋ฃ ์ ์ฐ์ ์ฑ๊ณต ํ์๋ฅผ ๊ธฐ๋กํ๊ณ , ํ๊ท ์ฐ์ ์ฑ๊ณต ํ์๊ฐ ์๊ณ๊ฐ์ ์ด๊ณผํ๋ฉด ๋ฒ์๋ฅผ ๋ํ๊ณ , ๋ฎ์ผ๋ฉด ๋ฒ์๋ฅผ ์ขํ๋๋ค. ์ฌ๋ฌ GPU์์ ํ๋ จํ ๋ ๊ฐ GPU์์ VADR์ ๋ ๋ฆฝ์ ์ผ๋ก ์คํํฉ๋๋ค.
- ๋ฌผ๋ฆฌ ๋๋คํ: ์ง๋, ๋ง์ฐฐ, ๋ฐ๋ฐ ๊ณ์ ๋ฑ ๊ธฐ๋ณธ ์์ฑ์ ๋๋คํํฉ๋๋ค. ์๊ณผ ๋ฌผ์ฒด์ ํฌ๊ธฐ๋ฅผ ๋๋คํ๊ฒ ์กฐ์ ํ๊ณ , ๊ด์ ๊ฐ์ฑ, ๊ฐ์ , ํ๊ณ๋ฅผ ๋๋คํํฉ๋๋ค. ๋ํ ๋ฌผ์ฒด์ ์์์ ํ์ ๊ฐํฉ๋๋ค.
- ๋น๋ฌผ๋ฆฌ ๋๋คํ: ์ก์ ๋ฐ ๊ด์ธก์ ํ๋ฅ ์ ์ง์ฐ, ์ก์ ์ง์ฐ ์๊ฐ, ์๊ด/๋น์๊ด ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํฉ๋๋ค. ๋ํ RNA(Random Network Adversary)๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌ์กฐํ๋ ๋ ธ์ด์ฆ ํจํด์ ๋์ ํฉ๋๋ค.
- Random Network Adversary (RNA): ๊ฐ ์ํผ์๋๋ง๋ค ๋ฌด์์๋ก ์์ฑ๋ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ฌ ํ๊ฒฝ์ ๋ ๊ตฌ์กฐํ๋ ์ํ ๊ฐ๋ณ ๋ ธ์ด์ฆ ํจํด์ ๋์ ํฉ๋๋ค. RNA ๋คํธ์ํฌ์ ์ก์ ์ a = \alpha \cdot a_{RNA} + (1-\alpha) \cdot a_{policy}์ ๊ณต์์ผ๋ก ์ ์ฑ ์ผ๋ก๋ถํฐ์ ์ก์ ๊ณผ ํผํฉ๋ฉ๋๋ค. \alpha๋ ADR์ ์ํด ์ ์ด๋ฉ๋๋ค.
์์ธ ์ถ์ : NVIDIA Omniverse Isaac Sim๊ณผ Replicator๋ฅผ ์ฌ์ฉํ์ฌ 5๋ฐฑ๋ง ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํฉ๋๋ค. torchvision Mask-RCNN์์ ์๊ฐ์ ์ป์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ bounding box, segmentation, ํ๋ธ ๋ชจ์๋ฆฌ์ keypoint๋ฅผ ์์ธกํฉ๋๋ค. ์ธ ๋์ ์นด๋ฉ๋ผ์์ 20Hz์ ์ถ๋ก ์๋๋ก ๋คํธ์ํฌ๋ฅผ ์คํํ๊ณ , ๊ฐ ์นด๋ฉ๋ผ์์ PnP ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์์ธ๋ฅผ ์ถ์ ํ ๋ค์, ํํฐ๋ง๋ ์นด๋ฉ๋ผ์์ ํคํฌ์ธํธ๋ฅผ ์ผ๊ฐ ์ธก๋ํ์ฌ ์ต์ข ์์ธ๋ฅผ ์ป์ต๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ:
ADR์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ ์ ์ฑ ์ด ์๋์ผ๋ก ์กฐ์ ๋ ์ ์ฑ ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํฉ๋๋ค.
๋น์ ๊ธฐ๋ฐ ์์ธ ์ถ์ ์ ์ฌ์ฉํ ์ ์ฑ ์ด ์ด์ ์ฐ๊ตฌ์ ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋์๊ณ , ๋ชจ์ ์บก์ฒ ์์คํ ์ ์ฌ์ฉํ ์ ์ฑ ๊ณผ๋ ๊ฒฝ์๋ ฅ์ด ์์ต๋๋ค.
์ ๋ ดํ ํ๋์จ์ด (Allegro Hand)์ ๊ฐ๋จํ ๋น์ ์์คํ ์ผ๋ก๋ ๋ฏผ์ฒฉํ ์กฐ์์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ ์ฆํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ:
์ ๋ ดํ ํ๋์จ์ด๋ฅผ ์ฌ์ฉํ๊ณ ์์ํ๊ฒ ๋น์ ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํ๋ ํ์ต ๊ธฐ๋ฐ ๋ฏผ์ฒฉํ ์กฐ์ ์์คํ ์ ์์ฐํฉ๋๋ค.
๋ค์ํ ๋ก๋ด ์ค์ ์์ ์๋ํ๋ ๊ฐ๋ ฅํ ์์ธ ์ถ์ ๊ธฐ๋ฅผ ๊ฐ๋ฐํฉ๋๋ค.
์์ ๋น์ ๊ธฐ๋ฐ ์ํ ์ถ์ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ์กด ๋น์ ๊ธฐ๋ฐ ๊ฒฐ๊ณผ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ฉฐ ๋ง์ปค ๊ธฐ๋ฐ ๊ฒฐ๊ณผ์ ๋น์ทํฉ๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ก๋ด ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๊ฐ ์ต์ฒจ๋จ ํธ๋ ๋ด ์กฐ์ ์์คํ ์ ์ ๊ทผํ ์ ์๋๋ก ์ง์ํ๊ณ ์ถ๊ฐ ์ฐ๊ตฌ ๋ฐ ๋ฐ์ ์ ์ด์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
2 Detail Review
DeXtreme: ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก์ ๋ฏผ์ฒฉํ ์ ์ ์กฐ์ ์ ์ด โ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
2.1 ๋ฐฐ๊ฒฝ: ์ ์ ์กฐ์๊ณผ Sim-to-Real์ ๋์ ๊ณผ์
์ผ๋ฐ์ ์ธ ๋ก๋ด ๊ทธ๋ฆฌํผ(์ง๊ฒ)๋ ๋ ๊ฐ์ ์๊ฐ๋ฝ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฐฉ์์ด์ด์ ํ ๋ฒ ์ฅ ๋ฌผ์ฒด์ ์์ธ(orientation)๋ฅผ ํฌ๊ฒ ๋ฐ๊พธ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด ๋ค์ง(ๅคๆ) ๋ก๋ด ์์ ์ธ๊ฐ ์์ฒ๋ผ ๋ณต์กํ ์์ง์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ ์์์ ์กฐ์(in-hand manipulation)ํ ์ ์์ด, ์๋ฅผ ๋ค์ด ์๋ฐ๋ฅ ์์์ ํ๋ธ์ ์์ธ๋ฅผ ์์ ๋กญ๊ฒ ๋ฐ๊พธ๋ ๋ฑ ๊ณ ๋๋ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ณ ์์ ๋ ๋ก๋ด ์์ ์ ์ด๋ ๋์ด๋๊ฐ ๋๊ณ , ํนํ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ตํ ์ ์ด ์ ์ฑ ์ ํ์ค ๋ก๋ด์ ์ฎ๊ธธ ๋ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๊ฒฉ์ฐจ(sim-to-real gap)๋ก ์ธํด ๋ง์ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค. ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ ๋ฏธ์ธํ ๋ง์ฐฐ, ์ ์ด(dynamic contact) ๋ฑ ๋ฌผ๋ฆฌ ์ํธ์์ฉ์ ์ ํํ ๋ชจ์ฌํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค.
2018๋ OpenAI ์ฐ๊ตฌ์ง์ ์ฌ์ธต ๊ฐํํ์ต๋ง์ผ๋ก ๋ค์ง ๋ก๋ด ์์ ๋ณต์กํ ์ ์ ์กฐ์์ ์ฒ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ฌ ํฐ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค. ์ด๋ค์ Shadow Hand๋ผ๋ ๊ณ ๊ฐ์ ๋ก๋ด ์๊ณผ ๋ชจ์ ์บก์ฒ ๊ธฐ๋ฐ์ ์ ๋ฐ ์ถ์ ์์คํ ์ ์ฌ์ฉํ๊ณ , ์๋ฐฑ ๋์ CPU ์๋ฒ์ ์์ญ ๋์ GPU๋ฅผ ๋์ํ ๋ณต์กํ ํ์ต ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ Rubikโs Cube์ ๊ฐ์ ๋์ ํด๊ฒฐ์ด ๊ฐ๋ฅํด์ก์ง๋ง, ํน์ํ ํ๋์จ์ด์ ๋ง๋ํ ์ฐ์ฐ ์์์ ์์กดํ๊ธฐ์ ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ ์ธก๋ฉด์์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ดํ ์ฐ๊ตฌ๋ค์์๋ ๊ฐํํ์ต์ ํตํ ์ ์ ์กฐ์ ์ฑ๊ณต ์ฌ๋ก๊ฐ ๋ณด๊ณ ๋์์ง๋ง ๋๋ถ๋ถ ์๋ฎฌ๋ ์ด์ ๋ด์ ์ฑ๊ณผ์ ๊ทธ์ณค์ต๋๋ค.
DeXtreme์ ์ด๋ฌํ ๋งฅ๋ฝ์์ ๋ฑ์ฅํ ์ฐ๊ตฌ๋ก, ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ๋ฎ์ถ ์ฅ๋น์ ํจ์จ์ ์ธ ํ์ต ๊ธฐ๋ฒ์ ํตํด ํ์ค ์ธ๊ณ์์ ๋ฏผ์ฒฉํ ์ ์ ์กฐ์์ ๊ตฌํํ ์ฌ๋ก์ ๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ์ฝ 10๋ฐฐ ์ ๋ ดํ Allegro Hand(4 finger, ๊ด์ ์ 16)๋ฅผ ์ฌ์ฉํ๊ณ ์๋ชฉ์ ๊ณ ์ ํ์ผ๋ฉฐ, ๋ฌผ์ฒด ์ถ์ ์ ์ํด ์ ์ฉ ๋ง์ปค๋ ๋ชจ์บก ์์ด 3๋์ ๋ฒ์ฉ RGB ์นด๋ฉ๋ผ๋ง ํ์ฉํ์ต๋๋ค. ๋ํ ์๋ฎฌ๋ ์ดํฐ๋ก NVIDIA Isaac Gym(GPU ๊ฐ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ )์ ์ฌ์ฉํ์ฌ ํ์ต ์ธํ๋ผ๋ฅผ ํฌ๊ฒ ๊ฐ์ํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋จ 8๊ฐ์ GPU๋ก ํ์ต์ ์๋ฃํ ์ ์์์ผ๋ฉฐ (OpenAI์ ์ด์ ์์ ์ 400์ฌ ๋์ CPU ์๋ฒ์ 32๊ฐ์ GPU๋ฅผ ์ฌ์ฉ, ์ต์ข ์ ์ฑ ์ ๋ชจ์ ์บก์ฒ ์์ด๋ OpenAI์ ๋ชจ์บก ๊ธฐ๋ฐ ์ฑ๋ฅ์ ํ์ ํ๋ ์์ค์ ๋ฌ์ฑํ์ต๋๋ค. ์์ฝํ๋ฉด, DeXtreme์ โ์ ๋ ดํ ๋ก๋ด ์+๋น์ ๊ธฐ๋ฐ ์ํ ์ถ์ +๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ โ ์กฐํฉ์ผ๋ก ์ ์ ์กฐ์์ sim-to-real ๊ฐ๋ฅ์ฑ์ ์ฌํ์ธํ๊ณ , ๊ด๋ จ ์ฐ๊ตฌ์ ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถ ์๋ฏธ ์๋ ์ฑ๊ณผ์ ๋๋ค.
2.2 DeXtreme์ ์ ๊ทผ๋ฒ: Privileged RL, Teacher-Student ๊ตฌ์กฐ, ADR ๋ฑ
DeXtreme์์๋ ํ์ค ๋ก๋ด(hand + ์นด๋ฉ๋ผ)์ผ๋ก ์ฎ๊ฒจ๋ ๋์ํ๋ ๊ฐํํ์ต ์ ์ฑ ์ ๋ง๋ค๊ธฐ ์ํด, ์๋ฎฌ๋ ์ด์ ์์์ ๋ค์๊ณผ ๊ฐ์ ๊ธฐ๋ฒ๋ค์ ์กฐํฉํด ํ์ต์ ์งํํ์ต๋๋ค:
Privileged Learning๊ณผ ๋น๋์นญ ์ ์ฑ ํ์ต: ํ์ค์์๋ ๋ฌผ์ฒด์ ์ ํํ ์ํ(์: ํ๋ธ์ 3์ฐจ์ ์์ธ)๋ฅผ ์ง์ ์ ์ ์์ง๋ง ์๋ฎฌ๋ ์ด์ ์์ ์ฝ๊ฒ ์ป์ ์ ์์ต๋๋ค. ์ด๋ฅผ ํ์ฉํด ํ์ต ์ ์ ์ฑ (policy)๊ณผ ๊ฐ์นํจ์(critic)์ ์๋ก ๋ค๋ฅธ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ต๋๋ค. ์ ์ฑ ๋คํธ์ํฌ(์ค์ ๋ก๋ด์ ๋ฐฐ์น๋ ํ์(student) ์ญํ )๋ ์ค์ ๋ก ๊ด์ธก ๊ฐ๋ฅํ ์ ๋ณด๋ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ก ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์ ๊ด์ ๊ฐ๋, ๋ชฉํ ์์ธ์ ํ์ฌ ์ถ์ ๋ ํ๋ธ ์์ธ(์ฝ๊ฐ์ ๋ ธ์ด์ฆ ์ถ๊ฐ) ๋ฑ ๋ถ๋ถ ๊ด์ธก ์ํ๋ง์ผ๋ก ํ๋์ ๊ฒฐ์ ํ๊ฒ ํฉ๋๋ค. ๋ฐ๋ฉด ๊ฐ์นํจ์ ์ ๊ฒฝ๋ง(๊ต์ฌ** ์ญํ )์๋ ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ๊ณตํ๋ privileged ์ ๋ณด๊น์ง ์ถ๊ฐ๋ก ์ ๋ ฅํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด์ ์ค์ ์์น/์์ธ, ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(๋ง์ฐฐ๊ณ์ ๋ฑ)์ ์์๋ก ๊ฐํด์ง ์ธ๋ ฅ ๋ฑ์ ์ ๋ณด๋ฅผ ํ๊ฐ์๋ง ์๊ณ ์๋๋ก ํจ์ผ๋ก์จ, ํ์ต ๊ณผ์ ์์ ์ ์ฑ ํ๊ฐ์ ์ ํ์ฑ์ ๋์ด๊ณ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ์ด๋ฌํ ๋น๋์นญ(actor-critic) ํ์ต** ๊ตฌ์กฐ๋ Pinto ๋ฑ ์ ํ์ฐ๊ตฌ์ ๋ฐฉ์์ ๋ฐ๋ฅธ ๊ฒ์ผ๋ก, ํ์ค์์ ๊ด์ธก ๋ถ๊ฐ๋ฅํ ์ ๋ณด๋ฅผ ํ์ฉํด ๊ต์ฌ๊ฐ ํ์ ์ ์ฑ ์ ํจ๊ณผ์ ์ผ๋ก ์ง๋ํ๋ ํํ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ํ ์ ์ฑ ๋คํธ์ํฌ๋ LSTM ๊ธฐ๋ฐ์ ์ํ์ ๊ฒฝ๋ง(recurrent policy)์ผ๋ก ๊ตฌ์ฑํ์ฌ, ๊ณผ๊ฑฐ์ ๊ด์ธก ์ ๋ณด๋ฅผ ๋ด์ฌํํ๊ณ ๋ถ๋ถ ๊ด์ธก ๋ฌธ์ ๋ฅผ ์ํํ์ต๋๋ค. LSTM (์๋ ์ฐจ์ 1024)์ ์ฌ์ฉํจ์ผ๋ก์จ ์ ์์ง์์ ์ฐ์์ฑ๊ณผ ์๊ฐ ์ง์ฐ์ ๋ํ ๋์ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ ์ฑ ์ ํ์ตํ์ต๋๋ค.
Domain Randomization (๋๋ฉ์ธ ๋๋คํ)๊ณผ ์ปค๋ฆฌํ๋ผ ํ์ต: ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฒฉ์ฐจ๋ฅผ ๊ทน๋ณตํ๋ ๋ํ ๊ธฐ๋ฒ์ผ๋ก ํ๊ฒฝ ๋ฌด์์ํ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค. ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋ฌด์์ํ๋ก๋ ๋ฌผ์ฒด์ ์์ ๋ง์ฐฐ๊ณ์, ์ง๋, ๊ด์ฑ, ํ์ฑ๊ณ์ ๋ฑ์ ์์๋ก ๋ณํ์์ผฐ๊ณ , ์๊ฐ๋ฝ ๊ด์ ๋ง๋ค ๋ง์ฐฐ/๋ง์ฐฐ๊ฐ์ ๊ณ์๋ ๊ตฌ๋ ํ ํ๊ณ ๋ฑ์ ๋๋คํ๊ฒ ์ค์ผ์ผ ์กฐ์ ํ์ต๋๋ค. ๋ํ ๋งค timestep ์์์ ์์ ์ธ๋ ฅ์ ๋ฌผ์ฒด์ ๊ฐํด ์๊ธฐ์น ์์ ์ถฉ๊ฒฉ์๋ ๊ฒฌ๋๋๋ก ํ์ต์์ผฐ์ต๋๋ค. ์ฌ์ง์ด ์ค๋ ฅ ๊ฐ์๋ ๊ฐ๋ ์ํผ์๋๋ง๋ค ๋ฐ๊พธ์ด ๊ฐ๋ฉฐ ๋ค์ํ ์ค๋ ฅ ํ๊ฒฝ์ ๊ฒฝํ์์ผฐ์ต๋๋ค. ๋น(้)๋ฌผ๋ฆฌ์ ๋๋คํ๋ก๋ ์ผ์ ์ง์ฐ์ด๋ ์ก์ ๊ฐ์ ํ์ค์ ์์๋ฅผ ์ถ๊ฐํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ด์ธก ์ง์ฐ์ผ๋ก์ ๊ฐ์์ ์นด๋ฉ๋ผ ํ๋ ์๋ ์ดํธ ์ง์ฐ์ ๋์ ํ์ฌ, ์ ์ฑ ์ด ๋งค ์๊ฐ ๋ฌผ์ฒด ์ํ๋ฅผ ์ ๋ฐ์ดํธ ๋ฐ์ง ๋ชปํ๊ณ ๋ฎ์ ์ฃผ๊ธฐ์ ์ ๋ณด์๋ ๊ฒฌ์ธํ๋๋ก ๋ง๋ค์์ต๋๋ค. ์ค์ ์์คํ ์์ ์ ์ด ๋ช ๋ น์ด ๋ก๋ด์ ์ ๋ฌ๋ ๋ ํต์ ์ง์ฐ์ด ์์ผ๋ฏ๋ก, ์ก์ ์ง์ฐ ๋ํ ๋ฌด์์๋ก ๋ฐ์์ํค๊ณ , ์ค๋๋ ๋ช ๋ น์ด ์คํ๋๋ ์ํฉ์ ์์์ต๋๋ค. ์ด์ ํจ๊ป ๊ฐ ๊ด์ธก๊ฐ๊ณผ ํ๋์ ๊ฐ์ฐ์์ ์ก์์ ์๊ด๋ ํํ๋ก ์ถ๊ฐํ์ฌ (์ผ๋ถ ํ๊ฒฝ์ ๋ ธ์ด์ฆ 0์ผ๋ก ๋๊ธฐ๋ ํจ) ์ผ์/์ก์ธ์์ดํฐ ๋ ธ์ด์ฆ์ ๋ํ ๋ด์ฑ์ ํค์ ์ต๋๋ค.
Random Network Adversary: ์ผ๋ฐ์ ์ธ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก๋ ํ๊ณ๊ฐ ์๋ ๊ตฌ์กฐ์ ๊ต๋์ ๋์ํ๊ธฐ ์ํด, ๋ฌด์์๋ก ์์ฑ๋ ์ ๊ฒฝ๋ง์ ์ ๋์ ๋์ ์ ํธ๋ก ์ฌ์ฉํ์ต๋๋ค. ๋งค ์ํผ์๋๋ง๋ค ์์์ ํ๋ผ๋ฏธํฐ๋ก ์ด๊ธฐํ๋ ์์ ์ ๊ฒฝ๋ง์ด ๊ฐ์ง ํ๋ a_{RNA}์ ์์ฑํ๊ณ , ์ด๋ฅผ ํ์ฌ ์ ์ฑ ์ ํ๋ a_{\pi}์ ์ผ์ ๋น์จ๋ก ์์ด์ ์ต์ข ์๋ฎฌ๋ ์ดํฐ์ ์ ์ฉํ ํ๋ a_{sim}์ผ๋ก ์ผ์์ต๋๋ค. ์ด ๋น์จ \alpha ์ญ์ ํ์ต ์งํ์ ๋ฐ๋ผ ์กฐ์ ๋๋๋ฐ, ํ์ต ์ด๊ธฐ์ \alpha๋ฅผ ๋์ฌ ์ ์ฑ ์ ์์ธก ๋ถ๊ฐ๋ฅํ ๊ต๋์ ๋ง์ด ์์ด์ฃผ๊ณ , ์ ์ฑ ์ด ํฅ์๋๋ฉด \alpha๋ฅผ ๋ฎ์ถ๋ ์์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋จ์ ๋๋ค ๋ ธ์ด์ฆ๋ณด๋ค ์ํฉ ์์กด์ ์ธ ๊ต๋์ ์ ์ฑ ์ด ๊ฒฌ๋๋๋ก ๋ง๋ค ์ ์์ต๋๋ค (OpenAI์ Rubikโs Cube ํ์ต์๋ ์ฌ์ฉ๋ ๊ธฐ๋ฒ). ์๋ ๊ทธ๋ฆผ์ ์ด๋ฌํ ๋๋ค ์ ๊ฒฝ๋ง ์ ๋๊ธฐ๋ฒ์ ๊ฐ๋ ๋์ ๋๋ค.
Figure 1: ๋ฌด์์ ์ ๊ฒฝ๋ง ์ ๋๊ธฐ๋ฒ(Random Network Adversary)์ ๋์. ์ํผ์๋๋ง๋ค ๋๋ค ๊ฐ์ค์น๋ก ์์ฑ๋ ์ ๊ฒฝ๋ง์ด ์ํ s_t๋ฅผ ์ ๋ ฅ์ผ๋ก ์ ๋์ ํ๋ a_{RNA}๋ฅผ ์์ฑํ๊ณ (์ผ์ชฝ), ์ด๋ฅผ ํ์ฌ ์ ์ฑ ์ ํ๋ a_{\pi}์ ํฉ์ณ ์ต์ข ํ๋ a_{sim}๋ก ์ ์ฉํ๋ค(์ค๋ฅธ์ชฝ). \alpha๋ ์ ๋ ํ๋์ ๋ฐ์ ๋น์จ๋ก, ํ์ต ์ค ADR ์๊ณ ๋ฆฌ์ฆ์ ์ํด ์ ์ง ์กฐ์ ๋๋ค.
- Automatic Domain Randomization (ADR): ์ด๊ธฐ ํ์ต ๋จ๊ณ๋ถํฐ ๋๋ฌด ๊ณผ๋ํ ๋ฌด์์ํ๋ฅผ ์ฃผ๋ฉด ์ ์ฑ ์ด ๊ธฐ๋ณธ๊ธฐ ์ต๋๋ ๋ชปํ ์ฑ ํ์ต์ด ์คํจํ ์ ์์ต๋๋ค. DeXtreme์ ์ด๋ฅผ ํผํ๊ธฐ ์ํด, OpenAI์์ ์ ์๋ ์๋ ๋๋ฉ์ธ ๋๋คํ(ADR)๋ฅผ ํ์ฉํ์ต๋๋ค. ADR ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฑ ์ ์ฑ๋ฅ์ ๋ชจ๋ํฐ๋งํ๋ฉฐ ๋๋คํ ๋์ด๋๋ฅผ ์๋ ์กฐ์ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ๋๋คํ ๋ณ์ธ์ ๋ฒ์(๋ถํฌ ํญ)๋ฅผ ์ ์ฑ ์ด ์ด๋ ์ ๋ ๊ฒฌ๋ ์ ์๋์ง๋ฅผ ํ๊ฐํ์ฌ, ์ฑ๋ฅ์ด ์ข์ผ๋ฉด ๋ฒ์๋ฅผ ๋ํ๊ณ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ฉด ๋ฒ์๋ฅผ ์ค์ด๋ ์ ์ํ ์ปค๋ฆฌํ๋ผ์ ๋๋ค. ์ด ์์ ์ ๊ฐ์ํ๊ธฐ ์ํด ์ ์ฒด ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ค ์ผ๋ถ(40%) ํ๊ฒฝ์ ํ๊ฐ ๋ชจ๋๋ก ์ค์ ํ๊ณ , ํน์ ๋๋คํ ๋ณ์ธ์ ๊ทน๋จ๊ฐ(์ต๋/์ต์)์ผ๋ก ๊ณ ์ ํ ์ํ์์ ์ํผ์๋๋ฅผ ์คํํฉ๋๋ค. ์ํผ์๋ ์ข ๋ฃ ์ ์ฐ์ ์ฑ๊ณต ํ์(์๋์์ ์ค๋ช )๋ฅผ ์ธก์ ํ์ฌ ์๊ณ๊ฐ ์ด์์ด๋ฉด ํด๋น ๋ณ์ธ์ ๋ฌด์์ํ ๋ฒ์๋ฅผ ๋ํ๊ณ , ๊ธฐ์ค ์ดํ์ด๋ฉด ๋ฒ์๋ฅผ ์ขํ๋ ์์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ์ต์ด ์งํ๋ ์๋ก ์ ์ฑ ์ด ๋ ๋์ ํ๊ฒฝ ๋ณํ์ ๊ฒฌ๋๊ฒ๋ ํ๋ จ ๋์ด๋๊ฐ ์์นํฉ๋๋ค. Vectorized ADR์ Isaac Gym์ ๋๋ ๋ณ๋ ฌ ํ๊ฒฝ์ ํ์ฉํด ์ด๋ฌํ ๋ฒ์ ์กฐ์ ์ ๋์์ ์ฌ๋ฌ ๋ณ์ธ์ ๋ํด ์ํํ๋ ์ต์ ํ๋ ๊ตฌํ์ ๋๋ค. ์์ฝํ๋ฉด, ADR์ ํตํด ์ฒ์์๋ ์ฌ์ด ํ๊ฒฝ์์ ์์ํด ์ ์ฐจ ์ด๋ ค์ด ํ๊ฒฝ์ผ๋ก ๋์ด๋๊ฐ ์ฌ๋ผ๊ฐ๋ ์๋ ์ปค๋ฆฌํ๋ผ ํ์ต์ด ๋ฌ์ฑ๋ฉ๋๋ค.
Figure 2: ์๋ฎฌ๋ ์ด์ ์์์ ์ ์ฑ ํ์ต ํ์ดํ๋ผ์ธ. ์ฌ๋ฌ ๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์์ Allegro Hand๊ฐ ํ๋ธ๋ฅผ ๋๋ฆฌ๋ ์ฅ๋ฉด์ด ๋ณด์ธ๋ค (์ผ์ชฝ ๊ทธ๋ฆผ). ๊ฐ ํ๊ฒฝ์ ๋ฌด์์ํ๋ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ํ์ต ์๊ณ ๋ฆฌ์ฆ(PPO ๊ธฐ๋ฐ)์ด ์ํ ์ ๊ฒฝ๋ง ์ ์ฑ ์ ๊ฐ์ ํ๋ค. ๋์์ Vectorized ADR ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฑ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๋ฌด์์ํ ๋ฒ์(์ค๋ฅธ์ชฝ ์๋ ๊ทธ๋ํ ์์ด์ฝ์ ฮ ๊ธฐํธ๋ก ํ์)๋ฅผ ์กฐ์ ํ๋ค. ์ด๋ฌํ ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ ๋ค์ํ ์กฐ๊ฑด์์ ๊ฐ์ธํ ์ ์ด ๋ฅ๋ ฅ์ ์ตํ๊ฒ ๋๋ค.
2.3 Domain Randomisation (์ดํ DR) ๋ํ ์ผ ํํค์น๊ธฐ ๐
DeXtreme๊ฐ ์ ๋น์ฉ Allegro Hand + RGB Vision ๋ง์ผ๋ก ์ค์ธ๊ณ์์ ๋ฏผ์ฒฉํ inโhand manipulation์ ๋ฌ์ฑํ ์ ์์๋ ๊ฒฐ์ ์ ๋น๊ฒฐ์ DR + Automatic Domain Randomisation(ADR) ์ ๋๋ค. ์ด ์ ์์๋ ๋ ผ๋ฌธ์ด ์ฌ์ฉํ DR ๊ตฌ์ฑ, ๋งค๊ฐ๋ณ์ ๋ฒ์, ADR ์๊ณ ๋ฆฌ์ฆ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์ฑ๋ฅ ์ํฅ๊น์ง ๊น์ด ๋ค์ด๊ฐ ๋ณด๊ฒ ์ต๋๋ค.
2.3.1 1. ์ Domain Randomisation์ธ๊ฐ?
- ์๋ฎฌ๋ ์ดํฐ ๋ชจ๋ธ ์ค์ฐจ: ๋ง์ฐฐยท์ ์ดยท์ผ์ ์ง์ฐ ๊ฐ์ ์์๋ฅผ ์๋ฒฝํ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต๋ค.
- ํ๋์จ์ด ๊ฐ๋ณ์ฑ: ์จ๋ยท๋ง๋ชจยท๋ฐฐํฐ๋ฆฌ ์ ์ ๋ฑ์ ์์ธ์ผ๋ก ๋ก๋ด ํ๋ผ๋ฏธํฐ๊ฐ ๋งค์ผ ๋ณํ๋ค.
- ์๊ธฐ์น ๋ชปํ ์ธ๋: ์๊ฐ๋ฝ์ ๋ถ๋ชํ๋ ์ถฉ๊ฒฉ, ๋น์ tracking ์ค๋ฅ ๋ฑ.
๋ฐ๋ผ์ โ์๋ฎฌ๋ ์ดํฐ๊ฐ ํ๋ฆฐ ๊ฒ์ ์ ์ ๋ก ํ๊ณ โ, ๊ฐ๋ฅํ ๋ง์ ์กฐ๊ฑด์ ๋ฌด์์ํํ์ฌ ๊ฐ์ธํ(policy) ๋ฅผ ํ์ตํ๋ค. ์ด๋ DR์ ํฌ๊ฒ ๋ฌผ๋ฆฌยท๊ด์ธกยท์ ์ดยทํ๊ฒฝ 4 ์์ญ์ผ๋ก ๋๋๋ค. ๎cite๎turn6view0๎
2.3.2 2. ๋ฌด์์ํ ํ๋ผ๋ฏธํฐ ์ ์ฒด ๋ชฉ๋ก
์๋ ํ๋ ๋ ผ๋ฌธ์ Table 3์ ๋ฐ์ทยท์ ๋ฆฌํ ๊ฒ์ผ๋ก, ์ด๊ธฐ ๋ฒ์์ ADR์ด ๋ฐ๊ฒฌํ ์ต์ข ๋ฒ์(โ๏ธ ๋ ๋์ด์ง ๋ถ๋ถ์ ๊ตต๊ฒ ํ๊ธฐ)๋ฅผ ๋ณด์ฌ์ค๋ค.
์นดํ ๊ณ ๋ฆฌ | ํ๋ผ๋ฏธํฐ | ํ์ | ์ด๊ธฐ ๋ฒ์ | ADR ํ ๋ฒ์ |
---|---|---|---|---|
Hand | Mass Scaling | uniform | 0.4โ1.5 | 0.4โ1.5 |
Friction Scaling | uniform | 0.8โ1.2 | 0.54โ1.58 | |
Joint Stiffness Scaling | logโuniform | 0.3โ3.0 | 0.3โ3.52 | |
Effort Scaling | uniform | 0.9โ1.1 | 0.9โ2.49 | |
Object | Mass Scaling | uniform | 0.4โ1.6 | 0.4โ1.6 |
Friction Scaling | uniform | 0.3โ0.9 | 0.01โ1.60 | |
External Forces | additive | โ | OpenAI ๋ฐฉ์ ์ฐธ์กฐ | |
Observation | Pose Delay Prob. | set | 0โ0.05 | 0โ0.47 |
Pose Frequency | set | 1 (=๋งค์คํ ) | 1โ6 ์คํ | |
Correlated/Uncorr. Noise | gaussian | 0โ0.04 | 0โ0.14 (uncorr.) | |
Action | Action Delay Prob. | set | 0โ0.05 | 0โ0.31 |
Action Latency (์คํ ) | set | 0 | 0โ1.5 | |
RNA (์ ๋ ์ ๊ฒฝ๋ง) ์ค์ผ์ผ ฮฑ | set | 0 | 0โ0.16 | |
Environment | Gravity ฮg (m/sยฒ) | normal | 0ยฑ0.5 | ๋์ผ |
ํ์ : Scaling์ ๋ชจ์์ ๊ณ์ ๊ณฑ์ , Additive๋ ๊ฐ ๋ํ๊ธฐ, Set value๋ ์ํผ์๋๋ง๋ค ์์๋ฅผ ์ํ๋งํ๋ค. ๎cite๎turn6view0๎
2.3.3 3. Automatic Domain Randomisation (ADR) ๋ฉ์ปค๋์ฆ
- ์ด๊ธฐํ: ๊ฐ ํ๋ผ๋ฏธํฐ p_i ๋ [l_i, u_i] ๋ฒ์๋ฅผ ๊ฐ๊ณ ์์. ์ด๊ธฐ ๊ฐ์ ํ์ค ๊ณ์ธก์น ยฑ ์ฌ์ ์น.
- ๋ณ๋ ฌ ํ๊ฒฝ ์ํ๋ง: Isaac Gym์ 8 GPU์์ 16 k envs๋ฅผ ์คํ. ์ด ์ค 40 % ๋ evaluation env ๋ก ์ง์ ํด DR ๋ฒ์์ ๊ฒฝ๊ณ๊ฐ( l_i ๋๋ u_i )๋ง ๊ณ ์ ํ๋ค.
- ์ฑ๊ณต๋ฅ ์ธก์ : ์ํผ์๋ ์ข
๋ฃ ์ consecutive success(ํ๋ธ ์ฐ์ ํ์ ์ฑ๊ณต ์)๋ฅผ ๊ฒฝ๊ณ๋ณ๋ก ๊ธฐ๋ก.
- ๊ฒฝ๊ณ ์
๋ฐ์ดํธ (VADR ์๊ณ ๋ฆฌ์ฆ) ๎cite๎turn6view0๎
- ํ๊ท ์ฑ๊ณต > ์ํ \gamma_\text{high} โ ๋ฒ์๋ฅผ ํ์ฅ
- ํ๊ท ์ฑ๊ณต < ํํ \gamma_\text{low} โ ๋ฒ์๋ฅผ ์ถ์
- ํ๋ผ๋ฏธํฐ๋ง๋ค ๊ฐ๋ณ step size ๋ฅผ ์ฌ์ฉํด ํ๋ จ ์์ ์ฑ ๋ณด์ฅ.
- ์ ๋ฐ์ดํธ๊ฐ ๋ฐ์ํ๋ฉด ํด๋น ๊ฒฝ๊ณ์ ๊ณผ๊ฑฐ ํต๊ณ ํ๋ฅผ ๋ฆฌ์ .
- ํ๊ท ์ฑ๊ณต > ์ํ \gamma_\text{high} โ ๋ฒ์๋ฅผ ํ์ฅ
- ๋ฐ๋ณต: ํ๋ จ ์งํ์ ๋ฐ๋ผ ๋๋ถ๋ถ ํ๋ผ๋ฏธํฐ๊ฐ 2โ5 ๋ฐฐ ์ด์ ๋์ด์ง(์ ํ ๊ตต์ ๋ถ๋ถ ์ฐธ๊ณ ). ์ด๋ ์ ์ฑ ์ด ์ ์ง์ ์ผ๋ก ๋ ํ๋ํ ๋์ด๋๋ฅผ ๊ฒฝํํ๋๋ก ํ๋ ์๋ ์ปค๋ฆฌํ๋ผ ์ญํ ์ ์ํํ๋ค.
RNA(Random Network Adversary) ์ญ์ ADR์ด ์กฐ์ ํ๋ ํ๋ผ๋ฏธํฐ ์ค ํ๋๋ค. ๋ฌด์์ MLP๊ฐ ์์ฑํ ๊ฐ์ง ์ก์ a_\text{RNA} ๋ฅผ ์ ์ฑ ์ก์ a_\pi ์ ํผํฉํ์ฌ ๊ตฌ์กฐํ๋ ๊ต๋์ ์ฃผ์ ํจ์ผ๋ก์จ, ๋จ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ณด๋ค ๊ฐ๋ ฅํ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์ป๋๋ค.
2.3.4 4. ํ๋ จ ์ค์ผ์ค & ์ค์ ํจ๊ณผ
๋ชจ๋ธ | DR ๋ฐฉ์ | ํ๊ท ์ฐ์ ์ฑ๊ณต(์ค๋ก๋ด) |
---|---|---|
NonโADR | ์๋ ํ๋ DR | 14.8 |
ADR | VADR + RNA | 27.8 |
ADR (์ต๊ณ ๋กค์์) | ใ | 112 (peak) |
- ์๋ DR์ ํ๋ผ๋ฏธํฐ๊ฐ ๊ณ ์ ๋์ด ์ผ๋ถ ์ํฉ์์ cube๊ฐ โstuckโ๋๋ ์คํจ ๋ชจ๋๋ฅผ ๋ณด์๋ค.
- ADR ์ ์ฑ
์ ๊ฐ์ ํ๋์จ์ดยท์ฐ์ฐ ์์์ผ๋ก 2 ๋ฐฐ ์ด์ ์ฑ๊ณต ํ์๋ฅผ ๋๋ฆฌ๊ณ , stuck ํ์๋ ์ ๊ฑฐํ๋ค. ๎cite๎turn6view0๎
- ํ๋ จ ์ปค๋ธ(๋ ผ๋ฌธ Figure 6)๋ ADR ํ์ฑํ ํ npd(๋ฌด์์ํ ์ํธ๋กํผ)๊ฐ ์ง์์ ์ผ๋ก ์์นํ๋ฉด์ ์ฑ๋ฅ๋ ๋๋ฐ ํฅ์๋๋ ์์์ ๋ณด์ฌ์ค๋ค.
2.3.5 5. ์ฌํ ํ & ์ฃผ์์ฌํญ
- ํ์ค ๊ณ์ธก โ ์ด๊ธฐ ๋ฒ์ ์ค์ : ์ค์ Allegro Hand์ ๊ด์ ์คํ๋งยท๋ํ, ํ๋ธ ์ง๋/๋ง์ฐฐ ๊ฐ ๋ฑ์ ๋จผ์ ์ธก์ ํ๊ณ ยฑ 40โ60 % ์ ๋๋ก ์ด๊ธฐ ๋ฒ์๋ฅผ ๋ํ๋ฉด ์์ ์ ์ธ ์ด๊ธฐ ํ์์ด ๊ฐ๋ฅํ๋ค.
- Pose Frequency ๋๋คํ: Vision tracking ์ฃผ๊ธฐ๊ฐ ์ ์ด loop(30 Hz)๋ณด๋ค ๋๋ฆฌ๋ฏ๋ก,
Obj.Pose Freq.
๋ฅผ 1โ6 ์คํ ์ผ๋ก ๋๋คํํด ์ผ์ ์ง์ฐ ๋ด์ฑ์ ํค์์ผ ํ๋ค.
- ๋จ๊ณ์ ADR ํ์ฑํ: ํ์ต ์ด๋ฐ์ ADR off + ์ข์ ์๋ DR๋ก ๋ฒ ์ด์ค ์์ง์์ ๋จผ์ ์ตํ๊ณ , 5 M step ์ด์ ์ฑ๊ณผ๊ฐ ์์ ํ๋๋ฉด ADR์ ์ผ๋ฉด ์๋ ด ์๋๊ฐ ๋น ๋ฅด๋ค.
- ํ๋ผ๋ฏธํฐ๋ณ step size: ๋ง์ฐฐ์ฒ๋ผ ๋ฏผ๊ฐํ ๋ณ์๋ ์์ step(์: ยฑ0.02), ๊ด์ effort scale ๊ฐ์ด ๋น๊ต์ ์๋งํ ๋ณ์๋ ํฐ step(์: ยฑ0.1)์ ์ฃผ๋ฉด ํ์ต ํญ์ฃผ๋ฅผ ๋ง์ ์ ์๋ค.
2.3.6 6. ์์ฝ
- DR์ ๋ฌผ๋ฆฌยท๊ด์ธกยท์ ์ดยทํ๊ฒฝ ์ ์ฑ๋์ ๊ฑธ์ณ 70 ๊ฐ+ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฌด์์ํ.
- Vectorised ADR์ด ํ๋ผ๋ฏธํฐ๋ณ ๊ฒฝ๊ณ๋ฅผ ์๋ ํ์ฅ/์ถ์ โ ์๋ ์ปค๋ฆฌํ๋ผ.
- RNA๊ฐ ๊ตฌ์กฐํ๋ ํ๋ ๊ต๋์ ๊ฐ๋ฏธํด ์ ์ฑ
์ผ๋ฐํ ๊ฐํ.
- ๊ทธ ๊ฒฐ๊ณผ, ๋ชจ์บกยท๊ณ ๊ฐ ์ฅ๋น ์์ด๋ Shadow Hand ์์ค์ ์ฐ์ ์ฑ๊ณต๋ฅ ์ Allegro Hand์์ ๋ฌ์ฑ.
DeXtreme์ DR/ADR ์ค๊ณ๋ โ์ผ๋ง๋ ๋ง์ด๊ฐ ์๋๋ผ, ์ด๋ป๊ฒ ๋๋ํ๊ฒ ๋ฌด์์ํํ ๊ฒ์ธ๊ฐ?โ์ ๋ํ ํ๋ฅญํ ๋ ํผ๋ฐ์ค๋ก, simโtoโreal ๋ก๋๋งต์ ๊ทธ๋ฆฌ๋ ์ฐ๊ตฌ์๋ผ๋ฉด ๊ผญ ์ฐธ๊ณ ํด ๋ณผ ๋งํ๋ค.
2.4 Vision ๊ธฐ๋ฐ ์ํ ์ถ์ ๊ณผ Teacher-Student ์ ์ฉ
ํ์ค ๋ก๋ด์์ ํ๋ธ์ ์์ธ๋ฅผ ์์๋ด๊ธฐ ์ํด, ์ ์๋ ๋ณ๋์ ๋น์ ์ ๊ฒฝ๋ง์ ์ค๊ณํ์ต๋๋ค. ์ด ๋ฌผ์ฒด ์์ธ ์ถ์ ๋คํธ์ํฌ๋ Mask R-CNN ๊ตฌ์กฐ๋ฅผ ์์ฉํ์ฌ, ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์์ ํ๋ธ์ 8๊ฐ ๋ชจ์๋ฆฌ ์ (keypoints)๋ฅผ ๊ฒ์ถํ๋๋ก ํ์ต๋์์ต๋๋ค. ๋จผ์ RGB ์์์์ ํ๋ธ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋ง์คํฌ(segmentation)๋ฅผ ์์ธกํ๊ณ , ๊ทธ ๋ด๋ถ์์ ๋ชจ์๋ฆฌ ์ ๋ค์ ์์น๋ฅผ ํ๊ทํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ณต์กํ ๋ฐฐ๊ฒฝ์ด๋ ํ๋ธ ๋ฏธ๊ฒ์ถ ๋ฌธ์ ๋ฅผ ์ค์ด๊ณ , ๊ฒ์ถ๋ ํคํฌ์ธํธ๋ค์ ์ด์ฉํด PnP ์๊ณ ๋ฆฌ์ฆ์ผ๋ก 3D ์์ธ๋ฅผ ์ฐ์ถํ ์ ์์ต๋๋ค. ์นด๋ฉ๋ผ๋ Allegro Hand๋ฅผ ์ค์ฌ์ผ๋ก ๋ฐฐ์น๋ Intel RealSense D415 RGB ์นด๋ฉ๋ผ 3๋๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ฐ ์นด๋ฉ๋ผ์ ์ถ๋ ฅ์ผ๋ก ์ถ์ ๋ ํ๋ธ ์์ธ๋ค์ ํํฐ๋ง ๋ฐ ํ๊ท ๊ฒฐํฉํ์ฌ ์ต์ข ๋ฌผ์ฒด ์์ธ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ์ฉ ๋ง์ปค ์์ด๋ ๋น๊ต์ ์ ํํ (ํ๊ท 5.3ยฐ ์ค์ฐจ) ์์ธ ์ถ์ ์ด ๊ฐ๋ฅํ๊ณ , OpenAI์ end-to-end ๋น์ ์ ์ฑ ๊ณผ ๋ฌ๋ฆฌ ์นด๋ฉ๋ผ ๋ฐฐ์น์ ์ ์ฐํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
๋น์ ๋คํธ์ํฌ์ ํ์ต์ ์ ์ ์ผ๋ก ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค. Isaac Sim์ ์ฌ์ฉํด ์๊ณผ ํ๋ธ๊ฐ ๋ค์ํ ์์ธ๋ก ์๋ ํฉ์ฑ ์ด๋ฏธ์ง 500๋ง ์ฅ์ ๋ ๋๋งํ์ฌ ๋๋์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ต๋๋ค. ์ด ๋ ์กฐ๋ช , ์นด๋ฉ๋ผ ๊ฐ๋, ๋ฐฐ๊ฒฝ ๋ฑ์ ๋ฌด์์ํํ์ฌ ๋ค์ํ ์ํฉ์ ๋ง๋ผํ๊ณ , ์ถ๊ฐ๋ก CutMix, ๋ชจ์ ๋ธ๋ฌ ๋ฑ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ ์ฉํ์ฌ ์ค์ ์นด๋ฉ๋ผ ์์๊ณผ์ ๋๋ฉ์ธ ๊ฒฉ์ฐจ๋ฅผ ์ค์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ์ ์์ค์ ์๋ฎฌ๋ ์ดํฐ๋ก ์์ฑํ ๋ค์ํ ์นด๋ฉ๋ผ ์์ ์ ์ด๋ฏธ์ง๋ค์ด๊ณ , ์๋ซ์ค์ ์ฌ๊ธฐ์ ์์ ๋ฐฐ๊ฒฝ ํฉ์ฑ, ๋ธ๋ฌ ๋ฑ์ ์ถ๊ฐํ ์ฆ๊ฐ ๊ฒฐ๊ณผ๋ค์ ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ๋คํธ์ํฌ๋ ์ค์ ๋ก๋ด์์ ์ฝ 15Hz๋ก ๋์ํ๋ฉฐ, ์ถ์ ๋ ํ๋ธ ์์ธ๋ฅผ ๊ฐํํ์ต ์ ์ฑ ์ ์ค์๊ฐ ์ ๊ณตํด์ค๋๋ค.
Figure 3: ๋น์ ๋ฐ์ดํฐ ์์ฑ๊ณผ ํ์ต ํ์ดํ๋ผ์ธ. (์ผ์ชฝ) Omniverse Isaac Sim์ผ๋ก ๋ฌด์์ ํ๊ฒฝ์์ ํฉ์ฑ๋ ์+ํ๋ธ ์ด๋ฏธ์ง๋ค. ์ด๋ ๊ฒ 500๋ง ์ฅ์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ํ๋ณดํ ๋ค, (์ค๋ฅธ์ชฝ) ๋ฐ์ดํฐ ์ฆ๊ฐ์ ๊ฑฐ์ณ Mask R-CNN ๊ธฐ๋ฐ ๋ฌผ์ฒด ์ถ์ ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ค. ์ด ๋คํธ์ํฌ๋ ํ๋ธ์ bounding box, segmentation, 8๊ฐ ๋ชจ์๋ฆฌ ํคํฌ์ธํธ๋ฅผ ์์ธกํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์ฌ๋ฌ ์นด๋ฉ๋ผ์ ๊ฒฐ๊ณผ๋ฅผ PnP๋ก ํตํฉํด 3D ์์ธ๋ฅผ ์ฐ์ถํ๋ค.
๊ฐํํ์ต ์ ์ฑ ๋คํธ์ํฌ๋ ์ด๊ธฐ์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ๋ ์ ํํ ํ๋ธ ์์ธ(ํน๊ถ ์ ๋ณด) ๋์ ์์ ๊ฐ์ ์ถ์ ์ ๋ณด์ ๋ ธ์ด์ฆ๋ฅผ ์์ ๊ฐ์ ๊ด์ธก์ผ๋ก ๋ฐ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ค์ ๋น์ ์์คํ ์ ์ค์ฐจ์ ์ง์ฐ์ ์ ์ฑ ์ด ๋ฏธ๋ฆฌ ๋จ๋ จ๋์๊ณ , sim-to-real ์ ๊ฒช๋ ๊ด์ธก ๋ถํ์ค์ฑ์ ๊ฒฌ๋ ์ ์์์ต๋๋ค. ์์ฝํ๋ฉด, ์๋ฎฌ๋ ์ดํฐ ์์ ๊ต์ฌ(teacher) ์ ์ฑ ์ ์์ ์ํ ์ ๋ณด๋ฅผ ํ์ฉํด ๋์ ์ฑ๋ฅ์ผ๋ก ํ์ต๋๊ณ , ์ดํ ํ์(student) ์ ์ฑ ์ ์ ํ๋ ๊ด์ธก์ผ๋ก๋ ์ ์ฌํ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ์ ๋๋์์ต๋๋ค. ์ด๋ฌํ teacher-student ๋คํธ์ํฌ ๊ตฌ์กฐ ๋๋ถ์ ์ต์ข ์ ์ฑ ์ ๋ชจ์บก ์์ด๋ ๋์ํ๋ฉด์, ๋ง์น ๋ชจ์บก์ด ์๋ ๊ฒ์ฒ๋ผ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
2.5 ๊ฒฐ๊ณผ: ํ์ค์์์ ๋ฏผ์ฒฉํ ์ ์ ์กฐ์
DeXtreme์ ์ต์ข ์ ์ฑ ์ ์ค์ Allegro Hand ๋ก๋ด์ ์ด์ํ ๊ฒฐ๊ณผ, ์๋ฐ๋ฅ ์์ ํ๋ธ๋ฅผ ์ฐ์ํด์ ์ฌ๋ฌ ๋ชฉํ ์์ธ๋ก ๋น ๋ฅด๊ฒ ํ์ ์ํค๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ํ๊ฐ ์งํ๋ ์ฐ์ ์ฑ๊ณต ํ์(consecutive successes)๋ก, ํ๋ธ๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ๋ช ๋ฒ ์ฐ์์ผ๋ก ๋ชฉํ ์์ธ์ ๋๋ฌ์ํค๋์ง๋ฅผ ์ธก์ ํฉ๋๋ค. ํ์ต๋ ์ ์ฑ ์ ํ๊ท ์์ญ ํ ์ด์์ ์ฐ์ ์ฑ๊ณต์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ต๋ ์๋ฐฑ ํ์ ๋ฌํ๋ ์ฐ์ ํ์ ๋ ์ํ๋์์ต๋๋ค. ํนํ ๋น์ ๊ธฐ๋ฐ์์๋ ๋ถ๊ตฌํ๊ณ ์ฑ๋ฅ์ด ๋งค์ฐ ๋์, ์ด์ ์ต๊ณ ์ฑ๋ฅ์ ๋ชจ์บก ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ฒ๊ธ๊ฐ๋ ์์ค์ด๊ณ , OpenAI์ ์ต๊ณ ๋น์ ์ ์ฑ ๋ณด๋ค ์ฝ 1.5๋ฐฐ ๋ง์ ํ๊ท ์ฐ์ ์ฑ๊ณต ํ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, OpenAI์ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ ์ฑ ๋ณด๋ค ํ๊ท ์ฐ์ ์ฑ๊ณต ํ์๊ฐ 1.5๋ฐฐ ํฅ์๋์๊ณ , ๋ชจ์ปค(MoCap) ์ฌ์ฉ ์ ์ฑ ๊ณผ ์ ์ฌํ ๋ฒ์(์ฝ 100ํ ๋ด์ธ)์ ์ฑ๊ณต์ ๋ณด์์ต๋๋ค.
๋ํ ๋ค์ํ ์คํ์์ ์ ์ฑ ์ ๊ฐ์ธํจ์ด ํ์ธ๋์์ต๋๋ค. ํ๋ฃจ ๊ฐ๊ฒฉ์ผ๋ก ๋ก๋ด์ ๋์์์ผ ํ๊ฒฝ ๋ณํ(์จ๋, ๋ง๋ชจ ๋ฑ)์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๊ด์ฐฐํ ๊ฒฐ๊ณผ, ์ฝ๊ฐ์ ๋ณ๋์ ์์์ง๋ง ์ ๋ฐ์ ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ์ต๋๋ค. ํํธ, ADR ๊ธฐ๋ฐ ์ ์ฑ ๊ณผ ๊ทธ๋ ์ง ์์ ์ ์ฑ ์ ๋น๊ตํ ์คํ์์๋ ADR์ด ์๋ ๊ฒฝ์ฐ ํน์ ์กฐ๊ฑด์์ ๋ช ํํ ์คํจ ๋ชจ๋๊ฐ ๋ํ๋ ๋ฐ๋ฉด, ADR์ ๊ฑฐ์น ์ ์ฑ ์ ํจ์ฌ ์์ ์ ๋์์ ๋ณด์์ต๋๋ค. ์์ปจ๋, ์๋ฎฌ๋ ์ด์ ์์ ๋์ ํ ๋ค์ํ ๊ธฐ๋ฒ๋ค์ด ํ์ค์์๋ ํจ๊ณผ๋ฅผ ๋ฐํํ์ฌ, ์ ์ ์กฐ์ ์์ ์ ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์ฑ์ ํฌ๊ฒ ๋์ธ ๊ฒ์ ๊ฒ์ฆํ์ต๋๋ค.
2.6 ๋ง๋ฌด๋ฆฌ ๋ฐ ์์
DeXtreme ์ฐ๊ตฌ๋ ์ ๋ ดํ ๋ก๋ด ์๊ณผ ์นด๋ฉ๋ผ, ๊ทธ๋ฆฌ๊ณ ํจ์จ์ ์ธ ํ์ต ๊ธฐ๋ฒ๋ง์ผ๋ก๋ ๋์ด๋ ๋์ ์ ์ ์กฐ์์ ํ์ค์์ ๊ตฌํํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ Privileged RL๊ณผ teacher-student ์ง์์ ์ด, ๋๊ท๋ชจ ๋๋ฉ์ธ ๋๋คํ+ADR ์ปค๋ฆฌํ๋ผ์ ์กฐํฉ์ด sim-to-real ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์์ ์ ์ฆํ์ต๋๋ค. ์ด๋ก์จ ๋ณต์กํ ๋ชจ์บก ์ฅ๋น๋ ๊ฑฐ๋ํ ์ฐ์ฐ ์์ ์์ด๋ ์ต์ ์์ค์ ์ ์ฌ์ฃผ๋ฅผ ๋ก๋ด์๊ฒ ํ์ต์ํฌ ์ ์๋ ๊ธธ์ ์ ์ํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ํฝ๋๋ค. ์ ์๋ค์ ์ฝ๋์ ํ์ต ํ์ดํ๋ผ์ธ์ ๊ณต๊ฐํ์ฌ(์ฌํ ๊ฐ๋ฅ์ฑ) ์ถํ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๋ฌผ์ฒด, ๋ค์ํ ์์ผ๋ก ์คํ์ ํ์ฅํ ์ ์๋๋ก ํ์ต๋๋ค. DeXtreme์ ํฅํ ์ผ์์ ์ธ ๋ก๋ด ์ ๊ธฐ์ ๊ฐ๋ฐ์ ์ค์ํ ์ฐธ๊ณ ์ฌ๋ก๊ฐ ๋ ๊ฒ์ด๋ฉฐ, ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด์ ์ค์ฉํ๋ฅผ ํ ๊ฑธ์ ์๋น๊ธด ์ฐ๊ตฌ๋ก ํ๊ฐ๋ฉ๋๋ค.