๐DreamWaQ
์ด๋ฒ ํฌ์คํ ์ DeepMind์์ ๋ฐํ๋ DreamWaQ: Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค. ์ต๊ทผ ICRA 2023 ๋ฐ๋์์ 5์ 30์ผ๋ถํฐ 6์ 1์ผ๊น์ง ์งํ๋ Autonomous Quadruped Robot Challenge (QRC)์์ KAIST ์ฐ๊ตฌํ์ด 1๋ฑ์ ํ์ฌ ํฐ ์ด์๊ฐ ๋์์์ต๋๋ค. ์ด๋ฒ ํฌ์คํ ์์ ๋ฆฌ๋ทฐํ๋ ์ด ๋ ผ๋ฌธ์ด ๋ฐ๋ก ๋ํ์์ ์ฌ์ฉ๋์๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ๋ณดํ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๋ด์ฉ์ ๋ด๊ณ ์๋ ๋ ผ๋ฌธ์ ๋๋ค.
1 Introduction
๋ ผ๋ฌธ์ ์๊ฐํด๋๋ฆฌ๋ฉด์ ๋ง์๋๋ฆฐ๋ฐ์ ๊ฐ์ด ์ค๋ ๋ฆฌ๋ทฐํ DreamWaQ๋ผ๋ ๋ ผ๋ฌธ์ ๋์์๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ ๋ณดํ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ผ๋ก KAIST ์ฐ๊ตฌํ์ด MIT ์ฐ๊ตฌํ์ ์ ์น๊ณ 1๋ฑ์ ํ์ฌ ๋ค์ํ๋ฒ ์ฐ๋ฆฌ๋๋ผ ๊ธฐ์ ๋ ฅ์ ์ธ๊ณ์ ์๋ฆฐ ๊ธฐํ๊ฐ ๋์๋ค๋ ์ข์ ๋ด์ค๋ฅผ ๋ค์ ์ ์์์ต๋๋ค.
Finals Team DREAM STEP KAIST
์ธ๊ณ ๋ก๋ด ์ฐ๊ตฌํ๋ค์ด ์ฐธ์ฌํ ๋ํ์์ KAIST์ DREAM STEP ํ์ ๊ฒฐ์น ๋ํ ์์์ ๋๋ค. ์ฌ์กฑ ๋ณดํ๋ก๋ด์ ๋ค์ํ ํ์ง์์์ ์์จ์ ์ธ ๋ณดํ์ ํ ์คํธํ๊ธฐ ์ํด ๋ํ์์ ์ฌ์ฉ๋ ์งํ์ ์ ๋ง ๋ค์ํ๊ณ ๋ก๋ด์ด ์์ ์ ์ผ๋ก ์์ฃผํ๊ธฐ์ ๊ต์ฅํ ์ด๋ ค์ด ์ฝ์ค์์ ์ ์ ์์ต๋๋ค. ์ค์ ๋ก ๋ํ์ ์ฐธ๊ฐํ ๋ค๋ฅธ ํ๋ค์ ์์๋ค์ ๋ณด์๋ฉด ๋ํ ์ฝ์ค์ ํ ๋ถ๋ถ ๋ถ๋ถ๋ง๋ค ๊ฐ์ ๊ณ ๊ตฐ๋ถํฌํ๋ฉฐ ๊ฑธ์ด๊ฐ๋ ๋ก๋ด๋ค์ ๋ชจ์ต์ ๋ค์ํ๊ฒ ๋ณด์ค ์ ์์ต๋๋ค. ๋ด์ค์์ ๋์๋ ๊ฒ์ฒ๋ผ ์ ๋ช ํ ๋ํ ์ฐ๊ตฌํ๋ค์ ์ ์น๊ณ 1๋ฑ์ ํ ์๋์ค๋ฌ์ด KAIST ์ฐ๊ตฌํ์ 1๋ฑ ๋น๊ฒฐ์ ๋ด์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ DreamWaQ ์๊ณ ๋ฆฌ์ฆ์ ํ๋ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2 DreamWaQ
2.1 Key Contribution
DreamWaQ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฒด์ ์ธ ํ๋ฆ์ ์์ ์ฌ์ง๊ณผ ๊ฐ์ต๋๋ค. โDreamโ์ด๋ผ๋ ์๋ฉ๊ณผ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๊ด๋์์ ์๊ฐ ํ์ ๋ชจ์ ํํ์์ ๋ณผ ์ ์๋ฏ์ด DreamWaQ ๋ ผ๋ฌธ์ ์ฃผ์ Contribution์ผ๋ก๋ Implicit Terrain Imagination์ ํ ์ ์๋๋ก Context-Aided Estimator Network(CENet)์ ๋์ ํ์๊ณ ์์ ์ ์ผ๋ก Policy๊ฐ ํ์ต๋ ์ ์๋๋ก Adaptive Bootstrapping(AdaBoot)๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๊ฐํํ์ต ๋ณดํ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ ์ ์ ๋ค ์ ์์ต๋๋ค.
2.2 Implicit Terrain Imagination
์์ ์ฑ๋ฆฐ์ง์์ ์ฌ์ฉ๋ ํ๊ฒฝ์์ ๋ณผ ์ ์๋ฏ์ด ์ฌ์กฑ๋ณดํ๋ก๋ด์ ๋ค์ํ ์งํ(Terrain)์ ๊ทน๋ณตํ๋ฉฐ ๋ณดํํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ค์ํฉ๋๋ค. ๊ทธ๋ผ ๋ค์ํ ์งํ์ ๋ํ๋ผ ์ ์๋ ์์ฑ๋ค์๋ ๋ฌด์์ด ์์๊น์? ์งํ์ ๋ง์ฐฐ๊ณ์, ๋ฐ๋ฐ๊ณ์, ๋์ฌ์ ธ ์๋ ์ฅ์ ๋ฌผ, ์ธํ๋ถํํ ์ ๋ ๋ฑ๋ฑ ์ฌ๋ฌ๊ฐ์ง ์์ฑ๋ค๋ก ์งํ์ ํน์ง์ ๋ํ๋ผ ์ ์์ ๊ฒ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฌํ ํน์ง์ ์ด๋ป๊ฒ 4๊ฐ์ ๋ค๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ๋ณดํ์ ์ด๋ ค์ด ์ ๋ค์ ๊ทน๋ณตํ๋ฉฐ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ ์ ์๋๋ก ํ๋ ๊ฒ์ด ๊ด๊ฑด์ธ ๊ฒ์ ๋๋ค.
์ด๋ฐ ์งํ์ ํน์ง์ ํ์ ํ๊ธฐ ์ํด ๋ง์ ์ฐ๊ตฌ๋ค์ด ์นด๋ฉ๋ผ๋ ๋ผ์ด๋ค์ ๊ฐ์ ๋น์ ผ์ผ์๋ฅผ ๋ถ์ฐฉํ์ฌ ํ๊ฒฝ์ ์ธ์ํ ๋ค ๊ทน๋ณตํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ๊ณ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ํ์ง๋ง KAIST ์ฐ๊ตฌ์ง์ด ์ ์ํ DreamWaQ์์๋ ์งํ์ ์ธ์ํ ์ ์๋ ๋ถ์ฐจ์ ์ธ ๋น์ ผ์ผ์ ์์ด ๋ก๋ด์ ์์ฒด์ ์ ๋ณด(proprioception)๋ฅผ ์ด์ฉํ์ฌ ์งํ์ ๊ทน๋ณตํ๊ธฐ ์ํด explicitํ ํ๊ฒฝ ์ ๋ณด๊ฐ ์๋, implicitํ terrain imagination์ ํ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ต๋๋ค.
์ฌ์ค Implicitํ๊ฒ ๋ก๋ด ์ฃผ๋ณ์ ์งํ์ด๋ ํ๊ฒฝ์ ๋ณด๋ฅผ ๊ฐํํ์ต ๋ก๋ด ์์ด์ ํธ๊ฐ ์ธ์ํ ์ ์๋๋ก ํ๋ ์ฐ๊ตฌ๋ ๋ค์ํ๊ฒ ์งํ๋์ด์์์ต๋๋ค. ์์ ์ฃผ์ ๋ฐฉ๋ฒ์๋ก๋ Teacher-Student Network๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ ํ๊ฒฝ์ ๋ณด๋ฅผ ํ์ตํ Teacher Network
๋ก๋ถํฐ Student Network
๊ฐ ์ถํ์ ๋ฐ๋ผ ํ์ตํ๋ ๋ฐฉ์์ด ์์์ง๋ง, ํด๋น ๋ฐฉ๋ฒ์ Teacher Network๋ฅผ ํ์ต๊ณผ Student Network ํ์ต์ ๋ฐ๋ก 2๊ฐ์ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ํ์ต์ ํด์ผํ๋ค๋ ๋ฐ์ดํฐ ๋นํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ด๋ผ๋ ๋จ์ ์ด ์์์ต๋๋ค. ๋ฐ๋ผ์ DreamWaQ์์๋ Asymmetric Actor-Critic์ด๋ผ๋ ๊ธฐ์กด์ Actor-Critic ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๊ฐ ๋ณํ์ ์ค ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ Teacher-Student Network์ฒ๋ผ ๋ ๋จ๊ณ๋ก ๋๋์ด์ ํ์ตํ์ง ์๊ณ ๋ Implicitํ๊ฒ Terrain ์ ๋ณด๋ฅผ Actor-Critic ๊ตฌ์กฐ์ ๋
น์ฌ๋ค ์ ์๋๋ก ํ์ต๋๋ค.
2.3 Asymmetric Actor-Critic
๊ธฐ์กด์ PPO, SAC์ ๊ฐ์ Policy Gradient์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ฃผ์ ๊ตฌ์ฑ์์๋ก Actor Network์ Critic(Value) Network๊ฐ ์์ต๋๋ค. Actor๋ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ทจํด์ผํ๋ action
๊ฐ์ ์ถ๋ ฅํ๋ ๋คํธ์ํฌ์ด๋ฉฐ Critic๋ ์์ด์ ํธ์ ํ์ต ๋ฐฉํฅ์ ๋ณด์ฌ์ฃผ๋ value
๊ฐ์ ์ถ๋ ฅํ์ฌ ์ด 2๊ฐ์ ๋คํธ์ํฌ๋ค์ด Policy Gradient ์๊ณ ๋ฆฌ์ฆ์ ๋ชฉ์ ์์ ๋ฐ๋ผ Return(๋์ ๋ณด์)
๊ฐ์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๊ฒ ๋๋ ๊ฒ์
๋๋ค. ๋ณดํต 2๊ฐ์ ๋คํธ์ํฌ ๋ชจ๋์๊ฒ ๊ฐ์ state(ํน์ observation) ์ ๋ณด๊ฐ ์
๋ ฅ๊ฐ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋๊ธฐ ๋๋ฌธ์ Actor ๋คํธ์ํฌ์ Critic ๋คํธ์ํฌ๋ ์๋ก Symmetricํ๋ค๊ณ ํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์์ ๋ก๋ด์ด ์ผ์ ์์ด๋ ์ป์ ์ ์๋ ์งํ ์ ๋ณด๊ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ๋๋ ๋คํธ์ํฌ์ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๋ค๋ฉด ์ค์ ๋ก๋ด์์ ์๊ณ ๋ฆฌ์ฆ์ด ๋์๊ฐ ๋ ๋ฃ์ด์ค ์งํ์ ๋ณด๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ด ๋์๊ฐ ์ ์์ ๊ฒ ์
๋๋ค. ๊ทธ๋์ DreamWaQ์์๋ Actor/Critic Network์ ์ํธ์์ฉ ๊ณผ์ ์์ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ป์ ์ ์๋ ์๊ฐ์ ์ ๋ณด๋ค์ ๊ธฐ๋ฐ์ผ๋ก terrain ์ ๋ณด๋ฅผ ์์
ํ ์ ์๋๋ก, Actor ๋คํธ์ํฌ์ ๋ค์ด๊ฐ๋ ์
๋ ฅ๊ฐ๊ณผ Critic ๋คํธ์ํฌ์ ๋ค์ด๊ฐ๋ ์
๋ ฅ๊ฐ์ ๋ค๋ฅด๊ฒ ์ค๊ณํ์๊ณ ์ด๋ฅผ Asymmetricํ ๊ตฌ์กฐ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
์์ ๋ณด์ด์๋ ๊ฒ์ฒ๋ผ Actor Network์๋ Observation o_t, estimated velocity v_t, latent vector z_t๊ฐ ์
๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค. v_t์ z_t๋ ๋ค์ ํํธ์์ ์ข ๋ ์ดํด๋ณผ ์์ ์ด๋ฏ๋ก ์ฌ๊ธฐ์์๋ ์ฐ์ observation vecter์ธ o_t์ ์ด์ ์ ๋ง์ถ์ด์ ๋ณด๊ฒ ์ต๋๋ค. observation ์ ๋ณด๋ ๊ฐํํ์ต MDP๋ฅผ ์ ์ํ๋ ํ ์์๋ก ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ํ์ตํ ๋ ๊ด์ธก(ํน์ ์ ๊ทผ ๊ฐ๋ฅํ ์ ๋ณด)
ํ๋ ์ ๋ณด์
๋๋ค. ๋ฐ๋ผ์ ๋ก๋ด์ ํน๋ณํ ๋น์ ผ ์ผ์ ์ถ๊ฐ ์์ด ๋ก๋ด ์์ฒด ํ๋์จ์ด์์ ์ป์ ์ ์๋ ์ ๋ณด์ธ proprioceptive ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชธ์ฒด์ ๊ฐ์๋ \omega_t, ์ค๋ ฅ๋ฐฉํฅ ๋ฒกํฐ g_t ๋ฑ๋ฑ์ ์ ๋ณด๊ฐ observation vector์ ์์๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ฉด, Critic Network์๋ State s_t๊ฐ ์
๋ ฅ๊ฐ์ผ๋ก ๋ค์ด๊ฐ๋ ๊ฒ์ ์ ์ ์๋๋ฐ ์ด๋ ์์์ Observation๊ณผ State๋ฅผ ๋น๊ตํด๋์ ๊ฒ๊ณผ ๊ฐ์ด state๊ฐ observation๋ณด๋ค ๋ง์ ์ ๋ณด๋ฅผ ํฌํจํ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์์ ์ฃผ๋ชฉํด์ ๋ณผ ์ ์๋ ์ ์ด ๋ฐ๋ก ์งํ์ ๋ํ ์ ๋ณด์ธ heightmap scan h_t๊ฐ ํ ์์์์ ์ ์ ์๊ณ ์ด๋ฅผ ํตํด implicitํ terrain imagination์ด ๊ฐ๋ฅํ ๊ฒ ์
๋๋ค. Heightmap scan์ ๋ํด ์กฐ๊ธ ๋ ์ค๋ช
์ ๋ง๋ถ์ด์๋ฉด, ์งํ์ heightmap scan ์ ๋ณด๋ ์ค์ ๋ก๋ด์์ ์ป์ ์ ์๋ ์ ๋ณด๋ ์๋๊ณ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ํ์ตํ๊ฒ ๋๋ ์๋ฎฌ๋ ์ด์
์์๋ง ์ป์ ์ ์๋ ์ ๋ณด๋ก ์งํ์ z์ถ ๋ฐฉํฅ์ ๋์ด ์ ๋ณด๋ฅผ ๋งํฉ๋๋ค.
ํ๊ฒฝ์ ์ ์ํ๋ ๋ณ์์ด๊ณ ์๋ฎฌ๋ ์ด์
์์๋ ๊ฐ์๊ณต๊ฐ์ด๊ธฐ ๋๋ฌธ์ ํ๋ก๊ทธ๋จ์์ ์ป์ ์ ์๋ ๋ฌผ๋ฆฌ์ ์ ๋ณด์ด์ง๋ง ์ค์ ๋ก ๋ก๋ด์ด ์ด์ฉํ ์ ์๋ ์ ๋ณด๋ฅผ privileged observation์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํฉ๋๋ค. ๋ฐ๋ผ์ ๊ธฐ์กด์ ๊ฐํํ์ต์์ State๊ฐ ํ๊ฒฝ์์ ์์ด์ ํธ๊ฐ ๋์ฌ์๋ ์ํฉ์ ์ค๋ช
ํ ์ ์๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋งํ๊ณ Observation์ด ํ๊ฒฝ์ ๋์ฌ์๋ ์์ด์ ํธ๊ฐ ๊ด์ฐฐ
ํ ์ ์๋ ์ผ๋ถ
์ํ ์ ๋ณด๋ฅผ ๋ปํ๊ธฐ ๋๋ฌธ์ State = Observation + Privileged Observation ํฌํจ๊ด๊ณ๋ก ์ดํดํ ์ ์์ต๋๋ค.(๋
ผ๋ฌธ์์๋ privileged observation์ด๋ผ๋ ํ๊ธฐ๋ฅผ state๋ฅผ ๋ปํ๋ ๊ฒ์ผ๋ก ํ๊ธฐํ๊ณ ์๊ธฐ ๋๋ฌธ์ ํท๊ฐ๋ฆด ์ ์์ต๋๋ค.)
2.4 Context-Aided Estimator Network
์ด๋ฒ ํํธ์์ ์ดํด๋ณด๊ฒ ๋ Context-Aided Estimator Network๋ ์ผ์๋ก ์ธ์ํ ์ ์๋ ์งํ ์ ๋ณด๋ฅผ ์์ด์ ํธ๊ฐ ์ ์ถํ ์ ์๋๋ก ํ๋ ์ผ๋ฑ๊ณต์ ์์ด๋์ด ์ ๋๋ค.
CENet์ ๊ตฌ์กฐ๋ ์์ ๊ฐ์ด \beta-VAE๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ผ์ time horizon H๋์ ๋ชจ์ observation์ด Encoder์ ๋ค์ด๊ฐ๋ฉด latent vector z์ ๋ชธ์ฒด์ ์ ์๋ ์ถ์ ๊ฐ์ธ v_t๊ฐ ์ถ๋ ฅ๊ฐ์ผ๋ก ๋์ค๊ฒ ๋ฉ๋๋ค. Auto-Encoder์ ์ผ๋ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ผ ์ด ๊ฐ๋ค์ด Decoder์ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๊ณ Decoder์ ์ถ๋ ฅ๊ฐ์ผ๋ก๋ time horizon์ ์ง๋ ๋ค์ observation vector o_{t+1}์ reconstructionํ ์ ์๋๋ก ํ์ตํ๊ฒ ๋๋ ๊ฒ ์ ๋๋ค.
๊ทธ๋์ CENet์ loss function์ ํฌ๊ฒ 2๊ฐ์ ํํธ L_{est}์ L_{VAE}๋ก ๋๋์ด์ ธ ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๋จผ์ L_{est}๋ ๋ณดํํ๋ ๋ก๋ด ์์ด์ ํธ์ ์๋ ์ถ์ ์ CENet์์ ํ ์ ์๋๋ก ํ์ตํ๊ธฐ ์ํ ๋ถ๋ถ์ผ๋ก, ๋ก๋ด ๋ชธ์ฒด์ ์ ์๋ ์ถ์ ๊ฐ \tilde{v}_t๋ ์ค์ ์ ๋ต๊ฐ v_t๋ ์๋ฎฌ๋ ์ด์ ์์๋ ์ป์ ์ ์๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ Encoder์์ ์ถ์ ํ ๊ฐ \tilde{v}_t์์ MSE(mean square error)๋ฅผ ๊ตฌํ ์ ์์ต๋๋ค. ๋ค์์ผ๋ก L_{VAE}๋ time horizon H๋์ ๋์ ๋ ์ฌ๋ฌ๊ฐ์ observation ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ๋ค์ observation o_{t+1}์ ์คํ ์ธ์ฝ๋ ๊ตฌ์กฐ๋ก ์ reconstructionํ์ง๋ฅผ ๋ณด๋ ์ฒซ๋ฒ์งธ term๊ณผ ์ถ์ ๋ถํฌ๋ฅผ ๋ง์ถ๋ ๋ถ๋ถ์ธ KL-divergence ์ ์ฝ ์กฐ๊ฑด ๋๋ฒ์งธ term์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. (VAE loss์ ๋ํด์ ๋ ์์ธํ ์ ๋ณด๋ฅผ ์๊ณ ์ถ์ผ์ ๋ถ์ ์ด์ ์ VAE ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ ํฌ์คํ ์ ์ฐธ๊ณ ํด์ฃผ์ธ์.)
์ด์ ๊ฐ์ loss ๊ตฌ์ฑ์ผ๋ก ํ์ต๋ CENet์ ์ฌ๋ฌ ํ์ ์คํ ๋์ ๊ด์ฐฐ๋ observation ์ ๋ณด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ์์ด์ ํธ๊ฐ privileged observation์ ์ ์ถํ ๊ฒ์ผ๋ก ๊ธฐ๋ํ ์ ์๋ ์ด์ ๋ privileged observation์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์น๋ฅผ ์ถ์ ํ๋ Critic(Value) Network๋ฅผ ํตํด์ Actor Network๊ฐ ์ ๋ฐ์ดํธ ๋๋ Policy gradient๊ณผ์ ์ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ Asymmetric Actor-Critic๊ตฌ์กฐ์์ ์๋์ง ํจ๊ณผ๊ฐ ๊ธฐ์กด์ Context RL ๋ถ์ผ์์๋ ์ฌ์ฉ๋๋ ์์ด๋์ด ์ธ๋ฐ(์ฐธ์กฐ๋ ผ๋ฌธ: AACC) ์ด์ ๋น๊ตํด๋ณด์์ ๋, Critic Network๊ฐ deploy๋๋ ๊ณผ์ ์์ ์ฐ์ด์ง ์๊ธฐ ๋๋ฌธ์ Actor๋ณด๋ค ๋ ๋ง์ ์ ๋ณด๋ฅผ ๋ฐ์์ ๋ ์ ํํ ๊ฐ์น๋ฅผ ์ถ์ ํ ์ ์๊ฒ ํ๋ค๋ ๊ธฐ์กฐ๋ ๋น์ทํ์ง๋ง time-invarientํ context vector๋ฅผ ๋ง๋๋ Context RL์์์ Asymmetric Actor-Critic๊ณผ ๋ค๋ฅด๊ฒ DreamWaQ์์๋ time-varientํ ๋ณ์๋ค์ ์ถ์ ํ์ฌ implicitํ๊ฒ ์ถ์ ํ ์ ์๋๋ก ํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค.
Adaptive Bootstrapping(AdaBoot)
Adaptive bootstrapping์ policy ํ์ต๊ณผ์ ์ค์ Estimator network์ธ CENet์ด ์์ ์ ์ผ๋ก ํ์ต๋๋๋ก ํ๊ธฐ ์ํด domain randomized๋ก ๋ค์ํ๋ ์ฌ๋ฌ ํ๊ฒฝ์์์ ๋ํด ์ํผ์๋๋ณ reward์ ํ๊ท ๊ฐ์ ๋ํ ํ์ค ํธ์ฐจ์ ๋น์จ์ธ ๋ณ๋ ๊ณ์(CV)์ ์ํด ์ ์ด๋๋ ๋ฐฉ๋ฒ์ ๋งํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๋ถ์ ํํ ๊ฐ์น ์ถ์ ์ ๋ํ ์ ์ฑ ์ ๋ณด๋ค ๊ฒฌ๊ณ ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด m๊ฐ์ ์์ด์ ํธ reward์ CV๊ฐ ์์ ๋ ๋ถํธ์คํธ๋ํ์ ํ๊ฒ๋ฉ๋๋ค. ๋ฐ๋๋ก ์์ด์ ํธ๊ฐ ์ถฉ๋ถํ ํ์ตํ์ง ์์ ๊ฒฝ์ฐ์๋ reward์์ ํฐ CV๋ก ํ์๋ ๊ฒ์ฒ๋ผ ๋ถํธ์คํธ๋ฉ์ ํด์๋ ์ํ๋๋ก ํฉ๋๋ค.
3 Experiments
DreamWaQ์ ํจ๊ณผ๋ฅผ ์คํ์ ํตํด ์ดํด๋ณด๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋น๊ต ๋ชจ๋ธ๊ตฐ์ ์ค์ ํ์ต๋๋ค.
Compared Methods
- Baseline: Adaptation์ ํ๋ ๋ถ๋ถ์ด ์๋ ๊ธฐ๋ณธ ๋ชจ๋ธ ๊ตฌ์กฐ
- AdaptationNet: Teacher-Student ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ๋ ๋จ๊ณ ํ์ต์ ๊ฑฐํ จ implicitํ ํ๊ฒฝ์ ๋ณด๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ
- EstimatorNet: Context ์ถ์ ์ด ์์ด explicitํ๊ฒ ํ๊ฒฝ์ ๋ณด๋ฅผ ์ถ์ ํ๋ Estimator network๊ฐ ์๋ ๋ชจ๋ธ
- DreamWaQ w/o AdaBoot: AdaBoot๋ฅผ ํ์ง ์์ DreamWaQ
- DreamWaQ w/ AdaBoot:
[proposed method]
AdaBoot๋ฅผ ํ DreamWaQ
3.1 Simultation Result
Isaac Gym ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ PPO ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ด์ฉํ์ฌ ํ์ต๊ณผ์ ๋์์ Episodic Reward ๊ทธ๋ํ ๋ณํ๋ฅผ ์ดํด๋ณด๋ฉด, EstimatorNet์ ์ฒ์์๋ AdaptationNet๋ณด๋ค ํ๊ท ์ํผ์๋ ๋ณด์์ด ๋์ง๋ง, ๋ ๋ง์ training step ํ์ ๋ ์ด๋ ค์ด ์งํ๊ณผ ๋ง์ฃผ์น๊ธฐ ๋๋ฌธ์ ๋ ๋ง์ ๋ฐ๋ณต ํ์ ์ฑ๋ฅ์ด ์ ํ๋จ์ ์ ์ ์์ต๋๋ค. ๋ฐ๋๋ก DreamWaQ๋ ํ์ต ์งํ์ด ์ ์ ์ด๋ ค์ ์ง์๋ ๋ค๋ฅธ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ํผํฌ๋จผ์ค๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ธ๋ถ ์ธ์ ์์ด ๊ฑท๋ ๊ฒ์์๋ DreamWaQ๋ ์ฃผ๋ณ ์งํ์ heightmap์ ๋ค ์ ์ ์๋ ์ค๋ผํด policy๋งํผ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Explicit Estimation Comparison
์๋ฎฌ๋ ์ด์ ์์ ํ๋ฒ ์งํ์ ๋ณด๋ฅผ Implicit๊ฐ ์๋ Explicitํ๊ฒ ์๋ ค์ฃผ๊ณ ํ์ตํ๋ค๋ฉด ์ด๋ค ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋์ง ์์๋ณด๋ ์คํ๋ ์งํํ์ต๋๋ค.
Timestep์ด ๋์ด๋ ์๋ก ๋ ์ด๋ ค์ด ๊ณ๋จ์งํ์์ ๋ณดํํ๋๋ก ํ์ต์ํจ ๊ฒฐ๊ณผ Explicitํ๊ฒ ์งํ์ ๋ณด๋ฅผ ํ์ตํ Estimator๋ ์งํ์ด ์ด๋ ค์์ง์ Foot stumble ํ์์ด ์ฌํ๊ฒ ์์์ง๋ง DreamWaQ๋ ์งํ์ด ์ด๋ ค์์ ธ๋ ์์ foot stumble์ด ์์์ ํ์ธํ์ฌ ์คํ๋ ค Implicitํ๊ฒ ์งํ์ ๋ณด๋ฅผ ํ์ตํ๋ ๊ฒ์ธ robustํ ๋ณดํ์ ํ๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค๊ณ ํฉ๋๋ค.
3.2 Real-world Result
์ค์ ๋ก๋ด ํ๋ซํผ์ ๊ฐ์ง๊ณ Command tracking error๋ฅผ plot ํด๋ณด์์ ๋๋ ๋ค๋ฅธ ๋น๊ต ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด๋ณด์์ ๋ error ๊ฐ์ด ์ ์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ํนํ๋ AdaBoot๋ฐฉ๋ฒ์ด ์๊ณ ์๊ณ ์ ๋ฐ๋ผ error๊ฐ์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ๊ฒ์ ํตํด AdaBoot ๋ฐฉ๋ฒ์ด policy ํ์ต์ ํ์ํ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
4 Conclusion
๋ฆฌ๋ทฐ๋ฅผ ํ๋ฉด์ ๋ ผ๋ฌธ์์ ์ ๋งคํ๊ฒ ๊ทธ๋ ค์ง ๋ถ๋ถ๋ ์์ด์ ์์ฝ๋ค๋ ์๊ฐ์ด ๋ค์์ง๋ง ๋ณดํ๋ก๋ด์ด ๋น์ ํ์ ์ด๊ณ ๋ค์ํ ์งํ์ ๊ทน๋ณตํ ์ ์๋๋ก ํ๋ ๊ฒ์ด ์ฌ์ ํ ํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ก ๋จ์์๋๋ฐ ์ด๋ฅผ ์ถ๊ฐ์ ์ธ ๋น์ ผ์ผ์ ์ ๋ณด ์์ด CENet๊ณผ AdaBoot๋ผ๋ ์์ด๋์ด๋ก ํ์ด๋ด๊ณ ์ค์ ํํ์์ ์ด๋ฆฐ ๋ํ์์๋ ์ข์ ํผํฌ๋จผ์ค๋ฅผ ๋๋ค๋ ์ ์์ ์ข์ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํฉ๋๋ค.