๐WASABI ๋ฆฌ๋ทฐ
์ด๋ฒ ํฌ์คํ
์ WASABI: Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations ๋
ผ๋ฌธ์ ์ฝ๊ณ ์ ๋ฆฌํ ๋ด์ฉ์
๋๋ค. 4์กฑ ๋ณดํ ๋ก๋ด ์ฐ๊ตฌ์์ ๋ง์ ์ฐ๊ตฌ ์ฑ๊ณผ๋ค์ ๋ฐํํ๋ ์ค์์ค์ ETH Robotic System Lab๊ณผ ๋
์ผ์ Max Plank Institude for Intelligent Systems์์ ๋ฐํํ ๋
ผ๋ฌธ์ผ๋ก, ๊ฐํํ์ต์์ ์ค์ํ ๋ถ๋ถ๋ค ์ค ํ๋์ธ reward design์ ๋ํ ๊ณ ๋ฏผ์ generatvie adversarial method(WGAN, Wasserstein GAN)๋ฅผ ํตํด ํด๊ฒฐ
ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ณดํ ๋ก๋ด์ ๋ชจ์ ์ ์ด์์ ๊ธฐ๋ณธ์ ์ธ ๋ณดํ๋ฟ๋ง ์๋๋ผ ๋ค์ํ ๋ค์ด๋๋ฏนํ ๋ชจ์ ์ ์ํํ๋๋ก ๋ก๋ด์ ํผํฌ๋จผ์ค๋ฅผ ๋์ด์ฌ๋ฆฌ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๊ฒ ์งํ๋๊ณ ์์ต๋๋ค. ์ฌ๊ธฐ์ ๋งํ๋ ๋ค์ด๋๋ฏนํ ๋ชจ์ ๋ค๋ก๋ ๋ก๋ด์ด ๊ณต์ค์์ ํ๋ฐํด ๋์์ผ ํ๋ backflip๊ณผ ๊ฐ์ ๊ธฐ์กด์ ์ ํต์ ์ธ ๋ณดํ ์ ์ด ์ฐ๊ตฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก rule-based๋ก ์ ์ดํ๊ธฐ์๋ ๋งค์ฐ ์ด๋ ค์ด ๋ชจ์ ๋ค์ ๋งํฉ๋๋ค. ๋ก๋ด์ด ์ด๋ฐ ๋ชจ์ ๋ค์ ์ํํ๋๋ก ์ํ์ ์ผ๋ก ์์ธํ ๋ช ์ํ๊ณ ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์๋ค์ ๊ณ ๋ คํ์ฌ ์ ์ดํ๊ธฐ ์ด๋ ค์ธ ๋, ๊ฐํํ์ต์ด๋ผ๋ ์ธ๊ณต์ง๋ฅ ํ๋ ์ ์ํฌ๋ฅผ ์ด์ฉํ์ฌ reward๋ผ๋ ๋ณด์์ฒด๊ณ๋ฅผ ๊ธฐ์ค์ผ๋ก trial-and-error๋ฅผ ํตํด ๋ชจ์ ์ ํ์ตํ๋๋ก ํ๋ ๊ฒ์ด ์ง๊ด์ ์ผ๋ก ๋งค์ฐ ์ข์ ํด๊ฒฐ์ฑ ์ผ๋ก ๋ณด์ ๋๋ค.
ํ์ง๋ง ๋ค์ด๋๋ฏนํ ๋ชจ์ ์ ๊ฐ task๋ก ์ ์ํ๊ณ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฐฉํฅ๋๋ก ๋ก๋ด์ด ๋ชจ์ ๋ค์ ํ์ต๋๊ธฐ ์ํด์๋ reward๋ฅผ ์ ์ ์ํด์ฃผ์ด์ผ ํ๋๋ฐ ์ด ๊ณผ์ ์ด ๋ง๋ง์น ์๊ฒ ๊น๋ค๋กญ๊ณ ์ด๋ ค์ฐ๋ฉฐ, ์คํ๋ ค ์ํ์ ์ธ ๋์ญํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ดํ ๋๋ณด๋ค ๋ถ์์ ์ธ ์ ๊ทผ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ reward design์ด๋ผ๋ ๊ณผ์ ๋ฅผ ํด๊ฒฐํด์ผ๋ง ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ค์ด๋๋ฏน ๋ชจ์ ๋ค์ ๊ฐํํ์ต์ ์ด์ฉํ์ฌ ๋ก๋ด์ด ์ํํ ์ ์์ ๊ฒ ์ ๋๋ค. ๋ฐ๋ก ์ด ๋ถ๋ถ์ ์์ฑ๋ชจ๋ธ๋ก ์ ๋ช ํ GAN ๋ชจ๋ธ๋ค ์ค ํ๋์ธ WGAN์ ์ด์ฉํ์ฌ ํด๊ฒฐํ๊ณ ์ ํ์ผ๋ฉฐ ํด๋น ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ ๋ ์ ๊ทผ๋ฒ์ ๊ฐํํ์ต์ policy๋ฅผ GAN์ generator ๊ด์ ์ผ๋ก ๋ฐ๋ผ๋ณด๊ณ reward๋ฅผ ์ถ๋ก ํ๋๋กํ๋ ํ๋ ์ ์ํฌ๋ฅผ ๋ง๋ค์๋ค๋ ์ ์ด์์ต๋๋ค. (์ดํ ๊ด๋ จํด์ ๋ ๋ ผ๋ฌธ๋ค์ ์ฐพ์๋ณด๋ ์์ฑ๋ชจ๋ธ๊ณผ ๊ฐํํ์ต์ ๋ฎ์ ์ ์ด ๋ง์ ๊ฒ ๊ฐ์ต๋๋ค. ๊ด๋ จํด์ ํฅ๋ฏธ๋กญ๊ฒ ์ฝ์๋ ๋ค๋ฅธ ๋ ผ๋ฌธ Connecting Generative Adversarial Networks and Actor-Critic Methods๋ ๊ด์ฌ์ด ์์ผ์๋ค๋ฉด ๊ฐ๋ณ๊ฒ ์ฝ์ด๋ณด์๋ ๊ฒ์ ์ถ์ฒ๋๋ฆฝ๋๋ค.)
Introduction
๊ฐํํ์ต์ ์ ๋ง ๋งค๋ ฅ์ ์ธ ์ธ๊ณต์ง๋ฅ ํ์ต๋ฒ ์ค ํ๋๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์ ๋ ์ง๊ด์ ์ด๊ณ , ์ด๋ป๊ฒ ๋ณด๋ฉด ๊ฐ๋ ์ฐ๋ฆฌ๋ค ์ธ์์ ๋ชจ์ต์ ๋จ์ํ์ง๋ง ๋ช ๋ฃํ๊ฒ ๋ณด์ฌ์ฃผ๋ ๊ฒ ๊ฐ์ ๊ทธ๋ฐ ๊ฐํํ์ต์ ๋งค๋ ฅ์ ๋น ์ ธ ์ง๊ธ๊น์ง๋ ์ด์ฌํ ์ดํดํ๊ณ ๊ณต๋ถํ๋ ค๊ณ ๋ ธ๋ ฅํ๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค. ๋ง์ ๋ถ๋ค์ด ์ธ๊ณต์ง๋ฅ์ ์ฒ์์ ํ์ตํ ๋ ๋ง์ฃผํ๊ฒ ๋๋ ๊ฒ์ โ์ง๋ํ์ต(Supervised Learning)โ์ธ๋ฐ ์ด๋ก ๊ณต๋ถ๋ฅผ ์ด๋์ ๋ ๋ง์น ํ, ๊ด๋ จํด์ vision์ด๋ ์์ฐ์ด ๋ฑ์ ํ๋ก์ ํธ๋ฅผ ์์ํ๋ฉด ์ฒ์์ ๋ง์ฃผ์น๋ ๋๊ด์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ด๋ผ๊ณ ์๊ฐ๋ฉ๋๋ค. ๋น ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ๋์๋๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค ๋ณด๋ Garbage In, Garbage Out์ด ์๋๋๋ก ์กฐ์ฌํด์ผํ๊ณ ๋ด๊ฐ ์ํ๋ ์ปค์คํ ๋ฐ์ดํฐ ์ ์ ๊ตฌ์ถํ๋ ๋ฐ๋ง ์์ฒญ๋ ์๋์ง๋ฅผ ์์์ผ ํฉ๋๋ค. (์คํ ๋ฐ์ดํฐ์ ์ด๋ transfer learning ๊ธฐ๋ฒ ๋ฑ์ ์ด์ฉํด์ ํด๊ฒฐํ๊ธฐ๋ ํ์ง๋ง์.)
ํ์ง๋ง ๊ฐํํ์ต์์๋ ๋ฐ์ดํฐ ์ ์ด ํ์์์ต๋๋ค! ์๋ํ๋ฉด ๊ฐํํ์ต ํ๋ ์์ํฌ๊ฐ ๋์ํ๋ฉด์ trial-and-error๋ฅผ ํตํด interaction data๋ฅผ ๋ง๋ค๊ฒ ๋๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์ด ๋๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ํ๊น๊ฒ๋ ๊ฐํํ์ต์๋ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ด๋ ค์ ๋งํผ์ด๋(ํน์ ๊ทธ ์ด์์ผ๋ก) ์ด๋ ค์ด ์ ์ด ์์ต๋๋ค. ๋ฐ๋ก ํ๊ฒฝ(Environment) ๊ตฌ์ถ์ ๋๋ค. ์ ๋ช ํ DeepMind์ ์๋์ด ์ฐ๊ตฌ์๋ Behind every great agent, thereโs a great environment๋ผ๊ณ ์ด์ผ๊ธฐ ํ์ ์ ๋๋ก ๊ฐํํ์ต์์๋ ํ๊ฒฝ ๊ตฌ์ถ์ ํ์ต์ ์ฑํจ๊ฐ ๋ฌ๋ ธ๋ค๊ณ ํด๋ ๊ณผ์ธ์ด ์๋๋๋ค.
๊ฐํํ์ต์ ํ์ค์ ๋ํด ์ข ๋ ์ดํด๋ณด๊ฒ ์ต๋๋ค.(๋ก๋ดํฑ์ค ๋ถ์ผ ๊ฐํํ์ต ์ฐ๊ตฌ์์ ๊ด์ ์ด๋ฏ๋ก ๋ค๋ฅธ ๋ถ์ผ์์ ๊ฐํํ์ต์ ๋์ ํ ๋์ ๊ด์ ๊ณผ๋ ์ฐจ์ด๊ฐ ์์ ์ ์์ต๋๋ค.) ๋จผ์ ์ฒซ๋ฒ์งธ๋ก ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๊ฐํํ์ต ๋ํ ๋น ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ (1)๋ง์ interaction data๊ฐ ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ก๋ดํฑ์ค์ ๊ฐํํ์ต์ ๋์ ํ๊ธฐ ์ํด์๋ ๋ก๋ด์ ์ฌ๋ฌ๋ฒ ๋๋ฆฌ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์ป์ด์ผ ํ๋๋ฐ (์ฐ๊ตฌ ์ด๊ธฐ์๋ ์ค์ ๋ก ๋ก๋ด์ ์ฐ๊ตฌ์๊ฐ ์ฌ๋ฌ๋ฒ ๋ค์ ์ ํ ํ๊ณ ์คํ์ ํ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ์ป์๋ค๊ณ ๋ ํ์ง๋ง..) ์ฌ์ค์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง ์ด ์ ์์ ์ค์ ๋ฌผ๋ฆฌ์ ์ธ ์ธ๊ณ์์ ๋ก๋ด์ด ๊ตฌ๋๋์ด ์ป์ด์ง๋ ๋ฐ์ดํฐ์ ๋ฌผ๋ฆฌ์ ์ธ ์ธ๊ณ๋ฅผ ๋ชจ์ฌํ ์๋ฎฌ๋ ์ดํฐ์์ ์ป๊ฒ๋ ๋ฐ์ดํฐ๋ ์ฐจ์ด๊ฐ ์กด์ฌํ ์ ๋ฐ์ ์๊ธฐ ๋๋ฌธ์ Sim-to-real์ด๋ผ๋ ๋ ํ๋์ ์ฐ๊ตฌ๊ณผ์ ๊ฐ ๋ง๋ค์ด์ง๊ฒ ๋ฉ๋๋ค.
๋ค์์ผ๋ก๋ ์์ ์ด์ผ๊ธฐ ํ๋, (2)๊ฐํํ์ต์ ํ๊ฒฝ ๊ตฌ์ถ์ด ์ ๋์ด์ผ ์ ๋๋ก ํ์ต์ด ๋ ์ ์๋ค๋ ๊ฒ์
๋๋ค. ์ฌ๊ธฐ์ ํ๊ฒฝ ๊ตฌ์ถ, ํน์ ๊ฐํํ์ต์ ์ํ์ ๋ชจ๋ธ๋ง์ธ MDP(Markov Decision Process)์ ์์๋ค์ ์ ์ ์ํด์ฃผ์ด์ผ ํ๋ค๋ ๊ฒ์ ์ฌ์ง์์ ๋ณด์ด๋ ๊ฐํํ์ต ํ๋ ์์ํฌ์ ์๋ State, Reward, Action ๋ฑ์ ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ๋ง๊ฒ ์ ์ ํด์ฃผ์ด์ผ ํ๋ค๋ ๊ฒ์
๋๋ค. ์ ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ์๊ฐ ์๋๊ณ ๊ฐํํ์ต์ ํ์ฉํ ๋ก๋ด์ ์ด ์ฐ๊ตฌ์์ด๊ธฐ์ ๊ฐ์ ๊ฐํํ์ต ๋ฐฉ๋ฒ๋ก ์ ๋ณด๋๋ผ๋ ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ์์ ์ดํ๋ฆฌ์ผ์ด์
์ฐ๊ตฌ์๊ฐ ๋ณด๋ ํ๊ฒฝ์ ๋ํ
์ผ์ด ๋ง์ด ๋ค๋ฅธ ๊ฒ์ ๋๊ผ์์ต๋๋ค. ์ ์ฌ์ง์์ ๊ฐ์ quadruped walking robot์ locomotion(๋ณดํ) task๋ฅผ ์๊ฐํ ๋, ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ๋
ผ๋ฌธ๋ค์ Ant
์ ๊ฐ์ ๋จ์ํ rigid model์ ์๊ฐํ๊ณ ์คํ์ ํ์ง๋ง ๊ฐํํ์ต์ ์ค์ ๋ก๋ด์ ์ ์ฉํ๋ ค๊ณ ๋ณด๋ฉด ๋ก๋ด์ ๊ฐ ๋ชจํฐ์ ํน์ฑ, ์ผ์๋ฑ์ ๊ณ ๋ คํ State, Reward, Action์ ์ ์ํด์ผ ํ๊ธฐ ๋๋ฌธ์ ํจ์ฌ ๋ณต์กํฉ๋๋ค. ์ฌ์ค ํ๊ฒฝ์ ์์๋ค ์ค, State์ Action์ ๊ฐ ๋๋ฉ์ธ ๋ง๋ค ๊ด๋ก์ ์ธ ์ ์ ๋ฐฉ๋ฒ๋ค์ด ์๊ณ ๋ก๋ด์ ์ผ์๋ค์ด ํ์ ์ ์ด๊ธฐ ๋๋ฌธ์ ์ด๋์ ๋ ์ ํด์ ธ์๋ค(limited)๊ณ ๋ณผ ์ ์์ง๋ง Reward๋ ๊ฐํํ์ต์์ ํ์ต์ motivation์ด ๋๋ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ด์ ์ํํ๊ณ ์ ํ๋ task์ ์ํฅ์ ๊ฐ์ฅ ๋ง์ด ๋ฐ๋ ๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ๊ฐ์ฅ ์ ์ํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฐ ์ด๋ ค์์ ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ ํ๋์ ์ฐ๊ตฌ ๋ฐฉํฅ์ Reward Engineering์ด๋ผ๊ณ ์ง์นญํ๊ธฐ๋ ํฉ๋๋ค. ์ด๋ฒ ๋
ผ๋ฌธ์์๋ ๋ฐ๋ก ์ด์ ์ ํ๊ณ ๋ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
์ด๋ค Decision Process(์์ฌ๊ฒฐ์ ๋ฐฉ๋ฒ)๋ฅผ ํ์ตํ๋ค๊ณ ์๊ฐํ์ ๋ ๊ฐ์ฅ ์ง๊ด์ ์ผ๋ก ๋ ์ค๋ฅด๋ ๋ฐฉ๋ฒ์ด ๋ฌด์์ธ๊ฐ์? ๊ทธ๋ฅ ์ํ๋ ์ฌ๋์ ๋ฐ๋ผํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ Imitation Learning ํน์ Behavior Cloning์ด๋ผ๊ณ ํ๋๋ฐ(๊ตฌ๋ณ์ ์ํด ์ดํ ๋ด์ฉ์์ Plain Imitation Learning์ด๋ผ๊ณ ์นญํ๊ธฐ๋ ํจ.) ํ๊ฐ์ง ์์๋ก๋ ์ด์ ์ ์ํ๋ ์ธ๊ณต์ง๋ฅ(Agent)์ ๋ง๋ค๊ณ ์ถ๋ค๋ฉด ์ด์ ์ ์ํ๋ ์ฌ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ผํ๋๋ก ํ์ตํ๋ฉด ๋ ๊ฒ ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ Expert์ State-Action pair๋ฅผ ๋ฐ์ดํฐ ์ ์ผ๋ก ๋ณด๊ณ ์ง๋ํ์ต์ ํ Agent๋ฅผ ๋ง๋๋ ๊ฒ์ธ๋ฐ Expert์ ๋ฐ์ดํฐ๋ง ํ์ตํ๋ค๋ณด๋ error๊ฐ ๋ค์ด๊ฐ๊ฒ ๋๊ณ generalization๋ ์ ๋์ง ์์ต๋๋ค.
์ด์ ๋ํ ๋ณด์์ผ๋ก GAIL(Generative Adversarial Imitation Learning)์ด๋ผ๋ ๋ฐฉ๋ฒ์ด ์ ์๋์์ต๋๋ค. ์ด๋ฆ์์๋ ๋ณผ ์ ์๋ฏ์ด Generative Adversarial Network(์ ๋์ ์ ๊ฒฝ๋ง)์ Imitation Learning(๋ชจ๋ฐฉ ํ์ต)์ด ํฉ์ณ์ง ํ์ต ๋ฐฉ๋ฒ์ธ๋ฐ, Expert์ state-action ๋ถํฌ๋ฅผ True data distribution์ผ๋ก, ํ์ตํ๋ Agent์ Policy๋ฅผ True data distribution์ ๋ฐ๋ผ๊ฐ๊ณ ์ ํ๋ Generator๋ก ๋ณด๋ ๊ฒ ์ ๋๋ค. ์์ ์ด์ผ๊ธฐํ plain imitation learning๊ณผ ๋น๊ตํด๋ณด๋ฉด pair data point์ ๋ํด ๋ง์ถฐ๊ฐ๋ ํ์ต์ด ์๋ data distribution์ด๋ผ๋ ํ๋ฅ ์ ์คํํธ๋ผ์ ์ด์ฉํด์ ๋ generalization์ ์ํ ์ ์๋ ํด๊ฒฐ์ฑ ์ ์ ์ํ ๊ฒ์ผ๋ก ์ดํดํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. Data distribution์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ค์ ์์ฑ ๋ชจ๋ธ ๋ถ์ผ์์ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๊ณ , ์ด ์ค GAN์ด๋ผ๋ ์ ๋์ ์ ๊ฒฝ๋ง ๋ฐฉ๋ฒ์์ Generator์ Discriminator๋ผ๋ ๊ฐ๋ ์ Imitation Learning์ ์ ์ฉํ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
GAIL์ ๋ฐฉ๋ฒ๋ก ๋ค ์ค ํ๋๋ก, AMP(Adversarial Motion Priors)๋ผ๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ์ด๋ฒ ํฌ์คํ ์์ ์๊ฐ๋๋ ์๊ณ ๋ฆฌ์ฆ์ธ WASABI์ AMP ๋ชจ๋ GAIL์ด๋ผ๋ ๋ฐฉ๋ฒ๋ก ์์ ์ํด์๊ณ , ๋์ ๋น๊ตํด์ ์๊ฐํด๋ณด๋ฉด ์ข๊ธฐ ๋๋ฌธ์ ๊ฐ๋ตํ๊ฒ ์ง๊ณ ๋์ด๊ฐ๋ณด๋ ค๊ณ ํฉ๋๋ค. AMP๋ Motion data, ์๋ฅผ ๋ค๋ฉด ๋๋ฌผ์ ์์ง์์์ ๋ฐ์จ expert data๋ฅผ ๊ฐ์ง๊ณ ๋ก๋ด agent์ ๋ชจ์ ์ด ์ข ๋ ์์ฐ์ค๋ฝ๊ฒ ์์ง์์ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค. Discriminator๊ฐ Motion data์์ ๋์จ State-transition(S_t \rightarrow S_{t+1})์ธ์ง ์๋๋ฉด ํ์ต ์ค์ธ Policy(Generator ์ญํ )์์ ๋์จ State-transition์ธ์ง๋ฅผ ๊ตฌ๋ณํ์ฌ ์ค์ ๋๋ฌผ์ ์์ง์์ฒ๋ผ ์์ฐ์ค๋ฌ์ด ์คํ์ผ์ ํ์ต ํ ์ ์๋๋ก ๋ณด์กฐ์ ์ธ Style Reward(r_{style})์ ๊ธฐ์กด์ ๊ฐํํ์ต ํ๋ ์์ํฌ ์์ ์ถ๊ฐํด์ค๋๋ค. State-action pair๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ๋ Plain imitation learning๊ณผ ๋ค๋ฅด๊ฒ, State-transition์ ๋ณด๊ณ Discriminator๊ฐ ํ๋จํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ expert์ Action์ ๋ํ ์ ๋ณด๋ ํ์๊ฐ ์์ต๋๋ค.
AMP ๋ฐฉ๋ฒ์์๋ ์์ฐ์ค๋ฌ์ด ๋ชจ์
์ ์ด์ ์ ๋ง์ถ์๋ค๋ ๊ฒ์ ์ง์ด๋ณผ ํ์๊ฐ ์์ต๋๋ค. Walking, Jumping๊ณผ ๊ฐ์ ๋ค์ด๋๋ฏนํ ์ฃผ์ ๋ชจ์
task์ ๋ํ reward๊ฐ ์๋๋ผ ํ์ตํ ๋ ์์ฐ์ค๋ฝ์ง ๋ชปํ ๋ชจ์
์ผ๋ก ํ์ต ๋ฐฉํฅ์ด ํ์ง ์๋๋ก, ๋ง ๊ทธ๋๋ก ๋ณด์กฐ์ ์ธ ๋ชจ์
์คํ์ผ์ ์ก์์ค ๊ฒ์
๋๋ค. ๋ฐ๋ผ์ ์ด๋ฐ ์์ฐ์ค๋ฌ์์ ํ์ตํ๊ธฐ ์ํด์๋ Motion data๋ ๋ก๋ด์ pose configuration์ ๋ํด์ ํ๋ํ๋ ๋ช
์๋์ด ์์ด์ผ ํฉ๋๋ค. ์ด๋ฅผ well-defined๋ task์ด์ด์ผ ํ๋ค๋ ๋ง๋ก ๋ฐ๊ฟ ๋งํ ์ ์๋๋ฐ, ๋ก๋ด์ joint(๊ด์ ) position์ด timestep ๋ง๋ค ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋์ง ์์น์ ์ผ๋ก ๋ค ๋ช
์๋์ด ์๋ Motion data๊ฐ ์์ด์ผ ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ์ฃผ์ ๋ชจ์
Task reward ๋์์ธ์ ๊ณ ๋ ค๊ฐ ์๋ Style reward ๋์์ธ์ GAN ๋ฐฉ๋ฒ์ ๋์
ํ AMP ๋ฐฉ๋ฒ์ ๋ฐํด WASABI๋ Task reward์ GAN ๋ฐฉ๋ฒ์ ๋์
ํ๋ค๋ ์ ์์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
GAN
์ ๋์ ์ ๊ฒฝ๋ง์ ๋ํด ๊ธฐ๋ณธ์ ์ธ ์ด๋ก ๋ถํฐ ์์ํด๋ณด๊ฒ ์ต๋๋ค. GAN์ ์์ฑ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ค ํ๋๋ก Generative, ์ด๋ ํ ์๋ก์ด ๋ฐ์ดํฐ ์์ฑ์ ํ๋, Adversarial ๊ฒ์๊ณผ ๊ฐ์ด Discriminator์ Generator๋ผ๋ 2๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋์ด ๊ฒฝ์์ ํ๋ฉฐ ํ์ต์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค. ์๋ ์ฌ์ง์์ ๋ณด์ด๋ ์์๋ก ๋ณด๋ฉด ์ง์ง ๋ชจ๋๋ฆฌ์ ๊ทธ๋ฆผ์ด๋ผ๋ Real example์ ๋ณด๊ณ ์ด๋ฅผ ๋ชจ์ฌํ ์ํ์ ํ๋ ํ๊ฐ๋ฅผ Generator๋ผ๊ณ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ๋ฏธ์ ์ํ ๊ฐ๋ณ์ฌ์ธ Discriminator๋ ์ด ์ํ์ด ์ง์ง ๋ชจ๋๋ฆฌ์ ๊ทธ๋ฆผ์ธ์ง ์๋๋ฉด ํ๊ฐ๊ฐ ๋ชจ์ฌํ ๊ฐ์ง ๋ชจ๋๋ฆฌ์ ์ธ์ง ํ๋จํ๊ฒ ๋ฉ๋๋ค. ๋น์ฐํ Generator ์ ์ฅ์์๋ Discriminator๊ฐ ๊ฐ๋ณํ๊ธฐ ์ด๋ ต๊ฒ ์ ์ ๋ ์ง์ง๊ฐ์ ๋ชจ๋๋ฆฌ์๋ฅผ ๊ทธ๋ฆฌ๊ฒ ๋๊ณ (new data) Discriminiator ์ ์ฅ์์๋ ์ง์ง์ ๊ฐ์ง ์ฌ์ด์ ๋ ์์ธํ๊ณ ๋ฏผ๊ฐํ ์ฐจ์ด๋ฅผ ์ฐพ์๋ด์ด Generator์ ๋ชจ์ฌํ์ ์ฐพ์๋ด๋ ค๊ณ ํ ๊ฒ ์ ๋๋ค.
์ด๋ฌํ GAN์ ํ์ต ๊ณผ์ ์๋ ์ง๋ ํ์ต๊ณผ ๋น์ง๋ ํ์ต์ด ๋ชจ๋ ๋ค์ด์์ต๋๋ค. ์ฐ์ Discriminator ์ ์ฅ์์๋ ์ง์ง์ ๊ฐ์ง ๋ผ๋ฒจ์ ๊ฐ์ง, ์ธํ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ฉด 2๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ค ์ค ํ๋๋ฅผ ์ ํํ๋ ์ง๋ํ์ต์ ํ๊ฒ ๋ฉ๋๋ค. Generator๋ ๋น์ง๋ ํ์ต์ผ๋ก latent code๋ผ๋ ์ผ์ข ์ trigger ์์์ธ ์ด๋ค ๋ฒกํฐ๋ฅผ ์ธํ์ผ๋ก ๋ฐ์ผ๋ฉด ์ง์ง data distribution๊ณผ ๊ฐ๊น์ด ๋ฐ์ดํฐ์ธ new data๋ฅผ ์์ฑํ๊ฒ ๋ฉ๋๋ค.
์ ๊น data distribution์ด๋ผ๋ ๊ฐ๋
์ด GAN์์๋ ์ค์ํ ๊ฐ๋
์ด๋ฏ๋ก Probability Distribution(ํ๋ฅ ๋ถํฌ)
์ ๊ฐ๋จํ๊ฒ ์ง๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค. ํ๋ฅ ๋ถํฌ๋ ์ด๋ค ์ฌ๊ฑด์ ๋๋ณํ๋ ๋๋ค ๋ณ์๋ค์ ํ๋ฅ ๋ถํฌ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ฃผ์ฌ์๋ฅผ ์ด 6๋ฒ ๋์ ธ์ 1, 2, 3, 5๊ฐ ๊ฐ๊ฐ 1๋ฒ์ฉ ๊ทธ๋ฆฌ๊ณ 6์ด 2๋ฒ ๋์๋ค๋ฉด ์๋์ ๊ฐ์ ํ๋ฅ ๋ถํฌ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด ์ ์๊ณ , ์ด๋์ Expectation(๊ธฐ๋๊ฐ)
์ ๊ตฌํด๋ณด๋ฉด 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{0}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{2}{6} = \frac{23}{6} \eqsim 3.8 ์์ ์ ์ ์์ต๋๋ค.
์ด๋ฏธ์ง๋ฅผ ๋ฐ์ดํฐ ํฌ์ธํธ x๋ผ๊ณ ํ๊ณ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ ์ฌ๋ ์ผ๊ตด ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ ์ ๋ถํฌ๊ฐ ์ผ์ชฝ์ ๋ถํฌ์ ๊ฐ๋ค๊ณ ํ๋ค๋ฉด, ์ฌ๋ฌ๊ฐ์ ๋ชจ๋(mode)๊ฐ ์๋๋ฐ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ mode์์๋ ๊ธ๋ฐ ์ฌ์ฑ์ ์ผ๊ตด์ด ์๊ณ ์๋์ ์ผ๋ก ๋ฎ์ ํ๋ฅ ๋ก ํ๋ฐ์ ์๊ฒฝ ์ด ๋จ์์ ์ผ๊ตด ์ด๋ฏธ์ง๊ฐ ์์์ ์ ์ ์์ต๋๋ค. ๋ํ mode๊ฐ ์๋ ๋งค์ฐ ๋ฎ์ ํ๋ฅ ์ ๋ณด์ด๋ ๋ถํฌ์ ๊ผฌ๋ฆฌ ๋ถ๋ถ์ ๋ณด๋ฉด ๋งค์ฐ ์ด์ํ ์ผ๊ตด ์ด๋ฏธ์ง๋ค์ด ๋์ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
๋ฐ๋ก ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ ๋ถํฌ(๋นจ๊ฐ์)๊ณผ ์ ์ฌํ ๋ฐ์ดํฐ ๋ถํฌ(ํ๋์)๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์์ฑ ๋ชจ๋ธ์ ๋ชฉํ์ด๊ณ ์ด๋ฅผ Discriminator์ Generator๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ๋๋ก ํ๋ ๊ฒ์ด GAN์ ๋๋ค.
Discriminator์ Objective Function(V)์ ๋ณด๋ฉด, ๋จผ์ ์ฒซ๋ฒ์งธ term์ ๋ฐ์ดํฐ x๋ true dataset distribution์ธ p_{data}์์ ์ํ๋ง ๋์์ ๋ Discriminator๋ ์ด๋ฅผ ์ง์ง๋ผ๊ณ ํ๋ณํด์ผ ํ๊ณ ์ด๋ output 1(true label)์ ์ถ๋ ฅํด์ผํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋์ด์ผ ํฉ๋๋ค. ๋๋ฒ์งธ term์ fake dataset distribution์ธ, ์ฆ generator๊ฐ ๋ง๋ ๋ฐ์ดํฐ์ผ ๊ฒฝ์ฐ์ ๊ฐ์ง๋ผ๊ณ ํ๋ณํด์ผ ํ๊ณ output 0(fake label)์ ์ถ๋ ฅํด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ 2๊ฐ์ term์ ๋ชจ๋ maxmizationํ๋ ๊ฒ์ด Discriminator์ ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์ \text{max}_DV(\cdot)์ด ๋ฉ๋๋ค.
Generator์ Objective Function์ ๋ณด๋ฉด, ์ฒซ๋ฒ์งธ true dataset distribution์์ ์ํ๋ง ๋๋ ๋ถ๋ถ์ Generator์ ์๊ด์ด ์์ต๋๋ค. ๋๋ฒ์งธ term์์ Generator์์ ๋์จ ouput new data๋ฅผ Discriminator์๊ฒ ๋๊ฒจ์ฃผ์์ ๋ 1(true label)๋ก ์ฐฉ๊ฐํ๋๋ก ๋ง๋ค์ด์ผ ํ๋ฏ๋ก \text{min}_GV(\cdot)์ด ๋ฉ๋๋ค.
WGAN
์์์ ์ค๋ช ํ ๊ธฐ๋ณธ์ ์ธ GAN์ ์ ํ์ตํ์ ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ด Discriminator์ ํ๋ณ ๋ถํฌ๊ฐ ๋นจ๊ฐ์ ๊ทธ๋ํ์ฒ๋ผ ๊ทธ๋ ค์ง๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์๋ฒฝํ๊ฒ true distribution์ธ p_{data}์ ๋ํด์๋ 1์, generated distribution p_G์ ๋ํด์๋ 0์ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง ์ด๋ฐ ์ํฉ์์๋ ์ ์๋ฏธํ ํ์ต์ด ์ผ์ด๋๊ธฐ ํ๋ญ๋๋ค.
Optimalํ Discriminator๋ฅผ ๊ฐ์ ํ๊ณ Objective function์ ๋ค์๋ณด๋ฉด p_{data}์ p_G๊ฐ ๋๋ฌด ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ด์ ์ฌ์ค์ ๊ณ์ฐ๋ V(\cdot)๊ฐ์ด 0์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ Generator๊ฐ ๋ ๋ถํฌ๊ฐ ๊ฐ๊น๋๋ก ๋ง๋๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ํด์ผ ํ๋๋ฐ Classic GAN์ Objective Function์๋ ์ด๋ฌํ ์ ๋ณด๋ฅผ ์๋ ค์ค ์ ์๋ ๋ถ๋ถ์ด ์ํ์ ์ผ๋ก ๋ชจ๋ธ๋ง์ด ๋์ด ์์ง ์์ต๋๋ค.
๋ฐ๋ผ์ ๋ถํฌ๋ค๊ฐ์ ๋จผ ์ ๋๋ฅผ ๋ชจ๋ธ๋งํ ์ ์๋ WGAN(Wasserstein GAN)์ด ์ ์๋์๊ณ ์ด์ ๋ํด์๋ ์ํ์ ์ผ๋ก ๋งค์ฐ ๋ฅํ ๋ด์ฉ์ด ์์ง๋ง ๋ณธ ํฌ์คํ ์์๋ ๊ฐ๋จํ๊ฒ ๊ฐ๋ ์ ์ผ๋ก ๊ณต์ฌ์ฅ์ ํฌํฌ๋ ์ธ์ ์ด์ฉํ์ฌ ์ดํดํ๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค. Wassertein Distance๋ Earth moverโs distance๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋๋ฐ ์ด๋ฆ์์ ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋ฏ์ด, ๋ ๋ถํฌ๋ฅผ ์ด๋ค ํ๋๋ฏธ๋ผ๊ณ ์๊ฐํ๊ณ ์ฐ๋ฆฌ๊ฐ Generated Distribution์ ์๋ ํ๋ค์ Real Distribution์ ๋ชจ์๋๋ก ํ๋ค์ ์ฎ๊ธด๋ค๊ณ ํ์ ๋ ๋๋ cost๊ฐ distance๋ก ์ ์๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. (์ํ์ ์ผ๋ก ๋ ๊ถ๊ธํ์ ๋ถ๋ค์ Implicit DGM 29 | Wasserstein Distance with GAN์ ์ถ์ฒํฉ๋๋ค.) ๋ณธ ์ฐ๊ตฌ์์๋ ์ด WGAN์ ์ด์ฉํ์ฌ reward ๋์์ธ์ ํ์ต๋๋ค.
RL with GAN
GAN ๋ด์ฉ์ ์ค๋ช ํ ๋ ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์ ์์๊ฐ ์ง๊ด์ ์ด๊ณ ์ฝ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๊ฐ์ง๊ณ ์ค๋ช ํ๋ค ๋ณด๋ ๋ฌธ๋ ๊ทธ๋์ ๊ฐํํ์ต์์ ์ด๋ป๊ฒ GAN์ ์ฌ์ฉํ๋๋ฐ? ๋ผ๋ ์๋ฌธ์ด ์๊ธธ ์ ์์ต๋๋ค. ๋ค์ ๊ฐํํ์ต์์์ ์ฌ๋ฌ ์ด๋ ค์๋ค ์ค Task reward๋ฅผ ์ ์ ์ํด์ฃผ๊ธฐ๊ฐ ์ด๋ ต๋ค๋ ์ ์ ์๊ธฐ์์ผ๋ณด๋ฉด Task reward๋ฅผ Discriminator๊ฐ ๊ฒฐ์ ํด์ค ์ ์์ง ์์๊น๋ผ๋ ์์ด๋์ด๋ฅผ ๋ ์ฌ๋ ค๋ณผ ์ ์์ต๋๋ค. ๋ชจ์ ์ reference๊ฐ ๋ ์ ์๋ demonstration์ ์ผ๋ จ์ state๋ค์ด true distribution์ด ๋๊ณ , policy์์ ๋์ค๋ ์ผ๋ จ์ state๋ค์ด generated distribution์ด ๋์ด์, Discriminator๊ฐ ๋ ๋ถํฌ๋ฅผ ๋ชป ๊ตฌ๋ถํ ์ ๋๋ฅผ task reward๋ก ์ ์ํ๋ค๋ฉด policy๊ฐ demonstration์์ ๋ํ๋ ๋ค์ด๋๋ฏนํ ๋ชจ์ ๋ค์ ๋ฐ๋ผํ๋๋ก ํ์ตํ ์ ์๋ ์งํ๊ฐ ๋ ์ ์์ ๊ฒ ์ ๋๋ค. ์ด์ ์ locomotion์ด๋ backflip ๋ฑ์ ๊ฐ๊ฐ์ ๋ชจ์ ๋ง๋ค task reward๋ฅผ hand design ํ ๋๋ ๊ฐ ๋ชจ์ ์์ ๋ณดํ ๋ก๋ด์ ๋ฐ์ด ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ๋์ง, ๋ชธ์ฒด์ ์๋๊ฐ ์ด๋ ํด์ผ ํ๋์ง ์ผ์ผ์ด reward๋ก ๊ณ ๋ คํ๊ณ ์ฌ๋ฌ reward term๋ค์ weighted sumํ๋ ๋ฐฉ์์ด์์ง๋ง ์ด GAN ๋ฐฉ์์ ์ด์ฉํ๋ฉด ๊ฐ ๋ชจ์ ์ ๋ํ demonstration์ state๋ค์ ๋ณด๊ณ ์ด๋ค ๋ชจ์ ์ ์ด๋ป๊ฒ ๋ฐ๋ผํด์ผํ๋์ง agent์ policy๊ฐ ์์์ task reward๋ฅผ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ ์ ์๋ ๊ฒ ์ ๋๋ค.
Method
Problem Definition
์ด์ ์ AMP ๋ฐฉ์์์ ๋ชจ์ ์ ์์ฐ์ค๋ฌ์์ ํ์ตํ๊ธฐ ์ํด Motion data๊ฐ ๋งค์ฐ well-defined ๋์ด ์์ด์ผ ํ๋ค๊ณ ํ์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ Motion data(ํน์ demonstration)์ ์ป๊ธฐ๋ ์ด๋ ต๊ณ ํนํ๋ ๋ณดํ๊ณผ ๊ฐ์ด ์ด๋ฏธ ๋ง์ด ์ฐ๊ตฌ๊ฐ ๋์ด์๊ณ ๋๋ฌผ๋ค์ ๋ชจ์ต์์๋ ๋ง์ด ๊ด์ฐฐ๋ ์ ์๋ task์๋ ๋ค๋ฅด๊ฒ ๋ค์ด๋๋ฏนํ backflipํ๋ ๋ชจ์ task๋ค์ ์ฐธ๊ณ ํ ๋ฐ์ดํฐ๋ค๋ ๋งค์ฐ ์ ๊ณ ๋ง๋ค์ด๋ด๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ์ด๋ฐ ๋ฌธ์ ์ํฉ์ ๋ณธ ์ฐ๊ตฌ์์๋ Roughํ๊ณ Partialํ demonstration๋ง ์๋ ๋ฌธ์ ๋ก ํ์ ํ๊ณ Roughํ ๋ชจ์ ๋ฐ์ดํฐ๋ผ๋ ๊ฒ์ ์ค์ ๋ก๋ด์ด๋ ๋๋ฌผ์ด ์์ง์ฌ์ ์ป์ ๋ฐ์ดํฐ๊ฐ ์๋ ์ฌ๋์ด ๋ก๋ด์ ๋จ์ํ ๋ค๊ณ ์์ง์ฌ์ ์ป์ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ฉฐ Partialํ๋ค๋ ๊ฒ์ ๋ก๋ด์ ๋ชจ์ ๋ฐ์ดํฐ๋ผ๊ณ ํด์ ๋ก๋ด์ ๊ตฌ์ฑํ๊ณ ์๋ ๋ชจ๋ joint๋ค์ ์์ง์์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ก๋ด์ ๋ชธ์ฒด์ ๋ํ ์ ๋ณด๋ง ์๋ ๋ชจ์ ๋ฐ์ดํฐ๋ง ์๋ ๊ฒ์ ๋งํฉ๋๋ค.
๋ง๋ก๋ง ๋ค์ผ๋ฉด ์ ์๋ฟ์ง ์๊ธฐ ๋๋ฌธ์ ์์ ์ฌ์ง์์ ํ ์ฐ๊ตฌ์๊ฐ backflipํ๋ demonstration ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ ์ํด ๋ก๋ด์ ๋ค๊ณ ์์ผ๋ก ๊ทธ๋ฅ ํ๋ฒ ๋ค์ง์ด์ฃผ๋ ๋ชจ์ต์ ๋ณด๋ฉด์ ๋ค์ํ๋ฒ ์ค๋ช ์ ํด๋ณด๊ฒ ์ต๋๋ค. ์์ ์ค๋ช ํ๋ฏ์ด ๋ก๋ด์ด backflipํ๋ ์๋์ ํด์ ๋ฐ์ดํฐ๋ฅผ ์ป์ง ์๊ณ ์ฌ๋์ด ๋จ์ํ ๋ก๋ด์ ๋ค๊ณ ์ํ๋ ๋ชจ์ ์ demonstration ๋ฐ์ดํฐ๋ฅผ ์ป์ต๋๋ค. ์ฌ๊ธฐ์ Backflip demonstration ๋ฐ์ดํฐ๋ ๋ก๋ด์ 12๊ฐ์ joint๋ค์ ๋ํ ์ ๋ณด๋ ์์ด ๋ชธ์ฒด์ ๋ํ ์ ๋ณด(base linear, angular velocity, projected gravity, base height)๋ง์ ํฌํจํ๊ฒ ๋ฉ๋๋ค. ์ฌ๊ธฐ์ demonstration ๋ฐ์ดํฐ์ ๋ํ ๋๋ผ์ด ์ ์ ๋ก๋ด์ด ์ง์ ์์ง์ฌ์ ์ป์ ๋ฐ์ดํฐ๋ ์๋๊ณ ์ค์ ๋๋ฌผ์ ๋ชจ์ ๋ฐ์ดํฐ๋ ์๋๊ธฐ ๋๋ฌธ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก๋ ์๊ฐ์ ์ผ๋ก๋ ๋ก๋ด ํ๋ซํผ์์๋ ์ฌ์ค์ ๋ฐ๋ผํ๊ธฐ ์ด๋ ค์ด ๋ฐ์ดํฐ๋ผ๋ ๊ฒ์ ๋๋ค. ์ด๋ฐ demo ๋ฐ์ดํฐ๋ง ์๋ค๊ณ ๋ฌธ์ ์ํฉ์ ๊ฐ์ ํ ์ด์ ๋ backflip๊ณผ ๊ฐ์ด ๋ค์ด๋๋ฏนํ๊ณ ๋ค์ํ ๋ชจ์ ์ ๋ํด์๋ reference๊ฐ ๋ ๋งํ motion data๋ฅผ well-definedํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ด์ฏค์์ ๋ค์ํ๋ฒ AMP์ WASABI๋ฅผ ๋ค์ ๋น๊ตํด๋ณด๋ฉด, ๋๊ฐ์ง ๋ฐฉ๋ฒ ๋ชจ๋ expert์ action์ด ์์ด๋ reference๊ฐ ๋ ์ ์๋ motion data(ํน์ demonstration)๋ฅผ ๊ฐ์ง๊ณ reward engineering์ ์ํด์ ๋ชจ์ ์ ์ด๋ฅผ ํ ์ ์์๋ค๋ ์ ์์ ๊ณตํต์ ์ด ์์ต๋๋ค. ํ์ง๋ง AMP๋ well-definedํ ๋ชจ์ ๋ฐ์ดํฐ๊ฐ ์์ด์ผ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ์ธ ๋ฐ๋ฉด WASABI๋ ๋ก๋ด์ ๋ชธ์ฒด์ ๋ํ partialํ ๋ชจ์ ๋ฐ์ดํฐ๋ง ์์ผ๋ฉด ํ์ตํ ์ ์์๊ณ AMP๋ ๋ชจ์ ์ ์ฃผ์ reward๋ฅผ ๋์์ธํ ๊ฒ์ด ์๋๋ผ ์์ฐ์ค๋ฌ์์ ์ํ ๋ณด์กฐ์ ์ธ style reward ๋์์ธ์ ํ๊ณ WASABI๋ ๊ฐ ๋ชจ์ ์ ๋ํ task reward๋ฅผ ๋์์ธ ํ ๊ฒ์ด ํฐ ์ฐจ์ด์ ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
Reward Design
Partialํ๊ณ Roughํ ๋ชจ์ demo๋ค์ ๊ฐ์ง๊ณ ์ด๋ป๊ฒ ํ๋ฉด ๋ค์ด๋๋ฏนํ ๋ชจ์ ์ ๋ํ reward๋ฅผ ์ ์ํ ์ ์์๊น์?
WASABI์์ ์ ์ํ ์ ์ฒด์ ์ธ ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ์ต๋๋ค. r^I, r^R, r^T ๋ผ๋ ๊ฐ๊ฐ์ reward๊ฐ ํฉ์ณ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋๋ฐ์ ์ด์ ๋ถํฐ ๊ฐ๊ฐ์ reward๊ฐ ์ด๋ค ์๋ฏธ์ ๋ชฉ์ ์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ธ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Imitation(Task) Reward
์ฐ์ , task reward๋ ๋ค์ด๋๋ฏน ๋ชจ์ ์ demo๋ฅผ ์ ๋ชจ๋ฐฉ(imitate)ํ ์ ์๋๋ก ํด์ผํ ๊ฒ ์ ๋๋ค. ๊ทธ๋์ imitation reward ํน์ task reward๋ก ๋ถ๋ฆฌ๋ฉฐ ์ฌ๊ธฐ์ WGAN ๋ฐฉ๋ฒ์ ์ด์ฉํด์ ์ ์ํ๊ฒ ๋๋ ๋ถ๋ถ์ ๋๋ค. ๋ค์ํ๋ฒ ์ด์ผ๊ธฐํ์ง๋ง ์ฐ๋ฆฌ๊ฐ backflip์ ํ๋ ํ์ต์ ํ๊ธฐ ์ํด์ ๋ก๋ด์ ๋ชธ์ฒด๋ฅผ ๊ณต์ค์ ์ฌ๋ฆฌ๊ณ pitch ๋ฐฉํฅ์ผ๋ก์ ํ์ ์ 360๋ ํด์ผํด!๋ผ๊ณ ๋งํด์ฃผ๋ imitation reward function(hand-designed)์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ demo(true) distribution์ ๋ณด๊ณ ์ด๋ฅผ ๋ฐ๋ผ๊ฐ๋ generated distribution์ policy๊ฐ ํ์ตํ ์ ์๋๋ก ํ๋ ๊ฒ์ด ์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ ๋๋ค.
์ ๊น ์์์ ์ด์ผ๊ธฐ ํ๋ฏ์ด ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ demo ๋ฐ์ดํฐ๋ well-definedํ ๋ฐ์ดํฐ๊ฐ ์๋ ์ฌ๋์ด ๋ก๋ด์ ๋ค๊ณ ๋ชจ์ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ ๋ก๋ด์ base์ ๋ํ ๋ฐ์ดํฐ(O)๋ก ํ์ ์ ์ ๋๋ค. ํ์ง๋ง policy์์ generated๋ observation ๋ฐ์ดํฐ(S)๋ ๋ก๋ด์ ๊ฐ joint์ ๋ํ ์ ๋ณด ๋ฑ ๋ ๋ง์ ์ ๋ณด๊ฐ ์๋ vector space์ด๊ธฐ ๋๋ฌธ์ true distribution๊ณผ generated distribution์ ๋น๊ต๊ฐ๋ฅํ ์ํ๋ก ๋ง๋ค์ด์ฃผ๊ธฐ ์ํด Mapping function \phi๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์ถฐ์ค๋๋ค. ์ฝ๊ฒ ์๊ฐํ์๋ฉด ์ ๋ณด๋์ด ๋ ๋ง์ S๋ฅผ ์ฐจ์์ด ์ ์ O๋ก ๋ง์ถฐ์ฃผ๊ธฐ ์ํด joint position, velocity, last action๊ณผ ๊ฐ์ ๋ถ๋ถ์ ๊ฐ๋ฆฌ๊ณ data distribution์ Discriminator์๊ฒ ๋๊ฒจ์ฃผ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
mapping function์ ํตํด ์ฐจ์์ ๋ง์ถ \phi(s) ์ o๋ GAN์ objective function์์ Discriminator์ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๋ seq. of states(observations)์ด๋ฉฐ ์๋์ ๊ฐ์ด ์ผ์ time horizon H๋์ ๋ชจ์์ง states ๋ฒกํฐ๋ค๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ seq. of states๋ค์ ๊ฐ์ง๊ณ Discriminator๊ฐ ๋ง๋ reward distribution์ ๊ฐ๊ฐ LSGAN(Least Squares GAN)๊ณผ WGAN์ objective function์ผ๋ก ์๋์ ๊ฐ์ด ๋ํ๋ด ๋ณผ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ LSGAN์ WGAN์ ๋น๊ต๊ตฐ์ด ๋๋ ๋ ๋ค๋ฅธ GAN์ ์๊ณ ๋ฆฌ์ฆ์ด๋ฉฐ LSGAN์ Objective function์ ํด์ํด๋ณด๋ฉด, policy์์ ๋์จ state history๋ฅผ ๊ฐ์ง๊ณ ๋์จ reward distribution์ -1์ ๊ฐ๊น๋๋ก demo๋ฅผ ํตํด ๋์จ reward distribution์ +1์ ๊ฐ๊น๋๋ก ํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, WGAN์ ์ด ๋ ๋ถํฌ๊ฐ์ wasserstein distance ์ค์ด๋๋กํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํฉ๋๋ค. ๋ ๊ฐ์ง GAN ๋ชจ๋ policy์์ ๋์จ seq. of states๋ก ๋์จ task reward distribution์ demo์ seq. of states๋ก ๋์จ task reward distribution์ ๋ง์ถฐ๊ฐ๋๋ก ํ์ตํ๋ ๊ฒ์ ๊ณตํต์ ์ ๋๋ค.
์ด๋ ๊ฒ Discriminator๋ฅผ ํตํด ๋์จ task reward๋ ๋ฐ๋ก ์ฌ์ฉ๋๋ ๊ฒ์ด ์๋๊ณ zero-mean unit-variance๋ก ๋ง๋ค์ด์ฃผ๋ ๊ณผ์ ์ ํ๋ฒ ๊ฑฐ์น ํ ๋น๋ก์ Task(Imitation) Reward๋ก ๋ง๋ค์ด์ง๋๋ค.
Regularization Reward
์ด์ ์ AMP์์์ Style reward์ ์ญํ ์ WASABI์์๋ Regularization Reward๊ฐ ๋์ ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด reward๋ task-dependentํ์ง ์์ task-agnosticํ term๋ค๋ก ์ด๋ฃจ์ด์ ธ ์์ด์ backflip ๋ชจ์ ์ ํ๋ locomotion ๋ชจ์ ์ ํ๋ ๋ก๋ด์ ์์ฐ์ค๋ฝ๊ณ ์๋์ง ํจ์จ์ ์ธ ๋ชจ์ ์ ์ํด ๋ถ๊ฐ์ ์ผ๋ก ๋ํด์ง๋ reward๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
Termination Reward
๋ง์ง๋ง์ผ๋ก agent๊ฐ ๋ชจ์ ์ ์ถฉ๋ถํ ํ์ตํ๊ธฐ๋ ์ ์ episode๋ฅผ ๋ ๋นจ๋ฆฌ ๋๋ด๋ ๊ฒ์ด ์ด๋์ด๋ผ ํ๋จํ๊ณ ํ์ต์ด ์ ์ด๋ฃจ์ด์ง์ง ์๋ ๊ฒฝ์ฐ๋ฅผ ๋ฐฉ์งํ๊ณ ์ Termination Reward๋ฅผ ์ถ๊ฐํด์ฃผ์์ต๋๋ค. T๋ episode๋ฅผ ๋๋ฌด ๋นจ๋ฆฌ ๋๋ด๋ฒ๋ฆฐ ๊ฒฝ์ฐ์ ๋ํด์ 0 ๋๋ 1๋ก ํ๋จํ๋ ์ธ๋์ผ์ดํฐ ์ญํ ์ ํ๊ฒ ๋๊ณ , termination์ ๋ํ ๊ณ ๋ ค๋ Imitation reward์ ๋ถํฌ์์ ๋์จ \sigma์ ํ ์ธ์จ \gamma๋ฅผ ๊ณ ๋ คํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ์ ํด์ฃผ๊ฒ ๋ฉ๋๋ค.
Total Reward
์์ ์ค๋ช ํ Imitation reward r^I, Regularization reward r^R, Termination reward r^T๋ฅผ ๋ชจ๋ ํฉ์ฐํ์ฌ Total reward๊ฐ ๊ณ์ฐ๋๊ฒ ๋๊ณ ์ด๋ฅผ Agent์๊ฒ ํ์ต ํผ๋๋ฐฑ์ผ๋ก ๋ณด๋ด์ฃผ๊ฒ ๋ฉ๋๋ค. ์ด๋ r^I์ r^T๋ ๋ชจ์ task ๋ง๋ค ๋ค๋ฅด๊ฒ ์ ์๋ ์ ์๋ ๋ถ๋ถ์ด๋ฏ๋ก task-relatedํ ๋ถ๋ถ์ด๋ผ๊ณ ๋ณผ ์ ์์ผ๋ฉฐ r^R๋ ์ด๋ค ๋ชจ์ task์ธ์ง ์๊ด์์ด ํญ์ ๋์ผํ reward term์ด๊ธฐ ๋๋ฌธ์ task-agnosticํ ๋ถ๋ถ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๋ฌผ๋ก ์ฌ๊ธฐ์ ํด๋น ์ฐ๊ตฌ์ contribution์ด ๋๋๋ฌ์ง ๋ถ๋ถ์ Imitation reward r^I์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
Result
์คํ์์ ์ฌ์ฉํ ๋ก๋ด ํ๋ซํผ์ Solo 8์ด๋ผ๋ 4์กฑ ๋ณดํ ๋ก๋ด์ ๋๋ค. ๋ก๋ด์ ๊ฐ ๋ค๋ฆฌ๋ 2๊ฐ์ joint๊ฐ ์๊ณ ์ํ์ข์ฐ ๋์นญ์ ์ผ๋ก ๋ค๋ฆฌ์ joint๋ฅผ ๊บพ์ ์ ์์ผ๋ฉฐ ๋ค๋ฅธ 4์กฑ ๋ณดํ ๋ก๋ด๋ค์ ๋นํด ๋น๊ต์ ์ํ ํ๋ซํผ์ด๊ณ jumping์ด ๊ฐ๋ฅํ๋ค๋ ํน์ง์ ๊ฐ์ง ์คํ ์์ค ํ๋ซํผ์ ๋๋ค.
์ด 4๊ฐ์ง ๋ชจ์ task๋ฅผ ์คํํ์ผ๋ฉฐ ๊ฐ๊ตฌ๋ฆฌ์ฒ๋ผ ํด์งํด์ง ๋ฐ๋ ๋ฏํ LEAP, ๋ชธ์ฒด๋ฅผ ์จ์ด๋ธ ํ๋ฏ ์์ง์ด๋ฉด์ ๊ฑท๋ WAVE, ๋ท ๋ค๋ฆฌ 2๊ฐ๋ฅผ ๊ฐ์ง๊ณ 2์กฑ ๋ณดํ์ผ๋ก ์๋ STANDUP, ๋ง์ง๋ง์ผ๋ก ๊ณต์ค์์ 360๋ ๋๋ BACKFLIP๊น์ง 4๊ฐ์ ๋ชจ์ ์ ํ์ตํ์ต๋๋ค.
Induced Imitation Reward Distributions
์ฐ์ Imitation Reward Distribution์ด ์ ๋ง ์๋ฏธ์๊ฒ ํ์ต์ ํ๋๊ฐ(Informativeํ reward distribution์ ๋ง๋ค์ด ๋๋๊ฐ)๋ฅผ ๋ณด๊ธฐ ์ํด reward distribution์ ์๊ฐํํด๋ณด์์ต๋๋ค. ๋จผ์ Informativeํ ๋ถํฌ๋ผ๋ ๊ฒ์ ์ด๋ค ๋ถํฌ๋ฅผ ๋งํ๋๊ฐ๋ฅผ ์ง์ด๋ณผ ํ์๊ฐ ์์ต๋๋ค. ์๋ ์ฌ์ง์ ์ค๋ฅธ์ชฝ 2๊ฐ์ ๋ถํฌ ๊ทธ๋ํ์์ ํํํ ๋ถํฌ(ํ๋์)๋ณด๋ค๋ ๋พฐ์กฑํ ๋ถํฌ(์ด๋ก์)๊ฐ ์ฌ๋ฌ x๊ฐ๋ค์ ๋ํด ๋ถ๋ณ์ ์ธ y๊ฐ(ํ๋ฅ )์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ informativeํ๋ค๊ณ ํ ์ ์์ต๋๋ค.(๋ ์์ธํ ๋ด์ฉ์ ์ ๋ณด์ด๋ก ์ ์ดํด๋ณด์ ๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.)
์ผ์ชฝ์ 2๊ฐ์ ๊ทธ๋ํ๋ ๊ฐ๊ฐ LSGAN๊ณผ WGAN(WASABI)๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ์ ๋, O์ ์์๋ค ์ค ๊ณ ์ ๋ pitch rate(\dot\theta)์ height(z)๋ฅผ ๊ฐ์ง๊ณ Imitation reward ๋ถํฌ๋ฅผ ์๊ฐํํ ๊ทธ๋ํ์ ๋๋ค. LSGAN๋ณด๋ค WGAN์ผ๋ก ํ์ตํ ๋ถํฌ๊ฐ reward range๋ ๋ ๋๊ณ ๋ ๊ตฌ๋ถ๋๋ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก ์ธ๋ฒ์งธ ๊ทธ๋ํ๋ ํ์ต ๊ณผ์ ์ค์ r^I์ ๋ถํฌ๋ฅผ ๊ทธ๋ฆฐ ๊ฒ์ผ๋ก LSGAN์ -1๊ณผ 1, ๊ฐ๊ฐ์ผ๋ก reward targeting์ ํ๊ฒ ๋๋ objective function์ ๊ฐ์ง๊ณ ์์๊ธฐ ๋๋ฌธ์ ๋๊ณ ๋ค์ํ reward distribution์ ๊ฐ์ง์ง ๋ชปํ ๋ชจ์ต์ ๋ณผ ์ ์๊ณ ๊ทธ์ ๋ฐํด WGAN์ ์ฝ -5~2 ์ ๋์ range๋ฅผ ๊ฐ์ง๋ ๋์ reward distribution์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค๊ณ ํฉ๋๋ค.
Learning to Mimic Rough Demonstrations
๊ทธ๋ผ ์ ๋ง๋ก Demo ๋ชจ์ ๋ฐ์ดํฐ๋ค์ ์ผ๋งํผ ์ ๋ฐ๋ผ ํ์ตํ ์ ์์์๊น์? ์ด์ ๋ํ ์งํ๋ ๋จ์ํ reward๊ฐ ๋๋ค๊ณ ํ๋จํ ์ ์๋ ๊ฒ์ด ์๋๋ผ ๋ชจ์ ์ ์ ์ฌ์ฑ์ ํ๋จํ ์ ์๋ ๋ค๋ฅธ metric์ด ํ์ํฉ๋๋ค.
Dynamic Time Warping
Dynamic Time Warping์ด๋ ๊ฐ ๋ฐ์ดํฐ์ ์๊ฐ์ ๊ธธ์ด๋ ๋ค๋ฅด๊ณ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์๋ ๋ค๋ฅธ 2๊ฐ์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ๋น๊ตํ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ธฐ์กด์ Euclidean distance๋ผ๋ฉด ์ธก์ ํ ์ ์๊ฑฐ๋ ์ ํํ ๋น๊ต๊ฐ ์ด๋ ค์ด ์ ์ DTW๋ฅผ ์ด์ฉํ๋ฉด ์๊ฐ์ ์ธ ๋ฐ๋ฆผ์ด๋ ์์ค๋ ๋ฐ์ดํฐ ํฌ์ธํธ๊น์ง ๊ณ ๋ คํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ๋จํ ์ ์์ต๋๋ค. ๋ฐ๋ก ์ด ๋ฐฉ๋ฒ์ ์ด์ฉํด์ ์ฌ๋์ด ๋ค๊ณ ๋ง๋ค์๋ demo์ ๋ชจ์ ๋ฐ์ดํฐ์ ์ค์ ํ์ต ํ policy์์ ๋ง๋ค์ด๋ธ ๋ชจ์ ๋ฐ์ดํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํด๋ณด์์ต๋๋ค.
\tau_\pi๋ policy์์ ๋ง๋ค์ด์ง trajectory๋ฅผ, \tau_M์ demo์์ ๋ฐ์จ trajectory๋ฅผ ๋งํ๋ฉฐ ์๋์ ์คํ ๊ฒฐ๊ณผํ๋ ๊ฐ๊ฐ WASABI์ LSGAN์์์ 4 task์ ๋ํ DTW๋ฅผ ๊ตฌํ ๊ฐ์ ๋ํ๋ด๊ณ ์์ต๋๋ค. DTW๊ฐ ๋ฎ์์๋ก demo ๋ฐ์ดํฐ์์ ์ ์ฌ์ฑ์ด ๋์ ๊ฒ์ด๋ฉฐ ์ ๋ชจ์ ์ ๋ฐ๋ผ ํ์ตํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.(์๋ Stand Still์ ๋จ์ํ ๊ฐ๋งํ ์ ์๋ ๋ชจ์ ์ ๋ฐ์ดํฐ์ demo ๋ฐ์ดํฐ ๊ฐ์ DTW ๊ฐ์ ๋ํ๋ธ ๊ฒ์ด๋ฉฐ ๋น๊ต๋ฅผ ์ํ DTW์ ์ต๋ ์ํ์ ์ ๋ํ๋ธ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.)
Handcrafted Task Reward
๋ ๋ค๋ฅธ ์งํ๋ก๋, ํด๋น ๋ชจ์ task์ ๋ํ Handcrafted task reward๋ก ์ ์๋ฅผ ๋งค๊ฒผ์ ๋ ๊ทธ ์ ์๊ฐ ๋ ๋๋ค๋ฉด ํด๋น ๋ชจ์ ์ ์ ํ์ตํ๋ค๊ณ ํ๋จํ๋ ์งํ๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด STANDUP์ ๋ชธ์ฒด์ pitch angle์ด 90๋์ ๊ฐ๊น๊ณ ๋ชธ์ฒด์ ๋์ด๊ฐ ๋๊ณ ๋ชธ์ฒด์ z์ถ์ด ์ค๋ ฅ๋ฐฉํฅ์ ์์ง์ด ๋๋ ์ํ๋ผ๋ฉด ํด๋น ๋ชจ์ ์ ์ ์ํํ๊ณ ์๋ค๊ณ ๋ณผ ์ ์์ ๊ฒ ์ ๋๋ค. ์ด์ฒ๋ผ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ชจ์ ์ ๋ํ Handcrafted task reward๋ฅผ ๊ณ์ฐํด์ ํ์ต iteration ๋ง๋ค ๊ทธ๋ ค๋ณด๋ฉด ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด WASABI๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ reward ์ ์๊ฐ ๋์ฒด์ ์ผ๋ก LSGAN์ ๋นํด ๋์ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์๋ ํ์์๋ ํ์ต์ ๋๋ธ ํ ๊ฐ task์ ๋ํ handcrafted reward ์ ์์ด๋ฉฐ ๋งจ ์๋ ์ ์๋ ์ต๊ณ ์ํ ๊ธฐ์ค ์ ์๋ก ๋ณผ ์ ์์ต๋๋ค. ํ์์ ๋ณผ๋์ฒด๋ก ํ์๋ ๋ถ๋ถ์ roll-out์ ํ์ ๋ ๋ชจ์ ์ ๋์ผ๋ก ํ์ธํ ๊ฒฐ๊ณผ ์ ์ํํ๋ค๊ณ ํ๋จํ ๊ฒฝ์ฐ๋ฅผ ๋ํ๋ด๋ฉด WASABI๋ก ํ์ตํ 4๊ฐ์ง task ๋ชจ๋์์ ์ฑ๊ณต์ ์ธ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์์๋ค๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
Evaluation on Real Robot
ํ์ต์ด ์๋ฎฌ๋ ์ด์ ์์๋ง ๋ฉ์ถ๋ค๋ฉด ๋น์ฐํ ์๋ฏธ๊ฐ ์๋ ๊ฒ์ด๋ฏ๋ก ์ค์ ๋ก๋ด์ ๊ฐ์ง๊ณ ํด๋น policy์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ํ์ธํด๋ด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ WASABI๋ก ํ์ตํ policy๋ฅผ ๊ฐ์ง๊ณ ์ค์ ๋ก๋ด์ผ๋ก ์๋์ ํด๋ณด๊ณ ์ด๋ 10๊ฐ์ marker๋ฅผ ์ด์ฉํด์ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ป์ด DTW๋ฅผ ์ธก์ ํด๋ณด์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์์ ๋ณผ ์ ์๋ฏ์ด Sim-to-Real์ ํผํฌ๋จผ์ค ์ฐจ์ด๊ฐ ๊ฑฐ์ ์์๊ณ ์ค์ ๋ก๋ด์์๋ 4๊ฐ์ง task ๋ชจ๋ ๋ค ์ ์ํํ๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค. ์ด ๋ถ๋ถ์ ์คํ์์์์ ์ง์ ํ์ธํ ์ ์์ต๋๋ค.
Leap
Wave
Stand up
Backflip
Cross-platform Imitation
์ฌ์ค ๊ฐํํ์ต์ ํน์ ๋ก๋ด ํ๋ซํผ์์ ํ์ตํ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฅธ configuration์ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ์ ๋ฐ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ํ์ง๋ง WASABI ์๊ณ ๋ฆฌ์ฆ์ ์ฒ์์ Roughํ๊ณ Partialํ demo ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ ์ ์ฉํด๋ณด๋ ๊ฒ์ด ๊ฐ๋ฅํ์ผ๋ฉฐ ๊ธฐ์กด์ Solo 8 ๋ก๋ด ํ๋ซํผ์ ๊ฐ์ง๊ณ ํ์ตํ policy๋ฅผ ๋จ์ํ ๋ก๋ด ํ๋ซํผ์ ํฌ๊ธฐ ์ฐจ์ด๋ง์ ๊ณ ๋ คํ์ฌ base height๋ฅผ 0.25m ์กฐ๊ธ ๋ ํฐ๊ฐ์ผ๋ก ์์ ํด์ Anymal-C ๋ก๋ด ํ๋ซํผ์ ์ ์ฉํ์ ๋ ํน๋ณํ ์ถ๊ฐ์ ์ธ ํ์ต ๊ณผ์ ์์ด๋ ์ ์ฉํ ์ ์์๋ค๊ณ ํฉ๋๋ค. ์ด๋์๋ DTW ๊ฐ์ ์ฐ์ด์ ํ์ธํ ๊ฒฐ๊ณผ, ๋ฎ์ DTW ๊ฐ๊ณผ ํจ๊ป ์๋ฎฌ๋ ์ด์ ์ผ๋ก roll-out์ ํ์ ๋์ ๋ก๋ด์ด ์ ์๋๋๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค๊ณ ํฉ๋๋ค.
Conclusion
๋ก๋ด์ ๋ชจ์ ์ ์ด๋ฅผ ๊ฐํํ์ต์ผ๋ก ํ์ด๊ฐ๋ ค๊ณ ํ ๋ ๊ฐ์ฅ ์ด๋ ค์ด ๋ถ๋ถ์ธ task reward๋ฅผ ๋ ์ด์ handcrafted ์ ์ธ ๋์์ธ์ ์์กดํ์ง ์๊ณ reward distribution์ ๊ด์ ์ผ๋ก ์ ๊ทผํ์ฌ ์์ฑ ๋ชจ๋ธ ๋ถ์ผ์ ์์ด๋์ด์ธ GAN์ ์์ด๋์ด๋ฅผ ๋น๋ ค ์ ๊ทผํ ๊ฒ์ด ์ ๋ง ์ ์ ํ ๋ ผ๋ฌธ์ด์์ต๋๋ค. Policy๋ฅผ GAN์์์ Generator๋ก ๋ฐ๋ผ๋ณด๊ณ ๋ฌธ์ ๋ฅผ ๋์์ธํ ๊ฒ๋ ์ ๋ง ์ ๊ธฐํ์ผ๋ฉฐ ์ฌ๋ฌ๊ฐ์ง GAN ์๊ณ ๋ฆฌ์ฆ ์ค์์ LSGAN๊ณผ WGAN์ ์ฐจ์ด๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ฉฐ ๋น๊ต๋ฅผ ์์น์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ณ ํด์ํ ์ ๋ ์ธ์์ ์ธ ์ฐ๊ตฌ์์ต๋๋ค.
Reference
- Original Paper: Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations
- Original Project Homepage: CoRL2022-WASABI
- CoRL 2022 Oral Presentation
- Learning Quadrupedal Locomotion over Challenging Terrain
- Joonho Lee: Learning Quadrupedal Locomotion over Challenging Terrain
- Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning
- What Are GANs?
- 1์๊ฐ๋ง์ GAN(Generative Adversarial Network) ์์ ์ ๋ณตํ๊ธฐ
- CS 182: Lecture 19: Part 3: GANs
- GANs for Synthetic Data Generation
- An Open Torque-Controlled Modular Robot Architecture for Legged Locomotion Research
- DTW(Dynamic Time Warping)
- ํ์ด์ฌ ์ฝ๋ฉ์ผ๋ก ๋งํ๋ ๋ฐ์ดํฐ ๋ถ์ - 10. DTW (Dynamic time wrapping)
- Dynamic time warping 1: Motivation