๐K-Accessibility for RL
์ด๋ฒ ํฌ์คํ ์ ์ต๊ทผ ICRA(International Conference on Robotics and Automation) 2022์์๋ ๋ฐํ๋ Accessibility-Based Clustering for Efficient Learning of Locomotion Skills ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค. ๊ฐํํ์ต์ผ๋ก ๋ก๋ด ์ ์ด๋ฅผ ํ์ตํ ๋ ์ด๋ป๊ฒ ํจ์จ์ ์ผ๋ก initial state distribution์ ํ์ํ๋๋ก ๋ง๋ค์ด ์ค ์ ์์๊น?๋ผ๋ ์ง๋ฌธ์ K-means++ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ ์ฌํ K-Access๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ณ ์ํ์ฌ ํด๊ฒฐํ ๋ ผ๋ฌธ์ ๋๋ค. ํด๋น ๋ ผ๋ฌธ์์๋ quadruped robot์ Recovery์ Backflip ๋ชจ์ ํ์ต์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
1 Introduction
์ด ์ธ์์๋ ๋ง์ ๋ก๋ด๋ค์ด ์์ต๋๋ค. ๊ทธ ์ค ์กฑํ ๋ก๋ด(legged-robots), ์ฆ ๋ค๋ฆฌ ๋งค์ปค๋์ฆ์ ์ด์ฉํ์ฌ ์ง๋ฉด๊ณผ์ ์ํธ์์ฉ์ ํ์ฌ ์ด๋ํ๋ ๋ก๋ด๋ค์ ๋ฐํดํ ์ด๋ ๋ก๋ด(wheeled-robots)์ ๋นํด ๋ฐํด๋ก ๊ฐ๊ธฐ ํ๋ ์ธํ๋ถํํ ์งํ, ์ฐ์์ ์ด์ง ์์ ์งํ ์์์ ์ด๋ํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์กฑํ ๋ก๋ด๊ณผ ๋ฐํดํ ๋ก๋ด ๋ชจ๋ ์ด๋์ ๊ธฐ๋ณธ ์ ์ ๋ก ์ฌ๋์๊ฒ ์ ์ฉํ ๋ค์ํ task๋ฅผ ํ๋ ๊ฒ์ด ๋ชฉ์ ์ด๊ธฐ ๋๋ฌธ์ ์กฑํ ๋ก๋ด์ ์ด๋์ ๋ณดํ(locomotion) task, ๋ฐํดํ ๋ก๋ด์ ์ด๋์ ์ฃผํ(drive) task์ด๋ผ๊ณ ํฉ๋๋ค.
์กฑํ ๋ก๋ด์ ๋ํ์ ์ผ๋ก ์ฌ๋๊ณผ ๊ฐ์ ๋ณดํ์ ํ๋ 2์กฑ ๋ณดํ ๋ก๋ด๊ณผ ๊ฐ์์ง์ ๊ฐ์ ๋ณดํ์ ํ๋ 4์กฑ ๋ณดํ ๋ก๋ด์ผ๋ก ๋๋ ๋ณผ ์ ์๋๋ฐ ๊ทธ ์ค 2์กฑ ๋ณดํ ๋ก๋ด์ธ Digit๊ณผ ๊ด๋ จํ ์ฌ๋ฐ๋ ๋ด์ค ํด๋ฆฝ์ด ํ๋ ์์ด์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ ผ๋ฌธ์ ์ดํด๋ณด๊ธฐ ์ ์ ์๊ฐ๋๋ฆฝ๋๋ค.
์ ํ์ข์ฐ ์์ ๋กญ๊ฒ ์์ง์ด๊ณ ์ ์๋ฆฌ์์ ๋๊ฑฐ๋ ์ ํฌ๋ฆด ์ ์๋ ์ ์ฐ์ฑ โฆ ํ ๋ง๋๋ก ๊ณ ๋์ ๊ธฐ์ ์งํฉ์ฒด๋ผ๋ ์๋ฆฐ๋ฐ, โฆ ์ด์งธ ์ ์ ์๋๊ฐ ๋๋ ค์ง๋๊ฐ ์ถ๋๋ ๋ค๋ฆฌ๊ฐ ํ๋ฆฌ๋ฉด์ ์ฐ๋ฌ์ง๊ณ ๋ง๋๋ค.
โฆ ๋ฐ๋ํ ์ฐธ๊ฐ ์ ์ฌ๋ฌ ๋ ์ ๊ฑฐ์ณ ์ฝ 20์๊ฐ์ ๋ผ์ด๋ธ ํ ์คํธ๋ฅผ ์งํ โฆ 99%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์์๋ ๋ถ๊ตฌํ๊ณ ๋ ์ฌ๋๋ค์ด ๋ณด๋ ์์์ ์ด๋ฐ ์ฌ๊ณ ๊ฐ โฆ
๋ด์ค์์ ๋ณด์ ๊ฒ์ฒ๋ผ ๋ฐ๋ชจ๋ฅผ ๋งค์ฐ ์ค๋์๊ฐ ์ค๋นํ๊ณ ์ ๊ฒํ์์ง๋ง ์์ธกํ์ง ๋ชปํ ๋ณ์๋ก ์ธํด ๋ก๋ด์ด ๋์ด์ง๋ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฏธ ์ ๊ตฌ์ฑ๋ ๋ฐ๋ชจ ํ๊ฒฝ์์๋ ๋ฏธ์ฒ ์๊ฐ์ง ๋ชปํ ์ผ๋ก ์ธํด ๋ก๋ด์ด ๋์ด์ง๋๋ฐ ์ค์ ๋ก๋ด์ด ์ํ์ด ๋๋ค๋ฉด ๋ก๋ด์ด ๋์ด๊ฒ ๋๋ ํ๊ฒฝ์ ์ ๋ง ๋ค์ํด์ ์ ๋ ๋์ด์ง์ง ์์ ๊ฒ์ด๋ผ๋ ๋ณด์ฅ์ ํ๊ธฐ์ ์ด๋ ค์ธ ๊ฒ ์ ๋๋ค.
์์ ์กฑํ ๋ก๋ด์๊ธฐ๋ณธ ์ ์
๋ ์ด๋์ด๋ผ๊ณ ํ๋ฏ์ด Locomotion์ ๋ก๋ด์ Main task๋ผ๊ณ ๋ณผ ์ ์์ผ๋ฉฐ ๊ฑท๋
๋ชจ์
์ ์๊ฐํด ๋ดค์ ๋ ์ผ์ ํ ์ฃผ๊ธฐ๋ก ๊ฐ์ ๋ชจ์
์ด ๋ฐ๋ณต๋์ด ์งํ(cyclic)๋๋ ๊ฒ์ ํ์
ํ ์ ์์ต๋๋ค. ๋ํ Locomotion์ ์ค๋์๊ฐ ๋์ ๋๋ฌผ๋ค์ ๋ชจ์
๊ณผ ๊ฐ์ reference motion๋ค์ ํตํด ์ฐ๊ตฌ๋์ด ์ค๋ฉด์ ์ํ์ ์ธ ๋ชจ๋ธ๋ง์ด ์ ์ฐ๊ตฌ๋์ด ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก Locomotion์ ํน์ฑ์ ๊ฐํํ์ต์ policy๊ฐ ํ์ตํด์ผ ํ๋ ๋ก๋ด์ joint ์ ์ด์ธก๋ฉด์์ search space๋ก ํ์
ํด๋ณธ๋ค๋ฉด, Narrowํ search space๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ํํํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด Recovery๋ ์ง์์ ์ธ ์ด์ฉ์ ๋ท๋ฐ์นจํด์ฃผ๋ Support Task์ด์ Non-cyclicํ ๋ชจ์
์ ์๊ตฌํ๋ task๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๋์ด์ง ์ ๋ณต ์์ธ์์ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์ ์ ์ํ๋ก ํ๋ณตํ๋ผ๊ณ ๋ชจ์
์ ํ์์คํ
๋ณ๋ก ์ ์ํ๊ธฐ๊ฐ ์ด๋ ค์ฐ๋ฉฐ ๋ณด๋ค Broadํ search space๋ฅผ ๊ฐ์ง๊ณ ์๋ task ์
๋๋ค.
Locomotion๊ณผ Recovery์ ๋ํ ๋น๊ต๋ ์ด์ ์ ์์ฑํ ํฌ์คํ ์์๋ ํ๋ฒ ๋ค๋ฃฌ ์ ์ด ์์ผ๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.)
1.1 Initial state distrubutions
์์ Locomotion๊ณผ Recovery๋ฅผ ๋น๊ตํ๋ฉฐ ์ดํด๋ณด์๋๋ฐ ๊ฐํํ์ต์ผ๋ก ํ๋ ๋ก๋ด ์ ์ด์ ๊ด์ ์์ ๋งค์ฐ ํฐ ์ฐจ์ด์ ํ๋๊ฐ ๋ ์์ต๋๋ค. ๋ฐ๋ก Initial State Distribution, ๊ฐํํ์ต์ Robot Agent๊ฐ ํ์ต Episode๋ฅผ ์์ํ๋ ๋งจ ์ฒ์์ State๋ค์ ๋ถํฌ์ ๋๋ค. Locomotion์์๋ command(์ปจํธ๋กค๋ฌ๋ก ์กฐ์ํ๋ ๋ก๋ด์ desired velocity ํน์ ๊ฐ๋จํ๊ฒ ๋ฐฉํฅํค ์กฐ์์ผ๋ก ์๊ฐํ ์ ์์)๋ฅผ ๋ฐ๋ผ ์์ง์ด๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ Initial State๋ก ๋ก๋ด์ standing ์์ธ๋ฅผ ๊ฐ์ง๊ณ ํ์ต Episode๋ฅผ ์์ํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ฉด Recovery๋ ๋ก๋ด์ด ๋์ด์ง ์ํฉ(์์ธ)๊ฐ ๊ฐ Episode์ Initial State๊ฐ ๋ฉ๋๋ค. ๋์ด์ง ์์ธ๋ ๋งค์ฐ ๋ค์ํ๊ธฐ ๋๋ฌธ์ ์ด๋ค ๋์ด์ง ์์ธ๋ ์ ์์ํ๋ก ํ๋ณตํ๊ธฐ๊ฐ ์๋์ ์ผ๋ก ์ฌ์ด ๋ฐ๋ฉด, ์ด๋ค ์์ธ๋ ์ ์์ํ๋ก ํ๋ณตํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ Recovery task์์๋ RL(Reinforcement Learning) agent๊ฐ Initial State Distribution์ ์ ํ์ํ๊ณ ํ์ตํ ์ ์๋๋ก ๋ง๋ค์ด์ฃผ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค.
์ ์ฌ์ง์์ ์ฒ๋ผ RL Agent๊ฐ ํ์ํด์ผํ๋ ์ ์ฒด State Space์ ์ด๋ค ํ Initial state(ํน์ Initial pose, orange dot)์ ์ ์ฌํ state๋ค์ ์งํฉ ์์ญ Effective Exploration Region(EER)์ ์ฃผํฉ์ ์ ์์ญ์ผ๋ก ํ์ํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ์ฃผํฉ์ ์ ์์ ์์ญ์ State๋ค์ ์ ์ค์ฌ์ ํ๋์ Initial State๋ฅผ ํ์ํ๊ณ ํ์ตํ๊ณ ๋๋ฉด ์ด๋ ต์ง ์๊ฒ ๊ฐํํ์ต Policy๊ฐ ์ ํ์ตํ ์ ์๋ State๋ค์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. Case 1์ ์ ์ฒด ํ์ํด์ผ ํ๋ State Space๋ฅผ ๋นํ์ ์ต์ํํ๋๋ก ๋ง์ Initial state๋ฅผ ํ์ตํ์ง๋ง ๊ฐ EER๋ค์ด ๋ง์ด ์ค๋ณต๋์ด ํ์ต๋๊ธฐ ๋๋ฌธ์ ํ์ต ํจ์จ์ด ๋งค์ฐ ๋จ์ด์ง๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. Case 2์์๋ ์ ์ Initial state๋ก ํ์ตํด์ State Space๊ฐ ์ ์ปค๋ฒ๋์ง ์์์ ๋ฟ๋ง ์๋๋ผ ๋ชฉํ๋กํ๋ Target State
๋ ์ ํ์ต๋์ง ์์ ํ์ต Policy์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋จ์ด์ง๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. Case 3๋ ๋ชฉํ๋กํ๋ Target State
๋ EER์ ๋ค์ด๊ฐ์ Policy๊ฐ ํ์ตํ state๋ผ๊ณ ํ ์ ์์ง๋ง ์ ์ฒด State Space์์ ์ปค๋ฒ๋์ง ๋ชปํ state๋ค์ด ์๊ธฐ ๋๋ฌธ์ Corner case๋ค(Policy๊ฐ ์ ์๋๋์ง ์๋ ๊ฒฝ์ฐ)์ด ์์ด Policy์ robustness๊ฐ ๋จ์ด์ง๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ๊ฐ์ฅ ์ด์์ ์ธ ์ํฉ์ Case 4์์์ฒ๋ผ Target State๋ EER์ ๋ฒ์ฃผ์ ๋ค์ด๊ฐ ์๊ณ ์ ์ฒด State Space๋ ์ ์ ํ ์์ Initial State๋ค๋ก ํ์๋์ด Policy์ Robustํ ์ํฉ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
1.2 Pose of Quadruped Robots
๊ทธ๋ ๋ค๋ฉด Initial State, ์ฆ 4์กฑ ๋ณดํ ๋ก๋ด์ ์์ธ(pose)๋ ์ด๋ป๊ฒ ํํํ ์ ์์๊น์? ์ ๋ณต๋ ์ํฉ์ ๋์ด์ ธ ์๋ ๋ก๋ด์ ์์ธ๋ก ํํํ ์ ์์ ๊ฒ ์ ๋๋ค.
์ ๋ณต๋ ์ํฉ์ ์์ง์์ด ์๋ ๋์ด์ง ์ ์ (Static) ์ํฉ์ด๋ผ ๊ฐ์ ํ๊ณ ๋ก๋ด์ ์ํฉ์ ๋ค์๊ณผ ๊ฐ์ด 2๊ฐ์ง ์ ๋ณด๋ก ํํํ ์ ์์ต๋๋ค. ์ฒซ๋ฒ์งธ๋ก๋ ๋ชธ์ฒด์ ๊ธฐ์ธ์ด์ง์ ํํํ๋ Projected gravity vector๋ก ์ง๊ตฌ ์ค๋ ฅ ๋ฐฉํฅ์ ๋ฒกํฐ๋ฅผ (0, 0, -1)
์ด๋ผ๊ณ ํ์ ๋, ๋ก๋ด ๋ชธ์ฒด์ ํ๋ ์์ gravity vector๋ฅผ projectionํ๊ณ normalizedํ 3์ฐจ์์ ๋ฒกํฐ ์ ๋ณด๋ ๋ชธ์ฒด์ ๊ธฐ์ธ์ด์ง์ ํํํ ์ ์์ต๋๋ค. ๋๋ฒ์งธ ์์๋ ๋ก๋ด์ ๊ฐ ๋ค๋ฆฌ์ 3๊ฐ์ฉ ๋ฐฐ์น๋์ด ๊ด์ ์ด ๋๋ 12๊ฐ์ revolute joint(motor) angle ์
๋๋ค.
1.3 Distance between poses
Pose๋ฅผ ์ ์ํ ๋ค์์ผ๋ก ์ดํด๋ณผ ๋ถ๋ถ์ ์ฌ๋ฌ pose๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ ์ ์์๊น์ ๋ํ ๋ถ๋ถ์ ๊ณ ๋ฏผํด๋ณผ ์ ์์ต๋๋ค. ์ฌ๋ฌ pose๋ค ๊ฐ์ ๊ฐ๊น๋ค(๋น์ทํ๋ค)
, ๋ฉ๋ค
๋ฅผ ํ์
ํ๊ธฐ ์ํด์๋ ๊ฑฐ๋ฆฌ(Distance)๋ฅผ ์ ์ํ ์ ์์ด์ผ ํฉ๋๋ค. ๊ฐ์ฅ ์ง๊ด์ ์ผ๋ก pose๋ฅผ ์ด๋ฃจ๊ณ ์๋ ์์๋ค ๊ฐ์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์์ ์ ์ ์ธ ์์ธ๋ฅผ ๊ตฌ์ฑํ๋ Projected gravity vector
์ Joint angles
์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํด์ ๋์จ ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก pose๊ฐ ์๋ก ๋น์ทํ๋ค, ๋ง์ด ๋ค๋ฅด๋ค๋ฅผ ํ๋จํ ์ ์์ ๊ฒ ์
๋๋ค.
ํ์ง๋ง ๊ทธ๋ฆผ์์์ ์์๋ฅผ ํตํด ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๊ฐ Non-senseํ๋ค๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. 3๊ฐ์ง ์์ธ, Backward Leaning(B)
, Forward Leaning(F)
, Lying(L)
๋ฅผ ๊ฐ์ง๊ณ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํด๋ณด๋ฉด B-F์ ๊ฑฐ๋ฆฌ๊ฐ F-L์ ๊ฑฐ๋ฆฌ๋ณด๋ค ํฐ ์์น์ธ ๊ฒ์ ํ์ธํด๋ณผ ์ ์์ต๋๋ค. ํ์ง๋ง ๋ก๋ด์ ์ง์ ์ ์ดํด์ ์์ธ๋ฅผ transitionํ๋ค๊ณ ์๊ฐํ์ ๋, F์์ B๋ก์ transition์ด F์์ L๋ก์ transition์ด ํจ์ฌ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋จ์ํ๊ฒ ๊ตฌ์ฑ ์์๋ค์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ก pose๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์ํ๋ ๊ฒ์ ์ ์ด์ ์ธ ์ธก๋ฉด์์ ๋ง์ด ๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
2 Motivation & Contribution
๋์
๋ถ๋ถ์์ ํ์
ํ๋ Recovery task์ ํน์ฑ๊ณผ pose๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ํ ์๋ก์ด metric์ ํ์์ฑ์ motivation
์ผ๋ก ์๋์ ๊ฐ์ contribution
์ ํ์
ํด๋ณผ ์ ์์ต๋๋ค.
Euclidean distance๋ณด๋ค ์ ์ด์ ์ธ ์ธก๋ฉด์์ pose๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ metric์ด ๋ ์ ์๋ Accessibility ๋ฅผ ์ ์
Accessibility๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐํํ์ต์ ํจ์จ์ ์ผ๋ก ํ ์ ์๋๋ก(State Space ํ์์ ์ํ๋๋ก) Initial State๋ฅผ ์ ํ ์ ์๋ K-Access ์๊ณ ๋ฆฌ์ฆ์ ์ ์
3 Method
Overview
์ ์ฒด์ ์ธ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ด ํฌ๊ฒ 4๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค.
- Sampling Static Poses: ์ ๋ณต๋ ์ ์ ์์ธ๋ฅผ ์ํ๋งํฉ๋๋ค.
- Estimating Accessibility Values: ์ํ๋ง๋ ์ ๋ณต ์์ธ๋ค ๊ฐ์ ๊ฑฐ๋ฆฌ metric์ธ Accessibility Matrix๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- Clustering: ์ธก์ ํ Accessibility๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Initial state๋ค์ ํด๋ฌ์คํฐ๋งํฉ๋๋ค.
- Learning: Cluster์ Centroid pose๋ฅผ initial state๋ก Recovery(ํน์ Backflip)์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ตํฉ๋๋ค.
3.1 Sampling Static Poses
์ ๋ณต๋ ๋ค์ํ ์์ธ๋ค์ ์ํ๋งํ๊ธฐ ์ํด์ ๋ก๋ด์ base frame์ roll, pitch ๊ฐ๋๋ฅผ ์ผ์ ๋ฒ์์์ ๋๋คํ๊ฒ ์ํ๋งํ๊ณ 12๊ฐ์ joint position๋ ๋ก๋ด์ configuration์ ๊ณ ๋ คํ์ฌ upper/lower limit range์ ์๋ ๊ฐ๋๋ก ์์ธ๋ฅผ setํด์ ์ ๋ณต๋ ์์ธ๋ฅผ ๋ง๋ญ๋๋ค. (์ด๋ yaw ๋ฐฉํฅ์ flat terrain์์ ์๋ฏธ๊ฐ ์๊ธฐ ๋๋ฌธ์ 0์ผ๋ก ์ ํ ํฉ๋๋ค.) ์ํ๋ง๋ ์์ธ๋ก pose๋ฅผ set ํ์ ๋ self-collision์ ํ์ธํ ๋ค self-collision์ด ๋์ง ์์ ์์ธ 2.4k๊ฐ๋ฅผ sampling ํฉ๋๋ค.
3.2 Estimating Accessibility Values
์ ๋จ๊ณ์์ ์ํ๋งํ 2.4k๊ฐ์ pose๋ค ์ค 1000๊ฐ๋ง ๊ฐ์ง๊ณ Accessibility๋ฅผ ์ธก์ ํ๊ฒ ๋ฉ๋๋ค. ์ฐ์ 2.4k๊ฐ ์ค 1000๊ฐ๋ง ๊ฐ์ง๊ณ ์งํํ๋ ์ด์ ๋ ํ์ต ์ดํ Policy๋ฅผ ํ ์คํธํ๊ธฐ ์ํ Initial state๋ก ์ฌ์ฉํ๊ธฐ ์ํด์ 1.4๊ฐ์ pose๋ ๋จ๊ฒจ๋๋ ๊ฒ ์ ๋๋ค. ์์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๊ฐ metric์ผ๋ก์จ ์ข์ง ์์ ์ ์ ์์๋ฅผ ๋ณด๋ฉฐ ํ์ธํ ์ ์์๊ธฐ์ ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ๋์ฒดํ metric์ผ๋ก Accessibility๋ผ๋ ๊ฐ๋ ์ ์ ์ํฉ๋๋ค.
์์ ์์๋ ์ด๋ค pose A
์์ pose B
๋ก์ Accessibility๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค. ํน์ pose์์ ๋ค๋ฅธ ํน์ pose๋ก transitionํ๋ ๊ณผ์ ์ progress
๋ผ๋ ์์ timestep๋ค๋ก ์ชผ๊ฐ๊ณ ๊ฐ timestep์ ํด๋นํ๋ transition angle์ PD controller๋ก ์ ์ดํ๊ฒ ๋ฉ๋๋ค. pose๋ฅผ ๊ตฌ์ฑํ๋ 12๊ฐ์ joint position(angle)์ continuous value์ด๊ธฐ ๋๋ฌธ์ ์ฒ์๊ณผ ๋ pose์ angle์ ์๋ค๋ฉด linear interpolation์ ํ ์ ์์ต๋๋ค. progress
๋ฅผ scaled timeline(0~1๋ก normalized)์ด๋ผ๊ณ ํ๊ณ ์ชผ๊ฐ timestep ํ๋๋ฅผ ๋ณ์ t
๋ก ๋ณธ๋ค๋ฉด ๋งค ์๊ฐ์ desired transition angle ์ t \cdot \text{[joint angle of B]} + (1-t) \cdot \text{[joint angle of A]}์ผ๋ก ๊ณ์ฐ๋ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ๊ณ์ฐ๋ desired transition angle์ ๋ฐ๋ผ๊ฐ๋๋ก PD์ ์ด๋ฅผ ํ๋ฉด์ ์ถฉ๋ถํ pose B์ ๊ฐ๊น์์ก๋๊ฐ?๋ฅผ ํ๋จํ๊ฒ ๋๋๋ฐ ์ด๋์ ๊ธฐ์ค์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ก ๊ณ์ฐ๋ joint position distance
, base์ height distance
, gravity vector distance
์ด ๋งค์ฐ ์์ ์ค์ฐจ ๋ฒ์๋ด์ ๋ค์ด๊ฐ๋์ง๊ฐ ๋ฉ๋๋ค. pose A
์์ pose B
๋ก ์ถฉ๋ถํ ๊ฐ๊น์์ง ํด๋น ์๊ฐ t
๋ฅผ ๊ธฐ๋กํ๊ฒ ๋๋๋ฐ, 3์ด ๋ด์ pose B์ ๊ฐ๊น์์ง ์ํ๋ก ํํ์ํ์ ๋๋ฌํ๋์ง ์ฒดํฌํ๊ฒ ๋ฉ๋๋ค. ์ ์๊ฐ ๊ณต๊ฐํ ์ฝ๋์์ ํ์ธํด๋ดค์ ๋ 20์ด๋ฅผ ์ํ์ ์ผ๋ก ์ค์ ํ๊ณ 1000 pose \times 1000 pose Time ๋งคํธ๋ฆญ์ค๋ก ํํ์ํ์ ๋๋ฌํ ์๊ฐ์ ๊ธฐ๋กํฉ๋๋ค.
์์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ก ํ๋จํ๋ ๊ฒ์ด ์ข์ง ์๋ค๊ณ ์ฃผ์ฅํ ๋๋ pose๋ค์ด ์ถฉ๋ถํ ๋ฌ๋์ ๋ pose๋ค ๊ฐ์ ๊ด๊ณ ์ ์๋ก ์ฌ์ฉํ๊ธฐ์ ๋ถ์ ์ ํจ์ ๋ค์ด ํ๋นํ์ง ์๋ค๊ณ ์ฃผ์ฅํ ๊ฒ์ด์๊ณ , ํ์ฌ pose๊ฐ transition์ด ๋์๋๊ฐ๋ฅผ ํ๋จํ๊ธฐ ์ํ ๊ธฐ์ค์ผ๋ก ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๊ฐ ๋งค์ฐ ์์์ง๋ก ํ๋จํ๋ ๊ฒ์ similarness๋ฅผ ํ๋จํ๋ ๊ฒ์ด๊ธฐ์ motivation์ ํด์น์ง ์๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
์ด๋ ๊ฒ ์ธก์ ํ transition time์ ๊ฐ์ง๊ณ State Space๋ฅผ ํด์ํด๋ณธ๋ค๋ฉด pose A
(s_0)์์ pose B
(s_1)์ผ๋ก์ ์๊ฐ t(s_0, s_1)์ด ์ด๋ค ํน์ ์๊ฐ t_0์ดํ๋ผ๋ฉด ๋ pose ์ฌ์ด ๊ด๊ณ๋ High Accessibility๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, ๋ง์ฝ t(s_0, s_1)์ด ์ด๋ค ํน์ ์๊ฐ t_0 ์ด๊ณผ๋ผ๋ฉด Low Accessibility ๋ผ๊ณ ํ ์ ์๊ณ ์ด๋์ ๊ธฐ์ค์ด ๋๋ ํน์ ์๊ฐ t_0๊ฐ EER R์ ๊ฒฝ๊ณ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ Radial Boundary๋ฅผ ๋ง๋ค๊ธฐ ์ํด ์์ ๊ณ์ฐํ Time ๋งคํธ๋ฆญ์ค(t(s_i, s_j))๋ฅผ ๊ฐ์ง๊ณ e^{-t(s_i, s_j)}์ ๊ณ์ฐํ ๊ฒ์ ๋ฐ๋ก Accessibility๋ผ๊ณ ์ ์ํ๊ฒ ๋ฉ๋๋ค.
3.3 Clustering
K-Access Algorithm
์ด์ State Space ์์ pose๋ค๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์ํ๋ Accessibility ๊ฐ์ ๊ตฌํ ๋ค์์ ์ด๋ป๊ฒ ํ๋ฉด ํด๋ฌ์คํฐ๋ง์ ์ํ ์ ์์ ๊ฒ์ธ๊ฐ?์ ๋ํ ๊ณ ๋ฏผ์ผ๋ก ๋์ด๊ฐ๊ฒ ๋ฉ๋๋ค. ๊ฐ cluster์ centroid๊ฐ ๋๋ pose๋ฅผ ์ ํ ์ ์์ด์ผ ํ๊ณ ๋ช๊ฐ์ cluster ๊ฐฏ์๊ฐ ์ ์ ํ ์ง ํ๋จํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก K-Access์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค.
์ฐ์ ๊ฒฐ๋ก ์ ์ผ๋ก cluster์ ๊ฐฏ์์ ์ ์ ์ฑ์ Index ์ง์๊ฐ ์ต๋๊ฐ ๋๋ ๊ฐ๋ก ํ๋จํ๊ฒ ๋๋๋ฐ, ์ด Index ์ง์๋ Intra-cluster Accessibility์ Inter-cluster Accessibility, ๋ง์ง๋ง์ผ๋ก Regularization Term๊น์ง ํฉ์ฐํ์ฌ ๊ฒฐ์ ํ๊ฒ ๋ฉ๋๋ค.
- Intra-cluster Accessibility: ์ด๋ฆ์์๋ ๋ณผ ์ ์๋ฏ์ด ํน์ ํด๋ฌ์คํฐ์ ์ํด์๋(=๋ด๋ถ์ ์๋) sample๋ค(๊ฐ pose๋ฅผ ์ง์นญ)๊ณผ centroid sample๊ฐ์ Accessibility ๊ฐ๋ค ์ค ์ต์๊ฐ์
๋๋ค. ์ด ๊ฐ์ Index ์ง์์ positive sum์ด ๋๊ธฐ ๋๋ฌธ์ ์๋ฏธ๋ฅผ ํด์ํด๋ณธ๋ค๋ฉด ํ ํด๋ฌ์คํฐ์ ์ํด์๋ sample๋ค์ centroid๋ก ํฅํ๋ ์์ง๋ ฅ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. Intra-cluster accessibility์ ์ฐจ์์ 1000๊ฐ ์ํ์ด ์์ ์ด ์ํ ํด๋ฌ์คํฐ centroid์์ ๊ฐ์ ๊ณ์ฐํ๋ฏ๋ก
1000 dimension
์ ๊ฐ์ง๊ณ ์์ต๋๋ค. - Inter-cluster Accessibility: ํด๋ฌ์คํฐ๋ค ๊ฐ์ overlapping์ด ๋์ง ์๊ณ ์ ์ ํ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๋ฉฐ ๊ฐ EER์ด ์ ์ฒด State Space๋ฅผ ์ปค๋ฒํ ์ ์๋๋ก ํ๊ธฐ ์ํด์ centroid sample ๊ฐ์ Accessibility์ ํ๊ท ์ ๊ตฌํ ๊ฐ
- Regularization Term: ํด๋ฌ์คํฐ์ ๊ฐ์๊ฐ ๋๋ฌด ์ปค์ง์ง ์๋๋ก ํ๋ ๋ถ๋ถ์ผ๋ก Index์ negative sum์ด ๋๋ ๋ถ๋ถ์ ๋๋ค. \alpha ๊ฐ์ผ๋ก Regularization์ ๋น์ค์ ๋์ผ ์ ์๋๋ฐ ๋ ผ๋ฌธ์์๋ 1์ ์ฌ์ฉํ์ต๋๋ค.
K-means++ VS. K-Access
K-Access ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์กด์ ML์์ ์์ฃผ ์ฌ์ฉ๋๋ ํด๋ฌ์คํฐ๋ง ์๊ณ ๋ฆฌ์ฆ์ธ K-means++ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. K-means++ ์๊ณ ๋ฆฌ์ฆ์ฒ๋ผ (1) Initialize the centroids (2) Assignment step (3) Update step ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ ๊ฒ์ ๋น์ทํ์ง๋ง K-means++ ์๊ณ ๋ฆฌ์ฆ์์๋ (3)๋จ๊ณ์์ ํ๊ท ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํด๋ฌ์คํฐ๋ง์ด ์งํ๋๋ ๋ฐ๋ฉด K-Access ์๊ณ ๋ฆฌ์ฆ์์๋ robustness๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด Maximal neighborhood accessibility๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ข ๋ ์์ธํ ์๊ณ ๋ฆฌ์ฆ ๊ณผ์ ์ ์์๋ณด๊ณ ์ถ์ผ์ ๋ถ๋ค์ ์๋ Pseudo Code๋ฅผ ํ์ธํด์ฃผ์ธ์.
Pseudo Code of K-Access
Clustering Analysis
๋ ผ๋ฌธ์์ ์ฌ์ฉํ Bittle ๋ก๋ด ํ๋ซํผ์ผ๋ก clustering์ ์งํํ์ ๋ 43๊ฐ์ cluster๊ฐ ์ต์ ์ ๊ฐฏ์๋ก ์ ํด์ง๋๋ค. ๊ฐ ํด๋ฌ์คํฐ์ ์ํ๋ ์ํ ์๋ฅผ ํ์คํ ๊ทธ๋จ์ผ๋ก ํ์ธํด๋ณด๋ฉด ์๋ ์ผ์ชฝ ๊ทธ๋ํ๊ฐ์ด ๊ทธ๋ ค์ง๋ฉฐ ์ด์ค ํด๋น ํด๋ฌ์คํฐ์ ์ํ ์ํ ์๊ฐ ๋ง์ ์์๋๋ก top 20๊ฐ์ ํด๋ฌ์คํฐ๋ค ๊ฐ์ inter-cluster accessibility๋ฅผ Chord graph๋ฅผ ๊ฐ์ง๊ณ ์๊ฐํ๋ฅผ ํด๋ณด๋ฉด ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฐ์ด ๊ทธ๋ ค์ง๋๋ค. Chord graph์์ ๊ฐ์กฐ๋ ๋ถ๋ถ๋ค์ 0.15 ์ด์์ Accessibility(์ฝ 1.9์ด ์ด๋ด์ transition time)๋ฅผ ๊ฐ์ง ๋ถ๋ถ๋ค์ด๋ฉฐ ์ ๊ฒ ํ์๋ ๋ถ๋ถ๋ค์ 0.05 ์ดํ์ Accessibility(์ฝ 3์ด ์ด์ transition time)๋ฅผ ๊ฐ์ง๋ ๋ถ๋ถ๋ค์ ๋๋ค.
Chord graph ์๊ฐํ ๋ฐฉ๋ฒ์ ๋ํด์๋ ํด๋น ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ ์ ๊ฐ ์ฐ๊ตฌํ๊ณ ์๋ ๋ก๋ด ํ๋ซํผ์ ์ด์ฉํ์ฌ ์ ์ฉํ ์ฝ๋ ์ค์ต์ ๋ค์ ํฌ์คํ ์์ ํ์ธํ ์ ์์ต๋๋ค.
3.4 Reinforcement Learning Process
๋ง์น Machine Learning์์ Feature Engineering์ด ๋ง์ ์ฃผ์๋ฅผ ์ํ๋ ์์ ์ด๋ฏ์ด ์์ Initial State๋ฅผ ์ ํ๋ ์์ ์ ์งํํ๊ณ ๋๋์ด ๊ฐํํ์ต ๊ณผ์ ์ ๋ค์ด์ค๊ฒ ๋์์ต๋๋ค. ์ ๋ช ํ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ธ SAC(Soft-Actor-Critic)์ ๋จ์ํ MLP ๋ ์ด์ด๋ก ๋ง๋ค์ด์ ์ฌ์ฉํ๊ณ Policy Network์ Input๊ณผ Ouput ์ค๊ณ๋ ๊ด๋ จ ์ฐ๊ตฌ๋ค์ convention๊ณผ ํฌ๊ฒ ๋ค๋ฅด์ง ์๊ธฐ ๋๋ฌธ์ ์์ธํ ์ค๋ช ์ ์๋ตํ๊ณ ํน์ง์ ์ธ ๋ถ๋ถ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Reward Functions w/ RBF
ํด๋น ๋ ผ๋ฌธ์์ ๋ค๋ฅธ ๋ ผ๋ฌธ๋ค์ ๊ฐํํ์ต MDP ์ค๊ณ์ ๋ค๋ฅธ ํน์ง์ ์ธ ๋ถ๋ถ์ ๋ณด์ํจ์ ์ค๊ณ ๋ถ๋ถ์ด์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก Reward function์ ๊ฐ Reward Term๋ค์ Linear Weigthed Sumํ์์ ๊ฐ์ง๋๋ค. ํ์ง๋ง ํด๋น ๋ ผ๋ฌธ์์๋ RBF(Radial Basis Function)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ Reward๋ฅผ weighted sumํ ๊ฐ์ผ๋ก ์ต์ข reward๋ฅผ ๊ณ์ฐํ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ฌ์ค Reward Function์ ์ค๊ณํ๋ ๋ถ๋ถ์ ๊ฐํํ์ต ์ฐ๊ตฌ์์ Reward Engineering ์ด์๊ฐ ํฐ ๊ฒ์ฒ๋ผ, ๋ค๋ถํ ์ค๊ณ์์ ์๋์ ์ค๋ช ์ด ํ์ํ ๋ถ๋ถ์ด์ง๋ง ๋ ผ๋ฌธ์์ ์์ธํ ์ค๋ช ์ด ๋์ด ์์ง ์๊ณ Main Contribution์ด ์๋๋ผ๊ณ ์๊ฐํด์ ๊ทธ๋ฐ์ง Linear sum๊ณผ ๋น๊ตํ ์คํ๊ฐ๋ ์์ง ์์์ RBF๋ฅผ ์ฌ์ฉํ ์ด์ ๋ฅผ ํ์ ํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค.
๋ฐ๋ผ์ ์ด ๋ถ๋ถ์ RBF ์ปค๋์ ๋ํด ๊ณต๋ถํ๊ณ ๋์ ์ ๊ฐ ์๊ฐํ ์ด์ ๋ฅผ ๋ง๋ถ์ด๊ฒ ์ต๋๋ค.
RBF ์ปค๋์ ๊ธฐ๋ณธ์ ์ผ๋ก Gaussian Distribution ๋ชจ์ต์ผ๋ก target value์ data ๊ฐ์ radialํ ๊ฑฐ๋ฆฌ ๊ฐ์ค์น๋ฅผ ์ฃผ๊ฒ ๋๋๋ฐ, linear sum๊ณผ ๋น๊ตํ์ ๋ ๋ฌดํ ์ฐจ์ ์์ญ์์ ๋งค์ฐ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ data๋ก๋ถํฐ ์ํฅ์ ๋ ๋ฐ์ ์ ์๋ ์ฅ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ฐ๋ผ์ Reward๋ฅผ ๊ณ์ฐํ๋ ๋ฐ์ RBF ์ปค๋์ ํตํด ๊ณ์ฐํ ์๋๋ Maximizationํด์ผ ํ๋ Reward term๋ค์ ๋จ์ํ Linear sumํ๋ ๊ฒ๋ณด๋ค ์ฌ๋ฌ ์นดํ
๊ณ ๋ฆฌ์ Reward target ๊ฐ๋ค์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ ์ ์๋ ์ ๋๋ฅผ \alpha๊ฐ(Slide์์๋ \gamma๋ก ํํ)์ ์ด์ฉํ์ฌ ํ์ต์ ์ข์ ์งํ๊ฐ ๋ ์ ์๋ Reward space๋ฅผ ์ค๊ณํ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค.
Reward Term์์ ์ฌ์ฉ๋ Symbol์ ์๋ฏธ๊ฐ ๊ถ๊ธํ์ ๋ถ๋ค์ ์๋ table์ ํ์ธํด์ฃผ์ธ์.
Symbols of Reward Terms for DRL
Other Tasks - Backflip
ํด๋น ๋ ผ๋ฌธ์์๋ Recovery ๋ฟ๋ง ์๋๋ผ Locomotion ๋ณด๋ค ๋ ๋ค์ด๋๋ฏนํ ๋ชจ์ ๋ ํ์ตํ๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด Backflip ํ์ต๋ K-Accessibility ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ํ์ต์ ์งํํ์์ต๋๋ค. (์ด์ ์ ๋ฆฌ๋ทฐํ๋ WASABI ๋ ผ๋ฌธ์์๋ ๋ค์ด๋๋ฏนํ ๋ชจ์ 4๊ฐ์ง ์ค ํ๋๋ฅผ Backflip์ผ๋ก ํ์ต ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ ๊ฒ๊ณผ ๊ฐ์ ๋งฅ๋ฝ์ผ๋ก ํด๋น ๋ชจ์ Task๋ฅผ ์ค์ ํ๋ค๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค.)
4 Results
์คํ ๊ฒฐ๊ณผ๋ ๊ฐ ๋ค๋ฆฌ์ 2๊ฐ์ joint๊ฐ ์๋ ์ด 8 DoF์ธ Bittle ๋ก๋ด ํ๋ซํผ์ ๊ฐ์ง๊ณ ์ด 2๊ฐ์ง Task, Recovery์ Backflip์ ๋ํด์ ์งํ๋์์ผ๋ฉฐ, ๋น๊ต๊ตฐ์ผ๋ก๋ ์๋์ ๊ฐ์ด ์ด 5๊ฐ(proposed method ์ ์ธ) ์ค์ ํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ์ต๋๋ค.
Models
- KA
[Paper's suggestion]
: K-Access ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ป์ 43 clusters์ centroid๋ก initial pose ์ค์ - KM: K-Means++ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ป์ 33 clusters์ centroid ๋ก initial pose ์ค์
- WKM: K-Means++ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ป์ 14 clusters์ centroid ๋ก initial pose ์ค์ (
gravity vector weighted by 2
) - 9-Pose: 9๊ฐ์ ํน์ pose๋ก initial pose ์ค์
- 1-Pose: lying pose 1๊ฐ๋ก initial pose ์ค์
- RND: ๋งค Episode ๋ง๋ค ๋๋คํ static pose๋ก initial pose ์ค์
Recovery Task
SAC ์๊ณ ๋ฆฌ์ฆ์ผ๋ก training(์๋ก๋ค๋ฅธ seed 3๊ฐ์ง๋ก ์คํ)ํ ๊ณผ์ ๋์ plotํ reward graph๋ฅผ ๋ณด๋ฉด ์ ์๋ ๋ฐฉ๋ฒ KA์ Reward๊ฐ ๋งค์ฐ ๋๊ณ ์๋ก๋ค๋ฅธ ์๋์ ๋ํ ์คํ ๊ฒฐ๊ณผ ๋ถ์ฐ๋ ์ ์ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ฝ 180k step์์ RND๋ฅผ ์ ์ธํ ๋น๊ต๊ตฐ๋ค๊ณผ ์ ์๋ ๋ฐฉ๋ฒ์ reward๊ฐ ๋น์ทํ๊ฒ ์๋ ดํ๋ ๋ฏ์ด ๋ณด์ ๋๋ค. ๋ฐ๋ผ์ ์ข ๋ ํ์คํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ์ดํด๋ณด๊ธฐ ์ํด training์ ๋ง์น ํ์ ํ์ต ๊ณผ์ ์์ ์ฐ์ด์ง ์์ initial static pose 500๊ฐ test pose๋ค์ ๋ํด์ ์ฑ๊ณต๋ฅ ์ ์ดํด๋ณธ ๊ฒฐ๊ณผ ์๋ Table2์์ ๋ณผ ์ ์๋ฏ์ด ๋ ์ ์ training episode(1200<1600)์๋ ๋ถ๊ตฌํ๊ณ Test ์ํผ์๋ ๋ฆฌ์๋์ ํ๊ท ๊ฐ์ด ๋ค๋ฅธ ๋น๊ต๊ตฐ๋ค์ ๋นํด ๋๊ณ ๋ถ์ฐ๋ ๋ ๋ฎ์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๋ํ 3์ด ์ด๋ด๋ก ์ ๋ณต ํ๋ณต์ ์ฑ๊ณตํ ์ฑ๊ณต๋ฅ ์ ํ์ธํ์๋ ๋ค๋ฅธ ๋น๊ต๊ตฐ๋ค๋ณด๋ค ๋์ 99.4%๋ฅผ ๋ณด์ฌ 500๊ฐ์ initial pose๋ค ์ค 497๊ฐ ์ผ์ด์ค์ ๋ํด์ ์ฑ๊ณตํ ๊ฒ์ ์ ์ ์์ต๋๋ค.
Recovery๋ฅผ ์ฑ๊ณตํ ์ผ์ด์ค์ ๋ํ timestep snapshot๊ณผ ์ฝ 1.2์ด ๋์ ํ๋ณต์์ธ๋ก ๋์๊ฐ๋ ๋์์ 8๊ฐ์ joint ๊ฐ๋ ๋ณํ์ ๋ํด plotํ ๊ทธ๋ํ์ ๋๋ค.
Backflip์ ๋ํด์๋ Recovery์ ๊ฐ์ด ์คํํ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์ผ๋ฉฐ Recovery์ ํฌ๊ฒ ๋ค๋ฅธ ์ ์ด ์๊ณ ์ ์๋ ๋ฐฉ๋ฒ์ด Recovery์๋ง ๊ตญํ๋์ด ์์ง ์๊ณ ๋ค์ํ ๋ค์ด๋๋ฏนํ ๋ชจ์ ํ์ต์์๋ ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ์ถ๊ฐ์ ์ผ๋ก ๋ถ์ฌ์ง ๋ถ๋ถ๊ฐ์ ์์ธํ ์ค๋ช ์ ์๋ตํ๊ฒ ์ต๋๋ค. ๊ด๋ จ ์คํ ๊ฒฐ๊ณผ๋ ์๋์์ ํ์ธํด์ฃผ์ธ์.
5 Conclusion
์ด๋ฒ์ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์ ๊ฐํํ์ต์ Initial pose์ ๋ํด ์ฌ๋์๊ฒ ๊ด์ฐฐํด๋ณด๊ณ ์ด๋ป๊ฒ ์ค๊ณํ๊ณ ํ์ตํด์ผ ํ๋์ง ์ ์ํ ๋ ผ๋ฌธ์ผ๋ก ๋งค์ฐ ์๋ฏธ๊ฐ ์๋ ์ฐ๊ตฌ์๋ค๊ณ ์๊ฐํฉ๋๋ค. ํ์ต์ ์ํด State Space๋ฅผ ์ด๋ป๊ฒ ๋ถ์ํ๊ณ ํ์ํ ์ ์๋๋ก ์ ๋ํ๋ Accessibility๋ผ๋ ๊ฐ๋ ๊ณผ K-Access ์๊ณ ๋ฆฌ์ฆ์ด Contribution ์ด์ ์ผ๋ก ์ ์กํ์๋ค๊ณ ์๊ฐํ๋ฉฐ ๋ค๋ง ์ค์ ๋ก๋ด์ ๊ฐ์ง๊ณ ๊ฒ์ฆํด๋ณด์ง ๋ชปํด์ ์กฐ๊ธ ์์ฌ์ ์ต๋๋ค. ๋ ผ๋ฌธ์์ Future Work๋ก ์ ์ํ ๊ฒ์ฒ๋ผ Accessibility Estimation๊ณผ Clustering ๋ฐฉ๋ฒ์ Learning ๊ธฐ๋ฒ์ ๊ฐ์ง๊ณ ์ข ๋ ๋ณด์ํด๋ณด๋ ๊ฒ๋ ์ข์ ์ฐ๊ตฌ๋ฐฉํฅ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค.
ํด๋น ๋ ผ๋ฌธ์ ๋ํด์ ์ข ๋ ์์๋ณด๊ณ ์ถ์ผ์ ๋ถ๋ค์ ์ ์๋ค์ด ๊ณต๊ฐํ Youtube ๋ฐํ ์์๋ ํ์ธํด๋ณด์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
6 Reference
- Original Paper: Accessibility-Based Clustering for Efficient Learning of Locomotion Skills
- Original Paper Presentation on Youtube
- โ๊ณผ๋ก ํ ๊ฑฐ๋?โ ๋ฐ๋ํ์ ์ง ๋๋ฅด๋ 2์กฑ ๋ณดํ ๋ก๋ด โ๊ฝ๋นโ / JTBC ์์๋ ํด๋ผ์ค
- Radial Basis Fuction (RBF) Kernel ์ด๋?
- The Radial Basis Function Kernel
- 106 RBF Kernel
- Lecture 16 - Radial Basis Functions - Slides
- Radial Basis Function (RBF) Kernel: The Go-To Kernel
- k-means++ Wiki
- Chord diagram