๐Humanoid Bench ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- HumanoidBench๋ ๋ณต์กํ ์ ์ ์ ์ด๊ฐ ์๊ตฌ๋๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ํ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ๋ก, 15๊ฐ์ ์กฐ์(manipulation) ๋ฐ 12๊ฐ์ ์ด๋(locomotion) ์์ ์ ํฌํจํ์ฌ ์ด 27๊ฐ์ ๋ค์ํ Task๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ด ๋ฒค์น๋งํฌ์ ๋ํ ์ต์ RL ์๊ณ ๋ฆฌ์ฆ(DreamerV3, TD-MPC2, SAC, PPO)์ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ๋ ๋์ ์์ ๋์ ์ฅ๊ธฐ ๊ณํ์ด ํ์ํ ๋๋ถ๋ถ์ Task์์ ์๋นํ ์ด๋ ค์์ ๊ฒช๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๊ณ์ธต์ RL ์ ๊ทผ ๋ฐฉ์์ ๊ฒฌ๊ณ ํ ์ ์์ค ์ ์ฑ (low-level policies)์ ์ง์์ ํตํด ํ๋ฉด(flat) RL๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํ์ต์ ์ํ ๊ตฌ์กฐํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ์ฌ๋ ฅ์ ์์ฌํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
HumanoidBench๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ์ ๋ณ๋ชฉ ํ์์ธ ๊ณ ๋น์ฉ ๋ฐ ์ทจ์ฝํ ํ๋์จ์ด ์ค์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๊ณ ์ฐจ์ ์๋ฎฌ๋ ์ด์ ๋ก๋ด ํ์ต ๋ฒค์น๋งํฌ์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ณต์กํ ์ญํ, ๋ค์ํ ์ ์ฒด ๋ถ์ ๊ฐ์ ์ ๊ตํ ํ์, ๊ทธ๋ฆฌ๊ณ ๊ธด ํธ๋ผ์ด์ฆ์ ๋ณต์กํ ์์ ์ ์ ์ดํ๋ ๋ฐ ์์ด ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํ์ต์ ์ค์ ๊ณผ์ ๋ฅผ ๋๋ฌ๋ ๋๋ค.
์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๋ฐ ๋ก๋ด ๋ชจ๋ธ:
HumanoidBench๋ MuJoCo ๋ฌผ๋ฆฌ ์์ง์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ฃผ ๋ก๋ด ๋ชจ๋ธ๋ก Unitree H1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ ๊ฐ์ Shadow Hand๋ฅผ ๋ถ์ฐฉํ ๊ตฌ์ฑ์ ์ฌ์ฉํฉ๋๋ค. ๋ค๋ฅธ ๋ก๋ด ๋ชจ๋ธ(Unitree G1, Agility Robotics Digit, Robotiq 2F-85 ๊ทธ๋ฆฌํผ, Unitree H1 ํธ๋)๋ ์ง์ํ์ฌ ๋ค์ํ ์ค์ ์ ์คํํ ์ ์์ต๋๋ค. ๋ก๋ด์ ์ฌ์์ DoF, ์ก์
๋ฐ ๊ด์ธก ๊ณต๊ฐ์ ๋์ ์ฐจ์์ ํน์ง์ผ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, Shadow Hand๋ฅผ ํฌํจํ Unitree H1์ 61์ฐจ์ ์ก์
๊ณต๊ฐ๊ณผ 151์ฐจ์ ๊ด์ธก ๊ณต๊ฐ์ ๊ฐ์ง๋๋ค. ๊ด์ธก(Observation)์ ๊ณ ์ ์์ฉ์ฑ ๋ก๋ด ์ํ(๊ด์ ๊ฐ๋ ๋ฐ ์๋), ํ์คํฌ ๊ด๋ จ ํ๊ฒฝ ๊ด์ธก(๊ฐ์ฒด ์์ธ ๋ฐ ์๋), ๊ทธ๋ฆฌ๊ณ egocentric visual observation (๋ก๋ด ๋จธ๋ฆฌ์ ์ฅ์ฐฉ๋ ๋ ๋์ ์นด๋ฉ๋ผ)์ ํฌํจํฉ๋๋ค. ํนํ, whole-body tactile sensing์ MuJoCo tactile grid sensor๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋์์ผ๋ฉฐ, 448๊ฐ์ taxel์ด ๋ชธ ์ ์ฒด์ ํผ์ ธ 3์ฐจ์ ์ ์ด๋ ฅ ํ๋
๊ฐ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ์ํด CoACD๋ฅผ ํ์ฉํ ์ ๊ตํ ๋ฉ์(mesh) ์ต์ ํ ์์
์ด ์ด๋ฃจ์ด์ ธ ๋ ๋ฏธ์ธํ ์ ์ด ํด์๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ํ์ฌ ๋ฒค์น๋งํฌ๋ ์ฃผ๋ก ์ํ ๊ธฐ๋ฐ(state-based) ์
๋ ฅ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ์ก์
(Action)์ ์ฃผ๋ก ์์น ์ ์ด(position control) ๋ฐฉ์์ ์ฌ์ฉํ๋ฉฐ, 50Hz๋ก ์ ์ด๋ฉ๋๋ค. ํ ํฌ ์ ์ด(torque control)๋ ์ง์๋ฉ๋๋ค.
ํ์คํฌ ์ค์ํธ(Task Suite):
HumanoidBench๋ 12๊ฐ์ locomotion task์ 15๊ฐ์ whole-body manipulation task๋ฅผ ํฌํจํ์ฌ ์ด 27๊ฐ์ ๋ค์ํ ํ์คํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. Locomotion tasks๋ walk, stand, run, hurdle, crawl, maze, sit, balance, stair, slide, pole, reach์ ๊ฐ์ด ํด๋จธ๋
ธ์ด๋์ ๊ธฐ๋ณธ์ ์ธ ์ด๋ ๋ฐ ์์ธ ์ ์ด ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Whole-body manipulation tasks๋ push, cabinet, highbar, door, truck, cube, bookshelf, basketball, window, spoon, kitchen, package, powerlift, room, insert ๋ฑ ๋ค์ํ ์ํธ์์ฉ์ ํฌํจํ๋ฉฐ, ์ ์ ํ์์ด ํ์ํ ๋ณต์กํ ์์
์ ๋ค๋ฃน๋๋ค.
๋ฒค์น๋งํน ๊ฒฐ๊ณผ ๋ฐ ํต์ฌ ๋ฐฉ๋ฒ๋ก :
์ด ๋
ผ๋ฌธ์ DreamerV3, TD-MPC2 (๋ชจ๋ธ ๊ธฐ๋ฐ RL), SAC, PPO (๋ชจ๋ธ ํ๋ฆฌ RL) ๋ฑ ์ต์ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ฒค์น๋งํนํ์ต๋๋ค. ์ฃผ์ ๋ฐ๊ฒฌ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ฑ๋ฅ ๋ถ์ง: ์ต์
RL์๊ณ ๋ฆฌ์ฆ๋ค์ ๋๋ถ๋ถ์ ํ์คํฌ, ํนํ ๊ธด ํธ๋ผ์ด์ฆ ๊ณํ๊ณผ ๋ณต์กํ ์ ์ ํ์์ด ํ์ํ ํ์คํฌ์์ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. ๋์ ์ํ ๋ฐ ์ก์ ๊ณต๊ฐ ์ฐจ์์ด ํ์์ ์ด๋ ต๊ฒ ๋ง๋๋ ์ฃผ์ ์์ธ์ผ๋ก ์ง์ ๋ฉ๋๋ค. Dexterous Hands์ ์ํฅ:Shadow Hand์ ์ถ๊ฐ์ ์ธ ๊ด์ ๊ณผ ์ก์ถ์์ดํฐ๋locomotion task(walk)์์๋ ์ฑ๋ฅ์ ํฌ๊ฒ ์ ํ์์ผฐ์ต๋๋ค. ์ก์ ๊ณต๊ฐ์ ์ฐจ์์ ์ค์์ ๋(์ ์์ง์์ ๊ณ ์ ) ํ์ต ์๋๊ฐ ํ์ ํ ๋นจ๋ผ์ง๋ ๊ฒ์ ํตํด, ์ก์ ์ฐจ์์ด ์ฑ๋ฅ ์ ํ์ ์ฃผ๋ ์์ธ์์ ํ์ธํ์ต๋๋ค.- ๊ณ์ธต์ ๊ฐํ ํ์ต (Hierarchical Reinforcement Learning, HRL):
- ํ์์ฑ: ๋ณต์กํ๊ณ ๊ธด ํธ๋ผ์ด์ฆ์ ํ์คํฌ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํ๋ฉด์ ์ธ(
flat)end-to-end RL๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์HRL์ ๋์ ํ์ต๋๋ค.HRL์ ํ์ต ๋ฌธ์ ์ ์ถ๊ฐ์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌlow-level๋ฐhigh-level๊ณํ์ ๋ถ๋ฆฌํฉ๋๋ค. - ๊ตฌํ:
pushํ์คํฌ(ํ ์reaching)์packageํ์คํฌ(๋ ์reaching)์HRL์ ์ ์ฉํ์ต๋๋ค. - Low-level Reaching Policy ์ฌ์ ํ์ต:
low-levelreaching policy๋ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฒฌ๊ณ ํ ๋ธ๋ก์ผ๋ก ๊ฐ์ฃผ๋์ด ์ฌ์ ํ์ต๋ฉ๋๋ค.PPO์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ MuJoCo MJX์์ ์์ฒ ๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์์ ํ์ตํจ์ผ๋ก์จ ํ๋์จ์ด ๊ฐ์์ ํ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ์reaching policy๋ 20์ต ์คํ (36์๊ฐ), ๋ ์reaching policy๋ 40์ต ์คํ (60์๊ฐ) ๋์ ํ์ต๋ฉ๋๋ค. ํ์ต ์ ํ ๊ต๋(force perturbations)์ ์ ์ฉํ์ฌ ๊ฒฌ๊ณ ์ฑ์ ๋์์ต๋๋ค. - High-level Policy ํ์ต: ์ฌ์ ํ์ต๋
low-level policy๋ฅผ ๊ณ ์ ์ํจ ์ฑDreamerV3๋ฐTD-MPC2๋ฅผ ์ฌ์ฉํ์ฌhigh-level policy๋ฅผ ํ์ตํฉ๋๋ค. ํ์์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํดreaching target์ ๋ฒ์๋ฅผ ๋ก๋ด ์์ ๊ณต๊ฐ์ผ๋ก ์ ํํฉ๋๋ค. - ๊ฒฐ๊ณผ:
HRL์ ๊ทผ ๋ฐฉ์์pushํ์คํฌ์์flat baseline์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๋ ์ด๋ ค์ดpackageํ์คํฌ์์๋ ์ฑ๋ฅ ํฅ์์ด ๋ํ์ง๋ง, ์ด๋low-level policy๊ฐ ํ์ต๋์ง ์์ ์๋ก์ด ์ํฉ(package๋ฅผ ๋ค์ด ์ฌ๋ฆฌ๋ ์ํฉ)์ ๋ํ ์ผ๋ฐํ์ ์ด๋ ค์์ ์์ฌํฉ๋๋ค.
- ํ์์ฑ: ๋ณต์กํ๊ณ ๊ธด ํธ๋ผ์ด์ฆ์ ํ์คํฌ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํ๋ฉด์ ์ธ(
- ์ผ๋ฐ์ ์ธ ์คํจ ์ฌ๋ก:
highbarํ์คํฌ์์ ๋ก๋ด์ ๋ฐ์ ๋ถ์ด์๋ ๊ฒ์ ํ์ตํ๋, ์ ์ ํ์ ๊ถค์ ์ ์ํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ด ์งง์ ํธ๋ผ์ด์ฆ ๊ณํ์ ํ๊ณ๋ฅผ ๋๋ฌ๋ ๋๋ค.doorํ์คํฌ์์ ๋ก๋ด์ ๋ฌธ์ ์ฌ๋ ๋ฐ ํ์ํ ์ ํํ ์์ง์(ํ ๋น๊ธฐ๊ธฐ + ๋ชธ ์ ์ฒด ์์ง์ด๊ธฐ)์ ํ์ตํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ด, ์ฌ๋ฌ ์ ์ฒด ๋ถ์ ๊ฐ์ ํ์๊ณผ ์กฐ์/์ด๋ ๊ธฐ์ ๊ฐ์ ์ํํ ์ํธ์์ฉ์ด ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค.hurdleํ์คํฌ์์ ๋ก๋ด์ ํ๋ค์ ๋ฐ์ด๋๋ ๋์ ์ฅ์ ๋ฌผ์ ๋ณด์์ ์ผ๋ก ๋ถ๋ชํ ์ํผ์๋ ์ข ๋ฃ๋ฅผ ํผํ๋conservative pose๋ฅผ ํ์ตํ๋๋ฐ, ์ด๋ ์ด๋ ค์ด ํ์ ๋ฌธ์ ์ ์ง๋ฉดํ ๋RL์ดlocal optimum์ ๋น ์ง๋ ๊ฒฝํฅ์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก :
HumanoidBench๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด์ ๋ณต์ก์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํ ์ข
ํฉ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ต์ RL ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋ณด์ฌ์ค์ผ๋ก์จ, ์ ์ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ ์ด์งํ๊ณ RL ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ ๊ธฐ๋ฅ ํ์ฅ, ๋ณด๋ค ์ฌ์ค์ ์ธ ํ๊ฒฝ ๋ฐ ๊ฐ์ฒด ํฌํจ, sim-to-real transfer ์ฐ๊ตฌ ๋ฑ์ด ์ ์๋ฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ์ ๋ณ๋ชฉ ํ์
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํํํ(morphology)์ ํ์ฉํ์ฌ ๋ค์ํ ํ๊ฒฝ๊ณผ ์์ ์์ ์ธ๊ฐ์ ๋ณด์กฐํ ์ ์๋ ์์ฒญ๋ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. Boston Dynamics์ Atlas, Tesla์ Optimus, Unitree์ H1๊ณผ ๊ฐ์ ํ๋์จ์ด ํ๋ซํผ๋ค์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ง๋ง, ์ด๋ฌํ ๋ก๋ด๋ค์ ์ ์ด๊ธฐ๋ ์ฌ์ ํ ํน์ ์์ ์ ๋ง์ถฐ ์์์ ์ผ๋ก ์ค๊ณ๋๊ฑฐ๋ ๋ถ๋ถ์ ์ผ๋ก๋ง ํ์ต ๊ธฐ๋ฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ๊ฐ ๋ค๋ฅธ ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ๋นํด ์๋์ ์ผ๋ก ๋๋ฆฌ๊ฒ ๋ฐ์ ํด์จ ๊ทผ๋ณธ์ ์ธ ์ด์ ๊ฐ ์์ต๋๋ค. ๋ฐ๋ก ์คํ ํ๊ฒฝ ๊ตฌ์ถ์ ์ด๋ ค์์ ๋๋ค.
์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ด์ฉํ ์ฐ๊ตฌ์๋ ์ฌ๋ฌ ์ ์ฝ์ด ๋ฐ๋ฆ ๋๋ค. ๊ณ ๊ฐ์ ํ๋์จ์ด ๋น์ฉ, ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ทจ์ฝ์ฑ์ผ๋ก ์ธํ ์คํ ์ค ํ์ ์ํ, ์์ ๋ฌธ์ ๋ก ์ธํ ์คํ ํ๊ฒฝ ์ ํ, ๊ทธ๋ฆฌ๊ณ ์คํ ์ฌํ์ฑ ํ๋ณด์ ์ด๋ ค์ ๋ฑ์ด ๊ทธ๊ฒ์ ๋๋ค. ๊ฐํํ์ต(RL)๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์๋ฐฑ๋ง ๋ฒ์ ์ํ์ฐฉ์ค๋ฅผ ํ์๋ก ํ๋๋ฐ, ์ด๋ฅผ ์ค์ ๋ก๋ด์ผ๋ก ์ํํ๋ ๊ฒ์ ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํฉ๋๋ค.
HumanoidBench๋ ๋ฐ๋ก ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ๋ฅผ ์ํ ์ต์ด์ ํฌ๊ด์ ์ธ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ฐ๊ตฌ์๋ค์ด ์์ ํ๊ณ , ๋น ๋ฅด๊ณ , ์ ๋ ดํ๊ฒ ์๊ณ ๋ฆฌ์ฆ์ ํ ์คํธํ ์ ์๋ ํ๋ซํผ์ ์ ๊ณตํฉ๋๋ค.
2. HumanoidBench์ ํต์ฌ ๊ธฐ์ฌ
HumanoidBench๊ฐ ๋ก๋ณดํฑ์ค ์ปค๋ฎค๋ํฐ์ ์ ๊ณตํ๋ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ธ ๊ฐ์ง๋ก ์ ๋ฆฌํ ์ ์์ต๋๋ค.
์ฒซ์งธ, ๊ณ ์ฐจ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๋๋ค. ๋ ๊ฐ์ ์ ๊ตํ ์(dexterous hands)์ ์ฅ์ฐฉํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ํน์ง์ผ๋ก ํ๋ฉฐ, ์ต๋ 61๊ฐ์ ์ก์ถ์์ดํฐ์ 151์ฐจ์์ ๊ด์ธก ๊ณต๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋์งธ, ๋ค์ํ ํ์คํฌ ์ค์ํธ์ ๋๋ค. 12๊ฐ์ ์ด๋(locomotion) ํ์คํฌ์ 15๊ฐ์ ์กฐ์(manipulation) ํ์คํฌ๋ฅผ ํฌํจํ ์ด 27๊ฐ์ ๋์ ์ ์ธ ์ ์ ์ ์ด ํ์คํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ ์งธ, ํ์คํ๋ ๋ฒค์น๋งํฌ ํ๋ ์์ํฌ์ ๋๋ค. ์ต์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ฑ๋ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์ผ๊ด๋ ์คํ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
3. ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์์ธ ๋ถ์
3.1 ๋ฌผ๋ฆฌ ์์ง๊ณผ ๋ก๋ด ๋ชจ๋ธ
HumanoidBench๋ MuJoCo(Multi-Joint dynamics with Contact) ๋ฌผ๋ฆฌ ์์ง์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. MuJoCo๋ Google DeepMind์์ ๊ด๋ฆฌํ๋ ์คํ์์ค ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ก, ๋น ๋ฅด๊ณ ์ ํํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์ ๊ณตํ์ฌ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
๊ธฐ๋ณธ ๋ก๋ด ๋ชจ๋ธ๋ก๋ Unitree H1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ฌ์ฉํฉ๋๋ค. H1์ ์ค์ ์์ฉํ๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ผ๋ก ์ ์ด(sim-to-real transfer)ํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ด์ด๋ก๋๋ค.
์(end-effector)์ผ๋ก๋ Shadow Hand๋ฅผ ์ฑํํ์ต๋๋ค. Shadow Hand๋ 24๊ฐ์ ์์ ๋(DoF)๋ฅผ ๊ฐ์ง ์ ๊ตํ ๋ก๋ด ์์ผ๋ก, ์ธ๊ฐ์ ์๊ณผ ์ ์ฌํ ์์ค์ ๋ฏผ์ฒฉ์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ด ์ธ์๋ Robotiq 2F-85 ๊ทธ๋ฆฌํผ๋ Unitree ์์ฒด ์ ๋ชจ๋ธ ๋ฑ ๋ค์ํ ์ต์ ์ ์ง์ํฉ๋๋ค.
๋ํ Agility Robotics์ Digit ๋ก๋ด๊ณผ Unitree G1 ๋ก๋ด๋ ์ง์ํ์ฌ ๋ค์ํ ํ๋์จ์ด ๊ตฌ์ฑ์์์ ์๊ณ ๋ฆฌ์ฆ ํ๊ฐ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
3.2 ๊ด์ธก ๊ณต๊ฐ(Observation Space)
HumanoidBench๋ ์ธ ๊ฐ์ง ์ ํ์ ๊ด์ธก์ ์ง์ํฉ๋๋ค.
์ฒซ ๋ฒ์งธ๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ(Proprioception) ๊ด์ธก์ ๋๋ค. ์ด๋ ๋ก๋ด์ ๊ด์ ๊ฐ๋ ๋ฐ ๊ฐ์๋์ ํ์คํฌ ๊ด๋ จ ํ๊ฒฝ ์ํ(๊ฐ์ฒด ์์น ๋ฐ ์๋ ๋ฑ)๋ฅผ ํฌํจํฉ๋๋ค. ๋ก๋ด ์ํ๋ง์ผ๋ก ์ฝ 151์ฐจ์์ ๊ด์ธก ๊ณต๊ฐ์ ํ์ฑํฉ๋๋ค.
๋ ๋ฒ์งธ๋ ์๊ฐ์ (Visual) ๊ด์ธก์ ๋๋ค. ๋ก๋ด ๋จธ๋ฆฌ์ ์ฅ์ฐฉ๋ ๋ ๋์ ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ป๋ ์๊ธฐ์ค์ฌ์ (egocentric) ์๊ฐ ๊ด์ธก์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ํ์ต ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
์ธ ๋ฒ์งธ๋ ์ด๊ฐ(Tactile) ๊ด์ธก์ ๋๋ค. MuJoCo์ ์ด๊ฐ ๊ทธ๋ฆฌ๋ ์ผ์๋ฅผ ํ์ฉํ์ฌ ์ ์ ์ด๊ฐ ์ผ์ฑ์ ๊ตฌํํฉ๋๋ค. ์ด 448๊ฐ์ ํ์ (taxel)์ด ๋ก๋ด ์ ์ ์ ๋ถํฌํ๋ฉฐ, ๊ฐ ํ์ ์ 3์ฐจ์ ์ ์ด๋ ฅ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ํนํ ์ ๋ถ๋ถ์ ๊ณ ํด์๋๋ก, ๋ค๋ฅธ ์ ์ฒด ๋ถ์๋ ์ ํด์๋๋ก ์ค๊ณํ์ฌ ์ธ๊ฐ์ ์ด๊ฐ ๋ถํฌ๋ฅผ ๋ชจ๋ฐฉํ์ต๋๋ค.
3.3 ํ๋ ๊ณต๊ฐ(Action Space)
ํ๋ ๊ณต๊ฐ์ ๋ชจ๋ ํ๊ฒฝ์์ ์ผ๊ด๋๊ฒ 61์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ก๋ด์ ๊ธฐ๋ณธ์ ์ผ๋ก ์์น ์ ์ด(position control) ๋ฐฉ์์ผ๋ก ๋์ํ๋ฉฐ, ๋ชฉํ ๊ด์ ์์น๋ฅผ ์ง์ ํ๋ ๋ฐฉ์์ ๋๋ค. ํ ํฌ ์ ์ด(torque control)๋ ์ง์๋์ง๋ง, ์ฐ๊ตฌ์ง์ ์์น ์ ์ด๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๋ ์์ ์ ์ด๊ณ ๋ฎ์ ์ ์ด ์ฃผํ์์์๋ ์ ๋์ํ๋ค๊ณ ๋ฐํ์ต๋๋ค.
ํ๋ ๊ณต๊ฐ์ [-1, 1] ๋ฒ์๋ก ์ ๊ทํ๋์ด ์์ด ๋ค์ํ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ์ ํธํ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
3.4 ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ
HumanoidBench๋ ๋ณต์กํ ํด๋จธ๋ ธ์ด๋ ๋ชจ๋ธ๊ณผ ์ ๊ตํ ์์ ํฌํจํจ์๋ ๋ถ๊ตฌํ๊ณ ํจ์จ์ ์ธ ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ํนํ MuJoCo MJX(MuJoCo์ JAX ๊ฐ์ ๋ฒ์ )๋ฅผ ํ์ฉํ์ฌ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ์ต์ ์ง์ํฉ๋๋ค. ์ด๋ ์ ์์ค ์ ์ฑ (low-level policy) ํ์ต์ ํนํ ์ ์ฉํฉ๋๋ค.
4. ํ์คํฌ ์ค๊ณ ์ฒ ํ๊ณผ ์์ธ ๋ถ์
4.1 ํ์คํฌ ์ค๊ณ ์ฒ ํ
HumanoidBench์ ํ์คํฌ๋ค์ ๋ช ๊ฐ์ง ํต์ฌ ์์น์ ๋ฐ๋ผ ์ค๊ณ๋์์ต๋๋ค.
์ฒซ์งธ, ์ผ์ ์ํ ๊ด๋ จ์ฑ์ ๋๋ค. ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด ์ค์ ๋ก ์ํํ ๊ฒ์ผ๋ก ์์๋๋ ์์ ๋ค์ ํฌํจํฉ๋๋ค.
๋์งธ, ์ ์ง์ ๋์ด๋์ ๋๋ค. ๋จ์ํ ์๊ธฐ(standing)๋ถํฐ ๋ณต์กํ ์ฃผ๋ฐฉ ์์ ๊น์ง ๋ค์ํ ๋์ด๋์ ํ์คํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ ์งธ, ๋ค์ํ ๊ธฐ์ ์๊ตฌ์ ๋๋ค. ๊ท ํ ์ ์ง, ๋ณดํ, ๋๋ฌ, ์กฐ์ ๋ฑ ๋ค์ํ ๊ธฐ์ ์ ์กฐํฉ์ ์๊ตฌํฉ๋๋ค.
๋ท์งธ, ์ฅ๊ธฐ ๊ณํ ํ์์ฑ์ ๋๋ค. ๋ง์ ํ์คํฌ๊ฐ ๋จ์ํ ๋ฐ์์ ์ ์ด๋ฅผ ๋์ด ์ฅ๊ธฐ์ ์ธ ๊ณํ์ ์๊ตฌํฉ๋๋ค.
4.2 ์ด๋(Locomotion) ํ์คํฌ (12๊ฐ)
์ด๋ ํ์คํฌ๋ ์ ๊ตํ ์ ์ ์ด๋ฅผ ์ฐํํ๋ฉด์๋ ํฅ๋ฏธ๋ก์ด ํด๋จธ๋ ธ์ด๋ ์ ์ด ์๋๋ฆฌ์ค๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ณธ ์ด๋ ํ์คํฌ๋ก๋ Stand, Walk, Run์ด ์์ต๋๋ค. Stand ํ์คํฌ๋ ๋ก๋ด์ด ์ง๋ฆฝ ์์ธ๋ฅผ ์ ์งํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํ์คํฌ๋ก, ๊ท ํ ์ ์ง ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Walk ํ์คํฌ๋ ์ฝ 1m/s์ ์๋๋ก ์์ ์ ์ธ ๋ณดํ์ ์ํํ๋ฉฐ ๋์ด์ง์ง ์์์ผ ํฉ๋๋ค. Run ํ์คํฌ๋ ์ฝ 5m/s์ ์๋๋ก ๋น ๋ฅด๊ฒ ๋ฌ๋ฆฌ๋ ๊ฒ์ ์๊ตฌํ๋ฉฐ, ๋ ์ญ๋์ ์ธ ๊ท ํ ์ ์ด๊ฐ ํ์ํฉ๋๋ค.
์ฅ์ ๋ฌผ ์ด๋ ํ์คํฌ๋ก๋ Hurdle, Crawl, Stair, Slide๊ฐ ์์ต๋๋ค. Hurdle ํ์คํฌ๋ ํ๋ค์ ๋ฐ์ด๋๋ ๊ฒ์ผ๋ก, ์ ํ ๋์์ ํ์ต์ด ํ์ํฉ๋๋ค. Crawl ํ์คํฌ๋ ๋ฎ์ ๊ณต๊ฐ์ ๊ธฐ์ด์ ํต๊ณผํ๋ ๊ฒ์ผ๋ก, ์ ์ ์์ธ ์ ์ด๊ฐ ์๊ตฌ๋ฉ๋๋ค. Stair ํ์คํฌ๋ ๊ณ๋จ์ ์ค๋ฅด๋ด๋ฆฌ๋ ๊ฒ์ผ๋ก, ์งํ ์ ์ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Slide ํ์คํฌ๋ ๋ฏธ๋๋ฌ์ด ํ๋ฉด์์์ ์ด๋์ผ๋ก, ๋ง์ฐฐ๋ ฅ ๋ณํ์ ๋ํ ์ ์์ด ํ์ํฉ๋๋ค.
๊ท ํ ๋ฐ ํน์ ์์ธ ํ์คํฌ๋ก๋ Balance(Simple/Hard), Sit(Simple/Hard), Pole์ด ์์ต๋๋ค. Balance ํ์คํฌ๋ ๋ถ์์ ํ ํ๋ฉด์์ ๊ท ํ์ ์ ์งํ๋ ๊ฒ์ผ๋ก, Simple๊ณผ Hard ๋ ๊ฐ์ง ๋์ด๋๊ฐ ์์ต๋๋ค. Sit ํ์คํฌ๋ ์์์ ์๋ ๋์์ผ๋ก, ์ ์ ํ์์ด ํ์ํฉ๋๋ค. Pole ํ์คํฌ๋ ๋ง๋ ์์์ ๊ท ํ์ ์ก๋ ๊ฒ์ผ๋ก, ๊ณ ๋์ ๊ท ํ ์ ์ด ๋ฅ๋ ฅ์ด ์๊ตฌ๋ฉ๋๋ค.
ํ์ ํ์คํฌ๋ก๋ Maze๊ฐ ์์ต๋๋ค. ๋ฏธ๋ก๋ฅผ ํ์ํ์ฌ ๋ชฉํ ์ง์ ์ ๋๋ฌํ๋ ๊ฒ์ผ๋ก, ์ด๋๊ณผ ๊ณํ ๋ฅ๋ ฅ์ ์กฐํฉ์ด ํ์ํฉ๋๋ค.
4.3 ์กฐ์(Manipulation) ํ์คํฌ (15๊ฐ)
์กฐ์ ํ์คํฌ๋ ์ด๋๊ณผ ์ ๊ตํ ์ ์กฐ์์ ๊ฒฐํฉ์ ์๊ตฌํ๋ฉฐ, HumanoidBench์ ํต์ฌ ๋์ ๊ณผ์ ๋ค์ ํฌํจํฉ๋๋ค.
์ ์ (Static) ์กฐ์ ํ์คํฌ๋ ์ฃผ๋ก ์์ฒด์ ์์ ํ์์ ์๊ตฌํฉ๋๋ค. Reach ํ์คํฌ๋ 3D ๊ณต๊ฐ์ ๋ชฉํ ์ง์ ์ ์์ ๋๋ฌ์ํค๋ ๊ธฐ๋ณธ์ ์ธ ๋๋ฌ ํ์คํฌ์ ๋๋ค. Cube ํ์คํฌ๋ ์ ์ก๋ฉด์ฒด๋ฅผ ์ก๊ณ ์กฐ์ํ๋ ๊ฒ์ ๋๋ค. Insert(Normal/Small) ํ์คํฌ๋ ํ๊ทธ๋ฅผ ๊ตฌ๋ฉ์ ์ฝ์ ํ๋ ์ ๋ฐ ์กฐ์์ผ๋ก, Normal๊ณผ Small ๋ ๊ฐ์ง ๋์ด๋๊ฐ ์์ต๋๋ค. Spoon ํ์คํฌ๋ ์๊ฐ๋ฝ์ ์ด์ฉํ ์กฐ์์ ๋๋ค. Window ํ์คํฌ๋ ์ฐฝ๋ฌธ์ ์ฌ๋ซ๋ ๊ฒ์ ๋๋ค. Cabinet ํ์คํฌ๋ ์บ๋น๋ ๋ฌธ์ ์ด๊ณ ๋ซ๋ ๊ฒ์ ๋๋ค. Door ํ์คํฌ๋ ๋ฌธ ์์ก์ด๋ฅผ ๋๋ฆฌ๊ณ ๋ฌธ์ ์ฌ๋ ๊ฒ์ผ๋ก, ์ ์ ํ์์ด ํ์ํฉ๋๋ค.
๋์ (Dynamic) ์กฐ์ ํ์คํฌ๋ ์ด๋๊ณผ ์กฐ์์ ์ํ์ฑ์ ์๊ตฌํฉ๋๋ค. Push ํ์คํฌ๋ ํ ์ด๋ธ ์์ ์์๋ฅผ ๋ฐ์ด ๋ชฉํ ์์น๋ก ์ด๋์ํค๋ ๊ฒ์ ๋๋ค. Basketball ํ์คํฌ๋ ๋๊ตฌ๊ณต์ ์ง์ด ๊ณจ๋์ ๋ฃ๋ ๊ฒ์ ๋๋ค. Bookshelf(Simple/Hard) ํ์คํฌ๋ ์ฑ ์ฅ์์ ์ฑ ์ ์ ๋ฆฌํ๋ ๊ฒ์ผ๋ก, ๋ ๊ฐ์ง ๋์ด๋๊ฐ ์์ต๋๋ค. Kitchen ํ์คํฌ๋ ์ฃผ๋ฐฉ์์ ๋ค์ํ ์์ ์ ์ํํ๋ ๋ณตํฉ ํ์คํฌ์ ๋๋ค. Package ํ์คํฌ๋ ํจํค์ง๋ฅผ ๋ค์ด ์ฌ๋ฆฌ๊ณ ์ด๋์ํค๋ ๊ฒ์ ๋๋ค. Truck ํ์คํฌ๋ ํธ๋ญ์์ ๋ฌผ๊ฑด์ ํ์ญํ๋ ๊ฒ์ผ๋ก, ์ฅ๊ธฐ์ ์ธ ๊ณํ์ด ํ์ํฉ๋๋ค. Highbar(Simple/Hard) ํ์คํฌ๋ ์ฒ ๋ด์์ ํ์ ํ๋ ๊ฒ์ผ๋ก, ์ ์ ์ญํ ์ ์ด๊ฐ ํ์ํฉ๋๋ค. Powerlift ํ์คํฌ๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ฅผ ๋ค์ด์ฌ๋ฆฌ๋ ๊ฒ์ผ๋ก, ์ ์ ํ ์ ์ด๊ฐ ์๊ตฌ๋ฉ๋๋ค. Room ํ์คํฌ๋ ๋ฐฉ์์ ๋ค์ํ ๋ฌผ์ฒด์ ์ํธ์์ฉํ๋ ๋ณตํฉ ํ์คํฌ์ ๋๋ค.
4.4 ํ์คํฌ ๋์ด๋ ๋ถ์
๋ ผ๋ฌธ์ ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ํ์คํฌ๋ค์ ๋์ด๋๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋ ์ ์์ต๋๋ค.
์๋์ ์ผ๋ก ์ฌ์ด ํ์คํฌ๋ก๋ Stand, Walk, Reach ๋ฑ ๊ธฐ๋ณธ์ ์ธ ์ด๋ ๋ฐ ๋๋ฌ ํ์คํฌ๊ฐ ์์ต๋๋ค. ์ด๋ค์ ๋จ์ผ ๊ธฐ์ ์ ์๋ฌ๋ง์ผ๋ก๋ ์ด๋ ์ ๋ ํด๊ฒฐ ๊ฐ๋ฅํฉ๋๋ค.
์ค๊ฐ ๋์ด๋ ํ์คํฌ๋ก๋ Run, Sit, Balance, Push ๋ฑ์ด ์์ต๋๋ค. ์ด๋ค์ ๋ณตํฉ์ ์ธ ๊ธฐ์ ์กฐํฉ์ด๋ ๋ ์ ๋ฐํ ์ ์ด๋ฅผ ์๊ตฌํฉ๋๋ค.
๋งค์ฐ ์ด๋ ค์ด ํ์คํฌ๋ก๋ Kitchen, Truck, Highbar, Door ๋ฑ์ด ์์ต๋๋ค. ์ด๋ค์ ์ฅ๊ธฐ ๊ณํ, ๋ค์ํ ๊ธฐ์ ์ ์ํ์ฑ, ๋ณต์กํ ์ ์ ํ์์ ์๊ตฌํฉ๋๋ค. ํ์ฌ ์ต์ ์๊ณ ๋ฆฌ์ฆ๋ค๋ ์ด๋ฌํ ํ์คํฌ์์ ํฌ๊ฒ ๊ณ ์ ํ๊ณ ์์ต๋๋ค.
5. ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ
5.1 ํ ์คํธ๋ ์๊ณ ๋ฆฌ์ฆ ์์ธ ๋ถ์
์ฐ๊ตฌ์ง์ ๋ชจ๋ธ ๊ธฐ๋ฐ(model-based)๊ณผ ๋ชจ๋ธ ํ๋ฆฌ(model-free) ์ ๊ทผ๋ฒ์ ๋ชจ๋ ํฌํจํ๋ ๋ค ๊ฐ์ง ๋ํ์ ์ธ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ์ต๋๋ค. ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ํน์ฑ๊ณผ HumanoidBench์์์ ์ ์ฉ ๋ฐฉ์์ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
5.1.1 DreamerV3
DreamerV3๋ Danijar Hafner ๋ฑ์ด ๊ฐ๋ฐํ ์ต์ ๋ชจ๋ธ ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ํต์ฌ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
DreamerV3๋ ํ๊ฒฝ์ ๋์ญํ์ ํ์ตํ๋ ์๋ ๋ชจ๋ธ(World Model)์ ๊ตฌ์ถํฉ๋๋ค. ์ด ์๋ ๋ชจ๋ธ์ Recurrent State-Space Model(RSSM) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ ์ฌ ์ํ ๊ณต๊ฐ์์ ํ๊ฒฝ์ ์ ์ด ๋์ญํ์ ์์ธกํฉ๋๋ค. ํ์ต๋ ์๋ ๋ชจ๋ธ ๋ด์์ ์์์ ๋กค์์(imaginary rollout)์ ์ํํ์ฌ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ค์ ํ๊ฒฝ ์ํธ์์ฉ ์์ด๋ ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ โ์์โํ๋ฉฐ ํ์ตํ ์ ์์ด ์ํ ํจ์จ์ฑ์ด ๋์ต๋๋ค.
DreamerV3์ ์ฃผ์ ๊ธฐ์ ์ ํน์ง์ผ๋ก๋ symlog ์์ธก์ ํตํ ๋ค์ํ ์ค์ผ์ผ์ ๋ณด์ ์ฒ๋ฆฌ, ๊ณ ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก ๋ค์ํ ๋๋ฉ์ธ์์ ์๋ํ๋ ๋ฒ์ฉ์ฑ, ๊ทธ๋ฆฌ๊ณ actor-critic ๊ตฌ์กฐ๋ฅผ ํ์ฉํ ์ ์ฑ ์ต์ ํ๊ฐ ์์ต๋๋ค.
HumanoidBench์์ DreamerV3๋ ์ฝ 10M ํ๊ฒฝ ์คํ ์ ์ํํ์ผ๋ฉฐ, ์๋ ๋ชจ๋ธ์ ํ์ต์ ์๋นํ ๊ณ์ฐ ์์์ด ํ์ํ์ต๋๋ค.
5.1.2 TD-MPC2
TD-MPC2๋ Nicklas Hansen ๋ฑ์ด ๊ฐ๋ฐํ ์ต์ ๋ชจ๋ธ ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์๊ฐ์ฐจ ํ์ต(Temporal Difference Learning)๊ณผ ๋ชจ๋ธ ์์ธก ์ ์ด(Model Predictive Control)๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
TD-MPC2์ ํต์ฌ ๊ตฌ์ฑ ์์๋ ์ ์ฌ ๊ณต๊ฐ์์์ ๋์ญํ ๋ชจ๋ธ, ๋ณด์ ์์ธก ๋ชจ๋ธ, ๊ฐ์น ํจ์(value function), ๊ทธ๋ฆฌ๊ณ ์ ์ฑ ์ฌ์ ๋ถํฌ(policy prior)์ ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์จ๋ผ์ธ ๊ณํ(online planning)์ ์ํํฉ๋๋ค. ๊ฐ ์๊ฐ ์คํ ์์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฏธ๋ ๊ถค์ ์ ์๋ฎฌ๋ ์ด์ ํ๊ณ , Model Predictive Path Integral(MPPI) ๊ธฐ๋ฐ์ ์ํ๋ง์ ํตํด ์ต์ ํ๋์ ์ ํํฉ๋๋ค.
TD-MPC2๋ ํ์ฅ์ฑ์ด ๋ฐ์ด๋ ๋ค์ํ ์ฐ์ ์ ์ด ๋ฌธ์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํฉ๋๋ค. HumanoidBench์ 61์ฐจ์ ํ๋ ๊ณต๊ฐ์์๋ ์๋์ ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
5.1.3 SAC (Soft Actor-Critic)
SAC๋ Tuomas Haarnoja ๋ฑ์ด ๊ฐ๋ฐํ ์คํ-ํด๋ฆฌ์ ๋ชจ๋ธ ํ๋ฆฌ RL ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ต๋ ์ํธ๋กํผ ๊ฐํํ์ต(Maximum Entropy RL) ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
SAC์ ํต์ฌ ์์ด๋์ด๋ ๋ณด์ ์ต๋ํ์ ํจ๊ป ์ ์ฑ ์ ์ํธ๋กํผ๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ํ์(exploration)๊ณผ ํ์ฉ(exploitation) ์ฌ์ด์ ๊ท ํ์ ์๋์ผ๋ก ์กฐ์ ํฉ๋๋ค. ๋ชฉ์ ํจ์๋ J(\pi) = \sum_t \mathbb{E}_{(s_t, a_t) \sim \rho_\pi}[r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot|s_t))]๋ก ํํ๋ฉ๋๋ค. ์ฌ๊ธฐ์ \alpha๋ ์จ๋ ํ๋ผ๋ฏธํฐ๋ก, ์ํธ๋กํผ์ ์ค์๋๋ฅผ ์กฐ์ ํฉ๋๋ค.
SAC๋ ๋ฆฌํ๋ ์ด ๋ฒํผ๋ฅผ ์ฌ์ฉํ ์คํ-ํด๋ฆฌ์ ํ์ต์ผ๋ก ์ํ ํจ์จ์ฑ์ด ๋๊ณ , ๋ ๊ฐ์ Q-ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๊ณผ๋์ถ์ (overestimation)์ ๋ฐฉ์งํ๋ฉฐ, ์๋ ์จ๋ ์กฐ์ ๋ก ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ๋ถ๋ด์ ์ค์ ๋๋ค.
๊ทธ๋ฌ๋ HumanoidBench์ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์๋ ํ์์ ์ด๋ ค์์ผ๋ก ์ธํด ์ฑ๋ฅ์ด ์ ํ๋์์ต๋๋ค.
5.1.4 PPO (Proximal Policy Optimization)
PPO๋ John Schulman ๋ฑ์ด ๊ฐ๋ฐํ ์จ-ํด๋ฆฌ์ ๋ชจ๋ธ ํ๋ฆฌ RL ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ฐ๋จํ๋ฉด์๋ ์์ ์ ์ธ ์ ์ฑ ์ ๋ฐ์ดํธ๋ฅผ ํน์ง์ผ๋ก ํฉ๋๋ค.
PPO์ ํต์ฌ์ ํด๋ฆฌํ๋ ๋๋ฆฌ ๋ชฉ์ ํจ์(clipped surrogate objective)์ ๋๋ค. ์ ์ฑ ์ ๋ฐ์ดํธ์ ํฌ๊ธฐ๋ฅผ ์ ํํ์ฌ ํ์ต์ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค. ๋ชฉ์ ํจ์๋ L^{CLIP}(\theta) = \mathbb{E}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]๋ก, ์ฌ๊ธฐ์ r_t(\theta)๋ ์๋ก์ด ์ ์ฑ ๊ณผ ์ด์ ์ ์ฑ ์ ํ๋ฅ ๋น์จ์ ๋๋ค.
PPO๋ ๊ตฌํ์ด ๊ฐ๋จํ๊ณ ์์ ์ ์ด๋ฉฐ, ๋ณ๋ ฌํ๋ฅผ ํตํด ํ์ฅ ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฌ๋ ์จ-ํด๋ฆฌ์ ํน์ฑ์ผ๋ก ์ธํด ์ํ ํจ์จ์ฑ์ด ๋ฎ์ต๋๋ค. HumanoidBench์์๋ ๋๊ท๋ชจ ๋ณ๋ ฌํ ์์ด๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์ด, ์ผ๋ถ ํ์คํฌ(walk, kitchen, door, package)์์๋ง ํ ์คํธ๋์์ต๋๋ค. ์ค์ ๋ก walk ํ์คํฌ์์ PPO๋ ๊ทธ๋ํ์์ ๊ฑฐ์ ๋ณด์ด์ง ์์ ์ ๋๋ก ๋ฎ์ ๋ฆฌํด์ ๋ฌ์ฑํ์ต๋๋ค.
5.2 ์คํ ์ค์ ์์ธ
5.2.1 ํ์ต ํ๊ฒฝ ๋ฐ ์ปดํจํ ์์
๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ 48์๊ฐ ๋์ ํ์ต๋์์ต๋๋ค. ์ฌ์ฉ๋ ํ๋์จ์ด๋ ๋ ผ๋ฌธ์์ ๋ช ์์ ์ผ๋ก ๊ธฐ์ ๋์ง ์์์ง๋ง, ์ผ๋ฐ์ ์ธ GPU ํด๋ฌ์คํฐ ํ๊ฒฝ์์ ์คํ์ด ์ํ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
48์๊ฐ์ด๋ผ๋ ๋์ผํ ์๊ฐ ์ ์ฝ ํ์์, ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ค๋ฅธ ์์ ํ๊ฒฝ ์คํ ์ ์ํํ์ต๋๋ค. DreamerV3๋ ์ฝ 10M ์คํ ์ผ๋ก, ์๋ ๋ชจ๋ธ ํ์ต์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ์ด ํ์ํฉ๋๋ค. TD-MPC2๋ ์ ์ฌํ ์์ค์ ์คํ ์ ์ํํ์ผ๋ฉฐ, ์จ๋ผ์ธ ๊ณํ์ ์ถ๊ฐ ๊ณ์ฐ์ด ํ์ํฉ๋๋ค. SAC๋ ๋ ๋ง์ ํ๊ฒฝ ์คํ ์ ์ํํ ์ ์์๋๋ฐ, ๋ชจ๋ธ ํ์ต์ด ์์ด ์๋์ ์ผ๋ก ๋น ๋ฆ ๋๋ค. PPO๋ ์จ-ํด๋ฆฌ์ ํน์ฑ์ผ๋ก ์ธํด ํจ์จ์ฑ์ด ๋ฎ์ต๋๋ค.
5.2.2 ํ๊ฐ ๋ฉํธ๋ฆญ
์ฑ๋ฅ ํ๊ฐ์๋ ์ํผ์๋ ๋ฆฌํด(episode return)์ด ์ฌ์ฉ๋์์ต๋๋ค. ์ด๋ ์ํผ์๋ ์ ์ฒด์ ๊ฑธ์น ๋ณด์์ ํฉ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค. ๋ํ, ํ์คํฌ๋ณ๋ก ์ฑ๊ณต ์๊ณ๊ฐ(success threshold)์ด ์ ์๋์ด ์์ด, ์๊ณ ๋ฆฌ์ฆ์ด ํ์คํฌ๋ฅผ โํด๊ฒฐโํ๋์ง ํ๋จํ๋ ๊ธฐ์ค์ด ๋ฉ๋๋ค. ๋ชจ๋ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ ๋๋ค ์๋๋ก ์คํ๋์ด ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ก ๋ณด๊ณ ๋์์ต๋๋ค.
5.2.3 ๊ด์ธก ๋ฐ ํ๋ ๊ณต๊ฐ ์ค์
์คํ์์๋ ์ฃผ๋ก ์ํ ๊ธฐ๋ฐ ๊ด์ธก(state-based observation)์ด ์ฌ์ฉ๋์์ต๋๋ค. ์ด๋ ๋ก๋ด์ ๊ณ ์ ์์ฉ๊ฐ๊ฐ ์ ๋ณด(๊ด์ ๊ฐ๋, ๊ฐ์๋)์ ํ์คํฌ ๊ด๋ จ ํ๊ฒฝ ์ํ(๊ฐ์ฒด ์์น ๋ฑ)๋ฅผ ํฌํจํฉ๋๋ค. ์๊ฐ์ ๊ด์ธก์ด๋ ์ด๊ฐ ๊ด์ธก์ ๊ธฐ๋ณธ ๋ฒค์น๋งํน์์๋ ์ฌ์ฉ๋์ง ์์์ต๋๋ค.
ํ๋ ๊ณต๊ฐ์ 61์ฐจ์์ ์ฐ์ ๊ณต๊ฐ์ผ๋ก, [-1, 1] ๋ฒ์๋ก ์ ๊ทํ๋์ด ์์ต๋๋ค. ์์น ์ ์ด ๋ชจ๋๊ฐ ์ฌ์ฉ๋์ด, ์์ด์ ํธ๋ ๋ชฉํ ๊ด์ ์์น๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
5.3 ์ด๋ ํ์คํฌ ๊ฒฐ๊ณผ ์์ธ ๋ถ์
5.3.1 Walk ํ์คํฌ
Walk ํ์คํฌ๋ ๋ก๋ด์ด ์ฝ 1m/s์ ์๋๋ก ์์ ์ ์ผ๋ก ๋ณดํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
TD-MPC2๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋น ๋ฅด๊ฒ ์์ ์ ์ธ ๋ณดํ ํจํด์ ํ์ตํ์ผ๋ฉฐ, ํ์ต ๊ณก์ ์ด ๊ฐ์ฅ ๊ฐํ๋ฅด๊ฒ ์์นํ์ต๋๋ค. ์จ๋ผ์ธ ๊ณํ ๋ฅ๋ ฅ์ด ๊ท ํ ์ ์ง์ ๋์์ด ๋ ๊ฒ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
DreamerV3๋ ์ค์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๊ธฐ ํ์ต์ ๋๋ ธ์ง๋ง ์ ์ง์ ์ผ๋ก ๊ฐ์ ๋์์ผ๋ฉฐ, ์๋ ๋ชจ๋ธ ํ์ต ํ ์์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
SAC๋ ํ์ต์ ์ฑ๊ณตํ์ง๋ง ์๋ ด์ด ๋๋ ธ์ต๋๋ค. ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์์ ํ์์ด ์ด๋ ค์ ๊ณ , ์ต์ข ์ฑ๋ฅ์ TD-MPC2๋ณด๋ค ๋ฎ์์ต๋๋ค.
PPO๋ ๊ฑฐ์ ํ์ต์ ์คํจํ์ต๋๋ค. ๊ทธ๋ํ์์ ๊ฑฐ์ ๋ณด์ด์ง ์์ ์ ๋๋ก ๋ฎ์ ๋ฆฌํด์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์จ-ํด๋ฆฌ์ ํ์ต์ ์ํ ๋นํจ์จ์ฑ์ด ์ฌ๊ฐํ ๋ฌธ์ ๊ฐ ๋์์ต๋๋ค.
5.3.2 Stand ํ์คํฌ
Stand ํ์คํฌ๋ ๋ก๋ด์ด ์ง๋ฆฝ ์์ธ๋ฅผ ์ ์งํ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํ์คํฌ์ ๋๋ค.
๋๋ถ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋น๊ต์ ์ฝ๊ฒ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ Stand๊ฐ ๋ค๋ฅธ ๋ชจ๋ ํ์คํฌ์ ๊ธฐ์ด๊ฐ ๋๋ ๊ธฐ๋ณธ ๊ธฐ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. TD-MPC2์ DreamerV3๊ฐ ๊ฐ์ฅ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ , SAC๋ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๊ธฐ๋ณธ์ ์ธ ๊ท ํ ์ ์ง๋ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
5.3.3 Run ํ์คํฌ
Run ํ์คํฌ๋ ์ฝ 5m/s์ ๋น ๋ฅธ ์๋๋ก ๋ฌ๋ฆฌ๋ ๊ฒ์ ์๊ตฌํฉ๋๋ค.
๋ชจ๋ ์๊ณ ๋ฆฌ์ฆ์ด Walk๋ณด๋ค ๋ ํฐ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. TD-MPC2๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ์ฑ๊ณต ์๊ณ๊ฐ์๋ ๋๋ฌํ์ง ๋ชปํ์ต๋๋ค. ๋น ๋ฅธ ๋ฌ๋ฆฌ๊ธฐ๋ ๋ ์ญ๋์ ์ธ ๊ท ํ ์ ์ด์ ์๋์ง ํจ์จ์ ์ธ ๋ณดํ ํจํด์ ์๊ตฌํฉ๋๋ค. ๊ณ ์ ์ด๋ ์ ๋ฐ์ํ๋ ๋ณต์กํ ๋์ญํ์ด ํ์ต์ ์ด๋ ต๊ฒ ๋ง๋ค์์ต๋๋ค.
5.3.4 ๋ณต์กํ ์ด๋ ํ์คํฌ (Hurdle, Crawl, Stair, Maze ๋ฑ)
Hurdle, Crawl, Stair, Slide, Maze, Pole, Balance ๋ฑ์ ๋ณต์กํ ์ด๋ ํ์คํฌ์์๋ ๋ชจ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์ฑ๊ณต ์๊ณ๊ฐ ์ดํ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
Hurdle ํ์คํฌ์์ ๋ก๋ด์ ํ๋ค์ ์ธ์ํ๊ณ ๋ฐ์ด๋๋ ๋์์ ํ์ตํด์ผ ํฉ๋๋ค. ์ ํ ๋์์ ๋ฐ๊ฒฌ์ด ์ด๋ ค์ ๊ณ , ํ์ด๋ฐ๊ณผ ๋์ด ์กฐ์ ์ด ๋ณต์กํ์ต๋๋ค.
Crawl ํ์คํฌ์์๋ ๋ฎ์ ์์ธ๋ก ์ ํํ๊ณ ๊ธฐ์ด๊ฐ๋ ๊ฒ์ด ํ์ํฉ๋๋ค. ์ง๋ฆฝ ์์ธ์์ ๋ฒ์ด๋๋ ๊ฒ์ด ์ข ๋ฃ ์กฐ๊ฑด๊ณผ ์ถฉ๋ํ ์ ์์ด ํ์ต์ด ์ด๋ ค์ ์ต๋๋ค.
Stair ํ์คํฌ์์๋ ๊ณ๋จ์ ๋์ด์ ๋ง์ถฐ ๋ฐ์ ๋ค์ด์ฌ๋ฆฌ๋ ์ ๋ฐํ ์ ์ด๊ฐ ํ์ํฉ๋๋ค. ๊ฐ ๊ณ๋จ์ ๋ํ ์ ์์ด ๋ณต์กํ ๋ฌธ์ ๊ฐ ๋์์ต๋๋ค.
5.4 ์กฐ์ ํ์คํฌ ๊ฒฐ๊ณผ ์์ธ ๋ถ์
์กฐ์ ํ์คํฌ๋ ์ด๋ ํ์คํฌ๋ณด๋ค ๋์ฑ ๋์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์ด๋ ์ ๊ตํ ์ ์ ์ด์ ์ ์ ํ์์ ์กฐํฉ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
5.4.1 Reach ํ์คํฌ
Reach ํ์คํฌ๋ 3D ๊ณต๊ฐ์ ๋ชฉํ ์ง์ ์ ์์ ๋๋ฌ์ํค๋ ๊ธฐ๋ณธ ์กฐ์ ํ์คํฌ์ ๋๋ค.
์๋์ ์ผ๋ก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ์๋ฒฝํ ๋๋ฌ์ ์ด๋ ค์ ์ต๋๋ค. ๋ชฉํ ์์น๊ฐ ์์ ๊ณต๊ฐ์ ๊ฒฝ๊ณ์ ์์ ๋ ์ด๋ ค์์ด ์ฆ๊ฐํ๊ณ , ๋๋ฌํ๋ฉด์ ๊ท ํ์ ์ ์งํ๋ ๊ฒ์ด ๋ณต์กํ์ต๋๋ค.
5.4.2 Push ํ์คํฌ
Push ํ์คํฌ๋ ํ ์ด๋ธ ์์ ์์๋ฅผ ๋ฐ์ด ๋ชฉํ ์์น๋ก ์ด๋์ํค๋ ๊ฒ์ ๋๋ค.
์๋-ํฌ-์๋ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๊ฑฐ์ 0%์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด ํ์คํฌ๊ฐ ์ด๋ ค์ด ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ์์๋ฅผ ๋ฐ๊ธฐ ์ํ ์ ์ ํ ์ ์์น๋ฅผ ์ฐพ์์ผ ํ๊ณ , ๋ฐ๋ฉด์ ๋ก๋ด ์์ฒด๊ฐ ์ด๋ํด์ผ ํ๋ฉฐ, ์์์ ์์ง์์ ์์ธกํ๊ณ ์กฐ์ ํด์ผ ํฉ๋๋ค. ๋ค๋จ๊ณ ํ๋์ ์กฐํฉ์ด ํ์ํ์ฌ, ๋ฌด์์ ํ์์ผ๋ก๋ ์ฑ๊ณต ๊ฒฝํ์ ์ป๊ธฐ ์ด๋ ต์ต๋๋ค.
5.4.3 Door ํ์คํฌ
Door ํ์คํฌ๋ ๋ฌธ ์์ก์ด๋ฅผ ๋๋ฆฌ๊ณ ๋ฌธ์ ์ฌ๋ ๊ฒ์ ๋๋ค.
ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ์ ํ์ต์ด ๊ด์ฐฐ๋์์ต๋๋ค. ๋ก๋ด์ ๋ฌธ ์์ก์ด์ ์ ๊ทผํ๊ณ ์์ก์ด๋ฅผ ์ก์ ๋๋ฆฌ๋ ๊ฒ๊น์ง๋ ํ์ตํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ฌธ์ ๋น๊ธฐ๊ธฐ ์ํ ์ ์ ํ์์์ ์คํจํ์ต๋๋ค. ๋ฌธ์ ๋น๊ธฐ๋ ค๋ฉด ํ์ ๋น๊ธฐ๋ฉด์ ๋์์ ๋ชธ์ ๋ค๋ก ์ด๋์์ผ์ผ ํ๋๋ฐ, ์ด ๋ ๋์์ ์กฐํฉ์ด ์ด๋ ค์ ์ต๋๋ค. ์ด๋ ์กฐ์๊ณผ ์ด๋์ ๋งค๋๋ฌ์ด ํตํฉ์ด ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ํต์ฌ ๋์ ์์ ๋ณด์ฌ์ค๋๋ค.
5.4.4 Highbar ํ์คํฌ
Highbar ํ์คํฌ๋ ์ฒ ๋ด์์ ์ ์ ํ์ ์ ์ํํ๋ ๊ฒ์ ๋๋ค.
๋ก๋ด์ ๋ฐ์ ๋งค๋ฌ๋ ค ์๋ ๋ณด์์ ์ธ ํ๋์ ํ์ตํ์ต๋๋ค. ํ์ ์ ์๋ํ๋ฉด ๋ฐ์์ ๋จ์ด์ง ์ํ์ด ์์ด, ์ํผ์๋ ์ข ๋ฃ๋ฅผ ํผํ๊ธฐ ์ํด ๋จ์ํ ๋งค๋ฌ๋ ค ์๋ ๊ฒ์ ์ ํํ์ต๋๋ค. Dense reward๊ฐ ์ ๊ณต๋จ์๋ ๋ถ๊ตฌํ๊ณ , ์ฅ๊ธฐ์ ๋ชฉํ(ํ์ )๋ณด๋ค ๋จ๊ธฐ์ ์์ (๋งค๋ฌ๋ฆฌ๊ธฐ ์ ์ง)์ ์ฐ์ ์ํ์ต๋๋ค. ์ด๋ ๋จ๊ธฐ ๊ณํ์ ํ๊ณ์ ํ์์ ์ด๋ ค์์ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค.
5.4.5 ๋ณตํฉ ํ์คํฌ (Kitchen, Truck, Package ๋ฑ)
Kitchen, Truck, Room ๋ฑ์ ๋ณตํฉ ํ์คํฌ๋ ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ๊ฑฐ์ ํด๊ฒฐ ๋ถ๊ฐ๋ฅํ ์์ค์ ๋๋ค.
Kitchen ํ์คํฌ๋ ์ฌ๋ฌ ์ฃผ๋ฐฉ ๋๊ตฌ์ ์ํธ์์ฉํด์ผ ํฉ๋๋ค. ๋ณต์์ ํ์ ํ์คํฌ๊ฐ ์ํ์ฑ๋์ด์ผ ํ๊ณ , ๊ฐ ๋๊ตฌ์ ๋ง๋ ๋ค๋ฅธ ์กฐ์ ์ ๋ต์ด ํ์ํฉ๋๋ค.
Truck ํ์คํฌ๋ ํธ๋ญ์์ ๋ฌผ๊ฑด์ ํ์ญํด์ผ ํฉ๋๋ค. ๋ฌผ๊ฑด์ ์ง๊ณ , ์ด๋ํ๊ณ , ๋๋ ์ผ๋ จ์ ๋์์ด ํ์ํ๋ฉฐ, ์ฅ๊ธฐ์ ๊ณํ๊ณผ ๋ค์ํ ๋ฌผ๊ฑด์ ๋ํ ์ ์์ด ์๊ตฌ๋ฉ๋๋ค.
Package ํ์คํฌ์์ ๋ก๋ด์ ํจํค์ง์ ๊ฐ๊น์ด ์ ๊ทผํ๋ ๊ฒ์ ํ์ตํ์ง๋ง, ๋ค์ด์ฌ๋ฆฌ๋ ๋์์ ๋ฐ๊ฒฌํ์ง ๋ชปํ์ต๋๋ค. ํ์ต ์ค์ โ๋ค์ด์ฌ๋ฆฌ๊ธฐโ ๊ฒฝํ์ ๊ฑฐ์ ์ป์ง ๋ชปํ์ฌ, ์ด ๋์์ ํ์ตํ ๊ธฐํ๊ฐ ์์์ต๋๋ค.
5.5 ์๊ณ ๋ฆฌ์ฆ ๊ฐ ๋น๊ต ๋ถ์
5.5.1 ๋ชจ๋ธ ๊ธฐ๋ฐ vs ๋ชจ๋ธ ํ๋ฆฌ
์ ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ(TD-MPC2, DreamerV3)์ด ๋ชจ๋ธ ํ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ(SAC, PPO)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๋ชจ๋ธ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฅ์ ์ผ๋ก๋ ํ์ต๋ ๋ชจ๋ธ์ ํตํ ํจ์จ์ ์ธ ๊ณํ, ์์์ ๋กค์์์ ํตํ ์ถ๊ฐ ํ์ต ์ ํธ, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋ ์์ธก์ ํตํ ์ฅ๊ธฐ์ ์์ฌ๊ฒฐ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ์ด ํ์ํ๊ณ , ๋ชจ๋ธ ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์๋ค๋ ๋จ์ ๋ ์์ต๋๋ค.
5.5.2 TD-MPC2์ ์๋์ ์ฐ์
TD-MPC2๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ์ด์ ๋ฅผ ๋ถ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์จ๋ผ์ธ ๊ณํ์ ๊ฐ ์๊ฐ ์คํ ์์ ์ฌ๋ฌ ๋ฏธ๋ ๊ถค์ ์ ์๋ฎฌ๋ ์ด์ ํ์ฌ ๊ท ํ ์ ์ง์ ๊ฐ์ ์ฆ๊ฐ์ ๋ฌธ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋์ํฉ๋๋ค. ์ ์ฌ ๊ณต๊ฐ ํ์ต์ ๊ณ ์ฐจ์ ๊ด์ธก์ ์ ์ฐจ์ ํํ์ผ๋ก ์์ถํ์ฌ ํ์ต ํจ์จ์ฑ์ ๋์ ๋๋ค. ์ ์ฑ ์ฌ์ ๋ถํฌ๋ MPPI ์ํ๋ง์ ์ด๊ธฐํ์ ํ์ต๋ ์ ์ฑ ์ ์ฌ์ฉํ์ฌ ํ์ ํจ์จ์ฑ์ ๋์ ๋๋ค.
5.5.3 PPO์ ์คํจ ์์ธ
PPO๊ฐ ํนํ ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์ธ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ํ ๋นํจ์จ์ฑ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์จ-ํด๋ฆฌ์ ํ์ต์ ๊ฐ ์ ์ฑ ์ ๋ฐ์ดํธ๋ง๋ค ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์งํด์ผ ํฉ๋๋ค. 61์ฐจ์ ํ๋ ๊ณต๊ฐ์์ ์๋ฏธ ์๋ ๊ฒฝํ์ ์ป๊ธฐ ์ด๋ ต์ต๋๋ค.
๋ณ๋ ฌํ์ ๋ถ์ฌ๋ ๋ฌธ์ ์ ๋๋ค. PPO๋ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ด์ง๋ง, ๋ณธ ๋ฒค์น๋งํน์์๋ ์ ํ๋ ๋ณ๋ ฌํ๋ง ์ฌ์ฉ๋์์ต๋๋ค. MuJoCo MJX๋ฅผ ์ฌ์ฉํ ๋๊ท๋ชจ ๋ณ๋ ฌ PPO๋ ์ ์์ค ์ ์ฑ ํ์ต์์ ํจ๊ณผ์ ์์ด ํ์ธ๋์์ต๋๋ค.
5.6 ๊ฒฐ๊ณผ์ ์ข ํฉ์ ์์ฌ์
๋ฒค์น๋งํน ๊ฒฐ๊ณผ๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด์ ๋ํ ์ฌ๋ฌ ์ค์ํ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค.
5.6.1 ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์ ์ ์ฃผ
61์ฐจ์์ ํ๋ ๊ณต๊ฐ์ ํ์ฌ ์๊ณ ๋ฆฌ์ฆ๋ค์๊ฒ ์๋นํ ๋์ ์ ๋๋ค. ํ๋ ๊ณต๊ฐ์ ์ฐจ์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ํ์ํด์ผ ํ ๊ณต๊ฐ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค. ๋ฌด์์ ํ์์ผ๋ก ์๋ฏธ ์๋ ํ๋์ ๋ฐ๊ฒฌํ ํ๋ฅ ์ด ๊ทน๋๋ก ๋ฎ์์ง๋ฉฐ, ํนํ ์กฐ์ ํ์คํฌ์์ ์ ๊ตํ ์ ์ ์ด๊ฐ ์ด๋ ค์์ง๋๋ค.
5.6.2 ์ฅ๊ธฐ ๊ณํ์ ํ์์ฑ
๋ง์ ์๊ณ ๋ฆฌ์ฆ์ด ๋จ๊ธฐ์ ๋ณด์ ์ต๋ํ์ ์น์คํ์ฌ ์ฅ๊ธฐ์ ํ์คํฌ ์์์ ์คํจํฉ๋๋ค. Highbar ํ์คํฌ์์์ ๋ณด์์ ํ๋์ด ๋ํ์ ์์์ ๋๋ค. ๋ณต์กํ ํ์คํฌ๋ ๋ค๋จ๊ณ ๊ณํ์ ์๊ตฌํ๋ฉฐ, ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฌํ ์ฅ๊ธฐ ์์กด์ฑ์ ํฌ์ฐฉํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ต๋๋ค.
5.6.3 ๊ธฐ์ ์กฐํฉ์ ์ด๋ ค์
์ด๋๊ณผ ์กฐ์์ ๋์์ ์๊ตฌํ๋ ํ์คํฌ์์ ํนํ ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค. Door ํ์คํฌ์์ ์์ก์ด ๋๋ฆฌ๊ธฐ๋ ์ฑ๊ณตํ์ง๋ง ๋ฌธ ๋น๊ธฐ๊ธฐ๋ ์คํจํ๋ ๊ฒ์ด ์์์ ๋๋ค. ๋ค์ํ ์ ์ฒด ๋ถ์์ ํ์๋ ์ ์ด๊ฐ ํต์ฌ ๋์ ์ ๋๋ค.
5.6.4 ์ํ ํจ์จ์ฑ์ ์ค์์ฑ
๋ณต์กํ ํ์คํฌ๋ฅผ ํ์ตํ๊ธฐ ์ํด ํ์ํ ์ํ ์๊ฐ ํ์ค์ ์ผ๋ก ๊ฐ๋นํ๊ธฐ ์ด๋ ค์ด ์์ค์ ๋๋ค. ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด๋ฅผ ๊ณ ๋ คํ๋ฉด ์ํ ํจ์จ์ฑ์ ๋์ฑ ์ค์ํด์ง๋๋ค. ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์๋์ ์ฐ์๊ฐ ์ด๋ฅผ ๋ฐ์ํฉ๋๋ค.
6. ๊ณ์ธต์ ๊ฐํํ์ต(Hierarchical RL) ์ ๊ทผ๋ฒ
6.1 ์๋-ํฌ-์๋ ํ์ต์ ๊ทผ๋ณธ์ ํ๊ณ
5์ฅ์ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ์์ ํ์ธํ๋ฏ์ด, ํ์ฌ ์ต์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ HumanoidBench์ ๋ง์ ํ์คํฌ์์ ๊ณ ์ ํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ์ ๊ทผ๋ณธ์ ์ธ ์์ธ์ ๋ถ์ํด๋ณด๋ฉด ๊ณ์ธต์ ์ ๊ทผ์ ํ์์ฑ์ด ๋ช ํํด์ง๋๋ค.
6.1.1 ํ์ ๊ณต๊ฐ์ ํญ๋ฐ
61์ฐจ์ ํ๋ ๊ณต๊ฐ์์ ์๋ฏธ ์๋ ํ๋ ์ํ์ค๋ฅผ ๋ฌด์์๋ก ๋ฐ๊ฒฌํ ํ๋ฅ ์ ๊ทน๋๋ก ๋ฎ์ต๋๋ค. ์๋ฅผ ๋ค์ด, Push ํ์คํฌ๋ฅผ ์ฑ๊ณตํ๋ ค๋ฉด ์์๋ฅผ ํฅํด ์ด๋ํ๊ณ , ์ ์ ํ ์ ์์น๋ฅผ ์ก๊ณ , ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋ฐ๊ณ , ๊ท ํ์ ์ ์งํ๋ ์ผ๋ จ์ ๋์์ด ํ์ํฉ๋๋ค. ์ด๋ฌํ ๋์ ์ํ์ค๊ฐ ๋ฌด์์ ํ์์์ ๋ฐ์ํ ํ๋ฅ ์ ์ฌ์ค์ 0์ ๊ฐ๊น์ต๋๋ค.
6.1.2 ์ ์ฉ ํ ๋น ๋ฌธ์ (Credit Assignment Problem)
์ฅ๊ธฐ ํ์คํฌ์์๋ ์ด๋ค ํ๋์ด ์ต์ข ์ฑ๊ณต์ ๊ธฐ์ฌํ๋์ง ํ๋จํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์๋ฐฑ ์คํ ์ ๊ฑธ์น ์ํผ์๋์์, ์ด๊ธฐ์ ์ข์ ํ๋์ด ์ต์ข ๋ณด์์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์ง ์ญ์ ํํ๊ธฐ ์ด๋ ต์ต๋๋ค.
6.1.3 ๊ธฐ์ ์ ์ฌ์ฌ์ฉ ๋ถ๊ฐ
์๋-ํฌ-์๋ ํ์ต์์๋ ๊ฐ ํ์คํฌ๋ฅผ ์ฒ์๋ถํฐ ํ์ตํฉ๋๋ค. โ๊ฑท๊ธฐโ๋ผ๋ ๊ธฐ๋ณธ ๊ธฐ์ ์ Walk ํ์คํฌ์์ ํ์ตํ๋๋ผ๋, Push ํ์คํฌ์์ ์ด๋ฅผ ์ฌ์ฌ์ฉํ์ง ๋ชปํฉ๋๋ค. ์ด๋ ํ์ต ํจ์จ์ฑ์ ํฌ๊ฒ ์ ํ์ํต๋๋ค.
6.2 ๊ณ์ธต์ ๊ฐํํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ
6.2.1 ์ต์ ํ๋ ์์ํฌ (Options Framework)
๊ณ์ธต์ RL์ ๊ณ ์ ์ ์ด๋ก ๊ธฐ๋ฐ์ Sutton ๋ฑ์ด ์ ์ํ ์ต์ (Options) ํ๋ ์์ํฌ์ ๋๋ค. ์ต์ ์ ์ธ ๊ฐ์ง ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: ์ต์ ์ด ์์๋ ์ ์๋ ์ํ ์งํฉ์ธ ์ด๊ธฐํ ์กฐ๊ฑด(Initiation Set) \mathcal{I}, ์ต์ ๋ด์์์ ํ๋ ์ ์ฑ ์ธ ๋ด๋ถ ์ ์ฑ (Intra-option Policy) \pi, ๊ทธ๋ฆฌ๊ณ ์ต์ ์ด ์ข ๋ฃ๋ ํ๋ฅ ์ ์ ์ํ๋ ์ข ๋ฃ ์กฐ๊ฑด(Termination Condition) \beta์ ๋๋ค.
๊ณ ์์ค ์ ์ฑ ์ ์ด๋ค ์ต์ ์ ์ ํํ ์ง ๊ฒฐ์ ํ๊ณ , ์ ํ๋ ์ต์ ์ ๋ด๋ถ ์ ์ฑ ์ด ์คํ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ์๊ฐ์ ์ถ์ํ(temporal abstraction)๊ฐ ๊ฐ๋ฅํด์ง๋๋ค.
6.2.2 ๋ชฉํ ์กฐ๊ฑด๋ถ ์ ์ฑ (Goal-Conditioned Policies)
HumanoidBench์์ ์ฌ์ฉ๋ ๊ณ์ธต์ ์ ๊ทผ์ ๋ชฉํ ์กฐ๊ฑด๋ถ ์ ์ฑ (Goal-Conditioned Policy) ํจ๋ฌ๋ค์์ ๋ฐ๋ฆ ๋๋ค.
์ ์์ค ์ ์ฑ \pi_L(a|s, g)๋ ์ฃผ์ด์ง ๋ชฉํ g๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ํ๋์ ์ถ๋ ฅํฉ๋๋ค. ๊ณ ์์ค ์ ์ฑ \pi_H(g|s)๋ ์ ์์ค ์ ์ฑ ์๊ฒ ์ ๊ณตํ ๋ชฉํ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ด ๊ตฌ์กฐ์์ ๊ณ ์์ค ์ ์ฑ ์ ํ๋ ๊ณต๊ฐ์ ๋ชฉํ ๊ณต๊ฐ์ด ๋์ด, ์๋์ 61์ฐจ์ ํ๋ ๊ณต๊ฐ๋ณด๋ค ํจ์ฌ ์์์ง ์ ์์ต๋๋ค.
6.3 ์ ์์ค ์ ์ฑ ํ์ต ์์ธ
6.3.1 MuJoCo MJX๋ฅผ ํ์ฉํ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ์ต
์ฐ๊ตฌ์ง์ MuJoCo MJX(MuJoCo์ JAX ๊ฐ์ ๋ฒ์ )๋ฅผ ํ์ฉํ์ฌ ์ ์์ค ์ ์ฑ ์ ํ์ตํ์ต๋๋ค. MJX๋ GPU์์ ์์ฒ ๊ฐ์ ํ๊ฒฝ์ ๋ณ๋ ฌ๋ก ์๋ฎฌ๋ ์ด์ ํ ์ ์์ด, PPO์ ๊ฐ์ ์จ-ํด๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ํ ๋นํจ์จ์ฑ์ ๊ทน๋ณตํ ์ ์์ต๋๋ค.
๋ณ๋ ฌํ์ ๊ท๋ชจ๋ ์์ฒ ๊ฐ์ ํ๊ฒฝ์ด ๋์์ ์๋ฎฌ๋ ์ด์ ๋๋ฉฐ, ๊ฐ ์ ์ฑ ์ ๋ฐ์ดํธ๋ง๋ค ๋๋์ ๊ฒฝํ์ด ์์ง๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ช ์๊ฐ ๋ด์ ์๋ฐฑ๋ง ์คํ ์ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
6.3.2 ํ ์ ๋๋ฌ ์ ์ฑ (Single-Hand Reaching)
ํ ์ ๋๋ฌ ์ ์ฑ ์ ์ผ์์ 3D ๊ณต๊ฐ์ ๋ชฉํ ์ง์ ์ผ๋ก ์ด๋์ํต๋๋ค.
์ ๋ ฅ: ๋ก๋ด ์ํ(๊ด์ ๊ฐ๋, ๊ฐ์๋) + ๋ชฉํ ์์น(3D ์ขํ) ์ถ๋ ฅ: ์ ์ ๊ด์ ๋ช ๋ น(61์ฐจ์)
๋ณด์ ํจ์๋ ์๊ณผ ๋ชฉํ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ๊ธฐ๋ฐํ๋ฉฐ, ๋๋ฌ ์ ๋ณด๋์ค๊ฐ ์ฃผ์ด์ง๊ณ ์ง๋ฆฝ ์์ธ ์ ์ง์ ๋ํ ๋ณด์์ด ํฌํจ๋ฉ๋๋ค. ๋ํ ์๋์ง ํจ์จ์ฑ์ ๋ํ ํจ๋ํฐ๊ฐ ์ ์ฉ๋ฉ๋๋ค.
ํ์ต๋ ์ ์ฑ ์ ๋ค์ํ ๋ชฉํ ์์น์ ๋ํด ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ๋ณด์ ๋๋ค. ํ์ต ์ค์ ๋ณธ ์ ์๋ ์์น์๋ ํฉ๋ฆฌ์ ์ผ๋ก ๋๋ฌํ ์ ์์ต๋๋ค.
6.3.3 ์์ ๋๋ฌ ์ ์ฑ (Two-Hand Reaching)
์์ ๋๋ฌ ์ ์ฑ ์ ์์์ ๊ฐ๊ฐ์ ๋ชฉํ ์ง์ ์ผ๋ก ๋์์ ์ด๋์ํต๋๋ค.
์ ๋ ฅ: ๋ก๋ด ์ํ + ์ผ์ ๋ชฉํ(3D) + ์ค๋ฅธ์ ๋ชฉํ(3D) ์ถ๋ ฅ: ์ ์ ๊ด์ ๋ช ๋ น(61์ฐจ์)
์์ ๋๋ฌ์ ํ ์ ๋๋ฌ๋ณด๋ค ๋ ๋ณต์กํ ๊ท ํ ์ ์ด๋ฅผ ์๊ตฌํฉ๋๋ค. ๋ ํ์ ์์ง์์ด ์๋ก ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๋ฌด๊ฒ์ค์ฌ ์ด๋์ด ๋ ํฌ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด ์ ์ฑ ์ ๋ ๋ณต์กํ ์์ ์กฐ์ ํ์คํฌ์์ ์ฌ์ฉ๋ฉ๋๋ค.
6.3.4 ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ์ฌ์ฉ
์ ์์ค ์ ์ฑ ํ์ต์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด, ๋ฐ ๋ถ๋ถ์๋ง ์ถฉ๋ ๋ฉ์ฌ๊ฐ ์๋ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ์ด ์ฌ์ฉ๋์์ต๋๋ค.
์ด ์ ํ์ ์ด์ ๋ ๋๋ฌ ํ์คํฌ์์ ์๊ณผ ๋ฌผ์ฒด์ ์ํธ์์ฉ์ด ์์ด, ์์ ์์ธํ ์ถฉ๋ ๋ชจ๋ธ์ด ๋ถํ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ถฉ๋ ๊ฒ์ถ ๊ณ์ฐ์ด ์ค์ด๋ค์ด ์๋ฎฌ๋ ์ด์ ์๋๊ฐ ํฅ์๋ฉ๋๋ค. ๋ฐ์ ์ถฉ๋์ ๊ท ํ ์ ์ง์ ํ์์ ์ด๋ฏ๋ก ์ ์ง๋ฉ๋๋ค.
6.4 ๊ณ์ธต์ ์ํคํ ์ฒ ์์ธ
6.4.1 ์ํคํ ์ฒ ๊ตฌ์กฐ
HumanoidBench์ ๊ณ์ธต์ ์ํคํ ์ฒ๋ ๋ ์์ค์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๊ณ ์์ค ์ ์ฑ (High-Level Policy):
- ์ ๋ ฅ: ๋ก๋ด ์ํ + ํ์คํฌ ๊ด๋ จ ์ํ(์: ์์ ์์น)
- ์ถ๋ ฅ: ์ ์์ค ์ ์ฑ ์๊ฒ ์ ๋ฌํ ์ธํธํฌ์ธํธ(์: 3D ๋ชฉํ ์์น)
- ํ์ต: DreamerV3 ๋๋ TD-MPC2 ์ฌ์ฉ
- ํ๋ ๊ณต๊ฐ: 3์ฐจ์(ํ ์) ๋๋ 6์ฐจ์(์์)์ผ๋ก ๋ํญ ์ถ์
์ ์์ค ์ ์ฑ (Low-Level Policy):
- ์ ๋ ฅ: ๋ก๋ด ์ํ + ๊ณ ์์ค ์ ์ฑ ์ด ์ ๊ณตํ ๋ชฉํ
- ์ถ๋ ฅ: ์ค์ ๊ด์ ๋ช ๋ น(61์ฐจ์)
- ์ฌ์ ํ์ต๋จ(frozen): ๊ณ ์์ค ํ์ต ์ค ์ ๋ฐ์ดํธ๋์ง ์์
- ๊ณ ์ ๋ ์ฃผํ์๋ก ๋ชฉํ๋ฅผ ์ถ์
6.4.2 ์๊ฐ์ ์ถ์ํ
๊ณ์ธต์ ๊ตฌ์กฐ์์ ์๊ฐ์ ์ถ์ํ๊ฐ ๋ฐ์ํฉ๋๋ค.
๊ณ ์์ค ์ ์ฑ ์ ๋ ๋ฎ์ ์ฃผํ์๋ก ๊ฒฐ์ ์ ๋ด๋ฆฝ๋๋ค. ์๋ฅผ ๋ค์ด, ๋งค 10 ์๋ฎฌ๋ ์ด์ ์คํ ๋ง๋ค ์๋ก์ด ๋ชฉํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ ์์ค ์ ์ฑ ์ ๋งค ์คํ ๋ง๋ค ์คํ๋์ด ๋ชฉํ๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณ ์์ค ์ ์ฑ ์ ๋ ์ถ์์ ์ธ ์์ค์์ ๊ณํํ ์ ์์ต๋๋ค.
6.4.3 Push ํ์คํฌ์์์ ๊ตฌ์ฒด์ ์ ์ฉ
Push ํ์คํฌ์์ ๊ณ์ธต์ ์ํคํ ์ฒ์ ๊ตฌ์ฒด์ ์๋ ๋ฐฉ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ํ์คํฌ ๋ชฉํ: ํ ์ด๋ธ ์์ ์์๋ฅผ ๋ชฉํ ์์น๋ก ๋ฏผ๋ค.
๊ณ ์์ค ์ ์ฑ :
- ์ ๋ ฅ: ๋ก๋ด ์ํ, ์์ ํ์ฌ ์์น, ์์ ๋ชฉํ ์์น
- ์ถ๋ ฅ: ์ผ์์ด ๋๋ฌํด์ผ ํ 3D ์์น
- ํ๋ ๊ณต๊ฐ ์ ํ: ๋ก๋ด์ ์์ ๊ณต๊ฐ ๋ด๋ก ๋ชฉํ ๋ฒ์ ์ ํ
์ ์์ค ์ ์ฑ :
- ์ ๋ ฅ: ๋ก๋ด ์ํ, ๊ณ ์์ค์ด ์ ๊ณตํ ์ ๋ชฉํ ์์น
- ์ถ๋ ฅ: 61์ฐจ์ ๊ด์ ๋ช ๋ น
- ๋์: ์์ ๋ชฉํ ์์น๋ก ์ด๋์ํค๋ฉด์ ๊ท ํ ์ ์ง
์ํธ์์ฉ ํ๋ฆ:
- ๊ณ ์์ค ์ ์ฑ ์ด ์์ ๊ทผ์ฒ์ ์์น๋ฅผ ๋ชฉํ๋ก ์ถ๋ ฅ
- ์ ์์ค ์ ์ฑ ์ด ์์ ํด๋น ์์น๋ก ์ด๋
- ์์ด ์์์ ์ ์ดํ์ฌ ๋ฐ๊ธฐ ์์
- ๊ณ ์์ค ์ ์ฑ ์ด ๋ฐ๊ธฐ ๋ฐฉํฅ์ ๋ฐ๋ผ ๋ชฉํ ์์น ์กฐ์
- ์์๊ฐ ๋ชฉํ ์์น์ ๋๋ฌํ ๋๊น์ง ๋ฐ๋ณต
6.5 ๊ณ์ธต์ ํ์ต ๊ฒฐ๊ณผ ์์ธ ๋ถ์
6.5.1 Push ํ์คํฌ ๊ฒฐ๊ณผ
Push ํ์คํฌ์์ ๊ณ์ธต์ ์ ๊ทผ์ ํจ๊ณผ๋ ๊ทน์ ์ด์์ต๋๋ค.
์๋-ํฌ-์๋ ์ ๊ทผ์ ์ฑ๊ณต๋ฅ ์ด ๊ฑฐ์ 0%์ ๊ฐ๊น์ ๋ ๋ฐ๋ฉด, ๊ณ์ธต์ ์ ๊ทผ์ ๋งค์ฐ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. DreamerV3 + Hierarchical ์กฐํฉ๊ณผ TD-MPC2 + Hierarchical ์กฐํฉ ๋ชจ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ฑ๊ณต ์์ธ์ ๋ถ์ํ๋ฉด, ํ๋ ๊ณต๊ฐ ์ถ์๊ฐ ์ค์ํ ์ญํ ์ ํ์ต๋๋ค. 61์ฐจ์์์ 3์ฐจ์์ผ๋ก ๋ํญ ์ถ์๋์ด ํ์์ด ์ฉ์ดํด์ก์ต๋๋ค. ๋ํ ์์ ์ ์ธ ์ ์์ค ๊ธฐ์ ๋๋ถ์ ์์ ๋ชฉํ ์์น๋ก ์ด๋์ํค๋ ๊ฒ์ ์ด๋ฏธ ํ์ต๋์ด ์์ด, ๊ณ ์์ค์ โ์ด๋๋กโ ์ด๋ํ ์ง๋ง ํ์ตํ๋ฉด ๋ฉ๋๋ค. ๋ช ํํ ํ์ ๋ชฉํ๋ ์ฑ๊ณต์ ๊ธฐ์ฌํ๋๋ฐ, ๊ณ ์์ค ์ ์ฑ ์ด ์ถ๋ ฅํ๋ ๋ชฉํ ์์น๋ ํด์ ๊ฐ๋ฅํ ์ค๊ฐ ํํ์ ๋๋ค.
6.5.2 Package ํ์คํฌ ๊ฒฐ๊ณผ
Package ํ์คํฌ์์๋ ์ฑ๋ฅ ํฅ์์ด ์์์ง๋ง, Push ํ์คํฌ๋งํผ ๊ทน์ ์ด์ง๋ ์์์ต๋๋ค.
Package ํ์คํฌ๊ฐ ๋ ์ด๋ ค์ด ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋ค์ด์ฌ๋ฆฌ๊ธฐ ๋์์ ๋ถ์ฌ๊ฐ ํต์ฌ ๋ฌธ์ ์ ๋๋ค. ๋๋ฌ ์ ์ฑ ์ ์์ ํน์ ์์น๋ก ์ด๋์ํค๋ ๊ฒ์ ํ์ตํ์ง๋ง, ๋ฌผ์ฒด๋ฅผ ์ง๊ณ ๋ค์ด์ฌ๋ฆฌ๋ ๊ฒ์ ํ์ตํ์ง ์์์ต๋๋ค. ํจํค์ง๋ฅผ ์ก๊ธฐ ์ํด์๋ ๋ ์์ ํ์์ด ํ์ํ๋ฉฐ, ์ด๋ ๋จ์ ๋๋ฌ๋ณด๋ค ๋ณต์กํฉ๋๋ค.
์ ์์ค ์ ์ฑ ์ ํ๊ณ๊ฐ ๊ณ ์์ค ์ฑ๋ฅ์ ์ ํํฉ๋๋ค. ์ ์์ค์ด โ๋ค์ด์ฌ๋ฆฌ๊ธฐโ๋ฅผ ์ํํ ์ ์์ผ๋ฏ๋ก, ๊ณ ์์ค์ด ์๋ฌด๋ฆฌ ์ข์ ๊ณํ์ ์ธ์๋ ์คํ์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ์ ์์ค ๊ธฐ์ ์ธํธ์ ์์ ์ฑ์ด ์ค์ํจ์ ์์ฌํฉ๋๋ค.
6.5.3 ์ ๋์ ๋น๊ต
Push ํ์คํฌ์์ ์๋-ํฌ-์๋ DreamerV3๋ ๋งค์ฐ ๋ฎ์ ๋ฆฌํด์ ๋ณด์์ง๋ง, ๊ณ์ธต์ DreamerV3๋ ์ฑ๊ณต ์๊ณ๊ฐ์ ํฌ๊ฒ ์ํํ๋ ๋ฆฌํด์ ๋ฌ์ฑํ์ต๋๋ค. ํ์ต ์๋ ์ธก๋ฉด์์๋ ๊ณ์ธต์ ์ ๊ทผ์ด ํจ์ฌ ๋น ๋ฅด๊ฒ ์๋ ดํ์ต๋๋ค. ๋ถ์ฐ๋ ๊ณ์ธต์ ์ ๊ทผ์์ ๋ ๋ฎ์ ์์ ์ ์ธ ํ์ต์ ๋ณด์์ต๋๋ค.
6.6 ์ ์์ค ์ ์ฑ ์ ์ฌ์ฌ์ฉ์ฑ
๊ณ์ธต์ ์ ๊ทผ์ ํต์ฌ ์ฅ์ ์ค ํ๋๋ ์ ์์ค ์ ์ฑ ์ ์ฌ์ฌ์ฉ์ ๋๋ค.
ํ ๋ฒ ํ์ต๋ ๋๋ฌ ์ ์ฑ ์ ์ฌ๋ฌ ํ์คํฌ์์ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. Push ํ์คํฌ์์ ์์๋ฅผ ๋ฏธ๋ ๋ฐ ์ฌ์ฉ๋๊ณ , Package ํ์คํฌ์์ ํจํค์ง์ ์ ๊ทผํ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, ์ ์ฌ์ ์ผ๋ก Door, Cabinet ๋ฑ ๋ค๋ฅธ ์กฐ์ ํ์คํฌ์๋ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
์ด๋ฌํ ์ฌ์ฌ์ฉ์ฑ์ ์๋ก์ด ํ์คํฌ ํ์ต์ ๊ฐ์ํํ๊ณ , ํ์ต๋ ๊ธฐ์ ์ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ ๋ณต์กํ ํ์คํฌ๋ก์ ์ ์ง์ ํ์ฅ์ ์ง์ํฉ๋๋ค.
6.7 ๊ณ์ธต์ ์ ๊ทผ์ ํ๊ณ์ ๋์
6.7.1 ์ ์์ค ์ ์ฑ ์ค๊ณ์ ์ด๋ ค์
์ด๋ค ์ ์์ค ๊ธฐ์ ์ด ํ์ํ์ง ์ฌ์ ์ ๊ฒฐ์ ํด์ผ ํฉ๋๋ค. ํ์คํฌ์ ์ ํฉํ ๊ธฐ์ ์ธํธ๋ฅผ ์ ํํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, ๋ถ์์ ํ ๊ธฐ์ ์ธํธ๋ ํ์คํฌ ํด๊ฒฐ์ ๋ถ๊ฐ๋ฅํ๊ฒ ํ ์ ์์ต๋๋ค.
6.7.2 ์ธํฐํ์ด์ค ์ค๊ณ
๊ณ ์์ค๊ณผ ์ ์์ค ๊ฐ์ ์ธํฐํ์ด์ค(๋ชฉํ ๊ณต๊ฐ)๋ฅผ ์ค๊ณํด์ผ ํฉ๋๋ค. ๋๋ฌด ์ ์ฐจ์์ด๋ฉด ํํ๋ ฅ์ด ๋ถ์กฑํ๊ณ , ๋๋ฌด ๊ณ ์ฐจ์์ด๋ฉด ํ์์ด ์ด๋ ค์์ง๋๋ค. ํ์คํฌ์ ๋ฐ๋ผ ์ ์ ํ ์ถ์ํ ์์ค์ด ๋ค๋ฅผ ์ ์์ต๋๋ค.
6.7.3 ์ ์์ค ์ ์ฑ ์ ํ๊ณ
์ฌ์ ํ์ต๋ ์ ์์ค ์ ์ฑ ์ด ์ง์ํ์ง ์๋ ํ๋์ ์ํํ ์ ์์ต๋๋ค. ๋๋ฌ ์ ์ฑ ์ โ์ก๊ธฐโ๋ โ๋๋ฆฌ๊ธฐโ ๊ฐ์ ๋์์ ์ํํ์ง ๋ชปํฉ๋๋ค. ์ด๋ Door ํ์คํฌ์์ ์์ก์ด๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ด๋ ค์ด ์ด์ ์ค ํ๋์ ๋๋ค.
6.7.4 ์ ์์ค๊ณผ ๊ณ ์์ค์ ๋ถ์ผ์น
์ ์์ค ์ ์ฑ ์ด ๊ณ ์์ค์ ์๋๋ฅผ ์ ํํ ์คํํ์ง ๋ชปํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ์์ค์ด ํน์ ์์น๋ฅผ ๋ชฉํ๋ก ์ ์ํด๋, ์ ์์ค์ด ์ ํํ ๊ทธ ์์น์ ๋๋ฌํ์ง ๋ชปํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์คํ ์ค๋ฅ๊ฐ ๋์ ๋๋ฉด ํ์คํฌ ์คํจ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
6.8 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
6.8.1 ์๋ ๊ธฐ์ ๋ฐ๊ฒฌ (Automatic Skill Discovery)
์ฌ์ ์ ์๋ ์ ์์ค ์ ์ฑ ๋์ , ์๋์ผ๋ก ์ ์ฉํ ๊ธฐ์ ์ ๋ฐ๊ฒฌํ๋ ๋ฐฉ๋ฒ์ด ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ์ด๋ฅผ ์ํ ์ ๊ทผ๋ฒ์ผ๋ก๋ ์ ๋ณด ์ด๋ก ์ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ ๊ธฐ์ ๋ฐ๊ฒฌ, ํ์คํฌ ๋ถํด๋ฅผ ํตํ ํ์ ๊ธฐ์ ์ถ์ถ, ๊ทธ๋ฆฌ๊ณ ์์ฐ ๋ฐ์ดํฐ์์ ๊ธฐ์ ์ถ์ถ ๋ฑ์ด ์์ต๋๋ค.
6.8.2 ๋ค์ํ ์ ์์ค ๊ธฐ์ ์ ๋์ ์กฐํฉ
์ฌ๋ฌ ์ ์์ค ๊ธฐ์ ์ ์ํฉ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ ํํ๊ณ ์กฐํฉํ๋ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค. ๊ฑท๊ธฐ, ๋๋ฌ, ์ก๊ธฐ ๋ฑ ๋ค์ํ ๊ธฐ์ ์ ๋ณด์ ํ๊ณ , ํ์คํฌ ์๊ตฌ์ ๋ฐ๋ผ ์ ์ ํ ๊ธฐ์ ์ ์ ํํ๋ฉฐ, ๊ธฐ์ ๊ฐ ๋งค๋๋ฌ์ด ์ ํ์ ๊ตฌํํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
6.8.3 ์ ์์ค ์ ์ฑ ์ ์จ๋ผ์ธ ์ ์
์ฌ์ ํ์ต๋ ์ ์์ค ์ ์ฑ ์ ํ์คํฌ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ๋ ์์ต๋๋ค. ๊ณ ์์ค ํ์ต ์ค์ ์ ์์ค๋ ํจ๊ป ์ ๋ฐ์ดํธํ๋, ์์ ์ฑ์ ์ ์งํ๋ฉด์ ์ ์ํ๋ ๊ฒ์ด ๋์ ์ ๋๋ค.
6.8.4 ์ธ์ด ์กฐ๊ฑด๋ถ ๊ณ์ธต์ ์ ์ด
์์ฐ์ด ๋ช ๋ น์ ํตํด ๊ณ ์์ค ๋ชฉํ๋ฅผ ์ง์ ํ๋ ๋ฐฉ๋ฒ๋ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด โ์์๋ฅผ ์ผ์ชฝ์ผ๋ก ๋ฐ์ดโ๋ผ๋ ๋ช ๋ น์ ๊ณ ์์ค ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ ๊ณํ ์์ฑ์ด ๊ฐ๋ฅํฉ๋๋ค.
7. ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ ์ฌ์ธต ๋ถ์
7.1 ๋ณด์ ํจ์ ์ค๊ณ
HumanoidBench์ ๋ณด์ ํจ์๋ ํ์คํฌ๋ณ๋ก ์ธ์ฌํ๊ฒ ์ค๊ณ๋์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ค์ ์์๋ค์ ํฌํจํฉ๋๋ค.
ํ์คํฌ ์ฑ๊ณต ๋ณด์์ ๋ชฉํ ๋ฌ์ฑ ์ ์ฃผ์ด์ง๋ ๋ณด์์ ๋๋ค. ์งํ ๋ณด์์ ๋ชฉํ์ ๊ฐ๊น์์ง์๋ก ์ฆ๊ฐํ๋ shaping ๋ณด์์ ๋๋ค. ์ง๋ฆฝ ๋ณด์์ ๋ก๋ด์ด ์ ์๋ ์์ธ๋ฅผ ์ ์งํ๋ ๊ฒ์ ๋ํ ๋ณด์์ ๋๋ค. ์๋์ง ํจ๋ํฐ๋ ๊ณผ๋ํ ์ก์ถ์์ดํฐ ์ฌ์ฉ์ ๋ํ ํ๋ํฐ์ ๋๋ค.
ํนํ ์ง๋ฆฝ ๋ณด์์ ๋งค์ฐ ๋์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ ํด๋จธ๋ ธ์ด๋ ์ ์ด์์ ๊ท ํ ์ ์ง๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ฐ์ํฉ๋๋ค.
7.2 ์ํผ์๋ ์ข ๋ฃ ์กฐ๊ฑด
๋๋ถ๋ถ์ ํ์คํฌ์์ ๋ก๋ด์ด ๋์ด์ง๋ฉด ์ํผ์๋๊ฐ ์ข ๋ฃ๋ฉ๋๋ค. ์ด๋ ๋ก๋ด์ด โ์์ ํโ ํ๋์ ํ์ตํ๋๋ก ์ ๋ํ์ง๋ง, ๋์์ ํ์์ ์ ํํ๋ ํจ๊ณผ๋ ์์ต๋๋ค. Highbar ํ์คํฌ์์ ๋ก๋ด์ด ํ์ ์ ์๋ํ์ง ์๊ณ ๋จ์ํ ๋งค๋ฌ๋ ค ์๋ ํ๋์ ํ์ตํ๋ ๊ฒ์ด ๊ทธ ์์ ๋๋ค.
7.3 ์ด๊ฐ ์ผ์ฑ ๊ตฌํ
HumanoidBench์ ์ด๊ฐ ์ผ์ฑ ๊ตฌํ์ ํนํ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ถฉ๋ ๋ฉ์ฌ๋ฅผ ์ธ๋ถํํ์ฌ ์ ์ด์ ํ๋ณด๋ฅผ ์ฆ๊ฐ์ํค๊ณ , MuJoCo ํฐ์น ๊ทธ๋ฆฌ๋์ ๊ณต๊ฐ ํด์๋๋ฅผ ์ต๋ํ ํ์ฉํฉ๋๋ค. ์ ๋ถ๋ถ์ ๊ณ ํด์๋, ๋ค๋ฅธ ๋ถ์๋ ์ ํด์๋๋ก ์ค๊ณํ์ฌ ์ธ๊ฐ์ ์ด๊ฐ ๋ถํฌ๋ฅผ ๋ชจ๋ฐฉํฉ๋๋ค. ๊ฐ ํ์ ์ 3์ฐจ์ ์ ์ด๋ ฅ(๋ฒ์ ๋ ฅ + ์ ๋จ๋ ฅ)์ ์ ๊ณตํฉ๋๋ค.
7.4 ์๊ฐ ๊ด์ธก ๊ตฌํ
์๊ฐ ๊ด์ธก์ ๋ก๋ด ๋จธ๋ฆฌ์ ์ฅ์ฐฉ๋ ๋ ๋์ ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ ๊ณต๋ฉ๋๋ค. ์์ ์๊ฐ์ ํตํ ๊น์ด ์ธ์์ด ๊ฐ๋ฅํ๋ฉฐ, ์๊ธฐ์ค์ฌ์ ์์ ์ผ๋ก ์ค์ ๋ก๋ด์์์ ๊ตฌํ์ ๊ณ ๋ คํฉ๋๋ค. ํ์ฌ ๋ฒค์น๋งํน์์๋ ์ฃผ๋ก ์ํ ๊ธฐ๋ฐ ๊ด์ธก์ ์ฌ์ฉํ์ง๋ง, ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ํ์ต์ ์ํ ๊ธฐ๋ฐ์ด ๋ง๋ จ๋์ด ์์ต๋๋ค.
8. ์ผ๋ฐ์ ์ธ ์คํจ ๋ชจ๋ ๋ถ์
HumanoidBench์์ ๊ด์ฐฐ๋ ์ฃผ์ ์คํจ ๋ชจ๋๋ค์ ๋ถ์ํ๋ฉด ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ํต์ฌ ๋์ ๊ณผ์ ๋ค์ ์ดํดํ ์ ์์ต๋๋ค.
8.1 Highbar ํ์คํฌ ์คํจ
๋ก๋ด์ด ๋ฐ์์ ๋จ์ด์ง์ง ์๊ธฐ ์ํด ๋ณด์์ ์ผ๋ก ๋งค๋ฌ๋ ค ์๋ ํ๋์ ํ์ตํฉ๋๋ค. ์ ์ ํ์ ๊ถค์ ์ ์ํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์ด๋ ๋จ๊ธฐ ๊ณํ์ ํ๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, dense reward์๋ ๋ถ๊ตฌํ๊ณ ์ฅ๊ธฐ์ ๋ชฉํ ๋ฌ์ฑ์ด ์ด๋ ต์ต๋๋ค.
8.2 Door ํ์คํฌ ์คํจ
๋ฌธ ์์ก์ด๋ฅผ ๋๋ ค ์ ๊ธ์ ํด์ ํ๋ ๊ฒ๊น์ง๋ ์ ํ์ตํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ฌธ์ ๋น๊ธฐ๊ธฐ ์ํด ํ์ํ ์ ๋ฐํ ๋์, ์ฆ ํ์ ๋น๊ธฐ๋ฉด์ ๋์์ ์ ์ ์ ๋ค๋ก ์ด๋์ํค๋ ๊ฒ์์ ์คํจํฉ๋๋ค. ์ด๋ ์กฐ์๊ณผ ์ด๋ ๊ธฐ์ ์ ๋งค๋๋ฌ์ด ์ํธ์์ฉ์ด ํ์ํจ์ ๋ณด์ฌ์ค๋๋ค.
8.3 Package ํ์คํฌ ์คํจ
ํจํค์ง์ ๊ฐ๊น์ด ์ ๊ทผํ๋ ๊ฒ์ ํ์ตํ์ง๋ง, ๋ค์ด์ฌ๋ฆฌ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ํ์ต ์ค์ ๋ค์ด์ฌ๋ฆฌ๋ ๊ฒฝํ์ด ์์ด ์ด ๋์์ ๋ฐ๊ฒฌํ๊ธฐ ์ด๋ ต์ต๋๋ค.
8.4 ๋ณตํฉ ํ์คํฌ ์คํจ
Kitchen, Truck ๋ฑ์ ๋ณตํฉ ํ์คํฌ์์๋ ์ฌ๋ฌ ํ์ ํ์คํฌ์ ์ํ์ฑ์ด ํ์ํฉ๋๋ค. ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฌํ ์ฅ๊ธฐ ๊ณํ๊ณผ ๊ธฐ์ ์กฐํฉ์์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค.
9. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
9.1 ๊ธฐ์กด ๋ก๋ด ํ์ต ๋ฒค์น๋งํฌ
OpenAI Gym / Gymnasium์ MuJoCo ๊ธฐ๋ฐ์ ๋ค์ํ ์ฐ์ ์ ์ด ํ๊ฒฝ์ ์ ๊ณตํ์ง๋ง, ํด๋จธ๋ ธ์ด๋ ํ์คํฌ๋ ์ ํ์ ์ ๋๋ค.
DeepMind Control Suite๋ ๊ณ ํ์ง MuJoCo ํ๊ฒฝ์ ์ ๊ณตํ์ง๋ง, ํด๋จธ๋ ธ์ด๋๋ ๋จ์ํ๋ ๋ชจ๋ธ์ด๊ณ ์กฐ์ ํ์คํฌ๊ฐ ์์ต๋๋ค.
RLBench๋ ๋ก๋ด ์กฐ์์ ์ํ ๋ฒค์น๋งํฌ์ด์ง๋ง, ๊ณ ์ ๋ ๋ฒ ์ด์ค์ ๋ก๋ด ํ์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
robosuite๋ ๋ก๋ด ์กฐ์ ์๋ฎฌ๋ ์ด์ ํ๋ ์์ํฌ์ด์ง๋ง, ์ญ์ ๊ณ ์ ๋ฒ ์ด์ค ๋ก๋ด์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
FurnitureBench๋ ์ฅ๊ธฐ horizon ์กฐ์์ ์ํ ๋ฒค์น๋งํฌ์ด์ง๋ง, ์ด๋ ๋ก๋ด์ด ์๋๋๋ค.
9.2 ํด๋จธ๋ ธ์ด๋ ๊ด๋ จ ๋ฒค์น๋งํฌ
LocoMuJoCo๋ ์ด๋ ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต ๋ฒค์น๋งํฌ์ ๋๋ค. ๋ค์ํ ์ด์กฑ/์ฌ์กฑ ๋ก๋ด์ ํฌํจํ์ง๋ง, ์กฐ์ ํ์คํฌ๊ฐ ์์ต๋๋ค.
MyoSuite / MyoDex๋ ๊ทผ๊ณจ๊ฒฉ ๋ชจํฐ ์ ์ด๋ฅผ ์ํ ๋ฒค์น๋งํฌ์ ๋๋ค. ์ ์กฐ์์ ์ด์ ์ ๋ง์ถ์ง๋ง, ์ ์ ํด๋จธ๋ ธ์ด๋๊ฐ ์๋๋๋ค.
Bi-DexHands๋ ์์ ์ ๊ต ์กฐ์์ ์ํ ๋ฒค์น๋งํฌ์ ๋๋ค. ์ ์กฐ์์ ํนํ๋์ด ์์ง๋ง, ์ ์ ์ด๋์ด ์์ต๋๋ค.
9.3 HumanoidBench์ ์ฐจ๋ณ์
HumanoidBench๋ ์ฌ๋ฌ ๋ฉด์์ ๋ ํนํ ์์น๋ฅผ ์ฐจ์งํฉ๋๋ค. ์ ์ ํด๋จธ๋ ธ์ด๋์ ์ ๊ตํ ์์ ์กฐํฉ์ ํน์ง์ผ๋ก ํ๋ฉฐ, ์ด๋๊ณผ ์กฐ์ ํ์คํฌ์ ํตํฉ, ๋ค์ํ ์ผ์ฑ ๋ชจ๋ฌ๋ฆฌํฐ(๊ณ ์ ์์ฉ, ์๊ฐ, ์ด๊ฐ) ์ง์, ์ค์ ๋ก๋ด ๋ชจ๋ธ(Unitree H1) ๊ธฐ๋ฐ, ๊ทธ๋ฆฌ๊ณ ํ์คํ๋ ๋ฒค์น๋งํน ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
10. HumanoidBench ์ดํ์ ์ฐ๊ตฌ ๋ํฅ
HumanoidBench ๋ฐํ ์ดํ, ์ด๋ฅผ ํ์ฉํ๊ฑฐ๋ ํ์ฅํ ์ฐ๊ตฌ๋ค์ด ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค.
10.1 ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ฐ๊ตฌ
TDMPBC(Self-Imitative RL)๋ TD-MPC2์ ํ๋ ๋ณต์ ์์ค์ ์ถ๊ฐํ์ฌ HumanoidBench์์ 120% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
TD-M(PC)ยฒ๋ ์ ์ฑ ์ ์ฝ์ ํตํ ์๊ฐ์ฐจ ํ์ต ๊ฐ์ ์ผ๋ก ๊ณ ์ฐจ์ ์ ์ด์์ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
MuJoCo MPC๋ ๋ชจ๋ธ ์์ธก ์ ์ด๋ฅผ HumanoidBench์ ์ ์ฉํ์ฌ ํ๊ฐํ์์ผ๋ฉฐ, RL๊ณผ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ๊ฐ๋ฅ์ฑ์ ํ์ํ์ต๋๋ค.
10.2 ๊ณ์ธต์ ํ์ต ์ฐ๊ตฌ
SkillBlender๋ ๊ธฐ๋ณธ ๊ธฐ์ ๋ค์ ๊ฐ๋ฐํ ํ ์ด๋ค์ ์กฐํฉํ์ฌ ๋ณต์กํ ํ์คํฌ๋ฅผ ์ํํ๋ ๊ณ์ธต์ RL ํ๋ ์์ํฌ์ ๋๋ค.
Opt2Skill์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ถค์ ์ต์ ํ์ RL์ ๊ฒฐํฉํ์ฌ ์ ์ ๋ก์ฝ-์กฐ์์ ๋ฌ์ฑํฉ๋๋ค.
HWC-Loco๋ ํด๋จธ๋ ธ์ด๋ ์ ์ ์ ์ด๋ฅผ ์ํ robust ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
10.3 Sim-to-Real ์ ์ด ์ฐ๊ตฌ
HumanoidBench์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ผ๋ก ์ ์ดํ๋ ์ฐ๊ตฌ๋ ์งํ ์ค์ ๋๋ค. ๋๋ฉ์ธ ๋๋คํ, ์ ์ํ ์ ์ด, ๊ทธ๋ฆฌ๊ณ robust ์ ์ฑ ํ์ต ๋ฑ์ ๊ธฐ๋ฒ์ด ํ๊ตฌ๋๊ณ ์์ต๋๋ค.
11. ๊ฒฐ๋ก
HumanoidBench๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ๋ฅผ ์ํ ํ๊ธฐ์ ์ธ ๋ฒค์น๋งํฌ์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๊ฐ ์ ๊ณตํ๋ ๊ฐ์น๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฐ๊ตฌ ๊ฐ์ํ์ ์ธก๋ฉด์์, ์์ ํ๊ณ ์ ๋ ดํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ํตํด ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ ๊ฐ์ํํฉ๋๋ค.
ํ์คํ๋ ํ๊ฐ์ ์ธก๋ฉด์์, ์ผ๊ด๋ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ณต์ ํ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋์ ๊ณผ์ ๋ช ์ํ์ ์ธก๋ฉด์์, ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ๋ช ํํ ๋๋ฌ๋ด์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
์ค์ฉ์ ๊ด๋ จ์ฑ์ ์ธก๋ฉด์์, ์ผ์ ์ํ ํ์คํฌ์ ์ด์ ์ ๋ง์ถฐ ์ฐ๊ตฌ์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋์ ๋๋ค.
๋ฒค์น๋งํน ๊ฒฐ๊ณผ๊ฐ ๋ณด์ฌ์ฃผ๋ฏ์ด, ํ์ฌ ์ต์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค๋ HumanoidBench์ ๋ง์ ํ์คํฌ์์ ํฌ๊ฒ ๊ณ ์ ํ๊ณ ์์ต๋๋ค. ์ด๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด๊ฐ ์ฌ์ ํ ์ด๋ฆฐ ๋ฌธ์ ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋์์ ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ํ๋ถํ ๊ธฐํ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ณ์ธต์ ํ์ต ์ ๊ทผ๋ฒ์ด ๋ณด์ฌ์ค ๊ฐ๋ฅ์ฑ์, ๊ตฌ์กฐํ๋ ํ์ต์ด ๊ณ ์ฐจ์ ์ ์ด ๋ฌธ์ ์์ ์ค์ํ ์ญํ ์ ํ ์ ์์์ ์์ฌํฉ๋๋ค. ํฅํ ์๋ ๊ธฐ์ ๋ฐ๊ฒฌ, ํจ์จ์ ์ธ ๊ธฐ์ ์กฐํฉ, ๊ทธ๋ฆฌ๊ณ sim-to-real ์ ์ด์ ๋ํ ์ฐ๊ตฌ๊ฐ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ค์ ๋ฐฐ์น๋ฅผ ์๋น๊ธธ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
HumanoidBench๋ ๋จ์ํ ๋ฒค์น๋งํฌ๋ฅผ ๋์ด, ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๋ฅผ ์ํ ๊ณต๋์ ๋์ ๊ณผ์ ์ด์ ํ๋ ฅ์ ํ๋ซํผ์ผ๋ก ์๋ฆฌ์ก์ ๊ฒ์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ ๋ง์ ์ฐ๊ตฌ์๋ค์ด ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ์ ์ฐธ์ฌํ๊ณ , ๊ถ๊ทน์ ์ผ๋ก ์ธ๊ฐ๊ณผ ํจ๊ป ์ผํ ์ ์๋ ์ง๋ฅ์ ์ธ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์คํ์ ๊ธฐ์ฌํ๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Sferrazza, C., Huang, D.-M., Lin, X., Lee, Y., & Abbeel, P. (2024). HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation. In Robotics: Science and Systems.
- Hansen, N., Su, H., & Wang, X. (2024). TD-MPC2: Scalable, Robust World Models for Continuous Control. In ICLR.
- Hafner, D., et al. (2023). DreamerV3: Mastering Diverse Domains through World Models. arXiv preprint.
- Haarnoja, T., et al. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning. In ICML.
- Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : HumanoidBench์ ๋๊ธฐ์ ์์
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ผ์ ํ๊ฒฝ์์ ์ฌ๋์ ๋์ธ ์ ์๋ ์ ์ฌ๋ ฅ์ ์ง๋ ์ง๋ง, ์ค์ ํ๋์จ์ด์ ๋น์ฉ๊ณผ ์ทจ์ฝ์ฑ์ผ๋ก ์ฐ๊ตฌ๊ฐ ์ง์ฒด๋๋ ๋ฌธ์ ๊ฐ ์๋ค. ์๋ฅผ ๋ค์ด Boston Dynamics์ Atlas๋ Tesla Optimus ๊ฐ์ ๊ณ ์ฑ๋ฅ ๋ก๋ด๋ ํน์ ์์ ์ ์ํด ์๋์ผ๋ก ์กฐ์ ๋ ์ ์ด๊ธฐ ์ค๊ณ๊ฐ ํ์ํ๋ฉฐ, ๊ณผ์ ๋ฅผ ๋ฐ๊พธ๋ฉด ๋ค์ ๋ง์ ์์ง๋์ด๋ง์ด ์๊ตฌ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์ฐจ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๊ณผ ๋ฒค์น๋งํฌ๊ฐ ํ์ํด์ก๋ค. HumanoidBench๋ ์ ์ ์ด๋ ๋ฐ ์กฐ์ ๊ณผ์ ๋ฅผ ๊ฐ์ถ ์ต์ด์ ํด๋จธ๋ ธ์ด๋ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ๋ก, ๋ณต์กํ ๋์ญํ ์ ์ด์ ์ฅ๊ธฐ ๊ณผ์ ๋ฅผ ์ฐ๊ตฌํ ์ ์๋ ์์ ํ๊ณ ๋น์ฉ ํจ์จ์ ์ธ ์ํ๋๋ฅผ ์ ๊ณตํ๋ค. ํนํ ๋ณธ ๋ฒค์น๋งํฌ๋ ๋ค์ํ ์ด๋ ๋ฐ ์กฐ์ ๊ณผ์ ๋ฅผ ํตํด ํด๋จธ๋ ธ์ด๋์ ๋ณต์กํ ๋์ ๊ฑฐ๋, ๊ฐ ๋ถ์ ๊ฐ์ ์ ๊ตํ ํ์, ์ฅ๊ธฐ ๋ชฉํ ๋ฌ์ฑ์ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ๋น ๋ฅด๊ฒ ํ์ ํ๋๋ก ๋๋๋ค.
HumanoidBench์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค: - ๋ ๊ฐ์ ๋ํ ์ผํ ์(dexterous hands) ์ ๊ฐ์ถ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์ ๊ณต. - ์ธ๊ฐ์ ์ผ์ ๊ณผ์ ๋ฅผ ํฌํจํ์ฌ ์ด๋(locomotion), ์กฐ์(manipulation), ์ ์ ์ ์ด(whole-body control) ๊ณผ์ ๋ฅผ ์์ฐ๋ฅด๋ ๋ค์ํ ๊ณผ์ ์ค์ํธ. - ๊ณ ์ฐจ์ ํด๋จธ๋ ธ์ด๋ ํ์ต์ ์ง์ฒ๋๋ฅผ ํ๊ฐํ ํ์คํ๋ ๋ฒค์น๋งํฌ ์ ๊ณต. - ์ต์ ๊ฐํํ์ต(RL) ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ณ์ธต์ (RL) ์ ๊ทผ ๋ฐฉ์์ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ ๊ณต์ .
์ด๋ก์จ HumanoidBench๋ ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ๊ณ ์ฐจ์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด์ ๋์ ๊ณผ์ ๋ฅผ ๋๋ฌ๋ด๊ณ , ์๊ณ ๋ฆฌ์ฆ์ด๋ ์์ด๋์ด๋ฅผ ์ ์ํ ๊ฒ์ฆํ ์ ์๋ ํ๋ซํผ์ ์ ๊ณตํ๋ค.
์๋ฎฌ๋ ์ด์ ํด๋จธ๋ ธ์ด๋ ํ๊ฒฝ ๋ฐ ๋ชจ๋ธ
HumanoidBench ํ๊ฒฝ์ MuJoCo ๋ฌผ๋ฆฌ์์ง์ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ๋๋ค. ์ฃผ ๋ก๋ด ํ๋ซํผ์ผ๋ก๋ Unitree H1์ ์ฑํํ๋๋ฐ, ์ด๋ ๋น๊ต์ ์ ๋น์ฉ์ด๋ฉฐ ์ ํํ ๋์ญํ ๋ชจ๋ธ์ ์ ๊ณตํ๋ ์ค๋ฌผ ํด๋จธ๋ ธ์ด๋ ๋ชจ๋ธ์ด๋ค. ์ด ๋ก๋ด์ ์ํ์๋ Shadow Robot์ ๋ํ ์ผํ 5์๊ฐ๋ฝ ํธ๋๊ฐ ๋ถ์ฐฉ๋์ด ์์ผ๋ฉฐ, ํด๋จธ๋ ธ์ด๋์ ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ๋ก ์ฌ์ฉ๋๋ค. (๋ฏธ๋์ ํธ๋ ๋๋ฅผ ๋ฐ์ํ์ฌ ๋ Shadow ํธ๋์ ์ ์๋ถ๋ ์ฌ๋ฆผํ๊ฒ ์์ ๋์๊ณ , Robotiq 2F-85 ๊ทธ๋ฆฌํผ ๋ฑ ๋ค๋ฅธ ์ ๋ชจ๋ธ๋ ์ต์ ์ผ๋ก ์ ๊ณต๋๋ค.) ๋ํ Unitree H1 ์ด์ธ์๋ Agility Robotics์ Digit ๋ชจ๋ธ๊ณผ ๊ฐ์ ์ถ๊ฐ ํด๋จธ๋ ธ์ด๋ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ํ์ฅ์ฑ์ ํ๋ณดํ๋ค.
๊ด์ธก(observation) ์ธก๋ฉด์์ HumanoidBench๋ ๋ก๋ด ์์ ์ ๋ด๋ถ ์ํ์ ํ๊ฒฝ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ๋ค. ๋ก๋ด ๊ด์ ์ ๊ฐ๋ยท์๋์ ๋ฌผ์ฒด์ ์์นยท์๋ ๋ฑ์ ์๊ธฐ ๊ณ ์ ์ํ(proprioceptive state) ๋ฅผ ๊ด์ธกํ๋ฉฐ, ๋ก๋ด ๋จธ๋ฆฌ ์์ ์ฅ์ฐฉ๋ ๋ ๊ฐ์ ์นด๋ฉ๋ผ์์ ์ป์ 1์ธ์นญ ์์ (egocentric) ๋น์ ์ ๋ณด๋ ์ง์ํ๋ค. ํนํ MuJoCo์ ์ด๊ฐ ๊ทธ๋ฆฌ๋ ์ผ์(tactile grid sensor)๋ฅผ ํ์ฉํ์ฌ ์ ์ ์ ๊ฑธ์น ์ด๊ฐ ๊ฐ์ง๋ ์ ๊ณตํ๋ค. ์ ๋ถ์๋ ๊ณ ํด์๋ ์ด๊ฐ ๊ฒฉ์๋ฅผ ์ ์ฉํ๊ณ , ๋ชธ์ฒด ๋ค๋ฅธ ๋ถ๋ถ์ ์ ํด์๋๋ก ํ์ฌ ์ฌ๋๊ณผ ์ ์ฌํ ๋ถํฌ์ ์ ์ด๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ป๋๋ค.
ํ๋(action) ์ธก๋ฉด์์๋ ๋ก๋ด์ ๊ฐ ๊ด์ ๋ชฉํ ์์น๋ฅผ ์ง์ ํ๋ ์์น ์ ์ด(position control) ๋ฐฉ์์ ๊ธฐ๋ณธ์ผ๋ก ์ฌ์ฉํ๋ค. ํ ํฌ ์ ์ด๋ ์ง์ํ์ง๋ง ์์น ์ ์ด๊ฐ ๋ ์์ ์ ์ด๋ฉฐ ๋ฎ์ ์ ์ด ์ฃผํ์์์๋ ์ ์๋ํ๋ค. ํ๋ ๊ณต๊ฐ์ ์ ์์ ํฌํจํ์ฌ ์ด 61์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋น๊ต์ ๋ฎ์ ์ฃผํ์(์: 20Hz ์์ค)๋ก ์ ์ด๋๋ค.
HumanoidBench ๊ณผ์ ๊ตฌ์ฑ: ์ด๋๊ณผ ์กฐ์
HumanoidBench์๋ ํฌ๊ฒ ์ด๋(locomotion) ๊ณผ ์ ์ ์กฐ์(whole-body manipulation) ๋ ์ข ๋ฅ์ ๊ณผ์ ๊ฐ ํฌํจ๋๋ค. ์ด๋ ๊ณผ์ ๋ ์์ ์ ๊ตํ ์กฐ์ ์์ด ๋ชธํต๊ณผ ํ๋ค๋ฆฌ๋ง์ผ๋ก ๋ก๋ด์ ์์ง์ด๊ฑฐ๋ ํน์ ์์ธ๋ฅผ ์ ์งํ๋ ๊ณผ์ ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ด๋ค์ ํ์ ํ ๋ณตํฉ ์กฐ์ ๊ณผ์ ์ ๊ธฐ๋ณธ ๊ธฐ์ ๋ก ํ์ฉ๋ ์ ์๋ค. ๋ฐ๋ฉด, ์กฐ์ ๊ณผ์ ๋ ์ ์๊ณผ ์ ์ ์ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ๋ณต์กํ ์์ ์ผ๋ก, ์ผ์์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ๋ฐ์ํ๋ค.
์ด๋ ๊ณผ์
HumanoidBench์ ์ด๋ ๊ณผ์ ๋ ์ ์ง ์์ธ ์ ์ง๋ถํฐ ๋์ ์ธ ์ด๋๊น์ง ๋ค์ํ๋ค. ๋ํ์ ์ธ ๊ณผ์ ๋ก๋ Walk(๋์ด์ง์ง ์๊ณ ์ผ์ ์๋๋ก ๊ฑท๊ธฐ), Stand(์ฃผ์ด์ง ์๊ฐ ๋์ ์ ์๊ธฐ), Run(๋น ๋ฅธ ์๋๋ก ๋ฌ๋ฆฌ๊ธฐ), Reach(์ผ์์ผ๋ก 3์ฐจ์ ๋ชฉํ ์์น์ ๋๋ฌํ๊ธฐ), Hurdle(๋์ด์ง์ง ์๊ณ ์ฅ์ ๋ฌผ ๋ฐ์ด๋๊ธฐ), Crawl(ํฐ๋์ ๊ธฐ์ด ์ง๋๊ธฐ), Maze(๋ฏธ๋ก ํ์), Sit(์์์ ์๊ธฐ), Balance(๋ถ์์ ํ ํ์์ ๊ท ํ ์ก๊ธฐ), Stair(๊ณ๋จ ์ค๋ฅด๋ด๋ฆฌ๊ธฐ), Slide(๋ฏธ๋๋ผํ์ ์ค๋ฅด๋ด๋ฆฌ๊ธฐ), Pole(๊ฐ๋๋ค๋ ๊ธฐ๋ฅ ์ฌ์ด๋ก ์ ์งํ๊ธฐ) ๋ฑ์ด ์๋ค. ์๋ฅผ ๋ค์ด, Walk ๊ณผ์ ๋ ์ ํด์ง ์๋๋ก ์์ผ๋ก ๊ฑธ์ผ๋ฉด์ ๋์ด์ง์ง ์๋ ๊ฒ์ด ๋ชฉํ์ด๊ณ , Stair ๊ณผ์ ๋ ๋ฐ๋ณต์ ์ผ๋ก ์ด์ด์ง ๊ณ๋จ์ ์ค๋ฅด๋ด๋ฆฌ๋ฉฐ ๋์ด์ง์ง ์์์ผ ํ๋ค.
์กฐ์ ๊ณผ์
์ ์ ์กฐ์ ๊ณผ์ ๋ ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ์ฌ๋๊ณผ ์ ์ฌํ ์์ ์ ์ํํ ์ ์๋๋ก ๋ค์ํ ์ํธ์์ฉ์ ํฌํจํ๋ค. ๋ํ์ ์ผ๋ก Push(์์๋ฅผ ํ ์ด๋ธ ์์ ๋ชฉํ ์์น๋ก ๋ฐ๊ธฐ), Cabinet(ํ์งํ/์ฌ๋ผ์ด๋ฉ/์๋ํ ๋ฑ ๋ค์ํ ์บ๋น๋ ๋์ด ์ด๊ธฐ), HighBar(์ํ ์ฒ ๋ด์ ์ก๊ณ ๋งค๋ฌ๋ฆฐ ์ฑ๋ก ๋ชธ์ ๋ค์ง๊ธฐ), Door(๋ฌธ์ ์ก์๋น๊ฒจ ์ฐ ํ ํต๊ณผํ๊ธฐ) ๋ฑ์ด ์๋ค. ์ด ๋ฐ์๋ Truck(ํธ๋ญ์์ ๋ฌผ์ฒด๋ฅผ ํ๋ซํผ์ผ๋ก ๋ด๋ฆฌ๊ธฐ), Cube(๋ ๊ฐ์ ํ๋ธ๋ฅผ ์ง์ด ํ์ ์์ผ ๋ชฉํ ์์ธ ๋ง์ถ๊ธฐ), Bookshelf(์ ๋ฐ์ ์ฌ๋ฌ ๋ฌผ๊ฑด์ ์ฃผ์ด์ง ์์๋๋ก ๋ฐฐ์น), Basketball(์ ๋ฐฉ์์ ์ค๋ ๋๊ตฌ๊ณต์ ์ก์ ๋๊ตฌ๊ณจ๋ก ๋์ง๊ธฐ), Window(์ฐฝ๋ฌธ ๋ฆ๊ธฐ ๋๊ตฌ๋ฅผ ์ก๊ณ ์์ง ๋ฐฉํฅ์ผ๋ก ๋ฆ๊ธฐ), Spoon(์๊ฐ๋ฝ์ผ๋ก ๊ตญ์ ์์ ์ก์ฒด๋ฅผ ์ํ์ผ๋ก ์๊ธฐ), Kitchen(์ ์๋ ์ธ์ง ๋ฌธ ์ด๊ธฐ, ์ฃผ์ ์ ์ด๋, ์ค์์น ์กฐ์ ๋ฑ ์ฃผ๋ฐฉ ์ผ๋ จ์ ๋์), Package(๋ฌด๊ฑฐ์ด ์์๋ฅผ ๋ค์ด ์ง์ ์์น๋ก ์ฎ๊ธฐ๊ธฐ), Powerlift(๋ฐ๋ฒจ ๋ชจ์ ๋ฌผ์ฒด ๋ค์ด์ฌ๋ฆฌ๊ธฐ), Room(๋์กํ๊ฒ ํฉ์ด์ง ๋ฌผ๊ฑด์ ์ ๋ฆฌํ์ฌ ๋ถ์ฐ๋ ์ต์ํํ๊ธฐ), Insert(์ง์ฌ๊ฐํ ๋ง๋์ ์ ๋์ ๋ ํ๊น ๋ธ๋ก์ ๋ฐ์ฐฉ ์ฝ์ ํ๊ธฐ) ๋ฑ ๋งค์ฐ ๋ค์ํ ์ค์ํ ์๋๋ฆฌ์ค๊ฐ ํฌํจ๋๋ค. ์๋ฅผ ๋ค์ด Push ๊ณผ์ ์์๋ ๋ฐ๋ฅ์ ๋์ธ ์์๋ฅผ ๋ชฉํ ์ง์ ๊น์ง ๋ฏผ ํ ๋ฉ์ถฐ์ผ ํ๊ณ , HighBar ๊ณผ์ ์์๋ ์ฒ ๋ด์ ๋งค๋ฌ๋ ค ๋ชธ์ ๊ฑฐ๊พธ๋ก ์์ ํ ์ฌ๋ ค์ผ ์ฑ๊ณตํ๋ค. ์ด๋ฌํ ์กฐ์ ๊ณผ์ ๋ ๋ก๋ด์ด ๊ท ํ์ ์ก์ผ๋ฉฐ ์ด๋ํ๊ณ , ๋ ์์ ํ๋์์ผ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ ๋ฑ ์ฌ๋ฌ ๋ชจ๋์ ๋ณตํฉ ํ๋์ ์๊ตฌํ๋ค.
Push ์์ ๋ชจ์ต
์ ์ ์ ์ด์ ๋์ ๊ณผ์
HumanoidBench๋ ๋งค์ฐ ๋์ ์์ ๋(DOF)๋ฅผ ์ง๋ ๋ก๋ด์ผ๋ก ๋ณต์กํ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ์ ๊ฐํํ์ต์์ ์ฌ๋ฌ ์ด๋ ค์์ ์ผ๊ธฐํ๋ค. ์ ์๋ค์ ์ฌ์ ํ๊ฐ์์ ์ต์ RL ๊ธฐ๋ฒ๋ค์ด ๋๋ถ๋ถ์ ๊ณผ์ ์์ ์ฑ๊ณต ์๊ณ์น(success threshold) ๋ฅผ ๋์ง ๋ชปํจ์ ๋ฐ๊ฒฌํ๋ค. ํนํ ์ฅ๊ธฐ ๊ณํ๊ณผ ์ ์ ํ์์ ํ์๋ก ํ๋ ์ด๋ ค์ด ๊ณผ์ ์ผ์๋ก ๋ ํ์ต์ด ์ ์ด๋ฃจ์ด์ง์ง ์์๋ค. ์ด์ ์ฃผ์ ์์ธ์ผ๋ก ์ ์๋ค์ ํด๋จธ๋ ธ์ด๋์ ์ํ ๋ฐ ํ๋ ๊ณต๊ฐ์ด 61์ฐจ์์ผ๋ก ๋งค์ฐ ๋์ ๋ฐ ๋ฐ๋ฅธ ํ์ ๊ณต๊ฐ์ ๊ธ๊ฒฉํ ํ์ฅ์ ์ง์ ํ๋ค. ์๋ฅผ ๋ค์ด ๋ค๋ฆฌ๊ฐ 6๊ฐ ์์ ๋, ๋ ์์ ๊ฐ 20๊ฐ ์ด์์ ์์ ๋๊ฐ ๋ํด์ง๋ฏ๋ก ์์ด์ ํธ๋ ๊ณ ๋ คํด์ผ ํ ๋ณ์๊ฐ ๋ง์์ง๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ์ด๋ ๊ณผ์ ์์ ๋ก๋ด์ด ์์ ๊ฑฐ์ ์ฌ์ฉํ์ง ์๋๋ผ๋, RL ์๊ณ ๋ฆฌ์ฆ์ ์์ ๊ด๋ จ๋ ์ถ๊ฐ ์์ ๋๋ฅผ ๋ฌด์ํ์ง ๋ชปํ๊ณ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ค๋ ์ฌ์ค์ด๋ค. ์ด๋ ๋จ์ํ ์ต๋ ์ํธ๋กํผ ๋ฐฉ๋ฒ๋ง์ผ๋ก๋ ๊ฑฐ๋ํ ํ์ ๊ณต๊ฐ์์ ์ ์๋ฏธํ ํ๋์ ์ฐพ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ๊ณ ์ฐจ์ ํด๋จธ๋ ธ์ด๋ ํ์ต์๋ ํ๋ ์ฐ์ ์์๋ ์์๊ณผ ๊ฐ์ ํด๋ฆฌ์คํฑ ๋์ ์ด ํ์ํจ์ ์์ฌํ๋ค.
์กฐ์ ๊ณผ์ ์์๋ ์ด ๋ฌธ์ ๊ฐ ๋์ฑ ์ฌํ๋๋ค. ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๊ธฐ ์ด์ ์ ๋ก๋ด์ ์์ ๋ ๊ท ํ์ ์ ์งํ๋ฉฐ ๋ชฉํ ์์น๋ก ์ด๋ํ๋ ๋ฅ๋ ฅ์ ๋จผ์ ํ์ตํด์ผ ํ๋๋ฐ, ๋๋ถ๋ถ์ ์์ด์ ํธ๋ ์ด ๋จ๊ณ์์ ์ ์กฐํ ๋ณด์๋ง ์ป์๊ณ ๋ณต์กํ ์กฐ์ ๊ธฐ์ ์ ๊ฑฐ์ ํ์ตํ์ง ๋ชปํ๋ค. ์๋ฅผ ๋ค์ด, ์ฒ ๋ด(highbar) ๊ณผ์ ์์ ๋ก๋ด์ ์ฒ ๋ด์ ๋ถ์ก์ ์ฑ ์์ธ๋ฅผ ์ ์งํ๋ ค ์๋ํ์ง๋ง ๋ค์งํ ๋ชฉํ ์์ธ์ ๋๋ฌํ๋ ๊ถค์ ์ ํ์ตํ์ง ๋ชปํ๋ค. ์ด๋ ๋จ๊ธฐ์ ๋ณด์๋ง์ ๊ณ ๋ คํ๋ RL ๊ธฐ๋ฒ์ด ์ฅ๊ธฐ์ ํ๋๋์ ํ์ง ๋ชปํ ๊ฒฐ๊ณผ์ด๋ค. ๋ฌธ์ ์ฌ๋(Door) ๊ณผ์ ์์๋ ๋น์ทํ ๋ฌธ์ ๊ฐ ๊ด์ฐฐ๋๋ค. ๋ก๋ด์ ๋ฌธ์ ์ก์๋น๊ธฐ๋ ์ด๊ธฐ ๋์์ ์ํํ์ง๋ง, ๋ฌธ์ ์ฐ ์ํ๋ฅผ ์ ์งํ๋ฉฐ ๋ชธ์ ๋ค๋ก ์ด๋ํด ํต๊ณผํ๊ธฐ ์ํ ์ธ๋ฐํ ์์ง์์ ํ์ตํ์ง ๋ชปํ๋ค. ์ด๋ ๋ฌธ ๋น๊ธฐ๊ธฐ์ ๋ก๋ด ์ ์ ์ด๋์ ํ์ ์ด ํ์ํจ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฅผ ๋ณ๋๋ก ํ์ตํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ ํ๋ค(Hurdle) ๊ณผ์ ์์๋ ๋ก๋ด์ด ๋ชฉํ ์๋๋ฅผ ์ ์งํด ์์ผ๋ก ๋ฌ๋ฆฌ๋ ๊ฒ์ ํ์ตํ์ผ๋, ์ ํ๋ฅผ ํตํด ํ๋ค์ ๋์ด๊ฐ์ผ ํ๋ค๋ ์ฌ์ค์ ํ์ํ์ง ๋ชปํ๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋ก๋ด์ ํ๋ค์ ์ถฉ๋ํ ๋ค ์ถฉ๋์ ํผํ๋ ์์ธ๋ง์ ์ฐพ์ผ๋ฉฐ ์์ ํ๋๋ ๋ณด์์ ํ๋๋ง ๋ณด์๋ค. ์ด์ฒ๋ผ HumanoidBench์ ๊ณผ์ ๋ค์ ๋์ ์์ ๋์ ์ ์ด์ด ๋น๋ฒํ ํ๊ฒฝ์์์ ์ฅ๊ธฐ ๋ชฉํ ๋ฌ์ฑ์ ์๊ตฌํ์ฌ, ๊ธฐ์กด์ ํํํ(end-to-end) ๊ฐํํ์ต์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ด๋ ต๋ค.
์ ์ฑ ํ์ต ํ๋ ์์ํฌ
HumanoidBench์ ์คํ์์๋ ๋ค์ํ ์ต์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๋ฒค์น๋งํฌ๋ฅผ ์ํํ์๋ค. ๋ชจ๋ธ ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ์ธ DreamerV3์ TD-MPC2, ๋ชจ๋ธ-ํ๋ฆฌ ์คํํด๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ธ SAC(Soft Actor-Critic), ๋ชจ๋ธ-ํ๋ฆฌ ์จํด๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ธ PPO(Proximal Policy Optimization) ๋ฑ์ ์ ๊ณผ์ ์ ์ ์ฉํ๋ค. ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ 48์๊ฐ ๋์ ํ์ต๋์์ผ๋ฉฐ, PPO๋ ์ํ ํจ์จ์ด ๋ฎ์ (๋ณ๋ ฌํ๊ฐ ํ์ํด) ์ผ๋ถ ๊ณผ์ ์ ํํด ์คํํ๋ค. ํ์ต ๊ฒฐ๊ณผ๋ Figure 3,4์ ์ ์๋ ํ๊ท ๋์ ๋ณด์ ๊ณก์ ์ผ๋ก ๋ํ๋๋ฉฐ, dashed line์ ๊ณผ์ ์ฑ๊ณต ์๊ณ์น๋ฅผ ๋ํ๋ธ๋ค.
ํํํ(end-to-end) ๊ฐํํ์ต ์ ๊ทผ๋ฒ์ ๋๋ถ๋ถ์ ๊ณผ์ ์์ ์ฑ๊ณต์ ์ด์ง ๋ชปํ๋ค. ์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด ๋์ ์ฐจ์๊ณผ ์ฅ๊ธฐ ๊ณผ์ ๋ก ์ธํด, ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ฌ์ง์ด ๋จ์ํ ๊ฑท๊ธฐ ๊ณผ์ ์กฐ์ฐจ๋ ๋งค์ฐ ๋ง์ ํ์ต ๋จ๊ณ๊ฐ ํ์ํ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. (์๋ฅผ ๋ค์ด DeepMind Control Suite์์๋ 2D ํด๋จธ๋ ธ์ด๋ ๊ฑท๊ธฐ ๊ณผ์ ๊ฐ ๋น๊ต์ ์ฝ๊ฒ ํ์ต๋ ๋ฐ ์๋๋ฐ๋, ์ด ํ๊ฒฝ์์๋ 3D ๋ชจ๋ธ๋ก ํ์ต์ด ์ด๋ ต๋ค.) ๋ํ PPO์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ณ๋ ฌํ๋ ํ๊ฒฝ์ด ํ๋ถํ ๋๋ ๋ก์ปฌ ์ํ ํจ์จ์ด ์ข์์ง์ง๋ง, ๋ก๋ด ๋ฌผ๋ฆฌ ์ถฉ๋์ ๋ชจ๋ ๊ณ ๋ คํ ๋ณต์กํ ์๋ฎฌ๋ ์ด์ ์์๋ GPU ๋ณ๋ ฌํ ์ด์ ์ด ํฌ์ง ์์๋ค. ์ด์ฒ๋ผ ํํํ RL๋ก๋ ํด๋จธ๋ ธ์ด๋์ ๊ณ ์ฐจ์ ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ด๋ ค์, ์ ์๋ค์ ๊ณ์ธต์ ๊ฐํํ์ต(hierarchical RL) ์ ๊ทผ์ ์ ์ํ์๋ค.
๊ณ์ธต์ RL ๊ตฌ์กฐ์์๋ ์ ์์ค(skill) ์ ์ฑ ์ด ๋ฏธ๋ฆฌ ํ์ต๋์ด ๊ณ ์์ค ๊ณํ์์๊ฒ ๊ธฐ๋ณธ ํ๋์ ์ ๊ณตํ๋ค. ๊ทธ๋ฆผ 6์ ๋ํ๋ ๊ฒ์ฒ๋ผ ๊ณ ์์ค ์ ์ฑ ์ ๋ก๋ด ์ํ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์๋ธ ๋ชฉํ(์: ์์์ ๋ชฉํ ์์น)๋ก ์ด๋ฃจ์ด์ง setpoint๋ฅผ ์ถ๋ ฅํ๊ณ , ์ ์์ค Reaching Policy๊ฐ ์ด๋ฅผ ๋ฐ์ ์ค์ ๊ด์ ์กฐ์ ํ๋(61์ฐจ์)์ ์ํํ๋ค. ์ด๋ ์ ์์ค ์ ์ฑ ์ ์ฃผ๋ก PPO๋ฅผ ์ด์ฉํด ์์ฒ ๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ์์ ์์ญ์ต ๋จ๊ณ๋ก ์ฌ์ ํ์ต๋์์ผ๋ฉฐ(1์ต ๋จ๊ณ ์ด์), ํ์ต ์ค ํ ํฌ ๊ฐ์ญ(force perturbation) ๋ฑ์ ๋์ ํ์ฌ ๋งค์ฐ ๊ฒฌ๊ณ ํ๊ฒ ํ๋ จ๋์๋ค. ๊ณ ์์ค ์ ์ฑ ์ ์ด๋ฌํ ๊ณ ์ ๋ ์ ์์ค ๋ธ๋ก์ ํ์ฉํ์ฌ ์ฃผ์ด์ง ๊ณผ์ ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ๋ชฉํ๋ฅผ ์์ฑํ๋๋ก DreamerV3๋ TD-MPC2๋ก ํ์ต๋๋ค.
๊ณ์ธต์ ์ ๊ทผ์ ์คํ ๊ฒฐ๊ณผ, ๋จ์ํ RL ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ ๋ชจ์ต์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด Push ๊ณผ์ ์์, ๊ณ์ธต์ ๊ตฌ์กฐ๋ ๊ณ ์์ค ์ ์ฑ ์ด ์ ์์ค ํ ๋๋ฌ ์ ์ฑ ์ ๋ชฉํ๋ฅผ ๋ณด๋ด๋๋ก ํ์ฌ ํํ์(E2E) ํ์ต๋ณด๋ค ํจ์ฌ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. ์ด๋ Push ๊ณผ์ ๊ฐ ์์๋ฅผ ๋ฏผ๋ค๋ ๋น๊ต์ ๋จ์ํ ์์ ์ด์ด์ ์ ์์ค ๋๋ฌ ์คํฌ๋ง์ผ๋ก ํด๊ฒฐํ ์ ์๋ ํน์ฑ๋ ์๊ธฐ์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ค. ํ์ง๋ง ๋ ์ด๋ ค์ด Package ๊ณผ์ ์์๋ ํฅ์ ํญ์ด ์ ์๋๋ฐ, ์์๋ฅผ ๋ค์ด์ฌ๋ฆฌ๋ ๋์์ ํ์ตํ ์ ์๋ ์ํ์์๋ ๊ณ ์์ค ์ ์ฑ ์ด ์์๋ฅผ ์์ผ์ฅ๋ ๋์ ์ดํ ๋ฆฌํํ ๊ธฐ์ ์ ์ํํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด์ฒ๋ผ ๊ณ์ธต์ RL์ ๋จ์ ๊ณผ์ ์์ ์ ๋งํจ์ ๋ณด์์ผ๋, ์ฌ์ ํ ๋ณต์กํ ์ ์ ์กฐ์์์๋ ์ ์์ค ๊ธฐ์ ์ ํ๊ณ(๋ฏธ๋ฆฌ ํ์ต๋ ์คํฌ์ ํฌํจ๋์ง ์์ ๋์)๊ฐ ์ ์ฒด ์ฑ๋ฅ์ ์ ํํ๋ค.
ํ๊ฐ ์งํ ๋ฐ ์คํ ๊ฒฐ๊ณผ
HumanoidBench์์๋ ๋ณด์ ํจ์๋ฅผ ํตํด ์ํผ์๋ ๋ณ ๋์ ๋ณด์(return)์ ์ธก์ ํ๊ณ , ๊ฐ ๊ณผ์ ๋ง๋ค ์ฑ๊ณต ์๊ณ์น(success threshold) ๋ฅผ ์ ์ํ์ฌ ์ ์ฑ ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค. ํ์ต ๊ณก์ (Fig.3,4)์์ ์ ์ ์ ์ฑ๊ณต ๊ธฐ์ค์ ๋ํ๋ด๋ฉฐ, ์ด๋ ํด๋น ๊ธฐ์ค์ ๋์ ๋ ๊ณผ์ ๊ฐ ์๋ฃ๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ๋ค. ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ DreamerV3์ SAC๋ ์ฝ 1์ฒ๋ง ๋จ๊ณ๊น์ง, TD-MPC2๋ 2๋ฐฑ๋ง ๋จ๊ณ ์ ๋๊น์ง ํ์ต๋์๊ณ , PPO๋ ์์ฒ ๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์์ ํ์ต๋์๋ค. ํ ์ด๋ธ III, IV์๋ ํ๊ท ๋ฐ ์ต๋ ๋์ ๋ณด์์ด ์ ๋ฆฌ๋์ด ์์ง๋ง, ๋๋ถ๋ถ์ ๊ณผ์ ์์ ๊ธฐ์ค์น์ ๋ฏธ์น์ง ๋ชปํด ์ฑ๊ณต๋ฅ ์ ๋งค์ฐ ๋ฎ์๋ค.
์คํ ๊ฒฐ๊ณผ ์ ์ ํ ๋ฐ์ ๊ฐ์ด ํํํ RL์ ์ฑ๋ฅ์ ๋์ฒด๋ก ๊ธฐ์ค์น ๋ฏธ๋ฌ๋ก ๋ถ์งํ๋ค. ๋ชจ๋ ์๊ณ ๋ฆฌ์ฆ์ด ๋จ์ํ ๊ฑท๊ธฐ ๊ณผ์ ์กฐ์ฐจ๋ ํฐ ํ์ต ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ์ผ ํ๊ณ , ๋ณต์กํ ๊ณผ์ ์์๋ ๊ฑฐ์ ํ์ต์ ํ์ง ๋ชปํ๋ค. ๋ฐ๋ฉด ๊ณ์ธต์ ์ ๊ทผ์ Push ๊ณผ์ ์์๋ ๊ฑฐ์ ์ฑ๊ณต๋ฅ 100%์ ๊ทผ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ง๋ง, Package ๊ณผ์ ์์๋ ์ฌ์ ํ ์ ํ์ ์ด์๋ค. ์ด ๊ฒฐ๊ณผ๋ HumanoidBench์ ๊ณผ์ ๋ค์ด ํ์กดํ๋ RL ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ๊ทน์ ์ผ๋ก ๋๋ฌ๋ธ๋ค. ์ฆ, ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ๊ณผ ์ฅ๊ธฐ ๊ณํ ํ์์ฑ์ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ ๋์ ์ผ๋ก ๋จ์ ์์ผ๋ฉฐ, ํด๋จธ๋ ธ์ด๋ ํ์ต์์๋ ์ถ๊ฐ์ ์ธ ๊ตฌ์กฐ๋ ํด๋ฆฌ์คํฑ ๋์ ์ด ํ์์ ์์ ์์ฌํ๋ค.
์์ฌ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
HumanoidBench๋ ์ ์ ํด๋จธ๋ ธ์ด๋ ์ ์ด์์์ ํ์กด ๊ธฐ๋ฒ์ ํ๊ณ๋ฅผ ๋๋ฌ๋ด๋ฉฐ, ํฅํ ์ฐ๊ตฌ ๊ฐ๋ฐ์ ์ค์ํ ์์ฌ์ ์ ์ ๊ณตํ๋ค. ์ ์๋ค์ ๋ณธ ๋ฒค์น๋งํฌ๊ฐ ์ข ํฉ์ ์ธ ํด๋จธ๋ ธ์ด๋ ํ๊ฐ ํ๊ฒฝ์ ์ฒซ ์์์ ๊ฐ์กฐํ๋ค. ์ฆ, ๋จ์ ์ด๋ ๊ณผ์ ์์๋ถํฐ ์ค์ ํด๋จธ๋ ธ์ด๋ ์์ฉ์ ๊ฐ๊น์ด ์กฐ์ ๊ณผ์ ๊น์ง ํญ๋์ ๋์ด๋์ ๊ณผ์ ๋ฅผ ํฌํจํจ์ผ๋ก์จ, ์ปค๋ฎค๋ํฐ๊ฐ ์ ์ ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐยท๊ฒ์ฆํ ์ ์๋ ํ ๋๋ฅผ ๋ง๋ จํ๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ ๋ถ์กฑํ ๋ถ๋ถ(์: ๊ณ ์ฐจ์ ๊ณํ, ๋ฉํฐ ๋ชจ๋ฌ ํ์ต ๋ฑ)์ ์ ํํ ํ์ธํ๊ณ ๊ฐ์ ํ ์ ์๋ค.
๋ฏธ๋ ์ฐ๊ตฌ์ ํ ๋ฐฉํฅ์ผ๋ก๋ HumanoidBench๊ฐ ์ง์ํ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก์ ํ์ฉ์ด ์ ์๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ผ๋จ ์ํ๊ธฐ๋ฐ ํ์ต(state-based learning)์ ์ด์ ์ ๋ง์ถ์์ง๋ง, ์ด๋ฏธ ํด๋จธ๋ ธ์ด๋์ ์์ ์์๊ณผ ์ ์ ์ด๊ฐ ์ผ์ฑ์ ์ ๊ณตํ๋ฏ๋ก ์ด๋ค์ ์ด์ฉํ ์ฐ๊ตฌ(์: ๋น์ ยท์ด๊ฐ ์ตํฉ, ์ฌ๋ ๋์ ๋ชจ๋ฐฉ ๋ฑ)๊ฐ ํ๋ฐํ ์ด๋ค์ง ์ ์๋ค. ๋ํ ๋ฌผ์ฒด ๋ชจ๋ธ๊ณผ ์๋๋ฆฌ์ค์ ํ์ค๊ฐ์ ๋์ฌ ๊ฐ๊ตฌ ์กฐ๋ฆฝ, ์คํฌ๋ฅ ์์ ๊ฐ์ ๋์ฑ ๋ณตํฉ์ ์ธ ์กฐ์ ๊ณผ์ ๋ฅผ ์ถ๊ฐํ๊ฑฐ๋, ์ค์ ํ๊ฒฝ๊ณผ ์ ์ฌํ ๊ณ ํ์ง ๋ฌผ๋ฆฌ ๋ ๋๋ง์ ๋์ ํ ์๋ ์๋ค. ์์ธ๋ฌ, ์๋ฎฌ๋ ์ด์ ์์ ์ป์ ํ์ต์ด ์ค์ ๋ก๋ด์ผ๋ก ์ ์ด๋๋ Sim-to-Real ์ฐ๊ตฌ๋ ์ค์ํ ๊ณผ์ ์ด๋ค. ์ค์ ์๋ฎฌ๋ ์ดํฐ MJX์์ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ์ต์ ํตํด ์ป์ ๊ฒฌ๊ณ ํ ์ ์ฑ ์ ์ง๊ธ๊น์ง์ ๊ฒฐ๊ณผ๋ง์ผ๋ก๋ ์๋ฎฌ-์ค์ ์ด์ ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค.
๋ง์ง๋ง์ผ๋ก, HumanoidBench๋ ๊ฐํํ์ต ์ธ์๋ ๋ค๋ฅธ ํ์ต ํจ๋ฌ๋ค์์ ๊ฒํ ํ ์ ์๋ ํ ๋๋ฅผ ์ ๊ณตํ๋ค. ์๋ฅผ ๋ค์ด, ์ค์ ์ธ๊ฐ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ํ์ต(Demonstration Learning)์ด๋, ์ธ๊ฐ ์์ฒญ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ๋ ์ฐ๊ตฌ๋ ํด๋จธ๋ ธ์ด๋์ ๊ฐ์ด ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ ์ด๋ ค์ด ์์คํ ์ ์ ์ฉํ ์ ์๋ค. ์ค์ ๋ก ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ฐ๋ฐ๋ ๊ฐํํ์ต ๊ธฐ๋ฒ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋์๋ ๋์ฑ ๋ค์ํ ํ์ต ๊ธฐ๋ฒ(๋ฅ ๋ชจ๋ฐฉ ํ์ต, ์ธ์ง ๋ชจ๋ธ ํตํฉ ๋ฑ)์ ํ๊ตฌํ ์ ์๊ธฐ๋ฅผ ๊ธฐ๋ํ๊ณ ์๋ค.
HumanoidBench๋ ์ง๊ธ๊น์ง ๋ถ์กฑํ๋ ์ ์ ํด๋จธ๋ ธ์ด๋ ํ์ต์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ์์ผ๋ฉฐ, ๋ก๋ด ์ ์ด ์ฐ๊ตฌ์๋ค์๊ฒ ์ ์ฉํ ๊ฐ๋ฐยท๊ฒ์ฆ ํ๋ซํผ์ ์ ๊ณตํ๋ค. ์ด๋ฅผ ํตํด ํด๋จผ๋ก์ด๋๊ฐ ์ฌ๋๊ณผ ๊ฐ์ด ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๊ณ ์ผ์ ์์ ์ ์ํํ ์ ์๋๋ก ํ๋, ๋ณด๋ค ๊ณ ์ฐจ์์ ์ด๊ณ ํตํฉ๋ ์ ์ด ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ๊ฐ ๊ฐ์ํ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.