Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • 1. ์„œ๋ก : ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ
    • 2. HumanoidBench์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ
    • 3. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ์ƒ์„ธ ๋ถ„์„
      • 3.1 ๋ฌผ๋ฆฌ ์—”์ง„๊ณผ ๋กœ๋ด‡ ๋ชจ๋ธ
      • 3.2 ๊ด€์ธก ๊ณต๊ฐ„(Observation Space)
      • 3.3 ํ–‰๋™ ๊ณต๊ฐ„(Action Space)
      • 3.4 ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ
    • 4. ํƒœ์Šคํฌ ์„ค๊ณ„ ์ฒ ํ•™๊ณผ ์ƒ์„ธ ๋ถ„์„
      • 4.1 ํƒœ์Šคํฌ ์„ค๊ณ„ ์ฒ ํ•™
      • 4.2 ์ด๋™(Locomotion) ํƒœ์Šคํฌ (12๊ฐœ)
      • 4.3 ์กฐ์ž‘(Manipulation) ํƒœ์Šคํฌ (15๊ฐœ)
      • 4.4 ํƒœ์Šคํฌ ๋‚œ์ด๋„ ๋ถ„์„
    • 5. ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ
      • 5.1 ํ…Œ์ŠคํŠธ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„
      • 5.2 ์‹คํ—˜ ์„ค์ • ์ƒ์„ธ
      • 5.3 ์ด๋™ ํƒœ์Šคํฌ ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„
      • 5.4 ์กฐ์ž‘ ํƒœ์Šคํฌ ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„
      • 5.5 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ„ ๋น„๊ต ๋ถ„์„
      • 5.6 ๊ฒฐ๊ณผ์˜ ์ข…ํ•ฉ์  ์‹œ์‚ฌ์ 
    • 6. ๊ณ„์ธต์  ๊ฐ•ํ™”ํ•™์Šต(Hierarchical RL) ์ ‘๊ทผ๋ฒ•
      • 6.1 ์—”๋“œ-ํˆฌ-์—”๋“œ ํ•™์Šต์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„
      • 6.2 ๊ณ„์ธต์  ๊ฐ•ํ™”ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜
      • 6.3 ์ €์ˆ˜์ค€ ์ •์ฑ… ํ•™์Šต ์ƒ์„ธ
      • 6.4 ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ
      • 6.5 ๊ณ„์ธต์  ํ•™์Šต ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„
      • 6.6 ์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ์žฌ์‚ฌ์šฉ์„ฑ
      • 6.7 ๊ณ„์ธต์  ์ ‘๊ทผ์˜ ํ•œ๊ณ„์™€ ๋„์ „
      • 6.8 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 7. ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ ์‹ฌ์ธต ๋ถ„์„
      • 7.1 ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„
      • 7.2 ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ ์กฐ๊ฑด
      • 7.3 ์ด‰๊ฐ ์„ผ์‹ฑ ๊ตฌํ˜„
      • 7.4 ์‹œ๊ฐ ๊ด€์ธก ๊ตฌํ˜„
    • 8. ์ผ๋ฐ˜์ ์ธ ์‹คํŒจ ๋ชจ๋“œ ๋ถ„์„
      • 8.1 Highbar ํƒœ์Šคํฌ ์‹คํŒจ
      • 8.2 Door ํƒœ์Šคํฌ ์‹คํŒจ
      • 8.3 Package ํƒœ์Šคํฌ ์‹คํŒจ
      • 8.4 ๋ณตํ•ฉ ํƒœ์Šคํฌ ์‹คํŒจ
    • 9. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • 9.1 ๊ธฐ์กด ๋กœ๋ด‡ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ
      • 9.2 ํœด๋จธ๋…ธ์ด๋“œ ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ
      • 9.3 HumanoidBench์˜ ์ฐจ๋ณ„์ 
    • 10. HumanoidBench ์ดํ›„์˜ ์—ฐ๊ตฌ ๋™ํ–ฅ
      • 10.1 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ์„  ์—ฐ๊ตฌ
      • 10.2 ๊ณ„์ธต์  ํ•™์Šต ์—ฐ๊ตฌ
      • 10.3 Sim-to-Real ์ „์ด ์—ฐ๊ตฌ
    • 11. ๊ฒฐ๋ก 
  • โ›๏ธ Dig Review
    • ์„œ๋ก : HumanoidBench์˜ ๋™๊ธฐ์™€ ์˜์˜
    • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํœด๋จธ๋…ธ์ด๋“œ ํ™˜๊ฒฝ ๋ฐ ๋ชจ๋ธ
    • HumanoidBench ๊ณผ์ œ ๊ตฌ์„ฑ: ์ด๋™๊ณผ ์กฐ์ž‘
      • ์ด๋™ ๊ณผ์ œ
      • ์กฐ์ž‘ ๊ณผ์ œ
    • ์ „์‹  ์ œ์–ด์˜ ๋„์ „ ๊ณผ์ œ
    • ์ •์ฑ… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ
    • ํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ์‹คํ—˜ ๊ฒฐ๊ณผ
    • ์‹œ์‚ฌ์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๐Ÿ“ƒHumanoid Bench ๋ฆฌ๋ทฐ

dexterity
humanoid
locomotion
manipulation
rl
Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation
Published

December 10, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code
  1. HumanoidBench๋Š” ๋ณต์žกํ•œ ์ „์‹  ์ œ์–ด๊ฐ€ ์š”๊ตฌ๋˜๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์„ ์œ„ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋กœ, 15๊ฐœ์˜ ์กฐ์ž‘(manipulation) ๋ฐ 12๊ฐœ์˜ ์ด๋™(locomotion) ์ž‘์—…์„ ํฌํ•จํ•˜์—ฌ ์ด 27๊ฐœ์˜ ๋‹ค์–‘ํ•œ Task๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ์ด ๋ฒค์น˜๋งˆํฌ์— ๋Œ€ํ•œ ์ตœ์‹  RL ์•Œ๊ณ ๋ฆฌ์ฆ˜(DreamerV3, TD-MPC2, SAC, PPO)์˜ ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ๋Š” ๋†’์€ ์ž์œ ๋„์™€ ์žฅ๊ธฐ ๊ณ„ํš์ด ํ•„์š”ํ•œ ๋Œ€๋ถ€๋ถ„์˜ Task์—์„œ ์ƒ๋‹นํ•œ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  3. ๊ณ„์ธต์  RL ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ฒฌ๊ณ ํ•œ ์ €์ˆ˜์ค€ ์ •์ฑ…(low-level policies)์˜ ์ง€์›์„ ํ†ตํ•ด ํ‰๋ฉด(flat) RL๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•œ ๊ตฌ์กฐํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ์ž ์žฌ๋ ฅ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

HumanoidBench๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ์ธ ๊ณ ๋น„์šฉ ๋ฐ ์ทจ์•ฝํ•œ ํ•˜๋“œ์›จ์–ด ์„ค์ •์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ๊ณ ์ฐจ์› ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋กœ๋ด‡ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋ณต์žกํ•œ ์—ญํ•™, ๋‹ค์–‘ํ•œ ์‹ ์ฒด ๋ถ€์œ„ ๊ฐ„์˜ ์ •๊ตํ•œ ํ˜‘์‘, ๊ทธ๋ฆฌ๊ณ  ๊ธด ํ˜ธ๋ผ์ด์ฆŒ์˜ ๋ณต์žกํ•œ ์ž‘์—…์„ ์ œ์–ดํ•˜๋Š” ๋ฐ ์žˆ์–ด ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ํ•™์Šต์˜ ์‹ค์ œ ๊ณผ์ œ๋ฅผ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค.

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ๋ฐ ๋กœ๋ด‡ ๋ชจ๋ธ:

HumanoidBench๋Š” MuJoCo ๋ฌผ๋ฆฌ ์—”์ง„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์ฃผ ๋กœ๋ด‡ ๋ชจ๋ธ๋กœ Unitree H1 ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์— ๋‘ ๊ฐœ์˜ Shadow Hand๋ฅผ ๋ถ€์ฐฉํ•œ ๊ตฌ์„ฑ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋ชจ๋ธ(Unitree G1, Agility Robotics Digit, Robotiq 2F-85 ๊ทธ๋ฆฌํผ, Unitree H1 ํ•ธ๋“œ)๋„ ์ง€์›ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์„ค์ •์„ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์˜ ์‚ฌ์–‘์€ DoF, ์•ก์…˜ ๋ฐ ๊ด€์ธก ๊ณต๊ฐ„์˜ ๋†’์€ ์ฐจ์›์„ ํŠน์ง•์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Shadow Hand๋ฅผ ํฌํ•จํ•œ Unitree H1์€ 61์ฐจ์› ์•ก์…˜ ๊ณต๊ฐ„๊ณผ 151์ฐจ์› ๊ด€์ธก ๊ณต๊ฐ„์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๊ด€์ธก(Observation)์€ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ๋กœ๋ด‡ ์ƒํƒœ(๊ด€์ ˆ ๊ฐ๋„ ๋ฐ ์†๋„), ํƒœ์Šคํฌ ๊ด€๋ จ ํ™˜๊ฒฝ ๊ด€์ธก(๊ฐ์ฒด ์ž์„ธ ๋ฐ ์†๋„), ๊ทธ๋ฆฌ๊ณ  egocentric visual observation (๋กœ๋ด‡ ๋จธ๋ฆฌ์— ์žฅ์ฐฉ๋œ ๋‘ ๋Œ€์˜ ์นด๋ฉ”๋ผ)์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, whole-body tactile sensing์€ MuJoCo tactile grid sensor๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌํ˜„๋˜์—ˆ์œผ๋ฉฐ, 448๊ฐœ์˜ taxel์ด ๋ชธ ์ „์ฒด์— ํผ์ ธ 3์ฐจ์› ์ ‘์ด‰๋ ฅ ํŒ๋…๊ฐ’์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด CoACD๋ฅผ ํ™œ์šฉํ•œ ์ •๊ตํ•œ ๋ฉ”์‹œ(mesh) ์ตœ์ ํ™” ์ž‘์—…์ด ์ด๋ฃจ์–ด์ ธ ๋” ๋ฏธ์„ธํ•œ ์ ‘์ด‰ ํ•ด์ƒ๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ์ฃผ๋กœ ์ƒํƒœ ๊ธฐ๋ฐ˜(state-based) ์ž…๋ ฅ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์•ก์…˜(Action)์€ ์ฃผ๋กœ ์œ„์น˜ ์ œ์–ด(position control) ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ, 50Hz๋กœ ์ œ์–ด๋ฉ๋‹ˆ๋‹ค. ํ† ํฌ ์ œ์–ด(torque control)๋„ ์ง€์›๋ฉ๋‹ˆ๋‹ค.

ํƒœ์Šคํฌ ์Šค์œ„ํŠธ(Task Suite):

HumanoidBench๋Š” 12๊ฐœ์˜ locomotion task์™€ 15๊ฐœ์˜ whole-body manipulation task๋ฅผ ํฌํ•จํ•˜์—ฌ ์ด 27๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. Locomotion tasks๋Š” walk, stand, run, hurdle, crawl, maze, sit, balance, stair, slide, pole, reach์™€ ๊ฐ™์ด ํœด๋จธ๋…ธ์ด๋“œ์˜ ๊ธฐ๋ณธ์ ์ธ ์ด๋™ ๋ฐ ์ž์„ธ ์ œ์–ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Whole-body manipulation tasks๋Š” push, cabinet, highbar, door, truck, cube, bookshelf, basketball, window, spoon, kitchen, package, powerlift, room, insert ๋“ฑ ๋‹ค์–‘ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํฌํ•จํ•˜๋ฉฐ, ์ „์‹  ํ˜‘์‘์ด ํ•„์š”ํ•œ ๋ณต์žกํ•œ ์ž‘์—…์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ ๋ฐ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

์ด ๋…ผ๋ฌธ์€ DreamerV3, TD-MPC2 (๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL), SAC, PPO (๋ชจ๋ธ ํ”„๋ฆฌ RL) ๋“ฑ ์ตœ์‹  RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ฒค์น˜๋งˆํ‚นํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๋ฐœ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์„ฑ๋Šฅ ๋ถ€์ง„: ์ตœ์‹  RL ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ๋Œ€๋ถ€๋ถ„์˜ ํƒœ์Šคํฌ, ํŠนํžˆ ๊ธด ํ˜ธ๋ผ์ด์ฆŒ ๊ณ„ํš๊ณผ ๋ณต์žกํ•œ ์ „์‹  ํ˜‘์‘์ด ํ•„์š”ํ•œ ํƒœ์Šคํฌ์—์„œ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ๋†’์€ ์ƒํƒœ ๋ฐ ์•ก์…˜ ๊ณต๊ฐ„ ์ฐจ์›์ด ํƒ์ƒ‰์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“œ๋Š” ์ฃผ์š” ์›์ธ์œผ๋กœ ์ง€์ ๋ฉ๋‹ˆ๋‹ค.
  • Dexterous Hands์˜ ์˜ํ–ฅ: Shadow Hand์˜ ์ถ”๊ฐ€์ ์ธ ๊ด€์ ˆ๊ณผ ์•ก์ถ”์—์ดํ„ฐ๋Š” locomotion task(walk)์—์„œ๋„ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ์ €ํ•˜์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์•ก์…˜ ๊ณต๊ฐ„์˜ ์ฐจ์›์„ ์ค„์˜€์„ ๋•Œ(์† ์›€์ง์ž„์„ ๊ณ ์ •) ํ•™์Šต ์†๋„๊ฐ€ ํ˜„์ €ํžˆ ๋นจ๋ผ์ง€๋Š” ๊ฒƒ์„ ํ†ตํ•ด, ์•ก์…˜ ์ฐจ์›์ด ์„ฑ๋Šฅ ์ €ํ•˜์˜ ์ฃผ๋œ ์š”์ธ์ž„์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ณ„์ธต์  ๊ฐ•ํ™” ํ•™์Šต (Hierarchical Reinforcement Learning, HRL):
    • ํ•„์š”์„ฑ: ๋ณต์žกํ•˜๊ณ  ๊ธด ํ˜ธ๋ผ์ด์ฆŒ์˜ ํƒœ์Šคํฌ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ‰๋ฉด์ ์ธ(flat) end-to-end RL ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž HRL์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. HRL์€ ํ•™์Šต ๋ฌธ์ œ์— ์ถ”๊ฐ€์ ์ธ ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ low-level ๋ฐ high-level ๊ณ„ํš์„ ๋ถ„๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ๊ตฌํ˜„: push ํƒœ์Šคํฌ(ํ•œ ์† reaching)์™€ package ํƒœ์Šคํฌ(๋‘ ์† reaching)์— HRL์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Low-level Reaching Policy ์‚ฌ์ „ ํ•™์Šต: low-level reaching policy๋Š” ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๊ฒฌ๊ณ ํ•œ ๋ธ”๋ก์œผ๋กœ ๊ฐ„์ฃผ๋˜์–ด ์‚ฌ์ „ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ MuJoCo MJX์—์„œ ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•จ์œผ๋กœ์จ ํ•˜๋“œ์›จ์–ด ๊ฐ€์†์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ์† reaching policy๋Š” 20์–ต ์Šคํ… (36์‹œ๊ฐ„), ๋‘ ์† reaching policy๋Š” 40์–ต ์Šคํ… (60์‹œ๊ฐ„) ๋™์•ˆ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ ํž˜ ๊ต๋ž€(force perturbations)์„ ์ ์šฉํ•˜์—ฌ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
    • High-level Policy ํ•™์Šต: ์‚ฌ์ „ ํ•™์Šต๋œ low-level policy๋ฅผ ๊ณ ์ •์‹œํ‚จ ์ฑ„ DreamerV3 ๋ฐ TD-MPC2๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ high-level policy๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํƒ์ƒ‰์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด reaching target์˜ ๋ฒ”์œ„๋ฅผ ๋กœ๋ด‡ ์ž‘์—… ๊ณต๊ฐ„์œผ๋กœ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ: HRL ์ ‘๊ทผ ๋ฐฉ์‹์€ push ํƒœ์Šคํฌ์—์„œ flat baseline์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋” ์–ด๋ ค์šด package ํƒœ์Šคํฌ์—์„œ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋œํ–ˆ์ง€๋งŒ, ์ด๋Š” low-level policy๊ฐ€ ํ•™์Šต๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ƒํ™ฉ(package๋ฅผ ๋“ค์–ด ์˜ฌ๋ฆฌ๋Š” ์ƒํ™ฉ)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”์˜ ์–ด๋ ค์›€์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜์ ์ธ ์‹คํŒจ ์‚ฌ๋ก€:
    • highbar ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์€ ๋ฐ”์— ๋ถ™์–ด์žˆ๋Š” ๊ฒƒ์€ ํ•™์Šตํ•˜๋‚˜, ์ „์‹  ํšŒ์ „ ๊ถค์ ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์–ด ์งง์€ ํ˜ธ๋ผ์ด์ฆŒ ๊ณ„ํš์˜ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค.
    • door ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์€ ๋ฌธ์„ ์—ฌ๋Š” ๋ฐ ํ•„์š”ํ•œ ์ •ํ™•ํ•œ ์›€์ง์ž„(ํŒ” ๋‹น๊ธฐ๊ธฐ + ๋ชธ ์ „์ฒด ์›€์ง์ด๊ธฐ)์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์–ด, ์—ฌ๋Ÿฌ ์‹ ์ฒด ๋ถ€์œ„ ๊ฐ„์˜ ํ˜‘์‘๊ณผ ์กฐ์ž‘/์ด๋™ ๊ธฐ์ˆ  ๊ฐ„์˜ ์›ํ™œํ•œ ์ƒํ˜ธ์ž‘์šฉ์ด ๊ณผ์ œ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • hurdle ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์€ ํ—ˆ๋“ค์„ ๋›ฐ์–ด๋„˜๋Š” ๋Œ€์‹  ์žฅ์• ๋ฌผ์— ๋ณด์ˆ˜์ ์œผ๋กœ ๋ถ€๋”ชํ˜€ ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ๋ฅผ ํ”ผํ•˜๋Š” conservative pose๋ฅผ ํ•™์Šตํ•˜๋Š”๋ฐ, ์ด๋Š” ์–ด๋ ค์šด ํƒ์ƒ‰ ๋ฌธ์ œ์— ์ง๋ฉดํ•  ๋•Œ RL์ด local optimum์— ๋น ์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๊ฒฐ๋ก :

HumanoidBench๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์ œ์–ด์˜ ๋ณต์žก์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ข…ํ•ฉ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ตœ์‹  RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ, ์ „์‹  ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ์„ ์ด‰์ง„ํ•˜๊ณ  RL ์—ฐ๊ตฌ์˜ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์‹ ๊ธฐ๋Šฅ ํ™•์žฅ, ๋ณด๋‹ค ์‚ฌ์‹ค์ ์ธ ํ™˜๊ฒฝ ๋ฐ ๊ฐ์ฒด ํฌํ•จ, sim-to-real transfer ์—ฐ๊ตฌ ๋“ฑ์ด ์ œ์•ˆ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

1. ์„œ๋ก : ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ์˜ ๋ณ‘๋ชฉ ํ˜„์ƒ

ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์€ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํ˜•ํƒœํ•™(morphology)์„ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ๊ณผ ์ž‘์—…์—์„œ ์ธ๊ฐ„์„ ๋ณด์กฐํ•  ์ˆ˜ ์žˆ๋Š” ์—„์ฒญ๋‚œ ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Boston Dynamics์˜ Atlas, Tesla์˜ Optimus, Unitree์˜ H1๊ณผ ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ๋“ค์ด ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๋กœ๋ด‡๋“ค์˜ ์ œ์–ด๊ธฐ๋Š” ์—ฌ์ „ํžˆ ํŠน์ • ์ž‘์—…์— ๋งž์ถฐ ์ˆ˜์ž‘์—…์œผ๋กœ ์„ค๊ณ„๋˜๊ฑฐ๋‚˜ ๋ถ€๋ถ„์ ์œผ๋กœ๋งŒ ํ•™์Šต ๊ธฐ๋ฐ˜์ธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ๊ฐ€ ๋‹ค๋ฅธ ๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ๋А๋ฆฌ๊ฒŒ ๋ฐœ์ „ํ•ด์˜จ ๊ทผ๋ณธ์ ์ธ ์ด์œ ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์‹คํ—˜ ํ™˜๊ฒฝ ๊ตฌ์ถ•์˜ ์–ด๋ ค์›€์ž…๋‹ˆ๋‹ค.

์‹ค์ œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์„ ์ด์šฉํ•œ ์—ฐ๊ตฌ์—๋Š” ์—ฌ๋Ÿฌ ์ œ์•ฝ์ด ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ๊ณ ๊ฐ€์˜ ํ•˜๋“œ์›จ์–ด ๋น„์šฉ, ๋กœ๋ด‡์˜ ๋ฌผ๋ฆฌ์  ์ทจ์•ฝ์„ฑ์œผ๋กœ ์ธํ•œ ์‹คํ—˜ ์ค‘ ํŒŒ์† ์œ„ํ—˜, ์•ˆ์ „ ๋ฌธ์ œ๋กœ ์ธํ•œ ์‹คํ—˜ ํ™˜๊ฒฝ ์ œํ•œ, ๊ทธ๋ฆฌ๊ณ  ์‹คํ—˜ ์žฌํ˜„์„ฑ ํ™•๋ณด์˜ ์–ด๋ ค์›€ ๋“ฑ์ด ๊ทธ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์€ ์ˆ˜๋ฐฑ๋งŒ ๋ฒˆ์˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š”๋ฐ, ์ด๋ฅผ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ํ˜„์‹ค์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

HumanoidBench๋Š” ๋ฐ”๋กœ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ์ตœ์ดˆ์˜ ํฌ๊ด„์ ์ธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์—ฐ๊ตฌ์ž๋“ค์ด ์•ˆ์ „ํ•˜๊ณ , ๋น ๋ฅด๊ณ , ์ €๋ ดํ•˜๊ฒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋Š” ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


2. HumanoidBench์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ

HumanoidBench๊ฐ€ ๋กœ๋ณดํ‹ฑ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ œ๊ณตํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์„ธ ๊ฐ€์ง€๋กœ ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ๊ณ ์ฐจ์› ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ๋‘ ๊ฐœ์˜ ์ •๊ตํ•œ ์†(dexterous hands)์„ ์žฅ์ฐฉํ•œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์„ ํŠน์ง•์œผ๋กœ ํ•˜๋ฉฐ, ์ตœ๋Œ€ 61๊ฐœ์˜ ์•ก์ถ”์—์ดํ„ฐ์™€ 151์ฐจ์›์˜ ๊ด€์ธก ๊ณต๊ฐ„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋‘˜์งธ, ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ ์Šค์œ„ํŠธ์ž…๋‹ˆ๋‹ค. 12๊ฐœ์˜ ์ด๋™(locomotion) ํƒœ์Šคํฌ์™€ 15๊ฐœ์˜ ์กฐ์ž‘(manipulation) ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•œ ์ด 27๊ฐœ์˜ ๋„์ „์ ์ธ ์ „์‹  ์ œ์–ด ํƒœ์Šคํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์…‹์งธ, ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ตœ์‹  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์˜ ์„ฑ๋Šฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๊ด€๋œ ์‹คํ—˜ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


3. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ์ƒ์„ธ ๋ถ„์„

3.1 ๋ฌผ๋ฆฌ ์—”์ง„๊ณผ ๋กœ๋ด‡ ๋ชจ๋ธ

HumanoidBench๋Š” MuJoCo(Multi-Joint dynamics with Contact) ๋ฌผ๋ฆฌ ์—”์ง„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. MuJoCo๋Š” Google DeepMind์—์„œ ๊ด€๋ฆฌํ•˜๋Š” ์˜คํ”ˆ์†Œ์Šค ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ, ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์ œ๊ณตํ•˜์—ฌ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๊ธฐ๋ณธ ๋กœ๋ด‡ ๋ชจ๋ธ๋กœ๋Š” Unitree H1 ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. H1์€ ์‹ค์ œ ์ƒ์šฉํ™”๋œ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ „์ด(sim-to-real transfer)ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด๋‘ก๋‹ˆ๋‹ค.

์†(end-effector)์œผ๋กœ๋Š” Shadow Hand๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. Shadow Hand๋Š” 24๊ฐœ์˜ ์ž์œ ๋„(DoF)๋ฅผ ๊ฐ€์ง„ ์ •๊ตํ•œ ๋กœ๋ด‡ ์†์œผ๋กœ, ์ธ๊ฐ„์˜ ์†๊ณผ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ๋ฏผ์ฒฉ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ์™ธ์—๋„ Robotiq 2F-85 ๊ทธ๋ฆฌํผ๋‚˜ Unitree ์ž์ฒด ์† ๋ชจ๋ธ ๋“ฑ ๋‹ค์–‘ํ•œ ์˜ต์…˜์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ Agility Robotics์˜ Digit ๋กœ๋ด‡๊ณผ Unitree G1 ๋กœ๋ด‡๋„ ์ง€์›ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ์—์„œ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

3.2 ๊ด€์ธก ๊ณต๊ฐ„(Observation Space)

HumanoidBench๋Š” ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๊ด€์ธก์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ๋Š” ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ(Proprioception) ๊ด€์ธก์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์˜ ๊ด€์ ˆ ๊ฐ๋„ ๋ฐ ๊ฐ์†๋„์™€ ํƒœ์Šคํฌ ๊ด€๋ จ ํ™˜๊ฒฝ ์ƒํƒœ(๊ฐ์ฒด ์œ„์น˜ ๋ฐ ์†๋„ ๋“ฑ)๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์ƒํƒœ๋งŒ์œผ๋กœ ์•ฝ 151์ฐจ์›์˜ ๊ด€์ธก ๊ณต๊ฐ„์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๋ฒˆ์งธ๋Š” ์‹œ๊ฐ์ (Visual) ๊ด€์ธก์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๋จธ๋ฆฌ์— ์žฅ์ฐฉ๋œ ๋‘ ๋Œ€์˜ ์นด๋ฉ”๋ผ๋ฅผ ํ†ตํ•ด ์–ป๋Š” ์ž๊ธฐ์ค‘์‹ฌ์ (egocentric) ์‹œ๊ฐ ๊ด€์ธก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋น„์ „ ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ•™์Šต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์„ธ ๋ฒˆ์งธ๋Š” ์ด‰๊ฐ(Tactile) ๊ด€์ธก์ž…๋‹ˆ๋‹ค. MuJoCo์˜ ์ด‰๊ฐ ๊ทธ๋ฆฌ๋“œ ์„ผ์„œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ „์‹  ์ด‰๊ฐ ์„ผ์‹ฑ์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด 448๊ฐœ์˜ ํƒ์…€(taxel)์ด ๋กœ๋ด‡ ์ „์‹ ์— ๋ถ„ํฌํ•˜๋ฉฐ, ๊ฐ ํƒ์…€์€ 3์ฐจ์› ์ ‘์ด‰๋ ฅ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์† ๋ถ€๋ถ„์€ ๊ณ ํ•ด์ƒ๋„๋กœ, ๋‹ค๋ฅธ ์‹ ์ฒด ๋ถ€์œ„๋Š” ์ €ํ•ด์ƒ๋„๋กœ ์„ค๊ณ„ํ•˜์—ฌ ์ธ๊ฐ„์˜ ์ด‰๊ฐ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ฐฉํ–ˆ์Šต๋‹ˆ๋‹ค.

3.3 ํ–‰๋™ ๊ณต๊ฐ„(Action Space)

ํ–‰๋™ ๊ณต๊ฐ„์€ ๋ชจ๋“  ํ™˜๊ฒฝ์—์„œ ์ผ๊ด€๋˜๊ฒŒ 61์ฐจ์›์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์œ„์น˜ ์ œ์–ด(position control) ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ๋ชฉํ‘œ ๊ด€์ ˆ ์œ„์น˜๋ฅผ ์ง€์ •ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ† ํฌ ์ œ์–ด(torque control)๋„ ์ง€์›๋˜์ง€๋งŒ, ์—ฐ๊ตฌ์ง„์€ ์œ„์น˜ ์ œ์–ด๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋” ์•ˆ์ •์ ์ด๊ณ  ๋‚ฎ์€ ์ œ์–ด ์ฃผํŒŒ์ˆ˜์—์„œ๋„ ์ž˜ ๋™์ž‘ํ•œ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.

ํ–‰๋™ ๊ณต๊ฐ„์€ [-1, 1] ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”๋˜์–ด ์žˆ์–ด ๋‹ค์–‘ํ•œ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ์˜ ํ˜ธํ™˜์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

3.4 ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ

HumanoidBench๋Š” ๋ณต์žกํ•œ ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ๋ธ๊ณผ ์ •๊ตํ•œ ์†์„ ํฌํ•จํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํšจ์œจ์ ์ธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์†๋„๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ MuJoCo MJX(MuJoCo์˜ JAX ๊ฐ€์† ๋ฒ„์ „)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ•™์Šต์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ €์ˆ˜์ค€ ์ •์ฑ…(low-level policy) ํ•™์Šต์— ํŠนํžˆ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.


4. ํƒœ์Šคํฌ ์„ค๊ณ„ ์ฒ ํ•™๊ณผ ์ƒ์„ธ ๋ถ„์„

4.1 ํƒœ์Šคํฌ ์„ค๊ณ„ ์ฒ ํ•™

HumanoidBench์˜ ํƒœ์Šคํฌ๋“ค์€ ๋ช‡ ๊ฐ€์ง€ ํ•ต์‹ฌ ์›์น™์— ๋”ฐ๋ผ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ์ผ์ƒ ์ƒํ™œ ๊ด€๋ จ์„ฑ์ž…๋‹ˆ๋‹ค. ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์ด ์‹ค์ œ๋กœ ์ˆ˜ํ–‰ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ์ž‘์—…๋“ค์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

๋‘˜์งธ, ์ ์ง„์  ๋‚œ์ด๋„์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์„œ๊ธฐ(standing)๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์ฃผ๋ฐฉ ์ž‘์—…๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๋‚œ์ด๋„์˜ ํƒœ์Šคํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์…‹์งธ, ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ  ์š”๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ท ํ˜• ์œ ์ง€, ๋ณดํ–‰, ๋„๋‹ฌ, ์กฐ์ž‘ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์˜ ์กฐํ•ฉ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๋„ท์งธ, ์žฅ๊ธฐ ๊ณ„ํš ํ•„์š”์„ฑ์ž…๋‹ˆ๋‹ค. ๋งŽ์€ ํƒœ์Šคํฌ๊ฐ€ ๋‹จ์ˆœํ•œ ๋ฐ˜์‘์  ์ œ์–ด๋ฅผ ๋„˜์–ด ์žฅ๊ธฐ์ ์ธ ๊ณ„ํš์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

4.2 ์ด๋™(Locomotion) ํƒœ์Šคํฌ (12๊ฐœ)

์ด๋™ ํƒœ์Šคํฌ๋Š” ์ •๊ตํ•œ ์† ์ œ์–ด๋ฅผ ์šฐํšŒํ•˜๋ฉด์„œ๋„ ํฅ๋ฏธ๋กœ์šด ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ๋ณธ ์ด๋™ ํƒœ์Šคํฌ๋กœ๋Š” Stand, Walk, Run์ด ์žˆ์Šต๋‹ˆ๋‹ค. Stand ํƒœ์Šคํฌ๋Š” ๋กœ๋ด‡์ด ์ง๋ฆฝ ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ํƒœ์Šคํฌ๋กœ, ๊ท ํ˜• ์œ ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Walk ํƒœ์Šคํฌ๋Š” ์•ฝ 1m/s์˜ ์†๋„๋กœ ์•ˆ์ •์ ์ธ ๋ณดํ–‰์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ๋„˜์–ด์ง€์ง€ ์•Š์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. Run ํƒœ์Šคํฌ๋Š” ์•ฝ 5m/s์˜ ์†๋„๋กœ ๋น ๋ฅด๊ฒŒ ๋‹ฌ๋ฆฌ๋Š” ๊ฒƒ์„ ์š”๊ตฌํ•˜๋ฉฐ, ๋” ์—ญ๋™์ ์ธ ๊ท ํ˜• ์ œ์–ด๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์žฅ์• ๋ฌผ ์ด๋™ ํƒœ์Šคํฌ๋กœ๋Š” Hurdle, Crawl, Stair, Slide๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Hurdle ํƒœ์Šคํฌ๋Š” ํ—ˆ๋“ค์„ ๋›ฐ์–ด๋„˜๋Š” ๊ฒƒ์œผ๋กœ, ์ ํ”„ ๋™์ž‘์˜ ํ•™์Šต์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. Crawl ํƒœ์Šคํฌ๋Š” ๋‚ฎ์€ ๊ณต๊ฐ„์„ ๊ธฐ์–ด์„œ ํ†ต๊ณผํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ „์‹  ์ž์„ธ ์ œ์–ด๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. Stair ํƒœ์Šคํฌ๋Š” ๊ณ„๋‹จ์„ ์˜ค๋ฅด๋‚ด๋ฆฌ๋Š” ๊ฒƒ์œผ๋กœ, ์ง€ํ˜• ์ ์‘ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Slide ํƒœ์Šคํฌ๋Š” ๋ฏธ๋„๋Ÿฌ์šด ํ‘œ๋ฉด์—์„œ์˜ ์ด๋™์œผ๋กœ, ๋งˆ์ฐฐ๋ ฅ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ ์‘์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ท ํ˜• ๋ฐ ํŠน์ˆ˜ ์ž์„ธ ํƒœ์Šคํฌ๋กœ๋Š” Balance(Simple/Hard), Sit(Simple/Hard), Pole์ด ์žˆ์Šต๋‹ˆ๋‹ค. Balance ํƒœ์Šคํฌ๋Š” ๋ถˆ์•ˆ์ •ํ•œ ํ‘œ๋ฉด์—์„œ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, Simple๊ณผ Hard ๋‘ ๊ฐ€์ง€ ๋‚œ์ด๋„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Sit ํƒœ์Šคํฌ๋Š” ์˜์ž์— ์•‰๋Š” ๋™์ž‘์œผ๋กœ, ์ „์‹  ํ˜‘์‘์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. Pole ํƒœ์Šคํฌ๋Š” ๋ง‰๋Œ€ ์œ„์—์„œ ๊ท ํ˜•์„ ์žก๋Š” ๊ฒƒ์œผ๋กœ, ๊ณ ๋„์˜ ๊ท ํ˜• ์ œ์–ด ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

ํƒ์ƒ‰ ํƒœ์Šคํฌ๋กœ๋Š” Maze๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜์—ฌ ๋ชฉํ‘œ ์ง€์ ์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ด๋™๊ณผ ๊ณ„ํš ๋Šฅ๋ ฅ์˜ ์กฐํ•ฉ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

4.3 ์กฐ์ž‘(Manipulation) ํƒœ์Šคํฌ (15๊ฐœ)

์กฐ์ž‘ ํƒœ์Šคํฌ๋Š” ์ด๋™๊ณผ ์ •๊ตํ•œ ์† ์กฐ์ž‘์˜ ๊ฒฐํ•ฉ์„ ์š”๊ตฌํ•˜๋ฉฐ, HumanoidBench์˜ ํ•ต์‹ฌ ๋„์ „ ๊ณผ์ œ๋“ค์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

์ •์ (Static) ์กฐ์ž‘ ํƒœ์Šคํฌ๋Š” ์ฃผ๋กœ ์ƒ์ฒด์™€ ์†์˜ ํ˜‘์‘์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. Reach ํƒœ์Šคํฌ๋Š” 3D ๊ณต๊ฐ„์˜ ๋ชฉํ‘œ ์ง€์ ์— ์†์„ ๋„๋‹ฌ์‹œํ‚ค๋Š” ๊ธฐ๋ณธ์ ์ธ ๋„๋‹ฌ ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค. Cube ํƒœ์Šคํฌ๋Š” ์ •์œก๋ฉด์ฒด๋ฅผ ์žก๊ณ  ์กฐ์ž‘ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Insert(Normal/Small) ํƒœ์Šคํฌ๋Š” ํŽ˜๊ทธ๋ฅผ ๊ตฌ๋ฉ์— ์‚ฝ์ž…ํ•˜๋Š” ์ •๋ฐ€ ์กฐ์ž‘์œผ๋กœ, Normal๊ณผ Small ๋‘ ๊ฐ€์ง€ ๋‚œ์ด๋„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Spoon ํƒœ์Šคํฌ๋Š” ์ˆŸ๊ฐ€๋ฝ์„ ์ด์šฉํ•œ ์กฐ์ž‘์ž…๋‹ˆ๋‹ค. Window ํƒœ์Šคํฌ๋Š” ์ฐฝ๋ฌธ์„ ์—ฌ๋‹ซ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Cabinet ํƒœ์Šคํฌ๋Š” ์บ๋น„๋‹› ๋ฌธ์„ ์—ด๊ณ  ๋‹ซ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Door ํƒœ์Šคํฌ๋Š” ๋ฌธ ์†์žก์ด๋ฅผ ๋Œ๋ฆฌ๊ณ  ๋ฌธ์„ ์—ฌ๋Š” ๊ฒƒ์œผ๋กœ, ์ „์‹  ํ˜‘์‘์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๋™์ (Dynamic) ์กฐ์ž‘ ํƒœ์Šคํฌ๋Š” ์ด๋™๊ณผ ์กฐ์ž‘์˜ ์‹œํ€€์‹ฑ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. Push ํƒœ์Šคํฌ๋Š” ํ…Œ์ด๋ธ” ์œ„์˜ ์ƒ์ž๋ฅผ ๋ฐ€์–ด ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Basketball ํƒœ์Šคํฌ๋Š” ๋†๊ตฌ๊ณต์„ ์ง‘์–ด ๊ณจ๋Œ€์— ๋„ฃ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Bookshelf(Simple/Hard) ํƒœ์Šคํฌ๋Š” ์ฑ…์žฅ์—์„œ ์ฑ…์„ ์ •๋ฆฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ๋‘ ๊ฐ€์ง€ ๋‚œ์ด๋„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Kitchen ํƒœ์Šคํฌ๋Š” ์ฃผ๋ฐฉ์—์„œ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ณตํ•ฉ ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค. Package ํƒœ์Šคํฌ๋Š” ํŒจํ‚ค์ง€๋ฅผ ๋“ค์–ด ์˜ฌ๋ฆฌ๊ณ  ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Truck ํƒœ์Šคํฌ๋Š” ํŠธ๋Ÿญ์—์„œ ๋ฌผ๊ฑด์„ ํ•˜์—ญํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์žฅ๊ธฐ์ ์ธ ๊ณ„ํš์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. Highbar(Simple/Hard) ํƒœ์Šคํฌ๋Š” ์ฒ ๋ด‰์—์„œ ํšŒ์ „ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ „์‹  ์—ญํ•™ ์ œ์–ด๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. Powerlift ํƒœ์Šคํฌ๋Š” ๋ฌด๊ฑฐ์šด ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์œผ๋กœ, ์ „์‹  ํž˜ ์ œ์–ด๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. Room ํƒœ์Šคํฌ๋Š” ๋ฐฉ์—์„œ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ๋ณตํ•ฉ ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

4.4 ํƒœ์Šคํฌ ๋‚œ์ด๋„ ๋ถ„์„

๋…ผ๋ฌธ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, ํƒœ์Šคํฌ๋“ค์˜ ๋‚œ์ด๋„๋Š” ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๋ฒ”์ฃผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ƒ๋Œ€์ ์œผ๋กœ ์‰ฌ์šด ํƒœ์Šคํฌ๋กœ๋Š” Stand, Walk, Reach ๋“ฑ ๊ธฐ๋ณธ์ ์ธ ์ด๋™ ๋ฐ ๋„๋‹ฌ ํƒœ์Šคํฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ๋‹จ์ผ ๊ธฐ์ˆ ์˜ ์ˆ™๋‹ฌ๋งŒ์œผ๋กœ๋„ ์–ด๋А ์ •๋„ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์ค‘๊ฐ„ ๋‚œ์ด๋„ ํƒœ์Šคํฌ๋กœ๋Š” Run, Sit, Balance, Push ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ๋ณตํ•ฉ์ ์ธ ๊ธฐ์ˆ  ์กฐํ•ฉ์ด๋‚˜ ๋” ์ •๋ฐ€ํ•œ ์ œ์–ด๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๋งค์šฐ ์–ด๋ ค์šด ํƒœ์Šคํฌ๋กœ๋Š” Kitchen, Truck, Highbar, Door ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ์žฅ๊ธฐ ๊ณ„ํš, ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์˜ ์‹œํ€€์‹ฑ, ๋ณต์žกํ•œ ์ „์‹  ํ˜‘์‘์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ์ตœ์‹  ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค๋„ ์ด๋Ÿฌํ•œ ํƒœ์Šคํฌ์—์„œ ํฌ๊ฒŒ ๊ณ ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


5. ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ

5.1 ํ…Œ์ŠคํŠธ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ๋ชจ๋ธ ๊ธฐ๋ฐ˜(model-based)๊ณผ ๋ชจ๋ธ ํ”„๋ฆฌ(model-free) ์ ‘๊ทผ๋ฒ•์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ๋„ค ๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์„ฑ๊ณผ HumanoidBench์—์„œ์˜ ์ ์šฉ ๋ฐฉ์‹์„ ์ƒ์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

5.1.1 DreamerV3

DreamerV3๋Š” Danijar Hafner ๋“ฑ์ด ๊ฐœ๋ฐœํ•œ ์ตœ์‹  ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•ต์‹ฌ ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

DreamerV3๋Š” ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ํ•™์Šตํ•˜๋Š” ์›”๋“œ ๋ชจ๋ธ(World Model)์„ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ์ด ์›”๋“œ ๋ชจ๋ธ์€ Recurrent State-Space Model(RSSM) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž ์žฌ ์ƒํƒœ ๊ณต๊ฐ„์—์„œ ํ™˜๊ฒฝ์˜ ์ „์ด ๋™์—ญํ•™์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต๋œ ์›”๋“œ ๋ชจ๋ธ ๋‚ด์—์„œ ์ƒ์ƒ์  ๋กค์•„์›ƒ(imaginary rollout)์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ ์—†์ด๋„ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ โ€œ์ƒ์ƒโ€ํ•˜๋ฉฐ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์–ด ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.

DreamerV3์˜ ์ฃผ์š” ๊ธฐ์ˆ ์  ํŠน์ง•์œผ๋กœ๋Š” symlog ์˜ˆ์ธก์„ ํ†ตํ•œ ๋‹ค์–‘ํ•œ ์Šค์ผ€์ผ์˜ ๋ณด์ƒ ์ฒ˜๋ฆฌ, ๊ณ ์ • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ์ž‘๋™ํ•˜๋Š” ๋ฒ”์šฉ์„ฑ, ๊ทธ๋ฆฌ๊ณ  actor-critic ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•œ ์ •์ฑ… ์ตœ์ ํ™”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

HumanoidBench์—์„œ DreamerV3๋Š” ์•ฝ 10M ํ™˜๊ฒฝ ์Šคํ…์„ ์ˆ˜ํ–‰ํ–ˆ์œผ๋ฉฐ, ์›”๋“œ ๋ชจ๋ธ์˜ ํ•™์Šต์— ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.

5.1.2 TD-MPC2

TD-MPC2๋Š” Nicklas Hansen ๋“ฑ์ด ๊ฐœ๋ฐœํ•œ ์ตœ์‹  ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ์‹œ๊ฐ„์ฐจ ํ•™์Šต(Temporal Difference Learning)๊ณผ ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด(Model Predictive Control)๋ฅผ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.

TD-MPC2์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ๋™์—ญํ•™ ๋ชจ๋ธ, ๋ณด์ƒ ์˜ˆ์ธก ๋ชจ๋ธ, ๊ฐ€์น˜ ํ•จ์ˆ˜(value function), ๊ทธ๋ฆฌ๊ณ  ์ •์ฑ… ์‚ฌ์ „๋ถ„ํฌ(policy prior)์ž…๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์˜จ๋ผ์ธ ๊ณ„ํš(online planning)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์‹œ๊ฐ„ ์Šคํ…์—์„œ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ๋ž˜ ๊ถค์ ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ณ , Model Predictive Path Integral(MPPI) ๊ธฐ๋ฐ˜์˜ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ์ตœ์  ํ–‰๋™์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

TD-MPC2๋Š” ํ™•์žฅ์„ฑ์ด ๋›ฐ์–ด๋‚˜ ๋‹ค์–‘ํ•œ ์—ฐ์† ์ œ์–ด ๋ฌธ์ œ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ํŠนํžˆ ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. HumanoidBench์˜ 61์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ๋„ ์ƒ๋Œ€์ ์œผ๋กœ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

5.1.3 SAC (Soft Actor-Critic)

SAC๋Š” Tuomas Haarnoja ๋“ฑ์ด ๊ฐœ๋ฐœํ•œ ์˜คํ”„-ํด๋ฆฌ์‹œ ๋ชจ๋ธ ํ”„๋ฆฌ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ตœ๋Œ€ ์—”ํŠธ๋กœํ”ผ ๊ฐ•ํ™”ํ•™์Šต(Maximum Entropy RL) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

SAC์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋ณด์ƒ ์ตœ๋Œ€ํ™”์™€ ํ•จ๊ป˜ ์ •์ฑ…์˜ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํƒ์ƒ‰(exploration)๊ณผ ํ™œ์šฉ(exploitation) ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์ž๋™์œผ๋กœ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. ๋ชฉ์  ํ•จ์ˆ˜๋Š” J(\pi) = \sum_t \mathbb{E}_{(s_t, a_t) \sim \rho_\pi}[r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot|s_t))]๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ \alpha๋Š” ์˜จ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ์—”ํŠธ๋กœํ”ผ์˜ ์ค‘์š”๋„๋ฅผ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค.

SAC๋Š” ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ๋ฅผ ์‚ฌ์šฉํ•œ ์˜คํ”„-ํด๋ฆฌ์‹œ ํ•™์Šต์œผ๋กœ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋†’๊ณ , ๋‘ ๊ฐœ์˜ Q-ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณผ๋Œ€์ถ”์ •(overestimation)์„ ๋ฐฉ์ง€ํ•˜๋ฉฐ, ์ž๋™ ์˜จ๋„ ์กฐ์ ˆ๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ๋ถ€๋‹ด์„ ์ค„์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ HumanoidBench์˜ ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ๋Š” ํƒ์ƒ‰์˜ ์–ด๋ ค์›€์œผ๋กœ ์ธํ•ด ์„ฑ๋Šฅ์ด ์ œํ•œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5.1.4 PPO (Proximal Policy Optimization)

PPO๋Š” John Schulman ๋“ฑ์ด ๊ฐœ๋ฐœํ•œ ์˜จ-ํด๋ฆฌ์‹œ ๋ชจ๋ธ ํ”„๋ฆฌ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ์•ˆ์ •์ ์ธ ์ •์ฑ… ์—…๋ฐ์ดํŠธ๋ฅผ ํŠน์ง•์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

PPO์˜ ํ•ต์‹ฌ์€ ํด๋ฆฌํ•‘๋œ ๋Œ€๋ฆฌ ๋ชฉ์  ํ•จ์ˆ˜(clipped surrogate objective)์ž…๋‹ˆ๋‹ค. ์ •์ฑ… ์—…๋ฐ์ดํŠธ์˜ ํฌ๊ธฐ๋ฅผ ์ œํ•œํ•˜์—ฌ ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ๋ชฉ์  ํ•จ์ˆ˜๋Š” L^{CLIP}(\theta) = \mathbb{E}_t[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)]๋กœ, ์—ฌ๊ธฐ์„œ r_t(\theta)๋Š” ์ƒˆ๋กœ์šด ์ •์ฑ…๊ณผ ์ด์ „ ์ •์ฑ…์˜ ํ™•๋ฅ  ๋น„์œจ์ž…๋‹ˆ๋‹ค.

PPO๋Š” ๊ตฌํ˜„์ด ๊ฐ„๋‹จํ•˜๊ณ  ์•ˆ์ •์ ์ด๋ฉฐ, ๋ณ‘๋ ฌํ™”๋ฅผ ํ†ตํ•ด ํ™•์žฅ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜จ-ํด๋ฆฌ์‹œ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค. HumanoidBench์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌํ™” ์—†์ด๋Š” ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์–ด, ์ผ๋ถ€ ํƒœ์Šคํฌ(walk, kitchen, door, package)์—์„œ๋งŒ ํ…Œ์ŠคํŠธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ walk ํƒœ์Šคํฌ์—์„œ PPO๋Š” ๊ทธ๋ž˜ํ”„์—์„œ ๊ฑฐ์˜ ๋ณด์ด์ง€ ์•Š์„ ์ •๋„๋กœ ๋‚ฎ์€ ๋ฆฌํ„ด์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

5.2 ์‹คํ—˜ ์„ค์ • ์ƒ์„ธ

5.2.1 ํ•™์Šต ํ™˜๊ฒฝ ๋ฐ ์ปดํ“จํŒ… ์ž์›

๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•ฝ 48์‹œ๊ฐ„ ๋™์•ˆ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ๋œ ํ•˜๋“œ์›จ์–ด๋Š” ๋…ผ๋ฌธ์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ๊ธฐ์ˆ ๋˜์ง€ ์•Š์•˜์ง€๋งŒ, ์ผ๋ฐ˜์ ์ธ GPU ํด๋Ÿฌ์Šคํ„ฐ ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜์ด ์ˆ˜ํ–‰๋œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

48์‹œ๊ฐ„์ด๋ผ๋Š” ๋™์ผํ•œ ์‹œ๊ฐ„ ์ œ์•ฝ ํ•˜์—์„œ, ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋‹ค๋ฅธ ์ˆ˜์˜ ํ™˜๊ฒฝ ์Šคํ…์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. DreamerV3๋Š” ์•ฝ 10M ์Šคํ…์œผ๋กœ, ์›”๋“œ ๋ชจ๋ธ ํ•™์Šต์— ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. TD-MPC2๋„ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ์Šคํ…์„ ์ˆ˜ํ–‰ํ–ˆ์œผ๋ฉฐ, ์˜จ๋ผ์ธ ๊ณ„ํš์— ์ถ”๊ฐ€ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. SAC๋Š” ๋” ๋งŽ์€ ํ™˜๊ฒฝ ์Šคํ…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋Š”๋ฐ, ๋ชจ๋ธ ํ•™์Šต์ด ์—†์–ด ์ƒ๋Œ€์ ์œผ๋กœ ๋น ๋ฆ…๋‹ˆ๋‹ค. PPO๋Š” ์˜จ-ํด๋ฆฌ์‹œ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ํšจ์œจ์„ฑ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค.

5.2.2 ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ

์„ฑ๋Šฅ ํ‰๊ฐ€์—๋Š” ์—ํ”ผ์†Œ๋“œ ๋ฆฌํ„ด(episode return)์ด ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—ํ”ผ์†Œ๋“œ ์ „์ฒด์— ๊ฑธ์นœ ๋ณด์ƒ์˜ ํ•ฉ์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ํƒœ์Šคํฌ๋ณ„๋กœ ์„ฑ๊ณต ์ž„๊ณ„๊ฐ’(success threshold)์ด ์ •์˜๋˜์–ด ์žˆ์–ด, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํƒœ์Šคํฌ๋ฅผ โ€œํ•ด๊ฒฐโ€ํ–ˆ๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” ๊ธฐ์ค€์ด ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐœ์˜ ๋žœ๋ค ์‹œ๋“œ๋กœ ์‹คํ—˜๋˜์–ด ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5.2.3 ๊ด€์ธก ๋ฐ ํ–‰๋™ ๊ณต๊ฐ„ ์„ค์ •

์‹คํ—˜์—์„œ๋Š” ์ฃผ๋กœ ์ƒํƒœ ๊ธฐ๋ฐ˜ ๊ด€์ธก(state-based observation)์ด ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์˜ ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ ์ •๋ณด(๊ด€์ ˆ ๊ฐ๋„, ๊ฐ์†๋„)์™€ ํƒœ์Šคํฌ ๊ด€๋ จ ํ™˜๊ฒฝ ์ƒํƒœ(๊ฐ์ฒด ์œ„์น˜ ๋“ฑ)๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์‹œ๊ฐ์  ๊ด€์ธก์ด๋‚˜ ์ด‰๊ฐ ๊ด€์ธก์€ ๊ธฐ๋ณธ ๋ฒค์น˜๋งˆํ‚น์—์„œ๋Š” ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

ํ–‰๋™ ๊ณต๊ฐ„์€ 61์ฐจ์›์˜ ์—ฐ์† ๊ณต๊ฐ„์œผ๋กœ, [-1, 1] ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์œ„์น˜ ์ œ์–ด ๋ชจ๋“œ๊ฐ€ ์‚ฌ์šฉ๋˜์–ด, ์—์ด์ „ํŠธ๋Š” ๋ชฉํ‘œ ๊ด€์ ˆ ์œ„์น˜๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

5.3 ์ด๋™ ํƒœ์Šคํฌ ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„

5.3.1 Walk ํƒœ์Šคํฌ

Walk ํƒœ์Šคํฌ๋Š” ๋กœ๋ด‡์ด ์•ฝ 1m/s์˜ ์†๋„๋กœ ์•ˆ์ •์ ์œผ๋กœ ๋ณดํ–‰ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

TD-MPC2๊ฐ€ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋น ๋ฅด๊ฒŒ ์•ˆ์ •์ ์ธ ๋ณดํ–‰ ํŒจํ„ด์„ ํ•™์Šตํ–ˆ์œผ๋ฉฐ, ํ•™์Šต ๊ณก์„ ์ด ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜จ๋ผ์ธ ๊ณ„ํš ๋Šฅ๋ ฅ์ด ๊ท ํ˜• ์œ ์ง€์— ๋„์›€์ด ๋œ ๊ฒƒ์œผ๋กœ ๋ถ„์„๋ฉ๋‹ˆ๋‹ค.

DreamerV3๋„ ์ค€์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ํ•™์Šต์€ ๋А๋ ธ์ง€๋งŒ ์ ์ง„์ ์œผ๋กœ ๊ฐœ์„ ๋˜์—ˆ์œผ๋ฉฐ, ์›”๋“œ ๋ชจ๋ธ ํ•™์Šต ํ›„ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

SAC๋Š” ํ•™์Šต์— ์„ฑ๊ณตํ–ˆ์ง€๋งŒ ์ˆ˜๋ ด์ด ๋А๋ ธ์Šต๋‹ˆ๋‹ค. ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ์˜ ํƒ์ƒ‰์ด ์–ด๋ ค์› ๊ณ , ์ตœ์ข… ์„ฑ๋Šฅ์€ TD-MPC2๋ณด๋‹ค ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค.

PPO๋Š” ๊ฑฐ์˜ ํ•™์Šต์— ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜ํ”„์—์„œ ๊ฑฐ์˜ ๋ณด์ด์ง€ ์•Š์„ ์ •๋„๋กœ ๋‚ฎ์€ ๋ฆฌํ„ด์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์˜จ-ํด๋ฆฌ์‹œ ํ•™์Šต์˜ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ์ด ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5.3.2 Stand ํƒœ์Šคํฌ

Stand ํƒœ์Šคํฌ๋Š” ๋กœ๋ด‡์ด ์ง๋ฆฝ ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋น„๊ต์  ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Stand๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋“  ํƒœ์Šคํฌ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜๋Š” ๊ธฐ๋ณธ ๊ธฐ์ˆ ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. TD-MPC2์™€ DreamerV3๊ฐ€ ๊ฐ€์žฅ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ–ˆ๊ณ , SAC๋„ ์„ฑ๊ณต์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ๊ธฐ๋ณธ์ ์ธ ๊ท ํ˜• ์œ ์ง€๋Š” ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5.3.3 Run ํƒœ์Šคํฌ

Run ํƒœ์Šคํฌ๋Š” ์•ฝ 5m/s์˜ ๋น ๋ฅธ ์†๋„๋กœ ๋‹ฌ๋ฆฌ๋Š” ๊ฒƒ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋“  ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด Walk๋ณด๋‹ค ๋” ํฐ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. TD-MPC2๊ฐ€ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ, ์„ฑ๊ณต ์ž„๊ณ„๊ฐ’์—๋Š” ๋„๋‹ฌํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋น ๋ฅธ ๋‹ฌ๋ฆฌ๊ธฐ๋Š” ๋” ์—ญ๋™์ ์ธ ๊ท ํ˜• ์ œ์–ด์™€ ์—๋„ˆ์ง€ ํšจ์œจ์ ์ธ ๋ณดํ–‰ ํŒจํ„ด์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์† ์ด๋™ ์‹œ ๋ฐœ์ƒํ•˜๋Š” ๋ณต์žกํ•œ ๋™์—ญํ•™์ด ํ•™์Šต์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

5.3.4 ๋ณต์žกํ•œ ์ด๋™ ํƒœ์Šคํฌ (Hurdle, Crawl, Stair, Maze ๋“ฑ)

Hurdle, Crawl, Stair, Slide, Maze, Pole, Balance ๋“ฑ์˜ ๋ณต์žกํ•œ ์ด๋™ ํƒœ์Šคํฌ์—์„œ๋Š” ๋ชจ๋“  ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์„ฑ๊ณต ์ž„๊ณ„๊ฐ’ ์ดํ•˜์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Hurdle ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์€ ํ—ˆ๋“ค์„ ์ธ์‹ํ•˜๊ณ  ๋›ฐ์–ด๋„˜๋Š” ๋™์ž‘์„ ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ ํ”„ ๋™์ž‘์˜ ๋ฐœ๊ฒฌ์ด ์–ด๋ ค์› ๊ณ , ํƒ€์ด๋ฐ๊ณผ ๋†’์ด ์กฐ์ ˆ์ด ๋ณต์žกํ–ˆ์Šต๋‹ˆ๋‹ค.

Crawl ํƒœ์Šคํฌ์—์„œ๋Š” ๋‚ฎ์€ ์ž์„ธ๋กœ ์ „ํ™˜ํ•˜๊ณ  ๊ธฐ์–ด๊ฐ€๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ง๋ฆฝ ์ž์„ธ์—์„œ ๋ฒ—์–ด๋‚˜๋Š” ๊ฒƒ์ด ์ข…๋ฃŒ ์กฐ๊ฑด๊ณผ ์ถฉ๋Œํ•  ์ˆ˜ ์žˆ์–ด ํ•™์Šต์ด ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค.

Stair ํƒœ์Šคํฌ์—์„œ๋Š” ๊ณ„๋‹จ์˜ ๋†’์ด์— ๋งž์ถฐ ๋ฐœ์„ ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ์ •๋ฐ€ํ•œ ์ œ์–ด๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๊ณ„๋‹จ์— ๋Œ€ํ•œ ์ ์‘์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5.4 ์กฐ์ž‘ ํƒœ์Šคํฌ ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„

์กฐ์ž‘ ํƒœ์Šคํฌ๋Š” ์ด๋™ ํƒœ์Šคํฌ๋ณด๋‹ค ๋”์šฑ ๋„์ „์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ •๊ตํ•œ ์† ์ œ์–ด์™€ ์ „์‹  ํ˜‘์‘์˜ ์กฐํ•ฉ์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

5.4.1 Reach ํƒœ์Šคํฌ

Reach ํƒœ์Šคํฌ๋Š” 3D ๊ณต๊ฐ„์˜ ๋ชฉํ‘œ ์ง€์ ์— ์†์„ ๋„๋‹ฌ์‹œํ‚ค๋Š” ๊ธฐ๋ณธ ์กฐ์ž‘ ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

์ƒ๋Œ€์ ์œผ๋กœ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ, ์™„๋ฒฝํ•œ ๋„๋‹ฌ์€ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ๋ชฉํ‘œ ์œ„์น˜๊ฐ€ ์ž‘์—… ๊ณต๊ฐ„์˜ ๊ฒฝ๊ณ„์— ์žˆ์„ ๋•Œ ์–ด๋ ค์›€์ด ์ฆ๊ฐ€ํ–ˆ๊ณ , ๋„๋‹ฌํ•˜๋ฉด์„œ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด ๋ณต์žกํ–ˆ์Šต๋‹ˆ๋‹ค.

5.4.2 Push ํƒœ์Šคํฌ

Push ํƒœ์Šคํฌ๋Š” ํ…Œ์ด๋ธ” ์œ„์˜ ์ƒ์ž๋ฅผ ๋ฐ€์–ด ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์—”๋“œ-ํˆฌ-์—”๋“œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ๊ฑฐ์˜ 0%์— ๊ฐ€๊นŒ์šด ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด ํƒœ์Šคํฌ๊ฐ€ ์–ด๋ ค์šด ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ƒ์ž๋ฅผ ๋ฐ€๊ธฐ ์œ„ํ•œ ์ ์ ˆํ•œ ์† ์œ„์น˜๋ฅผ ์ฐพ์•„์•ผ ํ•˜๊ณ , ๋ฐ€๋ฉด์„œ ๋กœ๋ด‡ ์ž์ฒด๊ฐ€ ์ด๋™ํ•ด์•ผ ํ•˜๋ฉฐ, ์ƒ์ž์˜ ์›€์ง์ž„์„ ์˜ˆ์ธกํ•˜๊ณ  ์กฐ์ ˆํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋‹จ๊ณ„ ํ–‰๋™์˜ ์กฐํ•ฉ์ด ํ•„์š”ํ•˜์—ฌ, ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ๋Š” ์„ฑ๊ณต ๊ฒฝํ—˜์„ ์–ป๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

5.4.3 Door ํƒœ์Šคํฌ

Door ํƒœ์Šคํฌ๋Š” ๋ฌธ ์†์žก์ด๋ฅผ ๋Œ๋ฆฌ๊ณ  ๋ฌธ์„ ์—ฌ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ๋ถ€๋ถ„์  ํ•™์Šต์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ๋ฌธ ์†์žก์ด์— ์ ‘๊ทผํ•˜๊ณ  ์†์žก์ด๋ฅผ ์žก์•„ ๋Œ๋ฆฌ๋Š” ๊ฒƒ๊นŒ์ง€๋Š” ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฌธ์„ ๋‹น๊ธฐ๊ธฐ ์œ„ํ•œ ์ „์‹  ํ˜‘์‘์—์„œ ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌธ์„ ๋‹น๊ธฐ๋ ค๋ฉด ํŒ”์„ ๋‹น๊ธฐ๋ฉด์„œ ๋™์‹œ์— ๋ชธ์„ ๋’ค๋กœ ์ด๋™์‹œ์ผœ์•ผ ํ•˜๋Š”๋ฐ, ์ด ๋‘ ๋™์ž‘์˜ ์กฐํ•ฉ์ด ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์กฐ์ž‘๊ณผ ์ด๋™์˜ ๋งค๋„๋Ÿฌ์šด ํ†ตํ•ฉ์ด ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์˜ ํ•ต์‹ฌ ๋„์ „์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5.4.4 Highbar ํƒœ์Šคํฌ

Highbar ํƒœ์Šคํฌ๋Š” ์ฒ ๋ด‰์—์„œ ์ „์‹  ํšŒ์ „์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡์€ ๋ฐ”์— ๋งค๋‹ฌ๋ ค ์žˆ๋Š” ๋ณด์ˆ˜์ ์ธ ํ–‰๋™์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ํšŒ์ „์„ ์‹œ๋„ํ•˜๋ฉด ๋ฐ”์—์„œ ๋–จ์–ด์งˆ ์œ„ํ—˜์ด ์žˆ์–ด, ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ˆœํžˆ ๋งค๋‹ฌ๋ ค ์žˆ๋Š” ๊ฒƒ์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. Dense reward๊ฐ€ ์ œ๊ณต๋จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์žฅ๊ธฐ์  ๋ชฉํ‘œ(ํšŒ์ „)๋ณด๋‹ค ๋‹จ๊ธฐ์  ์•ˆ์ „(๋งค๋‹ฌ๋ฆฌ๊ธฐ ์œ ์ง€)์„ ์šฐ์„ ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ๊ธฐ ๊ณ„ํš์˜ ํ•œ๊ณ„์™€ ํƒ์ƒ‰์˜ ์–ด๋ ค์›€์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5.4.5 ๋ณตํ•ฉ ํƒœ์Šคํฌ (Kitchen, Truck, Package ๋“ฑ)

Kitchen, Truck, Room ๋“ฑ์˜ ๋ณตํ•ฉ ํƒœ์Šคํฌ๋Š” ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” ๊ฑฐ์˜ ํ•ด๊ฒฐ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

Kitchen ํƒœ์Šคํฌ๋Š” ์—ฌ๋Ÿฌ ์ฃผ๋ฐฉ ๋„๊ตฌ์™€ ์ƒํ˜ธ์ž‘์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ณต์ˆ˜์˜ ํ•˜์œ„ ํƒœ์Šคํฌ๊ฐ€ ์‹œํ€€์‹ฑ๋˜์–ด์•ผ ํ•˜๊ณ , ๊ฐ ๋„๊ตฌ์— ๋งž๋Š” ๋‹ค๋ฅธ ์กฐ์ž‘ ์ „๋žต์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

Truck ํƒœ์Šคํฌ๋Š” ํŠธ๋Ÿญ์—์„œ ๋ฌผ๊ฑด์„ ํ•˜์—ญํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๊ฑด์„ ์ง‘๊ณ , ์ด๋™ํ•˜๊ณ , ๋†“๋Š” ์ผ๋ จ์˜ ๋™์ž‘์ด ํ•„์š”ํ•˜๋ฉฐ, ์žฅ๊ธฐ์  ๊ณ„ํš๊ณผ ๋‹ค์–‘ํ•œ ๋ฌผ๊ฑด์— ๋Œ€ํ•œ ์ ์‘์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

Package ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์€ ํŒจํ‚ค์ง€์— ๊ฐ€๊นŒ์ด ์ ‘๊ทผํ•˜๋Š” ๊ฒƒ์€ ํ•™์Šตํ–ˆ์ง€๋งŒ, ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๋™์ž‘์„ ๋ฐœ๊ฒฌํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ค‘์— โ€œ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐโ€ ๊ฒฝํ—˜์„ ๊ฑฐ์˜ ์–ป์ง€ ๋ชปํ•˜์—ฌ, ์ด ๋™์ž‘์„ ํ•™์Šตํ•  ๊ธฐํšŒ๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

5.5 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ„ ๋น„๊ต ๋ถ„์„

5.5.1 ๋ชจ๋ธ ๊ธฐ๋ฐ˜ vs ๋ชจ๋ธ ํ”„๋ฆฌ

์ „๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜(TD-MPC2, DreamerV3)์ด ๋ชจ๋ธ ํ”„๋ฆฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜(SAC, PPO)๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์žฅ์ ์œผ๋กœ๋Š” ํ•™์Šต๋œ ๋ชจ๋ธ์„ ํ†ตํ•œ ํšจ์œจ์ ์ธ ๊ณ„ํš, ์ƒ์ƒ์  ๋กค์•„์›ƒ์„ ํ†ตํ•œ ์ถ”๊ฐ€ ํ•™์Šต ์‹ ํ˜ธ, ๊ทธ๋ฆฌ๊ณ  ๋ฏธ๋ž˜ ์˜ˆ์ธก์„ ํ†ตํ•œ ์žฅ๊ธฐ์  ์˜์‚ฌ๊ฒฐ์ •์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋ธ ํ•™์Šต์— ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ ๋น„์šฉ์ด ํ•„์š”ํ•˜๊ณ , ๋ชจ๋ธ ์˜ค๋ฅ˜๊ฐ€ ๋ˆ„์ ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

5.5.2 TD-MPC2์˜ ์ƒ๋Œ€์  ์šฐ์œ„

TD-MPC2๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ ์ด์œ ๋ฅผ ๋ถ„์„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์˜จ๋ผ์ธ ๊ณ„ํš์€ ๊ฐ ์‹œ๊ฐ„ ์Šคํ…์—์„œ ์—ฌ๋Ÿฌ ๋ฏธ๋ž˜ ๊ถค์ ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜์—ฌ ๊ท ํ˜• ์œ ์ง€์™€ ๊ฐ™์€ ์ฆ‰๊ฐ์  ๋ฌธ์ œ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•ฉ๋‹ˆ๋‹ค. ์ž ์žฌ ๊ณต๊ฐ„ ํ•™์Šต์€ ๊ณ ์ฐจ์› ๊ด€์ธก์„ ์ €์ฐจ์› ํ‘œํ˜„์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์ •์ฑ… ์‚ฌ์ „๋ถ„ํฌ๋Š” MPPI ์ƒ˜ํ”Œ๋ง์˜ ์ดˆ๊ธฐํ™”์— ํ•™์Šต๋œ ์ •์ฑ…์„ ์‚ฌ์šฉํ•˜์—ฌ ํƒ์ƒ‰ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

5.5.3 PPO์˜ ์‹คํŒจ ์›์ธ

PPO๊ฐ€ ํŠนํžˆ ์ €์กฐํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ์˜ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜จ-ํด๋ฆฌ์‹œ ํ•™์Šต์€ ๊ฐ ์ •์ฑ… ์—…๋ฐ์ดํŠธ๋งˆ๋‹ค ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. 61์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๊ฒฝํ—˜์„ ์–ป๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

๋ณ‘๋ ฌํ™”์˜ ๋ถ€์žฌ๋„ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. PPO๋Š” ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ด์ง€๋งŒ, ๋ณธ ๋ฒค์น˜๋งˆํ‚น์—์„œ๋Š” ์ œํ•œ๋œ ๋ณ‘๋ ฌํ™”๋งŒ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. MuJoCo MJX๋ฅผ ์‚ฌ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ PPO๋Š” ์ €์ˆ˜์ค€ ์ •์ฑ… ํ•™์Šต์—์„œ ํšจ๊ณผ์ ์ž„์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

5.6 ๊ฒฐ๊ณผ์˜ ์ข…ํ•ฉ์  ์‹œ์‚ฌ์ 

๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์ œ์–ด์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

5.6.1 ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์˜ ์ €์ฃผ

61์ฐจ์›์˜ ํ–‰๋™ ๊ณต๊ฐ„์€ ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์—๊ฒŒ ์ƒ๋‹นํ•œ ๋„์ „์ž…๋‹ˆ๋‹ค. ํ–‰๋™ ๊ณต๊ฐ„์˜ ์ฐจ์›์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ํƒ์ƒ‰ํ•ด์•ผ ํ•  ๊ณต๊ฐ„์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™์„ ๋ฐœ๊ฒฌํ•  ํ™•๋ฅ ์ด ๊ทน๋„๋กœ ๋‚ฎ์•„์ง€๋ฉฐ, ํŠนํžˆ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ์ •๊ตํ•œ ์† ์ œ์–ด๊ฐ€ ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค.

5.6.2 ์žฅ๊ธฐ ๊ณ„ํš์˜ ํ•„์š”์„ฑ

๋งŽ์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋‹จ๊ธฐ์  ๋ณด์ƒ ์ตœ๋Œ€ํ™”์— ์น˜์ค‘ํ•˜์—ฌ ์žฅ๊ธฐ์  ํƒœ์Šคํฌ ์™„์ˆ˜์— ์‹คํŒจํ•ฉ๋‹ˆ๋‹ค. Highbar ํƒœ์Šคํฌ์—์„œ์˜ ๋ณด์ˆ˜์  ํ–‰๋™์ด ๋Œ€ํ‘œ์  ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ํƒœ์Šคํฌ๋Š” ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš์„ ์š”๊ตฌํ•˜๋ฉฐ, ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด๋Ÿฌํ•œ ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

5.6.3 ๊ธฐ์ˆ  ์กฐํ•ฉ์˜ ์–ด๋ ค์›€

์ด๋™๊ณผ ์กฐ์ž‘์„ ๋™์‹œ์— ์š”๊ตฌํ•˜๋Š” ํƒœ์Šคํฌ์—์„œ ํŠนํžˆ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋ฉ๋‹ˆ๋‹ค. Door ํƒœ์Šคํฌ์—์„œ ์†์žก์ด ๋Œ๋ฆฌ๊ธฐ๋Š” ์„ฑ๊ณตํ•˜์ง€๋งŒ ๋ฌธ ๋‹น๊ธฐ๊ธฐ๋Š” ์‹คํŒจํ•˜๋Š” ๊ฒƒ์ด ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์‹ ์ฒด ๋ถ€์œ„์˜ ํ˜‘์‘๋œ ์ œ์–ด๊ฐ€ ํ•ต์‹ฌ ๋„์ „์ž…๋‹ˆ๋‹ค.

5.6.4 ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์˜ ์ค‘์š”์„ฑ

๋ณต์žกํ•œ ํƒœ์Šคํฌ๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ƒ˜ํ”Œ ์ˆ˜๊ฐ€ ํ˜„์‹ค์ ์œผ๋กœ ๊ฐ๋‹นํ•˜๊ธฐ ์–ด๋ ค์šด ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด๋ฅผ ๊ณ ๋ คํ•˜๋ฉด ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์€ ๋”์šฑ ์ค‘์š”ํ•ด์ง‘๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์˜ ์ƒ๋Œ€์  ์šฐ์œ„๊ฐ€ ์ด๋ฅผ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.


6. ๊ณ„์ธต์  ๊ฐ•ํ™”ํ•™์Šต(Hierarchical RL) ์ ‘๊ทผ๋ฒ•

6.1 ์—”๋“œ-ํˆฌ-์—”๋“œ ํ•™์Šต์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„

5์žฅ์˜ ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ์—์„œ ํ™•์ธํ–ˆ๋“ฏ์ด, ํ˜„์žฌ ์ตœ์‹  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ HumanoidBench์˜ ๋งŽ์€ ํƒœ์Šคํฌ์—์„œ ๊ณ ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„์˜ ๊ทผ๋ณธ์ ์ธ ์›์ธ์„ ๋ถ„์„ํ•ด๋ณด๋ฉด ๊ณ„์ธต์  ์ ‘๊ทผ์˜ ํ•„์š”์„ฑ์ด ๋ช…ํ™•ํ•ด์ง‘๋‹ˆ๋‹ค.

6.1.1 ํƒ์ƒ‰ ๊ณต๊ฐ„์˜ ํญ๋ฐœ

61์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋ฐœ๊ฒฌํ•  ํ™•๋ฅ ์€ ๊ทน๋„๋กœ ๋‚ฎ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Push ํƒœ์Šคํฌ๋ฅผ ์„ฑ๊ณตํ•˜๋ ค๋ฉด ์ƒ์ž๋ฅผ ํ–ฅํ•ด ์ด๋™ํ•˜๊ณ , ์ ์ ˆํ•œ ์† ์œ„์น˜๋ฅผ ์žก๊ณ , ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ€๊ณ , ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋Š” ์ผ๋ จ์˜ ๋™์ž‘์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋™์ž‘ ์‹œํ€€์Šค๊ฐ€ ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์—์„œ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์€ ์‚ฌ์‹ค์ƒ 0์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค.

6.1.2 ์‹ ์šฉ ํ• ๋‹น ๋ฌธ์ œ (Credit Assignment Problem)

์žฅ๊ธฐ ํƒœ์Šคํฌ์—์„œ๋Š” ์–ด๋–ค ํ–‰๋™์ด ์ตœ์ข… ์„ฑ๊ณต์— ๊ธฐ์—ฌํ–ˆ๋Š”์ง€ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ˆ˜๋ฐฑ ์Šคํ…์— ๊ฑธ์นœ ์—ํ”ผ์†Œ๋“œ์—์„œ, ์ดˆ๊ธฐ์˜ ์ข‹์€ ํ–‰๋™์ด ์ตœ์ข… ๋ณด์ƒ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ–ˆ๋Š”์ง€ ์—ญ์ „ํŒŒํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

6.1.3 ๊ธฐ์ˆ ์˜ ์žฌ์‚ฌ์šฉ ๋ถˆ๊ฐ€

์—”๋“œ-ํˆฌ-์—”๋“œ ํ•™์Šต์—์„œ๋Š” ๊ฐ ํƒœ์Šคํฌ๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. โ€œ๊ฑท๊ธฐโ€๋ผ๋Š” ๊ธฐ๋ณธ ๊ธฐ์ˆ ์„ Walk ํƒœ์Šคํฌ์—์„œ ํ•™์Šตํ–ˆ๋”๋ผ๋„, Push ํƒœ์Šคํฌ์—์„œ ์ด๋ฅผ ์žฌ์‚ฌ์šฉํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ์ €ํ•˜์‹œํ‚ต๋‹ˆ๋‹ค.

6.2 ๊ณ„์ธต์  ๊ฐ•ํ™”ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜

6.2.1 ์˜ต์…˜ ํ”„๋ ˆ์ž„์›Œํฌ (Options Framework)

๊ณ„์ธต์  RL์˜ ๊ณ ์ „์  ์ด๋ก  ๊ธฐ๋ฐ˜์€ Sutton ๋“ฑ์ด ์ œ์•ˆํ•œ ์˜ต์…˜(Options) ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์˜ต์…˜์€ ์„ธ ๊ฐ€์ง€ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค: ์˜ต์…˜์ด ์‹œ์ž‘๋  ์ˆ˜ ์žˆ๋Š” ์ƒํƒœ ์ง‘ํ•ฉ์ธ ์ดˆ๊ธฐํ™” ์กฐ๊ฑด(Initiation Set) \mathcal{I}, ์˜ต์…˜ ๋‚ด์—์„œ์˜ ํ–‰๋™ ์ •์ฑ…์ธ ๋‚ด๋ถ€ ์ •์ฑ…(Intra-option Policy) \pi, ๊ทธ๋ฆฌ๊ณ  ์˜ต์…˜์ด ์ข…๋ฃŒ๋  ํ™•๋ฅ ์„ ์ •์˜ํ•˜๋Š” ์ข…๋ฃŒ ์กฐ๊ฑด(Termination Condition) \beta์ž…๋‹ˆ๋‹ค.

๊ณ ์ˆ˜์ค€ ์ •์ฑ…์€ ์–ด๋–ค ์˜ต์…˜์„ ์„ ํƒํ• ์ง€ ๊ฒฐ์ •ํ•˜๊ณ , ์„ ํƒ๋œ ์˜ต์…˜์˜ ๋‚ด๋ถ€ ์ •์ฑ…์ด ์‹คํ–‰๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ„์  ์ถ”์ƒํ™”(temporal abstraction)๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

6.2.2 ๋ชฉํ‘œ ์กฐ๊ฑด๋ถ€ ์ •์ฑ… (Goal-Conditioned Policies)

HumanoidBench์—์„œ ์‚ฌ์šฉ๋œ ๊ณ„์ธต์  ์ ‘๊ทผ์€ ๋ชฉํ‘œ ์กฐ๊ฑด๋ถ€ ์ •์ฑ…(Goal-Conditioned Policy) ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

์ €์ˆ˜์ค€ ์ •์ฑ… \pi_L(a|s, g)๋Š” ์ฃผ์–ด์ง„ ๋ชฉํ‘œ g๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ–‰๋™์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์ˆ˜์ค€ ์ •์ฑ… \pi_H(g|s)๋Š” ์ €์ˆ˜์ค€ ์ •์ฑ…์—๊ฒŒ ์ œ๊ณตํ•  ๋ชฉํ‘œ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ์—์„œ ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์˜ ํ–‰๋™ ๊ณต๊ฐ„์€ ๋ชฉํ‘œ ๊ณต๊ฐ„์ด ๋˜์–ด, ์›๋ž˜์˜ 61์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„๋ณด๋‹ค ํ›จ์”ฌ ์ž‘์•„์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.3 ์ €์ˆ˜์ค€ ์ •์ฑ… ํ•™์Šต ์ƒ์„ธ

6.3.1 MuJoCo MJX๋ฅผ ํ™œ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ•™์Šต

์—ฐ๊ตฌ์ง„์€ MuJoCo MJX(MuJoCo์˜ JAX ๊ฐ€์† ๋ฒ„์ „)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ €์ˆ˜์ค€ ์ •์ฑ…์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. MJX๋Š” GPU์—์„œ ์ˆ˜์ฒœ ๊ฐœ์˜ ํ™˜๊ฒฝ์„ ๋ณ‘๋ ฌ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ์–ด, PPO์™€ ๊ฐ™์€ ์˜จ-ํด๋ฆฌ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ์„ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณ‘๋ ฌํ™”์˜ ๊ทœ๋ชจ๋Š” ์ˆ˜์ฒœ ๊ฐœ์˜ ํ™˜๊ฒฝ์ด ๋™์‹œ์— ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋˜๋ฉฐ, ๊ฐ ์ •์ฑ… ์—…๋ฐ์ดํŠธ๋งˆ๋‹ค ๋Œ€๋Ÿ‰์˜ ๊ฒฝํ—˜์ด ์ˆ˜์ง‘๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ช‡ ์‹œ๊ฐ„ ๋‚ด์— ์ˆ˜๋ฐฑ๋งŒ ์Šคํ…์˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

6.3.2 ํ•œ ์† ๋„๋‹ฌ ์ •์ฑ… (Single-Hand Reaching)

ํ•œ ์† ๋„๋‹ฌ ์ •์ฑ…์€ ์™ผ์†์„ 3D ๊ณต๊ฐ„์˜ ๋ชฉํ‘œ ์ง€์ ์œผ๋กœ ์ด๋™์‹œํ‚ต๋‹ˆ๋‹ค.

์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ(๊ด€์ ˆ ๊ฐ๋„, ๊ฐ์†๋„) + ๋ชฉํ‘œ ์œ„์น˜(3D ์ขŒํ‘œ) ์ถœ๋ ฅ: ์ „์‹  ๊ด€์ ˆ ๋ช…๋ น(61์ฐจ์›)

๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์†๊ณผ ๋ชฉํ‘œ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ์— ๊ธฐ๋ฐ˜ํ•˜๋ฉฐ, ๋„๋‹ฌ ์‹œ ๋ณด๋„ˆ์Šค๊ฐ€ ์ฃผ์–ด์ง€๊ณ  ์ง๋ฆฝ ์ž์„ธ ์œ ์ง€์— ๋Œ€ํ•œ ๋ณด์ƒ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์—๋„ˆ์ง€ ํšจ์œจ์„ฑ์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

ํ•™์Šต๋œ ์ •์ฑ…์€ ๋‹ค์–‘ํ•œ ๋ชฉํ‘œ ์œ„์น˜์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”(generalization) ๋Šฅ๋ ฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํ•™์Šต ์ค‘์— ๋ณธ ์  ์—†๋Š” ์œ„์น˜์—๋„ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.3.3 ์–‘์† ๋„๋‹ฌ ์ •์ฑ… (Two-Hand Reaching)

์–‘์† ๋„๋‹ฌ ์ •์ฑ…์€ ์–‘์†์„ ๊ฐ๊ฐ์˜ ๋ชฉํ‘œ ์ง€์ ์œผ๋กœ ๋™์‹œ์— ์ด๋™์‹œํ‚ต๋‹ˆ๋‹ค.

์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ + ์™ผ์† ๋ชฉํ‘œ(3D) + ์˜ค๋ฅธ์† ๋ชฉํ‘œ(3D) ์ถœ๋ ฅ: ์ „์‹  ๊ด€์ ˆ ๋ช…๋ น(61์ฐจ์›)

์–‘์† ๋„๋‹ฌ์€ ํ•œ ์† ๋„๋‹ฌ๋ณด๋‹ค ๋” ๋ณต์žกํ•œ ๊ท ํ˜• ์ œ์–ด๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋‘ ํŒ”์˜ ์›€์ง์ž„์ด ์„œ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ๋ฌด๊ฒŒ์ค‘์‹ฌ ์ด๋™์ด ๋” ํฌ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ๋” ๋ณต์žกํ•œ ์–‘์† ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

6.3.4 ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ ์‚ฌ์šฉ

์ €์ˆ˜์ค€ ์ •์ฑ… ํ•™์Šต์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, ๋ฐœ ๋ถ€๋ถ„์—๋งŒ ์ถฉ๋Œ ๋ฉ”์‰ฌ๊ฐ€ ์žˆ๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ์ด ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์„ ํƒ์˜ ์ด์œ ๋Š” ๋„๋‹ฌ ํƒœ์Šคํฌ์—์„œ ์†๊ณผ ๋ฌผ์ฒด์˜ ์ƒํ˜ธ์ž‘์šฉ์ด ์—†์–ด, ์†์˜ ์ƒ์„ธํ•œ ์ถฉ๋Œ ๋ชจ๋ธ์ด ๋ถˆํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ถฉ๋Œ ๊ฒ€์ถœ ๊ณ„์‚ฐ์ด ์ค„์–ด๋“ค์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์†๋„๊ฐ€ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋ฐœ์˜ ์ถฉ๋Œ์€ ๊ท ํ˜• ์œ ์ง€์— ํ•„์ˆ˜์ ์ด๋ฏ€๋กœ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค.

6.4 ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ

6.4.1 ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์กฐ

HumanoidBench์˜ ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜๋Š” ๋‘ ์ˆ˜์ค€์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

๊ณ ์ˆ˜์ค€ ์ •์ฑ… (High-Level Policy):

  • ์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ + ํƒœ์Šคํฌ ๊ด€๋ จ ์ƒํƒœ(์˜ˆ: ์ƒ์ž ์œ„์น˜)
  • ์ถœ๋ ฅ: ์ €์ˆ˜์ค€ ์ •์ฑ…์—๊ฒŒ ์ „๋‹ฌํ•  ์„ธํŠธํฌ์ธํŠธ(์˜ˆ: 3D ๋ชฉํ‘œ ์œ„์น˜)
  • ํ•™์Šต: DreamerV3 ๋˜๋Š” TD-MPC2 ์‚ฌ์šฉ
  • ํ–‰๋™ ๊ณต๊ฐ„: 3์ฐจ์›(ํ•œ ์†) ๋˜๋Š” 6์ฐจ์›(์–‘์†)์œผ๋กœ ๋Œ€ํญ ์ถ•์†Œ

์ €์ˆ˜์ค€ ์ •์ฑ… (Low-Level Policy):

  • ์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ + ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ์ œ๊ณตํ•œ ๋ชฉํ‘œ
  • ์ถœ๋ ฅ: ์‹ค์ œ ๊ด€์ ˆ ๋ช…๋ น(61์ฐจ์›)
  • ์‚ฌ์ „ ํ•™์Šต๋จ(frozen): ๊ณ ์ˆ˜์ค€ ํ•™์Šต ์ค‘ ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š์Œ
  • ๊ณ ์ •๋œ ์ฃผํŒŒ์ˆ˜๋กœ ๋ชฉํ‘œ๋ฅผ ์ถ”์ 

6.4.2 ์‹œ๊ฐ„์  ์ถ”์ƒํ™”

๊ณ„์ธต์  ๊ตฌ์กฐ์—์„œ ์‹œ๊ฐ„์  ์ถ”์ƒํ™”๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

๊ณ ์ˆ˜์ค€ ์ •์ฑ…์€ ๋” ๋‚ฎ์€ ์ฃผํŒŒ์ˆ˜๋กœ ๊ฒฐ์ •์„ ๋‚ด๋ฆฝ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งค 10 ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šคํ…๋งˆ๋‹ค ์ƒˆ๋กœ์šด ๋ชฉํ‘œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ €์ˆ˜์ค€ ์ •์ฑ…์€ ๋งค ์Šคํ…๋งˆ๋‹ค ์‹คํ–‰๋˜์–ด ๋ชฉํ‘œ๋ฅผ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์€ ๋” ์ถ”์ƒ์ ์ธ ์ˆ˜์ค€์—์„œ ๊ณ„ํšํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.4.3 Push ํƒœ์Šคํฌ์—์„œ์˜ ๊ตฌ์ฒด์  ์ ์šฉ

Push ํƒœ์Šคํฌ์—์„œ ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜์˜ ๊ตฌ์ฒด์  ์ž‘๋™ ๋ฐฉ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

ํƒœ์Šคํฌ ๋ชฉํ‘œ: ํ…Œ์ด๋ธ” ์œ„์˜ ์ƒ์ž๋ฅผ ๋ชฉํ‘œ ์œ„์น˜๋กœ ๋ฏผ๋‹ค.

๊ณ ์ˆ˜์ค€ ์ •์ฑ…:

  • ์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ, ์ƒ์ž ํ˜„์žฌ ์œ„์น˜, ์ƒ์ž ๋ชฉํ‘œ ์œ„์น˜
  • ์ถœ๋ ฅ: ์™ผ์†์ด ๋„๋‹ฌํ•ด์•ผ ํ•  3D ์œ„์น˜
  • ํ–‰๋™ ๊ณต๊ฐ„ ์ œํ•œ: ๋กœ๋ด‡์˜ ์ž‘์—… ๊ณต๊ฐ„ ๋‚ด๋กœ ๋ชฉํ‘œ ๋ฒ”์œ„ ์ œํ•œ

์ €์ˆ˜์ค€ ์ •์ฑ…:

  • ์ž…๋ ฅ: ๋กœ๋ด‡ ์ƒํƒœ, ๊ณ ์ˆ˜์ค€์ด ์ œ๊ณตํ•œ ์† ๋ชฉํ‘œ ์œ„์น˜
  • ์ถœ๋ ฅ: 61์ฐจ์› ๊ด€์ ˆ ๋ช…๋ น
  • ๋™์ž‘: ์†์„ ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋ฉด์„œ ๊ท ํ˜• ์œ ์ง€

์ƒํ˜ธ์ž‘์šฉ ํ๋ฆ„:

  1. ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ์ƒ์ž ๊ทผ์ฒ˜์˜ ์œ„์น˜๋ฅผ ๋ชฉํ‘œ๋กœ ์ถœ๋ ฅ
  2. ์ €์ˆ˜์ค€ ์ •์ฑ…์ด ์†์„ ํ•ด๋‹น ์œ„์น˜๋กœ ์ด๋™
  3. ์†์ด ์ƒ์ž์— ์ ‘์ด‰ํ•˜์—ฌ ๋ฐ€๊ธฐ ์‹œ์ž‘
  4. ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ๋ฐ€๊ธฐ ๋ฐฉํ–ฅ์— ๋”ฐ๋ผ ๋ชฉํ‘œ ์œ„์น˜ ์กฐ์ •
  5. ์ƒ์ž๊ฐ€ ๋ชฉํ‘œ ์œ„์น˜์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต

6.5 ๊ณ„์ธต์  ํ•™์Šต ๊ฒฐ๊ณผ ์ƒ์„ธ ๋ถ„์„

6.5.1 Push ํƒœ์Šคํฌ ๊ฒฐ๊ณผ

Push ํƒœ์Šคํฌ์—์„œ ๊ณ„์ธต์  ์ ‘๊ทผ์˜ ํšจ๊ณผ๋Š” ๊ทน์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

์—”๋“œ-ํˆฌ-์—”๋“œ ์ ‘๊ทผ์˜ ์„ฑ๊ณต๋ฅ ์ด ๊ฑฐ์˜ 0%์— ๊ฐ€๊นŒ์› ๋˜ ๋ฐ˜๋ฉด, ๊ณ„์ธต์  ์ ‘๊ทผ์€ ๋งค์šฐ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. DreamerV3 + Hierarchical ์กฐํ•ฉ๊ณผ TD-MPC2 + Hierarchical ์กฐํ•ฉ ๋ชจ๋‘ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์„ฑ๊ณต ์š”์ธ์„ ๋ถ„์„ํ•˜๋ฉด, ํ–‰๋™ ๊ณต๊ฐ„ ์ถ•์†Œ๊ฐ€ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. 61์ฐจ์›์—์„œ 3์ฐจ์›์œผ๋กœ ๋Œ€ํญ ์ถ•์†Œ๋˜์–ด ํƒ์ƒ‰์ด ์šฉ์ดํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์•ˆ์ •์ ์ธ ์ €์ˆ˜์ค€ ๊ธฐ์ˆ  ๋•๋ถ„์— ์†์„ ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์€ ์ด๋ฏธ ํ•™์Šต๋˜์–ด ์žˆ์–ด, ๊ณ ์ˆ˜์ค€์€ โ€œ์–ด๋””๋กœโ€ ์ด๋™ํ• ์ง€๋งŒ ํ•™์Šตํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋ช…ํ™•ํ•œ ํ•˜์œ„ ๋ชฉํ‘œ๋„ ์„ฑ๊ณต์— ๊ธฐ์—ฌํ–ˆ๋Š”๋ฐ, ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ์ถœ๋ ฅํ•˜๋Š” ๋ชฉํ‘œ ์œ„์น˜๋Š” ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ค‘๊ฐ„ ํ‘œํ˜„์ž…๋‹ˆ๋‹ค.

6.5.2 Package ํƒœ์Šคํฌ ๊ฒฐ๊ณผ

Package ํƒœ์Šคํฌ์—์„œ๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์žˆ์—ˆ์ง€๋งŒ, Push ํƒœ์Šคํฌ๋งŒํผ ๊ทน์ ์ด์ง€๋Š” ์•Š์•˜์Šต๋‹ˆ๋‹ค.

Package ํƒœ์Šคํฌ๊ฐ€ ๋” ์–ด๋ ค์šด ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ ๋™์ž‘์˜ ๋ถ€์žฌ๊ฐ€ ํ•ต์‹ฌ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ๋„๋‹ฌ ์ •์ฑ…์€ ์†์„ ํŠน์ • ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์„ ํ•™์Šตํ–ˆ์ง€๋งŒ, ๋ฌผ์ฒด๋ฅผ ์ง‘๊ณ  ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์€ ํ•™์Šตํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ํŒจํ‚ค์ง€๋ฅผ ์žก๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋‘ ์†์˜ ํ˜‘์‘์ด ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ๋‹จ์ˆœ ๋„๋‹ฌ๋ณด๋‹ค ๋ณต์žกํ•ฉ๋‹ˆ๋‹ค.

์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ํ•œ๊ณ„๊ฐ€ ๊ณ ์ˆ˜์ค€ ์„ฑ๋Šฅ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์ €์ˆ˜์ค€์ด โ€œ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐโ€๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ, ๊ณ ์ˆ˜์ค€์ด ์•„๋ฌด๋ฆฌ ์ข‹์€ ๊ณ„ํš์„ ์„ธ์›Œ๋„ ์‹คํ–‰์ด ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ €์ˆ˜์ค€ ๊ธฐ์ˆ  ์„ธํŠธ์˜ ์™„์ „์„ฑ์ด ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

6.5.3 ์ •๋Ÿ‰์  ๋น„๊ต

Push ํƒœ์Šคํฌ์—์„œ ์—”๋“œ-ํˆฌ-์—”๋“œ DreamerV3๋Š” ๋งค์šฐ ๋‚ฎ์€ ๋ฆฌํ„ด์„ ๋ณด์˜€์ง€๋งŒ, ๊ณ„์ธต์  DreamerV3๋Š” ์„ฑ๊ณต ์ž„๊ณ„๊ฐ’์„ ํฌ๊ฒŒ ์ƒํšŒํ•˜๋Š” ๋ฆฌํ„ด์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์†๋„ ์ธก๋ฉด์—์„œ๋„ ๊ณ„์ธต์  ์ ‘๊ทผ์ด ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ถ„์‚ฐ๋„ ๊ณ„์ธต์  ์ ‘๊ทผ์—์„œ ๋” ๋‚ฎ์•„ ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

6.6 ์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ์žฌ์‚ฌ์šฉ์„ฑ

๊ณ„์ธต์  ์ ‘๊ทผ์˜ ํ•ต์‹ฌ ์žฅ์  ์ค‘ ํ•˜๋‚˜๋Š” ์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ์žฌ์‚ฌ์šฉ์ž…๋‹ˆ๋‹ค.

ํ•œ ๋ฒˆ ํ•™์Šต๋œ ๋„๋‹ฌ ์ •์ฑ…์€ ์—ฌ๋Ÿฌ ํƒœ์Šคํฌ์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Push ํƒœ์Šคํฌ์—์„œ ์ƒ์ž๋ฅผ ๋ฏธ๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๊ณ , Package ํƒœ์Šคํฌ์—์„œ ํŒจํ‚ค์ง€์— ์ ‘๊ทผํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ž ์žฌ์ ์œผ๋กœ Door, Cabinet ๋“ฑ ๋‹ค๋ฅธ ์กฐ์ž‘ ํƒœ์Šคํฌ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์žฌ์‚ฌ์šฉ์„ฑ์€ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ ํ•™์Šต์„ ๊ฐ€์†ํ™”ํ•˜๊ณ , ํ•™์Šต๋œ ๊ธฐ์ˆ ์˜ ์ถ•์ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๋” ๋ณต์žกํ•œ ํƒœ์Šคํฌ๋กœ์˜ ์ ์ง„์  ํ™•์žฅ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

6.7 ๊ณ„์ธต์  ์ ‘๊ทผ์˜ ํ•œ๊ณ„์™€ ๋„์ „

6.7.1 ์ €์ˆ˜์ค€ ์ •์ฑ… ์„ค๊ณ„์˜ ์–ด๋ ค์›€

์–ด๋–ค ์ €์ˆ˜์ค€ ๊ธฐ์ˆ ์ด ํ•„์š”ํ•œ์ง€ ์‚ฌ์ „์— ๊ฒฐ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํƒœ์Šคํฌ์— ์ ํ•ฉํ•œ ๊ธฐ์ˆ  ์„ธํŠธ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋ฉฐ, ๋ถˆ์™„์ „ํ•œ ๊ธฐ์ˆ  ์„ธํŠธ๋Š” ํƒœ์Šคํฌ ํ•ด๊ฒฐ์„ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.7.2 ์ธํ„ฐํŽ˜์ด์Šค ์„ค๊ณ„

๊ณ ์ˆ˜์ค€๊ณผ ์ €์ˆ˜์ค€ ๊ฐ„์˜ ์ธํ„ฐํŽ˜์ด์Šค(๋ชฉํ‘œ ๊ณต๊ฐ„)๋ฅผ ์„ค๊ณ„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ์ €์ฐจ์›์ด๋ฉด ํ‘œํ˜„๋ ฅ์ด ๋ถ€์กฑํ•˜๊ณ , ๋„ˆ๋ฌด ๊ณ ์ฐจ์›์ด๋ฉด ํƒ์ƒ‰์ด ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค. ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ์ถ”์ƒํ™” ์ˆ˜์ค€์ด ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.7.3 ์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ํ•œ๊ณ„

์‚ฌ์ „ ํ•™์Šต๋œ ์ €์ˆ˜์ค€ ์ •์ฑ…์ด ์ง€์›ํ•˜์ง€ ์•Š๋Š” ํ–‰๋™์€ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋„๋‹ฌ ์ •์ฑ…์€ โ€œ์žก๊ธฐโ€๋‚˜ โ€œ๋Œ๋ฆฌ๊ธฐโ€ ๊ฐ™์€ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” Door ํƒœ์Šคํฌ์—์„œ ์†์žก์ด๋ฅผ ๋Œ๋ฆฌ๋Š” ๊ฒƒ์ด ์–ด๋ ค์šด ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

6.7.4 ์ €์ˆ˜์ค€๊ณผ ๊ณ ์ˆ˜์ค€์˜ ๋ถˆ์ผ์น˜

์ €์ˆ˜์ค€ ์ •์ฑ…์ด ๊ณ ์ˆ˜์ค€์˜ ์˜๋„๋ฅผ ์ •ํ™•ํžˆ ์‹คํ–‰ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณ ์ˆ˜์ค€์ด ํŠน์ • ์œ„์น˜๋ฅผ ๋ชฉํ‘œ๋กœ ์ œ์‹œํ•ด๋„, ์ €์ˆ˜์ค€์ด ์ •ํ™•ํžˆ ๊ทธ ์œ„์น˜์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹คํ–‰ ์˜ค๋ฅ˜๊ฐ€ ๋ˆ„์ ๋˜๋ฉด ํƒœ์Šคํฌ ์‹คํŒจ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.8 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

6.8.1 ์ž๋™ ๊ธฐ์ˆ  ๋ฐœ๊ฒฌ (Automatic Skill Discovery)

์‚ฌ์ „ ์ •์˜๋œ ์ €์ˆ˜์ค€ ์ •์ฑ… ๋Œ€์‹ , ์ž๋™์œผ๋กœ ์œ ์šฉํ•œ ๊ธฐ์ˆ ์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•œ ์ ‘๊ทผ๋ฒ•์œผ๋กœ๋Š” ์ •๋ณด ์ด๋ก ์  ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ ๊ธฐ์ˆ  ๋ฐœ๊ฒฌ, ํƒœ์Šคํฌ ๋ถ„ํ•ด๋ฅผ ํ†ตํ•œ ํ•˜์œ„ ๊ธฐ์ˆ  ์ถ”์ถœ, ๊ทธ๋ฆฌ๊ณ  ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์—์„œ ๊ธฐ์ˆ  ์ถ”์ถœ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

6.8.2 ๋‹ค์–‘ํ•œ ์ €์ˆ˜์ค€ ๊ธฐ์ˆ ์˜ ๋™์  ์กฐํ•ฉ

์—ฌ๋Ÿฌ ์ €์ˆ˜์ค€ ๊ธฐ์ˆ ์„ ์ƒํ™ฉ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์„ ํƒํ•˜๊ณ  ์กฐํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฑท๊ธฐ, ๋„๋‹ฌ, ์žก๊ธฐ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์„ ๋ณด์œ ํ•˜๊ณ , ํƒœ์Šคํฌ ์š”๊ตฌ์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ๊ธฐ์ˆ ์„ ์„ ํƒํ•˜๋ฉฐ, ๊ธฐ์ˆ  ๊ฐ„ ๋งค๋„๋Ÿฌ์šด ์ „ํ™˜์„ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

6.8.3 ์ €์ˆ˜์ค€ ์ •์ฑ…์˜ ์˜จ๋ผ์ธ ์ ์‘

์‚ฌ์ „ ํ•™์Šต๋œ ์ €์ˆ˜์ค€ ์ •์ฑ…์„ ํƒœ์Šคํฌ์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณ ์ˆ˜์ค€ ํ•™์Šต ์ค‘์— ์ €์ˆ˜์ค€๋„ ํ•จ๊ป˜ ์—…๋ฐ์ดํŠธํ•˜๋˜, ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ ์‘ํ•˜๋Š” ๊ฒƒ์ด ๋„์ „์ž…๋‹ˆ๋‹ค.

6.8.4 ์–ธ์–ด ์กฐ๊ฑด๋ถ€ ๊ณ„์ธต์  ์ œ์–ด

์ž์—ฐ์–ด ๋ช…๋ น์„ ํ†ตํ•ด ๊ณ ์ˆ˜์ค€ ๋ชฉํ‘œ๋ฅผ ์ง€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์ƒ์ž๋ฅผ ์™ผ์ชฝ์œผ๋กœ ๋ฐ€์–ดโ€๋ผ๋Š” ๋ช…๋ น์„ ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ , ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๊ณ„ํš ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


7. ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ ์‹ฌ์ธต ๋ถ„์„

7.1 ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„

HumanoidBench์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ํƒœ์Šคํฌ๋ณ„๋กœ ์„ธ์‹ฌํ•˜๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ ์š”์†Œ๋“ค์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

ํƒœ์Šคํฌ ์„ฑ๊ณต ๋ณด์ƒ์€ ๋ชฉํ‘œ ๋‹ฌ์„ฑ ์‹œ ์ฃผ์–ด์ง€๋Š” ๋ณด์ƒ์ž…๋‹ˆ๋‹ค. ์ง„ํ–‰ ๋ณด์ƒ์€ ๋ชฉํ‘œ์— ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์ฆ๊ฐ€ํ•˜๋Š” shaping ๋ณด์ƒ์ž…๋‹ˆ๋‹ค. ์ง๋ฆฝ ๋ณด์ƒ์€ ๋กœ๋ด‡์ด ์„œ ์žˆ๋Š” ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ๋ณด์ƒ์ž…๋‹ˆ๋‹ค. ์—๋„ˆ์ง€ ํŒจ๋„ํ‹ฐ๋Š” ๊ณผ๋„ํ•œ ์•ก์ถ”์—์ดํ„ฐ ์‚ฌ์šฉ์— ๋Œ€ํ•œ ํŽ˜๋„ํ‹ฐ์ž…๋‹ˆ๋‹ค.

ํŠนํžˆ ์ง๋ฆฝ ๋ณด์ƒ์€ ๋งค์šฐ ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ด๋Š” ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—์„œ ๊ท ํ˜• ์œ ์ง€๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

7.2 ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ ์กฐ๊ฑด

๋Œ€๋ถ€๋ถ„์˜ ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์ด ๋„˜์–ด์ง€๋ฉด ์—ํ”ผ์†Œ๋“œ๊ฐ€ ์ข…๋ฃŒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์ด โ€œ์•ˆ์ „ํ•œโ€ ํ–‰๋™์„ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•˜์ง€๋งŒ, ๋™์‹œ์— ํƒ์ƒ‰์„ ์ œํ•œํ•˜๋Š” ํšจ๊ณผ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. Highbar ํƒœ์Šคํฌ์—์„œ ๋กœ๋ด‡์ด ํšŒ์ „์„ ์‹œ๋„ํ•˜์ง€ ์•Š๊ณ  ๋‹จ์ˆœํžˆ ๋งค๋‹ฌ๋ ค ์žˆ๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๊ทธ ์˜ˆ์ž…๋‹ˆ๋‹ค.

7.3 ์ด‰๊ฐ ์„ผ์‹ฑ ๊ตฌํ˜„

HumanoidBench์˜ ์ด‰๊ฐ ์„ผ์‹ฑ ๊ตฌํ˜„์€ ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ์ถฉ๋Œ ๋ฉ”์‰ฌ๋ฅผ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ์ ‘์ด‰์  ํ›„๋ณด๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๊ณ , MuJoCo ํ„ฐ์น˜ ๊ทธ๋ฆฌ๋“œ์˜ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์† ๋ถ€๋ถ„์€ ๊ณ ํ•ด์ƒ๋„, ๋‹ค๋ฅธ ๋ถ€์œ„๋Š” ์ €ํ•ด์ƒ๋„๋กœ ์„ค๊ณ„ํ•˜์—ฌ ์ธ๊ฐ„์˜ ์ด‰๊ฐ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ฐฉํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํƒ์…€์€ 3์ฐจ์› ์ ‘์ด‰๋ ฅ(๋ฒ•์„ ๋ ฅ + ์ „๋‹จ๋ ฅ)์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

7.4 ์‹œ๊ฐ ๊ด€์ธก ๊ตฌํ˜„

์‹œ๊ฐ ๊ด€์ธก์€ ๋กœ๋ด‡ ๋จธ๋ฆฌ์— ์žฅ์ฐฉ๋œ ๋‘ ๋Œ€์˜ ์นด๋ฉ”๋ผ๋ฅผ ํ†ตํ•ด ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์–‘์•ˆ ์‹œ๊ฐ์„ ํ†ตํ•œ ๊นŠ์ด ์ธ์‹์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์ž๊ธฐ์ค‘์‹ฌ์  ์‹œ์ ์œผ๋กœ ์‹ค์ œ ๋กœ๋ด‡์—์„œ์˜ ๊ตฌํ˜„์„ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ๋ฒค์น˜๋งˆํ‚น์—์„œ๋Š” ์ฃผ๋กœ ์ƒํƒœ ๊ธฐ๋ฐ˜ ๊ด€์ธก์„ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ๋น„์ „ ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ•™์Šต์„ ์œ„ํ•œ ๊ธฐ๋ฐ˜์ด ๋งˆ๋ จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.


8. ์ผ๋ฐ˜์ ์ธ ์‹คํŒจ ๋ชจ๋“œ ๋ถ„์„

HumanoidBench์—์„œ ๊ด€์ฐฐ๋œ ์ฃผ์š” ์‹คํŒจ ๋ชจ๋“œ๋“ค์„ ๋ถ„์„ํ•˜๋ฉด ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์˜ ํ•ต์‹ฌ ๋„์ „ ๊ณผ์ œ๋“ค์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

8.1 Highbar ํƒœ์Šคํฌ ์‹คํŒจ

๋กœ๋ด‡์ด ๋ฐ”์—์„œ ๋–จ์–ด์ง€์ง€ ์•Š๊ธฐ ์œ„ํ•ด ๋ณด์ˆ˜์ ์œผ๋กœ ๋งค๋‹ฌ๋ ค ์žˆ๋Š” ํ–‰๋™์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ „์‹  ํšŒ์ „ ๊ถค์ ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ๊ธฐ ๊ณ„ํš์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, dense reward์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์žฅ๊ธฐ์  ๋ชฉํ‘œ ๋‹ฌ์„ฑ์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

8.2 Door ํƒœ์Šคํฌ ์‹คํŒจ

๋ฌธ ์†์žก์ด๋ฅผ ๋Œ๋ ค ์ž ๊ธˆ์„ ํ•ด์ œํ•˜๋Š” ๊ฒƒ๊นŒ์ง€๋Š” ์ž˜ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฌธ์„ ๋‹น๊ธฐ๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ •๋ฐ€ํ•œ ๋™์ž‘, ์ฆ‰ ํŒ”์„ ๋‹น๊ธฐ๋ฉด์„œ ๋™์‹œ์— ์ „์‹ ์„ ๋’ค๋กœ ์ด๋™์‹œํ‚ค๋Š” ๊ฒƒ์—์„œ ์‹คํŒจํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์กฐ์ž‘๊ณผ ์ด๋™ ๊ธฐ์ˆ ์˜ ๋งค๋„๋Ÿฌ์šด ์ƒํ˜ธ์ž‘์šฉ์ด ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

8.3 Package ํƒœ์Šคํฌ ์‹คํŒจ

ํŒจํ‚ค์ง€์— ๊ฐ€๊นŒ์ด ์ ‘๊ทผํ•˜๋Š” ๊ฒƒ์€ ํ•™์Šตํ•˜์ง€๋งŒ, ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ค‘์— ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒฝํ—˜์ด ์—†์–ด ์ด ๋™์ž‘์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

8.4 ๋ณตํ•ฉ ํƒœ์Šคํฌ ์‹คํŒจ

Kitchen, Truck ๋“ฑ์˜ ๋ณตํ•ฉ ํƒœ์Šคํฌ์—์„œ๋Š” ์—ฌ๋Ÿฌ ํ•˜์œ„ ํƒœ์Šคํฌ์˜ ์‹œํ€€์‹ฑ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด๋Ÿฌํ•œ ์žฅ๊ธฐ ๊ณ„ํš๊ณผ ๊ธฐ์ˆ  ์กฐํ•ฉ์—์„œ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.


9. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

9.1 ๊ธฐ์กด ๋กœ๋ด‡ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ

OpenAI Gym / Gymnasium์€ MuJoCo ๊ธฐ๋ฐ˜์˜ ๋‹ค์–‘ํ•œ ์—ฐ์† ์ œ์–ด ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ํœด๋จธ๋…ธ์ด๋“œ ํƒœ์Šคํฌ๋Š” ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค.

DeepMind Control Suite๋Š” ๊ณ ํ’ˆ์งˆ MuJoCo ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ํœด๋จธ๋…ธ์ด๋“œ๋Š” ๋‹จ์ˆœํ™”๋œ ๋ชจ๋ธ์ด๊ณ  ์กฐ์ž‘ ํƒœ์Šคํฌ๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.

RLBench๋Š” ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ด์ง€๋งŒ, ๊ณ ์ •๋œ ๋ฒ ์ด์Šค์˜ ๋กœ๋ด‡ ํŒ”์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค.

robosuite๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ์ด์ง€๋งŒ, ์—ญ์‹œ ๊ณ ์ • ๋ฒ ์ด์Šค ๋กœ๋ด‡์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค.

FurnitureBench๋Š” ์žฅ๊ธฐ horizon ์กฐ์ž‘์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ด์ง€๋งŒ, ์ด๋™ ๋กœ๋ด‡์ด ์•„๋‹™๋‹ˆ๋‹ค.

9.2 ํœด๋จธ๋…ธ์ด๋“œ ๊ด€๋ จ ๋ฒค์น˜๋งˆํฌ

LocoMuJoCo๋Š” ์ด๋™ ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉ ํ•™์Šต ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์ด์กฑ/์‚ฌ์กฑ ๋กœ๋ด‡์„ ํฌํ•จํ•˜์ง€๋งŒ, ์กฐ์ž‘ ํƒœ์Šคํฌ๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.

MyoSuite / MyoDex๋Š” ๊ทผ๊ณจ๊ฒฉ ๋ชจํ„ฐ ์ œ์–ด๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ์† ์กฐ์ž‘์— ์ดˆ์ ์„ ๋งž์ถ”์ง€๋งŒ, ์ „์‹  ํœด๋จธ๋…ธ์ด๋“œ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค.

Bi-DexHands๋Š” ์–‘์† ์ •๊ต ์กฐ์ž‘์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ์† ์กฐ์ž‘์— ํŠนํ™”๋˜์–ด ์žˆ์ง€๋งŒ, ์ „์‹  ์ด๋™์ด ์—†์Šต๋‹ˆ๋‹ค.

9.3 HumanoidBench์˜ ์ฐจ๋ณ„์ 

HumanoidBench๋Š” ์—ฌ๋Ÿฌ ๋ฉด์—์„œ ๋…ํŠนํ•œ ์œ„์น˜๋ฅผ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ „์‹  ํœด๋จธ๋…ธ์ด๋“œ์™€ ์ •๊ตํ•œ ์†์˜ ์กฐํ•ฉ์„ ํŠน์ง•์œผ๋กœ ํ•˜๋ฉฐ, ์ด๋™๊ณผ ์กฐ์ž‘ ํƒœ์Šคํฌ์˜ ํ†ตํ•ฉ, ๋‹ค์–‘ํ•œ ์„ผ์‹ฑ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(๊ณ ์œ ์ˆ˜์šฉ, ์‹œ๊ฐ, ์ด‰๊ฐ) ์ง€์›, ์‹ค์ œ ๋กœ๋ด‡ ๋ชจ๋ธ(Unitree H1) ๊ธฐ๋ฐ˜, ๊ทธ๋ฆฌ๊ณ  ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


10. HumanoidBench ์ดํ›„์˜ ์—ฐ๊ตฌ ๋™ํ–ฅ

HumanoidBench ๋ฐœํ‘œ ์ดํ›„, ์ด๋ฅผ ํ™œ์šฉํ•˜๊ฑฐ๋‚˜ ํ™•์žฅํ•œ ์—ฐ๊ตฌ๋“ค์ด ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

10.1 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ์„  ์—ฐ๊ตฌ

TDMPBC(Self-Imitative RL)๋Š” TD-MPC2์— ํ–‰๋™ ๋ณต์ œ ์†์‹ค์„ ์ถ”๊ฐ€ํ•˜์—ฌ HumanoidBench์—์„œ 120% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

TD-M(PC)ยฒ๋Š” ์ •์ฑ… ์ œ์•ฝ์„ ํ†ตํ•œ ์‹œ๊ฐ„์ฐจ ํ•™์Šต ๊ฐœ์„ ์œผ๋กœ ๊ณ ์ฐจ์› ์ œ์–ด์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

MuJoCo MPC๋Š” ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด๋ฅผ HumanoidBench์— ์ ์šฉํ•˜์—ฌ ํ‰๊ฐ€ํ•˜์˜€์œผ๋ฉฐ, RL๊ณผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ์ƒ‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

10.2 ๊ณ„์ธต์  ํ•™์Šต ์—ฐ๊ตฌ

SkillBlender๋Š” ๊ธฐ๋ณธ ๊ธฐ์ˆ ๋“ค์„ ๊ฐœ๋ฐœํ•œ ํ›„ ์ด๋“ค์„ ์กฐํ•ฉํ•˜์—ฌ ๋ณต์žกํ•œ ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณ„์ธต์  RL ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.

Opt2Skill์€ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ถค์  ์ตœ์ ํ™”์™€ RL์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ „์‹  ๋กœ์ฝ”-์กฐ์ž‘์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

HWC-Loco๋Š” ํœด๋จธ๋…ธ์ด๋“œ ์ „์‹  ์ œ์–ด๋ฅผ ์œ„ํ•œ robust ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

10.3 Sim-to-Real ์ „์ด ์—ฐ๊ตฌ

HumanoidBench์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ „์ดํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์ง„ํ–‰ ์ค‘์ž…๋‹ˆ๋‹ค. ๋„๋ฉ”์ธ ๋žœ๋คํ™”, ์ ์‘ํ˜• ์ œ์–ด, ๊ทธ๋ฆฌ๊ณ  robust ์ •์ฑ… ํ•™์Šต ๋“ฑ์˜ ๊ธฐ๋ฒ•์ด ํƒ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.


11. ๊ฒฐ๋ก 

HumanoidBench๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ํš๊ธฐ์ ์ธ ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ œ๊ณตํ•˜๋Š” ๊ฐ€์น˜๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๊ฐ€์†ํ™”์˜ ์ธก๋ฉด์—์„œ, ์•ˆ์ „ํ•˜๊ณ  ์ €๋ ดํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ํ†ตํ•ด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ์„ ๊ฐ€์†ํ™”ํ•ฉ๋‹ˆ๋‹ค.

ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€์˜ ์ธก๋ฉด์—์„œ, ์ผ๊ด€๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ณต์ •ํ•œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๋„์ „ ๊ณผ์ œ ๋ช…์‹œํ™”์˜ ์ธก๋ฉด์—์„œ, ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ด์–ด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์‹ค์šฉ์  ๊ด€๋ จ์„ฑ์˜ ์ธก๋ฉด์—์„œ, ์ผ์ƒ ์ƒํ™œ ํƒœ์Šคํฌ์— ์ดˆ์ ์„ ๋งž์ถฐ ์—ฐ๊ตฌ์˜ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ๊ฐ€ ๋ณด์—ฌ์ฃผ๋“ฏ์ด, ํ˜„์žฌ ์ตœ์‹  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค๋„ HumanoidBench์˜ ๋งŽ์€ ํƒœ์Šคํฌ์—์„œ ํฌ๊ฒŒ ๊ณ ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์ œ์–ด๊ฐ€ ์—ฌ์ „ํžˆ ์—ด๋ฆฐ ๋ฌธ์ œ์ž„์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋™์‹œ์— ๋ฏธ๋ž˜ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ํ’๋ถ€ํ•œ ๊ธฐํšŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๊ณ„์ธต์  ํ•™์Šต ์ ‘๊ทผ๋ฒ•์ด ๋ณด์—ฌ์ค€ ๊ฐ€๋Šฅ์„ฑ์€, ๊ตฌ์กฐํ™”๋œ ํ•™์Šต์ด ๊ณ ์ฐจ์› ์ œ์–ด ๋ฌธ์ œ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์ž๋™ ๊ธฐ์ˆ  ๋ฐœ๊ฒฌ, ํšจ์œจ์ ์ธ ๊ธฐ์ˆ  ์กฐํ•ฉ, ๊ทธ๋ฆฌ๊ณ  sim-to-real ์ „์ด์— ๋Œ€ํ•œ ์—ฐ๊ตฌ๊ฐ€ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์˜ ์‹ค์ œ ๋ฐฐ์น˜๋ฅผ ์•ž๋‹น๊ธธ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

HumanoidBench๋Š” ๋‹จ์ˆœํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„˜์–ด, ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ๋ฅผ ์œ„ํ•œ ๊ณต๋™์˜ ๋„์ „ ๊ณผ์ œ์ด์ž ํ˜‘๋ ฅ์˜ ํ”Œ๋žซํผ์œผ๋กœ ์ž๋ฆฌ์žก์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋” ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์—ฐ๊ตฌ์— ์ฐธ์—ฌํ•˜๊ณ , ๊ถ๊ทน์ ์œผ๋กœ ์ธ๊ฐ„๊ณผ ํ•จ๊ป˜ ์ผํ•  ์ˆ˜ ์žˆ๋Š” ์ง€๋Šฅ์ ์ธ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์˜ ์‹คํ˜„์— ๊ธฐ์—ฌํ•˜๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

์ฐธ๊ณ  ๋ฌธํ—Œ

  • Sferrazza, C., Huang, D.-M., Lin, X., Lee, Y., & Abbeel, P. (2024). HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation. In Robotics: Science and Systems.
  • Hansen, N., Su, H., & Wang, X. (2024). TD-MPC2: Scalable, Robust World Models for Continuous Control. In ICLR.
  • Hafner, D., et al. (2023). DreamerV3: Mastering Diverse Domains through World Models. arXiv preprint.
  • Haarnoja, T., et al. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning. In ICML.
  • Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : HumanoidBench์˜ ๋™๊ธฐ์™€ ์˜์˜

ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์€ ์ผ์ƒ ํ™˜๊ฒฝ์—์„œ ์‚ฌ๋žŒ์„ ๋„์šธ ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ์ง€๋…”์ง€๋งŒ, ์‹ค์ œ ํ•˜๋“œ์›จ์–ด์˜ ๋น„์šฉ๊ณผ ์ทจ์•ฝ์„ฑ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ์ง€์ฒด๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Boston Dynamics์˜ Atlas๋‚˜ Tesla Optimus ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ ๋กœ๋ด‡๋„ ํŠน์ • ์ž‘์—…์„ ์œ„ํ•ด ์ˆ˜๋™์œผ๋กœ ์กฐ์ •๋œ ์ œ์–ด๊ธฐ ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ๊ณผ์ œ๋ฅผ ๋ฐ”๊พธ๋ฉด ๋‹ค์‹œ ๋งŽ์€ ์—”์ง€๋‹ˆ์–ด๋ง์ด ์š”๊ตฌ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์ฐจ์› ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ๊ณผ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ํ•„์š”ํ•ด์กŒ๋‹ค. HumanoidBench๋Š” ์ „์‹  ์ด๋™ ๋ฐ ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ๊ฐ–์ถ˜ ์ตœ์ดˆ์˜ ํœด๋จธ๋…ธ์ด๋“œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋ณต์žกํ•œ ๋™์—ญํ•™ ์ œ์–ด์™€ ์žฅ๊ธฐ ๊ณผ์ œ๋ฅผ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ๋Š” ์•ˆ์ „ํ•˜๊ณ  ๋น„์šฉ ํšจ์œจ์ ์ธ ์‹œํ—˜๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ํŠนํžˆ ๋ณธ ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์–‘ํ•œ ์ด๋™ ๋ฐ ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ํœด๋จธ๋…ธ์ด๋“œ์˜ ๋ณต์žกํ•œ ๋™์  ๊ฑฐ๋™, ๊ฐ ๋ถ€์œ„ ๊ฐ„์˜ ์ •๊ตํ•œ ํ˜‘์‘, ์žฅ๊ธฐ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์˜ ๋„์ „ ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•œ๊ณ„๋ฅผ ๋น ๋ฅด๊ฒŒ ํŒŒ์•…ํ•˜๋„๋ก ๋•๋Š”๋‹ค.

HumanoidBench์˜ ์ฃผ์š” ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: - ๋‘ ๊ฐœ์˜ ๋””ํ…Œ์ผํ•œ ์†(dexterous hands) ์„ ๊ฐ–์ถ˜ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ์ œ๊ณต. - ์ธ๊ฐ„์˜ ์ผ์ƒ ๊ณผ์ œ๋ฅผ ํฌํ•จํ•˜์—ฌ ์ด๋™(locomotion), ์กฐ์ž‘(manipulation), ์ „์‹  ์ œ์–ด(whole-body control) ๊ณผ์ œ๋ฅผ ์•„์šฐ๋ฅด๋Š” ๋‹ค์–‘ํ•œ ๊ณผ์ œ ์Šค์œ„ํŠธ. - ๊ณ ์ฐจ์› ํœด๋จธ๋…ธ์ด๋“œ ํ•™์Šต์˜ ์ง„์ฒ™๋„๋ฅผ ํ‰๊ฐ€ํ•  ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต. - ์ตœ์‹  ๊ฐ•ํ™”ํ•™์Šต(RL) ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ณ„์ธต์ (RL) ์ ‘๊ทผ ๋ฐฉ์‹์˜ ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ ๊ณต์œ .

์ด๋กœ์จ HumanoidBench๋Š” ๋กœ๋ด‡ ํ•™์Šต ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๊ณ ์ฐจ์› ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์ œ์–ด์˜ ๋„์ „ ๊ณผ์ œ๋ฅผ ๋“œ๋Ÿฌ๋‚ด๊ณ , ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‚˜ ์•„์ด๋””์–ด๋ฅผ ์‹ ์†ํžˆ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•œ๋‹ค.

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํœด๋จธ๋…ธ์ด๋“œ ํ™˜๊ฒฝ ๋ฐ ๋ชจ๋ธ

HumanoidBench ํ™˜๊ฒฝ์€ MuJoCo ๋ฌผ๋ฆฌ์—”์ง„์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ๋‹ค. ์ฃผ ๋กœ๋ด‡ ํ”Œ๋žซํผ์œผ๋กœ๋Š” Unitree H1์„ ์ฑ„ํƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋น„๊ต์  ์ €๋น„์šฉ์ด๋ฉฐ ์ •ํ™•ํ•œ ๋™์—ญํ•™ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜๋Š” ์‹ค๋ฌผ ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋กœ๋ด‡์˜ ์–‘ํŒ”์—๋Š” Shadow Robot์˜ ๋””ํ…Œ์ผํ•œ 5์†๊ฐ€๋ฝ ํ•ธ๋“œ๊ฐ€ ๋ถ€์ฐฉ๋˜์–ด ์žˆ์œผ๋ฉฐ, ํœด๋จธ๋…ธ์ด๋“œ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. (๋ฏธ๋ž˜์˜ ํŠธ๋ Œ๋“œ๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ ๋‘ Shadow ํ•ธ๋“œ์˜ ์ „์™„๋ถ€๋Š” ์Šฌ๋ฆผํ•˜๊ฒŒ ์ˆ˜์ •๋˜์—ˆ๊ณ , Robotiq 2F-85 ๊ทธ๋ฆฌํผ ๋“ฑ ๋‹ค๋ฅธ ์† ๋ชจ๋ธ๋„ ์˜ต์…˜์œผ๋กœ ์ œ๊ณต๋œ๋‹ค.) ๋˜ํ•œ Unitree H1 ์ด์™ธ์—๋„ Agility Robotics์˜ Digit ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ์ถ”๊ฐ€ ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜์—ฌ ํ™•์žฅ์„ฑ์„ ํ™•๋ณดํ•œ๋‹ค.

๊ด€์ธก(observation) ์ธก๋ฉด์—์„œ HumanoidBench๋Š” ๋กœ๋ด‡ ์ž์‹ ์˜ ๋‚ด๋ถ€ ์ƒํƒœ์™€ ํ™˜๊ฒฝ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•œ๋‹ค. ๋กœ๋ด‡ ๊ด€์ ˆ์˜ ๊ฐ๋„ยท์†๋„์™€ ๋ฌผ์ฒด์˜ ์œ„์น˜ยท์†๋„ ๋“ฑ์˜ ์ž๊ธฐ ๊ณ ์œ  ์ƒํƒœ(proprioceptive state) ๋ฅผ ๊ด€์ธกํ•˜๋ฉฐ, ๋กœ๋ด‡ ๋จธ๋ฆฌ ์œ„์— ์žฅ์ฐฉ๋œ ๋‘ ๊ฐœ์˜ ์นด๋ฉ”๋ผ์—์„œ ์–ป์€ 1์ธ์นญ ์‹œ์ (egocentric) ๋น„์ „ ์ •๋ณด๋„ ์ง€์›ํ•œ๋‹ค. ํŠนํžˆ MuJoCo์˜ ์ด‰๊ฐ ๊ทธ๋ฆฌ๋“œ ์„ผ์„œ(tactile grid sensor)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ „์‹ ์— ๊ฑธ์นœ ์ด‰๊ฐ ๊ฐ์ง€๋„ ์ œ๊ณตํ•œ๋‹ค. ์† ๋ถ€์œ„๋Š” ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ๊ฒฉ์ž๋ฅผ ์ ์šฉํ•˜๊ณ , ๋ชธ์ฒด ๋‹ค๋ฅธ ๋ถ€๋ถ„์€ ์ €ํ•ด์ƒ๋„๋กœ ํ•˜์—ฌ ์‚ฌ๋žŒ๊ณผ ์œ ์‚ฌํ•œ ๋ถ„ํฌ์˜ ์ ‘์ด‰๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๋Š”๋‹ค.

ํ–‰๋™(action) ์ธก๋ฉด์—์„œ๋Š” ๋กœ๋ด‡์˜ ๊ฐ ๊ด€์ ˆ ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ์ง€์ •ํ•˜๋Š” ์œ„์น˜ ์ œ์–ด(position control) ๋ฐฉ์‹์„ ๊ธฐ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ํ† ํฌ ์ œ์–ด๋„ ์ง€์›ํ•˜์ง€๋งŒ ์œ„์น˜ ์ œ์–ด๊ฐ€ ๋” ์•ˆ์ •์ ์ด๋ฉฐ ๋‚ฎ์€ ์ œ์–ด ์ฃผํŒŒ์ˆ˜์—์„œ๋„ ์ž˜ ์ž‘๋™ํ•œ๋‹ค. ํ–‰๋™ ๊ณต๊ฐ„์€ ์–‘ ์†์„ ํฌํ•จํ•˜์—ฌ ์ด 61์ฐจ์›์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋น„๊ต์  ๋‚ฎ์€ ์ฃผํŒŒ์ˆ˜(์˜ˆ: 20Hz ์ˆ˜์ค€)๋กœ ์ œ์–ด๋œ๋‹ค.

HumanoidBench ๊ณผ์ œ ๊ตฌ์„ฑ: ์ด๋™๊ณผ ์กฐ์ž‘

HumanoidBench์—๋Š” ํฌ๊ฒŒ ์ด๋™(locomotion) ๊ณผ ์ „์‹  ์กฐ์ž‘(whole-body manipulation) ๋‘ ์ข…๋ฅ˜์˜ ๊ณผ์ œ๊ฐ€ ํฌํ•จ๋œ๋‹ค. ์ด๋™ ๊ณผ์ œ๋Š” ์†์˜ ์ •๊ตํ•œ ์กฐ์ž‘ ์—†์ด ๋ชธํ†ต๊ณผ ํŒ”๋‹ค๋ฆฌ๋งŒ์œผ๋กœ ๋กœ๋ด‡์„ ์›€์ง์ด๊ฑฐ๋‚˜ ํŠน์ • ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋“ค์€ ํ›„์ˆ ํ•  ๋ณตํ•ฉ ์กฐ์ž‘ ๊ณผ์ œ์˜ ๊ธฐ๋ณธ ๊ธฐ์ˆ ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด, ์กฐ์ž‘ ๊ณผ์ œ๋Š” ์–‘ ์†๊ณผ ์ „์‹ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ณต์žกํ•œ ์ž‘์—…์œผ๋กœ, ์ผ์ƒ์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ฐ˜์˜ํ•œ๋‹ค.

์ด๋™ ๊ณผ์ œ

HumanoidBench์˜ ์ด๋™ ๊ณผ์ œ๋Š” ์ •์ง€ ์ž์„ธ ์œ ์ง€๋ถ€ํ„ฐ ๋™์ ์ธ ์šด๋™๊นŒ์ง€ ๋‹ค์–‘ํ•˜๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๊ณผ์ œ๋กœ๋Š” Walk(๋„˜์–ด์ง€์ง€ ์•Š๊ณ  ์ผ์ • ์†๋„๋กœ ๊ฑท๊ธฐ), Stand(์ฃผ์–ด์ง„ ์‹œ๊ฐ„ ๋™์•ˆ ์„œ ์žˆ๊ธฐ), Run(๋น ๋ฅธ ์†๋„๋กœ ๋‹ฌ๋ฆฌ๊ธฐ), Reach(์™ผ์†์œผ๋กœ 3์ฐจ์› ๋ชฉํ‘œ ์œ„์น˜์— ๋„๋‹ฌํ•˜๊ธฐ), Hurdle(๋„˜์–ด์ง€์ง€ ์•Š๊ณ  ์žฅ์• ๋ฌผ ๋›ฐ์–ด๋„˜๊ธฐ), Crawl(ํ„ฐ๋„์„ ๊ธฐ์–ด ์ง€๋‚˜๊ธฐ), Maze(๋ฏธ๋กœ ํƒ์ƒ‰), Sit(์˜์ž์— ์•‰๊ธฐ), Balance(๋ถˆ์•ˆ์ •ํ•œ ํŒ์—์„œ ๊ท ํ˜• ์žก๊ธฐ), Stair(๊ณ„๋‹จ ์˜ค๋ฅด๋‚ด๋ฆฌ๊ธฐ), Slide(๋ฏธ๋„๋Ÿผํ‹€์„ ์˜ค๋ฅด๋‚ด๋ฆฌ๊ธฐ), Pole(๊ฐ€๋А๋‹ค๋ž€ ๊ธฐ๋‘ฅ ์‚ฌ์ด๋กœ ์ „์ง„ํ•˜๊ธฐ) ๋“ฑ์ด ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Walk ๊ณผ์ œ๋Š” ์ •ํ•ด์ง„ ์†๋„๋กœ ์•ž์œผ๋กœ ๊ฑธ์œผ๋ฉด์„œ ๋„˜์–ด์ง€์ง€ ์•Š๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๊ณ , Stair ๊ณผ์ œ๋Š” ๋ฐ˜๋ณต์ ์œผ๋กœ ์ด์–ด์ง„ ๊ณ„๋‹จ์„ ์˜ค๋ฅด๋‚ด๋ฆฌ๋ฉฐ ๋„˜์–ด์ง€์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค.

์กฐ์ž‘ ๊ณผ์ œ

์ „์‹  ์กฐ์ž‘ ๊ณผ์ œ๋Š” ๋กœ๋ด‡์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ๋žŒ๊ณผ ์œ ์‚ฌํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋‹ค์–‘ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํฌํ•จํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ Push(์ƒ์ž๋ฅผ ํ…Œ์ด๋ธ” ์œ„์˜ ๋ชฉํ‘œ ์œ„์น˜๋กœ ๋ฐ€๊ธฐ), Cabinet(ํžŒ์ง€ํ˜•/์Šฌ๋ผ์ด๋”ฉ/์„œ๋žํ˜• ๋“ฑ ๋‹ค์–‘ํ•œ ์บ๋น„๋‹› ๋„์–ด ์—ด๊ธฐ), HighBar(์ˆ˜ํ‰ ์ฒ ๋ด‰์„ ์žก๊ณ  ๋งค๋‹ฌ๋ฆฐ ์ฑ„๋กœ ๋ชธ์„ ๋’ค์ง‘๊ธฐ), Door(๋ฌธ์„ ์žก์•„๋‹น๊ฒจ ์—ฐ ํ›„ ํ†ต๊ณผํ•˜๊ธฐ) ๋“ฑ์ด ์žˆ๋‹ค. ์ด ๋ฐ–์—๋„ Truck(ํŠธ๋Ÿญ์—์„œ ๋ฌผ์ฒด๋ฅผ ํ”Œ๋žซํผ์œผ๋กœ ๋‚ด๋ฆฌ๊ธฐ), Cube(๋‘ ๊ฐœ์˜ ํ๋ธŒ๋ฅผ ์ง‘์–ด ํšŒ์ „์‹œ์ผœ ๋ชฉํ‘œ ์ž์„ธ ๋งž์ถ”๊ธฐ), Bookshelf(์„ ๋ฐ˜์— ์—ฌ๋Ÿฌ ๋ฌผ๊ฑด์„ ์ฃผ์–ด์ง„ ์ˆœ์„œ๋Œ€๋กœ ๋ฐฐ์น˜), Basketball(์ „๋ฐฉ์—์„œ ์˜ค๋Š” ๋†๊ตฌ๊ณต์„ ์žก์•„ ๋†๊ตฌ๊ณจ๋กœ ๋˜์ง€๊ธฐ), Window(์ฐฝ๋ฌธ ๋‹ฆ๊ธฐ ๋„๊ตฌ๋ฅผ ์žก๊ณ  ์ˆ˜์ง ๋ฐฉํ–ฅ์œผ๋กœ ๋‹ฆ๊ธฐ), Spoon(์ˆŸ๊ฐ€๋ฝ์œผ๋กœ ๊ตญ์ž ์•ˆ์˜ ์•ก์ฒด๋ฅผ ์›ํ˜•์œผ๋กœ ์„ž๊ธฐ), Kitchen(์ „์ž๋ ˆ์ธ์ง€ ๋ฌธ ์—ด๊ธฐ, ์ฃผ์ „์ž ์ด๋™, ์Šค์œ„์น˜ ์กฐ์ž‘ ๋“ฑ ์ฃผ๋ฐฉ ์ผ๋ จ์˜ ๋™์ž‘), Package(๋ฌด๊ฑฐ์šด ์ƒ์ž๋ฅผ ๋“ค์–ด ์ง€์ • ์œ„์น˜๋กœ ์˜ฎ๊ธฐ๊ธฐ), Powerlift(๋ฐ”๋ฒจ ๋ชจ์–‘ ๋ฌผ์ฒด ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ), Room(๋‚œ์žกํ•˜๊ฒŒ ํฉ์–ด์ง„ ๋ฌผ๊ฑด์„ ์ •๋ฆฌํ•˜์—ฌ ๋ถ„์‚ฐ๋„ ์ตœ์†Œํ™”ํ•˜๊ธฐ), Insert(์ง์‚ฌ๊ฐํ˜• ๋ง‰๋Œ€์˜ ์–‘ ๋์„ ๋‘ ํƒ€๊นƒ ๋ธ”๋ก์— ๋ฐ€์ฐฉ ์‚ฝ์ž…ํ•˜๊ธฐ) ๋“ฑ ๋งค์šฐ ๋‹ค์–‘ํ•œ ์‹ค์ƒํ™œ ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ ํฌํ•จ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Push ๊ณผ์ œ์—์„œ๋Š” ๋ฐ”๋‹ฅ์— ๋†“์ธ ์ƒ์ž๋ฅผ ๋ชฉํ‘œ ์ง€์ ๊นŒ์ง€ ๋ฏผ ํ›„ ๋ฉˆ์ถฐ์•ผ ํ•˜๊ณ , HighBar ๊ณผ์ œ์—์„œ๋Š” ์ฒ ๋ด‰์— ๋งค๋‹ฌ๋ ค ๋ชธ์„ ๊ฑฐ๊พธ๋กœ ์™„์ „ํžˆ ์˜ฌ๋ ค์•ผ ์„ฑ๊ณตํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์กฐ์ž‘ ๊ณผ์ œ๋Š” ๋กœ๋ด‡์ด ๊ท ํ˜•์„ ์žก์œผ๋ฉฐ ์ด๋™ํ•˜๊ณ , ๋‘ ์†์„ ํ˜‘๋™์‹œ์ผœ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๋ชจ๋“œ์˜ ๋ณตํ•ฉ ํ–‰๋™์„ ์š”๊ตฌํ•œ๋‹ค.

Push ์˜ˆ์‹œ ๋ชจ์Šต

์ „์‹  ์ œ์–ด์˜ ๋„์ „ ๊ณผ์ œ

HumanoidBench๋Š” ๋งค์šฐ ๋†’์€ ์ž์œ ๋„(DOF)๋ฅผ ์ง€๋‹Œ ๋กœ๋ด‡์œผ๋กœ ๋ณต์žกํ•œ ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃจ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์—ฌ๋Ÿฌ ์–ด๋ ค์›€์„ ์•ผ๊ธฐํ•œ๋‹ค. ์ €์ž๋“ค์€ ์‚ฌ์ „ ํ‰๊ฐ€์—์„œ ์ตœ์‹  RL ๊ธฐ๋ฒ•๋“ค์ด ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ์—์„œ ์„ฑ๊ณต ์ž„๊ณ„์น˜(success threshold) ๋ฅผ ๋„˜์ง€ ๋ชปํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ํŠนํžˆ ์žฅ๊ธฐ ๊ณ„ํš๊ณผ ์ „์‹  ํ˜‘์‘์„ ํ•„์š”๋กœ ํ•˜๋Š” ์–ด๋ ค์šด ๊ณผ์ œ์ผ์ˆ˜๋ก ๋” ํ•™์Šต์ด ์ž˜ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๋‹ค. ์ด์˜ ์ฃผ์š” ์›์ธ์œผ๋กœ ์ €์ž๋“ค์€ ํœด๋จธ๋…ธ์ด๋“œ์˜ ์ƒํƒœ ๋ฐ ํ–‰๋™ ๊ณต๊ฐ„์ด 61์ฐจ์›์œผ๋กœ ๋งค์šฐ ๋†’์€ ๋ฐ ๋”ฐ๋ฅธ ํƒ์ƒ‰ ๊ณต๊ฐ„์˜ ๊ธ‰๊ฒฉํ•œ ํ™•์žฅ์„ ์ง€์ ํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‹ค๋ฆฌ๊ฐ€ 6๊ฐœ ์ž์œ ๋„, ๋‘ ์†์— ๊ฐ 20๊ฐœ ์ด์ƒ์˜ ์ž์œ ๋„๊ฐ€ ๋”ํ•ด์ง€๋ฏ€๋กœ ์—์ด์ „ํŠธ๋Š” ๊ณ ๋ คํ•ด์•ผ ํ•  ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์•„์ง„๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, ์ด๋™ ๊ณผ์ œ์—์„œ ๋กœ๋ด‡์ด ์†์„ ๊ฑฐ์˜ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋”๋ผ๋„, RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์†์— ๊ด€๋ จ๋œ ์ถ”๊ฐ€ ์ž์œ ๋„๋ฅผ ๋ฌด์‹œํ•˜์ง€ ๋ชปํ•˜๊ณ  ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋œ๋‹ค๋Š” ์‚ฌ์‹ค์ด๋‹ค. ์ด๋Š” ๋‹จ์ˆœํ•œ ์ตœ๋Œ€ ์—”ํŠธ๋กœํ”ผ ๋ฐฉ๋ฒ•๋งŒ์œผ๋กœ๋Š” ๊ฑฐ๋Œ€ํ•œ ํƒ์ƒ‰ ๊ณต๊ฐ„์—์„œ ์œ ์˜๋ฏธํ•œ ํ–‰๋™์„ ์ฐพ๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, ๊ณ ์ฐจ์› ํœด๋จธ๋…ธ์ด๋“œ ํ•™์Šต์—๋Š” ํ–‰๋™ ์šฐ์„ ์ˆœ์œ„๋‚˜ ์ƒ์‹๊ณผ ๊ฐ™์€ ํœด๋ฆฌ์Šคํ‹ฑ ๋„์ž…์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์กฐ์ž‘ ๊ณผ์ œ์—์„œ๋Š” ์ด ๋ฌธ์ œ๊ฐ€ ๋”์šฑ ์‹ฌํ™”๋œ๋‹ค. ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์ด์ „์— ๋กœ๋ด‡์€ ์•ˆ์ •๋œ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋ฉฐ ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋จผ์ € ํ•™์Šตํ•ด์•ผ ํ•˜๋Š”๋ฐ, ๋Œ€๋ถ€๋ถ„์˜ ์—์ด์ „ํŠธ๋Š” ์ด ๋‹จ๊ณ„์—์„œ ์ €์กฐํ•œ ๋ณด์ƒ๋งŒ ์–ป์—ˆ๊ณ  ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์€ ๊ฑฐ์˜ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฒ ๋ด‰(highbar) ๊ณผ์ œ์—์„œ ๋กœ๋ด‡์€ ์ฒ ๋ด‰์„ ๋ถ™์žก์€ ์ฑ„ ์ž์„ธ๋ฅผ ์œ ์ง€ํ•˜๋ ค ์‹œ๋„ํ•˜์ง€๋งŒ ๋’ค์ง‘ํ˜€ ๋ชฉํ‘œ ์ž์„ธ์— ๋„๋‹ฌํ•˜๋Š” ๊ถค์ ์€ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์ด๋Š” ๋‹จ๊ธฐ์  ๋ณด์ƒ๋งŒ์„ ๊ณ ๋ คํ•˜๋Š” RL ๊ธฐ๋ฒ•์ด ์žฅ๊ธฐ์  ํ”Œ๋ž˜๋‹์„ ํ•˜์ง€ ๋ชปํ•œ ๊ฒฐ๊ณผ์ด๋‹ค. ๋ฌธ์„ ์—ฌ๋Š”(Door) ๊ณผ์ œ์—์„œ๋„ ๋น„์Šทํ•œ ๋ฌธ์ œ๊ฐ€ ๊ด€์ฐฐ๋œ๋‹ค. ๋กœ๋ด‡์€ ๋ฌธ์„ ์žก์•„๋‹น๊ธฐ๋Š” ์ดˆ๊ธฐ ๋™์ž‘์€ ์ˆ˜ํ–‰ํ•˜์ง€๋งŒ, ๋ฌธ์„ ์—ฐ ์ƒํƒœ๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ๋ชธ์„ ๋’ค๋กœ ์ด๋™ํ•ด ํ†ต๊ณผํ•˜๊ธฐ ์œ„ํ•œ ์„ธ๋ฐ€ํ•œ ์›€์ง์ž„์€ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์ด๋Š” ๋ฌธ ๋‹น๊ธฐ๊ธฐ์™€ ๋กœ๋ด‡ ์ „์‹  ์ด๋™์˜ ํ˜‘์—…์ด ํ•„์š”ํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด๋ฅผ ๋ณ„๋„๋กœ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋˜ํ•œ ํ—ˆ๋“ค(Hurdle) ๊ณผ์ œ์—์„œ๋Š” ๋กœ๋ด‡์ด ๋ชฉํ‘œ ์†๋„๋ฅผ ์œ ์ง€ํ•ด ์•ž์œผ๋กœ ๋‹ฌ๋ฆฌ๋Š” ๊ฒƒ์€ ํ•™์Šตํ–ˆ์œผ๋‚˜, ์ ํ”„๋ฅผ ํ†ตํ•ด ํ—ˆ๋“ค์„ ๋„˜์–ด๊ฐ€์•ผ ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์€ ํƒ์ƒ‰ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ๋กœ๋ด‡์€ ํ—ˆ๋“ค์— ์ถฉ๋Œํ•œ ๋’ค ์ถฉ๋Œ์„ ํ”ผํ•˜๋Š” ์ž์„ธ๋งŒ์„ ์ฐพ์œผ๋ฉฐ ์•ˆ์ •ํ™”๋˜๋Š” ๋ณด์ˆ˜์  ํ–‰๋™๋งŒ ๋ณด์˜€๋‹ค. ์ด์ฒ˜๋Ÿผ HumanoidBench์˜ ๊ณผ์ œ๋“ค์€ ๋†’์€ ์ž์œ ๋„์™€ ์ ‘์ด‰์ด ๋นˆ๋ฒˆํ•œ ํ™˜๊ฒฝ์—์„œ์˜ ์žฅ๊ธฐ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์š”๊ตฌํ•˜์—ฌ, ๊ธฐ์กด์˜ ํ‰ํƒ„ํ•œ(end-to-end) ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

์ •์ฑ… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

HumanoidBench์˜ ์‹คํ—˜์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ตœ์‹  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DreamerV3์™€ TD-MPC2, ๋ชจ๋ธ-ํ”„๋ฆฌ ์˜คํ”„ํด๋ฆฌ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ SAC(Soft Actor-Critic), ๋ชจ๋ธ-ํ”„๋ฆฌ ์˜จํด๋ฆฌ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ PPO(Proximal Policy Optimization) ๋“ฑ์„ ์ „ ๊ณผ์ œ์— ์ ์šฉํ–ˆ๋‹ค. ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•ฝ 48์‹œ๊ฐ„ ๋™์•ˆ ํ•™์Šต๋˜์—ˆ์œผ๋ฉฐ, PPO๋Š” ์ƒ˜ํ”Œ ํšจ์œจ์ด ๋‚ฎ์•„ (๋ณ‘๋ ฌํ™”๊ฐ€ ํ•„์š”ํ•ด) ์ผ๋ถ€ ๊ณผ์ œ์— ํ•œํ•ด ์‹คํ–‰ํ–ˆ๋‹ค. ํ•™์Šต ๊ฒฐ๊ณผ๋Š” Figure 3,4์— ์ œ์‹œ๋œ ํ‰๊ท  ๋ˆ„์  ๋ณด์ƒ ๊ณก์„ ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋ฉฐ, dashed line์€ ๊ณผ์ œ ์„ฑ๊ณต ์ž„๊ณ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

ํ‰ํƒ„ํ•œ(end-to-end) ๊ฐ•ํ™”ํ•™์Šต ์ ‘๊ทผ๋ฒ•์€ ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ์—์„œ ์„ฑ๊ณต์ ์ด์ง€ ๋ชปํ–ˆ๋‹ค. ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋ฐ”์™€ ๊ฐ™์ด ๋†’์€ ์ฐจ์›๊ณผ ์žฅ๊ธฐ ๊ณผ์ œ๋กœ ์ธํ•ด, ์ด๋Ÿฌํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ์‹ฌ์ง€์–ด ๋‹จ์ˆœํ•œ ๊ฑท๊ธฐ ๊ณผ์ œ์กฐ์ฐจ๋„ ๋งค์šฐ ๋งŽ์€ ํ•™์Šต ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•œ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. (์˜ˆ๋ฅผ ๋“ค์–ด DeepMind Control Suite์—์„œ๋Š” 2D ํœด๋จธ๋…ธ์ด๋“œ ๊ฑท๊ธฐ ๊ณผ์ œ๊ฐ€ ๋น„๊ต์  ์‰ฝ๊ฒŒ ํ•™์Šต๋œ ๋ฐ” ์žˆ๋Š”๋ฐ๋„, ์ด ํ™˜๊ฒฝ์—์„œ๋Š” 3D ๋ชจ๋ธ๋กœ ํ•™์Šต์ด ์–ด๋ ต๋‹ค.) ๋˜ํ•œ PPO์™€ ๊ฐ™์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ณ‘๋ ฌํ™”๋œ ํ™˜๊ฒฝ์ด ํ’๋ถ€ํ•  ๋•Œ๋Š” ๋กœ์ปฌ ์ƒ˜ํ”Œ ํšจ์œจ์ด ์ข‹์•„์ง€์ง€๋งŒ, ๋กœ๋ด‡ ๋ฌผ๋ฆฌ ์ถฉ๋Œ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•œ ๋ณต์žกํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” GPU ๋ณ‘๋ ฌํ™” ์ด์ ์ด ํฌ์ง€ ์•Š์•˜๋‹ค. ์ด์ฒ˜๋Ÿผ ํ‰ํƒ„ํ•œ RL๋กœ๋Š” ํœด๋จธ๋…ธ์ด๋“œ์˜ ๊ณ ์ฐจ์› ์ œ์–ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ค์›Œ, ์ €์ž๋“ค์€ ๊ณ„์ธต์  ๊ฐ•ํ™”ํ•™์Šต(hierarchical RL) ์ ‘๊ทผ์„ ์ œ์•ˆํ•˜์˜€๋‹ค.

๊ณ„์ธต์  RL ๊ตฌ์กฐ์—์„œ๋Š” ์ €์ˆ˜์ค€(skill) ์ •์ฑ…์ด ๋ฏธ๋ฆฌ ํ•™์Šต๋˜์–ด ๊ณ ์ˆ˜์ค€ ๊ณ„ํš์ž์—๊ฒŒ ๊ธฐ๋ณธ ํ–‰๋™์„ ์ œ๊ณตํ•œ๋‹ค. ๊ทธ๋ฆผ 6์— ๋‚˜ํƒ€๋‚œ ๊ฒƒ์ฒ˜๋Ÿผ ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์€ ๋กœ๋ด‡ ์ƒํƒœ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์„œ๋ธŒ ๋ชฉํ‘œ(์˜ˆ: ์–‘์†์˜ ๋ชฉํ‘œ ์œ„์น˜)๋กœ ์ด๋ฃจ์–ด์ง„ setpoint๋ฅผ ์ถœ๋ ฅํ•˜๊ณ , ์ €์ˆ˜์ค€ Reaching Policy๊ฐ€ ์ด๋ฅผ ๋ฐ›์•„ ์‹ค์ œ ๊ด€์ ˆ ์กฐ์ž‘ ํ–‰๋™(61์ฐจ์›)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋•Œ ์ €์ˆ˜์ค€ ์ •์ฑ…์€ ์ฃผ๋กœ PPO๋ฅผ ์ด์šฉํ•ด ์ˆ˜์ฒœ ๊ฐœ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์‹ญ์–ต ๋‹จ๊ณ„๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์—ˆ์œผ๋ฉฐ(1์–ต ๋‹จ๊ณ„ ์ด์ƒ), ํ•™์Šต ์ค‘ ํ† ํฌ ๊ฐ„์„ญ(force perturbation) ๋“ฑ์„ ๋„์ž…ํ•˜์—ฌ ๋งค์šฐ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ํ›ˆ๋ จ๋˜์—ˆ๋‹ค. ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์€ ์ด๋Ÿฌํ•œ ๊ณ ์ •๋œ ์ €์ˆ˜์ค€ ๋ธ”๋ก์„ ํ™œ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๊ณผ์ œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ชฉํ‘œ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก DreamerV3๋‚˜ TD-MPC2๋กœ ํ•™์Šต๋œ๋‹ค.

๊ณ„์ธต์  ์ ‘๊ทผ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋‹จ์ˆœํ•œ RL ๋ฒ ์ด์Šค๋ผ์ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Push ๊ณผ์ œ์—์„œ, ๊ณ„์ธต์  ๊ตฌ์กฐ๋Š” ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ์ €์ˆ˜์ค€ ํŒ” ๋„๋‹ฌ ์ •์ฑ…์— ๋ชฉํ‘œ๋ฅผ ๋ณด๋‚ด๋„๋ก ํ•˜์—ฌ ํ’€ํƒ€์ž„(E2E) ํ•™์Šต๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” Push ๊ณผ์ œ๊ฐ€ ์ƒ์ž๋ฅผ ๋ฏผ๋‹ค๋Š” ๋น„๊ต์  ๋‹จ์ˆœํ•œ ์ž‘์—…์ด์–ด์„œ ์ €์ˆ˜์ค€ ๋„๋‹ฌ ์Šคํ‚ฌ๋งŒ์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ํŠน์„ฑ๋„ ์žˆ๊ธฐ์— ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ๋‹ค. ํ•˜์ง€๋งŒ ๋” ์–ด๋ ค์šด Package ๊ณผ์ œ์—์„œ๋Š” ํ–ฅ์ƒ ํญ์ด ์ ์—ˆ๋Š”๋ฐ, ์ƒ์ž๋ฅผ ๋“ค์–ด์˜ฌ๋ฆฌ๋Š” ๋™์ž‘์„ ํ•™์Šตํ•œ ์  ์—†๋Š” ์ƒํƒœ์—์„œ๋Š” ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด ์ƒ์ž๋ฅผ ์›€์ผœ์ฅ๋Š” ๋™์ž‘ ์ดํ›„ ๋ฆฌํ”„ํŒ… ๊ธฐ์ˆ ์„ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด์ฒ˜๋Ÿผ ๊ณ„์ธต์  RL์€ ๋‹จ์ˆœ ๊ณผ์ œ์—์„œ ์œ ๋งํ•จ์„ ๋ณด์˜€์œผ๋‚˜, ์—ฌ์ „ํžˆ ๋ณต์žกํ•œ ์ „์‹  ์กฐ์ž‘์—์„œ๋Š” ์ €์ˆ˜์ค€ ๊ธฐ์ˆ ์˜ ํ•œ๊ณ„(๋ฏธ๋ฆฌ ํ•™์Šต๋œ ์Šคํ‚ฌ์— ํฌํ•จ๋˜์ง€ ์•Š์€ ๋™์ž‘)๊ฐ€ ์ „์ฒด ์„ฑ๋Šฅ์„ ์ œํ•œํ–ˆ๋‹ค.

ํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ์‹คํ—˜ ๊ฒฐ๊ณผ

HumanoidBench์—์„œ๋Š” ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์—ํ”ผ์†Œ๋“œ ๋ณ„ ๋ˆ„์  ๋ณด์ƒ(return)์„ ์ธก์ •ํ•˜๊ณ , ๊ฐ ๊ณผ์ œ๋งˆ๋‹ค ์„ฑ๊ณต ์ž„๊ณ„์น˜(success threshold) ๋ฅผ ์ •์˜ํ•˜์—ฌ ์ •์ฑ…์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ํ•™์Šต ๊ณก์„ (Fig.3,4)์—์„œ ์ ์„ ์€ ์„ฑ๊ณต ๊ธฐ์ค€์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด๋Š” ํ•ด๋‹น ๊ธฐ์ค€์„ ๋„˜์„ ๋•Œ ๊ณผ์ œ๊ฐ€ ์™„๋ฃŒ๋œ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผํ•œ๋‹ค. ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ DreamerV3์™€ SAC๋Š” ์•ฝ 1์ฒœ๋งŒ ๋‹จ๊ณ„๊นŒ์ง€, TD-MPC2๋Š” 2๋ฐฑ๋งŒ ๋‹จ๊ณ„ ์ •๋„๊นŒ์ง€ ํ•™์Šต๋˜์—ˆ๊ณ , PPO๋Š” ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ํ•™์Šต๋˜์—ˆ๋‹ค. ํ…Œ์ด๋ธ” III, IV์—๋Š” ํ‰๊ท  ๋ฐ ์ตœ๋Œ€ ๋ˆ„์  ๋ณด์ƒ์ด ์ •๋ฆฌ๋˜์–ด ์žˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ์—์„œ ๊ธฐ์ค€์น˜์— ๋ฏธ์น˜์ง€ ๋ชปํ•ด ์„ฑ๊ณต๋ฅ ์€ ๋งค์šฐ ๋‚ฎ์•˜๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ์ „์ˆ ํ•œ ๋ฐ”์™€ ๊ฐ™์ด ํ‰ํƒ„ํ•œ RL์˜ ์„ฑ๋Šฅ์€ ๋Œ€์ฒด๋กœ ๊ธฐ์ค€์น˜ ๋ฏธ๋‹ฌ๋กœ ๋ถ€์ง„ํ–ˆ๋‹ค. ๋ชจ๋“  ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋‹จ์ˆœํ•œ ๊ฑท๊ธฐ ๊ณผ์ œ์กฐ์ฐจ๋„ ํฐ ํ•™์Šต ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์•ผ ํ–ˆ๊ณ , ๋ณต์žกํ•œ ๊ณผ์ œ์—์„œ๋Š” ๊ฑฐ์˜ ํ•™์Šต์„ ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ณ„์ธต์  ์ ‘๊ทผ์€ Push ๊ณผ์ œ์—์„œ๋Š” ๊ฑฐ์˜ ์„ฑ๊ณต๋ฅ  100%์— ๊ทผ์ ‘ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ, Package ๊ณผ์ œ์—์„œ๋Š” ์—ฌ์ „ํžˆ ์ œํ•œ์ ์ด์—ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” HumanoidBench์˜ ๊ณผ์ œ๋“ค์ด ํ˜„์กดํ•˜๋Š” RL ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๊ทน์ ์œผ๋กœ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ์ฆ‰, ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„๊ณผ ์žฅ๊ธฐ ๊ณ„ํš ํ•„์š”์„ฑ์€ ๊ธฐ์กด RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ž˜ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•˜๋Š” ๋„์ „์œผ๋กœ ๋‚จ์•„ ์žˆ์œผ๋ฉฐ, ํœด๋จธ๋…ธ์ด๋“œ ํ•™์Šต์—์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ๊ตฌ์กฐ๋‚˜ ํœด๋ฆฌ์Šคํ‹ฑ ๋„์ž…์ด ํ•„์ˆ˜์ ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.

์‹œ์‚ฌ์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

HumanoidBench๋Š” ์ „์‹  ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—์„œ์˜ ํ˜„์กด ๊ธฐ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋‚ด๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•œ๋‹ค. ์ €์ž๋“ค์€ ๋ณธ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ข…ํ•ฉ์ ์ธ ํœด๋จธ๋…ธ์ด๋“œ ํ‰๊ฐ€ ํ™˜๊ฒฝ์˜ ์ฒซ ์˜ˆ์ž„์„ ๊ฐ•์กฐํ•œ๋‹ค. ์ฆ‰, ๋‹จ์ˆœ ์ด๋™ ๊ณผ์ œ์—์„œ๋ถ€ํ„ฐ ์‹ค์ œ ํœด๋จธ๋…ธ์ด๋“œ ์‘์šฉ์— ๊ฐ€๊นŒ์šด ์กฐ์ž‘ ๊ณผ์ œ๊นŒ์ง€ ํญ๋„“์€ ๋‚œ์ด๋„์˜ ๊ณผ์ œ๋ฅผ ํฌํ•จํ•จ์œผ๋กœ์จ, ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ์ „์‹  ์ œ์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ๋ฐœยท๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š” ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋“ค์€ ๋ถ€์กฑํ•œ ๋ถ€๋ถ„(์˜ˆ: ๊ณ ์ฐจ์› ๊ณ„ํš, ๋ฉ€ํ‹ฐ ๋ชจ๋‹ฌ ํ•™์Šต ๋“ฑ)์„ ์ •ํ™•ํžˆ ํ™•์ธํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฏธ๋ž˜ ์—ฐ๊ตฌ์˜ ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋Š” HumanoidBench๊ฐ€ ์ง€์›ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก์˜ ํ™œ์šฉ์ด ์ œ์•ˆ๋œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ผ๋‹จ ์ƒํƒœ๊ธฐ๋ฐ˜ ํ•™์Šต(state-based learning)์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์ง€๋งŒ, ์ด๋ฏธ ํœด๋จธ๋…ธ์ด๋“œ์˜ ์‹œ์  ์˜์ƒ๊ณผ ์ „์‹  ์ด‰๊ฐ ์„ผ์‹ฑ์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ ์ด๋“ค์„ ์ด์šฉํ•œ ์—ฐ๊ตฌ(์˜ˆ: ๋น„์ „ยท์ด‰๊ฐ ์œตํ•ฉ, ์‚ฌ๋žŒ ๋™์ž‘ ๋ชจ๋ฐฉ ๋“ฑ)๊ฐ€ ํ™œ๋ฐœํžˆ ์ด๋ค„์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ๋ฌผ์ฒด ๋ชจ๋ธ๊ณผ ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ํ˜„์‹ค๊ฐ์„ ๋†’์—ฌ ๊ฐ€๊ตฌ ์กฐ๋ฆฝ, ์Šคํฌ๋ฅ˜ ์ž‘์—… ๊ฐ™์€ ๋”์šฑ ๋ณตํ•ฉ์ ์ธ ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜, ์‹ค์ œ ํ™˜๊ฒฝ๊ณผ ์œ ์‚ฌํ•œ ๊ณ ํ’ˆ์งˆ ๋ฌผ๋ฆฌ ๋ Œ๋”๋ง์„ ๋„์ž…ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ์•„์šธ๋Ÿฌ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์–ป์€ ํ•™์Šต์ด ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ „์ด๋˜๋Š” Sim-to-Real ์—ฐ๊ตฌ๋„ ์ค‘์š”ํ•œ ๊ณผ์ œ์ด๋‹ค. ์‹ค์ œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ MJX์—์„œ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ•™์Šต์„ ํ†ตํ•ด ์–ป์€ ๊ฒฌ๊ณ ํ•œ ์ •์ฑ…์€ ์ง€๊ธˆ๊นŒ์ง€์˜ ๊ฒฐ๊ณผ๋งŒ์œผ๋กœ๋„ ์‹œ๋ฎฌ-์‹ค์ œ ์ด์ „์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, HumanoidBench๋Š” ๊ฐ•ํ™”ํ•™์Šต ์™ธ์—๋„ ๋‹ค๋ฅธ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ๋Š” ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹ค์ œ ์ธ๊ฐ„์˜ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ํ•™์Šต(Demonstration Learning)์ด๋‚˜, ์ธ๊ฐ„ ์‹œ์ฒญ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ์—ฐ๊ตฌ๋Š” ํœด๋จธ๋…ธ์ด๋“œ์™€ ๊ฐ™์ด ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๊ธฐ ์–ด๋ ค์šด ์‹œ์Šคํ…œ์— ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ๊ฐœ๋ฐœ๋œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฒ•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜์—๋Š” ๋”์šฑ ๋‹ค์–‘ํ•œ ํ•™์Šต ๊ธฐ๋ฒ•(๋”ฅ ๋ชจ๋ฐฉ ํ•™์Šต, ์ธ์ง€ ๋ชจ๋ธ ํ†ตํ•ฉ ๋“ฑ)์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•˜๊ณ  ์žˆ๋‹ค.

HumanoidBench๋Š” ์ง€๊ธˆ๊นŒ์ง€ ๋ถ€์กฑํ–ˆ๋˜ ์ „์‹  ํœด๋จธ๋…ธ์ด๋“œ ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•˜์˜€์œผ๋ฉฐ, ๋กœ๋ด‡ ์ œ์–ด ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์œ ์šฉํ•œ ๊ฐœ๋ฐœยท๊ฒ€์ฆ ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํœด๋จผ๋กœ์ด๋“œ๊ฐ€ ์‚ฌ๋žŒ๊ณผ ๊ฐ™์ด ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์ผ์ƒ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š”, ๋ณด๋‹ค ๊ณ ์ฐจ์›์ ์ด๊ณ  ํ†ตํ•ฉ๋œ ์ œ์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€์†ํ™”๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

Copyright 2026, JungYeon Lee