Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • 1. ์„œ๋ก : ์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?
      • 1.1 ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ
      • 1.2 Foundation Model์—์„œ ์˜๊ฐ์„ ๋ฐ›๋‹ค
    • 2. ํ•ต์‹ฌ ๊ธฐ์—ฌ: MMBench์™€ Newt
      • 2.1 MMBench: ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒค์น˜๋งˆํฌ
      • 2.2 Newt: ์–ธ์–ด ์กฐ๊ฑดํ™” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ
    • 3. ๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„
      • 3.1 ์›”๋“œ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL์˜ ๋ฐฐ๊ฒฝ
      • 3.2 TD-MPC2์™€์˜ ๊ด€๊ณ„
      • 3.3 ์‚ฌ์ „ํ›ˆ๋ จ์˜ ์ค‘์š”์„ฑ
      • 3.4 ์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด (Open-Loop Control)
    • 4. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„
      • 4.1 ์ฃผ์š” ๋ฒ ์ด์Šค๋ผ์ธ
      • 4.2 ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ฑ๋Šฅ
      • 4.3 ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ๋ถ„์„
      • 4.4 ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋กœ์˜ ์ ์‘
    • 5. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • 5.1 TD-MPC ๊ณ„์—ด
      • 5.2 DreamerV3์™€์˜ ๋น„๊ต
      • 5.3 PWM (Policy Learning with Multi-Task World Models)
    • 6. ํ•œ๊ณ„์ , ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ๋ฐ ์žฌํ˜„์„ฑ
      • 6.1 ํ˜„์žฌ ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„
      • 6.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
      • 6.3 ๊ณต๊ฐœ ์ž์›
    • 7. ๊ฒฐ๋ก 
      • 7.1 ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€
      • 7.2 ๋กœ๋ด‡๊ณตํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋Œ€ํ•œ ํ•จ์˜
      • 7.3 ๋งˆ๋ฌด๋ฆฌ ์ƒ๊ฐ
    • ๐Ÿ“š ์ฐธ๊ณ  ๋ฌธํ—Œ
  • โ›๏ธ Dig Review
    • ์„œ๋ก : ์ผ๋ฐ˜ ๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ์˜ ๋„์ „๊ณผ์ œ
    • MMBench: 200๊ฐ€์ง€ ์—ฐ์† ์ œ์–ด ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒค์น˜๋งˆํฌ
    • Newt: ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜
    • ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๋ฐ ํ•™์Šต ์ „๋žต
    • ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ์„ฑ๋Šฅ ๋ถ„์„
      • 1. ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ์„ฑ๋Šฅ: Newt vs. ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค
      • 2. ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํšจ๊ณผ: ํƒ์ƒ‰ ํ–ฅ์ƒ ๋ฐ ์„ฑ๋Šฅ ์ƒํ•œ์„  ์ œ๊ณ 
      • 3. ์–ธ์–ด ์กฐ๊ฑด์˜ ํšจ๊ณผ: ์ž‘์—… ๊ตฌ๋ถ„๊ณผ ์ผ๋ฐ˜ํ™”
      • 4. ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ์ „์ด ํ•™์Šต: ํŒŒ์ธํŠœ๋‹์„ ํ†ตํ•œ ์ ์‘
      • 5. ์˜คํ”ˆ-๋ฃจํ”„ (Open-Loop) ์ œ์–ด ๋Šฅ๋ ฅ: ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์ดํ•ด๋ ฅ ํ‰๊ฐ€
    • ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๐Ÿ“ƒNewtWM ๋ฆฌ๋ทฐ

world-model
multi-task
Learning Massively Multitask World Models for Continuous Control
Published

November 26, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code
  • Homepage
  1. ๐ŸŒ ๋ณธ ์—ฐ๊ตฌ๋Š” ์˜จ๋ผ์ธ RL์ด ํ™•์žฅ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ํ†ต๋…์— ๋„์ „ํ•˜๋ฉฐ, ์–ธ์–ด ์ง€์‹œ์™€ ๋ฐ๋ชจ๋ฅผ ํฌํ•จํ•œ 200๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL ๋ฒค์น˜๋งˆํฌ์ธ MMBench๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿค– ์ œ์•ˆ๋œ Newt๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šตํ•˜์—ฌ ์ž‘์—… ์ธ์‹ ํ‘œํ˜„๊ณผ ์•ก์…˜ ์‚ฌ์ „ ์ง€์‹์„ ์–ป์€ ํ›„, ๋ชจ๋“  ํƒœ์Šคํฌ์— ๊ฑธ์ณ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ๊ณต๋™ ์ตœ์ ํ™”๋˜๋Š” ์–ธ์–ด ์กฐ๊ฑด๋ถ€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  3. ๐Ÿš€ Newt๋Š” ๊ฐ•๋ ฅํ•œ ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋ณด์ด๋ฉฐ, ํšจ๊ณผ์ ์ธ ๊ฐœ๋ฐฉ ๋ฃจํ”„ ์ œ์–ด ๋ฐ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ ์‘ ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ๋…ผ๋ฌธ์€ ์ผ๋ฐ˜์ ์ธ ์ œ์–ด๋ฅผ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์™€ Embodiment์— ๊ฑธ์ณ ์ž‘๋™ํ•˜๋Š” ์—์ด์ „ํŠธ์˜ ํ•„์š”์„ฑ์„ ์ œ๊ธฐํ•˜๋ฉฐ, ๊ธฐ์กด Continuous Control ๋ถ„์•ผ์˜ ๊ฐ•ํ™” ํ•™์Šต(RL) ์—ฐ๊ตฌ๊ฐ€ ๋‹จ์ผ ํƒœ์Šคํฌ ๋˜๋Š” ์˜คํ”„๋ผ์ธ ํ™˜๊ฒฝ์— ์น˜์šฐ์ณ ์˜จ๋ผ์ธ RL์˜ ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ์ธ์‹์„ ๊ฐ•ํ™”ํ–ˆ๋‹ค๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ Foundation Model์˜ ์„ฑ๊ณต์ ์ธ ๋ฐฉ๋ฒ•๋ก (๋Œ€๊ทœ๋ชจ Pretraining ํ›„ ๊ฐ€๋ฒผ์šด RL)์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ ์˜จ๋ผ์ธ ์ธํ„ฐ๋ž™์…˜์„ ํ†ตํ•ด ์ˆ˜๋ฐฑ ๊ฐ€์ง€ ํƒœ์Šคํฌ์—์„œ ํ•™์Šต๋  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ 10๊ฐœ Task Domain์— ๊ฑธ์ณ 200๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ MMBench๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํƒœ์Šคํฌ๋Š” Language Instruction, Demonstration, ๊ทธ๋ฆฌ๊ณ  ์„ ํƒ์ ์œผ๋กœ Image Observation์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” Multitask Pretraining, Offline-to-Online RL, ๊ทธ๋ฆฌ๊ณ  From-Scratch RL ์—ฐ๊ตฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์ด์–ด์„œ ์ €์ž๋“ค์€ Language-conditioned Multitask World Model์ธ Newt๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Newt๋Š” TD-MPC2 (Hansen et al., 2024)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, Task-aware Representation๊ณผ Action Prior๋ฅผ ์Šต๋“ํ•˜๊ธฐ ์œ„ํ•ด Demonstration์œผ๋กœ ๋จผ์ € Pretrain๋œ ํ›„, ๋ชจ๋“  ํƒœ์Šคํฌ์— ๊ฑธ์ณ ์˜จ๋ผ์ธ ์ธํ„ฐ๋ž™์…˜๊ณผ ํ•จ๊ป˜ Jointly ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค. TD-MPC2๋ฅผ Massively Multitask ์˜จ๋ผ์ธ ์„ค์ •์œผ๋กœ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•ด, Newt๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ผ๋ จ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ์„ ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค: ๊ฐœ์„ ๋œ ์•„ํ‚คํ…์ฒ˜, ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ Demonstration์„ ํ™œ์šฉํ•œ Model-based Pretraining, RL Policy Update ์‹œ ์ถ”๊ฐ€์ ์ธ Action Supervision, ๊ทธ๋ฆฌ๊ณ  ๊ทน์ ์œผ๋กœ ๊ฐ€์†ํ™”๋œ ํŠธ๋ ˆ์ด๋‹ ํŒŒ์ดํ”„๋ผ์ธ.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก  (Newt):

Newt๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ TD-MPC2๋ฅผ ํ™•์žฅํ•˜์—ฌ Language Instruction ๋ฐ RGB Observation์„ ์ง€์›ํ•˜๋Š” Massively Multitask Online RL Agent์ž…๋‹ˆ๋‹ค. TD-MPC2๋Š” ํ•™์Šต๋œ Self-predictive (Decoder-free) World Model์˜ Latent Space์—์„œ Trajectory Optimization (Planning)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Newt์˜ World Model์€ ๋‹ค์Œ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค:

  • Language Encoder: g = \text{CLIPtext}(s_{\text{lang}}) (์ž์—ฐ์–ด Instruction์„ ์ธ์ฝ”๋”ฉ).
  • Image Encoder: x = \text{DINOv2}(s_{\text{img}}) (RGB ์ด๋ฏธ์ง€ Observation์„ ์ธ์ฝ”๋”ฉ, ์„ ํƒ ์‚ฌํ•ญ).
  • State Encoder: z = h(s_{\text{state}}, x, g) (Latent State Representation ๊ณ„์‚ฐ).
  • Latent Dynamics: z' = d(z, a, g) (Latent Forward Dynamics ์˜ˆ์ธก).
  • Reward: \hat{r} = R(z, a, g) (Transition์˜ Reward r ์˜ˆ์ธก).
  • Terminal Value: \hat{q} = Q(z, a, g) (ํ• ์ธ๋œ Reward์˜ ํ•ฉ(Return) ์˜ˆ์ธก).
  • Policy Prior: \hat{a} = p(z, g) (์ตœ์  Action a^* ์˜ˆ์ธก). ์—ฌ๊ธฐ์„œ s = \{s_{\text{lang}}, s_{\text{img}}, s_{\text{state}}\}๋Š” ๊ฐ๊ฐ Language, Image, State Observation์ด๋ฉฐ, a๋Š” Action์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๊ตฌํ˜„์—์„œ๋Š” Language์™€ Image ์ž…๋ ฅ์— ๋Œ€ํ•ด Frozen Pretrained Backbone์„ ์‚ฌ์šฉํ•˜๊ณ , ๋‚˜๋จธ์ง€ ๊ตฌ์„ฑ ์š”์†Œ๋Š” MLP๋กœ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์ธ์ˆ˜๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” ๊ตฌ์„ฑ ์š”์†Œ๋Š” Concatenation์„ ํ†ตํ•ด ์ž…๋ ฅ์„ ์œตํ•ฉํ•œ ํ›„ ์ฒซ ๋ฒˆ์งธ Dense Layer์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค (์˜ˆ: h(s_{\text{state}}, x, g) := h([s_{\text{state}}, x, g])).

World Model์˜ ๊ตฌ์„ฑ ์š”์†Œ h, d, R, Q๋Š” ๋‹ค์Œ Objective๋ฅผ ํ†ตํ•ด Gradient Descent๋กœ Jointly ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค: L (\theta) = E_{\tau \sim B}\left[\sum_{t=0}^H \lambda^t \left( \|z'_t - \text{sg}(h(s'_{\text{state}t} , x'_t, g))\|_2^2 + \ell_{\text{CE}}(\hat{r}_t, r_t) + \ell_{\text{CE}}(\hat{q}_t, q_t) \right)\right] ์—ฌ๊ธฐ์„œ \tau = (s, a, r, s')๋Š” Replay Buffer B์—์„œ ์ƒ˜ํ”Œ๋ง๋œ Subsequence์ด๊ณ , \lambda \in (0, 1]์€ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ์ƒ˜ํ”Œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ค„์ด๋Š” ์ƒ์ˆ˜ ๊ณ„์ˆ˜์ž…๋‹ˆ๋‹ค. \text{sg}๋Š” Representation Collapse๋ฅผ ์™„ํ™”ํ•˜๋Š” \text{stop-grad} ์—ฐ์‚ฐ์ž์ด๋ฉฐ, \ell_{\text{CE}}๋Š” Cross-Entropy Loss์ž…๋‹ˆ๋‹ค. Multitask ์„ค์ •์—์„œ Reward ๋ถ„ํฌ๊ฐ€ ํฌ๊ฒŒ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, MSE Loss ๋Œ€์‹  Discrete Regression Objective (Cross-Entropy Loss)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Reward์™€ Value๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. Value๋Š” Log-transformed Space์—์„œ ๋ชจ๋ธ๋งํ•˜์—ฌ ๋‹จ์ผ ์˜ˆ์ธก ํ—ค๋“œ๋กœ ๋„“์€ ๋ฒ”์œ„์˜ Value๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. One-step TD-target์€ q_t = r_t + \gamma Q_{\text{tgt}}(z'_t, p(z'_t), g)๋กœ ์ •์˜๋˜๋ฉฐ, Q_{\text{tgt}}๋Š” Online Q Network์˜ EMA(Exponential Moving Average)์ž…๋‹ˆ๋‹ค. ํƒœ์Šคํฌ๋ณ„ Episode ๊ธธ์ด๊ฐ€ ํฌ๊ฒŒ ๋‹ค๋ฅด๋ฏ€๋กœ, ํƒœ์Šคํฌ๋ณ„ Discount Factor (\gamma)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Policy Prior p๋Š” ์œ„์—์„œ ์ •์˜๋œ Q-Network์— ์˜ํ•ด ์ถ”์ •๋œ Q-Value๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šต๋˜๋Š” Stochastic Maximum Entropy Policy๋กœ ๊ณต์‹ํ™”๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Q-Value ์ถ”์ •์ด ์–ด๋ ค์šด ํƒœ์Šคํฌ์—์„œ๋Š” ์ด Policy Objective์˜ ๋‹จ์ˆœ ์ ์šฉ์ด ์„ฑ๋Šฅ ์ €ํ•˜๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์†Œ๋Ÿ‰์˜ Demonstration์„ ํ™œ์šฉํ•˜์—ฌ TD-MPC2์˜ Policy Prior์— ์ถ”๊ฐ€์ ์ธ Behavior Cloning Loss๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” (i) Expert Demonstration์„ Action Supervision์œผ๋กœ ์ง์ ‘ ํ™œ์šฉํ•˜๊ณ , (ii) Planning์„ ํ†ตํ•ด ์„ ํƒ๋œ Action์„ ๋œ ํ‘œํ˜„์ ์ธ Policy Prior๋กœ ๋ช…์‹œ์ ์œผ๋กœ Distillํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ๋ชฉ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. Policy Objective๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: L_p(\theta) = E_{\tau \sim B}\left[\sum_{t=0}^H \lambda^t \left( \|p(z_t, g) - a_t\|_2^2 - Q(z_t, p(z_t, g), g) - H(p(\cdot|z_t, g)) \right)\right] ์—ฌ๊ธฐ์„œ z_{t+1} = d(z_t, a_t, g)๋Š” Latent Rollout์ž…๋‹ˆ๋‹ค. ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ ์‹œ, TD-MPC2๋Š” ํ•™์Šต๋œ World Model๋กœ Planningํ•˜์—ฌ Action์„ ์„ ํƒํ•˜๋ฉฐ, Planning ์ ˆ์ฐจ๋Š” Policy Prior p์— ์˜ํ•ด Warm-start๋ฉ๋‹ˆ๋‹ค.

Demonstration ํ™œ์šฉ:

Massively Multitask Online RL์—์„œ์˜ ํƒ์ƒ‰(Exploration) ์–ด๋ ค์›€์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, Newt๋Š” ๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ์†Œ๋Ÿ‰์˜ Demonstration์„ ๋„ค ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค:

  1. Model-based Pretraining: ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ ์ „์—, ์ œ๊ณต๋œ Demonstration์œผ๋กœ Equation 1์˜ ๋ชจ๋“  ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ Pretrainํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ Equation 3์˜ Q-Value ํ•ญ์€ ์ผ์‹œ์ ์œผ๋กœ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ Demonstration์˜ ๊ฐ•๋ ฅํ•œ Action Supervision์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  2. Constrained Planning: Pretraining์—์„œ Online RL๋กœ ์ „ํ™˜ํ•  ๋•Œ, ์ดˆ๊ธฐ์— Planner๋ฅผ BC Policy ์ชฝ์œผ๋กœ Biasํ•˜๊ณ , ํ•™์Šต ์ดˆ๋ฐ˜ 12% ๋™์•ˆ ์ด Bias๋ฅผ ์„ ํ˜•์ ์œผ๋กœ 0์œผ๋กœ Annealํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ดˆ๊ธฐ์— ๋ถ€์ •ํ™•ํ•œ Value Function์œผ๋กœ ์ธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  3. Oversampling of Demonstrations: Demonstration๊ณผ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ์œ„ํ•œ ๋ณ„๋„์˜ Replay Buffer๋ฅผ ์œ ์ง€ํ•˜๊ณ , ์—์ด์ „ํŠธ ์—…๋ฐ์ดํŠธ ์‹œ ๊ฐ๊ฐ 50%์”ฉ ๋™์ผํ•œ ๋น„์œจ๋กœ Subsequence๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Demonstration ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ๋‚ด๋‚ด ์—์ด์ „ํŠธ์—๊ฒŒ ์ง€์†์ ์œผ๋กœ ์ œ๊ณต๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  4. Action Supervision in RL Policy Updates: Section 3.1์—์„œ ๋…ผ์˜๋œ ๋ฐ”์™€ ๊ฐ™์ด, Policy Objective์— Model-based BC Loss ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ง์ ‘์ ์ธ Action Supervision์„ ์ œ๊ณตํ•˜๊ณ  Q-Value ์ถ”์ •์ด ๋ถ€์ •ํ™•ํ•  ๋•Œ RL ๊ธฐ๋ฐ˜ Policy Objective๋ฅผ Regularizeํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, Newt๋Š” MMBench ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ Baseline๋“ค๋ณด๋‹ค ๋” ๋‚˜์€ Multitask ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ฐ•๋ ฅํ•œ Open-loop Control ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜๊ณ , ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ ์‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ Observation์˜ ์ ‘๊ทผ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ํ™˜๊ฒฝ, Demonstration, ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ์ฝ”๋“œ, ๊ทธ๋ฆฌ๊ณ  200๊ฐœ ์ด์ƒ์˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ๊ณต๊ฐœํ•˜์—ฌ Reproducibility์™€ ํ–ฅํ›„ ์—ฐ๊ตฌ๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

๐Ÿ“‹ TL;DR (ํ•ต์‹ฌ ์š”์•ฝ) ์ด ๋…ผ๋ฌธ์€ ์—ฐ์† ์ œ์–ด(Continuous Control) ๋ถ„์•ผ์—์„œ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ(Massively Multitask World Model)์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ MMBench๋ผ๋Š” 200๊ฐœ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์†Œ๊ฐœํ•˜๊ณ , Newt๋ผ๋Š” ์–ธ์–ด ์กฐ๊ฑดํ™” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Newt๋Š” ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ›ˆ๋ จํ•œ ํ›„ ๋ชจ๋“  ํƒœ์Šคํฌ์—์„œ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ๊ณต๋™ ์ตœ์ ํ™”๋˜๋ฉฐ, ๊ธฐ์กด ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค๋ผ์ธ(PPO, FastTD3, Behavior Cloning)๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


1. ์„œ๋ก : ์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?

1.1 ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ

ํ˜„๋Œ€ ๋กœ๋ด‡๊ณตํ•™์—์„œ ๋ฒ”์šฉ ์ œ์–ด(General-Purpose Control)๋Š” ํ•ต์‹ฌ์ ์ธ ์—ฐ๊ตฌ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์™€ ์‹ ์ฒด ๊ตฌ์กฐ(embodiment)์—์„œ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋Š” ์—์ด์ „ํŠธ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ ์—ฐ์† ์ œ์–ด๋ฅผ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต(RL) ์—ฐ๊ตฌ๋Š” ์—ฌ์ „ํžˆ ๋‹จ์ผ ํƒœ์Šคํฌ(single-task) ๋˜๋Š” ์˜คํ”„๋ผ์ธ(offline) ํ•™์Šต ๋ฐฉ์‹์— ์ง‘์ค‘๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํ˜„์ƒ์€ โ€œ์˜จ๋ผ์ธ RL์€ ํ™•์žฅ๋˜์ง€ ์•Š๋Š”๋‹ค(Online RL does not scale)โ€๋Š” ์ธ์‹์„ ๊ฐ•ํ™”์‹œ์ผœ ์™”์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ณผ์—ฐ ๊ทธ๋Ÿด๊นŒ์š”?

1.2 Foundation Model์—์„œ ์˜๊ฐ์„ ๋ฐ›๋‹ค

์ตœ๊ทผ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ Foundation Model ๋ ˆ์‹œํ”ผ๊ฐ€ ๋†€๋ผ์šด ์„ฑ๊ณต์„ ๊ฑฐ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

Foundation Model Recipe = ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ›ˆ๋ จ + ๊ฒฝ๋Ÿ‰ RL/๋ฏธ์„ธ์กฐ์ •

GPT, BERT, ViT ๋“ฑ์˜ ์„ฑ๊ณต์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ค๊ณ„๋œ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์•ˆ์ •์ ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ์ด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋กœ๋ด‡ ์ œ์–ด์— ์ ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค:

โ€œ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์ˆ˜๋ฐฑ ๊ฐœ์˜ ํƒœ์Šคํฌ์—์„œ ํ›ˆ๋ จ๋  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€


2. ํ•ต์‹ฌ ๊ธฐ์—ฌ: MMBench์™€ Newt

2.1 MMBench: ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒค์น˜๋งˆํฌ

์ด ์—ฐ๊ตฌ์˜ ์ฒซ ๋ฒˆ์งธ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” MMBench(Massively Multitask Benchmark)์ž…๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

ํŠน์„ฑ ์ƒ์„ธ ๋‚ด์šฉ
ํƒœ์Šคํฌ ์ˆ˜ 200๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ
๋„๋ฉ”์ธ ์ˆ˜ 10๊ฐœ ํƒœ์Šคํฌ ๋„๋ฉ”์ธ
์ƒˆ๋กœ์šด ํƒœ์Šคํฌ 41๊ฐœ์˜ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ ํฌํ•จ
์–ธ์–ด ์ง€์‹œ๋ฌธ ๋ชจ๋“  ํƒœ์Šคํฌ์— ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ ์ œ๊ณต
๋ฐ๋ชจ ๋ฐ์ดํ„ฐ ๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ
์ด๋ฏธ์ง€ ๊ด€์ธก ์„ ํƒ์  RGB ๊ด€์ธก ์ง€์›

2.1.1 MiniArcade: ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ ์Šค์œ„ํŠธ

MMBench์˜ ์ผ๋ถ€๋กœ, ์ €์ž๋“ค์€ MiniArcade๋ผ๋Š” ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ ์Šค์œ„ํŠธ๋ฅผ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ํ™˜๊ฒฝ๋“ค์€:

  • ์ž˜ ์ •์˜๋œ ๊ด€์ธก(observation), ํ–‰๋™(action), ๋ณด์ƒ(reward) ๊ตฌ์กฐ
  • ๋ชจ๋“  ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์–ธ์–ด ์ง€์‹œ๋ฌธ ์ œ๊ณต
  • ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ ์‹ ์ฒด ๊ตฌ์กฐ๋ฅผ ํฌ๊ด„

2.1.2 ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์™€์˜ ๋น„๊ต

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL ๋ฒค์น˜๋งˆํฌ๋“ค๊ณผ ๋น„๊ตํ•˜๋ฉด:

๋ฒค์น˜๋งˆํฌ ํƒœ์Šคํฌ ์ˆ˜ ๋„๋ฉ”์ธ ๋‹ค์–‘์„ฑ ์–ธ์–ด ์ง€์‹œ๋ฌธ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ
Meta-World 50๊ฐœ ๋กœ๋ด‡ ์กฐ์ž‘ ์ค‘์‹ฌ โŒ ์ œํ•œ์ 
DMControl 30+๊ฐœ ์—ฐ์† ์ œ์–ด โŒ โŒ
TD-MPC2 (80-task) 80๊ฐœ Meta-World + DMControl โŒ ์ œํ•œ์ 
MMBench (Newt) 200๊ฐœ 10๊ฐœ ๋„๋ฉ”์ธ โœ… โœ…

MMBench๋Š” ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์˜ ์•ฝ 2-4๋ฐฐ์— ๋‹ฌํ•˜๋Š” ํƒœ์Šคํฌ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์–ธ์–ด ์ง€์‹œ๋ฌธ๊ณผ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

2.2 Newt: ์–ธ์–ด ์กฐ๊ฑดํ™” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ

๋‘ ๋ฒˆ์งธ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” Newt๋ผ๋Š” ์ƒˆ๋กœ์šด ์—์ด์ „ํŠธ์ž…๋‹ˆ๋‹ค. Newt์˜ ํ•ต์‹ฌ ์„ค๊ณ„ ์›์น™์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

2.2.1 2๋‹จ๊ณ„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

flowchart TB
    subgraph phase1["1๋‹จ๊ณ„: ์‚ฌ์ „ํ›ˆ๋ จ (Pretraining)"]
        A[๋ฐ๋ชจ ๋ฐ์ดํ„ฐ] --> B[Task-Aware Representations]
        A --> C[Action Priors ํ•™์Šต]
    end
    
    subgraph phase2["2๋‹จ๊ณ„: ์˜จ๋ผ์ธ RL (Joint Optimization)"]
        D[200๊ฐœ ํƒœ์Šคํฌ ร— ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ] --> E[์›”๋“œ ๋ชจ๋ธ ๊ณต๋™ ์ตœ์ ํ™”]
    end
    
    phase1 --> phase2

1๋‹จ๊ณ„: ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ›ˆ๋ จ - ์ˆ˜์ง‘๋œ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํƒœ์Šคํฌ ์ธ์‹ ํ‘œํ˜„(task-aware representations)์„ ํ•™์Šต - ๊ฐ ํƒœ์Šคํฌ์— ์ ํ•ฉํ•œ ํ–‰๋™ ์‚ฌ์ „ ๋ถ„ํฌ(action priors) ํš๋“ - ์ด ๋‹จ๊ณ„์—์„œ ์›”๋“œ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ์ ์ธ ๋™์—ญํ•™ ์ดํ•ด์™€ ํƒœ์Šคํฌ ๊ตฌ์กฐ ํŒŒ์•…

2๋‹จ๊ณ„: ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•œ ๊ณต๋™ ์ตœ์ ํ™” - ์‚ฌ์ „ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋“  200๊ฐœ ํƒœ์Šคํฌ์—์„œ ๋™์‹œ์— ์˜จ๋ผ์ธ ํ•™์Šต - ํ™˜๊ฒฝ๊ณผ์˜ ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์›”๋“œ ๋ชจ๋ธ์„ ์ •๊ตํ™” - ํƒœ์Šคํฌ ๊ฐ„ ์ง€์‹ ์ „์ด(knowledge transfer) ํ™œ์šฉ

2.2.2 ์–ธ์–ด ์กฐ๊ฑดํ™” (Language Conditioning)

Newt์˜ ์ค‘์š”ํ•œ ํŠน์ง• ์ค‘ ํ•˜๋‚˜๋Š” ์–ธ์–ด ์กฐ๊ฑดํ™”์ž…๋‹ˆ๋‹ค:

์ž…๋ ฅ: [์ƒํƒœ ๋ฒกํ„ฐ, ์–ธ์–ด ์ง€์‹œ๋ฌธ, (์„ ํƒ์ ) RGB ๊ด€์ธก]
     โ†“
Newt ์›”๋“œ ๋ชจ๋ธ
     โ†“
์ถœ๋ ฅ: ๊ณ„ํš(Planning)์„ ํ†ตํ•œ ํ–‰๋™

์–ธ์–ด ์ง€์‹œ๋ฌธ์€ ํƒœ์Šคํฌ์˜ ๋ชฉํ‘œ์™€ ๋งฅ๋ฝ์„ ๋ช…์‹œ์ ์œผ๋กœ ์ „๋‹ฌํ•˜์—ฌ: - ํƒœ์Šคํฌ ๊ฐ„ ๊ตฌ๋ถ„์„ ๋ช…ํ™•ํžˆ ํ•จ - ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋กœ์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ์ด‰์ง„ - ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ(interpretability) ํ–ฅ์ƒ

2.2.3 ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

Newt์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ค์Œ ์š”์†Œ๋“ค๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. ์ƒํƒœ ์ธ์ฝ”๋”: ์ƒํƒœ ๋ฒกํ„ฐ๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘
  2. ์–ธ์–ด ์ธ์ฝ”๋”: ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ์„ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜
  3. ์›”๋“œ ๋ชจ๋ธ ์ฝ”์–ด: ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ๋™์—ญํ•™ ์˜ˆ์ธก
  4. ํ”Œ๋ž˜๋„ˆ: ๊ณ„ํš์„ ํ†ตํ•œ ํ–‰๋™ ์ถœ๋ ฅ

3. ๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„

3.1 ์›”๋“œ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL์˜ ๋ฐฐ๊ฒฝ

Newt๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋จผ์ € ์›”๋“œ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

3.1.1 ์›”๋“œ ๋ชจ๋ธ์ด๋ž€?

์›”๋“œ ๋ชจ๋ธ(World Model)์€ ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ํ•™์Šตํ•˜๋Š” ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค:

\hat{s}_{t+1} = f_\theta(s_t, a_t)

์—ฌ๊ธฐ์„œ: - s_t: ํ˜„์žฌ ์ƒํƒœ - a_t: ์„ ํƒ๋œ ํ–‰๋™ - \hat{s}_{t+1}: ์˜ˆ์ธก๋œ ๋‹ค์Œ ์ƒํƒœ - f_\theta: ํ•™์Šต๋œ ๋™์—ญํ•™ ๋ชจ๋ธ

3.1.2 ์ž ์žฌ ๊ณต๊ฐ„ ๊ณ„ํš (Latent Space Planning)

ํ˜„๋Œ€ ์›”๋“œ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL(์˜ˆ: TD-MPC, DreamerV3)์€ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๊ณ„ํš์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค:

Raw Observation โ†’ Encoder โ†’ Latent State โ†’ World Model โ†’ Planning
                    โ†“
              Compact, Learnable Representation

์ด ์ ‘๊ทผ๋ฒ•์˜ ์žฅ์ : - ์ฐจ์› ์ถ•์†Œ: ๊ณ ์ฐจ์› ๊ด€์ธก(์˜ˆ: ์ด๋ฏธ์ง€)์„ ์ €์ฐจ์› ์ž ์žฌ ๋ฒกํ„ฐ๋กœ ์••์ถ• - ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ‘œํ˜„: ํƒœ์Šคํฌ์— ๊ด€๋ จ๋œ ์ •๋ณด๋งŒ ์œ ์ง€ - ํšจ์œจ์ ์ธ ๊ณ„ํš: ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ๋กค์•„์›ƒ์ด ์›์‹œ ๊ด€์ธก๋ณด๋‹ค ํšจ์œจ์ 

3.2 TD-MPC2์™€์˜ ๊ด€๊ณ„

Newt๋Š” TD-MPC2์˜ ์—ฐ๊ตฌ ํ๋ฆ„์„ ์ด์–ด๋ฐ›์œผ๋ฉด์„œ ๋ฐœ์ „์‹œํ‚จ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. TD-MPC2๋Š” ICLR 2024์—์„œ ๋ฐœํ‘œ๋œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

ํŠน์„ฑ TD-MPC2 Newt
ํƒœ์Šคํฌ ์ˆ˜ 80๊ฐœ (์ตœ๋Œ€) 200๊ฐœ
ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ๋‹จ์ผ ์„ค์ • ๋‹จ์ผ ์„ค์ • (์ถ”์ •)
์–ธ์–ด ์กฐ๊ฑดํ™” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž„๋ฒ ๋”ฉ ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ
์‚ฌ์ „ํ›ˆ๋ จ ์ œํ•œ์  ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ์ฒด๊ณ„์  ์‚ฌ์ „ํ›ˆ๋ จ
๋ชจ๋ธ ํฌ๊ธฐ ์ตœ๋Œ€ 317M (๋…ผ๋ฌธ ์ƒ์„ธ ํ•„์š”)

TD-MPC2์˜ ํ•ต์‹ฌ ํ˜์‹ ๋“ค: - SimNorm: ์ž ์žฌ ์ƒํƒœ๋ฅผ ๊ทธ๋ฃน๋ณ„๋กœ ๋ถ„ํ• ํ•˜๊ณ  softmax๋ฅผ ํ†ตํ•ด ๊ณ ์ • ์ฐจ์› simplex๋กœ ํˆฌ์˜ - LayerNorm + Mish ํ™œ์„ฑํ™”: ๊นŠ์€ ์ž ์žฌ ์›”๋“œ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ ํ™•๋ณด - ์ด์‚ฐ ํšŒ๊ท€ ์†์‹ค: ๋ณด์ƒ๊ณผ ๊ฐ€์น˜ ํƒ€๊ฒŸ์— ๋Œ€ํ•œ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ๋ชฉํ‘œ

3.3 ์‚ฌ์ „ํ›ˆ๋ จ์˜ ์ค‘์š”์„ฑ

Newt์˜ ํ•ต์‹ฌ ํ˜์‹  ์ค‘ ํ•˜๋‚˜๋Š” ์ฒด๊ณ„์ ์ธ ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ›ˆ๋ จ์ž…๋‹ˆ๋‹ค.

3.3.1 ์™œ ์‚ฌ์ „ํ›ˆ๋ จ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ์˜จ๋ผ์ธ RL์˜ ๋ฌธ์ œ์ : - ํƒ์ƒ‰์˜ ์–ด๋ ค์›€: ๋ฌด์ž‘์œ„ ์ดˆ๊ธฐ ์ •์ฑ…์œผ๋กœ๋Š” ์˜๋ฏธ ์žˆ๋Š” ๊ฒฝํ—˜ ์ˆ˜์ง‘์ด ์–ด๋ ค์›€ - ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ: ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋ฉด ์ˆ˜๋งŽ์€ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ ํ•„์š” - ๋ถˆ์•ˆ์ •ํ•œ ํ•™์Šต: ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—์„œ ์ดˆ๊ธฐ ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ์Œ

์‚ฌ์ „ํ›ˆ๋ จ์˜ ํ•ด๊ฒฐ์ฑ…: - ํ•ฉ๋ฆฌ์ ์ธ ํ–‰๋™ ์‚ฌ์ „ ๋ถ„ํฌ: ํƒ์ƒ‰ ์‹œ์ž‘์ ์„ ๊ฐœ์„  - ํƒœ์Šคํฌ ๊ตฌ์กฐ ์ดํ•ด: ์›”๋“œ ๋ชจ๋ธ์ด ํ™˜๊ฒฝ ๋™์—ญํ•™์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•… - ๋น ๋ฅธ ์ˆ˜๋ ด: ์˜จ๋ผ์ธ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ๋” ๋น ๋ฅด๊ฒŒ ์„ฑ๋Šฅ ํ–ฅ์ƒ

3.3.2 ํ–‰๋™ ์‚ฌ์ „ ๋ถ„ํฌ (Action Priors)

์‚ฌ์ „ํ›ˆ๋ จ์„ ํ†ตํ•ด ํ•™์Šต๋œ ํ–‰๋™ ์‚ฌ์ „ ๋ถ„ํฌ๋Š”:

\pi_{prior}(a|s, \ell) \approx \pi_{expert}(a|s, \ell)

์—ฌ๊ธฐ์„œ \ell์€ ์–ธ์–ด ์ง€์‹œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด ์‚ฌ์ „ ๋ถ„ํฌ๋Š”: - ์˜จ๋ผ์ธ RL ์‹œ ํƒ์ƒ‰์˜ ์ถœ๋ฐœ์  ์ œ๊ณต - ๊ด€๋ จ ์—†๋Š” ํ–‰๋™ ๊ณต๊ฐ„ ํƒ์ƒ‰ ๊ฐ์†Œ - ํƒœ์Šคํฌ๋ณ„ ์ ์ ˆํ•œ ํ–‰๋™ ๋ฒ”์œ„ ์ œ์‹œ

3.4 ์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด (Open-Loop Control)

๋…ผ๋ฌธ์—์„œ ๊ฐ•์กฐํ•˜๋Š” Newt์˜ ํŠน๋ณ„ํ•œ ๋Šฅ๋ ฅ ์ค‘ ํ•˜๋‚˜๋Š” ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด์ž…๋‹ˆ๋‹ค.

3.4.1 ์˜คํ”ˆ ๋ฃจํ”„ vs ํด๋กœ์ฆˆ๋“œ ๋ฃจํ”„

ํด๋กœ์ฆˆ๋“œ ๋ฃจํ”„ ์ œ์–ด:
  ๋งค timestep โ†’ ๊ด€์ธก โ†’ ํ–‰๋™ ๊ฒฐ์ • โ†’ ์‹คํ–‰ โ†’ ๊ด€์ธก โ†’ ...

์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด:
  ์ดˆ๊ธฐ ๊ด€์ธก โ†’ ์—ฌ๋Ÿฌ timestep ๊ณ„ํš โ†’ ์—ฐ์† ์‹คํ–‰ (ํ”ผ๋“œ๋ฐฑ ์—†์ด)

3.4.2 Newt์˜ ์˜คํ”ˆ ๋ฃจํ”„ ๋Šฅ๋ ฅ

Newt๋Š” ์ตœ๋Œ€ 48 ์—ฐ์† timestep์˜ ๊ณ„ํš์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

์ดˆ๊ธฐ ์ƒํƒœ s_0 โ†’ Newt ํ”Œ๋ž˜๋„ˆ โ†’ [a_0, a_1, ..., a_47]
                            โ†“
              ํ™˜๊ฒฝ ํ”ผ๋“œ๋ฐฑ ์—†์ด 48 ์Šคํ… ์‹คํ–‰

์ด๊ฒƒ์ด ๋กœ๋ด‡๊ณตํ•™์—์„œ ์ค‘์š”ํ•œ ์ด์œ : - ํ†ต์‹  ์ง€์—ฐ ๋Œ€์‘: ์›๊ฒฉ ์กฐ์ž‘ ์‹œ ์ง€์—ฐ์— ๊ฐ•๊ฑด - ์„ผ์„œ ์‹คํŒจ ๋Œ€๋น„: ์ผ์‹œ์  ์„ผ์„œ ์žฅ์•  ์‹œ์—๋„ ์ž‘๋™ ๊ฐ€๋Šฅ - ์›”๋“œ ๋ชจ๋ธ ํ’ˆ์งˆ ์ง€ํ‘œ: ์ •ํ™•ํ•œ ์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด๋Š” ์›”๋“œ ๋ชจ๋ธ์ด ํ™˜๊ฒฝ ๋™์—ญํ•™์„ ์ž˜ ํฌ์ฐฉํ–ˆ์Œ์„ ์˜๋ฏธ


4. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

4.1 ์ฃผ์š” ๋ฒ ์ด์Šค๋ผ์ธ

์ €์ž๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค๋ผ์ธ๋“ค๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค:

  1. Behavior Cloning (BC): ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ์ง์ ‘ ์ •์ฑ… ํ•™์Šต
  2. PPO (Proximal Policy Optimization): ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ •์ฑ… ๊ฒฝ์‚ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜
  3. FastTD3: TD3์˜ ์ตœ์ ํ™”๋œ ๋ณ€ํ˜•์œผ๋กœ, ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ

4.1.1 FastTD3์— ๋Œ€ํ•˜์—ฌ

FastTD3๋Š” ์ตœ๊ทผ ์ฃผ๋ชฉ๋ฐ›๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ: - TD3 ๊ธฐ๋ฐ˜ off-policy ํ•™์Šต - ๋ณ‘๋ ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™œ์šฉ - ๋Œ€๊ทœ๋ชจ ๋ฐฐ์น˜ ์—…๋ฐ์ดํŠธ - ๋ถ„ํฌ์  ํฌ๋ฆฌํ‹ฑ(distributional critic) ์‚ฌ์šฉ - HumanoidBench ํƒœ์Šคํฌ๋ฅผ ๋‹จ์ผ GPU์—์„œ 3์‹œ๊ฐ„ ๋‚ด ํ•ด๊ฒฐ

4.2 ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ฑ๋Šฅ

๋…ผ๋ฌธ์˜ ์ฃผ์š” ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, 200๊ฐœ ํƒœ์Šคํฌ ์ „์ฒด์—์„œ ๋‹จ์ผ ์ƒํƒœ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ์˜จ๋ผ์ธ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ๋•Œ:

ํ•ต์‹ฌ ๋ฐœ๊ฒฌ: - Newt๊ฐ€ ๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ(BC, PPO, FastTD3)๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ํ‰๊ท  ์ ์ˆ˜ ๋‹ฌ์„ฑ - ์ ์ˆ˜๋Š” ๊ฐ ํƒœ์Šคํฌ๋ณ„๋กœ [0, 1] ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”๋จ - Newt๊ฐ€ ๋” ๋†’์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์‹œํ˜„

4.3 ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ๋ถ„์„

ํฅ๋ฏธ๋กœ์šด ์ ์€ ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ์ฐจ์ด์ž…๋‹ˆ๋‹ค:

๋„๋ฉ”์ธ A: Newt >> PPO > FastTD3
๋„๋ฉ”์ธ B: Newt โ‰ˆ PPO > FastTD3  
๋„๋ฉ”์ธ C: Newt > FastTD3 > PPO
...

์ฃผ์š” ๊ด€์ฐฐ: - Newt๋Š” ์ „๋ฐ˜์ ์œผ๋กœ PPO์™€ FastTD3๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ - ๊ทธ๋Ÿฌ๋‚˜ RL์„ ํ†ตํ•œ ๊ฐœ์„  ์†๋„๋Š” ๋„๋ฉ”์ธ์— ๋”ฐ๋ผ ๋‹ค๋ฆ„ - ์ผ๋ถ€ ๋„๋ฉ”์ธ์—์„œ๋Š” ์‚ฌ์ „ํ›ˆ๋ จ๋งŒ์œผ๋กœ๋„ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ - ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ๋Š” ์˜จ๋ผ์ธ RL์ด ํฐ ํญ์˜ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์˜ด

4.4 ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋กœ์˜ ์ ์‘

Newt์˜ ๋˜ ๋‹ค๋ฅธ ๊ฐ•์ ์€ ๋ฏธ์ง€์˜ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ ์‘์ž…๋‹ˆ๋‹ค:

ํ›ˆ๋ จ ํƒœ์Šคํฌ (200๊ฐœ) โ†’ Newt ํ•™์Šต โ†’ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ (N๊ฐœ)
                                    โ†“
                              ๋น ๋ฅธ ์ ์‘ (Few-shot)

์ด๋Š” ๋กœ๋ด‡๊ณตํ•™์—์„œ ๋งค์šฐ ์ค‘์š”ํ•œ ํŠน์„ฑ์ž…๋‹ˆ๋‹ค: - ์‹ค์ œ ๋ฐฐ์น˜ ํ™˜๊ฒฝ์—์„œ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ํƒœ์Šคํฌ๋ฅผ ์‚ฌ์ „์— ์ •์˜ํ•˜๊ธฐ ์–ด๋ ค์›€ - ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ์— ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ํ•„์ˆ˜์  - Foundation Model ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ํ•ต์‹ฌ ๊ฐ€์น˜ ์‹คํ˜„


5. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

5.1 TD-MPC ๊ณ„์—ด

์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐœํ‘œ ์—ฐ๋„ ํŠน์ง• ํƒœ์Šคํฌ ๊ทœ๋ชจ
TD-MPC 2022 ์ž ์žฌ ๊ณต๊ฐ„ MPC ๋‹จ์ผ ํƒœ์Šคํฌ
TD-MPC2 2024 ํ™•์žฅ์„ฑ, ๊ฐ•๊ฑด์„ฑ 80๊ฐœ
Newt 2025 ์–ธ์–ด ์กฐ๊ฑดํ™”, ์‚ฌ์ „ํ›ˆ๋ จ 200๊ฐœ

5.2 DreamerV3์™€์˜ ๋น„๊ต

DreamerV3(Nature, 2025)๋Š” ์›”๋“œ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL์˜ ๋˜ ๋‹ค๋ฅธ ์ฃผ์š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค:

ํŠน์„ฑ DreamerV3 Newt
์ ‘๊ทผ ๋ฐฉ์‹ ์žฌ๊ตฌ์„ฑ ๊ธฐ๋ฐ˜ ์›”๋“œ ๋ชจ๋ธ ์•”์‹œ์ (implicit) ์›”๋“œ ๋ชจ๋ธ
๊ฐ•์  ์ด๋ฏธ์ง€ ๊ด€์ธก, Minecraft ์—ฐ์† ์ œ์–ด, ๋ฉ€ํ‹ฐํƒœ์Šคํฌ
ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋‹จ์ผ ์„ค์ • ๋‹จ์ผ ์„ค์ •
์–ธ์–ด ์กฐ๊ฑดํ™” ์ œํ•œ์  ๋„ค์ดํ‹ฐ๋ธŒ ์ง€์›

5.3 PWM (Policy Learning with Multi-Task World Models)

PWM์€ ์‚ฌ์ „ํ›ˆ๋ จ๋œ ์›”๋“œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ์ •์ฑ… ํ•™์Šต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค:

  • ์›”๋“œ ๋ชจ๋ธ์„ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ํ™œ์šฉ
  • 1์ฐจ ์ตœ์ ํ™”(first-order optimization)๋ฅผ ํ†ตํ•œ ํšจ์œจ์ ์ธ ์ •์ฑ… ํ•™์Šต
  • Newt์™€ ๋ณด์™„์ ์ธ ์ ‘๊ทผ๋ฒ•

6. ํ•œ๊ณ„์ , ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ๋ฐ ์žฌํ˜„์„ฑ

6.1 ํ˜„์žฌ ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„

6.1.1 ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ํ•œ์ •

ํ˜„์žฌ Newt๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ๋งŒ ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค: - ์‹ค์ œ ๋กœ๋ด‡์—์„œ์˜ ์„ฑ๋Šฅ์€ ๋ฏธ๊ฒ€์ฆ - Sim-to-Real ๊ฐ„๊ทน ์กด์žฌ ๊ฐ€๋Šฅ์„ฑ - ์„ผ์„œ ๋…ธ์ด์ฆˆ, ์ง€์—ฐ ๋“ฑ ์‹ค์„ธ๊ณ„ ์š”์ธ ๋ฏธ๋ฐ˜์˜

6.1.2 ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ํŽธ์ฐจ

์‹คํ—˜ ๊ฒฐ๊ณผ์—์„œ ๊ด€์ฐฐ๋œ ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ์ฐจ์ด: - ์ผ๋ถ€ ๋„๋ฉ”์ธ์—์„œ๋Š” RL ๊ฐœ์„ ์ด ๋ฏธ๋ฏธ - ๋ชจ๋“  ํƒœ์Šคํฌ์—์„œ ์ผ๊ด€๋œ ๊ฐœ์„ ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก  ํ•„์š” - ํƒœ์Šคํฌ ๋‚œ์ด๋„์™€ ํ•™์Šต ๋‚œ์ด๋„์˜ ๊ด€๊ณ„ ๋ถ„์„ ํ•„์š”

6.1.3 ๊ณ„์‚ฐ ๋น„์šฉ

200๊ฐœ ํƒœ์Šคํฌ ๋™์‹œ ํ•™์Šต์— ํ•„์š”ํ•œ ์ž์›: - ๋Œ€๊ทœ๋ชจ GPU ํด๋Ÿฌ์Šคํ„ฐ ํ•„์š” ๊ฐ€๋Šฅ์„ฑ - ์‹ค์ œ ๋ฐฐํฌ ํ™˜๊ฒฝ์—์„œ์˜ ์ถ”๋ก  ๋น„์šฉ - ์†Œ๊ทœ๋ชจ ์—ฐ๊ตฌ์‹ค์—์„œ์˜ ์žฌํ˜„์„ฑ ๋ฌธ์ œ

6.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์ด ์ œ์‹œํ•˜๋Š” ์ฐจ์„ธ๋Œ€ ๋Œ€๊ทœ๋ชจ RL ๋ฐฉ๋ฒ•๋ก ์„ ์œ„ํ•œ ๊ณผ์ œ:

โ€œ๋ชจ๋“  ํƒœ์Šคํฌ์—์„œ ๋” ์ผ๊ด€๋œ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ์ฐจ์„ธ๋Œ€ ๋Œ€๊ทœ๋ชจ RL ๋ฐฉ๋ฒ•๋ก ์— ์ค‘์š”ํ•  ๊ฒƒ์ด๋‹ค.โ€

๊ตฌ์ฒด์ ์ธ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

  1. ํƒœ์Šคํฌ ์ปค๋ฆฌํ˜๋Ÿผ: ์‰ฌ์šด ํƒœ์Šคํฌ์—์„œ ์–ด๋ ค์šด ํƒœ์Šคํฌ๋กœ ์ ์ง„์  ํ•™์Šต
  2. ๋ฉ”ํƒ€ ํ•™์Šต ํ†ตํ•ฉ: ํƒœ์Šคํฌ ๊ฐ„ ์ง€์‹ ์ „์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฐœ์„ 
  3. ๋น„์ „ ์–ธ์–ด ๋ชจ๋ธ ์—ฐ๊ฒฐ: ๋” ํ’๋ถ€ํ•œ ์–ธ์–ด ์ดํ•ด์™€ ์‹œ๊ฐ์  ์ถ”๋ก 
  4. ๊ณ„์ธต์  ์ œ์–ด: ๊ณ ์ˆ˜์ค€ ๊ณ„ํš๊ณผ ์ €์ˆ˜์ค€ ์ œ์–ด์˜ ๋ถ„๋ฆฌ
  5. ์•ˆ์ „์„ฑ ๊ณ ๋ ค: ๋Œ€๊ทœ๋ชจ ์ •์ฑ…์˜ ์•ˆ์ „ํ•œ ๋ฐฐํฌ ๋ฐฉ๋ฒ•

6.3 ๊ณต๊ฐœ ์ž์›

์ €์ž๋“ค์€ ๋‹ค์Œ์„ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค:

  • ํ™˜๊ฒฝ: MMBench์˜ 200๊ฐœ ํ™˜๊ฒฝ
  • ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ: ๊ฐ ํƒœ์Šคํฌ๋ณ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ
  • ์ฝ”๋“œ: ํ›ˆ๋ จ ๋ฐ ํ‰๊ฐ€ ์ฝ”๋“œ
  • ์ฒดํฌํฌ์ธํŠธ: 200๊ฐœ ์ด์ƒ์˜ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ
  • ์›น์‚ฌ์ดํŠธ: https://newt-world-models.github.io

7. ๊ฒฐ๋ก 

7.1 ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€

์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ค‘์š”ํ•œ ๋ฉ”์‹œ์ง€๋ฅผ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค:

  1. ์˜จ๋ผ์ธ RL์€ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋‹ค: ์ ์ ˆํ•œ ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ์•„ํ‚คํ…์ฒ˜๋กœ 200๊ฐœ ํƒœ์Šคํฌ ๋™์‹œ ํ•™์Šต ๊ฐ€๋Šฅ

  2. Foundation Model ๋ ˆ์‹œํ”ผ์˜ ์œ ํšจ์„ฑ: ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ›ˆ๋ จ + ์˜จ๋ผ์ธ RL ์กฐํ•ฉ์ด ์—ฐ์† ์ œ์–ด์—์„œ๋„ ํšจ๊ณผ์ 

  3. ์–ธ์–ด ์กฐ๊ฑดํ™”์˜ ๊ฐ€์น˜: ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ์ด ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต๊ณผ ์ผ๋ฐ˜ํ™”์— ๊ธฐ์—ฌ

  4. ์›”๋“œ ๋ชจ๋ธ์˜ ์ž ์žฌ๋ ฅ: ์ž ์žฌ ๊ณต๊ฐ„ ๊ธฐ๋ฐ˜ ์›”๋“œ ๋ชจ๋ธ์ด ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ค์ •์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ

7.2 ๋กœ๋ด‡๊ณตํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋Œ€ํ•œ ํ•จ์˜

์ด ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡๊ณตํ•™์˜ ์˜ค๋žœ ๋ชฉํ‘œ์ธ ๋ฒ”์šฉ ๋กœ๋ด‡ ์—์ด์ „ํŠธ๋ฅผ ํ–ฅํ•œ ์ค‘์š”ํ•œ ์ง„์ „์ž…๋‹ˆ๋‹ค:

  • ์—ฐ๊ตฌ ๋ฐฉํ–ฅ: ๋‹จ์ผ ํƒœ์Šคํฌ ์ตœ์ ํ™”์—์„œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์ผ๋ฐ˜ํ™”๋กœ ์ „ํ™˜
  • ๋ฒค์น˜๋งˆํ‚น: ํ‘œ์ค€ํ™”๋œ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ๋กœ ๊ณต์ •ํ•œ ๋น„๊ต ๊ฐ€๋Šฅ
  • ์‹ค์šฉ์„ฑ: ์‹ค์ œ ๋กœ๋ด‡ ๋ฐฐํฌ๋ฅผ ํ–ฅํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ ‘๊ทผ๋ฒ•

7.3 ๋งˆ๋ฌด๋ฆฌ ์ƒ๊ฐ

Newt์™€ MMBench๋Š” ์—ฐ์† ์ œ์–ด๋ฅผ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์— ์ƒˆ๋กœ์šด ์ด์ •ํ‘œ๋ฅผ ์„ธ์›๋‹ˆ๋‹ค. 200๊ฐœ ํƒœ์Šคํฌ๋ผ๋Š” ๊ทœ๋ชจ, ์–ธ์–ด ์กฐ๊ฑดํ™”๋ผ๋Š” ์ธํ„ฐํŽ˜์ด์Šค, ๊ทธ๋ฆฌ๊ณ  Foundation Model์—์„œ ์˜๊ฐ๋ฐ›์€ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์€ ๋ชจ๋‘ ๋ฏธ๋ž˜ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ์ง€์นจ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ‰๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด, ๋” ๋‹ค์–‘ํ•œ ์‹ ์ฒด ๊ตฌ์กฐ ์ง€์›, ๊ทธ๋ฆฌ๊ณ  ์•ˆ์ „ํ•œ ๋ฐฐํฌ ๋ฐฉ๋ฒ•๋ก  ๋“ฑ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ์—ฐ๊ตฌ๊ฐ€ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐ€๋Šฅ์„ฑ์€ ๋ถ„๋ช…ํ•ฉ๋‹ˆ๋‹ค: ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๋” ์ด์ƒ ๋จผ ๋ฏธ๋ž˜์˜ ์ด์•ผ๊ธฐ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค.


๐Ÿ“š ์ฐธ๊ณ  ๋ฌธํ—Œ

  1. Hansen, N., Su, H., & Wang, X. (2024). TD-MPC2: Scalable, Robust World Models for Continuous Control. ICLR 2024.
  2. Hafner, D., et al. (2025). Mastering diverse control tasks through world models. Nature.
  3. Yu, T., et al. (2020). Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning. CoRL 2019.
  4. Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
  5. Fujimoto, S., et al. (2025). FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control.
  6. Georgiev, I., et al. (2024). PWM: Policy Learning with Multi-Task World Models.
  7. Ha, D., & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.

์š”์•ฝ ์นด๋“œ

ํ•ญ๋ชฉ ๋‚ด์šฉ
๋…ผ๋ฌธ ์ œ๋ชฉ Learning Massively Multitask World Models for Continuous Control
ํ•™ํšŒ ICLR 2026 (์ œ์ถœ)
ํ•ต์‹ฌ ๊ธฐ์—ฌ MMBench (200 ํƒœ์Šคํฌ), Newt (์–ธ์–ด ์กฐ๊ฑดํ™” ์›”๋“œ ๋ชจ๋ธ)
๋ฐฉ๋ฒ•๋ก  ๋ฐ๋ชจ ์‚ฌ์ „ํ›ˆ๋ จ + ์˜จ๋ผ์ธ RL ๊ณต๋™ ์ตœ์ ํ™”
์„ฑ๋Šฅ BC, PPO, FastTD3 ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ฑ๋Šฅ
๊ณต๊ฐœ ์ž์› ํ™˜๊ฒฝ, ๋ฐ๋ชจ, ์ฝ”๋“œ, ์ฒดํฌํฌ์ธํŠธ
์›น์‚ฌ์ดํŠธ https://newt-world-models.github.io

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : ์ผ๋ฐ˜ ๋ชฉ์  ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ์˜ ๋„์ „๊ณผ์ œ

๋กœ๋ด‡์ด๋‚˜ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜๋ฐฑ ๊ฐ€์ง€์— ์ด๋ฅด๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…๊ณผ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ˜•ํƒœ(embodiments)๋ฅผ ๋ชจ๋‘ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฒ”์šฉ ์ œ์–ด ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ํ˜„๋Œ€ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์˜ ๊ถ๊ทน์ ์ธ ๋ชฉํ‘œ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ๊นŒ์ง€ ์—ฐ์† ์ œ์–ด ๋ถ„์•ผ์˜ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ๋Š” ๋Œ€๋ถ€๋ถ„ ๋‹จ์ผ ์ž‘์—… ๋˜๋Š” ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์— ํ•œ์ •๋˜์–ด ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•œ RL(๊ฐ•ํ™”ํ•™์Šต)์€ ํ™•์žฅ์„ฑ์ด ๋–จ์–ด์ง„๋‹ค๋Š” ์ธ์‹์„ ๊ฐ•ํ™”์‹œ์ผœ ์™”์Šต๋‹ˆ๋‹ค. ํ•œํŽธ, ์ตœ๊ทผ ๊ฑฐ๋Œ€ ๋ชจ๋ธ(foundation model)์˜ ์„ฑ๊ณต์— ํž˜์ž…์–ด, ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šต(pretraining)ํ•œ ํ›„ ๋น„๊ต์  ์ ์€ ์ถ”๊ฐ€ ํ•™์Šต(fine-tuning)์œผ๋กœ ์ƒˆ๋กœ์šด ๊ณผ์ œ์— ์ ์šฉํ•˜๋Š” ์ ‘๊ทผ์ด ๊ฐ๊ด‘๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๊ฑฐ๋Œ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์ด๋‚˜ ๊ฒŒ์ž„ ์—์ด์ „ํŠธ๋“ค์€ ๋Œ€์šฉ๋Ÿ‰์˜ ์‹œ์—ฐ(demonstrations) ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„ ์ง€๋„ํ•™์Šต์œผ๋กœ ํ•™์Šต๋œ ํ›„, ํ•„์š”ํ•˜๋ฉด ์•ฝ๊ฐ„์˜ RL๋กœ ์„ฑ๋Šฅ์„ ๋‹ค๋“ฌ๋Š” ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค: (i) ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๋Ÿ‰์— ์ œํ•œ์ด ์žˆ๊ณ , (ii) ์ตœ์ข… ์ •์ฑ… ์„ฑ๋Šฅ์ด ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์— ์˜ํ•ด ์ œํ•œ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ์‚ฌ๋žŒ์ด ์ œ๊ณตํ•œ ์‹œ์—ฐ์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ์ด์ƒ ์‹œ์—ฐ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ์ •์ฑ…์˜ ์ง€์†์  ํ–ฅ์ƒ์„ ์ด๋ฃจ๊ธฐ ์œ„ํ•ด, ์ ์ฐจ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ‘๋ชฉํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ๋Š˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์ด๋‚˜ ๊ฒŒ์ž„ AI์—์„œ๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ ํ›„ ์ถ”๊ฐ€ RL๋กœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์‚ฌ๋ก€๊ฐ€ ๋‚˜ํƒ€๋‚˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฐ์† ์ œ์–ด ๋ถ„์•ผ์—์„œ๋Š” ์—ฌ์ „ํžˆ ์ข์€ ๋ฒ”์œ„์˜ ๊ณผ์ œ๋“ค(Tassa et al., 2018; Hafner et al., 2023 ๋“ฑ)์ด๋‚˜ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ ํ•™์Šต(Lee et al., 2022; Hansen et al., 2024 ๋“ฑ)์— ๋จธ๋ฌด๋ฅด๋Š” ๊ฒฝํ–ฅ์ด ๊ฐ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ์† ์ œ์–ด ํ™˜๊ฒฝ์—์„œ ์˜จ๋ผ์ธ RL์„ ํ†ตํ•ด ๋ฒ”์šฉ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๊ณผ์—ฐ ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ค์šฉ์ ์ธ์ง€ ๋ช…ํ™•ํ•˜์ง€ ์•Š์•˜๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

โ€œLearning Massively Multitask World Models for Continuous Controlโ€ ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ์ด ์งˆ๋ฌธ์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ๋งŒ์œผ๋กœ ์ˆ˜๋ฐฑ ๊ฐœ์— ๋‹ฌํ•˜๋Š” ์—ฐ์† ์ œ์–ด ์ž‘์—…์„ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ด ๋…ผ๋ฌธ์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ณตํ—Œ์„ ํ•ฉ๋‹ˆ๋‹ค:

  • MMBench ๋ฒค์น˜๋งˆํฌ: 200๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์—ฐ์† ์ œ์–ด ์ž‘์—…์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์€ ๊ณ ์œ ํ•œ ๋กœ๋ด‡/์—์ด์ „ํŠธ ํ˜•ํƒœ์™€ ๋ฌผ๋ฆฌ ๋™์—ญํ•™, ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ž์—ฐ์–ด๋กœ ๋œ ์ž‘์—… ์ง€์‹œ๋ฌธ, ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ, ๊ทธ๋ฆฌ๊ณ  ์ €์ฐจ์› ์ƒํƒœ/state ๊ด€์ธก์ด๋‚˜ RGB ์˜์ƒ ๊ด€์ธก์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ํ–ฅํ›„ ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL ์—ฐ๊ตฌ๋ฅผ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ณต์šฉ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ ์—ญํ• ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • Newt: ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ ์—์ด์ „ํŠธ: Newt๋ผ ๋ช…๋ช…๋œ ์–ธ์–ด ์กฐ๊ฑด๋ถ€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ ์—์ด์ „ํŠธ๋ฅผ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ์—์ด์ „ํŠธ๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ์„ ํ–‰ ํ•™์Šต(pretraining)ํ•˜์—ฌ ์ž‘์—…์— ๋Œ€ํ•œ ํ‘œํ˜„๊ณผ ํ–‰๋™ priors๋ฅผ ๋จผ์ € ์Šต๋“ํ•œ ๋’ค, ์˜จ๋ผ์ธ RL์„ ํ†ตํ•ด ๋ชจ๋“  ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ธฐ๋ฐ˜(MBRL) ์ ‘๊ทผ๋ฒ•์„ ํ™œ์šฉํ•œ Newt๋Š” ํ•˜๋‚˜์˜ ์„ธ๊ณ„ ๋ชจ๋ธ๋กœ ์—ฌ๋Ÿฌ ์ž‘์—…์˜ ๋™์—ญํ•™์„ ํ•™์Šตํ•˜๋ฉฐ, ๋ชจ๋“  ์ž‘์—…์— ๊ฑธ์นœ ๊ณตํ†ต๋œ ๋ฌผ๋ฆฌ๋ฅผ ๊ณต์œ ํ•˜๋ฉด์„œ๋„ ์ž์—ฐ์–ด ์ง€์‹œ๋กœ ๊ฐ ์ž‘์—…์„ ๊ตฌ๋ถ„ํ•˜๋Š” ์ „๋žต์„ ์ทจํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, Newt ์—์ด์ „ํŠธ๋Š” ๋‹ค์–‘ํ•œ ๊ฐ•๋ ฅํ•œ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค(์˜ˆ: PPO, TD3 ๋“ฑ์˜ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒ„์ „ ๋ฐ ํ–‰๋™ ๋ชจ๋ฐฉ ๋ชจ๋ธ ๋“ฑ)์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ํ‰๊ท  ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต๋œ ์›”๋“œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ํ™˜๊ฒฝ ํ”ผ๋“œ๋ฐฑ ์—†์ด(open-loop)๋„ ๊ฝค ์˜ค๋žœ ์‹œ๊ฐ„ ํ•ฉ๋ฆฌ์ ์ธ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ๊ณ„ํšํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ ์ฃผ์—ˆ๊ณ , ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•œ ๋น ๋ฅธ ์ ์‘๋„ ๊ฐ€๋Šฅํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด์„œ๋„ ๋‹ค๋Ÿ‰์˜ ์—ฐ์† ์ œ์–ด ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•˜๋ฉฐ, ํ–ฅํ›„ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL๊ณผ ๋กœ๋ณดํ‹ฑ์Šค ์—ฐ๊ตฌ์— ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ค๋‹ˆ๋‹ค.

์ด์ œ ๋ณธ ํฌ์ŠคํŠธ์—์„œ๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋‚ด์šฉ์„ ๊ตฌ์กฐ์ ์œผ๋กœ ์ •๋ฆฌํ•˜๊ณ , ๊ธฐ์ˆ ์ ์ธ ๊ธฐ์—ฌ ๋ฐ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ์˜ ๋™๊ธฐ์™€ ๊ณผ์ œ, Newt ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์™€ ํ•™์Šต ๋ฐฉ๋ฒ•, ๊ณต์œ ๋˜๋Š” ๋™์—ญํ•™์˜ ์ด์ , MMBench์˜ ์„ธ๋ถ€ ๊ตฌ์„ฑ ๋ฐ ๋Œ€ํ‘œ ๋ฒค์น˜๋งˆํฌ (DMControl-MT, MetaWorld-MT ๋“ฑ), ๊ธฐ์กด ๋‹จ์ผ/๋‹ค์ค‘ ์ •์ฑ…๊ณผ์˜ ๋น„๊ต ์‹คํ—˜, ๊ตฌ์„ฑ ์š”์†Œ๋ณ„ Ablation(์†Œ๊ฑฐ ์‹คํ—˜), ๊ทธ๋ฆฌ๊ณ  ํ–ฅํ›„ ์—ฐ๊ตฌ์— ๋Œ€ํ•œ ์‹œ์‚ฌ์  ์ˆœ์œผ๋กœ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

MMBench: 200๊ฐ€์ง€ ์—ฐ์† ์ œ์–ด ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒค์น˜๋งˆํฌ

Newt ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ณ  ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ MMBench๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ƒˆ๋กญ๊ฒŒ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. MMBench๋Š” ์ด 200๊ฐœ์˜ ์œ ๋‹ˆํฌํ•œ ์—ฐ์† ์ œ์–ด ์ž‘์—…์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์œผ๋ฉฐ, 10๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์ž‘์—… ๋„๋ฉ”์ธ์„ ํฌ๊ด„ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์€ ๋ฌดํ•œ-์ˆ˜๋ช… MDP ํ˜•์‹(episode ์ข…๋ฃŒ ์กฐ๊ฑด ์—†์Œ)์œผ๋กœ ์ •์˜๋˜๊ณ , ์ผ์ • ๊ธธ์ด ๋™์•ˆ ์—์ด์ „ํŠธ์˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ํ†ตํ•ด ๋ˆ„์  ๋ณด์ƒ(return)์„ ํš๋“ํ•˜๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ชจ๋“  ์ž‘์—…์—๋Š” ํ•ด๋‹น ๋ชฉํ‘œ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ์ด ์ œ๊ณต๋˜๋ฉฐ, ์ž‘์—…๋‹น ๋ช‡ ๊ฐœ์”ฉ์˜ ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ ธ ์ดˆ๊ธฐ ํ•™์Šต์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ด€์ธก ํ˜•ํƒœ๋Š” ์„ธ ๊ฐ€์ง€ ๋ชจ๋“œ๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•˜๋Š”๋ฐ, (1) ํ™˜๊ฒฝ ์ƒํƒœ๋ฅผ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•œ ์ €์ฐจ์› ์ƒํƒœ ๋ฒกํ„ฐ, (2) 224ร—224 RGB ์นด๋ฉ”๋ผ ์˜์ƒ, (3) ์ƒํƒœ+์˜์ƒ ๋‘ ๊ฐ€์ง€ ๊ฒฐํ•ฉ ๊ด€์ธก ํ˜•ํƒœ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์ผ๋œ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋Š” ์ƒํƒœ๊ธฐ๋ฐ˜/์‹œ๊ฐ๊ธฐ๋ฐ˜ ๋ชจ๋“  ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์‹คํ—˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ๋” ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

MMBench์— ํฌํ•จ๋œ 10๊ฐœ ์ž‘์—…๊ตฐ(domain)๊ณผ ๊ฐ ๊ตฌ์„ฑ ์ž‘์—…์˜ ์˜ˆ์‹œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • DeepMind Control Suite (DMControl): ํ‘œ์ค€ ์—ฐ์† ์ œ์–ด ๋ฒค์น˜๋งˆํฌ๋กœ ๋„๋ฆฌ ์“ฐ์ด๋Š” DMControl ํ™˜๊ฒฝ๋“ค์ž…๋‹ˆ๋‹ค (์˜ˆ: Finger, Fish, Quadruped ๋“ฑ). ์ฃผ๋กœ ๊ด€์ ˆ ์ด๋™์ด๋‚˜ ๋ฌผ์ฒด ์กฐ์ž‘ ๋“ฑ์˜ ๋‹จ์ˆœํ•œ ๋กœ๋ด‡ ๊ณผ์ œ๊ฐ€ 21๊ฐœ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์—ํ”ผ์†Œ๋“œ๋Š” ๊ณ ์ •๋œ ๊ธธ์ด(ํ”„๋ ˆ์ž„ ๋ฐ˜๋ณต ๊ณ ๋ ค ์‹œ ์•ฝ 500์Šคํ…)์ด๋ฉฐ ๋ณด์ƒ์€ ์ž‘์—…๋งˆ๋‹ค ์ƒ์ดํ•œ dense ๋˜๋Š” sparse ํ˜•ํƒœ์ง€๋งŒ 0~1000 ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ์ ์ˆ˜๋ฅผ 0~1๋กœ ๋‹ค์‹œ ์ •๊ทœํ™”ํ•˜์—ฌ ์„ฑ๋Šฅ ์ง€ํ‘œ๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ ์ž‘์—…: Finger Turn Hard, Fish Swim, Quadruped Run)

  • DMControl Extended: ์ €์ž๋“ค์ด ๊ธฐ์กด DMControl์„ ํ™•์žฅํ•ด ์ถ”๊ฐ€ํ•œ ์‚ฌ์šฉ์ž ์ •์˜ ์ž‘์—…๋“ค์ž…๋‹ˆ๋‹ค. Hansen et al. (2024)์—์„œ ์ œ์•ˆ๋œ 11๊ฐœ ์ปค์Šคํ…€ ๊ณผ์ œ์™€, ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ํ˜•ํƒœ(Jumper, Spinner, Giraffe)์— ๋Œ€ํ•œ 5๊ฐœ์˜ ๊ณผ์ œ๋ฅผ ๋”ํ•ด ์ด 16๊ฐœ์˜ ์ถ”๊ฐ€ ์ž‘์—…์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค๋„ 500์Šคํ… ์—ํ”ผ์†Œ๋“œ์— 0~1000 ๋ฆฌํ„ด์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๊ณ  ๋™์ผํ•˜๊ฒŒ 0~1 ์ •๊ทœํ™”๋ฉ๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Walker Run Backward, Cheetah Jump, Spinner Spin)

  • Meta-World (๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋กœ๋ด‡ ์กฐ์ž‘): Sawyer ๋กœ๋ด‡ํŒ”์„ ์‚ฌ์šฉํ•œ 50๊ฐ€์ง€ ํ…Œ์ด๋ธ” ์œ„ ๋ฌผ์ฒด ์กฐ์ž‘ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ์œ ๋ช… ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค (ML1/ML45 ๋“ฑ์œผ๋กœ ์•Œ๋ ค์ง). ๊ณตํ†ต๋œ ๊ด€์ธกยท์•ก์…˜ ๊ณต๊ฐ„์„ ๊ณต์œ ํ•˜์—ฌ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์— ์šฉ์ดํ•˜๊ฒŒ ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์—ํ”ผ์†Œ๋“œ๋Š” 100 ์Šคํ…์œผ๋กœ ํ•œ์ •๋˜๊ณ , Dense ๋ณด์ƒ๊ณผ ํ•จ๊ป˜ ์„ฑ๊ณต ํŒ์ • ๊ธฐ์ค€์ด ์žˆ์–ด ์—ํ”ผ์†Œ๋“œ ์ข…๋ฃŒ ์‹œ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์„ฑ๊ณต๋ฅ ์„ 0~1 ์‚ฌ์ด์˜ Normalized score๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. 50๊ฐœ ์ค‘ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์˜ค๋ฅ˜๊ฐ€ ์žˆ๋Š” 1๊ฐœ๋ฅผ ์ œ์™ธํ•œ 49๊ฐœ ์ž‘์—…์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Assembly, Bin Picking, Lever Pull)

  • ManiSkill3: ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ตฌ์ฒด๋“ค์„ ํฌํ•จํ•œ ์ข…ํ•ฉ ๋กœ๋ณดํ‹ฑ์Šค ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ํ…Œ์ด๋ธ” ์œ„ ์†Œํ˜• ๋กœ๋ด‡ํŒ” ์กฐ์ž‘, ์‚ฌ์กฑ๋ณดํ–‰, ํœด๋จธ๋…ธ์ด๋“œ ์ „์‹  ์ œ์–ด, ์ด๋™ ๋กœ๋ด‡, ๊ทธ๋ฆฌ๊ณ  DMControl/Gym ์œ ์‚ฌ ๊ณผ์ œ๋“ค๊นŒ์ง€ ํญ๋„“๊ฒŒ ์•„์šฐ๋ฅด๋Š” ์˜คํ”ˆ์†Œ์Šค ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ์ž‘์—…๋งˆ๋‹ค ๊ด€์ธก/์•ก์…˜ ๊ณต๊ฐ„ ์ฐจ์›์ด ๋‹ฌ๋ผ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์ด ์‰ฝ์ง€ ์•Š์ง€๋งŒ, ์œ ์‚ฌํ•œ ๊ทธ๋ฃน ๋‚ด์—์„œ๋Š” ํ˜•ํƒœ๊ฐ€ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด 36๊ฐœ ์ž‘์—…์„ ์„ ์ •ํ–ˆ์œผ๋ฉฐ, ์ด ์ค‘ 5๊ฐœ๋Š” ๋…ผ๋ฌธ์—์„œ ์ƒˆ๋กœ ์ถ”๊ฐ€ํ•œ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์—ํ”ผ์†Œ๋“œ ๊ธธ์ด๋Š” ์ž‘์—…๋ณ„ ๊ธฐ๋ณธ๊ฐ’์„ ๋”ฐ๋ฅด๋˜ action repeat=2๋ฅผ ์ ์šฉํ–ˆ๊ณ , ์„ฑ๊ณต ๊ธฐ์ค€์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์„ฑ๊ณต๋ฅ ์„ ์ ์ˆ˜๋กœ, ์—†๋Š” ๊ฒฝ์šฐ 0~1 ์ •๊ทœํ™”๋œ ๋ฆฌํ„ด์„ ์„ฑ๋Šฅ ์ง€ํ‘œ๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Stack Cube, Pick Screwdriver, Anymal Reach)

  • MuJoCo Gym: ๊ณ ์ „์ ์ธ OpenAI Gym ์—ฐ์† ์ œ์–ด ๊ณผ์ œ๋“ค๋กœ, MuJoCo ๋ฌผ๋ฆฌ์—”์ง„์„ ์‚ฌ์šฉํ•˜๋Š” ํ‘œ์ค€ RL ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ๊ด€์ธก๊ณผ ์•ก์…˜ ๊ณต๊ฐ„์ด ์ž‘์—…๋งˆ๋‹ค ๋‹ค๋ฅด๊ณ  ์ข…์ข… ์ƒํ˜ธ ํ˜ธํ™˜๋˜์ง€ ์•Š์ง€๋งŒ, ๋Œ€ํ‘œ์ ์ธ ๊ณผ์ œ๋ฅผ ์„ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์ข…๋ฃŒ ์กฐ๊ฑด์„ ์ œ๊ฑฐํ•˜์—ฌ ์ผ์ • ๊ธธ์ด๋กœ ๋งž์ถ”๊ณ , Sparse ๋ณด์ƒ์˜ ๊ฒฝ์šฐ ์„ฑ๊ณต์‹œ๋งŒ ์ ์ˆ˜๊ฐ€ ์ฃผ์–ด์ง€๋ฏ€๋กœ 0~1 ๊ตฌ๊ฐ„์œผ๋กœ ๋ฆฌํ„ด์„ ์ •๊ทœํ™”ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด 6๊ฐœ ์ž‘์—…(Ant, HalfCheetah, Reacher ๋“ฑ)์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

  • MiniArcade (๋ฏธ๋‹ˆ ์•„์ผ€์ด๋“œ ๊ฒŒ์ž„): ๋…ผ๋ฌธ์—์„œ ์ƒˆ๋กญ๊ฒŒ ๊ตฌํ˜„ํ•œ 2D ๊ฒŒ์ž„ ์ž‘์—…๊ตฐ์ž…๋‹ˆ๋‹ค. ํŒŒ์ด๊ฒŒ์ž„(PyGame)์œผ๋กœ ๋งŒ๋“  ๊ฐ„๋‹จํ•œ ์•„์ผ€์ด๋“œ ์Šคํƒ€์ผ ๊ฒŒ์ž„๋“ค๋กœ, 14์ข…์˜ ๊ฒŒ์ž„์— ๋‚œ์ด๋„ ๋ณ€ํ˜• ๋“ฑ์„ ํฌํ•จํ•ด ์ด 19๊ฐœ ์ž‘์—…์„ ํ•™์Šต์— ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๊ฒŒ์ž„์€ ๊ด€์ธก/์•ก์…˜ ๊ณต๊ฐ„, ๋ชฉํ‘œ, ๋ณด์ƒ ์ฒด๊ณ„ ๋“ฑ์ด ์ œ๊ฐ๊ธฐ ๋‹ค๋ฅด๋ฉฐ, ์—ํ”ผ์†Œ๋“œ ๊ธธ์ด๋„ ๋‹ค์–‘ํ•˜์ง€๋งŒ, ์„ฑ๊ณต ๊ธฐ์ค€์ด ๋ช…ํ™•ํ•œ ๊ฒฝ์šฐ ์ด๋ฅผ 0~1 ๊ธฐ์ค€์œผ๋กœ ์ •๊ทœํ™”ํ•˜๊ณ  ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ ๋ฆฌํ„ด์„ ์ •๊ทœํ™”ํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ์ฑ…์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ƒํƒœ ๊ธฐ๋ฐ˜ ๋ฐ ํ”ฝ์…€ ๊ธฐ๋ฐ˜ ํ”Œ๋ ˆ์ด ๋ชจ๋‘ ๊ฐ€๋Šฅํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์‹œ๊ฐ์  ๋‹ค์–‘์„ฑ์„ ์œ„ํ•ด ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Spaceship, Coconut Dodge, Chase-Evade)

  • Box2D (2D ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜): ํด๋ž˜์‹ํ•œ 2D ๋ฌผ๋ฆฌ ์—”์ง„(Box2D)์„ ํ™œ์šฉํ•œ ํ™˜๊ฒฝ์œผ๋กœ, OpenAI Gym ์ดˆ๊ธฐ ๋ฒ„์ „์— ํฌํ•จ๋˜์—ˆ๋˜ ๊ณผ์ œ๋“ค์ž…๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ BipedalWalker์™€ LunarLander๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋…ผ๋ฌธ์—์„œ๋Š” ๋ณ€ํ˜• ๊ณผ์ œ๋ฅผ ํฌํ•จํ•ด 8๊ฐœ ์ž‘์—…์„ ์„ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์›๋ž˜ ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์ข…๋ฃŒ ์กฐ๊ฑด์ด ์žˆ์—ˆ์ง€๋งŒ ์ด๋ฅผ ๋ชจ๋‘ ๋น„ํ™œ์„ฑํ™”ํ•˜์—ฌ ์ผ์ • ๊ธธ์ด๋กœ ํ†ต์ผํ–ˆ๊ณ , Dense ๋ณด์ƒ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ ๋ฆฌํ„ด์„ 0~1๋กœ ์ •๊ทœํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Bipedal Walker (Obstacles), LunarLander Land, LunarLander Takeoff)

  • RoboDesk: ๋กœ๋ด‡ ๋ฐ์Šคํฌ ์ž‘์—…์œผ๋กœ, ๋‹จ์ผ ์ฑ…์ƒ ํ™˜๊ฒฝ ์•ˆ์—์„œ 9๊ฐ€์ง€์˜ ๋ฌผ์ฒด ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ๊ด€์ธก๊ณผ ์•ก์…˜ ๊ณต๊ฐ„์„ ๋ชจ๋“  ์ž‘์—…์ด ๊ณต์œ ํ•˜์—ฌ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์— ์ ํ•ฉํ•˜๋ฉฐ, ์กฐ์ž‘ ๋Œ€์ƒ ๋ฌผ์ฒด์™€ ๋ชฉํ‘œ๋งŒ ๋‹ค๋ฅด๊ฒŒ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์‹œ๊ฐ ๊ด€์ธก๊ณผ ์ƒํƒœ ๊ด€์ธก ๋ชจ๋‘๋ฅผ ์ง€์›ํ•˜๊ณ  Dense ๋ณด์ƒ๊ณผ ์„ฑ๊ณต ๊ธฐ์ค€์„ ์ œ๊ณตํ•˜๋Š”๋ฐ, ๋…ผ๋ฌธ์—์„œ๋Š” ์„ฑ๊ณต๋ฅ ์„ ์„ฑ๋Šฅ ์ ์ˆ˜๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด 6๊ฐœ ์ž‘์—…์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ์‹œ: Push Green (๋…น์ƒ‰ ๋ฌผ์ฒด ๋ฐ€๊ธฐ), Open Drawer, Place Flat Block in Bin)

  • OGBench (Offline Goal-conditioned Bench): Park et al., 2025์—์„œ ์ œ์•ˆ๋œ ์˜คํ”„๋ผ์ธ ๋ชฉํ‘œ์ง€ํ–ฅ RL ๋ฒค์น˜๋งˆํฌ๋ฅผ ์˜จ๋ผ์ธ ์„ค์ •์œผ๋กœ ์ „ํ™˜ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ํ™˜๊ฒฝ๊ณผ ๋กœ๋ด‡ ํ˜•ํƒœ๊ฐ€ ์„ž์—ฌ ์žˆ์œผ๋ฉฐ, ์›๋ž˜๋Š” ๋ฉ€ํ‹ฐ-๋ชฉํ‘œ ํ•™์Šต์šฉ์œผ๋กœ ๊ณ ์•ˆ๋˜์—ˆ์œผ๋‚˜ ๋‹ค์ค‘ embodiment ํ•™์Šต๋„ ๊ฐ€๋Šฅํ•˜๋„๋ก ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์•ก์…˜ ๊ณต๊ฐ„ ์ฐจ์›์€ ๊ณผ์ œ๋ณ„๋กœ ๋‹ค๋ฅด๊ณ  ์—ํ”ผ์†Œ๋“œ ๊ธธ์ด๋„ ์ƒ์ดํ•˜์ง€๋งŒ, ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ์ผ์ • ๊ธธ์ด๋กœ ๋งž์ถ”๊ณ  ์ข…๋ฃŒ ์กฐ๊ฑด์„ ์—†์•ด์Šต๋‹ˆ๋‹ค. ๋ณด์ƒ์€ dense ํ˜•ํƒœ๋กœ ์ฃผ์–ด์ง€๋ฉฐ, ๋ฆฌํ„ด์„ 0~1๋กœ ์ •๊ทœํ™”ํ•˜์—ฌ ์ ์ˆ˜๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. ์ด 12๊ฐœ ์ž‘์—…์„ ์„ ๋ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค (์˜ˆ: ์ด์ค‘์—๋Š” 2D ํฌ์ธํŠธ๋จธ์Šค ๋ฏธ๋กœ ํƒ์ƒ‰, Ant ๋กœ๋ด‡ ๋ชฉํ‘œ ์ด๋™ ๋“ฑ์˜ ๊ณผ์ œ๊ฐ€ ํฌํ•จ๋จ).

  • Atari (Arcade Learning Environment): ๊ณ ์ „ Atari ๊ฒŒ์ž„ 27๊ฐœ๋ฅผ ์—ฐ์† ํ–‰๋™ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•œ ํ™˜๊ฒฝ๋„ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. (Farama ๋“ฑ์—์„œ ALE๋ฅผ ์—ฐ์† ์ œ์–ด๋กœ ํ™•์žฅํ•œ ๋ฒ„์ „์„ ์‚ฌ์šฉ.) Atari ๊ฒŒ์ž„๋“ค์€ ์„œ๋กœ ๊ฒŒ์ž„ ๋ฃฐ์ด ์™„์ „ํžˆ ๋‹ฌ๋ผ ๊ณตํ†ต์ ์ด ์ ์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ๋ฒ”์œ„๋ฅผ ๋„“ํžˆ๊ธฐ ์œ„ํ•ด Space Invaders, Ms. Pacman, Bowling ๋“ฑ ๋‹ค์–‘ํ•œ ์žฅ๋ฅด์˜ ๊ฒŒ์ž„๋“ค์„ ํ•œ๋ฐ ๋ชจ์•˜์Šต๋‹ˆ๋‹ค. ํ”„๋ ˆ์ž„ ๊ด€์ธก(๋˜๋Š” RAM ์ƒํƒœ)์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ์ผ์ • ๊ธธ์ด๋กœ ํ”Œ๋ ˆ์ดํ•˜๋ฉฐ ์ตœ์ข… ์ ์ˆ˜๋ฅผ 0~1๋กœ ์ •๊ทœํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํŠน์„ฑ์ƒ stochastic(ํ™•๋ฅ ์ ) ์š”์†Œ๊ฐ€ ์žˆ๊ณ , RL ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์— ๋น„ํ•ด Atari์—์„œ๋Š” ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

์ด์ฒ˜๋Ÿผ MMBench๋Š” 159๊ฐœ์˜ ๊ธฐ์กด ์ž‘์—…๊ณผ 41๊ฐœ์˜ ์‹ ๊ทœ ์ž‘์—…/๋ณ€ํ˜•์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ด‘๋ฒ”์œ„ํ•œ ๊ณผ์ œ ๋ชจ์Œ์ด๋ฉฐ, ์ž‘์—…๋งˆ๋‹ค ๊ด€์ธก/ํ–‰๋™ ๊ณต๊ฐ„, ๋ณด์ƒ ๊ตฌ์กฐ, ์—ํ”ผ์†Œ๋“œ ๊ธธ์ด, ๋ชฉํ‘œ ์ง€์‹œ๋ฌธ์ด ์ œ๊ฐ๊ธฐ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ MMBench๋ฅผ ๊ตฌ์ถ•ํ•˜๋ฉด์„œ, ์ด์ฒ˜๋Ÿผ ์ด์งˆ์ ์ธ ํ™˜๊ฒฝ๋“ค์„ ๋‹จ์ผํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ๋งŽ์€ ๋…ธ๋ ฅ์„ ๊ธฐ์šธ์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ ํ™˜๊ฒฝ์„ ๊ณตํ†ต ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๋ž˜ํ•‘ํ•˜๊ณ , ๋ณ‘๋ ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์‰ฝ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋„๋ก Docker ์ด๋ฏธ์ง€์™€ ๋น„๋™๊ธฐ ํ™˜๊ฒฝ wrapper ๋“ฑ์„ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋“  ์ž‘์—…์— ๋Œ€ํ•ด ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ์„ ์ž‘์„ฑํ•˜์—ฌ, ๋ชจ๋ธ์ด ์ž‘์—… ID ๋Œ€์‹  ์–ธ์–ด๋กœ ๊ณผ์ œ๋ฅผ ์ธ์ง€ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค (Appendix B์— ์ž‘์—…๋ณ„ ์ง€์‹œ๋ฌธ ์˜ˆ์‹œ ์ œ๊ณต). ์ด๋กœ์จ ์ž‘์—… ์‹๋ณ„ ์ •๋ณด๋ฅผ ๋ฒ”์šฉ์ ์ธ ํ˜•ํƒœ(์–ธ์–ด)๋กœ ์ œ์‹œํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ๋„ ์—ด์–ด ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

MMBench ๋ฒค์น˜๋งˆํฌ์™€ ๊ด€๋ จ ๋ฆฌ์†Œ์Šค(ํ™˜๊ฒฝ ์ฝ”๋“œ, ์‹œ์—ฐ ๋ฐ์ดํ„ฐ, ๋“ฑ)๋Š” ๋…ผ๋ฌธ ๊ณต๊ฐœ์™€ ํ•จ๊ป˜ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ ๋ˆ„๊ตฌ๋‚˜ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ค€๋น„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

Newt: ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์›”๋“œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

MMBench์˜ ์ˆ˜๋งŽ์€ ๊ณผ์ œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ Newt๋ผ๊ณ  ์ด๋ฆ„ ๋ถ™์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL ์—์ด์ „ํŠธ๋ฅผ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. Newt๋Š” TD-MPC2 (Hansen et al., 2024)๋ผ๋Š” ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํ•™์Šต๋œ ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ ํŠธ๋ ˆ์ ํ„ฐ๋ฆฌ ์ตœ์ ํ™”(๊ณ„ํš)๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. TD-MPC2๋Š” ์ด๋ฏธ ๋‹จ์ผ ์ž‘์—… ์˜จ๋ผ์ธ RL๊ณผ ์†Œ๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์˜คํ”„๋ผ์ธ RL์—์„œ ๊ฐ•์ธํ•œ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ฐ” ์žˆ์œผ๋ฉฐ, Newt๋Š” ์ด๋ฅผ ๋Œ€๊ทœ๋ชจ ์˜จ๋ผ์ธ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ค์ •์œผ๋กœ ํ™•์žฅํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Newt์˜ ์ „์ฒด ๊ตฌ์กฐ(architecture)๋Š” ํฌ๊ฒŒ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ธ๊ณ„ ๋ชจ๋ธ(World Model) ๊ตฌ์„ฑ ์š”์†Œ๋“ค๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์–ธ์–ด ์ธ์ฝ”๋”: ์ž‘์—…์— ๋Œ€ํ•œ ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ g๋ฅผ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ™œ์šฉํ•˜๋ฉฐ, ๋…ผ๋ฌธ ๊ตฌํ˜„์—์„œ๋Š” CLIP ๋“ฑ ์‚ฌ์ „์— ํ•™์Šต๋œ ๋ฐฑ๋ณธ์„ ๊ณ ์ •(frozen)ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…์˜ ๋ชฉํ‘œ๋‚˜ ๋งฅ๋ฝ์„ ํ‘œํ˜„ํ•˜๋Š” task condition ๋ฒกํ„ฐ g๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค.

  • ์ด๋ฏธ์ง€ ์ธ์ฝ”๋” (์„ ํƒ ์‚ฌํ•ญ): ์ผ๋ถ€ ์ž‘์—…์—์„œ๋Š” ๊ณ ํ•ด์ƒ๋„ RGB ์ด๋ฏธ์ง€ ๊ด€์ธก s_{\text{img}}์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ DINOv2 ๋“ฑ ๊ฐ•๋ ฅํ•œ ์‚ฌ์ „ํ•™์Šต ๋น„์ „ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ๊ด€์ธก์„ ์ž„๋ฒ ๋”ฉํ•˜๋Š” ์‹œ๊ฐ ๋ฐฑ๋ณธ x๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋˜ํ•œ ํ•™์Šต ๋™์•ˆ ๊ฐ€์ค‘์น˜๋ฅผ ๋™๊ฒฐํ•˜์—ฌ ์‚ฌ์šฉํ•˜์˜€๊ณ , ๊ณ ์ˆ˜์ค€ ์‹œ๊ฐ ํ”ผ์ฒ˜๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. (ํ™˜๊ฒฝ์— ๋”ฐ๋ผ ์ƒํƒœ ๋ฒกํ„ฐ๋งŒ ์žˆ๋Š” ์ž‘์—…์˜ ๊ฒฝ์šฐ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.)

  • ์ƒํƒœ ์ธ์ฝ”๋” (์ธํ”ผ๋“œ ์‹ ๊ฒฝ๋ง): ์ €์ฐจ์› ํ™˜๊ฒฝ ์ƒํƒœ ๋ฒกํ„ฐ s_{\text{state}} (์˜ˆ: ๊ด€์ ˆ ๊ฐ๋„, ์†๋„ ๋“ฑ)์™€ ์œ„์˜ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ g, ๊ทธ๋ฆฌ๊ณ  (์žˆ๋Š” ๊ฒฝ์šฐ) ์ด๋ฏธ์ง€ ํ”ผ์ฒ˜ x๋ฅผ ํ•จ๊ป˜ ๋ฐ›์•„๋“ค์—ฌ, ๊ณตํ†ต ์ž ์žฌ ์ƒํƒœ ํ‘œํ˜„ z๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ์‹ ๊ฒฝ๋ง h์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํ˜„์žฌ ๊ด€์ธก ์ •๋ณด๋ฅผ ํ•˜๋‚˜์˜ ์ž ์žฌ ๊ณต๊ฐ„ ๋ฒกํ„ฐ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, ์ด z๋Š” ์ž‘์—… ์กฐ๊ฑด๊นŒ์ง€ ๋ฐ˜์˜๋œ ์ƒํƒœ ์š”์•ฝ์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (Newt ๊ตฌํ˜„์—์„œ๋Š” h๋ฅผ ๋น„๊ต์  ๋‹จ์ˆœํ•œ MLP๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.)

  • ์ž ์žฌ ๋™์—ญํ•™ ๋ชจ๋ธ: d๋ผ๋Š” ์‹ ๊ฒฝ๋ง์œผ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ z์™€ ํ–‰๋™ a (๊ทธ๋ฆฌ๊ณ  ์ž‘์—… ์ž„๋ฒ ๋”ฉ g)๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋‹ค์Œ ์‹œ์ ์˜ ์ž ์žฌ ์ƒํƒœ z'๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ์ข…์˜ ์ผ๋‹จ๊ณ„ forward ๋ชจ๋ธ๋กœ, ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋ชจ์‚ฌํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ d๋Š” ํ™•๋ฅ ์ ์ด์ง€ ์•Š์€ deterministic MLP๋กœ ๊ตฌํ˜„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค (๋‹จ, ํ•™์Šต ์•ˆ์ •ํ™”๋ฅผ ์œ„ํ•ด ์ž‘์€ ๋žœ๋ค ๊ฐ’ ์ถ”๊ฐ€ ๋“ฑ์€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค). Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์€ ์ด ์ž ์žฌ ๋™์—ญํ•™์„ ํ†ตํ•ด ํ™˜๊ฒฝ ๋ณ€ํ™”(๊ด€์ธก ๋ณ€ํ™”)๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜์ง€ ์•Š๊ณ  ์ž ์žฌ ์ƒํƒœ์˜ ๋ณ€ํ™”๋งŒ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ž๊ธฐ์˜ˆ์ธก(self-predictive) ์ ‘๊ทผ ๋•๋ถ„์—, ๋ณต์žกํ•œ ํ”ฝ์…€ ์ถœ๋ ฅ์„ ๋””์ฝ”๋”ฉํ•˜์ง€ ์•Š์•„๋„ ๋˜์–ด ํ•™์Šต ๋น„์šฉ์„ ํฌ๊ฒŒ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•ด์•ผ ํ•˜๋Š” ๋Œ€์ƒ์ด ๋ฏธ๋ž˜ ๊ด€์ธก์ด ์•„๋‹Œ ๋ณด์ƒ๊ณผ ๋ฐ˜ํ™˜(return)์ด๋ฏ€๋กœ, ์ œ์–ด์— ์œ ์šฉํ•œ ์ •๋ณด์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์€ ํ”ฝ์…€๋‹จ ์ •ํ™•ํ•œ ์˜ˆ์ธก๋ณด๋‹ค๋Š” โ€œํŠน์ • ํ–‰๋™ ์‹œํ€€์Šค๊ฐ€ ๋ˆ„์  ๋ณด์ƒ์„ ์–ผ๋งˆ๋‚˜ ์–ป์„์ง€โ€๋ฅผ ์ž˜ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.

  • ๋ณด์ƒ ์˜ˆ์ธก ๋ชจ๋ธ: R๋กœ ํ‘œ์‹œ๋˜๋Š” ์ž‘์€ ์‹ ๊ฒฝ๋ง ํ—ค๋“œ(head)๋กœ, ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ z์™€ ํ–‰๋™ a (๋ฐ g)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ง์ ‘์ ์œผ๋กœ ์ฆ‰์‹œ ๋ณด์ƒ r'์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. (์ด ์˜ˆ์ธก๊ฐ’์€ ํ›ˆ๋ จ ์‹œ ์‹ค์ œ ํ™˜๊ฒฝ ๋ณด์ƒ๊ณผ์˜ ์ฐจ์ด๋ฅผ ํ†ตํ•ด ์†์‹ค๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.) ์ด๋ฅผ ํ†ตํ•ด ์„ธ๊ณ„ ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ํ–‰๋™์ด ๋‹จ๊ธฐ์ ์œผ๋กœ ํ™˜๊ฒฝ์— ์ฃผ๋Š” ์˜ํ–ฅ(๋ณด์ƒ)๋„ ์˜ˆ์ธกํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • ๊ฐ’(value) ์˜ˆ์ธก ๋ชจ๋ธ: Q๋ผ๋Š” ์‹ ๊ฒฝ๋ง ํ—ค๋“œ๋กœ, z์™€ a (๋ฐ g)๋ฅผ ๋ฐ›์•„ ๊ทธ ์ƒํƒœ-ํ–‰๋™์˜ ์žฅ๊ธฐ์  ๋ˆ„์  ๋ณด์ƒ(์˜ˆ์ƒ ๋ฆฌํ„ด) q'์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ์ข…์˜ ๊ฐ€์น˜ํ•จ์ˆ˜ ์ถ”์ •์œผ๋กœ, TD ํ•™์Šต(Temporal Difference)์„ ํ†ตํ•ด ์—…๋ฐ์ดํŠธ๋ฉ๋‹ˆ๋‹ค. Newt์—์„œ๋Š” Q ๋ชจ๋“ˆ์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋ฏธ๋ž˜์˜ ์„ฑ๊ณผ๊นŒ์ง€ ์˜ˆ์ธกํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๊ณ„ํš ๋ฐ ์ •์ฑ… ํ•™์Šต์— ํ•„์š”ํ•œ ์‹œ๊ทธ๋„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐํ™” (Policy Prior): \pi๋กœ ํ‘œ์‹œ๋˜๋Š” ํ–‰๋™ ์ •์ฑ… ์‹ ๊ฒฝ๋ง์œผ๋กœ, ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ z (๋ฐ g)๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋‹ค์Œ ํ–‰๋™์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ (๊ฐ€์šฐ์‹œ์•ˆ ์ •์ฑ…)๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ๋ชจ๋ธ ์˜ˆ์ธก๊ณผ ๋ณ„๋„๋กœ ๋ฐฐ์šฐ(Actor) ์—ญํ• ์„ ํ•˜๋ฉฐ, ์ฃผ๋กœ ๊ณ„ํš ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ดˆ๊ธฐ ํ›„๋ณด ์‹œํ€€์Šค ์ œ์‹œ ๋˜๋Š” ๊ธด๊ธ‰ ์‹œ ํ–‰๋™ ์‚ฐ์ถœ ๋“ฑ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ •์ฑ… \pi๋Š” BC(Behavior Cloning) ์†์‹ค ๋“ฑ์œผ๋กœ ์‹œ์—ฐ์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ•™์Šต๋˜๋ฉฐ, ์ดˆ๊ธฐ์—๋Š” ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ํ–‰๋™ ์šฐ์„ ๋„(prior)๋กœ์„œ ๊ธฐ๋Šฅํ•ฉ๋‹ˆ๋‹ค.

Newt์˜ ํ”Œ๋ž˜๋‹(๊ณ„ํš) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์œ„ ์„ธ๊ณ„ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋ชจ๋ธ ์˜ˆ์ธก์น˜(๋™์—ญํ•™ d, ๋ณด์ƒ R, ๊ฐ€์น˜ Q)๋ฅผ ์‚ฌ์šฉํ•ด ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ์—์„œ ๋ฏธ๋ž˜ ์ˆ˜ step ๋™์•ˆ์˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ํƒ์ƒ‰ํ•จ์œผ๋กœ์จ ์ตœ์  ํ–‰๋™์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ์ข…์˜ ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด(MPC) ๋ฐฉ์‹์œผ๋กœ, \pi ๋„คํŠธ์›Œํฌ๊ฐ€ ์ œ์‹œํ•˜๋Š” ํ–‰๋™๋“ค์„ ์‹œ๋“œ๋กœ ์—ฌ๋Ÿฌ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ๋กค์•„์›ƒ(์‹œ๋ฎฌ๋ ˆ์ด์…˜)ํ•ด ๋ณด๊ณ , ๊ทธ ์ค‘ ์˜ˆ์ธก๋œ ๋ˆ„์  ๋ณด์ƒ์ด ๋†’์€ ์‹œํ€€์Šค์˜ ์ฒซ ๋ฒˆ์งธ ํ–‰๋™์„ ์‹คํ–‰ํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ planning๊ณผ policy prior๋ฅผ ์กฐํ•ฉํ•˜๋ฉด, ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ์ •์ฑ…์ด ์ œ์‹œํ•˜๋Š” ํ–‰๋™(์‹œ์—ฐ ๊ธฐ๋ฐ˜)์ด ํฐ ์—ญํ• ์„ ํ•˜๊ณ , ์ ์ฐจ ๋ชจ๋ธ์ด ์ •ํ™•ํ•ด์ง€๋ฉด ๋ชจ๋ธ ์˜ˆ์ธก์— ์˜์กดํ•ด ์ƒˆ๋กœ์šด ํ–‰๋™ ์กฐํ•ฉ๋„ ์‹œ๋„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Newt์˜ ํ•™์Šต ๋ชฉํ‘œ๋Š” ์ด ์ „์ฒด ์„ธ๊ณ„ ๋ชจ๋ธ(h, d, R, Q, \pi)์„ ์ผ๊ด€๋˜๊ฒŒ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•™์Šต์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค: (1) ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ ํ–‰ํ•™์Šต๊ณผ (2) ์˜จ๋ผ์ธ RL์„ ํ†ตํ•œ ๊ณต๋™ ์ตœ์ ํ™”. ์•„๋ž˜์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํ•™์Šต ์ „๋žต์„ ์ž์„ธํžˆ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๋ฐ ํ•™์Šต ์ „๋žต

์ˆ˜๋ฐฑ ๊ฐœ์— ์ด๋ฅด๋Š” ์ž‘์—…๋“ค์„ ์˜จ๋ผ์ธ RL๋กœ ์ง์ ‘ ํ•™์Šต์‹œํ‚ค๋ ค ํ•  ๋•Œ ๊ฐ€์žฅ ํฐ ๋‚œ๊ด€ ์ค‘ ํ•˜๋‚˜๋Š” ํƒ์ƒ‰ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ž‘์—… ์ˆ˜๊ฐ€ ๋ฐฉ๋Œ€ํ• ์ˆ˜๋ก ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ ์˜๋ฏธ์žˆ๋Š” ๋ณด์ƒ์„ ์ฐพ๊ธฐ๊ฐ€ ๋งค์šฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Newt๋Š” ๊ฐ ์ž‘์—…๋‹น ๋ช‡ ๊ฐœ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ(์ „๋ฌธ๊ฐ€ ๋˜๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋‹จ์ผ ํƒœ์Šคํฌ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜ํ–‰ํ•œ ์„ฑ๊ณต ์—ํ”ผ์†Œ๋“œ)๋ฅผ ์ ๊ทน ํ™œ์šฉํ•˜๋Š” ์ „๋žต์„ ์ทจํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ โ€œ์‹œ์—ฐ์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜์—ฌ ํƒ์ƒ‰์„ ๋ณด์กฐํ•˜๊ณ  ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๋Š”โ€ ๋„ค ๊ฐ€์ง€ ๊ธฐ๋ฒ•์„ Newt์— ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค:

  • (1) ์„ธ๊ณ„ ๋ชจ๋ธ ์„ ํ–‰ํ•™์Šต (model-based pretraining): ๋ณธ๊ฒฉ์ ์ธ ์˜จ๋ผ์ธ ํ•™์Šต์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „์—, ๋ชจ๋“  ๊ฐ€์ค‘์น˜(h, d, R, Q, \pi ํฌํ•จ)๋ฅผ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์‚ฌ์ „ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ์ƒํƒœ-ํ–‰๋™-๋ณด์ƒ (s, a, r)์˜ sequence ํ˜•ํƒœ๋กœ ์ œ๊ณต๋˜๋Š”๋ฐ, ์ด๋ฅผ ์ด์šฉํ•ด ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์†์‹ค L(\theta) (๋™์—ญํ•™ ์˜ˆ์ธก ์˜ค์ฐจ + ๋ณด์ƒ ์˜ˆ์ธก ์˜ค์ฐจ + ๊ฐ€์น˜ ์˜ˆ์ธก TD์˜ค์ฐจ ๋“ฑ)๊ณผ ์ •์ฑ… ๋ชจ๋ฐฉ ์†์‹ค L_p(\theta)๋ฅผ ๋™์‹œ์— ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๊ฐ€์น˜ Q ์˜ˆ์ธก์— ๋Œ€ํ•œ TD ์˜ค์ฐจ ํ•ญ๋ชฉ์€ ์ผ์‹œ์ ์œผ๋กœ ์ œ์™ธํ•˜์—ฌ, ์šฐ์„ ์€ ๊ฐ•ํ•œ ํ–‰๋™ ์ง€๋„(supervision)์— ์ง‘์ค‘ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. (๊ฐ€์น˜ ์ถ”์ •์€ ์‹œ์—ฐ์ด ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์–ด ์ดˆ๊ธฐ์—๋Š” ๋ฐฉํ•ด๊ฐ€ ๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ œ์™ธํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.) ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ์ด์ „ ์—ฐ๊ตฌ๋“ค์ด ์ธ์ฝ”๋”๋‚˜ ์ •์ฑ…๋งŒ ๋ถ€๋ถ„์ ์œผ๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ ๊ฒƒ๊ณผ ๋Œ€๋น„๋˜๋ฉฐ, Newt์—์„œ๋Š” ์„ธ๊ณ„ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์‹œ์—ฐ์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•จ์œผ๋กœ์จ ํ›จ์”ฌ ํ’๋ถ€ํ•œ ์‚ฌ์ „ ์ง€์‹์„ ์–ป์Šต๋‹ˆ๋‹ค. ์„ ํ–‰ํ•™์Šต์„ ํ†ตํ•ด Newt๋Š” ๊ฐ ์ž‘์—…์˜ ๊ธฐ๋ณธ ๋™์ž‘ ์‹œํ€€์Šค์™€ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ตํž ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • (2) ์ œํ•œ์  ํ”Œ๋ž˜๋‹: ์ •์ฑ…์œผ๋กœ ์ดˆ๊ธฐ ํŽธํ–ฅ ๋ถ€์—ฌ: ์‹œ์—ฐ์œผ๋กœ ์„ ํ–‰ํ•™์Šต ํ›„ ๊ณง๋ฐ”๋กœ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ”Œ๋ž˜๋‹์œผ๋กœ ์ „ํ™˜ํ•˜๋ฉด, ์ดˆ๋ฐ˜์—๋Š” ๊ฐ€์น˜ํ•จ์ˆ˜ Q์˜ ์ถ”์ •์ด ๋ถ€์ •ํ™•ํ•˜์—ฌ ์˜คํžˆ๋ ค ์‚ฌ์ „ํ•™์Šต๋œ ์ •์ฑ…๋ณด๋‹ค ๋ชปํ•œ ํ–‰๋™์„ ๊ณ„ํšํ•˜๋Š” ํ˜„์ƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์ดˆ๊ธฐ ๋‹จ๊ณ„์—๋Š” ํ”Œ๋ž˜๋„ˆ(MPC)๊ฐ€ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ํƒ์ƒ‰ํ•  ๋•Œ ์ •์ฑ… \pi๊ฐ€ ์ œ์•ˆํ•˜๋Š” ํ–‰๋™์„ ๋”ฐ๋ผ๊ฐ€๋„๋ก ๊ฐ•ํ•˜๊ฒŒ ํŽธํ–ฅ(bias)์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ•™์Šต ์ดˆ๋ฐ˜ 12% ๊ตฌ๊ฐ„ ๋™์•ˆ์€ ํ”Œ๋ž˜๋„ˆ์˜ ๋ชฉ์  ํ•จ์ˆ˜์— โ€œ์ •์ฑ…์œผ๋กœ๋ถ€ํ„ฐ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š” ์ •๋„โ€์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ, ์ •์ฑ…์ด ์ œ์•ˆํ•œ ํ–‰๋™ ๋ถ„ํฌ์—์„œ ํฌ๊ฒŒ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š” ๊ณ„ํš์„ ์šฐ์„ ํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์ œ์•ฝ ๊ฐ•๋„๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ค„์—ฌ๋‚˜๊ฐ€, ํ•™์Šต ์ค‘ํ›„๋ฐ˜์—๋Š” ์™„์ „ํžˆ ๋ชจ๋ธ ์˜ˆ์ธก์—๋งŒ ์˜์กดํ•œ ์ž์œ ๋กœ์šด ๊ณ„ํš์ด ์ด๋ฃจ์–ด์ง€๋„๋ก ์„ ํ˜• ๋น„์œจ๋กœ ๊ฐ์†Œ(anneal)์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ constrained planning ๊ธฐ๋ฒ• ๋•๋ถ„์—, ํ•™์Šต ์‹œ์ž‘ ์‹œ ์‹œ์—ฐ ๊ธฐ๋ฐ˜ ์ •์ฑ…์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์„œ์„œํžˆ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰์œผ๋กœ ์ดํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  • (3) ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ๊ณผํ‘œ์ง‘(oversampling): ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ๋ถ€ํ„ฐ ์Œ“์ด๋Š” ๊ฒฝํ—˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก,์ดˆ๊ธฐ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ์—์„œ ํฌ์„๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด ์‹œ์—ฐ์šฉ ๋ณ„๋„ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ๋ฅผ ์œ ์ง€ํ•˜๊ณ , ํ•™์Šต ์‹œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜์˜ ์ ˆ๋ฐ˜์€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ, ์ ˆ๋ฐ˜์€ ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ์—์„œ ๋ฝ‘๋„๋ก ์ƒ˜ํ”Œ๋ง ๋น„์œจ์„ ๊ณ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๊ฐ„ ๊ฒฝ๊ณผ์— ๋”ฐ๋ผ ์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ ์–‘์ด ํ›จ์”ฌ ๋งŽ์•„์ง€๋”๋ผ๋„ ์—ฌ์ „ํžˆ 50% ํ™•๋ฅ ๋กœ ์‹œ์—ฐ ์‚ฌ๋ก€๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ํ•˜์—ฌ, ์‹œ์—ฐ์ด ์ œ๊ณตํ•˜๋Š” ์œ ์šฉํ•œ ์ •๋ณด๊ฐ€ ๋๊นŒ์ง€ ๋ณด์กด๋˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Feng et al., 2023; Ball et al., 2023 ๋“ฑ์˜ ์„ ํ–‰ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ์ ์šฉํ•œ ๊ฒƒ์œผ๋กœ, ํšจ๊ณผ์ ์œผ๋กœ ์‹œ์—ฐ์„ ์ธ์œ„์ ์œผ๋กœ ์ฆํญ์‹œ์ผœ ํƒ์ƒ‰ ์‹ ํ˜ธ**๋ฅผ ์ง€์†์ ์œผ๋กœ ์ฃผ์ž…ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • (4) RL ์ค‘ ํ–‰๋™ ๊ฐ๋… ์ถ”๊ฐ€ (BC loss regularization): ์˜จ๋ผ์ธ RL ๋‹จ๊ณ„์—์„œ๋„ ์ •์ฑ… ์—…๋ฐ์ดํŠธ ์‹œ ์‹œ์—ฐ ํ–‰๋™์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ์œ ๋„ํ•˜์—ฌ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ •์ฑ… \pi์˜ ์†์‹ค ํ•จ์ˆ˜์— Behavior Cloning ํ•ญ(๋ชจ๋ธ ๊ธฐ๋ฐ˜ BC ์†์‹ค)์„ ์ถ”๊ฐ€ํ•˜์—ฌ, ํ˜„์žฌ ์ƒํƒœ์—์„œ์˜ ์ •์ฑ… ์ถœ๋ ฅ์ด ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํ–‰๋™๊ณผ ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ์ •๊ธฐ์  ํ–‰๋™ ์ง€๋„๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๊ฐ€์น˜ํ•จ์ˆ˜ Q ์ถ”์ •์ด ๋ถˆ์•ˆ์ •ํ•  ๋•Œ ์ •์ฑ…์ด ์—‰๋šฑํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์ง€ ์•Š๋„๋ก ๊ทœ์ œ(regularization) ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. Lin et al., 2025 ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ ์ด ๊ธฐ๋ฒ•์€, ์ •์ฑ…์„ ์ „์ ์œผ๋กœ RL ์‹ ํ˜ธ์—๋งŒ ์˜์กดํ•ด ์—…๋ฐ์ดํŠธํ•˜์ง€ ์•Š๊ณ  ์ผ๋ถ€๋Š” ์‹œ์—ฐ ํ–‰๋™์„ ๋”ฐ๋ผ๊ฐ€๊ฒŒ ํ•จ์œผ๋กœ์จ ์•ˆ์ •์ ์ด๊ณ  ํšจ์œจ์ ์ธ ์ •์ฑ… ํ•™์Šต์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

๋„ค ๊ฐ€์ง€ ๊ธฐ๋ฒ•์„ ๋ชจ๋‘ ์ ์šฉํ•œ ๊ฒฐ๊ณผ, Newt ์—์ด์ „ํŠธ๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์™€ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ตœ๋Œ€ํ•œ ํšจ์œจ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ €์ž๋“ค์€ ์ด๋ฅผ ๋‘๊ณ  โ€œ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ด๋ฉด์„œ๋„ ๊ณ„์‚ฐ ์ž์› ๋ฉด์—์„œ ์ €๋ ดํ•œ ๋ฐฉ๋ฒ•โ€์ด๋ผ๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์‹œ์—ฐ์„ ํ†ตํ•œ ์ดˆ๊ธฐ ์„ฑ๋Šฅ ๋ถ€์ŠคํŒ…๊ณผ ์ง€์†์  ํƒ์ƒ‰ ๋ณด์กฐ ๋•๋ถ„์—, ๋™๋“ฑํ•œ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์‚ฐ ๋‚ด์—์„œ ์‹œ์—ฐ์ด ์—†๋Š” ๊ฒฝ์šฐ๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ํ•™์Šต์ด ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ Newt ๊ตฌํ˜„์—์„œ๋Š” ํ•™์Šต ์ธํ”„๋ผ๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ, ๋ฐฉ๋Œ€ํ•œ ์ž‘์—…๋“ค์„ ๋น ๋ฅด๊ฒŒ ๋ณ‘๋ ฌ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์ค‘ ํ”„๋กœ์„ธ์Šค์™€ GPU์— ๋ชจ๋ธ ํ•™์Šต, ํ™˜๊ฒฝ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ ๊ด€๋ฆฌ๋ฅผ ๋ถ„์‚ฐ์‹œํ‚ค๊ณ , PyTorch์˜ torch.compile ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•ด ์ฝ”๋“œ ์‹คํ–‰์„ ์ปดํŒŒ์ผ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ 200๊ฐœ์˜ ์ž‘์—…์— ๋Œ€ํ•ด 1์–ต ์Šคํ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ๋‹จ์ผ 3090 GPU 11์ผ ์ •๋„, 2์žฅ ์‚ฌ์šฉ ์‹œ ์•ฝ 7์ผ, ์ตœ์‹  GPU ํ™œ์šฉ ์‹œ 5์ผ ๋ฏธ๋งŒ๊นŒ์ง€๋„ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL์ด ํ˜„์‹ค์ ์ธ ์‹œ๊ฐ„ ๋‚ด์— ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Newt๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์˜ ๊ตฌ์กฐ ์œ„์— ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํ™œ์šฉ ๊ทน๋Œ€ํ™” ์ „๋žต์„ ์ ‘๋ชฉํ•˜์—ฌ, ํƒ์ƒ‰ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ํ•™์Šต ํšจ์œจ์„ ๋†’์ธ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์—์ด์ „ํŠธ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์œผ๋กœ, ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ์„ค๊ณ„๊ฐ€ ์‹ค์ œ๋กœ ์–ด๋–ค ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋Š”์ง€ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ์„ฑ๋Šฅ ๋ถ„์„

๋…ผ๋ฌธ์—์„œ๋Š” Newt์˜ ์„ฑ๋Šฅ์„ MMBench์˜ 200๊ฐœ ์ „์ฒด ์ž‘์—…์„ ๋Œ€์ƒ์œผ๋กœ ์ข…ํ•ฉ ํ‰๊ฐ€ํ•˜๋Š” ํ•œํŽธ, ์—ฌ๋Ÿฌ ๊ธฐ์ค€์„ (baselines)๊ณผ ๋ณ€ํ˜• ๊ธฐ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์ƒ์„ธ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ (i) ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ์ „์ฒด์ ์ธ ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ, (ii) ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ์˜ ํšจ๊ณผ, (iii) ์–ธ์–ด ์กฐ๊ฑด ์ž…๋ ฅ์˜ ํšจ๊ณผ, (iv) ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ์ „์ด ํ•™์Šต ๋Šฅ๋ ฅ, (v) ์˜คํ”ˆ-๋ฃจํ”„ ํ”Œ๋ž˜๋‹ ๋Šฅ๋ ฅ ๋“ฑ์„ ์ค‘์ ์ ์œผ๋กœ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ฃผ์š” ๊ฒฐ๊ณผ๋ฅผ ํ•ญ๋ชฉ๋ณ„๋กœ ์š”์•ฝํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

1. ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ์„ฑ๋Šฅ: Newt vs. ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค

Newt ์—์ด์ „ํŠธ์˜ ์ „์ฒด ์„ฑ๋Šฅ์€ ๋™๋“ฑ ์กฐ๊ฑด์—์„œ ๋น„๊ตํ•œ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ PPO (์ •์ฑ… ๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜ on-policy RL), Fast TD3 (๋ณ‘๋ ฌ ์ƒ˜ํ”Œ๋ง์— ์ตœ์ ํ™”๋œ off-policy RL), Behavior Cloning (์‹œ์—ฐ์„ ๋ชจ๋‘ ๋ชจ์•„ ํ•™์Šตํ•œ ์ •์ฑ…) ๋“ฑ์„ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฒ„์ „์œผ๋กœ ํ•™์Šตํ•˜์—ฌ Newt์™€ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ฐฉ๋ฒ•์€ ์ด ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ 1์–ต ์Šคํ…(200๊ฐœ ์ž‘์—… ํ•ฉ์‚ฐ) ๋™์•ˆ ํ•™์Šต๋˜์—ˆ๊ณ , ์šฐ์„  ๊ณต์ • ๋น„๊ต๋ฅผ ์œ„ํ•ด ์ƒํƒœ ๊ด€์ธก๋งŒ ์‚ฌ์šฉํ•œ ์กฐ๊ฑด์—์„œ ์‹คํ—˜๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, Figure 1 (๋…ผ๋ฌธ)์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ Newt๋Š” ๊ฐ€์žฅ ๋†’์€ ํ‰๊ท  ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ๋ฉด์—์„œ ์ดˆ๊ธฐ๋ถ€ํ„ฐ ๋น ๋ฅด๊ฒŒ ํ•™์Šต๊ณก์„ ์ด ์ƒ์Šนํ•˜์—ฌ, ๋™์ผ ์Šคํ… ์ˆ˜ ๋Œ€๋น„ PPO๋‚˜ TD3๋ณด๋‹ค ์›”๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ์„ ์‚ดํŽด๋ณด๋ฉด, Newt์˜ ์ด์ ์€ ์ผ๋ถ€ ๋„๋ฉ”์ธ์—์„œ ๋‘๋“œ๋Ÿฌ์ง€๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹คใ€‘. ์˜ˆ๋ฅผ ๋“ค์–ด DMControl, DMControl-Extended, ManiSkill3, MiniArcade ๋“ฑ์—์„œ๋Š” Newt๊ฐ€ PPO๋‚˜ FastTD3๋ฅผ ํฌ๊ฒŒ ์ƒํšŒํ•˜๋Š” ๋†’์€ ์ˆ˜๋ ด ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋„๋ฉ”์ธ๋“ค์€ ๋น„๊ต์  ๋‹ค์–‘ํ•œ ์ž‘์—…์ด๋ผ๋„ ๊ณตํ†ต๋œ ๋ฌผ๋ฆฌ ํŠน์„ฑ(์˜ˆ: ์œ ์‚ฌํ•œ ๋กœ๋ด‡ ์—ญํ•™์ด๋‚˜ ๊ฒŒ์ž„ ๋ฉ”์ปค๋‹‰)์„ ๊ณต์œ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„, Newt์˜ ์›”๋“œ ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ์ž‘์—… ๊ฐ„์˜ ๊ณตํ†ต ๋™์—ญํ•™์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์ง€์‹ ์ „์ด๊ฐ€ ์ผ์–ด๋‚œ ๊ฒƒ์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, MuJoCo, Box2D, Atari ๋„๋ฉ”์ธ์—์„œ๋Š” Newt๋ฅผ ๋น„๋กฏํ•œ ๋ชจ๋“  RL ๋ฐฉ๋ฒ•์˜ ์„ฑ๋Šฅ์ด ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์•˜๊ณ , ์‹ฌ์ง€์–ด ๋‹จ์ˆœ BC ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์— ๋จธ๋ฌด๋ฅด๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ๊ทธ ์›์ธ์„ ํ•ด๋‹น ๋„๋ฉ”์ธ๋“ค์˜ ์ž‘์—…๋“ค ๊ฐ„ ๊ณตํ†ต์  ๋ถ€์กฑ์—์„œ ์ฐพ์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Atari ๊ฒŒ์ž„๋“ค์˜ ๊ฒฝ์šฐ ์•ก์…˜ ๊ณต๊ฐ„ ํ˜•์‹ ์™ธ์—๋Š” ๊ฒŒ์ž„ ๊ทœ์น™์ด๋‚˜ ๋ชฉํ‘œ๊ฐ€ ์„œ๋กœ ํฌ๊ฒŒ ๋‹ฌ๋ผ์„œ, ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์œผ๋กœ ๊ณต์œ ํ•  ๋งŒํ•œ ๋™์—ญํ•™์ด๋‚˜ ์ „๋žต์ด ๊ฑฐ์˜ ์—†์—ˆ๋‹ค๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ์˜์—ญ์—์„œ๋Š” ์‹œ์—ฐ ๊ธฐ๋ฐ˜์˜ ์ดˆ๋ฐ˜ ์„ฑ๋Šฅ ์ด์ƒ์œผ๋กœ ํ–ฅ์ƒ๋˜๊ธฐ ์–ด๋ ค์› ๊ณ , ๊ฒฐ๊ตญ ์ถ”๊ฐ€์ ์ธ RL์ด ํฐ ์ด๋“์„ ๋ชป ๋ณธ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด์ฒ˜๋Ÿผ ํŠน์ • ๋„๋ฉ”์ธ์— ๋”ฐ๋ผ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ํšจ๊ณผ๊ฐ€ ๋“ค์‘ฅ๋‚ ์‘ฅํ•œ ํ˜„์ƒ์„ ์ธ์ •ํ•˜๋ฉด์„œ, โ€œ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ์ž‘์—… ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๊ด€๋œ ํ–ฅ์ƒ์„ ์–ป์„ ์ˆ˜ ์žˆ์„์ง€โ€๊ฐ€ ํ–ฅํ›„ ๊ณผ์ œ๋ผ๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.

  • ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ ์ง€ํ‘œ๋กœ์„œ, Newt (์‹œ์—ฐ ์‚ฌ์ „ํ•™์Šต ํฌํ•จ)๋Š” 0.44 ์  (์ •๊ทœํ™” ํ‰๊ท ) ์ •๋„์˜ ์„ฑ๋Šฅ์„ 1์–ต ์Šคํ… ํ•™์Šต ํ›„ ๋‹ฌ์„ฑํ•œ ๋ฐ˜๋ฉด, ์ฐจ์„ ์ธ FastTD3๋‚˜ PPO๋Š” ๊ทธ๋ณด๋‹ค ์ƒ๋‹นํžˆ ๋‚ฎ์€ ์ ์ˆ˜์— ๋จธ๋ฌผ๋ €์Šต๋‹ˆ๋‹ค (๊ตฌ์ฒด ์ˆ˜์น˜๋Š” ๋…ผ๋ฌธ ๋„ํ‘œ ์ฐธ์กฐ). ๋˜ํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ ๋ฉด์—์„œ๋„ Newt๋Š” ์ดˆ๊ธฐ ์ˆ˜๋ฐฑ๋งŒ ์Šคํ…๋ถ€ํ„ฐ ์œ ์˜๋ฏธํ•œ ๋ณด์ƒ์„ ์–ป๊ธฐ ์‹œ์ž‘ํ•ด ํ•™์Šตๆ›ฒ์„  ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ฐ€ํŒŒ๋ฅธ ๋ฐ˜๋ฉด, PPO ๋“ฑ์€ ํ›จ์”ฌ ๋Šฆ๊ฒŒ ์„ฑ๋Šฅ์ด ์˜ค๋ฅด๊ธฐ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์„ธ๊ณ„ ๋ชจ๋ธ+ํ”Œ๋ž˜๋‹์˜ ์ด์ ๊ณผ ์‹œ์—ฐ ํ™œ์šฉ ์ „๋žต์ด ๊ฒฐํ•ฉ๋˜์–ด ์–ป์€ ์„ฑ๊ณผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜์ž๋ฉด, โ€œ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜๋ฐฑ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•  ๋ฟ ์•„๋‹ˆ๋ผ, ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์ด ์ž…์ฆ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•œํŽธ, โ€œSingle-task ์ „์šฉ ์ „๋ฌธ๊ฐ€์™€์˜ ๋น„๊ตโ€๋„ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๊ฐ ์ž‘์—…๋งˆ๋‹ค TD-MPC2 ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ฐœ๋ณ„ ์ „๋ฌธ๊ฐ€(5๋ฐฑ๋งŒ ์Šคํ…์”ฉ ํ•™์Šต)๋ฅผ ํ›ˆ๋ จ์‹œํ‚ค๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์‹œ์—ฐ๋„ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฐœ๋ณ„ ์ •์ฑ…๋“ค์˜ ์„ฑ๋Šฅ์€ ํ•ด๋‹น ์ž‘์—…์— ๊ตญํ•œํ•ด์„œ๋Š” Newt๋ณด๋‹ค ๋†’์„ ์ˆ˜ ์žˆ์ง€๋งŒ, Newt๋Š” 200๊ฐœ ์ž‘์—…์„ ํ•˜๋‚˜๋กœ ํ•ด๊ฒฐํ•˜๋ฉด์„œ๋„ ๊ฐœ๋ณ„ ์ „๋ฌธ๊ฐ€์— ํ•„์ ํ•˜๋Š” ์ˆ˜์ค€๊นŒ์ง€ ๋„๋‹ฌํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ๋น„๋ก ํ•™์Šต ์‹œ๊ฐ„์ด๋‚˜ ๋ฐ์ดํ„ฐ ๋ฉด์—์„œ ๊ฐœ๋ณ„ ์ „๋ฌธ๊ฐ€์˜ ์ดํ•ฉ(200๊ฐœ* 5M = 10์–ต ์Šคํ…)๋ณด๋‹ค Newt๊ฐ€ ํ›จ์”ฌ ์ ์€ ์–‘์œผ๋กœ ํ•™์Šต๋˜์—ˆ๋‹ค๋Š” ์ ์„ ๊ฐ์•ˆํ•˜๋ฉด, ์ด๋Š” ์ƒ๋‹นํžˆ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ง€์‹์˜ ๊ณต์œ ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ๋Ÿ‰์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ด๊ณ ๋„ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ž˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€ ์…ˆ์ž…๋‹ˆ๋‹ค. (๋‹ค๋งŒ ๋ช‡๋ช‡ ์–ด๋ ค์šด ์ž‘์—…์—์„œ๋Š” ์•„์ง ๋‹จ์ผ ์ „๋ฌธ๊ฐ€ ์„ฑ๋Šฅ์„ ๋ชป ๋ฏธ์น˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์–ด, ํ–ฅํ›„ ๋ชจ๋ธ ์šฉ๋Ÿ‰์„ ํ‚ค์šฐ๊ฑฐ๋‚˜ ๋ฐฉ๋ฒ• ๊ฐœ์„ ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.)

2. ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํšจ๊ณผ: ํƒ์ƒ‰ ํ–ฅ์ƒ ๋ฐ ์„ฑ๋Šฅ ์ƒํ•œ์„  ์ œ๊ณ 

Newt์˜ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ์š”์†Œ์ธ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋„ ๋ฉด๋ฐ€ํžˆ ๋ถ„์„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹œ์—ฐ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ๋ฒ„์ „์˜ Newt (์ฆ‰, ์œ„ 4๊ฐ€์ง€ ์ „๋žต์„ ์ œ๊ฑฐํ•˜๊ณ  ์ฒ˜์Œ๋ถ€ํ„ฐ ์˜จ๋ผ์ธ RL๋กœ ํ•™์Šต)์™€ ์‹œ์—ฐ์„ ๋ชจ๋‘ ํ™œ์šฉํ•œ ๊ธฐ๋ณธ Newt๋ฅผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, ์‹œ์—ฐ์ด ์žˆ์„ ๋•Œ ํ•™์Šต ์ดˆ๊ธฐ ์„ฑ๋Šฅ์ด ํ›จ์”ฌ ๋†’๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ๋„ ํ–ฅ์ƒ๋˜๋Š” ๊ฒฝํ–ฅ์ด ๋šœ๋ ทํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํƒ์ƒ‰์ด ์–ด๋ ค์šด ํ™˜๊ฒฝ(์˜ˆ: sparse ๋ณด์ƒ์ด๋‚˜ ๋ณต์žกํ•œ ๋ชฉํ‘œ)์—์„œ ์‹œ์—ฐ์ด ์žˆ๋А๋ƒ ์—†๋А๋ƒ๋Š” ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๊ฐ€๋ฅผ ์ •๋„๋กœ ํฐ ์˜ํ–ฅ์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” โ€œ๋งŽ์€ ๊ฒฝ์šฐ ์‹œ์—ฐ ์ถ”๊ฐ€๊ฐ€ ํ•™์Šต์˜ ๋‚œ์ด๋„๋ฅผ ๋‚ฎ์ถฐ ์ตœ์ข… ์„ฑ๋Šฅ ์ž์ฒด๋„ ํ–ฅ์ƒ์‹œ์ผฐ๋‹คโ€๋ผ๊ณ  ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹œ์—ฐ์ด ์—†์„ ๋•Œ๋Š” ์ „ํ˜€ ์„ฑ๊ณต ๊ฒฝํ—˜์„ ๋ชป ์Œ“๋˜ ๊ณผ์ œ์—์„œ ์‹œ์—ฐ์„ ์ฃผ์ž ๋น ๋ฅด๊ฒŒ ๋ณด์ƒ์„ ์–ป๊ณ  ์ตœ์ข…์ ์œผ๋กœ ๋” ๋†’์€ ์ ์ˆ˜์— ๋„๋‹ฌํ•œ ์‚ฌ๋ก€๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค๋งŒ, ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ๋ชจ๋“  ์ž‘์—…์—์„œ ์‹œ์—ฐ์ด ์ ˆ๋Œ€์ ์œผ๋กœ ํ•„์š”ํ•œ ๊ฒƒ์€ ์•„๋‹ˆ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋น„๊ต์  ์‰ฌ์šด ํƒ์ƒ‰ ํ™˜๊ฒฝ์—์„œ๋Š” ์‹œ์—ฐ ์œ ๋ฌด์— ๋”ฐ๋ฅธ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š์•˜๊ณ , Dense ๋ณด์ƒ์ด ์ถฉ๋ถ„ํžˆ ์ฃผ์–ด์ง€๋Š” ๊ฒฝ์šฐ RL ์ž์ฒด๋กœ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ „์ฒด์ ์ธ ๊ฒฝํ–ฅ์€ ์‹œ์—ฐ์ด ์žˆ์„ ๋•Œ ์ˆ˜๋ ด ์„ฑ๋Šฅ์˜ ์ผ๊ด€์„ฑ์ด ๋†’์•„์ง€๊ณ , ํŠนํžˆ ์ดˆ๋ฐ˜ ํ•™์Šต์ด ์•ˆ์ •์ ์ด์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‹œ์—ฐ ์ „๋žต์„ ๋ชจ๋‘ ์ ์šฉํ•œ ๊ฒƒ์ด ๊ฐ€์žฅ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ณ์•˜๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. Ablation ์—ฐ๊ตฌ์—์„œ ์‹œ์—ฐ ํ™œ์šฉ ๊ธฐ๋ฒ• ํ•˜๋‚˜์”ฉ ์ œ๊ฑฐ ์‹คํ—˜์„ ํ•ด๋ณธ ๊ฒฐ๊ณผ, โ€œ์‹œ์—ฐ ์„ ํ–‰ํ•™์Šตโ€, โ€œ์‹œ์—ฐ ๊ณผํ‘œ์ง‘โ€, โ€œBC ์ •๊ทœํ™”โ€ ๊ฐ๊ฐ ๋‹จ๋…์œผ๋กœ๋„ ์–ด๋А ์ •๋„ ์ด๋“์„ ์ฃผ์—ˆ์œผ๋‚˜, ์„ธ ๊ฐ€์ง€๋ฅผ ๋ชจ๋‘ ๋ณ‘ํ–‰ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ๋†’์•˜๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์š”์ปจ๋Œ€, ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ RL์—์„œ ํƒ์ƒ‰์˜ ๋‚œ์ด๋„๋ฅผ ์™„ํ™”ํ•˜๊ณ  ํ•™์Šต ์†๋„์™€ ์„ฑ๋Šฅ ์ƒํ•œ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ์—ด์‡ ๋กœ ์ž‘์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ๋‹ค๋ฅธ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์„ค์ •์—์„œ๋„ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์™€ ์˜จ๋ผ์ธ RL์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ์ด ์œ ๋งํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. (๋‹ค๋งŒ ๋„ˆ๋ฌด ์‹œ์—ฐ์— ์˜์กดํ•˜๋ฉด ์ •์ฑ…์ด ์‹œ์—ฐ์— ๊ณผ์ ํ•ฉํ•ด ์ƒˆ๋กœ์šด ๋ฐฉ์‹์˜ ํƒ์ƒ‰์„ ๋ชปํ•  ์œ„ํ—˜๋„ ์žˆ์œผ๋ฏ€๋กœ, Newt์ฒ˜๋Ÿผ ์ ์ ˆํžˆ RL๊ณผ ๋ณ‘ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.)

3. ์–ธ์–ด ์กฐ๊ฑด์˜ ํšจ๊ณผ: ์ž‘์—… ๊ตฌ๋ถ„๊ณผ ์ผ๋ฐ˜ํ™”

Newt์˜ ๋˜ ๋‹ค๋ฅธ ํŠน์ง•์€ ๋ชจ๋“  ์ž‘์—…์„ ์ž์—ฐ์–ด๋กœ ์‹๋ณ„ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์–ธ์–ด ์ž…๋ ฅ์ด ์‹ค์ œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•˜๋Š”์ง€ ๊ถ๊ธˆํ•ด์ง‘๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•ด ์ €์ž๋“ค์€ ์–ธ์–ด ์ง€์‹œ๋ฌธ์„ ๋บ€ ๋ชจ๋ธ(๋Œ€์‹  Task ID ๊ฐ™์€ ๊ฒƒ์œผ๋กœ ์ž‘์—… ๊ตฌ๋ถ„)๊ณผ ์–ธ์–ด๋ฅผ ๋„ฃ์€ ๊ธฐ๋ณธ ๋ชจ๋ธ์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์–ธ์–ด๋ฅผ ํ™œ์šฉํ–ˆ์„ ๋•Œ ํ‰๊ท  ์„ฑ๋Šฅ์ด 0.371 โ†’ 0.438๋กœ ๋šœ๋ ทํ•˜๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ๋ณด๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์•ฝ 18%๊ฐ€๋Ÿ‰์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด๋ฏ€๋กœ ๋งค์šฐ ์˜๋ฏธ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ทธ ํ–ฅ์ƒ ํญ์ด ํฐ ๊ณณ์€ ๊ด€์ธก๋งŒ์œผ๋กœ๋Š” ์–ด๋–ค ์ž‘์—…์ธ์ง€ ์•Œ๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด RoboDesk์˜ ์—ฌ๋Ÿฌ ๊ณผ์ œ๋“ค์€ ์ดˆ๊ธฐ ์ƒํƒœ ๊ด€์ธก์ด ๊ฑฐ์˜ ๋™์ผํ•˜๊ฒŒ ์ƒ๊ฒผ๊ณ  ๋ชฉํ‘œ ๋ฌผ์ฒด๋งŒ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ์–ธ์–ด ์ง€์‹œ(โ€œํŒŒ๋ž€ ๊ณต ๋ฐ€๊ธฐโ€, โ€œ์ดˆ๋ก ๊ณต ์ง‘๊ธฐโ€ ๋“ฑ)๊ฐ€ ์—†๋‹ค๋ฉด ํ•˜๋‚˜์˜ ์ •์ฑ…์ด ์–ด๋–ค ์ž‘์—…์„ ํ•ด์•ผ ํ•˜๋Š”์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ RoboDesk ๋„๋ฉ”์ธ์—์„œ ์–ธ์–ด ์กฐ๊ฑด์„ ๋„ฃ์ž ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ƒ์Šนํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ DMControl ๋“ฑ ์ž‘์—… ์ด๋ฆ„๋งŒ ๋‹ค๋ฅด๊ณ  ๊ด€์ธก ์ž์ฒด๊ฐ€ ๋‹ฌ๋ผ ๊ตฌ๋ณ„์ด ์‰ฌ์šด ๊ฒฝ์šฐ์—๋Š” ์–ธ์–ด ์œ ๋ฌด์˜ ์ฐจ์ด๊ฐ€ ์ž‘์•˜์ง€๋งŒ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋น„์Šทํ•œ ์ˆ˜์ค€์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋” ํฅ๋ฏธ๋กœ์šด ์ ์€, ์–ธ์–ด ์ง€์‹œ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™”์— ๋„์›€์„ ์ค€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋‹จ์ˆœํžˆ ์ž‘์—… ID(one-hot)๋กœ ๊ตฌ๋ถ„ํ•˜๋„๋ก ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค๋ฉด, ํ›ˆ๋ จ ์‹œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์ž‘์—…์—๋Š” ID๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์—†์–ด ๋Œ€์ฒ˜๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์–ธ์–ด๋Š” ์–ดํœ˜๋ฅผ ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ์„ค๋ช…์„ ๋ฐ”๊พธ๋Š” ๋ฐฉ์‹์œผ๋กœ ์‹ ๊ทœ ์ž‘์—…์„ ๊ธฐ์ˆ ํ•  ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” โ€œ์–ธ์–ด ์กฐ๊ฑด์„ ์‚ฌ์šฉํ•œ ์—์ด์ „ํŠธ๋Š” ํ›ˆ๋ จ ์ž‘์—…์—์„œ๋Š” Task ID ์‚ฌ์šฉ ์„ฑ๋Šฅ์— ํ•„์ ํ•˜๋ฉด์„œ๋„, ๋ฏธ์ง€์˜ ์ž‘์—…์—๋Š” ์–ธ์–ด๋กœ generalizeํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•œ๋‹คโ€๊ณ  ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์–ธ์–ด ์ž์ฒด๊ฐ€ ์ž‘์—… ํ‘œํ˜„์˜ ๊ณตํ†ต '๋ฒกํ„ฐ ๊ณต๊ฐ„'์„ ํ˜•์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ž ์žฌ์ ์œผ๋กœ ํ›ˆ๋ จ์— ์—†๋˜ ๋ชฉํ‘œ๋„ ์œ ์‚ฌํ•œ ์–ธ์–ด์  ๊ฐœ๋…์œผ๋กœ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋‹ค๋ฉด ์ •์ฑ…์ด ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์–ธ์–ด ์ผ๋ฐ˜ํ™”์—๋Š” ์•„์ง ์–ด๋ ค์›€๋„ ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ถ€๋ก์˜ ์ถ”๊ฐ€ ์‹คํ—˜์„ ๋ณด๋ฉด, ํ›ˆ๋ จ ๋•Œ ๋ณธ ์  ์—†๋Š” ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋‹จ์–ด๋กœ ์ง€์‹œ๋ฌธ์ด ์ฃผ์–ด์ง€๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œPush the cubeโ€ (cube๋ผ๋Š” ๋‹จ์–ด๋Š” ๋ดค์Œ)์ด๋ผ๋Š” ์ง€์‹œ์™€ โ€œPush the <๋ชจ๋ฅด๋Š” ๋‹จ์–ด>โ€๋ผ๋Š” ์ง€์‹œ๋ฅผ ๋น„๊ตํ•ด ์ƒˆ๋กœ์šด ์กฐ์ž‘ ์ž‘์—…์„ ์‹œํ‚ค๋ฉด ์„ฑ๊ณต๋ฅ ์— ํฐ ์ฐจ์ด๊ฐ€ ๋‚ฌ์Šต๋‹ˆ๋‹ค. ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ์ž˜ ๋ชจ๋ฅด๋Š” ๋Œ€์ƒ์„ ์–ธ์–ด๋กœ ์ง€์‹œํ•˜๋ฉด ์ „ํ˜€ ์ˆ˜ํ–‰์„ ๋ชปํ•˜์ง€๋งŒ, ๊ทธ ๋Œ€์ƒ์ด ํ›ˆ๋ จ ์ค‘์— ํ”ํžˆ ์–ธ๊ธ‰๋œ โ€œcubeโ€๋ผ๊ณ  (์„ค๋ น ์‹ค์ œ๋ก  ํ๋ธŒ๊ฐ€ ์•„๋‹Œ๋ฐ) ๊ฑฐ์ง“๋งํ•˜๋ฉด ์„ฑ๊ณต๋ฅ ์ด ๋†’์•„์ง€๋Š” ์‚ฌ๋ก€๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ Newt์˜ ์–ธ์–ด ์ดํ•ด/์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์™„๋ฒฝํ•˜์ง€๋Š” ์•Š๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๊ณต์ •ํ•œ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ „์ด ์‹คํ—˜์—์„œ๋Š” ์ผ๋ถ€๋Ÿฌ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋‚ฏ์„ (unseen) ์ง€์‹œ๋ฌธ์„ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ํ˜„์ƒ์€ ํ–ฅํ›„ ์–ธ์–ด ๋ชจ๋ธ๊ณผ์˜ ๊ฒฐํ•ฉ์ด๋‚˜ ์–ธ์–ด ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ ํ•™์Šต ๋“ฑ์„ ํ†ตํ•ด ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, ์–ธ์–ด ์กฐ๊ฑด ์ž…๋ ฅ์€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์ •์ฑ… ํ•™์Šต์— ์žˆ์–ด ๋ถ„๋ช…ํ•œ ์ด์ ์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ž‘์—…๋“ค์„ ์ž์—ฐ์–ด๋กœ ๊ตฌ๋ถ„ ์ง€์Œ์œผ๋กœ์จ ์ •ํ™•ํ•œ ์‹๋ณ„๊ณผ ๋งฅ๋ฝ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋†’์˜€๊ณ , โ€œ๋ณด์ง€ ๋ชปํ•œ ์ž‘์—…๋„ ์–ธ์–ด๋กœ ์„ค๋ช…ํ•ด ์ฃผ๋ฉด ํ•ด๋‚ผ ๊ฐ€๋Šฅ์„ฑโ€์„ ์—ด์–ด์ค€ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์—๊ฒŒ ์–ธ์–ด๋กœ ๋ช…๋ น์„ ๋‚ด๋ฆฌ๋Š” ์ƒ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ƒ๊ฐํ•˜๋ฉด ๋งค์šฐ ์ค‘์š”ํ•œ ํŠน์„ฑ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4. ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ์ „์ด ํ•™์Šต: ํŒŒ์ธํŠœ๋‹์„ ํ†ตํ•œ ์ ์‘

Newt ์—์ด์ „ํŠธ๊ฐ€ ๋ณด์—ฌ์ค€ ์ธ์ƒ์ ์ธ ๋Šฅ๋ ฅ ์ค‘ ํ•˜๋‚˜๋Š” ํ›ˆ๋ จ์— ํฌํ•จ๋˜์ง€ ์•Š์•˜๋˜ ์ƒˆ๋กœ์šด ์ž‘์—…์—๋„ ์‹ ์†ํ•˜๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ MMBench 200๊ฐœ ์ค‘ 20๊ฐœ์˜ ๊ณผ์ œ๋ฅผ ๋ณ„๋„๋กœ ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ ์œ ์ง€ํ•ด ๋ชจ๋ธ ํ›ˆ๋ จ์—๋Š” ํฌํ•จํ•˜์ง€ ์•Š๊ณ , ํ•™์Šต ์™„๋ฃŒ๋œ Newt๋ฅผ ์ด ์ƒˆ๋กœ์šด 20๊ฐœ ์ž‘์—…์— ํŒŒ์ธํŠœ๋‹ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ์ถ”๊ฐ€๋กœ ์ œ๊ณตํ•˜์ง€ ์•Š๊ณ , ์ˆœ์ „ํžˆ ์˜จ๋ผ์ธ RL๋กœ๋งŒ ์ ์‘์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ์‚ฌ์ „ํ•™์Šต๋œ Newt๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ฝค ๋†’์€ ์„ฑ๋Šฅ์œผ๋กœ ์‹œ์ž‘ํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ „ํ˜€ ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์ž‘์—…๋“ค์— ๋Œ€ํ•ด ์ œ๋กœ์ƒท(ํŒŒ์ธํŠœ๋‹ ์ „)์œผ๋กœ๋„ ํ‰๊ท  0.192์˜ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ฌด์ž‘์œ„ ์ •์ฑ… ์ˆ˜์ค€(์•ฝ 0.01)๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๊ณผ์ œ๋„ ์•ฝ๊ฐ„์€ ์ˆ˜ํ–‰ํ•  ์ค„ ์•„๋Š” ์ผ๋ฐ˜๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์—ˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ํŒŒ์ธํŠœ๋‹์„ ์ง„ํ–‰ํ•˜์ž, ๋ถˆ๊ณผ 10๋งŒ ์Šคํ…(๊ฐ ์ž‘์—…๋‹น 5์ฒœ ์Šคํ… ์ˆ˜์ค€)๋งŒ์— ํ‰๊ท  0.868์˜ ๋†’์€ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ™์€ budget์œผ๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ๊ฒฝ์šฐ(0.480)๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ์‚ฌ์ „ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ๊ฒฝํ—˜์ด ์ „ํ˜€ ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ์˜ ๋น ๋ฅธ ์ ์‘์— ํฐ ๋„์›€์ด ๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ „์ด ํ•™์Šต ์‹คํ—˜์€ Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…๋“ค์˜ ๊ณตํ†ต ๊ตฌ์กฐ๋ฅผ ์–ด๋А ์ •๋„ ํŒŒ์•…ํ•˜๊ณ  ์žˆ์–ด, ์ƒˆ๋กœ์šด ์ž‘์—…์—์„œ๋„ ์‹œ์ž‘์ ์„ ๋Œ์–ด์˜ฌ๋ ค ์ค€๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์ƒˆ๋กœ์šด ์ž‘์—…์ด ๊ธฐ์กด ์ž‘์—…๊ณผ ๋™์—ญํ•™์ด ๋น„์Šทํ•˜์ง€๋งŒ ๋ชฉํ‘œ๋งŒ ์‚ด์ง ๋‹ค๋ฅธ ๊ฒฝ์šฐ, Newt๋Š” ์ด๋ฏธ ์œ ์‚ฌํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ๋ชจ๋ธ๋กœ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ธˆ๋ฐฉ ์ตœ์  ์ •์ฑ…์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์™„์ „ํžˆ ๋ณ„๊ฐœ์˜ ๋ถ„์•ผ ์ž‘์—…์ผ์ง€๋ผ๋„, ์ ์–ด๋„ ํƒ์ƒ‰ ์ดˆ๊ธฐ ๋ฌด์ž‘์œ„๋ณด๋‹ค๋Š” ๋‚˜์€ ๋™์ž‘์„ ์‹œ๋„ํ•จ์œผ๋กœ์จ ํ•™์Šต์ด ๊ฐ€์†ํ™”๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋ฏธ๋ž˜์˜ ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์ •์ฑ…์ด ์ˆ˜์‹ญ, ์ˆ˜๋ฐฑ๋งŒ ๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ ๊ฒฝํ—˜์„ ํ†ตํ•ด, ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ๊ณผ์ œ์—๋„ ๋ช‡ ๋ฒˆ ์‹œ๋„๋งŒ์— ์ ์‘ํ•˜๋Š” ๋น„์ „์„ ๊ทธ๋ ค๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Newt ์ž์ฒด๋Š” ์•„์ง 0.19 โ†’ 0.86๋กœ ์˜ฌ๋ผ๊ฐ€๋Š”๋ฐ 10๋งŒ ์Šคํ…์ด ํ•„์š”ํ–ˆ์ง€๋งŒ, ์ €์ž๋“ค์€ โ€œํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ๋งŽ์•„์ง€๋ฉด ์ „์ด ์„ฑ๋Šฅ์€ ๋”์šฑ ํ–ฅ์ƒ๋  ๊ฒƒโ€์ด๋ผ๊ณ  ์ „๋งํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL์„ ํ†ตํ•œ ์ง€์†์  ํ•™์Šต์ด few-shot ํ•™์Šต์ด๋‚˜ meta-RL๊ณผ ๋งฅ๋ฝ์„ ๊ฐ™์ด ํ•จ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ํ•œ ๋ฒˆ ํ•™์Šตํ•œ ์›”๋“œ ๋ชจ๋ธ์„ ์žฌ์‚ฌ*ํ•˜๋Š” ์ „๋žต์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5. ์˜คํ”ˆ-๋ฃจํ”„ (Open-Loop) ์ œ์–ด ๋Šฅ๋ ฅ: ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์ดํ•ด๋ ฅ ํ‰๊ฐ€

๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์˜ ํฅ๋ฏธ๋กœ์šด ์šฉ๋„ ์ค‘ ํ•˜๋‚˜๋Š” ํ™˜๊ฒฝ์˜ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋„ ๊ณ„ํš๋œ ํ–‰๋™์„ ์‹คํ–‰ํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์˜ ๋™์—ญํ•™์„ ์ž˜ ํ•™์Šตํ–ˆ๋‹ค๋ฉด, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์—†์ด ๋‚ด๋ถ€ ๋ชจ๋ธ๋กœ๋งŒ ์—ฌ๋Ÿฌ ์Šคํ…์„ ์ƒ์ƒํ•˜๋ฉฐ ํ–‰๋™์„ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์‹œํ—˜ํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ ์˜คํ”ˆ-๋ฃจํ”„ ์‹คํ–‰ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, 8๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋Œ€ํ‘œ ์ž‘์—…์„ ์„ ์ •ํ•˜๊ณ , Newt์˜ ํ”Œ๋ž˜๋‹ ๋ชจ๋“ˆ๋กœ 48 ์Šคํ…์— ์ด๋ฅด๋Š” ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ํ•œ ๋ฒˆ์— ๊ณ„์‚ฐํ•œ ํ›„, ๊ทธ ํ–‰๋™๋“ค์„ ์‹ค์ œ ํ™˜๊ฒฝ์— ํ•œ๊บผ๋ฒˆ์— ์‹คํ–‰ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด ๋™์•ˆ ์ค‘๊ฐ„์— ์žฌ๊ณ„ํš์ด๋‚˜ ๊ด€์ธก ํ”ผ๋“œ๋ฐฑ ๋ฐ˜์˜์€ ์ผ์ ˆ ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ˆœ์ „ํžˆ ์ดˆ๊ธฐ ์ƒํƒœ์™€ ๋ชฉํ‘œ์— ๊ธฐ๋ฐ˜ํ•œ 48์—ฐํƒ€ ํ–‰๋™ ๊ณ„ํš๋งŒ์œผ๋กœ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. (์ฐธ๊ณ ๋กœ Newt์˜ ํ‰์†Œ ํ•™์Šต ์‹œ ํ”Œ๋ž˜๋‹ ํ™€๋ผ์ด์ฆŒ์€ 3 ์Šคํ…์ด์—ˆ๋Š”๋ฐ, ๊ทธ 16๋ฐฐ์— ํ•ด๋‹นํ•˜๋Š” ๊ธธ์ด๊นŒ์ง€ ํ•œ๊บผ๋ฒˆ์— ๊ณ„ํšํ•ด ๋ณธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.)

๊ฒฐ๊ณผ๋Š” ์ƒ๋‹นํžˆ ๊ณ ๋ฌด์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์˜คํ”ˆ-๋ฃจํ”„๋กœ ์‹คํ–‰ํ•œ ๊ฒฝ์šฐ์—๋„, ํ™˜๊ฒฝ์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋งค ์Šคํ… ๋ฐ›์œผ๋ฉฐ ๋งค๋ฒˆ ๊ณ„ํšํ•œ ๊ฒฝ์šฐ(ํด๋กœ์ฆˆ๋“œ-๋ฃจํ”„)์™€ ๊ฑฐ์˜ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰, Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด 10~50 ์Šคํ… ํ›„์˜ ์ƒํƒœ ๋ณ€ํ™”๊นŒ์ง€๋„ ๋น„๊ต์  ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ๊ทธ ๊ธฐ๋ฐ˜ ์œ„์—์„œ ์„ธ์šด ๊ณ„ํš์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ์„ฑ๊ณต์ ์œผ๋กœ ๋™์ž‘ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” Newt์˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ์ž˜ ๋‚ด์žฌํ™”ํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ Walker Walk (๋ณดํ–‰) ์ž‘์—…์—์„œ 48 ์Šคํ… ๋™์•ˆ ๊ณ„์† ์•ž์œผ๋กœ ๊ฑธ์–ด๊ฐ€์•ผ ํ•˜๋Š”๋ฐ, ์˜คํ”ˆ-๋ฃจํ”„๋กœ๋„ ํฐ ๋ฌธ์ œ ์—†์ด ์ง„ํ–‰๋˜์—ˆ๊ณ , LunarLander ์ด๋ฅ™ ์ž‘์—…์—์„œ๋„ ๋ฐœ์‚ฌ๋ถ€ํ„ฐ ์ƒ์Šน๊นŒ์ง€ ๋น„๊ต์  ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ๋„ํ‘œ Figure 10์—๋Š” ๊ฐ ์ž‘์—…์—์„œ t=0,16,32,48 ์Šคํ…์งธ ์žฅ๋ฉด์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์˜คํ”ˆ-๋ฃจํ”„ ๊ณ„ํš์˜ ํ–‰๋™๋“ค์ด ๊ฝค ์˜๋ฏธ์žˆ๊ฒŒ ์ดํ–‰๋˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์‹คํŒจํ•˜๋Š” ๊ฒฝ์šฐ๋„ ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ Walker Walk ์ž‘์—…์—์„œ ์‹œ๊ฐ„์ด ์ง€๋‚ ์ˆ˜๋ก ๋กœ๋ด‡์ด ์กฐ๊ธˆ์”ฉ ํ•œ์ชฝ์œผ๋กœ ๊ธฐ์šธ์–ด ์ฃผํ–‰ ๋ฐฉํ–ฅ์ด ๋น—๋‚˜๊ฐ€๋Š” ๋“œ๋ฆฌํ”„ํŠธ ํ˜„์ƒ์ด ๋ˆ„์ ๋˜์—ˆ๊ณ , LunarLander Takeoff ์ž‘์—…์—์„œ๋Š” ๋ชฉํ‘œ ๊ณ ๋„์— ๋„๋‹ฌํ•œ ํ›„์—๋„ ๊ฐ์† ์ œ์–ด๋ฅผ ๋ชปํ•ด ๋ชฉํ‘œ์ ์„ ๋„˜์–ด์ณ ์˜ฌ๋ผ๊ฐ€๋ฒ„๋ฆฌ๋Š” ์ผ์ด ์ƒ๊ฒผ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Assault (Atari ์ŠˆํŒ… ๊ฒŒ์ž„) ์ž‘์—…์˜ ๊ฒฝ์šฐ ๊ฒŒ์ž„ ์† ๋“ฑ์žฅํ•˜๋Š” ์ ๋“ค์˜ ํ™•๋ฅ ์  ์ถœํ˜„ ๋“ฑ์„ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋ฏธ๋ฆฌ ์•Œ ์ˆ˜ ์—†์–ด, ์ด์•Œ์ด ๋น—๋‚˜๊ฐ€๋Š” ๋“ฑ ํ•œ๊ณ„๊ฐ€ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์‹คํŒจ ๋ชจ๋“œ๋“ค์€ ๋Œ€๋ถ€๋ถ„ ์˜ˆ์ธก ๋ˆ„์  ์˜ค์ฐจ๋‚˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋ชจ์‚ฌํ•˜์ง€ ๋ชปํ•œ ๋น„๊ฒฐ์ •์  ์š”์†Œ ๋•Œ๋ฌธ์œผ๋กœ ๋ถ„์„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ•œ ๋ฒˆ๋„ ์˜คํ”ˆ-๋ฃจํ”„ ์—ฐ์Šต์„ ํ•ด๋ณธ ์  ์—†๋Š” Newt๊ฐ€ ์ด ์ •๋„ ์žฅ๊ธฐ๊ฐ„ ๊ณ„ํš์„ ์„ฑ๊ณต์ ์œผ๋กœ ์‹คํ–‰ํ•ด๋‚ธ ๊ฒƒ์€ ๊ฝค ๋†€๋ผ์šด ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์„ธ๊ณ„ ๋ชจ๋ธ์ด ๋‹จ์ˆœํ•œ ํŒจํ„ด ์•”๊ธฐ๊ฐ€ ์•„๋‹ˆ๋ผ ๋™์—ญํ•™์˜ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ–ˆ์Œ์„ ๋’ท๋ฐ›์นจํ•˜๋ฉฐ, ํ–ฅํ›„ ๊ณ„ํš ํ™€๋ผ์ด์ฆŒ์„ ๋Š˜๋ ค ๋” ๋ณต์žกํ•œ ์ž‘์—…๋„ ํ•œ ๋ฒˆ์— ํ•ด๋‚ด๋Š” ๋“ฑ์˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์— ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, Newt์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ์ •์ฑ… ํ•™์Šต ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ: ๋‹จ์ผ ์—์ด์ „ํŠธ๊ฐ€ 200๊ฐœ ์—ฐ์† ์ œ์–ด ๊ณผ์ œ๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•˜์—ฌ ๊ฐ•๋ ฅํ•œ ์ข…ํ•ฉ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ.
  • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์ง€์‹ ๊ณต์œ : ์„ธ๊ณ„ ๋ชจ๋ธ ๋ฐ ์‹œ์—ฐ ํ™œ์šฉ ๋•๋ถ„์— ๋™์ผ ๋ฐ์ดํ„ฐ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ด๊ณ , ํŠนํžˆ ์œ ์‚ฌ ๊ณผ์ œ ๊ฐ„ ์ง€์‹์„ ๊ณต์œ ํ•˜์—ฌ ์ผ๋ถ€ ์˜์—ญ์—์„œ ํƒ์›”ํ•œ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•จ.
  • ์‹œ์—ฐ์˜ ์ค‘์š”์„ฑ: ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ํƒ์ƒ‰์„ ๋„์™€ ํ•™์Šต ์•ˆ์ •ํ™” ๋ฐ ์ตœ์ข… ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•์„ ๋ณ‘ํ–‰ํ•  ๋•Œ ์ตœ๋Œ€ ํšจ๊ณผ๋ฅผ ๋ƒ„.
  • ์–ธ์–ด์˜ ์—ญํ• : ์ž์—ฐ์–ด ์กฐ๊ฑด์€ ์ž‘์—… ๊ตฌ๋ถ„๊ณผ ๋งฅ๋ฝ ์ดํ•ด๋ฅผ ๋„์™€ ์„ฑ๋Šฅ์„ ๋†’์˜€๊ณ , ๋ฏธํ•™์Šต ์ž‘์—…์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•จ.
  • ์ „์ด ํ•™์Šต ๋Šฅ๋ ฅ: ์‚ฌ์ „ ํ•™์Šต๋œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ชจ๋ธ์€ few-shot ์˜จ๋ผ์ธ ํ•™์Šต๋งŒ์œผ๋กœ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋น ๋ฅด๊ฒŒ ์ ์‘, ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ฐฐ์šฐ๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ์œ ๋ฆฌํ•จ.
  • ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ์ •ํ™•์„ฑ: ํ•™์Šต๋œ ์„ธ๊ณ„ ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ์Šคํ…์„ ๋‚ด๋‹ค๋ณผ ์ˆ˜ ์žˆ์„ ๋งŒํผ ์ •ํ™•ํ•˜์—ฌ, ์˜คํ”ˆ-๋ฃจํ”„ ๊ณ„ํš ์‹คํ–‰์‹œ์—๋„ ๊ฑฐ์˜ ์ •์ƒ์ ์œผ๋กœ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ์Œ.

์ด๋Ÿฌํ•œ ๊ด€์ฐฐ์„ ํ†ตํ•ด ์ €์ž๋“ค์€ ํ˜„์žฌ Newt์˜ ํ•œ๊ณ„์™€ ๊ฐœ์„ ์ ๋„ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ผ๋ถ€ ๋„๋ฉ”์ธ์—์„œ ์‹œ์—ฐ ๋ฐ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ์˜ ์ด๋“์ด ๋ฏธ๋ฏธํ–ˆ๋˜ ์ (Atari ๋“ฑ)์„ ๋“ค๋ฉฐ, โ€œ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ๋ชจ๋“  ์ž‘์—…์— ์ผ๊ด€๋˜๊ฒŒ ํ˜œํƒ์„ ์ค„ ๋ฐฉ๋ฒ•์„ ์ฐพ์„์ง€โ€๊ฐ€ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค๊ณ  ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Newt์˜ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋น„๊ต์  ๋‹จ์ˆœํ•œ MLP ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ, ์•ž์œผ๋กœ Transformer์™€ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜๋ฉด ๋” ํ–ฅ์ƒ๋  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ ์ ˆ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ํฌํ•จํ•ด, ๋ณธ ์—ฐ๊ตฌ๊ฐ€ ๊ฐ–๋Š” ์˜์˜์™€ ํ–ฅํ›„ ๋กœ๋ณดํ‹ฑ์Šค/๋ชจ๋ธ๊ธฐ๋ฐ˜ RL ๋ถ„์•ผ์— ์ฃผ๋Š” ์‹œ์‚ฌ์ ์„ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

โ€œLearning Massively Multitask World Models for Continuous Controlโ€ ๋…ผ๋ฌธ์€ ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์˜ ์Šค์ผ€์ผ์„ ์ „๋ก€ ์—†์ด ํ™•์žฅํ•˜์—ฌ, ํ•˜๋‚˜์˜ ์—์ด์ „ํŠธ๊ฐ€ ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘ ๊ณผ์ œ๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ•œ ์˜๋ฏธ์žˆ๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ์œ„ํ•ด ๋ฐฉ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ(MMBench)์™€ ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ(Newt)๋ฅผ ์ œ์‹œํ•˜๊ณ , ์ฒด๊ณ„์ ์ธ ์‹คํ—˜์„ ํ†ตํ•ด ๊ทธ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ํƒ์ƒ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์˜จ๋ผ์ธ RL์€ ์ถฉ๋ถ„ํ•œ ๊ตฌ์กฐ์™€ ๋ฐ์ดํ„ฐ๋กœ ๋’ท๋ฐ›์นจ๋  ๊ฒฝ์šฐ ์ˆ˜๋ฐฑ ๊ฐ€์ง€ ์—ฐ์† ์ œ์–ด ์ž‘์—…๋„ ๊ฐ๋‹น ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์„ธ๊ณ„ ๋ชจ๋ธ์˜ ํ™œ์šฉ์ด ํŠนํžˆ ๊ฐ•๋ ฅํ•œ ํž˜์„ ๋ฐœํœ˜ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL๊ณผ ๋กœ๋ณดํ‹ฑ์Šค ํ•™์Šต ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:

  • โ€œFoundation Modelโ€ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ RL ๋„์ž…: ์–ธ์–ด/๋น„์ „ ๋ถ„์•ผ์—์„œ ๊ฒ€์ฆ๋œ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต + ๊ฒฝ๋Ÿ‰ ๋ฏธ์„ธ์กฐ์ • ์ „๋žต์ด ๋กœ๋ด‡ ์ œ์–ด์—๋„ ํ†ตํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. Newt๋Š” ๊ฑฐ๋Œ€ํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ์›”๋“œ ๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šตํ•œ ํ›„ ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ–ˆ๊ณ , ์ด๋Š” ๋กœ๋ด‡ ์ œ์–ด์—์„œ๋„ ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์„ ์–‘๋ฆฝ์‹œํ‚ค๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ž„์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์‹ค์ œ ๋กœ๋ด‡ ์ œ์–ด์—์„œ๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜/๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋กœ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ๊ธธ๋Ÿฌ๋‚ธ ํ›„, ์†Œ๋Ÿ‰์˜ ์‹ค์ œ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ์ ์‘์‹œํ‚ค๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ™œ์„ฑํ™”๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

  • ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ํ™•์žฅ์„ฑ: ์ €์ž๋“ค์€ ์‹คํ—˜์„ ํ†ตํ•ด ๋ชจ๋ธ/๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋ฉด ์ž‘์—… ์ˆ˜ ์ฆ๊ฐ€์— ๋งž์ถฐ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์—์„œ ๋ชจ๋ธ ์šฉ๋Ÿ‰๊ณผ ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ์กด์žฌํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ๋” ๋งŽ์€ ์ž‘์—…์„ ํ•™์Šตํ•˜๋ ค๋ฉด ๋ณด๋‹ค ํฐ ๋ชจ๋ธ๊ณผ ๋” ๋งŽ์€ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ, ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์ง€์นจ์„ ์ค๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ โ€œ์ฃผ์–ด์ง„ ์ž‘์—… ์ˆ˜์— ๋Œ€ํ•ด ํ•™์Šต์ด ์•ˆ์ •์ ์œผ๋กœ ์ด๋ค„์ง€๊ธฐ ์œ„ํ•œ ์ ์ ˆํ•œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ์–‘์˜ ์กฐํ•ฉโ€์ด ์žˆ์„ ๊ฒƒ์ด๋ฉฐ, ์ด๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์ฐฐ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ์ž๋“ค์ด 10๊ฐœ, 200๊ฐœ, ๋‚˜์•„๊ฐ€ 1000๊ฐœ ์ž‘์—…์— ๋„์ „ํ•  ๋•Œ ์‹œ์Šคํ…œ ์„ค๊ณ„ ๊ธฐ์ค€์„ ์ œ์‹œํ•ด์ค๋‹ˆ๋‹ค.

  • ๊ตฌ์กฐ์  ๊ฐœ์„  ์—ฌ์ง€: Newt๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ„๋‹จํ•œ MLP ๊ธฐ๋ฐ˜ ์„ธ๊ณ„ ๋ชจ๋ธ์ธ๋ฐ, ๋…ผ๋ฌธ์—์„œ๋Š” โ€œTransformer ๋“ฑ ์ตœ์‹  ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜๋ฉด ๋” ๋‚˜์€ ํ‘œํ˜„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•  ๊ฒƒโ€์ด๋ผ๊ณ  ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์ด๋‚˜ ์‹œ๊ณ„์—ด ์˜ˆ์ธก์—์„œ Transformer๊ฐ€ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋‚ด๋“ฏ, ์‹œ๊ณต๊ฐ„์ ์œผ๋กœ ๊ธด ์˜์กด์„ฑ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ Transformer๊ฐ€ ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์ด ๊ฐ•ํ™”๋œ ์„ธ๊ณ„ ๋ชจ๋ธ์ด๋‚˜ ๊ต์ฐจ๋ชจ๋‹ฌ(attention) ๊ตฌ์กฐ๋ฅผ ์ ์šฉํ•ด Newt๋ฅผ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ฉ”๋ชจ๋ฆฌ๋‚˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•ด ์ž‘์—… ๊ฐ„ ์ง€์‹์„ ๋” ์ž˜ ์กฐ์งํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ๋„่€ƒํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ง€์†์  ํ•™์Šต๊ณผ ์ ์‘: Newt์˜ ์ „์ด ํ•™์Šต ๊ฒฐ๊ณผ๋Š”, ํ•œ ์—์ด์ „ํŠธ๋ฅผ ํ›ˆ๋ จํ•ด๋‘๋ฉด ๋‚˜์ค‘์— ์ƒˆ ๊ณผ์ œ์— ๋น ๋ฅด๊ฒŒ ์ ์‘์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋“ˆ์‹ ํ•™์Šต์ด๋‚˜ life-long learning์˜ ๊ด€์ ์—์„œ ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” Newt ๊ฐ™์€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ชจ๋ธ์„ ๊ธฐ์ดˆ ์ •์ฑ…์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ, ์ƒˆ๋กœ์šด ๋กœ๋ด‡์—๊ฒŒ ๋ช‡ ๋ฒˆ์˜ ์ƒํ˜ธ์ž‘์šฉ๋งŒ์œผ๋กœ ๊ธฐ์ˆ ์„ ์ „์ˆ˜ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ „๊ฐœ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ๊ณตํ•™์—์„œ๋„ ํ•˜๋‚˜์˜ ์‚ฌ์ „ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ๊ฐ ๋กœ๋ด‡/์—…๋ฌด์— ๋งž๊ฒŒ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๊ธฐ์ˆ  ์ „์ด๊ฐ€ ์ผ์–ด๋‚  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ๋ฐ ์ž๋™ํ™˜๊ฒฝ ์ƒ์„ฑ: ๋…ผ๋ฌธ์—์„œ๋Š” MMBench๋ฅผ ๊ตฌ์ถ•ํ–ˆ์ง€๋งŒ, ๋” ๋‚˜์•„๊ฐ€ ์ ˆ์ฐจ์  ํ™˜๊ฒฝ ์ƒ์„ฑ์ด๋‚˜ ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ†ตํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‹ค์–‘ํ™”๋„ ํฅ๋ฏธ๋กœ์šด ๋ฐฉํ–ฅ์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๋ฒ”์šฉ์„ฑ์ด ๋†’์•„์งˆ ๊ฒƒ์ด๋ฏ€๋กœ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ž๊ธฐ ์ž์‹ ์—๊ฒŒ ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋ฉฐ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ํ˜„์‹ค ์„ธ๊ณ„๋ฅผ ๋ฐ˜์˜ํ•œ ๋ฐฉ๋Œ€ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šตํ•˜๋Š” ์‹œ๋„๊ฐ€ ๊ฐ€์น˜ ์žˆ์–ด ๋ณด์ž…๋‹ˆ๋‹ค.

  • ์ผ๊ด€๋œ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๊ฐœ์„  ๋ฐฉ๋ฒ•: ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ, Newt์—์„œ๋„ ์ผ๋ถ€ ์ž‘์—…์€ ํ˜œํƒ์„ ๋œ ๋ฐ›๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” catastrophic forgetting์ด๋‚˜ ๋ถ€์ ์‘์  ์ƒํ˜ธ ๊ฐ„์„ญ ๋ฌธ์ œ์™€๋„ ๊ด€๋ จ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ์‹œ ๋ชจ๋“  ์ž‘์—…์—์„œ ๊ณ ๋ฅด๊ฒŒ ์ด๋“์„ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฒ• (์˜ˆ: ์ž‘์—…๋ณ„ ๊ฐ€์ค‘์น˜ ์กฐ์ •, ๋™์  ์•„ํ‚คํ…์ฒ˜, ๋ถ„์‚ฐ์  ๋ฉ€ํ‹ฐ ํ—ค๋“œ ๋“ฑ) ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค๋„ โ€œ์–ด๋–ค ์ž‘์—…์€ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ์˜ ์ด์ ์ด ๋œํ•˜๋‹ค. ๋ชจ๋“  ์ž‘์—…์—์„œ ๊ฐœ์„ ์„ ์ด๋ฃจ๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹คโ€๊ณ  ์ง€์ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ โ€œ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šตโ€์˜ ํž˜์„ ๋‹ค์‹œ ํ•œ ๋ฒˆ ๋ถ€๊ฐ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์›”๋“œ ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ณตํ†ต๋œ ํ™˜๊ฒฝ ๋™์—ญํ•™์„ ํ•™์Šตํ•˜๊ณ  ํ™œ์šฉํ•จ์œผ๋กœ์จ, ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์ด๋‚˜ ์˜คํ”ˆ-๋ฃจํ”„ ์ œ์–ด ๋“ฑ ๋ชจ๋ธ ํ”„๋ฆฌ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์–ด๋ ค์šด ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡์—๊ฒŒ๋„ ์„ธ๊ณ„์— ๋Œ€ํ•œ ๋ชจ๋ธ์„ ๊ฐ€๋ฅด์ณ์„œ ์œ ์—ฐํ•œ ์‚ฌ๊ณ ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Newt์™€ MMBench๋Š” ์—ฐ์† ์ œ์–ด ๋ถ„์•ผ ๋ฒ”์šฉ ์ธ๊ณต์ง€๋Šฅ ๋กœ๋ด‡์˜ ๊ฐ€๋Šฅ์„ฑ์— ํ•œ ๊ฑธ์Œ ๋‹ค๊ฐ€๊ฐ„ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. โ€œ์˜จ๋ผ์ธ RL๋กœ๋„ ์ด๋ ‡๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•จ์œผ๋กœ์จ, ๊ทธ๋™์•ˆ ๋ฐ์ดํ„ฐ๋‚˜ ํšจ์œจ ๋ฌธ์ œ๋กœ ํšŒํ”ผ๋˜๋˜ ์ ‘๊ทผ์— ์ƒˆ๋กœ์šด ํ™œ๋ ฅ์„ ๋ถˆ์–ด๋„ฃ์—ˆ์Šต๋‹ˆ๋‹ค. MMBench๋Š” ์•ž์œผ๋กœ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋ชจ๋ธ (์˜ˆ: ๋น„๋””์˜ค ์ดํ•ด ๋ชจ๋ธ)์„ ์ด ๋ฒค์น˜๋งˆํฌ์— ํŒŒ์ธํŠœ๋‹ํ•ด๋ณด๋Š” ์—ฐ๊ตฌ๋‚˜, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •์ฑ… ํ•™์Šต ์—ฐ๊ตฌ ๋“ฑ์—๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์€ โ€œMMBench๋Š” ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ์ •์ฑ…์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ์—ฐ๊ตฌ์— ํŠนํžˆ ์ ํ•ฉํ•  ๊ฒƒโ€์ด๋ผ ์–ธ๊ธ‰ํ•˜๋ฉฐ, ์ž์‹ ์˜ Newt ๋ชจ๋ธ ์—ญ์‹œ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ strong baseline์œผ๋กœ ์ œ๊ณตํ•˜๋‹ˆ ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋” ๋ฐœ์ „๋œ ๋ฐฉ๋ฒ•๋“ค์ด ๋‚˜์˜ค๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ž๋“ค์€ ๋์œผ๋กœ ์ด๋ ‡๊ฒŒ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค: โ€œ์˜จ๋ผ์ธ RL์„ ์ˆ˜๋ฐฑ ๊ฐœ ์ž‘์—…์— ๋™์‹œ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ํ•™์Šต๋œ ์›”๋“œ ๋ชจ๋ธ์€ ๋†€๋ผ์šธ ๋งŒํผ ๊ฐ•ํ•œ ์ผ๋ฐ˜ํ™”์™€ ์˜คํ”ˆ-๋ฃจํ”„ ์ œ์–ด ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹คโ€. ์ด๋Š” ๊ณง ์šฐ๋ฆฌ์—๊ฒŒ โ€œ๋Œ€๊ทœ๋ชจ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๊ฐ•ํ™”ํ•™์Šตโ€์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์žฅ์„ ์—ด์–ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋ช‡ ๋…„๊ฐ„ ์ด ๋ฐฉํ–ฅ์˜ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ „๊ฐœ๋˜์–ด, ๊ฒฐ๊ตญ ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡๋“ค์ด ์ˆ˜๋งŽ์€ ์ž‘์—…์„ ํ•œ๊บผ๋ฒˆ์— ๋ฐฐ์šฐ๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ์Šต์„ ๊ธฐ๋Œ€ํ•ด ๋ด…๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee