๐NewtWM ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ ๋ณธ ์ฐ๊ตฌ๋ ์จ๋ผ์ธ RL์ด ํ์ฅ๋์ง ์๋๋ค๋ ํต๋ ์ ๋์ ํ๋ฉฐ, ์ธ์ด ์ง์์ ๋ฐ๋ชจ๋ฅผ ํฌํจํ 200๊ฐ์ง ๋ค์ํ ์์ ์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ RL ๋ฒค์น๋งํฌ์ธ MMBench๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค ์ ์๋ Newt๋ ์์ฐ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ์ฌ ์์ ์ธ์ ํํ๊ณผ ์ก์ ์ฌ์ ์ง์์ ์ป์ ํ, ๋ชจ๋ ํ์คํฌ์ ๊ฑธ์ณ ์จ๋ผ์ธ ์ํธ์์ฉ์ผ๋ก ๊ณต๋ ์ต์ ํ๋๋ ์ธ์ด ์กฐ๊ฑด๋ถ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ์ ๋๋ค.
- ๐ Newt๋ ๊ฐ๋ ฅํ ๊ธฐ์ค ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ๋ฉํฐํ์คํฌ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ด๋ฉฐ, ํจ๊ณผ์ ์ธ ๊ฐ๋ฐฉ ๋ฃจํ ์ ์ด ๋ฐ ์๋ก์ด ํ์คํฌ์ ๋ํ ๋น ๋ฅธ ์ ์ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ์ผ๋ฐ์ ์ธ ์ ์ด๋ฅผ ์ํด ๋ค์ํ ํ์คํฌ์ Embodiment์ ๊ฑธ์ณ ์๋ํ๋ ์์ด์ ํธ์ ํ์์ฑ์ ์ ๊ธฐํ๋ฉฐ, ๊ธฐ์กด Continuous Control ๋ถ์ผ์ ๊ฐํ ํ์ต(RL) ์ฐ๊ตฌ๊ฐ ๋จ์ผ ํ์คํฌ ๋๋ ์คํ๋ผ์ธ ํ๊ฒฝ์ ์น์ฐ์ณ ์จ๋ผ์ธ RL์ ํ์ฅ์ฑ์ ๋ํ ์ธ์์ ๊ฐํํ๋ค๊ณ ์ง์ ํฉ๋๋ค. ์ ์๋ค์ Foundation Model์ ์ฑ๊ณต์ ์ธ ๋ฐฉ๋ฒ๋ก (๋๊ท๋ชจ Pretraining ํ ๊ฐ๋ฒผ์ด RL)์์ ์๊ฐ์ ๋ฐ์, ๋จ์ผ ์์ด์ ํธ๊ฐ ์จ๋ผ์ธ ์ธํฐ๋์ ์ ํตํด ์๋ฐฑ ๊ฐ์ง ํ์คํฌ์์ ํ์ต๋ ์ ์๋์ง์ ๋ํ ์ง๋ฌธ์ ๋์ง๋๋ค.
์ด๋ฌํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๊ฐ์ํํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ 10๊ฐ Task Domain์ ๊ฑธ์ณ 200๊ฐ์ ๋ค์ํ ํ์คํฌ๋ก ๊ตฌ์ฑ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ MMBench๋ฅผ ์๊ฐํฉ๋๋ค. ๊ฐ ํ์คํฌ๋ Language Instruction, Demonstration, ๊ทธ๋ฆฌ๊ณ ์ ํ์ ์ผ๋ก Image Observation์ ํฌํจํฉ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ Multitask Pretraining, Offline-to-Online RL, ๊ทธ๋ฆฌ๊ณ From-Scratch RL ์ฐ๊ตฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ด์ด์ ์ ์๋ค์ Language-conditioned Multitask World Model์ธ Newt๋ฅผ ์ ์ํฉ๋๋ค. Newt๋ TD-MPC2 (Hansen et al., 2024)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, Task-aware Representation๊ณผ Action Prior๋ฅผ ์ต๋ํ๊ธฐ ์ํด Demonstration์ผ๋ก ๋จผ์ Pretrain๋ ํ, ๋ชจ๋ ํ์คํฌ์ ๊ฑธ์ณ ์จ๋ผ์ธ ์ธํฐ๋์ ๊ณผ ํจ๊ป Jointly ์ต์ ํ๋ฉ๋๋ค. TD-MPC2๋ฅผ Massively Multitask ์จ๋ผ์ธ ์ค์ ์ผ๋ก ํ์ฅํ๊ธฐ ์ํด, Newt๋ ๋ค์๊ณผ ๊ฐ์ ์ผ๋ จ์ ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ ํฌํจํฉ๋๋ค: ๊ฐ์ ๋ ์ํคํ ์ฒ, ์ฌ์ฉ ๊ฐ๋ฅํ Demonstration์ ํ์ฉํ Model-based Pretraining, RL Policy Update ์ ์ถ๊ฐ์ ์ธ Action Supervision, ๊ทธ๋ฆฌ๊ณ ๊ทน์ ์ผ๋ก ๊ฐ์ํ๋ ํธ๋ ์ด๋ ํ์ดํ๋ผ์ธ.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Newt):
Newt๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ์ธ TD-MPC2๋ฅผ ํ์ฅํ์ฌ Language Instruction ๋ฐ RGB Observation์ ์ง์ํ๋ Massively Multitask Online RL Agent์ ๋๋ค. TD-MPC2๋ ํ์ต๋ Self-predictive (Decoder-free) World Model์ Latent Space์์ Trajectory Optimization (Planning)์ ์ํํฉ๋๋ค.
Newt์ World Model์ ๋ค์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:
- Language Encoder: g = \text{CLIPtext}(s_{\text{lang}}) (์์ฐ์ด Instruction์ ์ธ์ฝ๋ฉ).
- Image Encoder: x = \text{DINOv2}(s_{\text{img}}) (RGB ์ด๋ฏธ์ง Observation์ ์ธ์ฝ๋ฉ, ์ ํ ์ฌํญ).
- State Encoder: z = h(s_{\text{state}}, x, g) (Latent State Representation ๊ณ์ฐ).
- Latent Dynamics: z' = d(z, a, g) (Latent Forward Dynamics ์์ธก).
- Reward: \hat{r} = R(z, a, g) (Transition์ Reward r ์์ธก).
- Terminal Value: \hat{q} = Q(z, a, g) (ํ ์ธ๋ Reward์ ํฉ(Return) ์์ธก).
- Policy Prior: \hat{a} = p(z, g) (์ต์ Action a^* ์์ธก). ์ฌ๊ธฐ์ s = \{s_{\text{lang}}, s_{\text{img}}, s_{\text{state}}\}๋ ๊ฐ๊ฐ Language, Image, State Observation์ด๋ฉฐ, a๋ Action์ ๋๋ค. ์ค์ ๊ตฌํ์์๋ Language์ Image ์ ๋ ฅ์ ๋ํด Frozen Pretrained Backbone์ ์ฌ์ฉํ๊ณ , ๋๋จธ์ง ๊ตฌ์ฑ ์์๋ MLP๋ก ๊ตฌํํฉ๋๋ค. ์ฌ๋ฌ ์ธ์๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ ๊ตฌ์ฑ ์์๋ Concatenation์ ํตํด ์ ๋ ฅ์ ์ตํฉํ ํ ์ฒซ ๋ฒ์งธ Dense Layer์ ์ ๋ ฅํฉ๋๋ค (์: h(s_{\text{state}}, x, g) := h([s_{\text{state}}, x, g])).
World Model์ ๊ตฌ์ฑ ์์ h, d, R, Q๋ ๋ค์ Objective๋ฅผ ํตํด Gradient Descent๋ก Jointly ์ต์ ํ๋ฉ๋๋ค: L (\theta) = E_{\tau \sim B}\left[\sum_{t=0}^H \lambda^t \left( \|z'_t - \text{sg}(h(s'_{\text{state}t} , x'_t, g))\|_2^2 + \ell_{\text{CE}}(\hat{r}_t, r_t) + \ell_{\text{CE}}(\hat{q}_t, q_t) \right)\right] ์ฌ๊ธฐ์ \tau = (s, a, r, s')๋ Replay Buffer B์์ ์ํ๋ง๋ Subsequence์ด๊ณ , \lambda \in (0, 1]์ ์๊ฐ์ ๋ฐ๋ผ ๋ฉ๋ฆฌ ๋จ์ด์ง ์ํ์ ๊ฐ์ค์น๋ฅผ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ค์ด๋ ์์ ๊ณ์์ ๋๋ค. \text{sg}๋ Representation Collapse๋ฅผ ์ํํ๋ \text{stop-grad} ์ฐ์ฐ์์ด๋ฉฐ, \ell_{\text{CE}}๋ Cross-Entropy Loss์ ๋๋ค. Multitask ์ค์ ์์ Reward ๋ถํฌ๊ฐ ํฌ๊ฒ ๋ค๋ฅผ ์ ์์ผ๋ฏ๋ก, MSE Loss ๋์ Discrete Regression Objective (Cross-Entropy Loss)๋ฅผ ์ฌ์ฉํ์ฌ Reward์ Value๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. Value๋ Log-transformed Space์์ ๋ชจ๋ธ๋งํ์ฌ ๋จ์ผ ์์ธก ํค๋๋ก ๋์ ๋ฒ์์ Value๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค. One-step TD-target์ q_t = r_t + \gamma Q_{\text{tgt}}(z'_t, p(z'_t), g)๋ก ์ ์๋๋ฉฐ, Q_{\text{tgt}}๋ Online Q Network์ EMA(Exponential Moving Average)์ ๋๋ค. ํ์คํฌ๋ณ Episode ๊ธธ์ด๊ฐ ํฌ๊ฒ ๋ค๋ฅด๋ฏ๋ก, ํ์คํฌ๋ณ Discount Factor (\gamma)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Policy Prior p๋ ์์์ ์ ์๋ Q-Network์ ์ํด ์ถ์ ๋ Q-Value๋ฅผ ์ต๋ํํ๋๋ก ํ์ต๋๋ Stochastic Maximum Entropy Policy๋ก ๊ณต์ํ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ Q-Value ์ถ์ ์ด ์ด๋ ค์ด ํ์คํฌ์์๋ ์ด Policy Objective์ ๋จ์ ์ ์ฉ์ด ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋์ Demonstration์ ํ์ฉํ์ฌ TD-MPC2์ Policy Prior์ ์ถ๊ฐ์ ์ธ Behavior Cloning Loss๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด๋ (i) Expert Demonstration์ Action Supervision์ผ๋ก ์ง์ ํ์ฉํ๊ณ , (ii) Planning์ ํตํด ์ ํ๋ Action์ ๋ ํํ์ ์ธ Policy Prior๋ก ๋ช ์์ ์ผ๋ก Distillํ๋ ๋ ๊ฐ์ง ๋ชฉ์ ์ ๊ฐ์ง๋๋ค. Policy Objective๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: L_p(\theta) = E_{\tau \sim B}\left[\sum_{t=0}^H \lambda^t \left( \|p(z_t, g) - a_t\|_2^2 - Q(z_t, p(z_t, g), g) - H(p(\cdot|z_t, g)) \right)\right] ์ฌ๊ธฐ์ z_{t+1} = d(z_t, a_t, g)๋ Latent Rollout์ ๋๋ค. ํ๊ฒฝ ์ํธ์์ฉ ์, TD-MPC2๋ ํ์ต๋ World Model๋ก Planningํ์ฌ Action์ ์ ํํ๋ฉฐ, Planning ์ ์ฐจ๋ Policy Prior p์ ์ํด Warm-start๋ฉ๋๋ค.
Demonstration ํ์ฉ:
Massively Multitask Online RL์์์ ํ์(Exploration) ์ด๋ ค์์ ๊ทน๋ณตํ๊ธฐ ์ํด, Newt๋ ๊ฐ ํ์คํฌ์ ๋ํด ์๋์ Demonstration์ ๋ค ๊ฐ์ง ๋ฐฉ์์ผ๋ก ํ์ฉํฉ๋๋ค:
- Model-based Pretraining: ์จ๋ผ์ธ ์ํธ์์ฉ ์ ์, ์ ๊ณต๋ Demonstration์ผ๋ก Equation 1์ ๋ชจ๋ ํ์ต ๊ฐ๋ฅํ ๊ตฌ์ฑ ์์๋ฅผ Pretrainํฉ๋๋ค. ์ด๋ Equation 3์ Q-Value ํญ์ ์ผ์์ ์ผ๋ก ๋นํ์ฑํํ์ฌ Demonstration์ ๊ฐ๋ ฅํ Action Supervision์ ์ต๋ํ ํ์ฉํฉ๋๋ค.
- Constrained Planning: Pretraining์์ Online RL๋ก ์ ํํ ๋, ์ด๊ธฐ์ Planner๋ฅผ BC Policy ์ชฝ์ผ๋ก Biasํ๊ณ , ํ์ต ์ด๋ฐ 12% ๋์ ์ด Bias๋ฅผ ์ ํ์ ์ผ๋ก 0์ผ๋ก Annealํฉ๋๋ค. ์ด๋ ์ด๊ธฐ์ ๋ถ์ ํํ Value Function์ผ๋ก ์ธํ ์ฑ๋ฅ ์ ํ๋ฅผ ์ํํฉ๋๋ค.
- Oversampling of Demonstrations: Demonstration๊ณผ ์จ๋ผ์ธ ์ํธ์์ฉ์ ์ํ ๋ณ๋์ Replay Buffer๋ฅผ ์ ์งํ๊ณ , ์์ด์ ํธ ์ ๋ฐ์ดํธ ์ ๊ฐ๊ฐ 50%์ฉ ๋์ผํ ๋น์จ๋ก Subsequence๋ฅผ ์ํ๋งํฉ๋๋ค. ์ด๋ฅผ ํตํด Demonstration ๋ฐ์ดํฐ๊ฐ ํ์ต ๋ด๋ด ์์ด์ ํธ์๊ฒ ์ง์์ ์ผ๋ก ์ ๊ณต๋๋๋ก ํฉ๋๋ค.
- Action Supervision in RL Policy Updates: Section 3.1์์ ๋ ผ์๋ ๋ฐ์ ๊ฐ์ด, Policy Objective์ Model-based BC Loss ํญ์ ์ถ๊ฐํ์ฌ ์ง์ ์ ์ธ Action Supervision์ ์ ๊ณตํ๊ณ Q-Value ์ถ์ ์ด ๋ถ์ ํํ ๋ RL ๊ธฐ๋ฐ Policy Objective๋ฅผ Regularizeํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
์คํ ๊ฒฐ๊ณผ, Newt๋ MMBench ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ Baseline๋ค๋ณด๋ค ๋ ๋์ Multitask ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ฐ๋ ฅํ Open-loop Control ๋ฅ๋ ฅ์ ๋ฐํํ๊ณ , ๋ณด์ง ๋ชปํ๋ ํ์คํฌ์ ๋ํ ๋น ๋ฅธ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ํ, ๊ณ ํด์๋ ์ด๋ฏธ์ง Observation์ ์ ๊ทผ์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋จ์ ์ ์ฆํ์ต๋๋ค. ์ ์๋ค์ ํ๊ฒฝ, Demonstration, ํ์ต ๋ฐ ํ๊ฐ ์ฝ๋, ๊ทธ๋ฆฌ๊ณ 200๊ฐ ์ด์์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ณต๊ฐํ์ฌ Reproducibility์ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ง์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๐ TL;DR (ํต์ฌ ์์ฝ) ์ด ๋ ผ๋ฌธ์ ์ฐ์ ์ ์ด(Continuous Control) ๋ถ์ผ์์ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ(Massively Multitask World Model)์ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค. ์ ์๋ค์ MMBench๋ผ๋ 200๊ฐ ๋ค์ํ ํ์คํฌ๋ฅผ ํฌํจํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์๊ฐํ๊ณ , Newt๋ผ๋ ์ธ์ด ์กฐ๊ฑดํ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. Newt๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จํ ํ ๋ชจ๋ ํ์คํฌ์์ ์จ๋ผ์ธ ์ํธ์์ฉ์ ํตํด ๊ณต๋ ์ต์ ํ๋๋ฉฐ, ๊ธฐ์กด ๊ฐ๋ ฅํ ๋ฒ ์ด์ค๋ผ์ธ(PPO, FastTD3, Behavior Cloning)๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
1. ์๋ก : ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
1.1 ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ
ํ๋ ๋ก๋ด๊ณตํ์์ ๋ฒ์ฉ ์ ์ด(General-Purpose Control)๋ ํต์ฌ์ ์ธ ์ฐ๊ตฌ ๋ชฉํ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ ๋ค์ํ ํ์คํฌ์ ์ ์ฒด ๊ตฌ์กฐ(embodiment)์์ ์๋ํ ์ ์๋ ์์ด์ ํธ์ ๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ ์ฐ์ ์ ์ด๋ฅผ ์ํ ๊ฐํํ์ต(RL) ์ฐ๊ตฌ๋ ์ฌ์ ํ ๋จ์ผ ํ์คํฌ(single-task) ๋๋ ์คํ๋ผ์ธ(offline) ํ์ต ๋ฐฉ์์ ์ง์ค๋์ด ์์ต๋๋ค.
์ด๋ฌํ ํ์์ โ์จ๋ผ์ธ RL์ ํ์ฅ๋์ง ์๋๋ค(Online RL does not scale)โ๋ ์ธ์์ ๊ฐํ์์ผ ์์ต๋๋ค. ํ์ง๋ง ๊ณผ์ฐ ๊ทธ๋ด๊น์?
1.2 Foundation Model์์ ์๊ฐ์ ๋ฐ๋ค
์ต๊ทผ ์์ฐ์ด ์ฒ๋ฆฌ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ Foundation Model ๋ ์ํผ๊ฐ ๋๋ผ์ด ์ฑ๊ณต์ ๊ฑฐ๋๊ณ ์์ต๋๋ค:
Foundation Model Recipe = ๋๊ท๋ชจ ์ฌ์ ํ๋ จ + ๊ฒฝ๋ RL/๋ฏธ์ธ์กฐ์
GPT, BERT, ViT ๋ฑ์ ์ฑ๊ณต์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์์ ์ฌ์ ํ๋ จ๊ณผ ์ ์คํ๊ฒ ์ค๊ณ๋ ์ํคํ ์ฒ๊ฐ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ ํฌ๊ธฐ์ ๋ฐ๋ผ ์์ ์ ์ผ๋ก ํ์ฅ๋ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ ์๋ค์ ์ด ํจ๋ฌ๋ค์์ ๋ก๋ด ์ ์ด์ ์ ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ง๋ฌธ์ ๋์ง๋๋ค:
โ๋จ์ผ ์์ด์ ํธ๊ฐ ์จ๋ผ์ธ ์ํธ์์ฉ์ ํตํด ์๋ฐฑ ๊ฐ์ ํ์คํฌ์์ ํ๋ จ๋ ์ ์๋๊ฐ?โ
2. ํต์ฌ ๊ธฐ์ฌ: MMBench์ Newt
2.1 MMBench: ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ๋ฒค์น๋งํฌ
์ด ์ฐ๊ตฌ์ ์ฒซ ๋ฒ์งธ ํต์ฌ ๊ธฐ์ฌ๋ MMBench(Massively Multitask Benchmark)์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋๋ค:
| ํน์ฑ | ์์ธ ๋ด์ฉ |
|---|---|
| ํ์คํฌ ์ | 200๊ฐ์ ๋ค์ํ ํ์คํฌ |
| ๋๋ฉ์ธ ์ | 10๊ฐ ํ์คํฌ ๋๋ฉ์ธ |
| ์๋ก์ด ํ์คํฌ | 41๊ฐ์ ์์ ํ ์๋ก์ด ํ์คํฌ ํฌํจ |
| ์ธ์ด ์ง์๋ฌธ | ๋ชจ๋ ํ์คํฌ์ ์์ฐ์ด ์ง์๋ฌธ ์ ๊ณต |
| ๋ฐ๋ชจ ๋ฐ์ดํฐ | ๊ฐ ํ์คํฌ์ ๋ํ ์์ฐ ๋ฐ์ดํฐ |
| ์ด๋ฏธ์ง ๊ด์ธก | ์ ํ์ RGB ๊ด์ธก ์ง์ |
2.1.1 MiniArcade: ์๋ก์ด ํ๊ฒฝ ์ค์ํธ
MMBench์ ์ผ๋ถ๋ก, ์ ์๋ค์ MiniArcade๋ผ๋ ์์ ํ ์๋ก์ด ํ๊ฒฝ ์ค์ํธ๋ฅผ ๊ณต๊ฐํฉ๋๋ค. ์ด ํ๊ฒฝ๋ค์:
- ์ ์ ์๋ ๊ด์ธก(observation), ํ๋(action), ๋ณด์(reward) ๊ตฌ์กฐ
- ๋ชจ๋ ํ์คํฌ์ ๋ํ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ์ธ์ด ์ง์๋ฌธ ์ ๊ณต
- ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ํฌ๊ด
2.1.2 ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ๋น๊ต
๊ธฐ์กด์ ๋ฉํฐํ์คํฌ RL ๋ฒค์น๋งํฌ๋ค๊ณผ ๋น๊ตํ๋ฉด:
| ๋ฒค์น๋งํฌ | ํ์คํฌ ์ | ๋๋ฉ์ธ ๋ค์์ฑ | ์ธ์ด ์ง์๋ฌธ | ๋ฐ๋ชจ ๋ฐ์ดํฐ |
|---|---|---|---|---|
| Meta-World | 50๊ฐ | ๋ก๋ด ์กฐ์ ์ค์ฌ | โ | ์ ํ์ |
| DMControl | 30+๊ฐ | ์ฐ์ ์ ์ด | โ | โ |
| TD-MPC2 (80-task) | 80๊ฐ | Meta-World + DMControl | โ | ์ ํ์ |
| MMBench (Newt) | 200๊ฐ | 10๊ฐ ๋๋ฉ์ธ | โ | โ |
MMBench๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฝ 2-4๋ฐฐ์ ๋ฌํ๋ ํ์คํฌ๋ฅผ ํฌํจํ๋ฉฐ, ์ธ์ด ์ง์๋ฌธ๊ณผ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๊ณตํฉ๋๋ค.
2.2 Newt: ์ธ์ด ์กฐ๊ฑดํ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ
๋ ๋ฒ์งธ ํต์ฌ ๊ธฐ์ฌ๋ Newt๋ผ๋ ์๋ก์ด ์์ด์ ํธ์ ๋๋ค. Newt์ ํต์ฌ ์ค๊ณ ์์น์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
2.2.1 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ
flowchart TB
subgraph phase1["1๋จ๊ณ: ์ฌ์ ํ๋ จ (Pretraining)"]
A[๋ฐ๋ชจ ๋ฐ์ดํฐ] --> B[Task-Aware Representations]
A --> C[Action Priors ํ์ต]
end
subgraph phase2["2๋จ๊ณ: ์จ๋ผ์ธ RL (Joint Optimization)"]
D[200๊ฐ ํ์คํฌ ร ์จ๋ผ์ธ ์ํธ์์ฉ] --> E[์๋ ๋ชจ๋ธ ๊ณต๋ ์ต์ ํ]
end
phase1 --> phase21๋จ๊ณ: ๋ฐ๋ชจ ๊ธฐ๋ฐ ์ฌ์ ํ๋ จ - ์์ง๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์คํฌ ์ธ์ ํํ(task-aware representations)์ ํ์ต - ๊ฐ ํ์คํฌ์ ์ ํฉํ ํ๋ ์ฌ์ ๋ถํฌ(action priors) ํ๋ - ์ด ๋จ๊ณ์์ ์๋ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ธ ๋์ญํ ์ดํด์ ํ์คํฌ ๊ตฌ์กฐ ํ์
2๋จ๊ณ: ์จ๋ผ์ธ ์ํธ์์ฉ์ ํตํ ๊ณต๋ ์ต์ ํ - ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ 200๊ฐ ํ์คํฌ์์ ๋์์ ์จ๋ผ์ธ ํ์ต - ํ๊ฒฝ๊ณผ์ ์ค์ ์ํธ์์ฉ์ ํตํด ์๋ ๋ชจ๋ธ์ ์ ๊ตํ - ํ์คํฌ ๊ฐ ์ง์ ์ ์ด(knowledge transfer) ํ์ฉ
2.2.2 ์ธ์ด ์กฐ๊ฑดํ (Language Conditioning)
Newt์ ์ค์ํ ํน์ง ์ค ํ๋๋ ์ธ์ด ์กฐ๊ฑดํ์ ๋๋ค:
์
๋ ฅ: [์ํ ๋ฒกํฐ, ์ธ์ด ์ง์๋ฌธ, (์ ํ์ ) RGB ๊ด์ธก]
โ
Newt ์๋ ๋ชจ๋ธ
โ
์ถ๋ ฅ: ๊ณํ(Planning)์ ํตํ ํ๋
์ธ์ด ์ง์๋ฌธ์ ํ์คํฌ์ ๋ชฉํ์ ๋งฅ๋ฝ์ ๋ช ์์ ์ผ๋ก ์ ๋ฌํ์ฌ: - ํ์คํฌ ๊ฐ ๊ตฌ๋ถ์ ๋ช ํํ ํจ - ์๋ก์ด ํ์คํฌ๋ก์ ์ผ๋ฐํ๋ฅผ ์ด์ง - ํด์ ๊ฐ๋ฅ์ฑ(interpretability) ํฅ์
2.2.3 ์ํคํ ์ฒ ๊ฐ์
Newt์ ์ํคํ ์ฒ๋ ๋ค์ ์์๋ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ์ํ ์ธ์ฝ๋: ์ํ ๋ฒกํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ๋งคํ
- ์ธ์ด ์ธ์ฝ๋: ์์ฐ์ด ์ง์๋ฌธ์ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ
- ์๋ ๋ชจ๋ธ ์ฝ์ด: ์ ์ฌ ๊ณต๊ฐ์์์ ๋์ญํ ์์ธก
- ํ๋๋: ๊ณํ์ ํตํ ํ๋ ์ถ๋ ฅ
3. ๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
3.1 ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL์ ๋ฐฐ๊ฒฝ
Newt๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋จผ์ ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL์ ํต์ฌ ๊ฐ๋ ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
3.1.1 ์๋ ๋ชจ๋ธ์ด๋?
์๋ ๋ชจ๋ธ(World Model)์ ํ๊ฒฝ์ ๋์ญํ์ ํ์ตํ๋ ์ ๊ฒฝ๋ง์ ๋๋ค:
\hat{s}_{t+1} = f_\theta(s_t, a_t)
์ฌ๊ธฐ์: - s_t: ํ์ฌ ์ํ - a_t: ์ ํ๋ ํ๋ - \hat{s}_{t+1}: ์์ธก๋ ๋ค์ ์ํ - f_\theta: ํ์ต๋ ๋์ญํ ๋ชจ๋ธ
3.1.2 ์ ์ฌ ๊ณต๊ฐ ๊ณํ (Latent Space Planning)
ํ๋ ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL(์: TD-MPC, DreamerV3)์ ์ ์ฌ ๊ณต๊ฐ์์ ๊ณํ์ ์ํํฉ๋๋ค:
Raw Observation โ Encoder โ Latent State โ World Model โ Planning
โ
Compact, Learnable Representation
์ด ์ ๊ทผ๋ฒ์ ์ฅ์ : - ์ฐจ์ ์ถ์: ๊ณ ์ฐจ์ ๊ด์ธก(์: ์ด๋ฏธ์ง)์ ์ ์ฐจ์ ์ ์ฌ ๋ฒกํฐ๋ก ์์ถ - ํ์ต ๊ฐ๋ฅํ ํํ: ํ์คํฌ์ ๊ด๋ จ๋ ์ ๋ณด๋ง ์ ์ง - ํจ์จ์ ์ธ ๊ณํ: ์ ์ฌ ๊ณต๊ฐ์์์ ๋กค์์์ด ์์ ๊ด์ธก๋ณด๋ค ํจ์จ์
3.2 TD-MPC2์์ ๊ด๊ณ
Newt๋ TD-MPC2์ ์ฐ๊ตฌ ํ๋ฆ์ ์ด์ด๋ฐ์ผ๋ฉด์ ๋ฐ์ ์ํจ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. TD-MPC2๋ ICLR 2024์์ ๋ฐํ๋ ์ค์ํ ์ฐ๊ตฌ๋ก, ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋๋ค:
| ํน์ฑ | TD-MPC2 | Newt |
|---|---|---|
| ํ์คํฌ ์ | 80๊ฐ (์ต๋) | 200๊ฐ |
| ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ | ๋จ์ผ ์ค์ | ๋จ์ผ ์ค์ (์ถ์ ) |
| ์ธ์ด ์กฐ๊ฑดํ | ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ | ์์ฐ์ด ์ง์๋ฌธ |
| ์ฌ์ ํ๋ จ | ์ ํ์ | ๋ฐ๋ชจ ๊ธฐ๋ฐ ์ฒด๊ณ์ ์ฌ์ ํ๋ จ |
| ๋ชจ๋ธ ํฌ๊ธฐ | ์ต๋ 317M | (๋ ผ๋ฌธ ์์ธ ํ์) |
TD-MPC2์ ํต์ฌ ํ์ ๋ค: - SimNorm: ์ ์ฌ ์ํ๋ฅผ ๊ทธ๋ฃน๋ณ๋ก ๋ถํ ํ๊ณ softmax๋ฅผ ํตํด ๊ณ ์ ์ฐจ์ simplex๋ก ํฌ์ - LayerNorm + Mish ํ์ฑํ: ๊น์ ์ ์ฌ ์๋ ๋ชจ๋ธ์ ์์ ์ฑ ํ๋ณด - ์ด์ฐ ํ๊ท ์์ค: ๋ณด์๊ณผ ๊ฐ์น ํ๊ฒ์ ๋ํ ๊ต์ฐจ ์ํธ๋กํผ ๋ชฉํ
3.3 ์ฌ์ ํ๋ จ์ ์ค์์ฑ
Newt์ ํต์ฌ ํ์ ์ค ํ๋๋ ์ฒด๊ณ์ ์ธ ๋ฐ๋ชจ ๊ธฐ๋ฐ ์ฌ์ ํ๋ จ์ ๋๋ค.
3.3.1 ์ ์ฌ์ ํ๋ จ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด ์จ๋ผ์ธ RL์ ๋ฌธ์ ์ : - ํ์์ ์ด๋ ค์: ๋ฌด์์ ์ด๊ธฐ ์ ์ฑ ์ผ๋ก๋ ์๋ฏธ ์๋ ๊ฒฝํ ์์ง์ด ์ด๋ ค์ - ์ํ ๋นํจ์จ์ฑ: ์ฒ์๋ถํฐ ํ์ตํ๋ฉด ์๋ง์ ํ๊ฒฝ ์ํธ์์ฉ ํ์ - ๋ถ์์ ํ ํ์ต: ํนํ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ์ด๊ธฐ ํ์ต์ด ๋ถ์์ ํ ์ ์์
์ฌ์ ํ๋ จ์ ํด๊ฒฐ์ฑ : - ํฉ๋ฆฌ์ ์ธ ํ๋ ์ฌ์ ๋ถํฌ: ํ์ ์์์ ์ ๊ฐ์ - ํ์คํฌ ๊ตฌ์กฐ ์ดํด: ์๋ ๋ชจ๋ธ์ด ํ๊ฒฝ ๋์ญํ์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ํ์ - ๋น ๋ฅธ ์๋ ด: ์จ๋ผ์ธ ํ์ต ๋จ๊ณ์์ ๋ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ ํฅ์
3.3.2 ํ๋ ์ฌ์ ๋ถํฌ (Action Priors)
์ฌ์ ํ๋ จ์ ํตํด ํ์ต๋ ํ๋ ์ฌ์ ๋ถํฌ๋:
\pi_{prior}(a|s, \ell) \approx \pi_{expert}(a|s, \ell)
์ฌ๊ธฐ์ \ell์ ์ธ์ด ์ง์๋ฌธ์ ๋๋ค. ์ด ์ฌ์ ๋ถํฌ๋: - ์จ๋ผ์ธ RL ์ ํ์์ ์ถ๋ฐ์ ์ ๊ณต - ๊ด๋ จ ์๋ ํ๋ ๊ณต๊ฐ ํ์ ๊ฐ์ - ํ์คํฌ๋ณ ์ ์ ํ ํ๋ ๋ฒ์ ์ ์
3.4 ์คํ ๋ฃจํ ์ ์ด (Open-Loop Control)
๋ ผ๋ฌธ์์ ๊ฐ์กฐํ๋ Newt์ ํน๋ณํ ๋ฅ๋ ฅ ์ค ํ๋๋ ๊ฐ๋ ฅํ ์คํ ๋ฃจํ ์ ์ด์ ๋๋ค.
3.4.1 ์คํ ๋ฃจํ vs ํด๋ก์ฆ๋ ๋ฃจํ
ํด๋ก์ฆ๋ ๋ฃจํ ์ ์ด:
๋งค timestep โ ๊ด์ธก โ ํ๋ ๊ฒฐ์ โ ์คํ โ ๊ด์ธก โ ...
์คํ ๋ฃจํ ์ ์ด:
์ด๊ธฐ ๊ด์ธก โ ์ฌ๋ฌ timestep ๊ณํ โ ์ฐ์ ์คํ (ํผ๋๋ฐฑ ์์ด)
3.4.2 Newt์ ์คํ ๋ฃจํ ๋ฅ๋ ฅ
Newt๋ ์ต๋ 48 ์ฐ์ timestep์ ๊ณํ์ ์ํํ ์ ์์ต๋๋ค:
์ด๊ธฐ ์ํ s_0 โ Newt ํ๋๋ โ [a_0, a_1, ..., a_47]
โ
ํ๊ฒฝ ํผ๋๋ฐฑ ์์ด 48 ์คํ
์คํ
์ด๊ฒ์ด ๋ก๋ด๊ณตํ์์ ์ค์ํ ์ด์ : - ํต์ ์ง์ฐ ๋์: ์๊ฒฉ ์กฐ์ ์ ์ง์ฐ์ ๊ฐ๊ฑด - ์ผ์ ์คํจ ๋๋น: ์ผ์์ ์ผ์ ์ฅ์ ์์๋ ์๋ ๊ฐ๋ฅ - ์๋ ๋ชจ๋ธ ํ์ง ์งํ: ์ ํํ ์คํ ๋ฃจํ ์ ์ด๋ ์๋ ๋ชจ๋ธ์ด ํ๊ฒฝ ๋์ญํ์ ์ ํฌ์ฐฉํ์์ ์๋ฏธ
4. ์คํ ๊ฒฐ๊ณผ ๋ถ์
4.1 ์ฃผ์ ๋ฒ ์ด์ค๋ผ์ธ
์ ์๋ค์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ๋ ฅํ ๋ฒ ์ด์ค๋ผ์ธ๋ค๊ณผ ๋น๊ตํฉ๋๋ค:
- Behavior Cloning (BC): ๋ฐ๋ชจ ๋ฐ์ดํฐ์์ ์ง์ ์ ์ฑ ํ์ต
- PPO (Proximal Policy Optimization): ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ ์ฑ ๊ฒฝ์ฌ ์๊ณ ๋ฆฌ์ฆ
- FastTD3: TD3์ ์ต์ ํ๋ ๋ณํ์ผ๋ก, ํด๋จธ๋ ธ์ด๋ ์ ์ด์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
4.1.1 FastTD3์ ๋ํ์ฌ
FastTD3๋ ์ต๊ทผ ์ฃผ๋ชฉ๋ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก: - TD3 ๊ธฐ๋ฐ off-policy ํ์ต - ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ํ์ฉ - ๋๊ท๋ชจ ๋ฐฐ์น ์ ๋ฐ์ดํธ - ๋ถํฌ์ ํฌ๋ฆฌํฑ(distributional critic) ์ฌ์ฉ - HumanoidBench ํ์คํฌ๋ฅผ ๋จ์ผ GPU์์ 3์๊ฐ ๋ด ํด๊ฒฐ
4.2 ๋ฉํฐํ์คํฌ ์ฑ๋ฅ
๋ ผ๋ฌธ์ ์ฃผ์ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, 200๊ฐ ํ์คํฌ ์ ์ฒด์์ ๋จ์ผ ์ํ ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ํ์ต์ํฌ ๋:
ํต์ฌ ๋ฐ๊ฒฌ: - Newt๊ฐ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ(BC, PPO, FastTD3)๋ณด๋ค ์ฐ์ํ ํ๊ท ์ ์ ๋ฌ์ฑ - ์ ์๋ ๊ฐ ํ์คํฌ๋ณ๋ก [0, 1] ๋ฒ์๋ก ์ ๊ทํ๋จ - Newt๊ฐ ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ํ
4.3 ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ๋ถ์
ํฅ๋ฏธ๋ก์ด ์ ์ ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ์ฐจ์ด์ ๋๋ค:
๋๋ฉ์ธ A: Newt >> PPO > FastTD3
๋๋ฉ์ธ B: Newt โ PPO > FastTD3
๋๋ฉ์ธ C: Newt > FastTD3 > PPO
...
์ฃผ์ ๊ด์ฐฐ: - Newt๋ ์ ๋ฐ์ ์ผ๋ก PPO์ FastTD3๋ณด๋ค ๋์ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ - ๊ทธ๋ฌ๋ RL์ ํตํ ๊ฐ์ ์๋๋ ๋๋ฉ์ธ์ ๋ฐ๋ผ ๋ค๋ฆ - ์ผ๋ถ ๋๋ฉ์ธ์์๋ ์ฌ์ ํ๋ จ๋ง์ผ๋ก๋ ์๋นํ ์ฑ๋ฅ ๋ฌ์ฑ - ๋ค๋ฅธ ๋๋ฉ์ธ์์๋ ์จ๋ผ์ธ RL์ด ํฐ ํญ์ ๊ฐ์ ์ ๊ฐ์ ธ์ด
4.4 ์๋ก์ด ํ์คํฌ๋ก์ ์ ์
Newt์ ๋ ๋ค๋ฅธ ๊ฐ์ ์ ๋ฏธ์ง์ ํ์คํฌ์ ๋ํ ๋น ๋ฅธ ์ ์์ ๋๋ค:
ํ๋ จ ํ์คํฌ (200๊ฐ) โ Newt ํ์ต โ ์๋ก์ด ํ์คํฌ (N๊ฐ)
โ
๋น ๋ฅธ ์ ์ (Few-shot)
์ด๋ ๋ก๋ด๊ณตํ์์ ๋งค์ฐ ์ค์ํ ํน์ฑ์ ๋๋ค: - ์ค์ ๋ฐฐ์น ํ๊ฒฝ์์ ๋ชจ๋ ๊ฐ๋ฅํ ํ์คํฌ๋ฅผ ์ฌ์ ์ ์ ์ํ๊ธฐ ์ด๋ ค์ - ์๋ก์ด ํ์คํฌ์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ - Foundation Model ํจ๋ฌ๋ค์์ ํต์ฌ ๊ฐ์น ์คํ
5. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
5.1 TD-MPC ๊ณ์ด
| ์๊ณ ๋ฆฌ์ฆ | ๋ฐํ ์ฐ๋ | ํน์ง | ํ์คํฌ ๊ท๋ชจ |
|---|---|---|---|
| TD-MPC | 2022 | ์ ์ฌ ๊ณต๊ฐ MPC | ๋จ์ผ ํ์คํฌ |
| TD-MPC2 | 2024 | ํ์ฅ์ฑ, ๊ฐ๊ฑด์ฑ | 80๊ฐ |
| Newt | 2025 | ์ธ์ด ์กฐ๊ฑดํ, ์ฌ์ ํ๋ จ | 200๊ฐ |
5.2 DreamerV3์์ ๋น๊ต
DreamerV3(Nature, 2025)๋ ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL์ ๋ ๋ค๋ฅธ ์ฃผ์ ์ฐ๊ตฌ์ ๋๋ค:
| ํน์ฑ | DreamerV3 | Newt |
|---|---|---|
| ์ ๊ทผ ๋ฐฉ์ | ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ | ์์์ (implicit) ์๋ ๋ชจ๋ธ |
| ๊ฐ์ | ์ด๋ฏธ์ง ๊ด์ธก, Minecraft | ์ฐ์ ์ ์ด, ๋ฉํฐํ์คํฌ |
| ํ์ดํผํ๋ผ๋ฏธํฐ | ๋จ์ผ ์ค์ | ๋จ์ผ ์ค์ |
| ์ธ์ด ์กฐ๊ฑดํ | ์ ํ์ | ๋ค์ดํฐ๋ธ ์ง์ |
5.3 PWM (Policy Learning with Multi-Task World Models)
PWM์ ์ฌ์ ํ๋ จ๋ ์๋ ๋ชจ๋ธ์ ํ์ฉํ ์ ์ฑ ํ์ต์ ์ ์ํฉ๋๋ค:
- ์๋ ๋ชจ๋ธ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ฉ
- 1์ฐจ ์ต์ ํ(first-order optimization)๋ฅผ ํตํ ํจ์จ์ ์ธ ์ ์ฑ ํ์ต
- Newt์ ๋ณด์์ ์ธ ์ ๊ทผ๋ฒ
6. ํ๊ณ์ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฐ ์ฌํ์ฑ
6.1 ํ์ฌ ์ฐ๊ตฌ์ ํ๊ณ
6.1.1 ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ํ์
ํ์ฌ Newt๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์๋ง ๊ฒ์ฆ๋์์ต๋๋ค: - ์ค์ ๋ก๋ด์์์ ์ฑ๋ฅ์ ๋ฏธ๊ฒ์ฆ - Sim-to-Real ๊ฐ๊ทน ์กด์ฌ ๊ฐ๋ฅ์ฑ - ์ผ์ ๋ ธ์ด์ฆ, ์ง์ฐ ๋ฑ ์ค์ธ๊ณ ์์ธ ๋ฏธ๋ฐ์
6.1.2 ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ํธ์ฐจ
์คํ ๊ฒฐ๊ณผ์์ ๊ด์ฐฐ๋ ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ์ฐจ์ด: - ์ผ๋ถ ๋๋ฉ์ธ์์๋ RL ๊ฐ์ ์ด ๋ฏธ๋ฏธ - ๋ชจ๋ ํ์คํฌ์์ ์ผ๊ด๋ ๊ฐ์ ์ ์ํ ๋ฐฉ๋ฒ๋ก ํ์ - ํ์คํฌ ๋์ด๋์ ํ์ต ๋์ด๋์ ๊ด๊ณ ๋ถ์ ํ์
6.1.3 ๊ณ์ฐ ๋น์ฉ
200๊ฐ ํ์คํฌ ๋์ ํ์ต์ ํ์ํ ์์: - ๋๊ท๋ชจ GPU ํด๋ฌ์คํฐ ํ์ ๊ฐ๋ฅ์ฑ - ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์์ ์ถ๋ก ๋น์ฉ - ์๊ท๋ชจ ์ฐ๊ตฌ์ค์์์ ์ฌํ์ฑ ๋ฌธ์
6.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ด ์ ์ํ๋ ์ฐจ์ธ๋ ๋๊ท๋ชจ RL ๋ฐฉ๋ฒ๋ก ์ ์ํ ๊ณผ์ :
โ๋ชจ๋ ํ์คํฌ์์ ๋ ์ผ๊ด๋ ๊ฐ์ ์ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด ์ฐจ์ธ๋ ๋๊ท๋ชจ RL ๋ฐฉ๋ฒ๋ก ์ ์ค์ํ ๊ฒ์ด๋ค.โ
๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ํ์คํฌ ์ปค๋ฆฌํ๋ผ: ์ฌ์ด ํ์คํฌ์์ ์ด๋ ค์ด ํ์คํฌ๋ก ์ ์ง์ ํ์ต
- ๋ฉํ ํ์ต ํตํฉ: ํ์คํฌ ๊ฐ ์ง์ ์ ์ด ๋ฉ์ปค๋์ฆ ๊ฐ์
- ๋น์ ์ธ์ด ๋ชจ๋ธ ์ฐ๊ฒฐ: ๋ ํ๋ถํ ์ธ์ด ์ดํด์ ์๊ฐ์ ์ถ๋ก
- ๊ณ์ธต์ ์ ์ด: ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด์ ๋ถ๋ฆฌ
- ์์ ์ฑ ๊ณ ๋ ค: ๋๊ท๋ชจ ์ ์ฑ ์ ์์ ํ ๋ฐฐํฌ ๋ฐฉ๋ฒ
6.3 ๊ณต๊ฐ ์์
์ ์๋ค์ ๋ค์์ ๊ณต๊ฐํฉ๋๋ค:
- ํ๊ฒฝ: MMBench์ 200๊ฐ ํ๊ฒฝ
- ๋ฐ๋ชจ ๋ฐ์ดํฐ: ๊ฐ ํ์คํฌ๋ณ ์์ฐ ๋ฐ์ดํฐ
- ์ฝ๋: ํ๋ จ ๋ฐ ํ๊ฐ ์ฝ๋
- ์ฒดํฌํฌ์ธํธ: 200๊ฐ ์ด์์ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ
- ์น์ฌ์ดํธ: https://newt-world-models.github.io
7. ๊ฒฐ๋ก
7.1 ํต์ฌ ๋ฉ์์ง
์ด ๋ ผ๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ์ค์ํ ๋ฉ์์ง๋ฅผ ์ ๋ฌํฉ๋๋ค:
์จ๋ผ์ธ RL์ ํ์ฅ ๊ฐ๋ฅํ๋ค: ์ ์ ํ ์ฌ์ ํ๋ จ๊ณผ ์ํคํ ์ฒ๋ก 200๊ฐ ํ์คํฌ ๋์ ํ์ต ๊ฐ๋ฅ
Foundation Model ๋ ์ํผ์ ์ ํจ์ฑ: ๋๊ท๋ชจ ์ฌ์ ํ๋ จ + ์จ๋ผ์ธ RL ์กฐํฉ์ด ์ฐ์ ์ ์ด์์๋ ํจ๊ณผ์
์ธ์ด ์กฐ๊ฑดํ์ ๊ฐ์น: ์์ฐ์ด ์ง์๋ฌธ์ด ๋ฉํฐํ์คํฌ ํ์ต๊ณผ ์ผ๋ฐํ์ ๊ธฐ์ฌ
์๋ ๋ชจ๋ธ์ ์ ์ฌ๋ ฅ: ์ ์ฌ ๊ณต๊ฐ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ์ด ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ์ค์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
7.2 ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ๋ํ ํจ์
์ด ์ฐ๊ตฌ๋ ๋ก๋ด๊ณตํ์ ์ค๋ ๋ชฉํ์ธ ๋ฒ์ฉ ๋ก๋ด ์์ด์ ํธ๋ฅผ ํฅํ ์ค์ํ ์ง์ ์ ๋๋ค:
- ์ฐ๊ตฌ ๋ฐฉํฅ: ๋จ์ผ ํ์คํฌ ์ต์ ํ์์ ๋ฉํฐํ์คํฌ ์ผ๋ฐํ๋ก ์ ํ
- ๋ฒค์น๋งํน: ํ์คํ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ๋ก ๊ณต์ ํ ๋น๊ต ๊ฐ๋ฅ
- ์ค์ฉ์ฑ: ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ํฅํ ํ์ฅ ๊ฐ๋ฅํ ์ ๊ทผ๋ฒ
7.3 ๋ง๋ฌด๋ฆฌ ์๊ฐ
Newt์ MMBench๋ ์ฐ์ ์ ์ด๋ฅผ ์ํ ๊ฐํํ์ต ์ฐ๊ตฌ์ ์๋ก์ด ์ด์ ํ๋ฅผ ์ธ์๋๋ค. 200๊ฐ ํ์คํฌ๋ผ๋ ๊ท๋ชจ, ์ธ์ด ์กฐ๊ฑดํ๋ผ๋ ์ธํฐํ์ด์ค, ๊ทธ๋ฆฌ๊ณ Foundation Model์์ ์๊ฐ๋ฐ์ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ชจ๋ ๋ฏธ๋ ๋ก๋ด ์์คํ ๊ฐ๋ฐ์ ์ค์ํ ์ง์นจ์ ์ ๊ณตํฉ๋๋ค.
๋ฌผ๋ก ์์ง ๊ฐ ๊ธธ์ด ๋ฉ๋๋ค. ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด, ๋ ๋ค์ํ ์ ์ฒด ๊ตฌ์กฐ ์ง์, ๊ทธ๋ฆฌ๊ณ ์์ ํ ๋ฐฐํฌ ๋ฐฉ๋ฒ๋ก ๋ฑ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค. ํ์ง๋ง ์ด ์ฐ๊ตฌ๊ฐ ๋ณด์ฌ์ฃผ๋ ๊ฐ๋ฅ์ฑ์ ๋ถ๋ช ํฉ๋๋ค: ๋จ์ผ ์์ด์ ํธ๊ฐ ์๋ฐฑ ๊ฐ์ ๋ค์ํ ํ์คํฌ๋ฅผ ์ํํ๋ ๊ฒ์ ๋ ์ด์ ๋จผ ๋ฏธ๋์ ์ด์ผ๊ธฐ๊ฐ ์๋๋๋ค.
๐ ์ฐธ๊ณ ๋ฌธํ
- Hansen, N., Su, H., & Wang, X. (2024). TD-MPC2: Scalable, Robust World Models for Continuous Control. ICLR 2024.
- Hafner, D., et al. (2025). Mastering diverse control tasks through world models. Nature.
- Yu, T., et al. (2020). Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning. CoRL 2019.
- Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347.
- Fujimoto, S., et al. (2025). FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control.
- Georgiev, I., et al. (2024). PWM: Policy Learning with Multi-Task World Models.
- Ha, D., & Schmidhuber, J. (2018). World Models. arXiv:1803.10122.
์์ฝ ์นด๋
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋ ผ๋ฌธ ์ ๋ชฉ | Learning Massively Multitask World Models for Continuous Control |
| ํํ | ICLR 2026 (์ ์ถ) |
| ํต์ฌ ๊ธฐ์ฌ | MMBench (200 ํ์คํฌ), Newt (์ธ์ด ์กฐ๊ฑดํ ์๋ ๋ชจ๋ธ) |
| ๋ฐฉ๋ฒ๋ก | ๋ฐ๋ชจ ์ฌ์ ํ๋ จ + ์จ๋ผ์ธ RL ๊ณต๋ ์ต์ ํ |
| ์ฑ๋ฅ | BC, PPO, FastTD3 ๋๋น ์ฐ์ํ ๋ฉํฐํ์คํฌ ์ฑ๋ฅ |
| ๊ณต๊ฐ ์์ | ํ๊ฒฝ, ๋ฐ๋ชจ, ์ฝ๋, ์ฒดํฌํฌ์ธํธ |
| ์น์ฌ์ดํธ | https://newt-world-models.github.io |
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ์ผ๋ฐ ๋ชฉ์ ๊ฐํํ์ต๊ณผ ๋ฉํฐํ์คํฌ์ ๋์ ๊ณผ์
๋ก๋ด์ด๋ ์์ด์ ํธ๊ฐ ์๋ฐฑ ๊ฐ์ง์ ์ด๋ฅด๋ ๋ค์ํ ์์ ๊ณผ ๋ค์ํ ๋ก๋ด ํํ(embodiments)๋ฅผ ๋ชจ๋ ์ ์ํํ๋ ๋ฒ์ฉ ์ ์ด ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ ํ๋ ๊ฐํํ์ต ์ฐ๊ตฌ์ ๊ถ๊ทน์ ์ธ ๋ชฉํ ์ค ํ๋์ ๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ๊น์ง ์ฐ์ ์ ์ด ๋ถ์ผ์ ๊ฐํํ์ต ์ฐ๊ตฌ๋ ๋๋ถ๋ถ ๋จ์ผ ์์ ๋๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํ์ ๋์ด ์งํ๋์์ต๋๋ค. ์ด๋ ์จ๋ผ์ธ ์ํธ์์ฉ์ ํตํ RL(๊ฐํํ์ต)์ ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ค๋ ์ธ์์ ๊ฐํ์์ผ ์์ต๋๋ค. ํํธ, ์ต๊ทผ ๊ฑฐ๋ ๋ชจ๋ธ(foundation model)์ ์ฑ๊ณต์ ํ์ ์ด, ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ชจ๋ธ์ ์ฌ์ ํ์ต(pretraining)ํ ํ ๋น๊ต์ ์ ์ ์ถ๊ฐ ํ์ต(fine-tuning)์ผ๋ก ์๋ก์ด ๊ณผ์ ์ ์ ์ฉํ๋ ์ ๊ทผ์ด ๊ฐ๊ด๋ฐ๊ณ ์์ต๋๋ค. ์์ปจ๋ ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ด๋ ๊ฒ์ ์์ด์ ํธ๋ค์ ๋์ฉ๋์ ์์ฐ(demonstrations) ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ง๋ํ์ต์ผ๋ก ํ์ต๋ ํ, ํ์ํ๋ฉด ์ฝ๊ฐ์ RL๋ก ์ฑ๋ฅ์ ๋ค๋ฌ๋ ๋ฐฉ์์ด ์ฌ์ฉ๋ฉ๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์์ฐ ๊ธฐ๋ฐ ํ์ต๋ง์ผ๋ก๋ ๋ช ๊ฐ์ง ํ๊ณ๊ฐ ์์ต๋๋ค: (i) ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋์ ์ ํ์ด ์๊ณ , (ii) ์ต์ข ์ ์ฑ ์ฑ๋ฅ์ด ์์ฐ ๋ฐ์ดํฐ์ ํ์ง์ ์ํด ์ ํ๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ค์ ๋งํด, ์ฌ๋์ด ์ ๊ณตํ ์์ฐ์ ์์กดํ๊ธฐ ๋๋ฌธ์ ๋ ์ด์ ์์ฐ ์ด์์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ์ฑ ์ ์ง์์ ํฅ์์ ์ด๋ฃจ๊ธฐ ์ํด, ์ ์ฐจ ๊ฐํํ์ต์ ์ ๋ชฉํ๋ ค๋ ์๋๊ฐ ๋๊ณ ์์ต๋๋ค. ์ค์ ๋ก ๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ์ด๋ ๊ฒ์ AI์์๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ํ์ต์ํจ ํ ์ถ๊ฐ RL๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ฌ๋ก๊ฐ ๋ํ๋๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฐ์ ์ ์ด ๋ถ์ผ์์๋ ์ฌ์ ํ ์ข์ ๋ฒ์์ ๊ณผ์ ๋ค(Tassa et al., 2018; Hafner et al., 2023 ๋ฑ)์ด๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ ํ์ต(Lee et al., 2022; Hansen et al., 2024 ๋ฑ)์ ๋จธ๋ฌด๋ฅด๋ ๊ฒฝํฅ์ด ๊ฐํ์ต๋๋ค. ์ฐ์ ์ ์ด ํ๊ฒฝ์์ ์จ๋ผ์ธ RL์ ํตํด ๋ฒ์ฉ ์ ์ฑ ์ ํ์ต์ํค๋ ๊ฒ์ด ๊ณผ์ฐ ๊ฐ๋ฅํ๊ณ ์ค์ฉ์ ์ธ์ง ๋ช ํํ์ง ์์๋ ๊ฒ์ ๋๋ค.
โLearning Massively Multitask World Models for Continuous Controlโ ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด ์ง๋ฌธ์์ ์ถ๋ฐํฉ๋๋ค. ์ ์๋ค์ ์จ๋ผ์ธ ์ํธ์์ฉ๋ง์ผ๋ก ์๋ฐฑ ๊ฐ์ ๋ฌํ๋ ์ฐ์ ์ ์ด ์์ ์ ํ๊บผ๋ฒ์ ํ์ตํ ์ ์๋์ง ํ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ด ๋ ผ๋ฌธ์ ๋ ๊ฐ์ง ์ฃผ์ ๊ณตํ์ ํฉ๋๋ค:
MMBench ๋ฒค์น๋งํฌ: 200๊ฐ์ ๋ค์ํ ์ฐ์ ์ ์ด ์์ ์ผ๋ก ์ด๋ฃจ์ด์ง ์๋ก์ด ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ํ๊ฒฝ์ ๊ตฌ์ถํ์ต๋๋ค. ๊ฐ ์์ ์ ๊ณ ์ ํ ๋ก๋ด/์์ด์ ํธ ํํ์ ๋ฌผ๋ฆฌ ๋์ญํ, ๋ชฉํ๋ฅผ ๊ฐ์ง๋ฉฐ, ์์ฐ์ด๋ก ๋ ์์ ์ง์๋ฌธ, ์ ๋ฌธ๊ฐ ์์ฐ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ์ ์ฐจ์ ์ํ/state ๊ด์ธก์ด๋ RGB ์์ ๊ด์ธก์ ํฌํจํ๊ณ ์์ต๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ํฅํ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ RL ์ฐ๊ตฌ๋ฅผ ๊ฐ์ํํ๊ธฐ ์ํ ๊ณต์ฉ ํ ์คํธ๋ฒ ๋ ์ญํ ์ ํ๊ฒ ๋ฉ๋๋ค.
Newt: ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ ์์ด์ ํธ: Newt๋ผ ๋ช ๋ช ๋ ์ธ์ด ์กฐ๊ฑด๋ถ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ ์์ด์ ํธ๋ฅผ ์ ์ํ์์ต๋๋ค. ์ด ์์ด์ ํธ๋ ์์ฐ ๋ฐ์ดํฐ๋ก ์ ํ ํ์ต(pretraining)ํ์ฌ ์์ ์ ๋ํ ํํ๊ณผ ํ๋ priors๋ฅผ ๋จผ์ ์ต๋ํ ๋ค, ์จ๋ผ์ธ RL์ ํตํด ๋ชจ๋ ์์ ์ ๋์์ ํ์ตํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋ชจ๋ธ ๊ธฐ๋ฐ(MBRL) ์ ๊ทผ๋ฒ์ ํ์ฉํ Newt๋ ํ๋์ ์ธ๊ณ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ์์ ์ ๋์ญํ์ ํ์ตํ๋ฉฐ, ๋ชจ๋ ์์ ์ ๊ฑธ์น ๊ณตํต๋ ๋ฌผ๋ฆฌ๋ฅผ ๊ณต์ ํ๋ฉด์๋ ์์ฐ์ด ์ง์๋ก ๊ฐ ์์ ์ ๊ตฌ๋ถํ๋ ์ ๋ต์ ์ทจํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, Newt ์์ด์ ํธ๋ ๋ค์ํ ๊ฐ๋ ฅํ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค(์: PPO, TD3 ๋ฑ์ ๋ฉํฐํ์คํฌ ๋ฒ์ ๋ฐ ํ๋ ๋ชจ๋ฐฉ ๋ชจ๋ธ ๋ฑ)์ ๋ฅ๊ฐํ๋ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ํ๊ท ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ ํ์ต๋ ์๋ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ํ๊ฒฝ ํผ๋๋ฐฑ ์์ด(open-loop)๋ ๊ฝค ์ค๋ ์๊ฐ ํฉ๋ฆฌ์ ์ธ ํ๋ ์ํ์ค๋ฅผ ๊ณํํ ์ ์์์ ๋ณด์ฌ ์ฃผ์๊ณ , ๋ณด์ง ๋ชปํ ์๋ก์ด ์์ ์ ๋ํ ๋น ๋ฅธ ์ ์๋ ๊ฐ๋ฅํจ์ ํ์ธํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์จ๋ผ์ธ ๊ฐํํ์ต์ ํตํด์๋ ๋ค๋์ ์ฐ์ ์ ์ด ์์ ์ ๋์์ ํ์ต์ํฌ ์ ์์์ ์ฆ๋ช ํ๋ฉฐ, ํฅํ ๋ชจ๋ธ ๊ธฐ๋ฐ RL๊ณผ ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ์ ์ค์ํ ์์ฌ์ ์ ์ค๋๋ค.
์ด์ ๋ณธ ํฌ์คํธ์์๋ ํด๋น ๋ ผ๋ฌธ์ ํต์ฌ ๋ด์ฉ์ ๊ตฌ์กฐ์ ์ผ๋ก ์ ๋ฆฌํ๊ณ , ๊ธฐ์ ์ ์ธ ๊ธฐ์ฌ ๋ฐ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ์ ๋๊ธฐ์ ๊ณผ์ , Newt ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ํ์ต ๋ฐฉ๋ฒ, ๊ณต์ ๋๋ ๋์ญํ์ ์ด์ , MMBench์ ์ธ๋ถ ๊ตฌ์ฑ ๋ฐ ๋ํ ๋ฒค์น๋งํฌ (DMControl-MT, MetaWorld-MT ๋ฑ), ๊ธฐ์กด ๋จ์ผ/๋ค์ค ์ ์ฑ ๊ณผ์ ๋น๊ต ์คํ, ๊ตฌ์ฑ ์์๋ณ Ablation(์๊ฑฐ ์คํ), ๊ทธ๋ฆฌ๊ณ ํฅํ ์ฐ๊ตฌ์ ๋ํ ์์ฌ์ ์์ผ๋ก ์ ๋ฆฌํฉ๋๋ค.
MMBench: 200๊ฐ์ง ์ฐ์ ์ ์ด ์์ ์ผ๋ก ๊ตฌ์ฑ๋ ๋ฉํฐํ์คํฌ ๋ฒค์น๋งํฌ
Newt ์์ด์ ํธ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ณ ๋ฉํฐํ์คํฌ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ์ฐ๊ตฌํ๊ธฐ ์ํด, ์ ์๋ค์ MMBench๋ผ๋ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ RL ๋ฒค์น๋งํฌ๋ฅผ ์๋กญ๊ฒ ๊ตฌ์ถํ์ต๋๋ค. MMBench๋ ์ด 200๊ฐ์ ์ ๋ํฌํ ์ฐ์ ์ ์ด ์์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, 10๊ฐ์ง ์๋ก ๋ค๋ฅธ ์์ ๋๋ฉ์ธ์ ํฌ๊ดํฉ๋๋ค. ๊ฐ ์์ ์ ๋ฌดํ-์๋ช MDP ํ์(episode ์ข ๋ฃ ์กฐ๊ฑด ์์)์ผ๋ก ์ ์๋๊ณ , ์ผ์ ๊ธธ์ด ๋์ ์์ด์ ํธ์ ํ๋ ์ํ์ค๋ฅผ ํตํด ๋์ ๋ณด์(return)์ ํ๋ํ๋ ๊ณผ์ ์ ๋๋ค. ๋ชจ๋ ์์ ์๋ ํด๋น ๋ชฉํ๋ฅผ ์ค๋ช ํ๋ ์์ฐ์ด ์ง์๋ฌธ์ด ์ ๊ณต๋๋ฉฐ, ์์ ๋น ๋ช ๊ฐ์ฉ์ ์ ๋ฌธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ ธ ์ด๊ธฐ ํ์ต์ ํ์ฉ๋ ์ ์์ต๋๋ค. ๊ด์ธก ํํ๋ ์ธ ๊ฐ์ง ๋ชจ๋๋ฅผ ๋ชจ๋ ์ง์ํ๋๋ฐ, (1) ํ๊ฒฝ ์ํ๋ฅผ ์์น๋ก ํํํ ์ ์ฐจ์ ์ํ ๋ฒกํฐ, (2) 224ร224 RGB ์นด๋ฉ๋ผ ์์, (3) ์ํ+์์ ๋ ๊ฐ์ง ๊ฒฐํฉ ๊ด์ธก ํํ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ด๋ฌํ ํต์ผ๋ ์ธํฐํ์ด์ค๋ฅผ ํตํด ์ฐ๊ตฌ์๋ ์ํ๊ธฐ๋ฐ/์๊ฐ๊ธฐ๋ฐ ๋ชจ๋ ์๋๋ฆฌ์ค๋ฅผ ์คํํ ์ ์๊ฒ๋ ์ค๊ณ๋์์ต๋๋ค.
MMBench์ ํฌํจ๋ 10๊ฐ ์์ ๊ตฐ(domain)๊ณผ ๊ฐ ๊ตฌ์ฑ ์์ ์ ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
DeepMind Control Suite (DMControl): ํ์ค ์ฐ์ ์ ์ด ๋ฒค์น๋งํฌ๋ก ๋๋ฆฌ ์ฐ์ด๋ DMControl ํ๊ฒฝ๋ค์ ๋๋ค (์: Finger, Fish, Quadruped ๋ฑ). ์ฃผ๋ก ๊ด์ ์ด๋์ด๋ ๋ฌผ์ฒด ์กฐ์ ๋ฑ์ ๋จ์ํ ๋ก๋ด ๊ณผ์ ๊ฐ 21๊ฐ ํฌํจ๋์์ต๋๋ค. ๊ฐ ์ํผ์๋๋ ๊ณ ์ ๋ ๊ธธ์ด(ํ๋ ์ ๋ฐ๋ณต ๊ณ ๋ ค ์ ์ฝ 500์คํ )์ด๋ฉฐ ๋ณด์์ ์์ ๋ง๋ค ์์ดํ dense ๋๋ sparse ํํ์ง๋ง 0~1000 ๋ฒ์๋ก ์ ๊ทํ๋์ด ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด ์ ์๋ฅผ 0~1๋ก ๋ค์ ์ ๊ทํํ์ฌ ์ฑ๋ฅ ์งํ๋ก ์ผ์์ต๋๋ค. (์์ ์์ : Finger Turn Hard, Fish Swim, Quadruped Run)
DMControl Extended: ์ ์๋ค์ด ๊ธฐ์กด DMControl์ ํ์ฅํด ์ถ๊ฐํ ์ฌ์ฉ์ ์ ์ ์์ ๋ค์ ๋๋ค. Hansen et al. (2024)์์ ์ ์๋ 11๊ฐ ์ปค์คํ ๊ณผ์ ์, ์๋ก์ด ๋ก๋ด ํํ(Jumper, Spinner, Giraffe)์ ๋ํ 5๊ฐ์ ๊ณผ์ ๋ฅผ ๋ํด ์ด 16๊ฐ์ ์ถ๊ฐ ์์ ์ ๋ง๋ค์์ต๋๋ค. ์ด๋ค๋ 500์คํ ์ํผ์๋์ 0~1000 ๋ฆฌํด์ผ๋ก ์ค๊ณ๋์๊ณ ๋์ผํ๊ฒ 0~1 ์ ๊ทํ๋ฉ๋๋ค. (์์: Walker Run Backward, Cheetah Jump, Spinner Spin)
Meta-World (๋ฉํฐํ์คํฌ ๋ก๋ด ์กฐ์): Sawyer ๋ก๋ดํ์ ์ฌ์ฉํ 50๊ฐ์ง ํ ์ด๋ธ ์ ๋ฌผ์ฒด ์กฐ์ ์์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ ๋ช ๋ฒค์น๋งํฌ์ ๋๋ค (ML1/ML45 ๋ฑ์ผ๋ก ์๋ ค์ง). ๊ณตํต๋ ๊ด์ธกยท์ก์ ๊ณต๊ฐ์ ๊ณต์ ํ์ฌ ๋ฉํฐํ์คํฌ ํ์ต์ ์ฉ์ดํ๊ฒ ์ค๊ณ๋์ด ์์ต๋๋ค. ๊ฐ ์ํผ์๋๋ 100 ์คํ ์ผ๋ก ํ์ ๋๊ณ , Dense ๋ณด์๊ณผ ํจ๊ป ์ฑ๊ณต ํ์ ๊ธฐ์ค์ด ์์ด ์ํผ์๋ ์ข ๋ฃ ์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ฑ๊ณต๋ฅ ์ 0~1 ์ฌ์ด์ Normalized score๋ก ์ฌ์ฉํ์ต๋๋ค. 50๊ฐ ์ค ์๋ฎฌ๋ ์ดํฐ ์ค๋ฅ๊ฐ ์๋ 1๊ฐ๋ฅผ ์ ์ธํ 49๊ฐ ์์ ์ ์ฌ์ฉํ์ต๋๋ค. (์์: Assembly, Bin Picking, Lever Pull)
ManiSkill3: ๋ค์ํ ๋ก๋ด ๊ตฌ์ฒด๋ค์ ํฌํจํ ์ข ํฉ ๋ก๋ณดํฑ์ค ์๋ฎฌ๋ ์ดํฐ์ ๋๋ค. ํ ์ด๋ธ ์ ์ํ ๋ก๋ดํ ์กฐ์, ์ฌ์กฑ๋ณดํ, ํด๋จธ๋ ธ์ด๋ ์ ์ ์ ์ด, ์ด๋ ๋ก๋ด, ๊ทธ๋ฆฌ๊ณ DMControl/Gym ์ ์ฌ ๊ณผ์ ๋ค๊น์ง ํญ๋๊ฒ ์์ฐ๋ฅด๋ ์คํ์์ค ํ๊ฒฝ์ ๋๋ค. ์์ ๋ง๋ค ๊ด์ธก/์ก์ ๊ณต๊ฐ ์ฐจ์์ด ๋ฌ๋ผ ๋ฉํฐํ์คํฌ ํ์ต์ด ์ฝ์ง ์์ง๋ง, ์ ์ฌํ ๊ทธ๋ฃน ๋ด์์๋ ํํ๊ฐ ๋น์ทํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด 36๊ฐ ์์ ์ ์ ์ ํ์ผ๋ฉฐ, ์ด ์ค 5๊ฐ๋ ๋ ผ๋ฌธ์์ ์๋ก ์ถ๊ฐํ ๊ณผ์ ์ ๋๋ค. ์ํผ์๋ ๊ธธ์ด๋ ์์ ๋ณ ๊ธฐ๋ณธ๊ฐ์ ๋ฐ๋ฅด๋ action repeat=2๋ฅผ ์ ์ฉํ๊ณ , ์ฑ๊ณต ๊ธฐ์ค์ด ์๋ ๊ฒฝ์ฐ ์ฑ๊ณต๋ฅ ์ ์ ์๋ก, ์๋ ๊ฒฝ์ฐ 0~1 ์ ๊ทํ๋ ๋ฆฌํด์ ์ฑ๋ฅ ์งํ๋ก ์ผ์์ต๋๋ค. (์์: Stack Cube, Pick Screwdriver, Anymal Reach)
MuJoCo Gym: ๊ณ ์ ์ ์ธ OpenAI Gym ์ฐ์ ์ ์ด ๊ณผ์ ๋ค๋ก, MuJoCo ๋ฌผ๋ฆฌ์์ง์ ์ฌ์ฉํ๋ ํ์ค RL ํ๊ฒฝ์ ๋๋ค. ๊ด์ธก๊ณผ ์ก์ ๊ณต๊ฐ์ด ์์ ๋ง๋ค ๋ค๋ฅด๊ณ ์ข ์ข ์ํธ ํธํ๋์ง ์์ง๋ง, ๋ํ์ ์ธ ๊ณผ์ ๋ฅผ ์ ์ ํ์ต๋๋ค. ๋ชจ๋ ์ข ๋ฃ ์กฐ๊ฑด์ ์ ๊ฑฐํ์ฌ ์ผ์ ๊ธธ์ด๋ก ๋ง์ถ๊ณ , Sparse ๋ณด์์ ๊ฒฝ์ฐ ์ฑ๊ณต์๋ง ์ ์๊ฐ ์ฃผ์ด์ง๋ฏ๋ก 0~1 ๊ตฌ๊ฐ์ผ๋ก ๋ฆฌํด์ ์ ๊ทํํ์ฌ ์ฌ์ฉํ์ต๋๋ค. ์ด 6๊ฐ ์์ (Ant, HalfCheetah, Reacher ๋ฑ)์ ํฌํจํฉ๋๋ค.
MiniArcade (๋ฏธ๋ ์์ผ์ด๋ ๊ฒ์): ๋ ผ๋ฌธ์์ ์๋กญ๊ฒ ๊ตฌํํ 2D ๊ฒ์ ์์ ๊ตฐ์ ๋๋ค. ํ์ด๊ฒ์(PyGame)์ผ๋ก ๋ง๋ ๊ฐ๋จํ ์์ผ์ด๋ ์คํ์ผ ๊ฒ์๋ค๋ก, 14์ข ์ ๊ฒ์์ ๋์ด๋ ๋ณํ ๋ฑ์ ํฌํจํด ์ด 19๊ฐ ์์ ์ ํ์ต์ ์ฌ์ฉํ์ต๋๋ค. ๊ฐ ๊ฒ์์ ๊ด์ธก/์ก์ ๊ณต๊ฐ, ๋ชฉํ, ๋ณด์ ์ฒด๊ณ ๋ฑ์ด ์ ๊ฐ๊ธฐ ๋ค๋ฅด๋ฉฐ, ์ํผ์๋ ๊ธธ์ด๋ ๋ค์ํ์ง๋ง, ์ฑ๊ณต ๊ธฐ์ค์ด ๋ช ํํ ๊ฒฝ์ฐ ์ด๋ฅผ 0~1 ๊ธฐ์ค์ผ๋ก ์ ๊ทํํ๊ณ ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ๋ฆฌํด์ ์ ๊ทํํ์ฌ ์ ์๋ฅผ ์ฑ ์ ํ์ต๋๋ค. ์ํ ๊ธฐ๋ฐ ๋ฐ ํฝ์ ๊ธฐ๋ฐ ํ๋ ์ด ๋ชจ๋ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์๊ฐ์ ๋ค์์ฑ์ ์ํด ๋๋ฉ์ธ ๋๋คํ๋ ์ ์ฉํ์ต๋๋ค. (์์: Spaceship, Coconut Dodge, Chase-Evade)
Box2D (2D ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ): ํด๋์ํ 2D ๋ฌผ๋ฆฌ ์์ง(Box2D)์ ํ์ฉํ ํ๊ฒฝ์ผ๋ก, OpenAI Gym ์ด๊ธฐ ๋ฒ์ ์ ํฌํจ๋์๋ ๊ณผ์ ๋ค์ ๋๋ค. ๋ํ์ ์ผ๋ก BipedalWalker์ LunarLander๊ฐ ์์ผ๋ฉฐ, ๋ ผ๋ฌธ์์๋ ๋ณํ ๊ณผ์ ๋ฅผ ํฌํจํด 8๊ฐ ์์ ์ ์ ์ ํ์ต๋๋ค. ์๋ ๊ฐ ์์ ๋ง๋ค ์ข ๋ฃ ์กฐ๊ฑด์ด ์์์ง๋ง ์ด๋ฅผ ๋ชจ๋ ๋นํ์ฑํํ์ฌ ์ผ์ ๊ธธ์ด๋ก ํต์ผํ๊ณ , Dense ๋ณด์์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉฐ ๋ฆฌํด์ 0~1๋ก ์ ๊ทํํ์ต๋๋ค. (์์: Bipedal Walker (Obstacles), LunarLander Land, LunarLander Takeoff)
RoboDesk: ๋ก๋ด ๋ฐ์คํฌ ์์ ์ผ๋ก, ๋จ์ผ ์ฑ ์ ํ๊ฒฝ ์์์ 9๊ฐ์ง์ ๋ฌผ์ฒด ์กฐ์ ๊ณผ์ ๋ฅผ ์ํํ๋ ๋ฉํฐํ์คํฌ ํ๊ฒฝ์ ๋๋ค. ๊ด์ธก๊ณผ ์ก์ ๊ณต๊ฐ์ ๋ชจ๋ ์์ ์ด ๊ณต์ ํ์ฌ ๋ฉํฐํ์คํฌ ํ์ต์ ์ ํฉํ๋ฉฐ, ์กฐ์ ๋์ ๋ฌผ์ฒด์ ๋ชฉํ๋ง ๋ค๋ฅด๊ฒ ๊ตฌ์ฑ๋ฉ๋๋ค. ์๊ฐ ๊ด์ธก๊ณผ ์ํ ๊ด์ธก ๋ชจ๋๋ฅผ ์ง์ํ๊ณ Dense ๋ณด์๊ณผ ์ฑ๊ณต ๊ธฐ์ค์ ์ ๊ณตํ๋๋ฐ, ๋ ผ๋ฌธ์์๋ ์ฑ๊ณต๋ฅ ์ ์ฑ๋ฅ ์ ์๋ก ์ฌ์ฉํ์ต๋๋ค. ์ด 6๊ฐ ์์ ์ ์ฌ์ฉํ์ต๋๋ค. (์์: Push Green (๋ น์ ๋ฌผ์ฒด ๋ฐ๊ธฐ), Open Drawer, Place Flat Block in Bin)
OGBench (Offline Goal-conditioned Bench): Park et al., 2025์์ ์ ์๋ ์คํ๋ผ์ธ ๋ชฉํ์งํฅ RL ๋ฒค์น๋งํฌ๋ฅผ ์จ๋ผ์ธ ์ค์ ์ผ๋ก ์ ํํ์ฌ ์ฌ์ฉํ์ต๋๋ค. ์ฌ๋ฌ ์ข ๋ฅ์ ํ๊ฒฝ๊ณผ ๋ก๋ด ํํ๊ฐ ์์ฌ ์์ผ๋ฉฐ, ์๋๋ ๋ฉํฐ-๋ชฉํ ํ์ต์ฉ์ผ๋ก ๊ณ ์๋์์ผ๋ ๋ค์ค embodiment ํ์ต๋ ๊ฐ๋ฅํ๋๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ก์ ๊ณต๊ฐ ์ฐจ์์ ๊ณผ์ ๋ณ๋ก ๋ค๋ฅด๊ณ ์ํผ์๋ ๊ธธ์ด๋ ์์ดํ์ง๋ง, ๋ ผ๋ฌธ์์๋ ๊ฐ ์์ ์ ๋ํด ์ผ์ ๊ธธ์ด๋ก ๋ง์ถ๊ณ ์ข ๋ฃ ์กฐ๊ฑด์ ์์ด์ต๋๋ค. ๋ณด์์ dense ํํ๋ก ์ฃผ์ด์ง๋ฉฐ, ๋ฆฌํด์ 0~1๋ก ์ ๊ทํํ์ฌ ์ ์๋ก ์ผ์์ต๋๋ค. ์ด 12๊ฐ ์์ ์ ์ ๋ณํ์ต๋๋ค (์: ์ด์ค์๋ 2D ํฌ์ธํธ๋จธ์ค ๋ฏธ๋ก ํ์, Ant ๋ก๋ด ๋ชฉํ ์ด๋ ๋ฑ์ ๊ณผ์ ๊ฐ ํฌํจ๋จ).
Atari (Arcade Learning Environment): ๊ณ ์ Atari ๊ฒ์ 27๊ฐ๋ฅผ ์ฐ์ ํ๋ ๊ณต๊ฐ์ผ๋ก ๋ณํํ ํ๊ฒฝ๋ ํฌํจ๋์์ต๋๋ค. (Farama ๋ฑ์์ ALE๋ฅผ ์ฐ์ ์ ์ด๋ก ํ์ฅํ ๋ฒ์ ์ ์ฌ์ฉ.) Atari ๊ฒ์๋ค์ ์๋ก ๊ฒ์ ๋ฃฐ์ด ์์ ํ ๋ฌ๋ผ ๊ณตํต์ ์ด ์ ์ง๋ง, ์ฌ๊ธฐ์๋ ๋ฉํฐํ์คํฌ ํ์ต์ ๋ฒ์๋ฅผ ๋ํ๊ธฐ ์ํด Space Invaders, Ms. Pacman, Bowling ๋ฑ ๋ค์ํ ์ฅ๋ฅด์ ๊ฒ์๋ค์ ํ๋ฐ ๋ชจ์์ต๋๋ค. ํ๋ ์ ๊ด์ธก(๋๋ RAM ์ํ)์ ์ฌ์ฉํ ์ ์๊ณ , ์ํผ์๋๋ง๋ค ์ผ์ ๊ธธ์ด๋ก ํ๋ ์ดํ๋ฉฐ ์ต์ข ์ ์๋ฅผ 0~1๋ก ์ ๊ทํํ์ต๋๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ดํฐ ํน์ฑ์ stochastic(ํ๋ฅ ์ ) ์์๊ฐ ์๊ณ , RL ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋นํด Atari์์๋ ์ด๋ ค์์ ๊ฒช๋ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
์ด์ฒ๋ผ MMBench๋ 159๊ฐ์ ๊ธฐ์กด ์์ ๊ณผ 41๊ฐ์ ์ ๊ท ์์ /๋ณํ์ผ๋ก ์ด๋ฃจ์ด์ง ๊ด๋ฒ์ํ ๊ณผ์ ๋ชจ์์ด๋ฉฐ, ์์ ๋ง๋ค ๊ด์ธก/ํ๋ ๊ณต๊ฐ, ๋ณด์ ๊ตฌ์กฐ, ์ํผ์๋ ๊ธธ์ด, ๋ชฉํ ์ง์๋ฌธ์ด ์ ๊ฐ๊ธฐ ๋ค๋ฆ ๋๋ค. ์ ์๋ค์ MMBench๋ฅผ ๊ตฌ์ถํ๋ฉด์, ์ด์ฒ๋ผ ์ด์ง์ ์ธ ํ๊ฒฝ๋ค์ ๋จ์ผํ ํ๋ ์์ํฌ๋ก ํตํฉํ๊ธฐ ์ํด ๋ง์ ๋ ธ๋ ฅ์ ๊ธฐ์ธ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ ํ๊ฒฝ์ ๊ณตํต ์ธํฐํ์ด์ค๋ก ๋ํํ๊ณ , ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ ์ฝ๊ฒ ํ ์ ์๋๋ก Docker ์ด๋ฏธ์ง์ ๋น๋๊ธฐ ํ๊ฒฝ wrapper ๋ฑ์ ์ ๊ณตํ์ต๋๋ค. ๋ํ ๋ชจ๋ ์์ ์ ๋ํด ์์ฐ์ด ์ง์๋ฌธ์ ์์ฑํ์ฌ, ๋ชจ๋ธ์ด ์์ ID ๋์ ์ธ์ด๋ก ๊ณผ์ ๋ฅผ ์ธ์งํ๋๋ก ์ค๊ณํ์ต๋๋ค (Appendix B์ ์์ ๋ณ ์ง์๋ฌธ ์์ ์ ๊ณต). ์ด๋ก์จ ์์ ์๋ณ ์ ๋ณด๋ฅผ ๋ฒ์ฉ์ ์ธ ํํ(์ธ์ด)๋ก ์ ์ํ์ฌ ์๋ก์ด ์์ ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ๋ ์ด์ด ๋์์ต๋๋ค.
MMBench ๋ฒค์น๋งํฌ์ ๊ด๋ จ ๋ฆฌ์์ค(ํ๊ฒฝ ์ฝ๋, ์์ฐ ๋ฐ์ดํฐ, ๋ฑ)๋ ๋ ผ๋ฌธ ๊ณต๊ฐ์ ํจ๊ป ์คํ์์ค๋ก ๊ณต๊ฐ๋์์ผ๋ฉฐ, ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ๋๊ตฌ๋ ํ์ฉํ ์ ์๋๋ก ์ค๋น๋์ด ์์ต๋๋ค.
Newt: ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ์๋ ๋ชจ๋ธ ์ํคํ ์ฒ
MMBench์ ์๋ง์ ๊ณผ์ ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด, ์ ์๋ค์ Newt๋ผ๊ณ ์ด๋ฆ ๋ถ์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฉํฐํ์คํฌ RL ์์ด์ ํธ๋ฅผ ์ค๊ณํ์ต๋๋ค. Newt๋ TD-MPC2 (Hansen et al., 2024)๋ผ๋ ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ณ ์๋๋ฐ, ์ด ์๊ณ ๋ฆฌ์ฆ์ ํ์ต๋ ์ธ๊ณ ๋ชจ๋ธ์ ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ํธ๋ ์ ํฐ๋ฆฌ ์ต์ ํ(๊ณํ)๋ฅผ ์ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. TD-MPC2๋ ์ด๋ฏธ ๋จ์ผ ์์ ์จ๋ผ์ธ RL๊ณผ ์๊ท๋ชจ ๋ฉํฐํ์คํฌ ์คํ๋ผ์ธ RL์์ ๊ฐ์ธํ ํ์ต ์ฑ๋ฅ์ ๋ณด์ธ ๋ฐ ์์ผ๋ฉฐ, Newt๋ ์ด๋ฅผ ๋๊ท๋ชจ ์จ๋ผ์ธ ๋ฉํฐํ์คํฌ ์ค์ ์ผ๋ก ํ์ฅํ ๊ฒ์ ๋๋ค.
Newt์ ์ ์ฒด ๊ตฌ์กฐ(architecture)๋ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ์ ์ธ๊ณ ๋ชจ๋ธ(World Model) ๊ตฌ์ฑ ์์๋ค๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:
์ธ์ด ์ธ์ฝ๋: ์์ ์ ๋ํ ์์ฐ์ด ์ง์๋ฌธ g๋ฅผ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํํฉ๋๋ค. ์ฌ์ ํ์ต๋ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํ์ฉํ๋ฉฐ, ๋ ผ๋ฌธ ๊ตฌํ์์๋ CLIP ๋ฑ ์ฌ์ ์ ํ์ต๋ ๋ฐฑ๋ณธ์ ๊ณ ์ (frozen)ํ์ฌ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์์ ์ ๋ชฉํ๋ ๋งฅ๋ฝ์ ํํํ๋ task condition ๋ฒกํฐ g๋ฅผ ์ป์ต๋๋ค.
์ด๋ฏธ์ง ์ธ์ฝ๋ (์ ํ ์ฌํญ): ์ผ๋ถ ์์ ์์๋ ๊ณ ํด์๋ RGB ์ด๋ฏธ์ง ๊ด์ธก s_{\text{img}}์ด ์ฃผ์ด์ง๋๋ค. ์ ์๋ค์ DINOv2 ๋ฑ ๊ฐ๋ ฅํ ์ฌ์ ํ์ต ๋น์ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง ๊ด์ธก์ ์๋ฒ ๋ฉํ๋ ์๊ฐ ๋ฐฑ๋ณธ x๋ฅผ ์ป์์ต๋๋ค. ์ด ๋ํ ํ์ต ๋์ ๊ฐ์ค์น๋ฅผ ๋๊ฒฐํ์ฌ ์ฌ์ฉํ์๊ณ , ๊ณ ์์ค ์๊ฐ ํผ์ฒ๋ฅผ ์ ๊ณตํฉ๋๋ค. (ํ๊ฒฝ์ ๋ฐ๋ผ ์ํ ๋ฒกํฐ๋ง ์๋ ์์ ์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ง ์์ ์๋ ์์ต๋๋ค.)
์ํ ์ธ์ฝ๋ (์ธํผ๋ ์ ๊ฒฝ๋ง): ์ ์ฐจ์ ํ๊ฒฝ ์ํ ๋ฒกํฐ s_{\text{state}} (์: ๊ด์ ๊ฐ๋, ์๋ ๋ฑ)์ ์์ ์ธ์ด ์๋ฒ ๋ฉ g, ๊ทธ๋ฆฌ๊ณ (์๋ ๊ฒฝ์ฐ) ์ด๋ฏธ์ง ํผ์ฒ x๋ฅผ ํจ๊ป ๋ฐ์๋ค์ฌ, ๊ณตํต ์ ์ฌ ์ํ ํํ z๋ฅผ ์ถ๋ ฅํ๋ ์ ๊ฒฝ๋ง h์ ๋๋ค. ์ฆ, ํ์ฌ ๊ด์ธก ์ ๋ณด๋ฅผ ํ๋์ ์ ์ฌ ๊ณต๊ฐ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉํ๋ฉฐ, ์ด z๋ ์์ ์กฐ๊ฑด๊น์ง ๋ฐ์๋ ์ํ ์์ฝ์ด๋ผ ๋ณผ ์ ์์ต๋๋ค. (Newt ๊ตฌํ์์๋ h๋ฅผ ๋น๊ต์ ๋จ์ํ MLP๋ก ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.)
์ ์ฌ ๋์ญํ ๋ชจ๋ธ: d๋ผ๋ ์ ๊ฒฝ๋ง์ผ๋ก ํํ๋๋ฉฐ, ํ์ฌ ์ ์ฌ ์ํ z์ ํ๋ a (๊ทธ๋ฆฌ๊ณ ์์ ์๋ฒ ๋ฉ g)๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ ์์ ์ ์ ์ฌ ์ํ z'๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ ์ผ์ข ์ ์ผ๋จ๊ณ forward ๋ชจ๋ธ๋ก, ํ๊ฒฝ์ ๋์ญํ์ ์ ์ฌ ๊ณต๊ฐ์์ ๋ชจ์ฌํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด ๋ d๋ ํ๋ฅ ์ ์ด์ง ์์ deterministic MLP๋ก ๊ตฌํ๋์ด ์์ต๋๋ค (๋จ, ํ์ต ์์ ํ๋ฅผ ์ํด ์์ ๋๋ค ๊ฐ ์ถ๊ฐ ๋ฑ์ ์์ ์ ์์ต๋๋ค). Newt์ ์ธ๊ณ ๋ชจ๋ธ์ ์ด ์ ์ฌ ๋์ญํ์ ํตํด ํ๊ฒฝ ๋ณํ(๊ด์ธก ๋ณํ)๋ฅผ ์ง์ ์์ธกํ์ง ์๊ณ ์ ์ฌ ์ํ์ ๋ณํ๋ง ์์ธกํฉ๋๋ค. ์ด๋ฌํ ์๊ธฐ์์ธก(self-predictive) ์ ๊ทผ ๋๋ถ์, ๋ณต์กํ ํฝ์ ์ถ๋ ฅ์ ๋์ฝ๋ฉํ์ง ์์๋ ๋์ด ํ์ต ๋น์ฉ์ ํฌ๊ฒ ์ ๊ฐํ ์ ์์ต๋๋ค. ๋ํ ๋ชจ๋ธ์ด ์์ธกํด์ผ ํ๋ ๋์์ด ๋ฏธ๋ ๊ด์ธก์ด ์๋ ๋ณด์๊ณผ ๋ฐํ(return)์ด๋ฏ๋ก, ์ ์ด์ ์ ์ฉํ ์ ๋ณด์ ์ง์คํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๋ค์ ๋งํด, Newt์ ์ธ๊ณ ๋ชจ๋ธ์ ํฝ์ ๋จ ์ ํํ ์์ธก๋ณด๋ค๋ โํน์ ํ๋ ์ํ์ค๊ฐ ๋์ ๋ณด์์ ์ผ๋ง๋ ์ป์์งโ๋ฅผ ์ ์์ธกํ๋๋ก ํ๋ จ๋ฉ๋๋ค.
๋ณด์ ์์ธก ๋ชจ๋ธ: R๋ก ํ์๋๋ ์์ ์ ๊ฒฝ๋ง ํค๋(head)๋ก, ํ์ฌ ์ ์ฌ ์ํ z์ ํ๋ a (๋ฐ g)๋ฅผ ์ ๋ ฅ์ผ๋ก ์ง์ ์ ์ผ๋ก ์ฆ์ ๋ณด์ r'์ ์์ธกํฉ๋๋ค. (์ด ์์ธก๊ฐ์ ํ๋ จ ์ ์ค์ ํ๊ฒฝ ๋ณด์๊ณผ์ ์ฐจ์ด๋ฅผ ํตํด ์์ค๋ก ์ฌ์ฉ๋ฉ๋๋ค.) ์ด๋ฅผ ํตํด ์ธ๊ณ ๋ชจ๋ธ์ ์ฃผ์ด์ง ํ๋์ด ๋จ๊ธฐ์ ์ผ๋ก ํ๊ฒฝ์ ์ฃผ๋ ์ํฅ(๋ณด์)๋ ์์ธกํ๊ฒ ๋ฉ๋๋ค.
๊ฐ(value) ์์ธก ๋ชจ๋ธ: Q๋ผ๋ ์ ๊ฒฝ๋ง ํค๋๋ก, z์ a (๋ฐ g)๋ฅผ ๋ฐ์ ๊ทธ ์ํ-ํ๋์ ์ฅ๊ธฐ์ ๋์ ๋ณด์(์์ ๋ฆฌํด) q'์ ์์ธกํฉ๋๋ค. ์ด๋ ์ผ์ข ์ ๊ฐ์นํจ์ ์ถ์ ์ผ๋ก, TD ํ์ต(Temporal Difference)์ ํตํด ์ ๋ฐ์ดํธ๋ฉ๋๋ค. Newt์์๋ Q ๋ชจ๋์ ํตํด ๋ชจ๋ธ์ด ๋ฏธ๋์ ์ฑ๊ณผ๊น์ง ์์ธกํ๊ฒ ํจ์ผ๋ก์จ, ๊ณํ ๋ฐ ์ ์ฑ ํ์ต์ ํ์ํ ์๊ทธ๋์ ์ ๊ณตํฉ๋๋ค.
์ ์ฑ ํ๋ผ๋ฏธํฐํ (Policy Prior): \pi๋ก ํ์๋๋ ํ๋ ์ ์ฑ ์ ๊ฒฝ๋ง์ผ๋ก, ํ์ฌ ์ ์ฌ ์ํ z (๋ฐ g)๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ ํ๋์ ๋ํ ํ๋ฅ ๋ถํฌ (๊ฐ์ฐ์์ ์ ์ฑ )๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ด ์ ์ฑ ์ ๋ชจ๋ธ ์์ธก๊ณผ ๋ณ๋๋ก ๋ฐฐ์ฐ(Actor) ์ญํ ์ ํ๋ฉฐ, ์ฃผ๋ก ๊ณํ ์๊ณ ๋ฆฌ์ฆ์ ์ด๊ธฐ ํ๋ณด ์ํ์ค ์ ์ ๋๋ ๊ธด๊ธ ์ ํ๋ ์ฐ์ถ ๋ฑ์ ํ์ฉ๋ฉ๋๋ค. ์ ์ฑ \pi๋ BC(Behavior Cloning) ์์ค ๋ฑ์ผ๋ก ์์ฐ์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต๋๋ฉฐ, ์ด๊ธฐ์๋ ์์ฐ ๊ธฐ๋ฐ ํ๋ ์ฐ์ ๋(prior)๋ก์ ๊ธฐ๋ฅํฉ๋๋ค.
Newt์ ํ๋๋(๊ณํ) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ธ๊ณ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์๋ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ชจ๋ธ ์์ธก์น(๋์ญํ d, ๋ณด์ R, ๊ฐ์น Q)๋ฅผ ์ฌ์ฉํด ํ์ฌ ์ ์ฌ ์ํ์์ ๋ฏธ๋ ์ step ๋์์ ํ๋ ์ํ์ค๋ฅผ ํ์ํจ์ผ๋ก์จ ์ต์ ํ๋์ ์ ํํฉ๋๋ค. ์ด๋ ์ผ์ข ์ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC) ๋ฐฉ์์ผ๋ก, \pi ๋คํธ์ํฌ๊ฐ ์ ์ํ๋ ํ๋๋ค์ ์๋๋ก ์ฌ๋ฌ ํ๋ ์ํ์ค๋ฅผ ์ ์ฌ ๊ณต๊ฐ์์ ๋กค์์(์๋ฎฌ๋ ์ด์ )ํด ๋ณด๊ณ , ๊ทธ ์ค ์์ธก๋ ๋์ ๋ณด์์ด ๋์ ์ํ์ค์ ์ฒซ ๋ฒ์งธ ํ๋์ ์คํํ๋ ์์ ๋๋ค. ์ด๋ ๊ฒ planning๊ณผ policy prior๋ฅผ ์กฐํฉํ๋ฉด, ํ์ต ์ด๊ธฐ์๋ ์ ์ฑ ์ด ์ ์ํ๋ ํ๋(์์ฐ ๊ธฐ๋ฐ)์ด ํฐ ์ญํ ์ ํ๊ณ , ์ ์ฐจ ๋ชจ๋ธ์ด ์ ํํด์ง๋ฉด ๋ชจ๋ธ ์์ธก์ ์์กดํด ์๋ก์ด ํ๋ ์กฐํฉ๋ ์๋ํ ์ ์๊ฒ ๋ฉ๋๋ค.
Newt์ ํ์ต ๋ชฉํ๋ ์ด ์ ์ฒด ์ธ๊ณ ๋ชจ๋ธ(h, d, R, Q, \pi)์ ์ผ๊ด๋๊ฒ ํ์ต์ํค๋ ๊ฒ์ ๋๋ค. ํ์ต์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค: (1) ์์ฐ ๋ฐ์ดํฐ์ ๋ํ ์ ํํ์ต๊ณผ (2) ์จ๋ผ์ธ RL์ ํตํ ๊ณต๋ ์ต์ ํ. ์๋์์๋ ์ด๋ฌํ ํ์ต ์ ๋ต์ ์์ธํ ์ค๋ช ํฉ๋๋ค.
์์ฐ ๋ฐ์ดํฐ ํ์ฉ ๋ฐ ํ์ต ์ ๋ต
์๋ฐฑ ๊ฐ์ ์ด๋ฅด๋ ์์ ๋ค์ ์จ๋ผ์ธ RL๋ก ์ง์ ํ์ต์ํค๋ ค ํ ๋ ๊ฐ์ฅ ํฐ ๋๊ด ์ค ํ๋๋ ํ์ ๋ฌธ์ ์ ๋๋ค. ์์ ์๊ฐ ๋ฐฉ๋ํ ์๋ก ๋ฌด์์ ํ์์ผ๋ก ์๋ฏธ์๋ ๋ณด์์ ์ฐพ๊ธฐ๊ฐ ๋งค์ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Newt๋ ๊ฐ ์์ ๋น ๋ช ๊ฐ์ ์์ฐ ๋ฐ์ดํฐ(์ ๋ฌธ๊ฐ ๋๋ ์ฌ์ ํ์ต๋ ๋จ์ผ ํ์คํฌ ์์ด์ ํธ๊ฐ ์ํํ ์ฑ๊ณต ์ํผ์๋)๋ฅผ ์ ๊ทน ํ์ฉํ๋ ์ ๋ต์ ์ทจํ์ต๋๋ค. ์ ์๋ค์ โ์์ฐ์ ์ต๋ํ ํ์ฉํ์ฌ ํ์์ ๋ณด์กฐํ๊ณ ํ์ต ํจ์จ์ ๋์ด๋โ ๋ค ๊ฐ์ง ๊ธฐ๋ฒ์ Newt์ ๋์ ํ์ต๋๋ค:
(1) ์ธ๊ณ ๋ชจ๋ธ ์ ํํ์ต (model-based pretraining): ๋ณธ๊ฒฉ์ ์ธ ์จ๋ผ์ธ ํ์ต์ ๋ค์ด๊ฐ๊ธฐ ์ ์, ๋ชจ๋ ๊ฐ์ค์น(h, d, R, Q, \pi ํฌํจ)๋ฅผ ์์ฐ ๋ฐ์ดํฐ์ ๋ํด ์ฌ์ ํ์ต์ํต๋๋ค. ์์ฐ ๋ฐ์ดํฐ๋ ์ํ-ํ๋-๋ณด์ (s, a, r)์ sequence ํํ๋ก ์ ๊ณต๋๋๋ฐ, ์ด๋ฅผ ์ด์ฉํด ์ธ๊ณ ๋ชจ๋ธ์ ์์ธก ์์ค L(\theta) (๋์ญํ ์์ธก ์ค์ฐจ + ๋ณด์ ์์ธก ์ค์ฐจ + ๊ฐ์น ์์ธก TD์ค์ฐจ ๋ฑ)๊ณผ ์ ์ฑ ๋ชจ๋ฐฉ ์์ค L_p(\theta)๋ฅผ ๋์์ ์ต์ํํ๋๋ก ํ์ตํฉ๋๋ค. ์ด๋ ๊ฐ์น Q ์์ธก์ ๋ํ TD ์ค์ฐจ ํญ๋ชฉ์ ์ผ์์ ์ผ๋ก ์ ์ธํ์ฌ, ์ฐ์ ์ ๊ฐํ ํ๋ ์ง๋(supervision)์ ์ง์คํ๋๋ก ํฉ๋๋ค. (๊ฐ์น ์ถ์ ์ ์์ฐ์ด ์ถฉ๋ถํ์ง ์์ ์ ์์ด ์ด๊ธฐ์๋ ๋ฐฉํด๊ฐ ๋ ์ ์์ผ๋ฏ๋ก ์ ์ธํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.) ์ด๋ฌํ ์ ๊ทผ์ ์ด์ ์ฐ๊ตฌ๋ค์ด ์ธ์ฝ๋๋ ์ ์ฑ ๋ง ๋ถ๋ถ์ ์ผ๋ก ์ฌ์ ํ์ตํ ๊ฒ๊ณผ ๋๋น๋๋ฉฐ, Newt์์๋ ์ธ๊ณ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์์ฐ์ผ๋ก ์ด๊ธฐํํจ์ผ๋ก์จ ํจ์ฌ ํ๋ถํ ์ฌ์ ์ง์์ ์ป์ต๋๋ค. ์ ํํ์ต์ ํตํด Newt๋ ๊ฐ ์์ ์ ๊ธฐ๋ณธ ๋์ ์ํ์ค์ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ตํ ์ ์์ต๋๋ค.
(2) ์ ํ์ ํ๋๋: ์ ์ฑ ์ผ๋ก ์ด๊ธฐ ํธํฅ ๋ถ์ฌ: ์์ฐ์ผ๋ก ์ ํํ์ต ํ ๊ณง๋ฐ๋ก ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋๋์ผ๋ก ์ ํํ๋ฉด, ์ด๋ฐ์๋ ๊ฐ์นํจ์ Q์ ์ถ์ ์ด ๋ถ์ ํํ์ฌ ์คํ๋ ค ์ฌ์ ํ์ต๋ ์ ์ฑ ๋ณด๋ค ๋ชปํ ํ๋์ ๊ณํํ๋ ํ์์ ๊ด์ฐฐํ์ต๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ํ๋ จ ์ด๊ธฐ ๋จ๊ณ์๋ ํ๋๋(MPC)๊ฐ ํ๋ ์ํ์ค๋ฅผ ํ์ํ ๋ ์ ์ฑ \pi๊ฐ ์ ์ํ๋ ํ๋์ ๋ฐ๋ผ๊ฐ๋๋ก ๊ฐํ๊ฒ ํธํฅ(bias)์ ์ฃผ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ต ์ด๋ฐ 12% ๊ตฌ๊ฐ ๋์์ ํ๋๋์ ๋ชฉ์ ํจ์์ โ์ ์ฑ ์ผ๋ก๋ถํฐ ๋ฒ์ด๋์ง ์๋ ์ ๋โ์ ๋ํ ํจ๋ํฐ๋ฅผ ์ถ๊ฐํ์ฌ, ์ ์ฑ ์ด ์ ์ํ ํ๋ ๋ถํฌ์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๋ ๊ณํ์ ์ฐ์ ํ๊ฒ ํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์ ์ฝ ๊ฐ๋๋ฅผ ์ ์ง์ ์ผ๋ก ์ค์ฌ๋๊ฐ, ํ์ต ์คํ๋ฐ์๋ ์์ ํ ๋ชจ๋ธ ์์ธก์๋ง ์์กดํ ์์ ๋ก์ด ๊ณํ์ด ์ด๋ฃจ์ด์ง๋๋ก ์ ํ ๋น์จ๋ก ๊ฐ์(anneal)์์ผฐ์ต๋๋ค. ์ด๋ฌํ constrained planning ๊ธฐ๋ฒ ๋๋ถ์, ํ์ต ์์ ์ ์์ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์์ํ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์์ผ๋ก ์ดํํ ์ ์์์ต๋๋ค.
(3) ์์ฐ ๋ฐ์ดํฐ ๊ณผํ์ง(oversampling): ์จ๋ผ์ธ ์ํธ์์ฉ์ผ๋ก๋ถํฐ ์์ด๋ ๊ฒฝํ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง์๋ก,์ด๊ธฐ ์์ฐ ๋ฐ์ดํฐ๊ฐ ๋ฉ๋ชจ๋ฆฌ์์ ํฌ์๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ์์ฐ์ฉ ๋ณ๋ ๋ฆฌํ๋ ์ด ๋ฒํผ๋ฅผ ์ ์งํ๊ณ , ํ์ต ์ ๋ฏธ๋๋ฐฐ์น์ ์ ๋ฐ์ ์์ฐ ๋ฐ์ดํฐ, ์ ๋ฐ์ ์ค์ ์ํธ์์ฉ ๋ฐ์ดํฐ์์ ๋ฝ๋๋ก ์ํ๋ง ๋น์จ์ ๊ณ ์ ํ์ต๋๋ค. ์ฆ, ์๊ฐ ๊ฒฝ๊ณผ์ ๋ฐ๋ผ ์์ง ๋ฐ์ดํฐ ์์ด ํจ์ฌ ๋ง์์ง๋๋ผ๋ ์ฌ์ ํ 50% ํ๋ฅ ๋ก ์์ฐ ์ฌ๋ก๋ฅผ ํ์ตํ๊ฒ ํ์ฌ, ์์ฐ์ด ์ ๊ณตํ๋ ์ ์ฉํ ์ ๋ณด๊ฐ ๋๊น์ง ๋ณด์กด๋๋๋ก ํ์ต๋๋ค. ์ด๋ Feng et al., 2023; Ball et al., 2023 ๋ฑ์ ์ ํ ์ฐ๊ตฌ ์์ด๋์ด๋ฅผ ์ ์ฉํ ๊ฒ์ผ๋ก, ํจ๊ณผ์ ์ผ๋ก ์์ฐ์ ์ธ์์ ์ผ๋ก ์ฆํญ์์ผ ํ์ ์ ํธ**๋ฅผ ์ง์์ ์ผ๋ก ์ฃผ์ ํ๋ ์ญํ ์ ํฉ๋๋ค.
(4) RL ์ค ํ๋ ๊ฐ๋ ์ถ๊ฐ (BC loss regularization): ์จ๋ผ์ธ RL ๋จ๊ณ์์๋ ์ ์ฑ ์ ๋ฐ์ดํธ ์ ์์ฐ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ์ ๋ํ์ฌ ํ์ต ์์ ์ฑ์ ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฑ \pi์ ์์ค ํจ์์ Behavior Cloning ํญ(๋ชจ๋ธ ๊ธฐ๋ฐ BC ์์ค)์ ์ถ๊ฐํ์ฌ, ํ์ฌ ์ํ์์์ ์ ์ฑ ์ถ๋ ฅ์ด ์์ฐ ๋ฐ์ดํฐ์ ํ๋๊ณผ ๊ฐ๊น์์ง๋๋ก ์ ๊ธฐ์ ํ๋ ์ง๋๋ฅผ ํ์ต๋๋ค. ์ด๋ ํนํ ๊ฐ์นํจ์ Q ์ถ์ ์ด ๋ถ์์ ํ ๋ ์ ์ฑ ์ด ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง ์๋๋ก ๊ท์ (regularization) ์ญํ ์ ํฉ๋๋ค. Lin et al., 2025 ๋ฑ์ ์ฐ๊ตฌ์์ ์ ์๋ ์ด ๊ธฐ๋ฒ์, ์ ์ฑ ์ ์ ์ ์ผ๋ก RL ์ ํธ์๋ง ์์กดํด ์ ๋ฐ์ดํธํ์ง ์๊ณ ์ผ๋ถ๋ ์์ฐ ํ๋์ ๋ฐ๋ผ๊ฐ๊ฒ ํจ์ผ๋ก์จ ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ ์ฑ ํ์ต์ ๊ธฐ์ฌํฉ๋๋ค.
๋ค ๊ฐ์ง ๊ธฐ๋ฒ์ ๋ชจ๋ ์ ์ฉํ ๊ฒฐ๊ณผ, Newt ์์ด์ ํธ๋ ์์ฐ ๋ฐ์ดํฐ์ ์จ๋ผ์ธ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ํจ์จ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ํ์ตํ ์ ์์์ต๋๋ค. ๋ ผ๋ฌธ ์ ์๋ค์ ์ด๋ฅผ ๋๊ณ โ๋ฐ์ดํฐ ํจ์จ์ ์ด๋ฉด์๋ ๊ณ์ฐ ์์ ๋ฉด์์ ์ ๋ ดํ ๋ฐฉ๋ฒโ์ด๋ผ๊ณ ์ค๋ช ํฉ๋๋ค. ์ค์ ๋ก ์์ฐ์ ํตํ ์ด๊ธฐ ์ฑ๋ฅ ๋ถ์คํ ๊ณผ ์ง์์ ํ์ ๋ณด์กฐ ๋๋ถ์, ๋๋ฑํ ํ๊ฒฝ ์ํธ์์ฉ ์์ฐ ๋ด์์ ์์ฐ์ด ์๋ ๊ฒฝ์ฐ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ํ์ต์ด ์งํ๋์์ต๋๋ค.
๋ํ Newt ๊ตฌํ์์๋ ํ์ต ์ธํ๋ผ๋ฅผ ์ต์ ํํ์ฌ, ๋ฐฉ๋ํ ์์
๋ค์ ๋น ๋ฅด๊ฒ ๋ณ๋ ฌ ํ์ตํ ์ ์๋๋ก ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ค์ค ํ๋ก์ธ์ค์ GPU์ ๋ชจ๋ธ ํ์ต, ํ๊ฒฝ ์๋ฎฌ๋ ์ด์
, ๋ฆฌํ๋ ์ด ๋ฒํผ ๊ด๋ฆฌ๋ฅผ ๋ถ์ฐ์ํค๊ณ , PyTorch์ torch.compile ๊ธฐ๋ฅ์ ํ์ฉํด ์ฝ๋ ์คํ์ ์ปดํ์ผ ์ต์ ํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ 200๊ฐ์ ์์
์ ๋ํด 1์ต ์คํ
์ ํ์ต์ํค๋ ๋ฐ ๋จ์ผ 3090 GPU 11์ผ ์ ๋, 2์ฅ ์ฌ์ฉ ์ ์ฝ 7์ผ, ์ต์ GPU ํ์ฉ ์ 5์ผ ๋ฏธ๋ง๊น์ง๋ ๋จ์ถํ ์ ์์์ต๋๋ค. ์ด๋ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ RL์ด ํ์ค์ ์ธ ์๊ฐ ๋ด์ ์ํ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ ์งํ์
๋๋ค.
์์ฝํ๋ฉด, Newt๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ๊ตฌ์กฐ ์์ ์์ฐ ๋ฐ์ดํฐ์ ํ์ฉ ๊ทน๋ํ ์ ๋ต์ ์ ๋ชฉํ์ฌ, ํ์ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ํ์ต ํจ์จ์ ๋์ธ ๋ฉํฐํ์คํฌ ์์ด์ ํธ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ๋ค์์ผ๋ก, ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ด๋ฌํ ์ค๊ณ๊ฐ ์ค์ ๋ก ์ด๋ค ์ฑ๊ณผ๋ฅผ ๋ณด์๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ ๋ถ์
๋ ผ๋ฌธ์์๋ Newt์ ์ฑ๋ฅ์ MMBench์ 200๊ฐ ์ ์ฒด ์์ ์ ๋์์ผ๋ก ์ข ํฉ ํ๊ฐํ๋ ํํธ, ์ฌ๋ฌ ๊ธฐ์ค์ (baselines)๊ณผ ๋ณํ ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ ์์ธ ๋ถ์ํ์์ต๋๋ค. ํนํ (i) ๋ฉํฐํ์คํฌ ํ์ต์ ์ ์ฒด์ ์ธ ์ฑ๋ฅ๊ณผ ๋ฐ์ดํฐ ํจ์จ, (ii) ์์ฐ ๋ฐ์ดํฐ ์ฌ์ฉ์ ํจ๊ณผ, (iii) ์ธ์ด ์กฐ๊ฑด ์ ๋ ฅ์ ํจ๊ณผ, (iv) ์๋ก์ด ์์ ์ผ๋ก์ ์ ์ด ํ์ต ๋ฅ๋ ฅ, (v) ์คํ-๋ฃจํ ํ๋๋ ๋ฅ๋ ฅ ๋ฑ์ ์ค์ ์ ์ผ๋ก ํ๊ฐํ์ต๋๋ค. ๊ทธ ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ํญ๋ชฉ๋ณ๋ก ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1. ๋ฉํฐํ์คํฌ ํ์ต ์ฑ๋ฅ: Newt vs. ๊ธฐ์กด ๊ธฐ๋ฒ๋ค
Newt ์์ด์ ํธ์ ์ ์ฒด ์ฑ๋ฅ์ ๋๋ฑ ์กฐ๊ฑด์์ ๋น๊ตํ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ์ต๋๋ค. ์ ์๋ค์ PPO (์ ์ฑ ๊ฒฝ์ฌ ๊ธฐ๋ฐ on-policy RL), Fast TD3 (๋ณ๋ ฌ ์ํ๋ง์ ์ต์ ํ๋ off-policy RL), Behavior Cloning (์์ฐ์ ๋ชจ๋ ๋ชจ์ ํ์ตํ ์ ์ฑ ) ๋ฑ์ ๋ฉํฐํ์คํฌ ๋ฒ์ ์ผ๋ก ํ์ตํ์ฌ Newt์ ๋น๊ตํ์ต๋๋ค. ๋ชจ๋ ๋ฐฉ๋ฒ์ ์ด ํ๊ฒฝ ์ํธ์์ฉ 1์ต ์คํ (200๊ฐ ์์ ํฉ์ฐ) ๋์ ํ์ต๋์๊ณ , ์ฐ์ ๊ณต์ ๋น๊ต๋ฅผ ์ํด ์ํ ๊ด์ธก๋ง ์ฌ์ฉํ ์กฐ๊ฑด์์ ์คํ๋์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, Figure 1 (๋ ผ๋ฌธ)์์ ๋ณผ ์ ์๋ฏ Newt๋ ๊ฐ์ฅ ๋์ ํ๊ท ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ํนํ ๋ฐ์ดํฐ ํจ์จ์ฑ ๋ฉด์์ ์ด๊ธฐ๋ถํฐ ๋น ๋ฅด๊ฒ ํ์ต๊ณก์ ์ด ์์นํ์ฌ, ๋์ผ ์คํ ์ ๋๋น PPO๋ TD3๋ณด๋ค ์๋ฑํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋๋ฉ์ธ๋ณ ์ฑ๋ฅ์ ์ดํด๋ณด๋ฉด, Newt์ ์ด์ ์ ์ผ๋ถ ๋๋ฉ์ธ์์ ๋๋๋ฌ์ง๊ฒ ๋ํ๋ฌ์ต๋๋คใ. ์๋ฅผ ๋ค์ด DMControl, DMControl-Extended, ManiSkill3, MiniArcade ๋ฑ์์๋ Newt๊ฐ PPO๋ FastTD3๋ฅผ ํฌ๊ฒ ์ํํ๋ ๋์ ์๋ ด ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ๋๋ฉ์ธ๋ค์ ๋น๊ต์ ๋ค์ํ ์์ ์ด๋ผ๋ ๊ณตํต๋ ๋ฌผ๋ฆฌ ํน์ฑ(์: ์ ์ฌํ ๋ก๋ด ์ญํ์ด๋ ๊ฒ์ ๋ฉ์ปค๋)์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, Newt์ ์๋ ๋ชจ๋ธ์ด ์ฌ๋ฌ ์์ ๊ฐ์ ๊ณตํต ๋์ญํ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ์ฌ ์ง์ ์ ์ด๊ฐ ์ผ์ด๋ ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค. ๋ฐ๋ฉด, MuJoCo, Box2D, Atari ๋๋ฉ์ธ์์๋ Newt๋ฅผ ๋น๋กฏํ ๋ชจ๋ RL ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ๋ฎ์๊ณ , ์ฌ์ง์ด ๋จ์ BC ๋ชจ๋ธ๊ณผ ๋น์ทํ ์์ค์ ๋จธ๋ฌด๋ฅด๊ธฐ๋ ํ์ต๋๋ค. ๋ ผ๋ฌธ์ ๊ทธ ์์ธ์ ํด๋น ๋๋ฉ์ธ๋ค์ ์์ ๋ค ๊ฐ ๊ณตํต์ ๋ถ์กฑ์์ ์ฐพ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Atari ๊ฒ์๋ค์ ๊ฒฝ์ฐ ์ก์ ๊ณต๊ฐ ํ์ ์ธ์๋ ๊ฒ์ ๊ท์น์ด๋ ๋ชฉํ๊ฐ ์๋ก ํฌ๊ฒ ๋ฌ๋ผ์, ๋ฉํฐํ์คํฌ ํ์ต์ผ๋ก ๊ณต์ ํ ๋งํ ๋์ญํ์ด๋ ์ ๋ต์ด ๊ฑฐ์ ์์๋ค๊ณ ๋ถ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์ด ์์ญ์์๋ ์์ฐ ๊ธฐ๋ฐ์ ์ด๋ฐ ์ฑ๋ฅ ์ด์์ผ๋ก ํฅ์๋๊ธฐ ์ด๋ ค์ ๊ณ , ๊ฒฐ๊ตญ ์ถ๊ฐ์ ์ธ RL์ด ํฐ ์ด๋์ ๋ชป ๋ณธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ ์๋ค์ ์ด์ฒ๋ผ ํน์ ๋๋ฉ์ธ์ ๋ฐ๋ผ ๋ฉํฐํ์คํฌ ํ์ต์ ํจ๊ณผ๊ฐ ๋ค์ฅ๋ ์ฅํ ํ์์ ์ธ์ ํ๋ฉด์, โ์ด๋ป๊ฒ ํ๋ฉด ์์ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ํฅ์์ ์ป์ ์ ์์์งโ๊ฐ ํฅํ ๊ณผ์ ๋ผ๊ณ ์ธ๊ธํฉ๋๋ค.
์ ๋ฐ์ ์ธ ์ฑ๋ฅ ์งํ๋ก์, Newt (์์ฐ ์ฌ์ ํ์ต ํฌํจ)๋ 0.44 ์ (์ ๊ทํ ํ๊ท ) ์ ๋์ ์ฑ๋ฅ์ 1์ต ์คํ ํ์ต ํ ๋ฌ์ฑํ ๋ฐ๋ฉด, ์ฐจ์ ์ธ FastTD3๋ PPO๋ ๊ทธ๋ณด๋ค ์๋นํ ๋ฎ์ ์ ์์ ๋จธ๋ฌผ๋ ์ต๋๋ค (๊ตฌ์ฒด ์์น๋ ๋ ผ๋ฌธ ๋ํ ์ฐธ์กฐ). ๋ํ ๋ฐ์ดํฐ ํจ์จ ๋ฉด์์๋ Newt๋ ์ด๊ธฐ ์๋ฐฑ๋ง ์คํ ๋ถํฐ ์ ์๋ฏธํ ๋ณด์์ ์ป๊ธฐ ์์ํด ํ์ตๆฒ์ ๊ธฐ์ธ๊ธฐ๊ฐ ๊ฐํ๋ฅธ ๋ฐ๋ฉด, PPO ๋ฑ์ ํจ์ฌ ๋ฆ๊ฒ ์ฑ๋ฅ์ด ์ค๋ฅด๊ธฐ ์์ํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ธ๊ณ ๋ชจ๋ธ+ํ๋๋์ ์ด์ ๊ณผ ์์ฐ ํ์ฉ ์ ๋ต์ด ๊ฒฐํฉ๋์ด ์ป์ ์ฑ๊ณผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์์ฝํ์๋ฉด, โ๋จ์ผ ์์ด์ ํธ๊ฐ ์๋ฐฑ ์์ ์ ๋์์ ํ์ตํ๋ ๊ฒ์ด ๊ฐ๋ฅํ ๋ฟ ์๋๋ผ, ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํจ์จ์ ์ผ ์ ์๋คโ๋ ๊ฒ์ด ์ ์ฆ๋ ๊ฒ์ ๋๋ค.
ํํธ, โSingle-task ์ ์ฉ ์ ๋ฌธ๊ฐ์์ ๋น๊ตโ๋ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค. ์ ์๋ค์ ๊ฐ ์์ ๋ง๋ค TD-MPC2 ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ฐ๋ณ ์ ๋ฌธ๊ฐ(5๋ฐฑ๋ง ์คํ ์ฉ ํ์ต)๋ฅผ ํ๋ จ์ํค๊ณ , ์ด๋ฅผ ํตํด ์์ฐ๋ ์์งํ์ต๋๋ค. ์ด ๊ฐ๋ณ ์ ์ฑ ๋ค์ ์ฑ๋ฅ์ ํด๋น ์์ ์ ๊ตญํํด์๋ Newt๋ณด๋ค ๋์ ์ ์์ง๋ง, Newt๋ 200๊ฐ ์์ ์ ํ๋๋ก ํด๊ฒฐํ๋ฉด์๋ ๊ฐ๋ณ ์ ๋ฌธ๊ฐ์ ํ์ ํ๋ ์์ค๊น์ง ๋๋ฌํ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋น๋ก ํ์ต ์๊ฐ์ด๋ ๋ฐ์ดํฐ ๋ฉด์์ ๊ฐ๋ณ ์ ๋ฌธ๊ฐ์ ์ดํฉ(200๊ฐ* 5M = 10์ต ์คํ )๋ณด๋ค Newt๊ฐ ํจ์ฌ ์ ์ ์์ผ๋ก ํ์ต๋์๋ค๋ ์ ์ ๊ฐ์ํ๋ฉด, ์ด๋ ์๋นํ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ ๋๋ค. ์ฆ, ์ง์์ ๊ณต์ ๋ฅผ ํตํด ๋ฐ์ดํฐ ์ฌ์ฉ๋์ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๊ณ ๋ ์ฌ๋ฌ ์์ ์ ์ ์ํํ ์ ์์์ ๋ณด์ฌ์ค ์ ์ ๋๋ค. (๋ค๋ง ๋ช๋ช ์ด๋ ค์ด ์์ ์์๋ ์์ง ๋จ์ผ ์ ๋ฌธ๊ฐ ์ฑ๋ฅ์ ๋ชป ๋ฏธ์น๋ ๊ฒฝ์ฐ๋ ์์ด, ํฅํ ๋ชจ๋ธ ์ฉ๋์ ํค์ฐ๊ฑฐ๋ ๋ฐฉ๋ฒ ๊ฐ์ ์ด ํ์ํฉ๋๋ค.)
2. ์์ฐ ๋ฐ์ดํฐ์ ํจ๊ณผ: ํ์ ํฅ์ ๋ฐ ์ฑ๋ฅ ์ํ์ ์ ๊ณ
Newt์ ์ค์ํ ๊ตฌ์ฑ์์์ธ ์์ฐ ๋ฐ์ดํฐ ํ์ฉ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ๋ ๋ฉด๋ฐํ ๋ถ์๋์์ต๋๋ค. ์์ฐ์ ์ฌ์ฉํ์ง ์์ ๋ฒ์ ์ Newt (์ฆ, ์ 4๊ฐ์ง ์ ๋ต์ ์ ๊ฑฐํ๊ณ ์ฒ์๋ถํฐ ์จ๋ผ์ธ RL๋ก ํ์ต)์ ์์ฐ์ ๋ชจ๋ ํ์ฉํ ๊ธฐ๋ณธ Newt๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ, ์์ฐ์ด ์์ ๋ ํ์ต ์ด๊ธฐ ์ฑ๋ฅ์ด ํจ์ฌ ๋๊ณ ์ต์ข ์ฑ๋ฅ๋ ํฅ์๋๋ ๊ฒฝํฅ์ด ๋๋ ทํ์ต๋๋ค. ํนํ ํ์์ด ์ด๋ ค์ด ํ๊ฒฝ(์: sparse ๋ณด์์ด๋ ๋ณต์กํ ๋ชฉํ)์์ ์์ฐ์ด ์๋๋ ์๋๋๋ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๊ฐ๋ฅผ ์ ๋๋ก ํฐ ์ํฅ์ ์ฃผ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ โ๋ง์ ๊ฒฝ์ฐ ์์ฐ ์ถ๊ฐ๊ฐ ํ์ต์ ๋์ด๋๋ฅผ ๋ฎ์ถฐ ์ต์ข ์ฑ๋ฅ ์์ฒด๋ ํฅ์์์ผฐ๋คโ๋ผ๊ณ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ฐ์ด ์์ ๋๋ ์ ํ ์ฑ๊ณต ๊ฒฝํ์ ๋ชป ์๋ ๊ณผ์ ์์ ์์ฐ์ ์ฃผ์ ๋น ๋ฅด๊ฒ ๋ณด์์ ์ป๊ณ ์ต์ข ์ ์ผ๋ก ๋ ๋์ ์ ์์ ๋๋ฌํ ์ฌ๋ก๋ค์ด ์์ต๋๋ค.
๋ค๋ง, ํฅ๋ฏธ๋กญ๊ฒ๋ ๋ชจ๋ ์์ ์์ ์์ฐ์ด ์ ๋์ ์ผ๋ก ํ์ํ ๊ฒ์ ์๋์๋ค๊ณ ํฉ๋๋ค. ์ผ๋ถ ๋น๊ต์ ์ฌ์ด ํ์ ํ๊ฒฝ์์๋ ์์ฐ ์ ๋ฌด์ ๋ฐ๋ฅธ ์ฐจ์ด๊ฐ ํฌ์ง ์์๊ณ , Dense ๋ณด์์ด ์ถฉ๋ถํ ์ฃผ์ด์ง๋ ๊ฒฝ์ฐ RL ์์ฒด๋ก๋ ํ์ต์ด ๊ฐ๋ฅํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ์ฒด์ ์ธ ๊ฒฝํฅ์ ์์ฐ์ด ์์ ๋ ์๋ ด ์ฑ๋ฅ์ ์ผ๊ด์ฑ์ด ๋์์ง๊ณ , ํนํ ์ด๋ฐ ํ์ต์ด ์์ ์ ์ด์๋ค๋ ์ ์ ๋๋ค. ์ ์๋ค์ ์์ฐ ์ ๋ต์ ๋ชจ๋ ์ ์ฉํ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณ์๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. Ablation ์ฐ๊ตฌ์์ ์์ฐ ํ์ฉ ๊ธฐ๋ฒ ํ๋์ฉ ์ ๊ฑฐ ์คํ์ ํด๋ณธ ๊ฒฐ๊ณผ, โ์์ฐ ์ ํํ์ตโ, โ์์ฐ ๊ณผํ์งโ, โBC ์ ๊ทํโ ๊ฐ๊ฐ ๋จ๋ ์ผ๋ก๋ ์ด๋ ์ ๋ ์ด๋์ ์ฃผ์์ผ๋, ์ธ ๊ฐ์ง๋ฅผ ๋ชจ๋ ๋ณํํ์ ๋ ์ฑ๋ฅ์ด ๊ฐ์ฅ ๋์๋ค๊ณ ํฉ๋๋ค.
์์ปจ๋, ์์ฐ ๋ฐ์ดํฐ๋ ๋ฉํฐํ์คํฌ RL์์ ํ์์ ๋์ด๋๋ฅผ ์ํํ๊ณ ํ์ต ์๋์ ์ฑ๋ฅ ์ํ์ ๋์ด์ฌ๋ฆฌ๋ ์ด์ ๋ก ์์ฉํ์ต๋๋ค. ์ด๋ ํฅํ ๋ค๋ฅธ ๋ฉํฐํ์คํฌ ์ค์ ์์๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์จ๋ผ์ธ RL์ ๊ฒฐํฉํ๋ ๋ฐฉํฅ์ด ์ ๋งํจ์ ์์ฌํฉ๋๋ค. (๋ค๋ง ๋๋ฌด ์์ฐ์ ์์กดํ๋ฉด ์ ์ฑ ์ด ์์ฐ์ ๊ณผ์ ํฉํด ์๋ก์ด ๋ฐฉ์์ ํ์์ ๋ชปํ ์ํ๋ ์์ผ๋ฏ๋ก, Newt์ฒ๋ผ ์ ์ ํ RL๊ณผ ๋ณํํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.)
3. ์ธ์ด ์กฐ๊ฑด์ ํจ๊ณผ: ์์ ๊ตฌ๋ถ๊ณผ ์ผ๋ฐํ
Newt์ ๋ ๋ค๋ฅธ ํน์ง์ ๋ชจ๋ ์์ ์ ์์ฐ์ด๋ก ์๋ณํ๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ธ์ด ์ ๋ ฅ์ด ์ค์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํ๋์ง ๊ถ๊ธํด์ง๋๋ค. ์ด์ ๋ํด ์ ์๋ค์ ์ธ์ด ์ง์๋ฌธ์ ๋บ ๋ชจ๋ธ(๋์ Task ID ๊ฐ์ ๊ฒ์ผ๋ก ์์ ๊ตฌ๋ถ)๊ณผ ์ธ์ด๋ฅผ ๋ฃ์ ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๋น๊ตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ธ์ด๋ฅผ ํ์ฉํ์ ๋ ํ๊ท ์ฑ๋ฅ์ด 0.371 โ 0.438๋ก ๋๋ ทํ๊ฒ ํฅ์๋์์์ ๋ณด๊ณ ํ์ต๋๋ค. ์ฝ 18%๊ฐ๋์ ์ฑ๋ฅ ํฅ์์ด๋ฏ๋ก ๋งค์ฐ ์๋ฏธ์์ต๋๋ค. ํนํ ๊ทธ ํฅ์ ํญ์ด ํฐ ๊ณณ์ ๊ด์ธก๋ง์ผ๋ก๋ ์ด๋ค ์์ ์ธ์ง ์๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์์ต๋๋ค. ์๋ฅผ ๋ค์ด RoboDesk์ ์ฌ๋ฌ ๊ณผ์ ๋ค์ ์ด๊ธฐ ์ํ ๊ด์ธก์ด ๊ฑฐ์ ๋์ผํ๊ฒ ์๊ฒผ๊ณ ๋ชฉํ ๋ฌผ์ฒด๋ง ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ์ธ์ด ์ง์(โํ๋ ๊ณต ๋ฐ๊ธฐโ, โ์ด๋ก ๊ณต ์ง๊ธฐโ ๋ฑ)๊ฐ ์๋ค๋ฉด ํ๋์ ์ ์ฑ ์ด ์ด๋ค ์์ ์ ํด์ผ ํ๋์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ค์ ๋ก RoboDesk ๋๋ฉ์ธ์์ ์ธ์ด ์กฐ๊ฑด์ ๋ฃ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์์นํ๋ค๊ณ ํฉ๋๋ค. ๋ฐ๋๋ก DMControl ๋ฑ ์์ ์ด๋ฆ๋ง ๋ค๋ฅด๊ณ ๊ด์ธก ์์ฒด๊ฐ ๋ฌ๋ผ ๊ตฌ๋ณ์ด ์ฌ์ด ๊ฒฝ์ฐ์๋ ์ธ์ด ์ ๋ฌด์ ์ฐจ์ด๊ฐ ์์์ง๋ง ์ฑ๋ฅ ์ ํ ์์ด ๋น์ทํ ์์ค์ ์ ์งํ์ต๋๋ค.
๋ ํฅ๋ฏธ๋ก์ด ์ ์, ์ธ์ด ์ง์๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ด ์๋ก์ด ์์ ์ผ๋ก์ ์ผ๋ฐํ์ ๋์์ ์ค๋ค๋ ๊ฒ์ ๋๋ค. ๋ง์ฝ ๋จ์ํ ์์ ID(one-hot)๋ก ๊ตฌ๋ถํ๋๋ก ๋ชจ๋ธ์ ๋ง๋ค์๋ค๋ฉด, ํ๋ จ ์ ๋ณด์ง ๋ชปํ ์๋ก์ด ์์ ์๋ ID๋ฅผ ์ง์ ํ ์ ์์ด ๋์ฒ๊ฐ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๋ฐ๋ฉด ์ธ์ด๋ ์ดํ๋ฅผ ํ์ฅํ๊ฑฐ๋ ์ค๋ช ์ ๋ฐ๊พธ๋ ๋ฐฉ์์ผ๋ก ์ ๊ท ์์ ์ ๊ธฐ์ ํ ์ ์๋ ์ฌ์ง๊ฐ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ โ์ธ์ด ์กฐ๊ฑด์ ์ฌ์ฉํ ์์ด์ ํธ๋ ํ๋ จ ์์ ์์๋ Task ID ์ฌ์ฉ ์ฑ๋ฅ์ ํ์ ํ๋ฉด์๋, ๋ฏธ์ง์ ์์ ์๋ ์ธ์ด๋ก generalizeํ ์ ์๋ ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํ๋คโ๊ณ ํ๊ฐํ์ต๋๋ค. ์ฆ, ์ธ์ด ์์ฒด๊ฐ ์์ ํํ์ ๊ณตํต '๋ฒกํฐ ๊ณต๊ฐ'์ ํ์ฑํ๊ธฐ ๋๋ฌธ์, ์ ์ฌ์ ์ผ๋ก ํ๋ จ์ ์๋ ๋ชฉํ๋ ์ ์ฌํ ์ธ์ด์ ๊ฐ๋ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์๋ค๋ฉด ์ ์ฑ ์ด ๋์ํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
ํ์ง๋ง ์ธ์ด ์ผ๋ฐํ์๋ ์์ง ์ด๋ ค์๋ ๋ฐ๊ฒฌ๋์์ต๋๋ค. ๋ถ๋ก์ ์ถ๊ฐ ์คํ์ ๋ณด๋ฉด, ํ๋ จ ๋ ๋ณธ ์ ์๋ ์์ ํ ์๋ก์ด ๋จ์ด๋ก ์ง์๋ฌธ์ด ์ฃผ์ด์ง๋ฉด ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด โPush the cubeโ (cube๋ผ๋ ๋จ์ด๋ ๋ดค์)์ด๋ผ๋ ์ง์์ โPush the <๋ชจ๋ฅด๋ ๋จ์ด>โ๋ผ๋ ์ง์๋ฅผ ๋น๊ตํด ์๋ก์ด ์กฐ์ ์์ ์ ์ํค๋ฉด ์ฑ๊ณต๋ฅ ์ ํฐ ์ฐจ์ด๊ฐ ๋ฌ์ต๋๋ค. ์ด๋ค ๊ฒฝ์ฐ์๋ ์ ๋ชจ๋ฅด๋ ๋์์ ์ธ์ด๋ก ์ง์ํ๋ฉด ์ ํ ์ํ์ ๋ชปํ์ง๋ง, ๊ทธ ๋์์ด ํ๋ จ ์ค์ ํํ ์ธ๊ธ๋ โcubeโ๋ผ๊ณ (์ค๋ น ์ค์ ๋ก ํ๋ธ๊ฐ ์๋๋ฐ) ๊ฑฐ์ง๋งํ๋ฉด ์ฑ๊ณต๋ฅ ์ด ๋์์ง๋ ์ฌ๋ก๋ ์์์ต๋๋ค. ์ด๋ ํ์ฌ Newt์ ์ธ์ด ์ดํด/์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์๋ฒฝํ์ง๋ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ ์๋ค์ ๊ณต์ ํ ํ๊ฐ๋ฅผ ์ํด ์ ์ด ์คํ์์๋ ์ผ๋ถ๋ฌ ์๋ก์ด ์์ ์ ๋ฏ์ (unseen) ์ง์๋ฌธ์ ์ฌ์ฉํ๋ค๊ณ ๋ฐํ๊ณ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ํ์์ ํฅํ ์ธ์ด ๋ชจ๋ธ๊ณผ์ ๊ฒฐํฉ์ด๋ ์ธ์ด ๋ฐ์ดํฐ ์ถ๊ฐ ํ์ต ๋ฑ์ ํตํด ๊ฐ์ ๋ ์ ์๋ ์ฌ์ง๋ก ๋ณด์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, ์ธ์ด ์กฐ๊ฑด ์ ๋ ฅ์ ๋ฉํฐํ์คํฌ ์ ์ฑ ํ์ต์ ์์ด ๋ถ๋ช ํ ์ด์ ์ ์ฃผ์์ต๋๋ค. ์์ ๋ค์ ์์ฐ์ด๋ก ๊ตฌ๋ถ ์ง์์ผ๋ก์จ ์ ํํ ์๋ณ๊ณผ ๋งฅ๋ฝ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ์ฑ๋ฅ์ ๋์๊ณ , โ๋ณด์ง ๋ชปํ ์์ ๋ ์ธ์ด๋ก ์ค๋ช ํด ์ฃผ๋ฉด ํด๋ผ ๊ฐ๋ฅ์ฑโ์ ์ด์ด์ค ๊ฒ์ ๋๋ค. ์ด๋ ๋ก๋ด์๊ฒ ์ธ์ด๋ก ๋ช ๋ น์ ๋ด๋ฆฌ๋ ์์ฉ ์๋๋ฆฌ์ค๋ฅผ ์๊ฐํ๋ฉด ๋งค์ฐ ์ค์ํ ํน์ฑ์ด๋ผ ํ ์ ์์ต๋๋ค.
4. ์๋ก์ด ์์ ์ผ๋ก์ ์ ์ด ํ์ต: ํ์ธํ๋์ ํตํ ์ ์
Newt ์์ด์ ํธ๊ฐ ๋ณด์ฌ์ค ์ธ์์ ์ธ ๋ฅ๋ ฅ ์ค ํ๋๋ ํ๋ จ์ ํฌํจ๋์ง ์์๋ ์๋ก์ด ์์ ์๋ ์ ์ํ๊ฒ ์ ์ํ ์ ์์๋ค๋ ์ ์ ๋๋ค. ์ ์๋ค์ MMBench 200๊ฐ ์ค 20๊ฐ์ ๊ณผ์ ๋ฅผ ๋ณ๋๋ก ํ ์คํธ์ ์ผ๋ก ์ ์งํด ๋ชจ๋ธ ํ๋ จ์๋ ํฌํจํ์ง ์๊ณ , ํ์ต ์๋ฃ๋ Newt๋ฅผ ์ด ์๋ก์ด 20๊ฐ ์์ ์ ํ์ธํ๋ํด ๋ณด์์ต๋๋ค. ์ด๋ ์์ฐ ๋ฐ์ดํฐ๋ ์ถ๊ฐ๋ก ์ ๊ณตํ์ง ์๊ณ , ์์ ํ ์จ๋ผ์ธ RL๋ก๋ง ์ ์์์ผฐ์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต๋ Newt๋ ์ฒ์๋ถํฐ ๊ฝค ๋์ ์ฑ๋ฅ์ผ๋ก ์์ํ์ฌ ๋น ๋ฅด๊ฒ ํฅ์๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ ํ ํ์ตํ์ง ์์ ์๋ก์ด ์์ ๋ค์ ๋ํด ์ ๋ก์ท(ํ์ธํ๋ ์ )์ผ๋ก๋ ํ๊ท 0.192์ ์ ์๋ฅผ ๋ฌ์ฑํ๋๋ฐ, ์ด๋ ๋ฌด์์ ์ ์ฑ ์์ค(์ฝ 0.01)๋ณด๋ค ํจ์ฌ ๋์ ๊ฒ์ ๋๋ค. ์ฆ, ์์ ํ ์๋ก์ด ๊ณผ์ ๋ ์ฝ๊ฐ์ ์ํํ ์ค ์๋ ์ผ๋ฐ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์๋ค๋ ์๋ฏธ์ ๋๋ค. ํ์ธํ๋์ ์งํํ์, ๋ถ๊ณผ 10๋ง ์คํ (๊ฐ ์์ ๋น 5์ฒ ์คํ ์์ค)๋ง์ ํ๊ท 0.868์ ๋์ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ต๋๋ค. ์ด๋ ๊ฐ์ budget์ผ๋ก ์ฒ์๋ถํฐ ํ์ตํ ๊ฒฝ์ฐ(0.480)๋ณด๋ค ํจ์ฌ ๋ฐ์ด๋ ๊ฒฐ๊ณผ์ ๋๋ค. ์์ปจ๋, ์ฌ์ ๋ฉํฐํ์คํฌ ํ์ต ๊ฒฝํ์ด ์ ํ ์๋ก์ด ์์ ์ผ๋ก์ ๋น ๋ฅธ ์ ์์ ํฐ ๋์์ด ๋์์์ ์ ์ ์์ต๋๋ค.
์ด๋ฌํ ์ ์ด ํ์ต ์คํ์ Newt์ ์ธ๊ณ ๋ชจ๋ธ์ด ๋ค์ํ ์์ ๋ค์ ๊ณตํต ๊ตฌ์กฐ๋ฅผ ์ด๋ ์ ๋ ํ์ ํ๊ณ ์์ด, ์๋ก์ด ์์ ์์๋ ์์์ ์ ๋์ด์ฌ๋ ค ์ค๋ค๋ ์ฌ์ค์ ๋ณด์ฌ์ค๋๋ค. ์์ปจ๋ ์๋ก์ด ์์ ์ด ๊ธฐ์กด ์์ ๊ณผ ๋์ญํ์ด ๋น์ทํ์ง๋ง ๋ชฉํ๋ง ์ด์ง ๋ค๋ฅธ ๊ฒฝ์ฐ, Newt๋ ์ด๋ฏธ ์ ์ฌํ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ชจ๋ธ๋ก ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๊ธ๋ฐฉ ์ต์ ์ ์ฑ ์ ์ฐพ์๋ผ ์ ์๋ ๊ฒ์ ๋๋ค. ์์ ํ ๋ณ๊ฐ์ ๋ถ์ผ ์์ ์ผ์ง๋ผ๋, ์ ์ด๋ ํ์ ์ด๊ธฐ ๋ฌด์์๋ณด๋ค๋ ๋์ ๋์์ ์๋ํจ์ผ๋ก์จ ํ์ต์ด ๊ฐ์ํ๋ ์ ์์ต๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ฏธ๋์ ๊ฑฐ๋ ๋ฉํฐํ์คํฌ ์ ์ฑ ์ด ์์ญ, ์๋ฐฑ๋ง ๊ฐ์ง ๋ค์ํ ์ฌ์ ๊ฒฝํ์ ํตํด, ์๋ก์ด ๋ก๋ด ๊ณผ์ ์๋ ๋ช ๋ฒ ์๋๋ง์ ์ ์ํ๋ ๋น์ ์ ๊ทธ๋ ค๋ณผ ์ ์๊ฒ ํฉ๋๋ค. Newt ์์ฒด๋ ์์ง 0.19 โ 0.86๋ก ์ฌ๋ผ๊ฐ๋๋ฐ 10๋ง ์คํ ์ด ํ์ํ์ง๋ง, ์ ์๋ค์ โํ๋ จ ๋ฐ์ดํฐ๊ฐ ๋ ๋ง์์ง๋ฉด ์ ์ด ์ฑ๋ฅ์ ๋์ฑ ํฅ์๋ ๊ฒโ์ด๋ผ๊ณ ์ ๋งํ๊ณ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL์ ํตํ ์ง์์ ํ์ต์ด few-shot ํ์ต์ด๋ meta-RL๊ณผ ๋งฅ๋ฝ์ ๊ฐ์ด ํจ์ ์์ฌํ๋ฉฐ, ํ ๋ฒ ํ์ตํ ์๋ ๋ชจ๋ธ์ ์ฌ์ฌ*ํ๋ ์ ๋ต์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
5. ์คํ-๋ฃจํ (Open-Loop) ์ ์ด ๋ฅ๋ ฅ: ์ธ๊ณ ๋ชจ๋ธ์ ์ดํด๋ ฅ ํ๊ฐ
๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ํฅ๋ฏธ๋ก์ด ์ฉ๋ ์ค ํ๋๋ ํ๊ฒฝ์ ํผ๋๋ฐฑ ์์ด๋ ๊ณํ๋ ํ๋์ ์คํํด ๋ณผ ์ ์๋ค๋ ์ ์ ๋๋ค. Newt์ ์ธ๊ณ ๋ชจ๋ธ์ด ๋ค์ํ ์์ ์ ๋์ญํ์ ์ ํ์ตํ๋ค๋ฉด, ์๋ฎฌ๋ ์ดํฐ ์์ด ๋ด๋ถ ๋ชจ๋ธ๋ก๋ง ์ฌ๋ฌ ์คํ ์ ์์ํ๋ฉฐ ํ๋์ ๊ฒฐ์ ํ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ์ ์๋ค์ ์ฌ๋ฌ ์์ ์์ ์คํ-๋ฃจํ ์คํ ์คํ์ ์ํํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, 8๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ํ ์์ ์ ์ ์ ํ๊ณ , Newt์ ํ๋๋ ๋ชจ๋๋ก 48 ์คํ ์ ์ด๋ฅด๋ ํ๋ ์ํ์ค๋ฅผ ํ ๋ฒ์ ๊ณ์ฐํ ํ, ๊ทธ ํ๋๋ค์ ์ค์ ํ๊ฒฝ์ ํ๊บผ๋ฒ์ ์คํํด ๋ณด์์ต๋๋ค. ์ด ๋์ ์ค๊ฐ์ ์ฌ๊ณํ์ด๋ ๊ด์ธก ํผ๋๋ฐฑ ๋ฐ์์ ์ผ์ ํ์ง ์์ผ๋ฉฐ, ์์ ํ ์ด๊ธฐ ์ํ์ ๋ชฉํ์ ๊ธฐ๋ฐํ 48์ฐํ ํ๋ ๊ณํ๋ง์ผ๋ก ๊ณผ์ ๋ฅผ ์ํํ ๊ฒ์ ๋๋ค. (์ฐธ๊ณ ๋ก Newt์ ํ์ ํ์ต ์ ํ๋๋ ํ๋ผ์ด์ฆ์ 3 ์คํ ์ด์๋๋ฐ, ๊ทธ 16๋ฐฐ์ ํด๋นํ๋ ๊ธธ์ด๊น์ง ํ๊บผ๋ฒ์ ๊ณํํด ๋ณธ ๊ฒ์ ๋๋ค.)
๊ฒฐ๊ณผ๋ ์๋นํ ๊ณ ๋ฌด์ ์ด์์ต๋๋ค. ๋๋ถ๋ถ์ ์์ ์์ ์คํ-๋ฃจํ๋ก ์คํํ ๊ฒฝ์ฐ์๋, ํ๊ฒฝ์ ํผ๋๋ฐฑ์ ๋งค ์คํ ๋ฐ์ผ๋ฉฐ ๋งค๋ฒ ๊ณํํ ๊ฒฝ์ฐ(ํด๋ก์ฆ๋-๋ฃจํ)์ ๊ฑฐ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ฆ, Newt์ ์ธ๊ณ ๋ชจ๋ธ์ด 10~50 ์คํ ํ์ ์ํ ๋ณํ๊น์ง๋ ๋น๊ต์ ์ ํํ ์์ธกํ ์ ์์๊ณ , ๊ทธ ๊ธฐ๋ฐ ์์์ ์ธ์ด ๊ณํ์ด ์ค์ ํ๊ฒฝ์์๋ ์ฑ๊ณต์ ์ผ๋ก ๋์ํ ๊ฒ์ ๋๋ค. ์ด๋ Newt์ ์ธ๊ณ ๋ชจ๋ธ์ด ํ๊ฒฝ์ ๋์ญํ์ ์ ๋ด์ฌํํ๊ณ ์์์ ์์ฌํฉ๋๋ค. ์์ปจ๋ Walker Walk (๋ณดํ) ์์ ์์ 48 ์คํ ๋์ ๊ณ์ ์์ผ๋ก ๊ฑธ์ด๊ฐ์ผ ํ๋๋ฐ, ์คํ-๋ฃจํ๋ก๋ ํฐ ๋ฌธ์ ์์ด ์งํ๋์๊ณ , LunarLander ์ด๋ฅ ์์ ์์๋ ๋ฐ์ฌ๋ถํฐ ์์น๊น์ง ๋น๊ต์ ์์ ์ ์ผ๋ก ์ํ๋์์ต๋๋ค. ๋ ผ๋ฌธ ๋ํ Figure 10์๋ ๊ฐ ์์ ์์ t=0,16,32,48 ์คํ ์งธ ์ฅ๋ฉด์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์คํ-๋ฃจํ ๊ณํ์ ํ๋๋ค์ด ๊ฝค ์๋ฏธ์๊ฒ ์ดํ๋๊ณ ์์์ ํ์ธํ ์ ์์ต๋๋ค.
๋ฌผ๋ก ์คํจํ๋ ๊ฒฝ์ฐ๋ ๊ด์ฐฐ๋์์ต๋๋ค. ๋ํ์ ์ผ๋ก Walker Walk ์์ ์์ ์๊ฐ์ด ์ง๋ ์๋ก ๋ก๋ด์ด ์กฐ๊ธ์ฉ ํ์ชฝ์ผ๋ก ๊ธฐ์ธ์ด ์ฃผํ ๋ฐฉํฅ์ด ๋น๋๊ฐ๋ ๋๋ฆฌํํธ ํ์์ด ๋์ ๋์๊ณ , LunarLander Takeoff ์์ ์์๋ ๋ชฉํ ๊ณ ๋์ ๋๋ฌํ ํ์๋ ๊ฐ์ ์ ์ด๋ฅผ ๋ชปํด ๋ชฉํ์ ์ ๋์ด์ณ ์ฌ๋ผ๊ฐ๋ฒ๋ฆฌ๋ ์ผ์ด ์๊ฒผ์ต๋๋ค. ๋ํ Assault (Atari ์ํ ๊ฒ์) ์์ ์ ๊ฒฝ์ฐ ๊ฒ์ ์ ๋ฑ์ฅํ๋ ์ ๋ค์ ํ๋ฅ ์ ์ถํ ๋ฑ์ ์ธ๊ณ ๋ชจ๋ธ์ด ๋ฏธ๋ฆฌ ์ ์ ์์ด, ์ด์์ด ๋น๋๊ฐ๋ ๋ฑ ํ๊ณ๊ฐ ๋๋ฌ๋ฌ์ต๋๋ค. ์ด๋ฐ ์คํจ ๋ชจ๋๋ค์ ๋๋ถ๋ถ ์์ธก ๋์ ์ค์ฐจ๋ ์ธ๊ณ ๋ชจ๋ธ์ด ๋ชจ์ฌํ์ง ๋ชปํ ๋น๊ฒฐ์ ์ ์์ ๋๋ฌธ์ผ๋ก ๋ถ์๋์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ ๋ฒ๋ ์คํ-๋ฃจํ ์ฐ์ต์ ํด๋ณธ ์ ์๋ Newt๊ฐ ์ด ์ ๋ ์ฅ๊ธฐ๊ฐ ๊ณํ์ ์ฑ๊ณต์ ์ผ๋ก ์คํํด๋ธ ๊ฒ์ ๊ฝค ๋๋ผ์ด ๊ฒฐ๊ณผ์ ๋๋ค. ์ด๋ ์ธ๊ณ ๋ชจ๋ธ์ด ๋จ์ํ ํจํด ์๊ธฐ๊ฐ ์๋๋ผ ๋์ญํ์ ๊ตฌ์กฐ๋ฅผ ํ์ตํ์์ ๋ท๋ฐ์นจํ๋ฉฐ, ํฅํ ๊ณํ ํ๋ผ์ด์ฆ์ ๋๋ ค ๋ ๋ณต์กํ ์์ ๋ ํ ๋ฒ์ ํด๋ด๋ ๋ฑ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์๊ฐ์ ์ค๋๋ค.
์ข ํฉํ๋ฉด, Newt์ ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝํ ์ ์์ต๋๋ค:
- ๋ฉํฐํ์คํฌ ์ ์ฑ ํ์ต ๊ฐ๋ฅ์ฑ ์ ์ฆ: ๋จ์ผ ์์ด์ ํธ๊ฐ 200๊ฐ ์ฐ์ ์ ์ด ๊ณผ์ ๋ฅผ ๋์์ ํ์ตํ์ฌ ๊ฐ๋ ฅํ ์ข ํฉ ์ฑ๋ฅ์ ๋ฐํํจ.
- ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ง์ ๊ณต์ : ์ธ๊ณ ๋ชจ๋ธ ๋ฐ ์์ฐ ํ์ฉ ๋๋ถ์ ๋์ผ ๋ฐ์ดํฐ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ด๊ณ , ํนํ ์ ์ฌ ๊ณผ์ ๊ฐ ์ง์์ ๊ณต์ ํ์ฌ ์ผ๋ถ ์์ญ์์ ํ์ํ ํจ๊ณผ๋ฅผ ๋ฐํํจ.
- ์์ฐ์ ์ค์์ฑ: ์์ฐ ๋ฐ์ดํฐ๋ ํ์์ ๋์ ํ์ต ์์ ํ ๋ฐ ์ต์ข ์ฑ๋ฅ ํฅ์์ ํฌ๊ฒ ๊ธฐ์ฌํ๋ฉฐ, ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ๋ณํํ ๋ ์ต๋ ํจ๊ณผ๋ฅผ ๋.
- ์ธ์ด์ ์ญํ : ์์ฐ์ด ์กฐ๊ฑด์ ์์ ๊ตฌ๋ถ๊ณผ ๋งฅ๋ฝ ์ดํด๋ฅผ ๋์ ์ฑ๋ฅ์ ๋์๊ณ , ๋ฏธํ์ต ์์ ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํจ.
- ์ ์ด ํ์ต ๋ฅ๋ ฅ: ์ฌ์ ํ์ต๋ ๋ฉํฐํ์คํฌ ๋ชจ๋ธ์ few-shot ์จ๋ผ์ธ ํ์ต๋ง์ผ๋ก ์๋ก์ด ์์ ์ ๋น ๋ฅด๊ฒ ์ ์, ์ฒ์๋ถํฐ ๋ฐฐ์ฐ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ ๋ฆฌํจ.
- ์ธ๊ณ ๋ชจ๋ธ์ ์ ํ์ฑ: ํ์ต๋ ์ธ๊ณ ๋ชจ๋ธ์ ์ฌ๋ฌ ์คํ ์ ๋ด๋ค๋ณผ ์ ์์ ๋งํผ ์ ํํ์ฌ, ์คํ-๋ฃจํ ๊ณํ ์คํ์์๋ ๊ฑฐ์ ์ ์์ ์ผ๋ก ๊ณผ์ ๋ฅผ ์ํํ ์ ์์์.
์ด๋ฌํ ๊ด์ฐฐ์ ํตํด ์ ์๋ค์ ํ์ฌ Newt์ ํ๊ณ์ ๊ฐ์ ์ ๋ ๋ ผ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ผ๋ถ ๋๋ฉ์ธ์์ ์์ฐ ๋ฐ ๋ฉํฐํ์คํฌ์ ์ด๋์ด ๋ฏธ๋ฏธํ๋ ์ (Atari ๋ฑ)์ ๋ค๋ฉฐ, โ์ด๋ป๊ฒ ํ๋ฉด ๋ชจ๋ ์์ ์ ์ผ๊ด๋๊ฒ ํํ์ ์ค ๋ฐฉ๋ฒ์ ์ฐพ์์งโ๊ฐ ๊ณผ์ ๋ก ๋จ์์๋ค๊ณ ์ธ๊ธํ์ต๋๋ค. ๋ํ Newt์ ์ํคํ ์ฒ๊ฐ ๋น๊ต์ ๋จ์ํ MLP ๊ธฐ๋ฐ์ด๋ฏ๋ก, ์์ผ๋ก Transformer์ ๊ฐ์ ๊ฐ๋ ฅํ ๊ตฌ์กฐ๋ฅผ ๋์ ํ๋ฉด ๋ ํฅ์๋ ์ฌ์ง๊ฐ ์๋ค๊ณ ์ ์ํฉ๋๋ค. ๋ค์ ์ ์์๋ ์ด๋ฌํ ๋ฏธ๋ ๋ฐฉํฅ์ ํฌํจํด, ๋ณธ ์ฐ๊ตฌ๊ฐ ๊ฐ๋ ์์์ ํฅํ ๋ก๋ณดํฑ์ค/๋ชจ๋ธ๊ธฐ๋ฐ RL ๋ถ์ผ์ ์ฃผ๋ ์์ฌ์ ์ ์ ๋ฆฌํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
โLearning Massively Multitask World Models for Continuous Controlโ ๋ ผ๋ฌธ์ ์จ๋ผ์ธ ๊ฐํํ์ต์ ์ค์ผ์ผ์ ์ ๋ก ์์ด ํ์ฅํ์ฌ, ํ๋์ ์์ด์ ํธ๊ฐ ๋๊ท๋ชจ ๋ค์ค ๊ณผ์ ๋ฅผ ๋์์ ํ์ตํ ์ ์์์ ์ฆ๋ช ํ ์๋ฏธ์๋ ์ฐ๊ตฌ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ์ํด ๋ฐฉ๋ํ ๋ฒค์น๋งํฌ(MMBench)์ ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ด์ ํธ(Newt)๋ฅผ ์ ์ํ๊ณ , ์ฒด๊ณ์ ์ธ ์คํ์ ํตํด ๊ทธ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ํ์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์จ๋ผ์ธ RL์ ์ถฉ๋ถํ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ก ๋ท๋ฐ์นจ๋ ๊ฒฝ์ฐ ์๋ฐฑ ๊ฐ์ง ์ฐ์ ์ ์ด ์์ ๋ ๊ฐ๋น ๊ฐ๋ฅํ๋ฉฐ, ์ธ๊ณ ๋ชจ๋ธ์ ํ์ฉ์ด ํนํ ๊ฐ๋ ฅํ ํ์ ๋ฐํํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ RL๊ณผ ๋ก๋ณดํฑ์ค ํ์ต ์ปค๋ฎค๋ํฐ์ ์ฌ๋ฌ ๊ฐ์ง ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค:
โFoundation Modelโ ํจ๋ฌ๋ค์์ RL ๋์ : ์ธ์ด/๋น์ ๋ถ์ผ์์ ๊ฒ์ฆ๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต + ๊ฒฝ๋ ๋ฏธ์ธ์กฐ์ ์ ๋ต์ด ๋ก๋ด ์ ์ด์๋ ํตํ ์ ์์์ ์์ฌํฉ๋๋ค. Newt๋ ๊ฑฐ๋ํ ์์ฐ ๋ฐ์ดํฐ๋ก ์๋ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ ํ ์จ๋ผ์ธ ์ํธ์์ฉ์ผ๋ก ๊ฐ์ ํ๋ ๋ฐฉ์์ ์ทจํ๊ณ , ์ด๋ ๋ก๋ด ์ ์ด์์๋ ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ฑ๋ฅ์ ์๋ฆฝ์ํค๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์์ ๋ณด์์ต๋๋ค. ์์ผ๋ก ์ค์ ๋ก๋ด ์ ์ด์์๋ ์๋ฎฌ๋ ์ด์ /๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ก ๊ฑฐ๋ ๋ชจ๋ธ์ ๊ธธ๋ฌ๋ธ ํ, ์๋์ ์ค์ ํ๊ฒฝ ์ํธ์์ฉ์ผ๋ก ์ ์์ํค๋ ์ฐ๊ตฌ๊ฐ ํ์ฑํ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๋ฉํฐํ์คํฌ ํ์ต์ ํ์ฅ์ฑ: ์ ์๋ค์ ์คํ์ ํตํด ๋ชจ๋ธ/๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด ์์ ์ ์ฆ๊ฐ์ ๋ง์ถฐ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ฉํฐํ์คํฌ ํ์ต์์ ๋ชจ๋ธ ์ฉ๋๊ณผ ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์กด์ฌํ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ฉฐ, ๋ ๋ง์ ์์ ์ ํ์ตํ๋ ค๋ฉด ๋ณด๋ค ํฐ ๋ชจ๋ธ๊ณผ ๋ ๋ง์ ๋ณ๋ ฌ ํ๊ฒฝ, ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค๋ ์ง์นจ์ ์ค๋๋ค. ๊ถ๊ทน์ ์ผ๋ก โ์ฃผ์ด์ง ์์ ์์ ๋ํด ํ์ต์ด ์์ ์ ์ผ๋ก ์ด๋ค์ง๊ธฐ ์ํ ์ ์ ํ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์์ ์กฐํฉโ์ด ์์ ๊ฒ์ด๋ฉฐ, ์ด๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ์ธ๊ธํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ํต์ฐฐ์ ํฅํ ์ฐ๊ตฌ์๋ค์ด 10๊ฐ, 200๊ฐ, ๋์๊ฐ 1000๊ฐ ์์ ์ ๋์ ํ ๋ ์์คํ ์ค๊ณ ๊ธฐ์ค์ ์ ์ํด์ค๋๋ค.
๊ตฌ์กฐ์ ๊ฐ์ ์ฌ์ง: Newt๋ ์๋์ ์ผ๋ก ๊ฐ๋จํ MLP ๊ธฐ๋ฐ ์ธ๊ณ ๋ชจ๋ธ์ธ๋ฐ, ๋ ผ๋ฌธ์์๋ โTransformer ๋ฑ ์ต์ ๊ตฌ์กฐ๋ฅผ ๋์ ํ๋ฉด ๋ ๋์ ํํ ํ์ต์ด ๊ฐ๋ฅํ ๊ฒโ์ด๋ผ๊ณ ์ ์ํฉ๋๋ค. ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ด๋ ์๊ณ์ด ์์ธก์์ Transformer๊ฐ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ด๋ฏ, ์๊ณต๊ฐ์ ์ผ๋ก ๊ธด ์์กด์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฐ Transformer๊ฐ ์ ๋ฆฌํ ์ ์์ต๋๋ค. ํฅํ ์๊ณ์ด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ด ๊ฐํ๋ ์ธ๊ณ ๋ชจ๋ธ์ด๋ ๊ต์ฐจ๋ชจ๋ฌ(attention) ๊ตฌ์กฐ๋ฅผ ์ ์ฉํด Newt๋ฅผ ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ, ๋ฉ๋ชจ๋ฆฌ๋ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋์ ํด ์์ ๊ฐ ์ง์์ ๋ ์ ์กฐ์งํํ๋ ๋ฐฉํฅ๋่ํด๋ณผ ์ ์์ต๋๋ค.
์ง์์ ํ์ต๊ณผ ์ ์: Newt์ ์ ์ด ํ์ต ๊ฒฐ๊ณผ๋, ํ ์์ด์ ํธ๋ฅผ ํ๋ จํด๋๋ฉด ๋์ค์ ์ ๊ณผ์ ์ ๋น ๋ฅด๊ฒ ์ ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๋ชจ๋์ ํ์ต์ด๋ life-long learning์ ๊ด์ ์์ ๊ณ ๋ฌด์ ์ ๋๋ค. ํฅํ์๋ Newt ๊ฐ์ ๋ฉํฐํ์คํฌ ๋ชจ๋ธ์ ๊ธฐ์ด ์ ์ฑ ์ผ๋ก ํ์ฉํ์ฌ, ์๋ก์ด ๋ก๋ด์๊ฒ ๋ช ๋ฒ์ ์ํธ์์ฉ๋ง์ผ๋ก ๊ธฐ์ ์ ์ ์ํ๋ ์ฐ๊ตฌ๊ฐ ์ ๊ฐ๋ ์ ์์ต๋๋ค. ์ค์ ๋ก๋ด ๊ณตํ์์๋ ํ๋์ ์ฌ์ ํ์ต๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ๊ฐ ๋ก๋ด/์ ๋ฌด์ ๋ง๊ฒ ํ์ธํ๋ํ๋ ํํ๋ก ๊ธฐ์ ์ ์ด๊ฐ ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
๋๊ท๋ชจ ๋ฐ์ดํฐ ๋ฐ ์๋ํ๊ฒฝ ์์ฑ: ๋ ผ๋ฌธ์์๋ MMBench๋ฅผ ๊ตฌ์ถํ์ง๋ง, ๋ ๋์๊ฐ ์ ์ฐจ์ ํ๊ฒฝ ์์ฑ์ด๋ ์์ฑ ๋ชจ๋ธ์ ํตํ ์๋ฎฌ๋ ์ด์ ๋ค์ํ๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ด๋ผ๊ณ ์ธ๊ธํฉ๋๋ค. ๋ค์ํ ํ๊ฒฝ์์ ํ๋ จ๋ ๋ชจ๋ธ์ผ์๋ก ๋ฒ์ฉ์ฑ์ด ๋์์ง ๊ฒ์ด๋ฏ๋ก, ์๊ณ ๋ฆฌ์ฆ์ด ์๊ธฐ ์์ ์๊ฒ ์๋ก์ด ๊ณผ์ ๋ฅผ ๋ง๋ค์ด๋ด๋ฉฐ ํ์ตํ๊ฑฐ๋, ํ์ค ์ธ๊ณ๋ฅผ ๋ฐ์ํ ๋ฐฉ๋ํ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ๋ ์๋๊ฐ ๊ฐ์น ์์ด ๋ณด์ ๋๋ค.
์ผ๊ด๋ ๋ฉํฐํ์คํฌ ๊ฐ์ ๋ฐฉ๋ฒ: ์์ ์ธ๊ธํ๋ฏ, Newt์์๋ ์ผ๋ถ ์์ ์ ํํ์ ๋ ๋ฐ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด๋ catastrophic forgetting์ด๋ ๋ถ์ ์์ ์ํธ ๊ฐ์ญ ๋ฌธ์ ์๋ ๊ด๋ จ๋ ์ ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ๋ฉํฐํ์คํฌ ํ์ต ์ ๋ชจ๋ ์์ ์์ ๊ณ ๋ฅด๊ฒ ์ด๋์ ๋ณผ ์ ์๋ ๊ธฐ๋ฒ (์: ์์ ๋ณ ๊ฐ์ค์น ์กฐ์ , ๋์ ์ํคํ ์ฒ, ๋ถ์ฐ์ ๋ฉํฐ ํค๋ ๋ฑ) ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค. ์ ์๋ค๋ โ์ด๋ค ์์ ์ ๋ฉํฐํ์คํฌ์ ์ด์ ์ด ๋ํ๋ค. ๋ชจ๋ ์์ ์์ ๊ฐ์ ์ ์ด๋ฃจ๋ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋คโ๊ณ ์ง์ ํ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ด ๋ ผ๋ฌธ์ โ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ตโ์ ํ์ ๋ค์ ํ ๋ฒ ๋ถ๊ฐ์์ผฐ์ต๋๋ค. ์๋ ๋ชจ๋ธ์ ํตํด ๊ณตํต๋ ํ๊ฒฝ ๋์ญํ์ ํ์ตํ๊ณ ํ์ฉํจ์ผ๋ก์จ, ์์ฐ ๋ฐ์ดํฐ ํตํฉ์ด๋ ์คํ-๋ฃจํ ์ ์ด ๋ฑ ๋ชจ๋ธ ํ๋ฆฌ ๋ฐฉ๋ฒ์ผ๋ก๋ ์ด๋ ค์ด ๊ธฐ๋ฅ์ ๊ตฌํํ์ต๋๋ค. ์ด๋ ์ค์ ๋ก๋ด์๊ฒ๋ ์ธ๊ณ์ ๋ํ ๋ชจ๋ธ์ ๊ฐ๋ฅด์ณ์ ์ ์ฐํ ์ฌ๊ณ ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์์ฝํ๋ฉด, Newt์ MMBench๋ ์ฐ์ ์ ์ด ๋ถ์ผ ๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ ๋ก๋ด์ ๊ฐ๋ฅ์ฑ์ ํ ๊ฑธ์ ๋ค๊ฐ๊ฐ ์ฐ๊ตฌ์ ๋๋ค. โ์จ๋ผ์ธ RL๋ก๋ ์ด๋ ๊ฒ ํ ์ ์๋คโ๋ ๊ฒ์ ์ฆ๋ช ํจ์ผ๋ก์จ, ๊ทธ๋์ ๋ฐ์ดํฐ๋ ํจ์จ ๋ฌธ์ ๋ก ํํผ๋๋ ์ ๊ทผ์ ์๋ก์ด ํ๋ ฅ์ ๋ถ์ด๋ฃ์์ต๋๋ค. MMBench๋ ์์ผ๋ก ๋ค์ํ ์ฌ์ ํ์ต๋ ๊ฑฐ๋ ๋ชจ๋ธ (์: ๋น๋์ค ์ดํด ๋ชจ๋ธ)์ ์ด ๋ฒค์น๋งํฌ์ ํ์ธํ๋ํด๋ณด๋ ์ฐ๊ตฌ๋, ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ ํ์ต ์ฐ๊ตฌ ๋ฑ์๋ ํ์ฉ๋ ์ ์์ ๊ฒ์ ๋๋ค. ์ค์ ๋ก ์ ์๋ค์ โMMBench๋ ๋ฏธ๋ฆฌ ํ์ต๋ ๊ฑฐ๋ ์ ์ฑ ์ ๋ฏธ์ธ์กฐ์ ํ๋ ์ฐ๊ตฌ์ ํนํ ์ ํฉํ ๊ฒโ์ด๋ผ ์ธ๊ธํ๋ฉฐ, ์์ ์ Newt ๋ชจ๋ธ ์ญ์ ์ปค๋ฎค๋ํฐ์ strong baseline์ผ๋ก ์ ๊ณตํ๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ ๋ฐ์ ๋ ๋ฐฉ๋ฒ๋ค์ด ๋์ค๊ธฐ๋ฅผ ๊ธฐ๋ํ๊ณ ์์ต๋๋ค.
์ฐ๊ตฌ์๋ค์ ๋์ผ๋ก ์ด๋ ๊ฒ ๊ฐ์กฐํฉ๋๋ค: โ์จ๋ผ์ธ RL์ ์๋ฐฑ ๊ฐ ์์ ์ ๋์ ์ ์ฉํ๋ ๊ฒ์ด ์ถฉ๋ถํ ๊ฐ๋ฅํ๋ฉฐ, ๊ทธ ๊ฒฐ๊ณผ ํ์ต๋ ์๋ ๋ชจ๋ธ์ ๋๋ผ์ธ ๋งํผ ๊ฐํ ์ผ๋ฐํ์ ์คํ-๋ฃจํ ์ ์ด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋คโ. ์ด๋ ๊ณง ์ฐ๋ฆฌ์๊ฒ โ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ๊ฐํํ์ตโ์ด๋ผ๋ ์๋ก์ด ์ฅ์ ์ด์ด์ฃผ์์ต๋๋ค. ํฅํ ๋ช ๋ ๊ฐ ์ด ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์ ๊ฐ๋์ด, ๊ฒฐ๊ตญ ์ค์ธ๊ณ ๋ก๋ด๋ค์ด ์๋ง์ ์์ ์ ํ๊บผ๋ฒ์ ๋ฐฐ์ฐ๊ณ ์ํํ๋ ๋ชจ์ต์ ๊ธฐ๋ํด ๋ด ๋๋ค.