graph LR
subgraph G1["๊ธฐ์กด Video World Model"]
A1[ํ์ฌ ์ด๋ฏธ์ง] --> B1[Video Prediction Model]
C1[์ก์
์ํ์ค] --> B1
B1 --> D1["๋ฏธ๋ ์ด๋ฏธ์ง (์๋ฐฑ๋ง ํฝ์
)"]
end
subgraph G2["Semantic World Model"]
A2[ํ์ฌ ์ด๋ฏธ์ง] --> B2["SWM (VLM ๊ธฐ๋ฐ)"]
C2[์ก์
์ํ์ค] --> B2
E2["์ง๋ฌธ: ๋ธ๋ก์ด ์ ์ดํ๋?"] --> B2
B2 --> D2["Yes ๋๋ No"]
end
๐SWM ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- โจ ์ด ๋ ผ๋ฌธ์ ๋ฏธ๋ ํ๋ ์์ ํฝ์ ์ ์ฌ๊ตฌ์ฑํ๋ ๋์ , ๋ฏธ๋ ๊ฒฐ๊ณผ์ ๋ํ ์๊ฐ ์ง๋ฌธ ์๋ต(VQA) ๋ฌธ์ ๋ก ์ธ๊ณ ๋ชจ๋ธ๋ง์ ์ฌ์ ์ํ๋ Semantic World Models (SWM)๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค SWM์ ์ฌ์ ํ์ต๋ Vision-Language Models (VLMs)๋ฅผ ์ด๋ฏธ์ง-์ก์ -ํ ์คํธ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ก์ ์ ์๋ฏธ๋ก ์ ํจ๊ณผ๋ฅผ ์์ธกํ๋ฉฐ, ์ ์๋ QA ์ธํธ์ ์ํ๋ง ๋๋ gradient-based ํ๋๋ ๋ฐฉ๋ฒ์ ํตํด ์ ์ฑ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, SWM์ LangTable ๋ฐ OGBench ํ๊ฒฝ์์ ํฝ์ ๊ธฐ๋ฐ world model๊ณผ offline RL baseline์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ, novel ๋ฐ out-of-distribution ์ฅ๋ฉด์์ ๊ฐ๋ ฅํ generalization ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ์๋ ๋ชจ๋ธ๋ง์ ์๋ก์ด ํจ๋ฌ๋ค์์ธ Semantic World Models (SWM)์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ์๋ ๋ชจ๋ธ๋ค์ ๋ฏธ๋ ํ๋ ์์ ํฝ์ ๋จ์๋ก ์์ธกํ๋ ๋ฐ ์ค์ ์ ๋์์ง๋ง, ์ด๋ ์ข ์ข ์ค์ ๊ณํ(planning) ๋ชฉํ์ ์์ถฉํ๋ฉฐ, ํฝ์ ์ฌ๊ตฌ์ฑ์ด ๊ณํ ์์ฌ๊ฒฐ์ ์ ํ์ํ ํต์ฌ์ ์ธ ์๋ฏธ๋ก ์ ์ธ๋ถ์ฌํญ์ ๋์น ์ ์์ต๋๋ค.
ํต์ฌ ์์ด๋์ด ๋ฐ ๋ฐฉ๋ฒ๋ก :
๋ณธ ๋ ผ๋ฌธ์ ์๋ ๋ชจ๋ธ์ด ๋ฏธ๋ ํ๋ ์์ ํฝ์ ๋ก ์ฌ๊ตฌ์ฑํ ํ์ ์์ด, ์ค์ง ํ์คํฌ์ ๊ด๋ จ๋ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์์ธกํ๊ธฐ๋ง ํ๋ฉด ๋๋ค๋ ๊ฐ์ค์ ์ธ์๋๋ค. ์ด๋ฅผ ์ํด ์๋ ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ฅผ ๋ฏธ๋ ํ๋ ์์ ๋ํ ์๊ฐ ์ง์ ์๋ต(Visual Question Answering, VQA) ๋ฌธ์ ๋ก ์ฌ์ ์ํฉ๋๋ค. ์ฆ, โํ์ด ๋ฌผ์ฒด์ ๊ฐ๊น์์ก๋๊ฐ?โ, โ๋นจ๊ฐ ํ๋ธ๊ฐ ๋์ด์ก๋๊ฐ?โ์ ๊ฐ์ ์ง๋ฌธ์ โ์โ ๋๋ โ์๋์คโ๋ก ๋ตํ๋ ํํ๋ก ๋ฏธ๋์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ๊ด์ ์ Vision-Language Models (VLMs)์ ๊ฐ๋ ฅํ ์ฌ์ ํ์ต(pretraining) ์ง์๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ฉํ ์ ์๊ฒ ํฉ๋๋ค. SWM์ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ธฐ์กด VLM(์: PaliGemma)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ํ๋(action) ์กฐ๊ฑด์ ์ถ๊ฐํ์ฌ ๋ฏธ๋ ์ฌ๊ฑด์ ๋ํ ์ง๋ฌธ์ ๋ตํ๋๋ก ๋ฏธ์ธ ์กฐ์ (fine-tuning)๋ฉ๋๋ค.
SWM ์ํคํ ์ฒ ๋ฐ ํ์ต:
SWM์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค:
- VLM ๋ฐฑ๋ณธ: PaliGemma์ ๊ฐ์ ์ฌ์ ํ์ต๋ VLM์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ธ์ฝ๋(v_\phi)์ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํฌํจํฉ๋๋ค. ์ด๋ฏธ์ง ์ธ์ฝ๋์ ํน์ง์ LLM์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์ํ๋ ํ๋ ฌ W \in \mathbb{R}^{d_{tok} \times d_{img}}๋ฅผ ํตํด ์ฐ๊ฒฐ๋ฉ๋๋ค.
- ์ก์ ์ปจ๋์ ๋: ์ก์ ์ํ์ค a_{i:j}๋ฅผ ๋ชจ๋ธ ์ ๋ ฅ์ ํตํฉํ๊ธฐ ์ํด, ์๋ก์ด ์ ํ ํฌ์ ํ๋ ฌ P \in \mathbb{R}^{d_{tok} \times d_{act}}๋ฅผ ๋์ ํ์ฌ ๊ฐ ์ก์ a \in \mathbb{R}^{d_{act}}์ LLM ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์ํฉ๋๋ค.
- ์ ๋ ฅ ๊ตฌ์ฑ: ํ์ฌ ๊ด์ธก๊ฐ S_i (RGB ํ๋ ์), ์ ์๋ ์ก์ ์ํ์ค a_{i:j}, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋์ ๋ํ ์์ฐ์ด ์ง์ QS_j๊ฐ ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง๋๋ค. ์ด๋ฅผ ์ฐ๊ฒฐ๋ ์๋ฒ ๋ฉ ์ํ์ค๋ก ๊ตฌ์ฑํฉ๋๋ค: \text{concat}(\text{W}^\top v_\phi(S_i), \text{P}^\top a_i, \text{P}^\top a_{i+1}, \dots, \text{P}^\top a_j, QS_j)
- ํ์ต ๋ชฉํ: ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ํ๊ฒ ๋ต๋ณ AS_j๋ฅผ ์์ธกํ๋๋ก ์ข ๋จ๊ฐ(end-to-end)์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ฉ๋๋ค. ํ์ต ๋ชฉํ๋ ํ์ค ๊ต์ฐจ ์ํธ๋กํผ ์์ค์ ๋๋ค: L = -\log p(AS_j | S_i, a_{i:j}, QS_j) ์ด๋ฌํ ํ์ต ์ ์ฐจ๋ฅผ ํตํด SWM์ ํฝ์ ์์ค์ ํํ์ ๋ช ์์ ์ผ๋ก ์์ฑํ์ง ์๊ณ ๋ ์ธ์ด ๊ณต๊ฐ์์ ํ๊ฒฝ์ ์ญํ์ ํ์ ํ์ฌ ๋ฏธ๋ ์ํ์ ๋ํ ์ง๋ฌธ์ ๋ตํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ์ ์์ฑ (SAQA):
SWM์ ํ์ต์ํค๊ธฐ ์ํด state-action-question-answer (SAQA) ๋ฐ์ดํฐ์ ์ด ์์ฑ๋ฉ๋๋ค. D_{SAQA} = \{(S_i, a_{i:j}, QS_j, AS_j), \dots \} ์ฌ๊ธฐ์ S_i๋ ํ์ฌ ์ํ(RGB ํ๋ ์), h๋ ์์ธก ์์ (horizon), a_{i:j}๋ S_i์์ ์ทจํด์ง ์ก์ ์ํ์ค, QS_j์ AS_j๋ ๋ฏธ๋ ์ํ S_j์ ๋ํ ์ง๋ฌธ-๋ต๋ณ ์์ ๋๋ค. ์ด ๋ฐ์ดํฐ๋ ๊ถค์ (trajectories) ๋ฐ์ดํฐ์์ ์์ฑ๋๋ฉฐ, ๊ฐ์ฒด ์์น์ ๊ฐ์ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํ์ฌ ์ง๋ฌธ์ ํ๋ก๊ทธ๋จ์ ์ผ๋ก ์์ฑํฉ๋๋ค.
SWM์ ์ด์ฉํ ๊ณํ:
SWM์ ๋ค์ ๋ ๊ฐ์ง ๊ณํ ๋ฐฉ๋ฒ๊ณผ ํจ๊ป ์ฌ์ฉ๋ ์ ์์ต๋๋ค:
- ์ํ๋ง ๊ธฐ๋ฐ ๊ณํ (Sampling-Based Planning): Model Predictive Path Integral (MPPI)๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ก์ ์ํ์ค ๋ถํฌ๋ฅผ ์ ์งํ๊ณ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค. ๊ฐ ์ํ๋ง๋ ๊ถค์ (a^{(k)})์ ๊ฐ์น๋ SWM์ด ์ํ๋ ๋ต๋ณ์ ์์ฑํ ๊ฐ๋ฅ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค. ํ์คํฌ T๋ ์ง๋ฌธ, ๋ต๋ณ, ๊ฐ์ค์น ์งํฉ์ผ๋ก ์ ์๋ฉ๋๋ค: T := \{(Q_i, A^*_i, W_i)\}_{i=1}^k ๊ด์ธก๊ฐ S์ ์ก์ ์ํ์ค a_{1:n}์ ๋ํ ๊ฐ์น ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: V_T(S, a_{1:n}) = \sum_{i=0}^k W_i \cdot p_{\text{wm}}(A^*_i | S, a_{1:n}, Q_i) ๋ํ, ์ก์ ์ํ์ค๋ฅผ ๊ธธ์ด๊ฐ c์ธ ์๋ธ ์ฒญํฌ๋ก ๋๋์ด ์กฐ๊ธฐ ๋ณด์(early reward)์ ์ ๊ณตํ๋ ๋ฐฉ๋ฒ๋ ์ฌ์ฉ๋ฉ๋๋ค: V_{T,c}(S, a_{1:n}) = \sum_{i=0}^k \sum_{j=c, j+=c}^n W_i \cdot p_{\text{wm}}(A^*_i | S, a_{1:j}, Q_i)
- ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๊ณํ (Gradient-Based Planning): ๋๊ท๋ชจ ๋ชจ๋ธ์์ ์ํ๋ง ๊ธฐ๋ฐ ๊ณํ์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด ์ ์๋ฉ๋๋ค. ๋ฒ ์ด์ค ์ ์ฑ (\pi_b)์์ ์์ฑ๋ ํ๋ณด ๊ถค์ (a \sim \pi_b(S))์ SWM๊ณผ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ ํฉ๋๋ค. ๋ชฉํ๋ ๊ฐ์น ํจ์ V_{T,c}(S, a)๋ฅผ ์ต๋ํํ๋ ์ก์ ์ํ์ค a๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. J_T(a) = V_{T,c}(S, a)
์คํ ๊ฒฐ๊ณผ:
LangTable ๋ฐ OGBench ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํ๊ฐ๋ SWM์ ๊ธฐ์กด ํฝ์ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ ๋ฐ ์คํ๋ผ์ธ RL(IDQL, AVD) ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
- SWM์ ๋ฏธ๋ QA ์ง๋ฌธ์ ์ ํํ๊ฒ ๋ต๋ณํ๋ฉฐ ์๋ก์ด ์ฅ๋ฉด์๋ ์ผ๋ฐํ๋์์ต๋๋ค.
- ๋ฒ ์ด์ค ์ ์ฑ ๋๋น LangTable์์ ํ๊ท 14.4%์์ 81.6%๋ก, OGBench์์ 45.33%์์ 76%๋ก ํ๊ท ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
- ์ค์ต์ ๋ฐ์ดํฐ(suboptimal data)๋ฅผ ํ๋ จ์ ํผํฉํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฅ์๋๋ฉฐ, SWM์ ์ค์ต์ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ํฉ๋ฆฌ์ ์ธ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์ฌ์ ํ์ต๋ VLM์ ์ผ๋ฐํ ๋ฅ๋ ฅ(์: ๊ตฌ์ฑ์ ์ผ๋ฐํ, ๋ฐฐ๊ฒฝ ๋ณํ์ ๋ํ ๊ฐ๊ฑด์ฑ)์ ์ ์งํ๋ฉฐ OOD(Out-of-Distribution) ํ๊ฒฝ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ๋ชจ๋ธ์ ์ดํ ์ ๋งต(attention maps) ์๊ฐํ๋ฅผ ํตํด, SWM์ด ์ธ์ด ํ๋กฌํํธ์ ๋ฐ๋ผ ์ด๋ฏธ์ง์ ํ์คํฌ ๊ด๋ จ ์์ญ์ ์ ํํ๊ฒ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
๊ฒฐ๋ก ๋ฐ ํ๊ณ:
SWM์ ๋ฏธ๋ ๊ฒฐ๊ณผ๋ฅผ ์ง์ ์๋ต ํํ๋ก ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ํฝ์ ์์ค ์ ๋ณด ์ฌ๊ตฌ์ฑ์ ํ์์ฑ์ ์์ฑ๋๋ค. ์ด๋ ๊ธฐ์กด ํฝ์ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ๋ง ๋ฐ ์คํ๋ผ์ธ RL ๋ฐฉ์๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ๋๊ท๋ชจ VLM์ ๋์ ํ๋ผ๋ฏธํฐ ์๋ก ์ธํด ๋จ์ผ GPU์์ ์ํ ๊ธฐ๋ฐ ๊ณํ์ ๊ณ์ฐ ๋น์ฉ์ด ๋๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๊ณํ์ ๋ ํจ์จ์ ์ด์ง๋ง, ์ด๊ธฐ ๊ถค์ ์ ์ ์ํ ๋ฒ ์ด์ค ์ ์ฑ ์ด ํ์ํฉ๋๋ค. ๋ํ, SAQA ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ํด ์๋ฎฌ๋ ์ด์ ์ ์ ์ง ์ง์ค(ground truth) ์ ๋ณด๊ฐ ํ์ํ๋ค๋ ์ ์ ์ค์ ๋ก๋ด ํ๊ฒฝ ์ ์ฉ์ ์์ด ๋์ ๊ณผ์ ์ ๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ๋ ์์ VLM ์ฌ์ฉ ๋ฐ ์ค๋ผํด ์์ฑ QA ๋์ VLM ์์ฒด์์ QA ์์ ์์ฑํ๋ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : โ๋ฏธ๋์ ํฝ์ ์ด ์๋๋ผ, ๋ฏธ๋์ ์๋ฏธ๋ฅผ ์์ธกํ๋ผโ
๋ก๋ด๊ณตํ์์ ์ฐ๋ฆฌ๊ฐ ์ ๋ง๋ก ์ํ๋ ๊ฒ์ ๋ฌด์์ผ๊น์? ๋ก๋ด์ด ์ปต์ ์ง์ผ๋ ค ํ ๋, ์ฐ๋ฆฌ๋ ๋ก๋ด์ด 1์ด ํ์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ ์๋ฒฝํ๊ฒ ์์ธกํ๊ธธ ์ํ๋ ๊ฑธ๊น์? ์๋๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ง์ ์ผ๋ก ์๊ณ ์ถ์ ๊ฒ์ ๋จ ํ๋์ ๋๋ค: โ์ด ๋์์ ์ํํ๋ฉด ์ปต์ ์ก๊ฒ ๋ ๊น?โ
์ด๊ฒ์ด ๋ฐ๋ก Semantic World Models(SWM) ๋ ผ๋ฌธ์ ํต์ฌ ํต์ฐฐ์ ๋๋ค. ๋ฆฌ์ฒ๋ ํ์ธ๋ง์ด ์์์ญํ์ ์ค๋ช ํ ๋ ๋ณธ์ง์ ๊ฟฐ๋ซ์๋ฏ์ด, ์ด ๋ ผ๋ฌธ์ World Model์ ๋ณธ์ง์ ๊ฟฐ๋ซ์ต๋๋ค. ํฝ์ ์ฌ๊ตฌ์ฑ์ด๋ผ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ์ง ๋ง๊ณ , ์ ๋ง ํ์ํ ์๋ฏธ๋ก ์ ์ ๋ณด๋ง ์์ธกํ์๋ ๊ฒ์ด์ฃ .
๋ฌธ์ ์ ํต์ฌ: ํฝ์ ์์ธก์ ํ๊ณ
๊ธฐ์กด์ World Model๋ค์ ๋ง์น ์ํ ๋ฒ์ ์ ์ฒด๋ฅผ ์ธ์ฐ๋ ค๋ ํ์๊ณผ ๊ฐ์ต๋๋ค. โํ์ฌ ํ๋ ์ + ์ก์ โ ๋ฏธ๋ ํ๋ ์โ์ ์์ธกํ๋ ค๊ณ ํ์ฃ . ์ด ์ ๊ทผ๋ฒ์ ๋ฌธ์ ์ ์ ๋ช ํํฉ๋๋ค:
- ๊ณ์ฐ ๋น์ฉ์ด ๋ง๋ํฉ๋๋ค: ๊ณ ํด์๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ ค๋ฉด ์์ฒญ๋ ์ฐ์ฐ์ด ํ์ํฉ๋๋ค.
- ์ ์ ์ค์ํ ๊ฒ์ ๋์นฉ๋๋ค: ์๋ฌด๋ฆฌ ์ฌ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด๋, โ๋ฌผ์ฒด๊ฐ ์ ์ดํ๋์งโ๊ฐ์ ํต์ฌ ์ ๋ณด๋ฅผ ์ ํํ ์บก์ฒํ์ง ๋ชปํ ์ ์์ต๋๋ค.
- ๊ณํ(Planning)๊ณผ ๋ชฉ์ ์ด ๋ถ์ผ์นํฉ๋๋ค: ํฝ์ ์ฌ๊ตฌ์ฑ ํ์ง๊ณผ ์ข์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฅ๋ ฅ ์ฌ์ด์๋ ์ง์ ์ ์ธ ์๊ด๊ด๊ณ๊ฐ ์์ต๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๊ธฐ์กด World Model์ ๋๋ ๋ง โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ ์
๋ ฅ: ํ์ฌ ์ด๋ฏธ์ง + ์ก์
์ํ์ค โ
โ ์ถ๋ ฅ: ๋ฏธ๋ ์ด๋ฏธ์ง (์๋ฐฑ๋ง ํฝ์
) โ
โ โ
โ ๋ฌธ์ : ํฝ์
ํ๋ํ๋๋ฅผ ์์ธกํ๋๋ผ ์ ์ "๋ธ๋ก์ด ๋์ด์ก๋?" โ
โ ๊ฐ์ ํต์ฌ ์ง๋ฌธ์ ๋ตํ์ง ๋ชปํจ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด: VQA๋ก์์ World Modeling
SWM์ ํต์ฌ ์์ด๋์ด๋ฅผ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด ์ด๋ ์ต๋๋ค:
โWorld Modeling์ ๋ฏธ๋์ ๋ํ Visual Question Answering(VQA) ๋ฌธ์ ๋ก ์ฌ์ ์ํ์โ
์ด๊ฒ์ ๋ง์น ์ํ์์ ์ ์ฒด ๊ต๊ณผ์๋ฅผ ์ธ์ฐ๋ ๋์ , ์ค์ํ ๊ฐ๋ ๋ง ์ดํดํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๋ก๋ด์๊ฒ ํ์ํ ๊ฒ์ โ๋ฏธ๋์ ๋ชจ๋ ํฝ์ โ์ด ์๋๋ผ โ๋ฏธ๋์ ๋ํ ํต์ฌ ์ง๋ฌธ๋ค์ ๋ตโ์ ๋๋ค.
๋ฐฉ๋ฒ๋ก : VLM์ World Model๋ก ๋ณํํ๊ธฐ
๋ฐ์ดํฐ์ ๊ตฌ์ฑ: SAQA (State-Action-Question-Answer)
SWM์ ํ๋ จ์ํค๊ธฐ ์ํด ์ ์๋ค์ ๋ ํนํ ๋ฐ์ดํฐ์ ํ์์ ์ ์ํฉ๋๋ค. ์ ํต์ ์ธ (์ํ, ์ก์ , ๋ค์ ์ํ) ํ์ ๋์ , SAQA ํ์์ ์ฌ์ฉํฉ๋๋ค:
\mathcal{D}_{SAQA} = \{(S_i, a_{i:j}, Q_{S_j}, A_{S_j}), \ldots\} \quad \text{where } j = i + h
์ฌ๊ธฐ์ ๊ฐ ์์์ ์๋ฏธ๋:
| ๊ธฐํธ | ์๋ฏธ | ์์ |
|---|---|---|
| S_i | ํ์ฌ ์ํ (RGB ์ด๋ฏธ์ง) | ํ ์ด๋ธ ์ ๋ธ๋ก๋ค์ ์ด๋ฏธ์ง |
| a_{i:j} | ์ก์ ์ํ์ค | ๋ก๋ด ํ์ xy ์ด๋ ๋ช ๋ น๋ค |
| h | ์์ธก horizon | 0~20 ์คํ |
| Q_{S_j} | ๋ฏธ๋ ์ํ์ ๋ํ ์ง๋ฌธ | โ๋นจ๊ฐ ๋ณ์ด ํ๋ ํ๋ธ์ ๋ฟ์๋?โ |
| A_{S_j} | ํด๋น ์ง๋ฌธ์ ์ ๋ต | โYesโ ๋๋ โNoโ |
์ด ๋ฐ์ดํฐ์ ์ ์๋ฆ๋ค์ด ์ ์ ์๋ฎฌ๋ ์ดํฐ์ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ ๋ชจ๋ ๋ฌผ์ฒด์ ์์น๋ฅผ ์ ํํ ์๊ณ ์์ผ๋ฏ๋ก, ํ๋ก๊ทธ๋๋ฐ ๋ฐฉ์์ผ๋ก ์ง๋ฌธ-๋ต๋ณ ์์ ์๋ ์์ฑํ ์ ์์ต๋๋ค.
์ง๋ฌธ ์ ํ์ ๋ค์์ฑ
๋ ผ๋ฌธ์์ ์ฌ์ฉํ ์ง๋ฌธ ์ ํ๋ค์ ์ดํด๋ณด๋ฉด:
LangTable ํ๊ฒฝ:
- ๋ธ๋ก ์ ์ด ์ฌ๋ถ: โIs the red star touching the blue cube?โ
- ๋ก๋ด-๋ธ๋ก ๊ฑฐ๋ฆฌ: โIs the green cube next to the peg?โ
- ์์น ๊ด๊ณ: โIs the red star in the center of the board?โ
- ์๋์ ๋ฐฉํฅ: โIs the peg above the red cube?โ
- ์ด๋ ๋ฐฉํฅ: โDid the red cube move left?โ
- ๊ทผ์ ๋ณํ: โAre the red star and blue cube closer together?โ
OGBench ํ๊ฒฝ:
- ํ์ง ์ฌ๋ถ: โIs the red cube grasped by the robot?โ
- ์ ์ด ํ์ธ: โIs the blue cube touching the robot gripper?โ
- ์ ์ธต ์ํ: โIs the red cube on top of the blue cube?โ
๋ชจ๋ธ ์ํคํ ์ฒ: PaliGemma์ ์ก์ ์กฐ๊ฑดํ ์ถ๊ฐํ๊ธฐ
SWM์ ๊ธฐ์กด VLM์ธ PaliGemma (3B ํ๋ผ๋ฏธํฐ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. PaliGemma์ ๊ตฌ์ฑ ์์๋:
- Gemma LLM: ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ (ํ ํฐ ์๋ฒ ๋ฉ ์ฐจ์: d_{tok})
- SigLIP ๋น์ ์ธ์ฝ๋ (v_\phi): ์ด๋ฏธ์ง๋ฅผ ํน์ง ๋ฒกํฐ๋ก ๋ณํ (ํน์ง ์ฐจ์: d_{img})
- ํ๋ก์ ์ ํ๋ ฌ (W \in \mathbb{R}^{d_{tok} \times d_{img}}): ์ด๋ฏธ์ง ํน์ง์ ์ธ์ด ๋ชจ๋ธ ๊ณต๊ฐ์ผ๋ก ํฌ์
์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ์ถ๊ฐ ์์๋ ์ก์ ํ๋ก์ ์ ํ๋ ฌ์ ๋๋ค:
P \in \mathbb{R}^{d_{tok} \times d_{act}}
์ด ํ๋ ฌ์ ๊ฐ ์ก์ a \in \mathbb{R}^{d_{act}}๋ฅผ ์ธ์ด ๋ชจ๋ธ์ ํ ํฐ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์ํฉ๋๋ค. ๋ง์น ์ด๋ฏธ์ง ํ ํฐ์ด ์ธ์ด ๋ชจ๋ธ์ ๋ค์ด๊ฐ๋ฏ์ด, ์ก์ ๋ ๋์ผํ ๋ฐฉ์์ผ๋ก ์ฃผ์ ๋ฉ๋๋ค.
graph TB
subgraph Input["์
๋ ฅ ์ฒ๋ฆฌ"]
IMG["ํ์ฌ ์ด๋ฏธ์ง S_i"] --> VE["SigLIP Vision Encoder"]
VE --> IMGF["์ด๋ฏธ์ง ํน์ง v_ฯ(S_i)"]
IMGF --> WPROJ["W ํ๋ก์ ์
"]
ACT["์ก์
์ํ์ค a_i...a_j"] --> APROJ["P ํ๋ก์ ์
"]
Q["์ง๋ฌธ Q_Sj"] --> TOK[ํ ํฐํ]
end
subgraph TokenSeq["ํ ํฐ ์ํ์ค ๊ตฌ์ฑ"]
WPROJ --> CONCAT[Concatenate]
APROJ --> CONCAT
TOK --> CONCAT
CONCAT --> SEQ["์ด๋ฏธ์ง/์ก์
/์ง๋ฌธ ํ ํฐ๋ค"]
end
subgraph LM["์ธ์ด ๋ชจ๋ธ"]
SEQ --> GEMMA[Gemma LLM]
GEMMA --> ANS["๋ต๋ณ A_Sj"]
end
์ต์ข ์ ๋ ฅ ์ํ์ค ๊ตฌ์ฑ
์ฃผ์ด์ง ๋ฐ์ดํฐ ํํ (S_i, a_{i:j}, Q_{S_j}, A_{S_j})์ ๋ํด, ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ค๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋ฉ๋๋ค:
\text{concat}\left(W^\top V_{sc}(S_i), P^\top a_i, P^\top a_{i+1}, \ldots, P^\top a_j, Q_{S_j}\right)
ํ๋ จ์ ํ์ค cross-entropy ์์ค์ ์ฌ์ฉํฉ๋๋ค:
\mathcal{L} = -\log p(A_{S_j} | S_i, a_{i:j}, Q_{S_j})
์ด ๊ตฌ์กฐ์ ์ฐ์ํจ์ ๊ธฐ์กด VLM์ ์ฌ์ ํ์ต ์ง์์ ๊ทธ๋๋ก ๋ณด์กดํ๋ค๋ ์ ์ ๋๋ค. ํฝ์ ์ฌ๊ตฌ์ฑ ๋์ ์ธ์ด ๊ณต๊ฐ์์ ๋์ญํ์ ๋ชจ๋ธ๋งํจ์ผ๋ก์จ, VLM์ด ์ธํฐ๋ท ๊ท๋ชจ ๋ฐ์ดํฐ์์ ํ์ตํ ์ธ๊ณ ์ง์์ ๋ก๋ด ์ ์ด์ ์ ์ดํ ์ ์์ต๋๋ค.
ํ๋๋: Semantic World Model๋ก ํ๋ ๊ฒฐ์ ํ๊ธฐ
SWM์ด ๋ฏธ๋์ ๋ํ ์ง๋ฌธ์ ๋ตํ ์ ์๋ค๋ฉด, ์ด๋ฅผ ์ด๋ป๊ฒ ๋ก๋ด ์ ์ด์ ํ์ฉํ ๊น์?
๊ฐ์น ํจ์ ์ ์
๊ฐ ํ์คํฌ๋ ์ง๋ฌธ-๋ต๋ณ-๊ฐ์ค์น์ ์งํฉ์ผ๋ก ์ ์๋ฉ๋๋ค:
T := \{(Q_i, A_i^*, W_i)\}_{i=1}^k
์๋ฅผ ๋ค์ด, โ๋นจ๊ฐ ๋ธ๋ก์ ํ๋ ๋ธ๋ก์ผ๋ก ๋ฐ๊ธฐโ ํ์คํฌ๋:
| ์ง๋ฌธ | ์ํ๋ ๋ต | ๊ฐ์ค์น |
|---|---|---|
| โ๋นจ๊ฐ ๋ธ๋ก์ด ํ๋ ๋ธ๋ก์ ๋ฟ์๋?โ | Yes | 0.8 |
| โ๋นจ๊ฐ ๋ธ๋ก์ด ํ๋ ๋ธ๋ก์ ๋ ๊ฐ๊น์์ก๋?โ | Yes | 0.2 |
์ฃผ์ด์ง ์ํ S์ ์ก์ ์ํ์ค a_{1:n}์ ๋ํด, ๊ฐ์น ํจ์๋:
V^T(S, a_{1:n}) = \sum_{i=0}^{k} W_i \cdot p_{wm}(A_i^* | S, a_{1:n}, Q_i)
Early Reward: ๋ ๋น ๋ฅธ ๋ชฉํ ๋ฌ์ฑ์ ์ฅ๋ ค
์ ์๋ค์ ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ ํฉ๋๋ค: ๋ชฉํ๋ฅผ ๋ ์ผ์ฐ ๋ฌ์ฑํ๋๋ก ๋ณด์ํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ์ด๋ฅผ ์ํด ์ก์ ์ํ์ค๋ฅผ ์ฒญํฌ๋ก ๋๋์ด ์ ์ง์ ์ผ๋ก ํ๊ฐํฉ๋๋ค:
V^{T,c}(S, a_{1:n}) = \sum_{i=0}^{k} \sum_{\substack{j=c \\ j \mathrel{+}= c}}^{n} W_i \cdot p_{wm}(A_i^* | S, a_{1:j}, Q_i)
์ฌ๊ธฐ์ c๋ ์ฒญํฌ ํฌ๊ธฐ์ ๋๋ค. c=1์ด๋ฉด ๋งค ์ก์ ๋ง๋ค ํ๊ฐํ๊ณ , c=n์ด๋ฉด ์ ์ฒด ์ํ์ค์ ๋ํด ํ ๋ฒ๋ง ํ๊ฐํฉ๋๋ค.
๋ฐฉ๋ฒ 1: ์ํ ๊ธฐ๋ฐ ํ๋๋ (MPPI)
Model Predictive Path Integral (MPPI) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํฉ๋๋ค:
# MPPI ์๊ณ ๋ฆฌ์ฆ ์์ฌ์ฝ๋
def mppi_planning(swm_model, current_state, task_spec, num_iterations=10):
# 1. ์ก์
๋ถํฌ ์ด๊ธฐํ
action_dist = Uniform(a_min, a_max)
for iteration in range(num_iterations):
# 2. K๊ฐ์ ์ก์
์ํ์ค ์ํ๋ง
action_sequences = [sample(action_dist) for _ in range(K)]
# 3. ๊ฐ ์ํ์ค์ ๊ฐ์น ๊ณ์ฐ (SWM ์ฌ์ฉ)
values = [compute_value(swm_model, current_state,
actions, task_spec)
for actions in action_sequences]
# 4. ์ํํธ๋งฅ์ค ๊ฐ์ค ํ๊ท ์ผ๋ก ๋ถํฌ ์
๋ฐ์ดํธ
weights = softmax(values / temperature)
mean = weighted_average(action_sequences, weights)
var = weighted_variance(action_sequences, weights, mean)
action_dist = Normal(mean, var)
return mean # ์ต์ข
์ก์
์ํ์ค๊ฐ์ค์น ๊ณ์ฐ:
\mu_t = \sum_{k=1}^{K} \frac{\exp(V_k/\lambda)}{\sum_{j=1}^{K}\exp(V_j/\lambda)} a_t^{(k)}
\sigma_t^2 = \sum_{k=1}^{K} \omega_k (a_t^{(k)} - \mu_t)^2
๋ฐฉ๋ฒ 2: ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ํ๋๋
MPPI๋ ๋๊ท๋ชจ ๋ชจ๋ธ์์ ๊ณ์ฐ ๋น์ฉ์ด ๋์ต๋๋ค. ๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ ์ ์ํฉ๋๋ค:
- ๊ธฐ๋ณธ ์ ์ฑ \pi_b์์ ํ๋ณด ๊ถค์ ์ํ๋ง: a \sim \pi_b(S)
- ๋ชฉ์ ํจ์์ ๋ํด ๊ทธ๋๋์ธํธ ์์น:
J^T(a) = V^{T,c}(S, a)
# ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ํ๋๋ ์์ฌ์ฝ๋
def gradient_planning(swm_model, base_policy, current_state,
task_spec, num_iterations=10, lr=0.02):
# 1. ๊ธฐ๋ณธ ์ ์ฑ
์์ ์ด๊ธฐ ๊ถค์ ์ํ๋ง
actions = base_policy(current_state)
actions.requires_grad = True
for iteration in range(num_iterations):
# 2. ๊ฐ์น ํจ์ ๊ณ์ฐ
value = compute_value(swm_model, current_state,
actions, task_spec)
# 3. ๊ทธ๋๋์ธํธ ๊ณ์ฐ ๋ฐ ์
๋ฐ์ดํธ
grad = torch.autograd.grad(value, actions)
grad = clip_grad_norm(grad, max_norm=1.0)
actions = actions + lr * grad
return actions์ด ๋ฐฉ๋ฒ์ ์ฅ์ :
- ๋ฐฉํฅ์ฑ ์๋ ์ต์ ํ: ๋ฌด์์ ์ํ๋ง ๋์ ๊ทธ๋๋์ธํธ ๋ฐฉํฅ์ผ๋ก ์ง์ ์ด๋
- ๋น ๋ฅธ ์๋ ด: ์ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ์ ์ ๋ฐ๋ณต์ผ๋ก ์๋ ด
- ํจ์จ์ฑ: ๋จ์ผ ๊ถค์ ๋ง ์ต์ ํํ๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ ํจ์จ์
graph LR
subgraph MPPI["์ํ ๊ธฐ๋ฐ (MPPI)"]
A1[K๊ฐ ๊ถค์ ์ํ๋ง] --> B1[๋ชจ๋ ๊ถค์ ํ๊ฐ]
B1 --> C1[๊ฐ์ค ํ๊ท ]
C1 --> D1[๋ถํฌ ์
๋ฐ์ดํธ]
D1 --> A1
end
subgraph Gradient["๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ"]
A2[๋จ์ผ ๊ถค์ ์ด๊ธฐํ] --> B2[๊ฐ์น ํจ์ ๊ณ์ฐ]
B2 --> C2[๊ทธ๋๋์ธํธ ๊ณ์ฐ]
C2 --> D2[์ก์
์
๋ฐ์ดํธ]
D2 --> B2
end
ํ๋๋ ์๋ ๋น๊ต
| ๋ฐฉ๋ฒ | ์ก์ ์ฒญํฌ๋น ์๊ฐ |
|---|---|
| AVD (Action-conditioned Video Diffusion) | 676.41์ด |
| MPPI | 4.48์ด |
| ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ | 1.56์ด |
๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด AVD ๋๋น 430๋ฐฐ ๋น ๋ฆ ๋๋ค!
๋ค๋จ๊ณ ํ์คํฌ: ์๋ธ๊ณจ ์ฒด์ด๋
์ฅ๊ธฐ horizon ํ์คํฌ๋ฅผ ์ํด ์๋ธ๊ณจ ์ฒด์ด๋์ ์ฌ์ฉํฉ๋๋ค:
- ์๋ธ๊ณจ ์ํ์ค ์ ์: g_1, g_2, \ldots, g_T
- ๊ฐ ์๋ธ๊ณจ์ ์ง๋ฌธ-๋ต๋ณ ์ ํ ๋น
- ์์ฐจ์ ์ผ๋ก ์๋ธ๊ณจ ์คํ, SWM์ผ๋ก ์๋ฃ ์ฌ๋ถ ํ์ธ
- ์๋ฃ๋๋ฉด ๋ค์ ์๋ธ๊ณจ๋ก ์ ํ
์๋ฅผ ๋ค์ด, โํ๋ธ ์๊ธฐโ ํ์คํฌ:
- ์๋ธ๊ณจ 1: โ๋ก๋ด์ด ์ฒซ ๋ฒ์งธ ํ๋ธ๋ฅผ ์ก์๋?โ โ Yes
- ์๋ธ๊ณจ 2: โ์ฒซ ๋ฒ์งธ ํ๋ธ๊ฐ ๋ ๋ฒ์งธ ํ๋ธ ์์ ์๋?โ โ Yes
์คํ ๋ฐ ๊ฒฐ๊ณผ
์คํ ํ๊ฒฝ
1. LangTable
- ํ ์ด๋ธ ์์์ ๋ก๋ด ํ๋ก ๋ธ๋ก์ ์กฐ์
- 180ร320 RGB ์ด๋ฏธ์ง ๊ด์ธก
- xy ๋ธํ ํฌ์ฆ ์ก์ (๋ฒ์: -0.03 ~ 0.03)
- ์ ์ด ์ฃผํ์: 10Hz
2. OGBench
- ๋ก๋ด ๊ทธ๋ฆฌํผ๋ก ํ๋ธ ์กฐ์
- 224ร224 RGB ์ด๋ฏธ์ง ๊ด์ธก
- 5์ฐจ์ ์ก์ (xyz ๋ธํ, ๋ฐฉํฅ, ๊ทธ๋ฆฌํผ)
- ์ ์ด ์ฃผํ์: 10Hz
๋ฒ ์ด์ค๋ผ์ธ
- IDQL: Implicit Q-Learning ๊ธฐ๋ฐ ์คํ๋ผ์ธ RL
- AVD (Action-conditioned Video Diffusion): ํฝ์ ๊ธฐ๋ฐ World Model. ๋ฏธ๋ ํ๋ ์์ ์์ธกํ ํ SWM์ผ๋ก VQA ์ํ
ํต์ฌ ๊ฒฐ๊ณผ 1: ํ๋๋ ์ฑ๋ฅ
์ํ ๊ธฐ๋ฐ ํ๋๋ (MPPI):
| ํ์คํฌ | ์ฑ๊ณต๋ฅ |
|---|---|
| LT Reaching | 100% |
| LT Block Separation | 100% |
| OG Reaching | 97% |
๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ ์ฑ ๊ฐ์ :
| ํ์คํฌ | Base Policy | IDQL | AVD | SWM |
|---|---|---|---|---|
| Green Cube โ Blue Moon | 6% | 8% | 48% | 78% |
| Red Moon โ Green Star | 18% | 8% | 44% | 80% |
| Red Pentagon โ Blue Moon | 14% | 12% | 38% | 80% |
| Yellow Pentagon โ Red Moon | 18% | 8% | 34% | 86% |
| Yellow Star โ Blue Cube | 16% | 10% | 62% | 84% |
| Blue Cube on Yellow Cube | 52% | 8% | 50% | 82% |
| Blue Cube on Green Cube | 44% | 16% | 46% | 84% |
| Yellow Cube on Red Cube | 40% | 24% | 44% | 62% |
ํ๊ท ์ฑ๋ฅ ํฅ์:
- LangTable: 14.4% โ 81.6% (5.7๋ฐฐ ํฅ์)
- OGBench: 45.3% โ 76.0% (1.7๋ฐฐ ํฅ์)
ํต์ฌ ๊ฒฐ๊ณผ 2: ๋ค๋จ๊ณ ํ์คํฌ
| ํ์คํฌ | Base Policy | AVD | SWM |
|---|---|---|---|
| MS1: Red pentagon โ Blue moon, Yellow pentagon โ Red moon | 6% | 8% | 50% |
| MS2: Yellow star โ Blue cube, Yellow pentagon โ Red moon | 4% | 2% | 66% |
| MS3: Yellow star โ Blue cube, Red pentagon โ Blue moon | 4% | 2% | 54% |
| MS4: Green cube โ Blue moon, Yellow pentagon โ Red moon | 2% | 4% | 54% |
ํ๊ท 52%์ ์ ์ฑ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ 3: ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ์ ๊ฐ์น
World Model์ ํต์ฌ ์ฅ์ ์ค ํ๋๋ ์๋ธ์ตํฐ๋ฉ(๋น์ ๋ฌธ๊ฐ) ๋ฐ์ดํฐ์์๋ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค:
| ๋ฐ์ดํฐ์ ์ ํ | LangTable (ID) | LangTable (OOD) | OGBench (ID) | OGBench (OOD) |
|---|---|---|---|---|
| ์๋ธ์ตํฐ๋ฉ๋ง | 85.98% | 81.99% | 90.83% | 85.56% |
| ์ ๋ฌธ๊ฐ๋ง | 91.27% | 86.49% | 96.53% | 87.33% |
| ํผํฉ | 92.92% | 88.32% | 96.86% | 88.16% |
ํฅ๋ฏธ๋ก์ด ์ : ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ๋ฉด ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ ๋๋ณด๋ค ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค!
์ด๋ ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๊ฐ ๋ค์ํ ์ํฉ(์คํจ ์ฌ๋ก ํฌํจ)์ ์ ๊ณตํ์ฌ ๋ชจ๋ธ์ด ๋ ๊ฐ๊ฑดํ ์์ธก์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ 4: ์ผ๋ฐํ ์ฑ๋ฅ
๊ตฌ์ฑ์ ์ผ๋ฐํ (Compositional Generalization):
- ํ๋ จ ์ ๋ณด์ง ๋ชปํ ์์-ํํ ์กฐํฉ (์: ๋ณด๋ผ์ ์ค๊ฐํ)
- ํ๊ท 20% ์ฑ๋ฅ ํฅ์ (Base Policy ๋๋น)
๋ฐฐ๊ฒฝ ๊ฐ๊ฑด์ฑ (Background Robustness):
- OGBench์ ๋ฐฐ๊ฒฝ ์์์ ์๋ก์ด ์กฐํฉ์ผ๋ก ๋ณ๊ฒฝ
- ํ๊ท 15-20% ์ฑ๋ฅ ํฅ์ (Base Policy ๋๋น)
์ด๋ SWM์ด VLM์ ์ฌ์ ํ์ต ์ง์์ ํจ๊ณผ์ ์ผ๋ก ๋ณด์กดํ๊ณ ํ์ฉํจ์ ๋ณด์ฌ์ค๋๋ค.
Attention Map ์๊ฐํ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์ง๋ฌธ: "Is the red moon touching the blue cube?" โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ Layer 4, 6: ๋นจ๊ฐ ๋ฌ๊ณผ ํ๋ ํ๋ธ์ ์ง์ค โ
โ Layer 8+: ๋ก๋ด ํ(peg)๋ ํจ๊ป attention โ
โ โ
โ โ ๋ชจ๋ธ์ด ์ง๋ฌธ์ ์๋ฏธ๋ฅผ ์ดํดํ๊ณ ๊ด๋ จ ๊ฐ์ฒด์ attention โ
โ โ ํ๋ จ ์ค ๋ณธ ์ ์๋ 3๊ฐ ๊ฐ์ฒด ์ง๋ฌธ์๋ ์ฌ๋ฐ๋ฅด๊ฒ attention โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์
1. ๊ฐ๋ ์ ์ฐ์ํจ
- ํฝ์ ์์ธก์ด๋ผ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ฐํ
- โํ์ํ ๊ฒ๋ง ์์ธกํ์โ๋ ์์น์ด ๋ช ํ
- VLM์ ์ฌ์ ํ์ต ์ง์์ ์์ฐ์ค๋ฝ๊ฒ ํ์ฉ
2. ๊ณ์ฐ ํจ์จ์ฑ
- ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ํ๋๋์ด ๋น๋์ค ๊ธฐ๋ฐ ๋๋น 430๋ฐฐ ๋น ๋ฆ
- ์ธ์ด ๊ณต๊ฐ์์์ ์์ธก์ด ํฝ์ ์์ฑ๋ณด๋ค ํจ์ฌ ๊ฐ๋ฒผ์
3. ๋ฐ์ดํฐ ํจ์จ์ฑ
- ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ ๊ฐ๋ฅ
- ์๋ฎฌ๋ ์ดํฐ์ ํน๊ถ ์ ๋ณด๋ก ๋ฐ์ดํฐ ์๋ ์์ฑ
4. ์ผ๋ฐํ ๋ฅ๋ ฅ
- ๊ตฌ์ฑ์ ์ผ๋ฐํ (์๋ก์ด ์์-ํํ ์กฐํฉ)
- ๋ฐฐ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑด
- VLM์ ์ธ๊ณ ์ง์ ์ ์ด
5. ์ ์ฐํ ํ์คํฌ ์ ์
- ์์ฐ์ด ์ง๋ฌธ์ผ๋ก ํ์คํฌ ์ ์
- ๋ณต์กํ ๋ฆฌ์๋ ์์ง๋์ด๋ง ๋ถํ์
ํ๊ณ
1. ์๋ฎฌ๋ ์ดํฐ ์์กด์ฑ
- SAQA ๋ฐ์ดํฐ์ ์์ฑ์ ์๋ฎฌ๋ ์ดํฐ์ ํน๊ถ ์ ๋ณด ํ์
- ์ค์ ๋ก๋ด ํ๊ฒฝ์์ QA ์ ํ๋์ด ์ด๋ ค์
2. ๊ธฐ๋ณธ ์ ์ฑ ํ์
- ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ํ๋๋์ ๊ธฐ๋ณธ ์ ์ฑ ์ด ํ์
- ๊ธฐ๋ณธ ์ ์ฑ ์ ํ์ง์ด ์ต์ ํ ์์์ ์ ๊ฒฐ์
3. ๋ชจ๋ธ ํฌ๊ธฐ
- 3B ํ๋ผ๋ฏธํฐ๋ก ์ค์๊ฐ ์ ์ด ์ฃผํ์ ๋ฌ์ฑ์ด ์ด๋ ค์
- ์ํ ๊ธฐ๋ฐ ํ๋๋์ ๋จ์ผ GPU์์ ๋น์ค์ฉ์
4. Yes/No ์ง๋ฌธ์ ํ๊ณ
- ํ์ฌ๋ ์ด์ง ์ง๋ฌธ๋ง ์ง์
- ์ฐ์์ ์ธ ๊ฐ (๊ฑฐ๋ฆฌ, ๊ฐ๋ ๋ฑ) ์์ธก์ ์ ํ
5. Long-horizon ํ์คํฌ์ ๋ณต์ก์ฑ
- ์๋ธ๊ณจ ์๋ ์ ์ ํ์
- ์๋ ์๋ธ๊ณจ ๋ฐ๊ฒฌ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ
๋ฏธํด๊ฒฐ ์ง๋ฌธ๋ค
- ์ค์ผ์ผ๋ง ๋ฒ์น: ๋ ํฐ VLM์ด ๋ ๋์ SWM์ด ๋ ๊น?
- ์ค์ธ๊ณ ์ ์ด: ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ SWM์ด ์ค์ ๋ก๋ด์์ ์๋ํ ๊น?
- ์ฐ์ ์ถ๋ ฅ: Yes/No ๋์ ์ฐ์์ ์ธ ๊ฐ์ ์์ธกํ ์ ์์๊น?
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ: ํ/ํ ํฌ ์ผ์ ๋ฑ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํ ์ ์์๊น?
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
Vision-Language-Action (VLA) ๋ชจ๋ธ๊ณผ์ ๋น๊ต
| ํน์ฑ | VLA (์: OpenVLA) | SWM |
|---|---|---|
| ์ ๋ ฅ | ์ด๋ฏธ์ง + ์ธ์ด ์ง์ | ์ด๋ฏธ์ง + ์ก์ + ์ง๋ฌธ |
| ์ถ๋ ฅ | ์ก์ | ์ธ์ด (Yes/No) |
| ๋ชฉ์ | ์ง์ ์ ์ธ ํ๋ ์์ฑ | ํ๋ ๊ฒฐ๊ณผ ์์ธก |
| ์ฌ์ ํ์ต ๋ณด์กด | ์ก์ ํ ํฐ์ผ๋ก ๋ณํ ์ ์์ค ๊ฐ๋ฅ | ์ธ์ด ์ถ๋ ฅ์ผ๋ก ๋ ์ ๋ณด์กด |
SWM์ VLA์ โ์ญ์ ๋โ ๋ฒ์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ก์ ์ด ์ถ๋ ฅ์ด ์๋ ์ ๋ ฅ์ด ๋๊ณ , ์ธ์ด๊ฐ ์ ๋ ฅ์ด ์๋ ์ถ๋ ฅ์ด ๋ฉ๋๋ค.
๊ธฐ์กด World Model๊ณผ์ ๋น๊ต
| ํน์ฑ | DreamerV3 | TD-MPC2 | UniPi | SWM |
|---|---|---|---|---|
| ์์ธก ๋์ | ์ ์ฌ ์ํ | ์ ์ฌ ์ํ | ๋น๋์ค | ์๋ฏธ๋ก ์ ์ ๋ณด |
| ๋ฆฌ์๋ ํ์ | Yes | Yes | No | No |
| VLM ํ์ฉ | No | No | No | Yes |
| ์ผ๋ฐํ | ์ ํ์ | ์ ํ์ | ์ ํ์ | ๋์ |
UniPi์์ ๋น๊ต
UniPi๋ ๋น๋์ค ์์ธก World Model์ ๊ณ ์์ค ํ๋๋๋ก ์ฌ์ฉํฉ๋๋ค. SWM๊ณผ์ ์ฐจ์ด:
- UniPi: ํฝ์ ๊ณต๊ฐ์์ ์์ธก โ ์ ์์ค ์ ์ฑ ์กฐ๊ฑดํ
- SWM: ์๋ฏธ ๊ณต๊ฐ์์ ์์ธก โ ์ง์ ์ ์ธ ํ๋๋ ์ ํธ
์์ฉ ๊ฐ๋ฅ์ฑ ๋ฐ ํ์ฅ ๋ฐฉํฅ
์ค์ ๋ก๋ด ์ ์ฉ์ ์ํ ๋ก๋๋งต
graph TD
subgraph Current["ํ์ฌ ์ํ"]
A[์๋ฎฌ๋ ์ด์
์์ ๊ฒ์ฆ๋จ]
end
subgraph ShortTerm["๋จ๊ธฐ ๊ณผ์ "]
B["๋ ์์ VLM ์ฌ์ฉ (FastVLM, SmolVLM)"]
C[์ค์๊ฐ ์ ์ด ์ฃผํ์ ๋ฌ์ฑ]
D[Sim-to-Real ์ ์ด ๊ฒ์ฆ]
end
subgraph MidTerm["์ค๊ธฐ ๊ณผ์ "]
E[VLM์ผ๋ก QA ์ ์๋ ์์ฑ]
F[์ค์ ๋ฐ์ดํฐ ํตํฉ]
G[๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ ํ์ฅ]
end
subgraph LongTerm["์ฅ๊ธฐ ๋น์ "]
H[๋ฒ์ฉ ๋ก๋ด World Model]
I[์๋ ์๋ธ๊ณจ ๋ฐ๊ฒฌ]
J[Language-conditioned ์กฐ์]
end
A --> B
A --> D
B --> C
C --> F
D --> F
E --> F
F --> H
G --> H
H --> I
H --> J
Allegro Hand์ ๊ฐ์ ๋ค์ง ๋งค๋ํฐ๋ ์ด์ ์์ ์ ์ฉ
SWM์ ์ ๊ทผ๋ฒ์ ๋ค์ง ์(dexterous hand) ์กฐ์์ ํนํ ์ ๋งํฉ๋๋ค:
- ์ ์ด ์ํ ์์ธก: โ์์ง๊ฐ ๋ฌผ์ฒด์ ๋ฟ์๋?โ, โ๋ฌผ์ฒด๊ฐ ์์ ์ ์ผ๋ก ํ์ง๋์๋?โ
- ํ ๋ถํฌ ์ถ๋ก : โ์ ์ ํ ํ์ง๋ ฅ์ด ๊ฐํด์ก๋?โ
- ์กฐ์ ์ ๋ต ํ๊ฐ: โ์ด ๋์์ผ๋ก ๋ฌผ์ฒด๊ฐ ํ์ ํ ๊น?โ
์ ์ฉ ์ ๊ณ ๋ ค์ฌํญ:
- ๊ณ ์ฐจ์ ์ก์ ๊ณต๊ฐ (20+ DoF)์ ๋ํ ์ค์ผ์ผ๋ง
- ์ด๊ฐ ์ ๋ณด์ ์ธ์ด์ ํํ
- ๋น ๋ฅธ ์ ์ด ๋ฃจํ ์๊ตฌ์ฌํญ (>100Hz)
๊ฐํํ์ต๊ณผ์ ํตํฉ
SWM์ Model-based RL์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ด ์ ์์ต๋๋ค:
- Reward Shaping: SWM์ ์์ธก์ ๋ฆฌ์๋ ์ ํธ๋ก ํ์ฉ
- Curiosity-driven Exploration: โ์์๊ณผ ๋ค๋ฅธ ๊ฒฐ๊ณผโ๋ฅผ ํํ ์ ํธ๋ก ํ์ฉ
- Hindsight Experience Replay: ์คํจ ๊ฒฝํ์์ โ๋ฌด์์ ๋ฌ์ฑํ๋๊ฐ?โ ์๋ ๋ ์ด๋ธ๋ง
๊ตฌํ ์ธ๋ถ์ฌํญ (์ค๋ฌด์๋ฅผ ์ํ)
๋ชจ๋ธ ํ๋ จ
# ํต์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ
config = {
"base_model": "PaliGemma-3B",
"learning_rate": 1e-5, # ์ ํ ๊ฐ์
"batch_size": 96, # ํจ๊ณผ์ ๋ฐฐ์น ํฌ๊ธฐ
"training_steps": 24000, # LangTable
# "training_steps": 64000, # OGBench
"action_projection_dim": "act_dim ร 2048",
"optimizer": "AdamW",
"full_weight_finetuning": True,
}๋ฐ์ดํฐ์ ๊ตฌ์ฑ
# SAQA ๋ฐ์ดํฐ์
์์ฑ ๋ก์ง
def generate_saqa_dataset(trajectories):
dataset = []
for trajectory in trajectories:
for i, (state, action) in enumerate(trajectory):
# ์ฌ๋ฌ horizon ์ํ๋ง
for h in sample_horizons(0, 20, num_samples=4):
future_state = trajectory[i + h].state
# ์ง๋ฌธ-๋ต๋ณ ์ ์์ฑ (์๋ฎฌ๋ ์ดํฐ ์ ๋ณด ํ์ฉ)
qa_pairs = generate_qa_pairs(future_state)
for question, answer in qa_pairs:
dataset.append({
"current_state": state.image,
"actions": trajectory[i:i+h].actions,
"question": question,
"answer": answer,
})
# ์ง๋ฌธ ์ ํ ๋ฐ ๋ต๋ณ ๋ถํฌ ๊ท ํ ๋ง์ถ๊ธฐ
return balance_dataset(dataset)ํ๋๋ ์ค์
# LangTable ํ๋๋ ์ค์
langtable_config = {
"action_chunk_size": 8,
"gradient_lr": 0.02,
"planning_iterations": 10,
"execute_actions": 4, # 16๊ฐ ์ค 4๊ฐ ์คํ ํ ๋ฆฌํ๋๋
"gradient_clip": 1.0,
}
# OGBench ํ๋๋ ์ค์
ogbench_config = {
"action_chunk_size": 8,
"gradient_lr": 0.2,
"planning_iterations": 20,
"execute_actions": 4,
"gradient_clip": 10.0,
}์์ฝ ๋ฐ ๊ฒฐ๋ก
ํต์ฌ ํต์ฐฐ ์ ๋ฆฌ
- ํจ๋ฌ๋ค์ ์ ํ: World Modeling์ โํฝ์ ์์ธกโ์์ โ์๋ฏธ๋ก ์ ์ง๋ฌธ ์๋ตโ์ผ๋ก ์ฌ์ ์
- VLM์ ์๋ก์ด ํ์ฉ: ์ฌ์ ํ์ต๋ VLM์ World Model๋ก ์ ์์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ์
- ํจ์จ์ ํ๋๋: ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๋ก ๋น๋์ค ๊ธฐ๋ฐ ๋๋น 430๋ฐฐ ๋น ๋ฅธ ํ๋๋
- ๊ฐ๊ฑดํ ์ผ๋ฐํ: VLM์ ์ธ๊ณ ์ง์์ ํ์ฉํ ๊ตฌ์ฑ์ ์ผ๋ฐํ ๋ฐ ๋ฐฐ๊ฒฝ ๊ฐ๊ฑด์ฑ
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์์๊ฒ ์ฃผ๋ ์์ฌ์
- โ๋ฌด์์ ์์ธกํ ๊ฒ์ธ๊ฐโ๋ฅผ ๋จผ์ ๊ณ ๋ฏผํ๋ผ: ๋ชจ๋ ์ ๋ณด๊ฐ ํ์ํ์ง ์๋ค
- Foundation Model์ ์ ๊ทน ํ์ฉํ๋ผ: ์ธํฐ๋ท ๊ท๋ชจ์ ์ฌ์ ํ์ต ์ง์์ ๊ฐ๋ ฅํ ์์ฐ
- ์ธ์ด๋ ๊ฐ๋ ฅํ ์ธํฐํ์ด์ค๋ค: ํ์คํฌ ์ ์, ์ํ ํํ, ๋ชฉํ ์ง์ ์ ์์ฐ์ด ํ์ฉ
- ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๋ ๊ฐ์น ์๋ค: ๋ค์ํ ๊ฒฝํ์ด ๊ฐ๊ฑดํ ๋ชจ๋ธ์ ๋ง๋ ๋ค
SWM์ ๋ก๋ด World Model์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ํฝ์ ์ ์ฌ๊ตฌ์ฑํ๋ ๋์ ์๋ฏธ๋ฅผ ์ดํดํ๋ ๋ชจ๋ธ, ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋์ ์ง๋ฌธ์ ๋ตํ๋ ๋ชจ๋ธ. ์ด๋ฌํ ํจ๋ฌ๋ค์์ ๋ ํจ์จ์ ์ด๊ณ , ๋ ์ผ๋ฐํ ๊ฐ๋ฅํ๋ฉฐ, ๋ ํด์ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ด ์์คํ ์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
ํ์ธ๋ง์ด ๋งํ๋ฏ์ด, โ๋ณต์กํ ๊ฒ์ ๋จ์ํ๊ฒ ์ค๋ช ํ ์ ์๋ค๋ฉด, ์ถฉ๋ถํ ์ดํดํ์ง ๋ชปํ ๊ฒ์ด๋ค.โ SWM์ World Modeling์ ๋ณธ์ง์ ๋จ์ํํจ์ผ๋ก์จ, ์ฐ๋ฆฌ๊ฐ ์ ๋ง ํ์ํ ๊ฒ์ด ๋ฌด์์ธ์ง ๋ค์ ์๊ฐํ๊ฒ ํฉ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Berg, J., Zhu, C., Bao, Y., Durugkar, I., & Gupta, A. (2025). Semantic World Models. arXiv:2510.19818.
- Beyer, L., et al. (2024). PaliGemma: A versatile 3B VLM for transfer. arXiv:2407.07726.
- Hafner, D., et al. (2019). Learning Latent Dynamics for Planning from Pixels. ICML.
- Williams, G., et al. (2016). Aggressive Driving with Model Predictive Path Integral Control. ICRA.
- Chi, C., et al. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS.
- Zhu, C., et al. (2025). Unified World Models: Coupling Video and Action Diffusion. RSS.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
๋ก๋ด ์ ์ด์์ ์๋ ๋ชจ๋ธ์ ๋ฏธ๋๋ฅผ ์์ธกํ์ฌ ๊ณํ์ ํ์ฉํ๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ์ ํต์ ์ผ๋ก ์๋ ๋ชจ๋ธ์ ํฝ์ ๋จ์์ ์์ ์์ธก์ ๋ชฉํ๋ก ํ์ต๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ํฝ์ ์ฌ๊ตฌ์ฑ ๋ฅ๋ ฅ์ด ๊ณํ์ ์ฑ๋ฅ์ ๋ณด์ฅํ์ง๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฌ๋ฆฌ๋ ์์ ์์๋ ๋ฌผ์ฒด์ ์ ํํ ๋ชจ์ ๋ณํ๋ณด๋ค โ๋ฌผ์ฒด๋ฅผ ์ง์๋์ง(yes/no)โ์ ๊ฐ์ ์๋ฏธ์ ์ ๋ณด๊ฐ ๋ ์ค์ํ ์ ์์ต๋๋ค. ์ด๋ฐ ๋ฌธ์ ์์์์ ์ ์๋ค์ ๋ฏธ๋์ ํฝ์ ์ ์์ธกํ๋ ๋์ , ์์ ์ ํ์ํ ์๋ฏธ์ ์ ๋ณด๋ง ์์ธกํ๋ฉด ์ถฉ๋ถํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ฆ, ์๋ ๋ชจ๋ธ์ด ํด์ผ ํ ์ผ์ โํ์ด ๋ฌผ์ฒด์ ๊ฐ๊น์์ก๋๊ฐ?โ, โ๋นจ๊ฐ ๋ธ๋ก์ด ๋์ด์ก๋๊ฐ?โ, โํ๋ ํ๋ธ๊ฐ ์งํ๋๊ฐ?โ ๋ฑ์ ๋ฏธ๋ ๊ฒฐ๊ณผ์ ๋ํ ์ง๋ฌธ(Q&A)์ ์์ธกํ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ฆผ 1: ์ ํต์ ์์ ๋ชจ๋ธ vs. VLM vs. ์๋ฏธ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ์ ๊ฐ๋ ๋น๊ต. ์ ํต์ VLM์ ์ ์ ๊ด์ฐฐ์ ๋ํ ์ง๋ฌธ์ ๋ตํ๊ณ , ๋น๋์ค ์๋ ๋ชจ๋ธ์ ๋ฏธ๋ ํ๋ ์์ ์์ฑํ๋ ๋ฐ๋ฉด, ์๋ฏธ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ(SWM)์ ํ์ฌ ๊ด์ฐฐ๊ณผ ํ๋ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฏธ๋ ๊ฒฐ๊ณผ์ ๋ํ ์ง๋ฌธ์ ๋ต์ ๋ฐ๋ก ์์ธกํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ์๋ฏธ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ(SWM) ํจ๋ฌ๋ค์์ ์๊ฐํฉ๋๋ค. SWM์ ๋ก๋ด์ ํ์ฌ ์์ ๊ด์ฐฐ(image)๊ณผ ํ๋ ์ํ์ค(action sequence), ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋ ๊ฒฐ๊ณผ์ ๊ดํ ์์ฐ์ด ์ง๋ฌธ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ๊ทธ ๊ฒฐ๊ณผ์ ๋ํ ๋ต๋ณ(์: yes/no ํ๋ฅ ๋ถํฌ)์ ์ถ๋ ฅํ๋ ๋ชจ๋ธ์ ๋๋ค. ๋ค์ ๋งํด, SWM์ ํ๋์ ์ํด ์ ๋ฐ๋ ๋ฏธ๋ ์ํ๋ฅผ ์ธ์ด์ ์ง๋ฌธ-์๋ต ํํ๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ธ๊ณ ๋ชจ๋ธ์ ํ์ต ๋ชฉํ(์ง๋ฌธ์ ๋ํ ์ ๋ต ์์ธก)์ ์ค์ ๊ณํ ๋ชฉํ(์์ ์ฑ๊ณต ์ฌ๋ถ)๊ฐ ์ผ์นํ๊ฒ ๋ฉ๋๋ค. ์ ์๋ค์ SWM์ ํ๋ จ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํจ์ผ๋ก์จ, VLM์ด ๊ฐ์ง ๋๊ท๋ชจ ์ฌ์ ํ์ต ์ง์๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ก๋ด ์ ์ด์ ์ ๊ทน ํ์ฉํฉ๋๋ค.
๋ฐฉ๋ฒ
SWM์ ํต์ฌ์ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ํ๋ ์ ๋ณด์ ์ง๋ฌธ์ ๊ฒฐํฉํ๋ ์ํคํ ์ฒ์ ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ ์๋ค์ Google์ ์คํ์์ค VLM์ธ PaliGemma(3B) ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. PaliGemma๋ SigLIP ๋น์ ์ธ์ฝ๋(์๊ฐ)์ Gemma ์ธ์ด ๋ชจ๋ธ(์์ฐ์ด)๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ด๋ฏธ์ง์ ํ
์คํธ๋ฅผ ๋์์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ ํ๋(action) ์๋ฒ ๋ฉ์ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ํ์ฅํฉ๋๋ค. ์ฆ, ์ด๋ฏธ์ง ๊ด์ธก์ SigLIP ์ธ์ฝ๋๋ก ์ฒ๋ฆฌํ๊ณ , ํ๋ ์ํ์ค๋ ์๋ก์ด ํฌ์ ํ๋ ฌ(projection matrix)์ ํตํด ์ธ์ด ๋ชจ๋ธ์ ํ ํฐ ๊ณต๊ฐ์ผ๋ก ๋งตํํฉ๋๋ค. ์ง๋ฌธ(question)์ ๊ธฐ์กด VLM์ฒ๋ผ ํ ํฌ๋์ด์ง(tokenizing)ํ์ฌ ์ธ์ด ๋ชจ๋ธ๋ก ์
๋ ฅ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ (์ด๋ฏธ์ง, ํ๋, ์ง๋ฌธ)์ ํจ๊ป ์ธํ์ผ๋ก ๋ฐ์, ๋ฏธ๋์ ์๋ฏธ์ ์์ฑ์ ๋ํ ๋ต๋ณ์ ์ถ๋ ฅํฉ๋๋ค.
graph LR
S(["ํ์ฌ ์ด๋ฏธ์ง (State)"]) --> E[๋น์ ์ธ์ฝ๋]
A(["ํ๋ ์ํ์ค"]) --> P[ํ๋ ์๋ฒ ๋ฉ]
E --> LM["์ธ์ด ๋ชจ๋ธ (Gemma)"]
P --> LM
Q(["์ง๋ฌธ"]) --> LM
LM --> Ans(["๋ต๋ณ (Yes/No ํ๋ฅ )"])
์ ๋ค์ด์ด๊ทธ๋จ์ SWM์ ์ ๋ ฅ-์ถ๋ ฅ ํ๋ฆ์ ๋ณด์ฌ์ค๋๋ค. ํ์ฌ ์ํ์ ์ด๋ฏธ์ง(S)์ ํ๋ ์ํ์ค(A), ๊ทธ๋ฆฌ๊ณ ์ง๋ฌธ(Q)์ ๋ชจ๋ธ์ ๋ฃ์ผ๋ฉด, ์ธ์ด ๋ชจ๋ธ์ด ๋ฏธ๋ ์ํ์ ๋ํ ๋ต๋ณ(Ans)์ ์์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋๊ณผ ๊ด์ฐฐ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฒฐํฉํจ์ผ๋ก์จ, SWM์ ์ธ์ด ๊ณต๊ฐ(language space)์์ ํ๊ฒฝ ๋์ญํ์ ์ดํดํ๊ฒ ๋ฉ๋๋ค.
ํ์ต ๋ฐ์ดํฐ (SAQA ๋ฐ์ดํฐ์ )
SWM์ ๊ด์ฐฐ-ํ๋-์ง๋ฌธ-์๋ต(state-action-question-answer, SAQA) ํํ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ๋ก ์ง๋ํ์ต๋ฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ์์ ์์งํ ๊ถค์ (trajectory) ๋ฐ์ดํฐ์์ ์์์ ์๊ฐ ๊ฐ๊ฒฉ(horizon)์ ์ ํ์ฌ ํ๋์ ์ํ๋งํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ก ๋๋ฌํ ๋ฏธ๋ ์ํ๋ก๋ถํฐ ์ง๋ฌธ๊ณผ ์ ๋ต์ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ผ์ ์๊ฐ ํ ๋ฌผ์ฒด๊ฐ ์งํ๋์ง ๋ฌป๋ ์ง๋ฌธ์ ๋ํด ์ค๋ผํด ์ ๋ณด๋ก๋ถํฐ โyesโ ๋๋ โnoโ ์๋ต์ ์ป์ด ํ๋ จ ๋ฐ์ดํฐ๋ก ์ผ์ต๋๋ค. ์ฌ๋ฌ ํํ์ ์ง๋ฌธ์ผ๋ก ๋ฐํ๋ฒ(paraphrasing)์ ๋ค์ํํ์ฌ, ์ง๋ฌธ-๋ต๋ณ ์์ ํ๋ถํ๊ฒ ๋ง๋ญ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ๋ฐ์ดํฐ๋ก (์ด๋ฏธ์ง, ํ๋, ์ง๋ฌธ, ์ ๋ต) ์์ ํ์ต์์ผ SWM์ด ๋ฏธ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋๋ก ํฉ๋๋ค.
๊ณํ(Planning)
ํ์ต๋ SWM์ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ๋์ ๊ณํ์ ์ํํ ์ ์์ต๋๋ค. ์ฐ์ ์ํ๋ง ๊ธฐ๋ฐ ๊ณํ๋ถํฐ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ํ์ฌ ์ํ S์์ N๊ฐ์ ํ๋ ์ํ์ค a๋ฅผ ๋ฌด์์ ๋๋ ๋ฒ ์ด์ค ์ ์ฑ ์ผ๋ก ์ํ๋งํฉ๋๋ค. ๊ฐ a์ ๋ํด SWM์ ์ํ๋ ์ง๋ฌธ์ ์ ๋ ฅํ์ฌ ๋ต๋ณ ํ๋ฅ ์ ๊ณ์ฐํฉ๋๋ค. ๋ชฉํ ๋ต๋ณ(์: โyesโ)์ ํ๋ฅ ์ด ๋์ ํ๋ ์ํ์ค๋ฅผ ์ ํํจ์ผ๋ก์จ, ๋ชฉํ ๋ฌ์ฑ ํ๋ฅ ์ด ์ต๋ํ๋๋ ๋ฐฉํฅ์ผ๋ก ํ๋์ ๊ฒฐ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด Model Predictive Path Integral(MPPI)์ ๊ฐ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ ์ ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, SWM์ MPPI๋ฅผ ์ ์ฉํ๋ฉด LangTable์ โ๋๋ฌโ๊ณผ โ๋ธ๋ก ๋ถ๋ฆฌโ ๊ณผ์ ์์ ๊ฑฐ์ 100% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.
๊ทธ๋ฌ๋ ๋ณต์กํ ๊ณผ์ ์์๋ ์ํ๋ง๋ง์ผ๋ก๋ ํจ์จ์ด ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด์ ์ ์๋ค์ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ฐ์ ๋ฒ ์ด์ค ์ ์ฑ ฯ_b๋ก ์ด๊ธฐ ํ๋ ์ํ์ค๋ฅผ ๋ฝ๊ณ , ์ด๋ฅผ SWM์ ์ ๋ ฅํด ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ชฉํ ์ง๋ฌธ์ โyesโ ํ๋ฅ ์ ๋์ด๋๋ก ํ๋์ ์ง์ ๋ฏธ๋ถํ์ฌ ์ ๋ฐ์ดํธํฉ๋๋ค. ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
J_{T}(a)\mspace{6mu} = \mspace{6mu} V_{T,c}(S,a)
์ฌ๊ธฐ์ S๋ ํ์ฌ ์ํ, a๋ ์ต์ ํํ ํ๋ ์ํ์ค, T = \{\left( Q_{i},A_{i}^{*},W_{i} \right)\}๋ ์ง๋ฌธ Q_{i}, ์ํ๋ ๋ต๋ณ A_{i}^{*}, ๊ฐ์ค์น W_{i}์ ์งํฉ์ ๋๋ค. V_{T,c}(S,a)๋ SWM์ด ์์ธกํ ๋ต๋ณ ํ๋ฅ ์ ๊ธฐ๋ฐํ ๋ชฉํ ํจ์๋ก, ์ด ๊ฐ์ ๊ทธ๋๋์ธํธ ์ํฅ(gradient ascent) ๋ฐฉ์์ผ๋ก ์ต๋ํํฉ๋๋ค. ์ด ๊ณผ์ ์์ ํ๋์ ๋ํ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด SWM ๋ด๋ถ๋ฅผ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ฒ ์ฌ์ฉํ๋ฉฐ, ์์ ์ ํ์ต์ ์ํด ๊ทธ๋๋์ธํธ ๋ ธ๋ฆ ํด๋ฆฌํ ๋ฑ์ ์ ์ฉํฉ๋๋ค.
๋ค๋จ๊ณ ๊ณํ (Multi-Step Tasks)
์ฅ๊ธฐ ์์ ์ ๋ค๋ฃจ๊ธฐ ์ํด, SWM ๊ธฐ๋ฐ ๊ณํ์ ์ฐ์์ ์ธ ์๋ธ๊ณจ(subgoal) ๋ฐฉ์์ผ๋ก ํ์ฅํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ธ๋ก ์๊ธฐ ๊ณผ์ ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ์ ์๋ธ๊ณจ์ ์ ์ํฉ๋๋ค:
1๋จ๊ณ: โ๋ธ๋ก์ ๋ก๋ด์ด ์ง์๋๊ฐ?โ (๋ต๋ณ: โyesโ) 2๋จ๊ณ: โ๋ธ๋ก์ด ๋ค๋ฅธ ๋ธ๋ก ์์ ์์๋๊ฐ?โ (๋ต๋ณ: โyesโ)
๊ฐ ๋จ๊ณ๊ฐ ์๋ฃ๋์๋์ง๋ SWM์ โ๋์ผํโ ์ง๋ฌธ์ ๋ฌป๋ ๊ฒ์ผ๋ก ๊ฒ์ฆํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฒซ ๋จ๊ณ์ ์ง๋ฌธ์ด โyesโ๋ก ํ์ธ๋๋ฉด ๋ค์ ๋จ๊ณ ์ง๋ฌธ์ผ๋ก ๋์ด๊ฐ๋๋ค. ์ด์ฒ๋ผ ๊ฐ ์๋ธ๊ณจ ์๋ฃ ์ฌ๋ถ๋ฅผ SWM ์์ฒด๊ฐ ํ๋จํ๋ฏ๋ก, ๋ณ๋์ ์ข ๋ฃ ํ์ ๊ธฐ ์์ด ์๋์ผ๋ก ๋ค๋จ๊ณ ๊ณํ์ด ๊ฐ๋ฅํฉ๋๋ค.
๊ทธ๋ฆผ 2: ์์ ๋ค๋จ๊ณ ๊ณํ. (์ข) ์ด๊ธฐ ์ํ, (์ค) ์ค๊ฐ ์ํ, (์ฐ) ์๋ฃ ์ํ. ๊ฐ ๋จ๊ณ๋ง๋ค SWM์ ์ง๋ฌธ์ ๋์ ธ ์กฐ๊ฑด์ ํ์ธํ๋ค. ์: ๋นจ๊ฐ ๋ฌ๊ณผ ๋ ธ๋ ์ค๊ฐํ์ ์ฎ๊ธฐ๋ ์์ ์์๋ โ๋นจ๊ฐ ๋ฌ์ด ๋ ธ๋ ์ค๊ฐํ์ ๋ฟ์๋๊ฐ?โ๋ฅผ ๋ฌป๊ณ , โyesโ์ผ ๋ ๋ค์ ๋จ๊ณ๋ก ์งํํ๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ
SWM์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ์ ์ฌ์ฉํ์ต๋๋ค. LangTable (Lynch et al., 2022)์์๋ ๋ค์ํ ์๊ณผ ๋ชจ์์ ๋ธ๋ก๋ค์ด ๋์ธ ํ์ ์์์ ๋ชฉํ ๋ธ๋ก์ผ๋ก ์ด๋, ๋ถ๋ฆฌ, ๋ธ๋ก ๋ฐ๊ธฐ ๋ฑ์ ์์ ์ ์ํํฉ๋๋ค. OGBench (Park et al., 2025)๋ ์คํ๋ผ์ธ ๋ชฉํ์กฐ๊ฑด ๊ฐํํ์ต ๋ฒค์น๋งํฌ๋ก, ํ๋ธ ์ง๊ธฐ์ ์๊ธฐ ๋ฑ์ ๋ณต์กํ ์กฐ์ ์์ ์ ํฌํจํฉ๋๋ค. ๊ฐ ํ๊ฒฝ์์๋ ์ ๋ฌธ๊ฐ(์คํฌ๋ฆฝํธ) ๋ฐ๋ชจ์ ๋ฌด์์ ํ๋ ์ด ๋ฐ๋ชจ๋ฅผ ํผํฉํ์ฌ SWM์ ํ์ตํ์ต๋๋ค. ํ๊ฐ ์์๋ ์๋ก์ด ๋ธ๋ก ์์ ์กฐํฉ์ด๋ ๋ฐฐ๊ฒฝ ์กฐ๊ฑด์์์ ์ผ๋ฐํ ์ฑ๋ฅ๋ ์ธก์ ํ์ต๋๋ค.
SWM์ ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ ๊ด์ ์์ ํ๊ฐ๋์์ต๋๋ค:
- QA ์์ธก ์ฑ๋ฅ: SWM์ด ๋ฏธ๋ ์ง๋ฌธ์ ๋ํ ์ ๋ต์ ์ผ๋ง๋ ์ ์์ธกํ๋์ง ํ๊ฐํ์ต๋๋ค. ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ง ํ์ตํ ๋์ ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ, ํผํฉ ํ์ต์ด ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ณด์์ต๋๋ค. ์ค์ ๋ก LangTable์ OOD ์ค์ ์์, ์ ๋ฌธ๊ฐ๋ง ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ๋ฌด์์ ๋ฐ์ดํฐ๊ฐ ์์ธ ๋ชจ๋ธ์ด ๋ ์ข์ QA ์ฑ๋ฅ์ ๋์ต๋๋ค. ์ด๋ ์๋ธ์ตํฐ๋ฉ ๋ฐ์ดํฐ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํจ์ ์๋ฏธํฉ๋๋ค.
- ์ํ๋ง ๊ณํ ๊ฒฐ๊ณผ (MPPI): SWM ๋ชจ๋ธ์ MPPI๋ฅผ ์ ์ฉํ์ฌ LangTable๊ณผ OGBench ์์ ์ ํด๊ฒฐํ์ต๋๋ค. ํ [2]์์ ๋ณด๋ ๋ฐ์ ๊ฐ์ด, LangTable์ โ๋๋ฌ(Reaching)โ ๋ฐ โ๋ธ๋ก ๋ถ๋ฆฌ(Separate Blocks)โ ๊ณผ์ ์์ SWM์ 100% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ , OGBench์ โํ๋ธ ์ง๊ธฐ(Reach Cube)โ ๊ณผ์ ์์๋ 97% ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ์๋ฏธ ๊ณต๊ฐ ์์์ ์ง์ ๊ณํํ๋ ๊ฒ์ด ๋ณต์กํ ํฝ์ ์์ธก ์์ด๋ ์์ ์ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- ๋ฒ ์ด์ค ์ ์ฑ ํฅ์ (Policy Improvement): ๋ณด๋ค ๊น๋ค๋ก์ด ๊ณผ์ ์์๋, ๋จผ์ ๋ฒ ์ด์ค ์ ์ฑ (์: ํ์ฐ ์ ์ฑ )์ ์ฌ์ฉํด ํ๋ ๊ถค์ ์ ์์ฑํ ๋ค์, SWM๊ณผ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๋ก ์ด๋ฅผ ๊ฐ์ ํ์ต๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋ฆผ [15]์ ์์ฝํ์ต๋๋ค. SWM์ผ๋ก ์ ์ ํ ๊ถค์ ์ ๊ธฐ๋ณธ ์ ์ฑ ๋๋น ํ์ ํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์๊ณ , ๋ ๊ฐ์ง ๋น๊ต ๋์์ธ IDQL(์คํ๋ผ์ธ RL)๊ณผ AVD(์ก์ ์กฐ๊ฑด ์์ ๋ํจ์ ) ๋ชจ๋๋ฅผ ๋ฅ๊ฐํ์ต๋๋ค. ์๋ฅผ ๋ค์ด LangTable๊ณผ OGBench์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๊ฐ๊ฐ ํฌ๊ฒ ์์นํ์ผ๋ฉฐ, ํนํ AVD์ IDQL์ ๋ชจ๋ ๊ณผ์ ์์ SWM์ ๋นํด ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ทธ๋ฆผ 3: LangTable๊ณผ OGBench์ ๊ณผ์ ์์ ๋ฒ ์ด์ค ์ ์ฑ ๋๋น ์ฑ๋ฅ ํฅ์. ํ๋์์ ๋ฒ ์ด์ค ์ ์ฑ , ์ฃผํฉ์์ SWM(Graident) ๊ธฐ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค. SWM ๊ธฐ๋ฐ ์ต์ ํ๊ฐ ํฐ ํฅ์์ ๋ณด์ด๋ฉฐ, ๊ธฐ์กด AVD/IDQL ๋๋น ์ฐ์ํจ์ ์ ์ ์๋ค.
- ๋ค๋จ๊ณ ๊ณผ์ ์ฑ๋ฅ: ๋ค์ค ์๋ธ๊ณจ ์์ ์์๋ SWM์ ์ฅ์ ์ด ํ์ธ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด โ๋นจ๊ฐ ์ค๊ฐํโํ๋ ๋ฌ, ๋ ธ๋ ์ค๊ฐํโํ๋ ํ๋ธโ ๋ฑ 2-3๋จ๊ณ ๋ณตํฉ ๊ณผ์ ์์, SWM์ ์ฑ๊ณต๋ฅ 50โ66%๋ฅผ ๊ธฐ๋กํ์ฌ ๋ฒ ์ด์ค ์ ์ฑ (2โ4%)์ด๋ AVD(3โ8%)์ ๋นํด ์๋ฑํ ๋์์ต๋๋ค. ์ด์ฒ๋ผ SWM์ ๊ฐ ๋จ๊ณ๋ง๋ค ์ ์ ํ ์ง๋ฌธ์ ๋์ ธ ๊ณผ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ์ผ๋ฐํ (Out-of-Distribution): SWM์ ํ๋ จ์ ์๋ ์๋ก์ด ์์ ์กฐํฉ์ด๋ ๋ฐฐ๊ฒฝ์์๋ ์ฑ๋ฅ์ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด LangTable์์ ํ๋ จ์ ์๋ ๋ณด๋ผ์ ์ค๊ฐํ์ ๋์ ํ ์กฐํฉ ์ผ๋ฐํ ์คํ์์, SWM์ ๋ฒ ์ด์ค ์ ์ฑ ๋๋น ์ฑ๊ณต๋ฅ ์ด ์ฝ +28%ํฌ์ธํธ ์ฆ๊ฐํ๊ณ , OGBench์ ์๋ก์ด ๋ฐฐ๊ฒฝ ์์์์๋ +15%ํฌ์ธํธ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ด๋ SWM์ด ์ฌ์ ํ์ต๋ VLM์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ณ์นํจ์ ์์ฌํฉ๋๋ค.
- ๋น๊ต ๋์ ๋๋น: SWM์ ๋ ๊ฐ์ง ์ฃผ์ ๋ฒ ์ด์ค๋ผ์ธ์ ์์ฐ์ต๋๋ค. ํ๋๋ IDQL(Implicit Q-Learning ๊ธฐ๋ฐ ์คํ๋ผ์ธ RL)์ด๋ฉฐ, ๋ค๋ฅธ ํ๋๋ AVD(์ก์ -์กฐ๊ฑด ์์ ๋ํจ์ )์ ๋๋ค. AVD๋ ๋จผ์ ํ๋์ผ๋ก๋ถํฐ ๋ฏธ๋ ์์์ ์์ฑํ ๋ค, SWM์ผ๋ก ์ง๋ฌธ์ ๋์ ธ ๋ณด์์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ SWM์ ๋ชจ๋ ๊ณผ์ ์์ IDQL๊ณผ AVD๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
์๋ฏธ ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ SWM์ ๊ฐ์ ์ ๋ชฉํ์ ์ผ์นํ๋ ์ ๋ณด๋ฅผ ์ง์ ์์ธกํ๋ค๋ ์ ์ ๋๋ค. ํฝ์ ์ ์ฒด๋ฅผ ๋ง์ถ๋ ๋์ , ์ค์ ์์ ์ ํ์ํ ์๋ฏธ์ ์ธ ์์ฑ(์: ๋ฌผ์ฒด ๊ฐ ์ ์ด ์ฌ๋ถ)์ ์์ธกํ๋ฏ๋ก, ๊ณํ ์ฑ๋ฅ์ด ์ค์ํ ์ ๋ณด์ ์ง์ค๋ฉ๋๋ค. ๋ํ, VLM์ ๋๊ท๋ชจ ์ธํฐ๋ท ํ์ต ๋๋ถ์ SWM์ ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ ๋ณต์กํ ์ฅ๋ฉด๊ณผ ์๋ก์ด ์กฐํฉ์ ์ ์ผ๋ฐํํ ์ ์์ต๋๋ค. ์ค์ ๋ก, SWM์ ์ข ์ ์ ์๋ ๋ชจ๋ธ๋ค๋ณด๋ค ์ ์ ์ ์ ์กฐ๊ฑด์ผ๋ก ๋ค์ค์์ ์ ์ ์ฉํ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ๋จ์ ๋ ๋ถ๋ช ํฉ๋๋ค. ํ์ฌ SWM์ ์ด์ง ์ง๋ฌธ(yes/no) ํ์์ ์ต์ ํ๋์ด ์์ด, ์์น์ ๊ณ์ฐ์ด๋ ์ฐ์ ๊ณต๊ฐ์ ๋ฏธ๋ฌํ ์ํ ์์ธก์๋ ํ๊ณ๊ฐ ์์ ์ ์์ต๋๋ค. ๋ํ PaliGemma 3B์ ๊ฐ์ ๋ํ VLM์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ๋น์ฉ์ด ํฝ๋๋ค. ํนํ ๊ณํ ๋จ๊ณ์์ ์๋ง์ ์ํ๋ง์ด๋ ๊ทธ๋๋์ธํธ ์ ๋ฐ์ดํธ๊ฐ ํ์ํ์ฌ ์ค์๊ฐ ์ ์ด์๋ ๋ถ๋ด์ด ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด MPPI ๊ฐ์ ์ํ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ํ ๋ชจ๋ธ์ ๋ํด ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค. ๋ํ ํ์ฌ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๊ฒฐ๊ณผ์ ์ด์ ์ ๋ง์ถ์์ผ๋ฏ๋ก, ์ค์ ๋ก๋ด์ ์ ์ฉํ ๋๋ ์๋ฎฌ-๋ฆฌ์ผ ๊ฐญ(domain gap) ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ก๋ ๋น์ -์ธ์ด-ํ๋(VLA) ๋ชจ๋ธ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Google์ PaLM-E๋ SayCan์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํด ๋ก๋ด ๋ช ๋ น์ ์ฒ๋ฆฌํฉ๋๋ค. VLA๋ ์ฃผ๋ก ์์ฐ์ด ์ง์(language)โํ๋(token)์ผ๋ก ๋งคํํ๋ ๋ฐ๋ฉด, SWM์ ํ๋โ์ธ์ด ํ์์ผ๋ก ๋์ํฉ๋๋ค. ์ฆ SWM์ ์ผ๋ฐ์ ์ธ VLA ์ ๊ทผ๋ฒ์ โ๋ค์ง์(inverted)โ ํํ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฐ ์ฐจ์ด๋ก SWM์ ์ธ์ด์ ์ถ๋ ฅ์ ํตํด ์ฌ์ ํ์ต ์ง์์ ์ ์งํ ์ ์์ต๋๋ค. ๊ธฐ์กด์ ์ ์ฌ(latent) ๋๋ ์์ ์์ธก ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ(์: Dreamer, PlaNet ๋ฑ)๊ณผ ๋ฌ๋ฆฌ, SWM์ ์ธ์ด์ ์ถ๋ก ๊ณต๊ฐ์์ ๋ฏธ๋๋ฅผ ์์ธกํ์ฌ, ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ์ง์์ ํ์ฉํ๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค.
์์ฉ ๋ฐ ํ์ฅ
SWM์ ๋ค๋ชฉ์ ๋ก๋ด๊ณผ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ๋ถ์ผ์์ ํนํ ์ ์ฉํ ์ ์์ต๋๋ค. ์์ ๋ชฉํ๋ฅผ ์์ฐ์ด ์ง๋ฌธ ์ธํธ๋ก ํํํ๋ฉด, ์ฌ์ฉ์๊ฐ ์ฝ๊ฒ ์๋๋ฅผ ์ง์ ํ๊ฑฐ๋, ๊ณ ์์ค ์ธ์ด ๋ช ๋ น์ ๋จ๊ณ๋ณ ์ง๋ฌธ์ผ๋ก ๋ถํดํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด โ๋นจ๊ฐ ๋ธ๋ก์ด ํ๋ ๋ธ๋ก ์์ ์๋๊ฐ?โ ๊ฐ์ ์ง๋ฌธ์ผ๋ก ๋ชฉํ๋ฅผ ์ ์ํ๊ณ ๊ณํํ ์ ์์ต๋๋ค. ๋ํ, SWM์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅํ๋ฏ๋ก, ์ค์ ๋ก๋ด์ ๊ฒฝํ ๋ฐ์ดํฐ๋ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ๋ค์ํ ํ๊ฒฝ์ผ๋ก ํ์ฅํ ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ์ค์ ๋ก๋ด ์ ์ฉ์ด ์์ต๋๋ค. ์ค์ ์นด๋ฉ๋ผ ์์๊ณผ ์ฐ์์ ํ๋์ ๋ค๋ฃจ๊ธฐ ์ํด SWM์ ๋ณด์ํด์ผ ํฉ๋๋ค. ๋ํ ์ง๋ฌธ ํ์์ ์ด์ง ์๋ต๋ฟ ์๋๋ผ ์์น ์ถ์ ์ด๋ ๋ณต์ ์ ํ ๋ฌธ์ ๋ก ํ์ฅํ๊ฑฐ๋, ์ง๋ฌธ ์์ฑ์ ์๋ํํ๋ ์ฐ๊ตฌ๋ ํฅ๋ฏธ๋กญ์ต๋๋ค. ๋ณ๋ ฌํ๋ ๋ํํ ๊ณํ, ์๋ฎฌ-๋ฆฌ์ผ ๋๋ฉ์ธ ์ ์, ๋ ํฐ ์ธ์ด-๋น์ ๋ชจ๋ธ ํ์ฉ ๋ฑ์ผ๋ก SWM์ ์ ์ฉ ๋ฒ์๊ฐ ๋์ด์ง ์ ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
๋ณธ ๋ ผ๋ฌธ์ Semantic World Model (SWM)์ด๋ผ๋ ์๋ก์ด ์ธ๊ณ ๋ชจ๋ธ ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. SWM์ ์ ํต์ ์ธ ์์ ์์ธก ๋์ , ํ๋ ์ํ์ค์ ๋ํ ๋ฏธ๋ ๊ฒฐ๊ณผ๋ฅผ ์ธ์ด์ ์ง๋ฌธ-์๋ต ํ์์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ ์๋ค์ ๋ํ VLM(PaliGemma) ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ฒ ๋ฉ์ ๊ฒฐํฉํ์ฌ SWM์ ๊ตฌ์ถํ๊ณ , ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ํ์ตํ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ SWM์ LangTable๊ณผ OGBench ๊ณผ์ ์์ ๊ธฐ์กด์ ํฝ์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ด๋ ์คํ๋ผ์ธ RL๋ณด๋ค ํจ์ฌ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค. ํต์ฌ ๊ธฐ์ฌ๋ (1) SWM ๊ฐ๋ ๋ฐ VLM ๊ธฐ๋ฐ ์ํคํ ์ฒ, (2) ํ๋-์ธ์ด ๊ฒฐํฉ์ ํตํ ์๋ฏธ ์์ธก, (3) ์ํ๋ง ๋ฐ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ๊ณํ ๊ธฐ๋ฒ ์ค๊ณ, (4) ๋ค์์ ๊ณผ์ ์์ ์ ์ฆ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋๋ค. ์์ปจ๋, SWM์ ์ธ์ด์ ์ฌ๊ณ ๋ก ๋ฏธ๋๋ฅผ ์์ธกํ๋ ์ธ๊ณ ๋ชจ๋ธ๋ก์, ๋น์ -์ธ์ด ํ์ต๊ณผ ๋ก๋ด ์ ์ด๋ฅผ ์๋ ๋ค๋ฆฌ๋ฅผ ๋์์ต๋๋ค. ํฅํ SWM์ ๋ฌผ๋ฆฌ์ ๋ก๋ด, ๋ฉํฐ๋ชจ๋ฌ ํ์ต, ๋ํํ ๊ณํ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํ ๊ฒ์ ๋๋ค.