๐StressDream ๋ฆฌ๋ทฐ
Junwon Seo, Sushant Veer, Ran Tian, Wenhao Ding, Apoorva Sharma, Karen Leung, Edward Schmerling, Marco Pavone, Andrea Bajcsy (CMU IntentLab, NVIDIA Research, University of Washington, Stanford University)
Preprint (arXiv:2606.00267v1), 2026
- ๐ก diffusion ๊ธฐ๋ฐ video world model์ด ์ฌ๋ฌ ๊ทธ๋ด๋ฏํ ๋ฏธ๋๋ฅผ ์์ํ ์ ์์ด๋, ํ์ค(nominal) ์ํ๋ง์ ๋๋ฌผ์ง๋ง ์น๋ช ์ ์ธ ๊ณ ์ํฉํธ ๊ฒฐ๊ณผ(์ถฉ๋ยท์์)๋ฅผ ๋์น๋ ๋ฌธ์ ๋ฅผ, world model์ ์ด๊ธฐ noise๋ฅผ inference-time์ ์ต์ ํํด ์์์ โ๊ณ ์ํฉํธํ๋ฉด์๋ ์ฌ์ ํ ๊ทธ๋ด๋ฏํ(plausible)โ ๊ฒฐ๊ณผ๋ก ์กฐํฅ(steer)ํด ํผ๋ค.
- โ๏ธ ์ต์ ํ ๊ธฐ์ค์ ๋ ํญ์ผ๋ก ์ค๊ณํ๋ค โ VLM(Qwen-VL)์ด ์์ฑ๋ ์์์์ ๋ชฉํ ์ด๋ฒคํธ๊ฐ ์ผ์ด๋ฌ๋์ง yes/no ๋ก๊ทธํ๋ฅ ์ฐจ์ด๋ก ์ฑ์ ํ๋ semantic objective์, ์ต์ ํ๋ noise๊ฐ ๊ณ ์ฐจ์ Gaussian์ typical set์ ๋ฒ์ด๋ OOD๋ก ํ๋ฅํ์ง ์๊ฒ ํ๋ plausibility objective(norm ์ง์คยท๋ฑ๋ฐฉ์ฑยท์คํํธ๋ผ ๋ฐฑ์์ฑ)๋ฅผ ๊ฒฐํฉํ๊ณ , score-distillation์ผ๋ก denoising ์ ์ฒด๋ฅผ ํตํ ์ญ์ ํ๋ฅผ ํผํด gradient๋ฅผ ๊ทผ์ฌํ๋ค.
- ๐ฏ ๋์ญํ์ ์๋ ํต์ ์คํ(Naughty Dubins Car)์์ ์คํจ๊ฐ ์ค์ ๋ก ๊ฐ๋ฅํ ๋๋ง ์ด๋ฅผ ๊ฒ์ถํ๊ณ , ์ต์ ์ฃผํ WM(Vista)ยท์กฐ์ WM(Ctrl-World)์์ ์คํจ ๊ฒ์ถ recall์ 54%โ94%๋ก ๋์ด์ฌ๋ฆฌ๋ฉฐ, ์ด robust ํ๊ฐ๋ก VLA ์ ์ฑ (ฯ0.5)์ fine-tuneํ์ ์ฑ๊ณต๋ฅ ์ด 39%โ71%๋ก ๊ฐ์ ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
Video world model(WM)์ ์์จ์ฃผํยท์กฐ์์์ โ๊ฐ๋น์ผ ์ค์ธ๊ณ ์ํธ์์ฉ ์์ดโ ์ ์ฑ ์ ํ๊ฐยท๊ฐ์ ํ ์๋จ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๋๋ค. ํต์ฌ์ ์ด๋ค์ด diffusionยทflow matching ๊ฐ์ ์์ฑ ๋ชจ๋ธ์ด๋ผ, ego-action์ ์กฐ๊ฑดํ๋ ๋ฏธ๋ ๊ด์ธก์ ๋ถํฌ๋ฅผ ํ์ตํ๋ค๋ ์ ์ด๋ค. ๋ฌธ์ ๋ ์ ์ฑ ํ๊ฐยท๊ฐ์ ์ด ๋ณดํต ์ด ๋ถํฌ์์ ๋ฝ์ nominal imagination(์ ํ์ ์ธ ํ๋ ๊ฐ ์ํ)์ ์์กดํ๋ค๋ ๊ฒ. ์์ปจ๋ ๋งค๋ํฐ๋ ์ดํฐ๊ฐ ํ ์ด๋ธ ์ ๋์ ๊ณณ์์ ์ด๋ฆฐ ๋ด์ง๋ฅผ ๋จ์ด๋จ๋ฆฌ๋ฉด ๋ด์ฉ๋ฌผ์ด ์์์ง ์๋ ์๋ ์๋ ์๋๋ฐ, nominal ์ํ์ โ์ ์์์ง๋โ ํํ ๊ฒฐ๊ณผ๋ง ๋ณด์ฌ์ฃผ๊ณ ๋๋ฌผ์ง๋ง ์น๋ช ์ ์ธ ์คํจ๋ฅผ ๋์น๋ค. ์ด๊ฑธ ์ก์ผ๋ ค๋ฉด ์์ฒญ๋ ์์ ์ํ์ ๋ฝ์์ผ ํด ๋นํ์ค์ ์ด๋ค. StressDream์ โ๊ทธ๋ฌ๋ฉด ๊ทธ rare-but-plausible ์คํจ๋ฅผ ์ง์ ๊ฒจ๋ฅํด ์์ํ๊ฒ ๋ง๋ค์โ๋ ๋ฐ์์ด๋ค.

๊ฐ์(Fig. 1) โ (์) diffusion WM์ ์ด๊ธฐ noise ฮต๋ฅผ ์ต์ ํํด inference-time ํ๋กฌํํธ๊ฐ ์ง์ ํ ๋ชฉํ ์ด๋ฒคํธ๋ก ์์์ ์กฐํฅํ๋ค. ๋ฌด์ ์ฝ ์ต์ ํ๋ typical set์ ๋ฒ์ด๋ implausible ์์์ ๋ณ์ง๋ง, StressDream์ VLM gradient๋ก ์กฐํฅํ๋ฉด์ plausibility ํญ์ผ๋ก noise๋ฅผ ๊ณ ํ๋ฅ ์์ญ์ ๋ถ๋ค์ด ๋๋ค. (์๋) ๊ทธ ๊ฒฐ๊ณผ๋ก ๊ฐ์ action์ โ๊ทธ๋ด๋ฏํ ์ต์ (worst plausible)โ ๊ฒฐ๊ณผ๋ฅผ ์์ํด robust ์ ์ฑ ํ๊ฐยท๊ฐ์ ์ ์ํํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
๊ด๊ฑด์ diffusion WM์์ ์ด๊ธฐ noise๊ฐ ๊ณง ์ ์ด ๋ณ์๋ผ๋ ๊ด์ฐฐ์ด๋ค. ์กฐ๊ฑด(๊ด์ธก ์ด๋ ฅ \mathbf{o}^{\text{hist}}, action \mathbf{a})์ด ๊ณ ์ ๋๋ฉด probability-flow ODE๋ฅผ ๋ฐ๋ฅด๋ ์์ฑ์ ์ด๊ธฐ noise \boldsymbol{\epsilon}์ ๊ฒฐ์ ๋ก ์ ํจ์๊ฐ ๋๋ค: \mathbf{o} = f_\theta(\boldsymbol{\epsilon}, \mathbf{o}^{\text{hist}}, \mathbf{a}). ๋ฐ๋ผ์ ์ด๋ค ๋ฏธ๋๊ฐ ์์ฑ๋ ์ง๋ ์ ์ ์ผ๋ก \boldsymbol{\epsilon}๊ฐ ๊ฒฐ์ ํ๋ค. StressDream์ test-time ๊ธฐ์ค ํจ์ \mathcal{C}^{\text{test}}๋ฅผ ์ต๋ํํ๋๋ก ์ด noise๋ฅผ gradient ascent๋ก ๋ฐ์ด ์ฌ๋ฆฐ๋ค:
\boldsymbol{\epsilon}_{i+1} = \boldsymbol{\epsilon}_i + \eta\,\nabla_{\boldsymbol{\epsilon}_i}\!\left[\mathcal{C}^{\text{test}}(\mathbf{o}_i)\right],\qquad \mathbf{o}_i = f_\theta(\boldsymbol{\epsilon}_i, \mathbf{o}^{\text{hist}}, \mathbf{a}).
๊ธฐ์ค ํจ์๋ ๋ ํญ์ ํฉ \mathcal{C}^{\text{test}} = \mathcal{C}^{\text{sem}} + \mathcal{C}^{\text{pla}}์ด๋ค. Semantic ํญ์ VLM(Qwen-VL)์ โ๋ชฉํ ์ด๋ฒคํธ๊ฐ ์ผ์ด๋ฌ๋๊ฐ?โ๋ฅผ ๋ฌป๊ณ ๋จ์ผ ํ ํฐ yes/no์ ๋ก๊ทธํ๋ฅ ์ฐจ์ด๋ก ๋ฏธ๋ถ๊ฐ๋ฅํ ์ ์๋ฅผ ๋ง๋ ๋ค:
\mathcal{C}^{\text{sem}}(\mathbf{o};\,l) = \log p^{\text{VLM}}(\texttt{yes}\mid \mathbf{o}, l) - \log p^{\text{VLM}}(\texttt{no}\mid \mathbf{o}, l).
Plausibility ํญ \mathcal{C}^{\text{pla}} = \lambda_1\mathcal{C}^{\text{norm}} + \lambda_2\mathcal{C}^{\text{iso}} + \lambda_3\mathcal{C}^{\text{spec}}์ ์ต์ ํ๋ noise๊ฐ Gaussian prior์ typical set ์์ ๋จธ๋ฌผ๊ฒ ๊ฐ์ ํ๋ค(๋ ธ๋ฆ ์ง์คยท๋ธ๋ก ๋ฑ๋ฐฉ์ฑยท์คํํธ๋ผ ๋ฐฑ์์ฑ). ์ฌ๊ธฐ์ denoising ์ ๊ณผ์ ์ ํตํ ์ญ์ ํ ๋์ score-distillation ๊ทผ์ฌ \nabla_{\boldsymbol{\epsilon}}\mathcal{C}^{\text{test}}(\mathbf{o}) \approx \beta\,\nabla_{\mathbf{o}}\mathcal{C}^{\text{test}}(\mathbf{o})๋ฅผ ์จ์ ๊ณ์ฐ์ ๊ฐ๋น ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ:
- ํต์ ์คํ(Naughty Dubins Car): ์ค์ ๋์ญํ์ ์๋ ์ธํ ์์, StressDream์ ์คํจ๊ฐ ์ค์ ๋ก ๊ฐ๋ฅํ ๋๋ง ๊ทธ๊ฒ์ ์์ํด ๋์ TPRยทTNR์ ๋์์ ๋ฌ์ฑ. plausibility ํญ์ ๋นผ๋ฉด TNR์ด ๊ธ๋ฝ(implausible ์คํจ๋ฅผ ์ง์ด๋), classifier guidance๋ false positive๊ฐ ๋ง์(Fig. 2).
- ์ฃผํ(Vista) / ์กฐ์(Ctrl-World): ์กฐ์์์ task-failure ๊ฒ์ถ recall์ด Nominal 54% โ Best-of-N 71% โ StressDream 94%(Fig. 5). ์ฃผํ์์๋ nominal์ด ๋์น๋ ์์ ์ํ ์ด๋ฒคํธ๋ฅผ target alignment๋ฅผ ๋๊ฒ ์ ์งํ๋ฉฐ ์กฐํฅ.
- ์ ์ฑ ๊ฐ์ : steered ์์์ผ๋ก VLA ์ ์ฑ ฯ0.5๋ฅผ fine-tune(์ํ action ๋ค์ด์จ์ดํธ)ํ์ 6๊ฐ ์กฐ์ ํ์คํฌ ํ๊ท ์ฑ๊ณต๋ฅ 39% โ 71%(Fig. 8, ํ์คํฌ๋น 20 rollout).
๊ฒฐ๋ก :
StressDream์ โ๋ง์ด ์ํ๋งโ์ด ์๋๋ผ โnoise ๊ณต๊ฐ์ ๋ชฉํ๋ฅผ ํฅํด ๋ฏธ๋ถ ์ต์ ํโ๋ก rare-but-plausible ์คํจ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ฐ๊ตดํ๋ค. VLM์ด ๋ฌด์์ ์ฐพ์์ง(semantic)๋ฅผ, typical-set ์ ์ฝ์ด ํ์ค์ฑ ๊ฒฝ๊ณ(plausibility)๋ฅผ ๋ด๋นํ๋ ๋ถ์ ์ด ํต์ฌ ์ค๊ณ๋ค. ๋ค๋ง ์คํจ ์ ์๋ฅผ ํ ์คํธ์ ์์กดํ๊ณ base WM์ด ์ง์ํ๋ ๊ฒฐ๊ณผ๋ง ์์ํ ์ ์๋ค๋ ๊ทผ๋ณธ ์ ์ฝ์ด ์๋ค(WM์ด ํ์ต๋ถํฌ์์ ๋ชป ๋ณธ ์คํจ๋ ์กฐํฅํด๋ ์ ๋์ด โ ์ด๊ฒ์ด โplausibilityโ์ ์ ํํ ์๋ฏธ๋ค).
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
โ์ด๋ค ๋ฏธ๋๊ฐ ์์ฑ๋ ์ง๋ diffusion์ ์ด๊ธฐ noise๊ฐ ๊ฒฐ์ ํ๋ค โ ๊ทธ๋ฌ๋ ๋ฌด์์ ์ฌ๋ฌ ๋ฒ ๋ฝ์ง ๋ง๊ณ , ๊ทธ noise๋ฅผ โ๊ณ ์ํฉํธํ์ง๋ง ์ฌ์ ํ ๊ทธ๋ด๋ฏํ ๊ฒฐ๊ณผโ๋ฅผ ํฅํด ์ง์ ์ต์ ํํ์.โ StressDream์ video world model์ ์ด๊ธฐ Gaussian noise๋ฅผ inference-time์ gradient ์ต์ ํํด, ์ ์ฑ ํ๊ฐยท๊ฐ์ ์ ํ์ํ worst-plausible ๋ฏธ๋๋ฅผ ํจ์จ์ ์ผ๋ก ์์ํด ๋ด๋ ๋ฐฉ๋ฒ์ด๋ค.
๋ฐฐ๊ฒฝ: ์ nominal imagination์ผ๋ก๋ ๋ถ์กฑํ๊ฐ
Video WM์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ ํ์ต๋ ์๋ฎฌ๋ ์ดํฐ๋ค. CosmosยทWan ๊ฐ์ ๋๊ท๋ชจ ์์ฑ ๋ชจ๋ธ์ ํ๋ฆ ์์์, ๋ก๋ณดํฑ์ค์ฉ WM์ diffusionยทflow matching์ผ๋ก ego-action์ ์กฐ๊ฑดํ๋ ๋ฏธ๋ ๊ด์ธก์ ๋ถํฌ๋ฅผ ํ์ตํ๋ค. ๋ถํฌ๋ฅผ ํ์ตํ๋ค๋ ๊ฑด ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ถํ์ค์ฑ์ด๋ ์ฃผ๋ณ ์์ด์ ํธ ํ๋์ ๋ค์์ฑ์ ๋ด์ ์ ์๋ค๋ ๋ป์ด๋ค.
๊ทธ๋ฐ๋ฐ ์ค์ ์ ์ฑ ํ๊ฐยท๊ฐ์ ์ ๋๊ฐ ์ด ๋ถํฌ์์ ๋ฝ์ nominal imagination์ ์์กดํ๋ค. ์ด๋ WM์ด ํํํ๋ ๋ค์ํ ๊ฒฐ๊ณผ๋ฅผ ๊ณผ์ ํ์ํ๋ค. ์ ์ฑ ํ๊ฐ์์ ์ ์ ํ์ํ ๊ฒ์ action์ plausibleํ๋ฉด์๋ high-impact์ธ ๊ฒฐ๊ณผ์ธ๋ฐ(์ฌ๊ธฐ์ plausibility๋ โํ์ต๋ WM ๋ถํฌ๊ฐ ์ง์งํ๋โ ๊ฒฐ๊ณผ๋ฅผ ๋ปํ๋ค), naive ์ํ๋ง์ ์์ฒญ๋ ์ํ ์์ฐ ์์ด๋ ์ด๋ฐ ๊ฒฐ๊ณผ๋ฅผ ์ฝ๊ฒ ๋์น๋ค. ์ ์๋ค์ ์์: ๋งค๋ํฐ๋ ์ดํฐ๊ฐ ์ด๋ฆฐ ๋ด์ง๋ฅผ ํ ์ด๋ธ ๋์ ๊ณณ์์ ๋จ์ด๋จ๋ฆฌ๋ฉด WM ๋ถํฌ์๋ ์์์ง/์ ์์์ง์ด ๋ ๋ค ์์ง๋ง, ๋ด์ง๋ฅผ ๋ฎ๊ฒ ๋์ผ๋ฉด ์์์ง์ ๋๋ฌผ๊ฑฐ๋ ์์ ์๋ค. ์ด๋ ๊ฒ โ๊ทธ๋ด๋ฏํ ์คํจ๋ฅผ ์์ํ๋ ๋ฅ๋ ฅโ์ด ์์ด์ผ ์ํํ action์ ๊ฑธ๋ฌ๋ด๊ณ (ํ๊ฐ) ์ต์ ํ (๊ฐ์ ) ์ ์๋ค.
ํต์ฌ ๊ธฐ์ ์ ๊ด์ฐฐ์ ์ด๊ธฐ noise๊ฐ ์ ์ด ๋ณ์๋ผ๋ ๊ฒ์ด๋ค. Diffusion WM์ ๋ฐ์ดํฐ ๋ถํฌ \mathbf{o}\sim p^{\text{data}}์ ํ์ค Gaussian \mathbf{x}^T = \boldsymbol{\epsilon}\sim\mathcal{N}(\mathbf{0},\mathbf{I}_D) ์ฌ์ด ๋ณํ์ ํ์ตํ๋ฉฐ, ์ญ๋ฐฉํฅ denoising์ ๋ฐ๋ณตํด \mathbf{x}^0 = \mathbf{o}๋ฅผ ์ป๋๋ค. Probability-flow ODE์ ๋์ํ๋ ๊ฒฐ์ ๋ก ์ ์ํ๋ง์์๋ ์กฐ๊ฑด์ด ๊ณ ์ ๋๋ฉด ์์ฑ์ด ์ค์ง ์ด๊ธฐ noise์ ํจ์ \mathbf{o} = f_\theta(\boldsymbol{\epsilon}, \mathbf{o}^{\text{hist}}, \mathbf{a})๊ฐ ๋๋ค. ์ฆ noise๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ด ๊ณง ์ด๋ค ์์์ด ๋์ฌ์ง๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ด๋ค.
๋ฐฉ๋ฒ: ๋ชฉํ๋ฅผ minโmax๋ก ์ ์ํํ๊ณ , noise๋ฅผ ์ต์ ํํ๋ค
์ ์ฑ ํ๊ฐยท๊ฐ์ ์ ์ ์ํ (Eq. 4)
action-conditioned WM f_\theta๊ฐ ์ฃผ์ด์ก์ ๋, ํ๋ณด action ์ํ์ค๋ฅผ ๊ทธ ๋ฏธ๋ ๊ฒฐ๊ณผ๋ก ํ๊ฐํ๊ณ ์ ํ๋ค. ๋ฏธ๋ \mathbf{o}๋ test-time ๊ธฐ์ค \mathcal{C}^{\text{test}}(\mathbf{o})\in\mathbb{R}๋ก ์ฑ์ ๋๋ค(์คํจยท์ถฉ๋ ๊ฐ์ high-impact ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๋์ง). ํ๋์ action์ ์ฌ๋ฌ plausible ๋ฏธ๋๊ฐ ์์ ์ ์์ผ๋ฏ๋ก, ์ ์๋ค์ robust ์ ์ฑ ์ ๋ค์์ minโmax๋ก ์ ์ํ๋ค:
\mathbf{a}^\ast = \arg\min_{\mathbf{a}\in\mathcal{A}}\ \max_{\boldsymbol{\epsilon}\sim\mathcal{N}(\mathbf{0},\mathbf{I}_D)}\ \mathcal{C}^{\text{test}}\!\left(f_\theta(\boldsymbol{\epsilon}, \mathbf{o}^{\text{hist}}, \mathbf{a})\right).
- Inner max(๊ณ ์ฐจ์ Gaussian noise ์ ํ): ์ด action์ worst plausible ๋ฏธ๋๋ฅผ ์ฐพ๋๋ค โ StressDream์ด ๋ด๋นํ๋ ๋ถ๋ถ.
- Outer min(action ์ ํ): plausible ๋ฏธ๋ ์ ๋ฐ์์, ์ต์ ์ ํฌํจํด๋ ๊ธฐ์ค์ ๋ฎ๊ฒ ์ ์งํ๋ robust action์ ๊ณ ๋ฅธ๋ค โ ์ํ๋ง ๊ธฐ๋ฐ solver๋ ์ ์ฑ ์ต์ ํ๊ฐ ๋ด๋น.
Inner ๋ฌธ์ ๊ฐ ์ด๋ ค์ด ์ด์ ๋ noise ๊ณต๊ฐ์ด ๊ทน๋จ์ ์ผ๋ก ๊ณ ์ฐจ์(์ฃผํ Vista๋ D\approx921{,}600, ์กฐ์ Ctrl-World๋ D=57{,}600)์ด๊ณ , ๊ฐ noise ํ๊ฐ๋ง๋ค ๋น์ผ denoising์ด ํ์ํด ๋ฌด์์ ๋ฐ๋ณต ์ํ๋ง์ด rare ์ฌ๊ฑด์ ๋์น๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ ๋ฌด์์ ๋์ ๋ฏธ๋ถ๊ฐ๋ฅํ ๊ธฐ์ค์ gradient๋ก noise๋ฅผ ์ง์ ์์น์ํจ๋ค(Eq. 5). ๋ฌธ์ ๋ ๋ ๊ฐ์ง โ โ ๊ณ ์ฐจ์ noise๋ฅผ naiveํ๊ฒ ์ต์ ํํ๋ฉด OOD๋ก ๋ฐ๋ ค implausible ์์์ด ๋์ค๊ณ , โก scene๋ง๋ค ๋ฌ๋ผ์ง๋ ๋ฏธ๋ฌํ ๋ชฉํ ์ฌ๊ฑด์ ์ฑ์ ํ ๋ฏธ๋ถ๊ฐ๋ฅํ ๊ธฐ์ค์ด ํ์ํ๋ค. StressDream์ ๋ objective๊ฐ ๊ฐ๊ฐ ์ด๋ฅผ ํผ๋ค.
Semantic objective: VLM์ผ๋ก ๋ชฉํ ์ฌ๊ฑด์ ์ฑ์ (Eq. 6)
WM์ ๋ค์ํ sceneยทtask์ ๊ฑธ์ณ ์๋ํ๋ฏ๋ก, ์กฐํฅํ high-impact ๋ชฉํ ์ฌ๊ฑด์ ์ ์ฑ ๋งฅ๋ฝ์ ๋ฐ๋ผ ๋งค๋ฒ ๋ฐ๋๋ค. ๊ทธ๋์ โ์์ฑ ์์์์ scene-์์กด์ ๋ชฉํ ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๋๊ฐโ๋ฅผ ๋ฏธ๋ถ๊ฐ๋ฅํ๊ฒ ์ ์ํํ semantic ํญ์ด ํ์ํ๋ค. ์ ์๋ค์ VLM(Qwen-VL)์ ์ผ๋ฐ์ ์์ ์ดํด ๋ฅ๋ ฅ์ ํ์ฉํ๋ค. Inference-time ํ ์คํธ ํ๋กฌํํธ l(์: ์กฐ์ โthe coffee beans spillโ, ์ฃผํ โa collision occursโ)์ ์ฃผ๊ณ , VLM์ด yes/no ๋จ์ผ ํ ํฐ์ ์ถ๋ ฅํ๊ฒ ํ ๋ค ๋ก๊ทธํ๋ฅ ์ฐจ์ด๋ฅผ ์ ์๋ก ์ ์ํ๋ค:
\mathcal{C}^{\text{sem}}(\mathbf{o};\,l) = \log p^{\text{VLM}}(\texttt{yes}\mid \mathbf{o}, l) - \log p^{\text{VLM}}(\texttt{no}\mid \mathbf{o}, l).
๋จ์ผ ํ ํฐ ํ๋ฅ ์ ์ฐ๋ฏ๋ก ๋ฏธ๋ถ๊ฐ๋ฅํ๊ณ , ๊ณ ์ฐจ์ noise ์ต์ ํ์ ํ๋ถํ gradient ์ ํธ๋ฅผ ์ค๋ค. inference-time์ ํ ์คํธ๋ง ๋ฐ๊ฟ ์๋ก ๋ค๋ฅธ ์คํจ ๋ชจ๋๋ฅผ ์ง์ ํ ์ ์๋ค๋ ๊ฒ ์ค์ฉ์ ๊ฐ์ ์ด๋ค.
Plausibility objective: noise๋ฅผ typical set ์์ ๋ถ๋ ๋ค
Diffusion์ Gaussian prior์์ ๋ฝ์ noise๋ก ํ์ต๋์์ผ๋ฏ๋ก, noise๊ฐ typical set(๋๋ถ๋ถ์ ํ์ต noise๊ฐ ๋์ด๋ ์์ญ)์ ๋ฒ์ด๋๋ฉด ๊ฒฐ๊ณผ ์์์ด WM ๋ถํฌ์์ ๋ฒ์ด๋๊ฑฐ๋(implausible) ํ์ง์ด ๋ง๊ฐ์ง๋ค. ์ค์ํ ๋ฏธ๋ฌํจ: ๊ณ ์ฐจ์์์ typical set์ ์ต๊ณ ๋ฐ๋ ์์ญ๊ณผ ๋ค๋ฅด๋ค โ ์๋ฒกํฐ(zero vector)๋ ๋ฐ๋๋ ๋์ง๋ง Gaussian์์ ์ํ๋ ๊ฐ๋ฅ์ฑ์ ๊ทนํ ๋ฎ๋ค. Gradient ์ต์ ํ๊ฐ noise๋ฅผ ์ด typical set ๋ฐ์ผ๋ก ๋ฐ ์ ์์ผ๋ฏ๋ก, ์ ์๋ค์ ์ธ ํต๊ณ๋์ผ๋ก ์ด๋ฅผ ๊ท์ ํ๋ค:
\mathcal{C}^{\text{pla}}(\boldsymbol{\epsilon}) = \lambda_1\mathcal{C}^{\text{norm}}(\boldsymbol{\epsilon}) + \lambda_2\mathcal{C}^{\text{iso}}(\boldsymbol{\epsilon}) + \lambda_3\mathcal{C}^{\text{spec}}(\boldsymbol{\epsilon}).
- Norm concentration. Gaussian noise์ ์ ๊ณฑ ๋ ธ๋ฆ์ \lVert\boldsymbol{\epsilon}\rVert_2^2 \sim \chi_D^2๋ก ๋ฐ๊ฒฝ \sqrt{D} ๊ทผ์ฒ์ ์์ ๊ป์ง(shell)์ ์ง์คํ๋ค. ๊ทธ๋์ ์ด ์ ํ์ ๋ฐ๊ฒฝ์์์ ์ดํ์ ๋ฒํ๋ค: \mathcal{C}^{\text{norm}}(\boldsymbol{\epsilon}) = -\big(\lVert\boldsymbol{\epsilon}\rVert_2 - \sqrt{D}\big)^2.
- Isotropy. ์ ์ญ ๋ ธ๋ฆ์ด ๋ง์๋ ๊ตญ์์ ์ผ๋ก i.i.d. Gaussian๋ต์ง ์์ ์๊ดยท๊ตฌ์กฐ๊ฐ ๋จ์ ์ ์๋ค. noise๋ฅผ ๋ฌด์์๋ก ์นํยท๋ถํ ํด ๋ถ๋ถ๋ฒกํฐ \{\boldsymbol{\epsilon}_i\}_{i=1}^m(\boldsymbol{\epsilon}_i\in\mathbb{R}^k, D=mk)๋ก ๋๋๊ณ , ๊ฒฝํ์ 2์ฐจ ๋ชจ๋ฉํธ \widehat{\boldsymbol{\Sigma}} = \frac{1}{m}\sum_i \boldsymbol{\epsilon}_i\boldsymbol{\epsilon}_i^\top๊ฐ \mathbf{I}_k์์ ๋ฒ์ด๋จ์ ๋ฒํ๋ค: \mathcal{C}^{\text{iso}}(\boldsymbol{\epsilon}) = -\frac{1}{k}\lVert\widehat{\boldsymbol{\Sigma}} - \mathbf{I}_k\rVert_F^2(์ฌ๋ฌ ๋ฌด์์ ์นํ ํ๊ท ).
- Spectral whiteness. ์ขํ ๊ณต๊ฐ์์ ์ ํ์ ์ด์ด๋ ์ฃผํ์ ์์ญ artifact๊ฐ ์๊ธธ ์ ์๋ค. Gaussian noise๋ ํํํ ๊ธฐ๋ ํ์ ์คํํธ๋ผ์ ๊ฐ์ง๋ฏ๋ก, 2D DFT ํ์ \mathbf{P} = \lvert\mathcal{F}(\boldsymbol{\epsilon})\rvert^2๋ฅผ B๊ฐ ๊ณต๊ฐ์ฃผํ์ bin์ผ๋ก ๋ชจ์ bin๋ณ ํ๊ท ํ์ \{\hat p_b\}์ ๋ถ์ฐ์ ์ต์ํํ๋ค: \mathcal{C}^{\text{spec}}(\boldsymbol{\epsilon}) = -\frac{1}{B}\sum_b (\hat p_b - \bar p)^2.
Gradient ๊ทผ์ฌ: denoising ์ ์ฒด๋ฅผ ํตํ ์ญ์ ํ๋ฅผ ํผํ๋ค (Eq. 7โ8)
Noise gradient \nabla_{\boldsymbol{\epsilon}}\mathcal{C}^{\text{test}}(f_\theta(\cdots))๋ฅผ ์ ํํ ๊ตฌํ๋ ค๋ฉด ๋ฐ๋ณต denoising(์: 50 ์คํ ) ์ ์ฒด๋ฅผ ์ญ์ ํํด์ผ ํ๋๋ฐ, ๋ฉ๋ชจ๋ฆฌยทgradient vanishing ๋ฌธ์ ๊ฐ ํฌ๋ค. ์ ์๋ค์ score-distillation์ ์ฑํํด ์ด๊ธฐ noise์ ๋ํ gradient๋ฅผ ์์ฑ ์ํ์์์ gradient๋ก ๊ทผ์ฌํ๋ค:
\nabla_{\boldsymbol{\epsilon}}\mathcal{C}^{\text{test}}(\mathbf{o}) \approx \beta\,\nabla_{\mathbf{o}}\mathcal{C}^{\text{test}}(\mathbf{o}),\qquad \mathbf{o} = f_\theta(\boldsymbol{\epsilon}, \mathbf{o}^{\text{hist}}, \mathbf{a}).
์ด๋ ๊ฒ ํ๋ฉด ๋ฏธ๋ถ๊ฐ๋ฅํ ๊ธฐ์ค ํจ์๋ง ์ญ์ ํํ๋ฉด ๋๊ณ denoising ์ฒด์ธ์ ๊ฑด๋๋ด๋ค. ์ต์ข ์ ์ผ๋ก ๋ objective์ gradient๋ฅผ ํฉ์ณ noise๋ฅผ ๊ฐฑ์ ํ๋ค:
\nabla_{\boldsymbol{\epsilon}}\mathcal{C}^{\text{test}}(\mathbf{o}) = \beta\,\nabla_{\mathbf{o}}\mathcal{C}^{\text{sem}}(\mathbf{o};\,l) + \nabla_{\boldsymbol{\epsilon}}\mathcal{C}^{\text{pla}}(\boldsymbol{\epsilon}),
๊ณ์ \beta, \lambda_1, \lambda_2, \lambda_3๋ WMยทnoise ์ฐจ์ยทVLM์ ๋ฐ๋ผ ์กฐ์ ํ๋ค.
์ง๊ด: โํ๋ฅ ๊ป์ง ์์์, ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฑท๊ธฐโ
๊ณ ์ฐจ์ Gaussian์ ํ๋์ ์์ ๊ตฌ๋ฉด ๊ป์ง๋ก ์์ํ๋ฉด ์ข๋ค. Nominal ์ํ์ ๊ทธ ๊ป์ง ์ ๋ฌด์์ ํ ์ ์ด๊ณ , Best-of-N์ ๋ฌด์์ ์ฌ๋ฌ ์ ์ค ์ ์ ์ต๊ณ ๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ โ ํ์ง๋ง rare ์ฌ๊ฑด์ ๊ป์ง ์ ์์ฃผ ์ข์ ์์ญ์ ์์ด ๋ฌด์์๋ก ์ ์ ๊ฑธ๋ฆฐ๋ค. StressDream์ ๊ป์ง ์์ ๋จธ๋ฌผ๋ฉด์(plausibility: normยทisotropyยทspectrum์ด ๊ป์ง/๋ฐฑ์์ฑ ์ ์ฝ) ์ ์๊ฐ ์ค๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ๊ฑธ์ด๊ฐ๋(semantic: VLM gradient) ๋ฐฉ์์ด๋ค. plausibility ํญ์ ๋นผ๋ฉด ๊ป์ง์ ๋ฒ์ด๋(zero-vector ์ชฝ์ด๋ ๊ตฌ์กฐํ๋ ๋ฐฉํฅ์ผ๋ก) implausibleํ โ์ง์ด๋ธ ์คํจโ๋ก ๋ฏธ๋๋ฌ์ง๋ค โ Fig. 2๊ฐ ์ด๋ฅผ ์ ํํ ๋ณด์ฌ์ค๋ค.
์คํ: ํต์ ์คํ โ ์ต์ WM โ ์ ์ฑ ๊ฐ์
ํต์ ์คํ โ Naughty 3D Dubins Car (๋์ญํ์ ์๋ ์ธํ )
์คํจ๊ฐ ์ค์ ๋ก ๊ฐ๋ฅํ ๋๋ง ์กฐํฅ์ด ์คํจ๋ฅผ ์ก์๋ด๋์ง ๊ฒ์ฆํ๊ธฐ ์ํด, ๋์ญํ์ ์๋ ์ด๋ฏธ์ง ๊ธฐ๋ฐ 3D Dubins car๋ฅผ ๋ง๋ ๋ค. ์ํ s = [p_x, p_y, \theta], ์ฐ์ ๊ฐ์๋ action a_t\in[-1.25, 1.25] rad/s, ๊ณ ์ ์๋ v = 1 m/s, \Delta t = 0.05 s. โnaughtyโ๋ ํ๋ฅ p = 0.2๋ก ์ ์ด ์ ๋ ฅ์ ๋ถํธ๋ฅผ ๋ค์ง์ด ๋ถํ์ค์ฑ์ ์ค๋ค. ์์ ์ ์๋ \mathcal{C}(s) = p_x^2 + p_y^2 - 0.25^2๋ก ์์ ์ค์ฌ ๋ฐ๊ฒฝ 0.25 m์ ์ํ failure set์ ์ ์ํ๋ค. WM์ ๋ฌด์์ ๊ด์ธก-action ๊ถค์ 4,000๊ฐ๋ก ํ์ตํ one-step(H=1) diffusion ๋ชจ๋ธ(noise ์ฐจ์ 1,024)์ด๋ฉฐ, ์ฌ๊ธฐ์ VLM ๋์ ์์ ์ ์๋ฅผ \mathcal{C}^{\text{sem}}์ผ๋ก ์ด๋ค.

ํต์ ์คํ(Fig. 2) โ (a) ์คํจ ๊ฒ์ถ์ TPRโTNR. StressDream(์ฃผํฉ)์ TPRยทTNR์ ๋์์ ๋๊ฒ ์ ์ง; plausibility ํญ์ ๋บ ๋ณํ(์ฒญ๋ก)์ TNR์ด ๊ธ๋ฝ(implausible ์คํจ๋ฅผ ์ง์ด๋), classifier guidance(๋นจ๊ฐ)๋ TPRยทTNR ๋ชจ๋ ๋ฎ์. (b) nominal(๊ฒ์ ) ๋๋น steered(์ฃผํฉ) ์์ ๊ถค์ โ StressDream์ nominal์ด ๋์น๋ plausible ์คํจ(ํ์ failure set ์ง์ )๋ฅผ ์กฐํฅํด ์ฐพ์๋ธ๋ค.
5,000๊ฐ ์ด๊ธฐ ์ํ-action ์ํ์ค์ ๋ํด, ํ๋ฅ ์ ๋์ญํ์์ ๋ฌ์ฑ ๊ฐ๋ฅํ ground-truth ์ต์ ์์ ์ ์๊ฐ 0 ๋ฏธ๋ง์ด๋ฉด positive(์คํจ ๊ฐ๋ฅ)๋ก ๋ผ๋ฒจ๋งํ๊ณ , WM rollout์ ์์ธก ์ต์ ์์ ์ ์๋ก ๋ถ๋ฅํ๋ค. 10 ์คํ ์ต์ ํ. ๋น๊ต ๋์์ Nominal(N=1), Best-of-N(N=10), classifier guidance(CG, denoising ์ค gradient ์ ์ฉ), ๊ทธ๋ฆฌ๊ณ \mathcal{C}^{\text{pla}} ์ ๊ฑฐ ๋ณํ. ๊ฒฐ๊ณผ: StressDream์ ์คํจ๊ฐ plausibleํ ๋๋ง ์ ๋ขฐ์ฑ ์๊ฒ ๊ฒ์ถ(๋์ TPRยทTNR). \mathcal{C}^{\text{pla}}๊ฐ ์์ผ๋ฉด TNR์ด ๋ฎ์์ ธ(์์ ํ ๊ถค์ ์ ์คํจ๋ก ์ค๋ถ๋ฅ) implausible ์คํจ๋ฅผ ์ง์ด๋ด๊ณ , CG๋ denoising ๊ถค์ ์ ์ง์ ๊ฑด๋๋ ค false positive๊ฐ ๋ง๋ค. ๋ฌด์์ ์ํ๋ง(NominalยทBest-of-N)์ plausibleํ๊ธด ํ๋ rare ์คํจ๋ฅผ ์์ฃผ ๋์น๋ค.
์ ์ฑ ๊ฒฐ๊ณผ โ nominal์ด ๋์น๋ ์คํจ๋ฅผ, plausibleํ ๋๋ง ์กฐํฅ

์ ์ฑ ๋น๊ต(Fig. 3) โ ์๋จ ํ ์คํธ๊ฐ inference-time ๋ชฉํ ํ๋กฌํํธ. StressDream์ nominal์ด ๋์น๋ ๋ณดํ์ near-missยท์ถฉ๋ยทred-light ์๋ฐยท์์ ๋ฑ high-impact ๊ฒฐ๊ณผ๋ก ์์์ ์กฐํฅํ๋ค. ๊ฒฐ์ ์ ์ผ๋ก, ๋ชฉํ๊ฐ WM ๋ถํฌ์์ ์ง์ง๋์ง ์์ผ๋ฉด(๋งจ ์ค๋ฅธ์ชฝ ๋ ์ด: ๋ซํ ๋ด์งยท๋์ ํ ์ฌํ) ์ต์ง๋ก ์์ํ์ง ์๋๋ค(โno spillโ).
์ต์ WM โ ์ฃผํ(Vista)๊ณผ ์กฐ์(Ctrl-World)
- ์ฃผํ: Vista๋ฅผ ์ฌ์ฉ(576\times1024 ์ ๋ฐฉ ์นด๋ฉ๋ผ 25 ํ๋ ์ ์์ธก, waypoint๋ฅผ action์ผ๋ก ์กฐ๊ฑดํ, D\approx921{,}600). PhysicalAI-Autonomous-Vehicles(PAI-AV)์ Nexar Collision Prediction ๋ฐ์ดํฐ๋ก fine-tune. 20 ์คํ ์ต์ ํ, WolfยทX-CLIP์ผ๋ก fine-tune๋ Qwen2.5-VL-7B-Instruct ์ฌ์ฉ. ํ๊ฐ๋ PAI-AV 8๊ฐ ์์ ์ํ ์นดํ ๊ณ ๋ฆฌ์์ ํ๋ ์ด์ ํ 100๊ฐ imageโactionโtext ์ + 200๊ฐ ์๋ฐ ์ถฉ๋ ์์. ์งํ๋ held-out ํ๊ฐ๊ธฐ WorldModelBench๋ก ์ฐ target alignment(์์์ด ๋ชฉํ ํ ์คํธ์ ๋ง๋๊ฐ)์ video quality(plausibility ๋๋ฆฌ ์งํ).
- ์กฐ์: Ctrl-World๋ฅผ ์ฌ์ฉ(DROID ์ธํ , 3๊ฐ ์นด๋ฉ๋ผ ๋ทฐ 192\times320์ 5 ํ๋ ์ ์์ธก, joint-position action, D = 57{,}600). 6๊ฐ contact-rich ํ์คํฌ, ํ์คํฌ๋น ์ฝ 150๊ฐ teleoperation ๊ถค์ (์ฑ๊ณตยท์คํจ ํฌํจ)์ผ๋ก fine-tune. 10 ์คํ ์ต์ ํ, Qwen3-VL-4B-Instruct ์ฌ์ฉ.

์กฐ์ ์คํจ ๊ฒ์ถ recall(Fig. 5) โ Ctrl-World ์์์์ task-failure ๊ฒ์ถ. Nominal(N=1) 54% โ Best-of-N(N=10) 71% โ StressDream 94%. ๋ฌด์์ ์์ฑ์ ๊ณผ๋ํ๊ฒ ๋๊ด์ ์ด๋ผ plausible ์คํจ๋ฅผ ์์ฃผ ๋์น๋ค.
์ฃผํ์์๋ StressDream์ด nominal์ด ๋์น๋ ์์ ์ํ/์คํจ ์ด๋ฒคํธ๋ก ์์์ ์กฐํฅํ๋ฉด์(Fig. 4์ target alignment ์์น) \mathcal{C}^{\text{pla}} ๋์ video quality๋ฅผ ๋ณด์กดํ๋ค โ plausibility ํญ์ ๋นผ๋ฉด target alignmentยทvideo quality๊ฐ ๋ ๋ค ๋จ์ด์ง๋ค. ๋ํ ์กฐํฅ์ด WM ๋ถํฌ์ grounded์์ ๊ฒ์ฆํ๋ ์คํ(Fig. 6): ์ถฉ๋๋ก fine-tuneํ Vista์์๋ ์กฐํฅ์ด ์ถฉ๋์ ์ ๋ํ์ง๋ง, ์ถฉ๋์ ํ์ตํ์ง ์์ base Vista์์๋ ์กฐํฅํด๋ ์ถฉ๋์ ์์ํ์ง ๋ชปํ๋ค(target alignment ๋ฎ์). ์ฆ StressDream์ WM ๋ถํฌ๊ฐ ์ง์งํ๋ ์ฌ๊ฑด๋ง ์กฐํฅํ์ง, implausible ์ฌ๊ฑด์ ํฉ์ฑํ์ง ์๋๋ค.
์ ์ฑ ๊ฐ์ โ robust action์ ์ ํธํ๋๋ก fine-tune

์ ์ฑ ๊ฐ์ (Fig. 7) โ steered WM ์์์ผ๋ก fine-tuneํ ฯ0.5๋ worst-case plausible ๊ฒฐ๊ณผ์์๋ ์ฑ๊ณตํ๋ robust action(์: ๊ฐ์ฅ์๋ฆฌ ๋์ ์ค์์ ๋๊ธฐ, ์ฒ์ฒํ ๋ถ๊ธฐ)์ ์ ํธํ๋ค. ๋ฐ๋ฉด nominal fine-tuning์ ์คํจ๊ฐ plausibleํ ์ํ action์ ๊ทธ๋๋ก ์ ์ํ๋ค.
behavior-cloning ์ ์ฑ ฯ0.5(VLA)๋ฅผ ๊ฐ์ ํ๋ค. ฯ0.5-DROID๋ฅผ ํ์คํฌ๋น 40๊ฐ ์ฑ๊ณต ์์ฐ์ผ๋ก weighted-regression fine-tuneํ๋, ๋ ์ธํ ์ ๋น๊ต: Nominal \pi^{\text{FT}}(๋ชจ๋ ๊ถค์ ์ ๊ท ์ผ ๊ฐ์ค 1.0) vs Robust \pi^{\text{FT}}(steered ์์์์๋ ์ฑ๊ณตํ ๊ถค์ ์ 1.0, steered ์์์์ ์คํจํ๋ ๊ถค์ ์ 0.1). ์ฆ ๊ทธ๋ด๋ฏํ ๊ฒฐ๊ณผ ๋ถํฌ์ ์คํจ๊ฐ ์๋ robust action์ ํค์ฐ๊ณ ์ํ action์ ์ต์ ํ๋ค. ๊ฒฐ๊ณผ(Fig. 8, ํ์คํฌ๋น 20 rollout ํ๊ท ): Nominal \pi^{\text{FT}} 39% โ Robust \pi^{\text{FT}} 71%. ๋ฐ์ดํฐ ์์ง ๋น์์ ์ฐ์ฐํ ์ฑ๊ณตํ๋๋ผ๋ ๊ทธ๋ด๋ฏํ ๊ฒฐ๊ณผ ๋ถํฌ์ ์คํจ๊ฐ ํฌํจ๋๋ ์ํ action์ ๊ฑธ๋ฌ๋ธ ๋๋ถ์ด๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ๋ฌธ์ ์ฌ์ ์๊ฐ ๊น๋ํ๋ค. โrare ์คํจ๋ฅผ ์ก์ผ๋ ค๋ฉด ์ํ์ ๋ง์ดโ๋ผ๋ ํต๋ ์, โ์์ฑ์ ์ด๊ธฐ noise์ ๊ฒฐ์ ๋ก ์ ํจ์์ด๋ noise๋ฅผ ๋ชฉํ๋ก ์ต์ ํํ์โ๋ก ๋ค์ง๋๋ค. minโmax ์ ์ํ(Eq. 4)๋ก ํ๊ฐ(inner)์ ๊ฐ์ (outer)์ ํ ํ์ ๋ด์ ๊ฒ๋ ๋ช ๋ฃํ๋ค.
- plausibility์ ์กฐ์์ ์ ์๊ฐ ์ ์งํ๋ค. โํ์ค์ โ์ ๋ชจํธํ๊ฒ ๋์ง ์๊ณ โWM ๋ถํฌ๊ฐ ์ง์งํ๋๊ฐโ๋ก ๋ชป ๋ฐ๊ณ , ์ด๋ฅผ ๊ณ ์ฐจ์ Gaussian์ typical set(norm shellยท๋ฑ๋ฐฉ์ฑยท๋ฐฑ์์ฑ) ํต๊ณ๋ก ๊ตฌ์ฒดํํ๋ค. Fig. 6(์ถฉ๋ ๋ฏธํ์ต base Vista์์ ์ถฉ๋์ ๋ชป ์ง์ด๋)์ด ์ด ์ฃผ์ฅ์ ๋ฐ์ฆ๊ฐ๋ฅํ ํํ๋ก ๊ฒ์ฆํ ์ ์ด ์ข๋ค โ ๋จ์ ํ๋ณด๊ฐ ์๋๋ผ โ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ๋ชป ํ๋ ๊ฒโ์ ๋ช ์ํ๋ค.
- ํต์ ์คํ์ด ์๋ค. ground-truth ๋์ญํ์ ์๋ Dubins car์์ TPRยทTNR์ ํจ๊ป ๋ณด๊ณ ํ๊ณ , \mathcal{C}^{\text{pla}} ablation๊ณผ classifier guidance ๋น๊ต๋ก ๊ฐ ์์์ ์ญํ ์ ๋ถ๋ฆฌํ๋ค. VLM ์์ด ์์ ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก ์จ์ โ์กฐํฅ ๋ฉ์ปค๋์ฆ ์์ฒดโ๋ฅผ VLM ์ก์๊ณผ ๋ถ๋ฆฌํด ๊ฒ์ฆํ ์ค๊ณ๋ ์ ์คํ๋ค.
- inference-time ์ ์ฐ์ฑ. ํ ์คํธ ํ๋กฌํํธ๋ง ๋ฐ๊ฟ ์คํจ ๋ชจ๋๋ฅผ ์ง์ ํ๊ณ , ๋ณ๋ ์ฌํ์ต ์์ด ์ฌ๋ฌ WM(VistaยทCtrl-World)์ ๋ถ๋๋ค.
์ฝ์ ยทํ๊ณ
- reward hacking์ ์ทจ์ฝ(์ ์ ์ธ์ ). semantic ํญ์ด VLM ์ ์์ ์์กดํ๋ฏ๋ก, ์์ฑ์ ์๋ฏธ ์๋ ๋ณํ ์์ด ์ ์๋ง ์ค๋ฅด๋ reward hacking์ด ๊ฐ๋ฅํ๋ค. ์ ์๋ โ์ผ๋ฐํ๋๊ณ robustํ ๋ก๋ด reward model์ด ํ์ํ๋คโ๊ณ ๋ช ์. VLM(Qwen)์ ์์ ์ดํด ํ๊ณยทํ๋กฌํํธ ํ์ง์ด ๊ทธ๋๋ก ๋ณ๋ชฉ์ด ๋๋ค.
- โplausibilityโ๋ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ์ด ์๋๋ค. ์ด๋๊น์ง๋ base WM ๋ถํฌ๊ฐ ์ง์งํ๋ ๊ฒ์ ํ์ ๋๋ค. WM์ด ๊ฒฐํจ ์๋(๋นํ์ค์ ) ์์์ ๋ด๋ฉด ๊ทธ ๊ฒฐํจ ์์์ ์กฐํฅํ ์ ์๊ณ , WM ํ์ต๋ถํฌ์ ์๋ ์ค์ ์ํ์ ๋ฐ๊ฒฌํ์ง ๋ชปํ๋ค. ์ฆ ์์ ๊ฒ์ฆ์ ์์ ์ฑ์ WM ์ถฉ์ค๋์ ์ข ์๋๋ฉฐ, โdiverse robot data๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ๊ณ ์ถฉ์ค WMโ์ด๋ผ๋ ๋ฏธํด๊ฒฐ ์ ์ ์์ ์ ์๋ค.
- ํ๊ฐ ์งํยท๊ท๋ชจ์ ํ๊ณ. ์กฐ์ recall(Fig. 5)ยท์ ์ฑ ์ฑ๊ณต๋ฅ (Fig. 8)์ด ํค๋๋ผ์ธ์ด์ง๋ง, ํ์คํฌ๋น rollout์ด 20ํ๋ก ์์ ์ ๋ขฐ๊ตฌ๊ฐ์ด ๋์ ์ ์๊ณ , ์ ๋ ์ฑ๊ณต๋ฅ 71%๋ ์ฌ์ ํ ์ค์ฌ์ฉ์ ๋ถ์กฑํ๋ค. ์ ์ฑ ๊ฐ์ ์คํ๋ ์ค์ ๋ก๋ด์ด ์๋๋ผ WM ์์ ๋ด ํ๊ฐ๋ก ๋ผ๋ฒจ๋งํ weighted regression์ด๋ผ, ์ค์ธ๊ณ sim-to-real ๊ฒฉ์ฐจ๋ ๋ณ๊ฐ ๋ฌธ์ ๋ก ๋จ๋๋ค. ๋ํ gradient ๊ทผ์ฌ(score-distillation)๊ฐ ๋์ ํ๋ bias์ ์ํฅ์ ์ ๋์ ์ผ๋ก ํ๊ณ ๋ค์ง ์์๋ค.
- ๋ฐํ์ ๋น์ฉ. ํ์ฌ WM์ ์์ 1ํ์ ์ ๋ถ์ด ๊ฑธ๋ฆฌ๊ณ , ์ฌ๊ธฐ์ 10โ20 ์คํ ์ noise ์ต์ ํ(๊ฐ ์คํ ์ด forward+backward)๋ฅผ ์น์ผ๋ฏ๋ก ์ค์๊ฐ ํ๋ฃจํ ํ๊ฐ์ ๋ฌด๊ฒ๋ค. ์ ์๋ ํจ์จ์ WM(consistency ๋ฑ)์ผ๋ก์ ๊ฐ์ ์ ํฅํ ๊ณผ์ ๋ก ๋ ๋ค.
- outer ์ต์ ํ๋ ์ฌ์ค์ ๋ฏธ์. ๋ ผ๋ฌธ์ ๋ฌด๊ฒ์ค์ฌ์ inner max(์กฐํฅ)์ด๊ณ , robust action์ ์ค์ ๋ก ๋ฝ๋ outer min์ ์ ์ฑ ๊ฐ์ ์คํ์ ๋จ์ํ ๊ฐ์ค ์ฌํ์ต์ผ๋ก๋ง ๋ค๋ค์ง๋ค โ ์ฐ์ action ๊ณต๊ฐ์์์ ๋ณธ๊ฒฉ์ robust ์ ์ฑ ์ต์ ํ๋ ์ด๋ ค ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ ๋งค๊น
- World model ๊ธฐ๋ฐ ์ ์ฑ ํ๊ฐยท๊ฐ์ . WorldGymยทGemini-in-VeoยทWorld-GymnastยทVLAW ๋ฑ โWM์ ์ ์ฑ ํ๊ฐ ํ๊ฒฝ/ํ๋ จ์ฅ์ผ๋กโ ์ฐ๋ ํ๋ฆ ์์ ์์ผ๋, ์ด๋ค์ด nominal imagination์ ์์กดํ๋ ๋ฐ ๋ฐํด StressDream์ worst-plausible๋ก์ ์กฐํฅ์ ๋ํ๋ค. ๋ธ๋ก๊ทธ์ SWM(Semantic World Models) ๋ฆฌ๋ทฐ๋ VLM์ผ๋ก WM ์์์ ์ฑ์ ํด ์ ์ฑ ์ ํ๊ฐํ๋ค๋ ์ ์์ semantic objective์ ๋ฌธ์ ์์์ ๊ณต์ ํ๋ค โ StressDream์ ์ฌ๊ธฐ์ โ๊ทธ ์ ์๋ฅผ gradient๋ก ์ผ์ noise๋ฅผ ์ต์ ํโํ๋ ๋ฅ๋์ ์กฐํฅ์ ์น์ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค.
- Video world model ์์ฒด. ๊ธฐ๋ฐ WM์ธ Vista(์ฃผํ)ยทCtrl-World(์กฐ์)๋ ๋ชจ๋ Stable Video Diffusion ๊ณ์ด์ด๋ฉฐ, ์ด๋ ๋ก๋ณดํฑ์ค WM ๊ณ๋ณด(NewtWM ๋ฆฌ๋ทฐ์ ์ฐ์์ ์ด์ฉ ๋ค์คํ์คํฌ WM, VTWM ๋ฆฌ๋ทฐ์ ์๊ฐ-์ด๊ฐ WM, RoboVerse ๋ฆฌ๋ทฐ์ ์๋ฎฌ๋ ์ด์ ํ๋ซํผ)์ ๋๋ํ ๋์ธ๋ค. StressDream์ ์ WM์ ํ์ตํ๊ธฐ๋ณด๋ค ๊ธฐ์กด WM์ inference-time์ ์กฐํฅํ๋ค๋ ์ ์์ ์ด๋ค๊ณผ ์๋ณด์ ์ด๋ค.
- Diffusion noise ์ต์ ํ / inference-time alignment. DNOยทRENOยทโnoise as diffusion guidanceโ ๋ฑ text-to-image์์ ์ด๊ธฐ noise๋ฅผ reward๋ก ์ต์ ํํ๋ ํ๋ฆ์, ๊ทน๋จ์ ๊ณ ์ฐจ์ video WM์ผ๋ก ํ์ฅํ๊ณ typical-set plausibility ์ ์ฝ์ ์ถ๊ฐํ ๊ฒ์ด ๊ธฐ์ฌ๋ค. classifier guidance(denoising ๊ถค์ ์ง์ ์์ )์ ๋๋นํด โ์ด๊ธฐ noise๋ง ์ต์ ํโ๊ฐ plausibility์์ ์ ๋ฆฌํจ์ ์คํ์ผ๋ก ๋ณด์๋ค.
- Robust/risk-aware ์ ์ฑ . minโmax robust RLยทtail-risk ์ ์ฑ ๊ณผ ์ฐ๊ฒฐ๋๋ฉฐ, StressDream์ ๊ทธ โํ๊ฒฝ ๋ถํ์ค์ฑโ์ ํ์ต๋ WM์ plausible ๋ฏธ๋ ๋ถํฌ๋ก ๊ตฌ์ฒดํํ ์ฌ๋ก๋ค.
์์ฝ
StressDream์ ํ ๋ฌธ์ฅ์ โvideo world model์ ์ด๊ธฐ noise๋ฅผ, VLM์ด ์ฑ์ ํ๋ ๋ชฉํ ์ฌ๊ฑด ๋ฐฉํฅ์ผ๋ก gradient ์ต์ ํํ๋ ๊ณ ์ฐจ์ Gaussian์ typical set ์์ ๋ถ๋ค์ด ๋ ์ผ๋ก์จ, ๋ง์ด ์ํ๋งํ์ง ์๊ณ ๋ ๊ทธ๋ด๋ฏํ๋ฉด์ ์น๋ช ์ ์ธ ๋ฏธ๋๋ฅผ ์์ํด ๋ธ๋คโ์ด๋ค. semantic ํญ(๋ฌด์์ ์ฐพ์์ง)๊ณผ plausibility ํญ(ํ์ค์ฑ ๊ฒฝ๊ณ)์ ๋ถ์ , ๊ทธ๋ฆฌ๊ณ score-distillation gradient ๊ทผ์ฌ๊ฐ ์ค์ฉ์ฑ์ ๋ง๋ ๋ค. ํต์ ๋ Dubins ์คํ์ผ๋ก โ์คํจ๊ฐ ๊ฐ๋ฅํ ๋๋ง ๊ฒ์ถโ์ ๋ณด์ด๊ณ , VistaยทCtrl-World์์ ์คํจ ๊ฒ์ถ recall 54โ94%, VLA ์ ์ฑ ๊ฐ์ 39โ71%๋ฅผ ๋ณด๊ณ ํ๋ค. ๋ค๋ง ๊ทธ ํ์ ์ด๋๊น์ง๋ base WM์ด ์ง์งํ๋ ๊ฒฐ๊ณผ์ ํ์ ๋๊ณ , VLM reward hackingยทWM ์ถฉ์ค๋ยท๋ฐํ์์ด๋ผ๋ ์ธ ๊ฐ์ง๊ฐ ํฅํ ์ค์ฌ์ฉ์ ๊ฐ๋ฅด๋ ๊ด๋ฌธ์ผ๋ก ๋จ๋๋ค. โ์ํ์ ๋๋ฆฌ๋ ๋์ latent๋ฅผ ์กฐํฅํ๋คโ๋ ๋ฐ์์ world-model ๊ธฐ๋ฐ ์์ ํ๊ฐ์์ ๊ณ์ ํ์ฅ๋ ๊ฒฐ์ด๋ค.