๐Cosmos predict/transfer 2.5 ๋ฆฌ๋ทฐ
- NVIDIA๋ Physical AI๋ฅผ ์ํ ์ฐจ์ธ๋ ์๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ธ [Cosmos-Predict2.5]์ [Cosmos-Transfer2.5]๋ฅผ ์๊ฐํ๋ฉฐ, ๋ก๋ด ๋ฐ ์์จ ์์คํ ์ ์ํ ๊ณ ํ์ง ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ๋ฐ ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- [Cosmos-Predict2.5]๋ ํ๋ก์ฐ ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ก Text2World, Image2World, Video2World ์์ฑ์ ํตํฉํ๊ณ , 2์ต ๊ฐ์ ๋น๋์ค ํด๋ฆฝ์ผ๋ก ํ์ต ๋ฐ ๊ฐํ ํ์ต ๊ธฐ๋ฐ ํ์ ํ๋ จ์ ๊ฑฐ์ณ ๋น๋์ค ํ์ง๊ณผ ๋ช ๋ น์ด ์ ๋ ฌ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- [Cosmos-Transfer2.5]๋ Sim2Real ๋ฐ Real2Real ๋ณํ์ ์ํ Control-Net ์คํ์ผ ํ๋ ์์ํฌ๋ก, ์ด์ ๋ชจ๋ธ๋ณด๋ค 3.5๋ฐฐ ์์ง๋ง ๋ ๋์ ์ถฉ์ค๋์ ์์ ์ ์ธ ์ฅ๊ธฐ ๋น๋์ค ์์ฑ์ ์ ๊ณตํ๋ฉฐ ๋ค์ํ Physical AI ์ ํ๋ฆฌ์ผ์ด์ ์ ํ์ฉ๋ฉ๋๋ค.

We introduce [Cosmos-Predict2.5], the latest generation of the Cosmos World Foundation Models for Physical AI. Built on a flow-based architecture, [Cosmos-Predict2.5] unifies Text2World, Image2World, and Video2World generation in a single model and leverages [Cosmos-Reason1], a Physical AI vision-language model, to provide richer text grounding and finer control of world simulation. Trained on 200M curated video clips and refined with reinforcement learningโbased post-training, [Cosmos-Predict2.5] achieves substantial improvements over [Cosmos-Predict1] in video quality and instruction alignment, with models released at 2B and 14B scales. These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems. We further extend the family with [Cosmos-Transfer2.5], a control-net style framework for Sim2Real and Real2Real world translation. Despite being 3.5ร smaller than [Cosmos-Transfer1], it delivers higher fidelity and robust long-horizon video generation. Together, these advances establish [Cosmos-Predict2.5] and Cosmos-Transfer2.5] as versatile tools for scaling embodied intelligence. To accelerate research and deployment in Physical AI, we release source code, pretrained checkpoints, and curated benchmarks under the NVIDIA Open Model License at cosmos-predict2.5 and cosmos-transfer2.5. We hope these open resources lower the barrier to adoption and foster innovation in building the next generation of embodied intelligence.
Brief Review
NVIDIA๋ Physical AI ์์คํ ์ ์ํ ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ ์ค์ ์ ๋ ๋น๋์ค Foundation ๋ชจ๋ธ์ธ [Cosmos-Predict2.5]๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ๋ชจ๋ธ์ Flow Matching ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ฅผ ํตํด Text2World, Image2World, Video2World ์์ฑ์ ๋จ์ผ ๋ชจ๋ธ๋ก ํตํฉํ๋ฉฐ, Physical AI ํนํ VLM์ธ [Cosmos-Reason1]์ ํ์ฉํ์ฌ ํ ์คํธ ์ ์ง(grounding) ๋ฐ ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ ์ด ๊ธฐ๋ฅ์ ๊ฐํํฉ๋๋ค. 2์ต ๊ฐ์ ๋น๋์ค ํด๋ฆฝ์ผ๋ก ์ฌ์ ํ์ต๋๊ณ RL ๊ธฐ๋ฐ ํ์ฒ๋ฆฌ ํ์ต(post-training)์ ๊ฑฐ์ณ, [Cosmos-Predict1] ๋๋น ๋น๋์ค ํ์ง ๋ฐ ๋ช ๋ น์ด ์ ๋ ฌ(instruction alignment)์์ ์๋นํ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ 2B ๋ฐ 14B ์ค์ผ์ผ๋ก ์ถ์๋์์ผ๋ฉฐ, ๋ก๋ณดํฑ์ค ๋ฐ ์์จ ์์คํ ์ ์ํ ์ ๋ขฐํ ์ ์๋ ํฉ์ฑ ๋ฐ์ดํฐ(synthetic data) ์์ฑ, ์ ์ฑ ํ๊ฐ, ํ์ ๋ฃจํ ์๋ฎฌ๋ ์ด์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ํ, Sim2Real ๋ฐ Real2Real ์ธ๊ณ ๋ณํ์ ์ํ ControlNet ์คํ์ผ ํ๋ ์์ํฌ์ธ [Cosmos-Transfer2.5]๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. [Cosmos-Transfer1]๋ณด๋ค 3.5๋ฐฐ ์์์๋ ๋ถ๊ตฌํ๊ณ ๋ ๋์ ํ์ง๊ณผ ๊ฒฌ๊ณ ํ ์ฅ๊ธฐ(long-horizon) ๋น๋์ค ์์ฑ์ ์ ๊ณตํฉ๋๋ค. ์ด ๋ชจ๋ ๋ฐ์ ์ [Cosmos-Predict2.5]์ [Cosmos-Transfer2.5]๋ฅผ Physical AI ํ์ฅ์ ์ํ ๋ค๋ชฉ์ ๋๊ตฌ๋ก ์๋ฆฌ๋งค๊นํ๊ฒ ํฉ๋๋ค. NVIDIA๋ Physical AI ์ฐ๊ตฌ ๋ฐ ๋ฐฐํฌ๋ฅผ ๊ฐ์ํํ๊ธฐ ์ํด ์์ค ์ฝ๋, ์ฌ์ ํ์ต๋ ์ฒดํฌํฌ์ธํธ, ๋ฒค์น๋งํฌ๋ฅผ NVIDIA Open Model License ํ์ ๊ณต๊ฐํ์ต๋๋ค.
2. ๋ฐ์ดํฐ
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋ ๊ฐ์ง ์ฃผ์ ์ธก๋ฉด์์ ๊ฐ์ ๋์์ต๋๋ค.
์ฒซ์งธ, ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ํํฐ๋ง ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ ์์๋ฅผ ์ ๊ทธ๋ ์ด๋ํ์ต๋๋ค.
๋์งธ, Physical AI ์ญ๋์ ๊ฐํํ๊ธฐ ์ํด ๊ณ ํ์ง Physical AI ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ด์ ํ์ต๋๋ค.
2.1. ๋น๋์ค ํ๋ ์ด์ ํ์ดํ๋ผ์ธ: 7๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: 1) Shot-aware video splitting, 2) GPU-based transcoding, 3) video cropping, 4) filtering, 5) captioning, 6) semantic deduplication, 7) sharding. 2์ต ๊ฐ ์ด์์ ์๋ณธ ๋น๋์ค๋ฅผ ์ฒ๋ฆฌํ์ฌ 2์ต ๊ฐ์ ๊ณ ํ์ง ํด๋ฆฝ์ ํ๋ ์ด์ ํ์ต๋๋ค. ํํฐ๋ง ๋จ๊ณ๋ ์์ง์ ์ํฐํฉํธ(motion artifacts), ์๊ณก(distortion), ์๊ฐ์ ๋ ธ์ด์ฆ(visual noise), ์ค๋ฒ๋ ์ด ํ ์คํธ(overlay text), ๋ถ์ ์ ํ ์ฝํ ์ธ ๋ฑ์ ์ ๊ฑฐํ๋ฉฐ, VLM์ ํ์ฉํ ์ต์ข ํํฐ๋ง์ ํตํด ์ ๋ฐ๋๋ฅผ ๋์์ต๋๋ค. ์บก์ ๋ ๋จ๊ณ์์๋ Qwen2.5-VL-7B VLM์ ์ฌ์ฉํ์ฌ ์ฌ์ค์ ์ด๊ณ ๋งฅ๋ฝ ์ธ์์ ์ธ ์บก์ ์ ์์ฑํ๋ฉฐ, Semantic Deduplication ๋ฐ Sharding์ ํตํด ๋ฐ์ดํฐ์ ์ ๊ตฌ์กฐํ๋ ์ฌ์ฉ์ ์ง์ํฉ๋๋ค. ์ด ํ์ดํ๋ผ์ธ์ [Cosmos-Predict1]์ ๋นํด ๋ ๋ง์ ๋ฐ์ดํฐ ๋ณผ๋ฅจ์ ์ฒ๋ฆฌํ๊ณ , ์๊ฒฉํ ํํฐ๋ง์ผ๋ก ๋ฐ์ดํฐ ํ์ง์ ๋ํญ ํฅ์์์ผฐ์ต๋๋ค.
2.2. ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ: ๋ก๋ณดํฑ์ค, ์์จ ์ฃผํ, ์ค๋งํธ ๊ณต๊ฐ, ์ธ๊ฐ ์ญํ(Human Dynamics), ๋ฌผ๋ฆฌ(Physics)์ 5๊ฐ์ง ํต์ฌ ๋๋ฉ์ธ์ ๊ฑธ์ณ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ด์ ํ์ต๋๋ค. ๊ฐ ๋๋ฉ์ธ์ ์ฌ์ ํ์ต๊ณผ ์ ์ฌํ ํ๋ ์ด์ ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ฅด์ง๋ง, ๋๋ฉ์ธ๋ณ ํํฐ๋ง ๊ท์น๊ณผ ๋ง์ถคํ ํ๋กฌํํธ๊ฐ ์ ์ฉ๋ ๋๊ท๋ชจ VLM์ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ณดํฑ์ค ๋ฐ์ดํฐ์ ์ ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์ ์ ํฌํจํ๋ฉฐ, ์์จ ์ฃผํ ๋ฐ์ดํฐ์ ์ NVIDIA์ ์์ฒด ์ฃผํ ํ๋ซํผ์์ ์์ง๋ 7๊ฐ ์นด๋ฉ๋ผ ์์ ์ ์ฝ 310๋ง ๊ฐ์ ํด๋ฆฝ์ผ๋ก ๊ตฌ์ฑ๋์ด ๋ค์ํ ์ด์ ์กฐ๊ฑด๊ณผ ํ๊ฒฝ ์์ฑ์ ๋ฐ์ํฉ๋๋ค.
3. ๋ฐฉ๋ฒ๋ก
3.1. Flow Matching: [Cosmos-Predict2.5]๋ Flow Matching (FM)์ ์ฑํํฉ๋๋ค. FM๊ณผ [Cosmos-Predict1]์ ์ฌ์ฉ๋ Elucidated Diffusion Model (EDM)์ ์ํ์ ์ผ๋ก ๋๋ฑํ์ง๋ง, ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋คํธ์ํฌ์ ๋งค๊ฐ๋ณ์ํ ๋ฐฉ์์ด ๋ค๋ฆ ๋๋ค. FM์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋คํธ์ํฌ๊ฐ Diffusion ๊ถค์ ์ ์๋(velocity)๋ฅผ ์์ธกํ๋๋ก ๊ณ์๋ฅผ ์ ํํ๋ฉฐ, ์ด๋ ๋ ์ง์ ์ ์ธ ํ์ต ๋ชฉํ๋ฅผ ์ ๊ณตํ๊ณ ์ค์ง์ ์ผ๋ก ๋ ๋ถ๋๋ฌ์ด ์ต์ ํ์ ํฅ์๋ ์ํ ํ์ง์ ๊ฐ์ ธ์ต๋๋ค. ๋ฐ์ดํฐ ์ํ x, ๋ ธ์ด์ฆ ๋ฒกํฐ \epsilon \sim \mathcal{N}(0, I), ๊ทธ๋ฆฌ๊ณ ๋ก์ง-์ ๊ท ๋ถํฌ์์ ์ถ์ถ๋ ํ์์คํ t \in [0, 1]์ด ์ฃผ์ด์ง ๋, ๋ณด๊ฐ๋ ์ ์ฌ ๋ณ์ x_t๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
x_t = (1 - t)x + t\epsilon ํด๋น Ground Truth ์๋๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: v_t = \epsilon - x ๋ชจ๋ธ์ ์์ธก๊ณผ Ground Truth ๊ฐ์ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(MSE)๋ฅผ ์ต์ํํ์ฌ v_t๋ฅผ ์์ธกํ๋๋ก ํ์ต๋ฉ๋๋ค: \mathcal{L}(\theta) = \mathbb{E}_{x, \epsilon, c, t} \|u(x_t, t, c; \theta) - v_t\|^2 ์ฌ๊ธฐ์ c๋ ์ปจ๋์ ๋ ์ ๋ณด(ํ ์คํธ ์๋ฒ ๋ฉ, ์ฐธ์กฐ ํ๋ ์ ๋ฑ)๋ฅผ ๋ํ๋ด๊ณ , \theta๋ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ด๋ฉฐ, u(\cdot; \theta)๋ ์์ธก๋ ์๋ ํจ์์ ๋๋ค. ๊ณ ํด์๋ ์ฝํ ์ธ ์ ๊ณผ๋ํ ์๊ด ๊ด๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, Shifted Logit-Normal Distribution (Esser et al., 2024)์ ์ฌ์ฉํ์ฌ ํ์ต ํ๋ก์ธ์ค๋ฅผ ๋ ๋์ ๋ ธ์ด์ฆ ๋ ๋ฒจ๋ก ์๋์ ์ผ๋ก ํธํฅ์ํต๋๋ค. ์ด๋ \beta๋ผ๋ Shift Hyperparameter๋ฅผ ํตํด t ๊ฐ์ ๋ ๋์ ๋ ธ์ด์ฆ ์ชฝ์ผ๋ก ์น์ฐ์น๊ฒ ํฉ๋๋ค: t_s = \frac{\beta t}{1 + (\beta - 1)t}
3.2. ๋คํธ์ํฌ ์ํคํ ์ฒ: [Cosmos-Predict2.5]๋ [Cosmos-Predict1]์ DiT ๊ธฐ๋ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฌ์ฉํ์ง๋ง, ์ ๋ ์์น ์๋ฒ ๋ฉ(absolute positional embeddings)์ ์ ๊ฑฐํ๊ณ ์๋ ์์น ์๋ฒ ๋ฉ(relative positional embeddings)๋ง ์ ์งํ์ฌ ๋ค์ํ ํด์๋ ๋ฐ ์ํ์ค ๊ธธ์ด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์์ผฐ์ต๋๋ค. ์๊ฐ์ ํ ํฌ๋์ด์ (visual tokenizer)๋ก๋ ๋น๋์ค ์ํ์ค๋ฅผ 4x8x8 ์์ถํ๋ Causal VAE์ธ WAN2.1 VAE๋ฅผ ์ฌ์ฉํ๋ฉฐ, 93ํ๋ ์(24 ์ ์ฌ ํ๋ ์)์ ์์ฑํฉ๋๋ค. ํ ์คํธ ์ธ์ฝ๋๋ก๋ [Cosmos-Predict1]์ T5 ๋์ [Cosmos-Reason1]์ ํ์ฉํ๋ฉฐ, ์ฌ๋ฌ ๋ธ๋ก์ ํ์ฑํ(activations)๋ฅผ ์ฐ๊ฒฐํ์ฌ ํ ์คํธ ์๋ฒ ๋ฉ์ ์์ฑํจ์ผ๋ก์จ ์ง์ญ ๋ฐ ์ ์ญ ์ธ์ด์ ๋งฅ๋ฝ์ ๋์ฑ ์ถฉ์คํ ํฌ์ฐฉํฉ๋๋ค. ๋ชจ๋ธ์ Text2World, Image2World, Video2World ์ธ ๊ฐ์ง ๋ชจ๋๋ก ์๋ํ๋ฉฐ, Image2World ๋ฐ Video2World์์๋ ํ๋ ์ ๊ต์ฒด ์ ๋ต์ ์ฌ์ฉํ์ฌ ์ด๊ธฐ ํ๋ ์์ ์กฐ๊ฑด๋ถ ํ๋ ์์ผ๋ก ๋์ฒดํ์ฌ ์๊ฐ์ ์ผ๊ด์ฑ์ ๊ฐํํฉ๋๋ค.
4. ํ์ต
4.1. ์ฌ์ ํ์ต(Pre-training): ์ ์ง์ ์ธ ํ์ต ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. 256p ํด์๋์ Text2Image ์์ ์ผ๋ก ์์ํ์ฌ, Image2World ๋ฐ Video2World ์์ ์ ๋์ ํฉ๋๋ค. ์ด๋ 1 ๋๋ 5๊ฐ์ ์กฐ๊ฑด๋ถ ํ๋ ์์ ์ํ๋งํ๊ณ ๋๋จธ์ง 92 ๋๋ 88๊ฐ ํ๋ ์์ ์์ฑํ๋๋ก ํฉ๋๋ค. ๋ง์คํน ์คํด(masking scheme)์ ์ฌ์ฉํ์ฌ ์กฐ๊ฑด๋ถ ์ ๋ ฅ๊ณผ ๋ ธ์ด์ฆ ์ ๋ ฅ ํ๋ ์์ ๊ตฌ๋ถํฉ๋๋ค. ์ดํ ํด์๋๋ฅผ 256p์์ 480p, 720p๋ก ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํค๊ณ , ๋ง์ง๋ง์ผ๋ก ์กฐ๊ฑด๋ถ ํ๋ ์์ด ์๋ Text2World ์์ ์ ์ถ๊ฐํฉ๋๋ค. ํ์ต ํ์์คํ ์ Logit-Normal Distribution์์ ์ํ๋ง๋๋ฉฐ, ํ์ต ํด์๋๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ \beta ๊ฐ์ 1์์ 5๋ก ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ Shifted Logit-Normal Distribution์ ์ ์ฉํฉ๋๋ค. ๋ํ, ๊ณ ๋ ธ์ด์ฆ ์์ญ์์์ ํ์ต ์ํ ๋ถ์กฑ์ผ๋ก ์ธํ ์ ํ ์ํฐํฉํธ๋ฅผ ์ค์ด๊ธฐ ์ํด, ํ์ต ์ํ์ 5%๋ฅผ ๋ ธ์ด์ฆ ๋ถํฌ์ ์์ 2%์์ ๋ช ์์ ์ผ๋ก ์ถ์ถํ๋ ํ๊ฒ ์ํ๋ง ์ ๋ต์ ๋์ ํ์ต๋๋ค. AdamW ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ ํ ํ์ต๋ฅ ์ค์ผ์ค๋ฌ์ ์์ (warmup) ๋จ๊ณ๋ฅผ ์ ์ฉํฉ๋๋ค.
4.2. ํ์ฒ๋ฆฌ ํ์ต(Post-training):
- Supervised Fine-tuning (SFT): ๊ฐ์ฒด ์ง์์ฑ(object permanence), ๊ณ ์ ์์ง์(high motion), ๋ณตํฉ ์ฅ๋ฉด(complex scenes), ์ด์ , ๋ก๋ด ์กฐ์ ๋ฑ 5๊ฐ ๋๋ฉ์ธ์ผ๋ก ๋ถ๋ฅ๋ ๊ณ ํ์ง Physical AI ๋ฐ์ดํฐ์ ์ ๋ํด SFT๋ฅผ ์ํํฉ๋๋ค. ๊ฐ ๋๋ฉ์ธ๋ณ๋ก ๋ณ๋์ ๋ชจ๋ธ์ ํ์ต์์ผ ์ ๋ฌธ ๋๋ฉ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , Cooldown ๋จ๊ณ๋ฅผ ํตํด 4K ๋น๋์ค๋ก ๋ฏธ์ธํ ์๊ฐ์ ๋ํ ์ผ๊ณผ ๋ถ๋๋ฌ์ด ์์ง์์ ๊ฐํํฉ๋๋ค. ์ฌ๋ฌ SFT ๋ชจ๋ธ์ ์ฅ์ ์ ํตํฉํ๊ธฐ ์ํด Model Merging (Yang et al., 2024)์ ์ ์ฉํ๋ฉฐ, Model Soup (Wortsman et al., 2022) ๋ฐฉ์์ด ํจ๊ณผ์ ์์ ํ์ธํ์ต๋๋ค.
- Reinforcement Learning (RL): VLM ๊ธฐ๋ฐ ๋ณด์ ๋ชจ๋ธ์ธ VideoAlign (Liu et al., 2025)์ ์ฌ์ฉํ์ฌ ํ ์คํธ ์ ๋ ฌ, ์์ง์ ํ์ง, ์๊ฐ์ ํ์ง์ ํ๊ฐํ๊ณ [Cosmos-Predict2.5-2B] (์ฌ์ ํ์ต ๋ฐ ๋ณํฉ ๋ชจ๋ธ ๋ชจ๋)๋ฅผ ํ์ฒ๋ฆฌ ํ์ตํฉ๋๋ค. VideoAlign์ GRPO (Guo et al., 2025)๋ฅผ ๋ฐ๋ผ ๋กค์์ ๊ทธ๋ฃน ๋ด์์ ๋ณด์์ ์ ๊ทํํ์ฌ ๊ฐ ์ถ๋ ฅ์ ์ฅ์ (advantage)์ ๊ณ์ฐํฉ๋๋ค. RL์ ๋ณด์ ์ ์์ ์ธ๊ฐ ํ๊ฐ ๋ชจ๋์์ ๋ชจ๋ธ ํ์ง์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํค๋ ๊ฒ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค.
4.3. ์ธํ๋ผ: FSDP2๋ฅผ ๊ธฐ๋ณธ ๋ถ์ฐ ํ์ต ํ๋ ์์ํฌ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ๊ฐ์ค์น, ๊ทธ๋๋์ธํธ, ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ํจ์จ์ ์ผ๋ก ์ค๋ฉํฉ๋๋ค. ๊ณ ํด์๋ ๋๋ ์ฅ์๊ฐ ๋น๋์ค ํ์ต ์ ๋๊ท๋ชจ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด Ulysses ์คํ์ผ์ ์ ์ฐํ ์ปจํ ์คํธ ๋ณ๋ ฌ ์ฒ๋ฆฌ(Context Parallelism)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ๊ท ํ์ ์ํด torch Selective Activation Checkpointing (SAC)์ ์ ์ฉํฉ๋๋ค. RL ํ์ฒ๋ฆฌ ํ์ต์์ ๋๋์ ์ ๋ ฅ๊ณผ ๋ค์ํ ๋ณด์ ๋ชจ๋ธ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ํจ์จ์ ์ด๊ณ ์ ์ฐํ Elastic Reward Service๋ฅผ ์ฌ์ฉํฉ๋๋ค.
5. ๊ฒฐ๊ณผ
๋ฒค์น๋งํน: [Cosmos-Predict2.5-2B] ๋ชจ๋ธ์ ์ฑ๋ฅ์ Physical AI ์์ฑ ๋ฐ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๋ PAI-Bench (Zhou et al., 2025)์์ ๋ณด๊ณ ํ์ต๋๋ค. PAI-Bench์ ์์ธก(predict) ์์ ์์ ๋๋ฉ์ธ ์ ์(Domain Score)์ ํ์ง ์ ์(Quality Score)๋ฅผ ์ธก์ ํ๋ฉฐ, [Cosmos-Predict2.5-2B] ํ์ฒ๋ฆฌ ํ์ต ๋ชจ๋ธ์ T2W์์ ๋ ํฐ Wan2.2-5B ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์๊ณ , I2W์์๋ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค.
์ธ๊ฐ ํ๊ฐ: ์๋ํ๋ ์งํ ์ธ์, ํ์ค์ฑ, ์๊ฐ์ ํ์ง, ์๊ฐ์ ์ผ๊ด์ฑ, ์กฐ๊ฑด๋ถ ์ ๋ ฅ๊ณผ์ ์ ๋ ฌ ๋ฑ ์ธ๊ฐ ์ ํธ๋๋ฅผ ๋ฐ์ํ๋ ๋น๋์ค ํ์ง ์ธก๋ฉด์ ํ๊ฐํ๊ธฐ ์ํ ์ธ๊ฐ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค. [Cosmos-Predict2.5-2B]๋ Wan 2.2 5B ๋ฐ Wan 2.1 14B์ ๋นํด ๊ฐ๊ฐ 60% ๋ฐ 85.7% ์์ ํฌ๊ธฐ์๋ ๋ถ๊ตฌํ๊ณ , PAI-Bench I2W ๋ฐ T2W ์ค์ ์์ ์ ์ฌํ ์ธ๊ฐ ์ ํธ๋๋ฅผ ๋ณด์์ต๋๋ค.
์ ์ฑ์ ์์: [Cosmos-Predict2.5-2B] ํ์ฒ๋ฆฌ ํ์ต ๋ชจ๋ธ์ ์ด์ ์ ์ ํํ ํ๋์ ์๋ฎฌ๋ ์ด์ ํ๊ณ , ์ฌ์ค์ ์ธ ์ฐ์ ๋ฐ ๋ก๋ด ์ฅ๋ฉด์ ์์ฑํ๋ฉฐ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์์ง์์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
6. ์ ํ๋ฆฌ์ผ์ด์
6.1. Cosmos-Transfer2.5: [Cosmos-Predict2.5-2B] ์์ ๊ตฌ์ถ๋ ์กฐ๊ฑด๋ถ ์ธ๊ณ ์์ฑ ๋ชจ๋ธ๋ก, ์ฌ๋ฌ ๊ณต๊ฐ ์ ์ด ์ ๋ ฅ(์์ง, ๋ธ๋ฌ ์ฒ๋ฆฌ๋ ๋น๋์ค, ์ธ๊ทธ๋จผํ ์ด์ ๋งต, ๊น์ด ๋งต ๋ฑ)์ ๋ฐ๋ผ ๊ณ ํ์ง ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ ์์ฑํฉ๋๋ค. [Cosmos-Transfer1-7B]์ ๋ฌ๋ฆฌ, 4๊ฐ์ ์ ์ด ๋ธ๋ก์ ๋ฉ์ธ ๋ธ๋์น ์ ์ฒด์ ๊ฑธ์ณ ๊ท ๋ฑํ๊ฒ ๋ถ๋ฐฐํ์ฌ ์กฐ๊ฑด ์ ๋ณด๋ฅผ ๋คํธ์ํฌ์ ๋ ์ ์ง์ ์ผ๋ก ํตํฉํฉ๋๋ค. [Cosmos-Transfer2.5-2B]๋ 3.5๋ฐฐ ์์์๋ ๋ถ๊ตฌํ๊ณ [Cosmos-Transfer1-7B]๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ ๊ฐ๋ ฅํ ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ Physical AI์ ์ค์ ์ ๋ ํ๋ ์ด์ ๋ ํ์ต ๋ฐ์ดํฐ ๋๋ถ์ ๋๋ค. ์ฅ๊ธฐ ๋น๋์ค ์์ฑ: ์ฅ๊ธฐ ๋น๋์ค ์์ฑ์์ ์ค๋ฅ ๋์ ์ ํ๊ฐํ๊ธฐ ์ํ Averaged Relative Normalized Dover Score (RNDS)๋ผ๋ ์๋ก์ด ๋ฉํธ๋ฆญ์ ๋์ ํ์ต๋๋ค. RNDS[i]๋ DOVER[i] / DOVER_GT[i]๋ฅผ DOVER[1] / DOVER_GT[1]๋ก ์ ๊ทํํ ๊ฐ์ ๋๋ค. [Cosmos-Transfer2.5-2B]๋ [Cosmos-Transfer1-7B]์ ๋นํด RNDS ๊ฐ์๊ฐ ํจ์ฌ ์ ์ด ์ฅ๊ธฐ ๋น๋์ค ์ํ์ค์์ ์ค๋ฅ ๋์ ๊ณผ ํ๊ฐ(hallucination)์ด ์ ๊ณ ์ถฉ์ค๋(fidelity)๊ฐ ๋ ๋์์ ๋ํ๋ ๋๋ค.
6.2. ๋ก๋ด ์ ์ฑ ํ์ต์ ์ํ Cosmos-Transfer2.5: [Cosmos-Transfer2.5-2B]๋ ๋ก๋ด ์ ์ฑ ํ์ต์ ์ํ ์๊ฐ์ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ๊ธฐ๋ก ํ์ฉ๋์ด, ๋ก๋ด ์ ์ฑ ์ ํ๋ จ์ ๊ฐํํ๊ณ ์ด์ ์ ๋ณด์ง ๋ชปํ ์๊ฐ์ ์๋๋ฆฌ์ค๋ก ์ผ๋ฐํํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. Ego-centric ์นด๋ฉ๋ผ๋ฅผ ์ฅ์ฐฉํ ์ํ ๋ก๋ด์ ์ฌ์ฉํ์ฌ ํ ์ด๋ธ ์๋จ ์กฐ์ ์์ ์ ์ํ ์ธ๊ฐ ์๊ฒฉ ์กฐ์ ์์ฐ์ ์์งํ๊ณ , ์ด๋ฅผ ํตํด ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ต์ํต๋๋ค. [Cosmos-Transfer2.5-2B]๋ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ํตํด ์ํ๋ ์๊ฐ์ ์กฐ๊ฑด์ ์ง์ ํจ์ผ๋ก์จ ๋ค์ํ ๊ตฌ์กฐํ๋ ์๊ฐ์ ๋ณํ์ ์์ฑํ๊ณ , ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ํ ์คํธํ ์ ์๊ฒ ํฉ๋๋ค. ์ค์ ๋ก๋ด ์คํ์์, [Cosmos-Transfer2.5-2B]๋ก ์ฆ๊ฐ๋ ์ ์ฑ ์ 30๋ฒ์ ์๋ ์ค 24๋ฒ ์ฑ๊ณตํ์ฌ, ์๋ก์ด ํ ์คํธ ์๊ฐ ๊ฐ์ฒด ๋ฐ ํ๊ฒฝ ๋ณํ์ ๋ํด ํ์ ํ ๋์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
6.3. ์ด์ ์๋ฎฌ๋ ์ด์ ์ ์ํ Cosmos-Transfer2.5: [Cosmos-Predict2.5-2B]๋ฅผ ๋จ์ผ ๋ทฐ์์ ๋ฉํฐ ๋ทฐ ์ธ๊ณ ์์ฑ์ผ๋ก ํ์ฅํ์ฌ [Cosmos-Predict2.5-2B/auto/multiview]๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ๋ํ, ControlNet ์คํ์ผ๋ก ํ์ฅํ์ฌ [Cosmos-Transfer2.5-2B/auto/multiview]๋ฅผ ํตํด World Scenario Map์ ๋ฐ๋ผ ์ผ๊ด๋ ๋ฉํฐ ๋ทฐ ์ฅ๋ฉด์ ์์ฑํฉ๋๋ค. 720p ๋ฉํฐ ๋ทฐ ์์ฑ์ ์ํด ์ ์ฌ์ ์๊ฐ ์ฐจ์(latent temporal dimension)์ ์ฌ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๋ทฐ๋ฅผ ์ฐ๊ฒฐํ๊ณ , DiT ๋คํธ์ํฌ์ ํต๊ณผ์ํค๊ธฐ ์ ์ ์ปดํฉํธํ ๋ทฐ๋ณ ํ์ต ์๋ฒ ๋ฉ์ ์ ์ฌ ์ฑ๋ ์ฐจ์์ ์ฐ๊ฒฐํฉ๋๋ค. 3D-factorized RoPE์ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ์ ๊ต์ฐจ ์ดํ ์ (cross-attention)์ ์ ์ฉํฉ๋๋ค. ํ์ต ๋ฐ์ดํฐ์ : [Cosmos-Predict2.5-2B/auto/multiview]๋ 150๋ง ํด๋ฆฝ์ ๋ฉํฐ ๋ทฐ ์บก์ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์๊ณ , [Cosmos-Transfer2.5-2B/auto/multiview]๋ HD ๋งต ๋ฐ ๋์ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ํฌํจํ๋ โWorld Scenario Mapโ์ ์ ์ด ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด ๋งต์ ์ฐจ์ , ๋๋ก ํ์, ์ ํธ๋ฑ ๋ฑ์ ๋งต ์์์ ๋์ 3D ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ํฌํจํ๋ฉฐ, RDS-HQ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ฉ๋๋ค. ์คํ ๋ฐ ๊ฒฐ๊ณผ: FVD/FID ์ ์์์ ์ต๋ 2.3๋ฐฐ์ ์๋นํ ํฅ์์ ๋ณด์๊ณ , ์๊ฐ์ ๋ฐ ๊ต์ฐจ ์นด๋ฉ๋ผ ์์จ ์ค๋ฅ(cross-camera Sampson error)์์๋ ๊ฒฝ์๋ ฅ ์๋ ์์ค์ ์ ์งํ์ต๋๋ค. ์ ์ด ์ ํธ์ ๋ํ ์ถฉ์ค๋๋ฅผ ํ ์คํธํ๊ธฐ ์ํด ์์ฑ๋ ๋น๋์ค์์ 3D Cuboid ๋ฐ ์ฐจ์ ๊ฐ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ์ผ๋ฉฐ, Transfer1-7B-Sample-AV์ ๋นํด ์ต๋ 60%์ ๊ฐ์ง ์งํ ํฅ์์ ๊ด์ฐฐํ์ต๋๋ค.
6.4. ์นด๋ฉ๋ผ ์ ์ด๋ฅผ ํตํ ๋ฉํฐ ๋ทฐ ์์ฑ: [Cosmos-Predict2.5-2B/robot/multiview]๋ ์ฐธ์กฐ ๋ทฐ์ ๋น๋์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์นด๋ฉ๋ผ ๊ถค์ ์ ๋ฐ๋ผ ์ฌ๋ฌ ๋ชฉํ ์์ ์์ ์ถ๊ฐ ๋น๋์ค๋ฅผ ํฉ์ฑํ๋ ์นด๋ฉ๋ผ ์ ์ด ๊ฐ๋ฅํ ๋ฉํฐ ๋ทฐ ์ธ๊ณ ์์ฑ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ ๋ก๋ด ์กฐ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ๊ฐ์ด ๋ก๋ด์ด ์ง์ ์์ผ ๋ฐ์ ๊ฐ์ฒด๋ฅผ ์ถ๋ก ํด์ผ ํ๋ ๋ก๋ด ๊ณตํ์์ ํนํ ์ ์ฉํฉ๋๋ค. Plรผcker Raymaps (Sitzmann et al., 2021)๋ฅผ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ๋ฅผ ๋ํ๋ด๊ณ , ์ด๋ฅผ ๋น๋์ค ์ ์ฌ ๊ณต๊ฐ์ ํตํฉํฉ๋๋ค. Agibot, MultiCamVideo, SynCamVideo ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋๋ฉฐ, ๋จธ๋ฆฌ ๋ทฐ(head-view) ๋ก๋ด ์กฐ์ ๋น๋์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ข์ฐ ๊ทธ๋ฆฌํผ ์์ ์์ ๋๊ธฐํ๋ ๋น๋์ค๋ฅผ ํฉ์ฑํ๊ฑฐ๋(multiview-agibot), ์ 3์ ๋ทฐ ๋น๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ธฐ๋ณธ ์นด๋ฉ๋ผ ๋ณํ ํ์ ๋๊ธฐํ๋ ๋น๋์ค 2๊ฐ๋ฅผ ์์ฑํฉ๋๋ค. [Cosmos-Predict2.5-2B/robot/multiview]๋ ๋จ์ผ ๋ทฐ ๋์ ๋ชจ๋ธ๋ณด๋ค ํ์ ํ ์ฐ์ํ ๊ต์ฐจ ๋ทฐ ์ผ๊ด์ฑ(cross-view consistency)์ ๋ฌ์ฑํ๋ฉด์๋ ์ ์ฌํ ์นด๋ฉ๋ผ ๊ถค์ ์ ํ๋๋ฅผ ์ ์งํฉ๋๋ค.
6.5. VLA ํ์ต์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ: [Cosmos-Predict2.5]๋ ๋ก๋ด ์กฐ์์ ์ํ ํ๋๋(planner) ๋ฐ ์๋ฎฌ๋ ์ดํฐ๋ก์ ์ ์ฌ๋ ฅ์ด ํฝ๋๋ค. ์์ฐ์ด ๋ช ๋ น์ด๋ฅผ ๋ฐ๋ฅด๋ ๋ก๋ด์ ์ค์ ์์ฐ ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ฒ๋ฆฌ ํ์ต๋ [Cosmos-Predict2.5]๋ ๋ณด์ง ๋ชปํ ๋ช ๋ น์ด๋ฅผ ์คํํ๋ ๋ก๋ด์ ์ฌ์ค์ ์ธ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์ด ๋น๋์ค์์ ์ ์ฌ ์ก์ ๋ชจ๋ธ(latent action model) ๋๋ ์ญ๋์ญํ ๋ชจ๋ธ(inverse-dynamics model, IDM)์ ์ฌ์ฉํ์ฌ ์์ฌ ์ก์ ์ํ์ค(pseudo-action sequences)๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด VLA (Vision-Language-Action) ํ์ต์ ์ํ ๋น์ (์์ฑ๋ ๋น๋์ค), ์ธ์ด(๋ช ๋ น์ด), ์ก์ (์์ฑ๋ ์์ฌ ์ก์ ) ์ฃผ์์ด ๋ฌ๋ฆฐ ์ํ์ ์์ฑํ ์ ์์ต๋๋ค. [Cosmos-Predict2.5-14B/robot/gr00tdream-gr1]์ DreamGen ๋ฒค์น๋งํฌ (Jang et al., 2025)์์ GR1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฐ์ฅ ๋์ ๋ช ๋ น์ด ์ถ์ข ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
6.6. ์ก์ ์กฐ๊ฑด๋ถ ์ธ๊ณ ์์ฑ: [Cosmos-Predict2.5]๋ฅผ ์์ ๋น๋์ค ์์ฑ์์ ์ก์ ์กฐ๊ฑด๋ถ ๋น๋์ค ์์ฑ์ผ๋ก ํ์ฅํ์ฌ [Cosmos-Predict2.5-2B/robot/action-cond]๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋จ์ผ ์กฐ๊ฑด๋ถ ์ด๋ฏธ์ง์ ๋ก๋ด ์ก์ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ ๊ณต๋ ์ก์ ์ํ์ค๋ฅผ ๋ฐ๋ฅด๋ ๋ฏธ๋ ํ๋ ์์ ๋ฉ์ด๋ฆฌ(chunk)๋ฅผ ์์ฑํฉ๋๋ค. ์ ์ฒด ๊ถค์ ์ ์์ฑํ๊ธฐ ์ํด, ๊ฐ ๋ฉ์ด๋ฆฌ๋ ๋ง์ง๋ง์ผ๋ก ์์ฑ๋ ํ๋ ์์ ๋ฐ๋ผ ์์ธก๋๋ ์๋ํ๊ท(autoregressive) ๋ฐฉ์์ผ๋ก ์ํ๋ฉ๋๋ค.
Detail Review
์ฝ์ค๋ชจ์ค ๋น๋์ค ๊ธฐ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ์ ์ธ๊ณ ์๋ฎฌ๋ ์ด์ : ์ฌ์ธต ๋ฆฌ๋ทฐ
๋ฌผ๋ฆฌ์ AI(Physical AI) ์ฐ๊ตฌ์์ ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ ๋งค์ฐ ์ค์ํ ์์๋ก, ์ค์ ๋ก๋ด์ด๋ ์ฐจ๋์ด ๊ฒฝํํ ์ ์๋ ๋ค์ํ ํ๊ฒฝ๊ณผ ์ํฉ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ ๊ณตํด์ฃผ๋ ์ญํ ์ ํฉ๋๋ค. ์ด๋ฅผ ์ํด NVIDIA๋ Cosmos๋ผ๋ ์ธ๊ณ ๊ธฐ์ด ๋ชจ๋ธ (World Foundation Models) ํ๋ซํผ์ ๊ฐ๋ฐํด์์ต๋๋ค. Cosmos๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ชจ๋ธ๊ตฐ(Cosmos-Predict, Cosmos-Transfer, Cosmos-Reason)์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, Cosmos-Predict๋ ํ ์คํธยท์ด๋ฏธ์งยท๋์์ ์ ๋ ฅ์ผ๋ก ๋ฏธ๋ ์๋ฎฌ๋ ์ด์ ๋น๋์ค๋ฅผ ์์ฑํ๊ณ , Cosmos-Transfer๋ ์๋ฎฌ๋ ์ด์ ์ฅ๋ฉด์ ํ์ค๊ฐ ์๋ ์ด๋ฏธ์ง/๋น๋์ค๋ก ๋ณํํ๋ฉฐ, Cosmos-Reason๋ ๋ฌผ๋ฆฌ์ ์ถ๋ก ์ ๋๋ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ฒ ์ฌ์ธต ๋ฆฌ๋ทฐ์์๋ 2025๋ CoRL ํํ์ ์๊ฐ๋ ๋ ผ๋ฌธใWorld Simulation with Video Foundation Models for Physical AIใ๋ฅผ ์ค์ฌ์ผ๋ก, ํนํ ๋์์ ์์ฑ์ ์ด์ ์ ๋ง์ถ Cosmos-Predict์ Cosmos-Transfer์ ์ต์ ๋ฒ์ (๋ฒ์ 2.5) ๊ธฐ์ฌ์ ์ฑ๋ฅ์ ๋ถ์ํฉ๋๋ค.
๊ฐ์
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ธ๊ณต์ง๋ฅ(Physical AI)์์ ์ธ๊ณ(World) ์๋ฎฌ๋ ์ด์ ์ ๋๊ท๋ชจ ํ์ต์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํจ์ผ๋ก์จ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ค. NVIDIA๋ CoRL 2025์์ ํ ์คํธยท์ด๋ฏธ์งยท๋น๋์ค ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ต๋ 30์ด ๊ธธ์ด์ ๊ณ ํ์ง ์๋ฎฌ๋ ์ด์ ๋น๋์ค๋ฅผ ์์ฑํ๋ Cosmos-Predict2.5์, ๊ณต๊ฐ์ ๋ณด(์: ๊น์ด, ์ธ๊ทธ๋ฉํ ์ด์ , ์์ง ๋งต)๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ค์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ Cosmos-Transfer2.5๋ฅผ ๋ฐํํ๋ค. Cosmos ์๋ฆฌ์ฆ๋ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ๋ฌผ์ฒด ์์ง์๊ณผ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํ์ฌ ๋ก๋ด ๋ฐ ์์จ์ฃผํ ๊ฐ์ ๋ถ์ผ์ ํ์ต์ ๊ฐ์ํํ ์ ์๋๋ก ์ค๊ณ๋์๋ค. ์ด๋ฌํ ์์ ๊ธฐ์ด ๋ชจ๋ธ(Video Foundation Models, VFM)์ ์ธ๊ณ์ ๊ณผ๊ฑฐ ํ๋ ์๊ณผ ์กฐ์ ๋ช ๋ น(perturbation)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ฏธ๋ ์ํ๋ฅผ ์์ธกํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ค. ํนํ Cosmos WFMs๋ ์ ํํ์ต(pre-training)๊ณผ ์ ์ํ์ต(post-training)์ ํตํด ๊ฐ๋ ฅํ ์ธ๊ณ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ฉฐ, ๋๊ท๋ชจ ์ผ๋ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฌผ๋ฆฌ ๋ฒ์น์ ํ์ตํ๊ณ (pre-training), ์์์ ํนํ๋ ๋ฐ์ดํฐ๋ก ์ธ๋ถ ์์ ์ ํ์ตํ๋ ๊ตฌ์กฐ์ด๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ ๋ถ์
Cosmos-Predict2.5๋ ์ธ ๊ฐ์ ๊ธฐ์กด WFM์ ํตํฉํ์ฌ ๋ณต์ก๋๋ฅผ ์ค์ด๊ณ , ๊ธฐ์กด๋ณด๋ค ๊ธธ๊ณ ๋ค์ฑ๋ก์ด ๋น๋์ค ์๋ฎฌ๋ ์ด์ ์ ์์ฑํ๋ค. ํนํ ๋น๋์ค ์์ฑ ๋ฐฉ์์ Flow-Matching ๊ธฐ๋ฒ์ ๋์ ํ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค. ์ ํต์ ์ธ ํ์ฐ(Diffusion) ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ํ๋ฆ-๋งค์นญ์ ์ฐ์์ ์ธ ๋ณํ ํจ์๋ฅผ ํ์ตํ์ฌ ์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉฐ ๋น ๋ฅธ ์ํ๋ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด ๋ชจ๋ธ์ ์์ ํ์์ ํ ์คํธ, ๋จ์ผ/๋ค์ค ์ด๋ฏธ์ง, ์ฐ์ ๋น๋์ค ํ๋ ์ ๋ฑ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์๊ตฌ๋๋ ๋ฏธ๋ ์ธ๊ณ๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด, ํ ์คํธ ํ๋กฌํํธ๋ก ํ์ค์ ์ฅ๋ฉด์ ๋ง๋ค๊ฑฐ๋, ๋น๋์ค ์ ๋ ฅ๊ณผ ๊ฒฐํฉํ ์ง์๋ฌธ์ผ๋ก ๋ก๋ด ์กฐ์ ๊ณผ์ ์ ์์ธกํ ์ ์๋ค.
Cosmos-Predict2.5๋ ๋น๋์ค ํ ํฌ๋์ด์ (VAE)๋ก ์๋ ค์ง WAN2.1 VAE(Visual AutoEncoder)๋ฅผ ์ด์ฉํด ์์ ์ ๋ณด๋ฅผ ์์ถํ์ฌ ์ฐ์(latent) ๋๋ ์ด์ฐ(discrete) ํ ํฐ์ผ๋ก ๋ณํํ๋ค. ๋๊ท๋ชจ ์์ ์์ฑ ๋ชจ๋ธ๋ค์ ๋ฐฉ๋ํ ์ฐ์ฐ์ ์ค์ด๊ธฐ ์ํด ์ ์ฐจ์ ํ ํฐ ํํ์ ์ฌ์ฉํด์ผ ํ๋๋ฐ, ์ด๋ฅผ ์ํด ์ฃผ์(attention) ๊ธฐ๋ฐ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด ์๋ณธ ํ๋ ์์ ์์ถํ๋ค. WAN2.1 VAE๋ ์ด๋ฌํ ์์ ์ฝ๋ฑ ์ญํ ์ ์ํํ์ฌ ๋น๋์ค์ ์ค์ํ ๋ฌผ๋ฆฌ์ ์ ๋ณด๋ฅผ ์ต๋ํ ๋ณด์กดํ๋ฉด์ ์ฐ์ฐ๋์ ์ค์ธ๋ค.
๋ํ Cosmos-Predict2.5๋ Cosmos-Reason1๊ณผ์ ํ์ ์ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๋ค. Cosmos-Reason1์ ๋ฌผ๋ฆฌ ์์์ ๋ด์ฅํ ์๊ฐ ์ธ์ด ๋ชจ๋ธ(VLM)์ผ๋ก, ์์ ๋ด ๊ฐ์ฒด์ ๊ณต๊ฐยท์๊ฐ์ ๊ด๊ณ์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ดํดํ๋๋ก ์ค๊ณ๋์๋ค. ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ธ๊ณ๋ชจ๋ธ์ด ์์ฑํ ์ ์ฌ ์ธ๊ณ์ ๋ํ์ฌ โ๋ค์ ๋์์ ๋ฌด์์ธ๊ฐ?โ์ ๊ฐ์ ์ง๋ฌธ์ ์ฐ์์ถ๋ก (chain-of-thought) ๋ฐฉ์์ผ๋ก ๋ตํ ์ ์์ด, ๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๊ณ ๋ คํ ์๋ฎฌ๋ ์ด์ ์์ฑ์ ๊ธฐ์ฌํ๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ์ง์ด์ฌ๋ฆฌ๋ ์ฅ๋ฉด์์๋ ์ค๋ ฅ, ๊ด์ฑ ๋ฑ์ ๋ฌผ๋ฆฌ ์์์ ๋ฐํ์ผ๋ก ์์ฐ์ค๋ฌ์ด ๋์ ์ํ์ค๋ฅผ ์์ฑํ๋๋ก ๋๋๋ค. ์์ฝํ๋ฉด, Cosmos-Predict2.5์ ์ํคํ ์ฒ๋ Flow-Matching ๊ธฐ๋ฐ ์์ ์์ฑ๊ธฐ์ WAN2.1 VAE ํ ํฌ๋์ด์ , Cosmos-Reason1 ์ง๋ฅ์ด ๊ฒฐํฉ๋ ํํ๋ก, ํ ์คํธยท์ด๋ฏธ์งยท๋น๋์ค ์ ๋ ฅ์ ํ๋์ ์ผ๊ด๋ ์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋ณํํ๋๋ก ๊ตฌ์ฑ๋๋ค.

ํ๋ จ ์ ๋ต
Cosmos ๋ชจ๋ธ์ ๋ค๋จ๊ณ(pre-training โ ํ์ํ์ต) ์ ๋ต์ผ๋ก ํ์ต๋๋ค. ์ฌ์ ํ์ต ๋จ๊ณ์์๋ ์ฝ 20๋ง ์๊ฐ ๋ถ๋์ ์์ ๋ฐ์ดํฐ์์ ์ ์ ยท๋์ ์ฝํ ์ธ ๊ฐ ํ๋ถํ ๋ถ๋ถ์ ์ ๋ณํด ์ฝ 1์ต ๊ฐ์ ๋น๋์ค ํด๋ฆฝ(2~60์ด)์ ๊ตฌ์ถํ์๋ค. ๊ฐ ํด๋ฆฝ์๋ ์์ ์๋ง์ ์์ฑํ๊ธฐ ์ํด ๋น์ฃผ์ผ ์ธ์ด ๋ชจ๋ธ์ ์ ์ฉํ์์ผ๋ฉฐ, H.264 GPU ๊ฐ์ ๋์ฝ๋ฉ ๋ฑ์ ํ์ฉํด ๋๊ท๋ชจ ์์ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌํํ๋ค. ์ด๋ก์จ ๋ชจ๋ธ์ ๋ค์ํ ๋๋ฉ์ธ์ ๋ฌผ๋ฆฌ์ ์ฅ๋ฉด ๋ณํ์ ๋ฌผ์ฒด ์ด๋์ ํฌํจํ ์ผ๋ฐํ๋ ์ธ๊ณ ์ง์์ ์ต๋ํ๋ค. ์ฌ์ ํ์ต ์์๋ Transformer ๊ธฐ๋ฐ ํ์ฐ ๋ชจ๋ธ(diffusion)๊ณผ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ(autogressive) ๋ชจ๋ธ ๋ ๊ฐ์ง๋ฅผ ๋ณํํ์ฌ ์ฌ์ฉํ๋ค. ์ด๋ค์ ์ฐ์(latent) ํ ํฐ๊ณผ ์ด์ฐ ํ ํฐ ๋ ๊ฐ์ง ํํ์ ๊ฐ๊ฐ ํ์ฉํ๋ฉฐ, ์ ์๋ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ํตํด, ํ์๋ ์๊ณ์ด ๋ค์-ํ๋ ์ ์์ธก์ ํตํด ์์ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
์ดํ์๋ ๋ฌผ๋ฆฌ AI ํน์ ๊ณผ์ ์ ๋ง์ถฐ ์ง๋ํ์ต ๊ธฐ๋ฐ์ ํ์ ํ์ต(fine-tuning)์ ์ํํ๋ค. ์๋ฅผ ๋ค์ด, ์นด๋ฉ๋ผ ์์ ์ ์ด๋ ๋ก๋ด ์กฐ์, ์์จ์ฃผํ ๋ฑ ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ(ํ๋กฌํํธ-์์ ์)๋ฅผ ์ด์ฉํด ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๋ค. Cosmos-Reason1 ํ์ต์์๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ๋จผ์ ๋๊ท๋ชจ ๋ฒ์ฉ ๋ฐ์ดํฐ๋ฅผ ํตํ ์ฌ์ ํ์ต์ ์งํํ ๋ค, ๋ฌผ๋ฆฌ ์์ ๋ฐ ์๋ฒ ๋๋(embedded) ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ฌ์ ์ง์(supervised fine-tuning)๊ณผ ๊ฐํํ์ต(reinforcement learning, RL) ๋จ๊ณ๋ฅผ ์ํํ๋ค. ์ค์ ๋ก Cosmos-Reason1 ๋ ผ๋ฌธ์์๋ ๋ฌผ๋ฆฌ ์์ ๋ฐ์ดํฐ๋ก ์ง๋ํ์ต(SFT)๊ณผ RL์ ๊ฑฐ์น ํ ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ๋ณด์์ผ๋ฉฐ, ์ ์ฌํ ์ ๊ทผ์ผ๋ก Cosmos-Predict2.5์์๋ negative-aware diffusion fine-tuning ๊ฐ์ ์จ๋ผ์ธ ๊ฐํํ์ต ๊ธฐ๋ฒ์ด ์ ์ฉ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์๋ค. ๊ฐํํ์ต ๋จ๊ณ์์๋ ์์ฑ๋ ์๋ฎฌ๋ ์ด์ ์ ํ์ง์ ํฅ์์ํค๊ธฐ ์ํด ๋ณด์ํจ์(์: ํ์ค์ฑ, ๋์ ์ผ๊ด์ฑ)๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ์ต์ ํํ๋๋ก ๋ชจ๋ธ์ ์กฐ์ ํ๋ค. ์ด๋ฌํ ๋ค๋จ๊ณ ํ์ต ์ ๋ต์ ํตํด, Cosmos ๋ชจ๋ธ์ ์ผ๋ฐ ๋๋ฉ์ธ ๋ฌผ๋ฆฌ๋ฅผ ์ดํดํจ๊ณผ ๋์์ ํน์ ๋ก๋ดยท์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ์ ํฉํ ๋ฏธ์ธํ ์กฐ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋๋ค.

๋ก๋ด ์๋ฎฌ๋ ์ด์ ์์ฉ
Cosmos ๋ชจ๋ธ์ Sim2Real(์๋ฎฌโ์ค์ธ๊ณ) ๋ฐ Real2Real(์ค์ธ๊ณ ๊ฐ) ์ ํ ์์ ์ ๊ฐ๋ ฅํ ํ์ฉ๋๋ค. Cosmos-Transfer2.5๋ Cosmos-Predict2.5 ์์์ ๊ตฌ๋๋๋ ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ๋ก, ์ฌ๋(depth), ์ธ๊ทธ๋ฉํ ์ด์ , ์์ง ๋ฑ ๋ณต์์ ๊ณต๊ฐ์ ์ ์ด ์ ๋ ฅ์ ๋ฐ์ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. ์๋ฅผ ๋ค์ด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๊น์ด ๋งต๊ณผ ์ธ๊ทธ๋ฉํ ์ด์ ๋งต์ ์ ๋ ฅํ๋ฉด, ์ด๋ฅผ ์ฌ์ค์ ์นด๋ฉ๋ผ ์์์ผ๋ก ๋ณํํ์ฌ ๋ก๋ด ๋น์ ํ์ต์ ํ์ฉํ ์ ์๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ ๋ณํ์ ํตํด ๋ฌผ๋ฆฌ์ ์ฅ๋ฉด์ ์กฐ๋ช , ์ฌ์ง, ๋ ์จ ๋ฑ์ ๋ณํ์์ผ ๋ฐ์ดํฐ ๋ค์์ฑ์ ํ์ฅํจ์ผ๋ก์จ ์ ์ฑ (policy) ์ผ๋ฐํ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋๋ค. Cosmos-Transfer1 ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ณต๊ฐ ํํ์ ๊ฐ์คํฉ์ผ๋ก ์ตํฉํ๋ Adaptive Multi-ControlNets๋ฅผ ๋์ ํ์ฌ, ์์จ์ฃผํ ๋ฑ์ ๋๋ฉ์ธ์์ ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ดํฐ๋ฅผ ํ์ค์ ์ผ๋ก ๋ณํํ๊ณ ์ผ๋ฐํ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ ๋ฐ ์๋ค. Cosmos-Transfer2.5๋ ์ด์ ๋ชจ๋ธ์ ๋นํด 3.5๋ฐฐ ๊ฐ๋ฒผ์ฐ๋ฉด์๋ ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ฉฐ, ๋ณต์ ๋ทฐ์ ๋น ๋ฅธ ์๋๋ฅผ ์ง์ํ๋ค.
๋ก๋ด ์ ์ฑ ํ์ต ์ธก๋ฉด์์๋, ์์ฑ ๋น๋์ค๋ฅผ ์ ์ฑ ํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฉํ ์ ์๋ค. ์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ๋๊ท๋ชจ ์์ ์์ฑ ๋ชจ๋ธ์ ๋ก๋ด์ ์๊ฐ-์ด๋ ์ ์ฑ ํ์ต์ ์ ์ฉํ ์๋ฎฌ๋ ์ด์ ์ญํ ์ ํ ์ ์๋ค. ์ฆ, ๋ชจ๋ธ์ด ์์ฑํ ๋ก๋ด ํ๋ ์์์ ์ ์ฑ ์ผ๋ก ํด์๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ ์ ๋ฐ์ดํฐ๋ก๋ ๊ฒฌ๊ณ ํ ์ ์ด๊ธฐ๋ฅผ ํ์ตํ ์ ์๋ค. ์๋ฅผ ๋ค์ด โ์ปต์ ์ง์ผ๋ผโ๋ ์ง์๋ฌธ์ ๋ฐ์ ๋ก๋ด ํ์ ์์ ๊ณผ์ ์ ์์ฑํ๋ฉด, ํ๋ ๋์ฝ๋๋ฅผ ํตํด ์ค์ ๋ก๋ด ์ ์ด ๋ช ๋ น์ ์ ๋ํ ์ ์๋ค. ์ด๋ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์ ์์งํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ์ ์ ๋ฐ์ดํฐ๋ก๋ ํ์ต ๊ฐ๋ฅํ๋ฉฐ, ์์, ๋ฐฐ๊ฒฝ, ๋ฌผ์ฒด ํํ ๋ฑ์ ๋ณํ์ ์ ์ผ๋ฐํ๋๋ ํน์ฑ์ ๋ณด์ธ๋ค. ๋ํ Cosmos-Transfer2.5๋ฅผ ์ด์ฉํด ์ค์ ๋ก๋ด ์คํ ์์ ๊ฐ์ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ์ค์ด๋ Real2Real ๋ณํ๋ ๊ฐ๋ฅํ๋ค. ์๋ฅผ ๋ค์ด, ๋ฎ ์๊ฐ ํ๊ฒฝ์์ ํ์ต๋ ์ ์ฑ ์ ๋น์ทํ ๊ตฌ์กฐ์ ๋ฐค ์๊ฐ ์์์ผ๋ก ๋ณํํ์ฌ ๋ฐ์ดํฐ ์ฆ๊ฐํ ์ ์๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ ์๊ฐ ๋ณํ(strutured visual transform)์ ํตํ ๋ค์์ฑ ์ฆ๋๋, ํ๋๊ณผ ๋ชฉํ๊ฐ ๊ฐ๋๋ผ๋ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ์ ์ฑ ์ ๋ง๋๋ ๋ฐ ๊ธฐ์ฌํ๋ค.

๋น๊ต ํ๊ฐ ๋ฐ ์คํ ๊ฒฐ๊ณผ
NVIDIA๋ Cosmos-Predict2.5/Transfer2.5์ ์ฑ๋ฅ์ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต ํ๊ฐํ๋ค. ๋น๊ณต๊ฐ ํ ์คํธ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ์๋ก์ด ๋ชจ๋ธ์ ์ด์ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ธธ๊ณ ๋ณต์กํ ์ฅ๋ฉด์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํ๋ฉฐ ์ฐ์ฐ ํจ์จ๋ ํฅ์๋์๋ค๊ณ ํ๋ค. ์ธ๊ฐ ํ๊ฐ(Human Evaluation)์์๋ ๊ธ์ ์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์๋ค. ์์ปจ๋ Cosmos-Predict1 ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์คํ์์, ๋น๋์ค ์์ธก ๊ณผ์ ์ ๋ํด ๊ณต๊ฐ๋ VideoLDM ๊ธฐ๋ฐ ๋ชจ๋ธ ๋๋น ์ ๋ฌธ๊ฐ ํ๊ฐ์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ ๋ฐ ์๋ค. ์ด๋ Cosmos ๋ชจ๋ธ์ด ์ค์ ์ธ๊ฐ์ ๋ฌผ๋ฆฌ ์์๊ณผ ์ผ์นํ๋ ์๋ฎฌ๋ ์ด์ ์ ์์ฑํ๋ ๋ฐ ์ฑ๊ณตํ์์ ์์ฌํ๋ค. ๋ํ, ๋น๋์ค ์์ฑ ํ์ง๊ณผ ํ๋ ์ ํฉ๋์ ๋ํ ํ๊ฐ์์ Cosmos ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋์ ์ ์๋ฅผ ๋ฐ์๋ค๊ณ ์๋ ค์ ธ ์๋ค.

์ ๋์ ์ฑ๋ฅ ์ธก์ ์งํ๋ก๋ (๊ฐ์ ) PAI-Bench์ ๊ฐ์ ๋ฌผ๋ฆฌ AI ์ ์ฉ ๋ฒค์น๋งํฌ๊ฐ ์ฌ์ฉ๋๋ค. ๋น๋ก ์ธ๋ถ ๊ฒฐ๊ณผ๋ ๊ณต๊ฐ๋์ง ์์์ผ๋, ์ธ๋ก ๋ณด๋์ ๋ฐ๋ฅด๋ฉด Cosmos-Transfer2.5๋ ๋๊ธ์ ๋ค๋ฅธ ๋ชจ๋ธ ๋๋น 3.5๋ฐฐ ๋ ์์ ๋ชจ๋ธ ํฌ๊ธฐ์๋ ๋ถ๊ตฌํ๊ณ ์๋์ ํ๋ฆฌํฐ ๋ฉด์์ ์ฐ์ํ๋ค๊ณ ํ๋ค. ์ด๋ ์ค์ ์ ์ธ ์๋ฎฌ๋ ์ด์ ๋๋ฉ์ธ ์ ์ด ๊ณผ์ ์์ ํ์ต ๋น์ฉ๊ณผ ์ถ๋ก ์๊ฐ์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ํ์ง ์์ค ์์ด ์ฑ๋ฅ์ ํ๋ณดํ ๊ฒ์์ ์๋ฏธํ๋ค.
๊ฒฐ๋ก
์ธ๊ณ ์๋ฎฌ๋ ์ด์ ์ ๋ค๋ฃฌ Cosmos-Predict2.5/Transfer2.5 ๋ชจ๋ธ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ AI ์ฐ๊ตฌ์ ์ค์ํ ์ง์ ์ ๊ฐ์ ธ์๋ค. ํ ์คํธยท์ด๋ฏธ์งยท๋น๋์ค ๋ฑ์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ณ , ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ ๋ ์ฅ๊ธฐ๊ฐ ์๋ฎฌ๋ ์ด์ ์ ์์ฑํจ์ผ๋ก์จ, ๋ค์ํ ๋ก๋ด๊ณผ ์์จ์ฃผํ ์๋๋ฆฌ์ค์์ ํ์ฉํ ์ ์๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค. WAN2.1 VAE์ Cosmos-Reason1์ ๊ฒฐํฉํ ์ํคํ ์ฒ๋ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒธ๋นํ๋ฉฐ, ๋ณต์กํ ์ ์ด ํ์คํฌ์๋ ๋์ํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ๋ํ Sim2Real/Real2Real ๋ณํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ Cosmos-Transfer2.5๋ ๋ก๋ด ํ์ต์ ํ์ํ ๋ฐ์ดํฐ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ ๋ฐ ๊ธฐ์ฌํ๋ฉฐ, ์์ฑ ๋ชจ๋ธ์ด ์ ์ฑ ํ์ต์๋ ์์ฉ๋ ์ ์์์ ์ค์ฆํ๋ค.
์ ํ์ ์ผ๋ก๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ํ์ต ๋น์ฉ๊ณผ ์์ ์ฑ ๋ฌธ์ ๊ฐ ๋จ์ ์๋ค. ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ๋ชจ๋ธ ํ์ต์ ๊ณ์ฐ ์์์ด ๋ง์ด ํ์ํ๋ฉฐ, ๋ชจ๋ธ์ด ์์ฑํ ์๋ฎฌ๋ ์ด์ ์ด ์ค์ ๋ฌผ๋ฆฌ์ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ ์ฌ์ ํ ์ ์ ๊ฒ์ฆ์ด ์ด๋ ต๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ, ๊ฐํํ์ต๊ณผ ๋ชจ๋ธ์ฒด์ธ์ ๊ฒฐํฉ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํตํ ์ง์์ ์ธ ๊ฐ์ ์ด ์๊ตฌ๋๋ค. ์๋ฅผ ๋ค์ด Diffusion Negative-aware Fine-Tuning๊ณผ ๊ฐ์ ์๋ก์ด ์จ๋ผ์ธ RL ๊ธฐ๋ฒ๊ณผ, ์ธ๊ฐ ํ๊ฐ์ ๊ธฐ๋ฐํ ๋ณด์ ํ์ต ๋ฑ์ ํตํด ์์ฑ ๋ชจ๋ธ์ ํ์ค๊ฐ์ ๋์ผ ์ ์์ ๊ฒ์ด๋ค. ๋๋ถ์ด, ๋ค์ํ ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ด๋ฒ์ํ ์คํ๊ณผ ์คํ ๋ฐ์ดํฐ์ ๊ณต๊ฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฒ์๋ฅผ ๊ฒ์ฆํ๋ ์์ ๋ ํ์ํ๋ค. ์ข ํฉํ๋ฉด, Cosmos-Predict2.5์ Transfer2.5๋ ๋ฌผ๋ฆฌ AI ๋ถ์ผ์์ ์ธ๊ณ๋ชจ๋ธ ์ฐ๊ตฌ๋ฅผ ํฌ๊ฒ ์๋น๊ฒผ์ผ๋ฉฐ, ํฅํ ๋ก๋ด ์๋ฎฌ๋ ์ด์ ๋ฐ ์ ์ด ์์คํ ๊ฐ๋ฐ์ ํต์ฌ ๋๊ตฌ๋ก ํ์ฉ๋ ์ ๋ง์ด๋ค.