๐งฉQwen2.5-VL๊ณผ Qwen3-VL ์ํคํ ์ฒ ์ฌ์ธต ๋ถ์
๋ค์ด๊ฐ๋ฉฐ: Physical AI๋ฅผ ์ํ โ์๊ฐํ๋ ๋โ
๋ก๋ด์ด ์ธ์์ ์ดํดํ๋ ค๋ฉด ๋ฌด์์ด ํ์ํ ๊น์? ๋จ์ํ ์นด๋ฉ๋ผ๋ก ์ด๋ฏธ์ง๋ฅผ โ๋ณด๋ ๊ฒโ๋ง์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. ๋ฌผ์ฒด๊ฐ ์ด๋์ ์๋์ง, ์ด๋ป๊ฒ ์์ง์ด๊ณ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ๋ด๊ฐ ์ด๋ค ํ๋์ ์ทจํด์ผ ํ๋์ง๊น์ง โ์ถ๋ก โํ ์ ์์ด์ผ ํฉ๋๋ค.
NVIDIA์ Cosmos Reason์ ๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ณ๋ Vision-Language Model(VLM)์ ๋๋ค. GR00T ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํ๋ซํผ์ โ์ง๋ฅ ๋๋โ ์ญํ ์ ๋ด๋นํ๋ฉฐ, ์ค์ธ๊ณ์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ดํดํ๊ณ ํ๋์ ๊ณํํ๋ ๋ฅ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ ์ด ๊ฐ๋ ฅํ ์ถ๋ก ์์ง์ ๊ธฐ๋ฐ์ด Alibaba์ ์คํ์์ค ๋ฉํฐ๋ชจ๋ฌ LLM์ธ Qwen VL ์๋ฆฌ์ฆ๋ผ๋ ๊ฒ์ ๋๋ค:
- Cosmos Reason 1 โ Qwen2.5-VL ๊ธฐ๋ฐ
- Cosmos Reason 2 โ Qwen3-VL ๊ธฐ๋ฐ
์ด ํฌ์คํ ์์๋ ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ํคํ ์ฒ๋ฅผ ๊น์ด ์๊ฒ ๋ถ์ํ๊ณ , NVIDIA๊ฐ ์ด๋ฅผ ์ด๋ป๊ฒ Physical AI์ฉ์ผ๋ก ํนํ์์ผฐ๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
1. Qwen2.5-VL: Cosmos Reason 1์ ๊ธฐ๋ฐ
1.1 ํต์ฌ ์ํคํ ์ฒ ๊ฐ์
Qwen2.5-VL์ Vision Transformer(ViT) + ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ๋์ฝ๋๋ฅผ ํตํฉํ ๋ฉํฐ๋ชจ๋ฌ ์ํคํ ์ฒ์ ๋๋ค. 2025๋ 1์ ๊ณต๊ฐ๋์์ผ๋ฉฐ, Qwen ํ์ด โ์๋์์น ์ฟ ํค์ ์ค๊ฐ์ธตโ์ด๋ผ๊ณ ํํํ ๊ธฐ์กด LVLM์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค.
[์ด๋ฏธ์ง/๋น๋์ค ์
๋ ฅ] โ [Vision Transformer] โ [Projector] โ [LLM Decoder] โ [ํ
์คํธ ์ถ๋ ฅ]
1.2 ํต์ฌ ํ์ #1: Native Dynamic Resolution
๊ธฐ์กด ๋น์ ๋ชจ๋ธ๋ค์ ๋ชจ๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํด์๋(์: 224ร224)๋ก ๋ฆฌ์ฌ์ด์ฆํ์ต๋๋ค. ์ด๋ ์ ๋ณด ์์ค์ ์ผ๊ธฐํ๊ณ ์ธ๊ฐ์ ์๊ฐ ์ธ์ง์ ๋๋จ์ด์ง ๋ฐฉ์์ด์์ต๋๋ค.
Qwen2.5-VL์ โNaive Dynamic Resolutionโ ์ ๊ทผ๋ฒ์ ๋์ ํฉ๋๋ค:
- ์ ๋ ฅ ์ด๋ฏธ์ง์ ์๋ณธ ํด์๋๋ฅผ ๊ทธ๋๋ก ์ ์ง
- ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋น๋กํ๋ ๊ฐ๋ณ ๊ฐ์์ ์๊ฐ ํ ํฐ ์์ฑ
- Window Attention์ ํตํด ๊ณ์ฐ ํจ์จ์ฑ ํ๋ณด
์ด๋ฅผ ํตํด ์์ ๋ฌธ์์ ์ธ๋ถ ๊ธ์๋ถํฐ ๊ณ ํด์๋ ์ฐ์ ์ด๋ฏธ์ง๊น์ง ์๋ณธ ํ์ง ๊ทธ๋๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
Window Attention ๋ฉ์ปค๋์ฆ
Vision Encoder๋ 3D Convolution์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์๊ฐ ๋ฐ์ดํฐ๋ฅผ 14ร14 ํจ์น ์๋ฆฌ์ฆ๋ก ๋ถํ ํฉ๋๋ค. Window Attention์ ์ด๋ฏธ์ง๋ฅผ ์๋์ฐ ๋จ์๋ก ๋๋์ด ๊ฐ ์๋์ฐ ๋ด ํจ์น๋ค ์ฌ์ด์์๋ง ์ดํ ์ ์ ๊ณ์ฐํฉ๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์ด๋ฏธ์ง ์
๋ ฅ โ
โ โ โ
โ 3D Conv โ 14ร14 ํจ์น ๋ถํ โ
โ โ โ
โ Window Attention (์๋์ฐ ๋ด ์ดํ
์
) โ
โ โ โ
โ MLP Layer โ 2ร2 ํจ์น ๋ณํฉ โ
โ โ โ
โ LLM ์
๋ ฅ ํ ํฐ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์ด ์ค๊ณ์ ํต์ฌ ์ฅ์ :
| ํน์ง | ์ค๋ช |
|---|---|
| ์ ํ ์ค์ผ์ผ๋ง | ์ด๋ฏธ์ง ํจ์น ์์ ๋ํด ๊ณ์ฐ๋์ด ์ ํ์ผ๋ก ์ฆ๊ฐ |
| ํ ํฐ ์์ถ | ์ถ๋ ฅ ๋จ๊ณ์์ 2ร2 ํจ์น๋ฅผ ํ๋๋ก ๋ณํฉํ์ฌ ํ ํฐ ์ ๊ฐ์ |
| ํจ์จ์ฑ | ์ ์ฒด ์ด๋ฏธ์ง ์ดํ ์ ๋๋น ๋ฉ๋ชจ๋ฆฌ/๊ณ์ฐ ์์ ์ ์ฝ |
1.3 ํต์ฌ ํ์ #2: M-RoPE (Multimodal Rotary Position Embedding)
LLM์์ ๋๋ฆฌ ์ฐ์ด๋ RoPE(Rotary Position Embedding)๋ 1์ฐจ์ ์ํ์ค์ฉ์ผ๋ก ์ค๊ณ๋์์ต๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง์ ๋น๋์ค๋ ๊ณต๊ฐ(2D) + ์๊ฐ(temporal) ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํฉ๋๋ค.
M-RoPE๋ ์์น ์๋ฒ ๋ฉ์ ์ธ ๊ฐ์ง ๋ ๋ฆฝ์ ์ธ ๊ตฌ์ฑ์์๋ก ๋ถํดํฉ๋๋ค:
| ๊ตฌ์ฑ์์ | ์ญํ | ์ ์ฉ ๋์ |
|---|---|---|
| Temporal | ์๊ฐ์ ์์ | ๋น๋์ค ํ๋ ์ ์์ |
| Height | ์์ง ์์น | ์ด๋ฏธ์ง ๋ด Y์ขํ |
| Width | ์ํ ์์น | ์ด๋ฏธ์ง ๋ด X์ขํ |
ํ ์คํธ ์ ๋ ฅ์ ๊ฒฝ์ฐ ์ธ ๊ตฌ์ฑ์์๊ฐ ๋์ผํ Position ID๋ฅผ ์ฌ์ฉํด ๊ธฐ์กด 1D-RoPE์ ๋์ผํ๊ฒ ์๋ํฉ๋๋ค. ๋น๋์ค์ ๊ฒฝ์ฐ ํ๋ ์๋ง๋ค Temporal ID๊ฐ ์ฆ๊ฐํ์ฌ ์๊ฐ ํ๋ฆ์ ์ธ์ฝ๋ฉํฉ๋๋ค.
ViT์ LLM์์์ RoPE ์ฐจ์ด
| ๊ตฌ์ฑ ์์ | ์ฌ์ฉ RoPE | ์ด์ |
|---|---|---|
| ViT (Vision Encoder) | 2D RoPE | ๋จ์ผ ์ด๋ฏธ์ง/ํ๋ ์์ ํน์ง ์ถ์ถ์ ์ง์ค, ์๊ฐ(T) ์ฐจ์ ๋ถํ์ |
| LLM Decoder | 3D M-RoPE | ํ ์คํธ์ ์๊ฐ ๋ฐ์ดํฐ์ ํตํฉ ์ฒ๋ฆฌ, ์๊ณต๊ฐ ์ ๋ณด ๋ชจ๋ ํ์ |
RoPE ๊ตฌํ์์ head_dim์ ์ ๋ฐ์ ๋์ด(h) ์ถ ๊ธฐ๋ฐ, ๋๋จธ์ง ์ ๋ฐ์ ๋๋น(w) ์ถ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฉ๋๋ฉฐ, ๋ ๋ถ๋ถ์ด ๋์ผํ ฮธ(๊ฐ๋ ํ๋ผ๋ฏธํฐ) ์ธํธ๋ฅผ ๊ณต์ ํฉ๋๋ค.
1.4 Dynamic FPS Sampling๊ณผ Absolute Time Encoding
๋น๋์ค ์ดํด์์ ๋ ๋ค๋ฅธ ํ์ ์ ๋์ FPS ์ํ๋ง์ ๋๋ค. ๊ณ ์ ๋ ํ๋ ์ ๋ ์ดํธ ๋์ ๋น๋์ค์ ํน์ฑ์ ๋ง๊ฒ ์ํ๋ง ๋ ์ดํธ๋ฅผ ์กฐ์ ํ๊ณ , ์ ๋ ์๊ฐ(Absolute Time)์ ์ธ์ฝ๋ฉํฉ๋๋ค.
์๋ฅผ ๋ค์ด, โ์์ 1๋ถ 23์ด์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋ฌ๋์?โ๋ผ๋ ์ง๋ฌธ์ ์ ํํ ํด๋น ์์ ์ ์ด๋ฒคํธ๋ฅผ ์ฐพ์ ๋ต๋ณํ ์ ์์ต๋๋ค.
1.5 ํ๋ผ๋ฏธํฐ ๋ฐ ๋ชจ๋ธ ๋ณํ
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | ํน์ง |
|---|---|---|
| Qwen2.5-VL-3B | 30์ต | ๊ฒฝ๋ ๋ฐฐํฌ์ฉ |
| Qwen2.5-VL-7B | 70์ต | ๊ท ํ์กํ ์ฑ๋ฅ/ํจ์จ |
| Qwen2.5-VL-32B | 320์ต | ๊ณ ์ฑ๋ฅ ์ถ๋ก |
| Qwen2.5-VL-72B | 720์ต | SOTA๊ธ ๋ฒค์น๋งํฌ ์ฑ๋ฅ |
ํ๋ จ ๋ฐ์ดํฐ๋ ์ฝ 4.1์กฐ ํ ํฐ ๊ท๋ชจ์ ๋ฉํฐ๋ชจ๋ฌ ์ฝํผ์ค๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
1.6 ๋ฒค์น๋งํฌ ์ฑ๋ฅ
Qwen2.5-VL์ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค:
| ๋ฒค์น๋งํฌ | Qwen2.5-VL-72B | Qwen2.5-VL-32B | ๋น๊ณ |
|---|---|---|---|
| MathVista | 70.5~74.8 | 74.7 | ์ํ์ ์๊ฐ ์ถ๋ก |
| MMMU | 64.5 | 70.0 | ๋ํ ์์ค ๋ฉํฐ๋ชจ๋ฌ ์ดํด |
| MMBench-EN | 88.6 | - | ์ข ํฉ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ |
Qwen2.5-VL์ 1์๊ฐ ์ด์์ ๋น๋์ค๋ฅผ ์ดํดํ๊ณ , ๋น๋์ค ๋ด ํน์ ์ด๋ฒคํธ๊ฐ ๋ฐ์ํ ์๊ฐ ๊ตฌ๊ฐ์ ์ ํํ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค. Dynamic Resolution์ ์๊ฐ ์ฐจ์์ผ๋ก ํ์ฅํ Dynamic FPS ์ํ๋ง ๋๋ถ์ ๋๋ค.
2. Qwen3-VL: Cosmos Reason 2์ ๊ธฐ๋ฐ
2025๋ 9์ ๊ณต๊ฐ๋ Qwen3-VL์ Qwen ์๋ฆฌ์ฆ VLM์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ฒ์ ์ ๋๋ค. ๋จ์ํ ์ ์ง์ ๊ฐ์ ์ด ์๋๋ผ, ์ํคํ ์ฒ ์์ค์์ ๊ทผ๋ณธ์ ์ธ ์ ๊ทธ๋ ์ด๋๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค.
2.1 ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ๋ฅ (Three Core Pillars)
- ๊ฐํ๋ ์์ ํ ์คํธ ์ดํด: ๋น์ ๋ชจ๋ธ์์๋ ํ ์คํธ ์ ์ฉ ๋ฐฑ๋ณธ์ ๋ฅ๊ฐํ๋ ์ธ์ด ๋ฅ๋ ฅ
- ์ฅ๋ฌธ๋งฅ ์ดํด (256K ํ ํฐ): ๊ธด ๋ฌธ์์ ์ฅ์๊ฐ ๋น๋์ค์ ์ ๋ณด๋ฅผ ์ฐ๊ฒฐํ์ฌ ์ถ๋ก
- ๊ณ ๊ธ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก : MMMU, MathVista ๋ฑ ๋ณต์กํ ๋ฒค์น๋งํฌ์์ ์ ๋์ ์ฑ๋ฅ
2.2 ์ํคํ ์ฒ ํ์ #1: Interleaved-MRoPE
Qwen2.5-VL์ M-RoPE๊ฐ ๊ฐ์ง ๋ฌธ์ ์ ์ด ์์์ต๋๋ค: ์ฃผํ์ ์คํํธ๋ผ ๋ถ๊ท ํ(Spectral Imbalance). ์๊ฐ, ๋์ด, ๋๋น์ ํ ๋น๋ ์ฃผํ์ ๋์ญ์ด ๋ถ๊ท ๋ฑํ์ฌ ์ฅ์๊ฐ ๋น๋์ค์์ ์์น ์ ๋ณด๊ฐ ์์ค๋์์ต๋๋ค.
Interleaved-MRoPE๋ ์ฃผํ์๋ฅผ ์ธ ์ฐจ์์ ๊ท ๋ฑํ๊ฒ ์ธํฐ๋ฆฌ๋นํ์ฌ ๋ฐฐ๋ถํฉ๋๋ค:
- ์๊ฐ, ๋๋น, ๋์ด ๋ชจ๋ ์ ์ฒด ์ฃผํ์ ์คํํธ๋ผ ํ์ฉ
- ๊ธด ๋น๋์ค์์๋ ์์น ์ ๋ณด ๋ณด์กด
- Position ID ์ฆ๊ฐ ์๋๊ฐ ๊ธฐ์กด RoPE๋ณด๋ค ๋๋ ค ๋ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ๊ฐ๋ฅ
| ํญ๋ชฉ | M-RoPE (Qwen2.5-VL) | Interleaved-MRoPE (Qwen3-VL) |
|---|---|---|
| ์ฃผํ์ ํ ๋น | T, H, W์ ๋ถ๊ท ๋ฑ ๋ฐฐ๋ถ | ์ธ ์ฐจ์์ ๊ท ๋ฑ ์ธํฐ๋ฆฌ๋น |
| ๋ฌธ์ ์ | ์ฅ์๊ฐ ๋น๋์ค์์ ์์น ์ ๋ณด ์์ค | ํด๊ฒฐ๋จ |
| ์คํํธ๋ผ | ์ผ๋ถ ๋์ญ๋ง ํ์ฉ | ์ ์ฒด ๋์ญ ํ์ฉ |
| ํจ๊ณผ | ~32K ํ ํฐ | 256K ํ ํฐ ๋ค์ดํฐ๋ธ ์ง์ |
2.3 ์ํคํ ์ฒ ํ์ #2: DeepStack Integration
๊ธฐ์กด VLM๋ค์ ViT์ ์ต์ข ๋ ์ด์ด ์ถ๋ ฅ๋ง ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๊ณ ์์ค ์๋ฏธ ์ ๋ณด๋ง ์ ๋ฌํ๊ณ ์ ์์ค ์๊ฐ์ ์ธ๋ถ์ฌํญ์ ์์ด๋ฒ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
DeepStack์ ViT์ ์ฌ๋ฌ ๋ ์ด์ด์์ ํน์ง์ ์ถ์ถํ์ฌ LLM์ ์ฃผ์ ํฉ๋๋ค:
ViT Layer 1 โ ์ ์์ค ํน์ง (์ฃ์ง, ํ
์ค์ฒ) โโ
ViT Layer 6 โ ์ค๊ฐ์์ค ํน์ง (ํจํด, ํํ) โโ LLM Hidden States์ ์ฃผ์
ViT Layer 12 โ ๊ณ ์์ค ํน์ง (๊ฐ์ฒด, ์ฅ๋ฉด) โโ
๋ ผ๋ฌธ DeepStack (arXiv:2406.04334)์์ ์ ์๋ ์ด ๋ฐฉ์์ ์ธ๋ฐํ ์๊ฐ์ ๋ํ ์ผ๊ณผ ์ถ์์ ์๋ฏธ ์ ๋ณด๋ฅผ ๋์์ ๋ณด์กดํฉ๋๋ค.
Qwen3-VL์ ํ
์คํธ ์ฒ๋ฆฌ ๋ถ๋ถ์ ์์ ํ
์คํธ ์ ์ฉ ๋ชจ๋ธ์ด ์๋๋๋ค. DeepStack์ด ์๊ฐ์ ํน์ง์ LLM์ ์ด๊ธฐ hidden states์ ์ฃผ์
ํ๊ธฐ ๋๋ฌธ์
๋๋ค. ํน์ง ํํ๋ (num_layers, visual_seqlen, embed_dim)์ด๋ฉฐ, ๋น์ ์ธ์ฝ๋์ ์ฌ๋ฌ ๋ ์ด์ด์์ ์ถ์ถ๋์ด ๋์ฝ๋ hidden states์ ๊ณต๊ธ๋ฉ๋๋ค.
2.4 ์ํคํ ์ฒ ํ์ #3: Text-Timestamp Alignment
Qwen2.5-VL์ T-RoPE๋ฅผ ํตํด ๋น๋์ค์ ์๊ฐ ์ ๋ณด๋ฅผ ์๋ฌต์ ์ผ๋ก ์ธ์ฝ๋ฉํ์ต๋๋ค. Qwen3-VL์ ์ด๋ฅผ ๋ช ์์ ์ธ ํ ์คํธ ํ์์คํฌํ ์ ๋ ฌ๋ก ๋ฐ์ ์์ผฐ์ต๋๋ค.
์์ฑ๋ ํ ์คํธ๊ฐ ๋น๋์ค์ ํน์ ํ์์คํฌํ์ ์ง์ ์ฐ๊ฒฐ๋์ด, โ00:01:23์ ๋นจ๊ฐ ์๋์ฐจ๊ฐ ์ขํ์ ํฉ๋๋คโ์ ๊ฐ์ ์ ๋ฐํ ์๊ฐ์ ๊ทธ๋ผ์ด๋ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
2.5 ํ๋ผ๋ฏธํฐ ๋ฐ ๋ชจ๋ธ ๋ณํ
Qwen3-VL์ Dense์ MoE(Mixture of Experts) ๋ ๊ฐ์ง ์ํคํ ์ฒ๋ก ์ ๊ณต๋ฉ๋๋ค:
| ๋ชจ๋ธ | ์ด ํ๋ผ๋ฏธํฐ | ํ์ฑ ํ๋ผ๋ฏธํฐ | ํน์ง |
|---|---|---|---|
| Qwen3-VL-2B | 20์ต | 20์ต | ์ฃ์ง ๋ฐฐํฌ์ฉ |
| Qwen3-VL-4B | 40์ต | 40์ต | ๋ชจ๋ฐ์ผ/์๋ฒ ๋๋ |
| Qwen3-VL-8B | 87.7์ต | 87.7์ต | ๊ท ํ์กํ ์ฑ๋ฅ |
| Qwen3-VL-32B | 320์ต | 320์ต | ๊ณ ์ฑ๋ฅ ์ํฌ๋ก๋ |
| Qwen3-VL-30B-A3B | 300์ต | 30์ต | MoE ํจ์จ์ฑ |
| Qwen3-VL-235B-A22B | 2350์ต | 220์ต | ์ต๊ณ ์ฑ๋ฅ MoE |
MoE ๋ชจ๋ธ์ ์ด ํ๋ผ๋ฏธํฐ๋ ํฌ์ง๋ง ์ถ๋ก ์ ์ผ๋ถ ์ ๋ฌธ๊ฐ๋ง ํ์ฑํ๋์ด ํจ์จ์ฑ์ ํ๋ณดํฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ๋ 36์กฐ+ ํ ํฐ, 119๊ฐ ์ธ์ด๋ฅผ ํฌํจํฉ๋๋ค.
2.6 ์ํคํ ์ฒ ๊ตฌ์ฑ ์์
Qwen3-VL์ ๋ค์๊ณผ ๊ฐ์ ํ๋์ ์ํคํ ์ฒ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค:
| ๊ตฌ์ฑ ์์ | ์ค๋ช |
|---|---|
| Grouped Query Attention (GQA) | ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ์ดํ ์ |
| SwiGLU ํ์ฑํ | ํฅ์๋ ๋น์ ํ ํํ๋ ฅ |
| RoPE + ๊ณ ๊ธ ์ฃผํ์ ์ค์ผ์ผ๋ง | Interleaved-MRoPE |
| RMSNorm ์ฌ์ ์ ๊ทํ | ํ์ต ์์ ์ฑ |
Qwen3-MoE๋ ์ด์ Qwen2.5-MoE์ ๋ฌ๋ฆฌ ๊ณต์ ์ ๋ฌธ๊ฐ(shared experts)๋ฅผ ์ ๊ฑฐํ๊ณ ๊ธ๋ก๋ฒ ๋ฐฐ์น ๋ก๋ ๋ฐธ๋ฐ์ฑ์ ์ฌ์ฉํ์ฌ ์ ๋ฌธ๊ฐ๋ค์ ํนํ๋ ํ๋์ ์ฅ๋ คํฉ๋๋ค.
2.7 ๋ฒค์น๋งํฌ ์ฑ๋ฅ
Qwen3-VL-235B-A22B๋ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค:
| ๋ฒค์น๋งํฌ | Qwen3-VL-235B | GPT-5 | Gemini 2.5 Pro |
|---|---|---|---|
| MathVista | 85.8% | 81.3% | - |
| MathVision | 74.6% | 65.8% | 73.3% |
| AIMEโ24 | 85.7 | - | - |
| LiveCodeBench v5 | 70.7 | - | - |
| CodeForces ELO | 2,056 | - | - |
Qwen3-VL์ 2์๊ฐ ๋ถ๋์ ๋น๋์ค๋ฅผ ์ค์บํ์ฌ ๊ฑฐ์ ๋ชจ๋ ์ธ๋ถ์ฌํญ์ ์ ํํ ์ฐพ์๋ผ ์ ์์ต๋๋ค. 256K ํ ํฐ ์ปจํ ์คํธ ์๋์ฐ์ Interleaved-MRoPE ๋๋ถ์ ๋๋ค.
3. NVIDIA Cosmos Reason: Physical AI๋ก์ ํนํ
3.1 Cosmos Reason 1 (Qwen2.5-VL ๊ธฐ๋ฐ)
NVIDIA๋ Qwen2.5-VL-7B๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Cosmos-Reason1-7B๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์ถ๊ฐ๋ก 56B ๋ฒ์ ๋ ์ ๊ณต๋ฉ๋๋ค.
ํ์ต ํ์ดํ๋ผ์ธ (2๋จ๊ณ):
- Physical AI SFT: ๋ฌผ๋ฆฌ์ ์์(Physical Common Sense) ๋ฐ์ดํฐ๋ก Supervised Fine-tuning
- Physical AI RL: ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ง๋ ์ถ๋ก ์ ๊ฐํํ์ต์ผ๋ก ์ต์ ํ
์ฃผ์ ํน์ง:
- Chain-of-Thought:
<think>ํ๊ทธ๋ฅผ ํตํ ๋จ๊ณ๋ณ ์ถ๋ก ๊ณผ์ ๋ช ์ - Embodied Reasoning: ๋จ์ํ ์ดํด๋ฅผ ๋์ด ํ๋ ๊ณํ๊น์ง ์ถ๋ก
3.2 Cosmos Reason 2 (Qwen3-VL ๊ธฐ๋ฐ)
2025๋ 12์ ๊ณต๊ฐ๋ Cosmos Reason 2๋ Qwen3-VL ๊ธฐ๋ฐ์ผ๋ก ๋ํญ ๊ฐํ๋์์ต๋๋ค. CES 2026์์ NVIDIA๋ ์ด๋ฅผ Physical AI์ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ๋ฐํํ์ต๋๋ค.
| ๊ฐ์ ์ฌํญ | ์์ธ |
|---|---|
| ๊ธด ๋ฌธ๋งฅ | 16K โ 256K ํ ํฐ |
| ๊ณต๊ฐ ์ธ์ง | 2D/3D ์ขํ, ๋ฐ์ด๋ฉ ๋ฐ์ค, ๊ถค์ (trajectory) ์ถ๋ ฅ |
| ์๊ฐ ์ ๋ฐ๋ | ํ์์คํฌํ ๊ธฐ๋ฐ ์ด๋ฒคํธ ๋ก์ปฌ๋ผ์ด์ ์ด์ |
| OCR ์ง์ | ํ ์คํธ ์ธ์ ๋ฐ ์ถ์ถ |
| ๋ชจ๋ธ ํฌ๊ธฐ | 2B, 8B ์ต์ ์ผ๋ก ์ฃ์ง๋ถํฐ ํด๋ผ์ฐ๋๊น์ง ๋ฐฐํฌ |
Cosmos Reason 2์ ํจ๊ป Cosmos Predict 2.5, Cosmos Transfer 2.5, Isaac GR00T N1.6 ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ๊ณต๊ฐ๋์ด ๋ก๋ณดํฑ์ค ๊ฐ๋ฐ ๋ฐ ๋ฐฐํฌ๋ฅผ ๊ฐ์ํํฉ๋๋ค.
3.3 Physical AI ํนํ ๊ธฐ๋ฅ
์ผ๋ฐ VLM๊ณผ Cosmos Reason์ ์ฐจ๋ณ์ :
- ๋ฌผ๋ฆฌ์ ์์ ์ถ๋ก : ๋ดํด ์ญํ, ์ค๋ ฅ, ์ถฉ๋ ์์ธก ๋ฑ ๋ฌผ๋ฆฌ ๋ฒ์น ๊ธฐ๋ฐ ์ถ๋ก
- Embodied Reasoning: โ๋ก๋ด ๊ทธ๋ฆฌํผ๊ฐ ํ ์ดํ๋ฅผ ์ง์ด ๋ฐ๊ตฌ๋์ ๋ฃ์ผ๋ ค๋ฉด?โ ๊ฐ์ ํ๋ ๊ณํ
- ๊ถค์ ์ขํ ์ถ๋ ฅ: ๋จ์ ํ ์คํธ๊ฐ ์๋ JSON ํ์์ trajectory ๋ฐ์ดํฐ ์์ฑ
Physical AI๋ ๋์ ์ด๊ณ ๋ถํ์คํ ์ค์ธ๊ณ ํ๊ฒฝ์์ ์๋ํฉ๋๋ค. ์ํ์ด๋ ํ๋ก๊ทธ๋๋ฐ์ ์ถ์์ ์ถ๋ก ๊ณผ ๋ฌ๋ฆฌ, embodied reasoning์ AI ์์คํ ์ด ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์ํธ์์ฉํ๊ณ ํ์ตํด์ผ ํฉ๋๋ค. ํ์ฌ ๊ด์ธก๋ฟ ์๋๋ผ ๋ฏธ๋์ ๋ถํ์คํ ํ๊ฒฝ์์ ์ง๋ฅ์ ์ธ ํ๋์ ๊ณํํ๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค.
3.4 ์ฃผ์ ํ์ฉ ์ฌ๋ก
๋ก๋ด ๊ณํ ๋ฐ ์ถ๋ก :
Cosmos Reason์ ๋ก๋ด VLA(Vision-Language-Action) ๋ชจ๋ธ์์ ์ ์คํ๊ณ ์ฒด๊ณ์ ์ธ ์์ฌ๊ฒฐ์ ์ ์ํ ๋๋ ์ญํ ์ ํฉ๋๋ค. GR00T๋ Cosmos Reason์ ๋๋๋ก ์ฌ์ฉํ์ฌ ํด๋จธ๋ ธ์ด๋์ ์ ์ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ฐ์ดํฐ ์ด๋ ธํ ์ด์ :
๋๊ท๋ชจ์ ๋ค์ํ ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ํด ์๋์ผ๋ก ๊ณ ํ์ง ์ด๋ ธํ ์ด์ ๊ณผ ๋นํ์ ์์ฑํฉ๋๋ค. ์ค์ ๋๋ ํฉ์ฑ ์์ฑ๋ ํ๋ จ ๋น๋์ค์ ๋ํด ํ์์คํฌํ์ ์์ธํ ์ค๋ช ์ ์ ๊ณตํฉ๋๋ค.
์ฐ์ ์ฑํ ํํฉ:
| ๊ธฐ์ | ํ์ฉ ์ฌ๋ก |
|---|---|
| Uber | ์์จ์ฃผํ ํ๋ จ ๋ฐ์ดํฐ์ ์ ํํ๊ณ ๊ฒ์ ๊ฐ๋ฅํ ๋น๋์ค ์บก์ ์์ฑ |
| Salesforce | Cobalt ๋ก๋ด ์์ ๋ถ์์ ํตํ ์์ ์ฅ ์์ ๋ฐ ๊ท์ ์ค์ |
| Milestone | ๊ตํต AI ์์ด์ ํธ |
| Hitachi | ์์ ์ฅ ์์ฐ์ฑ AI ์์ด์ ํธ |
4. ๋น๊ต ๋ถ์: ํ๋์ ๋ณด๊ธฐ
4.1 ๊ธฐ๋ฐ ๋ชจ๋ธ ๋น๊ต (Qwen2.5-VL vs Qwen3-VL)
| ํญ๋ชฉ | Qwen2.5-VL | Qwen3-VL |
|---|---|---|
| ์ถ์ | 2025๋ 1์ | 2025๋ 9์ |
| ๋ฌธ๋งฅ ๊ธธ์ด | ~32K ํ ํฐ | 256K ํ ํฐ (YaRN์ผ๋ก 1M๊น์ง) |
| ์์น ์ธ์ฝ๋ฉ | M-RoPE | Interleaved-MRoPE |
| ๋น์ -์ธ์ด ์ตํฉ | ๋จ์ผ ๋ ์ด์ด | DeepStack (๋ค์ธต ์ตํฉ) |
| ์๊ฐ ์ธ์ฝ๋ฉ | T-RoPE | Text-Timestamp Alignment |
| ์ํคํ ์ฒ | Dense๋ง | Dense + MoE |
| ์ต๋ ๋ชจ๋ธ | 72B | 235B (A22B ํ์ฑ) |
| ํ๋ จ ๋ฐ์ดํฐ | 4.1T ํ ํฐ | 36T+ ํ ํฐ |
| ์ธ์ด ์ง์ | ๋ค๊ตญ์ด | 119๊ฐ ์ธ์ด |
| ๋น๋์ค ์ฒ๋ฆฌ | 1์๊ฐ+ | 2์๊ฐ+ |
4.2 Cosmos Reason ๋น๊ต (Reason 1 vs Reason 2)
| ํญ๋ชฉ | Cosmos Reason 1 | Cosmos Reason 2 |
|---|---|---|
| ๊ธฐ๋ฐ | Qwen2.5-VL-7B | Qwen3-VL (2B/8B) |
| ์ถ์ | 2025๋ 3์ | 2025๋ 12์ |
| ๋ฌธ๋งฅ | 16K ํ ํฐ | 256K ํ ํฐ |
| ์ถ๋ ฅ | ํ ์คํธ ์ถ๋ก | ํ ์คํธ + ๊ถค์ ์ขํ |
| ๊ณต๊ฐ ์ธ์ง | ์ ํ์ | 2D/3D ์ขํ, ๋ฐ์ด๋ฉ ๋ฐ์ค, ๊ถค์ |
| ๋ฐฐํฌ ํฌ๊ธฐ | 7B, 56B | 2B, 8B |
| GPU ์๊ตฌ | ~16GB (7B) | 24GB (2B), 32GB (8B) |
| ๋ผ์ด์ ์ค | NVIDIA Open Model License | NVIDIA Open Model License |
5. ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ์๋ฅผ ์ํ ์์ฌ์
5.1 ์ Qwen VL ๊ธฐ๋ฐ์ธ๊ฐ?
NVIDIA๊ฐ ์์ฒด ๊ฐ๋ฐ ๋์ Qwen์ ๊ธฐ๋ฐ์ผ๋ก ์ ํํ ์ด์ :
- ์คํ์์ค ์ํ๊ณ: Apache 2.0 / ์ฐ๊ตฌ ๋ผ์ด์ ์ค๋ก ์ปค์คํฐ๋ง์ด์ง ์ฉ์ด
- ๊ฒ์ฆ๋ ์ฑ๋ฅ: ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ์์ ์์๊ถ ์ ์ง
- ํจ์จ์ ์ธ ์ํคํ ์ฒ: Dynamic Resolution, M-RoPE ๋ฑ ํ์ ์ ์ค๊ณ
- ํ๋ฐํ ์ ๋ฐ์ดํธ: ๋น ๋ฅธ ๊ฐ๋ฐ ์ฌ์ดํด (6๊ฐ์ ๋ด 2.5โ3 ์ ๊ทธ๋ ์ด๋)
5.2 Allegro Hand ์ฐ๊ตฌ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ
Cosmos Reason์ ์ ๋ก๋ด ์ฐ๊ตฌ์ ํ์ฉํ ์ ์๋ ์๋๋ฆฌ์ค:
- ๋น๋์ค ๊ธฐ๋ฐ ์์ฐ ํ์ต: ์ฌ๋์ ์กฐ์ ์์์ ๋ถ์ํ์ฌ grasp ๊ณํ ์์ฑ
- ๋ฌผ๋ฆฌ์ ์ถ๋ก : โ์ด ๋ฌผ์ฒด๋ฅผ ์ง์ผ๋ ค๋ฉด ์ด๋ค ์๊ฐ๋ฝ ๋ฐฐ์น๊ฐ ํ์ํ๊ฐ?โ
- ์คํจ ๋ถ์: ์กฐ์ ์คํจ ์์์์ ์์ธ ์ถ๋ก
- ๋ฐ์ดํฐ ์ด๋ ธํ ์ด์ : ๋๊ท๋ชจ ์กฐ์ ๋ฐ์ดํฐ์ ์๋ ๋ผ๋ฒจ๋ง
5.3 ์ค์ฉ์ ๋ฐฐํฌ ๊ณ ๋ ค์ฌํญ
| ๋ชจ๋ธ | GPU ๋ฉ๋ชจ๋ฆฌ | ์ถ์ฒ ์ฉ๋ |
|---|---|---|
| Cosmos-Reason2-2B | 24GB | ์ฃ์ง ๋๋ฐ์ด์ค, ์ค์๊ฐ ์ถ๋ก |
| Cosmos-Reason2-8B | 32GB | ์ฐ๊ตฌ ์ํฌ์คํ ์ด์ , ๊ณ ํ์ง ์ถ๋ก |
vLLM์ ํตํ ๋ฐฐํฌ ์์:
6. ๊ฒฐ๋ก ๋ฐ ์ ๋ง
NVIDIA Cosmos Reason์ ์์ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌผ๋ฆฌ ์ธ๊ณ๋ก ํ์ฅํ๋ ์ค์ํ ์ด์ ํ์ ๋๋ค. Qwen VL ์๋ฆฌ์ฆ๋ผ๋ ๊ฐ๋ ฅํ ์คํ์์ค ๊ธฐ๋ฐ ์์ Physical AI ํนํ ํ๋ จ์ ๋ํด, ๋ก๋ด์ด โ๋ณด๊ณ ์๊ฐํ๊ณ ํ๋ํ๋โ ๋ฅ๋ ฅ์ ํ๋ํ๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ํ ์ดํฌ์ด์จ์ด:
- Qwen2.5-VL์ M-RoPE์ Dynamic Resolution์ ์ด๋ฏธ์ง/๋น๋์ค ์ดํด์ ๊ธฐ๋ฐ
- Qwen3-VL์ Interleaved-MRoPE, DeepStack, Text-Timestamp๋ ์ฅ์๊ฐ ๋น๋์ค์ ์ ๋ฐํ ์๊ณต๊ฐ ์ถ๋ก ์ ์ํ ์งํ
- Cosmos Reason์ ์ด ๊ธฐ๋ฐ ์์ ๋ฌผ๋ฆฌ์ ์์, ํ๋ ๊ณํ, ๊ถค์ ์ถ๋ ฅ ๋ฅ๋ ฅ์ ์ถ๊ฐ
๋ก๋ณดํฑ์ค ๋ถ์ผ์์ VLA(Vision-Language-Action) ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ๋ ์ง๊ธ, Cosmos Reason๊ณผ ๊ฐ์ ์ถ๋ก VLM์ perception๊ณผ action ์ฌ์ด์ โthinkingโ ๋ ์ด์ด๋ก์ ํต์ฌ์ ์ธ ์ญํ ์ ํ ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ์๋ฃ
๋ ผ๋ฌธ ๋ฐ ๊ธฐ์ ๋ณด๊ณ ์
- Qwen2.5-VL Technical Report (arXiv:2502.13923)
- Qwen3-VL Technical Report (arXiv:2511.21631)
- Qwen2-VL: Enhancing Vision-Language Modelโs Perception (arXiv:2409.12191)
- DeepStack: Deeply Stacking Visual Tokens (arXiv:2406.04334)
- Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning (arXiv:2503.15558)
๋ชจ๋ธ ์ ์ฅ์
- Qwen2.5-VL Collection (Hugging Face)
- Qwen3-VL GitHub
- Qwen3-VL-32B-Instruct (Hugging Face)
- Cosmos-Reason1 GitHub
- Cosmos-Reason2 GitHub
- Cosmos-Reason2 Collection (Hugging Face)
NVIDIA ๊ณต์ ์๋ฃ
- NVIDIA Cosmos Documentation
- Cosmos Cookbook (๋ฐฐํฌ ๊ฐ์ด๋)
- NVIDIA Developer Blog - Cosmos Reason
- NVIDIA Newsroom: Physical AI Models (CES 2026)
- Cosmos Reason 2 Hugging Face Blog
๊ธฐ์ ๋ถ์ ์๋ฃ