flowchart LR
subgraph BK["1 Molmo2-ER ๋ฐฑ๋ณธ"]
ER["VLM (3.3M ์ฒดํ์ถ๋ก <br/>specialize-then-rehearse)"]
end
subgraph DATA["2 ์คํ ๋ก๋ด ๋ฐ์ดํฐ"]
D1["BimanualYAM 720h"]
D2["DROID ์ ์ ๋ณธ"]
D3["SO-100/101 ์ ์ ๋ณธ"]
end
subgraph TRAIN["3-stage ํ์ต"]
PRE["Pre-train<br/>(์ด์ฐ AR + FAST tokenizer)"]
POST["Post-train<br/>(flow-matching expert<br/>+ ์ธต๋ณ KV ์กฐ๊ฑดํ)"]
FT["Embodiment ๋ฏธ์ธ์กฐ์ "]
end
BK --> PRE
DATA --> PRE
PRE --> POST --> FT
POST -.->|์ ์ํ depth| THINK["MolmoAct2-Think"]
FT --> DEP["Out-of-the-box ๋ฐฐํฌ<br/>YAM / SO-100/101 / DROID"]
๐MolmoAct2
- ๐ค MolmoAct2๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ์ํ ์์ ํ ๊ฐ๋ฐฉ๋ VLA(Vision-Language-Action) ๋ชจ๋ธ๋ก, ๊ธฐ์กด ์์คํ ์ ํ๊ณ์ ์ ๊ฐ์ ํ๋ฉฐ ๊ฐ๋ ฅํ Action Reasoning ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- ๐ ์ด ๋ชจ๋ธ์ ๊ณต๊ฐ ๋ฐ embodied reasoning์ ํนํ๋ Molmo2-ER VLM backbone, ๋๊ท๋ชจ์ MolmoAct2-BimanualYAM, DROID, SO100/101 ๋ฐ์ดํฐ์ , MolmoAct2-FAST Tokenizer, ์๋ก์ด per-layer KV conditioning VLA architecture, ๊ทธ๋ฆฌ๊ณ ์ ์ํ ๊น์ด ์ถ๋ก ์ ํตํ MolmoAct2-Think์ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ํฉ๋๋ค.
- ๐ MolmoAct2๋ 7๊ฐ์ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ฒค์น๋งํฌ์์ ฯ0.5์ ๊ฐ์ ๊ฐ๋ ฅํ Baseline์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, Molmo2-ER์ 13๊ฐ์ embodied-reasoning ๋ฒค์น๋งํฌ์์ GPT-5 ๋ฐ Gemini Robotics ER-1.5๋ฅผ ๋ฐ์ด๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๊ณ ๋ชจ๋ธ ๊ฐ์ค์น, ํ์ต ์ฝ๋ ๋ฐ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds. ์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ ์ํ Vision-Language-Action (VLA) ๋ชจ๋ธ์ธ โMolmoAct2: Action Reasoning Models for Real-World Deploymentโ๋ฅผ ์ ์ํฉ๋๋ค. ํ์ฌ VLA ์์คํ ์ ์ค์ธ๊ณ ๋ฐฐํฌ์ ์ฌ๋ฌ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ฃผ์ ๋ฌธ์ ์ ์ผ๋ก๋ ๋ชจ๋ธ์ด Closed-source์ด๊ฑฐ๋, ๊ณ ๊ฐ์ ํ๋์จ์ด์ ์ข ์๋๊ฑฐ๋, ์ถ๋ก (reasoning) ๊ธฐ๋ฐ ์ ์ฑ ์ด ๋์ ์ง์ฐ ์๊ฐ์ ๋ฐ์์ํค๊ฑฐ๋, ๋ฏธ์ธ ์กฐ์ (fine-tuning) ํ์๋ ์ ๋ขฐํ ์ ์๋ ์์ค์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ง ๋ชปํ๋ค๋ ์ ์ ๋๋ค. MolmoAct2๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ ํ Open-source๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ด์ ๋ฒ์ ์ธ MolmoAct๋ฅผ ๋ค์ฏ ๊ฐ์ง ์ธก๋ฉด์์ ๋ฐ์ ์์ผฐ์ต๋๋ค.
1. ํต์ฌ ๋ฐ์ ๋ฐฉํฅ
MolmoAct2๋ ๋ค์ ๋ค์ฏ ๊ฐ์ง ํต์ฌ ์ถ์ ์ค์ฌ์ผ๋ก ๊ฐ๋ฐ๋์์ต๋๋ค: 1. Molmo2-ER์ด๋ผ๋ ์๋ก์ด VLM ๋ฐฑ๋ณธ: ๊ณต๊ฐ ๋ฐ ํ๋ ์ถ๋ก (embodied reasoning)์ ํนํ๋ Molmo2-ER์ 3.3M ์ํ ์ฝํผ์ค์ specialize-then-rehearse ๋ฐฉ์์ผ๋ก ํ์ต๋์์ต๋๋ค. 2. ์ธ ๊ฐ์ง ์๋ก์ด ๋ก๋ด ๋ฐ์ดํฐ์
: ์ ๊ฐ์์ ์ค๊ฐ ํ๋ซํผ์ ๊ฑธ์ณ MolmoAct2-BimanualYAM (720์๊ฐ, ์ต๋ ๊ท๋ชจ์ ์์ ์กฐ์ ๋ฐ์ดํฐ์
), MolmoAct2-DROID (ํ์ง ํํฐ๋ง๋ Franka DROID ์๋ธ์
), MolmoAct2-SO100/101 (ํ์ง ํํฐ๋ง๋ SO-100/101 ์๋ธ์
)์ด ๊ณต๊ฐ๋์์ต๋๋ค. 3. MolmoAct2-FAST Tokenizer: ์๋ฐฑ๋ง ๊ฐ์ ๊ถค์ (trajectory)์ ๊ฑธ์ณ ๋ค์ฏ ๊ฐ์ง ๋ก๋ด ์ข
๋ฅ(embodiment)๋ก ํ์ต๋ Open-weight, Open-data Action Tokenizer์
๋๋ค. 4. ์๋ก์ด VLA ์ํคํ
์ฒ ๋์์ธ: ์ด์ฐ ํ ํฐ(discrete-token) VLM์ per-layer key-value (KV) conditioning์ ํตํด flow-matching continuous-action expert์ ์ฐ๊ฒฐํฉ๋๋ค. 5. MolmoAct2-Think: ์ ์ํ ๊น์ด ์ถ๋ก (adaptive-depth reasoning) ๋ณํ์ผ๋ก, timesteps ์ฌ์ด์ ๋ณ๊ฒฝ๋ ์ฅ๋ฉด ์์ญ์ ๋ํด์๋ง ๊น์ด ํ ํฐ์ ์ฌ์์ธกํ์ฌ ์ง์ฐ ์๊ฐ์ ์ค์ด๋ฉด์๋ ๊ธฐํํ์ grounding์ ์ ์งํฉ๋๋ค.
2. Molmo2-ER: ํ๋ ์ถ๋ก ์ ์ํ ๊ฐ๋ ฅํ VLM ๋ฐฑ๋ณธ
๊ธฐ์กด VLM ๋ฐฑ๋ณธ์ ๋ก๋ด ์ ์ด์ ํ์ํ ๋ฏธํฐ๋ฒ(metric), ๊ธฐํํ์ (geometric), ์๊ฐ์ (temporally grounded) ์ถ๋ก ๋ณด๋ค๋ ์๋ฏธ๋ก ์ ์ด๋ฏธ์ง ์ดํด์ ์ต์ ํ๋์ด ์์ต๋๋ค. MolmoAct2๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Molmo2 (Clark et al., 2026)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Molmo2-ER์ ๊ฐ๋ฐํ์ต๋๋ค. ์ด๋ ์ฅ๋ฉด ์ดํด, ํฝ์ ๋จ์ ํฌ์ธํ (pixel-accurate pointing), ๋ค์ค ์ด๋ฏธ์ง(multi-image) ๋ฐ ์์์ค์ฌ์ ์ถ๋ก (egocentric reasoning), ์ธ๋ถ์ค์ฌ์ ๋์(exocentric correspondence), ๋น๋์ค ์๊ฐ ์ถ๋ก (video temporal reasoning)๊ณผ ๊ฐ์ ํน์ ํ๋ ์ง๊ฐ(embodied perception) ๊ธฐ์ ์ ๋ํด ๋ฏธ์ธ ์กฐ์ ๋์์ต๋๋ค.
Molmo2-ER์ ํ์ต ๋ฐ์ดํฐ๋ ์ฝ 3.3M ์ํ๋ก ๊ตฌ์ฑ๋ ์๋ก์ด embodied reasoning corpus๋ก, 6๊ฐ์ง ์ํธ ๋ณด์์ ์ธ ๋ฅ๋ ฅ ์ถ์ ํฌํจํฉ๋๋ค: single-image embodied QA, image pointing, image detection, video embodied QA, multi-image and egoโexo reasoning, abstract embodied reasoning. ๊ฐ ์ถ์ ์๋ฎฌ๋ ์ดํฐ ground truth, 3D ์ฃผ์์ด ๋ฌ๋ฆฐ ์ค์ ์ค์บ, template-generated QA, ์๋์ LLM-generated chain-of-thought ๋ฑ ๋ค์ํ ๊ฐ๋
์์ค๋ฅผ ๊ฐ์ง 2~3๊ฐ์ ๋ฐ์ดํฐ์
์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ํ์ต ๋ฐฉ์์ specialize-then-rehearse ๋ ์ํผ๋ฅผ ๋ฐ๋ฆ
๋๋ค:
- Stage 1: Embodied specialization. Molmo2-4B
mid-training checkpoint์์ ์์ํ์ฌ, Molmo2-ER ์ฝํผ์ค์ 8%์ Tulu-3text-only data๋ฅผ ์ถ๊ฐํ์ฌ 20Ksteps๋์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์ด ๋จ๊ณ๋ ๋ชจ๋ธ์ด ํ๋ ๋ฐ์ดํฐmanifold๋ก ๋น ๋ฅด๊ฒ ์ด๋ํ๋๋ก ํฉ๋๋ค. - Stage 2: Joint refinement. Stage 1
checkpoint๋ฅผ Molmo2-ER ์ฝํผ์ค์ Molmo2์ ์๋ณธmultimodal mid-training data(์ผ๋ฐ VQA, ์บก์ , ํ์ ๋ฒค์น๋งํฌ, ์ถ์ , Molmo2 ํฌ์ธํ )๋ฅผinterleaveํ ํผํฉ ๋ฐ์ดํฐ์ ์์ 1.5Ksteps๋์ ์ถ๊ฐ ํ์ตํฉ๋๋ค.
3. ๋ฐ์ดํฐ์ : ๋๊ท๋ชจ์ ๊ณ ํ์ง ๋ก๋ด ๋ฐ์ดํฐ
MolmoAct2๋ ์ธ ๊ฐ์ง ๋ณด์์ ์ธ ์์ค์ ํ์ต ๋ฐ์ดํฐ์ ์ ํตํฉํฉ๋๋ค:
- MolmoAct2-BimanualYAM Dataset: 720์๊ฐ ์ด์์
teleoperatedYAM ๊ถค์ ์ ํฌํจํ๋ 34.5k ๋ก๋ด ๋ฐ๋ชจ๋ก,tabletop๋ฐhousehold tasks๋ฅผ ํฌ๊ดํ๋ ์ต๋ ๊ท๋ชจ์ Open-source ์์ ์กฐ์ ๋ฐ์ดํฐ์ ์ ๋๋ค.Cortex AI์ ์๊ฒฉํ ํ๋กํ ์ฝ ํ์ ์์ง๋์ด ๋์ ๋ฐ์ดํฐ ํ์ง์ ๋ณด์ฅํฉ๋๋ค. - MolmoAct2-SO100/101 Dataset:
Hugging Face์ ์ ๊ฐ ๋ก๋ด ํ๋ซํผ์ธ SO-100/101 ์ปค๋ฎค๋ํฐ ๋ฐ์ดํฐ(LeRobot๋ฐ์ดํฐ)๋ฅผ ํ๋ ์ด์ ๋ฐ ํํฐ๋งํ์ฌ ์์ฑ๋์์ต๋๋ค. 1,222๊ฐ์LeRobot datasets์์ 38,059๊ฐ์ ๋ก๋ด ๋ฐ๋ชจepisode๋ฅผ ์ถ์ถํ์ผ๋ฉฐ, ๊ตฌ์กฐ์ ์ ํจ์ฑ ๊ฒ์ฌ,eval-style datasets์ ๊ฑฐ, ๋ผ์ด์ ์ค/์ฝ๋๋ฒ ์ด์ค ํ์ธ,TOPRewardํ์ง ๊ฒ์ดํธ(Chen et al., 2026)๋ฅผ ํฌํจํ๋ 4๋จ๊ณ ํํฐ๋ง ํ์ดํ๋ผ์ธ์ ์ ์ฉํ์ต๋๋ค. - MolmoAct2-DROID Dataset: ๋๊ท๋ชจ
in-the-wild๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์ ์ธ DROID (Khazatsky et al., 2024)์ ํ์ง ํํฐ๋ง๋ Franka ์๋ธ์ ์ ๋๋ค.extended language annotations๋ฐidle-frame filter๋ฅผ ์ฌ์ฉํ์ฌ 74,604๊ฐ์ ์ ํจํepisode๋ฅผ ํฌํจํฉ๋๋ค.
์ด ์ธ ๋ฐ์ดํฐ์
๋ชจ๋์ ๋ํด VLM (Qwen3.5-27B)์ ์ฌ์ฉํ์ฌ ์ธ์ด ์ง์นจ(language instruction)์ ์ฌ์ฃผ์(re-annotate)ํ์ฌ ๋ค์์ฑ๊ณผ ์ ํ์ฑ์ ํฅ์์์ผฐ์ต๋๋ค. ๋ํ, Open X-Embodiment (OXE) ํผํฉ ๋ฐ์ดํฐ์
์ targeted subset (BC-Z, BridgeData V2, RT-1) ๋ฐ MolmoAct Dataset์ ํฌํจํ๋ ํ์ ๋ก๋ด ๋ฐ์ดํฐ์
์ ์ถ๊ฐํ์ฌ embodiment breadth๋ฅผ ํ์ฅํ์ต๋๋ค.
4. MolmoAct2 ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ํ์ต ํ์ดํ๋ผ์ธ
MolmoAct2๋ ์ธ ๋จ๊ณ์ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ฐ๋ฆ ๋๋ค.
4.1. Pre-training (MolmoAct2-Pretrain)
MolmoAct2-Pretrain์ Molmo2-ER VLM ๋ฐฑ๋ณธ์ ์ด์ฐ์ ์๊ธฐํ๊ท ๋ก๋ด ์ ์ฑ
(discrete autoregressive robot policy)์ผ๋ก ๋ณํํ๋ฉฐ, Molmo2์ ํ ํฐ ์ธํฐํ์ด์ค๋ฅผ ์ ์งํฉ๋๋ค. ์ด๋ฏธ์ง์ ๋น๋์ค ํ๋ ์์ ViT๋ก ์ธ์ฝ๋ฉ๋๊ณ , vision-language connector๋ฅผ ํตํด ์ธ์ด ๋ชจ๋ธ๋ก ์ ๋ฌ๋ฉ๋๋ค. ๋ก๋ด ์์ ๋ ํ์ฌ ๋ก๋ด ๊ตฌ์ฑ(configuration)์ ์ค๋ช
ํ๋ state tokens์ ๋ฏธ๋ 1์ด๊ฐ์ ์์ง์์ ์ค๋ช
ํ๋ action tokens๋ฅผ ์ถ๊ฐํฉ๋๋ค.
4.1.1. MolmoAct2-FAST Tokenizer
๋ก๋ด ๋์์ ์ฐ์์ (continuous), embodiment-specificํ๋ฉฐ ๋ค์ํ ์ ์ด ์๋(control rates)๋ฅผ ๊ฐ์ง๋ฏ๋ก, ์ธ์ด ๋ชจ๋ธ์ pre-training stream์ ์ง์ ์ฝ์
ํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ MolmoAct2-FAST Tokenizer๋ FAST (Pertsch et al., 2025)๋ฅผ ๋ฐ๋ผ ํ๋ จ๋ Open-weight, Open-data Action Tokenizer์
๋๋ค. ์ด๋ 1์ด์ ๋์ ๊ถค์ ์ ์ฃผํ์ ์์ญ ๋ณํ(frequency-domain transform)์ผ๋ก ํํํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์์ํ(quantizing)ํ ํ, byte-pair encoding
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ฌผ๋ฆฌ์ ์ง๋ฅ(physical intelligence)์ ์ถ์์ ๋ด๋ถ ๊ณ์ฐ์ด ์๋๋ผ ์ง๊ฐ๊ณผ ํ๋ ์ ์ค์ฌ์ผ๋ก ์กฐ์ง๋ฉ๋๋ค. ์ฌ๋์ ๊ณต๊ฐ ํ์์ ๋ง๋ค๊ณ , ํ๋์ ์๋ฎฌ๋ ์ด์ ํ๊ณ , ๋ชธ์ผ๋ก ์ธ์๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ฌ๊ณ ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ค๋๋ ์ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ด ์ธ์ง๊ณผํ์ ๊ด์ ์์ ๋ณด๋ฉด ๋ถ์์ ํฉ๋๋ค. ๊ตฌ์กฐํ๋ ๊ณต๊ฐ ํ์์ด ๋ถ์กฑํ๊ณ , ๋ฌด๊ฑฐ์ด ๋ด๋ถ ์ถ๋ก ์ด ์ค์๊ฐ ์ํธ์์ฉ์ ๋ฐฉํดํ๋ฉฐ, ํ์์ฑ ๋๋ฌธ์ ์ ์์ ยทembodiment๋ก ํ์ฅํ๊ธฐ ์ด๋ ต์ต๋๋ค.
์ ์๋ค์ด ์ง๋ ๊ธด์ฅ(tension)์ ๋ถ๋ช ํฉ๋๋ค.
- ์ถ๋ก ์ ์ฑ๋ฅ์ ๋์ด์ง๋ง ์ง์ฐ์ ๋ถ๋ฅธ๋ค. grounded ๊ณต๊ฐ ์ถ๋ก , ์์ธก goal ์ด๋ฏธ์ง, point trajectory, world-model rollout ๋ฑ์ ํ๋ ํ์ง๊ณผ ํด์์ฑ์ ๋์ด์ง๋ง, ํ์ฌ ๊ตฌํ์์๋ ๋จ์ผ ํ๋ ํ๋๋ฅผ ๋ด๊ธฐ ์ ์ ์๋ฐฑ ๊ฐ ํ ํฐ์ด๋ ํต์งธ ํ๋ ์์ ์์ฑ ํด์ผ ํด์ ํ๋ฃจํ ์ ์ด๊ฐ ๋ถ๊ฐ๋ฅํ ๋งํผ ๋๋ ค์ง๋๋ค.
- ์ถ๋ก ์ ๊ฒฐ๊ตญ ๋ฐ๋ฐํ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋งํผ๋ง ์ข๋ค. ๋๋ถ๋ถ์ ํ๋ฐํฐ์ด ์ ์ฑ ์ embodiment์ ํนํ๋ผ ์ ์์ ยท๋ก๋ด์ผ๋ก ์ ์์ด ์ด๋ ต๊ณ , ํ๋ฐํฐ์ด VLA๋ ํ์ต ๋ฐ์ดํฐยท๋ ์ํผยทweight๊ฐ ๋ชจ๋ ๋น๊ณต๊ฐ์ ๋๋ค. ์์์ ์คํ weight VLA๋ง์ ๋น์ธ๊ฑฐ๋ ํน์ํ ๋ก๋ด ํ๋ซํผ์ ๋ฌถ์ฌ ์์ด, ๋๊ฐ ์ธ ์ ์๋์ง์ ์ด๋์ ํ๊ฐยท๊ฐ์ ๋ ์ ์๋์ง๋ฅผ ๋์์ ์ ์ฝํฉ๋๋ค.
MolmoAct2์ ํ ์ค ์์ฝ: ๊ฐ๋ ฅํ ์คํ ์ฒดํ์ถ๋ก VLM(Molmo2-ER) ์ ๋ฐฑ๋ณธ์ผ๋ก, ์ ~์ค๊ฐ ํ๋ซํผ์ ๊ณ ํ์ง ์คํ ๋ฐ์ดํฐ ๋ฅผ ๋ชจ์ผ๊ณ , ์ด์ฐ ํ ํฐ VLM + ์ฐ์ ์ก์ expert ๋ฅผ ์ธต๋ณ KV๋ก ์๊ณ , ์ ์ํ ๊น์ด ์ถ๋ก (MolmoAct2-Think) ์ผ๋ก ๋น ๋ฅด๊ณ ํด์ ๊ฐ๋ฅํ ์ถ๋ก ๊น์ง โ ์ด ๋ชจ๋ ๊ฒ์ weightยท์ฝ๋ยท๋ฐ์ดํฐ๊น์ง ์์ ๊ฐ๋ฐฉ ์ผ๋ก ๋ฌถ์ด ์ค์ธ๊ณ ๋ฐฐํฌ ๊ฐ๋ฅํ ์ก์ ์ถ๋ก ๋ชจ๋ธ์ ๋ง๋ ๋ค.
๋ฐฉ๋ฒ
MolmoAct2๋ 3๋จ๊ณ ํ์ต(pre-training โ post-training โ embodiment ๋ฏธ์ธ์กฐ์ ) ์์ ์๋ฉฐ, ํต์ฌ ์ค๊ณ ์ฒ ํ์ โ์ฌ์ ํ์ต VLM์ ์ค์ผ์ผ๋งยท์ธ์ด๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ๋ค์ํ embodiment์ ์ ๋ฐํ ์ฐ์ ํ๋์ ๋ง๋ ๋คโ์ ๋๋ค.
Molmo2-ER: ์ฒดํ ์ถ๋ก ๋ฐฑ๋ณธ
์ผ๋ฐ VLM์ ์๋ฏธ์ ์ด๋ฏธ์ง ์ดํด์ ์ต์ ํ๋ผ, ๋ก๋ด ์ ์ด์ ํ์ํ ๊ฑฐ๋ฆฌยท์์ ๊ณต๊ฐยท์์ ๊ฐ ๋์ยท์ฅ๋ฉด ๊ธฐํ ๊ฐ์ ๋ฅ๋ ฅ์ด ์ฝํฉ๋๋ค. ์ ์๋ค์ Molmo2๋ฅผ ์ฝ 3.3M ์ํ ์ ์ฒดํ ์ถ๋ก ์ฝํผ์ค๋ก ๋ฏธ์ธ์กฐ์ ํด Molmo2-ER์ ๋ง๋ญ๋๋ค. ์ฝํผ์ค๋ 6๊ฐ ์ญ๋ ์ถ(๋จ์ผ ์ด๋ฏธ์ง ์ฒดํ QA, pointing, object detection, ๋น๋์ค ์ฒดํ QA, multi-image/ego-exo, ์ถ์ ์ถ๋ก )์ ๋ค์ํ ์ถ์ฒ(์๋ฎฌ๋ ์ดํฐ ์ ๋ต, 3D ์ฃผ์ ์ค์ธก ์ค์บ, ํ ํ๋ฆฟ QA, ์๋ LLM chain-of-thought)๋ก ๋ฎ์ต๋๋ค.
Specialize-then-rehearse ๋ ์ํผ๋ ๋ ๋จ๊ณ์ ๋๋ค.
- Stage 1 (์ฒดํ ํนํ): Molmo2-4B mid-training ์ฒดํฌํฌ์ธํธ์์ ์์, ์ฒดํ ์ฝํผ์ค + 8% Tulu-3 ํ ์คํธ๋ก 20K step ๋ฏธ์ธ์กฐ์ (์ธ์ด๋ฅ๋ ฅ ๋ณด์กด).
- Stage 2 (๊ณต๋ ์ฌ์ ๋ จ): ์ฒดํ ์ฝํผ์ค๋ฅผ Molmo2 ์๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ์์ด 1.5K step ์ถ๊ฐ ํ์ต. NLP 8%, ๋๋จธ์ง 92%๋ฅผ embodied/general๋ก ๋ถ๋ฐฐ(์ต์ p=0.5).
๊ฒฐ๊ณผ์ ์ผ๋ก Molmo2-ER์ 13๊ฐ ํ์ค ์ฒดํ์ถ๋ก ๋ฒค์น๋งํฌ ์ค 9๊ฐ์์ 1์, ํ๊ท 63.8% ๋ก Gemini Robot-ER 1.5 ThinkingยทGPT-5๋ฅผ ๋ฅ๊ฐํ๊ณ , ์์์ Molmo2 ๋๋น +17์ ํฅ์ํ์ต๋๋ค.
MolmoAct2-FAST Tokenizer
๋ก๋ด ํ๋์ ์ฐ์์ ยทembodiment๋ณ๋ก ๋ค๋ฅด๊ณ ์ ์ด ์ฃผํ์๋ ์ ๊ฐ๊ฐ์ด๋ผ ์ธ์ด๋ชจ๋ธ ํ ํฐ์ผ๋ก ์ง์ ๋ฃ์ ์ ์์ต๋๋ค. FAST๋ฅผ ๋ฐ๋ฅธ ์คํ weightยท์คํ ๋ฐ์ดํฐ ํ ํฌ๋์ด์ ๋ก, 1์ด ํ๋ ๊ถค์ ์ ์ฃผํ์ ๋๋ฉ์ธ ๋ณํ โ ๊ณ์ ์์ํ โ byte-pair encoding ์ผ๋ก 2048 ํ ํฐ ์ดํ ์ ์ด์ฐ ์ํ์ค๋ก ์์ถํฉ๋๋ค. 5๊ฐ embodiment(YAMยทSO-100/101ยทDROIDยทBC-ZยทBridgeยทRT-1 ๋ฑ) 100๋ง ํ๋ ์ํ์ค๋ก ํ์ตํ๋ฉฐ, ๋ชจ๋ ํ๋์ 32์ฐจ์์ผ๋ก ํจ๋ฉ ํ๊ณ 1โ99 ํผ์ผํ์ผ๋ก ์ ๊ทํ(gripper๋ ๋ณ๋ ์ฒ๋ฆฌ)ํด ๊ด์ ๊ณต๊ฐยท์๋์ดํํฐ ์ ์ด๋ฅผ ํ ํ ํฌ๋์ด์ ๋ก ๋ฎ์ต๋๋ค.
Pre-training: ์ด์ฐ ์๊ธฐํ๊ท ์ ์ฑ
Molmo2-ER์ ๊ทธ๋๋ก ๋๊ณ , ์ด๋ฏธ์ง/๋น๋์ค๋ ViT(SigLIP2)๋ก ์ธ์ฝ๋ฉโconnector๋ก ํ๋งโLLM์ ํ ์คํธ์ ํจ๊ป ์ ๋ฌํฉ๋๋ค. ๋ก๋ด ์์ ๋ ๋ ํ ํฐ ์คํธ๋ฆผ์ ์ถ๊ฐํฉ๋๋ค โ ํ์ฌ ๋ก๋ด ๊ตฌ์ฑ์ ๋ด๋ state ํ ํฐ(256๊ฐ๋ก ๊ท ์ผ ์์ํ), ๋ฏธ๋ 1์ด ํ๋์ ๋ด๋ action ํ ํฐ(FAST tokenizer). ์ฆ ํ ์คํธยทVLยทstateยทaction์ ํ๋์ next-token ์์ธก ๋ชฉํ ๋ก ํต์ผํด, ๋ณ๋ ์ฐ์ head ์์ด ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ๋จ์ยท์์ ํํฉ๋๋ค(200K step, ์ํ์ค 4200, 64รH100, ์ฝ 5,760 GPU-hours).
Post-training: flow-matching ์ก์ expert + ์ธต๋ณ KV ์กฐ๊ฑดํ
์ด์ฐ ํ ํฐ VLM์ ์ถ๋ก grounding์ ๊ฐํ์ง๋ง, ์ถ๋ ฅ ๊ณต๊ฐ์ด ๊ณ ์ฃผํ ์ฐ์ ๊ถค์ ๊ณผ ์ ๋ง์ต๋๋ค. ๊ทธ๋์ DiT ์คํ์ผ flow-matching expert ๋ฅผ ๋ถ์ ๋๋ค. ์ ๊ทํ ์ก์ ์ฒญํฌ a, ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \epsilon, ์๊ฐ t\in[0,1] ์ ๋ํด
x_t = (1-t)\epsilon + ta, \qquad u^\star = a - \epsilon
expert f_\theta ๋ ๋ ธ์ด์ฆ ์ฒญํฌยท์๊ฐยทVLM ๋งฅ๋ฝ c ๋ก๋ถํฐ ๋ชฉํ ์๋์ฅ(velocity field)์ ์์ธกํฉ๋๋ค.
\mathcal{L}_{\text{flow}} = \mathbb{E}_{a,\epsilon,t}\Big[\big\lVert m \odot (f_\theta(x_t,t,c) - u^\star)\big\rVert_2^2\Big]
์ฌ๊ธฐ์ m ์ ํจ๋ฉ ์ฐจ์/์คํ ์ ๋ง์คํนํฉ๋๋ค. ์ถ๋ก ์์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ์์ ์์ํด ์๋์ฅ์ ์ ๋ถํด ์ฐ์ ๊ถค์ ์ ์์ฑํฉ๋๋ค.
ํต์ฌ ์ค๊ณ โ ์ธต๋ณ KV ์กฐ๊ฑดํ. expert๊ฐ VLM ๋งฅ๋ฝ์ ์ด๋ป๊ฒ ๋ฐ๋๋๊ฐ ๊ด๊ฑด์ ๋๋ค. ๋ง์ง๋ง hidden state ํ๋๋ก ์์ถ(hidden-state conditioning)ํ๋ ๋์ , MolmoAct2๋ expert๋ฅผ VLM๊ณผ ๋์ผํ ๊น์ด(L=36 ์ธต) ๋ก ๋ง๋ค๊ณ , ๊ฐ ์ธต์ key/value๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ expert์ cross-attention์ ๋ฃ์ต๋๋ค.
\tilde{K}_\ell = \text{reshape}(P_K K_\ell^{\text{vlm}}), \qquad \tilde{V}_\ell = \text{reshape}(P_V V_\ell^{\text{vlm}})
\text{CA}(Q_\ell,\tilde{K}_\ell,\tilde{V}_\ell) = \text{softmax}\!\left(\frac{Q_\ell \tilde{K}_\ell^\top}{\sqrt{d_h}}\right)\tilde{V}_\ell
์ด๋ ๊ฒ ํ๋ฉด ์ฐ์ ์ปจํธ๋กค๋ฌ๊ฐ VLM ์์ ์ด ์ฐ๋ ๊ฒ๊ณผ ๋์ผํ attention ์ํ ์ ์ ๊ทผํ๋ฉด์๋ ๋ฐฑ๋ณธ๊ณผ ๋ชจ๋์์ผ๋ก ๋ถ๋ฆฌ๋ฉ๋๋ค(ablation์์ hidden-state 94.0% < per-layer KV 95.9%). ๋ํ knowledge insulation: expert๋ VLM keys/values์ ์กฐ๊ฑดํํ๋ ์ด ํ ์๋ฅผ detachํด, flow loss ๊ธฐ์ธ๊ธฐ๊ฐ VLM์ผ๋ก ์ญ์ ํ๋์ง ์์ต๋๋ค(VLM์ LM loss๋ก๋ง ๊ฐฑ์ ). ํ์ต ๋ชฉํ๋ ๋ ์์ค์ ํฉ์ ๋๋ค.
\mathcal{L}_{\text{post}} = \mathcal{L}_{\text{LM}} + \mathcal{L}_{\text{flow}}
๊ฐ ์ฒญํฌ๋น K=4 ๊ฐ flow ์ํ์ ์จ ๊ฐ์ VL ๋งฅ๋ฝ์ ์ฌ์ฌ์ฉํ๋ฉฐ ํจ์จ์ ๋์ ๋๋ค(100K step, ์ฝ 2,304 GPU-hours).
MolmoAct2-Think: ์ ์ํ ๊น์ด ์ถ๋ก
๋ก๋ด ์กฐ์์ ๊ฑฐ๋ฆฌยท์์ ๊ณต๊ฐยท๊ฐ๋ฆผยทํ๋ฉด ๋ฐฐ์น ๊ฐ์ ๊ณต๊ฐ ์ ๋ณด์ ์์กดํ์ง๋ง, ํ๋ ๋ชจ๋ฐฉ ๋ชฉํ๋ ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ๋ฌป์ง ์์ต๋๋ค. MolmoAct๋ depth ํ ํฐ ์์ธก ์ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ก ์ถ๊ฐํ๋๋ฐ, MolmoAct2-Think์ ์ฌ๊ธฐ์ ์ ์์ฑ ์ ๋ํฉ๋๋ค.
๊ฐ ๊ด์ธก depth map์ 10ร10 ๊ฒฉ์(100 ์์น) ๋ก ์์ํํ๊ณ , ๊ฐ ์์น๋ 128๊ฐ ํ์ต๋ ์ฝ๋ ์ค ํ๋(VQ-VAE, Depth Anything V2 ๊ธฐ๋ฐ)๋ฅผ ๊ฐ์ต๋๋ค. ํต์ฌ ํต์ฐฐ: ๋ก๋ด ๊ถค์ ์ ์๊ฐ์ ์ค๋ณต(temporal redundancy) ์ด ์ปค์, ํ ์ ์ด ์คํ ์์ ๋ค์์ผ๋ก ๊ฐ ๋ ์ฅ๋ฉด ๊น์ด ๊ฒฉ์์ ๋ง์ ์ ์ด ๊ทธ๋๋ก์ ๋๋ค. ๋งค ์คํ 100๊ฐ ์ฝ๋๋ฅผ ๋ค ์ฌ์์ธกํ์ง ์๊ณ , RGB ํจ์น ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ 0.996 ๋ฏธ๋ง์ผ๋ก ๋ณํ ์ ๋ง ์๊ธฐํ๊ท๋ก ๋ค์ ์์ธกํ๊ณ ๋๋จธ์ง๋ ์บ์๋ฅผ ์ฌ์ฌ์ฉํฉ๋๋ค.
m_{t,i} = \mathbf{1}\big[\cos(x_{t,i}, x_{t-1,i}) < 0.996\big], \qquad b_{t,i} = \begin{cases} d_{t,i}, & m_{t,i}=1 \\ b_{t-1,i}, & m_{t,i}=0 \end{cases}
๊ทธ ๊ฒฐ๊ณผ ๊ธฐํ ์ถ๋ก ๋น์ฉ์ด ์ ์ ์ฅ๋ฉด ๋น์จ์ ๋ฐ๋น๋ก ํ๊ฒ ์ค์ด, 100ํ ํฐ ์ ๋ถ๊ฐ ์๋๋ผ ๋ณํ ๋ถ๋ถ๋งํผ๋ง ์ถ๋ก ํฉ๋๋ค. ๋ฏธ์ธ์กฐ์ ์ depth ์ ๋ ฅ์ 10% ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํ๊ณ , depth ํ ํฐ KV์ ํ์ต๋ per-layer gate(์ด๊ธฐ bias โ4)๋ฅผ ๋ฌ, ๊ฐ expert ์ธต์ด depth prefix๋ฅผ ์ผ๋ง๋ ์ธ์ง ํ์ตํฉ๋๋ค.
๋ฐฐํฌ ์ต์ ํ
์ฐ์ expert ์ถ๋ก ์ ํ ์ฒญํฌ ์์์ VLM ๋งฅ๋ฝ์ด flow ์คํ ์ ๊ฑธ์ณ ๋ถ๋ณ์ด๋ฏ๋ก, ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ cross-attention ์ํ๋ฅผ ์บ์ ํ๊ณ ๊ณ ์ ํํ flow ๋ฃจํ๋ฅผ CUDA Graph ๋ก ์ก์ Pythonยท์ปค๋ ๋ฐ์น ์ค๋ฒํค๋๋ฅผ ์ค์ ๋๋ค.
์คํ
7๊ฐ ํ๊ฒฝ ๋ฒค์น๋งํฌ์ ๊ฑธ์น ๊ด๋ฒ์ํ ์ค์ฆ ์ฐ๊ตฌ๋ก, ์ธ ๋ฒ์ฃผ์ ์ง๋ฌธ์ ๋ตํฉ๋๋ค.
Molmo2-ER (์ฒดํ ์ถ๋ก ๋ฐฑ๋ณธ)
13๊ฐ VLM ์ฒดํ์ถ๋ก ๋ฒค์น๋งํฌ(Point-Bench, RefSpatial, BLINK, CV-Bench, ERQA, EmbSpatial, SAT, VSI-Bench ๋ฑ)์์, Molmo2-ER์ 9๊ฐ์์ ์คํ weight 1์, ํ๊ท 63.8% ๋ก ์ฐจ์์ Gemini-ER 1.5 Thinking์ 2.5์ ์์ฐ๊ณ , GPT-5ยทGemini 2.5 Pro ๊ฐ์ ๋น๊ณต๊ฐ ๋ชจ๋ธ๋ ๋์์ต๋๋ค. ๋ฐฑ๋ณธ์ Molmo2 โ Molmo2-ER๋ก ๋ฐ๊พธ๋ ๊ฒ๋ง์ผ๋ก LIBERO-Long ์ด์ฐ ํ๋ ์์ธก์ด 77.6% โ 83.6%(+6.0) ๋ก ์ฌ๋ผ, ์ฒดํ ํนํ๊ฐ VLM ๋ฒค์น๋งํฌ๋ฟ ์๋๋ผ ํ๋ ์์ธก์๋ ์ง์ ์ ์ด ๋จ์ ๋ณด์์ต๋๋ค.
Out-of-the-box ๋ฐฐํฌ
๋ฏธ์ธ์กฐ์ ์์ด ์ฌ์ ํ์ต ์ฒดํฌํฌ์ธํธ๋ฅผ ๊ทธ๋๋ก ๋ฐฐํฌํฉ๋๋ค.
| ํ๊ฐ | ์ฐจ์์ | MolmoAct2 |
|---|---|---|
| MolmoSpace (4 ์คํฌ ํ๊ท ) | \pi_{0.5}-DROID 34.5 | 37.7 (+3.2) |
| DROID ์ค์ธ๊ณ (5 ์์ , OOD ์นด๋ฉ๋ผ/๋ฌผ์ฒด) | MolmoBot | 87.1% (+38.7%p) |
| SO-100/101 ์ค์ธ๊ณ (5 ์์ ) | \pi_0-SO100/101 45.3 | 56.7% (+11.4%p) |
ํนํ DROIDยทSO-100/101 ๋ฏธ์ธ์กฐ์ ์ฒดํฌํฌ์ธํธ๊ฐ ์ถ๊ฐ ํ์ต ์์ด ๊ฐ์ embodiment์ ๋ฐฐํฌ๋์ด \pi_{0.5} ๋ฅผ ํฌ๊ฒ ์์ ์ ์ด ์ธ์์ ์ ๋๋ค.
ํจ์จ์ ๋ฏธ์ธ์กฐ์
์์ ์์ฐ์ผ๋ก ์ ์์ ยทembodiment์ ์ ์ํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
| ๋ฒค์น๋งํฌ | ๊ฒฐ๊ณผ |
|---|---|
| LIBERO (4 suite ํ๊ท ) | 97.2%(MolmoAct2), 98.1%(Think) โ ์ ๋ฒ ์ด์ค๋ผ์ธ 1์ |
| RoboEval (bimanual Franka) | 44.3%, \pi_{0.5} ๋๋น +3.8 |
| ์ค์ธ๊ณ Bimanual YAM (8 ์์ ) | 7/8 1์, ํ๊ท 50.1% โ ์ฐจ์์ OpenVLA-OFT ๋๋น +15% |
MolmoAct2-Think & ๊ฐ๊ฑด์ฑ
- Think ํจ๊ณผ: LIBERO์์ 4๊ฐ suite ์ค 3๊ฐ ํฅ์, ๊ฐ์ฅ ์ด๋ ค์ด Long suite์์ +2.2%๋ก ์ต๋ โ ์ ์ํ ๊น์ด๊ฐ saturation ๋ ธ์ด์ฆ๊ฐ ์๋ ์ค์ง์ ์ด๋ ์์ ์์ฌ. ํ๊ท 97.2% โ 98.1%.
- OOD ๊ฐ๊ฑด์ฑ(๊ณต๊ฐ/์กฐ๋ช /์ธ์ด/distractor ๋ณํ): MolmoAct2-Think ํ๊ท 50.69% ๋ก ์ฐจ์์ OpenVLA-OFT ๋๋น +10.8%p. ๋ชจ๋ ๋ฒ์ฃผ์์ 1์(๋จ ๊ณต๊ฐ ๋ณํ 26.25%๋ก ๊ฐ์ฅ ๋ฎ์ ๊ฐ์ ์ฌ์ง).
- ๊ถค์ ํ์ง: RoboEval์์ ์๋ฃ ์๊ฐ(Stack Two Blocks 5.87s โ 4.70s), joint path length ์ฝ 2๋ฐฐ ๋จ์ถ ๋ฑ ๋ ์งง๊ณ ์์ ์ ยทํจ์จ์ ๊ถค์ .
Ablation & ์ถ๋ก ์๋
- ์กฐ๊ฑดํ ๋ฐฉ์: per-layer KV(95.9%) > per-head per-layer KV(94.8%) > hidden-state(94.0%).
- flow ์ํ ์: K=8 ์ด ํ๊ท 95.90%๋ก ์ต์ (K=1 94.15%).
- ๋ฏธ์ธ์กฐ์ ์ค๊ณ: ์ด์ฐ+์ฐ์ ๊ณต๋ํ์ต + full fine-tuning ์ด ํ๊ท 97.20%๋ก ์ต์ (action expert๋ง ํ์ต ์ 93.05%๋ก ๊ธ๋ฝ).
- ์ถ๋ก ์๋(LIBERO, H100, horizon 10): caching + CUDA Graph๋ก MolmoAct2 55.79 Hz(์๋ณธ 23.02 Hz ๋๋น 2.42๋ฐฐ), Think์ 12.71 Hz. ์ฐ์ ๊ฒฝ๋ก๊ฐ ์ด์ฐ ๊ฒฝ๋ก(14.17 Hz)๋ณด๋ค ๋นจ๋ผ ๊ธฐ๋ณธ ๋ฐฐํฌ ์ต์ ์ผ๋ก ์ฑํ.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์ง์ ํ ์์ ๊ฐ๋ฐฉ์ฑ. weightยทํ์ต ์ฝ๋ยท์ ์ฒด ๋ฐ์ดํฐ์ (720์๊ฐ bimanual ํฌํจ)ยทํ ํฌ๋์ด์ ๊น์ง ๊ณต๊ฐํด, ์ฌํยทํ์ฅยท์ ์์ ์ฅ๋ฒฝ์ ์ค์ง์ ์ผ๋ก ํ๋ญ ๋๋ค. โ์คํ weightโ์ ๊ทธ์น ๊ธฐ์กด VLA์ ์ฐจ๋ณํ๋๋ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ์ ๋๋ค.
- ์ถ๋ก ๊ณผ ์๋์ ๋์ ๊ณต๋ต. ์ ์ํ ๊น์ด(temporal redundancy ํ์ฉ)์ caching/CUDA Graph๋ก, โ์ถ๋ก ์ ๋ถ์ด๋ฉด ๋๋ ค์ง๋คโ๋ ํต๋ ์ ์ ๋ฉด ๋ฐ๋ฐํฉ๋๋ค. per-layer KV ์กฐ๊ฑดํ๋ hidden-state ๋๋น ์ฐ์๋ฅผ ablation์ผ๋ก ์ ์ฆํ์ต๋๋ค.
- ์ ~์ค๊ฐ ํ๋์จ์ด ์งํฅ. $6,000 ๋ฏธ๋ง bimanual YAM ์ ์ , ์ ๊ฐ SO-100/101 ์ง์์ผ๋ก ํ๊ณยท๋ ๋ฆฝ ์ฐ๊ตฌ์๊ฐ ์ค์ ๋ก ์ธ ์ ์๋ ๋ฒ์๋ฅผ ๊ฒจ๋ฅํ์ต๋๋ค.
- ๋ฐฉ๋ํ๊ณ ์ฒด๊ณ์ ์ธ ์ค์ฆ. 7๊ฐ ๋ฒค์น๋งํฌ + 13๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ + OOD/๊ถค์ ํ์ง/์๋/ablation๊น์ง, ์คํ VLA๋ก๋ ๊ฐ์ฅ ๊ด๋ฒ์ํ ํ๊ฐ๋ก ์ฃผ์ฅ์ ๋ท๋ฐ์นจํฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ธ๋ฐํ ๊ณต๊ฐ ์ผ๋ฐํ๋ ์ฌ์ ํ ์ฝ์ . OOD ํ๊ฐ์์ ๊ณต๊ฐ ๋ณํ(spatial variance) ์ฑ๊ณต๋ฅ ์ด 26.25%๋ก ๊ฐ์ฅ ๋ฎ์, ํ์ต ๋ถํฌ ๋ฐ ์์น ๋ฐฐ์น์ ๋ํ ๊ฐ๊ฑด์ฑ์ ๋ถ์กฑํฉ๋๋ค(์ ์๋ ์ธ์ ).
- ์ค์ธ๊ณ ์ ๋ ์ฑ๊ณต๋ฅ ์ ํ๊ณ. ์ค์ธ๊ณ bimanual YAM ํ๊ท 50.1%๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํฌ๊ฒ ์์์ง๋ง, ์ ๋๊ฐ์ผ๋ก๋ ์ ๋ขฐ์ฑ ์๋ ๋ฐฐํฌ ๊ธฐ์ค์ ๋ชป ๋ฏธ์น๋ ์์ ์ด ๋ง์ต๋๋ค. โdeployment-readyโ๋ผ๋ ํํ์ ์๋์ ์ฐ์์ ๊ฐ๊น์ต๋๋ค(์ถ์ธก).
- articulated object ์ฝ์ . MolmoSpace์ Open ์คํฌ์์ ์ฐจ์์์ ๋ค์ฒ์ ธ, ๊ด์ ๋ฌผ์ฒด ์ํธ์์ฉ์ ์ถ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ผ๋ก ๋จ์ต๋๋ค.
- ์ถ๋ก ๋น์ฉยท๊ท๋ชจ. 4B ๋ฐฑ๋ณธ + ๋์ผ ๊น์ด(36์ธต) expert ๊ตฌ์กฐ๋ H100๊ธ ์์์์ ํ๊ฐ๋๊ณ , on-robot ์ค์๊ฐ ์ ์ฝ(์ ์ ๋ ฅ ์๋ฒ ๋๋)์์์ ์ค์ธก์ ์ ํ์ ์ ๋๋ค.
- Think์ ๊ฐ์ ์์กด์ฑ. ์ ์ํ ๊น์ด์ ์ด๋์ โ์ฅ๋ฉด์ด ๋์ฒด๋ก ์ ์ โ์ด๋ผ๋ temporal redundancy ๊ฐ์ ์ ์์กดํฉ๋๋ค. ๋น ๋ฅด๊ฒ ๋ณํ๋ ๋์ ์ฅ๋ฉด์์๋ ์ฌ์์ธก ๋น์จ์ด ๋์์ ธ ์๋ ์ด๋์ด ์ค ์ ์์ต๋๋ค(์ถ์ธก).
์์ฝ ๋ฐ ๊ฒฐ๋ก
MolmoAct2๋ VLA์ ์ค์ธ๊ณ ๋ฐฐํฌ๋ฅผ ๊ฐ๋ก๋ง๋ ํ์์ฑยทํ๋์จ์ด ์ข ์ยท์ถ๋ก ์ง์ฐยท๋ฎ์ ์ฑ๊ณต๋ฅ ์ ํ๊บผ๋ฒ์ ๊ณต๋ตํ ์์ ๊ฐ๋ฐฉํ ์ก์ ์ถ๋ก ๋ชจ๋ธ ์ ๋๋ค. ํต์ฌ์ (1) ์ฒดํ์ถ๋ก ์ ํนํ๋ Molmo2-ER ๋ฐฑ๋ณธ, (2) 720์๊ฐ bimanual์ ํฌํจํ ์คํ ๋ฐ์ดํฐ์ ยทํ ํฌ๋์ด์ , (3) ์ด์ฐ ํ ํฐ VLM๊ณผ ์ฐ์ flow-matching expert๋ฅผ ์๋ ์ธต๋ณ KV ์กฐ๊ฑดํ, (4) ๋ณํ ์์ญ๋ง ๋ค์ ์ถ๋ก ํ๋ ์ ์ํ ๊น์ด(MolmoAct2-Think) ์ ๋๋ค.
์์น๋ก ์ ๋ฆฌํ๋ฉด, Molmo2-ER์ 13๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ ํ๊ท 63.8% ๋ก GPT-5ยทGemini-ER์ ๋์๊ณ , MolmoAct2๋ LIBERO 97.2%(Think 98.1%), RoboEval 44.3%, ์ค์ธ๊ณ bimanual 8์์ ์์ ์ฐจ์์ ๋๋น +15%, OOD ๊ฐ๊ฑด์ฑ +10.8%p ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. caching+CUDA Graph๋ก 55.79 Hz ์ ์ ์ด์จ๋ ํ๋ณดํ์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โํ๋ฐํฐ์ด๊ธ ์ฑ๋ฅ์ VLA๋ฅผ, ๋ฐ์ดํฐยท์ฝ๋ยทweight๊น์ง ์ ๋ถ ์ด์ด ๋๊ตฌ๋ ์ ๊ฐ ํ๋์จ์ด์์ ์ฌํยทํ์ฅยท๋ฐฐํฌํ ์ ์๊ฒ ๋ง๋ค์๋คโ ๋ ๋ฐ ์์ต๋๋ค. ์ธ๋ฐํ ๊ณต๊ฐ ์ผ๋ฐํ์ ์ค์ธ๊ณ ์ ๋ ์ฑ๊ณต๋ฅ ์ด๋ผ๋ ํ๊ณ๋ ๋ถ๋ช ํ์ง๋ง, ์ฒดํ์ถ๋ก ๋ฐฑ๋ณธ + ํ์ด๋ธ๋ฆฌ๋ ์ด์ฐ/์ฐ์ + ์ ์ํ ์ถ๋ก ์ด๋ผ๋ ๊ตฌ์ฑ์ ํฅํ ์คํ VLA ์ฐ๊ตฌ์ ๊ฐ๋ ฅํ ํ์ค์ ์ด ๋ ๊ฒ์ ๋๋ค.