📃MolmoAct2

vla

embodied-reasoning

manipulation

open-source

diffusion

MolmoAct2: Action Reasoning Models for Real-World Deployment

Published

June 7, 2026

🤔 MolmoAct2는 실제 로봇 배포를 위한 완전히 개방된 VLA(Vision-Language-Action) 모델로, 기존 시스템의 한계점을 개선하며 강력한 Action Reasoning 기능을 제공합니다.
🚀 이 모델은 공간 및 embodied reasoning에 특화된 Molmo2-ER VLM backbone, 대규모의 MolmoAct2-BimanualYAM, DROID, SO100/101 데이터셋, MolmoAct2-FAST Tokenizer, 새로운 per-layer KV conditioning VLA architecture, 그리고 적응형 깊이 추론을 통한 MolmoAct2-Think을 핵심 구성 요소로 합니다.
🏆 MolmoAct2는 7개의 시뮬레이션 및 실제 벤치마크에서 π0.5와 같은 강력한 Baseline을 능가하는 성능을 보였으며, Molmo2-ER은 13개의 embodied-reasoning 벤치마크에서 GPT-5 및 Gemini Robotics ER-1.5를 뛰어넘는 결과를 달성하고 모델 가중치, 학습 코드 및 전체 데이터셋을 공개합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds. 이 논문은 로봇을 위한 Vision-Language-Action (VLA) 모델인 “MolmoAct2: Action Reasoning Models for Real-World Deployment”를 제안합니다. 현재 VLA 시스템은 실세계 배포에 여러 한계를 가지고 있습니다. 주요 문제점으로는 모델이 Closed-source이거나, 고가의 하드웨어에 종속되거나, 추론(reasoning) 기반 정책이 높은 지연 시간을 발생시키거나, 미세 조정(fine-tuning) 후에도 신뢰할 수 있는 수준의 성공률을 달성하지 못한다는 점입니다. MolmoAct2는 이러한 문제를 해결하기 위해 완전히 Open-source로 설계되었으며, 이전 버전인 MolmoAct를 다섯 가지 측면에서 발전시켰습니다.

논문 그림 1

1. 핵심 발전 방향

MolmoAct2는 다음 다섯 가지 핵심 축을 중심으로 개발되었습니다: 1. Molmo2-ER이라는 새로운 VLM 백본: 공간 및 행동 추론(embodied reasoning)에 특화된 Molmo2-ER은 3.3M 샘플 코퍼스에 specialize-then-rehearse 방식으로 학습되었습니다. 2. 세 가지 새로운 로봇 데이터셋: 저가에서 중가 플랫폼에 걸쳐 MolmoAct2-BimanualYAM (720시간, 최대 규모의 양손 조작 데이터셋), MolmoAct2-DROID (품질 필터링된 Franka DROID 서브셋), MolmoAct2-SO100/101 (품질 필터링된 SO-100/101 서브셋)이 공개되었습니다. 3. MolmoAct2-FAST Tokenizer: 수백만 개의 궤적(trajectory)에 걸쳐 다섯 가지 로봇 종류(embodiment)로 학습된 Open-weight, Open-data Action Tokenizer입니다. 4. 새로운 VLA 아키텍처 디자인: 이산 토큰(discrete-token) VLM을 per-layer key-value (KV) conditioning을 통해 flow-matching continuous-action expert와 연결합니다. 5. MolmoAct2-Think: 적응형 깊이 추론(adaptive-depth reasoning) 변형으로, timesteps 사이에 변경된 장면 영역에 대해서만 깊이 토큰을 재예측하여 지연 시간을 줄이면서도 기하학적 grounding을 유지합니다.

2. Molmo2-ER: 행동 추론을 위한 강력한 VLM 백본

기존 VLM 백본은 로봇 제어에 필요한 미터법(metric), 기하학적(geometric), 시간적(temporally grounded) 추론보다는 의미론적 이미지 이해에 최적화되어 있습니다. MolmoAct2는 이러한 문제를 해결하기 위해 Molmo2 (Clark et al., 2026)를 기반으로 Molmo2-ER을 개발했습니다. 이는 장면 이해, 픽셀 단위 포인팅(pixel-accurate pointing), 다중 이미지(multi-image) 및 자아중심적 추론(egocentric reasoning), 외부중심적 대응(exocentric correspondence), 비디오 시간 추론(video temporal reasoning)과 같은 특수 행동 지각(embodied perception) 기술에 대해 미세 조정되었습니다.

Molmo2-ER의 학습 데이터는 약 3.3M 샘플로 구성된 새로운 embodied reasoning corpus로, 6가지 상호 보완적인 능력 축을 포함합니다: single-image embodied QA, image pointing, image detection, video embodied QA, multi-image and ego–exo reasoning, abstract embodied reasoning. 각 축은 시뮬레이터 ground truth, 3D 주석이 달린 실제 스캔, template-generated QA, 소량의 LLM-generated chain-of-thought 등 다양한 감독 소스를 가진 2~3개의 데이터셋으로 구성됩니다.

학습 방식은 specialize-then-rehearse 레시피를 따릅니다:

Stage 1: Embodied specialization. Molmo2-4B mid-training checkpoint에서 시작하여, Molmo2-ER 코퍼스에 8%의 Tulu-3 text-only data를 추가하여 20K steps 동안 미세 조정합니다. 이 단계는 모델이 행동 데이터 manifold로 빠르게 이동하도록 합니다.
Stage 2: Joint refinement. Stage 1 checkpoint를 Molmo2-ER 코퍼스와 Molmo2의 원본 multimodal mid-training data (일반 VQA, 캡션, 학술 벤치마크, 추적, Molmo2 포인팅)를 interleave한 혼합 데이터셋에서 1.5K steps 동안 추가 학습합니다.

논문 그림 2

3. 데이터셋: 대규모의 고품질 로봇 데이터

MolmoAct2는 세 가지 보완적인 소스의 학습 데이터셋을 통합합니다:

MolmoAct2-BimanualYAM Dataset: 720시간 이상의 teleoperated YAM 궤적을 포함하는 34.5k 로봇 데모로, tabletop 및 household tasks를 포괄하는 최대 규모의 Open-source 양손 조작 데이터셋입니다. Cortex AI의 엄격한 프로토콜 하에 수집되어 높은 데이터 품질을 보장합니다.
MolmoAct2-SO100/101 Dataset: Hugging Face의 저가 로봇 플랫폼인 SO-100/101 커뮤니티 데이터(LeRobot 데이터)를 큐레이션 및 필터링하여 생성되었습니다. 1,222개의 LeRobot datasets에서 38,059개의 로봇 데모 episode를 추출했으며, 구조적 유효성 검사, eval-style datasets 제거, 라이선스/코드베이스 확인, TOPReward 품질 게이트(Chen et al., 2026)를 포함하는 4단계 필터링 파이프라인을 적용했습니다.
MolmoAct2-DROID Dataset: 대규모 in-the-wild 로봇 조작 데이터셋인 DROID (Khazatsky et al., 2024)의 품질 필터링된 Franka 서브셋입니다. extended language annotations 및 idle-frame filter를 사용하여 74,604개의 유효한 episode를 포함합니다.

이 세 데이터셋 모두에 대해 VLM (Qwen3.5-27B)을 사용하여 언어 지침(language instruction)을 재주석(re-annotate)하여 다양성과 정확성을 향상시켰습니다. 또한, Open X-Embodiment (OXE) 혼합 데이터셋의 targeted subset (BC-Z, BridgeData V2, RT-1) 및 MolmoAct Dataset을 포함하는 학술 로봇 데이터셋을 추가하여 embodiment breadth를 확장했습니다.

4. MolmoAct2 모델 아키텍처 및 학습 파이프라인

MolmoAct2는 세 단계의 학습 파이프라인을 따릅니다.

4.1. Pre-training (MolmoAct2-Pretrain)

MolmoAct2-Pretrain은 Molmo2-ER VLM 백본을 이산적 자기회귀 로봇 정책(discrete autoregressive robot policy)으로 변환하며, Molmo2의 토큰 인터페이스를 유지합니다. 이미지와 비디오 프레임은 ViT로 인코딩되고, vision-language connector를 통해 언어 모델로 전달됩니다. 로봇 예제는 현재 로봇 구성(configuration)을 설명하는 state tokens와 미래 1초간의 움직임을 설명하는 action tokens를 추가합니다.

4.1.1. MolmoAct2-FAST Tokenizer

로봇 동작은 연속적(continuous), embodiment-specific하며 다양한 제어 속도(control rates)를 가지므로, 언어 모델의 pre-training stream에 직접 삽입할 수 없습니다. 따라서 MolmoAct2-FAST Tokenizer는 FAST (Pertsch et al., 2025)를 따라 훈련된 Open-weight, Open-data Action Tokenizer입니다. 이는 1초의 동작 궤적을 주파수 영역 변환(frequency-domain transform)으로 표현하고, 결과를 양자화(quantizing)한 후, byte-pair encoding

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론

물리적 지능(physical intelligence)은 추상적 내부 계산이 아니라 지각과 행동 을 중심으로 조직됩니다. 사람은 공간 표상을 만들고, 행동을 시뮬레이션하고, 몸으로 세상과 상호작용하며 사고합니다. 그런데 오늘날의 로봇 파운데이션 모델은 이 인지과학적 관점에서 보면 불완전합니다. 구조화된 공간 표상이 부족하고, 무거운 내부 추론이 실시간 상호작용을 방해하며, 폐쇄성 때문에 새 작업·embodiment로 확장하기 어렵습니다.

저자들이 짚는 긴장(tension)은 분명합니다.

추론은 성능을 높이지만 지연을 부른다. grounded 공간 추론, 예측 goal 이미지, point trajectory, world-model rollout 등은 행동 품질과 해석성을 높이지만, 현재 구현에서는 단일 행동 하나를 내기 전에 수백 개 토큰이나 통째 프레임을 생성 해야 해서 폐루프 제어가 불가능할 만큼 느려집니다.
추론은 결국 밑바탕 파운데이션 모델만큼만 좋다. 대부분의 프런티어 정책은 embodiment에 특화돼 새 작업·로봇으로 적응이 어렵고, 프런티어 VLA는 학습 데이터·레시피·weight가 모두 비공개입니다. 소수의 오픈 weight VLA마저 비싸거나 특수한 로봇 플랫폼에 묶여 있어, 누가 쓸 수 있는지와 어디서 평가·개선될 수 있는지를 동시에 제약합니다.

MolmoAct2의 한 줄 요약: 강력한 오픈 체화추론 VLM(Molmo2-ER) 을 백본으로, 저~중가 플랫폼의 고품질 오픈 데이터 를 모으고, 이산 토큰 VLM + 연속 액션 expert 를 층별 KV로 잇고, 적응형 깊이 추론(MolmoAct2-Think) 으로 빠르고 해석 가능한 추론까지 — 이 모든 것을 weight·코드·데이터까지 완전 개방 으로 묶어 실세계 배포 가능한 액션 추론 모델을 만든다.

flowchart LR
    subgraph BK["1 Molmo2-ER 백본"]
        ER["VLM (3.3M 체화추론<br/>specialize-then-rehearse)"]
    end
    subgraph DATA["2 오픈 로봇 데이터"]
        D1["BimanualYAM 720h"]
        D2["DROID 정제본"]
        D3["SO-100/101 정제본"]
    end
    subgraph TRAIN["3-stage 학습"]
        PRE["Pre-train<br/>(이산 AR + FAST tokenizer)"]
        POST["Post-train<br/>(flow-matching expert<br/>+ 층별 KV 조건화)"]
        FT["Embodiment 미세조정"]
    end
    BK --> PRE
    DATA --> PRE
    PRE --> POST --> FT
    POST -.->|적응형 depth| THINK["MolmoAct2-Think"]
    FT --> DEP["Out-of-the-box 배포<br/>YAM / SO-100/101 / DROID"]

방법

MolmoAct2는 3단계 학습(pre-training → post-training → embodiment 미세조정) 위에 서며, 핵심 설계 철학은 “사전학습 VLM의 스케일링·언어능력을 보존하면서 다양한 embodiment의 정밀한 연속 행동을 만든다”입니다.

논문 그림 3

Molmo2-ER: 체화 추론 백본

일반 VLM은 의미적 이미지 이해에 최적화돼, 로봇 제어에 필요한 거리·자유공간·시점 간 대응·장면 기하 같은 능력이 약합니다. 저자들은 Molmo2를 약 3.3M 샘플 의 체화 추론 코퍼스로 미세조정해 Molmo2-ER을 만듭니다. 코퍼스는 6개 역량 축(단일 이미지 체화 QA, pointing, object detection, 비디오 체화 QA, multi-image/ego-exo, 추상 추론)을 다양한 출처(시뮬레이터 정답, 3D 주석 실측 스캔, 템플릿 QA, 소량 LLM chain-of-thought)로 덮습니다.

Specialize-then-rehearse 레시피는 두 단계입니다.

Stage 1 (체화 특화): Molmo2-4B mid-training 체크포인트에서 시작, 체화 코퍼스 + 8% Tulu-3 텍스트로 20K step 미세조정(언어능력 보존).
Stage 2 (공동 재정련): 체화 코퍼스를 Molmo2 원래 멀티모달 데이터와 섞어 1.5K step 추가 학습. NLP 8%, 나머지 92%를 embodied/general로 분배(최적 p=0.5).

결과적으로 Molmo2-ER은 13개 표준 체화추론 벤치마크 중 9개에서 1위, 평균 63.8% 로 Gemini Robot-ER 1.5 Thinking·GPT-5를 능가하고, 시작점 Molmo2 대비 +17점 향상했습니다.

MolmoAct2-FAST Tokenizer

로봇 행동은 연속적·embodiment별로 다르고 제어 주파수도 제각각이라 언어모델 토큰으로 직접 넣을 수 없습니다. FAST를 따른 오픈 weight·오픈 데이터 토크나이저로, 1초 행동 궤적 을 주파수 도메인 변환 → 계수 양자화 → byte-pair encoding 으로 2048 토큰 어휘 의 이산 시퀀스로 압축합니다. 5개 embodiment(YAM·SO-100/101·DROID·BC-Z·Bridge·RT-1 등) 100만 행동 시퀀스로 학습하며, 모든 행동은 32차원으로 패딩 하고 1–99 퍼센타일로 정규화(gripper는 별도 처리)해 관절공간·엔드이펙터 제어를 한 토크나이저로 덮습니다.

Pre-training: 이산 자기회귀 정책

Molmo2-ER을 그대로 두고, 이미지/비디오는 ViT(SigLIP2)로 인코딩→connector로 풀링→LLM에 텍스트와 함께 전달합니다. 로봇 예제는 두 토큰 스트림을 추가합니다 — 현재 로봇 구성을 담는 state 토큰(256개로 균일 양자화), 미래 1초 행동을 담는 action 토큰(FAST tokenizer). 즉 텍스트·VL·state·action을 하나의 next-token 예측 목표 로 통일해, 별도 연속 head 없이 대규모 사전학습을 단순·안정화합니다(200K step, 시퀀스 4200, 64×H100, 약 5,760 GPU-hours).

논문 그림 4

Post-training: flow-matching 액션 expert + 층별 KV 조건화

이산 토큰 VLM은 추론 grounding은 강하지만, 출력 공간이 고주파 연속 궤적과 안 맞습니다. 그래서 DiT 스타일 flow-matching expert 를 붙입니다. 정규화 액션 청크 a, 가우시안 노이즈 \epsilon, 시각 t\in[0,1] 에 대해

x_t = (1-t)\epsilon + ta, \qquad u^\star = a - \epsilon

expert f_\theta 는 노이즈 청크·시간·VLM 맥락 c 로부터 목표 속도장(velocity field)을 예측합니다.

\mathcal{L}_{\text{flow}} = \mathbb{E}_{a,\epsilon,t}\Big[\big\lVert m \odot (f_\theta(x_t,t,c) - u^\star)\big\rVert_2^2\Big]

여기서 m 은 패딩 차원/스텝을 마스킹합니다. 추론 시엔 가우시안 노이즈에서 시작해 속도장을 적분해 연속 궤적을 생성합니다.

핵심 설계 — 층별 KV 조건화. expert가 VLM 맥락을 어떻게 받느냐가 관건입니다. 마지막 hidden state 하나로 압축(hidden-state conditioning)하는 대신, MolmoAct2는 expert를 VLM과 동일한 깊이(L=36 층) 로 만들고, 각 층의 key/value를 그대로 가져와 expert의 cross-attention에 넣습니다.

\tilde{K}_\ell = \text{reshape}(P_K K_\ell^{\text{vlm}}), \qquad \tilde{V}_\ell = \text{reshape}(P_V V_\ell^{\text{vlm}})

\text{CA}(Q_\ell,\tilde{K}_\ell,\tilde{V}_\ell) = \text{softmax}\!\left(\frac{Q_\ell \tilde{K}_\ell^\top}{\sqrt{d_h}}\right)\tilde{V}_\ell

이렇게 하면 연속 컨트롤러가 VLM 자신이 쓰는 것과 동일한 attention 상태 에 접근하면서도 백본과 모듈식으로 분리됩니다(ablation에서 hidden-state 94.0% < per-layer KV 95.9%). 또한 knowledge insulation: expert는 VLM keys/values에 조건화하되 이 텐서를 detach해, flow loss 기울기가 VLM으로 역전파되지 않습니다(VLM은 LM loss로만 갱신). 학습 목표는 두 손실의 합입니다.

\mathcal{L}_{\text{post}} = \mathcal{L}_{\text{LM}} + \mathcal{L}_{\text{flow}}

각 청크당 K=4 개 flow 샘플을 써 같은 VL 맥락을 재사용하며 효율을 높입니다(100K step, 약 2,304 GPU-hours).

논문 그림 5

MolmoAct2-Think: 적응형 깊이 추론

로봇 조작은 거리·자유공간·가림·표면 배치 같은 공간 정보에 의존하지만, 행동 모방 목표는 이를 명시적으로 묻지 않습니다. MolmoAct는 depth 토큰 예측 을 중간 추론 단계로 추가했는데, MolmoAct2-Think은 여기에 적응성 을 더합니다.

각 관측 depth map을 10×10 격자(100 위치) 로 양자화하고, 각 위치는 128개 학습된 코드 중 하나(VQ-VAE, Depth Anything V2 기반)를 갖습니다. 핵심 통찰: 로봇 궤적은 시간적 중복(temporal redundancy) 이 커서, 한 제어 스텝에서 다음으로 갈 때 장면 깊이 격자의 많은 셀이 그대로입니다. 매 스텝 100개 코드를 다 재예측하지 않고, RGB 패치 코사인 유사도가 0.996 미만으로 변한 셀만 자기회귀로 다시 예측하고 나머지는 캐시를 재사용합니다.

m_{t,i} = \mathbf{1}\big[\cos(x_{t,i}, x_{t-1,i}) < 0.996\big], \qquad b_{t,i} = \begin{cases} d_{t,i}, & m_{t,i}=1 \\ b_{t-1,i}, & m_{t,i}=0 \end{cases}

그 결과 기하 추론 비용이 정적 장면 비율에 반비례 하게 줄어, 100토큰 전부가 아니라 변한 부분만큼만 추론합니다. 미세조정 시 depth 입력에 10% 노이즈를 주입하고, depth 토큰 KV에 학습된 per-layer gate(초기 bias −4)를 둬, 각 expert 층이 depth prefix를 얼마나 쓸지 학습합니다.

배포 최적화

연속 expert 추론은 한 청크 안에서 VLM 맥락이 flow 스텝에 걸쳐 불변이므로, 재사용 가능한 cross-attention 상태를 캐시 하고 고정 형태 flow 루프를 CUDA Graph 로 잡아 Python·커널 런치 오버헤드를 줄입니다.

실험

7개 환경 벤치마크에 걸친 광범위한 실증 연구로, 세 범주의 질문에 답합니다.

논문 그림 6

Molmo2-ER (체화 추론 백본)

13개 VLM 체화추론 벤치마크(Point-Bench, RefSpatial, BLINK, CV-Bench, ERQA, EmbSpatial, SAT, VSI-Bench 등)에서, Molmo2-ER은 9개에서 오픈 weight 1위, 평균 63.8% 로 차순위 Gemini-ER 1.5 Thinking을 2.5점 앞섰고, GPT-5·Gemini 2.5 Pro 같은 비공개 모델도 넘었습니다. 백본을 Molmo2 → Molmo2-ER로 바꾸는 것만으로 LIBERO-Long 이산 행동 예측이 77.6% → 83.6%(+6.0) 로 올라, 체화 특화가 VLM 벤치마크뿐 아니라 행동 예측에도 직접 전이 됨을 보였습니다.

Out-of-the-box 배포

미세조정 없이 사전학습 체크포인트를 그대로 배포합니다.

평가	차순위	MolmoAct2
MolmoSpace (4 스킬 평균)	\pi_{0.5}-DROID 34.5	37.7 (+3.2)
DROID 실세계 (5 작업, OOD 카메라/물체)	MolmoBot	87.1% (+38.7%p)
SO-100/101 실세계 (5 작업)	\pi_0-SO100/101 45.3	56.7% (+11.4%p)

특히 DROID·SO-100/101 미세조정 체크포인트가 추가 학습 없이 각자 embodiment에 배포되어 \pi_{0.5} 를 크게 앞선 점이 인상적입니다.

효율적 미세조정

소수 시연으로 새 작업·embodiment에 적응하는 능력입니다.

벤치마크	결과
LIBERO (4 suite 평균)	97.2%(MolmoAct2), 98.1%(Think) — 전 베이스라인 1위
RoboEval (bimanual Franka)	44.3%, \pi_{0.5} 대비 +3.8
실세계 Bimanual YAM (8 작업)	7/8 1위, 평균 50.1% — 차순위 OpenVLA-OFT 대비 +15%

MolmoAct2-Think & 강건성

Think 효과: LIBERO에서 4개 suite 중 3개 향상, 가장 어려운 Long suite에서 +2.2%로 최대 — 적응형 깊이가 saturation 노이즈가 아닌 실질적 이득 임을 시사. 평균 97.2% → 98.1%.
OOD 강건성(공간/조명/언어/distractor 변화): MolmoAct2-Think 평균 50.69% 로 차순위 OpenVLA-OFT 대비 +10.8%p. 모든 범주에서 1위(단 공간 변화 26.25%로 가장 낮아 개선 여지).
궤적 품질: RoboEval에서 완료 시간(Stack Two Blocks 5.87s → 4.70s), joint path length 약 2배 단축 등 더 짧고 안정적·효율적 궤적.

Ablation & 추론 속도

조건화 방식: per-layer KV(95.9%) > per-head per-layer KV(94.8%) > hidden-state(94.0%).
flow 샘플 수: K=8 이 평균 95.90%로 최선(K=1 94.15%).
미세조정 설계: 이산+연속 공동학습 + full fine-tuning 이 평균 97.20%로 최선(action expert만 학습 시 93.05%로 급락).
추론 속도(LIBERO, H100, horizon 10): caching + CUDA Graph로 MolmoAct2 55.79 Hz(원본 23.02 Hz 대비 2.42배), Think은 12.71 Hz. 연속 경로가 이산 경로(14.17 Hz)보다 빨라 기본 배포 옵션으로 채택.

비판적 고찰

강점

진정한 완전 개방성. weight·학습 코드·전체 데이터셋(720시간 bimanual 포함)·토크나이저까지 공개해, 재현·확장·적응의 장벽을 실질적으로 허뭅니다. “오픈 weight”에 그친 기존 VLA와 차별화되는 가장 큰 기여입니다.
추론과 속도의 동시 공략. 적응형 깊이(temporal redundancy 활용)와 caching/CUDA Graph로, “추론을 붙이면 느려진다”는 통념을 정면 반박합니다. per-layer KV 조건화도 hidden-state 대비 우위를 ablation으로 입증했습니다.
저~중가 하드웨어 지향. $6,000 미만 bimanual YAM 셋업, 저가 SO-100/101 지원으로 학계·독립 연구자가 실제로 쓸 수 있는 범위를 겨냥했습니다.
방대하고 체계적인 실증. 7개 벤치마크 + 13개 추론 벤치마크 + OOD/궤적품질/속도/ablation까지, 오픈 VLA로는 가장 광범위한 평가로 주장을 뒷받침합니다.

약점과 한계

세밀한 공간 일반화는 여전히 약점. OOD 평가에서 공간 변화(spatial variance) 성공률이 26.25%로 가장 낮아, 학습 분포 밖 위치 배치에 대한 강건성은 부족합니다(저자도 인정).
실세계 절대 성공률의 한계. 실세계 bimanual YAM 평균 50.1%는 베이스라인 대비 크게 앞서지만, 절대값으로는 신뢰성 있는 배포 기준에 못 미치는 작업이 많습니다. “deployment-ready”라는 표현은 상대적 우위에 가깝습니다(추측).
articulated object 약점. MolmoSpace의 Open 스킬에서 차순위에 뒤처져, 관절 물체 상호작용은 추가 개선 방향으로 남습니다.
추론 비용·규모. 4B 백본 + 동일 깊이(36층) expert 구조는 H100급 자원에서 평가됐고, on-robot 실시간 제약(저전력 임베디드)에서의 실측은 제한적입니다.
Think의 가정 의존성. 적응형 깊이의 이득은 “장면이 대체로 정적”이라는 temporal redundancy 가정에 의존합니다. 빠르게 변하는 동적 장면에서는 재예측 비율이 높아져 속도 이득이 줄 수 있습니다(추측).

요약 및 결론

MolmoAct2는 VLA의 실세계 배포를 가로막던 폐쇄성·하드웨어 종속·추론 지연·낮은 성공률 을 한꺼번에 공략한 완전 개방형 액션 추론 모델 입니다. 핵심은 (1) 체화추론에 특화된 Molmo2-ER 백본, (2) 720시간 bimanual을 포함한 오픈 데이터셋·토크나이저, (3) 이산 토큰 VLM과 연속 flow-matching expert를 잇는 층별 KV 조건화, (4) 변한 영역만 다시 추론하는 적응형 깊이(MolmoAct2-Think) 입니다.

수치로 정리하면, Molmo2-ER은 13개 추론 벤치마크 평균 63.8% 로 GPT-5·Gemini-ER을 넘었고, MolmoAct2는 LIBERO 97.2%(Think 98.1%), RoboEval 44.3%, 실세계 bimanual 8작업에서 차순위 대비 +15%, OOD 강건성 +10.8%p 를 달성했습니다. caching+CUDA Graph로 55.79 Hz 의 제어율도 확보했습니다.

실무 관점에서 이 연구의 가치는 “프런티어급 성능의 VLA를, 데이터·코드·weight까지 전부 열어 누구나 저가 하드웨어에서 재현·확장·배포할 수 있게 만들었다” 는 데 있습니다. 세밀한 공간 일반화와 실세계 절대 성공률이라는 한계는 분명하지만, 체화추론 백본 + 하이브리드 이산/연속 + 적응형 추론 이라는 구성은 향후 오픈 VLA 연구의 강력한 표준점이 될 것입니다.