📃SmolVLA

vla

A Vision-Language-Action Model for Affordable and Efficient Robotics

Published

May 10, 2026

✨ SmolVLA는 기존 VLA 모델의 높은 비용과 제한된 배포 가능성을 극복하기 위해 저렴하고 효율적인 로보틱스를 목표로 하는 소형 Vision-Language-Action (VLA) 모델입니다.
💡 본 모델은 VLM 레이어 건너뛰기, 최소한의 시각 토큰 사용, 커뮤니티 데이터셋을 통한 사전 학습, 그리고 지연 시간을 줄이는 비동기 추론 스택 도입으로 효율성을 극대화합니다.
🚀 SmolVLA는 훨씬 더 큰 VLA 모델과 견줄 만한 성능을 보여주며, 시뮬레이션 및 실제 로봇 벤치마크 모두에서 경쟁력 있는 결과를 달성하고 학습 및 추론 비용을 대폭 절감합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

SmolVLA는 저비용 및 효율적인 로봇 공학을 위한 작고 효율적인 Vision-Language-Action (VLA) 모델을 제안하는 연구입니다. 이 모델은 기존 VLA 모델들이 수십억 개의 Parameter를 가지고 있어 높은 Training 비용과 제한적인 Real-world 배포 가능성을 가지는 문제를 해결하고자 합니다. SmolVLA는 Single GPU에서의 Training 및 Consumer-grade GPU 또는 CPU에서의 배포를 목표로 하여 접근성을 높이고, 경쟁력 있는 Performance를 유지하면서 비용을 크게 절감하는 것을 목표로 합니다.

주요 기여는 다음과 같습니다:

경량 Architecture: VLM에서 Layer Skipping, 최소한의 Visual Token 사용, Small Pretrained VLM 활용, 그리고 Cross-attention과 Self-attention Layer를 Interleave하는 등의 설계를 통해 Compact하고 Efficient한 모델을 구현했습니다.
Community-driven Dataset을 통한 Pretraining: 공공적으로 사용 가능한 Community-contributed Dataset에서 30,000회 미만의 Episode로 End-to-end Training을 진행하여, 기존의 연구보다 훨씬 적은 Data로도 강력한 Performance를 보여주었습니다.
Asynchronous Inference Stack: Observation Processing 및 Action Prediction을 Action Execution과 분리하여 Latency를 줄이고, Chunked Action Generation을 통해 더 높은 Control Rate를 가능하게 하는 Optimized Inference Stack을 도입했습니다.

핵심 방법론 (Core Methodology)

1. Model Architecture

SmolVLA는 Perception을 담당하는 Compact Pretrained VLM과 Action Expert의 두 가지 주요 구성 요소로 이루어져 있습니다. VLM은 여러 RGB Image와 Language Instruction, 그리고 Sensorimotor State를 처리하여 Action Expert를 Condition하는 Feature를 생성합니다. Action Expert는 이 Feature를 기반으로 Low-level Continuous Action Chunk를 출력합니다.

Vision-Language Model (VLM): SmolVLA는 Multi-image 및 Video Input에 최적화된 Efficient 모델인 SmolVLM-2 (Marafioti et al., 2025)를 VLM Backbone으로 활용합니다. SmolVLM-2는 SigLIP (Zhai et al., 2023)을 사용하여 Visual Feature를 Encoding하고, SmolLM2 Language Decoder (Allal et al., 2025)를 사용합니다.
- Visual Token Reduction: 효율성을 위해 Image Tiling을 사용하지 않고 Global Image만 사용하며, Pixel Shuffle Operation을 통해 Frame당 Visual Token 수를 64개로 제한합니다.
- Faster Inference를 위한 Layer Skipping: Pretrained 모델에서 성능 저하 없이 Layer를 Skipping할 수 있다는 이전 연구를 기반으로, VLM의 마지막 L개 Layer 대신 N번째 Layer까지만 Feature를 사용합니다. 본 연구에서는 N = L/2로 설정하여 Speed와 Performance 간의 균형을 맞춥니다. 이는 LLM 및 Action Expert의 Computational Cost를 절반으로 줄이는 효과를 가져옵니다.
State, Action, Feature Projectors: Sensorimotor State를 VLM Dimension에 맞추고, Action을 Action Expert Dimension에 맞추며, VLM Feature를 Action Expert Dimension에 맞추기 위해 Linear Projection Layer를 사용합니다.
Flow Matching Action Expert (v_\theta): VLM Feature로부터 Action Chunk A_t = (a_t, \dots, a_{t+n})를 예측하도록 훈련된 Transformer 기반의 모델입니다.
- Training Objective: Action Expert는 Flow Matching Objective를 사용하여 Training됩니다. 이 Objective는 다음과 같습니다: L_{\tau}(\theta) = E_{p(A_t|o_t), q(A^\tau_t|A_t)} [\|v_\theta(A^\tau_t, o_t) - u(A^\tau_t|A_t)\|^2] 여기서 o_t는 N번째 VLM Layer에서 추출된 Observation Feature이며, A^\tau_t = \tau A_t + (1-\tau)\epsilon입니다. \epsilon \sim N(0, I)는 Noise Vector이고, u(A^\tau_t|A_t) = \epsilon - A_t는 Vector Field입니다. Action Expert v_\theta는 이 Vector Field를 출력하도록 훈련됩니다. \tau는 Beta Distribution에서 Sampling됩니다.
- Interleaved Cross and Causal Self-Attention Layers: 기존 VLA Architecture와 달리, Action Expert는 Cross-attention (CA) 및 Self-attention (SA) Layer를 Interleave합니다. 각 Block은 CA 또는 SA Layer를 포함합니다.
  - CA Layer는 VLM의 Key와 Value에 Cross-attend하여 VLM Feature와 상호 작용합니다.
  - SA Layer는 Action Token이 서로를 Attend하도록 허용하며, Causal Attention Mask를 사용하여 각 Action Token이 Chunk 내의 이전 Token만 Attend하도록 합니다. 이는 Real Robot에서 더 Smooth한 Action Chunk를 생성하는 데 기여합니다.
- Action Expert의 Hidden Size는 VLM Hidden Dimension d의 0.75 \times d로 줄여 효율성을 높였습니다.

2. Pretraining Data Collected by the Community

로봇 공학 분야의 Data는 Vision 및 Language 분야에 비해 규모가 훨씬 작고, Data Heterogeneity (다양한 로봇 형태, Sensor, Actuation Mode, Control Frequency 등)가 큰 문제였습니다. SmolVLA는 Low-end Robot Platform 및 Standardized Robotics Library의 도입으로 Data Heterogeneity 문제가 완화되는 점에 주목하여 Community Dataset을 활용합니다.

Dataset Source: Hugging Face에서 얻은 481개의 Community Dataset을 사용했으며, 약 22.9K개의 Episode와 10.6M개의 Frame을 포함합니다.
Task Annotation: Community Dataset의 Noise가 많은 Task Annotation 문제를 해결하기 위해, Off-the-shelf VLM (Qwen2.5-VL-3B-Instruct)을 사용하여 간결한 Task Description을 자동으로 생성했습니다.
Camera Viewpoint Normalization: Camera Naming Convention의 높은 가변성을 해결하기 위해, 각 Camera를 Standardized View Type (Top, Wrist, Side)으로 수동으로 Mapping하고 OBS_IMAGE_1, OBS_IMAGE_2, OBS_IMAGE_3으로 이름을 변경했습니다.

3. Asynchronous Inference

기존 Visuomotor Policy는 Action Chunk A_t = (a_t, \dots, a_{t+n})를 출력하고, 로봇은 이 Chunk 전체를 실행한 후에야 새로운 Observation o_{t+n}을 Policy에 전달하여 다음 Chunk를 예측합니다 (Synchronous Inference). 이는 Observation 사이에서 Open-loop Inference가 발생하여 Latency와 Robot Idle 시간을 야기합니다. SmolVLA는 이러한 문제를 해결하기 위해 Asynchronous Inference Stack (Algorithm 1)을 도입합니다.

원리: RobotClient가 PolicyServer에 Observation o_t를 보내고 Inference가 완료되면 Action Chunk A_t를 받습니다. 핵심은 Robot이 이전에 사용 가능한 Queue를 소비하는 동안 Chunk Prediction을 Trigger하여 Execution Lag를 피하는 것입니다.
구현: RobotClient는 Queue에 남은 Action의 수가 Threshold (|A_t|/n < g) 미만이 되면 새로운 Observation을 캡처하여 PolicyServer에 보냅니다. 새로운 Chunk가 도착하면 기존 Queue와 Overlap되는 부분을 Aggregation하여 사용합니다.
효율성: 이 방식은 Observation을 더 자주 처리하여 Control Loop를 강화하고 Idle Gap을 제거합니다. 또한, Action Prediction을 Action Execution과 분리함으로써 원격 Policy Server에서 더 강력한 Computational Resource를 사용할 수 있도록 합니다. 유사성 필터를 통해 중복 Observation 처리를 방지하여 비효율성을 줄입니다.

실험 결과

SmolVLA는 Simulation 환경 (LIBERO 및 Meta-World)과 Real-world 환경 (SO100 및 SO101 Robot Arm)에서 평가되었습니다. Simulation에서 SmolVLA는 Octo, OpenVLA, Diffusion Policy Baseline을 능가했으며, Pretraining된 π0 (3.3B Parameter)와 경쟁하거나 더 나은 성능을 보였습니다. Real-world에서는 ACT 및 π0보다 뛰어난 Success Rate를 달성했으며, 특히 SO101 Robot에 대한 In-distribution 및 Out-of-distribution Generalization 능력을 입증했습니다.

Ablation Study를 통해 핵심 설계 선택의 중요성을 확인했습니다: Interleaved Cross 및 Self-attention의 이점, Causal Attention Mask의 중요성, VLM의 초기 Layer 사용의 효율성, Flow Matching Objective의 우수성, 그리고 Sensorimotor State를 VLM에 전달하는 것의 효과가 입증되었습니다. Asynchronous Inference는 유사한 Success Rate를 유지하면서도 Synchronous Inference에 비해 약 30% 빠른 Task Completion 시간을 보였습니다.

SmolVLA는 Compact하고 Efficient한 VLA 모델로서, 저렴한 Hardware에서 실행되고 Low-cost Robot을 제어하며, 훨씬 큰 VLA 모델과 경쟁할 수 있는 Performance를 보여주었습니다. 이 연구는 로봇 공학 연구의 접근성을 높이는 데 기여하고, 향후 VLA 모델 설계 및 Inference 전략에 대한 중요한 지침을 제공합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

들어가며: 작은 거인의 등장

로봇이 “빨간 큐브를 집어서 박스에 넣어”라는 한 문장만으로 임무를 수행하는 모습을 상상해보자. 이를 가능하게 하는 모델이 바로 VLA(Vision-Language-Action) 모델이다. 그런데 한 가지 불편한 진실이 있다. 지금까지 잘 동작하는 VLA들은 대부분 수십억 파라미터의 거인들이다. π₀는 3.3B, OpenVLA는 7B. 이 모델들을 학습시키려면 데이터센터 규모의 GPU 클러스터가 필요하고, 실제 로봇에 올려서 돌리려면 비싼 엣지 GPU가 또 필요하다. SO-ARM100 같은 100달러짜리 저가 로봇으로 입문한 연구자에게는 사실상 그림의 떡이다.

Hugging Face와 Sorbonne 대학교 연구진이 발표한 SmolVLA는 이 패러다임을 정면으로 거스른다. 450M 파라미터 — π₀의 약 1/7 크기로, 단일 GPU에서 학습이 가능하고 심지어 CPU에서도 추론이 돌아가며, 그러면서도 성능은 10배 큰 모델과 견줄 만하다. 이 글에서는 어떻게 그게 가능한지 — 그들이 무엇을 잘랐고, 무엇을 남겼고, 왜 그게 작동하는지 — 를 파헤쳐 보겠다.

1. 문제 정의: 거대 VLA의 세 가지 그림자

VLA 연구 흐름의 매력은 분명하다. 이미 인터넷 규모로 사전학습된 VLM(Vision-Language Model)에 로봇 행동을 학습시키면, 상식과 추론 능력을 그대로 물려받은 일반화된 정책을 얻을 수 있다는 약속. RT-2가 처음 그 가능성을 보였고, OpenVLA, π₀, GR00T N1 등이 이를 발전시켰다.

하지만 그 약속에는 세 가지 그림자가 따라온다.

첫째, 비용의 벽. 7B 파라미터 모델을 학습시키려면 보통 수백 GPU·시간이 필요하다. 추론도 만만치 않아서, 실시간 제어(30Hz 이상)에는 고가의 GPU가 필수다. 학교 연구실이나 개인 연구자가 진입하기 어렵다.

둘째, 데이터의 폐쇄성. 기존 VLA들은 Open X-Embodiment, DROID처럼 잘 정제된 학술/산업 데이터셋에 의존한다. 그런데 LeRobot, Hugging Face hub에는 SO-100 같은 저가 로봇으로 일반인이 모은 수백 개의 커뮤니티 데이터셋이 있다. 이 데이터들은 아카데믹 데이터셋과 다르게 노이즈가 많고 표준화가 안 돼 있지만, 동시에 현실의 다양성을 담고 있다. 이 광맥을 아무도 제대로 활용하지 못했다.

셋째, 추론 구조의 비효율. 대부분의 VLA는 “관측 → 액션 청크(n step) 예측 → 청크 전부 실행 → 다시 관측”이라는 동기식(synchronous) 루프를 돈다. 이 구조에서는 모델이 다음 청크를 계산하는 동안 로봇이 멍 때리는 시간(idle gap) 이 발생한다. 작은 모델일수록 이 idle gap이 짧지만, 큰 모델일수록 환경 변화에 둔감해진다.

SmolVLA는 이 세 가지 그림자를 동시에 걷어내려 한다.

graph LR
    A[기존 VLA의 문제] --> B[학습 비용]
    A --> C[데이터 폐쇄성]
    A --> D[추론 비효율]
    B --> E[SmolVLA: 450M 컴팩트 설계]
    C --> F[SmolVLA: 481개 커뮤니티 데이터셋]
    D --> G[SmolVLA: 비동기 추론 스택]
    E --> H[저비용·접근가능 VLA]
    F --> H
    G --> H

2. SmolVLA 한눈에 보기

전체 구조를 먼저 그리고 시작하자. 큰 그림을 머리에 넣어두면 세부사항이 훨씬 잘 들어온다.

+------------------------------------------------------------+
|                       SmolVLA Overview                     |
+------------------------------------------------------------+
|                                                            |
|  [Lang Instruction]   [RGB Images]     [Robot State]       |
|        |                  |                 |              |
|        v                  v                 v              |
|   tokenizer         SigLIP encoder    Linear projector     |
|        |                  |                 |              |
|        +--------+---------+-----------------+              |
|                 v                                          |
|          +--------------+                                  |
|          |  SmolLM-2    |                                  |
|          |  (first N    |  <-- skip last (L-N) layers      |
|          |  layers only)|                                  |
|          +------+-------+                                  |
|                 | VLM features (o_t)                       |
|                 v                                          |
|   +-----------------------------------+                    |
|   |        Action Expert v_theta      |                    |
|   |  (CA <-> SA interleaved blocks)   |                    |
|   |  trained with Flow Matching       |                    |
|   +------------+----------------------+                    |
|                |                                           |
|                v                                           |
|       Action chunk: a_t, a_{t+1}, ..., a_{t+n}             |
|                                                            |
+------------------------------------------------------------+

핵심 설계 요점은 다섯 가지로 요약된다.

설계 결정	이유
컴팩트 VLM (SmolVLM-2, 500M급)	거대 LLM 대신 작은 사전학습 멀티모달 모델 사용
VLM 레이어 스킵 (N=L/2)	마지막 절반 레이어 버림 → 연산 절반
시각 토큰 64개/프레임	타일링 없이 글로벌 이미지 + pixel shuffle
Flow Matching Action Expert	연속 행동의 다중모드 분포를 부드럽게 표현
CA + Causal SA 인터리빙	표현력과 속도의 균형

3. 모델 아키텍처: 무엇을 잘랐고, 왜 그게 작동하나

3.1 VLM 백본: SmolVLM-2

SmolVLM-2는 SigLIP 비전 인코더 + SmolLM-2 언어 디코더로 구성된 약 500M 파라미터의 효율적 VLM이다. 핵심 아이디어는 단순하다 — 거대 LLM을 가져와서 멀티모달로 확장하는 대신, 처음부터 작은 모델을 잘 학습시킨다. SmolLM-2 자체가 데이터 품질에 집중해서 학습된 컴팩트 LLM이라, 같은 파라미터 수 대비 표현력이 좋다.

SmolVLA에서 VLM은 세 가지 입력을 받는다:

언어 지시문 → 텍스트 토큰
RGB 이미지(들) → SigLIP으로 인코딩된 시각 토큰
로봇 상태 (joint positions 등) → 선형 투영으로 단 한 개의 토큰으로 압축

이 토큰들을 concatenate해서 LLM에 통과시킨다. LLM의 출력 피처가 Action Expert의 조건(condition)이 된다.

3.2 시각 토큰 64개의 비밀

이 부분이 흥미롭다. 일반적인 VLM은 고해상도 이미지를 잘 다루기 위해 이미지 타일링 — 원본 이미지를 여러 패치로 나누고 각각을 인코딩 — 을 한다. 더 많은 토큰 = 더 정밀한 인지. 하지만 추론 비용은 토큰 수의 제곱(어텐션 복잡도)으로 증가한다.

SmolVLA는 타일링을 포기한다. 글로벌 이미지 한 장만 사용하고, 거기에 pixel shuffle 연산으로 토큰을 64개로 강제 압축한다. Pixel shuffle은 공간 해상도를 채널 차원으로 옮기는 트릭으로, 정보를 가능한 한 보존하면서 토큰 수를 확 줄인다.

직관적으로: 사진을 16메가픽셀로 보든, 64개의 “지역 요약 패치”로 보든, 큐브를 집는 데 필요한 정보(어디 있는지, 색이 뭔지, 손이 어디로 가야 하는지)는 대체로 충분하다는 베팅이다. 그리고 이 베팅이 실험적으로 작동한다.

3.3 레이어 스킵: 마지막 절반은 버린다

이게 가장 충격적인 설계 결정이다. 사전학습된 LLM의 마지막 절반 레이어를 잘라버린다.

전통적인 가정은 “LLM의 마지막 레이어가 가장 풍부한 의미적 표현을 가진다”이다. 하지만 최근 연구들(El-Nouby et al., 2024; Bolya et al., 2025)은 다운스트림 태스크에 가장 좋은 피처는 반드시 마지막 레이어가 아니다 라는 것을 보여줬다. 특히 분류나 시각적 grounding 같은 태스크에서는 중간 레이어가 더 좋다.

SmolVLA는 이 통찰을 받아들여, N = L/2로 설정한다. 즉, 16-layer LLM이라면 처음 8개 레이어만 사용한다. 결과적으로:

LLM 연산 비용 절반
Action Expert가 cross-attend하는 KV 메모리 절반
거의 손실 없는 성능 (실험적으로 검증)

3.4 Flow Matching Action Expert: 연속 행동을 어떻게 만드나

자, 여기가 진짜 흥미로운 부분이다. Action Expert \mathbf{v}_\theta는 VLM 피처 \mathbf{o}_t를 입력받아 n개 step의 액션 청크 \mathbf{A}_t = (a_t, ..., a_{t+n})을 출력한다. SmolVLA는 n=50을 사용한다.

문제는 “어떻게 학습시키나”이다. 단순한 회귀(L1/L2 loss)도 가능하지만, 실제 로봇의 행동은 다중 모드 분포(multi-modal distribution) 를 가진다. 같은 상태에서도 큐브를 집는 경로는 여러 개 있을 수 있고, 단일 회귀는 이 평균을 학습해버려 어색한 행동을 만든다.

Flow Matching의 직관

Flow Matching을 이해하는 가장 쉬운 방법은 이렇다. 우리는 노이즈 분포(가우시안) 에서 데이터 분포(진짜 행동) 로 가는 “흐름(flow)”을 학습하고 싶다.

  ε ~ N(0, I)           A_t (real action)
        \                   /
         \                 /
          \---tau=0.0----/   <- pure noise
            \-tau=0.5-/      <- halfway
              \tau=1./        <- real data
              
  At any tau in [0,1]:
    A_t^tau = tau * A_t + (1 - tau) * ε
  
  The model learns the velocity field:
    v_theta(A_t^tau, o_t)  ~  u(A_t^tau | A_t) = ε - A_t

학습 손실은:

\mathcal{L}^{\tau}(\theta) = \mathbb{E}_{p(\mathbf{A}_t | \mathbf{o}_t),\, q(\mathbf{A}_t^\tau | \mathbf{A}_t)} \left[\|\mathbf{v}_\theta(\mathbf{A}_t^\tau, \mathbf{o}_t) - \mathbf{u}(\mathbf{A}_t^\tau | \mathbf{A}_t)\|^2\right]

여기서 \mathbf{u}(\mathbf{A}_t^\tau | \mathbf{A}_t) = \epsilon - \mathbf{A}_t는 노이즈에서 데이터로 가는 속도 벡터(vector field) 이다. 모델은 “현재 노이즈 섞인 액션에서, 진짜 액션 쪽으로 어느 방향으로 얼마나 가야 하는가”를 학습한다.

물리학적 비유: 강물이 어디로 흐르는지 알면, 어디서 출발해도 결국 바다에 도착할 수 있다. Flow Matching은 “노이즈 바다”에서 “데이터 바다”로 가는 강의 흐름장(velocity field)을 학습한다. 추론 시에는 노이즈를 뽑아서 이 흐름을 따라 흘려보내면 진짜 행동이 나온다.

추론은 보통 10단계 정도의 ODE solver로 적분한다. Diffusion 기반 정책(예: π₀)도 비슷한 아이디어이지만, Flow Matching은 더 직선적인(rectified) 흐름을 만들어 적은 적분 단계로도 좋은 결과를 낸다.

τ는 Beta 분포에서 샘플링한다(π₀과 동일). 이는 학습 시 노이즈 수준의 분포를 비대칭적으로 만들어, 어려운 단계에 더 많은 샘플이 할당되도록 한다.

또 한 가지 디테일: Action Expert의 hidden size는 VLM의 0.75배로 줄인다. 표현력은 유지하면서 메모리/연산을 추가로 절감.

3.5 Cross-Attention과 Causal Self-Attention의 인터리빙

이게 SmolVLA만의 독특한 설계다. 다른 VLA들은 두 갈래로 갈린다:

π₀: VLM과 Action Expert를 한 덩어리의 self-attention으로 연결
GR00T N1: 순수 cross-attention만 사용

SmolVLA는 두 방식을 블록 단위로 번갈아 끼워 넣는다(interleave):

Action Expert v_theta:
+---------------------+
| Block 1: CA (cross-attend to VLM keys/values)
+---------------------+
| Block 2: SA (causal self-attention among action tokens)
+---------------------+
| Block 3: CA
+---------------------+
| Block 4: SA
+---------------------+
| ... (alternating)

각 컴포넌트의 역할을 직관적으로 풀면:

CA 블록: 액션 토큰이 VLM 피처를 “관찰”한다. “지금 환경이 어떤 상황이지?”
SA 블록 (causal): 액션 토큰들끼리 서로 “조율”한다. “지금까지 정해진 행동들과 일관되게, 다음엔 뭘 해야 하지?”

Causal mask는 중요하다. 미래의 action 토큰을 보면 안 되는데, 그래야 추론 시 일관된 시퀀스를 만들 수 있다(미래에서 누설된 정보로 학습한 모델은 추론 단계에서 무너진다).

논문 어블레이션에 따르면(Table 6, 7):

Attention	LIBERO Avg SR (%)
CA only	79.0
SA only	74.5
CA + SA interleaved	85.5

Mask	LIBERO Avg SR (%)
Bidirectional	67.5
Causal	74.5

특히 실제 로봇에서 SA 블록이 부드러운 행동 청크를 만드는 데 결정적이라고 저자들은 보고한다. 이는 액션 간 시간적 일관성 때문으로 보인다.

graph TD
    VLM[VLM Features o_t] -->|keys, values| CA1[CA Block 1]
    Noise[Noisy Actions A_t^tau] --> CA1
    CA1 --> SA1[SA Block 1<br/>causal mask]
    SA1 --> CA2[CA Block 2]
    VLM -->|keys, values| CA2
    CA2 --> SA2[SA Block 2<br/>causal mask]
    SA2 --> Out[Velocity field<br/>v_theta]
    style CA1 fill:#FFD700,color:#000
    style CA2 fill:#FFD700,color:#000
    style SA1 fill:#FFFFE0,color:#000
    style SA2 fill:#FFFFE0,color:#000

4. 학습 데이터: 커뮤니티의 힘

SmolVLA의 두 번째 핵심 기여는 데이터 출처의 전환이다. OpenVLA가 100만 trajectory, π₀가 1만 시간 분량의 cross-embodiment 데이터로 학습한 반면, SmolVLA는 다음을 사용한다:

항목	수치
데이터셋 수	481개
에피소드 수	22.9K
프레임 수	10.6M

기존 VLA 대비 한 자릿수 적은 데이터. 그것도 전부 Hugging Face의 공개 커뮤니티 기여 데이터셋이다. SO-100 같은 저가 로봇으로 학교 연구실, 가정, 개인 연구자가 모은 데이터들. 이 데이터들의 특성:

다양한 로봇 형태(embodiment)
카메라 시점 명명이 제각각 (예: images.laptop이 어떤 데이터셋에선 위에서 본 시점, 어떤 데이터셋에선 손목 시점)
태스크 어노테이션이 노이즈투성이 (“task desc”, “Hold”, “Up” 같은 모호한 라벨)
하지만 현실의 진짜 다양성을 담고 있음

이 노이즈를 어떻게 다루었나?

4.1 VLM으로 태스크 라벨 자동 생성

저자들은 Qwen2.5-VL-3B-Instruct에 각 데이터셋의 대표 프레임과 원래 라벨을 주고, 30자 이내의 동작 동사로 시작하는 한 문장을 생성하게 했다.

프롬프트 골자:
"여기 현재 태스크 설명이 있다: {current_task}.
로봇 팔이 수행하는 동작을 30자 이내, 동사로 시작하는
간결한 한 문장으로 다시 써라.
예: 'Pick up the cube and place it in the box', 
    'Open the drawer'."

결과적으로 481개 데이터셋이 일관된 명령 스타일로 정규화됐다.

4.2 카메라 시점 표준화

시점 일관성도 직접 손으로 정리했다. 모든 카메라를 다음과 같이 통일:

OBS_IMAGE_1 = top view (위에서)
OBS_IMAGE_2 = wrist view (손목 카메라)
OBS_IMAGE_3 = side view (옆에서)

추가 시점은 순서를 보존하되 학습 시 드롭. 사람이 직접 했다는 점이 중요한데, 이는 향후 자동화의 대상이다.

이 두 단계 — VLM 재라벨링 + 시점 표준화 — 가 없으면 커뮤니티 데이터로 학습이 의미 있게 작동하지 않았을 거란 게 저자들의 주장이다. 실제로 데이터 정리에 들인 정성이 결과의 큰 부분을 설명한다.

5. 비동기 추론(Asynchronous Inference): 로봇이 멍 때리지 않게

이 부분이 SmolVLA에서 가장 실용적으로 중요한 기여다. 모델 자체는 익숙한 디자인의 변주이지만, 비동기 추론은 모델 독립적으로 다른 정책에도 바로 적용 가능하다.

5.1 동기 추론의 문제

일반적인 VLA 제어 루프:

  Time -->
  
  observe o_t
     |
     v
  [============= predict A_t (chunk of n actions) =============]   <- model busy
     |                                                          
     v
  execute a_t, a_{t+1}, ..., a_{t+n}
                                                                
  observe o_{t+n}
     |
     v
  [============= predict A_{t+n} =============]

문제 1: 추론 중 idle gap. 정책이 다음 청크를 계산하는 동안 로봇은 정지해 있다 (또는 마지막 액션을 계속 실행).

문제 2: 반응성 부족. 청크 전체를 다 실행한 후에야 새 관측을 받으니, 환경이 갑자기 바뀌어도 즉각 반응 못 한다.

문제 3: 온보드 연산 부담. 모델이 로봇 컴퓨터에서 돌아야 하니 GPU가 비싸진다.

5.2 비동기 추론 아키텍처

SmolVLA의 해법은 클라이언트-서버 분리:

graph LR
    subgraph Robot
    RC[RobotClient<br/>action queue]
    end
    subgraph Server
    PS[PolicyServer<br/>SmolVLA inference]
    end
    RC -->|observation o_t| PS
    PS -->|action chunk A_t| RC
    RC -->|execute a_t| Motor[Robot motors]

RobotClient: 액션 큐에서 액션을 하나씩 꺼내(PopFront) 모터로 보냄. 큐 길이가 임계값 아래로 떨어지면 새 관측을 캡처해 PolicyServer에 전송.
PolicyServer: 관측을 받아 추론 후 새 청크를 RobotClient로 보냄. 다른 머신, GPU 서버에 있어도 됨.

핵심 아이디어는 추론과 실행을 시간적으로 겹치게 만드는 것.

5.3 알고리즘 의사코드

Algorithm: Asynchronous Inference Loop

Input:  T (horizon), n (chunk size), g in [0,1] (queue threshold)

Init:   capture o_0; send to PolicyServer; receive A_0 = pi(o_0)

for t = 0 to T:
    a_t <- PopFront(A_t)
    Execute(a_t)
    
    if |A_t| / n < g:                          # queue is running low
        capture new observation o_{t+1}
        if NeedsProcessing(o_{t+1}):           # joint-space similarity filter
            async_handle = AsyncInfer(o_{t+1}) # non-blocking
            A_tilde_{t+1} = pi(o_{t+1})        # new chunk arrives
            A_{t+1} = aggregate(A_t, A_tilde_{t+1})  # merge overlap
    
    if NotCompleted(async_handle):
        A_{t+1} = A_t                          # keep using old queue
end for

5.4 임계값 g의 역할

여기가 핵심이다. g는 큐가 얼마나 비었을 때 새 추론을 트리거할지 를 결정한다.

Queue size over time, varying g:

g = 0.0  (sequential limit)
  Queue: |####### ........ ####### ........|
         full   empty(idle) full   empty(idle)
  -> Long idle gaps!

g = 0.7  (sweet spot)
  Queue: |##### ## ##### ## ##### ## ####|
         steady refill, no full drain
  -> Balanced reactivity vs compute

g = 1.0  (compute-intensive limit)
  Queue: |###############################|
         always near-full (one inference per tick)
  -> Maximum reactivity, but costly

이론적으로, idle gap 없이 큐를 유지하려면:

g \geq \frac{\mathbb{E}[\ell_S] / \Delta t}{n}

여기서 \ell_S는 서버 추론 지연, \Delta t는 제어 주기(30fps라면 33ms), n은 청크 크기. 만약 추론이 100ms 걸리고 청크가 50이면, g \geq 0.06이면 충분히 큐가 안 비는 게 보장된다. 실제로는 안전 마진을 두고 0.5~0.7을 쓴다.

5.5 관측 유사도 필터

또 하나의 디테일: 로봇이 거의 정지해 있을 때, 관측이 거의 동일한데도 매번 새 추론을 트리거하면 자원 낭비다. SmolVLA는 joint-space 거리가 임계값 \epsilon 이하면 near-duplicate로 보고 추론을 건너뛴다. 단, 큐가 비면 무조건 추론.

5.6 결과: 30% 빠르고, 같은 시간에 2배 많은 작업 완료

지표	Sync	Async	차이
평균 성공률 (%)	78.3	73.3	비슷
Pick-Place 평균 시간 (s)	13.75	9.70	30% 빠름
60초 내 완료한 cube 수	9	19	2배 이상

성공률은 거의 동일하지만, 환경 외란(누군가 큐브를 옮긴다든지)에 대한 적응력은 비동기가 훨씬 좋다고 보고한다.

6. 실험 결과 자세히 보기

6.1 시뮬레이션: LIBERO와 Meta-World

LIBERO는 4가지 카테고리(Spatial, Object, Goal, Long-horizon) × 10 태스크 = 40개 태스크 벤치마크. Meta-World는 50개 태스크 × 4단계 난이도(Easy/Medium/Hard/Very Hard).

LIBERO 결과 요약:

모델	파라미터	VLA 사전학습	평균 SR (%)
Diffusion Policy	-	No	72.4
Octo	0.09B	Yes	75.1
OpenVLA	7B	Yes	76.5
π₀ (Paligemma init)	3B	No	71.8
π₀ (full pretrain)	3.3B	Yes	86.0
SmolVLA	0.45B	No	87.3
SmolVLA	2.25B	No	88.75

이 표가 정말 인상적이다. SmolVLA 0.45B가 7배 큰 OpenVLA(7B)를 10%p 이상, 같은 크기의 π₀(3.3B)를 살짝 앞선다. 게다가 SmolVLA는 로봇 데이터로 사전학습조차 안 했다(VLM에서 초기화만 했다).

Meta-World 결과:

모델	Easy	Medium	Hard	Very Hard	Avg
TinyVLA	77.6	21.5	11.4	15.8	31.6
π₀ (Paligemma)	80.4	40.9	36.7	44.0	50.5
π₀ (pretrained)	71.8	48.2	41.7	30.0	47.9
SmolVLA 0.45B	82.5	41.8	45.0	60.0	57.3
SmolVLA 2.25B	87.1	51.8	70.0	64.0	68.2

특히 Hard/Very Hard에서 SmolVLA의 우위가 두드러진다. Flow Matching action expert가 다중모드 분포를 잘 잡아내는 걸로 해석된다.

6.2 실제 로봇: SO-100 / SO-101

SO-100, 멀티 태스크 학습 결과:

모델	Pick-Place	Stacking	Sorting	평균
ACT (single-task, from scratch)	70	50	25	48.3
π₀ (3.5B, multi-task)	100	40	45	61.7
SmolVLA (0.45B, multi-task)	75	90	70	78.3

π₀가 Pick-Place 단일 태스크에선 100% 찍지만, 더 어려운 Stacking과 Sorting에선 SmolVLA가 압도. Sorting은 long-horizon 태스크라 sub-task scoring이 적용되는데, 여기서 작은 모델이 큰 모델을 이긴다는 것은 아키텍처와 데이터 활용 효율이 좋다는 신호다.

SO-101 OOD 일반화 (Pick-Place-Lego, 투명 박스에 작은 lego 넣기):

모델	In-Distribution	Out-of-Distribution
ACT	70	40
SmolVLA	90	50

SmolVLA는 SO-101 데이터로 사전학습된 적이 없는데도 ACT를 OOD에서 이긴다. 커뮤니티 데이터의 다양성이 일반화를 도왔다는 강한 증거.

6.3 사전학습과 멀티태스크의 효과 분리

학습 설정	사전학습	평균 SR (%)
Single-task	No	40.0
Multi-task	No	51.7
Multi-task	Yes	78.3

사전학습 단독으로 +27%p, 멀티태스크 학습 단독으로 +12%p. 두 효과가 더해진다. 이는 커뮤니티 데이터셋 사전학습이 단순한 트릭이 아니라 본질적 기여라는 강한 증거다.

7. 어블레이션: 어떤 디자인 결정이 정말 중요한가

논문은 풍부한 어블레이션을 제공한다. 핵심만 추리면:

7.1 어떤 레이어를 쓸 것인가

N (사용 레이어 수)	LIBERO Avg SR (%)
8	75.0
16	78.5
24	79.5
32 (전체)	80.3
Skip every 2nd	75.5
작은 VLM (256M) 풀	75.8

중요 통찰: “큰 VLM의 절반 레이어”가 “작은 VLM 전체”보다 낫다. 즉, 사전학습된 표현력의 양이 중요하지, 깊이가 결정적이지 않다는 것. 또한 매 두 번째 레이어 건너뛰기보다, 처음 N개를 연속으로 쓰는 게 낫다.

7.2 학습 목적함수: Flow Matching vs Regression

Objective	LIBERO Avg SR (%)
L1 Regression	75.25
Flow Matching	80.25

특히 long-horizon 태스크(LIBERO-10)에서 Flow Matching이 38 → 53으로 도약. 다중모드 분포 모델링의 가치가 길고 복잡한 행동에서 더 두드러진다.

7.3 상태(State)는 어디로 보낼 것인가

State 위치	Attention	LIBERO Avg SR (%)
Prefix (VLM에)	CA	80.3
Suffix (Action Expert에)	CA	73.3
Prefix	SA	53.3
Suffix	SA	74.8

상태를 VLM에 넣어서 시각·언어와 함께 통합 처리하는 게 명확히 좋다. Action Expert가 처음부터 정제된 멀티모달 표현을 받게 되니까.

7.4 청크 크기 n

n	LIBERO Avg SR (%)
1	50.0
10	84.0
30	78.5
50	80.3
100	74.5

n=1(매 step마다 추론)은 노이즈에 취약하고, n=100은 너무 길어서 환경 변화에 둔감. 10~50이 sweet spot. 실용적으로 50이 추론 효율과 성능의 균형이 좋다.

7.5 관측 갱신 주기

청크 내 실행 후 새 관측까지 step	LIBERO Avg SR (%)
1	80.3
10	82.8
30	70.8
50 (전체 실행)	51.8

청크 50개를 다 실행하고 관측 갱신하면 성능이 무너진다. 결과적으로 비동기 추론이 필수라는 강한 정당화.

8. 비판적 고찰: 강점과 약점

8.1 강점

(1) 접근성의 진정한 진보. 단일 GPU 학습, CPU 추론 가능, 100달러대 로봇으로 검증. 이는 단순한 마케팅 문구가 아니라 실제 연구실/개인이 입문할 수 있는 진입점을 만든다. LeRobot 라이브러리와의 통합도 진짜다.

(2) 데이터 패러다임의 전환. 커뮤니티 데이터의 가치를 처음으로 시스테매틱하게 입증. 향후 더 많은 사용자가 데이터를 기여할수록 모델이 좋아지는 선순환 가능성.

(3) 비동기 추론의 모델 독립성. Algorithm 1은 SmolVLA만이 아니라 임의의 chunked policy에 적용 가능. 이게 사실 가장 큰 실용적 기여일 수 있다. 실제 로봇 연구에서 즉시 활용 가능한 엔지니어링 자산.

(4) Flow Matching + interleaved CA/SA 조합. π₀의 Flow Matching 아이디어를 가져오되, 어텐션 구조에서 차별화. 어블레이션이 충실해서 각 디자인 결정의 효과를 명확히 분리해 보여준다.

(5) 완전한 오픈소스. 코드, 가중치, 학습 데이터, 하드웨어 도면까지 다 공개. 재현성의 모범.

8.2 약점과 한계

(1) 단일 embodiment 의존. 사전학습이 SO-100 중심이라, 더 다양한 로봇(Franka, UR5, 휴머노이드 등)에 대한 일반화는 검증되지 않음. SO-101로 zero-shot이 잘 되긴 했지만, SO 시리즈 간 유사성이 크다는 점을 감안해야 한다.

(2) 데이터셋 규모의 작음. 22.9K 에피소드는 OpenVLA(1M)에 비해 한참 작다. 저자들도 이를 한계로 명시. 더 큰 데이터로 스케일링했을 때의 거동은 미지수.

(3) 짧은 호라이즌 한정. 평가된 태스크는 모두 단순한 manipulation (pick-place, stacking, sorting). 진짜 long-horizon 태스크(예: 요리, 조립)에서의 성능은 알 수 없음. 저자들도 hierarchical policy 도입 필요성을 언급.

(4) VLM 백본의 적합성. SmolVLM-2는 OCR/문서 이해에 강점이 있는 모델로 사전학습됨. 로봇 환경(3D 공간 추론, 물리적 상호작용)에 최적은 아닐 수 있다. 로봇용 VLM 사전학습 레시피가 향후 과제.

(5) Imitation learning만. 강화학습 fine-tuning이 빠져 있어, 모방 데이터를 넘어선 행동 향상이 어렵다. 특히 dexterous manipulation(이 글을 읽는 분이 익숙할 영역)에서는 RL이 거의 필수다.

(6) Tactile/force sensing 부재. 시각+언어+proprioception만 사용. 정밀한 manipulation(예: 케이블 조립, 옷감 다루기)에는 촉각 피드백이 필수인데, 이는 SmolVLM-2 백본이 다루지 않는 모달리티다.

(7) 비동기 추론의 미세 조정 부담. 임계값 g, 유사도 임계값 \epsilon 등이 태스크별로 튜닝이 필요. 논문에서도 Pick-Place 기준으로 최적화한 값을 다른 태스크에 그대로 썼는데, Sorting에서 sync(70%)가 async(50%)보다 잘 나온 것은 이 일반화의 어려움을 드러낸다.

9. 관련 연구와의 위치

graph TB
    subgraph "거대 VLA"
    A[OpenVLA<br/>7B, autoregressive tokens]
    B[π₀<br/>3.3B, flow matching]
    C[GR00T N1<br/>휴머노이드, cross-attn]
    D[RT-2<br/>VLM + robot data]
    end
    subgraph "효율 VLA"
    E[TinyVLA<br/>sub-1B, scratch]
    F[Octo<br/>0.09B, transformer]
    G[SmolVLA<br/>0.45B, community data]
    end
    A -.축소.-> G
    B -.효율화.-> G
    E -.사전학습 강화.-> G
    F -.다양 데이터.-> G
    style G fill:#90EE90,color:#000

차원	OpenVLA	π₀	GR00T N1	TinyVLA	SmolVLA
파라미터	7B	3.3B	2B+	<1B	0.45B
액션 표현	discrete tokens	flow matching	flow matching	regression	flow matching
데이터	OXE	10K hr cross-emb	휴머노이드	일반 멀티모달	커뮤니티
Attention	SA only	SA only	CA only	SA only	CA+SA interleaved
비동기 추론	X	X	X	X	O
오픈소스 완전성	부분	부분	부분	O	완전

특히 dexterous manipulation 연구자(이 글을 읽는 분처럼)에게 흥미로운 비교:

SmolVLA의 Flow Matching action expert는 DexVLA와 비슷한 철학(plug-in diffusion expert).
하지만 SmolVLA는 dexterous hand가 아닌 단순 그리퍼 기반. 고차원 손가락 제어(예: Allegro Hand의 16 DoF) 로 확장하면 어떻게 될지가 큰 질문이다. 청크 크기, action expert 용량 등이 더 늘어나야 할 것이고, sim-to-real 전이도 새 도전이 된다.
HORA, AnyRotate, DexNDM 같은 dexterous in-hand manipulation 라인과 결합한다면 — 즉, 시각-언어 조건부 Flow Matching policy로 in-hand reorientation을 학습한다면 — 흥미로운 후속 연구가 될 수 있다.

10. 직관적 정리: 왜 작은 모델이 작동했나

이 논문에서 가장 중요한 메시지를 한 문장으로 압축하면 이렇다.

“VLA 성능을 결정하는 것은 모델 크기가 아니라, 사전학습된 표현의 품질, 행동 분포의 모델링 방식, 그리고 데이터의 다양성이다.”

세부 통찰:

사전학습 표현의 절반만 써도 충분하다 — VLM의 마지막 레이어는 로봇 제어에 과잉 처리된 표현일 수 있다. 중간 레이어가 더 “행동 친화적”일 수 있다.
시각 토큰을 64개로 줄여도 괜찮다 — 조작 태스크는 이미지 전체를 픽셀 단위로 이해할 필요가 없다. 객체 위치와 손의 상태만 잡히면 된다.
Flow Matching이 회귀를 이긴다 — 행동은 본질적으로 다중모드 분포다. 단일 평균을 학습하는 회귀보다, 분포 자체를 학습하는 생성 모델이 자연스러운 행동을 만든다.
CA와 SA는 보완재다 — CA는 환경을 보고, SA는 자기 자신과 일관성을 맞춘다. 둘을 번갈아 쌓으면 둘의 장점을 다 얻는다.
동기 추론은 사치다 — 모델이 추론하는 동안 로봇이 멍 때리는 것은 본질이 아니라 엔지니어링 게으름이다. 비동기로 분리하면 30%의 시간이 절약된다.
데이터의 진짜 다양성이 중요하다 — 잘 정제된 100만 trajectory보다, 노이즈투성이지만 다양한 23K trajectory가 어떤 면에선 더 강력하다 (특히 일반화 측면에서).

11. 마무리: 무엇이 흥미로운가, 그리고 무엇을 해 볼 것인가

SmolVLA는 “거대 모델 = 좋은 성능”이라는 통념을 흔든다. 더 중요한 건, 이를 통해 연구 진입장벽 자체를 낮췄다는 점이다. 비싼 GPU 없이도, 비싼 로봇 없이도, VLA 연구를 할 수 있게 만들었다.

이 글을 읽는 dexterous manipulation 연구자의 관점에서, 몇 가지 흥미로운 후속 방향을 제안하며 마친다.

(1) Allegro Hand에 적용해보기. SmolVLA를 16-DoF 손에 그대로 적용하면 어떻게 될까? action expert의 출력 차원을 늘리고, isaaclab/IsaacGym 시뮬에서 fine-tune해서, in-hand reorientation 같은 태스크를 시도해볼 가치가 있다. 이때 SmolVLA의 컴팩트성은 sim-to-real loop에서 큰 장점이다 — 빠른 fine-tune, 빠른 추론.

(2) 촉각 백본 추가. TacSL이나 DIGIT 시뮬을 사용해서 tactile 토큰을 SmolVLA의 입력에 추가하는 실험. SmolVLM-2 외에 별도의 tactile encoder를 두고 cross-attention으로 통합하면, 정밀 조작에 강해질 가능성.

(3) 비동기 추론을 quasi-dynamic 제어와 결합. CTR-MPC처럼 quasi-dynamic 가정을 쓰는 시스템에 비동기 추론을 적용하면, MPC의 계산 부담을 더 효과적으로 분산시킬 수 있을지 실험해볼 만하다.

(4) 커뮤니티 데이터 기여. Hugging Face에 자기 로봇 데이터를 올리는 것 자체가 이제 의미 있는 연구 활동이다. SO-ARM 외의 dexterous platform (Allegro, Tesollo 등)의 커뮤니티 데이터셋을 만들어 SmolVLA-style 모델을 학습시킬 수 있다.

(5) RL fine-tuning. ConRFT 같은 VLA용 RL 방법을 SmolVLA에 적용해서, imitation의 한계를 넘는 dexterous policy를 만들어볼 수 있다. 작은 모델이라 RL 학습이 빨라진다는 게 큰 장점.

작은 모델의 매력은, 실험을 빨리 돌릴 수 있다는 것이다. 좋은 가설이 있으면 며칠 내에 검증할 수 있다. 이 논문은 그 가능성을 활짝 열어줬다.