📃XL-VLA 리뷰

cross-embodiment

vla

dexterity

latent

Cross-Hand Latent Representation for Vision-Language-Action Models

Published

March 13, 2026

💡 XL-VLA는 다양한 dexterous hand들 간에 공유되는 통일된 latent action space를 활용하여 scalable한 cross-embodiment dexterous manipulation을 가능하게 하는 Vision-Language-Action (VLA) 프레임워크입니다.
🛠️ 이 embodiment-invariant latent space는 unsupervised autoencoder를 통해 사전 학습되며, reconstruction, retargeting, 그리고 latent regularization 손실을 사용하여 다양한 손의 기구학적 차이를 효과적으로 다리 놓습니다.
📈 실제 로봇 실험에서 XL-VLA는 기존 VLA 모델보다 뛰어난 성능을 보였고, 새로운 hand-task 조합에 대한 zero-shot generalization 능력을 입증하여 효율적인 데이터 재활용을 가능하게 합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

XL-VLA 논문은 Vision-Language-Action (VLA) 모델을 위한 Cross-Hand Latent Representation을 제안하여, 다양한 형태의 Dexterous Hand에 걸쳐 확장 가능한 로봇 조작(Manipulation)을 가능하게 합니다. 기존 VLA 모델은 로봇의 Morphology에 따라 달라지는 행동 공간(Action Space) 때문에 새로운 로봇이 등장할 때마다 대규모 데이터를 수집하고 재학습해야 하는 비효율성을 가집니다. 특히 Dexterous Hand의 경우, 관절 위치(Joint Position) 파라미터화가 embodiment마다 크게 달라지는 문제가 있습니다. 본 연구는 이러한 문제를 해결하기 위해, 다양한 Dexterous Hand에 걸쳐 공유되는 통합된 Latent Action Space를 도입합니다.

XL-VLA 개요: 네 가지 Dexterous Hand(Ability, Paxini DexH13, X-Hand1, Inspire)에 걸쳐 공유 Latent Action을 디코딩하는 구조와 실험 환경, 수집된 객체들을 보여줍니다.

핵심 방법론 (Core Methodology)

XL-VLA의 핵심은 다음 두 가지 주요 구성 요소로 이루어져 있습니다: (1) 멀티모달 입력(Vision V, Language T)을 인코딩하는 VLA Backbone, (2) Cross-Embodiment Transfer를 위해 미리 학습된(pretrained) Latent Encoder 및 Decoder 세트.

문제 정의 (Problem Formulation): 각 Dexterous Hand h \in H는 d_h개의 actuated joints를 가지며, 절대 관절 회전(Absolute Joint Rotations) q^{(h)} \in \mathbb{R}^{d_h}를 제어합니다. 정책은 Action Chunk 단위로 작동하며, 각 Action q^{(h)}_t \in \mathbb{R}^{64 \times d_h}는 20Hz로 샘플링된 64개의 관절 위치 명령어 시퀀스(3.2초의 동작)입니다. 정책은 현재 단계 t에서 이전 관절 상태, 이전에 실행된 Action Chunk q^{(h)}_t, 현재 이미지 V, 언어 지시 T를 입력받아 다음 Chunk q^{(h)}_{t+1}를 예측합니다: q^{(h)}_{t+1} = F(q^{(h)}_t, V, T) 여기서 F는 Hand-Agnostic 모델이며, Hand ID h는 적절한 Encoder/Decoder를 선택하는 데만 사용됩니다.
XL-VLA 파이프라인: XL-VLA는 \pi_0 [6]의 아키텍처를 기반으로 합니다. 기존 \pi_0가 proprioceptive history를 state token 스택으로 제공했던 것과 달리, XL-VLA에서는 latent action token을 사용합니다. 각 Hand h에 대해, Hand-specific Encoder E_h는 이전 절대 관절 위치 Action Chunk q^{(h)}_t를 압축된 Latent Vector z_t = E_h(q^{(h)}_t)로 매핑합니다. VLA 모델은 이러한 Latent Token들의 짧은 History와 Vision 및 Language Token을 기반으로 다음 Latent Chunk \hat{z}_{t+1}을 예측합니다. 이 Latent Vector는 Embodiment-specific Decoder D_h에 의해 다음 관절 명령 Chunk \hat{q}^{(h)}_{t+1} = D_h(\hat{z}_{t+1})로 디코딩됩니다. VLA Fine-tuning 중에는 모든 Latent Encoder와 Decoder는 Frozen 상태를 유지합니다.

XL-VLA 모델 파이프라인: \pi_0 위에 구축되어 Vision/Language 인코더와 함께 공유 Latent Action Space에서 동작하는 Action Expert를 사용하며, VLA 학습 중에는 Encoder/Decoder가 Frozen 상태로 유지됩니다.

Latent Space 학습 (Latent Space Learning): Latent Space는 멀티 헤드 VAE(Variational Autoencoder) 스타일의 Autoencoder를 통해 VLA 모델과 독립적으로 사전 학습됩니다. 각 Hand Type h \in H에 대해 Hand-specific Encoder E_h와 Decoder D_h가 정의됩니다. Input q^{(h)}는 Encoder MLP를 통해 공통 Latent Space로 투영되고, Decoder MLP는 Latent Embedding을 Hand의 원래 관절 구성으로 재투영합니다.

의미 있는 Cross-Embodiment Latent Space를 형성하기 위해 세 가지 훈련 제약 조건이 부과됩니다:
- 재구성 손실 (L_1, Reconstruction Loss): Encoder-Decoder 쌍이 해당 Hand에 대한 Autoencoder로 작동하도록 보장합니다. L_1 = L_{rec} = \frac{1}{|H|} \sum_{h \in H} \text{MSE}(\hat{q}^{(h)}, q^{(h)}) 이는 Latent Space가 Hand-specific kinematics를 보존하도록 합니다.
- 리타겟팅 손실 (L_2, Retargeting Loss): 다른 Dexterous Hand 로봇 간의 Fingertip Geometry를 정렬합니다. 각 Hand h에 대해 미분 가능한 Forward Kinematics (FK)를 사용하여 관절을 Fingertip Position p^{(h)}_i에 매핑하고, Fingertip Displacement \delta^{(h)}_{ij} = p^{(h)}_i - p^{(h)}_j를 정의합니다. L_2 = \frac{1}{|H|(|H|-1)|P|} \sum_{s \neq t} \sum_{(i,j) \in P} w^{(s)}_{ij} \left[ \lambda_{dis} \| \delta^{(s)}_{ij} \|^2 - \| \hat{\delta}^{(t)}_{ij} \|^2 \right]^2 + \lambda_{dir}(1 - c^{(s,t)}_{ij}) 여기서 \hat{\delta}^{(t)}_{ij}는 Hand t의 디코딩된 구성에서 계산되며, c^{(s,t)}_{ij}는 Pinch Directions \delta^{(s)}_{ij}와 \hat{\delta}^{(t)}_{ij} 사이의 각도 코사인 값입니다. w^{(s)}_{ij} = \exp(-\lambda_{exp} \| \delta^{(s)}_{ij} \|^2)는 강한 Pinch에 가중치를 둡니다. 이 손실은 동일한 Latent Code가 다양한 Hand에서 기하학적으로 일관된 Pinch Behavior를 생성하도록 합니다.
- Latent 손실 (L_3, Latent Loss): Dexterous Hand Latent Space를 부드럽고 잘 작동하도록 정규화하기 위해 Latent 변수에 표준 가우시안 사전(Standard Gaussian Prior)을 부과합니다. L_3 = L_{KL} = \mathbb{E}_q[ \text{KL}(q(z | q) \| \mathcal{N}(0, I)) ] 이는 공유 Latent Space가 \mathcal{N}(0, I) 분포를 따르도록 권장하며, Sampling 및 Interpolation을 용이하게 합니다.
총 Latent 목적 함수 (Total Latent Objective)는 다음과 같습니다: L_{latent} = L_1 + L_2 + \beta L_3 여기서 \beta = 10^{-5}, \lambda_{dis} = 2000.0, \lambda_{dir} = 5.0, \lambda_{exp} = 12.0로 고정됩니다.

Latent Space 사전 학습 파이프라인: 각 Hand의 관절 위치가 공유 Latent Space로 매핑되는 Encoder-Decoder 구조와 재구성, 리타겟팅, KL 정규화 손실이 적용되는 위치를 보여줍니다.

이 Latent Autoencoder는 어떠한 Demonstration이나 Inverse Kinematics (IK)로 생성된 Trajectory 없이 훈련됩니다. 대신, 각 Hand $s \in H$에 대해 하드웨어 관절 한계 내에서 무작위로 관절 구성 $q^{(s)}$를 샘플링합니다. Latent 공간의 정렬은 완전히 Self-supervised 방식으로 이루어지며, Cross-Hand Trajectory 쌍이 필요하지 않습니다.

실험 및 결과 (Experiments and Results)

본 연구는 10가지 다양한 조작 Task와 Ability, Paxini DexH13, X-Hand1, Inspire 등 4가지 Dexterous Hand를 포함하는 대규모 Teleoperation Dataset을 구축했습니다 (총 2M State-Action Pair). 실험은 xArm과 Unitree G1 휴머노이드 로봇에서 수행되었습니다.

네 가지 로봇 핸드 embodiment에 걸쳐 렌더링된 연속적인 grasping Latent Trajectory 시각화 (명확성을 위해 X-Hand를 강조). 동일한 Latent Code가 다양한 손에서 일관된 동작을 생성함을 보여줍니다.

VLA + Latent 통합의 효과 (Effectiveness of VLA + Latent Integration):
- Cross-Hand 데이터 스케일링: XL-VLA는 \pi_0 baseline 대비 모든 Hand 및 Task에서 일관되고 강력한 성능 향상을 달성했습니다 (Table 2). \pi_0의 평균 성공률은 0.32에 불과했지만, XL-VLA는 0.72를 기록하여 40% 이상의 성능 향상을 보였습니다. 특히 정교한 조작 Task에서 두드러진 개선을 보였습니다.
- Cross-Robot 데이터 스케일링: Tabletop xArm과 휴머노이드 G1의 데이터를 함께 학습시켰을 때, XL-VLA는 G1에서 \pi_0 대비 57% 더 높은 성공률을 보였습니다 (XL-VLA: 0.825, \pi_0: 0.525) (Figure 5, Table 6). 이는 통일된 Latent Space가 이종 로봇 시스템 간에도 유익함을 보여줍니다.

G1 Cross-Robot 성능: 정렬된 Latent Action Space로 co-training한 경우와 Raw Action Space를 사용한 경우를 다양한 State/Action 길이에 걸쳐 비교한 결과입니다.

*   **Zero-Shot Task 일반화**: XL-VLA는 Hold-out된 Task에 대해 Zero-Shot으로 일반화하는 능력을 보였습니다 (Figure 4). 표준 Kinematic Retargeting 기반의 $\pi_0$+RT baseline과 비교했을 때, XL-VLA는 모든 Embodiment와 Task에서 일관되게 우수한 성능을 보였으며, 특히 미세한 Dexterous Task에서 그 이점이 더욱 명확했습니다.

Zero-Shot Unseen Task 일반화 결과: Hold-out된 Task 평가에 대한 여러 embodiment의 성공률(SR)과 부분 성공률(PSR)을 보여줍니다.

Latent Action Space의 효과 (Effectiveness of the Latent Action Space):
- Latent Replay 비교: Latent Action Diffusion (LAD) [2]와 같은 Supervised Latent Space Retargeting 방법과 비교했을 때, XL-VLA의 Latent Space는 훨씬 뛰어난 Replay 성공률을 보였습니다 (Table 4). LAD가 0.60, 0.61에 그친 반면, XL-VLA는 0.82, 0.81을 달성했습니다. 이는 XL-VLA의 Latent Space가 Unsupervised 방식으로도 Embodiment-invariant 구조를 효과적으로 포착함을 시사합니다.
- 설계 선택 비교 (Design Choice Comparison): Ablation Study를 통해 Latent Space의 아키텍처 및 손실 함수 설계가 미치는 영향을 분석했습니다 (Table 5). 최종 구성 (Hidden Size H128->64, Latent Dimension 32)은 재구성 정확도(Reconstruction Accuracy), Cross-Embodiment Retargeting, Latent Continuity, Interpolation Smoothness 등 다양한 Metric에서 강력한 성능 균형을 보여주었습니다. 특히, 재구성 손실(L_1)과 리타겟팅 손실(L_2) 모두 Cross-Embodiment 성능에 필수적임이 밝혀졌습니다. Latent Dimension이 너무 커지면(예: L128) Embodiment-invariant 구조를 방해할 수 있음을 확인했습니다.

결론 (Conclusion)

XL-VLA는 통합된 Latent Action Space를 통해 Vision-Language-Action 모델을 Dexterous Manipulation에 적용하는 확장 가능한 프레임워크를 제시합니다. 본 접근 방식은 다양한 로봇 핸드에 걸쳐 원활한 훈련을 가능하게 하고, 새로운 Hand-Task 조합에 대한 Zero-Shot 일반화를 지원합니다. 광범위한 실제 실험을 통해 XL-VLA는 표준 VLA 모델 및 Retargeting 기반 Baseline을 일관되게 능가하는 성능을 입증했습니다. 이는 Latent Action Space가 일반화 가능하고 데이터 효율적인 Dexterous Manipulation 시스템을 구축하기 위한 강력한 기반이 될 수 있음을 시사합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한 줄 요약

손가락 수도, 관절 배치도, 제어 파라미터도 제각각인 여러 dexterous hand를 하나의 공유 latent action space로 묶어, VLA가 “어떤 손인지”가 아니라 “무슨 동작을 하려는지”를 학습하게 만든 연구다. 그 덕분에 한 손에서 모은 데이터가 다른 손으로 흘러가고, 처음 보는 (손 × 작업) 조합에도 zero-shot으로 일반화된다.

서론: 손마다 정책을 새로 배워야 하는가

VLA(Vision-Language-Action) 모델은 인터넷 규모의 vision-language 사전지식 위에 로봇 행동을 얹어, “보고 → 알아듣고 → 움직이는” 일을 하나의 모델로 처리하는 데 성공했다. 그런데 손이 바뀌는 순간 이 성공이 흔들린다.

문제의 핵심은 행동 공간(action space)이다. 그리퍼 하나라면 “열고/닫고” 정도지만, dexterous hand는 자유도가 12~20을 넘나들고 관절의 의미마저 손마다 다르다. Ability, Paxini DexH13, X-Hand1, Inspire — 이 네 손은 손가락 수, 관절 수, 가동 범위가 전부 다르다. 같은 “엄지와 검지로 집기” 동작도 관절 각도 벡터로 적으면 손마다 완전히 다른 숫자가 된다. 그래서 한 손에서 학습한 VLA를 다른 손에 그대로 올리면 동작이 무너지고, 결국 손이 새로 나올 때마다 대규모 데이터를 다시 모아 재학습해야 한다.

기존 우회로는 두 갈래였다. (1) 공통 end-effector pose로 추상화 — 하지만 손가락 하나하나의 섬세한 접촉을 버린다. (2) kinematic retargeting으로 손 사이 동작을 변환 — 하지만 손의 기구학 차이가 클수록 변환이 부정확하고, 미세 조작에서 깨진다. XL-VLA의 질문은 이렇다. “손의 종류와 무관한, 그러나 손가락 수준의 의도까지 담는 공통 행동 언어를 만들 수 있는가?”

핵심 아이디어: 행동을 “손”이 아니라 “의도”로 적기

XL-VLA의 답은 통역사를 두는 것이다. 사람이 한국어로 말하든 영어로 말하든 “사과를 집어”라는 의미는 같다. 통역사는 그 의미를 중립적인 개념 공간에 적어두고, 듣는 사람의 언어로 다시 풀어낸다.

여기서 “중립적인 개념 공간”이 바로 공유 latent action space다. 각 손에는 전용 인코더(자기 관절 벡터를 공통 latent로 압축)와 전용 디코더(공통 latent를 자기 관절 명령으로 복원)가 달린다. VLA 본체는 손을 모른다. 오직 latent 토큰의 흐름만 보고 다음 latent를 예측하며, 손 ID는 그저 “어느 인코더/디코더를 끼울지” 고르는 스위치일 뿐이다. 결과적으로 VLA가 배우는 것은 “Inspire의 13번 관절을 0.3rad” 같은 손 종속 명령이 아니라 “지금은 집는 국면”이라는 embodiment-invariant 의도다.

방법 들여다보기

1) 공유 latent를 만드는 멀티헤드 오토인코더

latent space는 VLA와 분리되어 먼저 학습된다. 손 h마다 인코더 E_h와 디코더 D_h가 있고, 입력 관절 구성 q^{(h)}를 공통 latent z로 보냈다가 다시 \hat q^{(h)}로 되돌린다.

가장 영리한 대목은 학습 데이터를 만드는 방식이다. 시연(demonstration)도, IK로 만든 궤적도 필요 없다. 그냥 각 손의 하드웨어 관절 한계 안에서 관절 구성을 무작위로 샘플링해서 쓴다. 즉 latent 정렬은 완전히 self-supervised이며, “손 A의 이 동작 = 손 B의 저 동작” 같은 cross-hand 짝 데이터도 요구하지 않는다.

flowchart LR
    subgraph PRE["latent 사전학습 (self-supervised)"]
        Q["무작위 관절 샘플<br/>q^(h) (손마다)"] --> E["손별 인코더 E_h"]
        E --> Z["공유 latent z<br/>~ N(0, I)"]
        Z --> D["손별 디코더 D_h"]
        D --> R["복원 q̂^(h)"]
    end
    Z -. "미분가능 FK" .-> FK["fingertip 변위 정렬<br/>(retargeting 손실)"]

2) 세 손실의 역할

공유 공간이 “그냥 압축”이 아니라 의미가 통하는 공간이 되려면 세 가지 제약이 동시에 걸려야 한다.

재구성 손실 L_1: E_h–D_h가 각 손에 대해 제대로 된 오토인코더가 되도록 — latent가 손의 기구학을 보존하게 한다.
리타겟팅 손실 L_2 (핵심): 미분 가능한 forward kinematics로 관절을 손끝 위치로 보내고, 손끝 사이 변위 \delta_{ij}를 손들 사이에서 정렬한다. 강한 pinch에 더 큰 가중치를 준다. 덕분에 같은 latent code가 손이 달라도 기하학적으로 일관된 pinch를 만든다 — 이것이 “의미가 통하는” 공간의 정체다.
KL 손실 L_3: latent를 \mathcal N(0,I)로 정규화해 공간을 매끄럽게 만들고 보간·샘플링을 쉽게 한다.

총 목적함수는 L_{latent}=L_1+L_2+\beta L_3 (\beta=10^{-5}). ablation에서 L_1과 L_2 중 하나라도 빠지면 cross-embodiment 성능이 무너진다 — 둘 다 필수다.

3) VLA에 latent를 끼우는 방식

본체는 \pi_0 아키텍처를 따른다. 다만 \pi_0가 proprioceptive 이력을 state token으로 넣던 자리에, XL-VLA는 latent action token을 넣는다. 이전 관절 청크 q^{(h)}_t를 E_h로 latent z_t로 압축해 vision·language 토큰과 함께 넣고, 다음 latent 청크 \hat z_{t+1}를 예측한 뒤 D_h로 관절 명령 \hat q^{(h)}_{t+1}로 복원한다. 행동 청크는 20Hz로 샘플링된 64스텝(약 3.2초)이며, VLA 미세조정 동안 인코더·디코더는 전부 frozen이다. 즉 한 번 잘 정렬한 공통 언어를 고정해 두고, 그 위에서 정책만 배운다.

실험이 말하는 것

수치를 의미 중심으로 풀면 이렇다.

Cross-hand 스케일링: 네 손의 데이터를 합쳐 학습하면 \pi_0 평균 성공률 0.32 → XL-VLA 0.72. 손이 다르다는 이유로 버려지던 데이터가 서로를 돕는다는 직접 증거다.
Cross-robot 스케일링: tabletop xArm과 휴머노이드 G1을 함께 학습하면 G1에서 \pi_0 0.525 → 0.825. 공통 latent가 팔 플랫폼이 달라도 이득을 준다.
Zero-shot 미지 작업: hold-out한 (손×작업) 조합에서 kinematic retargeting 기반 \pi_0+RT보다 일관되게 우수하며, 미세 조작에서 격차가 더 크다.
Latent 품질: 지도식 latent retargeting(LAD)이 replay 0.60/0.61에 그친 반면, XL-VLA의 self-supervised latent는 0.82/0.81. 짝 데이터 없이도 더 좋은 공간을 만든다는 뜻이다.
설계 선택: latent 차원 32, hidden 128→64 구성이 재구성·리타겟팅·연속성·보간의 균형점. latent를 너무 키우면(예: 128) 오히려 embodiment-invariant 구조가 흐트러진다.

비판적 고찰

강점. “행동을 의도로 적는다”는 추상화가 깔끔하고, 그것을 시연·IK 없는 무작위 관절 샘플링만으로 self-supervised하게 정렬한 점이 실용적이다. 손이 추가돼도 인코더/디코더 한 쌍만 새로 붙여 정렬하면 되고, 기존 VLA·데이터를 그대로 재활용한다. retargeting 손실을 미분가능 FK로 건 것도 기하학적 일관성을 직접 강제하는 영리한 선택이다.

한계와 의문.

무작위 관절 샘플링의 분포 차이: 하드웨어 한계 안에서 균일 샘플링한 구성은 실제 조작에서 자주 쓰는 자세 분포와 다를 수 있다. latent가 “실제로 자주 쓰는 영역”에서 충분히 촘촘한지는 더 따져봐야 한다(추측).
frozen 디코더의 상한: 정렬을 고정해 두는 설계는 안정적이지만, 디코더가 표현 못 하는 미세 동작은 VLA가 아무리 좋아도 복원 단계에서 잘린다.
손 4종·teleop 데이터 의존: 2M state-action을 텔레오퍼레이션으로 모았고 손은 4종이다. 더 이질적인 손(예: 3지 그리퍼 ↔︎ 5지 humanoid hand)이나 더 많은 종으로의 확장성은 추가 검증이 필요하다.
실세계 평가 중심: 강력한 실증이지만, 실패 사례의 원인(정렬 오류 vs 정책 오류 vs 디코더 한계)을 분해한 분석이 더 있으면 좋겠다.

핵심을 다시 한 줄로

XL-VLA의 기여는 “dexterous manipulation의 cross-embodiment 문제를 공유 latent action space로 환원한 것”이다. 손의 다양성을 인코더/디코더라는 어댑터로 흡수하고, VLA에는 손과 무관한 의도만 보여줌으로써, 데이터는 재활용되고 새 조합은 zero-shot으로 풀린다. 무작위 샘플링 기반의 self-supervised 정렬과 미분가능 FK retargeting이 이 그림을 값싸게 만든 핵심 장치다. 남은 과제는 더 이질적인 손으로의 확장과 latent 분포의 충실도지만, “행동을 손이 아니라 의도로 적는다”는 방향성은 범용 dexterous VLA로 가는 설득력 있는 한 걸음이다.