flowchart LR
subgraph PRE["latent ์ฌ์ ํ์ต (self-supervised)"]
Q["๋ฌด์์ ๊ด์ ์ํ<br/>q^(h) (์๋ง๋ค)"] --> E["์๋ณ ์ธ์ฝ๋ E_h"]
E --> Z["๊ณต์ latent z<br/>~ N(0, I)"]
Z --> D["์๋ณ ๋์ฝ๋ D_h"]
D --> R["๋ณต์ qฬ^(h)"]
end
Z -. "๋ฏธ๋ถ๊ฐ๋ฅ FK" .-> FK["fingertip ๋ณ์ ์ ๋ ฌ<br/>(retargeting ์์ค)"]
๐XL-VLA ๋ฆฌ๋ทฐ
- ๐ก XL-VLA๋ ๋ค์ํ dexterous hand๋ค ๊ฐ์ ๊ณต์ ๋๋ ํต์ผ๋ latent action space๋ฅผ ํ์ฉํ์ฌ scalableํ cross-embodiment dexterous manipulation์ ๊ฐ๋ฅํ๊ฒ ํ๋ Vision-Language-Action (VLA) ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ ๏ธ ์ด embodiment-invariant latent space๋ unsupervised autoencoder๋ฅผ ํตํด ์ฌ์ ํ์ต๋๋ฉฐ, reconstruction, retargeting, ๊ทธ๋ฆฌ๊ณ latent regularization ์์ค์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ ๊ธฐ๊ตฌํ์ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฆฌ ๋์ต๋๋ค.
- ๐ ์ค์ ๋ก๋ด ์คํ์์ XL-VLA๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๋ก์ด hand-task ์กฐํฉ์ ๋ํ zero-shot generalization ๋ฅ๋ ฅ์ ์ ์ฆํ์ฌ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์ฌํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
XL-VLA ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ํ Cross-Hand Latent Representation์ ์ ์ํ์ฌ, ๋ค์ํ ํํ์ Dexterous Hand์ ๊ฑธ์ณ ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ด ์กฐ์(Manipulation)์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ๋ก๋ด์ Morphology์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ํ๋ ๊ณต๊ฐ(Action Space) ๋๋ฌธ์ ์๋ก์ด ๋ก๋ด์ด ๋ฑ์ฅํ ๋๋ง๋ค ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ฌํ์ตํด์ผ ํ๋ ๋นํจ์จ์ฑ์ ๊ฐ์ง๋๋ค. ํนํ Dexterous Hand์ ๊ฒฝ์ฐ, ๊ด์ ์์น(Joint Position) ํ๋ผ๋ฏธํฐํ๊ฐ embodiment๋ง๋ค ํฌ๊ฒ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ค์ํ Dexterous Hand์ ๊ฑธ์ณ ๊ณต์ ๋๋ ํตํฉ๋ Latent Action Space๋ฅผ ๋์ ํฉ๋๋ค.

XL-VLA ๊ฐ์: ๋ค ๊ฐ์ง Dexterous Hand(Ability, Paxini DexH13, X-Hand1, Inspire)์ ๊ฑธ์ณ ๊ณต์ Latent Action์ ๋์ฝ๋ฉํ๋ ๊ตฌ์กฐ์ ์คํ ํ๊ฒฝ, ์์ง๋ ๊ฐ์ฒด๋ค์ ๋ณด์ฌ์ค๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
XL-VLA์ ํต์ฌ์ ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค: (1) ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ(Vision V, Language T)์ ์ธ์ฝ๋ฉํ๋ VLA Backbone, (2) Cross-Embodiment Transfer๋ฅผ ์ํด ๋ฏธ๋ฆฌ ํ์ต๋(pretrained) Latent Encoder ๋ฐ Decoder ์ธํธ.
๋ฌธ์ ์ ์ (Problem Formulation): ๊ฐ Dexterous Hand h \in H๋ d_h๊ฐ์ actuated joints๋ฅผ ๊ฐ์ง๋ฉฐ, ์ ๋ ๊ด์ ํ์ (Absolute Joint Rotations) q^{(h)} \in \mathbb{R}^{d_h}๋ฅผ ์ ์ดํฉ๋๋ค. ์ ์ฑ ์ Action Chunk ๋จ์๋ก ์๋ํ๋ฉฐ, ๊ฐ Action q^{(h)}_t \in \mathbb{R}^{64 \times d_h}๋ 20Hz๋ก ์ํ๋ง๋ 64๊ฐ์ ๊ด์ ์์น ๋ช ๋ น์ด ์ํ์ค(3.2์ด์ ๋์)์ ๋๋ค. ์ ์ฑ ์ ํ์ฌ ๋จ๊ณ t์์ ์ด์ ๊ด์ ์ํ, ์ด์ ์ ์คํ๋ Action Chunk q^{(h)}_t, ํ์ฌ ์ด๋ฏธ์ง V, ์ธ์ด ์ง์ T๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ Chunk q^{(h)}_{t+1}๋ฅผ ์์ธกํฉ๋๋ค: q^{(h)}_{t+1} = F(q^{(h)}_t, V, T) ์ฌ๊ธฐ์ F๋ Hand-Agnostic ๋ชจ๋ธ์ด๋ฉฐ, Hand ID h๋ ์ ์ ํ Encoder/Decoder๋ฅผ ์ ํํ๋ ๋ฐ๋ง ์ฌ์ฉ๋ฉ๋๋ค.
XL-VLA ํ์ดํ๋ผ์ธ: XL-VLA๋ \pi_0 [6]์ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๊ธฐ์กด \pi_0๊ฐ proprioceptive history๋ฅผ state token ์คํ์ผ๋ก ์ ๊ณตํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, XL-VLA์์๋ latent action token์ ์ฌ์ฉํฉ๋๋ค. ๊ฐ Hand h์ ๋ํด, Hand-specific Encoder E_h๋ ์ด์ ์ ๋ ๊ด์ ์์น Action Chunk q^{(h)}_t๋ฅผ ์์ถ๋ Latent Vector z_t = E_h(q^{(h)}_t)๋ก ๋งคํํฉ๋๋ค. VLA ๋ชจ๋ธ์ ์ด๋ฌํ Latent Token๋ค์ ์งง์ History์ Vision ๋ฐ Language Token์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ Latent Chunk \hat{z}_{t+1}์ ์์ธกํฉ๋๋ค. ์ด Latent Vector๋ Embodiment-specific Decoder D_h์ ์ํด ๋ค์ ๊ด์ ๋ช ๋ น Chunk \hat{q}^{(h)}_{t+1} = D_h(\hat{z}_{t+1})๋ก ๋์ฝ๋ฉ๋ฉ๋๋ค. VLA Fine-tuning ์ค์๋ ๋ชจ๋ Latent Encoder์ Decoder๋ Frozen ์ํ๋ฅผ ์ ์งํฉ๋๋ค.

XL-VLA ๋ชจ๋ธ ํ์ดํ๋ผ์ธ: \pi_0 ์์ ๊ตฌ์ถ๋์ด Vision/Language ์ธ์ฝ๋์ ํจ๊ป ๊ณต์ Latent Action Space์์ ๋์ํ๋ Action Expert๋ฅผ ์ฌ์ฉํ๋ฉฐ, VLA ํ์ต ์ค์๋ Encoder/Decoder๊ฐ Frozen ์ํ๋ก ์ ์ง๋ฉ๋๋ค.
Latent Space ํ์ต (Latent Space Learning): Latent Space๋ ๋ฉํฐ ํค๋ VAE(Variational Autoencoder) ์คํ์ผ์ Autoencoder๋ฅผ ํตํด VLA ๋ชจ๋ธ๊ณผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฌ์ ํ์ต๋ฉ๋๋ค. ๊ฐ Hand Type h \in H์ ๋ํด Hand-specific Encoder E_h์ Decoder D_h๊ฐ ์ ์๋ฉ๋๋ค. Input q^{(h)}๋ Encoder MLP๋ฅผ ํตํด ๊ณตํต Latent Space๋ก ํฌ์๋๊ณ , Decoder MLP๋ Latent Embedding์ Hand์ ์๋ ๊ด์ ๊ตฌ์ฑ์ผ๋ก ์ฌํฌ์ํฉ๋๋ค.
์๋ฏธ ์๋ Cross-Embodiment Latent Space๋ฅผ ํ์ฑํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํ๋ จ ์ ์ฝ ์กฐ๊ฑด์ด ๋ถ๊ณผ๋ฉ๋๋ค:
- ์ฌ๊ตฌ์ฑ ์์ค (L_1, Reconstruction Loss): Encoder-Decoder ์์ด ํด๋น Hand์ ๋ํ Autoencoder๋ก ์๋ํ๋๋ก ๋ณด์ฅํฉ๋๋ค. L_1 = L_{rec} = \frac{1}{|H|} \sum_{h \in H} \text{MSE}(\hat{q}^{(h)}, q^{(h)}) ์ด๋ Latent Space๊ฐ Hand-specific kinematics๋ฅผ ๋ณด์กดํ๋๋ก ํฉ๋๋ค.
- ๋ฆฌํ๊ฒํ ์์ค (L_2, Retargeting Loss): ๋ค๋ฅธ Dexterous Hand ๋ก๋ด ๊ฐ์ Fingertip Geometry๋ฅผ ์ ๋ ฌํฉ๋๋ค. ๊ฐ Hand h์ ๋ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ Forward Kinematics (FK)๋ฅผ ์ฌ์ฉํ์ฌ ๊ด์ ์ Fingertip Position p^{(h)}_i์ ๋งคํํ๊ณ , Fingertip Displacement \delta^{(h)}_{ij} = p^{(h)}_i - p^{(h)}_j๋ฅผ ์ ์ํฉ๋๋ค. L_2 = \frac{1}{|H|(|H|-1)|P|} \sum_{s \neq t} \sum_{(i,j) \in P} w^{(s)}_{ij} \left[ \lambda_{dis} \| \delta^{(s)}_{ij} \|^2 - \| \hat{\delta}^{(t)}_{ij} \|^2 \right]^2 + \lambda_{dir}(1 - c^{(s,t)}_{ij}) ์ฌ๊ธฐ์ \hat{\delta}^{(t)}_{ij}๋ Hand t์ ๋์ฝ๋ฉ๋ ๊ตฌ์ฑ์์ ๊ณ์ฐ๋๋ฉฐ, c^{(s,t)}_{ij}๋ Pinch Directions \delta^{(s)}_{ij}์ \hat{\delta}^{(t)}_{ij} ์ฌ์ด์ ๊ฐ๋ ์ฝ์ฌ์ธ ๊ฐ์ ๋๋ค. w^{(s)}_{ij} = \exp(-\lambda_{exp} \| \delta^{(s)}_{ij} \|^2)๋ ๊ฐํ Pinch์ ๊ฐ์ค์น๋ฅผ ๋ก๋๋ค. ์ด ์์ค์ ๋์ผํ Latent Code๊ฐ ๋ค์ํ Hand์์ ๊ธฐํํ์ ์ผ๋ก ์ผ๊ด๋ Pinch Behavior๋ฅผ ์์ฑํ๋๋ก ํฉ๋๋ค.
- Latent ์์ค (L_3, Latent Loss): Dexterous Hand Latent Space๋ฅผ ๋ถ๋๋ฝ๊ณ ์ ์๋ํ๋๋ก ์ ๊ทํํ๊ธฐ ์ํด Latent ๋ณ์์ ํ์ค ๊ฐ์ฐ์์ ์ฌ์ (Standard Gaussian Prior)์ ๋ถ๊ณผํฉ๋๋ค. L_3 = L_{KL} = \mathbb{E}_q[ \text{KL}(q(z | q) \| \mathcal{N}(0, I)) ] ์ด๋ ๊ณต์ Latent Space๊ฐ \mathcal{N}(0, I) ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ๊ถ์ฅํ๋ฉฐ, Sampling ๋ฐ Interpolation์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
์ด Latent ๋ชฉ์ ํจ์ (Total Latent Objective)๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{latent} = L_1 + L_2 + \beta L_3 ์ฌ๊ธฐ์ \beta = 10^{-5}, \lambda_{dis} = 2000.0, \lambda_{dir} = 5.0, \lambda_{exp} = 12.0๋ก ๊ณ ์ ๋ฉ๋๋ค.

Latent Space ์ฌ์ ํ์ต ํ์ดํ๋ผ์ธ: ๊ฐ Hand์ ๊ด์ ์์น๊ฐ ๊ณต์ Latent Space๋ก ๋งคํ๋๋ Encoder-Decoder ๊ตฌ์กฐ์ ์ฌ๊ตฌ์ฑ, ๋ฆฌํ๊ฒํ , KL ์ ๊ทํ ์์ค์ด ์ ์ฉ๋๋ ์์น๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์ด Latent Autoencoder๋ ์ด๋ ํ Demonstration์ด๋ Inverse Kinematics (IK)๋ก ์์ฑ๋ Trajectory ์์ด ํ๋ จ๋ฉ๋๋ค. ๋์ , ๊ฐ Hand $s \in H$์ ๋ํด ํ๋์จ์ด ๊ด์ ํ๊ณ ๋ด์์ ๋ฌด์์๋ก ๊ด์ ๊ตฌ์ฑ $q^{(s)}$๋ฅผ ์ํ๋งํฉ๋๋ค. Latent ๊ณต๊ฐ์ ์ ๋ ฌ์ ์์ ํ Self-supervised ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, Cross-Hand Trajectory ์์ด ํ์ํ์ง ์์ต๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
๋ณธ ์ฐ๊ตฌ๋ 10๊ฐ์ง ๋ค์ํ ์กฐ์ Task์ Ability, Paxini DexH13, X-Hand1, Inspire ๋ฑ 4๊ฐ์ง Dexterous Hand๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ Teleoperation Dataset์ ๊ตฌ์ถํ์ต๋๋ค (์ด 2M State-Action Pair). ์คํ์ xArm๊ณผ Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ํ๋์์ต๋๋ค.

๋ค ๊ฐ์ง ๋ก๋ด ํธ๋ embodiment์ ๊ฑธ์ณ ๋ ๋๋ง๋ ์ฐ์์ ์ธ grasping Latent Trajectory ์๊ฐํ (๋ช ํ์ฑ์ ์ํด X-Hand๋ฅผ ๊ฐ์กฐ). ๋์ผํ Latent Code๊ฐ ๋ค์ํ ์์์ ์ผ๊ด๋ ๋์์ ์์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
- VLA + Latent ํตํฉ์ ํจ๊ณผ (Effectiveness of VLA + Latent Integration):
- Cross-Hand ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: XL-VLA๋ \pi_0 baseline ๋๋น ๋ชจ๋ Hand ๋ฐ Task์์ ์ผ๊ด๋๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค (Table 2). \pi_0์ ํ๊ท ์ฑ๊ณต๋ฅ ์ 0.32์ ๋ถ๊ณผํ์ง๋ง, XL-VLA๋ 0.72๋ฅผ ๊ธฐ๋กํ์ฌ 40% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ ์ ๊ตํ ์กฐ์ Task์์ ๋๋๋ฌ์ง ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
- Cross-Robot ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: Tabletop xArm๊ณผ ํด๋จธ๋ ธ์ด๋ G1์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ต์์ผฐ์ ๋, XL-VLA๋ G1์์ \pi_0 ๋๋น 57% ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค (XL-VLA: 0.825, \pi_0: 0.525) (Figure 5, Table 6). ์ด๋ ํต์ผ๋ Latent Space๊ฐ ์ด์ข ๋ก๋ด ์์คํ ๊ฐ์๋ ์ ์ตํจ์ ๋ณด์ฌ์ค๋๋ค.

G1 Cross-Robot ์ฑ๋ฅ: ์ ๋ ฌ๋ Latent Action Space๋ก co-trainingํ ๊ฒฝ์ฐ์ Raw Action Space๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋ค์ํ State/Action ๊ธธ์ด์ ๊ฑธ์ณ ๋น๊ตํ ๊ฒฐ๊ณผ์ ๋๋ค.
* **Zero-Shot Task ์ผ๋ฐํ**: XL-VLA๋ Hold-out๋ Task์ ๋ํด Zero-Shot์ผ๋ก ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค (Figure 4). ํ์ค Kinematic Retargeting ๊ธฐ๋ฐ์ $\pi_0$+RT baseline๊ณผ ๋น๊ตํ์ ๋, XL-VLA๋ ๋ชจ๋ Embodiment์ Task์์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ๋ฏธ์ธํ Dexterous Task์์ ๊ทธ ์ด์ ์ด ๋์ฑ ๋ช
ํํ์ต๋๋ค.

Zero-Shot Unseen Task ์ผ๋ฐํ ๊ฒฐ๊ณผ: Hold-out๋ Task ํ๊ฐ์ ๋ํ ์ฌ๋ฌ embodiment์ ์ฑ๊ณต๋ฅ (SR)๊ณผ ๋ถ๋ถ ์ฑ๊ณต๋ฅ (PSR)์ ๋ณด์ฌ์ค๋๋ค.
- Latent Action Space์ ํจ๊ณผ (Effectiveness of the Latent Action Space):
- Latent Replay ๋น๊ต: Latent Action Diffusion (LAD) [2]์ ๊ฐ์ Supervised Latent Space Retargeting ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ ๋, XL-VLA์ Latent Space๋ ํจ์ฌ ๋ฐ์ด๋ Replay ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค (Table 4). LAD๊ฐ 0.60, 0.61์ ๊ทธ์น ๋ฐ๋ฉด, XL-VLA๋ 0.82, 0.81์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ XL-VLA์ Latent Space๊ฐ Unsupervised ๋ฐฉ์์ผ๋ก๋ Embodiment-invariant ๊ตฌ์กฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํจ์ ์์ฌํฉ๋๋ค.
- ์ค๊ณ ์ ํ ๋น๊ต (Design Choice Comparison): Ablation Study๋ฅผ ํตํด Latent Space์ ์ํคํ ์ฒ ๋ฐ ์์ค ํจ์ ์ค๊ณ๊ฐ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์ต๋๋ค (Table 5). ์ต์ข ๊ตฌ์ฑ (Hidden Size H128->64, Latent Dimension 32)์ ์ฌ๊ตฌ์ฑ ์ ํ๋(Reconstruction Accuracy), Cross-Embodiment Retargeting, Latent Continuity, Interpolation Smoothness ๋ฑ ๋ค์ํ Metric์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ๊ท ํ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์ฌ๊ตฌ์ฑ ์์ค(L_1)๊ณผ ๋ฆฌํ๊ฒํ ์์ค(L_2) ๋ชจ๋ Cross-Embodiment ์ฑ๋ฅ์ ํ์์ ์์ด ๋ฐํ์ก์ต๋๋ค. Latent Dimension์ด ๋๋ฌด ์ปค์ง๋ฉด(์: L128) Embodiment-invariant ๊ตฌ์กฐ๋ฅผ ๋ฐฉํดํ ์ ์์์ ํ์ธํ์ต๋๋ค.
๊ฒฐ๋ก (Conclusion)
XL-VLA๋ ํตํฉ๋ Latent Action Space๋ฅผ ํตํด Vision-Language-Action ๋ชจ๋ธ์ Dexterous Manipulation์ ์ ์ฉํ๋ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๋ณธ ์ ๊ทผ ๋ฐฉ์์ ๋ค์ํ ๋ก๋ด ํธ๋์ ๊ฑธ์ณ ์ํํ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ์๋ก์ด Hand-Task ์กฐํฉ์ ๋ํ Zero-Shot ์ผ๋ฐํ๋ฅผ ์ง์ํฉ๋๋ค. ๊ด๋ฒ์ํ ์ค์ ์คํ์ ํตํด XL-VLA๋ ํ์ค VLA ๋ชจ๋ธ ๋ฐ Retargeting ๊ธฐ๋ฐ Baseline์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ Latent Action Space๊ฐ ์ผ๋ฐํ ๊ฐ๋ฅํ๊ณ ๋ฐ์ดํฐ ํจ์จ์ ์ธ Dexterous Manipulation ์์คํ ์ ๊ตฌ์ถํ๊ธฐ ์ํ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ์ด ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค ์์ฝ
์๊ฐ๋ฝ ์๋, ๊ด์ ๋ฐฐ์น๋, ์ ์ด ํ๋ผ๋ฏธํฐ๋ ์ ๊ฐ๊ฐ์ธ ์ฌ๋ฌ dexterous hand๋ฅผ ํ๋์ ๊ณต์ latent action space๋ก ๋ฌถ์ด, VLA๊ฐ โ์ด๋ค ์์ธ์งโ๊ฐ ์๋๋ผ โ๋ฌด์จ ๋์์ ํ๋ ค๋์งโ๋ฅผ ํ์ตํ๊ฒ ๋ง๋ ์ฐ๊ตฌ๋ค. ๊ทธ ๋๋ถ์ ํ ์์์ ๋ชจ์ ๋ฐ์ดํฐ๊ฐ ๋ค๋ฅธ ์์ผ๋ก ํ๋ฌ๊ฐ๊ณ , ์ฒ์ ๋ณด๋ (์ ร ์์ ) ์กฐํฉ์๋ zero-shot์ผ๋ก ์ผ๋ฐํ๋๋ค.
์๋ก : ์๋ง๋ค ์ ์ฑ ์ ์๋ก ๋ฐฐ์์ผ ํ๋๊ฐ
VLA(Vision-Language-Action) ๋ชจ๋ธ์ ์ธํฐ๋ท ๊ท๋ชจ์ vision-language ์ฌ์ ์ง์ ์์ ๋ก๋ด ํ๋์ ์น์ด, โ๋ณด๊ณ โ ์์๋ฃ๊ณ โ ์์ง์ด๋โ ์ผ์ ํ๋์ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ๋ ๋ฐ ์ฑ๊ณตํ๋ค. ๊ทธ๋ฐ๋ฐ ์์ด ๋ฐ๋๋ ์๊ฐ ์ด ์ฑ๊ณต์ด ํ๋ค๋ฆฐ๋ค.
๋ฌธ์ ์ ํต์ฌ์ ํ๋ ๊ณต๊ฐ(action space)์ด๋ค. ๊ทธ๋ฆฌํผ ํ๋๋ผ๋ฉด โ์ด๊ณ /๋ซ๊ณ โ ์ ๋์ง๋ง, dexterous hand๋ ์์ ๋๊ฐ 12~20์ ๋๋๋ค๊ณ ๊ด์ ์ ์๋ฏธ๋ง์ ์๋ง๋ค ๋ค๋ฅด๋ค. Ability, Paxini DexH13, X-Hand1, Inspire โ ์ด ๋ค ์์ ์๊ฐ๋ฝ ์, ๊ด์ ์, ๊ฐ๋ ๋ฒ์๊ฐ ์ ๋ถ ๋ค๋ฅด๋ค. ๊ฐ์ โ์์ง์ ๊ฒ์ง๋ก ์ง๊ธฐโ ๋์๋ ๊ด์ ๊ฐ๋ ๋ฒกํฐ๋ก ์ ์ผ๋ฉด ์๋ง๋ค ์์ ํ ๋ค๋ฅธ ์ซ์๊ฐ ๋๋ค. ๊ทธ๋์ ํ ์์์ ํ์ตํ VLA๋ฅผ ๋ค๋ฅธ ์์ ๊ทธ๋๋ก ์ฌ๋ฆฌ๋ฉด ๋์์ด ๋ฌด๋์ง๊ณ , ๊ฒฐ๊ตญ ์์ด ์๋ก ๋์ฌ ๋๋ง๋ค ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ๋ชจ์ ์ฌํ์ตํด์ผ ํ๋ค.
๊ธฐ์กด ์ฐํ๋ก๋ ๋ ๊ฐ๋์๋ค. (1) ๊ณตํต end-effector pose๋ก ์ถ์ํ โ ํ์ง๋ง ์๊ฐ๋ฝ ํ๋ํ๋์ ์ฌ์ธํ ์ ์ด์ ๋ฒ๋ฆฐ๋ค. (2) kinematic retargeting์ผ๋ก ์ ์ฌ์ด ๋์์ ๋ณํ โ ํ์ง๋ง ์์ ๊ธฐ๊ตฌํ ์ฐจ์ด๊ฐ ํด์๋ก ๋ณํ์ด ๋ถ์ ํํ๊ณ , ๋ฏธ์ธ ์กฐ์์์ ๊นจ์ง๋ค. XL-VLA์ ์ง๋ฌธ์ ์ด๋ ๋ค. โ์์ ์ข ๋ฅ์ ๋ฌด๊ดํ, ๊ทธ๋ฌ๋ ์๊ฐ๋ฝ ์์ค์ ์๋๊น์ง ๋ด๋ ๊ณตํต ํ๋ ์ธ์ด๋ฅผ ๋ง๋ค ์ ์๋๊ฐ?โ
ํต์ฌ ์์ด๋์ด: ํ๋์ โ์โ์ด ์๋๋ผ โ์๋โ๋ก ์ ๊ธฐ
XL-VLA์ ๋ต์ ํต์ญ์ฌ๋ฅผ ๋๋ ๊ฒ์ด๋ค. ์ฌ๋์ด ํ๊ตญ์ด๋ก ๋งํ๋ ์์ด๋ก ๋งํ๋ โ์ฌ๊ณผ๋ฅผ ์ง์ดโ๋ผ๋ ์๋ฏธ๋ ๊ฐ๋ค. ํต์ญ์ฌ๋ ๊ทธ ์๋ฏธ๋ฅผ ์ค๋ฆฝ์ ์ธ ๊ฐ๋ ๊ณต๊ฐ์ ์ ์ด๋๊ณ , ๋ฃ๋ ์ฌ๋์ ์ธ์ด๋ก ๋ค์ ํ์ด๋ธ๋ค.
์ฌ๊ธฐ์ โ์ค๋ฆฝ์ ์ธ ๊ฐ๋ ๊ณต๊ฐโ์ด ๋ฐ๋ก ๊ณต์ latent action space๋ค. ๊ฐ ์์๋ ์ ์ฉ ์ธ์ฝ๋(์๊ธฐ ๊ด์ ๋ฒกํฐ๋ฅผ ๊ณตํต latent๋ก ์์ถ)์ ์ ์ฉ ๋์ฝ๋(๊ณตํต latent๋ฅผ ์๊ธฐ ๊ด์ ๋ช ๋ น์ผ๋ก ๋ณต์)๊ฐ ๋ฌ๋ฆฐ๋ค. VLA ๋ณธ์ฒด๋ ์์ ๋ชจ๋ฅธ๋ค. ์ค์ง latent ํ ํฐ์ ํ๋ฆ๋ง ๋ณด๊ณ ๋ค์ latent๋ฅผ ์์ธกํ๋ฉฐ, ์ ID๋ ๊ทธ์ โ์ด๋ ์ธ์ฝ๋/๋์ฝ๋๋ฅผ ๋ผ์ธ์งโ ๊ณ ๋ฅด๋ ์ค์์น์ผ ๋ฟ์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก VLA๊ฐ ๋ฐฐ์ฐ๋ ๊ฒ์ โInspire์ 13๋ฒ ๊ด์ ์ 0.3radโ ๊ฐ์ ์ ์ข ์ ๋ช ๋ น์ด ์๋๋ผ โ์ง๊ธ์ ์ง๋ ๊ตญ๋ฉดโ์ด๋ผ๋ embodiment-invariant ์๋๋ค.
๋ฐฉ๋ฒ ๋ค์ฌ๋ค๋ณด๊ธฐ
1) ๊ณต์ latent๋ฅผ ๋ง๋๋ ๋ฉํฐํค๋ ์คํ ์ธ์ฝ๋
latent space๋ VLA์ ๋ถ๋ฆฌ๋์ด ๋จผ์ ํ์ต๋๋ค. ์ h๋ง๋ค ์ธ์ฝ๋ E_h์ ๋์ฝ๋ D_h๊ฐ ์๊ณ , ์ ๋ ฅ ๊ด์ ๊ตฌ์ฑ q^{(h)}๋ฅผ ๊ณตํต latent z๋ก ๋ณด๋๋ค๊ฐ ๋ค์ \hat q^{(h)}๋ก ๋๋๋ฆฐ๋ค.
๊ฐ์ฅ ์๋ฆฌํ ๋๋ชฉ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๋ฐฉ์์ด๋ค. ์์ฐ(demonstration)๋, IK๋ก ๋ง๋ ๊ถค์ ๋ ํ์ ์๋ค. ๊ทธ๋ฅ ๊ฐ ์์ ํ๋์จ์ด ๊ด์ ํ๊ณ ์์์ ๊ด์ ๊ตฌ์ฑ์ ๋ฌด์์๋ก ์ํ๋งํด์ ์ด๋ค. ์ฆ latent ์ ๋ ฌ์ ์์ ํ self-supervised์ด๋ฉฐ, โ์ A์ ์ด ๋์ = ์ B์ ์ ๋์โ ๊ฐ์ cross-hand ์ง ๋ฐ์ดํฐ๋ ์๊ตฌํ์ง ์๋๋ค.
2) ์ธ ์์ค์ ์ญํ
๊ณต์ ๊ณต๊ฐ์ด โ๊ทธ๋ฅ ์์ถโ์ด ์๋๋ผ ์๋ฏธ๊ฐ ํตํ๋ ๊ณต๊ฐ์ด ๋๋ ค๋ฉด ์ธ ๊ฐ์ง ์ ์ฝ์ด ๋์์ ๊ฑธ๋ ค์ผ ํ๋ค.
- ์ฌ๊ตฌ์ฑ ์์ค L_1: E_hโD_h๊ฐ ๊ฐ ์์ ๋ํด ์ ๋๋ก ๋ ์คํ ์ธ์ฝ๋๊ฐ ๋๋๋ก โ latent๊ฐ ์์ ๊ธฐ๊ตฌํ์ ๋ณด์กดํ๊ฒ ํ๋ค.
- ๋ฆฌํ๊ฒํ ์์ค L_2 (ํต์ฌ): ๋ฏธ๋ถ ๊ฐ๋ฅํ forward kinematics๋ก ๊ด์ ์ ์๋ ์์น๋ก ๋ณด๋ด๊ณ , ์๋ ์ฌ์ด ๋ณ์ \delta_{ij}๋ฅผ ์๋ค ์ฌ์ด์์ ์ ๋ ฌํ๋ค. ๊ฐํ pinch์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ์ค๋ค. ๋๋ถ์ ๊ฐ์ latent code๊ฐ ์์ด ๋ฌ๋ผ๋ ๊ธฐํํ์ ์ผ๋ก ์ผ๊ด๋ pinch๋ฅผ ๋ง๋ ๋ค โ ์ด๊ฒ์ด โ์๋ฏธ๊ฐ ํตํ๋โ ๊ณต๊ฐ์ ์ ์ฒด๋ค.
- KL ์์ค L_3: latent๋ฅผ \mathcal N(0,I)๋ก ์ ๊ทํํด ๊ณต๊ฐ์ ๋งค๋๋ฝ๊ฒ ๋ง๋ค๊ณ ๋ณด๊ฐยท์ํ๋ง์ ์ฝ๊ฒ ํ๋ค.
์ด ๋ชฉ์ ํจ์๋ L_{latent}=L_1+L_2+\beta L_3 (\beta=10^{-5}). ablation์์ L_1๊ณผ L_2 ์ค ํ๋๋ผ๋ ๋น ์ง๋ฉด cross-embodiment ์ฑ๋ฅ์ด ๋ฌด๋์ง๋ค โ ๋ ๋ค ํ์๋ค.
3) VLA์ latent๋ฅผ ๋ผ์ฐ๋ ๋ฐฉ์
๋ณธ์ฒด๋ \pi_0 ์ํคํ ์ฒ๋ฅผ ๋ฐ๋ฅธ๋ค. ๋ค๋ง \pi_0๊ฐ proprioceptive ์ด๋ ฅ์ state token์ผ๋ก ๋ฃ๋ ์๋ฆฌ์, XL-VLA๋ latent action token์ ๋ฃ๋๋ค. ์ด์ ๊ด์ ์ฒญํฌ q^{(h)}_t๋ฅผ E_h๋ก latent z_t๋ก ์์ถํด visionยทlanguage ํ ํฐ๊ณผ ํจ๊ป ๋ฃ๊ณ , ๋ค์ latent ์ฒญํฌ \hat z_{t+1}๋ฅผ ์์ธกํ ๋ค D_h๋ก ๊ด์ ๋ช ๋ น \hat q^{(h)}_{t+1}๋ก ๋ณต์ํ๋ค. ํ๋ ์ฒญํฌ๋ 20Hz๋ก ์ํ๋ง๋ 64์คํ (์ฝ 3.2์ด)์ด๋ฉฐ, VLA ๋ฏธ์ธ์กฐ์ ๋์ ์ธ์ฝ๋ยท๋์ฝ๋๋ ์ ๋ถ frozen์ด๋ค. ์ฆ ํ ๋ฒ ์ ์ ๋ ฌํ ๊ณตํต ์ธ์ด๋ฅผ ๊ณ ์ ํด ๋๊ณ , ๊ทธ ์์์ ์ ์ฑ ๋ง ๋ฐฐ์ด๋ค.
์คํ์ด ๋งํ๋ ๊ฒ
์์น๋ฅผ ์๋ฏธ ์ค์ฌ์ผ๋ก ํ๋ฉด ์ด๋ ๋ค.
- Cross-hand ์ค์ผ์ผ๋ง: ๋ค ์์ ๋ฐ์ดํฐ๋ฅผ ํฉ์ณ ํ์ตํ๋ฉด \pi_0 ํ๊ท ์ฑ๊ณต๋ฅ 0.32 โ XL-VLA 0.72. ์์ด ๋ค๋ฅด๋ค๋ ์ด์ ๋ก ๋ฒ๋ ค์ง๋ ๋ฐ์ดํฐ๊ฐ ์๋ก๋ฅผ ๋๋๋ค๋ ์ง์ ์ฆ๊ฑฐ๋ค.
- Cross-robot ์ค์ผ์ผ๋ง: tabletop xArm๊ณผ ํด๋จธ๋ ธ์ด๋ G1์ ํจ๊ป ํ์ตํ๋ฉด G1์์ \pi_0 0.525 โ 0.825. ๊ณตํต latent๊ฐ ํ ํ๋ซํผ์ด ๋ฌ๋ผ๋ ์ด๋์ ์ค๋ค.
- Zero-shot ๋ฏธ์ง ์์ : hold-outํ (์ร์์ ) ์กฐํฉ์์ kinematic retargeting ๊ธฐ๋ฐ \pi_0+RT๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ๋ฉฐ, ๋ฏธ์ธ ์กฐ์์์ ๊ฒฉ์ฐจ๊ฐ ๋ ํฌ๋ค.
- Latent ํ์ง: ์ง๋์ latent retargeting(LAD)์ด replay 0.60/0.61์ ๊ทธ์น ๋ฐ๋ฉด, XL-VLA์ self-supervised latent๋ 0.82/0.81. ์ง ๋ฐ์ดํฐ ์์ด๋ ๋ ์ข์ ๊ณต๊ฐ์ ๋ง๋ ๋ค๋ ๋ป์ด๋ค.
- ์ค๊ณ ์ ํ: latent ์ฐจ์ 32, hidden 128โ64 ๊ตฌ์ฑ์ด ์ฌ๊ตฌ์ฑยท๋ฆฌํ๊ฒํ ยท์ฐ์์ฑยท๋ณด๊ฐ์ ๊ท ํ์ . latent๋ฅผ ๋๋ฌด ํค์ฐ๋ฉด(์: 128) ์คํ๋ ค embodiment-invariant ๊ตฌ์กฐ๊ฐ ํํธ๋ฌ์ง๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์ . โํ๋์ ์๋๋ก ์ ๋๋คโ๋ ์ถ์ํ๊ฐ ๊น๋ํ๊ณ , ๊ทธ๊ฒ์ ์์ฐยทIK ์๋ ๋ฌด์์ ๊ด์ ์ํ๋ง๋ง์ผ๋ก self-supervisedํ๊ฒ ์ ๋ ฌํ ์ ์ด ์ค์ฉ์ ์ด๋ค. ์์ด ์ถ๊ฐ๋ผ๋ ์ธ์ฝ๋/๋์ฝ๋ ํ ์๋ง ์๋ก ๋ถ์ฌ ์ ๋ ฌํ๋ฉด ๋๊ณ , ๊ธฐ์กด VLAยท๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ์ฌํ์ฉํ๋ค. retargeting ์์ค์ ๋ฏธ๋ถ๊ฐ๋ฅ FK๋ก ๊ฑด ๊ฒ๋ ๊ธฐํํ์ ์ผ๊ด์ฑ์ ์ง์ ๊ฐ์ ํ๋ ์๋ฆฌํ ์ ํ์ด๋ค.
ํ๊ณ์ ์๋ฌธ.
- ๋ฌด์์ ๊ด์ ์ํ๋ง์ ๋ถํฌ ์ฐจ์ด: ํ๋์จ์ด ํ๊ณ ์์์ ๊ท ์ผ ์ํ๋งํ ๊ตฌ์ฑ์ ์ค์ ์กฐ์์์ ์์ฃผ ์ฐ๋ ์์ธ ๋ถํฌ์ ๋ค๋ฅผ ์ ์๋ค. latent๊ฐ โ์ค์ ๋ก ์์ฃผ ์ฐ๋ ์์ญโ์์ ์ถฉ๋ถํ ์ด์ดํ์ง๋ ๋ ๋ฐ์ ธ๋ด์ผ ํ๋ค(์ถ์ธก).
- frozen ๋์ฝ๋์ ์ํ: ์ ๋ ฌ์ ๊ณ ์ ํด ๋๋ ์ค๊ณ๋ ์์ ์ ์ด์ง๋ง, ๋์ฝ๋๊ฐ ํํ ๋ชป ํ๋ ๋ฏธ์ธ ๋์์ VLA๊ฐ ์๋ฌด๋ฆฌ ์ข์๋ ๋ณต์ ๋จ๊ณ์์ ์๋ฆฐ๋ค.
- ์ 4์ข ยทteleop ๋ฐ์ดํฐ ์์กด: 2M state-action์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ๋ชจ์๊ณ ์์ 4์ข ์ด๋ค. ๋ ์ด์ง์ ์ธ ์(์: 3์ง ๊ทธ๋ฆฌํผ โ๏ธ 5์ง humanoid hand)์ด๋ ๋ ๋ง์ ์ข ์ผ๋ก์ ํ์ฅ์ฑ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
- ์ค์ธ๊ณ ํ๊ฐ ์ค์ฌ: ๊ฐ๋ ฅํ ์ค์ฆ์ด์ง๋ง, ์คํจ ์ฌ๋ก์ ์์ธ(์ ๋ ฌ ์ค๋ฅ vs ์ ์ฑ ์ค๋ฅ vs ๋์ฝ๋ ํ๊ณ)์ ๋ถํดํ ๋ถ์์ด ๋ ์์ผ๋ฉด ์ข๊ฒ ๋ค.
ํต์ฌ์ ๋ค์ ํ ์ค๋ก
XL-VLA์ ๊ธฐ์ฌ๋ โdexterous manipulation์ cross-embodiment ๋ฌธ์ ๋ฅผ ๊ณต์ latent action space๋ก ํ์ํ ๊ฒโ์ด๋ค. ์์ ๋ค์์ฑ์ ์ธ์ฝ๋/๋์ฝ๋๋ผ๋ ์ด๋ํฐ๋ก ํก์ํ๊ณ , VLA์๋ ์๊ณผ ๋ฌด๊ดํ ์๋๋ง ๋ณด์ฌ์ค์ผ๋ก์จ, ๋ฐ์ดํฐ๋ ์ฌํ์ฉ๋๊ณ ์ ์กฐํฉ์ zero-shot์ผ๋ก ํ๋ฆฐ๋ค. ๋ฌด์์ ์ํ๋ง ๊ธฐ๋ฐ์ self-supervised ์ ๋ ฌ๊ณผ ๋ฏธ๋ถ๊ฐ๋ฅ FK retargeting์ด ์ด ๊ทธ๋ฆผ์ ๊ฐ์ธ๊ฒ ๋ง๋ ํต์ฌ ์ฅ์น๋ค. ๋จ์ ๊ณผ์ ๋ ๋ ์ด์ง์ ์ธ ์์ผ๋ก์ ํ์ฅ๊ณผ latent ๋ถํฌ์ ์ถฉ์ค๋์ง๋ง, โํ๋์ ์์ด ์๋๋ผ ์๋๋ก ์ ๋๋คโ๋ ๋ฐฉํฅ์ฑ์ ๋ฒ์ฉ dexterous VLA๋ก ๊ฐ๋ ์ค๋๋ ฅ ์๋ ํ ๊ฑธ์์ด๋ค.