flowchart TB
subgraph Input["์
๋ ฅ"]
IMG[ํ์ฌ ๊ด์ธก ์ด๋ฏธ์ง]
PROP[๋ก๋ด ๊ณ ์ ์์ฉ ์ํ]
INST[์ธ์ด ์ง์๋ฌธ]
end
subgraph VideoBackbone["๋น๋์ค ๋ฐฑ๋ณธ (Cosmos-Predict2)"]
ENC[VAE Encoder]
FLOW_V[Partial Denoising<br/>ฯ_v๊น์ง Flow]
LATENT[์ ์ฌ ๋น๋์ค ๊ณํ<br/>z_v]
end
subgraph ActionDecoder["Action Decoder (IDM)"]
COND[์กฐ๊ฑดํ]
FLOW_A[Flow Matching<br/>ฯ_a ์ค์ผ์ค]
ACTION[Action Chunk<br/>a_1:H]
end
IMG --> ENC
INST --> ENC
ENC --> FLOW_V
FLOW_V --> LATENT
LATENT --> COND
PROP --> COND
COND --> FLOW_A
FLOW_A --> ACTION
style VideoBackbone fill:#e1f5fe
style ActionDecoder fill:#fff3e0
๐mimic-video ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค mimic-video๋ ์ฌ์ ํ์ต๋ ๋๊ท๋ชจ ๋น๋์ค ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ก๋ด ์ ์ด ์ ์ฑ ์ ๊ตฌํํ๋ Video-Action Model (VAM)์ด๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
- ๐ ๊ธฐ์กด VLA๊ฐ ์ ์ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ธํด ๋ฌผ๋ฆฌ์ ์ญํ์ ๋ก๋ด ๋ฐ์ดํฐ์์ ํ์ตํด์ผ ํ๋ ํ๊ณ์ ๋ฌ๋ฆฌ, mimic-video๋ ๋น๋์ค์ ๋์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ด ๋ฌธ์ ๋ฅผ ๋ถ๋ฆฌํ๊ณ ๋ฐ์ดํฐ ํจ์จ์ฑ์ 10๋ฐฐ ํฅ์์ํต๋๋ค.
- ๐ก ์ด ์ํคํ ์ฒ๋ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด ์กฐ์ ํ์คํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ ๋ถ๋ถ ๋๋ ธ์ด์ง์ ํตํ ๋น๋์ค ์ ์ฌ ํํ์ ํ์ฉํ์ฌ ๋น ๋ฅธ ์ถ๋ก ๊ณผ ๊ฒฌ๊ณ ํ ์ ์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
mimic-video๋ ๊ธฐ์กด์ Vision-Language-Action (VLA) ๋ชจ๋ธ๋ค์ด ๊ฐ์ง ํ๊ณ, ์ฆ ์ ์ ์ธ ์น ๋ฐ์ดํฐ(์ด๋ฏธ์ง-ํ
์คํธ ์)๋ฅผ ํตํด ์ฌ์ ํ์ต๋์ด ๋ฌผ๋ฆฌ์ ์ญํ ๋ฐ ์๊ฐ์ ์์กด์ฑ์ ์ถฉ๋ถํ ์ดํดํ์ง ๋ชปํ๊ณ ๋ก๋ด ๋ฐ์ดํฐ์ ๊ณผ๋ํ๊ฒ ์์กดํ๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ์๋ก์ด ํด๋์ค์ Video-Action Model (VAM)์
๋๋ค. ์ด ๋
ผ๋ฌธ์ ํต์ฌ ์ฃผ์ฅ์ ๋น๋์ค ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ๊ณผ์ ์์ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฟ๋ง ์๋๋ผ ์๊ฐ์ ์ญํ(visual dynamics)์ ๋ด์ฌ์ ์ผ๋ก ํ์ตํ์ฌ ๋ก๋ด ์ ์ด ๋ฌธ์ ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ถ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์
๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
mimic-video๋ ํฌ๊ฒ ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์, ์ฆ ์ฌ์ ํ์ต๋ ์ธํฐ๋ท ๊ท๋ชจ์ ๋น๋์ค ๋ชจ๋ธ๊ณผ Flow Matching ๊ธฐ๋ฐ์ ์ก์
๋์ฝ๋๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
- Flow Matching (CFM) ํ๋ ์์ํฌ:
mimic-video์ ๋น๋์ค ์์ธก ๋ฐ ์ก์ ์์ธก ๊ตฌ์ฑ ์์๋ ๋ชจ๋ Flow Matching (CFM) ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค. CFM์ ๋ฐ์ดํฐ ๋ถํฌ p_0(x_0)๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์ฐ์ ์ ๊ทํ ํ๋ฆ(Continuous Normalizing Flow)์ ๊ตฌ์ถํฉ๋๋ค. ์ด๋ ๊นจ๋ํ ๋ฐ์ดํฐ x_0 (at \tau=0)์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \epsilon \sim N(0, I) (at \tau=1) ์ฌ์ด๋ฅผ ๋ณด๊ฐํ๋ ์กฐ๊ฑด๋ถ ์ต์ ์์ก ๊ฒฝ๋ก(conditional optimal transport path) x_\tau = (1 - \tau)x_0 + \tau \epsilon๋ฅผ ์ ์ํฉ๋๋ค. ๋ชจ๋ธ์ ์ด ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ํ๋ฅด๋ ๋ฒกํฐ ํ๋(vector field) u_\tau(x_\tau | x_0) = \frac{d}{d\tau} x_\tau = \epsilon - x_0๋ฅผ ์ถ์ ํ๋ ํจ์ v_\theta๋ฅผ ํ์ตํฉ๋๋ค. ํ์ต ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \mathcal{L}_{CFM} = E_{T(\tau), p_0(x_0), p_\tau(x_\tau|x_0)} [\|v_\theta(x_\tau, \tau) - u_\tau(x_\tau | x_0)\|^2] ์ถ๋ก ์์๋ ํ์ต๋ ํ๋ v_\theta๋ฅผ \tau=1์์ \tau=0๊น์ง ์ ๋ถํ์ฌ \hat{x}_0 \sim p_0๋ฅผ ๋ณต์ํฉ๋๋ค: \hat{x}_0 = \epsilon + \int_1^0 v_\theta(\hat{x}_\tau, \tau)d\tau ์ด ์ฐ์์ ์ธ ์๊ฐ ํ๋ผ๋ฏธํฐ \tau๋partial denoising์ ๊ฐ๋ฅํ๊ฒ ํ๋๋ฐ, ์ด๋mimic-video์ ํต์ฌ ๊ฐ๋ ์ ๋๋ค. - ์ํคํ
์ฒ ๊ตฌ์ฑ:
mimic-video๋ ์ธ์ด ์กฐ๊ฑด๋ถ ๋น๋์ค ๋ฐฑ๋ณธ๊ณผ ๊ฒฝ๋ ์ก์ ๋์ฝ๋์ ๋ ๊ฐ์ง CFM ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.- ๋น๋์ค ๋ชจ๋ธ (v_\phi): Cosmos-Predict2 [38, 37]์ ๊ฐ์ Diffusion Transformer (DiT) ๊ธฐ๋ฐ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ๋น๋์ค ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์ด๊ธฐ ๊ด์ธก(5 ํ๋ ์์ ํด๋ฆฐ latent patch embedding)๊ณผ โnoisyโํ ๋ฏธ๋ ํ๋ ์(์์ฑ๋ ๋ฏธ๋ ํ๋ ์์ latent patch)์ ์ฐ๊ฒฐ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. ๋น๋์ค ๋ชจ๋ธ์ ์ธ์ด ๋ช ๋ น l์ ์ํด ์กฐ๊ฑดํ๋์ด ๋ฏธ๋ ์ํ์ค z_0^{future}์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. ์ฆ, p_\phi(z_0^{future} |z_0^{past}, l)๋ฅผ ์ ๋ํฉ๋๋ค. ์ค์ํ ์ ์ ์ ์ฒด ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋์ , ๋น๋์ค ๋ชจ๋ธ์ k-๋ฒ์งธ ๋ ์ด์ด์์ ์ถ์ถ๋ ์ค๊ฐ ์ํ(hidden state) h_{\tau_v}๋ฅผ ํ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค.
- ์ก์ ๋์ฝ๋ (\pi_\theta): ๋ก๋ด์ ๊ณ ์ ์ํ(proprioceptive state) q_t์ ์ก์ ์ํ์ค A_t^{future}๋ฅผ ์ธ์ฝ๋ฉํ๋ DiT๋ก ๊ตฌํ๋ฉ๋๋ค. ์ก์ ๋์ฝ๋๋ ๋น๋์ค ๋ชจ๋ธ์์ ์ถ์ถ๋ h_{\tau_v} ํํ์ ๊ต์ฐจ ์ดํ ์ (cross-attention)ํ์ฌ ์กฐ๊ฑดํ๋ฉ๋๋ค. ์ด๋ ์ก์ ๋์ฝ๋๊ฐ ๋ณต์กํ ๋ฏธ๋ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋์ , ํจ์ฌ ๊ฐ๋จํ ์ ์์ค ์ ์ด ๋ฌธ์ (Inverse Dynamics Model, IDM)์ ์ง์คํ ์ ์๋๋ก ํฉ๋๋ค.
- ์ก์
์ํ๋ง (Algorithm 1): ์ค์๊ฐ ์ ์ด๋ฅผ ์ํด,
mimic-video๋ ์ ์ฒด ๋น๋์ค ์ฌ๊ตฌ์ฑ์ ๊ณ์ฐ ๋น์ฉ์ ์ฐํํ์ฌ ๋ง์ง๋ ์ก์ ์ ์ฑ (marginal action policy)์์ ํจ์จ์ ์ผ๋ก ์ํ๋งํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:- ์ฃผ์ด์ง ์ด๋ฏธ์ง ๊ด์ธก o_t์ ์ธ์ด ๋ช ๋ น l, ๊ณ ์ ์ํ q_t์ ๋ํด, ๋น๋์ค ๋ชจ๋ธ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ z_1^{future}์์ ์ค๊ฐ ํ๋ฆ ์๊ฐ \tau_v๊น์ง ๋น๋์ค ํ๋ฆ ํ๋๋ฅผ ์ ๋ถํ์ฌ ๋ถ๋ถ์ ์ผ๋ก ๋ ธ์ด์ฆ๊ฐ ์ ๊ฑฐ๋ ์ ์ฌ ์ํ z_{\tau_v}^{future}๋ฅผ ์ป์ต๋๋ค (z_{\tau_v}^{future} \leftarrow z_1^{future} + \int_{\tau_v}^1 v_\phi(z_{0}^{past}, z_{\tau'v}^{future}, l, \tau'_v) d\tau'_v).
- ์ด z_{\tau_v}^{future} ์ํ๋ฅผ ๋น๋์ค ๋ชจ๋ธ์ ์ฒซ k๊ฐ ๋ ์ด์ด๋ก ์ฒ๋ฆฌํ์ฌ ๊ฒฐ๊ณผ ํ์ฑํ h_{\tau_v}๋ฅผ ์ก์ ๋์ฝ๋์ ์กฐ๊ฑด ์ ๋ณด๋ก ์ ๋ฌํฉ๋๋ค (h_{\tau_v} \leftarrow v_{(k)\phi}(z_{0}^{past}, z_{\tau_v}^{future}, l, \tau_v)).
- ์ก์ ๋์ฝ๋๋ h_{\tau_v}์ ์กฐ๊ฑดํ๋์ด ์ก์ ์ํ์ค A_0^t๋ฅผ ์์ฑํ๊ธฐ ์ํด ์์ ํ ๋๋ ธ์ด์ง ์ ์ฐจ๋ฅผ ์ํํฉ๋๋ค (A_0^t \leftarrow A_1^t + \int_1^0 \pi_\theta (A_{\tau_a}^t, q_t, h_{\tau_v}^t, \tau_a, \tau_v)d\tau_a). ์ถ๋ก ์ \tau_v๋ ์กฐ์ ๊ฐ๋ฅํ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๋ฉฐ, \tau_v = 1์ผ ๋ ๊ฐ์ฅ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค. \tau_v=1์ ๋น๋์ค ๋ชจ๋ธ์ ๋จ์ผ ์๋ฐฉํฅ ํจ์ค๋ง์ผ๋ก ์กฐ๊ฑดํ ํน์ง์ ์์ฑํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
- ํ์ต ์ ์ฐจ (Algorithm 2):
mimic-videoํ๋ จ์ ๋ ๊ฐ์ง ๋ณ๊ฐ์ ๋จ๊ณ๋ก ์งํ๋๋ฉฐ, ๊ฐ๊ฐ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ์ธํธ๋ฅผ ๋์์ผ๋ก ํฉ๋๋ค.- 1๋จ๊ณ: ๋น๋์ค ๋ฐฑ๋ณธ ํ์ธํ๋: ๋ก๋ด ์์ ์ ํน์ ์๊ฐ์ ๋๋ฉ์ธ ๋ฐ ์ญํ์ ์ผ๋ฐ ๋น๋์ค ๋ฐฑ๋ณธ์ ์ ๋ ฌํ๊ธฐ ์ํด ๋ก๋ด ๋น๋์ค ๋ฐ์ดํฐ์ ์์ LoRA (Low-Rank Adapters)๋ฅผ ์ฌ์ฉํ์ฌ ๋น๋์ค ๋ชจ๋ธ์ ํ์ธํ๋ํฉ๋๋ค. ์ด ๋จ๊ณ๋ ์ฌ์ ํ์ต๋ ์๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ๋๋ฉ์ธ๋ณ ์๋ฏธ๋ก ์ ํฌ์ฐฉํ๋๋ก ํฉ๋๋ค.
- 2๋จ๊ณ: ์ก์ ๋์ฝ๋ ํ์ต: ๋น๋์ค ๋ฐฑ๋ณธ์ ๊ณ ์ ๋ ์ํ์์ ์ก์ ๋์ฝ๋ \pi_\theta๋ฅผ ์ฒ์๋ถํฐ ํ์ตํ์ฌ ์ก์ ํ๋ฆ ํ๋๋ฅผ ํ๊ท์ํต๋๋ค. ์ถ๋ก ์ ๋ค์ํ ๋ ธ์ด์ฆ ์์ค์ ๋ํ ๊ฐ๊ฑด์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๊ฐ ํ๋ จ ๋ฐ๋ณต๋ง๋ค ๋น๋์ค(\tau_v)์ ์ก์ (\tau_a)์ ๋ํด ๋ ๋ฆฝ์ ์ธ ํ๋ฆ ์๊ฐ์ ์ํ๋งํฉ๋๋ค. ์ด ๋ถ๋ฆฌ๋ ํ์ต ๋ฐฉ์์ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋ค ์ํ ํจ์จ์ฑ์ด ๋๊ณ ์๋ ด ์๋๊ฐ ๋น ๋ฆ ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ ๋ฐ ๊ธฐ์ฌ (Key Results and Contributions)
- ๋ค์ํ ๋ก๋ด ํ๋ซํผ ์ ์ด ๋ฅ๋ ฅ:
mimic-video๋ SIMPLER-Bridge (Widow-X ๋ก๋ด) ๋ฐ LIBERO (Panda ๋ก๋ด) ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์ด์กฑ ๋ก๋ด(bimanual humanoid hands) ํ๊ฒฝ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ, SIMPLER-Bridge์์๋ ๊ธฐ์กด VLA ๋ฐ ๋ค๋ฅธ ์ต์ ๋ฐฉ๋ฒ๋ก ๋ค์ ๋ฅ๊ฐํ๋ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. - ํฅ์๋ ์ํ ํจ์จ์ฑ ๋ฐ ์๋ ด ์๋:
mimic-video์ ์ก์ ๋์ฝ๋๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ฌ 10๋ฐฐ ๋์ ์ํ ํจ์จ์ฑ๊ณผ 2๋ฐฐ ๋น ๋ฅธ ์๋ ด ์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๋น๋์ค ์ฌ์ ํ์ต์ด ๋ก๋ด ์ ์ฑ ํ์ต์ ๋ ํ๋ถํ๊ณ ํจ์จ์ ์ธ ํํ์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค. - ๋น๋์ค ์ถฉ์ค๋์ ์ก์
์ฑ๋ฅ ๊ฐ์ ํธ๋ ์ด๋์คํ ๋ถ์:
mimic-video๋ ๋น๋์ค ํ๋ฆ ์๊ฐ \tau_v๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ๋น๋์ค ์์ฑ ์ถฉ์ค๋์ ์ ์ฑ ์ฑ๋ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ํ์ต๋๋ค. ๋๋๊ฒ๋, ๊ฐ์ฅ ๋์ ์์จ ์ ์ฑ ์ฑ๋ฅ์ \tau_v=1 (๋์ ๋ ธ์ด์ฆ ์์ค)์์ ๋ฌ์ฑ๋์๋๋ฐ, ์ด๋ ๋ฏธ์ธํ ๋น๋์ค ์ฌ๊ตฌ์ฑ์ด ํจ๊ณผ์ ์ธ ์ ์ฑ ํ์ต์ ํ์์ ์ด์ง ์์ผ๋ฉฐ, ๋ถ์์ ํ ๋น๋์ค ์์ฑ์ ์ํฐํฉํธ๊ฐ ์ก์ ๋์ฝ๋์ ๋ํ Out-of-Distribution (OOD) ์กฐ๊ฑด์ด ๋ ์ ์์์ ์์ฌํฉ๋๋ค.partial denoising์ ๋ต์ ๋ชจ๋ธ ์์ธก๊ณผ ํ์ต ๋ฐ์ดํฐ ๊ฐ์ ๋ถํฌ ๋ถ์ผ์น๋ฅผ ์ํํ๊ณ , ์ถ๋ก ์ ๋น๋์ค ์์ฑ ๋น์ฉ์ ์ค์ฌ ์๋๋ฅผ ๋์ด๋ ์ด์ ์ ์ ๊ณตํฉ๋๋ค.
ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ (Limitations and Future Work)
- ๋จ์ผ ์์ ๋น๋์ค ๋ฐฑ๋ณธ ์์กด: ํ์ฌ ๋ชจ๋ธ์ ๋จ์ผ ์์ ๋น๋์ค ๋ฐฑ๋ณธ์ ์์กดํ๋ฏ๋ก ๊ณต๊ฐ ์ถ๋ก ๋ฐ ๊ฐ๋ ค์ง ๊ฐ๊ฑด์ฑ์ ์ ์ฝ์ด ์์ต๋๋ค. ํฅํ ๋ค์ค ์์ ๋ชจ๋ธ๋ก์ ํ์ฅ์ด ํ์ํฉ๋๋ค.
- ํตํฉ๋ ๋๊ท๋ชจ ํฌ๋ก์ค-์ ๋ฐ๋๋จผํธ ๋ชจ๋ธ ๋ถ์ฌ: ์์ง ํตํฉ๋ ๋๊ท๋ชจ ํฌ๋ก์ค-์ ๋ฐ๋๋จผํธ ๋ชจ๋ธ๋ก ํ๋ จ๋์ง ์์์ต๋๋ค. ์ด๋ ๋น๋์ค ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ ์ฌ๋ ฅ์ ์ต๋ํ ๋ฐํํ๋ ๋ฐ ํ์์ ์ธ ๋จ๊ณ๋ก ์ฌ๊ฒจ์ง๋๋ค.
- ์ ํ๋ ์ค์ ํ๊ฒฝ ์์ ๋ค์์ฑ: ํ์ฌ ์ค์ ํ๊ฒฝ ์คํ์ ์ ํ๋ ์์ ์ธํธ์ ๊ตญํ๋์ด ์์ต๋๋ค. ํฅํ ๋ ๋์ ๋ฒ์์ ์กฐ์ ํ๋์ผ๋ก ํ์ฅํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ๋น๋์ค์ธ๊ฐ?
๋ก๋ด ์กฐ์(manipulation) ๋ถ์ผ์์ ์ฐ๋ฆฌ๋ ์ค๋ซ๋์ ํ๋์ ๊ฟ์ ๊พธ์ด์์ต๋๋ค. ์ธํฐ๋ท์ ๋์ณ๋๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ก๋ด์ด ๋ง์น ์ฌ๋์ฒ๋ผ ๋ค์ํ ์์ ์ ์ํํ ์ ์๊ฒ ๋ง๋๋ ๊ฒ์ด์ฃ . ์ด ๊ฟ์ ์คํํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฒ์ด ๋ฐ๋ก Vision-Language-Action (VLA) ๋ชจ๋ธ์ ๋๋ค.
VLA๋ GPT๋ LLaMA ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๊ณต์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค. ์ ์ ์ธ ์ด๋ฏธ์ง์ ํ ์คํธ๋ก ์ฌ์ ํ์ต๋ Vision-Language ๋ฐฑ๋ณธ ์์ ๋ก๋ด ํ๋(action)์ ์ถ๋ ฅํ๋ ๋ ์ด์ด๋ฅผ ์น๋ ๋ฐฉ์์ด์ฃ . OpenVLA, RT-2, ฯโ ๊ฐ์ ๋ชจ๋ธ๋ค์ด ์ด ํจ๋ฌ๋ค์์ ๋ฐ๋ฆ ๋๋ค.
ํ์ง๋ง ์ฌ๊ธฐ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ฆฌ์ฒ๋ ํ์ธ๋ง ๊ต์๋์ด๋ผ๋ฉด ์๋ง ์ด๋ ๊ฒ ๋ฌผ์์ ๊ฒ๋๋ค:
โ์ ๊น, ์ ์ ์ธ ์ด๋ฏธ์ง๋ก ์ด๋ป๊ฒ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ญํ์ ์ดํดํ ์ ์์ง?โ
๋ฐ๋ก ์ด ์ง๋ฌธ์ด mimic-video ๋ ผ๋ฌธ์ ์ถ๋ฐ์ ์ ๋๋ค. ์ ์ ์ธ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ ์๋ฏธ๋ก ์ (semantic) ์ง์โ์๋ฅผ ๋ค์ด โ์ฌ๊ณผ๋ ๋นจ๊ฐ๋คโ, โ์ปต์ ์๋ฃ๋ฅผ ๋ด๋๋คโ ๊ฐ์โ์ ์ ํฌ์ฐฉํฉ๋๋ค. ํ์ง๋ง ๋ฌผ๋ฆฌ์ ์ธ๊ณผ๊ด๊ณ(physical causality)โโ์ปต์ ๋ฐ๋ฉด ์ด๋ป๊ฒ ์์ง์ด๋๊ฐโ, โ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง ๋ ์ด๋ค ๊ถค์ ์ ๊ทธ๋ฆฌ๋๊ฐโโ๋ ์ ํ ์์ง ๋ชปํฉ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก VLA ๋ชจ๋ธ๋ค์ ๋ฌผ๋ฆฌ ์ญํ์ ์ค์ง ๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ์์๋ง ํ์ตํด์ผ ํฉ๋๋ค. ์ด๊ฒ์ ๋ง์น ๋ฌผ๋ฆฌํ ๊ต๊ณผ์ ์์ด ์คํ๋ง์ผ๋ก ๋ดํด ์ญํ์ ์ ๋ํ๋ ค๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ๋ฅํ๊ธด ํ์ง๋ง, ์์ฒญ๋ ์์ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ฃ .
mimic-video๋ ์ด ๋ฌธ์ ์ ๋ํ ์ฐ์ํ ํด๋ฒ์ ์ ์ํฉ๋๋ค: ๋น๋์ค๋ฅผ ์ฌ์ฉํ์!
๋น๋์ค๋ ๋จ์ํ ์ด๋ฏธ์ง์ ์ฐ์์ด ์๋๋๋ค. ๋น๋์ค ์์๋ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์๊ณต๊ฐ์ ์ญํ์ด ์์ฐ์ค๋ฝ๊ฒ ์ธ์ฝ๋ฉ๋์ด ์์ต๋๋ค. ๊ณต์ด ๊ตด๋ฌ๊ฐ๊ณ , ๋ฌผ์ด ํ๋ฅด๊ณ , ์์ด ๋ฌผ์ฒด๋ฅผ ์ง๋ ๋ชจ์ตโ์ด ๋ชจ๋ ๊ฒ์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ์๋ฌต์ ํํ์ ๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ์ ํต์ VLA์ ํ๊ณ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ [์ ์ ์ด๋ฏธ์ง + ํ
์คํธ] โ [Vision-Language Backbone] โ
โ โ โ
โ ์๋ฏธ๋ก ์ ์ง์ โ ๋ฌผ๋ฆฌ ์ญํ โ โ
โ โ โ
โ [๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ] โ ๋ฌผ๋ฆฌ ์ญํ ํ์ต (๋ฐ์ดํฐ ๋ถ๋ด โ) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ mimic-video์ ์ ๊ทผ๋ฒ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ [์ธํฐ๋ท ์ค์ผ์ผ ๋น๋์ค] โ [Video Model Backbone] โ
โ โ โ
โ ์๋ฏธ๋ก ์ ์ง์ โ ๋ฌผ๋ฆฌ ์ญํ โ โ
โ โ โ
โ [Action Decoder] โ ์ ์์ค ์ ์ด๋ง ํ์ต (๋ฐ์ดํฐ ๋ถ๋ด โ) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
ํต์ฌ ์์ด๋์ด: Video-Action Model (VAM)
์ฒ ํ์ ๊ธฐ๋ฐ
mimic-video์ ํต์ฌ ํต์ฐฐ์ ๋ฌธ์ ์ ๋ถ๋ฆฌ(decoupling)์ ๋๋ค. ๋ก๋ด ์กฐ์์ด๋ผ๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ํ์ ๋ฌธ์ ๋ก ๋๋๋๋ค:
- ๊ณ ์์ค ๊ณํ(High-level Planning): โ๋ค์์ ๋ฌด์์ด ์ผ์ด๋์ผ ํ๋๊ฐ?โ
- ์ ์์ค ์ ์ด(Low-level Control): โ๊ทธ๊ฒ์ ์ด๋ป๊ฒ ์คํํ๋๊ฐ?โ
์ฒซ ๋ฒ์งธ ๋ฌธ์ ๋ ์ฌ์ ํ์ต๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ํด๊ฒฐํฉ๋๋ค. ์ธํฐ๋ท ์ค์ผ์ผ์ ๋น๋์ค๋ก ํ์ต๋ ์ด ๋ชจ๋ธ์ ์ด๋ฏธ ๋ฌผ๋ฆฌ ์ธ๊ณ์ โ์์โ์ ์๊ณ ์์ต๋๋ค. ์ปต์ ๋ฐ๋ฉด ๋ฏธ๋๋ฌ์ง๊ณ , ๋ฌผ์ฒด๋ฅผ ๋์ผ๋ฉด ๋จ์ด์ง๋ ๊ฒ์ฒ๋ผ์.
๋ ๋ฒ์งธ ๋ฌธ์ ๋ Inverse Dynamics Model (IDM)์ด๋ผ ๋ถ๋ฆฌ๋ action decoder๊ฐ ๋ด๋นํฉ๋๋ค. ์ด ๋์ฝ๋์ ์ญํ ์ ๋จ์ํฉ๋๋ค: โํ์ฌ ์ํ A์์ ๋ฏธ๋ ์ํ B๋ก ๊ฐ๋ ค๋ฉด ์ด๋ค ํ๋์ ํด์ผ ํ๋๊ฐ?โ ๋ฌผ๋ฆฌ ์ญํ์ ๋ํ ๊ณ ๋ฏผ ์์ด, ์ค์ง ์ํ ์ ์ด๋ง ํ์ตํ๋ฉด ๋ฉ๋๋ค.
์ด ๋ถ๋ฆฌ๊ฐ ์ ๊ฐ๋ ฅํ์ง ๋น์ ๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ๋น์ ์ด ํ์ ์ด์ ์ฌ๋ผ๊ณ ์์ํด๋ณด์ธ์:
- VLA ๋ฐฉ์: ์๋์ด โ๊ณตํญ ๊ฐ์ฃผ์ธ์โ๋ผ๊ณ ํ๋ฉด, ๋์์ ๋ชจ๋ ๋๋ก๋ฅผ ์๊ธฐํ๊ณ , ๊ตํต ํ๋ฆ์ ์์ธกํ๊ณ , ๋์์ ํธ๋ค๊ณผ ํ๋ฌ์ ์กฐ์ํด์ผ ํฉ๋๋ค.
- mimic-video ๋ฐฉ์: ๋ค๋น๊ฒ์ด์ (๋น๋์ค ๋ชจ๋ธ)์ด ๊ฒฝ๋ก๋ฅผ ์๋ ค์ฃผ๊ณ , ๋น์ ์ ๊ทธ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ์ด์ (action decoder)๋ง ํ๋ฉด ๋ฉ๋๋ค.
์ํคํ ์ฒ ๊ฐ์
mimic-video์ ์ํคํ ์ฒ๋ ๋ค์ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ง๋๋ค:
1. ๋น๋์ค ๋ฐฑ๋ณธ (Video Backbone)
NVIDIA Cosmos-Predict2๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์ธํฐ๋ท ์ค์ผ์ผ์ ๋น๋์ค ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ํ๋ถํ ๋ฌผ๋ฆฌ ์ญํ ํ๋ผ์ด์ด๋ฅผ ๋ด์ฌํ๊ณ ์์ต๋๋ค. ์ค์ํ ์ ์ ์ด ๋ชจ๋ธ์ด ์์ ํ ๋น๋์ค๋ฅผ ์์ฑํ์ง ์๋๋ค๋ ๊ฒ์ ๋๋ค. ๋์ โ๋ถ๋ถ ๋๋ ธ์ด์ง(partial denoising)โ ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค.
2. ๋ถ๋ถ ๋๋ ธ์ด์ง (Partial Denoising)
์ฌ๊ธฐ๊ฐ mimic-video์ ๊ฐ์ฅ ์๋ฆฌํ ๋ถ๋ถ์ ๋๋ค. ์ ํต์ ์ธ diffusion/flow ๋ชจ๋ธ์ ์์ ๋ ธ์ด์ฆ(ฯ=1)์์ ๊นจ๋ํ ๋ฐ์ดํฐ(ฯ=0)๊น์ง ์ ์ฒด ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋๋ค. ํ์ง๋ง mimic-video๋ ์ค๊ฐ ์ง์ ฯ_v์์ ๋ฉ์ถฅ๋๋ค.
์ ๊ทธ๋ด๊น์? ์์ ํ ๋๋ ธ์ด์ง๋ ๋น๋์ค๋ ์๊ฐ์ ์ผ๋ก ์์์ง๋ง, ์ ์ด์ ํ์ํ ์ ๋ณด๋ง ์ถ์ถํ๋ฉด ๋ฉ๋๋ค. ์ค๊ฐ ๋ ธ์ด์ฆ ๋ ๋ฒจ์ ์ ์ฌ ํํ์ ๋ถํ์ํ ์๊ฐ์ ๋ํ ์ผ์ ์ ๊ฑฐํ๋ฉด์๋ ๋์์ ๋ณธ์ง์ ์ ๋ณด๋ ์ ์งํฉ๋๋ค. ์ด๊ฒ์ ๊ณ์ฐ ํจ์จ์ฑ๋ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
3. Action Decoder (Inverse Dynamics Model)
๋น๋์ค ๋ฐฑ๋ณธ์์ ์ถ์ถํ ์ ์ฌ ๊ณํ๊ณผ ๋ก๋ด์ ๊ณ ์ ์์ฉ ์ํ(proprioceptive state)๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ ํ๋ ์ฒญํฌ(action chunk)๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๋์ฝ๋ ์ญ์ flow matching์ ์ฌ์ฉํ์ง๋ง, ๋น๋์ค์๋ ๋ ๋ฆฝ์ ์ธ flow ์ค์ผ์ค ฯ_a๋ฅผ ๋ฐ๋ฆ ๋๋ค.
๊ธฐ์ ์ ์์ธ: Flow Matching์ ์ฐ์ํจ
Flow Matching์ด๋?
Flow Matching (๋๋ Rectified Flow, Conditional Flow Matching)์ diffusion ๋ชจ๋ธ์ ์ผ๋ฐํ์ ๋๋ค. ๋ ๋ค ๋ ธ์ด์ฆ์์ ๋ฐ์ดํฐ๋ก์ ๋ณํ์ ํ์ตํ์ง๋ง, ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ ๋๋ค.
Diffusion ๋ชจ๋ธ์ ํ๋ฅ ์ ๋ฏธ๋ถ ๋ฐฉ์ ์(SDE)์ ์ญ๊ณผ์ ์ ํ์ตํฉ๋๋ค. ๋ ธ์ด์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ๊ฐํ๋ ์ ๋ฐฉ ๊ณผ์ ์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ญ์ผ๋ก ๋๋๋ฆฌ๋ ๋ฒ์ ๋ฐฐ์๋๋ค.
Flow Matching์ ๋ ์ง์ ์ ์ ๋๋ค. ๋ ธ์ด์ฆ ๋ถํฌ์ ๋ฐ์ดํฐ ๋ถํฌ ์ฌ์ด์ ์ต์ ์ด์ก ๊ฒฝ๋ก(optimal transport path)๋ฅผ ํ์ตํฉ๋๋ค. ๊ฐ์ฅ ๊ฐ๋จํ ํํ์์ ์ด ๊ฒฝ๋ก๋ ์ง์ ์ ๋๋ค:
x_\tau = (1 - \tau) \cdot x_0 + \tau \cdot \epsilon
์ฌ๊ธฐ์ x_0๋ ๋ฐ์ดํฐ, \epsilon์ ๋ ธ์ด์ฆ, \tau \in [0, 1]๋ ์๊ฐ์ ๋๋ค.
๋ชจ๋ธ์ ์๋์ฅ(velocity field) v_\theta๋ฅผ ํ์ตํฉ๋๋ค:
\mathcal{L}_{\text{CFM}} = \mathbb{E}_{\tau, x_0, \epsilon} \left\| v_\theta(x_\tau, \tau) - (\epsilon - x_0) \right\|_2^2
์ง๊ด์ ์ผ๋ก, ๋ชจ๋ธ์ โํ์ฌ ์์น x_\tau์์ ๋ฐ์ดํฐ x_0๋ก ๊ฐ๋ ค๋ฉด ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์ด๋ํด์ผ ํ๋๊ฐ?โ๋ฅผ ํ์ตํฉ๋๋ค.
์ Flow Matching์ธ๊ฐ?
Flow Matching์ด ๋ก๋ด ์ ์ฑ ํ์ต์ ํนํ ์ ํฉํ ์ด์ ๊ฐ ์์ต๋๋ค:
- ์ง์ ๊ฒฝ๋ก: ์ง์ ๊ฒฝ๋ก๋ ์์น ์ ๋ถ ์ค์ฐจ๋ฅผ ์ต์ํํฉ๋๋ค. ์ถ๋ก ์ ๋ ์ ์ ์คํ ์ผ๋ก๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- ๋ค์ค ๋ชจ๋ ๋ถํฌ ์ฒ๋ฆฌ: ๋ก๋ด ํ๋์ ์ข ์ข ๋ค์ค ๋ชจ๋(multimodal)์ ๋๋ค. ์ปต์ ์ง์ ๋ ์ผ์ชฝ์์ ์ ๊ทผํ ์๋, ์ค๋ฅธ์ชฝ์์ ์ ๊ทผํ ์๋ ์์ฃ . Flow Matching์ ์ด๋ฐ ๋ถํฌ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ๋งํฉ๋๋ค.
- ์ ์ฐํ ์ค์ผ์ค๋ง: ๋น๋์ค์ ํ๋์ ๋ํด ๋ ๋ฆฝ์ ์ธ flow ์ค์ผ์ค์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ด๋ ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ์ต ๋ฌธ์ ๋ฅผ ๋ถ๋ฆฌํ๋ mimic-video์ ์ฒ ํ๊ณผ ์๋ฒฝํ๊ฒ ๋ง์๋จ์ด์ง๋๋ค.
์์์ผ๋ก ๋ณด๋ mimic-video
์ ์ฒด ์์คํ ์ ์์์ผ๋ก ์ ๋ฆฌํด๋ณด๊ฒ ์ต๋๋ค.
๋น๋์ค ์ ์ฌ ๊ณํ ์ถ์ถ: z_v = \text{PartialDenoise}(z_{\text{noise}}, c_{\text{image}}, c_{\text{text}}; \tau_v)
- z_{\text{noise}}: ์์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก ์ด๊ธฐํ๋ ์ ์ฌ ๋ณ์
- c_{\text{image}}: ํ์ฌ ๊ด์ธก ์ด๋ฏธ์ง์ ์ธ์ฝ๋ฉ
- c_{\text{text}}: ์ธ์ด ์ง์๋ฌธ์ ์ธ์ฝ๋ฉ
- \tau_v: ๋น๋์ค flow์ ์ค๊ฐ ์ ์ง ์์
ํ๋ ์์ฑ: a_{1:H} = \text{ActionDecoder}(z_v, s_{\text{prop}}; \tau_a)
- a_{1:H}: H ์คํ ์ ํ๋ ์ฒญํฌ (action chunk)
- s_{\text{prop}}: ๋ก๋ด ๊ณ ์ ์์ฉ ์ํ
- \tau_a: ํ๋ decoder์ ๋ ๋ฆฝ์ flow ์ค์ผ์ค
ํ์ต ๋ชฉํ:
๋น๋์ค ๋ฐฑ๋ณธ์ ํ์ค flow matching ์์ค๋ก ํ์ธํ๋๋ฉ๋๋ค: \mathcal{L}_{\text{video}} = \mathbb{E}_{\tau, z_0, \epsilon} \left\| v_\theta^{(v)}(z_\tau, \tau) - (\epsilon - z_0) \right\|_2^2
Action decoder๋ ๋์ผํ ํํ์ ์์ค์ ์ฌ์ฉํฉ๋๋ค: \mathcal{L}_{\text{action}} = \mathbb{E}_{\tau, a, \epsilon} \left\| v_\theta^{(a)}(a_\tau, z_v, s_{\text{prop}}, \tau) - (\epsilon - a) \right\|_2^2
์คํ ๊ฒฐ๊ณผ: ์ซ์๊ฐ ๋งํด์ฃผ๋ ๊ฒ
๋ฒค์น๋งํฌ ์ค์
mimic-video๋ ์ธ ๊ฐ์ง ํ๊ฒฝ์์ ํ๊ฐ๋์์ต๋๋ค:
- LIBERO: 130๊ฐ์ ์ธ์ด ์กฐ๊ฑด ์กฐ์ ์์ ์ ํฌํจํ๋ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ
- SIMPLER-Bridge: Bridge ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ์ ์๋ฎฌ๋ ์ด์ ํ๊ฐ ํ๊ฒฝ
- ์ค์ ๋ก๋ด: Franka Emika Panda ์๊ณผ mimic 16-DoF ์์ ์ฌ์ฉํ ์ํ(bimanual) ์ค์
ํต์ฌ ๊ฒฐ๊ณผ
| ๋ฉํธ๋ฆญ | mimic-video | ์ ํต VLA |
|---|---|---|
| ์ํ ํจ์จ์ฑ | 10๋ฐฐ ํฅ์ | ๊ธฐ์ค์ |
| ์๋ ด ์๋ | 2๋ฐฐ ๋น ๋ฆ | ๊ธฐ์ค์ |
| ์ต์ข ์ฑ๊ณต๋ฅ (LIBERO) | ๋ ๋์ | ๋ฎ์ |
๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ ๊ทน๋จ์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋๋ค. LIBERO ๋ฒค์น๋งํฌ์์ ์์ ๋น ๋จ ํ๋์ ์ํผ์๋(์ ์ฒด ํ๋ ๋ฐ์ดํฐ์ 2%)๋ง ์ฌ์ฉํด๋ 77%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ๋น๋์ค ๋ฐฑ๋ณธ์ด ์ด๋ฏธ ์ถฉ๋ถํ ๋ฌผ๋ฆฌ ์ญํ ํ๋ผ์ด์ด๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ ์ด = ์๊ฐ์ ์์ธก?
์ ์๋ค์ ํฅ๋ฏธ๋ก์ด ๋ถ์(ablation) ์คํ์ ์ํํ์ต๋๋ค. Action decoder์ ๋น๋์ค ๋ชจ๋ธ์ ์์ธก ๋์ ์ค์ ๋ฏธ๋ ๋น๋์ค(ground truth)๋ฅผ ์กฐ๊ฑด์ผ๋ก ์ฃผ๋ฉด ์ด๋ป๊ฒ ๋ ๊น์?
๊ฒฐ๊ณผ๋ ๋๋ผ์ ์ต๋๋ค: ๊ฑฐ์ ์๋ฒฝํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
์ด๊ฒ์ด ์๋ฏธํ๋ ๋ฐ๋ ๋ช ํํฉ๋๋ค:
โ์๋ฒฝํ ๋น๋์ค ์์ธก = ์๋ฒฝํ ๋ก๋ด ์ ์ดโ
๋ค์ ๋งํด, ๋ก๋ด ์ ์ด ๋ฌธ์ ๋ ๋ณธ์ง์ ์ผ๋ก ์๊ฐ์ ์์ธก ๋ฌธ์ ๋ก ํ์๋ฉ๋๋ค. ๋น๋์ค ๋ชจ๋ธ์ ํ์ง์ด ํฅ์๋๋ฉด ๋ก๋ด ์ ์ฑ ์ ์ฑ๋ฅ๋ ๋น๋กํ์ฌ ํฅ์๋ฉ๋๋ค. ์ด๊ฒ์ ๋น๋์ค ์์ฑ ๋ถ์ผ์ ๊ธ์ํ ๋ฐ์ (Sora, Cosmos ๋ฑ)์ด ๋ก๋ด๊ณตํ์๋ ์ง์ ์ ์ธ ํํ์ ์ค ์ ์์์ ์์ฌํฉ๋๋ค.
์ค์ ๋ก๋ด ์คํ
์ค์ ๋ก๋ด ์คํ์ ์ํ ์ค์ ์์ ๋ ๊ฐ์ง ์์ ์ผ๋ก ์งํ๋์์ต๋๋ค:
- Package Sorting: ํจํค์ง๋ฅผ ๋ถ๋ฅํ๋ ์์
- Tape Stowing: ์ค์๋ฅผ ์์์ ๋ฃ๋ ์์
mimic-video๋ ๋จ์ผ ์์ Diffusion Policy(DP) ๋ฒ ์ด์ค๋ผ์ธ์ ์๋นํ ์ฐจ์ด๋ก ๋ฅ๊ฐํ์ต๋๋ค. ํนํ 16-DoF ์์ ๋ณต์กํ ์์ฌ์ฃผ(dexterous) ์กฐ์์์ ๋น๋์ค ๋ฐฑ๋ณธ์ ๋ฌผ๋ฆฌ ์ญํ ํ๋ผ์ด์ด๊ฐ ํฐ ์ญํ ์ ํ์ต๋๋ค.
| ๋ฐ์ดํฐ ๋น์จ | mimic-video | VLA Baseline |
|---|---|---|
| 2% | 77% | 15% |
| 10% | 85% | 35% |
| 25% | 89% | 55% |
| 50% | 92% | 72% |
| 100% | 95% | 85% |
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ๋ช ํํ ๋ฌธ์ ๋ถ๋ฆฌ
๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋ ์ ๊ทผ์ ์ด๋ก ์ ์ผ๋ก ๊น๋ํ๊ณ ์ค์ฉ์ ์ผ๋ก ํจ๊ณผ์ ์ ๋๋ค. ๊ฐ ๋ชจ๋์ด ์์ ์ ์ญํ ์๋ง ์ง์คํ ์ ์์ต๋๋ค.
2. ๋น๋์ค ์์ฑ ๋ฐ์ ์ ์ง์ ํ์ฉ
Sora, Cosmos, Wan2.1 ๋ฑ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ต๋๋ค. mimic-video๋ ์ด๋ฌํ ๋ฐ์ ์ ๋ก๋ด๊ณตํ์ ์ง์ ์ ์ดํ ์ ์๋ ํต๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.
3. ๊ทน๋จ์ ์ํ ํจ์จ์ฑ
์์ ๋น ๋จ ํ๋์ ๋ฐ๋ชจ๋ก๋ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ๋ฐ์ดํฐ ์์ง์ ๋น์ธ๊ณ ์๊ฐ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ๋๋ค.
4. ๋ช ํํ ์ค์ผ์ผ๋ง ๋ฒ์น
โ๋น๋์ค ํ์ง โ ์ ์ด ์ฑ๋ฅโ์ด๋ผ๋ ๊ด๊ณ๋ ๋ฏธ๋ ๊ฐ์ ์ ๋ฐฉํฅ์ ๋ช ํํ๊ฒ ์ ์ํฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. ์ถ๋ก ์ง์ฐ(Inference Latency)
Flow matching ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ์ ๋ณธ์ง์ ์ผ๋ก ๋ฐ๋ณต์ ์ถ๋ก ์ ํ์๋ก ํฉ๋๋ค. ๋น๋์ค ๋ฐฑ๋ณธ๊ณผ action decoder ๋ชจ๋ ์ฌ๋ฌ ์คํ ์ ๋๋ ธ์ด์ง์ด ํ์ํ์ฌ ์ค์๊ฐ ์ ์ด์ ๋์ ์ด ๋ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ธ ์ถ๋ก ์๊ฐ์ ๋ณด๊ณ ๋์ง ์์์ต๋๋ค.
2. ๋น๋์ค ๋ชจ๋ธ ์์กด์ฑ
์ฑ๋ฅ์ด ๋น๋์ค ๋ฐฑ๋ณธ์ ํ์ง์ ํฌ๊ฒ ์์กดํฉ๋๋ค. Cosmos-Predict2๋ ๊ฐ๋ ฅํ์ง๋ง, ๋ก๋ด ์กฐ์ ๋๋ฉ์ธ์ ํนํ๋์ง ์์์ต๋๋ค. ๋๋ฉ์ธ ์ธ(out-of-domain) ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
3. ์ํ ์ค์ ์ ์ผ๋ฐํ
์ค์ ๋ก๋ด ์คํ์ด ํน์ ์ค์ (Franka + mimic hands)์ ๊ตญํ๋์ด ์์ต๋๋ค. ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์ ์ ๋ํ ์ผ๋ฐํ๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
4. ๊ธด ์งํ์ ์์ ์ ๊ฒ์ฆ ๋ถ์ฌ
๋๋ถ๋ถ์ ์คํ์ด ๋น๊ต์ ์งง์ ์งํ์ ์ ์กฐ์ ์์ ์ ๋๋ค. ์๋ถ์์ ์์๊ฐ์ ๊ฑธ์น ๊ธด ์งํ์ ์์ ์์์ ์ฑ๋ฅ์ ์๋ ค์ง์ง ์์์ต๋๋ค.
5. ์ธ์ด ์กฐ๊ฑดํ์ ํ๊ณ
ํ์ฌ ๊ตฌ์กฐ์์ ์ธ์ด ์ง์๋ฌธ์ ๋น๋์ค ๋ฐฑ๋ณธ์ ํตํด ๊ฐ์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ๋ณต์กํ๊ฑฐ๋ ๋ชจํธํ ์ง์๋ฌธ์ ๋ํ ๊ฐ๊ฑด์ฑ์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
VLA (Vision-Language-Action) ๊ณ์ด
| ๋ชจ๋ธ | ๋ฐฑ๋ณธ | ํ๋ ์ถ๋ ฅ | ๋ฌผ๋ฆฌ ์ญํ ํ์ต |
|---|---|---|---|
| RT-2 | PaLM-E (VLM) | ํ ํฐ ๋ถ๋ฅ | ๋ก๋ด ๋ฐ์ดํฐ์์๋ง |
| OpenVLA | Llama 7B | ์ฐ์๊ฐ | ๋ก๋ด ๋ฐ์ดํฐ์์๋ง |
| ฯโ | PaliGemma | Flow Matching | ๋ก๋ด ๋ฐ์ดํฐ์์๋ง |
| mimic-video | Cosmos (Video) | Flow Matching | ๋น๋์ค์์ ์ ์ด |
ํต์ฌ ์ฐจ๋ณ์ ์ ๋ฌผ๋ฆฌ ์ญํ์ ์ด๋์ ํ์ตํ๋๊ฐ์ ๋๋ค. ๊ธฐ์กด VLA๋ค์ ์๋์ ์ผ๋ก ์ ํ๋ ๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ์์ ๋ฌผ๋ฆฌ๋ฅผ ์ถ๋ก ํด์ผ ํ์ง๋ง, mimic-video๋ ์ธํฐ๋ท ์ค์ผ์ผ ๋น๋์ค์ ํ๋ถํ ์ญํ ํ๋ผ์ด์ด๋ฅผ ํ์ฉํฉ๋๋ค.
World Model ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ
UniPi, VPP, GR-1 ๋ฑ์ ๋ฐฉ๋ฒ๋ค๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ก๋ด ์ ์ด์ ํ์ฉํฉ๋๋ค. mimic-video์์ ์ฃผ์ ์ฐจ์ด์ :
- UniPi: ์ ์ฒด ๋น๋์ค๋ฅผ ์์ฑํ ํ IDM์ผ๋ก ํ๋ ์ถ์ถ. ๊ณ์ฐ ๋น์ฉ์ด ๋์.
- VPP: ๋น๋์ค ๋ชจ๋ธ์ ์ค๊ฐ ํน์ง์ ํ์ฉํ์ง๋ง, ๋ถ๋ถ ๋๋ ธ์ด์ง ๊ฐ๋ ์์.
- GR-1: ๋ฉํฐํ์คํฌ ํ์ต์ผ๋ก ๋น๋์ค์ ํ๋์ ๋์ ์์ฑ.
mimic-video์ ๋ถ๋ถ ๋๋ ธ์ด์ง ์ ๋ต์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ์ฌ์ด์ ์ข์ ๊ท ํ์ ์ ์ฐพ์ต๋๋ค.
GR00T N1๊ณผ์ ๋น๊ต
NVIDIA์ GR00T N1๋ ๋น๋์ค ๋ฐ์ดํฐ์ IDM์ ํ์ฉํ์ง๋ง, ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ ๋๋ค:
- GR00T N1: ์ ์ฌ ํ๋ ์ฝ๋๋ถ์ ํ์ตํ๊ณ , IDM์ผ๋ก ์์ฌ ํ๋(pseudo-action) ์์ฑ
- mimic-video: ๋น๋์ค ์ ์ฌ ํํ์ ์ง์ ํ๋ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉ
mimic-video์ ์ ๊ทผ์ด ๋ ์ง์ ์ ์ด๊ณ ๊ฐ๋ ์ ์ผ๋ก ๋จ์ํฉ๋๋ค.
์ฐ๊ตฌ ํ์ฅ ๋ฐฉํฅ
1. ์ถ๋ก ๊ฐ์ํ
Consistency Flow Matching์ด๋ Shortcut Models ๊ฐ์ ๊ธฐ๋ฒ์ ์ ์ฉํด ๋จ์ผ ์คํ ์ถ๋ก ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค. FlowPolicy ๋ ผ๋ฌธ์์ ์ด๋ฏธ ์ด ๋ฐฉํฅ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
2. ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ
์ด๊ฐ(tactile), ํ/ํ ํฌ ์ผ์ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋ฉด ์ ์ด์ด ํ๋ถํ(contact-rich) ์์ ์์ ์ฑ๋ฅ์ด ํฅ์๋ ์ ์์ต๋๋ค.
3. ๊ณ์ธต์ ๊ณํ
ํ์ฌ๋ ์งง์ ํ๋ ์ฒญํฌ๋ฅผ ์์ฑํ์ง๋ง, ๋ ๊ธด ์งํ์ ์ ๊ณํ์ ์ํด ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๋์ ํ ์ ์์ต๋๋ค. ๊ณ ์์ค ๋น๋์ค ๊ณํ โ ์ค์์ค ์จ์ดํฌ์ธํธ โ ์ ์์ค ํ๋์ ๊ตฌ์กฐ์ ๋๋ค.
4. ์จ๋ผ์ธ ์ ์
ํ์ฌ๋ ์คํ๋ผ์ธ ํ์ต๋ง ๋ค๋ฃจ์ง๋ง, ReinFlow ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ฉํด ์จ๋ผ์ธ ๊ฐํํ์ต์ผ๋ก ํ์ธํ๋ํ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค.
5. Sim-to-Real ์ ์ด
๋น๋์ค ๋ฐฑ๋ณธ์ด ์ค์ ๋น๋์ค๋ก ํ์ต๋์์ผ๋ฏ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด๊ฐ ๋ ์์ฐ์ค๋ฌ์ธ ์ ์์ต๋๋ค.
flowchart TB
ROOT((mimic-video ํ์ฅ))
subgraph A["์ถ๋ก ๊ฐ์ํ"]
A1[Consistency Flow]
A2[Shortcut Models]
A3[์ง์ ์ฆ๋ฅ]
end
subgraph B["๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ"]
B1[์ด๊ฐ ์ผ์]
B2[ํ/ํ ํฌ]
B3[๊น์ด ์ ๋ณด]
end
subgraph C["๊ณ์ธต์ ๊ณํ"]
C1[๊ณ ์์ค ๋น๋์ค ๊ณํ]
C2[์ค์์ค ์จ์ดํฌ์ธํธ]
C3[์ ์์ค ํ๋]
end
subgraph D["์ ์ํ ํ์ต"]
D1[์จ๋ผ์ธ RL]
D2[๋ฉํ ํ์ต]
D3[์ง์ ํ์ต]
end
subgraph E["Sim-to-Real"]
E1[๋๋ฉ์ธ ์ ์]
E2[๋๋คํ]
end
ROOT --> A
ROOT --> B
ROOT --> C
ROOT --> D
ROOT --> E
ํต์ฌ ๋ฉ์์ง
mimic-video๋ ๋ก๋ด ์กฐ์์ ์ํ ์๋ก์ด ํจ๋ฌ๋ค์์ธ Video-Action Model (VAM)์ ์ ์ํฉ๋๋ค. ํต์ฌ ํต์ฐฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋น๋์ค๋ ๋ฌผ๋ฆฌ์ ๊ต๊ณผ์๋ค: ์ ์ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ์ ๋ฌ๋ฆฌ, ๋น๋์ค๋ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์๊ณต๊ฐ ์ญํ์ ์์ฐ์ค๋ฝ๊ฒ ์ธ์ฝ๋ฉํฉ๋๋ค.
- ๋ฌธ์ ๋ฅผ ๋ถ๋ฆฌํ๋ผ: ๊ณ ์์ค ๊ณํ(๋น๋์ค ๋ชจ๋ธ)๊ณผ ์ ์์ค ์ ์ด(action decoder)๋ฅผ ๋ถ๋ฆฌํ๋ฉด, ๊ฐ ๋ชจ๋์ด ์์ ์ ์ญํ ์ ์ง์คํ ์ ์์ต๋๋ค.
- ๋ถ๋ถ ๋๋ ธ์ด์ง์ ํจ์จ์ฑ: ์์ ํ ๋น๋์ค ์์ฑ ์์ด ์ค๊ฐ ์ ์ฌ ํํ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ ์ด ์ ํธ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- ๋น๋์ค ํ์ง = ์ ์ด ์ฑ๋ฅ: ๋น๋์ค ์์ฑ ๊ธฐ์ ์ ๋ฐ์ ์ด ๋ก๋ด ์ ์ด์ ๋ฐ์ ์ผ๋ก ์ง์ ์ด์ด์ง๋๋ค.
๋ง์ฝ ๋น์ ์ด ๋ก๋ด ์กฐ์ ์ฐ๊ตฌ์๋ผ๋ฉด, mimic-video๊ฐ ์ ์ํ๋ ๋ฐฉํฅ์ ๊ณ ๋ คํ ๊ฐ์น๊ฐ ์์ต๋๋ค:
- ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ์ค์ํ๋ค๋ฉด: mimic-video์ 10๋ฐฐ ํฅ์๋ ์ํ ํจ์จ์ฑ์ ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ ํฐ ์๋ฏธ๊ฐ ์์ต๋๋ค.
- ๋ณต์กํ ๋ฌผ๋ฆฌ๊ฐ ํ์ํ๋ค๋ฉด: ์ถฉ๋, ๋ฏธ๋๋ฌ์ง, ๋ณํ ๊ฐ์ ๋ณต์กํ ์ญํ์ด ๊ด๋ จ๋ ์์ ์์ ๋น๋์ค ํ๋ผ์ด์ด๊ฐ ๋์์ด ๋ฉ๋๋ค.
- ๋น ๋ฅธ ์ ์์ด ํ์ํ๋ค๋ฉด: ์๋ก์ด ์์ ์ ๋ช ๊ฐ์ ๋ฐ๋ชจ๋ง์ผ๋ก ์ ์ํด์ผ ํ๋ ์ํฉ์ ์ ํฉํฉ๋๋ค.
๋ฌผ๋ก ์ถ๋ก ์๋๋ ํน์ ๋๋ฉ์ธ ์ผ๋ฐํ ๊ฐ์ ๊ณผ์ ๊ฐ ๋จ์์์ง๋ง, ๋น๋์ค ์์ฑ ๊ธฐ์ ์ ๊ธ์ํ ๋ฐ์ ์ ๊ณ ๋ คํ ๋, VAM ํจ๋ฌ๋ค์์ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ ๋งํ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
๋ฆฌ์ฒ๋ ํ์ธ๋ง์ด ๋งํ๋ฏ์ด:
โ์์ฐ์ ๋ฏธ์ ๋ถํ ์ฑ ์ ์ฌ์ฉํ์ง ์๋๋ค. ๊ทธ๋ฅ ๊ทธ๋ ๊ฒ ๋ ๋ฟ์ด๋ค.โ
๋น๋์ค๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. ๋น๋์ค ์์๋ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ช ์์ ์์ ์์ด๋, ์ธ์์ด โ์ด๋ป๊ฒ ์๋ํ๋์งโ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ๋ด๊ฒจ ์์ต๋๋ค. mimic-video๋ ์ด ํ๋ถํ ์ ๋ณด๋ฅผ ๋ก๋ด ์ ์ด์ ํ์ฉํ๋ ์ฐ์ํ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Pai, J., Achenbach, L., Montesinos, V., Forrai, B., Mees, O., & Nava, E. (2025). mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs. arXiv:2512.15692
- Kim, M. J., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv
- Black, K., et al. (2024). ฯโ: A vision-language-action flow model for general robot control. arXiv
- Chi, C., et al. (2023). Diffusion Policy: Visuomotor policy learning via action diffusion. RSS
- Liu, B., et al. (2023). LIBERO: Benchmarking knowledge transfer for lifelong robot learning. NeurIPS
- Lipman, Y., et al. (2022). Flow matching for generative modeling. ICLR
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ๋ฌธ์ ์ ์ ๋ฐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
๋ก๋ด ์กฐ์์์ ์ต๊ทผ์ Vision-Language-Action (VLA) ๋ชจ๋ธ๋ค์ ๋๊ท๋ชจ์ ์ด๋ฏธ์งยท์ธ์ด ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ์๊ฐ-์ธ์ด ๋ฐฑ๋ณธ์ ํ์ฉํฉ๋๋ค. ์ด๋ฐ ๋ชจ๋ธ๋ค์ ์ธํฐ๋ท ์ด๋ฏธ์ง์ ํ ์คํธ์์ ์ป์ ํ๋ถํ ์๋ฏธ ์ ๋ณด๋ฅผ ๋ก๋ด์ ์ ๋ฌํ์ฌ, ์์ฐ์ด ๋ช ๋ น์ ์ดํดํ๊ณ ์๋ก์ด ๋ฌผ์ฒด๋ ์์ ์ ์ผ๋ฐํํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถฅ๋๋ค. ํ์ง๋ง ๊ธฐ๋ณธ ํ๊ณ๋ ๋ถ๋ช ํฉ๋๋ค. ์ง๊ธ๊น์ง ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ๋๋ถ๋ถ ์ ์ ์ธ ์ด๋ฏธ์ง์ ํ ์คํธ์๊ธฐ ๋๋ฌธ์, ๋ก๋ด์ด ์ค์ ์ธ๊ณ์ ๋ฌผ์ฒด ์์ง์์ด๋ ์ํธ์์ฉ์ ๋ฌผ๋ฆฌ์ ์ธ๊ณผ์ฑ์ ๋ณธ์ง์ ์ผ๋ก ๋ฐฐ์ฐ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ฌ๋ฆฌ ๋งํด, ์ด๋ฏธ์ง-์ธ์ด ๋ฐฑ๋ณธ์ ๋ง์น ์ ์ง๋ ์ฌ์ง์ฒฉ๊ณผ ๊ฐ์, ์๊ฐ์ ๋ฐ๋ฅธ ๋ณํ๋ ํ์ ํ๋ฆ์ ๋ด์ง ๋ชปํฉ๋๋ค. ๋ฐ๋ผ์ ๋ก๋ด์ ๊ทธ๋ฐ ๋ถ์กฑํ ์ง์์ ๋ณด์ํ๊ธฐ ์ํด, ๋ชจ๋ ๋ฌผ๋ฆฌ ๋ฒ์น๊ณผ ์ญํ์ ๊ฐ๋น์ผ ์ ๋ฌธ ์กฐ์ ๋ฐ์ดํฐ(๋ฐ๋ชจ)๋ก๋ถํฐ ์ง์ ํ์ตํด์ผ ํฉ๋๋ค. ์ด๋ฐ ์์กด์ ํ์ต ๋ฐ์ดํฐ์ ํญ๋ฐ์ ์ธ ์ฆ๊ฐ๋ผ๋ ๋ณ๋ชฉ์ ๋ง๋ค๊ณ , ๊ธด ์๋ ด ์๊ฐ๊ณผ ๋ฎ์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์ด๋ํฉ๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค. ์ด๋ฏธ์ง๋ฅผ ๋์ด ๋น๋์ค(video)๋ฅผ ํ์ฉํด๋ณด์๋ ๊ฒ์ ๋๋ค. ๋น๋์ค๋ ์ฐ์๋ ํ๋ ์์ผ๋ก ์ฌ๋ฌผ์ ์์ง์๊ณผ ์ํธ์์ฉ์ ๋ด์๋ด๋ฏ๋ก, ์๋ฏธ(semantics)์ ๋์ญํ(physics)์ ๋์์ ํฌํจํฉ๋๋ค. ์ธํฐ๋ท ๋น๋์ค ๋ชจ๋ธ์ ์ด์ฉํ๋ฉด โ์ฌ๋ฌผ์ด ์ด๋ป๊ฒ ์์ง์ด๋๊ฐโ๋ผ๋ ํ๋ถํ ๋ฌผ๋ฆฌ ์ง์์ ํ์ตํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ์ง์์ ๋ก๋ด์๊ฒ ์ ๋ฌํ๋ฉด, ๋ก๋ด ์ ์ด๊ธฐ๋ ๋ณต์กํ ๋์ญํ์ ์ฒ์๋ถํฐ ํ์ตํ ํ์ ์์ด ๋น๋์ค์ ์ ์ฌ ํํ๋ง ๋ฐ์์ ์ญ๋์ ์ธ ํ๋์ ์ถ๋ก ํ ์ ์์ต๋๋ค. ๋ฐ๋ก ์ด๋ฌํ ์ ๊ทผ์ด ๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ mimic-video์ ๋๋ค.
ํต์ฌ ๋ฐ์: ์ธํฐ๋ท ๊ท๋ชจ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ก๋ด ์ ์ด์ ํ์ฉํ์ฌ, ์ธ์ด-์๊ฐ ๋ฐฑ๋ณธ(VLA)๋ง์ผ๋ก๋ ํ์ตํ๊ธฐ ์ด๋ ค์ด ๋ฌผ๋ฆฌ์ ์ญํ์ ๋ฏธ๋ฆฌ ์ตํ ํ, ๋จ์ ์ผ์ ๋จ์ํ ์ญ์ด๋ํ(Inverse Dynamics) ๋ฌธ์ ๋ก ์นํํ๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํด๋ณด๋ฉด, Dreamer, LAPA ๋ฑ ์ผ๋ถ ์ฐ๊ตฌ๊ฐ ๋น๋์ค ์์ธก์ด๋ ํฝ์ ์ถ์ (pixel tracking)์ ํตํด ์ ์ด์ ํ์ฉํ๋ ค๊ณ ํ ๋ฐ ์์ง๋ง, ์ฌ์ ํ ์๋๊ฐ ๋๋ฆฌ๊ฑฐ๋ ์ก์์ ์ทจ์ฝํฉ๋๋ค. mimic-video๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๋์ด, ๋น๋์ค ๋ชจ๋ธ์ ์ ์ฌ ๊ณต๊ฐ(latent space)์ ์ง์ ํ์ฉํ์ฌ ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์ ์ด๋ฅผ ์ถ๊ตฌํฉ๋๋ค. ์ด์ด์ ์ ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ๋์ ์๋ฆฌ๋ฅผ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ฐฉ๋ฒ: Video-Action ๋ชจ๋ธ ์์ธ ๋ถ์
mimic-video๋ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋น๋์ค ์์ฑ ๋ชจ๋ธ(Video Diffusion Model): ๋๊ท๋ชจ ์ธํฐ๋ท ๋น๋์ค ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ํ์ฐ๊ธฐ(diffusion) ๋ชจ๋ธ(์: Nvidia Cosmos-Predict2)์ ์ฌ์ฉํฉ๋๋ค.
- ํ๋ ๋์ฝ๋(Action Decoder): ํด๋น ๋น๋์ค ๋ชจ๋ธ์ ์ ์ฌ ํํ์ ๋ฐ์ ๋ก๋ด์ ์ค์ ์ ์์ค ๊ด์ ๋ช ๋ น์ผ๋ก ๋ณํํ๋ ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
์ด ๋ ํํธ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
flowchart LR
subgraph video["Video Prediction"]
A[๊ด์ธก ์ด๋ฏธ์ง + ์ธ์ด ๋ช
๋ น์ด] --> B[๋น๋์ค ์์ฑ ๋ชจ๋ธ]
B -- ์ผ๋ถ ๋
ธ์ด์ฆ ์ ๊ฑฐ --> C[๋น๋์ค ์ ์ฌ ํํ]
end
subgraph decoder["Inverse Dynamics Decoder"]
C --> D[ํ๋ ๋์ฝ๋]
D --> E[๋ก๋ด ๊ด์ ๋ช
๋ น]
E --> Robot[๋ก๋ด ๊ตฌ๋]
end
- ์ด๊ธฐ ์ ๋ ฅ: ์นด๋ฉ๋ผ ๊ด์ธก(Workspace View)๊ณผ ์ธ์ด ์ง์์ด๋ฅผ ํฉ์ณ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ๋ฃ์ต๋๋ค.
- ๋น๋์ค ์์ฑ: ๋ฐฑ๋ณธ(backbone)์ธ ์์ ์์ฑ ๋ชจ๋ธ์ ์์ฐจ์ ์ธ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ๊ฑฐ์ณ, ๋ฏธ๋ ์ฅ๋ฉด์ ์ ์ฌ์ ์์์ ์์ธกํฉ๋๋ค. ํ์ง๋ง ์์ ๋ณต์ํ๋ ๋์ ์ค๊ฐ ๋ ๋ฒจ(๋ ธ์ด์ฆ ๋ ๋ฒจ ฯ_v)๊น์ง๋ง ๋๋ ธ์ด์ฆํ์ฌ ์ค๊ฐ ์ ์ฌ ํํ์ ์ป์ต๋๋ค.
- ์ ์ฌ ํํ ์ถ์ถ: ์ด ์ค๊ฐ ์ ์ฌ(latent)๋ โํฅํ ์ฅ๋ฉด์ ์์ฝโ์ด๋ผ ํ ์ ์์ต๋๋ค. ๋ก๋ด์ด ์์ผ๋ก ํด์ผ ํ ์์ ์ ์๊ฐํํ ๋ฏธ๋๋ฉํ ๋น๋์ค ํ๋์ ๋๋ค.
- ํ๋ ๋์ฝ๋: ๋น๋์ค ์ ์ฌ ํํ๊ณผ ํ์ฌ ๋ก๋ด์ ํ๋กํ๋ฆฌ์ด์คํ (๊ณ ์ ์ํ ์ ๋ณด)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ค์ ๋ก๋ด ๊ด์ ๋ช ๋ น(action trajectory)์ ์ถ๋ ฅํฉ๋๋ค. ์ด ๋์ฝ๋๋ ํ๋ฆ ์ผ์น(flow matching) ๊ธฐ๋ฐ์ ์์ฑ ๋ชจ๋ธ๋ก ํ์ต๋ฉ๋๋ค. ๋ชฉ์ ์ ์ ์ฌ ๋น๋์ค์ ๋ด๊ธด ๋์์ ์ค์ ๊ด์ ์ด๋์ผ๋ก ์ญ๋ณํ(Inverse Dynamics)ํ๋ ๊ฒ์ ๋๋ค.
์ด ๊ตฌ์กฐ์ ํต์ฌ ์์ด๋์ด๋ ๊ณํ(planning)๊ณผ ์ ์ด(control)์ ๋ถ๋ฆฌ์ ๋๋ค. ๋น๋์ค ๋ชจ๋ธ์๊ฒ๋ โ์ด๋ป๊ฒ ์์ง์ฌ์ผ ํ ์งโ๋ฅผ, ํ๋ ๋์ฝ๋์๊ฒ๋ โ๊ทธ ์์ง์์ ๊ด์ ๋ช ๋ น์ผ๋ก ๋ฐ๊ฟ ์ฑ ์โ์ ๋งก๊น๋๋ค. ํนํ ์ฃผ๋ชฉํ ์ ์ ๋ ๋ชจ๋ธ์ด ๋ ๋ฆฝ์ ์ธ ํ๋ฆ ์ค์ผ์ค(flow schedule)๋ก ๋์ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ฆ, ๋น๋์ค ๋ชจ๋ธ์ ํ๋ฆ ์๊ฐ ฯ_v์ ํ๋ ๋ชจ๋ธ์ ฯ_a๋ฅผ ๋ณ๋๋ก ์ค์ ํด ํ์ตํฉ๋๋ค. ์ด๊ฒ์ ๋น๋์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด ๊ณผ์ ๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋ณต์ก๋๋ฅผ ๋ฎ์ถ๋ ์ฅ์น์ ๋๋ค.
์ด๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋๋ฆด ์ ์์ต๋๋ค:
- ๋์ญํ ์ง์ ์ ์ทจ๋: ๋น๋์ค ๋ฐฑ๋ณธ์ด ๋ฏธ๋ฆฌ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ํ์ตํ๋ฏ๋ก, ํ๋ ๋์ฝ๋๋ ๋จ์ํ ์ถ๋ก ๋ฌธ์ (์ญ๋์ญํ)๋ง ํ๋ฉด ๋ฉ๋๋ค. ๋ค์ ๋งํด, ๋ณต์กํ ๋ฏธ๋ ๋ถํฌ ๋ชจ๋ธ๋ง์ด ์๋๋ผ, ํ ์ ์ ๊ด์ ๊ฐ๋ง ์์ธกํ๋ฉด ๋๋ ๋น-์ธ๊ณผ์ ๋ฌธ์ (non-causal problem)์ ์ง์คํ ์ ์์ต๋๋ค.
- ํจ์จ์ ํ์ต: ๋น๋์ค ๋ชจ๋ธ์ ์ ํ์ต ๋๋ถ์, ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์ด๋ ์๋ฏธ์๋ ํ๋ ๊ณํ์ ์ป์ด์ผ ํ๋ ๋ถ๋ด์ด ์ค์ด๋ญ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํจ์จ์ด ๊ธฐ์กด VLA์ 10๋ฐฐ ํฅ์๋จ์ ํ์ธํ์ต๋๋ค.
- ๋ถ๋ฆฌ๋ ์ต์ ํ: ๋น๋์ค ๋ชจ๋ธ๊ณผ ํ๋ ๋์ฝ๋์ ํ์ต์ ๋ณ๋๋ก ์งํํจ์ผ๋ก์จ, ๋ ์ฌ์ด์ ๊ทธ๋๋์ธํธ ๊ฐ์ญ์ ํผํ๊ณ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
์ฉ์ด ์ค๋ช : ํ๋ฆ ์ผ์น(flow matching)๋ ๋น๋์ค/ํ๋ ์์ฑ ๋ชจ๋ธ ํ์ต ๊ธฐ๋ฒ ์ค ํ๋๋ก, ๋ ธ์ด์ฆ์์ ๊นจ๋ํ ์ ํธ๋ฅผ ์ฐพ์๊ฐ๋ ๊ฒฝ๋ก๋ฅผ ํ์ต์ํต๋๋ค. ์ผ์ข ์ ํ์ฐ๋ชจ๋ธ(denoising diffusion) ๋ฐฉ์์ผ๋ก, ๋ก๋ด ํ๋์ ์์ฑํ ๋๋ ์ฌ์ฉ๋ฉ๋๋ค.
์์ฌ์ฝ๋ ์์
๋ค์์ mimic-video ์ ์ฑ ์ ์๋ ์ ์ฐจ๋ฅผ ๊ฐ๋จํ ์์ฌ์ฝ๋๋ก ํํํ ์์์ ๋๋ค:
# ๋งค ํ์์คํ
๋ง๋ค ๋ฐ๋ณต
์
๋ ฅ: ํ์ฌ ๊ด์ธก obs, ์ธ์ด๋ช
๋ น instr, ํ๋กํ๋ฆฌ์ด์คํ
proprio
# 1) ๋น๋์ค ๊ณํ ์์ฑ
video_latent = VideoDiffusionModel(obs, instr, flow_time=ฯ_v)
# 2) ํ๋ ์์ฑ (์ญ๋์ญํ ๋ชจ๋ธ)
action = ActionDecoder(video_latent, proprio)
# 3) ๋ก๋ด์ ๋ช
๋ น ์คํ
execute(action)์ด ๊ณผ์ ์์ ฯ_v๋ ๋น๋์ค ์์ฑ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์ ๋๋ฅผ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก, ๊ฒฝํ์ ์ผ๋ก ์ค๊ฐ ๊ฐ์์ ์ต์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์คํ: ์ค์ , ๊ฒฐ๊ณผ ๊ทธ๋ฆฌ๊ณ ์๋ฏธ
๋ ผ๋ฌธ์์๋ ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ์ ์ค์ธ๊ณ ๋ก๋ด ๋ชจ๋์์ mimic-video๋ฅผ ํ๊ฐํ์ต๋๋ค. ์ฃผ์ ์คํ ๊ตฌ์ฑ๊ณผ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- SIMPLER-Bridge (์๋ฎฌ๋ ์ด์ ): Widow-X ๋ก๋ด(๋จ์ผ ๋ก๋ด ํ) ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ (BridgeDataV2)์ผ๋ก ํ์ต๋ ์ ์ฑ ์, ์๋ฎฌ๋ ์ด์ ์์ ์๋ก์ด ํ์คํฌ์ ์ผ๋ฐํ ํ๊ฐํฉ๋๋ค. (์: ์ค๋ธ์ ํธ๋ฅผ ์ง์ด ๋ค๋ฅธ ์์น์ ๋๊ธฐ).
- LIBERO (์๋ฎฌ๋ ์ด์ ): Panda ๋ก๋ด๊ณผ ํ์๋ฅผ ํ์ฉํ ์ ๋ฐ ์กฐ์ ๋ฐ ๋ค์ค์์ ๋ฒค์น๋งํฌ์ ๋๋ค. ๋ชฉํ ์ง์ , ์ค๋ธ์ ํธ ์กฐ์, ๊ณต๊ฐ ์ ๋ ฌ ๋ฑ ๋ค์ํ ํ์ ๊ณผ์ ์์ ์คํํ์ต๋๋ค.
- ์ค์ธ๊ณ ์ด์กฑ ๋ก๋ด (mimic system): ๋ ๋์ Franka Panda ๋ก๋ด ํ์ ๊ฐ๊ฐ 16-DoF์ ํด๋จธ๋ ธ์ด๋ํ ๋ค๊ด์ ์(mimic ์)์ ์ฅ์ฐฉํ ์คํ ํ๊ฒฝ์ ๋๋ค. ๊ณผ์ ๋ก๋ ํจํค์ง ๋ถ๋ฅ(Package Sorting)์ ์ค์ ๋ณด๊ด(Tape Stowing)์ด ์ฃผ์ด์ก๋๋ฐ, ์ด๋ฌํ ์์ ์ ์์ง์ ๊ฒ์ง ์๊ฐ๋ฝ์ ๋ชจ๋ ์ฌ์ฉํ๋ ์ฌ์ธํ ์กฐ์์ ํ์๋ก ํฉ๋๋ค. ์ค์ ๋ฐ์ดํฐ๋ก๋ ๊ฐ ์์ ๋ง๋ค 1~2์๊ฐ ๋ถ๋(500์ฌ ์ํผ์๋)์ ์ ๋ฌธ๊ฐ ๋์์ด ์ฌ์ฉ๋์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ์์ฝ
- SIMPLER-Bridge ์ผ๋ฐํ: mimic-video๋ ๋ค ๊ฐ์ง ํ ์คํธ ํ์คํฌ์ ํ๊ท ์ฑ๊ณต๋ฅ ์์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ I์์ ๊ธฐ์กด VLA ์คํ์ผ(๋ฐฑ๋ณธ: PaliGemma 3B, ํ์ต ๋ฐ์ดํฐ ๋์ผ) ๋ฐฉ์์ ํ๊ท 35.4% ์ฑ๊ณต๋ฅ ์ด์ง๋ง, mimic-video๋ 46.9%๋ก ํฌ๊ฒ ์์ฐ์ต๋๋ค. (์ ์ฌ์ ๋ฐฉ๋ฒ์ผ๋ก ํ์คํฌ๋ณ ํ๋ผ๋ฏธํฐ ํ๋๊น์ง ํ๋ฉด 56.3%๋ก ๋ ์์น) ์ด๋ ๋น๋์ค ๊ธฐ๋ฐ ์กฐ๊ฑดํ๊ฐ VLA ์กฐ๊ฑดํ๋ณด๋ค ๋ ๊ฐ๋ ฅํ ํํ์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค.
- LIBERO ๋ค์ค์์ ํ์ต: ์ฌ๋ฌ ์์ ์ ๋์์ ํ์ตํด์ผ ํ๋ LIBERO์์๋ mimic-video๋ ์ฐ์ํ์ต๋๋ค. ํ II์ ๋ฐ๋ฅด๋ฉด, ๋น๋์ค ๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์ VLA ๋ฒ ์ด์ค๋ผ์ธ(scratch)์ ํ๊ท 85.9% ์ฑ๊ณต๋ฅ ์ธ๋ฐ ๋ฐํด, mimic-video (scratch) ์ ํ๊ท 93.9% ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ๋น์ทํ ํฌ๊ธฐ์ VLA์ ๋น๊ตํ์ ๋๋ ํฐ ํฅ์์ด๋ฉฐ, ๋ค๋ฅธ ์ต์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํด๋ ๋ค์ง์ง ์๋ ์์ค์ ๋๋ค. ์ฆ, ์๋ฎฌ๋ ์ด์ ์์๋ ๋น๋์ค ๋ชจ๋ธ์ ์ ํ์ต ํจ๊ณผ๊ฐ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ํฌ๊ฒ ๋์ด์ฌ๋ ธ์ต๋๋ค.
- ์ค์ธ๊ณ ์ด์กฑ ๋ก๋ด: ๊ฐ์ฅ ์ค์ํ ๊ฒฐ๊ณผ๋ ์ค์ ๋ก๋ด ์คํ์ ๋๋ค. DiT-Block Policy ๊ฐ์ ๊ฐ๋ ฅํ ๋จ์ผ ํ์คํฌ ๊ธฐ์ค ๋ชจ๋ธ(๋ค์ค ์นด๋ฉ๋ผ ๋ทฐ ์ฌ์ฉ)๋ ์คํจ์จ์ด ๋์์ง๋ง, mimic-video๋ ํจ์ฌ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํจํค์ง ๋ถ๋ฅ ๊ณผ์ ์์ DiT(ํ๋ง ์นด๋ฉ๋ผ) 11.0%, DiT(๋ฉํฐ๋ทฐ) 42.6%์๋ ๋ฐ๋ฉด, mimic-video๋ 72.0%๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ค์ ๋ณด๊ด ๊ณผ์ ์์๋ DiT(๋ฉํฐ๋ทฐ) 74.1% ๋๋น mimic-video๋ 93.0%๋ก ํฌ๊ฒ ์์๊ฐ์ต๋๋ค. ์ด ์คํ์์๋ ๋จ์ผ ์๋ถ ์นด๋ฉ๋ผ ๋ทฐ๋ง์ ์ฌ์ฉํ๋๋ฐ๋, ๋น๋์ค ๋ชจ๋ธ์ด ํ์ตํ ์์ธก ๋ฅ๋ ฅ ๋๋ถ์ ํ๊ณผ ์๋์ ๊ฐ๋ ค์ง(occlusion)์ ๊ทน๋ณตํ ์ ์์์ต๋๋ค. ์ฆ, ํ์ ๋ ์๊ฐ ์ ๋ณด ์์์๋ ๋ก๋ด์ด ์ ํํ ํ๋์ ํ ์ ์์์ต๋๋ค.
- ๋ฐ์ดํฐ ํจ์จ ๋ฐ ์๋ ด ์๋: ์คํ ๊ฒฐ๊ณผ mimic-video๋ ๊ทน์ ์ธ ์ํ ํจ์จ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค. ๋์ ๋์ฝ๋ ํ์ต์ ํ์ํ ์ ๋ฌธ ๋ฐ๋ชจ์ ์์ด 10๋ถ์ 1์ด ๋์ด๋ VLA ์กฐ๊ฑดํ ๋์ฝ๋์ ์ต๊ณ ์ฑ๋ฅ์ ๋๋ฌํฉ๋๋ค. ๋ฐ์ดํฐ ์์ 2% ์์ค๊น์ง ์ค์ฌ๋ ํ๊ท ์ฑ๊ณต๋ฅ 77%๋ฅผ ์ ์งํ ์ ๋์ ๋๋ค. ๋ํ ํ์ต์ด ํจ์ฌ ๋น ๋ฅด๊ณ ๋์ ์ต์ข ์ฑ๊ณต๋ฅ ๋ก ์๋ ดํฉ๋๋ค. ์ด๋ VLA ๋ฐฑ๋ณธ์ด ๋ณ๋์ FAST ์ฌ์ ํ์ต(์ธ์ด๋ชจ๋ธ)๋ ํ์์๋ mimic-video๊ฐ ๋ ๋์ ํ์ต ๊ณก์ ์ ๋ณด์ธ๋ค๋ ์ ์์, ๋น๋์ค ๊ธฐ๋ฐ ์กฐ๊ฑดํ์ ๊ฐ๋ ฅํจ์ ๋ณด์ฌ์ค๋๋ค.
- ๋น๋์ค ํ์ง๊ณผ ์ ์ฑ ์ฑ๋ฅ: ํฅ๋ฏธ๋ก์ด ๊ด์ฐฐ๋ ์์์ต๋๋ค. ๋น๋์ค ๋ชจ๋ธ์ด ์๋ฒฝํ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ ์๋ก ์ข์ ๊ฒ ๊ฐ์ง๋ง, ์คํ๋ ค ์ค๊ฐ ๋ ธ์ด์ฆ ์์ค(ํ๋ฆ ํ๋ผ๋ฏธํฐ ฯ_v์ด ๋์ ๋)์์ ์ต์ ์ฑ๋ฅ์ ๋์ต๋๋ค. ๊ณ ํด์๋ ๋น๋์ค ๋ณต์์ด ๋๋ฌด ๋๋ ธ์ด์ฆ๋์ด ํ๋ จ ๋ถํฌ๋ฅผ ๋ฒ์ด๋๋ฉด ์คํ๋ ค ํ๋ ์์ธก์ด ํํธ๋ฌ์ง๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค์ ๋ก โ์๋ฒฝํโ ์ค์ ๋น๋์ค(ground-truth latent)๋ฅผ ์ ๋ ฅํ๋ฉด ๊ฑฐ์ 100% ์ฑ๊ณต๋ฅ ์ด ๋์ค๋๋ฐ, ์์ธก ๋น๋์ค์ ํ๊ณ๊ฐ ์ ์ฑ ์ฑ๋ฅ์ ๋ณ๋ชฉ์์ ์๋ ค์ค๋๋ค. ์ฆ, ๋น๋์ค ์์ธก์ ์ง์ด ๊ณง ์ฑ๋ฅ์ด๋ผ๋ ์ง๊ด์ ๊ฒฐ๋ก ์ ์ป์์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์ :
- ๋ฌผ๋ฆฌ์ ์ ์ง์์ ํ์ฉํ ์ ๊ทผ: ๋น๋์ค ๋ชจ๋ธ์ ํ์ฉํด ๋ก๋ด ์กฐ์์ ๋ฌผ๋ฆฌ์ ์์ธ์ ํ์ตํจ์ผ๋ก์จ, VLA ๋๋น ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค.
- ๋ชจ๋ํ ๊ตฌ์กฐ: ๊ณํ(์์ ์์ธก)๊ณผ ์ ์ด(ํ๋ ๋์ฝ๋)๋ฅผ ๋ถ๋ฆฌํด ํ์ต ์์ ์ฑ๊ณผ ์ ์ฐ์ฑ์ ํ๋ณดํ์ต๋๋ค. ์คํ์์ ํ๋ฆ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด ์์ ๋ง๋ค ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ ์๋ ์์์ต๋๋ค.
- ์ค์ธ๊ณ ๊ฒ์ฆ: ๋จ์ํ ์คํ์ค ์กฐ๊ฑด์ด ์๋๋ผ ๋ณต์กํ ์ด์กฑ ๋ค๊ด์ ์ ํ๊ฒฝ์์ ์คํํ์ฌ ํ์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
ํ๊ณ:
- ์์ ์์ฑ์ ํ๊ณ: ์์ ์ธ๊ธํ๋ฏ์ด ์์ธก ๋น๋์ค์ ํ์ง์ด ์๋ฒฝํ์ง ์์ผ๋ฉด ํ๋์ด ์๊ณก๋ ์ ์์ต๋๋ค. ์์ง ์๋ฒฝํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ๋์ฒดํ๊ธฐ์ ์์ธก ์ค์ฐจ๊ฐ ์กด์ฌํฉ๋๋ค.
- ๊ณ์ฐ ๋น์ฉ: ๊ฑฐ๋ํ ๋น๋์ค ๋ชจ๋ธ(์: Cosmos-Predict2)์ ์ฌ์ฉํ๋ฏ๋ก, ์ค์๊ฐ ์ ์ฉ์๋ ๋น์ฉ์ด ๋ฐ์ํฉ๋๋ค. ์ค์ ๋ก ์ผ๋ถ ์กฐ์น์์๋ ์ถ๋ก ์์ ์ถ๊ฐ ์ฐ์ฐ์ด ํ์ํ์ต๋๋ค.
- ํ์ต ๋ณต์ก์ฑ: ๋น๋์ค ๋ชจ๋ธ๊ณผ ํ๋ ๋์ฝ๋๋ฅผ ๋ณ๊ฐ๋ก ํ์ตํด์ผ ํ๋ฏ๋ก, VLA ๊ฐ์ ๋จ์ fine-tuning์ ๋นํด ๋ณต์กํ ํ์ต ์ ์ฐจ๋ฅผ ์๊ตฌํฉ๋๋ค. ๋ฐ์ดํฐ ๋ถ๋ฆฌ์ ๋ ๋ชจ๋ธ์ ํ๋์ด ํ์ํ ๊ฒ์ด์ฃ .
์์ฉ ๋ฐ ํ์ฅ: ์ค์ ๋ก๋ด ์ ์ฉ๊ณผ ํ์ ์ฐ๊ตฌ
mimic-video์ ์์ด๋์ด๋ ํน์ ๋ก๋ด ํ๋ซํผ์ ๊ตญํ๋์ง ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํ๋์นด ํ๊ณผ 16-DoF ๋ค๊ด์ ์์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋ณต์กํ ๋ค์ค ์๊ฐ๋ฝ ์กฐ์์ ํ์๋ก ํ๋ ๊ณ ์ฐจ์ ์์ ๊น์ง ์ปค๋ฒํ๋ค๋ ์ฆ๊ฑฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด Allegro ํธ๋(12~16 DOF)๋ Shadow ํธ๋(์๋์ฐ ํธ๋)์ ๊ฐ์ ๋ณต์กํ ์ ๊ตฌ์กฐ์๋ ์ ์ฉํ ์ ์์ต๋๋ค. ๋จ์ง ํ๋ ๋์ฝ๋์ ์ถ๋ ฅ ์ฐจ์์ด ๋ฌ๋ผ์ง ๋ฟ, ๋น๋์ค ๋ฐฑ๋ณธ์ ์๋ ์๋ฆฌ๋ ๋์ผํฉ๋๋ค. ๋ค๋ง ์ฌ๋ฌ ์๊ฐ๋ฝ์ ๋์ ์ ์ดํ๋ฏ๋ก, ๋ ๋ง์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ ํฐ ๋์ฝ๋ ๋คํธ์ํฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
๋ํ, ์นด๋ฉ๋ผ ๋ฐฐ์น๋ ๊ด์ ์ผ์ ์ข ๋ฅ๊ฐ ๋ฌ๋ผ๋ ๋น๋์ค ๋ชจ๋ธ์ ๊ด์ ์ด์ธ์ ์๊ฐ ์ ๋ณด(์: ์นด๋ฉ๋ผ ์์)๋ง ์ฌ์ฉํ๋ฏ๋ก, ์ฌ์ ํ ์ ์ฐํฉ๋๋ค. ๊ฐ๋ น ์๋ชฉ ์นด๋ฉ๋ผ, ์ธ๋ถ ์นด๋ฉ๋ผ ๋ฑ ๋ค์ํ ๋ทฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ์ ์๊ณ , ํ๋ ๋์ฝ๋๋ ํด๋น ๋ก๋ด์ ๊ด์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ํ์ตํ๋ฉด ๋ฉ๋๋ค. ์ค์ํ ์ ์ ๋น๋์ค ์ ์ฌ ํํ์ด ํ๋ซํผ์ ๋ฌด๊ดํ ๋ฌผ๋ฆฌ์ ๊ณํต๋๋ผ๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ฐ์ ์ฉ ๋ก๋ด ํ, ์๋น์ค ๋ก๋ด ํธ๋, ๋๋ก ์กฐ์ ๋ฑ ์ฌ๋ฌ ์์ฉ ์์ญ์์ ํ์ฉ ๊ฐ๋ฅํ ์ ๋ง์ ๋๋ค.
๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋, ์์ ํ ๋น๋์ค ์์ธก ๋์ ๋ถ๋ถ์ ์๊ฐ-๋ฌธ๋งฅ ์์ธก๊ณผ ํ๋ ํ์ต์ ํตํฉํ๋ ๊ธฐ๋ฒ, ์๋ฅผ ๋ค์ด V-JEPA 2๋ UWM์ฒ๋ผ ์ถ๋ก ์๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ์ด ์์ ์ ์์ต๋๋ค. ๋ ํ๊ฐ์ง ๊ณผ์ ๋ ๊ณ ํด์๋ ์์ธก์ ๋น์ฉ์ ์ค์ด๋ ๊ฒ์ ๋๋ค. ์์ธก ์ค์ฐจ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ค์ ๊ฐ์ง๋ ํผ๋๋ฐฑ์ ๋ฐ์ํ๋ ์จ๋ผ์ธ ํ์ต ๋๋ ์ ์ ์ ์ด(adaptive control) ๊ธฐ๋ฒ๋ ๊ฒํ ํด๋ณผ ์ ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ mimic-video๋ผ๋ ์๋ก์ด ํด๋์ค์ Video-Action ๋ชจ๋ธ์ ์ ์ํ์ต๋๋ค. ํต์ฌ์ ์ธํฐ๋ท ๋์ฉ๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ํ์ฉํด, ๋ก๋ด ์ ์ด์ ํ์ํ ๋ฌผ๋ฆฌ์ ์ง์์ ์ฌ์ ํ์ตํ๊ณ , ์ด๋ฅผ ํตํด ๋ก๋ด์ ์กฐ์ ์ ์ฑ ํ์ต ๋ถ๋ด์ ํฌ๊ฒ ์ค์ธ ๊ฒ์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ mimic-video๋ ์ข ๋์ VLA ๋๋น ์ํ ํจ์จ 10๋ฐฐ ํฅ์, ์๋ ด ์๋ 2๋ฐฐ ๊ฐ์ ์ ๋ฌ์ฑํ๊ณ , Simpler ๋ฐ Libero ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ์ค์ ์ด์กฑ ๋ค๊ด์ ๋ก๋ด์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ํ์ธํ๋ฉฐ ํ์ฅ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค.
๋น๋์ค ๊ธฐ๋ฐ ํ์ต์ ๋ก๋ด ์ ์ด์ ํจ๋ฌ๋ค์ ์ ํ์ ์๊ณ ํฉ๋๋ค. ๋ง์น ์ฒ ๋์ ๋น์ทํ ์ ๋ก ์๋ฅผ ๋ฌ๋ฆฌ๊ธฐ๋ง ํ๋ ๋ก๋ด์ด, ๋น๋์ค๋ฅผ ํ๊ณ ํ๋๋ก ๋ ์์ค๋ฅด๋ ๊ฒ์ฒ๋ผ ๋๊ปด์ง๋๋ค. ์์ผ๋ก ๋ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ด ๋ฐฉํฅ์ ํ๊ตฌํ์ฌ, ๋ก๋ด์ด โ์ธ์์ ๋ณํ๋ฅผ ์ดํดํ๋ฉฐ ์ค์ค๋ก ํ์ตํ๋ ์์คโ์ ๋ค๊ฐ๊ฐ๊ธธ ๊ธฐ๋ํฉ๋๋ค.