Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ์™œ ๋น„๋””์˜ค์ธ๊ฐ€?
    • ํ•ต์‹ฌ ์•„์ด๋””์–ด: Video-Action Model (VAM)
      • ์ฒ ํ•™์  ๊ธฐ๋ฐ˜
      • ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”
    • ๊ธฐ์ˆ ์  ์ƒ์„ธ: Flow Matching์˜ ์šฐ์•„ํ•จ
      • Flow Matching์ด๋ž€?
      • ์™œ Flow Matching์ธ๊ฐ€?
      • ์ˆ˜์‹์œผ๋กœ ๋ณด๋Š” mimic-video
    • ์‹คํ—˜ ๊ฒฐ๊ณผ: ์ˆซ์ž๊ฐ€ ๋งํ•ด์ฃผ๋Š” ๊ฒƒ
      • ๋ฒค์น˜๋งˆํฌ ์„ค์ •
      • ํ•ต์‹ฌ ๊ฒฐ๊ณผ
      • ์ œ์–ด = ์‹œ๊ฐ์  ์˜ˆ์ธก?
      • ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
      • ๊ฐ•์ 
      • ์•ฝ์ ๊ณผ ํ•œ๊ณ„
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • VLA (Vision-Language-Action) ๊ณ„์—ด
      • World Model ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•
      • GR00T N1๊ณผ์˜ ๋น„๊ต
    • ์—ฐ๊ตฌ ํ™•์žฅ ๋ฐฉํ–ฅ
    • ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€
  • โ›๏ธ Dig Review
    • ์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ
    • ๋ฐฉ๋ฒ•: Video-Action ๋ชจ๋ธ ์ƒ์„ธ ๋ถ„์„
      • ์˜์‚ฌ์ฝ”๋“œ ์˜ˆ์‹œ
    • ์‹คํ—˜: ์„ค์ •, ๊ฒฐ๊ณผ ๊ทธ๋ฆฌ๊ณ  ์˜๋ฏธ
      • ์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ํ•œ๊ณ„
    • ์‘์šฉ ๋ฐ ํ™•์žฅ: ์‹ค์ „ ๋กœ๋ด‡ ์ ์šฉ๊ณผ ํ›„์† ์—ฐ๊ตฌ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒmimic-video ๋ฆฌ๋ทฐ

diffusion
vam
flow-matching
Video-Action Models for Generalizable Robot Control Beyond VLAs
Published

December 25, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project
  1. ๐Ÿค– mimic-video๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ์ œ์–ด ์ •์ฑ…์„ ๊ตฌํ˜„ํ•˜๋Š” Video-Action Model (VAM)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿš€ ๊ธฐ์กด VLA๊ฐ€ ์ •์  ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์ธํ•ด ๋ฌผ๋ฆฌ์  ์—ญํ•™์„ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ํ•œ๊ณ„์™€ ๋‹ฌ๋ฆฌ, mimic-video๋Š” ๋น„๋””์˜ค์˜ ๋™์  ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ œ์–ด ๋ฌธ์ œ๋ฅผ ๋ถ„๋ฆฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ 10๋ฐฐ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  3. ๐Ÿ’ก ์ด ์•„ํ‚คํ…์ฒ˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง•์„ ํ†ตํ•œ ๋น„๋””์˜ค ์ž ์žฌ ํ‘œํ˜„์„ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅธ ์ถ”๋ก ๊ณผ ๊ฒฌ๊ณ ํ•œ ์ •์ฑ… ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

mimic-video๋Š” ๊ธฐ์กด์˜ Vision-Language-Action (VLA) ๋ชจ๋ธ๋“ค์ด ๊ฐ€์ง„ ํ•œ๊ณ„, ์ฆ‰ ์ •์ ์ธ ์›น ๋ฐ์ดํ„ฐ(์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ)๋ฅผ ํ†ตํ•ด ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ๋ฌผ๋ฆฌ์  ์—ญํ•™ ๋ฐ ์‹œ๊ฐ„์  ์˜์กด์„ฑ์„ ์ถฉ๋ถ„ํžˆ ์ดํ•ดํ•˜์ง€ ๋ชปํ•˜๊ณ  ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•œ๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์˜ Video-Action Model (VAM)์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์ฃผ์žฅ์€ ๋น„๋””์˜ค ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ์˜๋ฏธ๋ก ์  ์ •๋ณด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ์  ์—ญํ•™(visual dynamics)์„ ๋‚ด์žฌ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋กœ๋ด‡ ์ œ์–ด ๋ฌธ์ œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก  (Core Methodology)

mimic-video๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ, ์ฆ‰ ์‚ฌ์ „ ํ•™์Šต๋œ ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ๋น„๋””์˜ค ๋ชจ๋ธ๊ณผ Flow Matching ๊ธฐ๋ฐ˜์˜ ์•ก์…˜ ๋””์ฝ”๋”๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Flow Matching (CFM) ํ”„๋ ˆ์ž„์›Œํฌ: mimic-video์˜ ๋น„๋””์˜ค ์˜ˆ์ธก ๋ฐ ์•ก์…˜ ์˜ˆ์ธก ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๋ชจ๋‘ Flow Matching (CFM) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. CFM์€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ p_0(x_0)๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ์† ์ •๊ทœํ™” ํ๋ฆ„(Continuous Normalizing Flow)์„ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ x_0 (at \tau=0)์™€ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ \epsilon \sim N(0, I) (at \tau=1) ์‚ฌ์ด๋ฅผ ๋ณด๊ฐ„ํ•˜๋Š” ์กฐ๊ฑด๋ถ€ ์ตœ์  ์ˆ˜์†ก ๊ฒฝ๋กœ(conditional optimal transport path) x_\tau = (1 - \tau)x_0 + \tau \epsilon๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ด ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ํ๋ฅด๋Š” ๋ฒกํ„ฐ ํ•„๋“œ(vector field) u_\tau(x_\tau | x_0) = \frac{d}{d\tau} x_\tau = \epsilon - x_0๋ฅผ ์ถ”์ •ํ•˜๋Š” ํ•จ์ˆ˜ v_\theta๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๋ชฉํ‘œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: \mathcal{L}_{CFM} = E_{T(\tau), p_0(x_0), p_\tau(x_\tau|x_0)} [\|v_\theta(x_\tau, \tau) - u_\tau(x_\tau | x_0)\|^2] ์ถ”๋ก  ์‹œ์—๋Š” ํ•™์Šต๋œ ํ•„๋“œ v_\theta๋ฅผ \tau=1์—์„œ \tau=0๊นŒ์ง€ ์ ๋ถ„ํ•˜์—ฌ \hat{x}_0 \sim p_0๋ฅผ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค: \hat{x}_0 = \epsilon + \int_1^0 v_\theta(\hat{x}_\tau, \tau)d\tau ์ด ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ํŒŒ๋ผ๋ฏธํ„ฐ \tau๋Š” partial denoising์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š”๋ฐ, ์ด๋Š” mimic-video์˜ ํ•ต์‹ฌ ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.
  2. ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ: mimic-video๋Š” ์–ธ์–ด ์กฐ๊ฑด๋ถ€ ๋น„๋””์˜ค ๋ฐฑ๋ณธ๊ณผ ๊ฒฝ๋Ÿ‰ ์•ก์…˜ ๋””์ฝ”๋”์˜ ๋‘ ๊ฐ€์ง€ CFM ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
    • ๋น„๋””์˜ค ๋ชจ๋ธ (v_\phi): Cosmos-Predict2 [38, 37]์™€ ๊ฐ™์€ Diffusion Transformer (DiT) ๊ธฐ๋ฐ˜์˜ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„๋””์˜ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ดˆ๊ธฐ ๊ด€์ธก(5 ํ”„๋ ˆ์ž„์˜ ํด๋ฆฐ latent patch embedding)๊ณผ โ€œnoisyโ€ํ•œ ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„(์ƒ์„ฑ๋  ๋ฏธ๋ž˜ ํ”„๋ ˆ์ž„์˜ latent patch)์˜ ์—ฐ๊ฒฐ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ชจ๋ธ์€ ์–ธ์–ด ๋ช…๋ น l์— ์˜ํ•ด ์กฐ๊ฑดํ™”๋˜์–ด ๋ฏธ๋ž˜ ์‹œํ€€์Šค z_0^{future}์˜ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, p_\phi(z_0^{future} |z_0^{past}, l)๋ฅผ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ์ „์ฒด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Œ€์‹ , ๋น„๋””์˜ค ๋ชจ๋ธ์˜ k-๋ฒˆ์งธ ๋ ˆ์ด์–ด์—์„œ ์ถ”์ถœ๋œ ์ค‘๊ฐ„ ์ƒํƒœ(hidden state) h_{\tau_v}๋ฅผ ํ™œ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์•ก์…˜ ๋””์ฝ”๋” (\pi_\theta): ๋กœ๋ด‡์˜ ๊ณ ์œ  ์ƒํƒœ(proprioceptive state) q_t์™€ ์•ก์…˜ ์‹œํ€€์Šค A_t^{future}๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” DiT๋กœ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค. ์•ก์…˜ ๋””์ฝ”๋”๋Š” ๋น„๋””์˜ค ๋ชจ๋ธ์—์„œ ์ถ”์ถœ๋œ h_{\tau_v} ํ‘œํ˜„์— ๊ต์ฐจ ์–ดํ…์…˜(cross-attention)ํ•˜์—ฌ ์กฐ๊ฑดํ™”๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์•ก์…˜ ๋””์ฝ”๋”๊ฐ€ ๋ณต์žกํ•œ ๋ฏธ๋ž˜ ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋Œ€์‹ , ํ›จ์”ฌ ๊ฐ„๋‹จํ•œ ์ €์ˆ˜์ค€ ์ œ์–ด ๋ฌธ์ œ(Inverse Dynamics Model, IDM)์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  3. ์•ก์…˜ ์ƒ˜ํ”Œ๋ง (Algorithm 1): ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋ฅผ ์œ„ํ•ด, mimic-video๋Š” ์ „์ฒด ๋น„๋””์˜ค ์žฌ๊ตฌ์„ฑ์˜ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์šฐํšŒํ•˜์—ฌ ๋งˆ์ง„๋„ ์•ก์…˜ ์ •์ฑ…(marginal action policy)์—์„œ ํšจ์œจ์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:
    1. ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€ ๊ด€์ธก o_t์™€ ์–ธ์–ด ๋ช…๋ น l, ๊ณ ์œ  ์ƒํƒœ q_t์— ๋Œ€ํ•ด, ๋น„๋””์˜ค ๋ชจ๋ธ์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ z_1^{future}์—์„œ ์ค‘๊ฐ„ ํ๋ฆ„ ์‹œ๊ฐ„ \tau_v๊นŒ์ง€ ๋น„๋””์˜ค ํ๋ฆ„ ํ•„๋“œ๋ฅผ ์ ๋ถ„ํ•˜์—ฌ ๋ถ€๋ถ„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๊ฐ€ ์ œ๊ฑฐ๋œ ์ž ์žฌ ์ƒํƒœ z_{\tau_v}^{future}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค (z_{\tau_v}^{future} \leftarrow z_1^{future} + \int_{\tau_v}^1 v_\phi(z_{0}^{past}, z_{\tau'v}^{future}, l, \tau'_v) d\tau'_v).
    2. ์ด z_{\tau_v}^{future} ์ƒํƒœ๋ฅผ ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์ฒซ k๊ฐœ ๋ ˆ์ด์–ด๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๊ฒฐ๊ณผ ํ™œ์„ฑํ™” h_{\tau_v}๋ฅผ ์•ก์…˜ ๋””์ฝ”๋”์— ์กฐ๊ฑด ์ •๋ณด๋กœ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค (h_{\tau_v} \leftarrow v_{(k)\phi}(z_{0}^{past}, z_{\tau_v}^{future}, l, \tau_v)).
    3. ์•ก์…˜ ๋””์ฝ”๋”๋Š” h_{\tau_v}์— ์กฐ๊ฑดํ™”๋˜์–ด ์•ก์…˜ ์‹œํ€€์Šค A_0^t๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์™„์ „ํ•œ ๋””๋…ธ์ด์ง• ์ ˆ์ฐจ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค (A_0^t \leftarrow A_1^t + \int_1^0 \pi_\theta (A_{\tau_a}^t, q_t, h_{\tau_v}^t, \tau_a, \tau_v)d\tau_a). ์ถ”๋ก  ์‹œ \tau_v๋Š” ์กฐ์ ˆ ๊ฐ€๋Šฅํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, \tau_v = 1์ผ ๋•Œ ๊ฐ€์žฅ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. \tau_v=1์€ ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ๋‹จ์ผ ์ˆœ๋ฐฉํ–ฅ ํŒจ์Šค๋งŒ์œผ๋กœ ์กฐ๊ฑดํ™” ํŠน์ง•์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  4. ํ•™์Šต ์ ˆ์ฐจ (Algorithm 2): mimic-video ํ›ˆ๋ จ์€ ๋‘ ๊ฐ€์ง€ ๋ณ„๊ฐœ์˜ ๋‹จ๊ณ„๋กœ ์ง„ํ–‰๋˜๋ฉฐ, ๊ฐ๊ฐ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŠธ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
    • 1๋‹จ๊ณ„: ๋น„๋””์˜ค ๋ฐฑ๋ณธ ํŒŒ์ธํŠœ๋‹: ๋กœ๋ด‡ ์ž‘์—…์˜ ํŠน์ • ์‹œ๊ฐ์  ๋„๋ฉ”์ธ ๋ฐ ์—ญํ•™์— ์ผ๋ฐ˜ ๋น„๋””์˜ค ๋ฐฑ๋ณธ์„ ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•ด ๋กœ๋ด‡ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์—์„œ LoRA (Low-Rank Adapters)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์‹œ๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋„๋ฉ”์ธ๋ณ„ ์˜๋ฏธ๋ก ์„ ํฌ์ฐฉํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • 2๋‹จ๊ณ„: ์•ก์…˜ ๋””์ฝ”๋” ํ•™์Šต: ๋น„๋””์˜ค ๋ฐฑ๋ณธ์€ ๊ณ ์ •๋œ ์ƒํƒœ์—์„œ ์•ก์…˜ ๋””์ฝ”๋” \pi_\theta๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜์—ฌ ์•ก์…˜ ํ๋ฆ„ ํ•„๋“œ๋ฅผ ํšŒ๊ท€์‹œํ‚ต๋‹ˆ๋‹ค. ์ถ”๋ก  ์‹œ ๋‹ค์–‘ํ•œ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ํ›ˆ๋ จ ๋ฐ˜๋ณต๋งˆ๋‹ค ๋น„๋””์˜ค(\tau_v)์™€ ์•ก์…˜(\tau_a)์— ๋Œ€ํ•ด ๋…๋ฆฝ์ ์ธ ํ๋ฆ„ ์‹œ๊ฐ„์„ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ„๋ฆฌ๋œ ํ•™์Šต ๋ฐฉ์‹์€ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋‹ค ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋†’๊ณ  ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋น ๋ฆ…๋‹ˆ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ ๋ฐ ๊ธฐ์—ฌ (Key Results and Contributions)

  • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ ์ œ์–ด ๋Šฅ๋ ฅ: mimic-video๋Š” SIMPLER-Bridge (Widow-X ๋กœ๋ด‡) ๋ฐ LIBERO (Panda ๋กœ๋ด‡) ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ์ด์กฑ ๋กœ๋ด‡(bimanual humanoid hands) ํ™˜๊ฒฝ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, SIMPLER-Bridge์—์„œ๋Š” ๊ธฐ์กด VLA ๋ฐ ๋‹ค๋ฅธ ์ตœ์‹  ๋ฐฉ๋ฒ•๋ก ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ํ–ฅ์ƒ๋œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ฐ ์ˆ˜๋ ด ์†๋„: mimic-video์˜ ์•ก์…˜ ๋””์ฝ”๋”๋Š” ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜์—ฌ 10๋ฐฐ ๋†’์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ๊ณผ 2๋ฐฐ ๋น ๋ฅธ ์ˆ˜๋ ด ์†๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋น„๋””์˜ค ์‚ฌ์ „ ํ•™์Šต์ด ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ๋” ํ’๋ถ€ํ•˜๊ณ  ํšจ์œจ์ ์ธ ํ‘œํ˜„์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ๋น„๋””์˜ค ์ถฉ์‹ค๋„์™€ ์•ก์…˜ ์„ฑ๋Šฅ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๋ถ„์„: mimic-video๋Š” ๋น„๋””์˜ค ํ๋ฆ„ ์‹œ๊ฐ„ \tau_v๋ฅผ ์กฐ์ ˆํ•จ์œผ๋กœ์จ ๋น„๋””์˜ค ์ƒ์„ฑ ์ถฉ์‹ค๋„์™€ ์ •์ฑ… ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํƒ์ƒ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„, ๊ฐ€์žฅ ๋†’์€ ์ž์œจ ์ •์ฑ… ์„ฑ๋Šฅ์€ \tau_v=1 (๋†’์€ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€)์—์„œ ๋‹ฌ์„ฑ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ฏธ์„ธํ•œ ๋น„๋””์˜ค ์žฌ๊ตฌ์„ฑ์ด ํšจ๊ณผ์ ์ธ ์ •์ฑ… ํ•™์Šต์— ํ•„์ˆ˜์ ์ด์ง€ ์•Š์œผ๋ฉฐ, ๋ถˆ์™„์ „ํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ์˜ ์•„ํ‹ฐํŒฉํŠธ๊ฐ€ ์•ก์…˜ ๋””์ฝ”๋”์— ๋Œ€ํ•œ Out-of-Distribution (OOD) ์กฐ๊ฑด์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. partial denoising ์ „๋žต์€ ๋ชจ๋ธ ์˜ˆ์ธก๊ณผ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๋ถ„ํฌ ๋ถˆ์ผ์น˜๋ฅผ ์™„ํ™”ํ•˜๊ณ , ์ถ”๋ก  ์‹œ ๋น„๋””์˜ค ์ƒ์„ฑ ๋น„์šฉ์„ ์ค„์—ฌ ์†๋„๋ฅผ ๋†’์ด๋Š” ์ด์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ (Limitations and Future Work)

  • ๋‹จ์ผ ์‹œ์  ๋น„๋””์˜ค ๋ฐฑ๋ณธ ์˜์กด: ํ˜„์žฌ ๋ชจ๋ธ์€ ๋‹จ์ผ ์‹œ์  ๋น„๋””์˜ค ๋ฐฑ๋ณธ์— ์˜์กดํ•˜๋ฏ€๋กœ ๊ณต๊ฐ„ ์ถ”๋ก  ๋ฐ ๊ฐ€๋ ค์ง ๊ฐ•๊ฑด์„ฑ์— ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋‹ค์ค‘ ์‹œ์  ๋ชจ๋ธ๋กœ์˜ ํ™•์žฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ํ†ตํ•ฉ๋œ ๋Œ€๊ทœ๋ชจ ํฌ๋กœ์Šค-์— ๋ฐ”๋””๋จผํŠธ ๋ชจ๋ธ ๋ถ€์žฌ: ์•„์ง ํ†ตํ•ฉ๋œ ๋Œ€๊ทœ๋ชจ ํฌ๋กœ์Šค-์— ๋ฐ”๋””๋จผํŠธ ๋ชจ๋ธ๋กœ ํ›ˆ๋ จ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋น„๋””์˜ค ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์ž ์žฌ๋ ฅ์„ ์ตœ๋Œ€ํ•œ ๋ฐœํœ˜ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๋‹จ๊ณ„๋กœ ์—ฌ๊ฒจ์ง‘๋‹ˆ๋‹ค.
  • ์ œํ•œ๋œ ์‹ค์ œ ํ™˜๊ฒฝ ์ž‘์—… ๋‹ค์–‘์„ฑ: ํ˜„์žฌ ์‹ค์ œ ํ™˜๊ฒฝ ์‹คํ—˜์€ ์ œํ•œ๋œ ์ž‘์—… ์„ธํŠธ์— ๊ตญํ•œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋” ๋„“์€ ๋ฒ”์œ„์˜ ์กฐ์ž‘ ํ–‰๋™์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ์™œ ๋น„๋””์˜ค์ธ๊ฐ€?

๋กœ๋ด‡ ์กฐ์ž‘(manipulation) ๋ถ„์•ผ์—์„œ ์šฐ๋ฆฌ๋Š” ์˜ค๋žซ๋™์•ˆ ํ•˜๋‚˜์˜ ๊ฟˆ์„ ๊พธ์–ด์™”์Šต๋‹ˆ๋‹ค. ์ธํ„ฐ๋„ท์— ๋„˜์ณ๋‚˜๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋กœ๋ด‡์ด ๋งˆ์น˜ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด์ฃ . ์ด ๊ฟˆ์„ ์‹คํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๊ฒƒ์ด ๋ฐ”๋กœ Vision-Language-Action (VLA) ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

VLA๋Š” GPT๋‚˜ LLaMA ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๊ณต์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ์ •์ ์ธ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ Vision-Language ๋ฐฑ๋ณธ ์œ„์— ๋กœ๋ด‡ ํ–‰๋™(action)์„ ์ถœ๋ ฅํ•˜๋Š” ๋ ˆ์ด์–ด๋ฅผ ์–น๋Š” ๋ฐฉ์‹์ด์ฃ . OpenVLA, RT-2, ฯ€โ‚€ ๊ฐ™์€ ๋ชจ๋ธ๋“ค์ด ์ด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์— ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฆฌ์ฒ˜๋“œ ํŒŒ์ธ๋งŒ ๊ต์ˆ˜๋‹˜์ด๋ผ๋ฉด ์•„๋งˆ ์ด๋ ‡๊ฒŒ ๋ฌผ์—ˆ์„ ๊ฒ๋‹ˆ๋‹ค:

โ€œ์ž ๊น, ์ •์ ์ธ ์ด๋ฏธ์ง€๋กœ ์–ด๋–ป๊ฒŒ ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์˜ ์—ญํ•™์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์ง€?โ€

๋ฐ”๋กœ ์ด ์งˆ๋ฌธ์ด mimic-video ๋…ผ๋ฌธ์˜ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค. ์ •์ ์ธ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ์˜๋ฏธ๋ก ์ (semantic) ์ง€์‹โ€”์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์‚ฌ๊ณผ๋Š” ๋นจ๊ฐ›๋‹คโ€, โ€œ์ปต์€ ์Œ๋ฃŒ๋ฅผ ๋‹ด๋Š”๋‹คโ€ ๊ฐ™์€โ€”์„ ์ž˜ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฌผ๋ฆฌ์  ์ธ๊ณผ๊ด€๊ณ„(physical causality)โ€”โ€œ์ปต์„ ๋ฐ€๋ฉด ์–ด๋–ป๊ฒŒ ์›€์ง์ด๋Š”๊ฐ€โ€, โ€œ๋ฌผ์ฒด๊ฐ€ ๋–จ์–ด์งˆ ๋•Œ ์–ด๋–ค ๊ถค์ ์„ ๊ทธ๋ฆฌ๋Š”๊ฐ€โ€โ€”๋Š” ์ „ํ˜€ ์•Œ์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ VLA ๋ชจ๋ธ๋“ค์€ ๋ฌผ๋ฆฌ ์—ญํ•™์„ ์˜ค์ง ๋กœ๋ด‡ ๊ถค์  ๋ฐ์ดํ„ฐ์—์„œ๋งŒ ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋งˆ์น˜ ๋ฌผ๋ฆฌํ•™ ๊ต๊ณผ์„œ ์—†์ด ์‹คํ—˜๋งŒ์œผ๋กœ ๋‰ดํ„ด ์—ญํ•™์„ ์œ ๋„ํ•˜๋ ค๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ฐ€๋Šฅํ•˜๊ธด ํ•˜์ง€๋งŒ, ์—„์ฒญ๋‚œ ์–‘์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ฃ .

mimic-video๋Š” ์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ์šฐ์•„ํ•œ ํ•ด๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค: ๋น„๋””์˜ค๋ฅผ ์‚ฌ์šฉํ•˜์ž!

๋น„๋””์˜ค๋Š” ๋‹จ์ˆœํ•œ ์ด๋ฏธ์ง€์˜ ์—ฐ์†์ด ์•„๋‹™๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์•ˆ์—๋Š” ๋ฌผ๋ฆฌ ์„ธ๊ณ„์˜ ์‹œ๊ณต๊ฐ„์  ์—ญํ•™์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ธ์ฝ”๋”ฉ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณต์ด ๊ตด๋Ÿฌ๊ฐ€๊ณ , ๋ฌผ์ด ํ๋ฅด๊ณ , ์†์ด ๋ฌผ์ฒด๋ฅผ ์ง‘๋Š” ๋ชจ์Šตโ€”์ด ๋ชจ๋“  ๊ฒƒ์ด ๋ฌผ๋ฆฌ ๋ฒ•์น™์˜ ์•”๋ฌต์  ํ‘œํ˜„์ž…๋‹ˆ๋‹ค.

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    ์ „ํ†ต์  VLA์˜ ํ•œ๊ณ„                              โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚  [์ •์  ์ด๋ฏธ์ง€ + ํ…์ŠคํŠธ]  โ†’  [Vision-Language Backbone]           โ”‚
โ”‚           โ†“                                                      โ”‚
โ”‚  ์˜๋ฏธ๋ก ์  ์ง€์‹ โœ“   ๋ฌผ๋ฆฌ ์—ญํ•™ โœ—                                    โ”‚
โ”‚           โ†“                                                      โ”‚
โ”‚  [๋กœ๋ด‡ ๊ถค์  ๋ฐ์ดํ„ฐ]  โ†’  ๋ฌผ๋ฆฌ ์—ญํ•™ ํ•™์Šต (๋ฐ์ดํ„ฐ ๋ถ€๋‹ด โ†‘)            โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    mimic-video์˜ ์ ‘๊ทผ๋ฒ•                          โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚  [์ธํ„ฐ๋„ท ์Šค์ผ€์ผ ๋น„๋””์˜ค]  โ†’  [Video Model Backbone]               โ”‚
โ”‚           โ†“                                                      โ”‚
โ”‚  ์˜๋ฏธ๋ก ์  ์ง€์‹ โœ“   ๋ฌผ๋ฆฌ ์—ญํ•™ โœ“                                    โ”‚
โ”‚           โ†“                                                      โ”‚
โ”‚  [Action Decoder]  โ†’  ์ €์ˆ˜์ค€ ์ œ์–ด๋งŒ ํ•™์Šต (๋ฐ์ดํ„ฐ ๋ถ€๋‹ด โ†“)         โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

ํ•ต์‹ฌ ์•„์ด๋””์–ด: Video-Action Model (VAM)

์ฒ ํ•™์  ๊ธฐ๋ฐ˜

mimic-video์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ๋ฌธ์ œ์˜ ๋ถ„๋ฆฌ(decoupling)์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์กฐ์ž‘์ด๋ผ๋Š” ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ๋‘ ๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ํ•˜์œ„ ๋ฌธ์ œ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค:

  1. ๊ณ ์ˆ˜์ค€ ๊ณ„ํš(High-level Planning): โ€œ๋‹ค์Œ์— ๋ฌด์—‡์ด ์ผ์–ด๋‚˜์•ผ ํ•˜๋Š”๊ฐ€?โ€
  2. ์ €์ˆ˜์ค€ ์ œ์–ด(Low-level Control): โ€œ๊ทธ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ์‹คํ–‰ํ•˜๋Š”๊ฐ€?โ€

์ฒซ ๋ฒˆ์งธ ๋ฌธ์ œ๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ธํ„ฐ๋„ท ์Šค์ผ€์ผ์˜ ๋น„๋””์˜ค๋กœ ํ•™์Šต๋œ ์ด ๋ชจ๋ธ์€ ์ด๋ฏธ ๋ฌผ๋ฆฌ ์„ธ๊ณ„์˜ โ€œ์ƒ์‹โ€์„ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ปต์„ ๋ฐ€๋ฉด ๋ฏธ๋„๋Ÿฌ์ง€๊ณ , ๋ฌผ์ฒด๋ฅผ ๋†“์œผ๋ฉด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์ฒ˜๋Ÿผ์š”.

๋‘ ๋ฒˆ์งธ ๋ฌธ์ œ๋Š” Inverse Dynamics Model (IDM)์ด๋ผ ๋ถˆ๋ฆฌ๋Š” action decoder๊ฐ€ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด ๋””์ฝ”๋”์˜ ์—ญํ• ์€ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค: โ€œํ˜„์žฌ ์ƒํƒœ A์—์„œ ๋ฏธ๋ž˜ ์ƒํƒœ B๋กœ ๊ฐ€๋ ค๋ฉด ์–ด๋–ค ํ–‰๋™์„ ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?โ€ ๋ฌผ๋ฆฌ ์—ญํ•™์— ๋Œ€ํ•œ ๊ณ ๋ฏผ ์—†์ด, ์˜ค์ง ์ƒํƒœ ์ „์ด๋งŒ ํ•™์Šตํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

์ด ๋ถ„๋ฆฌ๊ฐ€ ์™œ ๊ฐ•๋ ฅํ•œ์ง€ ๋น„์œ ๋ฅผ ๋“ค์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋‹น์‹ ์ด ํƒ์‹œ ์šด์ „์‚ฌ๋ผ๊ณ  ์ƒ์ƒํ•ด๋ณด์„ธ์š”:

  • VLA ๋ฐฉ์‹: ์†๋‹˜์ด โ€œ๊ณตํ•ญ ๊ฐ€์ฃผ์„ธ์š”โ€๋ผ๊ณ  ํ•˜๋ฉด, ๋„์‹œ์˜ ๋ชจ๋“  ๋„๋กœ๋ฅผ ์•”๊ธฐํ•˜๊ณ , ๊ตํ†ต ํ๋ฆ„์„ ์˜ˆ์ธกํ•˜๊ณ , ๋™์‹œ์— ํ•ธ๋“ค๊ณผ ํŽ˜๋‹ฌ์„ ์กฐ์ž‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • mimic-video ๋ฐฉ์‹: ๋„ค๋น„๊ฒŒ์ด์…˜(๋น„๋””์˜ค ๋ชจ๋ธ)์ด ๊ฒฝ๋กœ๋ฅผ ์•Œ๋ ค์ฃผ๊ณ , ๋‹น์‹ ์€ ๊ทธ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ์šด์ „(action decoder)๋งŒ ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

mimic-video์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค:

flowchart TB
    subgraph Input["์ž…๋ ฅ"]
        IMG[ํ˜„์žฌ ๊ด€์ธก ์ด๋ฏธ์ง€]
        PROP[๋กœ๋ด‡ ๊ณ ์œ ์ˆ˜์šฉ ์ƒํƒœ]
        INST[์–ธ์–ด ์ง€์‹œ๋ฌธ]
    end
    
    subgraph VideoBackbone["๋น„๋””์˜ค ๋ฐฑ๋ณธ (Cosmos-Predict2)"]
        ENC[VAE Encoder]
        FLOW_V[Partial Denoising<br/>ฯ„_v๊นŒ์ง€ Flow]
        LATENT[์ž ์žฌ ๋น„๋””์˜ค ๊ณ„ํš<br/>z_v]
    end
    
    subgraph ActionDecoder["Action Decoder (IDM)"]
        COND[์กฐ๊ฑดํ™”]
        FLOW_A[Flow Matching<br/>ฯ„_a ์Šค์ผ€์ค„]
        ACTION[Action Chunk<br/>a_1:H]
    end
    
    IMG --> ENC
    INST --> ENC
    ENC --> FLOW_V
    FLOW_V --> LATENT
    
    LATENT --> COND
    PROP --> COND
    COND --> FLOW_A
    FLOW_A --> ACTION
    
    style VideoBackbone fill:#e1f5fe
    style ActionDecoder fill:#fff3e0

1. ๋น„๋””์˜ค ๋ฐฑ๋ณธ (Video Backbone)

NVIDIA Cosmos-Predict2๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ธํ„ฐ๋„ท ์Šค์ผ€์ผ์˜ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ํ’๋ถ€ํ•œ ๋ฌผ๋ฆฌ ์—ญํ•™ ํ”„๋ผ์ด์–ด๋ฅผ ๋‚ด์žฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ์ด ๋ชจ๋ธ์ด ์™„์ „ํ•œ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋Œ€์‹  โ€œ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง•(partial denoising)โ€ ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

2. ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง• (Partial Denoising)

์—ฌ๊ธฐ๊ฐ€ mimic-video์˜ ๊ฐ€์žฅ ์˜๋ฆฌํ•œ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์ธ diffusion/flow ๋ชจ๋ธ์€ ์ˆœ์ˆ˜ ๋…ธ์ด์ฆˆ(ฯ„=1)์—์„œ ๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐ(ฯ„=0)๊นŒ์ง€ ์ „์ฒด ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ๊ฐ‘๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ mimic-video๋Š” ์ค‘๊ฐ„ ์ง€์  ฯ„_v์—์„œ ๋ฉˆ์ถฅ๋‹ˆ๋‹ค.

์™œ ๊ทธ๋Ÿด๊นŒ์š”? ์™„์ „ํžˆ ๋””๋…ธ์ด์ง•๋œ ๋น„๋””์˜ค๋Š” ์‹œ๊ฐ์ ์œผ๋กœ ์˜ˆ์˜์ง€๋งŒ, ์ œ์–ด์— ํ•„์š”ํ•œ ์ •๋ณด๋งŒ ์ถ”์ถœํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ค‘๊ฐ„ ๋…ธ์ด์ฆˆ ๋ ˆ๋ฒจ์˜ ์ž ์žฌ ํ‘œํ˜„์€ ๋ถˆํ•„์š”ํ•œ ์‹œ๊ฐ์  ๋””ํ…Œ์ผ์„ ์ œ๊ฑฐํ•˜๋ฉด์„œ๋„ ๋™์ž‘์˜ ๋ณธ์งˆ์  ์ •๋ณด๋Š” ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

3. Action Decoder (Inverse Dynamics Model)

๋น„๋””์˜ค ๋ฐฑ๋ณธ์—์„œ ์ถ”์ถœํ•œ ์ž ์žฌ ๊ณ„ํš๊ณผ ๋กœ๋ด‡์˜ ๊ณ ์œ ์ˆ˜์šฉ ์ƒํƒœ(proprioceptive state)๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ ํ–‰๋™ ์ฒญํฌ(action chunk)๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๋””์ฝ”๋” ์—ญ์‹œ flow matching์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋น„๋””์˜ค์™€๋Š” ๋…๋ฆฝ์ ์ธ flow ์Šค์ผ€์ค„ ฯ„_a๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.


๊ธฐ์ˆ ์  ์ƒ์„ธ: Flow Matching์˜ ์šฐ์•„ํ•จ

Flow Matching์ด๋ž€?

Flow Matching (๋˜๋Š” Rectified Flow, Conditional Flow Matching)์€ diffusion ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™”์ž…๋‹ˆ๋‹ค. ๋‘˜ ๋‹ค ๋…ธ์ด์ฆˆ์—์„œ ๋ฐ์ดํ„ฐ๋กœ์˜ ๋ณ€ํ™˜์„ ํ•™์Šตํ•˜์ง€๋งŒ, ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

Diffusion ๋ชจ๋ธ์€ ํ™•๋ฅ ์  ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹(SDE)์˜ ์—ญ๊ณผ์ •์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋…ธ์ด์ฆˆ๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ถ”๊ฐ€ํ•˜๋Š” ์ „๋ฐฉ ๊ณผ์ •์„ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ์—ญ์œผ๋กœ ๋˜๋Œ๋ฆฌ๋Š” ๋ฒ•์„ ๋ฐฐ์›๋‹ˆ๋‹ค.

Flow Matching์€ ๋” ์ง์ ‘์ ์ž…๋‹ˆ๋‹ค. ๋…ธ์ด์ฆˆ ๋ถ„ํฌ์™€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์‚ฌ์ด์˜ ์ตœ์  ์šด์†ก ๊ฒฝ๋กœ(optimal transport path)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์—์„œ ์ด ๊ฒฝ๋กœ๋Š” ์ง์„ ์ž…๋‹ˆ๋‹ค:

x_\tau = (1 - \tau) \cdot x_0 + \tau \cdot \epsilon

์—ฌ๊ธฐ์„œ x_0๋Š” ๋ฐ์ดํ„ฐ, \epsilon์€ ๋…ธ์ด์ฆˆ, \tau \in [0, 1]๋Š” ์‹œ๊ฐ„์ž…๋‹ˆ๋‹ค.

๋ชจ๋ธ์€ ์†๋„์žฅ(velocity field) v_\theta๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค:

\mathcal{L}_{\text{CFM}} = \mathbb{E}_{\tau, x_0, \epsilon} \left\| v_\theta(x_\tau, \tau) - (\epsilon - x_0) \right\|_2^2

์ง๊ด€์ ์œผ๋กœ, ๋ชจ๋ธ์€ โ€œํ˜„์žฌ ์œ„์น˜ x_\tau์—์„œ ๋ฐ์ดํ„ฐ x_0๋กœ ๊ฐ€๋ ค๋ฉด ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?โ€๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์™œ Flow Matching์ธ๊ฐ€?

Flow Matching์ด ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ํŠนํžˆ ์ ํ•ฉํ•œ ์ด์œ ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์ง์„  ๊ฒฝ๋กœ: ์ง์„  ๊ฒฝ๋กœ๋Š” ์ˆ˜์น˜ ์ ๋ถ„ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ์‹œ ๋” ์ ์€ ์Šคํ…์œผ๋กœ๋„ ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋‹ค์ค‘ ๋ชจ๋“œ ๋ถ„ํฌ ์ฒ˜๋ฆฌ: ๋กœ๋ด‡ ํ–‰๋™์€ ์ข…์ข… ๋‹ค์ค‘ ๋ชจ๋“œ(multimodal)์ž…๋‹ˆ๋‹ค. ์ปต์„ ์ง‘์„ ๋•Œ ์™ผ์ชฝ์—์„œ ์ ‘๊ทผํ•  ์ˆ˜๋„, ์˜ค๋ฅธ์ชฝ์—์„œ ์ ‘๊ทผํ•  ์ˆ˜๋„ ์žˆ์ฃ . Flow Matching์€ ์ด๋Ÿฐ ๋ถ„ํฌ๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค.
  3. ์œ ์—ฐํ•œ ์Šค์ผ€์ค„๋ง: ๋น„๋””์˜ค์™€ ํ–‰๋™์— ๋Œ€ํ•ด ๋…๋ฆฝ์ ์ธ flow ์Šค์ผ€์ค„์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ํ•™์Šต ๋ฌธ์ œ๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” mimic-video์˜ ์ฒ ํ•™๊ณผ ์™„๋ฒฝํ•˜๊ฒŒ ๋งž์•„๋–จ์–ด์ง‘๋‹ˆ๋‹ค.

์ˆ˜์‹์œผ๋กœ ๋ณด๋Š” mimic-video

์ „์ฒด ์‹œ์Šคํ…œ์„ ์ˆ˜์‹์œผ๋กœ ์ •๋ฆฌํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋น„๋””์˜ค ์ž ์žฌ ๊ณ„ํš ์ถ”์ถœ: z_v = \text{PartialDenoise}(z_{\text{noise}}, c_{\text{image}}, c_{\text{text}}; \tau_v)

  • z_{\text{noise}}: ์ˆœ์ˆ˜ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋กœ ์ดˆ๊ธฐํ™”๋œ ์ž ์žฌ ๋ณ€์ˆ˜
  • c_{\text{image}}: ํ˜„์žฌ ๊ด€์ธก ์ด๋ฏธ์ง€์˜ ์ธ์ฝ”๋”ฉ
  • c_{\text{text}}: ์–ธ์–ด ์ง€์‹œ๋ฌธ์˜ ์ธ์ฝ”๋”ฉ
  • \tau_v: ๋น„๋””์˜ค flow์˜ ์ค‘๊ฐ„ ์ •์ง€ ์‹œ์ 

ํ–‰๋™ ์ƒ์„ฑ: a_{1:H} = \text{ActionDecoder}(z_v, s_{\text{prop}}; \tau_a)

  • a_{1:H}: H ์Šคํ…์˜ ํ–‰๋™ ์ฒญํฌ (action chunk)
  • s_{\text{prop}}: ๋กœ๋ด‡ ๊ณ ์œ ์ˆ˜์šฉ ์ƒํƒœ
  • \tau_a: ํ–‰๋™ decoder์˜ ๋…๋ฆฝ์  flow ์Šค์ผ€์ค„

ํ•™์Šต ๋ชฉํ‘œ:

๋น„๋””์˜ค ๋ฐฑ๋ณธ์€ ํ‘œ์ค€ flow matching ์†์‹ค๋กœ ํŒŒ์ธํŠœ๋‹๋ฉ๋‹ˆ๋‹ค: \mathcal{L}_{\text{video}} = \mathbb{E}_{\tau, z_0, \epsilon} \left\| v_\theta^{(v)}(z_\tau, \tau) - (\epsilon - z_0) \right\|_2^2

Action decoder๋„ ๋™์ผํ•œ ํ˜•ํƒœ์˜ ์†์‹ค์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: \mathcal{L}_{\text{action}} = \mathbb{E}_{\tau, a, \epsilon} \left\| v_\theta^{(a)}(a_\tau, z_v, s_{\text{prop}}, \tau) - (\epsilon - a) \right\|_2^2


์‹คํ—˜ ๊ฒฐ๊ณผ: ์ˆซ์ž๊ฐ€ ๋งํ•ด์ฃผ๋Š” ๊ฒƒ

๋ฒค์น˜๋งˆํฌ ์„ค์ •

mimic-video๋Š” ์„ธ ๊ฐ€์ง€ ํ™˜๊ฒฝ์—์„œ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. LIBERO: 130๊ฐœ์˜ ์–ธ์–ด ์กฐ๊ฑด ์กฐ์ž‘ ์ž‘์—…์„ ํฌํ•จํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ
  2. SIMPLER-Bridge: Bridge ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ‰๊ฐ€ ํ™˜๊ฒฝ
  3. ์‹ค์ œ ๋กœ๋ด‡: Franka Emika Panda ์•”๊ณผ mimic 16-DoF ์†์„ ์‚ฌ์šฉํ•œ ์–‘ํŒ”(bimanual) ์„ค์ •

ํ•ต์‹ฌ ๊ฒฐ๊ณผ

๋ฉ”ํŠธ๋ฆญ mimic-video ์ „ํ†ต VLA
์ƒ˜ํ”Œ ํšจ์œจ์„ฑ 10๋ฐฐ ํ–ฅ์ƒ ๊ธฐ์ค€์„ 
์ˆ˜๋ ด ์†๋„ 2๋ฐฐ ๋น ๋ฆ„ ๊ธฐ์ค€์„ 
์ตœ์ข… ์„ฑ๊ณต๋ฅ  (LIBERO) ๋” ๋†’์Œ ๋‚ฎ์Œ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋Š” ๊ทน๋‹จ์  ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์ž…๋‹ˆ๋‹ค. LIBERO ๋ฒค์น˜๋งˆํฌ์—์„œ ์ž‘์—…๋‹น ๋‹จ ํ•˜๋‚˜์˜ ์—ํ”ผ์†Œ๋“œ(์ „์ฒด ํ–‰๋™ ๋ฐ์ดํ„ฐ์˜ 2%)๋งŒ ์‚ฌ์šฉํ•ด๋„ 77%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋น„๋””์˜ค ๋ฐฑ๋ณธ์ด ์ด๋ฏธ ์ถฉ๋ถ„ํ•œ ๋ฌผ๋ฆฌ ์—ญํ•™ ํ”„๋ผ์ด์–ด๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์ œ์–ด = ์‹œ๊ฐ์  ์˜ˆ์ธก?

์ €์ž๋“ค์€ ํฅ๋ฏธ๋กœ์šด ๋ถ„์„(ablation) ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. Action decoder์— ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๋Œ€์‹  ์‹ค์ œ ๋ฏธ๋ž˜ ๋น„๋””์˜ค(ground truth)๋ฅผ ์กฐ๊ฑด์œผ๋กœ ์ฃผ๋ฉด ์–ด๋–ป๊ฒŒ ๋ ๊นŒ์š”?

๊ฒฐ๊ณผ๋Š” ๋†€๋ผ์› ์Šต๋‹ˆ๋‹ค: ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๊ฒƒ์ด ์˜๋ฏธํ•˜๋Š” ๋ฐ”๋Š” ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค:

โ€œ์™„๋ฒฝํ•œ ๋น„๋””์˜ค ์˜ˆ์ธก = ์™„๋ฒฝํ•œ ๋กœ๋ด‡ ์ œ์–ดโ€

๋‹ค์‹œ ๋งํ•ด, ๋กœ๋ด‡ ์ œ์–ด ๋ฌธ์ œ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ์‹œ๊ฐ์  ์˜ˆ์ธก ๋ฌธ์ œ๋กœ ํ™˜์›๋ฉ๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ํ’ˆ์งˆ์ด ํ–ฅ์ƒ๋˜๋ฉด ๋กœ๋ด‡ ์ •์ฑ…์˜ ์„ฑ๋Šฅ๋„ ๋น„๋ก€ํ•˜์—ฌ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ถ„์•ผ์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „(Sora, Cosmos ๋“ฑ)์ด ๋กœ๋ด‡๊ณตํ•™์—๋„ ์ง์ ‘์ ์ธ ํ˜œํƒ์„ ์ค„ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜

์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์€ ์–‘ํŒ” ์„ค์ •์—์„œ ๋‘ ๊ฐ€์ง€ ์ž‘์—…์œผ๋กœ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. Package Sorting: ํŒจํ‚ค์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž‘์—…
  2. Tape Stowing: ์ค„์ž๋ฅผ ์ƒ์ž์— ๋„ฃ๋Š” ์ž‘์—…

mimic-video๋Š” ๋‹จ์ผ ์ž‘์—… Diffusion Policy(DP) ๋ฒ ์ด์Šค๋ผ์ธ์„ ์ƒ๋‹นํ•œ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 16-DoF ์†์˜ ๋ณต์žกํ•œ ์†์žฌ์ฃผ(dexterous) ์กฐ์ž‘์—์„œ ๋น„๋””์˜ค ๋ฐฑ๋ณธ์˜ ๋ฌผ๋ฆฌ ์—ญํ•™ ํ”„๋ผ์ด์–ด๊ฐ€ ํฐ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋น„์œจ mimic-video VLA Baseline
2% 77% 15%
10% 85% 35%
25% 89% 55%
50% 92% 72%
100% 95% 85%

๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

1. ๋ช…ํ™•ํ•œ ๋ฌธ์ œ ๋ถ„๋ฆฌ

๊ณ ์ˆ˜์ค€ ๊ณ„ํš๊ณผ ์ €์ˆ˜์ค€ ์ œ์–ด๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ์ ‘๊ทผ์€ ์ด๋ก ์ ์œผ๋กœ ๊น”๋”ํ•˜๊ณ  ์‹ค์šฉ์ ์œผ๋กœ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋“ˆ์ด ์ž์‹ ์˜ ์—ญํ• ์—๋งŒ ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ๋น„๋””์˜ค ์ƒ์„ฑ ๋ฐœ์ „์˜ ์ง์ ‘ ํ™œ์šฉ

Sora, Cosmos, Wan2.1 ๋“ฑ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. mimic-video๋Š” ์ด๋Ÿฌํ•œ ๋ฐœ์ „์„ ๋กœ๋ด‡๊ณตํ•™์— ์ง์ ‘ ์ „์ดํ•  ์ˆ˜ ์žˆ๋Š” ํ†ต๋กœ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

3. ๊ทน๋‹จ์  ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ

์ž‘์—…๋‹น ๋‹จ ํ•˜๋‚˜์˜ ๋ฐ๋ชจ๋กœ๋„ ํ•ฉ๋ฆฌ์ ์ธ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์€ ์‹ค์ œ ๋กœ๋ด‡ ๋ฐฐํฌ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ๋น„์‹ธ๊ณ  ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

4. ๋ช…ํ™•ํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™

โ€œ๋น„๋””์˜ค ํ’ˆ์งˆ โˆ ์ œ์–ด ์„ฑ๋Šฅโ€์ด๋ผ๋Š” ๊ด€๊ณ„๋Š” ๋ฏธ๋ž˜ ๊ฐœ์„ ์˜ ๋ฐฉํ–ฅ์„ ๋ช…ํ™•ํ•˜๊ฒŒ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์•ฝ์ ๊ณผ ํ•œ๊ณ„

1. ์ถ”๋ก  ์ง€์—ฐ(Inference Latency)

Flow matching ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ๋ชจ๋ธ์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋ฐ˜๋ณต์  ์ถ”๋ก ์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ฐฑ๋ณธ๊ณผ action decoder ๋ชจ๋‘ ์—ฌ๋Ÿฌ ์Šคํ…์˜ ๋””๋…ธ์ด์ง•์ด ํ•„์š”ํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ์ œ์–ด์— ๋„์ „์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ ๊ตฌ์ฒด์ ์ธ ์ถ”๋ก  ์‹œ๊ฐ„์€ ๋ณด๊ณ ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

2. ๋น„๋””์˜ค ๋ชจ๋ธ ์˜์กด์„ฑ

์„ฑ๋Šฅ์ด ๋น„๋””์˜ค ๋ฐฑ๋ณธ์˜ ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์˜์กดํ•ฉ๋‹ˆ๋‹ค. Cosmos-Predict2๋Š” ๊ฐ•๋ ฅํ•˜์ง€๋งŒ, ๋กœ๋ด‡ ์กฐ์ž‘ ๋„๋ฉ”์ธ์— ํŠนํ™”๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋„๋ฉ”์ธ ์™ธ(out-of-domain) ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ์„ฑ๋Šฅ ์ €ํ•˜ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์–‘ํŒ” ์„ค์ •์˜ ์ผ๋ฐ˜ํ™”

์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์ด ํŠน์ • ์„ค์ •(Franka + mimic hands)์— ๊ตญํ•œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ๊ณผ ์ž‘์—…์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๋Š” ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

4. ๊ธด ์ง€ํ‰์„  ์ž‘์—…์˜ ๊ฒ€์ฆ ๋ถ€์žฌ

๋Œ€๋ถ€๋ถ„์˜ ์‹คํ—˜์ด ๋น„๊ต์  ์งง์€ ์ง€ํ‰์„ ์˜ ์กฐ์ž‘ ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ˆ˜๋ถ„์—์„œ ์ˆ˜์‹œ๊ฐ„์— ๊ฑธ์นœ ๊ธด ์ง€ํ‰์„  ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์€ ์•Œ๋ ค์ง€์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

5. ์–ธ์–ด ์กฐ๊ฑดํ™”์˜ ํ•œ๊ณ„

ํ˜„์žฌ ๊ตฌ์กฐ์—์„œ ์–ธ์–ด ์ง€์‹œ๋ฌธ์€ ๋น„๋””์˜ค ๋ฐฑ๋ณธ์„ ํ†ตํ•ด ๊ฐ„์ ‘์ ์œผ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ๋ชจํ˜ธํ•œ ์ง€์‹œ๋ฌธ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์€ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.


๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

VLA (Vision-Language-Action) ๊ณ„์—ด

๋ชจ๋ธ ๋ฐฑ๋ณธ ํ–‰๋™ ์ถœ๋ ฅ ๋ฌผ๋ฆฌ ์—ญํ•™ ํ•™์Šต
RT-2 PaLM-E (VLM) ํ† ํฐ ๋ถ„๋ฅ˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ๋งŒ
OpenVLA Llama 7B ์—ฐ์†๊ฐ’ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ๋งŒ
ฯ€โ‚€ PaliGemma Flow Matching ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ๋งŒ
mimic-video Cosmos (Video) Flow Matching ๋น„๋””์˜ค์—์„œ ์ „์ด

ํ•ต์‹ฌ ์ฐจ๋ณ„์ ์€ ๋ฌผ๋ฆฌ ์—ญํ•™์„ ์–ด๋””์„œ ํ•™์Šตํ•˜๋Š”๊ฐ€์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด VLA๋“ค์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ œํ•œ๋œ ๋กœ๋ด‡ ๊ถค์  ๋ฐ์ดํ„ฐ์—์„œ ๋ฌผ๋ฆฌ๋ฅผ ์ถ”๋ก ํ•ด์•ผ ํ•˜์ง€๋งŒ, mimic-video๋Š” ์ธํ„ฐ๋„ท ์Šค์ผ€์ผ ๋น„๋””์˜ค์˜ ํ’๋ถ€ํ•œ ์—ญํ•™ ํ”„๋ผ์ด์–ด๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

World Model ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•

UniPi, VPP, GR-1 ๋“ฑ์˜ ๋ฐฉ๋ฒ•๋“ค๋„ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ๋กœ๋ด‡ ์ œ์–ด์— ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. mimic-video์™€์˜ ์ฃผ์š” ์ฐจ์ด์ :

  • UniPi: ์ „์ฒด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•œ ํ›„ IDM์œผ๋กœ ํ–‰๋™ ์ถ”์ถœ. ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’์Œ.
  • VPP: ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ ํŠน์ง•์„ ํ™œ์šฉํ•˜์ง€๋งŒ, ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง• ๊ฐœ๋… ์—†์Œ.
  • GR-1: ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์œผ๋กœ ๋น„๋””์˜ค์™€ ํ–‰๋™์„ ๋™์‹œ ์ƒ์„ฑ.

mimic-video์˜ ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง• ์ „๋žต์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ์ข‹์€ ๊ท ํ˜•์ ์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

GR00T N1๊ณผ์˜ ๋น„๊ต

NVIDIA์˜ GR00T N1๋„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์™€ IDM์„ ํ™œ์šฉํ•˜์ง€๋งŒ, ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค:

  • GR00T N1: ์ž ์žฌ ํ–‰๋™ ์ฝ”๋“œ๋ถ์„ ํ•™์Šตํ•˜๊ณ , IDM์œผ๋กœ ์˜์‚ฌ ํ–‰๋™(pseudo-action) ์ƒ์„ฑ
  • mimic-video: ๋น„๋””์˜ค ์ž ์žฌ ํ‘œํ˜„์„ ์ง์ ‘ ํ–‰๋™ ์กฐ๊ฑด์œผ๋กœ ์‚ฌ์šฉ

mimic-video์˜ ์ ‘๊ทผ์ด ๋” ์ง์ ‘์ ์ด๊ณ  ๊ฐœ๋…์ ์œผ๋กœ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค.


์—ฐ๊ตฌ ํ™•์žฅ ๋ฐฉํ–ฅ

1. ์ถ”๋ก  ๊ฐ€์†ํ™”

Consistency Flow Matching์ด๋‚˜ Shortcut Models ๊ฐ™์€ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ๋‹จ์ผ ์Šคํ… ์ถ”๋ก ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. FlowPolicy ๋…ผ๋ฌธ์—์„œ ์ด๋ฏธ ์ด ๋ฐฉํ–ฅ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

2. ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ†ตํ•ฉ

์ด‰๊ฐ(tactile), ํž˜/ํ† ํฌ ์„ผ์„œ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ(contact-rich) ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ๊ณ„์ธต์  ๊ณ„ํš

ํ˜„์žฌ๋Š” ์งง์€ ํ–‰๋™ ์ฒญํฌ๋ฅผ ์ƒ์„ฑํ•˜์ง€๋งŒ, ๋” ๊ธด ์ง€ํ‰์„ ์˜ ๊ณ„ํš์„ ์œ„ํ•ด ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณ ์ˆ˜์ค€ ๋น„๋””์˜ค ๊ณ„ํš โ†’ ์ค‘์ˆ˜์ค€ ์›จ์ดํฌ์ธํŠธ โ†’ ์ €์ˆ˜์ค€ ํ–‰๋™์˜ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

4. ์˜จ๋ผ์ธ ์ ์‘

ํ˜„์žฌ๋Š” ์˜คํ”„๋ผ์ธ ํ•™์Šต๋งŒ ๋‹ค๋ฃจ์ง€๋งŒ, ReinFlow ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•ด ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

5. Sim-to-Real ์ „์ด

๋น„๋””์˜ค ๋ฐฑ๋ณธ์ด ์‹ค์ œ ๋น„๋””์˜ค๋กœ ํ•™์Šต๋˜์—ˆ์œผ๋ฏ€๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด๊ฐ€ ๋” ์ž์—ฐ์Šค๋Ÿฌ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

flowchart TB
    ROOT((mimic-video ํ™•์žฅ))

    subgraph A["์ถ”๋ก  ๊ฐ€์†ํ™”"]
        A1[Consistency Flow]
        A2[Shortcut Models]
        A3[์ง€์‹ ์ฆ๋ฅ˜]
    end

    subgraph B["๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ"]
        B1[์ด‰๊ฐ ์„ผ์„œ]
        B2[ํž˜/ํ† ํฌ]
        B3[๊นŠ์ด ์ •๋ณด]
    end

    subgraph C["๊ณ„์ธต์  ๊ณ„ํš"]
        C1[๊ณ ์ˆ˜์ค€ ๋น„๋””์˜ค ๊ณ„ํš]
        C2[์ค‘์ˆ˜์ค€ ์›จ์ดํฌ์ธํŠธ]
        C3[์ €์ˆ˜์ค€ ํ–‰๋™]
    end

    subgraph D["์ ์‘ํ˜• ํ•™์Šต"]
        D1[์˜จ๋ผ์ธ RL]
        D2[๋ฉ”ํƒ€ ํ•™์Šต]
        D3[์ง€์† ํ•™์Šต]
    end

    subgraph E["Sim-to-Real"]
        E1[๋„๋ฉ”์ธ ์ ์‘]
        E2[๋žœ๋คํ™”]
    end

    ROOT --> A
    ROOT --> B
    ROOT --> C
    ROOT --> D
    ROOT --> E


ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€

mimic-video๋Š” ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์ธ Video-Action Model (VAM)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋น„๋””์˜ค๋Š” ๋ฌผ๋ฆฌ์˜ ๊ต๊ณผ์„œ๋‹ค: ์ •์  ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์™€ ๋‹ฌ๋ฆฌ, ๋น„๋””์˜ค๋Š” ๋ฌผ๋ฆฌ ์„ธ๊ณ„์˜ ์‹œ๊ณต๊ฐ„ ์—ญํ•™์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค.
  2. ๋ฌธ์ œ๋ฅผ ๋ถ„๋ฆฌํ•˜๋ผ: ๊ณ ์ˆ˜์ค€ ๊ณ„ํš(๋น„๋””์˜ค ๋ชจ๋ธ)๊ณผ ์ €์ˆ˜์ค€ ์ œ์–ด(action decoder)๋ฅผ ๋ถ„๋ฆฌํ•˜๋ฉด, ๊ฐ ๋ชจ๋“ˆ์ด ์ž์‹ ์˜ ์—ญํ• ์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ถ€๋ถ„ ๋””๋…ธ์ด์ง•์˜ ํšจ์œจ์„ฑ: ์™„์ „ํ•œ ๋น„๋””์˜ค ์ƒ์„ฑ ์—†์ด ์ค‘๊ฐ„ ์ž ์žฌ ํ‘œํ˜„๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•œ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. ๋น„๋””์˜ค ํ’ˆ์งˆ = ์ œ์–ด ์„ฑ๋Šฅ: ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์ด ๋กœ๋ด‡ ์ œ์–ด์˜ ๋ฐœ์ „์œผ๋กœ ์ง์ ‘ ์ด์–ด์ง‘๋‹ˆ๋‹ค.

๋งŒ์•ฝ ๋‹น์‹ ์ด ๋กœ๋ด‡ ์กฐ์ž‘ ์—ฐ๊ตฌ์ž๋ผ๋ฉด, mimic-video๊ฐ€ ์ œ์‹œํ•˜๋Š” ๋ฐฉํ–ฅ์€ ๊ณ ๋ คํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์ด ์ค‘์š”ํ•˜๋‹ค๋ฉด: mimic-video์˜ 10๋ฐฐ ํ–ฅ์ƒ๋œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์€ ์‹ค์ œ ๋กœ๋ด‡ ๋ฐฐํฌ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณต์žกํ•œ ๋ฌผ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋ฉด: ์ถฉ๋Œ, ๋ฏธ๋„๋Ÿฌ์ง, ๋ณ€ํ˜• ๊ฐ™์€ ๋ณต์žกํ•œ ์—ญํ•™์ด ๊ด€๋ จ๋œ ์ž‘์—…์—์„œ ๋น„๋””์˜ค ํ”„๋ผ์ด์–ด๊ฐ€ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  • ๋น ๋ฅธ ์ ์‘์ด ํ•„์š”ํ•˜๋‹ค๋ฉด: ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋ช‡ ๊ฐœ์˜ ๋ฐ๋ชจ๋งŒ์œผ๋กœ ์ ์‘ํ•ด์•ผ ํ•˜๋Š” ์ƒํ™ฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์ถ”๋ก  ์†๋„๋‚˜ ํŠน์ • ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™” ๊ฐ™์€ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„์žˆ์ง€๋งŒ, ๋น„๋””์˜ค ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๊ธ‰์†ํ•œ ๋ฐœ์ „์„ ๊ณ ๋ คํ•  ๋•Œ, VAM ํŒจ๋Ÿฌ๋‹ค์ž„์€ ๋กœ๋ด‡ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์œ ๋งํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๋ฆฌ์ฒ˜๋“œ ํŒŒ์ธ๋งŒ์ด ๋งํ–ˆ๋“ฏ์ด:

โ€œ์ž์—ฐ์€ ๋ฏธ์ ๋ถ„ํ•™ ์ฑ…์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค. ๊ทธ๋ƒฅ ๊ทธ๋ ‡๊ฒŒ ๋  ๋ฟ์ด๋‹ค.โ€

๋น„๋””์˜ค๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์•ˆ์—๋Š” ๋ฌผ๋ฆฌ ๋ฒ•์น™์˜ ๋ช…์‹œ์  ์ˆ˜์‹ ์—†์ด๋„, ์„ธ์ƒ์ด โ€œ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€โ€๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋‹ด๊ฒจ ์žˆ์Šต๋‹ˆ๋‹ค. mimic-video๋Š” ์ด ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ๋กœ๋ด‡ ์ œ์–ด์— ํ™œ์šฉํ•˜๋Š” ์šฐ์•„ํ•œ ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ฐธ๊ณ  ๋ฌธํ—Œ

  • Pai, J., Achenbach, L., Montesinos, V., Forrai, B., Mees, O., & Nava, E. (2025). mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs. arXiv:2512.15692
  • Kim, M. J., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv
  • Black, K., et al. (2024). ฯ€โ‚€: A vision-language-action flow model for general robot control. arXiv
  • Chi, C., et al. (2023). Diffusion Policy: Visuomotor policy learning via action diffusion. RSS
  • Liu, B., et al. (2023). LIBERO: Benchmarking knowledge transfer for lifelong robot learning. NeurIPS
  • Lipman, Y., et al. (2022). Flow matching for generative modeling. ICLR

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ

๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ์ตœ๊ทผ์˜ Vision-Language-Action (VLA) ๋ชจ๋ธ๋“ค์€ ๋Œ€๊ทœ๋ชจ์˜ ์ด๋ฏธ์ง€ยท์–ธ์–ด ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ์‹œ๊ฐ-์–ธ์–ด ๋ฐฑ๋ณธ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ชจ๋ธ๋“ค์€ ์ธํ„ฐ๋„ท ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์—์„œ ์–ป์€ ํ’๋ถ€ํ•œ ์˜๋ฏธ ์ •๋ณด๋ฅผ ๋กœ๋ด‡์— ์ „๋‹ฌํ•˜์—ฌ, ์ž์—ฐ์–ด ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋‚˜ ์ž‘์—…์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถฅ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ๋ณธ ํ•œ๊ณ„๋„ ๋ถ„๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋Œ€๋ถ€๋ถ„ ์ •์ ์ธ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ์˜€๊ธฐ ๋•Œ๋ฌธ์—, ๋กœ๋ด‡์ด ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ฌผ์ฒด ์›€์ง์ž„์ด๋‚˜ ์ƒํ˜ธ์ž‘์šฉ์˜ ๋ฌผ๋ฆฌ์  ์ธ๊ณผ์„ฑ์„ ๋ณธ์งˆ์ ์œผ๋กœ ๋ฐฐ์šฐ๊ธฐ๋Š” ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋‹ฌ๋ฆฌ ๋งํ•ด, ์ด๋ฏธ์ง€-์–ธ์–ด ๋ฐฑ๋ณธ์€ ๋งˆ์น˜ ์ •์ง€๋œ ์‚ฌ์ง„์ฒฉ๊ณผ ๊ฐ™์•„, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ๋ณ€ํ™”๋‚˜ ํž˜์˜ ํ๋ฆ„์„ ๋‹ด์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋กœ๋ด‡์€ ๊ทธ๋Ÿฐ ๋ถ€์กฑํ•œ ์ง€์‹์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด, ๋ชจ๋“  ๋ฌผ๋ฆฌ ๋ฒ•์น™๊ณผ ์—ญํ•™์„ ๊ฐ’๋น„์‹ผ ์ „๋ฌธ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ(๋ฐ๋ชจ)๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์˜์กด์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํญ๋ฐœ์ ์ธ ์ฆ๊ฐ€๋ผ๋Š” ๋ณ‘๋ชฉ์„ ๋งŒ๋“ค๊ณ , ๊ธด ์ˆ˜๋ ด ์‹œ๊ฐ„๊ณผ ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์•„์ด๋””์–ด๋Š” ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€๋ฅผ ๋„˜์–ด ๋น„๋””์˜ค(video)๋ฅผ ํ™œ์šฉํ•ด๋ณด์ž๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค๋Š” ์—ฐ์†๋œ ํ”„๋ ˆ์ž„์œผ๋กœ ์‚ฌ๋ฌผ์˜ ์›€์ง์ž„๊ณผ ์ƒํ˜ธ์ž‘์šฉ์„ ๋‹ด์•„๋‚ด๋ฏ€๋กœ, ์˜๋ฏธ(semantics)์™€ ๋™์—ญํ•™(physics)์„ ๋™์‹œ์— ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ธํ„ฐ๋„ท ๋น„๋””์˜ค ๋ชจ๋ธ์„ ์ด์šฉํ•˜๋ฉด โ€œ์‚ฌ๋ฌผ์ด ์–ด๋–ป๊ฒŒ ์›€์ง์ด๋Š”๊ฐ€โ€๋ผ๋Š” ํ’๋ถ€ํ•œ ๋ฌผ๋ฆฌ ์ง€์‹์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ์ง€์‹์„ ๋กœ๋ด‡์—๊ฒŒ ์ „๋‹ฌํ•˜๋ฉด, ๋กœ๋ด‡ ์ œ์–ด๊ธฐ๋Š” ๋ณต์žกํ•œ ๋™์—ญํ•™์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•  ํ•„์š” ์—†์ด ๋น„๋””์˜ค์˜ ์ž ์žฌ ํ‘œํ˜„๋งŒ ๋ฐ›์•„์„œ ์—ญ๋™์ ์ธ ํ–‰๋™์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์ด ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ mimic-video์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐœ์ƒ: ์ธํ„ฐ๋„ท ๊ทœ๋ชจ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ๋กœ๋ด‡ ์ œ์–ด์— ํ™œ์šฉํ•˜์—ฌ, ์–ธ์–ด-์‹œ๊ฐ ๋ฐฑ๋ณธ(VLA)๋งŒ์œผ๋กœ๋Š” ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฌผ๋ฆฌ์  ์—ญํ•™์„ ๋ฏธ๋ฆฌ ์ตํžŒ ํ›„, ๋‚จ์€ ์ผ์€ ๋‹จ์ˆœํ•œ ์—ญ์šด๋™ํ•™(Inverse Dynamics) ๋ฌธ์ œ๋กœ ์น˜ํ™˜ํ•œ๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ•ด๋ณด๋ฉด, Dreamer, LAPA ๋“ฑ ์ผ๋ถ€ ์—ฐ๊ตฌ๊ฐ€ ๋น„๋””์˜ค ์˜ˆ์ธก์ด๋‚˜ ํ”ฝ์…€ ์ถ”์ (pixel tracking)์„ ํ†ตํ•ด ์ œ์–ด์— ํ™œ์šฉํ•˜๋ ค๊ณ  ํ•œ ๋ฐ” ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์†๋„๊ฐ€ ๋А๋ฆฌ๊ฑฐ๋‚˜ ์žก์Œ์— ์ทจ์•ฝํ•ฉ๋‹ˆ๋‹ค. mimic-video๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์„ ์ง์ ‘ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์ธ ์ œ์–ด๋ฅผ ์ถ”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด์–ด์„œ ์ œ์•ˆ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์™€ ๋™์ž‘ ์›๋ฆฌ๋ฅผ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•: Video-Action ๋ชจ๋ธ ์ƒ์„ธ ๋ถ„์„

mimic-video๋Š” ํฌ๊ฒŒ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ(Video Diffusion Model): ๋Œ€๊ทœ๋ชจ ์ธํ„ฐ๋„ท ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ํ™•์‚ฐ๊ธฐ(diffusion) ๋ชจ๋ธ(์˜ˆ: Nvidia Cosmos-Predict2)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  2. ํ–‰๋™ ๋””์ฝ”๋”(Action Decoder): ํ•ด๋‹น ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์ž ์žฌ ํ‘œํ˜„์„ ๋ฐ›์•„ ๋กœ๋ด‡์˜ ์‹ค์ œ ์ €์ˆ˜์ค€ ๊ด€์ ˆ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

์ด ๋‘ ํŒŒํŠธ๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

flowchart LR
    subgraph video["Video Prediction"]
        A[๊ด€์ธก ์ด๋ฏธ์ง€ + ์–ธ์–ด ๋ช…๋ น์–ด] --> B[๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ]
        B -- ์ผ๋ถ€ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ --> C[๋น„๋””์˜ค ์ž ์žฌ ํ‘œํ˜„]
    end
    subgraph decoder["Inverse Dynamics Decoder"]
        C --> D[ํ–‰๋™ ๋””์ฝ”๋”]
        D --> E[๋กœ๋ด‡ ๊ด€์ ˆ ๋ช…๋ น]
        E --> Robot[๋กœ๋ด‡ ๊ตฌ๋™]
    end

  • ์ดˆ๊ธฐ ์ž…๋ ฅ: ์นด๋ฉ”๋ผ ๊ด€์ธก(Workspace View)๊ณผ ์–ธ์–ด ์ง€์‹œ์–ด๋ฅผ ํ•ฉ์ณ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์— ๋„ฃ์Šต๋‹ˆ๋‹ค.
  • ๋น„๋””์˜ค ์ƒ์„ฑ: ๋ฐฑ๋ณธ(backbone)์ธ ์˜์ƒ ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ˆœ์ฐจ์ ์ธ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์„ ๊ฑฐ์ณ, ๋ฏธ๋ž˜ ์žฅ๋ฉด์˜ ์ž ์žฌ์  ์˜์ƒ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์™„์ „ ๋ณต์›ํ•˜๋Š” ๋Œ€์‹  ์ค‘๊ฐ„ ๋ ˆ๋ฒจ(๋…ธ์ด์ฆˆ ๋ ˆ๋ฒจ ฯ„_v)๊นŒ์ง€๋งŒ ๋””๋…ธ์ด์ฆˆํ•˜์—ฌ ์ค‘๊ฐ„ ์ž ์žฌ ํ‘œํ˜„์„ ์–ป์Šต๋‹ˆ๋‹ค.
  • ์ž ์žฌ ํ‘œํ˜„ ์ถ”์ถœ: ์ด ์ค‘๊ฐ„ ์ž ์žฌ(latent)๋Š” โ€œํ–ฅํ›„ ์žฅ๋ฉด์˜ ์š”์•ฝโ€์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์•ž์œผ๋กœ ํ•ด์•ผ ํ•  ์ž‘์—…์„ ์‹œ๊ฐํ™”ํ•œ ๋ฏธ๋‹ˆ๋ฉ€ํ•œ ๋น„๋””์˜ค ํ”Œ๋žœ์ž…๋‹ˆ๋‹ค.
  • ํ–‰๋™ ๋””์ฝ”๋”: ๋น„๋””์˜ค ์ž ์žฌ ํ‘œํ˜„๊ณผ ํ˜„์žฌ ๋กœ๋ด‡์˜ ํ”„๋กœํ”„๋ฆฌ์–ด์Šคํ…(๊ณ ์œ  ์ƒํƒœ ์ •๋ณด)์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ์‹ค์ œ ๋กœ๋ด‡ ๊ด€์ ˆ ๋ช…๋ น(action trajectory)์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด ๋””์ฝ”๋”๋„ ํ๋ฆ„ ์ผ์น˜(flow matching) ๊ธฐ๋ฐ˜์˜ ์ƒ์„ฑ ๋ชจ๋ธ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ๋ชฉ์ ์€ ์ž ์žฌ ๋น„๋””์˜ค์— ๋‹ด๊ธด ๋™์ž‘์„ ์‹ค์ œ ๊ด€์ ˆ ์šด๋™์œผ๋กœ ์—ญ๋ณ€ํ™˜(Inverse Dynamics)ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด ๊ตฌ์กฐ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ณ„ํš(planning)๊ณผ ์ œ์–ด(control)์˜ ๋ถ„๋ฆฌ์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ชจ๋ธ์—๊ฒŒ๋Š” โ€œ์–ด๋–ป๊ฒŒ ์›€์ง์—ฌ์•ผ ํ• ์ง€โ€๋ฅผ, ํ–‰๋™ ๋””์ฝ”๋”์—๊ฒŒ๋Š” โ€œ๊ทธ ์›€์ง์ž„์„ ๊ด€์ ˆ ๋ช…๋ น์œผ๋กœ ๋ฐ”๊ฟ€ ์ฑ…์ž„โ€์„ ๋งก๊น๋‹ˆ๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€ ๋‘ ๋ชจ๋ธ์ด ๋…๋ฆฝ์ ์ธ ํ๋ฆ„ ์Šค์ผ€์ค„(flow schedule)๋กœ ๋™์ž‘ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ํ๋ฆ„ ์‹œ๊ฐ„ ฯ„_v์™€ ํ–‰๋™ ๋ชจ๋ธ์˜ ฯ„_a๋ฅผ ๋ณ„๋„๋กœ ์„ค์ •ํ•ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋น„๋””์˜ค ๊ณ„ํš๊ณผ ์ €์ˆ˜์ค€ ์ œ์–ด ๊ณผ์ œ๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ถ”๋Š” ์žฅ์น˜์ž…๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํšจ๊ณผ๋ฅผ ๋ˆ„๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๋™์—ญํ•™ ์ง€์‹ ์„ ์ทจ๋“: ๋น„๋””์˜ค ๋ฐฑ๋ณธ์ด ๋ฏธ๋ฆฌ ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šตํ•˜๋ฏ€๋กœ, ํ–‰๋™ ๋””์ฝ”๋”๋Š” ๋‹จ์ˆœํ•œ ์ถ”๋ก  ๋ฌธ์ œ(์—ญ๋™์—ญํ•™)๋งŒ ํ’€๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๋ณต์žกํ•œ ๋ฏธ๋ž˜ ๋ถ„ํฌ ๋ชจ๋ธ๋ง์ด ์•„๋‹ˆ๋ผ, ํ•œ ์ ์˜ ๊ด€์ ˆ๊ฐ’๋งŒ ์˜ˆ์ธกํ•˜๋ฉด ๋˜๋Š” ๋น„-์ธ๊ณผ์  ๋ฌธ์ œ(non-causal problem)์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํšจ์œจ์  ํ•™์Šต: ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์„ ํ•™์Šต ๋•๋ถ„์—, ์‹ค์ œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์—†์ด๋„ ์˜๋ฏธ์žˆ๋Š” ํ–‰๋™ ๊ณ„ํš์„ ์–ป์–ด์•ผ ํ•˜๋Š” ๋ถ€๋‹ด์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํšจ์œจ์ด ๊ธฐ์กด VLA์˜ 10๋ฐฐ ํ–ฅ์ƒ๋จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ถ„๋ฆฌ๋œ ์ตœ์ ํ™”: ๋น„๋””์˜ค ๋ชจ๋ธ๊ณผ ํ–‰๋™ ๋””์ฝ”๋”์˜ ํ•™์Šต์„ ๋ณ„๋„๋กœ ์ง„ํ–‰ํ•จ์œผ๋กœ์จ, ๋‘˜ ์‚ฌ์ด์˜ ๊ทธ๋ž˜๋””์–ธํŠธ ๊ฐ„์„ญ์„ ํ”ผํ•˜๊ณ  ์•ˆ์ •์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์šฉ์–ด ์„ค๋ช…: ํ๋ฆ„ ์ผ์น˜(flow matching)๋Š” ๋น„๋””์˜ค/ํ–‰๋™ ์ƒ์„ฑ ๋ชจ๋ธ ํ•™์Šต ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, ๋…ธ์ด์ฆˆ์—์„œ ๊นจ๋—ํ•œ ์‹ ํ˜ธ๋ฅผ ์ฐพ์•„๊ฐ€๋Š” ๊ฒฝ๋กœ๋ฅผ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ผ์ข…์˜ ํ™•์‚ฐ๋ชจ๋ธ(denoising diffusion) ๋ฐฉ์‹์œผ๋กœ, ๋กœ๋ด‡ ํ–‰๋™์„ ์ƒ์„ฑํ•  ๋•Œ๋„ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

์˜์‚ฌ์ฝ”๋“œ ์˜ˆ์‹œ

๋‹ค์Œ์€ mimic-video ์ •์ฑ…์˜ ์ž‘๋™ ์ ˆ์ฐจ๋ฅผ ๊ฐ„๋‹จํžˆ ์˜์‚ฌ์ฝ”๋“œ๋กœ ํ‘œํ˜„ํ•œ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค:

# ๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค ๋ฐ˜๋ณต
์ž…๋ ฅ: ํ˜„์žฌ ๊ด€์ธก obs, ์–ธ์–ด๋ช…๋ น instr, ํ”„๋กœํ”„๋ฆฌ์–ด์Šคํ… proprio

# 1) ๋น„๋””์˜ค ๊ณ„ํš ์ƒ์„ฑ
video_latent = VideoDiffusionModel(obs, instr, flow_time=ฯ„_v)

# 2) ํ–‰๋™ ์ƒ์„ฑ (์—ญ๋™์—ญํ•™ ๋ชจ๋ธ)
action = ActionDecoder(video_latent, proprio)

# 3) ๋กœ๋ด‡์— ๋ช…๋ น ์‹คํ–‰
execute(action)

์ด ๊ณผ์ •์—์„œ ฯ„_v๋Š” ๋น„๋””์˜ค ์ƒ์„ฑ์˜ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์ •๋„๋ฅผ ์กฐ์ •ํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ, ๊ฒฝํ—˜์ ์œผ๋กœ ์ค‘๊ฐ„ ๊ฐ’์—์„œ ์ตœ์  ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์‹คํ—˜: ์„ค์ •, ๊ฒฐ๊ณผ ๊ทธ๋ฆฌ๊ณ  ์˜๋ฏธ

๋…ผ๋ฌธ์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฒค์น˜๋งˆํฌ์™€ ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡ ๋ชจ๋‘์—์„œ mimic-video๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ์‹คํ—˜ ๊ตฌ์„ฑ๊ณผ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • SIMPLER-Bridge (์‹œ๋ฎฌ๋ ˆ์ด์…˜): Widow-X ๋กœ๋ด‡(๋‹จ์ผ ๋กœ๋ด‡ ํŒ”) ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹(BridgeDataV2)์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ์— ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. (์˜ˆ: ์˜ค๋ธŒ์ ํŠธ๋ฅผ ์ง‘์–ด ๋‹ค๋ฅธ ์œ„์น˜์— ๋†“๊ธฐ).
  • LIBERO (์‹œ๋ฎฌ๋ ˆ์ด์…˜): Panda ๋กœ๋ด‡๊ณผ ํƒ์ž๋ฅผ ํ™œ์šฉํ•œ ์ •๋ฐ€ ์กฐ์ž‘ ๋ฐ ๋‹ค์ค‘์ž‘์—… ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค. ๋ชฉํ‘œ ์ง€์ , ์˜ค๋ธŒ์ ํŠธ ์กฐ์ž‘, ๊ณต๊ฐ„ ์ •๋ ฌ ๋“ฑ ๋‹ค์–‘ํ•œ ํ•˜์œ„ ๊ณผ์ œ์—์„œ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์‹ค์„ธ๊ณ„ ์ด์กฑ ๋กœ๋ด‡ (mimic system): ๋‘ ๋Œ€์˜ Franka Panda ๋กœ๋ด‡ ํŒ”์— ๊ฐ๊ฐ 16-DoF์˜ ํœด๋จธ๋…ธ์ด๋“œํ˜• ๋‹ค๊ด€์ ˆ ์†(mimic ์†)์„ ์žฅ์ฐฉํ•œ ์‹คํ—˜ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค. ๊ณผ์ œ๋กœ๋Š” ํŒจํ‚ค์ง€ ๋ถ„๋ฅ˜(Package Sorting)์™€ ์ค„์ž ๋ณด๊ด€(Tape Stowing)์ด ์ฃผ์–ด์กŒ๋Š”๋ฐ, ์ด๋Ÿฌํ•œ ์ž‘์—…์€ ์—„์ง€์™€ ๊ฒ€์ง€ ์†๊ฐ€๋ฝ์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๋Š” ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ๋Š” ๊ฐ ์ž‘์—…๋งˆ๋‹ค 1~2์‹œ๊ฐ„ ๋ถ„๋Ÿ‰(500์—ฌ ์—ํ”ผ์†Œ๋“œ)์˜ ์ „๋ฌธ๊ฐ€ ๋™์ž‘์ด ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ

  1. SIMPLER-Bridge ์ผ๋ฐ˜ํ™”: mimic-video๋Š” ๋„ค ๊ฐ€์ง€ ํ…Œ์ŠคํŠธ ํƒœ์Šคํฌ์˜ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์—์„œ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ‘œ I์—์„œ ๊ธฐ์กด VLA ์Šคํƒ€์ผ(๋ฐฑ๋ณธ: PaliGemma 3B, ํ•™์Šต ๋ฐ์ดํ„ฐ ๋™์ผ) ๋ฐฉ์‹์€ ํ‰๊ท  35.4% ์„ฑ๊ณต๋ฅ ์ด์ง€๋งŒ, mimic-video๋Š” 46.9%๋กœ ํฌ๊ฒŒ ์•ž์„ฐ์Šต๋‹ˆ๋‹ค. (์ „์‚ฌ์‹ ๋ฐฉ๋ฒ•์œผ๋กœ ํƒœ์Šคํฌ๋ณ„ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹๊นŒ์ง€ ํ•˜๋ฉด 56.3%๋กœ ๋” ์ƒ์Šน) ์ด๋Š” ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์กฐ๊ฑดํ™”๊ฐ€ VLA ์กฐ๊ฑดํ™”๋ณด๋‹ค ๋” ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  2. LIBERO ๋‹ค์ค‘์ž‘์—… ํ•™์Šต: ์—ฌ๋Ÿฌ ์ž‘์—…์„ ๋™์‹œ์— ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” LIBERO์—์„œ๋„ mimic-video๋Š” ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‘œ II์— ๋”ฐ๋ฅด๋ฉด, ๋น„๋””์˜ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ VLA ๋ฒ ์ด์Šค๋ผ์ธ(scratch)์€ ํ‰๊ท  85.9% ์„ฑ๊ณต๋ฅ ์ธ๋ฐ ๋ฐ˜ํ•ด, mimic-video (scratch) ์€ ํ‰๊ท  93.9% ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ VLA์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ๋„ ํฐ ํ–ฅ์ƒ์ด๋ฉฐ, ๋‹ค๋ฅธ ์ตœ์‹  ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•ด๋„ ๋’ค์ง€์ง€ ์•Š๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋„ ๋น„๋””์˜ค ๋ชจ๋ธ์˜ ์„ ํ•™์Šต ํšจ๊ณผ๊ฐ€ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ ธ์Šต๋‹ˆ๋‹ค.
  3. ์‹ค์„ธ๊ณ„ ์ด์กฑ ๋กœ๋ด‡: ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒฐ๊ณผ๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์ž…๋‹ˆ๋‹ค. DiT-Block Policy ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋‹จ์ผ ํƒœ์Šคํฌ ๊ธฐ์ค€ ๋ชจ๋ธ(๋‹ค์ค‘ ์นด๋ฉ”๋ผ ๋ทฐ ์‚ฌ์šฉ)๋„ ์‹คํŒจ์œจ์ด ๋†’์•˜์ง€๋งŒ, mimic-video๋Š” ํ›จ์”ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํŒจํ‚ค์ง€ ๋ถ„๋ฅ˜ ๊ณผ์ œ์—์„œ DiT(ํŒ”๋งŒ ์นด๋ฉ”๋ผ) 11.0%, DiT(๋ฉ€ํ‹ฐ๋ทฐ) 42.6%์˜€๋˜ ๋ฐ˜๋ฉด, mimic-video๋Š” 72.0%๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ค„์ž ๋ณด๊ด€ ๊ณผ์ œ์—์„œ๋„ DiT(๋ฉ€ํ‹ฐ๋ทฐ) 74.1% ๋Œ€๋น„ mimic-video๋Š” 93.0%๋กœ ํฌ๊ฒŒ ์•ž์„œ๊ฐ”์Šต๋‹ˆ๋‹ค. ์ด ์‹คํ—˜์—์„œ๋Š” ๋‹จ์ผ ์ƒ๋ถ€ ์นด๋ฉ”๋ผ ๋ทฐ๋งŒ์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ๋„, ๋น„๋””์˜ค ๋ชจ๋ธ์ด ํ•™์Šตํ•œ ์˜ˆ์ธก ๋Šฅ๋ ฅ ๋•๋ถ„์— ํŒ”๊ณผ ์†๋์˜ ๊ฐ€๋ ค์ง(occlusion)์„ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ•œ์ •๋œ ์‹œ๊ฐ ์ •๋ณด ์†์—์„œ๋„ ๋กœ๋ด‡์ด ์ •ํ™•ํ•œ ํ–‰๋™์„ ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  4. ๋ฐ์ดํ„ฐ ํšจ์œจ ๋ฐ ์ˆ˜๋ ด ์†๋„: ์‹คํ—˜ ๊ฒฐ๊ณผ mimic-video๋Š” ๊ทน์ ์ธ ์ƒ˜ํ”Œ ํšจ์œจ ๊ฐœ์„ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋™์ž‘ ๋””์ฝ”๋” ํ•™์Šต์— ํ•„์š”ํ•œ ์ „๋ฌธ ๋ฐ๋ชจ์˜ ์–‘์ด 10๋ถ„์˜ 1์ด ๋˜์–ด๋„ VLA ์กฐ๊ฑดํ™” ๋””์ฝ”๋”์˜ ์ตœ๊ณ  ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์–‘์„ 2% ์ˆ˜์ค€๊นŒ์ง€ ์ค„์—ฌ๋„ ํ‰๊ท  ์„ฑ๊ณต๋ฅ  77%๋ฅผ ์œ ์ง€ํ•  ์ •๋„์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต์ด ํ›จ์”ฌ ๋น ๋ฅด๊ณ  ๋†’์€ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” VLA ๋ฐฑ๋ณธ์ด ๋ณ„๋„์˜ FAST ์‚ฌ์ „ํ•™์Šต(์–ธ์–ด๋ชจ๋ธ)๋„ ํ–ˆ์Œ์—๋„ mimic-video๊ฐ€ ๋” ๋‚˜์€ ํ•™์Šต ๊ณก์„ ์„ ๋ณด์ธ๋‹ค๋Š” ์ ์—์„œ, ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์กฐ๊ฑดํ™”์˜ ๊ฐ•๋ ฅํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  5. ๋น„๋””์˜ค ํ™”์งˆ๊ณผ ์ •์ฑ… ์„ฑ๋Šฅ: ํฅ๋ฏธ๋กœ์šด ๊ด€์ฐฐ๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ชจ๋ธ์ด ์™„๋ฒฝํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ• ์ˆ˜๋ก ์ข‹์„ ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์˜คํžˆ๋ ค ์ค‘๊ฐ„ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€(ํ๋ฆ„ ํŒŒ๋ผ๋ฏธํ„ฐ ฯ„_v์ด ๋†’์„ ๋•Œ)์—์„œ ์ตœ์  ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ๊ณ ํ•ด์ƒ๋„ ๋น„๋””์˜ค ๋ณต์›์ด ๋„ˆ๋ฌด ๋””๋…ธ์ด์ฆˆ๋˜์–ด ํ›ˆ๋ จ ๋ถ„ํฌ๋ฅผ ๋ฒ—์–ด๋‚˜๋ฉด ์˜คํžˆ๋ ค ํ–‰๋™ ์˜ˆ์ธก์ด ํํŠธ๋Ÿฌ์ง€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ โ€œ์™„๋ฒฝํ•œโ€ ์‹ค์ œ ๋น„๋””์˜ค(ground-truth latent)๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๊ฑฐ์˜ 100% ์„ฑ๊ณต๋ฅ ์ด ๋‚˜์˜ค๋Š”๋ฐ, ์˜ˆ์ธก ๋น„๋””์˜ค์˜ ํ•œ๊ณ„๊ฐ€ ์ •์ฑ… ์„ฑ๋Šฅ์˜ ๋ณ‘๋ชฉ์ž„์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ์ฆ‰, ๋น„๋””์˜ค ์˜ˆ์ธก์˜ ์งˆ์ด ๊ณง ์„ฑ๋Šฅ์ด๋ผ๋Š” ์ง๊ด€์  ๊ฒฐ๋ก ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ํ•œ๊ณ„

๊ฐ•์ :

  • ๋ฌผ๋ฆฌ์  ์„ ์ง€์‹์„ ํ™œ์šฉํ•œ ์ ‘๊ทผ: ๋น„๋””์˜ค ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๋ฌผ๋ฆฌ์  ์š”์ธ์„ ํ•™์Šตํ•จ์œผ๋กœ์จ, VLA ๋Œ€๋น„ ๋ฐ์ดํ„ฐ ํšจ์œจ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋“ˆํ™” ๊ตฌ์กฐ: ๊ณ„ํš(์˜์ƒ ์˜ˆ์ธก)๊ณผ ์ œ์–ด(ํ–‰๋™ ๋””์ฝ”๋”)๋ฅผ ๋ถ„๋ฆฌํ•ด ํ•™์Šต ์•ˆ์ •์„ฑ๊ณผ ์œ ์—ฐ์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์—์„œ ํ๋ฆ„ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ์ ˆํ•ด ์ž‘์—…๋งˆ๋‹ค ์ •์ฑ…์„ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์‹ค์„ธ๊ณ„ ๊ฒ€์ฆ: ๋‹จ์ˆœํ•œ ์‹คํ—˜์‹ค ์กฐ๊ฑด์ด ์•„๋‹ˆ๋ผ ๋ณต์žกํ•œ ์ด์กฑ ๋‹ค๊ด€์ ˆ ์† ํ™˜๊ฒฝ์—์„œ ์‹คํ—˜ํ•˜์—ฌ ํ˜„์‹ค ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค.

ํ•œ๊ณ„:

  • ์˜์ƒ ์ƒ์„ฑ์˜ ํ•œ๊ณ„: ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ์˜ˆ์ธก ๋น„๋””์˜ค์˜ ํ’ˆ์งˆ์ด ์™„๋ฒฝํ•˜์ง€ ์•Š์œผ๋ฉด ํ–‰๋™์ด ์™œ๊ณก๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•„์ง ์™„๋ฒฝํ•œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋Œ€์ฒดํ•˜๊ธฐ์—” ์˜ˆ์ธก ์˜ค์ฐจ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณ„์‚ฐ ๋น„์šฉ: ๊ฑฐ๋Œ€ํ•œ ๋น„๋””์˜ค ๋ชจ๋ธ(์˜ˆ: Cosmos-Predict2)์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์‹ค์‹œ๊ฐ„ ์ ์šฉ์—๋Š” ๋น„์šฉ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ผ๋ถ€ ์กฐ์น˜์—์„œ๋Š” ์ถ”๋ก  ์‹œ์— ์ถ”๊ฐ€ ์—ฐ์‚ฐ์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ•™์Šต ๋ณต์žก์„ฑ: ๋น„๋””์˜ค ๋ชจ๋ธ๊ณผ ํ–‰๋™ ๋””์ฝ”๋”๋ฅผ ๋ณ„๊ฐœ๋กœ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ, VLA ๊ฐ™์€ ๋‹จ์ˆœ fine-tuning์— ๋น„ํ•ด ๋ณต์žกํ•œ ํ•™์Šต ์ ˆ์ฐจ๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„๋ฆฌ์™€ ๋‘ ๋ชจ๋ธ์˜ ํŠœ๋‹์ด ํ•„์š”ํ•œ ๊ฒƒ์ด์ฃ .

์‘์šฉ ๋ฐ ํ™•์žฅ: ์‹ค์ „ ๋กœ๋ด‡ ์ ์šฉ๊ณผ ํ›„์† ์—ฐ๊ตฌ

mimic-video์˜ ์•„์ด๋””์–ด๋Š” ํŠน์ • ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ๊ตญํ•œ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ ํ”„๋ž‘์นด ํŒ”๊ณผ 16-DoF ๋‹ค๊ด€์ ˆ ์†์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ณต์žกํ•œ ๋‹ค์ค‘ ์†๊ฐ€๋ฝ ์กฐ์ž‘์„ ํ•„์š”๋กœ ํ•˜๋Š” ๊ณ ์ฐจ์› ์ž‘์—…๊นŒ์ง€ ์ปค๋ฒ„ํ•œ๋‹ค๋Š” ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Allegro ํ•ธ๋“œ(12~16 DOF)๋‚˜ Shadow ํ•ธ๋“œ(์„€๋„์šฐ ํ•ธ๋“œ)์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ์† ๊ตฌ์กฐ์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ง€ ํ–‰๋™ ๋””์ฝ”๋”์˜ ์ถœ๋ ฅ ์ฐจ์›์ด ๋‹ฌ๋ผ์งˆ ๋ฟ, ๋น„๋””์˜ค ๋ฐฑ๋ณธ์˜ ์ž‘๋™ ์›๋ฆฌ๋Š” ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์—ฌ๋Ÿฌ ์†๊ฐ€๋ฝ์„ ๋™์‹œ ์ œ์–ดํ•˜๋ฏ€๋กœ, ๋” ๋งŽ์€ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋‚˜ ํฐ ๋””์ฝ”๋” ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ์นด๋ฉ”๋ผ ๋ฐฐ์น˜๋‚˜ ๊ด€์ ˆ์„ผ์„œ ์ข…๋ฅ˜๊ฐ€ ๋‹ฌ๋ผ๋„ ๋น„๋””์˜ค ๋ชจ๋ธ์€ ๊ด€์ ˆ ์ด์™ธ์˜ ์‹œ๊ฐ ์ •๋ณด(์˜ˆ: ์นด๋ฉ”๋ผ ์˜์ƒ)๋งŒ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ์—ฌ์ „ํžˆ ์œ ์—ฐํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€๋ น ์†๋ชฉ ์นด๋ฉ”๋ผ, ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ทฐ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ํ–‰๋™ ๋””์ฝ”๋”๋Š” ํ•ด๋‹น ๋กœ๋ด‡์˜ ๊ด€์ ˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›์•„ ํ•™์Šตํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ ๋น„๋””์˜ค ์ž ์žฌ ํ‘œํ˜„์ด ํ”Œ๋žซํผ์— ๋ฌด๊ด€ํ•œ ๋ฌผ๋ฆฌ์  ๊ณ„ํ†ต๋„๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์‚ฐ์—…์šฉ ๋กœ๋ด‡ ํŒ”, ์„œ๋น„์Šค ๋กœ๋ด‡ ํ•ธ๋“œ, ๋“œ๋ก  ์กฐ์ž‘ ๋“ฑ ์—ฌ๋Ÿฌ ์‘์šฉ ์˜์—ญ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•  ์ „๋ง์ž…๋‹ˆ๋‹ค.

๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ๋Š”, ์™„์ „ํ•œ ๋น„๋””์˜ค ์˜ˆ์ธก ๋Œ€์‹  ๋ถ€๋ถ„์  ์‹œ๊ฐ-๋ฌธ๋งฅ ์˜ˆ์ธก๊ณผ ํ–‰๋™ ํ•™์Šต์„ ํ†ตํ•ฉํ•˜๋Š” ๊ธฐ๋ฒ•, ์˜ˆ๋ฅผ ๋“ค์–ด V-JEPA 2๋‚˜ UWM์ฒ˜๋Ÿผ ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ ํ•œ๊ฐ€์ง€ ๊ณผ์ œ๋Š” ๊ณ ํ•ด์ƒ๋„ ์˜ˆ์ธก์˜ ๋น„์šฉ์„ ์ค„์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์ธก ์˜ค์ฐจ๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๊ฐ์ง€๋œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ˜์˜ํ•˜๋Š” ์˜จ๋ผ์ธ ํ•™์Šต ๋˜๋Š” ์ ์‘ ์ œ์–ด(adaptive control) ๊ธฐ๋ฒ•๋„ ๊ฒ€ํ† ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

์ด ๋…ผ๋ฌธ์€ mimic-video๋ผ๋Š” ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์˜ Video-Action ๋ชจ๋ธ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ์ธํ„ฐ๋„ท ๋Œ€์šฉ๋Ÿ‰ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด, ๋กœ๋ด‡ ์ œ์–ด์— ํ•„์š”ํ•œ ๋ฌผ๋ฆฌ์  ์ง€์‹์„ ์‚ฌ์ „ํ•™์Šตํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์˜ ์กฐ์ž‘ ์ •์ฑ… ํ•™์Šต ๋ถ€๋‹ด์„ ํฌ๊ฒŒ ์ค„์ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ mimic-video๋Š” ์ข…๋ž˜์˜ VLA ๋Œ€๋น„ ์ƒ˜ํ”Œ ํšจ์œจ 10๋ฐฐ ํ–ฅ์ƒ, ์ˆ˜๋ ด ์†๋„ 2๋ฐฐ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ๊ณ , Simpler ๋ฐ Libero ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‹ค์ œ ์ด์กฑ ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ํ™•์ธํ•˜๋ฉฐ ํ˜„์žฅ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ํ•™์Šต์€ ๋กœ๋ด‡ ์ œ์–ด์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์˜ˆ๊ณ ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์ฒ ๋„์™€ ๋น„์Šทํ•œ ์„ ๋กœ ์œ„๋ฅผ ๋‹ฌ๋ฆฌ๊ธฐ๋งŒ ํ•˜๋˜ ๋กœ๋ด‡์ด, ๋น„๋””์˜ค๋ฅผ ํƒ€๊ณ  ํ•˜๋Š˜๋กœ ๋‚ ์•„์˜ค๋ฅด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋А๊ปด์ง‘๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ๋” ๋งŽ์€ ์—ฐ๊ตฌ๊ฐ€ ์ด ๋ฐฉํ–ฅ์„ ํƒ๊ตฌํ•˜์—ฌ, ๋กœ๋ด‡์ด โ€œ์„ธ์ƒ์˜ ๋ณ€ํ™”๋ฅผ ์ดํ•ดํ•˜๋ฉฐ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ์ˆ˜์ค€โ€์— ๋‹ค๊ฐ€๊ฐ€๊ธธ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee