Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ์šฐ๋ฆฌ๋Š” ์™œ ์ธ๊ฐ„์˜ ์˜์ƒ์„ ๋กœ๋ด‡์—๊ฒŒ ๋ณด์—ฌ์ฃผ๋ ค ํ•˜๋Š”๊ฐ€?
    • ํ•ต์‹ฌ ๊ธฐ์—ฌ: ์ด ๋…ผ๋ฌธ์ด ๋งํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ
      • 1. ํ•ต์‹ฌ ๋ฐœ๊ฒฌ (Key Finding)
      • 2. ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์—ฌ
      • 3. ์‹คํ—˜์  ๊ฒ€์ฆ
    • ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ: VLA ๋ชจ๋ธ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?
      • VLA์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ
      • ฯ€0.5 ๋ชจ๋ธ์˜ ํŠน์ง•
    • ๋ฐฉ๋ฒ•๋ก : ฯ€0.5 + ego ๋ ˆ์‹œํ”ผ ์ƒ์„ธ ๋ถ„์„
      • 1. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒŒ์ดํ”„๋ผ์ธ
      • 2. ํ–‰๋™ ๊ณต๊ฐ„ ์ •์˜ (Action Space)
      • 3. ํ•™์Šต ๋ชฉํ‘œ (Training Objectives)
      • 4. ํ•™์Šต ํ˜ผํ•ฉ ๋น„์œจ (Training Mixture)
    • ํ•ต์‹ฌ ์‹คํ—˜: ๋‹ค์–‘์„ฑ์ด ์ „์ด๋ฅผ ๋‚ณ๋Š”๋‹ค
      • ์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ
      • ํ•ต์‹ฌ ๊ฒฐ๊ณผ 1: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ 2๋ฐฐ๋กœ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค
      • ํ•ต์‹ฌ ๊ฒฐ๊ณผ 2: ์ „์ด ๋Šฅ๋ ฅ์€ ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ๊ณผ ํ•จ๊ป˜ โ€œ์ฐฝ๋ฐœโ€ํ•œ๋‹ค
      • ํ•ต์‹ฌ ๊ฒฐ๊ณผ 3: Embodiment-Agnostic ํ‘œํ˜„์˜ ์ฐฝ๋ฐœ
    • ์„ธ๋ถ€ ๋ถ„์„: ์–ด๋””์„œ ์ „์ด๊ฐ€ ์ผ์–ด๋‚˜๋Š”๊ฐ€?
      • ๊ณ ์ˆ˜์ค€ vs ์ €์ˆ˜์ค€ ์ „์ด
      • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ vs ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ
    • ์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ํ•ต์‹ฌ ์š”์†Œ ์ •๋ฆฌ
      • Flow Matching์˜ ์ง๊ด€์  ์ดํ•ด
      • ํ–‰๋™ ์ฒญํฌ์˜ ์ƒ๋Œ€ ์ขŒํ‘œ ํ‘œํ˜„
    • ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ๋‹ค์ด์–ด๊ทธ๋žจ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ์žฅ์ , ํ•œ๊ณ„, ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค
      • ๐Ÿ‘ ๊ฐ•์ 
      • ๐Ÿ‘Ž ํ•œ๊ณ„์™€ ์—ด๋ฆฐ ์งˆ๋ฌธ
      • ๐Ÿ”ฌ ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์•ˆ
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
    • ์‹ค๋ฌด์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 
      • ๐Ÿ› ๏ธ ์–ธ์ œ ์ด ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ• ๊นŒ?
      • โš ๏ธ ์ฃผ์˜์‚ฌํ•ญ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
      • ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€
      • ๋กœ๋ด‡๊ณตํ•™์— ์ฃผ๋Š” ์‹œ์‚ฌ์ 
  • โ›๏ธ Dig Review
    • ์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ
    • ์ œ์•ˆ ๋ฐฉ๋ฒ•: ๋ชจ๋ธ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„
    • ์‹คํ—˜: ์„ค์ •, ๊ฒฐ๊ณผ ๋ฐ ํ•ด์„
      • ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ๊ณผ ์ „์ด ๋Šฅ๋ ฅ์˜ ๊ด€๊ณ„
      • ํ‘œํ˜„ ๊ณต๊ฐ„ ๋ถ„์„: ์ž„๋ฒ ๋””๋จผํŠธ ๋น„ํŽธํ–ฅ์„ฑ
      • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ vs. ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋น„๊ต
      • ๊ณ ์ˆ˜์ค€ vs ์ €์ˆ˜์ค€ ์ „์ด
      • ์†๋ชฉ ์นด๋ฉ”๋ผ์˜ ์˜ํ–ฅ ๋ถ„์„
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ์žฅ๋‹จ์  ๋ฐ ํ•œ๊ณ„
    • ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒHuman2Robot VLA ๋ฆฌ๋ทฐ

vla
pi0.5
Emergence of Human to Robot Transfer in Vision-Language-Action Models
Published

December 21, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Blog
  1. ์ด ์—ฐ๊ตฌ๋Š” Vision-Language-Action (VLA) ๋ชจ๋ธ์—์„œ ์ธ๊ฐ„-๋กœ๋ด‡ ์Šคํ‚ฌ ์ „์ด๊ฐ€ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ์™€ ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋‚˜ํƒ€๋‚˜๋Š” emergent property์ž„์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.
  2. ์ด๋Ÿฌํ•œ ๋Šฅ๋ ฅ์€ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ ํ›ˆ๋ จ์ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ embodiment-agnostic representation์„ ํ˜•์„ฑํ•˜์—ฌ, ๋ช…์‹œ์ ์ธ ์ •๋ ฌ ์—†์ด๋„ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋„๋ฉ”์ธ ์ •๋ ฌ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  3. ์ œ์•ˆ๋œ ๊ฐ„๋‹จํ•œ co-training ๋ฐฉ์‹์„ ํ†ตํ•ด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์—๋งŒ ์กด์žฌํ•˜๋Š” ์ƒˆ๋กœ์šด generalization ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ VLA ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ์—ฐ๊ตฌ๋Š” Vision-Language-Action (VLA) ๋ชจ๋ธ์—์„œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ์ •์ฑ…์œผ๋กœ ์ „์ดํ•˜๋Š” ๋Šฅ๋ ฅ(human-to-robot transfer)์ด ๋ชจ๋ธ์˜ pre-training scale๊ณผ ๋‹ค์–‘์„ฑ๊ณผ ํ•จ๊ป˜ emergence ํ˜„์ƒ์œผ๋กœ ๋‚˜ํƒ€๋‚จ์„ ๋ฐํž™๋‹ˆ๋‹ค. ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ human video๋Š” ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ƒํ™ฉ์„ ํฌํ•จํ•˜๊ณ  ์ˆ˜์ง‘์ด ์šฉ์ดํ•˜์ง€๋งŒ, ์ด๋ฅผ VLA ํ•™์Šต์— ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์€ ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๊ฐ„์˜ embodiment gap์œผ๋กœ ์ธํ•ด ์–ด๋ ค์šด ์—ฐ๊ตฌ ๊ณผ์ œ์˜€์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ˆ˜๋™์ ์ธ ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ๋ช…์‹œ์ ์ธ alignment ๊ธฐ๋ฒ•์— ์˜์กดํ•˜์—ฌ ์ „์ด์˜ ์ผ๋ฐ˜์„ฑ์„ ์ œํ•œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ Large Language Models(LLMs)์—์„œ ๋‹ค์–‘ํ•œ supervision์„ ํ•™์Šตํ•˜๋Š” ๋Šฅ๋ ฅ์ด scale๊ณผ ํ•จ๊ป˜ emergeํ•˜๋Š” ํ˜„์ƒ์— ์˜๊ฐ์„ ๋ฐ›์•„, VLA์—์„œ๋„ ์œ ์‚ฌํ•œ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•˜๋Š”์ง€ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฐ€์„ค ๋ฐ ๋ฐฉ๋ฒ•๋ก  (Core Hypothesis and Methodology)

์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๊ฐ€์„ค์€ ์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด๊ฐ€ ๋‹ค์–‘ํ•˜๊ณ  ์ถฉ๋ถ„ํ•œ VLA pre-training์„ ํ†ตํ•ด emergent property๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ pre-training์ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด embodiment-agnostic representations(embodiment์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ํ‘œํ˜„)์„ ํ˜•์„ฑํ•˜๊ฒŒ ํ•˜์—ฌ, ์‹œ๊ฐ์  ๋ฐ ์šด๋™ํ•™์  Domain Shift์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์ •๋ ฌ์‹œํ‚จ๋‹ค๋Š” ๊ฐœ๋…์— ๊ธฐ๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ simple co-training recipe์ธ ฯ€0.5 + ego๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•๋ก ์€ human video๋ฅผ robot data์™€ ๋™์ผํ•œ objective๋ฅผ ๊ฐ€์ง„ ์ถ”๊ฐ€์ ์ธ embodiment๋กœ ๊ฐ„์ฃผํ•˜๋ฉฐ, ๋ช…์‹œ์ ์ธ alignment ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  1. Model Architecture: ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ๊ฐ•๋ ฅํ•œ VLA ๋ชจ๋ธ์ธ ฯ€0.5๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ฯ€0.5๋Š” ํ–‰๋™(action)์„ ์ด์‚ฐ์ ์ธ FAST [35] action tokens๊ณผ ์—ฐ์†์ ์ธ ๊ฐ’ [8]์œผ๋กœ ๋ชจ๋‘ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹œ๊ฐ์  ๊ด€์ฐฐ(o_t)๊ณผ ์ƒ์œ„ ์ˆ˜์ค€ ์–ธ์–ด ๋ช…๋ น(l_t)์„ ํ†ตํ•ด subtask string(l_{subtask_t})์„ ์˜ˆ์ธกํ•˜๋Š” subtask prediction objective๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์ด ์˜ˆ์ธก๋œ subtask๋Š” ํ–‰๋™ ์ƒ์„ฑ(\pi_\theta(a_{t:t+H} | o_t, l_{subtask_t}))์„ ์กฐ๊ฑดํ™”ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  2. Human Data Collection Pipeline:
    • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์žฅ์น˜: ์‚ฌ์šฉ์ž๋Š” ๋จธ๋ฆฌ ์žฅ์ฐฉ ์นด๋ฉ”๋ผ๋ฅผ ์ฐฉ์šฉํ•˜๋ฉฐ, ๋กœ๋ด‡ ํŒ”์˜ ์†๋ชฉ ์นด๋ฉ”๋ผ๋ฅผ ๋ชจ๋ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€์ ์œผ๋กœ ์†๋ชฉ ์žฅ์ฐฉ ์นด๋ฉ”๋ผ๋ฅผ ์‹คํ—˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ”„๋กœํ† ์ฝœ: ๋กœ๋ด‡ teleoperation data์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ์—ํ”ผ์†Œ๋“œ ๋ฐฉ์‹์œผ๋กœ ๋ฐ˜๋ณต์ ์ธ ์‹œ์—ฐ์„ ์ˆ˜์ง‘ํ•˜๋ฉฐ, ์šด์˜์ž๋Š” ์†์ด ์นด๋ฉ”๋ผ ์‹œ์•ผ์— ์žˆ๋„๋ก ์ง€์‹œ๋ฐ›์Šต๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐ ์ฃผ์„ (Processing & Annotation):
      • Visual SLAM์„ ์‚ฌ์šฉํ•˜์—ฌ ๋จธ๋ฆฌ ์žฅ์ฐฉ ์นด๋ฉ”๋ผ์˜ 6D ์›€์ง์ž„(e_t \in R^6)์„ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
      • ๋‘ ์†์˜ 17๊ฐœ 3D keypoint(h_{e,t_t} \in R^{3 \times 17}) ์œ„์น˜๋ฅผ ๋จธ๋ฆฌ ์นด๋ฉ”๋ผ ํ”„๋ ˆ์ž„์—์„œ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
      • ๊ฐ ํŒ”์˜ ํ–‰๋™์„ ์„ค๋ช…ํ•˜๋Š” text-based subtask๋กœ ์ฃผ์„์„ ๋‹ต๋‹ˆ๋‹ค.
  3. Action Space Alignment: ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ์•ก์…˜ ํ‘œํ˜„์„ ๋Œ€๋žต์ ์œผ๋กœ ์ •๋ ฌํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋กœ๋ด‡ ์•ก์…˜: 6-DoF end-effector trajectory (left/right arm) + gripper, 2D base actions์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ด ์•ก์…˜ ์ฒญํฌ๋Š” a \in R^{H \times 16}์ž…๋‹ˆ๋‹ค.
    • ์ธ๊ฐ„ ์•ก์…˜: ๊ฐ ์†์˜ ์†๋ฐ”๋‹ฅ(palm), ๊ฐ€์šด๋ฐ ์†๊ฐ€๋ฝ(middle finger), ์•ฝ์†๊ฐ€๋ฝ(ring finger)์˜ 3D keypoint๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ โ€œend-effectorโ€ pose๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ํ˜„์žฌ 6-DoF ์ƒํƒœ๋กœ๋ถ€ํ„ฐ์˜ ์ƒ๋Œ€์  ๋ณ€ํ™˜์œผ๋กœ end-effector actions์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ base actions์€ ์ธ๊ฐ„ ๋น„๋””์˜ค์˜ base camera poses๋ฅผ ์ฒญํฌ์˜ ์ฒซ ๋ฒˆ์งธ timestep base camera pose ํ”„๋ ˆ์ž„์œผ๋กœ ํˆฌ์˜ํ•˜์—ฌ ๊ทผ์‚ฌํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๋น„๋””์˜ค์— ๋Œ€ํ•œ gripper actions์€ ๋ช…์‹œ์ ์œผ๋กœ ๊ทผ์‚ฌํ™”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ธ๊ฐ„ ์•ก์…˜์€ 2๊ฐœ์˜ ์†(๊ฐ 6 DoF)๊ณผ 6 DoF์˜ base action ๊ทผ์‚ฌ์น˜๋ฅผ ํฌํ•จํ•˜์—ฌ ์ด 18์ฐจ์›์ž…๋‹ˆ๋‹ค.
  4. Training Objectives:
    • Low-level action prediction: ์—ฐ์†์ ์ธ ์•ก์…˜์— ๋Œ€ํ•œ flow-based prediction๊ณผ ์ด์‚ฐ์ ์ธ FAST ํ† ํฐ์— ๋Œ€ํ•œ next-token prediction์„ ํ†ตํ•ด action chunk prediction์„ ๊ฐ๋…ํ•ฉ๋‹ˆ๋‹ค.
    • High-level subtask prediction: Subtask language tokens์— ๋Œ€ํ•œ next-token prediction์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๋‘ objective๋Š” ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์™€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋ชจ๋‘์— ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
  5. Fine-tuning Mixture: Fine-tuning ์‹œ, ๋ชจ๋ธ์˜ ์›๋ž˜ ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ human data๋กœ๋ถ€ํ„ฐ ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ๋„์ž…ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, human data for generalization tasks์™€ nearest neighbor robot task๋ฅผ 50-50 ๋น„์œจ๋กœ co-trainํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๋ฐ ์ฃผ์š” ๊ฒฐ๊ณผ (Experiments and Key Findings)

์—ฐ๊ตฌ๋Š” ์ƒˆ๋กœ์šด ์žฅ๋ฉด, ๊ฐ์ฒด, ๊ทธ๋ฆฌ๊ณ  ์ž‘์—…์„ ํฌํ•จํ•˜๋Š” 4๊ฐ€์ง€ generalization ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ๊ตฌ์„ฑ๋œ benchmark suite๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ฯ€0.5 + ego์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

  1. Human to robot transfer benchmark:
    • Scene transfer: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ ์ปค๋ฒ„๋ฆฌ์ง€๊ฐ€ ์ œํ•œ์ ์ธ ๋ฏธ์ง€์˜ ๊ณต๊ฐ„(์˜ˆ: spice rack ์ •๋ฆฌ, ์˜ท์žฅ ์ •๋ฆฌ)์— ๋Œ€ํ•œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ›„ ฯ€0.5 + ego๋ฅผ ๋ฒค์น˜๋งˆํ‚นํ•ฉ๋‹ˆ๋‹ค.
    • Object transfer: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค๋ฃจ์ง€ ์•Š๋Š” ์ƒˆ๋กœ์šด ๊ฐ์ฒด(์˜ˆ: ์ฃผ๋ฐฉ ๋„๊ตฌ)๋ฅผ ํฌํ•จํ•œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ bussing task์— ๋Œ€ํ•ด ๋ฒค์น˜๋งˆํ‚นํ•ฉ๋‹ˆ๋‹ค.
    • Task transfer: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ์—†๋Š” ์ƒˆ๋กœ์šด ์ž‘์—…(์˜ˆ: ๊ณ„๋ž€ ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜)์— ๋Œ€ํ•œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๋ฒค์น˜๋งˆํ‚นํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ฯ€0.5 + ego๋Š” ๊ธฐ์กด ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ›ˆ๋ จ๋œ ์ •์ฑ…์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค (์˜ˆ: Spice task 32% โ†’ 71%, Egg sorting 57% โ†’ 78%).
  2. Emergence of Transfer: ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์€ ์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด๊ฐ€ VLA pre-training์˜ ๋‹ค์–‘์„ฑ(์žฅ๋ฉด, ์ž‘์—…, embodiment)์— ๋”ฐ๋ผ emergeํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ๋‹ค์–‘ํ•œ pre-training ์ˆ˜์ค€์—์„œ ์„ฑ๋Šฅ ํ‰๊ฐ€: 0%(๊ธฐ๋ณธ VLM ์ดˆ๊ธฐํ™”), 25%, 50%, 75%, 100%(์ ์  ๋” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ), 100% + X-emb(ฯ€0.5์˜ ์ „์ฒด VLA pre-training mix)์˜ ์ดˆ๊ธฐํ™”๋กœ ์‹คํ—˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฒฐ๊ณผ์ ์œผ๋กœ, pre-training ๋‹ค์–‘์„ฑ์ด ์ ๊ฑฐ๋‚˜ ์—†์„ ๋•Œ๋Š” human data co-training์œผ๋กœ๋ถ€ํ„ฐ ์ด์ ์„ ์–ป์ง€ ๋ชปํ•˜์ง€๋งŒ(0%, 25%), 75%, 100%์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•˜๊ฒŒ pre-training๋œ VLA๋Š” human data co-training์œผ๋กœ๋ถ€ํ„ฐ ์ƒ๋‹นํ•œ ์ด๋“์„ ์–ป์Šต๋‹ˆ๋‹ค. ํŠนํžˆ cross-embodiment ๋ฐ์ดํ„ฐ ๋ฏน์Šค๋กœ pre-trainingํ•  ๋•Œ ์ „์ด๊ฐ€ ๋”์šฑ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.
    • Embodiment-agnostic representations: TSNE ๋ถ„์„์„ ํ†ตํ•ด, pre-training ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ latent representation์ด ์ผ์น˜ํ•˜์—ฌ(converge), ๋ชจ๋ธ์ด ๋‘ embodiment์— ๋Œ€ํ•œ ํ†ตํ•ฉ๋œ ํ‘œํ˜„์„ ๊ตฌ์ถ•ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ pre-training์ด ๋ช…์‹œ์ ์ธ alignment ์—†์ด๋„ alignment๋œ ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  3. Comparison with other robot data:
    • Sort Eggs์™€ Dresser task์˜ ๊ฒฝ์šฐ, human data๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ fine-tuningํ•œ ๊ฒฐ๊ณผ๋Š” target robot data๋กœ fine-tuningํ•œ ๊ฒƒ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • Bussing task์˜ ๊ฒฝ์šฐ, target robot data๊ฐ€ human data๋ณด๋‹ค ๋” ํšจ๊ณผ์ ์ด์—ˆ์ง€๋งŒ, human data ์ „์ด์™€ cross-embodiment robot ์ „์ด(๋‹ค๋ฅธ UR5 ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ ARX ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด)๋Š” ์œ ์‚ฌํ•œ ํŠน์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” human data๊ฐ€ ๋กœ๋ด‡ ๋ฏน์Šค์—์„œ ๋˜ ๋‹ค๋ฅธ robot embodiment๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  4. Level of Transfer: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ high-level semantic concepts๋ฟ๋งŒ ์•„๋‹ˆ๋ผ low-level action prediction๋„ ์ „์ดํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐ”์ผ task (Spice ๋ฐ Dresser)์—์„œ high-level subtask prediction๊ณผ low-level action prediction์„ ๊ณต๋™์œผ๋กœ co-trainํ•  ๋•Œ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ์ „์ด๊ฐ€ ๋ฐœ์ƒํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๋‘ ์ˆ˜์ค€ ๋ชจ๋‘์—์„œ ์ „์ด๊ฐ€ ์ผ์–ด๋‚จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  5. Importance of Wrist Cameras: ์ธ๊ฐ„ ์ฐฉ์šฉ ์†๋ชฉ ์นด๋ฉ”๋ผ๋ฅผ ํ™œ์šฉํ•˜๋ฉด Bussing ๋ฐ Dresser์™€ ๊ฐ™์€ ํŠน์ • task์—์„œ ์ „์ด๊ฐ€ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ๋ถ€ task๊ฐ€ ์†๋ชฉ ์นด๋ฉ”๋ผ์˜ ์ถ”๊ฐ€์ ์ธ ๊ด€์ฐฐ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ๋ถ€ํ„ฐ ์ด์ ์„ ์–ป๋Š”๋‹ค๋Š” ์ง๊ด€๊ณผ ์ผ์น˜ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์ด ์—ฐ๊ตฌ๋Š” human-to-robot transfer๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•˜๊ฒŒ pre-training๋œ VLA์—์„œ ๋ฐœ์ƒํ•˜๋Š” emergent property์ž„์„ ๊ฐ•๋ ฅํ•˜๊ฒŒ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ๋ฏธ๋ž˜์— ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค, ํŠนํžˆ ํ’๋ถ€ํ•œ human video ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ์šฐ๋ฆฌ๋Š” ์™œ ์ธ๊ฐ„์˜ ์˜์ƒ์„ ๋กœ๋ด‡์—๊ฒŒ ๋ณด์—ฌ์ฃผ๋ ค ํ•˜๋Š”๊ฐ€?

์ž, ์—ฌ๊ธฐ ํฅ๋ฏธ๋กœ์šด ์งˆ๋ฌธ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์–ด๋ฆฐ์•„์ด๊ฐ€ ๋ถ€๋ชจ๊ฐ€ ์š”๋ฆฌํ•˜๋Š” ๊ฒƒ์„ ๋ณด๊ณ  ์Šค์Šค๋กœ ์š”๋ฆฌ๋ฅผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ๋กœ๋ด‡์€ ์™œ ๊ทธ๋ ‡๊ฒŒ ํ•  ์ˆ˜ ์—†์„๊นŒ์š”?

๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ๊ณจ์น˜ ์•„ํ”ˆ ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ๋น„์šฉ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์›๊ฒฉ์กฐ์ข…(teleoperation)์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๋ ค๋ฉด ๊ฐ’๋น„์‹ผ ์žฅ๋น„์™€ ์ˆ™๋ จ๋œ ์กฐ์ข…์‚ฌ๊ฐ€ ํ•„์š”ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ฒœ, ์ˆ˜๋งŒ ๊ฐœ์˜ ์‹œ์—ฐ์„ ์ˆ˜์ง‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ธ๊ฐ„์ด ์ผ์ƒ์ ์ธ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์˜์ƒ์€? ์œ ํŠœ๋ธŒ์—๋งŒ ํ•ด๋„ ์ˆ˜์‹ญ์–ต ์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์ด ์žˆ์ฃ .

๊ทธ๋Ÿฐ๋ฐ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ์†๊ณผ ๋กœ๋ด‡์˜ ๊ทธ๋ฆฌํผ(gripper)๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅด๊ฒŒ ์ƒ๊ฒผ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ๋ณด๋Š” ์‹œ์ ๊ณผ ๋กœ๋ด‡์˜ ์นด๋ฉ”๋ผ ์‹œ์ ๋„ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๋งˆ์น˜ ์™ธ๊ตญ์–ด๋ฅผ ๋ชจ๊ตญ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋ ค๋Š”๋ฐ, ๋‘ ์–ธ์–ด๊ฐ€ ์™„์ „ํžˆ ๋‹ค๋ฅธ ๋ฌธ์ž ์ฒด๊ณ„๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ฃ .

๋ณธ ๋…ผ๋ฌธ์€ ์ด ๋ฌธ์ œ์— ๋Œ€ํ•ด ๋†€๋ผ์šด ๋ฐœ๊ฒฌ์„ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค: ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต์„ ๊ฑฐ์นœ VLA(Vision-Language-Action) ๋ชจ๋ธ์€ ๋ณ„๋„์˜ ์ •๋ ฌ(alignment) ์—†์ด๋„ ์ธ๊ฐ„ ์˜์ƒ์—์„œ ๋กœ๋ด‡ ์ •์ฑ…์œผ๋กœ์˜ ์ง€์‹ ์ „์ด๊ฐ€ โ€œ์ฐฝ๋ฐœ(emerge)โ€ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๊ฒƒ์€ ๋งˆ์น˜ ์ถฉ๋ถ„ํžˆ ๋งŽ์€ ์–ธ์–ด๋ฅผ ๋ฐฐ์šด ์‚ฌ๋žŒ์ด ์ƒˆ๋กœ์šด ์–ธ์–ด๋ฅผ ์ ‘ํ–ˆ์„ ๋•Œ ๋ฌธ๋ฒ•์ฑ… ์—†์ด๋„ ํŒจํ„ด์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.


ํ•ต์‹ฌ ๊ธฐ์—ฌ: ์ด ๋…ผ๋ฌธ์ด ๋งํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ

1. ํ•ต์‹ฌ ๋ฐœ๊ฒฌ (Key Finding)

โ€œHuman-to-robot transfer is an emergent property of diverse VLA pretraining.โ€
(์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด๋Š” ๋‹ค์–‘ํ•œ VLA ์‚ฌ์ „ํ•™์Šต์˜ ์ฐฝ๋ฐœ์  ์†์„ฑ์ด๋‹ค)

๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๋ฅผ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์š”์•ฝํ•˜๋ฉด ์ด๋ ‡์Šต๋‹ˆ๋‹ค:

์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ(์žฅ๋ฉด, ํƒœ์Šคํฌ, ๋กœ๋ด‡ ์ข…๋ฅ˜)์ด ์ž„๊ณ„์ ์„ ๋„˜์œผ๋ฉด, VLA ๋ชจ๋ธ์€ ์ธ๊ฐ„ ์˜์ƒ๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ โ€œembodiment-agnostic(์‹ ์ฒด ๋ถˆ๊ฐ€์ง€๋ก ์ )โ€ ํ‘œํ˜„์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ•™์Šตํ•˜๊ฒŒ ๋˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ์˜์ƒ์—์„œ ๋กœ๋ด‡์œผ๋กœ์˜ ๊ธฐ์ˆ  ์ „์ด๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

2. ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์—ฌ

  • ฯ€0.5 + ego ๋ ˆ์‹œํ”ผ: ์ธ๊ฐ„์„ โ€œ๋˜ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์ข…๋ฅ˜(embodiment)โ€๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ ๋™์ผํ•œ ํ•™์Šต ๋ชฉํ‘œ๋กœ ๊ณต๋™ ํ•™์Šต
  • ๋ช…์‹œ์  ์ •๋ ฌ ๋ถˆํ•„์š”: ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ํ•„์š”๋กœ ํ–ˆ๋˜ ์ˆ˜๋™ ์ •๋ ฌ ๋‹จ๊ณ„ ์—†์ด ์ „์ด ๋‹ฌ์„ฑ
  • ๋‹ค์–‘์„ฑ-์ „์ด ์ƒ๊ด€๊ด€๊ณ„ ์ž…์ฆ: ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ๊ณผ ์ „์ด ๋Šฅ๋ ฅ ๊ฐ„์˜ ๋ช…ํ™•ํ•œ ์Šค์ผ€์ผ๋ง ๊ด€๊ณ„ ๊ทœ๋ช…

3. ์‹คํ—˜์  ๊ฒ€์ฆ

  • ์žฅ๋ฉด(Scene), ๊ฐ์ฒด(Object), ํƒœ์Šคํฌ(Task) ์ผ๋ฐ˜ํ™” ๋ฒค์น˜๋งˆํฌ์—์„œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์‹œ ์„ฑ๋Šฅ ์•ฝ 2๋ฐฐ ํ–ฅ์ƒ
  • ์ž ์žฌ ํ‘œํ˜„(latent representation) ๋ถ„์„์„ ํ†ตํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์„ค๋ช…

๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ: VLA ๋ชจ๋ธ์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

๋ณธ๋ก ์— ๋“ค์–ด๊ฐ€๊ธฐ ์ „์—, VLA ๋ชจ๋ธ์ด ๋ฌด์—‡์ธ์ง€ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•ด ๋ด…์‹œ๋‹ค.

VLA์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ

VLA(Vision-Language-Action) ๋ชจ๋ธ์€ ์ด๋ฆ„ ๊ทธ๋Œ€๋กœ ์„ธ ๊ฐ€์ง€๋ฅผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค:

   ์‹œ๊ฐ(Vision)     โ†’  โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”  โ†’    ํ–‰๋™(Action)
   ๊ด€์ฐฐ ์ด๋ฏธ์ง€          โ”‚   VLA ๋ชจ๋ธ      โ”‚       ๋กœ๋ด‡ ์ œ์–ด ๋ช…๋ น
                       โ”‚  (Transformer)   โ”‚
   ์–ธ์–ด(Language)   โ†’  โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
   "์ปต์„ ์ง‘์–ด์„œ 
    ํ…Œ์ด๋ธ”์— ๋†”"

์ˆ˜ํ•™์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด:

\pi_\theta(a_{t:t+H} | o_t, l_t)

์—ฌ๊ธฐ์„œ:

  • o_t: ์‹œ๊ฐ„ t์—์„œ์˜ ๊ด€์ฐฐ(observation) - ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€
  • l_t: ์–ธ์–ด ๋ช…๋ น(language command) - โ€œ๋‹ฌ๊ฑ€์„ ์ง‘์–ดโ€
  • a_{t:t+H}: ๋ฏธ๋ž˜ H ์Šคํ… ๋™์•ˆ์˜ ํ–‰๋™ ์ฒญํฌ(action chunk)
  • \theta: ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ

ฯ€0.5 ๋ชจ๋ธ์˜ ํŠน์ง•

๋ณธ ๋…ผ๋ฌธ์€ Physical Intelligence์˜ ฯ€0.5 ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ฯ€0.5์˜ ์ฃผ์š” ํŠน์ง•:

  1. ์ด์ค‘ ํ–‰๋™ ํ‘œํ˜„:
    • FAST ํ† ํฐ: ์ด์‚ฐ์ (discrete) ํ–‰๋™ ํ† ํฐ์œผ๋กœ ํ‘œํ˜„, ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก์œผ๋กœ ํ•™์Šต
    • Flow Matching: ์—ฐ์†์ (continuous) ํ–‰๋™์„ ์ž‘์€ ์ „๋ฌธ๊ฐ€ ๋„คํŠธ์›Œํฌ๋กœ ๋””์ฝ”๋”ฉ
  2. ๊ณ„์ธต์  ์ •์ฑ… ๊ตฌ์กฐ:
    • ๊ณ ์ˆ˜์ค€(High-Level): ์„œ๋ธŒํƒœ์Šคํฌ ์˜ˆ์ธก p(l^{subtask}_t | o_t, l_t)
    • ์ €์ˆ˜์ค€(Low-Level): ํ–‰๋™ ์˜ˆ์ธก \pi_\theta(a_{t:t+H} | o_t, l^{subtask})

์ด ๊ตฌ์กฐ๋Š” Chain-of-Thought์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. โ€œ๋‹ฌ๊ฑ€์„ ์ •๋ฆฌํ•ดโ€๋ผ๋Š” ์ƒ์œ„ ๋ช…๋ น์„ ๋ฐ›์œผ๋ฉด, ๋จผ์ € โ€œํฐ ๋‹ฌ๊ฑ€์„ ์ง‘์–ดโ€๋ผ๋Š” ์„œ๋ธŒํƒœ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฌ์ฒด์ ์ธ ํ–‰๋™์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.


๋ฐฉ๋ฒ•๋ก : ฯ€0.5 + ego ๋ ˆ์‹œํ”ผ ์ƒ์„ธ ๋ถ„์„

1. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒŒ์ดํ”„๋ผ์ธ

ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ

๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์žฅ์น˜๋Š” ์˜์™ธ๋กœ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚           ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์žฅ์น˜                    โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                 โ”‚
โ”‚    โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”                                  โ”‚
โ”‚    โ”‚ ๋จธ๋ฆฌ ์นด๋ฉ”๋ผโ”‚  โ† ๊ณ ํ•ด์ƒ๋„, ๋ฉ”์ธ ๋ทฐ             โ”‚
โ”‚    โ””โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”˜                                  โ”‚
โ”‚         โ”‚                                       โ”‚
โ”‚    โ”Œโ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”                                  โ”‚
โ”‚    โ”‚   ์‚ฌ๋žŒ   โ”‚                                  โ”‚
โ”‚    โ””โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”˜                                  โ”‚
โ”‚    โ”Œโ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”                         โ”‚
โ”‚    โ”‚         โ”‚        โ”‚                         โ”‚
โ”‚ โ”Œโ”€โ”€โ”ดโ”€โ”€โ”   โ”Œโ”€โ”€โ”ดโ”€โ”€โ”                              โ”‚
โ”‚ โ”‚์™ผ์†  โ”‚   โ”‚์˜ค๋ฅธ์†โ”‚                              โ”‚
โ”‚ โ”‚์นด๋ฉ”๋ผโ”‚   โ”‚์นด๋ฉ”๋ผโ”‚  โ† ์†๋ชฉ ์žฅ์ฐฉ, ๋™๊ธฐํ™”           โ”‚
โ”‚ โ””โ”€โ”€โ”€โ”€โ”€โ”˜   โ””โ”€โ”€โ”€โ”€โ”€โ”˜                              โ”‚
โ”‚                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

์™œ ์†๋ชฉ ์นด๋ฉ”๋ผ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?

๋กœ๋ด‡ ํ•™์Šต์—์„œ ์†๋ชฉ ์นด๋ฉ”๋ผ(wrist camera)๊ฐ€ ์œ ์šฉํ•œ ์ด์œ ๋Š” ์—”๋“œ์ดํŽ™ํ„ฐ์™€ ๋ฌผ์ฒด ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋” ์ž์„ธํžˆ ๋ณผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ์—๋„ ์ด๋ฅผ ๋ชจ๋ฐฉํ•˜์—ฌ ์†๋ชฉ์— ์นด๋ฉ”๋ผ๋ฅผ ์žฅ์ฐฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ผ๋ถ€ ํƒœ์Šคํฌ(Bussing, Dresser)์—์„œ๋Š” ์†๋ชฉ ์นด๋ฉ”๋ผ๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ–ˆ๊ณ , ๋‹ค๋ฅธ ํƒœ์Šคํฌ์—์„œ๋Š” ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ณผ์ •

์›์‹œ ์ธ๊ฐ„ ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ํ•™์Šต์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ณผ์ •:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”     โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”     โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚  ์›์‹œ ์˜์ƒ    โ”‚ โ”€โ”€โ–บ โ”‚ Visual SLAM  โ”‚ โ”€โ”€โ–บ โ”‚ 6D ์นด๋ฉ”๋ผ ๊ถค์  โ”‚
โ”‚              โ”‚     โ”‚              โ”‚     โ”‚    e_t โˆˆ R^6 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜     โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜     โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
        โ”‚
        โ–ผ
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”     โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚  3D ํ•ธ๋“œ      โ”‚ โ”€โ”€โ–บ โ”‚ 17๊ฐœ ํ‚คํฌ์ธํŠธ โ”‚
โ”‚  ํŠธ๋ž˜ํ‚น       โ”‚     โ”‚ per ์†       โ”‚
โ”‚              โ”‚     โ”‚  ฤฅ_t โˆˆ R^(3ร—17)โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜     โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
        โ”‚
        โ–ผ
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ ์„œ๋ธŒํƒœ์Šคํฌ    โ”‚ โ”€โ”€โ–บ "ํฐ ๋‹ฌ๊ฑ€์„ ์ง‘์–ด"
โ”‚ ์–ธ์–ด ์ฃผ์„     โ”‚     "์™ผ์ชฝ ์นดํ†ค์— ๋†”"
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

2. ํ–‰๋™ ๊ณต๊ฐ„ ์ •์˜ (Action Space)

ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ธ๊ฐ„ ์†์˜ ํ–‰๋™์„ ๋กœ๋ด‡ ์—”๋“œ์ดํŽ™ํ„ฐ์™€ โ€œ๋Œ€๋žต์ ์œผ๋กœโ€ ์ •๋ ฌ

๋กœ๋ด‡ ํ–‰๋™ ํ‘œํ˜„

๋กœ๋ด‡์˜ ๊ฒฝ์šฐ, ํ–‰๋™ ์ฒญํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

a \in \mathbb{R}^{H \times 16}

  • ์™ผํŒ” ์—”๋“œ์ดํŽ™ํ„ฐ: 6 DoF + ๊ทธ๋ฆฌํผ 1 = 7
  • ์˜ค๋ฅธํŒ” ์—”๋“œ์ดํŽ™ํ„ฐ: 6 DoF + ๊ทธ๋ฆฌํผ 1 = 7
  • ๋ฒ ์ด์Šค(์ด๋™ ๋กœ๋ด‡): 2์ฐจ์›

์ธ๊ฐ„ ํ–‰๋™ ํ‘œํ˜„

์ธ๊ฐ„์˜ ๊ฒฝ์šฐ, ์†์˜ 3D ํ‚คํฌ์ธํŠธ์—์„œ โ€œ๊ฐ€์ƒ์˜ ์—”๋“œ์ดํŽ™ํ„ฐโ€๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค:

์† ํ‚คํฌ์ธํŠธ 17๊ฐœ ์ค‘ ์„ ํƒ:
- ์†๋ฐ”๋‹ฅ(palm)
- ์ค‘์ง€(middle finger)
- ์•ฝ์ง€(ring finger)

์ด 3์ ์œผ๋กœ ์†์˜ 6 DoF ํฌ์ฆˆ ์ถ”์ •

a_{human} \in \mathbb{R}^{H \times 18}

  • ์™ผ์†: 6 DoF (ํฌ์ฆˆ)
  • ์˜ค๋ฅธ์†: 6 DoF (ํฌ์ฆˆ)
  • ๋จธ๋ฆฌ ์นด๋ฉ”๋ผ ์ด๋™: 6 DoF (๋ฒ ์ด์Šค ๋Œ€์šฉ)

์ฃผ๋ชฉํ•  ์ : ๊ทธ๋ฆฌํผ ํ–‰๋™์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ์ถ”์ •ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์†์˜ โ€œ์—ด๋ฆผ/๋‹ซํž˜โ€ ์ •๋„๋ฅผ ์ •ํ™•ํžˆ ์ถ”์ •ํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ๊ทธ๋ฆฌํผ ์ œ์–ด๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์—์„œ๋งŒ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

3. ํ•™์Šต ๋ชฉํ‘œ (Training Objectives)

ฯ€0.5 + ego๋Š” ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋ชจ๋‘์— ๋Œ€ํ•ด ๋™์ผํ•œ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค:

๊ณ ์ˆ˜์ค€: ์„œ๋ธŒํƒœ์Šคํฌ ์˜ˆ์ธก

\mathcal{L}_{subtask} = -\log p_\theta(l^{subtask}_t | o_t, l_t)

๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก(next token prediction)์œผ๋กœ ํ•™์Šต. ์˜ˆ๋ฅผ ๋“ค์–ด:

  • ์ž…๋ ฅ: ์ด๋ฏธ์ง€ + โ€œํ…Œ์ด๋ธ”์„ ์ •๋ฆฌํ•ดโ€
  • ์ถœ๋ ฅ: โ€œ์ปต์„ ์ง‘์–ดโ€

์ €์ˆ˜์ค€: ํ–‰๋™ ์˜ˆ์ธก

1) FAST ํ† ํฐ ์˜ˆ์ธก: \mathcal{L}_{FAST} = -\log p_\theta(a^{token}_{t:t+H} | o_t, l^{subtask}_t)

2) Flow Matching ์†์‹ค:

Flow matching์€ ์—ฐ์†์ ์ธ ํ–‰๋™์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ ์„ค๋ช…ํ•˜๋ฉด:

โ€œ๋žœ๋คํ•œ ๋…ธ์ด์ฆˆ์—์„œ ์‹œ์ž‘ํ•ด์„œ, ๋ชฉํ‘œ ํ–‰๋™์œผ๋กœ ํ๋ฅด๋Š”(flow) ๊ถค์ ์„ ํ•™์Šตํ•œ๋‹คโ€

\mathcal{L}_{flow} = \mathbb{E}_{t, \epsilon} \left[ \| v_\theta(a^{noisy}_t, t) - (a_{target} - a^{noisy}_t) \|^2 \right]

์—ฌ๊ธฐ์„œ v_\theta๋Š” โ€œ์†๋„์žฅ(velocity field)โ€์„ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์€ ์ „๋ฌธ๊ฐ€ ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค.

4. ํ•™์Šต ํ˜ผํ•ฉ ๋น„์œจ (Training Mixture)

ํŒŒ์ธํŠœ๋‹ ์‹œ์˜ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ „๋žต:

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚              ํŒŒ์ธํŠœ๋‹ ๋ฐ์ดํ„ฐ ๋ฏน์Šค                  โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚                                                 โ”‚
โ”‚   โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”   โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”    โ”‚
โ”‚   โ”‚   ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ     โ”‚   โ”‚   ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ    โ”‚    โ”‚
โ”‚   โ”‚   (์ผ๋ฐ˜ํ™” ํƒœ์Šคํฌ)  โ”‚   โ”‚ (๊ฐ€์žฅ ์œ ์‚ฌ ํƒœ์Šคํฌ)โ”‚    โ”‚
โ”‚   โ”‚                 โ”‚   โ”‚                 โ”‚    โ”‚
โ”‚   โ”‚      50%        โ”‚   โ”‚      50%        โ”‚    โ”‚
โ”‚   โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜   โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜    โ”‚
โ”‚                                                 โ”‚
โ”‚   ์˜ˆ์‹œ:                                         โ”‚
โ”‚   - ๋‹ฌ๊ฑ€ ์ •๋ ฌ(์ธ๊ฐ„) โ†” ๋‹ฌ๊ฑ€ ๋†“๊ธฐ(๋กœ๋ด‡)              โ”‚
โ”‚   - ์ƒˆ ์•„ํŒŒํŠธ ์ •๋ฆฌ(์ธ๊ฐ„) โ†” ๊ธฐ์กด ํ™˜๊ฒฝ ์ •๋ฆฌ(๋กœ๋ด‡)      โ”‚
โ”‚                                                 โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

ํ•ต์‹ฌ ํฌ์ธํŠธ: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ์—†๋Š” โ€œ์ƒˆ๋กœ์šด ๊ฐœ๋…โ€(์ƒˆ๋กœ์šด ์žฅ๋ฉด, ๊ฐ์ฒด, ํƒœ์Šคํฌ ์˜๋ฏธ)์„ ๋‹ด๊ณ  ์žˆ๊ณ , ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ๋ณธ์ ์ธ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


ํ•ต์‹ฌ ์‹คํ—˜: ๋‹ค์–‘์„ฑ์ด ์ „์ด๋ฅผ ๋‚ณ๋Š”๋‹ค

์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ

๋…ผ๋ฌธ์€ ์„ธ ๊ฐ€์ง€ ์ผ๋ฐ˜ํ™” ์ถ•์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค:

graph TD
    A[์ผ๋ฐ˜ํ™” ๋ฒค์น˜๋งˆํฌ] --> B["Scene (์žฅ๋ฉด ์ „์ด)"]
    A --> C["Object (๊ฐ์ฒด ์ „์ด)"]
    A --> D["Task (ํƒœ์Šคํฌ ์ „์ด)"]

    B --> B1["Spice: ์ƒˆ ์ฃผ๋ฐฉ์—์„œ ์–‘๋… ์ •๋ฆฌ"]
    B --> B2["Dresser: ์ƒˆ ์นจ์‹ค์—์„œ ์„œ๋ž์žฅ ์ •๋ฆฌ"]

    C --> C1["Bussing: ์ƒˆ๋กœ์šด ์ฃผ๋ฐฉ ๋„๊ตฌ๋“ค ์น˜์šฐ๊ธฐ"]

    D --> D1["Sort Eggs: ์ƒ‰๊น”๋ณ„๋กœ ๋‹ฌ๊ฑ€ ๋ถ„๋ฅ˜ํ•˜๊ธฐ"]

ํƒœ์Šคํฌ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ…Œ์ŠคํŠธ
Spice ์—ฌ๋Ÿฌ ์ง‘์—์„œ ์–‘๋… ์ •๋ฆฌ ์ƒˆ๋กœ์šด ์ฃผ๋ฐฉ ์ƒˆ ์ฃผ๋ฐฉ์—์„œ ์ˆ˜ํ–‰
Dresser ์—ฌ๋Ÿฌ ์ง‘์—์„œ ์„œ๋ž์žฅ ์ •๋ฆฌ ์ƒˆ๋กœ์šด ์นจ์‹ค ์ƒˆ ์นจ์‹ค์—์„œ ์ˆ˜ํ–‰
Bussing ์“ฐ๋ ˆ๊ธฐ, ์‹๊ธฐ ์น˜์šฐ๊ธฐ ์ƒˆ๋กœ์šด ์ฃผ๋ฐฉ ๋„๊ตฌ๋“ค ์ƒˆ ๊ฐ์ฒด๋“ค ์น˜์šฐ๊ธฐ
Sort Eggs ๋‹ฌ๊ฑ€ ์ง‘์–ด์„œ ์นดํ†ค์— ๋„ฃ๊ธฐ ์ƒ‰๊น”๋ณ„ ๋‹ฌ๊ฑ€ ๋ถ„๋ฅ˜ ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜ ์ˆ˜ํ–‰

ํ•ต์‹ฌ ๊ฒฐ๊ณผ 1: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์„ฑ๋Šฅ์„ ๊ฑฐ์˜ 2๋ฐฐ๋กœ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค

ํƒœ์Šคํฌ Robot Only Robot + Human ํ–ฅ์ƒ
Spice 32% 71% +39%p
Dresser 25% 50% +25%p
Bussing 53์  63์  +10์ 
Sort Eggs 57% ์ •ํ™•๋„ 78% ์ •ํ™•๋„ +21%p

Sort Eggs๊ฐ€ ํŠนํžˆ ์ธ์ƒ์ ์ธ ์ด์œ :

๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ๋‹ฌ๊ฑ€์„ โ€œ์ง‘์–ด์„œ ์นดํ†ค์— ๋„ฃ๋Š”โ€ ๊ธฐ๋ณธ ์กฐ์ž‘์€ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, โ€œ์ƒ‰๊น”๋ณ„๋กœ ๋ถ„๋ฅ˜โ€๋ผ๋Š” ๊ฐœ๋… ์ž์ฒด๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๊ทธ๋ƒฅ ๋ฌด์ž‘์œ„๋กœ ๋„ฃ์–ด์„œ 57% ์ •ํ™•๋„(๊ฑฐ์˜ ์šฐ์—ฐ)๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ธ๊ฐ„ ์˜์ƒ์—์„œ ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜ ํŒจํ„ด์„ โ€œ๋ณด๊ณ โ€ ๋‚˜๋ฉด, ๋กœ๋ด‡์€ ์ด ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  78%์˜ ์ •ํ™•๋„๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฒฐ๊ณผ 2: ์ „์ด ๋Šฅ๋ ฅ์€ ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ๊ณผ ํ•จ๊ป˜ โ€œ์ฐฝ๋ฐœโ€ํ•œ๋‹ค

์ด๊ฒƒ์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์ž…๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ํ–ฅ์ƒ
(Human+Robot - Robot Only)
    โ–ฒ
    โ”‚                                    โ˜… 100% + X-emb
    โ”‚                              โ—† 100%
    โ”‚                        โ—
    โ”‚                  โ—    75%
    โ”‚            โ—
    โ”‚      โ—    50%
    โ”‚ โ—   25%
    โ”‚0%
    โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ–บ ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ
       ์—†์Œ  ์ ์Œ              ๋งŽ์Œ     ์ตœ๋Œ€

๊ด€์ฐฐ 1: ์ž„๊ณ„์  ์กด์žฌ

  • ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ์ด 0~25%์ผ ๋•Œ: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ํ•ด๋„ ํšจ๊ณผ ์—†์Œ (๋•Œ๋กœ๋Š” ์˜คํžˆ๋ ค ์„ฑ๋Šฅ ์ €ํ•˜)
  • 50~75%๋ถ€ํ„ฐ: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์ง„์ ์œผ๋กœ ๋„์›€
  • 100% + Cross-embodiment: ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ

๊ด€์ฐฐ 2: ๋‹ค์–‘์„ฑ์˜ ๊ตฌ์„ฑ ์š”์†Œ

  • Scene ๋‹ค์–‘์„ฑ: ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ(์ง‘, ์ฃผ๋ฐฉ ๋“ฑ)
  • Task ๋‹ค์–‘์„ฑ: ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ํƒœ์Šคํฌ
  • Embodiment ๋‹ค์–‘์„ฑ: ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์ข…๋ฅ˜ (ARX, UR5 ๋“ฑ)

ํŠนํžˆ Cross-embodiment ๋ฐ์ดํ„ฐ(ํƒ€๊ฒŸ ๋กœ๋ด‡์ด ์•„๋‹Œ ๋‹ค๋ฅธ ๋กœ๋ด‡๋“ค์˜ ๋ฐ์ดํ„ฐ)๊ฐ€ ์ถ”๊ฐ€๋˜์—ˆ์„ ๋•Œ ์ „์ด ๋Šฅ๋ ฅ์ด ๊ธ‰๊ฒฉํžˆ ํ–ฅ์ƒ๋˜๋Š” ๊ฒƒ์ด ํฅ๋ฏธ๋กญ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฒฐ๊ณผ 3: Embodiment-Agnostic ํ‘œํ˜„์˜ ์ฐฝ๋ฐœ

์™œ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต์ด ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ• ๊นŒ์š”? ๋…ผ๋ฌธ์€ t-SNE ๋ถ„์„์„ ํ†ตํ•ด ๋‹ต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ํ•™์Šต ์—†์Œ                    ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต
โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”         โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚  โ— โ— โ—          โ”‚         โ”‚     โ— โ— โ—       โ”‚
โ”‚   โ— โ—           โ”‚         โ”‚   โ— โ— โ— โ—      โ”‚
โ”‚                 โ”‚  โ”€โ”€โ”€โ–บ   โ”‚  โ— โ— โ— โ— โ—     โ”‚
โ”‚         โ—‹ โ—‹     โ”‚         โ”‚   โ— โ— โ— โ—      โ”‚
โ”‚        โ—‹ โ—‹ โ—‹    โ”‚         โ”‚     โ— โ— โ—       โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜         โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜
 โ— ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ (๋ถ„๋ฆฌ๋จ)          โ— ํ†ตํ•ฉ๋œ ํ‘œํ˜„ ๊ณต๊ฐ„
 โ—‹ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ (๋ถ„๋ฆฌ๋จ)

ํ•ด์„:

  • ์‚ฌ์ „ํ•™์Šต์ด ๋ถ€์กฑํ•˜๋ฉด: ๋ชจ๋ธ์ด ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์„ ์™„์ „ํžˆ ๋‹ค๋ฅธ ๋ถ„ํฌ๋กœ ์ทจ๊ธ‰
  • ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต ํ›„: ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ๋™์ผํ•œ ํ‘œํ˜„ ๊ณต๊ฐ„์— ๋งคํ•‘

์ด๊ฒƒ์€ ๋งˆ์น˜ ๋‹ค์–‘ํ•œ ์–ธ์–ด๋ฅผ ๋ฐฐ์šด ์‚ฌ๋žŒ์˜ ๋‡Œ์—์„œ โ€œ์˜๋ฏธโ€์™€ โ€œ์–ธ์–ดโ€๊ฐ€ ๋ถ„๋ฆฌ๋˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ถฉ๋ถ„ํžˆ ๋งŽ์€ ๋กœ๋ด‡ ์ข…๋ฅ˜์™€ ํ™˜๊ฒฝ์„ ๊ฒฝํ—˜ํ•˜๋ฉด, ๋ชจ๋ธ์€ โ€œ์ด ํ–‰๋™์€ ๋ฌด์—‡์„ ์˜๋ฏธํ•˜๋Š”๊ฐ€โ€์™€ โ€œ์ด ๋ชธ์ฒด๋Š” ์–ด๋–ป๊ฒŒ ์ƒ๊ฒผ๋Š”๊ฐ€โ€๋ฅผ ๋ถ„๋ฆฌํ•ด์„œ ์ดํ•ดํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


์„ธ๋ถ€ ๋ถ„์„: ์–ด๋””์„œ ์ „์ด๊ฐ€ ์ผ์–ด๋‚˜๋Š”๊ฐ€?

๊ณ ์ˆ˜์ค€ vs ์ €์ˆ˜์ค€ ์ „์ด

๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ ์ˆ˜์ค€(์„œ๋ธŒํƒœ์Šคํฌ ์˜ˆ์ธก)๊ณผ ์ €์ˆ˜์ค€(ํ–‰๋™ ์˜ˆ์ธก) ์ค‘ ์–ด๋””์„œ ๋„์›€์ด ๋˜๋Š”์ง€ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์„ฑ ์„ฑ๋Šฅ
Robot HL + Robot LL ๊ธฐ์ค€์„ 
Human HL + Robot LL ๊ฐœ์„ ๋˜์ง€๋งŒ ๋ถˆ์™„์ „
Robot HL + Human LL ๊ฐœ์„ ๋˜์ง€๋งŒ ๋ถˆ์™„์ „
Human HL + Human LL ์ตœ๊ณ  ์„ฑ๋Šฅ

๋ฐœ๊ฒฌ: ์ „์ด๋Š” ์–‘์ชฝ ์ˆ˜์ค€ ๋ชจ๋‘์—์„œ ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค.

๊ณ ์ˆ˜์ค€๋งŒ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ ์‹œ ๋ฌธ์ œ์ :

  • โ€œ์–‘๋…๋ณ‘์„ ์ง‘์–ดโ€๋ผ๊ณ  ์˜ˆ์ธกํ–ˆ๋Š”๋ฐ, ์ €์ˆ˜์ค€ ์ •์ฑ…์ด ์ด๋ฏธ ํŠธ๋ ˆ์ด์— ์žˆ๋Š” ๋ณ‘์„ ์ง‘์œผ๋ ค ํ•จ

์ €์ˆ˜์ค€๋งŒ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ ์‹œ ๋ฌธ์ œ์ :

  • ๊ณ ์ˆ˜์ค€ ์ •์ฑ…์ด โ€œ์–‘๋…๋ณ‘์„ ์ง‘์–ดโ€๋ฅผ ๊ณ„์† ๋ฐ˜๋ณต ์ถœ๋ ฅ (๋ณ‘์„ ์ด๋ฏธ ์ง‘์—ˆ๋Š”๋ฐ๋„)

์ด๊ฒƒ์€ ฯ€0.5์˜ ๊ณ„์ธต์  ๊ตฌ์กฐ๊ฐ€ ์„œ๋ธŒํƒœ์Šคํฌ์˜ โ€œ์˜๋ฏธโ€์™€ ๊ทธ์— ํ•ด๋‹นํ•˜๋Š” โ€œํ–‰๋™โ€ ๋ชจ๋‘๊ฐ€ ์ •๋ ฌ๋˜์–ด์•ผ ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ธ๊ฐ„ ๋ฐ์ดํ„ฐ vs ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ

์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์ธ์ง€ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ์€ โ€œํƒ€๊ฒŸ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐโ€์™€ โ€œ๋‹ค๋ฅธ ๋กœ๋ด‡(UR5) ๋ฐ์ดํ„ฐโ€์™€ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์†Œ์Šค Bussing ์„ฑ๋Šฅ
๊ธฐ์ค€์„  (Robot Only) ๋‚ฎ์Œ
+ UR5 ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ค‘๊ฐ„
+ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ค‘๊ฐ„
+ ํƒ€๊ฒŸ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋†’์Œ

ํฅ๋ฏธ๋กœ์šด ๋ฐœ๊ฒฌ:

  • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์™€ ๋‹ค๋ฅธ ๋กœ๋ด‡(UR5) ๋ฐ์ดํ„ฐ์˜ ํšจ๊ณผ๊ฐ€ ๋น„์Šท
  • ๋‘˜ ๋‹ค ํƒ€๊ฒŸ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ณด๋‹ค๋Š” ๋ชปํ•จ
  • ํ•˜์ง€๋งŒ ๋‘˜ ๋‹ค ํ™•์‹คํžˆ ๊ธฐ์ค€์„ ๋ณด๋‹ค ๋‚˜์Œ

์ด๊ฒƒ์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ cross-embodiment ์ „์ด์˜ ์ผ์ข…์œผ๋กœ ์ž‘๋™ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„์„ โ€œ๋งค์šฐ ๋‹ค๋ฅธ ๋กœ๋ด‡โ€์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด์ฃ .


์ˆ˜์‹๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ํ•ต์‹ฌ ์š”์†Œ ์ •๋ฆฌ

Flow Matching์˜ ์ง๊ด€์  ์ดํ•ด

Flow matching์€ ์ตœ๊ทผ VLA ๋ชจ๋ธ์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. Diffusion๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ๋” ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด:

  1. ๋ฐ์ดํ„ฐ a (๋ชฉํ‘œ ํ–‰๋™)์™€ ๋…ธ์ด์ฆˆ \epsilon ์‚ฌ์ด์˜ โ€œํ๋ฆ„โ€์„ ์ •์˜
  2. ์‹œ๊ฐ„ t \in [0, 1]์—์„œ์˜ ์ค‘๊ฐ„ ์ƒํƒœ: a_t = (1-t) \cdot \epsilon + t \cdot a
  3. ๋ชจ๋ธ์€ ๊ฐ ์‹œ์ ์—์„œ์˜ โ€œ์†๋„โ€ v = a - \epsilon๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต

\mathcal{L}_{flow} = \mathbb{E}_{a, \epsilon, t} \left[ \| v_\theta(a_t, t) - (a - \epsilon) \|^2 \right]

์ถ”๋ก  ์‹œ:

def generate_action(model, observation, language):
    a = sample_noise()  # ๋žœ๋ค ์‹œ์ž‘์ 
    for t in [0, 0.1, 0.2, ..., 1.0]:
        v = model.predict_velocity(a, t, observation, language)
        a = a + dt * v  # ์†๋„ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™
    return a

ํ–‰๋™ ์ฒญํฌ์˜ ์ƒ๋Œ€ ์ขŒํ‘œ ํ‘œํ˜„

๋กœ๋ด‡๊ณผ ์ธ๊ฐ„ ๋ชจ๋‘์—๊ฒŒ ์ผ๊ด€๋œ ํ–‰๋™ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ์ƒ๋Œ€ ์ขŒํ‘œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:

a_i = T_{current}^{-1} \cdot T_i

  • T_{current}: ํ˜„์žฌ ์—”๋“œ์ดํŽ™ํ„ฐ์˜ 6 DoF ํฌ์ฆˆ
  • T_i: i๋ฒˆ์งธ ๋ฏธ๋ž˜ ์Šคํ…์—์„œ์˜ ํฌ์ฆˆ
  • a_i: ์ƒ๋Œ€ ๋ณ€ํ™˜ (ํ˜„์žฌ ๊ธฐ์ค€)

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ ˆ๋Œ€ ์ขŒํ‘œ์— ์˜์กดํ•˜์ง€ ์•Š๊ณ , โ€œ์•ž์œผ๋กœ ์ด๋™โ€, โ€œ์™ผ์ชฝ์œผ๋กœ ํšŒ์ „โ€ ๊ฐ™์€ ์ƒ๋Œ€์  ํ–‰๋™์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.


์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ๋‹ค์ด์–ด๊ทธ๋žจ

flowchart TD
    subgraph DataCollection["๋ฐ์ดํ„ฐ ์ˆ˜์ง‘"]
        H1[์ธ๊ฐ„ ์˜์ƒ] --> H2["Visual SLAM + ํ•ธ๋“œ ํŠธ๋ž˜ํ‚น"]
        H2 --> H3[6D ์† ๊ถค์  + ์„œ๋ธŒํƒœ์Šคํฌ ์–ธ์–ด]
        R1[๋กœ๋ด‡ ์›๊ฒฉ์กฐ์ข…] --> R2["์—”๋“œ์ดํŽ™ํ„ฐ ๊ถค์  + ์„œ๋ธŒํƒœ์Šคํฌ ์–ธ์–ด"]
    end

    subgraph Pretraining["์‚ฌ์ „ํ•™์Šต (Diverse)"]
        P1[๋‹ค์–‘ํ•œ ์žฅ๋ฉด]
        P2[๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ]
        P3[๋‹ค์–‘ํ•œ ๋กœ๋ด‡]
        P1 & P2 & P3 --> P4[ฯ€0.5 Base Model]
    end

    subgraph Finetuning["ํŒŒ์ธํŠœ๋‹ (Co-training)"]
        F1[์ธ๊ฐ„ ๋ฐ์ดํ„ฐ 50%] --> F3["๋™์ผํ•œ ํ•™์Šต ๋ชฉํ‘œ: Flow Matching, ์„œ๋ธŒํƒœ์Šคํฌ ์˜ˆ์ธก"]
        F2[๋กœ๋ด‡ ๋ฐ์ดํ„ฐ 50%] --> F3
        F3 --> F4[ฯ€0.5 + ego]
    end

    subgraph Inference["์ถ”๋ก "]
        I1[์ƒˆ๋กœ์šด ํ™˜๊ฒฝ/๊ฐ์ฒด/ํƒœ์Šคํฌ] --> I2[ฯ€0.5 + ego]
        I2 --> I3[๋กœ๋ด‡ ํ–‰๋™ ์ถœ๋ ฅ]
    end

    DataCollection --> Finetuning
    Pretraining --> Finetuning
    Finetuning --> Inference


๋น„ํŒ์  ๊ณ ์ฐฐ: ์žฅ์ , ํ•œ๊ณ„, ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค

๐Ÿ‘ ๊ฐ•์ 

  1. ๋‹จ์ˆœํ•จ๊ณผ ์šฐ์•„ํ•จ
    • ๋ณต์žกํ•œ ์ •๋ ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—†์ด โ€œ๊ทธ๋ƒฅ ๊ฐ™์ด ํ•™์Šตโ€ํ•˜๋Š” ์ ‘๊ทผ
    • ๊ธฐ์กด VLA ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์— ์‰ฝ๊ฒŒ ํ†ตํ•ฉ ๊ฐ€๋Šฅ
  2. ์„ค๋“๋ ฅ ์žˆ๋Š” ์‹คํ—˜ ์„ค๊ณ„
    • ๋‹ค์–‘์„ฑ ์Šค์ผ€์ผ๋ง ์‹คํ—˜์œผ๋กœ ์ธ๊ณผ๊ด€๊ณ„ ์ž…์ฆ
    • t-SNE ๋ถ„์„์œผ๋กœ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์„ค๋ช…
  3. ์‹ค์šฉ์  ํ•จ์˜
    • 10~15์‹œ๊ฐ„์˜ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ํ–ฅ์ƒ
    • ์—ํ”ผ์†Œ๋“œ ํ˜•์‹์ด ์•„๋‹Œ โ€œ์ž์—ฐ์Šค๋Ÿฌ์šดโ€ ์ธ๊ฐ„ ์˜์ƒ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ ์‹œ์‚ฌ
  4. Cross-embodiment ๊ด€์ ์˜ ํ†ตํ•ฉ
    • ์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด๋ฅผ ์ƒˆ๋กœ์šด ๊ด€์ (๋‹ค๋ฅธ ๋กœ๋ด‡๊ณผ์˜ ์ „์ด์˜ ๊ทน๋‹จ์  ์‚ฌ๋ก€)์œผ๋กœ ์žฌํ•ด์„

๐Ÿ‘Ž ํ•œ๊ณ„์™€ ์—ด๋ฆฐ ์งˆ๋ฌธ

  1. ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋น„์šฉ
    • โ€œ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šตโ€์ด ์ „์ œ์กฐ๊ฑด
    • ์ž‘์€ ์—ฐ๊ตฌ ๊ทธ๋ฃน์—์„œ๋Š” ์žฌํ˜„ํ•˜๊ธฐ ์–ด๋ ค์›€
    • ฯ€0.5 ์ˆ˜์ค€์˜ ์‚ฌ์ „ํ•™์Šต์—๋Š” ๋ง‰๋Œ€ํ•œ ์ž์› ํ•„์š”
  2. ๊ทธ๋ฆฌํผ ํ–‰๋™์˜ ๋ถˆ์™„์ „ํ•œ ์ „์ด
    • ์ธ๊ฐ„ ์†์˜ โ€œ์—ด๋ฆผ/๋‹ซํž˜โ€์„ ์ถ”์ •ํ•˜์ง€ ์•Š์Œ
    • ๊ทธ๋ฆฌํผ ์ œ์–ด๋Š” ์—ฌ์ „ํžˆ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ์˜์กด
    • ์„ฌ์„ธํ•œ ๊ทธ๋ž˜์Šคํ•‘ ๊ธฐ์ˆ ์˜ ์ „์ด๋Š” ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ์Œ
  3. ์—ํ”ผ์†Œ๋“œ ํ˜•์‹์˜ ์ œ์•ฝ
    • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋„ โ€œ์—ํ”ผ์†Œ๋“œโ€ ํ˜•์‹์œผ๋กœ ์ˆ˜์ง‘ (์‹œ์ž‘-๋์ด ๋ช…ํ™•ํ•œ ์‹œ์—ฐ)
    • YouTube ๊ฐ™์€ โ€œ์ž์—ฐ์ ์ธโ€ ์ธ๊ฐ„ ์˜์ƒ ํ™œ์šฉ์€ ์•„์ง ๋ฏธํ•ด๊ฒฐ
  4. ์ •๋Ÿ‰์  ์ž„๊ณ„์  ๋ถˆ๋ช…ํ™•
    • โ€œ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘์„ฑโ€์˜ ๊ตฌ์ฒด์  ์ •์˜ ๋ถ€์žฌ
    • ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์— ์ ์šฉํ•  ๋•Œ ์–ผ๋งˆ๋‚˜ ๋‹ค์–‘ํ•ด์•ผ ํ•˜๋Š”์ง€ ๋ถˆ๋ช…ํ™•
  5. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ์—ฌ์ „ํ•œ ๋ถ€๋‹ด
    • ๋จธ๋ฆฌ/์†๋ชฉ ์นด๋ฉ”๋ผ ์ฐฉ์šฉ ํ•„์š”
    • ์™„์ „ํžˆ โ€œ์ž์—ฐ์Šค๋Ÿฌ์šดโ€ ํ–‰๋™์€ ์•„๋‹˜

๐Ÿ”ฌ ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์•ˆ

  1. Passive ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ™œ์šฉ
    • ์—ํ”ผ์†Œ๋“œ๊ฐ€ ์•„๋‹Œ ์—ฐ์†์ ์ธ ์ผ์ƒ ์˜์ƒ์—์„œ ํ•™์Šต
    • Ego4D ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์ž์•„์ค‘์‹ฌ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ
  2. ์† ์ƒํƒœ ์ถ”์ • ๊ฐœ์„ 
    • ์†์˜ ์—ด๋ฆผ/๋‹ซํž˜, ํž˜ ๋“ฑ์„ ์ถ”์ •ํ•˜์—ฌ ๊ทธ๋ฆฌํผ ํ–‰๋™ ์ „์ด
    • ์ตœ์‹  ํ•ธ๋“œ ํฌ์ฆˆ ์ถ”์ • ๋ชจ๋ธ (MANO ๋“ฑ) ํ™œ์šฉ
  3. ์ ์€ ์‚ฌ์ „ํ•™์Šต์œผ๋กœ ์ „์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ
    • ์ž‘์€ VLA์—์„œ๋„ ์ „์ด๊ฐ€ ์ฐฝ๋ฐœํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•
    • ์‚ฌ์ „ํ•™์Šต ํšจ์œจ์„ฑ ๊ฐœ์„ 
  4. ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ์œ ํ˜•์œผ๋กœ ํ™•์žฅ
    • ๋„๊ตฌ ์‚ฌ์šฉ, ์„ฌ์„ธํ•œ ์กฐ์ž‘, ์ด์ค‘ ํŒ” ํ˜‘์‘ ๋“ฑ
    • ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋‹จ์ˆœํ•œ pick-and-place ์œ„์ฃผ

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

์ ‘๊ทผ๋ฒ• ๋ฐฉ๋ฒ• ์žฅ์  ๋‹จ์ 
R3M, VIP ์ธ๊ฐ„ ์˜์ƒ์œผ๋กœ ๋น„์ „ ์ธ์ฝ”๋”๋งŒ ํ•™์Šต ๋ฒ”์šฉ์  ์‹œ๊ฐ ํ‘œํ˜„ ํ–‰๋™ ์ •๋ณด ํ™œ์šฉ ๋ชปํ•จ
Track2Act ํ‚คํฌ์ธํŠธ ํŠธ๋ž˜ํ‚น์œผ๋กœ ์ค‘๊ฐ„ ํ‘œํ˜„ ํ–‰๋™ ์ •๋ณด ์ผ๋ถ€ ํฌ์ฐฉ ์ˆ˜๋™ ์„ค๊ณ„ ํ•„์š”
AR2-D2 AR/VR๋กœ ์ธ๊ฐ„-๋กœ๋ด‡ ๋ช…์‹œ์  ์ •๋ ฌ ์ •ํ™•ํ•œ ์ •๋ ฌ ๊ฐ€๋Šฅ ํŠน์ˆ˜ ์žฅ๋น„ ํ•„์š”, ํ™•์žฅ์„ฑ ์ œํ•œ
EgoMimic ์ธ๊ฐ„ ์˜์ƒ + ๋กœ๋ด‡ ๊ณต๋™ ํ•™์Šต ๊ฐ„๋‹จํ•œ ํŒŒ์ดํ”„๋ผ์ธ ์ž‘์€ ์Šค์ผ€์ผ์—์„œ ๋ถˆ์•ˆ์ •
ฯ€0.5 + ego (๋ณธ ๋…ผ๋ฌธ) ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต + ๊ณต๋™ ํŒŒ์ธํŠœ๋‹ ๋ช…์‹œ์  ์ •๋ ฌ ๋ถˆํ•„์š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ํ•„์š”

๋ณธ ๋…ผ๋ฌธ์˜ ์ฐจ๋ณ„์ :

  • ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ธ๊ฐ„-๋กœ๋ด‡ โ€œ์ •๋ ฌโ€์„ ์œ„ํ•œ ๋ณ„๋„ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•„์š”
  • ๋ณธ ๋…ผ๋ฌธ์€ ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘์„ฑ์ด ์ •๋ ฌ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ฐฝ๋ฐœ์‹œํ‚จ๋‹ค๊ณ  ์ฃผ์žฅ

์‹ค๋ฌด์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 

๐Ÿ› ๏ธ ์–ธ์ œ ์ด ๋ฐฉ๋ฒ•์„ ๊ณ ๋ คํ• ๊นŒ?

  1. ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์— ์ ‘๊ทผ ๊ฐ€๋Šฅํ•  ๋•Œ
    • ฯ€0.5 ๋˜๋Š” ์œ ์‚ฌํ•œ ๋‹ค์–‘์„ฑ์„ ๊ฐ€์ง„ VLA ํ•„์š”
    • API๋‚˜ ์˜คํ”ˆ์†Œ์Šค ์ฒดํฌํฌ์ธํŠธ ํ™œ์šฉ ๊ฐ€๋Šฅ
  2. ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ/๊ฐ์ฒด/ํƒœ์Šคํฌ๋กœ ํ™•์žฅํ•  ๋•Œ
    • ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ค์šด ํ™˜๊ฒฝ
    • ์ธ๊ฐ„ ์‹œ์—ฐ์ด ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ํƒœ์Šคํฌ
  3. ๋น ๋ฅธ ํ”„๋กœํ† ํƒ€์ดํ•‘
    • ์ƒˆ ํƒœ์Šคํฌ ์ปจ์…‰์„ ๋น ๋ฅด๊ฒŒ ํ…Œ์ŠคํŠธ
    • ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋กœ ๋จผ์ € ๊ฒ€์ฆ ํ›„ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

โš ๏ธ ์ฃผ์˜์‚ฌํ•ญ

  1. ์‚ฌ์ „ํ•™์Šต ํ’ˆ์งˆ ํ™•์ธ
    • ์‚ฌ์šฉํ•˜๋Š” VLA๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต์„ ๊ฑฐ์ณค๋Š”์ง€ ํ™•์ธ
    • ๋‹ค์–‘์„ฑ ๋ถ€์กฑ ์‹œ ์˜คํžˆ๋ ค ์„ฑ๋Šฅ ์ €ํ•˜ ๊ฐ€๋Šฅ
  2. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ
    • ์—ํ”ผ์†Œ๋“œ ํ˜•์‹์œผ๋กœ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ตฌ๋ถ„
    • ์ผ๊ด€๋œ ์‹œ์ ๊ณผ ์กฐ๋ช… ์œ ์ง€
    • ์„œ๋ธŒํƒœ์Šคํฌ ์ฃผ์„์˜ ์ •ํ™•์„ฑ ์ค‘์š”
  3. ๊ทธ๋ฆฌํผ ์˜์กด ํƒœ์Šคํฌ ์ฃผ์˜
    • ์„ฌ์„ธํ•œ ๊ทธ๋ž˜์Šคํ•‘์ด ํ•ต์‹ฌ์ธ ํƒœ์Šคํฌ๋Š” ์ œํ•œ์ 
    • ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ๊ทธ๋ฆฌํผ ๊ธฐ์ˆ  ๋ณด์™„ ํ•„์š”

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€

  1. ์ฐฝ๋ฐœ์  ์ „์ด: ์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด๋Š” ๋‹ค์–‘ํ•œ VLA ์‚ฌ์ „ํ•™์Šต์˜ ์ฐฝ๋ฐœ์  ์†์„ฑ
  2. ๋‹ค์–‘์„ฑ์ด ํ•ต์‹ฌ: ์žฅ๋ฉด, ํƒœ์Šคํฌ, ๋กœ๋ด‡ ์ข…๋ฅ˜์˜ ๋‹ค์–‘์„ฑ์ด ์ž„๊ณ„์ ์„ ๋„˜์œผ๋ฉด ์ „์ด ๊ฐ€๋Šฅ
  3. Embodiment-Agnostic ํ‘œํ˜„: ๋‹ค์–‘ํ•œ ํ•™์Šต์€ ์‹ ์ฒด ํ˜•ํƒœ์— ๋…๋ฆฝ์ ์ธ ํ‘œํ˜„์„ ๋งŒ๋“ฆ
  4. ์‹ค์šฉ์  ํšจ๊ณผ: ์ ์€ ์–‘์˜ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ(10~15์‹œ๊ฐ„)๋กœ ์„ฑ๋Šฅ ๊ฑฐ์˜ 2๋ฐฐ ํ–ฅ์ƒ

๋กœ๋ด‡๊ณตํ•™์— ์ฃผ๋Š” ์‹œ์‚ฌ์ 

์ด ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡ ํ•™์Šต์˜ โ€œ๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉโ€์„ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ:

โ€œ๋” ๋งŽ์€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ = ๋” ๋‚˜์€ ๋กœ๋ด‡โ€

ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค:

โ€œ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•˜๊ฒŒ ํ•™์Šตํ•œ ๋กœ๋ด‡ = ์ธ๊ฐ„์—๊ฒŒ์„œ๋„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๋กœ๋ด‡โ€

์ด๊ฒƒ์€ ๋งˆ์น˜ ์–ธ์–ด ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ์ปค์ง€๋ฉด zero-shot์œผ๋กœ ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ๋กœ๋ด‡ ๋ชจ๋ธ๋„ ์Šค์ผ€์ผ์˜ ๋งˆ๋ฒ•์ด ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ‰๋‹ˆ๋‹ค. YouTube์— ์žˆ๋Š” ์ˆ˜์‹ญ์–ต ์‹œ๊ฐ„์˜ ์ธ๊ฐ„ ์˜์ƒ์„ ์ •๋ง๋กœ ํ™œ์šฉํ•˜๋ ค๋ฉด, ์—ํ”ผ์†Œ๋“œ ํ˜•์‹์ด ์•„๋‹Œ ์—ฐ์†์ ์ธ ์˜์ƒ, ๋‹ค์–‘ํ•œ ์‹œ์ , ๋ถˆ์™„์ „ํ•œ ๊ด€์ฐฐ ๋“ฑ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์€ ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ์˜ ์ฒซ๊ฑธ์Œ์„ ๋‚ด๋”›์—ˆ์Šต๋‹ˆ๋‹ค.

โ€œ์ถฉ๋ถ„ํžˆ ๋งŽ์€ ๊ฒƒ์„ ๋ณธ ๋กœ๋ด‡์€ ์ธ๊ฐ„์„ ๊ด€์ฐฐํ•˜๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋„ ์ƒˆ๋กœ์šด ๊ฒƒ์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค. ๋งˆ์น˜ ์•„์ด๊ฐ€ ๋ถ€๋ชจ๋ฅผ ๋ณด๊ณ  ๋ฐฐ์šฐ๋“ฏ์ด.โ€

์ฐธ๊ณ  ๋ฌธํ—Œ (์„ ๋ณ„)

  • [8] Black et al. โ€œฯ€0: A vision-language-action flow model for general robot control.โ€ 2024.
  • [20] Physical Intelligence et al. โ€œฯ€0.5: a vision-language-action model with open-world generalization.โ€ 2025.
  • [22] Kareer et al. โ€œEgoMimic: Scaling imitation learning via egocentric video.โ€ 2024.
  • [33] Open X-Embodiment Collaboration. โ€œOpen X-Embodiment: Robotic learning datasets and RT-X models.โ€ 2023.
  • [47] Wei et al. โ€œEmergent abilities of large language models.โ€ 2022.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ

์ตœ์‹  ์‹œ๊ฐ-์–ธ์–ด-ํ–‰๋™(Vision-Language-Action, VLA) ๋ชจ๋ธ์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์ ์ธ ๋กœ๋ด‡ ์ •์ฑ…์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ํ’๋ถ€ํ•œ ์‹œ๊ฐ-์–ธ์–ด ์ •๋ณด๋ฅผ ๋กœ๋ด‡ ๊ฒฝํ—˜๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ด‘๋ฒ”์œ„ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ทธ ๋Œ€๊ฐ€๋กœ ๋งค์šฐ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋‹ค์–‘ํ•˜๊ณ  ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ํŠนํžˆ, ์ธ๊ฐ„์ด ์ˆ˜ํ–‰ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ƒํ™ฉ์„ ๋‹ด์€ ๋น„๋””์˜ค๋Š” ์–ป๊ธฐ ์‰ฝ๊ณ  ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋กœ๋ด‡ ํ›ˆ๋ จ์— ํ™œ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋งค์šฐ ํฌ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ „ํ†ต์ ์œผ๋กœ ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ๊ณง๋ฐ”๋กœ ๋กœ๋ด‡ ํ–‰๋™์œผ๋กœ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šด ๋ฌธ์ œ์˜€๋‹ค. ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡์€ ์ฒดํ˜•(embodiment)๋ฟ ์•„๋‹ˆ๋ผ ์‹œ์ ๊ณผ ๋™์ž‘ ๋ฐฉ์‹์—์„œ๋„ ํฐ ์ฐจ์ด๊ฐ€ ์žˆ์–ด, ์ด๋“ค ๊ฐ„ ๋Œ€์‘(mapping)์—๋Š” ์ˆ˜๋™์ ์ธ ์„ค๊ณ„๋‚˜ ๋ณต์žกํ•œ ์กฐ์ •์ด ํ•„์š”ํ–ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM) ์—ฐ๊ตฌ์—์„œ ๋ฐœ๊ฒฌ๋œ ์œ ์‚ฌํ•œ ํ˜„์ƒ์— ์˜๊ฐ์„ ์–ป์–ด, โ€œ์ถฉ๋ถ„ํžˆ ํฌ๊ณ  ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต(pre-training)โ€์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด ์ธ๊ฐ„ ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ์ •์ฑ…์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ „์ด(transfer)๋˜๋Š” ๋Šฅ๋ ฅ์ด ์ถœํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํƒ๊ตฌํ•œ๋‹ค. ์ฆ‰, ๊ธฐ์กด์—๋Š” ๋ณ„๋„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‚˜ ์ •๋ ฌ ๊ธฐ๋ฒ• ์—†์ด๋Š” ๋ฐฐ์šธ ์ˆ˜ ์—†์„ ๊ฒƒ ๊ฐ™์•˜๋˜ ์ธ๊ฐ„-๋กœ๋ด‡ ์ง€์‹ ์ „์ด๊ฐ€, ๋ชจ๋ธ ๊ทœ๋ชจ๋‚˜ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์ด ์ผ์ • ์ˆ˜์ค€์„ ๋„˜์œผ๋ฉด ์•”๋ฌต์ ์œผ๋กœ ํ•™์Šต๋˜๊ธฐ ์‹œ์ž‘ํ•  ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์„ค์ด๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ„๋‹จํ•œ ์ฝ”-ํŠธ๋ ˆ์ด๋‹(co-training) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฑฐ๋Œ€ํ•œ ๋กœ๋ด‡ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ VLA์— ์ธ๊ฐ„ ํ–‰๋™ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€๋กœ ๋ฏธ์„ธ์กฐ์ •(fine-tuning)ํ•˜์—ฌ, ์ธ๊ฐ„ ๋น„๋””์˜ค์—๋งŒ ์กด์žฌํ•˜๋Š” ์ƒˆ๋กœ์šด ์žฅ๋ฉด(Scene), ๊ฐ์ฒด(Object), ์ž‘์—…(Task)์—์„œ ๋กœ๋ด‡์ด ์„ฑ๊ณต์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์‚ดํŽด๋ณธ๋‹ค.

์ฃผ์š” ๋ฐœ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•˜๊ณ  ๋งŽ์€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ VLA๋Š”, ํŠน๋ณ„ํ•œ ์ •๋ ฌ ์—†์ด ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ํ•™์Šตํ•ด๋„ ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ์ถœํ˜„(emergent) ํ•œ๋‹ค. ์‹ค์ œ๋กœ ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋„ค ๊ฐ€์ง€ ์ผ๋ฐ˜ํ™” ์‹œ๋‚˜๋ฆฌ์˜ค(์ƒˆ๋กœ์šด ๋ถ€์—Œ๊ณผ ๋ฐฉ, ์ƒˆ๋กœ์šด ์‹๊ธฐ ๋ฐ ์†Œํ’ˆ, ์ƒ‰๊น”๋ณ„ ๊ณ„๋ž€ ๋ถ„๋ฅ˜)์—์„œ, ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•ด ๋ฏธ์„ธ์กฐ์ •ํ•˜๋ฉด ๋กœ๋ด‡ ์ •์ฑ… ์„ฑ๋Šฅ์ด ๋Œ€์ฒด๋กœ 2๋ฐฐ ๊ฐ€๊นŒ์ด ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ ๊ธฐ์—ฌ, ์ œ์•ˆ๋œ ๋ชจ๋ธ ๋ฐ ํ•™์Šต ๋ฐฉ๋ฒ•, ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ํ•ด์„, ํ•œ๊ณ„์™€ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์„ ์ƒ์„ธํžˆ ์‚ดํŽด๋ณด๊ณ , ๊ด€๋ จ ์—ฐ๊ตฌ์™€ ๋น„๊ตํ•ด ๋ณธ๋‹ค.

์ œ์•ˆ ๋ฐฉ๋ฒ•: ๋ชจ๋ธ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„

๋ชจ๋ธ ๊ฐœ์š” โ€“ Vision-Language-Action (VLA) ๋ชจ๋ธ. ์ด ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉํ•˜๋Š” VLA๋Š” ๊ฑฐ๋Œ€ํ•œ ์‚ฌ์ „ ํ•™์Šต๋œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(์˜ˆ: RT-1์˜ ํ›„์† ๋ชจ๋ธ ๊ธฐ๋ฐ˜)์— ๊ธฐ๋ฐ˜ํ•˜๋ฉฐ, ์ž…๋ ฅ์œผ๋กœ ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ ์ž์—ฐ์–ด ๋ช…๋ น์–ด๋ฅผ ๋ฐ›์•„ ๋กœ๋ด‡์˜ ์—ฐ์†์  ๋™์ž‘์„ ์˜ˆ์ธกํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ VLA๋Š” ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(์›๊ฒฉ ์กฐ์ข…)์œผ๋กœ ์ˆ˜์ง‘ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ, ์›น ์Šค์ผ€์ผ์˜ ์ด๋ฏธ์ง€/๋น„๋””์˜ค-์–ธ์–ด ๋ฐ์ดํ„ฐ, ์ž‘์—…์„ ์„ค๋ช…ํ•˜๋Š” ์–ธ์–ด ์ฃผ์„ ๋“ฑ์„ ๊ฒฐํ•ฉํ•ด ํ›ˆ๋ จ๋œ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ ๋จผ์ € ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์ž‘์—…ยท์žฅ๋ฉด ๋ฐ์ดํ„ฐ(์„œ๋กœ ๋‹ค๋ฅธ ํ™˜๊ฒฝ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ธฐ๊ตฌ ํฌํ•จ)๋กœ VLA๋ฅผ ์‚ฌ์ „ํ•™์Šตํ•˜๊ณ , ์ดํ›„ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€๋กœ ํ•™์Šต์‹œํ‚จ๋‹ค.

์‚ฌ์ „ํ•™์Šต(Pre-training). ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ์˜ค์ง ๋กœ๋ด‡ ์›๊ฒฉ ์กฐ์ข… ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ๋œ๋‹ค. ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ์ •๋ฐ€์กฐ์ž‘(eg. ์‹ํƒ ์„œ๋น™, ๋ฌผ๊ฑด ์ •๋ฆฌ, ๋‚˜์‚ฌ ์ฒด๊ฒฐ ๋“ฑ) ๋ฐ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ(๊ฐ€์ •, ์ž‘์—…์žฅ ๋“ฑ)์ด ํฌํ•จ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ๋ชจ๋ธ์ด ์ผ๋ฐ˜์ ์ธ ๋กœ๋ด‡ ์กฐ์ž‘๊ณผ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•™์Šตํ•œ๋‹ค. ์ด๋•Œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด-๋น„์ „ ๋ฐฑ๋ณธ(transformer) ์œ„์— ํ–‰๋™ ์˜ˆ์ธก ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•œ ํ˜•ํƒœ๋กœ, ์—ฐ์† ๋™์ž‘์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด FAST [35] ํ† ํฐ(discrete ํ–‰๋™ ์ฝ”๋“œ)๊ณผ flow-matching ๋„คํŠธ์›Œํฌ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•œ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์€ ์ผ์ • ๊ธธ์ด์˜ ํ–‰๋™ ์ฒญํฌ(a chunk of actions)๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋˜๋ฉฐ, ์ด๋Š” ์—ฐ์†์ ์ธ ๋ง๋‹จ์œ„์น˜/์ž์„ธ๋ฅผ ํฌํ•จํ•œ๋‹ค. ๋˜ํ•œ ํ•˜์œ„๊ณผ์ œ(subtask) ์˜ˆ์ธก์„ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋“ˆ๋„ ๋„์ž…๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋ธ์€ ๊ณ ์ˆ˜์ค€ ๋ช…๋ น(์˜ˆ: โ€œ๊ณ„๋ž€์„ ์ •๋ฆฌํ•ด๋ผโ€)์„ ๋ฐ›์œผ๋ฉด ๋จผ์ € โ€œ๊ณ„๋ž€์„ ๋“ ๋‹ค โ†’ ์ƒ‰๊น”์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ํ•œ๋‹ค โ†’ ์ƒ์ž์— ๋„ฃ๋Š”๋‹คโ€์™€ ๊ฐ™์€ ์ค‘๊ฐ„์˜ ํ•˜์œ„๊ณผ์ œ ์‹œํ€€์Šค๋ฅผ ์–ธ์–ด๋กœ ์˜ˆ์ธกํ•˜๊ณ , ์ด๋ฅผ ๋‹ค์‹œ ํ–‰๋™ ์ƒ์„ฑ์— ํ™œ์šฉํ•œ๋‹ค(๋งํ•˜์ž๋ฉด ์ผ์ข…์˜ โ€œ์‚ฌ๊ณ  ๊ณผ์ •(chain-of-thought)โ€์ฒ˜๋Ÿผ ๋™์ž‘). ์ด ๋ชจ๋“  ํ•™์Šต์€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ด๋ฃจ์–ด์ง€๋ฉฐ, ๋„ค๋Ÿฌํ‹ฐ๋ธŒ ํ† ํฐ(next-token prediction)๊ณผ flow-matching ์†์‹ค์„ ๋™์‹œ์— ์ตœ์ ํ™”ํ•œ๋‹ค.

์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ‘œํ˜„. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์—ญ๋ฐฉํ–ฅ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์Šคํƒ€์ผ(human teleop)์œผ๋กœ ์ธ๊ฐ„์ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์˜์ƒ์„ ์ˆ˜์ง‘ํ–ˆ๋‹ค. ์ˆ˜์ง‘ ์žฅ๋น„๋Š” ๋จธ๋ฆฌ์— ์ฐฉ์šฉํ•œ ๊ณ ํ•ด์ƒ๋„ ์นด๋ฉ”๋ผ์™€ ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ์–‘์ชฝ ์†๋ชฉ ์นด๋ฉ”๋ผ๋ฅผ ๋™๊ธฐํ™”ํ•˜์—ฌ, ์ธ๊ฐ„ ์ž‘์—…์ž์˜ ๋™์ž‘์„ ๋‹ค์–‘ํ•œ ๊ด€์ ์—์„œ ๊ธฐ๋กํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค(๊ทธ๋ฆผ ์ฐธ์กฐ). ์ด๋ ‡๊ฒŒ ํš๋“ํ•œ ์˜์ƒ์€ SLAM ๊ธฐ๋ฒ•์„ ์ด์šฉํ•ด ์นด๋ฉ”๋ผ์˜ 6์ž์œ ๋„ ์ด๋™ ๊ถค์ ์„ ๊ณ„์‚ฐํ•˜๊ณ , ์ตœ์‹  3D ํ‚คํฌ์ธํŠธ ์ถ”์ • ๋ชจ๋ธ๋กœ ์–‘์† 17๊ฐœ ๊ด€์ ˆ์˜ 3D ์œ„์น˜๋ฅผ ์ถ”์ถœํ•œ๋‹ค. ๋˜ํ•œ ์ž‘์—… ํ๋ฆ„์„ ์„ธ๋ถ„ํ™”ํ•œ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ•˜์œ„๊ณผ์ œ(subtask) ๋ ˆ์ด๋ธ”์„ ์ถ”๊ฐ€๋กœ ๋‹ฌ์•„, ์˜ˆ๋ฅผ ๋“ค์–ด โ€œํ–ฅ์‹ ๋ฃŒํ†ต์„ ๋“ค์–ด ์˜ฌ๋ฆฌ๊ธฐโ€, โ€œ๋ฌผ๊ฑด์„ ์ƒ์ž์— ๋„ฃ๊ธฐโ€ ๋“ฑ์˜ ์„ค๋ช…์„ ๋ถ™์ธ๋‹ค.

์ธ๊ฐ„-๋กœ๋ด‡ ํ–‰๋™ ์ •๋ ฌ(Alignment). ์ˆ˜์ง‘๋œ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ํ–‰๋™๊ณผ ๊ฐ™์€ ํ˜•์‹์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์ธ๊ฐ„ ์† ๋ชจ์…˜์„ ๋กœ๋ด‡ ๋ง๋‹จํšจ๊ณผ๊ธฐ(end-effector) ์›€์ง์ž„์œผ๋กœ ๋Œ€์‘์‹œ์ผฐ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ธ๊ฐ„ ์†์˜ ์†๋ฐ”๋‹ฅ๊ณผ ์†๊ฐ€๋ฝ(์ค‘์ง€, ์•ฝ์ง€)์˜ 3D ํ‚คํฌ์ธํŠธ๋“ค์„ ํ•ฉ์ณ ํ•˜๋‚˜์˜ โ€œ๊ฐ€์ƒ ๋ง๋‹จํšจ๊ณผ๊ธฐ ํฌ์ฆˆโ€๋กœ ์ •์˜ํ•œ๋‹ค(๊ทธ๋ฆผ 6 ์ฐธ์กฐ). ๊ฐ ์‹œ๊ฐ„ ๊ตฌ๊ฐ„๋งˆ๋‹ค ์ธ๊ฐ„ ์†์˜ ๋ง๋‹จํšจ๊ณผ๊ธฐ ์ž์„ธ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์ด๋ฅผ ๋กœ๋ด‡ ๋ง๋‹จํšจ๊ณผ๊ธฐ ์ž์„ธ์™€ ๋น„์Šทํ•œ ํ˜•ํƒœ์˜ ์ƒ๋Œ€ ๋ณ€ํ™˜(relative transform)์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ๋‘ ์†์˜ 6์ž์œ ๋„ ๋ง๋‹จํšจ๊ณผ๊ธฐ ๊ถค์ (์ด 12์ž์œ ๋„) + ๊ธฐ๋ณธ ๋ฒ ์ด์Šค ์›€์ง์ž„(6์ž์œ ๋„)์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค. ๋‹จ, ์ธ๊ฐ„์˜ ์†๋ชฉ ๊ฒฐํ•ฉ๋ถ€๋Š” ๊ทธ๋ฆฌํผ ๋Œ€์‹  6์ž์œ ๋„๋งŒ ๊ณ ๋ คํ•˜์—ฌ ์ด ํ–‰๋™ ์ฐจ์›์€ ๋กœ๋ด‡(16์ฐจ์›)๋ณด๋‹ค ์•ฝ๊ฐ„ ์ ์€ 18์ฐจ์›(Hร—18) ์ด ๋œ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์ธ๊ฐ„์˜ ์˜์ƒ์ด ๋กœ๋ด‡์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ–‰๋™ ๋ ˆ์ด๋ธ”๋กœ ๋ณ€ํ™˜๋˜๋ฉฐ, ๋ณ„๋„์˜ ์ˆ˜๋™ ์ •๋ ฌ ์—†์ด ์ธ๊ฐ„-๋กœ๋ด‡ ํ–‰๋™ ๊ฐ„ ์˜๋ฏธ์  ์—ฐ๊ฒฐ์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

graph LR
    A["์‚ฌ์ „ํ•™์Šต: ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ"] --> B["๊ธฐ์ € ๋ชจ๋ธ ฯ€0.5"]
    B --> C["์ธ๊ฐ„ ๋น„๋””์˜ค ์ˆ˜์ง‘ ๋ฐ ์ฒ˜๋ฆฌ"]
    C --> D["๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ 50:50 ํ˜ผํ•ฉ ๋ฏธ์„ธ์กฐ์ •"]
    D --> E["์ƒˆ๋กœ์šด ๊ฐœ๋… ์ผ๋ฐ˜ํ™”"]

๊ทธ๋ฆผ 1: ์ œ์•ˆ๋œ VLA ํ›ˆ๋ จ ๋ฐ ๋ฏธ์„ธ์กฐ์ • ํŒŒ์ดํ”„๋ผ์ธ. ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ VLA(ฯ€0.5)์— ์ธ๊ฐ„ ๋น„๋””์˜ค๋ฅผ ์ถ”๊ฐ€๋กœ ํ•™์Šตํ•จ์œผ๋กœ์จ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์—๋งŒ ์กด์žฌํ•˜๋Š” ์ƒˆ๋กœ์šด ์ž‘์—… ๊ฐœ๋…์„ ๋กœ๋ด‡์ด ์ตํž ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

Co-Training ๋ฐฉ๋ฒ•. ๋ชจ๋ธ ์„ธ๋ถ€ ์„ค์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋จผ์ €, ๋ ˆ๋ฒจ-0์—์„œ ํ›ˆ๋ จ๋œ ๊ธฐ์ € VLA(ฯ€0.5)๋ฅผ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๋กœ๋ด‡ ์ž‘์—… ๋ฐ์ดํ„ฐ๋ฅผ ๋งค์นญํ•˜์—ฌ 1:1 ๋น„์œจ๋กœ 50:50 ํ˜ผํ•ฉํ•ด ๋ฏธ์„ธ์กฐ์ •ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ„๋ž€ ์ƒ‰์ƒ๋ณ„ ๋ถ„๋ฅ˜ ์ž‘์—…์„ ํฌํ•จํ•œ๋‹ค๋ฉด, ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ๋Š” โ€œ๊ณ„๋ž€์„ ์ƒ์ž์— ๋„ฃ๊ธฐโ€์™€ ๊ฐ™์€ ๊ฐ€์žฅ ๊ทผ์ ‘ํ•œ ์ž‘์—…์„ ์„ ํƒํ•œ๋‹ค. ์ด๋•Œ ํ•™์Šต ๋ชฉํ‘œ(Objectives)๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ์ „ํ˜€ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€๋œ๋‹ค: ์–ธ์–ด ๋ช…๋ น๊ณผ ์‹œ๊ฐ ๊ด€์ฐฐ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ•˜์œ„๊ณผ์ œ ๋ ˆ์ด๋ธ”(subtask) ๋ฐ ์—ฐ์† ํ–‰๋™์„ ์˜ˆ์ธกํ•œ๋‹ค. ๋ชจ๋ธ์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์™€ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ ์—†์ด ํ•จ๊ป˜ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ํŠน๋ณ„ํ•œ ๋„๋ฉ”์ธ ์–ด๋Œ‘ํ„ฐ๋‚˜ ์ •๋ ฌ ์†์‹ค ์—†์ด ํ†ตํ•ฉ๋œ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํ•™์Šตํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ธ๊ฐ„ ๋น„๋””์˜ค๋Š” ๊ทธ์ € ๋˜ ๋‹ค๋ฅธ โ€œ์ž„๋ฒ ๋””๋“œ ํ˜•ํƒœ(์ธ๊ฐ„ ํ˜•ํƒœ)โ€์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์— ์ œ๊ณต๋˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์˜ ํ‘œํ˜„ ๋Šฅ๋ ฅ์ด ์ด๋“ค ๊ฐ„์˜ ์‹œ๋งจํ‹ฑํ•œ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šฐ๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•œ๋‹ค.

์‹คํ—˜: ์„ค์ •, ๊ฒฐ๊ณผ ๋ฐ ํ•ด์„

์ €์ž๋“ค์€ ์ œ์•ˆ๋œ ์ฝ”-ํŠธ๋ ˆ์ด๋‹ ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์—์„œ๋งŒ ์ƒˆ๋กœ์šด ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š” ์ผ๋ฐ˜ํ™”(generalization) ์‹œ๋‚˜๋ฆฌ์˜ค๋“ค๋กœ ๊ตฌ์„ฑ๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ–ˆ๋‹ค(๊ทธ๋ฆผ 3 ์ฐธ์กฐ). ์ฃผ์š” ํ…Œ์ŠคํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค๋Š” ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ๋ฒ”์ฃผ์— ์†ํ•œ๋‹ค:

  • ์žฅ๋ฉด(Scene) ์ผ๋ฐ˜ํ™”: ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์–‘ํ•œ ๊ฐ€์ •์—์„œ ํ–ฅ์‹ ๋ฃŒ ์„ ๋ฐ˜(spice rack)์„ ์ •๋ฆฌํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๋ฉด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์ƒˆ๋กœ์šด ๋ถ€์—Œ์„ ๋ฐฐ๊ฒฝ์œผ๋กœ ๊ฐ™์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ™”์žฅ๋Œ€(dresser) ์ •๋ฆฌ ์ž‘์—…์„ ๋งŽ์€ ์ง‘์—์„œ ํ•™์Šต์‹œ์ผฐ๋‹ค๋ฉด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์•„์ง ํ•™์Šต๋˜์ง€ ์•Š์€ ํŠน์ • ์นจ์‹ค์—์„œ ์ •๋ฆฌํ•˜๋Š” ์˜์ƒ์„ ์ œ๊ณตํ•œ๋‹ค.
  • ๋ฌผ์ฒด(Object) ์ผ๋ฐ˜ํ™”: ์˜ˆ๋ฅผ ๋“ค์–ด ์“ฐ๋ ˆ๊ธฐ์™€ ์‹๊ธฐ๊ฐ€ ์–ด์งˆ๋Ÿฌ์ง„ ์‹ํƒ(table) ์ฒญ์†Œ ์ž‘์—…์„ ๋กœ๋ด‡์ด ํ•™์Šตํ–ˆ๋‹ค๋ฉด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ์ƒˆ๋กœ์šด ์ข…๋ฅ˜์˜ ๋ถ€์—Œ ๋„๊ตฌ๋‚˜ ์†Œํ’ˆ(ํ”Œ๋ผ์Šคํ‹ฑ ํ†ต, ํ‚ค์นœํƒ€์›” ๋“ฑ)์„ ํฌํ•จํ•˜์—ฌ ๊ฐ™์€ ํ…Œ์ด๋ธ”์„ ์น˜์šฐ๋„๋ก ํ•œ๋‹ค.
  • ์ž‘์—…(Task) ์ผ๋ฐ˜ํ™”: ์˜ˆ๋ฅผ ๋“ค์–ด ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ๋Š” ๊ณ„๋ž€์„ ์ƒ์ž์— ๋‹ด๋Š” ๋‹จ์ˆœ ์ž‘์—…๋งŒ ํ•™์Šตํ–ˆ๋‹ค๋ฉด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ๊ณ„๋ž€ ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜(๋นจ๊ฐ„ ๊ณ„๋ž€์€ ์™ผ์ชฝ ์ƒ์ž, ํŒŒ๋ž€ ๊ณ„๋ž€์€ ์˜ค๋ฅธ์ชฝ ์ƒ์ž)์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ํฌํ•จํ•œ๋‹ค.

๊ฐ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€ํ•ด ๋กœ๋ด‡์€ ฯ€0.5 ๋ชจ๋ธ(๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ ํ•™์Šต)๊ณผ ฯ€0.5+ego ๋ชจ๋ธ(๋กœ๋ด‡+์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ฝ”ํŠธ๋ ˆ์ด๋‹)์„ ๋น„๊ตํ•œ๋‹ค. ํ‰๊ฐ€๋Š” ํ•ด๋‹น ์ผ๋ฐ˜ํ™” ๊ณผ์ œ์˜ ์„ฑ๊ณต๋ฅ ์ด๋‚˜ ๋ฐฐ์น˜๋œ ๊ฐ์ฒด ์ˆ˜ ๋“ฑ์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค(์˜ˆ: ๊ณ„๋ž€ ๋ถ„๋ฅ˜์˜ ๊ฒฝ์šฐ ์ƒ‰์ƒ๋ณ„๋กœ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋„ฃ์€ ๊ณ„๋ž€ ์ˆ˜).

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋จผ์ € ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€๋กœ ํ•™์Šตํ•œ ฯ€0.5+ego ๋ชจ๋ธ์ด ๋ชจ๋“  ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ธฐ์ค€(๋กœ๋ด‡๋งŒ ํ•™์Šต)๋ณด๋‹ค ๋šœ๋ ทํ•˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค(๊ทธ๋ฆผ 7, ํ‘œ 1). ์˜ˆ๋ฅผ ๋“ค์–ด, ํ–ฅ์‹ ๋ฃŒ ์ •๋ฆฌ(Spice) ์ž‘์—…์—์„œ๋Š” ์ •ํ™•๋„๊ฐ€ 32%์—์„œ 71%๋กœ, ํ™”์žฅ๋Œ€ ์ •๋ฆฌ(Dresser)๋Š” 25%์—์„œ 50%๋กœ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. ํ…Œ์ด๋ธ” ์ฒญ์†Œ(Bussing) ์ž‘์—…๋„ 53%์—์„œ 63%๋กœ ์ƒ์Šนํ–ˆ๋‹ค. ํŠนํžˆ ๊ณ„๋ž€ ๋ถ„๋ฅ˜(Eggs) ์ž‘์—…์—์„œ๋Š” ฯ€0.5๊ฐ€ ๋ถ„๋ฅ˜ ๊ฐœ๋…์„ ์•Œ์ง€ ๋ชปํ•ด ๋žœ๋ค ์ˆ˜์ค€(57% ์ •ํ™•๋„)์— ๋จธ๋ฌผ๋ €์ง€๋งŒ, ฯ€0.5+ego๋Š” ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜๋ฒ•์„ ํ•™์Šตํ•ด 78% ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜์˜€์œผ๋ฉฐ ํ‰๊ท ์ ์œผ๋กœ 4๊ฐœ์˜ ๊ณ„๋ž€์„ ๋” ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜ํ–ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ์ผ๋ฐ˜ํ™” ์ถ•(scene, object, task)์—์„œ ๋ชจ๋‘ ์ธ๊ฐ„ ์˜์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์‹ค์งˆ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํ™•์ธ๋˜์—ˆ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ์ด๋‹ค.

ํƒœ์Šคํฌ (์ž‘์—…) ์ผ๋ฐ˜ํ™” ์œ ํ˜• ฯ€0.5 (๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ) ฯ€0.5+Ego (๋กœ๋ด‡+์ธ๊ฐ„)
ํ–ฅ์‹ ๋ฃŒ ์ •๋ฆฌ (Spice) ์žฅ๋ฉด (์ƒˆ ๋ถ€์—Œ) 32% 71%
ํ™”์žฅ๋Œ€ ์ •๋ฆฌ (Dresser) ์žฅ๋ฉด (์ƒˆ ๋ฐฉ) 25% 50%
ํ…Œ์ด๋ธ” ์ฒญ์†Œ (Bussing) ๋ฌผ์ฒด (์ƒˆ ๋ฌผ์ฒด) 53% 63%
๊ณ„๋ž€ ๋ถ„๋ฅ˜ (Eggs) ์ž‘์—… (์ƒ‰์ƒ๋ณ„ ๋ถ„๋ฅ˜) 57% (์ •ํ™•๋„) 78% (์ •ํ™•๋„)

ํ‘œ 1. ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ. ๊ฐ ํ–‰์˜ ๊ฐ’์€ ฯ€0.5 ๋ชจ๋ธ(๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ ํ›ˆ๋ จ)๊ณผ ฯ€0.5+ego ๋ชจ๋ธ(๋กœ๋ด‡+์ธ๊ฐ„ ๋ฐ์ดํ„ฐ) ๊ฐ๊ฐ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ(%)์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ๊ณผ ์ „์ด ๋Šฅ๋ ฅ์˜ ๊ด€๊ณ„

๋‹ค์Œ์œผ๋กœ ํ•ต์‹ฌ ๊ฐ€์„ค์ธ ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์˜ ์ค‘์š”์„ฑ์„ ๊ฒ€์ฆํ–ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์‚ฌ์ „ํ•™์Šต์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ ๋น„์œจ์„ 0% (์‚ฌ์ „ํ•™์Šต ์—†์Œ), 25%, 50%, 75%, 100%๊นŒ์ง€ ์ ์ง„์ ์œผ๋กœ ๋Š˜๋ ค๊ฐ€๋ฉฐ ์‹คํ—˜์„ ๋ฐ˜๋ณตํ–ˆ๋‹ค. 0%๋Š” ๋‹จ์ˆœํžˆ ๋น„์ „-์–ธ์–ด ๋ฐฑ๋ณธ ์ดˆ๊ธฐํ™”๋งŒ ํ•œ ์ƒํƒœ์ด๊ณ , 100%๋Š” ๋ชจ๋“  ๋กœ๋ด‡ ์ž‘์—…ยทํ™˜๊ฒฝ์„ ๋‹ค ์‚ฌ์šฉํ•œ ์ƒํƒœ, 100%+Xemb๋Š” ๋‹ค๋ฅธ ๋กœ๋ด‡ ์ž„๋ฒ ๋””๋จผํŠธ๋ฅผ ๋” ํฌํ•จํ•œ ์ตœ๋Œ€์น˜๋‹ค. ๊ฐ ๊ฒฝ์šฐ์—์„œ ฯ€0.5 ๋ชจ๋ธ์„ ์ดˆ๊ธฐํ™”ํ•œ ํ›„์—๋Š”, ํ•ญ์ƒ ๋‘ ๊ฐ€์ง€ ์กฐ๊ฑด(๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ vs. ๋กœ๋ด‡+์ธ๊ฐ„ ๋ฐ์ดํ„ฐ)์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•ด ๊ฐ™์€ ์ผ๋ฐ˜ํ™” ์ž‘์—…์„ ํ‰๊ฐ€ํ–ˆ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์ด ๋‚ฎ์„ ๋•Œ(0~50%)๋Š” ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•ด๋„ ์ „์ด ํšจ๊ณผ๊ฐ€ ๊ฑฐ์˜ ์—†๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๋ถ€์ •์ ์ด์—ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋‹ค์–‘์„ฑ์ด ์ถฉ๋ถ„ํžˆ ์ปค์ง€๋ฉด(75% ์ด์ƒ) ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ํ™œ์šฉ ํšจ๊ณผ๊ฐ€ ๊ธ‰์ฆํ•˜์˜€๋‹ค. ์ฆ‰, ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ๋ฒ”์œ„๋ฅผ ์ปค๋ฒ„ํ•ด์•ผ๋งŒ ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ํ–‰๋™ ์˜ˆ์‹œ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž‘์—… ๊ฐœ๋…์„ ์ตํž ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ณ„๋ž€ ๋ถ„๋ฅ˜ ์‹คํ—˜(Fig. 8 ์ฐธ์กฐ)์—์„œ ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ์ด 75% ์ด์ƒ์ผ ๋•Œ๋ถ€ํ„ฐ ฯ€0.5+ego์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ƒ์Šนํ•˜๋Š” ๋ฐ˜๋ฉด, ๋‹ค์–‘์„ฑ์ด ๋‚ฎ์„ ๋•Œ๋Š” ๋กœ๋ด‡๋งŒ ํ•™์Šตํ•œ ์ •์ฑ…์€ ๊ณ„๋ž€ ๋ถ„๋ฅ˜ ๊ณผ์ œ๋ฅผ ๊ฑฐ์˜ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์ด๋Š” ์ถฉ๋ถ„ํ•œ ํฌ๊ธฐ์™€ ๋‹ค์–‘์„ฑ์˜ ์‚ฌ์ „ํ•™์Šต์ด โ€œ์ธ๊ฐ„-๋กœ๋ด‡ ์ •๋ ฌโ€ ๋Šฅ๋ ฅ์„ emergentํ•˜๊ฒŒ ํ™œ์„ฑํ™”ํ•จ์„ ๊ฐ•ํ•˜๊ฒŒ ์‹œ์‚ฌํ•œ๋‹ค.

ํ‘œํ˜„ ๊ณต๊ฐ„ ๋ถ„์„: ์ž„๋ฒ ๋””๋จผํŠธ ๋น„ํŽธํ–ฅ์„ฑ

์ „์ด ํ˜„์ƒ์ด ์™œ ๋‚˜ํƒ€๋‚˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด, ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์ž ์žฌ ํ‘œํ˜„(latent representation)์„ ๋ถ„์„ํ–ˆ๋‹ค. ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ์ž…๋ ฅ์˜ ํŠน์ง•์„ ์ถ”์ถœํ•˜์—ฌ 2D TSNE๋กœ ์‹œ๊ฐํ™”ํ•œ ๊ฒฐ๊ณผ, ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ์ด ๋‚ฎ์„ ๋•Œ๋Š” ๋‘ ๋ฐ์ดํ„ฐ ๊ตฐ์ง‘์ด ๋ช…ํ™•ํžˆ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‹ค์–‘์„ฑ์ด ์ปค์งˆ์ˆ˜๋ก ์ธ๊ฐ„-๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง• ์ ๋“ค์ด ์ ์  ๊ฒน์น˜๊ธฐ ์‹œ์ž‘ํ•˜์˜€๋‹ค. ์ฆ‰, ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘์„ฑ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ๋Š” ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ๋น„์ฃผ์–ผยท์šด๋™์  ์ฐจ์ด๊ฐ€ ํ‘œํ˜„ ๊ณต๊ฐ„์—์„œ ์™„ํ™”๋˜์–ด ๊ตฌํ˜„ ํ˜•์ƒ(embodiment)์— ์˜์กดํ•˜์ง€ ์•Š๋Š” ์ถ”์ƒํ™”๋œ ํ‘œํ˜„์ด ํ˜•์„ฑ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด, ๊ณ ์ฐจ์› ๋ชจ๋ธ์€ ์ธ๊ฐ„ ํ–‰์œ„์™€ ๋กœ๋ด‡ ํ–‰์œ„๋ฅผ โ€œ๊ฐ™์€ ์ข…๋ฅ˜์˜ ์ •๋ณดโ€๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ธ๊ฐ„ ๋น„๋””์˜ค์—์„œ ๋ฐฐ์šด ์ง€์‹์ด ๋กœ๋ด‡ ๋™์ž‘์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ „์ด๋  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

์ธ๊ฐ„ ๋ฐ์ดํ„ฐ vs. ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋น„๊ต

ํ•œํŽธ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๋น„๊ตํ•˜์—ฌ ๊ทธ ํšจ์šฉ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ๋จผ์ €, ์‹ค์ œ๋กœ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋กœ๋ด‡(ARX)์—์„œ ํ•ด๋‹น ์ž‘์—… ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ โ€œ์ƒํ•œ์„ (upper bound)โ€ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ๋น„๊ตํ–ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ๊ณ„๋ž€ ๋ถ„๋ฅ˜์™€ ํ™”์žฅ๋Œ€ ์ž‘์—…์—์„œ๋Š” ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋ชฉํ‘œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒํผ์˜ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๋ฐ˜๋ฉด, ํ…Œ์ด๋ธ” ์ฒญ์†Œ(Bussing) ์ž‘์—…์—์„œ๋Š” ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ํ›จ์”ฌ ํšจ๊ณผ์ (๋ชฉํ‘œ ๋กœ๋ด‡: 65% vs ์ธ๊ฐ„: 25%)์ž„์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋Š” ํ…Œ์ด๋ธ” ์œ„์˜ ๋ฌผ์ฒด๋ฅผ ์น˜์šฐ๋Š” ์ •๊ตํ•œ ๋™์ž‘์—์„œ๋Š” ์ธ๊ฐ„-๋กœ๋ด‡ ์ฐจ์ด๊ฐ€ ๋” ํฌ๊ฒŒ ์ž‘์šฉํ–ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

๋˜ํ•œ ๋‹ค๋ฅธ ๋กœ๋ด‡ ๊ฐ„ ์ „์ด(cross-embodiment transfer)๊ณผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, UR5 ๋กœ๋ด‡์—์„œ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ARX๋กœ ์ „์ดํ•˜๋Š” ์‹คํ—˜๋„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ธ๊ฐ„->๋กœ๋ด‡ ์ „์ด์™€ ์œ ์‚ฌํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค: ๋‘˜ ๋‹ค ๊ธฐ์ค€๋ณด๋‹ค ๊ฐœ์„ ๋˜์ง€๋งŒ, ๋ชฉํ‘œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒํผ์€ ์•„๋‹ˆ์—ˆ๋‹ค. ์ฆ‰ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋กœ ์ธํ•œ ์ „์ด ํšจ๊ณผ๋Š” ๋‹ค๋ฅธ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๊ฐ„ ์ „์ด์™€ ๋น„์Šทํ•œ ์ˆ˜์ค€์œผ๋กœ, โ€œ์ธ๊ฐ„๋„ ํ•˜๋‚˜์˜ ๋˜ ๋‹ค๋ฅธ ๋กœ๋ด‡โ€์œผ๋กœ ์ทจ๊ธ‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

๊ณ ์ˆ˜์ค€ vs ์ €์ˆ˜์ค€ ์ „์ด

์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์—์„œ ์ „์ด๊ฐ€ ์ฃผ๋กœ โ€œ๊ณ ์ˆ˜์ค€ ์˜๋ฏธโ€๋ฅผ ํ†ตํ•ด ๋ฐœ์ƒํ•˜๋Š”์ง€, ์•„๋‹ˆ๋ฉด โ€œ์ €์ˆ˜์ค€ ํ–‰๋™ ์˜ˆ์ธกโ€๊นŒ์ง€ ํ•™์Šต๋˜๋Š”์ง€๋ฅผ ์กฐ์‚ฌํ–ˆ๋‹ค. Spice์™€ Dresser ์ž‘์—…์€ ํ•˜์œ„๊ณผ์ œ+ํ–‰๋™ ๋ชจ๋ธ(High-level + Low-level)์„ ๋ชจ๋‘ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ์ด๊ณ , Bussing๊ณผ Eggs๋Š” ์ €์ˆ˜์ค€๋งŒ์œผ๋กœ ์‹คํ—˜ํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๊ณ ์ˆ˜์ค€(subtask) ์ •๋ณด์™€ ์ €์ˆ˜์ค€(action) ์ •๋ณด ๋ชจ๋‘ ์ „์ด์— ๊ธฐ์—ฌํ•˜์ง€๋งŒ ํŠนํžˆ ์–ด๋ ค์šด ์ž‘์—…์—์„œ๋Š” ๋‘ ์ •๋ณด๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ์ตœ๊ณ ์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Dresser์™€ Spice์—์„œ๋Š” ๊ณ ์ˆ˜์ค€ ์˜ˆ์ธก๋งŒ์œผ๋กœ๋„ ์–ด๋А ์ •๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์—ˆ์œผ๋‚˜, Eggs์™€ ๊ฐ™์ด ๊ตฌ์กฐ๊ฐ€ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋Š” ์ €์ˆ˜์ค€ ํ–‰๋™ ์ •๋ณด๊ฐ€ ๊ฒฐํ•ฉ๋˜์–ด์•ผ ๋น„๋กœ์†Œ ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ๋‹ค(๊ทธ๋ฆผ 11). ์š”์•ฝํ•˜๋ฉด, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” โ€œ๊ณ„๋ž€์„ ์ƒ์ž์— ์ฐจ๊ณก์ฐจ๊ณก ๋„ฃ๋Š”๋‹คโ€๋ผ๋Š” ๊ณผ์ •์„ ๋ฌธ์žฅ์œผ๋กœ ์ „๋‹ฌํ•˜๊ณ , ๋™์‹œ์— ๊ตฌ์ฒด์ ์ธ ํŒ” ๋™์ž‘ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๋‘˜ ๋‹ค ๋„์›€์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

์†๋ชฉ ์นด๋ฉ”๋ผ์˜ ์˜ํ–ฅ ๋ถ„์„

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ธ๊ฐ„ ์ฐฉ์šฉ ์†๋ชฉ ์นด๋ฉ”๋ผ์˜ ์œ ์šฉ์„ฑ์„ ๋ถ„์„ํ–ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ผ๋ถ€ ์ž‘์—…(์˜ˆ: Bussing, Dresser)์—์„œ๋Š” ์†๋ชฉ ์นด๋ฉ”๋ผ๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ถ”๊ฐ€์ ์ธ ์‹œ์•ผ ์ •๋ณด๊ฐ€ ์ „์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ–ˆ๋‹ค. ๋ฐ˜๋ฉด, ํ–ฅ์‹ ๋ฃŒ ์ •๋ฆฌ๋‚˜ ๊ณ„๋ž€ ๋ถ„๋ฅ˜ ์ž‘์—…์ฒ˜๋Ÿผ ์ค‘์•™ ์ƒํ–ฅ ์‹œ์ ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•œ ์ž‘์—…์—์„œ๋Š” ์†๋ชฉ ์นด๋ฉ”๋ผ๊ฐ€ ์—†์–ด๋„ ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ๋‹ค. ์ด๋Š” ์ž‘์—…๋งˆ๋‹ค ๊ด€์ธกํ•ด์•ผ ํ•  ๋ถ€๋ถ„์ด ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์‹ค์ œ๋กœ ์†๋ชฉ ์นด๋ฉ”๋ผ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ธ๊ฐ„์˜ ์†๊ณผ ๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ์„ ๋” ๋ฐ€์ฐฉํ•ด์„œ ๋ณผ ์ˆ˜ ์žˆ์–ด ๋ณต์žกํ•œ ์”ฌ์—์„œ ์œ ๋ฆฌํ•˜๋‹ค. ํ–ฅํ›„ ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ์—๋Š” ๊ฐ€๋Šฅํ•˜๋ฉด ์—ฌ๋Ÿฌ ์นด๋ฉ”๋ผ๋กœ ์ดฌ์˜ํ•˜๋Š” ๊ฒƒ์ด ์œ ๋ฆฌํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ์žฅ๋‹จ์  ๋ฐ ํ•œ๊ณ„

๊ฐ•์ : ์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋†€๋ผ์šด ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์ด๋‹ค. ํŠน๋ณ„ํ•œ ๋„๋ฉ”์ธ ์–ด๋Œ‘ํ„ฐ๋‚˜ ๋ณต์žกํ•œ ํ–‰๋™ ์ •๋ ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์—†์ด, ๊ทธ์ € ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์— ์ธ๊ฐ„ ๋น„๋””์˜ค๋ฅผ ๋™๋“ฑํ•˜๊ฒŒ ์„ž์–ด ํ•™์Šตํ–ˆ์„ ๋ฟ์ธ๋ฐ, ์ƒˆ๋กœ์šด ์ง€์‹์ด emergentํ•˜๊ฒŒ ์ „์ด๋˜์—ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ๋ฐœ๊ฒฌ๋œ โ€œ์Šค์ผ€์ผ๋ง์˜ ํž˜โ€(์ด๋ฅธ๋ฐ” emergent phenomena)์„ ๋กœ๋ด‡๊ณตํ•™์—๋„ ์ ์šฉํ•œ ์ข‹์€ ์˜ˆ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋กœ๋ด‡์ด ํ•˜์ง€ ๋ชปํ•˜๋˜ ์ƒˆ๋กœ์šด ์ž‘์—… ๊ฐœ๋…(์˜ˆ: ์ƒ‰๊น”๋ณ„ ๋ถ„๋ฅ˜)์„ ๋ฐฐ์šฐ๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค๋Š” ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‹ค. ์‹คํ—˜์ ์œผ๋กœ๋„ ์žฅ๋ฉด, ๋ฌผ์ฒด, ์ž‘์—…์˜ ์„ธ ๊ฐ€์ง€ ์ถ•์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ๋‚˜ํƒ€๋‚ฌ์œผ๋ฉฐ, ์ด๋Š” ์ฝ”-ํŠธ๋ ˆ์ด๋‹ ๋ฐฉ์‹์˜ ์ผ๋ฐ˜์„ฑ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค.

์•ฝ์  ๋ฐ ํ•œ๊ณ„: ๋ฐ˜๋ฉด์—, ์ด ์ ‘๊ทผ์—๋Š” ํ•œ๊ณ„๋„ ์กด์žฌํ•œ๋‹ค. ์ฒซ์งธ, ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ์•„์ง์€ ๋งค์šฐ ํฌ๋‹ค. ์‚ฌ์ „ํ•™์Šต ๋‹ค์–‘์„ฑ์ด ๋‚ฎ์œผ๋ฉด ์ „์ด ํšจ๊ณผ๊ฐ€ ๊ฑฐ์˜ ์—†์–ด์ ธ, ๊ฒฐ๊ตญ ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๊ณ„์‚ฐ ์ž์›์ด ํ•„์š”ํ•˜๋‹ค. ์ฆ‰, ์†Œ๊ทœ๋ชจ ์—ฐ๊ตฌ์‹ค ๊ทœ๋ชจ์—์„œ๋Š” ๋”ฐ๋ผํ•˜๊ธฐ ํž˜๋“ค ์ˆ˜ ์žˆ๋‹ค. ๋‘˜์งธ, ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘๊ณผ ๊ฐ€๊ณต ๋น„์šฉ์ด ์ ์ง€ ์•Š๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ์กฐ์ฐจ SLAM๊ณผ 3D ํฌ์ฆˆ ์ถ”์ •, ์ˆ˜๋™ ์ฃผ์„ ๋“ฑ ๋งŽ์€ ํ›„์ฒ˜๋ฆฌ ๊ณผ์ •์ด ํ•„์š”ํ–ˆ๋‹ค. ์ƒ์šฉ ์ˆ˜์ค€์œผ๋กœ ํ™œ์šฉํ•˜๋ ค๋ฉด ๋” ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ(์˜ˆ: ์‹ค์‹œ๊ฐ„ 3D ํฌ์ฆˆ ์ถ”์ •๊ณผ ์–ธ์–ด ์ƒ์„ฑ)์ด ์š”๊ตฌ๋œ๋‹ค. ์…‹์งธ, ํ…Œ์ŠคํŠธ๋œ ์ž‘์—…์˜ ๋ฒ”์œ„๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ํ•œ์ •๋˜์–ด ์žˆ๋‹ค. ์ฃผ๋กœ ๊ฐ€์ •์šฉ ์ž‘์—…๊ณผ ๋‹จ์ˆœ ์กฐ์ž‘์— ์ดˆ์ ์ด ๋งž์ถฐ์ ธ ์žˆ๋Š”๋ฐ, ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„ ์กฐ๋ฆฝ์ด๋‚˜ ์‚ฌํšŒ์  ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ์—์„œ๋Š” ํšจ๊ณผ๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ๋„ท์งธ, ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๊ฐ„ ๋™์ž‘ ์ฐจ์ด๋ฅผ ์™„๋ฒฝํžˆ ๋ฉ”์šฐ์ง€๋Š” ๋ชปํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ทธ๋ฆฌํผ(์†๋) ๋™์ž‘์„ ์ถ”์ •ํ•˜์ง€ ์•Š์•„ ํœด๋Œ€-๋น„ํœด๋Œ€ ์ƒํƒœ๋งŒ ์ด์‚ฐ์œผ๋กœ ๊ณ ๋ คํ–ˆ๋Š”๋ฐ, ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ์˜ ๋ฏธ์„ธํ•œ ์กฐ์ž‘๊ณผ ์ •ํ™•ํžˆ ๋Œ€์‘์‹œํ‚ค๊ธฐ์—๋Š” ์ •๋ณด ์†์‹ค์ด ์žˆ๋‹ค. ํ–ฅํ›„ ์ธ์ฒด ์—ญํ•™์  ๊ฒฉ์ฐจ๋ฅผ ๋” ์ •๊ตํžˆ ๋ชจ๋ธ๋งํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ํ˜„ ๋ฐฉ์‹์€ ๊ฑฐ์˜ ์ง€๋„ํ•™์Šต์ (imitation-style) ์ ‘๊ทผ์ด๋ฏ€๋กœ, ์ฃผ์–ด์ง„ ๋น„๋””์˜ค ์‹œํ€€์Šค ์™ธ์˜ ์ƒ์ƒ๋œ ํ–‰๋™ ์ƒ์„ฑ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ธ๊ฐ„์ด ๋ช…์‹œ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์ง€ ์•Š์€ ๋ฐฉ์‹(์˜ˆ: ๋‹ค๋ฅธ ์ˆœ์„œ์˜ ๋ฌผ์ฒด ๋ฐฐ์น˜)์œผ๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ด ์—ฐ๊ตฌ๋Š” ์‹ค์„ธ๊ณ„ ๋กœ๋ด‡์˜ ๋ฒ”์šฉ์„ฑ ํ™•์žฅ์— ๋Œ€ํ•œ ํฌ๋ง์ ์ธ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•œ๋‹ค. ์‹ค์ œ ๊ฐ€์ •์ด๋‚˜ ๊ณต์žฅ ๋“ฑ์—์„œ ๋กœ๋ด‡์ด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ๋ฐฐ์šธ ๋•Œ, ์ด๋ฏธ ์ˆ˜ํ–‰๋˜๋Š” ์‚ฌ๋žŒ์˜ ์ž‘์—… ์˜์ƒ์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜์ง‘ํ•˜์—ฌ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฃผ๋ฐฉ์—์„œ ์‚ฌ๋žŒ์ด ์‹๊ธฐ๋ฅผ ์ •๋ฆฌํ•˜๋Š” ๋ชจ์Šต์ด๋‚˜ ๊ณต์žฅ์—์„œ ์‚ฌ๋žŒ์ด ๊ธฐ๊ธฐ๋ฅผ ์กฐ๋ฆฝํ•˜๋Š” ์˜์ƒ์„ ๋กœ๋ด‡์ด ํ•™์Šตํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡์ด ์ง์ ‘ ์‹œ์—ฐํ•˜์ง€ ์•Š์€ ๋ณ€ํ˜•๋œ ์ž‘์—…๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. ํŠนํžˆ, ๋Œ€์ค‘์ด ๊ฐ€์ง„ ์Šค๋งˆํŠธํฐ์ด๋‚˜ AR/VR ๊ธฐ๊ธฐ๋ฅผ ํ†ตํ•ด ์ผ์ƒ์ ์ธ ์ธ๊ฐ„ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ์†์‰ฝ๊ฒŒ ๋ชจ์€๋‹ค๋ฉด, ๋กœ๋ด‡ ํ•™์Šต์˜ ์ ์šฉ ๋ฒ”์œ„๋Š” ํš๊ธฐ์ ์œผ๋กœ ์ปค์งˆ ์ˆ˜ ์žˆ๋‹ค.

ํ›„์† ์—ฐ๊ตฌ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉํ–ฅ์ด ๊ธฐ๋Œ€๋œ๋‹ค:

  • ์‚ฌ์ „ํ•™์Šต์— ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ํฌํ•จ: ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋Š” ๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„์—์„œ๋งŒ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ–ฅํ›„ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋‹จ๊ณ„์— ๋ฐฉ๋Œ€ํ•œ ์ธ๊ฐ„ ๋น„๋””์˜ค(์˜ˆ: Ego4D, ์œ ํŠœ๋ธŒ ๋™์˜์ƒ ๋“ฑ)๊นŒ์ง€ ํ†ตํ•ฉํ•˜๋ฉด, ๋ชจ๋ธ์ด ์‹œ์ดˆ๋ถ€ํ„ฐ ์ธ๊ฐ„ ํ–‰๋™ ํŒจํ„ด์„ ์ตํ˜€ ๋” ํšจ์œจ์ ์ธ ์ „์ด๊ฐ€ ๊ฐ€๋Šฅํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ์ž„๋ฒ ๋””๋จผํŠธ ์‹คํ—˜: ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ฃผ์š” ๋กœ๋ด‡ ํ˜•ํƒœ(ARX ๋“ฑ)์™€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ์‹คํ—˜ํ–ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ๋กœ๋ด‡(์˜ˆ: ํœด๋จธ๋…ธ์ด๋“œ), VR/AR์—์„œ ์–ป์€ ๋ฐ์ดํ„ฐ, ๋˜๋Š” ์• ๋‹ˆ๋ฉ”์ด์…˜ ์บ๋ฆญํ„ฐ ๋ฐ์ดํ„ฐ ๋“ฑ์„ ํ˜ผํ•ฉ ํ•™์Šตํ•˜๋ฉด ๋” ์ผ๋ฐ˜ํ™”๋œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
  • ์ž์œจ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: ํ˜„์žฌ๋Š” ์‚ฌ๋žŒ์ด ์ง์ ‘ ์˜์ƒ ์ˆ˜์ง‘์„ ์ง€์‹œํ–ˆ์ง€๋งŒ, ๋กœ๋ด‡์ด ์Šค์Šค๋กœ ์˜จ๋ผ์ธ ๋™์˜์ƒ์„ ๋ถ„์„ํ•˜๊ฑฐ๋‚˜ ๊ณ ์•ˆ์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ์ธ๊ฐ„-๋กœ๋ด‡ ๋Œ€์‘์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์•ˆ์ „์„ฑ๊ณผ ๊ฒฌ๊ณ ์„ฑ ํ‰๊ฐ€: ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์ •์ฑ…์ด ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉ๋  ๋•Œ์˜ ์•ˆ์ „์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค. ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์ „์ด๋Š” ์œ ์šฉํ•˜์ง€๋งŒ, ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ํ–‰๋™์„ ๋งŒ๋“ค์–ด๋‚ผ ์œ„ํ—˜๋„ ์žˆ์œผ๋ฏ€๋กœ, ์œค๋ฆฌ์ /์•ˆ์ „์  ํ‹€์„ ๋งˆ๋ จํ•ด์•ผ ํ•œ๋‹ค.
  • ๊ฒฐํ•ฉ ๋ชจ๋ธ ๋ฐ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต: ์ด ์ ‘๊ทผ๋ฒ•์€ ์ž์—ฐ์–ด ๋ช…๋ น๊ณผ ํ–‰๋™ ์˜ˆ์ธก์„ ํ•จ๊ป˜ ๋‹ค๋ฃจ๋ฏ€๋กœ, ํ–ฅํ›„ ๋Œ€ํ˜• ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ(์˜ˆ: ์–ธ์–ด-๋น„์ „-์•ก์…˜ ํ†ตํ•ฉ)๊ณผ๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ฒฐํ•ฉ๋  ์ˆ˜ ์žˆ๋‹ค. LLM๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ธ๊ณต์ง€๋Šฅ(์˜ˆ: Gato) ๊ฐ™์€ ๋ฒ”์šฉ ๋ชจ๋ธ๋“ค๊ณผ ์—ฐ๊ณ„ํ•˜์—ฌ ๋” ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™” ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

์š”์•ฝํ•˜์ž๋ฉด, ์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต๋œ ์‹œ๊ฐ-์–ธ์–ด-ํ–‰๋™(VLA) ๋ชจ๋ธ์ด ์ธ๊ฐ„ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต๋œ ์ƒˆ๋กœ์šด ์ž‘์—… ๊ฐœ๋…์„ ๋ณ„๋„ ์„ค๊ณ„ ์—†์ด๋„ ํก์ˆ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ €์ž๋“ค์€ ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ์ฝ”-ํŠธ๋ ˆ์ด๋‹ํ•จ์œผ๋กœ์จ, ์ธ๊ฐ„-๋กœ๋ด‡ ์ „์ด(human-to-robot transfer)๊ฐ€ ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ๊ณผ ๊ทœ๋ชจ์— ๋น„๋ก€ํ•˜์—ฌ ๊ฐ•๋ ฅํ•˜๊ฒŒ ๋ฐœํ˜„ํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ํŠนํžˆ ์ถฉ๋ถ„ํ•œ ๋‹ค์–‘์„ฑ์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ๋Š”, ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ž ์žฌ ํ‘œํ˜„์ด ์ •๋ ฌ(aligned)๋˜์–ด ๊ตฌํ˜„ ์ฒดํ˜•(embodiment)์— ๋ฌด๊ด€ํ•˜๊ฒŒ ์œ ์‚ฌํ•œ ํ–‰๋™ ํŒจํ„ด์„ ์ธ์‹ํ•˜๊ฒŒ ๋œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” LLM์—์„œ์˜ emergent behavior ์‚ฌ๋ก€์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๊ทœ๋ชจ์˜ ํ™•์žฅ(scale-up)์ด ์ƒˆ๋กœ์šด ํ•™์Šต ๋Šฅ๋ ฅ์„ ๊ฐ€๋Šฅ์ผ€ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋ฏธ๋ž˜์— ๋กœ๋ด‡ ๊ณตํ•™ ๋ถ„์•ผ์—์„œ ์‚ฌ๋ฌผ์ธํ„ฐ๋„ท, ์Šค๋งˆํŠธ ๊ธฐ๊ธฐ ๋“ฑ์„ ํ†ตํ•œ ๋ฐฉ๋Œ€ํ•œ ์ธ๊ฐ„ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ๋‹ค๋ฉด, ๋ณธ ์—ฐ๊ตฌ์—์„œ ์ œ์‹œํ•œ ์ธ์‚ฌ์ดํŠธ์— ๋”ฐ๋ผ ๋กœ๋ด‡ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์€ ๋”์šฑ ํ–ฅ์ƒ๋  ๊ฒƒ์ด๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, ๋กœ๋ด‡์šฉ ์žฌ๋‹จ(foundation) ๋ชจ๋ธ์˜ ๋‹ค์Œ ์„ธ๋Œ€๋Š” ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํก์ˆ˜ํ• ์ˆ˜๋ก ๋กœ๋ด‡์—๊ฒŒ ์ด์ „์—๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค. ์ธ๊ฐ„ ๋น„๋””์˜ค๋Š” ๊ทธ ์ค‘ ํ•˜๋‚˜์˜ ์˜ˆ์ผ ๋ฟ์ด๋ฉฐ, ์ด ์™ธ์—๋„ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์†Œ์Šค์™€ ํ•™์Šต ๊ธฐ๋ฒ•์ด ๊ฒฐํ•ฉ๋˜๋ฉด ๋กœ๋ด‡์ด ์šฐ๋ฆฌ์˜ ์ผ์ƒ ์„ธ์ƒ์„ ์ดํ•ดํ•˜๋Š” ๋ฒ”์œ„๊ฐ€ ํฌ๊ฒŒ ๋„“์–ด์งˆ ๊ฒƒ์ด๋‹ค.

Copyright 2026, JungYeon Lee