Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • TL;DR โ€” ํ•œ๋ˆˆ์— ๋ณด๋Š” ํ•ต์‹ฌ
    • 1. ์„œ๋ก : ์™œ ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด๋Š” ์Šค์ผ€์ผ์—…์— ์‹คํŒจํ–ˆ๋Š”๊ฐ€?
      • 1.1 AI ์Šค์ผ€์ผ๋ง ํ˜๋ช…์˜ โ€œ์‚ฌ๊ฐ์ง€๋Œ€โ€
      • 1.2 ์™œ ์Šค์ผ€์ผ๋ง์ด ์•ˆ ๋์„๊นŒ? โ€” ๊ณผ์ œ ์„ ํƒ์˜ ๋ฌธ์ œ
      • 1.3 ํ•ด๋ฒ•: ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์„ โ€œ๋ฒ”์šฉ ๊ณผ์ œโ€๋กœ
    • 2. ๋ฐฉ๋ฒ•๋ก : SONIC์˜ ์•„ํ‚คํ…์ฒ˜์™€ ํ•ต์‹ฌ ์„ค๊ณ„
      • 2.1 ๋Œ€๊ทœ๋ชจ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ์ •์ฑ…
      • 2.2 ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ (Universal Token Space)
      • 2.3 ์‹ค์‹œ๊ฐ„ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ
      • 2.4 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ œ์–ด์™€ VLA ์—ฐ๋™
    • 3. ์ „์ฒด ์‹œ์Šคํ…œ ํŒŒ์ดํ”„๋ผ์ธ
      • ์˜จ๋ณด๋“œ ๋ฐฐํฌ ์„ฑ๋Šฅ
    • 4. ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ๋ถ„์„
      • 4.1 ์Šค์ผ€์ผ๋ง์˜ ํšจ๊ณผ
      • 4.2 ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต
      • 4.3 ์‹ค์„ธ๊ณ„ ์ „์ด (Real-World Transfer)
    • 5. ๋น„ํŒ์  ๊ณ ์ฐฐ
      • 5.1 ๊ฐ•์ 
      • 5.2 ์•ฝ์ ๊ณผ ํ•œ๊ณ„
      • 5.3 ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค
    • 6. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • 6.1 ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ๊ณ„๋ณด
      • 6.2 ์ฃผ์š” ๊ฒฝ์Ÿ ์—ฐ๊ตฌ ์ƒ์„ธ ๋น„๊ต
      • 6.3 BFM-Zero์™€์˜ ๋น„๊ต
      • 6.4 CLOT๊ณผ์˜ ๋น„๊ต
      • 6.5 GR00T ์ƒํƒœ๊ณ„์—์„œ์˜ ์œ„์น˜
    • 7. Allegro Hand ๊ด€์ ์—์„œ์˜ ์‹œ์‚ฌ์ 
    • 8. ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
      • ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ •๋ฆฌ
      • ๋‚จ๊ฒจ์ง„ ๊ณผ์ œ
      • ๋งˆ๋ฌด๋ฆฌ
    • ์ฐธ๊ณ  ๋ฌธํ—Œ ๋ฐ ๋งํฌ

๐Ÿ“ƒSonic ๋ฆฌ๋ทฐ

humanoid
whole-body-control
motion-tracking
Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
Published

February 22, 2026

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code Link
  • Project Link
  • Docs
  1. ๐Ÿค– SONIC์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ(1์–ต ํ”„๋ ˆ์ž„ ์ด์ƒ), ์ปดํ“จํŒ…(9k GPU ์‹œ๊ฐ„), ๋ชจ๋ธ ํฌ๊ธฐ(42M ํŒŒ๋ผ๋ฏธํ„ฐ)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ธ๊ฐ„ํ˜• ๋กœ๋ด‡์˜ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์„ ํ™•์žฅํ•จ์œผ๋กœ์จ, ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ฐ•๋ ฅํ•œ ์ „์‹  ์›€์ง์ž„์„ ์ƒ์„ฑํ•˜๋Š” ๋ฒ”์šฉ ์ œ์–ด๊ธฐ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.
  2. ๐Ÿš€ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์‚ฌ์šฉ์ž ๋ช…๋ น์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์‹ค์‹œ๊ฐ„ Kinematic Planner์™€ VR Teleoperation, Human Video, Text, Music, VLA ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ง€์›ํ•˜๋Š” Universal Token Space๋ฅผ ํ†ตํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์‹ค์ œ ์‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  3. โœจ SONIC์€ ์ด์ „์— ๋ณธ ์  ์—†๋Š” ๋ชจ์…˜์— ๋Œ€ํ•œ ๋›ฐ์–ด๋‚œ Generalization๊ณผ Unitree G1 ๋กœ๋ด‡์—์„œ์˜ Robustํ•œ Sim-to-Real Deployability๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, GR00T N1.5 VLA ๋ชจ๋ธ๊ณผ์˜ ์„ฑ๊ณต์ ์ธ ํ†ตํ•ฉ์œผ๋กœ Foundation Model ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์ œ์–ด์˜ ์‹ค์šฉ์ ์ธ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ์—ฐ๊ตฌ๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ํœด๋จธ๋…ธ์ด๋“œ(humanoid) ์ „์‹  ์ œ์–ด๋ฅผ ์œ„ํ•œ ๋™์ž‘ ์ถ”์ (motion tracking)์˜ ๊ทœ๋ชจ ํ™•์žฅ(supersizing)์— ์ค‘์ ์„ ๋‘” SONIC(Supersizing mOtion tracking for Natural humanoId Control) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด ๋ฐฉ์‹์ด ์ˆ˜๋™์ ์ธ ๋ณด์ƒ ์„ค๊ณ„(reward engineering)์™€ ์ œํ•œ์ ์ธ ํ–‰๋™์— ๋จธ๋ฌด๋Š” ๋ฐ˜๋ฉด, ์ด ์—ฐ๊ตฌ๋Š” ๋ชจ๋ธ ์šฉ๋Ÿ‰, ๋ฐ์ดํ„ฐ ์–‘, ์ปดํ“จํŠธ(compute)๋ฅผ ํ™•์žฅํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ํ–‰๋™์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜ํ™”๋œ(generalist) ํœด๋จธ๋…ธ์ด๋“œ ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ๊ฐœ๋ฐœํ•œ๋‹ค.

1. ๋„์ž… ๋ฐ ๋™๊ธฐ (Introduction & Motivation)

์ตœ๊ทผ ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(foundation models)์ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์ปดํ“จํŠธ ์ž์›์œผ๋กœ ์ „๋ก€ ์—†๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด ๋ถ„์•ผ์—์„œ๋Š” ์œ ์‚ฌํ•œ ๊ทœ๋ชจ ํ™•์žฅ์ด ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜๋‹ค. ์ด๋Š” ์ฃผ๋กœ ํƒœ์Šคํฌ ์„ ํƒ์˜ ๋ฌธ์ œ์™€ ๊ฐ ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ์ˆ˜๋™์ ์ธ ๋ณด์ƒ ์„ค๊ณ„์— ๊ธฐ์ธํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋™์ž‘ ์ถ”์ ์„ ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์˜ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ(scalable) foundational task๋กœ ์ œ์•ˆํ•œ๋‹ค. ๋™์ž‘ ์ถ”์ ์€ ๋ชจ์…˜ ์บก์ฒ˜(motion capture) ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์กฐ๋ฐ€ํ•œ ํ”„๋ ˆ์ž„๋ณ„ ์ง€๋„ ํ•™์Šต(dense, frame-by-frame supervision)์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ ์ˆ˜๋™์ ์ธ ๋ณด์ƒ ์„ค๊ณ„๊ฐ€ ํ•„์š” ์—†์œผ๋ฉฐ, ์ด๋Š” ๊ทœ๋ชจ ํ™•์žฅ์— ์œ ๋ฆฌํ•˜๋‹ค.

2. SONIC ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š” (SONIC Framework Overview)

SONIC์€ ์œ ๋‹ˆํŠธ๋ฆฌ G1 ํœด๋จธ๋…ธ์ด๋“œ(Unitree G1 humanoid) ๋กœ๋ด‡์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•œ๋‹ค:

  • ๊ทœ๋ชจ ํ™•์žฅ๋œ ๋™์ž‘ ์ถ”์  (Supersized Motion Tracking): 1์–ต ํ”„๋ ˆ์ž„ ์ด์ƒ์˜ ๋ชจ์…˜ ๋ฐ์ดํ„ฐ์™€ 9,000 GPU ์‹œ๊ฐ„(์ตœ๋Œ€ 128 GPU)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฒ”์šฉ์ ์ธ(universal) ์ถ”์  ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.
  • ์‹ค์‹œ๊ฐ„ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ (Real-time Kinematic Motion Planner): ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ๋‹จ๊ธฐ ๋ชจ์…˜ ๋ ˆํผ๋Ÿฐ์Šค(short-horizon reference motions)๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒํ•œ ์ œ์–ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
  • ํ†ตํ•ฉ ํ† ํฐ ๊ณต๊ฐ„ (Unified Token Space): VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(teleoperation) ๊ธฐ๊ธฐ, ์ธ๊ฐ„ ๋น„๋””์˜ค, VLA(Vision-Language-Action) ๋ชจ๋ธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ์…˜ ์ž…๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ๋™์ผํ•œ ์ •์ฑ…(policy)์œผ๋กœ ์ง€์›ํ•œ๋‹ค.

3. ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก  - ๋ฒ”์šฉ ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ์…˜ ์ถ”์  (Core Methodology - Universal Humanoid Motion Tracking)

3.1. ๋ชจ์…˜ ์ถ”์  ์ •ํ˜•ํ™” (Motion Tracking Formulation)

ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ์…˜ ์ถ”์ ์€ ๋งˆ๋ฅด์ฝ”ํ”„ ์˜์‚ฌ ๊ฒฐ์ • ํ”„๋กœ์„ธ์Šค(Markov Decision Process, MDP) \mathcal{M} = \langle\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma\rangle๋กœ ์ •ํ˜•ํ™”๋˜๋ฉฐ, PPO(Proximal Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚จ๋‹ค.

  • ์ƒํƒœ (States): ๋กœ๋ด‡์˜ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ๊ฐ๊ฐ(proprioceptive sensing) s_p^t (๊ด€์ ˆ ์œ„์น˜ q_t, ๊ด€์ ˆ ์†๋„ \dot{q}_t, ๋ฃจํŠธ(root) ๊ฐ์†๋„ \omega_t, ์ค‘๋ ฅ ๋ฒกํ„ฐ g_t, ์ด์ „ ํ–‰๋™ a_{t-1})์™€ ๋ชจ์…˜ ๋ช…๋ น์–ด(motion command) s_g^t๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๋ชจ์…˜ ๋ช…๋ น์–ด๋Š” ๋กœ๋ด‡ ๋ชจ์…˜ g_r, ์ธ๊ฐ„ ๋ชจ์…˜ g_h, ๋˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ(hybrid) ๋ชจ์…˜ g_m (์ƒ์ฒด ํ‚คํฌ์ธํŠธ(keypoints)์™€ ํ•˜์ฒด ๋กœ๋ด‡ ๋ชจ์…˜ ๊ฒฐํ•ฉ)์˜ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์ด ์žˆ๋‹ค. ๋ชจ๋“  ์ƒํƒœ ๊ฐ’์€ ๋กœ๋ด‡์˜ ๋กœ์ปฌ ํ—ค๋”ฉ ํ”„๋ ˆ์ž„(local heading frame)์—์„œ 6D rotation representation (Zhou et al., 2019)์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„๋œ๋‹ค.
  • ํ–‰๋™ (Actions): ์ •์ฑ… \pi๋Š” ๊ฐ ๊ด€์ ˆ์˜ PD(Proportional-Derivative) ์ปจํŠธ๋กค๋Ÿฌ์— ์˜ํ•ด ์ถ”์ ๋˜๋Š” ๋ชฉํ‘œ ๊ด€์ ˆ ์œ„์น˜(target joint positions) a_t๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.
  • ๋ณด์ƒ (Rewards): ๋ณด์ƒ์€ ์ถ”์  ๋ณด์ƒ(tracking reward)๊ณผ ํŽ˜๋„ํ‹ฐ(penalty) ํ•ญ์„ ๊ฒฐํ•ฉํ•œ r_t = \mathcal{R}(s_p^t, s_g^t) + \mathcal{P}(s_p^t, a_t)๋กœ ์ •์˜๋œ๋‹ค. ์ถ”์  ๋ณด์ƒ \mathcal{R}์€ ๋กœ๋ด‡์˜ ์ƒํƒœ์™€ ๋ชฉํ‘œ ๋ชจ์…˜ ๊ฐ„์˜ ๋ฃจํŠธ ์œ„์น˜, ๋ฃจํŠธ ๋ฐฉํ–ฅ, ์‹ ์ฒด ๋งํฌ(body link) ์œ„์น˜ ๋ฐ ๋ฐฉํ–ฅ, ์„ ํ˜• ๋ฐ ๊ฐ์†๋„ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•œ๋‹ค. ํŽ˜๋„ํ‹ฐ \mathcal{P}๋Š” ๊ธ‰์ž‘์Šค๋Ÿฌ์šด ํ–‰๋™ ๋ณ€ํ™”, ๊ด€์ ˆ ์ œํ•œ ์œ„๋ฐ˜, ์›์น˜ ์•Š๋Š” ์ ‘์ด‰์„ ๋ฐฉ์ง€ํ•œ๋‹ค.
  • ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™” (Domain Randomization): ๊ฒฌ๊ณ ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ์ค‘์— ๋ฌผ๋ฆฌ์  ํŒŒ๋ผ๋ฏธํ„ฐ(๋งˆ์ฐฐ ๊ณ„์ˆ˜, ๋ณต์› ๊ณ„์ˆ˜, ๊ธฐ๋ณธ ๊ด€์ ˆ ์œ„์น˜, ๋ฒ ์ด์Šค COM ์˜คํ”„์…‹), ๋ฃจํŠธ ์†๋„ ๊ต๋ž€(external pushes), ๋ชฉํ‘œ ๋ชจ์…˜ ๊ต๋ž€(target motion perturbations) ๋“ฑ์„ ๋ฌด์ž‘์œ„ํ™”ํ•œ๋‹ค.

3.2. ๋ฒ”์šฉ ์ œ์–ด ์ •์ฑ… (Universal Control Policy)

SONIC์˜ ํ•ต์‹ฌ์€ ๋‹ค์–‘ํ•œ ์‹ ์ฒด(embodiments)์˜ ๋ชจ์…˜ ๋ช…๋ น์„ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ์ธ์ฝ”๋”-๋””์ฝ”๋”(encoder-decoder) ์•„ํ‚คํ…์ฒ˜์ด๋‹ค. ์ด๋Š” ์ธ๊ฐ„ ๋ฐ ๋กœ๋ด‡ ์‹ ์ฒด๋กœ๋ถ€ํ„ฐ์˜ ์ด์งˆ์ ์ธ(heterogeneous) ์ž…๋ ฅ์„ ๊ณต์œ ๋œ ์ž ์žฌ ํ‘œํ˜„(shared latent representation)์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ํŠน์ˆ˜ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. ์ด ์ž ์žฌ ํ‘œํ˜„์€ ์–‘์žํ™”(quantization)๋˜์–ด ๋ฒ”์šฉ ํ† ํฐ(universal token)์ด ๋˜๋ฉฐ, ์ด ํ† ํฐ์ด ๊ณตํ†ต ๋กœ๋ด‡ ์ œ์–ด ๋””์ฝ”๋”(common robot control decoder)๋ฅผ ๊ตฌ๋™ํ•˜์—ฌ ๋ชจํ„ฐ ๋ช…๋ น์„ ์ƒ์„ฑํ•œ๋‹ค.

  • ์ธ์ฝ”๋” (Encoders): ์„ธ ๊ฐ€์ง€ ํŠน์ˆ˜ ์ธ์ฝ”๋”๊ฐ€ ์กด์žฌํ•œ๋‹ค.
    1. ๋กœ๋ด‡ ๋ชจ์…˜ ์ธ์ฝ”๋” (Robot Motion Encoder) \mathcal{E}_r: ๋กœ๋ด‡ ๊ด€์ ˆ ์œ„์น˜์™€ ์†๋„๋ฅผ ๋ฏธ๋ž˜ \Delta t_r ๊ฐ„๊ฒฉ์œผ๋กœ F_r ํ”„๋ ˆ์ž„ ๋™์•ˆ ์ธ์ฝ”๋”ฉํ•œ๋‹ค.
    2. ์ธ๊ฐ„ ๋ชจ์…˜ ์ธ์ฝ”๋” (Human Motion Encoder) \mathcal{E}_h: 3D ์ธ๊ฐ„ ๊ด€์ ˆ ์œ„์น˜๋ฅผ ๋ฏธ๋ž˜ \Delta t_h ๊ฐ„๊ฒฉ์œผ๋กœ F_h ํ”„๋ ˆ์ž„ ๋™์•ˆ ์ธ์ฝ”๋”ฉํ•œ๋‹ค.
    3. ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ์…˜ ์ธ์ฝ”๋” (Hybrid Motion Encoder) \mathcal{E}_m: ํ˜„์žฌ ํ”„๋ ˆ์ž„์˜ ํฌ์†Œํ•œ ์ƒ์ฒด ํ‚คํฌ์ธํŠธ(๋จธ๋ฆฌ, ์†)์™€ ๋ฏธ๋ž˜ \Delta t_m ๊ฐ„๊ฒฉ์œผ๋กœ F_m ํ”„๋ ˆ์ž„ ๋™์•ˆ์˜ ํ•˜์ฒด ๋กœ๋ด‡ ๋ชจ์…˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. ๋ชจ๋“  ์ธ์ฝ”๋”๋Š” MLP(Multi-Layer Perceptrons)๋กœ ๊ตฌํ˜„๋˜๋ฉฐ, ๋‹ค์ค‘ ํ”„๋ ˆ์ž„ ์ž…๋ ฅ์€ ์˜ˆ์ธก ํ–‰๋™๊ณผ ์ •์ฑ…์˜ ๊ฒฌ๊ณ ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
  • ์–‘์žํ™”๊ธฐ (Quantizer): ์ธ์ฝ”๋”ฉ๋œ ์ž ์žฌ ํ‘œํ˜„์€ FSQ(Finite Scalar Quantization) (Mentzer et al., 2023)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ D_z ์ฐจ์›์˜ Lz ์–‘์žํ™” ๋ ˆ๋ฒจ์„ ๊ฐ€์ง„ ๋ฒ”์šฉ ํ† ํฐ z๋กœ ์–‘์žํ™”๋œ๋‹ค.
  • ๋””์ฝ”๋” (Decoders):
    1. ๋กœ๋ด‡ ์ œ์–ด ๋””์ฝ”๋” (Robot Control Decoder) \mathcal{D}_c: ๋ฒ”์šฉ ํ† ํฐ์„ ๋กœ๋ด‡์˜ ๊ด€์ ˆ์„ ์ œ์–ดํ•˜๋Š” ๋ชจํ„ฐ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.
    2. ๋กœ๋ด‡ ๋ชจ์…˜ ๋””์ฝ”๋” (Robot Motion Decoder) \mathcal{D}_r: ๋กœ๋ด‡ ๋ชจ์…˜ ๋ช…๋ น์„ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ ์ž ์žฌ ๊ณต๊ฐ„์„ ๊ฐœ์„ ํ•˜๊ณ  ํŠน์ง• ํ•™์Šต(feature learning)์„ ๋•๋Š” ๋ณด์กฐ ์ง€๋„(auxiliary supervision)๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • ํ›ˆ๋ จ (Training): ํ›ˆ๋ จ์€ ๋™๊ธฐํ™”๋œ ๋ชจ์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ง„ํ–‰๋˜๋ฉฐ, ๊ฐ ๋ชจ์…˜ ์œ ํ˜•(g_r, g_h, g_m)์€ ํ•ด๋‹น ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ธ์ฝ”๋”ฉ๋˜๊ณ  ์–‘์žํ™”๋˜์–ด ๋ฒ”์šฉ ํ† ํฐ z_r, z_h, z_m์„ ์ƒ์„ฑํ•œ๋‹ค. ์ „์ฒด ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: \mathcal{L} = \mathcal{L}_{\text{ppo}} + \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{token}} + \mathcal{L}_{\text{cycle}}
    • \mathcal{L}_{\text{ppo}}: ํ‘œ์ค€ PPO ์†์‹ค.
    • \mathcal{L}_{\text{recon}} = \|\mathcal{D}_r(z_r) - g_r\|^2 + \|\mathcal{D}_r(z_h) - g_r\|^2 + \|\mathcal{D}_r(z_m) - g_r\|^2: ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(modality)์— ๋Œ€ํ•œ ๋กœ๋ด‡ ๋ชจ์…˜ ๋ช…๋ น ์žฌ๊ตฌ์„ฑ ์†์‹ค. ํŠนํžˆ g_h๊ฐ€ ์ž…๋ ฅ์ผ ๋•Œ๋Š” ์ธ๊ฐ„ ๋ชจ์…˜์—์„œ ๋กœ๋ด‡ ๋ชจ์…˜์œผ๋กœ์˜ ๋ฆฌํƒ€๊ฒŸํŒ…(retargeting) ํŒŒ์ดํ”„๋ผ์ธ ์—ญํ• ์„ ํ•˜๋ฉฐ, ํฌ๋กœ์Šค-์—”๋ฐ”๋””๋จผํŠธ(cross-embodiment) ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
    • \mathcal{L}_{\text{token}} = \|z_r - z_h\|^2: ๋กœ๋ด‡ ํ† ํฐ z_r๊ณผ ์ธ๊ฐ„ ๋ชจ์…˜ ํ† ํฐ z_h ๊ฐ„์˜ ๋ถˆ์ผ์น˜๋ฅผ ์ธก์ •ํ•˜์—ฌ, ์ธ์ฝ”๋” ๋„คํŠธ์›Œํฌ๊ฐ€ ์‹ ์ฒด ๊ฐ„ ์ •๋ ฌ๋œ ํ‘œํ˜„์„ ์ƒ์„ฑํ•˜๋„๋ก ์žฅ๋ คํ•œ๋‹ค.
    • \mathcal{L}_{\text{cycle}} = \|\mathcal{E}_r(\mathcal{D}_r(z_h)) - z_r\|^2: ์›๋ณธ ๋กœ๋ด‡ ํ† ํฐ z_r๊ณผ ์ธ๊ฐ„ ํ† ํฐ์œผ๋กœ๋ถ€ํ„ฐ ์žฌ๊ตฌ์„ฑ๋œ ๋กœ๋ด‡ ๋ชจ์…˜์„ ๋‹ค์‹œ ์ธ์ฝ”๋”ฉํ•œ ํ† ํฐ ๊ฐ„์˜ cycle consistency ์†์‹ค. ์ ์‘ํ˜• ๋ชจ์…˜ ์ƒ˜ํ”Œ๋ง(adaptive motion sampling)๊ณผ ๋ถ„์‚ฐ ํ›ˆ๋ จ(distributed training)์ด ์‚ฌ์šฉ๋œ๋‹ค.

3.3. ์ƒ์„ฑ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ (Generative Kinematic Motion Planner)

์ด ํ”Œ๋ž˜๋„ˆ๋Š” ๋™์ž‘ ์ถ”์  ์ •์ฑ…๊ณผ ๋™์ผํ•œ ๋Œ€๊ทœ๋ชจ ์ž์—ฐ ์ „์‹  ๋ชจ์…˜ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ ๋Œ€๊ทœ๋ชจ ์ž ์žฌ ์ƒ์„ฑ ๋ชจ๋ธ(large-scale latent generative model)์ด๋‹ค. ๋™์ž‘ ์„ธ๊ทธ๋จผํŠธ๋ฅผ 0.8์ดˆ์—์„œ 2.4์ดˆ ์‚ฌ์ด๋กœ ์ƒ์„ฑํ•˜๋ฉฐ, 5ms(๋…ธํŠธ๋ถ) ๋˜๋Š” 12ms(Jetson Orin GPU) ๋ฏธ๋งŒ์˜ ์ถ”๋ก  ์‹œ๊ฐ„(inference time)์„ ๋ณด์ธ๋‹ค.

  • ๋ชจ์…˜ ํ‘œํ˜„ (Motion Representation): ํ›ˆ๋ จ ์ค‘์—๋Š” ํŽ ๋น„์Šค(pelvis)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•œ ๊ด€์ ˆ ์œ„์น˜์™€ ์ „์—ญ(global) ๊ด€์ ˆ ํšŒ์ „์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜์„ ํ‘œํ˜„ํ•œ๋‹ค.
  • ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์ƒ์„ฑ ์‹ ๊ฒฝ๋ง ๋ฐฑ๋ณธ (Generative Neural Backbone in Latent Space): ๊ณ„ํš์€ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ˆ˜ํ–‰๋˜๋ฉฐ, ์—ฐ์†์ ์ธ ๋ชจ์…˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ž ์žฌ ํ† ํฐ ์‹œํ€€์Šค๋กœ ์ธ์ฝ”๋”ฉ๋œ๋‹ค: \{z_t\}^{T/4}_{t=1} = \text{enc}\{p_t, r_t\}^T_{t=1} ์—ฌ๊ธฐ์„œ p_t๋Š” ํฌ์ฆˆ ๊ตฌ์„ฑ, r_t๋Š” t ์‹œ์ ์˜ ๋ฃจํŠธ ์œ„์น˜์ด๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๋˜๋Š” Conv1D ๋„คํŠธ์›Œํฌ๊ฐ€ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ(temporal consistency)์„ ํฌ์ฐฉํ•œ๋‹ค. ์ธ๋น„ํŠธ์œ„๋‹(in-betweening) ๊ณผ์ •์€ ์‹œ์ž‘ ๋ฐ ๋ชฉํ‘œ ํ‚คํ”„๋ ˆ์ž„(keyframes)์— ์˜ํ•ด ์•ˆ๋‚ด๋˜๋ฉฐ, ๋งˆ์Šคํฌ๋œ ํ† ํฐ ์˜ˆ์ธก(masked token prediction) ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. h = \mathcal{F}(\{p_t, r_t\}^4_{t=1}, \{p_t, r_t\}^T_{t=T-4}, \{z_t\}^{T/4}_{t=1}) \text{Prob}(z_t) = \sigma(h) ์—ฌ๊ธฐ์„œ \mathcal{F}(\cdot)๋Š” ์‹ ๊ฒฝ๋ง ๋ฐฑ๋ณธ์„ ๋‚˜ํƒ€๋‚ด๊ณ  h๋Š” ๊ฐ ํ† ํฐ ์œ„์น˜์˜ ๋กœ์ง“(logits)์ด๋‹ค.
  • ๋ฃจํŠธ ๊ฒฝ๋กœ ์Šคํ”„๋ง ๋ชจ๋ธ (Root Trajectory Spring Model): ์‚ฌ์šฉ์ž ๋ช…๋ น์œผ๋กœ๋ถ€ํ„ฐ ํ‚คํ”„๋ ˆ์ž„์˜ ๋ฃจํŠธ ์œ„์น˜์™€ ํ—ค๋”ฉ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ง๊ด€์ ์ธ ์ž„๊ณ„ ๊ฐ์‡  ์Šคํ”„๋ง ๋ชจ๋ธ(critically damped spring model)์„ ์‚ฌ์šฉํ•œ๋‹ค: x(t) = x_T - x_0 + v_0 + \frac{c}{2} (x_T - x_0) t e^{-\frac{c}{2}t} ์ด๋Š” ํŽ ๋น„์Šค์˜ x์ถ• ๋ฐ y์ถ• ์œ„์น˜์™€ ํŽ ๋น„์Šค์˜ ํˆฌ์˜๋œ ํ—ค๋”ฉ ๊ฐ๋„์— ์ ์šฉ๋œ๋‹ค.
  • ํ‚คํ”„๋ ˆ์ž„ ๋ชจ๋“ˆ ๋ฐ ์‘์šฉ ํ†ตํ•ฉ (Keyframe Module and Application Integration): ํƒ์ƒ‰ ์ œ์–ด(navigation control)์—์„œ๋Š” ๋ชฉํ‘œ ๋ฃจํŠธ ๊ฒฝ๋กœ์— ์›ํ•˜๋Š” ์Šคํƒ€์ผ์˜ ํด๋ฆฝ์—์„œ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒ๋œ ์„ธ๊ทธ๋จผํŠธ๋ฅผ ๋ฐฐ์น˜ํ•˜์—ฌ ํ‚คํ”„๋ ˆ์ž„์„ ์ƒ์„ฑํ•œ๋‹ค. ๋ณต์‹ฑ๊ณผ ๊ฐ™์€ ์—”ํ„ฐํ…Œ์ธ๋จผํŠธ ํƒœ์Šคํฌ์—์„œ๋Š” ๊ฐ€์žฅ ํ‘œํ˜„์ ์ธ ์„ธ๊ทธ๋จผํŠธ๊ฐ€ ๋ชฉํ‘œ ํ‚คํ”„๋ ˆ์ž„์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ์Šค์ฟผํŒ…(squatting)์ด๋‚˜ ๋ฌด๋ฆŽ ๊ฟ‡๊ธฐ(kneeling)์™€ ๊ฐ™์€ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ๋Š” ๋ชจ์…˜ ํด๋ฆฝ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํ‚คํ”„๋ ˆ์ž„์„ ๊ฐ€์ ธ์˜จ๋‹ค.

3.4. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ์…˜ ์ƒ์„ฑ ๋ชจ๋ธ (Multi-modal Motion Generation Model)

GENMO (Li et al., 2025)๋ฅผ ์ฑ„ํƒํ•˜์—ฌ ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ปจ๋””์…”๋‹(multi-modal conditioning)์„ ์ง€์›ํ•œ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋น„๋””์˜ค๋กœ๋ถ€ํ„ฐ์˜ ์ถ”์ •(estimation)์„ ์ œ์•ฝ๋œ ์ƒ์„ฑ(constrained generation)์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, ๋ชจ๋ธ์€ ๊ด€์ฐฐ๋œ ์ฆ๊ฑฐ(๋น„๋””์˜ค ํ‚คํฌ์ธํŠธ)๋ฅผ ์ถฉ์กฑํ•˜๋Š” ์™„์ „ํ•œ ๋ชจ์…˜ ๊ฒฝ๋กœ๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ๋™์‹œ์—, ์ถ”์ƒ์ ์ธ ์กฐ๊ฑด(ํ…์ŠคํŠธ ๋˜๋Š” ์˜ค๋””์˜ค)์œผ๋กœ๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ ๋ชจ์…˜์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์ปจ๋””์…”๋‹ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ฐ ์‹œ๊ฐ„์  ๋ ˆ์ด์•„์›ƒ (Conditioning Modalities and Temporal Layout): ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ, ์˜ค๋””์˜ค ํŠน์ง•, ์‹œ๊ฐ์  ๊ด€์ฐฐ ๋“ฑ ํ˜ผํ•ฉ๋˜๊ณ  ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ•˜๋Š” ์กฐ๊ฑด์„ ์ˆ˜์šฉํ•œ๋‹ค. ๊ฐ ์ŠคํŠธ๋ฆผ์€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ธ์ฝ”๋”์— ์˜ํ•ด ์ธ์ฝ”๋”ฉ๋˜์–ด ๊ณตํ†ต ๋ชจ์…˜ ํ”„๋ ˆ์ž„ ์†๋„์— ๋งž์ถฐ์ง„ ํŠน์ง• ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜๋œ๋‹ค.
  • ์•„ํ‚คํ…์ฒ˜ (Architecture): ์กฐ๊ฑด ์ŠคํŠธ๋ฆผ์€ ์‹œ๊ฐ„์  ํŠธ๋žœ์Šคํฌ๋จธ(temporal transformer)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ์…˜ ํ† ํฐ๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ๊ฑด ํ† ํฐ ๊ฐ„์˜ ํฌ๋กœ์Šค-์–ดํ…์…˜(cross-attention)์„ ํ†ตํ•ด ์œตํ•ฉ๋œ๋‹ค. ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ์‚ฌ์ „(diffusion-based motion prior)์ด ์ธ๊ฐ„ ๋ชจ์…˜ ์‹œํ€€์Šค์— ์ž‘๋™ํ•˜๋ฉฐ, ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ(Gaussian noise)๋ฅผ ํ‚ค๋„ค๋งˆํ‹ฑ์ ์œผ๋กœ ๊ทธ๋Ÿด๋“ฏํ•œ(kinematically plausible) ๊ฒฝ๋กœ๋กœ ๋””๋…ธ์ด์ง•(denoising)ํ•œ๋‹ค.
  • ํ›ˆ๋ จ ๋ชฉํ‘œ (Training Objective): (1) ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•˜๋Š” ํ‘œ์ค€ ํ™•์‚ฐ ์†์‹ค(diffusion loss)์„ ์‚ฌ์šฉํ•˜๋Š” ์ƒ์„ฑ ํ•™์Šต(generative learning)๊ณผ (2) ๊ด€์ฐฐ์ด ์กด์žฌํ•  ๋•Œ ์žฌ๊ตฌ์„ฑ ํ•ญ(reconstruction terms)์„ ์ถ”๊ฐ€ํ•˜๋Š” ์ถ”์ •-์œ ๋„ ํ•™์Šต(estimation-guided learning)์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ๋ชฉํ‘œ๋ฅผ ํ˜ผํ•ฉํ•œ๋‹ค.
  • ์ถ”๋ก  ๋ชจ๋“œ (Inference Modes): ์ˆœ์ˆ˜ ์ƒ์„ฑ(pure generation), ์ œ์•ฝ๋œ ์ƒ์„ฑ(constrained generation), ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ œ์–ด(hybrid control)๋ฅผ ์ง€์›ํ•œ๋‹ค. ๋ชจ๋“  ๋ชจ๋“œ๋Š” ๋™์ผํ•œ ์ƒ˜ํ”Œ๋Ÿฌ๋ฅผ ๊ณต์œ ํ•˜๋ฉฐ, ์–ด๋–ค ์กฐ๊ฑด ์ŠคํŠธ๋ฆผ์ด ๋น„์–ด ์žˆ์ง€ ์•Š์€์ง€์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค. TensorRT๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น ๋ฅธ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  • ์‹œ์Šคํ…œ ํ†ตํ•ฉ (Integration with our system): ์ €์ง€์—ฐ(low-latency) ๋ชจ์…˜ ์ƒ์„ฑ์„ ์œ„ํ•ด ์˜ค๋ฒ„๋žฉ(overlap)์ด ์žˆ๋Š” ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ(sliding windows)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์œˆ๋„์šฐ ๊ฐ„์˜ ์ „ํ™˜์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ธํŽ˜์ธํŒ…(inpainting)์„ ์‚ฌ์šฉํ•œ ํ™•์‚ฐ ๋””๋…ธ์ด์ง• ํ”„๋กœ์„ธ์Šค๋ฅผ ์ˆ˜์ •ํ•œ๋‹ค.

4. ๊ฒฐ๊ณผ ๋ฐ ํ‰๊ฐ€ (Results & Evaluation)

  • ๋ชจ์…˜ ์ถ”์  (Motion Tracking): SONIC์€ 1์–ต ํ”„๋ ˆ์ž„์˜ ๋ชจ์…˜์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, GPU ์‹œ๊ฐ„, ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ๋“ฑ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์ธก๋ฉด์—์„œ ๊ทœ๋ชจ ํ™•์žฅ์˜ ์ด์ ์„ ๋ถ„์„ํ–ˆ๋‹ค (๊ทธ๋ฆผ 2). ๋ชจ๋“  ์ธก๋ฉด์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ ๋ชจ์…˜ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ ์ฆ๊ฐ€๊ฐ€ ๊ฐ€์žฅ ํฐ ์ด๋“์„ ๊ฐ€์ ธ์™”๋‹ค. Any2Track, BeyondMimic, GMT์™€ ๊ฐ™์€ ์ตœ์‹  ์ถ”์ ๊ธฐ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ, SONIC์€ ๋ฏธ์ง€์˜(unseen) ๋ชจ์…˜ ์‹œํ€€์Šค์—์„œ ํ›จ์”ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ํ–ฅ์ƒ๋œ ์ถ”์  ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์‹ค์„ธ๊ณ„(real-world) ๋ฐฐํฌ์—์„œ๋„ 50๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ๋ชจ์…˜ ๊ฒฝ๋กœ์— ๋Œ€ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ์™€ ๊ฑฐ์˜ ์ผ์น˜ํ•˜๋Š” 100% ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ ๊ฒฌ๊ณ ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค.
  • ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋ชจ์…˜ ์ œ์–ด (Interactive Motion Control): SONIC์€ ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ œ์–ด(0.0m/s ~ 6.0m/s ์†๋„, 0 ~ 360๋„ ๋ฐฉํ–ฅ, ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ)์™€ ๋ณต์‹ฑ๊ณผ ๊ฐ™์€ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์—”ํ„ฐํ…Œ์ธ๋จผํŠธ ํƒœ์Šคํฌ, ์Šค์ฟผํŒ…, ๋ฌด๋ฆŽ ๊ฟ‡๊ธฐ, ํฌ๋กค๋ง(crawling)๊ณผ ๊ฐ™์€ ๋™์ž‘ ๊ธฐ์ˆ ์„ ์ง€์›ํ•œ๋‹ค. ํŠนํžˆ, ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ์™€ ์ถ”์  ์ •์ฑ…์ด ๋™์ผํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ƒˆ๋กœ์šด ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ์œ„ํ•ด ์žฌํ›ˆ๋ จํ•  ํ•„์š”๊ฐ€ ์—†์—ˆ๋‹ค.
  • ๋น„๋””์˜ค ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํฌ๋กœ์Šค-์—”๋ฐ”๋””๋จผํŠธ ์ œ์–ด (Video Teleoperation and Multi-Modal Cross-Embodiment Control): SONIC์€ GENMO๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋น„๋””์˜ค, ์ž์—ฐ์–ด ํ…์ŠคํŠธ, ์Œ์•… ์˜ค๋””์˜ค๋กœ๋ถ€ํ„ฐ ์ธ๊ฐ„ ๋ชจ์…˜์„ ์ƒ์„ฑํ•˜๊ณ  ๋กœ๋ด‡์ด ์ด๋ฅผ ๋ชจ๋ฐฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(โ€œwalk forwardโ€, โ€œact like a monkeyโ€)์™€ ์Œ์•… ์กฐ๊ฑด๋ถ€(music-conditioned) ๋Œ„์Šค ๋™์ž‘์„ ํฌํ•จํ•˜๋ฉฐ, ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ๋Š๊น€ ์—†๋Š” ์ „ํ™˜์„ ์ง€์›ํ•œ๋‹ค.
  • VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๋ฐ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์—ฐ๊ฒฐ (VR-Based Teleoperation and Connecting to Foundation Models):
    1. PICO ๊ธฐ๋ฐ˜ ์ „์‹  VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์ „์ฒด ํฌ์ฆˆ ์ œ์–ด๋ฅผ, (2) 3ํฌ์ธํŠธ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„, (3) VLA ๋ชจ๋ธ ๊ตฌ๋™ ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜(mobile manipulation)์„ ์‹œ์—ฐํ•œ๋‹ค. ํŠนํžˆ, GR00T N1.5 VLA ๋ชจ๋ธ์„ 3ํฌ์ธํŠธ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ์‚ฌ๊ณผ๋ฅผ ์ ‘์‹œ๋กœ ์˜ฎ๊ธฐ๋Š” ํƒœ์Šคํฌ์—์„œ 95%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, SONIC์ด VLA์˜ ๊ณ ์ˆ˜์ค€ ์ถ”๋ก (System 2)์„ ๋ณด์™„ํ•˜๋Š” ๋ฐ˜์‘ํ˜• ์ „์‹  ์ปจํŠธ๋กค๋Ÿฌ(System 1) ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

5. Deployment

๋ชจ๋“  ์ธํผ๋Ÿฐ์Šค(inference) ๋ฐ ๊ด€๋ฆฌ ์Šคํƒ์€ ์œ ๋‹ˆํŠธ๋ฆฌ G1 ํ”Œ๋žซํผ์˜ ์˜จ๋ณด๋“œ(onboard) CPU/GPU์—์„œ ์‹คํ–‰๋˜์–ด ํ”ผ๋“œ๋ฐฑ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ตœ์†Œํ™”ํ•œ๋‹ค. ์ •์ฑ… ๋ฃจํ”„๋Š” 50Hz๋กœ, ์‚ฌ์šฉ์ž ์ž…๋ ฅ์€ 100Hz๋กœ, ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ๋Š” 10Hz๋กœ ์ž‘๋™ํ•œ๋‹ค. Jetson Orin GPU์—์„œ TensorRT์™€ CUDA Graph ๊ฐ€์†์„ ์‚ฌ์šฉํ•˜์—ฌ 1-2ms(์ •์ฑ…) ๋˜๋Š” 12ms(๋ชจ์…˜ ์ƒ์„ฑ)์˜ ๋‚ฎ์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

6. Discussion & Limitations

๋ณธ ์—ฐ๊ตฌ๋Š” ๋™์ž‘ ์ถ”์ ์„ ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด๋ฅผ ์œ„ํ•œ ํ•ต์‹ฌ ํ™•์žฅ ๊ฐ€๋Šฅ ํƒœ์Šคํฌ๋กœ ์„ค์ •ํ•˜๊ณ , ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์ปดํ“จํŠธ ์ž์›์„ ํ™œ์šฉํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ฒฌ๊ณ ํ•œ ์ „์‹  ํ–‰๋™์„ ์ƒ์„ฑํ•˜๋Š” ๋‹จ์ผ ์ •์ฑ…์„ ํ›ˆ๋ จํ–ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ์ถ”์ ๊ธฐ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ๊ณผ ๋ฒ”์šฉ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์‹ค์šฉ์ ์ธ ์‹œ์Šคํ…œ์œผ๋กœ์˜ ๋ฐœ์ „์„ ์‹œ์‚ฌํ•œ๋‹ค. ํ•œ๊ณ„์ ์œผ๋กœ๋Š” ์•ˆ์ „, ๊ทœ์ • ์ค€์ˆ˜, ์—๋„ˆ์ง€ ํšจ์œจ์„ฑ, ๋…ธ์ด์ฆˆ ์ž…๋ ฅ ์ฒ˜๋ฆฌ์— ๋Œ€ํ•œ ๊ณต์‹์ ์ธ ์ ‘๊ทผ์ด ๋ถ€์กฑํ•˜๋‹ค๋Š” ์ ์ด ์–ธ๊ธ‰๋˜์—ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์— ๊ฑธ์นœ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™, VLA ์ง€์‹œ ์ „์‹  ๋กœ์ฝ”๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜(loco-manipulation) ํƒœ์Šคํฌ, ๊ทธ๋ฆฌ๊ณ  ํ”Œ๋ž˜๋„ˆ, ํ† ํฌ๋‚˜์ด์ €(tokenizer), ์ •์ฑ…์˜ ๊ณต๋™ ํ›ˆ๋ จ์„ ํƒ๊ตฌํ•  ์˜ˆ์ •์ด๋‹ค.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

TL;DR โ€” ํ•œ๋ˆˆ์— ๋ณด๋Š” ํ•ต์‹ฌ

โ€œํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—๋„ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์ด ์ž‘๋™ํ•œ๋‹ค.โ€

NVIDIA Research ํŒ€์ด ๋ฐœํ‘œํ•œ SONIC์€ 1์–ต ํ”„๋ ˆ์ž„ ์ด์ƒ์˜ ๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ, 42M ํŒŒ๋ผ๋ฏธํ„ฐ ์ •์ฑ… ๋„คํŠธ์›Œํฌ, ๊ทธ๋ฆฌ๊ณ  128 GPU ร— 3์ผ(์•ฝ 9,000~32,000 GPU-hours) ์˜ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์„ ํ†ตํ•ด ๋‹จ์ผ ์ •์ฑ…(single unified policy)์œผ๋กœ ๊ฑท๊ธฐยท๋‹ฌ๋ฆฌ๊ธฐยท์ถคยท๊ธฐ์–ด๊ฐ€๊ธฐยท์ ํ”„ยทํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๊นŒ์ง€ ์ปค๋ฒ„ํ•˜๋Š” ๋ฒ”์šฉ ํœด๋จธ๋…ธ์ด๋“œ ์ „์‹  ์ œ์–ด๊ธฐ๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค. ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์ด๋ผ๋Š” ๋‹จ์ผ ๊ณผ์ œ๋ฅผ ์Šค์ผ€์ผ์—…ํ•จ์œผ๋กœ์จ ์ˆ˜์ž‘์—… ๋ณด์ƒ ์„ค๊ณ„(reward engineering) ์—†์ด ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋™์ž‘์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.


1. ์„œ๋ก : ์™œ ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด๋Š” ์Šค์ผ€์ผ์—…์— ์‹คํŒจํ–ˆ๋Š”๊ฐ€?

1.1 AI ์Šค์ผ€์ผ๋ง ํ˜๋ช…์˜ โ€œ์‚ฌ๊ฐ์ง€๋Œ€โ€

์ง€๋‚œ 10๋…„๊ฐ„ AI๋Š” ๋†€๋ผ์šด ์Šค์ผ€์ผ๋ง์˜ ์‹œ๋Œ€๋ฅผ ๋งž์ดํ–ˆ๋‹ค. GPT ๊ณ„์—ด ๋ชจ๋ธ์€ ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ์ˆ˜๋งŒ ๋Œ€์˜ GPU ์œ„์—์„œ ํ•™์Šต๋˜๊ณ , ์ด๋ฏธ์ง€ยท๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ๋„ ์ˆ˜์ฒœ ๋Œ€์˜ GPU๋กœ ์ˆ˜์‹ญ์–ต ์žฅ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ์ œ์–ด ๋ถ„์•ผ๋Š” ์–ด๋–ค๊ฐ€?

ํ˜„์‹ค์€ ์ข€ ๋‹ค๋ฅด๋‹ค. ์ตœ์ฒจ๋‹จ ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด ์ •์ฑ…(policy)์€ ๋Œ€๋ถ€๋ถ„ 3์ธต์งœ๋ฆฌ MLP์— ์ˆ˜๋ฐฑ๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ, GPU ํ•œ ์žฅ์—์„œ ๋ฉฐ์น  ํ•™์Šตํ•˜๋Š” ์ˆ˜์ค€์— ๋จธ๋ฌผ๋Ÿฌ ์žˆ๋‹ค. ๊ฑท๊ธฐ ๋”ฐ๋กœ, ์ถค์ถ”๊ธฐ ๋”ฐ๋กœ, ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๋”ฐ๋กœ โ€” ํ•˜๋‚˜์˜ ํ–‰๋™๋งˆ๋‹ค ๋ณ„๋„์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ค๊ณ„ํ•˜๊ณ , ๋ณ„๋„์˜ ์ •์ฑ…์„ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค.

์ด ์ƒํ™ฉ์„ ๋น„์œ ํ•˜์ž๋ฉด, ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ธ๊ณ„์—์„œ โ€œ์˜์–ด ๋ฒˆ์—ญ ๋ชจ๋ธโ€, โ€œํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ ๋ชจ๋ธโ€, โ€œ์š”์•ฝ ๋ชจ๋ธโ€์„ ์ „๋ถ€ ๋”ฐ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. GPT๊ฐ€ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ์ด ๋ชจ๋“  ๊ฒƒ์„ ํ•ด๊ฒฐํ–ˆ๋“ฏ์ด, ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด๋„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ–‰๋™์„ ๋ชจ๋‘ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜์ง€ ์•Š์„๊นŒ?

1.2 ์™œ ์Šค์ผ€์ผ๋ง์ด ์•ˆ ๋์„๊นŒ? โ€” ๊ณผ์ œ ์„ ํƒ์˜ ๋ฌธ์ œ

SONIC ์ €์ž๋“ค์˜ ์ง„๋‹จ์€ ๋ช…์พŒํ•˜๋‹ค: ๋ฌธ์ œ๋Š” โ€œ๊ณผ์ œ ์„ ํƒ(task selection)โ€์— ์žˆ๋‹ค.

๊ฑท๊ธฐ๋ฅผ ์œ„ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์ถค์— ๋Œ€ํ•œ ์‹ ํ˜ธ๋ฅผ ์ฃผ์ง€ ๋ชปํ•œ๋‹ค. ์ผ์–ด์„œ๊ธฐ๋ฅผ ์œ„ํ•œ ๋ณด์ƒ์€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์— ์“ธ๋ชจ๊ฐ€ ์—†๋‹ค. ๊ฐ๊ฐ์˜ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์—๋Š” ์ƒˆ๋กญ๊ฒŒ ์„ค๊ณ„๋œ ๋ณด์ƒ๊ณผ ๋ชฉํ‘œ๊ฐ€ ํ•„์š”ํ•˜๋‹ˆ, ์Šค์ผ€์ผ์—… ์ž์ฒด๊ฐ€ ๊ตฌ์กฐ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ฒƒ์ด๋‹ค. ๋ณด์ƒ์„ ๋„ˆ๋ฌด ์˜ค๋ž˜ ํ•™์Šตํ•˜๋ฉด ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด ๋‚˜๋น ์ง€๋Š”(reward hacking) ํ˜„์ƒ๊นŒ์ง€ ๊ด€์ฐฐ๋˜์—ˆ๋‹ค.

1.3 ํ•ด๋ฒ•: ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์„ โ€œ๋ฒ”์šฉ ๊ณผ์ œโ€๋กœ

๊ทธ๋ ‡๋‹ค๋ฉด ๋ณด์ƒ ์„ค๊ณ„ ์—†์ด๋„ ๋‹ค์–‘ํ•œ ํ–‰๋™์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋‹จ์ผ ๊ณผ์ œ๊ฐ€ ์žˆ์„๊นŒ?

SONIC์˜ ๋‹ต์€ ๋ฐ”๋กœ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น(motion tracking) ์ด๋‹ค.

๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์˜ ์žฅ์ ์€ ์•„์ฃผ ์ง๊ด€์ ์ด๋‹ค:

  • ๋ฐ€์ง‘ ๊ฐ๋… ์‹ ํ˜ธ(dense supervision): ๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ์˜ ๋งค ํ”„๋ ˆ์ž„์ด ๊ณง ํ•™์Šต ๋ชฉํ‘œ๋‹ค. โ€œ์ด ์ž์„ธ๋กœ ์ด ์œ„์น˜์— ์žˆ์–ด๋ผโ€๋ผ๋Š” ๋ช…ํ™•ํ•œ ์‹ ํ˜ธ๊ฐ€ ํ”„๋ ˆ์ž„๋งˆ๋‹ค ์ฃผ์–ด์ง„๋‹ค.
  • ํ’๋ถ€ํ•œ ๊ธฐ์กด ๋ฐ์ดํ„ฐ: ๊ฑท๊ธฐ, ๋‹ฌ๋ฆฌ๊ธฐ, ์ถค, ์Šคํฌ์ธ , ๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ์„ ํฌํ•จํ•˜๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ์…‹์ด ์ด๋ฏธ ์ˆ˜์‹ญ ๋…„๊ฐ„ ์ถ•์ ๋˜์–ด ์žˆ๋‹ค(AMASS, LaFAN ๋“ฑ).
  • ๋ณด์ƒ ์„ค๊ณ„ ๋ถˆํ•„์š”: ์ฐธ์กฐ ๋™์ž‘์„ ๋”ฐ๋ผํ•˜๋Š” ๊ฒƒ ์ž์ฒด๊ฐ€ ๋ชฉํ‘œ์ด๋ฏ€๋กœ, ํ–‰๋™๋งˆ๋‹ค ๋ณ„๋„์˜ ๋ณด์ƒ์„ ๋งŒ๋“ค ํ•„์š”๊ฐ€ ์—†๋‹ค.

์ด๊ฒƒ์ด SONIC์˜ ์ถœ๋ฐœ์ ์ด๋‹ค. ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์ด๋ผ๋Š” ํ•˜๋‚˜์˜ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๊ณผ์ œ ์œ„์—์„œ, ๋ฐ์ดํ„ฐยท๋ชจ๋ธยท์—ฐ์‚ฐ์„ ๋Œ€๊ทœ๋ชจ๋กœ ํ‚ค์›Œ๋ณด์ž. ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ์–ด๋–ค์ง€ ๋ณด์ž.


2. ๋ฐฉ๋ฒ•๋ก : SONIC์˜ ์•„ํ‚คํ…์ฒ˜์™€ ํ•ต์‹ฌ ์„ค๊ณ„

SONIC์˜ ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ๊ธฐ๋‘ฅ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๋‹ค:

  1. ๋Œ€๊ทœ๋ชจ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ์ •์ฑ… (Supersized Motion Tracker)
  2. ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ (Universal Token Space)
  3. ์‹ค์‹œ๊ฐ„ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ (Kinematic Motion Planner)

๊ฐ๊ฐ์„ ์ž์„ธํžˆ ์‚ดํŽด๋ณด์ž.

2.1 ๋Œ€๊ทœ๋ชจ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ์ •์ฑ…

์Šค์ผ€์ผ๋ง์˜ ์„ธ ์ถ•

SONIC์€ ์„ธ ๊ฐ€์ง€ ์ถ•์„ ๋”ฐ๋ผ ์Šค์ผ€์ผ์—…ํ•œ๋‹ค:

์Šค์ผ€์ผ๋ง ์ถ• ๊ธฐ์กด SOTA SONIC
๋ชจ๋ธ ํฌ๊ธฐ ~1.2M ํŒŒ๋ผ๋ฏธํ„ฐ 42M ํŒŒ๋ผ๋ฏธํ„ฐ
๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์ˆ˜๋งŒ~์ˆ˜์‹ญ๋งŒ ํ”„๋ ˆ์ž„ 1์–ต+ ํ”„๋ ˆ์ž„ (700์‹œ๊ฐ„, 50fps)
์—ฐ์‚ฐ๋Ÿ‰ GPU 1์žฅ ร— ์ˆ˜์ผ 128 GPU ร— 3์ผ (9k~32k GPU-hours)

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด LaFAN(์•ฝ 40๋งŒ ํ”„๋ ˆ์ž„) ์ˆ˜์ค€์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์†Œ๊ทœ๋ชจ MLP๋ฅผ ํ•™์Šตํ–ˆ๋‹ค๋ฉด, SONIC์€ ์ž์ฒด ์ˆ˜์ง‘ํ•œ 1์–ต ํ”„๋ ˆ์ž„ ์ด์ƒ์˜ ๊ณ ํ’ˆ์งˆ ๋ชจ์…˜ ๋ฐ์ดํ„ฐ์—์„œ 42M ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ •์ฑ…์„ ํ•™์Šตํ•œ๋‹ค. ์ด๊ฑด ์ž๋ฆฟ์ˆ˜ ์ž์ฒด๊ฐ€ ๋‹ค๋ฅธ ์ด์•ผ๊ธฐ๋‹ค.

๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต

SONIC์˜ ํŠธ๋ž˜์ปค๋Š” Isaac Lab ํ™˜๊ฒฝ์—์„œ PPO(Proximal Policy Optimization) ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•™์Šต๋œ๋‹ค. ์—์ด์ „ํŠธ(Unitree G1 ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡)๋Š” ๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค ์ฐธ์กฐ ๋ชจ์…˜์˜ ๋‹ค์Œ ์ž์„ธ๋ฅผ ๋ฐ›์•„, ๊ด€์ ˆ ์œ„์น˜ ๋ช…๋ น(target joint positions)์„ ์ถœ๋ ฅํ•˜๊ณ , PD ์ œ์–ด๊ธฐ๋ฅผ ํ†ตํ•ด ํ† ํฌ๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค.

์ด๋ฅผ ์˜์‚ฌ์ฝ”๋“œ๋กœ ํ‘œํ˜„ํ•˜๋ฉด:

# SONIC ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น RL ํ•™์Šต ๋ฃจํ”„ (๊ฐœ๋…์ )
for epoch in training:
    for env in parallel_envs(128 GPUs):
        # 1. ์ฐธ์กฐ ๋ชจ์…˜์—์„œ ํ˜„์žฌ ํ”„๋ ˆ์ž„ ํƒ€๊ฒŸ ๊ฐ€์ ธ์˜ค๊ธฐ
        ref_pose = motion_dataset.sample_frame(env.time)

        # 2. ํ˜„์žฌ ๋กœ๋ด‡ ์ƒํƒœ ๊ด€์ธก
        obs = env.get_observation()  # ๊ด€์ ˆ ์œ„์น˜, ์†๋„, IMU ๋“ฑ

        # 3. ๋ชจ์…˜ ๋ช…๋ น์„ ๋ฒ”์šฉ ํ† ํฐ์œผ๋กœ ์ธ์ฝ”๋”ฉ
        token = encoder(ref_pose, obs)
        z = FSQ_quantize(token)

        # 4. ๋””์ฝ”๋”๋กœ ๊ด€์ ˆ ๋ช…๋ น ์ƒ์„ฑ
        joint_targets = control_decoder(z, obs)

        # 5. PD ์ œ์–ด๊ธฐ๋กœ ํ† ํฌ ๊ณ„์‚ฐ ๋ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šคํ…
        torques = PD_controller(joint_targets, current_joints)
        env.step(torques)

        # 6. ๋ณด์ƒ ๊ณ„์‚ฐ (๋ชจ์…˜ ์ถ”์ข… + ๋ฌผ๋ฆฌ ํŽ˜๋„ํ‹ฐ)
        reward = compute_reward(env.state, ref_pose)

    # 7. PPO ์—…๋ฐ์ดํŠธ
    policy.update(observations, actions, rewards)

๋ณด์ƒ ์„ค๊ณ„

๋ณด์ƒ ํ•จ์ˆ˜๋Š” BeyondMimic์˜ ์„ค๊ณ„๋ฅผ ๋”ฐ๋ฅด๋ฉฐ, ๋ชจ์…˜ ์ถ”์ข…์˜ ์—ฌ๋Ÿฌ ์ธก๋ฉด์„ ํฌ๊ด„ํ•œ๋‹ค:

r_{\text{total}} = \sum_i w_i \cdot r_i

๊ฐ ๋ณด์ƒ ํ•ญ๋ชฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๋ณด์ƒ ํ•ญ๋ชฉ ์ถ”์  ๋Œ€์ƒ ์„ค๋ช…
r_{\text{body\_pos}} ๊ด€์ ˆ ์œ„์น˜ (root ๊ธฐ์ค€ ์ƒ๋Œ€) ๊ฐ ๋งํฌ์˜ 3D ์œ„์น˜ ์˜ค์ฐจ
r_{\text{body\_rot}} ๊ด€์ ˆ ๋ฐฉํ–ฅ (6D ํšŒ์ „) ๊ฐ ๋งํฌ์˜ ํšŒ์ „ ์˜ค์ฐจ
r_{\text{body\_lin\_vel}} ๋งํฌ ์„ ์†๋„ ๋ฌผ๋ฆฌ์  ์ž์—ฐ์Šค๋Ÿฌ์›€
r_{\text{body\_ang\_vel}} ๋งํฌ ๊ฐ์†๋„ ๋™์  ์ •ํ•ฉ์„ฑ
ํŒจ๋„ํ‹ฐ ํ•ญ๋ชฉ๋“ค ๊ด€์ ˆ ํ•œ๊ณ„ ์œ„๋ฐ˜, ๋ถˆํ•„์š”ํ•œ ์ ‘์ด‰, ๊ธ‰๊ฒฉํ•œ ๋ณ€ํ™” ์•ˆ์ „ํ•˜๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋™์ž‘ ์œ ๋„

ํ•ต์‹ฌ ์„ค๊ณ„ ๋””ํ…Œ์ผ๋กœ, 6D ํšŒ์ „ ํ‘œํ˜„(Zhou et al., 2019)์„ ์‚ฌ์šฉํ•œ๋‹ค. ๊ธฐ์กด์˜ ์˜ค์ผ๋Ÿฌ ๊ฐ์ด๋‚˜ ์ฟผํ„ฐ๋‹ˆ์–ธ์ด ๊ฐ€์ง€๋Š” ๋ถˆ์—ฐ์†์„ฑ์ด๋‚˜ ์ด์ค‘ ์ปค๋ฒ„(double cover) ๋ฌธ์ œ๋ฅผ ํ”ผํ•˜๊ณ , ์‹ ๊ฒฝ๋ง ํ•™์Šต์— ๋” ์นœํ™”์ ์ธ ์—ฐ์† ํ‘œํ˜„์„ ์ฑ„ํƒํ•œ ๊ฒƒ์ด๋‹ค. ์ด๋Š” ์š”์ฆ˜ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ์บ๋ฆญํ„ฐ ์ œ์–ด ๋ถ„์•ผ์—์„œ ์‚ฌ์‹ค์ƒ ํ‘œ์ค€์ฒ˜๋Ÿผ ์ž๋ฆฌ์žก์€ ๊ด€ํ–‰์ด๊ธฐ๋„ ํ•˜๋‹ค.

๋„๋ฉ”์ธ ๋žœ๋คํ™” (Domain Randomization)

Sim-to-real ์ „์ด๋ฅผ ์œ„ํ•ด ํ•™์Šต ์ค‘ ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋žœ๋คํ™”ํ•œ๋‹ค:

๋žœ๋คํ™” ๋Œ€์ƒ ์„ธ๋ถ€ ์‚ฌํ•ญ
๋งˆ์ฐฐ ๊ณ„์ˆ˜ ๋ฐ”๋‹ฅ ๋งˆ์ฐฐ์˜ ๊ท ์ผ ๋ถ„ํฌ ๋ณ€๋™
์งˆ๋Ÿ‰/๊ด€์„ฑ ๋กœ๋ด‡ ๋งํฌ ์งˆ๋Ÿ‰์˜ ๋ถˆํ™•์‹ค์„ฑ ๋ชจ๋ธ๋ง
์™ธ๋ถ€ ๊ต๋ž€ ๋ฃจํŠธ์— ๋žœ๋ค ์„ ํ˜•ยท๊ฐ์†๋„ ์„ญ๋™ ์ธ๊ฐ€ (์™ธ๋ถ€ ๋ฐ€์นจ ์‹œ๋ฎฌ๋ ˆ์ด์…˜)
๋ชจ์…˜ ์„ญ๋™ ์ฐธ์กฐ ๋ชจ์…˜ ๋ช…๋ น ์ž์ฒด์— ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€

์ด๋Ÿฌํ•œ ๋žœ๋คํ™”๊ฐ€ ์‹ค์ œ Unitree G1 ๋กœ๋ด‡์—์„œ์˜ ์ œ๋กœ์ƒท ์ „์ด(zero-shot transfer)๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“  ํ•ต์‹ฌ ์š”์†Œ๋‹ค. โ€œ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์„ธ๊ณ„๋ฅผ ๊ฒฝํ—˜ํ•œ ์ •์ฑ…์€, ์‹ค์ œ ์„ธ๊ณ„๋ผ๋Š” โ€™๋˜ ํ•˜๋‚˜์˜ ๋ณ€ํ˜•โ€™์—๋„ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์ด ๊ทธ ๊ธฐ๋ณธ ์•„์ด๋””์–ด๋‹ค.

2.2 ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ (Universal Token Space)

์—ฌ๊ธฐ๊ฐ€ SONIC์˜ ๊ฐ€์žฅ ์˜๋ฆฌํ•œ ์„ค๊ณ„๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฌธ์ œ ์ธ์‹

์‹ค์ œ ์‘์šฉ์—์„œ ๋ชจ์…˜ ํŠธ๋ž˜์ปค์— ๋“ค์–ด์˜ค๋Š” ์ž…๋ ฅ์€ ์ฒœ์ฐจ๋งŒ๋ณ„์ด๋‹ค:

  • ๋กœ๋ด‡ ๋ชจ์…˜: ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ๊ฐ€ ์ƒ์„ฑํ•œ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ถค์ 
  • ์ธ๊ฐ„ ๋ชจ์…˜: VR ์žฅ์น˜๋‚˜ ๋น„๋””์˜ค์—์„œ ์ถ”์ •๋œ SMPL ํ˜•์‹์˜ ์ธ์ฒด ์ž์„ธ
  • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ์…˜: ์ƒ์ฒด๋Š” ์ธ๊ฐ„(VR ํ‚คํฌ์ธํŠธ), ํ•˜์ฒด๋Š” ๋กœ๋ด‡(ํ”Œ๋ž˜๋„ˆ ์ƒ์„ฑ)

์ด ์„ธ ๊ฐ€์ง€ ์ „ํ˜€ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์ž…๋ ฅ์„ ํ•˜๋‚˜์˜ ์ •์ฑ…์ด ์ฒ˜๋ฆฌํ•ด์•ผ ํ•œ๋‹ค. ์–ด๋–ป๊ฒŒ?

์ธ์ฝ”๋”-์–‘์žํ™”๊ธฐ-๋””์ฝ”๋” ๊ตฌ์กฐ

SONIC์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค:

flowchart LR
    subgraph ์ž…๋ ฅ["๋‹ค์–‘ํ•œ ์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ"]
        A["๐Ÿค– ๋กœ๋ด‡ ๋ชจ์…˜<br/>(ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ)"]
        B["๐Ÿง‘ ์ธ๊ฐ„ ๋ชจ์…˜<br/>(VR/๋น„๋””์˜ค/SMPL)"]
        C["๐Ÿ”€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ์…˜<br/>(์ƒ์ฒด ์ธ๊ฐ„ + ํ•˜์ฒด ๋กœ๋ด‡)"]
    end

    subgraph ์ธ์ฝ”๋”["์ „์šฉ ์ธ์ฝ”๋” (MLP)"]
        EA["๋กœ๋ด‡ ์ธ์ฝ”๋” โ„ฐ_r"]
        EB["์ธ๊ฐ„ ์ธ์ฝ”๋” โ„ฐ_h"]
        EC["ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ฝ”๋” โ„ฐ_hyb"]
    end

    subgraph ์–‘์žํ™”["FSQ ์–‘์žํ™”๊ธฐ"]
        Q["๋ฒ”์šฉ ํ† ํฐ z"]
    end

    subgraph ๋””์ฝ”๋”["๊ณต์œ  ๋””์ฝ”๋”"]
        DC["์ œ์–ด ๋””์ฝ”๋” ๐’Ÿ_c<br/>โ†’ ๊ด€์ ˆ ๋ช…๋ น"]
        DR["๋ชจ์…˜ ๋””์ฝ”๋” ๐’Ÿ_r<br/>โ†’ ๋กœ๋ด‡ ๋ชจ์…˜ ์žฌ๊ตฌ์„ฑ"]
    end

    A --> EA --> Q
    B --> EB --> Q
    C --> EC --> Q
    Q --> DC
    Q --> DR
Figure 1: SONIC์˜ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ ์•„ํ‚คํ…์ฒ˜. ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ž…๋ ฅ์ด ์ „์šฉ ์ธ์ฝ”๋”๋ฅผ ๊ฑฐ์ณ ์–‘์žํ™”๋œ ๋ฒ”์šฉ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜๋˜๊ณ , ๋™์ผํ•œ ๋””์ฝ”๋”๊ฐ€ ๋กœ๋ด‡ ์ œ์–ด ๋ช…๋ น์„ ์ถœ๋ ฅํ•œ๋‹ค.

๊ฐ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋” ์ž์„ธํžˆ ๋ณด๋ฉด:

์ „์šฉ ์ธ์ฝ”๋”: ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(๋กœ๋ด‡/์ธ๊ฐ„/ํ•˜์ด๋ธŒ๋ฆฌ๋“œ)์— ๋งž๋Š” MLP ์ธ์ฝ”๋”๊ฐ€ ์ž…๋ ฅ์„ ์ž ์žฌ ํ‘œํ˜„(latent representation)์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด๋•Œ ๋กœ๋ด‡ ์ƒํƒœ(proprioception)๋„ ํ•จ๊ป˜ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด๊ฐ„๋‹ค.

FSQ ์–‘์žํ™”๊ธฐ: Finite Scalar Quantization(Mentzer et al., 2023)์„ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์† ์ž ์žฌ ๋ฒกํ„ฐ๋ฅผ ์ด์‚ฐ์ ์ธ ๋ฒ”์šฉ ํ† ํฐ(universal token) \mathbf{z}๋กœ ์–‘์žํ™”ํ•œ๋‹ค. ์ด ํ† ํฐ์€ ์ฐจ์›๋‹น L_z๊ฐœ์˜ ์–‘์žํ™” ์ˆ˜์ค€์„ ๊ฐ€์ง„๋‹ค. FSQ์˜ ์žฅ์ ์€ VQ-VAE์˜ ์ฝ”๋“œ๋ถ ๋ถ•๊ดด(codebook collapse) ๋ฌธ์ œ ์—†์ด ์•ˆ์ •์ ์ธ ์ด์‚ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ณต์œ  ๋””์ฝ”๋” 2์ข…:

  • ์ œ์–ด ๋””์ฝ”๋” \mathcal{D}_c: ๋ฒ”์šฉ ํ† ํฐ + ํ˜„์žฌ ๋กœ๋ด‡ ์ƒํƒœ โ†’ ๊ด€์ ˆ ์œ„์น˜ ๋ช…๋ น (์‹ค์ œ ์ œ์–ด์— ์‚ฌ์šฉ)
  • ๋ชจ์…˜ ๋””์ฝ”๋” \mathcal{D}_r: ๋ฒ”์šฉ ํ† ํฐ โ†’ ๋กœ๋ด‡ ๋ชจ์…˜ ๋ช…๋ น ์žฌ๊ตฌ์„ฑ (๋ณด์กฐ ๊ฐ๋… ์‹ ํ˜ธ๋กœ ์ž ์žฌ ๊ณต๊ฐ„ ํ’ˆ์งˆ ํ–ฅ์ƒ)

์ด ์„ค๊ณ„์˜ ์•„๋ฆ„๋‹ค์›€์€, ์ž…๋ ฅ ์ธ์ฝ”๋”๋งŒ ๋ฐ”๊พธ๋ฉด ๋™์ผํ•œ ์ •์ฑ…์œผ๋กœ ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ง€์›ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์ด๋“ , ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ์ถ”์ •์ด๋“ , ํ…์ŠคํŠธ-ํˆฌ-๋ชจ์…˜์ด๋“ , ๋ชจ๋‘ ๊ฐ™์€ ๋ฒ”์šฉ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜๋˜์–ด ๊ฐ™์€ ๋””์ฝ”๋”๋ฅผ ๊ณต์œ ํ•œ๋‹ค.

๋น„์œ ํ•˜์ž๋ฉด, ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์€ ์ผ์ข…์˜ โ€œ์šด๋™ ํ”ผ์งˆ์˜ ์–ธ์–ดโ€์™€ ๊ฐ™๋‹ค. ๋ˆˆ์œผ๋กœ ๋ณด๋“ , ๊ท€๋กœ ๋“ฃ๋“ , ์†์œผ๋กœ ๋А๋ผ๋“  โ€” ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ๊ฐ ์ฑ„๋„์˜ ์ •๋ณด๊ฐ€ ๊ฒฐ๊ตญ ์šด๋™ ํ”ผ์งˆ์—์„œ๋Š” ํ•˜๋‚˜์˜ ํ†ต์ผ๋œ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜๋˜์–ด ๊ทผ์œก์„ ์ œ์–ดํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ.

๊ต์ฐจ ์‹ ์ฒด(Cross-Embodiment) ์ง€์›

ํŠนํžˆ ์ธ๊ฐ„ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด SMPL ํ˜•์‹์˜ ์ธ๊ฐ„ ์ž์„ธ๋ฅผ ์ง์ ‘ ๋ฒ”์šฉ ํ† ํฐ์œผ๋กœ ๋งคํ•‘ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๊ธฐ์กด์˜ ๋ฆฌํƒ€๊ฒŒํŒ…(retargeting) ๊ณผ์ • ์—†์ด ์ธ๊ฐ„ ๋ชจ์…˜์„ ๋กœ๋ด‡ ์ œ์–ด ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ธ๊ฐ„ โ†’ ๋กœ๋ด‡ ๊ด€์ ˆ ๋งคํ•‘์ด๋ผ๋Š” ๋ณต์žกํ•œ ์ค‘๊ฐ„ ๋‹จ๊ณ„(์˜ˆ: dex-retargeting, ProtoMotions ๋“ฑ)๋ฅผ ๊ฑฐ์ณ์•ผ ํ–ˆ๋˜ ๊ฒƒ๊ณผ ํฐ ์ฐจ์ด์ ์ด๋‹ค.

์ด๋Š” ๋ฆฌํƒ€๊ฒŒํŒ… ํ’ˆ์งˆ์ด ์ •์ฑ… ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ์ตœ๊ทผ ์—ฐ๊ตฌ(Retargeting Matters, 2025)์˜ ๋ฌธ์ œ๋ฅผ ์šฐํšŒํ•˜๋Š” ์šฐ์•„ํ•œ ํ•ด๋ฒ•์ด๊ธฐ๋„ ํ•˜๋‹ค.

2.3 ์‹ค์‹œ๊ฐ„ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ

๋ชจ์…˜ ํŠธ๋ž˜์ปค๊ฐ€ โ€œ์ฐธ์กฐ ๋™์ž‘์„ ์ถฉ์‹คํžˆ ๋”ฐ๋ผํ•˜๋Š” ๋Šฅ๋ ฅโ€์„ ์ œ๊ณตํ•œ๋‹ค๋ฉด, ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ๋Š” โ€œ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ์ฐธ์กฐ ๋™์ž‘์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋Šฅ๋ ฅโ€ ์„ ์ œ๊ณตํ•œ๋‹ค.

์ด ๊ตฌ๋ถ„์ด ์ค‘์š”ํ•˜๋‹ค. ํŠธ๋ž˜์ปค๋งŒ์œผ๋กœ๋Š” โ€œ์•ž์œผ๋กœ ๊ฑธ์–ด๊ฐ€โ€๋ผ๋Š” ๋ช…๋ น์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋‹ค. ๋ˆ„๊ตฐ๊ฐ€๊ฐ€ ๊ตฌ์ฒด์ ์ธ ์ฐธ์กฐ ๋ชจ์…˜์„ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค. ํ”Œ๋ž˜๋„ˆ๊ฐ€ ๋ฐ”๋กœ ๊ทธ ์—ญํ• ์„ ํ•œ๋‹ค.

์ž‘๋™ ๋ฐฉ์‹

ํ”Œ๋ž˜๋„ˆ๋Š” ์ž๊ธฐํšŒ๊ท€์  ์ธ๋น„ํŠธ์œ„๋‹(autoregressive in-betweening) ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•œ๋‹ค:

  1. ์‚ฌ์šฉ์ž ์ž…๋ ฅ(๊ฒŒ์ž„ํŒจ๋“œ ์กฐ์ด์Šคํ‹ฑ, ์†๋„ยท๋ฐฉํ–ฅ ๋ช…๋ น)์„ ๋ฐ›๋Š”๋‹ค
  2. ์ž„๊ณ„ ๊ฐ์‡  ์Šคํ”„๋ง(critically damped spring) ๋ชจ๋ธ๋กœ ๋ถ€๋“œ๋Ÿฌ์šด ๋ฃจํŠธ ์œ„์น˜ยท๋ฐฉํ–ฅ ๊ถค์ ์„ ์ƒ์„ฑํ•œ๋‹ค
  3. ์ด์ „ ์ƒํƒœ(context keyframes)์™€ ๋ชฉํ‘œ ์ƒํƒœ(target keyframes) ์‚ฌ์ด๋ฅผ ๋ณด๊ฐ„ํ•˜์—ฌ ๋ฏธ๋ž˜ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜์„ ์ƒ์„ฑํ•œ๋‹ค
  4. ์ƒ์„ฑ๋œ ๋ชจ์…˜์„ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์„ ํ†ตํ•ด ํŠธ๋ž˜์ปค์— ์ „๋‹ฌํ•œ๋‹ค
flowchart TB
    U["๐Ÿ‘ค ์‚ฌ์šฉ์ž ์ž…๋ ฅ<br/>(๊ฒŒ์ž„ํŒจ๋“œ/์†๋„ ๋ช…๋ น)"] --> S["์ž„๊ณ„ ๊ฐ์‡  ์Šคํ”„๋ง ๋ชจ๋ธ<br/>(๋ฃจํŠธ ๊ถค์  ์ƒ์„ฑ)"]
    S --> TF["๋ชฉํ‘œ ํ‚คํ”„๋ ˆ์ž„ ์ƒ์„ฑ"]

    P["์ด์ „ ์ƒํƒœ<br/>(์ปจํ…์ŠคํŠธ ํ‚คํ”„๋ ˆ์ž„)"] --> E["์ž ์žฌ ํ† ํฐ ์ธ์ฝ”๋”ฉ<br/>(๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋น„์œจ: 4)"]
    TF --> E

    E --> M["๋งˆ์Šคํฌ ํ† ํฐ ์˜ˆ์ธก<br/>(Transformer / Conv1D)"]
    M --> D["๋””์ฝ”๋”ฉ โ†’ ํ‚ค๋„ค๋งˆํ‹ฑ ๋ชจ์…˜ ์‹œํ€€์Šค"]
    D --> T["๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ โ†’ ๋ชจ์…˜ ํŠธ๋ž˜์ปค โ†’ ๋กœ๋ด‡ ์ œ์–ด"]
Figure 2: ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ์˜ ์ž‘๋™ ํ๋ฆ„. ์‚ฌ์šฉ์ž ๋ช…๋ น์ด ์Šคํ”„๋ง ๋ชจ๋ธ์„ ๊ฑฐ์ณ ๋ชฉํ‘œ ํ‚คํ”„๋ ˆ์ž„์œผ๋กœ ๋ณ€ํ™˜๋˜๊ณ , ๋งˆ์Šคํฌ ํ† ํฐ ์˜ˆ์ธก์„ ํ†ตํ•ด ์ž์—ฐ์Šค๋Ÿฌ์šด ์ค‘๊ฐ„ ๋ชจ์…˜์ด ์ƒ์„ฑ๋œ๋‹ค.

๋ชจ์…˜ ํ‘œํ˜„๊ณผ ์ž ์žฌ ๊ณต๊ฐ„ ๊ณ„ํš

ํ”Œ๋ž˜๋„ˆ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ์…˜ ํ‘œํ˜„์€ ๋‘ ๊ฐ€์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค:

  • ๊ณจ๋ฐ˜ ๊ธฐ์ค€ ์ƒ๋Œ€ ๊ด€์ ˆ ์œ„์น˜ (pelvis-relative joint positions)
  • ๊ธ€๋กœ๋ฒŒ ๊ด€์ ˆ ํšŒ์ „ (global joint rotations)

์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์„ค๊ณ„ ๊ฒฐ์ •์ด ์žˆ๋‹ค. ๋กœ์ปฌ(์ •๊ทœํ™”๋œ) ํšŒ์ „ ๋Œ€์‹  ๊ธ€๋กœ๋ฒŒ ํšŒ์ „์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด๋Š” ์ชผ๊ทธ๋ ค ์•‰๊ธฐ(squatting)๋‚˜ ๊ธฐ์–ด๊ฐ€๊ธฐ(crawling)์ฒ˜๋Ÿผ โ€œ์ •๋ฉด(heading)โ€์˜ ์ •์˜๊ฐ€ ๋ชจํ˜ธํ•œ ๋™์ž‘์—์„œ ํŠนํžˆ ์ค‘์š”ํ•˜๋‹ค. ๋กœ์ปฌ ์ •๊ทœํ™” ๋ฐฉ์‹์—์„œ๋Š” ์ด๋Ÿฐ ์ž์„ธ์˜ ๋ฐฉํ–ฅ ํ‘œํ˜„์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€์ง€๋งŒ, ๊ธ€๋กœ๋ฒŒ ํšŒ์ „์€ ์ด ๋ฌธ์ œ๋ฅผ ์šฐํšŒํ•œ๋‹ค.

ํ”Œ๋ž˜๋‹์€ ์›์‹œ ๋ชจ์…˜ ๊ณต๊ฐ„์ด ์•„๋‹ˆ๋ผ ์ž ์žฌ ํ† ํฐ ๊ณต๊ฐ„์—์„œ ์ˆ˜ํ–‰๋œ๋‹ค. ์—ฐ์† ๋ชจ์…˜์„ ์ธ์ฝ”๋”๊ฐ€ ๋‹ค์šด์ƒ˜ํ”Œ๋ง ๋น„์œจ 4๋กœ ์••์ถ•ํ•œ ์ž ์žฌ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , Transformer๋‚˜ Conv1D ๋ฐฑ๋ณธ์ด ์‹œ์ž‘ ํ‚คํ”„๋ ˆ์ž„๊ณผ ๋ชฉํ‘œ ํ‚คํ”„๋ ˆ์ž„ ์‚ฌ์ด์˜ ๋งˆ์Šคํฌ๋œ ํ† ํฐ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์˜ˆ์ธก(masked token prediction)ํ•˜์—ฌ ์ฑ„์šด๋‹ค.

ํ•™์Šต ์‹œ์—๋Š” ๋ชจ๋“  ์ดˆ๊ธฐ ๋ฐฉํ–ฅ์—์„œ ๊ณ„ํš์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•™์Šต ์ƒ˜ํ”Œ์„ ๋žœ๋ค ํšŒ์ „์‹œํ‚จ๋‹ค.

์ง€์›ํ•˜๋Š” ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋“œ

์ด ํ”Œ๋ž˜๋„ˆ ๋•๋ถ„์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค:

์นดํ…Œ๊ณ ๋ฆฌ ๊ตฌ์ฒด์  ๋™์ž‘
์Šคํƒ€์ผ ๋กœ์ฝ”๋ชจ์…˜ ํ–‰๋ณตํ•˜๊ฒŒ ๊ฑท๊ธฐ, ์€๋ฐ€ํ•˜๊ฒŒ ๊ฑท๊ธฐ, ๋ถ€์ƒ๋‹นํ•œ ๊ฑท๊ธฐ, ๋‹ฌ๋ฆฌ๊ธฐ
์ž์„ธ ๋ณ€ํ™˜ ์ชผ๊ทธ๋ ค ์•‰๊ธฐ, ๋ฌด๋ฆŽ ๊ฟ‡๊ธฐ, ์†์œผ๋กœ ๊ธฐ์–ด๊ฐ€๊ธฐ, ํŒ”๊ฟˆ์น˜๋กœ ๊ธฐ์–ด๊ฐ€๊ธฐ
๊ฒฉํˆฌ ๋™์ž‘ ๋ณต์‹ฑ, ์ด๋™ํ•˜๋ฉฐ ๋ณต์‹ฑ
ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ œ์–ด ์ƒ์ฒด VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ + ํ•˜์ฒด ํ”Œ๋ž˜๋„ˆ ์ž๋™ ์ƒ์„ฑ

2.4 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ œ์–ด์™€ VLA ์—ฐ๋™

SONIC์˜ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์€ GENMO๋ผ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ์…˜ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ์—ฐ๋™๋œ๋‹ค. GENMO๋Š” ํ…์ŠคํŠธ, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ธ์ฝ”๋”๋ฅผ ๊ฐ–์ถ”๊ณ , ์‹œ๊ฐ„์  ํŠธ๋žœ์Šคํฌ๋จธ์™€ ๊ต์ฐจ ์–ดํ…์…˜์„ ํ†ตํ•ด ์ •๋ณด๋ฅผ ์œตํ•ฉํ•œ ํ›„, ํ™•์‚ฐ(diffusion) ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ํ”„๋ผ์ด์–ด๋กœ ์ž…๋ ฅ์„ ์šด๋™ํ•™์ ์œผ๋กœ ๊ทธ๋Ÿด๋“ฏํ•œ ์ธ๊ฐ„ ๋ชจ์…˜ ๊ถค์ ์œผ๋กœ ๋””๋…ธ์ด์ง•ํ•œ๋‹ค.

GENMO์™€ SONIC์˜ ์—ฐ๋™์€ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค. GENMO๊ฐ€ ๋””๋…ธ์ด์ง•ํ•œ ์ธ๊ฐ„ ๋ชจ์…˜์„ SONIC์˜ ์ธ๊ฐ„ ์ธ์ฝ”๋”๋กœ ๋ฒ”์šฉ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด, ๋™์ผํ•œ ๋””์ฝ”๋”๊ฐ€ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ œ์–ด๋ฅผ ์‹คํ–‰ํ•œ๋‹ค. ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ์™€ ์ธํŽ˜์ธํŒ… ๊ธฐ๋ฒ•์œผ๋กœ ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๋ฅผ ๋ณด์žฅํ•œ๋‹ค.

์ง€์›๋˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธํ„ฐํŽ˜์ด์Šค

์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฒฝ๋กœ ์‘์šฉ
๋น„๋””์˜ค ๋น„๋””์˜ค โ†’ GENMO (์ž์„ธ ์ถ”์ •, โ‰ฅ60fps) โ†’ ์ธ๊ฐ„ ์ธ์ฝ”๋” โ†’ ๋ฒ”์šฉ ํ† ํฐ ๋น„๋””์˜ค ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ (๋‹จ์•ˆ ์นด๋ฉ”๋ผ)
ํ…์ŠคํŠธ ํ…์ŠคํŠธ โ†’ GENMO (๋ชจ์…˜ ์ƒ์„ฑ) โ†’ ์ธ๊ฐ„ ์ธ์ฝ”๋” โ†’ ๋ฒ”์šฉ ํ† ํฐ ์ž์—ฐ์–ด ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์ œ์–ด
์Œ์•… ์Œ์•… โ†’ GENMO (์•ˆ๋ฌด ์ƒ์„ฑ) โ†’ ์ธ๊ฐ„ ์ธ์ฝ”๋” โ†’ ๋ฒ”์šฉ ํ† ํฐ ์Œ์•…์— ๋งž์ถ˜ ๋Œ„์Šค
VR (์ „์‹ ) PICO VR (ํ—ค๋“œ์…‹+๋ฐœ๋ชฉ ํŠธ๋ž˜์ปค+์ปจํŠธ๋กค๋Ÿฌ) โ†’ SMPL ์ถ”์ • โ†’ ์ธ๊ฐ„ ์ธ์ฝ”๋” โ†’ ๋ฒ”์šฉ ํ† ํฐ ์ •๋ฐ€ ์ „์‹  ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜
VR (3ํฌ์ธํŠธ) PICO (๋จธ๋ฆฌ+์–‘์†, ๋ฐœ๋ชฉ ํŠธ๋ž˜์ปค ๋ถˆํ•„์š”) โ†’ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ฝ”๋” โ†’ ๋ฒ”์šฉ ํ† ํฐ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜
VLA ๋ชจ๋ธ GR00T N1.5 โ†’ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ํ˜•์‹ ์‹ ํ˜ธ โ†’ ํ”Œ๋ž˜๋„ˆ โ†’ ๋ฒ”์šฉ ํ† ํฐ ์ž์œจ ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜

VR 3ํฌ์ธํŠธ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์˜ ์„ธ๋ถ€

3ํฌ์ธํŠธ ๋ชจ๋“œ๋Š” ์‹ค์šฉ์  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ๋‹ค. ์ถœ๋ ฅํ•˜๋Š” ์‹ ํ˜ธ๋Š”:

  • 3๊ฐœ์˜ ์ƒ์ฒด SE(3) ์ž์„ธ (๋จธ๋ฆฌ, ์™ผ์†๋ชฉ, ์˜ค๋ฅธ์†๋ชฉ)
  • ์†๊ฐ€๋ฝ ๊ด€์ ˆ ๊ฐ๋„
  • ํ—ˆ๋ฆฌ ๋†’์ด
  • ๋กœ์ฝ”๋ชจ์…˜ ๋ชจ๋“œ (๋А๋ฆฐ ๊ฑท๊ธฐ / ๋น ๋ฅธ ๊ฑท๊ธฐ)
  • ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋ช…๋ น (๋ฃจํŠธ ์„ ์†๋„ + ๋ฐฉํ–ฅ)

์ด ์‹ ํ˜ธ๋“ค์ด ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ(ํ•˜์ฒด ๋ชจ์…˜ ์ƒ์„ฑ)์™€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ธ์ฝ”๋”(์ƒ์ฒด+ํ•˜์ฒด ํ†ตํ•ฉ)๋ฅผ ๊ฑฐ์ณ ๋ฒ”์šฉ ์ •์ฑ…์œผ๋กœ ์ „๋‹ฌ๋œ๋‹ค.

VLA ์—ฐ๋™: System 1 + System 2

ํŠนํžˆ ์ธ์ƒ์ ์ธ ๊ฒƒ์€ GR00T N1.5 VLA ๋ชจ๋ธ๊ณผ์˜ ์—ฐ๋™์ด๋‹ค. VR 3ํฌ์ธํŠธ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์ˆ˜์ง‘ํ•œ 300๊ฐœ์˜ ๊ถค์  ๋ฐ์ดํ„ฐ๋กœ GR00T N1.5๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด, VLA๊ฐ€ ์ƒ์œ„ ์ˆ˜์ค€์˜ ์ถ”๋ก (์–ด๋””์— ์‚ฌ๊ณผ๊ฐ€ ์žˆ๋Š”์ง€, ์ ‘์‹œ ์œ„์— ์˜ฌ๋ ค๋†“์•„์•ผ ํ•˜๋Š”์ง€)์„ ์ˆ˜ํ–‰ํ•˜๊ณ , SONIC์ด ํ•˜์œ„ ์ˆ˜์ค€์˜ ๋ฐ˜์‘์  ์ „์‹  ์ œ์–ด๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.

์ด๋ฅผ ์ €์ž๋“ค์€ ์ธ์ง€๊ณผํ•™์˜ ์šฉ์–ด๋ฅผ ๋นŒ๋ ค ์„ค๋ช…ํ•œ๋‹ค:

  • SONIC = System 1 (๋น ๋ฅด๊ณ  ๋ฐ˜์‘์ ์ธ ์šด๋™ ๊ธฐ์ˆ  โ€” ์ˆ˜๋ฐฑ Hz ์ˆ˜์ค€์˜ ์ œ์–ด ์ฃผ๊ธฐ)
  • VLA = System 2 (๋А๋ฆฌ์ง€๋งŒ ์ˆ™๊ณ ์ ์ธ ์ถ”๋ก  โ€” ์ˆ˜ Hz ์ˆ˜์ค€)

์ด ์กฐํ•ฉ์œผ๋กœ ์‚ฌ๊ณผ-์ ‘์‹œ ๋ชจ๋ฐ”์ผ pick-and-place ๊ณผ์ œ์—์„œ 20ํšŒ ์‹œ๋„ ์ค‘ 95% ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.


3. ์ „์ฒด ์‹œ์Šคํ…œ ํŒŒ์ดํ”„๋ผ์ธ

SONIC์˜ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ข…ํ•ฉํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

flowchart TB
    subgraph ์ƒ์œ„["์ƒ์œ„ ๋ ˆ๋ฒจ ์ธํ„ฐํŽ˜์ด์Šค"]
        GP["๐ŸŽฎ ๊ฒŒ์ž„ํŒจ๋“œ"]
        VR3["๐Ÿฅฝ VR 3-ํฌ์ธํŠธ"]
        VRF["๐Ÿฅฝ VR ์ „์‹ "]
        VID["๐Ÿ“น ๋น„๋””์˜ค"]
        TXT["๐Ÿ“ ํ…์ŠคํŠธ"]
        MUS["๐ŸŽต ์Œ์•…"]
        VLA["๐Ÿง  VLA<br/>(GR00T N1.5)"]
    end

    subgraph ์ค‘๊ฐ„["๋ชจ์…˜ ์ƒ์„ฑ / ๋ณ€ํ™˜"]
        KP["ํ‚ค๋„ค๋งˆํ‹ฑ<br/>ํ”Œ๋ž˜๋„ˆ"]
        GM["GENMO<br/>(๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ์…˜ ์ƒ์„ฑ)"]
        PICO["PICO VR<br/>(SMPL ์ถ”์ •)"]
    end

    subgraph ํ•ต์‹ฌ["SONIC ํ•ต์‹ฌ"]
        direction TB
        ENC["์ „์šฉ ์ธ์ฝ”๋”<br/>(๋กœ๋ด‡/์ธ๊ฐ„/ํ•˜์ด๋ธŒ๋ฆฌ๋“œ)"]
        UT["๋ฒ”์šฉ ํ† ํฐ z<br/>(FSQ ์–‘์žํ™”)"]
        DEC["๊ณต์œ  ๋””์ฝ”๋”<br/>(์ œ์–ด + ๋ชจ์…˜ ์žฌ๊ตฌ์„ฑ)"]
    end

    subgraph ์‹คํ–‰["๋กœ๋ด‡ ์‹คํ–‰"]
        PD["PD ์ œ์–ด๊ธฐ"]
        G1["Unitree G1<br/>(Jetson Orin)"]
    end

    GP --> KP --> ENC
    VR3 --> KP
    VR3 --> ENC
    VRF --> PICO --> ENC
    VID --> GM --> ENC
    TXT --> GM
    MUS --> GM
    VLA --> KP

    ENC --> UT --> DEC --> PD --> G1
Figure 3: SONIC ์ „์ฒด ์‹œ์Šคํ…œ ํŒŒ์ดํ”„๋ผ์ธ. ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์„ ํ†ตํ•ด ๋‹จ์ผ ์ œ์–ด ์ •์ฑ…์œผ๋กœ ํ†ตํ•ฉ๋œ๋‹ค.

์˜จ๋ณด๋“œ ๋ฐฐํฌ ์„ฑ๋Šฅ

์ „์ฒด ์‹œ์Šคํ…œ์€ Unitree G1 ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์˜ Jetson Orin GPU์—์„œ ์˜จ๋ณด๋“œ๋กœ ์‹คํ–‰๋œ๋‹ค:

๊ตฌ์„ฑ ์š”์†Œ ์ง€์—ฐ ์‹œ๊ฐ„
์ •์ฑ… ์ถ”๋ก  (TensorRT + CUDA Graph) 1~2 ms
ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋‹ 12 ms
VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ํ‰๊ท  ์ง€์—ฐ 121.9 ms
์˜ค๋ฅธ์ชฝ ์†๋ชฉ ์œ„์น˜ ์˜ค์ฐจ (ํ—ˆ๋ฆฌ ํ”„๋ ˆ์ž„ ๊ธฐ์ค€) ์‹ค์šฉ์  ์ˆ˜์ค€

์ด ์ˆ˜์ค€์˜ ๋ ˆ์ดํ„ด์‹œ๋ฉด ์‹ค์‹œ๊ฐ„ ๋ฐ˜์‘์  ์ œ์–ด์— ์ถฉ๋ถ„ํ•˜๋‹ค. ํŠนํžˆ ์ •์ฑ… ์ถ”๋ก  1~2ms๋Š” 500Hz ์ด์ƒ์˜ ์ œ์–ด ๋ฃจํ”„๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๋œป์ด๋‹ค.


4. ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ๋ถ„์„

4.1 ์Šค์ผ€์ผ๋ง์˜ ํšจ๊ณผ

SONIC ๋…ผ๋ฌธ์—์„œ ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ ์ค‘ ํ•˜๋‚˜๋Š” ์„ธ ์ถ• ๋ชจ๋‘์—์„œ ์„ฑ๋Šฅ์ด ์ง€์†์ ์œผ๋กœ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ๋ฐœ๊ฒฌ์ด๋‹ค (๋…ผ๋ฌธ Figure 2(a-c)).

๋ฐ์ดํ„ฐ ๊ทœ๋ชจ์˜ ํšจ๊ณผ

๋ฐ์ดํ„ฐ์…‹ ํ”„๋ ˆ์ž„ ์ˆ˜ MPJPE ๊ฒฝํ–ฅ
LaFAN 0.4M ๋†’์€ ์˜ค์ฐจ
In-house (๋ถ€๋ถ„) 7.4M ์ค‘๊ฐ„ ์˜ค์ฐจ
Full dataset 100M ๊ฐ€์žฅ ๋‚ฎ์€ ์˜ค์ฐจ

๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์ฆ๊ฐ€๊ฐ€ ๊ฐ€์žฅ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”๋‹ค. ์ด๋Š” ์ง๊ด€์ ์œผ๋กœ๋„ ์ดํ•ด๊ฐ€ ๋œ๋‹ค โ€” ๋‹ค์–‘ํ•œ ์ธ๊ฐ„ ๋™์ž‘์˜ โ€œ์‚ฌ์ „ ์ง€์‹(motion prior)โ€์„ ๋” ํ’๋ถ€ํ•˜๊ฒŒ ํ•™์Šตํ• ์ˆ˜๋ก, ๋ณด์ง€ ๋ชปํ•œ ๋™์ž‘์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์ข‹์•„์ง„๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์—์„œ โ€œ๋” ๋งŽ์€ ํ…์ŠคํŠธ๋ฅผ ํ•™์Šตํ• ์ˆ˜๋ก ๋” ์ข‹์€ ์–ธ์–ด ์ดํ•ดโ€๊ฐ€ ๋˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์›๋ฆฌ๋‹ค.

GPU ์‹œ๊ฐ„์˜ ํšจ๊ณผ

8 GPU, 32 GPU, 128 GPU๋กœ ๊ฐ๊ฐ ์ˆ˜๋ ด๊นŒ์ง€ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ, ๋” ๋งŽ์€ GPU์—์„œ ๋ณ‘๋ ฌ ํ•™์Šตํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋” ๋‚ฎ์€ ์ ๊ทผ ์„ฑ๋Šฅ(asymptotic performance) ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” ๋‹จ์ˆœํžˆ ํ•™์Šต ์‹œ๊ฐ„ ๋‹จ์ถ•์ด ์•„๋‹ˆ๋‹ค. ๋™์ผํ•œ ์ˆ˜๋ ด ์‹œ๊ฐ„์„ ์ฃผ๋”๋ผ๋„, 128 GPU๊ฐ€ 8 GPU๋ณด๋‹ค ๋” ๋‚˜์€ ์ตœ์ข… ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•œ๋‹ค.

์ด๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ๊ฐ€ RL ํ•™์Šต์˜ ์•ˆ์ •์„ฑ๊ณผ ํƒ์ƒ‰ ํ’ˆ์งˆ์— ๊ธ์ •์  ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค. PPO์˜ ๊ฐ€์น˜ ํ•จ์ˆ˜ ์ถ”์ •์ด ๋” ์ •ํ™•ํ•ด์ง€๊ณ , ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ๋ถ„์‚ฐ์ด ์ค„์–ด๋“ค๋ฉด์„œ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ์ข‹์€ ๋กœ์ปฌ ๋ฏธ๋‹ˆ๋งˆ์— ์ˆ˜๋ ดํ•˜๋Š” ๊ฒƒ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ชจ๋ธ ํฌ๊ธฐ์˜ ํšจ๊ณผ

1.2M์—์„œ 42M ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ‚ค์šฐ๋ฉด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค. ๊ธฐ์กด ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—์„œ๋Š” MLP๋ฅผ ๋„ˆ๋ฌด ํฌ๊ฒŒ ํ‚ค์šฐ๋ฉด ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์—ˆ๋Š”๋ฐ(BFM-Zero ๋…ผ๋ฌธ์—์„œ๋„ residual architecture๊ฐ€ ์•„๋‹Œ ์ˆœ์ˆ˜ MLP์˜ ๋Œ€ํ˜•ํ™”๊ฐ€ ๋ถˆ์•ˆ์ •ํ•˜๋‹ค๊ณ  ๋ณด๊ณ ), SONIC์€ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์‚ฐ์„ ๋™์‹œ์— ํˆฌ์ž…ํ•จ์œผ๋กœ์จ ์ด ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„  ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค.

4.2 ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต

SONIC์€ AMASS ๋ฐ์ดํ„ฐ์…‹์˜ ๋ฏธ์‚ฌ์šฉ ์„œ๋ธŒ์…‹(9์‹œ๊ฐ„, 1,602๊ฐœ ๊ถค์  โ€” TWIST์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๋™์ผ)์—์„œ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. SONIC์€ AMASS ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์ง€ ์•Š์•˜์œผ๋ฏ€๋กœ, ์ด๋Š” ์™„์ „ํ•œ ๋ถ„ํฌ ์™ธ(out-of-distribution) ํ‰๊ฐ€๋‹ค. ํ…Œ์ŠคํŠธ์…‹ ๊ทœ๋ชจ ์ž์ฒด๊ฐ€ ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์ด๋ผ๋Š” ์ ๋„ ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‹ค.

๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋ชจ๋“  ํ‰๊ฐ€๋Š” MuJoCo ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค (๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ์ด ์ง€์›ํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ).

์„ฑ๊ณต๋ฅ  ๋น„๊ต (๋…ผ๋ฌธ Figure 2(d))

๋ฐฉ๋ฒ• ํ•™์Šต ๋ฐ์ดํ„ฐ ์„ฑ๊ณต๋ฅ (Succ, %)
Any2Track LaFAN 58.3
GMT AMASS 84.2
BeyondMimic LaFAN 94.3
SONIC ์ž์ฒด ์ˆ˜์ง‘ (100M) 99.6

SONIC์˜ 99.6% ์„ฑ๊ณต๋ฅ ์€ ์••๋„์ ์ด๋‹ค. ํŠนํžˆ AMASS ๋ฐ์ดํ„ฐ๋กœ ์ง์ ‘ ํ•™์Šตํ•œ GMT(84.2%)๋ณด๋‹ค๋„ ๋†’๋‹ค๋Š” ์ ์ด ๋†€๋ž๋‹ค. SONIC์€ AMASS๋ฅผ ํ•œ ๋ฒˆ๋„ ๋ณธ ์ ์ด ์—†๋Š”๋ฐ๋„ ๋ง์ด๋‹ค. ์ด๋Š” ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ๋ชจ์…˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์ด ์ง„์ •ํ•œ โ€œ๋ชจ์…˜ ํ”„๋ผ์ด์–ดโ€๋ฅผ ํš๋“ํ–ˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์ถ”์  ์ •ํ™•๋„ ๋ฉ”ํŠธ๋ฆญ (๋…ผ๋ฌธ Figure 2(e-g))

๋ฉ”ํŠธ๋ฆญ ์„ค๋ช… SONIC ์„ฑ๋Šฅ
MPJPE (E_{\text{mpjpe}}, mm) ๋ฃจํŠธ ๊ธฐ์ค€ ์ƒ๋Œ€ ๊ด€์ ˆ ์œ„์น˜ ์˜ค์ฐจ ๋ชจ๋“  ๋ฐฉ๋ฒ• ์ค‘ ์ตœ์ €
๊ฐ€์†๋„ ์˜ค์ฐจ (E_{\text{acc}}, mm/frameยฒ) ๋ฌผ๋ฆฌ์  ์ž์—ฐ์Šค๋Ÿฌ์›€ ๋ชจ๋“  ๋ฐฉ๋ฒ• ์ค‘ ์ตœ์ €
์†๋„ ์˜ค์ฐจ (E_{\text{vel}}, mm/frame) ๋™์  ์ •ํ•ฉ์„ฑ ๋ชจ๋“  ๋ฐฉ๋ฒ• ์ค‘ ์ตœ์ €

์ด ๋ฉ”ํŠธ๋ฆญ๋“ค์€ ์„ฑ๊ณต์ ์œผ๋กœ ์ถ”์ ๋œ ๊ถค์ ์—์„œ๋งŒ ๊ณ„์‚ฐ๋œ๋‹ค. ์ฆ‰, SONIC์€ ๊ฑฐ์˜ ๋ชจ๋“  ๊ถค์ ์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ถ”์ ํ•˜๋ฉด์„œ(99.6%), ๊ทธ ์ถ”์  ํ’ˆ์งˆ๊นŒ์ง€ ๊ฐ€์žฅ ๋†’๋‹ค.

์‹คํŒจ ๊ธฐ์ค€

๋ชจ์…˜ ์ถ”์ข…์ด ์‹คํŒจ๋กœ ๊ฐ„์ฃผ๋˜๋Š” ์กฐ๊ฑด(๋…ผ๋ฌธ ๊ธฐ์ค€, ์™„ํ™”๋œ ๊ธฐ์ค€):

  • ๋กœ๋ด‡ ๋ฃจํŠธ ๋†’์ด๊ฐ€ ์ฐธ์กฐ ๋ชจ์…˜์—์„œ 0.25m ์ด์ƒ ๋ฒ—์–ด๋‚จ (= ๋„˜์–ด์ง)
  • ๋˜๋Š” ๋ฃจํŠธ ๋ฐฉํ–ฅ์ด ์ฐธ์กฐ์—์„œ 1 ๋ผ๋””์•ˆ ์ด์ƒ ๋ฒ—์–ด๋‚จ

์ด ๊ธฐ์ค€ ํ•˜์—์„œ 99.6%๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค๋Š” ๊ฒƒ์€ ์‚ฌ์‹ค์ƒ 1,602๊ฐœ ๊ถค์  ์ค‘ ์•ฝ 6๊ฐœ๋งŒ ์‹คํŒจํ–ˆ๋‹ค๋Š” ์˜๋ฏธ๋‹ค.

4.3 ์‹ค์„ธ๊ณ„ ์ „์ด (Real-World Transfer)

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค. SONIC์˜ ์ง„์ •ํ•œ ์‹œํ—˜๋Œ€๋Š” ์‹ค์ œ Unitree G1 ๋กœ๋ด‡์ด๋‹ค.

์ œ๋กœ์ƒท Sim-to-Real

SONIC์€ 50๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋ชจ์…˜ ๊ถค์ ์„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ ๋‹จ ํ•œ ๋ฒˆ์˜ ์‹คํŒจ ์—†์ด ์ˆ˜ํ–‰ํ–ˆ๋‹ค (100% ์„ฑ๊ณต๋ฅ ). ์ด๋Š” ๋‹ค์Œ์„ ํฌํ•จํ•˜๋Š” ๋ณต์žกํ•œ ํ–‰๋™๋“ค์ด๋‹ค:

  • ์ถค ๋™์ž‘ (์•ˆ๋ฌด ์ถ”์ข…)
  • ์ ํ”„ ์‹œํ€€์Šค
  • ๋กœ์ฝ”๋ชจ์…˜-๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๊ฒฐํ•ฉ ๋™์ž‘
  • ์ฟตํ›„ ๋™์ž‘ (๋น„๋””์˜ค ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜)
  • ๊ธฐ์–ด๊ฐ€๊ธฐ

์ด ๊ฒฐ๊ณผ๋Š” ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ๊ฐ•๋ ฅํžˆ ๊ฒ€์ฆํ•œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์— ๋…ธ์ถœ๋œ ์ •์ฑ…์ด ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ฌผ๋ฆฌ์  ์ฐจ์ด์—๋„ ๊ฒฌ๋”œ ์ˆ˜ ์žˆ๋Š” ๊ฐ•๊ฑด์„ฑ์„ ํš๋“ํ•œ ๊ฒƒ์ด๋‹ค. ๋…ผ๋ฌธ์€ ์‹ค์„ธ๊ณ„ ์„ฑ๋Šฅ์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ์— ๊ทผ์ ‘ํ•œ๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค.

ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ •๋Ÿ‰ ํ‰๊ฐ€

3ํฌ์ธํŠธ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ๋ชจ๋“œ์—์„œ 300๊ฐœ ๊ถค์ ์— ๊ฑธ์นœ ์ •๋Ÿ‰์  ํ‰๊ฐ€:

  • ํ‰๊ท  ์ง€์—ฐ์‹œ๊ฐ„: 121.9 ms
  • ์†๋ชฉ ์ถ”์ : ์˜ค๋ฅธ์ชฝ ์†๋ชฉ ์œ„์น˜ ์˜ค์ฐจ๋ฅผ ํ—ˆ๋ฆฌ ํ”„๋ ˆ์ž„ ๊ธฐ์ค€์œผ๋กœ ์ธก์ •, ์‹ค์šฉ์  ์ˆ˜์ค€ ๋‹ฌ์„ฑ

์ด๋Š” ์‚ฌ๊ณผ๋ฅผ ์ง‘์–ด ์ ‘์‹œ์— ์˜ฌ๋ฆฌ๋Š” ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๊ฐ™์€ ์‹ค์ œ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•œ ์ •๋ฐ€๋„๋‹ค.


5. ๋น„ํŒ์  ๊ณ ์ฐฐ

5.1 ๊ฐ•์ 

โ‘  โ€œ๊ณผ์ œ ์„ ํƒโ€์ด๋ผ๋Š” ๊ทผ๋ณธ์  ํ†ต์ฐฐ

SONIC์˜ ๊ฐ€์žฅ ํฐ ๊ธฐ์—ฌ๋Š” ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ์ด ์•„๋‹ˆ๋ผ, โ€œ์™œ ์ง€๊ธˆ๊นŒ์ง€ ์Šค์ผ€์ผ์—…์ด ์•ˆ ๋๋Š”๊ฐ€?โ€๋ผ๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์ด๋‹ค. ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์„ ๋ฒ”์šฉ ๊ณผ์ œ๋กœ ์„ค์ •ํ•œ ๊ฒƒ์€ ๋‹จ์ˆœํ•˜์ง€๋งŒ ๊นŠ์€ ํ†ต์ฐฐ์ด๋‹ค. ์ข‹์€ ๊ณผํ•™์˜ ํŠน์„ฑ โ€” ๋‹จ์ˆœํ•œ ์›๋ฆฌ์—์„œ ๋ณต์žกํ•œ ํ˜„์ƒ์„ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ โ€” ์„ ์ž˜ ๋ณด์—ฌ์ค€๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์—์„œ โ€œ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธกโ€์ด ๋ฒ”์šฉ ๊ณผ์ œ์ธ ๊ฒƒ์ฒ˜๋Ÿผ, ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์€ ๋กœ๋ด‡ ์ œ์–ด์—์„œ์˜ ๋ฒ”์šฉ ๊ณผ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

โ‘ก ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์˜ ๊น”๋”ํ•œ ์ถ”์ƒํ™”

FSQ ์–‘์žํ™”๋ฅผ ํ†ตํ•œ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์€ ๋งค์šฐ ์šฐ์•„ํ•œ ์„ค๊ณ„๋‹ค. VR์ด๋“  ๋น„๋””์˜ค๋“  ํ…์ŠคํŠธ๋“ , ๋ชจ๋“  ๊ฒƒ์ด ๊ฐ™์€ ์ •๋ณด ๋ณ‘๋ชฉ(information bottleneck)์„ ํ†ต๊ณผํ•˜๋ฏ€๋กœ, ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์ƒˆ ์ธ์ฝ”๋” ํ•˜๋‚˜๋งŒ ํ•™์Šตํ•˜๋ฉด ๋˜๋Š” ๋ฌธ์ œ๋กœ ์ถ•์†Œ๋œ๋‹ค. ๋˜ํ•œ ๋ฆฌํƒ€๊ฒŒํŒ… ์—†์ด ๊ต์ฐจ ์‹ ์ฒด ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค๋Š” ์ ์—์„œ ์‹ค์šฉ์  ๊ฐ€์น˜๊ฐ€ ํฌ๋‹ค.

โ‘ข ์‹ค์šฉ์  ์‹œ์Šคํ…œ ๊ตฌํ˜„

๋งŽ์€ ์—ฐ๊ตฌ ๋…ผ๋ฌธ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ฑ๋Šฅ๋งŒ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, SONIC์€ ์˜จ๋ณด๋“œ ๋ฐฐํฌ, ์‹ค์‹œ๊ฐ„ ํ”Œ๋ž˜๋„ˆ, VLA ์—ฐ๋™, ๋‹ค์–‘ํ•œ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ธํ„ฐํŽ˜์ด์Šค๊นŒ์ง€ ์™„๊ฒฐ๋œ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ–ˆ๋‹ค. 1~2ms ์ถ”๋ก  ์ง€์—ฐ์€ TensorRT/CUDA Graph ์ตœ์ ํ™”์˜ ๊ฒฐ๊ณผ์ด๋ฉฐ, ์ด๋Š” ์‹ค์ œ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ์‹ฌ์ธต์  ์—”์ง€๋‹ˆ์–ด๋ง์ด๋‹ค.

โ‘ฃ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์˜ ๊ฒฝํ—˜์  ๊ฒ€์ฆ

๋ฐ์ดํ„ฐยท๋ชจ๋ธยท์—ฐ์‚ฐ ๊ฐ๊ฐ์˜ ์ถ•์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€ ๊ฒƒ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ๋ฐฉํ–ฅ์„ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•œ๋‹ค. โ€œ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„๋ผ, ๋” ํฐ ๋ชจ๋ธ์„ ์“ฐ๋ผ, ๋” ๋งŽ์€ GPU๋ฅผ ์จ๋ผโ€ โ€” ์ด ๊ฐ„๋‹จํ•œ ์ฒ˜๋ฐฉ์ด ์‹ค์ œ๋กœ ์ž‘๋™ํ•œ๋‹ค๋Š” ์ฆ๊ฑฐ๋Š” ๋ถ„์•ผ ์ „์ฒด์— ํฐ ์ž„ํŒฉํŠธ๋ฅผ ์ค€๋‹ค.

โ‘ค ์™„์ „ํ•œ ํŒŒ์ดํ”„๋ผ์ธ: ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ โ†’ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ โ†’ VLA โ†’ ์ž์œจ ์ œ์–ด

ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ๊ทธ ๋ฐ์ดํ„ฐ๋กœ VLA๋ฅผ ํ•™์Šตํ•˜๊ณ , VLA๊ฐ€ ๊ฐ™์€ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์ž์œจ ์ œ์–ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์™„์ „ํ•œ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ (data flywheel) ์„ ์‹œ์—ฐํ–ˆ๋‹ค. ์ด๋Š” ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์ด ๋‹จ์ˆœํ•œ ๋ชจ๋ฐฉ์„ ๋„˜์–ด ์ž์œจ์  ๊ณผ์ œ ์ˆ˜ํ–‰์˜ ๊ธฐ์ดˆ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

5.2 ์•ฝ์ ๊ณผ ํ•œ๊ณ„

โ‘  ์•ˆ์ „์„ฑ(Safety)๊ณผ ์ปดํ”Œ๋ผ์ด์–ธ์Šค(Compliance)์˜ ๋ถ€์žฌ

์ €์ž๋“ค ์Šค์Šค๋กœ๋„ ์ธ์ •ํ•˜๋“ฏ, ์•ˆ์ „์„ฑ, ์ปดํ”Œ๋ผ์ด์–ธ์Šค, ์—๋„ˆ์ง€ ํšจ์œจ์— ๋Œ€ํ•œ ๊ณต์‹์  ์ฒ˜๋ฆฌ๊ฐ€ ์—†๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ๋žŒ๊ณผ ํ•จ๊ป˜ ์ผํ•˜๋Š” ํœด๋จธ๋…ธ์ด๋“œ์—๊ฒŒ ์ด๋Š” ํ•„์ˆ˜์ ์ธ ์š”์†Œ๋‹ค. ์œ„์น˜ ๊ธฐ๋ฐ˜ PD ์ œ์–ด๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ•์„ฑ(stiff)ํ•˜๋ฏ€๋กœ, ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ์ ‘์ด‰ ์ƒํ™ฉ์—์„œ ์‚ฌ๋žŒ์ด๋‚˜ ํ™˜๊ฒฝ์— ์œ„ํ—˜์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค. ์ตœ๊ทผ GentleHumanoid ๊ฐ™์€ ์—ฐ๊ตฌ๊ฐ€ ์ด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์‹œ์ž‘ํ–ˆ์ง€๋งŒ, SONIC์—๋Š” ์•„์ง ๋ฐ˜์˜๋˜์ง€ ์•Š์•˜๋‹ค.

โ‘ก ์ปดํ“จํŒ… ์ž์›์˜ ์žฅ๋ฒฝ

128 GPU ร— 3์ผ์ด๋ผ๋Š” ํ•™์Šต ๋น„์šฉ์€ ๋Œ€๋ถ€๋ถ„์˜ ์—ฐ๊ตฌ ๊ทธ๋ฃน์—๊ฒŒ ํ˜„์‹ค์ ์ด์ง€ ์•Š๋‹ค. NVIDIA ๋‚ด๋ถ€์—์„œ๋Š” ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ์žฌํ˜„์„ฑ(reproducibility) ์ธก๋ฉด์—์„œ ํฐ ํ•œ๊ณ„๋‹ค. 8 GPU ๋ฒ„์ „๋„ ํ•™์Šต ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋ฏ€๋กœ, โ€œ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ์žฌํ˜„ํ•˜๋ ค๋ฉด ๋Œ€๊ทœ๋ชจ ์ž์›์ด ํ•„์š”ํ•˜๋‹คโ€๋Š” ์ง„์ž… ์žฅ๋ฒฝ์ด ์กด์žฌํ•œ๋‹ค. ์ด๋Š” ์†Œ๊ทœ๋ชจ ์—ฐ๊ตฌ ๊ทธ๋ฃน์ด๋‚˜ ํ•™๊ณ„์˜ ์ฐธ์—ฌ๋ฅผ ์ œํ•œํ•  ์ˆ˜ ์žˆ๋‹ค.

โ‘ข ์ž์ฒด ์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ์…‹์˜ ๋น„๊ณต๊ฐœ

1์–ต ํ”„๋ ˆ์ž„์˜ ํ•ต์‹ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ž์ฒด ์ˆ˜์ง‘(in-house) ๋ฐ์ดํ„ฐ๋‹ค. ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์ธ AMASS๋‚˜ LaFAN๋งŒ์œผ๋กœ๋Š” ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ์žฌํ˜„ํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ, ๋ฐ์ดํ„ฐ ์ž์ฒด๊ฐ€ ๋น„๊ณต๊ฐœ ๊ฒฝ์Ÿ ์šฐ์œ„๊ฐ€ ๋œ๋‹ค. ์ด๋Š” ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค๊ณ , ์—ฐ๊ตฌ ๊ณต๋™์ฒด์˜ ๋ฐœ์ „์„ ์ €ํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋งŒ GR00T-WholeBodyControl ์ €์žฅ์†Œ์—์„œ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํŠธ ๊ณต๊ฐœ๊ฐ€ ์˜ˆ์ •๋˜์–ด ์žˆ์–ด, ์ถ”๋ก (inference) ์ˆ˜์ค€์˜ ์žฌํ˜„์€ ๊ฐ€๋Šฅํ•ด์งˆ ์ „๋ง์ด๋‹ค.

โ‘ฃ ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ๋ถ„์„ ๋ถ€์กฑ

์‹ค์ œ ๋ฐฐํฌ์—์„œ ๋ชจ์…˜ ์ถ”์ • ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋…ธ์ด์ฆˆ๋Š” ๋ถˆ๊ฐ€ํ”ผํ•˜๋‹ค. ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์ž์„ธ ์ถ”์ •, VR ํŠธ๋ž˜ํ‚น์˜ ๋–จ๋ฆผ, ๋„คํŠธ์›Œํฌ ์ง€์—ฐ ๋“ฑ์˜ ์˜ํ–ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค. ๋ชจ์…˜ ์„ญ๋™์„ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์—์„œ ๋‹ค๋ฃจ๊ธด ํ•˜์ง€๋งŒ, Any2Track์ด๋‚˜ ์ตœ๊ทผ์˜ Robust and Generalized Humanoid Motion Tracking ์—ฐ๊ตฌ์ฒ˜๋Ÿผ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€๋ณ„ ์ •๋Ÿ‰์  ๊ฐ•๊ฑด์„ฑ ๋ถ„์„์ด ์žˆ์—ˆ์œผ๋ฉด ๋” ์„ค๋“๋ ฅ์ด ์žˆ์—ˆ์„ ๊ฒƒ์ด๋‹ค.

โ‘ค ๋‹จ์ผ ๋กœ๋ด‡ ํ”Œ๋žซํผ

๋ชจ๋“  ์‹คํ—˜์ด Unitree G1 ํ•˜๋‚˜์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค. ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ํœด๋จธ๋…ธ์ด๋“œ(Atlas, H1, Figure, 1X ๋“ฑ)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ž…์ฆ๋˜์ง€ ์•Š์•˜๋‹ค. ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์˜ ๊ต์ฐจ ์‹ ์ฒด ๋Šฅ๋ ฅ์ด ๋‹ค๋ฅธ ๋กœ๋ด‡์œผ๋กœ์˜ ํ™•์žฅ์— ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ด€์ ˆ ๊ตฌ์„ฑ, ์งˆ๋Ÿ‰ ๋ถ„ํฌ, ์•ก์ถ”์—์ดํ„ฐ ํŠน์„ฑ์ด ํฌ๊ฒŒ ๋‹ค๋ฅธ ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด๋Š” ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

โ‘ฅ ๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ๊ณผ ์ ‘์ด‰ ํž˜ ์ œ์–ด์˜ ์ œํ•œ

๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ•™์Šต์˜ ๋ณธ์งˆ์  ํ•œ๊ณ„๋กœ, ๋ฌผ์ฒด์™€์˜ ์ •๋ฐ€ํ•œ ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ(ํž˜ ์กฐ์ ˆ, ์ ‘์ด‰ ์ธ์‹, ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ)์€ ์ถฉ๋ถ„ํžˆ ๋‹ค๋ค„์ง€์ง€ ์•Š๋Š”๋‹ค. ์‚ฌ๊ณผ-์ ‘์‹œ ๊ณผ์ œ๊ฐ€ ์‹œ์—ฐ๋˜์—ˆ์ง€๋งŒ, ์ด๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋‹จ์ˆœํ•œ ํŒŒ์ง€/๋ฐฐ์น˜ ๊ณผ์ œ๋‹ค. ๋ฐ˜๋ฉด BeyondMimic์€ ํ™•์‚ฐ ์ •์ฑ…์„ ํ†ตํ•œ ์ œ๋กœ์ƒท ๊ณผ์ œ ์ „ํ™˜์„ ๋ณด์—ฌ์ฃผ์–ด ์ด ๋ฐฉ๋ฉด์—์„œ ๋” ์œ ์—ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

5.3 ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค

  • ์Šค์ผ€์ผ๋ง์˜ ํ•œ๊ณ„๋Š” ์–ด๋””์ธ๊ฐ€? 42M์—์„œ 400M, 4B๋กœ ๊ฐ€๋ฉด ์–ด๋–ค ์ผ์ด ๋ฒŒ์–ด์ง€๋Š”๊ฐ€? ์ˆ˜ํ™•์ฒด๊ฐ(diminishing returns)์ด ์–ธ์ œ ์‹œ์ž‘๋˜๋Š”๊ฐ€? ์ด์— ๋Œ€ํ•œ ๋ณธ๊ฒฉ์ ์ธ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™(scaling law) ๋ถ„์„์ด ์•„์ง ์—†๋‹ค.
  • ํ”Œ๋ž˜๋„ˆ-ํ† ํฌ๋‚˜์ด์ €-์ •์ฑ…์˜ ๊ณต๋™ ํ•™์Šต(joint training) ์€ ๋ชจ๋“ˆ ๊ฐ„ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐญ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€? ํ˜„์žฌ๋Š” ๊ฐœ๋ณ„์ ์œผ๋กœ ํ•™์Šต๋˜๋ฏ€๋กœ, ์ธ์ฝ”๋”-๋””์ฝ”๋” ์‚ฌ์ด์˜ ๋ถˆ์ผ์น˜๊ฐ€ ์กด์žฌํ•  ์ˆ˜ ์žˆ๋‹ค.
  • VLA ์ง€์‹œ ์ „์‹  ๋กœ์ฝ”๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์€ 300๊ฐœ ๊ถค์ ์„ ๋„˜์–ด ์ˆ˜์ฒœ~์ˆ˜๋งŒ ๊ฐœ ๊ทœ๋ชจ์—์„œ ์–ด๋–ค ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š”๊ฐ€? ๊ณผ์ œ์˜ ๋ณต์žก๋„๊ฐ€ ๋†’์•„์ง€๋ฉด?
  • ์—๋„ˆ์ง€ ํšจ์œจ๊ณผ ๋ฐฐํ„ฐ๋ฆฌ ์ œ์•ฝ ํ•˜์—์„œ ์‹ค์ œ ์žฅ์‹œ๊ฐ„ ๋ฐฐํฌ๊ฐ€ ๊ฐ€๋Šฅํ•œ๊ฐ€?
  • ์–‘๋ฐฉํ–ฅ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ : ์ž์œจ ์ œ์–ด ์ค‘ ์‹คํŒจํ•œ ๊ฒฝํ—˜์„ ๋‹ค์‹œ ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ์˜จ๋ผ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?

6. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

6.1 ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ๊ณ„๋ณด

timeline
    title ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์˜ ์ง„ํ™”
    section ์ดˆ๊ธฐ ์—ฐ๊ตฌ
        DeepMimic (2018) : ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ์บ๋ฆญํ„ฐ ๋ชจ๋ฐฉ์˜ ๊ฐœ์ฒ™
        AMP (2021) : ์ ๋Œ€์  ๋ชจ์…˜ ํ”„๋ผ์ด์–ด
    section ๋ฒ”์šฉ ํŠธ๋ž˜ํ‚น
        PHC (2023) : Perpetual Humanoid Control
        MaskedMimic (2024) : ๋งˆ์Šคํฌ ๋ชจ์…˜ ์ธํŽ˜์ธํŒ…
    section ์‹ค์„ธ๊ณ„ ๋ฐฐํฌ
        Any2Track (2025) : 2๋‹จ๊ณ„ RL (ํŠธ๋ž˜์ปค+์–ด๋Œ‘ํ„ฐ)
        GMT (2025) : ๋ฒ”์šฉ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น
        BeyondMimic (2025) : ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๋‹ค์šฉ๋„ ์ œ์–ด
    section ๋Œ€๊ทœ๋ชจ ์Šค์ผ€์ผ๋ง
        SONIC (2025) : 1์–ต ํ”„๋ ˆ์ž„ 42M params 128 GPU
        CLOT (2025) : ํ๋ฃจํ”„ ๊ธ€๋กœ๋ฒŒ ํŠธ๋ž˜ํ‚น
Figure 4: ํœด๋จธ๋…ธ์ด๋“œ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น ์—ฐ๊ตฌ์˜ ๋ฐœ์ „ ํ๋ฆ„. SONIC์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์‚ฐ์„ ํ†ตํ•ด ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๋ŒํŒŒํ•œ๋‹ค.

6.2 ์ฃผ์š” ๊ฒฝ์Ÿ ์—ฐ๊ตฌ ์ƒ์„ธ ๋น„๊ต

ํŠน์„ฑ Any2Track GMT BeyondMimic SONIC
ํ•™์Šต ๋ฐ์ดํ„ฐ LaFAN (~0.4M) AMASS LaFAN ์ž์ฒด 100M+
๋ชจ๋ธ ํฌ๊ธฐ ์ˆ˜ M ์ˆ˜ M ์ˆ˜ M 42M
GPU ํ•™์Šต ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ GPU-hrs ์ˆ˜๋ฐฑ GPU-hrs ์ˆ˜๋ฐฑ GPU-hrs 9k~32k GPU-hrs
ํ•ต์‹ฌ ์ ‘๊ทผ๋ฒ• ํŠธ๋ž˜์ปค+์–ด๋Œ‘ํ„ฐ (2๋‹จ๊ณ„) PPO + ํŠธ๋žœ์Šคํฌ๋จธ ํ™•์‚ฐ ์ •์ฑ… PPO + ๋ฒ”์šฉ ํ† ํฐ
Sim-to-Real ์ „๋žต ํžˆ์Šคํ† ๋ฆฌ ๊ธฐ๋ฐ˜ ์ ์‘ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋Œ€๊ทœ๋ชจ ๋„๋ฉ”์ธ ๋žœ๋คํ™”
๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ ์ œํ•œ์  ์ œํ•œ์  ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ๊ณผ์ œ ์ „ํ™˜ ํ”Œ๋ž˜๋„ˆ+VLA ์—ฐ๋™
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ โœ— โœ— โœ— โœ“ (๋น„๋””์˜ค/ํ…์ŠคํŠธ/์Œ์•…/VR)
OOD ์„ฑ๊ณต๋ฅ  58.3% 84.2% 94.3% 99.6%
์‹ค์„ธ๊ณ„ ๊ฒ€์ฆ G1 ๋ฐฐํฌ, ๊ฐ•๊ฑด์„ฑ ํ…Œ์ŠคํŠธ ์ œํ•œ์  G1 ๋ฐฐํฌ G1, 50๊ถค์  100%

SONIC์˜ ์ฐจ๋ณ„์ ์€ ๋ช…ํ™•ํ•˜๋‹ค. ๋‹จ์ˆœํžˆ ํŠธ๋ž˜ํ‚น ์„ฑ๋Šฅ๋งŒ ์ข‹์•„์ง„ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ ์ง€์›, ์‹ค์‹œ๊ฐ„ ํ”Œ๋ž˜๋„ˆ, VLA ์—ฐ๋™์ด๋ผ๋Š” ์‹ค์šฉ์  ์‹œ์Šคํ…œ๊นŒ์ง€ ์™„๋น„ํ–ˆ๋‹ค.

๋‹ค๋งŒ ๊ฐ ๋ฒ ์ด์Šค๋ผ์ธ์˜ ์„ค๊ณ„ ์ฒ ํ•™๋„ ์ดํ•ดํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. Any2Track์€ ํŠธ๋ž˜์ปค์™€ ์–ด๋Œ‘ํ„ฐ๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๋™์—ญํ•™ ์ ์‘์„ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฏ€๋กœ, ๋…ธ์ด์ฆˆ๋‚˜ ์ง€ํ˜• ๋ณ€ํ™”์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ์—์„œ ์žฅ์ ์ด ์žˆ๋‹ค. BeyondMimic์€ ํ™•์‚ฐ ์ •์ฑ…์„ ํ†ตํ•ด ๋ณด์ƒ ์—†์ด ์ œ๋กœ์ƒท ๊ณผ์ œ ์ „ํ™˜์ด ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, ์ƒˆ๋กœ์šด ๊ณผ์ œ์— ๋Œ€ํ•œ ์œ ์—ฐ์„ฑ์—์„œ ์žฅ์ ์ด ์žˆ๋‹ค. GMT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์œผ๋กœ ์žฅ์‹œ๊ฐ„ ์‹œ๊ณต๊ฐ„ ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.

6.3 BFM-Zero์™€์˜ ๋น„๊ต

BFM-Zero๋„ โ€œํ–‰๋™ ๊ธฐ์ดˆ ๋ชจ๋ธ(Behavioral Foundation Model)โ€์„ ์ง€ํ–ฅํ•˜๋Š” ์—ฐ๊ตฌ๋‹ค. BFM-Zero๋Š” ๋น„์ง€๋„ RL(unsupervised RL) ์„ ํ†ตํ•ด ๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ •๊ทœํ™” ์ˆ˜๋‹จ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋ณด์ƒ ์ถ”๋ก (reward inference)์œผ๋กœ ์ œ๋กœ์ƒท ๊ณผ์ œ ์ˆ˜ํ–‰์„ ์ง€ํ–ฅํ•œ๋‹ค.

๋‘ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์  ์ฐจ์ด:

์ธก๋ฉด BFM-Zero SONIC
ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„ ๋น„์ง€๋„ RL + ์˜คํ”„ ํด๋ฆฌ์‹œ ์ง€๋„ ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น + ์˜จ ํด๋ฆฌ์‹œ PPO
๊ณผ์ œ ์ „ํ™˜ ๋ณด์ƒ ์ถ”๋ก  (์ œ๋กœ์ƒท) ํ”Œ๋ž˜๋„ˆ/ํ† ํฐ ๊ณต๊ฐ„ (์ธํ„ฐํŽ˜์ด์Šค ๊ต์ฒด)
๋ชจ์…˜ ๋ฐ์ดํ„ฐ ์—ญํ•  ์ •๊ทœํ™” ์ˆ˜๋‹จ ์ง์ ‘์  ํ•™์Šต ๋ชฉํ‘œ
์‹ค์„ธ๊ณ„ ๋ฐฐํฌ ์ดˆ๊ธฐ ๋‹จ๊ณ„ ์™„๊ฒฐ๋œ ์‹œ์Šคํ…œ
์Šค์ผ€์ผ ์ค‘๊ทœ๋ชจ ๋Œ€๊ทœ๋ชจ

SONIC์ด ๋” ์ง์ ‘์ ์ด๊ณ  ๊ณตํ•™์ ์ธ ์ ‘๊ทผ์ธ ๋ฐ˜๋ฉด, BFM-Zero๋Š” ๋” ์›๋ฆฌ์ ์ด๊ณ  ๋ฒ”์šฉ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์‹ค์šฉ์  ์„ฑ๋Šฅ์—์„œ๋Š” SONIC์ด ์•ž์„œ์ง€๋งŒ, ๋ณด์ƒ ํ•จ์ˆ˜ ์—†์ด ์‚ฌ์ „ ์ •์˜๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๊ณผ์ œ์— ์ ์‘ํ•˜๋Š” ์œ ์—ฐ์„ฑ์—์„œ๋Š” BFM-Zero์˜ ์ ‘๊ทผ์ด ์žฅ๊ธฐ์ ์œผ๋กœ ๋” ์œ ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

6.4 CLOT๊ณผ์˜ ๋น„๊ต

์ตœ๊ทผ ๋ฐœํ‘œ๋œ CLOT(Closed-Loop Global Motion Tracking)์€ ํ๋ฃจํ”„ ๊ธ€๋กœ๋ฒŒ ํŠธ๋ž˜ํ‚น์„ ๊ฐ•์กฐํ•œ๋‹ค. SONIC์ด ๋กœ์ปฌ(๋ฃจํŠธ ๊ธฐ์ค€ ์ƒ๋Œ€) ํŠธ๋ž˜ํ‚น์— ์ฃผ๋ ฅํ•˜๋Š” ๋ฐ˜๋ฉด, CLOT์€ ๊ธ€๋กœ๋ฒŒ ์ขŒํ‘œ๊ณ„์—์„œ์˜ ์œ„์น˜ ์ถ”์ ์„ ํ†ตํ•ด ์žฅ์‹œ๊ฐ„ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์˜ ๋“œ๋ฆฌํ”„ํŠธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. CLOT์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋žœ๋คํ™” ์ „๋žต๊ณผ ์ ๋Œ€์  ๋ชจ์…˜ ํ”„๋ผ์ด์–ด(AMP)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด MLP ๋Œ€๋น„ ์žฅ์‹œ๊ฐ„ ์‹œ๊ณต๊ฐ„ ์˜์กด์„ฑ ์ฒ˜๋ฆฌ์—์„œ ์šฐ์ˆ˜ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋‘ ์—ฐ๊ตฌ๋Š” ๋ณด์™„์ ์ด๋ฉฐ, SONIC์˜ ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„ + CLOT์˜ ๊ธ€๋กœ๋ฒŒ ํŠธ๋ž˜ํ‚น์„ ๊ฒฐํ•ฉํ•˜๋ฉด ๋” ๊ฐ•๋ ฅํ•œ ์‹œ์Šคํ…œ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

6.5 GR00T ์ƒํƒœ๊ณ„์—์„œ์˜ ์œ„์น˜

SONIC์€ NVIDIA์˜ GR00T ์ƒํƒœ๊ณ„ ์•ˆ์—์„œ Whole-Body Control(WBC) ์ธต์„ ๋‹ด๋‹นํ•œ๋‹ค:

flowchart TB
    subgraph GROOT["GR00T ์ƒํƒœ๊ณ„"]
        direction TB
        VLA2["GR00T N1.5/N1.6<br/>(System 2: VLA ์ถ”๋ก )"]
        SONIC2["SONIC / GEAR-SONIC<br/>(System 1: ์ „์‹  ๋ชจํ„ฐ ๊ธฐ์ˆ )"]
        HW["Unitree G1 / ๊ธฐํƒ€ ํœด๋จธ๋…ธ์ด๋“œ<br/>(ํ•˜๋“œ์›จ์–ด)"]

        VLA2 -->|"๊ณ ์ˆ˜์ค€ ๋ช…๋ น<br/>(SE(3) ์ž์„ธ, ์†๋„)"| SONIC2
        SONIC2 -->|"๊ด€์ ˆ ํ† ํฌ<br/>(PD ์ œ์–ด)"| HW
    end
Figure 5: NVIDIA GR00T ์ƒํƒœ๊ณ„์—์„œ SONIC์˜ ์œ„์น˜. System 2(VLA ์ถ”๋ก ) ์œ„์— System 1(๋ชจํ„ฐ ๊ธฐ์ˆ )๋กœ์„œ ๊ธฐ๋Šฅํ•œ๋‹ค.

GitHub์—์„œ ๊ณต๊ฐœ๋œ GR00T-WholeBodyControl ์ €์žฅ์†Œ์—์„œ Decoupled WBC(์ƒ์ฒด IK + ํ•˜์ฒด RL)์™€ GEAR-SONIC ์‹œ๋ฆฌ์ฆˆ ๋ชจ๋ธ์ด Apache 2.0(์ฝ”๋“œ) + NVIDIA Open Model License(๊ฐ€์ค‘์น˜)๋กœ ๊ณต๊ฐœ๋˜์—ˆ๊ฑฐ๋‚˜ ๊ณต๊ฐœ ์˜ˆ์ •์ด๋‹ค.


7. Allegro Hand ๊ด€์ ์—์„œ์˜ ์‹œ์‚ฌ์ 

Allegro Hand V4์™€ ๊ฐ™์€ ๋‹ค์ง€(dexterous) ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์—ฐ๊ตฌ ๊ด€์ ์—์„œ SONIC์ด ์ฃผ๋Š” ์‹œ์‚ฌ์ ์„ ์ •๋ฆฌํ•ด ๋ณด์ž.

๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ: SONIC์ด ์ „์‹  ์ œ์–ด์—์„œ ๋ณด์—ฌ์ค€ โ€œ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น = ๋ฒ”์šฉ ๊ณผ์ œโ€ ๊ณต์‹์„ ์†๊ฐ€๋ฝ ์ œ์–ด์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์ธ๊ฐ„ ์†์˜ ๋ชจ์…˜์บก์ฒ˜ ๋ฐ์ดํ„ฐ(GRAB, ContactPose, DexYCB, OakInk ๋“ฑ)๊ฐ€ ์ƒ๋‹น๋Ÿ‰ ์ถ•์ ๋˜์–ด ์žˆ๋‹ค. SONIC์˜ ์ ‘๊ทผ์„ ๋”ฐ๋ผ, ๋Œ€๊ทœ๋ชจ ์† ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์ด dexterous manipulation์˜ ๊ธฐ์ดˆ ๋ชจ๋ธ์ด ๋  ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ด ๋ณผ ๋งŒํ•˜๋‹ค.

๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„์˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์ ์šฉ: SONIC์˜ FSQ ๊ธฐ๋ฐ˜ ํ† ํฐ ๊ณต๊ฐ„์„ ์ฐจ์šฉํ•˜๋ฉด, ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(๋ฐ์ดํ„ฐ ๊ธ€๋Ÿฌ๋ธŒ) ยท ๋น„์ „ ๊ธฐ๋ฐ˜ ์ œ์–ด(์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ์† ์ž์„ธ ์ถ”์ •) ยท ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์ œ์–ด ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ํ•˜๋‚˜์˜ ์†๊ฐ€๋ฝ ์ œ์–ด ์ •์ฑ…์œผ๋กœ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋ฆฌํƒ€๊ฒŒํŒ… ์—†์ด ์ธ๊ฐ„ ์† ๋ชจ์…˜์„ ์ง์ ‘ Allegro Hand ์ œ์–ด๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค.

VLA ์—ฐ๋™ ํŒจํ„ด์˜ ์ ์šฉ: SONIC์ด GR00T N1.5์™€ ์—ฐ๋™ํ•œ โ€œSystem 1 + System 2โ€ ํŒจํ„ด์€ Allegro Hand์—์„œ๋„ ์œ ์šฉํ•˜๋‹ค. VLA๊ฐ€ โ€œ์ปต์„ ๋“ค์–ด ์˜ฌ๋ คโ€๋ผ๊ณ  ์ง€์‹œํ•˜๋ฉด, ์†๊ฐ€๋ฝ ํŠธ๋ž˜์ปค๊ฐ€ ์ ์ ˆํ•œ ํŒŒ์ง€ ์ „๋žต์„ ์‹คํ–‰ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ ์˜ ์ ์šฉ: ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  โ†’ ์ด๋ฅผ VLA ํ•™์Šต์— ์‚ฌ์šฉํ•˜๊ณ  โ†’ VLA๊ฐ€ ์ž์œจ ์กฐ์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” SONIC์˜ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ ์„ Allegro Hand ์ƒํƒœ๊ณ„์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ™•์žฅ์ด๋‹ค.


8. ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

SONIC์€ โ€œํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์—๋„ ์Šค์ผ€์ผ๋ง์ด ์ž‘๋™ํ•œ๋‹คโ€ ๋Š” ๊ฒƒ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ์ž…์ฆํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ •๋ฆฌ

  1. ๋ชจ์…˜ ํŠธ๋ž˜ํ‚น์„ ๋ฒ”์šฉ ์Šค์ผ€์ผ๋ง ๊ณผ์ œ๋กœ ํ™•๋ฆฝ: ์ˆ˜์ž‘์—… ๋ณด์ƒ ์„ค๊ณ„ ์—†์ด ๋‹ค์–‘ํ•œ ํ–‰๋™์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ํ”„๋ ˆ์ž„์›Œํฌ
  2. ์„ธ ์ถ• ์Šค์ผ€์ผ๋ง์˜ ๊ฒฝํ—˜์  ๊ฒ€์ฆ: ๋ฐ์ดํ„ฐ(100M+ ํ”„๋ ˆ์ž„), ๋ชจ๋ธ(42M params), ์—ฐ์‚ฐ(128 GPU)์ด ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด
  3. ๋ฒ”์šฉ ํ† ํฐ ๊ณต๊ฐ„: FSQ ์–‘์žํ™”๋กœ ๋กœ๋ด‡/์ธ๊ฐ„/ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ์…˜์„ ํ†ตํ•ฉํ•˜๋Š” ๊น”๋”ํ•œ ์ถ”์ƒํ™”, ๋ฆฌํƒ€๊ฒŒํŒ… ์—†๋Š” ๊ต์ฐจ ์‹ ์ฒด ์ „์ด
  4. ์‹ค์‹œ๊ฐ„ ํ‚ค๋„ค๋งˆํ‹ฑ ํ”Œ๋ž˜๋„ˆ: ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ์ฐธ์กฐ ๋ชจ์…˜์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ƒํ˜ธ์ž‘์šฉ์  ์ œ์–ด ๊ฐ€๋Šฅ
  5. ์™„๊ฒฐ๋œ ์‹œ์Šคํ…œ: ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ โ†’ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ โ†’ VLA ํ•™์Šต โ†’ ์ž์œจ ์ œ์–ด๊นŒ์ง€์˜ ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ 

๋‚จ๊ฒจ์ง„ ๊ณผ์ œ

  • ์•ˆ์ „์„ฑยท์ปดํ”Œ๋ผ์ด์–ธ์Šคยท์—๋„ˆ์ง€ ํšจ์œจ์˜ ๊ณต์‹์  ์ฒ˜๋ฆฌ
  • ์ปดํ“จํŒ… ์ž์› ๋ฏผ์ฃผํ™”์™€ ๋ฐ์ดํ„ฐ ๊ณต๊ฐœ
  • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™”
  • ์ •๋ฐ€ ๋ฌผ์ฒด ์กฐ์ž‘๊ณผ ์ ‘์ด‰ ํž˜ ์ œ์–ด
  • ํ”Œ๋ž˜๋„ˆ-ํ† ํฌ๋‚˜์ด์ €-์ •์ฑ…์˜ ์—”๋“œํˆฌ์—”๋“œ ๊ณต๋™ ํ•™์Šต
  • ๋ณธ๊ฒฉ์ ์ธ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™ ๋ถ„์„

๋งˆ๋ฌด๋ฆฌ

๋ฌผ๋ฆฌํ•™์—์„œ ์ข‹์€ ์ด๋ก ์˜ ์กฐ๊ฑด์€ โ€œ๋‹จ์ˆœํ•œ ์›๋ฆฌ์—์„œ ๋ณต์žกํ•œ ํ˜„์ƒ์„ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒโ€ ์ด๋‹ค. SONIC์˜ ํ•ต์‹ฌ ์›๋ฆฌ โ€” โ€œ์ธ๊ฐ„์˜ ๋™์ž‘์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ž˜ ๋”ฐ๋ผํ•˜๋ฉด, ์ธ๊ฐ„์ด ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๊ฒƒ์„ ํ•˜๋‚˜์˜ ์ •์ฑ…์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹คโ€ โ€” ๋Š” ์•„์ฃผ ๋‹จ์ˆœํ•˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๋‹จ์ˆœํ•œ ์›๋ฆฌ๋ฅผ ๋๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์˜€์„ ๋•Œ, ๊ฑท๊ธฐยท๋‹ฌ๋ฆฌ๊ธฐยท์ถคยท๊ธฐ์–ด๊ฐ€๊ธฐยทํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ยท์ž์œจ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์ด๋ผ๋Š” ๋ณต์žกํ•œ ํ˜„์ƒ๋“ค์ด ํ•˜๋‚˜์˜ ์ •์ฑ…์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐœํ˜„๋œ๋‹ค.

๋ณต์žกํ•œ ๊ธฐ๊ต๋ฅผ ๋ถ€๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์˜ฌ๋ฐ”๋ฅธ ์งˆ๋ฌธ์„ ๋˜์ง€๊ณ (โ€œ์™œ ์Šค์ผ€์ผ๋ง์ด ์•ˆ ๋˜๋Š”๊ฐ€?โ€), ์˜ฌ๋ฐ”๋ฅธ ๋‹ต์„ ์ฐพ๊ณ (โ€œ๊ณผ์ œ ์„ ํƒ์ด ๋ฌธ์ œ๋‹คโ€), ๊ทธ ๋‹ต์„ ๋๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์ด๋Š” ๊ฒƒ(โ€œ๊ทธ๋Ÿฌ๋ฉด 1์–ต ํ”„๋ ˆ์ž„์œผ๋กœ ํ•ด๋ณด์žโ€) โ€” SONIC์€ ์ด ๊ณผ์ •์„ ์ถฉ์‹คํžˆ ์ˆ˜ํ–‰ํ•œ ์—ฐ๊ตฌ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๊ฒฐ๊ณผ๋Š” ํœด๋จธ๋…ธ์ด๋“œ ์ œ์–ด์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋ฐ”๊ฟ€ ๋งŒํผ ๊ฐ•๋ ฅํ•˜๋‹ค.


์ฐธ๊ณ  ๋ฌธํ—Œ ๋ฐ ๋งํฌ

  • ๋…ผ๋ฌธ: arXiv:2511.07820 (Luo et al., 2025)
  • ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€: nvlabs.github.io/SONIC
  • ์ฝ”๋“œ/๋ชจ๋ธ: GR00T-WholeBodyControl (Apache 2.0 + NVIDIA Open Model License)
  • ๊ด€๋ จ ๋ชจ๋ธ: GR00T N1.5
  • ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ: Isaac Lab
  • ๋น„๊ต ๋Œ€์ƒ ์—ฐ๊ตฌ:
    • Any2Track โ€” Zhang et al., 2025 (arXiv:2509.13833)
    • GMT โ€” Chen et al., 2025
    • BeyondMimic โ€” Liao et al., 2025 (ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€)
    • BFM-Zero โ€” 2025 (arXiv:2511.04131)
    • CLOT โ€” 2025 (arXiv:2602.15060)
  • ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡ ํ•™์Šต ๋…ผ๋ฌธ ๋ชฉ๋ก: awesome-humanoid-robot-learning

Copyright 2026, JungYeon Lee