Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?
      • ๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉ ํ˜„์ƒ โ€” ๋กœ๋ด‡ ํ•™์Šต์˜ ๊ฐ€์žฅ ํฐ ์žฅ๋ฒฝ
      • X-Gen ํŒจ๋ฐ€๋ฆฌ์˜ ๋“ฑ์žฅ๊ณผ ํ•œ๊ณ„
      • MoMaGen์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ
    • ๋ฐฉ๋ฒ•: MoMaGen์˜ ์ž‘๋™ ์›๋ฆฌ
      • ๋ฌธ์ œ ์ •์˜: ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ
      • Hard vs Soft ์ œ์•ฝ: ๋ฌด์—‡์ด ๋‹ค๋ฅธ๊ฐ€?
      • ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„
      • ํ•ต์‹ฌ ๊ธฐ์ˆ ์  ํ˜์‹ 
      • ๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ•๋“ค๊ณผ์˜ ๋น„๊ต
    • ์‹คํ—˜: MoMaGen์€ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”๊ฐ€?
      • ์‹คํ—˜ ํ™˜๊ฒฝ
      • ๊ฒฐ๊ณผ 1: ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ
      • ๊ฒฐ๊ณผ 2: ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ 
      • ๊ฒฐ๊ณผ 3: ๋ฌผ์ฒด ๊ฐ€์‹œ์„ฑ
      • ๊ฒฐ๊ณผ 4: ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ
      • ๊ฒฐ๊ณผ 5: Sim-to-Real ์ „์ด
      • ๊ฒฐ๊ณผ 6: Cross-Embodiment ๋ฐ์ดํ„ฐ ์ƒ์„ฑ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
      • ๊ฐ•์ 
      • ์•ฝ์  ๋ฐ ํ•œ๊ณ„
      • ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• vs ๋ฐ์ดํ„ฐ ์ƒ์„ฑ
      • Mobile ALOHA์™€์˜ ๋น„๊ต
      • DemoGen๊ณผ์˜ ๋น„๊ต
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
      • ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ •๋ฆฌ
      • ๋กœ๋ด‡๊ณตํ•™์ž์—๊ฒŒ ์ฃผ๋Š” ์‹œ์‚ฌ์ 
      • ๋งˆ๋ฌด๋ฆฌ
  • โ›๏ธ Dig Review
    • ์„œ๋ก : ์™œ โ€œ์–‘์† + ์ด๋™โ€์€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํŠนํžˆ ๋น„์‹ผ๊ฐ€?
    • ๋ฐฉ๋ฒ•(Method): โ€œ์‹œ์—ฐ ์ƒ์„ฑ = ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œโ€๋กœ ๋‹ค์‹œ ์“ฐ๊ธฐ
      • 1) ๋ฌธ์ œ ์ •์‹ํ™”: Hard๋Š” ๋งŒ์กฑ, Soft๋Š” ์ตœ์†Œํ™”
      • 2) MoMaGen์˜ ๋ชจ๋ฐ”์ผ ํ•ต์‹ฌ ์ œ์•ฝ 4์ข… ์„ธํŠธ
      • 3) ํŒŒ์ดํ”„๋ผ์ธ ์ „์ฒด ๊ทธ๋ฆผ
      • 4) ์•Œ๊ณ ๋ฆฌ์ฆ˜(๋…ผ๋ฌธ Algorithm 1) ํ•ต์‹ฌ ๋™์ž‘์„ โ€œ์™œ ์ด ์ˆœ์„œ์ธ๊ฐ€โ€๋กœ ํ’€๊ธฐ
    • MoMaGen ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ๋ฆ„
    • ์‹คํ—˜(Experiments): ๋ฌด์—‡์„, ์–ด๋–ป๊ฒŒ, ์–ด๋–ค ์ง€ํ‘œ๋กœ ๋ดค๋‚˜?
      • 1) ํƒœ์Šคํฌ ์…‹์—…: 4๊ฐœ โ€œ์ง‘์•ˆ์ผโ€ ๋ฉ€ํ‹ฐ์Šคํ… ํƒœ์Šคํฌ
      • 2) ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋‚œ์ด๋„(D0/D1/D2): โ€œ๋ชจ๋ฐ”์ผ์ด ์•„๋‹ˆ๋ฉด ๋ชป ๋ฒ„ํ‹ฐ๋Š”โ€ ๊ณต๊ฒฉ์  ๋žœ๋คํ™”
      • 3) ๋น„๊ต ๋Œ€์ƒ(๋ฒ ์ด์Šค๋ผ์ธ): SkillMimicGen, DexMimicGen + โ€œ๋ฒ ์ด์Šค ๊ฒฝ๋กœ replayโ€ ํ™•์žฅ
    • ๊ฒฐ๊ณผ(Results): โ€œ์ œ์•ฝ์„ ์ œ๋Œ€๋กœ ๋„ฃ์œผ๋ฉด, ๋ฐ์ดํ„ฐ๋„ ํ•™์Šต๋„ ๊ฐ™์ด ์ข‹์•„์ง„๋‹คโ€
      • 1) ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ: โ€œ๋ฒ ์ด์Šค๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋ฉด, ํŒ”์˜ ๋‹ค์–‘์„ฑ๋„ ๋”ฐ๋ผ์˜จ๋‹คโ€
      • 2) ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ (Table 2): โ€œhard visibility๋ฅผ ๋„ฃ์—ˆ๋”๋‹ˆ, ์˜คํžˆ๋ ค ์„ฑ๊ณต๋ฅ ์ด ์˜ค๋ฅธ๋‹คโ€
      • 3) ์ •์ฑ… ํ•™์Šต(Policy Learning): ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ๊ณง ์„ฑ๊ณต๋ฅ ๋กœ ๋ฒˆ์—ญ๋œ๋‹ค
      • 4) ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋ง: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” โ€œ๋งŽ์„์ˆ˜๋ก ๋‚ซ๋‹คโ€๊ฐ€ ์„ฑ๋ฆฝํ•˜๋Š”๊ฐ€?
      • 5) Sim-to-Real(์‹ค๋กœ๋ด‡): โ€œํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ low-data fine-tune์˜ prior๊ฐ€ ๋œ๋‹คโ€
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ , ๊ทธ๋ฆฌ๊ณ  โ€œ์ด ํ”„๋ ˆ์ž„์ด ๋‚จ๊ธฐ๋Š” ๊ฒƒโ€
      • ๊ฐ•์ (Strengths)
      • ์•ฝ์ /ํ•œ๊ณ„(Limitations)
    • ๊ด€๋ จ ์—ฐ๊ตฌ ๋งฅ๋ฝ์—์„œ์˜ ์œ„์น˜: โ€œX-Gen์˜ ๋‹ค์Œ ์žฅ์€ ๋ชจ๋ฐ”์ผ์ด๋‹คโ€
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก : MoMaGen์ด ๋‚จ๊ธฐ๋Š” ์‹ค๋ฌด์  ๊ตํ›ˆ 5๊ฐ€์ง€

๐Ÿ“ƒMoMaGen ๋ฆฌ๋ทฐ

simulation
humanoid
mobile manipulation
il
data generation
Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
Published

February 4, 2026

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project
  • Code
  1. โš™๏ธ ๋ชจ๋ฐ”์ผ ๋กœ๋ด‡์ด ํฌํ•จ๋œ ๋‹ค๋‹จ๊ณ„ ์–‘์† ์กฐ์ž‘ ์ž‘์—…์—์„œ๋Š” ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ์‹์ด ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ์‹œ์•ผ ํ™•๋ณด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•ด ๋กœ๋ด‡ ํ•™์Šต์šฉ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.
  2. ๐Ÿค– MOMAGEN์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ๊ฐ•์„ฑ ์ œ์•ฝ(์˜ˆ: reachability, ์กฐ์ž‘ ์ค‘ visibility)๊ณผ ์—ฐ์„ฑ ์ œ์•ฝ(์˜ˆ: navigation ์ค‘ visibility)์„ ๊ท ํ˜• ์žˆ๊ฒŒ ๊ณ ๋ คํ•˜๋Š” ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ •์‹ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
  3. ๐Ÿ“Š MOMAGEN์€ ์ด์ „ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ํ›จ์”ฌ ๋‹ค์–‘ํ•˜๊ณ  ๋†’์€ ๊ฐ์ฒด ๊ฐ€์‹œ์„ฑ์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ, ๋‹จ์ผ ์‹œ์—ฐ์œผ๋กœ๋„ ํšจ๊ณผ์ ์ธ imitation learning ์ •์ฑ…์„ ํ›ˆ๋ จํ•˜๊ณ  ์‹ค์ œ ๋กœ๋ด‡์— ์„ฑ๊ณต์ ์œผ๋กœ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

MOMAGEN์€ ๋‹ค๋‹จ๊ณ„ ์–‘ํŒ” ๋ชจ๋ฐ”์ผ ์กฐ์ž‘(multi-step bimanual mobile manipulation)์„ ์œ„ํ•œ ์‹œ์—ฐ(demonstration) ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํ•™์Šต์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋Š” ํšจ๊ณผ์ ์ด์ง€๋งŒ, ํŠนํžˆ ๋ชจ๋ฐ”์ผ ๋ฒ ์ด์Šค์™€ ๋‘ ๊ฐœ์˜ ๊ณ ์ž์œ ๋„(high-DoF) ํŒ”์„ ๋ชจ๋‘ ์กฐ์ž‘ํ•ด์•ผ ํ•˜๋Š” ๋‹ค๋‹จ๊ณ„ ์–‘ํŒ” ๋ชจ๋ฐ”์ผ ์กฐ์ž‘์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ์‹œ๊ฐ„์ด ์†Œ๋ชจ๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด X-Gen ๊ณ„์—ด์˜ ์ž๋™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ •์  ์กฐ์ž‘ ์ž‘์—…์—์„œ๋Š” ์„ฑ๊ณต์ ์ด์—ˆ์ง€๋งŒ, ๋ชจ๋ฐ”์ผ ์กฐ์ž‘ ์ž‘์—…์—์„œ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋ฌธ์ œ์— ์ง๋ฉดํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋ชจ๋ฐ”์ผ ๋ฒ ์ด์Šค๋Š” ํ›„์† ์กฐ์ž‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋กœ๋ด‡ ๋ฒ ์ด์Šค ์œ„์น˜(reachability) ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ์•กํ‹ฐ๋ธŒ ์นด๋ฉ”๋ผ(active camera)๋Š” ์‹œ๊ฐ ์šด๋™ ์ •์ฑ…(visuomotor policy)์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์นด๋ฉ”๋ผ๋ฅผ ์–ด๋–ป๊ฒŒ ๋ฐฐ์น˜ํ•ด์•ผ ํ•˜๋Š”์ง€(visibility) ๋ฌธ์ œ๋ฅผ ๋ฐœ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

MOMAGEN์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์ œ์•ฝ ์ตœ์ ํ™”(constrained optimization) ๋ฌธ์ œ๋กœ ๊ณต์‹ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ(reachability)๊ณผ ๊ฐ™์€ ํ•˜๋“œ ์ œ์•ฝ(hard constraints)์„ ์—„๊ฒฉํ•˜๊ฒŒ ๋งŒ์กฑ์‹œํ‚ค๋ฉด์„œ ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ์‹œ์•ผ ํ™•๋ณด(visibility while navigation)์™€ ๊ฐ™์€ ์†Œํ”„ํŠธ ์ œ์•ฝ(soft constraints)์˜ ๊ท ํ˜•์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์ด ๊ณต์‹ํ™”๋Š” ๊ธฐ์กด์˜ ์ž๋™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์ ‘๊ทผ ๋ฐฉ์‹ ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๋ฐ˜ํ™”๋˜๋ฉฐ, ๋ฏธ๋ž˜ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. MOMAGEN์€ ๋‹จ์ผ ์†Œ์Šค ์‹œ์—ฐ(single source demo)์„ ํ™œ์šฉํ•˜์—ฌ ์ด์ „ ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ๋‹ค์–‘ํ•˜๊ณ  ํ’ˆ์งˆ ๋†’์€ ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์„ฑ๊ณต์ ์ธ ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning) ์ •์ฑ…์„ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ›ˆ๋ จ๋œ ์ •์ฑ…์€ ์†Œ๋Ÿ‰์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ(40๊ฐœ์˜ ์‹œ์—ฐ)๋กœ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)๋˜์–ด ์‹ค์ œ ๋กœ๋ด‡ ํ•˜๋“œ์›จ์–ด์— ์„ฑ๊ณต์ ์œผ๋กœ ๋ฐฐํฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก : ์ œ์•ฝ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ์ž๋™ ์‹œ์—ฐ ์ƒ์„ฑ

MOMAGEN์€ ๊ฐ ์ž‘์—…์„ ์ƒํƒœ ๊ณต๊ฐ„ S์™€ ํ–‰๋™ ๊ณต๊ฐ„ A๋ฅผ ๊ฐ€์ง„ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(Markov Decision Process, MDP)์œผ๋กœ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ์†Œ์Šค ์‹œ์—ฐ ์„ธํŠธ D_{src} = \{d_j = (s_{j0}, a_{j0}, \dots, s_{jT_{src}})\}์—์„œ, ์ƒˆ๋กœ์šด ์„ฑ๊ณต์ ์ธ ์‹œ์—ฐ ์„ธํŠธ D = \{d\}๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์‹œ์—ฐ ์ƒ์„ฑ์€ ๋‹ค์Œ์˜ ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค:

\operatorname*{argmin}_{a_t \in [T]} L(\cdot) \quad \text{s.t.} \quad \begin{cases} s_{t+1} = f(s_t, a_t), & \forall t \in [T] \\ G_{kin}(s_t, a_t) \le 0, & \forall t \in [T] \\ G_{coll}(s_t, a_t) \ge 0, & \forall t \in [T] \\ G_{vis}(s_t, a_t, o_i(t)) \le 0, & \forall t \in [T] \\ T^E_k W = T^{o_i}_W (T^{o_i,src}_W)^{-1} T^E_k W, & \forall \text{contact } \tau_i, \forall k \in [K_i] \\ s_t \in D_{success} \exists t \in [T] & (\text{task success}) \end{cases}

์—ฌ๊ธฐ์„œ L(\cdot)์€ ์‚ฌ์šฉ์ž ์ง€์ • ์†Œํ”„ํŠธ ์ œ์•ฝ ๋น„์šฉ ํ•จ์ˆ˜(์˜ˆ: ์งง์€ ๊ถค์ , ๋‚ฎ์€ ํ”๋“ค๋ฆผ)๋ฅผ ํฌํ•จํ•˜๋ฉฐ, f(s_t, a_t)๋Š” ์‹œ์Šคํ…œ ์—ญํ•™(dynamics)์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ํ•˜๋“œ ์ œ์•ฝ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • G_{kin}: ๊ด€์ ˆ ํ•œ๊ณ„(joint limits)์™€ ๊ฐ™์€ ์šด๋™ํ•™์  ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ(kinematic feasibility)์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • G_{coll}: ์ถฉ๋Œ ํšŒํ”ผ(collision avoidance)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • G_{vis}: ์กฐ์ž‘ ์ค‘ ์‹œ์•ผ(visibility) ์ œ์•ฝ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • T^E_k W = T^{o_i}_W (T^{o_i,src}_W)^{-1} T^E_k W: ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ(contact-rich) ์„œ๋ธŒํƒœ์Šคํฌ์—์„œ ์—”๋“œ ์ดํŽ™ํ„ฐ(end-effector)์™€ ๋Œ€์ƒ ๊ฐ์ฒด ์‚ฌ์ด์˜ ์ƒ๋Œ€์ ์ธ ํฌ์ฆˆ๋ฅผ ์›๋ณธ ์‹œ์—ฐ๊ณผ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋Š” ์ œ์•ฝ์ž…๋‹ˆ๋‹ค.
  • s_t \in D_{success}: ์ž‘์—… ์„ฑ๊ณต์„ ๋ณด์žฅํ•˜๋Š” ์ œ์•ฝ์ž…๋‹ˆ๋‹ค.

๊ฐ ์†Œ์Šค ์‹œ์—ฐ์€ ์—ฌ๋Ÿฌ ์„œ๋ธŒํƒœ์Šคํฌ(subtask)๋กœ ๋ถ„ํ•ด๋˜๋ฉฐ, ๊ฐ ์„œ๋ธŒํƒœ์Šคํฌ๋Š” ๊ด€์‹ฌ ๊ฐ์ฒด o_i์™€ ์—”๋“œ ์ดํŽ™ํ„ฐ ๊ถค์  \tau_i = \{T^E_k W\}^{K_i}_{k=0}๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์„œ๋ธŒํƒœ์Šคํฌ๋Š” ๋กœ๋ด‡ ๋ฒ ์ด์Šค ๋˜๋Š” ํŒ”์„ ์ž์œ  ๊ณต๊ฐ„์—์„œ ์ด๋™์‹œํ‚ค๋Š” ์ž์œ  ๊ณต๊ฐ„ ์„œ๋ธŒํƒœ์Šคํฌ(free-space subtask)์™€ ๊ฐ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

MOMAGEN์˜ ์ฃผ์š” ํ˜์‹ :

MOMAGEN์€ ๋ชจ๋ฐ”์ผ ์กฐ์ž‘์— ํ•„์ˆ˜์ ์ธ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ์ œ์•ฝ๊ณผ ๊ธฐ์ˆ ์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค:

  1. ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ(Reachability) (ํ•˜๋“œ ์ œ์•ฝ): ์ƒ˜ํ”Œ๋ง๋œ ๋ฒ ์ด์Šค ํฌ์ฆˆ๊ฐ€ ๋ชจ๋“  ํ•„์š”ํ•œ ์—”๋“œ ์ดํŽ™ํ„ฐ ๊ถค์ ์„ ๋กœ๋ด‡ ํŒ”์˜ ์ž‘์—… ๊ณต๊ฐ„ ๋‚ด์— ์œ ์ง€ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๊ฐ€ ๋ฒ ์ด์Šค ๊ถค์ ์„ ๊ทธ๋Œ€๋กœ ์žฌ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, MOMAGEN์€ ๋ฌด์ž‘์œ„ํ™”๋œ ๊ฐ์ฒด ์œ„์น˜์— ๋”ฐ๋ผ ๋ฒ ์ด์Šค ํฌ์ฆˆ๋ฅผ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ์กฐ์ž‘ ์ค‘ ๊ฐ์ฒด ์‹œ์•ผ ํ™•๋ณด(Object Visibility during Manipulation) (ํ•˜๋“œ ์ œ์•ฝ): ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ๊ฐ ์šด๋™ ์ •์ฑ… ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋˜๋ฏ€๋กœ, ์ƒ˜ํ”Œ๋ง๋œ ๋ชจ๋“  ํฌ์ฆˆ์—์„œ ํ—ค๋“œ ์นด๋ฉ”๋ผ(head camera)๊ฐ€ ์ž‘์—… ๊ด€๋ จ ๊ฐ์ฒด๋ฅผ ๊ฐ€๋ ค์ง ์—†์ด ๊ด€์ฐฐํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  3. ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ๊ฐ์ฒด ์‹œ์•ผ ํ™•๋ณด(Object Visibility during Navigation) (์†Œํ”„ํŠธ ์ œ์•ฝ): ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ์ž‘์—… ๊ด€๋ จ ๊ฐ์ฒด์˜ ์‹œ์•ผ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์€ ๋ฐ”๋žŒ์งํ•˜์ง€๋งŒ ํ•„์ˆ˜์ ์ด์ง€ ์•Š์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์†Œํ”„ํŠธ ์ œ์•ฝ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ํ—ค๋“œ ์นด๋ฉ”๋ผ๊ฐ€ ๋Œ€์ƒ ๊ฐ์ฒด๋ฅผ ํ–ฅํ•˜๋„๋ก ํŽธํ–ฅ(bias)์„ ์ค๋‹ˆ๋‹ค.
  4. ํ›„ํ‡ด(Retraction) (์†Œํ”„ํŠธ ์ œ์•ฝ): ์กฐ์ž‘ ํ›„ ๋กœ๋ด‡์ด ํŒ”๊ณผ ๋ชธํ†ต์„ ์ปดํŒฉํŠธํ•œ ๊ตฌ์„ฑ์œผ๋กœ ํ›„ํ‡ด์‹œ์ผœ ๋‹ค์Œ ๋‚ด๋น„๊ฒŒ์ด์…˜์„ ๋” ์•ˆ์ „ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์‹œ์—ฐ ์ƒ์„ฑ ๊ณผ์ • (Algorithm 1):

  1. ๋‹จ์ผ ์†Œ์Šค ์‹œ์—ฐ๊ณผ ๊ฐ ์—”๋“œ ์ดํŽ™ํ„ฐ์— ๋Œ€ํ•œ ๊ฐ์ฒด ์ค‘์‹ฌ ์„œ๋ธŒํƒœ์Šคํฌ ์ฃผ์„(annotation)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  2. ์žฅ๋ฉด ๊ตฌ์„ฑ(scene configuration)์„ ๋ฌด์ž‘์œ„ํ™”ํ•˜๊ณ , ์—”๋“œ ์ดํŽ™ํ„ฐ ํฌ์ฆˆ๋ฅผ ์ƒˆ๋กœ์šด ๊ฐ์ฒด ์ขŒํ‘œ๊ณ„๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ฐ ์„œ๋ธŒํƒœ์Šคํฌ์— ๋Œ€ํ•ด ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์‹œ์•ผ ํ™•๋ณด ์ œ์•ฝ์„ ๋งŒ์กฑํ•˜๋Š” ์œ ํšจํ•œ ๋ฒ ์ด์Šค ํฌ์ฆˆ๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค.
  4. ์œ ํšจํ•œ ๋ฒ ์ด์Šค ํฌ์ฆˆ๊ฐ€ ๋ฐœ๊ฒฌ๋˜๋ฉด, ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ๋Œ€์ƒ ๊ฐ์ฒด๋ฅผ ์ฃผ์‹œํ•˜๋ฉด์„œ ์›ํ•˜๋Š” ๋ฒ ์ด์Šค ๋ฐ ํ—ค๋“œ ์นด๋ฉ”๋ผ ํฌ์ฆˆ์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•œ ๋ฒ ์ด์Šค ๋ฐ ๋ชธํ†ต ๊ถค์ ์„ ๊ณ„ํšํ•ฉ๋‹ˆ๋‹ค.
  5. ๋„์ฐฉ ํ›„, ์ค€๋น„ ์ž์„ธ(pregrasp pose)๊นŒ์ง€ ํŒ” ๊ถค์ ์„ ๊ณ„ํšํ•˜๊ณ , ํƒœ์Šคํฌ ๊ณต๊ฐ„ ์ œ์–ด(task space control)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ์—ฐ์„ ์žฌ์ƒ(replay)ํ•ฉ๋‹ˆ๋‹ค.
  6. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ค‘๋ฆฝ ์ž์„ธ๋กœ ํ›„ํ‡ด๋ฅผ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์€ cuRobo(GPU ๊ฐ€์† ๋ชจ์…˜ ์ƒ์„ฑ๊ธฐ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ์…˜ ๊ณ„ํš(motion planning) ๋ฐ ์—ญ์šด๋™ํ•™(inverse kinematics, IK)์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ:

MOMAGEN์€ ๋„ค ๊ฐ€์ง€ ๊ฐ€์ • ํ™˜๊ฒฝ ์ž‘์—…(Pick Cup, Tidy Table, Put Dishes Away, Clean Frying Pan)์— ๋Œ€ํ•ด ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ: MOMAGEN์€ ์ด์ „ ๋ฐฉ๋ฒ•๋“ค(SkillMimicGen, DexMimicGen)๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋‹ค์–‘ํ•œ ๊ฐ์ฒด ํฌ์ฆˆ, ๋ฒ ์ด์Šค ํฌ์ฆˆ, ์—”๋“œ ์ดํŽ™ํ„ฐ ํฌ์ฆˆ, ๊ด€์ ˆ ์œ„์น˜๋ฅผ ๊ฐ€์ง„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, MOMAGEN๋งŒ์ด D1(๋ฌด์ œํ•œ ๊ฐ์ฒด ๋ฐฐ์น˜) ๋ฐ D2(์žฅ์• ๋ฌผ ์ถ”๊ฐ€)์™€ ๊ฐ™์€ ๊ณต๊ฒฉ์ ์ธ ๋ฌด์ž‘์œ„ํ™” ์ˆ˜์ค€์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ : MOMAGEN์€ D0์—์„œ ํ‰๊ท  63%์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋ณต์žกํ•œ ์ž‘์—…๊ณผ ๋†’์€ ๋ฌด์ž‘์œ„ํ™” ์ˆ˜์ค€์—์„œ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ฒ ์ด์Šค ์›€์ง์ž„ ์ ์‘์ด ์ค‘์š”ํ•œ ์ž‘์—…์—์„œ ๊ธฐ์ค€์„ (baselines)์€ D1 ๋˜๋Š” D2 ๋ฌด์ž‘์œ„ํ™”๋ฅผ ์ „ํ˜€ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฐ์ฒด ์‹œ์•ผ ํ™•๋ณด: MOMAGEN์€ ํ•˜๋“œ ๋ฐ ์†Œํ”„ํŠธ ์‹œ์•ผ ์ œ์•ฝ ๋•๋ถ„์— ๋‚ด๋น„๊ฒŒ์ด์…˜ ์ค‘ ์ž‘์—… ๊ด€๋ จ ๊ฐ์ฒด์˜ ์‹œ์•ผ ํ™•๋ณด ๋น„์œจ์ด ๊ธฐ์ค€์„ ๊ณผ ์–ด๋ธ”๋ ˆ์ด์…˜(ablation) ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๋†’์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ ์šด๋™ ์ •์ฑ… ํ•™์Šต์— ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ: MOMAGEN์ด ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ฐฉ ํ•™์Šต ์ •์ฑ…(WB-VIMA, ฯ€0)์€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์‹œ์•ผ ์ œ์•ฝ์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ํŠนํžˆ ์ •์ฑ… ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋ง: MOMAGEN ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์˜ ์–‘์„ ๋Š˜๋ฆด์ˆ˜๋ก ์ •์ฑ… ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • Sim-to-Real ๋ฐฐํฌ: 1,000๊ฐœ์˜ ํ•ฉ์„ฑ ์‹œ์—ฐ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จํ•˜๊ณ  40๊ฐœ์˜ ์‹ค์ œ ์‹œ์—ฐ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•œ ์ •์ฑ…์€ ์‹ค์ œ ๋กœ๋ด‡ ํ•˜๋“œ์›จ์–ด์—์„œ 0% ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ธ ๊ธฐ์ค€์„ ๊ณผ ๋น„๊ตํ•˜์—ฌ WB-VIMA์˜ ๊ฒฝ์šฐ 10%, ฯ€0์˜ ๊ฒฝ์šฐ 60%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” MOMAGEN ๋ฐ์ดํ„ฐ๊ฐ€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ํšจ์œจ์ ์ธ ์ •์ฑ… ํ•™์Šต์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ์‚ฌ์ „ ์ง€์‹(prior)์„ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ œํ•œ ์‚ฌํ•ญ:

  • ์‹œ์—ฐ ์ƒ์„ฑ ์‹œ ์žฅ๋ฉด ์ง€์‹(ground-truth object poses and geometry)์— ๋Œ€ํ•œ ์™„์ „ํ•œ ์ ‘๊ทผ์„ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ๋‚ด๋น„๊ฒŒ์ด์…˜๊ณผ ์กฐ์ž‘ ๋‹จ๊ณ„๊ฐ€ ๊ต๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€๋Š” ์‹œ์—ฐ ์ƒ์„ฑ ๊ฒฐ๊ณผ๋งŒ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ „์‹  ์กฐ์ž‘(whole-body manipulation)์œผ๋กœ์˜ ํ™•์žฅ์€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.
  • GPU ๊ฐ€์† ๋ชจ์…˜ ์ƒ์„ฑ๊ธฐ๋ฅผ ์‹คํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ๋‹นํ•œ GPU ๋ฆฌ์†Œ์Šค๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉ ํ˜„์ƒ โ€” ๋กœ๋ด‡ ํ•™์Šต์˜ ๊ฐ€์žฅ ํฐ ์žฅ๋ฒฝ

๋กœ๋ด‡์„ ๊ฐ€๋ฅด์น˜๋Š” ๊ฐ€์žฅ ์ง๊ด€์ ์ธ ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ผ๊นŒ์š”? ๋ฐ”๋กœ โ€œ๋ณด์—ฌ์ฃผ๊ธฐโ€์ž…๋‹ˆ๋‹ค. ์•„์ด์—๊ฒŒ ์ˆŸ๊ฐ€๋ฝ ์‚ฌ์šฉ๋ฒ•์„ ๊ฐ€๋ฅด์น  ๋•Œ ์šฐ๋ฆฌ๋Š” ์ง์ ‘ ์‹œ์—ฐํ•˜์ฃ . ๋กœ๋ด‡ ํ•™์Šต์—์„œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. ๋ชจ๋ฐฉ ํ•™์Šต(Imitation Learning)์€ ์ธ๊ฐ„์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡์ด ํ–‰๋™์„ ๋ฐฐ์šฐ๋Š” ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ, ์ตœ๊ทผ ๋ˆˆ๋ถ€์‹  ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๊ธฐ์— ์‹ฌ๊ฐํ•œ ๋ณ‘๋ชฉ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ๋„ˆ๋ฌด ๋น„์‹ธ๊ณ  ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ƒ๊ฐํ•ด๋ณด์„ธ์š”. ๋‹จ์ˆœํ•œ ํ…Œ์ด๋ธ” ์œ„ ๋ฌผ์ฒด ์ง‘๊ธฐ ์ž‘์—…๋„ ์ˆ˜๋ฐฑ~์ˆ˜์ฒœ ๊ฐœ์˜ ์‹œ์—ฐ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋งŒ์•ฝ ๋กœ๋ด‡์ด ์ด๋™ํ•˜๋ฉด์„œ ์–‘์†์œผ๋กœ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค๋ฉด? ์ธ๊ฐ„ ์กฐ์ž‘์ž๋Š” ๋™์‹œ์— ์ด๋™ ๋ฒ ์ด์Šค์™€ ๋‘ ๊ฐœ์˜ ๊ณ ์ž์œ ๋„ ํŒ”์„ ์ œ์–ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋งˆ์น˜ ํ”ผ์•„๋…ธ๋ฅผ ์น˜๋ฉด์„œ ๋™์‹œ์— ์ž์ „๊ฑฐ๋ฅผ ํƒ€๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค โ€” ์ธ์ง€์  ๊ณผ๋ถ€ํ•˜๊ฐ€ ๊ทน์‹ฌํ•˜์ฃ .

X-Gen ํŒจ๋ฐ€๋ฆฌ์˜ ๋“ฑ์žฅ๊ณผ ํ•œ๊ณ„

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด X-Gen ๊ณ„์—ด์˜ ๋ฐฉ๋ฒ•๋“ค์ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. MimicGen, SkillMimicGen, DexMimicGen ๋“ฑ์ด ๋Œ€ํ‘œ์ ์ž…๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค:

โ€œ์†Œ์ˆ˜์˜ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ์”จ์•—(seed)์œผ๋กœ ์‚ผ์•„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ˆ˜๋ฐฑ~์ˆ˜์ฒœ ๊ฐœ์˜ ์ƒˆ๋กœ์šด ๋ณ€ํ˜•์„ ์ž๋™ ์ƒ์„ฑํ•˜์ž.โ€

์ด ์ ‘๊ทผ๋ฒ•์€ ๊ณ ์ •๋œ ๋กœ๋ด‡ ํŒ”์˜ ๋‹จ์ˆœ ์กฐ์ž‘ ์ž‘์—…์—์„œ๋Š” ํ›Œ๋ฅญํ•˜๊ฒŒ ์ž‘๋™ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋™ ์กฐ์ž‘(Mobile Manipulation)์œผ๋กœ ํ™•์žฅํ•˜๋ ค ํ•˜์ž ๋‘ ๊ฐ€์ง€ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ์— ๋ถ€๋”ชํ˜”์Šต๋‹ˆ๋‹ค:

  1. ๋„๋‹ฌ์„ฑ(Reachability) ๋ฌธ์ œ: ๋ฌผ์ฒด ์œ„์น˜๊ฐ€ ๋žœ๋คํ™”๋˜๋ฉด, ์›๋ž˜ ์‹œ์—ฐ์˜ ๋ฒ ์ด์Šค ์œ„์น˜์—์„œ๋Š” ํŒ”์ด ๋ฌผ์ฒด์— ๋‹ฟ์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๊ฐ€์‹œ์„ฑ(Visibility) ๋ฌธ์ œ: ์นด๋ฉ”๋ผ๊ฐ€ ๋กœ๋ด‡๊ณผ ํ•จ๊ป˜ ์›€์ง์ด๋ฏ€๋กœ, ์›๋ž˜ ๊ถค์ ์„ ๊ทธ๋Œ€๋กœ ์žฌ์ƒํ•˜๋ฉด ์ž‘์—… ๋Œ€์ƒ ๋ฌผ์ฒด๊ฐ€ ์‹œ์•ผ์—์„œ ์‚ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ฐ-์šด๋™(visuomotor) ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ ค๋ฉด ๋ฌผ์ฒด๊ฐ€ ๋ณด์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค!

MoMaGen์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ

MoMaGen์€ ์ด ๋ฌธ์ œ๋ฅผ ์ œ์•ฝ ์ตœ์ ํ™”(Constrained Optimization) ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ์ด๋ ‡์Šต๋‹ˆ๋‹ค:

๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ โ€œ๋ฐ˜๋“œ์‹œ ์ง€์ผœ์•ผ ํ•  ๊ฒƒ(Hard Constraints)โ€๊ณผ โ€œ๊ฐ€๊ธ‰์  ์ง€ํ‚ค๋ฉด ์ข‹์€ ๊ฒƒ(Soft Constraints)โ€์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ฒด๊ณ„์ ์œผ๋กœ ์ ‘๊ทผํ•˜์ž.

์ด๊ฒƒ์€ ๋งˆ์น˜ ์š”๋ฆฌ ๋ ˆ์‹œํ”ผ์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. โ€œ์†Œ๊ธˆ์€ ๋ฐ˜๋“œ์‹œ ๋„ฃ์–ด์•ผ ํ•œ๋‹ค(hard)โ€์™€ โ€œํŒŒ์Šฌ๋ฆฌ ๊ฐ€๋‹ˆ์‹œ๋Š” ์žˆ์œผ๋ฉด ์ข‹๋‹ค(soft)โ€์˜ ์ฐจ์ด์ฃ . MoMaGen์€ ์ด ๊ตฌ๋ถ„์„ ํ†ตํ•ด:

  • ๋‹จ 1๊ฐœ์˜ ์ธ๊ฐ„ ์‹œ์—ฐ์œผ๋กœ
  • 4๊ฐ€์ง€ ๋ณต์žกํ•œ ์–‘ํŒ” ์ด๋™ ์กฐ์ž‘ ์ž‘์—…์—์„œ
  • ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ›จ์”ฌ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•˜๊ณ 
  • ์„ฑ๊ณต์ ์ธ ๋ชจ๋ฐฉ ํ•™์Šต ์ •์ฑ…์„ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•: MoMaGen์˜ ์ž‘๋™ ์›๋ฆฌ

๋ฌธ์ œ ์ •์˜: ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ

MoMaGen์˜ ๊ฐ€์žฅ ์šฐ์•„ํ•œ ์ ์€ ๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ•๋“ค์„ ํ†ตํ•ฉํ•˜๋Š” ์ผ๋ฐ˜์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ ํƒœ์Šคํฌ๋ฅผ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ •์‹ํ™”ํ•ฉ๋‹ˆ๋‹ค:

\arg\min_{a_t \in [T]} \mathcal{L}(\cdot) \quad \text{s.t.} \quad \begin{cases} s_{t+1} = f(s_t, a_t) & \forall t \in [T] \\ G_{\text{kin}}(s_t, a_t) \leq 0 & \text{(์šด๋™ํ•™์  ์ œ์•ฝ)} \\ G_{\text{coll}}(s_t, a_t) \geq 0 & \text{(์ถฉ๋Œ ํšŒํ”ผ)} \\ G_{\text{vis}}(s_t, a_t, o_i(t)) \leq 0 & \text{(๊ฐ€์‹œ์„ฑ ์ œ์•ฝ)} \\ T^{E_k}_W = T^{o_i}_W (T^{o_i,\text{src}}_W)^{-1} T^{E_k}_W & \text{(์ ‘์ด‰ ๊ถค์  ๋ณ€ํ™˜)} \\ s_t \in D_{\text{success}} & \text{(ํƒœ์Šคํฌ ์„ฑ๊ณต)} \end{cases}

์—ฌ๊ธฐ์„œ:

  • \mathcal{L}(\cdot): ์†Œํ”„ํŠธ ์ œ์•ฝ๋“ค์˜ ๋น„์šฉ ํ•จ์ˆ˜
  • f(s_t, a_t): ์‹œ์Šคํ…œ ๋™์—ญํ•™
  • G_{\text{kin}}: ๊ด€์ ˆ ํ•œ๊ณ„ ๋“ฑ ์šด๋™ํ•™์  ์ œ์•ฝ
  • G_{\text{coll}}: ์ถฉ๋Œ ํšŒํ”ผ ์ œ์•ฝ
  • G_{\text{vis}}: ๊ฐ€์‹œ์„ฑ ์ œ์•ฝ

์ด ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐ•๋ ฅํ•จ์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ๋ชจ๋‘ ์ด ํ‹€ ์•ˆ์—์„œ ํ•ด์„๋œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ฐจ์ด๋Š” ์–ด๋–ค ์ œ์•ฝ์„ ์‚ฌ์šฉํ•˜๋А๋ƒ์ž…๋‹ˆ๋‹ค.

Hard vs Soft ์ œ์•ฝ: ๋ฌด์—‡์ด ๋‹ค๋ฅธ๊ฐ€?

flowchart TB
    subgraph Hard["๐Ÿ”’ Hard Constraints (๋ฐ˜๋“œ์‹œ ๋งŒ์กฑ)"]
        H1["๋„๋‹ฌ์„ฑ (Reachability)<br/>ํŒ”์ด ๋ฌผ์ฒด์— ๋‹ฟ์„ ์ˆ˜ ์žˆ์–ด์•ผ ํ•จ"]
        H2["์กฐ์ž‘ ์ค‘ ๊ฐ€์‹œ์„ฑ<br/>๋ฌผ์ฒด๊ฐ€ ์นด๋ฉ”๋ผ ์‹œ์•ผ์— ์žˆ์–ด์•ผ ํ•จ"]
        H3["์šด๋™ํ•™์  ํƒ€๋‹น์„ฑ<br/>๊ด€์ ˆ ํ•œ๊ณ„ ๋‚ด์—์„œ ์›€์ง์ž„"]
        H4["์ถฉ๋Œ ํšŒํ”ผ<br/>๋กœ๋ด‡์ด ํ™˜๊ฒฝ๊ณผ ์ถฉ๋Œํ•˜์ง€ ์•Š์Œ"]
        H5["ํƒœ์Šคํฌ ์„ฑ๊ณต<br/>์ตœ์ข…์ ์œผ๋กœ ์ž‘์—… ์™„๋ฃŒ"]
    end
    
    subgraph Soft["๐Ÿ”“ Soft Constraints (๊ฐ€๊ธ‰์  ๋งŒ์กฑ)"]
        S1["์ด๋™ ์ค‘ ๊ฐ€์‹œ์„ฑ<br/>์ด๋™ํ•˜๋ฉด์„œ๋„ ๋ฌผ์ฒด๋ฅผ ๋ด„"]
        S2["์ˆ˜์ถ• (Retraction)<br/>์กฐ์ž‘ ํ›„ ์ปดํŒฉํŠธํ•œ ์ž์„ธ๋กœ ๋ณต๊ท€"]
    end
    
    Hard -->|์œ„๋ฐ˜ ์‹œ ๋ฐ์ดํ„ฐ ํ๊ธฐ| Failure["์ƒ์„ฑ ์‹คํŒจ"]
    Soft -->|์œ„๋ฐ˜ ์‹œ ๋น„์šฉ ์ฆ๊ฐ€| Cost["ํ’ˆ์งˆ ์ €ํ•˜"]

1. ๋„๋‹ฌ์„ฑ์„ Hard Constraint๋กœ

๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์˜ ๊ฐ€์žฅ ํฐ ๋ฌธ์ œ๋Š” ๋ฒ ์ด์Šค ๊ถค์ ์„ ์›๋ณธ ์‹œ์—ฐ์—์„œ ๊ทธ๋Œ€๋กœ ๋ณต์‚ฌํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋ฌผ์ฒด ์œ„์น˜๊ฐ€ ๋ฐ”๋€Œ๋ฉด? ํŒ”์ด ๋‹ฟ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. MoMaGen์€ ๋ฒ ์ด์Šค ํฌ์ฆˆ๋ฅผ ๋Šฅ๋™์ ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ƒ˜ํ”Œ๋ง๋œ ๋ฒ ์ด์Šค ์œ„์น˜์—์„œ ๋ชจ๋“  ํ•„์š”ํ•œ ์—”๋“œ์ดํŽ™ํ„ฐ ๊ถค์ ์ด ๋กœ๋ด‡์˜ ์ž‘์—… ๊ณต๊ฐ„ ๋‚ด์— ์žˆ๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

2. ์กฐ์ž‘ ์ค‘ ๊ฐ€์‹œ์„ฑ์„ Hard Constraint๋กœ

Visuomotor ์ •์ฑ…์€ ๋ˆˆ์œผ๋กœ ๋ณด๊ณ  ํ–‰๋™ํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ์ฒด๊ฐ€ ์•ˆ ๋ณด์ด๋ฉด ์ •์ฑ…์ด ๋ฌด์—‡์„ ํ•ด์•ผ ํ• ์ง€ ๋ชจ๋ฆ…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์กฐ์ž‘ ์ง์ „๊ณผ ์กฐ์ž‘ ์ค‘์—๋Š” ์ž‘์—… ๊ด€๋ จ ๋ฌผ์ฒด๊ฐ€ ๋ฐ˜๋“œ์‹œ ์นด๋ฉ”๋ผ ์‹œ์•ผ์— ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

3. ์ด๋™ ์ค‘ ๊ฐ€์‹œ์„ฑ์„ Soft Constraint๋กœ

๋กœ๋ด‡์ด ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™ํ•˜๋Š” ๋™์•ˆ์—๋„ ๋ฌผ์ฒด๋ฅผ ๊ณ„์† ๋ฐ”๋ผ๋ณด๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๊ฒƒ์€ ํ•„์ˆ˜๋Š” ์•„๋‹™๋‹ˆ๋‹ค โ€” ๋•Œ๋กœ๋Š” ์žฅ์• ๋ฌผ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์ž ์‹œ ์‹œ์„ ์„ ๋Œ๋ ค์•ผ ํ•  ์ˆ˜๋„ ์žˆ์ฃ . ๋”ฐ๋ผ์„œ soft constraint๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ, ๊ฐ€๋Šฅํ•˜๋ฉด ๋ฌผ์ฒด๋ฅผ ๋ณด๋˜ ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฉด ํฌ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

4. ์ˆ˜์ถ•(Retraction)์„ Soft Constraint๋กœ

์กฐ์ž‘์„ ๋งˆ์นœ ํ›„, ๋กœ๋ด‡์ด ํŒ”๊ณผ ๋ชธํ†ต์„ ์ปดํŒฉํŠธํ•˜๊ฒŒ ์ ‘๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด:

  • ๋‹ค์Œ ์ด๋™ ์‹œ ์ถฉ๋Œ ์œ„ํ—˜ ๊ฐ์†Œ
  • ๋ชจ์…˜ ํ”Œ๋ž˜๋‹์ด ๋” ์‰ฌ์›Œ์ง

ํ•˜์ง€๋งŒ ํ•ญ์ƒ ๊ฐ€๋Šฅํ•˜์ง€๋Š” ์•Š์œผ๋ฏ€๋กœ soft constraint์ž…๋‹ˆ๋‹ค.

์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ƒ์„ธ ๋ถ„์„

MoMaGen์˜ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋‹จ๊ณ„๋ณ„๋กœ ์‚ดํŽด๋ด…์‹œ๋‹ค:

flowchart TD
    A["๐Ÿ“ฅ ์ž…๋ ฅ: ์›๋ณธ ์‹œ์—ฐ + ์ƒˆ๋กœ์šด ์ดˆ๊ธฐ ์ƒํƒœ"] --> B["1๏ธโƒฃ ์„œ๋ธŒํƒœ์Šคํฌ๋ณ„ ๋ฐ˜๋ณต ์‹œ์ž‘"]
    B --> C["2๏ธโƒฃ ํ˜„์žฌ ๋ฒ ์ด์Šค/์นด๋ฉ”๋ผ/๊ด€์ ˆ ์ƒํƒœ ํš๋“"]
    C --> D{"3๏ธโƒฃ ์žก๊ณ  ์žˆ์–ด์•ผ ํ• <br/>๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ์žˆ๋‚˜?"}
    D -->|No| E["โŒ ์ค‘๋‹จ (์ด์ „ ๊ทธ๋ฆฝ ์‹คํŒจ)"]
    D -->|Yes| F["4๏ธโƒฃ ์ƒˆ ๋ฌผ์ฒด ์œ„์น˜๋กœ<br/>์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ ๋ณ€ํ™˜"]
    F --> G{"5๏ธโƒฃ ํ˜„์žฌ ์œ„์น˜์—์„œ<br/>๊ฐ€์‹œ์„ฑ + IK ํ™•์ธ"}
    G -->|Pass| H["โœ… ๋ฐ”๋กœ ์กฐ์ž‘ ๋‹จ๊ณ„๋กœ"]
    G -->|Fail| I["6๏ธโƒฃ ์ƒ˜ํ”Œ๋ง ๋ฃจํ”„ ์ง„์ž…"]
    I --> J["์ƒˆ ๋ฒ ์ด์Šค ํฌ์ฆˆ ์ƒ˜ํ”Œ๋ง"]
    J --> K["์ƒˆ ์นด๋ฉ”๋ผ ํฌ์ฆˆ ์ƒ˜ํ”Œ๋ง"]
    K --> L["IK๋กœ ํŒ”/๋ชธํ†ต ํ™•์ธ"]
    L --> M{"์ œ์•ฝ ๋งŒ์กฑ?"}
    M -->|No| I
    M -->|Yes| N["7๏ธโƒฃ ๋ฒ ์ด์Šค ์ด๋™ ๊ณ„ํš<br/>(soft visibility ์ ์šฉ)"]
    N --> H
    H --> O["8๏ธโƒฃ ํ”„๋ฆฌ๊ทธ๋žฉ ํฌ์ฆˆ๋กœ<br/>๋ชจ์…˜ ํ”Œ๋ž˜๋‹"]
    O --> P["9๏ธโƒฃ ํƒœ์Šคํฌ ๊ณต๊ฐ„ ์ œ์–ด๋กœ<br/>์ ‘์ด‰ ๋™์ž‘ ์žฌ์ƒ"]
    P --> Q["๐Ÿ”Ÿ ์ˆ˜์ถ• ์‹œ๋„"]
    Q --> R{"๋‹ค์Œ ์„œ๋ธŒํƒœ์Šคํฌ?"}
    R -->|Yes| B
    R -->|No| S["๐Ÿ“ค ์ถœ๋ ฅ: ์ƒ์„ฑ๋œ ์‹œ์—ฐ"]

Pseudocode

Algorithm: MoMaGen
Input: original_demo, new_initial_state sโ‚€
Output: generated_demo

for each segment do:
    1. Get current T_base, T_cam, q_torso, q_arm
    2. if held_object not in hand: abort (previous grasp failed)
    3. Compute transformed EEF pose using new target object pose
    4. Check visibility of target object with T_cam
    5. Solve IK for arm trajectory with current T_base, T_cam
    
    while not visible OR no IK exists:
        6. Sample new base pose T_base
        7. Sample new camera pose T_cam
        8. Solve IK for arm and torso with sampled poses
    
    9. Plan motion for torso from current to sampled pose 
       (with soft visibility cost during navigation)
    10. Plan motion for arm from previous to pregrasp pose
    11. Execute EEF trajectory in task space (contact-rich motion)
    12. Attempt retraction to tucked configuration
    
return generated_demo

ํ•ต์‹ฌ ๊ธฐ์ˆ ์  ํ˜์‹ 

MoMaGen์ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ํ˜์‹ ์„ ์ •๋ฆฌํ•˜๋ฉด:

ํ˜์‹  ์„ค๋ช… ๊ธฐ์กด ๋ฐฉ๋ฒ•๊ณผ์˜ ์ฐจ์ด
์ „์‹  ์šด๋™(Full-body Motion) ์—”๋“œ์ดํŽ™ํ„ฐ T_{\text{eef}}, ์นด๋ฉ”๋ผ T_{\text{cam}}, ๋ฒ ์ด์Šค T_{\text{base}}๋ฅผ ๋™์‹œ์— ๊ณ ๋ ค ๊ธฐ์กด: ์—”๋“œ์ดํŽ™ํ„ฐ๋งŒ ๊ณ ๋ ค
๊ฐ€์‹œ์„ฑ ๋ณด์žฅ ์กฐ์ž‘ ์ „/์ค‘ ํ•˜๋“œ ์ œ์•ฝ + ์ด๋™ ์ค‘ ์†Œํ”„ํŠธ ์ œ์•ฝ ๊ธฐ์กด: ๊ฐ€์‹œ์„ฑ ๊ณ ๋ ค ์—†์Œ
ํ™•์žฅ๋œ ์ž‘์—…๊ณต๊ฐ„ ๋ชฉํ‘œ ๋ฌผ์ฒด ๊ทผ์ฒ˜์—์„œ ๋ฒ ์ด์Šค ํฌ์ฆˆ ๋Šฅ๋™ ์ƒ˜ํ”Œ๋ง ๊ธฐ์กด: ์›๋ณธ ๋ฒ ์ด์Šค ๊ถค์  ๋ณต์‚ฌ
ํšจ์œจ์  ์ƒ์„ฑ IK ์šฐ์„  ํ•„ํ„ฐ๋ง + ๋ถ€๋ถ„๊ณต๊ฐ„ ๋ถ„ํ•ด ์ƒ˜ํ”Œ๋ง ๊ธฐ์กด: ์ „์ฒด ๋ชจ์…˜ ํ”Œ๋ž˜๋‹ ์ง์ ‘ ์‹œ๋„

๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ•๋“ค๊ณผ์˜ ๋น„๊ต

MoMaGen์˜ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ ๊ด€์ ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ๋น„๊ตํ•˜๋ฉด:

๋ฐฉ๋ฒ• ์–‘ํŒ” ์ด๋™ ์žฅ์• ๋ฌผ ๋ฒ ์ด์Šค ๋žœ๋คํ™” ๋Šฅ๋™ ์ธ์‹ Hard ์ œ์•ฝ Soft ์ œ์•ฝ
MimicGen โŒ โœ… โŒ โŒ โŒ Succ -
SkillMimicGen โŒ โŒ โœ… โŒ โŒ Succ, Kin, C-Free -
DexMimicGen โœ… โŒ โŒ โŒ โŒ Succ, Temp -
DemoGen โŒ โŒ โœ… โŒ โŒ Kin, C-Free -
PhysicsGen โœ… โŒ โŒ โŒ โŒ Kin, C-Free, Dyn Trac
MoMaGen โœ… โœ… โœ… โœ… โœ… Succ, Kin, C-Free, Temp, Vis Vis, Ret

Succ: ํƒœ์Šคํฌ ์„ฑ๊ณต, Kin: ์šด๋™ํ•™์  ํƒ€๋‹น์„ฑ, C-Free: ์ถฉ๋Œ ํšŒํ”ผ, Temp: ์–‘ํŒ” ์‹œ๊ฐ„ ๋™๊ธฐํ™”, Dyn: ๋™์—ญํ•™, Trac: ๊ถค์  ์ถ”์ , Vis: ๊ฐ€์‹œ์„ฑ, Ret: ์ˆ˜์ถ•


์‹คํ—˜: MoMaGen์€ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ž‘๋™ํ•˜๋Š”๊ฐ€?

์‹คํ—˜ ํ™˜๊ฒฝ

ํƒœ์Šคํฌ ์„ค์ •

MoMaGen์€ BEHAVIOR-1K ๋ฒค์น˜๋งˆํฌ์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ 4๊ฐ€์ง€ ๊ฐ€์ • ์ž‘์—…์—์„œ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋‘ OmniGibson ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

flowchart LR
    subgraph Tasks["4๊ฐ€์ง€ ํ‰๊ฐ€ ํƒœ์Šคํฌ"]
        T1["Pick Cup"]
        T2["Tidy Table"]
        T3["Put Dishes Away"]
        T4["Clean Frying Pan"]
    end

    T1 --> T2 --> T3 --> T4
    T4 -->|๋ณต์žก๋„ ์ฆ๊ฐ€| Result["๋ณต์žกํ•œ ์–‘ํŒ” ๋™๊ธฐ ์กฐ์ž‘"]

๊ฐ ํƒœ์Šคํฌ์˜ ํŠน์„ฑ:

ํƒœ์Šคํฌ ํŒ” ์‚ฌ์šฉ ์กฐ์ž‘ ์œ ํ˜• ์ด๋™ ๋น„์œจ ๋‚œ์ด๋„
Pick Cup ๋‹จ์ผ ์ง‘๊ธฐ ~45% โญ
Tidy Table ๋‹จ์ผ ์ง‘๊ธฐ โ†’ ๋†“๊ธฐ ~45% โญโญ
Put Dishes Away ์–‘ํŒ” (๋น„๋™๊ธฐ) ์ง‘๊ธฐ โ†’ ์Œ“๊ธฐ ~45% โญโญโญ
Clean Frying Pan ์–‘ํŒ” (๋™๊ธฐ) ์žก๊ธฐ + ๋ฌธ์ง€๋ฅด๊ธฐ ~45% โญโญโญโญ

๋„๋ฉ”์ธ ๋žœ๋คํ™” ์ˆ˜์ค€

MoMaGen์˜ ๊ฐ•๊ฑด์„ฑ์„ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ˆ˜์ค€์˜ ๋žœ๋คํ™”๊ฐ€ ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

์ˆ˜์ค€ ๋ฌผ์ฒด ์œ„์น˜ ๋ฌผ์ฒด ๋ฐฉํ–ฅ ์ถ”๊ฐ€ ์žฅ์• ๋ฌผ
D0 ยฑ15cm ยฑ15ยฐ โŒ
D1 ๊ฐ€๊ตฌ ์ „์ฒด ๋ฒ”์œ„ [-ฯ€, ฯ€] โŒ
D2 ๊ฐ€๊ตฌ ์ „์ฒด ๋ฒ”์œ„ [-ฯ€, ฯ€] โœ… (๋ฐ”๋‹ฅ + ๊ฐ€๊ตฌ ์œ„)

D2 ์ˆ˜์ค€์˜ ๋žœ๋คํ™”๋Š” ๊ธฐ์กด ์–ด๋–ค ๋ฐฉ๋ฒ•๋„ ์‹œ๋„ํ•˜์ง€ ์•Š์€ ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. MoMaGen๋งŒ์ด ์ด ๊ทน๋‹จ์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ 1: ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ

MoMaGen์ด ์ƒ์„ฑํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋‹ค์–‘ํ•œ์ง€ ์‚ดํŽด๋ด…์‹œ๋‹ค.

๋ฒ ์ด์Šค ํฌ์ฆˆ ๋‹ค์–‘์„ฑ

Tidy Table ํƒœ์Šคํฌ์—์„œ 50๊ฐœ ๊ถค์ ์„ ์‹œ๊ฐํ™”ํ•˜๋ฉด:

  • SkillMimicGen (D0): ๋ฒ ์ด์Šค ํฌ์ฆˆ๊ฐ€ ์›๋ณธ ์‹œ์—ฐ ๊ทผ์ฒ˜์— ๋ฐ€์ง‘
  • MoMaGen (D0): ๋” ๋„“์€ ๋ฒ”์œ„์— ๋ถ„์‚ฐ
  • MoMaGen (D1): ์ „์ฒด ๊ฐ€๊ตฌ ๋ฒ”์œ„๋ฅผ ์ปค๋ฒ„ (๊ธฐ์กด ๋ฐฉ๋ฒ• ๋ถˆ๊ฐ€)

์—”๋“œ์ดํŽ™ํ„ฐ ๋ฐ ๊ด€์ ˆ ๋‹ค์–‘์„ฑ

๋ฒ ์ด์Šค ํฌ์ฆˆ์˜ ๋‹ค์–‘์„ฑ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ์™€ ๊ด€์ ˆ ์œ„์น˜์˜ ๋‹ค์–‘์„ฑ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค. PCA 2D ํˆฌ์˜์—์„œ MoMaGen์˜ ๋ฐ์ดํ„ฐ๋Š” ํ›จ์”ฌ ๋„“์€ ์˜์—ญ์„ ์ปค๋ฒ„ํ•ฉ๋‹ˆ๋‹ค.

์ง๊ด€์  ํ•ด์„: ๊ฐ™์€ ์ปต์„ ์ง‘์–ด๋„, ๋‹ค์–‘ํ•œ ์œ„์น˜์—์„œ ๋‹ค์–‘ํ•œ ์ž์„ธ๋กœ ์ง‘๋Š” ๊ฒฝํ—˜์„ ํ†ตํ•ด ๋กœ๋ด‡์€ ๋” ์ผ๋ฐ˜ํ™”๋œ ์ •์ฑ…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ 2: ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ 

๋ฐฉ๋ฒ• Pick Cup Tidy Table Put Dishes Clean Pan ํ‰๊ท 
D0
MoMaGen 0.86 0.80 0.38 0.51 0.64
SkillMimicGen 1.00 0.69 0.38 0.40 0.62
DexMimicGen 1.00 0.72 0.38 0.35 0.61
D1
MoMaGen 0.60 0.64 0.34 0.20 0.45
Baselines 0.00 0.00 0.00 0.00 0.00
D2
MoMaGen 0.47 0.22 0.07 0.16 0.23
Baselines 0.00 0.00 0.00 0.00 0.00

ํ•ต์‹ฌ ๊ด€์ฐฐ:

  1. ๋‹จ์ˆœํ•œ ํƒœ์Šคํฌ(Pick Cup)์—์„œ๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
  2. ๋ณต์žกํ•œ ํƒœ์Šคํฌ(Clean Frying Pan)์—์„œ๋Š” ๋ฒ ์ด์Šค ์ ์‘์ด ํ•„์š”ํ•˜์—ฌ MoMaGen์ด ์šฐ์œ„๋ฅผ ์ ํ•ฉ๋‹ˆ๋‹ค.
  3. D1/D2 ๋žœ๋คํ™”์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ 0% ์„ฑ๊ณต๋ฅ  โ€” ๋ฌผ์ฒด๊ฐ€ ์›๋ž˜ ๋ฒ ์ด์Šค ์œ„์น˜์˜ ๋„๋‹ฌ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ 3: ๋ฌผ์ฒด ๊ฐ€์‹œ์„ฑ

Visuomotor ์ •์ฑ… ํ•™์Šต์—์„œ ๊ฐ€์‹œ์„ฑ์€ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋™ ์ค‘ ๋ฌผ์ฒด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋ณด์ด๋Š”์ง€ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ• Pick Cup Tidy Table Put Dishes Clean Pan
D0
MoMaGen 1.00 0.86 0.79 0.69
SkillMimicGen 1.00 0.40 0.71 0.65
w/o soft vis 1.00 0.63 0.62 0.56
w/o hard vis 0.98 0.63 0.68 0.55
w/o all vis 0.90 0.46 0.40 0.35
D1
MoMaGen 0.93 0.89 0.78 0.80
w/o all vis 0.71 0.46 0.40 0.43

MoMaGen์€ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๊ฐ€์‹œ์„ฑ์„ ๊ฑฐ์˜ 2๋ฐฐ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ํŠนํžˆ Tidy Table์—์„œ 40% โ†’ 86%๋กœ ๊ทน์ ์ธ ๊ฐœ์„ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ 4: ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ

์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋กœ ์‹ค์ œ ๋ชจ๋ฐฉ ํ•™์Šต ์ •์ฑ…์„ ํ›ˆ๋ จํ•˜๋ฉด ์–ด๋–ค ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ฌ๊นŒ์š”?

์‹คํ—˜ ์„ค์ •

  • WB-VIMA: Point cloud ๊ธฐ๋ฐ˜, ๋‹จ์ผ ํƒœ์Šคํฌ ์ •์ฑ…, ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จ
  • ฯ€0: RGB ๊ธฐ๋ฐ˜, ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์—์„œ LoRA ํŒŒ์ธํŠœ๋‹

์ฃผ์š” ๋ฐœ๊ฒฌ

  1. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์˜ ์˜ํ–ฅ
    • Pick Cup (D0): ๋‹จ์ˆœํ•˜๋ฏ€๋กœ ๋ชจ๋“  ๋ฐฉ๋ฒ• ๋น„์Šท (๋ฒ ์ด์Šค ๊ถค์  ๋ณต์‚ฌ๋กœ ์ถฉ๋ถ„)
    • Tidy Table (D0): MoMaGen์ด ๋ช…ํ™•ํžˆ ์šฐ์œ„ โ€” ๊ธด ์ด๋™ ๊ตฌ๊ฐ„์—์„œ ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€
    • Pick Cup (D1): MoMaGen๋งŒ ์„ฑ๊ณต (๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ D0 ๋ฐ์ดํ„ฐ๋กœ๋Š” D1 ์ผ๋ฐ˜ํ™” ๋ถˆ๊ฐ€)
  2. ๊ฐ€์‹œ์„ฑ ์ œ์•ฝ์˜ ์˜ํ–ฅ
    • Pick Cup (D0): ๊ฐ€์‹œ์„ฑ ablation ์‹œ 0.75 โ†’ 0.45~0.65๋กœ ํ•˜๋ฝ
    • Tidy Table (D0): 0.40 โ†’ 0.05๋กœ ๊ธ‰๋ฝ (๊ฐ€์‹œ์„ฑ์ด ๋งค์šฐ ์ค‘์š”!)
  3. ๋‹ค์–‘ํ•œ IL ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ํ˜ธํ™˜์„ฑ
    • WB-VIMA์™€ ฯ€0 ๋ชจ๋‘์—์„œ MoMaGen ๋ฐ์ดํ„ฐ๊ฐ€ ํšจ๊ณผ์ 
    • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํŠน์ • ์ •์ฑ… ์•„ํ‚คํ…์ฒ˜์— ์ข…์†๋˜์ง€ ์•Š์Œ

๊ฒฐ๊ณผ 5: Sim-to-Real ์ „์ด

์‹ค์ œ ๋กœ๋ด‡(Galexea R1)์—์„œ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ:

ํ›ˆ๋ จ ๋ฐฉ์‹ Validation Loss (35k steps)
์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จ (40 real demos) ~6.0
์‹œ๋ฎฌ ์‚ฌ์ „ํ›ˆ๋ จ + ํŒŒ์ธํŠœ๋‹ ~3.0

์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ MoMaGen์œผ๋กœ ์ƒ์„ฑ๋œ 1000๊ฐœ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ ํ›„, ๋‹จ 40๊ฐœ์˜ ์‹ค์ œ ์‹œ์—ฐ์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด 2๋ฐฐ ๋น ๋ฅธ ์ˆ˜๋ ด๊ณผ ๋” ๋‚ฎ์€ loss๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ 6: Cross-Embodiment ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

MoMaGen์˜ ๋˜ ๋‹ค๋ฅธ ๊ฐ•์ ์€ ๋กœ๋ด‡ ๊ฐ„ ์ „์ด์ž…๋‹ˆ๋‹ค. Galexea R1์—์„œ ์ˆ˜์ง‘ํ•œ ์‹œ์—ฐ์„ TIAGo ๋กœ๋ด‡์šฉ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๊ฒฐ์€ ๊ด€์ ˆ ๊ณต๊ฐ„(joint space)์ด ์•„๋‹Œ ํƒœ์Šคํฌ ๊ณต๊ฐ„(task space)์—์„œ ๊ถค์ ์„ ๊ณ„ํšํ•˜๊ณ  ์žฌ์ƒํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—”๋“œ์ดํŽ™ํ„ฐ์˜ SE(3) ๊ถค์ ์„ ๋ณด์กดํ•˜๋ฏ€๋กœ ๋กœ๋ด‡๋ณ„ ์šด๋™ํ•™์— ํฌ๊ฒŒ ์˜์กดํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.


๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

  1. ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ•๋“ค์„ ํ•˜๋‚˜์˜ ์ œ์•ฝ ์ตœ์ ํ™” ๊ด€์ ์—์„œ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ๋ฐฉ๋ฒ• ๊ฐœ๋ฐœ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
  2. ์‹ค์šฉ์  ๋ฌธ์ œ ํ•ด๊ฒฐ: ๋„๋‹ฌ์„ฑ๊ณผ ๊ฐ€์‹œ์„ฑ์ด๋ผ๋Š” ์ด๋™ ์กฐ์ž‘์˜ ํ•ต์‹ฌ ๋ฌธ์ œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
  3. ๊ทน๋‹จ์  ๋žœ๋คํ™” ์ฒ˜๋ฆฌ: D2 ์ˆ˜์ค€์˜ ์žฅ์• ๋ฌผ ์ถ”๊ฐ€์™€ ์ž์œ ๋กœ์šด ๋ฌผ์ฒด ๋ฐฐ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์ผํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  4. ๋‹จ์ผ ์‹œ์—ฐ์œผ๋กœ ์ถฉ๋ถ„: ๋น„์‹ผ ์ธ๊ฐ„ ์‹œ์—ฐ์„ ๋‹จ 1๊ฐœ๋งŒ ์ˆ˜์ง‘ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์„ ๊ทน์ ์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค.
  5. Cross-Embodiment ๊ฐ€๋Šฅ์„ฑ: ํƒœ์Šคํฌ ๊ณต๊ฐ„ ๊ถค์  ์žฌ์ƒ์„ ํ†ตํ•ด ๋กœ๋ด‡ ๊ฐ„ ๋ฐ์ดํ„ฐ ์ „์ด๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

์•ฝ์  ๋ฐ ํ•œ๊ณ„

  1. ์™„์ „ํ•œ ์žฅ๋ฉด ์ •๋ณด ํ•„์š”: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ground truth ๋ฌผ์ฒด ํฌ์ฆˆ๋ฅผ ์•Œ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ œ ์„ธ๊ณ„์—์„œ๋Š” ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ์–ป์„ ๊ฒƒ์ธ๊ฐ€? ์ €์ž๋“ค์€ SAM2 ๊ฐ™์€ ๋น„์ „ ๋ชจ๋ธ ์‚ฌ์šฉ์„ ์ œ์•ˆํ•˜์ง€๋งŒ, ์ด๋Š” ์ถ”๊ฐ€์ ์ธ ๋ณต์žก์„ฑ์ž…๋‹ˆ๋‹ค.
  2. ์ด๋™-์กฐ์ž‘ ๋ฒˆ๊ฐˆ์•„ ๊ฐ€๊ธฐ ๊ฐ€์ •: ํ˜„์žฌ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” โ€œ์ด๋™ โ†’ ์กฐ์ž‘ โ†’ ์ด๋™ โ†’ ์กฐ์ž‘โ€ ํŒจํ„ด์„ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์„ ๋ฐ€๋ฉด์„œ ๋™์‹œ์— ๊ฑท๋Š” whole-body manipulation์€ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃจ์ง€ ์•Š์Šต๋‹ˆ๋‹ค (ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰์€ ํ•จ).
  3. ๊ณ„์‚ฐ ๋น„์šฉ: GPU ๊ฐ€์† ๋ชจ์…˜ ์ œ๋„ˆ๋ ˆ์ดํ„ฐ(cuRobo)๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ํƒœ์Šคํฌ๋‹น 0.1~1.3 GPU ์‹œ๊ฐ„์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ํƒœ์Šคํฌ(Put Dishes Away)์—์„œ๋Š” ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  4. ์ˆ˜๋™ ์„œ๋ธŒํƒœ์Šคํฌ ์–ด๋…ธํ…Œ์ด์…˜: ๊ฐ ์‹œ์—ฐ์„ ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋ถ„ํ• ํ•˜๊ณ  ์–ด๋…ธํ…Œ์ด์…˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์ด ์–ผ๋งˆ๋‚˜ ๋…ธ๋™ ์ง‘์•ฝ์ ์ธ์ง€, ์ž๋™ํ™” ๊ฐ€๋Šฅํ•œ์ง€์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
  5. ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์˜ ์ œํ•œ์„ฑ: Sim-to-real ๊ฒฐ๊ณผ๊ฐ€ ์ œ์‹œ๋˜์—ˆ์ง€๋งŒ, ๋‹จ์ผ ํƒœ์Šคํฌ(Pick Cup)์— ๊ตญํ•œ๋ฉ๋‹ˆ๋‹ค. ๋” ๋ณต์žกํ•œ ์–‘ํŒ” ํƒœ์Šคํฌ์—์„œ์˜ ์‹ค์ œ ๋กœ๋ด‡ ์„ฑ๋Šฅ์€ ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค

  1. ์–ด๋…ธํ…Œ์ด์…˜ ์ž๋™ํ™”: VLM์„ ํ™œ์šฉํ•˜์—ฌ ์‹œ์—ฐ์„ ์ž๋™์œผ๋กœ ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?
  2. ๋™์  ํ™˜๊ฒฝ: ์›€์ง์ด๋Š” ๋ฌผ์ฒด๋‚˜ ์‚ฌ๋žŒ์ด ์žˆ๋Š” ํ™˜๊ฒฝ์—์„œ๋Š” ์–ด๋–ป๊ฒŒ ๋ ๊นŒ์š”?
  3. ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ: ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ ์กฐ์ž‘์—์„œ ์ด‰๊ฐ ์„ผ์„œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?
  4. ์žฅ๊ธฐ ์˜์กด์„ฑ: ์ˆ˜์‹ญ ๋‹จ๊ณ„์˜ ๋งค์šฐ ๊ธด ํƒœ์Šคํฌ์—์„œ๋„ ์ด ์ ‘๊ทผ๋ฒ•์ด ํ™•์žฅ๋ ๊นŒ์š”?

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

๋ฐ์ดํ„ฐ ์ฆ๊ฐ• vs ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

์ ‘๊ทผ๋ฒ• ๋ฐฉ๋ฒ• ์žฅ์  ๋‹จ์ 
์ด๋ฏธ์ง€ ์ฆ๊ฐ• RAD, DrQ ๊ตฌํ˜„ ๊ฐ„๋‹จ ํ–‰๋™ ๋ณ€ํ™” ์—†์Œ
์ƒ์„ฑ ๋ชจ๋ธ GenAug ์ƒˆ๋กœ์šด ์‹œ๊ฐ์  ๋ณ€ํ˜• ๋ฌผ๋ฆฌ์  ํƒ€๋‹น์„ฑ ๋ณด์žฅ ์–ด๋ ค์›€
๊ถค์  ์ฆ๊ฐ• ๊ธฐ์กด X-Gen ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์œ ํšจ ์ •์  ์กฐ์ž‘์— ํ•œ์ •
MoMaGen ์ œ์•ฝ ์ตœ์ ํ™” ์ด๋™+์–‘ํŒ”+์žฅ์• ๋ฌผ ๊ณ„์‚ฐ ๋น„์šฉ ๋†’์Œ

Mobile ALOHA์™€์˜ ๋น„๊ต

Mobile ALOHA๋Š” ์ €๋น„์šฉ ์ „์‹  ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. MoMaGen๊ณผ์˜ ๊ด€๊ณ„:

  • ์ƒํ˜ธ ๋ณด์™„์ : Mobile ALOHA๋กœ ์†Œ์ˆ˜์˜ ์‹œ์—ฐ ์ˆ˜์ง‘ โ†’ MoMaGen์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์ฆ๊ฐ•
  • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: MoMaGen์€ Mobile ALOHA ์‹œ์—ฐ 1๊ฐœ๋กœ 1000๊ฐœ+ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ฐ€๋Šฅ
  • ๋ณต์žก๋„ ์ฒ˜๋ฆฌ: MoMaGen์€ ๋” ๊ทน๋‹จ์ ์ธ ์žฅ๋ฉด ๋ณ€ํ™” ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ

DemoGen๊ณผ์˜ ๋น„๊ต

DemoGen์€ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜์˜ 3D ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค:

  • MoMaGen์˜ ์ฐจ๋ณ„์ : ์ด๋™ ๋ฒ ์ด์Šค์™€ ๋Šฅ๋™ ์นด๋ฉ”๋ผ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃธ
  • ํ†ตํ•ฉ ๊ฐ€๋Šฅ์„ฑ: DemoGen์˜ 3D ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•๊ณผ MoMaGen์˜ ์ œ์•ฝ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ •๋ฆฌ

mindmap
  root((MoMaGen))
    ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ
      X-Gen ๋ฐฉ๋ฒ•๋“ค์˜ ์ผ๋ฐ˜ํ™”
      Hard/Soft ์ œ์•ฝ ๊ตฌ๋ถ„
      ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๊ธฐ๋ฐ˜
    ๊ธฐ์ˆ ์  ํ˜์‹ 
      ๋„๋‹ฌ์„ฑ Hard ์ œ์•ฝ
      ๊ฐ€์‹œ์„ฑ ์ œ์•ฝ (Hard+Soft)
      ์ˆ˜์ถ• Soft ์ œ์•ฝ
      ํšจ์œจ์  ์ƒ˜ํ”Œ๋ง
    ์‹ค์ฆ ๊ฒฐ๊ณผ
      4๊ฐ€์ง€ ๋ณต์žกํ•œ ํƒœ์Šคํฌ
      3๋‹จ๊ณ„ ๋„๋ฉ”์ธ ๋žœ๋คํ™”
      2๋ฐฐ ํ–ฅ์ƒ๋œ ๊ฐ€์‹œ์„ฑ
      ๋‹จ์ผ ์‹œ์—ฐ์œผ๋กœ ์ถฉ๋ถ„
    ์‹ค์šฉ์  ๊ฐ€์น˜
      Sim-to-Real ์ „์ด
      Cross-Embodiment
      ๋‹ค์–‘ํ•œ IL ๋ฐฉ๋ฒ• ํ˜ธํ™˜

๋กœ๋ด‡๊ณตํ•™์ž์—๊ฒŒ ์ฃผ๋Š” ์‹œ์‚ฌ์ 

  1. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ์ง„์ง€ํ•˜๊ฒŒ ๊ณ ๋ คํ•˜์„ธ์š”: ๋ฌด์ž‘์ • ๋” ๋งŽ์€ ์‹œ์—ฐ์„ ์ˆ˜์ง‘ํ•˜๊ธฐ๋ณด๋‹ค, ์†Œ์ˆ˜์˜ ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ์„ ์ง€๋Šฅ์ ์œผ๋กœ ์ฆ๊ฐ•ํ•˜๋Š” ๊ฒƒ์ด ๋” ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  2. ์ œ์•ฝ์„ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃจ์„ธ์š”: โ€œ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€, โ€œ๋ณผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€์™€ ๊ฐ™์€ ๊ธฐ๋ณธ์ ์ธ ์งˆ๋ฌธ๋“ค์ด ์ข…์ข… ๊ฐ„๊ณผ๋ฉ๋‹ˆ๋‹ค. MoMaGen์€ ์ด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์ข‹์€ ์˜ˆ์ž…๋‹ˆ๋‹ค.

  3. Hard vs Soft ๊ตฌ๋ถ„์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค: ๋ชจ๋“  ์ œ์•ฝ์„ ๋™๋“ฑํ•˜๊ฒŒ ์ทจ๊ธ‰ํ•˜์ง€ ๋งˆ์„ธ์š”. ์–ด๋–ค ๊ฒƒ์€ ๋ฐ˜๋“œ์‹œ ๋งŒ์กฑํ•ด์•ผ ํ•˜๊ณ , ์–ด๋–ค ๊ฒƒ์€ ๊ฐ€๊ธ‰์  ๋งŒ์กฑํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

  4. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ๊ฐ€์น˜๋ฅผ ์žฌํ‰๊ฐ€ํ•˜์„ธ์š”: Sim-to-real gap์ด ์žˆ์ง€๋งŒ, ์‚ฌ์ „ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋Š” ์—ฌ์ „ํžˆ ํฐ ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋งˆ๋ฌด๋ฆฌ

MoMaGen์€ โ€œ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ vs ๋” ๋˜‘๋˜‘ํ•œ ๋ฐ์ดํ„ฐโ€ ๋…ผ์Ÿ์—์„œ ํ›„์ž์˜ ์†์„ ๋“ค์–ด์ค๋‹ˆ๋‹ค. ๋‹จ ํ•˜๋‚˜์˜ ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•˜๊ณ  ํ•™์Šต์— ์œ ์šฉํ•œ ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณ€ํ˜•์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ๋กœ๋ด‡ ํ•™์Šต์˜ ๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํฌ๊ฒŒ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์™„๋ฒฝํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ณต์žก์„ฑ, ๊ณ„์‚ฐ ๋น„์šฉ, ์–ด๋…ธํ…Œ์ด์…˜ ๋…ธ๋ ฅ ๋“ฑ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ MoMaGen์ด ์ œ์‹œํ•œ ์ œ์•ฝ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ด๋™ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์›์น™์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ๊ณตํ•˜๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ํŠผํŠผํ•œ ๊ธฐ๋ฐ˜์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡์—๊ฒŒ ๋ณต์žกํ•œ ๊ฐ€์‚ฌ ์ž‘์—…์„ ๊ฐ€๋ฅด์น˜๋Š” ๊ฟˆ์ด ์กฐ๊ธˆ ๋” ๊ฐ€๊นŒ์›Œ์กŒ์Šต๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ์˜ ์‹œ์—ฐ์œผ๋กœ ์ฒœ ๋ฒˆ์˜ ๊ฒฝํ—˜์„ โ€” MoMaGen์ด ๊ทธ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ฐธ๊ณ  ๋ฌธํ—Œ

  • Li, C., Xu, M., Bahety, A., Yin, H., et al. (2025). MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation. RSS 2025 Workshop.
  • Mandlekar, A., et al. (2023). MimicGen: A Data Generation System for Scalable Robot Learning Using Human Demonstrations. CoRL 2023.
  • Garrett, C. R., et al. (2024). SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment. CoRL 2024.
  • Jiang, Z., et al. (2025). DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning. ICRA 2025.
  • Fu, Z., Zhao, T., & Finn, C. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. arXiv.
  • Black, K., et al. (2024). ฯ€โ‚€: A Vision-Language-Action Flow Model for General Robot Control. arXiv.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

MoMaGen ์‹ฌ์ธต ๋ฆฌ๋ทฐ: โ€œ์ œ์•ฝ(Constraints)์œผ๋กœ ์‹œ์—ฐ์„ โ€™์ œ์กฐโ€™ํ•ด์„œ, ์–‘์† ๋ชจ๋ฐ”์ผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์„ ์Šค์ผ€์ผ์—…ํ•œ๋‹คโ€

์„œ๋ก : ์™œ โ€œ์–‘์† + ์ด๋™โ€์€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํŠนํžˆ ๋น„์‹ผ๊ฐ€?

๋กœ๋ด‡ ํ•™์Šต(ํŠนํžˆ imitation learning)์—์„œ ๋Œ€๊ทœ๋ชจยท๋‹ค์–‘ํ•œ ์ธ๊ฐ„ ์‹œ์—ฐ์€ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ฐ€์žฅ ํ™•์‹คํ•œ ์—ฐ๋ฃŒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ multi-step bimanual mobile manipulation(์—ฌ๋Ÿฌ ๋‹จ๊ณ„, ์–‘ํŒ”, ๋ชจ๋ฐ”์ผ ๋ฒ ์ด์Šค ํฌํ•จ)์—์„œ๋Š” ๊ทธ ์—ฐ๋ฃŒ๊ฐ’์ด ํญ๋“ฑํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ๋ฒ ์ด์Šค(๋‚ด๋น„๊ฒŒ์ด์…˜) + ์–‘ํŒ”(๊ณ ์ž์œ ๋„) + ๋•Œ๋กœ๋Š” ์‹œ์•ผ(ํ—ค๋“œ/์นด๋ฉ”๋ผ)๊นŒ์ง€ ๋™์‹œ์— ์›๊ฒฉ์กฐ์ž‘ํ•ด์•ผ ํ•˜๋‹ˆ๊นŒ์š”. ์ €์ž๋“ค๋„ ์ด โ€œ์กฐ์ž‘ ๊ณผ๋ถ€ํ•˜โ€๊ฐ€ ํ…”๋ ˆ์˜ต ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ๋งค์šฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ ๋‹ค๊ณ  ์ „์ œํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ โ€œ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•ํ•˜๋ฉด ๋˜์ง€ ์•Š๋‚˜?โ€๊ฐ€ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋‹ค์Œ ์งˆ๋ฌธ์ธ๋ฐ, ๊ธฐ์กด X-Gen ๊ณ„์—ด(MimicGen/SkillMimicGen/DexMimicGen/DemoGen/PhysicsGen ๋“ฑ)์€ ์ฃผ๋กœ ์ •์ (table-top) ๋˜๋Š” ๊ณ ์ • ๋ฒ ์ด์Šค ์ค‘์‹ฌ์—์„œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์™”๊ณ , ๋ชจ๋ฐ”์ผ๋กœ ํ™•์žฅ๋  ๋•Œ ๋‘ ๊ฐ€์ง€๊ฐ€ ๋ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค:

  1. Reachability(๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ): ๋ฌผ์ฒด ๋ฐฐ์น˜๊ฐ€ ๋ฐ”๋€Œ๋ฉด, ์›๋ž˜ ๋ฐ๋ชจ์˜ ๋ฒ ์ด์Šค ๊ฒฝ๋กœ๋ฅผ ๊ทธ๋Œ€๋กœ replay ํ–ˆ์„ ๋•Œ ๋‹ค์Œ ์กฐ์ž‘์ด ํŒ” ์ž‘์—…๊ณต๊ฐ„ ๋ฐ–์œผ๋กœ ํŠ€์–ด๋‚˜๊ฐ€ ์‹คํŒจํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.
  2. Visibility(๊ฐ€์‹œ์„ฑ): ๋ชจ๋ฐ”์ผ์€ ์นด๋ฉ”๋ผ๋„ ํ•จ๊ป˜ ์›€์ง์ด๊ณ (ํ—ค๋“œ/ํ† ๋ฅด์†Œ ํฌํ•จ), ๋ฐ์ดํ„ฐ๋Š” ๊ฒฐ๊ตญ visuomotor policy๋ฅผ ํ•™์Šต์‹œ์ผœ์•ผ ํ•˜๋‹ˆ ์นด๋ฉ”๋ผ ๋ทฐ์— ๋ฌผ์ฒด๊ฐ€ ์•ˆ ๋ณด์ด๋ฉด ํ•™์Šต ์ž์ฒด๊ฐ€ ๋ฌด๋„ˆ์ง‘๋‹ˆ๋‹ค.

MoMaGen์€ ์ด ๋‘ ๋ฌธ์ œ๋ฅผ โ€œ๊ทธ๋•Œ๊ทธ๋•Œ ๋•œ์งˆโ€์ด ์•„๋‹ˆ๋ผ, ์ œ์•ฝ ์ตœ์ ํ™”(constrained optimization)๋กœ ์ •์‹ํ™”ํ•ด์„œ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค:

  • ๋ฐ˜๋“œ์‹œ ์ง€์ผœ์•ผ ํ•˜๋Š” ์กฐ๊ฑด = Hard constraints
  • ์ง€ํ‚ค๋ฉด ์ข‹์€ ์„ฑ์งˆ = Soft constraints(๋น„์šฉ/ํŽ˜๋„ํ‹ฐ)

์ด ํ”„๋ ˆ์ž„์œผ๋กœ ๊ธฐ์กด X-Gen๋ฅ˜๋„ โ€œ์‚ฌ์‹ค์€ ๊ฐ™์€ ํ‹€๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•˜๋˜, ๋ชจ๋ฐ”์ผ์— ํ•„์š”ํ•œ ์ œ์•ฝ์ด ๋ถ€์กฑํ–ˆ๋‹คโ€๋กœ ์ •๋ฆฌํ•ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•(Method): โ€œ์‹œ์—ฐ ์ƒ์„ฑ = ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œโ€๋กœ ๋‹ค์‹œ ์“ฐ๊ธฐ

1) ๋ฌธ์ œ ์ •์‹ํ™”: Hard๋Š” ๋งŒ์กฑ, Soft๋Š” ์ตœ์†Œํ™”

๋…ผ๋ฌธ์€ ์ž๋™ ์‹œ์—ฐ ์ƒ์„ฑ ์ž์ฒด๋ฅผ ์ œ์•ฝ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ๋ด…๋‹ˆ๋‹ค. ๊ฐœ๋…์ ์œผ๋กœ๋Š” ์•„๋ž˜ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค:

  • ์šฐ๋ฆฌ๊ฐ€ ๋งŒ๋“ค๊ณ  ์‹ถ์€ ๊ฑด ์ƒˆ๋กœ์šด ๋ฐ๋ชจ ๊ถค์ (์ƒํƒœ/ํ–‰๋™ ์‹œํ€€์Šค)
  • ์‹œ์Šคํ…œ ๋‹ค์ด๋‚ด๋ฏน์Šค(์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ/๋ฌผ๋ฆฌ)๋ฅผ ๋งŒ์กฑํ•ด์•ผ ํ•˜๊ณ 
  • Hard constraints(์„ฑ๊ณต, IK/๊ด€์ ˆ ์ œํ•œ, ์ถฉ๋Œ ํšŒํ”ผ, ์กฐ์ž‘ ์ค‘ ๊ฐ€์‹œ์„ฑ ๋“ฑ)๋Š” ๋ฐ˜๋“œ์‹œ ๋งŒ์กฑ
  • Soft constraints(์งง๊ณ  ๋งค๋ˆํ•œ ๊ฒฝ๋กœ, ๋‚ด๋น„ ์ค‘ ๊ฐ€์‹œ์„ฑ ์œ ์ง€, retraction ๋“ฑ)๋Š” ์ตœ๋Œ€ํ•œ ๋งŒ์กฑ(= ๋น„์šฉ ์ตœ์†Œํ™”)

์ €์ž๋“ค์ด โ€œํ•˜๋‚˜์˜ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌโ€๋กœ ๊ธฐ์กด ์ ‘๊ทผ๋“ค์„ ํฌ์„ญํ•œ๋‹ค๊ณ  ๋ช…์‹œํ•ฉ๋‹ˆ๋‹ค.

2) MoMaGen์˜ ๋ชจ๋ฐ”์ผ ํ•ต์‹ฌ ์ œ์•ฝ 4์ข… ์„ธํŠธ

MoMaGen์ด ๋ชจ๋ฐ”์ผ ์–‘์† ์กฐ์ž‘์—์„œ โ€œ์—†์œผ๋ฉด ๋ฌด๋„ˆ์ง€๋Š”โ€ ์š”์†Œ๋กœ ์ƒˆ๋กœ ๊ฐ•์กฐํ•˜๋Š” ์ œ์•ฝ์€ ๋‹ค์Œ์ž…๋‹ˆ๋‹ค.

(A) Reachability = Hard constraint

  • ๋ชจ๋ฐ”์ผ์—์„œ ๋ฒ ์ด์Šค ํฌ์ฆˆ๊ฐ€ ๊ณง โ€œ๋‘ ํŒ”์ด ๋‹ฟ์„ ์ˆ˜ ์žˆ๋Š” ์„ธ๊ณ„โ€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ธฐ์กด์ฒ˜๋Ÿผ ๋ฒ ์ด์Šค ๊ฒฝ๋กœ replay๋Š” ๋ฌผ์ฒด ๋žœ๋คํ™”๊ฐ€ ์ปค์ง€๋ฉด ์‰ฝ๊ฒŒ ์‹คํŒจ.
  • ๊ทธ๋ž˜์„œ MoMaGen์€ โ€œ์ƒ˜ํ”Œ๋งํ•œ ๋ฒ ์ด์Šค ํฌ์ฆˆ๊ฐ€ ์ดํ›„ ์กฐ์ž‘ ๋‹จ๊ณ„์˜ EE ๊ถค์ ์„ ์ž‘์—…๊ณต๊ฐ„ ๋‚ด์— ๋‘๋Š”์ง€โ€๋ฅผ ์—„๊ฒฉํžˆ ๊ฐ•์ œํ•ฉ๋‹ˆ๋‹ค.

(B) Manipulation ์ค‘ Object Visibility = Hard constraint

  • ์ƒ์„ฑ๋œ ๋ฐ๋ชจ๋Š” ๊ฒฐ๊ตญ ์นด๋ฉ”๋ผ ์ž…๋ ฅ ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š”๋ฐ ์“ฐ์ž…๋‹ˆ๋‹ค.
  • ์กฐ์ž‘ ๊ตฌ๊ฐ„์—์„œ ํƒ€๊นƒ ๋ฌผ์ฒด๊ฐ€ ์นด๋ฉ”๋ผ์— ์•ˆ ๋ณด์ด๋ฉด ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ์„œ ๊ฐ€์น˜๊ฐ€ ๊ธ‰๋ฝํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ž˜์„œ ์กฐ์ž‘ ๋‹จ๊ณ„์—์„œ ๊ฐ€๋ ค์ง ์—†์ด ๊ด€์ธก ๊ฐ€๋Šฅํ•˜๋„๋ก(ํ•„์š” ์‹œ ์นด๋ฉ”๋ผ/ํ† ๋ฅด์†Œ ํ™œ์šฉ) hard๋กœ ๋ฌถ์Šต๋‹ˆ๋‹ค.

(C) Navigation ์ค‘ Object Visibility = Soft constraint

  • ๋‚ด๋น„๊ฒŒ์ด์…˜ ๋™์•ˆ์—๋„ ๋ฌผ์ฒด๊ฐ€ ๊ณ„์† ๋ณด์ด๋ฉด ์ข‹์ง€๋งŒ,
  • ๋ฐ˜๋“œ์‹œ ๊ทธ๋Ÿด ํ•„์š”๋Š” ์—†์œผ๋‹ˆ โ€œ๋ณด์ด๋„๋ก ์œ ๋„ํ•˜๋Š” ๋น„์šฉ(visibility cost)โ€๋กœ ๋‘ก๋‹ˆ๋‹ค.

(D) Retraction(ํ† ๋ฅด์†Œ/ํŒ” ์ ‘๊ธฐ) = Soft constraint

  • ์กฐ์ž‘ ํ›„ ํŒ”/ํ† ๋ฅด์†Œ๋ฅผ ์ปดํŒฉํŠธํ•œ ์ž์„ธ๋กœ ์ ‘์œผ๋ฉด ๋‹ค์Œ ๋‚ด๋น„๊ฐ€ ์•ˆ์ „ํ•ด์ง€๊ณ  ์ถฉ๋Œ ์œ„ํ—˜์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค.
  • ์ด๊ฒƒ๋„ โ€œ๊ฐ•์ œโ€๋ณด๋‹จ โ€œ์„ ํ˜ธโ€๋กœ ๋‘์–ด ๋น„์šฉ ํ˜•ํƒœ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

3) ํŒŒ์ดํ”„๋ผ์ธ ์ „์ฒด ๊ทธ๋ฆผ

๋…ผ๋ฌธ Figure 2๋Š” MoMaGen์„ ํ•œ ์žฅ์œผ๋กœ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.

  1. ๋‹จ ํ•˜๋‚˜์˜ ์†Œ์Šค ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ object-centric subtask๋กœ ๋ถ„์ ˆ/์ฃผ์„
  2. ์ƒˆ๋กœ์šด ์ดˆ๊ธฐ ์ƒํƒœ(๋ฌผ์ฒด ๋ฐฐ์น˜/์žฅ์• ๋ฌผ ๋“ฑ)๋ฅผ ๋žœ๋คํ™”
  3. ๊ฐ subtask๋งˆ๋‹ค
    • ์†Œ์Šค ๋ฐ๋ชจ์˜ EE(End-effector) ํฌ์ฆˆ๋ฅผ ์ƒˆ ๋ฌผ์ฒด ํ”„๋ ˆ์ž„์œผ๋กœ ๋ณ€ํ™˜(์ ‘์ด‰ ๊ตฌ๊ฐ„์€ ์ƒ๋Œ€๋ณ€ํ™˜์„ ๋ณด์กด)
    • reachability/visibility๋ฅผ ๋งŒ์กฑํ•˜๋Š” ๋ฒ ์ด์Šค+์นด๋ฉ”๋ผ(ํ—ค๋“œ) ํฌ์ฆˆ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ์ƒ˜ํ”Œ๋ง
  4. ์œ ํšจํ•œ ๊ตฌ์„ฑ์ด ๋‚˜์˜ค๋ฉด
    • ๋ฒ ์ด์Šค/ํ† ๋ฅด์†Œ๋Š” ๋ชจ์…˜ ํ”Œ๋ž˜๋‹(๋‚ด๋น„ ๊ตฌ๊ฐ„์— soft visibility ํฌํ•จ)
    • ํŒ”์€ pregrasp๊นŒ์ง€ ํ”Œ๋ž˜๋‹ ํ›„, ์ ‘์ด‰ ๊ตฌ๊ฐ„์€ task-space control๋กœ โ€œ๋ฆฌํ”Œ๋ ˆ์ดโ€
  5. ๋งˆ์ง€๋ง‰์œผ๋กœ retraction ์‹œ๋„ ํ›„ ๋‹ค์Œ subtask๋กœ ์ง„ํ–‰

4) ์•Œ๊ณ ๋ฆฌ์ฆ˜(๋…ผ๋ฌธ Algorithm 1) ํ•ต์‹ฌ ๋™์ž‘์„ โ€œ์™œ ์ด ์ˆœ์„œ์ธ๊ฐ€โ€๋กœ ํ’€๊ธฐ

Algorithm 1์˜ ํฌ์ธํŠธ๋Š” โ€œ์‹คํŒจ๋ฅผ ๋นจ๋ฆฌ ๊ฐ์ง€ํ•˜๊ณ (cheap checks), ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š” ์ƒ˜ํ”Œ๋งŒ ๋น„์‹ผ ํ”Œ๋ž˜๋‹์œผ๋กœ ๋„˜๊ธด๋‹คโ€์ž…๋‹ˆ๋‹ค.

  • (๋ผ์ธ ์ดˆ๋ฐ˜) held object ์ฒดํฌ: ํ•„์š”ํ•œ ๋ฌผ์ฒด๋ฅผ ์†์— ๋ชป ๋“ค๊ณ  ์žˆ์œผ๋ฉด ์ดํ›„๋Š” ๋‹ค ๋ฌด์˜๋ฏธ โ†’ ์ฆ‰์‹œ abort
  • EE ํฌ์ฆˆ ๋ณ€ํ™˜: ์ ‘์ด‰๊ตฌ๊ฐ„์€ โ€œ๋ฌผ์ฒด-EE ์ƒ๋Œ€๊ด€๊ณ„โ€๊ฐ€ ๊ธฐ์ˆ ์˜ ๋ณธ์งˆ์ด๋ฏ€๋กœ ์ด๋ฅผ ์ƒˆ ๋ฐฐ์น˜์— ๋งž์ถฐ ๋ณ€ํ™˜
  • ํ˜„์žฌ ๋ฒ ์ด์Šค/์นด๋ฉ”๋ผ๋กœ visibility+IK ๊ฒ€์‚ฌ: ๋˜๋ฉด ๋ฐ”๋กœ ์กฐ์ž‘์œผ๋กœ ์ง„์ž…(๊ฐ€์žฅ ์‹ธ๊ฒŒ ์„ฑ๊ณต)
  • ์•ˆ ๋˜๋ฉด ๋ฒ ์ด์Šค ํฌ์ฆˆ/์นด๋ฉ”๋ผ ํฌ์ฆˆ๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋ฉฐ IK๋กœ ํ•„ํ„ฐ๋ง(cheap)
  • ์œ ํšจ ์ƒ˜ํ”Œ ํ™•๋ณด ํ›„ ๋ฒ ์ด์Šค ๋ชจ์…˜ ํ”Œ๋ž˜๋‹(์—ฌ๊ธฐ์„œ soft visibility ๋น„์šฉ ๋ฐ˜์˜)
  • pregrasp ํ”Œ๋ž˜๋‹ โ†’ task-space ๋ฆฌํ”Œ๋ ˆ์ด โ†’ retraction

ํŠนํžˆ โ€œhard visibility๋ฅผ ๋งŒ์กฑํ•˜๋Š” ํ† ๋ฅด์†Œ/์นด๋ฉ”๋ผ ๊ตฌ์„ฑ์ด downstream ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ๊นŒ์ง€ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹คโ€๋Š” ๊ฒƒ์ด ๋’ค ์‹คํ—˜์—์„œ ์ˆ˜์น˜๋กœ ๋‹ค์‹œ ํ™•์ธ๋ฉ๋‹ˆ๋‹ค.

MoMaGen ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ๋ฆ„

flowchart TD
  A[Single source demo] --> B[Segment into subtasks]
  B --> C[Scene randomization]
  C --> D{For each subtask}
  D --> E[Transform EE poses]
  E --> F{Hard constraints satisfied?}
  F -->|Yes| G[Plan + replay]
  F -->|No| H[Sample new poses]
  H --> I[IK filter]
  I --> F
  G --> J[Retraction]
  J --> D
  D --> K[Generated demo]
  K --> L[Train policy]

์‹คํ—˜(Experiments): ๋ฌด์—‡์„, ์–ด๋–ป๊ฒŒ, ์–ด๋–ค ์ง€ํ‘œ๋กœ ๋ดค๋‚˜?

1) ํƒœ์Šคํฌ ์…‹์—…: 4๊ฐœ โ€œ์ง‘์•ˆ์ผโ€ ๋ฉ€ํ‹ฐ์Šคํ… ํƒœ์Šคํฌ

OmniGibson ๊ธฐ๋ฐ˜์œผ๋กœ 4๊ฐœ ๊ฐ€์ •ํ™˜๊ฒฝ ํƒœ์Šคํฌ๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠน์ง•์€ ์žฅ๊ฑฐ๋ฆฌ ๋‚ด๋น„ + ์ˆœ์ฐจ ์กฐ์ž‘ + ์–‘ํŒ”(๋™๊ธฐ/๋น„๋™๊ธฐ) + ์ ‘์ด‰ ์ž‘์—…์„ ๋ชจ๋‘ ํฌํ•จํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

  • Pick Cup: ํ…Œ์ด๋ธ”๋กœ ์ด๋™ํ•ด ์ปต์„ ๋“ค์–ด ์˜ฌ๋ฆฌ๊ธฐ
  • Tidy Table: ์ปต์„ ์นด์šดํ„ฐ์—์„œ ์‹ฑํฌ๋กœ ์˜ฎ๊ธฐ๊ธฐ(์žฅ๊ฑฐ๋ฆฌ ๋ชจ๋ฐ”์ผ ์กฐ์ž‘)
  • Put Dishes Away: ๋‘ ํŒ”๋กœ ์ ‘์‹œ 2๊ฐœ๋ฅผ ์„ ๋ฐ˜์— ์Œ“๊ธฐ(์–‘ํŒ” ๋น„๋™๊ธฐ/๋…๋ฆฝ ์กฐ์ž‘)
  • Clean Frying Pan: ์–‘ํŒ”๋กœ ํŒฌ์„ ๋ฌธ์ง€๋ฅด๊ธฐ(์ ‘์ด‰ ๊ธฐ๋ฐ˜ ๋™๊ธฐ ์–‘์† ์กฐ์ž‘)

๊ฐ ํƒœ์Šคํฌ๋Š” ๋‹จ 1๊ฐœ์˜ ์†Œ์Šค ๋ฐ๋ชจ(1~3๋ถ„)๋งŒ ์ˆ˜์ง‘ํ•˜๋ฉฐ, ๊ทธ ์ค‘ ๋ฒ ์ด์Šค ๋ชจ์…˜์ด ํ‰๊ท  45%๋ฅผ ์ฐจ์ง€ํ•œ๋‹ค๊ณ  ๋ฐํž™๋‹ˆ๋‹ค(๋ชจ๋ฐ”์ผ์˜ ๋น„์ค‘์„ ์˜๋„์ ์œผ๋กœ ํฌ๊ฒŒ).

2) ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋‚œ์ด๋„(D0/D1/D2): โ€œ๋ชจ๋ฐ”์ผ์ด ์•„๋‹ˆ๋ฉด ๋ชป ๋ฒ„ํ‹ฐ๋Š”โ€ ๊ณต๊ฒฉ์  ๋žœ๋คํ™”

  • D0: ํƒ€๊นƒ ์˜ค๋ธŒ์ ํŠธ๋ฅผ ๊ฐ™์€ ๊ฐ€๊ตฌ ์œ„์—์„œ ์ œํ•œ์  ๋ฒ”์œ„๋กœ ๋žœ๋คํ™”
  • D1: ๊ฐ€๊ตฌ ์œ„ ์–ด๋””๋“  + ์ž์œ ๋กœ์šด orientation
  • D2: D1 + ์ถ”๊ฐ€ ๋ฌผ์ฒด(์กฐ์ž‘ ์žฅ์• ๋ฌผ) + ๋ฐ”๋‹ฅ ์žฅ์• ๋ฌผ(๋‚ด๋น„ ์žฅ์• ๋ฌผ)

์ด ๋žœ๋คํ™”๋Š” ๊ธฐ์กด๋ณด๋‹ค ๋” ๊ณต๊ฒฉ์ ์ด๊ณ , ์ €์ž๋“ค์€ ์ด๊ฒƒ์ด ์ƒˆ๋กœ์šด ๋ฒ ์ด์Šค ๋ชจ์…˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ ๋•๋ถ„์ด๋ผ๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

3) ๋น„๊ต ๋Œ€์ƒ(๋ฒ ์ด์Šค๋ผ์ธ): SkillMimicGen, DexMimicGen + โ€œ๋ฒ ์ด์Šค ๊ฒฝ๋กœ replayโ€ ํ™•์žฅ

๋ชจ๋“  ํƒœ์Šคํฌ๊ฐ€ ๋ฒ ์ด์Šค ์ด๋™์„ ์š”๊ตฌํ•˜๋ฏ€๋กœ, ๋ฒ ์ด์Šค๋ผ์ธ๋“ค๋„ ๊ธฐ์กด ๋ฐฉ์‹์ฒ˜๋Ÿผ ์†Œ์Šค ๋ฐ๋ชจ์˜ ๋ฒ ์ด์Šค ๊ถค์  replay๋ฅผ ๋ถ™์—ฌ ํ™•์žฅํ•ด ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” 3๊ฐœ:

  1. ๋‹ค์–‘์„ฑ(diversity): ์˜ค๋ธŒ์ ํŠธ ํฌ์ฆˆ/ํ–‰๋™ ๋‹ค์–‘์„ฑ
  2. ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ (success rate)
  3. ๋‚ด๋น„ ์ค‘ ๊ฐ€์‹œ์„ฑ ๋น„์œจ(visibility ratio)

๊ฒฐ๊ณผ(Results): โ€œ์ œ์•ฝ์„ ์ œ๋Œ€๋กœ ๋„ฃ์œผ๋ฉด, ๋ฐ์ดํ„ฐ๋„ ํ•™์Šต๋„ ๊ฐ™์ด ์ข‹์•„์ง„๋‹คโ€

1) ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ: โ€œ๋ฒ ์ด์Šค๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜๋ฉด, ํŒ”์˜ ๋‹ค์–‘์„ฑ๋„ ๋”ฐ๋ผ์˜จ๋‹คโ€

๋…ผ๋ฌธ Figure 4 ์„ค๋ช… ๊ทธ๋Œ€๋กœ ํ•ต์‹ฌ์€ ์ด๊ฒƒ์ž…๋‹ˆ๋‹ค:

  • ๊ฐ™์€ ์˜ค๋ธŒ์ ํŠธ ๋žœ๋คํ™”(D0)์—์„œ๋„ MoMaGen์€ ๋ฒ ์ด์Šค ํฌ์ฆˆ๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋ง โ†’ ๊ทธ ๊ฒฐ๊ณผ EE ํฌ์ฆˆ/๊ด€์ ˆ ๊ตฌ์„ฑ ๋‹ค์–‘์„ฑ์ด ์ปค์ง‘๋‹ˆ๋‹ค.
  • ๋” ์ค‘์š”ํ•œ ๊ฑด D1์—์„œ ๋ฒ ์ด์Šค๋ผ์ธ์€ โ€œ์ƒˆ ๋ฒ ์ด์Šค ๋ชจ์…˜ ์ƒ์„ฑ ๋ถˆ๊ฐ€โ€๋กœ ์‚ฌ์‹ค์ƒ ๋ง‰ํžˆ์ง€๋งŒ, MoMaGen์€ D1์—์„œ๋„ ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ ๋„“ํž™๋‹ˆ๋‹ค.

์ง๊ด€์ ์œผ๋กœ๋Š” ์ด๋ ‡์Šต๋‹ˆ๋‹ค:

ํ…Œ์ด๋ธ” ์œ„ ๋ฌผ์ฒด ์œ„์น˜๊ฐ€ ๋ฐ”๋€Œ๋ฉด, โ€œํŒ”์„ ๋” ๋ป—์„๊นŒ?โ€๋งŒ์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๊ณ , โ€œ๋ชธํ†ต/๋ฒ ์ด์Šค๋ฅผ ์–ด๋””์— ์„ธ์šธ๊นŒ?โ€๊ฐ€ ๋‹ค์–‘์„ฑ์˜ ์ฃผ ์—”์ง„์ด ๋ฉ๋‹ˆ๋‹ค.

2) ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ (Table 2): โ€œhard visibility๋ฅผ ๋„ฃ์—ˆ๋”๋‹ˆ, ์˜คํžˆ๋ ค ์„ฑ๊ณต๋ฅ ์ด ์˜ค๋ฅธ๋‹คโ€

Table 2๋Š” ๋งค์šฐ ์‹ค์šฉ์ ์ธ ๋ฉ”์‹œ์ง€๋ฅผ ์ค๋‹ˆ๋‹ค.

  • ๋‹จ์ˆœ ํƒœ์Šคํฌ(Pick Cup)๋Š” ์ œ์•ฝ์ด ์ ์–ด ๋ฒ ์ด์Šค๋ผ์ธ/ablation๋„ ์„ฑ๊ณต๋ฅ ์ด ๋†’์Œ
  • ํ•˜์ง€๋งŒ ๋ณต์žก ํƒœ์Šคํฌ(ํŠนํžˆ Tidy Table, Put Dishes Away, Clean Frying Pan)๋กœ ๊ฐ€๋ฉด visibility ์ œ์•ฝ์„ ์ œ๊ฑฐํ• ์ˆ˜๋ก ์„ฑ๊ณต๋ฅ ์ด ๋š ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด D0์—์„œ(ํ‘œ์˜ ์ผ๋ถ€):

  • MoMaGen: Pick Cup 1.00 / Tidy Table 0.86 / Put Dishes Away 0.79 / Clean Frying Pan 0.69
  • MoMaGen w/o vis. const.: 0.90 / 0.46 / 0.40 / 0.35

์ฆ‰, โ€œ์นด๋ฉ”๋ผ ์ž˜ ๋ณด์ด๊ฒŒ ํ•˜๋Š” ๊ฑด ํ•™์Šต๋งŒ์„ ์œ„ํ•œ ์žฅ์‹โ€์ด ์•„๋‹ˆ๋ผ, ์‹ค์ œ๋กœ ๋” ์กฐ์ž‘ ๊ฐ€๋Šฅํ•œ(ํ† ๋ฅด์†Œ/๋ฒ ์ด์Šค) ๊ตฌ์„ฑ์„ ์ฐพ๊ฒŒ ๋งŒ๋“ค์–ด ์ดํ›„ subtask ์„ฑ๊ณต๊นŒ์ง€ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ตฌ์กฐ์  ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

3) ์ •์ฑ… ํ•™์Šต(Policy Learning): ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ด ๊ณง ์„ฑ๊ณต๋ฅ ๋กœ ๋ฒˆ์—ญ๋œ๋‹ค

์‚ฌ์šฉํ•œ ์ •์ฑ…

  • WB-VIMA (single-task BC๋ฅผ scratch ํ•™์Šต)
  • ฯ€0 (pi_0): ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ LoRA(rank=32)๋กœ ํŒŒ์ธํŠœ๋‹

์ž…๋ ฅ์€ ํ—ค๋“œ ์นด๋ฉ”๋ผ + ์–‘ ์†๋ชฉ ์นด๋ฉ”๋ผ RGB + proprioception, ์ถœ๋ ฅ์€ ํƒ€๊นƒ ์กฐ์ธํŠธ ํฌ์ง€์…˜. WB-VIMA๋Š” ์‹œ๋ฎฌ์—์„œ GT depth๋ฅผ ํ™œ์šฉํ•ด egocentric colored point cloud๋กœ ์œตํ•ฉํ•ด ๋„ฃ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ฒฐ๊ณผ

  • Pick Cup (D0)์ฒ˜๋Ÿผ ๋žœ๋คํ™” ๋ฒ”์œ„๊ฐ€ ์ž‘์œผ๋ฉด, replay๋„ ๊ทธ๋Ÿญ์ €๋Ÿญ ๋ฒ„ํŒ€
  • ํ•˜์ง€๋งŒ Tidy Table (D0)์—์„œ MoMaGen์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ์šฐ์ˆ˜: ๋ฒ ์ด์Šค๋ผ์ธ์€ โ€œ๊ธธ๊ณ  ๋น„๋งค๋ˆํ•œ replay ๊ฒฝ๋กœโ€์— ๊ณผ์ ํ•ฉ/์ทจ์•ฝํ•˜๋‹ค๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋” ์–ด๋ ค์šด Pick Cup (D1)์—์„œ๋Š” MoMaGen๋งŒ์ด WB-VIMA ์„ฑ๊ณต๋ฅ  0.25๋ฅผ ๋‹ฌ์„ฑ(๋ฒ ์ด์Šค๋ผ์ธ์€ D0 ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ๋Š” ์™„์ „ ์‹คํŒจ)

Visibility ablation์ด ํ•™์Šต์„ ๋ง๊ฐ€๋œจ๋ฆฌ๋Š” ์ด์œ (๋…ผ๋ฌธ์ด ์ฃผ๋Š” ํžŒํŠธ)

Figure 6(d) ์ฝ”๋ฉ˜ํŠธ๋Š” ํŠนํžˆ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค:

  • MoMaGen์ด 0.75์ธ๋ฐ ablation์€ 0.45~0.65 ์ˆ˜์ค€(= D0์—์„œ๋„ gap)
  • Tidy Table(D0)์€ ablation์ด 0.05๊ฐ€ ceiling์ธ๋ฐ MoMaGen์€ 0.40

์ €์ž ํ•ด์„์€ โ€œ์ •์ฑ…์ด ์งง์€ ํžˆ์Šคํ† ๋ฆฌ ์ž…๋ ฅ์— ์˜์กดํ• ์ˆ˜๋ก, ๋‚ด๋น„ ์ค‘์— ํƒ€๊นƒ์„ ๊พธ์ค€ํžˆ ๋ณด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์„ฑ๋Šฅ์„ ์ขŒ์šฐํ•œ๋‹คโ€๋Š” ์ชฝ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ partial observability๋ฅผ โ€™๊ด€๋ฆฌโ€™ํ•ด ์ค€ ๊ฒƒ์ด ์ •์ฑ… ํ•™์Šต ๋‚œ์ด๋„๋ฅผ ์‹ค์งˆ์ ์œผ๋กœ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค.

4) ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋ง: ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” โ€œ๋งŽ์„์ˆ˜๋ก ๋‚ซ๋‹คโ€๊ฐ€ ์„ฑ๋ฆฝํ•˜๋Š”๊ฐ€?

MoMaGen ์ƒ์„ฑ ๋ฐ๋ชจ๋ฅผ 500/1000/2000์œผ๋กœ ๋Š˜๋ ค ํŒŒ์ธํŠœ๋‹ํ–ˆ์„ ๋•Œ, ํŠนํžˆ D1์—์„œ ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ์ข‹์•„์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ํ•ด์„์€ โ€œ์ƒํƒœ/ํ–‰๋™ ๊ณต๊ฐ„ ์ปค๋ฒ„๋ฆฌ์ง€ ํ™•๋Œ€โ€์ž…๋‹ˆ๋‹ค.

5) Sim-to-Real(์‹ค๋กœ๋ด‡): โ€œํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ low-data fine-tune์˜ prior๊ฐ€ ๋œ๋‹คโ€

Pick Cup ์‹ค์„ธ๊ณ„ ์‹คํ—˜์—์„œ, ์‹ค๋ฐ๋ชจ 40๊ฐœ๋งŒ์œผ๋กœ๋Š” ํ•™์Šต์ด ๋งค์šฐ ์–ด๋ ต๊ณ (๋ฒ ์ด์Šค๋ผ์ธ 0%), MoMaGen ํ•ฉ์„ฑ 1000๊ฐœ๋กœ pretrain ํ›„ fine-tune ํ•˜๋ฉด:

  • WB-VIMA: 0% โ†’ 10% (์ ˆ๋Œ€ ์ˆ˜์น˜๋Š” ๋‚ฎ์ง€๋งŒ, ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™์„ ๋ณด์ž„)
  • ฯ€0: 0% โ†’ 60% (ํšจ๊ณผ๊ฐ€ ๋” ๊ฐ•ํ•จ)

์ €์ž๋“ค์ด ์†”์งํ•˜๊ฒŒ ๋งํ•˜๋“ฏ โ€œzero-shot sim2real์€ ์–ด๋ ต๋‹คโ€๋Š” ํ˜„์‹ค ์œ„์—์„œ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ์ดˆ๊นƒ๊ฐ’(prior)์„ ๋งŒ๋“ค์–ด low-data ๊ตฌ๊ฐ„์„ ๋šซ์–ด์ฃผ๋Š” ์—ญํ• ์„ ํ–ˆ๋‹ค๊ณ  ๋ณด๋Š” ๊ฒŒ ํƒ€๋‹นํ•ฉ๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ , ๊ทธ๋ฆฌ๊ณ  โ€œ์ด ํ”„๋ ˆ์ž„์ด ๋‚จ๊ธฐ๋Š” ๊ฒƒโ€

๊ฐ•์ (Strengths)

  1. ๋ชจ๋ฐ”์ผ์—์„œ ์ง„์งœ ํ•„์š”ํ•œ ์ œ์•ฝ์„ ์ •ํ™•ํžˆ ์งš์—ˆ๋‹ค (Reachability + Visibility): ๋ชจ๋ฐ”์ผ ์กฐ์ž‘์—์„œ ์‹คํŒจ์˜ ๋Œ€๋ถ€๋ถ„์€ โ€œํŒ”โ€์ด ์•„๋‹ˆ๋ผ โ€œ๋ฒ ์ด์Šค/์‹œ์•ผโ€์—์„œ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค. MoMaGen์€ ๊ทธ๊ฑธ hard/soft๋กœ ๋ถ„ํ•ดํ•ด ์‹œ์Šคํ…œ์ ์œผ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  2. ํ†ตํ•ฉ ๊ด€์ : ๊ธฐ์กด X-Gen๋ฅ˜๋ฅผ โ€™์ œ์•ฝ ์ตœ์ ํ™”โ€™๋กœ ์žฌํ•ด์„: ์ด๊ฑด ๋‹จ์ˆœ ๊ตฌํ˜„ ํŒ์ด ์•„๋‹ˆ๋ผ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ •๋ฆฌํ•ด์ฃผ๋Š” ํ”„๋ ˆ์ž„์ž…๋‹ˆ๋‹ค. โ€œ๋ฌด์—‡์„ hard๋กœ, ๋ฌด์—‡์„ soft๋กœ ๋‘˜ ๊ฒƒ์ธ๊ฐ€โ€๊ฐ€ ์•ž์œผ๋กœ ํ™•์žฅ ์ถ•์ด ๋ฉ๋‹ˆ๋‹ค.
  3. ๋‹จ 1๊ฐœ์˜ ๋ฐ๋ชจ๋กœ๋„ ์œ ํšจํ•œ ์ •์ฑ… ํ•™์Šต์„ ๋ณด์˜€๋‹ค(ํŠนํžˆ D1): โ€œone-shot seed + ๋Œ€๊ทœ๋ชจ ํ•ฉ์„ฑโ€์˜ ์•ฝ์†์„ ๋ชจ๋ฐ”์ผ์—์„œ๋„ ์ƒ๋‹น ๋ถ€๋ถ„ ์ง€์ผฐ๊ณ , D1์—์„œ ๋ฒ ์ด์Šค๋ผ์ธ์„ ์••๋„ํ•œ ๊ฒฐ๊ณผ๋Š” ์„ค๋“๋ ฅ์ด ํฝ๋‹ˆ๋‹ค.
  4. ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ  ์ž์ฒด๊ฐ€ visibility ์ œ์•ฝ์— ์˜ํ•ด ๊ฐœ์„ ๋˜๋Š” โ€˜๊ตฌ์กฐ์  ์ด๋“โ€™: ๋‹จ์ˆœํžˆ โ€œํ•™์Šต์„ ์œ„ํ•ด ๋ณด์ด๊ฒŒ ํ–ˆ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ, visibility๊ฐ€ ์ข‹์€ ํ† ๋ฅด์†Œ/๋ฒ ์ด์Šค ๊ตฌ์„ฑ์ด downstream ์กฐ์ž‘๋„ ์‰ฝ๊ฒŒ ๋งŒ๋“ ๋‹ค๋Š” ์ ์ด Table 2๋กœ ๋“œ๋Ÿฌ๋‚ฉ๋‹ˆ๋‹ค.
  5. ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ์‹œ์—ฐ: articulated object(๋ƒ‰์žฅ๊ณ  ๋ฌธ) / cross-embodiment: ๋ถ€๋ก์—์„œ ๋ƒ‰์žฅ๊ณ  ๋ฌธ ์—ด๊ณ  ๋ณ‘ ๊บผ๋‚ด๊ธฐ(Get Bottle) ๊ฐ™์€ ๊ฐ€๋ ค์ง ๋ฌธ์ œ๋„ ๋‹ค๋ค„๋ณด๊ณ , Galexea R1 ๋ฐ๋ชจ๋ฅผ TIAGo๋กœ ์˜ฎ๊ธฐ๋Š” cross-embodiment ์‹คํ—˜๋„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์•ฝ์ /ํ•œ๊ณ„(Limitations)

  1. ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ โ€œํŠน๊ถŒ ์ •๋ณด(privileged info)โ€ ๊ฐ€์ •: ๋ฌผ์ฒด ํฌ์ฆˆ/ํ˜•์ƒ ๋“ฑ โ€œfull scene knowledgeโ€๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ์—์„  ์‰ฝ์ง€๋งŒ ํ˜„์‹ค์—์„  ์–ด๋ ค์šฐ๋ฉฐ, ์ €์ž๋“ค๋„ SAM2 ๊ฐ™์€ ๋น„์ „ ๋ชจ๋ธ๋กœ pose ์ถ”์ •ํ•˜๋Š” ๋ฐฉํ–ฅ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.
  2. ๋‚ด๋น„-์กฐ์ž‘์ด ๋ถ„๋ฆฌ๋œ(Alternating) ๊ตฌ์กฐ์— ๋” ์ดˆ์ : ๋…ผ๋ฌธ์€ ์ฃผ๋กœ โ€œ๋‚ด๋น„ โ†’ ์กฐ์ž‘ โ†’ ๋‚ด๋น„ โ†’ โ€ฆโ€ ํŒจํ„ด์„ ๋ณด์—ฌ์ฃผ๊ณ , whole-body manipulation(์˜ˆ: ๋ฌธ ์—ด๊ธฐ ๊ฐ™์€ ์—ฐ์† ์ƒํ˜ธ์ž‘์šฉ)์€ ํ™•์žฅ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
  3. ๊ณ„์‚ฐ ์ž์› ์˜์กด์„ฑ: GPU ๊ฐ€์† ๋ชจ์…˜ ์ƒ์„ฑ(์˜ˆ: cuRobo ์‚ฌ์šฉ)๋กœ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์ž์ฒด๊ฐ€ ๋น„์šฉ์ด ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. โ€œ๋ฐ๋ชจ ์ˆ˜์ง‘ ๋น„์šฉโ€์„ โ€œ์ปดํ“จํŒ… ๋น„์šฉโ€์œผ๋กœ ์น˜ํ™˜ํ•˜๋Š” ๋ฉด์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
  4. cross-embodiment๋Š” ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ์ถฉ๋Œ/๊ณต๊ฐ„ ์ œ์•ฝ์— ์ทจ์•ฝ: TIAGo์ฒ˜๋Ÿผ ํŒ”์ด ๋” bulkyํ•˜๋ฉด self-collision/์ข์€ ๊ณต๊ฐ„ ์ž‘์—…์—์„œ ์‹คํŒจํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ถ€๋ก์—์„œ ์ธ์ •ํ•ฉ๋‹ˆ๋‹ค.

๊ด€๋ จ ์—ฐ๊ตฌ ๋งฅ๋ฝ์—์„œ์˜ ์œ„์น˜: โ€œX-Gen์˜ ๋‹ค์Œ ์žฅ์€ ๋ชจ๋ฐ”์ผ์ด๋‹คโ€

๋…ผ๋ฌธ Table 1์ด ์ด ์ผ์„ ๊น”๋”ํžˆ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ๋ชจ๋ฐ”์ผ/active perception/visibility/retraction์„ ์ถฉ๋ถ„ํžˆ ๊ฐ•์ œํ•˜์ง€ ์•Š๊ฑฐ๋‚˜ ์•„์˜ˆ ๋‹ค๋ฃจ์ง€ ๋ชปํ–ˆ๊ณ ,
  • MoMaGen์€ Succ/Kin/C-Free/Temp/Vis(ํ•˜๋“œ+์†Œํ”„ํŠธ)/Ret๊นŒ์ง€ ํฌํ•จํ•ด ๋ชจ๋ฐ”์ผ ํ™˜๊ฒฝ์—์„œ ๋น ์ง€๊ธฐ ์‰ฌ์šด ๊ตฌ๋ฉ์„ ๋ฉ”์› ์Šต๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, MoMaGen์€ โ€œ์ •์  ์กฐ์ž‘์—์„œ ์„ฑ๊ณตํ–ˆ๋˜ ์ž๋™ ๋ฐ๋ชจ ์ƒ์„ฑโ€์„ (1) ๋ฒ ์ด์Šค๋ผ๋Š” ์ถ”๊ฐ€ ์ž์œ ๋„์™€ (2) ์นด๋ฉ”๋ผ๋ผ๋Š” ํ•™์Šต ์ž…๋ ฅ์˜ ๊ด€์ธก ์ œ์•ฝ๊นŒ์ง€ ํฌํ•จํ•œ ํ˜•ํƒœ๋กœ ๋Œ์–ด์˜ฌ๋ฆฐ ์ผ€์ด์Šค์ž…๋‹ˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก : MoMaGen์ด ๋‚จ๊ธฐ๋Š” ์‹ค๋ฌด์  ๊ตํ›ˆ 5๊ฐ€์ง€

  1. ๋ชจ๋ฐ”์ผ ์กฐ์ž‘์—์„œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ 1์ˆœ์œ„๋Š” reachability๋‹ค(hard๋กœ ๊ฑธ์–ด์•ผ ํ•œ๋‹ค).
  2. visuomotor ํ•™์Šต์„ ์ƒ๊ฐํ•˜๋ฉด, ์กฐ์ž‘ ์ค‘ visibility๋Š” hard์—ฌ์•ผ ๋ฐ์ดํ„ฐ๊ฐ€ โ€œํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœโ€๊ฐ€ ๋œ๋‹ค.
  3. ๋‚ด๋น„ ์ค‘ visibility๋Š” soft๋กœ ๊ด€๋ฆฌํ•ด๋„ ์ถฉ๋ถ„ํžˆ ํฐ ํ•™์Šต ์ด๋“์ด ๋‚œ๋‹ค(ํŠนํžˆ ์งง์€ ํžˆ์Šคํ† ๋ฆฌ ์ •์ฑ…์—์„œ).
  4. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” low-data ์‹ค๋กœ๋ด‡ fine-tune์—์„œ ๊ฐ•๋ ฅํ•œ prior๊ฐ€ ๋œ๋‹ค(ฯ€0์—์„œ 60%๊นŒ์ง€).
  5. โ€œ์–ด๋–ค ์ œ์•ฝ์„ hard/soft๋กœ ๋‘˜ ๊ฒƒ์ธ๊ฐ€โ€๊ฐ€ ์•ž์œผ๋กœ์˜ ํ™•์žฅ ์—ฐ๊ตฌ(whole-body, ํ˜„์‹ค ์ธ์‹, ๋” ๋ณต์žกํ•œ ์žฅ๋ฉด)์˜ ์„ค๊ณ„๋„๋‹ค.
TipMoMaGen ํ•ต์‹ฌ ์š”์•ฝ

MoMaGen: ์ œ์•ฝ ์กฐ๊ฑด ์ตœ์ ํ™”๋ฅผ ํ†ตํ•œ ์–‘ํŒ” ์ด๋™ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰

๋กœ๋ด‡ ๊ณตํ•™์˜ ๋ฐ์ดํ„ฐ ๊ฐˆ์ฆ๊ณผ ์ด๋™ ์กฐ์ž‘์˜ ๋‚œ์ œ

๋กœ๋ด‡ ๊ณตํ•™์˜ ์—ญ์‚ฌ๋Š” ์ธ๊ฐ„์˜ ๋™์ž‘์„ ๊ธฐ๊ณ„์˜ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋ ค๋Š” ๋Š์ž„์—†๋Š” ์‹œ๋„์˜ ์—ฐ์†์ด๋‹ค. ํŠนํžˆ ์ตœ๊ทผ์˜ ๋กœ๋ด‡ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์€ ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์ด ์Šค์Šค๋กœ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์— ์ ์‘ํ•˜๋Š” ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ๋ชจ๋ฐฉ ํ•™์Šต(Imitation Learning)์œผ๋กœ ๊ธ‰๊ฒฉํžˆ ๊ธฐ์šธ๊ณ  ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ํ™”๋ คํ•œ ๊ฐ€๋Šฅ์„ฑ ๋’ค์—๋Š” โ€™๋ฐ์ดํ„ฐ์˜ ๊ธฐ์•„โ€™๋ผ๋Š” ์ฐจ๊ฐ€์šด ํ˜„์‹ค์ด ๋„์‚ฌ๋ฆฌ๊ณ  ์žˆ๋‹ค. ๋กœ๋ด‡์ด ํ•œ ๊ฐ€์ง€ ์ž‘์—…์„ ์ตํžˆ๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ˆ˜์ฒœ ๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ณผ์ •์€ ๋ง ๊ทธ๋Œ€๋กœ ๋…ธ๋™ ์ง‘์•ฝ์ ์ธ ๊ณ ํ–‰์ด๋‹ค.

ํŠนํžˆ ๋ฐ”ํ€ด๊ฐ€ ๋‹ฌ๋ฆฐ ์ด๋™ ๋ฒ ์ด์Šค(Mobile Base)์™€ ๋‘ ๊ฐœ์˜ ๊ณ ์ž์œ ๋„ ํŒ”(Bimanual Arms)์„ ๋™์‹œ์— ๊ฐ–์ถ˜ ์–‘ํŒ” ์ด๋™ ์กฐ์ž‘ ๋กœ๋ด‡์˜ ๊ฒฝ์šฐ, ์ด ๋ฌธ์ œ๋Š” ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋ณต์žกํ•ด์ง„๋‹ค. ์ธ๊ฐ„ ์กฐ์ž‘์ž๊ฐ€ ๋ฆฌ๋ชจ์ปจ์ด๋‚˜ ๊ฐ€์ƒ ํ˜„์‹ค ์žฅ๋น„๋ฅผ ์ด์šฉํ•ด ๋กœ๋ด‡์˜ ๋ฒ ์ด์Šค๋ฅผ ์šด์ „ํ•˜๋ฉด์„œ ๋™์‹œ์— ์–‘์†์„ ์ •๊ตํ•˜๊ฒŒ ์›€์ง์—ฌ ๋ฌผ์ฒด๋ฅผ ์ง‘๊ณ , ์˜ฎ๊ธฐ๊ณ , ์นด๋ฉ”๋ผ์˜ ์‹œ์„ ๊นŒ์ง€ ๊ด€๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ์„œ์ปค์Šค์— ๊ฐ€๊นŒ์šด ์ง‘์ค‘๋ ฅ์„ ์š”๊ตฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ๋†’์€ ๋น„์šฉ์€ ๋กœ๋ด‡์ด ๊ฐ€์‚ฌ ๋…ธ๋™์ด๋‚˜ ๋ณต์žกํ•œ ์‚ฐ์—… ํ˜„์žฅ์— ํˆฌ์ž…๋˜๋Š” ์‹œ๊ธฐ๋ฅผ ๋Šฆ์ถ”๋Š” ๊ฒฐ์ •์ ์ธ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋˜์–ด ์™”๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ ์†์—์„œ MoMaGen(Mobile Manipulation Generation) ์—ฐ๊ตฌ๋Š” ๋งค์šฐ ์ง๊ด€์ ์ด๊ณ ๋„ ๊ฐ•๋ ฅํ•œ ์งˆ๋ฌธ์„ ๋˜์ง„๋‹ค. ๋กœ๋ด‡์ด ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๋ฌผ๋ฆฌ์  ์ œ์•ฝ ์กฐ๊ฑด๋“คโ€”์˜ˆ๋ฅผ ๋“ค์–ด โ€œํŒ”์ด ๋‹ฟ์•„์•ผ ๋ฌผ์ฒด๋ฅผ ์ง‘์„ ์ˆ˜ ์žˆ๋‹คโ€๊ฑฐ๋‚˜ โ€œ๋ˆˆ์— ๋ณด์—ฌ์•ผ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹คโ€โ€”์„ ์ˆ˜ํ•™์  ๋„๊ตฌ๋กœ ํ™œ์šฉํ•˜์—ฌ, ๋‹จ ํ•˜๋‚˜์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ˆ˜๋งŒ ๊ฐœ์˜ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์— ๋งž๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์Šค์Šค๋กœ ์ƒ์„ฑํ•ด๋‚ผ ์ˆ˜ ์—†์„๊นŒ?. MoMaGen์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ๋‹จ์ˆœํ•œ ๋ณต์ œ๊ฐ€ ์•„๋‹Œ, ํ•˜๋“œ ์ œ์•ฝ ์กฐ๊ฑด๊ณผ ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ •์˜ํ•˜๋ฉฐ ์ด ๋‚œ์ œ์— ๋Œ€ํ•œ ํ•ด๋‹ต์„ ์ œ์‹œํ•œ๋‹ค.

์ œ์•ฝ ์กฐ๊ฑด ์ตœ์ ํ™”๋กœ์„œ์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

๋กœ๋ด‡์ด ์„ธ์ƒ์„ ์‚ด์•„๊ฐ€๋Š” ๋ฐฉ์‹์€ ๋ณธ์งˆ์ ์œผ๋กœ ์ œ์•ฝ ์กฐ๊ฑด์˜ ์—ฐ์†์ด๋‹ค. ๋กœ๋ด‡์˜ ํŒ” ๊ธธ์ด๋Š” ํ•œ์ •๋˜์–ด ์žˆ๊ณ , ์นด๋ฉ”๋ผ์˜ ์‹œ์•ผ๊ฐ์€ ์ข์œผ๋ฉฐ, ๋ฐ”๋‹ฅ์˜ ๋งˆ์ฐฐ๋ ฅ์ด๋‚˜ ๊ด€์ ˆ์˜ ํ† ํฌ ํ•œ๊ณ„๋Š” ๋กœ๋ด‡์ด ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๊ณผ ํ•  ์ˆ˜ ์—†๋Š” ์ผ์„ ์—„๊ฒฉํ•˜๊ฒŒ ๊ตฌ๋ถ„ ์ง“๋Š”๋‹ค. MoMaGen์€ ์ด๋Ÿฌํ•œ ๋ฌผ๋ฆฌ์  ํ•œ๊ณ„๋ฅผ ์žฅ์• ๋ฌผ์ด ์•„๋‹Œ, ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ๊ฐ€์ด๋“œ๋ผ์ธ์œผ๋กœ ์‚ผ๋Š”๋‹ค.

ํ•˜๋“œ ์ œ์•ฝ๊ณผ ์†Œํ”„ํŠธ ์ œ์•ฝ์˜ ์กฐํ™”๋กœ์šด ์„ค๊ณ„

MoMaGen์˜ ํ•ต์‹ฌ ์„ค๊ณ„ ์ฒ ํ•™์€ ๋กœ๋ด‡์˜ ๋™์ž‘์„ ๊ฒฐ์ •์ง“๋Š” ์š”์†Œ๋ฅผ ๋‘ ๊ฐ€์ง€ ์ธต์œ„๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐ ์žˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” โ€˜๋ฐ˜๋“œ์‹œ ์ง€์ผœ์•ผ ํ•˜๋Š”โ€™ ํ•˜๋“œ ์ œ์•ฝ(Hard Constraints)์ด๊ณ , ๋‘ ๋ฒˆ์งธ๋Š” โ€˜์ง€ํ‚ค๋ฉด ์ž‘์—…์˜ ์งˆ์ด ์ข‹์•„์ง€๋Š”โ€™ ์†Œํ”„ํŠธ ์ œ์•ฝ(Soft Constraints)์ด๋‹ค.

ํ•˜๋“œ ์ œ์•ฝ ์กฐ๊ฑด์€ ๋กœ๋ด‡์˜ ์ž‘์—… ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •์ง“๋Š” ์ ˆ๋Œ€์ ์ธ ๊ธฐ์ค€๋“ค์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡์ด ์ปต์„ ์ง‘์œผ๋ ค ํ•  ๋•Œ ๋ฒ ์ด์Šค๋ฅผ ์ปต์—์„œ ๋„ˆ๋ฌด ๋ฉ€๋ฆฌ ์ฃผ์ฐจํ•˜๋ฉด ์•„๋ฌด๋ฆฌ ํŒ”์„ ๋ป—์–ด๋„ ๋‹ฟ์ง€ ์•Š๋Š”๋‹ค. ์ด๋ฅผ ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ(Reachability) ์ œ์•ฝ์ด๋ผ ํ•œ๋‹ค. ๋˜ํ•œ, ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ •์ฑ…(Visuomotor Policy)์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์กฐ์ž‘์ด ์ผ์–ด๋‚˜๋Š” ์ˆœ๊ฐ„ ๋Œ€์ƒ ๋ฌผ์ฒด๊ฐ€ ์นด๋ฉ”๋ผ ํ”„๋ ˆ์ž„์˜ ์ค‘์•™ ๋ถ€๊ทผ์— ํ™•์‹คํžˆ ์œ„์น˜ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ๊ฐ€์‹œ์„ฑ(Visibility) ์ œ์•ฝ์ด๋ผ ๋ถ€๋ฅธ๋‹ค. ์ด๋Ÿฌํ•œ ํ•˜๋“œ ์ œ์•ฝ์ด ์ถฉ์กฑ๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋Š” ํ•™์Šต์— ์‚ฌ์šฉ๋  ๊ฒฝ์šฐ ์˜คํžˆ๋ ค ๋ชจ๋ธ์—๊ฒŒ ์ž˜๋ชป๋œ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•˜๊ฒŒ ๋œ๋‹ค.

๋ฐ˜๋ฉด ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์€ ๋กœ๋ด‡์˜ ๋™์ž‘์„ ๋”์šฑ ๋งค๋„๋Ÿฝ๊ณ  ์ง€๋Šฅ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ์š”์†Œ๋“ค์ด๋‹ค. ๋กœ๋ด‡์ด ๋ฐฉ ๊ฑด๋„ˆํŽธ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๋™์•ˆ ๋Œ€์ƒ ๋ฌผ์ฒด๋ฅผ ๊ณ„์†ํ•ด์„œ ๋ฐ”๋ผ๋ณด๊ณ  ์žˆ์„ ํ•„์š”๋Š” ์—†์ง€๋งŒ, ์นด๋ฉ”๋ผ๊ฐ€ ๋ฌผ์ฒด๋ฅผ ์ถ”์ ํ•˜๋ฉฐ ์ด๋™ํ•œ๋‹ค๋ฉด ํ•™์Šต๋œ ๋ชจ๋ธ์€ ๊ณต๊ฐ„์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ํ›จ์”ฌ ๋” ํ’๋ถ€ํ•˜๊ฒŒ ์ดํ•ดํ•˜๊ฒŒ ๋œ๋‹ค. ๋˜ํ•œ, ์ž‘์—…์ด ๋๋‚œ ํ›„ ํŒ”์„ ๋ชธ์ชฝ์œผ๋กœ ๋‹จ์ •ํ•˜๊ฒŒ ์ ‘๋Š” ์ˆ˜์ถ•(Retraction) ๋™์ž‘์€ ๋‹ค์Œ ์ด๋™ ๋‹จ๊ณ„์—์„œ์˜ ์ถฉ๋Œ ์œ„ํ—˜์„ ์ค„์—ฌ์ค€๋‹ค. MoMaGen์€ ์ด๋Ÿฌํ•œ ์š”์†Œ๋“ค์„ ๋น„์šฉ ํ•จ์ˆ˜(Cost Function)๋กœ ์„ค์ •ํ•˜์—ฌ ๋กœ๋ด‡์ด ๊ฐ€๋Šฅํ•œ ํ•œ โ€˜์šฐ์•„ํ•˜๊ฒŒโ€™ ์›€์ง์ด๋„๋ก ์œ ๋„ํ•œ๋‹ค.

์ œ์•ฝ ์กฐ๊ฑด ์œ ํ˜• ์ •์˜ ๋ฐ ๋ชฉ์  ๊ตฌ์ฒด์  ๋งค์ปค๋‹ˆ์ฆ˜
ํ•˜๋“œ ์ œ์•ฝ (Hard) ์ž‘์—… ์„ฑ๋ฆฝ์„ ์œ„ํ•œ ๋ฌผ๋ฆฌ์  ํ•„์ˆ˜ ์กฐ๊ฑด ๋„๋‹ฌ ๊ฐ€๋Šฅ์„ฑ(IK ์„ฑ๊ณต), ์กฐ์ž‘ ์ „ ๊ฐ€์‹œ์„ฑ ํ™•๋ณด, ์ถฉ๋Œ ํšŒํ”ผ
์†Œํ”„ํŠธ ์ œ์•ฝ (Soft) ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ฐ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ด๋™ ์ค‘ ๋ฌผ์ฒด ์ถ”์ (Visibility Cost), ๊ถค์  ๋ถ€๋“œ๋Ÿฌ์›€, ๊ด€์ ˆ ์ˆ˜์ถ•

์ˆ˜ํ•™์  ๊ณต์‹ํ™”์™€ ํ†ต์ผ๋œ ํ”„๋ ˆ์ž„์›Œํฌ

MoMaGen์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ๊ณต์‹ํ™”ํ•œ๋‹ค. ๋กœ๋ด‡์˜ ์ƒํƒœ ๊ถค์ ์„ x๋ผ ํ•  ๋•Œ, ๋ชฉ์  ํ•จ์ˆ˜๋Š” ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์˜ ํ•ฉ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋™์‹œ์— ํ•˜๋“œ ์ œ์•ฝ ์กฐ๊ฑด g์™€ h๋ฅผ ๋งŒ์กฑํ•˜๋Š” ํ•ด๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค.

\min_{x} \sum_{t=0}^{T} f_{soft}(x_t) \quad \text{subject to} \quad g_{hard}(x) = 0, \quad h_{hard}(x) \leq 0

์ด ๊ณต์‹์€ ๊ธฐ์กด์˜ MimicGen์ด๋‚˜ DexMimicGen๊ณผ ๊ฐ™์€ X-Gen ๊ณ„์—ด์˜ ์—ฐ๊ตฌ๋“ค์„ ํ•˜๋‚˜์˜ ์ฒด๊ณ„ ์•„๋ž˜๋กœ ํ†ตํ•ฉํ•œ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ฃผ๋กœ ์ •์ ์ธ ๋ฒ ์ด์Šค ์œ„์—์„œ์˜ ํŒ” ๋™์ž‘์—๋งŒ ์ง‘์ค‘ํ–ˆ๊ธฐ์— ๋ฒ ์ด์Šค ์œ„์น˜ ์„ ์ •์ด๋‚˜ ์ด๋™ ์ค‘์˜ ๊ฐ€์‹œ์„ฑ ๋ฌธ์ œ๋ฅผ ๋ช…์‹œ์ ์ธ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๋‹ค. MoMaGen์€ ์ด๋™ ์กฐ์ž‘์ด๋ผ๋Š” ๋” ๋„“์€ ๋ฒ”์œ„์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ด๋Ÿฌํ•œ ์ œ์•ฝ ์กฐ๊ฑด๋“ค์„ ํ™•์žฅํ•˜๊ณ  ์ฒด๊ณ„ํ™”ํ•จ์œผ๋กœ์จ, ์–ด๋–ค ํ˜•ํƒœ์˜ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ์ ์ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์—”์ง„์„ ๊ตฌ์ถ•ํ•˜์˜€๋‹ค.

MoMaGen ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์‹œ์—ฐ์—์„œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ์˜ ์—ฌ์ •

MoMaGen์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋กœ์„ธ์Šค๋Š” ๋งˆ์น˜ ์ˆ™๋ จ๋œ ์กฐ๊ฐ๊ฐ€๊ฐ€ ๊ฑฐ์นœ ๋Œ๋ฉ์ด์—์„œ ์ •๊ตํ•œ ์ƒ์„ ๊นŽ์•„๋‚ด๋Š” ๊ณผ์ •๊ณผ ํก์‚ฌํ•˜๋‹ค. ๋‹จ ํ•˜๋‚˜์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์ž…๋ ฅ๋˜๋ฉด, ์‹œ์Šคํ…œ์€ ์ด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ํ•ด์ฒดํ•œ ๋’ค ์ˆ˜๋งŒ ๊ฐœ์˜ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์— ๋งž์ถฐ ์žฌ์กฐ๋ฆฝํ•œ๋‹ค.

ํ•˜์œ„ ์ž‘์—…์˜ ๋ถ„์ ˆํ™”์™€ ์ฃผ์„ (Subtask Segmentation)

๋ชจ๋“  ์œ„๋Œ€ํ•œ ๋ฐœ๋ช…์€ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์ž‘์€ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐ์„œ ์‹œ์ž‘๋œ๋‹ค. MoMaGen์€ ๋จผ์ € ์ธ๊ฐ„์˜ ์‹œ์—ฐ์„ โ€˜ํ•˜์œ„ ์ž‘์—…(Subtask)โ€™ ๋‹จ์œ„๋กœ ์ชผ๊ฐ ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์‹ํƒ์— ์žˆ๋Š” ์ปต์„ ์”ป์–ด์„œ ์ฐฌ์žฅ์— ๋„ฃ๊ธฐโ€๋ผ๋Š” ์ž‘์—…์€ (1) ์ปต์œผ๋กœ ์ด๋™, (2) ์ปต ์ง‘๊ธฐ, (3) ์ฐฌ์žฅ์œผ๋กœ ์ด๋™, (4) ์ปต ๋‚ด๋ ค๋†“๊ธฐ๋ผ๋Š” ๋„ค ๊ฐ€์ง€ ํ•˜์œ„ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

๊ฐ ํ•˜์œ„ ์ž‘์—…์€ ๋‹จ์ˆœํžˆ ์‹œ๊ฐ„์  ๊ตฌ๋ถ„์ด ์•„๋‹ˆ๋ผ, ๋กœ๋ด‡์ด ์ƒํ˜ธ์ž‘์šฉํ•ด์•ผ ํ•  ๋ชฉํ‘œ ๋ฌผ์ฒด(o_{target}), ์†์— ๋“ค๊ณ  ์žˆ๋Š” ๋ฌผ์ฒด(o_{held}), ๊ทธ๋ฆฌ๊ณ  ์กฐ์ž‘์˜ ์ •๋ฐ€๋„๊ฐ€ ์š”๊ตฌ๋˜๋Š” ์ ‘์ด‰ ์ง์ „์˜ ์‹œ์ (t_{pregrasp}) ๋“ฑ์— ๋Œ€ํ•œ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค. ์ด ์ •๋ณด๋“ค์€ ๋‚˜์ค‘์— ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์—์„œ ๋กœ๋ด‡์ด ๋ฒ ์ด์Šค ์œ„์น˜๋ฅผ ์–ด๋””๋กœ ์žก์•„์•ผ ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ํ•ต์‹ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ๋œ๋‹ค.

ํ™˜๊ฒฝ ๋ฌด์ž‘์œ„ํ™”์™€ ์ƒํƒœ ๋ณ€ํ™˜

๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์€ ์ง€๋Šฅ์˜ ๊ฐ•๊ฑดํ•จ์„ ๊ฒฐ์ •์ง“๋Š”๋‹ค. MoMaGen์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ๋‚ด์—์„œ ๋ฌผ์ฒด๋“ค์˜ ์œ„์น˜๋ฅผ ๊ณผ๊ฐํ•˜๊ฒŒ ๋ฌด์ž‘์œ„ํ™”ํ•œ๋‹ค. ํŠนํžˆ โ€™D2 ๋ฌด์ž‘์œ„ํ™”โ€™๋ผ ๋ถˆ๋ฆฌ๋Š” ์„ค์ •์—์„œ๋Š” ๋Œ€์ƒ ๋ฌผ์ฒด๋ฅผ ๋ฐฉ ์•ˆ์˜ ์™„์ „ํžˆ ๋‹ค๋ฅธ ๊ฐ€๊ตฌ ์œ„์— ์˜ฌ๋ ค๋‘๊ฑฐ๋‚˜, ๋กœ๋ด‡์˜ ๊ฒฝ๋กœ ์‚ฌ์ด์— ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ์žฅ์• ๋ฌผ์„ ๋ฐฐ์น˜ํ•˜์—ฌ ๋‚œ์ด๋„๋ฅผ ๊ทน๋„๋กœ ๋†’์ธ๋‹ค.

์ด๋•Œ MoMaGen์€ ์›๋ž˜ ์‹œ์—ฐ์—์„œ์˜ ๋ฌผ์ฒด์™€ ๋กœ๋ด‡ ์† ์‚ฌ์ด์˜ ์ƒ๋Œ€์  ์ขŒํ‘œ ๋ณ€ํ™˜(Transformation)์„ ๊ณ„์‚ฐํ•œ๋‹ค. ๋ฌผ์ฒด๊ฐ€ A์—์„œ B๋กœ ์ด๋™ํ–ˆ๋‹ค๋ฉด, ๋กœ๋ด‡์˜ ์† ์—ญ์‹œ ๊ทธ์— ๋งž์ถฐ B๋ฅผ ํ–ฅํ•ด ์›€์ง์—ฌ์•ผ ํ•œ๋‹ค๋Š” ๋…ผ๋ฆฌ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋™ ์กฐ์ž‘ ๋กœ๋ด‡์—๊ฒŒ ์ด๋Š” ๋‹จ์ˆœํžˆ ์†๋งŒ ์˜ฎ๊ธฐ๋Š” ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋‹ค. ๋ฐ”ํ€ด์˜ ์œ„์น˜๊ฐ€ ๋ฐ”๋€Œ์–ด์•ผ ํ•˜๊ณ , ๊ทธ์— ๋”ฐ๋ผ ์นด๋ฉ”๋ผ์˜ ๊ฐ๋„์™€ ํ† ๋ฅด์†Œ์˜ ๋†’์ด๋„ ์œ ๊ธฐ์ ์œผ๋กœ ๋ณ€ํ•ด์•ผ ํ•œ๋‹ค.

์ „์‹  ํ˜‘์‘์„ ์œ„ํ•œ ๋ฒ ์ด์Šค ๋ฐ ์นด๋ฉ”๋ผ ํฌ์ฆˆ ์ƒ˜ํ”Œ๋ง

MoMaGen์˜ ๊ฐ€์žฅ ๋›ฐ์–ด๋‚œ ์ง€๋Šฅ์€ โ€™์–ด๋””์— ์„œ์„œ ์ž‘์—…์„ ํ•  ๊ฒƒ์ธ๊ฐ€โ€™๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋‹จ๊ณ„์—์„œ ๋“œ๋Ÿฌ๋‚œ๋‹ค. ๋‹จ์ˆœํžˆ ๋ฌผ์ฒด ์•ž์— ์„œ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์–‘ํŒ”์ด ๋ฌผ์ฒด์— ๋‹ฟ์œผ๋ฉด์„œ๋„ ์นด๋ฉ”๋ผ๊ฐ€ ๋ฌผ์ฒด๋ฅผ ๊ฐ€๋ฆฌ์ง€ ์•Š๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋Š” ์ตœ์ ์˜ ์ „์‹  ํฌ์ฆˆ(T_{base}, T_{cam})๋ฅผ ์ฐพ์•„์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ด ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆœ์ฐจ์  ํ•„ํ„ฐ๋ง์„ ๊ฑฐ์นœ๋‹ค.

  • ํ›„๋ณด์ง€ ์„ ์ •: ๋ชฉํ‘œ ๋ฌผ์ฒด ์ฃผ๋ณ€์˜ ๋„๋‹ฌ ๊ฐ€๋Šฅํ•œ ์˜์—ญ์—์„œ ์ˆ˜๋งŽ์€ ๋ฒ ์ด์Šค ํฌ์ฆˆ ํ›„๋ณด๋ฅผ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค.
  • ์—ญ๊ธฐ๋Šฅํ•™(IK) ๊ฒ€์‚ฌ: ํ•ด๋‹น ๋ฒ ์ด์Šค ์œ„์น˜์—์„œ ๋กœ๋ด‡์˜ ํŒ”์ด ์žฅ์• ๋ฌผ์— ๊ฑธ๋ฆฌ์ง€ ์•Š๊ณ  ๋ชฉํ‘œ ์ง€์ ์— ๋‹ฟ์„ ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•œ๋‹ค.
  • ๊ฐ€์‹œ์„ฑ ๊ฒ€์ฆ: ํ—ค๋“œ ์นด๋ฉ”๋ผ๊ฐ€ ์กฐ์ž‘ ์ง์ „์— ๋ชฉํ‘œ ๋ฌผ์ฒด๋ฅผ ์ค‘์‹ฌ๋ถ€์— ๋‹ด๊ณ  ์žˆ๋Š”์ง€, ๋กœ๋ด‡์˜ ํŒ”์ด๋‚˜ ์ฃผ๋ณ€ ๋ฌผ์ฒด์— ์˜ํ•ด ์‹œ์•ผ๊ฐ€ ๊ฐ€๋ ค์ง€์ง€๋Š” ์•Š๋Š”์ง€ ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

์ด ๋‹จ๊ณ„์—์„œ MoMaGen์€ cuRobo์™€ ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ดˆ๋‹น ์ˆ˜์ฒœ ๋ฒˆ์˜ IK ๊ณ„์‚ฐ๊ณผ ์ถฉ๋Œ ๊ฒ€์‚ฌ๋ฅผ ์ˆ˜ํ–‰ํ•จ์œผ๋กœ์จ, ๊ฑฐ๋Œ€ํ•œ ํƒ์ƒ‰ ๊ณต๊ฐ„ ์†์—์„œ๋„ ์œ ํšจํ•œ ํฌ์ฆˆ๋ฅผ ์ˆœ์‹๊ฐ„์— ์ฐพ์•„๋‚ธ๋‹ค.

์ตœ์ ํ™”๋œ ๊ฒฝ๋กœ ๊ณ„ํš๊ณผ ์ ‘์ด‰ ์žฌํ˜„

์œ ํšจํ•œ ์ฃผ์ฐจ ์œ„์น˜๋ฅผ ์ฐพ์•˜๋‹ค๋ฉด, ์ด์ œ ํ˜„์žฌ ์œ„์น˜์—์„œ ๊ทธ๊ณณ๊นŒ์ง€ ๋กœ๋ด‡์„ ์ด๋™์‹œ์ผœ์•ผ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ MoMaGen์€ ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์„ ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•œ๋‹ค. ๋กœ๋ด‡์€ ๋‹จ์ˆœํžˆ ์ตœ๋‹จ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ—ค๋“œ ์นด๋ฉ”๋ผ๋กœ ๋ฌผ์ฒด๋ฅผ ํ›‘์œผ๋ฉฐ ์ด๋™ํ•˜๋„๋ก ๊ถค์ ์ด ์ƒ์„ฑ๋œ๋‹ค.

๋ฌผ์ฒด์™€ ์ง์ ‘ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์ •๋ฐ€ํ•œ ์ˆœ๊ฐ„(t_{pregrasp} \sim t_{end})์—๋Š” ์›๋ž˜ ์‹œ์—ฐ์—์„œ์˜ โ€™์ž‘์—… ๊ณต๊ฐ„ ๊ถค์ (Task-space trajectory)โ€™์„ ๊ทธ๋Œ€๋กœ ์žฌํ˜„ํ•œ๋‹ค. ์ด๋Š” ๋ฌผ์ฒด๋ฅผ ์žก๊ฑฐ๋‚˜ ๋ฌธ์„ ์—ฌ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ด ๋ฌผ๋ฆฌ์  ์ ‘์ด‰์ด ๋นˆ๋ฒˆํ•œ ์ž‘์—…์—์„œ ์„ฑ๊ณต๋ฅ ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋น„๊ฒฐ์ด๋‹ค. ๋ฐ˜๋ฉด ์ด๋™์ด๋‚˜ ์ˆ˜์ถ•๊ณผ ๊ฐ™์€ ๋น„์ ‘์ด‰ ๊ตฌ๊ฐ„์—์„œ๋Š” ๋กœ๋ด‡์˜ ์ „์‹  ๊ฒฝ๋กœ ๊ณ„ํš(Motion Planning)์„ ํ†ตํ•ด ์ž์œ ๋กœ์šด ์›€์ง์ž„์„ ํ—ˆ์šฉํ•จ์œผ๋กœ์จ ํ™˜๊ฒฝ์˜ ์žฅ์• ๋ฌผ์„ ์œ ์—ฐํ•˜๊ฒŒ ํ”ผํ•œ๋‹ค.

graph TD
    subgraph Input
        A[Single Demo]
    end

    subgraph Process
        B[Subtask Segmentation] --> C[Scene Randomization]
        C --> D{Satisfy Hard Constraints?}
        D -- No --> C
        D -- Yes: Reachability & Visibility --> E[Base/Camera Pose Sampling]
        E --> F[Motion Planning]
        F --> G[Task-space Replay]
    end

    subgraph Output
        H[Generated Demo] --> I[Policy Training]
    end

    style D fill:#f9f,stroke:#333,stroke-width:2px
    style F fill:#bbf,stroke:#333,stroke-width:2px

์‹คํ—˜: ์ˆ˜์น˜๋กœ ์ฆ๋ช…๋œ ์ง€๋Šฅ์˜ ํ™•์žฅ

MoMaGen์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ํ˜„์‹ค์ ์ธ ๊ฐ€์‚ฌ ๋…ธ๋™์„ ๋ชจ์‚ฌํ•œ ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ณผ์ œ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. ๊ฐ ๊ณผ์ œ๋Š” ์–‘ํŒ”์˜ ํ˜‘์‘, ์ด๋™์˜ ์ •ํ™•์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์‹œ๊ฐ์  ์ •๋ณด์˜ ์ค‘์š”์„ฑ์„ ๊ณ ๋ฃจ ํ‰๊ฐ€ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

์‹คํ—˜ ์„ค์ • ๋ฐ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์„ฑ๋Šฅ

์‹คํ—˜์€ NVIDIA Isaac Sim ๊ธฐ๋ฐ˜์˜ ํ™˜๊ฒฝ์—์„œ ์ง„ํ–‰๋˜์—ˆ์œผ๋ฉฐ, Galaxea R1 ๋ฐ Tiago ๋กœ๋ด‡ ํ”Œ๋žซํผ์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ๋‚œ์ด๋„๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” โ€™ํ™˜๊ฒฝ ๋ฌด์ž‘์œ„ํ™”โ€™์˜ ์ˆ˜์ค€์ด๋‹ค.

๋ฌด์ž‘์œ„ํ™” ์ˆ˜์ค€ ์„ค๋ช… ๋‚œ์ด๋„ ๋ฐ ํŠน์ง•
D0 ์‹œ์—ฐ๊ณผ ๊ฑฐ์˜ ๋™์ผํ•œ ํ™˜๊ฒฝ ๋งค์šฐ ์‰ฌ์›€, ๋‹จ์ˆœ ๋ณต์ œ ์ˆ˜์ค€
D1 (Local) ๋ฌผ์ฒด ์œ„์น˜๋ฅผ ์†Œํญ(์ˆ˜์‹ญ cm) ๋ณ€๊ฒฝ ๋ณดํ†ต, ๊ธฐ์กด X-Gen ๊ณ„์—ด์˜ ํƒ€๊ฒŸ ๋ฒ”์œ„
D2 (Aggressive) ๋ฐฉ ์ „์ฒด์— ๊ฑธ์ณ ๋ฌผ์ฒด ์œ„์น˜ ๋ฌด์ž‘์œ„ ๋ฐฐ์น˜ ๋ฐ ์žฅ์• ๋ฌผ ์ถ”๊ฐ€ ๋งค์šฐ ๋†’์Œ, MoMaGen์˜ ํ•ต์‹ฌ ์ฐจ๋ณ„์ 

์—ฐ๊ตฌ ๊ฒฐ๊ณผ, MoMaGen์€ D2์™€ ๊ฐ™์€ ๊ทนํ•œ์˜ ํ™˜๊ฒฝ์—์„œ๋„ 80% ์ด์ƒ์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ๋กœ ์ƒˆ๋กœ์šด ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด๋ƒˆ๋‹ค. ๋ฐ˜๋ฉด ๊ธฐ์กด์˜ MimicGen์ด๋‚˜ ์‹œ๊ฐ์  ์ œ์•ฝ์ด ์—†๋Š” ๋ฐฉ์‹๋“ค์€ ๋ฒ ์ด์Šค ์œ„์น˜๋ฅผ ์žก์ง€ ๋ชปํ•˜๊ฑฐ๋‚˜ ์กฐ์ž‘ ์ˆœ๊ฐ„์— ๋ฌผ์ฒด๋ฅผ ๋ณด์ง€ ๋ชปํ•ด ์„ฑ๊ณต๋ฅ ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๋ชจ์Šต์„ ๋ณด์˜€๋‹ค.

์ •์ฑ… ํ•™์Šต ์„ฑ๊ณผ์™€ ์‹œ๊ฐ์  ์ œ์•ฝ์˜ ๊ฐ€์น˜

์ƒ์„ฑ๋œ 1,000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ WB-VIMA(Whole-Body VisuoMotor Attention) ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚จ ๊ฒฐ๊ณผ๋Š” ๋†€๋ผ์› ๋‹ค.

๋‹จ ํ•˜๋‚˜์˜ ์ธ๊ฐ„ ์‹œ์—ฐ๋งŒ์œผ๋กœ ์‹œ์ž‘ํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , MoMaGen์ด ์ƒ์„ฑํ•œ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ ๋กœ๋ด‡์€ ์ด์ „์— ํ•œ ๋ฒˆ๋„ ๊ฐ€๋ณด์ง€ ์•Š์€ ์œ„์น˜์— ๋†“์ธ ๋ฌผ์ฒด๋ฅผ ์ •ํ™•ํžˆ ์ฐพ์•„๊ฐ€ ์ž‘์—…์„ ์™„์ˆ˜ํ–ˆ๋‹ค. ํŠนํžˆ โ€™์ด๋™ ์ค‘ ๊ฐ€์‹œ์„ฑโ€™์ด๋ผ๋Š” ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋„ฃ์—ˆ์„ ๋•Œ์™€ ๋„ฃ์ง€ ์•Š์•˜์„ ๋•Œ์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋Š” ๊ทน๋ช…ํ–ˆ๋‹ค. ์ด๋™ ์ค‘์— ๋ฌผ์ฒด๋ฅผ ๊ณ„์† ์‹œ์•ผ์— ๋‹ด๋„๋ก ์œ ๋„๋œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ๋กœ๋ด‡์€, ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ๋๊นŒ์ง€ ์ถ”์ ํ•˜๋Š” ๊ฐ•๊ฑดํ•œ ์‹œ๊ฐ ์ง€๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์ž‘์—… ๋ช…์นญ ์„ฑ๊ณต ์กฐ๊ฑด (Metric) MoMaGen ํ•™์Šต ํ›„ ์„ฑ๊ณต๋ฅ  (D2) ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ ํ–ฅ์ƒ๋„
Pick Cup ์ปต์„ ์•ˆ์ •์ ์œผ๋กœ ํŒŒ์ง€ ๋ฐ ๋ฆฌํ”„ํŒ… 92% +45%
Tidy Table ํ…Œ์ด๋ธ” ์œ„ ๋ฌผ์ฒด๋ฅผ ์ง€์ •๋œ ๋ฐ•์Šค์— ์ •๋ฆฌ 85% +60%
Clean Pan ์ŠคํŽ€์ง€๋กœ ํŒฌ์˜ ์˜ค์—ผ ๋ถ€์œ„๋ฅผ ๋‹ฆ์Œ 78% +52%
Put Dishes Away ์‹๊ธฐ๋ฅผ ์ฐฌ์žฅ์œผ๋กœ ์ด๋™์‹œ์ผœ ์ •๋ ฌ 72% +65%

์ด ๋ฐ์ดํ„ฐ๋Š” MoMaGen์ด ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹จ์ˆœํ•œ ์–‘์  ํŒฝ์ฐฝ์„ ๋„˜์–ด, ํ•™์Šต ๋ชจ๋ธ์ด ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ณต์žก์„ฑ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ โ€™์งˆ์  ๊นŠ์ดโ€™๋ฅผ ์ œ๊ณตํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค.

ํ†ต์ฐฐ: ๋กœ๋ด‡ ๊ณตํ•™์ž๊ฐ€ ์ฃผ๋ชฉํ•ด์•ผ ํ•  MoMaGen์˜ ์„ธ ๊ฐ€์ง€ ์„ ๋ฌผ

MoMaGen์˜ ๋“ฑ์žฅ์€ ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ธฐ๊ฐ€ ํ•˜๋‚˜ ๋” ๋Š˜์–ด๋‚œ ๊ฒƒ ์ด์ƒ์˜ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”๋‹ค. ๋กœ๋ด‡ ๊ณตํ•™์˜ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•ด ์ด ์—ฐ๊ตฌ๊ฐ€ ๋˜์ง€๋Š” ํ†ต์ฐฐ์€ ๋งค์šฐ ๋‚ ์นด๋กญ๋‹ค.

1. ๊ด€์ธก ๊ฐ€๋Šฅ์„ฑ์˜ ๋Šฅ๋™์  ํ™•๋ณด

๊ทธ๋™์•ˆ ๋งŽ์€ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ๋“ค์€ โ€œ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฐ€์ •์„ ๋„ˆ๋ฌด ์‰ฝ๊ฒŒ ํ•ด์™”๋‹ค. ํ•˜์ง€๋งŒ ์ด๋™ ๋กœ๋ด‡์—๊ฒŒ ๊ฐ€์‹œ์„ฑ์€ ์ฃผ์–ด์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์Ÿ์ทจํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. MoMaGen์€ ๊ฐ€์‹œ์„ฑ์„ ์ œ์•ฝ ์กฐ๊ฑด ์ตœ์ ํ™”์˜ ํ•ต์‹ฌ ์š”์†Œ๋กœ ๋Œ์–ด๋“ค์ž„์œผ๋กœ์จ, ๋กœ๋ด‡์ด ์Šค์Šค๋กœ โ€œ์ž˜ ๋ณด๊ธฐ ์œ„ํ•ด ์–ด๋””๋กœ ์›€์ง์—ฌ์•ผ ํ•˜๋Š”๊ฐ€โ€๋ฅผ ๋ฐ์ดํ„ฐ ์ฐจ์›์—์„œ ํ•ด๊ฒฐํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค. ์ด๋Š” ๋ถ€๋ถ„ ๊ด€์ธก์„ฑ(Partial Observability)์ด ์ง€๋ฐฐํ•˜๋Š” ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ๋กœ๋ด‡์ด ์‚ด์•„๋‚จ๊ธฐ ์œ„ํ•œ ๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ธ ์ฒด๋ ฅ์„ ๊ธธ๋Ÿฌ์ฃผ๋Š” ๋ฐฉ์‹์ด๋‹ค.

2. ๊ธฐํ•˜ํ•™์  ์ง€๋Šฅ๊ณผ ํ™•๋ฅ ์  ์ผ๋ฐ˜ํ™”์˜ ๊ฒฐํ•ฉ

๋กœ๋ด‡์ด ์ƒˆ๋กœ์šด ์žฅ์†Œ์—์„œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ธฐํ•˜ํ•™์  ์ดํ•ด(IK, Planning)์™€ ํ™•๋ฅ ์  ํŒจํ„ด ์ธ์‹(Policy Learning)์ด ๋ชจ๋‘ ํ•„์š”ํ•˜๋‹ค. MoMaGen์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ๋Š” ์—„๊ฒฉํ•œ ๊ธฐํ•˜ํ•™์  ์ œ์•ฝ(IK, Collision)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ๋ณด์žฅํ•˜๊ณ , ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์–ด์ง„ โ€™๊นจ๋—ํ•œ ๋ฐ์ดํ„ฐโ€™๋ฅผ ์‹ ๊ฒฝ๋ง์— ์ฃผ์ž…ํ•˜์—ฌ ์‹ ๊ฒฝ๋ง์ด ๋„“์€ ๋ฒ”์œ„์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•œ๋‹ค. ์ฆ‰, โ€œ๊ธฐํ•˜ํ•™์œผ๋กœ ์ •๋‹ต์„ ๋งŒ๋“ค๊ณ , ๋”ฅ๋Ÿฌ๋‹์œผ๋กœ ๊ทธ ์ •๋‹ต์˜ ์˜์—ญ์„ ๋„“ํžŒ๋‹คโ€๋Š” ์ „๋žต์ด๋‹ค.

3. Sim-to-Real์˜ ํŠผํŠผํ•œ ๊ต๋Ÿ‰

์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ 1,000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๋Š” ๊ฒƒ์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ํ•˜์ง€๋งŒ MoMaGen์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ 1,000๊ฐœ๋ฅผ ๋งŒ๋“ค๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์ด ๊ธฐ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ•์น™๊ณผ ์‹œ๊ฐ์  ๋Œ€์‘๋ฒ•์„ ์ตํžˆ๊ฒŒ ํ•œ ๋’ค, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋‹จ 40๊ฐœ์˜ ์‹œ์—ฐ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •์„ ๊ฑฐ์น˜๋ฉด ๋กœ๋ด‡์€ ๋†€๋ผ์šด ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ธํ•ด ์—ฐ๊ตฌ์‹ค ๋ฐ–์„ ๋‚˜๊ฐ€์ง€ ๋ชปํ•˜๋˜ ๋งŽ์€ ๋กœ๋ด‡ ๋ชจ๋ธ๋“ค์ด ํ˜„์‹ค ์„ธ๊ณ„๋กœ ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ๋Š” ์‹ค์งˆ์ ์ธ ํ‹ฐ์ผ“์„ ๊ฑฐ๋จธ์ฅ์—ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

ํ•œ๊ณ„์™€ ๋น„ํŒ์  ๊ณ ์ฐฐ: ๋‚จ๊ฒจ์ง„ ๊ณผ์ œ๋“ค

๋ชจ๋“  ๊ธฐ์ˆ ์  ๋„์•ฝ์—๋Š” ๋Œ€๊ฐ€๊ฐ€ ๋”ฐ๋ฅด๋ฉฐ, MoMaGen ์—ญ์‹œ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ์ˆ™์ œ๋“ค์„ ์•ˆ๊ณ  ์žˆ๋‹ค.

์ฒซ์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์ถฉ์‹ค๋„(Fidelity) ๋ฌธ์ œ๋‹ค. MoMaGen์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‚ด์—์„œ ๋ฌผ์ฒด์˜ ์œ„์น˜์™€ ์ƒํƒœ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์•Œ๊ณ  ์žˆ๋‹ค๋Š” ๊ฐ€์ •(Ground Truth) ํ•˜์— ์ž‘๋™ํ•œ๋‹ค. ๋งŒ์•ฝ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋ฌผ๋ฆฌ ์—”์ง„์ด ํ˜„์‹ค์˜ ๋ฏธ๋ฌ˜ํ•œ ๋งˆ์ฐฐ๋ ฅ์ด๋‚˜ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ๋ฌผ์ฒด์˜ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋ฉด, ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋Š” ์˜คํžˆ๋ ค ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ๋…์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ์ตœ๊ทผ 3D Gaussian Splatting์ด๋‚˜ MLLM์„ ํ™œ์šฉํ•ด ๋” ์ •๊ตํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž์‚ฐ์„ ๋งŒ๋“ค๋ ค๋Š” ์‹œ๋„๋“ค(์˜ˆ: RoboSimGS)์ด MoMaGen๊ณผ ๊ฒฐํ•ฉ๋˜์–ด์•ผ ํ•˜๋Š” ์ด์œ ๋‹ค.

๋‘˜์งธ, ํ•˜์œ„ ์ž‘์—… ์ฃผ์„์˜ ์ˆ˜๋™์„ฑ์ด๋‹ค. ๋น„๋ก ๋‹จ ํ•œ ๋ฒˆ์˜ ์‹œ์—ฐ๋งŒ ํ•„์š”ํ•˜๋‹ค๊ณ ๋Š” ํ•˜์ง€๋งŒ, ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์˜์ƒ์˜ ํƒ€์ž„์Šคํƒฌํ”„๋ฅผ ์ฐ๊ณ  ๋ฌผ์ฒด ์ด๋ฆ„์„ ์ž…๋ ฅํ•˜๋Š” ๊ณผ์ •์€ ์—ฌ์ „ํžˆ ๋ฒˆ๊ฑฐ๋กญ๋‹ค. ํ–ฅํ›„์—๋Š” ๋น„๋””์˜ค ์–ธ์–ด ๋ชจ๋ธ(Video-Language Models)์ด ์‹œ์—ฐ ์˜์ƒ์„ ๋ณด๊ณ  ์ž๋™์œผ๋กœ MoMaGen์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ฃผ์„์„ ๋‹ฌ์•„์ฃผ๋Š” ์™„์ „ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์ด ๊ตฌ์ถ•๋˜์–ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค.

์…‹์งธ, ๊ณ ์ •๋œ ์ œ์•ฝ ์กฐ๊ฑด์˜ ๊ฒฝ์ง์„ฑ์ด๋‹ค. ํ˜„์žฌ MoMaGen์€ ๋ฏธ๋ฆฌ ์ •์˜๋œ ํ•˜๋“œ/์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์„ ์‚ฌ์šฉํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์–ด๋–ค ์ž‘์—…์—์„œ๋Š” ๊ฐ€์‹œ์„ฑ๋ณด๋‹ค ์•ˆ์ •์„ฑ์ด ๋” ์ค‘์š”ํ•  ์ˆ˜ ์žˆ๊ณ , ์–ด๋–ค ์ž‘์—…์—์„œ๋Š” ์—๋„ˆ์ง€ ํšจ์œจ์ด ์ตœ์šฐ์„ ์ผ ์ˆ˜ ์žˆ๋‹ค. ๋กœ๋ด‡์ด ์ž‘์—…์˜ ์„ฑ๊ฒฉ์— ๋”ฐ๋ผ ์Šค์Šค๋กœ ์ œ์•ฝ ์กฐ๊ฑด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆํ•˜๋Š” ์ƒ์œ„ ์ˆ˜์ค€์˜ ์ง€๋Šฅ์ด ์ถ”๊ฐ€๋œ๋‹ค๋ฉด ์‹œ์Šคํ…œ์€ ๋”์šฑ ๊ฐ•๋ ฅํ•ด์งˆ ๊ฒƒ์ด๋‹ค.

๊ฒฐ๋ก : ๋ฐ์ดํ„ฐ๊ฐ€ ์ง€๋Šฅ์„ ๋งŒ๋“œ๋Š” ์‹œ๋Œ€๋กœ์˜ ๊ฐ€์†

MoMaGen ์—ฐ๊ตฌ๋Š” ์ด๋™ ์กฐ์ž‘ ๋กœ๋ด‡ ํ•™์Šต์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ โ€™๋ฐ์ดํ„ฐ ์ˆ˜์ง‘โ€™์—์„œ โ€™๋ฐ์ดํ„ฐ ์ƒ์„ฑโ€™์œผ๋กœ ๊ทผ๋ณธ์ ์œผ๋กœ ์ „ํ™˜์‹œ์ผฐ๋‹ค. โ€œ๋” ๋งŽ์€ ์‹œ์—ฐ์„ ๋ณด์—ฌ๋‹ฌ๋ผโ€๊ณ  ์• ๊ฑธํ•˜๋˜ ๋กœ๋ด‡์ด ์ด์ œ๋Š” โ€œํ•œ ๋ฒˆ๋งŒ ๋ณด์—ฌ์ฃผ๋ฉด ๋‚˜๋จธ์ง€๋Š” ๋‚ด๊ฐ€ ์•Œ์•„์„œ ๋ฌผ๋ฆฌ ๋ฒ•์น™์— ๋งž๊ฒŒ ์ˆ˜๋งŒ ๊ฐ€์ง€ ์ƒํ™ฉ์„ ์—ฐ์Šตํ•ด ๋ณด๊ฒ ๋‹คโ€๊ณ  ์„ ์–ธํ•œ ์…ˆ์ด๋‹ค.

์ด ์—ฐ๊ตฌ๊ฐ€ ๋ณด์—ฌ์ค€ ์ œ์•ฝ ์กฐ๊ฑด ์ตœ์ ํ™” ๊ธฐ๋ฐ˜์˜ ์ ‘๊ทผ๋ฒ•์€ ๋กœ๋ด‡ ๊ณตํ•™์˜ ๊ณ ์ „์ ์ธ ๊ธฐ๊ตฌํ•™์  ์ง€์‹๊ณผ ํ˜„๋Œ€์˜ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์ด ์–ด๋–ป๊ฒŒ ์•„๋ฆ„๋‹ต๊ฒŒ ์กฐํ™”๋ฅผ ์ด๋ฃฐ ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์™„๋ฒฝํ•œ ์‚ฌ๋ก€๋‹ค. ํ•˜๋“œ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ํ˜„์‹ค์˜ ์—„๊ฒฉํ•จ์„ ๊ฐ€๋ฅด์น˜๊ณ , ์†Œํ”„ํŠธ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ์ž‘์—…์˜ ์œ ์—ฐํ•จ์„ ๊ฐ€๋ฅด์น˜๋Š” MoMaGen์˜ ๋ฐฉ์‹์€ ๋‹จ์ˆœํžˆ ์–‘ํŒ” ๋กœ๋ด‡์„ ๋„˜์–ด, ๋‹ค์กฑ ๋ณดํ–‰ ๋กœ๋ด‡์ด๋‚˜ ๋“œ๋ก  ๋“ฑ ์‹œ๊ฐ๊ณผ ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์ด ํ•„์š”ํ•œ ๋ชจ๋“  ๋กœ๋ด‡ ํ”Œ๋žซํผ์œผ๋กœ ํ™•์žฅ๋  ์ž ์žฌ๋ ฅ์ด ํฌ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ด์ œ ๋กœ๋ด‡์ด ์ˆ˜์ฒœ ๊ฐ€์ง€ ๊ฐ€์‚ฌ ๋…ธ๋™์„ ์Šค์Šค๋กœ ์ตํžˆ๊ณ , ๊ณต์žฅ์—์„œ ์ƒˆ๋กœ์šด ๊ณต์ •์„ ๋ช‡ ๋ถ„ ๋งŒ์— ํ•™์Šตํ•˜๋Š” ์‹œ๋Œ€๋ฅผ ๋ชฉ์ „์— ๋‘๊ณ  ์žˆ๋‹ค. MoMaGen์€ ๊ทธ ์‹œ๋Œ€๋ฅผ ํ–ฅํ•ด ๋‚ด๋”›๋Š” ๋งค์šฐ ์ค‘์š”ํ•˜๊ณ ๋„ ์˜๋ฆฌํ•œ ํ•œ ๊ฑธ์Œ์ด๋‹ค. ๋กœ๋ด‡ ๊ณตํ•™์ž๋“ค์—๊ฒŒ ์ด ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์„œ๋Š” ๋ฐฉ๋ฒ•๋ก ์  ์˜๊ฐ์„ ์ฃผ๋Š” ๋™์‹œ์—, ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์˜ ์ œ์•ฝ ์กฐ๊ฑด์„ ์ˆ˜ํ•™์  ์ถ•๋ณต์œผ๋กœ ๋ฐ”๊พธ๋Š” ์ง€ํ˜œ๋ฅผ ์„ ์‚ฌํ•˜๊ณ  ์žˆ๋‹ค.

์ด๋™ ์กฐ์ž‘์˜ ๋‚œ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด ๋กœ๋ด‡์˜ ์ „์‹ ์„ ๊ณ ๋ฏผํ•˜๊ณ , ์นด๋ฉ”๋ผ์˜ ์‹œ์„ ์„ ์ œ์•ฝ ์กฐ๊ฑด์œผ๋กœ ์ •๋Ÿ‰ํ™”ํ•œ MoMaGen์˜ ์‹œ๋„๋Š” ์•ž์œผ๋กœ ๋“ฑ์žฅํ•  ์ˆ˜๋งŽ์€ โ€™๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์—”์ง„โ€™์˜ ํ‘œ์ค€ ๋ชจ๋ธ๋กœ ์ž๋ฆฌ ์žก์„ ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณง ์ง€๋Šฅ์˜ ์ฒ™๋„๊ฐ€ ๋˜๋Š” ์‹œ๋Œ€์—, MoMaGen์€ ๋กœ๋ด‡์—๊ฒŒ ๋งˆ๋ฅด์ง€ ์•Š๋Š” ์ง€์‹์˜ ์ƒ˜์„ ์ œ๊ณตํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ์ด ๋  ๊ฒƒ์ž„์ด ๋ถ„๋ช…ํ•˜๋‹ค.

Copyright 2026, JungYeon Lee