Curieux.JY
  • JungYeon Lee
  • Post
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • SERNF: ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์†์žฌ์ฃผ ์ •์ฑ…์„ โ€œ์กฐ๊ธˆ์˜ ๋ฐ์ดํ„ฐ๋กœโ€ ๋‹ค๋“ฌ๋Š” ๋ฒ•
    • ์„œ๋ก : ์™œ โ€œ๊ฑฐ์˜ ๋˜๋Š” ์ •์ฑ…โ€์ด ๋๊นŒ์ง€ ์•ˆ ๊ฐ€๋Š”๊ฐ€
    • ๋ฐฐ๊ฒฝ: NF์™€ ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์„ ์ง๊ด€์œผ๋กœ ๋จผ์ € ์žก๊ธฐ
      • ์ •๊ทœํ™” ํ๋ฆ„: โ€œ๋˜๊ฐ์„ ์ˆ˜ ์žˆ๋Š” ์ฐฐํ™โ€
      • ์•ก์…˜ ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ: โ€œ์•ˆ๋ฌด ํ•œ ์†Œ์ ˆ์„ ํ†ต์งธ๋กœ ์ฑ„์ ํ•˜๊ธฐโ€
    • ๋ฐฉ๋ฒ•: SERNF์˜ ํ•ด๋ถ€๋„
      • ์•กํ„ฐ: ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์ •๊ทœํ™” ํ๋ฆ„
      • ํฌ๋ฆฌํ‹ฑ: ํšŒ๊ท€๊ฐ€ ์•„๋‹ˆ๋ผ ๋ถ„๋ฅ˜๋กœ ๊ฐ€์น˜๋ฅผ ๋ฐฐ์šด๋‹ค
      • ๊ด€์ธก์— โ€œ์•„์ง ์‹คํ–‰ ์•ˆ ํ•œ ์•ก์…˜โ€์„ ๋„ฃ๋Š”๋‹ค: RTC
      • 4๋‹จ๊ณ„ ํ•™์Šต ๋ ˆ์‹œํ”ผ
    • ์‹คํ—˜: ๋‘ ๊ฐœ์˜ ๊นŒ๋‹ค๋กœ์šด ์‹ค์ œ ๊ณผ์ œ
      • ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ํ•ต์‹ฌ ๊ฒฐ๊ณผ
      • ์ ˆ์ œ ์—ฐ๊ตฌ (Ablations)
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ํ•œ๊ณ„
      • ๊ฐ•์ 
      • ํ•œ๊ณ„ (์ €์ž๋“ค์ด ์ง์ ‘ ๋ฐํžŒ ๊ฒƒ ํฌํ•จ)
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒSERNF

rl
dexterous
fine-tuning
Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows
Published

April 5, 2026

  • Paper Link
  • Project Page

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

SERNF: ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์†์žฌ์ฃผ ์ •์ฑ…์„ โ€œ์กฐ๊ธˆ์˜ ๋ฐ์ดํ„ฐ๋กœโ€ ๋‹ค๋“ฌ๋Š” ๋ฒ•

ํ•œ ์ค„๋กœ ์š”์•ฝํ•˜๋ฉด ์ด๋ ‡๋‹ค. SERNF๋Š” ์‹ค์ œ ๋กœ๋ด‡์—์„œ ์‚ฌ์ „ํ•™์Šต๋œ ์†์žฌ์ฃผ(dexterous) ์ •์ฑ…์„, ์ ์€ ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์‚ฐ์œผ๋กœ ์•ˆ์ •์ ์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •(fine-tuning)ํ•˜๋Š” ์˜คํ”„-ํด๋ฆฌ์‹œ ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ํ•ต์‹ฌ ๋ฌด๊ธฐ๋Š” ๋‘ ๊ฐ€์ง€๋‹ค. (1) ์ •์ฑ…์„ ์ •๊ทœํ™” ํ๋ฆ„(Normalizing Flow, NF)์œผ๋กœ ํ‘œํ˜„ํ•ด ์ •ํ™•ํ•œ ๋กœ๊ทธ์šฐ๋„๋ฅผ ์–ป๊ณ , (2) ํ•œ ์Šคํ…์ด ์•„๋‹ˆ๋ผ ์•ก์…˜ ์ฒญํฌ(action chunk) ์ „์ฒด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ํฌ๋ฆฌํ‹ฑ์„ ๋‘”๋‹ค. ์ด ๋‘ ์กฐ๊ฐ์ด ๋งž๋ฌผ๋ฆฌ๋ฉด, ๋””ํ“จ์ „ ์ •์ฑ…์œผ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ๋ณด์ˆ˜์ (conservative) ์šฐ๋„ ์ •๊ทœํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง€๊ณ , ์ฒญํฌ ๋‹จ์œ„ ์‹คํ–‰๊ณผ ๊ฐ€์น˜ ์ถ”์ •์˜ ๋ฐ•์ž๊ฐ€ ๋งž์•„ ํฌ๋ ˆ๋”ง ํ• ๋‹น(credit assignment)์ด ๊น”๋”ํ•ด์ง„๋‹ค.

์ €์ž๋Š” ETH ์ทจ๋ฆฌํžˆ Soft Robotics Lab์˜ Chenyu Yang, Denis Tarasov(๊ณต๋™ 1์ €์ž), Davide Liconti, Hehui Zheng, Robert K. Katzschmann์ด๋‹ค. ๋…ผ๋ฌธ์€ ๋‘ ๊ฐœ์˜ ์‹ค์ œ ๊ณผ์ œ(์ผ€์ด์Šค์—์„œ ๊ฐ€์œ„๋ฅผ ๊บผ๋‚ด ํ…Œ์ดํ”„๋ฅผ ์ž๋ฅด๊ธฐ, ์†๋ฐ”๋‹ฅ์„ ์•„๋ž˜๋กœ ํ–ฅํ•œ ์ฑ„ ํ๋ธŒ๋ฅผ ์†์•ˆ์—์„œ ํšŒ์ „์‹œํ‚ค๊ธฐ)์—์„œ ๊ฒ€์ฆํ•œ๋‹ค. ๋‘˜ ๋‹ค ๊ธธ๊ณ (long-horizon), ๊ณ ์ฐจ์›์ด๋ฉฐ, ์ ‘์ด‰๊ณผ ํƒ€์ด๋ฐ์˜ ์ž‘์€ ์˜ค์ฐจ์— ๋ฏผ๊ฐํ•˜๋‹ค. ์†์žฌ์ฃผ ์—ฐ๊ตฌ๋ฅผ ํ•˜๋Š” ์‚ฌ๋žŒ์ด๋ผ๋ฉด ์ต์ˆ™ํ•œ ๋ฐ”๋กœ ๊ทธ โ€œ๊ฑฐ์˜ ๋˜๋Š”๋ฐ ๋๊นŒ์ง€๋Š” ์•ˆ ๋˜๋Š”โ€ ์ •์ฑ…์„ ๋๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์ด๋Š” ์ด์•ผ๊ธฐ๋‹ค.


์„œ๋ก : ์™œ โ€œ๊ฑฐ์˜ ๋˜๋Š” ์ •์ฑ…โ€์ด ๋๊นŒ์ง€ ์•ˆ ๊ฐ€๋Š”๊ฐ€

์š”์ฆ˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์€ ๋Œ€๊ทœ๋ชจ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ๊ณ ์šฉ๋Ÿ‰ ๋น„์ฃผ์–ผ๋ชจํ„ฐ ์ •์ฑ…์— ํฌ๊ฒŒ ๊ธฐ๋Œ„๋‹ค. ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ๋Š” ์ธ์ƒ์ ์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‹ค์ œ ํ˜„์žฅ์— ๋‚ด๋ ค๋†“์œผ๋ฉด ๋ฌด๋„ˆ์ง„๋‹ค. ๋ชจ๋ธ๋ง๋˜์ง€ ์•Š์€ ๋™์—ญํ•™, ํ•˜๋“œ์›จ์–ด ์˜ค์ฐจ, ์นด๋ฉ”๋ผ ๋“œ๋ฆฌํ”„ํŠธ, ๋„๋ฉ”์ธ ์‹œํ”„ํŠธ (๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋•Œ ๋ฏธ์ฒ˜ ๋ชป ์žก์€ ๊ณผ์ œ๋ณ„ ๋ณ€์ˆ˜๋“ค)๊ฐ€ ์Œ“์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ด ๋ฌธ์ œ๋Š” ์†์žฌ์ฃผ๊ฐ€ ํ•„์š”ํ•œ ์ •๋ฐ€ ๊ณผ์ œ์—์„œ ํŠนํžˆ ์‹ฌํ•˜๋‹ค. ์–‘์งˆ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๋Š” ๋น„์šฉ์ด ์žฅ๋น„์™€ ์‹œ๊ฐ„ ์–‘์ชฝ์—์„œ ๋น„์‹ธ๋‹ค. ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ž์ฒด๊ฐ€ ์–ด๋ ต๊ณ , ์ˆ™๋ จ์ด ํ•„์š”ํ•˜๊ณ , ์ ‘์ด‰ยทํƒ€์ด๋ฐ์˜ ๋ฏธ์„ธํ•œ ๋ณ€ํ™”์— ๋ฏผ๊ฐํ•˜๋‹ค. ๊ทธ๋ž˜์„œ ํ˜„์‹ค์˜ ๋กœ๋ด‡๊ณตํ•™์ž๋Š” ์ž์ฃผ โ€œ๊ฑฐ์˜ ๋˜๋Š”(almost works)โ€ ์ •์ฑ…์„ ๋ฐฐํฌํ•œ๋‹ค. ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ์›€์ง์ด์ง€๋งŒ ์‹ค์ „์—์„œ ์š”๊ตฌํ•˜๋Š” ์‹ ๋ขฐ๋„์™€ ์„ฑ๊ณต๋ฅ ์—๋Š” ๋ชป ๋ฏธ์นœ๋‹ค.

SERNF์˜ ์ถœ๋ฐœ์ ์€ ์ฃผ๋ฅ˜์™€ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์ด๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ชจ์œผ๋Š” ๋Œ€์‹ , ์ ์€ ๊ณผ์ œ๋ณ„ ๋ฐ์ดํ„ฐ์—์„œ ๋ฏธ์„ธ์กฐ์ •์œผ๋กœ ์ตœ๋Œ€์น˜๋ฅผ ์งœ๋‚ธ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ ์‹œ๊ฐ„์€ ๋น„์‹ธ๋ฏ€๋กœ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋น ๋“ฏํ•œ ์˜ˆ์‚ฐ ์•ˆ์—์„œ ๊ตด๋Ÿฌ์•ผ ํ•˜๊ณ  ์ˆ˜์ง‘ํ•œ ์ƒ˜ํ”Œ ํ•œ ํ†จ๊นŒ์ง€ ๋‹ค ์จ๋จน์–ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  RL ์—…๋ฐ์ดํŠธ๋ฅผ ํ•˜๋ ค๋ฉด ์ •์ฑ…์ด ํ™•๋ฅ ์ ์œผ๋กœ ์ •์‹ํ™”๋ผ์•ผ ํ•œ๋‹ค. ์šฐ๋„ ๊ธฐ๋ฐ˜ ๋ชฉ์ ํ•จ์ˆ˜๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ๊ธฐ์กด ๋„๊ตฌ๋“ค์˜ ํ•œ๊ณ„๊ฐ€ ๋“œ๋Ÿฌ๋‚œ๋‹ค.

  • ๋””ํ“จ์ „/ํ”Œ๋กœ์šฐ ๋งค์นญ ์ •์ฑ…: ํ‘œํ˜„๋ ฅ์ด ์ข‹์•„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(multimodal) ์•ก์…˜ ๋ถ„ํฌ๋ฅผ ์ž˜ ์žก๋Š”๋‹ค. ํ•˜์ง€๋งŒ ์•ก์…˜์˜ ํ™•๋ฅ (์šฐ๋„)์ด ๋‹ค๋ฃจ๊ธฐ ์–ด๋ ต๋‹ค(intractable). ์šฐ๋„๋ฅผ ๋ชป ๊ตฌํ•˜๋ฉด โ€œ์ดˆ๊ธฐ ์ •์ฑ…์—์„œ ๋„ˆ๋ฌด ๋ฉ€์–ด์ง€์ง€ ๋งˆโ€๋ผ๋Š” ๋ณด์ˆ˜์  ์ •๊ทœํ™”๋ฅผ ๊ฑธ ์ˆ˜๊ฐ€ ์—†๋‹ค. ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•  ๋•Œ ์ด๊ฑด ์น˜๋ช…์ ์ด๋‹ค.
  • ๊ฐ€์šฐ์‹œ์•ˆ ์ •์ฑ…: ์šฐ๋„๋Š” ์‰ฝ๊ฒŒ ๋‚˜์˜จ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒํ™ฉ์—์„œ ๋ถ•๊ดดํ•œ๋‹ค. โ€œ์žฅ์• ๋ฌผ์„ ์™ผ์ชฝ์œผ๋กœ ๋Œ๋“  ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๋Œ๋“  ๋‘˜ ๋‹ค ์ •๋‹ตโ€์ธ ์ƒํ™ฉ์—์„œ ๊ฐ€์šฐ์‹œ์•ˆ์€ ๊ทธ ๋‘˜์˜ ํ‰๊ท ์„ ๋ฑ‰๋Š”๋‹ค. ํ‰๊ท ์€ ์ •์ค‘์•™, ์ฆ‰ ์žฅ์• ๋ฌผ์— ๋ฐ•๋Š” ๊ฒฝ๋กœ๋‹ค. ์•ก์…˜์„ ์ฒญํฌ๋กœ ๋ฌถ์–ด ์‹คํ–‰ํ•˜๋ฉด ์ด ๋ถ•๊ดด๊ฐ€ ๋” ์‹ฌํ•ด์ง„๋‹ค.
  • ์Šคํ… ๋‹จ์œ„ ํฌ๋ฆฌํ‹ฑ: ์ •์ฑ…์€ ์ฒญํฌ๋กœ ํ–‰๋™ํ•˜๋Š”๋ฐ ํฌ๋ฆฌํ‹ฑ์€ ํ•œ ์Šคํ…์”ฉ ํ‰๊ฐ€ํ•œ๋‹ค. ๋ฐ•์ž๊ฐ€ ์•ˆ ๋งž์œผ๋‹ˆ ์žฅ๊ธฐ ํฌ๋ ˆ๋”ง ํ• ๋‹น์ด ์—‰ํ‚จ๋‹ค.

SERNF๋Š” ์ด ์„ธ ๊ตฌ๋ฉ์„ ํ•œ ๋ฒˆ์— ๋ง‰๋Š”๋‹ค. ์ •์ฑ…์€ NF๋กœ(ํ‘œํ˜„๋ ฅ + ์ •ํ™•ํ•œ ์šฐ๋„), ํฌ๋ฆฌํ‹ฑ์€ ์ฒญํฌ ๋‹จ์œ„๋กœ(์‹คํ–‰ ๊ตฌ์กฐ์™€ ์ •๋ ฌ). ์ €์ž๋“ค์˜ ํ‘œํ˜„์„ ๋นŒ๋ฆฌ๋ฉด, ์‹ค์ œ ํ•˜๋“œ์›จ์–ด์—์„œ ์šฐ๋„ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ ์ •์ฑ…๊ณผ ์ฒญํฌ ๋‹จ์œ„ ๊ฐ€์น˜ ํ•™์Šต์„ ๊ฒฐํ•ฉํ•œ ์ตœ์ดˆ์˜ ์‚ฌ๋ก€๋‹ค.

๊ธฐ์—ฌ๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ์„ธ ๊ฐ€์ง€๋‹ค.

  1. ์ •๊ทœํ™” ํ๋ฆ„ ์ •์ฑ… + ์•ก์…˜-์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์„ ๊ฒฐํ•ฉํ•œ, ์‹ค์ œ ๋น„์ฃผ์–ผ๋ชจํ„ฐ ์ œ์–ด์šฉ RL ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฒ•.
  2. ์ ์€ ์˜จ-๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ์‹ค์šฉ์  ํ•™์Šต ๋ ˆ์‹œํ”ผ (์ดˆ๊ธฐ ์ •์ฑ…์œผ๋กœ์˜ ๋ณด์ˆ˜์  ์ •๊ทœํ™” ํฌํ•จ).
  3. ๋Œ€ํ‘œ์ ์ธ ์†์žฌ์ฃผยท์ •๋ฐ€ ์‹ค์ œ ๊ณผ์ œ์—์„œ์˜ ์‹ค์ฆ๊ณผ, ์ฒญํฌ ๊ธธ์ดยทํฌ๋ฆฌํ‹ฑ ์„ค๊ณ„์˜ ์˜ํ–ฅ ๋ถ„์„.

๋ฐฐ๊ฒฝ: NF์™€ ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์„ ์ง๊ด€์œผ๋กœ ๋จผ์ € ์žก๊ธฐ

๋ณธ๊ฒฉ์ ์œผ๋กœ ๋“ค์–ด๊ฐ€๊ธฐ ์ „์—, ์ด ๋…ผ๋ฌธ์„ ๋– ๋ฐ›์น˜๋Š” ๋‘ ๊ฐœ๋…์„ ๋น„์œ ๋กœ ๊น”์•„๋‘์ž. ์ˆ˜์‹์€ ๊ทธ๋‹ค์Œ์— ๋ณด๋ฉด ํ›จ์”ฌ ํŽธํ•˜๋‹ค.

์ •๊ทœํ™” ํ๋ฆ„: โ€œ๋˜๊ฐ์„ ์ˆ˜ ์žˆ๋Š” ์ฐฐํ™โ€

๊ฐ€์šฐ์‹œ์•ˆ์ฒ˜๋Ÿผ ๋‹จ์ˆœํ•œ ๋ถ„ํฌ์—์„œ ์‹œ์ž‘ํ•ด, ๊ฐ€์—ญ(invertible) ๋ณ€ํ™˜์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์Œ“์•„ ๋ณต์žกํ•œ ๋ถ„ํฌ๋กœ ์ฃผ๋ฌผ๋Ÿฌ๋‚ด๋Š” ๊ฒƒ์ด NF๋‹ค. ํ•ต์‹ฌ์€ ๊ฐ€์—ญ์ด๋ผ๋Š” ์ ์ด๋‹ค. ์ฐฐํ™์„ ์–ด๋–ค ๋ชจ์–‘์œผ๋กœ ๋นš์—ˆ๋“ , ์ •ํ™•ํžˆ ๊ฑฐ๊พธ๋กœ ๋˜๊ฐ์•„ ์›๋ž˜์˜ ๋‹จ์ˆœํ•œ ๋ฉ์–ด๋ฆฌ๋กœ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋นš๋Š” ๊ณผ์ •์—์„œ โ€œ์–ผ๋งˆ๋‚˜ ๋Š˜์ด๊ณ  ์ค„์˜€๋Š”์ง€โ€๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค (์ด๊ฒŒ ์•ผ์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์‹์ด๋‹ค). ์ด ๋Š˜์ž„/์ค„์ž„ ์–‘์„ ์•Œ๋ฉด, ์ž„์˜์˜ ์•ก์…˜์ด ์–ผ๋งˆ๋‚˜ ๊ทธ๋Ÿด๋“ฏํ•œ์ง€ ์ •ํ™•ํ•œ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด โ€œ์ •ํ™•ํ•œ ์šฐ๋„โ€๊ฐ€ ์™œ ๊ทธ๋ ‡๊ฒŒ ์ค‘์š”ํ•œ๊ฐ€? ๋””ํ“จ์ „์€ ์ฃผ์‚ฌ์œ„๋ฅผ ๊ตด๋ ค ์ƒ˜ํ”Œ์€ ์ž˜ ๋ฝ‘์ง€๋งŒ โ€œ์ด ๋ˆˆ์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ์ •ํ™•ํžˆ ์–ผ๋งˆโ€์ธ์ง€๋Š” ๋ชป ๋งํ•ด์ฃผ๋Š” ๊ธฐ๊ณ„๋‹ค. NF๋Š” ์ƒ˜ํ”Œ๋„ ๋ฝ‘๊ณ , ๊ทธ ์ƒ˜ํ”Œ์˜ ํ™•๋ฅ ๋„ ์ •ํ™•ํžˆ ๋งํ•ด์ค€๋‹ค. ๋ฏธ์„ธ์กฐ์ •์—์„œ โ€œ์ƒˆ ์ •์ฑ…์•„, ์‹œ์—ฐํ–ˆ๋˜ ํ–‰๋™์—์„œ ๋„ˆ๋ฌด ๋ฉ€์–ด์ง€์ง€ ๋งˆโ€๋ผ๊ณ  ์ค„์„ ๋งค๋ ค๋ฉด ๋ฐ”๋กœ ์ด ํ™•๋ฅ ๊ฐ’์ด ํ•„์š”ํ•˜๋‹ค.

๋ณ€์ˆ˜ ๋ณ€ํ™˜ ๊ณต์‹์ด ์ด ๋ชจ๋“  ๊ฑธ ํ•œ ์ค„๋กœ ์ ๋Š”๋‹ค.

\log p_\theta(z_K \mid c) = \log p_0(z_0) - \sum_{k=1}^{K} \log\left| \det \frac{\partial f_k(\cdot;c)}{\partial z_{k-1}} \right|

์ฝ๋Š” ๋ฒ•์€ ์ด๋ ‡๋‹ค. ์ตœ์ข… ์•ก์…˜ z_K์˜ ๋กœ๊ทธํ™•๋ฅ  = ์‹œ์ž‘ ๋ฉ์–ด๋ฆฌ z_0์˜ ๋กœ๊ทธํ™•๋ฅ (์‰ฌ์šด ๊ฐ€์šฐ์‹œ์•ˆ์ด๋ผ ๊ณ„์‚ฐ์ด ์‰ฝ๋‹ค) ๋นผ๊ธฐ ๋ณ€ํ™˜๋งˆ๋‹ค ๋Š˜์ธ ์–‘์˜ ๋ˆ„์ . c๋Š” ์กฐ๊ฑด(๋ณดํ†ต ํ˜„์žฌ ๊ด€์ธก)์ด๋‹ค.

์•ก์…˜ ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ: โ€œ์•ˆ๋ฌด ํ•œ ์†Œ์ ˆ์„ ํ†ต์งธ๋กœ ์ฑ„์ ํ•˜๊ธฐโ€

์š”์ฆ˜ ๋กœ๋ด‡์€ ํ•œ ์Šคํ…์”ฉ์ด ์•„๋‹ˆ๋ผ ์•ก์…˜ ์‹œํ€€์Šค(์ฒญํฌ)๋ฅผ ํ†ต์งธ๋กœ ์˜ˆ์ธกํ•ด ์—ด๋ฆฐ ๋ฃจํ”„(open-loop)๋กœ ์‹คํ–‰ํ•œ๋‹ค. ์ถ”๋ก ์„ ์ ๊ฒŒ ํ•˜๊ณ  ์ œ์–ด ์ฃผํŒŒ์ˆ˜๋ฅผ ๋†’์ด๋ ค๋Š” ์‹ค์šฉ์  ์„ ํƒ์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํ‰๊ฐ€์ž(ํฌ๋ฆฌํ‹ฑ)๊ฐ€ ํ•œ ๋ฐœ์ง์”ฉ ๋”ฐ๋กœ ์ฑ„์ ํ•˜๋ฉด, ์ •์ฑ…์˜ ๋ฐ•์ž์™€ ์–ด๊ธ‹๋‚œ๋‹ค.

๋น„์œ ํ•˜์ž๋ฉด ์ถค์ด๋‹ค. ๋ฌด์šฉ์ˆ˜๋Š” โ€œํ•œ ์†Œ์ ˆ(์ฒญํฌ)โ€์„ ํ•˜๋‚˜์˜ ํ๋ฆ„์œผ๋กœ ์ถ˜๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‹ฌ์‚ฌ์œ„์›์ด ๋ฐœ ๋””๋”ค ํ•˜๋‚˜ํ•˜๋‚˜๋ฅผ ๋”ฐ๋กœ ์ ์ˆ˜ ๋งค๊ธฐ๋ฉด, ์–ด๋А ๋””๋”ค์ด ์ข‹์€ ์•ˆ๋ฌด์— ๊ธฐ์—ฌํ–ˆ๋Š”์ง€ ๋ถ„๊ฐ„์ด ํ๋ ค์ง„๋‹ค. ์†Œ์ ˆ ๋‹จ์œ„๋กœ ์ฑ„์ ํ•˜๋ฉด ๊ฐ€์น˜ ์ •๋ณด๊ฐ€ H ์Šคํ…์„ ํ•œ ๋ฒˆ์— ๊ฑฐ์Šฌ๋Ÿฌ ์ „ํŒŒ๋˜๊ณ , ํฌ๋ ˆ๋”ง ํ• ๋‹น์ด ๋˜๋ ทํ•ด์ง„๋‹ค.

์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์˜ ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Q_\phi(o_k, \mathbf{a}_k) \approx \mathbb{E}\left[ \sum_{i=0}^{H-1} \gamma^i r_{k,i} + \gamma^H V_\phi(o_{k+1}) \right]

o_{k+1}์€ ๋‹ค์Œ ๊ฒฐ์ • ๊ฒฝ๊ณ„์—์„œ์˜ ๊ด€์ธก์ด๋‹ค. ํ•œ ์ฒญํฌ ์•ˆ์˜ ๋ณด์ƒ์„ ํ• ์ธํ•ด ๋”ํ•˜๊ณ , ์ฒญํฌ ๋์—์„œ์˜ ๋ฏธ๋ž˜ ๊ฐ€์น˜๋ฅผ \gamma^H๋กœ ์ด์–ด ๋ถ™์ธ๋‹ค.

์˜คํ”„๋ผ์ธ RL์˜ ๋ฉ€ํ‹ฐ์Šคํ… ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ TD ์†์‹ค์€ ์ด๋ ‡๊ฒŒ ์“ด๋‹ค.

\mathcal{L}_Q(\phi) = \mathbb{E}\left[ \left( Q_\phi(s_t, a_{t:t+H}) - \sum_{\tau=1}^{H} \gamma^\tau r_{t+\tau} - \gamma^H V_{\bar\phi}(s_{t+H}) \right)^2 \right]

๊ทธ๋ฆฌ๊ณ  ์ •์ฑ…์€ โ€œํฌ๋ฆฌํ‹ฑ์„ ์ตœ๋Œ€ํ™”ํ•˜๋˜ ํ–‰๋™ ๋ถ„ํฌ์—์„œ ๋„ˆ๋ฌด ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋Š”๋‹คโ€๋Š” ์ œ์•ฝ ์•„๋ž˜ ๊ฐฑ์‹ ๋œ๋‹ค.

\theta = \arg\max_\theta \; \mathbb{E}_{s_t \sim \mathcal{D}} \, \mathbb{E}_{a \sim \pi_\theta} \left[ Q_{\bar\phi}(s_t, a) \right] \quad \text{s.t.} \quad D(\pi_\theta, \pi_\beta) < \epsilon

์—ฌ๊ธฐ์„œ D๋Š” ๋‹ค์ด๋ฒ„์ „์Šค, \epsilon์€ ์ •๊ทœํ™” ๊ฐ•๋„๋‹ค. NF๊ฐ€ ์ •ํ™•ํ•œ ์šฐ๋„๋ฅผ ์ฃผ๊ธฐ์— ์ด ์ œ์•ฝ์„ ์‹ค์ œ๋กœ ๊ฑธ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ์ด๋‹ค.


๋ฐฉ๋ฒ•: SERNF์˜ ํ•ด๋ถ€๋„

์ „์ฒด ๊ตฌ์กฐ๋ฅผ ๋จผ์ € ๊ทธ๋ฆผ์œผ๋กœ ์žก์ž.

graph LR
  subgraph Actor["Actor: Conditional Normalizing Flow"]
    Z["Base Gaussian z0"] -->|"inverse: latent to action"| A["Action chunk a"]
    A -->|"forward: action to latent"| Z
    OBS1["Observation c = Enc(o)"] -.conditions.-> A
  end
  subgraph Critic["Action-chunked Critic"]
    QIN["o_k, a_k"] --> QNET["Transformer Q-net (HL-Gauss)"]
    QNET --> QVAL["Q-value (min over ensemble)"]
  end
  A -->|"differentiable rollout"| QIN
  QVAL -->|"policy gradient"| A

์•กํ„ฐ๋Š” ์กฐ๊ฑด๋ถ€ NF๋‹ค. ์ˆœ๋ฐฉํ–ฅ(forward) ์œผ๋กœ๋Š” ์•ก์…˜์„ ์ž ์žฌ(latent)๋กœ ๋ณด๋‚ด๋ฉฐ ์ •ํ™•ํ•œ ๋กœ๊ทธ์šฐ๋„๋ฅผ ๋ฝ‘์•„ ํ–‰๋™ ๋ณต์ œ(behavior cloning) ์ง€๋„ํ•™์Šต์— ์“ด๋‹ค. ์—ญ๋ฐฉํ–ฅ(inverse) ์œผ๋กœ๋Š” ๊ฐ€์šฐ์‹œ์•ˆ์—์„œ ๋ฝ‘์€ ์ž ์žฌ๋ฅผ ์™„์ „ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ์—ฐ์‚ฐ์œผ๋กœ ์•ก์…˜์œผ๋กœ ๋ฐ”๊ฟ”, ํฌ๋ฆฌํ‹ฑ์„ ํ†ตํ•œ ๊ทธ๋ž˜๋””์–ธํŠธ ๊ธฐ๋ฐ˜ ์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ์ด ์–‘๋ฐฉํ–ฅ์„ฑ์ด SERNF์˜ ์—”์ง„์ด๋‹ค.

์•กํ„ฐ: ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์ •๊ทœํ™” ํ๋ฆ„

๊ฐ NF ๋ณ€ํ™˜ f_k(\cdot;c)๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ(Jet ์Šคํƒ€์ผ)๋กœ ๊ตฌํ˜„๋˜๊ณ , NinA์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„ RealNVP์‹ ์ปคํ”Œ๋ง ๋ ˆ์ด์–ด(coupling layer)๋ฅผ ์“ด๋‹ค. ๋™์ž‘ ์ˆœ์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ์ •๊ทœํ™”: ์ •๋‹ต ์•ก์…˜์„ ๋ฐ์ดํ„ฐ์…‹ ํ†ต๊ณ„๋กœ [-1, 1]๋กœ ์ •๊ทœํ™”ํ•œ๋‹ค.
  2. ๋…ธ์ด์ฆˆ ์ฃผ์ž…: ์ž‘์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ \mathcal{N}(0, \sigma_\text{noise}^2)๋ฅผ ๋”ํ•œ๋‹ค. ์•ˆ์ •์  ์•ก์…˜ ๋ชจ๋ธ๋ง์— ๊ฒฐ์ •์ ์ด๋ผ๊ณ  ์•Œ๋ ค์ง„ ํŠธ๋ฆญ์ด๋‹ค.
  3. \tanh^{-1} ๋ณ€ํ™˜: ๊ฒฝ๊ณ„๊ฐ€ ์žˆ๋Š” ์•ก์…˜ ๊ณต๊ฐ„์„ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•ด ์›์†Œ๋ณ„๋กœ ์ ์šฉํ•œ๋‹ค.

์ปคํ”Œ๋ง ๋ ˆ์ด์–ด์˜ ํ•ต์‹ฌ ์—ฐ์‚ฐ์€ ์ด๋ ‡๋‹ค. ์ฒญํฌ์˜ ์ž ์žฌ ๋ณ€์ˆ˜ z_k = [\mathbf{z}_1, \dots, \mathbf{z}_H](๊ฐ ์›์†Œ๊ฐ€ ์ฒญํฌ ์•ˆ์˜ ํ•œ ์•ก์…˜)๋ฅผ ๋‘ ๋ถ€๋ถ„ x_{k_1}, x_{k_2}๋กœ ๋ฌด์ž‘์œ„ ๋ถ„ํ• ํ•œ๋‹ค. ์กฐ๊ฑด c ์•„๋ž˜์—์„œ x_{k_1}์„ ๋น„์„ ํ˜• ๋ณ€ํ™˜ g_k(์ž๊ธฐ-์–ดํ…์…˜ + c์™€์˜ ๊ต์ฐจ-์–ดํ…์…˜)์— ํ†ต๊ณผ์‹œ์ผœ ์Šค์ผ€์ผ s์™€ ๋ฐ”์ด์–ด์Šค b๋ฅผ ์–ป๊ณ , ๋‹ค์Œ์˜ ์•„ํ•€ ๋ณ€ํ™˜์„ x_{k_2}์— ๊ฑด๋‹ค.

y1 = x_k1                              # one half passes through unchanged
y2 = exp(tanh(s)) * x_k2 + b           # the other half is affine-transformed
z_{k-1} = concat(y1, y2)               # recombine

y_1์„ ๊ทธ๋Œ€๋กœ ๋‘๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ ํŠธ๋ฆญ์ด๋‹ค. ์ ˆ๋ฐ˜์„ ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š์œผ๋‹ˆ ๊ฐ€์—ญ์„ฑ์ด ๋ณด์žฅ๋˜๊ณ  ์•ผ์ฝ”๋น„์•ˆ ํ–‰๋ ฌ์‹ ๊ณ„์‚ฐ์ด ์‹ธ์ง„๋‹ค (๋Œ€๊ฐ/์‚ผ๊ฐ ๊ตฌ์กฐ). \tanh(s)๋กœ ์Šค์ผ€์ผ์„ ๋ฌถ์–ด ํญ์ฃผ๋ฅผ ๋ง‰๋Š”๋‹ค.

์ถ”๋ก ํ•  ๋•Œ ํ•œ ๊ฐ€์ง€ ๋””ํ…Œ์ผ์ด ํฅ๋ฏธ๋กญ๋‹ค. ํ•™์Šต ๋•Œ ๋ฒ ์ด์Šค ๋ถ„ํฌ๋กœ \mathcal{N}(0, I)๋ฅผ ์“ฐ์ง€๋งŒ, ์ถ”๋ก ์—์„œ๋Š” \mathcal{N}(0, \sigma_\text{sample}^2), \sigma_\text{sample} \le 1๋กœ ์˜จ๋„๋ฅผ ๋‚ฎ์ถฐ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค. ๋” ๊ทธ๋Ÿด๋“ฏํ•œ(๊ณ ํ™•๋ฅ ) ์•ก์…˜์„ ๋ฝ‘์•„ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ์žฅ์น˜๋‹ค. ๋ถ„ํฌ๋ฅผ ์ขํžˆ๋ฉด ํ‰๊ท ์— ๊ฐ€๊นŒ์šด, ์•ˆ์ „ํ•œ ๋ชจ๋“œ๋กœ ์ˆ˜๋ ดํ•œ๋‹ค.

์ˆœ/์—ญ๋ฐฉํ–ฅ ์˜์‚ฌ์ฝ”๋“œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

# Algorithm 1: Normalizing-flow policy over action chunks
Input: observation o, base dist p0(z), invertible flow f_theta(.; o)
c <- Enc(o)

# Forward pass (likelihood evaluation)
z0 <- f_theta(a; c)                                      # actions -> latent
log pi(a|o) <- log p0(z0) + log|det J_{f}(a; c)|

# Inverse pass (action generation)
z0 ~ p0(z)
a  <- f_theta^{-1}(z0; c)                                # latent -> actions
log pi(a|o) <- log p0(z0) - log|det J_{f^{-1}}(z0; c)|

ํฌ๋ฆฌํ‹ฑ: ํšŒ๊ท€๊ฐ€ ์•„๋‹ˆ๋ผ ๋ถ„๋ฅ˜๋กœ ๊ฐ€์น˜๋ฅผ ๋ฐฐ์šด๋‹ค

ํฌ๋ฆฌํ‹ฑ์€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ Q-๋„คํŠธ์›Œํฌ๋กœ ์•ก์…˜-์ฒญํฌ ๊ฐ€์น˜๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ๋‘ ๊ฐ€์ง€ ์•ˆ์ •ํ™” ์žฅ์น˜๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค.

  • HL-Gauss ๋ถ„ํฌ ํŒŒ๋ผ๋ฏธํ„ฐํ™”: Q๊ฐ’์„ ๋‹จ์ผ ์‹ค์ˆ˜๋กœ ํšŒ๊ท€ํ•˜์ง€ ์•Š๊ณ , ๊ฐ’์„ ๋นˆ(bin)์œผ๋กœ ๋‚˜๋ˆˆ ๋ฒ”์ฃผํ˜• ๋ถ„ํฌ๋กœ ๋ณด๊ณ  ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ๋กœ ํ•™์Šตํ•œ๋‹ค. โ€œ๊ฐ’ ํ•จ์ˆ˜ ํšŒ๊ท€ ๋Œ€์‹  ๋ถ„๋ฅ˜โ€๋ผ๋Š” ์ตœ๊ทผ ํ๋ฆ„(Stop Regressing ๋“ฑ)์„ ๋”ฐ๋ฅธ ๊ฒƒ์ด๋‹ค. ํšŒ๊ท€๋Š” ํƒ€๊นƒ์ด ํฌ๊ฒŒ ํ”๋“ค๋ฆฌ๋ฉด ๋ถˆ์•ˆ์ •ํ•œ๋ฐ, ๋ถ„๋ฅ˜๋Š” ๊ทธ ํ”๋“ค๋ฆผ์„ ๋ถ„ํฌ๋กœ ํก์ˆ˜ํ•ด ์Šค์ผ€์ผ์— ๊ฐ•๊ฑดํ•˜๋‹ค.
  • ์•™์ƒ๋ธ” ์ตœ์†Œํ™”: ์—ฌ๋Ÿฌ ํฌ๋ฆฌํ‹ฑ ์˜ˆ์ธก ์ค‘ ์ตœ์†Œ๊ฐ’์„ ์ตœ์ข… Q๋กœ ์“ด๋‹ค. ๊ณผ๋Œ€์ถ”์ •(overestimation) ํŽธํ–ฅ์„ ๋ˆ„๋ฅธ๋‹ค. (TD3/SAC์˜ ๋”๋ธ” Q ํŠธ๋ฆญ๊ณผ ๊ฐ™์€ ์ •์‹ ์ด๋‹ค.)

์ถ”๋ก  ๋•Œ๋Š” ์ •์ฑ…์—์„œ ํ›„๋ณด ์ฒญํฌ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ๋ฝ‘์•„ ํฌ๋ฆฌํ‹ฑ์œผ๋กœ ์ ์ˆ˜ ๋งค๊ฒจ ๊ฐ€์žฅ ์ข‹์€ ๊ฑธ ๊ณ ๋ฅธ๋‹ค.

# Algorithm 2: Action-chunk selection with critic evaluation
Input: observation o_k, policy pi_theta, critic Q_phi, num samples N_pi
for i = 1 to N_pi:
    a^(i) ~ pi_theta(. | o_k)
    q^(i) <- min_j Q_phi^(j)(o_k, a^(i))        # pessimistic over ensemble
a_k <- argmax_i q^(i)
return a_k

๊ด€์ธก์— โ€œ์•„์ง ์‹คํ–‰ ์•ˆ ํ•œ ์•ก์…˜โ€์„ ๋„ฃ๋Š”๋‹ค: RTC

๊ด€์ธก o_t์—๋Š” ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€, ๋กœ๋ด‡ ์ž๊ธฐ์ˆ˜์šฉ(proprioception)๊ณผ ๋”๋ถˆ์–ด ์ง์ „ ์ฒญํฌ์—์„œ ์•„์ง ์‹คํ–‰๋˜์ง€ ์•Š์€ ์•ก์…˜ ๋ช‡ ๊ฐœ๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค. ์ด๊ฒƒ์ด ์‹ค์‹œ๊ฐ„ ์ฒญํ‚น(Real-Time Chunking, RTC)์„ ๊ฐ€๋Šฅ์ผ€ ํ•œ๋‹ค. ์ €์ž๋“ค์€ RTC๊ฐ€ ๋‹จ์ง€ ์ถ”๋ก  ์‹œ๊ฐ„์„ ์ค„์ด๋Š” ๊ฑธ ๋„˜์–ด, ์ง์ „ ์•ก์…˜ ๋งฅ๋ฝ์„ ์ œ๊ณตํ•ด ์„ฑ๋Šฅ ์ž์ฒด๋ฅผ ๋Œ์–ด์˜ฌ๋ ธ๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค. ์ฒญํฌ ๊ฒฝ๊ณ„์—์„œ ๋™์ž‘์ด ๋Š๊ธฐ๋Š” ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š”, ์†์žฌ์ฃผ ๊ณผ์ œ์—์„œ ์˜์™ธ๋กœ ์ค‘์š”ํ•œ ๋””ํ…Œ์ผ์ด๋‹ค.

4๋‹จ๊ณ„ ํ•™์Šต ๋ ˆ์‹œํ”ผ

SERNF์˜ ์‹ค์ „ ๊ฐ€์น˜๋Š” ์ด ๋‹จ๊ณ„์  ๋ ˆ์‹œํ”ผ์— ์žˆ๋‹ค. ์ ์€ ๋ฐ์ดํ„ฐ๋กœ RL์„ ๊ตด๋ฆด ๋•Œ ๋ฌด์—‡์„ ์–ธ์ œ ์–ผ๋ฆฌ๊ณ  ๋…น์ผ์ง€๊ฐ€ ์Šน๋ถ€๋ฅผ ๊ฐ€๋ฅธ๋‹ค.

graph TD
  S1["Stage I: Imitation Learning<br/>NF policy BC init"] --> S2["Stage II: Offline Critic Warm-up<br/>freeze policy, train critic via TD"]
  S2 --> S3["Stage III: Full Offline RL<br/>critic + policy update with BC regularization"]
  S3 --> S4["Stage IV: Online RL Fine-tuning<br/>limited real-robot rollouts"]
  S4 -.collect new data.-> S3

Stage I โ€” ์ •์ฑ… ์ดˆ๊ธฐํ™” (๋ชจ๋ฐฉํ•™์Šต). NF ์ •์ฑ…์„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์— ํ–‰๋™ ๋ณต์ œ๋กœ ๋งž์ถ˜๋‹ค. NF์˜ ์šฐ๋„๊ฐ€ ์ •ํ™•ํ•˜๋ฏ€๋กœ BC๊ฐ€ ๊น”๋”ํ•œ ์Œ์˜ ๋กœ๊ทธ์šฐ๋„ ์ตœ์†Œํ™”๋กœ ๋–จ์–ด์ง„๋‹ค.

\mathcal{L}_\text{IL} = -\mathbb{E}\left[ \log \pi_\theta(a \mid o) \right]

Stage II โ€” ์˜คํ”„๋ผ์ธ ํฌ๋ฆฌํ‹ฑ ์›Œ๋ฐ์—…. ์ •์ฑ…์€ ์–ผ๋ ค๋‘๊ณ  ํฌ๋ฆฌํ‹ฑ๋งŒ ๋ฐ์ดํ„ฐ๋กœ TD ํ•™์Šต์‹œํ‚จ๋‹ค. ํƒ€๊นƒ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค (d๋Š” ์ข…๋ฃŒ ํ”Œ๋ž˜๊ทธ, \hat a_{k+1}์€ ์ดˆ๊ธฐ ์ •์ฑ… \pi_{\theta_0}์—์„œ ๋ฝ‘์€ ๋‹ค์Œ ์ฒญํฌ).

y = \sum_{t=0}^{H-1} \gamma^t r_{k,t} + \gamma^H (1-d)\, Q_{\bar\phi}(o_{k+1}, \hat a_{k+1})

ํฌ๋ฆฌํ‹ฑ์ด ์—‰์„ฑํ•œ ์ƒํƒœ์—์„œ ์ •์ฑ…์„ ๊ฑด๋“œ๋ฆฌ๋ฉด ๋ง๊ฐ€์ง€๋ฏ€๋กœ, ๋จผ์ € ํฌ๋ฆฌํ‹ฑ์„ ์•ˆ์ •์ ์ธ ๊ธฐ์ค€์„ ์œผ๋กœ ๋ฐ์›Œ๋‘๋Š” ๊ฒƒ์ด๋‹ค.

Stage III โ€” ์™„์ „ ์˜คํ”„๋ผ์ธ RL. ์ด์ œ ํฌ๋ฆฌํ‹ฑ๊ณผ ์ •์ฑ…์„ ํ•จ๊ป˜ ๊ฐฑ์‹ ํ•œ๋‹ค. Algorithm 2๋กœ ์ข‹์€ ์•ก์…˜์„ ๊ณ ๋ฅด๊ณ , ๋™์‹œ์— ์‹œ์—ฐ ์•ก์…˜ a_d์— ๋Œ€ํ•œ \log \pi_\theta(a_d \mid o)๋ฅผ BC ์ •๊ทœํ™” ํ•ญ์œผ๋กœ ์œ ์ง€ํ•œ๋‹ค. ์ด BC ํ•ญ์ด ๋ฐ”๋กœ โ€œ์ดˆ๊ธฐ ์ •์ฑ…์—์„œ ๋ฉ€์–ด์ง€์ง€ ๋งˆโ€๋ผ๋Š” ์ค„์ด๋‹ค. NF๊ฐ€ ์šฐ๋„๋ฅผ ์ฃผ๊ธฐ์— ๊ฐ€๋Šฅํ•œ ๋ณด์ˆ˜์  ์ •๊ทœํ™”๋‹ค.

Stage IV โ€” ์˜จ๋ผ์ธ RL ๋ฏธ์„ธ์กฐ์ •. ๋น ๋“ฏํ•œ ์‹ค์ œ ๋กœ๋ด‡ ๋กค์•„์›ƒ ์˜ˆ์‚ฐ์œผ๋กœ ์ƒˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„ Stage III ๋ฃจํ”„์— ํ˜๋ ค ๋„ฃ์œผ๋ฉฐ ์ •์ฑ…์„ ๋๊นŒ์ง€ ๋‹ค๋“ฌ๋Š”๋‹ค.


์‹คํ—˜: ๋‘ ๊ฐœ์˜ ๊นŒ๋‹ค๋กœ์šด ์‹ค์ œ ๊ณผ์ œ

์ €์ž๋“ค์€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋‘ ์ฃผ๋ฅ˜ ๋ฐฐํฌ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐ๊ฐ ๋Œ€ํ‘œํ•˜๋„๋ก ๊ณผ์ œ๋ฅผ ๊ณจ๋ž๋‹ค.

๊ณผ์ œ ์ดˆ๊ธฐํ™” ๋ฐฉ์‹ ๋Œ€ํ‘œํ•˜๋Š” ์›Œํฌํ”Œ๋กœ ๋‚œ์ 
๊ฐ€์œ„ ํšŒ์ˆ˜ & ํ…Œ์ดํ”„ ์ ˆ๋‹จ ์‚ฌ๋žŒ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์—ฐ ์ ‘์ด‰ ํ’๋ถ€ยท์‹œ๋ฎฌ ์–ด๋ ค์šด IL ์›Œํฌํ”Œ๋กœ ์ผ€์ด์Šค์—์„œ ๊ฐ€์œ„ ์ง‘๊ธฐ โ†’ ๋“ค๊ธฐ โ†’ ์ ˆ๋‹จ๊นŒ์ง€ ๊ธด ์‹œํ€€์Šค
์†์•ˆ ํ๋ธŒ ํšŒ์ „ (์†๋ฐ”๋‹ฅ ์•„๋ž˜๋กœ) ์‹œ๋ฎฌ ํ•™์Šต ์ •์ฑ… ์ฆ๋ฅ˜(distill) ์†์žฌ์ฃผ ํ•ธ๋“œ์˜ ์ฃผ๋ฅ˜ sim-to-real RL ์†๋ฐ”๋‹ฅ์„ ์•„๋ž˜๋กœ ๋‘” ์ฑ„ ์•ˆ์ • ํŒŒ์ง€ ์œ ์ง€ + ์—ฐ์† ํšŒ์ „

๋‘ ๊ณผ์ œ ๋ชจ๋‘ ๊ธธ๊ณ , ๊ณ ์ฐจ์›์ด๋ฉฐ, ์ ‘์ด‰ยทํƒ€์ด๋ฐ ์˜ค์ฐจ์— ๋ฏผ๊ฐํ•˜๋‹ค. ์ƒ˜ํ”Œ ํšจ์œจ ๋ฏธ์„ธ์กฐ์ •์˜ ์ŠคํŠธ๋ ˆ์Šค ํ…Œ์ŠคํŠธ๋กœ ๊ฐ•ํ•˜๋‹ค.

๊ทธ๋ฆผ ์„ค๋ช… (Figure 4, ์ •์„ฑ์  ๋กค์•„์›ƒ). ์œ„์ชฝ ํ–‰์€ ๊ฐ€์œ„ ํšŒ์ˆ˜ยทํ…Œ์ดํ”„ ์ ˆ๋‹จ์œผ๋กœ, ํŒŒ์ง€ ํš๋“ โ†’ ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ โ†’ ์ ˆ๋‹จ ์„ฑ๊ณต์˜ ํ๋ฆ„์„ ๋ณด์—ฌ์ค€๋‹ค. ์•„๋ž˜์ชฝ ํ–‰์€ ์†์•ˆ ํ๋ธŒ ํšŒ์ „์œผ๋กœ, ์•ˆ์ •์  ํŒŒ์ง€ ์œ ์ง€์™€ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์—ฐ์† ํšŒ์ „์„ ๋ณด์—ฌ์ค€๋‹ค. ์ฆ‰, โ€œ์ •์ ์ธ ํ•œ ์žฅ๋ฉดโ€์ด ์•„๋‹ˆ๋ผ ์‹œ๊ฐ„์ถ•์„ ๋”ฐ๋ผ ๊ณผ์ œ๊ฐ€ ๋๊นŒ์ง€ ์™„์ˆ˜๋˜๋Š” ๋ชจ์Šต์ด ํ•ต์‹ฌ์ด๋‹ค.

๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ํ•ต์‹ฌ ๊ฒฐ๊ณผ

๋น„๊ต ๋Œ€์ƒ์€ ACT(Action Chunking Transformer), ํ”Œ๋กœ์šฐ ๋งค์นญ(flow matching) ์ •์ฑ…, ๊ทธ๋ฆฌ๊ณ  NF ๊ธฐ๋ฐ˜ IL ๋ณ€ํ˜•๋“ค(๋ฐ์ดํ„ฐ ์ถ”๊ฐ€, ์˜จ๋ผ์ธ ๋ฐ์ดํ„ฐ ๋‹จ์ˆœ ํ•ฉ์น˜๊ธฐ)์ด๋‹ค.

๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฐœ๊ฒฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ˆœ์ˆ˜ IL์—์„œ๋Š” NF๊ฐ€ ํŠน๋ณ„ํ•˜์ง€ ์•Š๋‹ค. Table II์— ๋”ฐ๋ฅด๋ฉด, SERNF๊ฐ€ ์“ฐ๋Š” NF ๋ชจ๋ฐฉ ์ •์ฑ…์€ ๋ชจ๋ฐฉํ•™์Šต๋งŒ์œผ๋กœ ํ•™์Šตํ–ˆ์„ ๋•Œ ํ”Œ๋กœ์šฐ ๋งค์นญยทACT์™€ ๋Œ€๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค. ์ฆ‰ NF ๊ตฌ์กฐ ์ž์ฒด๊ฐ€ ์†์žฌ์ฃผ ๊ณผ์ œ์— ์ถฉ๋ถ„ํ•œ ํ‘œํ˜„๋ ฅ์„ ๊ฐ–์ท„๋‹ค๋Š” ํ™•์ธ์ด์ง€, IL ๋‹จ๊ณ„์—์„œ์˜ ์šฐ์œ„๋Š” ์•„๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ถ“๋Š”๋‹ค๊ณ  ํ’€๋ฆฌ์ง€ ์•Š๋Š”๋‹ค. ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์—ฐ์„ ์ถ”๊ฐ€ํ•ด IL์„ ๋ณด๊ฐ•ํ•ด๋„ ๊ฐœ์„ ์€ ๋ฏธ๋ฏธํ–ˆ๊ณ , ์ ˆ๋‹จ์„ ๋๊นŒ์ง€ ์„ฑ๊ณต์‹œํ‚ค์ง€๋Š” ๋ชปํ–ˆ๋‹ค. ์†์žฌ์ฃผ ๊ณผ์ œ์˜ ๋งˆ์ง€๋ง‰ ๋งˆ์ผ์„ ๋ฐ์ดํ„ฐ ์–‘์œผ๋กœ ๋ฉ”์šฐ๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋œป์ด๋‹ค.
  • ์˜จ๋ผ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ง„ํ•˜๊ฒŒ ์„ž์œผ๋ฉด ์˜คํžˆ๋ ค ๋‚˜๋น ์ง„๋‹ค. ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ์—์„œ ๋ชจ์€ ๊ถค์ ์„ IL์— ๊ทธ๋ƒฅ ํ•ฉ์น˜๋ฉด ์„ฑ๋Šฅ์ด ๋” ๋–จ์–ด์ง„๋‹ค. ์ „๋ฌธ๊ฐ€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๊ณผ ์˜จ-ํด๋ฆฌ์‹œ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ๋ถ„ํฌ ๋ถˆ์ผ์น˜ ๋•Œ๋ฌธ์œผ๋กœ ๋ณด์ธ๋‹ค.
  • SERNF๋Š” ํ‘œ์ค€ ๊ธฐ๋ฒ•๋“ค์ด ๋ฌด๋„ˆ์ง€๋Š” ์ง€์ ์—์„œ ์•ˆ์ •์ ยท์ƒ˜ํ”Œ ํšจ์œจ์ ์œผ๋กœ ์ ์‘ํ•œ๋‹ค. RL ๋ฏธ์„ธ์กฐ์ •์„ NF + ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์œผ๋กœ ๊ตด๋ ค์•ผ ๋น„๋กœ์†Œ โ€œ๊ฑฐ์˜ ๋˜๋Š”โ€ ์ •์ฑ…์ด โ€œ๋๊นŒ์ง€ ๋˜๋Š”โ€ ์ •์ฑ…์œผ๋กœ ๋„˜์–ด๊ฐ„๋‹ค.

์ด ๊ฒฐ๊ณผ ๊ตฌ์กฐ๊ฐ€ ๋ฉ”์‹œ์ง€๋ฅผ ๋ถ„๋ช…ํžˆ ํ•œ๋‹ค. ๋ณ‘๋ชฉ์€ ํ‘œํ˜„๋ ฅ์ด ์•„๋‹ˆ๋ผ ๋ฏธ์„ธ์กฐ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค. IL๋กœ๋Š” ACTยทํ”Œ๋กœ์šฐ ๋งค์นญยทNF๊ฐ€ ๋น„์Šทํ•˜๋‹ค. ์ฐจ์ด๋Š” ์ ์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ์•ˆ์ •์ ์ธ RL ๊ฐฑ์‹ ์„ ๊ฑธ ์ˆ˜ ์žˆ๋А๋ƒ์—์„œ ๊ฐˆ๋ฆฐ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๊ฐฑ์‹ ์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๊ฒŒ NF์˜ ์ •ํ™•ํ•œ ์šฐ๋„์™€ ์ฒญํฌ ์ •๋ ฌ ํฌ๋ฆฌํ‹ฑ์ด๋‹ค.

์ ˆ์ œ ์—ฐ๊ตฌ (Ablations)

๋ถ€๋ก์˜ ์ ˆ์ œ ์—ฐ๊ตฌ๋Š” ์„ธ ์†์žก์ด๋ฅผ ์ ๊ฒ€ํ•œ๋‹ค.

  • ์ฒญํฌ ๊ธธ์ด H: ๋„ˆ๋ฌด ์งง์œผ๋ฉด ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์˜ ์ด์ ์ด ์ค„๊ณ , ๋„ˆ๋ฌด ๊ธธ๋ฉด ์—ด๋ฆฐ ๋ฃจํ”„ ์‹คํ–‰์˜ ์˜ค์ฐจ๊ฐ€ ๋ˆ„์ ๋œ๋‹ค. ๊ณผ์ œ๋ณ„ ์ ์ • ์ง€์ ์ด ์กด์žฌํ•œ๋‹ค.
  • NF ์šฉ๋Ÿ‰(๋ธ”๋ก ์ˆ˜ K ๋“ฑ): ํ‘œํ˜„๋ ฅ๊ณผ ํ•™์Šต ์•ˆ์ •์„ฑยท๋น„์šฉ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„.
  • BC ๊ณ„์ˆ˜: ๋ณด์ˆ˜์„ฑ์˜ ์„ธ๊ธฐ๋‹ค. ๋„ˆ๋ฌด ํฌ๋ฉด ์ดˆ๊ธฐ ์ •์ฑ…์— ๋ฌถ์—ฌ ๊ฐœ์„ ์ด ๋ง‰ํžˆ๊ณ , ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์ ์€ ๋ฐ์ดํ„ฐ์—์„œ ์ •์ฑ…์ด ๋ฐœ์‚ฐํ•œ๋‹ค. ์ด ์†์žก์ด๊ฐ€ SERNF ๋ ˆ์‹œํ”ผ์˜ ์•ˆ์ „๋ฒจํŠธ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ํ•œ๊ณ„

๊ฐ•์ 

1. ์ •ํ™•ํ•œ ์šฐ๋„๋ผ๋Š” ํ•œ ์ˆ˜๋กœ ๋ณด์ˆ˜์  ๋ฏธ์„ธ์กฐ์ •์˜ ๋ฌธ์„ ์—ฐ๋‹ค. ๋””ํ“จ์ „/ํ”Œ๋กœ์šฐ ๋งค์นญ์ด ํ‘œํ˜„๋ ฅ์€ ์ข‹์•„๋„ RL ๋ฏธ์„ธ์กฐ์ •์—์„œ ๋ฐœ์ด ๋ฌถ์˜€๋˜ ์ด์œ ๊ฐ€ ์šฐ๋„์˜ ๋‹ค๋ฃจ๊ธฐ ์–ด๋ ค์›€์ด์—ˆ๋‹ค. SERNF๋Š” NF๋กœ ๊ทธ ๋ฌธ์„ ์ •๊ณต๋ฒ•์œผ๋กœ ์—ฐ๋‹ค. โ€œํ‘œํ˜„๋ ฅ์€ ์œ ์ง€ํ•˜๋ฉด์„œ ์šฐ๋„๋Š” ์ •ํ™•ํžˆโ€๋ผ๋Š” ์กฐํ•ฉ์ด ํ•ต์‹ฌ ํ†ต์ฐฐ์ด๋‹ค.

2. ์ •์ฑ…๊ณผ ํฌ๋ฆฌํ‹ฑ์˜ ์‹œ๊ฐ„ ๊ตฌ์กฐ๋ฅผ ์ผ์น˜์‹œํ‚จ๋‹ค. ์ฒญํฌ๋กœ ํ–‰๋™ํ•˜๋ฉด ์ฒญํฌ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค. ๋‹น์—ฐํ•ด ๋ณด์ด์ง€๋งŒ, ์‹ค์ œ๋กœ ์ •์ฑ… ํ‘œํ˜„ยท์šฐ๋„ ์ •๊ทœํ™”ยท๊ฐ€์น˜ ์ถ”์ •์„ ๋ชจ๋‘ ์ฒญํฌ ์‹คํ–‰์— ๋งž์ถฐ ์ •๋ ฌํ•œ ์ตœ์ดˆ์˜ ์‹ค์ œ ํ•˜๋“œ์›จ์–ด ์‹ค์ฆ์ด๋ผ๋Š” ์ ์ด ๋ฌด๊ฒŒ๊ฐ€ ์žˆ๋‹ค.

3. ์‹ค์ „ ๋ ˆ์‹œํ”ผ๊ฐ€ ๊ตฌ์ฒด์ ์ด๋‹ค. IL ์ดˆ๊ธฐํ™” โ†’ ํฌ๋ฆฌํ‹ฑ ์›Œ๋ฐ์—… โ†’ ์™„์ „ ์˜คํ”„๋ผ์ธ RL โ†’ ์˜จ๋ผ์ธ ๋ฏธ์„ธ์กฐ์ •์˜ 4๋‹จ๊ณ„, ๊ทธ๋ฆฌ๊ณ  BC ์ •๊ทœํ™”ยทHL-Gaussยท์•™์ƒ๋ธ” ์ตœ์†Œํ™”ยทRTC ๊ฐ™์€ ์•ˆ์ •ํ™” ์žฅ์น˜๋“ค์€ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ๋‹ค ์“ธ ์ˆ˜ ์žˆ๋Š” ์—”์ง€๋‹ˆ์–ด๋ง ์ž์‚ฐ์ด๋‹ค. ์†์žฌ์ฃผ RL์„ ์‹ค์ œ ํ•ธ๋“œ์— ์˜ฌ๋ ค๋ณธ ์‚ฌ๋žŒ์ด๋ผ๋ฉด ์ด ๋””ํ…Œ์ผ๋“ค์˜ ๊ฐ€์น˜๋ฅผ ์•ˆ๋‹ค.

4. ๋‘ ์›Œํฌํ”Œ๋กœ๋ฅผ ๋ชจ๋‘ ์ปค๋ฒ„ํ•œ๋‹ค. ์‹œ์—ฐ ๊ธฐ๋ฐ˜(IL)๊ณผ ์‹œ๋ฎฌ ์ฆ๋ฅ˜(sim-to-real RL) ์–‘์ชฝ ์ถœ๋ฐœ์ ์—์„œ ์ž‘๋™ํ•จ์„ ๋ณด์˜€๋‹ค. ํ˜„์žฅ ์ ์šฉ ๋ฒ”์œ„๊ฐ€ ๋„“๋‹ค๋Š” ์‹ ํ˜ธ๋‹ค.

ํ•œ๊ณ„ (์ €์ž๋“ค์ด ์ง์ ‘ ๋ฐํžŒ ๊ฒƒ ํฌํ•จ)

1. ๊ณผ์ œ๊ฐ€ ๋‘˜๋ฟ์ด๋‹ค. ๋‹ค์ค‘ ๊ณผ์ œ ํ™•์žฅ์ด๋‚˜ ๋‹จ์ผ ๋กœ๋ด‡์—์„œ์˜ ์—ฐ์†์  ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ฏธ์„ธ์กฐ์ •์€ ๋ฏธํ•ด๊ฒฐ๋กœ ๋‚จ์•˜๋‹ค. ์†์žฌ์ฃผ ์Šคํ‚ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ‚ค์šฐ๋ ค๋Š” ์ž…์žฅ์—์„œ๋Š” ๋‹ค์Œ ์งˆ๋ฌธ์ด ๋ฐ”๋กœ ์—ฌ๊ธฐ์„œ ์‹œ์ž‘๋œ๋‹ค.

2. ๋ณด์ƒ ์„ค๊ณ„๊ฐ€ ๋ณ‘๋ชฉ์ด๋‹ค. ์‹คํ—˜์€ ํฌ์†Œ(sparse)ยท์ˆ˜๋™ ์ฃผ์„ ๋ณด์ƒ์— ์˜์กดํ•œ๋‹ค. ํ™•์žฅ์„ฑ์„ ๋–จ์–ด๋œจ๋ฆฌ๊ณ , ๋ณด์ƒ์ด ๊ณผ์ œ์™€ ์–ด๊ธ‹๋‚˜๋ฉด ํ•™์Šต์„ ๋ฐฉํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋“ค์€ VLM์œผ๋กœ ๋ณด์ƒ ๋ผ๋ฒจ๋ง์„ ์ž๋™ํ™”ํ•˜๋ฉด ์ˆ˜์ž‘์—…์„ ํฌ๊ฒŒ ์ค„์ด๊ณ  ๋” ํฐ ๋ฐ์ดํ„ฐยท๊ณผ์ œ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ณธ๋‹ค.

3. ๊ณ„์‚ฐยท๊ตฌํ˜„ ๋ณต์žก๋„๊ฐ€ ๋†’๋‹ค. ๋‹จ์ˆœ ๊ฐ€์šฐ์‹œ์•ˆ ์ •์ฑ…๋ณด๋‹ค NF๋Š” ์ถ”๊ฐ€์ ์ธ ๊ตฌ์กฐ์™€ ํ•™์Šต ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ๋“ค๊ณ  ์˜จ๋‹ค. ์—”์ง€๋‹ˆ์–ด๋งยท์—ฐ์‚ฐ ๋น„์šฉ์ด ์˜ฌ๋ผ๊ฐ„๋‹ค. โ€œ์ •ํ™•ํ•œ ์šฐ๋„โ€์˜ ๋Œ€๊ฐ€๋‹ค.

4. ํ‰๊ฐ€์˜ ํญ. ์„ฑ๊ณต๋ฅ ์˜ ์ ˆ๋Œ€ ์ˆ˜์น˜์™€ ํ†ต๊ณ„์  ์‹ ๋ขฐ๊ตฌ๊ฐ„, ์‹œ๋“œ๋ณ„ ๋ณ€๋™์„ฑ, ๊ทธ๋ฆฌ๊ณ  ACTยทํ”Œ๋กœ์šฐ ๋งค์นญ์— ๋™์ผํ•œ RL ๋ฏธ์„ธ์กฐ์ •์„ (๊ฐ€๋Šฅํ•œ ๋ฒ”์œ„์—์„œ) ์ ์šฉํ•œ ๋” ์ง์ ‘์ ์ธ ๋น„๊ต๊ฐ€ ์žˆ์œผ๋ฉด ๋ฉ”์‹œ์ง€๊ฐ€ ๋” ๋‹จ๋‹จํ–ˆ์„ ๊ฒƒ์ด๋‹ค. ํ˜„์žฌ ๊ฒฐ๊ณผ๋Š” โ€œIL์€ ๋Œ€๋“ฑ, ๋ฏธ์„ธ์กฐ์ •์—์„œ SERNF ์šฐ์œ„โ€๋ผ๋Š” ๊ตฌ์กฐ์  ์ฃผ์žฅ์œผ๋กœ๋Š” ์„ค๋“๋ ฅ์ด ์žˆ์œผ๋‚˜, ๊ฐ ์•ˆ์ •ํ™” ์š”์†Œ(HL-Gauss vs ๋‹จ์ˆœ ํšŒ๊ท€, ์•™์ƒ๋ธ” ์œ ๋ฌด)์˜ ๊ธฐ์—ฌ๋ฅผ ๋ถ„ํ•ดํ•˜๋Š” ์ ˆ์ œ๊ฐ€ ๋” ์ด˜์ด˜ํ•˜๋ฉด ์ข‹๊ฒ ๋‹ค.


๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

SERNF์˜ ์ขŒํ‘œ๋ฅผ ์ฃผ๋ณ€ ์—ฐ๊ตฌ์™€ ๊ฒน์ณ ๋ณด๋ฉด ๊ธฐ์—ฌ๊ฐ€ ๋” ๋˜๋ ทํ•ด์ง„๋‹ค.

์ถ• ๋””ํ“จ์ „/ํ”Œ๋กœ์šฐ ๋งค์นญ ์ •์ฑ… RL (DPPO, ReinFlow, \pi^*_{0.6} ๋“ฑ) ๊ฐ€์šฐ์‹œ์•ˆ ์ •์ฑ… + ์˜คํ”„ํˆฌ์˜จ RL (AWAC, Cal-QL, IBRL, SERL) NF ์ •์ฑ… (NinA, NF-P, โ€œNFs are capable models for RLโ€) SERNF
ํ‘œํ˜„๋ ฅ(๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ) ๋†’์Œ ๋‚ฎ์Œ(๋ถ•๊ดด) ๋†’์Œ ๋†’์Œ
์ •ํ™•ํ•œ ์šฐ๋„ ์—†์Œ(intractable) ์žˆ์Œ ์žˆ์Œ ์žˆ์Œ
๋ณด์ˆ˜์  ์šฐ๋„ ์ •๊ทœํ™” ์–ด๋ ค์›€ ๊ฐ€๋Šฅ ๊ฐ€๋Šฅ ๊ฐ€๋Šฅ
์ฒญํฌ ๋‹จ์œ„ ํฌ๋ฆฌํ‹ฑ ๋ถ€๋ถ„์  ๋Œ€์ฒด๋กœ ์Šคํ… ๋‹จ์œ„ ๊ฑฐ์˜ ๋ฏธ์ ์šฉ ์žˆ์Œ
์‹ค์ œ ํ•˜๋“œ์›จ์–ด ์˜คํ”„-ํด๋ฆฌ์‹œ ๋ฏธ์„ธ์กฐ์ • ์ผ๋ถ€ ์žˆ์Œ ๊ฑฐ์˜ ์‹œ๋ฎฌยท์˜จ-ํด๋ฆฌ์‹œ ํ•œ์ • ์žˆ์Œ(์ตœ์ดˆ)
  • ๋””ํ“จ์ „/ํ”Œ๋กœ์šฐ ๋งค์นญ RL ๊ณ„์—ด: ํ‘œํ˜„๋ ฅ์€ ๊ฐ™์€ ๊ธ‰์ด์ง€๋งŒ ์šฐ๋„๊ฐ€ ์•ˆ ๋‚˜์™€ ๋ณด์ˆ˜์  ๋ฏธ์„ธ์กฐ์ •์ด ์–ด๋ ต๋‹ค. SERNF๋Š” NF๋กœ ์ด ์•ฝ์ ์„ ๋น„์ผœ๊ฐ„๋‹ค.
  • NF ์ •์ฑ… ์„ ํ–‰์—ฐ๊ตฌ: NF์˜ ์ •์ฑ… ์ ํ•ฉ์„ฑ์€ ์ด๋ฏธ ๋ณด์˜€์œผ๋‚˜, ์‹ค์ œ ๋กœ๋ด‡ ์ ์šฉ์€ ์˜จ-ํด๋ฆฌ์‹œ์— ๋จธ๋ฌผ๊ฑฐ๋‚˜ ๋Œ€๋ถ€๋ถ„ ์‹œ๋ฎฌ์— ๊ทธ์ณค๋‹ค. SERNF๋Š” ์˜คํ”„-ํด๋ฆฌ์‹œ + ์‹ค์ œ ํ•˜๋“œ์›จ์–ด + ๋ฏธ์„ธ์กฐ์ •์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ์ฒซ ์‚ฌ๋ก€๋ฅผ ์ž์ฒ˜ํ•œ๋‹ค.
  • ์•ก์…˜ ์ฒญํ‚น RL: ์ฒญํฌ ์ •๋ ฌ ํฌ๋ฆฌํ‹ฑ์ด ํ•™์Šต ํšจ์œจ๊ณผ ํฌ๋ ˆ๋”ง ํ• ๋‹น์„ ๋•๋Š”๋‹ค๋Š” ์„ ํ–‰ ๊ฒฐ๊ณผ(Li et al.)๋ฅผ ์‹ค์ œ ๋ฏธ์„ธ์กฐ์ • ํŒŒ์ดํ”„๋ผ์ธ์— ๋…น์—ฌ ๋„ฃ์—ˆ๋‹ค.
  • ์˜คํ”„๋ผ์ธ+์˜จ๋ผ์ธ RL ์‹œ์Šคํ…œ(SERL, IBRL): ์‹œ์—ฐยท์˜คํ”„ํด๋ฆฌ์‹œ RLยทํˆด๋ง์˜ ์‹ค์ „ ํ†ตํ•ฉ์„ ๊ฐ•์กฐํ•œ ๊ณ„๋ณด ์œ„์—์„œ, SERNF๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„ํฌยทํฌ์†Œ ๋ณด์ƒ ๊ณผ์ œ๋ฅผ ์œ„ํ•œ ์ •ํ™• ์šฐ๋„ ์ƒ์„ฑ ์ •์ฑ… + ์ฒญํฌ ๊ฐ€์น˜ ํ•™์Šต์œผ๋กœ ํŠนํ™”ํ•œ๋‹ค.

์†์žฌ์ฃผ ํ•ธ๋“œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž…์žฅ์—์„œ ๋ณด๋ฉด, ์ด ๋…ผ๋ฌธ์€ โ€œ์†์•ˆ ํ๋ธŒ ํšŒ์ „์„ ์‹œ๋ฎฌ์—์„œ ํ•™์Šตํ•ด ์‹ค์ œ๋กœ ์˜ฎ๊ธด ๋’ค, ์ ์€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ๋๊นŒ์ง€ ๋‹ค๋“ฌ๋Š”๋‹คโ€๋Š” ์ •ํ™•ํžˆ ๊ทธ sim-to-real ๋ฏธ์„ธ์กฐ์ • ๊ตฌ๋ฉ์„ ๊ฒจ๋ƒฅํ•œ๋‹ค. ์‹œ๋ฎฌ์—์„œ PPO ๊ต์‚ฌ ์ •์ฑ…์„ ํ•™์Šตํ•˜๊ณ  SERNF ๊ตฌ์กฐ๋กœ ์ฆ๋ฅ˜ํ•œ ๋’ค ์‹ค์ œ์—์„œ RL ๋ฏธ์„ธ์กฐ์ •ํ•œ๋‹ค๋Š” ํŒŒ์ดํ”„๋ผ์ธ์€, ํ˜„์žฅ์˜ In-Hand Rotation ์ž‘์—… ํ๋ฆ„๊ณผ ๊ณง์žฅ ํฌ๊ฐœ์ง„๋‹ค.


์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

SERNF์˜ ๋ฉ”์‹œ์ง€๋Š” ๊ตฐ๋”๋”๊ธฐ ์—†์ด ๋ช…ํ™•ํ•˜๋‹ค. ์‹ค์ œ ์†์žฌ์ฃผ ์ •์ฑ…์˜ ๋งˆ์ง€๋ง‰ ๋งˆ์ผ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋ชจ์•„์„œ๊ฐ€ ์•„๋‹ˆ๋ผ, ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ์•ˆ์ •์ ์ธ RL ๋ฏธ์„ธ์กฐ์ •์„ ๊ฑธ์–ด์„œ ๋ฉ”์šด๋‹ค. ๊ทธ ๋ฏธ์„ธ์กฐ์ •์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๋‘ ๋ถ€ํ’ˆ์ด ์ •ํ™•ํ•œ ์šฐ๋„๋ฅผ ์ฃผ๋Š” NF ์ •์ฑ…๊ณผ ์‹คํ–‰ ๋ฐ•์ž์— ๋งž์ถ˜ ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ์ด๋‹ค.

ํ•ต์‹ฌ์„ ๋‹ค์‹œ ์งš์œผ๋ฉด ์ด๋ ‡๋‹ค.

  • ๋””ํ“จ์ „์€ ํ‘œํ˜„๋ ฅ์€ ์žˆ์œผ๋‚˜ ์šฐ๋„๊ฐ€ ์—†์–ด ๋ณด์ˆ˜์  ๋ฏธ์„ธ์กฐ์ •์ด ๋ง‰ํ˜”๊ณ , ๊ฐ€์šฐ์‹œ์•ˆ์€ ์šฐ๋„๋Š” ์žˆ์œผ๋‚˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์—์„œ ๋ถ•๊ดดํ–ˆ๋‹ค. NF๋Š” ๋‘˜ ๋‹ค ๊ฐ–์ถฐ ๊ทธ ์‚ฌ์ด์˜ ๋นˆ์ž๋ฆฌ๋ฅผ ์ฑ„์šด๋‹ค.
  • ์ฒญํฌ๋กœ ํ–‰๋™ํ•˜๋ฉด ์ฒญํฌ๋กœ ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค. ์ฒญํฌ ํฌ๋ฆฌํ‹ฑ + HL-Gauss ๋ถ„๋ฅ˜ + ์•™์ƒ๋ธ” ์ตœ์†Œํ™” + RTC๊ฐ€ ํ•™์Šต์„ ์•ˆ์ •ํ™”ํ•œ๋‹ค.
  • IL ์ดˆ๊ธฐํ™” โ†’ ํฌ๋ฆฌํ‹ฑ ์›Œ๋ฐ์—… โ†’ ์™„์ „ ์˜คํ”„๋ผ์ธ RL(BC ์ •๊ทœํ™”) โ†’ ์˜จ๋ผ์ธ ๋ฏธ์„ธ์กฐ์ •์˜ 4๋‹จ๊ณ„ ๋ ˆ์‹œํ”ผ๊ฐ€ ์‹ค์ „์˜ ๋ผˆ๋Œ€๋‹ค.
  • ์ˆœ์ˆ˜ IL์—์„œ๋Š” ACTยทํ”Œ๋กœ์šฐ ๋งค์นญยทNF๊ฐ€ ๋Œ€๋“ฑํ•˜๋‹ค. ์ฐจ์ด๋Š” ๋ฏธ์„ธ์กฐ์ •์—์„œ ๊ฐˆ๋ฆฐ๋‹ค. ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€๋‚˜ ์˜จ๋ผ์ธ ๋ฐ์ดํ„ฐ ๋‹จ์ˆœ ๋ณ‘ํ•ฉ์€ ๋‹ต์ด ์•„๋‹ˆ์—ˆ๊ณ , SERNF๋งŒ์ด ๋๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์˜€๋‹ค.

๋‚จ์€ ์ˆ™์ œ๋Š” ๋ถ„๋ช…ํ•˜๋‹ค. ๋‹ค์ค‘ ๊ณผ์ œ๋กœ์˜ ํ™•์žฅ, ํฌ์†Œยท์ˆ˜๋™ ๋ณด์ƒ์„ VLM ์ž๋™ ๋ผ๋ฒจ๋ง์œผ๋กœ ๋Œ€์ฒดํ•˜๊ธฐ, ๋Œ€ํ˜• VLA ๋ชจ๋ธ๋กœ์˜ ์ ์šฉ, ๊ทธ๋ฆฌ๊ณ  NF๊ฐ€ ๋“ค๊ณ  ์˜ค๋Š” ๊ณ„์‚ฐยท๊ตฌํ˜„ ๋น„์šฉ ์ค„์ด๊ธฐ๋‹ค. ์†์žฌ์ฃผ RL์„ ์‹ค์ œ ํ•ธ๋“œ์— ์˜ฌ๋ ค ๋๊นŒ์ง€ ์‹ ๋ขฐ๋„๋ฅผ ๋Œ์–ด์˜ฌ๋ฆฌ๋ ค๋Š” ์—ฐ๊ตฌ์ž์—๊ฒŒ, SERNF๋Š” โ€œ๊ฑฐ์˜ ๋˜๋Š” ์ •์ฑ…โ€์„ โ€œ๋˜๋Š” ์ •์ฑ…โ€์œผ๋กœ ๋„˜๊ธฐ๋Š” ์‹ค์šฉ์  ํ† ๋Œ€๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ์‹œ๋ฎฌ ์ฆ๋ฅ˜ โ†’ ์‹ค์ œ ๋ฏธ์„ธ์กฐ์ • ๊ฒฝ๋กœ๋ฅผ ํƒ€๋Š” In-Hand ๊ณผ์ œ๋ผ๋ฉด, ์ด ๋ ˆ์‹œํ”ผ์˜ ๊ฐ ์กฐ๊ฐ์„ ๊ทธ๋Œ€๋กœ ์‹คํ—˜ ์„ค๊ณ„์— ํก์ˆ˜ํ•ด ๋ณผ ๊ฐ€์น˜๊ฐ€ ์ถฉ๋ถ„ํ•˜๋‹ค.

Copyright 2026, JungYeon Lee