Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • 1. ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ ์ฃผ์š” ๊ธฐ์—ฌ
      • ์ฃผ์š” ๊ธฐ์—ฌ
    • 2. ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ธฐ์ˆ ์  ์ ‘๊ทผ ๋ถ„์„
    • 3. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ ํ‰๊ฐ€
    • 4. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์  ๋ฐ ๊ธฐ์—ฌ
    • 5. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ์— ๋Œ€ํ•œ ๋น„ํŒ์  ๊ณ ์ฐฐ
    • ๊ฒฐ๋ก 
  • Related Works

๐Ÿ“ƒDrEureka ๋ฆฌ๋ทฐ

eureka
llm
domain randomization
Language Model Guided Sim-To-Real Transfer
Published

August 26, 2025

  • Paper Link
  • Project Link
  • Code Link
  1. ๐Ÿค– ์ด ๋…ผ๋ฌธ์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ๋กœ๋ด‡ ์ •์ฑ…์„ ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์ „์ด์‹œํ‚ค๋Š” ๊ณผ์ •์—์„œ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๋™ ์„ค๊ณ„ ๋ฐ ํŠœ๋‹์œผ๋กœ ์ธํ•œ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด LLM ๊ธฐ๋ฐ˜์˜ DrEureka๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. โš™๏ธ DrEureka๋Š” LLM์„ ํ™œ์šฉํ•˜์—ฌ ์•ˆ์ „ ์ง€์นจ์ด ํฌํ•จ๋œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๊ณ , ์ดˆ๊ธฐ ์ •์ฑ…์„ ํ†ตํ•ด ํ™˜๊ฒฝ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ Reward-Aware Physics Prior (RAPP)๋ฅผ ๊ตฌ์ถ•ํ•œ ๋’ค, ์ด ์‚ฌ์ „ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ Domain Randomization ๊ตฌ์„ฑ์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ์ œ์•ˆ๋œ DrEureka๋Š” ์‚ฌ์กฑ ๋ณดํ–‰ ๋ฐ ์ •๊ตํ•œ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ ์ˆ˜๋™ ์„ค๊ณ„ ๋ฐฉ์‹๊ณผ ๋Œ€๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์š”๊ฐ€ ๋ณผ ์œ„์—์„œ ๋กœ๋ด‡ ๊ท ํ˜• ์žก๊ธฐ์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋„์ „์ ์ธ ์ž‘์—…๋„ ์ˆ˜๋™ ๊ฐœ์ž… ์—†์ด ์„ฑ๊ณต์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜์—ฌ sim-to-real ์ „์ด๋ฅผ ๊ฐ€์†ํ™”ํ•˜๋Š” ์ž ์žฌ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Brief Review

์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ๊ธฐ์ˆ  ์Šต๋“์„ ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์ „์ด์‹œํ‚ค๋Š” Sim-to-Real(์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์ œ ํ™˜๊ฒฝ ์ „์ด) ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ˆ˜๋™ ์„ค๊ณ„ ๋ฐ ํŠœ๋‹์˜ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ณด์ƒ ํ•จ์ˆ˜(reward function) ์„ค๊ณ„์™€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™”(Domain Randomization, DR) ๋ถ„ํฌ ์„ค์ •์— ํ•„์š”ํ•œ ์ƒ๋‹นํ•œ ์ธ์  ๋…ธ๋ ฅ๊ณผ ์‹œ๊ฐ„์„ ์ค„์ด๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(Large Language Models, LLMs)์˜ ๋ฌผ๋ฆฌ์  ์ƒ์‹(physical common sense) ๋ฐ ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ Sim-to-Real ์„ค๊ณ„ ๊ณผ์ •์„ ์ž๋™ํ™”ํ•˜๋Š” DrEureka๋ผ๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DrEureka๋Š” ๋Œ€์ƒ ์ž‘์—…์— ๋Œ€ํ•œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋งŒ ์ฃผ์–ด์ง€๋ฉด, ์‹ค์ œ ํ™˜๊ฒฝ ์ „์ด๋ฅผ ์ง€์›ํ•˜๊ธฐ์— ์ ํ•ฉํ•œ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋ถ„ํฌ๋ฅผ ์ž๋™์œผ๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

DrEureka์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. LLM ๊ธฐ๋ฐ˜ ๋ณด์ƒ ํ•จ์ˆ˜ ํ•ฉ์„ฑ (LLM-Guided Reward Function Synthesis):
    • ์ด ๋‹จ๊ณ„๋Š” Eureka [9]์˜ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„ ์›์น™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋˜, Sim-to-Real ์„ค์ •์— ๋งž๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • LLM์€ ํƒœ์Šคํฌ ์„ค๋ช…(l_{\text{task}})๊ณผ ํ™˜๊ฒฝ ์ฝ”๋“œ(M)์—์„œ ์ œ๊ณต๋˜๋Š” ํ™˜๊ฒฝ ์ƒํƒœ ๋ฐ ์•ก์…˜ ๊ณต๊ฐ„ ์š”์•ฝ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค.
    • ํŠนํžˆ, DrEureka๋Š” ํ”„๋กฌํ”„ํŠธ์— ์•ˆ์ •์„ฑ(safety), ๋ถ€๋“œ๋Ÿฌ์›€(smoothness), ๋ฐ”๋žŒ์งํ•œ ํƒœ์Šคํฌ๋ณ„ ์†์„ฑ ๋“ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ ๋ คํ•˜๋„๋ก โ€œ์•ˆ์ „ ์ง€์นจ(safety instruction)โ€(l_{\text{safety}})์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” LLM์ด ์‹ค์ œ ํ™˜๊ฒฝ ์ „์ด์— ๋” ์ ํ•ฉํ•œ ์•ˆ์ „ ๋ณด์žฅํ˜•(safety-regularized) ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.
    • LLM์€ ์—ฌ๋Ÿฌ ๋ณด์ƒ ํ•จ์ˆ˜ ํ›„๋ณด๋ฅผ ์ฝ”๋“œ๋กœ ์ƒ์„ฑํ•˜๊ณ , ๊ฐ ํ›„๋ณด๋Š” ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning, RL)์„ ํ†ตํ•ด ์ •์ฑ…์„ ํ•™์Šตํ•˜๊ณ  ํƒœ์Šคํฌ ์ ์ˆ˜(F)๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.
    • ์ด๋Ÿฌํ•œ ์ ์ˆ˜์™€ ํ•™์Šต ํ†ต๊ณ„(์˜ˆ: ํ•™์Šต ์ค‘ ๋ณด์ƒ ๊ตฌ์„ฑ ์š”์†Œ์˜ ๊ฐ’)๋Š” LLM์— ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ œ๊ณต๋˜์–ด ๋” ๋‚˜์€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
    • ์ตœ์ข…์ ์œผ๋กœ, ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์ตœ์ ์˜ ๋ณด์ƒ ํ•จ์ˆ˜(R_{\text{DrEureka}})์™€ ์ด์— ์ƒ์‘ํ•˜๋Š” ์ดˆ๊ธฐ ์ •์ฑ…(\pi_{\text{initial}})์„ ์–ป์Šต๋‹ˆ๋‹ค: R_{\text{DrEureka}}, \pi_{\text{initial}} := \text{Eureka}(M, l_{\text{task}} + l_{\text{safety}})
  2. ๋ณด์ƒ ์ธ์ง€ ๋ฌผ๋ฆฌ ์‚ฌ์ „ ์ƒ์„ฑ (Reward-Aware Physics Prior, RAPP):
    • ์•ˆ์ „ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์ •์ฑ… ํ–‰๋™์„ ๊ทœ์ œํ•˜์ง€๋งŒ, Sim-to-Real ์ „์ด์—๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    • DrEureka๋Š” ํ•™์Šต๋œ ์ดˆ๊ธฐ ์ •์ฑ…(\pi_{\text{initial}})์„ ์‚ฌ์šฉํ•˜์—ฌ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ โ€œ๋ณด์ƒ ์ธ์ง€ ๋ฌผ๋ฆฌ ์‚ฌ์ „โ€(RAPP)์„ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค.
    • RAPP์˜ ๋ชฉ์ ์€ \pi_{\text{initial}}์ด ์—ฌ์ „ํžˆ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ตœ๋Œ€ ๋‹ค์–‘์„ฑ ๋ฒ”์œ„๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋„๋ฉ”์ธ ๋žœ๋คํ™”๊ฐ€ ํƒœ์Šคํฌ ๋ณด์ƒ ํ•จ์ˆ˜์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ ธ์•ผ ํ•˜๋ฉฐ, ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์—†์ด ํ•™์Šต๋œ ์ •์ฑ… ํ–‰๋™์— ๋งž๊ฒŒ ์ปค์Šคํ„ฐ๋งˆ์ด์ง•๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ํ†ต์ฐฐ์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค.
    • ๊ตฌ์ฒด์ ์œผ๋กœ, RAPP๋Š” ๊ฐ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•ด โ€œ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ(feasible)โ€ ๊ฐ’์˜ ํ•˜ํ•œ ๋ฐ ์ƒํ•œ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์ž ์žฌ์  ๊ฐ’๋“ค์„ ํƒ์ƒ‰ํ•˜๊ณ , ๊ฐ ๊ฐ’์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์— ์„ค์ •ํ•œ ํ›„(S.p = r), \pi_{\text{initial}}์„ ์ด ์ˆ˜์ •๋œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ •์ฑ…์˜ ์„ฑ๋Šฅ์ด ๋ฏธ๋ฆฌ ์ •์˜๋œ ์„ฑ๊ณต ๊ธฐ์ค€์„ ๋งŒ์กฑํ•˜๋ฉด ํ•ด๋‹น ๊ฐ’์€ ํ•ด๋‹น ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•ด ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๊ฐ’ ์ง‘ํ•ฉ์ด ์ฃผ์–ด์ง€๋ฉด, ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํ•˜ํ•œ ๋ฐ ์ƒํ•œ์€ ์ตœ์†Œ ๋ฐ ์ตœ๋Œ€ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฐ’์œผ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๊ณ„์‚ฐ์ ์œผ๋กœ ๊ฐ€๋ณ๊ณ  ๋ณ‘๋ ฌ์ ์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. LLM ๊ธฐ๋ฐ˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ตฌ์„ฑ ์ƒ์„ฑ (LLM for Domain Randomization):
    • ์ด ์ตœ์ข… ๋‹จ๊ณ„์—์„œ๋Š” RAPP๊ฐ€ ๊ณ„์‚ฐํ•œ ๊ฐ DR ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ๋ฒ”์œ„ ์ •๋ณด๋ฅผ LLM์— ์ปจํ…์ŠคํŠธ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • LLM์€ ์ด ์ปจํ…์ŠคํŠธ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ (1) ๋žœ๋คํ™”ํ•  ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ์„ ํƒํ•˜๊ณ , (2) ์„ ํƒ๋œ ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ๋žœ๋คํ™” ๋ฒ”์œ„๋ฅผ ๊ฒฐ์ •ํ•˜๋„๋ก ์ง€์‹œ๋ฐ›์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” LLM์˜ ์ œ๋กœ์ƒท(zero-shot) ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ๋…๋ฆฝ์ ์ธ DR ๊ตฌ์„ฑ ํ›„๋ณด(\mathcal{T}_1, \ldots, \mathcal{T}_m)๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ƒ์„ฑ๋œ ๋ณด์ƒ ํ•จ์ˆ˜(R_{\text{DrEureka}})์™€ ๊ฐ DR ๊ตฌ์„ฑ(\mathcal{T}_i)์„ ์‚ฌ์šฉํ•˜์—ฌ RL์„ ํ†ตํ•ด ์ตœ์ข… ์ •์ฑ…(\pi_{\text{final},i} = \text{A}(M, \mathcal{T}_i, R_{\text{DrEureka}}))์„ ํ•™์Šตํ•˜๊ณ  ์‹ค์ œ ํ™˜๊ฒฝ์— ๋ฐฐํฌํ•ฉ๋‹ˆ๋‹ค.

DrEureka๋Š” quadrupedal locomotion ๋ฐ dexterous manipulation ํƒœ์Šคํฌ์— ๋Œ€ํ•œ ํ‰๊ฐ€์—์„œ ๊ธฐ์กด์˜ ์ˆ˜๋™ ์„ค๊ณ„ ๊ตฌ์„ฑ๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, quadruped locomotion ํƒœ์Šคํฌ์—์„œ DrEureka๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ์ธ๊ฐ„ ์„ค๊ณ„ ๋ณด์ƒ ํ•จ์ˆ˜ ๋ฐ DR ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ•™์Šต๋œ ์ •์ฑ…๋ณด๋‹ค ์ „์ง„ ์†๋„์—์„œ 34%, ์ด๋™ ๊ฑฐ๋ฆฌ์—์„œ 20% ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์š”๊ฐ€ ๋ณผ ์œ„์—์„œ ๊ท ํ˜•์„ ์žก๊ณ  ๊ฑท๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ํƒœ์Šคํฌ๋ฅผ ์ˆ˜๋™ ์„ค๊ณ„ ์—†์ด ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” DrEureka๊ฐ€ ๋กœ๋ด‡ ๊ธฐ์ˆ  ๋ฐœ๊ฒฌ์„ ๊ฐ€์†ํ™”ํ•  ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, DrEureka๋Š” LLM์„ ํ™œ์šฉํ•˜์—ฌ Sim-to-Real ์ „์ด์˜ ํ•ต์‹ฌ ๋ณ‘๋ชฉ์ธ ๋ณด์ƒ ์„ค๊ณ„์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ํŒŒ๋ผ๋ฏธํ„ฐ ๊ตฌ์„ฑ์„ ์ž๋™ํ™”ํ•จ์œผ๋กœ์จ, ์ธ๊ฐ„์˜ ๊ฐœ์ž… ์—†์ด๋„ ํšจ๊ณผ์ ์ด๊ณ  ์‹ค์ œ ํ™˜๊ฒฝ์— ๊ฐ•๊ฑดํ•œ ๋กœ๋ด‡ ์ •์ฑ…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ํ˜์‹ ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.


Detail Review

DrEureka: LLM ํ™œ์šฉ Sim-to-Real ์ „์ด โ€“ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ (RSS 2024)

์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ํ˜„์‹ค์˜ ๋กœ๋ด‡์— ๊ทธ๋Œ€๋กœ ์ด์‹(Sim-to-Real) ํ•˜๋Š” ๊ฒƒ์€ ๋กœ๋ด‡ ๊ธฐ์ˆ  ํ™•์žฅ์— ๋งค์šฐ ์œ ๋งํ•œ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด Sim-to-Real ์ „์ด ๊ธฐ๋ฒ•๋“ค์€ ์ž‘์—… ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์™€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์„ ์‚ฌ๋žŒ ์†์œผ๋กœ ๋ฐ˜๋ณต ์กฐ์ •ํ•ด์•ผ ํ–ˆ๊ธฐ์—, ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ์ด ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค . ์ด๋ฒˆ ๋ฆฌ๋ทฐ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๋กœ ์ž๋™ํ™”ํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ์ „์ด ์„ค๊ณ„๋ฅผ ๊ฐ€์†ํ™”ํ•œ ์—ฐ๊ตฌ โ€œDrEureka: Language Model Guided Sim-To-Real Transferโ€๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค . ์ด ๋…ผ๋ฌธ์€ 2024๋…„ Robotics: Science and Systems (RSS)์— ๋ฐœํ‘œ๋˜์—ˆ์œผ๋ฉฐ, UPennยทUT AustinยทNVIDIA ์—ฐ๊ตฌ์ง„์ด ํ˜‘์—…ํ•œ ๊ฒฐ๊ณผ๋ฌผ์ž…๋‹ˆ๋‹ค. DrEureka๋Š” ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋งŒ์œผ๋กœ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ์ž๋™ ์ƒ์„ฑํ•ด, ๋ณ„๋„ ์ˆ˜์ž‘์—… ์—†์ด๋„ ํ˜„์‹ค ๋กœ๋ด‡์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์ •์ฑ…์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค . ์•„๋ž˜์—์„œ๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ ๊ธฐ์—ฌ, ๊ธฐ์ˆ ์  ์ ‘๊ทผ ๋ฐฉ๋ฒ•, ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋Œ€๋น„ ์ฐจ๋ณ„์ , ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ณผ์ œ๋ฅผ ์ฐจ๋ก€๋กœ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

1. ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ ์ฃผ์š” ๊ธฐ์—ฌ

DrEureka์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” LLM์„ ํ™œ์šฉํ•ด Sim-to-Real ๊ณผ์ •์˜ ๋‚œ์ ์„ ์ž๋™ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์งœ๋˜ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™”(Domain Randomization) ํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ LLM์ด ๋Œ€์‹  ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค . ์ด๋ฅผ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ˜„์‹ค๋กœ ์ง€์‹์ด๋‚˜ ์ •์ฑ…์„ ์˜ฎ๊ธธ ๋•Œ ํ•„์š”ํ•œ ๊นŒ๋‹ค๋กœ์šด ์„ค๊ณ„ ์ž‘์—…์„ ๋Œ€ํญ ์ค„์ด๊ณ , ์ž๋™ํ™”๋œ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์‹ ์†ํ•˜๊ฒŒ ์ตœ์  ๊ตฌ์„ฑ์„ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค .

์ฃผ์š” ๊ธฐ์—ฌ

  • LLM ๊ธฐ๋ฐ˜ Sim-to-Real ์ž๋™ํ™” ๊ธฐ๋ฒ• ์ œ์•ˆ โ€“ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์™€ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋ฅผ ๋™์‹œ์— ์ž๋™ ๊ตฌ์„ฑํ•˜๋Š” DrEureka ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์‹œ .
  • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ณผ์ œ์— ๋Œ€ํ•œ ์‹ค์„ธ๊ณ„ ๊ฒ€์ฆ โ€“ ์‚ฌ์กฑ๋ณดํ–‰ ๋กœ๋ด‡ Unitree Go1์˜ ๊ณ ์† ์ „์ง„ ๋ณดํ–‰, ๋กœ๋ด‡ ์†(LEAP Hand)์˜ ํ๋ธŒ ์กฐ์ž‘ ๋“ฑ์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์„ค๊ณ„๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์ •์ฑ…์„ ๋‹ฌ์„ฑ .
  • ์ƒˆ๋กœ์šด ๋‚œ์ œ ๊ณผ์ œ์—์„œ์˜ ์„ฑ๊ณต์  ์ „์ด โ€“ ์š”๊ฐ€ ๊ณต ์œ„ ๊ฑท๊ธฐ๋ผ๋Š” ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์ž๋™ ์ปค๋ฆฌํ˜๋Ÿผ์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ํ˜„์‹ค ๋กœ๋ด‡์— ๊ณง์žฅ ์ ์šฉํ•ด ์ˆ˜ ๋ถ„๊ฐ„ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑ .

2. ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ธฐ์ˆ ์  ์ ‘๊ทผ ๋ถ„์„

DrEureka๋Š” ์„ธ ๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ํ™˜๊ฒฝ๊ณผ ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•ฉ๋‹ˆ๋‹ค .

  1. ๋ณด์ƒ ํ•จ์ˆ˜ ์ƒ์„ฑ
    • ๊ณผ์ œ ์„ค๋ช…๊ณผ ์•ˆ์ „ ์ง€์นจ์„ LLM(GPT-4 ๋“ฑ)์— ์ œ๊ณต.
    • LLM์ด ๋ณด์ƒ ํ•จ์ˆ˜ ์ฝ”๋“œ(์˜ˆ: ํŒŒ์ด์ฌ+NumPy)๋ฅผ ์ž‘์„ฑ.
    • โ€œ์•ˆ์ „ ํ”„๋กฌํ”„ํŠธโ€๋ฅผ ํ†ตํ•ด ๋ฌด๋ฆฌํ•œ ๊ฐ€์†, ๊ด€์ ˆ ์†์ƒ์„ ์œ ๋ฐœํ•˜๋Š” ๋ณด์ƒ์„ ํ”ผํ•˜๊ณ , ์•ˆ์ „์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๊ณ ๋ คํ•˜๋„๋ก ์œ ๋„ .
    • ์—ฌ๋Ÿฌ ํ›„๋ณด๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ‰๊ฐ€ ํ›„ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ ํƒ .
  2. RAPP (Reward-Aware Physics Prior)
    • ์„ ํƒ๋œ ์ •์ฑ…์„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ๋„ฃ๊ณ , ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ(๋งˆ์ฐฐ, ์งˆ๋Ÿ‰, ๊ฐ์‡ , ๊ด€์„ฑ ๋“ฑ)๋ฅผ ํ•˜๋‚˜์”ฉ ๋ณ€ํ™”์‹œ์ผœ ์ •์ฑ… ์„ฑ๋Šฅ์ด ์œ ์ง€๋˜๋Š” ๋ฒ”์œ„๋ฅผ ์ฐพ์Œ .
    • ์ •์ฑ…์ด ์‹คํŒจํ•˜์ง€ ์•Š๋Š” ์ตœ์†Œโ€“์ตœ๋Œ€ ํ—ˆ์šฉ ๋ฒ”์œ„๋ฅผ ๊ธฐ๋กํ•˜์—ฌ, ์ดํ›„ LLM์—๊ฒŒ ์ „๋‹ฌํ•  ๋ฌผ๋ฆฌ prior๋กœ ํ™œ์šฉ .
    • ์ด ๋‹จ๊ณ„๋Š” ์ •์ฑ…์ด ๊ฒฌ๋”œ ์ˆ˜ ์žˆ๋Š” ๋ฌผ๋ฆฌ์  ํ•œ๊ณ„๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ, ๊ณผ๋„ํ•˜๊ฒŒ ๋„“์€ ๋žœ๋คํ™”๋ฅผ ๋ฐฉ์ง€ .
  3. LLM ๊ธฐ๋ฐ˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์ƒ์„ฑ
    • LLM์— ๋žœ๋คํ™” ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ RAPP ๋ฒ”์œ„๋ฅผ ์ œ๊ณต .
    • LLM์ด ์–ด๋–ค ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋–ค ๋ถ„ํฌ๋กœ ์ƒ˜ํ”Œ๋งํ• ์ง€ ์ œ์•ˆ(์˜ˆ: ๋งˆ์ฐฐ 0.6โ€“1.0 ๋ฒ”์œ„์—์„œ ๊ท ์ผ ๋ถ„ํฌ) .
    • LLM์ด ๋™์‹œ์— ์—ฌ๋Ÿฌ ํ›„๋ณด์•ˆ์„ ์ƒ์„ฑ, ๊ฐ๊ฐ์„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ RL ํ›ˆ๋ จํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ํ˜„์‹ค์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ ์ข‹์€ ์ •์ฑ… ์„ ํƒ .

์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•จ์œผ๋กœ์จ DrEureka๋Š” LLMโ€“์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ณต์ง„ํ™” ๋ฃจํ”„๋ฅผ ํ˜•์„ฑํ•˜๊ณ , ๋ณด์ƒ ์„ค๊ณ„ + ๋žœ๋คํ™” ์„ค๊ณ„๋ฅผ ์ธ๊ฐ„ ๊ฐœ์ž… ์—†์ด ์ž๋™์œผ๋กœ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค .

3. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ ํ‰๊ฐ€

DrEureka๋Š” ๋‘ ๊ฐ€์ง€ ๋Œ€ํ‘œ ๊ณผ์ œ์™€ ํ•˜๋‚˜์˜ ๋„์ „์  ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ์‚ฌ์กฑ๋ณดํ–‰ ์ „์ง„ (Go1 ๋กœ๋ด‡)
    • ๋ชฉํ‘œ: 2 m/s ์†๋„๋กœ ๋น ๋ฅด๊ฒŒ ์ „์ง„.
    • ๋น„๊ต: ์ธ๊ฐ„ ์„ค๊ณ„ ๋ณด์ƒ+DR vs DrEureka ์ž๋™ ์„ค๊ณ„.
    • ๊ฒฐ๊ณผ: DrEureka ์ •์ฑ…์ด ํ‰๊ท  ์†๋„ 34%โ†‘, ์ด๋™ ๊ฑฐ๋ฆฌ 20%โ†‘ ์„ฑ๋Šฅ ํ–ฅ์ƒ .
    • ์ง€ํ˜• ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€(์‹ค๋‚ด ๋ฐ”๋‹ฅ, ์ž”๋””, ๋ณด๋„๋ธ”๋ก, ์–‘๋ง ์‹ ๊ธด ๋ฐœ)์—์„œ๋„ ์•ˆ์ •์  ์„ฑ๋Šฅ ์œ ์ง€ .
  • Dexterous Manipulation (LEAP Hand, ํ๋ธŒ ๋Œ๋ฆฌ๊ธฐ)
    • ๋ชฉํ‘œ: ์†๋ฐ”๋‹ฅ ์œ„ ํ๋ธŒ๋ฅผ ์ตœ๋Œ€ํ•œ ๋งŽ์ด ํšŒ์ „์‹œํ‚ค๊ธฐ.
    • ๊ฒฐ๊ณผ: DrEureka ์ •์ฑ…์ด ์ธ๊ฐ„ ์„ค๊ณ„ ๋Œ€๋น„ ์•ฝ 3๋ฐฐ ๋” ๋งŽ์€ ํšŒ์ „ ์„ฑ๊ณต .
    • ์ •์ฑ…์˜ ์•ˆ์ •์„ฑ์ด ๋†’์•„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ๋„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ๋ณด์ž„ .
  • ์š”๊ฐ€ ๊ณต ์œ„ ๊ฑท๊ธฐ (Ball Balancing)
    • ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๊ณผ์ œ: ํฐ ์š”๊ฐ€ ๊ณต ์œ„์—์„œ ๊ท ํ˜• ์žก์œผ๋ฉฐ ์ „์ง„.
    • ๊ฒฐ๊ณผ: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต ์ •์ฑ…์„ ๊ณง์žฅ ํ˜„์‹ค ์ ์šฉ, ์ˆ˜ ๋ถ„๊ฐ„ ๊ท ํ˜• ์œ ์ง€ํ•˜๋ฉฐ ๊ฑท๊ธฐ ์„ฑ๊ณต .
    • ๊ต๋ž€(๋ฐœ๋กœ ๊ณต์„ ์ฐจ๊ฑฐ๋‚˜ ๊ณต์˜ ๊ณต๊ธฐ์••์„ ์ค„์ž„)์—๋„ ๋กœ๋ด‡์ด ์Šค์Šค๋กœ ๊ท ํ˜•์„ ํšŒ๋ณต .

์ด ์‹คํ—˜๋“ค์€ DrEureka๊ฐ€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋„˜์–ด ํ˜„์‹ค์—์„œ๋„ ๊ฐ•๊ฑดํ•˜๊ฒŒ ๋™์ž‘ํ•จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด์˜ ์ˆ˜์ž‘์—… ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค .

Unitree Go1์ด ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ง€๋ฉด ์œ„์—์„œ DrEureka๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹คํ–‰ํ•˜๋Š” ๋ชจ์Šต. ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์•ˆ์ •์„ฑ๊ณผ ์†๋„ ๋ชจ๋‘ ์šฐ์ˆ˜ํ•จ์„ ๋ณด์—ฌ์คŒ .

4. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์  ๋ฐ ๊ธฐ์—ฌ

  • LLM in Sim-to-Real ์„ค๊ณ„: ๊ธฐ์กด LLM ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ์ž์—ฐ์–ด๋ฅผ ๊ณ ์ˆ˜์ค€ ๊ณ„ํš์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ฑฐ๋‚˜, ๋‹จ์ˆœํ•œ ํ™˜๊ฒฝ ์ƒ˜ํ”Œ๋ง ์ˆ˜์ค€์— ๊ทธ์ณค์Šต๋‹ˆ๋‹ค . DrEureka๋Š” ์ฒ˜์Œ์œผ๋กœ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๊นŒ์ง€ ํฌํ•จํ•œ Sim-to-Real ์„ค๊ณ„ ์ „์ฒด๋ฅผ LLM์ด ์ฃผ๋„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค .
  • ์ธ๊ฐ„ ๊ฐœ์ž… ์ตœ์†Œํ™”: ๊ธฐ์กด ์ปค๋ฆฌํ˜๋Ÿผ ์„ค๊ณ„๋‚˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์—ฐ๊ตฌ๋Š” ๋Œ€๋ถ€๋ถ„ ์ „๋ฌธ๊ฐ€๊ฐ€ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ”์œ„๋ฅผ ์†์œผ๋กœ ์ง€์ •ํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค . DrEureka๋Š” RAPP + LLM ์กฐํ•ฉ์œผ๋กœ ์ด๋ฅผ ์ž๋™ํ™”ํ•˜์—ฌ ํšจ์œจ์„ฑ๊ณผ ์žฌํ˜„์„ฑ์„ ๋™์‹œ์— ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค .
  • ์‹ค์„ธ๊ณ„ ์„ฑ๋Šฅ ๊ฒ€์ฆ: ๋งŽ์€ ์„ ํ–‰์—ฐ๊ตฌ๊ฐ€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋งŒ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•œ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, DrEureka๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์„ ํ†ตํ•ด ์ง์ ‘ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค . ํŠนํžˆ ์š”๊ฐ€ ๊ณต ์œ„ ๊ฑท๊ธฐ์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ์ž๋™ ์„ค๊ณ„ํ•˜๊ณ  ์„ฑ๊ณต์ ์œผ๋กœ ์ „์ดํ•œ ์‚ฌ๋ก€๋Š” ์ตœ์ดˆ์˜ ๊ฒฐ๊ณผ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค .
  • ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ LLM ํ™œ์šฉ: LLM์ด ๋ฌผ๋ฆฌ์  ์ƒ์‹(๋งˆ์ฐฐ, ์ค‘๋ ฅ, ๊ด€์„ฑ ๋“ฑ)์„ ํ™œ์šฉํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ”์œ„๋ฅผ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ์„ค์ •ํ•˜๊ณ , ๊ทธ ๊ทผ๊ฑฐ๊นŒ์ง€ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์€ AI-๋กœ๋ด‡ ๊ณตํ•™ ์œตํ•ฉ ์—ฐ๊ตฌ์—์„œ ์ค‘์š”ํ•œ ์ „ํ™˜์ ์ž…๋‹ˆ๋‹ค .

5. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ์— ๋Œ€ํ•œ ๋น„ํŒ์  ๊ณ ์ฐฐ

DrEureka๋Š” ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค .

  • ํ˜„์‹ค ํ”ผ๋“œ๋ฐฑ ๋ถ€์กฑ: ํ˜„์žฌ DrEureka๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ํ›„ ํ˜„์‹ค์— ๊ณง์žฅ ์ด์‹ํ•˜๋Š” Zero-Shot Sim-to-Real์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ˜„์‹ค์˜ ๋…ธ์ด์ฆˆยท๋งˆ์ฐฐยท์„ผ์„œ ์˜ค์ฐจ๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ์™„๋ฒฝํžˆ ๋ฐ˜์˜๋˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์ผ๋ถ€ ํ™˜๊ฒฝ์—์„œ๋Š” ์—ฌ์ „ํžˆ ์‹คํŒจํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค . โ†’ ํ–ฅํ›„ ๊ณผ์ œ: ํ˜„์‹ค ์‹คํ–‰ ๋ฐ์ดํ„ฐ๋ฅผ LLM ํ”„๋กฌํ”„ํŠธ๋กœ ๋˜๋จน์ž„ํ•˜๋Š” Sim-Real co-adaptation ๋ฃจํ”„ ํ•„์š”.

  • ๊ฐ๊ฐ ํ†ตํ•ฉ ํ•œ๊ณ„: ๋ณธ ์—ฐ๊ตฌ๋Š” proprioception ๊ธฐ๋ฐ˜ ์ œ์–ด๋งŒ ๋‹ค๋ฃจ์—ˆ๊ณ , ์‹œ๊ฐยท์ด‰๊ฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค . โ†’ ํ–ฅํ›„ ๊ณผ์ œ: ๋น„์ „/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๊นŒ์ง€ ํ†ตํ•ฉํ•ด ๋” ๋ณต์žกํ•œ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์ •์ฑ… ํ•™์Šต์œผ๋กœ ํ™•์žฅํ•ด์•ผ ํ•จ.

  • ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ’ˆ์งˆ ์˜์กด์„ฑ: DrEureka๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋ฌผ๋ฆฌ ์ถฉ์‹ค๋„๊ฐ€ ๋‚ฎ์œผ๋ฉด ํšจ๊ณผ๊ฐ€ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค . โ†’ ํ–ฅํ›„ ๊ณผ์ œ: ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์‹ ๋ขฐ์„ฑ ๊ฐœ์„  ๋˜๋Š” LLM์ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ•œ๊ณ„ ์ž์ฒด๋ฅผ ์ธ์ง€/๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ ํ•„์š”.

  • LLM ๋น„์šฉ ๋ฐ ์•ˆ์ •์„ฑ: GPT-4์™€ ๊ฐ™์€ LLM ์‚ฌ์šฉ์—๋Š” ๋น„์šฉ(๋…ผ๋ฌธ์—์„œ๋Š” ์•ฝ 15๋‹ฌ๋Ÿฌ/24์‹œ๊ฐ„)๊ณผ ์ถœ๋ ฅ ํ’ˆ์งˆ ํŽธ์ฐจ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค . โ†’ ํ–ฅํ›„ ๊ณผ์ œ: ๊ฒฝ๋Ÿ‰ํ™”๋œ LLM์ด๋‚˜ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”, ์ถœ๋ ฅ ๊ฒ€์ฆ ์ฒด๊ณ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

DrEureka๋Š” LLM์˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๋ฌผ๋ฆฌ ์ƒ์‹ ํ™œ์šฉ ๋Šฅ๋ ฅ์„ Sim-to-Real ํŒŒ์ดํ”„๋ผ์ธ์— ์ ‘๋ชฉํ•˜์—ฌ, ๋ณด์ƒ ํ•จ์ˆ˜์™€ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ์ตœ์ดˆ์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์กฑ๋ณดํ–‰, ๋กœ๋ด‡ ์† ์กฐ์ž‘, ์š”๊ฐ€ ๊ณต ๊ฑท๊ธฐ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•˜๊ณ  ๋‚œ์ด๋„ ๋†’์€ ๊ณผ์ œ์—์„œ ์‹ค์ œ ๋กœ๋ด‡ ์ „์ด ์„ฑ๊ณต์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ์ „๋ฌธ๊ฐ€ ์„ค๊ณ„ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ณด๋‹ค ๋” ๋†’์€ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค .

๋ฌผ๋ก  ์•„์ง ํ˜„์‹ค ํ”ผ๋“œ๋ฐฑ์˜ ๋ถ€์กฑ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์˜์กด์„ฑ, LLM ์‚ฌ์šฉ ๋น„์šฉ ๋“ฑ์˜ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•˜์ง€๋งŒ, DrEureka๋Š” ๋กœ๋ด‡ ์ œ์–ด ํ•™์Šต ์ž๋™ํ™”์™€ LLM ๊ธฐ๋ฐ˜ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋””์ž์ธ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•˜๋ฉฐ, ํ–ฅํ›„ ๋กœ๋ด‡ ์—ฐ๊ตฌ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ด๋Œ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

Related Works

  • Eureka ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

Copyright 2024, Jung Yeon Lee