Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • ๋…ผ๋ฌธ ๊ฐœ์š” ๋ฐ ์ฃผ์š” ๊ธฐ์—ฌ
    • Eureka ์‹œ์Šคํ…œ ๊ตฌํ˜„ (์ฝ”๋“œ ๊ตฌํ˜„ ๋ฐฉ์‹)
      • LLMโ€“ํ™˜๊ฒฝ ์ธํ„ฐํŽ˜์ด์Šค: ํ™˜๊ฒฝ ์ฝ”๋“œ ํ™œ์šฉ
      • ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€: ์ง„ํ™”์  Reward ํƒ์ƒ‰
      • Reward Reflection: ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์„ฑ๋Šฅ ํ”ผ๋“œ๋ฐฑ
      • ๊ตฌํ˜„ ์ƒ์„ธ ๋ฐ ์žฌํ˜„์„ฑ
    • ์ด๋ก ์  ๊ธฐ์—ฌ ๋ฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์„ฑ
      • ๊ธฐ์กด Reward ์„ค๊ณ„ ์ ‘๊ทผ๊ณผ Eureka์˜ ์ฐจ๋ณ„์ 
      • ์ด๋ก ์  ๊ธฐ๋ฐ˜๊ณผ ์˜์˜
      • ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ์ „๋ง
    • ๊ฒฐ๋ก 

๐Ÿ“ƒEureka ๋ฆฌ๋ทฐ

retargeting
hand
Human-Level Reward Design via Coding Large Language Models
Published

July 20, 2025

  • Paper Link
  • Project Link
  • Github Link
  1. ๐Ÿค– EUREKA๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ•ํ™” ํ•™์Šต(RL)์„ ์œ„ํ•œ Reward ํ•จ์ˆ˜๋ฅผ ์ž์œจ์ ์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ์ฝ”๋“œ ์ž‘์„ฑ ๋ฐ ์ปจํ…์ŠคํŠธ ๋‚ด ๊ฐœ์„  ๋Šฅ๋ ฅ์„ ํ†ตํ•ด Reward ์ฝ”๋“œ๋ฅผ ์ง„ํ™”์ ์œผ๋กœ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ† ์ด ์‹œ์Šคํ…œ์€ 29๊ฐ€์ง€ ๋‹ค์–‘ํ•œ RL ํ™˜๊ฒฝ์—์„œ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ค๊ณ„ํ•œ Reward๋ณด๋‹ค 83%์˜ ์ž‘์—…์—์„œ ํ‰๊ท  52% ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋ณต์žกํ•œ ํŽœ ์Šคํ”ผ๋‹๊ณผ ๊ฐ™์€ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ์ž‘์—…์„ ์ตœ์ดˆ๋กœ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  3. ๐Ÿค EUREKA๋Š” ํ™˜๊ฒฝ ์†Œ์Šค ์ฝ”๋“œ์™€ ์ธ๊ฐ„์˜ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•˜์—ฌ ์ž‘์—…๋ณ„ ํ”„๋กฌํ”„ํŠธ ์—†์ด๋„ ์ƒˆ๋กœ์šด Reward ํ•จ์ˆ˜๋ฅผ ์ž์œจ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋ฉฐ, ์ด๋Š” ์ธ๊ฐ„๊ณผ ์ •๋ ฌ๋œ ํ–‰๋™์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Brief Review

EUREKA๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡์˜ ์ €์ˆ˜์ค€(low-level) ์กฐ์ž‘ ์ž‘์—…์„ ์œ„ํ•œ Reward ํ•จ์ˆ˜(reward function)๋ฅผ ์ž๋™ ์„ค๊ณ„ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด LLM์€ ๋กœ๋ด‡์˜ ๊ณ ์ˆ˜์ค€(high-level) ์˜๋ฏธ๋ก ์  ๊ณ„ํš์—๋Š” ํƒ์›”ํ–ˆ์ง€๋งŒ, ํŽœ ๋Œ๋ฆฌ๊ธฐ์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ์ €์ˆ˜์ค€ ์กฐ์ž‘ ๊ธฐ์ˆ  ํ•™์Šต์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. Reward ํ•จ์ˆ˜ ์„ค๊ณ„๋Š” ๊ฐ•ํ™” ํ•™์Šต(RL)์—์„œ ๋งค์šฐ ์ค‘์š”ํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ์ˆ˜๋™์ ์ธ ์‹œํ–‰์ฐฉ์˜ค ๊ณผ์ •์ด ๋งŽ๊ณ  ์ตœ์ ์ด ์•„๋‹Œ Reward์„ ์ดˆ๋ž˜ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. EUREKA๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด GPT-4์™€ ๊ฐ™์€ LLM์˜ ์ฝ”๋“œ ์ž‘์„ฑ, ์ œ๋กœ์ƒท(zero-shot) ์ƒ์„ฑ, ์ธ์ปจํ…์ŠคํŠธ ๊ฐœ์„ (in-context improvement) ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์ง„ํ™”์  ์ตœ์ ํ™”(evolutionary optimization)๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

EUREKA์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ค๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

  1. ํ™˜๊ฒฝ์„ ์ปจํ…์ŠคํŠธ๋กœ ์ œ๊ณต(Environment as Context)ํ•ฉ๋‹ˆ๋‹ค. EUREKA๋Š” ํ™˜๊ฒฝ์˜ ์›๋ณธ ์†Œ์Šค ์ฝ”๋“œ(Reward ์ฝ”๋“œ ์ œ์™ธ)๋ฅผ LLM์— ์ง์ ‘ ์ž…๋ ฅํ•˜์—ฌ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ Reward ํ•จ์ˆ˜๋ฅผ ์ œ๋กœ์ƒท์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” LLM์ด ํ™˜๊ฒฝ์˜ ์ƒํƒœ(state) ๋ฐ ์•ก์…˜(action) ๋ณ€์ˆ˜์— ์ ‘๊ทผํ•˜๊ณ  ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ Reward ํ•จ์ˆ˜๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” LLM์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ(context window) ํ•œ๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ํ™˜๊ฒฝ์˜ ์ƒํƒœ ๋ฐ ์•ก์…˜ ๋ณ€์ˆ˜๋ฅผ ๋…ธ์ถœํ•˜๊ณ  ์™„์ „ํžˆ ๋ช…์‹œํ•˜๋Š” ์ฝ”๋“œ ์Šค๋‹ˆํŽซ๋งŒ์„ ์ž๋™ ์ถ”์ถœํ•˜์—ฌ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ ๋ฐฉ์‹ ๋•๋ถ„์— EUREKA๋Š” ํ™˜๊ฒฝ๋ณ„ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด๋‚˜ Reward ํ…œํ”Œ๋ฆฟ ์—†์ด๋„ ์ฒซ ์‹œ๋„์— ํƒ€๋‹นํ•œ Reward ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, fingertip pos์™€ ๊ฐ™์€ ๊ธฐ์กด ๊ด€์ธก ๋ณ€์ˆ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์œ ๋Šฅํ•œ Reward ์ฝ”๋“œ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  2. ์ง„ํ™”์  ํƒ์ƒ‰(Evolutionary Search)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. EUREKA๋Š” ์ดˆ๊ธฐ Reward ํ•จ์ˆ˜์˜ ์ž ์žฌ์ ์ธ ์˜ค๋ฅ˜๋‚˜ sub-optimality์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ˜๋ณต์ ์œผ๋กœ Reward ํ›„๋ณด๋“ค์„ ์ œ์•ˆํ•˜๊ณ  ๊ฐ€์žฅ ์œ ๋งํ•œ ๊ฒƒ๋“ค์„ LLM ์ปจํ…์ŠคํŠธ ๋‚ด์—์„œ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ฐ˜๋ณต๋งˆ๋‹ค LLM์œผ๋กœ๋ถ€ํ„ฐ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ Reward ํ•จ์ˆ˜๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด์ „ ๋ฐ˜๋ณต์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋˜ Reward ํ•จ์ˆ˜์™€ ๊ทธ์— ๋Œ€ํ•œ Reward ๋ฐ˜์˜(reward reflection)์„ ๋‹ค์Œ ๋ฐ˜๋ณต์˜ ์ปจํ…์ŠคํŠธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ K๊ฐœ์˜ ์ƒˆ๋กœ์šด Reward ํ•จ์ˆ˜๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ง€์ •๋œ ๋ฐ˜๋ณต ํšŸ์ˆ˜(์˜ˆ: 5ํšŒ)๊นŒ์ง€ ๊ณ„์†๋˜๋ฉฐ, ๋” ๋‚˜์€ ์ตœ์ ์ ์„ ์ฐพ๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ฌด์ž‘์œ„ ์žฌ์‹œ์ž‘(random restarts)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. EUREKA๋Š” ์ด ์ง„ํ™”์  ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์ดˆ๊ธฐ์—๋Š” ์ข‹์ง€ ์•Š์•˜๋˜ ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ๊ฐœ์„ ๋˜์–ด ๊ถ๊ทน์ ์œผ๋กœ ์ธ๊ฐ„ ์„ค๊ณ„ Reward์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  3. Reward ๋ฐ˜์˜(Reward Reflection) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ƒ์„ฑ๋œ Reward ํ•จ์ˆ˜์˜ ํ’ˆ์งˆ์„ ํ…์ŠคํŠธ๋กœ ์š”์•ฝํ•˜๋Š” ์ž๋™ํ™”๋œ ํ”ผ๋“œ๋ฐฑ์ž…๋‹ˆ๋‹ค. EUREKA๋Š” Reward ํ•จ์ˆ˜๊ฐ€ ๊ฐœ๋ณ„ Reward ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ์‚ฌ์ „ ํ˜•ํƒœ๋กœ ๋…ธ์ถœํ•˜๋„๋ก ์š”์ฒญํ•˜๋ฉฐ, Reward ๋ฐ˜์˜์€ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ์ด๋“ค ๊ตฌ์„ฑ ์š”์†Œ์˜ ์Šค์นผ๋ผ ๊ฐ’๊ณผ ์ „์ฒด ์ž‘์—… ์ ํ•ฉ๋„ ํ•จ์ˆ˜(task fitness function)์˜ ์Šค๋ƒ…์ƒท ๊ฐ’์„ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, av penalty์™€ ๊ฐ™์€ ๊ฐœ๋ณ„ Reward ๊ตฌ์„ฑ ์š”์†Œ ๊ฐ’์˜ ๋ชฉ๋ก์ด ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ž‘์—… ์ ํ•ฉ๋„ ํ•จ์ˆ˜ ์ž์ฒด๋งŒ์œผ๋กœ๋Š” ์‹ ์šฉ ํ• ๋‹น(credit assignment)์— ๋Œ€ํ•œ ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€ ๋ชปํ•˜๊ณ , Reward ์ตœ์ ํ™”๊ฐ€ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์ • ์„ ํƒ์— ์˜์กดํ•œ๋‹ค๋Š” ์  ๋•Œ๋ฌธ์— ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Reward ๋ฐ˜์˜์€ LLM์ด ๋ณด๋‹ค ๋ณต์žกํ•˜๊ณ  ๋ชฉํ‘œ ์ง€ํ–ฅ์ ์ธ Reward ํŽธ์ง‘์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ƒ์„ธํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, EUREKA๋Š” 10๊ฐ€์ง€ ๋กœ๋ด‡ ํ˜•ํƒœ๋ฅผ ํฌํ•จํ•œ 29๊ฐœ์˜ ์˜คํ”ˆ์†Œ์Šค RL ํ™˜๊ฒฝ์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ค๊ณ„ํ•œ Reward ํ•จ์ˆ˜๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. 83%์˜ ํƒœ์Šคํฌ์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๋ฅผ ๋Šฅ๊ฐ€ํ–ˆ์œผ๋ฉฐ, ํ‰๊ท  52%์˜ ์ •๊ทœํ™”๋œ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •๊ทœํ™”๋œ ๊ฐœ์„  ์ ์ˆ˜ \frac{\text{Method}-\text{Sparse}}{|\text{Human}-\text{Sparse}|}๋กœ ํ‰๊ฐ€ํ–ˆ์„ ๋•Œ, EUREKA๋Š” ์ธ๊ฐ„ Reward๊ณผ L2R(Language-to-Rewards)์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ณ ์ฐจ์› ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ๋” ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. EUREKA๋Š” ์ˆ˜๋™ Reward ์—”์ง€๋‹ˆ์–ด๋ง์œผ๋กœ๋Š” ์ด์ „์— ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ํŽœ ๋Œ๋ฆฌ๊ธฐ(pen spinning)์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ํƒœ์Šคํฌ๋ฅผ ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต(curriculum learning)๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์„ฑ๊ณต์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, EUREKA๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ๋ถ€ํ„ฐ์˜ ๊ฐ•ํ™” ํ•™์Šต(RLHF)์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ๊ฒฝ์‚ฌ๋„ ์—†๋Š”(gradient-free) ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ, ๊ธฐ์กด ์ธ๊ฐ„ Reward ํ•จ์ˆ˜๋ฅผ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜ ์ˆœ์ˆ˜ํ•œ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ์ธ๊ฐ„ ์˜๋„์— ๋” ๋ถ€ํ•ฉํ•˜๋Š” Reward์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์ด ๊ด€๋ จ ์ƒํƒœ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ธ๊ฐ„์˜ ์ง€์‹๊ณผ Reward ์„ค๊ณ„ ์ˆ™๋ จ๋„์˜ ๋ถ€์กฑ์„ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ EUREKA๋Š” LLM๊ณผ ์ง„ํ™”์  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฐ„๋‹จํ•œ ์›๋ฆฌ๊ฐ€ Reward ์„ค๊ณ„์™€ ๊ฐ™์€ ์–ด๋ ค์šด ๊ฐœ๋ฐฉํ˜• ํƒ์ƒ‰ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ผ๋ฐ˜์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


Detail Review

๋…ผ๋ฌธ ๊ฐœ์š” ๋ฐ ์ฃผ์š” ๊ธฐ์—ฌ

Eureka (Evolution-driven Universal REward Kit for Agent)์€ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ๊ฐ•ํ™”ํ•™์Šต์˜ Reward ํ•จ์ˆ˜๋ฅผ ์ž๋™์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ GPT-4์™€ ๊ฐ™์€ ์ฝ”๋“œ ์ƒ์„ฑ ํŠนํ™” LLM์˜ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ๋˜๋Š” ๊ทธ ์ด์ƒ์˜ ํ’ˆ์งˆ์„ ๊ฐ€์ง„ Reward ํ•จ์ˆ˜๋ฅผ ์ž๋™ ์ƒ์„ฑ ๋ฐ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ 29๊ฐœ์˜ ๊ณต๊ฐœ RL ํ™˜๊ฒฝ(๋กœ๋ด‡ํ˜•์ƒ 10์ข… ํฌํ•จ)์—์„œ ์‹คํ—˜ํ•˜์—ฌ, Eureka๊ฐ€ 83%์˜ ๊ณผ์ œ์—์„œ ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ Reward์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  ํ‰๊ท  52%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ ๊ณ ์ฐจ์› ์กฐ์ž‘ ์ž‘์—…(์˜ˆ: 5์ง€ ๋กœ๋ด‡ ์†์œผ๋กœ ํŽœ ๋Œ๋ฆฌ๊ธฐ)์—์„œ๋„ ๊ธฐ์กด ์ˆ˜์ž‘์—… Reward์œผ๋กœ ๋‹ฌ์„ฑํ•˜๊ธฐ ์–ด๋ ค์› ๋˜ ์„ฑ๊ณต์„ ์ฒ˜์Œ์œผ๋กœ ์‹คํ˜„ํ•ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Eureka๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ Reward ์„ค๊ณ„์— ํ†ตํ•ฉํ•˜์—ฌ ์—์ด์ „ํŠธ์˜ ํ–‰๋™์„ ์ธ๊ฐ„ ์„ ํ˜ธ์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์˜ RLHF(๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝ์—์„œ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ™œ์šฉ)๋„ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์€ ์•„๋ž˜์™€ ๊ฐ™์€ ์„ธ ๊ฐ€์ง€ ์ฃผ๋œ ๊ธฐ์—ฌ๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค:

  1. ๋ฒ”์šฉ์  Reward ์„ค๊ณ„ ์„ฑ๋Šฅ โ€“ ์‚ฌ์ „ ์ •์˜๋œ ํ…œํ”Œ๋ฆฟ์ด๋‚˜ ๊ณผ์ œ๋ณ„ ํ”„๋กฌํ”„ํŠธ ์—†์ด๋„ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์˜ ๊ณผ์ œ์—์„œ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ Reward ํ•จ์ˆ˜๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜์—ฌ, ๋Œ€๋ถ€๋ถ„์˜ ๊ณผ์ œ์—์„œ ์ธ๊ฐ„ Reward๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  2. ์‹ ๊ทœ ๋‚œ์ œ ํ•ด๊ฒฐ โ€“ ๊ธฐ์กด์— ์ˆ˜์ž‘์—… Reward์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ณ ๋‚œ๋„ ์กฐ์ž‘ ๊ณผ์ œ(์˜ˆ: ํŽœ ํšŒ์ „)๋ฅผ Eureka Reward๊ณผ ๊ต์œก๊ณผ์ • ํ•™์Šต(curriculum learning)์„ ํ†ตํ•ด ์ตœ์ดˆ๋กœ ์„ฑ๊ณต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Eureka๊ฐ€ ๋ณต์žกํ•œ ์Šคํ‚ฌ ํ•™์Šต์„ ๊ฒฌ์ธํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

  3. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ โ€“ ๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹ ์—†์ด๋„ ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ Reward ํ•จ์ˆ˜ ๊ฐœ์„ ์— ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด gradient-free RLHF ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. Eureka๋Š” ๊ธฐ์กด ์ธ๊ฐ„ Reward ํ•จ์ˆ˜๋ฅผ ์ถœ๋ฐœ์ ์œผ๋กœ ์‚ผ์•„ ๋” ๋‚˜์€ Reward์œผ๋กœ ๊ฐœ์„ ํ•˜๊ฑฐ๋‚˜, ์˜ค์ง ํ…์ŠคํŠธ ํ˜•ํƒœ์˜ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ๋งŒ์œผ๋กœ ์—์ด์ „ํŠธ ํ–‰๋™์„ ์‚ฌ๋žŒ์ด ์„ ํ˜ธํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์กฐ์œจํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ธฐ์—ฌ๋ฅผ ํ†ตํ•ด Eureka๋Š” ์ธ๊ฐ„ ์ˆ˜์ค€์˜ Reward ์„ค๊ณ„๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. Reward ํ•จ์ˆ˜ ์„ค๊ณ„์˜ ์–ด๋ ค์›€์€ ์˜ค๋žซ๋™์•ˆ RL์˜ ๋ณ‘๋ชฉ์œผ๋กœ ์ง€์ ๋˜์–ด ์™”๋Š”๋ฐ, ์—ฐ๊ตฌ ์กฐ์‚ฌ์— ๋”ฐ๋ฅด๋ฉด 92%์˜ RL ์—ฐ๊ตฌ์ž๋“ค์ด Reward ์„ค๊ณ„๋ฅผ ์‹œํ–‰์ฐฉ์˜ค์— ์˜์กดํ•˜๊ณ  89%๋Š” ์ž์‹ ๋“ค์˜ Reward์ด ์ตœ์  ์ดํ•˜์ด๋ฉฐ ์˜๋„์น˜ ์•Š์€ ํ–‰๋™์„ ์œ ๋ฐœํ•œ ๊ฒฝํ—˜์ด ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. Eureka๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด LLM ๊ธฐ๋ฐ˜์˜ ๋ฒ”์šฉ Reward ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ฌป๊ณ , ์ด๋ฅผ ๊ตฌํ˜„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Eureka ์‹œ์Šคํ…œ ๊ตฌํ˜„ (์ฝ”๋“œ ๊ตฌํ˜„ ๋ฐฉ์‹)

Eureka๋Š” โ€œํ™˜๊ฒฝ์„ ์ดํ•ดํ•˜๋Š” LLMโ€๊ณผ โ€œ๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝโ€์„ ์—ฐ๊ฒฐํ•˜์—ฌ Reward ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ™˜๊ฒฝ ์ •๋ณด์™€ ๊ณผ์ œ ์„ค๋ช…์„ ์ž…๋ ฅ์œผ๋กœ LLM์ด ํŒŒ์ด์ฌ Reward ํ•จ์ˆ˜ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๊ณ , ์ด๋ฅผ RL ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰ํ•˜์—ฌ ์ •์ฑ… ํ•™์Šต ์„ฑ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•œ ๋’ค, ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ LLM์— ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ œ๊ณตํ•˜์—ฌ Reward ํ•จ์ˆ˜๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์€ Eureka ์‹œ์Šคํ…œ์˜ ํ๋ฆ„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Eureka ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š” โ€“ ํ™˜๊ฒฝ ์†Œ์Šค ์ฝ”๋“œ์™€ ๊ณผ์ œ ์ž์—ฐ์–ด ์„ค๋ช…์„ LLM(GPT-4)์— ์ปจํ…์ŠคํŠธ๋กœ ์ œ๊ณตํ•˜๋ฉด, LLM์ด ์ฆ‰์‹œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ Reward ํ•จ์ˆ˜ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ Reward ํ•จ์ˆ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ GPU ๊ฐ€์† ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(์˜ˆ: NVIDIA Isaac Gym)์—์„œ ์—์ด์ „ํŠธ์˜ ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์„ ํ›ˆ๋ จํ•˜๊ณ , ํ•™์Šต ํ†ต๊ณ„(์—ํ”ผ์†Œ๋“œ ์„ฑ๊ณต๋ฅ , Reward ๊ตฌ์„ฑ์š”์†Œ ๊ฐ’ ๋ณ€ํ™” ๋“ฑ)๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ โ€œReward ์„ฑ์ฐฐ (reward reflection)โ€ ๋‹จ๊ณ„์—์„œ LLM์— ํ•™์Šต ํ”ผ๋“œ๋ฐฑ(์˜ˆ: Reward ๊ตฌ์„ฑ๋ณ„ ๊ฐ’ ์ถ”์ด, ์ •์ฑ… ์„ฑ๋Šฅ ์ง€ํ‘œ ๋“ฑ)์„ ์š”์•ฝ๋œ ํ…์ŠคํŠธ๋กœ ์ „๋‹ฌํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ Reward ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •/๊ฐœ์„ ํ•˜๋„๋ก ์ƒˆ๋กœ์šด Reward ์ฝ”๋“œ ์ƒ์„ฑ์„ ์š”์ฒญํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ฝ”๋“œ ์ƒ์„ฑ โ†’ RLํ›ˆ๋ จ โ†’ ํ”ผ๋“œ๋ฐฑ โ†’ ์ฝ”๋“œ ์ˆ˜์ •์˜ ๋ฐ˜๋ณต ๋ฃจํ”„๋ฅผ ํ†ตํ•ด Reward ํ•จ์ˆ˜๋Š” ์ ์ง„์ ์œผ๋กœ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

LLMโ€“ํ™˜๊ฒฝ ์ธํ„ฐํŽ˜์ด์Šค: ํ™˜๊ฒฝ ์ฝ”๋“œ ํ™œ์šฉ

Eureka์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด ์ค‘ ํ•˜๋‚˜๋Š” ํ™˜๊ฒฝ์„ ๊ทธ๋Œ€๋กœ LLM์— ๋งฅ๋ฝ์œผ๋กœ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ™˜๊ฒฝ์˜ Python ์†Œ์Šค์ฝ”๋“œ์—์„œ ์ƒํƒœ(observation)์™€ ํ–‰๋™(action) ๋ณ€์ˆ˜ ์ •์˜ ๋ถ€๋ถ„์„ ์ถ”์ถœํ•˜์—ฌ, ํ•ด๋‹น ํ™˜๊ฒฝ ํด๋ž˜์Šค/ํ•จ์ˆ˜ ์ฝ”๋“œ ์ž์ฒด๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๊ณผ์ œ(task) ์„ค๋ช… ๋ฌธ์ž์—ด์„ ์ถ”๊ฐ€ํ•˜์—ฌ, LLM์—๊ฒŒ โ€œ์ด ํ™˜๊ฒฝ์—์„œ ์ฃผ์–ด์ง„ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•  Reward ํ•จ์ˆ˜๋ฅผ ์ž‘์„ฑํ•˜๋ผโ€๋Š” ์ง€์‹œ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ โ€œํ™˜๊ฒฝ ์ž์ฒด๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœโ€ ์ œ๊ณตํ•˜๋Š” ์ ‘๊ทผ์€ ๋‘ ๊ฐ€์ง€ ์ด์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

  • ์ง๊ด€์ ์ธ ์ฝ”๋“œ ์ž‘์„ฑ ๋งฅ๋ฝ: LLM์ด ์ด๋ฏธ ํ•™์Šตํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์™€ ํ™˜๊ฒฝ์˜ ๋ณ€์ˆ˜๋ช…์„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•˜์—ฌ, ์ต์ˆ™ํ•œ ํ˜•์‹์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLM์ด ์ผ๋ฐ˜์ ์ธ ์ž์—ฐ์–ด ์„ค๋ช…๋ณด๋‹ค ์ •ํ™•ํžˆ ํ•„์š”ํ•œ Reward ํ•ญ๋ชฉ์„ ํฌ์ฐฉํ•˜์—ฌ ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

  • ํ™˜๊ฒฝ ์ •๋ณด์˜ ์ด์ฒด์  ์ œ๊ณต: ํ™˜๊ฒฝ ์ฝ”๋“œ์—๋Š” ๊ณผ์ œ์˜ ์ƒํƒœ๊ณต๊ฐ„๊ณผ ๋™์—ญํ•™์— ๋Œ€ํ•œ ๋‹จ์„œ๊ฐ€ ๋‚ดํฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ด€์ ˆ๊ฐ, ๋ชฉํ‘œ ์œ„์น˜ ๋“ฑ์˜ ๋ณ€์ˆ˜๋ช…์ด ์ฃผ์–ด์ง€๋ฏ€๋กœ, LLM์€ ์–ด๋–ค ๋ณ€์ˆ˜๋“ค์ด Reward์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ์ผ์ผ์ด ์•Œ๋ ค์ฃผ์ง€ ์•Š์•„๋„, ํ™˜๊ฒฝ์ด ํ—ˆ์šฉํ•˜๋Š” ๋ชจ๋“  ๊ด€์ธก์น˜์— ๊ธฐ๋ฐ˜ํ•ด Reward ํ•จ์ˆ˜๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ค‘์š”ํ•œ ์ ์€, Eureka๋Š” ํŠน์ • ๊ณผ์ œ์— ๋งž์ถ˜ ์ถ”๊ฐ€ ํžŒํŠธ ์—†์ด๋„ ์ด ๋ฐฉ์‹๋งŒ์œผ๋กœ ํƒ€๋‹นํ•ด ๋ณด์ด๋Š” ์ดˆ๊ธฐ Reward ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ณ„๋„ ํ…œํ”Œ๋ฆฟ ์—†์ด๋„ GPT-4๋Š” ํ™˜๊ฒฝ ์ฝ”๋“œ์— ๋‚˜์˜ค๋Š” fingertip_pos ๋“ฑ ๊ด€์ธก ๋ณ€์ˆ˜๋ฅผ ์ด์šฉํ•ด ํ•ฉ๋ฆฌ์ ์ธ Reward ๊ณต์‹์„ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์ด๋ ‡๊ฒŒ ์ฒซ ์‹œ๋„์—์„œ ์ƒ์„ฑ๋œ Reward ํ•จ์ˆ˜๋Š” ๋ฌธ๋ฒ• ์˜ค๋ฅ˜๊ฐ€ ์žˆ๊ฑฐ๋‚˜, ์‹คํ–‰๋˜๋”๋ผ๋„ ์„ฑ๋Šฅ์ด ๋ฏธํกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Eureka๋Š” ํ•œ ๋ฒˆ์˜ ์ƒ์„ฑ์— ๊ทธ์น˜์ง€ ์•Š๊ณ  ๋ฐ˜๋ณต์  ๊ฐœ์„  ์ ˆ์ฐจ๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค.

์ฐธ๊ณ : ํ™˜๊ฒฝ ์ฝ”๋“œ๊ฐ€ ๋„ˆ๋ฌด ๊ธธ ๊ฒฝ์šฐ๋ฅผ ๋Œ€๋น„ํ•ด, ์ €์ž๋“ค์€ ์ž๋™ ์Šคํฌ๋ฆฝํŠธ๋กœ ์ค‘์š”ํ•œ ๋ถ€๋ถ„๋งŒ ์ถ”์ถœํ•˜์—ฌ LLM ์ปจํ…์ŠคํŠธ ๊ธธ์ด์— ๋งž๊ฒŒ ์กฐ์ ˆํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ข…์†์ ์ธ ๋‚ด๋ถ€ ์ฝ”๋“œ(์˜ˆ: ๋ฌผ๋ฆฌ์—”์ง„ ์„ธ๋ถ€ ์„ค์ •)๋Š” ์ œ์™ธํ•˜์—ฌ, ๋‹ค๋ฅธ ํ™˜๊ฒฝ์—๋„ ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ๋Š” ๋งฅ๋ฝ๋งŒ ์ œ๊ณตํ•˜๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€: ์ง„ํ™”์  Reward ํƒ์ƒ‰

Eureka๋Š” ์ง„ํ™”์  ํƒ์ƒ‰(evolutionary search) ์ „๋žต์„ ํ†ตํ•ด, LLM์ด ์ƒ์„ฑํ•œ Reward ์ฝ”๋“œ์˜ ํ’ˆ์งˆ์„ ์ ์ฆ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค:

  • ๋‹ค์ˆ˜ ํ›„๋ณด ์ƒ์„ฑ โ€“ ๊ฐ ๋ฐ˜๋ณต(iteration) ๋‹จ๊ณ„๋งˆ๋‹ค LLM์—๊ฒŒ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ๋…๋ฆฝ์ ์œผ๋กœ ์‹คํ–‰ํ•˜์—ฌ K๊ฐœ์˜ Reward ํ•จ์ˆ˜ ํ›„๋ณด๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์„ค์ •์œผ๋กœ ํ•œ ๋ฒˆ์— K=16๊ฐœ์˜ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š”๋ฐ, ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ตœ์†Œ ํ•˜๋‚˜ ์ด์ƒ์˜ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ฝ”๋“œ๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค (์ €์ž์— ๋”ฐ๋ฅด๋ฉด 16๊ฐœ ์ค‘ ์ ์–ด๋„ 1๊ฐœ๋Š” ์˜ค๋ฅ˜ ์—†์ด ์‹คํ–‰๋˜์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค). LLM์˜ ์ถœ๋ ฅ์„ ๋‹ค์ˆ˜ ํ™•๋ณดํ•จ์œผ๋กœ์จ, ๋‹จ์ผ ์‹œ๋„ ์‹œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์ฝ”๋“œ ์˜ค๋ฅ˜ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ‰๊ฐ€ โ€“ ์ƒ์„ฑ๋œ ๊ฐ Reward ํ•จ์ˆ˜์— ๋Œ€ํ•ด, ๋™์‹œ์— RL ์—์ด์ „ํŠธ๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. NVIDIA Isaac Gym๊ณผ ๊ฐ™์€ GPU ๊ฐ€์† ํ™˜๊ฒฝ์„ ์ด์šฉํ•˜์—ฌ ์—ฌ๋Ÿฌ ์ •์ฑ…์„ ๋ณ‘๋ ฌ๋กœ ํ›ˆ๋ จํ•จ์œผ๋กœ์จ, ์ˆ˜์‹ญ ๊ฐœ Reward์— ๋Œ€ํ•œ ํ‰๊ฐ€๋ฅผ ์‹ ์†ํžˆ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Isaac Gym์„ ํ†ตํ•ด ์ •์ฑ… ํ•™์Šต ์†๋„๊ฐ€ CPU ๋Œ€๋น„ ์ตœ๋Œ€ 1000๋ฐฐ๊นŒ์ง€ ๊ฐ€์†๋˜์—ˆ์Œ์„ ์–ธ๊ธ‰ํ•˜๋ฉฐ, ๋Œ€๊ทœ๋ชจ Reward ํƒ์ƒ‰์„ ํ˜„์‹คํ™”ํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ–ˆ๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. (๊ตฌ์ฒด์ ์œผ๋กœ ์–ด๋–ค RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ–ˆ๋Š”์ง€๋Š” Isaac Gym ๊ธฐ๋ณธ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜(PPO ๋“ฑ)์œผ๋กœ ์ถ”์ •๋˜๋ฉฐ, GPT-4 ๋“ฑ LLM๊ณผ๋Š” ๋ณ„๊ฐœ๋กœ ์ „ํ†ต์  RL ํ•™์Šต์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.)

  • ์ตœ๊ณ  ์„ฑ๋Šฅ Reward ์„ ํƒ โ€“ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ(score)์„ ๋‚ธ Reward ํ•จ์ˆ˜๋ฅผ ์šฐ์„  ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฒ ์ŠคํŠธ ํ›„๋ณด๋Š” ์ดํ›„ LLM ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ๋˜์–ด, ๋‹ค์Œ ์„ธ๋Œ€ Reward ์ฝ”๋“œ ์ƒ์„ฑ์— ์ฐธ์กฐ ์˜ˆ์‹œ(context)๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ด์ „ ์„ธ๋Œ€์˜ ์šฐ์ˆ˜ํ•œ Reward์„ ๋งฅ๋ฝ์— ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ, LLM์ด ๊ธฐ์กด Reward์˜ ๊ตฌ์กฐ์™€ ์„ฑ๋Šฅ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ฐœ์„ ๋œ ๋ณ€ํ˜•์„ ๋งŒ๋“ค๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฐ˜๋ณต ๋ฐ ๋‹ค์ค‘ ์‹œ๋„ โ€“ ์œ„ ๊ณผ์ •์„ N๋ฒˆ ๋ฐ˜๋ณตํ•˜์—ฌ Reward์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ๋…๋ฆฝ์ ์ธ ๊ฒ€์ƒ‰ ์‹œ๋„(random restarts)๋„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์‹คํ—˜์—์„œ๋Š” 5ํšŒ ๋…๋ฆฝ ์‹คํ–‰ํ•˜์—ฌ ๊ฐ 5์„ธ๋Œ€(iterations)์”ฉ ํƒ์ƒ‰ํ–ˆ๊ณ , ์ตœ์ข…์ ์œผ๋กœ ์–ป์€ ์ตœ๊ณ  ์„ฑ๋Šฅ Reward ํ•จ์ˆ˜๋ฅผ ๊ฒฐ๊ณผ๋ฌผ๋กœ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. (๋‹ค์ค‘ ์‹œ์ž‘์€ ์ „์—ญ ์ตœ์ ํ•ด๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•œ ํ‘œ์ค€ ๊ธฐ๋ฒ•์œผ๋กœ, ์ดˆ๊ธฐ ์ƒ˜ํ”Œ๋ง์— ์šด ๋‚˜์˜๊ฒŒ ๊ฑธ๋ ธ์„ ๊ฒฝ์šฐ๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.)

์ง„ํ™”์  ํƒ์ƒ‰ ๊ณผ์ •์—์„œ LLM์€ ๋‘ ๊ฐ€์ง€ ๋ชจ๋“œ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ฒ˜์Œ 1์„ธ๋Œ€์—์„œ๋Š” ์˜ค์ง ํ™˜๊ฒฝ ์ฝ”๋“œ+๊ณผ์ œ์„ค๋ช… ๋งŒ์œผ๋กœ โ€œ์ œ๋กœ์ƒทโ€ Reward ์ƒ์„ฑ์„ ์ˆ˜ํ–‰ํ•˜๊ณ , 2์„ธ๋Œ€๋ถ€ํ„ฐ๋Š” ์ด์ „ ์ตœ๊ณ  Reward๊ณผ ์ถ”๊ฐ€ ์ง€์‹œ๋ฅผ ๋งฅ๋ฝ์— ํฌํ•จํ•ด โ€œ๋ณ€์ด(mutation)โ€ ์ƒ์„ฑ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณ€์ด๋ฅผ ์œ ๋„ํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ํ”„๋กฌํ”„ํŠธ์— ๊ฐ„๋‹จํ•œ ํ…์ŠคํŠธ ์ง€์นจ(์˜ˆ: โ€œ์ด Reward ํ•จ์ˆ˜๋ฅผ ์•ฝ๊ฐ„ ์ˆ˜์ •ํ•˜์—ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ด๋„๋ก ํ•ด๋ณด์„ธ์š”โ€)์„ ์ถ”๊ฐ€ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ง€์นจ์€ ๊ตฌ์ฒด์ ์ธ ์ˆ˜์ • ๋ฐฉํ–ฅ์„ ๊ฐ•์š”ํ•˜์ง€ ์•Š๊ณ ๋„, LLM์ด ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ Reward ๋ณ€ํ˜•์„ ์‹œ๋„ํ•˜๊ฒŒ ๋•์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ Eureka๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๊ฐœ์„ ๋“ค์€ (1) ๊ธฐ์กด Reward ์„ฑ๋ถ„์˜ ๊ฐ€์ค‘์น˜ ๋“ฑ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •, (2) ๊ธฐ์กด ์„ฑ๋ถ„์˜ ์ˆ˜์‹ ํ˜•ํƒœ ๋ณ€๊ฒฝ, (3) ์™„์ „ํžˆ ์ƒˆ๋กœ์šด Reward ์„ฑ๋ถ„ ์ถ”๊ฐ€** ๋“ฑ ๋งค์šฐ ์ž์œ ๋„ ๋†’์€ ๋ณ€ํ™”๋“ค์„ ํฌ๊ด„ํ–ˆ์Šต๋‹ˆ๋‹ค. Fig.3 (๋…ผ๋ฌธ ์˜ˆ์‹œ ๊ทธ๋ฆผ)์—์„œ๋„ ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ Reward ์ˆ˜์ •์ด ์‹œ๊ฐํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Eureka์˜ ํƒ์ƒ‰์€ ํญ๋„“์€ Reward ๊ณต๊ฐ„์—์„œ LLM์˜ ์ƒ์„ฑ ๋‹ค์–‘์„ฑ๊ณผ ๋ณ‘๋ ฌ RLํ‰๊ฐ€๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์šฐ์ˆ˜ํ•œ Reward ํ•จ์ˆ˜๋ฅผ ์ง„ํ™”์ ์œผ๋กœ ์ฐพ์•„๊ฐ€๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์— ์‚ฌ๋žŒ์ด ์ˆ˜๋™์œผ๋กœ Reward์„ ํŠœ๋‹ํ•˜๋˜ ์‹œํ—˜-์˜ค๋ฅ˜ ๊ณผ์ •์„ ์ž๋™ํ™”ํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Reward Reflection: ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์„ฑ๋Šฅ ํ”ผ๋“œ๋ฐฑ

Eureka๊ฐ€ LLM์„ ํ†ตํ•ด Reward์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š”, RL ํ›ˆ๋ จ ๊ฒฐ๊ณผ๋ฅผ ์–ด๋–ป๊ฒŒ๋“  LLM์— ์ดํ•ด์‹œํ‚ฌ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ โ€œํ˜„์žฌ ์ ์ˆ˜ = Xโ€์™€ ๊ฐ™์€ ์ˆซ์ž ์„ฑ์ ๋งŒ ์ œ๊ณตํ•˜๋ฉด, LLM์€ ์–ด๋–ป๊ฒŒ Reward์„ ๋ฐ”๊ฟ”์•ผ ํ• ์ง€ ๊ฐ์„ ์žก๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋„์ž…๋œ ๊ฐœ๋…์ด โ€œReward ์„ฑ์ฐฐ (reward reflection)โ€์ž…๋‹ˆ๋‹ค.

Reward ์„ฑ์ฐฐ์ด๋ž€, ์ •์ฑ… ํ•™์Šต ๊ณผ์ •์˜ ํ•ต์‹ฌ ๋™ํ–ฅ์„ ์š”์•ฝํ•œ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ์„œ, LLM์ด Reward ํ•จ์ˆ˜์˜ ์žฅ๋‹จ์ ์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. Eureka๋Š” ์ด๋ฅผ ์œ„ํ•ด Reward ํ•จ์ˆ˜๋ฅผ ํŠน๋ณ„ํ•œ ํ˜•์‹์œผ๋กœ ์ž‘์„ฑํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค: Reward ํ•จ์ˆ˜๊ฐ€ ๊ฐ ์‹œ์ ์— ๊ณ„์‚ฐํ•˜๋Š” ๊ฐœ๋ณ„ Reward ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ๋”•์…”๋„ˆ๋ฆฌ๋กœ ์ถœ๋ ฅํ•˜๊ฒŒ ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŽœ ํšŒ์ „ ๊ณผ์ œ๋ผ๋ฉด Reward ํ•จ์ˆ˜๊ฐ€ "orientation_bonus", "angular_velocity_penalty" ๋“ฑ์˜ ์„ฑ๋ถ„๋ณ„ ๊ฐ’์„ ๋งค ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‹จ๊ณ„๋งˆ๋‹ค ์‚ฐ์ถœํ•˜์—ฌ, ์ด Reward ์™ธ์— ๊ตฌ์„ฑ๋ณ„ ๊ฐ’์„ ๊ธฐ๋กํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด RL ํ›ˆ๋ จ ๋™์•ˆ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Eureka๋Š” ์ •ํ•ด์ง„ ๊ฐ„๊ฒฉ๋งˆ๋‹ค (์˜ˆ: ํ›ˆ๋ จ์˜ 20%, 40%, โ€ฆ ์ง„ํ–‰ ์‹œ์ ) ์ •์ฑ…์˜ ์„ฑ๋Šฅ๊ณผ Reward ๊ตฌ์„ฑ๊ฐ’ ํ†ต๊ณ„๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ, ์ด๋ฅผ ์‚ฌ๋žŒ ์ฝ๊ธฐ ์ข‹์€ ํ˜•ํƒœ๋กœ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ์‹œ: ๋…ผ๋ฌธ์—์„œ๋Š” av_penalty (๊ฐ์†๋„ ํŒจ๋„ํ‹ฐ)๋ผ๋Š” ๊ตฌ์„ฑ์š”์†Œ์˜ ๊ฐ’์ด ํ›ˆ๋ จ ์ดˆ๊ธฐ์— ๋†’๋‹ค๊ฐ€ ๋‚˜์ค‘์— ๋‚ฎ์•„์ง€๋Š” ์ถ”์„ธ๋ฅผ ๋ณด์ธ ๊ฒฝ์šฐ๋ฅผ ์˜ˆ๋กœ ๋“ญ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ •๋ณด๋ฅผ ํ…์ŠคํŠธ๋กœ โ€œav_penalty ๊ฐ’์ด ์ ์ฐจ ๊ฐ์†Œํ–ˆ๋‹คโ€, โ€œ์„ฑ๊ณต๋ฅ ์€ ์ดˆ๊ธฐ 0.1์—์„œ ์ตœ์ข… 0.9๋กœ ์ƒ์Šนํ–ˆ๋‹คโ€ ๋“ฑ์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ, LLM์—๊ฒŒ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ”„๋กฌํ”„ํŠธ์— โ€œ์œ„ ํ”ผ๋“œ๋ฐฑ์„ ๋ถ„์„ํ•˜์—ฌ Reward ํ•จ์ˆ˜๋ฅผ ๊ฐœ์„ ํ•˜๋ผโ€๋Š” ์‹์˜ ์š”์ฒญ์„ ๋ง๋ถ™์ž…๋‹ˆ๋‹ค (๊ทธ๋ฆผ์˜ ํŒŒ๋ž€์ƒ‰ Reward Reflection ์˜ˆ์‹œ ์ฐธ์กฐ).

์ด๋Ÿฐ ์ƒ์„ธํ•œ ํ”ผ๋“œ๋ฐฑ์€ ๋‘ ๊ฐ€์ง€ ์ด์œ ๋กœ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ์ด ์ ์ˆ˜(score)๋งŒ ์•Œ๋ ค์ฃผ๋Š” ๊ฒฝ์šฐ ์–ด๋–ค ๋ถ€๋ถ„์ด ๋ฌธ์ œ์ธ์ง€ ์•Œ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์„ฑ๋ถ„๋ณ„ ํ”ผ๋“œ๋ฐฑ์€ ์–ด๋А Reward ํ•ญ๋ชฉ์ด ์ •์ฑ…์— ์ž˜ ๋ฐ˜์˜๋˜์—ˆ๊ณ , ์–ด๋А ๊ฒƒ์ด ๋ฌด์‹œ๋˜์—ˆ๋Š”์ง€ ์ง์ž‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ๋‘˜์งธ, Reward ํ•จ์ˆ˜์˜ ํšจ๊ณผ๋Š” ์‚ฌ์šฉ๋œ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋”ฐ๋ผ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ Reward ์„ค๊ณ„ ๋ฌธ์ œ์ธ์ง€, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ƒ์˜ ํ•œ๊ณ„์ธ์ง€ ๊ตฌ๋ถ„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋™์ผํ•œ Reward๋„ RL ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ผ ์„ฑ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋Š”๋ฐ, Reward ์„ฑ์ฐฐ์€ ํ•™์Šต๊ณผ์ • ์ž์ฒด์˜ ๋ฐ˜์‘์„ ๋ณด์—ฌ์ฃผ๋ฏ€๋กœ, LLM์ด ํ˜„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ตœ์ ํ™”๋œ Reward์œผ๋กœ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, Reward ์„ฑ์ฐฐ์„ ํฌํ•จํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•  ๋•Œ LLM์€ ๋” ์ •๊ตํ•˜๊ณ  ๋ชฉํ‘œ ์ง€ํ–ฅ์ ์ธ ์ˆ˜์ • ์ œ์•ˆ์„ ๋‚ด๋†“๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์—์„œ๋„ Reward ์„ฑ์ฐฐ์˜ ์œ ๋ฌด์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ์ปธ์Šต๋‹ˆ๋‹ค. Eureka์—์„œ Reward ์„ฑ์ฐฐ์„ ์ œ๊ฑฐํ•˜๊ณ  ์˜ค์ง ์ตœ์ข… ์„ฑ๋Šฅ ์ˆ˜์น˜๋งŒ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ค€ ๊ฒฝ์šฐ, ํ‰๊ท  ์„ฑ๋Šฅ์ด 28.6%๋‚˜ ๋–จ์–ด์กŒ๊ณ , ํŠนํžˆ ๋‚œ์ด๋„ ๋†’์€ ๊ณผ์ œ์ผ์ˆ˜๋ก ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋‘๋“œ๋Ÿฌ์กŒ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์„ธ๋ฐ€ํ•œ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ์ด ๋ณต์žกํ•œ Reward ์ตœ์ ํ™”์— ํ•„์ˆ˜์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๊ตฌํ˜„ ์ƒ์„ธ ๋ฐ ์žฌํ˜„์„ฑ

LLM ๋ชจ๋ธ: Eureka๋Š” OpenAI GPT-4(๋ฒ„์ „ gpt-4-0314;deprecated!)๋ฅผ ๊ธฐ๋ณธ LLM์œผ๋กœ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. GPT-4์˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ๊ณผ ์ง€์‹œ ์ดํ•ด ๋Šฅ๋ ฅ์ด ๋ณธ ์—ฐ๊ตฌ์˜ ํ† ๋Œ€๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. (์ฐธ๊ณ ๋กœ, GPT-4์˜ ์ง€์‹ ์ปท์˜คํ”„(2021๋…„ 9์›”) ์ดํ›„ ๋“ฑ์žฅํ•œ ํ™˜๊ฒฝ๋“ค๋„ ์‹คํ—˜์— ํฌํ•จ๋˜์–ด, ์‚ฌ์ „ ํ•™์Šต ์ง€์‹ ์—†์ด ์ง„์ •ํ•œ ์ œ๋กœ์ƒท ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.)

๋ณด์กฐ ๋ชจ๋ธ ๋ฐ ๋„๊ตฌ: ํŠน๋ณ„ํžˆ ๋ช…์‹œ๋œ ๋ณ„๋„์˜ ๋ณด์กฐ ML๋ชจ๋ธ์€ ์‚ฌ์šฉ๋˜์ง€ ์•Š์•˜์œผ๋ฉฐ, RL ์ •์ฑ… ํ•™์Šต์—๋Š” ํ‘œ์ค€ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜(Isaac Gym ๋‚ด์žฅ)์„ ํ™œ์šฉํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ํ•˜๋‚˜์˜ Reward ํ›„๋ณด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ๋„ ์ˆ˜์ฒœ ํšŒ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šคํ…์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ์™€ GPU ๊ฐ€์†์ด ํ•ต์‹ฌ ๊ธฐ์ˆ  ์š”์†Œ๋กœ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ฝ”๋“œ ๊ตฌํ˜„ ๋ฉด์—์„œ, ์ƒ์„ฑ๋œ Reward ํ•จ์ˆ˜์˜ ๋ฌธ๋ฒ• ๊ฒ€์‚ฌ๋‚˜ ์‹คํ–‰ ํ…Œ์ŠคํŠธ๋ฅผ ์ž๋™ํ™”ํ•˜์—ฌ, ๋Ÿฐํƒ€์ž„ ์˜ค๋ฅ˜๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์ง€ํ•˜๋Š” ์žฅ์น˜๋„ ํฌํ•จ๋˜์—ˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”์ธก๋ฉ๋‹ˆ๋‹ค (์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ ์ƒ์—์„œ ํ™•์ธ ๊ฐ€๋Šฅ). ์˜ˆ๋ฅผ ๋“ค์–ด ์ฝ”๋“œ ์‹คํ–‰ ์ „ ํŒŒ์‹ฑ์„ ์‹œ๋„ํ•˜๊ฑฐ๋‚˜, ์‹คํ–‰ ์ค‘ ์˜ˆ์™ธ ๋ฐœ์ƒ ์‹œ ํ•ด๋‹น Reward์„ ์ ์ˆ˜ 0์œผ๋กœ ๊ฐ„์ฃผํ•˜๋Š” ์‹์œผ๋กœ ๊ฒฌ๊ณ ์„ฑ์„ ํ™•๋ณดํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์˜คํ”ˆ์†Œ์Šค์™€ ์žฌํ˜„์„ฑ: ์ €์ž๋“ค์€ ํ”„๋กฌํ”„ํŠธ, ํ™˜๊ฒฝ, ์ƒ์„ฑ๋œ Reward ํ•จ์ˆ˜ ์ฝ”๋“œ๋ฅผ ๋ชจ๋‘ ๊ณต๊ฐœํ•˜์—ฌ ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ์šฉ์ดํ•˜๋„๋ก ํ•œ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋…ผ๋ฌธ ๋ฐœํ‘œ์™€ ํ•จ๊ป˜ GitHub์— ๊ณต์‹ ๊ตฌํ˜„ ๋ฆฌํฌ์ง€ํ„ฐ๋ฆฌ๊ฐ€ ๊ณต๊ฐœ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋ฏธ 3์ฒœ ๊ฐœ ์ด์ƒ์˜ Star๋ฅผ ๋ฐ›์„ ๋งŒํผ ํฐ ํ˜ธ์‘์„ ์–ป๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณต๊ฐœ ์ฝ”๋“œ์—๋Š” ์ปค์Šคํ…€ ํ™˜๊ฒฝ ์ •์˜(IsaacGym ๊ธฐ๋ฐ˜), Eureka ์•Œ๊ณ ๋ฆฌ์ฆ˜ (ํ”„๋กฌํ”„ํŠธ, GPT API ํ˜ธ์ถœ, RL ํ•™์Šต ๋ฃจํ”„), ๊ทธ๋ฆฌ๊ณ  29๊ฐœ ๊ณผ์ œ ๊ฐ๊ฐ์— ๋Œ€ํ•ด Eureka๊ฐ€ ๋ฐœ๊ฒฌํ•œ ์ตœ์  Reward ํ•จ์ˆ˜ ์˜ˆ์ œ๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ๊ฒฐ๊ณผ๋ฅผ ์žฌํ˜„ํ•˜๊ฑฐ๋‚˜, ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์— Eureka๋ฅผ ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์ด ๊ฐ–์ถฐ์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ก ์  ๊ธฐ์—ฌ ๋ฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์„ฑ

๊ธฐ์กด Reward ์„ค๊ณ„ ์ ‘๊ทผ๊ณผ Eureka์˜ ์ฐจ๋ณ„์ 

๊ฐ•ํ™”ํ•™์Šต์—์„œ Reward ์„ค๊ณ„(reward design) ๋ฌธ์ œ๋ฅผ ์ž๋™ํ™”ํ•˜๋ ค๋Š” ์‹œ๋„๋Š” ๊ณผ๊ฑฐ์—๋„ ์—ฌ๋Ÿฌ ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ž์—ฐ์–ด ์„ค๋ช…์„ ํ™œ์šฉํ•˜์—ฌ Reward์„ ์ƒ์„ฑํ•˜๋Š” ์ ‘๊ทผ์œผ๋กœ L2R(Language to Reward, Yu et al., 2023)์ด๋‚˜ Text2Reward ๋“ฑ์ด ์ตœ๊ทผ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ LLM์„ ์ œํ•œ์  ๋ฐฉ์‹์œผ๋กœ ํ™œ์šฉํ–ˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. L2R์˜ ๊ฒฝ์šฐ ๋‘ ๋‹จ๊ณ„ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์‚ฌ์ „ ์ •์˜๋œ ํ…œํ”Œ๋ฆฟ ํ˜•ํƒœ์˜ Reward๋งŒ ์ƒ์„ฑํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ฒซ ๋ฒˆ์งธ LLM์ด โ€œ๋กœ๋ด‡์˜ ๋™์ž‘์— ๋Œ€ํ•œ ์„œ์ˆ โ€์„ ์ฑ„์šฐ๋ฉด, ๋‘ ๋ฒˆ์งธ LLM์ด ์ด๋ฅผ ๋ฏธ๋ฆฌ ์ค€๋น„๋œ Reward API ํ•จ์ˆ˜ ํ˜ธ์ถœ ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ…œํ”Œ๋ฆฟ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์€ ์ธ๊ฐ„์ด ์ •์˜ํ•œ Reward ํ”„๋ฆฌ๋ฏธํ‹ฐ๋ธŒ(๊ธฐ๋ณธ ์š”์†Œ)์˜ ์กฐํ•ฉ์œผ๋กœ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋ฏ€๋กœ ํ‘œํ˜„๋ ฅ์ด ์ œํ•œ๋˜๊ณ , ์ƒˆ๋กœ์šด Reward ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ™˜๊ฒฝ๋งˆ๋‹ค ํ…œํ”Œ๋ฆฟ์„ ์กฐ๊ธˆ์”ฉ ๋ฐ”๊พธ๊ฑฐ๋‚˜, LLM์— ๊ณผ์ œ๋ณ„ ํžŒํŠธ(prompt)๋ฅผ ์ˆ˜๋™ ์ œ๊ณตํ•ด์•ผ ํ•˜๋Š” ๋“ฑ ๋ฒ”์šฉ์„ฑ์—๋„ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

Eureka๋Š” ์ด๋Ÿฌํ•œ ๊ธฐ์กด ์ ‘๊ทผ๊ณผ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์ฐจ๋ณ„์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค:

  • ์ „์šฉ ํ”„๋กฌํ”„ํŠธ/ํ…œํ”Œ๋ฆฟ์˜ ๋ถ€์žฌ: Eureka๋Š” ์–ด๋–ค ๊ณผ์ œ์—๋„ ๋™์ผํ•œ ์ „๋žต(ํ™˜๊ฒฝ ์ฝ”๋“œ + ๊ณผ์ œ์„ค๋ช…)๋งŒ์œผ๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ถ”๊ฐ€ ์˜ˆ์‹œ, ํ…œํ”Œ๋ฆฟ, ์ˆ˜๋™ ํ”„๋กฌํ”„ํŠธ ํŠœ๋‹์ด ์ „ํ˜€ ์—†์œผ๋ฉฐ, ์ˆœ์ „ํžˆ LLM์˜ ์ผ๋ฐ˜ ๋Šฅ๋ ฅ์— ์˜์กดํ•ด Reward์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋Œ€๋ถ€๋ถ„ ๊ณผ์ œ์—์„œ ์ธ๊ฐ„ Reward๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์—์„œ ๋ฒ”์šฉ์„ฑ๊ณผ ํšจ๊ณผ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์ž์œ  ํ˜•์‹์˜ Reward ํ”„๋กœ๊ทธ๋žจ ์ƒ์„ฑ: L2R ๋“ฑ์ด ์ •ํ•ด์ง„ ํ•จ์ˆ˜๋“ค์˜ ์กฐํ•ฉ๋งŒ ์ƒ์„ฑํ•œ ๋ฐ˜๋ฉด, Eureka๋Š” ํŒŒ์ด์ฌ ์–ธ์–ด๋กœ ๋œ ์ž„์˜์˜ ๋…ผ๋ฆฌ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋•๋ถ„์— ์™„์ „ํžˆ ์ƒˆ๋กœ์šด Reward ๊ฐœ๋…๋„ ๋„์ž…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ Eureka๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ Reward ์ค‘์—๋Š” ์ธ๊ฐ„ Reward๊ณผ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๊ฑฐ์˜ ์—†๊ฑฐ๋‚˜ ์Œ์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ๊ฒƒ๋“ค์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„์ด ์ƒ๊ฐํ•˜์ง€ ๋ชปํ•œ Reward ์„ค๊ณ„ ์›๋ฆฌ๋ฅผ Eureka๊ฐ€ ์ฐพ์•„๋ƒˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์–ด๋–ค ๊ณผ์ œ์—์„œ๋Š” ์ธ๊ฐ„ Reward๊ณผ ์ •๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” Reward์ด ์˜คํžˆ๋ ค ํ•™์Šต์„ ์ด‰์ง„ํ•œ ์‚ฌ๋ก€๋„ ์žˆ์—ˆ์œผ๋ฉฐ, ์ €์ž๋“ค์€ ํ•ด๋‹น ์˜ˆ์‹œ๋“ค์„ ๋ถ€๋ก์— ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, Eureka๋Š” ์‚ฌ๋žŒ์˜ ์ง๊ด€์„ ๋›ฐ์–ด๋„˜๋Š” ์ฐฝ์˜์  ํ•ด๋ฒ•์„ ๋ฐœ๊ตดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • LLM ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ์ตœ์ ํ™”: ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ Reward ํ•จ์ˆ˜๋ฅผ ํ•œ ๋ฒˆ ์ƒ์„ฑํ•˜๊ณ  ๋๋‚˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด Eureka๋Š” LLM์„ ๋ฃจํ”„ ์•ˆ์—์„œ ๋ฐ˜๋ณต ํ˜ธ์ถœํ•˜๋ฉฐ, ํ•™์Šต์œผ๋กœ๋ถ€ํ„ฐ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์•„ ์ ์ง„์  ๊ฐœ์„ ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ in-context learning ๋ฃจํ”„๋Š” ๋งˆ์น˜ LLM์ด โ€œReward ๋””๋ฒ„๊น…โ€์„ ํ•˜๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ๋„ Reward ์„ค๊ณ„ ํ›„ ์ •์ฑ… ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ  ์ˆ˜์ •ํ•˜๋Š”๋ฐ, Eureka๋Š” ์ด๋ฅผ ์ž๋™ํ™”ํ•˜๊ณ  ํ›จ์”ฌ ๋น ๋ฅธ ์‚ฌ์ดํด๋กœ ๋Œ๋ฆฐ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Reward ์„ฑ์ฐฐ์„ ํ†ตํ•ด LLM์ด ์‹คํŒจ ์›์ธ์„ ์ดํ•ดํ•˜๊ณ  ์ˆ˜์ •ํ•˜๋Š” ์ ์€, ๊ธฐ์กด์— ์—†๋˜ ํ˜์‹ ์ ์ธ ์š”์†Œ์ž…๋‹ˆ๋‹ค.

  • ์ธ๊ฐ„ ํ†ต์ฐฐ๊ณผ์˜ ๊ฒฐํ•ฉ: Eureka๋Š” ์ธ๊ฐ„์ด ๋ถ€๋ถ„์ ์œผ๋กœ ์„ค๊ณ„ํ•œ Reward๊ณผ ํ˜‘์—…ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„์ด ๋งŒ๋“  ์ดˆ๊ธฐ Reward์„ 1์„ธ๋Œ€ ์ถœ๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ทธ ์œ„์— ๊ฐœ์„ ์„ ์‹œ์ž‘ํ•˜๋ฉด, Eureka (Human Init.) ๋ฒ„์ „์ด ๋‚˜์˜ค๋Š”๋ฐ, ์ด๋Š” ์›๋ณธ ์ธ๊ฐ„ Reward์ด๋‚˜ ์ˆœ์ˆ˜ Eureka๋ณด๋‹ค ํ•ญ์ƒ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„์˜ ์ง๊ด€(์œ ์šฉํ•œ ์ƒํƒœ ๋ณ€์ˆ˜ ์„ ํƒ ๋“ฑ)๊ณผ LLM์˜ ์ตœ์ ํ™” ๋Šฅ๋ ฅ์„ ๊ฒฐํ•ฉํ•  ๋•Œ ์ƒ์Šน ํšจ๊ณผ๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ โ€œ์ธ๊ฐ„์€ ์–ด๋–ค ์ƒํƒœ ๋ณ€์ˆ˜๊ฐ€ ์ค‘์š”ํ•œ์ง€ ์•„๋Š” ์ƒ์‹์  ์ง€์‹์€ ๊ฐ–์ท„์ง€๋งŒ, ๊ทธ๊ฒƒ๋“ค์„ ์–ด๋–ป๊ฒŒ ์กฐํ•ฉํ•˜์—ฌ Reward ์„ค๊ณ„๋กœ ํ™œ์šฉํ• ์ง€๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋ฏธ์ˆ™ํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ํ†ต์ฐฐ์„ ์–ธ๊ธ‰ํ•˜๋ฉฐ, Eureka๊ฐ€ ์ธ๊ฐ„์˜ ์•ฝ์ ์„ ๋ณด์™„ํ•˜๋Š” Reward ์„ค๊ณ„ ์กฐ๋ ฅ์ž๋กœ ๊ธฐ๋Šฅํ•  ์ˆ˜ ์žˆ์Œ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

  • ์•ˆ์ „์„ฑ๊ณผ ์œค๋ฆฌ์  ์ •๋ ฌ: Reward ํ•จ์ˆ˜๊ฐ€ ํ•ญ์ƒ ๋ฐ”๋žŒ์งํ•œ ํ–‰๋™์„ ๋‹ด๋ณดํ•˜์ง€๋Š” ์•Š๊ธฐ์—, ์ธ๊ฐ„ ์„ ํ˜ธ์— ๋งž๊ฒŒ Reward์„ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด RLHF๋Š” ์ฃผ๋กœ ์ •์ฑ…์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์ด์ง€๋งŒ, Eureka๋Š” Reward ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ฐฉ์‹์˜ RLHF๋ฅผ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋“ค์ด โ€œ๋กœ๋ด‡์ด ๋„ˆ๋ฌด ์•ž์œผ๋กœ ์ˆ™์—ฌ ๋›ฐ๋‹ˆ ๋˜‘๋ฐ”๋กœ ๋›ฐ๋„๋ก Reward ์ˆ˜์ •ํ•ด๋‹ฌ๋ผโ€๋Š” ์‹์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ…์ŠคํŠธ๋กœ ์ฃผ๋ฉด, Eureka๊ฐ€ ๊ทธ์— ๋งž์ถฐ Reward ํ•จ์ˆ˜์— ์ž์„ธ ์œ ์ง€ ํŒจ๋„ํ‹ฐ ๋“ฑ์„ ์ถ”๊ฐ€ํ•˜๋„๋ก ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ๋” ์•ˆ์ „ํ•˜๊ณ  ์•ˆ์ •์ ์ธ ๋™์ž‘์ด ์œ ๋„๋˜์—ˆ๊ณ , ์‚ฌ์šฉ์ž 20๋ช… ์ค‘ 15๋ช…์ด ์›๋ž˜ Reward์œผ๋กœ ํ›ˆ๋ จ๋œ ๋กœ๋ด‡๋ณด๋‹ค ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๋ฐ˜์˜ Reward์œผ๋กœ ํ›ˆ๋ จ๋œ ๋กœ๋ด‡์„ ์„ ํ˜ธํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ gradient-free RLHF ๋ฐฉ์‹์€ Reward ์„ค๊ณ„ ์ฐจ์›์—์„œ์˜ ์ธ๊ฐ„-๋ชจ๋ธ ์ƒํ˜ธ์ž‘์šฉ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

์ด๋ก ์  ๊ธฐ๋ฐ˜๊ณผ ์˜์˜

์ด ๋…ผ๋ฌธ์€ Reward ์„ค๊ณ„ ๋ฌธ์ œ๋ฅผ ๊ณต์‹์ ์œผ๋กœ ์ •๋ฆฝํ•˜๊ณ , Eureka๋กœ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ด๋ก ์ ์ธ ์˜๋ฏธ๋„ ๊ฐ–์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์šฐ์„  Singh et al. (2010)์˜ Reward์„ค๊ณ„ ๋ฌธ์ œ (Reward Design Problem, RDP) ์ •์˜๋ฅผ ์ธ์šฉํ•˜๋ฉฐ, โ€œ์ฃผ์–ด์ง„ ํ™˜๊ฒฝ MDP์™€ ์‹ค์ œ ์„ฑ๋Šฅ ํ‰๊ฐ€ ํ•จ์ˆ˜ F ํ•˜์—์„œ, ์ตœ์ ์˜ ์ •์ฑ…์ด ์ตœ๋Œ€์˜ F ์ ์ˆ˜๋ฅผ ์–ป๋„๋ก ํ•˜๋Š” Reward R์„ ์ฐพ๋Š” ๋ฌธ์ œโ€๋กœ RDP๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ ํ”„๋กœ๊ทธ๋žจ ์ƒ์„ฑ ๋งฅ๋ฝ์— ๋งž๊ฒŒ ๋ณ€ํ˜•ํ•˜์—ฌ โ€œReward ์ƒ์„ฑ ๋ฌธ์ œ (Reward Generation Problem)โ€๋กœ ๋ช…๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ฝ”๋“œ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋œ Reward ํ•จ์ˆ˜ ๊ณต๊ฐ„ R์—์„œ ํ•˜๋‚˜์˜ ์ฝ”๋“œ ์กฐ๊ฐ์„ ์ฐพ์•„๋‚ด๋Š” ๋ฌธ์ œ๋กœ ๊ฐœ๋…ํ™”ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ๊ฒ€์ƒ‰๊ณต๊ฐ„์€ ํ”„๋กœ๊ทธ๋žจ์˜ ๊ณต๊ฐ„์œผ๋กœ ๋งค์šฐ ํฌ๊ณ  ๋น„๊ตฌ์กฐ์ ์ด์ง€๋งŒ, LLM์˜ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ๊ณผ ํ™•๋ฅ ์  ํƒ์ƒ‰์„ ํ†ตํ•ด ํ•ด๋ฒ•์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Œ์„ Eureka๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Eureka์˜ ์„ฑ๊ณต ์š”์ธ์€ ์„ธ ๊ฐ€์ง€ ์„ค๊ณ„ ์ฒ ํ•™์œผ๋กœ ์š”์•ฝ๋ฉ๋‹ˆ๋‹ค:

  • ํ™˜๊ฒฝ์„ ๋งฅ๋ฝ์œผ๋กœ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ผ๋ฐ˜์„ฑ ํ™•๋ณด โ€“ ๋ชจ๋“  ๊ณผ์ œ์— ํ†ต์šฉ๋˜๋Š” ์ž…๋ ฅ(์ฝ”๋“œ)๋งŒ์œผ๋กœ LLM์„ ํ™œ์šฉํ•˜์˜€๊ณ , ๋•๋ถ„์— ๊ณผ์ œ ํŠนํ™”๋œ ์ธ๊ฐ„ ์ง€์‹ ์—†์ด๋„ ์ž‘๋™ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์ง„ํ™”์  ํƒ์ƒ‰์œผ๋กœ ํ’ˆ์งˆ ํ–ฅ์ƒ โ€“ ๋‹จ์ผ ์ƒ˜ํ”Œ์˜ ํ•œ๊ณ„๋ฅผ ๋‹ค์ˆ˜ ์ƒ˜ํ”Œ๊ณผ ๋ฐ˜๋ณต ๊ฐœ์„ ์œผ๋กœ ๊ทน๋ณตํ•˜์—ฌ, LLM ์ถœ๋ ฅ์˜ ์•ฝ์ ์„ ๋ณด์™„ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Reward ์„ฑ์ฐฐ๋กœ ์ •๊ตํ•œ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต โ€“ ๋‹จ์ˆœ ์„ฑ๋Šฅ ์ˆ˜์น˜ ์ด์ƒ์˜ ๋งฅ๋ฝ ์ •๋ณด๋ฅผ LLM์— ์ œ๊ณตํ•จ์œผ๋กœ์จ, ์„ธ๋ฐ€ํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ์ฝ”๋“œ ์ˆ˜์ •์„ ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์˜ ์ƒํ˜ธ๋ณด์™„์  ๊ฒฐํ•ฉ์ด Eureka๋ฅผ ์ธ๊ฐ„ ์ˆ˜์ค€๊นŒ์ง€ ๋Œ์–ด์˜ฌ๋ฆฐ ํ•ต์‹ฌ ๋น„๊ฒฐ์ž…๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ Eureka๋Š” ๊ฐ•ํ™”ํ•™์Šต Reward ์„ค๊ณ„์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ „ํ™˜ํ•˜๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์ „๋ฌธ๊ฐ€๊ฐ€ ์˜ค๋žœ ๊ฒฝํ—˜์„ ํ†ตํ•ด์•ผ ํ•  ์ž‘์—…์„ LLM๊ณผ ์ž๋™ํ™” ๊ธฐ๋ฒ•์ด ๋Œ€์ฒดํ•˜๊ฑฐ๋‚˜ ๊ฐ€์†ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆํ•œ ๊ฒƒ์ด๋ฏ€๋กœ, ๋ฏธ๋ž˜์˜ RL ์—ฐ๊ตฌ ํ”„๋กœ์„ธ์Šค์—๋„ ํฐ ์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ์ „๋ง

(โ€ป ๋…ผ๋ฌธ์— ์ง์ ‘ ์–ธ๊ธ‰๋˜์ง„ ์•Š์ง€๋งŒ, ์ดํ•ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด ๊ณ ๋ คํ•  ์ ์„ ํ•จ๊ป˜ ์„œ์ˆ ํ•ฉ๋‹ˆ๋‹ค.)

Eureka๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ, ์ „์ œ๋กœ ํ•˜๋Š” ์กฐ๊ฑด๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ™˜๊ฒฝ์˜ ๋‚ด๋ถ€ ์ฝ”๋“œ ๋˜๋Š” API ์ ‘๊ทผ์ด ๊ฐ€๋Šฅํ•ด์•ผ ํ•˜๊ณ , ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ ํ•จ์ˆ˜ F๊ฐ€ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ˜„์‹ค ์„ธ๊ณ„ ๋ฌธ์ œ์˜ ๊ฒฝ์šฐ ํ™˜๊ฒฝ ์ฝ”๋“œ๋ฅผ ์–ป๊ธฐ ์–ด๋ ต๊ฑฐ๋‚˜, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์—†๋Š” ๋ฌผ๋ฆฌ ํ™˜๊ฒฝ์—์„œ๋Š” Reward ํ‰๊ฐ€์— ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ Eureka ์ ‘๊ทผ์„ ๊ทธ๋Œ€๋กœ ์ ์šฉํ•˜๊ธด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ๋ชจ์ƒ ํ•™์Šต ๋“ฑ์„ ์ ‘๋ชฉํ•ด ํ˜„์‹ค์—์„œ๋„ ๋น ๋ฅธ Reward ํƒ์ƒ‰์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ Eureka๋Š” ํ˜„์žฌ GPT-4 ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์‚ฌ์„ค LLM API์— ์˜์กดํ•˜๊ณ  ์žˆ์–ด, ์žฌํ˜„ ๋น„์šฉ์ด๋‚˜ ๋ชจ๋ธ ์ ‘๊ทผ์„ฑ ์ด์Šˆ๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ LLM์ด ๋” ๋ฐœ์ „ํ•˜๋ฉด, ์ž์ฒด ํ˜ธ์ŠคํŒ…์œผ๋กœ Eureka๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๋ฐฉํ–ฅ๋„ ๊ณ ๋ ค๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค๋„ ๋ชจ๋“  ํ”„๋กฌํ”„ํŠธ๋ฅผ ๊ณต๊ฐœํ–ˆ์œผ๋ฏ€๋กœ, ๋‹ค๋ฅธ LLM์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ์‹คํ—˜ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋์œผ๋กœ, Reward ์„ค๊ณ„ ์ž๋™ํ™”๊ฐ€ ์ง€๋‹ˆ๋Š” ํ•จ์˜์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด๋ณผ ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. Reward์€ ๊ณง ์—์ด์ „ํŠธ์˜ ๋ชฉํ‘œ๋ฅผ ์ •์˜ํ•˜๋Š” ๊ฒƒ์ด๋ฏ€๋กœ, Eureka ๊ฐ™์€ ๊ธฐ๋ฒ•์ด ์ž˜๋ชป ์‚ฌ์šฉ๋  ๊ฒฝ์šฐ ์˜๋„์น˜ ์•Š์€ ๋ชฉํ‘œ๋ฅผ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜, ์œค๋ฆฌ์ ์œผ๋กœ ๋…ผ๋ž€์ด ๋  ํ–‰๋™์„ ๋ถ€์ถ”๊ธธ ์œ„ํ—˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ธ๊ฐ„ ๊ฐ๋…๊ณผ ์•ˆ์ „์žฅ์น˜๋ฅผ ๊ฐ–์ถ˜ ํ™œ์šฉ์ด ์ค‘์š”ํ•˜๋ฉฐ, Eureka์˜ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ ๊ธฐ๋Šฅ์€ ์ด๋Ÿฌํ•œ ์œ„ํ—˜์„ ์™„ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์˜ ์ข‹์€ ์‹œ์ž‘์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ Eureka๋ฅผ ํ™œ์šฉํ•œ ์•ˆ์ „ํ•œ Reward ์„ค๊ณ„, ์ •๋ ฌ๋œ AI ํ›ˆ๋ จ ๋“ฑ์˜ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ „๊ฐœ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

Eureka: Human-Level Reward Design via Coding LLMs๋Š” ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•œ Reward ํ•จ์ˆ˜ ์ž๋™ ์ƒ์„ฑ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ฐ ์—ฐ๊ตฌ๋กœ์„œ, ๊ฐ•ํ™”ํ•™์Šต์˜ ๋‚œ์ œ์˜€๋˜ Reward ์„ค๊ณ„๋ฅผ ํ˜์‹ ์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฝ”๋“œ ์ƒ์„ฑ LLM๊ณผ ์ง„ํ™”์  ํƒ์ƒ‰, ๊ทธ๋ฆฌ๊ณ  RL ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ์ด๋ผ๋Š” ์•„์ด๋””์–ด ์กฐํ•ฉ์„ ํ†ตํ•ด, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๋ณด๋‹ค๋„ ๋‚˜์€ Reward์„ ์ฐพ์•„๋‚ด๊ณ  ๋ณต์žกํ•œ ๋กœ๋ด‡ ์ œ์–ด ๊ณผ์ œ๋ฅผ ๋‹ฌ์„ฑํ•ด๋‚ธ ์ ์ด ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฒ”์šฉ์„ฑ์„ ์ง€ํ–ฅํ•œ ๊ตฌํ˜„๊ณผ ์˜คํ”ˆ์†Œ์Šค ๊ณต๊ฐœ๋กœ ํ•™์ˆ ์ ยท์‹ค์šฉ์  ํŒŒ๊ธ‰๋ ฅ๋„ ๋†’์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ์„ฑ๊ณผ๋Š” ํ–ฅํ›„ ์ž๋™ํ™”๋œ RL ๋ฌธ์ œ์„ค๊ณ„, ํœด๋จผ-์ธ๋”-๋ฃจํ”„ ํ•™์Šต ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์ด๋ฉฐ, AI ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ ๊ณผ์ •์„ ํšจ์œจํ™”ํ•˜๊ณ  ์ธ๊ฐ„๊ณผ์˜ ํ˜‘์—…์„ ์ฆ์ง„ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์† ๋ฐœ์ „๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.


  • Updated Code-25.07.20

Copyright 2024, Jung Yeon Lee