Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
    • ๊ธฐ๋ณธ ๊ฐœ๋…
    • Reward Shaping/Engineering ๊ธฐ๋ฒ• ๋ถ„๋ฅ˜
  • Detail Review
    • ์„œ๋ก 
    • ์—ฐ๊ตฌ ๋ฐฉ๋ฒ• (๋ฌธํ—Œ ์กฐ์‚ฌ ๋ฐ ์„ ์ • ๊ณผ์ •)
    • ๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ ๊ฐœ๋…
    • Reward Shaping/Engineering ๊ธฐ๋ฒ•์˜ ๋ถ„๋ฅ˜
      • ์ •์ฑ… ๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Policy Gradient ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์ตœ์ ํ™”)
      • ๊ฐ•๊ฑด์„ฑ ๋ฐ ์ ์‘์„ฑ ํ–ฅ์ƒ ๋ฐฉ๋ฒ•
      • ํƒํ—˜ ์ „๋žต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Exploration-Driven Shaping)
      • ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐํ™” (๋‹จ์ˆœ ์ •์ฑ… ๋ชจ๋ธ์˜ ํ™œ์šฉ)
      • ์—ญ๋ณด์ƒ ์„ค๊ณ„ (Inverse Reward Design, IRD)
      • ๋ณด์ƒ ์ง€ํ‰ ๋‹จ์ถ• (Reward Horizon Shaping)
      • ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Potential-Based Reward Shaping)
      • ๋™์  ์ž ์žฌ ๊ธฐ๋ฐ˜ Reward Shaping (DPBRS)
      • ์ƒํ•œ ์‹ ๋ขฐ ๊ธฐ๋ฐ˜ ๊ฐ€์น˜ ๋ฐ˜๋ณต (UCBVI ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์„ค๊ณ„)
      • ์ฐจ์ด ๋ณด์ƒ (Difference Rewards)
      • ์ง€์‹ ๊ธฐ๋ฐ˜ ๋‹ค๋ชฉ์  ๋‹ค์ค‘์—์ด์ „ํŠธ RL (MOMARL)
      • ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Plan-Based Reward Shaping)
      • ์‹ ๋… ๊ธฐ๋ฐ˜ Reward Shaping (Belief Reward Shaping, BRS)
      • ์ด์ธต ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ Reward Shaping (BiPaRS)
      • ๋ฉ”ํƒ€-๋ณด์ƒ ๋„คํŠธ์›Œํฌ (MRN)
      • ๊ธฐํƒ€ ๊ธฐ๋ฒ• ๋ฐ ๋™ํ–ฅ
    • ๋กœ๋ด‡๊ณตํ•™ ๋ฐ ๊ธฐํƒ€ ๋ถ„์•ผ์—์„œ์˜ ์‘์šฉ
      • ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—…์„ ์œ„ํ•œ ์•ˆ์ „ ํšจ์œจํ˜• ๋ณด์ƒ ์„ค๊ณ„
      • ๋Œ€ํ™”ํ˜• ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•œ ๊ฐ€์ •์šฉ ๋กœ๋ด‡ ํ•™์Šต
      • ํ˜„์‹ค ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ณด์ƒ ๋ฐ ๋„๋ฉ”์ธ ์ ์‘
    • Reward Engineering์˜ ์žฅ์ ๊ณผ ํ•œ๊ณ„: ๋ฏธ๋ž˜์˜ ํ•ต์‹ฌ์ธ๊ฐ€?
    • ๊ฐœ๋ฐฉ๋œ ๊ณผ์ œ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • ๊ฒฐ๋ก 

๐Ÿ“ƒReward Engineering ๋ฆฌ๋ทฐ

rl
reward
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications
Published

July 28, 2025

  • Paper Link
  1. ๐Ÿ’ก ๋ณธ ๋…ผ๋ฌธ์€ Reinforcement Learning (RL)์—์„œ ๋ณด์ƒ ์„ค๊ณ„(reward design)์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, Reward Engineering ๋ฐ ๋ณด์ƒ ์‰์ดํ•‘(reward shaping) ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ธฐ์ˆ ์„ ํฌ๊ด„์ ์œผ๋กœ ๊ฒ€ํ† ํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ› ๏ธ ์ฃผ์š” ๋‚ด์šฉ์€ ๋ณด์ƒ ์„ค๊ณ„์˜ ๋„์ „ ๊ณผ์ œ(์˜ˆ: sparse/delayed rewards, reward hacking), ์Šค์นผ๋ผ/๋ฒกํ„ฐ ๋ณด์ƒ ๋…ผ์Ÿ, ๊ทธ๋ฆฌ๊ณ  ์ •์ฑ… ๊ฒฝ์‚ฌ(Policy Gradient), ์ž ์žฌ ๊ธฐ๋ฐ˜(Potential-Based), ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ(Human Feedback) ๋“ฑ ๋‹ค์–‘ํ•œ ๋ณด์ƒ ์‰์ดํ•‘ ๊ธฐ๋ฒ•์˜ ์ƒ์„ธ ๋ถ„๋ฅ˜๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ์ด ์—ฐ๊ตฌ๋Š” ๋ณด์ƒ ์„ค๊ณ„๊ฐ€ ๋กœ๋ด‡ ๊ณตํ•™, ์ž์œจ ์ฃผํ–‰ ๋“ฑ ์‹ค์ œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ๊ฒฌ๊ณ ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, Sim-to-Real ๊ฐ„๊ทน ํ•ด์†Œ์— ํ•„์ˆ˜์ ์ž„์„ ๋ณด์—ฌ์ฃผ๊ณ  ํ–ฅํ›„ ์ž๋™ํ™”๋œ ํŠœ๋‹๊ณผ ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—… ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

Brief Review

๊ฐ•ํ™” ํ•™์Šต(RL)์€ ์ž์œจ์  ์˜์‚ฌ๊ฒฐ์ • ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ํ•„์ˆ˜์ ์ด๋ฉฐ, Reward Engineering๊ณผ Reward Shaping์€ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํšจ์œจ์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ๋†’์ด๋Š” ๋ฐ ์ค‘์ถ”์ ์ธ ์—ญํ• ์„ ํ•œ๋‹ค. ์ด ๊ธฐ๋ฒ•๋“ค์€ ํฌ์†Œํ•˜๊ณ  ์ง€์—ฐ๋œ ๋ณด์ƒ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜์—ฌ ์—์ด์ „ํŠธ๊ฐ€ ๋ชฉํ‘œ ํ–‰๋™์„ ํ•™์Šตํ•˜๊ณ , ํ•™์Šต ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ์ˆ˜๋ ด ์†๋„๋ฅผ ๊ฐ€์†ํ™”ํ•˜๋„๋ก ๋•๋Š”๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ RL์˜ ๋ณด์ƒ ์„ค๊ณ„์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ฒซ ๊ฒ€ํ† ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, Reward Engineering ๋ฐ ํ˜•์„ฑ์˜ ๋ฐฉ๋ฒ•๋ก ๊ณผ ๊ธฐ๋ฒ•์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. ์ƒ์„ธํ•œ ๋ถ„๋ฅ˜ ์ฒด๊ณ„(taxonomy)๋ฅผ ์ œ์‹œํ•˜๊ณ , ํ˜„์žฌ ์ ‘๊ทผ ๋ฐฉ์‹๋“ค์„ ๋น„ํŒ์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ, ๊ทธ ํ•œ๊ณ„๋ฅผ ๊ฐ•์กฐํ•จ์œผ๋กœ์จ ๋ฌธํ—Œ์˜ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์„ ๋ฉ”์šด๋‹ค.

๋ณด์ƒ ์„ค๊ณ„๋Š” RL ์—์ด์ „ํŠธ์˜ ์›ํ•˜๋Š” ํ–‰๋™๊ณผ ๋ชฉํ‘œ์— ๋ถ€ํ•ฉํ•˜๋„๋ก ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๋Š” ๋ฏธ๋ฌ˜ํ•˜๊ณ  ๋ณต์žกํ•œ ๊ณผ์ •์ด๋‹ค.

  • Reward Engineering์€ ๋ณด์ƒ ํ•จ์ˆ˜ R(s, a, s')๋ฅผ ์ดˆ๊ธฐ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ์ƒํƒœ s, ํ–‰๋™ a, ๋‹ค์Œ ์ƒํƒœ s'๋ฅผ ์ˆ˜์น˜์  ๋ณด์ƒ ๊ฐ’์— ๋งคํ•‘ํ•œ๋‹ค.
  • Reward Shaping(R'(s, a, s') = R(s, a, s') + \gamma \Phi(s') - \Phi(s))์€ ์ตœ์  ์ •์ฑ…์„ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ํ•™์Šต ๊ณผ์ •์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. (์—ฌ๊ธฐ์„œ \gamma๋Š” ํ• ์ธ ๊ณ„์ˆ˜(discount factor)์ด๋ฉฐ, \Phi(s)๋Š” ์ž ์žฌ ํ•จ์ˆ˜(potential function))

RL ๋ฌธ์ œ๋Š” MDP(Markov Decision Process)๋กœ ์ •์˜๋˜๋ฉฐ, ์—์ด์ „ํŠธ์˜ ๋ชฉํ‘œ๋Š” G_t = \sum_{k=0}^{\infty} \gamma^k R(s_{t+k}, a_{t+k})๋กœ ์ฃผ์–ด์ง€๋Š” ๊ธฐ๋Œ€ ๋ˆ„์  ๋ณด์ƒ(expected cumulative reward)์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ •์ฑ… \pi(a|s)๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋ณด์ƒ ์„ค๊ณ„์˜ ์ฃผ์š” ๊ฐœ๋…, ๋™ํ–ฅ, ๋„์ „ ๊ณผ์ œ ๋ฐ ๊ธฐํšŒ๋ฅผ ํƒ๊ตฌํ•˜๋ฉฐ, RL ๋ฐ AI ๋ถ„์•ผ์˜ ํ˜์‹ ์„ ์ด๋Œ ์ž ์žฌ๋ ฅ์„ ๊ฐ•์กฐํ•œ๋‹ค.

์—ฐ๊ตฌ ๋ฐฉ๋ฒ•: PRISMA 2020 ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ค€์ˆ˜ํ•˜์—ฌ ์ฒด๊ณ„์ ์ธ ๋ฌธํ—Œ ๊ฒ€ํ† ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. โ€œreward shapingโ€, โ€œreward engineeringโ€, โ€œreinforcement learningโ€, โ€œreward designโ€, โ€œmachine learningโ€, โ€œcontrol systemsโ€ ๋“ฑ์˜ ์กฐํ•ฉ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 1999๋…„๋ถ€ํ„ฐ 2024๋…„๊นŒ์ง€ ๋ฐœํ‘œ๋œ 55๊ฐœ์˜ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์„ ๋ณ„ํ–ˆ๋‹ค.

๊ธฐ๋ณธ ๊ฐœ๋…

  • RL ํ•ต์‹ฌ ๊ฐœ๋…: ์—์ด์ „ํŠธ, ํ™˜๊ฒฝ, ์ •์ฑ…, ๋ณด์ƒ, ๊ฐ€์น˜ ํ•จ์ˆ˜, ํƒ์ƒ‰ ๋Œ€ ํ™œ์šฉ(Exploration vs. Exploitation).
  • ๋ณด์ƒ ์ถฉ๋ถ„์„ฑ ๋…ผ์Ÿ:
    • โ€œ๋ณด์ƒ๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•˜๋‹ค(Reward is Enough)โ€ ๊ฐ€์„ค([18])์€ ๋‹จ์ผ ์Šค์นผ๋ผ ๋ณด์ƒ ์ตœ๋Œ€ํ™”๊ฐ€ ๋ณต์žกํ•œ ์ธ์ง€ ๋Šฅ๋ ฅ์˜ ์ถœํ˜„์œผ๋กœ ์ด์–ด์ง„๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋Š” ๋ฐ˜๋ฉด,
    • โ€œ์Šค์นผ๋ผ ๋ณด์ƒ๋งŒ์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๋‹ค(Scalar Reward is Not Enough)โ€ ๊ด€์ ([19])์€ ์œค๋ฆฌ์  ๊ณ ๋ ค ์‚ฌํ•ญ์ด๋‚˜ ๋ณต์žกํ•œ ๋ชฉํ‘œ๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ์—๋Š” ๋‹จ์ผ ๊ฐ’์ด ๋ถˆ์ถฉ๋ถ„ํ•˜๋ฉฐ, ๋ฒกํ„ฐ ๊ฐ’ ๋ณด์ƒ(vector-valued rewards)์ด ํ•„์š”ํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.
  • ๋ณด์ƒ ์„ค๊ณ„์˜ ์ผ๋ฐ˜์ ์ธ ํ•จ์ •: ๋ณด์ƒ ํฌ์†Œ์„ฑ(sparsity), ๊ธฐ๋งŒ์ ์ธ ๋ณด์ƒ(deceptive rewards), ๋ณด์ƒ ํ•ดํ‚น(reward hacking), ์˜๋„์น˜ ์•Š์€ ๊ฒฐ๊ณผ(unintended consequences), ์ง„์ •ํ•œ ๋ชฉํ‘œ์™€์˜ ๋ถˆ์ผ์น˜(misaligned reward), ๋ณด์ƒ ํ•จ์ˆ˜ ๋ณต์žก์„ฑ, ๋ณด์ƒ ์„ค๊ณ„ ํ‰๊ฐ€์˜ ์–ด๋ ค์›€ ๋“ฑ์ด ์žˆ๋‹ค.
  • ์Šค์นผ๋ผ ๋Œ€ ๋ฒกํ„ฐ ๋ณด์ƒ:
    • ์Šค์นผ๋ผ ๋ณด์ƒ์€ ๋‹จ์ˆœํ•˜๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์ ์ด์ง€๋งŒ, ๋ณต์žกํ•œ ์ž‘์—…์˜ ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ๋ฒกํ„ฐ ๋ณด์ƒ์€ ์—ฌ๋Ÿฌ ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ๋‚˜ํƒ€๋‚ด์–ด ๋” ํ’๋ถ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ํšจ๊ณผ์ ์ธ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์™€ ๋‹ค์ค‘ ๋ชฉํ‘œ ๊ท ํ˜• ์กฐ์ ˆ์— ์–ด๋ ค์›€์ด ๋”ฐ๋ฅธ๋‹ค.

Reward Shaping/Engineering ๊ธฐ๋ฒ• ๋ถ„๋ฅ˜

A. ์ •์ฑ… ๊ธฐ์šธ๊ธฐ(Policy Gradient) ๋ฐฉ๋ฒ•๋“ค:

  • ์ •์ฑ… ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์„ค๊ณ„(PGRD): ์˜จ๋ผ์ธ ๊ธฐ์šธ๊ธฐ ์ƒ์Šน(online gradient ascent)์„ ํ†ตํ•ด ๋ณด์ƒ ๋งค๊ฐœ๋ณ€์ˆ˜ \theta๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ R_O๋ฅผ ์ตœ๋Œ€ํ™”ํ•œ๋‹ค. \theta^* = \arg \max_{\theta \in \Theta} \lim_{N \to \infty} E[\frac{1}{N}\sum_{t=0}^N R_O(s_t)|R(\cdot, \theta)]. ๊ธฐ์กด ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
  • ์ •์ฑ… ๊ธฐ์šธ๊ธฐ ํ•™์Šต ๋‚ด์žฌ์  ๋ณด์ƒ(LIRPG): ์—์ด์ „ํŠธ๊ฐ€ ๋‚ด์žฌ์  ๋ณด์ƒ(intrinsic rewards)์„ ๋™์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋ฉฐ, ์ •์ฑ… ๋งค๊ฐœ๋ณ€์ˆ˜ \theta๋ฅผ \theta' \approx \theta + \alpha G_{ex+in}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t)๋ฅผ ํ†ตํ•ด ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์ƒ˜ํ”Œ ๋ณต์žก๋„๋ฅผ ๊ฐœ์„ ํ•œ๋‹ค.
  • ์‹œ์—ฐ ๊ธฐ๋ฐ˜ DDPG(DDPGfD): Deep Deterministic Policy Gradient(DDPG)์˜ ํ™•์žฅ์œผ๋กœ, ์ธ๊ฐ„ ์‹œ์—ฐ ๊ถค์ ์„ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ(replay buffer)์— ํ†ตํ•ฉํ•˜๊ณ  ์šฐ์„ ์ˆœ์œ„ ๋ฆฌํ”Œ๋ ˆ์ด(prioritized replay)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํฌ์†Œ ๋ณด์ƒ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. L_1(\theta_Q) ๋ฐ L_n(\theta_Q) ์†์‹ค์„ ํ˜ผํ•ฉ ์‚ฌ์šฉํ•˜๊ณ , L_2 ํŽ˜๋„ํ‹ฐ๋กœ ์ •๊ทœํ™”ํ•œ๋‹ค. ๋ณต์žกํ•œ Reward Shaping ์—†์ด ๋กœ๋ด‡ ์ž‘์—… ํ•™์Šต์„ ๊ฐ„์†Œํ™”ํ•œ๋‹ค.

B. ๊ฐ•๊ฑด์„ฑ(Robustness) ๋ฐ ์ ์‘์„ฑ(Adaptability)์„ ๊ฐ–์ถ˜ ๋ฐฉ๋ฒ•๋“ค:

  • ๋ฆฌ๋”-ํŒ”๋กœ์›Œ ํ”„๋ ˆ์ž„์›Œํฌ: ๋ฆฌ๋”๊ฐ€ ํŒ”๋กœ์›Œ์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•˜์—ฌ ์›ํ•˜๋Š” ํ–‰๋™์„ ์œ ๋„, ์‹œ์Šคํ…œ์˜ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์ธ๋‹ค.
  • ๊ฐ•๊ฑดํ•œ RL: ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ถ”์ •ํ•˜๊ณ  ์ˆ˜์ •ํ•˜๊ธฐ ์œ„ํ•ด ํ˜ผ๋™ ํ–‰๋ ฌ(confusion matrix)์„ ์‚ฌ์šฉํ•œ๋‹ค. Q_{t+a}(s_t, a_t) = (1 - \alpha_t)Q(s_t, a_t) + \alpha_t[\hat{r}_t + \gamma \max_{b \in A} Q(s_{t+1}, b)]์™€ ๊ฐ™์ด ํŽธํ–ฅ ์—†๋Š” ๋Œ€๋ฆฌ ๋ณด์ƒ(surrogate rewards) \hat{r}์„ Q-ํ•™์Šต์— ์ ์šฉํ•˜์—ฌ ๋…ธ์ด์ฆˆ ์กฐ๊ฑด์—์„œ ๋†’์€ ๋ณด์ƒ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

C. ํƒ์ƒ‰(Exploration) ์ „๋žต๋“ค:

  • ํ•ด์‹œ ๊ธฐ๋ฐ˜ Reward Shaping: ๊ณ ์ฐจ์› ๋ฐ ์—ฐ์† ์ƒํƒœ ๊ณต๊ฐ„์—์„œ ์นด์šดํŠธ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰(count-based exploration)์„ ํ™•์žฅํ•˜๊ธฐ ์œ„ํ•ด ํ•ด์‹œ ์ฝ”๋“œ(hash codes)๋ฅผ ํ™œ์šฉํ•œ๋‹ค. \phi(s) = \text{sgn}(Ag(s)) \in \{-1, 1\}^k์™€ ๊ฐ™์ด ์ •์  ํ•ด์‹ฑ ๊ธฐ๋ฒ•(locality-sensitive hashing SimHash)์„ ์‚ฌ์šฉํ•œ๋‹ค.
  • ๋ณ€๋ถ„ ์ •๋ณด ์ตœ๋Œ€ํ™” ํƒ์ƒ‰(VIME): ํ™˜๊ฒฝ ์—ญํ•™์— ๋Œ€ํ•œ ์—์ด์ „ํŠธ์˜ ์ดํ•ด๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘”๋‹ค. ๋ฒ ์ด์ฆˆ ์‹ ๊ฒฝ๋ง(Bayesian neural networks) ๋‚ด์—์„œ ๋ณ€๋ถ„ ์ถ”๋ก (variational inference)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด ํš๋“์„ ๋‚ด์žฌ์  ๋ณด์ƒ์œผ๋กœ ํ™œ์šฉํ•œ๋‹ค.
  • ์˜จ๋ผ์ธ Reward Shaping(EXPLORES): ํฌ์†Œํ•˜๊ฑฐ๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” RL ์—์ด์ „ํŠธ์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋‚ด์žฌ์  ๋ณด์ƒ ํ•™์Šต๊ณผ ํƒ์ƒ‰ ๊ธฐ๋ฐ˜ ๋ณด๋„ˆ์Šค๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ \pi_k \leftarrow L(\pi_{k-1}, \hat{R}_{k-1}) ๋ฐ \hat{R}_k ์—…๋ฐ์ดํŠธ๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค.
  • ํƒ์ƒ‰์„ ์œ„ํ•œ ๋ณด์ƒ ๋ถˆํ™•์‹ค์„ฑ(RUNE): ์„ ํ˜ธ๋„ ๊ธฐ๋ฐ˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋‚ด์—์„œ ํ•™์Šต๋œ ๋ณด์ƒ ํ•จ์ˆ˜์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ํƒ์ƒ‰ ๋ณด๋„ˆ์Šค๋กœ ํ†ตํ•ฉํ•œ๋‹ค. ์•™์ƒ๋ธ”(ensemble) ์˜ˆ์ธก์˜ ๋ถ„์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ํƒ์ƒ‰์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

D. ์ •์ฑ… ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”(Policy Parameterization):

  • ์„ ํ˜•(linear) ๋ฐ ๋ฐฉ์‚ฌํ˜• ๊ธฐ์ € ํ•จ์ˆ˜(RBF) ์ •์ฑ…๊ณผ ๊ฐ™์€ ๋‹จ์ˆœํ™”๋œ ์ •์ฑ… ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋ฅผ ํƒ์ƒ‰ํ•˜๋ฉฐ, ๊ด€์ธก์น˜์˜ ๋ฌด์ž‘์œ„ ํ‘ธ๋ฆฌ์— ํŠน์ง•(random Fourier features) y_t^{(i)} = \sin(\sum_j P_{ij}s_t^{(j)}v + \phi^{(i)})๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•œ๋‹ค. ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ๊ณผ ๋น ๋ฅธ ํ•™์Šต ์†๋„๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

E. ์—ญ ๋ณด์ƒ ์„ค๊ณ„(Inverse Reward Design, IRD):

  • ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์„ ํ†ตํ•ด ์ฐธ ๋ชฉํ‘œ๋ฅผ ์ถ”๋ก ํ•œ๋‹ค. ์—ญ ๊ฐ•ํ™” ํ•™์Šต(IRL)์€ ๊ด€์ฐฐ๋œ ์ „๋ฌธ๊ฐ€ ํ–‰๋™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ „๋ฌธ๊ฐ€ ์—์ด์ „ํŠธ๊ฐ€ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ถ”์ •๋˜๋Š” ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ถ”๋ก ํ•œ๋‹ค. ์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ์€ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ IRL, ๋ชจ๋ธ ํ”„๋ฆฌ IRL, ๋”ฅ ์—ญ ๊ฐ•ํ™” ํ•™์Šต์ด ์žˆ๋‹ค. ๋”ฅ IRL์—์„œ๋Š” \hat{R}(s, a) = f_\theta(s, a)์™€ ๊ฐ™์ด ์‹ ๊ฒฝ๋ง f_\theta๋กœ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•œ๋‹ค. IRD๋Š” ํ”„๋ก์‹œ ๋ณด์ƒ(proxy reward)์„ ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ณด์ƒ ๋ถˆ์ผ์น˜ ๋ฐ ๋ณด์ƒ ์กฐ์ž‘๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ์œ„ํ—˜ ํšŒํ”ผ ํ–‰๋™์„ ์œ ๋„ํ•œ๋‹ค.

F. ๋ณด์ƒ ์ง€ํ‰(Reward Horizon):

  • ๋ณด์ƒ ์ง€ํ‰์„ ๋‹จ์ถ•ํ•จ์œผ๋กœ์จ ํ•™์Šต ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ตœ์  ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์‹œ๊ฐ„์„ ๊ทน์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

G. ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜(Potential-Based) ๋ฐฉ๋ฒ•๋“ค:

  • ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ R'(s, a) = R(s, a) + \gamma [\Phi(s') - \Phi(s)]๋กœ ์ˆ˜์ •ํ•˜์—ฌ ์—์ด์ „ํŠธ์˜ ํ–‰๋™์„ ์œ ๋„ํ•˜๊ณ  ํƒ์ƒ‰ ๋ฐ ์ˆ˜๋ ด์„ ๊ฐœ์„ ํ•œ๋‹ค.
  • ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping(PBRS): ์—ํ”ผ์†Œ๋“œ(episode) ๋ณด์ƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๊ฐ•ํ™”ํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ธ๋‹ค. ์ž ์žฌ ํ•จ์ˆ˜ \Phi(s, a, t) = 0 \text{ if } R(s,a)=0 \text{ else } (1 + \frac{Rep - Rep_u(t)}{Rep_u(t) - Rep_l(t)})๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
  • ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ(MAS)์„ ์œ„ํ•œ ์ด๋ก ์  ๊ธฐ์ดˆ: ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping์ด Q-ํ…Œ์ด๋ธ” ์ดˆ๊ธฐํ™”์™€ ๋™๋“ฑํ•˜๋ฉฐ ๊ธฐ์ดˆ ํ™•๋ฅ  ๊ฒŒ์ž„์˜ ๋‚ด์‰ฌ ๊ท ํ˜•(Nash Equilibria)์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.
  • PBRS-MAXQ-0 ๋ฐฉ๋ฒ•: ๊ณ„์ธต์  ๊ฐ•ํ™” ํ•™์Šต(HRL) ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ PBRS์™€ MAXQ๋ฅผ ๊ฒฐํ•ฉํ•œ๋‹ค. ํŠน์ • ์กฐ๊ฑด์—์„œ ์ด๋ก ์  ์ˆ˜๋ ด ๋ณด์žฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ ์ ˆํ•œ ํœด๋ฆฌ์Šคํ‹ฑ(heuristics)์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•œ๋‹ค.
  • ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ ์กฐ์–ธ(Potential-Based Advice): ์ž„์˜์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ ์กฐ์–ธ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋ณด์กฐ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ•จ์œผ๋กœ์จ ์ •์ฑ… ๋ถˆ๋ณ€์„ฑ์„ ๋ณด์žฅํ•œ๋‹ค.
  • ์—ํ”ผ์†Œ๋“œ RL์—์„œ์˜ PBRS: ๋ชจ๋ธ ํ”„๋ฆฌ, ๋ชจ๋ธ ๊ธฐ๋ฐ˜, ๋‹ค์ค‘ ์—์ด์ „ํŠธ RL์—์„œ์˜ PBRS ์ ์šฉ์„ ํƒ๊ตฌํ•œ๋‹ค.
  • ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ ๋ณด์ƒ ํ•จ์ˆ˜(PBRF)๋ฅผ ์‚ฌ์šฉํ•œ ์ œ์•ฝ ์กฐ๊ฑด๋ถ€ RL: ๊ฒ€์ฆ๋œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์‹œ์Šคํ…œ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์•ˆ์ „ ์ง€ํ–ฅ์  ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ ํ›ˆ๋ จ ์ค‘ ๋” ๋น ๋ฅธ ์ˆ˜๋ ด์„ ๋ณด์ธ๋‹ค.
  • ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping(DRIP) ๋ฐ ์ž ์žฌ ํ•จ์ˆ˜๋กœ์„œ์˜ ๋ฐ˜์‚ฌ์‹ค(CaP)์„ ํ†ตํ•ฉํ•œ ์ฐจ์ด ๋ณด์ƒ: DRIP์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ RL์—์„œ ์ฐจ์ด ๋ณด์ƒ๊ณผ ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping์„ ๊ฒฐํ•ฉํ•œ๋‹ค. CaP๋Š” ๋™์  ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜์—ฌ ์ˆ˜๋™ ์„ค๊ณ„์˜ ํ•„์š”์„ฑ์„ ์—†์•ค๋‹ค.

H. ๋™์  ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping(Dynamic Potential-Based Reward Shaping, DPBRS):

  • ๋‹จ์ผ ๋ฐ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์—์„œ ์ตœ์  ์ •์ฑ…์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๊ณ  ์—์ด์ „ํŠธ๋ฅผ ์•ˆ๋‚ดํ•˜๊ธฐ ์œ„ํ•ด ๋™์  ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. F(s, t, s', t') = \gamma \Phi(s', t') - \Phi(s, t)์™€ ๊ฐ™์ด ์‹œ๊ฐ„ ์š”์†Œ๋ฅผ ํฌํ•จํ•˜์—ฌ ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ํ™•์žฅํ•œ๋‹ค.

I. UCBVI(Upper Confidence Bound Value Iteration):

  • UCBVI: ์ตœ์  ๊ฐ€์น˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์ƒํ•œ ์‹ ๋ขฐ ๊ตฌ๊ฐ„(upper confidence bound, UCB)์œผ๋กœ ๊ฐ€์น˜ ํ•จ์ˆ˜๊ฐ€ ๊ธฐ๋Šฅํ•˜๋„๋ก ๋ณด์žฅํ•œ๋‹ค.
  • UCBVI-Shaped: UCBVI ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ˆ˜์ •๋œ ๋ฒ„์ „์œผ๋กœ, Reward Shaping์„ ํ†ตํ•ฉํ•˜์—ฌ ๋ณด๋„ˆ์Šค์™€ ๊ฐ€์น˜ ํ•จ์ˆ˜ ํˆฌ์˜(projection)์„ ์ˆ˜์ •ํ•œ๋‹ค. ์ƒํƒœ ๊ณต๊ฐ„์˜ ๊ด€๋ จ ์—†๋Š” ๋ถ€๋ถ„์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฐ€์ง€์น˜๊ธฐํ•˜์—ฌ ์ƒ˜ํ”Œ ๋ณต์žก๋„๋ฅผ ๊ฐœ์„ ํ•œ๋‹ค.

J. ์ฐจ์ด ๋ณด์ƒ(Difference Rewards, D):

  • ๋‹จ์ผ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ: ์—์ด์ „ํŠธ์˜ ํ˜„์žฌ ์ƒํƒœ์™€ ์ง€์ •๋œ ์ฐธ์กฐ ์ƒํƒœ ๊ฐ„์˜ ๋ถˆ์ผ์น˜๋ฅผ ์ธก์ •ํ•˜๋Š” ์ฐจ์ด ํ•ญ์„ ํ†ตํ•ฉํ•˜์—ฌ ์›๋ž˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ฐ•ํ™”ํ•œ๋‹ค: R'(s, a) = R(s, a) + \gamma [D(s', r) - D(s, r)].
  • ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ(MAS): D_i(s_i, a_i) = G(s, a) - G(s_{-i} \cup s_{ci}, a_{-i} \cup a_{ci})์™€ ๊ฐ™์ด ์—์ด์ „ํŠธ์˜ ๊ธฐ์—ฌ ์œ ๋ฌด์— ๋”ฐ๋ฅธ ์‹œ์Šคํ…œ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๋ณด์ƒ์„ ์ œ๊ณตํ•˜์—ฌ ์—์ด์ „ํŠธ๊ฐ€ ์ „์ฒด ์‹œ์Šคํ…œ ์œ ํ‹ธ๋ฆฌํ‹ฐ์— ๊ธฐ์—ฌํ•˜๋„๋ก ์žฅ๋ คํ•œ๋‹ค.
  • ๊ฐœ๋ณ„ ๋ฐ ์ฐจ์ด ๋ณด์ƒ: ๋„๋กœ ๋„คํŠธ์›Œํฌ์˜ ๊ฒฝ๋กœ ์„ ํƒ ๋ฌธ์ œ์—์„œ ๊ฐœ๋ณ„ ๋ณด์ƒ(์ด๊ธฐ์ ์ธ ์ ‘๊ทผ)๊ณผ ์ฐจ์ด ๋ณด์ƒ(์‹œ์Šคํ…œ ์ตœ์ ํ™”)์„ ๋น„๊ตํ•œ๋‹ค. ์ฐจ์ด ๋ณด์ƒ์„ ์‚ฌ์šฉํ•˜๋Š” DQ-learning์ด IQ-learning๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

K. ์ง€์‹ ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ๋ชฉํ‘œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ฐ•ํ™” ํ•™์Šต(Knowledge-Based Multi-Objective Multi-Agent Reinforcement Learning, MOMARL):

  • ์ฐจ์ด ๋ณด์ƒ(D)๊ณผ ์ž ์žฌ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜ Reward Shaping(PBRS)์„ ๋น„๊ตํ•˜๋ฉฐ, ๋‘ ๊ธฐ๋ฒ• ๋ชจ๋‘ MOMARL ์˜์—ญ์—์„œ ํŒŒ๋ ˆํ†  ์ตœ์ (Pareto optimal) ์†”๋ฃจ์…˜์œผ๋กœ ์—์ด์ „ํŠธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ๋‹ค. D๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ PBRS๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•˜๋‹ค.

L. ๊ณ„ํš ๊ธฐ๋ฐ˜(Plan Based) ๋ฐฉ๋ฒ•๋“ค:

  • STRIPS ํ™œ์šฉ: STRIPS(Stanford Research Institute Problem Solver) ๊ธฐ๋ฐ˜ Reward Shaping ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ๋„๋ฉ”์ธ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ RL ๋ฐฉ๋ฒ•์˜ ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•œ๋‹ค.
  • ๊ณ„ํš ๊ธฐ๋ฐ˜๊ณผ ์ถ”์ƒ MDP ๋น„๊ต: ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ์‚ฌ์ „ ์ •์˜๋œ ๊ณ„ํš์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”๊ฐ€ ๋ณด์ƒ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ˜๋ฉด, ์ถ”์ƒ MDP(Abstract MDP) ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋” ๋†’์€ ์ˆ˜์ค€์˜ MDP๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ ํ–‰๋™์„ ํ˜•์„ฑํ•œ๋‹ค. ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ๋” ํšจ๊ณผ์ ์ด๋ฉฐ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ์ถ”์ƒ MDP๊ฐ€ ๋” ์šฐ์ˆ˜ํ•˜๋‹ค.

M. ์‹ ๋… Reward Shaping(Belief Reward Shaping, BRS):

  • ํ™˜๊ฒฝ์˜ ๋ณด์ƒ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹(prior knowledge)์„ ํ†ตํ•ฉํ•˜์—ฌ ๊ฐ•ํ™” ํ•™์Šต์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ๋ฒ ์ด์ฆˆ ํ”„๋ ˆ์ž„์›Œํฌ(Bayesian framework)์—์„œ ํŒŒ์ƒ๋œ โ€œ์‹ ๋… ๋ณด์ƒ(belief rewards)โ€์œผ๋กœ ํ‘œ์ค€ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๋ณด๊ฐ•ํ•œ๋‹ค. \Phi(s)๋งŒ ๊ณ ๋ คํ•˜๋Š” ์ž ์žฌ ๊ธฐ๋ฐ˜ Reward Shaping์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด ์ƒํƒœ์™€ ํ–‰๋™ ๋ชจ๋‘์— ์ง์ ‘ ํ˜•์„ฑ ๋ณด์ƒ์„ ์ œ๊ณตํ•œ๋‹ค.

N. ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ Reward Shaping์˜ ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™”(Bi-Level Optimization of Parameterized Reward Shaping, BiPaRS):

  • ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜์˜ ๋ถˆ์™„์ „์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ƒ์œ„ ์ˆ˜์ค€์—์„œ๋Š” ํ˜•์„ฑ ๋ณด์ƒ์— ๋Œ€ํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”๋œ ๊ฐ€์ค‘ ํ•จ์ˆ˜ z_\phi(s,a)๋ฅผ ์ตœ์ ํ™”ํ•˜๊ณ , ํ•˜์œ„ ์ˆ˜์ค€์—์„œ๋Š” ํ˜•์„ฑ๋œ ๋ณด์ƒ \tilde{r}(s, a) = r(s, a) + z_\phi(s, a)f(s, a)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•œ๋‹ค. ๋ชฉํ‘œ๋Š” \max_\phi E_{s \sim \rho^\pi, a \sim \pi_\theta} [r(s, a)]๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ •์ฑ… \pi_\theta๋ฅผ \theta = \arg \max_{\theta_0} E_{s \sim \rho^\pi, a \sim \pi_{\theta_0}} [\tilde{r}(s, a)] ์ œ์•ฝ ํ•˜์— ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.

O. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ Reward Shaping:

  • ์ธ๊ฐ„ ์„ ํ˜ธ๋„(human preferences)๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ˜•์„ฑํ•˜๊ณ  ํ•™์Šต ๊ณผ์ •์„ ๊ฐ€์†ํ™”ํ•œ๋‹ค. PEBBLE, SURF, RUNE, Text2Reward, Meta-Reward-Net (MRN) ๋“ฑ์ด ์žˆ๋‹ค. ๋ณด์ƒ ํ•จ์ˆ˜ R์— ๋Œ€ํ•œ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ H์˜ ์‚ฌํ›„ ํ™•๋ฅ ์€ P(R|H) = \frac{P(H|R)P(R)}{P(H)}๋กœ ๋ชจ๋ธ๋ง๋  ์ˆ˜ ์žˆ๋‹ค. Text2Reward๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLMs)์„ ์‚ฌ์šฉํ•˜์—ฌ ํฌ์†Œ ๋ณด์ƒ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋ฐ€์ง‘ ๋ณด์ƒ(dense reward) ํ•จ์ˆ˜๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค. MRN์€ ์ด์ค‘ ์ˆ˜์ค€ ์ตœ์ ํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ์ •์ฑ…์„ ๋™์‹œ์— ํ•™์Šตํ•œ๋‹ค.

P. ์†Œ์ˆ˜ ๋Œ€ํ‘œ Reward Shaping ๊ธฐ๋ฒ•๋“ค:

  • ์ „๋ ฅ๋ง ์‚ฌ์ด๋ฒ„ ๊ณต๊ฒฉ ๋ฐฉ์–ด๋ฅผ ์œ„ํ•œ ๋”ฅ Q-ํ•™์Šต์˜ Reward Shaping: ๋”ฅ Q-ํ•™์Šต์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „๋ ฅ๋ง์„ ์‚ฌ์ด๋ฒ„ ๊ณต๊ฒฉ์œผ๋กœ๋ถ€ํ„ฐ ๋ณดํ˜ธํ•˜๋ฉฐ, ๊ณต๊ฒฉ์ž๊ฐ€ ๋„คํŠธ์›Œํฌ์— ๊ฐ€์žฅ ํฐ ํ”ผํ•ด๋ฅผ ์ž…ํž ์ˆ˜ ์žˆ๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด Reward Shaping์„ ์‚ฌ์šฉํ•œ๋‹ค.

Q. ๊ธฐํƒ€ ๋ฐฉ๋ฒ•๋“ค:

  • ์•ˆ์ „ํ•œ RL ์—์ด์ „ํŠธ ํ–‰๋™์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•œ ์žฅ๋ฒฝ ํ•จ์ˆ˜(Barrier Functions), ์ž์—ฐ์–ด ๋ช…๋ น์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ€์ง‘ ๋ณด์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•, ํ‰๊ท  ๋ณด์ƒ RL์„ ์œ„ํ•œ ์‹œ๊ฐ„ ๋…ผ๋ฆฌ ๊ธฐ๋ฐ˜(Temporal Logic-based) Reward Shaping, ๋ถˆํ™•์‹ค์„ฑ์— ๊ธฐ๋ฐ˜ํ•œ ๋ณด์ƒ์— ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ, ๋ถˆํ™•์‹คํ•œ RL ํ™˜๊ฒฝ์—์„œ ์ˆ˜๋ ด์„ ์•ˆ์ •ํ™”ํ•˜๊ณ  ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๋ณด์ƒ ๊ธฐ๋Œ€(Reward Expectations) ์‚ฌ์šฉ, ์ƒํƒœ ๊ณต๊ฐ„์˜ ํ…Œ์…€๋ ˆ์ด์…˜(tessellation)๊ณผ ์„œ๋ธŒ ํƒœ์Šคํฌ(sub-tasks) ๋ถ„ํ• ์— ์˜์กดํ•˜๋Š” ๋ณด์ƒ ๊ณ„ํš(Reward Planning) ๋ฐฉ๋ฒ•์ธ โ€œGreedy Divide and Conquerโ€ ๋“ฑ์ด ์žˆ๋‹ค.
  • ์ž๋™ํ™”๋œ ๋งค๊ฐœ๋ณ€์ˆ˜ ํŠœ๋‹(Automated Parameter Tuning): DEHB(Differential Evolution for HyperBand)์™€ ๊ฐ™์€ ์ฒจ๋‹จ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”(hyperparameter optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ณต๋™์œผ๋กœ ์ตœ์ ํ™”ํ•œ๋‹ค. AutoRL(Automated Reinforcement Learning)์€ MDP ๋ชจ๋ธ๋ง, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ ํƒ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”๋ฅผ ์ž๋™ํ™”ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

์‹ค์ œ ์ ์šฉ:

  • ์•ˆ์ „ํ•˜๊ณ  ํšจ์œจ์ ์ธ ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—…(HRC)์„ ์œ„ํ•œ Reward Shaping: ์‚ฐ์—… ํ™˜๊ฒฝ์—์„œ ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡ ๊ฐ„์˜ ์•ˆ์ „ํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด DRL ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. IRDDPG(Intrinsic Reward-Deep Deterministic Policy Gradient) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋‚ด์žฌ์  ๋ฐ ์™ธ์žฌ์  ๋ณด์ƒ์„ ๊ฒฐํ•ฉํ•œ ์ตœ์ ํ™”๋œ ๋ณด์ƒ ํ•จ์ˆ˜์™€ DPG(Deterministic Policy Gradient) ๋ฐฉ๋ฒ•์„ ํ†ตํ•ฉํ•œ๋‹ค. ๋กœ๋ด‡์€ ์ถฉ๋Œ ํšŒํ”ผ ์ •์ฑ…์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.
  • ์ž์œจ ์ฃผํ–‰ ์ฐจ๋Ÿ‰ ๋ฐ ๊ตํ†ต ํ๋ฆ„ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ Reward Shaping: ์˜คํ”„-์ •์ฑ…(off-policy) ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๊ตํ†ต ๋‚ด๋น„๊ฒŒ์ด์…˜์— ์ ์šฉํ•œ๋‹ค. Episodic-Guided Prioritized Experience Replay (EPER) ๋ฐฉ๋ฒ•์€ ์—ํ”ผ์†Œ๋“œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์‹œ๊ฐ„์ฐจ(TD) ์˜ค์ฐจ ๊ธฐ๋ฐ˜ ์šฐ์„ ์ˆœ์œ„ ์ง€์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ณ  ํ•™์Šต ์†๋„๋ฅผ ๋†’์ธ๋‹ค.

์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์„ธ๊ณ„ ์ „์ด (Sim-to-Real):

  • DRL ๋ฐ RL ์ •์ฑ…์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹ค์ œ ์„ธ๊ณ„๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ „์ด์‹œํ‚ค๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ๊ฐ„์˜ ๋ถˆ์ผ์น˜, ์•ˆ์ „, ๋น„์šฉ, ํšจ์œจ์„ฑ ๋ฌธ์ œ ๋“ฑ์œผ๋กœ ์ธํ•ด ๋„์ „์ ์ด๋‹ค.
  • ์ฃผ์š” ๊ธฐ๋ฒ•: ๋„๋ฉ”์ธ ์ ์‘(domain adaptation), ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”(domain randomization), ์ ์ง„์  ์‹ ๊ฒฝ๋ง(progressive neural networks, PNNs), ๋ฉ”ํƒ€ ๊ฐ•ํ™” ํ•™์Šต(meta-reinforcement learning).
  • CSAR(Consensus-based Sim-And-Real DRL): ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ๋ชจ๋‘์— ์ ํ•ฉํ•œ ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์ผ๊ด€๋œ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ๋ณด์žฅํ•œ๋‹ค.
  • ๋ณด์ƒ ํ•ดํ‚น(Reward Hacking) ๋ฐฉ์ง€: ์—์ด์ „ํŠธ๊ฐ€ ์˜๋„๋œ ์ž‘์—…์„ ์‹ค์ œ๋กœ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š๊ณ  ๋ณด์ƒ ํ•จ์ˆ˜์˜ ํ—ˆ์ ์„ ์•…์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ํšจ๊ณผ์ ์ธ Reward Shaping์ด ์ค‘์š”ํ•˜๋‹ค.

Reward Engineering์˜ ์žฅ๋‹จ์ :

  • ์žฅ์ : ํ•™์Šต ๊ฐ€์†ํ™”, ํƒ์ƒ‰ ๊ฐœ์„ , ๋†’์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ, ์ •์ฑ… ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ.
  • ๋‹จ์ : ๋„๋ฉ”์ธ ์ง€์‹์— ๋Œ€ํ•œ ๋†’์€ ์˜์กด์„ฑ, ์ผ๋ถ€ ๋ฐฉ๋ฒ•์˜ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ ์ฆ๊ฐ€, ๋งค๊ฐœ๋ณ€์ˆ˜ ํŠœ๋‹์˜ ์–ด๋ ค์›€, ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„ ๋ฐ ํ˜•์„ฑ์˜ ์‹œ๊ฐ„ ์†Œ๋ชจ.

๋‚จ์€ ๊ณผ์ œ ๋ฐ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ:

  • ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ํ–ฅ์ƒ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐ•๊ฑด์„ฑ ๊ฐ•ํ™”, ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—… ์ด‰์ง„, ๊ณ ๊ธ‰ ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜ ์—ฐ๊ตฌ.
  • ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋‚˜ ๋ณต์žกํ•œ ์„ผ์„œ ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์ด ๋ณด์ƒ ์„ค๊ณ„๊ฐ€ ์–ด๋ ค์šด ์ž‘์—…์— ๋Œ€ํ•œ end-to-end RL ์ ‘๊ทผ ๋ฐฉ์‹.
  • ํ™˜๊ฒฝ์˜ ๋ถˆํ™•์‹ค์„ฑ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ๋ถ€์กฑ ๋ฐ ์‚ฌ์šฉ์ž ์งˆ์˜ ์˜์กด์„ฑ ๋ฌธ์ œ ํ•ด๊ฒฐ.

๋ณธ ์—ฐ๊ตฌ๋Š” RL ๋ถ„์•ผ์—์„œ Reward Shaping ๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ๊ฒ€ํ† ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ƒ์„ธํ•œ ๋ถ„๋ฅ˜ ์ฒด๊ณ„, ์žฅ์ , ๋‹จ์ , ์ ์šฉ ์˜์—ญ ๋ฐ ๊ด€๋ จ ๋ฉ”ํŠธ๋ฆญ์Šค๋ฅผ ์ œ์‹œํ•œ๋‹ค. Reward Shaping์ด ํ•™์Šต ๊ฐ€์†ํ™”, ๋ถˆํ™•์‹ค์„ฑ ๊ด€๋ฆฌ, ๊ฐ•๊ฑด์„ฑ ๊ฐ•ํ™”, ์‹œ์Šคํ…œ ๊ฒฐ๊ณผ ํ–ฅ์ƒ ๋ฐ RL ์—์ด์ „ํŠธ์˜ ์„ฑ๊ณต๋ฅ  ์ฆ๊ฐ€์— ์ƒ๋‹นํ•œ ์ด์ ์„ ์ œ๊ณตํ•จ์„ ๊ฐ•์กฐํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ตฌํ˜„์€ ๋ณต์žกํ•˜๊ณ  ์‹œ๊ฐ„์ด ์†Œ๋ชจ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ž๋™ํ™”๋œ ๋งค๊ฐœ๋ณ€์ˆ˜ ํŠœ๋‹ ๋ฐฉ๋ฒ•์ด ์ด๋ฅผ ์ผ๋ถ€ ์™„ํ™”ํ•œ๋‹ค. ๋ฏธ๋ž˜ ์—ฐ๊ตฌ๋Š” ์‹ค์ œ ์ ์šฉ์—์„œ์˜ ํ‰๊ฐ€์™€ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ด์•ผ ํ•œ๋‹ค.


Detail Review

๊ฐ•ํ™”ํ•™์Šต์—์„œ์˜ Reward Engineering ๋ฐ Reward Shaping: ์ข…ํ•ฉ ๊ฐœ๊ด€ ๋ฐ ์‹ฌ์ธต ๋ถ„์„

์„œ๋ก 

๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning, RL)์€ ์—์ด์ „ํŠธ(Agent)๊ฐ€ ํ™˜๊ฒฝ(Environment)๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์‹œ๋„๋ฅผ ํ†ตํ•ด ์ตœ์ ์˜ ํ–‰๋™ ์ „๋žต์„ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค. RL ์—์ด์ „ํŠธ๋Š” ๋ˆ„์  ๋ณด์ƒ(cumulative reward)์„ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šตํ•˜๋ฉฐ, ๋ณด์ƒ(reward)์€ ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ›๋Š” ํ”ผ๋“œ๋ฐฑ ์‹ ํ˜ธ๋กœ์„œ ํ–‰๋™์˜ ์„ฑ๊ณผ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ณด์ƒ ํ•จ์ˆ˜์˜ ์„ค๊ณ„๋Š” RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์— ์ง€๋Œ€ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ํ•ต์‹ฌ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ์ž˜ ์„ค๊ณ„๋œ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์—์ด์ „ํŠธ์—๊ฒŒ ๋ช…ํ™•ํ•œ ํ–‰๋™ ์ง€์นจ์„ ์ฃผ์–ด ์›ํ•˜๋Š” ๋ชฉํ‘œ์— ๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ๋„๋‹ฌํ•˜๋„๋ก ๋งŒ๋“ค์ง€๋งŒ, ๋ถ€์ ์ ˆํ•œ ๋ณด์ƒ ์„ค๊ณ„๋Š” ์˜๋„์น˜ ์•Š์€ ํ–‰๋™์ด๋‚˜ ํ•™์Šต ์ง€์—ฐ์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณด์ƒ ์„ค๊ณ„(reward design)๋Š” ์›ํ•˜๋Š” ์—์ด์ „ํŠธ ํ–‰๋™๊ณผ ๋ชฉํ‘œ์— ๋ถ€ํ•ฉํ•˜๋„๋ก ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๋Š” ์„ฌ์„ธํ•˜๊ณ ๋„ ๋ณต์žกํ•œ ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ๋ณด์ƒ ์„ค๊ณ„์˜ ์ค‘์š”์„ฑ์€ ์•„๋ฌด๋ฆฌ ๊ฐ•์กฐํ•ด๋„ ์ง€๋‚˜์น˜์ง€ ์•Š์œผ๋ฉฐ, ์‹ค์ œ ํ™˜๊ฒฝ์ด ๋ณต์žกํ•ด์งˆ์ˆ˜๋ก ๊ทธ ์ค‘์š”์„ฑ์€ ๋”์šฑ ์ปค์ง‘๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋ณด์ƒ ์„ค๊ณ„์˜ ์ ‘๊ทผ๋ฒ•์€ ๋‘ ๊ฐ€์ง€ ๋ฒ”์ฃผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, Reward Engineering(Reward Engineering)์€ ๋ง ๊ทธ๋Œ€๋กœ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์ž‘์—…์œผ๋กœ, ์ƒํƒœ์™€ ํ–‰๋™ (๋ฐ ๊ฒฐ๊ณผ ์ƒํƒœ)์„ ํŠน์ • ์ˆ˜์น˜ ๋ณด์ƒ์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ž˜ ์„ค๊ณ„๋œ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์—์ด์ „ํŠธ์˜ ํ–‰๋™์— ๋Œ€ํ•ด ์ •๋ณด์„ฑ ์žˆ๋Š” ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜์—ฌ ๋ฐ”๋žŒ์งํ•œ ํ–‰๋™์„ ๊ฐ•ํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋™์‹œ์— ๋„ˆ๋ฌด ๋นˆ๋ฒˆํ•œ ๋ณด์ƒ์€ ์—์ด์ „ํŠธ๊ฐ€ ์‰ฌ์šด ํŽธ๋ฒ•์„ ์ฐพ์•„๋‚ด๋Š” (reward hacking) ๋ถ€์ž‘์šฉ์„ ๋‚ณ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ ์ ˆํ•œ ํฌ์†Œ์„ฑ๋„ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, Reward Shaping(Reward Shaping)์€ ๊ธฐ๋ณธ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ค์ •ํ•œ ํ›„ ํ•™์Šต ๊ณผ์ •์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์„ธ๋ฐ€ ์กฐ์ •ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. Reward Shaping์€ ๊ธฐ์กด์˜ ์ตœ์  ์ •์ฑ…(optimal policy)์„ ๋ฐ”๊พธ์ง€ ์•Š์œผ๋ฉด์„œ ํ•™์Šต์„ ๊ฐ€์†ํ•˜๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๋ณด์ƒ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡ ํŒ” ์ œ์–ด ๊ณผ์ œ์—์„œ ๋ชฉํ‘œ๋ฌผ๊นŒ์ง€์˜ ์Œ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ž ์žฌ์  ๋ณด์ƒ(potential reward)์œผ๋กœ ์„ค์ •ํ•˜๋ฉด, ์—์ด์ „ํŠธ๋Š” ์ตœ์ข… ์„ฑ๊ณต ์—ฌ๋ถ€์™€ ๊ด€๊ณ„์—†์ด ๋ชฉํ‘œ๋ฌผ์— ๊ฐ€๊นŒ์›Œ์งˆ ๋•Œ๋งˆ๋‹ค ์ถ”๊ฐ€ ๋ณด์ƒ์„ ๋ฐ›์•„ ๋ชฉํ‘œ์— ์ ์ง„์ ์œผ๋กœ ๋‹ค๊ฐ€๊ฐ€๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์ฒ˜๋Ÿผ Reward Engineering๊ณผ Reward Shaping์€ RL ์—์ด์ „ํŠธ๊ฐ€ ํšจ์œจ์ ์œผ๋กœ ์›ํ•˜๋Š” ํ–‰๋™์„ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์‹ค ์„ธ๊ณ„์˜ RL์—๋Š” ํ•ด๊ฒฐํ•ด์•ผ ํ•  ์—ฌ๋Ÿฌ ์–ด๋ ค์›€์ด ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ํฌ์†Œํ•˜๊ฑฐ๋‚˜ ์ง€์—ฐ๋œ ๋ณด์ƒ์€ ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๋กœ, ๋ณด์ƒ์ด ๋“œ๋ฌผ๊ฒŒ ์ฃผ์–ด์ง€๋ฉด ์—์ด์ „ํŠธ์˜ ํ•™์Šต ์ง„ํ–‰์ด ๋งค์šฐ ๋”๋ŽŒ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹ค์ œ ํ™˜๊ฒฝ์˜ ๋™์—ญํ•™์„ ์ •ํ™•ํžˆ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์–ด๋ ต๊ณ , ๊ณ ์ฐจ์› ์ƒํƒœยทํ–‰๋™ ๊ณต๊ฐ„์—์„œ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐ ๋ง‰๋Œ€ํ•œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋“ ๋‹ค๋Š” ํ•œ๊ณ„๋„ ์ง€์ ๋ฉ๋‹ˆ๋‹ค. ๋‹คํ–‰ํžˆ ๊ทผ๋ž˜ ๋”ฅ๋Ÿฌ๋‹์˜ ๋ฐœ์ „์œผ๋กœ ๋ณต์žกํ•œ ์ƒํƒœ๊ณต๊ฐ„์„ ๋‹ค๋ฃจ๋Š” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋˜์–ด ๋กœ๋ณดํ‹ฑ์Šค, ์ž์œจ์ฃผํ–‰, ๊ฒŒ์ž„ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ณต์žกํ•œ ๊ณผ์ œ์—๋„ RL์ด ์‘์šฉ๋˜๊ณ  ์žˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๋ถ„์•ผ์—์„œ RL์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉํ•˜๋ ค๋ฉด ์—ฌ์ „ํžˆ ํšจ๊ณผ์ ์ธ ๋ณด์ƒ ์„ค๊ณ„/ํ˜•์„ฑ ๊ธฐ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์ข…์„ค ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝํ•˜์—, ๊ฐ•ํ™”ํ•™์Šต์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ Reward Engineering ๋ฐ Reward Shaping ๊ธฐ๋ฒ•๋“ค์˜ ํ˜„์žฌ๊นŒ์ง€ ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ํฌ๊ด„์ ์œผ๋กœ ์ •๋ฆฌํ•˜๊ณ  ๊ฐ ์ ‘๊ทผ๋ฒ•์˜ ์žฅ๋‹จ์ ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด RL ๋ถ„์•ผ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ๊ณผ ์‹ค์ œ ์‘์šฉ ์‹œ ๊ณ ๋ คํ•  ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๋ฐฉ๋ฒ• (๋ฌธํ—Œ ์กฐ์‚ฌ ๋ฐ ์„ ์ • ๊ณผ์ •)

์ด ๋…ผ๋ฌธ์€ Reward Shaping ๊ธฐ๋ฒ•์— ๊ด€ํ•œ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์„ ์ฒด๊ณ„์  ๋ฌธํ—Œ์กฐ์‚ฌ(systematic literature review) ๋ฐฉ์‹์œผ๋กœ ์ข…ํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ฃผ์š” ํ•™์ˆ  ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ โ€œreward shapingโ€, โ€œreward engineeringโ€, โ€œreinforcement learningโ€, โ€œreward designโ€, โ€œcontrol systemsโ€ ๋“ฑ์˜ ํ‚ค์›Œ๋“œ๋ฅผ ์กฐํ•ฉํ•˜์—ฌ 1999๋…„๋ถ€ํ„ฐ 2024๋…„๊นŒ์ง€ ์ถœํŒ๋œ ๊ด€๋ จ ๋ฌธํ—Œ์„ ๊ฒ€์ƒ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒ€์ƒ‰๋œ ๋…ผ๋ฌธ๋“ค์€ PRISMA 2020 ์ง€์นจ์— ๋”ฐ๋ผ ๋‹จ๊ณ„์ ์œผ๋กœ ์„ ๋ณ„๋˜์—ˆ์œผ๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ 55ํŽธ์˜ ํ•ต์‹ฌ ์—ฐ๊ตฌ๊ฐ€ ๋ฆฌ๋ทฐ์— ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋…ผ๋ฌธ์€ ์ฃผ๋กœ ์ธ๊ณต์ง€๋Šฅ ๊ธฐ๋ฐ˜ ์ œ์–ด ์‹œ์Šคํ…œ์—์„œ์˜ Reward Shaping ๊ธฐ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, ์‹คํ—˜์  ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•œ ์—ฐ๊ตฌ๋“ค๋กœ ์ œํ•œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋งŒ ์ œ์‹œํ•˜๊ฑฐ๋‚˜ ์‹ค์ฆ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๋Š” ๋…ผ๋ฌธ๋“ค์€ ๋ฐฐ์ œ๋˜์—ˆ์œผ๋ฉฐ, ์˜ˆ์™ธ์ ์œผ๋กœ ์˜ํ–ฅ๋ ฅ์ด ํฌ๋‹ค๊ณ  ํŒ๋‹จ๋œ ๋ช‡๋ช‡ ์ด๋ก  ๋…ผ๋ฌธ์€ ๊ฒ€ํ†  ๋Œ€์ƒ์— ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํฌํ•จ๋œ ๊ฐ ์—ฐ๊ตฌ์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „์— ์ •์˜ํ•œ ๊ธฐ์ค€์— ๋”ฐ๋ผ ํ’ˆ์งˆ ํ‰๊ฐ€๋„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ฒด๊ณ„์ ์ธ ๋ฌธํ—Œ ์กฐ์‚ฌ ๊ณผ์ •์„ ํ†ตํ•ด, ๋ณธ ๋ฆฌ๋ทฐ๋Š” ๊ฐ•ํ™”ํ•™์Šต์—์„œ์˜ ๋ณด์ƒ ์„ค๊ณ„ ๋ฐ ํ˜•์„ฑ์— ๊ด€ํ•œ ์‹ ๋ขฐ๋„ ๋†’์€ ์ตœ์‹  ์ง€์‹๋“ค์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์ •๋ฆฌํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ ๊ฐœ๋…

๊ฐ•ํ™”ํ•™์Šต์˜ ๊ตฌ์„ฑ ์š”์†Œ: RL์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ ๊ฐœ๋…์„ ์งš๊ณ  ๋„˜์–ด๊ฐ€๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์—์ด์ „ํŠธ(Agent): ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํ•™์Šตํ•˜๋Š” ์ฃผ์ฒด์ž…๋‹ˆ๋‹ค.
  • ํ™˜๊ฒฝ(Environment): ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์„ธ๊ณ„๋กœ, ์ •ํ•ด์ง„ ๊ทœ์น™๊ณผ ๋™์  ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ •์ฑ…(Policy): ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ทจํ•  ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๋Š” ์ „๋žต ๋˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ๋ณด์ƒ(Reward): ์—์ด์ „ํŠธ์˜ ํ–‰๋™ ๊ฒฐ๊ณผ๋กœ ์ฃผ์–ด์ง€๋Š” ์‹ ํ˜ธ๋กœ, ํŠน์ • ์ƒํƒœ๋‚˜ ํ–‰๋™์˜ ๋ฐ”๋žŒ์งํ•จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ๊ฐ€์น˜ ํ•จ์ˆ˜(Value Function): ํŠน์ • ์ƒํƒœ(๋˜๋Š” ์ƒํƒœ-ํ–‰๋™ ์Œ)์— ๋Œ€ํ•ด ๋ฏธ๋ž˜์— ์–ป์„ ๋ˆ„์  ๋ณด์ƒ์˜ ๊ธฐ๋Œ€๊ฐ’์„ ์ถ”์ •ํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ํƒํ—˜ vs ํ™œ์šฉ(Exploration vs Exploitation): ์ƒˆ๋กœ์šด ํ–‰๋™์„ ์‹œ๋„ํ•˜์—ฌ ์ •๋ณด๋ฅผ ์–ป๋Š” ํƒํ—˜๊ณผ, ํ˜„์žฌ ํ•™์Šตํ•œ ์ตœ์  ํ–‰๋™์„ ์‚ฌ์šฉํ•˜๋Š” ํ™œ์šฉ ๊ฐ„์˜ ๊ท ํ˜•์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

Reward Shaping๊ณผ Reward Engineering์˜ ์ •์˜: Reward Shaping๊ณผ Reward Engineering์€ ์•ž์„œ ์„œ๋ก ์—์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ ๋ณด์ƒ ์„ค๊ณ„์˜ ๋‘ ์ถ•์ž…๋‹ˆ๋‹ค. Reward Shaping(reward shaping)์€ ๋™๋ฌผ ํ›ˆ๋ จ์—์„œ ์˜๊ฐ์„ ์–ป์€ ๊ฐœ๋…์œผ๋กœ, ์ถ”๊ฐ€์ ์ธ ๋ณด์ƒ์„ ์ œ๊ณตํ•˜์—ฌ ํ•™์Šต ๋ฌธ์ œ๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์—์ด์ „ํŠธ์˜ ํ•™์Šต์„ ๊ฐ€์ด๋“œํ•˜๊ธฐ ์œ„ํ•ด ์›๋ž˜์˜ ๋ณด์ƒ ํ•จ์ˆ˜์— ์ธ์„ผํ‹ฐ๋ธŒ๋‚˜ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ง๋ถ™์—ฌ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด์— ๋ฐ˜ํ•ด Reward Engineering(reward engineering)์€ ๋ณด๋‹ค ํญ๋„“์€ ๊ฐœ๋…์œผ๋กœ, ๊ธฐ์กด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‚˜ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ค๊ณ„ํ•˜๊ฑฐ๋‚˜ ์•„์˜ˆ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ชจ๋“  ์ ‘๊ทผ์„ ํฌ๊ด„ํ•ฉ๋‹ˆ๋‹ค.

โ€œ๋ณด์ƒ์œผ๋กœ ์ถฉ๋ถ„ํ•˜๋‹คโ€ vs โ€œ๋ณด์ƒ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹คโ€ ๋…ผ์Ÿ: ์ธ๊ณต์ง€๋Šฅ ์—ฐ๊ตฌ์ž๋“ค ์‚ฌ์ด์—์„œ๋Š” ๋‹จ์ผ ์Šค์นผ๋ผ ๋ณด์ƒ ์‹ ํ˜ธ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์ง€๋Šฅ์  ํ–‰๋™์„ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋…ผ์Ÿ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๊ด€์ ์ธ โ€œ๋ณด์ƒ์ด ์ถฉ๋ถ„ํ•˜๋‹ค(Reward is Enough)โ€ ๊ฐ€์„ค์— ๋”ฐ๋ฅด๋ฉด, ํ•˜๋‚˜์˜ ์Šค์นผ๋ผ ๋ณด์ƒ ๊ฐ’๋งŒ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ํ•™์Šต์‹œ์ผœ๋„ ๋ณต์žกํ•œ ์ธ์ง€๋Šฅ๋ ฅ์ด ์ €์ ˆ๋กœ ๋ฐœํ˜„๋  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด ์ž…์žฅ์—์„œ๋Š” ๋‹จ์ผ ๋ณด์ƒ ๋ชฉํ‘œ๋ฅผ ํ–ฅํ•ด ๋‚˜์•„๊ฐ€๋Š” ๊ณผ์ •์—์„œ, ํ™˜๊ฒฝ์˜ ๋ณต์žก์„ฑ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์–ธ์–ด ์ดํ•ด๋‚˜ ์‚ฌํšŒ์„ฑ ๊ฐ™์€ ๊ณ ์ฐจ์› ๋Šฅ๋ ฅ์„ ๋Œ์–ด๋‚ธ๋‹ค๊ณ  ๋ด…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด โ€œ์Šค์นผ๋ผ ๋ณด์ƒ๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค(Scalar Reward is Not Enough)โ€๋ผ๋Š” ๋ฐ˜๋ก ์€ ์ธ๊ฐ„ ์ง€๋Šฅ์˜ ๋‹ค๋ฉด์  ํŠน์„ฑ์„ ๋‹จ์ผ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๊ณ  ์ง€์ ํ•˜๋ฉฐ, ๋ฒกํ„ฐ ๋ณด์ƒ(vector-valued reward) ๋“ฑ ๋‹ค์ค‘ ๋ชฉํ‘œ๋ฅผ ๋„์ž…ํ•ด์•ผ ์•ˆ์ „ํ•˜๊ณ  ์ธ๊ฐ„๊ณผ ์กฐํ™”๋œ AI๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์œค๋ฆฌ์  ํŒ๋‹จ์ด๋‚˜ ์ฃผ๊ด€์  ๋ชฉํ‘œ๊ฐ€ ํ•„์š”ํ•œ ์˜์—ญ์—์„œ๋Š” ์—ฌ๋Ÿฌ ์ง€ํ‘œ๋ฅผ ํ•จ๊ป˜ ๊ณ ๋ คํ•ด์•ผ ์˜ฌ๋ฐ”๋ฅธ ์˜์‚ฌ๊ฒฐ์ •์„ ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์–‘์ธก ๋ชจ๋‘ ๋ณด์ƒ์˜ ์ค‘์š”์„ฑ์€ ์ธ์ •ํ•˜์ง€๋งŒ, ๋‹จ์ผ ๋ณด์ƒ์˜ ์ถฉ๋ถ„์„ฑ์— ๋Œ€ํ•ด์„œ๋Š” ์ด์ฒ˜๋Ÿผ ๊ฒฌํ•ด ์ฐจ์ด๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์‹ค์ œ ์ ์šฉ์—์„œ๋Š” ๋ฌธ์ œ ํŠน์„ฑ์— ๋”ฐ๋ผ ๋‹จ์ผ ๋ณด์ƒ์˜ ๋‹จ์ˆœํ•จ๊ณผ ๋‹ค์ค‘ ๋ณด์ƒ์˜ ํ’๋ถ€ํ•จ ์‚ฌ์ด์—์„œ ์ ์ ˆํ•œ ์„ ํƒ์„ ํ•ด์•ผ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ์ธ๊ฐ„ ์ง€๋Šฅ์„ ๋ชจ์‚ฌํ•˜๋ ค๋ฉด ๋” ์„ฌ์„ธํ•œ ๋ณด์ƒ ํ‘œํ˜„์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋ณด์ƒ ์„ค๊ณ„ ์‹œ ์ผ๋ฐ˜์ ์ธ ํ•จ์ •๋“ค: ํšจ๊ณผ์ ์ธ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค๊ธฐ๋ž€ ์‰ฝ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ ๋ณด์ƒ ์„ค๊ณ„๋Š” ์—์ด์ „ํŠธ์˜ ์—‰๋šฑํ•œ ํ–‰๋™์„ ์œ ๋ฐœํ•˜๊ฑฐ๋‚˜ ํ•™์Šต ์‹คํŒจ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Ÿฐ ์œ„ํ—˜์š”์†Œ๋“ค์„ ๋ฏธ๋ฆฌ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ณด์ƒ ์„ค๊ณ„์˜ ๋Œ€ํ‘œ์ ์ธ ํ•จ์ •(pitfall)๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๋ณด์ƒ์˜ ํฌ์†Œ์„ฑ(Sparsity): ๋ณด์ƒ ์‹ ํ˜ธ๊ฐ€ ๋„ˆ๋ฌด ๋“œ๋ฌผ๊ฑฐ๋‚˜ ์ง€์—ฐ๋˜์–ด ์ œ๊ณต๋˜๋ฉด ์—์ด์ „ํŠธ๋Š” ์–ด๋–ค ํ–‰๋™์ด ์ข‹์€์ง€ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์›Œ์ ธ ํ•™์Šต ์†๋„๊ฐ€ ๋งค์šฐ ๋А๋ ค์ง‘๋‹ˆ๋‹ค.
  • ๊ธฐ๋งŒ์  ๋ณด์ƒ(Deceptive Reward): ์„ค์ •ํ•œ ๋ณด์ƒ์ด ์˜๋„์™€ ๋‹ฌ๋ฆฌ ์—์ด์ „ํŠธ์—๊ฒŒ ์‰ฌ์šด ํŽธ๋ฒ•์„ ์žฅ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ‘œ๋ฉด์ ์ธ ๋ณด์ƒ๋งŒ ๋†’์ด๊ณ  ์‹ค์ œ ๋ชฉํ‘œ๋Š” ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•˜๋Š” ํ–‰๋™์„ ์ทจํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณด์ƒ ํ•ดํ‚น(Reward Hacking): ์—์ด์ „ํŠธ๊ฐ€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์•…์šฉํ•˜๋Š” ํ˜„์ƒ์œผ๋กœ, ์›ํ•˜๋Š” ๋ชฉํ‘œ๋Š” ์ด๋ฃจ์ง€ ์•Š์€ ์ฑ„ ๋ณด์ƒ๋งŒ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์น˜ํŠธ ํ–‰๋™์„ ์ฐพ๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒญ์†Œ ๋กœ๋ด‡์—๊ฒŒ โ€œ๊นจ๋—ํ•œ ๋ฐฉ ์œ ์ง€โ€์— ๋ณด์ƒ์„ ์ฃผ์—ˆ๋”๋‹ˆ, ๋กœ๋ด‡์ด ์‹ค์ œ ์ฒญ์†Œ๋Š” ํ•˜์ง€ ์•Š๊ณ  ์„ผ์„œ๋ฅผ ๊ฐ€๋ ค ๋”๋Ÿฌ์šด ๊ฒƒ์„ ์ธ์‹ํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์‹์ž…๋‹ˆ๋‹ค.
  • ์˜๋„์น˜ ์•Š์€ ๋ถ€์ž‘์šฉ(Unintended Consequences): ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ๋ณด์ƒ ์„ค๊ณ„๋กœ ์ธํ•ด ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ๋ถ€์ž‘์šฉ์ด ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ ํ–‰๋™๊ณผ ํ™˜๊ฒฝ์˜ ์ƒํ˜ธ์ž‘์šฉ์ด ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•˜์—ฌ, ์‚ฌ์†Œํ•œ ๋ณด์ƒ ํ•ญ๋ชฉ์ด ํฐ ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ค๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชฉํ‘œ์™€ ๋ณด์ƒ์˜ ๋ถˆ์ผ์น˜(Misalignment): ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ๊ฐœ๋ฐœ์ž์˜ ์ง„์งœ ์˜๋„๋ฅผ ์™„๋ฒฝํžˆ ๋Œ€๋ณ€ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ์—์ด์ „ํŠธ๋Š” ๋†’์€ ๋ณด์ƒ์„ ๋ฐ›์•„๋„ ์ •์ž‘ ์šฐ๋ฆฌ๊ฐ€ ์›ํ•œ ๋ชฉํ‘œ๋Š” ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณต์žกํ•œ ๋ณด์ƒ ํ•จ์ˆ˜(Complexity): ๋ณด์ƒ์— ๋„ˆ๋ฌด ๋งŽ์€ ์š”์†Œ๋ฅผ ๋„ฃ์œผ๋ฉด ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ค๊ณ„ํ•˜๊ณ  ํ•ด์„ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค. ๋‹ค๋ชฉ์  ๋ณด์ƒ์€ ๊ทธ ๊ฐ€์ค‘์น˜๋ฅผ ์ •ํ•˜๊ธฐ ํž˜๋“ค๊ณ , ์ž˜๋ชปํ•˜๋ฉด ์–ด๋А ํ•œ ์ชฝ๋„ ๋งŒ์กฑ์‹œํ‚ค์ง€ ๋ชปํ•  ์šฐ๋ ค๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€์˜ ์–ด๋ ค์›€(Evaluation Difficulty): ๋ณต์žกํ•œ ํ™˜๊ฒฝ์ผ์ˆ˜๋ก ํ•œ ๋ฒˆ ์ •ํ•œ ๋ณด์ƒ ๊ตฌ์กฐ๊ฐ€ ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜๋Š”์ง€ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ํž˜๋“ญ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฑฐ์ณ์•ผ ํ•˜๋Š”๋ฐ, ์ด ๊ณผ์ • ๋˜ํ•œ ๋น„์šฉ์ด ํฝ๋‹ˆ๋‹ค.

์œ„์™€ ๊ฐ™์€ ์ด์œ ๋“ค ๋•Œ๋ฌธ์—, ๊ธฐ์กด์˜ ๋‹จ์ˆœ ๋ณด์ƒ ์„ค๊ณ„๋งŒ์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ๋•Œ Reward Engineering์  ๊ธฐ๋ฒ•๋“ค์ด ๋Œ€์•ˆ์œผ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ณด๋‹ค ์ฒด๊ณ„์ ์ด๊ณ  ๋ฐœ์ „๋œ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ฐœ์„ ํ•จ์œผ๋กœ์จ ์ด๋Ÿฌํ•œ ํ•จ์ •์„ ํ”ผํ•˜๋ ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•œ ๊ฐ€์ง€ ๊ธฐ์–ตํ•ด์•ผ ํ•  ์ ์€, ๋ณด์ƒ ํ•จ์ •์€ ์™„์ „ํžˆ ์—†์•จ ์ˆ˜๋Š” ์—†๋”๋ผ๋„ ๋ฐ˜๋ณต์ ์ธ ํ…Œ์ŠคํŠธ์™€ ๊ฒ€์ฆ(iterative testing & validation)์„ ํ†ตํ•ด ๋ฐœ๊ฒฌํ•˜๊ณ  ์ˆ˜์ •ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๊ฐ€ ๋ณด์ƒ์„ ์ž˜๋ชป ์ตœ๋Œ€ํ™”ํ•˜๊ณ  ์žˆ์ง€๋Š” ์•Š์€์ง€ ์ง€์†์ ์œผ๋กœ ๊ด€์ฐฐํ•˜์—ฌ, ์˜๋„๋Œ€๋กœ ํ–‰๋™ํ•˜๋„๋ก ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ๋‹ค๋“ฌ์–ด๋‚˜๊ฐ€์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์Šค์นผ๋ผ ๋ณด์ƒ vs ๋ฒกํ„ฐ ๋ณด์ƒ: ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋…ผ์Ÿ๊ณผ ๊ด€๋ จํ•˜์—ฌ, ๋ณด์ƒ์„ ๋‹จ์ผ ์Šค์นผ๋ผ ๊ฐ’์œผ๋กœ ์ค„ ๊ฒƒ์ด๋ƒ ์•„๋‹ˆ๋ฉด ๋‹ค์ฐจ์› ๋ฒกํ„ฐ๋กœ ๊ตฌ์„ฑํ•  ๊ฒƒ์ด๋ƒ๋„ ์ค‘์š”ํ•œ ์„ค๊ณ„ ์„ ํƒ์ž…๋‹ˆ๋‹ค. ์Šค์นผ๋ผ ๋ณด์ƒ์€ ํ•œ ๊ฐ€์ง€ ์ˆ˜์น˜๋กœ ๋ชฉํ‘œ ์ง„์ฒ™๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฏ€๋กœ ๋‹จ์ˆœํ•˜๊ณ  ๋ช…ํ™•ํ•˜๋ฉฐ ๊ณ„์‚ฐ๋„ ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฒŒ์ž„์—์„œ ์ด๊ฒผ์œผ๋ฉด +1, ์กŒ์œผ๋ฉด 0๊ณผ ๊ฐ™์ด ํ•˜๋‚˜์˜ ๊ฐ’๋งŒ ์ฃผ๋ฉด ๋˜๋‹ˆ ํ•ด์„๋„ ์‰ฝ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ณต์žกํ•œ ๊ณผ์ œ์—์„œ๋Š” ์Šค์นผ๋ผ ๋ณด์ƒ ํ•˜๋‚˜๋กœ๋Š” ๊ณผ์ œ์˜ ์—ฌ๋Ÿฌ ์ธก๋ฉด์„ ๋ชจ๋‘ ๋ฐ˜์˜ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์—์ด์ „ํŠธ๊ฐ€ ์ค‘์š”ํ•œ ์„ธ๋ถ€ ์š”์†Œ๋ฅผ ๋†“์น˜๊ฑฐ๋‚˜ ๊ตญ์†Œ ์ตœ์ ํ•ด์— ๋น ์งˆ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋ฒกํ„ฐ ๋ณด์ƒ์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐ’์„ ํ†ตํ•ด ๊ณผ์ œ์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด(์˜ˆ: ์†๋„, ์ •ํ™•๋„, ์ž์› ์†Œ๋ชจ ๋“ฑ)์„ ํ‰๊ฐ€ํ•˜๋ฏ€๋กœ ๋” ํ’๋ถ€ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” ์–ด๋–ค ์ธก๋ฉด์— ๋” ์ฃผ๋ ฅํ•ด์•ผ ํ•˜๋Š”์ง€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์–ด ๋‹ค๋ชฉ์  ๋ฌธ์ œ์—์„œ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋ฒกํ„ฐ ๋ณด์ƒ์„ ์‚ฌ์šฉํ•˜๋ฉด ์—ฌ๋Ÿฌ ๋ณด์ƒ ์š”์†Œ ๊ฐ„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋‹ค๋ค„์•ผ ํ•˜๊ณ , ๋ณด์ƒ ๊ณต๊ฐ„์ด ๋‹ค์ฐจ์›์ด๋ฏ€๋กœ ํ•™์Šต์ด ๋ณต์žกํ•ด์ง€๋ฉฐ ๊ณ„์‚ฐ๋น„์šฉ๋„ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ณผ์ œ์˜ ํŠน์„ฑ, ์š”๊ตฌ ์„ฑ๋Šฅ ์ˆ˜์ค€, ๊ณ„์‚ฐ ์ž์› ๋“ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์Šค์นผ๋ผ vs ๋ฒกํ„ฐ ๋ณด์ƒ์„ ๊ฒฐ์ •ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ์ˆœํ•˜๊ณ  ๋ช…ํ™•ํ•œ ๋ชฉํ‘œ์—๋Š” ์Šค์นผ๋ผ ๋ณด์ƒ์ด ์ข‹์ง€๋งŒ, ์•ˆ์ „์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชฉํ‘œ๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋ผ๋ฉด ๋ฒกํ„ฐ ๋ณด์ƒ์ด๋‚˜ ๋‹ค์ค‘ ๋ชฉํ‘œ ์ ‘๊ทผ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Reward Shaping/Engineering ๊ธฐ๋ฒ•์˜ ๋ถ„๋ฅ˜

์ด ์„น์…˜์—์„œ๋Š” ๋‹ค์–‘ํ•œ Reward Shaping ๋ฐ Reward Engineering ๊ธฐ๋ฒ•๋“ค์„ ๊ทธ ์›๋ฆฌ์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ํ•˜๊ณ , ๊ฐ ๋ฒ”์ฃผ๋ณ„ ์ฃผ์š” ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํŠน์ง•, ์žฅ๋‹จ์ ์„ ์ƒ์„ธํžˆ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ๋™๊ธฐ๋ถ€์—ฌ ์ด๋ก ์— ๋น—๋Œ€์–ด ์‹ฌ์ธต๊ฐ•ํ™”ํ•™์Šต์˜ ๋ณด์ƒ๋„ ์™ธ์žฌ์  ๋ณด์ƒ(extrinsic reward)๊ณผ ๋‚ด์žฌ์  ๋ณด์ƒ(intrinsic reward)์œผ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์™ธ์žฌ์  ๋ณด์ƒ์€ ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์–ด์ง€๋Š” ๋ช…์‹œ์ ์ธ ๋ณด์ƒ(์˜ˆ: ๊ฒŒ์ž„์—์„œ์˜ ์ ์ˆ˜)์ด๊ณ , ๋‚ด์žฌ์  ๋ณด์ƒ์€ ์—์ด์ „ํŠธ ์Šค์Šค๋กœ ๋ถ€์—ฌํ•˜๋Š” ๋ณด์ƒ(์˜ˆ: ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ๋ฐœ๊ฒฌํ–ˆ์„ ๋•Œ์˜ ๋งŒ์กฑ๊ฐ)์œผ๋กœ ํƒํ—˜ ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ RL ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋‚ด์žฌ์  ๋™๊ธฐ(intrinsic motivation)๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์—์ด์ „ํŠธ๊ฐ€ ํฌ์†Œํ•œ ์™ธ์žฌ์  ๋ณด์ƒ ์ƒํ™ฉ์—์„œ๋„ ํ•™์Šต์„ ์ง€์†ํ•˜๋„๋ก ํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค์ด ๋ฐœ์ „ํ•ด์™”์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ณด์ƒ์—๋Š” ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์™€ ํ™œ์šฉ๋ฒ•์ด ์กด์žฌํ•˜๋ฉฐ, ์•„๋ž˜์—์„œ๋Š” ์ตœ์‹  ์—ฐ๊ตฌ๋“ค์„ ์ค‘์‹ฌ์œผ๋กœ ๋‹ค์–‘ํ•œ Reward Eningeering/Shaping ์ „๋žต์„ ๊ธฐ์ˆ ํ•ฉ๋‹ˆ๋‹ค. ํ•„์š”์— ๋”ฐ๋ผ ๊ฐ ์ ‘๊ทผ๋ฒ•์˜ ๊ตฌ์ฒด์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์‚ฌ๋ก€, ๊ทธ๋ฆฌ๊ณ  ์žฅ์ ๊ณผ ํ•œ๊ณ„๋ฅผ ํ•จ๊ป˜ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์ •์ฑ… ๊ฒฝ์‚ฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Policy Gradient ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์ตœ์ ํ™”)

์ •์ฑ… ๊ฒฝ์‚ฌ ๊ธฐ๋ฒ•์€ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ๋™์ ์œผ๋กœ ํ•™์Šตํ•˜๊ฑฐ๋‚˜ ์ตœ์ ํ™”ํ•˜๋Š” ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์ •์ฑ… ๊ฒฝ์‚ฌ(policy gradient) ๋ฐฉ๋ฒ•์€ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜์ง€ ์•Š๊ณ  ์—์ด์ „ํŠธ์˜ ์ •์ฑ…์„ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋Š” RL ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ตฐ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ •์ฑ… ๊ฒฝ์‚ฌ ๋ฐฉ๋ฒ•์„ ๋ณด์ƒ ์„ค๊ณ„์— ์‘์šฉํ•œ ๋Œ€ํ‘œ ์—ฐ๊ตฌ๋กœ PGRD (Policy Gradient for Reward Design)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. PGRD๋Š” ์—์ด์ „ํŠธ์˜ ํ•™์Šต ์ค‘์— ๋ณด์ƒ ํ•จ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์˜จ๋ผ์ธ์œผ๋กœ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ทธ๋ž˜๋””์–ธํŠธ ์ƒ์Šน(gradient ascent)์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ดˆ๊ธฐ์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ณ ์ •๋œ ๊ฒƒ์œผ๋กœ ๋‘์ง€ ์•Š๊ณ , ์„ค๊ณ„์ž๊ฐ€ ์›ํ•˜๋Š” ๋ชฉํ‘œ์— ๊ทผ์ ‘ํ•˜๋„๋ก ๋ณด์ƒ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ„์† ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ณด์ƒ ์ž์ฒด๋ฅผ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ์—์„œ ๊ฒช๋Š” ์—ํ”ผ์†Œ๋“œ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์กฐ๊ธˆ์”ฉ ๊ฐœ์„ ํ•ด๋‚˜๊ฐ‘๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” โ€œ์ตœ์ ์˜ ๋ณด์ƒ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ฒฐ๊ตญ ์ตœ์ ์˜ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์ด๋ˆ๋‹คโ€๋Š” ๊ฒƒ์ด๋ฉฐ, ๋ณด์ƒ ์„ค๊ณ„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋˜ ๋‹ค๋ฅธ ํ•™์Šต(proximal gradient ascent)์„ ๋Œ๋ฆฌ๋Š” ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. PGRD๋Š” ์ด๋ก ์ ์œผ๋กœ ์ˆ˜๋ ด์ด ๋ณด์žฅ๋˜๋ฉฐ, ๋ถ€๋ถ„ ๊ด€์ธก ํ™˜๊ฒฝ ๋“ฑ์—์„œ๋„ ํšจ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์—์„œ PGRD๋Š” ๊ธฐ์กด์— ๊ณ ์ •๋œ ๋ณด์ƒ์œผ๋กœ ํ•™์Šตํ•œ ์—์ด์ „ํŠธ๋ณด๋‹ค ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ์ด๋Š” ์—์ด์ „ํŠธ์˜ ๋Šฅ๋ ฅ๊ณผ ํ™˜๊ฒฝ ๋ถˆํ™•์‹ค์„ฑ์— ๋งž๊ฒŒ ๋ณด์ƒ ๊ตฌ์กฐ๊ฐ€ ์ ์‘์ ์œผ๋กœ ๋ณ€ํ•œ ๋•๋ถ„์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด PGRD๋ฅผ ์ ์šฉํ•œ ๊ฒฐ๊ณผ, ์ผ๋ถ€ ํ™˜๊ฒฝ์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋” ๋†’์€ ํ‰๊ท  ๋ณด์ƒ์„ ์–ป์œผ๋ฉฐ ํ•™์Šต ์†๋„๋„ ํ–ฅ์ƒ๋˜๋Š” ๊ฒƒ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

PGRD์˜ ์—ฐ์žฅ์„ ์ƒ์—์„œ, LIRPG (Learning Intrinsic Reward for Policy Gradient) ์•Œ๊ณ ๋ฆฌ์ฆ˜๋„ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. LIRPG๋Š” ์™ธ์žฌ์  ๋ณด์ƒ ์™ธ์— ๋‚ด์žฌ์  ๋ณด์ƒ์„ ๋ณ‘๋ ฌ๋กœ ํ•™์Šตํ•จ์œผ๋กœ์จ ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๊ตฌ์„ฑํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ๋‚ด์žฌ์  ๋ณด์ƒ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋„ ํ•จ๊ป˜ ์—…๋ฐ์ดํŠธํ•˜์—ฌ, ์ •์ฑ… ํ•™์Šต๊ณผ ๋ณด์ƒ ํ•™์Šต์„ ๋™์‹œ์— ์ด๋ฃน๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” ํ™˜๊ฒฝ์ด ์ฃผ๋Š” ๋ณด์ƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž์ฒด์ ์œผ๋กœ ์ •์˜ํ•œ ๋ณด์ƒ์„ ๊ธฐ์ค€์œผ๋กœ๋„ ํ•™์Šต ๋ฐฉํ–ฅ์„ ์žก์Šต๋‹ˆ๋‹ค. Atari ๊ฒŒ์ž„์ด๋‚˜ MuJoCo ๋กœ๋ณดํ‹ฑ์Šค ํ™˜๊ฒฝ์—์„œ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ, LIRPG๋Š” ํ‘œ์ค€ PPO ์—์ด์ „ํŠธ๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‚ด์žฌ์  ๋ณด์ƒ๋งŒ์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚จ ๊ฒฝ์šฐ์—๋„ ์ผ์ • ์ˆ˜์ค€ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๋“ฑ, ํ‘œ๋ณธ ํšจ์œจ(sample efficiency)๊ณผ ํ•™์Šต ์†๋„๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ LIRPG๋ฅผ ์ ์šฉํ•˜๋ ค๋ฉด ๋‚ด์žฌ์  ๋ณด์ƒ ํ•จ์ˆ˜์˜ ํ˜•ํƒœ์™€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ž˜ ์„ค์ •ํ•ด์•ผ ํ•˜๋ฉฐ, ๋‚ด์žฌ์  ๋ณด์ƒ๊ณผ ์ •์ฑ… ์—…๋ฐ์ดํŠธ ๊ฐ„์˜ ์ƒํ˜ธ์ž‘์šฉ์— ๋”ฐ๋ผ ๋ฏผ๊ฐ๋„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ƒˆ๋กœ์šด ๋ณด์ƒํ•จ์ˆ˜๋ฅผ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋Š” ๋งŒํผ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์˜ ๋ถ€๋‹ด์ด ์žˆ๊ณ , ๋ถ€์ ์ ˆํ•œ ๋‚ด์žฌ ๋ณด์ƒ์€ ์˜คํžˆ๋ ค ํ•™์Šต์„ ๊ต๋ž€ํ•  ์œ„ํ—˜๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์‚ฌ๋ก€๋กœ, DDPGfD (DDPG from Demonstrations) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ •์ฑ… ๊ฒฝ์‚ฌ ๋ฐฉ๋ฒ•(DDPG)์— ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ๋ณด๊ฐ•ํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์€ ํŠนํžˆ ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ธ๋ฐ, ์ธ๊ฐ„ ์‹œ๋ฒ”(์ „๋ฌธ๊ฐ€ ๋ฐ๋ชจ)์„ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ํ•จ๊ป˜ ์ €์žฅํ•˜์—ฌ ์ดˆ๊ธฐ ํ•™์Šต์„ ๋•์Šต๋‹ˆ๋‹ค. DDPGfD๋Š” ์˜คํ”„ํด๋ฆฌ์‹œ(off-policy) Actor-Critic ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DDPG์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ณ€ํ˜•์„ ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค: (1) ์ธ๊ฐ„ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒ„ํผ์— ์ถ”๊ฐ€ํ•˜๊ณ , (2) ์ƒ˜ํ”Œ๋ง ์‹œ ์šฐ์„ ์ˆœ์œ„ ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๋ฒ”๊ณผ ์ž๊ฐ€ ํ”Œ๋ ˆ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์ ์ ˆํžˆ ํ˜ผํ•ฉํ•˜๋ฉฐ, (3) 1-step ๋ณด์ƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ n-step ๋ฆฌํ„ด ๋ณด์ƒ์œผ๋กœ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ๊ฐ•ํ™”ํ•˜๊ณ , (4) ํ•œ ๋ฒˆ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ๋งˆ๋‹ค ๋‹ค์ค‘ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ ๋†’์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ๊ฐ€์น˜๋ง(ํฌ๋ฆฌํ‹ฑ)๊ณผ ์ •์ฑ…๋ง(์•กํ„ฐ)์— L2 ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณ€๊ฒฝ์„ ํ†ตํ•ด, ์˜ˆ๋ฅผ ๋“ค์–ด 7์ž์œ ๋„ ๋กœ๋ด‡ํŒ”๋กœ ํ”Œ๋ผ์Šคํ‹ฑ ๋ถ€ํ’ˆ ๋ผ์›Œ ๋งž์ถ”๊ธฐ ์ž‘์—…์„ ํ•™์Šตํ•˜๋Š” ์‹คํ—˜์—์„œ, DDPGfD๋Š” ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ ์–‘์— ๋น„๋ก€ํ•˜์—ฌ ํ•™์Šต ๊ณก์„ ์ด ๊ฐœ์„ ๋˜๊ณ  ๋ณด๋‹ค ์•ˆ์ •์ ์œผ๋กœ ๊ณผ์ œ๋ฅผ ์„ฑ๊ณต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” ์ธ๊ฐ„์ด ์•Œ๋ ค์ค€ ๊ฒฝ๋กœ(์‹œ๋ฒ”)์™€ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜๋ฉด, ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต๋ณด๋‹ค ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ๋ณต์žกํ•œ ๊ณผ์ œ๋ฅผ ์ตํž ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. DDPGfD์˜ ๊ฐ•์ ์€ ํƒํ—˜ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ํ•™์Šต ์ดˆ๊ธฐ์˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ์ค„์—ฌ์ค€๋‹ค๋Š” ์ ์ด์ง€๋งŒ, ์ธ๊ฐ„ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ์˜ ์งˆ๊ณผ ์–‘์— ์„ฑ๋Šฅ์ด ์ขŒ์šฐ๋˜๋ฉฐ, ์ถ”๊ฐ€๋œ ์‹œ๋ฒ” ์ฒ˜๋ฆฌ ๋‹จ๊ณ„๋กœ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ตฌํ˜„ ๋ณต์žก๋„๊ฐ€ ์ฆ๊ฐ€ํ•˜๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐ•๊ฑด์„ฑ ๋ฐ ์ ์‘์„ฑ ํ–ฅ์ƒ ๋ฐฉ๋ฒ•

๊ฐ•๊ฑด์„ฑ(Robustness)๊ณผ ์ ์‘์„ฑ(Adaptability)์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ๋ณด์ƒ ์„ค๊ณ„ ๊ธฐ๋ฒ•๋“ค์€, ํ™˜๊ฒฝ์˜ ๋ถˆํ™•์‹ค์„ฑ์ด๋‚˜ ๋ณ€ํ™”๋ฅผ ๊ฒฌ๋””๊ณ  ์ƒˆ๋กœ์šด ์ƒํ™ฉ์— ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘ก๋‹ˆ๋‹ค. ๊ฐ•๊ฑด์„ฑ์€ ์—์ด์ „ํŠธ๊ฐ€ ์žก์Œ(disturbance)์ด๋‚˜ ๋ชจ๋ธ ๋ถˆํ™•์‹ค์„ฑ์ด ์žˆ์–ด๋„ ์•ˆ์ •์  ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๋Šฅ๋ ฅ์ด๊ณ , ์ ์‘์„ฑ์€ ํ™˜๊ฒฝ์ด๋‚˜ ์ž„๋ฌด๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ์ •์ฑ…์„ ์œ ์—ฐํ•˜๊ฒŒ ์กฐ์ •ํ•˜๋Š” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.

ํ•œ ๊ฐ€์ง€ ์ ‘๊ทผ์œผ๋กœ, ๋ฆฌ๋”-ํŒ”๋กœ์›Œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฆฌ๋”-ํŒ”๋กœ์›Œ ๊ตฌ์กฐ์—์„œ๋Š” ๋ฆฌ๋” ์—์ด์ „ํŠธ๊ฐ€ ํŒ”๋กœ์›Œ์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ˆ˜์ •ํ•จ์œผ๋กœ์จ ํŒ”๋กœ์›Œ์˜ ํ–‰๋™์„ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ๋ฆฌ๋”๊ฐ€ ๋ณด์ƒ์— ํŽ˜๋„ํ‹ฐ๋‚˜ ๋ณด๋„ˆ์Šค๋ฅผ ์‚ด์ง ๊ฐ€๋ฏธํ•ด ํŒ”๋กœ์›Œ๊ฐ€ ์•ˆ์ „ํ•œ ํ–‰๋™์„ ์šฐ์„ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ์Šคํ…œ ์ „์ฒด์˜ ๊ฐ•๊ฑด์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๋Š” ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ด๋‚˜ ๊ณ„์ธตํ˜• ์ œ์–ด์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ณธ์งˆ์ ์œผ๋กœ ํ•œ ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค๋ฅธ ์—์ด์ „ํŠธ์˜ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ์ •์ฑ…์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๋Š” ํ˜•ํƒœ์˜ Reward Engineering์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ๋ฌธ์ œ๋Š” ์„ผ์„œ ๋…ธ์ด์ฆˆ๋กœ ์ธํ•œ ๋ณด์ƒ ์‹ ํ˜ธ ์™œ๊ณก์ž…๋‹ˆ๋‹ค. ํ˜„์‹ค์—์„œ ์—์ด์ „ํŠธ์˜ ๋ณด์ƒ์€ ์„ผ์„œ ์ธก์ •์— ์˜์กดํ•˜๋Š”๋ฐ, ์„ผ์„œ์— ๋…ธ์ด์ฆˆ๊ฐ€ ๋ผ๋ฉด ์ž˜๋ชป๋œ ๋ณด์ƒ์ด ์ž…๋ ฅ๋˜์–ด RL ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ํ˜ผ๋™ ํ–‰๋ ฌ(confusion matrix)์„ ์ด์šฉํ•ด ๋…ธ์ด์ฆˆ ๋ณด์ƒ์„ ๋ณด์ •ํ•˜๋Š” ๊ฐ•๊ฑด RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์„ผ์„œ ๋ณด์ƒ ์‹ ํ˜ธ์˜ ์˜ค๋ฅ˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜์ง€ ์•Š๊ณ , ๊ด€์ฐฐ๋œ ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ํ˜ผ๋™ ํ–‰๋ ฌ์„ ์ถ”์ •ํ•ด ํŽธํ–ฅ์„ ์ œ๊ฑฐํ•œ ๋Œ€๋ฆฌ ๋ณด์ƒ(surrogate reward)์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ˜ผ๋™ ํ–‰๋ ฌ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋น„ํŽธํ–ฅ ๋ณด์ƒ ์ถ”์ • ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ ์ง„์งœ ํ™˜๊ฒฝ ๋ณด์ƒ์˜ ์ถ”์ •์น˜๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ด ์ถ”์ •์น˜๋กœ Q๋Ÿฌ๋‹์„ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ, ์ด๋ก ์ ์œผ๋กœ ์ถ”์ • ๋ณด์ƒ์„ ์“ธ ๋•Œ๋„ ํ•™์Šต์ด ์ตœ์  Qํ•จ์ˆ˜๋กœ ์ˆ˜๋ ดํ•จ์„ ์ฆ๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. OpenAI Gym๊ณผ Atari ๊ฒŒ์ž„๋“ค์— ์ด ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ ๊ฒฐ๊ณผ, ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋Š” ํ™˜๊ฒฝ์—์„œ๋„ ์—์ด์ „ํŠธ์˜ ๊ธฐ๋Œ€ ๋ณด์ƒ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ๋…ธ์ด์ฆˆ์— ๊ฐ•์ธํ•œ ์ •์ฑ…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด ์–ด๋А ์ •๋„์˜ ๋…ธ์ด์ฆˆ๋Š” ํƒํ—˜์„ ๋„์™€์ฃผ๋Š” ์—ญํ• ๊นŒ์ง€ ํ•˜์—ฌ ๋ˆ„์  ๋ณด์ƒ์ด ์ฆ๊ฐ€ํ•˜๋Š” ํฅ๋ฏธ๋กœ์šด ํ˜„์ƒ๋„ ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด ๋ฐฉ๋ฒ•์€ ํ˜ผ๋™ ํ–‰๋ ฌ ์ถ”์ • ๋ฐ ์ถ”๊ฐ€ ์—ฐ์‚ฐ์œผ๋กœ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋Š˜์–ด๋‚˜๋ฉฐ, ๋ณด์ • ํšจ๊ณผ๊ฐ€ ๋‹ค์–‘ํ•œ ๋…ธ์ด์ฆˆ ํŒจํ„ด์—์„œ ํ•ญ์ƒ ์ž˜ ๋“ค์–ด๋งž๋Š”์ง€๋Š” ์—ฌ์ „ํžˆ ์ •ํ™•ํ•œ ๋…ธ์ด์ฆˆ ๋ชจ๋ธ๋ง๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์— ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์„ผ์„œ ๋…ธ์ด์ฆˆ ํ•˜์—์„œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์žฌ์„ค๊ณ„ํ•จ์œผ๋กœ์จ RL ํ•™์Šต์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ธ ์ข‹์€ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฐ–์—, ํŠน์ • ์ œ์–ด ์„ฑ๋Šฅ ์š”๊ตฌ์‚ฌํ•ญ์„ ๋งŒ์กฑ์‹œํ‚ค๋„๋ก ๋ณด์ƒ์„ ํ˜•์„ฑํ•˜๋Š” ์—ฐ๊ตฌ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ๋กœ๋ด‡ ์ œ์–ด ๋ฌธ์ œ์—์„œ ์ •์ฐฉ ์‹œ๊ฐ„์ด๋‚˜ ์ •์ƒ์ƒํƒœ ์˜ค์ฐจ ๊ฐ™์€ ๊ธฐ์ค€์„ ์ถฉ์กฑ์‹œํ‚ค๊ณ  ์‹ถ๋‹ค๋ฉด, ๋ชจ๋ธ ์—†์ด๋„ ๋ณด์ƒ์„ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋„๋ก shapingํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ์‹œ์Šคํ…œ ๋™์—ญํ•™ ๋ชจ๋ธ์„ ๋ชฐ๋ผ๋„ RL ์ •์ฑ…์ด ์ œ์–ด ๋ชฉํ‘œ(์˜ˆ: ๋น ๋ฅธ ์•ˆ์ •ํ™”)์— ๋งž๋Š” ๊ถค์ ์„ ๋”ฐ๋ฅด๋„๋ก ์ฒด๊ณ„์ ์ธ Reward Shaping ๊ธฐ๋ฒ•์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณด์ƒ์— ์ œ์–ด ์„ฑ๋Šฅ ์กฐํ•ญ์„ ๋„ฃ์–ด์ฃผ๊ฑฐ๋‚˜, ์—์ด์ „ํŠธ๊ฐ€ ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์ง€ํ‘œ๋ฅผ ๋งŒ์กฑํ•  ๋•Œ ์ถ”๊ฐ€ ๋ณด์ƒ์„ ์ฃผ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ค„์ง‘๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์˜ ํšจ๊ณผ๋Š” ํ•ด๋‹น ์ œ์–ด ๋ชฉํ‘œ๋ฅผ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋„๋ก ์œ ๋„ํ•จ์œผ๋กœ์จ, RL ์ •์ฑ…์ด ์ „ํ†ต์ ์ธ ์ œ์–ด๊ธฐ์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜๋„๋ก ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด ์—ญ์‹œ ์‚ฌ์ „์— ๋งŒ์กฑ์‹œ์ผœ์•ผ ํ•  ์„ฑ๋Šฅ ๊ธฐ์ค€๊ณผ ๊ทธ๋ฅผ ๋ณด์ƒ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ •๋Ÿ‰ํ™”ํ• ์ง€ ๋„๋ฉ”์ธ ์ง€์‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

ํƒํ—˜ ์ „๋žต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Exploration-Driven Shaping)

๊ฐ•ํ™”ํ•™์Šต์˜ ๋‚œ์ œ ์ค‘ ํ•˜๋‚˜๋Š” ํƒํ—˜-ํ™œ์šฉ ๋ฌธ์ œ๋กœ, ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ์–ป๊ธฐ ์œ„ํ•œ ํƒํ—˜๊ณผ ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ์ข‹์€ ํ–‰๋™์„ ์ทจํ•˜๋Š” ํ™œ์šฉ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์žก๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Reward Shaping ๊ธฐ๋ฒ• ์ค‘์—๋Š” ์—์ด์ „ํŠธ์˜ ํƒํ—˜์„ ์žฅ๋ คํ•˜์—ฌ ํ•™์Šต์„ ์ด‰์ง„ํ•˜๋Š” ๊ฒƒ๋“ค์ด ๋‹ค์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋ณด์ƒ์„ ๋ฐ›์„ ๋งŒํ•œ ์ƒํƒœ๋ฅผ ์ฐพ์•„๊ฐ€์•ผ ํ•˜๋ฏ€๋กœ, ํƒํ—˜ ๋ณด๋„ˆ์Šค ํ˜•ํƒœ์˜ ๋‚ด์žฌ์  ๋ณด์ƒ์„ ์ฃผ๋Š” ์ „๋žต์ด ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.

ํ•œ ๊ฐ€์ง€ ์ „ํ†ต์ ์ธ ์ ‘๊ทผ์€ ์นด์šดํŠธ ๊ธฐ๋ฐ˜(count-based) ํƒํ—˜์œผ๋กœ, ์—์ด์ „ํŠธ๊ฐ€ ๋ฐฉ๋ฌธํ•˜์ง€ ์•Š์€ ์ƒํƒœ์— ๋ณด๋„ˆ์Šค๋ฅผ ์ฃผ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฐ์†์ ์ด๊ฑฐ๋‚˜ ๊ณ ์ฐจ์› ์ƒํƒœ ๊ณต๊ฐ„์—์„œ๋Š” ๋˜‘๊ฐ™์€ ์ƒํƒœ๋ฅผ ๋ฐ˜๋ณตํ•ด์„œ ๋งŒ๋‚  ๊ฐ€๋Šฅ์„ฑ์ด ๋‚ฎ์•„ count ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ํž˜์„ ์“ฐ๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ•ด์‹œ ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•œ ์ƒํƒœ ์ธ์ฝ”๋”ฉ ๊ธฐ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ƒํƒœ๋ฅผ ์ €์ฐจ์› ์ด์ง„ ์ฝ”๋“œ๋กœ ํ•ด์‹ฑ(hash)ํ•˜์—ฌ ๋น„์Šทํ•œ ์ƒํƒœ๋“ค์„ ๋™์ผํ•˜๊ฒŒ ์ทจ๊ธ‰ํ•จ์œผ๋กœ์จ, ์‚ฌ์‹ค์ƒ ์œ ์‚ฌํ•œ ์ƒํƒœ ์žฌ๋ฐฉ๋ฌธ์„ ์นด์šดํŒ…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ์ง€์—ญ๋ฏผ๊ฐ ํ•ด์‹œ(Locality-Sensitive Hashing) ๊ธฐ๋ฒ•์˜ ์ผ์ข…์ธ SimHash๋ฅผ ์‚ฌ์šฉํ•ด ์—ฐ์† ์ƒํƒœ๋ฅผ ์ด์ง„์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ๊ทธ ํ•ด์‹œ ์ฝ”๋“œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐฉ๋ฌธ ํšŸ์ˆ˜๋ฅผ ์„ธ์–ด ํƒํ—˜ ๋ณด๋„ˆ์Šค๋ฅผ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž๋™์ธ์ฝ”๋”(AE)๋ฅผ ํ™œ์šฉํ•œ ํ•™์Šต๋œ ํ•ด์‹ฑ ๋ฐฉ๋ฒ•๋„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ, ์ค‘์š”ํ•œ ์ƒํƒœ์˜ ํŠน์ง•์„ ์žก์•„๋‚ด๋Š” ํ•ด์‹œ ํ•จ์ˆ˜๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•ด์‹œ ๊ธฐ๋ฐ˜ ํƒํ—˜ ๋ณด๋„ˆ์Šค๋ฅผ TRPO(Trust Region Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ, MountainCar, HalfCheetah ๋“ฑ์˜ ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด TRPO๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ๋ชฉํ‘œ ๋„๋‹ฌ์„ ํ•ด์‹œ ๋ณด๋„ˆ์Šค ๋•๋ถ„์— ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ƒํƒœ ๊ณต๊ฐ„์ด ํฐ HalfCheetah ํ™˜๊ฒฝ์—์„œ, ํ•ด์‹œ ๋ณด๋„ˆ์Šค๋ฅผ ์ค€ TRPO๋Š” ๋งค์šฐ ํฌ์†Œํ•œ ๋ณด์ƒ๋„ ํฌ์ฐฉํ•ด๋‚ด์–ด ์ผ๋ถ€ ์„ฑ๊ณผ๋Š” ๋‹ค๋ฅธ ์ตœ์‹  ํƒํ—˜ ๊ธฐ๋ฒ•(VIME ๋“ฑ)๊ณผ ๊ฒฌ์ค„ ๋งŒํ•œ ์ˆ˜์ค€์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ๊ฐ•์ ์€ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ๊ณผ, ๋น„๊ต์  ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ๋‹ค์–‘ํ•œ RL ๋„๋ฉ”์ธ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹จ์ ์œผ๋กœ๋Š” ์–ด๋–ค ํ•ด์‹œ ํ•จ์ˆ˜๋ฅผ ์“ฐ๋А๋ƒ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํŽธ์ฐจ๊ฐ€ ์ƒ๊ธฐ๋ฏ€๋กœ ํ•ด์‹œ ํ•จ์ˆ˜ ์„ค์ • ๋ฐ ํ•™์Šต์˜ ๋‚œ์ด๋„๊ฐ€ ์žˆ๊ณ , ์ƒํƒœ ํ‘œํ˜„์˜ ์งˆ์— ๋ฏผ๊ฐํ•˜์—ฌ ํ™˜๊ฒฝ๋งˆ๋‹ค ํŠœ๋‹์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ์ ‘๊ทผ์œผ๋กœ, ํƒํ—˜ ์œ ๋„ Reward Shaping(EXPLORS) ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. EXPLORS๋Š” ๋‚ด์žฌ์  ๋ณด์ƒ ํ•™์Šต๊ณผ ํƒํ—˜ ๋ณด๋„ˆ์Šค๋ฅผ ์™„์ „ ์ž์œจ๋ฐฉ์‹์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ํƒํ—˜์„ ๊ทน๋Œ€ํ™”ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์—์„œ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ 1๊ณผ ๊ฐ™์€ ์ ˆ์ฐจ๋กœ ๋งค ์Šคํ… ๋ณด์ƒ๊ณผ ์ •์ฑ…์„ ๋ฒˆ๊ฐˆ์•„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋žตํžˆ ๋งํ•ด, ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™ํ•  ๋•Œ ํ™˜๊ฒฝ ๋ณด์ƒ(์™ธ์žฌ์ )๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ถ”๊ฐ€์ ์ธ ๋‚ด์žฌ ๋ณด์ƒ์„ ๋ณ‘๋ ฌ๋กœ ํ•™์Šตํ•˜์—ฌ, ๋‘ ๋ณด์ƒ์˜ ํ•ฉ์œผ๋กœ ์ •์ฑ…์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ „ํ†ต์  Reward Shaping์ด ์–ด๋ ค์šด ์ƒํ™ฉ์—์„œ๋„ ํ•™์Šต์„ ๊ฐ€์†ํ•  ์ˆ˜ ์žˆ์Œ์„ ์—ฌ๋Ÿฌ ํ™˜๊ฒฝ์—์„œ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ๋งค์šฐ ํฌ์†Œํ•˜๊ฑฐ๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ํฐ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ EXPLORS๋ฅผ ์“ด ์—์ด์ „ํŠธ๋Š” ์ผ๋ฐ˜ REINFORCE ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜์˜€๊ณ , ๊ธฐ์กด์˜ ์ˆ˜์ž‘์—… ๋ณด์ƒ shaping ๋ฐฉ๋ฒ•๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ด ์—ฐ๊ตฌ์—์„œ๋„ ์–ธ๊ธ‰ํ•˜๋“ฏ์ด, ๋ณด๋‹ค ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ EXPLORS์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•  ํ•„์š”๊ฐ€ ์žˆ๊ณ , ๋‚ด์žฌ ๋ณด์ƒ๊ณผ ํƒํ—˜ ๋ณด๋„ˆ์Šค๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ์ตœ์ ์˜ ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋‚ด์žฌ์  ํƒํ—˜ ์‹ ํ˜ธ๋ฅผ ๋„ˆ๋ฌด ๊ฐ•ํ•˜๊ฒŒ ์ฃผ๋ฉด ๋ณธ๋ž˜ ๋ชฉํ‘œ์—์„œ ๋ฒ—์–ด๋‚  ์ˆ˜ ์žˆ๊ณ , ๋„ˆ๋ฌด ์•ฝํ•˜๋ฉด ์˜๋ฏธ๊ฐ€ ์—†๊ธฐ์— ๊ทธ ๊ท ํ˜•์„ ์ฐพ๋Š” ๊ฒƒ์ด ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.

๋˜ ํ•˜๋‚˜ ํฅ๋ฏธ๋กœ์šด ์ ‘๊ทผ์€ RUNE (Reward Uncertainty for Exploration)์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์„ ํ˜ธ๊ธฐ๋ฐ˜ RL์—์„œ ๋ณด์ƒ ํ•จ์ˆ˜์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ํƒํ—˜ ๋ณด๋„ˆ์Šค๋กœ ํ™œ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ํ•™์Šต๋˜๋Š” ๋ณด์ƒ ๋ชจ๋ธ(ensemble ์—ฌ๋Ÿฌ ๊ฐœ)์„ ๋งŒ๋“ค๊ณ , ๊ทธ ์˜ˆ์ธก ๊ฐ’๋“ค์˜ ํ‘œ์ค€ํŽธ์ฐจ(๋ถˆํ™•์‹ค์„ฑ)๋ฅผ ๋‚ด์žฌ์  ๋ณด์ƒ์œผ๋กœ ์ฃผ์–ด๋ด…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์—์ด์ „ํŠธ๋Š” ์—ฌ๋Ÿฌ ๋ณด์ƒ ๋ชจ๋ธ ๊ฐ„ ์˜ˆ์ธก์ด ๋ถˆํ™•์‹คํ•œ ์ƒํƒœ๋ฅผ ๋” ํƒํ—˜ํ•˜๊ฒŒ ๋˜๊ณ , ์ด๋Š” ๊ณง ์ธ๊ฐ„ ์„ ํ˜ธ์— ๋Œ€ํ•ด ๋ช…ํ™•ํ•œ ์ •๋ณด๋ฅผ ์ฃผ๋Š” ์ƒํƒœ๋ฅผ ์ฐพ์•„๋‹ค๋‹ˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. RUNE์˜ ์žฅ์ ์€ ํƒํ—˜๊ณผ ํ™œ์šฉ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์œจํ•ด์ค€๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ถˆํ™•์‹ค์„ฑ์ด ํฐ ํ–‰๋™์„ ์šฐ์„  ์‹œ๋„ํ•จ์œผ๋กœ์จ, ์žฅ๊ธฐ์ ์œผ๋กœ ๋” ๋งŽ์€ ๋ณด์ƒ์„ ์–ป์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ RUNE์„ ๊ธฐ์กด ํƒํ—˜ ๊ธฐ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, ํ•™์Šต ์ƒ˜ํ”Œ ํšจ์œจ ๋ฐ ์ตœ์ข… ์„ฑ๊ณต๋ฅ ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RUNE ์ ์šฉ ์‹œ ์„ฑ๊ณต๋ฅ  ์ƒ์Šน ํญ์ด ๋‹ค๋ฅธ ๊ธฐ๋ฒ•๋ณด๋‹ค ํฌ๊ณ  ์ ์€ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. RUNE์˜ ๋„์ „ ๊ณผ์ œ๋Š” ๋ณด์ƒ ๋ชจ๋ธ์˜ ์•™์ƒ๋ธ”์„ ์œ ์ง€ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•˜๊ณ , ๋‹ค์–‘ํ•œ ์ˆ˜์ค€์˜ ๋ณด์ƒ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ์•ˆ์ •์ ์ธ ๊ธฐ๋ฒ•์ด ๋” ์—ฐ๊ตฌ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„, ์ธ๊ฐ„์˜ ์„ ํ˜ธ ํ•™์Šต ๋ถ„์•ผ์—์„œ ๋ณด์ƒ ๋ถˆํ™•์‹ค์„ฑ์„ ํƒํ—˜์— ํ†ตํ•ฉํ•œ ์ฒซ ์‚ฌ๋ก€๋กœ์„œ RL ํƒ์ƒ‰ ์ „๋žต์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ๋‹ค๋Š” ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐํ™” (๋‹จ์ˆœ ์ •์ฑ… ๋ชจ๋ธ์˜ ํ™œ์šฉ)

์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐํ™”๋Š” ์—์ด์ „ํŠธ์˜ ์ •์ฑ… ๊ตฌ์กฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์„ค๊ณ„ํ•˜๋А๋ƒ์— ๊ด€ํ•œ ๊ธฐ๋ฒ•์œผ๋กœ, ๊ฐ„์ ‘์ ์œผ๋กœ๋Š” ๋ณด์ƒ์— ์˜์กดํ•˜๋Š” ํ•™์Šต ์„ฑ๋Šฅ๊ณผ ํƒ์ƒ‰ ํ–‰ํƒœ์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ RL์—์„œ ์ •์ฑ…์€ ๋‰ด๋Ÿด๋„คํŠธ์›Œํฌ ๋“ฑ ๋ณต์žกํ•œ ํ•จ์ˆ˜๋กœ ํ‘œํ˜„๋˜์ง€๋งŒ, ์ตœ๊ทผ ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹จ์ˆœํ•œ ์„ ํ˜• ๋˜๋Š” RBF(Radial Basis Function) ์ •์ฑ…๋„ ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ์ž…๋ ฅ ์ƒํƒœ์— ๋Œ€ํ•ด ๋žœ๋ค Fourier ํ”ผ์ณ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„๋ ฅ์„ ๋†’์ด๊ณ  ์„ ํ˜• ์ •์ฑ…์— ์ ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒํƒœ ๊ด€์ธก์— ๋Œ€ํ•ด ๋žœ๋ค ์ฃผํŒŒ์ˆ˜๋กœ ์‚ฌ์ธ/์ฝ”์‚ฌ์ธ ๋ณ€ํ™˜ํ•œ ํ”ผ์ณ ๋ฒกํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ , ๊ทธ์— ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•œ ์„ ํ˜• ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๊ฐ„์†Œํ™”๋œ ์ •์ฑ…์€ OpenAI Gym ์—ฐ์† ์ œ์–ด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋‰ด๋Ÿด๋„คํŠธ์›Œํฌ ์ •์ฑ…์— ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‚ด๋ฉด์„œ๋„ ํ•™์Šต ์†๋„๋Š” ๋” ๋น ๋ฅธ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‹ ๊ฒฝ๋ง ์—†์ด๋„ TRPO๋กœ ํ›ˆ๋ จํ•œ ์„ ํ˜•/RBF ์ •์ฑ…์ด ์ผ๋ถ€ ๊ณผ์ œ์—์„œ๋Š” ๋†’์€ ๋ณด์ƒ์„ ์–ป์—ˆ์œผ๋ฉฐ, ํ•™์Šต ์‹œ๊ฐ„๋„ ๋‹จ์ถ•๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋‹จ์ˆœ ์ •์ฑ…์€ ํ™˜๊ฒฝ ๋ณ€ํ™”๋‚˜ ๊ต๋ž€์— ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ์–ด, ์—ฐ๊ตฌ์—์„œ๋Š” ์ดˆ๊ธฐ ์ƒํƒœ ๋ถ„ํฌ๋ฅผ ๋‹ค์–‘ํ™”ํ•˜๋Š” ๊ธฐ๋ฒ•(๋„๋ฉ”์ธ ๋žœ๋คํ™”์™€ ์œ ์‚ฌ)์„ ์จ์„œ ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šตํ•˜๋ฉด ์•™์ƒ๋ธ” ๋ชจ๋ธ์ด๋‚˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์ฒ˜๋Ÿผ ์ •์ฑ…์ด ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์— ๋…ธ์ถœ๋˜๋ฏ€๋กœ, ํ›จ์”ฌ ์•ˆ์ •์ ์ธ ์ •์ฑ…์ด ๋‚˜์˜จ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์ด ์ ‘๊ทผ์˜ ์žฅ์ ์€ ๋ชจ๋ธ ๋‹จ์ˆœํ™”๋กœ ์ธํ•œ ํ•™์Šต ์•ˆ์ •์„ฑ๊ณผ ์†๋„ ํ–ฅ์ƒ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋Œ€์‹  ์„ ํ˜• ๋˜๋Š” RBF ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์“ฐ๋ฉด ์ˆ˜๋ ด์ด ๋น ๋ฅด๊ณ  ์ดํ•ด๋„ ์‰ฝ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‹จ์ ๋„ ๋ถ„๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„  ๊ณ ์ฐจ์› ์ƒํƒœยทํ–‰๋™ ๊ณต๊ฐ„์œผ๋กœ ํ™•์žฅํ•˜๋ฉด ๋‹จ์ˆœ ์ •์ฑ…์œผ๋กœ๋Š” ์ถฉ๋ถ„ํ•œ ํ‘œํ˜„๋ ฅ์„ ์–ป๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ดˆ๊ธฐ ์ƒํƒœ ๋ถ„ํฌ์— ๋ฏผ๊ฐํ•˜์—ฌ, ํ•™์Šต ์‹œ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ์ถฉ๋ถ„ํžˆ ๊ฒช์ง€ ์•Š์œผ๋ฉด ์‹ค์ „์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ํ–‰๋™์ด ํ•„์š”ํ•œ ๊ณผ์ œ์—์„œ๋Š” ์‹ ๊ฒฝ๋ง ์ •์ฑ…๋งŒํผ ์„ฌ์„ธํ•œ ๋Œ€์‘์ด ์–ด๋ ค์›Œ ์„ฑ๋Šฅ ํ•œ๊ณ„์— ๋ถ€๋”ชํž ๊ฐ€๋Šฅ์„ฑ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ด ์—ฐ๊ตฌ๋Š” โ€œ๊ฐ€๋Šฅํ•œ ํ•œ ์ •์ฑ…์„ ๋‹จ์ˆœํ™”ํ•˜๋˜, ํ™˜๊ฒฝ์  ๋‹ค์–‘์„ฑ์„ ์ฃผ์–ด ๋ณด์™„ํ•œ๋‹คโ€๋Š” ์ฒ ํ•™์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋ณด์ƒ ์„ค๊ณ„ ์ธก๋ฉด์—์„œ ๋ณผ ๋•Œ ๋‹จ์ˆœ ์ •์ฑ… + ํŠน๋ณ„ํ•œ ๋ณด์ƒ ๊ตฌ์„ฑ(๋žœ๋คํ™”) ์กฐํ•ฉ์„ ํ†ตํ•ด ํ•™์Šต์„ ์•ˆ์ •ํ™”ํ•˜๋Š” ํ•˜๋‚˜์˜ ์ „๋žต์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ญ๋ณด์ƒ ์„ค๊ณ„ (Inverse Reward Design, IRD)

์—ญ๋ณด์ƒ ์„ค๊ณ„(IRD)๋Š” ์ง์ ‘ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ณตํ•™์ ์œผ๋กœ ์„ค๊ณ„ํ•˜๋Š” ๋Œ€์‹ , ์—์ด์ „ํŠธ์˜ ์‹œ์—ฐ์ด๋‚˜ ํ–‰๋™์„ ๊ด€์ฐฐํ•˜์—ฌ ๋ณด์ƒ ํ•จ์ˆ˜(๋ชฉ์ )๋ฅผ ์—ญ์ถ”์ •ํ•˜๋Š” ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ•ํ™”ํ•™์Šต์˜ ์—ญ๋ฌธ์ œ์— ํ•ด๋‹นํ•˜๋Š” ๊ฐœ๋…์œผ๋กœ, ์ผ์ข…์˜ ์—ญ๊ฐ•ํ™”ํ•™์Šต(IRL) ๊ธฐ๋ฒ•์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ RL์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ƒํƒœ s์—์„œ ํ–‰๋™ a๋ฅผ ์ทจํ•˜๋ฉด ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋ณด์ƒ ํ•จ์ˆ˜ R(s,a)์— ๋”ฐ๋ผ ๋ณด์ƒ์„ ๋ฐ›์Šต๋‹ˆ๋‹ค. IRL์—์„œ๋Š” ๋ฐ˜๋Œ€๋กœ ์ „๋ฌธ๊ฐ€์˜ ์ƒํƒœ-ํ–‰๋™ ๊ถค์ ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ์–ด๋–ค ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ฐ€์ •ํ•˜๋ฉด ๊ทธ ํ–‰๋™์ด ์ตœ์ ํ™”๋ ์ง€๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. IRD๋Š” ์ด IRL์˜ ์•„์ด๋””์–ด๋ฅผ ๋ณด์ƒ ์„ค๊ณ„์— ์‘์šฉํ•œ ๊ฒƒ์œผ๋กœ, ๊ธฐ์กด์— ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜(ํ”„๋ฝ์‹œ ๋ณด์ƒ)๋ฅผ ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ ์‹ ํ˜ธ๋กœ ๋ณด๊ณ  ์ง„์งœ ์˜๋„ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค.

Hadfield-Menell ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ IRD ๋ฐฉ๋ฒ•์€, ์„ค๊ณ„์ž๊ฐ€ ์ •ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ „๋ฌธ๊ฐ€์˜ ํ–‰๋™์„ ์•ผ๊ธฐํ•œ ์‹ ํ˜ธ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์—์ด์ „ํŠธ์—๊ฒŒ๋Š” โ€œ์ด ๋ณด์ƒ์€ ์‚ฌ์‹ค ์™„๋ฒฝํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋‹ˆ, ์œ„ํ—˜ํ•œ ํ–‰๋™์„ ํ”ผํ•˜๋„๋ก ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์žฌํ•ด์„ํ•˜๋ผโ€๋Š” ์‹์œผ๋กœ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡์ด ์šฉ์•” ์ง€๋Œ€๊ฐ€ ์žˆ๋Š” ํ™˜๊ฒฝ์—์„œ ์ด๋™ํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, ์„ค๊ณ„์ž๋Š” โ€œ๋ชฉ์ ์ง€์— ๊ฐ€๋ฉด +100โ€์ด๋ผ๋Š” ๋ณด์ƒ๋งŒ ์ฃผ์—ˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋กœ๋ด‡์€ ์šฉ์•”์„ ๊ฐ€๋กœ์งˆ๋Ÿฌ ๋น ๋ฅด๊ฒŒ ๊ฐ€๋ ค๋‹ค๊ฐ€ ํŒŒ๊ดด๋  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. IRD๋ฅผ ์ ์šฉํ•˜๋ฉด ๋กœ๋ด‡์€ ์ฃผ์–ด์ง„ ๋ณด์ƒ(๋ชฉ์ ์ง€ ๋„๋‹ฌ)์ด ์ง„์งœ ๋ชฉํ‘œ์˜ ์™„์ „ํ•œ ํ‘œํ˜„์ด ์•„๋‹ˆ๋ผ๊ณ  ๊ฐ„์ฃผํ•˜๊ณ , ์ „๋ฌธ๊ฐ€(์ธ๊ฐ„)๊ฐ€ ๊ทธ๋Ÿฐ ์ƒํ™ฉ์—์„œ ์–ด๋–ป๊ฒŒ ํ–‰๋™ํ–ˆ๋Š”์ง€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์•”๋ฌต์ ์ธ ์œ„ํ—˜ ํšŒํ”ผ ๋ณด์ƒ์„ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ IRD ์‹คํ—˜์—์„œ, ๋กœ๋ด‡์€ ์šฉ์•” ์ง€์—ญ์„ ํšŒํ”ผํ•˜๋Š” ๊ฒฝ๋กœ๋ฅผ ์„ ํƒํ•˜์—ฌ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•จ์œผ๋กœ์จ, ์ฃผ์–ด์ง„ ๋ณด์ƒ์„ ๊ทธ๋Œ€๋กœ ์ตœ์ ํ™”ํ–ˆ์„ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์œ„ํ—˜ ํ–‰๋™์„ ํ”ผํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” IRD๊ฐ€ ๋ณด์ƒ ์„ค๊ณ„์ž๊ฐ€ ๋ฏธ์ฒ˜ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ•œ ์ž ์žฌ์  ์œ„ํ—˜ ์š”์†Œ๋ฅผ ์—์ด์ „ํŠธ ์Šค์Šค๋กœ ์ธ์ง€ํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋˜ ํ•˜๋‚˜ IRD์˜ ํšจ๊ณผ๋Š” ๋ณด์ƒ ์กฐ์ž‘(reward manipulation) ๋ฌธ์ œ๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๊ฐ€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ ˆ๋Œ€์ ์ธ ๋ชฉํ‘œ๋กœ ๋ฐ›์•„๋“ค์ด์ง€ ์•Š๊ณ , ๊ทธ๊ฒƒ์„ ๋ฐœ์ƒ์‹œํ‚จ ์˜๋„๋ฅผ ์ถ”๋ก ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ณด์ƒ๋งŒ ๋†’์ด๊ณ  ์‹ค์ œ ๋ชฉํ‘œ๋Š” ์„ฑ์ทจํ•˜์ง€ ๋ชปํ•˜๋Š” ํ–‰๋™(๋ณด์ƒ ํ•ดํ‚น)์„ ์–ต์ œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

IRD์˜ ํ•œ๊ณ„๋กœ๋Š” ๊ณ„์‚ฐ์  ๋ณต์žก์„ฑ๊ณผ ๊ฐ€์ •์˜ ๋‹จ์ˆœํ•จ์ด ์žˆ์Šต๋‹ˆ๋‹ค. IRD๋Š” ๊ฒฐ๊ตญ IRL ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์ด๋ฏ€๋กœ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ๋ณต์žกํ•œ ์ตœ์ ํ™”๊ฐ€ ํ•„์š”ํ•˜๊ณ , ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ๋‹จ์ˆœํ•œ ๊ฐ€์ •์„ ๋†“๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ฑฐ๋‚˜, ํ™˜๊ฒฝ ๋ชจ๋ธ์ด ์•Œ๋ ค์ ธ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๋“ฑ์ž…๋‹ˆ๋‹ค. ํ˜„์‹ค์˜ ๋ณต์žกํ•œ ์ƒํ™ฉ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ฐ€์ •์ด ์–ด๊ธ‹๋‚˜ IRD๊ฐ€ ์—‰๋šฑํ•œ ๋ณด์ƒ์„ ์ถ”๋ก ํ•  ์œ„ํ—˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ IRD๋ฅผ ์ ์šฉํ•  ๋• ํ™˜๊ฒฝ๊ณผ ๋ณด์ƒ์— ๋Œ€ํ•œ ์ ์ ˆํ•œ ๋ชจ๋ธ๋ง์ด ํ•„์š”ํ•˜๋ฉฐ, ์ž˜๋ชป๋œ ์ถ”๋ก ์„ ๋ง‰๊ธฐ ์œ„ํ•œ ์•ˆ์ „์žฅ์น˜๋„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ IRD๋Š” ๋ณด์ƒ ์„ค๊ณ„์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ, ์—์ด์ „ํŠธ๊ฐ€ ๋””์ž์ด๋„ˆ์˜ ์˜๋„๋ฅผ ์—ญ์œผ๋กœ ์ƒ๊ฐํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ณด์ƒ์˜ ๋ถˆ์™„์ „์„ฑ์— ๋Œ€์‘ํ–ˆ๋‹ค๋Š” ์˜์˜๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

๋ณด์ƒ ์ง€ํ‰ ๋‹จ์ถ• (Reward Horizon Shaping)

๋ณด์ƒ ์ง€ํ‰(horizon)์ด๋ž€ ์—์ด์ „ํŠธ๊ฐ€ ํ˜„์žฌ ํ–‰๋™์˜ ๊ฒฐ๊ณผ๋กœ ๋ณด์ƒ์„ ๋ฐ›๊ธฐ๊นŒ์ง€ ๊ฑธ๋ฆฌ๋Š” ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ตœ์ข… ๋ณด์ƒ๊นŒ์ง€ ๊ฑฐ์ณ์•ผ ํ•  ๋‹จ๊ณ„๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด, ์—์ด์ „ํŠธ๋Š” ์–ด๋–ค ํ–‰๋™์ด ๊ธฐ์—ฌํ–ˆ๋Š”์ง€๋ฅผ ์•Œ๊ธฐ ์–ด๋ ค์›Œ ํ•™์Šต์ด ์–ด๋ ค์›Œ์ง‘๋‹ˆ๋‹ค. Reward Shaping์€ ์ด๋Ÿฌํ•œ ๋ณด์ƒ ์ง€ํ‰์„ ์ค„์—ฌ์ฃผ๋Š” ์—ญํ• ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ค‘๊ฐ„ ๋‹จ๊ณ„๋งˆ๋‹ค ์ ์ ˆํ•œ ๋ณด์ƒ์„ ์ฃผ์–ด ์žฅ๊ธฐ ๋ชฉํ‘œ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‹จ๊ธฐ ๋ชฉํ‘œ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” Reward Shaping์„ ํ†ตํ•ด ํ•™์Šต ์‹œ๊ฐ„์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ณด์žฅ์„ ์ œ๊ณตํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ์—ฐ๊ตฌ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (Horizon_Learn ์•Œ๊ณ ๋ฆฌ์ฆ˜)์€ ๋ณด์ƒ ์ง€ํ‰์„ H๋กœ ์ œํ•œํ•œ ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ํ•™์Šตํ•  ๋•Œ, ํ•™์Šต ์‹œ๊ฐ„์ด MDP์˜ ์ „์ฒด ์ƒํƒœ ์ˆ˜์™€ ๊ด€๊ณ„์—†์ด ์ž„๊ณ„ ์˜์—ญ(critical region)์˜ ํฌ๊ธฐ์— ๋‹คํ•ญ์‹(poly)์œผ๋กœ ๋น„๋ก€ํ•จ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Reward Shaping์„ ์ž˜ ํ•˜๋ฉด, ์—์ด์ „ํŠธ๋Š” ์ปค๋‹ค๋ž€ ์ƒํƒœ๊ณต๊ฐ„์„ ์ „๋ถ€ ํƒ์ƒ‰ํ•˜์ง€ ์•Š๊ณ ์„œ๋„ ์ค‘์š”ํ•œ ๋ถ€๋ถ„๋งŒ ๋ฐฐ์›Œ๋„ ๋œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ, ์ค‘๊ฐ„ ๋ชฉํ‘œ์— ๋ณด์ƒ์„ ์ฃผ๋ฉด ์—์ด์ „ํŠธ๋Š” ๋ฐฉ๋Œ€ํ•œ ์ƒํƒœ ๊ณต๊ฐ„ ์ค‘์—์„œ ํ•„์š”ํ•œ ๊ฒฝ๋กœ๋งŒ ์ง‘์ค‘ํ•˜๊ฒŒ ๋˜๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ•™์Šต ํšจ์œจ์ด ๋น„์•ฝ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฏธ๋กœ ์ฐพ๊ธฐ์—์„œ ์ตœ์ข… ์ถœ๊ตฌ์—๋งŒ ๋ณด์ƒ ์ฃผ๋Š” ๋Œ€์‹ , ์ค‘๊ฐ„ ์ฒดํฌํฌ์ธํŠธ ๋ช‡ ๊ตฐ๋ฐ์—๋„ ๋ณด์ƒ์„ ์ฃผ๋ฉด ์—์ด์ „ํŠธ๋Š” ์“ธ๋ฐ์—†๋Š” ๊ฒฝ๋กœ๋ฅผ ์ ๊ฒŒ ํƒ์ƒ‰ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฐœ๋…์„ ๊ณต์‹ํ™”ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์•„์ง ๋ชจ๋ฅด๋Š” ์ƒํƒœ๋กœ ์ง„์ž…ํ•˜๋ฉด ์ž„์˜ ์ •์ฑ…์œผ๋กœ ํƒํ—˜ํ•˜๋˜, ์ด๋ฏธ ์•ˆ๋‹ค๊ณ  ํŒ์ •๋œ ๊ตฌ๊ฐ„์€ ์ตœ์  ์ •์ฑ…์„ ๋”ฐ๋ฅด๋Š” ์‹์œผ๋กœ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ์•Œ๊ฒŒ ๋  ๋•Œ๋งˆ๋‹ค ๊ทธ ๊ตฌ๊ฐ„์˜ ์ตœ์  ์ •์ฑ…์„ ์ž ์žฌ์  ๋ณด์ƒ์œผ๋กœ ๊ฐ•ํ™”ํ•ด์ค๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์—์ด์ „ํŠธ๋Š” MDP ์ „์ฒด๋ฅผ ํƒ์ƒ‰ํ•  ํ•„์š” ์—†์ด ์ค‘์š”ํ•œ ๊ตฌ๊ฐ„๋งŒ ํƒํ—˜ํ•ด๋„ ์ถฉ๋ถ„ํžˆ ์ตœ์  ์ •์ฑ…์— ๋„๋‹ฌํ•˜๊ณ , ํ•™์Šต ์‹œ๊ฐ„์€ ์ „์ฒด ์ƒํƒœ ์ˆ˜๊ฐ€ ์ปค์ ธ๋„ ํฌ๊ฒŒ ์•…ํ™”๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ด๋ก ์€ Reward Shaping์ด ์–ผ๋งˆ๋‚˜ ํ•™์Šต ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ํ•œ ์˜ˆ์ด๋ฉฐ, ์‹ค์ œ ๋ฌธ์ œ์—๋„ ์ ์ ˆํ•œ ํ˜•์ƒ(reward shaping)์„ ํ†ตํ•ด ํšจ๊ณผ์ ์ธ ํ•™์Šต์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋ณด๋‹ค ์ผ๋ฐ˜์ ์œผ๋กœ, ๋ณด์ƒ ์ง€ํ‰ ๋‹จ์ถ•์€ ์šฐ๋ฆฌ๊ฐ€ ์ง๊ด€์ ์œผ๋กœ ํ”ํžˆ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋จผ ํ›—๋‚  ๋ฐ›์„ ๋ณด์ƒ๋ณด๋‹ค๋Š” ๊ฐ€๊นŒ์šด ์‹œ์ ์˜ ์„ฑ๊ณผ์— ๋ณด์ƒ์„ ์ฃผ๋ฉด, ์—์ด์ „ํŠธ๋Š” ๋ชฉํ‘œ๊นŒ์ง€ ๊ฐ€๋Š” ์—ฌ์ •์—์„œ ํ—ค๋งค๋Š” ์ผ์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ฃผ์˜ํ•  ์ ์€ ์ตœ์  ์ •์ฑ…์˜ ๋ถˆ๋ณ€์„ฑ์ž…๋‹ˆ๋‹ค. Reward Shaping์€ ์–ด๋””๊นŒ์ง€๋‚˜ ์ตœ์ข… ์ตœ์ ํ•ด(optimal policy)๋ฅผ ๋ฐ”๊พธ์ง€ ์•Š๋Š” ๋ฒ”์œ„์—์„œ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ๊ฐ•ํ•œ ์ค‘๊ฐ„ ๋ณด์ƒ์„ ์ฃผ๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ์• ์ดˆ ๋ชฉํ‘œ๋ฅผ ๋ง๊ฐํ•˜๊ณ  ์ค‘๊ฐ„ ๋ชฉํ‘œ์— ์ง‘์ฐฉํ•ด๋ฒ„๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ์ด๋ก ์  ๋„๊ตฌ๊ฐ€ ์ž ์žฌ ๊ธฐ๋ฐ˜ Reward Shaping(potential-based shaping)์œผ๋กœ, ์•„๋ž˜์—์„œ ์ž์„ธํžˆ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Potential-Based Reward Shaping)

๊ฐ•ํ™”ํ•™์Šต์˜ ์™ธ์žฌ์  ๋ณด์ƒ๊ณผ ๋‚ด์žฌ์  ๋ณด์ƒ ๊ฐœ๋…. ์ขŒ: ์—์ด์ „ํŠธ๋Š” ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ๋ณด์ƒ์„ ๋ฐ›๋Š”๋‹ค. ์šฐ: ์—์ด์ „ํŠธ ๋‚ด๋ถ€์— โ€œ๋‚ด๋ถ€ ํ™˜๊ฒฝโ€ ๋˜๋Š” ๋น„์œ ์ ์œผ๋กœ ์ƒ๋ฌผ์ฒด์™€ ๊ฐ™์€ ๋ชจ๋“ˆ์ด ์žˆ์–ด, ์—ฌ๊ธฐ์„œ ๋‚ด์žฌ์  ๋ณด์ƒ์ด ๋ฐœ์ƒํ•˜์—ฌ ํ•จ๊ป˜ ํ™œ์šฉ๋œ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ Reward Shaping์€ ์ด๋ก ์ ์œผ๋กœ ๊ฐ€์žฅ ์ž˜ ์ •๋ฆฝ๋œ Reward Shaping ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, Ng ๋“ฑ์˜ ๊ณ ์ „์ ์ธ ์—ฐ๊ตฌ์—์„œ ์ฒ˜์Œ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ž ์žฌ ํ•จ์ˆ˜ \Phi(s)๋ž€ ์ƒํƒœ s์— ๋Œ€ํ•ด ์ •์˜๋˜๋Š” ์‹ค์ˆ˜ ๊ฐ’ ํ•จ์ˆ˜๋กœ, ํ˜„์žฌ ์ƒํƒœ์™€ ๋‹ค์Œ ์ƒํƒœ์˜ ์ž ์žฌ๊ฐ’ ์ฐจ์ด๋ฅผ ์ถ”๊ฐ€ ๋ณด์ƒ์œผ๋กœ ์ฃผ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด shaped ๋ณด์ƒ R'(s,a,s') = R(s,a) + \gamma \Phi(s') - \Phi(s) ๋กœ, ์—ฌ๊ธฐ์„œ \gamma๋Š” ํ• ์ธ์œจ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์œผ๋กœ ๋ณด์ƒ์„ ๋ณ€๊ฒฝํ•˜๋ฉด ์ž ์žฌ ํ•จ์ˆ˜์˜ ๊ทธ๋ผ๋””์–ธํŠธ ๋ถ€๋ถ„์ด ์ผ์ข…์˜ ๊ฐ€์ด๋“œ ์—ญํ• ์„ ํ•˜์ง€๋งŒ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ตœ์  ์ •์ฑ…์€ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ •์ฑ… ๋ถˆ๋ณ€์„ฑ ์ด๋ก ์ด ์ฆ๋ช…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์€ ์ด๋ก ์ ์œผ๋กœ ์•ˆ์ „ํ•˜๊ฒŒ ๋ณด์ƒ์„ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ์ง๊ด€์ ์ธ ์ดํ•ด๋ฅผ ์œ„ํ•ด, \Phi(s)๋ฅผ ํœด๋ฆฌ์Šคํ‹ฑ ํ•จ์ˆ˜๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฏธ๋กœ ๋ฌธ์ œ์—์„œ \Phi(s)๋ฅผ ํ˜„์žฌ ์ƒํƒœ์—์„œ ๋ชฉํ‘œ๊นŒ์ง€์˜ ์˜ˆ์ƒ ๊ฑฐ๋ฆฌ์˜ ์Œ์ˆ˜๋กœ ์„ค์ •ํ•˜๋ฉด, ์—์ด์ „ํŠธ๋Š” ํ•œ ๊ฑธ์Œ ์›€์ง์—ฌ ๋ชฉํ‘œ์— ๊ฐ€๊นŒ์›Œ์งˆ ๋•Œ๋งˆ๋‹ค ์ž ์žฌ๊ฐ’ ์ฐจ์ด๋งŒํผ ๋ณด์ƒ์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ณด๋„ˆ์Šค๋Š” ์ตœ์ข… ๋ชฉํ‘œ ๋„๋‹ฌ์ด๋ผ๋Š” ๋ณธ๋ž˜ ๋ณด์ƒ๊ณผ ๋ฐฉํ–ฅ์€ ์ผ์น˜ํ•˜์ง€๋งŒ, ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•ด์ฃผ๋ฏ€๋กœ ํƒ์ƒ‰์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋กœ๋ด‡ ํŒ” ์ž‘์—…์—์„œ๋„, ๋ชฉํ‘œ๋ฌผ๊ณผ์˜ ์Œ์ˆ˜ ๊ฑฐ๋ฆฌ ์ž ์žฌํ•จ์ˆ˜๋ฅผ ์“ฐ๋ฉด ๋กœ๋ด‡์ด ๋ชฉํ‘œ๋ฌผ์— ์ผ๋‹จ ๊ฐ€๊นŒ์ด ๊ฐ€๋ ค๊ณ  ๋…ธ๋ ฅํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋ฐœ์ „ํ˜•๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„  ๊ธฐ๋ณธ ๊ฐœ๋…์œผ๋กœ, ์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์€ ์—ํ”ผ์†Œ๋“œ ์ „์ฒด ๋ณด์ƒ์„ ๋ถ„์„ํ•ด ๋ˆ„์  ๋ณด์ƒ์„ ๊ฐ•ํ™”ํ•˜๊ฑฐ๋‚˜ ๋ฒŒ์ ์„ ์ฃผ๋Š” ํ˜•ํƒœ๋กœ๋„ ์“ฐ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ฒŒ์ž„ ํ™˜๊ฒฝ์—์„œ ์—ํ”ผ์†Œ๋“œ ๋‹น ๋ฐ›์€ ์ด ๋ณด์ƒ์„ ์ถ”์ ํ•˜์—ฌ, ํ˜„์žฌ ์—ํ”ผ์†Œ๋“œ ์„ฑ๊ณผ๊ฐ€ ์ตœ์ €์น˜๋ณด๋‹ค ๋†’์œผ๋ฉด ๋ณด์ƒ ์ฆ๊ฐ€, ์ตœ๊ณ ์น˜์— ๊ฐ€๊นŒ์›Œ์ง€๋ฉด ๊ฐ•ํ™”ํ•˜๋Š” ๋™์  ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‹ (13)์—์„œ, F_{\text{min}}, F_{\text{max}}๋Š” ์ง€๊ธˆ๊นŒ์ง€ ๋‹ฌ์„ฑํ•œ ์ตœ์•…/์ตœ๊ณ  ์—ํ”ผ์†Œ๋“œ ์ ์ˆ˜์ธ๋ฐ, ํ˜„ ์—ํ”ผ์†Œ๋“œ ๋ณด์ƒ์ด ๊ณผ๊ฑฐ ์ตœ๊ณ ์น˜์— ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์ถ”๊ฐ€ ๋ณด์ƒ์„ ์คŒ์œผ๋กœ์จ ๊ธ์ •์  ํ–‰๋™์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ Pong, Breakout ๊ฒŒ์ž„์—์„œ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๊ณ  ์—ฌ๋Ÿฌ ๊ณผ์ œ๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•  ๋•Œ๋„ ์„ฑ๋Šฅ์„ ๋†’์—ฌ์ค€ ๊ฒƒ์œผ๋กœ ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ(MAS)์—๋„ ์ ์šฉ๋˜์–ด ์ด๋ก ์  ์„ฑ์งˆ์ด ์—ฐ๊ตฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ž ์žฌ ๋ณด์ƒ์„ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ƒํ™ฉ์— ๋„์ž…ํ•˜๋ฉด, ๋ณธ๋ž˜ MDP๊ฐ€ ์•„๋‹ˆ๋ผ ์Šคํ† ์บ์Šคํ‹ฑ ๊ฒŒ์ž„(stochastic game)์ด ๋˜๋Š”๋ฐ, ์ด๋•Œ๋„ ๋ชจ๋“  ์—์ด์ „ํŠธ์— ๊ฐ™์€ ์ž ์žฌ ๋ณด์ƒํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๋ฉด ๊ฒฐ๊ณผ์ ์œผ๋กœ Qํ•จ์ˆ˜ ์ดˆ๊ธฐํ™”๋ฅผ ์กฐ์ •ํ•œ ๊ฒƒ๊ณผ ๋™์ผํ•˜๋ฉฐ, ๊ฒŒ์ž„์˜ ๋‚ด์‹œ ๊ท ํ˜•(Nash equilibrium)์„ ๋ฐ”๊พธ์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด ์ฆ๋ช…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ์—์„œ๋„ ์ •์ฑ… ๋ถˆ๋ณ€์„ฑ์ด ์œ ์ง€๋จ์„ ๋ณด์žฅํ•ด์ฃผ๋Š” ์ค‘์š”ํ•œ ์ด๋ก ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ž ์žฌ ๋ณด์ƒ์„ ์ฃผ๋ฉด ํƒ์ƒ‰ ๊ฒฝ๋กœ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์–ด, ๋™์ผํ•œ ๊ท ํ˜•์ ์ด๋ผ๋„ ๋‹ค๋ฅธ ๊ฒฝ๋กœ๋กœ ๋„๋‹ฌํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด joint policy์— ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ์Œ์ด ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ์ ์ ˆํ•œ ์ž ์žฌ ๋ณด์ƒ์„ ์ฃผ์—ˆ์„ ๋•Œ ์—์ด์ „ํŠธ๋“ค์ด ๋” ๋†’์€ ๊ธ€๋กœ๋ฒŒ ํšจ์šฉ์„ ๋‚ด๋Š” ๊ท ํ˜•์— ๋„๋‹ฌํ•  ํ™•๋ฅ ์ด ๋†’์•„์ง€๊ณ , ์ˆ˜๋ ด ์‹œ๊ฐ„์€ ์ค„์–ด๋“œ๋Š” ๊ฒฝํ–ฅ์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ์—์„œ๋„ ์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์ด ํƒ์ƒ‰์„ ๊ฑด์ „ํ•˜๊ฒŒ ์œ ๋„ํ•˜์—ฌ ๋ณด๋‹ค ์ข‹์€ ํ˜‘๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์€ ๊ณ„์ธตํ˜• ๊ฐ•ํ™”ํ•™์Šต(HRL)์—๋„ ํ™œ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด PBRS-MAXQ-0๋ผ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€, ๊ธฐ์กด HRL ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ MAXQ์— ์ž ์žฌ ๋ณด์ƒ(PBRS)์„ ํ†ตํ•ฉํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ณ„์ธต ํ•™์Šต์—์„œ๋Š” ์ƒ์œ„ ๋ชฉํ‘œ์™€ ํ•˜์œ„ ๋ชฉํ‘œ๋กœ ๋ฌธ์ œ๊ฐ€ ๋‚˜๋‰˜๋Š”๋ฐ, ์—ฌ๊ธฐ์— ์ž ์žฌ ๋ณด์ƒ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์„œ๋ธŒํƒœ์Šคํฌ ๊ฐ„ ์—ฐ๊ณ„๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ผ๋ถ€ ์ด๋ก  ์กฐ๊ฑด ํ•˜์—์„œ ์ถ”๊ฐ€ ๋ณด์ƒ์ด ์žˆ์–ด๋„ ์ˆ˜๋ ด ๋ณด์žฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‹คํ—˜์ ์œผ๋กœ๋„ ์ ์ ˆํ•œ ํœด๋ฆฌ์Šคํ‹ฑ(์ž ์žฌํ•จ์ˆ˜)์„ ๋„ฃ์œผ๋ฉด ํ‘œ์ค€ MAXQ-0๋ณด๋‹ค ํ•™์Šต ์†๋„๊ฐ€ ๋นจ๋ผ์ง€๊ณ  ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, ์‹ฌ์ง€์–ด ํœด๋ฆฌ์Šคํ‹ฑ์ด ์ž˜๋ชป๋˜์–ด (misleading heuristic) ์—์ด์ „ํŠธ๋ฅผ ์˜ค๋„ํ•˜๋”๋ผ๋„ ์ตœ์ข…์ ์œผ๋กœ๋Š” ํ‘œ์ค€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ๊นŒ์ง€ ๋”ฐ๋ผ์˜จ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” PBRS-MAXQ-0์ด ์–ด๋А ์ •๋„ ์ž˜๋ชป๋œ ์ž ์žฌ ๋ณด์ƒ์—๋„ ๊ฐ•์ธํ•˜์—ฌ, ๊ฒฐ๊ตญ ์ถฉ๋ถ„ํžˆ ํ•™์Šต ์‹œ๊ฐ„์„ ์ฃผ๋ฉด ๊ทน๋ณตํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ก  ํ˜„์‹ค์ ์œผ๋กœ๋Š” ์ž˜๋ชป๋œ ์ž ์žฌ ๋ณด์ƒ์„ ์“ฐ๋ฉด ์ค‘๊ฐ„ ํ•™์Šต ๊ณผ์ •์—์„œ ์‹œ๊ฐ„ ๋‚ญ๋น„๊ฐ€ ๋ฐœ์ƒํ•˜๋ฏ€๋กœ, ํœด๋ฆฌ์Šคํ‹ฑ์˜ ํ’ˆ์งˆ์„ ๋†’์ด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. PBRS-MAXQ-0์˜ ๊ณผ์ œ๋กœ๋Š” ํœด๋ฆฌ์Šคํ‹ฑ ๊ฐ’์„ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ•  ๊ฒƒ์ธ์ง€์™€, ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๋Šฅ์„ ๋‚ด๋Š”์ง€ ๋“ฑ์ด ๊ผฝํž™๋‹ˆ๋‹ค.

Potential-Based Advice๋ผ๋Š” ์ด๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋„ ์†Œ๊ฐœ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ์ž„์˜์˜ ๋ณต์žกํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋„ ์ž ์žฌ ํ•จ์ˆ˜์˜ ํ˜•ํƒœ๋กœ ์—์ด์ „ํŠธ์—๊ฒŒ ์ฃผ์ž…ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํ™˜๊ฒฝ์ด ์ฃผ๋Š” ๋ณธ๋ž˜ ๋ณด์ƒ์„ ๋ฐ”๊พธ์ง€ ์•Š๋”๋ผ๋„, ์ถ”๊ฐ€๋กœ ์„ค๊ณ„์ž๊ฐ€ ์›ํ•˜๋Š” ์ž„์˜์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ž ์žฌ์  ์ถ”๊ฐ€ ๋ณด์ƒ์œผ๋กœ ์ œ๊ณตํ•˜์—ฌ ์ •์ฑ…์—๋Š” ์˜ํ–ฅ ์ฃผ์ง€ ์•Š์œผ๋ฉด์„œ ํ•™์Šต์„ ๊ฐ€์†ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ณด์กฐ ๊ฐ€์น˜ํ•จ์ˆ˜(auxiliary value function)๋ฅผ ํ•™์Šตํ•˜์—ฌ, ์ถ”๊ฐ€ ๋ณด์ƒ์ด ๋งˆ์น˜ ์ž ์žฌ ๋ณด์ƒ์ฒ˜๋Ÿผ ๊ธฐ๋Šฅํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์„ค๊ณ„์ž๊ฐ€ ๊ฐ€์ง„ ๋„๋ฉ”์ธ ์ง€์‹์„ ํ–‰๋™ ๊ฐ•ํ™”๋ฅผ ์œ„ํ•ด ๋…น์—ฌ๋‚ผ ์ˆ˜ ์žˆ๊ณ , ์ด๋ก ์ ์œผ๋กœ ์‹œ๊ฐ„๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๋ณต์žก๋„๋„ ์„ ํ˜•์œผ๋กœ๋งŒ ์ฆ๊ฐ€ํ•˜์—ฌ ํฐ ๋ถ€๋‹ด ์—†์ด ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ํ˜„์žฌ๊นŒ์ง€๋Š” ์ด ๊ฐœ๋…์ด ์ฃผ๋กœ ์ด๋ก ์  ์ •์‹ํ™”๋กœ ๋จธ๋ฌผ๋Ÿฌ ์žˆ๊ณ , ์ด๋ฅผ ์‹ค์ œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ตฌํ˜„ํ•œ ์˜ˆ๋Š” ๋งŽ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์—ฌ๋Ÿฌ Reward Shaping ์ ‘๊ทผ๋ฒ•์˜ ์–ด๋ ค์›€์„ ๋น„๊ตํ•˜๋Š”๋ฐ, ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ์ด๋ก ์  ๋ณด์žฅ์€ ์žˆ์ง€๋งŒ ํšจ๊ณผ์  ์ ์šฉ์„ ์œ„ํ•ด ๋„๋ฉ”์ธ ์ง€์‹์ด ๋งŽ์ด ํ•„์š”ํ•˜๊ณ , ๋ณด์กฐ ๊ณผ์ œ(auxiliary task) ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ์œ ์—ฐํ•˜์ง€๋งŒ ์„ค๊ณ„ ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•˜๋ฉฐ, ๋‚ด์žฌ์  ๋™๊ธฐ ๋ถ€์—ฌ ๋ฐฉ๋ฒ•์€ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์— ๋ฏผ๊ฐํ•˜๋‹ค๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹ค์šฉ์ ์ธ ๊ด€์ ์—์„œ๋Š” ์ด๋ก ๊ณผ ํ˜„์‹ค์˜ ๊ท ํ˜•์„ ๋งž์ถฐ, ๋ฌธ์ œ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ shaping ์ ‘๊ทผ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ๊ฒฐ๋ก ์ง“์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์ด๋Ÿฌํ•œ Reward Shaping ๊ธฐ๋ฒ•๋“ค์„ ๋ณด๋‹ค ์ž๋™ํ™”ํ•˜๊ณ  ๊ฐ•์ธํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๊ณ  ์ œ์–ธํ•ฉ๋‹ˆ๋‹ค.

์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์€ ์—ํ”ผ์†Œ๋“œํ˜• ๊ฐ•ํ™”ํ•™์Šต(episodic RL) ๋งฅ๋ฝ์—์„œ๋„ ์žฌ๊ฒ€ํ† ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ๋Š” ์—ํ”ผ์†Œ๋“œ ์ดˆยท๋ง์˜ ์ž ์žฌ๊ฐ’์ด ๊ท ํ˜•์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ๋“ฑ์„ ๋ถ„์„ํ•˜์—ฌ, ์ž ์žฌ ๋ณด์ƒ์ด ์Šคํ† ์บ์Šคํ‹ฑ ๊ฒŒ์ž„์˜ ๊ท ํ˜•์„ ๋ณ€๊ฒฝํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๊ท ํ˜•์„ ๋„์ž…ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ด๋ก ์ ์œผ๋กœ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋น„-์ œ๋กœ(non-zero) ํ„ฐ๋ฏธ๋„ ์ž ์žฌ๊ฐ’์€ ์ƒˆ๋กœ์šด ๊ท ํ˜•์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด ์ฃผ์˜ํ•ด์•ผ ํ•จ์„ ์ง€์ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ PAC-MDP ๊ด€์ ์—์„œ ์ž ์žฌ ๋ณด์ƒ์ด ํƒํ—˜์„ ์ด‰์ง„ํ•จ์„ ์ฆ๋ช…ํ•˜์—ฌ, ์—ํ”ผ์†Œ๋“œ ์‹œ์ž‘ยท์ข…๋ฃŒ ์ƒํƒœ๊ฐ€ ๊ตฌ๋ถ„๋˜๋Š” ๊ฒฝ์šฐ์—๋„ ์ž ์žฌ ๊ธฐ๋ฐ˜ shaping์ด ์œ ์šฉํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ์ž ์žฌ ํ•จ์ˆ˜๋Š” ์—ํ”ผ์†Œ๋“œ ๊ธฐ๋ฐ˜ ๋ฌธ์ œ์—์„œ๋„ ํ•™์Šต ํšจ์œจ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•˜์ง€๋งŒ, ์ด๋ก ์ ์œผ๋กœ ์„ค๊ณ„ํ•  ๋•Œ ๊ฐ๋ณ„ํ•œ ์‹ ๊ฒฝ์„ ์จ์•ผ ํ•  ์š”์†Œ๋“ค์ด ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ ์•ˆ์ „ ์ œ์•ฝ์ด ์žˆ๋Š” ๊ฐ•ํ™”ํ•™์Šต์—๋„ ์ž ์žฌ ๋ณด์ƒ ๊ฐœ๋…์ด ํ™œ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋…ผ๋ฆฌ ๊ฒ€์ฆ๋œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์‹œ์Šคํ…œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์•ˆ์ „ ์†์„ฑ์„ ๋งŒ์กฑํ•˜๋Š” ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์—์„œ๋Š” ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๋…ผ๋ฆฌ ์ œ์•ฝ๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ, ์ œ์•ฝ์„ ์–ด๊ธฐ์ง€ ์•Š์œผ๋ฉด์„œ ์—์ด์ „ํŠธ๊ฐ€ ํ•™์Šตํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์ฐจ๋Ÿ‰ ์ข…๋ฐฉํ–ฅ ์ œ์–ด ํ™˜๊ฒฝ์—์„œ, ๋…ผ๋ฆฌ ์ œ์•ฝ ๊ธฐ๋ฐ˜ ์ž ์žฌ ๋ณด์ƒ(PBRF)์„ ์‚ฌ์šฉํ•˜๋‹ˆ ํ•™์Šต ์ดˆ๊ธฐ ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋นจ๋ผ์กŒ๊ณ , ์•ˆ์ „ํ•œ ๋™์ž‘์„ ํ•˜๋„๋ก ์œ ๋„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์™„์ „ํžˆ ์‚ฌ๋žŒ์ด ๋งŒ๋“  ๋ณด์ƒ๊ณผ ๋น„๊ตํ•ด๋„ ์•ˆ์ „์„ฑ ์ธก๋ฉด์—์„œ ๊ฑฐ์˜ ๋™๋“ฑํ•œ ์ •์ฑ…์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, ๋ณด์ƒ ์Šค์ผ€์ผ๋ง์„ ์กฐ์ •ํ•˜์—ฌ ์–ด๋–ค ์•ˆ์ „ ์ธก๋ฉด์„ ๋” ๊ฐ•์กฐํ• ์ง€๋„ ํ†ต์ œํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ˜•์‹ ๊ธฐ๋ฒ•(formal methods)๊ณผ RL์„ ๊ฒฐํ•ฉํ•œ ์‚ฌ๋ก€๋กœ, ์ž ์žฌ ๋ณด์ƒ์„ ํ†ตํ•ด ์•ˆ์ „ ์˜์—ญ์œผ๋กœ์˜ ์œ ๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ํŒŒ์ƒ์œผ๋กœ DRiP (Difference Reward incorporating Potential-based reward)๊ณผ CaP (Counterfactual as Potential)์ด๋ผ๋Š” ๊ธฐ๋ฒ•๋„ ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋’ค์—์„œ ์„ค๋ช…ํ•  ์ฐจ์ด ๋ณด์ƒ(Difference reward) ๊ฐœ๋…์„ ์ž ์žฌ ๋ณด์ƒ๊ณผ ๊ฒฐํ•ฉํ•œ ๊ฒƒ์œผ๋กœ, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ์—์„œ ๊ฐ ์—์ด์ „ํŠธ๊ฐ€ ์‹œ์Šคํ…œ ์„ฑ๋Šฅ์— ๊ธฐ์—ฌํ•œ ๋ฐ”๋ฅผ ์ž ์žฌ ํ•จ์ˆ˜ ํ˜•ํƒœ๋กœ ๋ณด์ƒํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. DRiP๋Š” ๋„๋ฉ”์ธ ์ง€์‹์ด ๋‹ด๊ธด ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์„ค๊ณ„ํ•ด์•ผ ํ•˜์ง€๋งŒ, ํ•™์Šต ๊ฐ€์†๊ณผ ๊ท ํ˜• ์œ ์ง€ ์ธก๋ฉด์—์„œ ํšจ๊ณผ์ ์ด๊ณ , CaP๋Š” ๋™์ ์œผ๋กœ ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์‚ฌ๋žŒ์˜ ๊ฐœ์ž…์„ ์ค„์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ์œ ์‚ฌํ•œ ์ง€์‹์„ ํ™œ์šฉํ•˜์ง€๋งŒ, ํ•ฉ์ณ ์“ธ ๋•Œ ์‹œ๋„ˆ์ง€๋Š” ์—†๊ณ  ์˜คํžˆ๋ ค ๋ณต์žก๋„๋งŒ ์ฆ๊ฐ€ํ•˜๋ฏ€๋กœ ๋ณ„๊ฐœ๋กœ ์“ฐ๋Š” ๊ฒƒ์ด ์ข‹๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ก  ๋ณด์žฅ์ด ํ•„์š”ํ•˜๋ฉด CaP๋ฅผ, ์ตœ๋Œ€ํ•œ ๋น ๋ฅธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋ชฉํ‘œ๋ฉด DRiP์„ ๊ถŒ์žฅํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, DRiP์€ ํŠนํžˆ ๋„๋ฉ”์ธ ์ง€์‹์ด ์ถฉ๋ถ„ํ•  ๋•Œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์‹คํ—˜ ๋„๋ฉ”์ธ์—์„œ DRiP์€ ์ผ๊ด€๋˜๊ฒŒ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ๋น ๋ฅธ ํ•™์Šต๊ณผ ๋†’์€ ์ •์ฑ… ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ด, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ shaping ๊ธฐ๋ฒ•์˜ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋™์  ์ž ์žฌ ๊ธฐ๋ฐ˜ Reward Shaping (DPBRS)

DPBRS (Dynamic Potential-Based Reward Shaping)๋Š” ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”์‹œํ‚ค๋Š” ๋ฐœ์ „๋œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์—์„œ๋Š” \Phi(s)๊ฐ€ ๊ณ ์ •๋œ ํ•จ์ˆ˜์ด์ง€๋งŒ, DPBRS๋Š” ํ˜„์žฌ๊นŒ์ง€์˜ ํ•™์Šต ์ƒํ™ฉ์ด๋‚˜ ์—์ด์ „ํŠธ์˜ ์ƒํƒœ์— ๋”ฐ๋ผ ์ž ์žฌ ๊ฐ’์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Q-๋Ÿฌ๋‹์˜ ์—…๋ฐ์ดํŠธ ์‹์— ์‹œ๊ฐ„์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ฐœ๋…์„ ์ •์˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„์ด๋””์–ด๋Š” ์‹ (16)์ฒ˜๋Ÿผ, ์ž ์žฌ ํ•จ์ˆ˜์— ์ƒํƒœ ๋„๋‹ฌ ์‹œ๊ฐ t๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ \Phi(s, t)๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์–ด๋–ค ์ƒํƒœ๋ฅผ ๋นจ๋ฆฌ ๋„๋‹ฌํ•˜๋ฉด ๋†’์€ ์ž ์žฌ ๋ณด์ƒ์„ ์ฃผ๊ณ  ๋Šฆ๊ฒŒ ๋„๋‹ฌํ•˜๋ฉด ์ค„์ด๋Š” ์‹์œผ๋กœ, ์‹œ๊ฐ„ ์š”์†Œ๋ฅผ ๊ณ ๋ คํ•œ ๋ณด์ƒ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ๋” ์‹ ์†ํžˆ ๋ชฉํ‘œ์— ๋„๋‹ฌํ•˜๋„๋ก ์œ ๋„ํ•˜๊ฑฐ๋‚˜, ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ๋ณด์ƒ ์ „๋žต์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

DPBRS์˜ ์žฅ์ ์€ ๊ธฐ์กด ์ž ์žฌ ๋ฐฉ๋ฒ•์˜ ์ด๋ก ์  ๋ณด์žฅ(์ •์ฑ… ๋ถˆ๋ณ€์„ฑ ๋“ฑ)์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„, ์ƒํ™ฉ์— ๋งž๊ฒŒ shaping์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์—์„œ๋Š” DPBRS๋ฅผ ์‹ฑ๊ธ€ ์—์ด์ „ํŠธ 2D ๋ฏธ๋กœ์™€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ฒŒ์ž„์— ํ…Œ์ŠคํŠธํ•˜์—ฌ, ๋” ๋น ๋ฅธ ์ˆ˜๋ ด๊ณผ ํ˜‘๋™ ํ–ฅ์ƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‹ค์ค‘ ์—์ด์ „ํŠธ์˜ ๊ฒฝ์šฐ, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ž ์žฌ ๋ณด์ƒ์„ ๋ณ€๋™์‹œ์ผœ ์ดˆ๊ธฐ์— ํ˜‘๋™์„ ์œ ๋„ํ•˜๊ณ  ๋‚˜์ค‘์—๋Š” ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋Š” ์‹์˜ ์ ์šฉ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ด ๋ฐฉ๋ฒ•์€ ์•„์ง ๋„๋ฆฌ ์‹œํ—˜๋˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ์˜ ์ง์ ‘ ๋น„๊ต ๋ถ€์กฑ, ๋กœ๋ณดํ‹ฑ์Šค๋‚˜ ๋ณต์žกํ•œ ๋น„์„ ํ˜• ์‹œ์Šคํ…œ์—์˜ ์‘์šฉ ๋ฏธ๋น„ ๋“ฑ์„ ํ•œ๊ณ„๋กœ ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ œ์‹œ๋œ ์˜ˆ์‹œ๋Š” 2D ๋ฏธ๋กœ์™€ ๊ฐ„๋‹จํ•œ ๊ฒŒ์ž„ ์ •๋„์˜€๊ณ , ์‹ค์ œ ๋กœ๋ด‡ ์ œ์–ด๋‚˜ ๊ณ ์ฐจ์› ๋ฌธ์ œ์—์„œ๋Š” ํšจ๊ณผ๊ฐ€ ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ DPBRS๋Š” ๊ฐœ๋… ์ฆ๋ช… ๋‹จ๊ณ„๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์„ฑ๋Šฅ์„ ํ™•์ธํ•˜๊ณ  ๋‹ค๋ฅธ shaping ๋ฐฉ๋ฒ•๊ณผ๋„ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„, ์‹œ๊ฐ„ ๊ฐ€๋ณ€์  ๋ณด์ƒ์ด๋ผ๋Š” ๊ฐœ๋…์€ ์ค‘์š”ํ•˜์—ฌ, ํ–ฅํ›„ ์ ์‘ํ˜• ๋ณด์ƒ ์„ค๊ณ„์˜ ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

์ƒํ•œ ์‹ ๋ขฐ ๊ธฐ๋ฐ˜ ๊ฐ€์น˜ ๋ฐ˜๋ณต (UCBVI ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์„ค๊ณ„)

UCBVI (Upper Confidence Bound Value Iteration)๋Š” ์ƒ˜ํ”Œ ํšจ์œจ ํ–ฅ์ƒ์„ ์œ„ํ•ด ์ด๋ก ์ ์œผ๋กœ ์ œ์•ˆ๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, Reward Shaping์˜ ํšจ๊ณผ๋ฅผ ๋ถ„์„์ ์œผ๋กœ ์—ฐ๊ตฌํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. UCBVI ์ž์ฒด๋Š” ๋ชจ๋ธ๊ธฐ๋ฐ˜ ํƒ์ƒ‰ ๋ฐฉ๋ฒ•์œผ๋กœ, ํƒ์ƒ‰ ๋ณด๋„ˆ์Šค๋ฅผ ํ†ตํ•ด ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ์ƒํ–ฅ ํŽธํ–ฅ(upper bound)์‹œ์ผœ๊ฐ€๋ฉฐ ์ตœ์  ์ •์ฑ…์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ์ด๋Š” MBIE-EB ๋“ฑ ๊ธฐ์กด ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ์ด๋ก  ๋ถ„์„์— ํŽธ๋ฆฌํ•œ ํ˜•ํƒœ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์› ๋…ผ๋ฌธ์—์„œ๋Š” ์ด UCBVI์— Reward Shaping ๊ฐœ๋…์„ ๋„์ž…ํ•˜์—ฌ, ํƒ์ƒ‰ ๋ณด๋„ˆ์Šค์™€ ๊ฐ€์น˜ ํ•จ์ˆ˜ ํˆฌ์˜ ๋“ฑ์„ ์ˆ˜์ •ํ•œ UCBVI-shaped ๋ฒ„์ „์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

UCBVI-shaped์˜ ๋ถ„์„์— ๋”ฐ๋ฅด๋ฉด, Reward Shaping์„ ํ•˜๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ํƒ์ƒ‰ํ•  ์ƒํƒœ ๊ณต๊ฐ„์„ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ผ ์ˆ˜ ์žˆ์–ด ํ›„ํšŒ(regret) ๋ฐ ์ƒ˜ํ”Œ ๋ณต์žก๋„ ๋ฉด์—์„œ ์œ ๋ฆฌํ•ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” Reward Shaping์ด ๋ฌธ์ œ์™€ ๊ด€๋ จ ์—†๋Š” ๋ถ€๋ถ„์„ ๊ฐ€์ง€์น˜๊ธฐ(pruning) ํ•˜๊ณ , ์—์ด์ „ํŠธ๊ฐ€ ์ •์ฑ… ์ˆ˜๋ฆฝ์— ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜๊ฒŒ ํ•ด์ค€๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, UCBVI-shaped๋Š” ๋™์ผํ•œ ํ™˜๊ฒฝ์—์„œ ๊ธฐ๋ณธ UCBVI๋ณด๋‹ค ๋‚ฎ์€ ํ›„ํšŒ ํ•œ๊ณ„์™€ ์ ์€ ์ƒ˜ํ”Œ๋กœ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์—์ด์ „ํŠธ๊ฐ€ ์“ธ๋ฐ์—†์ด ํ™˜๊ฒฝ์˜ ๋ถˆํ•„์š”ํ•œ ์˜์—ญ์„ ๋Œ์•„๋‹ค๋‹ˆ๋Š” ์ผ์ด ์ค„์–ด๋“ค์–ด, ์ตœ์  ์ •์ฑ… ๋ฐœ๊ฒฌ ์‹œ๊ฐ„์ด ๋‹จ์ถ•๋ฉ๋‹ˆ๋‹ค.

์‹คํ—˜์œผ๋กœ๋Š” ๋ฏธ๋กœ ํ™˜๊ฒฝ์—์„œ UCBVI-shaped์™€ ์ผ๋ฐ˜ UCBVI๋ฅผ ๋น„๊ตํ–ˆ๋Š”๋ฐ, irrelevantํ•œ ๊ตฌ์—ญ์ด ๋งŽ์€ ํ™˜๊ฒฝ์ผ์ˆ˜๋ก shaping์˜ ํšจ๊ณผ๊ฐ€ ๋‘๋“œ๋Ÿฌ์กŒ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ง๊ด€์ ์ด๋ฉฐ, Reward Shaping์ด ์—†์—ˆ๋‹ค๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ํ—ค๋งธ์„ ๋ถ€๋ถ„์„ Reward Shaping์œผ๋กœ ํƒ์ƒ‰ํ•˜์ง€ ์•Š๋„๋ก ์œ ๋„ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ๋Š” ์ฃผ๋กœ ์ด๋ก  ์œ„์ฃผ์ด์ง€๋งŒ, ์ค‘์š”ํ•œ ์ ์€ Reward Shaping์„ ๊ณต์‹์ ์œผ๋กœ ์ƒ˜ํ”Œ ๋ณต์žก๋„ ๋ถ„์„์— ํ†ตํ•ฉํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „๊นŒ์ง€ ๋Œ€๋ถ€๋ถ„ ์‹คํ—˜์ ์œผ๋กœ ์ข‹๋‹ค๋Š” Reward Shaping ๊ธฐ๋ฒ•๋“ค์„, ์ˆ˜ํ•™์  ์„ฑ๋Šฅ ๋ณด์žฅ ์ธก๋ฉด์—์„œ ์กฐ๋ช…ํ•œ ๊ฒƒ์œผ๋กœ, ํ–ฅํ›„ Reward Shaping์ด RL์˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋†’์ด๋Š” ์ •๋‹นํ•œ ๋„๊ตฌ๋กœ ๋”์šฑ ์ธ์ •๋ฐ›์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, UCBVI ์—ฐ๊ตฌ๋Š” โ€œReward Shaping์„ ํ•˜๋ฉด ์ด๋ก ์ ์œผ๋กœ๋„ ํ•™์Šต ํšจ์œจ์ด ์ข‹์•„์ง„๋‹คโ€๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•จ์œผ๋กœ์จ, ํ–ฅํ›„ RL ๋ถ„์„์— Reward Shaping์„ ์ ๊ทน ๊ณ ๋ คํ•ด์•ผ ํ•จ์„ ์‹œ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ RL ์—ฐ๊ตฌ์—์„œ๋Š” ์ข…์ข… ๋ณด์ƒ์€ ๋ฌธ์ œ ์ •์˜์˜ ์ผ๋ถ€๋กœ ๊ณ ์ •ํ•˜๊ณ  ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋งŒ ๋ถ„์„ํ•˜๊ณค ํ–ˆ์ง€๋งŒ, ์ด ๊ฒฐ๊ณผ๋Š” ๋ณด์ƒ ์„ค๊ณ„ ์ž์ฒด๋„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ผ๋ถ€๋กœ ์ทจ๊ธ‰ํ•ด์•ผ ํ•จ์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.

์ฐจ์ด ๋ณด์ƒ (Difference Rewards)

์ฐจ์ด ๋ณด์ƒ(Difference Reward)์€ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ๊ฐ•ํ™”ํ•™์Šต์ด๋‚˜ ์ง‘๋‹จ ์ตœ์ ํ™” ๋ฌธ์ œ์—์„œ ๊ณ ์•ˆ๋œ ๊ธฐ๋ฒ•์œผ๋กœ, ์—์ด์ „ํŠธ์˜ ๊ธฐ์—ฌ๋„์— ๋”ฐ๋ฅธ ๋ณด์ƒ์„ ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์•„์ด๋””์–ด๋Š”, โ€œ๊ฐœ๋ณ„ ์—์ด์ „ํŠธ์˜ ํ–‰๋™์ด ์ „์ฒด ์‹œ์Šคํ…œ์— ์–ผ๋งˆ๋‚˜ ์ด์ต์„ ๊ฐ€์ ธ์™”๋Š”๊ฐ€โ€๋ฅผ ๋ณด์ƒ์œผ๋กœ ์‚ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ, ์—์ด์ „ํŠธ i์˜ ์ฐจ์ด ๋ณด์ƒ D_i๋Š” ๋ณดํ†ต ์ „์ฒด ์‹œ์Šคํ…œ ๋ณด์ƒ์—์„œ i์˜ ๊ณตํ—Œ์„ ๋บ€ ๋‚˜๋จธ์ง€ ๋ถ€๋ถ„์„ ๋บ€ ๊ฐ’์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ์ „์—ญ ๋ณด์ƒ G(z)๊ฐ€ ์ƒํƒœ z์—์„œ ์ฃผ์–ด์ง„๋‹ค๋ฉด, i ์—์ด์ „ํŠธ๋ฅผ ์ œ์™ธํ•œ ๊ฒฝ์šฐ์˜ ๋ณด์ƒ G_{-i}(z)๋ฅผ ๊ฐ€์ •ํ•˜๊ณ  D_i = G(z) - G_{-i}(z)๋กœ ๋ณด์ƒ์„ ๊ตฌ์„ฑํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์—์ด์ „ํŠธ i๋Š” ์ž๊ธฐ ํ–‰๋™์ด ์‹œ์Šคํ…œ ์ „์ฒด ์„ฑ๋Šฅ์— ๋ฏธ์นœ ์ˆœ ํšจ๊ณผ๋ฅผ ๋ณด์ƒ์œผ๋กœ ๋ฐ›๊ฒŒ ๋˜์–ด, ๊ฐœ์ธ ์ตœ์ ํ™”๊ฐ€ ๊ณง ์ „์ฒด ์ตœ์ ํ™”๋กœ ์ด์–ด์ง€๋„๋ก ์œ ๋„๋ฉ๋‹ˆ๋‹ค.

๋‹จ์ผ ์—์ด์ „ํŠธ์˜ ๊ฒฝ์šฐ์—๋„ ๋น„์Šทํ•œ ๊ฐœ๋…์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋•Œ๋Š” ํŠน์ • ๊ธฐ์ค€ ์ƒํƒœ(๋˜๋Š” ์ด์ƒ์  ์ƒํƒœ)์™€ ํ˜„์žฌ ์ƒํƒœ์˜ ์ฐจ์ด๋ฅผ ๋ณด์ƒ์œผ๋กœ ์‚ผ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ r์ด ์›๋ž˜ ๋ณด์ƒ์ด๊ณ  \Phi(s)๊ฐ€ ํ˜„์žฌ ์ƒํƒœ์™€ ๊ธฐ์ค€ ์ƒํƒœ์˜ ์ฐจ์ด๋ฅผ ์žฌ๋Š” ํ•จ์ˆ˜๋ผ๋ฉด, ์ˆ˜์ •๋œ ๋ณด์ƒ์„ r' = r + \gamma (\Phi(s_{\text{ref}}) - \Phi(s)) ํ˜•ํƒœ๋กœ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์—์ด์ „ํŠธ๋Š” ๊ธฐ์ค€ ์ƒํƒœ(๋ชฉํ‘œ ์ƒํƒœ)์— ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์ถ”๊ฐ€ ๋ณด์ƒ์„ ๋ฐ›์œผ๋ฏ€๋กœ ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ์˜ ์ฐจ์ด ํ•จ์ˆ˜ \Phi๋Š” ์ž˜ ์„ ํƒํ•ด์•ผ ํšจ๊ณผ๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋„ˆ๋ฌด ๋‹จ์ˆœํ•˜๋ฉด ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์ฃผ์ง€ ๋ชปํ•˜๊ณ  ๋„ˆ๋ฌด ๋ณต์žกํ•˜๋ฉด ๋ณด์ƒ ํ•จ์ •์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฐจ์ด ๋ณด์ƒ์˜ ํฐ ์žฅ์ ์€ ๊ฐœ๋ณ„ ์—์ด์ „ํŠธ์˜ ๊ด€์ ์—์„œ โ€œ๋ฌด์—‡์„ ํ•˜๋ฉด ์‹œ์Šคํ…œ์— ์ด๋“์ด ๋˜๋Š”๊ฐ€โ€๋ฅผ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•ด์ค€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ตํ†ต ๊ฒฝ๋กœ ์„ ํƒ ๋ฌธ์ œ์—์„œ ๊ฐœ๋ณ„ ์šด์ „์ž์—๊ฒŒ ์ „์ฒด ๊ตํ†ต ํ๋ฆ„์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ณด์ƒ์„ ์ฃผ๋ฉด, ๊ฐ ์šด์ „์ž๋Š” ์ด๊ธฐ์ ์œผ๋กœ ํ–‰๋™ํ•˜๋Š” ๋Œ€์‹  ๊ตํ†ต ์ฒด์ฆ ์™„ํ™”์— ๊ธฐ์—ฌํ•˜๋Š” ์ชฝ์„ ์„ ํƒํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์—ฐ๊ตฌ์—์„œ IQ-learning (๊ฐœ์ธ ๋ณด์ƒ๋งŒ ์‚ฌ์šฉํ•˜๋Š” Q-learning)๊ณผ DQ-learning (์ฐจ์ด ๋ณด์ƒ ์‚ฌ์šฉํ•˜๋Š” Q-learning)์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, DQ-learning์€ ์ „์ฒด ์—ฌํ–‰์‹œ๊ฐ„์„ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œ์ผœ ํ˜ผ์žก์„ ์™„ํ™”ํ–ˆ๊ณ , ์ „ํ†ต์ ์ธ ๊ตํ†ตํ• ๋‹น ๊ธฐ๋ฒ•๋ณด๋‹ค๋„ ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ํ†ต๊ณ„์ ์œผ๋กœ๋„ ์œ ์˜๋ฏธํ•œ ๊ฐœ์„ ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ์ฐจ์ด ๋ณด์ƒ์ด ์‚ฌํšŒ์  ์ตœ์ ํ•ด์— ๊ฐ€๊นŒ์šด ๊ฒฐ๊ณผ๋ฅผ ๋‚ณ์•˜์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด ๊ฒฐ๊ณผ๋Š” ํ•ด๋‹น ๊ตํ†ต ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ชจ๋ธ์— ํ•œ์ •๋œ ๊ฒƒ์ด์–ด์„œ, ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—๋„ ์ผ๋ฐ˜ํ™”๋ ์ง€๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์šด์ „์ž ๊ฐ™์€ ์ธ๊ฐ„์ด ๋ณด์ƒ์„ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๋“ฑ ๋ช‡ ๊ฐ€์ง€ ์ด์ƒํ™”๋œ ์กฐ๊ฑด์ด ์žˆ์–ด ํ˜„์‹ค์  ํ•œ๊ณ„๋„ ์žˆ์ง€๋งŒ, ์ฐจ์ด ๋ณด์ƒ์˜ ๊ฐœ๋… ์ž์ฒด๋Š” ์—ฌ๋Ÿฌ ํ˜‘๋ ฅ์  MAS ๋ฌธ์ œ์— ์ ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ƒํ™ฉ์—์„œ์˜ ์ฐจ์ด ๋ณด์ƒ ์ •์˜๋Š” ์•ž์˜ ์‹์ฒ˜๋Ÿผ counterfactual ๊ฐœ๋…์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋„ˆ ์—†์—ˆ์œผ๋ฉด ์–ด๋• ์„์ง€โ€๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ทธ ์ฐจ์ด๋ฅผ ์ฃผ๋Š” ๊ฒƒ์ด์ฃ . ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๋ ค๋ฉด ๋ชจ๋“  ์—์ด์ „ํŠธ์˜ ๊ณต๋™ ํ–‰๋™์— ๋Œ€ํ•œ ์ „์—ญ ๋ณด์ƒ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ณ , ์—์ด์ „ํŠธ i๋ฅผ ์ œ์™ธํ•œ ๊ฐ€์ƒ์˜ ์ƒํ™ฉ G_{-i}๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ณดํ†ต ์ด G_{-i}๋Š” i์˜ ํ–‰๋™๋งŒ ๋‹ค๋ฅธ ๋™์ผํ•œ ์ƒํ™ฉ์ด๊ฑฐ๋‚˜, i๊ฐ€ ๊ธฐ์—ฌํ•˜์ง€ ์•Š์€ ์ƒํƒœ๋กœ ๊ฐ€์ •ํ•œ ๋ชจ๋ธ ๋“ฑ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ counterfactual ๋ณด์ƒ์€ ์—์ด์ „ํŠธ ๊ฐ„ ์‹ ํ˜ธ ์ƒํ˜ธ์ž‘์šฉ์„ ์ œ๊ฑฐํ•ด์ฃผ๋ฏ€๋กœ, ๋ถˆํ•„์š”ํ•œ ํ–‰๋™ ์‹ ํ˜ธ์˜ ์žก์Œ์„ ์ค„์ด๊ณ  ํฌ๊ณ  ์ž‘์€ ํ˜‘๋ ฅ ๋ฌธ์ œ ๋ชจ๋‘ ์ž˜ ํ•ด๊ฒฐํ•˜๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.

์ฐจ์ด ๋ณด์ƒ์˜ ๋‹จ์ ์€ ์ „์—ญ ์‹œ์Šคํ…œ ๋ณด์ƒ์— ๋Œ€ํ•œ ๊ฐ€์ •์ด ํ•„์š”ํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ ์ „์ฒด์˜ ์ƒํƒœ๋‚˜ ๋ณด์ƒ์„ ์—์ด์ „ํŠธ๊ฐ€ ์•Œ ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋ฏ€๋กœ, ์™„์ „ ์ •๋ณด ๋˜๋Š” ์ค‘์•™์ง‘์ค‘์‹ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ์Šคํ…œ ํšจ์šฉ ํ•จ์ˆ˜๋ฅผ ์ˆ˜์‹์œผ๋กœ ์•Œ๊ณ  ์žˆ์–ด์•ผ ํ•˜๊ณ , ์—์ด์ „ํŠธ ์ œ์™ธ ์ƒํ™ฉ G_{-i}๋„ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ„์‚ฐํ•˜๊ฑฐ๋‚˜ ๊ทผ์‚ฌํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์ด ์ˆ˜์‹์ด ๋ณต์žกํ•  ๊ฒฝ์šฐ ์ ์šฉ์ด ์–ด๋ ค์›Œ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ณด์ƒ(PBRS)์€ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ค๊ณ„ํ•ด์•ผ ํ•˜์ง€๋งŒ ๊ฐœ๋ณ„ ์—์ด์ „ํŠธ ์ˆ˜์ค€์—์„œ ์ ์šฉํ•˜๊ธฐ๋Š” ์‰ฝ๋‹ค๋Š” ์žฅ๋‹จ์  ๋น„๊ต๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ตญ ์ฐจ์ด ๋ณด์ƒ์€ ํ˜‘๋ ฅ์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ RL์—์„œ ์œ ์šฉํ•œ ๋„๊ตฌ์ด๋ฉฐ, ์‹œ์Šคํ…œ ์ „์ฒด ์ตœ์ ํ™”๋ฅผ ์ด‰์ง„ํ•œ๋‹ค๋Š” ์ ์—์„œ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์‹ค์ œ ์—ฐ๊ตฌ์—์„œ๋Š” ์ฐจ์ด ๋ณด์ƒ๊ณผ ์ž ์žฌ ๋ณด์ƒ์„ ๋™์‹œ์— ํ™œ์šฉํ•˜๊ฑฐ๋‚˜ ๋น„๊ตํ•˜์—ฌ, ๋‹ค์ค‘ ๋ชฉํ‘œ ํ™˜๊ฒฝ์—์„œ Pareto ์ตœ์ ํ•ด๋กœ ์œ ๋„ํ•˜๋Š” ์‹คํ—˜์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฐจ์ด ๋ณด์ƒ๊ณผ ์ž ์žฌ ๋ณด์ƒ ๋ชจ๋‘ Paretoํ•ด ๋‹ฌ์„ฑ์—๋Š” ํšจ๊ณผ์ ์ด์—ˆ์ง€๋งŒ ๊ฐ๊ฐ ์š”๊ตฌ์กฐ๊ฑด์ด ๋‹ฌ๋ž์Šต๋‹ˆ๋‹ค. ์ฐจ์ด ๋ณด์ƒ์€ ์‹œ์Šคํ…œ ์ „์—ญ ์ •๋ณด๋ฅผ ์•Œ์•„์•ผ ํ•˜๊ณ , ์ž ์žฌ ๋ณด์ƒ์€ ์ˆ˜์ž‘์—… ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์ œ์•ฝ์ด ์žˆ์œผ๋ฏ€๋กœ, ๋ฌธ์ œ ์ƒํ™ฉ์— ๋”ฐ๋ผ ์ ํ•ฉํ•œ ๊ธฐ๋ฒ•์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค๊ณ  ๊ฒฐ๋ก ๋‚ด๋ ธ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์‹œ์Šคํ…œ ๋ชจ๋ธ์„ ์ž˜ ์•Œ๊ณ  ํ†ต์‹ ์ด ์›ํ™œํ•˜๋ฉด ์ฐจ์ด ๋ณด์ƒ์ด ์œ ๋ฆฌํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ์ž ์žฌ ๋ณด์ƒ์„ ์“ฐ๋˜ ์ ์ ˆํ•œ ํœด๋ฆฌ์Šคํ‹ฑ์„ ๋งˆ๋ จํ•˜๋Š” ์ชฝ์ด ๋‚˜์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ง€์‹ ๊ธฐ๋ฐ˜ ๋‹ค๋ชฉ์  ๋‹ค์ค‘์—์ด์ „ํŠธ RL (MOMARL)

MOMARL (Knowledge-Based Multi-Objective Multi-Agent RL)์€ ๋ง ๊ทธ๋Œ€๋กœ ๋‹ค์ค‘ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง„ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ™˜๊ฒฝ์—์„œ์˜ Reward Shaping ๊ธฐ๋ฒ•๋“ค์„ ๋น„๊ตํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ํ•˜๋‚˜์˜ ๋ฒค์น˜๋งˆํฌ ๋ฌธ์ œ(Multi-Objective Beach Problem Domain)์™€ ์ „๋ ฅ๋ง ๊ฒฝ์ œ ๋ฐฐ์น˜ ๋ฌธ์ œ์— ์ฐจ์ด ๋ณด์ƒ(D)๊ณผ ์ž ์žฌ ๋ณด์ƒ(PBRS)์„ ์ ์šฉํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ์—์ด์ „ํŠธ๋ฅผ Pareto ์ตœ์  ์˜์—ญ์œผ๋กœ ์•ˆ๋‚ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ฃผ์—ˆ์ง€๋งŒ, ๊ฐ์ž์˜ ํ•œ๊ณ„๋„ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค.

์ฐจ์ด ๋ณด์ƒ(D)์€ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด ์ „์—ญ ์ง€์‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ ์ „์ฒด์˜ ํšจ์šฉ ํ•จ์ˆ˜๋ฅผ ์•Œ์•„์•ผ ํ•˜๊ณ  ๊ฐ ์—์ด์ „ํŠธ์˜ ์˜ํ–ฅ๋ ฅ์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชฉํ‘œ ํ•จ์ˆ˜(ํ‰๊ฐ€ ํ•จ์ˆ˜)๊ฐ€ ์ˆ˜ํ•™์  ํ˜•ํƒœ๋กœ ๋ช…ํ™•ํžˆ ์ฃผ์–ด์ ธ์•ผ ์œ ํšจํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์‹œ์Šคํ…œ ์ง€์‹์ด ์ œํ•œ์ ์ด๊ฑฐ๋‚˜ ๊ณ„์‚ฐ ์ž์›์ด ๋ถ€์กฑํ•˜๋ฉด ์ฐจ์ด ๋ณด์ƒ์„ ์“ฐ๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

์ž ์žฌ ๋ณด์ƒ(PBRS)์€ ์ž ์žฌ ํ•จ์ˆ˜ ์„ค๊ณ„์˜ ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ ์ „๋ฌธ ์ง€์‹์œผ๋กœ ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ๋‹ค๋ชฉ์  ๋ฌธ์ œ์—์„œ๋Š” ์–ด๋–ค ์ž ์žฌ ํ•จ์ˆ˜๋ฅผ ์จ์•ผ ์—ฌ๋Ÿฌ ๋ชฉํ‘œ๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ๋‹ฌ์„ฑํ• ์ง€ ํŒ๋‹จํ•˜๊ธฐ๊ฐ€ ๊นŒ๋‹ค๋กญ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž˜๋ชป ์„ค๊ณ„๋œ ์ž ์žฌ ํ•จ์ˆ˜๋Š” ํŠน์ • ๋ชฉํ‘œ๋งŒ ์น˜์ค‘ํ•˜๊ฒŒ ํ•˜๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๋ฐฉํ•ด๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ PBRS๋Š” ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ์ด ๋งŽ์ด ๋“œ๋Š” ์ˆ˜์ž‘์—… ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ๋ชจ๋ฒ”์ ์ธ ์„ค๊ณ„๋ฅผ ๋ชป ํ•˜๋ฉด ํšจ๊ณผ๊ฐ€ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ฐจ์ด ๋ณด์ƒ D๊ฐ€ ์ž ์žฌ ๋ณด์ƒ PBRS๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ๊ฒฝํ–ฅ์„ ๋ณด์ธ๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‹œ์Šคํ…œ ์ „์ฒด๋ฅผ ์•„์šฐ๋ฅด๋Š” ์ง€์‹์ด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ  ํ†ต์‹  ๋Œ€์—ญํญ ๋ฌธ์ œ๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ, ์ฐจ์ด ๋ณด์ƒ์ด ๋” ์ง์ ‘์ ์œผ๋กœ ๋ชฉํ‘œ ๋‹ฌ์„ฑ์„ ์ด๋Œ์–ด์ฃผ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์—์ด์ „ํŠธ ๊ฐ„ ํ†ต์‹ ์ด ์ œํ•œ๋˜๊ฑฐ๋‚˜, ์ค‘์•™ ์ง‘์ค‘ ํ‰๊ฐ€๊ฐ€ ์–ด๋ ค์šด ๊ฒฝ์šฐ์—๋Š” ์ฐจ์ด ๋ณด์ƒ์„ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์šฐ๋ฏ€๋กœ, ์ด๋Ÿด ๋• ์ž ์žฌ ๋ณด์ƒ์ด ํ˜„์‹ค์ ์ธ ๋Œ€์•ˆ์ด ๋ฉ๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ์˜ ๊ฒฐ๋ก ์€ ๊ฒฐ๊ตญ โ€œ์ฃผ์–ด์ง„ ๋‹ค๋ชฉ์  ๋‹ค์ค‘์—์ด์ „ํŠธ ๋ฌธ์ œ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ Reward Shaping ๊ธฐ๋ฒ•์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹คโ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ์ง€์‹ ์ˆ˜์ค€, ์—์ด์ „ํŠธ ๊ฐ„ ์ •๋ณด ๊ณต์œ  ๊ฐ€๋Šฅ์„ฑ, ๊ทธ๋ฆฌ๊ณ  ๋””์ž์ด๋„ˆ์˜ ์ „๋ฌธ์„ฑ ๋“ฑ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ณ ๋ คํ•ด, ์ฐจ์ด ๋ณด์ƒ์ด๋‚˜ ์ž ์žฌ ๋ณด์ƒ ์ค‘ ํ•˜๋‚˜ ๋˜๋Š” ๋‘˜ ๋‹ค๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด๋“ค์ด ์ž˜ ๋™์ž‘ํ•˜๋Š”์ง€ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ(MOBPD ๋“ฑ)๋ฅผ ์ œ์‹œํ•˜์—ฌ, ํ–ฅํ›„ ์—ฐ๊ตฌ๋“ค์ด ์‰ฝ๊ฒŒ ๋”ฐ๋ผ ์‹คํ—˜ํ•˜๊ณ  ๊ฐœ์„ ์ ์„ ๋ชจ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ์—์„œ์˜ ๋ณด์ƒ ์„ค๊ณ„๋Š” ๋‹จ์ผ ์—์ด์ „ํŠธ๋ณด๋‹ค ๋ณต์žกํ•˜์ง€๋งŒ, ์ ์ ˆํ•œ ์ ‘๊ทผ๋ฒ•์„ ํ™œ์šฉํ•˜๋ฉด ๊ฐœ์ธ ์ด์ต๊ณผ ์ „์ฒด ์ด์ต์„ ์กฐํ™”์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (Plan-Based Reward Shaping)

๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ณ„ํš(planning) ๊ธฐ๋ฒ•๊ณผ ๊ฐ•ํ™”ํ•™์Šต์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณด์ƒ์„ ํ˜•์„ฑํ•˜๋Š” ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ์ด ์•„์ด๋””์–ด๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ ํ–‰๋™์„ ํ•˜๊ธฐ ์ „์— โ€œ๊ฐ€์ƒ์˜ ์‹œ๋‚˜๋ฆฌ์˜ค(what-if)โ€๋ฅผ ์ •์‹ ์ ์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•ด๋ณด๊ณ , ๊ฑฐ๊ธฐ์„œ ์–ป์€ ํ†ต์ฐฐ์„ ๋ณด์ƒ์— ๋ฐ˜์˜ํ•˜๋Š” ๊ฒƒ๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๊ณ„ํš ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ œ์‹œํ•˜๋Š” ์ตœ์  ๊ฒฝ๋กœ ์ •๋ณด๋ฅผ ์ด์šฉํ•ด RL์˜ ํƒ์ƒ‰์„ ๋•๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•œ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์€ STRIPS์™€ ๊ฐ™์€ ์ „ํ†ต์  AI ๊ณ„ํš ํ‘œํ˜„์„ ์ด์šฉํ•œ Reward Shaping์ž…๋‹ˆ๋‹ค. STRIPS๋Š” ์ƒํƒœ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ „์ œ์กฐ๊ฑด๊ณผ ํšจ๊ณผ๋ฅผ ์ •์˜ํ•˜๋Š” ๋…ผ๋ฆฌ์  ํ‹€์ธ๋ฐ, ์ด๋ฅผ ์‚ฌ์šฉํ•ด ๋ชฉํ‘œ ๋‹ฌ์„ฑ๊นŒ์ง€ ํ•„์š”ํ•œ ํ–‰๋™ ์ˆœ์„œ๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ RL์˜ ๋ณด์ƒ์œผ๋กœ ์ด ๊ณ„ํš ๊ฒฝ๋กœ์— ๋”ฐ๋ฅธ ํ–‰๋™์—๋Š” ์ถ”๊ฐ€ ๋ณด์ƒ์„ ์ฃผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ผ๋ฐ˜ MDP ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•  ๋•Œ๋Š” ์ „์ฒด ์ƒํƒœ๊ณต๊ฐ„์„ ํƒ์ƒ‰ํ•ด์•ผ ํ•˜์ง€๋งŒ, STRIPS ๊ธฐ๋ฐ˜ shaping์„ ๋„์ž…ํ•˜๋ฉด ๊ณ„ํš๋œ ์ตœ์  ๊ฒฝ๋กœ ์ฃผ๋ณ€์œผ๋กœ๋งŒ ํƒ์ƒ‰์„ ์ง‘์ค‘ํ•˜๊ฒŒ ๋˜์–ด ํ•™์Šต์ด ํšจ์œจํ™”๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ์—ฐ๊ตฌ์—์„œ, STRIPS ๊ณ„ํš์—์„œ ์–ป์€ ๊ฒฝ๋กœ์˜ ์ƒํƒœ๋“ค์„ ๋”ฐ๋ผ๊ฐ€๋ฉด ๋ณด์ƒ์„ ์ฃผ๊ณ , ๊ทธ ์™ธ์—๋Š” ์ฃผ์ง€ ์•Š๋Š” shaping์„ ํ–ˆ๋”๋‹ˆ ์ •์ฑ…์˜ ์ˆ˜๋ ด ์†๋„๊ฐ€ ๋นจ๋ผ์ง€๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ๋„ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ณ„ํš ์ง€์‹์— ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด๋„, ์—์ด์ „ํŠธ๋Š” RL์„ ํ†ตํ•ด ์ด๋ฅผ ๋ณด์™„ํ•˜๋ฉฐ ์—ฌ์ „ํžˆ MDP ์ „์ฒด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” shaping๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ๊ณ„ํš ์ •๋ณด๊ฐ€ ์ฃผ๋Š” ๊ฐ€์ด๋“œ๊ฐ€ ์œ ์šฉํ•จ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ณ„ํš ๊ธฐ๋ฐ˜ shaping vs ์ถ”์ƒ MDP ๊ธฐ๋ฐ˜ shaping์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ถ”์ƒ MDP ๋ฐฉ๋ฒ•์€ ๋ฌธ์ œ๋ฅผ ์ƒ์œ„ ๋ ˆ๋ฒจ MDP (๊ฐ„์†Œํ™”๋œ ๋ชจ๋ธ)๋กœ ํ’€๊ณ , ๊ทธ ๊ฐ€์น˜ํ•จ์ˆ˜๋ฅผ ์‹ค์ œ ํ•™์Šต์— shaping์œผ๋กœ ์“ฐ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ณ„ํš ๊ธฐ๋ฐ˜์€ ์œ„์™€ ๊ฐ™์ด ๋ช…์‹œ์  ๊ณ„ํš์˜ ๊ฒฐ๊ณผ๋ฅผ ์“ฐ๊ณ ์š”. ๋น„๊ต ๊ฒฐ๊ณผ, ๋Œ€๊ทœ๋ชจ ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ์„ธ๋ถ€ ๋‹จ๊ณ„๊นŒ์ง€ ์•Œ๋ ค์ฃผ๋Š” ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ณด์ƒ์ด ๋” ํšจ์œจ์ ์ด์–ด์„œ ์ด ๋ณด์ƒ๊ณผ ์ˆ˜๋ ด ์†๋„ ๋ชจ๋‘ ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋‹ค์ค‘ ์—์ด์ „ํŠธ๋‚˜ ์ถฉ๋Œํ•˜๋Š” ๋ชฉํ‘œ๊ฐ€ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ๋Š”, ์ถ”์ƒ MDP ์ ‘๊ทผ์ด ํ˜‘์กฐ ๋ฌธ์ œ๋ฅผ ๋” ์ž˜ ๋‹ค๋ฃจ์–ด ์„ฑ๋Šฅ์ด ์ข‹์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์—ฌ๋Ÿฌ ์—์ด์ „ํŠธ๊ฐ€ ๊ฐ์ž ๊ณ„ํš์„ ๋”ฐ๋ฅด๋ฉด ์ถฉ๋Œํ•  ๋•Œ, ์ถ”์ƒ MDP๋Š” ์ƒ์œ„ ์ˆ˜์ค€์—์„œ ์กฐ์œจ๋œ ๋ชฉํ‘œ๋ฅผ ์ฃผ๋ฏ€๋กœ ์ถฉ๋Œ์„ ํ”ผํ•˜๊ฒŒ ํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š”, ํ™˜๊ฒฝ ํŠน์„ฑ์— ๋”ฐ๋ผ ์–ด๋–ค shaping์ด ์ ํ•ฉํ•œ์ง€ ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ณด์ƒ์€ ๊ฐ ๋‹จ๊ณ„์— ์„ธ๋ฐ€ํ•œ ์ง€๋„๋ฅผ ์ฃผ๊ธฐ ๋•Œ๋ฌธ์—, ๋‹จ์ผ ์—์ด์ „ํŠธ์˜ ๋ณต์žกํ•œ ๊ณผ์ œ์— ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ์—์„œ๋Š” ๊ณ„ํš๋“ค์ด ์ƒ์ถฉํ•  ์ˆ˜ ์žˆ๊ณ , ์ด๋Ÿฌํ•œ ์กฐ์œจ์€ ์ถ”์ƒ์ ์ธ ์ƒ์œ„ ๋ชฉํ‘œ๋ฅผ ํ†ตํ•ด ํ•˜๋Š” ํŽธ์ด ๋‚˜์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ AI์˜ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ RL์„ ๊ฐ€์ด๋“œํ•œ๋‹ค๋Š” ์ ์—์„œ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋„ ๋กœ๋ณดํ‹ฑ์Šค ๋“ฑ์—์„œ, ๋จผ์ € ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋‚˜ ํ”Œ๋ž˜๋„ˆ๋กœ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์ง  ํ›„ RL์ด ๋ฏธ์„ธ ์กฐ์ •์„ ํ•˜๋Š” ๋ฐฉ์‹์ด ๋งŽ์ด ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ ๋ณด์ƒ ํ•จ์ˆ˜๋งŒ์œผ๋กœ ์—์ด์ „ํŠธ๋ฅผ ๋Œ๊ณ  ๊ฐ€๊ธฐ ํž˜๋“  ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ ์ธ๊ฐ„ ์ง€์‹์„ ํšจ๊ณผ์ ์œผ๋กœ ์ฃผ์ž…ํ•˜๋Š” ์ˆ˜๋‹จ์ด ๋ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ํ”Œ๋ž˜๋„ˆ๊ฐ€ ํ•„์š”ํ•˜๊ณ , ๊ณ„ํš ๊ฒฐ๊ณผ๊ฐ€ ํ•ญ์ƒ ์ตœ์ ์ด ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค๋Š” ํ•œ๊ณ„๋Š” ์žˆ์ง€๋งŒ, RL๊ณผ planning์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ๋Š” ์•ž์œผ๋กœ๋„ ์œ ๋งํ•œ ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค.

์‹ ๋… ๊ธฐ๋ฐ˜ Reward Shaping (Belief Reward Shaping, BRS)

์‹ ๋… ๊ธฐ๋ฐ˜ Reward Shaping(BRS)์€ ํ™˜๊ฒฝ ๋ณด์ƒ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹(prior)์„ ํ™•๋ฅ ์  ์‹ ๋…(belief) ํ˜•ํƒœ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋ณด์ƒ์„ ํ˜•์„ฑํ•˜๋Š” ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์ธ RL์€ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ๋งŒ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜์ง€๋งŒ, BRS๋Š” ์• ์ดˆ์— ์—์ด์ „ํŠธ ๋‚ด๋ถ€์— ๋ณด์ƒ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฐ€์„ค์„ ๋„ฃ์–ด๋‘ก๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ์ค‘์— ์ด ๊ฐ€์„ค(๋‚ด๋ถ€ ๋น„ํ‰๊ฐ€, internal critic)์ด ํ™˜๊ฒฝ์˜ ์‹ค์ œ ๊ด€์ธก๊ณผ ๋น„๊ต๋˜๋ฉด์„œ ์—…๋ฐ์ดํŠธ๋˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ† ๋Œ€๋กœ ์—์ด์ „ํŠธ์—๊ฒŒ ํ˜•์„ฑ ๋ณด์ƒ(shaping reward)์„ ์ถ”๊ฐ€๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•ด, ์—์ด์ „ํŠธ๋Š” โ€œ๋‚ด๊ฐ€ ์ƒ๊ฐํ•œ ๋ณด์ƒ ๊ตฌ์กฐโ€๋ฅผ ํ•˜๋‚˜ ๊ฐ€์ง€๊ณ  ์žˆ๊ณ , ์‹ค์ œ ๋ฐ›๋Š” ๋ณด์ƒ๊ณผ์˜ ์ฐจ์ด๋ฅผ ๋ณด๋ฉฐ ๊ทธ ์ƒ๊ฐ์„ ์กฐ์ •ํ•ด๋‚˜๊ฐ‘๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ–‰๋™ํ•  ๋•Œ๋Š” ์™ธ๋ถ€ ํ™˜๊ฒฝ ๋ณด์ƒ + ๋‚ด ์‹ ๋…์ด ์ค€ ๋ณด์ƒ์„ ํ•จ๊ป˜ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์€ ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ณด์ƒ๊ณผ ๋‹ฌ๋ฆฌ ์ƒํƒœ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ–‰๋™๊นŒ์ง€ ์‹ ๋… ๋ณด์ƒ์˜ ํ•จ์ˆ˜๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž ์žฌ ๋ณด์ƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ƒํƒœ์— ๋Œ€ํ•ด์„œ๋งŒ ์ •์˜๋˜์ง€๋งŒ, BRS๋Š” ์ƒํƒœ-ํ–‰๋™ ์Œ์— ๋Œ€ํ•ด ์‹ ๋…์— ๊ธฐ๋ฐ˜ํ•œ shaping ๋ณด์ƒ์„ ์ค๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์–ด๋–ค ํ–‰๋™์€ ์œ„ํ—˜ํ•  ๊ฒƒ์ด๋ผ๊ณ  ์‚ฌ์ „์— ๋ฏฟ๊ณ  ์žˆ๋‹ค๋ฉด, ๊ทธ ํ–‰๋™์— ํŽ˜๋„ํ‹ฐ๋ฅผ ์ฃผ๋Š” ์‹์ž…๋‹ˆ๋‹ค (์ด ํŽ˜๋„ํ‹ฐ๋Š” ๊ฒฝํ—˜์ด ์Œ“์ด๋ฉฐ ์—…๋ฐ์ดํŠธ๋  ์ˆ˜ ์žˆ์Œ).

BRS์—์„œ ์‹ ๋…์€ ๋ฒ ์ด์ง€์•ˆ ๋ฐฉ๋ฒ•์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ๋ณด์ƒ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์‚ฌ์ „ ๋ถ„ํฌ๋ฅผ ๋‘๊ณ , ํ™˜๊ฒฝ ๊ฒฝํ—˜์ด ์Œ“์ผ์ˆ˜๋ก posterior๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€๋ น ์ดˆ๊ธฐ์—” โ€œ์ด ํ–‰๋™์€ ์•„๋งˆ -5 ๋ณด์ƒ์ด ๋  ๊ฒƒ์ด๋‹คโ€๋ผ๊ณ  ๋ฏฟ์—ˆ๋‹ค๊ฐ€, ์—ฌ๋Ÿฌ ๋ฒˆ ํ•ด๋ณด๋‹ˆ -1 ์ •๋„๋งŒ ๋ฐ›๋Š”๋‹ค๋ฉด ๋‚ด๋ถ€ ๋ชจ๋ธ์„ ๊ทธ์— ๋งž๊ฒŒ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ์—์ด์ „ํŠธ ๋‚ด๋ถ€์˜ ๋น„ํ‰๊ฐ€(critic)๊ฐ€ ์ง€์†์ ์œผ๋กœ ์ž์‹ ์˜ ๋ณด์ƒ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•˜๊ณ , ์—์ด์ „ํŠธ๋Š” ๊ทธ ๋น„ํ‰๊ฐ€์˜ ์ถœ๋ ฅ์„ ์ถ”๊ฐ€ ๋ณด์ƒ์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

BRS์˜ ํšจ๊ณผ๋Š” ์ •ํ™•ํ•œ ์‚ฌ์ „ ์ง€์‹์ด ์žˆ์„์ˆ˜๋ก ๊ทน๋Œ€ํ™”๋ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ๋ณต์žกํ•œ prior์ผ์ˆ˜๋ก ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹น์—ฐํžˆ, ์—์ด์ „ํŠธ๊ฐ€ ๋ฏธ๋ฆฌ ๋งŽ์€ ๊ฒƒ์„ ์•Œ๊ณ  ์‹œ์ž‘ํ•˜๋ฉด ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ์ค„์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด๋ก ์ ์œผ๋กœ BRS๋ฅผ Q-๋Ÿฌ๋‹๊ณผ ๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ ์ถ”๋ก ํ•œ Q๊ฐ’์ด ์ผ๊ด€์„ฑ(consistency)์„ ๊ฐ–๋Š”๋‹ค๋Š” ๋ณด์žฅ๋„ ์ œ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ, ์ด ๋ณด์žฅ์€ ์ง„์งœ ํ™˜๊ฒฝ์˜ ๋ณด์ƒ ๋ถ„ํฌ๊ฐ€ ์—์ด์ „ํŠธ์˜ ๊ฐ€์ • ๋ชจ๋ธ ์•ˆ์— ์žˆ์„ ๋•Œ๋งŒ ์„ฑ๋ฆฝํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ˜„์‹ค์ด ์—์ด์ „ํŠธ์˜ ๋ชจ๋“  ๊ฐ€์ •์„ ๋ฒ—์–ด๋‚œ ํ˜•ํƒœ๋ผ๋ฉด, ์ž˜๋ชป๋œ ์‹ ๋…์œผ๋กœ ์ธํ•ด ์˜คํžˆ๋ ค ํ•™์Šต์ด ๊ผฌ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

BRS๋Š” โ€œํ™˜๊ฒฝ ์™ธ๋ถ€์˜ ์ง€์‹โ€์„ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์—์„œ ํฅ๋ฏธ๋กญ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ฐœ์ž๊ฐ€ ๋ณด์ƒ ๊ตฌ์กฐ์— ๋Œ€ํ•ด ์•Œ๊ณ  ์žˆ๋Š” ํ†ต๊ณ„๋‚˜ ์ถ”์„ธ๋ฅผ priors๋กœ ๋…น์—ฌ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฒŒ์ž„ ์„ค๊ณ„๋ฅผ ํ•˜๋Š” ๊ฒฝ์šฐ, ์–ด๋–ค ํ–‰๋™์€ ํ‰๊ท ์ ์œผ๋กœ ๋‚˜์˜๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ๊ทธ๊ฑธ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ์‹œ๊ฐ„์„ ์ค„์ผ ์ˆ˜ ์žˆ์ฃ . BRS๋Š” ๋˜ ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ ค ํ–ˆ๋Š”๋ฐ, ์ž ์žฌ \Phi(s)๋งŒ์œผ๋กœ๋Š” ํ‘œํ˜„ ๋ชป ํ•˜๋Š” ์š”์†Œ (ํ–‰๋™์— ๋”ฐ๋ฅธ ๋ณด์ƒ ์ฐจ์ด ๋“ฑ)๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, state๋ฟ ์•„๋‹ˆ๋ผ action์—๋„ ์˜์กดํ•˜๋Š” shaping์ด ๊ฐ€๋Šฅํ•ด์ง„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

BRS์˜ ํ•œ๊ณ„๋Š” ๋ณต์žกํ•œ ์‚ฌ์ „ ๋ถ„ํฌ๋ฅผ ๋‹ค๋ค„์•ผ ํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋Š˜ ์ˆ˜ ์žˆ๊ณ , prior ์„ค์ •์ด ์ž˜๋ชป๋˜๋ฉด ์˜คํžˆ๋ ค ํŽธํ–ฅ์„ ์‹ฌ์–ด์ค„ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ BRS๋ฅผ ์‹ค์ œ ํฐ ํ™˜๊ฒฝ์— ์ ์šฉํ•œ ์˜ˆ์‹œ๋Š” ์•„์ง ๋งŽ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฐœ๋…์ ์œผ๋กœ, BRS๋Š” ๋‚ด๋ถ€ ๋ชจ๋ธ์„ ํ†ตํ•œ ๋ณด์ƒ ํ‰๊ฐ€๋ผ๋Š” ์ธก๋ฉด์—์„œ, ์ธ๊ฐ„์˜ ๊ฐ€์น˜ ํŒ๋‹จ์„ ๋ชจ๋ฐฉํ•˜๋ ค๋Š” ์‹œ๋„๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„๋„ ์–ด๋–ค ํ–‰๋™์ด ๋‚˜์  ๊ฒƒ์ด๋ผ๊ณ  ์‚ฌํšŒ์ /๋„๋•์  ์‹ ๋…์„ ๊ฐ€์ง€๊ณ  ํ”ผํ•˜๋“ฏ์ด, ์—์ด์ „ํŠธ๋„ ๋ฏธ๋ฆฌ ๋ฐฐ์šด ์‹ ๋…์œผ๋กœ ํƒ์ƒ‰์„ ๊ฐ€์ด๋“œ๋ฐ›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์€ ํ–ฅํ›„ ์ธ๊ฐ„ ์ง€์‹๊ณผ RL์˜ ํ†ตํ•ฉ์— ์žˆ์–ด ์ค‘์š”ํ•œ ์•„์ด๋””์–ด๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์ธต ์ตœ์ ํ™” ๊ธฐ๋ฐ˜ Reward Shaping (BiPaRS)

BiPaRS (bi-level optimization of parameterized reward shaping)๋Š” Reward Shaping์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ Reward Shaping์€ ์‚ฌ๋žŒ์ด ์ถ”๊ฐ€ ๋ณด์ƒ์˜ ํ˜•ํƒœ์™€ ์„ธ๊ธฐ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ BiPaRS๋Š” โ€œ์–ด๋–ค shaping ๋ณด์ƒ์ด ์ด๋กญ๊ณ  ์–ด๋–ค ๊ฒƒ์€ ํ•ด๋กœ์šด๊ฐ€โ€๋ฅผ ์Šค์Šค๋กœ ํ•™์Šตํ•˜์—ฌ, ์ข‹์€ shaping ์‹ ํ˜ธ๋งŒ ํ™œ์šฉํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, BiPaRS๋Š” ์ƒ์œ„ ๋‹จ๊ณ„์™€ ํ•˜์œ„ ๋‹จ๊ณ„์˜ 2๊ณ„์ธต ์ตœ์ ํ™”๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ•˜์œ„(level 2)์—์„œ๋Š” ์ฃผ์–ด์ง„ shaping ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ํฌํ•จํ•œ ํ™˜๊ฒฝ์—์„œ ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ƒ์œ„(level 1)์—์„œ๋Š” shaping ๋ณด์ƒ์˜ ๊ฐ€์ค‘์น˜ ํ•จ์ˆ˜ \omega_\theta(s,a)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฐ€์ค‘์น˜ ํ•จ์ˆ˜๋Š” ์ƒํƒœ-ํ–‰๋™๋ณ„๋กœ shaping ๋ณด์ƒ์„ ์–ผ๋งˆ๋‚˜ ๋ฐ˜์˜ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋ฉฐ, \theta๋ผ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ƒ์œ„ ๋‹จ๊ณ„๋Š” ๋ชฉํ‘œ๊ฐ€ ์—์ด์ „ํŠธ์˜ ์ง„์งœ ์„ฑ๋Šฅ(์›๋ž˜ ํ™˜๊ฒฝ์—์„œ์˜ ์„ฑ๊ณผ)์„ ๋†’์ด๋„๋ก \theta๋ฅผ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, ์ƒ์œ„ ๋‹จ๊ณ„๋Š” โ€œ์–ด๋–ค shaping์€ ์ด๋“์ด๋‹ˆ๊นŒ ๋” ์ฃผ๊ณ , ์–ด๋–ค ๊ฑด ํ•ด๋กœ์šฐ๋‹ˆ ๋นผ์žโ€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

BiPaRS์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ๋ฐฉ์ •์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: ์›๋ž˜ ๋ณด์ƒ R(s,a)์— shaping ๋ณด์ƒ F(s,a)๋ฅผ ํ•ฉ์นœ R'(s,a) = R(s,a) + \omega_\theta(s,a) F(s,a)๋ฅผ ์—์ด์ „ํŠธ์—๊ฒŒ ์ค๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ \omega_\theta(s,a)๋Š” [0,1] ๋ฒ”์œ„์˜ ๊ฐ€์ค‘์น˜ ํ•จ์ˆ˜๋กœ, \omega๊ฐ€ 0์ด๋ฉด ํ•ด๋‹น shaping์€ ๋ฌด์‹œ๋˜๊ณ  1์ด๋ฉด ์˜จ์ „ํžˆ ๋ฐ˜์˜๋ฉ๋‹ˆ๋‹ค. ์ƒ์œ„ ์ตœ์ ํ™”๋Š” \theta๋ฅผ ์กฐ์ •ํ•˜์—ฌ, ํ•˜์œ„ ๋‹จ๊ณ„์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์ด ์›๋ž˜ ํ™˜๊ฒฝ์—์„œ ๋ˆ„์  ๋ณด์ƒ์ด ์ตœ๋Œ€ํ™”๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ์ƒ์œ„ ๋‹จ๊ณ„์˜ ์†์‹ค์€ โ€œ์›๋ž˜ ๋ณด์ƒ์— ๋Œ€ํ•œ ์„ฑ๊ณผโ€์ด๊ณ , ํ•˜์œ„ ๋‹จ๊ณ„๋Š” โ€œshaped ๋ณด์ƒ์œผ๋กœ ์ •์ฑ… ํ•™์Šตโ€์ž…๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ BiPaRS๋Š” ์ธ๊ฐ„์ด ์ค€ shaping ๋ณด์ƒ ์ค‘ ์ •๋ง ๋„์›€ ๋˜๋Š” ๋ถ€๋ถ„๋งŒ ๋ฝ‘์•„์“ฐ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ–๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, Cartpole ๋“ฑ์˜ ๊ณ ์ „ ์ œ์–ด์™€ MuJoCo ์—ฐ์† ์ œ์–ด์—์„œ BiPaRS๋ฅผ ์ ์šฉํ•œ ๊ฒฝ์šฐ, ์ผ๋ฐ˜ shaping์„ ์‚ฌ์šฉํ•œ ๊ฒƒ๋ณด๋‹ค ์•ˆ์ •์ ์ด๊ณ  ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Cartpole์—์„œ๋Š” ๊ธˆ๋ฐฉ ์„ฑ๊ณตํ•˜๊ณ , HalfCheetah ๋“ฑ์—์„œ๋„ shaping ๋•์„ ๋ณด๋˜, ์ž˜๋ชป๋œ shaping ์‹ ํ˜ธ๋Š” ์–ต์ œํ•˜๋Š” ๋ชจ์Šต์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ MuJoCo ๋“ฑ์˜ ๋ณต์žกํ•œ ์˜์—ญ์—์„œ๋Š” ์•„์ง ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์— ๋ฏธ์น˜์ง„ ๋ชปํ•ด, BiPaRS๋„ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ์–ธ๊ธ‰๋ฉ๋‹ˆ๋‹ค.

BiPaRS์˜ ์˜์˜๋Š”, Reward Shaping์˜ ์ž๋™ํ™”๋œ ํŠœ๋‹์ด๋ผ๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” shaping ์‹ ํ˜ธ์˜ ์„ธ๊ธฐ๋‚˜ ํ˜•ํƒœ๋ฅผ ์ผ์ผ์ด ์‚ฌ๋žŒ์ด ์กฐ์ •ํ–ˆ์ง€๋งŒ, BiPaRS๋Š” ๊ทธ๊ฒƒ์„ ํ•™์Šตํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ์ตœ์ ํ™” ๋ฌธ์ œ๋กœ ๊ฒฉ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„์˜ ํŽธํ–ฅ์ด๋‚˜ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ์ค„์ด๊ณ , ์—์ด์ „ํŠธ ์Šค์Šค๋กœ ์ ํ•ฉํ•œ shaping ์ „๋žต์„ ๋ฐœ๊ฒฌํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด ์ ‘๊ทผ์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋‘ ๋ฐฐ๋กœ ๋“ค๊ณ (์ƒ์œ„ ์ตœ์ ํ™” ํฌํ•จ), ์•ˆ์ •์ ์ธ ์ˆ˜๋ ด์„ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ธฐ์ˆ ์  ์กฐ๊ฑด์ด ํ•„์š”ํ•˜์ง€๋งŒ, ์•ž์œผ๋กœ AutoRL์˜ ํ•œ ๋ถ„์•ผ๋กœ์„œ ์ฃผ๋ชฉํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ BiPaRS ๊ฐ™์€ ๋ฐฉ๋ฒ•์ด ๋ฐœ์ „ํ•˜๋ฉด, ์‚ฌ์šฉ์ž๋Š” shaping ๋ณด์ƒ ํ›„๋ณด๋“ค๋งŒ ์ •์˜ํ•ด์ฃผ๊ณ  ์—์ด์ „ํŠธ๊ฐ€ ์ตœ์  ์กฐํ•ฉ๊ณผ ์„ธ๊ธฐ๋ฅผ ์•Œ์•„์„œ ์„ค์ •ํ•˜๋Š” ์‹œ๋Œ€๊ฐ€ ์˜ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฉ”ํƒ€-๋ณด์ƒ ๋„คํŠธ์›Œํฌ (MRN)

MRN (Meta-Reward-Net)์€ ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ์ œํ•œ์ ์œผ๋กœ ์ด์šฉํ•˜์—ฌ ๋ณด์ƒ ํ•จ์ˆ˜์™€ ์ •์ฑ…์„ ํ•จ๊ป˜ ํ•™์Šตํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, BiPaRS์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ด์ธต ์ตœ์ ํ™” ๊ฐœ๋…์„ ํ™œ์šฉํ•˜์ง€๋งŒ ์ธ๊ฐ„ ์„ ํ˜ธ์— ์ค‘์ ์„ ๋‘” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. MRN์€ ์„ ํ˜ธ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(preference-based RL)์—์„œ ๋ฐœ์ „ํ•œ ์•„์ด๋””์–ด๋กœ, ์ธ๊ฐ„์ด ์—์ด์ „ํŠธ์˜ ํ–‰๋™์Œ์„ ๋น„๊ตํ•˜์—ฌ ์–ด๋А ์ชฝ์ด ๋” ๋‚˜์€์ง€ ์•Œ๋ ค์ฃผ๋Š” ํ”ผ๋“œ๋ฐฑ์„ ์กฐ๊ธˆ์”ฉ ์ œ๊ณตํ•˜๋ฉด, ์ด๋ฅผ ํ† ๋Œ€๋กœ ๋ณด์ƒ ๋ชจ๋ธ๊ณผ ์ •์ฑ…์„ ๋™์‹œ์— ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ๋ณด์ƒ ๋ชจ๋ธ ํ•™์Šต๊ณผ ์ •์ฑ… ํ•™์Šต์ด ์ด์ธต ๊ตฌ์กฐ๋กœ ๋ฌถ์—ฌ ์žˆ์–ด, ๋ณด์ƒ ๋ชจ๋ธ์ด ๊ฐœ์„ ๋˜๋ฉด ์ •์ฑ…์ด ๋ฐ”๋€Œ๊ณ , ์ •์ฑ… ๊ฒฝํ—˜์ด ๋Š˜๋ฉด ๋ณด์ƒ ๋ชจ๋ธ๋„ ์ •๊ตํ•ด์ง€๋Š” ์ƒํ˜ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

MRN์˜ ๋…ํŠนํ•œ ์ ์€, bi-level optimization์„ ํ†ตํ•ด ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์™€ ์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ๋ฉ”ํƒ€ ํ•™์Šต์ฒ˜๋Ÿผ ์ทจ๊ธ‰ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” BiPaRS์˜ ์ฒ ํ•™๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์ด ์ถ”๊ฐ€๋œ ๊ฒƒ์ด ์ฐจ์ด์ž…๋‹ˆ๋‹ค. MRN์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ›๋Š” ๋ณด์ƒ์ด ์ „์ ์œผ๋กœ ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ์ฃผ์–ด์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ณ , ์ธ๊ฐ„์ด ์„ ํ˜ธํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ณด์ƒ ํ•จ์ˆ˜ ์ž์ฒด๋ฅผ ๋ณด์ •ํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํฌ์†Œ/์ง€์—ฐ/๋…ธ์ด์ฆˆ ๋ณด์ƒ ๋ฌธ์ œ๋„ ์ธ๊ฐ„์˜ ์ง๊ด€์œผ๋กœ ์ผ๋ถ€ ํ•ด์†Œํ•  ์ˆ˜ ์žˆ๊ณ , ์—์ด์ „ํŠธ๊ฐ€ ์ค‘์š”ํ•œ ๊ฒƒ์— ์ง‘์ค‘ํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜์—์„œ MRN์€ ๋ช‡ ๊ฐ€์ง€ ๋กœ๋ด‡ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ž‘์—…์— ์ ์šฉ๋˜์–ด, ํ•œ์ •๋œ ์ธ๊ฐ„ ์ž…๋ ฅ๋งŒ์œผ๋กœ๋„ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด, ๋กœ๋ด‡ ํŒ” ๋™์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์‚ฌ๋žŒ์ด โ€œ์ด ๋™์ž‘์ด ์ € ๋™์ž‘๋ณด๋‹ค ์ข‹๋‹คโ€๋ผ๋Š” ๋น„๊ต ํ”ผ๋“œ๋ฐฑ์„ ์กฐ๊ธˆ ์ฃผ๋ฉด, MRN์ด ๊ทธ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•œ ๋ณด์ƒ๋ชจ๋ธ์„ ํ˜•์„ฑํ•˜๊ณ  ๊ณง๋ฐ”๋กœ ์ •์ฑ…์— ๋ฐ˜์˜ํ•˜์—ฌ ์ƒ˜ํ”Œ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ MRN ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋Š” ์ด์ „์˜ ์ˆ˜์ž‘์—… ๋ณด์ƒ์ด๋‚˜ ๋‹จ์ˆœ ์„ ํ˜ธํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

MRN์˜ ์žฅ์ ์„ ์š”์•ฝํ•˜๋ฉด: ์ ์€ ์ธ๊ฐ„ ๊ฐœ์ž…์œผ๋กœ๋„ ํ•™์Šต ํšจ์œจ์„ ๋†’์˜€๊ณ , Reward Shaping์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์‚ฌ๋žŒ์—๊ฒŒ์„œ ์–ป์Œ์œผ๋กœ์จ ์œ ์—ฐ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋…ผ๋ฌธ์—์„œ๋Š” ๊ธฐ์กด ๋ณด์ƒ shaping ๊ธฐ๋ฒ•๋“ค์ด ๊ฐ•๊ฑด์„ฑ๊ณผ ํšจ์œจ ๋ฉด์—์„œ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๊ณ  ์ง€์ ํ•˜๋ฉฐ, MRN์ฒ˜๋Ÿผ ์ธ๊ฐ„ ๊ฐ€์ด๋“œํ˜• Reward Engineering์ด ํ•„์š”ํ•˜๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  MRN์—๋„ ๋‹จ์ ์€ ์žˆ๋Š”๋ฐ, ๊ฐ€์žฅ ํฐ ๊ฒƒ์€ ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ ํ’ˆ์งˆ์— ์˜์กดํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์ž˜๋ชป ์„ ํ˜ธ๋ฅผ ํ‘œ์‹œํ•˜๋ฉด ์—‰๋šฑํ•œ ๋ณด์ƒ ๋ชจ๋ธ์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๊ณ , ๋˜ํ•œ ์‚ฌ๋žŒ์˜ ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๊ทœ๋ชจ ํ•™์Šต์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  MRN์€ ์ธ๊ฐ„-์—์ด์ „ํŠธ ํ˜‘๋ ฅ ํ•™์Šต์˜ ์ข‹์€ ์‚ฌ๋ก€๋กœ, ํฌ์†Œํ•˜๊ฑฐ๋‚˜ ๋ช…์‹œ์  ๋ณด์ƒ์„ ์„ค๊ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฌธ์ œ์—์„œ ์œ ์šฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ถ”๊ฐ€๋กœ MRN์˜ ๊ตฌํ˜„ ์ฝ”๋“œ๋„ ๊ณต๊ฐœ๋˜์–ด ์žˆ์–ด, ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ์ด๋ฅผ ์‹œ๋„ํ•ด๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ ์„ ํ˜ธํ•™์Šต๊ณผ ๋ณด์ƒ ์„ค๊ณ„ ์—ฐ๊ตฌ๋ฅผ ๊ฐ€์†ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๊ธฐํƒ€ ๊ธฐ๋ฒ• ๋ฐ ๋™ํ–ฅ

์ด ๋ฐ–์—๋„ ๋‹ค์–‘ํ•œ ํ˜์‹ ์  Reward Shaping ํ”„๋ ˆ์ž„์›Œํฌ๋“ค์ด ๋“ฑ์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ๋ˆˆ์— ๋„๋Š” ๋™ํ–ฅ์„ ์†Œ๊ฐœํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๋ฐฐ๋ฆฌ์–ด ํ•จ์ˆ˜(Barrier Function)๋ฅผ ์ด์šฉํ•œ ์•ˆ์ „ํ˜• RL: ๋ณด์ƒ ํ•จ์ˆ˜์— ๋ฐฐ๋ฆฌ์–ด ํ•จ์ˆ˜๋ฅผ ํฌํ•จํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ๊ธˆ์ง€ ๊ตฌ์—ญ์ด๋‚˜ ์œ„ํ—˜ ํ–‰๋™์„ ํ•˜์ง€ ์•Š๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ํŒ” ์ œ์–ด์—์„œ ๋ฐฐ๋ฆฌ์–ด ํ•จ์ˆ˜๋ฅผ ๋ณด์ƒ์— ๋„ฃ์—ˆ๋”๋‹ˆ ์ˆ˜๋ ด์ด ๋นจ๋ผ์ง€๊ณ  ์ž‘๋™ ์—๋„ˆ์ง€ ์†Œ๋ชจ๊ฐ€ ์ค„์–ด๋“œ๋Š” ๋“ฑ ํšจ๊ณผ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ๋ฆฌ์–ด ํ•จ์ˆ˜๋Š” ์ƒํƒœ๊ฐ€ ์•ˆ์ „ ์˜์—ญ ๋ฐ–์œผ๋กœ ๋‚˜๊ฐ€๋ ค ํ•˜๋ฉด ๋ณด์ƒ์ด ๊ธ‰๊ฐํ•˜๋„๋ก ์„ค๊ณ„๋œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ํ†ตํ•œ ๋ณด์ƒ ์ƒ์„ฑ: ์ธ๊ฐ„์ด ์ž์—ฐ์–ด๋กœ ์„ค๋ช…ํ•œ ๋ชฉํ‘œ๋‚˜ ๊ทœ์น™์„ ํŒŒ์‹ฑํ•˜์—ฌ, ๊ทธ์— ๋”ฐ๋ผ dense reward๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ธฐ๋ฒ•๋„ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋ถ‰์€ ๋ฌผ์ฒด๋ฅผ ๋…น์ƒ‰ ์ง€์ ์œผ๋กœ ์˜ฎ๊ฒจ๋ผโ€๋ผ๋Š” ๋ฌธ์žฅ์„ ์ฝ๊ณ , ๊ทธ ์˜๋ฏธ๋ฅผ ํ•ด์„ํ•ด ์ค‘๊ฐ„๋‹จ๊ณ„ ๋ณด์ƒ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด sparse reward ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ–ˆ์œผ๋‚˜, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์™€ RL์˜ ํ†ตํ•ฉ์ด๋ผ๋Š” ๋‚œ์ œ๊ฐ€ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ„ ๋…ผ๋ฆฌ(Temporal Logic)๋ฅผ ํ™œ์šฉํ•œ Reward Shaping: ํ˜•์‹ ์–ธ์–ด๋กœ ์ •์˜ํ•œ ๋ชฉํ‘œ(์˜ˆ: LTL, CTL ๋“ฑ์˜ ๋…ผ๋ฆฌ์‹)๋ฅผ ๋งŒ์กฑํ•˜๋ฉด ๋ณด์ƒ์„ ์ฃผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹œ๋„๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ‰๊ท -๋ณด์ƒ RL(episodic์ด ์•„๋‹Œ ์ง€์†ํ™˜๊ฒฝ)์—์„œ ์‹œ๊ฐ„ ๋…ผ๋ฆฌ ์ œ์•ฝ์„ ๋ณด์ƒ์œผ๋กœ ๋…น์—ฌ ํ•™์Šต ์†๋„๋ฅผ ๋†’์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฆฌ์‹์„ ๋งŒ์กฑํ•˜๋Š” ๊ฒฝ๋กœ์—๋Š” ๋ณด๋„ˆ์Šค๋ฅผ ์ฃผ์–ด, ์—์ด์ „ํŠธ๊ฐ€ ์ผ์ •ํ•œ ํŒจํ„ด์˜ ํ–‰๋™์„ ์ตํžˆ๋„๋ก ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€ํ˜• ๋ณด์ƒ (Uncertainty-Penalized Reward): ์—์ด์ „ํŠธ์˜ ์ •์ฑ…์ด ํŠน์ • ์ƒํ™ฉ์— ๊ณผ๋„ํ•˜๊ฒŒ ํŠนํ™”๋˜๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด, ๋ณด์ƒ์— ๋ถˆํ™•์‹ค์„ฑ ํŽ˜๋„ํ‹ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์ ‘๊ทผ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ์•™์ƒ๋ธ”์„ ์‚ฌ์šฉํ•ด ์ •์ฑ…์˜ ๋ถˆํ™•์‹ค์„ฑ์ด ํฐ ์ƒํƒœ์—์„œ๋Š” ๋ณด์ƒ์„ ๊นŽ์Œ์œผ๋กœ์จ, ๋„ˆ๋ฌด ์œ„ํ—˜ํ•˜๊ฑฐ๋‚˜ ํ™•์‹  ์—†๋Š” ์ „๋žต์„ ํ”ผํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” RL์˜ ์˜ค๋ฒ„ํ”ผํŒ… ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ๋Œ€ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์•ˆ์ •ํ™”: ์—์ด์ „ํŠธ๊ฐ€ ๋ฏธ๋ž˜์˜ ๊ธฐ๋Œ€ ๋ณด์ƒ ๋ถ„ํฌ๊นŒ์ง€ ๊ณ ๋ คํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ณด์ƒ์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์‚ฌ์šฉํ•ด ์ •์ฑ…์„ ์•ˆ์ •ํ™”ํ•˜๊ณ  ์ˆ˜๋ ด์„ ๋น ๋ฅด๊ฒŒ ํ•˜๋Š” ์‹œ๋„๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ถˆํ™•์‹คํ•œ ํ™˜๊ฒฝ์—์„œ ๋ณด์ƒ์ด ๋“ค์ญ‰๋‚ ์ญ‰ํ•  ๋•Œ, ํ‰๊ท ์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋†’์ด๋„๋ก shapingํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ๋ณด์ƒ ๊ณ„ํš(Reward Planning)์ด๋ผ๋Š” ๊ฐœ๋…๋„ ๋“ฑ์žฅํ–ˆ๋Š”๋ฐ, ์ƒํƒœ๊ณต๊ฐ„์„ ์ชผ๊ฐœ์–ด ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋‚˜๋ˆˆ ๋‹ค์Œ ํƒ์š•์ ์ธ ๋ถ„ํ• -์ •๋ณต ๋ฐฉ์‹์œผ๋กœ ๋ณด์ƒ์„ ์„ค์ •ํ•˜๋Š” ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” Pendubot(์ด์ค‘ ์ง„์ž ๋กœ๋ด‡) ์ œ์–ด์—์„œ ์ด ๋ฐฉ๋ฒ•์„ ์ผ๋Š”๋ฐ, ์ง„์ž์˜ ์Šค์œ™์—…๊ณผ ๋ฐธ๋Ÿฐ์‹ฑ์ด๋ผ๋Š” ๋‘ ๊ฐœ์˜ ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ์ชผ๊ฐœ๊ณ , ๊ฐ๊ฐ์— ๋Œ€ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ „์ฒด ๋ณด์ƒ์€ ์ด ๋‘ ๋‹จ๊ณ„์˜ ์„ฑ์ทจ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ฃผ๋Š” ์‹์œผ๋กœ ํ–ˆ๋”๋‹ˆ, ํŒŒ๋ผ๋ฏธํ„ฐ ๋ถˆํ™•์‹ค์„ฑ์ด 200~300%๋‚˜ ๋˜๋Š” ์ƒํ™ฉ์—์„œ๋„ ์—์ด์ „ํŠธ๊ฐ€ ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•˜๊ณ  ์•ฝ 95%์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ๋กœ ์ž„๋ฌด๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์˜ ์žฅ์ ์€, ํฐ ๋ฌธ์ œ๋ฅผ ์ชผ๊ฐœ์„œ ๊ฐ ๋ถ€๋ถ„์— ์ตœ์  ๋ณด์ƒ์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋ถˆํ™•์‹ค์„ฑ์ด ํฌ๊ณ  ๋ณต์žกํ•œ ์‹œ์Šคํ…œ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํŠน์ • ํ–‰๋™(์˜ˆ: ์ง€๋‚˜์น˜๊ฒŒ ์—๋„ˆ์ง€๋ฅผ ์“ฐ๋Š” ํ–‰๋™)์€ ์•„์˜ˆ ํ”ผํ•˜๋„๋ก ๋ณด์ƒ์—์„œ ์ œ์™ธํ•˜๋Š” ๋“ฑ ๋ฏธ์„ธํ•œ ์ œ์–ด๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ ์œผ๋กœ๋Š”, ์ด๋ ‡๊ฒŒ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ชผ๊ฐœ๊ณ  ๋งŒ๋“œ๋Š” ์ž‘์—… ์ž์ฒด๊ฐ€ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“œ๋Š” ์ˆ˜์ž‘์—…์ด๋ผ๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์„ค๊ณ„์ž๊ฐ€ ์‹œ์Šคํ…œ์— ๋Œ€ํ•œ ๊นŠ์€ ์ดํ•ด๊ฐ€ ์žˆ์–ด์•ผ ํ•˜๊ณ , ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ •๋„ ๋ฌธ์ œ์— ํŠนํ™”๋˜์–ด ์žˆ์–ด ์ผ๋ฐ˜ํ™”๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ์ตœ์‹  Reward Shaping ๊ธฐ๋ฒ•๋“ค์€ ์•ˆ์ „, ์ž์—ฐ์–ด, ๋…ผ๋ฆฌ, ๋ถˆํ™•์‹ค์„ฑ, ํƒœ์Šคํฌ ๋ถ„ํ•  ๋“ฑ ๋‹ค์–‘ํ•œ ํ‚ค์›Œ๋“œ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณด์ƒ ์„ค๊ณ„๊ฐ€ ๋” ์ด์ƒ ๋‹จ์ˆœํžˆ ์ˆ˜์‹ ํ•˜๋‚˜ ์ •ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด์™€ ๊ณ ์ฐจ์› ์ง€์‹, ๊ทธ๋ฆฌ๊ณ  ์ธ๊ฐ„์˜ ์–ธ์–ด/๋…ผ๋ฆฌ์  ์ง€์‹๊นŒ์ง€ ํฌ๊ด„ํ•˜๋Š” ์˜์—ญ์œผ๋กœ ํ™•์žฅ๋˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณตํ•™ ๋ฐ ๊ธฐํƒ€ ๋ถ„์•ผ์—์„œ์˜ ์‘์šฉ

๊ฐ•ํ™”ํ•™์Šต์˜ Reward Engineering/ํ˜•์„ฑ ๊ธฐ๋ฒ•๋“ค์€ ํŠนํžˆ ๋กœ๋ด‡๊ณตํ•™(Robotics) ๋ถ„์•ผ์—์„œ ํ™œ๋ฐœํžˆ ์‘์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ์—์„œ ์›€์ง์ด๋ฏ€๋กœ ์ž˜๋ชป ํ•™์Šตํ•˜๋ฉด ์•ˆ์ „ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๊ณ , ์„ผ์„œ ๋…ธ์ด์ฆˆ ๋“ฑ ํ˜„์‹ค์ ์ธ ์–ด๋ ค์›€๋„ ๋งŽ์Šต๋‹ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ ๋กœ๋ด‡ ๋ถ„์•ผ ์—ฐ๊ตฌ์ž๋“ค์€ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ์ฐฝ์˜์ ์œผ๋กœ ์„ค๊ณ„ํ•˜์—ฌ ๋กœ๋ด‡์ด ์•ˆ์ „ํ•˜๊ณ  ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ์‹œ๋„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—…์„ ์œ„ํ•œ ์•ˆ์ „ ํšจ์œจํ˜• ๋ณด์ƒ ์„ค๊ณ„

์‚ฐ์—… ํ˜„์žฅ์—์„œ ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡์ด ๊ฐ™์ด ์ผํ•˜๋ ค๋ฉด, ๋กœ๋ด‡์ด ์‚ฌ๋žŒ์„ ๋‹ค์น˜๊ฒŒ ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์ž‘์—… ํšจ์œจ์€ ๋†’์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—…(HRC) ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ, ๋กœ๋ด‡์ด ์ถฉ๋Œ์„ ํšŒํ”ผํ•˜๋ฉด์„œ๋„ ์—…๋ฌด๋ฅผ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋„๋ก ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ IRDDPG (Intrinsic Reward DDPG) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ–ˆ๋Š”๋ฐ, DDPG๋ผ๋Š” Actor-Critic ๊ฐ•ํ™”ํ•™์Šต ๋ฐฉ๋ฒ•์— ๋‚ด์žฌ์  ๋ณด์ƒ์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํŒ”์ด ์‚ฌ๋žŒ๊ณผ ๊ณต๋™ ์ž‘์—…ํ•  ๋•Œ, ์™ธ์žฌ์  ๋ณด์ƒ์€ ์ž‘์—… ์™„๋ฃŒ๋‚˜ ์ถฉ๋Œ ์—ฌ๋ถ€ ๋“ฑ์œผ๋กœ ์ฃผ๊ณ , ๋‚ด์žฌ์  ๋ณด์ƒ์œผ๋กœ๋Š” ๋กœ๋ด‡ ์Šค์Šค๋กœ ์„ค์ •ํ•œ ์•ˆ์ „ ๊ฑฐ๋ฆฌ ์œ ์ง€๋‚˜ ๋ถ€๋“œ๋Ÿฌ์šด ์›€์ง์ž„ ๋“ฑ์„ ๋„ฃ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ณตํ•ฉ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋‹ˆ, ์‹คํ—˜ ๊ฒฐ๊ณผ ๋กœ๋ด‡์€ ์‚ฌ๋žŒ๊ณผ ์ถฉ๋Œํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์ž‘์—…์„ ๋งˆ์น˜๋Š” ์ •์ฑ…์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์— ์‚ฌ๋žŒ์ด ์†์ˆ˜ ๋งŒ๋“  ๋ณด์ƒ ํ•จ์ˆ˜๋ณด๋‹ค๋„ ํ•™์Šต์ด ๋นจ๋ž๊ณ , ๋™์  ์ƒํ™ฉ์—์„œ๋„ ์ ์‘๋ ฅ์ด ๋†’์•˜์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ•™์Šต ์ค‘์— ๋ณด์ƒ์„ ์กฐ์ •ํ•จ์œผ๋กœ์จ ๋กœ๋ด‡์ด ์•ˆ์ „๊ณผ ํšจ์œจ ๋‘ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ์žก์„ ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์˜ ์„ฑ๊ณผ๋Š”, ์ผ๋ฐ˜์ ์ธ ๋ณด์ƒ์œผ๋กœ๋Š” ๋‹ฌ์„ฑํ•˜๊ธฐ ์–ด๋ ค์šด ์•ˆ์ „ ๊ฐ™์€ ๋ชฉํ‘œ๋ฅผ ๋‚ด์žฌ์  ๋ณด์ƒ์œผ๋กœ ์ž˜ ๋…น์—ฌ๋‚ธ ์ ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋ณต์žกํ•œ ๋ณด์ƒ ๊ตฌ์กฐ ์ตœ์ ํ™”์™€ ๋†’์€ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋‹จ์ ์œผ๋กœ ์ง€์ ๋˜๋Š”๋ฐ, ์ด๋Š” ๋‚ด์žฌ+์™ธ์žฌ ๋ณด์ƒ ๋ชจ๋‘๋ฅผ ๋‹ค๋ค„์•ผ ํ•˜๊ณ  DDPG ์ž์ฒด๋„ ์ž์› ์†Œ๋ชจ์ ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋Œ€ํ™”ํ˜• ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•œ ๊ฐ€์ •์šฉ ๋กœ๋ด‡ ํ•™์Šต

๋‹ค๋ฅธ ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ, ๊ฐ€์ • ๋‚ด ์„œ๋น„์Šค ๋กœ๋ด‡์ด ๋ฌผ๊ฑด ์ •๋ฆฌ ๊ฐ™์€ ์ž‘์—…์„ ๋ฐฐ์šธ ๋•Œ ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์™„์ „ํžˆ ์ž์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฉด ๋А๋ฆฌ๊ณ  ์‹œํ–‰์ฐฉ์˜ค๊ฐ€ ๋งŽ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์‚ฌ๋žŒ ๋˜๋Š” ๋ณด์กฐ ์—์ด์ „ํŠธ๊ฐ€ ์ค‘๊ฐ„์— ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์–ด ํ•™์Šต์„ ๋•๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ์—์„œ๋Š” ์„ธ ๊ฐ€์ง€ ํ•™์Šต ๋ชจ๋“œ๋ฅผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค:

  1. ์ž์œจ RL (์˜ค๋กœ์ง€ ํ™˜๊ฒฝ ๋ณด์ƒ์œผ๋กœ ํ•™์Šต),
  2. ์—์ด์ „ํŠธ-๋ณด์กฐ ๋Œ€ํ™”ํ˜• RL (๋‹ค๋ฅธ AI ์—์ด์ „ํŠธ๊ฐ€ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต),
  3. ์ธ๊ฐ„-๋ณด์กฐ ๋Œ€ํ™”ํ˜• RL (์‚ฌ๋žŒ์ด ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต).

์‹คํ—˜์ ์œผ๋กœ, ๋™์ผํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ๋Œ€ํ™”ํ˜• ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์€ ๊ฒฝ์šฐ๊ฐ€ ํ•™์Šต ์†๋„๊ฐ€ ๋” ๋น ๋ฅด๊ณ  ์˜ค๋ฅ˜๊ฐ€ ์ ์—ˆ์œผ๋ฉฐ, ๋ˆ„์  ๋ณด์ƒ๋„ ๋†’์•˜์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ธ๊ฐ„์ด ํ”ผ๋“œ๋ฐฑ์„ ์ค€ ๊ฒฝ์šฐ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์•˜๋Š”๋ฐ, ์ด๋Š” ์‚ฌ๋žŒ์˜ ์ „๋ฌธ ์ง€์‹์ด๋‚˜ ์ง๊ด€์ด ์œ ์šฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋กœ๋ด‡์ด ๋ฌผ๊ฑด์„ ์—‰๋šฑํ•œ ์ž๋ฆฌ์— ๋‘˜ ๋•Œ ์‚ฌ๋žŒ์€ ์ฆ‰๊ฐ โ€œ๊ทธ๊ฑด ์ž˜๋ชป๋๋‹คโ€๋ผ๊ณ  ์‹ ํ˜ธ๋ฅผ ์ค„ ์ˆ˜ ์žˆ์–ด, ๋กœ๋ด‡์ด ๊ธด ํƒ์ƒ‰ ๋์— ์‹คํŒจํ•˜์ง€ ์•Š๊ณ ๋„ ๋ฐ”๋กœ ๊ต์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ shaping์˜ ์žฅ์ ์€, ์—์ด์ „ํŠธ๊ฐ€ ์งง์€ ์—ํ”ผ์†Œ๋“œ ์•ˆ์— ๋” ๋งŽ์€ ํ•™์Šต์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํƒํ—˜ ๊ณต๊ฐ„์„ ์‚ฌ๋žŒ์˜ ๋„์›€์œผ๋กœ ์ขํ˜€์ฃผ๊ฑฐ๋‚˜, ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ํšจ๊ณผ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์—์„œ๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์ด ์•ฝ๊ฐ„ ๋” ํšจ๊ณผ์ ์ด์—ˆ์ง€๋งŒ, AI ์—์ด์ „ํŠธ์˜ ํ”ผ๋“œ๋ฐฑ๋„ ์ƒ๋‹นํ•œ ํ–ฅ์ƒ์„ ์ฃผ์–ด, ์ž๋™ํ™”๋œ ์ฝ”์น˜(agent coach) ๊ฐœ๋…๋„ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์˜ ๊ณผ์ œ๋Š”, ์‚ฌ๋žŒ์ด๋‚˜ ๋ณด์กฐ ์—์ด์ „ํŠธ์˜ ํ”ผ๋“œ๋ฐฑ ์ „๋žต์„ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ•  ๊ฒƒ์ธ๊ฐ€ ํ•˜๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ ์กฐ์–ธ์„ ์ฃผ๋ฉด ํ•™์Šต์ด ๋ง๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์–ธ์ œ ๊ฐœ์ž…ํ•˜๊ณ  ์–ด๋А ์ •๋„ ์‹ ํ˜ธ๋ฅผ ์ค„์ง€ ๋“ฑ์„ ์ฒด๊ณ„ํ™”ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

ํ˜„์‹ค ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ณด์ƒ ๋ฐ ๋„๋ฉ”์ธ ์ ์‘

๋กœ๋ด‡ ๋ถ„์•ผ์—์„œ ํ”ํžˆ ๊ฒช๋Š” ๋ฌธ์ œ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ํ˜„์‹ค ํ™˜๊ฒฝ์˜ ์ฐจ์ด(sim-to-real gap)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์ด์‹ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๋ฝํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์ฃ . ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋„๋ฉ”์ธ ์ ์‘(domain adaptation), ๋„๋ฉ”์ธ ๋žœ๋คํ™”(domain randomization), ๋ฉ”ํƒ€ํ•™์Šต(meta-learning) ๋“ฑ์˜ ๊ธฐ๋ฒ•์ด ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ๋ณด์ƒ ์„ค๊ณ„๋„ ์ด ๊ณผ์ •์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

์•ž์„œ ๊ทธ๋ฆผ์˜ ์ƒ๋‹จ์—์„œ ๋ฌ˜์‚ฌ๋œ ๋„๋ฉ”์ธ ์ ์‘์€, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ํ˜„์‹ค ๊ฐ„ ์ฐจ์ด๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ณตํ†ต ํŠน์„ฑ ๊ณต๊ฐ„์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์˜์ƒ๊ณผ ์‹ค์ œ ์นด๋ฉ”๋ผ ์˜์ƒ์„ ๋™์ผํ•œ ํ‘œํ˜„ ๊ณต๊ฐ„์œผ๋กœ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์ด ํ˜„์‹ค ์ž…๋ ฅ์—๋„ ์ž˜ ์ ์šฉ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ ํ•˜๋‹จ ์ขŒ์ธก์˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋Š”, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋‚˜ ๋ Œ๋”๋ง์„ ๋ฌด์ž‘์œ„๋กœ ๋ณ€ํ™”์‹œ์ผœ ํ•™์Šตํ•จ์œผ๋กœ์จ, ํ˜„์‹ค์˜ ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์— ๊ฒฌ๋””๋Š” ์ •์ฑ…์„ ์–ป๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ•˜๋‹จ ์šฐ์ธก์˜ ๋ฉ”ํƒ€ RL์€, ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ๋“ค์— ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ”ํƒ€ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ดํ›„ ์ƒˆ๋กœ์šด ํ˜„์‹ค ํ™˜๊ฒฝ์—๋„ ์งง์€ ์žฌํ•™์Šต(fine-tuning)์œผ๋กœ ์ ์‘ํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

๋ณด์ƒ ์„ค๊ณ„๋Š” ์ด๋Ÿฌํ•œ sim-to-real ์ „๋žต๋“ค๊ณผ ํ•จ๊ป˜ ์“ฐ์—ฌ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ ํ˜„์‹ค ์ ์šฉ์„ ์—ผ๋‘์— ๋‘” ๋ณด์ƒ์„ ํ˜•์„ฑํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” CSAR (Consensus-based Sim-And-Real) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์•ˆํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ํ˜„์‹ค์—์„œ ๋™์ผํ•œ ๋ณด์ƒ ๊ตฌ์กฐ๋กœ ๋ณ‘๋ ฌ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์† ๊ฐ€์ƒ ๋กœ๋ด‡๊ณผ ํ•˜๋‚˜์˜ ์‹ค์ œ ๋กœ๋ด‡์„ ๋™์‹œ์— ํ•™์Šต์‹œํ‚ค๋ฉด์„œ, ๋ณด์ƒ์— ๋Œ€ํ•œ ํ•ฉ์˜(consensus)๋ฅผ ์ด๋ฃจ๋Š” ์ •์ฑ…์„ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋น ๋ฅธ ํ•™์Šต๊ณผ ํ˜„์‹ค ํ™˜๊ฒฝ์˜ ๊ฒ€์ฆ์ด ๋™์‹œ์— ์ผ์–ด๋‚˜, ํ˜„์‹ค ์ „์ด ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ ๊ณ  ํ›ˆ๋ จ ์‹œ๊ฐ„๋„ ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ์‹คํ—˜์—์„œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋กœ๋ด‡์˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆด์ˆ˜๋ก ์‹ค์ œ ๋กœ๋ด‡์˜ ์ž‘์—… ์„ฑ๊ณต๋ฅ ์ด ๋†’์•„์กŒ๋Š”๋ฐ, ์ด๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ์ปค๋ฒ„ํ•˜๋ฉด์„œ๋„ ๋ณด์ƒ ๊ตฌ์กฐ๊ฐ€ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฐ˜๊ฐ€์ƒ(semi-virtual) ํ™˜๊ฒฝ์„ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋กœ ๋„์ž…ํ•˜์—ฌ 2๋‹จ๊ณ„ sim-to-real ์ „์ด๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. 1๋‹จ๊ณ„์—์„œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ+์•ฝ๊ฐ„์˜ ํ˜„์‹ค ์š”์†Œ (์˜ˆ: ์‹ค์ œ ๋กœ๋ด‡์˜ ๋™์—ญํ•™, ๊ทธ๋Ÿฌ๋‚˜ ์„ผ์„œ๋Š” ๊ฐ€์ƒ)๋กœ ํ•™์Šตํ•˜๊ณ , 2๋‹จ๊ณ„์—์„œ ๊ทธ ์ •์ฑ…์„ ์‹ค์ œ ํ™˜๊ฒฝ(์‹ค์ œ ์„ผ์„œ+๋กœ๋ด‡)์—์„œ fine-tuning ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋•Œ๋„ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ๋‘ ๋‹จ๊ณ„์— ๊ฑธ์ณ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€ํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ๋ฐ”๊พธ์ง€ ์•Š๊ณ  ์ ์‘๋งŒ ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ฒด๊ณ„๋กœ ๋ณต์žก์„ฑ์„ ์ ์ง„์ ์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด, ํ•œ ๋ฒˆ์— ํ˜„์‹ค๋กœ ๋›ฐ์–ด๋“œ๋Š” ๊ฒƒ๋ณด๋‹ค ์•ˆ์ „ํ•˜๊ณ  ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

sim-to-real ์ „์ด์—์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€, ๋ณด์ƒ ํ•ดํ‚น์ด ํ˜„์‹ค์—์„œ๋„ ํ†ตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์•ž์„œ ์˜ˆ๋กœ ๋“  ์ฒญ์†Œ ๋กœ๋ด‡์ด ์„ผ์„œ๋ฅผ ๊ฐ€๋ฆฌ๋Š” ๊ฒฝ์šฐ์ฒ˜๋Ÿผ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ณด์ƒ ํ•ดํ‚น์„ ๋ฐฐ์› ๋‹ค๋ฉด ์‹ค์ œ ๋กœ๋ด‡๋„ ์œ ์‚ฌํ•œ ๊ผผ์ˆ˜๋ฅผ ๋ถ€๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ ์˜ฌ๋ฐ”๋ฅธ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ํ•ดํ‚น ๊ฐ€๋Šฅ์„ฑ์„ ์ค„์ด๊ณ , ์—์ด์ „ํŠธ๊ฐ€ ์ง„์งœ ๋ชฉํ‘œ์— ์ง‘์ค‘ํ•˜๋„๋ก ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒญ์†Œ ๋กœ๋ด‡์—๊ฒŒ๋Š” โ€œ๋ฐฉ์ด ๊นจ๋—ํ•ด์ ธ๋ผโ€ ๋ณด์ƒ๋งŒ ์ฃผ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ์ฒญ์†Œ ํ–‰๋™ ์ž์ฒด์—๋„ ์•ฝ๊ฐ„์˜ ๋ณด์ƒ์„ ์ค˜์„œ ์ ์–ด๋„ ํ–‰๋™์€ ํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜๋Š” ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‹จ๊ณ„์—์„œ ํ™œ์šฉํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ํŽธ๋ฒ•์„ ํ•˜๋ฉด ์ฆ‰์‹œ ๊ต์ •๋ฐ›๋„๋ก ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ตญ Reward Shaping + ๋„๋ฉ”์ธ ์ ์‘ + ๋ฉ”ํƒ€๋Ÿฌ๋‹ + ์ธ๊ฐ„ํ”ผ๋“œ๋ฐฑ ๋“ฑ์ด ์ข…ํ•ฉ์ ์œผ๋กœ ํ™œ์šฉ๋˜์–ด์•ผ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ˜„์‹ค๋กœ์˜ ์„ฑ๊ณต์ ์ธ ์ง€์‹ ์ด์ „์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋“ค ์ ‘๊ทผ์€ ๊ฐ๊ฐ ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์ด๊ณ , ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋ฉฐ, ์•ˆ์ „์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ์‚ฌ์‹ค์„ฑ์ด ๋†’์•„์ง€๊ณ , ์ž๋™ํ™”๋œ ๋ณด์ƒ ์„ค๊ณ„ ๊ธฐ๋ฒ•์ด ๋ฐœ์ „ํ•œ๋‹ค๋ฉด, ํ˜„์‹ค์—์„œ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฑฐ์˜ ๊ฒช์ง€ ์•Š๊ณ ๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋งŒ์œผ๋กœ ๊ณ ์„ฑ๋Šฅ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋„ ๊ฟˆ์ด ์•„๋‹™๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๊ทธ ๊ณผ์ •์—์„œ ํ•ญ์ƒ ์˜ฌ๋ฐ”๋ฅธ ๋ณด์ƒ ์„ค์ •์„ ์œ ์ง€ํ•ด์•ผ ํ•˜๋ฉฐ, ์—์ด์ „ํŠธ๊ฐ€ ์ž˜๋ชป๋œ ์„ฑ๊ณต ๊ธฐ์ค€์„ ์ถ”๊ตฌํ•˜์ง€ ์•Š๋„๋ก ์ง€์†์ ์ธ ๋ชจ๋‹ˆํ„ฐ๋ง์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

Reward Engineering์˜ ์žฅ์ ๊ณผ ํ•œ๊ณ„: ๋ฏธ๋ž˜์˜ ํ•ต์‹ฌ์ธ๊ฐ€?

์ง€๊ธˆ๊นŒ์ง€ ์‚ดํŽด๋ณธ ์‚ฌ๋ก€๋“ค์ด ๋ณด์—ฌ์ฃผ๋“ฏ, Reward Shaping/Engineering์€ RL ์—์ด์ „ํŠธ์˜ ํ•™์Šต์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. ์ •๋ฆฌํ•ด๋ณด๋ฉด, ์ œ๋Œ€๋กœ ๋œ Reward Shaping์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์žฅ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:

  • ํ•™์Šต ๊ฐ€์†ํ™”: ์ถ”๊ฐ€ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์—์ด์ „ํŠธ๊ฐ€ ์ตœ์  ์ •์ฑ…์„ ํ›จ์”ฌ ๋น ๋ฅด๊ฒŒ ์ฐพ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์‹ญ๋งŒ ๋‹จ๊ณ„๊ฐ€ ๊ฑธ๋ฆฌ๋˜ ํ•™์Šต์ด Reward Shaping์œผ๋กœ ํฌ๊ฒŒ ๋‹จ์ถ•๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด STRIPS ๊ธฐ๋ฐ˜ shaping์ด๋‚˜ UCBVI-shaped, DRiP ๋“ฑ์˜ ๋ฐฉ๋ฒ•๋“ค์€ ๊ธฐ์กด๋ณด๋‹ค ๋น ๋ฅธ ์ˆ˜๋ ด์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ํƒํ—˜ ํ–ฅ์ƒ: ํŠนํžˆ ํฌ์†Œ ๋ณด์ƒ ํ™˜๊ฒฝ์—์„œ, shaping ๋ณด์ƒ์€ ์—์ด์ „ํŠธ์—๊ฒŒ ํƒํ—˜ ๋™๊ธฐ๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ๋” ํ™œ๋ฐœํ•˜๊ฒŒ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋†“์ณค์„ ๊ฐ€์น˜ ์žˆ๋Š” ์ƒํƒœ๋“ค์„ ๋ฐœ๊ฒฌํ•˜๊ฒŒ ํ•ด์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ๋‚˜์€ ์ •์ฑ…์„ ์ฐพ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์‚ฌ๋ก€๋“ค(ํ•ด์‹œ ํƒ์ƒ‰, RUNE ๋“ฑ)์—์„œ shaping์„ ํ†ตํ•ด baseline์ด ์ „ํ˜€ ์„ฑ๊ณต ๋ชป ํ•˜๋˜ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ตœ์ข… ์„ฑ๋Šฅ ๊ฐœ์„ : Reward Shaping์„ ์ ์ ˆํžˆ ํ•˜๋ฉด ์—์ด์ „ํŠธ๊ฐ€ ์• ์ดˆ shaping ์—†์ด๋Š” ๋„๋‹ฌ ๋ชปํ–ˆ์„ ๊ณ ์„ฑ๋Šฅ ์ •์ฑ…์— ๋„๋‹ฌํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์  ์ •์ฑ…์˜ ๊ณต๊ฐ„์— ์—ฌ๋Ÿฌ ํ›„๋ณด๊ฐ€ ์žˆ์„ ๋•Œ, shaping์€ ๊ทธ ์ค‘ ๋” ์šฐ์ˆ˜ํ•œ ์ •์ฑ…์„ ์„ ํƒํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Section IV์˜ ์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•๋“ค์ด ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ •์ฑ… ๊ฐ•๊ฑด์„ฑ ์ฆ๊ฐ€: ์ž˜ ์„ค๊ณ„๋œ shaping์€ ํ•™์Šต๋œ ์ •์ฑ…์„ ์žก์Œ, ํ™˜๊ฒฝ ๋ณ€ํ™” ๋“ฑ์— ๋œ ์ทจ์•ฝํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ˜ผ๋™ํ–‰๋ ฌ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ๋ณด์ •ํ•œ ๋ณด์ƒ์ด๋‚˜, ๋„๋ฉ”์ธ ๋žœ๋คํ™”์™€ ๊ฒฐํ•ฉํ•œ shaping ๋“ฑ์€ ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ๋„ ๋ฌด๋„ˆ์ง€์ง€ ์•Š๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž ์žฌ ๋ณด์ƒ ๋“ฑ์œผ๋กœ ํŠน์ • ์œ„ํ—˜ ํ–‰๋™์„ ํ”ผํ•˜๋„๋ก ํ•™์Šตํ•˜๋ฉด, ํ™˜๊ฒฝ์ด ์•ฝ๊ฐ„ ๋‹ฌ๋ผ์ ธ๋„ ๊ธฐ๋ณธ์ ์ธ ์•ˆ์ „์€ ์ง€์ผœ์ง‘๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์žฅ์ ๋“ค ๋•Œ๋ฌธ์—, ๋งŽ์€ ์ „๋ฌธ๊ฐ€๋“ค์ด Reward Engineering์„ ๋ฏธ๋ž˜ ๊ฐ•ํ™”ํ•™์Šต ์„ฑ๊ณผ์˜ ์—ด์‡  ์ค‘ ํ•˜๋‚˜๋กœ ๋ด…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ•œํŽธ์œผ๋กœ๋Š” ๋ช‡ ๊ฐ€์ง€ ์ค‘๋Œ€ํ•œ ๋„์ „๊ณผ ํ•œ๊ณ„๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:

  • ๋„๋ฉ”์ธ ์ง€์‹ ์˜์กด์„ฑ: ๋งŽ์€ Reward Shaping ๊ธฐ๋ฒ•๋“ค์ด ํ•ด๋‹น ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ „๋ฌธ๊ฐ€ ์ง€์‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ์ž ์žฌ ํ•จ์ˆ˜๋‚˜ ํœด๋ฆฌ์Šคํ‹ฑ ๋ณด์ƒ, ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ณด์ƒ ๋“ฑ์€ ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์„ค๊ณ„ํ•ด์•ผ ํ•˜๊ณ , ์ด๋Š” ๋ณต์žกํ•œ ๋„๋ฉ”์ธ์ผ์ˆ˜๋ก ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ฒ˜์Œ ๋ฌธ์ œ๋ฅผ ์ ‘ํ•˜๊ฑฐ๋‚˜ ์ „๋ฌธ ์ง€์‹์ด ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ์—” ์–ด๋–ค shaping์„ ์ค˜์•ผ ํ• ์ง€์กฐ์ฐจ ๋ชจ๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ถ”๊ฐ€ ์„ค๊ณ„ ์‹œ๊ฐ„๊ณผ ๋…ธ๋ ฅ: ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ธฐ๋ณธ ํ™˜๊ฒฝ ๋ณด์ƒ ์™ธ์— ๋˜ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์€ ์ถ”๊ฐ€ ์ž‘์—… ๋ถ€๋‹ด์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ๋ณด์ƒ ํ•จ์ •์— ๋น ์ง€์ง€ ์•Š๋„๋ก ์—ฌ๋Ÿฌ ๋ฒˆ ์‹œํ—˜ํ•˜๋ฉฐ ์กฐ์ •ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ๊ณ , ์ตœ์ ์˜ shaping ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ๋งŽ์€ ์‹คํ—˜์„ ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ”„๋กœ์ ํŠธ ์ผ์ •์ด๋‚˜ ๋น„์šฉ ์ธก๋ฉด์—์„œ ๋ถ€๋‹ด์ž…๋‹ˆ๋‹ค.
  • ๊ณ„์‚ฐ ๋ณต์žก๋„ ์ฆ๊ฐ€: ์ผ๋ถ€ shaping ๋ฐฉ๋ฒ•์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌ์กฐ๋ฅผ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๊ณ„์‚ฐ ๋น„์šฉ์„ ๋Š˜๋ฆฝ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์ž ์žฌ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์—์„œ ์ž ์žฌ๊ฐ’์„ ๊ณ„์‚ฐยท์—…๋ฐ์ดํŠธํ•˜๋Š” ๋น„์šฉ, BiPaRS์ฒ˜๋Ÿผ ์ด์ธต ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋น„์šฉ ๋“ฑ์ด ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋‚˜ ์ œํ•œ๋œ ์ž์› ํ™˜๊ฒฝ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ๋ฌธ์ œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (๋ฌผ๋ก  ๋ฐ˜๋Œ€๋กœ, shaping์œผ๋กœ ํ•„์š” ๋‹จ๊ณ„ ์ˆ˜๊ฐ€ ์ค„์–ด๋“ค์–ด ๊ฒฐ๊ณผ์  ์ด๋น„์šฉ์€ ๊ฐ์†Œํ•˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์Šต๋‹ˆ๋‹ค).
  • ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ๋ฌธ์ œ: ๋งŽ์€ shaping์—๋Š” ์ƒˆ๋กœ์šด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์ƒ๊น๋‹ˆ๋‹ค (๋ณด์ƒ ์Šค์ผ€์ผ, ํ˜ผํ•ฉ ๋น„์œจ ๋“ฑ). ์ด๊ฒƒ๋“ค์„ ์ ์ ˆํžˆ ์กฐ์œจํ•ด์•ผ ํšจ๊ณผ๋ฅผ ๋ณด๋Š”๋ฐ, ์ž˜๋ชป ์„ค์ •ํ•˜๋ฉด ํ•™์Šต์ด ๋ง๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹คํ–‰ํžˆ BiPaRS๊ฐ™์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ž์œจ ํŠœ๋‹ํ•˜๋ ค๋Š” ์‹œ๋„๋„ ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์ผ๋ฐ˜์ ์ด์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ์ƒˆ๋กœ์šด shaping ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•  ๋•Œ ๋˜๋‹ค๋ฅธ ํŠœ๋‹ ๊ณผ์ œ๋ฅผ ๋– ์•ˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ์„ค๊ณ„ ์˜ค๋ฅ˜ ๊ฐ€๋Šฅ์„ฑ: ์ž˜๋ชป๋œ Reward Shaping์€ ์—†๋А๋‹ˆ๋งŒ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜๋„์™€ ๋‹ค๋ฅด๊ฒŒ ์ตœ์  ์ •์ฑ…์„ ๋ฐ”๊ฟ”๋ฒ„๋ฆฌ๊ฑฐ๋‚˜, ๋ณด์ƒ ํ•ดํ‚น์„ ์œ ๋ฐœํ•˜๊ฑฐ๋‚˜, ํ•™์Šต์„ ๋А๋ฆฌ๊ฒŒ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์‹ ์ค‘ํ•œ ๊ฒ€์ฆ๊ณผ ๋ชจ๋‹ˆํ„ฐ๋ง์ด ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ์‹คํ—˜์  ๋…ธ๋ ฅ์„ ์š”ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํ•œ๊ณ„ ๋•Œ๋ฌธ์—, Reward Shaping์„ ๋„์ž…ํ•  ๋•Œ๋Š” ๋ฌธ์ œ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋ฉด๋ฐ€ํ•œ ๊ณ ๋ ค์™€ ๊ฒ€ํ† ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ž˜๋งŒ ํ™œ์šฉํ•˜๋ฉด ์–ป๋Š” ์ด์ต์ด ๋งค์šฐ ํฌ๋ฏ€๋กœ, ๋งŽ์€ RL ์—ฐ๊ตฌ์™€ ์‘์šฉ ๋ถ„์•ผ์—์„œ Reward Engineering์€ ํฌ๊ธฐํ•  ์ˆ˜ ์—†๋Š” ๋„๊ตฌ๊ฐ€ ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, Reward Shaping์€ ๊ฐ•ํ™”ํ•™์Šต ์„ฑ๋Šฅ์„ ํ•œ ๋‹จ๊ณ„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ท€์ค‘ํ•œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ฐฉ๋ฒ•๋งˆ๋‹ค ์žฅ๋‹จ์ด ์žˆ์œผ๋ฏ€๋กœ, ๊ณผ์ œ์˜ ํŠน์„ฑ์— ๋งž๋Š” ์ ์ ˆํ•œ ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๊ณต์˜ ์—ด์‡ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ Reward Shaping ๊ธฐ๋ฒ•๋“ค์„ ์„œ๋กœ ์กฐํ•ฉํ•˜๊ฑฐ๋‚˜ (์˜ˆ: ์ž ์žฌ ๋ณด์ƒ + ์ฐจ์ด ๋ณด์ƒ, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ + ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋“ฑ), ๋‹ค๋ฅธ AI ๊ธฐ์ˆ ๊ณผ ํ†ตํ•ฉํ•˜์—ฌ (์ž์—ฐ์–ด, ๋…ผ๋ฆฌ ๋“ฑ) ํ™œ์šฉํ•˜๋Š” ๋ฐฉํ–ฅ๋„ ์œ ๋งํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ RL์„ ์‹ค์ œ ๋ณต์žกํ•œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•˜๋ ค๋ฉด, ๋‹จ์ˆœํ•œ ๋ณด์ƒ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค๋Š” ์ด๋Ÿฐ ์ •๊ตํ•œ ๋ณด์ƒ ์„ค๊ณ„ ์ „๋žต๋“ค์„ ๋Šฅ์ˆ™ํ•˜๊ฒŒ ๊ตฌ์‚ฌํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฐœ๋ฐฉ๋œ ๊ณผ์ œ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

Reward Engineering ๋ฐ Reward Shaping์˜ ๋ฐœ์ „์„ ์œ„ํ•ด ์•ž์œผ๋กœ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ์—ด๋ฆฐ ๊ณผ์ œ๋“ค๋„ ๋งŽ์ด ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ์„ , ์ƒ˜ํ”Œ ํšจ์œจ ํ–ฅ์ƒ์€ ์ง€์†์ ์ธ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ํ˜„์‹ค์—์„œ ๋กœ๋ด‡์ด๋‚˜ ์ž์œจ์ฃผํ–‰์ฐจ๋ฅผ ํ•™์Šต์‹œํ‚ฌ ๋•Œ, ์ˆ˜๋งŽ์€ ์‹œ๋„๋ฅผ ํ•ด๋ณผ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š” ๊ธฐ๋ฒ•์ด ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. Reward Shaping์€ ๊ทธ ํ•ด๊ฒฐ์ฑ… ์ค‘ ํ•˜๋‚˜๋กœ ๊ฑฐ๋ก ๋˜์ง€๋งŒ, ์ด๋ฅผ ๋”์šฑ ๊ฐœ์„ ํ•˜์—ฌ ํ•„์š” ์ตœ์†Œํ•œ์˜ ์‹œ๋„๋กœ๋„ ์ตœ์  ์ •์ฑ…์— ๊ทผ์ ‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด BiPaRS๋‚˜ MRN์ฒ˜๋Ÿผ Reward Shaping ์ž์ฒด๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•, ํ˜น์€ ๋ฉ”ํƒ€๋Ÿฌ๋‹๊ณผ ๊ฒฐํ•ฉํ•œ shaping์œผ๋กœ few-shot ํ•™์Šต์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๋ฐฉํ–ฅ์ด ์œ ๋งํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ ๊ฐ•๊ฑด์„ฑ(Robustness)์€ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ์ด์Šˆ์ž…๋‹ˆ๋‹ค. ์•ž์—์„œ ์˜ˆ๋ฅผ ๋“  ๋…ธ์ด์ฆˆ ๋ณด์ƒ ์ฒ˜๋ฆฌ๋‚˜ ์•ˆ์ „ํ˜• ๋ณด์ƒ ๋“ฑ์ด ๊ทธ ๋ฐฉํ–ฅ์ด์ง€๋งŒ, ๋”์šฑ ์ผ๋ฐ˜์ ์ธ ์˜๋ฏธ์—์„œ, ํ™˜๊ฒฝ ๋ณ€ํ™”๋‚˜ ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ์ƒํ™ฉ์—์„œ๋„ ์•ˆ์ •์  ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ด๋ก ์  ๋ณด์žฅ๊ณผ ์‹คํ—˜์  ๊ฒ€์ฆ์ด ๊ท ํ˜•์„ ์ด๋ค„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ Osinenko ๋“ฑ์˜ ์—ฐ๊ตฌ์ฒ˜๋Ÿผ, ๊ฐ•ํ™”ํ•™์Šต์— ๋Œ€ํ•œ ์•ˆ์ •์„ฑ ๋ณด์žฅ์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„ Reward Shaping์œผ๋กœ ์‹ค์ œ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ์ ‘๊ทผ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘์—…์ด๋‚˜ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ ์—ญ์‹œ ๋ฏธ๋ž˜ ํ•ต์‹ฌ ์ฃผ์ œ์ž…๋‹ˆ๋‹ค. Industry 4.0 ์‹œ๋Œ€์— ์ธ๊ฐ„๊ณผ AI/๋กœ๋ด‡์ด ํ•จ๊ป˜ ์ผํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„์ง€๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ์ธ๊ฐ„์˜ ์˜๋„๋ฅผ RL์— ๋ฐ˜์˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ณด์ƒ ์„ค๊ณ„ ์ธก๋ฉด์—์„ , ํœด๋จผ ์ธ ๋” ๋ฃจํ”„(human-in-the-loop) ํ•™์Šต์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋งŒ๋“ค ๊ธฐ์ˆ ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. MRN์ด๋‚˜ ์„ ํ˜ธ ํ•™์Šต ๋ฐฉ์‹์€ ํ•œ ์˜ˆ์ง€๋งŒ, ๋” ๋‚˜์•„๊ฐ€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์‚ฌ๋žŒ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ฐฐ์šฐ๋Š” RL (์˜ˆ: ์Œ์„ฑ์ด๋‚˜ ์ œ์Šค์ฒ˜๋กœ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์ฃผ๊ณ ๋ฐ›๋Š” ์‹œ์Šคํ…œ)๋„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์ˆ ์ ์œผ๋กœ ๋‚œ์ด๋„๊ฐ€ ๋†’์ง€๋งŒ, ์„ฑ๊ณตํ•œ๋‹ค๋ฉด RL์˜ ํ™œ์šฉ ํญ์„ ํฌ๊ฒŒ ๋„“ํž ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ณ ์ฐจ์› ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ(์ด๋ฏธ์ง€, LiDAR ๋“ฑ)๋กœ ์ž‘๋™ํ•˜๋Š” RL์—์„œ์˜ ๋ณด์ƒ ์„ค๊ณ„๋„ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ๋ช…์‹œ์  ๋ณด์ƒ์„ ์„ค๊ณ„ํ•˜๊ธฐ ๋งค์šฐ ์–ด๋ ค์šฐ๋ฉฐ, ์ข…์ข… end-to-end RL๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Sergey Levine ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ณด์ƒ ์„ค๊ณ„ ์—†์ด ๋กœ๋ด‡์— ์„ฑ๊ณต ๋ฐ๋ชจ๋งŒ ๋ช‡ ๊ฐœ ๋ณด์—ฌ์ฃผ๊ณ  SAC(Soft Actor-Critic) ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ์ทจํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์ž…๋ ฅ ๊ธฐ๋ฐ˜ ๋ฌผ์ฒด ์กฐ์ž‘์—์„œ 100%์— ๊ฐ€๊นŒ์šด ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์ƒ ์—†๋Š”(or ์ตœ์†Œ ๋ณด์ƒ) ํ•™์Šต์€, ๋ณด์ƒ ์„ค๊ณ„์˜ ์ˆ˜๊ณ ๋ฅผ ๋œ์–ด์ค€๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์™„์ „ํžˆ ๋ณด์ƒ์„ ์—†์•ค ๋ฐฉ์‹์—๋„ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ฐ๋ชจ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•œ ์ •์ฑ…์ด ํ•ญ์ƒ ์ตœ์ ์€ ์•„๋‹ˆ์–ด์„œ, ๋น„ํšจ์œจ์ ์ธ ๋™์ž‘์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๊ณ , ํ™˜๊ฒฝ ๋ณ€ํ™”(๋ฌผ์ฒด ์œ„์น˜๋‚˜ ์กฐ๋ช… ๋ณ€ํ™” ๋“ฑ)์— ์•ฝํ•˜๋ฉฐ, ์‚ฌ์šฉ์ž์˜ ์งˆ์˜ ๋˜๋Š” ๊ต์ • ๊ณผ์ •์ด ํ•„์š”ํ•˜๋ฉด ๊ทธ ์–‘์ด ๋งŽ์•„์ง€๋ฉด ํž˜๋“ค๋‹ค๋Š” ์ ์ด ์ง€์ ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๋ช…์‹œ์  ๋ณด์ƒ์„ ์ œ๊ฑฐํ•˜๋ฉด ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์–ด๋ ค์›€์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ด์ƒ์ ์ธ ๋ฐฉํ–ฅ์€, ๋ช…์‹œ์  ๋ณด์ƒ ์„ค๊ณ„์™€ ์•”์‹œ์  ์‹œ๋ฒ”/ํ”ผ๋“œ๋ฐฑ ํ•™์Šต์„ ์ ์ ˆํžˆ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋ฐ, ๊ธฐ๋ณธ์ ์ธ ๋ณด์ƒ ๊ตฌ์กฐ๋Š” ๊ฐ„๋‹จํžˆ ์„ค๊ณ„ํ•˜๋˜, ์„ธ๋ถ€์ ์ธ ํŠœ๋‹์ด๋‚˜ ์˜ˆ์™ธ ์ƒํ™ฉ ์ฒ˜๋ฆฌ๋Š” ๋ฐ๋ชจ๋‚˜ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋ณด์™„ํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ํ˜น์€ ๋ฐ˜๋Œ€๋กœ, ์ผ๋‹จ ๋ฐ๋ชจ๋กœ ํ•™์Šตํ•œ ํ›„์— ์ถ”๊ฐ€ Reward Shaping์œผ๋กœ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ ํ•˜๋‚˜์˜ ์—ด๋ฆฐ ๊ณผ์ œ๋Š” ์ž๋™ํ™”๋œ ๋ณด์ƒ ์„ค๊ณ„(Automated Reward Design)์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์„œ ๋‹ค๋ฃฌ BiPaRS๋‚˜ meta reward learning ๋“ฑ์ด ํฌํ•จ๋˜๋Š” ์ฃผ์ œ๋กœ์„œ, ๊ฐ•ํ™”ํ•™์Šต ์ž์ฒด๊ฐ€ ์ตœ์ ์˜ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ฐพ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ƒ์ ์œผ๋กœ๋Š”, ์‚ฌ์šฉ์ž๊ฐ€ ๋ชฉํ‘œ๋งŒ ๋ช…์‹œํ•˜๋ฉด AI๊ฐ€ ์Šค์Šค๋กœ ์ ํ•ฉํ•œ ๋ณด์ƒ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ํ•™์Šต๊นŒ์ง€ ํ•ด์ฃผ๋Š” ๊ฒƒ์ด์ฃ . ์ด๋ฅผ ์œ„ํ•ด์„  ๋ฉ”ํƒ€๋Ÿฌ๋‹, ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜, ํ˜น์€ ๊ณ ์ฐจ์› ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค์ด ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ์ด๋Ÿฌํ•œ ์ž๋™ํ™” ๊ธฐ๋ฒ•๋“ค์ด ์ดˆ๊ธฐ ๋‹จ๊ณ„์ด์ง€๋งŒ, ์ ์ฐจ ๋ฐœ์ „ํ•˜์—ฌ ๋ณด์ƒ ์„ค๊ณ„์˜ ๋ถ€๋‹ด์„ ํฌ๊ฒŒ ์ค„์—ฌ์ค„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

์‹ค์„ธ๊ณ„ ๊ฒ€์ฆ๋„ ์ค‘์š”ํ•œ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค. Reward Shaping ๊ธฐ๋ฒ•๋“ค์€ ์ฃผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ์ œํ•œ๋œ ์‹คํ—˜์—์„œ ํšจ์šฉ์„ ๋ณด์˜€์ง€๋งŒ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žกํ•œ ๋ฌธ์ œ๋“ค(์˜ˆ: ์ž์œจ์ฃผํ–‰ ์ „์ฒด ์‹œ์Šคํ…œ, ๊ณต์žฅ ์ž๋™ํ™” ๋ผ์ธ, ์˜๋ฃŒ ์ฒ˜์น˜ ์ „๋žต ๋“ฑ)์— ์ ์šฉ๋œ ์‚ฌ๋ก€๋Š” ์ ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ์˜์—ญ์— ๋Œ€ํ•œ ํŒŒ์ผ๋Ÿฟ ์ ์šฉ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด, ์‹ค์ œ๋กœ๋„ Reward Engineering์ด ์„ฑ๊ณผ๋ฅผ ๋‚ด๋Š”์ง€ ํ‰๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ˜„์‹ค ์ ์šฉ์—์„œ๋Š” ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ๋ฌธ์ œ(๋ณด์ƒ ํ•ดํ‚น์ด ์‚ฌํšŒ์ ์œผ๋กœ ์œ„ํ—˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ณ๋Š”๋‹ค๋“ ์ง€, ์œค๋ฆฌ์  ๋ฌธ์ œ ๋“ฑ)๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋‹คํ•™์ œ์  ๊ด€์ ์—์„œ ๋ณด์ƒ ์„ค๊ณ„์˜ ์˜ํ–ฅ์„ ์‚ดํ”ผ๋Š” ๊ฒƒ๋„ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ธ๊ฐ„ ๊ฐ€์น˜์™€์˜ ์ •๋ ฌ(Alignment) ๋ฌธ์ œ๋ฅผ ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ์—์ด์ „ํŠธ๊ฐ€ ๋†’์€ ๋ณด์ƒ์„ ์ซ“๋‹ค ๋ณด๋ฉด ์ธ๊ฐ„์ด ์›ํ•˜์ง€ ์•Š๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์šฐ๋ ค๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฑธ ๋ฐฉ์ง€ํ•˜๋ ค๋ฉด ์• ์ดˆ์— ์ธ๊ฐ„์˜ ๊ฐ€์น˜๊ด€์„ ๋ฐ˜์˜ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์œค๋ฆฌ์  AI, AI ์•ˆ์ „ ๋ถ„์•ผ์™€ ์—ฐ๊ณ„ํ•˜์—ฌ, ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด AI์˜ ํ–‰๋™์„ ์‚ฌํšŒ์ , ์œค๋ฆฌ์  ๊ธฐ์ค€๊ณผ ๋ถ€ํ•ฉํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์„ ๋ชจ์ƒ‰ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, Reward Engineering์€ ์•ž์œผ๋กœ ๋” ๋˜‘๋˜‘ํ•œ RL์„ ์œ„ํ•ด ๋ฐ˜๋“œ์‹œ ํ’€์–ด์•ผ ํ•  ์ˆ™์ œ๋“ค๊ณผ ๊ฐ€๋Šฅ์„ฑ์„ ํ•จ๊ป˜ ์ง€๋‹ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ƒ˜ํ”Œ ํšจ์œจ, ๊ฐ•๊ฑด์„ฑ, ์ธ๊ฐ„ ํ†ตํ•ฉ, ์ž๋™ํ™”, ์‹ค์ „ ์ ์šฉ, ๊ฐ€์น˜ ์ •๋ ฌ ๋“ฑ์ด ํ‚ค์›Œ๋“œ์ด๋ฉฐ, ๊ฐ๊ฐ ๋งŽ์€ ์—ฐ๊ตฌ ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„ ์‹œ์ ๊นŒ์ง€์˜ ์—ฐ๊ตฌ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์ด๋Ÿฌํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ํ˜์‹ ์ด ์ด์–ด์ง„๋‹ค๋ฉด, Reward Engineering์€ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ฏธ๋ž˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” ๊ฐ•ํ™”ํ•™์Šต์—์„œ์˜ Reward Engineering๊ณผ Reward Shaping ๊ธฐ๋ฒ•๋“ค์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ณ ์ฐฐํ•˜๊ณ  ์„ธ๋ถ€ ๋‚ด์šฉ์„ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ฌธํ—Œ์กฐ์‚ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ๋“ค์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๊ฐ ์ ‘๊ทผ๋ฒ•์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ์˜ˆ์‹œ, ์žฅ๋‹จ์ ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹ค์ œ ๋กœ๋ด‡ ๊ณตํ•™ ๋“ฑ ๋ถ„์•ผ๋ณ„ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•๋“ค์˜ ํšจ๊ณผ์™€ ๋„์ „๊ณผ์ œ๋ฅผ ๋…ผ์˜ํ•˜์˜€๊ณ , ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ๊ณผ ๋‚จ์€ ๊ณผ์ œ์— ๋Œ€ํ•ด์„œ๋„ ํ†ต์ฐฐ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

์ค‘์š”ํ•œ ๊ฒฐ๋ก  ์ค‘ ํ•˜๋‚˜๋Š”, ์ ์ ˆํ•œ Reward Shaping์€ ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•™์Šต ์†๋„์™€ ๊ฒฐ๊ณผ๋ฅผ ๋น„์•ฝ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณด์ƒ shaping์„ ํ†ตํ•ด ํ•™์Šต์„ ๊ฐ€์ด๋“œํ•˜๋ฉด ์—์ด์ „ํŠธ๋Š” ๋” ๋น ๋ฅด๊ฒŒ ๋ชฉํ‘œ๋ฅผ ๋ฐฐ์šฐ๊ณ , ๋ถˆํ™•์‹ค์„ฑ์ด๋‚˜ ์žก์Œ์ด ์žˆ์–ด๋„ ๊ฒฌ๋””๋ฉฐ, ๊ถ๊ทน์ ์œผ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ๋“ค์ด ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ ํ˜„๋Œ€ RL ๊ณผ์ œ (์˜ˆ: ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์ œ์–ด, ์ธ๊ฐ„๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ)์ผ์ˆ˜๋ก ์ด๋Ÿฌํ•œ ๋ณด์ƒ ์„ค๊ณ„ ์ „๋žต์ด ์„ฑ๊ณต์˜ ์—ด์‡ ์ž„์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๋™์‹œ์—, Reward Engineering์˜ ๊ตฌํ˜„์—๋Š” ์‹ ์ค‘ํ•จ๊ณผ ๋…ธ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ ์„ค๊ณ„๋Š” ์›์น˜ ์•Š์€ ํ–‰๋™์„ ๋‚ณ๊ฑฐ๋‚˜ ํ•™์Šต์„ ๋ง์น  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋„๋ฉ”์ธ ์ง€์‹๊ณผ ์‹คํ—˜์  ํŠœ๋‹์„ ์ ์ ˆํžˆ ํ™œ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” BiPaRS ๊ฐ™์€ ์ž๋™ํ™” ๊ธฐ๋ฒ•๋“ค์ด ๋‚˜์˜ค๊ณ  ์žˆ์œผ๋‚˜, ์—ฌ์ „ํžˆ ์‚ฌ๋žŒ์˜ ํŒ๋‹จ๊ณผ ์ฐฝ์˜์„ฑ์ด ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ๋ฌธ์ œ์— ๊ฐ€์žฅ ๋งž๋Š” ๋ฐฉ๋ฒ•์„ ๊ณจ๋ผ ์“ฐ๋Š” ์•ˆ๋ชฉ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

๋ณธ ๋ฆฌ๋ทฐ์˜ ๋‚ด์šฉ์„ ํ†ตํ•ด ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์‹ค์šฉ์  ์‹œ์‚ฌ์ ์€, ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์ž๋‚˜ ํ˜„์—… ์—”์ง€๋‹ˆ์–ด๋“ค์ด ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ์ ‘ํ•  ๋•Œ ๋‹ค์–‘ํ•œ Reward Shaping ๊ธฐ๋ฒ•์„ ๊ณ ๋ ค ๋ชฉ๋ก์— ๋„ฃ์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฌธ์ œ์—๋Š” ์ž ์žฌ ๋ณด์ƒ์ด, ์–ด๋–ค ๋ฌธ์ œ์—๋Š” ์ฐจ์ด ๋ณด์ƒ์ด, ๋˜ ๋‹ค๋ฅธ ๋ฌธ์ œ์—๋Š” ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์ด ์–ด์šธ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฆฌ๋ทฐ๊ฐ€ ์ œ์‹œํ•œ ๋ถ„๋ฅ˜์™€ ์‚ฌ๋ก€๋“ค์€ ๊ทธ๋Ÿฌํ•œ ํŒ๋‹จ์— ๊ฐ€์ด๋“œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ๊ฐ•ํ™”ํ•™์Šต์˜ ์‹ค์ œ ์ ์šฉ์—์„œ ๋ณด์ƒ ์„ค๊ณ„๋Š” ์ด์ œ ์„ ํƒ์ด ์•„๋‹Œ ํ•„์ˆ˜์— ๊ฐ€๊นŒ์›Œ์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ๋ชฉํ‘œ ํ•จ์ˆ˜๋ฅผ ์ •ํ•ด๋‘๊ณ  ๋ฐฉ์น˜ํ•˜๊ธฐ๋ณด๋‹ค๋Š”, ํ•™์Šต์ด ์ž˜ ๋˜๋„๋ก ๋ณด์ƒ์„ ์ •๊ตํžˆ ๋‹ค๋“ฌ์–ด์ฃผ๋Š” ๊ฒƒ์ด ์„ฑํŒจ๋ฅผ ์ขŒ์šฐํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” Reward Shaping์„ ๋” ์ž๋™ํ™”ํ•˜๊ณ  ์ฒด๊ณ„ํ™”ํ•˜์—ฌ, ๋งŽ์€ ๋ฌธ์ œ๋“ค์— ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ธ๊ฐ„์˜ ํ˜‘๋ ฅ์„ ๋ฐ›์•„๋“ค์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ RL์„ ๋ฐœ์ „์‹œ์ผœ, ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” AI๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐ ๊ธฐ์—ฌํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Reward Engineering ๋ฐ Reward Shaping์€ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ฐœ์ „๊ณผ ์‹ค์ œ ์‘์šฉ์— ์žˆ์–ด ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋ณธ ์ข…ํ•ฉ ๊ฒ€ํ† ๋ฅผ ํ†ตํ•ด ๊ทธ ํ˜„ํ™ฉ๊ณผ ์ „๋ง์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด ์ง€์‹์ด ์—ฐ๊ตฌ์ž์™€ ์‹ค๋ฌด์ž๋“ค์—๊ฒŒ ์œ ์šฉํ•œ ์ง€์นจ์ด ๋˜์–ด, ๋”์šฑ ์„ฑ๊ณต์ ์ธ RL ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ๋กœ ์ด์–ด์ง€๊ธธ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

+

  • Reinforcement learning with guarantees: a review

Copyright 2024, Jung Yeon Lee