Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 ์†Œ๊ฐœ ๋ฐ ๋ฐฐ๊ฒฝ
    • 2.2 ์ฃผ์š” ๊ธฐ์—ฌ ์š”์•ฝ
      • 2.2.1 NPG์˜ ํ•œ๊ณ„
      • 2.2.2 Behavior Cloning(BC)์œผ๋กœ ์ดˆ๊ธฐ ์ •์ฑ… ํ•™์Šต
      • 2.2.3 ๊ฐ•ํ™”ํ•™์Šต ํŒŒ์ธํŠœ๋‹ (Demo ๋ณด์กฐ ์†์‹ค ํฌํ•จ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ)
    • 2.3 ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„
      • 2.3.1 ๊ฐ•ํ™”ํ•™์Šต ๋‹จ๋…์œผ๋กœ๋Š” ํ•œ๊ณ„
      • 2.3.2 DAPG์˜ ์„ฑ๋Šฅ
      • 2.3.3 DAPG vs. DDPGfD ๋“ฑ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต
    • 2.4 ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์ „๋ง

๐Ÿ“ƒDAPG ๋ฆฌ๋ทฐ

il
rl
dapg
Learning Complex Dexterous Manipulation withDeep Reinforcement Learning and Demonstrations
Published

September 5, 2025

  • Paper Link
  • Homepage
  1. ์ด ๋…ผ๋ฌธ์€ ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์†์œผ๋กœ ๋ณต์žกํ•œ ์† ์กฐ์ž‘ ์ž‘์—…์„ ํ•™์Šตํ•˜๋Š” ์‹ฌ์ธต ๊ฐ•ํ™” ํ•™์Šต(DRL) ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์ง€๋งŒ, ๊ธฐ์กด DRL์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋‚ฎ์•„ ์‹ค์ œ ์‹œ์Šคํ…œ ์ ์šฉ์— ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ์ €์ž๋“ค์€ ์ ์€ ์ˆ˜์˜ ์ธ๊ฐ„ ๋ฐ๋ชจ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‹ฌ์ธต ๊ฐ•ํ™” ํ•™์Šต(DAPG)์˜ ์ƒ˜ํ”Œ ๋ณต์žก์„ฑ์„ ๊ทน์ ์œผ๋กœ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ด๋Š” ๋ช‡ ์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋กœ๋ด‡ ๊ฒฝํ—˜๋งŒ์œผ๋กœ๋„ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  3. ์ด ๋ฐฉ๋ฒ•์€ ๋ฌผ์ฒด ์žฌ๋ฐฐ์น˜, ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ ๋ณต์žกํ•œ ์† ์กฐ์ž‘ ์ž‘์—…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ, ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ฐ๋ชจ๋กœ๋ถ€ํ„ฐ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ฐ•๊ฑดํ•œ ์›€์ง์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

1 Brief Review

๊ณ ์ฐจ์› ๋ฏผ์ฒฉํ•œ(dexterous) ๋‹ค์ง€ ๋กœ๋ด‡ ์† ์ œ์–ด๋Š” ๋ณต์žกํ•˜๊ณ  ์ ‘์ด‰์ด ๋งŽ์•„ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์‹ฌ์ธต ๊ฐ•ํ™” ํ•™์Šต(DRL)์€ ๋ชจ๋ธ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์ด์ง€๋งŒ, ๊ณ ์ฐจ์› ๋ฏผ์ฒฉ ์กฐ์ž‘์— ํ™•์žฅ๋˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ ๋•Œ๋ฌธ์— ์‹ค์ œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” 24-DoF์˜ ๊ณ ์ฐจ์› ์†์œผ๋กœ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์„ ๋ชจ๋ธ ํ”„๋ฆฌ(model-free) DRL๋กœ ์Šคํฌ๋ž˜์น˜๋ถ€ํ„ฐ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์„ฑ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์†Œ์ˆ˜์˜ ์ธ๊ฐ„ ๋ฐ๋ชจ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ฐ๋ชจ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ƒ˜ํ”Œ ๋ณต์žก์„ฑ์„ ํฌ๊ฒŒ ์ค„์—ฌ ๋ช‡ ์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋กœ๋ด‡ ๊ฒฝํ—˜๋งŒ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฐ๋ชจ ์‚ฌ์šฉ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ฐ•๊ฑดํ•œ(robust) ์ •์ฑ…์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๊ฐ์ฒด ์žฌ๋ฐฐ์น˜(object relocation), ์† ์•ˆ ์กฐ์ž‘(in-hand manipulation), ๋„๊ตฌ ์‚ฌ์šฉ(tool use), ๋ฌธ ์—ด๊ธฐ(door opening) ์ž‘์—…์— ๋Œ€ํ•œ ์„ฑ๊ณต์ ์ธ ์ •์ฑ…์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์—์„œ๋Š” ๋กœ๋ด‡์ด ์ˆ™๋‹ฌํ•ด์•ผ ํ•  4๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ๋ฏผ์ฒฉ ์กฐ์ž‘ ์ž‘์—… ์„ธํŠธ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

  1. Object Relocation: ๊ฐ์ฒด๋ฅผ ์ง‘์–ด ๋ชฉํ‘œ ์œ„์น˜๋กœ ์˜ฎ๊น๋‹ˆ๋‹ค.
  2. In-hand Manipulation (Pen Repositioning): ์† ์•ˆ์—์„œ ๊ฐ์ฒด(ํŽœ)์˜ ๋ฐฉํ–ฅ์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
  3. Manipulating Environmental Props (Door Opening): ํ™˜๊ฒฝ์˜ ์ผ๋ถ€(๋ฌธ)๋ฅผ ์กฐ์ž‘ํ•ฉ๋‹ˆ๋‹ค.
  4. Tool Use (Hammer): ๋„๊ตฌ(๋ง์น˜)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชป์„ ๋ฐ•์Šต๋‹ˆ๋‹ค.

์‹คํ—˜์—๋Š” 24-DoF ADROIT ์†๊ณผ MuJoCo ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ ๋ฐ๋ชจ๋Š” VR ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์ˆ˜์ง‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ๋ฐ๋ชจ ๊ฐ•ํ™” ์ •์ฑ… ๊ฒฝ์‚ฌ๋ฒ•(Demo Augmented Policy Gradient, DAPG)์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ•ํ™” ํ•™์Šต๊ณผ ๋ชจ๋ฐฉ ํ•™์Šต์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ œ์–ด ๋ฌธ์ œ๋Š” MDP \mathcal{M} = \{\mathcal{S}, \mathcal{A}, R, \mathcal{T}, \rho_0, \gamma\}๋กœ ๋ชจ๋ธ๋ง๋ฉ๋‹ˆ๋‹ค. ์ •์ฑ… \pi_\theta๋Š” ๊ธฐ๋Œ€ ์ด ๋ณด์ƒ \eta(\pi) = E_{\pi, \mathcal{M}}[\sum_{t=0}^\infty \gamma^t r_t]๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ๋Š” Natural Policy Gradient(NPG)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

NPG๋Š” ๋ฐ”๋‹๋ผ ์ •์ฑ… ๊ฒฝ์‚ฌ(vanilla policy gradient) \mathbf{g} = \frac{1}{N T} \sum_{i=1}^N \sum_{t=1}^T \nabla_\theta \log \pi_\theta(a^i_t|s^i_t) \hat{A}^\pi(s^i_t, a^i_t, t)๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , Fisher Information Matrix \mathbf{F}_\theta = \frac{1}{N T} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(a^i_t|s^i_t) \nabla_\theta \log \pi_\theta(a^i_t|s^i_t)^T์˜ ์—ญํ–‰๋ ฌ๋กœ ์‚ฌ์ „ ์กฐ๊ฑดํ™”ํ•˜์—ฌ

์—…๋ฐ์ดํŠธ \theta_{k+1} = \theta_k + \sqrt{\frac{\delta}{\mathbf{g}^T \mathbf{F}_{\theta_k}^{-1} \mathbf{g}}} \mathbf{F}_{\theta_k}^{-1} \mathbf{g}๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

DAPG๋Š” ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์…‹ \rho_D๋ฅผ ํ™œ์šฉํ•˜์—ฌ RL์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.

  • ์ฒซ์งธ, ํ–‰๋™ ๋ณต์ œ(Behavior Cloning, BC)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ…์„ \max_\theta \sum_{(s,a) \in \rho_D} \ln \pi_\theta(a|s)๋ฅผ ํ†ตํ•ด ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ฐฉํ•˜๋„๋ก ์‚ฌ์ „ ํ•™์Šต(pretraining)ํ•˜์—ฌ ํƒ์ƒ‰์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
  • ๋‘˜์งธ, ์ฆ๊ฐ•๋œ ์†์‹ค(augmented loss)์„ ์‚ฌ์šฉํ•œ RL ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ •์ฑ… ๊ฒฝ์‚ฌ ์—…๋ฐ์ดํŠธ์— ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ํ•ญ์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ฆ๊ฐ•๋œ ๊ฒฝ์‚ฌ \mathbf{g}_{\text{aug}} = \sum_{(s,a) \in \rho_\pi} \nabla_\theta \ln \pi_\theta(a|s)A^\pi(s, a) + \sum_{(s,a) \in \rho_D} \nabla_\theta \ln \pi_\theta(a|s)w(s, a)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์—ฌ๊ธฐ์„œ w(s, a) = \lambda_0 \lambda_1^k \max_{(s',a') \in \rho_\pi} A^\pi(s',a')๋Š” ๋ฐ๋ชจ์— ๋Œ€ํ•œ ์–ด๋“œ๋ฐดํ‹ฐ์ง€ ์ •๋ณด๋ฅผ ๊ทผ์‚ฌํ•˜๊ธฐ ์œ„ํ•œ ํœด๋ฆฌ์Šคํ‹ฑ ๊ฐ€์ค‘์น˜๋กœ, ํ•™์Šต์ด ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, sparse ๋ณด์ƒ์œผ๋กœ๋Š” NPG์™€ DDPG ๋ชจ๋‘ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค (in-hand ์ž‘์—… ์ œ์™ธ). shaped ๋ณด์ƒ์œผ๋กœ๋Š” NPG๋Š” ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ์ ์ด๊ณ (๋ช‡๋ฐฑ ๋กœ๋ด‡ ์‹œ๊ฐ„ ์†Œ์š”), ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šฐ๋ฉฐ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. DDPG๋Š” ์„ฑ๊ณต์ ์ธ ์ •์ฑ… ํ•™์Šต์— ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, DAPG๋Š” ํฌ์†Œํ•œ ๋ณด์ƒ ์„ค์ •์—์„œ ๋‹ค๋ฅธ ๋ฐ๋ชจ ํ™œ์šฉ ๋ฐฉ๋ฒ•์ธ DDPGfD๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. DAPG๋Š” ๋ชจ๋“  ์ž‘์—…์—์„œ ๋ช‡ ๋กœ๋ด‡ ์‹œ๊ฐ„ ์•ˆ์— ์ •์ฑ…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, Object Relocation ์ž‘์—…์—์„œ ์Šคํฌ๋ž˜์น˜ ํ•™์Šต๋ณด๋‹ค ์•ฝ 30๋ฐฐ ๋นจ๋ž์Šต๋‹ˆ๋‹ค. DAPG๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ฐ๋ชจ๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ์ „๋žต์˜ ๊ฐ•๊ฑดํ•จ์„ ํฌ์ฐฉํ•˜์—ฌ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๋” ๊ฐ•๊ฑดํ•˜๋ฉฐ, ๋” ์ธ๊ฐ„์ ์ธ ๋™์ž‘์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ์•™์ƒ๋ธ”(ensemble)์— ๋Œ€ํ•ด ํ•™์Šตํ•  ๋•Œ๋„ DAPG๊ฐ€ ์Šคํฌ๋ž˜์น˜ RL๋ณด๋‹ค ๋” ๊ฐ•๊ฑดํ•œ ์ •์ฑ…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๊ณ ์ฐจ์› ๋ฏผ์ฒฉ ์กฐ์ž‘ ์ž‘์—…์„ ์œ„ํ•œ DRL ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. DAPG๋Š” ๋ฐ๋ชจ๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ, ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ ๋ฐ ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋ช‡ ์‹œ๊ฐ„ ์•ˆ์— ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜์—ฌ ์‹ค์ œ ์‹œ์Šคํ…œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


2 Detail Review

2.1 ์†Œ๊ฐœ ๋ฐ ๋ฐฐ๊ฒฝ

๋‹ค์ˆ˜์˜ ๊ด€์ ˆ์„ ๊ฐ€์ง„ ๋‹ค์ง€ ์† ๋กœ๋ด‡(multi-fingered dexterous hand)์€ ์ธ๊ฐ„ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ž ์žฌ๋ ฅ์„ ์ง€๋‹ˆ์ง€๋งŒ, ์ œ์–ด์˜ ๋‚œ์ด๋„๊ฐ€ ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ์†๊ฐ€๋ฝ์ด ์—ฌ๋Ÿฌ ๊ฐœ์ธ ๋กœ๋ด‡ ์†์€ ๊ณ ์ฐจ์› ๊ด€์ ˆ ๊ณต๊ฐ„๊ณผ ๋ณต์žกํ•œ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ–๊ณ  ์žˆ์œผ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ์ฅ๊ฑฐ๋‚˜ ์กฐ์ž‘ํ•˜๋Š” ๊ณผ์ •์—์„œ ์ ‘์ด‰ ์ง€์ ์ด ์ˆ˜์‹œ๋กœ ๋ฐ”๋€Œ๊ณ  ๋™์—ญํ•™์ด ๋ถˆ์—ฐ์†์ ์œผ๋กœ ๋ณ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์ด์œ ๋กœ, ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ๋Š” ์† ๋กœ๋ด‡ ์ œ์–ด๋ฅผ ์‰ฝ๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๊ตฌ์กฐ์ ์œผ๋กœ ๋‹จ์ˆœํ•œ ์†์ด๋‚˜ ์ œํ•œ๋œ ๋™์ž‘์— ์ง‘์ค‘ํ•˜๊ณค ํ–ˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์†๊ฐ€๋ฝ์„ ๋‘์„ธ ๊ฐœ๋กœ ์ œํ•œํ•˜๊ฑฐ๋‚˜ ํŠน์ˆ˜ ๊ธฐ๊ณ„์  ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜๊ฑฐ๋‚˜, ํŒŒ์ง€(grasping)๋‚˜ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ์—์„œ ๊ฐ„๋‹จํžˆ ํšŒ์ „์‹œํ‚ค๋Š” ์ •๋„์˜ ๋น„๊ต์  ๋‹จ์ˆœํ•œ ์ž‘์—…์„ ์ฃผ๋กœ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ ๋™์ž‘๋“ค์„ ์„ฑ๊ณต์‹œํ‚จ ์‚ฌ๋ก€๋„ ์žˆ์—ˆ์ง€๋งŒ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žกํ•œ ์ ‘์ด‰์ด ์žˆ๋Š” ์ƒํ™ฉ์—์„  ์ •ํ™•ํ•œ ๋ชจ๋ธ๋ง์ด ์–ด๋ ค์›Œ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ฐ•ํ™”ํ•™์Šต(RL)์€ ๋™์—ญํ•™ ๋ชจ๋ธ ์—†์ด ์‹œ๋„-์˜ค์ฐจ๋ฅผ ํ†ตํ•ด ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ฏ€๋กœ, ๋ณต์žกํ•œ ๋กœ๋ด‡ ์ œ์–ด ๋ฌธ์ œ์— ์œ ์—ฐํ•˜๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋”ฅ ๊ฐ•ํ™”ํ•™์Šต(DRL)์„ ๋‹ค์ง€ ์† ์กฐ์ž‘์— ์ ์šฉํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์€ ๊ฑฐ์˜ ์—†์—ˆ๊ณ , ์ฃผ๋กœ 7-DoF ๋กœ๋ด‡ ํŒ” ๋“ฑ ๋น„๊ต์  ๊ฐ„๋‹จํ•œ ์กฐ์ž‘์ด๋‚˜ ๋ณดํ–‰ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ถ„์•ผ์— ๊ตญํ•œ๋˜์–ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด ํ‘œ์ค€์ ์ธ RL ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ๋“ค์€ ์ฐจ์›์ด ๋‚ฎ์•„, ์„ ํ˜• ์ •์ฑ…์œผ๋กœ๋„ ์‰ฝ๊ฒŒ ํ•ด๊ฒฐ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์„ ์ •๋„๋กœ ๋‹จ์ˆœํ•˜์—ฌ, ๊ณ ์ฐจ์› ์† ์กฐ์ž‘์˜ ๋‚œ์ œ๋ฅผ ๋Œ€๋ณ€ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ํ”„๋ฆฌ RL์ด ์ด๋ ‡๊ฒŒ ๋ณต์žกํ•œ ์† ์กฐ์ž‘ ์ž‘์—…์— ์ง์ ‘ ์ ์šฉ๋˜์–ด ์„ฑ๊ณตํ•œ ์‚ฌ๋ก€๋Š” ๋…ผ๋ฌธ ๋ฐœํ‘œ ์‹œ์ ๊นŒ์ง€ ์ „๋ก€๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋ฆฌ๋ทฐ์˜ ๋Œ€์ƒ์ธ Rajeswaran et al.(2018)์˜ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์†์˜ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์„ ๋”ฅ RL๋กœ ํ•ด๊ฒฐํ•œ ์ตœ์ดˆ์˜ ์—ฐ๊ตฌ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ํŠนํžˆ, ์†Œ์ˆ˜์˜ ์ธ๊ฐ„ Demo(demonstrations) ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ•ํ™”ํ•™์Šต์˜ ํƒ์ƒ‰ ๋ฌธ์ œ์™€ ํ‘œ๋ณธ ํšจ์œจ ๋ฌธ์ œ๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์˜€์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ณผ๊ฑฐ์—๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ˆ˜๋ฐฑ ์‹œ๊ฐ„ ๊ฑธ๋ฆฌ๋˜ ํ•™์Šต์„ ๋ถˆ๊ณผ ๋ช‡ ์‹œ๊ฐ„์˜ ๋กœ๋ด‡ ๊ฒฝํ—˜(๋ช‡ ํšŒ์˜ ์—ํ”ผ์†Œ๋“œ)์œผ๋กœ ๋‹จ์ถ•ํ•˜์˜€๊ณ , ํ•™์Šต๋œ ์ •์ฑ…์˜ ๋™์ž‘์ด ๋” ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๊ฒฌ๊ณ ํ•ด์ง€๋Š” ํšจ๊ณผ๋„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋ฆฌ๋ทฐ์—์„œ๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ์™€ ๊ธฐ์ˆ ์  ์•„์ด๋””์–ด, ์ œ์•ˆํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ DAPG (Demo Augmented Policy Gradient)์˜ ๊ตฌ์ฒด์ ์ธ ๋™์ž‘ ์›๋ฆฌ, ๊ทธ๋ฆฌ๊ณ  ์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ธฐ์กด ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ๋ณธ ๋…ผ๋ฌธ์˜ ์ฐจ๋ณ„์ ๋„ ํ•จ๊ป˜ ์งš์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

2.2 ์ฃผ์š” ๊ธฐ์—ฌ ์š”์•ฝ

์ด ๋…ผ๋ฌธ์—์„œ ์ €์ž๋“ค์€ ๋ณต์žกํ•œ ๋‹ค์ง€ ์† ์กฐ์ž‘ ํ•™์Šต ๋ถ„์•ผ์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ๋ชจ๋ธ ํ”„๋ฆฌ ๋”ฅ RL๋กœ ๊ณ ์ฐจ์› ์† ์กฐ์ž‘ ์ž‘์—… ์„ฑ๊ณต: ์ธ๊ฐ„ ์†๊ณผ ์œ ์‚ฌํ•œ 5-์†๊ฐ€๋ฝ 24์ž์œ ๋„ ๋กœ๋ด‡ ์†์„ ์ด์šฉํ•ด, ๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ, ์†์•ˆ์—์„œ ๋ฌผ์ฒด ์žฌ๋ฐฐ์น˜, ๋„๊ตฌ ์‚ฌ์šฉ, ๋ฌธ ์—ด๊ธฐ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ ‘์ด‰์ด ์žˆ๋Š” ๋ณต์žกํ•œ ์ž‘์—…๋“ค์„ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์‚ฌ์ „์ง€์‹ ์—†์ด RL๋งŒ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์„ฑ๊ณต์ ์œผ๋กœ ์‹œ์—ฐํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋ก ์ ์œผ๋กœ๋‚˜ ์‹คํ—˜์ ์œผ๋กœ ์ตœ์ดˆ์˜ ์„ฑ๊ณผ๋กœ์„œ, ๊ณ ์ฐจ์› ์† ์กฐ์ž‘์—๋„ ๋ชจ๋ธ ํ”„๋ฆฌ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • Demo ๋ฐ์ดํ„ฐ ํ™œ์šฉ์„ ํ†ตํ•œ ํ•™์Šต ํšจ์œจ ๋น„์•ฝ์  ํ–ฅ์ƒ: ๊ฐ ์ž‘์—…๋งˆ๋‹ค *25๊ฐœ ์ •๋„์˜ ์ธ๊ฐ„ Demo์„ ๊ฐ€์ƒํ˜„์‹ค(VR) ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์ˆ˜์ง‘ํ•˜๊ณ  ํ™œ์šฉํ•จ์œผ๋กœ์จ, ํƒ์ƒ‰ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ํ•™์Šต์— ํ•„์š”ํ•œ ์ƒ˜ํ”Œ(๋ฐ์ดํ„ฐ) ์–‘์„ ๋“œ๋ผ๋งˆํ‹ฑํ•˜๊ฒŒ ๊ฐ์†Œ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ ๋ช‡ ์‹œ๊ฐ„์— ๋ถˆ๊ณผํ•œ ๋กœ๋ด‡ ๊ฒฝํ—˜(์˜ˆ: 5์‹œ๊ฐ„ ๊ฐ€๋Ÿ‰)๋งŒ์œผ๋กœ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•ด๋‹น ์ž‘์—…๋“ค์„ ์‹ค์ œ ๋กœ๋ด‡์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์„ ๋งŒํผ ์‹ค์šฉ์ ์ธ ์‹œ๊ฐ„ ๋‚ด์— ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์œผ๋กœ ์ƒ˜ํ”Œ ํšจ์œจ์„ ๊ฐœ์„ ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • Demo์œผ๋กœ ์–ป์€ ์ž์—ฐ์Šค๋Ÿฌ์›€ ๋ฐ ๊ฐ•์ธ์„ฑ ํ–ฅ์ƒ: Demo ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•œ ์ •์ฑ…๋“ค์€ *๋ณด์ƒํ•จ์ˆ˜ ์„ค๊ณ„๋ฅผ ์ตœ์†Œํ™”ํ•ด๋„ ์„ฑ๊ณต๋ฅ ์ด ๋†’์•˜์„ ๋ฟ ์•„๋‹ˆ๋ผ, ์‚ฌ๋žŒ์˜ ๋™์ž‘์„ ๋‹ฎ์€ ๋ถ€๋“œ๋Ÿฝ๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ์›€์ง์ž„์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋™์ผํ•œ ์ž‘์—…์ด๋ผ๋„ ํ™˜๊ฒฝ ์กฐ๊ฑด(์˜ˆ: ๋ฌผ์ฒด ์งˆ๋Ÿ‰์ด๋‚˜ ๋งˆ์ฐฐ ๋“ฑ)์„ ๋ฐ”๊พธ์—ˆ์„ ๋•Œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋œํ•˜๊ณ  ๊ฒฌ๊ณ ํ•˜๊ฒŒ ๋™์ž‘ํ•˜์—ฌ, Demo์„ ํ†ตํ•ด ์ธ๊ฐ„ ์ „๋žต์˜ ๋‚ด์žฌ๋œ ๊ฐ•์ธ์„ฑ์ด ์ •์ฑ…์— ์Šค๋ฉฐ๋“ค์—ˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ƒˆ๋กœ์šด ํ‘œ์ค€ ๊ณผ์ œ ์„ธํŠธ ์ œ์•ˆ: ์ €์ž๋“ค์€ ํ–ฅํ›„ ์—ฐ๊ตฌ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก, ์•ž์„œ ์–ธ๊ธ‰ํ•œ 4๊ฐ€์ง€ *๋‹ค์–‘ํ•œ ์† ์กฐ์ž‘ ์ž‘์—… ํ™˜๊ฒฝ์„ ์ •์‹์œผ๋กœ ๊ตฌ์ถ•ํ•˜์—ฌ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…๋“ค์€ ๊ณ ์ฐจ์›, ํ’๋ถ€ํ•œ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ, ๊ณผ์—…์˜ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ ์‹ค์ œ ์ธ๊ฐ„ ํ™˜๊ฒฝ์˜ ๊ณผ์ œ๋ฅผ ์ž˜ ๋Œ€ํ‘œํ•˜๋ฉฐ, ๋กœ๋ด‡ ์กฐ์ž‘๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ต์ฐจ ๋ถ„์•ผ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด ์ด ๋…ผ๋ฌธ์€, โ€œ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์†๋„ ๋”ฅ RL๋กœ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์†Œ๋Ÿ‰์˜ Demo์„ ๋”ํ•˜๋ฉด ํ•™์Šต ์†๋„์™€ ์ •์ฑ… ํ’ˆ์งˆ ๋ชจ๋‘ ๊ทน์ ์œผ๋กœ ํ–ฅ์ƒ๋œ๋‹ค.โ€๋Š” ๊ฒƒ์„ ์ตœ์ดˆ๋กœ ์ฆ๋ช…ํ•˜๋ฉฐ, ๊ทธ ๋ฐฉ๋ฒ•์œผ๋กœ DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ œ์‹œํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ํ™˜๊ฒฝ: ๋ณต์žกํ•œ ๋‹ค์ง€ ์† ์กฐ์ž‘ ๊ณผ์ œ๋“ค์ €์ž๋“ค์€ ์ธ๊ฐ„ํ˜• 5-์†๊ฐ€๋ฝ ๋กœ๋ด‡ ์† (24 DoF)์˜ ๋‚œ์ด๋„๋ฅผ ์ถฉ๋ถ„ํžˆ ์ฒด๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋„ค ๊ฐ€์ง€ ๋Œ€ํ‘œ ์ž‘์—…์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์— ๊ตฌํ˜„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…๋“ค์€ ์ผ์ƒ์—์„œ ์‚ฌ๋žŒ์ด ์†์œผ๋กœ ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๋ฐ˜์˜ํ•˜๋ฉฐ, ๊ฐ€์ƒ ํ˜„์‹ค(VR) ์žฅ์น˜๋ฅผ ํ†ตํ•ด ์‚ฌ๋žŒ์œผ๋กœ๋ถ€ํ„ฐ Demo ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์—๋Š” ํ™˜๊ฒฝ์˜ ๋ฌด์ž‘์œ„์„ฑ์ด ๋„์ž…๋˜์–ด ์ดˆ๊ธฐ ์ƒํƒœ๋‚˜ ๋Œ€์ƒ์˜ ์†์„ฑ์ด ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋‹ฌ๋ผ์ง€๋ฉฐ, ์ตœ์ข… ์„ฑ๊ณต ์—ฌ๋ถ€๋งŒ์œผ๋กœ ๋ณด์ƒ์ด ์ฃผ์–ด์ง€๋Š” ์ด์ง„ ์„ฑ๊ณต ๊ธฐ์ค€(sparsereward)์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.

๋„ค ๊ฐ€์ง€ ๊ณผ์ œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ (Object Relocation): ํ…Œ์ด๋ธ” ์œ„์— ๋†“์ธ ํŒŒ๋ž€ ๊ณต์„ ์ง‘์–ด ๋“ค์–ด์„œ ์ดˆ๋ก์ƒ‰ ๋ชฉํ‘œ ์ง€์ ๊นŒ์ง€ ์˜ฎ๊ธฐ๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๊ณต๊ณผ ๋ชฉํ‘œ ์œ„์น˜๊ฐ€ ํ…Œ์ด๋ธ” ์œ„ ์ž„์˜์˜ ๊ณณ์œผ๋กœ ์„ค์ •๋˜๋ฉฐ, ๊ณต์ด ๋ชฉํ‘œ ์ง€์ ์˜ ๋ฐ˜๊ฒฝ ฮต ์ด๋‚ด์— ๋†“์ด๋ฉด ์„ฑ๊ณต์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ๊ธฐ๋ณธ์ ์ธ ํŒŒ์ง€ ๋ฐ ์ด์†ก ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ์†-๋ฌผ์ฒด ๊ฐ„ ๋‹ค์ค‘ ์ ‘์ด‰์ด ํ•„์š”ํ•œ ๋Œ€ํ‘œ์  ์ž‘์—…์ž…๋‹ˆ๋‹ค.
  2. ์† ์•ˆ์—์„œ ๋ฌผ์ฒด ์กฐ์ž‘ (In-hand Manipulation): ์†์— ์ฅ” ํŽœ์˜ ๋ฐฉํ–ฅ์„ ์žฌ์กฐ์ •ํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋ชฉํ‘œ ๋ฐฉํ–ฅ(๋…น์ƒ‰ ํ‘œ์‹œ)์— ๋งž์ถ”๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์†๋ชฉ์€ ๊ณ ์ •๋œ ์ฑ„ ์†๊ฐ€๋ฝ๋“ค๋งŒ ์ด์šฉํ•˜๋ฉฐ, ๋งค ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ํŽœ์˜ ์ดˆ๊ธฐ ์ž์„ธ์™€ ๋ชฉํ‘œ ์ž์„ธ๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ํŽœ์˜ ๋ฐฉํ–ฅ์ด ๋ชฉํ‘œ์™€ ์ผ์ • ํ—ˆ์šฉ ์˜ค์ฐจ ์ด๋‚ด๋กœ ์ผ์น˜ํ•˜๋ฉด ์„ฑ๊ณต์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ์†๊ฐ€๋ฝ๋“ค์˜ ํ˜‘์กฐ์ ์ธ ๋ฏธ์„ธ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ์—ฐ์†์  ์ ‘์ด‰ ๋ฐ ์žฌ๊ทธ๋ฆฝ(re-grasping) ๋“ฑ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.
  3. ๋ฌธ ์—ด๊ธฐ (Door Opening): ์†์œผ๋กœ ๋ฌธ ์†์žก์ด์˜ ๊ฑธ์‡ (latch)๋ฅผ ํ•ด์ œํ•˜๊ณ  ๋ฌธ์„ ๋ฐ€์–ด ์—ด๊ธฐ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ๋ฌธ์˜ ์ดˆ๊ธฐ ๋‹ซํžŒ ๊ฐ๋„์™€ ๊ฑธ์‡ ์˜ ์ƒํƒœ๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •๋˜๋ฉฐ, ๊ฑธ์‡ ์—๋Š” ๋งˆ์ฐฐ๋ ฅ๊ณผ ๋ฌธ์„ ๋‹ซํžˆ๋„๋ก ์žก์•„๋‹น๊ธฐ๋Š” ํ† ํฌ(์Šคํ”„๋ง)๊ฐ€ ์กด์žฌํ•ด ์†์žก์ด๋ฅผ ์–ด๋А ์ •๋„ ํž˜์ค˜ ๋Œ๋ ค์•ผ ์—ด๋ฆฝ๋‹ˆ๋‹ค. ๋ฌธ์ด ์™„์ „ํžˆ ์—ด๋ ค ๋ฌธํ„ฑ(stopper)์— ๋‹ฟ์œผ๋ฉด ์„ฑ๊ณต์œผ๋กœ ํŒ์ •๋ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ๋ณต์žกํ•œ ๋„๊ตฌ-ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ๋‹ค๋‹จ๊ณ„ ํ–‰๋™ ์‹œํ€€์Šค(๊ฑธ์‡  ํ’€๊ธฐ โ†’ ๋ฐ€๊ธฐ)๋ฅผ ํฌํ•จํ•˜์—ฌ, ์† ์กฐ์ž‘์˜ ํƒ์ƒ‰ ๋‚œ์ด๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ธ ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค.
  4. ๋„๊ตฌ ์‚ฌ์šฉ (Tool Use โ€“ Hammering): ๋ฐ”๋‹ฅ์— ๊ณ ์ •๋œ ๋ชป์„ ๋ง์น˜๋กœ ๋‚ด๋ฆฌ์ณ ๋ฐ•๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ํ…Œ์ด๋ธ” ์œ„์— ๋†“์ธ ๋ง์น˜๋ฅผ ์†์œผ๋กœ ์ง‘์–ด ๋“ค์–ด ๋ชฉํ‘œ ๋ชป์˜ ๋จธ๋ฆฌ๋ฅผ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ๋‘๋“œ๋ ค์„œ, ๊ฒฐ๊ตญ ๋ชป ์ „์ฒด๋ฅผ ๋‚˜๋ฌด ํŒ์ž์— ๋ฐ•์•„ ๋„ฃ์œผ๋ฉด ์„ฑ๊ณต์ž…๋‹ˆ๋‹ค. ๋ชป์€ ๋งˆ์ฐฐ๋กœ ์•ฝ 15N์˜ ํž˜๊นŒ์ง€ ๋ฒ„ํ‹ฐ๋„๋ก ์„ค๊ณ„๋˜์–ด, ์ถฉ๋ถ„ํ•œ ํƒ€๊ฒฉ ํž˜์„ ๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ๋ฌผ์ฒด ํŒŒ์ง€ โ†’ ๊ทผ๋ ฅ ๋™์ž‘์œผ๋กœ ์ด์–ด์ง€๋Š” ๋ณต์žกํ•œ ํ™œ์šฉ์ด๋ฉฐ, ๋น„์—ฐ์†์ ์ธ ์ถฉ๊ฒฉ ์ ‘์ด‰๊ณผ ๋„๊ตฌ์˜ ์ •ํ™•ํ•œ ์กฐ์ž‘์ด ์š”๊ตฌ๋˜๋Š” ๋‚œ๋„ ๋†’์€ ํ™˜๊ฒฝ์ž…๋‹ˆ๋‹ค.

DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ•™์Šต๋œ ๋กœ๋ด‡ ์†์˜ ๋„๊ตฌ ์‚ฌ์šฉ (๋ง์น˜์งˆ) ๊ณผ์ œ ์ˆ˜ํ–‰ ์žฅ๋ฉด. ๋กœ๋ด‡ ์†์ด ์ฑ…์ƒ ์œ„์˜ ๋ง์น˜๋ฅผ ์ง‘์–ด ๋“ค๊ณ  ๋ฐ”๋‹ฅ์˜ ๋ชป์„ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ํƒ€๊ฒฉํ•˜์—ฌ ๋๊นŒ์ง€ ๋ฐ•๋Š” ๋ณต์žกํ•œ ๋™์ž‘์„ ์„ฑ๊ณต์‹œ์ผฐ๋‹ค. ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์•ฝ 25๊ฐœ์˜ ์ธ๊ฐ„ Demo์œผ๋กœ ์ดˆ๊ธฐ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚จ ํ›„, ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋ช‡ ์‹œ๊ฐ„ ๋งŒ์— ์ด๋Ÿฌํ•œ ํ–‰๋™์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค. ํ•ด๋‹น ์ •์ฑ…์€ ์‚ฌ๋žŒ Demo์„ ์ฐธ๊ณ ํ•˜์—ฌ ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ๋™์ž‘์ด ๋น„๊ต์  ์ž์—ฐ์Šค๋Ÿฝ๊ณ , ํ™˜๊ฒฝ ๋ณ€ํ™”์—๋„ ๊ฐ•๊ฑดํ•œ ํŠน์ง•์„ ๋ณด์˜€๋‹ค.

๊ฐ ์ž‘์—…์€ ์„œ๋กœ ๋‹ค๋ฅธ ๊ธฐ์ˆ ์  ๋„์ „์š”์†Œ๋ฅผ ๊ฐ–๊ณ  ์žˆ์–ด์„œ, ํ•˜๋‚˜์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋‹ค์–‘ํ•œ ์ธก๋ฉด์—์„œ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆ๋ฐ›๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ๋Š” ์ ‘๊ทผ ๋ฐ ํŒŒ์ง€(grasp & lift) ๋Šฅ๋ ฅ, ์†๋‚ด ์กฐ์ž‘์€ ์ •๊ตํ•œ ์ž์„ธ ์ œ์–ด, ๋ฌธ ์—ด๊ธฐ๋Š” ๋‹ค๋‹จ๊ณ„ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ํž˜ ์กฐ์ ˆ, ๋ง์น˜์งˆ์€ ๊ณต๊ตฌ ํ™œ์šฉ ๋ฐ ์ถฉ๊ฒฉ๋ ฅ ์ œ์–ด๋ผ๋Š” ์‹์œผ๋กœ, ์†์žฌ์ฃผ(hand dexterity)์˜ ํญ๋„“์€ ๋ฒ”์œ„๋ฅผ ์•„์šฐ๋ฅด๋„๋ก ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ง์น˜์งˆ์ด๋‚˜ ๋ฌธ ์—ด๊ธฐ ๋“ฑ์˜ ์ž‘์—…์€ ์ด์ „ ์—ฐ๊ตฌ๋“ค์—์„œ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๋˜ ๋ณตํ•ฉ ๊ณผ์ œ๋กœ์„œ, ์‹ค์ œ ๊ฐ€์ •ํ™˜๊ฒฝ์—์„œ ๋กœ๋ด‡ ์†์ด ํ•ด์•ผ ํ•  ์œ ์šฉํ•œ ์ž‘์—…๋“ค์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ํ‘œ์ค€ ๊ณผ์ œ ์„ธํŠธ๋ฅผ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ, ํ–ฅํ›„ ์—ฐ๊ตฌ์ž๋“ค์ด ๋กœ๋ด‡ ์†+๊ฐ•ํ™”ํ•™์Šต ๋ถ„์•ผ์—์„œ ๊ณตํ†ต์œผ๋กœ ๋„์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์˜€์Šต๋‹ˆ๋‹ค.

2.2.1 NPG์˜ ํ•œ๊ณ„

Demo Augmented Policy Gradient (DAPG) ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ•ํ™”ํ•™์Šต(RL)๊ณผ ๋ชจ๋ฐฉํ•™์Šต(Demo)์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ, ํƒ์ƒ‰ ์–ด๋ ค์›€๊ณผ ์ƒ˜ํ”Œ ๋น„ํšจ์œจ ๋ฌธ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์ €์ž๋“ค์€ ์˜จ-ํด๋ฆฌ์‹œ(on-policy) ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ ๊ธฐ๋ฐ˜์˜ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์˜€๋Š”๋ฐ, ์ด๋Š” Natural Policy Gradient (NPG) ๋ฐฉ๋ฒ•์œผ๋กœ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

NPG๋Š” ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„์—์„œ Fisher Information Matrix๋กœ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์ •๊ทœํ™”ํ•˜์—ฌ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ๊ณ ์ฐจ์› ์—ฐ์† ์ œ์–ด ๋ฌธ์ œ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์•ˆ์ •์ ์ด๊ณ  ์„ฑ๋Šฅ์ด ์ข‹์€ ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋จผ์ € ์ด ๊ธฐ๋ณธ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์„ ํ‘ธ๋Š” ๊ฒƒ์„ ์‹œ๋„ํ•ด๋ณด์•˜๋Š”๋ฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๋ฅผ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค:

  • ๋ณด์ƒ ์„ค๊ณ„์˜ ์–ด๋ ค์›€: ์ˆœ์ˆ˜ RL๋กœ๋Š” ์„ฑ๊ณต/์‹คํŒจ์— ๋Œ€ํ•œ ์ด์ง„ ๋ณด์ƒ(sparse reward)๋งŒ ์ฃผ์—ˆ์„ ๋•Œ ํ•™์Šต์ด ์ง„ํ–‰๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ๋Š” ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ๊ฑฐ์˜ ๋ชป ์ฐพ์•„๋‚ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ž‘์—…๋ณ„๋กœ ์‚ฌ๋žŒ์ด ์„ธ๋ฐ€ํ•œ shaping ๋ณด์ƒ(ํžŒํŠธ์„ฑ ์ค‘๊ฐ„ ๋ณด์ƒ)์„ ์„ค๊ณ„ํ•ด์ฃผ์–ด์•ผ ํ•™์Šต์ด ๊ฒจ์šฐ ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์ƒ ์„ค๊ณ„๋Š” ๋งŽ์€ ๋…ธ๋ ฅ๊ณผ ํœด๋ฆฌ์Šคํ‹ฑ์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ƒ˜ํ”Œ ์š”๊ตฌ๋Ÿ‰ ๋ฌธ์ œ: ๋ณด์ƒ์„ ์ž˜ ์„ค๊ณ„ํ•ด ์ฃผ์–ด RL์ด ํ•™์Šต์— ์„ฑ๊ณตํ•˜๋”๋ผ๋„, ์ˆ˜๋ฐฑ๋งŒ ์Šคํ…์— ๋‹ฌํ•˜๋Š” ๊ฒฝํ—˜์ด ํ•„์š”ํ•˜์—ฌ ํ•™์Šต ์‹œ๊ฐ„์ด ๋งค์šฐ ๊ธธ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด ์–ด๋–ค ์ž‘์—…์€ 100 ์‹œ๊ฐ„๋ถ„์— ํ•ด๋‹นํ•˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜๊ธฐ์—” ๋น„ํ˜„์‹ค์ ์œผ๋กœ ๋งŽ์€ ์–‘์ž…๋‹ˆ๋‹ค (๋กœ๋ด‡์„ 100์‹œ๊ฐ„ ์—ฐ์† ๊ตฌ๋™ํ•˜๋ฉฐ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ์•ˆ์ „์ด๋‚˜ ๋น„์šฉ ๋ฉด์—์„œ ์‰ฝ์ง€ ์•Š์Šต๋‹ˆ๋‹ค).
  • ํ•™์Šต๋œ ์ •์ฑ… ํ’ˆ์งˆ ๋ฌธ์ œ: ์ˆœ์ˆ˜ RL๋กœ ๊ฒจ์šฐ ์–ป์–ด์ง„ ์ •์ฑ…๋“ค์กฐ์ฐจ ๋™์ž‘์ด ์–ด์ƒ‰ํ•˜๊ณ  ๋น„ํšจ์œจ์ ์ด๋ฉฐ, ํ™˜๊ฒฝ ์กฐ๊ฑด์ด ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ ธ๋„ ์‹คํŒจํ•  ์ •๋„๋กœ ์ทจ์•ฝ์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๋žŒ์ด๋ผ๋ฉด ํ•˜์ง€ ์•Š์„ ๋ถˆํ•„์š”ํ•œ ์†๊ฐ€๋ฝ ์›€์ง์ž„์„ ๋ฐ˜๋ณตํ•˜๊ฑฐ๋‚˜ ๋น„์ •์ƒ์ ์ธ ์ž์„ธ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋“ฑ ์ธ๊ฐ„ ๊ณต๊ฐ๋Œ€์™€ ๋™๋–จ์–ด์ง„ ํ–‰๋™๋“ค์ด ๋‚˜ํƒ€๋‚ฌ๊ณ , ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ๋ฌผ์ฒด ํฌ๊ธฐ๋‚˜ ๋งˆ์ฐฐ์กฐ๊ฑด์—์„œ๋Š” ์„ฑ๊ณต๋ฅ ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค.

DAPG (Demo Augmented Policy Gradient) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ฐ„ Demo ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ•ํ™”ํ•™์Šต ๊ณผ์ •์— ์ฒด๊ณ„์ ์œผ๋กœ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ตฌ์„ฑ์€ ๋‘ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค: (1) Behavior Cloning์„ ํ†ตํ•œ ์ •์ฑ… ์ดˆ๊ธฐํ™”์™€ (2) Demo ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ๋ณด์กฐ ์†์‹ค๋กœ ๊ฐ•ํ™”ํ•™์Šต ํŒŒ์ธํŠœ๋‹์ž…๋‹ˆ๋‹ค. ์•„๋ž˜์—์„œ๋Š” ์ด ๋‘ ๋‹จ๊ณ„๋ฅผ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

2.2.2 Behavior Cloning(BC)์œผ๋กœ ์ดˆ๊ธฐ ์ •์ฑ… ํ•™์Šต

๋จผ์ € ์†Œ๋Ÿ‰์˜ ์ „๋ฌธ๊ฐ€ Demo ๋ฐ์ดํ„ฐ์…‹ \rho_D๋ฅผ ๋ชจ์•„ Behavior Cloning์œผ๋กœ ์ดˆ๊ธฐ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. Demo ๋ฐ์ดํ„ฐ์…‹ \rho_D={(s_t^{(i)}, a_t^{(i)}, \dots)}๋Š” ์—ฌ๋Ÿฌ ์—ํ”ผ์†Œ๋“œ i์—์„œ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t๋ณ„๋กœ ์ƒํƒœ s, ์ „๋ฌธ๊ฐ€ ํ–‰๋™ a (๊ทธ๋ฆฌ๊ณ  ๋ณด์ƒ r, ๋‹ค์Œ ์ƒํƒœ ๋“ฑ)์„ ๋ชจ์•„๋‘” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Behavior Cloning์€ ์ด๋ฅผ ์ง€๋„ํ•™์Šต ๋ฌธ์ œ๋กœ ๋ณด์•„, ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ์ „๋ฌธ๊ฐ€์˜ ํ–‰๋™์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: \max_{\theta} \sum_{(s,a)\in \rho_D} \ln \pi_\theta(a \mid s)\,. \tag{1}

์œ„ ์‹์€ Demo ๋ฐ์ดํ„ฐ์—์„œ ์ •์ฑ… \pi_\theta์˜ ๋กœ๊ทธ ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ฆ‰, Demo ์ƒํƒœ s์—์„œ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ทจํ•œ ํ–‰๋™ a๋ฅผ ๊ฐ€์žฅ ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ์„ ํƒํ•˜๋„๋ก ์ •์ฑ…์˜ ํŒŒ๋ผ๋ฏธํ„ฐ \theta๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์–ป์–ด์ง„ ๋ชจ๋ฐฉ ์ •์ฑ…์€ ์ „๋ฌธ๊ฐ€ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋Š” ์ดˆ๊ธฐ ์ „๋žต์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. Behavior Cloning์œผ๋กœ ์ดˆ๊ธฐํ™”๋ฅผ ํ•˜๋ฉด, ์™„์ „ํžˆ ๋ฌด์ž‘์œ„ ์ •์ฑ…์œผ๋กœ ์‹œ์ž‘ํ•˜๋Š” ๊ฒƒ์— ๋น„ํ•ด ํƒ์ƒ‰์„ ํ›จ์”ฌ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ ๋ฐฉ๋ฒ•์€ ์ •์ฑ…์˜ ํ™•๋ฅ ์  ํƒ์ƒ‰ ๋…ธ์ด์ฆˆ์—๋งŒ ์˜์กดํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋™์ž‘์„ ์‹œ๋„ํ•˜๋Š”๋ฐ, ๊ณ ์ฐจ์› ๋ฌธ์ œ์—์„œ๋Š” ๋ฌด์ž‘์œ„ ์‹œ๋„๋กœ๋Š” ์˜๋ฏธ ์žˆ๋Š” ์ƒํƒœ์— ๋„๋‹ฌํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, Demo ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผํ•˜๋„๋ก ์ดˆ๊ธฐ ์ •์ฑ…์„ ์žก์•„์ฃผ๋ฉด ์ดˆ๋ฐ˜๋ถ€ํ„ฐ ์œ ๋งํ•œ ์ƒํƒœ-ํ–‰๋™ ์˜์—ญ์„ ํƒ์ƒ‰ํ•˜๊ฒŒ ๋˜์–ด, ํ”ํžˆ ํ•„์š”ํ–ˆ๋˜ ๋ณต์žกํ•œ ๋ณด์ƒ shaping ์—†์ด๋„ ํ•™์Šต์„ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์—์„œ๋„, Demo์„ ํ™œ์šฉํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋Š” ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์ถ”๊ฐ€ ๋ณด์ƒ ์‹ ํ˜ธ๋ฅผ ์„ค๊ณ„ํ•ด์ค˜์•ผ ํ–ˆ์ง€๋งŒ, DAPG๋Š” Demo ๋•๋ถ„์— ์ด๋Ÿฐ ๋ณด์ƒ ์—†์ด๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ–ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ, Behavior Cloning๋งŒ์œผ๋กœ ์ตœ์ข… ์ •์ฑ…์„ ์–ป๊ธฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Demo ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๋งŽ์ง€ ์•Š์œผ๋ฉด ๋ชจ๋ฐฉ ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ถ„ํฌ ์ด๋™(distributional shift) ๋ฌธ์ œ๋กœ ์ƒˆ๋กœ์šด ์ƒํƒœ์— ๋Œ€์‘ํ•˜์ง€ ๋ชปํ•ด ์‹คํŒจํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์˜ ์‹คํ—˜์— ์„œ๋„ BC๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ๋Œ€๋ถ€๋ถ„ ์ž‘์—…์„ ๋๊นŒ์ง€ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Demo ๊ฒฝ๋กœ๋ฅผ ์กฐ๊ธˆ๋งŒ ๋ฒ—์–ด๋‚˜๋„ ์ •์ฑ…์ด ์–ด๋–ป๊ฒŒ ํ–‰๋™ํ•ด์•ผ ํ• ์ง€ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”์šฑ์ด, ๋ชจ๋ฐฉํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์ „๋ฌธ๊ฐ€๋ฅผ ๋„˜์–ด์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ์ˆ˜๋„ ์—†์Šต๋‹ˆ๋‹ค โ€“ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ฃผ์–ด์ง„ Demo์„ ๋”ฐ๋ผํ•˜๊ธฐ๋งŒ ํ•˜๋ฏ€๋กœ ๊ณผ์—… ์„ฑ๊ณต์— ๋Œ€ํ•œ ํ”ผ๋“œ๋ฐฑ์ด ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ฐฉ์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•œ ํ›„์—๋„ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์ •์ฑ…์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

2.2.3 ๊ฐ•ํ™”ํ•™์Šต ํŒŒ์ธํŠœ๋‹ (Demo ๋ณด์กฐ ์†์‹ค ํฌํ•จ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ)

์ดˆ๊ธฐ ์ •์ฑ…์„ ์–ป์—ˆ๋‹ค๋ฉด, ์ดํ›„์—๋Š” ์˜จ-ํด๋ฆฌ์‹œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ์ •์ฑ…์„ ๊ณ„์† ํŒŒ์ธํŠœ๋‹ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ผ๋ฐ˜์ ์ธ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ ๋ฐฉ์‹๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ์ ์€, Demo ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ถ”๊ฐ€๋กœ ์–ป๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ํ•ญ(term)์„ ์†์‹ค ํ•จ์ˆ˜์— ํฌํ•จ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ๋‚ด๋‚ด ์ •์ฑ…์ด Demo์˜ ์œ ์ตํ•œ ํ–‰๋™๋“ค์„ ์ฐธ๊ณ ํ•˜๋„๋ก ๋งŒ๋“ค๊ณ , ์ค‘๊ฐ„ ๋‹จ๊ณ„ ํ–‰๋™๋“ค์— ๋Œ€ํ•œ ๊ฐ€์ด๋˜์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ์ ‘๊ทผ์„ โ€œ๋ฐ๋ชจ ์ฆ๊ฐ• ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ(Demo Augmented Policy Gradient, DAPG)โ€๋ผ ๋ช…๋ช…ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ด ๋˜๋Š” RL ๋ชฉํ‘œ๋Š” ์ •์ฑ…์˜ ๊ธฐ๋Œ€ ์ด ๋ณด์ƒ J(\pi_\theta) = \mathbb{E}_\pi \left[\sum_t \gamma^t r_t\right]๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์ด์— ๋Œ€์‘ํ•˜๋Š” ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ๋Š” REINFORCE ๊ณต์‹์„ ํ†ตํ•ด ์•„๋ž˜์ฒ˜๋Ÿผ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค:

g_{\text{RL}} \;=\; \mathbb{E}{(s,a)\sim \rho\pi}!\Big[ \nabla_\theta \ln \pi_\theta(a|s)\; A^\pi(s,a) \Big] \,,

์—ฌ๊ธฐ์„œ \rho_\pi๋Š” ํ˜„์žฌ ์ •์ฑ… \pi๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘ํ•œ ์˜จ-ํด๋ฆฌ์‹œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์ด๊ณ , A^\pi(s,a)๋Š” ํ˜„์žฌ ์ •์ฑ…์— ๋Œ€ํ•œ ์–ด๋“œ๋ฐดํ‹ฐ์ง€(advantage) ๊ฐ’์ž…๋‹ˆ๋‹ค. A^\pi(s,a)๋Š” ํ•ด๋‹น ์ƒํƒœ-ํ–‰๋™์ด ํ‰๊ท ์ ์ธ ์ƒํƒœ ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์œผ๋กœ, ๋ณด์ƒ Q^\pi(s,a)์™€ ๊ฐ€์น˜ํ•จ์ˆ˜ V^\pi(s)์˜ ์ฐจ์ด๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. DAPG์—์„œ๋Š” ์ด ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ์— ์ถ”๊ฐ€๋กœ Demo ๋ฐ์ดํ„ฐ ๋ฐฉํ–ฅ์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๋”ํ•ด์ค๋‹ˆ๋‹ค. ์ฆ‰, ์ตœ์ข… ์ฆ๊ฐ• ๊ทธ๋ž˜๋””์–ธํŠธ g_{\text{aug}}๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

g_{\text{aug}} \;=\; \sum_{(s,a)\in \rho_\pi} \nabla_\theta \ln \pi_\theta(a|s)\; A^\pi(s,a)\;+\; \sum_{(s,a) \in \rho_D} \nabla_\theta \ln \pi_\theta(a|s)\; w(s,a)\,. \tag{2}

์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ์˜จ-ํด๋ฆฌ์‹œ RL ๊ทธ๋ž˜๋””์–ธํŠธ(์•ž์„œ ์„ค๋ช…ํ•œ g_{\text{RL}})์ด๊ณ , ๋‘ ๋ฒˆ์งธ ํ•ญ์ด Demo ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์˜ค๋Š” ์ถ”๊ฐ€ ๊ทธ๋ž˜๋””์–ธํŠธ์ž…๋‹ˆ๋‹ค. ์ด ์ถ”๊ฐ€ ํ•ญ์€ Demo ๋ฐ์ดํ„ฐ ๋ถ„ํฌ \rho_D์— ๋Œ€ํ•ด, ๊ทธ ์ƒํƒœ์—์„œ ์ •์ฑ…์ด Demo ํ–‰๋™ a๋ฅผ ์ทจํ•˜๋„๋ก ํ™•๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‹จ, ๋ชจ๋“  Demo ๋ฐ์ดํ„ฐ๋ฅผ ๋™์ผํ•˜๊ฒŒ ์‚ฌ์šฉํ•˜๊ธฐ๋ณด๋‹ค๋Š” ๊ฐ๊ฐ์— ๊ฐ€์ค‘์น˜ w(s,a)๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ์–ผ๋งˆ๋‚˜ ์‹ ๋ขฐํ• ์ง€ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ Demo์„ ํ™œ์šฉํ•˜๋ฉด ๋ชจ๋ฐฉ ํ•™์Šต๊ณผ ๊ฐ•ํ™”ํ•™์Šต์„ ์—ฐ์†์ ์œผ๋กœ ์ ‘๋ชฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ช‡ ๊ฐ€์ง€ ๊ทน๋‹จ์ ์ธ ๊ฒฝ์šฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด, ๋งŒ์•ฝ ๋ชจ๋“  (s,a)\in\rho_D์— ๋Œ€ํ•ด w(s,a)=0์ด๋ผ๋ฉด ๋‘ ๋ฒˆ์งธ ํ•ญ์ด ์—†์–ด์ง€๊ณ  ์ˆœ์ˆ˜ํ•œ RL ํ•™์Šต๊ณผ ๋™์ผํ•ด์ง‘๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ w(s,a)๊ฐ€ ๋งค์šฐ ํฐ ์ƒ์ˆ˜๋กœ ์„ค์ •๋˜์–ด Demo ํ•ญ์ด ์ง€๋ฐฐ์ ์ด๋ผ๋ฉด, ์ด๋Š” ์‚ฌ์‹ค์ƒ Behavior Cloning๋งŒ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ€๊นŒ์›Œ์ง‘๋‹ˆ๋‹ค. DAPG์˜ ๋ชฉํ‘œ๋Š” w(s,a)๋ฅผ ์ ์ ˆํžˆ ์กฐ์ ˆํ•˜์—ฌ RL์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํšจ๊ณผ์™€ Demo์˜ ๊ฐ€์ด๋“œ ํšจ๊ณผ๋ฅผ ๋™์‹œ์— ์–ป๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


์ €์ž๋“ค์€ ์ด์ƒ์ ์ธ w(s,a) ์„ค๊ณ„์— ๋Œ€ํ•ด ๊ณ ์ฐฐํ•˜๋ฉด์„œ, \rho_\pi์™€ \rho_D์˜ ํ˜ผํ•ฉ ๋ถ„ํฌ ๊ด€์ ์—์„œ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

๋ถ„์„์— ๋”ฐ๋ฅด๋ฉด, ์ด๋ก ์ ์œผ๋กœ๋Š” Demo ๋ฐ์ดํ„ฐ์—์„œ๋„ ํ˜„์žฌ ์ •์ฑ…์˜ Advantage๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ w(s,a) = A^\pi(s,a)๋กœ ๋‘๋Š” ๊ฒƒ์ด ํ•ฉ๋ฆฌ์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰, Demo์—์„œ์˜ ํ–‰๋™์ด ํ˜„์žฌ ์ •์ฑ…๋ณด๋‹ค ์–ผ๋งˆ๋‚˜ ์ด๋“์ธ์ง€์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ๋Š” ๊ฒƒ์ด ์ตœ์„ ์ด๋ผ๋Š” ๊ฒƒ์ด์ฃ . ํ•˜์ง€๋งŒ ํ˜„์‹ค์ ์œผ๋กœ Demo ๊ฐ ์ƒํƒœ์˜ A^\pi(s,a) ๊ฐ’์„ ์–ป์œผ๋ ค๋ฉด ์ถ”๊ฐ€์ ์ธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด๋‚˜ ๊ฐ€์ •์ด ํ•„์š”ํ•˜์—ฌ ๊ณง๋ฐ”๋กœ ๊ณ„์‚ฐํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ €์ž๋“ค์€ ๊ฒฝํ—˜์ ์ธ ํœด๋ฆฌ์Šคํ‹ฑ์œผ๋กœ์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ์ˆœํ•œ ํ˜•ํƒœ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค :

w(s,a) \;=\; \lambda_0 \,\lambda_1^k \; \max_{(s',a')\in \rho_\pi} A^\pi(s',a') \qquad \forall (s,a) \in \rho_D\,,

์—ฌ๊ธฐ์„œ \lambda_0๋Š” ์ดˆ๊ธฐ ๊ฐ€์ค‘์น˜ ์Šค์ผ€์ผ, \lambda_1์€ ๊ฐ์‡„์œจ(decay factor), k๋Š” ํ•™์Šต์ด ์ง„ํ–‰๋œ iteration ํšŸ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ฆ‰, ํ˜„์žฌ ์ •์ฑ…์œผ๋กœ ๋ชจ์€ ์˜จ-ํด๋ฆฌ์‹œ ๋ฐ์ดํ„ฐ์—์„œ์˜ ์ตœ๋Œ€ advantage ๊ฐ’ (ํ˜„ ์ •์ฑ…์ด ์–ป ์€ ๊ฐ€์žฅ ์ข‹์€ ํ–‰๋™์˜ advantage)์„ ํ•˜๋‚˜์˜ ๊ธฐ์ค€ ์ƒ์ˆ˜๋กœ ์‚ผ์•„์„œ, ๋ชจ๋“  Demo ์ƒ˜ํ”Œ์— ๋™์ผํ•œ ๊ฐ€์น˜๋กœ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต์ด ๊ฑฐ๋“ญ๋ ์ˆ˜๋ก \lambda_1^k ํ•ญ์„ ํ†ตํ•ด ์ด ๊ฐ€์ค‘์น˜๋ฅผ ์ง€์ˆ˜์ ์œผ๋กœ ๊ฐ์†Œ์‹œํ‚ต๋‹ˆ๋‹ค.

์ด ์„ค๊ณ„์˜ ์˜๋„๋Š” ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค: ์ดˆ๊ธฐ ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” Demo๊ฐ€ ์ •์ฑ…๋ณด๋‹ค ํ›จ์”ฌ ์šฐ์ˆ˜ํ•œ ํ–‰๋™๋“ค์„ ๋‹ด๊ณ  ์žˆ์œผ๋ฏ€๋กœ Demo์˜ ์˜ํ–ฅ์„ ๊ฐ•ํ•˜๊ฒŒ ์ฃผ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ํ›„๊ธฐ ๋‹จ๊ณ„์—์„œ๋Š” ์ •์ฑ…์ด ์ด๋ฏธ ์›ฌ๋งŒํ•œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— Demo๊ณผ ์ •์ฑ…์˜ ์ˆ˜์ค€์ด ๋น„์Šทํ•ด์ง‘๋‹ˆ๋‹ค. ์ด๋•Œ๊นŒ์ง€๋„ Demo์— ๋Œ๋ ค๋‹ค๋‹ˆ๋ฉด ์ •์ฑ…์ด ๋” ๋‚˜์•„์ง€๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ํ›„๋ฐ˜์œผ๋กœ ๊ฐˆ์ˆ˜๋ก Demo์˜ ๋น„์ค‘์„ ์ค„์—ฌ ์ •์ฑ…์ด ์Šค์Šค๋กœ ์„ฑ๋Šฅ์„ ์ตœ๋Œ€๋กœ ๋Œ์–ด์˜ฌ๋ฆฌ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ดˆ๋ฐ˜์—” Demo ์œ„์ฃผ ํ•™์Šต โ†’ ํ›„๋ฐ˜์—” RL ์œ„์ฃผ ํ•™์Šต์œผ๋กœ ์ ์ง„์ ์œผ๋กœ ์ „ํ™˜๋˜์–ด, ์ „์ฒด์ ์œผ๋กœ Demo+RL์˜ ์‹œ๋„ˆ์ง€๋ฅผ ์–ป๋Š” ๊ฒƒ์ด DAPG์˜ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” \lambda_0=0.1, \lambda_1=0.95๋กœ ์„ค์ •ํ•˜์—ฌ ๋ชจ๋“  ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์œผ๋ฉฐ, ์ ์ ˆํ•œ ๋ฒ”์œ„ ๋‚ด์—์„œ๋Š” ๊ฒฐ๊ณผ๊ฐ€ ํฌ๊ฒŒ ๋ฏผ๊ฐํ•˜์ง€๋Š” ์•Š์•˜๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐœ๋…์„ ์ข…ํ•ฉํ•˜์—ฌ DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ๋ฆ„์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. Demo ์ˆ˜์ง‘: ์ „๋ฌธ๊ฐ€(ํœด๋จผ)๊ฐ€ VR ์žฅ์น˜๋ฅผ ํ†ตํ•ด ๊ฐ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์„ฑ๊ณต trajectories๋ฅผ N๊ฐœ (๋…ผ๋ฌธ ์‹คํ—˜์—์„œ๋Š” ์•ฝ 25๊ฐœ) ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ๋ถ€ํ„ฐ Demo ๋ฐ์ดํ„ฐ์…‹ \rho_D๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  2. Behavior Cloning ์ดˆ๊ธฐํ™”: ์‹ (1)์˜ ์ตœ๋Œ€์šฐ๋„ ์ถ”์ • ๋ฌธ์ œ๋ฅผ ํ’€์–ด Demo์„ ๋ชจ๋ฐฉํ•˜๋Š” ์ดˆ๊ธฐ ์ •์ฑ… \pi_{\theta_0}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. (์‹ค์ œ๋กœ๋Š” ๋”ฅ๋Ÿฌ๋‹ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.)
  3. ๊ฐ•ํ™”ํ•™์Šต ๋ฐ˜๋ณต: k=1,2,\dots ์— ๋Œ€ํ•ด ๋‹ค์Œ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • ํ˜„์žฌ ์ •์ฑ… \pi_{\theta_{k-1}}์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์—ฌ๋Ÿฌ ์—ํ”ผ์†Œ๋“œ์˜ on-policy ๋ฐ์ดํ„ฐ \rho_\pi๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. (๋…ผ๋ฌธ ๊ตฌํ˜„์€ ํ•œ iteration์— 200 ์—ํ”ผ์†Œ๋“œ์”ฉ ์ˆ˜์ง‘ํ•˜์—ฌ ์‚ฌ์šฉ.)
    • ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ฐ state-action์˜ advantage \hat{A}^\pi(s,a) ๊ฐ’์„ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค (๊ฐ€์น˜ํ•จ์ˆ˜ baseline ๋“ฑ์„ ์ด์šฉ). ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ g_{\text{RL}} (์˜จ-ํด๋ฆฌ์‹œ ๋ถ€๋ถ„)์™€ Demo ๊ทธ๋ž˜๋””์–ธํŠธ ํ•ญ์„ ํฌํ•จํ•œ ์ฆ๊ฐ• ๊ทธ๋ž˜๋””์–ธํŠธ g_{\text{aug}}๋ฅผ ์‹ (2)์— ๋”ฐ๋ผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
    • g_{\text{aug}}๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ Natural Policy Gradient ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, ๊ทธ๋ž˜๋””์–ธํŠธ์— Fisher ์ •๋ณด ํ–‰๋ ฌ์˜ ์—ญ์„ ๊ณฑํ•ด ์Šคํ… ํฌ๊ธฐ๋ฅผ ์กฐ์ ˆํ•œ ์—…๋ฐ์ดํŠธ๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. (์ฆ‰, $ k = {k-1} + , F^{-1} g_{} $ ํ˜•ํƒœ๋กœ, \alpha๋Š” ์ ์ ˆํ•œ ์Šคํ… ํฌ๊ธฐ์ž…๋‹ˆ๋‹ค.)
    • Demo ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ๊ฐ€์ค‘์น˜ ๊ณ„์ˆ˜ \lambda_1^k๋ฅผ ๋‹ค์Œ iteration์„ ์œ„ํ•ด ๊ฐ์†Œ์‹œํ‚ต๋‹ˆ๋‹ค.
  4. ์ˆ˜๋ ด ๋˜๋Š” ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ ์‹œ ์ข…๋ฃŒ: ์ •์ฑ…์„ ํ‰๊ฐ€ํ•˜์—ฌ ์„ฑ๊ณต๋ฅ  ๋“ฑ์ด ๊ธฐ์ค€์„ ๋„˜์œผ๋ฉด ํ•™์Šต์„ ์ข…๋ฃŒํ•ฉ๋‹ˆ๋‹ค.

์ด ์ „์ฒด ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ, Demo ๋ฐ์ดํ„ฐ๋Š” ์ดˆ๊ธฐ ํ•™์Šต์—์„œ๋Š” ํƒ์ƒ‰์„ ํฌ๊ฒŒ ๊ฐ€์†ํ•˜๊ณ , ํ•™์Šต ์ค‘๋ฐ˜์—๋Š” ์ •์ฑ…์ด ๋†“์น˜๊ณ  ์žˆ๋Š” ํ–‰๋™๋“ค์„ ๋ณด๊ฐ•ํ•˜๋Š” ๊ฐ€์ด๋“œ ์—ญํ• ์„ ํ•˜๋ฉฐ, ํ•™์Šต ํ›„๋ฐ˜์—๋Š” ๋น„์ค‘์„ ์ค„์—ฌ ์ตœ์ข… ์„ฑ๋Šฅ์„ RL์ด ์ฃผ๋„ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์ด ๋“  ์˜ˆ๋ฅผ ๋‹ค์‹œ ์ƒ๊ธฐํ•ด ๋ณด๋ฉด, Behavior Cloning ๋‹จ๊ณ„์—์„œ๋Š” ๋ง์น˜๋ฅผ ๋“œ๋Š” ๊ฒƒ๊นŒ์ง€ ๊ฒจ์šฐ ๋ฐฐ์šฐ์ง€๋งŒ ๋ชป์„ ์น˜์ง€๋Š” ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดํ›„ ๊ฐ•ํ™”ํ•™์Šต์ด ๋ง์น˜ ๋“œ๋Š” ๋ถ€๋ถ„์„ ์ž์ฒด์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๊ณ  ๋‚˜๋ฉด, ์—ฌ์ „ํžˆ ์–ด๋ ค์šด ๋ชป ์น˜๋Š” ๋™์ž‘์„ Demo ๋ฐ์ดํ„ฐ๊ฐ€ ๋’ท๋ฐ›์นจํ•ด์ฃผ์–ด ์ •์ฑ…์ด ์ด๋ฅผ ์Šต๋“ํ•˜๋„๋ก ๋งŒ๋“  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ Demo์˜ ์ •๋ณด๊ฐ€ ์ „ ํ•™์Šต ๊ณผ์ •์— ๊ฑธ์ณ ํ™œ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์ดˆ๊ธฐ Demo์—์„œ ๋‹ด์ง€๋ชปํ•œ ๋ณต์žกํ•œ ํ–‰๋™๊นŒ์ง€ ์ตœ์ข… ์ •์ฑ…์ด ์–ป๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด DAPG์˜ ์žฅ์ ์ž…๋‹ˆ๋‹ค.

์ฐธ๊ณ : DAPG์™€ ๋Œ€๋น„๋˜๋Š” ์ ‘๊ทผ์œผ๋กœ, off-policy ๋ฐฉ๋ฒ•์ธ DDPGfD (DDPG from Demonstrations)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. DDPGfD๋Š” Q๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์—ฐ์†์ œ์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DDPG์— ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ ์ดˆ๊ธฐํ™” ํ˜•ํƒœ๋กœ Demo์„ ๋„ฃ๊ณ , ์šฐ์„ ์ˆœ์œ„ ๊ฒฝํ—˜ ์žฌ์ƒ(PER), n-step ๋ณด์ƒ, ๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜ ์ •๊ทœํ™” ๋“ฑ ์—ฌ๋Ÿฌ ๊ธฐ๋ฒ•์„ ์กฐํ•ฉํ•˜์—ฌ Demo์„ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. off-policy ๋ฐฉ๋ฒ•์€ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ฐ˜๋ณต ํ•™์Šตํ•˜๋ฏ€๋กœ ํ‘œ๋ณธ ํšจ์œจ์€ ๋†’์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ํ›ˆ๋ จ์ด ๋ถˆ์•ˆ์ •ํ•˜๊ณ  ํŠนํžˆ ๊ณ ์ฐจ์› ํ™˜๊ฒฝ์—์„œ๋Š” ๋ฏผ๊ฐ๋„๊ฐ€ ๋†’๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด DAPG๋Š” on-policy ์—…๋ฐ์ดํŠธ๋กœ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•˜๊ณ  Demo์œผ๋กœ ํšจ์œจ ํ–ฅ์ƒ๊นŒ์ง€ ์–ป์€ ๋ฐฉ๋ฒ•์œผ๋กœ, ๋…ผ๋ฌธ ์‹คํ—˜์—์„œ๋„ DDPGfD๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. (์ž์„ธํ•œ ๋น„๊ต๋Š” ๋’ค์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ์—์„œ ๋‹ค๋ฃน๋‹ˆ๋‹ค.)

2.3 ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„

2.3.1 ๊ฐ•ํ™”ํ•™์Šต ๋‹จ๋…์œผ๋กœ๋Š” ํ•œ๊ณ„

์šฐ์„  Demo์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์ˆœ์ˆ˜ RL๋งŒ์œผ๋กœ ์•ž์„œ ์†Œ๊ฐœํ•œ ๋„ค ๊ฐ€์ง€ ์ž‘์—…์„ ํ•™์Šต์‹œ์ผœ ๋ณธ ๊ฒฐ๊ณผ, ์—ฌ๋Ÿฌ ๋ฌธ์ œ์ ์ด ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. Sparse reward (์ตœ์ข… ์„ฑ๊ณต ์—ฌ๋ถ€๋งŒ ๋ณด์ƒ) ์„ค์ •์—์„œ๋Š” ๋Œ€๋‹ค์ˆ˜ ์ž‘์—…์—์„œ ์•„๋ฌด๋Ÿฐ ํ•™์Šต ์ง„์ „์ด ์—†์—ˆ๋Š”๋ฐ, ์ด๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ๋Œ€๋กœ ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ๋Š” ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ๋งŒ๋‚˜์ง€ ๋ชปํ•ด ์ •์ฑ…์ด ์˜ณ์€ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐฑ์‹ ๋˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์™ธ์ ์œผ๋กœ ํŽœ ๋Œ๋ฆฌ๊ธฐ (in-hand) ์ž‘์—…์€ ๋งค์šฐ ๊ฐ„๋‹จํ•œ ์„ฑ๊ณต ์กฐ๊ฑด ๋•์— ๊ทนํžˆ ๋“œ๋ฌผ๊ฒŒ ์„ฑ๊ณต ์—ํ”ผ์†Œ๋“œ๊ฐ€ ๋ฐœ์ƒํ•˜์—ฌ ์กฐ๊ธˆ์ด๋‚˜๋งˆ ํ•™์Šต์ด ์ง„ํ–‰๋˜์—ˆ์œผ๋‚˜, ๋‹ค๋ฅธ ์ž‘์—…๋“ค์€ ์ „ํ˜€ ์„ฑ๊ณต์„ ๊ฒฝํ—˜ํ•˜์ง€ ๋ชปํ•œ ์ฑ„ ๋ณด์ƒ์ด 0์œผ๋กœ ๋จธ๋ฌผ๋ €์Šต๋‹ˆ๋‹ค.

์ด ๋•Œ๋ฌธ์— ์ €์ž๋“ค์€ RL์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋ถ€๋“์ดํ•˜๊ฒŒ ๊ฐ ์ž‘์—…๋ณ„๋กœ ์„ธ๋ฐ€ํ•œ shaped reward๋ฅผ ์„ค๊ณ„ํ•˜์—ฌ ํˆฌ์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ฌธ ์—ด๊ธฐ ์ž‘์—…์˜ ๊ฒฝ์šฐ โ€œ๊ฑธ์‡ ๋ฅผ ์–ด๋А ์ •๋„ ๋Œ๋ฆฌ๋ฉด +๋ณด์ƒ, ๋ฌธ์„ ์‚ด์ง ์—ด๋ฉด +๋ณด์ƒโ€ ๋“ฑ์˜ ์ค‘๊ฐ„ ๋ณด์ƒ์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ฃผ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํœด๋ฆฌ์Šคํ‹ฑ ๋ณด์ƒ ๋•๋ถ„์— NPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋“  ์ž‘์—…์—์„œ ์ •์ฑ…์„ ์–ด๋А ์ •๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข… ์„ฑ๋Šฅ์„ 100ํšŒ ์‹œ๋„ ์ค‘ ์„ฑ๊ณต๋ฅ (%)๋กœ ํ‰๊ฐ€ํ–ˆ์„ ๋•Œ, NPG๋Š” ๊ฐ ๊ณผ์ œ์—์„œ ์ƒ๋‹นํžˆ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

Figure 7์— ์ œ์‹œ๋œ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด NPG์˜ ๊ฒฝ์šฐ ๋„ค ์ž‘์—… ๋ชจ๋‘ ์•ฝ 80~100%์— ์ˆ˜๋ ดํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ฐ˜๋ฉด, DDPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๊ด‘๋ฒ”์œ„ํ•œ ํŠœ๋‹์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์–ด๋– ํ•œ ์ž‘์—…๋„ ์„ฑ๊ณต์ ์œผ๋กœ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. (DDPG๋Š” ์˜คํ”„ํด๋ฆฌ์‹œ์˜ ์žฅ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ ํšจ์œจ์€ ๋†’์ง€๋งŒ, ๊ณ ์ฐจ์› ์—ฐ์†์ œ์–ด์—์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏผ๊ฐ๋„์™€ ๋ถˆ์•ˆ์ •์„ฑ์œผ๋กœ ํ•™์Šต ์‹คํŒจํ•  ๋•Œ๊ฐ€ ๋งŽ๋‹ค๋Š” ์ง€์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์‹คํ—˜์—์„œ๋„ ๋ณต์žกํ•œ ์† ํ™˜๊ฒฝ์— ์ ํ•ฉํ•˜์ง€ ์•Š์Œ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.) ๋น„๋ก NPG๋กœ shaped ๋ณด์ƒ ํ•˜์— ํ•™์Šต์ด ๋˜๊ธด ํ–ˆ์ง€๋งŒ, ํ•™์Šต ์†๋„์™€ ์ •์ฑ… ํ’ˆ์งˆ ๋ฉด์—์„œ ๋ฌธ์ œ๊ฐ€ ๋‚จ์•˜์Šต๋‹ˆ๋‹ค. ์šฐ์„  ํ•™์Šต์— ์š”๊ตฌ๋˜๋Š” ํ‘œ๋ณธ ์ˆ˜๊ฐ€ ๋งค์šฐ ์ปธ๋Š”๋ฐ, ๋…ผ๋ฌธ ๋ถ€์†์ž๋ฃŒ์˜ Table I์— ์ •๋ฆฌ๋œ ๋ฐ”์— ๋”ฐ๋ฅด๋ฉด Demo ์—†์ด shaped ๋ณด์ƒ์œผ๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ ์ˆ˜๋ฐฑ ํšŒ์˜ ์ •์ฑ… ์—…๋ฐ์ดํŠธ(ํ•˜๋‚˜์˜ ์—…๋ฐ์ดํŠธ๋‹น 200 ์—ํ”ผ์†Œ๋“œ ์ƒ˜ํ”Œ) ํ›„์—์•ผ 90% ์„ฑ๊ณต๋ฅ ์— ๋„๋‹ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ๊ฐ„์œผ๋กœ ํ™˜์‚ฐํ•˜๋ฉด ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ ์‹œ๊ฐ„์— ์ด๋ฅด๋Š” ๋ถ„๋Ÿ‰์ž…๋‹ˆ๋‹ค. ์•„๋ž˜ ํ‘œ๋Š” ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด DAPG vs. ์ˆœ์ˆ˜ RL์˜ ํ•™์Šต ์†Œ์š” ์‹œ๊ฐ„์„ ๋น„๊ตํ•œ ๊ฒƒ์œผ๋กœ, DAPG๊ฐ€ ์–ผ๋งˆ๋‚˜ ํ•™์Šต์„ ๊ฐ€์†ํ–ˆ๋Š”์ง€ ์ž˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค:

์ž‘์—… (Task) DAPG (Demo + sparse ๋ณด์ƒ) RL (NPG) โ€“ shaped ๋ณด์ƒ RL (NPG) โ€“ sparse ๋ณด์ƒ
Relocation (๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ) 52ํšŒ ์—…๋ฐ์ดํŠธ
(~5.8 ์‹œ๊ฐ„)
880ํšŒ
(~98 ์‹œ๊ฐ„)
์‹คํŒจ (ํ•™์Šต ๋ถˆ๊ฐ€)
Hammer (๋ง์น˜์งˆ) 55ํšŒ ์—…๋ฐ์ดํŠธ
(~6.1 ์‹œ๊ฐ„)
448ํšŒ
(~50 ์‹œ๊ฐ„)
์‹คํŒจ (ํ•™์Šต ๋ถˆ๊ฐ€)
Door (๋ฌธ ์—ด๊ธฐ) 42ํšŒ ์—…๋ฐ์ดํŠธ
(~4.7 ์‹œ๊ฐ„)
146ํšŒ
(~16.2 ์‹œ๊ฐ„)
์‹คํŒจ (ํ•™์Šต ๋ถˆ๊ฐ€)
Pen (ํŽœ ํšŒ์ „) 30ํšŒ ์—…๋ฐ์ดํŠธ
(~3.3 ์‹œ๊ฐ„)
864ํšŒ
(~96 ์‹œ๊ฐ„)
2900ํšŒ
(~322 ์‹œ๊ฐ„)

ํ‘œ 1: Demo ํ™œ์šฉ ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ํ•™์Šต ์†Œ์š” ๋น„๊ต (๋…ผ๋ฌธ Table I ๊ธฐ๋ฐ˜ ์žฌ๊ตฌ์„ฑ).

DAPG๋Š” Demo ๋•๋ถ„์— sparse ๋ณด์ƒ๋งŒ์œผ๋กœ๋„ ๊ฐ ์ž‘์—…์„ ์ˆ˜ ์‹œ๊ฐ„ ๋‚ด์— ํ•™์Šต์„ ์™„๋ฃŒํ•œ ๋ฐ˜๋ฉด, ์ˆœ์ˆ˜ RL (NPG)๋Š” shaped ๋ณด์ƒ์ด ์žˆ์–ด๋„ ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ ์‹œ๊ฐ„์˜ ๊ฒฝํ—˜์„ ํ•„์š”๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ sparse ๋ณด์ƒ๋งŒ ์ฃผ๋Š” ๊ฒฝ์šฐ, Pen ์ž‘์—…์„ ์ œ์™ธํ•˜๋ฉด RL์€ ์•„์˜ˆ ํ•™์Šต ์ง„ํ–‰์ด ์•ˆ ๋˜์–ด ๋ฌดํ•œ๋Œ€(โˆž)๋กœ ํ‘œ์‹œ๋˜์—ˆ๊ณ , Pen๋„ 300์‹œ๊ฐ„ ์ด์ƒ์˜ ๋ฐฉ๋Œ€ํ•œ ๊ฒฝํ—˜์„ ์Œ“์•„์•ผ ๊ฒจ์šฐ ์„ฑ๊ณต๋ฅ  ๊ธฐ์ค€์„ ๋งŒ์กฑ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ •์ฑ…์˜ ํ–‰๋™ ํ’ˆ์งˆ๋„ ํฐ ์ฐจ์ด๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ˆœ์ˆ˜ RL๋กœ ํ•™์Šต๋œ ์ •์ฑ…๋“ค์€ ์ •์˜๋œ ๋ณด์ƒ๋งŒ ๊ทน๋Œ€ํ™”ํ•˜๋ ค๋‹ค ๋ณด๋‹ˆ ์ข…์ข… ์—‰๋šฑํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌผ์ฒด๋ฅผ ์˜ฎ๊ธฐ๋Š” ์ž‘์—…์—์„œ ์‚ฌ๋žŒ์ด๋ผ๋ฉด ํŽธํ•˜๊ฒŒ ์ฅ˜ ๊ณต์„ ๋งค์šฐ ์ด์ƒํ•œ ์†๊ฐ€๋ฝ ๊ผฌ์ž„ ์ž์„ธ๋กœ ์ฅ”๋‹ค๋“ ์ง€, ๋ง์น˜์งˆ ์ž‘์—…์—์„œ ๋ง์น˜๋ฅผ ๋น„ํ‹€์–ด์„œ ์žก๋Š” ๋“ฑ ๋น„ํšจ์œจ์ ์ด๊ฑฐ๋‚˜ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ๋™์ž‘์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค (๋…ผ๋ฌธ Figure 8 ์ฐธ์กฐ).

์ด๋Ÿฌํ•œ ์ •์ฑ…์€ ์‚ฌ์†Œํ•œ ๋ณ€ํ™”์—๋„ ์‰ฝ๊ฒŒ ์‹คํŒจํ–ˆ๋Š”๋ฐ, ์ €์ž๋“ค์ด ์ •์ฑ…์˜ ๊ฐ•์ธ์„ฑ(robustness)์„ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ ์ˆœ์ˆ˜ RL ์ •์ฑ…์€ ํ™˜๊ฒฝ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ ธ๋„ ์„ฑ๊ณต ํ™•๋ฅ ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง„ ๋ฐ˜๋ฉด, DAPG๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ๋ณ€ํ™”๋œ ์ƒํ™ฉ์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

Figure 9์— ์ œ์‹œ๋œ ๊ทธ๋ž˜ํ”„์—์„œ, ์˜ˆ๋ฅผ ๋“ค์–ด DAPG ์ •์ฑ…์€ ๊ณต์˜ ์งˆ๋Ÿ‰์ด๋‚˜ ๋งˆ์ฐฐ๊ณ„์ˆ˜๊ฐ€ ๋‹ฌ๋ผ์ ธ๋„ ์„ฑ๊ณต๋ฅ  ๊ณก์„ ์ด ์™„๋งŒํ•˜๊ฒŒ ์œ ์ง€๋˜์ง€๋งŒ, ์ˆœ์ˆ˜ RL ์ •์ฑ…์€ ๊ธฐ์ค€ ํ™˜๊ฒฝ์—์„œ ๋ฒ—์–ด๋‚˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜๊ฑฐ๋‚˜ ์•„์˜ˆ ํ•™์Šต ์ž์ฒด๊ฐ€ ์•ˆ ๋˜๋Š” ๋ชจ์Šต์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

2.3.2 DAPG์˜ ์„ฑ๋Šฅ

๋น ๋ฅธ ํ•™์Šต๊ณผ ํ–ฅ์ƒ๋œ ๋™์ž‘ ํ’ˆ์งˆ Demo์„ ๋„์ž…ํ•œ DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์œ„์˜ ๋ฌธ์ œ๋“ค์„ ๊ทน์ ์œผ๋กœ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ฐ€์žฅ ํฐ ๊ฐœ์„ ์€ ํ•™์Šต ํšจ์œจ๋กœ, Table 1์—์„œ ๋ณด๋“ฏ์ด ๋ชจ๋“  ์ž‘์—…์—์„œ RL ๋‹จ๋… ๋Œ€๋น„ ์›”๋“ฑํžˆ ์ ์€ ์‹œ๊ฐ„ ๋‚ด์— ์ •์ฑ…์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Pen (ํŽœ ๋Œ๋ฆฌ๊ธฐ)์˜ ๊ฒฝ์šฐ shaped ๋ณด์ƒ์œผ๋กœ 96์‹œ๊ฐ„ ๊ฑธ๋ฆฌ๋˜ ๊ฒƒ์ด 3.3์‹œ๊ฐ„์œผ๋กœ ๋‹จ์ถ•๋˜์–ด ์•ฝ 30๋ฐฐ์˜ ๊ฐ€์†์ด ๋‹ฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์ž‘์—…๋“ค๋„ 8๋ฐฐ์—์„œ 20๋ฐฐ ์ด์ƒ์˜ ์†๋„ ํ–ฅ์ƒ์„ ๋ณด์—ฌ, ์ „๋ฐ˜์ ์œผ๋กœ โ€œDemo + RLโ€ ์กฐํ•ฉ์˜ ํšจ๊ณผ๊ฐ€ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ DAPG๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค๋ฉด ์ˆ˜ ์ผ(๋˜๋Š” ์ˆ˜ ์ฃผ) ๊ฑธ๋ฆด ํ•™์Šต์„ ๋ช‡ ์‹œ๊ฐ„ ์ˆ˜์ค€์œผ๋กœ ์ค„์ž„์œผ๋กœ์จ, ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ๋ณต์žกํ•œ ์† ๊ธฐ์ˆ ์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ์ด ํ˜„์‹ค์ ์ธ ์‹œ๊ฐ„ ์Šค์ผ€์ผ์—์„œ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ๋…ผ๋ฌธ์—์„œ DAPG๋Š” ๋ชจ๋“  ์ž‘์—…์„ 5์‹œ๊ฐ„ ์ด๋‚ด์— ํ•™์Šต์‹œ์ผฐ์œผ๋ฉฐ, ์ด๋Š” ๊ณง ์ถฉ๋ถ„ํ•œ ๋ณ‘๋ ฌํ™”๋‚˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ณ ์†ํ™”๋ฅผ ํ†ตํ•ด ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ๋„ ํ•™์Šต์„ ๋Œ๋ ค๋ณผ ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. (๋ฌผ๋ก  ์•„์ง ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋งŒ ๊ฒ€์ฆ๋˜์—ˆ์ง€๋งŒ, โ€œfew hours of robot experienceโ€๋ผ๋Š” ํ‘œํ˜„์—์„œ ์‹œ์‚ฌํ•˜๋“ฏ์ด ์ €์ž๋“ค์€ DAPG์˜ ํšจ์œจ์ด๋ผ๋ฉด ์‹ค์ œ ๋กœ๋ด‡ ํ•™์Šต๋„ ๋„์ „ํ•ด๋ณผ ๋งŒํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.)

๋‹ค์Œ์œผ๋กœ ์ •์ฑ…์˜ ์„ฑ๊ณต๋ฅ ๊ณผ ๊ฒฌ๊ณ ์„ฑ ์ธก๋ฉด์—์„œ๋„ DAPG๋Š” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. Demo ๋•๋ถ„์— ๋ณ„๋„ ๋ณด์ƒ shaping ์—†์ด๋„ ์ถฉ๋ถ„ํ•œ ํƒ์ƒ‰์ด ์ด๋ฃจ์–ด์ ธ, ์ €์ž๋“ค์€ DAPG ์‹คํ—˜์—์„œ๋Š” ์ตœ์ข… ์„ฑ๊ณต ์—ฌ๋ถ€์— ๋Œ€ํ•œ sparse ๋ณด์ƒ๋งŒ ์‚ฌ์šฉํ•˜์—ฌ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ์„ค์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  DAPG ์ •์ฑ…์€ ์ตœ์ข… ์„ฑ๊ณต๋ฅ  ๋ฉด์—์„œ ์•ž์„œ shaped ๋ณด์ƒ์œผ๋กœ ํ•™์Šตํ•œ NPG ์ •์ฑ…์— ๋ฒ„๊ธˆ๊ฐ€๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์ˆ˜์ค€์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ์ •์ฑ…์˜ ๊ฐ•์ธ์„ฑ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋Š”๋ฐ, DAPG๋กœ ์–ป์€ ์ •์ฑ…์€ ํ™˜๊ฒฝ ๋ณ€ํ™”(๋ฌด๊ฒŒ, ๋งˆ์ฐฐ, ์ดˆ๊ธฐ ์กฐ๊ฑด ๋“ฑ)์— ํ›จ์”ฌ ๋‘”๊ฐํ•˜์—ฌ ํญ๋„“์€ ์ƒํ™ฉ์—์„œ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฅผ โ€œ์ธ๊ฐ„ ์ „๋žต์˜ ๋‚ด์žฌ์  ๊ฐ•์ธ์„ฑ(intrinsic robustness of human strategies)โ€์ด Demo์„ ํ†ตํ•ด ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ํ•ด์„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ฐ„ Demo ์ œ๊ณต์ž๋Š” ์ž‘์—…์„ ์„ฑ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์š”์ธ์„ ๋ณด์ •ํ•˜๋ฉฐ ํ–‰๋™ํ•˜๋Š”๋ฐ, ์ด๋Ÿฐ ํœด๋ฆฌ์Šคํ‹ฑ ๋…ธํ•˜์šฐ๊ฐ€ ์ •์ฑ… ๋„คํŠธ์›Œํฌ์— ๋ฐ˜์˜๋˜์–ด ํŠน์ • ํ™˜๊ฒฝ์— ์˜ค๋ฒ„ํ”ผํŒ…๋˜์ง€ ์•Š๋Š” ์ผ๋ฐ˜์  ํ•ด๊ฒฐ์ฑ…์„ ์–ป๊ฒŒ ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ์ •์ฑ… ๋™์ž‘์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€๊ณผ ๊ด€๋ จํ•ด, DAPG๋Š” ๋ˆˆ์— ๋„๊ฒŒ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์›€์ง์ž„์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ •๋Ÿ‰์  ์ง€ํ‘œ๋กœ ์ธก์ •ํ•˜๊ธฐ๋Š” ์–ด๋ ต์ง€๋งŒ, ๋…ผ๋ฌธ ์ €์ž๋“ค์ด ํ•จ๊ป˜ ๊ณต๊ฐœํ•œ ๋น„๋””์˜ค์—์„œ DAPG ์ •์ฑ…์ด ์ˆ˜ํ–‰ํ•˜๋Š” ๋™์ž‘์€ Demo ์ œ๊ณต ์ž(์ธ๊ฐ„)๊ฐ€ ํ–ˆ์„ ๋ฒ•ํ•œ ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•œ ๋ถ€๋ถ„์ด ๋งŽ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ณต์„ ์ง‘์–ด ์˜ฎ๊ธธ ๋•Œ ์†๊ฐ€๋ฝ์„ ๋ชจ์•„์„œ ์ฅ๋Š” ๋ชจ์–‘์ƒˆ๋‚˜, ๋ง์น˜๋ฅผ ํœ˜๋‘๋ฅด๋Š” ์†๋„์™€ ๊ถค์  ๋“ฑ์ด ๋น„๊ต์  ์ž์—ฐ์Šค๋Ÿฝ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ž˜๋ชป ์„ค๊ณ„ํ•œ RL ์ •์ฑ…์€ ๋•Œ๋กœ ๊ด€์ ˆ ๊ฐ€๋™ ๋ฒ”์œ„๋ฅผ ์ด์ƒํ•˜๊ฒŒ ์“ฐ๊ฑฐ๋‚˜ ๋ชฉ์ ์— ๋งž์ง€ ์•Š๋Š” ์†๊ฐ€๋ฝ ์›€์ง์ž„์„ ๋ณด์˜€๋Š”๋ฐ, DAPG ์ •์ฑ…์—๋Š” ๊ทธ๋Ÿฐ ์—‰๋šฑํ•œ ํ–‰๋™์ด ํ˜„์ €ํžˆ ์ค„์–ด๋“  ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ โ€œ์ •์ฑ…์ด ํ•™์Šต ๊ณผ์ •์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ์ฃผ์ง€ ์•Š์•˜๋˜ โ€™์ธ๊ฐ„์Šค๋Ÿฌ์›€โ€™์˜ ํŠน์„ฑ์„ Demo์„ ํ†ตํ•ด ์–ป๊ฒŒ ๋˜์—ˆ๋‹คโ€๊ณ  ํ‰ํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด๋Š” ์‚ฌ์ด๋“œ ์ดํŽ™ํŠธ์ด๊ธด ํ•˜์ง€๋งŒ, ํ–ฅํ›„ ์ธ๊ฐ„๊ณผ ํ•จ๊ป˜ ์ž‘์—…ํ•˜๋Š” ๋กœ๋ด‡์†์ด๋ผ๋ฉด ์ด๋Ÿฌํ•œ ์‚ฌ๋žŒ๋‹ค์šด ์›€์ง์ž„์ด ์ฃผ๋Š” ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ „์„ฑ ์ด์ ๋„ ๋ฌด์‹œํ•  ์ˆ˜ ์—†์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.3.3 DAPG vs. DDPGfD ๋“ฑ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต

DAPG์˜ ํšจ๊ณผ๋ฅผ ๋” ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ๊ธฐ์กด์˜ Demo ํ™œ์šฉ RL ๊ธฐ๋ฒ•๋“ค๊ณผ ์ •๋Ÿ‰ ๋น„๊ต๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ํ•œ ๊ฐ€์ง€ ๋Œ€ํ‘œ ๋น„๊ต ๋Œ€์ƒ์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ DDPGfD ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ์กฐ๊ฑด์„ ๋งž์ถ”๊ธฐ ์œ„ํ•ด DAPG์™€ DDPGfD ๋ชจ๋‘ ๋™์ผํ•œ Demo ๋ฐ์ดํ„ฐ(25๊ฐœ)๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , sparse ๋ณด์ƒ๋งŒ์œผ๋กœ ๊ฐ ์ž‘์—…์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) DDPGfD(Deep Deterministic Policy Gradient from Demonstrations)
  1. ๊ฐœ์š”(๋ฌด์—‡์ด๊ณ  ์™œ ๊ณ ์•ˆ๋˜์—ˆ๋Š”๊ฐ€)
  • DDPGfD๋Š” Vecerรญk et al. (2017)์—์„œ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ธฐ๋ณธ์ ์œผ๋กœ๋Š” ์˜คํ”„ํด๋ฆฌ์‹œ ์—ฐ์† ์ œ์–ด์šฉ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ DDPG๋ฅผ ์‚ฌ์šฉํ•˜๋˜, ์ธ๊ฐ„(๋˜๋Š” ์ „๋ฌธ๊ฐ€) ๋ฐ๋ชจ๋ฅผ ํ•™์Šต์— ์ง์ ‘ ๊ฒฐํ•ฉํ•ด ํƒ์ƒ‰๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ ๊ฐœ์„ ํ•œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์„ฑ๊ณต์ ์ธ ๋ฐ๋ชจ ์ „์ด(transitions)๋ฅผ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ๋„ฃ๊ณ , ๋ฐ๋ชจ ์ „์ด์˜ ์žฌ์ƒ ๋นˆ๋„๋ฅผ ๋†’์ด๋Š” ๋“ฑ์œผ๋กœ ํ•™์Šต ์ดˆ๊ธฐ์— ์˜๋ฏธ์žˆ๋Š” ์ƒํƒœ-ํ–‰๋™(์ฆ‰, ์œ ์˜๋ฏธํ•œ ๋ณด์ƒ)์„ ์ž์ฃผ ๋ณด๊ฒŒ ํ•˜์—ฌ sparse reward ๋ฌธ์ œ์™€ ํƒ์ƒ‰ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  1. DDPG(๊ธฐ๋ณธ) ํ•ต์‹ฌ ์ˆ˜์‹(์š”์•ฝ)
  • DDPG๋Š” deterministic ์ •์ฑ… \mu_\theta(s)๋ฅผ ํ•™์Šตํ•˜๊ณ , Q-ํ•จ์ˆ˜ Q_\phi(s,a)๋ฅผ ๋น„ํ‰์ž(critic)์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • critic์˜ ์†์‹ค์€ ๋‹ค์Œ์˜ MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. L(\phi)=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\bigl[(Q_\phi(s,a)-y)^2\bigr]
  • ํƒ€๊นƒ ๊ฐ’ y๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค. y = r + \gamma Q_{\phi'}\bigl(s',\mu_{\theta'}(s')\bigr)
  • actor(์ •์ฑ…) ์—…๋ฐ์ดํŠธ๋Š” deterministic policy gradient๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: \nabla_\theta J \approx \mathbb{E}_{s\sim\mathcal{D}}\Big[\nabla_\theta \mu_\theta(s)\,\nabla_a Q_\phi(s,a)\big|_{a=\mu_\theta(s)}\Big].
  1. DDPGfD์˜ ์ฃผ์š” ๊ตฌ์„ฑ์š”์†Œ(๊ตฌ์ฒด์  ๊ธฐ๋ฒ•)
  • ๋ฐ๋ชจ ์ „์ด ์ถ”๊ฐ€: ์ˆ˜์ง‘ํ•œ ์ „๋ฌธ๊ฐ€(๋˜๋Š” ๊ทธ์™€ ์œ ์‚ฌํ•œ) ๋ฐ๋ชจ ์ „์ด๋“ค์„ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ๋ฏธ๋ฆฌ ์ฑ„์›Œ ๋„ฃ์Šต๋‹ˆ๋‹ค. ๋ฐ๋ชจ ์ „์ด๋Š” ํ•™์Šต ์ค‘ ์˜๊ตฌ์ ์œผ๋กœ(special flag๋กœ) ์œ ์ง€ํ•˜๊ฑฐ๋‚˜, ๋‹ค๋ฅธ ์ „์ด๋ณด๋‹ค ๋†’์€ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ฃผ์–ด ๋” ์ž์ฃผ ์ƒ˜ํ”Œ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  • Prioritized Experience Replay (PER): ํ‘œ์ค€ PER์„ ์‚ฌ์šฉํ•ด ์ƒ˜ํ”Œ๋ง ํ™•๋ฅ ์„ TD-์—๋Ÿฌ์— ๋น„๋ก€ํ•˜๋„๋ก ํ•˜๋˜, ๋ฐ๋ชจ ์ „์ด์— ์ž‘์€ ์ƒ์ˆ˜ ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋”ํ•ด(๋˜๋Š” ์ดˆ๊ธฐ ํฐ ์šฐ์„ ์ˆœ์œ„๋กœ) ๋ฐ๋ชจ๊ฐ€ ์ถฉ๋ถ„ํžˆ ์ž์ฃผ ์žฌ์ƒ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. PER ์ƒ˜ํ”Œ๋ง ํ™•๋ฅ ์˜ ์ผ๋ฐ˜์  ํ˜•ํƒœ๋Š”: p_i \propto (|\delta_i|+\varepsilon)^\alpha ์—ฌ๊ธฐ์„œ \delta_i๋Š” i๋ฒˆ์งธ transition์˜ TD-์˜ค์ฐจ์ด๊ณ , \varepsilon,\alpha๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.
  • n-step returns: 1-step ๋Œ€์‹  n-step ๋ˆ„์ ๋ณด์ƒ์„ ์‚ฌ์šฉํ•ด TD ํƒ€๊นƒ์„ ๊ณ„์‚ฐํ•˜๋ฉด ๋” ๊ธด ์‹œ๊ฐ„์ถ•์˜ ์‹ ํ˜ธ๊ฐ€ critic์— ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. n-step ํƒ€๊นƒ์˜ ์ „ํ˜•์  ํ˜•ํƒœ: y_{t}^{(n)} = \sum_{k=0}^{n-1}\gamma^{k}r_{t+k} + \gamma^n Q_{\phi'}(s_{t+n},\mu_{\theta'}(s_{t+n})).
  • Regularization / ์•ˆ์ •ํ™”: actor/critic ๋„คํŠธ์›Œํฌ์— ๋Œ€ํ•œ L2 ์ •๊ทœํ™”๋‚˜ ๋“œ๋กญ์•„์›ƒ์€ ์•„๋‹ˆ๋”๋ผ๋„ weight decay, ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ์˜ ๋А๋ฆฐ ์—…๋ฐ์ดํŠธ(soft target update) ๋“ฑ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  • ๊ธฐํƒ€: DDPG ํŠน์œ ์˜ ํƒ์ƒ‰ ๋…ธ์ด์ฆˆ(์˜ˆ: Ornstein-Uhlenbeck ๋˜๋Š” ๊ฐ€์šฐ์‹œ์•ˆ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ–‰๋™์„ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.
  1. DDPGfD์˜ ๋™์ž‘ ํ๋ฆ„(๊ฐ„๋‹จํ•œ ์ ˆ์ฐจ)
    1. ์ „๋ฌธ๊ฐ€ ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ•ด์„œ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ์‚ฝ์ž…(๋ฐ๋ชจ ๋ ˆ์ด๋ธ” ํ‘œ์‹œ).
    1. ์ดˆ๊ธฐ๋ถ€ํ„ฐ ๋ฐ๋ชจ์™€ ์—์ด์ „ํŠธ ์ž๊ธฐ ์ƒ˜ํ”Œ์ด ์„ž์—ฌ์„œ ํ•™์Šต์ด ์ง„ํ–‰๋จ. ๋ฐ๋ชจ๋Š” ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋†’๊ฒŒ ์œ ์ง€ํ•ด ์ž์ฃผ ๋ฆฌํ”Œ๋ ˆ์ด๋จ.
    1. critic์€ n-step ๋ฐ 1-step ํƒ€๊นƒ์œผ๋กœ ํ•™์Šต, actor๋Š” deterministic gradient๋กœ ์—…๋ฐ์ดํŠธ.
    1. PER์˜ importance-sampling ๋ณด์ • ๋“ฑ์„ ์ ์šฉํ•˜์—ฌ ์—…๋ฐ์ดํŠธ ์˜คํ”„์…‹ ์กฐ์ •.
  1. DDPGfD์˜ ์žฅ์ ๊ณผ ํ•œ๊ณ„(์ด ๋…ผ๋ฌธ ๋ฐ ๊ธฐ์กด ๊ฒฐ๊ณผ ๊ธฐ๋ฐ˜) ์žฅ์ :
  • Sparse reward ํ™˜๊ฒฝ์—์„œ ํƒ์ƒ‰ ๋ฌธ์ œ๋ฅผ ํฌ๊ฒŒ ๊ฐœ์„ .
  • ์˜คํ”„ํด๋ฆฌ์‹œ ํŠน์„ฑ ๋•๋ถ„์— ๋ฐ๋ชจ์™€ ์—์ด์ „ํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋™์ผ ๋ฒ„ํผ์—์„œ ํšจ์œจ์ ์œผ๋กœ ์žฌํ™œ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ ํšจ์œจ์ด ์ข‹์•„์ง. ํ•œ๊ณ„ / ์ฃผ์˜์ :
  • DDPG(๊ธฐ์ €)์˜ ๋ถˆ์•ˆ์ •์„ฑ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋ฏผ๊ฐ์„ฑ(ํŠนํžˆ ๊ณ ์ฐจ์›ยท๋ณต์žก ์ ‘์ด‰ ํ™˜๊ฒฝ์—์„œ๋Š” ๋” ์‹ฌํ•จ).
  • ๋ฐ๋ชจ๊ฐ€ ์žˆ๋”๋ผ๋„ ๊ณ ์ฐจ์› ์† ์กฐ์ž‘(hand)์ฒ˜๋Ÿผ ํ–‰๋™ยท์ƒํƒœ ์ฐจ์›์ด ํฌ๊ณ  ์ ‘์ด‰ ๋ถˆ์—ฐ์†์„ฑ ๋งŽ์€ ๋ฌธ์ œ์—์„œ๋Š” ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•˜๊ฑฐ๋‚˜ ์ˆ˜๋ ดํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ(๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” DDPGfD๊ฐ€ ADROIT 24-DoF ์ž‘์—…์—์„œ DAPG๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚ฎ์Œ).
  • ๋ฐ๋ชจ์™€ ์—์ด์ „ํŠธ ๊ฒฝํ—˜์˜ ํ˜ผํ•ฉ ๋น„์ค‘(์šฐ์„ ์ˆœ์œ„ยท๋น„์œจ)์— ๋ฏผ๊ฐํ•˜์—ฌ ์ž˜๋ชป ์„ค์ •ํ•˜๋ฉด ๊ณผ๋„ํ•˜๊ฒŒ ๋ฐ๋ชจ์— ์˜์กดํ•˜๊ฑฐ๋‚˜ ๋ฐ˜๋Œ€๋กœ ๋ฐ๋ชจ์˜ ์ด์ ์ด ์‚ฌ๋ผ์ง.
  1. DAPG์™€์˜ ๋น„๊ต(์ด ๋…ผ๋ฌธ ๋งฅ๋ฝ) โ€” ํ•ต์‹ฌ ์ฐจ์ด์  ์š”์•ฝ
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ณ„์—ด: DDPGfD๋Š” ์˜คํ”„ํด๋ฆฌ์‹œ Q-๋Ÿฌ๋‹/actor-critic ๊ณ„์—ด(DPG ๊ณ„์—ด)์ด๊ณ , DAPG๋Š” ์˜จํด๋ฆฌ์‹œ natural policy gradient (NPG) ๊ธฐ๋ฐ˜(์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ)์ž…๋‹ˆ๋‹ค.
  • ๋ฐ๋ชจ ํ†ตํ•ฉ ๋ฐฉ์‹:
    • DDPGfD๋Š” ๋ฐ๋ชจ๋ฅผ ๋ฆฌํ”Œ๋ ˆ์ด์— ๋„ฃ์–ด ์ƒ˜ํ”Œ๋ง ๋นˆ๋„๋ฅผ ๋†’์ด๋Š” ๋ฐฉ์‹์ด๊ณ ,
    • DAPG๋Š” (i) behavior cloning์œผ๋กœ ์ •์ฑ…์„ ์ดˆ๊ธฐํ™”ํ•œ ๋’ค (ii) RL fine-tuning ๊ณผ์ •์—์„œ ์‹œ์—ฐ(๋ฐ๋ชจ)์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์†์‹ค(๋ฐ๋ชจ log-likelihood ๊ฐ€์ค‘์น˜)์„ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ์— ์ง์ ‘ ๋”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐ๋ชจ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. DAPG์˜ ๋ฐ๋ชจ ๋ณด์กฐ ๊ทธ๋ž˜๋””์–ธํŠธ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. g_{\text{aug}} = \sum_{(s,a)\in\rho_\pi}\nabla_\theta \ln\pi_\theta(a|s)\,A^\pi(s,a) + \sum_{(s,a)\in\rho_D}\nabla_\theta \ln\pi_\theta(a|s)\,w(s,a).
  • ์•ˆ์ •์„ฑ vs. ์ƒ˜ํ”Œ ํšจ์œจ: ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฐฉ๋ฒ•(DDPGfD)์€ ์ด๋ก ์ ์œผ๋กœ ์ƒ˜ํ”Œ ํšจ์œจ์ด ์šฐ์ˆ˜ํ•˜์ง€๋งŒ ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ๋ฏผ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์˜จํด๋ฆฌ์‹œ ๋ฐฉ์‹(DAPG)์€ ๋” ์•ˆ์ •์ ์ด๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์—์„  ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ๋ณด์กฐ(BC ์ดˆ๊ธฐํ™” + augmented loss)๊ฐ€ ๊ฒฐํ•ฉ๋˜์–ด ์ƒ˜ํ”Œ ํšจ์œจ๊ณผ ์•ˆ์ •์„ฑ ๋ชจ๋‘์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  1. ๊ตฌํ˜„ยท์žฌํ˜„ ์‹œ ์œ ์˜์‚ฌํ•ญ(์‹ค์ „ ํŒ)
  • ๋ฐ๋ชจ ์ „์ด์˜ ์ฒ˜๋ฆฌ: ๋ฐ๋ชจ ์ „์ด๋ฅผ ์˜๊ตฌ ๋ณด์กดํ• ์ง€(์ฆ‰ ์ œ๊ฑฐ๋˜์ง€ ์•Š๊ฒŒ) ๋˜๋Š” ์ผ์ • ๊ธฐ๊ฐ„๋งŒ ์šฐ์„ ์‹œํ• ์ง€ ๊ฒฐ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. DDPGfD ์›๋ณธ/ํŒŒ์ƒ ๊ตฌํ˜„๋“ค์€ ์ข…์ข… ๋ฐ๋ชจ ์ „์ด์— ๋†’์€ ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋ถ€์—ฌํ•˜๊ณ  ์˜ค๋ž˜ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • PER ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹: \alpha,\varepsilon์™€ importance sampling ๋ณด์ • ๊ณ„์ˆ˜๋Š” ์•ˆ์ •์„ฑ์— ์˜ํ–ฅ ํฝ๋‹ˆ๋‹ค.
  • ํƒ์ƒ‰ ๋…ธ์ด์ฆˆ: ๊ณ ์ฐจ์› ํ•ธ๋“œ์—์„œ๋Š” OU noise๋ณด๋‹ค๋Š” ๋‹จ์ˆœ ๊ฐ€์šฐ์‹œ์•ˆ์„ ์“ฐ๊ฑฐ๋‚˜ ํƒ์ƒ‰ ์ „๋žต์„ ๋” ์„ฌ์„ธํžˆ ์„ค๊ณ„ํ•ด์•ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • n-step์˜ ์„ ํƒ: ๋„ˆ๋ฌด ํฐ n์€ ๋ถ„์‚ฐ์„ ์ค„์ด์ง€๋งŒ ํŽธํ–ฅ์„ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ํ™˜๊ฒฝ์— ๋”ฐ๋ผ ์‹คํ—˜์ ์œผ๋กœ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ์ •๊ทœํ™” ๋ฐ ํƒ€๊นƒ ์—…๋ฐ์ดํŠธ ์†๋„: ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ์˜ soft update ๊ณ„์ˆ˜ \tau๋ฅผ ์ž‘๊ฒŒ(๋А๋ฆฌ๊ฒŒ) ํ•˜๋ฉด ์•ˆ์ •์„ฑ์ด ์˜ฌ๋ผ๊ฐ‘๋‹ˆ๋‹ค.
  1. ์—ฐ๊ตฌ์  ๊ฐœ์„  ๋ฐฉํ–ฅ(์ œ์•ˆ)
  • ๋ฐ๋ชจ ์‹ ๋ขฐ๋„ ๊ฐ€์ค‘์น˜ ์ž๋™ํ™”: ๋ฐ๋ชจ๊ฐ€ ํ•ญ์ƒ ์ตœ์ ์ด ์•„๋‹ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ฐ๋ชจ ์ „์ด๋งˆ๋‹ค ๋ถˆํ™•์‹ค์„ฑ/์šฐ์ˆ˜์„ฑ์„ ์ถ”์ •ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•(Apex-style priority + uncertainty) ์ œ์•ˆ.
  • ์˜จ ยท ์˜คํ”„ํด๋ฆฌ์‹œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ: DAPG์˜ augmented-policy-gradient ์•„์ด๋””์–ด๋ฅผ ์˜คํ”„ํด๋ฆฌ์‹œ DDPGfD์— ๊ฒฐํ•ฉํ•˜์—ฌ, ๋ฐ๋ชจ์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ ํ–‰๋™ ๋ณต์ œ ์†์‹ค์„ actor ์—…๋ฐ์ดํŠธ์—๋„ ์ถ”๊ฐ€ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹ ์‹œ๋„.
  • ๋ฐ๋ชจ์™€ RL ์ด๋“์˜ ์ž๋™ ๊ท ํ˜•: ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ๋ฐ๋ชจ ์˜ํ–ฅ๋ ฅ์„ ์ž๋™์œผ๋กœ ๊ฐ์‡ ์‹œํ‚ค๋Š” ์ ์‘ํ˜• ์Šค์ผ€์ค„(๋…ผ๋ฌธ์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ฐ์‡ ํ–ˆ์Œ)์„ ๋ถˆํ™•์‹ค์„ฑ ๊ธฐ๋ฐ˜์œผ๋กœ ์ œ์–ด.
  • HER( hindsight replay )์™€์˜ ๊ฒฐํ•ฉ: ๋ชฉํ‘œ-์กฐ๊ฑดํ™” ๊ณผ์ œ์— ๋Œ€ํ•ด DDPGfD+HER ์กฐํ•ฉ์ด ํƒ์ƒ‰์— ํฐ ์ด๋“์„ ์ค„ ์ˆ˜ ์žˆ์Œ(๋™์‹œ๊ธฐ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋จ).
  • ์‹œ๋ฎฌโ†’์‹ค ์ด์ „์„ ์œ„ํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”ยท๋ชจ๋ธ ์•™์ƒ๋ธ” ๋ณ‘ํ–‰.

์š”์•ฝํ•˜์ž๋ฉด, DDPGfD๋Š” ๋ฐ๋ชจ๋ฅผ ์˜คํ”„ํด๋ฆฌ์‹œ DDPG์˜ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ์„ž์–ด ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ์‹ค์šฉ์  ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ DDPG ๊ธฐ๋ฐ˜์˜ ๋ฏผ๊ฐ์„ฑ๊ณผ ๊ณ ์ฐจ์› ์ ‘์ด‰ ๋ฌธ์ œ์—์„œ์˜ ๋ถˆ์•ˆ์ •์„ฑ ๋•Œ๋ฌธ์—, ADROIT ๊ฐ™์€ 24-DoF ๋ณต์žก ์ž‘์—…์—์„œ๋Š” ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ DAPG(BC ์ดˆ๊ธฐํ™” + on-policy augmented gradient)๊ฐ€ ๋” ๊ฒฌ๊ณ ํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.


DDPGfD VS. DAPG

  • DDPGfD: ๋ฐ๋ชจ๋ฅผ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— โ€œ๋ฐ์ดํ„ฐ(transition)โ€๋กœ ๋„ฃ์–ด ์˜คํ”„ํด๋ฆฌ์‹œ ํ•™์Šต ๊ณผ์ •์—์„œ ์žฌ์‚ฌ์šฉํ•œ๋‹ค โ€” ๋ฐ๋ชจ๋Š” ์ฃผ๋กœ critic ํ•™์Šต๊ณผ ์˜คํ”„๋ผ์ธ ์žฌ์ƒ(์šฐ์„ ์ˆœ์œ„ ์ƒ˜ํ”Œ๋ง)์— ์˜ํ–ฅ์„ ์ค€๋‹ค.
  • DAPG: ๋ฐ๋ชจ๋กœ ๋จผ์ € ์ •์ฑ…์„ โ€œํ–‰๋™ ๋ณต์ œ(behavior cloning)โ€๋กœ ์ดˆ๊ธฐํ™”ํ•œ ๋’ค, ์˜จํด๋ฆฌ์‹œ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ์— ๋ฐ๋ชจ ๊ธฐ๋ฐ˜์˜ ์ถ”๊ฐ€์ ์ธ ๋ณต์ œ-์ •๊ทœํ™” ํ•ญ์„ ์ง์ ‘ ๋”ํ•ด policy ์—…๋ฐ์ดํŠธ๋ฅผ ์œ ๋„ํ•œ๋‹ค โ€” ๋ฐ๋ชจ๊ฐ€ ์ •์ฑ…(๋งค๊ฐœ๋ณ€์ˆ˜) ์—…๋ฐ์ดํŠธ๋ฅผ ์ง์ ‘ ์ œ์–ดํ•œ๋‹ค.

๊ตฌ์ฒด์  ์ฐจ์ด (๊ตฌ์„ฑ ์š”์†Œ๋ณ„)

  • ๋ฐ๋ชจ์˜ ์ €์žฅ/์žฌ์ƒ ๋ฐฉ์‹
    • DDPGfD: ๋ฐ๋ชจ ์ „์ด๋“ค์„ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ๋ณด๊ด€ํ•˜๊ณ , ์šฐ์„ ์ˆœ์œ„ ๊ฒฝํ—˜ ์žฌ์ƒ(PER)ยทn-step ํƒ€๊นƒ ๋“ฑ์œผ๋กœ ์ž์ฃผ ์ƒ˜ํ”Œํ•œ๋‹ค. ๋ฐ๋ชจ๋Š” actorยทcritic ํ•™์Šต ์ƒ˜ํ”Œ์˜ ์ผ๋ถ€๋กœ ๊ฐ„์ฃผ๋œ๋‹ค.
    • DAPG: ๋ฐ๋ชจ๋Š” ๋จผ์ € ํ–‰๋™ ๋ณต์ œ(๊ฐ๋… ํ•™์Šต)์šฉ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉ๋˜์–ด ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , ์ดํ›„ ํ•™์Šต ์ค‘์—๋Š” ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ์— ๋ช…์‹œ์  ๋ฐ๋ชจ ํ•ญ์„ ๋”ํ•˜๋Š” ํ˜•ํƒœ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.
  • ๋ฐ๋ชจ๊ฐ€ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๋Œ€์ƒ
    • DDPGfD: ์ฃผ๋กœ critic(Q) ์ถ”์ •๊ณผ ๊ทธ๋กœ๋ถ€ํ„ฐ ์œ ๋„๋˜๋Š” actor gradient์— ๊ฐ„์ ‘์ ์œผ๋กœ ์˜ํ–ฅ. ๋ฐ๋ชจ๊ฐ€ Q ํƒ€๊นƒ/TD-์—๋Ÿฌ๋ฅผ ํ˜•์„ฑํ•˜๋ฏ€๋กœ critic์˜ ์ถ”์ •์ด ๋ณ€ํ•˜๊ณ , actor๋Š” ๊ทธ ์ถ”์ •์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๋”ฐ๋ฅธ๋‹ค.
    • DAPG: ๋ฐ๋ชจ๊ฐ€ ์ •์ฑ…์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(ํ–‰๋™ ๋ถ„ํฌ)์— ์ง์ ‘์ ์ธ ๊ฐ๋… ์‹ ํ˜ธ(BC ์ดˆ๊ธฐํ™” + ๋ฐ๋ชจ log-likelihood ํ•ญ)๋ฅผ ์ค€๋‹ค. ์ฆ‰ ๋ฐ๋ชจ๊ฐ€ policy ์—…๋ฐ์ดํŠธ ์‹์— ๋ช…์‹œ์ ์œผ๋กœ ๋“ค์–ด๊ฐ„๋‹ค.

ํ•ต์‹ฌ ์ˆ˜์‹(๊ฐ„๋‹จ ์ฐธ๊ณ )

  • Behavior cloning(BC) ๋ชฉ์ (๋ฐ๋ชจ๋กœ ์ดˆ๊ธฐํ™”): \max_\theta \sum_{(s,a)\in \rho_D} \ln \pi_\theta(a|s).
  • DAPG์—์„œ fineโ€‘tuning ์‹œ ์‚ฌ์šฉํ•˜๋Š” ๋ณด๊ฐ•(augmented) ๊ทธ๋ž˜๋””์–ธํŠธ(์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ + ๋ฐ๋ชจ ํ•ญ): \begin{aligned} g_{\text{aug}} &= \sum_{(s,a)\in \rho_\pi} \nabla_\theta \ln\pi_\theta(a|s)\,A^\pi(s,a) \\ &\quad + \sum_{(s,a)\in \rho_D} \nabla_\theta \ln\pi_\theta(a|s)\,w(s,a). \end{aligned}
  • DDPG(๋น„๊ต์šฉ) critic ํƒ€๊นƒ๊ณผ actor gradient: \begin{aligned} y &= r + \gamma Q_{\phi'}\bigl(s',\mu_{\theta'}(s')\bigr),\\ \nabla_\theta J &\approx \mathbb{E}_{s\sim\mathcal{D}}\Big[\nabla_\theta \mu_\theta(s)\,\nabla_a Q_\phi(s,a)\big|_{a=\mu_\theta(s)}\Big]. \end{aligned}

์™œ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š”๊ฐ€ (์ง๊ด€์  ์ด์œ )

  • ์ง์ ‘์„ฑ vs ๊ฐ„์ ‘์„ฑ: DAPG๋Š” ๋ฐ๋ชจ๊ฐ€ ์ •์ฑ… ์—…๋ฐ์ดํŠธ ํ•ญ์— ์ง์ ‘ ๋“ค์–ด๊ฐ€๋ฏ€๋กœ, โ€œ์‚ฌ๊ณ (behavior)โ€๋ฅผ ๋ฐ”๋กœ ๋ณด์กดยท์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋ฉด DDPGfD๋Š” ๋ฐ๋ชจ๊ฐ€ Q ์ถ”์ •์— ์˜ํ–ฅ์„ ์ฃผ๊ณ  ๊ทธ ์˜ํ–ฅ์ด ๋‹ค์‹œ actor๋กœ ์ „ํŒŒ๋˜๋Š” ๊ฐ„์ ‘ ๊ฒฝ๋กœ๋ฅผ ํƒํ•œ๋‹ค. ์ด ๊ฐ„์ ‘ ๊ฒฝ๋กœ๋Š” ํ•จ์ˆ˜ ๊ทผ์‚ฌยท๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ ์˜ค๋ฅ˜์— ์˜ํ•ด ์™œ๊ณก๋  ๊ฐ€๋Šฅ์„ฑ์ด ํฌ๋‹ค.
  • ๋ถ„ํฌ ์ผ์น˜์„ฑ(distribution match): DAPG์˜ ์˜จํด๋ฆฌ์‹œ fineโ€‘tuning์€ advantage ๊ณ„์‚ฐ์ด ํ•ญ์ƒ ์ตœ์‹  ์ •์ฑ… ๋ถ„ํฌ์—์„œ ์ด๋ค„์ง€๋ฏ€๋กœ ๋ฐ๋ชจ์™€ ์ •์ฑ… ๊ฐ„ ๋ถ„ํฌ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋ฅผ ๋น„๊ต์  ์ž˜ ์ œ์–ดํ•œ๋‹ค. DDPGfD๋Š” ๊ณผ๊ฑฐ ๋ฐ๋ชจ+๋‹ค์–‘ํ•œ ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ž์—ฌ critic์— ๋ถ„ํฌ ๋ถˆ์ผ์น˜๋ฅผ ์ผ์œผํ‚ค๊ธฐ ์‰ฝ๋‹ค.
  • ์•ˆ์ •ํ™” ์ˆ˜๋‹จ: DAPG(๊ธฐ๋ฐ˜ NPG)๋Š” Fisher/์‹ ๋ขฐ์˜์—ญ๊ณผ ๊ฐ™์€ ๊ทœ์ œ(๋˜๋Š” ์ œํ•œ์  ์Šคํ…)๋ฅผ ์ด์šฉํ•ด ์—…๋ฐ์ดํŠธ ํฌ๊ธฐ๋ฅผ ์ œ์–ดํ•˜๋Š” ๋ฐ˜๋ฉด, DDPGfD๋Š” critic ์˜ค์ฐจยทํƒ€๊นƒ์˜ ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์œผ๋กœ ์ธํ•ด ์ž˜๋ชป๋œ Q ์ถ”์ •์ด actor๋ฅผ ํฌ๊ฒŒ ํ”๋“ค ์ˆ˜ ์žˆ๋‹ค.
  • ์‹ค๋ฌด์  ๊ฒฐ๊ณผ: ๊ทธ๋ž˜์„œ ๋ฐ๋ชจ๊ฐ€ ์ ์ง€๋งŒ ๊ณ ์ฐจ์›ยท์ ‘์ด‰์ด ๋งŽ์€ ํ™˜๊ฒฝ์—์„œ๋Š” DAPG ๋ฐฉ์‹(BC ์ดˆ๊ธฐํ™” + ๋ฐ๋ชจ ํ•ญ ๋ณด๊ฐ•)์ด ๋” ์•ˆ์ •์ ์ด๊ณ  ์ƒ˜ํ”Œ ํšจ์œจ์ด ์ข‹์€ ๋ฐ˜๋ฉด, DDPGfD๋Š” ์ž˜ ํŠœ๋‹๋˜๋ฉด ์ƒ˜ํ”Œ ์žฌ์‚ฌ์šฉ ์ธก๋ฉด์—์„œ ์ด๋“์ด ํฌ์ง€๋งŒ ๋ถˆ์•ˆ์ •์„ฑยท๊ณผ๋Œ€ํ‰๊ฐ€ ์œ„ํ—˜์— ์ทจ์•ฝํ•˜๋‹ค.

DDPGfD (์˜์‚ฌ์ฝ”๋“œ)

  • ์ „์ œ: deterministic actor \mu_\theta, critic Q_\phi, ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ \mu_{\theta'}, Q_{\phi'}, replay buffer \mathcal{D}์— ๋ฐ๋ชจ ์ „์ด \rho_D๋ฅผ ๋ฏธ๋ฆฌ ์‚ฝ์ž…, Prioritized Experience Replay(PER), optional n-step returns.
  • ํ•˜์ด๋ ˆ๋ฒจ:
    1. Initialize \theta,\phi,\theta',\phi'; fill replay buffer \mathcal{D} with demo transitions \rho_D (mark them as demo).
    2. ๋ฐ˜๋ณต(ํ™˜๊ฒฝ interaction ๋‹จ๊ณ„):
      • ํ–‰๋™ ์ƒ์„ฑ: ํ˜„์žฌ ์ƒํƒœ s_t์—์„œ ํ–‰๋™ a_t=\mu_\theta(s_t)+\text{noise}๋กœ ์‹คํ–‰ํ•˜์—ฌ (s_t,a_t,r_t,s_{t+1})๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  \mathcal{D}์— ์ €์žฅ.
      • (์ฃผ๊ธฐ์ ์œผ๋กœ) ์—…๋ฐ์ดํŠธ ๋ฐ˜๋ณต:
        • ๋ฏธ๋‹ˆ๋ฐฐ์น˜ B๋ฅผ \mathcal{D}์—์„œ ์ƒ˜ํ”Œ(๋ฐ๋ชจ ์ƒ˜ํ”Œ์ด ์ถฉ๋ถ„ํžˆ ํฌํ•จ๋˜๋„๋ก PER/์šฐ์„ ์ˆœ์œ„ ์„ค์ •).
        • (n-step ์‚ฌ์šฉ ์‹œ) n-step ํƒ€๊นƒ ๊ณ„์‚ฐ: y_t^{(n)}=\sum_{k=0}^{n-1}\gamma^k r_{t+k} + \gamma^n Q_{\phi'}\bigl(s_{t+n},\mu_{\theta'}(s_{t+n})\bigr)
        • 1-step ํƒ€๊นƒ(๊ธฐ๋ณธ): y_t = r_t + \gamma\, Q_{\phi'}\bigl(s_{t+1},\mu_{\theta'}(s_{t+1})\bigr)
        • critic ์†์‹ค: L(\phi)=\mathbb{E}_{(s,a,r,s')\in B}\bigl[ \bigl(Q_\phi(s,a)-y\bigr)^2 \bigr]
        • critic ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐฑ์‹ : \phi \leftarrow \phi - \alpha_c \nabla_\phi L(\phi).
        • actor ์—…๋ฐ์ดํŠธ(์ง€์—ฐ/์ฃผ๊ธฐ์ ): \nabla_\theta J \approx \mathbb{E}_{s\in B}\Big[ \nabla_\theta \mu_\theta(s)\; \nabla_a Q_\phi(s,a)\big|_{a=\mu_\theta(s)} \Big] ๊ทธ๋ฆฌ๊ณ  \theta \leftarrow \theta + \alpha_a \nabla_\theta J.
        • PER ์šฐ์„ ์ˆœ์œ„ ๊ฐฑ์‹ : ๊ฐ ์ƒ˜ํ”Œ์˜ priority p_i \leftarrow |\delta_i| + \varepsilon (์—ฌ๊ธฐ์„œ \delta_i = y_i - Q_\phi(s_i,a_i)).
        • ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ ์†Œํ”„ํŠธ ์—…๋ฐ์ดํŠธ: \phi' \leftarrow \tau \phi + (1-\tau)\phi',\qquad \theta' \leftarrow \tau \theta + (1-\tau)\theta'.
    3. ๋ฐ˜๋ณต ์ข…๋ฃŒ ์กฐ๊ฑด ๋งŒ์กฑ ์‹œ ์ข…๋ฃŒ.
  • ํŠน๊ธฐ์‚ฌํ•ญ(๊ตฌํ˜„ ํŒ)
    • ๋ฐ๋ชจ ์ „์ด๋Š” PER์—์„œ ๋†’์€ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ฃผ๊ฑฐ๋‚˜, ์˜๊ตฌ์ ์œผ๋กœ buffer์— ๋‚จ๊ฒจ ์ž์ฃผ ์ƒ˜ํ”Œ๋˜๊ฒŒ ํ•จ.
    • exploration noise ์„ธํŒ…, n-step, PER ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์•ˆ์ •์„ฑ์— ํฐ ์˜ํ–ฅ.

DAPG (์˜์‚ฌ์ฝ”๋“œ)

  • ์ „์ œ: stochastic policy \pi_\theta(a|s) (์˜ˆ: Gaussian), ๋ฐ๋ชจ ์ง‘ํ•ฉ \rho_D ์‚ฌ์šฉ, on-policy rollouts, Natural Policy Gradient(NPG) ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ, ์ดˆ๊ธฐ์—๋Š” Behavior Cloning(BC)์œผ๋กœ pretrain.
  • ํ•˜์ด๋ ˆ๋ฒจ:
    1. Behavior cloning(์‚ฌ์ „ํ•™์Šต): ๋ฐ๋ชจ๋กœ ์ •์ฑ… ์ดˆ๊ธฐํ™” \max_\theta \sum_{(s,a)\in\rho_D} \ln \pi_\theta(a|s) (์ฆ‰, supervised learning์œผ๋กœ \theta ์ดˆ๊ธฐํ™”).
    2. ๋ฐ˜๋ณต(on-policy ํ•™์Šต ๋‹จ๊ณ„):
      • ์˜จํด๋ฆฌ์‹œ ์ƒ˜ํ”Œ ์ˆ˜์ง‘: ํ˜„์žฌ ์ •์ฑ… \pi_\theta๋กœ ์—ฌ๋Ÿฌ ์—ํ”ผ์†Œ๋“œ(๋˜๋Š” ๋ฐฐ์น˜) ์‹คํ–‰ํ•˜์—ฌ ๋กค์•„์›ƒ ์ง‘ํ•ฉ \rho_\pi ์ˆ˜์ง‘.
      • Advantage ์ถ”์ •: ์ˆ˜์ง‘ํ•œ ๋กค์•„์›ƒ์œผ๋กœ advantage \hat A^\pi(s,a) ๊ณ„์‚ฐ(์˜ˆ: GAE ๋˜๋Š” TD-return).
      • policy gradient(๋ฐ๋ชจ ๋ณด๊ฐ• ํฌํ•จ) ๊ณ„์‚ฐ: \begin{aligned} g_{\text{RL}} &= \sum_{(s,a)\in\rho_\pi} \nabla_\theta \ln\pi_\theta(a|s)\; \hat A^\pi(s,a) \\ g_{\text{BC}} &= \sum_{(s,a)\in\rho_D} \nabla_\theta \ln\pi_\theta(a|s)\; w(s,a) \end{aligned} ์—ฌ๊ธฐ์„œ w(s,a)๋Š” ๋ฐ๋ชจ ํ•ญ์˜ ๊ฐ€์ค‘์น˜(๋…ผ๋ฌธ์—์„œ๋Š” heuristics, ์˜ˆ: w(s,a)=\lambda_0\lambda_1^k\max_{(s',a')\in\rho_\pi}\hat A^\pi(s',a')).
        • ํ•ฉ์„ฑ ๋ณด๊ฐ• ๊ทธ๋ž˜๋””์–ธํŠธ: g_{\text{aug}} = g_{\text{RL}} + g_{\text{BC}}
      • Natural Policy Gradient ์—…๋ฐ์ดํŠธ(์ •๊ทœํ™”๋œ ํ”ผ์…” ์ „์น˜ ์‚ฌ์šฉ):
        • Fisher ์ •๋ณดํ–‰๋ ฌ ๊ทผ์‚ฌ: F_\theta = \mathbb{E}_{(s,a)\in\rho_\pi}\big[ \nabla_\theta \ln\pi_\theta(a|s)\, \nabla_\theta \ln\pi_\theta(a|s)^\top \big]
        • NPG ์—…๋ฐ์ดํŠธ(์ •๊ทœํ™”๋œ ์Šคํ… ํฌ๊ธฐ \delta): \theta \leftarrow \theta + \sqrt{\delta}\; \frac{F_\theta^{-1}\, g_{\text{aug}}}{\sqrt{g_{\text{aug}}^\top F_\theta^{-1} g_{\text{aug}}}}
      • (์„ ํƒ) ๋ฐ๋ชจ ๊ฐ€์ค‘์น˜ w ๊ฐ์‡ : iteration k์— ๋”ฐ๋ผ w \leftarrow \lambda_1^k w.
    3. ๋ฐ˜๋ณต ์ข…๋ฃŒ ์กฐ๊ฑด ๋งŒ์กฑ ์‹œ ์ข…๋ฃŒ.
  • ํŠน๊ธฐ์‚ฌํ•ญ(๊ตฌํ˜„ ํŒ)
    • BC๋กœ ์ดˆ๊ธฐํ™”ํ•˜๋ฉด ์ดˆ๊ธฐ ํƒ์ƒ‰์ด ์•ˆ์ •์ ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ critic(ํ˜น์€ advantage ์ถ”์ •)์˜ ๋ถ„ํฌ ๋ฌธ์ œ๋ฅผ ์ค„์ž„(์˜จํด๋ฆฌ์‹œ์ด๋ฏ€๋กœ ๋ฆฌํ”Œ๋ ˆ์ด๋กœ ์ธํ•œ ๋ถ„ํฌ mismatch ์—†์Œ).
    • ๋ฐ๋ชจ ํ•ญ์˜ ๊ฐ€์ค‘์น˜ ์Šค์ผ€์ค„์€ ์•ˆ์ •์„ฑยท๊ฐœ์„  ์—ฌ์ง€์— ํฐ ์˜ํ–ฅ.

๋น„๊ต ์š”์•ฝ

  • ๋ฐ๋ชจ์˜ ์‚ฌ์šฉ ๋ฐฉ์‹:
    • DDPGfD: ๋ฐ๋ชจ๋ฅผ transition ๋ฐ์ดํ„ฐ๋กœ replay buffer์— ๋„ฃ์–ด ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฐฉ์‹์œผ๋กœ ๊ฐ„์ ‘ ํ™œ์šฉ(critic ํ•™์Šต โ†’ actor์— ๊ฐ„์ ‘ ์˜ํ–ฅ).
    • DAPG: ๋ฐ๋ชจ๋กœ ์ •์ฑ…์„ ์ง์ ‘ ์ดˆ๊ธฐํ™”(BC)ํ•˜๊ณ , ์˜จํด๋ฆฌ์‹œ ์ •์ฑ… ์—…๋ฐ์ดํŠธ์— ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ log-likelihood ํ•ญ์„ ๋ณด๊ฐ•(์ •์ฑ…์— ์ง์ ‘ ์˜ํ–ฅ).
  • ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ๊ด€์ :
    • DDPGfD: ๋ฆฌํ”Œ๋ ˆ์ด์— ์˜ํ•ด ๊ณผ๊ฑฐ/๋ฐ๋ชจ/์—์ด์ „ํŠธ ๊ฒฝํ—˜์ด ์„ž์ด๋ฉฐ distribution mismatch ์œ ๋ฐœ ๊ฐ€๋Šฅ.
    • DAPG: ํ•ญ์ƒ ์ตœ์‹  ์ •์ฑ… ๋ฐ์ดํ„ฐ๋กœ advantage๋ฅผ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ ๋ถ„ํฌ mismatch๊ฐ€ ์ ์Œ.
  • ์•ˆ์ •์„ฑยท๋ฏผ๊ฐ๋„:
    • DDPGfD: off-policy + ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘์œผ๋กœ extrapolation/๊ณผ๋Œ€์ถ”์ • ๋ฌธ์ œ์— ๋ฏผ๊ฐ(ํŠนํžˆ ๊ณ ์ฐจ์›ยท์ ‘์ด‰ ํ™˜๊ฒฝ).
    • DAPG: NPG์˜ ์‹ ๋ขฐ์˜์—ญ/BC ์ดˆ๊ธฐํ™”๋กœ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋” ๋ณด์ˆ˜์ ยท์•ˆ์ •์ .

์™œ ์˜คํ”„ํด๋ฆฌ์‹œ DDPGfD๊ฐ€ ๊ณ ์ฐจ์›ยท์ ‘์ด‰์ด ๋งŽ์€ ํ™˜๊ฒฝ์—์„œ ํŠนํžˆ ๋ถˆ์•ˆ์ •ํ•˜๊ฒŒ ๋™์ž‘ํ•˜๋Š”๊ฐ€

  1. ํ•ต์‹ฌ ์ˆ˜์‹(์š”์•ฝ)
  • DDPG/ DDGPfD์—์„œ critic( Q ) ์—…๋ฐ์ดํŠธ์™€ target ๊ฐ’: L(\phi)=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\big[(Q_\phi(s,a)-y)^2\big] ๊ทธ๋ฆฌ๊ณ  ํƒ€๊นƒ ๊ฐ’์€ ๋ณดํ†ต ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. y = r + \gamma Q_{\phi'}\bigl(s',\mu_{\theta'}(s')\bigr).
  • DDPG์˜ actor ์—…๋ฐ์ดํŠธ(Deterministic Policy Gradient): \nabla_\theta J \approx \mathbb{E}_{s\sim\mathcal{D}}\Big[\nabla_\theta \mu_\theta(s)\,\nabla_a Q_\phi(s,a)\big|_{a=\mu_\theta(s)}\Big]. (DDPGfD๋Š” ๋ฐ๋ชจ๋ฅผ ๋ฆฌํ”Œ๋ ˆ์ด์— ๋„ฃ๊ณ  PER ๋“ฑ์œผ๋กœ ์ƒ˜ํ”Œ๋ง์„ ์กฐ์ •ํ•˜๋Š” ๋“ฑ์˜ ์ถ”๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.)
  • ๋ฐ˜๋ฉด ์˜จํด๋ฆฌ์‹œ NPG/ DAPG ๊ณ„์—ด์—์„œ๋Š” ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ(์ƒ˜ํ”Œ ๊ธฐ๋ฐ˜)์™€ ์ž์—ฐ ๋ณด์ •(ํ”ผ์…” ํ–‰๋ ฌ)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. REINFORCE ๊ณ„์—ด์˜ ์ƒ˜ํ”Œ ๊ทธ๋ ˆ์ด๋””์–ธํŠธ๋Š”: g=\frac{1}{N}\sum_{i,t}\nabla_\theta \ln\pi_\theta(a_t^i|s_t^i)\,\hat A^\pi(s_t^i,a_t^i). ์ž์—ฐ์ •์ฑ…๊ฒฝ์‚ฌ(NPG) ์—…๋ฐ์ดํŠธ ํ˜•ํƒœ(์ •๊ทœํ™”ยท์‹ ๋ขฐ์˜์—ญ ํšจ๊ณผ): \theta_{k+1}=\theta_k + \sqrt{\delta}\; \frac{F^{-1} g}{\sqrt{g^\top F^{-1} g}}, ์—ฌ๊ธฐ์„œ F๋Š” Fisher ์ •๋ณด ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.
  1. ์˜คํ”„ํด๋ฆฌ์‹œ(DP P G f D)์—์„œ์˜ ๋ถˆ์•ˆ์ •์„ฑ โ€” ๊ตฌ์ฒด์  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ํƒ€๊นƒ/์—…๋ฐ์ดํŠธ ๊ด€์ ์˜ ์—ฐ๊ฒฐ ์•„๋ž˜ ํ•ญ๋ชฉ๋“ค์€ ์„œ๋กœ ์—ฐ์‡„์ ์œผ๋กœ ์•…์˜ํ–ฅ์„ ์ฃผ๋ฉฐ, ํŠนํžˆ ์ ‘์ด‰์ด ๋งŽ๊ณ  ์ƒํƒœ/๋ณด์ƒ์ด ๋ถˆ์—ฐ์†์ ์ธ ํ™˜๊ฒฝ์—์„œ ๊ทธ ์ •๋„๊ฐ€ ์ปค์ง‘๋‹ˆ๋‹ค.
  1. deadly triad: function approximation + bootstrapping + off-policy ํ•™์Šต
  • DDPG๋Š” ํ•จ์ˆ˜ ๊ทผ์‚ฌ(์‹ ๊ฒฝ๋ง), ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘(y๊ฐ€ Q_{\phi'}๋ฅผ ํฌํ•จ)๊ณผ ์˜คํ”„ํด๋ฆฌ์‹œ ๊ฒฝํ—˜ ์žฌ์‚ฌ์šฉ(๋ฆฌํ”Œ๋ ˆ์ด)์„ ๋™์‹œ์— ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ธ ๊ฐ€์ง€๊ฐ€ ๊ฒฐํ•ฉ๋˜๋ฉด ํ•™์Šต์ด ๋ฐœ์‚ฐํ•˜๊ฑฐ๋‚˜ ์ž˜๋ชป๋œ ๊ฐ’(์˜ˆ: ๊ณผ๋Œ€์ถ”์ •)์„ ๋งŒ๋“ค๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.
  • ์ด์œ (ํƒ€๊นƒ ๊ด€์ ): ํƒ€๊นƒ y๊ฐ€ critic์˜ ์ถ”์ •๊ฐ’ Q_{\phi'}์— ์˜์กดํ•˜๋ฏ€๋กœ, critic์˜ ์˜ค์ฐจ๊ฐ€ ๋‹ค์‹œ ํƒ€๊นƒ์œผ๋กœ ๋“ค์–ด๊ฐ€๋ฉฐ ์ฆํญ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ ‘์ด‰ ๋™์—ญํ•™์—์„œ ์ž‘์€ ์œ„์น˜ ๋ณ€ํ™”๊ฐ€ ๋ณด์ƒ/์ „์ด์— ํฐ ๋น„์„ ํ˜• ๋ณ€ํ™”๋ฅผ ๋งŒ๋“ค๋ฉด ์ด ํ˜„์ƒ์€ ๋” ์‹ฌํ•ฉ๋‹ˆ๋‹ค.
  1. ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ์— ์˜ํ•œ ๋ถ„ํฌ ๋ถˆ์ผ์น˜(Distribution mismatch)์™€ extrapolation error
  • ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฆฌํ”Œ๋ ˆ์ด๋Š” ์˜› ์ •์ฑ…(๋˜๋Š” ๋ฐ๋ชจ, ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘๋œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ)์—์„œ ์˜จ ์ƒํƒœยทํ–‰๋™์„ ์„ž์–ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด critic์€ ํ˜„์žฌ ์ •์ฑ…์ด ์ž์ฃผ ๋ฐฉ๋ฌธํ•˜์ง€ ์•Š๋Š” ์ƒํƒœยทํ–‰๋™ ์Œ๊นŒ์ง€ ๊ทผ์‚ฌํ•˜๋ ค ํ•ฉ๋‹ˆ๋‹ค. ํ•จ์ˆ˜ ๊ทผ์‚ฌ๊ธฐ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ๋ฐ•ํ•œ ์˜์—ญ์—์„œ ๊ณผ๋„ํ•˜๊ฒŒ ์ผ๋ฐ˜ํ™”ํ•˜๊ฑฐ๋‚˜(ํŠนํžˆ ๊ณ ์ฐจ์› ์•ก์…˜๊ณต๊ฐ„์—์„œ) ๊ณผ๋Œ€ํ‰๊ฐ€(overestimation)๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค(์ด๋ฅผ extrapolation error๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค).
  • ์ •์ฑ… ์—…๋ฐ์ดํŠธ ๊ด€์ : actor๋Š” \nabla_a Q_\phi(s,a)์— ์˜ํ•ด ํ–‰๋™์„ ๋ฐ€์–ด๋ถ™์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ Q_\phi๊ฐ€ ๋ฐ์ดํ„ฐ ํฌ๋ฐ• ์˜์—ญ์—์„œ ํฌ๊ฒŒ ๊ณผ๋Œ€ํ‰๊ฐ€๋˜์–ด ์žˆ๋‹ค๋ฉด, actor๋Š” ์‹ค์ œ๋กœ ์‹คํ–‰ํ•˜๋ฉด ์žฌํ˜„ ๋ถˆ๊ฐ€๋Šฅํ•œ(๋˜๋Š” ์œ„ํ—˜ํ•œ) ํ–‰๋™์œผ๋กœ policy๋ฅผ ๋ชฐ์•„๊ฐ‘๋‹ˆ๋‹ค. ์ด๋•Œ deterministic actor๋Š” ํƒ์ƒ‰ ์Šค๋ฌด์Šค๋‹์ด ์•ฝํ•ด ์ž˜๋ชป๋œ ์ตœ์ ํ™” ๋ฐฉํ–ฅ์œผ๋กœ ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค.
  1. target network(์ง€์—ฐ๋œ ํƒ€๊นƒ)๊ณผ ํƒ€๊นƒ ์ง€์—ฐ์˜ ์–‘๋ฉด์„ฑ
  • ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ(\phi',\theta')๋Š” ์•ˆ์ •ํ™”๋ฅผ ์œ„ํ•ด ๋А๋ฆฌ๊ฒŒ(soft update) ๊ฐฑ์‹ ํ•˜์ง€๋งŒ, ์ด๋กœ ์ธํ•ด ํƒ€๊นƒ y๋Š” ์ตœ์‹  ์ •์ฑ…ยทcritic์˜ ๋ถ„ํฌ์™€ ๋ถˆ์ผ์น˜(ํ˜น์€ lag)๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ์ ‘์ด‰-ํ’๋ถ€ํ•œ ํ™˜๊ฒฝ์—์„œ ์ž‘์€ ์ •์ฑ… ๋ณ€ํ™”๊ฐ€ ์ „์ด ํ™•๋ฅ ๊ณผ ๋ณด์ƒ์„ ํฌ๊ฒŒ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š”๋ฐ, ํƒ€๊นƒ์ด ๋Šฆ๊ฒŒ ๋”ฐ๋ผ์˜ฌ ๋•Œ critic์€ ๊ณผ๊ฑฐ ๋ถ„ํฌ์— ๋งž์ถฐ ํ•™์Šตํ•˜๊ณ , actor๋Š” ํ˜„์žฌ ๋ถ„ํฌ์—์„œ critic์˜ ์ž˜๋ชป๋œ ๊ธฐ์šธ๊ธฐ๋ฅผ ์‹ ๋ขฐํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค โ€” ๋ถˆ์•ˆ์ •์„ฑ์ด ์ฆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  1. ์šฐ์„ ์ˆœ์œ„ ์žฌ์ƒ(PER)ยท๋ฐ๋ชจ ํ˜ผํ•ฉ์˜ ํŽธํ–ฅ
  • DDPGfD๋Š” ๋ฐ๋ชจ์˜ ์ „์ด๋ฅผ ๋งŽ์ด ์žฌ์ƒ์‹œํ‚ค๋ ค ๋ฐ๋ชจ์— ๋†’์€ ์šฐ์„ ์ˆœ์œ„๋ฅผ ์ฃผ๊ฑฐ๋‚˜ PER๋กœ TD-์˜ค์ฐจ๊ฐ€ ํฐ ์ƒ˜ํ”Œ์„ ๋” ์ž์ฃผ ๋ฝ‘์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์ •์ƒ์ ์œผ๋กœ ํŽธํ–ฅ์‹œ์ผœ critic์ด ํŠน์ • (๋•Œ๋กœ๋Š” ๋“œ๋ฌธ) ๊ณ  TD-์˜ค์ฐจ ์ƒ˜ํ”Œ์— ๊ณผ์ ํ•ฉํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • ์ •์ฑ…์—…๋ฐ์ดํŠธ ๊ด€์ : ์ด ํŽธํ–ฅ ๋•Œ๋ฌธ์— \nabla_a Q๊ฐ€ ํŠน์ • ์ƒ˜ํ”Œ์— ์˜ํ•ด ์™œ๊ณก๋  ์ˆ˜ ์žˆ๊ณ , actor๋Š” ๊ทธ ์™œ๊ณก๋œ ๊ธฐ์šธ๊ธฐ๋กœ ํฐ ๋ณ€ํ™”๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค.
  1. ์ ‘์ด‰ ์—ญํ•™์˜ ๋น„์—ฐ์†์„ฑ๊ณผ ๋ณด์ƒ ํฌ์†Œ์„ฑ โ†’ TD ๋ถ„์‚ฐ ์ฆ๊ฐ€
  • ์ ‘์ด‰(์ถฉ๋Œ, ๋งˆ์ฐฐ, ๋Š๊น€)์€ ์ „์ดยท๋ณด์ƒ์„ ๋น„์—ฐ์†์ ์œผ๋กœ ๋งŒ๋“ค๊ณ , ๋™์ผํ•œ ์ƒํƒœยทํ–‰๋™์—์„œ ํฐ ๋ณด์ƒ ์ฐจ์ด ๋˜๋Š” ๋ถ„ํฌ์˜ ๊ผฌ๋ฆฌ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘ ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ๋Š” ์ด๋Ÿฌํ•œ ๋ถ„์‚ฐ/๋น„์—ฐ์†์„ฑ์— ๋ฏผ๊ฐํ•ด ํƒ€๊นƒ์ด ์ž์ฃผ ํฌ๊ฒŒ ํ”๋“ค๋ฆฌ๋ฉฐ TD ์˜ค์ฐจ ๋ถ„ํฌ๊ฐ€ ๋„“์–ด์ ธ ํ•™์Šต ๋ถˆ์•ˆ์ •์ด ์ปค์ง‘๋‹ˆ๋‹ค.
  • ๊ฒฐ๊ณผ์ ์œผ๋กœ critic์˜ ์ถ”์ • ๋ถ„์‚ฐ์ด ์ปค์ง€๊ณ  ์•ก์…˜ ๊ทธ๋ž˜๋””์–ธํŠธ์˜ ๋ฐฉํ–ฅ์„ฑ๋„ ๋ถˆ์•ˆ์ •ํ•ด์ ธ actor ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ธ‰๊ฒฉํžˆ ํ”๋“ค๋ฆฝ๋‹ˆ๋‹ค.
  1. deterministic ์ •์ฑ…์˜ ๋ฏผ๊ฐ์„ฑ(ํƒ์ƒ‰ยท์ •์ฑ…์˜ ํญ)
  • DDPG ๊ณ„์—ด์€ deterministic policy \mu_\theta(s)๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋™์ž‘ํ•˜๊ณ , ํƒ์ƒ‰์€ ์™ธ๋ถ€ ๋…ธ์ด์ฆˆ๋กœ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ตฌ์„ฑ์€ critic์˜ ์˜ค์ฐจ๊ฐ€ policy์— ์ฆ‰๊ฐ์ ์œผ๋กœ ๋ฐ˜์˜๋˜๊ธฐ ์‰ฌ์›Œ, ์ž˜๋ชป๋œ Q ์ถ”์ •๊ฐ’์ด ๊ณง policy ๋ณ€ํ™”๋ฅผ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ํ™•๋ฅ ์  ์ •์ฑ…(์˜ˆ: SAC)์€ ์—”ํŠธ๋กœํ”ผ๋กœ ํƒ์ƒ‰์„ ๋” ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ•˜๊ณ  Q์˜ ๊ณผ๋Œ€ํ‰๊ฐ€๊ฐ€ policy์— ๋ฏธ์น˜๋Š” ์ฆ‰๊ฐ์  ์˜ํ–ฅ์ด ๋” ์™„ํ™”๋ฉ๋‹ˆ๋‹ค.
  1. ์˜จํด๋ฆฌ์‹œ(DAPG/NPG)์™€ ๋น„๊ต โ€” ์™œ ๋” ๊ฒฌ๊ณ ํ•œ๊ฐ€?
  • on-policy ๋ฐฉ๋ฒ•์€ advantage/value ์ถ”์ •์ด โ€œํ˜„์žฌ(policy) ๋ถ„ํฌ์— ๋Œ€ํ•ดโ€ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•ญ์ƒ ์ตœ์‹  ์ •์ฑ…์—์„œ ์ˆ˜์ง‘๋˜๋ฏ€๋กœ ๋ถ„ํฌ ๋ถˆ์ผ์น˜๊ฐ€ ์ž‘์Šต๋‹ˆ๋‹ค(๋ฆฌํ”Œ๋ ˆ์ด๋กœ ์ธํ•œ extrapolation error ๊ฐ์†Œ).
  • NPG/TRPO/PPO ๊ณ„์—ด์€ ๋ณดํ†ต ์‹ ๋ขฐ์˜์—ญ(KL constraint) ๋˜๋Š” Fisher ๊ธฐ๋ฐ˜ ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ํ•œ ์Šคํ…์— ์ •์ฑ…์ด ํฌ๊ฒŒ ๋ณ€ํ•˜์ง€ ์•Š๋„๋ก ์ œ์•ฝํ•ฉ๋‹ˆ๋‹ค. NPG ์—…๋ฐ์ดํŠธ ์‹์—์„œ Fisher ์ „์น˜๊ฐ€ ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์Šค์ผ€์ผ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•ด ํฐ ๋ถˆ์•ˆ์ •ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ณ€ํ™”๋ฅผ ์–ต์ œํ•ฉ๋‹ˆ๋‹ค.
  • DAPG๋Š” ๋ฐ๋ชจ๋กœ behavior cloning์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜์—ฌ critic๊ณผ policy๊ฐ€ ํ•ฉ๋ฆฌ์  ์˜์—ญ์—์„œ ์‹œ์ž‘ํ•˜๋ฏ€๋กœ off-policy critic์ด ๊ฒช๋Š” OOD ๋ฌธ์ œ๋ฅผ ๊ทผ๋ณธ์ ์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ RL fine-tuning์‹œ ๋ฐ๋ชจ-๋กœ์Šค ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ(์ดˆ๊ธฐ์—) ์ •์ฑ…์ด ์œ„ํ—˜ํ•œ OOD ํ–‰๋™์œผ๋กœ ๋ฒ—์–ด๋‚˜์ง€ ์•Š๋„๋ก ๊ฐ€์ด๋“œํ•ฉ๋‹ˆ๋‹ค.
  1. ์‹คํ—˜์  ์ง„๋‹จ ์ง€ํ‘œ(๋ฌด์—‡์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•  ๊ฒƒ์ธ๊ฐ€)
  • TD-error ๋ถ„ํฌ(ํ‰๊ท ยท๋ถ„์‚ฐ)์™€ ๊ทธ ์‹œ๊ฐ„์  ์ถ”์„ธ. ๊ฐ‘์ž‘์Šค๋Ÿฐ ๋ถ„์‚ฐ ์ฆ๊ฐ€ โ†’ ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ๋ถˆ์•ˆ์ • ์‹ ํ˜ธ.
  • Q๊ฐ’๊ณผ ์‹ค์ œ ์—ํ”ผ์†Œ๋“œ ๋ˆ„์  ๋ฆฌํ„ด์˜ ์ƒ๊ด€๊ด€๊ณ„(๊ณผ๋Œ€/๊ณผ์†Œ์ถ”์ • ํ™•์ธ).
  • actor๊ฐ€ ์ƒ์„ฑํ•˜๋Š” ํ–‰๋™์ด replay buffer์—์„œ ์–ผ๋งˆ๋‚˜ OOD์ธ์ง€(์˜ˆ: ์ƒํƒœ-ํ–‰๋™ ์Œ์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌ).
  • ์•ก์…˜-๊ทธ๋ ˆ์ด๋””์–ธํŠธ \nabla_a Q์˜ ๋…ธ๋ฆ„๊ณผ ๋ฐฉํ–ฅ ๋ณ€๋™์„ฑ(ํฐ ์ง„๋™์€ ์œ„ํ—˜ ์‹ ํ˜ธ).
  • ๋‹ค๋ฅธ ๋žœ๋ค ์‹œ๋“œ๋“ค ๊ฐ„ ์„ฑ๋Šฅ ํŽธ์ฐจ(๋ฏผ๊ฐ๋„).
  1. ์™„ํ™” ๊ธฐ๋ฒ•(ํ˜„์‹ค์  ๋Œ€์•ˆ/๊ฐœ์„ )
  • Double Q / Clipped Double Q (TD3): Q ๊ณผ๋Œ€์ถ”์ •์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‘ critic์„ ๋‘๊ณ  ํƒ€๊นƒ์— ๋” ๋ณด์ˆ˜์ ์ธ ๊ฐ’์„ ์‚ฌ์šฉ.
  • Delayed policy updates: critic์„ ์ถฉ๋ถ„ํžˆ ์—…๋ฐ์ดํŠธํ•œ ๋’ค actor๋ฅผ ์—…๋ฐ์ดํŠธ(์˜ˆ: TD3).
  • Entropy-regularized stochastic policy (SAC): ํ™•๋ฅ ์ •์ฑ…ยท์—”ํŠธ๋กœํ”ผ๋กœ ์•ˆ์ •ํ™”.
  • Conservative Q-learning (CQL) ๋“ฑ ๋ณด์ˆ˜์  ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฐฉ๋ฒ•: OOD ์ƒํƒœ-ํ–‰๋™์— ๋Œ€ํ•ด Q๋ฅผ ๋‚ฎ์ถ”๋Š” ์ •๊ทœํ™”๋กœ extrapolation error ์™„ํ™”.
  • Ensemble / bootstrap critics: ์—ฌ๋Ÿฌ critic ํ‰๊ท ์œผ๋กœ ๊ณผ๋Œ€์ถ”์ •์„ ์™„ํ™”.
  • Behavior cloning + regularization: DAPG ์Šคํƒ€์ผ๋กœ ๋ฐ๋ชจ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๊ณ , actor ์—…๋ฐ์ดํŠธ์— BC ํ•ญ(๋˜๋Š” ํ–‰๋™ ๋ณด์กด ํ•ญ)์„ ์ถ”๊ฐ€ํ•ด OOD drift ์–ต์ œ.
  • ๋” ์ž์ฃผ/์งง๊ฒŒ ํƒ€๊นƒ ์—…๋ฐ์ดํŠธํ•˜๊ฑฐ๋‚˜ ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐยทํ•™์Šต๋ฅ ์„ ์กฐ์ •ํ•ด lag๋ฅผ ์กฐ์ ˆ.
  1. ์š”์•ฝ(ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€)
  • ์š”์•ฝํ•˜๋ฉด, ์˜คํ”„ํด๋ฆฌ์‹œ DDPGfD์˜ ๋ถˆ์•ˆ์ •์„ฑ์€ (i) ๋ถ€ํŠธ์ŠคํŠธ๋ž˜ํ•‘๋œ ํƒ€๊นƒ์ด critic์˜ ์˜ค์ฐจ๋ฅผ ์ฆํญ์‹œํ‚ค๋Š” ์ , (ii) ๋ฆฌํ”Œ๋ ˆ์ด๋กœ ์ธํ•œ ๋ถ„ํฌ ๋ถˆ์ผ์น˜๋กœ ํ•จ์ˆ˜ ๊ทผ์‚ฌ๊ธฐ์˜ extrapolation error๊ฐ€ ์ปค์ง€๋Š” ์ , (iii) deterministic actor๊ฐ€ ์ž˜๋ชป๋œ critic ๊ธฐ์šธ๊ธฐ๋ฅผ ๋ฐ›์•„ ์ฆ‰์‹œ ํฌ๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š” ์ ์ด ๊ฒฐํ•ฉ๋˜์–ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋“ค์€ ํŠนํžˆ ์ ‘์ด‰์ด ๋งŽ์•„ ์ „์ดยท๋ณด์ƒ์ด ๋น„์—ฐ์†์ ์ด๊ณ  ๋ณด์ƒ์ด ํฌ์†Œํ•œ ๊ณ ์ฐจ์› ํ™˜๊ฒฝ์—์„œ ์ฆํญ๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์˜จํด๋ฆฌ์‹œ NPG/DAPG๋Š” ์ตœ์‹  ์ƒ˜ํ”Œ ๊ธฐ๋ฐ˜์˜ advantage ์ถ”์ •๊ณผ ์‹ ๋ขฐ์˜์—ญ/ํ”ผ์…” ๊ธฐ๋ฐ˜์˜ ์•ˆ์ •ํ™”, ๋ฐ๋ชจ ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐํ™”(๋ฐ ๋ฐ๋ชจ ์†์‹ค ๋ณด์ •)๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋ถˆ์•ˆ์ •์„ฑ์— ๋” ๊ฐ•ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” Figure 10์— ํ•™์Šต ๊ณก์„ ์œผ๋กœ ์ œ์‹œ๋˜์–ด ์žˆ๋Š”๋ฐ, DAPG๊ฐ€ ๋ชจ๋“  ์ž‘์—…์—์„œ DDPGfD๋ณด๋‹ค ํ˜„์ €ํžˆ ๋น ๋ฅด๊ณ  ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, DDPGfD๋Š” ํ•™์Šต ์ดˆ๋ฐ˜ ๊ฑฐ์˜ ์ง„์ „์ด ์—†๋‹ค๊ฐ€ ๋‚˜์ค‘์—์„œ์•ผ ๊ฒจ์šฐ ์„ฑ๊ณต๋ฅ ์ด ์˜ค๋ฅด๋Š” ์–‘์ƒ์„ ๋ณด์ธ ๋ฐ˜๋ฉด, DAPG๋Š” ๋งค์šฐ ์ดˆ๊ธฐ๋ถ€ํ„ฐ ๊ธ‰๊ฒฉํžˆ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์–ด ์ผ์ • ์—ํ”ผ์†Œ๋“œ ํ›„์—๋Š” ๋‘ ๋ฐฉ๋ฒ• ๊ฐ„ ํฐ ๊ฒฉ์ฐจ๊ฐ€ ๋ฒŒ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌผ์ฒด ์˜ฎ๊ธฐ๊ธฐ์˜ ๊ฒฝ์šฐ, DAPG๋Š” ์ˆ˜์‹ญ ํšŒ์˜ ์—…๋ฐ์ดํŠธ ๋‚ด์— ์„ฑ๊ณต๋ฅ  ๊ณก์„ ์ด ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ์ƒ์Šนํ•˜์—ฌ ๋ชฉํ‘œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ–ˆ์ง€๋งŒ, DDPGfD๋Š” ๊ฐ™์€ ์‹œ๊ฐ„ ๋‚ด ๊ฑฐ์˜ 0% ๊ทผ์ฒ˜์— ๋จธ๋ฌผ๋ €๋‹ค๊ฐ€ ํ•œ์ฐธ ํ›„์—์•ผ ์ƒ์Šนํ•˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ DAPG๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋Œ€๋กœ 5์‹œ๊ฐ„ ๋‚ด์™ธ๋กœ ๋ชจ๋“  ์ž‘์—…์„ ๋๋ƒˆ์ง€๋งŒ, DDPGfD๋Š” ๋ฌธ ์—ด๊ธฐ ๋“ฑ์˜ ๋ช‡๋ช‡ ์ž‘์—…์€ ๊ทธ๋ณด๋‹ค ํ›จ์”ฌ ๋А๋ฆฌ๊ฑฐ๋‚˜ ๋๋‚ด ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์˜จ-ํด๋ฆฌ์‹œ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ ๋ฐฉ์‹๊ณผ ์˜คํ”„-ํด๋ฆฌ์‹œ Q๋Ÿฌ๋‹ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ DDPGfD๊ฐ€ ๊ทผ๋ณธ์ ์œผ๋กœ off-policy ์ˆ˜๋ ด ๋ถˆ์•ˆ์ •์„ฑ๊ณผ ๊ณ ์ฐจ์›์—์„œ์˜ ํŠœ๋‹ ์–ด๋ ค์›€ ๋•Œ๋ฌธ์— ์ดˆ๋ฐ˜ ํƒ์ƒ‰์—์„œ ํ—ค๋งค๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์ธ๋‹ค๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ DAPG๋Š” on-policy์˜ ์•ˆ์ •๋œ ๊ฐœ์„ ์— Demo์˜ ๋„์›€๊นŒ์ง€ ๋”ํ•ด์ ธ ์ดˆ๋ฐ˜ ํƒ์ƒ‰ ๋‚œ๊ด€์„ ๋น ๋ฅด๊ฒŒ ํƒˆ์ถœํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ DDPGfD๋Š” Demo์„ ํ™œ์šฉํ•˜๊ธด ํ•ด๋„ ๊ฒฝํ—˜ ์žฌ์ƒ ๋ฒ„ํผ์— ์„ž์–ด์ฃผ๋Š” ๋ฐฉ์‹์ด๊ธฐ ๋•Œ๋ฌธ์—, ํ•™์Šต๊ณผ์ •์—์„œ Demo๊ฐ€ ์ •์ฑ…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋ ฅ์ด ์ ์ฐจ ํฌ์„๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด DAPG๋Š” ํ•™์Šต ๋‚ด๋‚ด ๋ช…์‹œ์ ์ธ Demo ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์คฌ๋‹ค๋Š” ์ ๋„ ์„ฑ๋Šฅ ์ฐจ์ด์˜ ์š”์ธ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ด€๋ จํ•˜์—ฌ, ๋…ผ๋ฌธ์—์„œ๋Š” ๊ทธ ๋ฐ–์—๋„ ๋ช‡ ๊ฐ€์ง€ Demo+RL ๋ฐฉ๋ฒ•๋“ค์„ ์†Œ๊ฐœํ•˜๊ณ  ์ฐจ์ด์ ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Hester et al.(2018)์˜ DQfD (Deep Q-learning from Demonstrations) ๋Š” ๊ฐ’ ํ•จ์ˆ˜ ๊ธฐ๋ฐ˜์—์„œ Demo์„ ํ™œ์šฉํ•œ ์ดˆ๊ธฐ ์—ฐ๊ตฌ์ด๊ณ , ์ตœ๊ทผ์—๋Š” Demo์„ ๋ณด์ƒ ํ•จ์ˆ˜์— ํ†ตํ•ฉํ•˜๊ฑฐ๋‚˜ (IRL/๋ณด์ƒ shaping ๋ฐฉ์‹), Demo ๋ฐ์ดํ„ฐ์— ๋…ธ์ด์ฆˆ๋‚˜ ์‹คํŒจ ์‚ฌ๋ก€๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์„ ๋•Œ์˜ ํ•™์Šต๋ฒ• ๋“ฑ๋„ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Guided Policy Search (GPS) ๊ธฐ๋ฐ˜์œผ๋กœ Demo์„ ํ™œ์šฉํ•œ ์‚ฌ๋ก€๋„ ์žˆ๋Š”๋ฐ, ์ฃผ๋กœ ์ €์ฐจ์› ์† ์ž‘์—…(์˜ˆ: ๋ง‰๋Œ€๊ธฐ ๋Œ๋ฆฌ๊ธฐ ๋“ฑ)์— ํ•œ์ •๋˜์–ด ์žˆ๊ณ  ๋ชจํ˜• ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์ด๋ผ ์‹ค์ œ ์ ์šฉ์— ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค. DAPG๋Š” ์ด๋Ÿฌํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ๊ณ ์ฐจ์› ์ •์ฑ… ์‹ ๊ฒฝ๋ง์„ ๋๊นŒ์ง€ end-to-end๋กœ ํ•™์Šตํ•˜๋ฉด์„œ๋„ ์ƒ˜ํ”Œ ํšจ์œจ๊ณผ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ Demo์˜ ํ™œ์šฉ ๋ฐฉ์‹์— ์žˆ์–ด์„œ๋„ DAPG๋Š” ์‚ฌ์ „ ํ•™์Šต + ํ•™์Šต ์ค‘ ๋ณด์กฐ์‹ ํ˜ธ๋ผ๋Š” ๋‘ ๋‹จ๊ณ„ ๊ฒฐํ•ฉ์„ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•˜์—ฌ, ๋ณต์žกํ•œ ํ–‰๋™์˜ ๋‹จ๊ณ„๋ณ„ ํ•™์Šต์„ ๊ฐ€๋Šฅ์ผ€ ํ•œ ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

2.4 ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์ „๋ง

Rajeswaran ๋“ฑ(2018)์˜ ์ด ๋…ผ๋ฌธ์€ ๋”ฅ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ์ธ๊ฐ„ Demo ๋ฐ์ดํ„ฐ์˜ ๊ฒฐํ•ฉ์ด ๋ณต์žกํ•œ ๋กœ๋ด‡ ์† ์กฐ์ž‘ ํ•™์Šต์— ๋งค์šฐ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค€ ์‚ฌ๋ก€๋กœ์„œ, ์ดํ›„ ๋งŽ์€ ๊ด€๋ จ ์—ฐ๊ตฌ์— ์˜๊ฐ์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ โ€œDAPGโ€๋กœ ๋ช…๋ช…๋œ ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด 30๋ฐฐ์— ๋‹ฌํ•˜๋Š” ์ƒ˜ํ”Œ ํšจ์œจ ํ–ฅ์ƒ๊ณผ ์ •์ฑ… ํ’ˆ์งˆ ๊ฐœ์„ ์„ ์ด๋ฃจ์—ˆ์Œ์„ ์‹คํ—˜์œผ๋กœ ์ž…์ฆํ•˜์˜€๊ณ , ํŠนํžˆ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ๋ณต์žกํ•œ ์ž‘์—…๋“ค๋„ RL๋กœ ํ’€ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ๊ณตํ•™ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ๋ถ„์•ผ ๋ชจ๋‘์— ์˜๋ฏธ ์žˆ๋Š” ์„ฑ์ทจ๋กœ, ๊ณผ๊ฑฐ์—๋Š” ์–ด๋ ค์›€ ๋•Œ๋ฌธ์— ์‹œ๋„๋˜์ง€ ์•Š๋˜ ๊ณ ์ฐจ์› ๋‹ค๊ด€์ ˆ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์œผ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  ํ•œ๊ณ„๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ํ˜„์‹ค ๋กœ๋ด‡์— ์ง์ ‘ ์ ์šฉํ•˜๊ธฐ๊นŒ์ง€๋Š” ์—ฌ์ „ํžˆ ๋„˜์–ด์•ผ ํ•  ์žฅ์• ๋ฌผ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‹ค์ œ ๋กœ๋ด‡ ์†์˜ ๋ฌผ๋ฆฌ์  ํ•œ๊ณ„, ์„ผ์„œ ๋…ธ์ด์ฆˆ, ์ถฉ๋Œ ์ฒ˜๋ฆฌ, ๊ทธ๋ฆฌ๊ณ  ๋ฌด์—‡๋ณด๋‹ค ์‹ค์‹œ๊ฐ„ ํ•™์Šต์—์„œ์˜ ์•ˆ์ •์„ฑ ๋“ฑ์ด ํ•ด๊ฒฐ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด DAPG ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” 5์‹œ๊ฐ„ ์ด๋‚ด์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, ์ด๋ฅผ ๊ทธ๋Œ€๋กœ ์‹ค์ œ ๋กœ๋ด‡์— ์ด์‹ํ•œ๋‹ค๋ฉด ํ•˜๋ฃจ ์ž‘์—…์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค๋„ ๊ฒฐ๋ก ์—์„œ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ์™€ ์ƒ˜ํ”Œ ํšจ์œจ ํ–ฅ์ƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ์‹ค์ œ ๋ณต์žกํ•œ ์† ์กฐ์ž‘ ํ•™์Šต์— ํ•œ ๋ฐœ ๋‹ค๊ฐ€์„ฐ๋‹ค๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์œผ๋ฉฐ, ํ–ฅํ›„์—๋Š” ์‹ค์ œ ํ•˜๋“œ์›จ์–ด ์ƒ์—์„œ DAPG๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ๋ฐœํ‘œ ์ดํ›„, ๋„๋ฉ”์ธ ๋žœ๋คํ™”(domain randomization) ๋“ฑ์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•œ ์† ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•œ ์‚ฌ๋ก€(์˜ˆ: OpenAI์˜ Rubikโ€™s Cube ํ•ด๋ฒ•)๋‚˜, ์ง„ํ™” ์ „๋žต๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ ๋“ฑ ๋‹ค์–‘ํ•œ ํ›„์† ์—ฐ๊ตฌ๋“ค์ด ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ์ค‘์‹ฌ์—๋Š” โ€œ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ๋ณต์žกํ•œ ๋กœ๋ด‡ ํ–‰๋™์„ ํ˜„์‹ค์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€?โ€๋ผ๋Š” ํฐ ์งˆ๋ฌธ์ด ์žˆ์Šต๋‹ˆ๋‹ค. DAPG๋Š” ๊ทธ ์งˆ๋ฌธ์— ๋Œ€ํ•ด โ€œ์šฐ์„  ์ธ๊ฐ„์—๊ฒŒ ๋ฐฐ์›Œ๋ผ, ๊ทธ๋ฆฌ๊ณ  ์Šค์Šค๋กœ ํ–ฅ์ƒ์‹œ์ผœ๋ผโ€๋ผ๋Š” ํ†ต์ฐฐ์„ ์ค€ ๋ฐฉ๋ฒ•์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„๊ณผ ๋กœ๋ด‡์˜ ํ˜‘๋ ฅ ํ•™์Šต์ด๋ผ๋Š” ๊ด€์ ์—์„œ๋„ ํฅ๋ฏธ๋กœ์šด ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋„ Demoํ•™์Šต๊ณผ ๊ฐ•ํ™”ํ•™์Šต์˜ ์กฐํ•ฉ์€ ๋กœ๋ด‡์—๊ฒŒ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ๊ฐ€๋ฅด์น˜๋Š” ๊ฐ•๋ ฅํ•œ ์ˆ˜๋‹จ์œผ๋กœ ๊ณ„์† ์—ฐ๊ตฌ๋  ๊ฒƒ์ด๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์€ ๊ทธ ํšจ๊ณผ๋ฅผ ๊ทน์ ์œผ๋กœ ๋ณด์—ฌ์ค€ ์„ ๊ตฌ์ ์ธ ์˜ˆ์‹œ๋กœ ์˜ค๋ž˜ ํšŒ์ž๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Reference

  • NPG ๋…ผ๋ฌธ
  • Natural Policy Gradients In Reinforcement Learning Explained
  • CMU Material 1 + Material 2

Copyright 2024, Jung Yeon Lee