๐Reward Engineering ๋ฆฌ๋ทฐ
- ๐ก ๋ณธ ๋ ผ๋ฌธ์ Reinforcement Learning (RL)์์ ๋ณด์ ์ค๊ณ(reward design)์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, Reward Engineering ๋ฐ ๋ณด์ ์์ดํ(reward shaping) ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ธฐ์ ์ ํฌ๊ด์ ์ผ๋ก ๊ฒํ ํฉ๋๋ค.
- ๐ ๏ธ ์ฃผ์ ๋ด์ฉ์ ๋ณด์ ์ค๊ณ์ ๋์ ๊ณผ์ (์: sparse/delayed rewards, reward hacking), ์ค์นผ๋ผ/๋ฒกํฐ ๋ณด์ ๋ ผ์, ๊ทธ๋ฆฌ๊ณ ์ ์ฑ ๊ฒฝ์ฌ(Policy Gradient), ์ ์ฌ ๊ธฐ๋ฐ(Potential-Based), ์ธ๊ฐ ํผ๋๋ฐฑ(Human Feedback) ๋ฑ ๋ค์ํ ๋ณด์ ์์ดํ ๊ธฐ๋ฒ์ ์์ธ ๋ถ๋ฅ๋ฅผ ํฌํจํฉ๋๋ค.
- ๐ ์ด ์ฐ๊ตฌ๋ ๋ณด์ ์ค๊ณ๊ฐ ๋ก๋ด ๊ณตํ, ์์จ ์ฃผํ ๋ฑ ์ค์ ์์ฉ ๋ถ์ผ์์ ํ์ต ํจ์จ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํค๋ฉฐ, Sim-to-Real ๊ฐ๊ทน ํด์์ ํ์์ ์์ ๋ณด์ฌ์ฃผ๊ณ ํฅํ ์๋ํ๋ ํ๋๊ณผ ์ธ๊ฐ-๋ก๋ด ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
Brief Review
๊ฐํ ํ์ต(RL)์ ์์จ์ ์์ฌ๊ฒฐ์ ์์คํ ๊ฐ๋ฐ์ ํ์์ ์ด๋ฉฐ, Reward Engineering๊ณผ Reward Shaping์ RL ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ์ฑ๊ณผ ํจ๊ณผ๋ฅผ ๋์ด๋ ๋ฐ ์ค์ถ์ ์ธ ์ญํ ์ ํ๋ค. ์ด ๊ธฐ๋ฒ๋ค์ ํฌ์ํ๊ณ ์ง์ฐ๋ ๋ณด์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ์ฌ ์์ด์ ํธ๊ฐ ๋ชฉํ ํ๋์ ํ์ตํ๊ณ , ํ์ต ์์ ์ฑ์ ํฅ์์ํค๋ฉฐ, ์๋ ด ์๋๋ฅผ ๊ฐ์ํํ๋๋ก ๋๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ RL์ ๋ณด์ ์ค๊ณ์ ๋ํ ํฌ๊ด์ ์ธ ์ฒซ ๊ฒํ ๋ฅผ ์ ๊ณตํ๋ฉฐ, Reward Engineering ๋ฐ ํ์ฑ์ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ธฐ๋ฒ์ ์ด์ ์ ๋ง์ถ๋ค. ์์ธํ ๋ถ๋ฅ ์ฒด๊ณ(taxonomy)๋ฅผ ์ ์ํ๊ณ , ํ์ฌ ์ ๊ทผ ๋ฐฉ์๋ค์ ๋นํ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ๊ทธ ํ๊ณ๋ฅผ ๊ฐ์กฐํจ์ผ๋ก์จ ๋ฌธํ์ ์ค์ํ ๊ณต๋ฐฑ์ ๋ฉ์ด๋ค.
๋ณด์ ์ค๊ณ๋ RL ์์ด์ ํธ์ ์ํ๋ ํ๋๊ณผ ๋ชฉํ์ ๋ถํฉํ๋๋ก ๋ณด์ ํจ์๋ฅผ ์ ์ํ๋ ๋ฏธ๋ฌํ๊ณ ๋ณต์กํ ๊ณผ์ ์ด๋ค.
Reward Engineering
์ ๋ณด์ ํจ์ R(s, a, s')๋ฅผ ์ด๊ธฐ ์์ฑํ๋ ๊ฒ์ ํฌํจํ๋ฉฐ, ์ด๋ ์ํ s, ํ๋ a, ๋ค์ ์ํ s'๋ฅผ ์์น์ ๋ณด์ ๊ฐ์ ๋งคํํ๋ค.Reward Shaping
(R'(s, a, s') = R(s, a, s') + \gamma \Phi(s') - \Phi(s))์ ์ต์ ์ ์ฑ ์ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์ ๋ณด์ ์ ํธ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ํ์ต ๊ณผ์ ์ ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. (์ฌ๊ธฐ์ \gamma๋ ํ ์ธ ๊ณ์(discount factor)์ด๋ฉฐ, \Phi(s)๋ ์ ์ฌ ํจ์(potential function))
RL ๋ฌธ์ ๋ MDP(Markov Decision Process)๋ก ์ ์๋๋ฉฐ, ์์ด์ ํธ์ ๋ชฉํ๋ G_t = \sum_{k=0}^{\infty} \gamma^k R(s_{t+k}, a_{t+k})๋ก ์ฃผ์ด์ง๋ ๊ธฐ๋ ๋์ ๋ณด์(expected cumulative reward)์ ์ต๋ํํ๋ ์ ์ฑ \pi(a|s)๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ณด์ ์ค๊ณ์ ์ฃผ์ ๊ฐ๋ , ๋ํฅ, ๋์ ๊ณผ์ ๋ฐ ๊ธฐํ๋ฅผ ํ๊ตฌํ๋ฉฐ, RL ๋ฐ AI ๋ถ์ผ์ ํ์ ์ ์ด๋ ์ ์ฌ๋ ฅ์ ๊ฐ์กฐํ๋ค.
์ฐ๊ตฌ ๋ฐฉ๋ฒ: PRISMA 2020 ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ์ฌ ์ฒด๊ณ์ ์ธ ๋ฌธํ ๊ฒํ ๋ฅผ ์ํํ๋ค. โreward shapingโ, โreward engineeringโ, โreinforcement learningโ, โreward designโ, โmachine learningโ, โcontrol systemsโ ๋ฑ์ ์กฐํฉ์ด๋ฅผ ์ฌ์ฉํ์ฌ 1999๋ ๋ถํฐ 2024๋ ๊น์ง ๋ฐํ๋ 55๊ฐ์ ๊ด๋ จ ๋ ผ๋ฌธ์ ์ ๋ณํ๋ค.
๊ธฐ๋ณธ ๊ฐ๋
- RL ํต์ฌ ๊ฐ๋ : ์์ด์ ํธ, ํ๊ฒฝ, ์ ์ฑ , ๋ณด์, ๊ฐ์น ํจ์, ํ์ ๋ ํ์ฉ(Exploration vs. Exploitation).
- ๋ณด์ ์ถฉ๋ถ์ฑ ๋
ผ์:
- โ๋ณด์๋ง์ผ๋ก ์ถฉ๋ถํ๋ค(Reward is Enough)โ ๊ฐ์ค([18])์ ๋จ์ผ ์ค์นผ๋ผ ๋ณด์ ์ต๋ํ๊ฐ ๋ณต์กํ ์ธ์ง ๋ฅ๋ ฅ์ ์ถํ์ผ๋ก ์ด์ด์ง๋ค๊ณ ์ฃผ์ฅํ๋ ๋ฐ๋ฉด,
- โ์ค์นผ๋ผ ๋ณด์๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์๋ค(Scalar Reward is Not Enough)โ ๊ด์ ([19])์ ์ค๋ฆฌ์ ๊ณ ๋ ค ์ฌํญ์ด๋ ๋ณต์กํ ๋ชฉํ๋ฅผ ํฌ์ฐฉํ๊ธฐ์๋ ๋จ์ผ ๊ฐ์ด ๋ถ์ถฉ๋ถํ๋ฉฐ, ๋ฒกํฐ ๊ฐ ๋ณด์(vector-valued rewards)์ด ํ์ํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
- ๋ณด์ ์ค๊ณ์ ์ผ๋ฐ์ ์ธ ํจ์ : ๋ณด์ ํฌ์์ฑ(sparsity), ๊ธฐ๋ง์ ์ธ ๋ณด์(deceptive rewards), ๋ณด์ ํดํน(reward hacking), ์๋์น ์์ ๊ฒฐ๊ณผ(unintended consequences), ์ง์ ํ ๋ชฉํ์์ ๋ถ์ผ์น(misaligned reward), ๋ณด์ ํจ์ ๋ณต์ก์ฑ, ๋ณด์ ์ค๊ณ ํ๊ฐ์ ์ด๋ ค์ ๋ฑ์ด ์๋ค.
- ์ค์นผ๋ผ ๋ ๋ฒกํฐ ๋ณด์:
- ์ค์นผ๋ผ ๋ณด์์ ๋จ์ํ๊ณ ๊ณ์ฐ ํจ์จ์ ์ด์ง๋ง, ๋ณต์กํ ์์ ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ ์ ์๋ค.
- ๋ฒกํฐ ๋ณด์์ ์ฌ๋ฌ ๊ฐ์ ์ฌ์ฉํ์ฌ ์์ ์ ๋ค์ํ ์ธก๋ฉด์ ๋ํ๋ด์ด ๋ ํ๋ถํ ํผ๋๋ฐฑ์ ์ ๊ณตํ์ง๋ง, ํจ๊ณผ์ ์ธ ๋ณด์ ํจ์ ์ค๊ณ์ ๋ค์ค ๋ชฉํ ๊ท ํ ์กฐ์ ์ ์ด๋ ค์์ด ๋ฐ๋ฅธ๋ค.
Reward Shaping/Engineering ๊ธฐ๋ฒ ๋ถ๋ฅ
A. ์ ์ฑ ๊ธฐ์ธ๊ธฐ(Policy Gradient) ๋ฐฉ๋ฒ๋ค:
- ์ ์ฑ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ๋ณด์ ์ค๊ณ(PGRD): ์จ๋ผ์ธ ๊ธฐ์ธ๊ธฐ ์์น(online gradient ascent)์ ํตํด ๋ณด์ ๋งค๊ฐ๋ณ์ \theta๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์กฐ์ ํ์ฌ R_O๋ฅผ ์ต๋ํํ๋ค. \theta^* = \arg \max_{\theta \in \Theta} \lim_{N \to \infty} E[\frac{1}{N}\sum_{t=0}^N R_O(s_t)|R(\cdot, \theta)]. ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋นํด ์์ด์ ํธ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
- ์ ์ฑ ๊ธฐ์ธ๊ธฐ ํ์ต ๋ด์ฌ์ ๋ณด์(LIRPG): ์์ด์ ํธ๊ฐ ๋ด์ฌ์ ๋ณด์(intrinsic rewards)์ ๋์ ์ผ๋ก ํ์ตํ๋๋ก ํ๋ฉฐ, ์ ์ฑ ๋งค๊ฐ๋ณ์ \theta๋ฅผ \theta' \approx \theta + \alpha G_{ex+in}(s_t, a_t) \nabla_\theta \log \pi_\theta(a_t|s_t)๋ฅผ ํตํด ์ ๋ฐ์ดํธํ๋ค. ํ์ต ํจ์จ์ฑ๊ณผ ์ํ ๋ณต์ก๋๋ฅผ ๊ฐ์ ํ๋ค.
- ์์ฐ ๊ธฐ๋ฐ DDPG(DDPGfD): Deep Deterministic Policy Gradient(DDPG)์ ํ์ฅ์ผ๋ก, ์ธ๊ฐ ์์ฐ ๊ถค์ ์ ๋ฆฌํ๋ ์ด ๋ฒํผ(replay buffer)์ ํตํฉํ๊ณ ์ฐ์ ์์ ๋ฆฌํ๋ ์ด(prioritized replay)๋ฅผ ํ์ฉํ์ฌ ํฌ์ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. L_1(\theta_Q) ๋ฐ L_n(\theta_Q) ์์ค์ ํผํฉ ์ฌ์ฉํ๊ณ , L_2 ํ๋ํฐ๋ก ์ ๊ทํํ๋ค. ๋ณต์กํ Reward Shaping ์์ด ๋ก๋ด ์์ ํ์ต์ ๊ฐ์ํํ๋ค.
B. ๊ฐ๊ฑด์ฑ(Robustness) ๋ฐ ์ ์์ฑ(Adaptability)์ ๊ฐ์ถ ๋ฐฉ๋ฒ๋ค:
- ๋ฆฌ๋-ํ๋ก์ ํ๋ ์์ํฌ: ๋ฆฌ๋๊ฐ ํ๋ก์์ ๋ณด์ ํจ์๋ฅผ ์์ ํ์ฌ ์ํ๋ ํ๋์ ์ ๋, ์์คํ ์ ๊ฐ๊ฑด์ฑ์ ๋์ธ๋ค.
- ๊ฐ๊ฑดํ RL: ๋ ธ์ด์ฆ๊ฐ ์๋ ๋ณด์ ์ ํธ๋ฅผ ์ถ์ ํ๊ณ ์์ ํ๊ธฐ ์ํด ํผ๋ ํ๋ ฌ(confusion matrix)์ ์ฌ์ฉํ๋ค. Q_{t+a}(s_t, a_t) = (1 - \alpha_t)Q(s_t, a_t) + \alpha_t[\hat{r}_t + \gamma \max_{b \in A} Q(s_{t+1}, b)]์ ๊ฐ์ด ํธํฅ ์๋ ๋๋ฆฌ ๋ณด์(surrogate rewards) \hat{r}์ Q-ํ์ต์ ์ ์ฉํ์ฌ ๋ ธ์ด์ฆ ์กฐ๊ฑด์์ ๋์ ๋ณด์์ ๋ฌ์ฑํ๋ค.
C. ํ์(Exploration) ์ ๋ต๋ค:
- ํด์ ๊ธฐ๋ฐ Reward Shaping: ๊ณ ์ฐจ์ ๋ฐ ์ฐ์ ์ํ ๊ณต๊ฐ์์ ์นด์ดํธ ๊ธฐ๋ฐ ํ์(count-based exploration)์ ํ์ฅํ๊ธฐ ์ํด ํด์ ์ฝ๋(hash codes)๋ฅผ ํ์ฉํ๋ค. \phi(s) = \text{sgn}(Ag(s)) \in \{-1, 1\}^k์ ๊ฐ์ด ์ ์ ํด์ฑ ๊ธฐ๋ฒ(locality-sensitive hashing SimHash)์ ์ฌ์ฉํ๋ค.
- ๋ณ๋ถ ์ ๋ณด ์ต๋ํ ํ์(VIME): ํ๊ฒฝ ์ญํ์ ๋ํ ์์ด์ ํธ์ ์ดํด๋ฅผ ์ต๋ํํ๋ ๋ฐ ์ค์ ์ ๋๋ค. ๋ฒ ์ด์ฆ ์ ๊ฒฝ๋ง(Bayesian neural networks) ๋ด์์ ๋ณ๋ถ ์ถ๋ก (variational inference)์ ์ฌ์ฉํ์ฌ ์ ๋ณด ํ๋์ ๋ด์ฌ์ ๋ณด์์ผ๋ก ํ์ฉํ๋ค.
- ์จ๋ผ์ธ Reward Shaping(EXPLORES): ํฌ์ํ๊ฑฐ๋ ๋ ธ์ด์ฆ๊ฐ ์๋ ๋ณด์ ์ ํธ๋ฅผ ์ฒ๋ฆฌํ๋ RL ์์ด์ ํธ์ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด ๋ด์ฌ์ ๋ณด์ ํ์ต๊ณผ ํ์ ๊ธฐ๋ฐ ๋ณด๋์ค๋ฅผ ๊ฒฐํฉํ๋ค. ์๊ณ ๋ฆฌ์ฆ์ \pi_k \leftarrow L(\pi_{k-1}, \hat{R}_{k-1}) ๋ฐ \hat{R}_k ์ ๋ฐ์ดํธ๋ฅผ ๋ฐ๋ณตํ๋ค.
- ํ์์ ์ํ ๋ณด์ ๋ถํ์ค์ฑ(RUNE): ์ ํธ๋ ๊ธฐ๋ฐ RL ์๊ณ ๋ฆฌ์ฆ ๋ด์์ ํ์ต๋ ๋ณด์ ํจ์์ ๋ถํ์ค์ฑ์ ํ์ ๋ณด๋์ค๋ก ํตํฉํ๋ค. ์์๋ธ(ensemble) ์์ธก์ ๋ถ์ฐ์ ์ฌ์ฉํ์ฌ ํ์์ ํฅ์์ํจ๋ค.
D. ์ ์ฑ ๋งค๊ฐ๋ณ์ํ(Policy Parameterization):
- ์ ํ(linear) ๋ฐ ๋ฐฉ์ฌํ ๊ธฐ์ ํจ์(RBF) ์ ์ฑ ๊ณผ ๊ฐ์ ๋จ์ํ๋ ์ ์ฑ ๋งค๊ฐ๋ณ์ํ๋ฅผ ํ์ํ๋ฉฐ, ๊ด์ธก์น์ ๋ฌด์์ ํธ๋ฆฌ์ ํน์ง(random Fourier features) y_t^{(i)} = \sin(\sum_j P_{ij}s_t^{(j)}v + \phi^{(i)})๋ฅผ ์ฌ์ฉํ์ฌ ํํ ๋ฅ๋ ฅ์ ๊ฐํํ๋ค. ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ๊ณผ ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ์ ๊ณตํ๋ค.
E. ์ญ ๋ณด์ ์ค๊ณ(Inverse Reward Design, IRD):
- ์ ๋ฌธ๊ฐ ์์ฐ์ ํตํด ์ฐธ ๋ชฉํ๋ฅผ ์ถ๋ก ํ๋ค. ์ญ ๊ฐํ ํ์ต(IRL)์ ๊ด์ฐฐ๋ ์ ๋ฌธ๊ฐ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ฌธ๊ฐ ์์ด์ ํธ๊ฐ ์ต๋ํํ๋ ๊ฒ์ผ๋ก ์ถ์ ๋๋ ๋ณด์ ํจ์๋ฅผ ์ถ๋ก ํ๋ค. ์ฃผ์ ๋ฐฉ๋ฒ๋ก ์ ๋ชจ๋ธ ๊ธฐ๋ฐ IRL, ๋ชจ๋ธ ํ๋ฆฌ IRL, ๋ฅ ์ญ ๊ฐํ ํ์ต์ด ์๋ค. ๋ฅ IRL์์๋ \hat{R}(s, a) = f_\theta(s, a)์ ๊ฐ์ด ์ ๊ฒฝ๋ง f_\theta๋ก ๋ณด์ ํจ์๋ฅผ ํ์ตํ๋ค. IRD๋ ํ๋ก์ ๋ณด์(proxy reward)์ ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ณด์ ๋ถ์ผ์น ๋ฐ ๋ณด์ ์กฐ์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ํ ํํผ ํ๋์ ์ ๋ํ๋ค.
F. ๋ณด์ ์งํ(Reward Horizon):
- ๋ณด์ ์งํ์ ๋จ์ถํจ์ผ๋ก์จ ํ์ต ์๊ฐ์ ๋จ์ถํ ์ ์๋ค. ์ด๋ RL ์๊ณ ๋ฆฌ์ฆ์ด ์ต์ ์ ์ฑ ์ ํ์ตํ๋ ๋ฐ ํ์ํ ์๊ฐ์ ๊ทน์ ์ผ๋ก ์ค์ผ ์ ์์์ ๋ณด์ฌ์ค๋ค.
G. ์ ์ฌ ํจ์ ๊ธฐ๋ฐ(Potential-Based) ๋ฐฉ๋ฒ๋ค:
- ๋ณด์ ํจ์๋ฅผ R'(s, a) = R(s, a) + \gamma [\Phi(s') - \Phi(s)]๋ก ์์ ํ์ฌ ์์ด์ ํธ์ ํ๋์ ์ ๋ํ๊ณ ํ์ ๋ฐ ์๋ ด์ ๊ฐ์ ํ๋ค.
- ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping(PBRS): ์ํผ์๋(episode) ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ๋ณด์ ์ ํธ๋ฅผ ๊ฐํํ์ฌ ํ์ต ํจ์จ์ฑ์ ๋์ธ๋ค. ์ ์ฌ ํจ์ \Phi(s, a, t) = 0 \text{ if } R(s,a)=0 \text{ else } (1 + \frac{Rep - Rep_u(t)}{Rep_u(t) - Rep_l(t)})๋ฅผ ์ฌ์ฉํ๋ค.
- ๋ค์ค ์์ด์ ํธ ์์คํ (MAS)์ ์ํ ์ด๋ก ์ ๊ธฐ์ด: ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping์ด Q-ํ ์ด๋ธ ์ด๊ธฐํ์ ๋๋ฑํ๋ฉฐ ๊ธฐ์ด ํ๋ฅ ๊ฒ์์ ๋ด์ฌ ๊ท ํ(Nash Equilibria)์ ์ํฅ์ ๋ฏธ์น์ง ์์์ ๋ณด์ฌ์ค๋ค.
- PBRS-MAXQ-0 ๋ฐฉ๋ฒ: ๊ณ์ธต์ ๊ฐํ ํ์ต(HRL) ํ๋ ์์ํฌ ๋ด์์ PBRS์ MAXQ๋ฅผ ๊ฒฐํฉํ๋ค. ํน์ ์กฐ๊ฑด์์ ์ด๋ก ์ ์๋ ด ๋ณด์ฅ์ ์ ๊ณตํ๋ฉฐ, ์ ์ ํ ํด๋ฆฌ์คํฑ(heuristics)์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์๋ ด์ ๊ฐ์ํํ๋ค.
- ์ ์ฌ ํจ์ ๊ธฐ๋ฐ ์กฐ์ธ(Potential-Based Advice): ์์์ ๋ณด์ ํจ์๋ฅผ ์ ์ฌ ํจ์ ๊ธฐ๋ฐ ์กฐ์ธ์ผ๋ก ํํํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๋ณด์กฐ ๊ฐ์น ํจ์๋ฅผ ํ์ตํจ์ผ๋ก์จ ์ ์ฑ ๋ถ๋ณ์ฑ์ ๋ณด์ฅํ๋ค.
- ์ํผ์๋ RL์์์ PBRS: ๋ชจ๋ธ ํ๋ฆฌ, ๋ชจ๋ธ ๊ธฐ๋ฐ, ๋ค์ค ์์ด์ ํธ RL์์์ PBRS ์ ์ฉ์ ํ๊ตฌํ๋ค.
- ์ ์ฌ ํจ์ ๊ธฐ๋ฐ ๋ณด์ ํจ์(PBRF)๋ฅผ ์ฌ์ฉํ ์ ์ฝ ์กฐ๊ฑด๋ถ RL: ๊ฒ์ฆ๋ ํ์ด๋ธ๋ฆฌ๋ ์์คํ ๋ชจ๋ธ๋ก๋ถํฐ ์์ ์งํฅ์ ๋ณด์ ํจ์๋ฅผ ์์ฑํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ์ฌ ํ๋ จ ์ค ๋ ๋น ๋ฅธ ์๋ ด์ ๋ณด์ธ๋ค.
- ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping(DRIP) ๋ฐ ์ ์ฌ ํจ์๋ก์์ ๋ฐ์ฌ์ค(CaP)์ ํตํฉํ ์ฐจ์ด ๋ณด์: DRIP์ ๋ค์ค ์์ด์ ํธ RL์์ ์ฐจ์ด ๋ณด์๊ณผ ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping์ ๊ฒฐํฉํ๋ค. CaP๋ ๋์ ์ ์ฌ ํจ์๋ฅผ ์๋์ผ๋ก ์์ฑํ์ฌ ์๋ ์ค๊ณ์ ํ์์ฑ์ ์์ค๋ค.
H. ๋์ ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping(Dynamic Potential-Based Reward Shaping, DPBRS):
- ๋จ์ผ ๋ฐ ๋ค์ค ์์ด์ ํธ ์์คํ ์์ ์ต์ ์ ์ฑ ์ ์ํฅ์ ๋ฏธ์น์ง ์๊ณ ์์ด์ ํธ๋ฅผ ์๋ดํ๊ธฐ ์ํด ๋์ ์ ์ฌ ํจ์๋ฅผ ์ฌ์ฉํ๋ค. F(s, t, s', t') = \gamma \Phi(s', t') - \Phi(s, t)์ ๊ฐ์ด ์๊ฐ ์์๋ฅผ ํฌํจํ์ฌ ์ ์ฌ ํจ์๋ฅผ ํ์ฅํ๋ค.
I. UCBVI(Upper Confidence Bound Value Iteration):
- UCBVI: ์ต์ ๊ฐ์น ํจ์์ ๋ํ ์ํ ์ ๋ขฐ ๊ตฌ๊ฐ(upper confidence bound, UCB)์ผ๋ก ๊ฐ์น ํจ์๊ฐ ๊ธฐ๋ฅํ๋๋ก ๋ณด์ฅํ๋ค.
- UCBVI-Shaped: UCBVI ์๊ณ ๋ฆฌ์ฆ์ ์์ ๋ ๋ฒ์ ์ผ๋ก, Reward Shaping์ ํตํฉํ์ฌ ๋ณด๋์ค์ ๊ฐ์น ํจ์ ํฌ์(projection)์ ์์ ํ๋ค. ์ํ ๊ณต๊ฐ์ ๊ด๋ จ ์๋ ๋ถ๋ถ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ง์น๊ธฐํ์ฌ ์ํ ๋ณต์ก๋๋ฅผ ๊ฐ์ ํ๋ค.
J. ์ฐจ์ด ๋ณด์(Difference Rewards, D):
- ๋จ์ผ ์์ด์ ํธ ์์คํ : ์์ด์ ํธ์ ํ์ฌ ์ํ์ ์ง์ ๋ ์ฐธ์กฐ ์ํ ๊ฐ์ ๋ถ์ผ์น๋ฅผ ์ธก์ ํ๋ ์ฐจ์ด ํญ์ ํตํฉํ์ฌ ์๋ ๋ณด์ ํจ์๋ฅผ ๊ฐํํ๋ค: R'(s, a) = R(s, a) + \gamma [D(s', r) - D(s, r)].
- ๋ค์ค ์์ด์ ํธ ์์คํ (MAS): D_i(s_i, a_i) = G(s, a) - G(s_{-i} \cup s_{ci}, a_{-i} \cup a_{ci})์ ๊ฐ์ด ์์ด์ ํธ์ ๊ธฐ์ฌ ์ ๋ฌด์ ๋ฐ๋ฅธ ์์คํ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ฐ์ํ๋ ๋ณด์์ ์ ๊ณตํ์ฌ ์์ด์ ํธ๊ฐ ์ ์ฒด ์์คํ ์ ํธ๋ฆฌํฐ์ ๊ธฐ์ฌํ๋๋ก ์ฅ๋ คํ๋ค.
- ๊ฐ๋ณ ๋ฐ ์ฐจ์ด ๋ณด์: ๋๋ก ๋คํธ์ํฌ์ ๊ฒฝ๋ก ์ ํ ๋ฌธ์ ์์ ๊ฐ๋ณ ๋ณด์(์ด๊ธฐ์ ์ธ ์ ๊ทผ)๊ณผ ์ฐจ์ด ๋ณด์(์์คํ ์ต์ ํ)์ ๋น๊ตํ๋ค. ์ฐจ์ด ๋ณด์์ ์ฌ์ฉํ๋ DQ-learning์ด IQ-learning๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
K. ์ง์ ๊ธฐ๋ฐ ๋ค์ค ๋ชฉํ ๋ค์ค ์์ด์ ํธ ๊ฐํ ํ์ต(Knowledge-Based Multi-Objective Multi-Agent Reinforcement Learning, MOMARL):
- ์ฐจ์ด ๋ณด์(D)๊ณผ ์ ์ฌ ํจ์ ๊ธฐ๋ฐ Reward Shaping(PBRS)์ ๋น๊ตํ๋ฉฐ, ๋ ๊ธฐ๋ฒ ๋ชจ๋ MOMARL ์์ญ์์ ํ๋ ํ ์ต์ (Pareto optimal) ์๋ฃจ์ ์ผ๋ก ์์ด์ ํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๋ํ ์ ์์์ ์ ์ฆํ๋ค. D๋ ์ผ๋ฐ์ ์ผ๋ก PBRS๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ค.
L. ๊ณํ ๊ธฐ๋ฐ(Plan Based) ๋ฐฉ๋ฒ๋ค:
- STRIPS ํ์ฉ: STRIPS(Stanford Research Institute Problem Solver) ๊ธฐ๋ฐ Reward Shaping ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ๋๋ฉ์ธ ์ง์์ ํ์ฉํ์ฌ RL ๋ฐฉ๋ฒ์ ์๋ ด์ ๊ฐ์ํํ๋ค.
- ๊ณํ ๊ธฐ๋ฐ๊ณผ ์ถ์ MDP ๋น๊ต: ๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ฌ์ ์ ์๋ ๊ณํ์ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ ๋ณด์์ ์ ๊ณตํ๋ ๋ฐ๋ฉด, ์ถ์ MDP(Abstract MDP) ์ ๊ทผ ๋ฐฉ์์ ๋ ๋์ ์์ค์ MDP๋ฅผ ํด๊ฒฐํ์ฌ ํ๋์ ํ์ฑํ๋ค. ๋ณต์กํ ํ๊ฒฝ์์ ๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ๋ ํจ๊ณผ์ ์ด๋ฉฐ, ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์๋ ์ถ์ MDP๊ฐ ๋ ์ฐ์ํ๋ค.
M. ์ ๋ Reward Shaping(Belief Reward Shaping, BRS):
- ํ๊ฒฝ์ ๋ณด์ ๊ตฌ์กฐ์ ๋ํ ์ฌ์ ์ง์(prior knowledge)์ ํตํฉํ์ฌ ๊ฐํ ํ์ต์ ํฅ์์ํจ๋ค. ๋ฒ ์ด์ฆ ํ๋ ์์ํฌ(Bayesian framework)์์ ํ์๋ โ์ ๋ ๋ณด์(belief rewards)โ์ผ๋ก ํ์ค ๋ณด์ ์ ํธ๋ฅผ ๋ณด๊ฐํ๋ค. \Phi(s)๋ง ๊ณ ๋ คํ๋ ์ ์ฌ ๊ธฐ๋ฐ Reward Shaping์ ํ๊ณ๋ฅผ ๋์ด ์ํ์ ํ๋ ๋ชจ๋์ ์ง์ ํ์ฑ ๋ณด์์ ์ ๊ณตํ๋ค.
N. ๋งค๊ฐ๋ณ์ํ๋ Reward Shaping์ ์ด์ค ์์ค ์ต์ ํ(Bi-Level Optimization of Parameterized Reward Shaping, BiPaRS):
- ์ธ๊ฐ์ด ์ค๊ณํ ๋ณด์ ํจ์์ ๋ถ์์ ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ด์ค ์์ค ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ค. ์์ ์์ค์์๋ ํ์ฑ ๋ณด์์ ๋ํ ๋งค๊ฐ๋ณ์ํ๋ ๊ฐ์ค ํจ์ z_\phi(s,a)๋ฅผ ์ต์ ํํ๊ณ , ํ์ ์์ค์์๋ ํ์ฑ๋ ๋ณด์ \tilde{r}(s, a) = r(s, a) + z_\phi(s, a)f(s, a)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ ์ต์ ํํ๋ค. ๋ชฉํ๋ \max_\phi E_{s \sim \rho^\pi, a \sim \pi_\theta} [r(s, a)]๋ฅผ ์ต๋ํํ๋ ์ ์ฑ \pi_\theta๋ฅผ \theta = \arg \max_{\theta_0} E_{s \sim \rho^\pi, a \sim \pi_{\theta_0}} [\tilde{r}(s, a)] ์ ์ฝ ํ์ ์ฐพ๋ ๊ฒ์ด๋ค.
O. ์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ Reward Shaping:
- ์ธ๊ฐ ์ ํธ๋(human preferences)๋ฅผ ํตํฉํ์ฌ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฑํ๊ณ ํ์ต ๊ณผ์ ์ ๊ฐ์ํํ๋ค. PEBBLE, SURF, RUNE, Text2Reward, Meta-Reward-Net (MRN) ๋ฑ์ด ์๋ค. ๋ณด์ ํจ์ R์ ๋ํ ์ธ๊ฐ ํผ๋๋ฐฑ H์ ์ฌํ ํ๋ฅ ์ P(R|H) = \frac{P(H|R)P(R)}{P(H)}๋ก ๋ชจ๋ธ๋ง๋ ์ ์๋ค. Text2Reward๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLMs)์ ์ฌ์ฉํ์ฌ ํฌ์ ๋ณด์ ๋ฌธ์ ์ ๋ํ ๋ฐ์ง ๋ณด์(dense reward) ํจ์๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ค. MRN์ ์ด์ค ์์ค ์ต์ ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ณด์ ํจ์์ ์ ์ฑ ์ ๋์์ ํ์ตํ๋ค.
P. ์์ ๋ํ Reward Shaping ๊ธฐ๋ฒ๋ค:
- ์ ๋ ฅ๋ง ์ฌ์ด๋ฒ ๊ณต๊ฒฉ ๋ฐฉ์ด๋ฅผ ์ํ ๋ฅ Q-ํ์ต์ Reward Shaping: ๋ฅ Q-ํ์ต์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ๋ง์ ์ฌ์ด๋ฒ ๊ณต๊ฒฉ์ผ๋ก๋ถํฐ ๋ณดํธํ๋ฉฐ, ๊ณต๊ฒฉ์๊ฐ ๋คํธ์ํฌ์ ๊ฐ์ฅ ํฐ ํผํด๋ฅผ ์ ํ ์ ์๋ ์๋๋ฆฌ์ค๋ฅผ ์ฐพ๊ธฐ ์ํด Reward Shaping์ ์ฌ์ฉํ๋ค.
Q. ๊ธฐํ ๋ฐฉ๋ฒ๋ค:
- ์์ ํ RL ์์ด์ ํธ ํ๋์ ๋ณด์ฅํ๊ธฐ ์ํ ์ฅ๋ฒฝ ํจ์(Barrier Functions), ์์ฐ์ด ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ๋ฐ์ง ๋ณด์์ ์์ฑํ๋ ๋ฐฉ๋ฒ, ํ๊ท ๋ณด์ RL์ ์ํ ์๊ฐ ๋ ผ๋ฆฌ ๊ธฐ๋ฐ(Temporal Logic-based) Reward Shaping, ๋ถํ์ค์ฑ์ ๊ธฐ๋ฐํ ๋ณด์์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํ๋ ํ๋ ์์ํฌ, ๋ถํ์คํ RL ํ๊ฒฝ์์ ์๋ ด์ ์์ ํํ๊ณ ๊ฐ์ํํ๊ธฐ ์ํ ๋ณด์ ๊ธฐ๋(Reward Expectations) ์ฌ์ฉ, ์ํ ๊ณต๊ฐ์ ํ ์ ๋ ์ด์ (tessellation)๊ณผ ์๋ธ ํ์คํฌ(sub-tasks) ๋ถํ ์ ์์กดํ๋ ๋ณด์ ๊ณํ(Reward Planning) ๋ฐฉ๋ฒ์ธ โGreedy Divide and Conquerโ ๋ฑ์ด ์๋ค.
- ์๋ํ๋ ๋งค๊ฐ๋ณ์ ํ๋(Automated Parameter Tuning): DEHB(Differential Evolution for HyperBand)์ ๊ฐ์ ์ฒจ๋จ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ(hyperparameter optimization) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ณด์ ํจ์๋ฅผ ๊ณต๋์ผ๋ก ์ต์ ํํ๋ค. AutoRL(Automated Reinforcement Learning)์ MDP ๋ชจ๋ธ๋ง, ์๊ณ ๋ฆฌ์ฆ ์ ํ, ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๋ฅผ ์๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
์ค์ ์ ์ฉ:
- ์์ ํ๊ณ ํจ์จ์ ์ธ ์ธ๊ฐ-๋ก๋ด ํ์ (HRC)์ ์ํ Reward Shaping: ์ฐ์ ํ๊ฒฝ์์ ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ์ ์์ ํ ์ํธ์์ฉ์ ํฅ์์ํค๊ธฐ ์ํด DRL ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. IRDDPG(Intrinsic Reward-Deep Deterministic Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ๋ด์ฌ์ ๋ฐ ์ธ์ฌ์ ๋ณด์์ ๊ฒฐํฉํ ์ต์ ํ๋ ๋ณด์ ํจ์์ DPG(Deterministic Policy Gradient) ๋ฐฉ๋ฒ์ ํตํฉํ๋ค. ๋ก๋ด์ ์ถฉ๋ ํํผ ์ ์ฑ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ค.
- ์์จ ์ฃผํ ์ฐจ๋ ๋ฐ ๊ตํต ํ๋ฆ ์ต์ ํ๋ฅผ ์ํ Reward Shaping: ์คํ-์ ์ฑ (off-policy) ๊ฐํ ํ์ต ๋ฐฉ๋ฒ์ ๊ตํต ๋ด๋น๊ฒ์ด์ ์ ์ ์ฉํ๋ค. Episodic-Guided Prioritized Experience Replay (EPER) ๋ฐฉ๋ฒ์ ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์๊ฐ์ฐจ(TD) ์ค์ฐจ ๊ธฐ๋ฐ ์ฐ์ ์์ ์ง์ ์ ์ฌ์ฉํ์ฌ ์ํ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ๊ณ ํ์ต ์๋๋ฅผ ๋์ธ๋ค.
์๋ฎฌ๋ ์ด์ -์ค์ธ๊ณ ์ ์ด (Sim-to-Real):
- DRL ๋ฐ RL ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์ ์ค์ ์ธ๊ณ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ด์ํค๋ ๋ฐ ํ์์ ์ด๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ๋ถ์ผ์น, ์์ , ๋น์ฉ, ํจ์จ์ฑ ๋ฌธ์ ๋ฑ์ผ๋ก ์ธํด ๋์ ์ ์ด๋ค.
- ์ฃผ์ ๊ธฐ๋ฒ: ๋๋ฉ์ธ ์ ์(domain adaptation), ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization), ์ ์ง์ ์ ๊ฒฝ๋ง(progressive neural networks, PNNs), ๋ฉํ ๊ฐํ ํ์ต(meta-reinforcement learning).
- CSAR(Consensus-based Sim-And-Real DRL): ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์ ์ ํฉํ ์ ์ฑ ์ ์ต์ ํํ์ฌ ์ผ๊ด๋ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฅํ๋ค.
- ๋ณด์ ํดํน(Reward Hacking) ๋ฐฉ์ง: ์์ด์ ํธ๊ฐ ์๋๋ ์์ ์ ์ค์ ๋ก ์ํํ์ง ์๊ณ ๋ณด์ ํจ์์ ํ์ ์ ์ ์ฉํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ํจ๊ณผ์ ์ธ Reward Shaping์ด ์ค์ํ๋ค.
Reward Engineering์ ์ฅ๋จ์ :
- ์ฅ์ : ํ์ต ๊ฐ์ํ, ํ์ ๊ฐ์ , ๋์ ์ฑ๋ฅ ๋ฌ์ฑ, ์ ์ฑ ๊ฐ๊ฑด์ฑ ํฅ์.
- ๋จ์ : ๋๋ฉ์ธ ์ง์์ ๋ํ ๋์ ์์กด์ฑ, ์ผ๋ถ ๋ฐฉ๋ฒ์ ๊ณ์ฐ ๋ณต์ก์ฑ ์ฆ๊ฐ, ๋งค๊ฐ๋ณ์ ํ๋์ ์ด๋ ค์, ๋ณด์ ํจ์ ์ค๊ณ ๋ฐ ํ์ฑ์ ์๊ฐ ์๋ชจ.
๋จ์ ๊ณผ์ ๋ฐ ๋ฏธ๋ ๋ฐฉํฅ:
- ๋ก๋ด ์กฐ์์์ ์ํ ํจ์จ์ฑ ํฅ์, ์๊ณ ๋ฆฌ์ฆ ๊ฐ๊ฑด์ฑ ๊ฐํ, ์ธ๊ฐ-๋ก๋ด ํ์ ์ด์ง, ๊ณ ๊ธ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ ์ฐ๊ตฌ.
- ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ ๋ณต์กํ ์ผ์ ๋ฐ์ดํฐ์ ๊ฐ์ด ๋ณด์ ์ค๊ณ๊ฐ ์ด๋ ค์ด ์์ ์ ๋ํ end-to-end RL ์ ๊ทผ ๋ฐฉ์.
- ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ถ์กฑ ๋ฐ ์ฌ์ฉ์ ์ง์ ์์กด์ฑ ๋ฌธ์ ํด๊ฒฐ.
๋ณธ ์ฐ๊ตฌ๋ RL ๋ถ์ผ์์ Reward Shaping ๊ธฐ๋ฒ์ ๋ํ ํฌ๊ด์ ์ธ ๊ฒํ ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์ธํ ๋ถ๋ฅ ์ฒด๊ณ, ์ฅ์ , ๋จ์ , ์ ์ฉ ์์ญ ๋ฐ ๊ด๋ จ ๋ฉํธ๋ฆญ์ค๋ฅผ ์ ์ํ๋ค. Reward Shaping์ด ํ์ต ๊ฐ์ํ, ๋ถํ์ค์ฑ ๊ด๋ฆฌ, ๊ฐ๊ฑด์ฑ ๊ฐํ, ์์คํ ๊ฒฐ๊ณผ ํฅ์ ๋ฐ RL ์์ด์ ํธ์ ์ฑ๊ณต๋ฅ ์ฆ๊ฐ์ ์๋นํ ์ด์ ์ ์ ๊ณตํจ์ ๊ฐ์กฐํ๋ค. ๊ทธ๋ฌ๋ ๊ตฌํ์ ๋ณต์กํ๊ณ ์๊ฐ์ด ์๋ชจ๋ ์ ์์ผ๋ฉฐ, ์๋ํ๋ ๋งค๊ฐ๋ณ์ ํ๋ ๋ฐฉ๋ฒ์ด ์ด๋ฅผ ์ผ๋ถ ์ํํ๋ค. ๋ฏธ๋ ์ฐ๊ตฌ๋ ์ค์ ์ ์ฉ์์์ ํ๊ฐ์ ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํด์ผ ํ๋ค.
Detail Review
๊ฐํํ์ต์์์ Reward Engineering ๋ฐ Reward Shaping: ์ข ํฉ ๊ฐ๊ด ๋ฐ ์ฌ์ธต ๋ถ์
์๋ก
๊ฐํํ์ต(Reinforcement Learning, RL)์ ์์ด์ ํธ(Agent)๊ฐ ํ๊ฒฝ(Environment)๊ณผ ์ํธ์์ฉํ๋ฉฐ ์๋๋ฅผ ํตํด ์ต์ ์ ํ๋ ์ ๋ต์ ํ์ตํ๋ ๊ธฐ๊ณํ์ต์ ํ ๋ถ์ผ์ ๋๋ค. RL ์์ด์ ํธ๋ ๋์ ๋ณด์(cumulative reward)์ ์ต๋ํํ๋๋ก ํ์ตํ๋ฉฐ, ๋ณด์(reward)์ ์์ด์ ํธ๊ฐ ๋ฐ๋ ํผ๋๋ฐฑ ์ ํธ๋ก์ ํ๋์ ์ฑ๊ณผ๋ฅผ ๋ํ๋ ๋๋ค. ๋ฐ๋ผ์ ๋ณด์ ํจ์์ ์ค๊ณ๋ RL ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์ง๋ํ ์ํฅ์ ๋ฏธ์น๋ ํต์ฌ ์์์ ๋๋ค. ์ ์ค๊ณ๋ ๋ณด์ ํจ์๋ ์์ด์ ํธ์๊ฒ ๋ช ํํ ํ๋ ์ง์นจ์ ์ฃผ์ด ์ํ๋ ๋ชฉํ์ ๋ณด๋ค ๋น ๋ฅด๊ฒ ๋๋ฌํ๋๋ก ๋ง๋ค์ง๋ง, ๋ถ์ ์ ํ ๋ณด์ ์ค๊ณ๋ ์๋์น ์์ ํ๋์ด๋ ํ์ต ์ง์ฐ์ ์ด๋ํ ์ ์์ต๋๋ค.
๋ณด์ ์ค๊ณ(reward design)๋ ์ํ๋ ์์ด์ ํธ ํ๋๊ณผ ๋ชฉํ์ ๋ถํฉํ๋๋ก ๋ณด์ ํจ์๋ฅผ ์ ์ํ๋ ์ฌ์ธํ๊ณ ๋ ๋ณต์กํ ๊ณผ์ ์ ๋๋ค. ๋ณด์ ์ค๊ณ์ ์ค์์ฑ์ ์๋ฌด๋ฆฌ ๊ฐ์กฐํด๋ ์ง๋์น์ง ์์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์ด ๋ณต์กํด์ง์๋ก ๊ทธ ์ค์์ฑ์ ๋์ฑ ์ปค์ง๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ณด์ ์ค๊ณ์ ์ ๊ทผ๋ฒ์ ๋ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋๋ฉ๋๋ค. ์ฒซ์งธ, Reward Engineering(Reward Engineering)์ ๋ง ๊ทธ๋๋ก ๋ณด์ ํจ์๋ฅผ ๋ง๋ค์ด๋ด๋ ์์ ์ผ๋ก, ์ํ์ ํ๋ (๋ฐ ๊ฒฐ๊ณผ ์ํ)์ ํน์ ์์น ๋ณด์์ผ๋ก ๋งคํํ๋ ํจ์๋ฅผ ์ฒ์๋ถํฐ ์ค๊ณํ๋ ๊ฒ์ ๋๋ค. ์ ์ค๊ณ๋ ๋ณด์ ํจ์๋ ์์ด์ ํธ์ ํ๋์ ๋ํด ์ ๋ณด์ฑ ์๋ ํผ๋๋ฐฑ์ ์ ๊ณตํ์ฌ ๋ฐ๋์งํ ํ๋์ ๊ฐํํด์ผ ํฉ๋๋ค. ๋์์ ๋๋ฌด ๋น๋ฒํ ๋ณด์์ ์์ด์ ํธ๊ฐ ์ฌ์ด ํธ๋ฒ์ ์ฐพ์๋ด๋ (reward hacking) ๋ถ์์ฉ์ ๋ณ์ ์ ์์ผ๋ฏ๋ก, ์ ์ ํ ํฌ์์ฑ๋ ํ์ํฉ๋๋ค. ๋์งธ, Reward Shaping(Reward Shaping)์ ๊ธฐ๋ณธ ๋ณด์ ํจ์๋ฅผ ์ค์ ํ ํ ํ์ต ๊ณผ์ ์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ณด์ ์ ํธ๋ฅผ ์ธ๋ฐ ์กฐ์ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค. Reward Shaping์ ๊ธฐ์กด์ ์ต์ ์ ์ฑ (optimal policy)์ ๋ฐ๊พธ์ง ์์ผ๋ฉด์ ํ์ต์ ๊ฐ์ํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ ๋ณด์ ํผ๋๋ฐฑ์ ์ฃผ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด ํ ์ ์ด ๊ณผ์ ์์ ๋ชฉํ๋ฌผ๊น์ง์ ์์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์ฌ์ ๋ณด์(potential reward)์ผ๋ก ์ค์ ํ๋ฉด, ์์ด์ ํธ๋ ์ต์ข ์ฑ๊ณต ์ฌ๋ถ์ ๊ด๊ณ์์ด ๋ชฉํ๋ฌผ์ ๊ฐ๊น์์ง ๋๋ง๋ค ์ถ๊ฐ ๋ณด์์ ๋ฐ์ ๋ชฉํ์ ์ ์ง์ ์ผ๋ก ๋ค๊ฐ๊ฐ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค.
์ด์ฒ๋ผ Reward Engineering๊ณผ Reward Shaping์ RL ์์ด์ ํธ๊ฐ ํจ์จ์ ์ผ๋ก ์ํ๋ ํ๋์ ํ์ตํ๋๋ก ํ๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ๊ทธ๋ฌ๋ ํ์ค ์ธ๊ณ์ RL์๋ ํด๊ฒฐํด์ผ ํ ์ฌ๋ฌ ์ด๋ ค์์ด ๋จ์ ์์ต๋๋ค. ํฌ์ํ๊ฑฐ๋ ์ง์ฐ๋ ๋ณด์์ ๋ํ์ ์ธ ๋ฌธ์ ๋ก, ๋ณด์์ด ๋๋ฌผ๊ฒ ์ฃผ์ด์ง๋ฉด ์์ด์ ํธ์ ํ์ต ์งํ์ด ๋งค์ฐ ๋๋์ง ์ ์์ต๋๋ค. ๋ํ ์ค์ ํ๊ฒฝ์ ๋์ญํ์ ์ ํํ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต๊ณ , ๊ณ ์ฐจ์ ์ํยทํ๋ ๊ณต๊ฐ์์ RL ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํค๋ ๋ฐ ๋ง๋ํ ๊ณ์ฐ ๋น์ฉ์ด ๋ ๋ค๋ ํ๊ณ๋ ์ง์ ๋ฉ๋๋ค. ๋คํํ ๊ทผ๋ ๋ฅ๋ฌ๋์ ๋ฐ์ ์ผ๋ก ๋ณต์กํ ์ํ๊ณต๊ฐ์ ๋ค๋ฃจ๋ ๋ฅ๋ ฅ์ด ํฅ์๋์ด ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ๊ฒ์ ๋ฑ ๋ค์ํ ๋ณต์กํ ๊ณผ์ ์๋ RL์ด ์์ฉ๋๊ณ ์์ง๋ง, ์ด๋ฌํ ๋ถ์ผ์์ RL์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ๋ ค๋ฉด ์ฌ์ ํ ํจ๊ณผ์ ์ธ ๋ณด์ ์ค๊ณ/ํ์ฑ ๊ธฐ๋ฒ์ด ํ์ํฉ๋๋ค. ๋ณธ ์ข ์ค ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฐฐ๊ฒฝํ์, ๊ฐํํ์ต์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ Reward Engineering ๋ฐ Reward Shaping ๊ธฐ๋ฒ๋ค์ ํ์ฌ๊น์ง ์ฐ๊ตฌ ๋ํฅ์ ํฌ๊ด์ ์ผ๋ก ์ ๋ฆฌํ๊ณ ๊ฐ ์ ๊ทผ๋ฒ์ ์ฅ๋จ์ ์ ๋ถ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด RL ๋ถ์ผ ์ฐ๊ตฌ์๋ค์๊ฒ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ์ค์ ์์ฉ ์ ๊ณ ๋ คํ ํต์ฐฐ์ ์ ๊ณตํ๋ ๊ฒ์ด ๋ชฉ์ ์ ๋๋ค.
์ฐ๊ตฌ ๋ฐฉ๋ฒ (๋ฌธํ ์กฐ์ฌ ๋ฐ ์ ์ ๊ณผ์ )
์ด ๋ ผ๋ฌธ์ Reward Shaping ๊ธฐ๋ฒ์ ๊ดํ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฒด๊ณ์ ๋ฌธํ์กฐ์ฌ(systematic literature review) ๋ฐฉ์์ผ๋ก ์ข ํฉํ์ต๋๋ค. ์ ์๋ค์ ์ฃผ์ ํ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ โreward shapingโ, โreward engineeringโ, โreinforcement learningโ, โreward designโ, โcontrol systemsโ ๋ฑ์ ํค์๋๋ฅผ ์กฐํฉํ์ฌ 1999๋ ๋ถํฐ 2024๋ ๊น์ง ์ถํ๋ ๊ด๋ จ ๋ฌธํ์ ๊ฒ์ํ์ต๋๋ค. ๊ฒ์๋ ๋ ผ๋ฌธ๋ค์ PRISMA 2020 ์ง์นจ์ ๋ฐ๋ผ ๋จ๊ณ์ ์ผ๋ก ์ ๋ณ๋์์ผ๋ฉฐ, ์ต์ข ์ ์ผ๋ก 55ํธ์ ํต์ฌ ์ฐ๊ตฌ๊ฐ ๋ฆฌ๋ทฐ์ ํฌํจ๋์์ต๋๋ค. ์ด๋ค ๋ ผ๋ฌธ์ ์ฃผ๋ก ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ ์ ์ด ์์คํ ์์์ Reward Shaping ๊ธฐ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ ์ฐ๊ตฌ๋ค๋ก ์ ํํ์์ต๋๋ค. ๋ค๋ง ์ด๋ก ์ ํ๋ ์์ํฌ๋ง ์ ์ํ๊ฑฐ๋ ์ค์ฆ ๋ฐ์ดํฐ๊ฐ ์๋ ๋ ผ๋ฌธ๋ค์ ๋ฐฐ์ ๋์์ผ๋ฉฐ, ์์ธ์ ์ผ๋ก ์ํฅ๋ ฅ์ด ํฌ๋ค๊ณ ํ๋จ๋ ๋ช๋ช ์ด๋ก ๋ ผ๋ฌธ์ ๊ฒํ ๋์์ ํฌํจ๋์์ต๋๋ค. ๋ํ ํฌํจ๋ ๊ฐ ์ฐ๊ตฌ์ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํด ์ฌ์ ์ ์ ์ํ ๊ธฐ์ค์ ๋ฐ๋ผ ํ์ง ํ๊ฐ๋ ์ํํ์์ต๋๋ค. ์ด๋ฌํ ์ฒด๊ณ์ ์ธ ๋ฌธํ ์กฐ์ฌ ๊ณผ์ ์ ํตํด, ๋ณธ ๋ฆฌ๋ทฐ๋ ๊ฐํํ์ต์์์ ๋ณด์ ์ค๊ณ ๋ฐ ํ์ฑ์ ๊ดํ ์ ๋ขฐ๋ ๋์ ์ต์ ์ง์๋ค์ ์ข ํฉ์ ์ผ๋ก ์ ๋ฆฌํ์์ต๋๋ค.
๋ฐฐ๊ฒฝ ๋ฐ ๊ธฐ๋ณธ ๊ฐ๋
๊ฐํํ์ต์ ๊ตฌ์ฑ ์์: RL์ ์ดํดํ๊ธฐ ์ํด ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ง๊ณ ๋์ด๊ฐ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์์ด์ ํธ(Agent): ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ํ์ตํ๋ ์ฃผ์ฒด์ ๋๋ค.
- ํ๊ฒฝ(Environment): ์์ด์ ํธ๊ฐ ํ๋์ ์ํํ๋ ์ธ๊ณ๋ก, ์ ํด์ง ๊ท์น๊ณผ ๋์ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ์ ์ฑ (Policy): ์ฃผ์ด์ง ์ํ์์ ์์ด์ ํธ๊ฐ ์ทจํ ํ๋์ ๊ฒฐ์ ํ๋ ์ ๋ต ๋๋ ํจ์์ ๋๋ค.
- ๋ณด์(Reward): ์์ด์ ํธ์ ํ๋ ๊ฒฐ๊ณผ๋ก ์ฃผ์ด์ง๋ ์ ํธ๋ก, ํน์ ์ํ๋ ํ๋์ ๋ฐ๋์งํจ์ ๋ํ๋ ๋๋ค.
- ๊ฐ์น ํจ์(Value Function): ํน์ ์ํ(๋๋ ์ํ-ํ๋ ์)์ ๋ํด ๋ฏธ๋์ ์ป์ ๋์ ๋ณด์์ ๊ธฐ๋๊ฐ์ ์ถ์ ํ๋ ํจ์์ ๋๋ค.
- ํํ vs ํ์ฉ(Exploration vs Exploitation): ์๋ก์ด ํ๋์ ์๋ํ์ฌ ์ ๋ณด๋ฅผ ์ป๋ ํํ๊ณผ, ํ์ฌ ํ์ตํ ์ต์ ํ๋์ ์ฌ์ฉํ๋ ํ์ฉ ๊ฐ์ ๊ท ํ์ ๋งํฉ๋๋ค.
Reward Shaping๊ณผ Reward Engineering์ ์ ์: Reward Shaping๊ณผ Reward Engineering์ ์์ ์๋ก ์์ ์ค๋ช ํ ๋๋ก ๋ณด์ ์ค๊ณ์ ๋ ์ถ์ ๋๋ค. Reward Shaping(reward shaping)์ ๋๋ฌผ ํ๋ จ์์ ์๊ฐ์ ์ป์ ๊ฐ๋ ์ผ๋ก, ์ถ๊ฐ์ ์ธ ๋ณด์์ ์ ๊ณตํ์ฌ ํ์ต ๋ฌธ์ ๋ฅผ ์ฝ๊ฒ ๋ง๋๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ฆ, ์์ด์ ํธ์ ํ์ต์ ๊ฐ์ด๋ํ๊ธฐ ์ํด ์๋์ ๋ณด์ ํจ์์ ์ธ์ผํฐ๋ธ๋ ํจ๋ํฐ๋ฅผ ๋ง๋ถ์ฌ ๋ณด์ ์ ํธ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด์ ๋ฐํด Reward Engineering(reward engineering)์ ๋ณด๋ค ํญ๋์ ๊ฐ๋ ์ผ๋ก, ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ์ด๋ ๊ธฐ๋ฒ์ ํ์ฉํด ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ๊ฑฐ๋ ์์ ์ฒ์๋ถํฐ ๋ณด์ ํจ์๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ชจ๋ ์ ๊ทผ์ ํฌ๊ดํฉ๋๋ค.
โ๋ณด์์ผ๋ก ์ถฉ๋ถํ๋คโ vs โ๋ณด์๋ง์ผ๋ก๋ ๋ถ์กฑํ๋คโ ๋ ผ์: ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์๋ค ์ฌ์ด์์๋ ๋จ์ผ ์ค์นผ๋ผ ๋ณด์ ์ ํธ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ง๋ฅ์ ํ๋์ ๋์ด๋ผ ์ ์๋์ง์ ๋ํ ๋ ผ์์ด ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ ๊ด์ ์ธ โ๋ณด์์ด ์ถฉ๋ถํ๋ค(Reward is Enough)โ ๊ฐ์ค์ ๋ฐ๋ฅด๋ฉด, ํ๋์ ์ค์นผ๋ผ ๋ณด์ ๊ฐ๋ง ์ต๋ํํ๋๋ก ํ์ต์์ผ๋ ๋ณต์กํ ์ธ์ง๋ฅ๋ ฅ์ด ์ ์ ๋ก ๋ฐํ๋ ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ด ์ ์ฅ์์๋ ๋จ์ผ ๋ณด์ ๋ชฉํ๋ฅผ ํฅํด ๋์๊ฐ๋ ๊ณผ์ ์์, ํ๊ฒฝ์ ๋ณต์ก์ฑ์ด ์์ฐ์ค๋ฝ๊ฒ ์ธ์ด ์ดํด๋ ์ฌํ์ฑ ๊ฐ์ ๊ณ ์ฐจ์ ๋ฅ๋ ฅ์ ๋์ด๋ธ๋ค๊ณ ๋ด ๋๋ค. ๋ฐ๋ฉด โ์ค์นผ๋ผ ๋ณด์๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค(Scalar Reward is Not Enough)โ๋ผ๋ ๋ฐ๋ก ์ ์ธ๊ฐ ์ง๋ฅ์ ๋ค๋ฉด์ ํน์ฑ์ ๋จ์ผ ์์น๋ก ํํํ๊ธฐ ์ด๋ ต๋ค๊ณ ์ง์ ํ๋ฉฐ, ๋ฒกํฐ ๋ณด์(vector-valued reward) ๋ฑ ๋ค์ค ๋ชฉํ๋ฅผ ๋์ ํด์ผ ์์ ํ๊ณ ์ธ๊ฐ๊ณผ ์กฐํ๋ AI๋ฅผ ๋ง๋ค ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ํนํ ์ค๋ฆฌ์ ํ๋จ์ด๋ ์ฃผ๊ด์ ๋ชฉํ๊ฐ ํ์ํ ์์ญ์์๋ ์ฌ๋ฌ ์งํ๋ฅผ ํจ๊ป ๊ณ ๋ คํด์ผ ์ฌ๋ฐ๋ฅธ ์์ฌ๊ฒฐ์ ์ ํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์์ธก ๋ชจ๋ ๋ณด์์ ์ค์์ฑ์ ์ธ์ ํ์ง๋ง, ๋จ์ผ ๋ณด์์ ์ถฉ๋ถ์ฑ์ ๋ํด์๋ ์ด์ฒ๋ผ ๊ฒฌํด ์ฐจ์ด๊ฐ ์กด์ฌํฉ๋๋ค. ๊ฒฐ๊ตญ ์ค์ ์ ์ฉ์์๋ ๋ฌธ์ ํน์ฑ์ ๋ฐ๋ผ ๋จ์ผ ๋ณด์์ ๋จ์ํจ๊ณผ ๋ค์ค ๋ณด์์ ํ๋ถํจ ์ฌ์ด์์ ์ ์ ํ ์ ํ์ ํด์ผ ํ๋ฉฐ, ๋ณต์กํ ์ธ๊ฐ ์ง๋ฅ์ ๋ชจ์ฌํ๋ ค๋ฉด ๋ ์ฌ์ธํ ๋ณด์ ํํ์ด ํ์ํ ์ ์์์ ์์ฌํฉ๋๋ค.
๋ณด์ ์ค๊ณ ์ ์ผ๋ฐ์ ์ธ ํจ์ ๋ค: ํจ๊ณผ์ ์ธ ๋ณด์ ํจ์๋ฅผ ๋ง๋ค๊ธฐ๋ ์ฝ์ง ์์ต๋๋ค. ์๋ชป๋ ๋ณด์ ์ค๊ณ๋ ์์ด์ ํธ์ ์๋ฑํ ํ๋์ ์ ๋ฐํ๊ฑฐ๋ ํ์ต ์คํจ๋ก ์ด์ด์ง ์ ์๋๋ฐ, ์ด๋ฐ ์ํ์์๋ค์ ๋ฏธ๋ฆฌ ํ์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ณด์ ์ค๊ณ์ ๋ํ์ ์ธ ํจ์ (pitfall)๋ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ณด์์ ํฌ์์ฑ(Sparsity): ๋ณด์ ์ ํธ๊ฐ ๋๋ฌด ๋๋ฌผ๊ฑฐ๋ ์ง์ฐ๋์ด ์ ๊ณต๋๋ฉด ์์ด์ ํธ๋ ์ด๋ค ํ๋์ด ์ข์์ง ํ์ตํ๊ธฐ ์ด๋ ค์์ ธ ํ์ต ์๋๊ฐ ๋งค์ฐ ๋๋ ค์ง๋๋ค.
- ๊ธฐ๋ง์ ๋ณด์(Deceptive Reward): ์ค์ ํ ๋ณด์์ด ์๋์ ๋ฌ๋ฆฌ ์์ด์ ํธ์๊ฒ ์ฌ์ด ํธ๋ฒ์ ์ฅ๋ คํ ์ ์์ต๋๋ค. ์ฆ, ํ๋ฉด์ ์ธ ๋ณด์๋ง ๋์ด๊ณ ์ค์ ๋ชฉํ๋ ๋ฌ์ฑํ์ง ๋ชปํ๋ ํ๋์ ์ทจํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
- ๋ณด์ ํดํน(Reward Hacking): ์์ด์ ํธ๊ฐ ๋ณด์ ํจ์๋ฅผ ์ ์ฉํ๋ ํ์์ผ๋ก, ์ํ๋ ๋ชฉํ๋ ์ด๋ฃจ์ง ์์ ์ฑ ๋ณด์๋ง ์ต๋ํํ๋ ์นํธ ํ๋์ ์ฐพ๋ ๊ฒฝ์ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ฒญ์ ๋ก๋ด์๊ฒ โ๊นจ๋ํ ๋ฐฉ ์ ์งโ์ ๋ณด์์ ์ฃผ์๋๋, ๋ก๋ด์ด ์ค์ ์ฒญ์๋ ํ์ง ์๊ณ ์ผ์๋ฅผ ๊ฐ๋ ค ๋๋ฌ์ด ๊ฒ์ ์ธ์ํ์ง ๋ชปํ๊ฒ ๋ง๋๋ ์์ ๋๋ค.
- ์๋์น ์์ ๋ถ์์ฉ(Unintended Consequences): ๋ณต์กํ ํ๊ฒฝ์์๋ ๋ณด์ ์ค๊ณ๋ก ์ธํด ์์์น ๋ชปํ ๋ถ์์ฉ์ด ๋ํ๋ ์ ์์ต๋๋ค. ์์ด์ ํธ ํ๋๊ณผ ํ๊ฒฝ์ ์ํธ์์ฉ์ด ์์ธก ๋ถ๊ฐ๋ฅํ์ฌ, ์ฌ์ํ ๋ณด์ ํญ๋ชฉ์ด ํฐ ๋ฌธ์ ๋ฅผ ์ผ์ผํค๊ธฐ๋ ํฉ๋๋ค.
- ๋ชฉํ์ ๋ณด์์ ๋ถ์ผ์น(Misalignment): ๋ณด์ ํจ์๊ฐ ๊ฐ๋ฐ์์ ์ง์ง ์๋๋ฅผ ์๋ฒฝํ ๋๋ณํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ์ ๋๋ค. ์ด ๊ฒฝ์ฐ ์์ด์ ํธ๋ ๋์ ๋ณด์์ ๋ฐ์๋ ์ ์ ์ฐ๋ฆฌ๊ฐ ์ํ ๋ชฉํ๋ ๋ฌ์ฑํ์ง ๋ชปํ ์ ์์ต๋๋ค.
- ๋ณต์กํ ๋ณด์ ํจ์(Complexity): ๋ณด์์ ๋๋ฌด ๋ง์ ์์๋ฅผ ๋ฃ์ผ๋ฉด ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ๊ณ ํด์ํ๊ธฐ๊ฐ ์ด๋ ค์์ง๋๋ค. ๋ค๋ชฉ์ ๋ณด์์ ๊ทธ ๊ฐ์ค์น๋ฅผ ์ ํ๊ธฐ ํ๋ค๊ณ , ์๋ชปํ๋ฉด ์ด๋ ํ ์ชฝ๋ ๋ง์กฑ์ํค์ง ๋ชปํ ์ฐ๋ ค๊ฐ ์์ต๋๋ค.
- ํ๊ฐ์ ์ด๋ ค์(Evaluation Difficulty): ๋ณต์กํ ํ๊ฒฝ์ผ์๋ก ํ ๋ฒ ์ ํ ๋ณด์ ๊ตฌ์กฐ๊ฐ ์ ๋๋ก ์๋ํ๋์ง ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ๊ธฐ ํ๋ญ๋๋ค. ๊ฒฐ๊ตญ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ์ผ ํ๋๋ฐ, ์ด ๊ณผ์ ๋ํ ๋น์ฉ์ด ํฝ๋๋ค.
์์ ๊ฐ์ ์ด์ ๋ค ๋๋ฌธ์, ๊ธฐ์กด์ ๋จ์ ๋ณด์ ์ค๊ณ๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ์์ ๋ Reward Engineering์ ๊ธฐ๋ฒ๋ค์ด ๋์์ผ๋ก ํ์ฉ๋ฉ๋๋ค. ์ฆ, ๋ณด๋ค ์ฒด๊ณ์ ์ด๊ณ ๋ฐ์ ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ณด์ ํจ์๋ฅผ ๊ฐ์ ํจ์ผ๋ก์จ ์ด๋ฌํ ํจ์ ์ ํผํ๋ ค๋ ๊ฒ์ ๋๋ค. ๋ํ ํ ๊ฐ์ง ๊ธฐ์ตํด์ผ ํ ์ ์, ๋ณด์ ํจ์ ์ ์์ ํ ์์จ ์๋ ์๋๋ผ๋ ๋ฐ๋ณต์ ์ธ ํ ์คํธ์ ๊ฒ์ฆ(iterative testing & validation)์ ํตํด ๋ฐ๊ฒฌํ๊ณ ์์ ํด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์์ด์ ํธ๊ฐ ๋ณด์์ ์๋ชป ์ต๋ํํ๊ณ ์์ง๋ ์์์ง ์ง์์ ์ผ๋ก ๊ด์ฐฐํ์ฌ, ์๋๋๋ก ํ๋ํ๋๋ก ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๋ค๋ฌ์ด๋๊ฐ์ผ ํฉ๋๋ค.
์ค์นผ๋ผ ๋ณด์ vs ๋ฒกํฐ ๋ณด์: ์์ ์ธ๊ธํ ๋ ผ์๊ณผ ๊ด๋ จํ์ฌ, ๋ณด์์ ๋จ์ผ ์ค์นผ๋ผ ๊ฐ์ผ๋ก ์ค ๊ฒ์ด๋ ์๋๋ฉด ๋ค์ฐจ์ ๋ฒกํฐ๋ก ๊ตฌ์ฑํ ๊ฒ์ด๋๋ ์ค์ํ ์ค๊ณ ์ ํ์ ๋๋ค. ์ค์นผ๋ผ ๋ณด์์ ํ ๊ฐ์ง ์์น๋ก ๋ชฉํ ์ง์ฒ๋๋ฅผ ๋ํ๋ด๋ฏ๋ก ๋จ์ํ๊ณ ๋ช ํํ๋ฉฐ ๊ณ์ฐ๋ ์ฉ์ดํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๊ฒ์์์ ์ด๊ฒผ์ผ๋ฉด +1, ์ก์ผ๋ฉด 0๊ณผ ๊ฐ์ด ํ๋์ ๊ฐ๋ง ์ฃผ๋ฉด ๋๋ ํด์๋ ์ฝ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ณต์กํ ๊ณผ์ ์์๋ ์ค์นผ๋ผ ๋ณด์ ํ๋๋ก๋ ๊ณผ์ ์ ์ฌ๋ฌ ์ธก๋ฉด์ ๋ชจ๋ ๋ฐ์ํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์์ด์ ํธ๊ฐ ์ค์ํ ์ธ๋ถ ์์๋ฅผ ๋์น๊ฑฐ๋ ๊ตญ์ ์ต์ ํด์ ๋น ์ง ์ํ์ด ์์ต๋๋ค. ๋ฐ๋ฉด ๋ฒกํฐ ๋ณด์์ ์ฌ๋ฌ ๊ฐ์ ๊ฐ์ ํตํด ๊ณผ์ ์ ๋ค์ํ ์ธก๋ฉด(์: ์๋, ์ ํ๋, ์์ ์๋ชจ ๋ฑ)์ ํ๊ฐํ๋ฏ๋ก ๋ ํ๋ถํ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค. ์์ด์ ํธ๋ ์ด๋ค ์ธก๋ฉด์ ๋ ์ฃผ๋ ฅํด์ผ ํ๋์ง ํ์ตํ ์ ์์ด ๋ค๋ชฉ์ ๋ฌธ์ ์์ ์ ์ฉํฉ๋๋ค. ๋ค๋ง ๋ฒกํฐ ๋ณด์์ ์ฌ์ฉํ๋ฉด ์ฌ๋ฌ ๋ณด์ ์์ ๊ฐ ํธ๋ ์ด๋์คํ๋ฅผ ๋ค๋ค์ผ ํ๊ณ , ๋ณด์ ๊ณต๊ฐ์ด ๋ค์ฐจ์์ด๋ฏ๋ก ํ์ต์ด ๋ณต์กํด์ง๋ฉฐ ๊ณ์ฐ๋น์ฉ๋ ์ฆ๊ฐํฉ๋๋ค. ๋ฐ๋ผ์ ๊ณผ์ ์ ํน์ฑ, ์๊ตฌ ์ฑ๋ฅ ์์ค, ๊ณ์ฐ ์์ ๋ฑ์ ๊ณ ๋ คํ์ฌ ์ค์นผ๋ผ vs ๋ฒกํฐ ๋ณด์์ ๊ฒฐ์ ํ๊ฒ ๋ฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋จ์ํ๊ณ ๋ช ํํ ๋ชฉํ์๋ ์ค์นผ๋ผ ๋ณด์์ด ์ข์ง๋ง, ์์ ์ฑ ๋ฑ ๋ค์ํ ๋ชฉํ๋ฅผ ๋์์ ๋ฌ์ฑํด์ผ ํ๋ ๋ฌธ์ ๋ผ๋ฉด ๋ฒกํฐ ๋ณด์์ด๋ ๋ค์ค ๋ชฉํ ์ ๊ทผ์ด ํ์ํ ์ ์์ต๋๋ค.
Reward Shaping/Engineering ๊ธฐ๋ฒ์ ๋ถ๋ฅ
์ด ์น์ ์์๋ ๋ค์ํ Reward Shaping ๋ฐ Reward Engineering ๊ธฐ๋ฒ๋ค์ ๊ทธ ์๋ฆฌ์ ๋ฐ๋ผ ๋ถ๋ฅํ๊ณ , ๊ฐ ๋ฒ์ฃผ๋ณ ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ํน์ง, ์ฅ๋จ์ ์ ์์ธํ ์ดํด๋ด ๋๋ค. ์ธ๊ฐ์ ๋๊ธฐ๋ถ์ฌ ์ด๋ก ์ ๋น๋์ด ์ฌ์ธต๊ฐํํ์ต์ ๋ณด์๋ ์ธ์ฌ์ ๋ณด์(extrinsic reward)๊ณผ ๋ด์ฌ์ ๋ณด์(intrinsic reward)์ผ๋ก ๊ตฌ๋ถํ ์ ์์ต๋๋ค. ์ธ์ฌ์ ๋ณด์์ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋ ๋ช ์์ ์ธ ๋ณด์(์: ๊ฒ์์์์ ์ ์)์ด๊ณ , ๋ด์ฌ์ ๋ณด์์ ์์ด์ ํธ ์ค์ค๋ก ๋ถ์ฌํ๋ ๋ณด์(์: ์๋ก์ด ์ํ๋ฅผ ๋ฐ๊ฒฌํ์ ๋์ ๋ง์กฑ๊ฐ)์ผ๋ก ํํ ๋๊ธฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ค์ ๋ก RL ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ด์ฌ์ ๋๊ธฐ(intrinsic motivation)๋ฅผ ํ์ฉํ์ฌ ์์ด์ ํธ๊ฐ ํฌ์ํ ์ธ์ฌ์ ๋ณด์ ์ํฉ์์๋ ํ์ต์ ์ง์ํ๋๋ก ํ๋ ๊ธฐ๋ฒ๋ค์ด ๋ฐ์ ํด์์ต๋๋ค. ์ด์ฒ๋ผ ๋ณด์์๋ ์ฌ๋ฌ ์ข ๋ฅ์ ํ์ฉ๋ฒ์ด ์กด์ฌํ๋ฉฐ, ์๋์์๋ ์ต์ ์ฐ๊ตฌ๋ค์ ์ค์ฌ์ผ๋ก ๋ค์ํ Reward Eningeering/Shaping ์ ๋ต์ ๊ธฐ์ ํฉ๋๋ค. ํ์์ ๋ฐ๋ผ ๊ฐ ์ ๊ทผ๋ฒ์ ๊ตฌ์ฒด์ ๋ฉ์ปค๋์ฆ๊ณผ ์ฌ๋ก, ๊ทธ๋ฆฌ๊ณ ์ฅ์ ๊ณผ ํ๊ณ๋ฅผ ํจ๊ป ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์ ์ฑ ๊ฒฝ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Policy Gradient ๊ธฐ๋ฐ ๋ณด์ ์ต์ ํ)
์ ์ฑ ๊ฒฝ์ฌ ๊ธฐ๋ฒ์ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๋์ ์ผ๋ก ํ์ตํ๊ฑฐ๋ ์ต์ ํํ๋ ์ ๊ทผ์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์ฑ ๊ฒฝ์ฌ(policy gradient) ๋ฐฉ๋ฒ์ ๊ฐ์น ํจ์๋ฅผ ์ถ์ ํ์ง ์๊ณ ์์ด์ ํธ์ ์ ์ฑ ์ ์ง์ ์ต์ ํํ๋ RL ์๊ณ ๋ฆฌ์ฆ๊ตฐ์ ๋งํฉ๋๋ค. ์ด๋ฌํ ์ ์ฑ ๊ฒฝ์ฌ ๋ฐฉ๋ฒ์ ๋ณด์ ์ค๊ณ์ ์์ฉํ ๋ํ ์ฐ๊ตฌ๋ก PGRD (Policy Gradient for Reward Design)๊ฐ ์์ต๋๋ค. PGRD๋ ์์ด์ ํธ์ ํ์ต ์ค์ ๋ณด์ ํจ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ์กฐ์ ํ๊ธฐ ์ํด ๊ทธ๋๋์ธํธ ์์น(gradient ascent)์ ์ ์ฉํฉ๋๋ค. ์ฆ, ์ด๊ธฐ์ ๋ณด์ ํจ์๋ฅผ ๊ณ ์ ๋ ๊ฒ์ผ๋ก ๋์ง ์๊ณ , ์ค๊ณ์๊ฐ ์ํ๋ ๋ชฉํ์ ๊ทผ์ ํ๋๋ก ๋ณด์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ์ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋ณด์ ์์ฒด๋ฅผ ์ต์ ํ ๋ฌธ์ ๋ก ์ทจ๊ธํ์ฌ, ์์ด์ ํธ๊ฐ ํ๊ฒฝ์์ ๊ฒช๋ ์ํผ์๋ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋ณด์ ํจ์๋ฅผ ์กฐ๊ธ์ฉ ๊ฐ์ ํด๋๊ฐ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํต์ฌ ์์ด๋์ด๋ โ์ต์ ์ ๋ณด์ ํ๋ผ๋ฏธํฐ๋ ๊ฒฐ๊ตญ ์ต์ ์ ์์ด์ ํธ ์ฑ๋ฅ์ ์ด๋๋คโ๋ ๊ฒ์ด๋ฉฐ, ๋ณด์ ์ค๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๋ค๋ฅธ ํ์ต(proximal gradient ascent)์ ๋๋ฆฌ๋ ํํ์ ๋๋ค. PGRD๋ ์ด๋ก ์ ์ผ๋ก ์๋ ด์ด ๋ณด์ฅ๋๋ฉฐ, ๋ถ๋ถ ๊ด์ธก ํ๊ฒฝ ๋ฑ์์๋ ํจ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์ค์ ์คํ์์ PGRD๋ ๊ธฐ์กด์ ๊ณ ์ ๋ ๋ณด์์ผ๋ก ํ์ตํ ์์ด์ ํธ๋ณด๋ค ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋๋ฐ, ์ด๋ ์์ด์ ํธ์ ๋ฅ๋ ฅ๊ณผ ํ๊ฒฝ ๋ถํ์ค์ฑ์ ๋ง๊ฒ ๋ณด์ ๊ตฌ์กฐ๊ฐ ์ ์์ ์ผ๋ก ๋ณํ ๋๋ถ์ ๋๋ค. ์๋ฅผ ๋ค์ด PGRD๋ฅผ ์ ์ฉํ ๊ฒฐ๊ณผ, ์ผ๋ถ ํ๊ฒฝ์์๋ ์์ด์ ํธ๊ฐ ๋ ๋์ ํ๊ท ๋ณด์์ ์ป์ผ๋ฉฐ ํ์ต ์๋๋ ํฅ์๋๋ ๊ฒ์ด ํ์ธ๋์์ต๋๋ค.
PGRD์ ์ฐ์ฅ์ ์์์, LIRPG (Learning Intrinsic Reward for Policy Gradient) ์๊ณ ๋ฆฌ์ฆ๋ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. LIRPG๋ ์ธ์ฌ์ ๋ณด์ ์ธ์ ๋ด์ฌ์ ๋ณด์์ ๋ณ๋ ฌ๋ก ํ์ตํจ์ผ๋ก์จ ์์ด์ ํธ๊ฐ ์ค์ค๋ก ๋ณด์ ์ ํธ๋ฅผ ๊ตฌ์ฑํ๋๋ก ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฑ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ ๋ ๋ด์ฌ์ ๋ณด์์ ํ๋ผ๋ฏธํฐ๋ ํจ๊ป ์ ๋ฐ์ดํธํ์ฌ, ์ ์ฑ ํ์ต๊ณผ ๋ณด์ ํ์ต์ ๋์์ ์ด๋ฃน๋๋ค. ์ด๋ฅผ ํตํด ์์ด์ ํธ๋ ํ๊ฒฝ์ด ์ฃผ๋ ๋ณด์๋ฟ๋ง ์๋๋ผ ์์ฒด์ ์ผ๋ก ์ ์ํ ๋ณด์์ ๊ธฐ์ค์ผ๋ก๋ ํ์ต ๋ฐฉํฅ์ ์ก์ต๋๋ค. Atari ๊ฒ์์ด๋ MuJoCo ๋ก๋ณดํฑ์ค ํ๊ฒฝ์์์ ์คํ ๊ฒฐ๊ณผ, LIRPG๋ ํ์ค PPO ์์ด์ ํธ๋ณด๋ค ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ด์ฌ์ ๋ณด์๋ง์ผ๋ก ์ ์ฑ ์ ํ์ต์ํจ ๊ฒฝ์ฐ์๋ ์ผ์ ์์ค ์ด์์ ์ฑ๋ฅ์ ๋ด๋ ๋ฑ, ํ๋ณธ ํจ์จ(sample efficiency)๊ณผ ํ์ต ์๋๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ํจ๊ณผ์ ์ด์์ต๋๋ค. ๋ค๋ง LIRPG๋ฅผ ์ ์ฉํ๋ ค๋ฉด ๋ด์ฌ์ ๋ณด์ ํจ์์ ํํ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ค์ ํด์ผ ํ๋ฉฐ, ๋ด์ฌ์ ๋ณด์๊ณผ ์ ์ฑ ์ ๋ฐ์ดํธ ๊ฐ์ ์ํธ์์ฉ์ ๋ฐ๋ผ ๋ฏผ๊ฐ๋๊ฐ ์์ ์ ์์ต๋๋ค. ์ฆ, ์๋ก์ด ๋ณด์ํจ์๋ฅผ ํจ๊ป ํ์ตํ๋ ๋งํผ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ถ๋ด์ด ์๊ณ , ๋ถ์ ์ ํ ๋ด์ฌ ๋ณด์์ ์คํ๋ ค ํ์ต์ ๊ต๋ํ ์ํ๋ ์กด์ฌํฉ๋๋ค.
๋ ๋ค๋ฅธ ์ฌ๋ก๋ก, DDPGfD (DDPG from Demonstrations) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฑ ๊ฒฝ์ฌ ๋ฐฉ๋ฒ(DDPG)์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ณด์ ์ ํธ๋ฅผ ๋ณด๊ฐํ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ์ ๊ทผ์ ํนํ ํฌ์ ๋ณด์ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ธ๋ฐ, ์ธ๊ฐ ์๋ฒ(์ ๋ฌธ๊ฐ ๋ฐ๋ชจ)์ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ํจ๊ป ์ ์ฅํ์ฌ ์ด๊ธฐ ํ์ต์ ๋์ต๋๋ค. DDPGfD๋ ์คํํด๋ฆฌ์(off-policy) Actor-Critic ์๊ณ ๋ฆฌ์ฆ์ธ DDPG์ ๋ค์๊ณผ ๊ฐ์ ๋ณํ์ ๊ฐํ์ต๋๋ค: (1) ์ธ๊ฐ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ๋ฒํผ์ ์ถ๊ฐํ๊ณ , (2) ์ํ๋ง ์ ์ฐ์ ์์ ์ํ๋ง์ ์ฌ์ฉํ์ฌ ์๋ฒ๊ณผ ์๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ ํผํฉํ๋ฉฐ, (3) 1-step ๋ณด์๋ฟ๋ง ์๋๋ผ n-step ๋ฆฌํด ๋ณด์์ผ๋ก ํ์ต ์ ํธ๋ฅผ ๊ฐํํ๊ณ , (4) ํ ๋ฒ ํ๊ฒฝ ์ํธ์์ฉ๋ง๋ค ๋ค์ค ์ ๋ฐ์ดํธ๋ฅผ ์ํํ์ฌ ํ์ต ํจ์จ์ ๋์ ๋๋ค. ๋ํ ๊ณผ์ ํฉ์ ๋ง๊ธฐ ์ํด ๊ฐ์น๋ง(ํฌ๋ฆฌํฑ)๊ณผ ์ ์ฑ ๋ง(์กํฐ)์ L2 ์ ๊ทํ๋ฅผ ์ ์ฉํ์ต๋๋ค. ์ด๋ฌํ ๋ณ๊ฒฝ์ ํตํด, ์๋ฅผ ๋ค์ด 7์์ ๋ ๋ก๋ดํ๋ก ํ๋ผ์คํฑ ๋ถํ ๋ผ์ ๋ง์ถ๊ธฐ ์์ ์ ํ์ตํ๋ ์คํ์์, DDPGfD๋ ์๋ฒ ๋ฐ์ดํฐ ์์ ๋น๋กํ์ฌ ํ์ต ๊ณก์ ์ด ๊ฐ์ ๋๊ณ ๋ณด๋ค ์์ ์ ์ผ๋ก ๊ณผ์ ๋ฅผ ์ฑ๊ณต์์ผฐ์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์ธ๊ฐ์ด ์๋ ค์ค ๊ฒฝ๋ก(์๋ฒ)์ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ๋ฉด, ์์ ๊ฐํํ์ต๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ๋ณต์กํ ๊ณผ์ ๋ฅผ ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. DDPGfD์ ๊ฐ์ ์ ํํ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ํ์ต ์ด๊ธฐ์ ์ํ์ฐฉ์ค๋ฅผ ์ค์ฌ์ค๋ค๋ ์ ์ด์ง๋ง, ์ธ๊ฐ ์๋ฒ ๋ฐ์ดํฐ์ ์ง๊ณผ ์์ ์ฑ๋ฅ์ด ์ข์ฐ๋๋ฉฐ, ์ถ๊ฐ๋ ์๋ฒ ์ฒ๋ฆฌ ๋จ๊ณ๋ก ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๋ ๋จ์ ์ด ์์ต๋๋ค.
๊ฐ๊ฑด์ฑ ๋ฐ ์ ์์ฑ ํฅ์ ๋ฐฉ๋ฒ
๊ฐ๊ฑด์ฑ(Robustness)๊ณผ ์ ์์ฑ(Adaptability)์ ๋์ด๊ธฐ ์ํ ๋ณด์ ์ค๊ณ ๊ธฐ๋ฒ๋ค์, ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ด๋ ๋ณํ๋ฅผ ๊ฒฌ๋๊ณ ์๋ก์ด ์ํฉ์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋๋ก ๋ณด์ ํจ์๋ฅผ ์กฐ์ ํ๋ ๋ฐ ์ด์ ์ ๋ก๋๋ค. ๊ฐ๊ฑด์ฑ์ ์์ด์ ํธ๊ฐ ์ก์(disturbance)์ด๋ ๋ชจ๋ธ ๋ถํ์ค์ฑ์ด ์์ด๋ ์์ ์ ์ฑ๋ฅ์ ๋ด๋ ๋ฅ๋ ฅ์ด๊ณ , ์ ์์ฑ์ ํ๊ฒฝ์ด๋ ์๋ฌด๊ฐ ๋ฐ๋์ด๋ ์ ์ฑ ์ ์ ์ฐํ๊ฒ ์กฐ์ ํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
ํ ๊ฐ์ง ์ ๊ทผ์ผ๋ก, ๋ฆฌ๋-ํ๋ก์ ํ๋ ์์ํฌ๋ฅผ ํ์ฉํ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ๋ฆฌ๋-ํ๋ก์ ๊ตฌ์กฐ์์๋ ๋ฆฌ๋ ์์ด์ ํธ๊ฐ ํ๋ก์์ ๋ณด์ ํจ์๋ฅผ ์์ ํจ์ผ๋ก์จ ํ๋ก์์ ํ๋์ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ํฉ๋๋ค. ์์ปจ๋, ๋ฆฌ๋๊ฐ ๋ณด์์ ํ๋ํฐ๋ ๋ณด๋์ค๋ฅผ ์ด์ง ๊ฐ๋ฏธํด ํ๋ก์๊ฐ ์์ ํ ํ๋์ ์ฐ์ ํ๊ฒ ๋ง๋๋ ์์ ๋๋ค. ์ด๋ฅผ ํตํด ์์คํ ์ ์ฒด์ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ์ด๋ฌํ ์์ด๋์ด๋ ๋ฉํฐ์์ด์ ํธ ์์คํ ์ด๋ ๊ณ์ธตํ ์ ์ด์์ ํ์ฉ๋ ์ ์์ผ๋ฉฐ, ๋ณธ์ง์ ์ผ๋ก ํ ์์ด์ ํธ๊ฐ ๋ค๋ฅธ ์์ด์ ํธ์ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ์ ์ฑ ์ ์ผ๋ก ๊ด๋ฆฌํ๋ ํํ์ Reward Engineering์ด๋ผ ํ ์ ์์ต๋๋ค.
๋ ๋ค๋ฅธ ์ค์ํ ๋ฌธ์ ๋ ์ผ์ ๋ ธ์ด์ฆ๋ก ์ธํ ๋ณด์ ์ ํธ ์๊ณก์ ๋๋ค. ํ์ค์์ ์์ด์ ํธ์ ๋ณด์์ ์ผ์ ์ธก์ ์ ์์กดํ๋๋ฐ, ์ผ์์ ๋ ธ์ด์ฆ๊ฐ ๋ผ๋ฉด ์๋ชป๋ ๋ณด์์ด ์ ๋ ฅ๋์ด RL ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํ ์ฐ๊ตฌ์์๋ ํผ๋ ํ๋ ฌ(confusion matrix)์ ์ด์ฉํด ๋ ธ์ด์ฆ ๋ณด์์ ๋ณด์ ํ๋ ๊ฐ๊ฑด RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ผ์ ๋ณด์ ์ ํธ์ ์ค๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ง ์๊ณ , ๊ด์ฐฐ๋ ๊ฒฐ๊ณผ๋ก๋ถํฐ ํผ๋ ํ๋ ฌ์ ์ถ์ ํด ํธํฅ์ ์ ๊ฑฐํ ๋๋ฆฌ ๋ณด์(surrogate reward)์ ๊ณ์ฐํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํผ๋ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋นํธํฅ ๋ณด์ ์ถ์ ์๊ณ ๋ฆฌ์ฆ์ ๋์ ํ์ฌ ์ง์ง ํ๊ฒฝ ๋ณด์์ ์ถ์ ์น๋ฅผ ์ป์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ด ์ถ์ ์น๋ก Q๋ฌ๋์ ์ํํ๋๋ฐ, ์ด๋ก ์ ์ผ๋ก ์ถ์ ๋ณด์์ ์ธ ๋๋ ํ์ต์ด ์ต์ Qํจ์๋ก ์๋ ดํจ์ ์ฆ๋ช ํ์์ต๋๋ค. OpenAI Gym๊ณผ Atari ๊ฒ์๋ค์ ์ด ๊ธฐ๋ฒ์ ์ ์ฉํ ๊ฒฐ๊ณผ, ๋ ธ์ด์ฆ๊ฐ ์๋ ํ๊ฒฝ์์๋ ์์ด์ ํธ์ ๊ธฐ๋ ๋ณด์์ด ํฌ๊ฒ ํฅ์๋์๊ณ , PPO ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฒฐํฉํ๋ฉด ๋ ธ์ด์ฆ์ ๊ฐ์ธํ ์ ์ฑ ์ ํ์ตํ ์ ์์์ ํ์ธํ์ต๋๋ค. ์ฌ์ง์ด ์ด๋ ์ ๋์ ๋ ธ์ด์ฆ๋ ํํ์ ๋์์ฃผ๋ ์ญํ ๊น์ง ํ์ฌ ๋์ ๋ณด์์ด ์ฆ๊ฐํ๋ ํฅ๋ฏธ๋ก์ด ํ์๋ ๊ด์ฐฐ๋์์ต๋๋ค. ๋ค๋ง ์ด ๋ฐฉ๋ฒ์ ํผ๋ ํ๋ ฌ ์ถ์ ๋ฐ ์ถ๊ฐ ์ฐ์ฐ์ผ๋ก ๊ณ์ฐ๋์ด ๋์ด๋๋ฉฐ, ๋ณด์ ํจ๊ณผ๊ฐ ๋ค์ํ ๋ ธ์ด์ฆ ํจํด์์ ํญ์ ์ ๋ค์ด๋ง๋์ง๋ ์ฌ์ ํ ์ ํํ ๋ ธ์ด์ฆ ๋ชจ๋ธ๋ง๊ณผ ํ๋ผ๋ฏธํฐ ํ๋์ ๋ฌ๋ ค ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ผ์ ๋ ธ์ด์ฆ ํ์์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ค๊ณํจ์ผ๋ก์จ RL ํ์ต์ ์ ๋ขฐ์ฑ์ ๋์ธ ์ข์ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค.
์ด๋ฐ์, ํน์ ์ ์ด ์ฑ๋ฅ ์๊ตฌ์ฌํญ์ ๋ง์กฑ์ํค๋๋ก ๋ณด์์ ํ์ฑํ๋ ์ฐ๊ตฌ๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ๋ก๋ด ์ ์ด ๋ฌธ์ ์์ ์ ์ฐฉ ์๊ฐ์ด๋ ์ ์์ํ ์ค์ฐจ ๊ฐ์ ๊ธฐ์ค์ ์ถฉ์กฑ์ํค๊ณ ์ถ๋ค๋ฉด, ๋ชจ๋ธ ์์ด๋ ๋ณด์์ ํตํด ์ด๋ฌํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋๋ก shapingํ ์ ์์ต๋๋ค. ํ ์ฐ๊ตฌ์์๋ ์์คํ ๋์ญํ ๋ชจ๋ธ์ ๋ชฐ๋ผ๋ RL ์ ์ฑ ์ด ์ ์ด ๋ชฉํ(์: ๋น ๋ฅธ ์์ ํ)์ ๋ง๋ ๊ถค์ ์ ๋ฐ๋ฅด๋๋ก ์ฒด๊ณ์ ์ธ Reward Shaping ๊ธฐ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ด๋ ๋ณด์์ ์ ์ด ์ฑ๋ฅ ์กฐํญ์ ๋ฃ์ด์ฃผ๊ฑฐ๋, ์์ด์ ํธ๊ฐ ์ด๋ฌํ ์ฑ๋ฅ ์งํ๋ฅผ ๋ง์กฑํ ๋ ์ถ๊ฐ ๋ณด์์ ์ฃผ๋ ๋ฐฉ์์ผ๋ก ์ด๋ค์ง๋๋ค. ์ด ์ ๊ทผ์ ํจ๊ณผ๋ ํด๋น ์ ์ด ๋ชฉํ๋ฅผ ์ง์ ์ต์ ํํ๋๋ก ์ ๋ํจ์ผ๋ก์จ, RL ์ ์ฑ ์ด ์ ํต์ ์ธ ์ ์ด๊ธฐ์ฒ๋ผ ์๋ํ๋๋ก ํ ์ ์๋ค๋ ์ ์ ๋๋ค. ๋ค๋ง ์ด ์ญ์ ์ฌ์ ์ ๋ง์กฑ์์ผ์ผ ํ ์ฑ๋ฅ ๊ธฐ์ค๊ณผ ๊ทธ๋ฅผ ๋ณด์์ผ๋ก ์ด๋ป๊ฒ ์ ๋ํํ ์ง ๋๋ฉ์ธ ์ง์์ด ํ์ํฉ๋๋ค.
ํํ ์ ๋ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Exploration-Driven Shaping)
๊ฐํํ์ต์ ๋์ ์ค ํ๋๋ ํํ-ํ์ฉ ๋ฌธ์ ๋ก, ์๋ก์ด ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํ ํํ๊ณผ ์ด๋ฏธ ์๊ณ ์๋ ์ข์ ํ๋์ ์ทจํ๋ ํ์ฉ ์ฌ์ด์ ๊ท ํ์ ์ก๋ ๊ฒ์ ๋๋ค. Reward Shaping ๊ธฐ๋ฒ ์ค์๋ ์์ด์ ํธ์ ํํ์ ์ฅ๋ คํ์ฌ ํ์ต์ ์ด์งํ๋ ๊ฒ๋ค์ด ๋ค์ ์์ต๋๋ค. ํนํ ํฌ์ ๋ณด์ ํ๊ฒฝ์์๋ ์์ด์ ํธ๊ฐ ๋ณด์์ ๋ฐ์ ๋งํ ์ํ๋ฅผ ์ฐพ์๊ฐ์ผ ํ๋ฏ๋ก, ํํ ๋ณด๋์ค ํํ์ ๋ด์ฌ์ ๋ณด์์ ์ฃผ๋ ์ ๋ต์ด ํจ๊ณผ์ ์ ๋๋ค.
ํ ๊ฐ์ง ์ ํต์ ์ธ ์ ๊ทผ์ ์นด์ดํธ ๊ธฐ๋ฐ(count-based) ํํ์ผ๋ก, ์์ด์ ํธ๊ฐ ๋ฐฉ๋ฌธํ์ง ์์ ์ํ์ ๋ณด๋์ค๋ฅผ ์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ํ์ง๋ง ์ฐ์์ ์ด๊ฑฐ๋ ๊ณ ์ฐจ์ ์ํ ๊ณต๊ฐ์์๋ ๋๊ฐ์ ์ํ๋ฅผ ๋ฐ๋ณตํด์ ๋ง๋ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ count ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ํ์ ์ฐ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํด์ ํจ์๋ฅผ ์ด์ฉํ ์ํ ์ธ์ฝ๋ฉ ๊ธฐ๋ฒ์ด ์ ์๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ํ๋ฅผ ์ ์ฐจ์ ์ด์ง ์ฝ๋๋ก ํด์ฑ(hash)ํ์ฌ ๋น์ทํ ์ํ๋ค์ ๋์ผํ๊ฒ ์ทจ๊ธํจ์ผ๋ก์จ, ์ฌ์ค์ ์ ์ฌํ ์ํ ์ฌ๋ฐฉ๋ฌธ์ ์นด์ดํ ํ ์ ์์ต๋๋ค. ํ ์ฐ๊ตฌ์์๋ ์ง์ญ๋ฏผ๊ฐ ํด์(Locality-Sensitive Hashing) ๊ธฐ๋ฒ์ ์ผ์ข ์ธ SimHash๋ฅผ ์ฌ์ฉํด ์ฐ์ ์ํ๋ฅผ ์ด์ง์ฝ๋๋ก ๋ณํํ ํ, ๊ทธ ํด์ ์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐฉ๋ฌธ ํ์๋ฅผ ์ธ์ด ํํ ๋ณด๋์ค๋ฅผ ์ฃผ์์ต๋๋ค. ๋ํ ์๋์ธ์ฝ๋(AE)๋ฅผ ํ์ฉํ ํ์ต๋ ํด์ฑ ๋ฐฉ๋ฒ๋ ํจ๊ป ์ฌ์ฉํ์ฌ, ์ค์ํ ์ํ์ ํน์ง์ ์ก์๋ด๋ ํด์ ํจ์๋ฅผ ํ์ตํ์ต๋๋ค. ์ด๋ฌํ ํด์ ๊ธฐ๋ฐ ํํ ๋ณด๋์ค๋ฅผ TRPO(Trust Region Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๊ฒฐ๊ณผ, MountainCar, HalfCheetah ๋ฑ์ ํ๊ฒฝ์์ ๊ธฐ์กด TRPO๋ก๋ ๋ถ๊ฐ๋ฅํ๋ ๋ชฉํ ๋๋ฌ์ ํด์ ๋ณด๋์ค ๋๋ถ์ ๋ฌ์ฑํ ์ ์์์ต๋๋ค. ํนํ ์ํ ๊ณต๊ฐ์ด ํฐ HalfCheetah ํ๊ฒฝ์์, ํด์ ๋ณด๋์ค๋ฅผ ์ค TRPO๋ ๋งค์ฐ ํฌ์ํ ๋ณด์๋ ํฌ์ฐฉํด๋ด์ด ์ผ๋ถ ์ฑ๊ณผ๋ ๋ค๋ฅธ ์ต์ ํํ ๊ธฐ๋ฒ(VIME ๋ฑ)๊ณผ ๊ฒฌ์ค ๋งํ ์์ค์ ๋ณด์์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ ์ ๊ณ ์ฐจ์ ๊ณต๊ฐ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค๋ ์ ๊ณผ, ๋น๊ต์ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋ค์ํ RL ๋๋ฉ์ธ์ ํ์ฉ๋ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ๋จ์ ์ผ๋ก๋ ์ด๋ค ํด์ ํจ์๋ฅผ ์ฐ๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ์๊ธฐ๋ฏ๋ก ํด์ ํจ์ ์ค์ ๋ฐ ํ์ต์ ๋์ด๋๊ฐ ์๊ณ , ์ํ ํํ์ ์ง์ ๋ฏผ๊ฐํ์ฌ ํ๊ฒฝ๋ง๋ค ํ๋์ด ํ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ์ผ๋ก, ํํ ์ ๋ Reward Shaping(EXPLORS) ํ๋ ์์ํฌ๊ฐ ์ ์๋์์ต๋๋ค. EXPLORS๋ ๋ด์ฌ์ ๋ณด์ ํ์ต๊ณผ ํํ ๋ณด๋์ค๋ฅผ ์์ ์์จ๋ฐฉ์์ผ๋ก ๊ฒฐํฉํ์ฌ, ์์ด์ ํธ๊ฐ ์ค์ค๋ก ํํ์ ๊ทน๋ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด ๊ธฐ๋ฒ์์๋ ์๊ณ ๋ฆฌ์ฆ 1๊ณผ ๊ฐ์ ์ ์ฐจ๋ก ๋งค ์คํ ๋ณด์๊ณผ ์ ์ฑ ์ ๋ฒ๊ฐ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ๊ฐ๋ตํ ๋งํด, ์์ด์ ํธ๊ฐ ํ๋ํ ๋ ํ๊ฒฝ ๋ณด์(์ธ์ฌ์ )๋ฟ๋ง ์๋๋ผ ์ถ๊ฐ์ ์ธ ๋ด์ฌ ๋ณด์์ ๋ณ๋ ฌ๋ก ํ์ตํ์ฌ, ๋ ๋ณด์์ ํฉ์ผ๋ก ์ ์ฑ ์ ๊ฐ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ ํต์ Reward Shaping์ด ์ด๋ ค์ด ์ํฉ์์๋ ํ์ต์ ๊ฐ์ํ ์ ์์์ ์ฌ๋ฌ ํ๊ฒฝ์์ ๊ฒ์ฆํ์์ต๋๋ค. ์์ปจ๋, ๋งค์ฐ ํฌ์ํ๊ฑฐ๋ ๋ ธ์ด์ฆ๊ฐ ํฐ ๋ณด์ ํ๊ฒฝ์์ EXPLORS๋ฅผ ์ด ์์ด์ ํธ๋ ์ผ๋ฐ REINFORCE ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ์๊ณ , ๊ธฐ์กด์ ์์์ ๋ณด์ shaping ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ค๋ง ์ด ์ฐ๊ตฌ์์๋ ์ธ๊ธํ๋ฏ์ด, ๋ณด๋ค ๋ณต์กํ ํ๊ฒฝ์์ EXPLORS์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ ํ์๊ฐ ์๊ณ , ๋ด์ฌ ๋ณด์๊ณผ ํํ ๋ณด๋์ค๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ๋ ์ต์ ์ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์ฆ, ๋ด์ฌ์ ํํ ์ ํธ๋ฅผ ๋๋ฌด ๊ฐํ๊ฒ ์ฃผ๋ฉด ๋ณธ๋ ๋ชฉํ์์ ๋ฒ์ด๋ ์ ์๊ณ , ๋๋ฌด ์ฝํ๋ฉด ์๋ฏธ๊ฐ ์๊ธฐ์ ๊ทธ ๊ท ํ์ ์ฐพ๋ ๊ฒ์ด ๊ณผ์ ๋ก ๋จ์ต๋๋ค.
๋ ํ๋ ํฅ๋ฏธ๋ก์ด ์ ๊ทผ์ RUNE (Reward Uncertainty for Exploration)์ด๋ผ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ํธ๊ธฐ๋ฐ RL์์ ๋ณด์ ํจ์์ ๋ถํ์ค์ฑ์ ํํ ๋ณด๋์ค๋ก ํ์ฉํ ๊ฒ์ ๋๋ค. ์ฌ๋์ ํผ๋๋ฐฑ์ ํตํด ํ์ต๋๋ ๋ณด์ ๋ชจ๋ธ(ensemble ์ฌ๋ฌ ๊ฐ)์ ๋ง๋ค๊ณ , ๊ทธ ์์ธก ๊ฐ๋ค์ ํ์คํธ์ฐจ(๋ถํ์ค์ฑ)๋ฅผ ๋ด์ฌ์ ๋ณด์์ผ๋ก ์ฃผ์ด๋ด ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ด์ ํธ๋ ์ฌ๋ฌ ๋ณด์ ๋ชจ๋ธ ๊ฐ ์์ธก์ด ๋ถํ์คํ ์ํ๋ฅผ ๋ ํํํ๊ฒ ๋๊ณ , ์ด๋ ๊ณง ์ธ๊ฐ ์ ํธ์ ๋ํด ๋ช ํํ ์ ๋ณด๋ฅผ ์ฃผ๋ ์ํ๋ฅผ ์ฐพ์๋ค๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. RUNE์ ์ฅ์ ์ ํํ๊ณผ ํ์ฉ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์จํด์ค๋ค๋ ์ ์ ๋๋ค. ์ฆ, ๋ถํ์ค์ฑ์ด ํฐ ํ๋์ ์ฐ์ ์๋ํจ์ผ๋ก์จ, ์ฅ๊ธฐ์ ์ผ๋ก ๋ ๋ง์ ๋ณด์์ ์ป์ ๊ฐ๋ฅ์ฑ์ ๋์ ๋๋ค. ์ค์ ๋ก๋ด ์กฐ์ ๊ณผ์ ์์ RUNE์ ๊ธฐ์กด ํํ ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ, ํ์ต ์ํ ํจ์จ ๋ฐ ์ต์ข ์ฑ๊ณต๋ฅ ์ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ํนํ RUNE ์ ์ฉ ์ ์ฑ๊ณต๋ฅ ์์น ํญ์ด ๋ค๋ฅธ ๊ธฐ๋ฒ๋ณด๋ค ํฌ๊ณ ์ ์ ํผ๋๋ฐฑ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. RUNE์ ๋์ ๊ณผ์ ๋ ๋ณด์ ๋ชจ๋ธ์ ์์๋ธ์ ์ ์งํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ๊ณ , ๋ค์ํ ์์ค์ ๋ณด์ ๋ถํ์ค์ฑ์ ๋ค๋ฃฐ ์ ์๋ ์์ ์ ์ธ ๊ธฐ๋ฒ์ด ๋ ์ฐ๊ตฌ๋์ด์ผ ํ๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋ผ์๋, ์ธ๊ฐ์ ์ ํธ ํ์ต ๋ถ์ผ์์ ๋ณด์ ๋ถํ์ค์ฑ์ ํํ์ ํตํฉํ ์ฒซ ์ฌ๋ก๋ก์ RL ํ์ ์ ๋ต์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์๋ค๋ ์์๊ฐ ์์ต๋๋ค.
์ ์ฑ ํ๋ผ๋ฏธํฐํ (๋จ์ ์ ์ฑ ๋ชจ๋ธ์ ํ์ฉ)
์ ์ฑ ํ๋ผ๋ฏธํฐํ๋ ์์ด์ ํธ์ ์ ์ฑ ๊ตฌ์กฐ๋ฅผ ์ด๋ป๊ฒ ์ค๊ณํ๋๋์ ๊ดํ ๊ธฐ๋ฒ์ผ๋ก, ๊ฐ์ ์ ์ผ๋ก๋ ๋ณด์์ ์์กดํ๋ ํ์ต ์ฑ๋ฅ๊ณผ ํ์ ํํ์๋ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก RL์์ ์ ์ฑ ์ ๋ด๋ด๋คํธ์ํฌ ๋ฑ ๋ณต์กํ ํจ์๋ก ํํ๋์ง๋ง, ์ต๊ทผ ํ ์ฐ๊ตฌ์์๋ ๋จ์ํ ์ ํ ๋๋ RBF(Radial Basis Function) ์ ์ฑ ๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํต์ฌ์ ์ ๋ ฅ ์ํ์ ๋ํด ๋๋ค Fourier ํผ์ณ๋ฅผ ์ฌ์ฉํ์ฌ ํํ๋ ฅ์ ๋์ด๊ณ ์ ํ ์ ์ฑ ์ ์ ์ฉํ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ํ ๊ด์ธก์ ๋ํด ๋๋ค ์ฃผํ์๋ก ์ฌ์ธ/์ฝ์ฌ์ธ ๋ณํํ ํผ์ณ ๋ฒกํฐ๋ฅผ ๋ง๋ค๊ณ , ๊ทธ์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ ์ ํ ์ ์ฑ ์ ํ์ตํ๋ ์์ ๋๋ค. ์ด๋ ๊ฒ ๊ฐ์ํ๋ ์ ์ฑ ์ OpenAI Gym ์ฐ์ ์ ์ด ๋ฒค์น๋งํฌ์์ ๋ด๋ด๋คํธ์ํฌ ์ ์ฑ ์ ํ์ ํ๋ ์ฑ๋ฅ์ ๋ด๋ฉด์๋ ํ์ต ์๋๋ ๋ ๋น ๋ฅธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ํนํ ์ ๊ฒฝ๋ง ์์ด๋ TRPO๋ก ํ๋ จํ ์ ํ/RBF ์ ์ฑ ์ด ์ผ๋ถ ๊ณผ์ ์์๋ ๋์ ๋ณด์์ ์ป์์ผ๋ฉฐ, ํ์ต ์๊ฐ๋ ๋จ์ถ๋์์ต๋๋ค. ํ์ง๋ง ๋จ์ ์ ์ฑ ์ ํ๊ฒฝ ๋ณํ๋ ๊ต๋์ ์ทจ์ฝํ ์ ์์ด, ์ฐ๊ตฌ์์๋ ์ด๊ธฐ ์ํ ๋ถํฌ๋ฅผ ๋ค์ํํ๋ ๊ธฐ๋ฒ(๋๋ฉ์ธ ๋๋คํ์ ์ ์ฌ)์ ์จ์ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ์ ๋์์ต๋๋ค. ์ด๋ ๊ฒ ํ์ตํ๋ฉด ์์๋ธ ๋ชจ๋ธ์ด๋ ๋๋ฉ์ธ ๋๋คํ์ฒ๋ผ ์ ์ฑ ์ด ๋ค์ํ ์ํฉ์ ๋ ธ์ถ๋๋ฏ๋ก, ํจ์ฌ ์์ ์ ์ธ ์ ์ฑ ์ด ๋์จ๋ค๊ณ ํฉ๋๋ค.
์ด ์ ๊ทผ์ ์ฅ์ ์ ๋ชจ๋ธ ๋จ์ํ๋ก ์ธํ ํ์ต ์์ ์ฑ๊ณผ ์๋ ํฅ์์ ๋๋ค. ๋ณต์กํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋์ ์ ํ ๋๋ RBF ๊ธฐ๋ฐ ์ ์ฑ ์ ์ฐ๋ฉด ์๋ ด์ด ๋น ๋ฅด๊ณ ์ดํด๋ ์ฝ์ต๋๋ค. ๊ทธ๋ฌ๋ ๋จ์ ๋ ๋ถ๋ช ํฉ๋๋ค. ์ฐ์ ๊ณ ์ฐจ์ ์ํยทํ๋ ๊ณต๊ฐ์ผ๋ก ํ์ฅํ๋ฉด ๋จ์ ์ ์ฑ ์ผ๋ก๋ ์ถฉ๋ถํ ํํ๋ ฅ์ ์ป๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๋ํ ์ด๊ธฐ ์ํ ๋ถํฌ์ ๋ฏผ๊ฐํ์ฌ, ํ์ต ์ ๋ค์ํ ์ํฉ์ ์ถฉ๋ถํ ๊ฒช์ง ์์ผ๋ฉด ์ค์ ์์ ์ฑ๋ฅ ์ ํ๊ฐ ์๊ธธ ์ ์์ต๋๋ค. ๋ณต์กํ ํ๋์ด ํ์ํ ๊ณผ์ ์์๋ ์ ๊ฒฝ๋ง ์ ์ฑ ๋งํผ ์ฌ์ธํ ๋์์ด ์ด๋ ค์ ์ฑ๋ฅ ํ๊ณ์ ๋ถ๋ชํ ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค. ๊ฒฐ๊ตญ ์ด ์ฐ๊ตฌ๋ โ๊ฐ๋ฅํ ํ ์ ์ฑ ์ ๋จ์ํํ๋, ํ๊ฒฝ์ ๋ค์์ฑ์ ์ฃผ์ด ๋ณด์ํ๋คโ๋ ์ฒ ํ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ด๋ ๋ณด์ ์ค๊ณ ์ธก๋ฉด์์ ๋ณผ ๋ ๋จ์ ์ ์ฑ + ํน๋ณํ ๋ณด์ ๊ตฌ์ฑ(๋๋คํ) ์กฐํฉ์ ํตํด ํ์ต์ ์์ ํํ๋ ํ๋์ ์ ๋ต์ด๋ผ ํ ์ ์์ต๋๋ค.
์ญ๋ณด์ ์ค๊ณ (Inverse Reward Design, IRD)
์ญ๋ณด์ ์ค๊ณ(IRD)๋ ์ง์ ๋ณด์ ํจ์๋ฅผ ๊ณตํ์ ์ผ๋ก ์ค๊ณํ๋ ๋์ , ์์ด์ ํธ์ ์์ฐ์ด๋ ํ๋์ ๊ด์ฐฐํ์ฌ ๋ณด์ ํจ์(๋ชฉ์ )๋ฅผ ์ญ์ถ์ ํ๋ ์ ๊ทผ์ ๋๋ค. ์ด๋ ๊ฐํํ์ต์ ์ญ๋ฌธ์ ์ ํด๋นํ๋ ๊ฐ๋ ์ผ๋ก, ์ผ์ข ์ ์ญ๊ฐํํ์ต(IRL) ๊ธฐ๋ฒ์ด๋ผ ๋ณผ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ธ RL์์๋ ์์ด์ ํธ๊ฐ ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ๋ฉด ๋ฏธ๋ฆฌ ์ ์๋ ๋ณด์ ํจ์ R(s,a)์ ๋ฐ๋ผ ๋ณด์์ ๋ฐ์ต๋๋ค. IRL์์๋ ๋ฐ๋๋ก ์ ๋ฌธ๊ฐ์ ์ํ-ํ๋ ๊ถค์ ์ด ์ฃผ์ด์ก์ ๋, ์ด๋ค ๋ณด์ ํจ์๋ฅผ ๊ฐ์ ํ๋ฉด ๊ทธ ํ๋์ด ์ต์ ํ๋ ์ง๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค. IRD๋ ์ด IRL์ ์์ด๋์ด๋ฅผ ๋ณด์ ์ค๊ณ์ ์์ฉํ ๊ฒ์ผ๋ก, ๊ธฐ์กด์ ์ธ๊ฐ์ด ์ค๊ณํ ๋ณด์ ํจ์(ํ๋ฝ์ ๋ณด์)๋ฅผ ๊ด์ฐฐ ๊ฐ๋ฅํ ์ ํธ๋ก ๋ณด๊ณ ์ง์ง ์๋ํ ๋ณด์ ํจ์๋ฅผ ์ถ์ ํ๋ ค ํฉ๋๋ค.
Hadfield-Menell ๋ฑ์ ์ฐ๊ตฌ์์ ์ ์๋ IRD ๋ฐฉ๋ฒ์, ์ค๊ณ์๊ฐ ์ ํ ๋ณด์ ํจ์๋ฅผ ์ ๋ฌธ๊ฐ์ ํ๋์ ์ผ๊ธฐํ ์ ํธ๋ก ์ทจ๊ธํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ด์ ํธ์๊ฒ๋ โ์ด ๋ณด์์ ์ฌ์ค ์๋ฒฝํ์ง ์์ ์ ์์ผ๋, ์ํํ ํ๋์ ํผํ๋๋ก ๋ณด์ ํจ์๋ฅผ ์ฌํด์ํ๋ผโ๋ ์์ผ๋ก ํ์ต์ํต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด์ด ์ฉ์ ์ง๋๊ฐ ์๋ ํ๊ฒฝ์์ ์ด๋ํ๋ค๊ณ ํ ๋, ์ค๊ณ์๋ โ๋ชฉ์ ์ง์ ๊ฐ๋ฉด +100โ์ด๋ผ๋ ๋ณด์๋ง ์ฃผ์์ ์ ์์ต๋๋ค. ์ด ๊ฒฝ์ฐ ๋ก๋ด์ ์ฉ์์ ๊ฐ๋ก์ง๋ฌ ๋น ๋ฅด๊ฒ ๊ฐ๋ ค๋ค๊ฐ ํ๊ดด๋ ์ํ์ด ์์ต๋๋ค. IRD๋ฅผ ์ ์ฉํ๋ฉด ๋ก๋ด์ ์ฃผ์ด์ง ๋ณด์(๋ชฉ์ ์ง ๋๋ฌ)์ด ์ง์ง ๋ชฉํ์ ์์ ํ ํํ์ด ์๋๋ผ๊ณ ๊ฐ์ฃผํ๊ณ , ์ ๋ฌธ๊ฐ(์ธ๊ฐ)๊ฐ ๊ทธ๋ฐ ์ํฉ์์ ์ด๋ป๊ฒ ํ๋ํ๋์ง๋ฅผ ๋ฐํ์ผ๋ก ์๋ฌต์ ์ธ ์ํ ํํผ ๋ณด์์ ์ถ๋ก ํฉ๋๋ค. ์ค์ IRD ์คํ์์, ๋ก๋ด์ ์ฉ์ ์ง์ญ์ ํํผํ๋ ๊ฒฝ๋ก๋ฅผ ์ ํํ์ฌ ๋ชฉํ๋ฅผ ๋ฌ์ฑํจ์ผ๋ก์จ, ์ฃผ์ด์ง ๋ณด์์ ๊ทธ๋๋ก ์ต์ ํํ์ ๋ ๋ฐ์ํ๋ ์ํ ํ๋์ ํผํ์ต๋๋ค. ์ด๋ IRD๊ฐ ๋ณด์ ์ค๊ณ์๊ฐ ๋ฏธ์ฒ ๊ณ ๋ คํ์ง ๋ชปํ ์ ์ฌ์ ์ํ ์์๋ฅผ ์์ด์ ํธ ์ค์ค๋ก ์ธ์งํ๊ฒ ๋ง๋ค ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ๋ ํ๋ IRD์ ํจ๊ณผ๋ ๋ณด์ ์กฐ์(reward manipulation) ๋ฌธ์ ๋ฅผ ์ค์ด๋ ๊ฒ์ ๋๋ค. ์์ด์ ํธ๊ฐ ๋ณด์ ํจ์๋ฅผ ์ ๋์ ์ธ ๋ชฉํ๋ก ๋ฐ์๋ค์ด์ง ์๊ณ , ๊ทธ๊ฒ์ ๋ฐ์์ํจ ์๋๋ฅผ ์ถ๋ก ํ๊ธฐ ๋๋ฌธ์, ๋ณด์๋ง ๋์ด๊ณ ์ค์ ๋ชฉํ๋ ์ฑ์ทจํ์ง ๋ชปํ๋ ํ๋(๋ณด์ ํดํน)์ ์ต์ ํ ์ ์์ต๋๋ค.
IRD์ ํ๊ณ๋ก๋ ๊ณ์ฐ์ ๋ณต์ก์ฑ๊ณผ ๊ฐ์ ์ ๋จ์ํจ์ด ์์ต๋๋ค. IRD๋ ๊ฒฐ๊ตญ IRL ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ด๋ฏ๋ก ์ถ๋ก ๋จ๊ณ์์ ๋ณต์กํ ์ต์ ํ๊ฐ ํ์ํ๊ณ , ํ๊ฒฝ์ ๋ํ ๋จ์ํ ๊ฐ์ ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์์ปจ๋ ๋ณด์ ํจ์๊ฐ ์ ํ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค๊ณ ๊ฐ์ ํ๊ฑฐ๋, ํ๊ฒฝ ๋ชจ๋ธ์ด ์๋ ค์ ธ ์๋ค๊ณ ๊ฐ์ ํ๋ ๋ฑ์ ๋๋ค. ํ์ค์ ๋ณต์กํ ์ํฉ์์๋ ์ด๋ฌํ ๊ฐ์ ์ด ์ด๊ธ๋ IRD๊ฐ ์๋ฑํ ๋ณด์์ ์ถ๋ก ํ ์ํ๋ ์์ต๋๋ค. ๋ฐ๋ผ์ IRD๋ฅผ ์ ์ฉํ ๋ ํ๊ฒฝ๊ณผ ๋ณด์์ ๋ํ ์ ์ ํ ๋ชจ๋ธ๋ง์ด ํ์ํ๋ฉฐ, ์๋ชป๋ ์ถ๋ก ์ ๋ง๊ธฐ ์ํ ์์ ์ฅ์น๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๊ทธ๋ผ์๋ IRD๋ ๋ณด์ ์ค๊ณ์ ์๋ก์ด ํจ๋ฌ๋ค์์ผ๋ก, ์์ด์ ํธ๊ฐ ๋์์ด๋์ ์๋๋ฅผ ์ญ์ผ๋ก ์๊ฐํ๊ฒ ํจ์ผ๋ก์จ ๋ณด์์ ๋ถ์์ ์ฑ์ ๋์ํ๋ค๋ ์์๋ฅผ ๊ฐ์ง๋๋ค.
๋ณด์ ์งํ ๋จ์ถ (Reward Horizon Shaping)
๋ณด์ ์งํ(horizon)์ด๋ ์์ด์ ํธ๊ฐ ํ์ฌ ํ๋์ ๊ฒฐ๊ณผ๋ก ๋ณด์์ ๋ฐ๊ธฐ๊น์ง ๊ฑธ๋ฆฌ๋ ๋จ๊ณ ์๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ง์ฝ ์ต์ข ๋ณด์๊น์ง ๊ฑฐ์ณ์ผ ํ ๋จ๊ณ๊ฐ ๋๋ฌด ๋ง์ผ๋ฉด, ์์ด์ ํธ๋ ์ด๋ค ํ๋์ด ๊ธฐ์ฌํ๋์ง๋ฅผ ์๊ธฐ ์ด๋ ค์ ํ์ต์ด ์ด๋ ค์์ง๋๋ค. Reward Shaping์ ์ด๋ฌํ ๋ณด์ ์งํ์ ์ค์ฌ์ฃผ๋ ์ญํ ๋ ํฉ๋๋ค. ์ฆ, ์ค๊ฐ ๋จ๊ณ๋ง๋ค ์ ์ ํ ๋ณด์์ ์ฃผ์ด ์ฅ๊ธฐ ๋ชฉํ๋ฅผ ์ฌ๋ฌ ๊ฐ์ ๋จ๊ธฐ ๋ชฉํ๋ก ๋ถํดํ๋ ๊ฒ์ ๋๋ค.
ํ ์ฐ๊ตฌ์์๋ Reward Shaping์ ํตํด ํ์ต ์๊ฐ์ ๋ํ ์ด๋ก ์ ๋ณด์ฅ์ ์ ๊ณตํ๊ธฐ๋ ํ์ต๋๋ค. ํด๋น ์ฐ๊ตฌ์ ์๊ณ ๋ฆฌ์ฆ (Horizon_Learn ์๊ณ ๋ฆฌ์ฆ)์ ๋ณด์ ์งํ์ H๋ก ์ ํํ ํ๊ฒฝ์์ ์์ด์ ํธ๊ฐ ํ์ตํ ๋, ํ์ต ์๊ฐ์ด MDP์ ์ ์ฒด ์ํ ์์ ๊ด๊ณ์์ด ์๊ณ ์์ญ(critical region)์ ํฌ๊ธฐ์ ๋คํญ์(poly)์ผ๋ก ๋น๋กํจ์ ์ฆ๋ช ํ์ต๋๋ค. ์ด๋ Reward Shaping์ ์ ํ๋ฉด, ์์ด์ ํธ๋ ์ปค๋ค๋ ์ํ๊ณต๊ฐ์ ์ ๋ถ ํ์ํ์ง ์๊ณ ์๋ ์ค์ํ ๋ถ๋ถ๋ง ๋ฐฐ์๋ ๋๋ค๋ ์๋ฏธ์ ๋๋ค. ์ง๊ด์ ์ผ๋ก, ์ค๊ฐ ๋ชฉํ์ ๋ณด์์ ์ฃผ๋ฉด ์์ด์ ํธ๋ ๋ฐฉ๋ํ ์ํ ๊ณต๊ฐ ์ค์์ ํ์ํ ๊ฒฝ๋ก๋ง ์ง์คํ๊ฒ ๋๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ต ํจ์จ์ด ๋น์ฝ์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฏธ๋ก ์ฐพ๊ธฐ์์ ์ต์ข ์ถ๊ตฌ์๋ง ๋ณด์ ์ฃผ๋ ๋์ , ์ค๊ฐ ์ฒดํฌํฌ์ธํธ ๋ช ๊ตฐ๋ฐ์๋ ๋ณด์์ ์ฃผ๋ฉด ์์ด์ ํธ๋ ์ธ๋ฐ์๋ ๊ฒฝ๋ก๋ฅผ ์ ๊ฒ ํ์ํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฐ ๊ฐ๋ ์ ๊ณต์ํํ ์๊ณ ๋ฆฌ์ฆ์์๋ ์์ด์ ํธ๊ฐ ์์ง ๋ชจ๋ฅด๋ ์ํ๋ก ์ง์ ํ๋ฉด ์์ ์ ์ฑ ์ผ๋ก ํํํ๋, ์ด๋ฏธ ์๋ค๊ณ ํ์ ๋ ๊ตฌ๊ฐ์ ์ต์ ์ ์ฑ ์ ๋ฐ๋ฅด๋ ์์ผ๋ก ์งํํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ก์ด ์ํ๋ฅผ ์๊ฒ ๋ ๋๋ง๋ค ๊ทธ ๊ตฌ๊ฐ์ ์ต์ ์ ์ฑ ์ ์ ์ฌ์ ๋ณด์์ผ๋ก ๊ฐํํด์ค๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์์ด์ ํธ๋ MDP ์ ์ฒด๋ฅผ ํ์ํ ํ์ ์์ด ์ค์ํ ๊ตฌ๊ฐ๋ง ํํํด๋ ์ถฉ๋ถํ ์ต์ ์ ์ฑ ์ ๋๋ฌํ๊ณ , ํ์ต ์๊ฐ์ ์ ์ฒด ์ํ ์๊ฐ ์ปค์ ธ๋ ํฌ๊ฒ ์ ํ๋์ง ์์ต๋๋ค. ์ด๋ฌํ ์ด๋ก ์ Reward Shaping์ด ์ผ๋ง๋ ํ์ต ๋ฌธ์ ๋ฅผ ๋จ์ํํ ์ ์๋์ง ๋ณด์ฌ์ฃผ๋ ํ ์์ด๋ฉฐ, ์ค์ ๋ฌธ์ ์๋ ์ ์ ํ ํ์(reward shaping)์ ํตํด ํจ๊ณผ์ ์ธ ํ์ต์ ๊ธฐ๋ํ ์ ์์์ ์์ฌํฉ๋๋ค.
๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก, ๋ณด์ ์งํ ๋จ์ถ์ ์ฐ๋ฆฌ๊ฐ ์ง๊ด์ ์ผ๋ก ํํ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋จผ ํ๋ ๋ฐ์ ๋ณด์๋ณด๋ค๋ ๊ฐ๊น์ด ์์ ์ ์ฑ๊ณผ์ ๋ณด์์ ์ฃผ๋ฉด, ์์ด์ ํธ๋ ๋ชฉํ๊น์ง ๊ฐ๋ ์ฌ์ ์์ ํค๋งค๋ ์ผ์ด ์ค์ด๋ญ๋๋ค. ๋ค๋ง ์ฃผ์ํ ์ ์ ์ต์ ์ ์ฑ ์ ๋ถ๋ณ์ฑ์ ๋๋ค. Reward Shaping์ ์ด๋๊น์ง๋ ์ต์ข ์ต์ ํด(optimal policy)๋ฅผ ๋ฐ๊พธ์ง ์๋ ๋ฒ์์์ ์ด๋ฃจ์ด์ ธ์ผ ํฉ๋๋ค. ๋๋ฌด ๊ฐํ ์ค๊ฐ ๋ณด์์ ์ฃผ๋ฉด ์์ด์ ํธ๊ฐ ์ ์ด ๋ชฉํ๋ฅผ ๋ง๊ฐํ๊ณ ์ค๊ฐ ๋ชฉํ์ ์ง์ฐฉํด๋ฒ๋ฆด ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๋ ๋ํ์ ์ธ ์ด๋ก ์ ๋๊ตฌ๊ฐ ์ ์ฌ ๊ธฐ๋ฐ Reward Shaping(potential-based shaping)์ผ๋ก, ์๋์์ ์์ธํ ์ค๋ช ํฉ๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Potential-Based Reward Shaping)

๊ฐํํ์ต์ ์ธ์ฌ์ ๋ณด์๊ณผ ๋ด์ฌ์ ๋ณด์ ๊ฐ๋ . ์ข: ์์ด์ ํธ๋ ํ๊ฒฝ์ผ๋ก๋ถํฐ ๋ณด์์ ๋ฐ๋๋ค. ์ฐ: ์์ด์ ํธ ๋ด๋ถ์ โ๋ด๋ถ ํ๊ฒฝโ ๋๋ ๋น์ ์ ์ผ๋ก ์๋ฌผ์ฒด์ ๊ฐ์ ๋ชจ๋์ด ์์ด, ์ฌ๊ธฐ์ ๋ด์ฌ์ ๋ณด์์ด ๋ฐ์ํ์ฌ ํจ๊ป ํ์ฉ๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ Reward Shaping์ ์ด๋ก ์ ์ผ๋ก ๊ฐ์ฅ ์ ์ ๋ฆฝ๋ Reward Shaping ๊ธฐ๋ฒ ์ค ํ๋๋ก, Ng ๋ฑ์ ๊ณ ์ ์ ์ธ ์ฐ๊ตฌ์์ ์ฒ์ ์ ์๋์์ต๋๋ค. ์ ์ฌ ํจ์ \Phi(s)๋ ์ํ s์ ๋ํด ์ ์๋๋ ์ค์ ๊ฐ ํจ์๋ก, ํ์ฌ ์ํ์ ๋ค์ ์ํ์ ์ ์ฌ๊ฐ ์ฐจ์ด๋ฅผ ์ถ๊ฐ ๋ณด์์ผ๋ก ์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด shaped ๋ณด์ R'(s,a,s') = R(s,a) + \gamma \Phi(s') - \Phi(s) ๋ก, ์ฌ๊ธฐ์ \gamma๋ ํ ์ธ์จ์ ๋๋ค. ์ด ๋ฐฉ์์ผ๋ก ๋ณด์์ ๋ณ๊ฒฝํ๋ฉด ์ ์ฌ ํจ์์ ๊ทธ๋ผ๋์ธํธ ๋ถ๋ถ์ด ์ผ์ข ์ ๊ฐ์ด๋ ์ญํ ์ ํ์ง๋ง, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ต์ ์ ์ฑ ์ ๋ณํ์ง ์๋๋ค๋ ์ ์ฑ ๋ถ๋ณ์ฑ ์ด๋ก ์ด ์ฆ๋ช ๋์์ต๋๋ค. ๋ฐ๋ผ์ ์ ์ฌ ๊ธฐ๋ฐ shaping์ ์ด๋ก ์ ์ผ๋ก ์์ ํ๊ฒ ๋ณด์์ ์ถ๊ฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ง๊ด์ ์ธ ์ดํด๋ฅผ ์ํด, \Phi(s)๋ฅผ ํด๋ฆฌ์คํฑ ํจ์๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฏธ๋ก ๋ฌธ์ ์์ \Phi(s)๋ฅผ ํ์ฌ ์ํ์์ ๋ชฉํ๊น์ง์ ์์ ๊ฑฐ๋ฆฌ์ ์์๋ก ์ค์ ํ๋ฉด, ์์ด์ ํธ๋ ํ ๊ฑธ์ ์์ง์ฌ ๋ชฉํ์ ๊ฐ๊น์์ง ๋๋ง๋ค ์ ์ฌ๊ฐ ์ฐจ์ด๋งํผ ๋ณด์์ ์ป๊ฒ ๋ฉ๋๋ค. ์ด ๋ณด๋์ค๋ ์ต์ข ๋ชฉํ ๋๋ฌ์ด๋ผ๋ ๋ณธ๋ ๋ณด์๊ณผ ๋ฐฉํฅ์ ์ผ์นํ์ง๋ง, ์ค๊ฐ ๋จ๊ณ์์ ๋ฐฉํฅ์ฑ์ ์ ์ํด์ฃผ๋ฏ๋ก ํ์์ ์ ๋ํฉ๋๋ค. ์ค์ ๋ก ๋ก๋ด ํ ์์ ์์๋, ๋ชฉํ๋ฌผ๊ณผ์ ์์ ๊ฑฐ๋ฆฌ ์ ์ฌํจ์๋ฅผ ์ฐ๋ฉด ๋ก๋ด์ด ๋ชฉํ๋ฌผ์ ์ผ๋จ ๊ฐ๊น์ด ๊ฐ๋ ค๊ณ ๋ ธ๋ ฅํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
์ด ๋ฆฌ๋ทฐ ๋ ผ๋ฌธ์์๋ ๋ค์ํ ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ฐ์ ํ๋ค์ ์๊ฐํฉ๋๋ค. ์ฐ์ ๊ธฐ๋ณธ ๊ฐ๋ ์ผ๋ก, ์ ์ฌ ๊ธฐ๋ฐ shaping์ ์ํผ์๋ ์ ์ฒด ๋ณด์์ ๋ถ์ํด ๋์ ๋ณด์์ ๊ฐํํ๊ฑฐ๋ ๋ฒ์ ์ ์ฃผ๋ ํํ๋ก๋ ์ฐ์ผ ์ ์์ต๋๋ค. ํ ์ฐ๊ตฌ์์๋ ๊ฒ์ ํ๊ฒฝ์์ ์ํผ์๋ ๋น ๋ฐ์ ์ด ๋ณด์์ ์ถ์ ํ์ฌ, ํ์ฌ ์ํผ์๋ ์ฑ๊ณผ๊ฐ ์ต์ ์น๋ณด๋ค ๋์ผ๋ฉด ๋ณด์ ์ฆ๊ฐ, ์ต๊ณ ์น์ ๊ฐ๊น์์ง๋ฉด ๊ฐํํ๋ ๋์ ์ ์ฌ ํจ์๋ฅผ ์ ์ํ์ต๋๋ค. ์์ปจ๋ ์ (13)์์, F_{\text{min}}, F_{\text{max}}๋ ์ง๊ธ๊น์ง ๋ฌ์ฑํ ์ต์ /์ต๊ณ ์ํผ์๋ ์ ์์ธ๋ฐ, ํ ์ํผ์๋ ๋ณด์์ด ๊ณผ๊ฑฐ ์ต๊ณ ์น์ ๊ฐ๊น์์ง์๋ก ์ถ๊ฐ ๋ณด์์ ์ค์ผ๋ก์จ ๊ธ์ ์ ํ๋์ ๊ฐํํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ Pong, Breakout ๊ฒ์์์ ํ์ต ์๋๋ฅผ ๋์ด๊ณ ์ฌ๋ฌ ๊ณผ์ ๋ฅผ ๋์์ ํ์ตํ ๋๋ ์ฑ๋ฅ์ ๋์ฌ์ค ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์์ต๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ฉํฐ์์ด์ ํธ ์์คํ (MAS)์๋ ์ ์ฉ๋์ด ์ด๋ก ์ ์ฑ์ง์ด ์ฐ๊ตฌ๋์์ต๋๋ค. ์ ์ฌ ๋ณด์์ ๋ค์ค ์์ด์ ํธ ์ํฉ์ ๋์ ํ๋ฉด, ๋ณธ๋ MDP๊ฐ ์๋๋ผ ์คํ ์บ์คํฑ ๊ฒ์(stochastic game)์ด ๋๋๋ฐ, ์ด๋๋ ๋ชจ๋ ์์ด์ ํธ์ ๊ฐ์ ์ ์ฌ ๋ณด์ํจ์๋ฅผ ์ ์ฉํ๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก Qํจ์ ์ด๊ธฐํ๋ฅผ ์กฐ์ ํ ๊ฒ๊ณผ ๋์ผํ๋ฉฐ, ๊ฒ์์ ๋ด์ ๊ท ํ(Nash equilibrium)์ ๋ฐ๊พธ์ง ์๋๋ค๋ ๊ฒ์ด ์ฆ๋ช ๋์์ต๋๋ค. ์ด๋ ๋ฉํฐ์์ด์ ํธ์์๋ ์ ์ฑ ๋ถ๋ณ์ฑ์ด ์ ์ง๋จ์ ๋ณด์ฅํด์ฃผ๋ ์ค์ํ ์ด๋ก ์ ๋๋ค. ๋ค๋ง ์ ์ฌ ๋ณด์์ ์ฃผ๋ฉด ํ์ ๊ฒฝ๋ก๊ฐ ๋ฌ๋ผ์ง ์ ์์ด, ๋์ผํ ๊ท ํ์ ์ด๋ผ๋ ๋ค๋ฅธ ๊ฒฝ๋ก๋ก ๋๋ฌํ๊ฑฐ๋ ์๋ก์ด joint policy์ ์๋ ดํ ์ ์์์ด ๋ณด๊ณ ๋์์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ ์ ํ ์ ์ฌ ๋ณด์์ ์ฃผ์์ ๋ ์์ด์ ํธ๋ค์ด ๋ ๋์ ๊ธ๋ก๋ฒ ํจ์ฉ์ ๋ด๋ ๊ท ํ์ ๋๋ฌํ ํ๋ฅ ์ด ๋์์ง๊ณ , ์๋ ด ์๊ฐ์ ์ค์ด๋๋ ๊ฒฝํฅ์ด ๊ด์ฐฐ๋์์ต๋๋ค. ์ด๋ ๋ฉํฐ์์ด์ ํธ์์๋ ์ ์ฌ ๊ธฐ๋ฐ shaping์ด ํ์์ ๊ฑด์ ํ๊ฒ ์ ๋ํ์ฌ ๋ณด๋ค ์ข์ ํ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ๋์ด๋ผ ์ ์์์ ์์ฌํฉ๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ shaping์ ๊ณ์ธตํ ๊ฐํํ์ต(HRL)์๋ ํ์ฉ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด PBRS-MAXQ-0๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์, ๊ธฐ์กด HRL ์๊ณ ๋ฆฌ์ฆ์ธ MAXQ์ ์ ์ฌ ๋ณด์(PBRS)์ ํตํฉํ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ณ์ธต ํ์ต์์๋ ์์ ๋ชฉํ์ ํ์ ๋ชฉํ๋ก ๋ฌธ์ ๊ฐ ๋๋๋๋ฐ, ์ฌ๊ธฐ์ ์ ์ฌ ๋ณด์์ ์ถ๊ฐํ์ฌ ์๋ธํ์คํฌ ๊ฐ ์ฐ๊ณ๋ฅผ ๋ถ๋๋ฝ๊ฒ ๋ง๋ค์์ต๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ถ ์ด๋ก ์กฐ๊ฑด ํ์์ ์ถ๊ฐ ๋ณด์์ด ์์ด๋ ์๋ ด ๋ณด์ฅ์ ์ ๊ณตํ๋ฉฐ, ์คํ์ ์ผ๋ก๋ ์ ์ ํ ํด๋ฆฌ์คํฑ(์ ์ฌํจ์)์ ๋ฃ์ผ๋ฉด ํ์ค MAXQ-0๋ณด๋ค ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง๊ณ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ์ฌ์ง์ด ํด๋ฆฌ์คํฑ์ด ์๋ชป๋์ด (misleading heuristic) ์์ด์ ํธ๋ฅผ ์ค๋ํ๋๋ผ๋ ์ต์ข ์ ์ผ๋ก๋ ํ์ค ์๊ณ ๋ฆฌ์ฆ ์์ค์ ์ฑ๋ฅ๊น์ง ๋ฐ๋ผ์จ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ PBRS-MAXQ-0์ด ์ด๋ ์ ๋ ์๋ชป๋ ์ ์ฌ ๋ณด์์๋ ๊ฐ์ธํ์ฌ, ๊ฒฐ๊ตญ ์ถฉ๋ถํ ํ์ต ์๊ฐ์ ์ฃผ๋ฉด ๊ทน๋ณตํ๋ค๋ ์๋ฏธ์ ๋๋ค. ๋ฌผ๋ก ํ์ค์ ์ผ๋ก๋ ์๋ชป๋ ์ ์ฌ ๋ณด์์ ์ฐ๋ฉด ์ค๊ฐ ํ์ต ๊ณผ์ ์์ ์๊ฐ ๋ญ๋น๊ฐ ๋ฐ์ํ๋ฏ๋ก, ํด๋ฆฌ์คํฑ์ ํ์ง์ ๋์ด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. PBRS-MAXQ-0์ ๊ณผ์ ๋ก๋ ํด๋ฆฌ์คํฑ ๊ฐ์ ์ด๋ป๊ฒ ์ต์ ํํ ๊ฒ์ธ์ง์, ๋ค์ํ ํ๊ฒฝ์์ ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ ๋ด๋์ง ๋ฑ์ด ๊ผฝํ๋๋ค.
Potential-Based Advice๋ผ๋ ์ด๋ก ํ๋ ์์ํฌ๋ ์๊ฐ๋์๋๋ฐ, ์ด๋ ์์์ ๋ณต์กํ ๋ณด์ ํจ์๋ ์ ์ฌ ํจ์์ ํํ๋ก ์์ด์ ํธ์๊ฒ ์ฃผ์ ํ ์ ์๋ค๋ ๊ฐ๋ ์ ๋๋ค. ์ฆ, ํ๊ฒฝ์ด ์ฃผ๋ ๋ณธ๋ ๋ณด์์ ๋ฐ๊พธ์ง ์๋๋ผ๋, ์ถ๊ฐ๋ก ์ค๊ณ์๊ฐ ์ํ๋ ์์์ ๋ณด์ ํจ์๋ฅผ ์ ์ฌ์ ์ถ๊ฐ ๋ณด์์ผ๋ก ์ ๊ณตํ์ฌ ์ ์ฑ ์๋ ์ํฅ ์ฃผ์ง ์์ผ๋ฉด์ ํ์ต์ ๊ฐ์ํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ณด์กฐ ๊ฐ์นํจ์(auxiliary value function)๋ฅผ ํ์ตํ์ฌ, ์ถ๊ฐ ๋ณด์์ด ๋ง์น ์ ์ฌ ๋ณด์์ฒ๋ผ ๊ธฐ๋ฅํ๋๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ค๊ณ์๊ฐ ๊ฐ์ง ๋๋ฉ์ธ ์ง์์ ํ๋ ๊ฐํ๋ฅผ ์ํด ๋ น์ฌ๋ผ ์ ์๊ณ , ์ด๋ก ์ ์ผ๋ก ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ๋ณต์ก๋๋ ์ ํ์ผ๋ก๋ง ์ฆ๊ฐํ์ฌ ํฐ ๋ถ๋ด ์์ด ๊ตฌํ ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ๋ค๋ง ํ์ฌ๊น์ง๋ ์ด ๊ฐ๋ ์ด ์ฃผ๋ก ์ด๋ก ์ ์ ์ํ๋ก ๋จธ๋ฌผ๋ฌ ์๊ณ , ์ด๋ฅผ ์ค์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ตฌํํ ์๋ ๋ง์ง ์์ต๋๋ค. ์ ์๋ค์ ์ฌ๋ฌ Reward Shaping ์ ๊ทผ๋ฒ์ ์ด๋ ค์์ ๋น๊ตํ๋๋ฐ, ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๋ณด์ฅ์ ์์ง๋ง ํจ๊ณผ์ ์ ์ฉ์ ์ํด ๋๋ฉ์ธ ์ง์์ด ๋ง์ด ํ์ํ๊ณ , ๋ณด์กฐ ๊ณผ์ (auxiliary task) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ฐํ์ง๋ง ์ค๊ณ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํ๋ฉฐ, ๋ด์ฌ์ ๋๊ธฐ ๋ถ์ฌ ๋ฐฉ๋ฒ์ ํ๋ผ๋ฏธํฐ ํ๋์ ๋ฏผ๊ฐํ๋ค๊ณ ์ง์ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ค์ฉ์ ์ธ ๊ด์ ์์๋ ์ด๋ก ๊ณผ ํ์ค์ ๊ท ํ์ ๋ง์ถฐ, ๋ฌธ์ ์ ๊ฐ์ฅ ์ ํฉํ shaping ์ ๊ทผ์ ํํ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์ต๋๋ค. ํฅํ์๋ ์ด๋ฌํ Reward Shaping ๊ธฐ๋ฒ๋ค์ ๋ณด๋ค ์๋ํํ๊ณ ๊ฐ์ธํ๊ฒ ๋ง๋๋ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค๊ณ ์ ์ธํฉ๋๋ค.
์ ์ฌ ๊ธฐ๋ฐ shaping์ ์ํผ์๋ํ ๊ฐํํ์ต(episodic RL) ๋งฅ๋ฝ์์๋ ์ฌ๊ฒํ ๋์์ต๋๋ค. ํ ์ฐ๊ตฌ๋ ์ํผ์๋ ์ดยท๋ง์ ์ ์ฌ๊ฐ์ด ๊ท ํ์ ๋ฏธ์น๋ ์ํฅ ๋ฑ์ ๋ถ์ํ์ฌ, ์ ์ฌ ๋ณด์์ด ์คํ ์บ์คํฑ ๊ฒ์์ ๊ท ํ์ ๋ณ๊ฒฝํ๊ฑฐ๋ ์๋ก์ด ๊ท ํ์ ๋์ ํ ์ ์์์ ์ด๋ก ์ ์ผ๋ก ๋ณด์์ต๋๋ค. ํนํ ๋น-์ ๋ก(non-zero) ํฐ๋ฏธ๋ ์ ์ฌ๊ฐ์ ์๋ก์ด ๊ท ํ์ ๋ง๋ค ์ ์์ด ์ฃผ์ํด์ผ ํจ์ ์ง์ ํ์ต๋๋ค. ๋ํ PAC-MDP ๊ด์ ์์ ์ ์ฌ ๋ณด์์ด ํํ์ ์ด์งํจ์ ์ฆ๋ช ํ์ฌ, ์ํผ์๋ ์์ยท์ข ๋ฃ ์ํ๊ฐ ๊ตฌ๋ถ๋๋ ๊ฒฝ์ฐ์๋ ์ ์ฌ ๊ธฐ๋ฐ shaping์ด ์ ์ฉํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ฝํ๋ฉด, ์ ์ฌ ํจ์๋ ์ํผ์๋ ๊ธฐ๋ฐ ๋ฌธ์ ์์๋ ํ์ต ํจ์จ ํฅ์์ ๊ธฐ์ฌํ์ง๋ง, ์ด๋ก ์ ์ผ๋ก ์ค๊ณํ ๋ ๊ฐ๋ณํ ์ ๊ฒฝ์ ์จ์ผ ํ ์์๋ค์ด ์์์ ์์ฌํฉ๋๋ค.
๋ํ ์์ ์ ์ฝ์ด ์๋ ๊ฐํํ์ต์๋ ์ ์ฌ ๋ณด์ ๊ฐ๋ ์ด ํ์ฉ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ ผ๋ฆฌ ๊ฒ์ฆ๋ ํ์ด๋ธ๋ฆฌ๋ ์์คํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ ์์ฑ์ ๋ง์กฑํ๋ ๋ณด์ ํจ์๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. ์ด ์ ๊ทผ์์๋ ์ ์ฌ ๊ธฐ๋ฐ ๋ณด์ ํจ์๋ฅผ ๋ ผ๋ฆฌ ์ ์ฝ๊ณผ ํจ๊ป ์ฌ์ฉํ์ฌ, ์ ์ฝ์ ์ด๊ธฐ์ง ์์ผ๋ฉด์ ์์ด์ ํธ๊ฐ ํ์ตํ๋๋ก ํ์ต๋๋ค. ์ค์ ์ฐจ๋ ์ข ๋ฐฉํฅ ์ ์ด ํ๊ฒฝ์์, ๋ ผ๋ฆฌ ์ ์ฝ ๊ธฐ๋ฐ ์ ์ฌ ๋ณด์(PBRF)์ ์ฌ์ฉํ๋ ํ์ต ์ด๊ธฐ ์๋ ด ์๋๊ฐ ๋นจ๋ผ์ก๊ณ , ์์ ํ ๋์์ ํ๋๋ก ์ ๋๋์์ต๋๋ค. ์์ ํ ์ฌ๋์ด ๋ง๋ ๋ณด์๊ณผ ๋น๊ตํด๋ ์์ ์ฑ ์ธก๋ฉด์์ ๊ฑฐ์ ๋๋ฑํ ์ ์ฑ ์ ์ป์ ์ ์์์ผ๋ฉฐ, ๋ณด์ ์ค์ผ์ผ๋ง์ ์กฐ์ ํ์ฌ ์ด๋ค ์์ ์ธก๋ฉด์ ๋ ๊ฐ์กฐํ ์ง๋ ํต์ ํ ์ ์์์ต๋๋ค. ์ด๋ ํ์ ๊ธฐ๋ฒ(formal methods)๊ณผ RL์ ๊ฒฐํฉํ ์ฌ๋ก๋ก, ์ ์ฌ ๋ณด์์ ํตํด ์์ ์์ญ์ผ๋ก์ ์ ๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํ์์ผ๋ก DRiP (Difference Reward incorporating Potential-based reward)๊ณผ CaP (Counterfactual as Potential)์ด๋ผ๋ ๊ธฐ๋ฒ๋ ๋ฑ์ฅํ์ต๋๋ค. ์ด๋ ๋ค์์ ์ค๋ช ํ ์ฐจ์ด ๋ณด์(Difference reward) ๊ฐ๋ ์ ์ ์ฌ ๋ณด์๊ณผ ๊ฒฐํฉํ ๊ฒ์ผ๋ก, ๋ฉํฐ์์ด์ ํธ์์ ๊ฐ ์์ด์ ํธ๊ฐ ์์คํ ์ฑ๋ฅ์ ๊ธฐ์ฌํ ๋ฐ๋ฅผ ์ ์ฌ ํจ์ ํํ๋ก ๋ณด์ํด์ฃผ๋ ๋ฐฉ๋ฒ์ ๋๋ค. DRiP๋ ๋๋ฉ์ธ ์ง์์ด ๋ด๊ธด ์ ์ฌ ํจ์๋ฅผ ์ค๊ณํด์ผ ํ์ง๋ง, ํ์ต ๊ฐ์๊ณผ ๊ท ํ ์ ์ง ์ธก๋ฉด์์ ํจ๊ณผ์ ์ด๊ณ , CaP๋ ๋์ ์ผ๋ก ์ ์ฌ ํจ์๋ฅผ ์์ฑํ์ฌ ์ฌ๋์ ๊ฐ์ ์ ์ค์ธ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์ ์ฌํ ์ง์์ ํ์ฉํ์ง๋ง, ํฉ์ณ ์ธ ๋ ์๋์ง๋ ์๊ณ ์คํ๋ ค ๋ณต์ก๋๋ง ์ฆ๊ฐํ๋ฏ๋ก ๋ณ๊ฐ๋ก ์ฐ๋ ๊ฒ์ด ์ข๋ค๊ณ ํฉ๋๋ค. ์ด๋ก ๋ณด์ฅ์ด ํ์ํ๋ฉด CaP๋ฅผ, ์ต๋ํ ๋น ๋ฅธ ์ฑ๋ฅ ํฅ์์ด ๋ชฉํ๋ฉด DRiP์ ๊ถ์ฅํ๊ณ ์์ผ๋ฉฐ, DRiP์ ํนํ ๋๋ฉ์ธ ์ง์์ด ์ถฉ๋ถํ ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ค์ํ ์คํ ๋๋ฉ์ธ์์ DRiP์ ์ผ๊ด๋๊ฒ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋น ๋ฅธ ํ์ต๊ณผ ๋์ ์ ์ฑ ์ฑ๋ฅ์ ๋ฌ์ฑํด, ๋ฉํฐ์์ด์ ํธ shaping ๊ธฐ๋ฒ์ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๋์ ์ ์ฌ ๊ธฐ๋ฐ Reward Shaping (DPBRS)
DPBRS (Dynamic Potential-Based Reward Shaping)๋ ์ ์ฌ ํจ์๋ฅผ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ์ํค๋ ๋ฐ์ ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๊ธฐ๋ณธ ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์์๋ \Phi(s)๊ฐ ๊ณ ์ ๋ ํจ์์ด์ง๋ง, DPBRS๋ ํ์ฌ๊น์ง์ ํ์ต ์ํฉ์ด๋ ์์ด์ ํธ์ ์ํ์ ๋ฐ๋ผ ์ ์ฌ ๊ฐ์ ๋์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ Q-๋ฌ๋์ ์ ๋ฐ์ดํธ ์์ ์๊ฐ์ ๋ํ๋ด๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๊ฐํ์ฌ ๊ฐ๋ ์ ์ ์ํ์ต๋๋ค. ์์ด๋์ด๋ ์ (16)์ฒ๋ผ, ์ ์ฌ ํจ์์ ์ํ ๋๋ฌ ์๊ฐ t๋ฅผ ๋ฐ์ํ์ฌ \Phi(s, t)๋ก ํ์ฅํ๋ ๊ฒ์ ๋๋ค. ์์ปจ๋, ์ด๋ค ์ํ๋ฅผ ๋นจ๋ฆฌ ๋๋ฌํ๋ฉด ๋์ ์ ์ฌ ๋ณด์์ ์ฃผ๊ณ ๋ฆ๊ฒ ๋๋ฌํ๋ฉด ์ค์ด๋ ์์ผ๋ก, ์๊ฐ ์์๋ฅผ ๊ณ ๋ คํ ๋ณด์์ ์ค ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ด์ ํธ๊ฐ ๋ ์ ์ํ ๋ชฉํ์ ๋๋ฌํ๋๋ก ์ ๋ํ๊ฑฐ๋, ํ์ต ์งํ์ ๋ฐ๋ผ ๋ณด์ ์ ๋ต์ ์กฐ์ ํ ์ ์์ต๋๋ค.
DPBRS์ ์ฅ์ ์ ๊ธฐ์กด ์ ์ฌ ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๋ณด์ฅ(์ ์ฑ ๋ถ๋ณ์ฑ ๋ฑ)์ ์ ์งํ๋ฉด์๋, ์ํฉ์ ๋ง๊ฒ shaping์ ์กฐ์ ํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ฐ๊ตฌ์์๋ DPBRS๋ฅผ ์ฑ๊ธ ์์ด์ ํธ 2D ๋ฏธ๋ก์ ๋ฉํฐ์์ด์ ํธ ๊ฒ์์ ํ ์คํธํ์ฌ, ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ํ๋ ํฅ์์ ํ์ธํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ค์ค ์์ด์ ํธ์ ๊ฒฝ์ฐ, ์๊ฐ์ ๋ฐ๋ผ ์ ์ฌ ๋ณด์์ ๋ณ๋์์ผ ์ด๊ธฐ์ ํ๋์ ์ ๋ํ๊ณ ๋์ค์๋ ์ค์ค๋ก ํ์ตํ๋๋ก ํ๋ ์์ ์ ์ฉ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ์์ง ๋๋ฆฌ ์ํ๋์ง ๋ชปํ์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๊ณผ์ ์ง์ ๋น๊ต ๋ถ์กฑ, ๋ก๋ณดํฑ์ค๋ ๋ณต์กํ ๋น์ ํ ์์คํ ์์ ์์ฉ ๋ฏธ๋น ๋ฑ์ ํ๊ณ๋ก ๋ค์์ต๋๋ค. ์ ์๋ ์์๋ 2D ๋ฏธ๋ก์ ๊ฐ๋จํ ๊ฒ์ ์ ๋์๊ณ , ์ค์ ๋ก๋ด ์ ์ด๋ ๊ณ ์ฐจ์ ๋ฌธ์ ์์๋ ํจ๊ณผ๊ฐ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค. ๋ฐ๋ผ์ DPBRS๋ ๊ฐ๋ ์ฆ๋ช ๋จ๊ณ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ํฅํ ๋ค์ํ ํ๊ฒฝ์์ ์ฑ๋ฅ์ ํ์ธํ๊ณ ๋ค๋ฅธ shaping ๋ฐฉ๋ฒ๊ณผ๋ ๋น๊ต ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ผ์๋, ์๊ฐ ๊ฐ๋ณ์ ๋ณด์์ด๋ผ๋ ๊ฐ๋ ์ ์ค์ํ์ฌ, ํฅํ ์ ์ํ ๋ณด์ ์ค๊ณ์ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ํ ์ ๋ขฐ ๊ธฐ๋ฐ ๊ฐ์น ๋ฐ๋ณต (UCBVI ๊ธฐ๋ฐ ๋ณด์ ์ค๊ณ)
UCBVI (Upper Confidence Bound Value Iteration)๋ ์ํ ํจ์จ ํฅ์์ ์ํด ์ด๋ก ์ ์ผ๋ก ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, Reward Shaping์ ํจ๊ณผ๋ฅผ ๋ถ์์ ์ผ๋ก ์ฐ๊ตฌํ ์ฌ๋ก์ ๋๋ค. UCBVI ์์ฒด๋ ๋ชจ๋ธ๊ธฐ๋ฐ ํ์ ๋ฐฉ๋ฒ์ผ๋ก, ํ์ ๋ณด๋์ค๋ฅผ ํตํด ๊ฐ์น ํจ์๋ฅผ ์ํฅ ํธํฅ(upper bound)์์ผ๊ฐ๋ฉฐ ์ต์ ์ ์ฑ ์ ์ฐพ์ต๋๋ค. ์ด๋ MBIE-EB ๋ฑ ๊ธฐ์กด ํ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ ์ฌํ์ง๋ง ์ด๋ก ๋ถ์์ ํธ๋ฆฌํ ํํ๋ก ์ค๊ณ๋์์ต๋๋ค. ์ ๋ ผ๋ฌธ์์๋ ์ด UCBVI์ Reward Shaping ๊ฐ๋ ์ ๋์ ํ์ฌ, ํ์ ๋ณด๋์ค์ ๊ฐ์น ํจ์ ํฌ์ ๋ฑ์ ์์ ํ UCBVI-shaped ๋ฒ์ ์ ๋ง๋ค์์ต๋๋ค.
UCBVI-shaped์ ๋ถ์์ ๋ฐ๋ฅด๋ฉด, Reward Shaping์ ํ๋ฉด ์์ด์ ํธ๊ฐ ํ์ํ ์ํ ๊ณต๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ์ค์ผ ์ ์์ด ํํ(regret) ๋ฐ ์ํ ๋ณต์ก๋ ๋ฉด์์ ์ ๋ฆฌํด์ง๋๋ค. ์ด๋ Reward Shaping์ด ๋ฌธ์ ์ ๊ด๋ จ ์๋ ๋ถ๋ถ์ ๊ฐ์ง์น๊ธฐ(pruning) ํ๊ณ , ์์ด์ ํธ๊ฐ ์ ์ฑ ์๋ฆฝ์ ์ค์ํ ๋ถ๋ถ์ ์ง์คํ๊ฒ ํด์ค๋ค๋ ์๋ฏธ์ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, UCBVI-shaped๋ ๋์ผํ ํ๊ฒฝ์์ ๊ธฐ๋ณธ UCBVI๋ณด๋ค ๋ฎ์ ํํ ํ๊ณ์ ์ ์ ์ํ๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์์ต๋๋ค. ํนํ ์์ด์ ํธ๊ฐ ์ธ๋ฐ์์ด ํ๊ฒฝ์ ๋ถํ์ํ ์์ญ์ ๋์๋ค๋๋ ์ผ์ด ์ค์ด๋ค์ด, ์ต์ ์ ์ฑ ๋ฐ๊ฒฌ ์๊ฐ์ด ๋จ์ถ๋ฉ๋๋ค.
์คํ์ผ๋ก๋ ๋ฏธ๋ก ํ๊ฒฝ์์ UCBVI-shaped์ ์ผ๋ฐ UCBVI๋ฅผ ๋น๊ตํ๋๋ฐ, irrelevantํ ๊ตฌ์ญ์ด ๋ง์ ํ๊ฒฝ์ผ์๋ก shaping์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ก๋ค๊ณ ํฉ๋๋ค. ์ด๋ ์ง๊ด์ ์ด๋ฉฐ, Reward Shaping์ด ์์๋ค๋ฉด ์์ด์ ํธ๊ฐ ํค๋งธ์ ๋ถ๋ถ์ Reward Shaping์ผ๋ก ํ์ํ์ง ์๋๋ก ์ ๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ด๋ก ์์ฃผ์ด์ง๋ง, ์ค์ํ ์ ์ Reward Shaping์ ๊ณต์์ ์ผ๋ก ์ํ ๋ณต์ก๋ ๋ถ์์ ํตํฉํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ์ด์ ๊น์ง ๋๋ถ๋ถ ์คํ์ ์ผ๋ก ์ข๋ค๋ Reward Shaping ๊ธฐ๋ฒ๋ค์, ์ํ์ ์ฑ๋ฅ ๋ณด์ฅ ์ธก๋ฉด์์ ์กฐ๋ช ํ ๊ฒ์ผ๋ก, ํฅํ Reward Shaping์ด RL์ ์ํ ํจ์จ์ ๋์ด๋ ์ ๋นํ ๋๊ตฌ๋ก ๋์ฑ ์ธ์ ๋ฐ์ ์ ์๊ฒ ํฉ๋๋ค.
์์ฝํ๋ฉด, UCBVI ์ฐ๊ตฌ๋ โReward Shaping์ ํ๋ฉด ์ด๋ก ์ ์ผ๋ก๋ ํ์ต ํจ์จ์ด ์ข์์ง๋คโ๋ ๊ฒ์ ์ฆ๋ช ํจ์ผ๋ก์จ, ํฅํ RL ๋ถ์์ Reward Shaping์ ์ ๊ทน ๊ณ ๋ คํด์ผ ํจ์ ์์ฌํ์ต๋๋ค. ์ค์ ๋ก RL ์ฐ๊ตฌ์์๋ ์ข ์ข ๋ณด์์ ๋ฌธ์ ์ ์์ ์ผ๋ถ๋ก ๊ณ ์ ํ๊ณ ํ์ ์๊ณ ๋ฆฌ์ฆ๋ง ๋ถ์ํ๊ณค ํ์ง๋ง, ์ด ๊ฒฐ๊ณผ๋ ๋ณด์ ์ค๊ณ ์์ฒด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ถ๋ก ์ทจ๊ธํด์ผ ํจ์ ์๋ ค์ค๋๋ค.
์ฐจ์ด ๋ณด์ (Difference Rewards)
์ฐจ์ด ๋ณด์(Difference Reward)์ ๋ฉํฐ์์ด์ ํธ ๊ฐํํ์ต์ด๋ ์ง๋จ ์ต์ ํ ๋ฌธ์ ์์ ๊ณ ์๋ ๊ธฐ๋ฒ์ผ๋ก, ์์ด์ ํธ์ ๊ธฐ์ฌ๋์ ๋ฐ๋ฅธ ๋ณด์์ ์ฃผ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ธฐ๋ณธ ์์ด๋์ด๋, โ๊ฐ๋ณ ์์ด์ ํธ์ ํ๋์ด ์ ์ฒด ์์คํ ์ ์ผ๋ง๋ ์ด์ต์ ๊ฐ์ ธ์๋๊ฐโ๋ฅผ ๋ณด์์ผ๋ก ์ผ๋ ๊ฒ์ ๋๋ค. ์์์ผ๋ก, ์์ด์ ํธ i์ ์ฐจ์ด ๋ณด์ D_i๋ ๋ณดํต ์ ์ฒด ์์คํ ๋ณด์์์ i์ ๊ณตํ์ ๋บ ๋๋จธ์ง ๋ถ๋ถ์ ๋บ ๊ฐ์ผ๋ก ์ ์๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฉํฐ์์ด์ ํธ ์์คํ ์ ์ ์ญ ๋ณด์ G(z)๊ฐ ์ํ z์์ ์ฃผ์ด์ง๋ค๋ฉด, i ์์ด์ ํธ๋ฅผ ์ ์ธํ ๊ฒฝ์ฐ์ ๋ณด์ G_{-i}(z)๋ฅผ ๊ฐ์ ํ๊ณ D_i = G(z) - G_{-i}(z)๋ก ๋ณด์์ ๊ตฌ์ฑํ๋ ์์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ด์ ํธ i๋ ์๊ธฐ ํ๋์ด ์์คํ ์ ์ฒด ์ฑ๋ฅ์ ๋ฏธ์น ์ ํจ๊ณผ๋ฅผ ๋ณด์์ผ๋ก ๋ฐ๊ฒ ๋์ด, ๊ฐ์ธ ์ต์ ํ๊ฐ ๊ณง ์ ์ฒด ์ต์ ํ๋ก ์ด์ด์ง๋๋ก ์ ๋๋ฉ๋๋ค.
๋จ์ผ ์์ด์ ํธ์ ๊ฒฝ์ฐ์๋ ๋น์ทํ ๊ฐ๋ ์ ์ ์ฉํ ์ ์๋๋ฐ, ์ด๋๋ ํน์ ๊ธฐ์ค ์ํ(๋๋ ์ด์์ ์ํ)์ ํ์ฌ ์ํ์ ์ฐจ์ด๋ฅผ ๋ณด์์ผ๋ก ์ผ์ต๋๋ค. ์์ปจ๋ r์ด ์๋ ๋ณด์์ด๊ณ \Phi(s)๊ฐ ํ์ฌ ์ํ์ ๊ธฐ์ค ์ํ์ ์ฐจ์ด๋ฅผ ์ฌ๋ ํจ์๋ผ๋ฉด, ์์ ๋ ๋ณด์์ r' = r + \gamma (\Phi(s_{\text{ref}}) - \Phi(s)) ํํ๋ก ์ค ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ด์ ํธ๋ ๊ธฐ์ค ์ํ(๋ชฉํ ์ํ)์ ๊ฐ๊น์์ง์๋ก ์ถ๊ฐ ๋ณด์์ ๋ฐ์ผ๋ฏ๋ก ๊ทธ ๋ฐฉํฅ์ผ๋ก ํ๋ํฉ๋๋ค. ์ด๋์ ์ฐจ์ด ํจ์ \Phi๋ ์ ์ ํํด์ผ ํจ๊ณผ๊ฐ ์์ผ๋ฉฐ, ๋๋ฌด ๋จ์ํ๋ฉด ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ฃผ์ง ๋ชปํ๊ณ ๋๋ฌด ๋ณต์กํ๋ฉด ๋ณด์ ํจ์ ์ด ๋ ์ ์์ต๋๋ค.
์ฐจ์ด ๋ณด์์ ํฐ ์ฅ์ ์ ๊ฐ๋ณ ์์ด์ ํธ์ ๊ด์ ์์ โ๋ฌด์์ ํ๋ฉด ์์คํ ์ ์ด๋์ด ๋๋๊ฐโ๋ฅผ ๋ช ํํ ์ ์ํด์ค๋ค๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๊ตํต ๊ฒฝ๋ก ์ ํ ๋ฌธ์ ์์ ๊ฐ๋ณ ์ด์ ์์๊ฒ ์ ์ฒด ๊ตํต ํ๋ฆ์ ๊ฐ์ ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณด์์ ์ฃผ๋ฉด, ๊ฐ ์ด์ ์๋ ์ด๊ธฐ์ ์ผ๋ก ํ๋ํ๋ ๋์ ๊ตํต ์ฒด์ฆ ์ํ์ ๊ธฐ์ฌํ๋ ์ชฝ์ ์ ํํ๊ฒ ๋ฉ๋๋ค. ์ค์ ์ฐ๊ตฌ์์ IQ-learning (๊ฐ์ธ ๋ณด์๋ง ์ฌ์ฉํ๋ Q-learning)๊ณผ DQ-learning (์ฐจ์ด ๋ณด์ ์ฌ์ฉํ๋ Q-learning)์ ๋น๊ตํ ๊ฒฐ๊ณผ, DQ-learning์ ์ ์ฒด ์ฌํ์๊ฐ์ ํฌ๊ฒ ๊ฐ์์์ผ ํผ์ก์ ์ํํ๊ณ , ์ ํต์ ์ธ ๊ตํตํ ๋น ๊ธฐ๋ฒ๋ณด๋ค๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ํต๊ณ์ ์ผ๋ก๋ ์ ์๋ฏธํ ๊ฐ์ ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ์ฐจ์ด ๋ณด์์ด ์ฌํ์ ์ต์ ํด์ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณ์์์ ์๋ฏธํฉ๋๋ค. ๋ฌผ๋ก ์ด ๊ฒฐ๊ณผ๋ ํด๋น ๊ตํต ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ์ ํ์ ๋ ๊ฒ์ด์ด์, ๋ค๋ฅธ ๋๋ฉ์ธ์๋ ์ผ๋ฐํ๋ ์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ํนํ ์ด์ ์ ๊ฐ์ ์ธ๊ฐ์ด ๋ณด์์ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๋ ๋ฑ ๋ช ๊ฐ์ง ์ด์ํ๋ ์กฐ๊ฑด์ด ์์ด ํ์ค์ ํ๊ณ๋ ์์ง๋ง, ์ฐจ์ด ๋ณด์์ ๊ฐ๋ ์์ฒด๋ ์ฌ๋ฌ ํ๋ ฅ์ MAS ๋ฌธ์ ์ ์ ์ฉ๋๊ณ ์์ต๋๋ค.
๋ฉํฐ์์ด์ ํธ ์ํฉ์์์ ์ฐจ์ด ๋ณด์ ์ ์๋ ์์ ์์ฒ๋ผ counterfactual ๊ฐ๋ ์ด ํต์ฌ์ ๋๋ค. ์ฆ, โ๋ ์์์ผ๋ฉด ์ด๋ ์์งโ๋ฅผ ๊ณ์ฐํ์ฌ ๊ทธ ์ฐจ์ด๋ฅผ ์ฃผ๋ ๊ฒ์ด์ฃ . ์ด๋ฅผ ๊ตฌํํ๋ ค๋ฉด ๋ชจ๋ ์์ด์ ํธ์ ๊ณต๋ ํ๋์ ๋ํ ์ ์ญ ๋ณด์์ ๊ณ์ฐํ ์ ์์ด์ผ ํ๊ณ , ์์ด์ ํธ i๋ฅผ ์ ์ธํ ๊ฐ์์ ์ํฉ G_{-i}๋ฅผ ์ถ์ ํ ์ ์์ด์ผ ํฉ๋๋ค. ๋ณดํต ์ด G_{-i}๋ i์ ํ๋๋ง ๋ค๋ฅธ ๋์ผํ ์ํฉ์ด๊ฑฐ๋, i๊ฐ ๊ธฐ์ฌํ์ง ์์ ์ํ๋ก ๊ฐ์ ํ ๋ชจ๋ธ ๋ฑ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ counterfactual ๋ณด์์ ์์ด์ ํธ ๊ฐ ์ ํธ ์ํธ์์ฉ์ ์ ๊ฑฐํด์ฃผ๋ฏ๋ก, ๋ถํ์ํ ํ๋ ์ ํธ์ ์ก์์ ์ค์ด๊ณ ํฌ๊ณ ์์ ํ๋ ฅ ๋ฌธ์ ๋ชจ๋ ์ ํด๊ฒฐํ๋๋ก ๋์์ค๋๋ค.
์ฐจ์ด ๋ณด์์ ๋จ์ ์ ์ ์ญ ์์คํ ๋ณด์์ ๋ํ ๊ฐ์ ์ด ํ์ํ๋ค๋ ์ ์ ๋๋ค. ์์คํ ์ ์ฒด์ ์ํ๋ ๋ณด์์ ์์ด์ ํธ๊ฐ ์ ์ ์์ด์ผ ํ๋ฏ๋ก, ์์ ์ ๋ณด ๋๋ ์ค์์ง์ค์ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ ๊ฒฝ์ฐ์ ์ ํฉํฉ๋๋ค. ๋ํ ์์คํ ํจ์ฉ ํจ์๋ฅผ ์์์ผ๋ก ์๊ณ ์์ด์ผ ํ๊ณ , ์์ด์ ํธ ์ ์ธ ์ํฉ G_{-i}๋ ๋ช ์์ ์ผ๋ก ๊ณ์ฐํ๊ฑฐ๋ ๊ทผ์ฌํด์ผ ํ๋๋ฐ, ์ด ์์์ด ๋ณต์กํ ๊ฒฝ์ฐ ์ ์ฉ์ด ์ด๋ ค์์ง ์ ์์ต๋๋ค. ๋ฐ๋ฉด ์ ์ฌ ๊ธฐ๋ฐ ๋ณด์(PBRS)์ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๊ฐ ์ค๊ณํด์ผ ํ์ง๋ง ๊ฐ๋ณ ์์ด์ ํธ ์์ค์์ ์ ์ฉํ๊ธฐ๋ ์ฝ๋ค๋ ์ฅ๋จ์ ๋น๊ต๊ฐ ์์ต๋๋ค.
๊ฒฐ๊ตญ ์ฐจ์ด ๋ณด์์ ํ๋ ฅ์ ๋ฉํฐ์์ด์ ํธ RL์์ ์ ์ฉํ ๋๊ตฌ์ด๋ฉฐ, ์์คํ ์ ์ฒด ์ต์ ํ๋ฅผ ์ด์งํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ํฝ๋๋ค. ์ค์ ์ฐ๊ตฌ์์๋ ์ฐจ์ด ๋ณด์๊ณผ ์ ์ฌ ๋ณด์์ ๋์์ ํ์ฉํ๊ฑฐ๋ ๋น๊ตํ์ฌ, ๋ค์ค ๋ชฉํ ํ๊ฒฝ์์ Pareto ์ต์ ํด๋ก ์ ๋ํ๋ ์คํ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฐจ์ด ๋ณด์๊ณผ ์ ์ฌ ๋ณด์ ๋ชจ๋ Paretoํด ๋ฌ์ฑ์๋ ํจ๊ณผ์ ์ด์์ง๋ง ๊ฐ๊ฐ ์๊ตฌ์กฐ๊ฑด์ด ๋ฌ๋์ต๋๋ค. ์ฐจ์ด ๋ณด์์ ์์คํ ์ ์ญ ์ ๋ณด๋ฅผ ์์์ผ ํ๊ณ , ์ ์ฌ ๋ณด์์ ์์์ ์ค๊ณ๊ฐ ํ์ํ๋ค๋ ์ ์ฝ์ด ์์ผ๋ฏ๋ก, ๋ฌธ์ ์ํฉ์ ๋ฐ๋ผ ์ ํฉํ ๊ธฐ๋ฒ์ ์ ํํด์ผ ํ๋ค๊ณ ๊ฒฐ๋ก ๋ด๋ ธ์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์์คํ ๋ชจ๋ธ์ ์ ์๊ณ ํต์ ์ด ์ํํ๋ฉด ์ฐจ์ด ๋ณด์์ด ์ ๋ฆฌํ๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด ์ ์ฌ ๋ณด์์ ์ฐ๋ ์ ์ ํ ํด๋ฆฌ์คํฑ์ ๋ง๋ จํ๋ ์ชฝ์ด ๋์ ์ ์์ต๋๋ค.
์ง์ ๊ธฐ๋ฐ ๋ค๋ชฉ์ ๋ค์ค์์ด์ ํธ RL (MOMARL)
MOMARL (Knowledge-Based Multi-Objective Multi-Agent RL)์ ๋ง ๊ทธ๋๋ก ๋ค์ค ๋ชฉํ๋ฅผ ๊ฐ์ง ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ์์์ Reward Shaping ๊ธฐ๋ฒ๋ค์ ๋น๊ตํ ์ฐ๊ตฌ์ ๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ํ๋์ ๋ฒค์น๋งํฌ ๋ฌธ์ (Multi-Objective Beach Problem Domain)์ ์ ๋ ฅ๋ง ๊ฒฝ์ ๋ฐฐ์น ๋ฌธ์ ์ ์ฐจ์ด ๋ณด์(D)๊ณผ ์ ์ฌ ๋ณด์(PBRS)์ ์ ์ฉํด ๋ณด์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์์ด์ ํธ๋ฅผ Pareto ์ต์ ์์ญ์ผ๋ก ์๋ดํ๋ ๋ฐ ๋์์ ์ฃผ์์ง๋ง, ๊ฐ์์ ํ๊ณ๋ ๋๋ฌ๋ฌ์ต๋๋ค.
์ฐจ์ด ๋ณด์(D)์ ์์ ์ธ๊ธํ๋ฏ์ด ์ ์ญ ์ง์์ด ํ์ํฉ๋๋ค. ์์คํ ์ ์ฒด์ ํจ์ฉ ํจ์๋ฅผ ์์์ผ ํ๊ณ ๊ฐ ์์ด์ ํธ์ ์ํฅ๋ ฅ์ ๊ตฌ๋ถํ ์ ์์ด์ผ ํฉ๋๋ค. ๋ํ ๋ชฉํ ํจ์(ํ๊ฐ ํจ์)๊ฐ ์ํ์ ํํ๋ก ๋ช ํํ ์ฃผ์ด์ ธ์ผ ์ ํจํฉ๋๋ค. ๋ง์ฝ ์์คํ ์ง์์ด ์ ํ์ ์ด๊ฑฐ๋ ๊ณ์ฐ ์์์ด ๋ถ์กฑํ๋ฉด ์ฐจ์ด ๋ณด์์ ์ฐ๊ธฐ ์ด๋ ต์ต๋๋ค.
์ ์ฌ ๋ณด์(PBRS)์ ์ ์ฌ ํจ์ ์ค๊ณ์ ์ด๋ ค์์ด ์์ต๋๋ค. ์ฌ๋์ ์ ๋ฌธ ์ง์์ผ๋ก ์ ์ฌ ํจ์๋ฅผ ๋ง๋ค์ด์ผ ํ๋๋ฐ, ๋ค๋ชฉ์ ๋ฌธ์ ์์๋ ์ด๋ค ์ ์ฌ ํจ์๋ฅผ ์จ์ผ ์ฌ๋ฌ ๋ชฉํ๋ฅผ ๊ท ํ ์๊ฒ ๋ฌ์ฑํ ์ง ํ๋จํ๊ธฐ๊ฐ ๊น๋ค๋กญ์ต๋๋ค. ๋ํ ์๋ชป ์ค๊ณ๋ ์ ์ฌ ํจ์๋ ํน์ ๋ชฉํ๋ง ์น์คํ๊ฒ ํ๊ฑฐ๋ ์คํ๋ ค ๋ฐฉํด๊ฐ ๋ ์ ์์ต๋๋ค. ์ด์ฒ๋ผ PBRS๋ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ๋ง์ด ๋๋ ์์์ ์ค๊ณ๊ฐ ํ์ํ๋ฉฐ, ๋ชจ๋ฒ์ ์ธ ์ค๊ณ๋ฅผ ๋ชป ํ๋ฉด ํจ๊ณผ๊ฐ ์ ํ์ ์ ๋๋ค.
์ฐ๊ตฌ์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ฐจ์ด ๋ณด์ D๊ฐ ์ ์ฌ ๋ณด์ PBRS๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ ๊ฒฝํฅ์ ๋ณด์ธ๋ค๊ณ ๋ณด๊ณ ํ์ต๋๋ค. ํนํ ์์คํ ์ ์ฒด๋ฅผ ์์ฐ๋ฅด๋ ์ง์์ด ์ฌ์ฉ ๊ฐ๋ฅํ๊ณ ํต์ ๋์ญํญ ๋ฌธ์ ๊ฐ ์๋ ๊ฒฝ์ฐ, ์ฐจ์ด ๋ณด์์ด ๋ ์ง์ ์ ์ผ๋ก ๋ชฉํ ๋ฌ์ฑ์ ์ด๋์ด์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ฉด ์์ด์ ํธ ๊ฐ ํต์ ์ด ์ ํ๋๊ฑฐ๋, ์ค์ ์ง์ค ํ๊ฐ๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ์๋ ์ฐจ์ด ๋ณด์์ ์ ์ฉํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, ์ด๋ด ๋ ์ ์ฌ ๋ณด์์ด ํ์ค์ ์ธ ๋์์ด ๋ฉ๋๋ค.
์ด ์ฐ๊ตฌ์ ๊ฒฐ๋ก ์ ๊ฒฐ๊ตญ โ์ฃผ์ด์ง ๋ค๋ชฉ์ ๋ค์ค์์ด์ ํธ ๋ฌธ์ ์ ๊ฐ์ฅ ์ ํฉํ Reward Shaping ๊ธฐ๋ฒ์ ์ ํํด์ผ ํ๋คโ๋ ๊ฒ์ ๋๋ค. ์์คํ ์ ๋ํ ์ง์ ์์ค, ์์ด์ ํธ ๊ฐ ์ ๋ณด ๊ณต์ ๊ฐ๋ฅ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋์์ด๋์ ์ ๋ฌธ์ฑ ๋ฑ์ ์ข ํฉ์ ์ผ๋ก ๊ณ ๋ คํด, ์ฐจ์ด ๋ณด์์ด๋ ์ ์ฌ ๋ณด์ ์ค ํ๋ ๋๋ ๋ ๋ค๋ฅผ ์ ํ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํฉ๋๋ค. ๋ํ ์ด๋ค์ด ์ ๋์ํ๋์ง ๋น๊ตํ ์ ์๋ ๊ณต๊ฐ ๋ฒค์น๋งํฌ(MOBPD ๋ฑ)๋ฅผ ์ ์ํ์ฌ, ํฅํ ์ฐ๊ตฌ๋ค์ด ์ฝ๊ฒ ๋ฐ๋ผ ์คํํ๊ณ ๊ฐ์ ์ ์ ๋ชจ์ํ ์ ์๋๋ก ํ์ต๋๋ค. ์์ปจ๋, ๋ฉํฐ์์ด์ ํธ์์์ ๋ณด์ ์ค๊ณ๋ ๋จ์ผ ์์ด์ ํธ๋ณด๋ค ๋ณต์กํ์ง๋ง, ์ ์ ํ ์ ๊ทผ๋ฒ์ ํ์ฉํ๋ฉด ๊ฐ์ธ ์ด์ต๊ณผ ์ ์ฒด ์ด์ต์ ์กฐํ์ํค๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ์ ๋ํ ์ ์์ต๋๋ค.
๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Plan-Based Reward Shaping)
๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณํ(planning) ๊ธฐ๋ฒ๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉํ์ฌ ๋ณด์์ ํ์ฑํ๋ ์ ๊ทผ์ ๋๋ค. ์ด ์์ด๋์ด๋ ์์ด์ ํธ๊ฐ ์ค์ ํ๋์ ํ๊ธฐ ์ ์ โ๊ฐ์์ ์๋๋ฆฌ์ค(what-if)โ๋ฅผ ์ ์ ์ ์ผ๋ก ์๋ฎฌ๋ ์ด์ ํด๋ณด๊ณ , ๊ฑฐ๊ธฐ์ ์ป์ ํต์ฐฐ์ ๋ณด์์ ๋ฐ์ํ๋ ๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค. ๋ค์ ๋งํด, ๊ณํ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ํ๋ ์ต์ ๊ฒฝ๋ก ์ ๋ณด๋ฅผ ์ด์ฉํด RL์ ํ์์ ๋๋ ๊ฒ์ ๋๋ค.
ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ STRIPS์ ๊ฐ์ ์ ํต์ AI ๊ณํ ํํ์ ์ด์ฉํ Reward Shaping์ ๋๋ค. STRIPS๋ ์ํ ๋ณํ์ ๋ํ ์ ์ ์กฐ๊ฑด๊ณผ ํจ๊ณผ๋ฅผ ์ ์ํ๋ ๋ ผ๋ฆฌ์ ํ์ธ๋ฐ, ์ด๋ฅผ ์ฌ์ฉํด ๋ชฉํ ๋ฌ์ฑ๊น์ง ํ์ํ ํ๋ ์์๋ฅผ ๊ตฌํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ RL์ ๋ณด์์ผ๋ก ์ด ๊ณํ ๊ฒฝ๋ก์ ๋ฐ๋ฅธ ํ๋์๋ ์ถ๊ฐ ๋ณด์์ ์ฃผ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ผ๋ฐ MDP ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ ๋๋ ์ ์ฒด ์ํ๊ณต๊ฐ์ ํ์ํด์ผ ํ์ง๋ง, STRIPS ๊ธฐ๋ฐ shaping์ ๋์ ํ๋ฉด ๊ณํ๋ ์ต์ ๊ฒฝ๋ก ์ฃผ๋ณ์ผ๋ก๋ง ํ์์ ์ง์คํ๊ฒ ๋์ด ํ์ต์ด ํจ์จํ๋ฉ๋๋ค. ์ค์ ์ฐ๊ตฌ์์, STRIPS ๊ณํ์์ ์ป์ ๊ฒฝ๋ก์ ์ํ๋ค์ ๋ฐ๋ผ๊ฐ๋ฉด ๋ณด์์ ์ฃผ๊ณ , ๊ทธ ์ธ์๋ ์ฃผ์ง ์๋ shaping์ ํ๋๋ ์ ์ฑ ์ ์๋ ด ์๋๊ฐ ๋นจ๋ผ์ง๊ณ ์ต์ข ์ฑ๋ฅ๋ ํฅ์๋์์ต๋๋ค. ํนํ ๊ณํ ์ง์์ ์ค๋ฅ๊ฐ ์์ด๋, ์์ด์ ํธ๋ RL์ ํตํด ์ด๋ฅผ ๋ณด์ํ๋ฉฐ ์ฌ์ ํ MDP ์ ์ฒด๋ฅผ ์ฌ์ฉํ๋ shaping๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ ๊ณํ ์ ๋ณด๊ฐ ์ฃผ๋ ๊ฐ์ด๋๊ฐ ์ ์ฉํจ์ ๋ํ๋ ๋๋ค.
๋ ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ๊ณํ ๊ธฐ๋ฐ shaping vs ์ถ์ MDP ๊ธฐ๋ฐ shaping์ ๋น๊ตํ์ต๋๋ค. ์ถ์ MDP ๋ฐฉ๋ฒ์ ๋ฌธ์ ๋ฅผ ์์ ๋ ๋ฒจ MDP (๊ฐ์ํ๋ ๋ชจ๋ธ)๋ก ํ๊ณ , ๊ทธ ๊ฐ์นํจ์๋ฅผ ์ค์ ํ์ต์ shaping์ผ๋ก ์ฐ๋ ๋ฐฉ์์ ๋๋ค. ๊ณํ ๊ธฐ๋ฐ์ ์์ ๊ฐ์ด ๋ช ์์ ๊ณํ์ ๊ฒฐ๊ณผ๋ฅผ ์ฐ๊ณ ์. ๋น๊ต ๊ฒฐ๊ณผ, ๋๊ท๋ชจ ๋ณต์กํ ํ๊ฒฝ์์๋ ์ธ๋ถ ๋จ๊ณ๊น์ง ์๋ ค์ฃผ๋ ๊ณํ ๊ธฐ๋ฐ ๋ณด์์ด ๋ ํจ์จ์ ์ด์ด์ ์ด ๋ณด์๊ณผ ์๋ ด ์๋ ๋ชจ๋ ์ฐ์ํ์ต๋๋ค. ๋ฐ๋ฉด ๋ค์ค ์์ด์ ํธ๋ ์ถฉ๋ํ๋ ๋ชฉํ๊ฐ ์๋ ์ํฉ์์๋, ์ถ์ MDP ์ ๊ทผ์ด ํ์กฐ ๋ฌธ์ ๋ฅผ ๋ ์ ๋ค๋ฃจ์ด ์ฑ๋ฅ์ด ์ข์์ต๋๋ค. ์์ปจ๋ ์ฌ๋ฌ ์์ด์ ํธ๊ฐ ๊ฐ์ ๊ณํ์ ๋ฐ๋ฅด๋ฉด ์ถฉ๋ํ ๋, ์ถ์ MDP๋ ์์ ์์ค์์ ์กฐ์จ๋ ๋ชฉํ๋ฅผ ์ฃผ๋ฏ๋ก ์ถฉ๋์ ํผํ๊ฒ ํ๋ ์์ ๋๋ค. ์ด ๊ฒฐ๊ณผ๋, ํ๊ฒฝ ํน์ฑ์ ๋ฐ๋ผ ์ด๋ค shaping์ด ์ ํฉํ์ง ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๊ณํ ๊ธฐ๋ฐ ๋ณด์์ ๊ฐ ๋จ๊ณ์ ์ธ๋ฐํ ์ง๋๋ฅผ ์ฃผ๊ธฐ ๋๋ฌธ์, ๋จ์ผ ์์ด์ ํธ์ ๋ณต์กํ ๊ณผ์ ์ ์ ๋ฆฌํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ค์ค ์์ด์ ํธ์์๋ ๊ณํ๋ค์ด ์์ถฉํ ์ ์๊ณ , ์ด๋ฌํ ์กฐ์จ์ ์ถ์์ ์ธ ์์ ๋ชฉํ๋ฅผ ํตํด ํ๋ ํธ์ด ๋์ ์ ์์ต๋๋ค.
์์ฝํ๋ฉด, ๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ ๊ธฐ๋ฐ AI์ ์ง์์ ํ์ฉํ์ฌ RL์ ๊ฐ์ด๋ํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ํฝ๋๋ค. ์ค์ ๋ก๋ ๋ก๋ณดํฑ์ค ๋ฑ์์, ๋จผ์ ์๋ฎฌ๋ ์ดํฐ๋ ํ๋๋๋ก ํ๋ ์ํ์ค๋ฅผ ์ง ํ RL์ด ๋ฏธ์ธ ์กฐ์ ์ ํ๋ ๋ฐฉ์์ด ๋ง์ด ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๋ณด์ ํจ์๋ง์ผ๋ก ์์ด์ ํธ๋ฅผ ๋๊ณ ๊ฐ๊ธฐ ํ๋ ๋ณต์กํ ๋ฌธ์ ์์ ์ธ๊ฐ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ์ฃผ์ ํ๋ ์๋จ์ด ๋ฉ๋๋ค. ๋ฌผ๋ก ํ๋๋๊ฐ ํ์ํ๊ณ , ๊ณํ ๊ฒฐ๊ณผ๊ฐ ํญ์ ์ต์ ์ด ์๋ ์ ์๋ค๋ ํ๊ณ๋ ์์ง๋ง, RL๊ณผ planning์ ํ์ด๋ธ๋ฆฌ๋๋ ์์ผ๋ก๋ ์ ๋งํ ๋ฐฉํฅ์ ๋๋ค.
์ ๋ ๊ธฐ๋ฐ Reward Shaping (Belief Reward Shaping, BRS)
์ ๋ ๊ธฐ๋ฐ Reward Shaping(BRS)์ ํ๊ฒฝ ๋ณด์ ๊ตฌ์กฐ์ ๋ํ ์ฌ์ ์ง์(prior)์ ํ๋ฅ ์ ์ ๋ (belief) ํํ๋ก ํ์ฉํ์ฌ ๋ณด์์ ํ์ฑํ๋ ์ ๊ทผ์ ๋๋ค. ์ ํต์ ์ธ RL์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ผ๋ก๋ง ๋ณด์ ๊ตฌ์กฐ๋ฅผ ํ์ ํ์ง๋ง, BRS๋ ์ ์ด์ ์์ด์ ํธ ๋ด๋ถ์ ๋ณด์ ๋ถํฌ์ ๋ํ ๊ฐ์ค์ ๋ฃ์ด๋ก๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ต ์ค์ ์ด ๊ฐ์ค(๋ด๋ถ ๋นํ๊ฐ, internal critic)์ด ํ๊ฒฝ์ ์ค์ ๊ด์ธก๊ณผ ๋น๊ต๋๋ฉด์ ์ ๋ฐ์ดํธ๋๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ ๋๋ก ์์ด์ ํธ์๊ฒ ํ์ฑ ๋ณด์(shaping reward)์ ์ถ๊ฐ๋ก ์ ๊ณตํฉ๋๋ค.
์ฝ๊ฒ ๋งํด, ์์ด์ ํธ๋ โ๋ด๊ฐ ์๊ฐํ ๋ณด์ ๊ตฌ์กฐโ๋ฅผ ํ๋ ๊ฐ์ง๊ณ ์๊ณ , ์ค์ ๋ฐ๋ ๋ณด์๊ณผ์ ์ฐจ์ด๋ฅผ ๋ณด๋ฉฐ ๊ทธ ์๊ฐ์ ์กฐ์ ํด๋๊ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ํ ๋๋ ์ธ๋ถ ํ๊ฒฝ ๋ณด์ + ๋ด ์ ๋ ์ด ์ค ๋ณด์์ ํจ๊ป ๊ณ ๋ คํฉ๋๋ค. ์ด ์ ๊ทผ์ ์ ์ฌ ๊ธฐ๋ฐ ๋ณด์๊ณผ ๋ฌ๋ฆฌ ์ํ ๋ฟ๋ง ์๋๋ผ ํ๋๊น์ง ์ ๋ ๋ณด์์ ํจ์๋ก ํ์ฉํ ์ ์์ต๋๋ค. ์ ์ฌ ๋ณด์์ ์ผ๋ฐ์ ์ผ๋ก ์ํ์ ๋ํด์๋ง ์ ์๋์ง๋ง, BRS๋ ์ํ-ํ๋ ์์ ๋ํด ์ ๋ ์ ๊ธฐ๋ฐํ shaping ๋ณด์์ ์ค๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ค ํ๋์ ์ํํ ๊ฒ์ด๋ผ๊ณ ์ฌ์ ์ ๋ฏฟ๊ณ ์๋ค๋ฉด, ๊ทธ ํ๋์ ํ๋ํฐ๋ฅผ ์ฃผ๋ ์์ ๋๋ค (์ด ํ๋ํฐ๋ ๊ฒฝํ์ด ์์ด๋ฉฐ ์ ๋ฐ์ดํธ๋ ์ ์์).
BRS์์ ์ ๋ ์ ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ์ผ๋ก ํํ๋ฉ๋๋ค. ๋ณด์ ๋ถํฌ์ ๋ํ ์ฌ์ ๋ถํฌ๋ฅผ ๋๊ณ , ํ๊ฒฝ ๊ฒฝํ์ด ์์ผ์๋ก posterior๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ๊ฐ๋ น ์ด๊ธฐ์ โ์ด ํ๋์ ์๋ง -5 ๋ณด์์ด ๋ ๊ฒ์ด๋คโ๋ผ๊ณ ๋ฏฟ์๋ค๊ฐ, ์ฌ๋ฌ ๋ฒ ํด๋ณด๋ -1 ์ ๋๋ง ๋ฐ๋๋ค๋ฉด ๋ด๋ถ ๋ชจ๋ธ์ ๊ทธ์ ๋ง๊ฒ ์์ ํฉ๋๋ค. ์ด์ฒ๋ผ ์์ด์ ํธ ๋ด๋ถ์ ๋นํ๊ฐ(critic)๊ฐ ์ง์์ ์ผ๋ก ์์ ์ ๋ณด์ ์์ธก ๋ชจ๋ธ์ ๊ฐ์ ํ๊ณ , ์์ด์ ํธ๋ ๊ทธ ๋นํ๊ฐ์ ์ถ๋ ฅ์ ์ถ๊ฐ ๋ณด์์ผ๋ก ํ์ฉํฉ๋๋ค.
BRS์ ํจ๊ณผ๋ ์ ํํ ์ฌ์ ์ง์์ด ์์์๋ก ๊ทน๋ํ๋ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ณต์กํ prior์ผ์๋ก ์์ด์ ํธ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋น์ฐํ, ์์ด์ ํธ๊ฐ ๋ฏธ๋ฆฌ ๋ง์ ๊ฒ์ ์๊ณ ์์ํ๋ฉด ์ํ์ฐฉ์ค๋ฅผ ์ค์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ ์ด๋ก ์ ์ผ๋ก BRS๋ฅผ Q-๋ฌ๋๊ณผ ๊ฒฐํฉํ์ ๋ ์ถ๋ก ํ Q๊ฐ์ด ์ผ๊ด์ฑ(consistency)์ ๊ฐ๋๋ค๋ ๋ณด์ฅ๋ ์ ์๋์์ต๋๋ค. ๋จ, ์ด ๋ณด์ฅ์ ์ง์ง ํ๊ฒฝ์ ๋ณด์ ๋ถํฌ๊ฐ ์์ด์ ํธ์ ๊ฐ์ ๋ชจ๋ธ ์์ ์์ ๋๋ง ์ฑ๋ฆฝํฉ๋๋ค. ๋ง์ฝ ํ์ค์ด ์์ด์ ํธ์ ๋ชจ๋ ๊ฐ์ ์ ๋ฒ์ด๋ ํํ๋ผ๋ฉด, ์๋ชป๋ ์ ๋ ์ผ๋ก ์ธํด ์คํ๋ ค ํ์ต์ด ๊ผฌ์ผ ์ ์์ต๋๋ค.
BRS๋ โํ๊ฒฝ ์ธ๋ถ์ ์ง์โ์ ํ์ฉํ๋ค๋ ์ ์์ ํฅ๋ฏธ๋กญ์ต๋๋ค. ๊ฐ๋ฐ์๊ฐ ๋ณด์ ๊ตฌ์กฐ์ ๋ํด ์๊ณ ์๋ ํต๊ณ๋ ์ถ์ธ๋ฅผ priors๋ก ๋ น์ฌ๋ผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฒ์ ์ค๊ณ๋ฅผ ํ๋ ๊ฒฝ์ฐ, ์ด๋ค ํ๋์ ํ๊ท ์ ์ผ๋ก ๋์๋ค๊ณ ๊ฐ์ ํ๊ณ ์์ํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ด์ ํธ๊ฐ ๊ทธ๊ฑธ ์ง์ ํ์ตํ๋ ์๊ฐ์ ์ค์ผ ์ ์์ฃ . BRS๋ ๋ ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค ํ๋๋ฐ, ์ ์ฌ \Phi(s)๋ง์ผ๋ก๋ ํํ ๋ชป ํ๋ ์์ (ํ๋์ ๋ฐ๋ฅธ ๋ณด์ ์ฐจ์ด ๋ฑ)๋ฅผ ๋ค๋ฃฐ ์ ์๊ฒ ํ์ต๋๋ค. ์ฆ, state๋ฟ ์๋๋ผ action์๋ ์์กดํ๋ shaping์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
BRS์ ํ๊ณ๋ ๋ณต์กํ ์ฌ์ ๋ถํฌ๋ฅผ ๋ค๋ค์ผ ํ๋ฏ๋ก ๊ณ์ฐ๋์ด ๋ ์ ์๊ณ , prior ์ค์ ์ด ์๋ชป๋๋ฉด ์คํ๋ ค ํธํฅ์ ์ฌ์ด์ค ์ํ์ด ์์ต๋๋ค. ๋ํ BRS๋ฅผ ์ค์ ํฐ ํ๊ฒฝ์ ์ ์ฉํ ์์๋ ์์ง ๋ง์ง ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ฐ๋ ์ ์ผ๋ก, BRS๋ ๋ด๋ถ ๋ชจ๋ธ์ ํตํ ๋ณด์ ํ๊ฐ๋ผ๋ ์ธก๋ฉด์์, ์ธ๊ฐ์ ๊ฐ์น ํ๋จ์ ๋ชจ๋ฐฉํ๋ ค๋ ์๋๋ก ๋ณผ ์๋ ์์ต๋๋ค. ์ธ๊ฐ๋ ์ด๋ค ํ๋์ด ๋์ ๊ฒ์ด๋ผ๊ณ ์ฌํ์ /๋๋์ ์ ๋ ์ ๊ฐ์ง๊ณ ํผํ๋ฏ์ด, ์์ด์ ํธ๋ ๋ฏธ๋ฆฌ ๋ฐฐ์ด ์ ๋ ์ผ๋ก ํ์์ ๊ฐ์ด๋๋ฐ๋ ๊ฒ์ ๋๋ค. ์ด ์ ๊ทผ์ ํฅํ ์ธ๊ฐ ์ง์๊ณผ RL์ ํตํฉ์ ์์ด ์ค์ํ ์์ด๋์ด๊ฐ ๋ ์ ์์ต๋๋ค.
์ด์ธต ์ต์ ํ ๊ธฐ๋ฐ Reward Shaping (BiPaRS)
BiPaRS (bi-level optimization of parameterized reward shaping)๋ Reward Shaping์ ๊ฐ์ค์น๋ฅผ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค. ์ง๊ธ๊น์ง Reward Shaping์ ์ฌ๋์ด ์ถ๊ฐ ๋ณด์์ ํํ์ ์ธ๊ธฐ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ํ์ง๋ง BiPaRS๋ โ์ด๋ค shaping ๋ณด์์ด ์ด๋กญ๊ณ ์ด๋ค ๊ฒ์ ํด๋ก์ด๊ฐโ๋ฅผ ์ค์ค๋ก ํ์ตํ์ฌ, ์ข์ shaping ์ ํธ๋ง ํ์ฉํ๋๋ก ํฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, BiPaRS๋ ์์ ๋จ๊ณ์ ํ์ ๋จ๊ณ์ 2๊ณ์ธต ์ต์ ํ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ์(level 2)์์๋ ์ฃผ์ด์ง shaping ๋ณด์ ํจ์๋ฅผ ํฌํจํ ํ๊ฒฝ์์ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์์(level 1)์์๋ shaping ๋ณด์์ ๊ฐ์ค์น ํจ์ \omega_\theta(s,a)๋ฅผ ํ์ตํฉ๋๋ค. ์ด ๊ฐ์ค์น ํจ์๋ ์ํ-ํ๋๋ณ๋ก shaping ๋ณด์์ ์ผ๋ง๋ ๋ฐ์ํ ์ง ๊ฒฐ์ ํ๋ฉฐ, \theta๋ผ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋๋ค. ์์ ๋จ๊ณ๋ ๋ชฉํ๊ฐ ์์ด์ ํธ์ ์ง์ง ์ฑ๋ฅ(์๋ ํ๊ฒฝ์์์ ์ฑ๊ณผ)์ ๋์ด๋๋ก \theta๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ๋๋ค. ์ฝ๊ฒ ๋งํด, ์์ ๋จ๊ณ๋ โ์ด๋ค shaping์ ์ด๋์ด๋๊น ๋ ์ฃผ๊ณ , ์ด๋ค ๊ฑด ํด๋ก์ฐ๋ ๋นผ์โ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
BiPaRS์ ์๋ ๋ฐฉ์์ ๋ฐฉ์ ์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ์๋ ๋ณด์ R(s,a)์ shaping ๋ณด์ F(s,a)๋ฅผ ํฉ์น R'(s,a) = R(s,a) + \omega_\theta(s,a) F(s,a)๋ฅผ ์์ด์ ํธ์๊ฒ ์ค๋๋ค. ์ฌ๊ธฐ์ \omega_\theta(s,a)๋ [0,1] ๋ฒ์์ ๊ฐ์ค์น ํจ์๋ก, \omega๊ฐ 0์ด๋ฉด ํด๋น shaping์ ๋ฌด์๋๊ณ 1์ด๋ฉด ์จ์ ํ ๋ฐ์๋ฉ๋๋ค. ์์ ์ต์ ํ๋ \theta๋ฅผ ์กฐ์ ํ์ฌ, ํ์ ๋จ๊ณ์์ ํ์ต๋ ์ ์ฑ ์ด ์๋ ํ๊ฒฝ์์ ๋์ ๋ณด์์ด ์ต๋ํ๋๋๋ก ํฉ๋๋ค. ์ฆ ์์ ๋จ๊ณ์ ์์ค์ โ์๋ ๋ณด์์ ๋ํ ์ฑ๊ณผโ์ด๊ณ , ํ์ ๋จ๊ณ๋ โshaped ๋ณด์์ผ๋ก ์ ์ฑ ํ์ตโ์ ๋๋ค.
์ด๋ ๊ฒ ํจ์ผ๋ก์จ BiPaRS๋ ์ธ๊ฐ์ด ์ค shaping ๋ณด์ ์ค ์ ๋ง ๋์ ๋๋ ๋ถ๋ถ๋ง ๋ฝ์์ฐ๋ ๋ฅ๋ ฅ์ ๊ฐ๊ฒ ๋ฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, Cartpole ๋ฑ์ ๊ณ ์ ์ ์ด์ MuJoCo ์ฐ์ ์ ์ด์์ BiPaRS๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ, ์ผ๋ฐ shaping์ ์ฌ์ฉํ ๊ฒ๋ณด๋ค ์์ ์ ์ด๊ณ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ Cartpole์์๋ ๊ธ๋ฐฉ ์ฑ๊ณตํ๊ณ , HalfCheetah ๋ฑ์์๋ shaping ๋์ ๋ณด๋, ์๋ชป๋ shaping ์ ํธ๋ ์ต์ ํ๋ ๋ชจ์ต์ ํ์ธํ์ต๋๋ค. ๋ค๋ง MuJoCo ๋ฑ์ ๋ณต์กํ ์์ญ์์๋ ์์ง ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฏธ์น์ง ๋ชปํด, BiPaRS๋ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค๊ณ ์ธ๊ธ๋ฉ๋๋ค.
BiPaRS์ ์์๋, Reward Shaping์ ์๋ํ๋ ํ๋์ด๋ผ๋ ์ ์ ๋๋ค. ๊ธฐ์กด์๋ shaping ์ ํธ์ ์ธ๊ธฐ๋ ํํ๋ฅผ ์ผ์ผ์ด ์ฌ๋์ด ์กฐ์ ํ์ง๋ง, BiPaRS๋ ๊ทธ๊ฒ์ ํ์ตํ๋ ๋ ๋ค๋ฅธ ์ต์ ํ ๋ฌธ์ ๋ก ๊ฒฉ์์์ผฐ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ธ๊ฐ์ ํธํฅ์ด๋ ์ํ์ฐฉ์ค๋ฅผ ์ค์ด๊ณ , ์์ด์ ํธ ์ค์ค๋ก ์ ํฉํ shaping ์ ๋ต์ ๋ฐ๊ฒฌํ๋๋ก ํ์ต๋๋ค. ๋ฌผ๋ก ์ด ์ ๊ทผ์ ๊ณ์ฐ ๋น์ฉ์ด ๋ ๋ฐฐ๋ก ๋ค๊ณ (์์ ์ต์ ํ ํฌํจ), ์์ ์ ์ธ ์๋ ด์ ์ํด ์ฌ๋ฌ ๊ธฐ์ ์ ์กฐ๊ฑด์ด ํ์ํ์ง๋ง, ์์ผ๋ก AutoRL์ ํ ๋ถ์ผ๋ก์ ์ฃผ๋ชฉํ ๊ฐ์น๊ฐ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก BiPaRS ๊ฐ์ ๋ฐฉ๋ฒ์ด ๋ฐ์ ํ๋ฉด, ์ฌ์ฉ์๋ shaping ๋ณด์ ํ๋ณด๋ค๋ง ์ ์ํด์ฃผ๊ณ ์์ด์ ํธ๊ฐ ์ต์ ์กฐํฉ๊ณผ ์ธ๊ธฐ๋ฅผ ์์์ ์ค์ ํ๋ ์๋๊ฐ ์ฌ ์ ์์ต๋๋ค.
๋ฉํ-๋ณด์ ๋คํธ์ํฌ (MRN)
MRN (Meta-Reward-Net)์ ์ธ๊ฐ์ ํผ๋๋ฐฑ์ ์ ํ์ ์ผ๋ก ์ด์ฉํ์ฌ ๋ณด์ ํจ์์ ์ ์ฑ ์ ํจ๊ป ํ์ตํ๋ ํ๋ ์์ํฌ๋ก, BiPaRS์ ์ ์ฌํ๊ฒ ์ด์ธต ์ต์ ํ ๊ฐ๋ ์ ํ์ฉํ์ง๋ง ์ธ๊ฐ ์ ํธ์ ์ค์ ์ ๋ ๋ฐฉ๋ฒ์ ๋๋ค. MRN์ ์ ํธ๊ธฐ๋ฐ ๊ฐํํ์ต(preference-based RL)์์ ๋ฐ์ ํ ์์ด๋์ด๋ก, ์ธ๊ฐ์ด ์์ด์ ํธ์ ํ๋์์ ๋น๊ตํ์ฌ ์ด๋ ์ชฝ์ด ๋ ๋์์ง ์๋ ค์ฃผ๋ ํผ๋๋ฐฑ์ ์กฐ๊ธ์ฉ ์ ๊ณตํ๋ฉด, ์ด๋ฅผ ํ ๋๋ก ๋ณด์ ๋ชจ๋ธ๊ณผ ์ ์ฑ ์ ๋์์ ํ์ตํฉ๋๋ค. ์ด๋ ๋ณด์ ๋ชจ๋ธ ํ์ต๊ณผ ์ ์ฑ ํ์ต์ด ์ด์ธต ๊ตฌ์กฐ๋ก ๋ฌถ์ฌ ์์ด, ๋ณด์ ๋ชจ๋ธ์ด ๊ฐ์ ๋๋ฉด ์ ์ฑ ์ด ๋ฐ๋๊ณ , ์ ์ฑ ๊ฒฝํ์ด ๋๋ฉด ๋ณด์ ๋ชจ๋ธ๋ ์ ๊ตํด์ง๋ ์ํธ ๋ฉ์ปค๋์ฆ์ ๊ฐ์ง๋๋ค.
MRN์ ๋ ํนํ ์ ์, bi-level optimization์ ํตํด ๋ณด์ ํจ์ ์ค๊ณ์ ์ ์ฑ ์ต์ ํ๋ฅผ ๋ฉํ ํ์ต์ฒ๋ผ ์ทจ๊ธํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ BiPaRS์ ์ฒ ํ๊ณผ ์ ์ฌํ์ง๋ง, ์ธ๊ฐ ํผ๋๋ฐฑ์ด ์ถ๊ฐ๋ ๊ฒ์ด ์ฐจ์ด์ ๋๋ค. MRN์์๋ ์์ด์ ํธ๊ฐ ๋ฐ๋ ๋ณด์์ด ์ ์ ์ผ๋ก ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋ ๊ฒ์ด ์๋๊ณ , ์ธ๊ฐ์ด ์ ํธํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณด์ ํจ์ ์์ฒด๋ฅผ ๋ณด์ ํด ๋๊ฐ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํฌ์/์ง์ฐ/๋ ธ์ด์ฆ ๋ณด์ ๋ฌธ์ ๋ ์ธ๊ฐ์ ์ง๊ด์ผ๋ก ์ผ๋ถ ํด์ํ ์ ์๊ณ , ์์ด์ ํธ๊ฐ ์ค์ํ ๊ฒ์ ์ง์คํ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค.
์คํ์์ MRN์ ๋ช ๊ฐ์ง ๋ก๋ด ์๋ฎฌ๋ ์ด์ ์์ ์ ์ ์ฉ๋์ด, ํ์ ๋ ์ธ๊ฐ ์ ๋ ฅ๋ง์ผ๋ก๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด, ๋ก๋ด ํ ๋์ ์๋๋ฆฌ์ค์์ ์ฌ๋์ด โ์ด ๋์์ด ์ ๋์๋ณด๋ค ์ข๋คโ๋ผ๋ ๋น๊ต ํผ๋๋ฐฑ์ ์กฐ๊ธ ์ฃผ๋ฉด, MRN์ด ๊ทธ ์ ๋ณด๋ฅผ ๋ฐ์ํ ๋ณด์๋ชจ๋ธ์ ํ์ฑํ๊ณ ๊ณง๋ฐ๋ก ์ ์ฑ ์ ๋ฐ์ํ์ฌ ์ํ ํจ์จ์ ์ผ๋ก ํ์ตํ์ต๋๋ค. ์ต์ข ์ ์ผ๋ก MRN ๊ธฐ๋ฐ ์์ด์ ํธ๋ ์ด์ ์ ์์์ ๋ณด์์ด๋ ๋จ์ ์ ํธํ์ต ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
MRN์ ์ฅ์ ์ ์์ฝํ๋ฉด: ์ ์ ์ธ๊ฐ ๊ฐ์ ์ผ๋ก๋ ํ์ต ํจ์จ์ ๋์๊ณ , Reward Shaping์ ๋ฐฉํฅ์ฑ์ ์ฌ๋์๊ฒ์ ์ป์์ผ๋ก์จ ์ ์ฐ์ฑ๊ณผ ์์ ์ฑ์ ํ๋ณดํ๋ค๋ ์ ์ ๋๋ค. ํนํ ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด ๋ณด์ shaping ๊ธฐ๋ฒ๋ค์ด ๊ฐ๊ฑด์ฑ๊ณผ ํจ์จ ๋ฉด์์ ํ๊ณ๊ฐ ์๋ค๊ณ ์ง์ ํ๋ฉฐ, MRN์ฒ๋ผ ์ธ๊ฐ ๊ฐ์ด๋ํ Reward Engineering์ด ํ์ํ๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. ๋ฌผ๋ก MRN์๋ ๋จ์ ์ ์๋๋ฐ, ๊ฐ์ฅ ํฐ ๊ฒ์ ์ธ๊ฐ์ ํผ๋๋ฐฑ ํ์ง์ ์์กดํ๋ค๋ ๊ฒ์ ๋๋ค. ์ฌ๋์ด ์๋ชป ์ ํธ๋ฅผ ํ์ํ๋ฉด ์๋ฑํ ๋ณด์ ๋ชจ๋ธ์ ๋ฐฐ์ธ ์ ์๊ณ , ๋ํ ์ฌ๋์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ๋๊ท๋ชจ ํ์ต์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ MRN์ ์ธ๊ฐ-์์ด์ ํธ ํ๋ ฅ ํ์ต์ ์ข์ ์ฌ๋ก๋ก, ํฌ์ํ๊ฑฐ๋ ๋ช ์์ ๋ณด์์ ์ค๊ณํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ์์ ์ ์ฉํ ํ๋ ์์ํฌ๊ฐ ๋ ์ ์์ต๋๋ค.
์ถ๊ฐ๋ก MRN์ ๊ตฌํ ์ฝ๋๋ ๊ณต๊ฐ๋์ด ์์ด, ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฅผ ์๋ํด๋ณผ ์ ์๊ฒ ํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ ์์ผ๋ก ์ ํธํ์ต๊ณผ ๋ณด์ ์ค๊ณ ์ฐ๊ตฌ๋ฅผ ๊ฐ์ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๊ธฐํ ๊ธฐ๋ฒ ๋ฐ ๋ํฅ
์ด ๋ฐ์๋ ๋ค์ํ ํ์ ์ Reward Shaping ํ๋ ์์ํฌ๋ค์ด ๋ฑ์ฅํ๊ณ ์์ต๋๋ค. ๋ช ๊ฐ์ง ๋์ ๋๋ ๋ํฅ์ ์๊ฐํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฐฐ๋ฆฌ์ด ํจ์(Barrier Function)๋ฅผ ์ด์ฉํ ์์ ํ RL: ๋ณด์ ํจ์์ ๋ฐฐ๋ฆฌ์ด ํจ์๋ฅผ ํฌํจํ์ฌ, ์์ด์ ํธ๊ฐ ๊ธ์ง ๊ตฌ์ญ์ด๋ ์ํ ํ๋์ ํ์ง ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ค์ ๋ก๋ด ํ ์ ์ด์์ ๋ฐฐ๋ฆฌ์ด ํจ์๋ฅผ ๋ณด์์ ๋ฃ์๋๋ ์๋ ด์ด ๋นจ๋ผ์ง๊ณ ์๋ ์๋์ง ์๋ชจ๊ฐ ์ค์ด๋๋ ๋ฑ ํจ๊ณผ๊ฐ ์์์ต๋๋ค. ๋ฐฐ๋ฆฌ์ด ํจ์๋ ์ํ๊ฐ ์์ ์์ญ ๋ฐ์ผ๋ก ๋๊ฐ๋ ค ํ๋ฉด ๋ณด์์ด ๊ธ๊ฐํ๋๋ก ์ค๊ณ๋ ํจ์์ ๋๋ค.
- ์์ฐ์ด ์ง์๋ฅผ ํตํ ๋ณด์ ์์ฑ: ์ธ๊ฐ์ด ์์ฐ์ด๋ก ์ค๋ช ํ ๋ชฉํ๋ ๊ท์น์ ํ์ฑํ์ฌ, ๊ทธ์ ๋ฐ๋ผ dense reward๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ธฐ๋ฒ๋ ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด โ๋ถ์ ๋ฌผ์ฒด๋ฅผ ๋ น์ ์ง์ ์ผ๋ก ์ฎ๊ฒจ๋ผโ๋ผ๋ ๋ฌธ์ฅ์ ์ฝ๊ณ , ๊ทธ ์๋ฏธ๋ฅผ ํด์ํด ์ค๊ฐ๋จ๊ณ ๋ณด์์ ์์ฑํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด sparse reward ๋ฌธ์ ๋ฅผ ์ํํ์ผ๋, ์์ฐ์ด ์ฒ๋ฆฌ์ RL์ ํตํฉ์ด๋ผ๋ ๋์ ๊ฐ ๋ฐ๋ฆ ๋๋ค.
- ์๊ฐ ๋ ผ๋ฆฌ(Temporal Logic)๋ฅผ ํ์ฉํ Reward Shaping: ํ์ ์ธ์ด๋ก ์ ์ํ ๋ชฉํ(์: LTL, CTL ๋ฑ์ ๋ ผ๋ฆฌ์)๋ฅผ ๋ง์กฑํ๋ฉด ๋ณด์์ ์ฃผ๋ ํ๋ ์์ํฌ๊ฐ ์๋๋๊ณ ์์ต๋๋ค. ํนํ ํ๊ท -๋ณด์ RL(episodic์ด ์๋ ์ง์ํ๊ฒฝ)์์ ์๊ฐ ๋ ผ๋ฆฌ ์ ์ฝ์ ๋ณด์์ผ๋ก ๋ น์ฌ ํ์ต ์๋๋ฅผ ๋์ด๋ ์ฐ๊ตฌ๊ฐ ์์์ต๋๋ค. ๋ ผ๋ฆฌ์์ ๋ง์กฑํ๋ ๊ฒฝ๋ก์๋ ๋ณด๋์ค๋ฅผ ์ฃผ์ด, ์์ด์ ํธ๊ฐ ์ผ์ ํ ํจํด์ ํ๋์ ์ตํ๋๋ก ํ๋ ๋ฐฉ์์ ๋๋ค.
- ๊ณผ์ ํฉ ๋ฐฉ์งํ ๋ณด์ (Uncertainty-Penalized Reward): ์์ด์ ํธ์ ์ ์ฑ ์ด ํน์ ์ํฉ์ ๊ณผ๋ํ๊ฒ ํนํ๋๋ ๊ฒ์ ๋ง๊ธฐ ์ํด, ๋ณด์์ ๋ถํ์ค์ฑ ํ๋ํฐ๋ฅผ ์ถ๊ฐํ๋ ์ ๊ทผ๋ ์์ต๋๋ค. ๋ชจ๋ธ ์์๋ธ์ ์ฌ์ฉํด ์ ์ฑ ์ ๋ถํ์ค์ฑ์ด ํฐ ์ํ์์๋ ๋ณด์์ ๊น์์ผ๋ก์จ, ๋๋ฌด ์ํํ๊ฑฐ๋ ํ์ ์๋ ์ ๋ต์ ํผํ๊ฒ ํฉ๋๋ค. ์ด๋ RL์ ์ค๋ฒํผํ ๋ฌธ์ ๋ฅผ ์ํํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
- ๊ธฐ๋ ๋ณด์ ๊ธฐ๋ฐ ์์ ํ: ์์ด์ ํธ๊ฐ ๋ฏธ๋์ ๊ธฐ๋ ๋ณด์ ๋ถํฌ๊น์ง ๊ณ ๋ คํด ํ์ตํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณด์์ ๊ธฐ๋๊ฐ์ ์ฌ์ฉํด ์ ์ฑ ์ ์์ ํํ๊ณ ์๋ ด์ ๋น ๋ฅด๊ฒ ํ๋ ์๋๋ ์์ต๋๋ค. ์ด๋ ๋ถํ์คํ ํ๊ฒฝ์์ ๋ณด์์ด ๋ค์ญ๋ ์ญํ ๋, ํ๊ท ์ ์ธ ์ฑ๊ณผ๋ฅผ ๋์ด๋๋ก shapingํ๋ ๊ฒ์ ๋๋ค.
๋ํ ๋ณด์ ๊ณํ(Reward Planning)์ด๋ผ๋ ๊ฐ๋ ๋ ๋ฑ์ฅํ๋๋ฐ, ์ํ๊ณต๊ฐ์ ์ชผ๊ฐ์ด ์๋ธํ์คํฌ๋ก ๋๋ ๋ค์ ํ์์ ์ธ ๋ถํ -์ ๋ณต ๋ฐฉ์์ผ๋ก ๋ณด์์ ์ค์ ํ๋ ์ ๊ทผ์ ๋๋ค. ํ ์ฐ๊ตฌ์์๋ Pendubot(์ด์ค ์ง์ ๋ก๋ด) ์ ์ด์์ ์ด ๋ฐฉ๋ฒ์ ์ผ๋๋ฐ, ์ง์์ ์ค์์ ๊ณผ ๋ฐธ๋ฐ์ฑ์ด๋ผ๋ ๋ ๊ฐ์ ์๋ธํ์คํฌ๋ก ์ชผ๊ฐ๊ณ , ๊ฐ๊ฐ์ ๋ํ ๋ณด์ ํจ์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ค๊ณํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ฒด ๋ณด์์ ์ด ๋ ๋จ๊ณ์ ์ฑ์ทจ์ ๊ธฐ๋ฐํ์ฌ ์ฃผ๋ ์์ผ๋ก ํ๋๋, ํ๋ผ๋ฏธํฐ ๋ถํ์ค์ฑ์ด 200~300%๋ ๋๋ ์ํฉ์์๋ ์์ด์ ํธ๊ฐ ๋น ๋ฅด๊ฒ ์ ์ํ๊ณ ์ฝ 95%์ ๋์ ์ฑ๊ณต๋ฅ ๋ก ์๋ฌด๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฅ์ ์, ํฐ ๋ฌธ์ ๋ฅผ ์ชผ๊ฐ์ ๊ฐ ๋ถ๋ถ์ ์ต์ ๋ณด์์ ์ค๊ณํ ์ ์์ผ๋ฏ๋ก ๋ถํ์ค์ฑ์ด ํฌ๊ณ ๋ณต์กํ ์์คํ ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ๋ํ ํน์ ํ๋(์: ์ง๋์น๊ฒ ์๋์ง๋ฅผ ์ฐ๋ ํ๋)์ ์์ ํผํ๋๋ก ๋ณด์์์ ์ ์ธํ๋ ๋ฑ ๋ฏธ์ธํ ์ ์ด๋ ๊ฐ๋ฅํฉ๋๋ค. ๋จ์ ์ผ๋ก๋, ์ด๋ ๊ฒ ๋ณด์ ํจ์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ชผ๊ฐ๊ณ ๋ง๋๋ ์์ ์์ฒด๊ฐ ์๊ฐ์ด ๋ง์ด ๋๋ ์์์ ์ด๋ผ๋ ์ ์ ๋๋ค. ๊ฒฐ๊ตญ ์ค๊ณ์๊ฐ ์์คํ ์ ๋ํ ๊น์ ์ดํด๊ฐ ์์ด์ผ ํ๊ณ , ์๋ธํ์คํฌ๋ก ๋๋๋ ๊ณผ์ ๋ ๋ฌธ์ ์ ํนํ๋์ด ์์ด ์ผ๋ฐํ๊ฐ ์ด๋ ต์ต๋๋ค.
์์ฝํ๋ฉด, ์ต์ Reward Shaping ๊ธฐ๋ฒ๋ค์ ์์ , ์์ฐ์ด, ๋ ผ๋ฆฌ, ๋ถํ์ค์ฑ, ํ์คํฌ ๋ถํ ๋ฑ ๋ค์ํ ํค์๋๋ฅผ ์ค์ฌ์ผ๋ก ๋ฐ์ ํ๊ณ ์์ต๋๋ค. ์ด๋ ๋ณด์ ์ค๊ณ๊ฐ ๋ ์ด์ ๋จ์ํ ์์ ํ๋ ์ ํ๋ ๋ฌธ์ ๊ฐ ์๋๋ผ, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ ๊ณ ์ฐจ์ ์ง์, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ์ ์ธ์ด/๋ ผ๋ฆฌ์ ์ง์๊น์ง ํฌ๊ดํ๋ ์์ญ์ผ๋ก ํ์ฅ๋๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค.
๋ก๋ด๊ณตํ ๋ฐ ๊ธฐํ ๋ถ์ผ์์์ ์์ฉ
๊ฐํํ์ต์ Reward Engineering/ํ์ฑ ๊ธฐ๋ฒ๋ค์ ํนํ ๋ก๋ด๊ณตํ(Robotics) ๋ถ์ผ์์ ํ๋ฐํ ์์ฉ๋๊ณ ์์ต๋๋ค. ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์ ์์ง์ด๋ฏ๋ก ์๋ชป ํ์ตํ๋ฉด ์์ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์๊ณ , ์ผ์ ๋ ธ์ด์ฆ ๋ฑ ํ์ค์ ์ธ ์ด๋ ค์๋ ๋ง์ต๋๋ค. ์ด์ ๋ฐ๋ผ ๋ก๋ด ๋ถ์ผ ์ฐ๊ตฌ์๋ค์ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ์ฐฝ์์ ์ผ๋ก ์ค๊ณํ์ฌ ๋ก๋ด์ด ์์ ํ๊ณ ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ์๋ํ๊ณ ์์ต๋๋ค.
์ธ๊ฐ-๋ก๋ด ํ์ ์ ์ํ ์์ ํจ์จํ ๋ณด์ ์ค๊ณ
์ฐ์ ํ์ฅ์์ ์ฌ๋๊ณผ ๋ก๋ด์ด ๊ฐ์ด ์ผํ๋ ค๋ฉด, ๋ก๋ด์ด ์ฌ๋์ ๋ค์น๊ฒ ํ์ง ์์ผ๋ฉด์๋ ์์ ํจ์จ์ ๋์ฌ์ผ ํฉ๋๋ค. ํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์ธ๊ฐ-๋ก๋ด ํ์ (HRC) ์๋๋ฆฌ์ค์์, ๋ก๋ด์ด ์ถฉ๋์ ํํผํ๋ฉด์๋ ์ ๋ฌด๋ฅผ ์ ์ํํ๋๋ก ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก IRDDPG (Intrinsic Reward DDPG) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋๋ฐ, DDPG๋ผ๋ Actor-Critic ๊ฐํํ์ต ๋ฐฉ๋ฒ์ ๋ด์ฌ์ ๋ณด์์ ์ถ๊ฐํ ๊ฒ์ ๋๋ค. ๋ก๋ด ํ์ด ์ฌ๋๊ณผ ๊ณต๋ ์์ ํ ๋, ์ธ์ฌ์ ๋ณด์์ ์์ ์๋ฃ๋ ์ถฉ๋ ์ฌ๋ถ ๋ฑ์ผ๋ก ์ฃผ๊ณ , ๋ด์ฌ์ ๋ณด์์ผ๋ก๋ ๋ก๋ด ์ค์ค๋ก ์ค์ ํ ์์ ๊ฑฐ๋ฆฌ ์ ์ง๋ ๋ถ๋๋ฌ์ด ์์ง์ ๋ฑ์ ๋ฃ์์ต๋๋ค. ์ด๋ ๊ฒ ๋ณตํฉ ๋ณด์ ํจ์๋ฅผ ์ฌ์ฉํ๋, ์คํ ๊ฒฐ๊ณผ ๋ก๋ด์ ์ฌ๋๊ณผ ์ถฉ๋ํ์ง ์์ผ๋ฉด์๋ ์์ ์ ๋ง์น๋ ์ ์ฑ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ์ต๋๋ค. ๊ธฐ์กด์ ์ฌ๋์ด ์์ ๋ง๋ ๋ณด์ ํจ์๋ณด๋ค๋ ํ์ต์ด ๋นจ๋๊ณ , ๋์ ์ํฉ์์๋ ์ ์๋ ฅ์ด ๋์์ต๋๋ค. ์ฆ, ํ์ต ์ค์ ๋ณด์์ ์กฐ์ ํจ์ผ๋ก์จ ๋ก๋ด์ด ์์ ๊ณผ ํจ์จ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก์ ์ ์์๋ ๊ฒ์ ๋๋ค. ์ด ์ ๊ทผ์ ์ฑ๊ณผ๋, ์ผ๋ฐ์ ์ธ ๋ณด์์ผ๋ก๋ ๋ฌ์ฑํ๊ธฐ ์ด๋ ค์ด ์์ ๊ฐ์ ๋ชฉํ๋ฅผ ๋ด์ฌ์ ๋ณด์์ผ๋ก ์ ๋ น์ฌ๋ธ ์ ์ ๋๋ค. ๋ค๋ง ๋ณต์กํ ๋ณด์ ๊ตฌ์กฐ ์ต์ ํ์ ๋์ ์ฐ์ฐ๋์ด ๋จ์ ์ผ๋ก ์ง์ ๋๋๋ฐ, ์ด๋ ๋ด์ฌ+์ธ์ฌ ๋ณด์ ๋ชจ๋๋ฅผ ๋ค๋ค์ผ ํ๊ณ DDPG ์์ฒด๋ ์์ ์๋ชจ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ํํ ํผ๋๋ฐฑ์ ํ์ฉํ ๊ฐ์ ์ฉ ๋ก๋ด ํ์ต
๋ค๋ฅธ ์๋๋ฆฌ์ค๋ก, ๊ฐ์ ๋ด ์๋น์ค ๋ก๋ด์ด ๋ฌผ๊ฑด ์ ๋ฆฌ ๊ฐ์ ์์ ์ ๋ฐฐ์ธ ๋ ์ฌ๋์ ํผ๋๋ฐฑ์ ํ์ฉํ๋ ์ฐ๊ตฌ๊ฐ ์์์ต๋๋ค. ๋ก๋ด์ด ์์ ํ ์์จ์ ์ผ๋ก ํ์ตํ๋ฉด ๋๋ฆฌ๊ณ ์ํ์ฐฉ์ค๊ฐ ๋ง์ ์ ์์ผ๋ฏ๋ก, ์ฌ๋ ๋๋ ๋ณด์กฐ ์์ด์ ํธ๊ฐ ์ค๊ฐ์ ํผ๋๋ฐฑ์ ์ฃผ์ด ํ์ต์ ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด ์ฐ๊ตฌ์์๋ ์ธ ๊ฐ์ง ํ์ต ๋ชจ๋๋ฅผ ๋น๊ตํ์ต๋๋ค:
- ์์จ RL (์ค๋ก์ง ํ๊ฒฝ ๋ณด์์ผ๋ก ํ์ต),
- ์์ด์ ํธ-๋ณด์กฐ ๋ํํ RL (๋ค๋ฅธ AI ์์ด์ ํธ๊ฐ ํผ๋๋ฐฑ ์ ๊ณต),
- ์ธ๊ฐ-๋ณด์กฐ ๋ํํ RL (์ฌ๋์ด ํผ๋๋ฐฑ ์ ๊ณต).
์คํ์ ์ผ๋ก, ๋์ผํ ์์ ์ ๋ํด ๋ํํ ํผ๋๋ฐฑ์ ๋ฐ์ ๊ฒฝ์ฐ๊ฐ ํ์ต ์๋๊ฐ ๋ ๋น ๋ฅด๊ณ ์ค๋ฅ๊ฐ ์ ์์ผ๋ฉฐ, ๋์ ๋ณด์๋ ๋์์ต๋๋ค. ํนํ ์ธ๊ฐ์ด ํผ๋๋ฐฑ์ ์ค ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๋๋ฐ, ์ด๋ ์ฌ๋์ ์ ๋ฌธ ์ง์์ด๋ ์ง๊ด์ด ์ ์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋ก๋ด์ด ๋ฌผ๊ฑด์ ์๋ฑํ ์๋ฆฌ์ ๋ ๋ ์ฌ๋์ ์ฆ๊ฐ โ๊ทธ๊ฑด ์๋ชป๋๋คโ๋ผ๊ณ ์ ํธ๋ฅผ ์ค ์ ์์ด, ๋ก๋ด์ด ๊ธด ํ์ ๋์ ์คํจํ์ง ์๊ณ ๋ ๋ฐ๋ก ๊ต์ ํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ธํฐ๋ํฐ๋ธ shaping์ ์ฅ์ ์, ์์ด์ ํธ๊ฐ ์งง์ ์ํผ์๋ ์์ ๋ ๋ง์ ํ์ต์ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ฆ, ํํ ๊ณต๊ฐ์ ์ฌ๋์ ๋์์ผ๋ก ์ขํ์ฃผ๊ฑฐ๋, ๋ณด์ ์ ํธ๋ฅผ ์ธ๋ฐํ๊ฒ ๋ง๋ค์ด์ฃผ๋ ํจ๊ณผ์ ๋๋ค. ์ฐ๊ตฌ์์๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ด ์ฝ๊ฐ ๋ ํจ๊ณผ์ ์ด์์ง๋ง, AI ์์ด์ ํธ์ ํผ๋๋ฐฑ๋ ์๋นํ ํฅ์์ ์ฃผ์ด, ์๋ํ๋ ์ฝ์น(agent coach) ๊ฐ๋ ๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์์ต๋๋ค. ๋ฌผ๋ก ์ด๋ฌํ ์ ๊ทผ์ ๊ณผ์ ๋, ์ฌ๋์ด๋ ๋ณด์กฐ ์์ด์ ํธ์ ํผ๋๋ฐฑ ์ ๋ต์ ์ด๋ป๊ฒ ์ต์ ํํ ๊ฒ์ธ๊ฐ ํ๋ ์ ์ ๋๋ค. ์๋ชป๋ ์กฐ์ธ์ ์ฃผ๋ฉด ํ์ต์ด ๋ง๊ฐ์ง ์ ์์ผ๋ฏ๋ก, ์ธ์ ๊ฐ์ ํ๊ณ ์ด๋ ์ ๋ ์ ํธ๋ฅผ ์ค์ง ๋ฑ์ ์ฒด๊ณํํด์ผ ํฉ๋๋ค.
ํ์ค ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ ๋ณด์ ๋ฐ ๋๋ฉ์ธ ์ ์
๋ก๋ด ๋ถ์ผ์์ ํํ ๊ฒช๋ ๋ฌธ์ ๋ก, ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ํ๊ฒฝ์ ์ฐจ์ด(sim-to-real gap)๊ฐ ์์ต๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ด์ํ๋ฉด ์ฑ๋ฅ์ด ๊ธ๋ฝํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ฃ . ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋๋ฉ์ธ ์ ์(domain adaptation), ๋๋ฉ์ธ ๋๋คํ(domain randomization), ๋ฉํํ์ต(meta-learning) ๋ฑ์ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋๋๋ฐ, ๋ณด์ ์ค๊ณ๋ ์ด ๊ณผ์ ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.

์์ ๊ทธ๋ฆผ์ ์๋จ์์ ๋ฌ์ฌ๋ ๋๋ฉ์ธ ์ ์์, ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๊ฐ ์ฐจ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด ๊ณตํต ํน์ฑ ๊ณต๊ฐ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฎฌ๋ ์ดํฐ ์์๊ณผ ์ค์ ์นด๋ฉ๋ผ ์์์ ๋์ผํ ํํ ๊ณต๊ฐ์ผ๋ก ์๋ฒ ๋ฉํ์ฌ, ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ฑ ์ด ํ์ค ์ ๋ ฅ์๋ ์ ์ ์ฉ๋๋๋ก ํฉ๋๋ค. ๊ทธ๋ฆผ ํ๋จ ์ข์ธก์ ๋๋ฉ์ธ ๋๋คํ๋, ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ ๋ ๋๋ง์ ๋ฌด์์๋ก ๋ณํ์์ผ ํ์ตํจ์ผ๋ก์จ, ํ์ค์ ๋ค์ํ ์กฐ๊ฑด์ ๊ฒฌ๋๋ ์ ์ฑ ์ ์ป๋ ๊ธฐ๋ฒ์ ๋๋ค. ํ๋จ ์ฐ์ธก์ ๋ฉํ RL์, ๋ค์ํ ํ๊ฒฝ๋ค์ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฉํ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ผ๋ก, ์ดํ ์๋ก์ด ํ์ค ํ๊ฒฝ์๋ ์งง์ ์ฌํ์ต(fine-tuning)์ผ๋ก ์ ์ํ๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ณด์ ์ค๊ณ๋ ์ด๋ฌํ sim-to-real ์ ๋ต๋ค๊ณผ ํจ๊ป ์ฐ์ฌ, ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์์๋ถํฐ ํ์ค ์ ์ฉ์ ์ผ๋์ ๋ ๋ณด์์ ํ์ฑํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ์ฐ๊ตฌ์์๋ CSAR (Consensus-based Sim-And-Real) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ฌ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค์์ ๋์ผํ ๋ณด์ ๊ตฌ์กฐ๋ก ๋ณ๋ ฌ ํ์ต์ ์งํํ์ต๋๋ค. ์ฌ๋ฌ ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ ์ ๊ฐ์ ๋ก๋ด๊ณผ ํ๋์ ์ค์ ๋ก๋ด์ ๋์์ ํ์ต์ํค๋ฉด์, ๋ณด์์ ๋ํ ํฉ์(consensus)๋ฅผ ์ด๋ฃจ๋ ์ ์ฑ ์ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๋ฎฌ๋ ์ดํฐ์ ๋น ๋ฅธ ํ์ต๊ณผ ํ์ค ํ๊ฒฝ์ ๊ฒ์ฆ์ด ๋์์ ์ผ์ด๋, ํ์ค ์ ์ด ์ ์ฑ๋ฅ ์ ํ๊ฐ ์ ๊ณ ํ๋ จ ์๊ฐ๋ ์ค์ด๋ญ๋๋ค. ์คํ์์ ์๋ฎฌ๋ ์ดํฐ ๋ก๋ด์ ์๋ฅผ ๋๋ฆด์๋ก ์ค์ ๋ก๋ด์ ์์ ์ฑ๊ณต๋ฅ ์ด ๋์์ก๋๋ฐ, ์ด๋ ์๋ฎฌ๋ ์ดํฐ๋ก ๋ค์ํ ์ํฉ์ ์ปค๋ฒํ๋ฉด์๋ ๋ณด์ ๊ตฌ์กฐ๊ฐ ์ผ๊ด๋๊ฒ ์ ์ง๋์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ ๋ค๋ฅธ ์ฐ๊ตฌ์์๋ ๋ฐ๊ฐ์(semi-virtual) ํ๊ฒฝ์ ์ค๊ฐ ๋จ๊ณ๋ก ๋์ ํ์ฌ 2๋จ๊ณ sim-to-real ์ ์ด๋ฅผ ์ํํ์ต๋๋ค. 1๋จ๊ณ์์ ์๋ฎฌ๋ ์ดํฐ+์ฝ๊ฐ์ ํ์ค ์์ (์: ์ค์ ๋ก๋ด์ ๋์ญํ, ๊ทธ๋ฌ๋ ์ผ์๋ ๊ฐ์)๋ก ํ์ตํ๊ณ , 2๋จ๊ณ์์ ๊ทธ ์ ์ฑ ์ ์ค์ ํ๊ฒฝ(์ค์ ์ผ์+๋ก๋ด)์์ fine-tuning ํ๋ ๋ฐฉ์์ ๋๋ค. ์ด๋๋ ๋ณด์ ํจ์๋ ๋ ๋จ๊ณ์ ๊ฑธ์ณ ์ผ๊ด๋๊ฒ ์ ์งํ์ฌ, ์์ด์ ํธ๊ฐ ํ์ต ๋ชฉํ๋ฅผ ๋ฐ๊พธ์ง ์๊ณ ์ ์๋ง ํ๋๋ก ํ์ต๋๋ค. ์ด๋ฌํ ์ฒด๊ณ๋ก ๋ณต์ก์ฑ์ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉด, ํ ๋ฒ์ ํ์ค๋ก ๋ฐ์ด๋๋ ๊ฒ๋ณด๋ค ์์ ํ๊ณ ์์ ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
sim-to-real ์ ์ด์์ ์ค์ํ ๊ฒ์, ๋ณด์ ํดํน์ด ํ์ค์์๋ ํตํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์์ ์๋ก ๋ ์ฒญ์ ๋ก๋ด์ด ์ผ์๋ฅผ ๊ฐ๋ฆฌ๋ ๊ฒฝ์ฐ์ฒ๋ผ, ์๋ฎฌ๋ ์ด์ ์์ ๋ณด์ ํดํน์ ๋ฐฐ์ ๋ค๋ฉด ์ค์ ๋ก๋ด๋ ์ ์ฌํ ๊ผผ์๋ฅผ ๋ถ๋ฆด ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์๋ฎฌ๋ ์ดํฐ ๋จ๊ณ์์๋ถํฐ ์ฌ๋ฐ๋ฅธ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ์ฌ ํดํน ๊ฐ๋ฅ์ฑ์ ์ค์ด๊ณ , ์์ด์ ํธ๊ฐ ์ง์ง ๋ชฉํ์ ์ง์คํ๋๋ก ํด์ผ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฒญ์ ๋ก๋ด์๊ฒ๋ โ๋ฐฉ์ด ๊นจ๋ํด์ ธ๋ผโ ๋ณด์๋ง ์ฃผ๋ ๊ฒ ์๋๋ผ, ์ฒญ์ ํ๋ ์์ฒด์๋ ์ฝ๊ฐ์ ๋ณด์์ ์ค์ ์ ์ด๋ ํ๋์ ํ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค. ๋๋ ์ฌ๋์ ํผ๋๋ฐฑ์ ์๋ฎฌ๋ ์ดํฐ ๋จ๊ณ์์ ํ์ฉํ์ฌ, ์์ด์ ํธ๊ฐ ํธ๋ฒ์ ํ๋ฉด ์ฆ์ ๊ต์ ๋ฐ๋๋ก ํ ์๋ ์์ต๋๋ค.
๊ฒฐ๊ตญ Reward Shaping + ๋๋ฉ์ธ ์ ์ + ๋ฉํ๋ฌ๋ + ์ธ๊ฐํผ๋๋ฐฑ ๋ฑ์ด ์ข ํฉ์ ์ผ๋ก ํ์ฉ๋์ด์ผ, ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก์ ์ฑ๊ณต์ ์ธ ์ง์ ์ด์ ์ด ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ค ์ ๊ทผ์ ๊ฐ๊ฐ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ์ ๋์ด๊ณ , ํจ์จ์ฑ์ ๊ฐ์ ํ๋ฉฐ, ์์ ์ฑ์ ํ๋ณดํ๋ ์ญํ ์ ํฉ๋๋ค. ์์ผ๋ก ์๋ฎฌ๋ ์ดํฐ์ ์ฌ์ค์ฑ์ด ๋์์ง๊ณ , ์๋ํ๋ ๋ณด์ ์ค๊ณ ๊ธฐ๋ฒ์ด ๋ฐ์ ํ๋ค๋ฉด, ํ์ค์์ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ ๊ฒช์ง ์๊ณ ๋ ์๋ฎฌ๋ ์ด์ ๋ง์ผ๋ก ๊ณ ์ฑ๋ฅ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ๋ ๊ฟ์ด ์๋๋๋ค. ๋ค๋ง ๊ทธ ๊ณผ์ ์์ ํญ์ ์ฌ๋ฐ๋ฅธ ๋ณด์ ์ค์ ์ ์ ์งํด์ผ ํ๋ฉฐ, ์์ด์ ํธ๊ฐ ์๋ชป๋ ์ฑ๊ณต ๊ธฐ์ค์ ์ถ๊ตฌํ์ง ์๋๋ก ์ง์์ ์ธ ๋ชจ๋ํฐ๋ง์ด ํ์ํฉ๋๋ค.
Reward Engineering์ ์ฅ์ ๊ณผ ํ๊ณ: ๋ฏธ๋์ ํต์ฌ์ธ๊ฐ?
์ง๊ธ๊น์ง ์ดํด๋ณธ ์ฌ๋ก๋ค์ด ๋ณด์ฌ์ฃผ๋ฏ, Reward Shaping/Engineering์ RL ์์ด์ ํธ์ ํ์ต์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ์ ๋ฆฌํด๋ณด๋ฉด, ์ ๋๋ก ๋ Reward Shaping์ ๋ค์๊ณผ ๊ฐ์ ์ฅ์ ์ ์ ๊ณตํฉ๋๋ค:
- ํ์ต ๊ฐ์ํ: ์ถ๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ์์ด์ ํธ๊ฐ ์ต์ ์ ์ฑ ์ ํจ์ฌ ๋น ๋ฅด๊ฒ ์ฐพ๋๋ก ๋์์ค๋๋ค. ๋ณต์กํ ํ๊ฒฝ์์ ์์ญ๋ง ๋จ๊ณ๊ฐ ๊ฑธ๋ฆฌ๋ ํ์ต์ด Reward Shaping์ผ๋ก ํฌ๊ฒ ๋จ์ถ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด STRIPS ๊ธฐ๋ฐ shaping์ด๋ UCBVI-shaped, DRiP ๋ฑ์ ๋ฐฉ๋ฒ๋ค์ ๊ธฐ์กด๋ณด๋ค ๋น ๋ฅธ ์๋ ด์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ํํ ํฅ์: ํนํ ํฌ์ ๋ณด์ ํ๊ฒฝ์์, shaping ๋ณด์์ ์์ด์ ํธ์๊ฒ ํํ ๋๊ธฐ๋ฅผ ๋ถ์ฌํ์ฌ ๋ ํ๋ฐํ๊ฒ ํ๊ฒฝ์ ํ์ํ๊ฒ ํฉ๋๋ค. ์ด๋ ์์ด์ ํธ๊ฐ ๋์ณค์ ๊ฐ์น ์๋ ์ํ๋ค์ ๋ฐ๊ฒฌํ๊ฒ ํด์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋์ ์ ์ฑ ์ ์ฐพ๊ฒ ๋ฉ๋๋ค. ์ฌ๋ฌ ์ฌ๋ก๋ค(ํด์ ํ์, RUNE ๋ฑ)์์ shaping์ ํตํด baseline์ด ์ ํ ์ฑ๊ณต ๋ชป ํ๋ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ๋ ํ์ต๋๋ค.
- ์ต์ข ์ฑ๋ฅ ๊ฐ์ : Reward Shaping์ ์ ์ ํ ํ๋ฉด ์์ด์ ํธ๊ฐ ์ ์ด shaping ์์ด๋ ๋๋ฌ ๋ชปํ์ ๊ณ ์ฑ๋ฅ ์ ์ฑ ์ ๋๋ฌํ๊ธฐ๋ ํฉ๋๋ค. ์ต์ ์ ์ฑ ์ ๊ณต๊ฐ์ ์ฌ๋ฌ ํ๋ณด๊ฐ ์์ ๋, shaping์ ๊ทธ ์ค ๋ ์ฐ์ํ ์ ์ฑ ์ ์ ํํ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค. Section IV์ ์ฌ๋ฌ ๋ฐฉ๋ฒ๋ค์ด ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ์ต๋๋ค.
- ์ ์ฑ ๊ฐ๊ฑด์ฑ ์ฆ๊ฐ: ์ ์ค๊ณ๋ shaping์ ํ์ต๋ ์ ์ฑ ์ ์ก์, ํ๊ฒฝ ๋ณํ ๋ฑ์ ๋ ์ทจ์ฝํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ํผ๋ํ๋ ฌ๋ก ๋ ธ์ด์ฆ๋ฅผ ๋ณด์ ํ ๋ณด์์ด๋, ๋๋ฉ์ธ ๋๋คํ์ ๊ฒฐํฉํ shaping ๋ฑ์ ์์ด์ ํธ๊ฐ ๋ค์ํ ์ํฉ์์๋ ๋ฌด๋์ง์ง ์๋๋ก ํฉ๋๋ค. ๋ํ ์ ์ฌ ๋ณด์ ๋ฑ์ผ๋ก ํน์ ์ํ ํ๋์ ํผํ๋๋ก ํ์ตํ๋ฉด, ํ๊ฒฝ์ด ์ฝ๊ฐ ๋ฌ๋ผ์ ธ๋ ๊ธฐ๋ณธ์ ์ธ ์์ ์ ์ง์ผ์ง๋๋ค.
์ด๋ฌํ ์ฅ์ ๋ค ๋๋ฌธ์, ๋ง์ ์ ๋ฌธ๊ฐ๋ค์ด Reward Engineering์ ๋ฏธ๋ ๊ฐํํ์ต ์ฑ๊ณผ์ ์ด์ ์ค ํ๋๋ก ๋ด ๋๋ค. ๊ทธ๋ฌ๋ ํํธ์ผ๋ก๋ ๋ช ๊ฐ์ง ์ค๋ํ ๋์ ๊ณผ ํ๊ณ๋ ์กด์ฌํฉ๋๋ค:
- ๋๋ฉ์ธ ์ง์ ์์กด์ฑ: ๋ง์ Reward Shaping ๊ธฐ๋ฒ๋ค์ด ํด๋น ๋ฌธ์ ์ ๋ํ ์ ๋ฌธ๊ฐ ์ง์์ ์์กดํฉ๋๋ค. ์ ์ฌ ํจ์๋ ํด๋ฆฌ์คํฑ ๋ณด์, ๊ณํ ๊ธฐ๋ฐ ๋ณด์ ๋ฑ์ ์ฌ๋์ด ์ผ์ผ์ด ์ค๊ณํด์ผ ํ๊ณ , ์ด๋ ๋ณต์กํ ๋๋ฉ์ธ์ผ์๋ก ์ด๋ ต์ต๋๋ค. ์ฒ์ ๋ฌธ์ ๋ฅผ ์ ํ๊ฑฐ๋ ์ ๋ฌธ ์ง์์ด ๋ถ์กฑํ ๊ฒฝ์ฐ์ ์ด๋ค shaping์ ์ค์ผ ํ ์ง์กฐ์ฐจ ๋ชจ๋ฅผ ์ ์์ต๋๋ค.
- ์ถ๊ฐ ์ค๊ณ ์๊ฐ๊ณผ ๋ ธ๋ ฅ: ๋ณด์ ํจ์๋ฅผ ๊ธฐ๋ณธ ํ๊ฒฝ ๋ณด์ ์ธ์ ๋ ์ค๊ณํ๋ ๊ฒ์ ์ถ๊ฐ ์์ ๋ถ๋ด์ ๋ปํฉ๋๋ค. ๋ณด์ ํจ์ ์ ๋น ์ง์ง ์๋๋ก ์ฌ๋ฌ ๋ฒ ์ํํ๋ฉฐ ์กฐ์ ํด์ผ ํ ์๋ ์๊ณ , ์ต์ ์ shaping ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๊ธฐ ์ํด ๋ง์ ์คํ์ ํด์ผ ํ ์๋ ์์ต๋๋ค. ์ด๋ ํ๋ก์ ํธ ์ผ์ ์ด๋ ๋น์ฉ ์ธก๋ฉด์์ ๋ถ๋ด์ ๋๋ค.
- ๊ณ์ฐ ๋ณต์ก๋ ์ฆ๊ฐ: ์ผ๋ถ shaping ๋ฐฉ๋ฒ์ ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ๋ฅผ ๋ณต์กํ๊ฒ ๋ง๋ค์ด ๊ณ์ฐ ๋น์ฉ์ ๋๋ฆฝ๋๋ค. ์์ปจ๋ ์ ์ฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์์ ์ ์ฌ๊ฐ์ ๊ณ์ฐยท์ ๋ฐ์ดํธํ๋ ๋น์ฉ, BiPaRS์ฒ๋ผ ์ด์ธต ์ต์ ํ๋ฅผ ์ํํ๋ ๋น์ฉ ๋ฑ์ด ์ถ๊ฐ๋ฉ๋๋ค. ์ค์๊ฐ ์ ์ด๋ ์ ํ๋ ์์ ํ๊ฒฝ์์๋ ์ด๋ฌํ ์ค๋ฒํค๋๊ฐ ๋ฌธ์ ๋ ์ ์์ต๋๋ค. (๋ฌผ๋ก ๋ฐ๋๋ก, shaping์ผ๋ก ํ์ ๋จ๊ณ ์๊ฐ ์ค์ด๋ค์ด ๊ฒฐ๊ณผ์ ์ด๋น์ฉ์ ๊ฐ์ํ๋ ๊ฒฝ์ฐ๋ ์์ต๋๋ค).
- ํ๋ผ๋ฏธํฐ ํ๋ ๋ฌธ์ : ๋ง์ shaping์๋ ์๋ก์ด ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ด ์๊น๋๋ค (๋ณด์ ์ค์ผ์ผ, ํผํฉ ๋น์จ ๋ฑ). ์ด๊ฒ๋ค์ ์ ์ ํ ์กฐ์จํด์ผ ํจ๊ณผ๋ฅผ ๋ณด๋๋ฐ, ์๋ชป ์ค์ ํ๋ฉด ํ์ต์ด ๋ง๊ฐ์ง ์ ์์ต๋๋ค. ๋คํํ BiPaRS๊ฐ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์์จ ํ๋ํ๋ ค๋ ์๋๋ ์์ง๋ง, ์ฌ์ ํ ์ผ๋ฐ์ ์ด์ง๋ ์์ต๋๋ค. ์ฌ์ฉ์๋ ์๋ก์ด shaping ๊ธฐ๋ฒ์ ๋์ ํ ๋ ๋๋ค๋ฅธ ํ๋ ๊ณผ์ ๋ฅผ ๋ ์๊ฒ ๋ฉ๋๋ค.
- ์ค๊ณ ์ค๋ฅ ๊ฐ๋ฅ์ฑ: ์๋ชป๋ Reward Shaping์ ์๋๋๋ง ๋ชปํ ์ ์์ต๋๋ค. ์๋์ ๋ค๋ฅด๊ฒ ์ต์ ์ ์ฑ ์ ๋ฐ๊ฟ๋ฒ๋ฆฌ๊ฑฐ๋, ๋ณด์ ํดํน์ ์ ๋ฐํ๊ฑฐ๋, ํ์ต์ ๋๋ฆฌ๊ฒ ๋ง๋ค ์๋ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ ์คํ ๊ฒ์ฆ๊ณผ ๋ชจ๋ํฐ๋ง์ด ํ์ํ๋ฉฐ, ์ด๋ ์คํ์ ๋ ธ๋ ฅ์ ์ํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ ๋๋ฌธ์, Reward Shaping์ ๋์ ํ ๋๋ ๋ฌธ์ ์ํฉ์ ๋ํ ๋ฉด๋ฐํ ๊ณ ๋ ค์ ๊ฒํ ๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์๋ง ํ์ฉํ๋ฉด ์ป๋ ์ด์ต์ด ๋งค์ฐ ํฌ๋ฏ๋ก, ๋ง์ RL ์ฐ๊ตฌ์ ์์ฉ ๋ถ์ผ์์ Reward Engineering์ ํฌ๊ธฐํ ์ ์๋ ๋๊ตฌ๊ฐ ๋๊ณ ์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Reward Shaping์ ๊ฐํํ์ต ์ฑ๋ฅ์ ํ ๋จ๊ณ ๋์ด์ฌ๋ฆฌ๋ ๊ท์คํ ๊ธฐ๋ฒ์ ๋๋ค. ๊ฐ ๋ฐฉ๋ฒ๋ง๋ค ์ฅ๋จ์ด ์์ผ๋ฏ๋ก, ๊ณผ์ ์ ํน์ฑ์ ๋ง๋ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ ํํ๋ ๊ฒ์ด ์ฑ๊ณต์ ์ด์ ์ ๋๋ค. ๋ํ Reward Shaping ๊ธฐ๋ฒ๋ค์ ์๋ก ์กฐํฉํ๊ฑฐ๋ (์: ์ ์ฌ ๋ณด์ + ์ฐจ์ด ๋ณด์, ์ธ๊ฐ ํผ๋๋ฐฑ + ๋๋ฉ์ธ ๋๋คํ ๋ฑ), ๋ค๋ฅธ AI ๊ธฐ์ ๊ณผ ํตํฉํ์ฌ (์์ฐ์ด, ๋ ผ๋ฆฌ ๋ฑ) ํ์ฉํ๋ ๋ฐฉํฅ๋ ์ ๋งํฉ๋๋ค. ์์ผ๋ก RL์ ์ค์ ๋ณต์กํ ์์คํ ์ ์ ์ฉํ๋ ค๋ฉด, ๋จ์ํ ๋ณด์๋ง์ผ๋ก ํ์ตํ๋ ๊ฒ๋ณด๋ค๋ ์ด๋ฐ ์ ๊ตํ ๋ณด์ ์ค๊ณ ์ ๋ต๋ค์ ๋ฅ์ํ๊ฒ ๊ตฌ์ฌํ๋ ๋ฅ๋ ฅ์ด ์๊ตฌ๋ ๊ฒ์ ๋๋ค.
๊ฐ๋ฐฉ๋ ๊ณผ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
Reward Engineering ๋ฐ Reward Shaping์ ๋ฐ์ ์ ์ํด ์์ผ๋ก ํด๊ฒฐํด์ผ ํ ์ด๋ฆฐ ๊ณผ์ ๋ค๋ ๋ง์ด ๋จ์ ์์ต๋๋ค. ์ฐ์ , ์ํ ํจ์จ ํฅ์์ ์ง์์ ์ธ ๋ชฉํ์ ๋๋ค. ํ์ค์์ ๋ก๋ด์ด๋ ์์จ์ฃผํ์ฐจ๋ฅผ ํ์ต์ํฌ ๋, ์๋ง์ ์๋๋ฅผ ํด๋ณผ ์ ์์ผ๋ฏ๋ก ์ ์ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ธฐ๋ฒ์ด ํ์์ ๋๋ค. Reward Shaping์ ๊ทธ ํด๊ฒฐ์ฑ ์ค ํ๋๋ก ๊ฑฐ๋ก ๋์ง๋ง, ์ด๋ฅผ ๋์ฑ ๊ฐ์ ํ์ฌ ํ์ ์ต์ํ์ ์๋๋ก๋ ์ต์ ์ ์ฑ ์ ๊ทผ์ ํ ์ ์๊ฒ ํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด BiPaRS๋ MRN์ฒ๋ผ Reward Shaping ์์ฒด๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ, ํน์ ๋ฉํ๋ฌ๋๊ณผ ๊ฒฐํฉํ shaping์ผ๋ก few-shot ํ์ต์ ๊ฐ๋ฅ์ผ ํ๋ ๋ฐฉํฅ์ด ์ ๋งํฉ๋๋ค.
๋ํ ๊ฐ๊ฑด์ฑ(Robustness)์ ์ฌ์ ํ ์ค์ํ ์ด์์ ๋๋ค. ์์์ ์๋ฅผ ๋ ๋ ธ์ด์ฆ ๋ณด์ ์ฒ๋ฆฌ๋ ์์ ํ ๋ณด์ ๋ฑ์ด ๊ทธ ๋ฐฉํฅ์ด์ง๋ง, ๋์ฑ ์ผ๋ฐ์ ์ธ ์๋ฏธ์์, ํ๊ฒฝ ๋ณํ๋ ์์ธก ๋ถ๊ฐ๋ฅํ ์ํฉ์์๋ ์์ ์ ์ฑ๋ฅ์ ๋ณด์ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๊ตฌ๋ฉ๋๋ค. ์ด๋ฅผ ์ํด์๋ ์ด๋ก ์ ๋ณด์ฅ๊ณผ ์คํ์ ๊ฒ์ฆ์ด ๊ท ํ์ ์ด๋ค์ผ ํฉ๋๋ค. ์์ปจ๋ Osinenko ๋ฑ์ ์ฐ๊ตฌ์ฒ๋ผ, ๊ฐํํ์ต์ ๋ํ ์์ ์ฑ ๋ณด์ฅ์ ์ ๊ณตํ๋ฉด์๋ Reward Shaping์ผ๋ก ์ค์ ์ฑ๋ฅ์ ๋์ด๋ ์ ๊ทผ์ด ํ์ํฉ๋๋ค.
์ธ๊ฐ-๋ก๋ด ํ์ ์ด๋ ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ ์ญ์ ๋ฏธ๋ ํต์ฌ ์ฃผ์ ์ ๋๋ค. Industry 4.0 ์๋์ ์ธ๊ฐ๊ณผ AI/๋ก๋ด์ด ํจ๊ป ์ผํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ง๊ณ ์์ผ๋ฏ๋ก, ์ธ๊ฐ์ ์๋๋ฅผ RL์ ๋ฐ์ํ๋ ๋ฐฉ๋ฒ์ด ์ค์ํฉ๋๋ค. ๋ณด์ ์ค๊ณ ์ธก๋ฉด์์ , ํด๋จผ ์ธ ๋ ๋ฃจํ(human-in-the-loop) ํ์ต์ ์์ฐ์ค๋ฝ๊ฒ ๋ง๋ค ๊ธฐ์ ์ด ์๊ตฌ๋ฉ๋๋ค. MRN์ด๋ ์ ํธ ํ์ต ๋ฐฉ์์ ํ ์์ง๋ง, ๋ ๋์๊ฐ ์ค์๊ฐ์ผ๋ก ์ฌ๋๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ฐฐ์ฐ๋ RL (์: ์์ฑ์ด๋ ์ ์ค์ฒ๋ก ๋ณด์ ์ ํธ๋ฅผ ์ฃผ๊ณ ๋ฐ๋ ์์คํ )๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์ด๋ ๊ธฐ์ ์ ์ผ๋ก ๋์ด๋๊ฐ ๋์ง๋ง, ์ฑ๊ณตํ๋ค๋ฉด RL์ ํ์ฉ ํญ์ ํฌ๊ฒ ๋ํ ๊ฒ์ ๋๋ค.
๊ณ ์ฐจ์ ๊ฐ๊ฐ ๋ฐ์ดํฐ(์ด๋ฏธ์ง, LiDAR ๋ฑ)๋ก ์๋ํ๋ RL์์์ ๋ณด์ ์ค๊ณ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ ๋ช ์์ ๋ณด์์ ์ค๊ณํ๊ธฐ ๋งค์ฐ ์ด๋ ค์ฐ๋ฉฐ, ์ข ์ข end-to-end RL๋ก ์ ๊ทผํฉ๋๋ค. ์๋ฅผ ๋ค์ด Sergey Levine ๋ฑ์ ์ฐ๊ตฌ์์๋ ๋ณด์ ์ค๊ณ ์์ด ๋ก๋ด์ ์ฑ๊ณต ๋ฐ๋ชจ๋ง ๋ช ๊ฐ ๋ณด์ฌ์ฃผ๊ณ SAC(Soft Actor-Critic) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต์ํค๋ ๋ฐฉ์์ ์ทจํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ์ ๋ ฅ ๊ธฐ๋ฐ ๋ฌผ์ฒด ์กฐ์์์ 100%์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ฌํ ๋ณด์ ์๋(or ์ต์ ๋ณด์) ํ์ต์, ๋ณด์ ์ค๊ณ์ ์๊ณ ๋ฅผ ๋์ด์ค๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์์ ํ ๋ณด์์ ์์ค ๋ฐฉ์์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์์ปจ๋ ๋ฐ๋ชจ๋ฅผ ํตํด ํ์ตํ ์ ์ฑ ์ด ํญ์ ์ต์ ์ ์๋์ด์, ๋นํจ์จ์ ์ธ ๋์์ด ๋์ฌ ์ ์๊ณ , ํ๊ฒฝ ๋ณํ(๋ฌผ์ฒด ์์น๋ ์กฐ๋ช ๋ณํ ๋ฑ)์ ์ฝํ๋ฉฐ, ์ฌ์ฉ์์ ์ง์ ๋๋ ๊ต์ ๊ณผ์ ์ด ํ์ํ๋ฉด ๊ทธ ์์ด ๋ง์์ง๋ฉด ํ๋ค๋ค๋ ์ ์ด ์ง์ ๋ฉ๋๋ค. ๋ค์ ๋งํด, ๋ช ์์ ๋ณด์์ ์ ๊ฑฐํ๋ฉด ๋ค๋ฅธ ํํ์ ์ด๋ ค์์ด ์๊ธธ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
๋ฐ๋ผ์ ์ด์์ ์ธ ๋ฐฉํฅ์, ๋ช ์์ ๋ณด์ ์ค๊ณ์ ์์์ ์๋ฒ/ํผ๋๋ฐฑ ํ์ต์ ์ ์ ํ ํตํฉํ๋ ๊ฒ์ ๋๋ค. ์์ปจ๋ฐ, ๊ธฐ๋ณธ์ ์ธ ๋ณด์ ๊ตฌ์กฐ๋ ๊ฐ๋จํ ์ค๊ณํ๋, ์ธ๋ถ์ ์ธ ํ๋์ด๋ ์์ธ ์ํฉ ์ฒ๋ฆฌ๋ ๋ฐ๋ชจ๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ผ๋ก ๋ณด์ํ๋ ์์ ๋๋ค. ํน์ ๋ฐ๋๋ก, ์ผ๋จ ๋ฐ๋ชจ๋ก ํ์ตํ ํ์ ์ถ๊ฐ Reward Shaping์ผ๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๋ฐฉ๋ฒ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
๋ ํ๋์ ์ด๋ฆฐ ๊ณผ์ ๋ ์๋ํ๋ ๋ณด์ ์ค๊ณ(Automated Reward Design)์ ๋๋ค. ์ด๋ ์์ ๋ค๋ฃฌ BiPaRS๋ meta reward learning ๋ฑ์ด ํฌํจ๋๋ ์ฃผ์ ๋ก์, ๊ฐํํ์ต ์์ฒด๊ฐ ์ต์ ์ ๋ณด์ ํจ์๋ฅผ ์ฐพ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ด์์ ์ผ๋ก๋, ์ฌ์ฉ์๊ฐ ๋ชฉํ๋ง ๋ช ์ํ๋ฉด AI๊ฐ ์ค์ค๋ก ์ ํฉํ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์ฑํ๊ณ ํ์ต๊น์ง ํด์ฃผ๋ ๊ฒ์ด์ฃ . ์ด๋ฅผ ์ํด์ ๋ฉํ๋ฌ๋, ์งํ ์๊ณ ๋ฆฌ์ฆ, ํน์ ๊ณ ์ฐจ์ ์ต์ ํ ๊ธฐ๋ฒ๋ค์ด ํ์ฉ๋ ์ ์์ต๋๋ค. ํ์ฌ๋ ์ด๋ฌํ ์๋ํ ๊ธฐ๋ฒ๋ค์ด ์ด๊ธฐ ๋จ๊ณ์ด์ง๋ง, ์ ์ฐจ ๋ฐ์ ํ์ฌ ๋ณด์ ์ค๊ณ์ ๋ถ๋ด์ ํฌ๊ฒ ์ค์ฌ์ค ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ค์ธ๊ณ ๊ฒ์ฆ๋ ์ค์ํ ๋ฏธ๋ ๋ฐฉํฅ์ ๋๋ค. Reward Shaping ๊ธฐ๋ฒ๋ค์ ์ฃผ๋ก ์๋ฎฌ๋ ์ด์ ์ด๋ ์ ํ๋ ์คํ์์ ํจ์ฉ์ ๋ณด์์ง๋ง, ํ์ค ์ธ๊ณ์ ๋ณต์กํ ๋ฌธ์ ๋ค(์: ์์จ์ฃผํ ์ ์ฒด ์์คํ , ๊ณต์ฅ ์๋ํ ๋ผ์ธ, ์๋ฃ ์ฒ์น ์ ๋ต ๋ฑ)์ ์ ์ฉ๋ ์ฌ๋ก๋ ์ ์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ ์์ญ์ ๋ํ ํ์ผ๋ฟ ์ ์ฉ ์ฐ๊ตฌ๋ฅผ ํตํด, ์ค์ ๋ก๋ Reward Engineering์ด ์ฑ๊ณผ๋ฅผ ๋ด๋์ง ํ๊ฐํด์ผ ํฉ๋๋ค. ํ์ค ์ ์ฉ์์๋ ์๊ธฐ์น ๋ชปํ ๋ฌธ์ (๋ณด์ ํดํน์ด ์ฌํ์ ์ผ๋ก ์ํํ ๊ฒฐ๊ณผ๋ฅผ ๋ณ๋๋ค๋ ์ง, ์ค๋ฆฌ์ ๋ฌธ์ ๋ฑ)๊ฐ ๋์ฌ ์ ์์ผ๋ฏ๋ก, ๋คํ์ ์ ๊ด์ ์์ ๋ณด์ ์ค๊ณ์ ์ํฅ์ ์ดํผ๋ ๊ฒ๋ ํ์ํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ธ๊ฐ ๊ฐ์น์์ ์ ๋ ฌ(Alignment) ๋ฌธ์ ๋ฅผ ๋ค ์ ์์ต๋๋ค. ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ๋์ ๋ณด์์ ์ซ๋ค ๋ณด๋ฉด ์ธ๊ฐ์ด ์ํ์ง ์๋ ๋ฐฉํฅ์ผ๋ก ํ๋ํ ์ ์๋ค๋ ์ฐ๋ ค๊ฐ ์์ต๋๋ค. ์ด๊ฑธ ๋ฐฉ์งํ๋ ค๋ฉด ์ ์ด์ ์ธ๊ฐ์ ๊ฐ์น๊ด์ ๋ฐ์ํ ๋ณด์ ํจ์๊ฐ ์ค์ํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ค๋ฆฌ์ AI, AI ์์ ๋ถ์ผ์ ์ฐ๊ณํ์ฌ, ๋ณด์ ์ค๊ณ๋ฅผ ํตํด AI์ ํ๋์ ์ฌํ์ , ์ค๋ฆฌ์ ๊ธฐ์ค๊ณผ ๋ถํฉํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ชจ์ํ ๊ฒ์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, Reward Engineering์ ์์ผ๋ก ๋ ๋๋ํ RL์ ์ํด ๋ฐ๋์ ํ์ด์ผ ํ ์์ ๋ค๊ณผ ๊ฐ๋ฅ์ฑ์ ํจ๊ป ์ง๋๊ณ ์์ต๋๋ค. ์ํ ํจ์จ, ๊ฐ๊ฑด์ฑ, ์ธ๊ฐ ํตํฉ, ์๋ํ, ์ค์ ์ ์ฉ, ๊ฐ์น ์ ๋ ฌ ๋ฑ์ด ํค์๋์ด๋ฉฐ, ๊ฐ๊ฐ ๋ง์ ์ฐ๊ตฌ ์ฌ์ง๊ฐ ์์ต๋๋ค. ํ ์์ ๊น์ง์ ์ฐ๊ตฌ๋ค์ ๊ธฐ๋ฐ์ผ๋ก, ์ด๋ฌํ ๋ฐฉํฅ์ผ๋ก ํ์ ์ด ์ด์ด์ง๋ค๋ฉด, Reward Engineering์ ๊ฐํํ์ต์ ๋ฏธ๋ ํต์ฌ ๊ธฐ์ ๋ก ์๋ฆฌ๋งค๊นํ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก
๋ณธ ๋ฆฌ๋ทฐ์์๋ ๊ฐํํ์ต์์์ Reward Engineering๊ณผ Reward Shaping ๊ธฐ๋ฒ๋ค์ ์ข ํฉ์ ์ผ๋ก ๊ณ ์ฐฐํ๊ณ ์ธ๋ถ ๋ด์ฉ์ ๋ถ์ํ์์ต๋๋ค. ๋ฌธํ์กฐ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ๋ค์ํ ๋ฐฉ๋ฒ๋ก ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๊ฐ ์ ๊ทผ๋ฒ์ ๋ฉ์ปค๋์ฆ, ์์, ์ฅ๋จ์ ์ ์ดํด๋ณด์์ต๋๋ค. ๋ํ ์ค์ ๋ก๋ด ๊ณตํ ๋ฑ ๋ถ์ผ๋ณ ์์ฉ ์ฌ๋ก๋ฅผ ํตํด ์ด๋ฌํ ๊ธฐ๋ฒ๋ค์ ํจ๊ณผ์ ๋์ ๊ณผ์ ๋ฅผ ๋ ผ์ํ์๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ๋จ์ ๊ณผ์ ์ ๋ํด์๋ ํต์ฐฐ์ ์ ์ํ์ต๋๋ค.
์ค์ํ ๊ฒฐ๋ก ์ค ํ๋๋, ์ ์ ํ Reward Shaping์ ๊ฐํํ์ต์ ํ์ต ์๋์ ๊ฒฐ๊ณผ๋ฅผ ๋น์ฝ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ๋ณด์ shaping์ ํตํด ํ์ต์ ๊ฐ์ด๋ํ๋ฉด ์์ด์ ํธ๋ ๋ ๋น ๋ฅด๊ฒ ๋ชฉํ๋ฅผ ๋ฐฐ์ฐ๊ณ , ๋ถํ์ค์ฑ์ด๋ ์ก์์ด ์์ด๋ ๊ฒฌ๋๋ฉฐ, ๊ถ๊ทน์ ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ๋ค์ํ ์ฐ๊ตฌ๋ค์ด ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ ๋ณต์กํ ํ๋ RL ๊ณผ์ (์: ๊ณ ์ฐจ์ ๋ก๋ด ์ ์ด, ์ธ๊ฐ๊ณผ์ ์ํธ์์ฉ ๋ฑ)์ผ์๋ก ์ด๋ฌํ ๋ณด์ ์ค๊ณ ์ ๋ต์ด ์ฑ๊ณต์ ์ด์ ์์ ํ์ธํ์ต๋๋ค.
๋์์, Reward Engineering์ ๊ตฌํ์๋ ์ ์คํจ๊ณผ ๋ ธ๋ ฅ์ด ํ์ํฉ๋๋ค. ์๋ชป๋ ์ค๊ณ๋ ์์น ์์ ํ๋์ ๋ณ๊ฑฐ๋ ํ์ต์ ๋ง์น ์ ์์ผ๋ฏ๋ก, ๋๋ฉ์ธ ์ง์๊ณผ ์คํ์ ํ๋์ ์ ์ ํ ํ์ฉํด์ผ ํฉ๋๋ค. ์ต๊ทผ์๋ BiPaRS ๊ฐ์ ์๋ํ ๊ธฐ๋ฒ๋ค์ด ๋์ค๊ณ ์์ผ๋, ์ฌ์ ํ ์ฌ๋์ ํ๋จ๊ณผ ์ฐฝ์์ฑ์ด ์ค์ํ ๋ถ๋ถ์ ๋๋ค. ๊ฒฐ๊ตญ ๋ฌธ์ ์ ๊ฐ์ฅ ๋ง๋ ๋ฐฉ๋ฒ์ ๊ณจ๋ผ ์ฐ๋ ์๋ชฉ์ด ์๊ตฌ๋ฉ๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์ ๋ด์ฉ์ ํตํด ์ป์ ์ ์๋ ์ค์ฉ์ ์์ฌ์ ์, ๊ฐํํ์ต ์ฐ๊ตฌ์๋ ํ์ ์์ง๋์ด๋ค์ด ์๋ก์ด ๊ณผ์ ๋ฅผ ์ ํ ๋ ๋ค์ํ Reward Shaping ๊ธฐ๋ฒ์ ๊ณ ๋ ค ๋ชฉ๋ก์ ๋ฃ์ด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ค ๋ฌธ์ ์๋ ์ ์ฌ ๋ณด์์ด, ์ด๋ค ๋ฌธ์ ์๋ ์ฐจ์ด ๋ณด์์ด, ๋ ๋ค๋ฅธ ๋ฌธ์ ์๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ด ์ด์ธ๋ฆด ์ ์์ต๋๋ค. ์ด ๋ฆฌ๋ทฐ๊ฐ ์ ์ํ ๋ถ๋ฅ์ ์ฌ๋ก๋ค์ ๊ทธ๋ฌํ ํ๋จ์ ๊ฐ์ด๋๊ฐ ๋ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ๊ฐํํ์ต์ ์ค์ ์ ์ฉ์์ ๋ณด์ ์ค๊ณ๋ ์ด์ ์ ํ์ด ์๋ ํ์์ ๊ฐ๊น์์ง๊ณ ์์ต๋๋ค. ๋จ์ํ ๋ชฉํ ํจ์๋ฅผ ์ ํด๋๊ณ ๋ฐฉ์นํ๊ธฐ๋ณด๋ค๋, ํ์ต์ด ์ ๋๋๋ก ๋ณด์์ ์ ๊ตํ ๋ค๋ฌ์ด์ฃผ๋ ๊ฒ์ด ์ฑํจ๋ฅผ ์ข์ฐํฉ๋๋ค. ๋ฐ๋ผ์ ํฅํ ์ฐ๊ตฌ์์๋ Reward Shaping์ ๋ ์๋ํํ๊ณ ์ฒด๊ณํํ์ฌ, ๋ง์ ๋ฌธ์ ๋ค์ ์ฝ๊ฒ ์ ์ฉํ ์ ์๊ฒ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ํ ์ธ๊ฐ์ ํ๋ ฅ์ ๋ฐ์๋ค์ด๋ ๋ฐฉํฅ์ผ๋ก RL์ ๋ฐ์ ์์ผ, ์์ ํ๊ณ ์ ๋ขฐํ ์ ์๋ AI๋ฅผ ๋ง๋๋ ๋ฐ ๊ธฐ์ฌํด์ผ ํ ๊ฒ์ ๋๋ค.
์์ฝํ๋ฉด, Reward Engineering ๋ฐ Reward Shaping์ ๊ฐํํ์ต์ ๋ฐ์ ๊ณผ ์ค์ ์์ฉ์ ์์ด ํต์ฌ์ ์ธ ์ญํ ์ ํ๊ณ ์์ผ๋ฉฐ, ๋ณธ ์ข ํฉ ๊ฒํ ๋ฅผ ํตํด ๊ทธ ํํฉ๊ณผ ์ ๋ง์ ์ดํด๋ณด์์ต๋๋ค. ์ด ์ง์์ด ์ฐ๊ตฌ์์ ์ค๋ฌด์๋ค์๊ฒ ์ ์ฉํ ์ง์นจ์ด ๋์ด, ๋์ฑ ์ฑ๊ณต์ ์ธ RL ์์คํ ๊ฐ๋ฐ๋ก ์ด์ด์ง๊ธธ ๊ธฐ๋ํฉ๋๋ค.
+