๐IPO ๋ฆฌ๋ทฐ
1 Introduction
์ค๋์ โIPO: Interior-point Policy Optimization under Constraintsโ๋ผ๋ ๋ ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐํด๋ณด๋ ค๊ณ ํฉ๋๋ค. ํํ ๊ฐํํ์ต(Reinforcement Learning)์ ์ฒ์ ๊ฐ๋ ์ ๊ณต๋ถํ๊ณ ๋๋ฉด, ๊ฐํํ์ต์ ๋ฌธ์ ๋ฅผ MDP(Markov Decision Process)๋ก ์ ์ํ๋ค๋ ๊ฒ์ ๋ ์ฌ๋ฆด ์ ์์ต๋๋ค. ์ด๋ ๊ฐํํ์ต์ ํต์ฌ์ธ Reward, ์ฆ ๋ณด์์ ์ ์ค์ ํด์ฃผ์ด์ผ Agent๊ฐ ์ํ๋ ๋ฐฉํฅ๋๋ก ํ์ต์ ํ๊ฒ ๋ฉ๋๋ค. ๋ณด์์ Agent๊ฐ ํด์ผํ๋ ํ๋ ์์์ (+)๊ฐ ๋๋ ๋ฐฉํฅ์ ๋ํ๋ด๋ ์ง ํ์ด๋ฉฐ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํ๋์ Encourage(์ฅ๋ ค)ํ๋ ์ญํ ์ ํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฒ ๋
ผ๋ฌธ์์๋ ๊ธฐ๋ณธ์ ์ธ ๊ฐํํ์ต์ MDP๊ฐ ์๋ Constraint๋ผ๋ ๊ฐ๋
์ ๋ฃ์ด์ ์๊ฐ์ ํด๋ณด๋ ค๊ณ ํฉ๋๋ค. Constraint(์ ์ฝ)์ ๊ฐ์ฅ ๋จ์ํ๊ฒ๋ -Reward
๋ผ๊ณ ์๊ฐํด๋ณผ ์ ๋ ์์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ Agent๊ฐ ํ์ง ์์์ผ๋ฉด ํ๋ ํ๋์ ์ ์ํจ์ผ๋ก์จ negative reward๋ฅผ ์ค๋ค๊ณ ๋ณผ ์ ์๋ ๊ฒ์ด์ฃ . (๋ง์น Gradient Ascent๊ฐ Gradient Discent์ ๋ฐ๋๋ก ์๊ฐํด๋ณผ ์ ์๋ฏ์ด์.) ๋ฐ๋ผ์ Reward์ Constraint๋ ์๋ก (+)/(-) ๋ถํธ์ ์ธ ์ฑ๊ฒฉ์ด ๋ค๋ฅด์ง๋ง Agent์๊ฒ ํ์ต์ ๋ฐฉํฅ์ ์ ์ํ๋ ์ ํธ๋ผ๋ ์ธก๋ฉด์์๋ ๊ณตํต์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์กฐ๊ธ ๋ Constraint์ ๋ํด์ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค. Constraint๋ ์ ์ฝ์ด ๋ฐ์๋๋ ์์ ์ ๋ฐ๋ผ 2๊ฐ์ง๋ก ๋๋์ด์ ์๊ฐํด ๋ณผ ์ ์์ต๋๋ค.
์ฐ์ , instantaneous constraint
๋ ๋ป์์๋ ์ ์ ์๋ฏ์ด ์ผ์์ ์ผ๋ก constraint๋ฅผ ์ฃผ๋ ๊ฒ์ ๋งํฉ๋๋ค. ๊ฐํํ์ต์์ Agent๊ฐ action์ ํ๊ฒ ๋๋ timestep ๋ง๋ค ์ ์ฝ ์ํฉ์ธ์ง๋ฅผ ํ๋จํ์ฌ constraint๋ฅผ ์ฃผ๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ด๋ ๊ธฐ๋ณธ์ ์ธ ๊ฐํํ์ต ๊ฐ๋
์์ ๋งค timestep๋ง๋ค reward๋ฅผ ์ฃผ๋ ์ํฉ๊ณผ ๊ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ก๋ดํ(Manipulator)์ ์ ์ดํ๋ ์ํฉ์ ์๊ฐํด๋ณด๋ฉด, Agent๋ ์ ์ ํ ์์ง์์ ์ํด ๋ก๋ดํ์ ๊ตฌ์ฑํ๋ ๋ชจํฐ๋ค์ ์ ๊ตฌ๋ํ์ฌ ์ํ๋ ๋ชจ์
์ ๋ง๋ค์ด์ผ ํฉ๋๋ค. ์ด๋ ๋ก๋ด์ด ์์ง์ด๋ ๋ชจ๋ ๋งค ์๊ฐ๋ง๋ค ๊ฐ ๋ชจํฐ๋ค(joint)์ด ๊ฐ๋๋ฒ์์ ์์ด์ผ ํ๊ณ ๊ณผํ ํ ํฌ๊ฐ ๊ฐํด์ง์ง ์๋๋ก ํด์ผ ํฉ๋๋ค. ์ด๋ฌํ ์ ์ฝ ์ํฉ๋ค์ ๋งค ์๊ฐ ํ๋จํด์ ํด๋น ๋ฒ์๋ค์ ๋์ง ์๋ action์ ์ ํํ๋๋ก ํ์ตํด์ผ ํ๋ฏ๋ก instantaneous constraint
์ ์๋ก ๋ณผ ์ ์์ต๋๋ค.
๋ค์์ผ๋ก cumulative constraint
๋ Agent๊ฐ ํ์ตํ๋ ํ๋์ Episode ๋ด์์ ๋์ ํด์ ๋์จ ๊ฐ์ผ๋ก ํ๋จํ์ฌ ์ ์ฝ์ํฉ์ ํ๋จํ๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ด๋ ๋์ ๋๋ ์๊ฐ์ ํ๋์ Episode๊ฐ ์์ํด์ ๋๋ ๋๊น์ง์ผ ์๋ ์๊ณ ์๋๋ฉด 5 timesteps ๋์์ด๋ผ๋ ํน์ timestep ์๋ฅผ ์ง์ ํ์ฌ ๊ณ์ฐํ ์ ์์ต๋๋ค. ๋ก๋ดํ์ ์์๋ก ์ดํด๋ณด์๋ฉด, ๋ก๋ด์ด ํ์ ์ก๋ ๋ชจ์
์ ํ ๋๊น์ง 100 timestep์ด ๊ฑธ๋ ธ๋๋ฐ ๋งค timestep ๋ง๋ค ์ง์ฐ(latency)๊ฐ ๋ฐ์ํ์ฌ ์ด๋ฅผ ์ ์ฝํ๊ณ ์ ํฉ๋๋ค. ์ด๋ฌํ ์ํฉ์์ 100 timestep๋์์ average latency๋ฅผ ๊ตฌํด์ ํน์ latency๋ฅผ ๋์ง ๋ชปํ๋๋ก constraint๋ฅผ ์ค ์ ์์ต๋๋ค. ์ด๋ฌํ ์์์ฒ๋ผ ํน์ ๊ตฌ๊ฐ ๋์์ ๊ฐ์ ํตํด์ constraint๋ฅผ ์ฃผ๋ ๊ฒ์ cumulative constraint
๋ผ๊ณ ํฉ๋๋ค. ์ด๋ฒ IPO ๋
ผ๋ฌธ์์๋ ๋๋ฒ์งธ๋ก ์๊ฐ๋๋ฆฐ cumulative constraint
์ ์ด์ ์ ๋ง์ถฐ ๊ฐ๋ฐ๋ ์๊ณ ๋ฆฌ์ฆ์ ์๊ฐํ๊ณ ์์ต๋๋ค.
1.1 Constrained Markov Decision Process(CMDP)
์์ ์ค๋ช
๋๋ฆฐ Constraint
๊ฐ MDP์ ์ถ๊ฐ๋ ๊ฒ์ Constrained Markov Decision Process(CMDP)
๋ผ๊ณ ํฉ๋๋ค. CMDP์์๋ Reward์ ๊ฐ์ด ํ์ฌ State์์ Action์ ์ทจํ๊ณ ๋ค์ State์ ๋๋ฌํ์ ๋ ์ป๊ฒ ๋๋ฏ๋ก ์๋ ์ฌ์ง์์์ ๊ฐ์ด Space๊ฐ ์ ์๋๊ฒ ๋ฉ๋๋ค.
Constraint๋ (s_n, a_n, s_{n+1})๊ณผ ๊ฐ์ transition tuple๋ก ๊ณ์ฐ๋๊ฒ ๋๋ฉฐ, cumulative constraint๋ ์ผ์ timestep, ์ฆ transition์ด n(์์:t)๊ฐ ๋ชจ์ฌ์ ๊ณ์ฐ๋๊ฒ ๋ฉ๋๋ค. ์ด๋ Constraint๋ ์ฌ๋ฌ ์ข ๋ฅ๊ฐ ์์ ์ ์์ผ๋ฏ๋ก constraint์ ๊ฐ์ง ์๋ m(์์:i)์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. Constraint๋ more than better์ธ reward์ ๋ค๋ฅด๊ฒ ์ ์ฝ๋๋ ์ํฉ์ ์ ์ํ๊ฒ ๋๋ constraint limit์ด ์๊ฒ ๋๊ณ ์ด๋ฅผ \epsilon_i๋ก ๋ํ๋ด๊ฒ ๋ฉ๋๋ค.
Constraint์ Expectation์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๊ฐ ๋๋ฉฐ 2๊ฐ์ง์ constraint ๊ณ์ฐ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ์ฒซ๋ฒ์งธ๋ก๋ discounted cumulative constraint
๋ก ํ ์ธ์จ \gamma๋ฅผ ๊ณ ๋ คํ constraint๋ค์ ํ๋์ policy๊ฐ ๋์ํ๋ ๋์ ๋์ ํฉํ ๊ฐ์ ๋งํฉ๋๋ค. ๋๋ฒ์งธ๋ก๋ ์ผ์ timestep T๋์ ๊ณ์ฐํ constraint๋ค์ ํ๊ท ์ ๋งํ๋ ๊ฒ์ผ๋ก mean values constraint
๊ฐ ์์ต๋๋ค. ์ด 2๊ฐ์ง ์ข
๋ฅ์ ์งํ์ ๋ํด์ ํ์ ์คํ์์ ๋ค๋ฃฐ ์์ ์ด๋ฉฐ CMDP์ ๋ชฉํ๋ฅผ ์ ๋ฆฌํด๋ณด๋ฉด, ๊ธฐ์กด์ J_R๋ง์ Maximizationํ๋ ๊ฐํํ์ต ๋ฌธ์ ๊ฐ J_{C_i}๋ฅผ ๊ณ ๋ คํด์ผ ํ๋ค๋ ๊ฒ์ด ์ถ๊ฐ ๋์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
๊ธฐ์กด์ Constraint๊ฐ ์๋ ์ต์ ํ ๋ฌธ์ ๋ Lagrangian Relaxation Method๋ฅผ ํตํด์ ํด๊ฒฐํ์์ต๋๋ค. ๋ผ๊ทธ๋์ง์ ์น์๋ฒ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ ํด๋น ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ ์ต์ ํ ์ f(x)์ constraint g_i(x)๊ฐ ์ถ๊ฐ๋ ์ต์ ํ ๋ฌธ์ ๋ฅผ Lagrange Multipilers๋ฅผ ๊ณฑํ์ฌ ๊ธฐ์กด ์ต์ ํ ํจ์ ๋ชฉ์ ์์ ๋ํ์ฌ์ ์ ์ฝ ์กฐ๊ฑด์ ํธ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ผ๊ทธ๋์ง์ ์น์๋ฒ์ ๊ฐ์ฅ ์ฌํํ๊ฒ ์ ์ฝ ์กฐ๊ฑด๋ค์ ๋ฉ์ธ ์ต์ ํ์์ ๋ น์ฌ๋ด์ด ํ์ด๋ด๋ ๋ฐฉ์์ผ๋ก, CMDP ๋ฌธ์ ๋ค๋ ํด๋น ๋ฐฉ๋ฒ์ ํตํด ํด๊ฒฐํ๋ ๊ฒ์ด ํต์์ ์ธ ๋ฐฉ๋ฒ์ด์์ง๋ง ๋ผ๊ทธ๋์ง์ ์น์๋ฒ์ ์ ์ฑ ์ด ์๋ ดํ ๋ ์ ์ฝ ์กฐ๊ฑด์ด ๋ง์กฑ๋์ง๋ง, ์ด ์ ๊ทผ๋ฒ์ Lagrange multiplier์ ์ด๊ธฐ๊ฐ๊ณผ ํ์ต๋ฅ ์ ๋ฏผ๊ฐํ๊ณ ํ์ต ๊ณผ์ ์์ ์ป์ ์ ์ฑ ์ด ํญ์ ์ ์ฝ ์กฐ๊ฑด์ ์ผ๊ด๋๊ฒ ๋ง์กฑ์ํค์ง๋ ์๋๋ค๋ ํ๊ณ์ ์ด ์์ต๋๋ค.
1.2 Policy Gradient Methods
์ ๋ถ๋ถ์์ ์ดํด๋ณธ ๊ฒ๊ณผ ๊ฐ์ด CMDP Goal์ Reward ๊ฐ์ ์ต๋ํํ๋ฉด์ ์ ์ฝ์์ ๋ง์กฑํ๋ ์ต์ ์ policy๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๋จผ์ ์ ์ฝ์กฐ๊ฑด์ ์ ์ ๋ค๋ก ๋๊ณ , ๋ณธ๋ ๊ธฐ๋ณธ์ ์ธ ๊ฐํํ์ต์ ๋ชฉ์ ์์ธ Reward Maximization์ ์ด๋ป๊ฒ ํ ๊น์? Policy Gradient๋ ๊ฐํํ์ต์ ํ ๊ณ์ด๋ก ์ต์ ์ policy, ์ฆ ๊ฐ์ฅ Reward๋ฅผ ๋ง์ด ๋ฐ์ ์ ์๋ policy๋ฅผ ์ฐพ๊ธฐ ์ํด ์๋์ ๊ฐ์ ๋ชฉ์ ์์ gradient๋ฅผ ๊ณ์ฐํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ์ต์ ์ policy๋ฅผ ์ฐพ๊ธฐ ์ํด์ \theta๋ ์์์ ๊ตฌํ gradient ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์๋์ ๊ฐ์ด ์ ๋ฐ์ดํธํ๊ฒ ๋ฉ๋๋ค.
Trust Region Policy Optimization(TRPO)๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ด PG๊ณ์ด์์ ๋ํ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ฉฐ, ์ต์ ์ด policy๋ฅผ ์ฐพ๊ธฐ ์ํด surrogate function์ ์ด์ฉํ๊ณ policy๊ฐ ์ ๋ฐ์ดํธ ๋๋ step size๋ฅผ ์ ํํ๊ธฐ ์ํด KL divergence๋ฅผ ์ฌ์ฉํฉ๋๋ค. TRPO์ ์ต์ ํ ์์ ์๋์ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
ํ์ง๋ง TRPO๋ conjugate gradient optimization์ผ๋ก ํ๋ฆฌ๋ 2์ฐจ ๋ฏธ๋ถ ์ต์ ํ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ cost๊ฐ ํฝ๋๋ค. ๋ฐ๋ผ์ TRPO๋ฅผ ์ค์ฉ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒํ Proximal Policy Optimization (PPO) ์๊ณ ๋ฆฌ์ฆ์ด ์ ์๋์์ต๋๋ค. PPO์ ์ต์ ํ ์์ TRPO์์ ๋ฌธ์ ์๋ 2์ฐจ๋ฏธ๋ถ์ 1์ฐจ ๋ฏธ๋ถ surrogate function์ผ๋ก ๋์ฒดํ ์ ์์์ผ๋ฉฐ ๊ณ์ฐ๋ณต์ก์ฑ์ ์ค์ผ ์ ์์์ต๋๋ค.
IPO๋ ์ด๋ฌํ ํ๋ฆ๋๋ก ๋ฐ์ ํด์จ PPO ์๊ณ ๋ฆฌ์ฆ์ ์ต์ ํ ์์์ ์ ์ฝ์์ ์ถ๊ฐํ๋ฉด์ ๋ฐ์ ํ๊ฒ ๋ฉ๋๋ค.
2 Method
2.1 Interior-point Policy Optimization
IPO์ด์ ์ CPO(Constrained policy optimization)๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์๋์์์ต๋๋ค. IPO๋ CPO์ ๋จ์ ์ ๋ณด์ํ์ฌ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ ์๋์ ๊ฐ์ด 2๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
์ฐ์ , CPO๋ TRPO์์ ์ ์ฝ์กฐ๊ฑด์ ์ถ๊ฐํ ๋ชฉ์ ์์ ์ฌ์ฉํ์ฌ TRPO์ ๋ฌธ์ ์ด๊ธฐ๋ ํ๋ 2์ฐจ ๋ฏธ๋ถ ๊ณ์ฐ์ด ํ์ํ๋ค๋ ํน์ฑ์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ์ ์ฝ์กฐ๊ฑด๋ค์ ์ถ๊ฐํ๊ฑฐ๋ mean valued constraint์ ๊ฐ์ ๋์ ์ ์ฝ์์ ๊ณ์ฐํ๊ธฐ ๊น๋ค๋กญ๊ฑฐ๋ ํ ์ ์๋ค๋ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ์ด์ ๋ฐํด, IPO๋ PPO์ ์ ์ฝ์กฐ๊ฑด์ ์ถ๊ฐํ ๋ชฉ์ ์์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ 1์ฐจ ๋ฏธ๋ถ๋ง์ ํ๋ฉด ๋๋ค๋ ์ฅ์ ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ค์ํ ์ ์ฝ์กฐ๊ฑด๋ค์ ์ดํ์ ์ค๋ช ํ ํต์ฌ ์์ด๋์ด์ธ logarithmic barrier function์ ์ด์ฉํ์ฌ ์ฝ๊ฒ ์ถ๊ฐํ ์ ์์ต๋๋ค.
2.2 Logarithmic Barrier Function
์ฐ์ IPO์ ๋ฌธ์ ์ ์๋ ์๋์ ๊ฐ์ด PPO์ ๋ชฉ์ ์์๋ค๊ฐ Constraint๋ฅผ ์ถ๊ฐํ ๊ฒ์ผ๋ก ์ ์ํ ์ ์์ต๋๋ค.
Constraint๋ Limit์ ๊ณ ๋ คํ์ฌ ๋ถ๋ฑํธ๋ก ๋ํ๋ผ ์ ์์ผ๋ฉฐ ์ด๋ Indicatior Function์ ๋ฃ์์๋, Constraint๋ฅผ ๋์์ ๊ฒฝ์ฐ -\infin๋ก ๋ํ๋ด๊ณ Constraint๋ฅผ ๋ง์กฑํ์ ๊ฒฝ์ฐ 0์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ํ์ง๋ง Indicator Function์ ๋ถ์ฐ์์ ์ด๋ฉฐ ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ gradient๋ฅผ ๊ตฌํ ์ ์์ด์ Logarithmic Barrier Function์ ํตํด ๊ทผ์ฌํ๊ฒ ๋ฉ๋๋ค.
Logarithmic Barrier Function(\phi)์ ๊ทธ๋ํ์์์ ๊ฐ์ด ํ์ดํผ ํ๋ผ๋ฏธํฐ์ธ t์ ๊ฐ์ด ํด์๋ก Indicator Function๊ณผ ์ ์ฌํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ๊ทธ๋ํ์์ ์ด๋ก์ t=50์ผ ๋์ ๊ทธ๋ํ๊ฐ ์ ์ ์ Indicator Function๊ณผ ์ ์ฌํ ๊ฒ ์ฒ๋ผ์. ๋ํ \phi๋ ์ด๋ถ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ gradient๋ฅผ ํตํด ์ต์ ํํ ์ ์์ต๋๋ค.
๋ฐ๋ผ์ IPO์ ์ต์ ํ์์ PPO์ ๋ชฉ์ ์ (L^{C L I P}(\theta))์ Logarithmic Barrier Function(\phi)์ ์ด์ฉํ์ฌ ์ ์ฝ์กฐ๊ฑด์ ํฉ์น๊ฒ ๋(\sum_{i=1}^m \phi\left(\widehat{J}_{C_i}^{\pi_i}\right)) ๋ชจ์ต์ด ๋ฉ๋๋ค.
2.3 Performance Guarantee Bound
๊ทธ๋ ๋ค๋ฉด IPO์ ์ฑ๋ฅ ๋ณด์ฅ์ ์ด๋ก ์ ์ผ๋ก ๊ฒ์ฆํด๋ณด๊ฒ ์ต๋๋ค.
์ด๋ฌํ ์์์ ์ธ ๊ฒ์ฆ ๊ณผ์ ์ ๊ฑฐ์ณ IPO์ ๋ชฉ์ ์์ ์ผ์ ํ๊ณ ๋ด์ ์๋ค๋ ๊ฒ(Bounded) ๋์ด์๋ค๋ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค.
์์์ ์ผ๋ก Performance Guarantee Bound๋ฅผ ํ์ธํ์ฌ t(logarithmic barrier function์ ํ์ดํผํ๋ผ๋ฏธํฐ)๊ฐ ํด์๋ก Indicator function์ ๋ํ ๋ ์ข์ ๊ทผ์ฌ๊ฐ์ ์ ๊ณตํ๊ฒ ๋๊ณ ๋ ๋์ reward์ cost๋ฅผ ์ป์ ์ ์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ํ์ง๋ง t๊ฐ ํด์๋ก ์ต์ ํ ์์ด ์๋ ดํ๋ ์๋๋ ๋๋ ค์ง๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ๋ํ ์์์ผ๋ก ํ์ธํ ๋จ์กฐ์ฑ(monotonicity)์ ์ด์ฉํ์ฌ, ์๋ ด ์๋์ ์ต์ ํ ์ฑ๋ฅ ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ ์ ์๋ ์ ์ ํ t ๊ฐ์ ์ฐพ๊ธฐ ์ํด ์ด์ง ํ์ ์๊ณ ๋ฆฌ์ฆ(binary search)์ ์ฌ์ฉํ ์ ์๋ค๋ ์ฌ์ค๋ ํ์ธํ ์ ์์ต๋๋ค.
3 Experiment
์คํ์ ํตํด ํ์ธํ ์ ์๋ IPO(Interior Point Optimization)์ ์ฃผ์ ์ฅ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํ ์ธ ๋์ ์ ์ฝ(discounted cumulative constraints)๊ณผ ํ๊ท ๊ฐ ์ ์ฝ(mean valued constraints)์ ํฌํจํ ๋ณด๋ค ์ผ๋ฐ์ ์ธ ํํ์ ๋์ ์ ์ฝ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ด ๊ฐ๋จํ๊ณ ์กฐ์ ์ด ์ฉ์ดํฉ๋๋ค.
- ๋ณต์์ ์ ์ฝ ์กฐ๊ฑด์ด ์๋ ์ต์ ํ ๋ฌธ์ ๋ก ์ฝ๊ฒ ํ์ฅํ ์ ์์ต๋๋ค.
- ํ๋ฅ ์ ์ธ(stochastic) ํ๊ฒฝ์์๋ ๋์ ์์ ์ฑ๊ณผ ๊ฒฌ๊ณ ํจ์ ๋ณด์ฌ์ค๋๋ค.
3.1 Discounted Cumulative Constraints
- IPO VS. CPO
- IPO
- ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋ ์ดํ์๋ ๋ ๋์ ์ ์ฑ ์ ์ฐพ๊ธฐ ์ํด ํ์์ ๊ณ์ํฉ๋๋ค.
- ์ด๋ก ์ธํด ๋ ๋์ ๋ณด์๊ณผ ๋ ๋ฎ์ ๋น์ฉ์ผ๋ก ์๋ ดํฉ๋๋ค.
- ์๋ ด ์๋๋ ๋๋ฆฌ์ง๋ง, ์ต์ข ์ฑ๋ฅ์ CPO๋ณด๋ค ์ฐ์ํฉ๋๋ค.
- CPO
- ์๋ ด ์๋๊ฐ IPO๋ณด๋ค ๋น ๋ฆ ๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋๋ฉด ๊ฐ์ ์์ ์ ์ค๋จํฉ๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด์ ๋น ๋ฅด๊ฒ ๋ง์กฑ์ํค์ง๋ง, ๊ทธ ์ดํ์๋ ์ฑ๋ฅ ๊ฐ์ ์ด ๋ฉ์ถฅ๋๋ค.
- ๋ฐ๋ผ์ ๋ณด์์ด๋ ๋น์ฉ ์ธก๋ฉด์์ IPO๋งํผ์ ์ต์ ํ๋ฅผ ์ด๋ฃจ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- IPO
ํน์ง | IPO | CPO |
---|---|---|
์๋ ด ์๋ | ๋๋ฆผ | ๋น ๋ฆ |
์ ์ฝ ์ถฉ์กฑ ํ ๊ฐ์ | ๊ณ์ ํ์ (๋ ๋์ ์ ์ฑ ์ ์ฐพ์) | ๊ฐ์ ์ค๋จ (์ ์ฝ ์กฐ๊ฑด ์ถฉ์กฑ ์) |
์ต์ข ์ฑ๋ฅ | ๋ ๋์ ๋ณด์๊ณผ ๋ฎ์ ๋น์ฉ | ์ ์ฝ ์กฐ๊ฑด ๋ง์กฑ ํ ๊ฐ์ ์์ |
- IPO VS. PDO
- IPO
- ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋ ์ดํ์๋ ๋ ๋์ ์ ์ฑ ์ ์ฐพ๊ธฐ ์ํด ํ์์ ๊ณ์ํฉ๋๋ค.
- ์์ ์ ์ธ ํ์ต ๊ณผ์ ์ ๊ฐ์ง๋ฉฐ, ์ฑ๋ฅ์ ๋ณ๋์ด ์ ์ต๋๋ค.
- ์ด๊ธฐํ๋ ํ์ต๋ฅ ์ ๋ ๋ฏผ๊ฐํฉ๋๋ค.
- PDO
- IPO๋งํผ ์ข์ ์ ์ฑ ์ผ๋ก ์๋ ด ๊ฐ๋ฅํ์ง๋ง, ํ๋ จ ์ค ์ฑ๋ฅ์ ๋ถ์ฐ(variance)์ด ๋์ต๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด ๊ฐ์ ํ๊ณ ์ดํ๋ก ๋ฎ์ถ๋ ์ ์ฑ ์ ์ฐพ์ ์ ์์ผ๋, ๊ทธ ๊ฒฐ๊ณผ ๋ณด์(reward)์ด ๊ฐ์ฅ ๋ฎ์์ง ์ ์์ต๋๋ค.
- Lagrange multiplier์ ์ด๊ธฐ๊ฐ๊ณผ ํ์ต๋ฅ (learning rate)์ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํฉ๋๋ค.
- ์ด๊ธฐ ์ค์ ์ด ์๋ชป๋๋ฉด, ํ์ต ๊ณผ์ ์ด ๋ถ์์ ํด์ง ์ ์์ต๋๋ค.
- IPO
ํน์ง | IPO | PDO |
---|---|---|
์๋ ด ์ฑ๋ฅ | ์ต๊ณ ์ฑ๋ฅ์ ์๋ ด | IPO ์์ค์ผ๋ก ์๋ ด ๊ฐ๋ฅ |
ํ๋ จ ์ค ์ฑ๋ฅ ๋ณ๋ | ๋ฎ์ (์์ ์ ) | ๋์ (๋ณ๋์ด ํผ) |
์ ์ฝ ์กฐ๊ฑด ๋ง์กฑ๋ | ์ ์ฝ ์กฐ๊ฑด์ ์ถฉ์กฑํ๋ฉฐ ํ์ ์ง์ | ์ ์ฝ ์กฐ๊ฑด ๊ฐ์ ํ๊ณ ์ดํ๋ก ๋ฎ์ถค |
๋ณด์ (Reward) | ๋์ ๋ณด์ | ๊ฐ์ฅ ๋ฎ์ ๋ณด์ ๊ฐ๋ฅ์ฑ |
์ด๊ธฐํ/ํ์ต๋ฅ ๋ฏผ๊ฐ๋ | ๋ฎ์ | ๋์ |
- (optional)CPO vs. PPO / TRPO
ํน์ง | CPO | PPO | TRPO |
---|---|---|---|
์ ์ฝ ์กฐ๊ฑด ์ฒ๋ฆฌ ์ฌ๋ถ | ์ ์ฝ ์กฐ๊ฑด์ ๊ณ ๋ คํจ | ์ ์ฝ ์กฐ๊ฑด ์์ | ์ ์ฝ ์กฐ๊ฑด ์์ |
๋ณด์ (Reward) | ๋์ (์ ์ฝ ์กฐ๊ฑด ๋ด์์) | ๊ฐ์ฅ ๋์ (์ ์ฝ ์กฐ๊ฑด ์๋ฐ ๊ฐ๋ฅ์ฑ ์์) | ๋์ (์ ์ฝ ์กฐ๊ฑด์ ๊ฐ์ ์ ์ผ๋ก ์ํ) |
์ ์ฝ ์กฐ๊ฑด ์๋ฐ ๊ฐ๋ฅ์ฑ | ๋ฎ์ | ๋์ | ์ค๊ฐ (์ ๋ขฐ ์์ญ์ผ๋ก ์ผ๋ถ ์ํ) |
ํ์ต ์์ ์ฑ | ๋์ | ๋์ | ๋งค์ฐ ๋์ |
๊ณ์ฐ ๋ณต์ก๋ | ์ค๊ฐ | ๋ฎ์ | ๋์ |
3.2 Mean Valued Constraints
- IPO VS. PDO
- IPO
- ์ผ๊ด๋ ์๋ ด: ๋ชจ๋ ์์ (task)์์ ํ ์ธ ๋์ ๋ณด์(discounted cumulative reward)์ด ๋์ ์ ์ฑ ์ผ๋ก ์์ ์ ์ผ๋ก ์๋ ดํฉ๋๋ค.
- ์ ์ฝ ์กฐ๊ฑด ๋ง์กฑ: ๋ชจ๋ ์์ ์์ ํ๊ท ๊ฐ ์ ์ฝ(mean valued constraints)์ ์ง์์ ์ผ๋ก ๋ง์กฑ์ํต๋๋ค.
- ์์ ์ ์ธ ํ์ต: ํ๋ จ ์ค ์ฑ๋ฅ์ ๋ณ๋์ด ์ ์ผ๋ฉฐ, ๋ฎ์ ๋ถ์ฐ(variance)์ ๋ณด์ ๋๋ค.
- PDO
- ์ ์ฝ ์กฐ๊ฑด ์๋ฐ ๊ฐ๋ฅ์ฑ: ๊ฐํน ์ ์ฝ ์กฐ๊ฑด์ ์๋ฐํ๋ ์ ์ฑ ์ผ๋ก ์๋ ดํ ์ ์์ต๋๋ค. (์ฐธ์กฐ: Figure 3b)
- ํ๋ จ ์ค ๋์ ๋ถ์ฐ: ํ๋ จ ๊ณผ์ ์์ ์ฑ๋ฅ์ ๋ณ๋์ด ํฌ๋ฉฐ, ๋์ ๋ถ์ฐ์ ๋ณด์ ๋๋ค. (์ฐธ์กฐ: Figure 3d ๋ฐ Figure 3f)
- ๋์ ๋ณด์ ๊ฐ๋ฅ์ฑ: ๋๋๋ก ๋์ ๋ณด์์ ๋ฌ์ฑํ ์ ์์ง๋ง, ์ ์ฝ ์กฐ๊ฑด์ ์งํค์ง ๋ชปํ ์ํ์ด ์์ต๋๋ค.
- IPO
ํน์ง | IPO | PDO |
---|---|---|
ํ ์ธ ๋์ ๋ณด์ | ์์ ์ ์ผ๋ก ๋์ ๋ณด์์ ์๋ ด | ๋์ ๋ณด์ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ ๋ถ์์ |
์ ์ฝ ์กฐ๊ฑด ๋ง์กฑ๋ | ํญ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํจ | ๊ฐํน ์ ์ฝ ์กฐ๊ฑด์ ์๋ฐ |
ํ๋ จ ์ค ์ฑ๋ฅ ๋ณ๋ (๋ถ์ฐ) | ๋ฎ์ (์์ ์ ) | ๋์ (๋ณ๋์ด ํผ) |
์์ ์ฑ | ๋งค์ฐ ์์ ์ | ์ด๊ธฐํ์ ํ์ต๋ฅ ์ ๋ฏผ๊ฐ |
3.3 Constraint Effects
Point Gather ํ๊ฒฝ์์ ์ ์ฝ ์กฐ๊ฑด์ ์ํํ์ฌ ์๊ณ๊ฐ์ 1๋ก ์ค์ ํ ๊ฒฝ์ฐ, ๊ฐ ์์ด์ ํธ๋ ํ๊ท ์ ์ผ๋ก ์ต๋ 1๊ฐ์ ํญํ(bomb)์ ์์งํ ์ ์์ต๋๋ค. Constraint ๊ฐ์ ๋ด๋ ค์ ์ํํ๊ฒ ๋๋ฉด ์ ์ฝ ์กฐ๊ฑด์ด ๋งค์ฐ ๋์จํด์ ธ์, ์ ์ฝ ์กฐ๊ฑด์ด ์๋ ์ต์ ํ ๋ฌธ์ ์ ์ฑ๋ฅ์ด ์ ์ฝ ์กฐ๊ฑด์ด ์๋ ๊ฒฝ์ฐ์ ๋์ผํ ์์ค์ผ๋ก ๋ํ๋ฉ๋๋ค.
- CPO
- CPO๋ ์ฌ์ ํ ๋น์ฉ์ ์ฆ๊ฐ์์ผ ์ ์ฝ ์๊ณ๊ฐ(1)์ ๋๋ฌํ๋ ค๊ณ ํฉ๋๋ค.
- ์ด๋ ๋๋๋ก ๋๋ค ์ด๊ธฐํ๋ ์ ์ฑ ๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
- CPO๋ ํญ์ ๋น์ฉ์ ์ ์ฝ ์๊ณ๊ฐ(1)๊น์ง ๋ฐ์ด ์ฌ๋ฆฌ๋ ค๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค.
- IPO
- IPO๋ ์ ์ฝ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋ ์ดํ์๋ ๋น์ฉ์ ๊ณ์ ์ค์ฌ๋๊ฐ๋๋ค.
- ์ด๋ก ์ธํด ๋ ๋ฎ์ ๋น์ฉ์ ๋ฌ์ฑํ๋ฉฐ, ๋ ๋์ ์ต์ข ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
ํน์ง | CPO | IPO |
---|---|---|
์ ์ฝ ์กฐ๊ฑด ๋ง์กฑ๋ | ์ ์ฝ ์๊ณ๊ฐ(1)๊น์ง ๋น์ฉ ์ฆ๊ฐ | ์ ์ฝ ์ถฉ์กฑ ํ์๋ ๋น์ฉ ๊ฐ์ ์ง์ |
์ต์ข ๋น์ฉ ์์ค | ์ฝ 1 | ์ฝ 0.25 |
์ฑ๋ฅ | ์ ์ฝ ์ถฉ์กฑ์ ์ฐ์ ์ํ๋ฉฐ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ | ์ ์ฝ์ ์ถฉ์กฑํ๋ฉด์๋ ๋ ๋์ ์ฑ๋ฅ |
๋ฐ๋ผ์ ์คํ์ ํตํด ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค.
- CPO๋ ์ ์ฝ์ ๋ง์ถ๊ธฐ ์ํด ๋น์ฉ์ ์ ๊ทน์ ์ผ๋ก ์ฆ๊ฐ์ํค์ง๋ง, ๊ทธ ๊ฒฐ๊ณผ ์ฑ๋ฅ์ด ๋จ์ด์ง ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- IPO๋ ์ ์ฝ์ ๋ง์กฑํ ์ดํ์๋ ๋น์ฉ์ ์ค์ด๋ฉฐ, ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
3.4 Hyperparameter Tuning
- IPO vs. PDO
- IPO
- ํ์ดํผํ๋ผ๋ฏธํฐ t์ ํ๋์ด ์ฉ์ดํฉ๋๋ค.
- ๋ณด์(reward)๊ณผ ๋น์ฉ(cost)์ ํ์ดํผํ๋ผ๋ฏธํฐ t์ ์์ ์๊ด ๊ด๊ณ๋ฅผ ๊ฐ์ง๋๋ค.
- t ๊ฐ์ด ์ปค์ง์๋ก, ๋ณด์๊ณผ ๋น์ฉ์ด ๋์์ ์ฆ๊ฐํฉ๋๋ค.
- ์ด์ง ํ์(binary search)์ด ๊ฐ๋ฅ:
- t ๊ฐ์ ์กฐ์ ํ๋ฉฐ ์ฑ๋ฅ์ ํ์ธํ ์ ์์ผ๋ฉฐ, ์ด์ง ํ์์ ํตํด ๋น ๋ฅด๊ฒ ์ต์ ์ ๊ฐ์ ์ฐพ์ ์ ์์ต๋๋ค.
- PDO
- ์ด๊ธฐ Lagrange multiplier (\lambda)์ ํ์ต๋ฅ (learning rate)์ ์ค์ ์ด ๊น๋ค๋กญ์ต๋๋ค.
- ์ด๊ธฐ \lambda ๊ฐ์ด 0.01์์ 0.1 ์ฌ์ด์ผ ๋ ๋งค์ฐ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํฉ๋๋ค.
- ์๋ชป๋ ์ด๊ธฐํ๋ ํ์ต ๊ณผ์ ์ ๋ถ์์ ์ ์ด๋ํ ์ ์์ต๋๋ค.
- ํ์ต๋ฅ (learning rate)์ ๋ณํ์๋ ๋ฏผ๊ฐํฉ๋๋ค.
- ํ์ต๋ฅ ์ด 0.01์์ 0.001๋ก ์์์ง๋ฉด, ์ ์ฑ ์ ์๋ ด ์๋๊ฐ ๋๋ ค์ง๋๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ง์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ํ์ํฉ๋๋ค.
- IPO
ํน์ง | IPO | PDO |
---|---|---|
ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์ฉ์ด์ฑ | ์ฌ์ | ์ด๋ ต๊ณ ๋ณต์กํจ |
๋ณด์๊ณผ ๋น์ฉ์ ๊ด๊ณ | t์ ์์ ์๊ด ๊ด๊ณ | ์ด๊ธฐ \lambda์ ํ์ต๋ฅ ์ ๋ฏผ๊ฐ |
์ด๊ธฐ ์ค์ ๋ฏผ๊ฐ๋ | ๋ฎ์ | ๋์ |
ํ๋ ๋ฐฉ๋ฒ | ์ด์ง ํ์ ๊ฐ๋ฅ | ์ด๊ธฐํ์ ํ์ต๋ฅ ์ค์ ์ ๋ง์ ๋ ธ๋ ฅ ํ์ |
๋ฐ๋ผ์ ์คํ์ ํตํด ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์์ต๋๋ค.
- IPO๋ ํ์ดํผํ๋ผ๋ฏธํฐ t์ ํ๋์ด ์ฝ๊ณ , ๋ณด์๊ณผ ๋น์ฉ์ด t ๊ฐ์ ๋ฐ๋ผ ์์ธก ๊ฐ๋ฅํ๊ฒ ๋ณํํ๊ธฐ ๋๋ฌธ์ ์์ ์ ์ธ ์ต์ ํ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- PDO๋ ์ด๊ธฐํ์ ํ์ต๋ฅ ์ ๋ฏผ๊ฐํ์ฌ ํ๋์ด ๊น๋ค๋กญ๊ณ ํ์ต ๊ณผ์ ์ด ๋ถ์์ ํ ์ ์์ต๋๋ค. ํนํ ์ด๊ธฐ \lambda์ ํ์ต๋ฅ ์ค์ ์ด ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
3.5 Multiple Constraints
IPO (Interior Point Optimization)๋ ์ ์ฝ ์กฐ๊ฑด์ ๋ค๋ฃฐ ๋ ์ ์ฐํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ์ค๊ณ๋์ด ์์ต๋๋ค. ํนํ, logarithmic barrier function์ ์ฌ์ฉํ์ฌ ์ ์ฝ ์กฐ๊ฑด์ ์ฝ๊ฒ ์ถ๊ฐํ ์ ์์ต๋๋ค. IPO์์๋ ์๋ก์ด ์ ์ฝ ์กฐ๊ฑด์ด ํ์ํ ๋, ๊ธฐ์กด ์ต์ ํ ํจ์์ ๋ก๊ทธ ๋ฐฐ๋ฆฌ์ด ํญ์ ์ถ๊ฐํ๊ธฐ๋ง ํ๋ฉด ๋ฉ๋๋ค. ์ด ๋ฐฉ์์ CPO๋ณด๋ค ๊ฐ๋จํ๊ฒ ์ ์ฝ ์กฐ๊ฑด์ ์ถ๊ฐํ ์ ์๋ ์ด์ ์ด ์์ต๋๋ค. IPO๋ logarithmic barrier function์ ์ฌ์ฉํ์ฌ ์ ์ฝ ์กฐ๊ฑด์ ์ฝ๊ฒ ์ถ๊ฐํ ์ ์์ด, ํ์ฅ์ฑ๊ณผ ์ ์ฐ์ฑ ์ธก๋ฉด์์ CPO๋ณด๋ค ์ ๋ฆฌํฉ๋๋ค.
- CPO์์ ๋น๊ต
- CPO (Constrained Policy Optimization)๋ ์ ์ฝ ์กฐ๊ฑด์ ์ง์ ์ ์ผ๋ก ๋ค๋ฃจ์ง๋ง, ์๋ก์ด ์ ์ฝ ์กฐ๊ฑด์ด ์ถ๊ฐ๋ ๋๋ง๋ค ๋ฌธ์ ์ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๊ณ , ํ๋์ด ์ด๋ ค์์ง ์ ์์ต๋๋ค.
- ๋ฐ๋ฉด, IPO๋ logarithmic barrier function์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, ์ ์ฝ ์กฐ๊ฑด์ ์ฝ๊ฒ ํ์ฅํ ์ ์์ผ๋ฉฐ ๊ตฌํ๊ณผ ํ๋์ด ๋ ๊ฐ๋จํฉ๋๋ค.
- Point Gather ์คํ์์์ ์ ์ฝ ์กฐ๊ฑด ํ์ฅ
- Point Gather ํ๊ฒฝ์์๋ ์์ด์ ํธ๊ฐ ๋ณด์์ ์ป๋ ๊ณผ์ ์์ ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด์ ์ถ๊ฐํ ์ ์์ต๋๋ค.
- ์คํ์์ ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด์ ์ถ๊ฐํ๊ธฐ ์ํด, ์๋ก์ด ํ์ ์ ball (์ ์ฝ ์กฐ๊ฑด์ ํด๋นํ๋ ์ค๋ธ์ ํธ)์ ๋์ ํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ๊ธฐ์กด์ bomb ์ธ์ ์๋ก์ด ์ ์ฝ ์กฐ๊ฑด์ ๋ํ๋ด๋ ์ฌ๋ฌ ์ข ๋ฅ์ ball์ ์ถ๊ฐํ์ฌ, ์์ด์ ํธ๊ฐ ์ด๋ค์ ํผํ๋ฉด์๋ ์ต๋ํ ๋ง์ ๋ณด์์ ์ป๋ ์ ์ฑ ์ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํตํด ๋ค์ค ์ ์ฝ ์กฐ๊ฑด ํ๊ฒฝ์์๋ IPO์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์์ต๋๋ค.
ํน์ง | IPO | CPO |
---|---|---|
์ ์ฝ ์กฐ๊ฑด ์ถ๊ฐ ์ฉ์ด์ฑ | ๋ก๊ทธ ๋ฐฐ๋ฆฌ์ด ํญ ์ถ๊ฐ๋ง์ผ๋ก ๊ฐ๋ฅ | ๋ณต์กํ ์ถ๊ฐ ์์ ๊ณผ ํ๋ ํ์ |
ํ์ฅ์ฑ | ๊ฐ๋จํ๊ฒ ์ฌ๋ฌ ์ ์ฝ ์กฐ๊ฑด ํ์ฅ ๊ฐ๋ฅ | ์ ์ฝ ์กฐ๊ฑด ์ถ๊ฐ ์ ๋ณต์ก๋ ์ฆ๊ฐ |
Point Gather ์คํ ์ ์ฉ | ๋ค์ํ ์ ์ฝ ์กฐ๊ฑด ball ์ถ๊ฐ ๊ฐ๋ฅ | ์ ์ฝ ์กฐ๊ฑด ์ถ๊ฐ ์ ์ฑ๋ฅ ์ ํ ์ํ |
3.6 Stochastic Environment Effects
์ค์ธ๊ณ ํ๊ฒฝ์์์ ๋ถํ์ค์ฑ ๋ฐ ๋๋ค ๋ ธ์ด์ฆ ์ถ๊ฐ ์คํ ์ค์ ํ๊ฒฝ์์๋ ํญ์ ๋ถํ์ค์ฑ(uncertainty)์ด ์กด์ฌํฉ๋๋ค. ์์ด์ ํธ์ ํ๋ ๊ฒฐ๊ณผ๋ ์ข ์ข ๋๋ค ๋ ธ์ด์ฆ(random noise)์ ์ํด ์ํฅ์ ๋ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ๋, ์ผ์ ์ค๋ฅ, ๋ง์ฐฐ ๋ฑ์ ์๊ธฐ์น ๋ชปํ ์์ธ๋ค์ด ์์คํ ์ ์ํฅ์ ์ค ์ ์์ต๋๋ค. ํด๋น ์คํ์์ ํ๋(action)์ ์๋(velocity)์ ์งํ ๋ฐฉํฅ(heading)์ ๋ฒกํฐ๋ก ์ ์๋๋ฉฐ, ๊ฐ์ ๋ฒ์๋ -1์์ 1 ์ฌ์ด์ ๋๋ค. (-1, 1) ๋ฒ์์ ๋ฒกํฐ๋ ์์ด์ ํธ๊ฐ ์์ง์ผ ๋ฐฉํฅ๊ณผ ์๋๋ฅผ ๋ํ๋ ๋๋ค.
์คํ์์๋ ํ๊ท 0์ ๋๋ค ๋ ธ์ด์ฆ๋ฅผ ํ๋(action)์ ์ถ๊ฐํ์ฌ ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ ๋ชจ์ฌํ์ต๋๋ค.
- ๋
ธ์ด์ฆ์ ๋ถ์ฐ(variance)์ ์ธ ๊ฐ์ง ๊ฐ์ผ๋ก ์ค์ ๋์์ต๋๋ค:
- \sigma^2 = 0.2
- \sigma^2 = 0.5
- \sigma^2 = 1.0
- \sigma^2 = 0.5์ผ ๋๋ ํ์ต์ด ์ฑ๊ณต์ ์ผ๋ก ์๋ ดํ๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
- ์ด๋ ์์ด์ ํธ๊ฐ ์ผ์ ์์ค์ ํ๊ฒฝ ๋ถํ์ค์ฑ์์๋ ์์ ์ ์ผ๋ก ์ ์ฑ ์ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- \sigma^2 = 1.0์ ๊ฒฝ์ฐ, ๋ ธ์ด์ฆ๊ฐ ์ปค์ ธ ํ์ต์ด ๋ถ์์ ํด์ง ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ์ด๋ ์ถ๊ฐ ์คํ์์ ํ์ธํ ํ์๊ฐ ์์ต๋๋ค.
- ์ค์ ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ ๋ฐ์ํ๊ธฐ ์ํด ๋๋ค ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๊ฐํ ํ์ต์ ๊ฐ๊ฑด์ฑ(robustness) ํ๊ฐ์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- ์ ์ ํ ์์ค์ ๋ ธ์ด์ฆ(\sigma^2 = 0.5)์์๋ ํ์ต์ด ์์ ์ ์ผ๋ก ์งํ๋์์ผ๋ฉฐ, ์์ด์ ํธ๊ฐ ๋ค์ํ ํ๊ฒฝ ๋ณ๋์๋ ์ ์ ์ํ ์ ์์์ ํ์ธํ์ต๋๋ค.
4 Conclusion
์ด๋ฒ ํฌ์คํ ์์๋ ์ ์ฝ์กฐ๊ฑด์ ํฌํจํ MDP์ ๋ฌธ์ ๋ ์ด๋ป๊ฒ ์ ์ํ ์ ์๊ณ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ต์ ํ์์ ๋์์ธํ์ฌ ํ ์ ์๋์ง ์ดํด๋ณด๋ฉฐ IPO ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด์์ต๋๋ค. ๊ฐํํ์ต์์ ํ์ต์ ๋ฐฉํฅ์ฑ์ Reward๋ก๋ง ๋์์ธ ํ๊ฒ๋ ๊ฒฝ์ฐ์ ๋ฌธ์ ๋ค์ Constraint๋ก ๋ฐ๊พธ์ด์ ๋์์ธํ๊ฒ ๋๋ค๋ฉด ๋ง์ ์ด์ ์ด ์์ ์ ์๊ณ , CMDP๋ฅผ ๋ค๋ฃฌ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋นํด ์ฌํํ๋ฉด์๋ ์ฌ์ฉํ๊ธฐ ํธํ ์์ด๋์ด๋ผ๋ ์๊ฐ์ด ๋ค์์ต๋๋ค.