๐Physics Informed RL Survey ๋ฆฌ๋ทฐ
- ์ด ๋ ผ๋ฌธ์ Physics-Informed Reinforcement Learning(PIRL) ์ฐ๊ตฌ ๋ํฅ์ ์กฐ์ฌํ๊ณ , ๋ฌผ๋ฆฌํ ์ ๋ณด๋ฅผ RL์ ํตํฉํ๋ ์๋ก์ด ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
- PIRL์ ๋ฐฉ์ ์, ์ ์ฝ ์กฐ๊ฑด, ์๋ฎฌ๋ ์ดํฐ ๋ฑ ๋ค์ํ ๋ฌผ๋ฆฌํ์ ์ฌ์ ์ ๋ณด๋ฅผ RL ํ์ดํ๋ผ์ธ์ ์ํ, ์ก์ , ๋ณด์, ๋คํธ์ํฌ, ๋ชจ๋ธ ๋ฑ ๋ค์ํ ๋ถ๋ถ์ ํตํฉํ์ฌ RL์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ํฅ์์ํต๋๋ค.
- ์ด ๋ ผ๋ฌธ์ ๋ถ์์ PIRL์ ๋ค์ํ ์ ์ฉ ๋ถ์ผ์ ํจ๊ป ํด๊ฒฐ๋์ง ์์ ๋ฌธ์ ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ์ฌ ๋ถ์ผ์ ์ฑ์ฅ์ ๊ธฐ์ฌํฉ๋๋ค.

Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํ์ฉํ ๊ฐํ ํ์ต(Physics-Informed Reinforcement Learning, PIRL)์ ๋ํ ํฌ๊ด์ ์ธ ์กฐ์ฌ ๋ ผ๋ฌธ์ ๋๋ค. PIRL์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด๊ณผ ๋ฌผ๋ฆฌ ๋ฒ์น์ ํ์ต ๊ณผ์ ์ ํตํฉํ์ฌ ๊ธฐ๊ณ ํ์ต ํ๋ ์์ํฌ, ํนํ ๊ฐํ ํ์ต(RL)์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
Introduction
RL์ ์ํ์ฐฉ์ค๋ฅผ ํตํด ์์ฌ ๊ฒฐ์ ๋ฐ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ ๋งํ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค. ์์จ ์ฃผํ, ๋ก๋ด ๊ณตํ, ์ฐ์ ์ ์ด ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฑ๊ณต์ ๊ฑฐ๋์์ง๋ง, ์ค์ ๋ฐ์ดํฐ์ ์ํ ํจ์จ์ฑ ๋ถ์กฑ, ๊ณ ์ฐจ์ ์ฐ์ ์ํ/์ก์ ๊ณต๊ฐ ์ฒ๋ฆฌ์ ์ด๋ ค์, ์์ ํ ํ์, ์ ์ ํ ๋ณด์ ํจ์ ์ ์, ์๋ฎฌ๋ ์ดํฐ-์ค์ ํ๊ฒฝ ๊ฐ์ ์ฐจ์ด ๋ฑ์ ๋ฌธ์ ์ ์ง๋ฉดํด ์์ต๋๋ค. ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ML ๋ชจ๋ธ์ ํตํฉํ๋ PIML(Physics-Informed Machine Learning)์ ๋ถ์์ ํ ๋ฌผ๋ฆฌ ์ ๋ณด์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ , ๋ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ์๋ฃจ์ ์ ์ ๊ณตํ๋ ์ฅ์ ์ด ์์ต๋๋ค. RL์ ๋๋ถ๋ถ ์ค์ ์ธ๊ณ ๋ฌธ์ ์ ๊ด๋ จ์ด ์์ผ๋ฉฐ ์ค๋ช ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ฌผ๋ฆฌ ์ ๋ณด ํตํฉ์ ์ ํฉํ ๋ถ์ผ์ ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ RL ํ์ดํ๋ผ์ธ์ ํตํฉํ์ฌ ์ด๋ฌํ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ์ฐจ์ ์ฐ์ ์ํ๋ฅผ ์ง๊ด์ ์ธ ํํ์ผ๋ก ์ค์ด๊ฑฐ๋ ๋ ๋์ ์๋ฎฌ๋ ์ด์ ์ ๊ตฌ์ถํ๋ฉฐ, ์์ ํ ํ์ต์ ์ํ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ณด์ ํจ์์ ํตํฉํ๋ ๋ฑ์ ์๋๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ต๋๋ค. PIRL ์ฐ๊ตฌ๋ ์ง๋ 6๋ ๊ฐ ์ฆ๊ฐํ๋ ์ถ์ธ๋ฅผ ๋ณด์ด๋ฉฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
- Taxonomy: ์ด๋ค ๋ฌผ๋ฆฌ ์ง์/ํ๋ก์ธ์ค๊ฐ ๋ชจ๋ธ๋ง๋๊ณ , ์ด๋ป๊ฒ ํํ๋๋ฉฐ, RL ์ ๊ทผ ๋ฐฉ์์ ์ด๋ป๊ฒ ํตํฉ๋๋์ง์ ๋ํ ํตํฉ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
- Algorithmic Review: ๋ฌผ๋ฆฌ ์ ๋ณด ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์ต์ ์ ๊ทผ ๋ฐฉ์์ ํต์ผ๋ ํ๊ธฐ๋ฒ๊ณผ ๊ธฐ๋ฅ ๋ค์ด์ด๊ทธ๋จ์ ์ฌ์ฉํ์ฌ ๊ฒํ ํฉ๋๋ค.
- Training and evaluation benchmark Review: ๊ฒํ ๋ ๋ฌธํ์์ ์ฌ์ฉ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ถ์ํ์ฌ ์ธ๊ธฐ ์๋ ํ๋ซํผ/๋๊ตฌ๋ฅผ ์ ์ํฉ๋๋ค.
- Analysis: ๋ค์ํ ๋๋ฉ์ธ์ ๊ฑธ์น model-based ๋ฐ model-free RL ์ ํ๋ฆฌ์ผ์ด์ ์์ ๋ฌผ๋ฆฌ ์ ๋ณด๊ฐ ํน์ RL ์ ๊ทผ ๋ฐฉ์์ ์ด๋ป๊ฒ ํตํฉ๋๋์ง, ์ด๋ค ๋ฌผ๋ฆฌ ํ๋ก์ธ์ค๊ฐ ๋ชจ๋ธ๋ง/ํตํฉ๋๋์ง, ์ด๋ค ๋คํธ์ํฌ ์ํคํ ์ฒ ๋๋ ์ฆ๊ฐ์ด ์ฌ์ฉ๋๋์ง ์์ธํ ๋ถ์ํฉ๋๋ค.
- Open Problems: ํ์ฌ ์ง๋ฉดํ ๊ณผ์ , ๋ฏธํด๊ฒฐ ์ฐ๊ตฌ ์ง๋ฌธ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํ ๊ด์ ์ ์ ์ํฉ๋๋ค.
PIML: An Overview
๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํ์ฉํ ๊ธฐ๊ณ ํ์ต ๊ฐ์
PIML์ ์ํ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๊ณผ ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ํ์ต ๊ณผ์ ์ ํตํฉํ์ฌ, ๋ถ์์ ํ๊ณ ๋ถํ์คํ๋ฉฐ ๊ณ ์ฐจ์์ ์ธ ๋ณต์กํ ์๋๋ฆฌ์ค์์๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์๋ฃจ์ ์ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ฌผ๋ฆฌ ์ง์์ ML ๋ชจ๋ธ์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ฌผ๋ฆฌ/๊ณผํ์ ์ผ๊ด์ฑ ๋ณด์ฅ, ๋ฐ์ดํฐ ํจ์จ์ฑ ์ฆ๊ฐ, ํ์ต ๊ณผ์ ๊ฐ์ํ, ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์, ํฌ๋ช ์ฑ/ํด์ ๊ฐ๋ฅ์ฑ ์ฆ์ง๊ณผ ๊ฐ์ ์ด์ ์ ์ ๊ณตํฉ๋๋ค. ๋ฌผ๋ฆฌ ์ง์์ ํตํฉํ๋ ์ธ ๊ฐ์ง ์ฃผ์ ์ ๋ต์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Observational bias: ๋ฌผ๋ฆฌ์ ์๋ฆฌ๋ฅผ ๋ฐ์ํ๋ multi-modal ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ DNN์ ํ์ต์ํต๋๋ค. ๊ด์ธก, ์๋ฎฌ๋ ์ด์ , ๋ฌผ๋ฆฌ ๋ฐฉ์ ์ ์์ฑ ๋ฐ์ดํฐ, ์ง๋, ์ถ์ถ๋ ๋ฌผ๋ฆฌ ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ์์ค์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํฉ๋๋ค.
- Learning bias: ์์ค ํจ์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ์ ํ๋ํฐ ํญ์ ์ถ๊ฐํ์ฌ ์ฌ์ ์ง์์ ๊ฐํํ๋ ๋ฐฉ์์ ๋๋ค. PINN(Physics-Informed Neural Networks)์ PDE๋ฅผ ์ ๊ฒฝ๋ง์ ์์ค ํจ์์ ํฌํจ์ํค๋ ๋ํ์ ์ธ ์์ ๋๋ค.
- Inductive biases: custom neural network ๊ตฌ์กฐ๋ฅผ ํตํด ๋ฌผ๋ฆฌ ์๋ฆฌ๋ฅผ โํ๋โ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ํตํฉํ๋ ๋ฐฉ์์ ๋๋ค. Hamiltonian NN, Lagrangian Neural Networks (LNNs) ๋ฑ์ด ์์ต๋๋ค.
PIRL: Fundamentals, Taxonomy and Examples
๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํ์ฉํ ๊ฐํ ํ์ต: ๊ธฐ๋ณธ, ๋ถ๋ฅ ๋ฐ ์์
RL ๊ธฐ๋ณธ (RL fundamentals)
RL์ MDP (Markov Decision Process) ํ๋ ์์ํฌ๋ฅผ ๋ฐ๋ฅด๋ ์์ฐจ์ ์์ฌ ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์์ด์ ํธ(agent)์ ํ๊ฒฝ(environment)์ด ์ํธ ์์ฉํ๋ฉฐ, ์์ด์ ํธ๋ ์ํ(s_t)๋ฅผ ๊ด์ฐฐํ๊ณ ํ๋(a_t)์ ์ ํํ๋ฉฐ, ํ๊ฒฝ์ ๋ค์ ์ํ(s_{t+1})์ ๋ณด์(r_t)์ ์ ๊ณตํฉ๋๋ค. ๋ชฉํ๋ ๋์ ๋ณด์์ ์ต๋ํํ๋ ์ ์ฑ \pi_\phi(a_t|s_t)์ ๋งค๊ฐ๋ณ์ \phi๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. MDP๋ ํํ (S, A, R, P, \gamma)๋ก ํํ๋๋ฉฐ, S๋ ์ํ ๊ณต๊ฐ, A๋ ์ก์ ๊ณต๊ฐ, R์ ๋ณด์ ํจ์, P(s_{t+1}|s_t, a_t)๋ ํ๊ฒฝ ๋ชจ๋ธ(์ ์ด ํ๋ฅ ), \gamma \in [0, 1]๋ ํ ์ธ ๊ณ์์ ๋๋ค. ๋ชฉํ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. J(\phi) = \mathbb{E}_{\tau \sim p_\phi(\tau)} \left[ \sum_{t=1}^T \gamma^{t-1} R(a_t, s_{t+1}) \right] ์ฌ๊ธฐ์ \tau๋ ์ํผ์๋์ ์ํ-์ก์ ์ํ์ค์ ๋๋ค. RL ์๊ณ ๋ฆฌ์ฆ์ model-free (ํ๊ฒฝ ๋ชจ๋ธ ์์ด ํ์ต)์ model-based (ํ๊ฒฝ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ณํ/ํ์ต)๋ก ๋๋ ์ ์์ต๋๋ค. ๋ํ, online (์ต์ ์ ์ฑ ์ผ๋ก ์์งํ ๋ฐ์ดํฐ ์ฌ์ฉ), off-policy (๊ฒฝํ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ๋ฐ์ดํฐ ์ฌ์ฉ), offline (๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ฌ์ฉ)์ผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
PIRL ์๊ฐ (PIRL: Introduction)
PIRL์ ๋ฌผ๋ฆฌ ๊ตฌ์กฐ, ์ฌ์ ์ง์(priors), ์ค์ ๋ฌผ๋ฆฌ ๋ณ์๋ฅผ ์ ์ฑ ํ์ต ๋๋ ์ต์ ํ ๊ณผ์ ์ ํตํฉํ๋ ๊ฐ๋ ์ ๋๋ค. ์ด๋ RL ์๊ณ ๋ฆฌ์ฆ์ ํจ์จ์ฑ, ์ํ ํจ์จ์ฑ, ํ๋ จ ๊ฐ์ํ์ ๊ธฐ์ฌํฉ๋๋ค.
PIRL ๋ถ๋ฅ ์ฒด๊ณ (PIRL Taxonomy)
์ด ๋ ผ๋ฌธ์ ๋ฌผ๋ฆฌ ์ ๋ณด ์ ํ, ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํตํฉํ๋ PIRL ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ RL ํ์ดํ๋ผ์ธ์ ์ธ ๊ฐ์ง ์ถ์ ์ค์ฌ์ผ๋ก PIRL ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํฉ๋๋ค.
- Physics information (types): representation of physics priors
- Differential and algebraic equations (DAE): PDE/ODE, ๊ฒฝ๊ณ ์กฐ๊ฑด(BC) ๋ฑ ์์คํ ๋์ญํ ํํ (์: PINN).
- Barrier certificate and physical constraints (BPC): CLF, BF, CBF/CBC ๋ฑ ์์ ์ ์ฝ ์กฐ๊ฑด (์: ์์ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ํ์ ๊ท์ ).
- Physics parameters, primitives and physical variables (PPV): ํ๊ฒฝ/์์คํ ์์ ์ถ์ถ/๋์ถ๋ ๋ฌผ๋ฆฌ ๊ฐ (์: jam-avoiding distance, dynamic movement primitives).
- Offline data and representation (ODR): ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ํ์ต ๊ฐ์ ์ ์ํ ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ด๋ จ๋ ์ ์ฐจ์ ํํ ํ์ต.
- Physics simulator and model (PS): RL ์๊ณ ๋ฆฌ์ฆ์ ํ ์คํธ๋ฒ ๋ ๋๋ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ์ ๋ถ์ฌํ๊ธฐ ์ํ ์๋ฎฌ๋ ์ดํฐ ํ์ฉ (์: MBRL์์ ์์คํ ๋ชจ๋ธ ํ์ต).
- Physical properties (PPR): ์์คํ ํํ, ๋์นญ ๋ฑ ๊ธฐ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๊ตฌ์กฐ/์์ฑ ์ง์.
- PIRL methods: physics prior augmentations to RL
- State design: ๊ด์ฐฐ๋ ์ํ ๊ณต๊ฐ ์์ /ํ์ฅ (์: ์ํ ์ตํฉ, ํน์ง ์ถ์ถ).
- Action regulation: ์ก์ ๊ฐ์ ์ ์ฝ ์กฐ๊ฑด ๋ถ๊ณผ (์: ์์ ํํฐ).
- Reward design: ํจ๊ณผ์ ์ธ ๋ณด์ ์ค๊ณ ๋๋ ๋ณด์ ํจ์ ์ฆ๊ฐ.
- Augment policy or value N/W: ์ ์ฑ ๋๋ ๊ฐ์น ํจ์์ ์ ๋ฐ์ดํธ ๊ท์น, ์์ค, ๊ตฌ์กฐ ๋ณ๊ฒฝ.
- Augment simulator or model: ๊ธฐ์ด ๋ฌผ๋ฆฌ ์ง์ ํตํฉ์ ํตํ ์๋ฎฌ๋ ์ดํฐ/๋ชจ๋ธ ๊ฐ์ .
- RL Pipeline
- Problem Representation: ์ค์ ๋ฌธ์ ๋ฅผ MDP๋ก ๋ชจ๋ธ๋ง (์ํ, ์ก์ , ๋ณด์ ์ ์).
- Learning strategy: ์์ด์ ํธ-ํ๊ฒฝ ์ํธ ์์ฉ ๋ฐฉ์, ํ์ต ์ํคํ ์ฒ, ์๊ณ ๋ฆฌ์ฆ ์ ํ ๊ฒฐ์ .
- Network design: ์ ์ฑ /๊ฐ์น ๋คํธ์ํฌ์ ์ธ๋ถ ๊ตฌ์กฐ ์ค๊ณ.
- Training: ๋คํธ์ํฌ ํ์ต (Sim-to-real ๋ฑ ํ๋ จ ์ฆ๊ฐ ํฌํจ).
- Trained policy deployment: ํ๋ จ๋ ์ ์ฑ ๋ฐฐํฌ.
์ถ๊ฐ ๋ถ๋ฅ (Further categorization)
์ด ๋ ผ๋ฌธ์ ์ถ๊ฐ์ ์ผ๋ก ๋ ๊ฐ์ง ๋ฒ์ฃผ๋ฅผ ์ฌ์ฉํ์ฌ PIRL ๊ตฌํ์ ์ค๋ช ํฉ๋๋ค.
- Bias: PIML์์ ์ฌ์ฉ๋๋ bias ๊ฐ๋ (Observational, Learning, Inductive)๊ณผ PIRL ์ ๊ทผ ๋ฐฉ์์ ๊ด๊ณ๋ฅผ ๋ถ์ํฉ๋๋ค.
- Learning architecture: ๋ฌผ๋ฆฌ ์ ๋ณด ํตํฉ์ ์ํด ์ ํต์ ์ธ RL ํ์ต ์ํคํ
์ฒ์ ๋์
๋ ๋ณ๊ฒฝ ์ฌํญ์ ๋ฐ๋ผ ๋ถ๋ฅํฉ๋๋ค.
- Safety filter: ์์ ์ ์ฝ ์กฐ๊ฑด์ ๋ณด์ฅํ๊ธฐ ์ํด ์์ด์ ํธ์ ์ก์ ์ ์กฐ์ ํ๋ ๋ชจ๋ ํฌํจ.
- PI reward: ๋ณด์ ํจ์๋ฅผ ๋ฌผ๋ฆฌ ์ ๋ณด๋ก ์์ .
- Residual learning: ๋ฌผ๋ฆฌ ์ ๋ณด ๊ธฐ๋ฐ ์ ์ด๊ธฐ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ฒฐํฉ.
- Physics embedded network: ์ ์ฑ ๋๋ ๊ฐ์น ํจ์ ๋คํธ์ํฌ์ ์์คํ ๋์ญํ ๋ฑ ๋ฌผ๋ฆฌ ์ ๋ณด ์ง์ ํตํฉ.
- Differentiable simulator: ์์ค ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ์ด ์ก์ ์ ๋ํด ์ง์ ๊ณ์ฐํ ์ ์๋ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์ฌ์ฉ.
- Sim-to-Real: ์๋ฎฌ๋ ์ดํฐ์์ ํ์ต ํ ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด.
- Physics variable: ๋ฌผ๋ฆฌ ๋งค๊ฐ๋ณ์, ๋ณ์, ํ๋ฆฌ๋ฏธํฐ๋ธ๋ฅผ ์ํ/๋ณด์ ๋ฑ์ ์ถ๊ฐ.
- Hierarchical RL: ๊ณ์ธต์ ๋๋ ์ปค๋ฆฌํ๋ผ ํ์ต ์ค์ ์์ ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ํตํฉ.
- Data augmentation: ์ ๋ ฅ ์ํ๋ฅผ ์ ์ฐจ์ ํํ ๋ฑ์ผ๋ก ๋์ฒด/์ฆ๊ฐํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ด๋ จ๋ ํน์ง ๋์ถ.
- PI model identification: MBRL ์ค์ ์์ ๋ฌผ๋ฆฌ ์ ๋ณด๋ฅผ ๋ชจ๋ธ ์๋ณ ๊ณผ์ ์ ํตํฉ.
PIRL: Review and Analysis
Algorithmic review: ์์ ์ ์๋ PIRL ๋ฐฉ๋ฒ ๋ฐ ํ์ต ์ํคํ ์ฒ ๋ฒ์ฃผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฐ๊ตฌ๋ค์ ๊ทธ๋ฃนํํ์ฌ ๋ ผ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, State design์์๋ CAV ์ ์ด์์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํ ์ตํฉ, Adaptive cruise control์์์ jam-avoiding distance ํ์ฉ ๋ฑ์ด ๋ ผ์๋ฉ๋๋ค. Action regulation์์๋ ์์ ์ค์ ์์คํ ์ CBF/CBC๋ฅผ ํ์ฉํ ์ก์ ์ ์ฝ์ด ๊ฐ์กฐ๋๋ฉฐ, B_\epsilon(x)์ Lie derivative \mathcal{L}_f(x, u_{RL}) B_\epsilon(x)๋ฅผ ์ด์ฉํ ์์ ์กฐ๊ฑด์ด ์ธ๊ธ๋ฉ๋๋ค. Reward design์์๋ ๋ก๋ด ๋ณดํ, ์๋์ง ๊ด๋ฆฌ, ์ ์ฒด์ญํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ณด์ ํจ์ ์ค๊ณ ์ฌ๋ก๊ฐ ์ ์๋ฉ๋๋ค. Augment simulator or model์์๋ LNN์ ์ฌ์ฉํ ์์คํ ๋ชจ๋ธ ํ์ต, sim-to-real ์ ์ด ๊ฐ์ ์ ์ํ ์๋ฎฌ๋ ์ดํฐ ์ฆ๊ฐ, ๋ฏธ๋ถ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ดํฐ ์ฌ์ฉ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. Augment policy and/or value N/W์์๋ ์ ๊ฒฝ๋ง ์ ์ฑ ์ ๋์ ์์คํ ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ ์ด์ด๋ก ํตํฉํ๋ Neural Dynamic Policies (NDP), ๊ฐ์น ํจ์๋ฅผ HJB PDE๋ฅผ ํธ๋ PINN์ผ๋ก ์ทจ๊ธํ๋ ์ ๊ทผ ๋ฐฉ์ ๋ฑ์ด ์๊ฐ๋ฉ๋๋ค.
Simulation/ evaluation benchmarks: ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ๋ค์ํ ์๋ฎฌ๋ ์ดํฐ ๋ฐ ํ๊ฐ ํ๊ฒฝ์ OpenAI Gym, MuJoCo, Pybullet, Deep mind control suite์ ๊ฐ์ ํ์ค ๋ฒค์น๋งํฌ์ SUMO, CARLA, IEEE distribution system benchmarks ๊ฐ์ ๋๋ฉ์ธ๋ณ ํ๋ซํผ, ๊ทธ๋ฆฌ๊ณ ๋ค์์ ๋ง์ถคํ ํ๊ฒฝ์ผ๋ก ๋ถ๋ฅํ์ฌ ์ ์ํฉ๋๋ค.
Analysis:
- ์ฐ๊ตฌ ๋ํฅ ๋ฐ ํต๊ณ: ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ RL ์๊ณ ๋ฆฌ์ฆ์ PPO์ด๋ฉฐ, ๊ทธ ๋ค๋ฅผ DDPG, SAC ๋ฑ์ด ์์ต๋๋ค. ๋ฌผ๋ฆฌ ์ ๋ณด ์ ํ์ผ๋ก๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ, ์์คํ ๋ชจ๋ธ, ๋ฐฐ๋ฆฌ์ด ์ธ์ฆ์/๋ฌผ๋ฆฌ ์ ์ฝ์ด ๊ฐ์ฅ ํํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค. ํ์ต ์ํคํ ์ฒ ์ค PI reward์ safety filter๋ ์ฃผ๋ก learning bias๋ฅผ ํตํด, physics embedded network๋ inductive bias๋ฅผ ํตํด ๋ฌผ๋ฆฌ๋ฅผ ํตํฉํฉ๋๋ค. ์ ํ๋ฆฌ์ผ์ด์ ๋๋ฉ์ธ์ 85% ๊ฐ๋์ด ์ ์ด ๋๋ ์ ์ฑ ์ค๊ณ์ ๊ด๋ จ ์์ผ๋ฉฐ, ๊ทธ ์ค Miscellaneous control, Safe control and exploration, Dynamic control์ด ์ฃผ๋ฅผ ์ด๋ฃน๋๋ค.
- RL ํด๊ฒฐ ๊ณผ์ : PIRL์ ๋ค์๊ณผ ๊ฐ์ RL ๊ณผ์ ํด๊ฒฐ์ ๊ธฐ์ฌํฉ๋๋ค. Sample efficiency (์๋ฎฌ๋ ์ดํฐ/๋ชจ๋ธ ์ฆ๊ฐ), Curse of dimensionality (๋ฌผ๋ฆฌ ๊ด๋ จ ์ ์ฐจ์ ํํ ํ์ต), Safety exploration (CBF/CLF ๋ฑ ์ ์ด ์ด๋ก ํ์ฉ), Partial observability (์ํ ์ฆ๊ฐ/์ตํฉ), Under-defined reward function (๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ณด์ ์ค๊ณ/์ฆ๊ฐ).
๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฐ ์ฐ๊ตฌ ๋ฐฉํฅ (Open Challenges and Research Directions)
- High Dimensional Spaces: ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ด๋ จ๋ ์ ๋ณด์ฑ์ด ํ๋ถํ ์ ์ฐจ์ ํํ์ ํ์ตํ๋ ๊ฒ์ด ์ฌ์ ํ ๊ณผ์ ์ ๋๋ค.
- Safety in Complex and Uncertain Environments: ๋ณต์กํ๊ณ ๋ถํ์คํ ํ๊ฒฝ์์ model-agnosticํ๋ฉฐ ์ผ๋ฐํ ๊ฐ๋ฅํ ์์ ํ ํ์ ๋ฐ ์ ์ด ์ ๊ทผ ๋ฐฉ์ ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค. ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ชจ๋ธ ํ์ต์ ๋ฌผ๋ฆฌ๋ฅผ ํตํฉํ๋ ์ผ๋ฐํ๋ ์ ๊ทผ ๋ฐฉ์๋ ์ค์ํฉ๋๋ค.
- Choice of physics prior: ๋ฌธ์ ์ ์ ํฉํ ๋ฌผ๋ฆฌ ์ฌ์ ์ง์์ ์ ํํ๋ ๊ฒ์ ์ด๋ ต๊ณ ๋๋ฉ์ธ๋ณ ์ ๋ฌธ ์ง์์ด ํ์ํฉ๋๋ค. ์๋ก์ด ๋ฌผ๋ฆฌ์ ํ์คํฌ๋ฅผ ๋ค๋ฃฐ ์ ์๋ ํฌ๊ด์ ์ธ ํ๋ ์์ํฌ ๊ตฌ์ถ์ด ํ์ํฉ๋๋ค.
- Evaluation and bench-marking platform: PIRL ์ฐ๊ตฌ๋ฅผ ์ํ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํน ๋ฐ ํ๊ฐ ํ๊ฒฝ์ด ๋ถ์กฑํ์ฌ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ๋น๊ต ๋ฐ ํ๊ฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋๋ฉ์ธ๋ณ๋ก ๋ง์ถคํ๋ ํ๊ฒฝ์ ์์กดํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.
๊ฒฐ๋ก (Conclusions): ๋ณธ ๋ ผ๋ฌธ์ PIRL ํจ๋ฌ๋ค์์ ์๊ฐํ๊ณ , ๋ฌผ๋ฆฌ ์ฌ์ ์ง์ ์ ํ ๋ฐ ๋ฌผ๋ฆฌ ์ ๋ณด ํตํฉ ๋ฐฉ์(RL ๋ฐฉ๋ฒ)์ ๊ธฐ๋ฐํ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํฉ๋๋ค. ๋ํ, ํ์ต ์ํคํ ์ฒ ๋ฐ bias์ ๋ฐ๋ฅธ ์ถ๊ฐ ๋ถ๋ฅ๋ฅผ ํตํด PIRL ๊ตฌํ์ ๋ ์ ์ดํดํ ์ ์๋๋ก ๋์ต๋๋ค. ์ต์ ๋ฌธํ์ ๊ฒํ ํ๊ณ , ๋ฌผ๋ฆฌ ์ ๋ณด๊ฐ RL ํ์ดํ๋ผ์ธ์ ๋ค์ํ ๋จ๊ณ์ ์ด๋ป๊ฒ ํตํฉ๋๋์ง ๋ถ์ํ๋ฉฐ, ์ฌ์ฉ๋ ๋ฒค์น๋งํฌ๋ฅผ ์์ฝํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ํ์ฌ PIRL ์ฐ๊ตฌ์ ํ๊ณ์ ๊ณผ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฅผ ๋ ผ์ํ๋ฉฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. PIRL์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ, ์ ๋ฐ๋, ๋ฐ์ดํฐ ํจ์จ์ฑ, ์ค์ ํ๊ฒฝ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ฌ RL ์๊ณ ๋ฆฌ์ฆ์ ํฅ์์ํฌ ์ ์ฌ๋ ฅ์ด ์์ต๋๋ค.