๐Offline RL Survey ๋ฆฌ๋ทฐ
- ์คํ๋ผ์ธ RL(Offline RL)์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ ์์ด ์ ์ ๋ฐ์ดํฐ์ ๋ง์ ์ด์ฉํด ํ์ตํ๋ ํจ๋ฌ๋ค์์ผ๋ก, ์ค์ ํ๊ฒฝ ์ ์ฉ์ ํ์์ ์ด์ง๋ง ๋ฐ์ดํฐ ๋ถํฌ ๋ณํ(distributional shift) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ผ ํฉ๋๋ค.
- ๋ณธ ๋ ผ๋ฌธ์ ์คํ๋ผ์ธ RL ๊ธฐ๋ฒ์ ๋ถ๋ฅํ๋ ์๋ก์ด Taxonomy๋ฅผ ์ ์ํ๊ณ , ์ต์ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ข ํฉ์ ์ผ๋ก ๊ฒํ ํ๋ฉฐ ๋ค์ํ ๋ฐ์ดํฐ ํน์ฑ์ ๋ฐ๋ฅธ ๊ธฐ๋ฒ๋ณ ์ฑ๋ฅ์ ๋ถ์ํฉ๋๋ค.
- ๋๋ถ์ด ์คํ๋ผ์ธ ์ ์ฑ ํ๊ฐ(Off-Policy Evaluation, OPE)๋ฅผ ํฌํจํ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ค์ ๋ ผ์ํ๊ณ ๋ถ์ผ์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.

Brief Review
๋ณธ ๋ ผ๋ฌธ์ ์ ์ ๋ฐ์ดํฐ์ (\mathcal{D})์ผ๋ก๋ถํฐ ํ์ตํ๋ฉฐ ํ๊ฒฝ๊ณผ์ ์ถ๊ฐ ์ํธ์์ฉ ์์ด ์ ์ฑ (\pi_{\text{off}})์ ๋์ถํ๋ Offline Reinforcement Learning (์คํ๋ผ์ธ ๊ฐํํ์ต) ๋ถ์ผ์ ๋ํ ํฌ๊ด์ ์ธ ์๋ฒ ์ด ๋ ผ๋ฌธ์ ๋๋ค. ์จ๋ผ์ธ ๋๋ Off-policy RL (์คํ-ํด๋ฆฌ์ ๊ฐํํ์ต)๊ณผ ๋ฌ๋ฆฌ ์คํ๋ผ์ธ RL์ ๊ณ ๋น์ฉ ๋๋ ์ํ์ฑ์ผ๋ก ์ธํด ํ๊ฒฝ ์ํธ์์ฉ์ด ์ด๋ ค์ด ์ค์ ์์ฉ ๋ถ์ผ(์: ๊ต์ก, ํฌ์ค์ผ์ด, ๋ก๋ณดํฑ์ค)์ ํนํ ์ ์ฉํฉ๋๋ค.
์คํ๋ผ์ธ RL์ ํต์ฌ ๊ณผ์ ๋ ํ์ต๋ ์ ์ฑ (\pi_{\theta})์ด ํ๋ จ ๋ฐ์ดํฐ์ ๋ถํฌ(\pi_{\beta}๋๋d^{\pi_\beta})์์ ๋ฒ์ด๋ ๋ ๋ฐ์ํ๋ Distributional Shift (๋ถํฌ ๋ณํ) ๋ฌธ์ ์ ๋๋ค. ํนํ function approximator์ ๊ณผ๋ ์ถ์ (overestimation)๊ณผ ์ค์ฐจ ๋์ (compounding error)์ด ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. ๊ฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(value-based method)์ ๊ฒฝ์ฐ, ๋ฒจ๋ง ์๋ฌ(Bellman error) ์ต์ํ ๋ชฉํ ํจ์
J(\phi) = \mathbb{E}_{s, a, s' \sim \mathcal{D}}[(r(s, a) + \gamma \mathbb{E}_{a' \sim \pi_{\text{off}}(\cdot|s')}[Q^{\pi}_{\phi}(s', a')] - Q^{\pi}_{\phi}(s, a))^2]
์์a'์ด ๋ฐ์ดํฐ์ ์ ํ๋ ๋ถํฌ\pi_{\beta}์ ๋ค๋ฅผ ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
์ข ๋ฅ
๋ ผ๋ฌธ์ ์คํ๋ผ์ธ RL ๋ฐฉ๋ฒ๋ก ์ ๋ถ๋ฅํ๊ธฐ ์ํ ์๋ก์ด Taxonomy (๋ถ๋ฅ์ฒด๊ณ)๋ฅผ ์ ์ํฉ๋๋ค. ์์ ์์ค์์๋ ํ์ต ๋์์ ๊ธฐ์ค์ผ๋ก Model-Based (๋ชจ๋ธ ๊ธฐ๋ฐ), One-step (์์คํ ), Imitation Learning (๋ชจ๋ฐฉ ํ์ต) ๋ฐฉ๋ฒ์ผ๋ก ๋๋ฉ๋๋ค. ๋ํ, ์์ค ํจ์๋ ํ๋ จ ์ ์ฐจ์ ๋ํ ๋ณํ์ธ Policy Constraints (์ ์ฑ ์ ์ฝ), Regularization (์ ๊ทํ), Uncertainty Estimation (๋ถํ์ค์ฑ ์ถ์ )์ ๋ถ๊ฐ์ ์ธ ํน์ฑ์ผ๋ก ์ค๋ช ํฉ๋๋ค.
Policy Constraints: ํ์ต๋ ์ ์ฑ \pi_{\theta}๋ฅผ ํ๋ ์ ์ฑ \pi_{\beta}์ ๊ฐ๊น๊ฒ ์ ์ฝํฉ๋๋ค.
- Direct (์ง์ ):\pi_{\beta}๋ฅผ ๋ช ์์ ์ผ๋ก ์ถ์ ํ๊ณ \mathcal{D}(\pi_{\theta}(\cdot|s), \hat{\pi}_{\beta}(\cdot|s)) \le \epsilon์ ๊ฐ์ ์ ์ฝ ์กฐ๊ฑด(e.g.,f-divergence ์ฌ์ฉ)์ ๋ถ์ฌํฉ๋๋ค (BCQ, BRAC). ์ถ์ ์ค๋ฅ์ ๋ฏผ๊ฐํฉ๋๋ค.
- Implicit (์๋ฌต์ ):\pi_{\beta} ์ถ์ ์์ด ์์ ๋ ๋ชฉ์ ํจ์๋ฅผ ํตํด ์๋ฌต์ ์ผ๋ก ์ ์ฝํฉ๋๋ค. ์๋์ ๊ฐ์ Advantage-weighted regression ํํ๊ฐ ๋ํ์ ์ ๋๋ค (BEAR, AWR, AWAC, TD3+BC). J(\theta) = \mathbb{E}_{s,a \sim \mathcal{D}}[\log \pi_{\theta}(a|s) \exp(\frac{1}{\lambda} \hat{A}^{\pi}(s, a))]
Importance Sampling (IS): Off-policy ์ ์ฑ ํ๊ฐ๋ฅผ ์ํด ์ฌ์ฉ๋ฉ๋๋ค. ํธ๋ผ์ ํ ๋ฆฌ ํ๋ฅ ๋น์จ์ ๊ณฑ(w_{i:j})์ผ๋ก ์ธํด ๋ถ์ฐ์ด ๋งค์ฐ ๋์ต๋๋ค. Variance Reduction (๋ถ์ฐ ๊ฐ์) ๊ธฐ๋ฒ(Per-decision IS, Doubly Robust Estimator, Marginalized IS)์ด ์ ์๋์์ต๋๋ค. Marginalized IS๋ ์ํ ํ๊ณ ๋ถํฌ ๋น์จ(\rho_{\pi}(s)) ๋๋ ์ํ-ํ๋ ํ๊ณ ๋ถํฌ ๋น์จ(\rho_{\pi}(s, a))์ ๋ฒจ๋ง ๋ฐฉ์ ์d^{\pi_\beta}(s')\rho_\pi(s') = (1-\gamma)d_0(s') + \gamma \sum_{s,a} d^{\pi_\beta}(s)\rho_\pi(s)\pi(a|s)T(s'|s,a)์ ํ์ฉํ์ฌ ๋ถ์ฐ ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค (GenDICE).
Regularization: ์ ์ฑ ๋๋ ๊ฐ์น ํจ์์ ํ๋ํฐ ํญ์ ์ถ๊ฐํ์ฌ ๋ฐ๋์งํ ์์ฑ์ ๋ถ์ฌํฉ๋๋ค.
- Policy Regularization: ์ ์ฑ ์ ์ํธ๋กํผ(entropy)๋ฅผ ์ต๋ํํ์ฌ ํ๋ฅ ์ฑ(stochasticity)์ ๋์ ๋๋ค (SAC).
- Value Regularization: OOD ํ๋์ ๋ํ Q-๊ฐ ์ถ์ ์ ๋ฎ๊ฒ ๊ฐ์ ํ์ฌ ๋ณด์์ ์ธ ๊ฐ์น ์ถ์ ์ ์ํํฉ๋๋ค. CQL์ \max_{\mu} \mathbb{E}_{s \sim \mathcal{D}, a \sim \mu(\cdot|s)}[Q^{\pi}_{\phi}(s, a)] - \mathbb{E}_{s \sim \mathcal{D}, a \sim \hat{\pi}_{\beta}(\cdot|s)}[Q^{\pi}_{\phi}(s, a)] + \mathcal{R}(\mu) ์ ๊ฐ์ ์ ๊ทํ ํญ์ ํตํด ๋ฐ์ดํฐ์ ์ ๊ฐ์น ํจ์๊ฐ ์ฐธ ๊ฐ์ ํํ(lower bound)์ด ๋๋๋ก ํ์ตํฉ๋๋ค.
Uncertainty Estimation: ํ์ต๋ ์ ์ฑ , ๊ฐ์น ํจ์ ๋๋ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ์ถ์ ํ์ฌ ๋ณด์์ฑ์ ์ ๋๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค. ๋ณดํต ์์๋ธ(ensemble)์ ์ฌ์ฉํ์ฌ ์์ธก ๋ถ์ฐ ๋ฑ์ผ๋ก ๋ถํ์ค์ฑ์ ์ธก์ ํฉ๋๋ค (REM).
Model-Based Methods: ๋ฐ์ดํฐ์ \mathcal{D}๋ก ์ ์ด ๋์ญํ(T)๊ณผ ๋ณด์ ํจ์(r)๋ฅผ ํ์ตํฉ๋๋ค. ํ์ต๋ ๋ชจ๋ธ์ ๊ณํ(planning)์ ์ฌ์ฉ๋๊ฑฐ๋ ๋ชจ๋ธ ๋กค์์(model rollout)์ ํตํด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ์ฌ์ฉ๋ฉ๋๋ค. ๋ชจ๋ธ ๋ถํฌ ๋ณํ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ๋ถํ์ค์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๋ณด์์ ํ๋ํฐ๋ฅผ ์ฃผ๋ ๋ณด์์ ์ธ ๋ชจ๋ธ(\tilde{r}_{\psi_r}(s, a) = r_{\psi_r}(s, a) - \lambda U_r(s, a))์ ํ์ตํ๋ ์ ๊ทผ ๋ฐฉ์์ด ์์ต๋๋ค (MOReL, MOPO, COMBO). COMBO๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๊ฒฝ์์์ ๊ฐ์น ์ ๊ทํ(value regularization)๋ฅผ ํตํด ๋ถํ์ค์ฑ ์ ๋ํ ์์ด๋ ๋ณด์์ฑ์ ํ๋ณดํฉ๋๋ค.
One-Step Methods: ์ ์ฑ ํ๊ฐ ๋ฐ ์ ์ฑ ๊ฐ์ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ์ง ์๊ณ , ํ๋ ์ ์ฑ (\pi_{\beta})์ ๊ฐ์น ํจ์(Q^{\pi_{\beta}})๋ฅผ ์ ํํ๊ฒ ํ์ตํ ํ ๋จ์ผ ์ ์ฑ ๊ฐ์ ๋จ๊ณ๋ง ์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด OOD ํ๋์ ๋ํ ๊ฐ์น ํ๊ฐ๋ฅผ ํผํฉ๋๋ค. IQL(Implicit Q-Learning)์ ๊ฐ์น ํจ์(V^{\pi}) ํ์ต์ Expectile Regression (๋ถ์ ํ๊ท) ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ๋ถํฌ ๋ด์ โ์ข์โ ํ๋๋ค์ ๋ํ Q๊ฐ์ ์ํ์ ๊ทผ์ฌํฉ๋๋ค.
Imitation Learning: ํ๋ ์ ์ฑ ์ ๋ชจ๋ฐฉ(mimic)ํฉ๋๋ค. ๋จ์ Behavior Cloning (ํ๋ ๋ณต์ , BC)์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ณต์ ํฉ๋๋ค. ๊ณ ๊ธ ๊ธฐ๋ฒ์ ๊ฐ์น ํจ์ ๋ฑ์ ์ฌ์ฉํ์ฌ ์ฐจ์ ํ๋์ ํํฐ๋งํ๊ฑฐ๋(BAIL, CRR) ์ํ๋ ๊ฒฐ๊ณผ(๋ชฉํ, ๋ณด์ ๋ฑ)์ ์กฐ๊ฑดํ๋ ์ ์ฑ ์ ํ์ตํฉ๋๋ค(RvS).
Trajectory Optimization (ํธ๋ผ์ ํ ๋ฆฌ ์ต์ ํ): ์ ์ฒด ํธ๋ผ์ ํ ๋ฆฌ(\tau = (s_0, a_0, \dots, s_H))์ ๋ํ ๊ฒฐํฉ ์ํ-ํ๋ ๋ถํฌ(p_{\pi_{\beta}}(\tau))๋ฅผ ์ํ์ค ๋ชจ๋ธ(Sequence Model, ์: Transformer)๋ก ํ์ตํฉ๋๋ค. ํ์ต๋ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํ๋ ์์ต(Return-to-Go) ๋ฑ์ ์กฐ๊ฑดํํ์ฌ ๊ณํ์ ์ํํฉ๋๋ค(TT, DT). ํฌ์ ๋ณด์ ๋ฌธ์ ์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
ํ๊ฐ
Off-policy Evaluation (OPE, ์คํ-ํด๋ฆฌ์ ํ๊ฐ)๋ ์คํ๋ผ์ธ RL์ ์ค์ํ Open Problem ์ค ํ๋์ ๋๋ค. ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ ์์ด ์คํ๋ผ์ธ์ผ๋ก ์ ์ฑ ์ ์ฑ๋ฅ์ ์ ํํ ์ถ์ ํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ํ๋ ๊ฒ์ ์ค์ฉ์ ์ธ ์คํ๋ผ์ธ RL์ ํ์์ ์ ๋๋ค. ์ฃผ์ OPE ๋ฐฉ๋ฒ์๋ Model-Based ์ ๊ทผ๋ฒ, Importance Sampling, Fit Q Evaluation (FQE)๊ฐ ์์ต๋๋ค. ๊ฒฝํ์ ์ฐ๊ตฌ๋ค์ ๋ฐ๋ฅด๋ฉด FQE๊ฐ ์ข ์ข ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ชจ๋ ์ค์ ์์ ์ผ๊ด์ ์ผ๋ก ์ฐ์ํ ๋ฐฉ๋ฒ์ ์์ง ์์ต๋๋ค (DOPE ๋ฒค์น๋งํฌ).
์คํ๋ผ์ธ RL Benchmark๋ก๋ D4RL๊ณผ RL Unplugged๊ฐ ๋๋ฆฌ ์ฌ์ฉ๋ฉ๋๋ค.
์ด๋ค์ Narrow and Biased Data Distributions (์ข๊ณ ํธํฅ๋ ๋ฐ์ดํฐ ๋ถํฌ), Undirected and Multitask Data (์งํฅ๋์ง ์์ ๋ค์ค ์์ ๋ฐ์ดํฐ), Sparse Rewards (ํฌ์ ๋ณด์), Suboptimal Data (์ฐจ์ ๋ฐ์ดํฐ), Nonrepresentable Behavior Policies (ํํ ๋ถ๊ฐ๋ฅํ ํ๋ ์ ์ฑ ), Non-Markovian Behavior Policies (๋น ๋ง๋ฅด์ฝํ ํ๋ ์ ์ฑ ), Realistic Domains (ํ์ค์ ์ธ ๋๋ฉ์ธ) ๋ฑ ์ค์ ์์ฉ์ ์ค์ํ Dataset Design Factors (๋ฐ์ดํฐ์ ์ค๊ณ ์์)๋ฅผ ํฌํจํ๋ ๋ค์ํ ํ๊ฒฝ๊ณผ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค.
ํ์ง๋ง Stochastic Dynamics (ํ๋ฅ ์ ๋์ญํ), Nonstationarity (๋น์ ์์ฑ), Risky Biases (์ํํ ํธํฅ), Multiagent ํ๊ฒฝ ๋ฑ์ ์ฌ์ ํ ๋ถ์กฑํ ์ค์ ์ ๋๋ค. D4RL ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ์ต๊ทผ ๋ฐฉ๋ฒ(TT, IQL)๊ณผ ํธ๋ผ์ ํ ๋ฆฌ ์ต์ ํ ๋ฐ ์์คํ ๋ฐฉ๋ฒ์ด ํฌ์ ๋ณด์์ด๋ ๋ค์ค ์์ ๋ฐ์ดํฐ์์ ๊ฐ์ ์ ๋ณด์ด๋ฉฐ ์ ๋งํ ๋ถ๋ฅ๋ก ๋ํ๋ฉ๋๋ค.
๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ OPE์ ์ ๋ขฐ์ฑ ํฅ์, Unsupervised RL ๊ธฐ๋ฒ์ ํ์ฉํ ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ ํ์ฉ, Incremental RL์ ํตํ ์จ๋ผ์ธ Fine-tuning ์ ๋ต ๊ฐ๋ฐ, Safety-critical RL (์์ ํ์ ๊ฐํํ์ต, ์: CVaR) ๋ถ์ผ ์ฐ๊ตฌ ๋ฑ์ด ์ ์๋ฉ๋๋ค. ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์์ง ๋ฐ curation ๋ํ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ๋งํผ ์ค์ํฉ๋๋ค.