flowchart TD
A[Start: Offline Dataset D\n& Empty Replay Buffer R] --> B[Environment Interaction]
B --> C[Collect Transition\nstore in R]
C --> D{For G gradient steps}
D --> E["Symmetric Sampling\n50% from R + 50% from D\n--> Batch b"]
E --> F["TD Target Computation\ny = r + gamma * min_{Z} Q_i(s', a')\n[with optional entropy]"]
F --> G["Critic Update x E\nLayerNorm prevents Q-value divergence\nEnsemble provides regularization"]
G --> H["Actor Update\nmaximize mean Q over ensemble"]
H --> I["Target Network EMA Update"]
I --> D
D --> B
style E fill:#4CAF50,color:#fff
style G fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
๐RLPD ๋ฆฌ๋ทฐ
- ๐ก ์ด ๋ ผ๋ฌธ์ ๊ธฐ์กด์ off-policy RL ๋ฐฉ๋ฒ์ ์ต์ํ์ ์์ ๋ง์ผ๋ก ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ํจ์จ์ ์ธ ์จ๋ผ์ธ ๊ฐํ ํ์ต ๋ฐฉ๋ฒ์ธ RLPD๋ฅผ ์ ์ํฉ๋๋ค.
- โ๏ธ RLPD๋ symmetric sampling, ๊ฐ์น ๊ณผ๋์ถ์ (value over-extrapolation)์ ์ํํ๊ธฐ ์ํ Layer Normalization, ๊ทธ๋ฆฌ๊ณ sample-efficient ํ์ต์ ์ํ large ensembles ์ฌ์ฉ์ ํตํด ์ด๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
- ๐ 30๊ฐ์ง ๋ค์ํ ํ์คํฌ์ ๊ฑธ์น ๊ด๋ฒ์ํ ์คํ์ ํตํด, RLPD๋ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ์ค๋ฒํค๋ ์์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ต๋ 2.5๋ฐฐ ํฅ์๋ ์ ๋ขฐํ ์ ์๋ state-of-the-art ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ์ฐ๊ตฌ๋ ์จ๋ผ์ธ Reinforcement Learning(RL)์์ ์ํ ํจ์จ์ฑ(sample efficiency)๊ณผ ํํ(exploration)์ด๋ผ๋ ์ฃผ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์คํ๋ผ์ธ ๋ฐ์ดํฐ(offline data)๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ์์ ์ด๋ ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ์ ์๊ตฌํ์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด off-policy RL ๋ฐฉ๋ฒ๋ค์ ํ์ฉํ์ฌ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์จ๋ผ์ธ ํ์ต์ ํตํฉํ ์ ์๋์ง ์ง๋ฌธํ๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ฝ๊ฐ์ ์ค์ํ๊ณ ํ์์ ์ธ ๋ณ๊ฒฝ ์ฌํญ๋ง์ผ๋ก๋ ์ ๋ขฐํ ์ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ฅผ RLPD(Reinforcement Learning with Prior Data)๋ผ๊ณ ๋ช ๋ช ํ๋ค.
๊ธฐ์กด off-policy RL ์๊ณ ๋ฆฌ์ฆ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํจ๊ป ๋จ์ํ ์ ์ฉํ๋ ๊ฒ์ ๋ง์กฑ์ค๋ฝ์ง ๋ชปํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, Figure 1์์ โSAC + Offline Dataโ๋ โIQL + Finetuningโ์ ๋นํด ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. RLPD๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ํต์ฌ ์ค๊ณ ์ ํ(design choices)์ ์ ์ํ๋ค.
Design Choice 1: A Simple and Efficient Strategy to Incorporate Offline Data (Symmetric Sampling) RLPD๋ ์ฌ์ ์์ง๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๊ธฐ ์ํด ๊ฐ๋จํ โsymmetric samplingโ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด๋ ๊ฐ ๋ฏธ๋๋ฐฐ์น์์ 50%์ ๋ฐ์ดํฐ๋ฅผ ํ์ฌ replay buffer์์ ์ํ๋งํ๊ณ , ๋๋จธ์ง 50%๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋ฒํผ์์ ์ํ๋งํ๋ ๋ฐฉ์์ด๋ค. ์ด ์ ๋ต์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด๋ ๋ค์ํ ๋๋ฉ์ธ์์ ํจ๊ณผ์ ์ด๋ค. ๊ทธ๋ฌ๋ SAC์ ๊ฐ์ ํ์ค off-policy ๋ฉ์๋์ ์ด๋ฅผ ๋จ์ํ ์ ์ฉํ๋ ๊ฒ๋ง์ผ๋ก๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ป๊ธฐ ์ด๋ ต๋ค.
Design Choice 2: Layer Normalization Mitigates Catastrophic Overestimation ํ์ค off-policy RL ์๊ณ ๋ฆฌ์ฆ์ ํ์ต๋ Q-function์ Out-of-Distribution(OOD) ์ก์ ์ ๋ํด ์ฟผ๋ฆฌํ ๋, ํจ์ ๊ทผ์ฌ(function approximation)๋ก ์ธํด ์ค์ ๊ฐ๋ณด๋ค ๊ณผ๋ํ๊ฒ ๋๊ฒ ํ๊ฐ(overestimation)ํ๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๋ ํ์ต ๋ถ์์ ์ฑ๊ณผ ์ ์ฌ์ ์ธ ๋ฐ์ฐ(divergence)์ ์ด๋ํ๋ค. Figure 2๋ symmetric sampling์ ์ ์ฉํ์ ๋ Q-value๊ฐ ๋ฐ์ฐํ๋ ํ์์ ๋ณด์ฌ์ค๋ค. RLPD๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด critic ๋คํธ์ํฌ์ Layer Normalization(LayerNorm)์ ์ ์ฉํ ๊ฒ์ ์ ์ํ๋ค. LayerNorm์ ๋คํธ์ํฌ์ ์ธ์ฝ(extrapolation)์ ํจ๊ณผ์ ์ผ๋ก ์ ํํ๋ฉด์๋, ์ ์ฑ ์ด ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๊ณ ์ ๋๋๋ก ๋ช ์์ ์ผ๋ก ์ ์ฝํ์ง ์์ ์๋ก์ด ์์ญ ํ์์ ๋ฐฉํดํ์ง ์๋๋ค. ํนํ, LayerNorm์ Q-value๋ฅผ ๊ฐ์ค์น(weight) ๋ ์ด์ด์ norm์ ์ํด ๊ฒฝ๊ณ ์ง๋๋ค. ์ฆ, Q-function Q_{\theta,w}(s, a)๊ฐ ํ๋ผ๋ฏธํฐ \theta, w๋ก ํํ๋๊ณ ์ค๊ฐ ํํ์ด \psi_\theta(s, a)์ผ ๋, ๋ค์๊ณผ ๊ฐ์ ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๋ค: \Vert Q_{\theta,w}(s, a)\Vert = \Vert w^T \text{relu}(\psi_\theta(s, a))\Vert \le \Vert w\Vert \Vert \text{relu}(\psi_\theta(s, a))\Vert \le \Vert w\Vert \Vert \psi(s, a)\Vert \le \Vert w\Vert ์ด๋ฌํ ์์ฑ์ OOD ์ก์ ์ ๋ํ Q-value๊ฐ ์ด๋ฏธ ๋ณธ ๋ฐ์ดํฐ์ ๊ฐ๋ณด๋ค ํฌ๊ฒ ์ฆ๊ฐํ์ง ์๋๋ก ๋ณด์ฅํ์ฌ, ์ค์ฐจ์ฑ ์ก์ ์ธ์ฝ์ ์ํฅ์ ํฌ๊ฒ ์ค์ธ๋ค. Figure 2์ Figure 7์ LayerNorm์ด critic ๋ฐ์ฐ์ ์ํํ๊ณ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ๋ณด์ฌ์ค๋ค.
Design Choice 3: Sample Efficient RL ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํจ๊ณผ์ ์ธ ํ์ฉ์ ์ํด Bellman backup์ด ์ต๋ํ ์ํ ํจ์จ์ ์ผ๋ก ์ํ๋์ด์ผ ํ๋ค. ์ด๋ฅผ ์ํด RLPD๋ ์ ๋ฐ์ดํธ-๋-๋ฐ์ดํฐ(update-to-data, UTD) ๋น์จ์ ์ฆ๊ฐ์ํจ๋ค. ๊ทธ๋ฌ๋ ๋์ UTD ๋น์จ์ ํต๊ณ์ ๊ณผ์ ํฉ(statistical overfitting)์ ์ ๋ฐํ ์ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ํํ๊ธฐ ์ํด critic ๋คํธ์ํฌ์ Random Ensemble Distillation์ ์ ์ฉํ๋ค. ์ด๋ L2 normalization์ด๋ Dropout๋ณด๋ค ๊ฐ๋ ฅํ ์ ๊ทํ(regularization) ํจ๊ณผ๋ฅผ ์ ๊ณตํ๋ค(Figure 9). ํฝ์ ๊ธฐ๋ฐ(pixel-based) ํ๊ฒฝ์ ๊ฒฝ์ฐ, Random Shift Augmentations๋ ํจ๊ป ์ฌ์ฉ๋๋ค.
Per-Environment Design Choices ๋ณธ ๋ ผ๋ฌธ์ Deep RL ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํ ์ธ๋ถ ์ฌํญ์ ๋ํ ๋ฏผ๊ฐ์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ํน์ ์ค๊ณ ์ ํ์ด ํ๊ฒฝ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์์ ์ง์ ํ๋ค.
- Clipped Double Q-Learning (CDQ): Q-learning์ ๊ฐ ๊ณผ๋ํ๊ฐ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด ์ ์๋์์ผ๋, ํน์ ํ๊ฒฝ(์: sparse reward tasks)์์๋ ๋๋ฌด ๋ณด์์ ์ผ ์ ์๋ค. RLPD๋ 2๊ฐ์ Q-function ๋์ 1๊ฐ์ Q-function์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์์ ์์ฌํ๋ค.
- Maximum Entropy RL: ํํ์ ์ด์งํ๋ ๋ฐ ์ ์ฉํ์ง๋ง, ์ํธ๋กํผ ํญ์ ์ ๋ฌด๋ ๊ฐ์ค์น \alpha๋ ํ๊ฒฝ์ ๋ฐ๋ผ ์ต์ ์ ๊ฐ์ด ๋ฌ๋ผ์ง ์ ์๋ค.
- Architecture: Actor์ critic ๋คํธ์ํฌ์ ๋ ์ด์ด ์(2 ๋๋ 3)๋ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ค. RLPD๋ practitioner๋ค์ ์ํด ์ด๋ฌํ ํ๊ฒฝ๋ณ ์ค๊ณ ์ ํ์ ์์๋๋ก ํ ์คํธํด๋ณด๋ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ํ๋ค.
RLPD Algorithm Overview (Algorithm 1)
RLPD๋ SAC๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์์์ ์ค๋ช ํ ํต์ฌ ์์๋ค์ ํตํฉํ๋ค.
- LayerNorm, Large Ensemble Size (E), Gradient Steps (G), ๊ทธ๋ฆฌ๊ณ ๋คํธ์ํฌ Architecture๋ฅผ ์ ํํ๋ค.
- ์ด๊ธฐํ๋ Critic(\theta_i) ๋ฐ Actor(\phi) ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ค.
- Symmetric sampling์ ํตํด minibatch๋ฅผ ์์ฑํ๋ค. (Line 12: replay buffer R์์ N/2 ์ํ, Line 13: offline data buffer D์์ N/2 ์ํ)
- Critic ์ ๋ฐ์ดํธ ์, Ensemble Critics ์ค Subset Z๊ฐ๋ฅผ ์ํ๋งํ์ฌ ํ๊ฒ Q-value๋ฅผ ๊ณ์ฐํ๋ค (Line 15, 16: y = r + \gamma \min_{i \in Z} Q_{\theta'_i}(s', \tilde{a}'), \tilde{a}' \sim \pi_\phi(\cdot|s')).
- ์ ํ์ ์ผ๋ก entropy term์ ์ถ๊ฐํ๋ค (Line 17: y = y + \gamma\alpha \log \pi_\phi(\tilde{a}'|s')).
- Critic ๋ฐ Actor ๋คํธ์ํฌ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
Experiments
RLPD๋ Sparse Adroit, D4RL AntMaze, D4RL Locomotion, V-D4RL ๋ฑ 30๊ฐ ์ด์์ ๋ค์ํ ํ์คํฌ์์ ํ๊ฐ๋์๋ค. ๊ธฐ์กด ์ต์ฒจ๋จ ๋ฐฉ๋ฒ(Prior SoTA)๊ณผ SACfD(์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก replay buffer๋ฅผ ์ด๊ธฐํํ๋ ๋ฐฉ์)์ ๋น๊ตํ์ ๋, RLPD๋ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๊ฑฐ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ์ด๋ ค์ด sparse reward ํ์คํฌ์์๋ ์ต๋ 2.5๋ฐฐ์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค(Figure 4, 5). RLPD๋ ์ฌ์ ํ์ต(pre-training) ์์ด๋ ์ด๋ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ๋น ๋ฅธ ์จ๋ผ์ธ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์๋ค.
Ablation Study
- LayerNorm์ ์ค์์ฑ: Figure 7์์ LayerNorm์ Adroit ๋๋ฉ์ธ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ํด ๋งค์ฐ ์ค์ํ๋ฉฐ, ํนํ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ด๊ฑฐ๋ ํ์ํ๊ฒ ๋ถํฌ๋ ๊ฒฝ์ฐ(Expert Adroit Sparse Tasks) LayerNorm์ด ์์ผ๋ฉด ์ฑ๋ฅ์ด ๋ถ๊ดด๋จ์ ๋ณด์ฌ์ค๋ค.
- Workflow ๊ฒ์ฆ: Figure 8์ ์ ์๋ ํ๊ฒฝ๋ณ ์ค๊ณ ์ ํ(CDQ ์ฌ์ฉ ์ฌ๋ถ, entropy term ์ฌ์ฉ ์ฌ๋ถ, ๋คํธ์ํฌ ๋ ์ด์ด ์)์ด ๊ฐํ ์ฑ๋ฅ์ ์ด๋์ด๋ด๊ณ , ์ด๋ฅผ ์ ์ ํ ์กฐ์ ํ๋ ๊ฒ์ด ์ค์ํจ์ ๋ณด์ฌ์ค๋ค.
- Critic Regularization: Figure 9์์ Random Ensemble Distillation์ด weight-decay๋ Dropout๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ํนํ sparse reward ํ์คํฌ์์ ๊ทธ๋ฌํ๋ค.
- Sampling Proportion Sensitivity: Figure 12์์ 50%์ symmetric sampling ๋น์จ์ด ๋ค์ํ ์๋๋ฆฌ์ค์์ ์ต์ ์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, RLPD๊ฐ ์ํ๋ง ๋น์จ์ ํฌ๊ฒ ๋ฏผ๊ฐํ์ง ์์์ ๋ณด์ฌ์ค๋ค. Initializing the buffer with offline data(Figure 11)๋ ์ด๊ธฐ ์ฑ๋ฅ์ ์ข์ผ๋ ์ ๊ทผ์ ์ฑ๋ฅ ํฅ์์ ํ๊ณ๊ฐ ์๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด off-policy RL ์๊ณ ๋ฆฌ์ฆ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํจ๊ป ์จ๋ผ์ธ ํ์ต์ ํ์ฉํ๋ ๊ฒ์ด ๋งค์ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋ค. symmetric sampling, LayerNorm์ ํตํ Q-value ์ธ์ฝ ์ ๊ทํ, ๊ทธ๋ฆฌ๊ณ ์ํ ํจ์จ์ ์ธ ํ์ต(large ensembles)์ ๋ ํนํ ์กฐํฉ์ด RLPD์ ์ฑ๊ณต์ ํต์ฌ์ ์์ ์ ์ฆํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ฏธ๋ฏธํ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ์ฝ๊ฒ ํตํฉ๋ ์ ์์ด practitioner๋ค์๊ฒ ์ค์ฉ์ ์ธ ์ง์นจ์ ์ ๊ณตํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ICML 2023 (Short Presentation)
์๋ก : ์ ์ด ๋ฌธ์ ๊ฐ ์ด๋ ค์ด๊ฐ?
๋ก๋ด ํ์ด ๋ฌผ๊ฑด์ ์ง์ด ์ฌ๋ฆฌ๋ ๋ฒ์ ๋ฐฐ์ด๋ค๊ณ ์์ํด๋ณด์. ์ฐ๋ฆฌ์๊ฒ๋ ์ด๋ฏธ ์ธ๊ฐ์ด ์์ฐํ ๋ฐ์ดํฐ ์๋ฐฑ ๊ฐ๊ฐ ์๋ค. ๊ทธ๋ฐ๋ฐ ๊ฐํํ์ต(RL) ์์ด์ ํธ๊ฐ ์ด ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์๋ ์ฒ์์ ์์ ํ ๋ฌด์์๋ก ํ์ ํ์ ๋๋ค๋ฉด ์ผ๋ง๋ ๋นํจ์จ์ ์ธ๊ฐ? ์ด๋ฏธ โ์ด๋๋ก ๊ฐ์ผ ํ๋์งโ๋ฅผ ๊ฐ๋ฅด์ณ์ฃผ๋ ๋ฐ์ดํฐ๊ฐ ์๋๋ฐ ์ด๋ฅผ ํ์ฉํ์ง ๋ชปํ๋ค๋ฉด, ์ด๋ ๋ง์น ๊ธธ์ ์๊ณ ์๋ ์ง๋๋ฅผ ์ฃผ๋จธ๋์ ๋ฃ์ด๋๊ณ ๊ธธ์ ํค๋งค๋ ๊ฒ๊ณผ ๊ฐ๋ค.
RL์ ์ํ ํจ์จ์ฑ(sample efficiency) ๋ฌธ์ ๋ ๋ก๋ด๊ณตํ ์ค๋ฌด์์๊ฒ ํนํ ๋ผ์ํ๋ค. ์ค์ ๋ก๋ด์ ์์ญ๋ง ๋ฒ ๋๋ฆด ์๋ ์๋ค. ํ๋์จ์ด๊ฐ ๋ง๋ชจ๋๊ณ , ์์ ์ฌ๊ณ ๊ฐ ๋๋ฉฐ, ๋ฌด์๋ณด๋ค ์๊ฐ์ด ์๋ค. ๊ทธ๋์ ์ฐ๊ตฌ์๋ค์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฐฉํฅ์ ํ์ํด์๋ค.
- ์คํ๋ผ์ธ RL (Offline RL): ์์ง๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ ์ฑ ์ ํ์ตํ๋ค. ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ด ์ ํ ์๋ค. ๋ํ์ ์ผ๋ก IQL(Implicit Q-Learning), CQL(Conservative Q-Learning) ๋ฑ์ด ์๋ค.
- ์จ๋ผ์ธ ํ์ธํ๋ (Online Fine-tuning): ์คํ๋ผ์ธ RL๋ก ๋จผ์ ์ ์ฑ ์ ์ด๊ธฐํํ ๋ค, ์จ๋ผ์ธ ์ํธ์์ฉ์ผ๋ก ๊ฐ์ ํ๋ค.
๋ ๋ฐฉ์ ๋ชจ๋ ๊ณตํต๋ ๋๋ ๋ง๋ฅผ ์๊ณ ์๋ค. ์คํ๋ผ์ธ RL์ ๋ถํฌ ์ธ ํ๋(out-of-distribution action)์ ๋ํด ๊ณผ๋ํ๊ฒ ๋ณด์์ ์ด์ด์, ์จ๋ผ์ธ์ผ๋ก ์ ํํ์ ๋ ํ์์ ์ต์ ํ๋ค. ๋ฐ๋๋ก ์ด ๋ณด์์ฑ์ ํ๋ฉด Q-๊ฐ์ด ํญ๋ฐ์ ์ผ๋ก ๋ฐ์ฐํ๋ค.
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ง๋ฌธ์ ๋จ์ํ๋ฉด์๋ ๋๋ฐ์ ์ด๋ค:
โ์คํ๋ผ์ธ ์ฌ์ ํ์ต์ด๋ ๋ช ์์ ์ ์ฝ ์์ด, ๊ธฐ์กด off-policy ์๊ณ ๋ฆฌ์ฆ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฅ ์ง์ด๋ฃ์ผ๋ฉด ์ ๋๋๊ฐ?โ
๊ทธ๋ฆฌ๊ณ ์ ์๋ค์ ๋ต์ โ๋๋ค. ๋จ, ๋ช ๊ฐ์ง ํต์ฌ ์ค๊ณ ์ ํ์ด ํ์ํ๋คโ์ด๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ์ค๊ณ ์ ํ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ์ฐพ์๋ด๊ณ ์ ๋นํํ๋ค.
๋ฐฉ๋ฒ: RLPD์ ์ธ ๊ฐ์ง ํต์ฌ ์ค๊ณ ์ ํ
์ ์๋ค์ด ์ ์ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฆ์ RLPD (Reinforcement Learning with Prior Data)๋ค. ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ SAC (Soft Actor-Critic)์ด๋ฉฐ, ์ธ ๊ฐ์ง ํต์ฌ ์์ ์ ๊ฐํ๋ค. ์ด ์ธ ๊ฐ์ง๋ฅผ ํ๋์ฉ ํด๋ถํด๋ณด์.
์ค๊ณ ์ ํ 1: ๋์นญ ์ํ๋ง (Symmetric Sampling)
๊ฐ์ฅ ๋จ์ํ๋ฉด์๋ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์์ด๋์ด๋ค.
๊ธฐ์กด ์ ๊ทผ ๋ฐฉ์๋ค์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๋ค๋ค์๋๊ฐ? ํฌ๊ฒ ๋ ๊ฐ์ง์๋ค.
- ๋ฒํผ ์ด๊ธฐํ(Seeded Buffer): ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ๋ฏธ๋ฆฌ ์ฑ์ ๋ฃ๋๋ค. ์จ๋ผ์ธ ๊ฒฝํ์ด ์์ด๋ฉด ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๋น์จ์ด ์ค์ด๋ ๋ค.
- ์ฌ์ ํ์ต(Pre-training): ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ๋จผ์ ์ ์ฑ ์ ํ์ตํ ๋ค ์จ๋ผ์ธ ์ ํ.
RLPD๋ ๋ค๋ฅด๋ค. ๋งค ๋ฏธ๋๋ฐฐ์น๋ง๋ค ์ ํํ 50%๋ ์จ๋ผ์ธ ๋ฆฌํ๋ ์ด ๋ฒํผ์์, 50%๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋ฒํผ์์ ์ํ๋งํ๋ค. ํ์ต ๋ด๋ด ์ด ๋น์จ์ ๊ณ ์ ์ผ๋ก ์ ์งํ๋ค. ์ด๋ฅผ ๋์นญ ์ํ๋ง(Symmetric Sampling)์ด๋ผ ๋ถ๋ฅธ๋ค.
์ด ๋จ์ํ ์ ๋ต์ด ์ ํจ๊ณผ์ ์ธ๊ฐ? ์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณด์:
- ๋ฒํผ ์ด๊ธฐํ ๋ฐฉ์์ ๋ฌธ์ : ์จ๋ผ์ธ ๊ฒฝํ์ด ์์ด๋ฉด ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ๋ฒํผ์์ ํฌ์๋๋ค. ์ฆ, ํ๋ฐ๋ถ์๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ๊ฑฐ์ ์ฌ์ฉํ์ง ์๊ฒ ๋๋ค. ํฌ๊ทํ ์์ฐ ๋ฐ์ดํฐ๋ผ๋ฉด ๋์ฑ ์ฌ๊ฐํ๋ค.
- ๋์นญ ์ํ๋ง์ ์ฅ์ : ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฒ์๋ถํฐ ๋๊น์ง ์ผ์ ๋น์จ๋ก ํ์ฉํ๋ค. ์ด๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ํ์ ๋ฐ๋(reward density)๋ฅผ ๋์ฌ์ฃผ๋ ์ญํ ์ ์ง์์ ์ผ๋ก ์ํํ๊ฒ ํ๋ค.
์คํ์์๋ ์ด๋ฅผ ํ์ธํ ์ ์๋ค (๋ ผ๋ฌธ Figure 10). Adroit Pen ํ๊ฒฝ์์ ๋์นญ ์ํ๋ง์ ๋ฐฐ์น ๋ด ๋ณด์ ๋ฐ๋๋ฅผ ์ง์์ ์ผ๋ก ๋์ด๋ฉฐ, Door ํ๊ฒฝ์์๋ ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ๋๋๊ฒ๋ 50% ๋น์จ์ด 25%, 75%, 100%๋ณด๋ค ๋ค์ํ ๋๋ฉ์ธ์์ ๊ฐ์ฅ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค (๋ ผ๋ฌธ Figure 12). ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด๋ ์ ๋์ํ๋ โ๊ณต์ง ์ ์ฌโ์ ๊ฐ๊น๋ค.
์ค๊ณ ์ ํ 2: ๋ ์ด์ด ์ ๊ทํ (Layer Normalization)๋ก Q-๊ฐ ๋ฐ์ฐ ์ต์
์ด๊ฒ์ด RLPD์์ ๊ฐ์ฅ ์ค์ํ๊ณ ํฅ๋ฏธ๋ก์ด ํต์ฐฐ์ด๋ค.
๋ฌธ์ ์ ๋ณธ์ง: ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ ์ํ-ํ๋ ๊ณต๊ฐ์ ์ผ๋ถ๋ง ์ปค๋ฒํ๋ค. Q-์ ๊ฒฝ๋ง์ ํ์ต ๋ฐ์ดํฐ ๋ถํฌ ๋ฐ๊นฅ์ ํ๋์ ๋ํด์๋ ๊ฐ์ ์์ธกํด์ผ ํ๋๋ฐ, ์ด๋ ๋ถํฌ ์ธ ํ๋์ ๋ํ Q-๊ฐ์ด ํญ๋ฐ์ ์ผ๋ก ๊ณผ๋์ถ์ (overestimation)๋ ์ ์๋ค. ์คํ๋ผ์ธ RL ๋ถ์ผ์์ ์ด ํ์์ ์ค๋์ ๋ถํฐ ์๋ ค์ง ์น๋ช ์ ๋ณ๋ฆฌ๋ค.
๋ ผ๋ฌธ์ Figure 2๋ฅผ ๋ณด๋ฉด ๊ทน๋ช ํ๊ฒ ๋๋ฌ๋๋ค. ๋์นญ ์ํ๋ง๋ง ์ ์ฉํ์ ๋ AntMaze Large ๊ฐ์ ๋ณต์กํ ํ๊ฒฝ์์ Q-๊ฐ์ด ๋ก๊ทธ ์ค์ผ์ผ๋ก ํญ์ฃผํ๋ค. ์ฑ๋ฅ์ ์ ํ ์ค๋ฅด์ง ์๋๋ค.
๊ธฐ์กด ์คํ๋ผ์ธ RL์ ๋์ฒ๋ฒ์ ๋ณด์์ ๋ฒ์ (conservative penalty)์ด์๋ค. CQL์ ๋ถํฌ ์ธ ํ๋์ Q-๊ฐ์ ๋ช ์์ ์ผ๋ก ๋ฎ์ถ๊ณ , BCO๋ ํ๋ ํด๋ก๋ ํญ์ ์ถ๊ฐํ๋ค. ์ด๋ฐ ๋ฐฉ์์ ํจ๊ณผ์ ์ด์ง๋ง ํ์์ ์ต์ ํ๋ค๋ ๋ถ์์ฉ์ด ์๋ค.
RLPD์ ํด๋ฒ์ ๋๋๋๋ก ์ฐ์ํ๋ค: ๋ ์ด์ด ์ ๊ทํ(Layer Normalization, LN)๋ฅผ ํฌ๋ฆฌํฑ ๋คํธ์ํฌ์ ์ ์ฉํ๋ค.
์ LN์ด ํจ๊ณผ๊ฐ ์๋๊ฐ? ์ ์๋ค์ ์ด๋ฅผ ์ํ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. LN์ด ์ ์ฉ๋ Q-ํจ์ Q_{\theta,w}์ ๋ํด:
\|Q_{\theta,w}(s, a)\| = \|w^T \text{relu}(\psi_\theta(s, a))\| \leq \|w\| \cdot \|\psi_\theta(s, a)\|
LN์ ์ค๊ฐ ํํ \psi_\theta๋ฅผ ๋จ์ ๊ตฌ ์๋ก ์ ๊ทํํ๋ค. ๋ฐ๋ผ์:
\|\psi_\theta(s, a)\| \leq 1 \quad \Rightarrow \quad \|Q_{\theta,w}(s, a)\| \leq \|w\|
๊ฒฐ๋ก : Q-๊ฐ์ ๋ง์ง๋ง ๋ ์ด์ด ๊ฐ์ค์น์ norm์ ์ํด ์๋ก ์ ๊ณ(bounded)๋๋ค. ์ด๋ ๋ถํฌ ์ธ ํ๋์ ๋ํด์๋ ๋ง์ฐฌ๊ฐ์ง๋ค. Q-๊ฐ์ด ๋ฌดํํ ํญ๋ฐํ๋ ์ผ์ด ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํด์ง๋ค.
๋ ผ๋ฌธ์ Figure 3์ด ์ด๋ฅผ ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ๋ฐ์ง๋ฆ 0.5์ธ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋, ํ์ค MLP๋ ๋ถํฌ ๋ฐ(์ ์ธ๋ถ)์์ ๊ฐ์ด ๋ฌดํํ ์ฆ๊ฐํ์ง๋ง, LN์ ์ถ๊ฐํ MLP๋ ๋ถํฌ ๋ฐ์์๋ ๊ฐ์ด ๊ฒฝ๊ณ ๋ด์ ๋จธ๋ฌธ๋ค.
๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ์ค์ํ ๋ฏธ๋ฌํจ์ด ์๋ค. LN์ Q-๊ฐ์ ์ํ์ ๋์ง๋ง, ํน์ ํ๋์ ๋ช ์์ ์ผ๋ก โ๋์๋คโ๊ณ ํ๋จํ์ง๋ ์๋๋ค. CQL์ฒ๋ผ ๋ถํฌ ์ธ ํ๋์ Q-๊ฐ์ ์ธ์์ ์ผ๋ก ๋ฎ์ถ์ง ์๋๋ค. ๋ฐ๋ผ์ ํ์์ ์ต์ ํ์ง ์๋๋ค. ์ด๊ฒ์ด ์จ๋ผ์ธ RL์์ LN์ด ํนํ ๊ฐ๋ ฅํ ์ด์ ๋ค. ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ์ธํ ๋ฐ์ฐ์ ๋ง์ผ๋ฉด์๋, ์์ด์ ํธ๊ฐ ์๋ก์ด ์์ญ์ ์์ ๋กญ๊ฒ ํ์ํ ์ ์๋๋ก ํ์ฉํ๋ค.
์ค๊ณ ์ ํ 3: ์ํ ํจ์จ์ RL โ ๋๊ท๋ชจ ์์๋ธ
์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ๋น ๋ฅด๊ฒ ํ์ฉํ๋ ค๋ฉด, ๊ฐ ํ๊ฒฝ ์คํ ์์ ๋ ๋ง์ ํ์ต์ด ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค. ์ด๋ฅผ ์ํ ๋ ๊ฐ์ง ์ถ์ด ์๋ค.
โ UTD (Update-to-Data) ๋น์จ ์ฆ๊ฐ
ํ๊ฒฝ ์คํ
1ํ๋น ์ฌ๋ฌ ๋ฒ์ ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ๋ฅผ ์ํํ๋ค. UTD=20์ด๋ฉด ํ๊ฒฝ ์คํ
1๋ฒ์ ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ 20๋ฒ์ ํ๋ค. ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ๋ ๋นจ๋ฆฌ โ์ํโ๋๋ค.
ํ์ง๋ง UTD๋ฅผ ๋์ด๋ฉด ํต๊ณ์ ๊ณผ์ ํฉ(overfitting) ๋ฌธ์ ๊ฐ ์๊ธด๋ค. Q-ํจ์๊ฐ ๋ฏธ๋๋ฐฐ์น์ ๊ณผ์ ํฉํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒ์ด๋ค.
โก ํฌ๋ฆฌํฑ ์์๋ธ (Critic Ensemble)
์ด ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด RLPD๋ REDQ (Randomized Ensemble Double Q-Learning) ์คํ์ผ์ ๋๊ท๋ชจ ์์๋ธ์ ์ฑํํ๋ค. E๊ฐ์ ํฌ๋ฆฌํฑ Q_{\theta_1}, \ldots, Q_{\theta_E}๋ฅผ ๋์์ ํ์ตํ๋ฉฐ, TD ๋ฐฑ์
์ ์ด ์ค ๋๋คํ๊ฒ ์๋ธ์
Z๊ฐ๋ฅผ ์ ํํด ์ต์๊ฐ์ ์ทจํ๋ค.
y = r + \gamma \min_{i \in \mathcal{Z}} Q_{\theta'_i}(s', \tilde{a}'), \quad \tilde{a}' \sim \pi_\phi(\cdot|s')
์ฌ๊ธฐ์ |\mathcal{Z}|๋ ํ๊ฒฝ์ ๋ฐ๋ผ 1 ๋๋ 2๋ก ์ค์ ํ๋ค (์์ธํ ๋ด์ฉ์ ์๋ ํ๊ฒฝ๋ณ ์ค๊ณ ์ ํ ์น์ ์ฐธ์กฐ).
์ ์๋ค์ ๋ค์ํ ์ ๊ทํ ๋ฐฉ๋ฒ์ ๋น๊ตํ๋ค (๋ ผ๋ฌธ Figure 9): - Weight Decay: ๋ชจ๋ ๋๋ฉ์ธ์์ ์์๋ธ๋ณด๋ค ์ด๋ฑ. - Dropout: ๋ฐ์ง ๋ณด์(dense reward) ํ๊ฒฝ์์๋ ๊ด์ฐฎ์ง๋ง, ํฌ์ ๋ณด์(sparse reward) ํ๊ฒฝ์์๋ ์คํจ. - ์์๋ธ (RLPD): ๊ฐ์ฅ ์ผ๊ด๋๊ฒ ๊ฐ๋ ฅํ ์ฑ๋ฅ.
๊ฒฐ๋ก ์ ์ผ๋ก ์์๋ธ์ด ๊ฐ์ฅ ๋ฒ์ฉ์ ์ด๊ณ ๊ฐ๋ ฅํ ์ ๊ทํ ์ ๋ต์ด๋ค.
์์ฌ์ฝ๋: RLPD ์ ์ฒด ๊ตฌ์กฐ
Algorithm: RLPD (Online RL with Offline Data)
Inputs:
- Offline dataset D = {(s, a, r, s') tuples}
- Ensemble size E, gradient steps G per env step
- Architecture: LayerNorm, number of layers
Initialize:
- E critic networks {theta_i}, targets {theta'_i = theta_i}
- Actor network phi
- Empty online replay buffer R
While training:
Receive initial state s_0
For each env step t:
a_t ~ pi_phi(.|s_t) # Act
Store (s_t, a_t, r_t, s_{t+1}) in R # Collect
For g = 1..G: # Multiple gradient steps
Sample N/2 from R (online data)
Sample N/2 from D (offline data) # Symmetric Sampling
Combine into batch b of size N
Sample subset Z of Z indices from {1..E}
Compute TD target:
y = r + gamma * min_{i in Z} Q_{theta'_i}(s', a'_tilde)
[optionally + gamma * alpha * log pi_phi(a'_tilde|s')]
For i = 1..E:
Update theta_i: minimize (y - Q_{theta_i}(s,a))^2 # LayerNorm in Q-net
Update actor phi: maximize (1/E) * sum_i Q_{theta_i}(s, a_tilde)
Update target networks: theta'_i <- rho*theta'_i + (1-rho)*theta_i
ํ๊ฒฝ๋ณ ์ค๊ณ ์ ํ (Per-Environment Design Choices)
RLPD๋ ์์ ์ธ ๊ฐ์ง ํต์ฌ ์ ํ ์ธ์, ํ๊ฒฝ์ ๋ฐ๋ผ ์กฐ์ ํด์ผ ํ โํ๊ฒฝ ๋ฏผ๊ฐ(environment-sensitive)โ ์ ํ๋ค์ด ์๋ค. ์ ์๋ค์ ์ด๊ฒ์ด ๊ธฐ์กด RL ๋ฌธํ์์ ํํ ๋น์ฐํ๊ฒ ๋ฐ์๋ค์ฌ์ง์ง๋ง ์ฌ์ค์ ์ฌ๊ฒํ ๊ฐ ํ์ํ๋ค๊ณ ๊ฐ์กฐํ๋ค.
โ Clipped Double Q-Learning (CDQ)
TD3์ SAC์์ ํ์ค์ผ๋ก ์ฐ์ด๋ CDQ๋ ๋ ํฌ๋ฆฌํฑ์ ์ต์๊ฐ์ ํ๊น์ผ๋ก ์ด๋ค. ์ด๋ ์ค์ ํ๊น Q-๊ฐ์์ ์ฝ 1 ํ์คํธ์ฐจ๋ฅผ ๋นผ๋ ํจ๊ณผ๊ฐ ์์ด ๋ณด์์ ์ด๋ค. ํฌ์ ๋ณด์ ํ๊ฒฝ์์๋ ์ด ๋ณด์์ฑ์ด ํ์ต์ ๋ฐฉํดํ ์ ์๋ค. ๋
ผ๋ฌธ์ AntMaze Large Diverse ์คํ (Figure 8)์์ CDQ๋ฅผ ์ ๊ฑฐํ๊ณ 1๊ฐ ํฌ๋ฆฌํฑ๋ง ์๋ธ์
์ผ๋ก ์ฌ์ฉํ์ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ค.
โก ์ต๋ ์ํธ๋กํผ ํญ (MaxEnt / Entropy Backups)
SAC์ ์ํธ๋กํผ ํญ์ ํ์์ ๋๋๋ค. ๊ทธ๋ฌ๋ ์ผ๋ถ ํ๊ฒฝ(Adroit Relocate, Humanoid Walk)์์๋ ์คํ๋ ค ์ฑ๋ฅ์ ์ ํ์ํจ๋ค. ์ ์๋ค์ ์ด ํญ์ ์ ๊ฑฐํ๋ ๊ฒ์ ์ถ๋ฐ์ ์ผ๋ก ์ถ์ฒํ๋ค.
โข ๋คํธ์ํฌ ๊น์ด (Network Depth)
2์ธต vs. 3์ธต MLP๋ฅผ ๋น๊ตํ๋ค. ๋ณต์กํ ํ๊ฒฝ(์: Adroit, Humanoid)์์๋ 3์ธต์ด ์ ๋ฆฌํ๊ณ , ๋จ์ํ ํ๊ฒฝ์์๋ 2์ธต์ผ๋ก ์ถฉ๋ถํ๋ค.
์ค์ฉ์ ์ํฌํ๋ก์ฐ: ์ ์๋ค์ ์ด ์ธ ๊ฐ์ง ํ๊ฒฝ๋ณ ์ ํ์ ์๋ ์์๋ก ๋จผ์ ํ์ํ๋ผ๊ณ ๊ถ์ฅํ๋ค.
Step 1: Try subsetting 1 critic (disable CDQ) --> Observe improvement?
Step 2: Try removing entropy backups --> Observe improvement?
Step 3: Try deeper 3-layer MLP --> Observe improvement?
์ ์ฒด ๊ตฌ์กฐ ๋ค์ด์ด๊ทธ๋จ
RLPD ํต์ฌ ์ค๊ณ ์ ํ ์์ฝํ
| ์ค๊ณ ์ ํ | ๋ฌด์์ ํด๊ฒฐํ๋๊ฐ | ์ด๋ป๊ฒ ์๋ํ๋๊ฐ | ์ถ๊ฐ ๋น์ฉ |
|---|---|---|---|
| ๋์นญ ์ํ๋ง | ์คํ๋ผ์ธ ๋ฐ์ดํฐ ํฌ์ ๋ฌธ์ | ๋งค ๋ฐฐ์น 50:50 ๊ณ ์ ํผํฉ | ์์ |
| Layer Normalization | Q-๊ฐ ๋ฐ์ฐ / ๊ณผ๋์ถ์ | Q-๊ฐ์ \|w\|๋ก ์ ๊ณํ | ๋ฏธ๋ฏธํจ |
| ํฌ๋ฆฌํฑ ์์๋ธ (REDQ) | ํต๊ณ์ ๊ณผ์ ํฉ | E๊ฐ ํฌ๋ฆฌํฑ, ๋๋ค ์๋ธ์ | ๋ฉ๋ชจ๋ฆฌ E๋ฐฐ |
| UTD ๋น์จ ์ฆ๊ฐ | ๋๋ฆฐ ๋ฐ์ดํฐ ํ์ฉ | ์คํ ๋น G๋ฒ ์ ๋ฐ์ดํธ | ๊ณ์ฐ๋ G๋ฐฐ |
| CDQ ์กฐ์ | ๊ณผ๋ํ ๋ณด์์ฑ | 1๊ฐ ํฌ๋ฆฌํฑ ์๋ธ์ | ์์ |
| ์ํธ๋กํผ ํญ ์กฐ์ | ํ๊ฒฝ๋ณ ํ์ trade-off | ํ๊ฒฝ์ ๋ฐ๋ผ on/off | ์์ |
์คํ: ์ด๋ค ํ๊ฒฝ์์ ์ผ๋ง๋ ์ข์๊ฐ?
์คํ ์ค์
์ ์๋ค์ ์ด 30๊ฐ ํ์คํฌ์ ๊ฑธ์ณ RLPD๋ฅผ ๊ฒ์ฆํ๋ค. ํฌ๊ฒ ์ธ ๊ทธ๋ฃน์ด๋ค.
๊ทธ๋ฃน 1: Sparse Adroit (3๊ฐ ํ์คํฌ)
dexterous hand ์กฐ์ ํ์คํฌ โ ํ ๋๋ฆฌ๊ธฐ(Pen), ๋ฌธ ์ด๊ธฐ(Door), ๊ณต ์ฌ๋ฐฐ์น(Relocate). ํฌ์ ๋ณด์์ด๋ฉฐ, ์์์ ์ธ๊ฐ ์์ฐ + ๋๋์ BC ์ ์ฑ
๊ถค์ ์ด ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ์ ๊ณต๋๋ค. ๋น๊ต ๊ธฐ์ค: IQL + Fine-tuning.
๊ทธ๋ฃน 2: D4RL AntMaze (6๊ฐ ํ์คํฌ)
Ant ๋ก๋ด์ด ๋ฏธ๋ก๋ฅผ ํ์ํ๋ ํ์คํฌ. ๋ณด์์ ๊ทนํ ํฌ์(๋ชฉํ ๋๋ฌ์์๋ง). ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ ์๋ธ์ตํฐ๋ฉ ๊ถค์ ์ผ๋ก๋ง ๊ตฌ์ฑ๋๋ค. ๋น๊ต ๊ธฐ์ค: IQL + Fine-tuning.
๊ทธ๋ฃน 3: D4RL Locomotion (12๊ฐ ํ์คํฌ)
Hopper, HalfCheetah, Walker, Ant์ ๋ค์ํ ์คํ๋ผ์ธ ๋ฐ์ดํฐ ํ์ง ๋ฒ์ . ๋ฐ์ง ๋ณด์. ๋น๊ต ๊ธฐ์ค: Off2On.
๋ชจ๋ ์คํ์ 10 ์๋, 1 ํ์คํธ์ฐจ๋ฅผ ๋ณด๊ณ ํ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ
๋ ผ๋ฌธ Figure 4 (๋ชจ๋ ํ์คํฌ ์ง๊ณ ๊ฒฐ๊ณผ):
- Adroit: RLPD๋ IQL+Fine-tuning์ ํฌ๊ฒ ์์๋ฉฐ, ํนํ Door ํ์คํฌ์์ Prior SoTA ๋๋น 2.5๋ฐฐ ์ฑ๋ฅ ํฅ์.
- AntMaze: RLPD๋ Prior SoTA๊ฐ ํ ๋นํ ์คํ ์ 3๋ถ์ 1 ์ด๋ด์ ๋๋ฑ ์ด์์ ์ฑ๋ฅ ๋ฌ์ฑ. ๋ชจ๋ 6๊ฐ AntMaze ํ์คํฌ๋ฅผ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ํ์ด๋ธ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์ ์๋ค์ ์ฃผ์ฅํ๋ค.
- Locomotion: ๊ธฐ์กด Off2On๊ณผ ์ ์ฌํ ์์ค์ด๋ฉฐ, ์ฌ์ ํ์ต ์์ด๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ.
ํนํ ์ฃผ๋ชฉํ ์ ์ ์ด๋ค: IQL+Fine-tuning ๊ฐ์ Prior SoTA ๋ฐฉ๋ฒ๋ค์ ์คํ๋ผ์ธ ์ฌ์ ํ์ต ๋๋ถ์ ์ด๊ธฐ ์ฑ๋ฅ์ด ๋๋ค. ๊ทธ๋ฌ๋ RLPD๋ ์ฌ์ ํ์ต ์์ด ์์ํด์ 1๋ง ์คํ ๋ด์ธ๋ง์ ์ด ์ด๊ธฐ ์ฑ๋ฅ์ ๋ฐ๋ผ์ก๊ณ ์ด๋ฅผ ๋์ด์ ๋ค.
ํฝ์ ๊ธฐ๋ฐ ํ๊ฒฝ์ผ๋ก์ ์ ์ด
์ ์๋ค์ RLPD๋ฅผ V-D4RL (๋น์ ๊ธฐ๋ฐ D4RL)์๋ ์ ์ฉํ๋ค. ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ ์ํ ๊ธฐ๋ฐ(state-based) ์ ์ฑ ์ด ์์ฑํ ํฝ์ ๊ด์ฐฐ ๊ถค์ ์ผ๋ก, ๋ถ๋ถ ๊ฐ๊ด์ธก์ฑ(partial observability) ๋ฌธ์ ๊ฐ ๋ด์ฌ๋์ด ์๋ค.
ํ๊ฐ ๊ธฐ์ค์ โ10% DMCโ โ ์ฆ DrQ-v2๊ฐ ์ฌ์ฉํ๋ ์ ์ฒด ํ์์คํ ์ ๋จ 10%๋ง ์ฌ์ฉ.
- Walker Walk, Cheetah Run์์ RLPD๋ DrQ-v2 ๋๋น ์ผ๊ด๋๊ฒ ๋์ ์ํ ํจ์จ.
- Humanoid Walk์์๋ BC baseline์ด ์๊ฐ์ ํ์(visual occlusion)์ผ๋ก ์คํจํ์ง๋ง RLPD๋ ์ ์๋ฏธํ ํ์ต์ ๋ฌ์ฑ.
- UTD=10์ผ๋ก ๋์์ ๋ Cheetah Run Expert์์ ๊ทน์ ์ธ ์ฑ๋ฅ ํฅ์ โ ํฝ์ ๊ธฐ๋ฐ continuous control์์ ๊ณ -UTD ์ ๊ทผ์ด ํจ๊ณผ์ ์์ ์ฒ์์ผ๋ก ๋ณด์ธ ์ฌ๋ก.
์ด๋ฏธ์ง ๊ธฐ๋ฐ ํ์คํฌ์์๋ ๋๋ค ์ํํธ ์ด๊ทธ๋ฉํ ์ด์ (random shift augmentation)์ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๋ TD-learning ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ์ํํ๋ค.
Ablation: LayerNorm์ ์ญํ
๋ ผ๋ฌธ Figure 7์ LN์ ์ค์์ฑ์ ๋ค์ํ ์กฐ๊ฑด์์ ๋ณด์ฌ์ค๋ค:
- Adroit Sparse (์ ์ฒด ๋ฐ์ดํฐ): LN ์ ๊ฑฐ ์ ๋ถ์ฐ์ด ํฌ๊ฒ ์ฆ๊ฐํ๊ณ ํ๊ท ์ฑ๋ฅ ํ๋ฝ.
- Expert Adroit Sparse (22๊ฐ ๊ถค์ ๋ง): ๋ฐ์ดํฐ๊ฐ ๊ทนํ ์ ํ์ ์ผ ๋ LN ์์ด๋ ์์ ํ ์คํจ โ ๋ชจ๋ ํ์คํฌ์์ ์ง์ ์์. LN์ด ์์ผ๋ฉด ์ฌ์ ํ Prior SoTA๋ฅผ ๋ฅ๊ฐ.
- AntMaze Large: LN์ด ์ํ ํจ์จ ํฅ์์ ๊ธฐ์ฌ.
- V-D4RL Humanoid Walk: ๋ณต์กํ ๊ณ ์ฐจ์ ํฝ์ ํ๊ฒฝ์์๋ LN์ ์์ ํ ํจ๊ณผ ํ์ธ.
์ด ๊ฒฐ๊ณผ๋ LN์ด ๋จ์ํ โ์์ผ๋ฉด ์ข์โ ์ฒจ๊ฐ๋ฌผ์ด ์๋๋ผ, ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ด๊ฑฐ๋ ์ข์ ๋ถํฌ์ผ ๋ ํ์์ ์ธ ๊ตฌ์ฑ ์์์์ ๋ณด์ฌ์ค๋ค.
๋น๊ต: ๊ด๋ จ ์ฐ๊ตฌ ํฌ์ง์ ๋
graph LR
A["Offline RL\n(IQL, CQL, TD3+BC)"] -->|"+ Online Finetuning"| B["IQL + Finetuning\n(Kostrikov et al., 2022)"]
A --> C["Off2On\n(Lee et al., 2021)"]
D["Online RL\n(SAC, TD3)"] -->|"+ Offline Buffer Init"| E["SACfD\n(Vecerรญk et al., 2017)"]
D -->|"+ REDQ + LN + Sym. Sampling"| F["RLPD (Ours)"]
B -->|"Requires offline pretraining\nRestricts exploration"| G["Drawbacks"]
E -->|"Offline data diluted\nNo divergence control"| G
F -->|"No pretraining\nNo explicit constraints\nExploration-friendly"| H["Advantages"]
| ๋ฐฉ๋ฒ | ์คํ๋ผ์ธ ์ฌ์ ํ์ต | ๋ช ์์ ์ ์ฝ | ํ์ ์ต์ | ๋ณต์ก๋ |
|---|---|---|---|---|
| IQL + Fine-tuning | O | O (๋ณด์์ Q) | ๋ถ๋ถ์ | ๋์ |
| Off2On | O | O (pessimistic Q-ensemble) | ๋ถ๋ถ์ | ๋์ |
| SACfD | X | X | X | ๋ฎ์ |
| RLPD | X | X | X | ๋ฎ์ |
RLPD์ ๊ฐ์ฅ ์ง์ ์ ์ธ ๊ฒฝ์์๋ Off2On (Lee et al., 2021) ์ด๋ค. Off2On๋ ๋๊ท๋ชจ ์์๋ธ๊ณผ ๋์ UTD๋ฅผ ์ฌ์ฉํ์ง๋ง, ์คํ๋ผ์ธ ์ฌ์ ํ์ต์ด ํ์ํ๊ณ ๋ณ๋์ balancing mechanism์ ๋์ ํ๋ค. RLPD๋ ์ฌ์ ํ์ต ์์ด๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์
1. ์ค์ฉ์ ๋จ์์ฑ (Practical Simplicity)
RLPD์ ํต์ฌ ์์ด๋์ด๋ค์ โ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ ์์ด ๊ธฐ์กด SAC์ ๋ช ์ค์ ๋ฐ๊ฟจ์ ๋ฟโ์ด๋ค. LayerNorm์ ํฌ๋ฆฌํฑ์ ์ถ๊ฐํ๊ณ , ์ํ๋ง ๋ฐฉ์์ ๋ฐ๊พธ๊ณ , ์์๋ธ์ ํค์ ๋ค. ์ด๊ฒ์ผ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋ํ๋ค. ์ฌํ์ฑ(reproducibility)๋ ๋๋ค. ์ฝ๋๋ฒ ์ด์ค๊ฐ JAX๋ก ๊ณต๊ฐ๋์ด ์์ผ๋ฉฐ, IQL ๊ฐ์ ๋ฌด๊ฑฐ์ด ์ฌ์ ํ์ต ํ์ดํ๋ผ์ธ์ด ์์ด์ ์์ํ๊ธฐ ์ฝ๋ค.
2. ๋ฐ์ดํฐ ํ์ง์ ๋ฌด๊ดํ ๋ฒ์ฉ์ฑ
์ ๋ฌธ๊ฐ ์์ฐ 22๊ฐ์ง๋ฆฌ ๊ทนํ ์ ํ๋ ๋ฐ์ดํฐ์์๋ถํฐ ๋๋์ ์๋ธ์ตํฐ๋ฉ ๊ถค์ ๊น์ง ๋ชจ๋ ์ ๋์ํ๋ค. ์ด๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ํ์ง์ ๋ณด์ฅํ๊ธฐ ์ด๋ ค์ด ์ค์ ๋ก๋ด ์์ฉ์์ ๋งค์ฐ ์ค์ํ ํน์ฑ์ด๋ค.
3. ํ์ ๋น์ต์ (Exploration-Friendly)
LN์ Q-๊ฐ์ ์ํ์ ๋์ง๋ง ํน์ ํ๋์ ๋ฒ์ฃผ์ง ์๋๋ค. ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋ถํฌ ๋ฐ๊นฅ์ ์๋ก์ด ํ๋์ ์๋ํ ์์ ๊ฐ ๋ณด์ฅ๋๋ค. ์ด๋ ์คํ๋ผ์ธ RL์ ๊ณ ์ง์ ๋ฌธ์ ์ธ โ๋ถํฌ ๋ด ๊ฐํโ์ ํด๊ฒฐํ๋ค.
4. LayerNorm์ ์ด๋ก ์ ์ ๋นํ
๋จ์ํ โ์คํ์ ์ผ๋ก LN์ด ์ ๋๋คโ๊ฐ ์๋๋ผ, Q-๊ฐ์ upper bound ์ ๋๋ฅผ ํตํด ์ LN์ด ๋ฐ์ฐ์ ๋ฐฉ์งํ๋์ง ์ด๋ก ์ ์ผ๋ก ๋ณด์ธ๋ค.
ํ๊ณ์ ์ฝ์
1. ์์๋ธ์ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ
E=10์ง๋ฆฌ ์์๋ธ์ ์ฌ์ฉํ๋ฉด ํ๋ผ๋ฏธํฐ ์๊ฐ 10๋ฐฐ๋ค. ์ค์ ๋ก๋ด ๋ฐฐํฌ ํ๊ฒฝ์์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ด ์๋ ์ฃ์ง ๋๋ฐ์ด์ค์์๋ ์ ์ฉ์ด ์ด๋ ค์ธ ์ ์๋ค. ๋
ผ๋ฌธ์ ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ์๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, ์ด๋ ๋ณ๋ ฌ ๊ณ์ฐ์ด ๊ฐ๋ฅํ ๊ณ ์ฌ์ GPU ํ๊ฒฝ์ ์ ์ ๋ก ํ๋ค.
2. ํ๊ฒฝ๋ณ ํ์ดํผํ๋ผ๋ฏธํฐ ํ์ ํ์
CDQ ์ฌ์ฉ ์ฌ๋ถ, ์ํธ๋กํผ ํญ, ๋คํธ์ํฌ ๊น์ด ๋ฑ ํ๊ฒฝ๋ณ ์ ํ์ ๊ฒฐ๊ตญ ํ์์ด ํ์ํ๋ค. ์ ์๋ค์ด ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ํ์ง๋ง, ์๋ก์ด ํ๊ฒฝ์ ์ ์ฉํ ๋ ์ด ํ์ ๋น์ฉ์ด ๋ฐ์ํ๋ค. โํ์ดํผํ๋ผ๋ฏธํฐ ์์โ์ด๋ผ๋ ์ฃผ์ฅ์ ํต์ฌ ์ธ ๊ฐ์ง(๋์นญ ์ํ๋ง, LN, ์์๋ธ)์๋ง ํด๋นํ๋ค.
3. ๋ฆฌ์๋ ํจ์ ์ค๊ณ ์์กด์ฑ
RLPD๋ ๊ฒฐ๊ตญ RL์ด๋ฏ๋ก, ๋ณด์ ํจ์๊ฐ ํ์ํ๋ค. ์ค์ ๋ก๋ด์์ ํฌ์ ๋ณด์(์ฑ๊ณต/์คํจ)์ ๊ทธ๋๋ง ์ ์ํ๊ธฐ ์ฝ์ง๋ง, ๋ณต์กํ ์กฐ์ ํ์คํฌ์์ ๋ฐ์ง ๋ณด์์ ์ค๊ณํ๋ ๊ฒ์ ๋ณ๊ฐ์ ์ด๋ ค์ด ๋ฌธ์ ๋ค.
4. ๋จ๊ธฐ ํ์ ๋นํจ์จ ๊ฐ๋ฅ์ฑ
๋์นญ ์ํ๋ง์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ๊ณ์ 50% ์ฌ์ฉํ๋ค. ๋ง์ฝ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ๊ทนํ ์ ํ์ ์ด๊ณ ๋ถํฌ๊ฐ ์ข๋ค๋ฉด, ํ๋ฐ๋ถ ํ์ต์์ ์ด ๊ณ ์ ๋น์จ์ด ์คํ๋ ค ๋ถํ์ํ ํธํฅ์ ์ค ์ ์๋ค. ์ด์ ๋ํ ์ด๋ก ์ ๋ถ์์ ๋ถ์กฑํ๋ค.
5. ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ๋ณด์ ๋ ์ด๋ธ ๊ฐ์ฉ์ฑ ๊ฐ์
RLPD๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ (s, a, r, s') ํํ โ ์ฆ ๋ณด์ r์ด ํฌํจ๋์ด ์๋ค๊ณ ๊ฐ์ ํ๋ค. ์ค์ ๋ก๋ ๋ณด์ ๋ ์ด๋ธ์ด ์๋ ๋น๋์ค ๋ฐ์ดํฐ๋ ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ๋ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด ๊ฒฝ์ฐ RLPD๋ฅผ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
๋ก๋ด๊ณตํ ์ค๋ฌด์๋ฅผ ์ํ ์ ์ฉ ๊ฐ์ด๋
RLPD๊ฐ ํนํ ์ ์ฉํ ์๋๋ฆฌ์ค:
์์์ ์ธ๊ฐ ์์ฐ + ์จ๋ผ์ธ RL ์กฐํฉ: ํ ๋ ์คํผ๋ ์ด์ ์ด๋ ํค๋ค์คํ ํฑ ํฐ์นญ์ผ๋ก ์ป์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด RL ์ด๊ธฐํ. Allegro Hand ๊ฐ์ dexterous hand์์ finger gaiting์ด๋ regrasping ํ์ต.
์๋ธ์ตํฐ๋ฉ ์ฌ์ ๋ฐ์ดํฐ ํ์ฉ: ์ด์ ์คํ์์ ์คํจํ ๊ถค์ ๋ค๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ํ์ฉ ๊ฐ๋ฅ. ์คํ๋ผ์ธ ๋ฐ์ดํฐ ํ์ง์ ๋ ๋ฏผ๊ฐํ๋ค๋ ์ฅ์ .
Sim-to-Real ํ์ดํ๋ผ์ธ: ์๋ฎฌ๋ ์ดํฐ์์ ์์ฑํ ๊ถค์ ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก, ์ค์ ๋ก๋ด ์ํธ์์ฉ์ ์จ๋ผ์ธ ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ hybrid ์ ๊ทผ.
์ค์ฉ์ ๊ตฌํ ์ฒดํฌ๋ฆฌ์คํธ:
[ ] SAC ๊ธฐ๋ฐ ๊ตฌํ์์ ์์
[ ] ํฌ๋ฆฌํฑ ๋คํธ์ํฌ ๋ชจ๋ hidden layer์ LayerNorm ์ถ๊ฐ
[ ] ํฌ๋ฆฌํฑ ์์๋ธ ํฌ๊ธฐ E=10์ผ๋ก ์ค์ (proprioceptive)
[ ] ์คํ๋ผ์ธ ๋ฐ์ดํฐ ๋ฒํผ D ๋ณ๋ ๊ตฌ์ฑ (๊ณ ์ , ์
๋ฐ์ดํธ ์ ํจ)
[ ] ๋งค ๋ฐฐ์น: R์์ N/2, D์์ N/2 ์ํ๋ง
[ ] UTD ๋น์จ: ์์์ UTD=1, ์ดํ ํ์์ ์ฆ๊ฐ
[ ] ํ๊ฒฝ๋ณ ์กฐ์ : CDQ / Entropy / ๋ ์ด์ด ๊น์ด ์์๋ก ํ์
[ ] ํฝ์
๊ธฐ๋ฐ: ๋๋ค ์ํํธ ์ด๊ทธ๋ฉํ
์ด์
์ถ๊ฐ
์์ฝ ๋ฐ ๊ฒฐ๋ก
RLPD๊ฐ ์ฐ๋ฆฌ์๊ฒ ๊ฐ๋ฅด์ณ์ฃผ๋ ๊ฒ์ ๋จ์ํ์ง๋ง ์ฌ์คํ๋ค: ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์จ๋ผ์ธ RL์ ๊ฒฐํฉ์ ์ํด ๋ณต์กํ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ด ํ์ํ์ง ์๋ค. ํต์ฌ์ ์ธ ๊ฐ์ง๋ค.
- ๋์นญ ์ํ๋ง โ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฒ์๋ถํฐ ๋๊น์ง ์ผ์ ํ๊ฒ ์ฌ์ฉํ๋ผ.
- Layer Normalization โ Q-๊ฐ ๋ฐ์ฐ์ ๊ตฌ์กฐ์ ์ผ๋ก ๋ง๋, ํ์์ ์ต์ ํ์ง ๋ง๋ผ.
- ๋๊ท๋ชจ ์์๋ธ โ UTD๋ฅผ ๋์ฌ๋ ๊ณผ์ ํฉ๋์ง ์๋๋ก ํต๊ณ์ ์ ๊ทํ๋ฅผ ์ ๊ณตํ๋ผ.
์ด ์ธ ๊ฐ์ง์ ์กฐํฉ์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ต๋ 2.5๋ฐฐ ์์๋ ์ฑ๋ฅ์ ๋ง๋ค์ด๋ธ๋ค. ์ถ๊ฐ ๊ณ์ฐ ์ค๋ฒํค๋ ์์ด.
๋ก๋ด๊ณตํ ๊ด์ ์์ ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ๋ฉ์์ง๋ โ์ข์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด, ๋ณต์กํ ์ฌ์ ํ์ต ํ์ดํ๋ผ์ธ ์์ด๋ ์จ๋ผ์ธ RL์ ๋น ๋ฅด๊ฒ ์์ํ ์ ์๋คโ๋ ๊ฒ์ด๋ค. Allegro Hand ๊ฐ์ dexterous manipulation ํ๋ซํผ์์ ์์์ ํ ๋ ์คํผ๋ ์ด์ ์์ฐ์ผ๋ก RL ํ์ต์ ํฅ์คํํธํ๋ ค๋ ์ฐ๊ตฌ์๋ค์๊ฒ ์ง์ ์ ์ผ๋ก ์ ์ฉํ ๋ ์ํผ๋ค.
๋ฌผ๋ก ๋ณด์ ํจ์ ์ค๊ณ, ๋๋ฉ์ธ ๋๋คํ, ์ค์ ๋ก๋ด์ ์์ ์ ์ฝ ๊ฐ์ ์ค๋ฌด ๋ฌธ์ ๋ค์ ์ฌ์ ํ ๋ณ๋๋ก ํด๊ฒฐํด์ผ ํ๋ค. ํ์ง๋ง RLPD๋ โ์ฌ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ ๊ฒ์ธ๊ฐโ๋ผ๋ ํต์ฌ ์ง๋ฌธ์ ๋ช ์พํ๊ณ ์ค์ฉ์ ์ธ ๋ต์ ์ ์ํ๋ค.
๋ณต์กํจ์ ์ดํด์ ๋ถ์กฑ์์ ์จ๋ค. ์ง์ง ์ดํด๋ ๋จ์ํจ์ผ๋ก ์๋ ดํ๋ค.
์ฐธ๊ณ ๋ฌธํ (์ ํ)
- Ball et al. (2023). Efficient Online Reinforcement Learning with Offline Data. ICML 2023.
- Haarnoja et al. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning. ICML.
- Chen et al. (2021). Randomized Ensembled Double Q-Learning. ICLR.
- Kostrikov et al. (2022). Offline Reinforcement Learning with Implicit Q-Learning. ICLR.
- Lee et al. (2021). Offline-to-Online RL via Balanced Replay and Pessimistic Q-Ensemble. CoRL.
- Fu et al. (2020). D4RL: Datasets for Deep Data-Driven Reinforcement Learning. arXiv.
- Ba et al. (2016). Layer Normalization. arXiv.