flowchart LR
A["๋ฐฐํฌ: ฯ_n ์คํ<br/>์ค๋ฌผ ๋ฐ์ดํฐ ์์ง"] --> B["์ค์ฐจ๊ฐ ํฐ (s,a)๋ค์ด<br/>๋ฆฌํ๋ ์ด ๋ฒํผ์ ์์"]
B --> C["ํฌ๋ฆฌํฑ ํ๊ฐ:<br/>ํฐ ์ค์ฐจ ์์ญ์ Q๊ฐ<br/>์๋ชป ์ถ์ (๊ณผ๋ํ๊ฐ)"]
C --> D["์ ์ฑ
๊ฐ์ :<br/>์๋ชป๋ Q๋ฅผ ์ต๋ํ<br/>โ ๋ ์ํํ ์์ญ์ผ๋ก ์ด๋"]
D --> A
style A fill:#fff4e6
style B fill:#ffe6e6
style C fill:#ffe6e6
style D fill:#ffe6e6
๐Simulation to Online RL
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ ์ธ ๊ฐ์ง ์ค์ ๋ก๋ด ํ๋ซํผ์์ โsim-to-onlineโ ๊ฐํ ํ์ต(RL) ์ค์ ์ ๊ฒฝํ์ ์ผ๋ก ์ฐ๊ตฌํ์ฌ, ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ์ ๋ถ์ผ์น์๋ ๋ถ๊ตฌํ๊ณ ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ์ ์ฑ ๋ฏธ์ธ ์กฐ์ ์ ์ํ ํต์ฌ ์ค๊ณ ์ ํ ์ฌํญ๋ค์ ์๋ณํฉ๋๋ค.
- ๐ก ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ๋๋ ์ด์ ์ํ ๋ฐ์ดํฐ ์ ์ง, ์ ์คํํธ(warm start) ์ฌ์ฉ, ๊ทธ๋ฆฌ๊ณ ๋น๋์นญ์ ์ธ ์กํฐ-ํฌ๋ฆฌํฑ(actor-critic) ์ ๋ฐ์ดํธ(์: ์กํฐ ์ ๋ฐ์ดํธ ์ง์ฐ)๊ฐ ์ ์ฑ ๋ถ์์ ์ฑ์ ์ํํ๊ณ ์ธ๋ฌ๋(unlearning)์ ๋ฐฉ์งํ๋ ๋ฐ ์ค์ํจ์ ์ ์ฆํฉ๋๋ค.
- ๐ ๏ธ 100ํ ์ด์์ ์ค์ ๋ก๋ด ํ๋ จ ์คํ์ ํตํด ๊ฒ์ฆ๋ ์ด๋ฌํ ๋ฐ๊ฒฌ๋ค์ ์ค์ ๋ก๋ด์ ์จ๋ผ์ธ RL์ ์ ์ฉํ๋ ค๋ ์ฐ๊ตฌ์ ๋ฐ ์ค๋ฌด์์๊ฒ ์ ์ฉํ ์ง์นจ์ ์ ๊ณตํ์ฌ, ์์ง๋์ด๋ง ๋ถ๋ด์ ์ค์ ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ์ค์ ๋ก๋ด์์์ ์ฑ๊ณต์ ์ธ ์จ๋ผ์ธ(online) ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํน์ ์ค๊ณ ์ ํ์ ๋ํด ํ๊ตฌํฉ๋๋ค. ์ ์๋ค์ ์ธ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ์์ 100ํ ์ด์์ ์ค์ ํ๋ จ์ ์ํํ๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ์์ ์๋ฌต์ ์ผ๋ก ๋ค๋ฃจ์ด์ก๋ ์๊ณ ๋ฆฌ์ฆ, ์์คํ ๋ฐ ์คํ์ ๊ฒฐ์ ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ผ๋ถ ๊ธฐ๋ณธ ์ค์ ๋ค์ด ํด๋ก์ธ ์ ์์ผ๋ฉฐ, ํ์ค RL ๊ดํ ๋ด์ ๊ฒฌ๊ณ ํ๊ณ ์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ ์ค๊ณ ์ ํ๋ค์ด ์์ ๊ณผ ํ๋์จ์ด ์ ๋ฐ์ ๊ฑธ์ณ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ ๊ทธ๋ฌํ ์ค๊ณ ์ ํ์ ๋ํ ์ต์ด์ ๋๊ท๋ชจ ํ๋ณธ ์ค์ฆ ์ฐ๊ตฌ์ด๋ฉฐ, ์์ง๋์ด๋ง ๋ ธ๋ ฅ์ ์ค์ฌ ์จ๋ผ์ธ RL์ ๋ฐฐํฌํ ์ ์๋๋ก ๋์ต๋๋ค.
1. ์๋ก (Introduction)
๋ก๋ด ๊ณตํ ๋ถ์ผ์์ RL์ ์ฑ๊ณต์๋ ๋ถ๊ตฌํ๊ณ , ๋๋ถ๋ถ์ ๊ธฐ์กด ์์คํ ์์ ํ์ต์ ์๋ฎฌ๋ ์ดํฐ๋ ๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์คํ๋ผ์ธ(offline)์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ์จ๋ผ์ธ ํ์ต์ ํ์ค ๊ดํ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ์์ต๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ ํ์ฐ์ ์ผ๋ก ๋ถ์์ ํ๋ฉฐ, ๋ก๋ด ๊ณตํ์ ์ํ ๊ณ ํ์ง์ ์ฌ์ ํ๋ จ(pre-training) ์ค์ ๋ฐ์ดํฐ ํ๋ ๋น์ฉ์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋นํด ํจ์ฌ ๋์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ ์์ ์ด ๋ณต์กํด์ง์ ๋ฐ๋ผ ๋ฏธ๋์ ์์จ ๋ก๋ด ์์คํ ์ด ๊ตฌํ๋ ์ํธ์์ฉ์ ํตํด ์จ๋ผ์ธ์ผ๋ก ํ์ตํ๊ณ , ๋ณํํ๋ ํ๊ฒฝ์ ์ง์์ ์ผ๋ก ์ ์ํ๋ฉฐ ์ญ๋์ ํฅ์์์ผ์ผ ํ๋ค๋ ์ธ์์์ ์์๋์์ต๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํน์ ์์ด๋์ด๋ฅผ ์ข์ ์ค์ ์คํ ํ๊ฒฝ์์ ์์ฐํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ฑฐ๋, โ์คํฌ๋์น๋ถํฐ ํ์ตโ๊ณผ ๊ฐ์ด ๋ ํ์ค์ ์ธ ์ค์ ์ ๋ค๋ฃจ์ด ์์ ํ์ง ์๊ณ ๋นํจ์จ์ ์ธ ํ์์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ํนํ, ์๋ฎฌ๋ ์ด์ ์์ ์ฌ์ ํ๋ จ๋ ์ ์ฑ ์ ์ค์ ์์คํ ์์ ๋ฏธ์ธ ์กฐ์ (finetuning)ํ๋ โsim-to-onlineโ ์ค์ ์ ๋ถ์์ ์ฑ์ ์ผ๊ธฐํ๊ณ ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ด โํ์ต ๋ง๊ฐ(unlearning)โ์ผ๋ก ์ด์ด์ง ์ ์์์ ์ด ์ฐ๊ตฌ๋ ๊ฒฝํ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
์ฃผ์ ๊ธฐ์ฌ (Contributions):
- ์คํ ์์ค ํ๋ จ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ: MuJoCo Playground [9]์์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์ฌ์ ํ๋ จํ๊ณ ์ค์ ๋ก๋ด์์ ์ํํ๊ฒ ์จ๋ผ์ธ ํ๋ จ์ ๊ณ์ํ ์ ์๋ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฐ ๋ฐ ์คํ ์์คํํ์ต๋๋ค. ์ด๋ Franka Emika Panda (์กฐ์), Unitree Go1 (์ด๋), Race Car (๋ด๋น๊ฒ์ด์ ) ์ธ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ์์ ์ ์ฐ์ฑ์ ์ ์ฆํ์ต๋๋ค.
- Franka Emika Panda ๋ก๋ด ์คํ ๊ณต๊ฐ: ํนํ Franka Emika Panda์ ๊ฒฝ์ฐ, ํ๋์จ์ด ์ธํฐํ์ด์ค๋ถํฐ ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ค์ ํ๋ จ๊น์ง ์ ์ฒด ๋ก๋ด ์คํ์ ์คํ ์์คํํ์ต๋๋ค. ์ด๋ โ์์ฉ(off-the-shelf)โ ํ๋์จ์ด์ ์์กดํ์ฌ ์ฌํ์ฑ์ ๋์ด๊ณ ์ค์ RL ์ฐ๊ตฌ์ ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถฅ๋๋ค.
- ์์ ์ฑ ๋ฌธ์ ์ฐ๊ตฌ ๋ฐ ์ํ ๊ธฐ๋ฒ ์ ์: ์๋ฎฌ๋ ์ด์ ํ๋ จ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ผ๋ก ์ ์ดํ ๋ ๋ฐ์ํ๋ ์์ ์ฑ ๋ฌธ์ ๋ฅผ ๊ด๋ฒ์ํ ์ค์ ์คํ์ ํตํด ์ฐ๊ตฌํ์ต๋๋ค. ์ค์ ์คํ ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์ ์์ ์ป์ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ๋ ๊ฒ์ด ๋ถํฌ ๋ณํ(distribution shifts) ํ์์ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ๋ํ, ๋นํ๊ฐ(critic) ์ ๋ฐ์ดํธ๋ฅผ ์ง์ฐ์ํค๋ ๊ฒ(Fujimoto et al. [10])์ด ์์ ์ฑ์ ๋์ฑ ๊ฐ์ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ์์์ ํจ์จ์ ์ธ ์ฌ์ ํ๋ จ: ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ์์ ์คํ-์ ์ฑ (off-policy) RL ์๊ณ ๋ฆฌ์ฆ์ ํจ๊ณผ์ ์ธ ์ฌ์ ํ๋ จ ๊ธฐ๋ฒ์ ๊ฒฝํ์ ์ผ๋ก ์ฐ๊ตฌํ๊ณ ์์ฐํ์ต๋๋ค.
2. ๊ด๋ จ ์ฐ๊ตฌ (Related Work)
์ด์ RL ์ฐ๊ตฌ๋ค์ ์ข ์ข ๋ง์ถคํ ํ๋์จ์ด ๋๋ ๋ ์ ์ํํธ์จ์ด์ ์์กดํ์ฌ ์ฌํํ๊ธฐ ์ด๋ ต๊ณ , ์๊ณ ๋ฆฌ์ฆ ํ์ ์ ์ค์ ์ ๋์ด ์ค์ ๋ก๋ด ์์คํ ์ RL์ ๋ฐฐํฌํ๋ ์ค์ง์ ์ธ ๋ฌธ์ ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒํ ํ์ง ์์์ต๋๋ค. Ibarz et al. [19]๋ ์ฌํ์ฑ ๋ฌธ์ ๋ฅผ ํฌ๊ด์ ์ผ๋ก ๊ฒํ ํ๋ฉฐ ๋ฐ์ดํฐ ์ฌ์ฌ์ฉ์ ์ค์์ฑ์ ์ง์ ํ์ง๋ง, ๊ฒฝํ์ ์ฆ๊ฑฐ๋ ์ ์ํ์ง ์์์ต๋๋ค. Tirumala et al. [20]์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ฐ์ดํฐ ์ฌ์ฌ์ฉ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ด ์ฐ๊ตฌ๋ ์ด๋ฅผ ์ค์ ๋ก๋ด์ผ๋ก ํ์ฅํ์ฌ ๋์ ์ํ ํจ์จ์ฑ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
3. ๋ฐฐ๊ฒฝ (Background)
3.1. ๋ฌธ์ ์ค์ (Problem Setting)
์ด ์ฐ๊ตฌ๋ ์ฐ์์ ์ธ ์ํ ๊ณต๊ฐ \mathcal{S} \subset \mathbb{R}^{d_\mathcal{S}}๊ณผ ํ๋ ๊ณต๊ฐ \mathcal{A} \subset \mathbb{R}^{d_\mathcal{A}}์ ๊ฐ๋ ๋ฌดํ ์๊ฐ(infinite-horizon) ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (Markov Decision Process, MDP)์ ๋ค๋ฃน๋๋ค. ๋ชฉํ๋ ์ ์ฑ \pi^*๊ฐ ๋ค์๊ณผ ๊ฐ์ ํ ์ธ๋ ๋์ ๋ณด์(accumulated sum of discounted rewards)์ ๊ธฐ๋๊ฐ์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค: \pi^* \in \arg \max_{\pi \in \Pi} J(\pi) := \mathbb{E}_{\pi} \sum_{t=0}^{\infty} \gamma^t r(s_t, a_t) ์ฌ๊ธฐ์ \gamma \in [0, 1)๋ ํ ์ธ ๊ณ์(discounting factor), \rho_0๋ ์ด๊ธฐ ์ํ ๋ถํฌ๋ฅผ ๋ํ๋ ๋๋ค. ๊ฐ์น ํจ์(Value Function) V^\pi(s), ํ๋-๊ฐ์น ํจ์(Action-Value Function) Q^\pi(s, a), ์ด์ ํจ์(Advantage Function) A^\pi(s, a)๊ฐ ์ ์๋ฉ๋๋ค.
์ํผ์๋์ฑ ์จ๋ผ์ธ ํ์ต (Episodic online learning):
ํ์ต์ ์ ํํ ์ํผ์๋(episode)๋ก ์งํ๋ฉ๋๋ค. ๊ฐ ์ํผ์๋ n์์ ์์ด์ ํธ๋ T ์๊ฐ ๋จ๊ณ ๋์ ์ ์ฑ \pi_n์ ์คํํ ํ, ๋ก๋ด์ ์๋์ผ๋ก ์ด๊ธฐ ์ํ s_0 \sim \rho_0(\cdot)๋ก ๋ฆฌ์ ๋ฉ๋๋ค. ์ํผ์๋ n์ ๋ฐ์ดํฐ \mathcal{D}_n := \{(s_t, a_t, s_{t+1}, r_t)\}_{t=0}^{T-1}๋ โ๋ฆฌํ๋ ์ด ๋ฒํผ(replay buffer)โ \mathcal{D}_{\le n} := \bigcup_{n'=0}^n \mathcal{D}_{n'}์ ํตํฉ๋ฉ๋๋ค [26, 27]. ์ด ์ค์ ์ ์๋ ๋ฆฌ์ ์ ํ์๋ก ํ์ง๋ง, ์์ ์์จ ํ์ต์ ๋ฏธ๋ ์ฐ๊ตฌ๋ก ๋จ๊ฒจ๋ก๋๋ค.
์ฌ์ ์ง์ (Priors):
์ด ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ดํฐ๋ ๊ณ ์ ๋ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์ ํํ๋ก ์ฌ์ ์ง์์ด ์ฃผ์ด์ง๋ ์ค์ ์ ๋ค๋ฃน๋๋ค. โ์คํ๋ผ์ธ-ํฌ-์จ๋ผ์ธ(offline-to-online)โ ์ค์ ์์๋ ๋ฐ์ดํฐ์ \mathcal{D}_0์ ์ ๊ทผํ์ฌ ์ฌ์ ์ ์ฑ \pi_0๋ฅผ ํ์ตํฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ ์ง์์ผ๋ก ๊ฐ์ฃผํ ๋๋ \mathcal{D}_0๊ฐ ์๋ฎฌ๋ ์ด์ ์์ ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๋ํ๋ ๋๋ค. \mathcal{D}_0์ ์ ํ๋ ๋ฐ์ดํฐ ๋ฒ์๋ โsim-to-real gapโ์ผ๋ก ์ธํด \pi_0๋ ์ค์ ์์คํ ์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ฐํํ์ง ๋ชปํ ์ ์์ผ๋ฏ๋ก, ์ถ๊ฐ์ ์ธ ์ค์ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค.
3.2. ์จ๋ผ์ธ ์ ์ด (Online Transfer)
์ํ ํจ์จ์ฑ (Sample efficiency):
๋ง์ ๋ก๋ด ์์ ์์ ์ฑ๊ณต์ ์ธ ํ์ดํ๋ผ์ธ์ ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ [9, 35]์ ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization) [36], ๊ทธ๋ฆฌ๊ณ PPO [37]์ ๊ฐ์ ๋ชจ๋ธ-ํ๋ฆฌ(model-free) ์จ-์ ์ฑ (on-policy) ๋ฐฉ๋ฒ์ ๊ฒฐํฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ์๋ฎฌ๋ ์ดํฐ๋ ์ ์ด์ด ๋ง์ ์์ ์ด๋ ๋ณต์กํ ์ฅ๋ฉด์ ๋น์ ๊ธฐ๋ฐ ์์ ์ ์ ํํ๊ฒ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ผ๋ฏ๋ก, ์ค์ ํ๊ฒฝ์์์ ์ ์์ด ํ์์ ์ ๋๋ค. ์จ๋ผ์ธ ํ๋ จ์ ์ค์๊ฐ ์คํ์ ์ ์ฝ์ด ์์ผ๋ฏ๋ก ์ํ ํจ์จ์ฑ์ด ์ค์ํฉ๋๋ค. ์จ-์ ์ฑ ๋ฐฉ๋ฒ์ ํ์ฌ ์ ์ฑ ์์ ์์ง๋ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ๊ณ ์ด์ ๊ฒฝํ์ ๋ฒ๋ฆฌ๋ฏ๋ก, ์ํ ํจ์จ์ฑ์ด ์ ํ๋์ด ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ค์ฉ์ฑ์ด ๋จ์ด์ง๋๋ค.
์คํ-์ ์ฑ ํ์ต (Off-policy learning):
๋์กฐ์ ์ผ๋ก, ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ [38, 8, 39, 10, 40]์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ๊ณ , ์ฌ์ง์ด ์ต์ ํ๋์ง ์์ ํ์ดํผํ๋ผ๋ฏธํฐ(hyperparameter)๋ฅผ ์ฌ์ฉํ ๋ค๋ฅธ ์คํ์ ๋ฐ์ดํฐ๋ ์ฌ์ฌ์ฉํ ์ ์์ด ์ํ ํจ์จ์ฑ์์ ํฐ ํฅ์์ ๊ฐ์ ธ์ต๋๋ค. ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๊ทผ์ฌ ์ ์ฑ ๋ฐ๋ณต(approximate policy iteration) ๋ฐฉ์์ผ๋ก ์๋ํ๋ฉฐ, ํ๋-๊ฐ์น ํจ์ Q^\pi_\varphi๋ Bellman backup์ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค: \ell(\varphi) := \mathbb{E}_{(s_t, a_t, s_{t+1}, r_t) \sim \mathcal{D}_{\le n}} \frac{1}{2} \left\| Q^{\pi_n}_\varphi (s_t, a_t) - y \right\|^2 ์ฌ๊ธฐ์ y = r_t + \gamma \bar{V}^{\pi_n}(s_{t+1})์ด๊ณ , \bar{V}^{\pi_n}(s_{t+1}) \approx \bar{Q}^{\pi_n}(s_{t+1}, a_{t+1}), a_{t+1} \sim \pi_n(\cdot|s_{t+1})์ ๋๋ค. \bar{Q}^{\pi_n}๋ Polyak averaging [38]์ ํตํด Q^{\pi_n}_\varphi์ ์ด์ ๋ณต์ฌ๋ณธ์ ์ถ์ ํ๋ โํ๊ฒ ๋คํธ์ํฌ(target network)โ์ ๋๋ค: \varphi^{\text{target}}_{k+1} = (1 - \tau) \varphi^{\text{target}}_k + \tau \varphi_k, \quad k = 0, \ldots, K ์ ์ฑ ๊ฐ์ ๋จ๊ณ์์๋ Q^{\pi_n}_\varphi์์ ์ ์ฑ ์ด ์ถ์ถ๋ฉ๋๋ค. Kakade์ Langford [44]๋ N๋ฒ์ ํ์์ ์ธ(greedy) ์ ์ฑ ์ ๋ฐ์ดํธ ํ ๋์ ์ฑ๋ฅ ํฅ์์ด ๋ค์๊ณผ ๊ฐ์ด ํํ์ ์ ๊ฐ์ง์ ๋ณด์ฌ์ค๋๋ค: J(\pi_N) - J(\pi_0) \ge \sum_{n=0}^{N-1} \mathbb{E}_{\pi_{n+1}} \left[ \sum_{t=0}^{\infty} \gamma^t \underbrace{A^{\pi_n}(s_t, a_t)}_{\text{Greedy policy improvement}} - \underbrace{2\gamma^t |\epsilon(s_t, a_t)|}_{\text{Approximation and modeling errors}} \right] ์ฌ๊ธฐ์ \epsilon(s, a)๋ ์ถ์ , ํจ์ ๊ทผ์ฌ ๋๋ ๋ชจ๋ธ ๋ถ์ผ์น๋ก ์ธํ Q^{\pi_n}_\varphi์ ์ค๋ฅ๋ฅผ ๋ํ๋ ๋๋ค.
๋ถํฌ ๋ณํ์ โํํฅ ๋์ (downward spiral)โ:
์คํ๋ผ์ธ ๋๋ sim-to-online ์ค์ ์์๋ ๋ถํฌ ๋ณํ๊ฐ ๋ด์ฌ๋์ด ์์ต๋๋ค. ์ด๊ธฐ ์ ์ฑ \pi_0๊ฐ ์๋ฎฌ๋ ์ดํฐ์ ๋์ญํ p_0๋ฅผ ์ต์ ํํ๋๋ก ํ๋ จ๋์์ง๋ง, ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌ๋๋ฉด \pi_0์ ๋ฐ๋ผ ์์ง๋ ๋ฐ์ดํฐ๋ Q^{\pi_n}_\varphi์ ํฐ ์ค๋ฅ \epsilon(s, a)๋ฅผ ์ผ๊ธฐํ ์ ์๋ (s, a)-์์ ํฌํจํ ์ ์์ต๋๋ค. โsim-to-real gapโ์ด ํด ๊ฒฝ์ฐ, ์ด๋ฌํ ์ค๋ฅ๋ ์ํผ์๋์ ๊ฑธ์ณ ๋์ ๋์ด ์ ์ฑ ๊ฐ์ ์ ์๋ํ๊ณ \pi_N์ด \pi_0๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ โํ์ต ๋ง๊ฐโ์ ์ผ๊ธฐํ ์ ์์ต๋๋ค.
4. ๋ฐฐํฌ ๋ณํ ํ์์์ ํ์ต ์์ ํ (Stabilizing Learning Under Deployment Shifts)
์ด ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ -ํฌ-์จ๋ผ์ธ ๋ฐฐํฌ ๋ณํ์ ์ง๋ฉดํ์ ๋ ํ์ต์ ์์ ํํ๋ ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค. ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ Soft Actor-Critic (SAC) [8]์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
๋ฐ์ดํฐ ๋ณด์กด (Data retention): Q^{\pi_n}_\varphi ์ ๋ฐ์ดํธ ์ ์ํ์ด ์ถ์ถ๋๋ ๋ถํฌ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ๋ง์ฝ \mathcal{D}_{\le n}์ด ํฐ ๊ทผ์ฌ ์ค๋ฅ๋ฅผ ๊ฐ์ง ์ ํ(transition)์ ๊ณผ๋ํ๊ฒ ๋ํ๋ด๋ฉด, ์ ๋ฐ์ดํธ๋ ํธํฅ๋ ์ ์์ต๋๋ค. \mathcal{D}_0๋ ์๋ \mathcal{D}_0์์ ํ๋ จ๋์์ผ๋ฏ๋ก, ํด๋น ๋ฐ์ดํฐ์ ๋ํ ๊ทผ์ฌ ์ค๋ฅ๊ฐ ๋ ์์ต๋๋ค. ์ด๋ \mathcal{D}_0๋ฅผ ์์ ํํ๋ ์ฌ์ ์ง์(prior)์ผ๋ก ์ ์งํ๋ ๊ฒ์ ๋๊ธฐ ๋ถ์ฌํฉ๋๋ค. Tirumala et al. [20]๊ณผ Ball et al. [45]์ ๋ ๊ฐ์ ๋ฒํผ(\mathcal{D}_0์ \mathcal{D}_{\text{online}} := \mathcal{D}_{\le n} \setminus \mathcal{D}_0)๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ๋ฏธ๋๋ฐฐ์น๋ฅผ ์ํ๋งํฉ๋๋ค: (s_t, a_t, s_{t+1}, r_t) \sim (1 - \alpha)\text{Unif}(\mathcal{D}_0) + \alpha\text{Unif}(\mathcal{D}_{\text{online}}), \quad \alpha \in [0, 1] ์ด ์ฐ๊ตฌ๋ \alpha \to 1๋ก ์ด๋๋ง(annealing)ํ๋ ๊ฒ์ ํ์ฅํฉ๋๋ค.
์ ์คํํธ (Warm starts): ๋ง์ฝ \mathcal{D}_0๋ฅผ ์จ๋ผ์ธ ํ์ต ์ค์ ๋ณด์กดํ ์ ์๋ค๋ฉด [17], ์ด๊ธฐ ์ ์ฑ \pi_0๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์ด๋ฅผ ๊ทผ์ฌํฉ๋๋ค. ์ด ์ ์คํํธ ์์ง์ ์คํ-์ ์ฑ RL์์ ์ด๋ฏธ ํ์ค์ ์ด๋ฉฐ [8], Zhou et al. [17]์ ์คํ๋ผ์ธ-ํฌ-์จ๋ผ์ธ RL์์ ๋ถ์์ ์ฑ์ ์ํํ๋ ๋ฐ ์ค์ํ๋ค๊ณ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋น๋์นญ ์ ๋ฐ์ดํธ (Asymmetric updates): ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ข ์ข โ์ ๋ฐ์ดํธ-ํฌ-๋ฐ์ดํฐ(UTD)โ ๋น์จ \eta := K/T๋ฅผ ์ ์ํ๋๋ฐ, ์ด๋ ์ค์ ์ธ๊ณ ์ ํ ๋น ์กํฐ(actor)์ ๋นํ๊ฐ(critic)์ ๊ทธ๋๋์ธํธ ์ ๋ฐ์ดํธ ์๋ฅผ ๋ํ๋ ๋๋ค [49, 50]. UTD \eta๋ฅผ ๋๋ฆฌ๋ฉด ์ํ ํจ์จ์ฑ์ด ํฅ์๋์ง๋ง, ๊ทผ์ฌ ์ค๋ฅ์ ๊ณผ์ ํฉ(overfitting)์ ์ฆํญ์ํฌ ์ ์์ต๋๋ค [51]. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ์กํฐ์ ํ์ต๋ฅ ์ ์ค์ด๊ณ ์ ๋ฐ์ดํธ๋ฅผ ๋ ์์ฃผ ์ธํฐ๋ฆฌ๋น(interleaving)ํฉ๋๋ค (k = M, 2M, 3M, \ldots, K ๋จ๊ณ๋ง๋ค). ์ด ์์ด๋์ด๋ Fujimoto et al. [10]์ ์ํด ์๊ฐ๋์์ผ๋ฉฐ, ๋์ UTD ์ฒด์ ์์ ํ์ต ์์ ํ์ ๋์์ด ๋ฉ๋๋ค. (Figure 4)
5. ์คํ (Experiments)
์ ์๋ค์ ์ธ ๊ฐ์ง ์ค์ ๋ก๋ด์์ ์ด๋ฌํ ์ค๊ณ ์ ํ์ ํจ๊ณผ๋ฅผ ํ๊ฐํฉ๋๋ค.
5.1. ์๋ฎฌ๋ ์ด์ ์์์ \pi_0 ํ์ต (Learning \pi_0 in Simulation)
Soft Actor-Critic ํ์ฅ (Scaling Soft Actor-Critic):
๋๋ถ๋ถ์ SAC ๊ตฌํ์ ๋ณ๋ ฌ ํ๊ฒฝ ๋จ๊ณ ๋น ๋จ์ผ ์กํฐ-๋นํ๊ฐ ์ ๋ฐ์ดํธ๋ฅผ ์ํํ์ฌ N_e๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ UTD ๋น์จ \eta๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์์ํต๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์์ SAC๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฅํ๋ ํต์ฌ์ N_e์ ๋น๋กํ์ฌ \eta๋ฅผ ๋๋ฆฌ๋ ๊ฒ์์ ๋ฐ๊ฒฌํ์ต๋๋ค. N_e \sim 1000์ ๊ฒฌ๊ณ ํ ์ ์ด์ ์ค์ํฉ๋๋ค. (Section A)
Sim-to-real gap:
Franka Emika Panda ๋ฐ Unitree Go1 ๋ก๋ด์ ์ฌ์ ์ ์ฑ \pi_0๋ MuJoCo Playground [9]๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋์์ต๋๋ค. Race Car์ ๋์ญํ์ Kabzan et al. [55]์ ๋ชจ๋ธ์ ๋ฐ๋ฆ ๋๋ค. (i) Franka Emika Panda ์ค์ ์์๋ ์นด๋ฉ๋ผ ์์ , ์กฐ๋ช ๋ฐ ์์ผ๋ฅผ ๋ฌด์์ํํ์ฌ ์๊ฐ์ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์์ผฐ์ต๋๋ค (Section C). ์๋ฎฌ๋ ์ด์ ์์๋ ํ๋ธ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ฐ์งํ๊ณ ์ ๊ทผํ์ง๋ง, ์ค์ ๋ก๋ด์์๋ ์ข ์ข ์ก๊ฑฐ๋ ๋ค์ด ์ฌ๋ฆฌ๋ ๋ฐ ์คํจํฉ๋๋ค. ์ด๋ ์ฃผ๋ก ๊ทธ๋ฆฌํผ์ ํ๋ธ ์ฌ์ด์ ๋ชจ๋ธ๋ง๋์ง ์์ ์ ์ด ๋์ญํ๊ณผ ๋ ๋๋ง๋ ์๊ฐ์ ๊ด์ฐฐ๊ณผ ์ค์ ๊ด์ฐฐ ์ฌ์ด์ ๋ถ์ผ์น ๋๋ฌธ์ ๋๋ค. (ii) ์ฌ์กฑ๋ณดํ ๋ก๋ด์ ๊ฒฝ์ฐ, ์๋ฎฌ๋ ์ด์ ์ค ๋ช ๋ น๋ ์ ํ ๋ฐ ๊ฐ์๋ ๋ฒ์๋ฅผ ์ ํํ์ฌ ์ ์ฝ๋ ์ฌ์ ์ ์ฑ ์ ํ๋ จํ์ต๋๋ค. (iii) Race Car ํ๊ฒฝ์์๋ ๋ชจํฐ ํ๋ผ๋ฏธํฐ, ํ์ด์ด ๋ง์ฐฐ ๋ฐ ์๋์ฐจ ์ง๋์ ์ํ๋งํ์ฌ sim-to-real ์ ์ด๋ฅผ ๊ฐ์ ํ์ต๋๋ค.
5.2. ์ค์ ๊ฒฐ๊ณผ (Real-World Results)
๋ฐ์ดํฐ ์ฌํ์ฉ์ด ํ์ต์ ๊ฐ์ํ (Recycling data accelerates learning):
์ด์ ์คํ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ๋ ๊ฒ์ด ํ์ต ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ฐ๊ตฌํ์ต๋๋ค. ๊ฐ ์คํ์ ๋์ผํ ๋ฌด์์ ์๋(random seed)๋ฅผ ๊ณต์ ํ๋ ๋ค ๋ฒ์ ์ํ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ์ํ์์, ํ๋ จ์ \mathcal{D}_{\text{online}}์์ ์์ง๋ ์จ๋ผ์ธ ๋ฐ์ดํฐ๋ก๋ง ์ํ๋ฉ๋๋ค. ํ์ ์ํ์์๋ ์ด์ ์ํ์ ์จ๋ผ์ธ ๋ฆฌํ๋ ์ด ๋ฒํผ๋ฅผ \mathcal{D}_0์ ๋ก๋ํ๊ณ ์๋ก์ด ๋ฆฌํ๋ ์ด ๋ฒํผ \mathcal{D}_{\text{online}}์ ์์ํฉ๋๋ค. Figure 8์ ๋ ๋ง์ ๋ฐ์ดํฐ๊ฐ ๋ณด์กด๋จ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
๋ฐ์ดํฐ ๋ณด์กด์ ๋๋ฆฌ์ธ์ผ๋ก์ ์ ์คํํธ (Warm starts as a proxy for data retention):
\mathcal{D}_0๋ฅผ ๋ก๋ํ์ง ์๊ณ \pi_0์ ๊ณ ์ ๋ ๋ณต์ฌ๋ณธ์ ์ฌ์ฉํ์ฌ \mathcal{D}_{\text{online}}์ N^* ๋ฐ๋ณต ๋์ ๋ฏธ๋ฆฌ ์ฑ์๋๋ค. Franka Emika Panda ๋ฐ Unitree Go1์ ๊ฒฝ์ฐ 5000๋ฒ์ ์ ํ์ ์์งํ์ผ๋ฉฐ, ์ด๋ ๊ฐ๊ฐ N^* = 20 ๋ฐ N^* = 5์ ํด๋นํฉ๋๋ค. Race Car์ ๊ฒฝ์ฐ 1250๋ฒ์ ์ ํ(N^* = 5 ์ํผ์๋)์ ์ฌ์ฉํ์ต๋๋ค. Figure 9์์ Franka Emika Panda๋ ์ ์คํํธ ์์ด๋ ํ์ต์ ์ฑ๊ณตํ์ง๋ง, Unitree Go1๊ณผ Race Car ๋ก๋ด์ ๊ฒฝ์ฐ ์ ์คํํธ ์์ด๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋จ์ ๋ณด์ฌ์ค๋๋ค.
๋น๋์นญ ์ ๋ฐ์ดํธ๊ฐ ์์ ์ฑ์ ์ค์ (Asymmetric updates are critical for stability):
์กํฐ์ ๋ํ ๋ณด๋ค ๋ณด์์ ์ธ ์ ๋ฐ์ดํธ๋ฅผ ์ฑ์ฉํ๊ณ ๋นํ๊ฐ ์ ๋ฐ์ดํธ๋ฅผ ๋ ์์ฃผ ์ธํฐ๋ฆฌ๋นํ๋ ๊ฒ์ ์ค์์ฑ์ ๋ถ์ํฉ๋๋ค. ํนํ, ์กํฐ๋ฅผ 20๋ฒ์ ๋นํ๊ฐ ์ ๋ฐ์ดํธ๋ง๋ค ํ ๋ฒ ์ ๋ฐ์ดํธํ๊ณ ํ์ต๋ฅ ์ ์ค์์ต๋๋ค (Section F). ์ด๋ฅผ ์กํฐ๋ฅผ ๋ชจ๋ ๋นํ๊ฐ ๋จ๊ณ์์ ์ ๋ฐ์ดํธํ๊ณ ์กํฐ์ ๋นํ๊ฐ๋ฅผ ์ํ ๊ณต์ ํ์ต๋ฅ ์ ์ฌ์ฉํ๋ ๊ธฐ์ค์ ๊ณผ ๋น๊ตํ์ต๋๋ค. Figure 10์ ๋ชจ๋ ๋ก๋ด์์ ๊ธฐ์ค์ ์ด ํ๋ จ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ์ฑ๋ฅ ํฅ์์ ์คํจํ๋ ๋ฐ๋ฉด, ๋น๋์นญ ์ ๋ฐ์ดํธ๋ฅผ ์ฌ์ฉํ๋ฉด ํจ์จ์ ์ธ ์ ์ด๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋๋ค.
6. ๊ฒฐ๋ก (Conclusion)
์ด ์ฐ๊ตฌ๋ ์ธ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ์์ ์๋ฎฌ๋ ์ด์ ํ๋ จ๋ RL ์ฌ์ ์ง์์ ํ๋์จ์ด์์ ์ง์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋๊ท๋ชจ ๊ฒฝํ์ ์ฐ๊ตฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ์จ๋ผ์ธ RL์ RL ์ฐ๊ตฌ์์ ์ค๋ฌด์์๊ฒ ๋ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋๋ก ์๋ดํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ถํฌ ๋ณํ๋ก ์ธํ ํ๋ จ ๋ถ์์ ์ฑ์๋ ๋ถ๊ตฌํ๊ณ ํ์ค ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ํฐ ์์ ์์ด๋ ํจ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ ์ ์์ผ๋ฉฐ, ์ด๋ ํฌ์ ๋ณด์(sparse rewards)์ ๊ฐ์ง ๋น์ ๊ธฐ๋ฐ ์์ ์์๋ ์ ์ฉ๋ฉ๋๋ค. ๋ํ, ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ๋ณต์กํ ์์ ์ผ๋ก ํจ์จ์ ์ผ๋ก ํ์ฅํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํจ์ ๊ฐ์กฐํฉ๋๋ค.
์ด๋ฌํ ๋ฐ๊ฒฌ์ ์จ๋ผ์ธ RL์ ๋ ์ค์ฉ์ ์ผ๋ก ๋ง๋๋ ๋ฐ ๊ธฐ์ฌํ์ง๋ง, ๋์์ ๋ช ๊ฐ์ง ์ค์ํ ์ฐ๊ตฌ ์ง๋ฌธ์ ์ ๊ธฐํฉ๋๋ค: ์คํ๋ผ์ธ ๋ฐ์ดํฐ \mathcal{D}_0์์ ์ํ์ ์ต์ ์ผ๋ก ์ ํํ์ฌ ์จ๋ผ์ธ ์ํ ํจ์จ์ฑ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ธ๊ฐ? ๋ฐ์ดํฐ๊ฐ ๋ค๋ฅธ ์์ ์ ๊ฑธ์ณ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ฌ์ฉ๋ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ธ๊ฐ? ๋ ๋น ๋ฅธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ ๋์ ์ ๊ทํ ์ ๋ต์ ์๋๊ฐ? ๋ง์ง๋ง์ผ๋ก, ์ด ์ฐ๊ตฌ๋ ์๋ ๋ฆฌ์ ๋ฐ ์์ ์ ์ํด ์ธ๊ฐ์ ๊ฐ์ ์ด ์ฌ์ ํ ํ์ํ ๋ฐ์๋ ์ํผ์๋ ์ค์ ์ ์ค์ ์ ๋ก๋๋ค. ์์ ์์จ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ค์ฉ์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์๋ฃจ์ ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ์ ๋งํ ๋ฐฉํฅ์ ๋๋ค.
๋ถ๋ก (Appendix)
A. ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ์์์ ์คํ-์ ์ฑ ํ๋ จ (Off-Policy Training in Massively-Parallel Simulators)
๋๋ถ๋ถ์ ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ผ ํ๊ฒฝ์์ ์์ฐจ์ ์ผ๋ก ๊ถค์ (trajectory)์ ์์งํ๋ ์ค์ ์ ๋ง๊ฒ ์ค๊ณ๋์์ต๋๋ค. ๊ทธ๋ฌ๋ RL์ ์ฃผ์ ๋ฐ์ ์ ์์ฒ ๊ฐ์ ์๋ฎฌ๋ ์ด์ ๋ ๊ถค์ ์ ๋ณ๋ ฌ๋ก ๋กค์์(rollout)ํ์ฌ ํ๋ จ์ ๊ฐ์ํํ๋ ๋ฅ๋ ฅ์ ํ์ฉํ๋ ๊ฒ์ ๋๋ค. ์ด ์ฑ๊ณต์ ์ฃผ๋ก ์จ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์์กดํด์์ต๋๋ค. ๋ฐ๋ฉด ์คํ-์ ์ฑ ๋ฐฉ๋ฒ์ ๋ ์ํ ํจ์จ์ ์ด์ง๋ง, ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฅํ๊ธฐ ์ํด ๋ฏธ๋ฌํ์ง๋ง ์ฌ์ํ์ง ์์ ์์ ์ด ํ์ํฉ๋๋ค [41]. ์ด ์ฐ๊ตฌ๋ SAC๊ฐ ์ต์ํ์ ์์ ์ผ๋ก๋ ํจ๊ณผ์ ์ด๋ฉฐ, ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ์์ ์ค์ ์ธ๊ณ ๋ฏธ์ธ ์กฐ์ ์ผ๋ก์ ํตํฉ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ์ ๋ณด์ฌ์ค๋๋ค.
๊ท๋ชจ์ ์ค์์ฑ (Scale matters):
๋๋ฌด ์ ์ ์์ ๋๋ฉ์ธ ๋ฌด์์ํ๋ ํ๊ฒฝ (N_e)์ ์ฌ์ฉํ๋ฉด ์๋ฎฌ๋ ์ด์ ์์ SAC๊ฐ ๋ณด๊ธฐ์ ์ข์ ์ ์ฑ ์ผ๋ก ์๋ ดํ๋๋ผ๋ ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด๊ฐ ์ข์ง ์์์ ๋ณด์ฌ์ค๋๋ค. Figure 11์ N_e=128๋ก ํ๋ จ๋ ์ ์ฑ ์ด ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌ๋ ๋ ์์ ์ฑ์ด ๊ฐ์ํ๊ณ ๋ณด์์ด ํ์ ํ ๋ฎ์์ง์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๊ฒฌ๊ณ ํ sim-to-real ์ ์ด๋ฅผ ์ํด ๋๊ท๋ชจ ๋๋ฉ์ธ ๋ฌด์์ํ๋ ํ๊ฒฝ (N_e \sim 10^3)์ด ํ์์ ์์ ๋ํ๋ ๋๋ค.
B. ์ถ๊ฐ ์คํ (More Experiments)
PPO์ ๋น๊ตํ ์ ๋ก-์ท ์ฑ๋ฅ (Zero-shot performance compared to PPO):
์ด ์ฐ๊ตฌ๋ ์ฃผ๋ก ์จ๋ผ์ธ ํ๋ จ ์ ์ํ ํจ์จ์ฑ์ด ํฅ์๋ ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. SAC๋ฅผ ์ฌ์ฉํ ์ค์ ์์คํ ์์์ ์ ๋ก-์ท ๋ฐฐํฌ ์ฑ๋ฅ ์ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ ์ ํ ๋๋ฌธ์ด ์๋๋ผ sim-to-real gap ๋๋ฌธ์์ ๊ฒ์ฆํฉ๋๋ค. Figure 12๋ PPO์ ์ ๋ก-์ท ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ sim-to-real gap์ผ๋ก ์ธํด ์ด๊ธฐ ์ฑ๋ฅ์ด ๋ฎ๊ณ , ์จ๋ผ์ธ ํ์ต์ ํตํด ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค.
TD3๋ฅผ ์ฌ์ฉํ Sim-to-sim (Sim-to-sim with TD3):
TD3 [10] (์ต์ ์คํ-์ ์ฑ RL ์๊ณ ๋ฆฌ์ฆ)์ ๋ํ ์ถ๊ฐ ์คํ์ ์ ๊ณตํฉ๋๋ค. TD3๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์ฑ ์ ๋ฐ์ดํธ๋ฅผ ์ง์ฐ์ํค๋ฉฐ (M=2๊ฐ ๊ธฐ๋ณธ ํ์ดํผํ๋ผ๋ฏธํฐ). Figure 13์ TD3๊ฐ SAC์ ์ ์ฌํ ์ ์ด ๋์ญํ์ ๋ณด์์ ๋ณด์ฌ์ค๋๋ค.
์ด๊ธฐ ํผํฉ \alpha (Initial mixing \alpha):
ํ์ต ์์ ์ฑ ๋ฐ ์ฑ๋ฅ์ ๋ํ ์ด๊ธฐ \alpha ๊ฐ์ ์ํฅ์ ํ๊ฐํฉ๋๋ค. Figure 14๋ ํ๋ จ ์์ ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋๊ณ , ํ๋ จ ํ๋ฐ์ ์จ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ์ง๋ฐฐ์ ์ด๋ผ๋ฉด, ์ข์ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ ๋ณด์กด (Retaining simulation data):
์จ๋ผ์ธ ํ์ต์์ ์๋ฎฌ๋ ์ด์ ์ค์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ๋ ํจ๊ณผ๋ฅผ ์กฐ์ฌํ๊ณ , Zhou et al. [17]์ ์ ์คํํธ ์ค์ ๊ณผ ๋น๊ตํฉ๋๋ค. Figure 15๋ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ๋ ๊ฒ์ด ํ์ต ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ๋ชจ๋ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
C. Franka Emika Panda
MuJoCo Playground [9]์ PandaPickCubeCartesian ์์ ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์ ๊ตฌ์ถํฉ๋๋ค. ์์ด์ ํธ๋ 64x64 ๊ทธ๋ ์ด์ค์ผ์ผ ์ด๋ฏธ์ง์ ์๋-์ดํํฐ(end-effector) ์์น ๋ฐ ๊ทธ๋ฆฌํผ ๊ฐ๋ฐฉ๋๋ฅผ ๊ด์ฐฐํฉ๋๋ค. ์กฐ์ ์์ ์ ์ํํ๋ฉฐ, ์ฑ๊ณต ๊ธฐ์ค์ ํ๋ธ๊ฐ ๋ชฉํ ์์น๋ก๋ถํฐ 0.05m ์ด๋ด์ ๋ค์ด์ค๋ ๊ฒ์ ๋๋ค. Figure 16์ ๋๋ฉ์ธ ๋ฌด์์ํ๋ ํ๊ฒฝ์ ๋ณด์ฌ์ค๋๋ค.
D. Unitree Go1
MuJoCo Playground์ FlatTerrainGo1Joystick ํ๊ฒฝ์ ์ฌ์ฉํฉ๋๋ค [9]. Zakka et al. [9]์ ๋ฌ๋ฆฌ, ์ด ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ์์ [$$0.5, $$0.8, $$1.2]์ ๋ ์ข์ ๋ฒ์์ ์๋ ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ์ ์ด๊ฐ ๋ ๋์ ์ ์ด๋๋ก ๋ง๋ค์์ต๋๋ค. Figure 17์ ๊ฐ์ ๋ ์์ ์ฑ์ผ๋ก ํ๋ จ ํ์ ๊ถค์ ์ ๋ณด์ฌ์ค๋๋ค.
E. Race Car
Kabzan et al. [55]์ ๋ชจ๋ธ์ ๋ฐ๋ผ ์๋์ฐจ ๋์ญํ์ ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค. sim-to-real gap์ผ๋ก ์ธํด ์๋์ฐจ ๋๋ฆฌํํธ๋ฅผ ์ ํํ๊ฒ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ค์ ์๋์ฐจ๊ฐ ๋ชฉํ ์์น๋ฅผ ์ง๋์น๋ ๊ฒฝํฅ์ด ์์ต๋๋ค (Figure 18). ์์ด์ ํธ๋ ์ฐจ๋ ์ํ๋ฅผ ๊ด์ฐฐํ๊ณ ์ฐ์์ ์ธ 2D ํ๋(์กฐํฅ, ์ค๋กํ)์ ์ถ๋ ฅํฉ๋๋ค. ๋ณด์์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: r_t(s_t, a_t) := d_{t-1} - d_t + \mathbf{1}[d_t \le \epsilon] - \lambda_c \|a_t\|^2 - \lambda_l \|a_t - a_{t-1}\|^2_2 ์ฌ๊ธฐ์ d_t = \|\mathbf{x}_t - \mathbf{x}_{\text{goal}}\|_2๋ ๋ชฉํ๊น์ง์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ, \mathbf{1}[d_t \le \epsilon]์ \epsilon=0.3 ๋ฏธํฐ ์ด๋ด์ผ ๋์ ๋ณด๋์ค๋ฅผ, \lambda_c๋ ์ ์ด ๋ ธ๋ ฅ์ ๋ํ ํจ๋ํฐ๋ฅผ, \lambda_l์ ํ๋ ๋ณํ์ ๋ํ ํจ๋ํฐ๋ฅผ ๋ํ๋ ๋๋ค.
F. ๊ตฌํ ์ธ๋ถ ์ฌํญ (Implementation Details)
ํ์ดํผํ๋ผ๋ฏธํฐ (Hyperparameters):
ํน๋ณํ ๋ช ์๋์ง ์๋ ํ, ์กํฐ์ ๋ํด 10^{-5}์ ํ์ต๋ฅ ์ ์ฌ์ฉํ๊ณ , 20๋ฒ์ ๋นํ๊ฐ ์ ๋ฐ์ดํธ๋ง๋ค ์กํฐ๋ฅผ ํ ๋ฒ ์ ๋ฐ์ดํธํฉ๋๋ค. ๋ชจ๋ ๋ก๋ด์ ๋ํด ์ํผ์๋ ๋น 1250๋ฒ์ ์ ๋ฐ์ดํธ๋ฅผ ์ฌ์ฉํ์ฌ Franka Emika Panda ๋ฐ Race Car์ ๊ฒฝ์ฐ \eta=5, Unitree Go1์ ๊ฒฝ์ฐ \eta \approx 1์ด ๋๋๋ก ํฉ๋๋ค.
ํจ์ (Pitfalls):
๊ฐ๋ฐ ์ด๊ธฐ ๋จ๊ณ์์ ํ์ต ๋์ญํ ๋ฐ ์ต์ข ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ๋ฏธ๋ฌํ ๋ฌธ์ ๋ค์ด ๊ด์ฐฐ๋์์ต๋๋ค:
- ์ตํฐ๋ง์ด์ ์ํ๊ฐ ๋ณต์๋์ง ์์: ๋ชจ๋ธ ๊ฐ์ค์น๋ง ๋ณต์ํ๊ณ ์ตํฐ๋ง์ด์ ์ํ(๋ชจ๋ฉํ , 2์ฐจ ๋ชจ๋ฉํธ ์ถ์ , ํ์ต๋ฅ ์ค์ผ์ค๋ฌ ๋ฑ)๋ฅผ ๋ณต์ํ์ง ์์ผ๋ฉด ์ตํฐ๋ง์ด์ ๋์ญํ์ด ๋ณ๊ฒฝ๋์ด ํ์ต์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
- ๋นํ๊ฐ๊ฐ ํ๊ฒ ๋คํธ์ํฌ ์์ด ๋ณต์๋จ: Q^{\pi_n}_\varphi๋ง ๋ก๋ํ๊ณ ํ๊ฒ ๋คํธ์ํฌ \bar{Q}^{\pi_n}๋ฅผ ๋ก๋ํ์ง ์์ผ๋ฉด ์ผ๊ด์ฑ ์๋ ํ๊ฒ์ด ์์ฑ๋์ด ๋นํ๊ฐ์ ์กํฐ๊ฐ ํ์ตํ ๋ด์ฉ์ ์์ ์ ์์ต๋๋ค.
- SAC ์จ๋ \alpha (๋ฐ ๊ทธ ์ตํฐ๋ง์ด์ )๊ฐ ๋ณต์๋์ง ์์: ์ฌ์ ํ๋ จ ์ค์ \alpha๊ฐ ๋ณ๊ฒฝ๋๋ฏ๋ก, ๊ทธ ๊ฐ๊ณผ ์ตํฐ๋ง์ด์ ์ํ๋ฅผ ๋ณต์ํ์ง ์์ผ๋ฉด ์กํฐ ๋ฐ ๋นํ๊ฐ ์ ๋ฐ์ดํธ์์ ์ํธ๋กํผ ๋ณด๋์ค(entropy bonus)์ ์ค์ผ์ผ์ด ๋ณ๊ฒฝ๋์ด ๋ถ์์ ์ฑ์ ์ด๋ํ ์ ์์ต๋๋ค.
๋๊ธฐ์ ์ ๋ฐ์ดํธ (Synchronous updates):
ํ์ค ์คํ-์ ์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ ์ค์ ์ธ๊ณ ์ ํ ํ์ ์กํฐ-๋นํ๊ฐ ์ ๋ฐ์ดํธ๊ฐ ๋ฐ์ํ๋๋ก ๊ตฌํ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ๊ทธ๋๋์ธํธ ๊ณ์ฐ์ ์ค์๊ฐ ์ ์ด ์ฃผ๊ธฐ๋ณด๋ค ๋๋ฆฐ ๊ฒฝํฅ์ด ์์ด ๋์ UTD ์๋๋ฆฌ์ค์์๋ ํนํ ์ด๋ ต์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋ฐ์ดํฐ ์์ง๊ณผ ์ต์ ํ๋ฅผ ๋ถ๋ฆฌํ๋ ๋ฐฐ์น(batch) ๋ฐฉ์์ ๋น๋๊ธฐ์ , ์ํผ์๋์ฑ ํ์ต ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ์๋ฎฌ๋ ์ดํฐ์ ์ฝ์๊ณผ ๋ฐฐ์
๋ก๋ด๊ณตํ์๋ผ๋ฉด ๋๊ตฌ๋ ํ ๋ฒ์ฏค ์ด ์ฅ๋ฉด์ ๊ฒฝํํด๋ดค์ ๊ฒ์ด๋ค. ์๋ฎฌ๋ ์ดํฐ์์๋ ์ ์ฑ ์ด ์๋ฒฝํ๊ฒ ๋์ํ๋ค. ๋ชจ๋ ๋ณด์ ๊ณก์ ์ด ์ฐ์ํฅ์ด๊ณ , ํ๊ฐ ์์์ ๊น๋ํ๋ค. ์, ์ด์ ์ค๋ฌผ ๋ก๋ด์ ์ฌ๋ ค๋ณด์. ์ฒซ ์ํผ์๋๋ถํฐ ๋ง๊ฐ์ง๋ค. ๋ ์ฌํ ๊ฒ์ ๊ทธ๋ค์์ด๋ค. โ๊ด์ฐฎ์, ์จ๋ผ์ธ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ฉด ํ๋ณต๋ ๊ฑฐ์ผโ๋ผ๋ฉฐ ํ์ต์ ์ผ๋ ์ฑ ๋๋ฉด โ ์ ์ฑ ์ฑ๋ฅ์ด ๋ณต๊ตฌ๋๋ ๊ฒ ์๋๋ผ ๋ ๋๋น ์ง๋ค. ์๋ฎฌ์์ ์ ๋ฐฐ์ ๋ ๊ฒ๋ค๋ง์ ์์ด๋ฒ๋ฆฌ๊ธฐ ์์ํ๋ค.
ETH Zรผrich์ Google DeepMind ํ์ด 2026๋ 2์์ ๊ณต๊ฐํ ์ด ๋ ผ๋ฌธ(Yarden As et al.)์ ๋ฐ๋ก ์ด ํ์์ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ๋ค. ์ ์๋ค์ ์๊ณ ๋ฆฌ์ฆ์ ๋ฌ๊ธฐ๋ฅผ ๋ถ๋ฆฌ๊ฑฐ๋ ์๋ก์ด ์์คํจ์๋ฅผ ์ ์ํ์ง ์๋๋ค. ๊ทธ ๋์ ์ธ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ์์ 100ํ ์ด์์ ์ค๋ฌผ ํ์ต ์คํ์ ๋๋ ค, ํ์ค์ ์ธ off-policy RL ํ์ดํ๋ผ์ธ์์ ์๋ ์ ์๋ ค์ ธ ์์ด์ผ ํ์ง๋ง ์๋ฌต์ ์ผ๋ก๋ง ์ ๋ฌ๋๋ ์ค๊ณ ๊ฒฐ์ ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ablationํ๋ค. ๊ฒฐ๋ก ์ ์ฐ์ํ๋ค โ ์๊ณ ๋ฆฌ์ฆ์ ์๋ก ๋ง๋ค ํ์ ์์ด, ์ธ ๊ฐ์ง ๋จ์ํ ๊ธฐ๋ฒ(๋ฐ์ดํฐ ๋ณด์กด, ์์คํํธ, ๋น๋์นญ ์ ๋ฐ์ดํธ)๋ง ์ ๋๋ก ์ ์ฉํด๋ ์๋ฎฌโ์ค๋ฌผ finetune์ ์์ ์ ์ผ๋ก ๋์ํ๋ค.
์ด ๊ธ์ ๊ทธ ์ฒ๋ฐฉ์ ์ ๋ก๋ด๊ณตํ์์ ๋๋์ด์์ ๋ถํดํด๋ณธ๋ค. โ์ ๊ทธ๋ ๊ฒ ํด์ผ ํ๋๊ฐโ์ ์ง๊ด, ์์์ ์๋ฏธ, ์คํ ๊ฒฐ๊ณผ์ ํจ์, ๊ทธ๋ฆฌ๊ณ โ ๊ฐ์ฅ ์ค์ํ๊ฒ โ ๋ด ๋ก๋ด์ ์ฌ๋ฆด ๋ ๋ฌด์์ ์ฒดํฌํด์ผ ํ๋๊ฐ๊น์ง.
Sim-to-online RL์ ํต์ฌ ์ ์ โํํฅ ๋์ (downward spiral)โ์ด๋ค. ์ด๋ฅผ ๋ง์ผ๋ ค๋ฉด (1) ์ฌ์ ๋ฐ์ดํฐ๋ฅผ ๋ฒ๋ฆฌ์ง ๋ง๊ณ , (2) ์๋ฐ์ ์ผ๋ก ๋ถํฌ ์ถฉ๊ฒฉ์ ์ํํ๊ณ , (3) ์กํฐ๋ฅผ ํฌ๋ฆฌํฑ๋ณด๋ค ๋๋ฆฌ๊ฒ ์ ๋ฐ์ดํธํ๋ผ. ๊ทธ๊ฒ ๊ฑฐ์ ์ ๋ถ๋ค.
๋ฌธ์ ์ค์ : โSim-to-Onlineโ์ด๋ผ๋ ์๋ก์ด ํ๋ ์
์ ์๋ค์ด ๊ฐ์ฅ ๋จผ์ ํ๋ ์ผ์ ์ฉ์ด๋ฅผ ์ ๋ฆฌํ๋ ๊ฒ์ด๋ค. ์ฐ๋ฆฌ๊ฐ ํํ ์ฐ๋ ํํ๋ค์ ํ๋ฒ ์ค ์ธ์๋ณด์.
| ์ฉ์ด | ์๋ฏธ | ํ๊ณ |
|---|---|---|
| Sim-to-Real | ์๋ฎฌ๋ ์ดํฐ์์ ํ์ต โ ์ค๋ฌผ์ zero-shot ๋ฐฐํฌ | ์๋ฎฌ-์ค๋ฌผ ๊ฐญ์ด ํฌ๋ฉด ์ฑ๋ฅ์ด ํ๊ณ์ ๋ถ๋ชํ |
| Offline-to-Online | ๊ณ ์ ๋ ์ค๋ฌผ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต โ ์ค๋ฌผ์์ ๋ฏธ์ธ์กฐ์ | ์์ง์ ์ฌ์ ๋ฐ์ดํฐ ํ๋ณด๊ฐ ๋น์ธ๋ค |
| Sim-to-Online | ์๋ฎฌ์์ ์ฌ์ ํ์ต โ ์ค๋ฌผ์์ ์จ๋ผ์ธ์ผ๋ก ๊ณ์ ํ์ต | ๋ถํฌ ๋ณํ๋ก ๋ถ์์ โ ์ด ๋ ผ๋ฌธ์ ํ์ |
์ธ ๋ฒ์งธ๊ฐ ์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ setting์ด๋ค. ์ฒ์๋ถํฐ ์ค๋ฌผ์์ RL์ ๋๋ฆฌ๋ ๊ฒ์ ์์ ํ์ง ์๊ณ ๋น์ธ๋ค. ์๋ฎฌ์์๋ง ํ์ตํ๊ณ ๋๋ด๋ ๊ฒ์ ํ๊ณ๊ฐ ๋ช ํํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์๋ฎฌ์์ ์ข์ ์ฌ์ ์ ์ฑ \pi_0์ ๋ง๋ ๋ค์, ์ค๋ฌผ์์ ๊ทธ๊ฒ์ ์ด์ด์ ํ์ต์ํค๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์ด ์ ์ถฉ์์ด๋ค. ๋จ์ง, ์ฐ๋ฆฌ๊ฐ ๊ณง ๋ณด๊ฒ ์ง๋ง โ ์ด โ์ด์ด์โ๊ฐ ์ ๋ง ๊น๋ค๋กญ๋ค.
์คํ ํ๋ซํผ ํ๋์
์ ์๋ค์ด ์ฌ์ฉํ ์ธ ๋ก๋ด์ ์๋์ ์ผ๋ก ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ์ด๋ ค์์ ๋ํํ๋ค.
+------------------+----------------------+----------------------+----------------------+
| Platform | Franka Panda | Unitree Go1 | Race Car |
+------------------+----------------------+----------------------+----------------------+
| Task | Pick & lift cube | Joystick locomotion | Park at goal |
| Observation | 64x64 grayscale img | proprioceptive | 2D pose + velocity |
| | + EE pose + gripper | | |
| Action dim | 4 (dx,dy,dz,grip) | 12 joint positions | 2 (steer, throttle) |
| Control rate | episodic / step | high-rate locomotion | 60 Hz |
| Sim-to-real gap | contact + visuals | friction | tire/drift dynamics |
| Why hard | Vision-based RL | Stable gait transfer | Fast, agile dynamics |
+------------------+----------------------+----------------------+----------------------+
์ธ ๋ก๋ด ๋ชจ๋์์ ์๋ฎฌ ์ฌ์ ์ ์ฑ \pi_0์ ์๋ฎฌ ์์์๋ ๊ฑฐ์ ๋ง์ ์ ๋ฐ์ง๋ง, ์ค๋ฌผ์์๋ zero-shot์ผ๋ก ๋จ์ด๋จ๋ ค๋ณด๋ฉด ์ฑ๋ฅ์ด ์ฝ 30โ60% ์์ค์ผ๋ก ์ถ๋ฝํ๋ค(๋ ผ๋ฌธ Figure 6 ์ฐธ์กฐ). ์ด๊ฒ์ด ์ฐ๋ฆฌ๊ฐ ๋ฉ์์ผ ํ ๊ฐญ์ด๋ค.
์ ๊น ๋ณต์ต: Off-policy RL์ ์ํ์ ๊ณจ๊ฒฉ
์ฒ๋ฐฉ์ ์ดํดํ๋ ค๋ฉด ํ์์ ํด๋ถํ์ ์์์ผ ํ๋ค. ์ด ๋ ผ๋ฌธ์ SAC(Soft Actor-Critic)๋ฅผ ํ์ค ๋๊ตฌ๋ก ์ฐ์ง๋ง, ํต์ฌ ๋ ผ๋ฆฌ๋ ๋ชจ๋ actor-critic off-policy ์๊ณ ๋ฆฌ์ฆ์ ๊ทธ๋๋ก ์ ์ฉ๋๋ค.
์ก์ -๊ฐ์น ํจ์์ ํ์ต
ํฌ๋ฆฌํฑ์ ๋ค์ ์์ค์ ์ต์ํํ๋ฉฐ ํ์ต๋๋ค:
\ell(\varphi) = \mathbb{E}_{(s_t, a_t, s_{t+1}, r_t)\sim\mathcal{D}_{\le n}} \left[ \tfrac{1}{2}\Big(Q^{\pi_n}_\varphi(s_t,a_t) - y\Big)^2 \right]
ํ๊น์ ํ ์คํ Bellman backup์ด๋ค: y = r_t + \gamma \bar{V}^{\pi_n}(s_{t+1}). ๊ทธ๋ฆฌ๊ณ \bar{V}๋ ํ๊น ๋คํธ์ํฌ์์ ํ๊ฐ๋๋ค โ Polyak averaging์ผ๋ก ์ฒ์ฒํ ๋ฐ๋ผ์ค๋ ๊ฑฐ์ธ ๊ฐ์ ์กด์ฌ๋ค:
\varphi^{\text{target}}_{k+1} = (1-\tau)\varphi^{\text{target}}_k + \tau \varphi_k
์ง๊ด์ ์ผ๋ก ๋ณด์. ํ๊น ๋คํธ์ํฌ๊ฐ ์์ผ๋ฉด, ํฌ๋ฆฌํฑ์ด ์์ ์ ๊ทธ๋ฆผ์๋ฅผ ์ซ์๊ฐ๋ฉฐ ํ์ตํ๊ฒ ๋๋ค. ๋ง์น ๊ฑฐ์ธ ๋ ๊ฐ๋ฅผ ๋ง์ฃผ ๋ณด๊ฒ ํ์ ๋ ๋ฌดํ ๋ฐ์ฌ๊ฐ ์ผ์ด๋๋ฏ, ์ถ์ ๊ฐ์ด ๋ฐ์ฐํ ์ํ์ด ์๋ค. \tau๋ฅผ ์๊ฒ ์ก์ ํ๊น์ ๋ฆ๊ฒ ๋ฐ๋ผ์ค๊ฒ ํ๋ฉด, ์ถ์ ๋์์ด ์ ๊น ๋์ ๊ณ ์ ๋ ๋ฏ์ด ๋ณด์ฌ์ ํ์ต์ด ์์ ๋๋ค.
์ ์ฑ ๊ฐ์ ๊ณผ Kakade-Langford ๋ถ๋ฑ์
ํฌ๋ฆฌํฑ์ด ์ด๋ ์ ๋ ์๋ฆฌ ์ก์ผ๋ฉด, ์กํฐ๋ ๊ทธ๊ฒ์ ์ต๋ํํ๋๋ก ์์ง์ธ๋ค. Kakade์ Langford(2002)์ ๊ณ ์ ์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆฌ๋ ์ ์ฑ ์ ๋ฐ์ดํธ์ ๋์ ์ฑ๋ฅ ํฅ์์ ๋ค์ ํํ์ ์ค๋ค:
J(\pi_N) - J(\pi_0) \;\ge\; \sum_{n=0}^{N-1}\mathbb{E}_{\pi_{n+1}}\!\!\left[\sum_{t=0}^{\infty}\gamma^t\Big(\underbrace{A^{\pi_n}(s_t,a_t)}_{\text{policy improvement}} - \underbrace{2\gamma^t |\epsilon(s_t,a_t)|}_{\text{approximation error}}\Big)\right]
์ด ์์ด ์ด ๋ ผ๋ฌธ ์ ์ฒด๋ฅผ ๊ดํตํ๋ ์์ ์ฐํ๋ค. ๊ฐ์ ์ ์์ ์ด๋๋ฐดํฐ์ง์ ํฉ์์ ์ถ์ ์ค์ฐจ์ ํฉ์ ๋บ ๋งํผ์ด๋ผ๋ ๊ฒ. ์ด๊ฒ ์์๊ฐ ๋๋ ค๋ฉด, ์ฐ๋ฆฌ๊ฐ ๋ง๋ ์ด๋๋ฐดํฐ์ง ์ถ์ ์ ํธ๊ฐ ๋ ธ์ด์ฆ๋ณด๋ค ์ปค์ผ ํ๋ค. ๊ทธ๋ ์ง ๋ชปํ๋ฉด โ ์ฆ, ์ค์ฐจ ํญ์ด ๋ ํฌ๋ฉด โ ํ์ตํ ์๋ก ์ ์ฑ ์ด ๋๋น ์ง๋ค. ์ด๊ฒ์ด ์ง๊ด์ ์ผ๋ก โํํฅ ๋์ โ์ด ๋ฐ์ํ๋ ์ด์ ์ด๋ค.
์ง๋จ: ํํฅ ๋์ (Downward Spiral)์ ๋ฉ์ปค๋์ฆ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ๋ช ๋ฃํ ๊ธฐ์ฌ ํ๋๋, sim-to-online์์ ์์ฃผ ๊ด์ฐฐ๋๋ ํ์ต ์คํจ๋ฅผ ๋จ์ผํ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ค๋ช ํ ๊ฒ์ด๋ค. ๊ทธ๋ฆผ์ผ๋ก ๊ทธ๋ ค๋ณด์.
์ด ์ฌ์ดํด์ ํ ๋ฒ์ ์ดํดํ๋ ๋น์ โ ํ์์ด ์๋ชป๋ ๊ต๊ณผ์๋ก ์ํ์ ๋ณธ๋ค๊ณ ํ์. ์ฒ์์๋ ์ฝ๊ฐ ํ๋ฆฐ ๋ต์ ์ด๋ค. ๊ทธ๋ฐ๋ฐ ๊ทธ ํ๋ฆฐ ๋ต์ ๋ฐ์์ ๋ค์ ๊ทธ ๊ต๊ณผ์๋ก ๋ณต์ตํ๋ค. ๋ ๋ฒ์งธ ์ํ์์๋ ๋ ์์ ์๊ฒ ๋ ํ๋ฆฐ ๋ต์ ์ด๋ค. ๋งค ์ฌ์ดํด๋ง๋ค ์์ ๊ฐ(๊ฐ์น ์ถ์ )์ ์ฌ๋ผ๊ฐ์ง๋ง, ์ ๋ต(์ค์ ๊ฐ์น)์์๋ ๋ฉ์ด์ง๋ค. ์ด๊ฒ ์ ํํ ์ก์ -๊ฐ์น ์ถ์ ์ด ๋ถํฌ ์ํํธ ํ์์ ํญ์ฃผํ๋ ๋ชจ์ต์ด๋ค.
๋ ผ๋ฌธ์ ์๋ฎฌ Race Car์์ ๊ฐ๋ฒผ์ด ๋ค์ด๋ด๋ฏน์ค mismatch๋ฅผ ์ธ์์ ์ผ๋ก ๋ฃ๊ณ ์ด ํ์์ ์ง์ ๊ด์ธกํ๋ค(Figure 3). ๋ถ์์ ํ ์คํ์์๋ Q^{\pi_n}_\varphi - Q^{\pi_n}_{\text{MC}} ์ ๋ถํฌ(Monte Carlo๋ก ์ธก์ ํ ์ง์ง ๊ฐ์น์ ๋น๊ต)๊ฐ ์๊ฐ์ด ๊ฐ์๋ก ์์ ๋ฐฉํฅ์ผ๋ก ์ ์ ๋๊บผ์์ง๋ค โ ์ฆ, ํ์ตํ ์๋ก ๋ ์์ ๋ง๋งํ๊ฒ ๋ ๊ณผ๋ํ๊ฐํ๋ค. ์์ ๋ ์คํ์์๋ ์ด ๋ถํฌ๊ฐ 0 ๊ทผ์ฒ์ ๋จ์ ํ๊ฒ ๋ชจ์ฌ ์๋ค.
ํํฅ ๋์ ์ ๋ณธ์ง์ โ๋ถํฌ ์ํํธ ํ์์์ ๊ฐ์น ํจ์ ๊ณผ๋ํ๊ฐ๊ฐ ์ ์ฑ ์ ๋ ๋์ ์์ญ์ผ๋ก ๋ฐ์ด๋ฃ๊ณ , ๊ทธ ์์ญ์ ๋ฐ์ดํฐ๋ก ๋ค์ ๊ฐ์น ํจ์๋ฅผ ์๋ชป ํ์ตํ๋ ์๊ธฐ๊ฐํ ๋ฃจํโ์ด๋ค. ์ด๊ฑธ ๋๋ ๋ฐฉ๋ฒ์ ๋ณธ์ง์ ์ผ๋ก ๋ ๊ฐ์ง๋ฟ์ด๋ค โ (a) ๋์ ๋ฐ์ดํฐ๋ก ๊ฐ์น ํจ์๊ฐ ํ๋๋ฆฌ์ง ์๊ฒ ํ๊ฑฐ๋, (b) ๊ฐ์น ํจ์๊ฐ ์ด๋ ์ ๋ ์์ ๋ ๋๊น์ง ์ ์ฑ ์ ์ฒ์ฒํ ์์ง์ด๊ฒ ํ๊ฑฐ๋. ๋ ผ๋ฌธ์ ์ธ ์ฒ๋ฐฉ์ ๋ชจ๋ ์ด ๋ ์ถ์ ๋ณ์ฃผ์ด๋ค.
์ฒ๋ฐฉ 1: ๋ฐ์ดํฐ๋ฅผ ํจ๋ถ๋ก ๋ฒ๋ฆฌ์ง ๋ง๋ผ (Data Retention)
๊ฐ์ฅ ๋จ์ํ๊ณ ๊ฐ์ฅ ํจ๊ณผ ์ข์ ์ฒ๋ฐฉ์ด๋ค. ์๋ฎฌ๋ ์ด์ ์์ ๋ชจ์ ๋ฐ์ดํฐ \mathcal{D}_0๋ฅผ ์ค๋ฌผ ํ์ต ์์ ํ์๋ ๋ฒ๋ฆฌ์ง ๋ง๊ณ ๊ณ์ ์ฐ์.
์์์ผ๋ก๋ ์ด๋ ๊ฒ ํํ๋๋ค. ๋ ๊ฐ์ ๋ฒํผ๋ฅผ ๋๊ณ :
- \mathcal{D}_0: ์๋ฎฌ ์ฌ์ ํ์ต ์ ๋ชจ์ ๋ฐ์ดํฐ (๋๋ ์ด์ trial์ ์ค๋ฌผ ๋ฐ์ดํฐ)
- \mathcal{D}_{\text{online}}: ํ์ฌ ์ค๋ฌผ์์ ๋ชจ์ผ๊ณ ์๋ ๋ฐ์ดํฐ
๋ฏธ๋๋ฐฐ์น๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์๋๋ค:
(s_t,a_t,s_{t+1},r_t) \sim (1-\alpha)\, \text{Unif}(\mathcal{D}_0) + \alpha\, \text{Unif}(\mathcal{D}_{\text{online}}), \quad \alpha\in[0,1]
์ ์๋ค์ ํต์ฌ ๋ณํ์ \alpha๋ฅผ ์๊ฐ์ ๋ฐ๋ผ ์ด๋๋งํ๋ ๊ฒ์ด๋ค. ์ฒ์์๋ \alpha=0.5 ์ ๋๋ก ์๋ฎฌ ๋ฐ์ดํฐ๋ฅผ ์ ๋ฐ์ฉ ์๋ค๊ฐ, ํ์ต์ด ์งํ๋๋ฉด์ \alpha\to 1๋ก ๋ณด๋ด ๊ฒฐ๊ตญ ์ค๋ฌผ ๋ฐ์ดํฐ๋ง ์ฐ๊ฒ ํ๋ค.
์ ์ด๊ฒ ํตํ๋๊ฐ
๋ค์ Bellman ์์ค ์์ ๋ณด์. ๋ฏธ๋๋ฐฐ์น ๋ถํฌ๊ฐ ๊ณง ํ์ต ์ ํธ์ ๊ฐ์ค์น ๋ถํฌ๋ค. ๋ง์ฝ \mathcal{D}_{\le n}์ ์ค์ฐจ |\epsilon(s,a)|๊ฐ ํฐ transition๋ค์ด ๊ณผ๋ํ๋ ๊ฒฝ์ฐ, ํฌ๋ฆฌํฑ ์ ๋ฐ์ดํธ๋ ๊ทธ ์ ๋ค์ ๋๋ ค๊ฐ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ ์ฑ ์ด ๋ ๊ทธ ์์ญ์ผ๋ก ๊ฐ๊ฒ ๋๋ฉด ๋ถํฌ ์ํํธ๊ฐ ๋ ์ปค์ง๋ค โ ํํฅ ๋์ ์ด๋ค.
๋ฐ๋๋ก \mathcal{D}_0์ ๋ํด์๋ ํฌ๋ฆฌํฑ์ด ์ด๋ฏธ ์ถฉ๋ถํ ํ์ต๋์ด ์์ผ๋ฏ๋ก \epsilon์ด ํ๊ท ์ ์ผ๋ก ์๋ค. ์ฆ \mathcal{D}_0๋ฅผ ๋ฏธ๋๋ฐฐ์น์ ์๋ ๊ฒ์, ์ํํ ์์ญ์ ํ์ต ์ ํธ์ โ๋ปโ์ ๋ด๋ฆฌ๋ ์ผ์ด๋ค. ์๋ฎฌ ๋ฐ์ดํฐ๋ ์๋ฒฝํ ์ ๋ต์ ์๋์ง๋ง ์์ ๋ ์ ํธ๋ค. ์์ ๋ ์ ํธ์ ๋ถ์ ํํ ์ ํธ๋ฅผ ์ ์ ํ ์์ผ๋ฉด, ํฌ๋ฆฌํฑ์ด ๊ฐ์๊ธฐ ํฉ์ธ๋ฆฌ์ง ์๋๋ค.
๋ค๋ง ์๋ฎฌ๊ณผ ์ค๋ฌผ์ ๋ค์ด๋ด๋ฏน์ค๊ฐ ๋ค๋ฅด๋ฏ๋ก \mathcal{D}_0๋ฅผ ์์ํ ์ฐ๋ฉด ์ ๋๋ค โ ๊ฒฐ๊ตญ ์ง์ง ์์คํ ์์ ์ต์ ํํด์ผ ํ๋ค. ๊ทธ๋์ ์ด๋๋ง์ด ๋ฑ์ฅํ๋ค. ์ด๊ธฐ์๋ ์์ ์ฑ, ํ๊ธฐ์๋ ์ ํ์ฑ. ๋ง์น ์๋ก์ด ์ธ๊ตญ์ด๋ฅผ ๋ฐฐ์ธ ๋ ์ฒ์์๋ ๋ชจ๊ตญ์ด ์ฌ์ ์ ์์ ๋์ง๋ง, ๊ฒฐ๊ตญ ๊ทธ ์ธ์ด์ ํ์์ฒ๋ผ ์ฌ๊ณ ํด์ผ ํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
์คํ ๊ฒฐ๊ณผ
๋ ผ๋ฌธ Figure 8์ ๋ฐ์ดํฐ ๋ณด์กด ํจ๊ณผ๋ฅผ ๊น๋ํ๊ฒ ๋ณด์ฌ์ค๋ค. ๊ฐ์ random seed๋ก 4๋ฒ์ trial์ ์ฐ์ํด์ ๋๋ฆฌ๋ฉด์, ๋งค๋ฒ ์ด์ trial์ \mathcal{D}_{\text{online}}์ ์ trial์ \mathcal{D}_0๋ก ๋ก๋ํ๋ค. ๊ฒฐ๊ณผ:
- Franka Panda: trial 0์์๋ ํฝ์ ์คํจ๊ฐ ์ฆ์ง๋ง, trial 3์ฏค ๊ฐ๋ฉด ๊ฑฐ์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ
- Unitree Go1: trial 0์์๋ ์์ฃผ ๋์ด์ง์ง๋ง, ๋์ ํ์ต์ผ๋ก ์์ ์ ๋ณดํ
- Race Car: ์ฒ์์๋ ๋ชฉํ๋ฅผ ์์ฃผ ๋์น์ง๋ง, ๋์ค์๋ ๋น ๋ฅด๊ณ ์ ๋ฐํ๊ฒ ์ฃผ์ฐจ
์ ์๋ค์ ํํ์ ๋น๋ฆฌ๋ฉด โ ์ฝ 10๋ถ ์ ๋์ ํ์ต(ํ๋์จ์ด ๋ฆฌ์ , ๋คํธ์ํฌ ํต์ ์ค๋ฒํค๋ ํฌํจ) ๋ง์ Franka Panda๋ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ๋ค. ๊ทธ๊ฒ๋, ์๋ฎฌ๊ณผ ์ค๋ฌผ ๋ชจ๋์์ sparseํ grayscale ๋น์ ์ ๋ ฅ์ผ๋ก.
โ์ด์ trial์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ trial์์ ์ฌ์ฌ์ฉํ๋คโ๋ ๊ฒ์ ๋จ์ํ ๊ตฌํ ๋ํ ์ผ์ด ์๋๋ค. ์ด๋ ๋ก๋ด ํ ๋๋ก ๋ฉฐ์น ์ ๊ฑธ์ณ ํ์ตํ ๋ ๋งค๋ฒ ์ฒ์๋ถํฐ ์์ํ์ง ์๋๋ค๋ ๋ป์ด๋ค. ๋ง์ฝ ๋ณธ์ธ์ setup์์ trial์ด ๋๋ ๋๋ง๋ค ๋ฆฌํ๋ ์ด ๋ฒํผ๋ฅผ ๋์คํฌ์ dumpํ์ง ์๊ณ ์๋ค๋ฉด, ์ง๊ธ ๋น์ฅ ์ฝ๋๋ฅผ ์์ ํ ๊ฐ์น๊ฐ ์๋ค.
์ฒ๋ฐฉ 2: ์์คํํธ(Warm Starts) โ ์๊ณ ๋ฐ์ดํฐ ํ๋ณด
๋ฐ์ดํฐ ๋ณด์กด์ด ์ด๋ ค์ด ์ํฉ๋ ์๋ค. ์๋ฅผ ๋ค์ด ์๋ฎฌ ์ฌ์ ํ์ต์ ์ด ๋ฐ์ดํฐ๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋(parallel sim์์ ์์ต transitions), ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก ๋์คํฌ์ ๋ณด๊ดํ๊ธฐ ๊น๋ค๋ก์ด ๊ฒฝ์ฐ๋ค. Zhou et al.(2025)์ offline-to-online ์ธํ ์์ ์ฌ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ดํ์ง ์๊ณ ๋ ์์ ์ ๋ฏธ์ธ์กฐ์ ์ด ๊ฐ๋ฅํจ์ ๋ณด์๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ์์ด๋์ด๋ฅผ sim-to-online์ผ๋ก ๊ฐ์ ธ์จ๋ค.
๋ฐฉ๋ฒ์ ๊ฐ๋จํ๋ค. ์ค๋ฌผ์ ์ ์ฑ ์ ์ฌ๋ฆฐ ์งํ, ํ์ต ์ ๋ฐ์ดํธ๋ฅผ ์ผ๋จ ๋ฉ์ถ๊ณ \pi_0๋ก N^* ์ํผ์๋๋ฅผ ๊ทธ๋ฅ ๊ตด๋ฆฐ๋ค. ์ด ๋์ ๋ชจ์ ๋ฐ์ดํฐ๊ฐ \mathcal{D}_{\text{online}}์ ์๋๊ฐ ๋๋ค. ๊ทธ ํ์์ผ actor-critic ์ ๋ฐ์ดํธ๋ฅผ ์์ํ๋ค.
์์์ผ๋ก ๋ณด๋ฉด ์ด๋ ๋ค:
WarmStartPhase: # no parameter updates
for n in 1..N*:
rollout pi_0 on real robot
store transitions in D_online
LearningPhase: # standard SAC begins
for n in N*+1..N:
rollout pi_n
store transitions
update Q_phi using Eq.(3)
update pi every M critic steps
๋ ผ๋ฌธ ์คํ์์:
- Franka Panda: N^* = 20 ์ํผ์๋ (์ฝ 5000 transitions)
- Unitree Go1: N^* = 5 ์ํผ์๋ (์ฝ 5000 transitions)
- Race Car: N^* = 5 ์ํผ์๋ (์ฝ 1250 transitions)
์ ์ด๊ฒ ํตํ๋๊ฐ
์์คํํธ๊ฐ ํ๋ ์ผ์ ๋ณธ์ง์ ์ผ๋ก ๋ฐ์ดํฐ ๋ณด์กด์ โ๋ฏธ๋ ๋ฒ์ โ์ด๋ค. ์๋ฎฌ ๋ฐ์ดํฐ๋ฅผ ์ค๋ฌผ์ ๊ฐ์ ธ๊ฐ ์ ์๋ค๋ฉด, ์ค๋ฌผ์์ ์ฆ์ \pi_0 ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ๋ง๋ค์ด ๊ทธ๊ฒ์ ๋ป์ผ๋ก ์ฐ๋ ๊ฒ. ์ฒซ actor-critic ์ ๋ฐ์ดํธ๊ฐ ์ผ์ด๋ ๋, ์ด๋ฏธ \mathcal{D}_{\text{online}} ์์๋ ์ ์ฑ ์ด ์ ์๋ํ๋ ์์ญ์ ๋ฐ์ดํฐ๊ฐ ์๋ค. ๋ฐ๋ผ์ ์ฒซ ๊ทธ๋๋์ธํธ ์คํ ๋ถํฐ ๋ถํฌ ์ํํธ๊ฐ ํญ๋ฐ์ ์ด์ง ์๊ฒ ๋๋ค.
ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ โ Franka Panda์์๋ ์์คํํธ ์์ด๋ ์ ๋์(Figure 9)ํ๋ค. ํฝ ์ค ํ๋ ์ด์ค task์ ๋ณด์์ด ๋งค์ฐ sparseํ๊ธฐ ๋๋ฌธ์, ์๋ฐ์ ์ ์ ๋ณด ๊ฐ์น๊ฐ ์๋์ ์ผ๋ก ๋ฎ์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๋ฐ๋ฉด Unitree Go1๊ณผ Race Car๋ ์๋ฐ์ ์ด ๋น ์ง๋ฉด ํ์ต์ด ๊ฑฐ์ ์คํจํ๋ค. task ํน์ฑ์ ๋ฐ๋ผ ์ฒ๋ฐฉ์ ๊ฐ๋๊ฐ ๋ค๋ฅด๋ค๋ ์ ์ด ํฅ๋ฏธ๋กญ๋ค.
๋ฐ์ดํฐ ๋ณด์กด vs. ์์คํํธ โ ๋ฌด์์ ์ธ์ ์ธ๊น
| ์กฐ๊ฑด | ๊ถ์ฅ |
|---|---|
| ์๋ฎฌ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ดํ ์ ์๊ณ ๋ค์ด๋ด๋ฏน์ค ๊ฐญ์ด ํฌ์ง ์์ | ๋ฐ์ดํฐ ๋ณด์กด (\alpha ์ด๋๋ง) |
| ์๋ฎฌ ๋ฐ์ดํฐ๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ๊ฐญ์ด ๋งค์ฐ ํผ | ์์คํํธ |
| Sparse reward + zero-shot ์ฑ๋ฅ์ด ๋์์ง ์์ | ๋ ๋ค ํจ๊ณผ ์ฝํ ์ ์์ |
| Dense reward + ๋น ๋ฅธ ๋ค์ด๋ด๋ฏน์ค | ๋ ๋ค ์ ์ฉ ๊ถ์ฅ |
๋ ผ๋ฌธ ๋ถ๋ก์ Figure 15๋ ์๋ฎฌ ๋ฐ์ดํฐ๋ฅผ ๋ณด์กดํ์ ๋๊ฐ ์์คํํธ๋ง ์ธ ๋๋ณด๋ค ํ์ต์ด ๋ ์์ ์ ์ด๊ณ ๋น ๋ฆ์ ๋ณด์ฌ์ค๋ค. ์ฆ, ๋ฐ์ดํฐ ๋ณด์กด์ด ๊ฐ๋ฅํ๋ค๋ฉด ๊ทธ๊ฒ์ด ์ฐ์ , ๋ถ๊ฐ๋ฅํ ๋ ์์คํํธ๊ฐ ํฉ๋ฆฌ์ ์ฐจ์ ์ด๋ค.
์ฒ๋ฐฉ 3: ์กํฐ-ํฌ๋ฆฌํฑ์ ๋ฐ์๋ฅผ ๋ค๋ฅด๊ฒ (Asymmetric Updates)
์ธ ๋ฒ์งธ ์ฒ๋ฐฉ์ ๊ฐ์ฅ ๋ฏธ๋ฌํ์ง๋ง, ์คํ์ ์ผ๋ก๋ ๊ฐ์ฅ ๊ฒฐ์ ์ ์ด๋ค. ํต์ฌ ๋ฉ์์ง: ์กํฐ๋ฅผ ํฌ๋ฆฌํฑ๋ณด๋ค ํจ์ฌ ์ ๊ฒ, ๋ ์์ ํ์ต๋ฅ ๋ก ์ ๋ฐ์ดํธํ๋ผ.
Update-to-Data Ratio (UTD)์ ๊ทธ ํจ์
\eta := K/T๋ฅผ ํ transition ๋น ๊ทธ๋๋์ธํธ ์ ๋ฐ์ดํธ ํ์๋ก ์ ์ํ์. UTD๋ฅผ ๋์ด๋ฉด sample efficiency๊ฐ ์ข์์ง๋ค โ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ ๊น์ด ์ฐ๋ ค๋จน๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๊ฒ ์ค์๊ฐ ์ ์ฝ์ด ์๋ ์ค๋ฌผ ํ์ต์์ ํนํ ๋งค๋ ฅ์ ์ด๋ค. ๊ทธ๋ฐ๋ฐ ํจ์ ์ด ์๋ค: UTD๊ฐ ๋์์๋ก ์ถ์ ์ค์ฐจ๊ฐ ์ฆํญ๋๊ณ overfitting์ด ์ฌํด์ง๋ค(Nauman et al., 2024).
ํด๊ฒฐ์ฑ ์ Fujimoto et al.(2018)์ TD3์์ ์๊ฐ์ ๋ฐ์ trick์ด๋ค โ ํฌ๋ฆฌํฑ์ ๋งค ์คํ ์ ๋ฐ์ดํธํ๋, ์กํฐ๋ M ํฌ๋ฆฌํฑ ์คํ ๋ง๋ค ํ ๋ฒ์ฉ ์ ๋ฐ์ดํธํ๋ค. ๋์์ ์กํฐ์ ํ์ต๋ฅ ์ ๋ ์๊ฒ ์ก๋๋ค.
for k in 1..K:
update Q_phi using Eq.(3) with lr_critic = 3e-4
if k % M == 0:
update pi with lr_actor = 1e-5 # M=20 in paper
์ ์ด๊ฒ ํตํ๋๊ฐ โ ๋ ์๊ฐ ์ฒ๋(Two-Timescale) ์ง๊ด
์ด๊ฑด ํ๋ฅ ๊ทผ์ฌ๋ก (stochastic approximation)์์ ์ ์๋ ค์ง ์์ด๋์ด๋ค โ ๋ ๋ณ์๊ฐ ๊ฒฐํฉ๋ ๋์ญํ ์์คํ ์์, ํ ๋ณ์๊ฐ ๋ค๋ฅธ ๋ณ์๋ณด๋ค ๋๋ฆฌ๊ฒ ์์ง์ด๋ฉด ๋น ๋ฅธ ๋ณ์๋ ๋๋ฆฐ ๋ณ์๊ฐ ๊ณ ์ ๋์ด ์๋ ๊ฒ์ฒ๋ผ ํ์ต๋๋ค.
Actor-critic์ ์ ์ฉํด๋ณด์:
- ๋น ๋ฅธ ์๊ฐ ์ฒ๋(ํฌ๋ฆฌํฑ): ๋งค ์คํ ์ ๋ฐ์ดํธ. ์ ์ฑ \pi_n์ด ๊ณ ์ ๋ ์ฑ ๊ทธ ์ ์ฑ ์ ๊ฐ์น๋ฅผ ์ ํํ ํ๊ฐํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
- ๋๋ฆฐ ์๊ฐ ์ฒ๋(์กํฐ): ๋งค M ์คํ ๋ง๋ค ์ ๋ฐ์ดํธ. ๊ทธ๋์ ํฌ๋ฆฌํฑ์ ์ถฉ๋ถํ ์๋ ดํด ์์ผ๋ฏ๋ก, ์กํฐ๋ ์ ๋ขฐํ ๋งํ Q^{\pi_n}_\varphi ์์์ ์ ์ฑ ๊ฐ์ ์ ํ๋ค.
๋์นญ์ผ๋ก (์กํฐ=ํฌ๋ฆฌํฑ) ์ ๋ฐ์ดํธํ๋ฉด, ์ ์ฑ ์ด ๋งค ์คํ ๋ณํ๊ธฐ ๋๋ฌธ์ ํฌ๋ฆฌํฑ์ด ์ถ์ ํ๋ ํ๊น ์์ฒด๊ฐ ๋งค ์คํ ํ๋ค๋ฆฐ๋ค. ๊ฒฐ๊ตญ ํฌ๋ฆฌํฑ์ ์ด๋ค ์ ์ฑ ์ ๊ฐ์น๋ ์ ํํ ํ์ตํ์ง ๋ชปํ ์ฑ ์กํฐ๋ฅผ ๊ฐ์ด๋ํ๊ฒ ๋๊ณ , ์ด๋ Eq.(5)์ |\epsilon(s,a)| ํญ์ ํค์ด๋ค. ํํฅ ๋์ ์ ๋ ๋ค๋ฅธ ์ ๊ตฌ๋ค.
๋น์ ํ์๋ฉด โ ์๋ก์ด ๋์์์ ์ด์ ์ ๋ฐฐ์ด๋ค๊ณ ํ์. ์ง๋(ํฌ๋ฆฌํฑ) ๋ ์์ฃผ ์ ๋ฐ์ดํธํ๋ ๊ฒ์ด ์ข๋ค. ํ์ง๋ง ์ด์ ์คํ์ผ(์กํฐ) ์ ์ง๋๊ฐ ์ด๋ ์ ๋ ์ ํํด์ง ๋ค์์ ๋ฐ๊พธ๋ ๊ฒ ์์ ํ๋ค. ๋์ ๋์์ ๋งค ์๊ฐ ๋ฐ๊พธ๋ฉด ์ฌ๊ณ ๋๋ค.
์คํ ๊ฒฐ๊ณผ โ ๊ฐ์ฅ ๊ทน์ ์ธ ablation
๋ ผ๋ฌธ Figure 10์ด ์ด ์ฒ๋ฐฉ์ ์๋ ฅ์ ๊ฐ์ฅ ๊ทน์ ์ผ๋ก ๋ณด์ฌ์ค๋ค. ์ธ ๋ก๋ด ๋ชจ๋์์, ๋์นญ ์ ๋ฐ์ดํธ baseline์ ํ์ต ์์ฒด๊ฐ ์คํจํ๋ค โ ์ฑ๋ฅ์ด ์ ์ฒด๋๊ฑฐ๋ ์คํ๋ ค ๋จ์ด์ง๋ค. ๊ฐ์ ์ฝ๋, ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ์์ ์กํฐ ์ ๋ฐ์ดํธ ๋น๋๋ฅผ M=20์ผ๋ก ๋ฆ์ถ๊ณ ํ์ต๋ฅ ์ 3\times 10^{-4} \to 1\times 10^{-5}๋ก ์ค์ด๋ ๊ฒ๋ง์ผ๋ก ํ์ต์ด ์ ์ ๊ถค๋์ ์ค๋ฅธ๋ค.
๊ทธ๋ฆฌ๊ณ ํฅ๋ฏธ๋ก์ด ์ โ ์์คํํธ๋ฅผ ์ถ๊ฐํ๋๋ผ๋, ๋์นญ ์ ๋ฐ์ดํธ๋ ์ฌ์ ํ ์คํจํ๋ค. ์ฆ, asymmetric update๋ ๋ค๋ฅธ ์ฒ๋ฐฉ์ผ๋ก ๋์ฒด๋์ง ์๋ ๋ ๋ฆฝ์ ์ธ ์์ ํ ํจ๊ณผ๋ฅผ ๊ฐ๋๋ค.
โUTD๊ฐ ๋์ผ๋ฉด ๋น ๋ฅด๋คโ๋ ์ผ๋ฐ๋ก ์ sim-to-online์์ ํ๋ฆฌ๋ค. ์ ํํ๋ โ UTD๊ฐ ๋์ ๋ ๊ทธ๊ฒ์ ์์ ํ๊ฒ ์ํํ๋ ค๋ฉด ์กํฐ๋ฅผ ํฌ๋ฆฌํฑ๋ณด๋ค ํจ์ฌ ๋ณด์์ ์ผ๋ก ์์ง์ฌ์ผ ํ๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด sample efficiency๋ฅผ ์ป๊ธฐ๋์ปค๋ ํ์ต ์์ฒด๊ฐ ๋ง๊ฐ์ง๋ค.
๋ณด๋์ค: ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ์์ SAC ์ด๋ฆฌ๊ธฐ
์ด ๋ถ๋ถ์ ๋ถ๋ก์ ๋ฌปํ ์์ง๋ง โ Isaac Lab/MuJoCo Playground๋ฅ ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฐ๋ ์ฌ๋์๊ฒ๋ ๋ณธ๋ฌธ๋ณด๋ค ๋ ์ค์ํ ์ ์๋ ๋ํ ์ผ์ด๋ค. ์ ์ฐ๋์ฒ๋ผ IsaacGym โ Isaac Lab ๋ง์ด๊ทธ๋ ์ด์ ์ ๊ฒฝํํ ๋ถ๋ค์๊ฒ๋ ํนํ ์๋ฟ์ ๋ถ๋ถ.
โ์ SAC๋ PPO๋ณด๋ค ๋ณ๋ ฌ ์๋ฎฌ์์ ์ ์ ๋๋๊ฐโ ๋ฏธ์คํฐ๋ฆฌ
๋ณ๋ ฌ ์๋ฎฌ์์ RL์ ๋๋ฆด ๋ PPO๋ ์ ์๋ ค์ ธ ์๊ณ ์ ๋์ํ๋ค. ๋ฐ๋ฉด SAC๋ฅผ ๊ฐ์ ํ๊ฒฝ์์ ๋๋ฆฌ๋ ค๊ณ ํ๋ฉด ํํ ํ์ต์ด ์ ์ ๋๋ค. ๊ทธ๋์ ์ฌ๋๋ค ์ฌ์ด์์๋ โSAC๋ ๋ณ๋ ฌ ์๋ฎฌ์ ์ ๋ง๋๋คโ๋ ํต๋ ์ด ์๋ค โ Raffin(2025)์ ์ธ๊ธฐ ๋ธ๋ก๊ทธ ํฌ์คํธ๋ ์ด๋ฐ ์ด๋ ค์์ ์ง์ ํ๋ค.
์ด ๋ ผ๋ฌธ์ ๊ทธ๊ฒ์ด ์๊ณ ๋ฆฌ์ฆ ๋ณธ์ง์ ๋ฌธ์ ๊ฐ ์๋๋ผ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ผ์ผ๋ง์ ๋ฌธ์ ๋ผ๊ณ ๋ณธ๋ค.
ํต์ฌ ์ง๋จ: N_e๊ฐ ์ปค์ง๋ฉด \eta๋ ๊ฐ์ด ํค์์ผ ํ๋ค
CleanRL ๋ฑ ํํ SAC ๊ตฌํ์ ๋ณ๋ ฌ ํ๊ฒฝ ์์ ๋ฌด๊ดํ๊ฒ ํ ๋ฒ์ ํ๊ฒฝ ์คํ ๋น ํ ๋ฒ์ actor-critic ์ ๋ฐ์ดํธ๋ฅผ ํ๋ค. ํ๊ฒฝ์ด 10๊ฐ์ผ ๋๋ ์ ์ ํ์ง๋ง, N_e = 8192๋ก ๊ฐ๋ฉด ํ โ์คํ โ์ 8192 transitions์ด ์์์ ธ ๋ค์ด์ค๋๋ฐ ์ ๋ฐ์ดํธ๋ ์ฌ์ ํ 1๋ฒ์ด๋ค. ์ฆ ์คํจ UTD \eta = 1/N_e \to 0, ๋ฐ์ดํฐ ๋๋น ์ฌํ๊ฒ undertrain๋๋ ๊ฒ์ด๋ค.
ํด๊ฒฐ: \eta๋ฅผ N_e์ ๋น๋กํด์ ํค์๋ผ. ๋จ, ๋ฌดํ์ ํค์ธ ํ์๋ ์๋ค. ๋ ผ๋ฌธ Figure 5์ sweep ๊ฒฐ๊ณผ:
Franka Panda (Ne=512): eta in {4..128} -> saturation around eta ~= 32
Unitree Go1 (Ne=8192): eta in {4..128} -> similar saturation pattern
UTD๋ฅผ ๋ ํค์ฐ๋ฉด transition ์๋ ์ค์ด๋ค์ง๋ง wall-clock time์ ๋น๋กํด์ ๋์ด๋๋ค. ๊ทธ๋์ ์ค์ฉ์ ์ผ๋ก๋ task๋ณ๋ก saturation point๋ฅผ ์ฐพ๋ ๊ฒ ๋ต์ด๋ค.
๋๋ฉ์ธ ๋๋คํ ํ๊ฒฝ ์ N_e๋ ์ค์ํ๋ค
์ ์๋ค์ ์ถ๊ฐ๋ก ํฅ๋ฏธ๋ก์ด ablation์ ํ๋ค โ Unitree Go1์ N_e=128 vs N_e=8192๋ก ํ์ต์์ผฐ์ ๋, ์๋ฎฌ ์์์๋ ๋ ๋ค ๋น์ทํ ์ฑ๋ฅ์ด์ง๋ง ์ค๋ฌผ zero-shot์์๋ ํฐ ๊ฐญ์ด ์๊ธด๋ค(Figure 11). N_e=128 ์ ์ฑ ์ ์ค๋ฌผ์์ ํจ์ฌ ๋ถ์์ ํ๋ค.
์ด๊ฑด ๋๋ฉ์ธ ๋๋คํ์ ๋ถ์ฐ์ด ์ถฉ๋ถํ ์ปค์ผ ์ ์ฑ ์ด robustํด์ง๋ค๋ ์ ์๋ ค์ง ๊ฒฐ๊ณผ์ ์ ๋์ ํ์ธ์ด๋ค. N_e \sim 10^3์ด robust sim-to-real์ ์๊ณ์ ์ด๋ผ๋ ๊ฒ์ด ์ ์๋ค์ ๊ฒฝํ์ ๊ฒฐ๋ก ์ด๋ค.
HORA ํ๊ฒฝ์ IsaacGym โ Isaac Lab์ผ๋ก ๋ง์ด๊ทธ๋ ์ด์ ํ๋ ๊ณผ์ ์์ actuator gain์ด๋ angular_damping ๊ฐ์ ๋ํ ์ผ์ด ํ์ต ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๊พผ๋ค๋ ๊ฒ์ ์ด๋ฏธ ๊ฒฝํํ์ จ์ ๊ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ๋ํด โ off-policy ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ฐ์ํ ๊ณํ์ด ์๋ค๋ฉด \eta๋ฅผ ํ๊ฒฝ ์์ ๋ง๊ฒ ์ค์ผ์ผ๋งํ๋ ๊ฒ์ด criticalํฉ๋๋ค. ๋จ์ํ SAC ์ฝ๋๋ฅผ ๊ฐ์ ธ๋ค ์ฐ๋ฉด โSAC๊ฐ ์ ์ ๋๋คโ๋ผ๋ ์๋ชป๋ ๊ฒฐ๋ก ์ ๋๋ฌํ ์ ์์ต๋๋ค.
์คํ ์ข ํฉ: ์ธ ๋ก๋ด์ด ๋ค๋ ค์ฃผ๋ ์ด์ผ๊ธฐ
Franka Emika Panda (Manipulation, Vision-based)
์ด setup์ด ํนํ ํฅ๋ฏธ๋ก์ด ์ด์ ๋ โ ์ฌํ ๊ฐ๋ฅํ hardware stack์ ์๋์ ์ผ๋ก ๋จ์ํ๊ฒ ๊ฐ์ ธ๊ฐ๋ค๋ ์ ์ด๋ค. RealSense D455 ์นด๋ฉ๋ผ ํ๋, grayscale 64ร64 ์
๋ ฅ, end-effector pose, gripper opening. ์ด ์ ๋๋ฉด ๋๋ถ๋ถ์ ์ฐ๊ตฌ์ค์ ์ด๋ฏธ ์๋ ์ฅ๋น๋ค. ์ ์๋ค์ ์ด ์ ์ฒด stack์ ์คํ์์ค๋ก ๊ณต๊ฐํ๋ค(panda-rl-kit).
ํ์ต dynamics:
- ์๋ฎฌ ์ฌ์ ํ์ต: ๋๋ฉ์ธ ๋๋คํ (์กฐ๋ช , ์นด๋ฉ๋ผ perspective, ์์)๋ก ์ ์ฑ ์ด ํ๋ธ๋ฅผ ๋ณด๊ณ ์ ๊ทผํ๋ ๊ฒ์ ์ ํจ
- Zero-shot ์คํจ ๋ชจ๋: gripper-cube contact dynamics๊ฐ ์๋ฎฌ๊ณผ ๋ค๋ฆ + rendering gap โ ์ก๊ธฐ/๋ค์ด์ฌ๋ฆฌ๊ธฐ ์คํจ
- ์ฝ 10๋ถ์ ์ค๋ฌผ ํ์ต ํ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ (Figure 7)
ํฅ๋ฏธ๋ก์ด ์ โ vision policy์์๋ sample efficientํ๊ฒ ๋ฏธ์ธ์กฐ์ ๋๋ค. DrQ ๋ฐ์ดํฐ ์ฆ๊ฐ๊ณผ BRO ํฌ๋ฆฌํฑ ์ํคํ ์ฒ(Nauman et al., 2024)์ ์กฐํฉ์ด ํต์ฌ์ด๋ค.
Unitree Go1 (Locomotion)
Locomotion์ ๋ํ์ ์ผ๋ก sim-to-real์ด ์ ๋์ํ๋ ์์ญ์ด๋ค. ๊ทธ๋์ ์ ์๋ค์ ์๋์ ์ผ๋ก ์ด๋ ต๊ฒ ๋ง๋ ๋ค โ ์๋ฎฌ์์ ์ ํ๋ ์๋ ๋ช ๋ น ๋ฒ์๋ก๋ง ํ์ตํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ค๋ฌผ์์๋ ํ์ต๋์ง ์์ ๋ช ๋ น ์์ญ์์ zero-shot์ด ์ฝํ๋ค. ์ด๋ฅผ ์จ๋ผ์ธ finetune์ผ๋ก ๋ฉ์ด๋ค.
์คํ ๊ฒฐ๊ณผ(Figure 17)๋ ์๋ฏธ์ฌ์ฅํ๋ค. trial 0์์๋ ์ ์ฑ ์ด ์์ฃผ ๋์ด์ง์ง๋ง, trial์ด ๋์ ๋๋ฉด์ ์๋ก์ด ๋ช ๋ น ์์ญ๊น์ง robustํ๊ฒ ๋ฐ๋ผ๊ฐ๊ฒ ๋๋ค. ์๋ฎฌ์์ ๋ณด์ง ๋ชปํ ๋ถํฌ์ ๋ํ ์ ์์ sim-to-online์ผ๋ก ๋ฉ์ฐ๋ ๊น๋ํ ๋ฐ๋ชจ๋ค.
์ข ํฉ ๊ทธ๋ํ โ Zero-shot vs After Finetuning
๋ ผ๋ฌธ์ Figure 6๋ฅผ ํ ์คํธ๋ก ํํํ๋ฉด:
Sim performance Real zero-shot After finetuning
Franka Emika Panda ~1.0 ~0.5 ~1.0
Unitree Go1 ~1.0 ~0.6 ~1.0
Race Car ~1.0 ~0.4 ~1.0
^^^ ^^^
this is the gap finetune closes it
์ธ task ๋ชจ๋์์ zero-shot ๊ฐญ์ด ํฌ์ง๋ง, sim-to-online ๋ฏธ์ธ์กฐ์ ์ด ์ด๋ฅผ ๊ฑฐ์ ์๋ฒฝํ๊ฒ ๋ฉ์ด๋ค. ์ด๊ฒ ๋ ผ๋ฌธ์ ๊ทธ๋ฆผ ํ ์ฅ ์์ฝ์ด๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์ฌํ์ฑ์ ๋ํ ์ง์งํจ. 100+ํ์ ์ค๋ฌผ ํ์ต ์คํ์ RL ์ฐ๊ตฌ์์ ๋งค์ฐ ๋๋ฌผ๋ค. ์ฌ๋ฌ random seed, ์ฌ๋ฌ trial, ์ฌ๋ฌ ablation์ ์ง์ง๋ก ๋๋ ธ๋ค๋ ์ ์์ ์ ๋ขฐํ ๋งํ๋ค.
- ์ถ๊ฐ ์๊ณ ๋ฆฌ์ฆ ์์ด ๋๋ฌ. ์๋ก์ด ์์ค ํจ์, ์๋ก์ด regularizer, ์๋ก์ด representation learning ๋ชจ๋ ์์ด standard SAC๋ก ๋๋ฌํ ๊ฒ์ด ๊ฐ์ ์ด๋ค. ๋ค๋ฅธ ์ฌ๋์ด ๋ฐ๋ผ ํ๊ธฐ ์ฝ๋ค.
- Negative result์ ์ ์งํ๋ค. Sparse reward์์ ์์คํํธ ํจ๊ณผ๊ฐ ์ฝํ๋ค๋ ๊ฒ, ์กํฐ-ํฌ๋ฆฌํฑ ๋์นญ ์ ๋ฐ์ดํธ๊ฐ ๋ค๋ฅธ ์ฒ๋ฐฉ์ผ๋ก ๋ณด์๋์ง ์๋๋ค๋ ๊ฒ ๋ฑ โ ์ฒ๋ฐฉ์ ํ๊ณ๋ฅผ ๋ช ํํ ํ๋ค.
- ํ๋์จ์ด stack์ ์คํ์์คํ. ํนํ Franka ๋น์ ๊ธฐ๋ฐ RL ํ๊ฒฝ ์ ์ฒด ๊ณต๊ฐ๋ ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถ๋ ์ค์ง์ ๊ธฐ์ฌ๋ค.
- Pitfalls ์น์ ์ ์ง๊ฐ. ๋ถ๋ก F์ ํจ์ ๋ชฉ๋ก(optimizer state, target network, SAC temperature ๋ณต์ ๋ฑ)์ ์ค์ ๋ก ๋ฉฐ์น ์ ๋ ๋ ค๋ณธ ์ฌ๋๋ง ์ธ ์ ์๋ ์ข ๋ฅ์ ๋ํ ์ผ์ด๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ํผ์๋ ๊ธฐ๋ฐ ์ธํ ์ ํ๊ณ. ๋ชจ๋ ์คํ์ด ์ฌ๋์ ์๋ ๋ฆฌ์ ์ ๊ฐ์ ํ๋ค. ์ค์ธ๊ณ ์์จ ํ์ต์ ์ฑ๋ฐฐ์ธ reset-free RL์ ์ฌ์ ํ ๋ฏธํด๊ฒฐ๋ก ๋จ๋๋ค. ์ ์๋ค๋ ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ์ธ์ ํ๋ค.
- Reward ์ค๊ณ๋ ์ฌ์ ํ ์์ผ๋ก ๋ง๋ ๋ค. Vision-based pick-and-place์ progress-based dense reward๋ฅผ ์ด๋ค. ์ง์ง ์ด๋ ค์ด manipulation task์์๋ ์ด reward ์์ฒด๋ฅผ ๋ง๋๋ ๊ฒ ์ด๋ ต๋ค. ์ด ๋ ผ๋ฌธ์ด ๋ตํ์ง ์๋ ํฐ ์ง๋ฌธ์ด๋ค.
- ์ธ plant์ ๋ค์์ฑ, ๊ทธ๋ฌ๋ ํ task๋น ํ๋. ๊ฐ ๋ก๋ด๋ง๋ค task๊ฐ ํ๋์ฉ์ด๋ค. ๊ฐ์ ๋ก๋ด์์ ์ฌ๋ฌ task๋ก sample efficiency๋ฅผ ๋ ํ๊ฐํ๋ค๋ฉด ์ฒ๋ฐฉ์ ์ผ๋ฐ์ฑ์ด ๋ ๊ฐํ๊ฒ ์ ์ฆ๋์์ ๊ฒ์ด๋ค.
- Dexterous manipulation์ ๋ถ์ฌ. Allegro Hand ๊ฐ์ high-DoF ์์ด ๋ค์ด๊ฐ์ง ์์๋ค. Contact-richํ in-hand manipulation์ sim-to-real ๊ฐญ์ด ๊ฐ์ฅ ํฐ ์์ญ ์ค ํ๋์ด๊ณ , ์ด ์ฒ๋ฐฉ๋ค์ด ๊ฑฐ๊ธฐ์ ์ด๋ป๊ฒ ๋์ํ ์ง๋ ๋ณ๊ฐ์ ๋ฌธ์ ๋ค.
- Tactile/force sensing ์์. ๋ชจ๋ task๊ฐ ์๊ฐ ๋๋ proprioceptive ์ ๋ ฅ๋ง ์ด๋ค. Tactile feedback์ด ๋ค์ด๊ฐ๋ task์์ sim-to-online์ด ์ด๋ป๊ฒ ๋ณํ๋์ง๋ ๋ฏธํด๊ฒฐ.
- N= trial ์์ ํต๊ณ์ ๊ฒ์ ๋ ฅ. ๊ฐ ์คํ์ 3 seeds๋ก ๋๋ ธ๋ค๋ ๊ฒ์ RL ํ์ค์ด์ง๋ง, ๊ฐํ ํต๊ณ์ ๊ฒ์ ๋ ฅ์ ์ํด์๋ ๋ ๋ง์ seed๊ฐ ํ์ํ ์ ์๋ค. ๋ค๋ง ์ค๋ฌผ ์คํ์ ๋น์ฉ์ ์๊ฐํ๋ฉด ํฉ๋ฆฌ์ trade-off๋ค.
- Critic ์ํคํ ์ฒ ์์กด์ฑ. BRO ์ํคํ ์ฒ๊ฐ ํต์ฌ ์ฅ์น ์ค ํ๋์ธ๋ฐ, ์ด๊ฒ ์์ด vanilla MLP์์๋ ๊ฐ์ ๊ฒฐ๋ก ์ด ์ฑ๋ฆฝํ ์ง์ ๋ํ ๊น์ ๋ถ์์ ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ ์งํ๋
์ด ๋ ผ๋ฌธ์ ์์น๋ฅผ ํ ์ฅ์ ์งํ๋๋ก ๊ทธ๋ ค๋ณด์.
flowchart TB
subgraph A["Sim-to-Real (zero-shot)"]
A1["Hwangbo et al. 2019<br/>(Legged locomotion)"]
A2["Tang et al. 2023<br/>(IndustReal)"]
end
subgraph B["Online RL on Real Robots (from scratch)"]
B1["Haarnoja et al. 2018<br/>(SAC on real robot)"]
B2["Smith et al. 2022<br/>(Walk in the park)"]
end
subgraph C["Offline-to-Online RL"]
C1["Nair et al. 2020 (AWAC)"]
C2["Ball et al. 2023 (RLPD)"]
C3["Zhou et al. 2025<br/>(no offline retention)"]
end
subgraph D["Sim-to-Online (this paper)"]
D1["As et al. 2026<br/>What Matters..."]
end
A -->|"Pretrain only,<br/>no finetune"| D1
B -->|"No simulation prior"| D1
C -->|"Adapts ideas to<br/>simulated priors"| D1
style D1 fill:#fff4e6,stroke:#ff9800,stroke-width:3px
ํต์ฌ ์ฐจ๋ณ์ :
- Sim-to-Real ๋จ๋ ์ฐ๊ตฌ๋ค์ zero-shot์์ ๋ฉ์ถ๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ํ์ finetune ๋จ๊ณ๋ฅผ ์ฐ๊ตฌํ๋ค.
- From-scratch online RL(Haarnoja, Smith)๋ ์๋ฎฌ priors์ ๋์ ์์ด ์์ํ๋ค. ์์ ์ฑ + ์๊ฐ ๋น์ฉ์ด ์ด ๋ ผ๋ฌธ๋ณด๋ค ํจ์ฌ ํฌ๋ค.
- Offline-to-Online RL(AWAC, RLPD, Zhou et al.)์ prior๊ฐ ๊ณ ์ ๋ฐ์ดํฐ์ ์ด๋ค. ์๋ฎฌ๊ณผ์ ๊ด๊ณ๋ ๋ค๋ฃจ์ง ์๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ผ์ธ์ ๊ธฐ๋ฒ(๋ฐ์ดํฐ ๋ณด์กด, ์์คํํธ)์ ์๋ฎฌ prior์ ๋ง๊ฒ ๊ฐ์ ธ์จ๋ค.
- ์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์์ Yin et al. (2025, โRapidly adapting policies via simulation-guided fine-tuningโ)์ธ๋ฐ, ๊ทธ ๋ ผ๋ฌธ์ ๋ณด์์ reshapeํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ทผ์ด๋ค. ๋ฐ๋ฉด ์ด ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฑฐ์ ๊ฑด๋๋ฆฌ์ง ์๊ณ ์์คํ ๋์์ธ ๊ฒฐ์ ์ผ๋ก ๊ฐ์ ๋ฌธ์ ๋ฅผ ํผ๋ค. ๋ฉ์์ง๊ฐ ์ ๋ฐ๋ ๋ฐฉํฅ์ด๋ค โ โ๋ฌ์์ ๋ง๋ค์ง ๋ง๊ณ ๊ธฐ๋ณธ๊ธฐ๋ฅผ ์ ๋๋ก ํ์.โ
๋ํ Tirumala et al.(2024)์ โReplay across experimentsโ ์์ด๋์ด๋ฅผ ์ค๋ฌผ์์ ์ฒ์์ผ๋ก ์ ๋์ ์ผ๋ก ๊ฒ์ฆํ๋ค๋ ์ ์์ ๊ทธ ๋ผ์ธ์ ์์ฐ์ค๋ฌ์ด ํ์์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
ํ ๋ฐ์ง ๋
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ํจ์๋, sim-to-real์ด ๋์ด ์๋๋ผ ์์์ด๋ผ๋ ๊ด์ ์ด๋ค. ์ฐ๋ฆฌ๋ ์๋ฎฌ๋ ์ดํฐ์์ ์๋ฒฝํ ์ ์ฑ ์ ๋ง๋ค๋ ค๊ณ ์ ์ ๋ ์ ๋ฐํ ๋ฌผ๋ฆฌ ์์ง, ์ ์ ๋ ์ ๊ตํ ๋๋ฉ์ธ ๋๋คํ์ ํฌ์ํด์๋ค. ๊ทธ๋ฐ๋ฐ ์ด ๋ ผ๋ฌธ์ โ ์ด์ฐจํผ ๊ฐญ์ ๋จ๋๋ค, ์ฐจ๋ผ๋ฆฌ ๊ทธ๊ฒ์ ์ค๋ฌผ์์ ์งง์ ์๊ฐ ๋ด์ ๋ฉ์ฐ๋ ์ธํ๋ผ๋ฅผ ๊ฐ์ถ์ โ ๋ผ๋ ๋ค๋ฅธ ๊ด์ ์ ์ ์ํ๋ค.
์ด๋ future-proofํ ๊ด์ ์ด๋ค. ์ ์ ๋ ๋ณต์กํ task๋ก ๊ฐ์๋ก ์๋ฎฌ๋ ์ดํฐ๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋ถ์กฑํ ๊ฒ์ด๋ค(open-world ๊ฐ์ ). ๊ทธ๋ ๋ค๋ฉด robot learning์ ๋ง์ง๋ง ๋ง์ผ์ ๊ฒฐ๊ตญ ์ค๋ฌผ์์์ ํ์ต์ด ๋์ด์ผ ํ๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ง์ง๋ง ๋ง์ผ์ ์์ ํ๊ณ ๋น์ธ์ง ์๊ฒ ๋ง๋๋ ์์ง๋์ด๋ง ์ฒ๋ฐฉ์ ๋ชจ์์ด๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์ฐ์ํจ์ ์๋ค. ๊ทธ๋ฌ๋ ๊ทธ๊ฒ์ด ํต์ฌ์ด๋ค. ํ์ฅ์์ ๊บผ๋ด ์ธ ์ ์๋ โ๊ทธ๋ฅ ์๋ํ๋โ ๋ ์ํผ๊ฐ RL ์ฐ๊ตฌ์ ์ ๋ง๋ก ํ์ํ๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋น์๋ฆฌ๋ฅผ ์ ์งํ๊ณ ๊ผผ๊ผผํ๊ฒ ์ฑ์ด๋ค.
์ฐธ๊ณ
- ๋ ผ๋ฌธ: Yarden As, Dhruva Tirumala, Renรฉ Zurbrรผgg, Chenhao Li, Stelian Coros, Andreas Krause, Markus Wulfmeier. What Matters for Sim-to-Online Reinforcement Learning on Real Robots. arXiv:2602.20220, 2026.
- ์ฝ๋/ํ๋์จ์ด ์คํ: github.com/yardenas/panda-rl-kit
- ๊ด๋ จ background:
- Haarnoja et al., Soft Actor-Critic, ICML 2018
- Fujimoto et al., TD3 / Addressing function approximation error, ICML 2018
- Tirumala et al., Replay across experiments, ICLR 2024
- Zhou et al., Efficient online RL fine-tuning need not retain offline data, ICLR 2025
- Nauman et al., BRO architecture, NeurIPS 2024
- Zakka et al., MuJoCo Playground, 2025