📃Simulation to Online RL

sim2real

online-rl

simulation

What Matters for Simulation to Online Reinforcement Learning on Real Robots

Published

May 6, 2026

🤖 본 논문은 세 가지 실제 로봇 플랫폼에서 “sim-to-online” 강화 학습(RL) 설정을 경험적으로 연구하여, 시뮬레이션-현실 간의 불일치에도 불구하고 안정적이고 효율적인 정책 미세 조정을 위한 핵심 설계 선택 사항들을 식별합니다.
💡 저자들은 시뮬레이션 또는 이전 시행 데이터 유지, 웜 스타트(warm start) 사용, 그리고 비대칭적인 액터-크리틱(actor-critic) 업데이트(예: 액터 업데이트 지연)가 정책 불안정성을 완화하고 언러닝(unlearning)을 방지하는 데 중요함을 입증합니다.
🛠️ 100회 이상의 실제 로봇 훈련 실행을 통해 검증된 이러한 발견들은 실제 로봇에 온라인 RL을 적용하려는 연구자 및 실무자에게 유용한 지침을 제공하여, 엔지니어링 부담을 줄입니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

이 논문은 실제 로봇에서의 성공적인 온라인(online) 강화 학습(Reinforcement Learning, RL)을 가능하게 하는 특정 설계 선택에 대해 탐구합니다. 저자들은 세 가지 로봇 플랫폼에서 100회 이상의 실제 훈련을 수행하며, 기존 연구에서 암묵적으로 다루어졌던 알고리즘, 시스템 및 실험적 결정들을 체계적으로 분석합니다. 이 연구는 널리 사용되는 일부 기본 설정들이 해로울 수 있으며, 표준 RL 관행 내의 견고하고 쉽게 적용 가능한 설계 선택들이 작업과 하드웨어 전반에 걸쳐 안정적인 학습을 가능하게 한다는 것을 발견했습니다. 이는 그러한 설계 선택에 대한 최초의 대규모 표본 실증 연구이며, 엔지니어링 노력을 줄여 온라인 RL을 배포할 수 있도록 돕습니다.

1. 서론 (Introduction)

로봇 공학 분야에서 RL의 성공에도 불구하고, 대부분의 기존 시스템에서 학습은 시뮬레이터나 고정된 데이터셋을 사용하여 오프라인(offline)으로 이루어지며, 온라인 학습은 표준 관행과는 거리가 있습니다. 시뮬레이터는 필연적으로 불완전하며, 로봇 공학을 위한 고품질의 사전 훈련(pre-training) 실제 데이터 획득 비용은 다른 도메인에 비해 훨씬 높습니다. 이 연구는 작업이 복잡해짐에 따라 미래의 자율 로봇 시스템이 구현된 상호작용을 통해 온라인으로 학습하고, 변화하는 환경에 지속적으로 적응하며 역량을 향상시켜야 한다는 인식에서 시작되었습니다. 기존 연구들은 특정 아이디어를 좁은 실제 실험 환경에서 시연하는 데 초점을 맞추거나, ’스크래치부터 학습’과 같이 덜 현실적인 설정을 다루어 안전하지 않고 비효율적인 탐색으로 이어질 수 있습니다. 특히, 시뮬레이션에서 사전 훈련된 정책을 실제 시스템에서 미세 조정(finetuning)하는 “sim-to-online” 설정은 불안정성을 야기하고 시뮬레이션에서 학습된 정책이 ’학습 망각(unlearning)’으로 이어질 수 있음을 이 연구는 경험적으로 보여줍니다.

주요 기여 (Contributions):

오픈 소스 훈련 파이프라인 개발: MuJoCo Playground [9]에서 시뮬레이션으로 사전 훈련하고 실제 로봇에서 원활하게 온라인 훈련을 계속할 수 있는 파이프라인을 개발 및 오픈 소스화했습니다. 이는 Franka Emika Panda (조작), Unitree Go1 (이동), Race Car (내비게이션) 세 가지 로봇 플랫폼에서 유연성을 입증했습니다.
Franka Emika Panda 로봇 스택 공개: 특히 Franka Emika Panda의 경우, 하드웨어 인터페이스부터 비전 기반 정책의 실제 훈련까지 전체 로봇 스택을 오픈 소스화했습니다. 이는 ‘상용(off-the-shelf)’ 하드웨어에 의존하여 재현성을 높이고 실제 RL 연구의 진입 장벽을 낮춥니다.
안정성 문제 연구 및 완화 기법 제시: 시뮬레이션 훈련 정책을 실제 로봇으로 전이할 때 발생하는 안정성 문제를 광범위한 실제 실험을 통해 연구했습니다. 실제 실험 데이터와 시뮬레이션에서 얻은 데이터를 보존하는 것이 분포 변화(distribution shifts) 하에서 견고성을 크게 향상시킬 수 있음을 입증했습니다. 또한, 비평가(critic) 업데이트를 지연시키는 것(Fujimoto et al. [10])이 안정성을 더욱 개선할 수 있음을 보여주었습니다.
대규모 병렬 시뮬레이터에서의 효율적인 사전 훈련: 대규모 병렬 시뮬레이터에서 오프-정책(off-policy) RL 알고리즘의 효과적인 사전 훈련 기법을 경험적으로 연구하고 시연했습니다.

2. 관련 연구 (Related Work)

이전 RL 연구들은 종종 맞춤형 하드웨어 또는 독점 소프트웨어에 의존하여 재현하기 어렵고, 알고리즘 혁신에 중점을 두어 실제 로봇 시스템에 RL을 배포하는 실질적인 문제들을 체계적으로 검토하지 않았습니다. Ibarz et al. [19]는 재현성 문제를 포괄적으로 검토하며 데이터 재사용의 중요성을 지적했지만, 경험적 증거는 제시하지 않았습니다. Tirumala et al. [20]은 시뮬레이션 환경에서 데이터 재사용의 효과를 보여주었으며, 이 연구는 이를 실제 로봇으로 확장하여 높은 샘플 효율성의 중요성을 강조합니다.

3. 배경 (Background)

3.1. 문제 설정 (Problem Setting)

이 연구는 연속적인 상태 공간 \mathcal{S} \subset \mathbb{R}^{d_\mathcal{S}}과 행동 공간 \mathcal{A} \subset \mathbb{R}^{d_\mathcal{A}}을 갖는 무한 시간(infinite-horizon) 마르코프 결정 과정(Markov Decision Process, MDP)을 다룹니다. 목표는 정책 \pi^*가 다음과 같은 할인된 누적 보상(accumulated sum of discounted rewards)의 기대값을 최대화하는 것입니다: \pi^* \in \arg \max_{\pi \in \Pi} J(\pi) := \mathbb{E}_{\pi} \sum_{t=0}^{\infty} \gamma^t r(s_t, a_t) 여기서 \gamma \in [0, 1)는 할인 계수(discounting factor), \rho_0는 초기 상태 분포를 나타냅니다. 가치 함수(Value Function) V^\pi(s), 행동-가치 함수(Action-Value Function) Q^\pi(s, a), 이점 함수(Advantage Function) A^\pi(s, a)가 정의됩니다.

에피소드성 온라인 학습 (Episodic online learning):

학습은 유한한 에피소드(episode)로 진행됩니다. 각 에피소드 n에서 에이전트는 T 시간 단계 동안 정책 \pi_n을 실행한 후, 로봇은 수동으로 초기 상태 s_0 \sim \rho_0(\cdot)로 리셋됩니다. 에피소드 n의 데이터 \mathcal{D}_n := \{(s_t, a_t, s_{t+1}, r_t)\}_{t=0}^{T-1}는 ‘리플레이 버퍼(replay buffer)’ \mathcal{D}_{\le n} := \bigcup_{n'=0}^n \mathcal{D}_{n'}에 통합됩니다 [26, 27]. 이 설정은 수동 리셋을 필요로 하지만, 완전 자율 학습은 미래 연구로 남겨둡니다.

사전 지식 (Priors):

이 연구는 시뮬레이터나 고정된 오프라인 데이터셋의 형태로 사전 지식이 주어지는 설정을 다룹니다. ‘오프라인-투-온라인(offline-to-online)’ 설정에서는 데이터셋 \mathcal{D}_0에 접근하여 사전 정책 \pi_0를 학습합니다. 시뮬레이터를 사전 지식으로 간주할 때는 \mathcal{D}_0가 시뮬레이션에서 생성된 데이터를 나타냅니다. \mathcal{D}_0의 제한된 데이터 범위나 ’sim-to-real gap’으로 인해 \pi_0는 실제 시스템에서 최적의 성능을 발휘하지 못할 수 있으므로, 추가적인 실제 데이터가 필요합니다.

3.2. 온라인 전이 (Online Transfer)

샘플 효율성 (Sample efficiency):

많은 로봇 작업에서 성공적인 파이프라인은 대규모 병렬 시뮬레이터 [9, 35]와 도메인 무작위화(domain randomization) [36], 그리고 PPO [37]와 같은 모델-프리(model-free) 온-정책(on-policy) 방법을 결합합니다. 그러나 시뮬레이터는 접촉이 많은 작업이나 복잡한 장면의 비전 기반 작업을 정확하게 모델링하는 데 어려움을 겪으므로, 실제 환경에서의 적응이 필수적입니다. 온라인 훈련은 실시간 실행에 제약이 있으므로 샘플 효율성이 중요합니다. 온-정책 방법은 현재 정책에서 수집된 데이터만 사용하고 이전 경험을 버리므로, 샘플 효율성이 제한되어 실제 로봇 환경에서의 실용성이 떨어집니다.

오프-정책 학습 (Off-policy learning):

대조적으로, 오프-정책 알고리즘 [38, 8, 39, 10, 40]은 과거 데이터를 보존하고, 심지어 최적화되지 않은 하이퍼파라미터(hyperparameter)를 사용한 다른 실험의 데이터도 재사용할 수 있어 샘플 효율성에서 큰 향상을 가져옵니다. 오프-정책 알고리즘은 근사 정책 반복(approximate policy iteration) 방식으로 작동하며, 행동-가치 함수 Q^\pi_\varphi는 Bellman backup을 사용하여 학습됩니다: \ell(\varphi) := \mathbb{E}_{(s_t, a_t, s_{t+1}, r_t) \sim \mathcal{D}_{\le n}} \frac{1}{2} \left\| Q^{\pi_n}_\varphi (s_t, a_t) - y \right\|^2 여기서 y = r_t + \gamma \bar{V}^{\pi_n}(s_{t+1})이고, \bar{V}^{\pi_n}(s_{t+1}) \approx \bar{Q}^{\pi_n}(s_{t+1}, a_{t+1}), a_{t+1} \sim \pi_n(\cdot|s_{t+1})입니다. \bar{Q}^{\pi_n}는 Polyak averaging [38]을 통해 Q^{\pi_n}_\varphi의 이전 복사본을 추적하는 ’타겟 네트워크(target network)’입니다: \varphi^{\text{target}}_{k+1} = (1 - \tau) \varphi^{\text{target}}_k + \tau \varphi_k, \quad k = 0, \ldots, K 정책 개선 단계에서는 Q^{\pi_n}_\varphi에서 정책이 추출됩니다. Kakade와 Langford [44]는 N번의 탐욕적인(greedy) 정책 업데이트 후 누적 성능 향상이 다음과 같이 하한선을 가짐을 보여줍니다: J(\pi_N) - J(\pi_0) \ge \sum_{n=0}^{N-1} \mathbb{E}_{\pi_{n+1}} \left[ \sum_{t=0}^{\infty} \gamma^t \underbrace{A^{\pi_n}(s_t, a_t)}_{\text{Greedy policy improvement}} - \underbrace{2\gamma^t |\epsilon(s_t, a_t)|}_{\text{Approximation and modeling errors}} \right] 여기서 \epsilon(s, a)는 추정, 함수 근사 또는 모델 불일치로 인한 Q^{\pi_n}_\varphi의 오류를 나타냅니다.

분포 변화와 ‘하향 나선(downward spiral)’:

오프라인 또는 sim-to-online 설정에서는 분포 변화가 내재되어 있습니다. 초기 정책 \pi_0가 시뮬레이터의 동역학 p_0를 최적화하도록 훈련되었지만, 실제 환경에 배포되면 \pi_0에 따라 수집된 데이터는 Q^{\pi_n}_\varphi에 큰 오류 \epsilon(s, a)를 야기할 수 있는 (s, a)-쌍을 포함할 수 있습니다. ’sim-to-real gap’이 클 경우, 이러한 오류는 에피소드에 걸쳐 누적되어 정책 개선을 압도하고 \pi_N이 \pi_0보다 성능이 떨어지는 ’학습 망각’을 야기할 수 있습니다.

4. 배포 변화 하에서의 학습 안정화 (Stabilizing Learning Under Deployment Shifts)

이 연구는 시뮬레이션-투-온라인 배포 변화에 직면했을 때 학습을 안정화하는 세 가지 핵심 기법을 제시합니다. 오프-정책 알고리즘으로는 Soft Actor-Critic (SAC) [8]에 초점을 맞춥니다.

데이터 보존 (Data retention): Q^{\pi_n}_\varphi 업데이트 시 샘플이 추출되는 분포의 중요성을 강조합니다. 만약 \mathcal{D}_{\le n}이 큰 근사 오류를 가진 전환(transition)을 과도하게 나타내면, 업데이트는 편향될 수 있습니다. \mathcal{D}_0는 원래 \mathcal{D}_0에서 훈련되었으므로, 해당 데이터에 대한 근사 오류가 더 작습니다. 이는 \mathcal{D}_0를 안정화하는 사전 지식(prior)으로 유지하는 것을 동기 부여합니다. Tirumala et al. [20]과 Ball et al. [45]은 두 개의 버퍼(\mathcal{D}_0와 \mathcal{D}_{\text{online}} := \mathcal{D}_{\le n} \setminus \mathcal{D}_0)를 사용하여 다음과 같이 미니배치를 샘플링합니다: (s_t, a_t, s_{t+1}, r_t) \sim (1 - \alpha)\text{Unif}(\mathcal{D}_0) + \alpha\text{Unif}(\mathcal{D}_{\text{online}}), \quad \alpha \in [0, 1] 이 연구는 \alpha \to 1로 어닐링(annealing)하는 것을 확장합니다.
웜 스타트 (Warm starts): 만약 \mathcal{D}_0를 온라인 학습 중에 보존할 수 없다면 [17], 초기 정책 \pi_0를 사용하여 데이터를 수집하여 이를 근사합니다. 이 웜 스타트 수집은 오프-정책 RL에서 이미 표준적이며 [8], Zhou et al. [17]은 오프라인-투-온라인 RL에서 불안정성을 완화하는 데 중요하다고 보여주었습니다.
비대칭 업데이트 (Asymmetric updates): 오프-정책 알고리즘은 종종 ‘업데이트-투-데이터(UTD)’ 비율 \eta := K/T를 정의하는데, 이는 실제 세계 전환 당 액터(actor)와 비평가(critic)의 그래디언트 업데이트 수를 나타냅니다 [49, 50]. UTD \eta를 늘리면 샘플 효율성이 향상되지만, 근사 오류와 과적합(overfitting)을 증폭시킬 수 있습니다 [51]. 이를 완화하기 위해 액터의 학습률을 줄이고 업데이트를 덜 자주 인터리빙(interleaving)합니다 (k = M, 2M, 3M, \ldots, K 단계마다). 이 아이디어는 Fujimoto et al. [10]에 의해 소개되었으며, 높은 UTD 체제에서 학습 안정화에 도움이 됩니다. (Figure 4)

5. 실험 (Experiments)

저자들은 세 가지 실제 로봇에서 이러한 설계 선택의 효과를 평가합니다.

5.1. 시뮬레이션에서의 \pi_0 학습 (Learning \pi_0 in Simulation)

Soft Actor-Critic 확장 (Scaling Soft Actor-Critic):

대부분의 SAC 구현은 병렬 환경 단계 당 단일 액터-비평가 업데이트를 수행하여 N_e가 증가함에 따라 UTD 비율 \eta를 효과적으로 감소시킵니다. 이 연구는 대규모 병렬 시뮬레이션에서 SAC를 효과적으로 확장하는 핵심은 N_e에 비례하여 \eta를 늘리는 것임을 발견했습니다. N_e \sim 1000은 견고한 전이에 중요합니다. (Section A)

Sim-to-real gap:

Franka Emika Panda 및 Unitree Go1 로봇의 사전 정책 \pi_0는 MuJoCo Playground [9]를 사용하여 훈련되었습니다. Race Car의 동역학은 Kabzan et al. [55]의 모델을 따릅니다. (i) Franka Emika Panda 설정에서는 카메라 시점, 조명 및 시야를 무작위화하여 시각적 변화에 대한 견고성을 향상시켰습니다 (Section C). 시뮬레이션에서는 큐브를 성공적으로 감지하고 접근하지만, 실제 로봇에서는 종종 잡거나 들어 올리는 데 실패합니다. 이는 주로 그리퍼와 큐브 사이의 모델링되지 않은 접촉 동역학과 렌더링된 시각적 관찰과 실제 관찰 사이의 불일치 때문입니다. (ii) 사족보행 로봇의 경우, 시뮬레이션 중 명령된 선형 및 각속도 범위를 제한하여 제약된 사전 정책을 훈련했습니다. (iii) Race Car 환경에서는 모터 파라미터, 타이어 마찰 및 자동차 질량을 샘플링하여 sim-to-real 전이를 개선했습니다.

5.2. 실제 결과 (Real-World Results)

데이터 재활용이 학습을 가속화 (Recycling data accelerates learning):

이전 실험의 데이터를 보존하는 것이 학습 성능에 미치는 영향을 연구했습니다. 각 실험은 동일한 무작위 시드(random seed)를 공유하는 네 번의 시행으로 구성됩니다. 각 시행에서, 훈련은 \mathcal{D}_{\text{online}}에서 수집된 온라인 데이터로만 수행됩니다. 후속 시행에서는 이전 시행의 온라인 리플레이 버퍼를 \mathcal{D}_0에 로드하고 새로운 리플레이 버퍼 \mathcal{D}_{\text{online}}을 시작합니다. Figure 8은 더 많은 데이터가 보존됨에 따라 성능이 향상되는 것을 보여줍니다.

데이터 보존의 대리인으로서 웜 스타트 (Warm starts as a proxy for data retention):

\mathcal{D}_0를 로드하지 않고 \pi_0의 고정된 복사본을 사용하여 \mathcal{D}_{\text{online}}을 N^* 반복 동안 미리 채웁니다. Franka Emika Panda 및 Unitree Go1의 경우 5000번의 전환을 수집했으며, 이는 각각 N^* = 20 및 N^* = 5에 해당합니다. Race Car의 경우 1250번의 전환(N^* = 5 에피소드)을 사용했습니다. Figure 9에서 Franka Emika Panda는 웜 스타트 없이도 학습에 성공하지만, Unitree Go1과 Race Car 로봇의 경우 웜 스타트 없이는 성능이 크게 저하됨을 보여줍니다.

비대칭 업데이트가 안정성에 중요 (Asymmetric updates are critical for stability):

액터에 대한 보다 보수적인 업데이트를 채용하고 비평가 업데이트를 더 자주 인터리빙하는 것의 중요성을 분석합니다. 특히, 액터를 20번의 비평가 업데이트마다 한 번 업데이트하고 학습률을 줄였습니다 (Section F). 이를 액터를 모든 비평가 단계에서 업데이트하고 액터와 비평가를 위한 공유 학습률을 사용하는 기준선과 비교했습니다. Figure 10은 모든 로봇에서 기준선이 훈련 불안정성으로 인해 성능 향상에 실패하는 반면, 비대칭 업데이트를 사용하면 효율적인 전이가 가능함을 보여줍니다.

6. 결론 (Conclusion)

이 연구는 세 가지 로봇 플랫폼에서 시뮬레이션 훈련된 RL 사전 지식을 하드웨어에서 직접 미세 조정하는 대규모 경험적 연구를 제시합니다. 이러한 결과를 바탕으로, 온라인 RL을 RL 연구자와 실무자에게 더 쉽게 접근할 수 있도록 안내합니다. 실험 결과, 분포 변화로 인한 훈련 불안정성에도 불구하고 표준 오프-정책 알고리즘은 큰 수정 없이도 효과적으로 정책을 미세 조정할 수 있으며, 이는 희소 보상(sparse rewards)을 가진 비전 기반 작업에서도 적용됩니다. 또한, 데이터를 재사용하는 것이 더 복잡한 작업으로 효율적으로 확장할 수 있는 기회를 제공함을 강조합니다.

이러한 발견은 온라인 RL을 더 실용적으로 만드는 데 기여하지만, 동시에 몇 가지 중요한 연구 질문을 제기합니다: 오프라인 데이터 \mathcal{D}_0에서 샘플을 최적으로 선택하여 온라인 샘플 효율성을 향상시키는 방법은 무엇인가? 데이터가 다른 작업에 걸쳐 효과적으로 재사용될 수 있는 방법은 무엇인가? 더 빠른 학습을 가능하게 하는 더 나은 정규화 전략은 없는가? 마지막으로, 이 연구는 수동 리셋 및 안전을 위해 인간의 개입이 여전히 필요한 반자동 에피소드 설정에 중점을 둡니다. 완전 자율 학습을 가능하게 하는 실용적인 알고리즘 솔루션을 개발하는 것은 미래 연구를 위한 유망한 방향입니다.

부록 (Appendix)

A. 대규모 병렬 시뮬레이터에서의 오프-정책 훈련 (Off-Policy Training in Massively-Parallel Simulators)

대부분의 오프-정책 알고리즘은 단일 환경에서 순차적으로 궤적(trajectory)을 수집하는 설정에 맞게 설계되었습니다. 그러나 RL의 주요 발전은 수천 개의 시뮬레이션된 궤적을 병렬로 롤아웃(rollout)하여 훈련을 가속화하는 능력을 활용하는 것입니다. 이 성공은 주로 온-정책 알고리즘에 의존해왔습니다. 반면 오프-정책 방법은 더 샘플 효율적이지만, 병렬 시뮬레이션에서 효과적으로 확장하기 위해 미묘하지만 사소하지 않은 수정이 필요합니다 [41]. 이 연구는 SAC가 최소한의 수정으로도 효과적이며, 대규모 시뮬레이션에서 실제 세계 미세 조정으로의 통합 전이를 가능하게 함을 보여줍니다.

규모의 중요성 (Scale matters):

너무 적은 수의 도메인 무작위화된 환경 (N_e)을 사용하면 시뮬레이션에서 SAC가 보기에 좋은 정책으로 수렴하더라도 실제 로봇으로의 전이가 좋지 않음을 보여줍니다. Figure 11은 N_e=128로 훈련된 정책이 실제 환경에 배포될 때 안정성이 감소하고 보상이 현저히 낮아짐을 보여줍니다. 이는 견고한 sim-to-real 전이를 위해 대규모 도메인 무작위화된 환경 (N_e \sim 10^3)이 필수적임을 나타냅니다.

B. 추가 실험 (More Experiments)

PPO와 비교한 제로-샷 성능 (Zero-shot performance compared to PPO):

이 연구는 주로 온라인 훈련 시 샘플 효율성이 향상된 오프-정책 알고리즘에 초점을 맞춥니다. SAC를 사용한 실제 시스템에서의 제로-샷 배포 성능 저하가 알고리즘 선택 때문이 아니라 sim-to-real gap 때문임을 검증합니다. Figure 12는 PPO의 제로-샷 성능을 보여주며, 두 알고리즘 모두 sim-to-real gap으로 인해 초기 성능이 낮고, 온라인 학습을 통해 향상됨을 보여줍니다.

TD3를 사용한 Sim-to-sim (Sim-to-sim with TD3):

TD3 [10] (최신 오프-정책 RL 알고리즘)에 대한 추가 실험을 제공합니다. TD3는 기본적으로 정책 업데이트를 지연시키며 (M=2가 기본 하이퍼파라미터). Figure 13은 TD3가 SAC와 유사한 전이 동역학을 보임을 보여줍니다.

초기 혼합 \alpha (Initial mixing \alpha):

학습 안정성 및 성능에 대한 초기 \alpha 값의 영향을 평가합니다. Figure 14는 훈련 시작 시 오프라인 데이터가 사용되고, 훈련 후반에 온라인 데이터가 지배적이라면, 좋은 성능을 얻을 수 있음을 보여줍니다.

시뮬레이션 데이터 보존 (Retaining simulation data):

온라인 학습에서 시뮬레이션 중에 수집된 데이터를 보존하는 효과를 조사하고, Zhou et al. [17]의 웜 스타트 설정과 비교합니다. Figure 15는 시뮬레이션 데이터를 보존하는 것이 학습 효율성과 안정성을 모두 크게 향상시킨다는 것을 보여줍니다.

C. Franka Emika Panda

MuJoCo Playground [9]의 PandaPickCubeCartesian 작업을 기반으로 시뮬레이션 및 실제 환경을 구축합니다. 에이전트는 64x64 그레이스케일 이미지와 엔드-이펙터(end-effector) 위치 및 그리퍼 개방도를 관찰합니다. 조작 작업을 수행하며, 성공 기준은 큐브가 목표 위치로부터 0.05m 이내에 들어오는 것입니다. Figure 16은 도메인 무작위화된 환경을 보여줍니다.

D. Unitree Go1

MuJoCo Playground의 FlatTerrainGo1Joystick 환경을 사용합니다 [9]. Zakka et al. [9]와 달리, 이 연구는 시뮬레이션에서 [$$0.5, $$0.8, $$1.2]의 더 좁은 범위의 속도 명령을 사용하여 전이가 더 도전적이도록 만들었습니다. Figure 17은 개선된 안정성으로 훈련 후의 궤적을 보여줍니다.

E. Race Car

Kabzan et al. [55]의 모델을 따라 자동차 동역학을 시뮬레이션합니다. sim-to-real gap으로 인해 자동차 드리프트를 정확하게 모델링하기 어려워 자동차가 목표 위치를 지나치는 경향이 있습니다 (Figure 18). 에이전트는 차량 상태를 관찰하고 연속적인 2D 행동(조향, 스로틀)을 출력합니다. 보상은 다음과 같이 정의됩니다: r_t(s_t, a_t) := d_{t-1} - d_t + \mathbf{1}[d_t \le \epsilon] - \lambda_c \|a_t\|^2 - \lambda_l \|a_t - a_{t-1}\|^2_2 여기서 d_t = \|\mathbf{x}_t - \mathbf{x}_{\text{goal}}\|_2는 목표까지의 유클리드 거리를, \mathbf{1}[d_t \le \epsilon]은 \epsilon=0.3 미터 이내일 때의 보너스를, \lambda_c는 제어 노력에 대한 패널티를, \lambda_l은 행동 변화에 대한 패널티를 나타냅니다.

F. 구현 세부 사항 (Implementation Details)

하이퍼파라미터 (Hyperparameters):

특별히 명시되지 않는 한, 액터에 대해 10^{-5}의 학습률을 사용하고, 20번의 비평가 업데이트마다 액터를 한 번 업데이트합니다. 모든 로봇에 대해 에피소드 당 1250번의 업데이트를 사용하여 Franka Emika Panda 및 Race Car의 경우 \eta=5, Unitree Go1의 경우 \eta \approx 1이 되도록 합니다.

함정 (Pitfalls):

개발 초기 단계에서 학습 동역학 및 최종 성능에 큰 영향을 미치는 미묘한 문제들이 관찰되었습니다:

옵티마이저 상태가 복원되지 않음: 모델 가중치만 복원하고 옵티마이저 상태(모멘텀, 2차 모멘트 추정, 학습률 스케줄러 등)를 복원하지 않으면 옵티마이저 동역학이 변경되어 학습이 크게 달라질 수 있습니다.
비평가가 타겟 네트워크 없이 복원됨: Q^{\pi_n}_\varphi만 로드하고 타겟 네트워크 \bar{Q}^{\pi_n}를 로드하지 않으면 일관성 없는 타겟이 생성되어 비평가와 액터가 학습한 내용을 잊을 수 있습니다.
SAC 온도 \alpha (및 그 옵티마이저)가 복원되지 않음: 사전 훈련 중에 \alpha가 변경되므로, 그 값과 옵티마이저 상태를 복원하지 않으면 액터 및 비평가 업데이트에서 엔트로피 보너스(entropy bonus)의 스케일이 변경되어 불안정성을 초래할 수 있습니다.

동기식 업데이트 (Synchronous updates):

표준 오프-정책 알고리즘은 일반적으로 모든 실제 세계 전환 후에 액터-비평가 업데이트가 발생하도록 구현됩니다. 그러나 그래디언트 계산은 실시간 제어 주기보다 느린 경향이 있어 높은 UTD 시나리오에서는 특히 어렵습니다. 이 연구는 데이터 수집과 최적화를 분리하는 배치(batch) 방식의 비동기적, 에피소드성 학습 방식을 제안합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

들어가며: 시뮬레이터의 약속과 배신

로봇공학자라면 누구나 한 번쯤 이 장면을 경험해봤을 것이다. 시뮬레이터에서는 정책이 완벽하게 동작한다. 모든 보상 곡선이 우상향이고, 평가 영상은 깔끔하다. 자, 이제 실물 로봇에 올려보자. 첫 에피소드부터 망가진다. 더 슬픈 것은 그다음이다. “괜찮아, 온라인으로 미세조정하면 회복될 거야”라며 학습을 켜둔 채 두면 — 정책 성능이 복구되는 게 아니라 더 나빠진다. 시뮬에서 잘 배웠던 것들마저 잊어버리기 시작한다.

ETH Zürich와 Google DeepMind 팀이 2026년 2월에 공개한 이 논문(Yarden As et al.)은 바로 이 현상을 정면으로 다룬다. 저자들은 알고리즘적 묘기를 부리거나 새로운 손실함수를 제안하지 않는다. 그 대신 세 가지 로봇 플랫폼에서 100회 이상의 실물 학습 실험을 돌려, 표준적인 off-policy RL 파이프라인에서 원래 잘 알려져 있어야 했지만 암묵적으로만 전달되던 설계 결정들을 체계적으로 ablation한다. 결론은 우아하다 — 알고리즘을 새로 만들 필요 없이, 세 가지 단순한 기법(데이터 보존, 웜스타트, 비대칭 업데이트)만 제대로 적용해도 시뮬→실물 finetune은 안정적으로 동작한다.

이 글은 그 처방전을 로봇공학자의 눈높이에서 분해해본다. “왜 그렇게 해야 하는가”의 직관, 수식의 의미, 실험 결과의 함의, 그리고 — 가장 중요하게 — 내 로봇에 올릴 때 무엇을 체크해야 하는가까지.

한 줄 요약

Sim-to-online RL의 핵심 적은 “하향 나선(downward spiral)”이다. 이를 막으려면 (1) 사전 데이터를 버리지 말고, (2) 워밍업으로 분포 충격을 완화하고, (3) 액터를 크리틱보다 느리게 업데이트하라. 그게 거의 전부다.

문제 설정: “Sim-to-Online”이라는 새로운 프레임

저자들이 가장 먼저 하는 일은 용어를 정리하는 것이다. 우리가 흔히 쓰는 표현들을 한번 줄 세워보자.

용어	의미	한계
Sim-to-Real	시뮬레이터에서 학습 → 실물에 zero-shot 배포	시뮬-실물 갭이 크면 성능이 한계에 부딪힘
Offline-to-Online	고정된 실물 데이터셋으로 학습 → 실물에서 미세조정	양질의 사전 데이터 확보가 비싸다
Sim-to-Online	시뮬에서 사전학습 → 실물에서 온라인으로 계속 학습	분포 변화로 불안정 — 이 논문의 표적

세 번째가 이 논문이 정의하는 setting이다. 처음부터 실물에서 RL을 돌리는 것은 안전하지 않고 비싸다. 시뮬에서만 학습하고 끝내는 것은 한계가 명확하다. 그렇다면 시뮬에서 좋은 사전 정책 \pi_0을 만든 다음, 실물에서 그것을 이어서 학습시키는 것이 자연스러운 절충안이다. 단지, 우리가 곧 보겠지만 — 이 “이어서”가 정말 까다롭다.

실험 플랫폼 한눈에

저자들이 사용한 세 로봇은 의도적으로 서로 다른 종류의 어려움을 대표한다.

+------------------+----------------------+----------------------+----------------------+
|     Platform     |   Franka Panda       |    Unitree Go1       |     Race Car         |
+------------------+----------------------+----------------------+----------------------+
| Task             | Pick & lift cube     | Joystick locomotion  | Park at goal         |
| Observation      | 64x64 grayscale img  | proprioceptive       | 2D pose + velocity   |
|                  | + EE pose + gripper  |                      |                      |
| Action dim       | 4 (dx,dy,dz,grip)    | 12 joint positions   | 2 (steer, throttle)  |
| Control rate     | episodic / step      | high-rate locomotion | 60 Hz                |
| Sim-to-real gap  | contact + visuals    | friction             | tire/drift dynamics  |
| Why hard         | Vision-based RL      | Stable gait transfer | Fast, agile dynamics |
+------------------+----------------------+----------------------+----------------------+

세 로봇 모두에서 시뮬 사전 정책 \pi_0은 시뮬 안에서는 거의 만점을 받지만, 실물에서는 zero-shot으로 떨어뜨려보면 성능이 약 30–60% 수준으로 추락한다(논문 Figure 6 참조). 이것이 우리가 메워야 할 갭이다.

잠깐 복습: Off-policy RL의 수학적 골격

처방을 이해하려면 환자의 해부학을 알아야 한다. 이 논문은 SAC(Soft Actor-Critic)를 표준 도구로 쓰지만, 핵심 논리는 모든 actor-critic off-policy 알고리즘에 그대로 적용된다.

액션-가치 함수의 학습

크리틱은 다음 손실을 최소화하며 학습된다:

\ell(\varphi) = \mathbb{E}_{(s_t, a_t, s_{t+1}, r_t)\sim\mathcal{D}_{\le n}} \left[ \tfrac{1}{2}\Big(Q^{\pi_n}_\varphi(s_t,a_t) - y\Big)^2 \right]

타깃은 한 스텝 Bellman backup이다: y = r_t + \gamma \bar{V}^{\pi_n}(s_{t+1}). 그리고 \bar{V}는 타깃 네트워크에서 평가된다 — Polyak averaging으로 천천히 따라오는 거울 같은 존재다:

\varphi^{\text{target}}_{k+1} = (1-\tau)\varphi^{\text{target}}_k + \tau \varphi_k

직관적으로 보자. 타깃 네트워크가 없으면, 크리틱이 자신의 그림자를 쫓아가며 학습하게 된다. 마치 거울 두 개를 마주 보게 했을 때 무한 반사가 일어나듯, 추정값이 발산할 위험이 있다. \tau를 작게 잡아 타깃을 늦게 따라오게 하면, 추정 대상이 잠깐 동안 고정된 듯이 보여서 학습이 안정된다.

정책 개선과 Kakade-Langford 부등식

크리틱이 어느 정도 자리 잡으면, 액터는 그것을 최대화하도록 움직인다. Kakade와 Langford(2002)의 고전적 결과는 그리디 정책 업데이트의 누적 성능 향상에 다음 하한을 준다:

J(\pi_N) - J(\pi_0) \;\ge\; \sum_{n=0}^{N-1}\mathbb{E}_{\pi_{n+1}}\!\!\left[\sum_{t=0}^{\infty}\gamma^t\Big(\underbrace{A^{\pi_n}(s_t,a_t)}_{\text{policy improvement}} - \underbrace{2\gamma^t |\epsilon(s_t,a_t)|}_{\text{approximation error}}\Big)\right]

이 식이 이 논문 전체를 관통하는 작은 우화다. 개선의 양은 어드밴티지의 합에서 추정 오차의 합을 뺀 만큼이라는 것. 이게 양수가 되려면, 우리가 만든 어드밴티지 추정 신호가 노이즈보다 커야 한다. 그렇지 못하면 — 즉, 오차 항이 더 크면 — 학습할수록 정책이 나빠진다. 이것이 직관적으로 “하향 나선”이 발생하는 이유이다.

진단: 하향 나선(Downward Spiral)의 메커니즘

이 논문의 가장 명료한 기여 하나는, sim-to-online에서 자주 관찰되는 학습 실패를 단일한 메커니즘으로 설명한 것이다. 그림으로 그려보자.

flowchart LR
    A["배포: π_n 실행<br/>실물 데이터 수집"] --> B["오차가 큰 (s,a)들이<br/>리플레이 버퍼에 쌓임"]
    B --> C["크리틱 평가:<br/>큰 오차 영역의 Q값<br/>잘못 추정 (과대평가)"]
    C --> D["정책 개선:<br/>잘못된 Q를 최대화<br/>→ 더 위험한 영역으로 이동"]
    D --> A
    style A fill:#fff4e6
    style B fill:#ffe6e6
    style C fill:#ffe6e6
    style D fill:#ffe6e6

이 사이클을 한 번에 이해하는 비유 — 학생이 잘못된 교과서로 시험을 본다고 하자. 처음에는 약간 틀린 답을 쓴다. 그런데 그 틀린 답을 받아서 다시 그 교과서로 복습한다. 두 번째 시험에서는 더 자신 있게 더 틀린 답을 쓴다. 매 사이클마다 자신감(가치 추정)은 올라가지만, 정답(실제 가치)에서는 멀어진다. 이게 정확히 액션-가치 추정이 분포 시프트 하에서 폭주하는 모습이다.

논문은 시뮬 Race Car에서 가벼운 다이내믹스 mismatch를 인위적으로 넣고 이 현상을 직접 관측한다(Figure 3). 불안정한 실행에서는 Q^{\pi_n}_\varphi - Q^{\pi_n}_{\text{MC}} 의 분포(Monte Carlo로 측정한 진짜 가치와 비교)가 시간이 갈수록 양의 방향으로 점점 두꺼워진다 — 즉, 학습할수록 더 자신만만하게 더 과대평가한다. 안정된 실행에서는 이 분포가 0 근처에 단정하게 모여 있다.

직관 정리

하향 나선의 본질은 “분포 시프트 하에서의 가치 함수 과대평가가 정책을 더 나쁜 영역으로 밀어넣고, 그 영역의 데이터로 다시 가치 함수를 잘못 학습하는 자기강화 루프”이다. 이걸 끊는 방법은 본질적으로 두 가지뿐이다 — (a) 나쁜 데이터로 가치 함수가 휘둘리지 않게 하거나, (b) 가치 함수가 어느 정도 안정될 때까지 정책을 천천히 움직이게 하거나. 논문의 세 처방은 모두 이 두 축의 변주이다.

처방 1: 데이터를 함부로 버리지 마라 (Data Retention)

가장 단순하고 가장 효과 좋은 처방이다. 시뮬레이션에서 모은 데이터 \mathcal{D}_0를 실물 학습 시작 후에도 버리지 말고 계속 쓰자.

수식으로는 이렇게 표현된다. 두 개의 버퍼를 두고:

\mathcal{D}_0: 시뮬 사전학습 시 모은 데이터 (또는 이전 trial의 실물 데이터)
\mathcal{D}_{\text{online}}: 현재 실물에서 모으고 있는 데이터

미니배치를 다음과 같이 섞는다:

(s_t,a_t,s_{t+1},r_t) \sim (1-\alpha)\, \text{Unif}(\mathcal{D}_0) + \alpha\, \text{Unif}(\mathcal{D}_{\text{online}}), \quad \alpha\in[0,1]

저자들의 핵심 변형은 \alpha를 시간에 따라 어닐링하는 것이다. 처음에는 \alpha=0.5 정도로 시뮬 데이터를 절반씩 섞다가, 학습이 진행되면서 \alpha\to 1로 보내 결국 실물 데이터만 쓰게 한다.

왜 이게 통하는가

다시 Bellman 손실 식을 보자. 미니배치 분포가 곧 학습 신호의 가중치 분포다. 만약 \mathcal{D}_{\le n}에 오차 |\epsilon(s,a)|가 큰 transition들이 과대표될 경우, 크리틱 업데이트는 그 점들에 끌려간다. 그 결과 정책이 또 그 영역으로 가게 되면 분포 시프트가 더 커진다 — 하향 나선이다.

반대로 \mathcal{D}_0에 대해서는 크리틱이 이미 충분히 학습되어 있으므로 \epsilon이 평균적으로 작다. 즉 \mathcal{D}_0를 미니배치에 섞는 것은, 위험한 영역의 학습 신호에 “닻”을 내리는 일이다. 시뮬 데이터는 완벽한 정답은 아니지만 안정된 신호다. 안정된 신호와 부정확한 신호를 적절히 섞으면, 크리틱이 갑자기 휩쓸리지 않는다.

다만 시뮬과 실물의 다이내믹스가 다르므로 \mathcal{D}_0를 영원히 쓰면 안 된다 — 결국 진짜 시스템에서 최적화해야 한다. 그래서 어닐링이 등장한다. 초기에는 안정성, 후기에는 정확성. 마치 새로운 외국어를 배울 때 처음에는 모국어 사전을 옆에 두지만, 결국 그 언어의 화자처럼 사고해야 하는 것과 같다.

실험 결과

논문 Figure 8은 데이터 보존 효과를 깔끔하게 보여준다. 같은 random seed로 4번의 trial을 연속해서 돌리면서, 매번 이전 trial의 \mathcal{D}_{\text{online}}을 새 trial의 \mathcal{D}_0로 로드한다. 결과:

Franka Panda: trial 0에서는 픽업 실패가 잦지만, trial 3쯤 가면 거의 완벽한 성공률
Unitree Go1: trial 0에서는 자주 넘어지지만, 누적 학습으로 안정적 보행
Race Car: 처음에는 목표를 자주 놓치지만, 나중에는 빠르고 정밀하게 주차

저자들의 표현을 빌리면 — 약 10분 정도의 학습(하드웨어 리셋, 네트워크 통신 오버헤드 포함) 만에 Franka Panda는 거의 완벽한 성공률에 도달한다. 그것도, 시뮬과 실물 모두에서 sparse한 grayscale 비전 입력으로.

실무 팁

“이전 trial의 데이터를 다음 trial에서 재사용한다”는 것은 단순한 구현 디테일이 아니다. 이는 로봇 한 대로 며칠에 걸쳐 학습할 때 매번 처음부터 시작하지 않는다는 뜻이다. 만약 본인의 setup에서 trial이 끝날 때마다 리플레이 버퍼를 디스크에 dump하지 않고 있다면, 지금 당장 코드를 수정할 가치가 있다.

처방 2: 웜스타트(Warm Starts) — 임계 데이터 확보

데이터 보존이 어려운 상황도 있다. 예를 들어 시뮬 사전학습에 쓴 데이터가 너무 크거나(parallel sim에서 수억 transitions), 메모리 제약으로 디스크에 보관하기 까다로운 경우다. Zhou et al.(2025)은 offline-to-online 세팅에서 사전 데이터를 보관하지 않고도 안정적 미세조정이 가능함을 보였다. 이 논문은 그 아이디어를 sim-to-online으로 가져온다.

방법은 간단하다. 실물에 정책을 올린 직후, 학습 업데이트를 일단 멈추고 \pi_0로 N^* 에피소드를 그냥 굴린다. 이 동안 모은 데이터가 \mathcal{D}_{\text{online}}의 시드가 된다. 그 후에야 actor-critic 업데이트를 시작한다.

수식으로 보면 이렇다:

WarmStartPhase:                 # no parameter updates
    for n in 1..N*:
        rollout pi_0 on real robot
        store transitions in D_online

LearningPhase:                  # standard SAC begins
    for n in N*+1..N:
        rollout pi_n
        store transitions
        update Q_phi using Eq.(3)
        update pi every M critic steps

논문 실험에서:

Franka Panda: N^* = 20 에피소드 (약 5000 transitions)
Unitree Go1: N^* = 5 에피소드 (약 5000 transitions)
Race Car: N^* = 5 에피소드 (약 1250 transitions)

왜 이게 통하는가

웜스타트가 하는 일은 본질적으로 데이터 보존의 “미니 버전”이다. 시뮬 데이터를 실물에 가져갈 수 없다면, 실물에서 즉시 \pi_0 분포를 따르는 데이터를 빠르게 만들어 그것을 닻으로 쓰는 것. 첫 actor-critic 업데이트가 일어날 때, 이미 \mathcal{D}_{\text{online}} 안에는 정책이 잘 작동하는 영역의 데이터가 있다. 따라서 첫 그래디언트 스텝부터 분포 시프트가 폭발적이지 않게 된다.

흥미로운 결과 — Franka Panda에서는 웜스타트 없이도 잘 동작(Figure 9)한다. 픽 앤 플레이스 task의 보상이 매우 sparse하기 때문에, 워밍업의 정보 가치가 상대적으로 낮은 것으로 보인다. 반면 Unitree Go1과 Race Car는 워밍업이 빠지면 학습이 거의 실패한다. task 특성에 따라 처방의 강도가 다르다는 점이 흥미롭다.

데이터 보존 vs. 웜스타트 — 무엇을 언제 쓸까

조건	권장
시뮬 데이터를 보관할 수 있고 다이내믹스 갭이 크지 않음	데이터 보존 (\alpha 어닐링)
시뮬 데이터가 너무 크거나 갭이 매우 큼	웜스타트
Sparse reward + zero-shot 성능이 나쁘지 않음	둘 다 효과 약할 수 있음
Dense reward + 빠른 다이내믹스	둘 다 적용 권장

논문 부록의 Figure 15는 시뮬 데이터를 보존했을 때가 웜스타트만 쓸 때보다 학습이 더 안정적이고 빠름을 보여준다. 즉, 데이터 보존이 가능하다면 그것이 우선, 불가능할 때 웜스타트가 합리적 차선이다.

처방 3: 액터-크리틱의 박자를 다르게 (Asymmetric Updates)

세 번째 처방은 가장 미묘하지만, 실험적으로는 가장 결정적이다. 핵심 메시지: 액터를 크리틱보다 훨씬 적게, 더 작은 학습률로 업데이트하라.

Update-to-Data Ratio (UTD)와 그 함정

\eta := K/T를 한 transition 당 그래디언트 업데이트 횟수로 정의하자. UTD를 높이면 sample efficiency가 좋아진다 — 같은 데이터를 더 깊이 우려먹기 때문이다. 이게 실시간 제약이 있는 실물 학습에서 특히 매력적이다. 그런데 함정이 있다: UTD가 높을수록 추정 오차가 증폭되고 overfitting이 심해진다(Nauman et al., 2024).

해결책은 Fujimoto et al.(2018)의 TD3에서 영감을 받은 trick이다 — 크리틱은 매 스텝 업데이트하되, 액터는 M 크리틱 스텝마다 한 번씩 업데이트한다. 동시에 액터의 학습률은 더 작게 잡는다.

for k in 1..K:
    update Q_phi  using Eq.(3) with lr_critic = 3e-4
    if k % M == 0:
        update pi    with lr_actor = 1e-5    # M=20 in paper

왜 이게 통하는가 — 두 시간 척도(Two-Timescale) 직관

이건 확률 근사론(stochastic approximation)에서 잘 알려진 아이디어다 — 두 변수가 결합된 동역학 시스템에서, 한 변수가 다른 변수보다 느리게 움직이면 빠른 변수는 느린 변수가 고정되어 있는 것처럼 학습된다.

Actor-critic에 적용해보자:

빠른 시간 척도(크리틱): 매 스텝 업데이트. 정책 \pi_n이 고정된 채 그 정책의 가치를 정확히 평가하는 것을 목표로 한다.
느린 시간 척도(액터): 매 M 스텝마다 업데이트. 그동안 크리틱은 충분히 수렴해 있으므로, 액터는 신뢰할 만한 Q^{\pi_n}_\varphi 위에서 정책 개선을 한다.

대칭으로 (액터=크리틱) 업데이트하면, 정책이 매 스텝 변하기 때문에 크리틱이 추적하는 타깃 자체가 매 스텝 흔들린다. 결국 크리틱은 어떤 정책의 가치도 정확히 학습하지 못한 채 액터를 가이드하게 되고, 이는 Eq.(5)의 |\epsilon(s,a)| 항을 키운다. 하향 나선의 또 다른 입구다.

비유하자면 — 새로운 도시에서 운전을 배운다고 하자. 지도(크리틱) 는 자주 업데이트하는 것이 좋다. 하지만 운전 스타일(액터) 은 지도가 어느 정도 정확해진 다음에 바꾸는 게 안전하다. 둘을 동시에 매 순간 바꾸면 사고 난다.

실험 결과 — 가장 극적인 ablation

논문 Figure 10이 이 처방의 위력을 가장 극적으로 보여준다. 세 로봇 모두에서, 대칭 업데이트 baseline은 학습 자체가 실패한다 — 성능이 정체되거나 오히려 떨어진다. 같은 코드, 같은 하이퍼파라미터에서 액터 업데이트 빈도를 M=20으로 늦추고 학습률을 3\times 10^{-4} \to 1\times 10^{-5}로 줄이는 것만으로 학습이 정상 궤도에 오른다.

그리고 흥미로운 점 — 웜스타트를 추가하더라도, 대칭 업데이트는 여전히 실패한다. 즉, asymmetric update는 다른 처방으로 대체되지 않는 독립적인 안정화 효과를 갖는다.

핵심 포인트

“UTD가 높으면 빠르다”는 일반론은 sim-to-online에서 틀리다. 정확히는 — UTD가 높을 때 그것을 안전하게 수확하려면 액터를 크리틱보다 훨씬 보수적으로 움직여야 한다. 그렇지 않으면 sample efficiency를 얻기는커녕 학습 자체가 망가진다.

보너스: 대규모 병렬 시뮬레이터에서 SAC 살리기

이 부분은 부록에 묻혀 있지만 — Isaac Lab/MuJoCo Playground류 대규모 병렬 시뮬레이터를 쓰는 사람에게는 본문보다 더 중요할 수 있는 디테일이다. 정연님처럼 IsaacGym → Isaac Lab 마이그레이션을 경험한 분들에게는 특히 와닿을 부분.

“왜 SAC는 PPO보다 병렬 시뮬에서 잘 안 되는가” 미스터리

병렬 시뮬에서 RL을 돌릴 때 PPO는 잘 알려져 있고 잘 동작한다. 반면 SAC를 같은 환경에서 돌리려고 하면 흔히 학습이 잘 안 된다. 그래서 사람들 사이에서는 “SAC는 병렬 시뮬에 안 맞는다”는 통념이 있다 — Raffin(2025)의 인기 블로그 포스트도 이런 어려움을 지적했다.

이 논문은 그것이 알고리즘 본질의 문제가 아니라 하이퍼파라미터 스케일링의 문제라고 본다.

핵심 진단: N_e가 커지면 \eta도 같이 키워야 한다

CleanRL 등 흔한 SAC 구현은 병렬 환경 수와 무관하게 한 번의 환경 스텝당 한 번의 actor-critic 업데이트를 한다. 환경이 10개일 때는 적절하지만, N_e = 8192로 가면 한 “스텝”에 8192 transitions이 쏟아져 들어오는데 업데이트는 여전히 1번이다. 즉 실효 UTD \eta = 1/N_e \to 0, 데이터 대비 심하게 undertrain되는 것이다.

해결: \eta를 N_e에 비례해서 키워라. 단, 무한정 키울 필요는 없다. 논문 Figure 5의 sweep 결과:

Franka Panda (Ne=512):   eta in {4..128}   ->  saturation around eta ~= 32
Unitree Go1 (Ne=8192):   eta in {4..128}   ->  similar saturation pattern

UTD를 더 키우면 transition 수는 줄어들지만 wall-clock time은 비례해서 늘어난다. 그래서 실용적으로는 task별로 saturation point를 찾는 게 답이다.

도메인 랜덤화 환경 수 N_e도 중요하다

저자들은 추가로 흥미로운 ablation을 한다 — Unitree Go1을 N_e=128 vs N_e=8192로 학습시켰을 때, 시뮬 안에서는 둘 다 비슷한 성능이지만 실물 zero-shot에서는 큰 갭이 생긴다(Figure 11). N_e=128 정책은 실물에서 훨씬 불안정하다.

이건 도메인 랜덤화의 분산이 충분히 커야 정책이 robust해진다는 잘 알려진 결과의 정량적 확인이다. N_e \sim 10^3이 robust sim-to-real의 임계점이라는 것이 저자들의 경험적 결론이다.

정연님께 특히 관련 있는 포인트

HORA 환경을 IsaacGym → Isaac Lab으로 마이그레이션하는 과정에서 actuator gain이나 angular_damping 같은 디테일이 학습 결과를 바꾼다는 것은 이미 경험하셨을 것입니다. 여기에 더해 — off-policy 알고리즘으로 갈아탈 계획이 있다면 \eta를 환경 수에 맞게 스케일링하는 것이 critical합니다. 단순히 SAC 코드를 가져다 쓰면 “SAC가 잘 안 되네”라는 잘못된 결론에 도달할 수 있습니다.

실험 종합: 세 로봇이 들려주는 이야기

Franka Emika Panda (Manipulation, Vision-based)

이 setup이 특히 흥미로운 이유는 — 재현 가능한 hardware stack을 의도적으로 단순하게 가져갔다는 점이다. RealSense D455 카메라 하나, grayscale 64×64 입력, end-effector pose, gripper opening. 이 정도면 대부분의 연구실에 이미 있는 장비다. 저자들은 이 전체 stack을 오픈소스로 공개했다(panda-rl-kit).

학습 dynamics:

시뮬 사전학습: 도메인 랜덤화 (조명, 카메라 perspective, 색상)로 정책이 큐브를 보고 접근하는 것은 잘 함
Zero-shot 실패 모드: gripper-cube contact dynamics가 시뮬과 다름 + rendering gap → 잡기/들어올리기 실패
약 10분의 실물 학습 후 거의 완벽한 성공률 (Figure 7)

흥미로운 점 — vision policy임에도 sample efficient하게 미세조정된다. DrQ 데이터 증강과 BRO 크리틱 아키텍처(Nauman et al., 2024)의 조합이 핵심이다.

Unitree Go1 (Locomotion)

Locomotion은 대표적으로 sim-to-real이 잘 동작하는 영역이다. 그래서 저자들은 의도적으로 어렵게 만든다 — 시뮬에서 제한된 속도 명령 범위로만 학습한다. 그 결과 실물에서는 학습되지 않은 명령 영역에서 zero-shot이 약하다. 이를 온라인 finetune으로 메운다.

실험 결과(Figure 17)는 의미심장하다. trial 0에서는 정책이 자주 넘어지지만, trial이 누적되면서 새로운 명령 영역까지 robust하게 따라가게 된다. 시뮬에서 보지 못한 분포에 대한 적응을 sim-to-online으로 메우는 깔끔한 데모다.

Race Car (Navigation, Fast Dynamics)

이게 아마 가장 야심찬 실험이다. 60Hz 제어, 타이어 마찰과 drift가 핵심인 system, kinematic bicycle 모델 기반 시뮬. 저자들은 이 시뮬-실물 갭을 의도적으로 크게 가져간다 — semi-kinematic bicycle에서 사전학습 후, 더 정확한 (마찰 모델 포함) 다이내믹스에서 finetune.

zero-shot 실패 모드가 직관적이다 — 차량이 목표 지점을 오버슈팅한다. 사전 정책은 시뮬 다이내믹스 기준으로 최적이지만, 실물의 더 큰 관성 + 미끄러짐을 반영하지 못한다. 약 20 trial의 finetune 후 거의 정확한 주차에 도달한다(Figure 18).

이 task는 빠른 다이내믹스 + sparse reward + 큰 sim-to-real 갭의 조합으로, 세 처방이 모두 critical함을 보여주는 stress test에 가깝다.

종합 그래프 — Zero-shot vs After Finetuning

논문의 Figure 6를 텍스트로 표현하면:

                         Sim performance     Real zero-shot      After finetuning
Franka Emika Panda            ~1.0              ~0.5                ~1.0
Unitree Go1                   ~1.0              ~0.6                ~1.0
Race Car                      ~1.0              ~0.4                ~1.0
                                                  ^^^                  ^^^
                                              this is the gap     finetune closes it

세 task 모두에서 zero-shot 갭이 크지만, sim-to-online 미세조정이 이를 거의 완벽하게 메운다. 이게 논문의 그림 한 장 요약이다.

비판적 고찰

강점

재현성에 대한 진지함. 100+회의 실물 학습 실험은 RL 연구에서 매우 드물다. 여러 random seed, 여러 trial, 여러 ablation을 진짜로 돌렸다는 점에서 신뢰할 만하다.
추가 알고리즘 없이 도달. 새로운 손실 함수, 새로운 regularizer, 새로운 representation learning 모듈 없이 standard SAC로 도달한 것이 강점이다. 다른 사람이 따라 하기 쉽다.
Negative result에 정직하다. Sparse reward에서 웜스타트 효과가 약하다는 것, 액터-크리틱 대칭 업데이트가 다른 처방으로 보완되지 않는다는 것 등 — 처방의 한계를 명확히 한다.
하드웨어 stack의 오픈소스화. 특히 Franka 비전 기반 RL 환경 전체 공개는 진입 장벽을 낮추는 실질적 기여다.
Pitfalls 섹션의 진가. 부록 F의 함정 목록(optimizer state, target network, SAC temperature 복원 등)은 실제로 며칠을 날려본 사람만 쓸 수 있는 종류의 디테일이다.

약점과 한계

에피소드 기반 세팅의 한계. 모든 실험이 사람의 수동 리셋을 가정한다. 실세계 자율 학습의 성배인 reset-free RL은 여전히 미해결로 남는다. 저자들도 이를 명시적으로 인정한다.
Reward 설계는 여전히 손으로 만든다. Vision-based pick-and-place에 progress-based dense reward를 쓴다. 진짜 어려운 manipulation task에서는 이 reward 자체를 만드는 게 어렵다. 이 논문이 답하지 않는 큰 질문이다.
세 plant의 다양성, 그러나 한 task당 하나. 각 로봇마다 task가 하나씩이다. 같은 로봇에서 여러 task로 sample efficiency를 더 평가했다면 처방의 일반성이 더 강하게 입증되었을 것이다.
Dexterous manipulation의 부재. Allegro Hand 같은 high-DoF 손이 들어가지 않았다. Contact-rich한 in-hand manipulation은 sim-to-real 갭이 가장 큰 영역 중 하나이고, 이 처방들이 거기서 어떻게 동작할지는 별개의 문제다.
Tactile/force sensing 없음. 모든 task가 시각 또는 proprioceptive 입력만 쓴다. Tactile feedback이 들어가는 task에서 sim-to-online이 어떻게 변하는지는 미해결.
N= trial 수의 통계적 검정력. 각 실험을 3 seeds로 돌렸다는 것은 RL 표준이지만, 강한 통계적 검정력을 위해서는 더 많은 seed가 필요할 수 있다. 다만 실물 실험의 비용을 생각하면 합리적 trade-off다.
Critic 아키텍처 의존성. BRO 아키텍처가 핵심 장치 중 하나인데, 이것 없이 vanilla MLP에서도 같은 결론이 성립할지에 대한 깊은 분석은 없다.

참고

논문: Yarden As, Dhruva Tirumala, René Zurbrügg, Chenhao Li, Stelian Coros, Andreas Krause, Markus Wulfmeier. What Matters for Sim-to-Online Reinforcement Learning on Real Robots. arXiv:2602.20220, 2026.
코드/하드웨어 스택: github.com/yardenas/panda-rl-kit
관련 background:
- Haarnoja et al., Soft Actor-Critic, ICML 2018
- Fujimoto et al., TD3 / Addressing function approximation error, ICML 2018
- Tirumala et al., Replay across experiments, ICLR 2024
- Zhou et al., Efficient online RL fine-tuning need not retain offline data, ICLR 2025
- Nauman et al., BRO architecture, NeurIPS 2024
- Zakka et al., MuJoCo Playground, 2025

📃Simulation to Online RL

🔍 Ping Review

🔔 Ring Review

들어가며: 시뮬레이터의 약속과 배신

문제 설정: “Sim-to-Online”이라는 새로운 프레임

실험 플랫폼 한눈에

잠깐 복습: Off-policy RL의 수학적 골격

액션-가치 함수의 학습

정책 개선과 Kakade-Langford 부등식

진단: 하향 나선(Downward Spiral)의 메커니즘

처방 1: 데이터를 함부로 버리지 마라 (Data Retention)

왜 이게 통하는가

실험 결과

처방 2: 웜스타트(Warm Starts) — 임계 데이터 확보

왜 이게 통하는가

데이터 보존 vs. 웜스타트 — 무엇을 언제 쓸까

처방 3: 액터-크리틱의 박자를 다르게 (Asymmetric Updates)

Update-to-Data Ratio (UTD)와 그 함정

왜 이게 통하는가 — 두 시간 척도(Two-Timescale) 직관

실험 결과 — 가장 극적인 ablation

보너스: 대규모 병렬 시뮬레이터에서 SAC 살리기

“왜 SAC는 PPO보다 병렬 시뮬에서 잘 안 되는가” 미스터리

핵심 진단: N_e가 커지면 \eta도 같이 키워야 한다

도메인 랜덤화 환경 수 N_e도 중요하다

실험 종합: 세 로봇이 들려주는 이야기

Franka Emika Panda (Manipulation, Vision-based)

Unitree Go1 (Locomotion)

Race Car (Navigation, Fast Dynamics)

종합 그래프 — Zero-shot vs After Finetuning

비판적 고찰

강점

약점과 한계

관련 연구 지형도

한 발짝 더

참고