📝AACD vs RMA: 고차원 정책 학습의 두 가지 전략

dexterity

sim-to-real

Asymmetric Actor-Critic Distillation과 Rapid Motor Adaptation의 심층 비교

Published

March 18, 2026

들어가며

로봇 학습, 특히 접촉이 많은(contact-rich) 조작(manipulation) 에서는 두 가지 핵심 난제가 공존한다.

관측 공간의 고차원성: tactile 이미지나 RGB 카메라 이미지를 기반으로 정책을 학습시키면, 탐색(exploration)이 극도로 어려워진다.
Sim-to-real 갭: 시뮬레이터의 물리 파라미터와 현실의 동역학 차이를 어떻게 메꿀 것인가.

이 두 문제에 대응하는 방법론 중 최근 주목받는 두 흐름이 있다.

RMA (Rapid Motor Adaptation): 히스토리 기반 컨텍스트 추정으로 배포(deployment) 중 빠르게 적응
AACD (Asymmetric Actor-Critic Distillation): 저차원 특권 정보(privileged state)로 학습한 critic을 재사용해 학습 단계를 안정화·가속화

이 글에서는 두 기법의 핵심 아이디어, 수식적 차이, 실무적 선택 기준, 그리고 결합 가능성까지 Feynman식으로 직관을 잃지 않으면서 엄밀하게 비교한다.

각 기법의 한 문장 요약

RMA — 빠른 온라인 적응

“과거 경험 히스토리 h_t로부터 환경 동역학의 잠재 컨텍스트 z_t를 추정하고, 이에 조건화된 정책 \pi(a \mid s, z)를 실시간으로 구동한다.”

z_t = E_\psi(h_t), \qquad a_t \sim \pi_\theta(a \mid s_t, z_t)

여기서:

기호	의미
h_t = (s_{t-k:t},\, a_{t-k:t-1},\, r_{t-k:t-1})	과거 k 스텝의 상태–행동–보상 히스토리
E_\psi	히스토리로부터 잠재 컨텍스트를 추출하는 적응 인코더
z_t \in \mathbb{R}^d	환경 동역학(마찰, 질량, 탄성 등)을 압축한 잠재 벡터
\pi_\theta(a \mid s_t, z_t)	컨텍스트에 조건화된 정책

학습은 두 단계로 이루어진다.

Phase 1 (Base Policy): 시뮬레이터에서 도메인 랜덤화와 함께 \pi_\theta(a \mid s_t, z_t^*) 를 학습. 이때 z_t^*는 시뮬레이터에서 직접 읽어온 진짜 환경 파라미터.
Phase 2 (Adaptation Module): 실제 배포 상황에서는 z_t^*를 모르므로, 히스토리 h_t에서 z_t를 추정하는 인코더 E_\psi를 별도로 학습.

배포(inference) 시에는 E_\psi가 실시간으로 z_t를 갱신하며, 정책은 새 환경에 즉각 적응한다.

AACD — 비대칭 Actor-Critic 증류

“1단계에서 저차원 특권 상태 s로 actor와 critic을 RL로 학습하고, 2단계에서 고차원 관측 o(예: tactile 이미지)를 입력으로 하는 학생 actor를 학습시킬 때 pretrained low-dim critic을 가치 추정에 재사용해 on-policy RL을 안정화·가속화한다.”

1단계 (Privileged RL):

\max_{\theta_s,\, \phi_s} \; \mathbb{E}_{\pi_{\theta_s}}\!\left[\sum_t \gamma^t r_t\right], \quad \text{where } a_t \sim \pi_{\theta_s}(a \mid s_t), \quad V_{\phi_s}(s_t) \approx V^\pi(s_t)

2단계 (High-dim Student RL with Pretrained Critic):

\max_{\theta_o} \; \mathbb{E}_{\pi_{\theta_o}}\!\left[\sum_t \gamma^t r_t\right], \quad a_t \sim \pi_{\theta_o}(a \mid o_t), \quad \hat{V}(s_t) = V_{\phi_s}(s_t) \;\text{(pretrained, fixed or fine-tuned)}

핵심은 “actor와 critic이 서로 다른 관측 공간을 쓴다” 는 비대칭성(asymmetry)에 있다.

	관측 입력	역할
1단계 Actor \pi_{\theta_s}	s (저차원, privileged)	RL로 보상 최대화
1단계 Critic V_{\phi_s}	s (저차원, privileged)	가치 추정 학습
2단계 Actor \pi_{\theta_o}	o (고차원, tactile image 등)	RL로 보상 최대화
2단계 Critic	s (저차원)	1단계에서 pretrain된 채로 재사용

직관: 1단계 critic은 저차원 공간에서 “보상 landscape”를 충분히 배웠다. 고차원 actor가 이미지로 탐색할 때 이 critic이 가이드를 제공하므로, 처음부터 이미지로 value function을 학습하는 것보다 훨씬 빠르고 안정적이다.

핵심 차이점 항목별 비교

목적과 문제 설정

	RMA	AACD
핵심 질문	배포 중 환경 변화에 어떻게 적응할 것인가?	고차원 관측으로 RL을 어떻게 안정화할 것인가?
해결하는 병목	Sim-to-real 동역학 갭 (운영 중)	이미지 기반 RL의 탐색 불안정성
주요 타깃 태스크	다양한 마찰/하중이 있는 로코모션/조작	Contact-rich, tactile-intensive 조작

적응 메커니즘 — “언제 적응하는가”

이것이 두 기법 간 가장 근본적인 차이다.

RMA: 배포 중(online)에 E(h) → z → π(a|s,z) 로 실시간 적응
AACD: 학습 중(offline)에 pretrained critic으로 student를 가이드
       → 배포 시에는 student actor만 실행 (추가 연산 없음)

RMA는 배포 후에도 계속 적응하므로, 테스트 타임에서의 동역학 변화(예: 마찰 계수가 갑자기 바뀜)에 실시간으로 반응할 수 있다. 반면 AACD는 학습 효율을 극대화해 강건한 정책을 만들지만, 배포 시 새 환경 변화에 대한 추가 적응 메커니즘이 없다.

학습 신호와 목적 함수

RMA의 목적 함수:

Phase 1에서는 privileged z^*와 함께 RL:

\mathcal{L}_{\text{base}} = -\mathbb{E}_\pi\!\left[\sum_t \gamma^t r_t \;\Big|\; z_t = z_t^*\right]

Phase 2에서는 adaptation encoder 학습 (regression):

\mathcal{L}_{\text{adapt}} = \mathbb{E}_{h_t}\!\left[\left\| E_\psi(h_t) - z_t^* \right\|^2\right]

즉 Phase 2는 supervised regression — 히스토리로부터 privileged 정보를 “모방”하는 것이다.

AACD의 목적 함수 (PPO 기반):

2단계 학생 actor의 PPO 클리핑 목적 함수:

\mathcal{L}^{\text{CLIP}}(\theta_o) = \mathbb{E}_t\!\left[\min\!\left(r_t(\theta_o)\hat{A}_t,\; \text{clip}(r_t(\theta_o), 1-\varepsilon, 1+\varepsilon)\hat{A}_t\right)\right]

여기서 어드밴티지 \hat{A}_t는 pretrained critic V_{\phi_s}(s_t)를 이용해 계산:

\hat{A}_t = \sum_{l=0}^{T} (\gamma\lambda)^l \delta_{t+l}^V, \qquad \delta_t^V = r_t + \gamma V_{\phi_s}(s_{t+1}) - V_{\phi_s}(s_t)

student는 보상을 직접 최적화하되, 어드밴티지 추정에 pretrained critic을 쓴다. 이것이 일반적인 teacher-student(BC, DAgger)와의 결정적 차이다.

핵심 직관: “행동”을 모방 vs “가치”를 활용

BC/DAgger (일반 증류): teacher의 행동(action)을 레이블로 사용 → supervised loss
AACD: teacher가 학습한 critic(가치함수)을 학생의 RL update에 재사용 → student는 여전히 보상을 최적화

학생이 보상을 직접 최적화하므로 이론적으로 teacher를 초월하는 정책 발견이 가능하다.

Privileged Information 사용 방식

	RMA	AACD
사용 시점	학습 Phase 1에서 z^* 참조 (시뮬레이터 직접 읽기)	학습 Phase 1 전체 (critic + actor 학습)
형태	물리 파라미터 벡터 (마찰, 질량, 탄성 등)	완전한 저차원 상태 벡터 s (관절각, 접촉력 등)
배포 시	히스토리 h로 추정 (z^* 불필요)	불필요 (actor만 실행)

탐색(Exploration)과 샘플 효율성

graph LR
    A["고차원 RL\n(이미지 직접)"] -->|"탐색 폭발"| B["샘플 비효율\n학습 불안정"]
    C["AACD\n(pretrained critic)"] -->|"가치 landscape\n사전 제공"| D["안정적 탐색\n샘플 효율 ↑"]
    E["RMA\n(online adaptation)"] -->|"컨텍스트 z 추정"| F["배포 중 빠른\n적응 가능"]

AACD의 pretrained critic은 이미 보상 landscape를 저차원에서 학습해두었다. 따라서 2단계에서 이미지 기반 actor가 탐색할 때, value function이 제대로 된 피드백을 제공해 초기 수렴을 크게 가속한다 (논문 Fig.10 참조).

RMA는 도메인 랜덤화로 다양한 환경을 커버하는 정책을 학습하지만, 고차원 이미지를 직접 다룰 경우 value function 학습 자체가 어려워 샘플 비효율 문제가 남을 수 있다.

안전성 (접촉력 제어)

로봇 조작에서 과도한 접촉력(force)은 기물 파손이나 하드웨어 손상으로 이어진다.

AACD의 안전성 메커니즘:

1단계에서 critic이 접촉력 패널티를 포함한 보상으로 학습된 경우:

r_t = r_{\text{task}} - \lambda_f \cdot \|f_{\text{contact}}\|^2 - \cdots

2단계에서 이 critic이 어드밴티지를 계산하므로, 학생 actor의 업데이트에 자동으로 “접촉력을 줄이는 방향”이 반영된다. 별도의 constraint 없이도 암묵적으로 안전한 행동이 촉진된다.

RMA의 안전성 이슈:

온라인 적응 초기 단계에서, 새 환경에 대한 컨텍스트 z_t 추정이 불안정할 경우 과도한 접촉이 발생할 수 있다. 별도의 안전 제약(예: 힘 한계 클리핑)이 필요하다.

학생이 교사를 초월할 수 있는가

	RMA	AACD
교사 초월 가능성	어느 정도 가능 (Phase 1 policy 범위 내)	가능 (RL objective 직접 최적화)
제한 조건	privileged z^*의 표현력 한계	critic이 freeze된 경우 일부 제한
논문 근거	—	unfrozen critic일 때 최종 성능 더 높음

BC 기반 teacher-student에서 학생은 교사 행동을 모방하므로 교사 성능의 상한에 묶인다. AACD는 학생이 RL로 보상을 직접 최적화하므로 상한이 없다 (단, pretrained critic이 freeze되면 value 추정의 편향이 생길 수 있음).

구현 복잡도 및 배포 비용

항목	RMA	AACD
학습 파이프라인	Phase 1 (RL) + Phase 2 (supervised regression)	Phase 1 (RL, low-dim) + Phase 2 (RL, high-dim)
추가 구성 요소	히스토리 버퍼, context encoder E_\psi	Pretrained critic 저장/로딩, asymmetric actor-critic 인터페이스
배포 시 추가 연산	E_\psi(h_t) 실시간 추론 (매 스텝)	없음 (actor만 실행)
edge device 친화성	인코더 추론 비용 있음	✅ 유리

직관적 비유로 이해하기

비유: 처음 요리를 배우는 두 사람

RMA 방식: 요리를 배울 때 선생님이 먼저 레시피를 가르쳐 주고, 실제 요리(현장)에서는 재료나 도구가 달라질 때마다 스스로 그 상황에 맞게 조리법을 실시간 조정한다. 현장 적응이 핵심.

AACD 방식: 기초 요리(저차원: 맛·식감 정보만 있는 단순 환경)를 완전히 익힌 선생님이 “이 요리는 어느 정도 화력이면 좋다”는 가치 판단(V)을 전달한다. 학생은 실제 복잡한 주방(고차원 이미지)에서 요리를 새로 배우지만, 선생님의 가치 판단을 나침반으로 삼아 훨씬 빠르게 습득한다. 학습 효율이 핵심.

실무 선택 가이드

실제로 어떤 기법을 선택해야 할까? 다음 의사결정 트리를 참고하라.

graph TD
    Q1{"배포 중 환경 동역학\n변화가 잦은가?"}
    Q1 -->|Yes| Q2{"실시간 적응이\n필수인가?"}
    Q1 -->|No| Q3{"관측이 고차원\n(이미지/tactile)인가?"}
    Q2 -->|Yes| RMA["✅ RMA 선택\n(online adaptation)"]
    Q2 -->|No| BOTH["🔀 AACD로 학습 후\nRMA 모듈 추가 고려"]
    Q3 -->|Yes| Q4{"접촉 안전성이\n중요한가?"}
    Q3 -->|No| STD["표준 PPO/SAC\n(RL)"]
    Q4 -->|Yes| AACD["✅ AACD 선택\n(안전 + 고차원 학습)"]
    Q4 -->|No| AACD2["AACD 또는\nDAgger 고려"]

상황	추천 기법	이유
마찰/하중이 자주 바뀌는 이동 로봇	RMA	배포 중 동역학 추정 필수
Tactile image 기반 peg insertion	AACD	고차원 탐색 안정화 필요
제로샷 sim-to-real 전이	AACD	physics randomization + critic으로 robust 학습
적응 속도와 학습 효율 둘 다 필요	AACD + RMA 하이브리드	아래 참고

결합 및 확장 아이디어

두 기법은 상호 보완적이다. 결합하면 각각의 약점을 보완할 수 있다.

아이디어 1: AACD + RMA 하이브리드

AACD로 학습한 robust한 이미지 기반 actor에, RMA의 context encoder를 추가한다:

\pi_{\text{hybrid}}(a \mid o_t, z_t), \quad z_t = E_\psi(h_t)

이를 통해: - 학습 안정성 (AACD의 pretrained critic) - 배포 적응성 (RMA의 online context adaptation)

을 동시에 얻을 수 있다.

연구 질문

pretrained critic V_{\phi_s}(s)와 online-inferred context z_t 를 동시에 사용할 때 업데이트 충돌이 발생하는가? critic이 고정된 저차원 상태 공간 s를 기반으로 학습되었기 때문에, z_t가 추가된 정책의 상태 분포가 달라지면 value function mismatch가 생길 수 있다.

아이디어 2: Critic-조건부 적응 (Multi-critic RMA)

여러 물리 조건에 대해 각각의 critic \{V_{\phi_i}\}를 학습하고, RMA의 z_t에 따라 적절한 critic을 선택·가중합한다:

\hat{V}(s_t) = \sum_i w_i(z_t) \cdot V_{\phi_i}(s_t), \quad w_i(z_t) = \text{softmax}(f(z_t))_i

환경 유형에 맞는 value function을 동적으로 선택함으로써 더 빠른 적응이 기대된다.

아이디어 3: 안전한 적응 (Safe AACD-RMA)

RMA의 초기 적응 단계(컨텍스트 추정이 불안정)에서, AACD critic이 제공하는 안전 행동 구역으로 탐색을 제한한다:

a_t \in \arg\max_a \pi(a \mid o_t, z_t) \quad \text{s.t.} \quad V_{\phi_s}(s_t) \geq V_{\text{safe}}

초기 적응 과정에서의 과도한 접촉력을 방지하는 데 효과적일 것으로 예상된다.

아이디어 4: Tactile-only RMA

RMA는 지금까지 주로 proprioception/IMU 기반에 활용되었다. Tactile image 히스토리로부터 접촉 파라미터 변화를 추정하는 컨텍스트 인코더를 학습하면:

z_t = E_\psi(o_{t-k:t}^{\text{tactile}})

물체-접촉 특성 변화(예: 표면 경도, 슬립 정도)에 실시간으로 적응하는 것이 가능해진다.

아이디어 5: Ensemble Critic + 불확실성 활용

Pretrained critic의 불확실도를 앙상블로 모델링하고, 불확실성이 높은 상태에서는 RMA의 적응 모듈을 더 적극적으로 활용한다:

\hat{V}(s_t) = \frac{1}{N}\sum_{i=1}^N V_{\phi_i}(s_t), \quad \sigma^2(s_t) = \text{Var}_i[V_{\phi_i}(s_t)]

높은 \sigma^2는 critic이 해당 상태를 제대로 평가하지 못한다는 신호 — 이때 더 보수적으로 탐색하거나 RMA 모듈의 신뢰도를 올린다.

검증 가능한 실험 가설

다음 가설들은 실제 실험으로 검증 가능하다.

AACD + RMA 하이브리드가 단독 RMA보다 초기 성능과 안정성을 개선한다.

환경: Peg insertion (tactile sensor 포함)
메트릭: 초기 200 스텝 성공률, 접촉력 피크값
비교 조건:
- RMA only
- AACD only
- AACD + RMA hybrid

도메인 랜덤화 강도가 높을수록 AACD의 pretrained critic 이점이 커진다.

환경: 이미지 증강 레벨을 Low / Medium / High로 변화
메트릭: 최종 성능, 수렴 스텝 수
비교 조건:
- AACD (pretrained critic)
- Baseline (랜덤 초기화 critic)
- DAgger baseline

Tactile 히스토리 기반 RMA는 접촉 파라미터 변화에 빠르게 적응한다.

환경: 표면 경도가 갑자기 바뀌는 조작 태스크
메트릭: 파라미터 변화 후 10 스텝 내 성능 회복률
비교 조건:
- Proprioception-only RMA
- Tactile-only RMA
- No adaptation baseline

마무리 요약

두 기법의 본질적 차이를 한 줄로 요약하면:

\boxed{ \underbrace{\text{RMA}}_{\text{배포 중 적응}} : z_t = E(h_t) \rightarrow \pi(a|s,z) \qquad\qquad \underbrace{\text{AACD}}_{\text{학습 안정화}} : V_{\phi_s}^{\text{pretrained}}(s) \rightarrow \hat{A}_t \rightarrow \nabla_{\theta_o}\mathcal{L}^{\text{CLIP}} }

관점	RMA	AACD
핵심 목표	배포 중 빠른 적응	고차원 RL 학습 안정화
적응 시점	Online (배포 중)	Offline (학습 중)
학습 신호	RL + supervised regression	RL + pretrained critic
배포 비용	인코더 실시간 추론 필요	Actor만 실행
안전성	초기 적응 불안정 가능	Critic 통해 암묵적 안전 유도
교사 초월	제한적	가능 (RL 직접 최적화)
최적 사용 상황	동역학 변화가 잦은 환경	Contact-rich, 고차원 관측

두 기법은 경쟁 관계가 아니라 상호 보완적이다. 특히 접촉이 많은 dexterous manipulation에서는, AACD로 robust한 이미지 기반 정책을 먼저 학습한 뒤, RMA 모듈로 배포 적응성을 추가하는 하이브리드 접근이 실무적으로 가장 유망하다.

참고

이 글에서 AACD는 논문에서 제안된 표기를 그대로 사용했으며, RMA는 Kumar et al. (2021)의 Rapid Motor Adaptation을 기반으로 비교하였습니다. AACD 논문의 실험 결과(Fig.10, Table IV)를 근거로 경험적 비교를 일부 포함했습니다.