📃GAN-RL

gan

theory

Connecting Generative Adversarial Networks and Actor-Critic Methods

Published

April 21, 2026

Paper Link (arXiv:1610.01945)

📜 본 논문은 GANs를 actor가 보상에 영향을 미칠 수 없는 stateless MDP 환경에서 변형된 Actor-Critic 방법으로 공식적으로 연결하여 설명합니다.
💡 GANs와 Actor-Critic은 모두 최적화하기 어려운 다단계 최적화 문제이며, 이 논문은 두 분야에서 개발된 훈련 안정화 전략을 검토하고 비교합니다.
🤝 저자들은 이 형식적인 연결을 강조함으로써 GAN과 RL 커뮤니티가 딥 네트워크를 위한 일반적이고 안정적인 다단계 최적화 알고리즘을 개발하고 아이디어를 교류하도록 장려합니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 논문은 비지도 학습(unsupervised learning)의 생성적 적대 신경망(Generative Adversarial Networks, GANs)과 강화 학습(reinforcement learning, RL)의 액터-크리틱(Actor-Critic, AC) 메서드 간의 형식적인 연결점을 조명하며, 두 분야 모두 최적화하기 어렵지만, 다단계 최적화 문제(multilevel optimization problems)로서 유사한 정보 흐름 구조와 훈련 불안정성 문제를 공유한다는 점을 강조한다. 저자들은 GAN을 액터가 보상에 영향을 미칠 수 없는 환경(stateless MDP)에서의 수정된 액터-크리틱 메서드로 볼 수 있음을 제시하고, 두 커뮤니티가 독립적으로 개발한 훈련 안정화 전략들을 비교 분석함으로써 상호 영감을 얻어 더 나은 알고리즘 개발을 촉진하고자 한다.

논문 PDF — p.01

핵심 방법론 (Core Methodology)

GAN과 AC 메서드 모두 다음과 같은 형태의 이단계 최적화 문제(bilevel optimization problems)로 정형화될 수 있다. x^* = \arg \min_{x \in X} F (x, y^*(x)) y^*(x) = \arg \min_{y \in Y} f (x, y)

여기서 x는 상위 문제(upper-level problem)의 변수이고, y는 하위 문제(lower-level problem)의 변수이다. 상위 문제의 최적화는 하위 문제의 최적 솔루션 y^*(x)에 의존한다.

1. 생성적 적대 신경망 (Generative Adversarial Networks, GANs)

GAN은 생성자(generator, G)와 판별자(discriminator, D)라는 두 신경망 간의 제로섬 게임(zero-sum game)으로 구성된다. 생성자는 임의의 노이즈 z로부터 데이터를 생성하고, 판별자는 입력된 데이터가 실제 데이터인지 생성된 가짜 데이터인지 분류한다.

목표 함수: 표준 GAN은 다음의 미니맥스(minimax) 게임을 최적화한다. \min_G \max_D V(D, G) = \mathbb{E}_{w \sim p_{data}}[\log D(w)] + \mathbb{E}_{z \sim N(0,I)}[\log(1 - D(G(z)))] 여기서 p_{data}는 실제 데이터 분포, N(0,I)는 노이즈 분포이다. D는 V(D,G)를 최대화하려고 하고, G는 D가 1-D(G(z))에 대해 낮은 값을 예측하도록 즉 D(G(z))가 높은 값을 갖도록 V(D,G)를 최소화하려고 한다.
이단계 최적화 관점: GAN을 이단계 최적화 문제로 볼 경우, 상위 문제는 생성자 G를 최적화하는 것이고, 하위 문제는 판별자 D를 최적화하는 것이다. F(D, G) = -\mathbb{E}_{w \sim p_{data}}[\log D(w)] - \mathbb{E}_{z \sim N(0,I)}[\log(1 - D(G(z)))] (G의 목적, 즉 G가 D(G(z))를 1로 만들고자 하는 경우) f(D, G) = -\mathbb{E}_{z \sim N(0,I)}[\log D(G(z))] (D의 목적) 일반적으로 생성자는 판별자의 출력인 D(G(z))를 0으로 만드는 대신, \log D(G(z))를 최대화하는 방향으로 학습되어 기울기 소실(vanishing gradients) 문제를 완화한다.

2. 액터-크리틱 메서드 (Actor-Critic Methods)

AC 메서드는 강화 학습에서 정책(policy, \pi)을 학습하는 액터와 가치 함수(value function, Q)를 학습하는 크리틱을 동시에 사용한다. 크리틱은 액터의 정책에 대한 평가를 제공하며, 이는 정책 기울기(policy gradient)를 추정하거나 직접적으로 정책을 업데이트하는 데 사용된다.

목표 함수: MDP(Markov Decision Process) 환경에서, 액터-크리틱의 목표는 가치 함수 Q^\pi(s,a)를 학습하고, 이 가치 함수에 대해 최적인 정책 \pi^*를 찾는 것이다. Q^\pi(s, a) = \mathbb{E}_{s_{t+k} \sim P, r_{t+k} \sim R, a_{t+k} \sim \pi}[\sum_{k=1}^\infty \gamma^k r_{t+k} | s_t=s, a_t=a] (기대 할인 보상) \pi^* = \arg \max_\pi \mathbb{E}_{s_0 \sim p_0, a_0 \sim \pi}[Q^\pi(s_0, a_0)] (최적 정책)
크리틱 최적화: 크리틱은 일반적으로 벨만 방정식(Bellman equation)에 기반한 손실을 최소화하여 가치 함수를 학습한다. Q^\pi = \arg \min_Q \mathbb{E}_{s_t, a_t \sim \pi}[D(\mathbb{E}_{s_{t+1}, r_t, a_{t+1}}[r_t + \gamma Q(s_{t+1}, a_{t+1})] || Q(s_t, a_t))] 여기서 D(\cdot||\cdot)는 divergence 측정값이다.
이단계 최적화 관점: AC 메서드를 이단계 최적화 문제로 볼 경우, 상위 문제는 정책 \pi를 최적화하는 것이고, 하위 문제는 가치 함수 Q를 최적화하는 것이다. F(Q, \pi) = \mathbb{E}_{s_t, a_t \sim \pi}[D(\mathbb{E}_{s_{t+1}, r_t, a_{t+1}}[r_t + \gamma Q(s_{t+1}, a_{t+1})] || Q(s_t, a_t))] f(Q, \pi) = -\mathbb{E}_{s_0 \sim p_0, a_0 \sim \pi}[Q^\pi(s_0, a_0)]

GAN과 AC의 연결점 (Connection between GANs and AC)

논문은 GAN을 특정 MDP 설정에서의 액터-크리틱 메서드로 해석한다.

Stateless MDP: 액터(생성자)가 이미지를 생성하고, 환경은 생성된 이미지나 실제 이미지를 무작위로 선택하여 보여준다. 액터는 현재 상태에 대한 지식이 없어(blind actor) 실제 이미지를 단순히 전달할 수 없다. 즉, 액터는 보상에 인과적으로 영향을 미칠 수 없다.
보상 체계: 환경이 실제 이미지를 보여주면 보상 1, 생성된 이미지를 보여주면 보상 0을 준다.
크리틱(판별자): 크리틱은 이 보상을 통해 입력된 이미지가 실제(1)인지 가짜(0)인지 분류하는 것을 학습한다. 크리틱의 손실 함수는 평균 제곱 벨만 잔차(mean-squared Bellman residual) 대신 GAN의 교차 엔트로피(cross-entropy) 손실을 사용한다.
액터 업데이트: 액터는 크리틱으로부터의 기울기 정보를 받아 자신의 행동(이미지 생성)을 수정한다. 환경이 실제 이미지를 보여준 경우에는 액터의 파라미터가 업데이트되지 않는다.

이러한 관점에서 GAN은 액터가 보상에 인과

논문 PDF — p.02

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론

대부분의 머신러닝 문제는 단일 목적함수 최적화로 정식화됩니다. 그런데 일부 문제는 단일 비용이 없고, 여러 모델이 서로 정보를 주고받되 각자 자기만의 사적(private) 손실 을 최소화하려는 하이브리드/멀티레벨 구조를 가집니다. 여기에 평범한 gradient descent를 적용하면 진동(oscillation) 이나 퇴화 해(degenerate solution)로의 붕괴(collapse) 같은 병리적 거동이 흔히 나타납니다. 그럼에도 이런 멀티레벨 손실 모델은 잠재력이 크며(뇌의 작동도 여러 국소 손실의 결합이라는 가설이 있습니다), 그 대표가 바로 AC 와 GAN 입니다.

둘은 놀랍도록 닮았습니다.

정보 흐름: 한 모델(AC의 행위자 / GAN의 생성자)이 출력을 만들고, 두 번째 모델(AC의 비평가 / GAN의 판별자)이 그것을 평가하는 단순 feedforward.
환경 정보 접근: 두 번째 모델만 환경의 특별 정보(AC의 보상 / GAN의 진짜 샘플)를 직접 봅니다.
학습 신호: 첫 번째 모델은 두 번째 모델이 주는 오차 신호만으로 학습합니다.

둘 다 안정성 문제를 겪고, 안정화 기법은 두 커뮤니티가 거의 독립적으로 발전시켰습니다. 이 노트의 목적은 두 모델 부류 사이의 강한 연결을 부각 하는 것입니다.

방법: 두 알고리즘과 그 다리

이중 레벨 최적화라는 공통 틀

GAN과 AC는 모두 한 모델이 다른 모델의 최적값에 대해 최적화되는 bilevel(혹은 two-time-scale) 문제입니다.

x^* = \arg\min_{x\in X} F(x, y^*(x)), \qquad y^*(x) = \arg\min_{y\in Y} f(x, y)

운용연구(operations research)에서 오래 연구됐지만 주로 선형/볼록 문제였고, 여기서는 심층 신경망 을 최적화 대상으로 삼는다는 점이 다릅니다.

GAN

생성자 G (노이즈 z\sim\mathcal N(0,I) 를 받아 샘플 생성)와 판별자 D (진짜/가짜 분류) 사이의 제로섬 게임 입니다.

\min_G \max_D \ \mathbb{E}_{w\sim p_{\text{data}}}[\log D(w)] + \mathbb{E}_{z\sim\mathcal N(0,I)}[\log(1 - D(G(z)))]

판별자가 매우 정확할 때도 생성자가 기울기를 받도록, 생성자 손실은 보통 “가짜로 분류될 확률 최소화” 대신 “진짜로 분류될 확률 최대화”로 씁니다(non-saturating). 이를 bilevel로 쓰면:

F(D, G) = -\mathbb{E}_{w\sim p_{\text{data}}}[\log D(w)] - \mathbb{E}_{z}[\log(1 - D(G(z)))]

f(D, G) = -\mathbb{E}_{z}[\log D(G(z))]

Actor-Critic

행위자(정책 \pi)와 비평가(가치함수 Q^\pi)를 동시에 학습합니다. action-value 함수는 기대 할인 보상을 예측합니다.

Q^\pi(s,a) = \mathbb{E}\Big[\textstyle\sum_{k=1}^{\infty} \gamma^k r_{t+k} \,\big|\, s_t=s, a_t=a\Big]

Q^\pi 는 Bellman 잔차의 발산 최소화로 표현되고, 전체 문제도 bilevel이 됩니다.

F(Q, \pi) = \mathbb{E}_{s_t,a_t\sim\pi}\big[\mathcal D(\mathbb{E}[r_t + \gamma Q(s_{t+1}, a_{t+1})] \,\Vert\, Q(s_t, a_t))\big]

f(Q, \pi) = -\mathbb{E}_{s_0\sim p_0, a_0\sim\pi}[Q^\pi(s_0, a_0)]

저자들은 특히 연속 행동 을 다루는 DPG(deterministic policy gradient), 그 확률적 확장 SVG(0), NFQCA(neurally-fitted Q-learning)에 집중합니다. 이들은 TD 오차를 직접 넘기는 대신, 추정 가치를 행동으로 미분한 기울기를 행위자에 역전파 한다는 공통점이 있습니다 — 이 점이 GAN의 생성자가 판별자로부터 기울기를 받는 방식과 정확히 대응됩니다.

GAN을 AC로 환원하는 구성 (핵심)

flowchart LR
    subgraph GAN["GAN"]
        Z["z (노이즈)"] --> G["G (생성자=행위자)"]
        G --> D["D (판별자=비평가)"]
        X["진짜 샘플 x"] --> D
        Y["라벨 y (보상)"] --> D
        D -.->|기울기| G
    end
    subgraph AC["Actor-Critic"]
        S["s_t (상태)"] --> PI["π (행위자)"]
        PI --> Q["Q (비평가)"]
        R["r_t (보상)"] --> Q
        Q -.->|∂Q/∂a 기울기| PI
    end

GAN과 동일한 MDP를 다음처럼 만듭니다.

행동: 이미지의 모든 픽셀을 설정.
환경: 무작위로 행위자가 만든 이미지 또는 진짜 이미지를 보여줌.
보상: 진짜 이미지를 골랐으면 1, 아니면 0.
행위자의 이미지는 미래 데이터에 영향을 주지 않으므로 이 MDP는 상태 없는(stateless) 구조.

여기에 AC를 학습시키면 GAN 게임과 거의 같아집니다. 정확히 일치시키려면 몇 가지 조정이 필요합니다.

눈먼(blind) 행위자: 행위자가 상태를 보면 진짜 이미지를 그대로 넘겨버릴 수 있으니, 상태를 모르게 해야 합니다(stateless라 학습엔 지장 없음).
cross-entropy 손실: 비평가에 보통 쓰는 MSE Bellman 잔차 대신 GAN 손실에 맞춰 cross-entropy 사용.
스케일링 항: 행위자가 Bellman 잔차가 아닌 가치의 기울기 를 받으므로, \partial \mathcal D/\partial Q 에 비례하는 항이 필요(실무에선 별도 생성자 손실로 처리).
진짜 이미지일 땐 행위자 미갱신: 보상이 1이면 비평가가 행동에 대한 기울기를 0으로.

→ GAN = 상태 없는 MDP에서 눈먼 행위자를 가진, 변형된 actor-critic.

논문 PDF — p.03

왜 적대적이 되는가

보통 AC에서 행위자와 비평가는 상보적 손실을 최적화하지 적대하지 않습니다. GAN이 적대적인 이유는, 이 MDP가 행위자가 보상에 어떤 인과적 영향도 줄 수 없는 환경 — 즉 진짜 policy gradient가 항상 0 인 환경이기 때문입니다. 비평가는 입력 예시만으로 게임의 인과 구조를 배울 수 없어 “보상을 예측하는 특징” 방향으로 움직이고, 행위자는 비평가의 최선 추정에 따라 보상을 늘리려 움직이지만 진짜 보상은 못 늘립니다. 그래서 비평가가 곧 그 방향에 낮은 가치를 매기고, 이상적으로는 직교해야 할 두 업데이트가 적대적 으로 변합니다.

또한 부분 관측성의 결과도 중요합니다. 완전 관측 MDP에서는 최적 정책이 항상 결정적이지만, GAN에서는 생성자가 진짜 분포와 일치하는 것 이 minimax의 고정점입니다.

안정화 전략: 두 커뮤니티의 트릭 (Table 1)

저자들은 각 분야의 “현장의 기술”을 정리하고 서로 이식 가능성을 논합니다.

기법	GAN	AC
Freezing learning	✅	✅
Label smoothing	✅	❌(미시도)
Historical averaging	✅	❌(미시도)
Minibatch discrimination	✅	❌(미시도)
Batch normalization	✅	✅
Target networks	n/a	✅
Replay buffers	❌(미시도)	✅
Entropy regularization	❌(미시도)	✅
Compatibility	❌	✅

핵심 교차 통찰:

Freezing learning: GAN은 한 모델이 너무 강해지면 학습을 동결. AC도 TD 오차 크기가 임계값을 벗어나면 행위자/비평가 학습을 동결 — 같은 발상.
Label smoothing: 0/1 라벨을 \epsilon/1-\epsilon 로 바꿔 기울기 소실 방지. 보상이 0/1이고 비평가 기울기가 사라지는 RL에도 적용 가능할 것.
Historical averaging: 게임이론의 fictitious play에서 영감, 과거 파라미터 평균에서 멀어지는 step에 drag 항 추가 → 진동 방지. Polyak-Ruppert 평균과 연결(RL에서 분석됐으나 표준 도구로 채택되진 않음). DPG의 replay buffer도 개념적으로 fictitious play와 유사(단 행위자엔 적용 불가).
Minibatch discrimination: 단일 샘플 collapse 방지를 위해 판별자가 미니배치 전체를 분류 → 생성자 엔트로피 증가. RL의 탐색 부족(underexploration) 문제와 대응(엔트로피 페널티) — 연속 공간 탐색에 minibatch discrimination류가 대안이 될 수 있음.
Replay buffers: AC에서 상관 제거에 효과적이나 비평가에만 적용 가능(행위자는 과거 다른 행동에 대한 기울기로 못 배움). GAN에 과거 생성 이미지 버퍼를 시도했으나 단순 분포에서도 점근적으로 올바른 샘플 생성에 실패.
Target networks: GAN은 stateless MDP라 Bellman 재귀의 두 번째 Q 가 사라져 판별자 학습이 평범한 회귀가 됨 → GAN엔 target network 비적용. 단, Q-learning을 하위문제로 갖는 다른 멀티레벨 문제엔 유용.
Entropy regularization (AC) ↔︎ mode collapse (GAN): 연속 제어 탐색 기법은 GAN 샘플 다양성 증대로 이식 가능.
Compatibility: AC의 compatible critic은 (최적일 때) 무편향 자연 기울기를 주는 우아한 이론. 하지만 GAN MDP에선 모든 정책의 진짜 가치가 항상 0.5라 진짜 policy gradient가 0 — “compatible보다 adversarial을 선호”.

논문 PDF — p.04

더 복잡한 정보 흐름: 확장들

저자들은 멀티레벨 최적화로 볼 수 있는 더 복잡한 모델들도 정리합니다(보충자료).

GAN 확장: f-GAN(GAN 손실을 f-divergence 하한으로 일반화), EBGAN(에너지 기반 판별자), VAE/GAN, BiGAN/ALI(추론망 추가), Adversarial Autoencoder, InfoGAN(상호정보 최대화). 추론망·세 번째 모델 추가로 최적화가 더 복잡해짐.
AC 확장: A3C(상태 가치 V 만 학습 → 행동 기울기 역전파 불가, GAN과는 덜 밀접하나 연속 제어에 성공적), SVG(1)(행위자·비평가·모델 f 결합).
모방학습/역강화학습(IRL): GAIL은 비용함수 학습을 점유분포(occupancy) 거리 최소화로 환원해 GAN과 거의 같은 형태 — 직접 정책 최적화 대신 AC를 넣으면 GAN과 AC를 둘 다 하위문제로 갖는 3-레벨 최적화 가 됨. Finn et al.은 GAN 목적이 MaxEnt IRL 목적과 동일하고 GAN 학습이 guided cost learning과 같음을 보임.

비판적 고찰

강점

개념적 통찰의 힘. “GAN = 행위자가 보상에 영향 못 주는 MDP의 AC”라는 재구성은, 두 분야의 불안정성과 적대성을 같은 멀티레벨 최적화 렌즈 로 보게 해줍니다. 적대성의 근원을 “진짜 policy gradient = 0”으로 설명한 점이 특히 명료합니다.
실용적 트릭의 교차 지도. Table 1과 교차 통찰은, 한 분야의 안정화 기법을 다른 분야로 옮길 수 있는 구체적 후보 를 제시해 후속 연구의 출발점을 줍니다.
확장 모델의 통합 시각. VAE/GAN·BiGAN·GAIL·IRL까지 멀티레벨 최적화로 묶어, 적대적 학습 생태계 전반의 지형도를 그립니다.

약점과 한계

실험 부재(노트 성격). 이 글은 개념적 연결을 부각하는 포지션/리뷰 노트 로, 새 알고리즘이나 실증이 없습니다. 제안된 교차 이식(예: RL용 minibatch discrimination, GAN용 replay buffer)의 실제 효과는 검증되지 않았고, 실제로 GAN replay buffer는 실패 했다고 보고합니다.
연결의 비대칭성. 저자도 명시하듯, 이 논문은 “특정 MDP에서의 AC = 모든 GAN”을 보인 반면, Finn et al.은 “특정 GAN 확장 = 모든 경우의 guided cost learning”을 보입니다. 연결이 양방향으로 완전히 대칭은 아닙니다.
시대적 범위. 2016년 시점의 GAN/AC(DPG, SVG, NFQCA, DCGAN 등) 기준이라, 이후의 발전(WGAN, diffusion, 최신 RL)과의 정합성은 독자가 보완해야 합니다(추측).

요약 및 결론

이 논문은 비지도 학습의 GAN 과 강화학습의 actor-critic 을 이중 레벨 최적화 라는 공통 틀로 묶고, GAN이 “행위자가 보상에 영향을 줄 수 없는 상태 없는 MDP에서 눈먼 행위자를 가진 AC” 임을 정확히 구성합니다. 이 환경에서 진짜 policy gradient가 0이기에, 본래 직교해야 할 AC 업데이트가 적대적 으로 변한다는 것이 GAN 불안정성의 근원입니다.

이 연결을 토대로 두 커뮤니티의 안정화 트릭(freezing, label smoothing, historical averaging, replay buffer, target network, entropy regularization, compatibility 등)을 한 표로 정리하고, 어떤 기법이 어느 방향으로 이식될 수 있는지 — 그리고 어디서 환원이 막히는지(예: stateless라 GAN엔 target network 불필요) — 를 짚습니다.

실험은 없지만, 이 노트의 가치는 “두 어려운 멀티레벨 최적화 문제를 하나의 언어로 묶어, 분야 간 아이디어의 자유로운 흐름과 일반적·확장 가능·안정적 알고리즘 개발을 촉구한 것” 에 있습니다. GAIL·MaxEnt IRL과의 연결까지 포함해, 적대적 학습과 강화학습을 잇는 개념적 지도 로서 이후 연구에 꾸준히 인용되는 토대 문헌입니다.

논문 PDF — p.05