📃Combining MPC & RL

mpc

quadruped

locomotion

Combining Model-Predictive Control and Predictive Reinforcement Learning for Stable Quadrupedal Robot Locomotion

Published

April 20, 2026

Paper Link (arXiv:2307.07752)

🐾 본 논문은 모델 예측 제어(MPC)와 예측 강화 학습(RQL)을 결합한 하이브리드 제어기를 제안하여 쿼드러플 로봇의 안정적인 보행 생성 문제를 다룹니다.
🤖 개발된 RQL 방식은 신경망으로 모델링된 Q-함수를 MPC의 예측 호라이즌에 대한 최종 비용으로 통합하여 계산 복잡성을 완화하고, 특히 짧은 호라이즌에서 MPC보다 우수한 성능을 보입니다.
✨ 실험 결과, RQL은 짧은 예측 호라이즌(N=2)에서도 MPC보다 훨씬 낮은 누적 실행 비용과 방향 오류를 달성하여, 실시간 온라인 제어 능력과 계산 효율성 간의 균형을 제공함을 입증했습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 논문은 사족보행 로봇의 안정적인 보행 생성을 위해 모델 예측 제어(Model-Predictive Control, MPC)와 예측 강화 학습(Predictive Reinforcement Learning, RL)을 결합하는 하이브리드 제어 방법을 제시합니다. 사족보행 로봇은 높은 이동성과 기동성을 제공하지만, 복잡한 기계 구조와 많은 자유도로 인해 제어가 어렵습니다.

기존 MPC는 시스템 모델과 제약 조건을 기반으로 미래 상태를 예측하고 최적의 제어 입력을 계산하는 강력한 방법입니다. 하지만 짧은 예측 범위(planning horizon), 국소 최적점에 수렴 가능성, 모델 오차, 그리고 미래 재계획을 고려하지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해 MPC와 전신 제어(Whole-Body Control, WBC)의 통합, 학습 기반 방법, 그리고 제어 Lyapunov 함수(Control Lyapunov Function, CLF)와의 결합 연구가 진행되어 왔습니다.

강화 학습(RL)은 순수한 경험을 통해 적응하며 복잡한 문제를 해결하는 데 탁월한 성능을 보입니다. 그러나 로봇 제어와 같이 복잡한 시스템에 적용할 경우 시뮬레이션 및 실험 비용이 많이 들고 복잡성이 높다는 단점이 있습니다.

본 연구는 MPC의 짧은 예측 범위 문제를 해결하기 위해 롤아웃 Q-학습(Roll-out Q-Learning, RQL)이라는 하이브리드 접근 방식을 제안합니다. 이는 MPC의 비용 함수에 Q-함수 형태의 테일 코스트(tail cost)를 도입하여 예측 범위를 암묵적으로 확장하는 방식입니다. Q-함수는 신경망으로 모델링되어 계산 복잡도를 완화합니다.

2. 시스템 동역학 (System’s dynamics):

Unitree A1 로봇 모델을 기반으로 시스템 동역학을 정의합니다. 로봇은 접촉점에서 작용하는 힘을 받는 단일 강체로 간주하며, 다리 동역학은 주 질량체 대비 작은 질량 비율로 인해 무시됩니다. 로봇의 강체 동역학은 세계 좌표계(world coordinates)에서 다음 식으로 표현됩니다: \ddot{p} = \sum_{i=1}^{4} \frac{f_i}{m} - g \quad (1) \frac{d}{dt} (I\omega) = \sum_{i=1}^{4} r_i \times f_i \quad (2) \dot{R} = \omega \times R \quad (3) 여기서 \ddot{p}는 로봇 위치 p의 2차 미분, f_i는 i번째 지면 반력, r_i는 해당 레버, m은 로봇 전체 질량, g는 중력 가속도, I는 관성 모멘트, R은 회전 행렬, \omega는 각속도입니다. 로봇의 자세는 오일러 각 \Theta = [\phi, \theta, \psi]로 결정되며, 전체 동역학은 다음 상태 공간 모델로 표현됩니다: \frac{d}{dt} \begin{bmatrix} p \\ \Theta \\ v \\ \omega_B \end{bmatrix} = \begin{bmatrix} v \\ J^{-1}\omega_B \\ \sum_{i=1}^{4} \frac{f_i}{m} - g \\ I_B^{-1} (R^T \sum_{i=1}^{4} r_i \times f_i - \omega_B \times I_B \omega_B) \end{bmatrix} \quad (6) 여기서 J^{-1}는 바디 프레임 각속도 \omega_B를 오일러 각의 변화율로 변환하는 행렬이며, I_B는 바디 프레임의 관성 모멘트입니다. 상태 x, 행동 u, 레버 매개변수 \vartheta는 다음과 같이 정의됩니다: x := [p \ \Theta \ v \ \omega_B]^T \quad (7) u := [f_1 \ f_2 \ f_3 \ f_4]^T \quad (8) \vartheta := [r_1 \ r_2 \ r_3 \ r_4]^T \quad (9) 따라서 동역학은 \dot{x} = f(x, \vartheta, u)로 표현됩니다.

논문 그림 1

3. 방법론 (Methods):

3.1 모델 예측 제어 (Model Predictive Control, MPC):

MPC는 다음 비용 함수 J_{MPC}를 최소화하는 제어 입력을 찾습니다:

\min_{\{u_{i|k}\}_i^N} J_{MPC}(x_0, \{x_{des,i|k}\}_i^N | \{u_{i|k}\}_i^N) := \min_{\{u_{i|k}\}_i^N} \sum_{i=1}^N \gamma^{i-1}r(\hat{x}_{i|k}, x_{des,i|k}, u_{i|k}) \quad (11)

제약 조건은 다음과 같습니다:

\hat{x}_{0,k} = x_0 (초기 상태)
\hat{x}_{i+1|k} = \Phi(\delta, \hat{x}_{i|k}, \vartheta_{i|k}, u_{i|k}) (시스템 동역학, \Phi는 수치 적분 스킴, 본 연구에서는 Euler explicit scheme \Phi(\delta, \hat{x}_{i|k}, \vartheta_{i|k}, u_{i|k}) = \hat{x}_{i|k} + \delta f(\hat{x}_{i|k}, \vartheta_{i|k}, u_{i|k}) 사용)
C_{i|k}u_{i|k} = 0 (접촉 스케줄 제약: 스윙 단계에서는 힘이 0)
Du_{i|k} \le 0 (마찰 원뿔 제약: 슬라이딩 방지, -\mu f_z \le f_x \le \mu f_z, -\mu f_z \le f_y \le \mu f_z) 여기서 \gamma는 할인율, N은 예측 범위, r은 실행 비용(running cost)입니다. MPC 알고리즘은 매 시간 단계마다 현재 상태를 받아 최적의 액션 시퀀스를 계산하고 첫 번째 액션을 시스템에 적용합니다.

3.2 롤아웃 Q-학습 (Roll-Out Q-Learning, RQL):

RQL은 MPC의 비용 함수에 Q-함수 텀을 추가하여 예측 범위 N의 끝에 있는 터미널 비용(terminal cost)을 근사합니다. \min_{\{u_{i|k}\}_i^N} J_{RQL}^a(x_0, \{x_{des,i|k}\}_i^N | \{u_{i|k}\}_i^N; w_k) := \min_{\{u_{i|k}\}_i^N} \left( \sum_{i=1}^{N-1} \gamma^{i-1}r(\hat{x}_{i|k}, x_{des,i|k}, u_{i|k}) + \hat{Q}(\hat{x}_{N|k}, x_{des,N|k}, u_{N|k}; w_k) \right) \quad (23) 제약 조건은 MPC와 동일합니다. Q-함수 \hat{Q}(x_k, x_{des,k}, u_k; w_k)는 매 시간 단계마다 다음 손실 함수를 최소화하여 업데이트됩니다: J_k^c := \frac{1}{2} \sum_{i=k}^{k+M-1} e_i^2(w) \quad (21) e_k(w) := \hat{Q}(x_k, x_{des,k}, u_k; w) - r(x_k, x_{des,k}, u_k) - \hat{Q}(x_{k+1}, x_{des,k+1}, u_{k+1}; w_{prev}) \quad (22) 여기서 M은 버퍼 크기(M=500)이고 w_k는 Q-함수 신경망의 가중치입니다. Q-함수 모델은 다음과 같이 정의됩니다: \hat{Q}(x_k, x_{k,des}, u_k, w) := z_k^T A z_k \quad (30) z_k := \begin{bmatrix} x_k - x_{k,des} \\ \sum_{i=1}^4 f_{i,k} - mg \end{bmatrix} \quad (31) 여기서 A는 대각 행렬이며, 대각선에 Q-함수 가중치 w를 가집니다. 이 모델은 로봇이 원하는 위치에 서 있고(즉, x_k = x_{k,des}) “이상적인” 힘(즉, 힘의 합이 mg)을 가할 때 Q-함수 값이 0이 되도록 설계되었습니다. 이 모델의 단순성은 계산 효율성을 위해 의도되었으며, 터미널 비용으로서 효과적인 영향을 기대합니다.

4. 실험 설정 및 결과:

실험은 rcognita, ROS, Quad-SDK 프레임워크를 사용하여 A1 Unitree 로봇 시뮬레이션 환경에서 수행되었습니다. 실행 비용 r(x, x_{des}, u)는 상태 오차 e_x = x - x_{des}와 액션 오차 e_u = u - u_{des}를 기반으로 정의됩니다: r(x, x_{des}, u) := e_x^T P_x e_x + e_u^T P_u e_u \quad (29) P_x와 P_u는 대각 행렬입니다. u_{des}는 로봇을 선 자세로 유지하기 위한 참조 지면 반력([mg/4 \ mg/4 \ mg/4 \ mg/4]^T)입니다.

결과는 다음과 같습니다:

단기 예측 범위(N=2): RQL은 MPC보다 Z축 위치 오차와 자세 오차(롤, 피치)를 현저히 줄였습니다. 특히 롤 오차는 거의 10배 감소했습니다. RQL의 평균 실행 비용은 MPC보다 약 3배 낮아 우수한 성능을 보였습니다. 이는 Q-함수가 비용 함수에서 지배적인 역할을 하여 RQL이 MPC를 능가할 수 있게 했기 때문입니다.
장기 예측 범위(N=5): 두 제어기의 성능은 거의 동일해졌습니다. 이는 예측 범위가 길어질수록 Q-함수의 중요성이 비용 함수의 다른 항들에 비해 줄어들기 때문입니다.
누적 실행 비용: 짧은 예측 범위의 RQL은 긴 예측 범위의 MPC보다 더 나은 누적 실행 비용을 보여주었습니다.

5. 결론 (Concluding remarks):

본 연구의 실험 결과는 단순한 선형 Q-함수 모델(31)을 사용했음에도 불구하고 낮은 예측 범위에서 RQL의 상당한 이점을 보여주었습니다. 로봇 시스템의 높은 비선형성을 고려할 때, Q-함수 근사가 비선형적이어야 함을 지적하며, 더 유연하고 비선형적인 Q-함수 모델을 사용하면 높은 예측 범위에서도 더 나은 결과를 얻을 수 있을 것으로 예상합니다. 이는 MPC와 RL의 결합이 로봇 제어에서 온라인 제어 능력과 계산 복잡성 사이의 균형을 맞추는 데 유익함을 시사합니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론

현대 사족로봇은 높은 기동성과 험지 주행 능력으로 점검·배송 같은 응용에 적합하지만, 자유도가 많은 복잡한 기계 구조라 동적으로 변하는 환경에서 효율적으로 제어하기가 어렵습니다.

MPC 는 유한 예측 지평선에서 동작하며 복잡한 제약을 효율적으로 다뤄 산업·실내 미기후 제어·사족로봇까지 폭넓게 적용됐습니다. 하지만 전통적 MPC는 짧은 계획 지평선, 국소 최적 수렴, 동역학 모델 오차, 미래 replanning 미반영 같은 한계가 있습니다. 짧은 지평선 문제는 계산 복잡도에서 비롯되는데, 학습 기반 방법으로 목적 파라미터를 근사 해 완화할 수 있습니다.
RL 은 사족로봇 제어 같은 복잡한 문제에 적용돼, 상태 추정기와 정책을 동시에 학습하거나 험지 적응, 동역학 변화 적응 등을 보였습니다.

MPC에 RL을 결합해 짧은 지평선 문제를 완화하는 두 갈래가 있습니다. (1) 지평선 길이 자체를 학습 하거나, (2) 비용 함수 최적화에 더 긴 예측 구간을 암묵적으로 반영 하는 방식입니다. 두 번째 갈래의 동기는 분명합니다 — terminal cost(말단 비용)가 무한 지평선 해에 충분히 정확하면, 짧은 예측 지평선으로도 괜찮은 성능 을 낼 수 있습니다. 그래서 학습으로 좋은 terminal cost를 얻는 것이 합리적이며, 그 한 구현이 Roll-Out RL(RQL) 입니다. RQL은 전통 MPC의 확장/강화로 볼 수 있습니다.

RQL이 단순 모델에서 좋은 결과를 보인 데 착안해, 저자들은 이를 사족로봇 locomotion 같은 더 복잡한 시스템 에 적용해 전통 MPC를 베이스라인으로 비교합니다. 핵심 관찰: 짧은 예측 지평선에서 RQL이 누적 running cost 측면에서 MPC를 능가했으며, 이는 stacked 접근(MPC+학습된 tail cost) 이 사족로봇에서 순수 RL의 유력한 대안일 수 있음을 시사합니다.

방법

flowchart LR
    subgraph SYS["System Dynamics (Unitree A1)"]
        DYN["ẋ = f(x, ϑ, u)<br/>x=[p,θ,v,ω_B], u=[f₁..f₄]"]
    end
    subgraph MPC["MPC"]
        JM["min Σ γ^(i-1) r(x̂,x_des,u)<br/>over horizon N"]
    end
    subgraph RQL["Roll-Out Q-Learning"]
        JR["min Σ_(i=1)^(N-1) γ^(i-1) r(...)<br/>+ Q̂(x̂_N, x_des, u_N; w)<br/>(학습된 tail cost)"]
        CRITIC["critic 갱신:<br/>buffer(M=500) 최소제곱<br/>w ← min_w J_k^c"]
    end
    DYN --> MPC
    DYN --> RQL
    CRITIC -.->|Q-function 가중치 w| JR
    MPC -->|제약: contact schedule,<br/>friction cone μ=0.3| OUT["first action u*_1 적용"]
    RQL --> OUT

시스템 동역학

Unitree A1을 환경 베이스라인으로 삼고, 로봇을 접촉점에서 작용하는 힘을 받는 단일 강체(single rigid body) 로 모델링합니다(다리 질량이 전체의 ~10%라 무시). 월드 좌표 강체 동역학은

\ddot p = \sum_{i=1}^{4}\frac{f_i}{m} - g, \qquad \frac{d}{dt}(\mathcal I\omega) = \sum_{i=1}^{4} r_i \times f_i, \qquad \dot R = \omega \times R

방향은 Euler 각 \Theta=[\phi,\theta,\psi] (roll/pitch/yaw)로 나타내며, 선행 연구가 무시한 R_y, R_x 회전과 full 각속도 항까지 포함해 더 정밀하게 다룹니다. 상태·행동·lever를

x := [p\ \ \theta\ \ v\ \ \omega_B]^T, \quad u := [f_1\ f_2\ f_3\ f_4]^T, \quad \vartheta := [r_1\ r_2\ r_3\ r_4]^T

로 두면 동역학은 \dot x = f(x, \vartheta, u) 로 압축됩니다. 즉 지면 반력(ground reaction force)이 행동 입니다.

논문 PDF — p.1

Model Predictive Control

예측 컨트롤러로 비용 J_{MPC} 를 최소화합니다.

\min_{\{u_{i|k}\}} J_{MPC} = \min \sum_{i=1}^{N} \gamma^{i-1} r(\hat x_{i|k}, x_{\text{des},i|k}, u_{i|k})

\text{s.t.}\quad \hat x_{0,k}=x_0,\quad \hat x_{i+1|k}=\Phi(\delta,\hat x_{i|k},\vartheta_{i|k},u_{i|k}),\quad C_{i|k}u_{i|k}=0,\quad Du_{i|k}\le 0

두 제약이 핵심입니다.

Contact schedule 제약: swing 단계의 다리는 힘이 0, 접촉 중인 다리만 힘을 낼 수 있음.
Friction cone 제약: 미끄럼 방지. 마찰계수 \mu=0.3 에 대해 -\mu f_z \le f_x \le \mu f_z, -\mu f_z \le f_y \le \mu f_z.

상태 전이는 알려진 동역학에 Euler explicit 적분: \Phi = \hat x_{i|k} + \delta f(\hat x_{i|k}, \vartheta_{i|k}, u_{i|k}). 매 스텝 비용을 풀어 첫 행동 u^*_{1|k} 만 적용(Algorithm 1).

Roll-Out Q-Learning (핵심)

RQL은 value iteration Q-learning을 씁니다. 행동은 u_k \leftarrow \min_u \hat Q(x_k, x_{\text{des},k}, u; w_k) 로 고르고, Q-function 가중치 w 는 버퍼(크기 M=500) 위에서 TD류 오차의 최소제곱 으로 갱신합니다.

w_k \leftarrow \min_w J_k^c, \qquad J_k^c := \frac{1}{2}\sum_{i=k}^{k+M-1} e_i^2(w)

e_k(w) := \hat Q(x_k, x_{\text{des},k}, u_k; w) - r(x_k, x_{\text{des},k}, u_k) - \hat Q(x_{k+1}, x_{\text{des},k+1}, u_{k+1}; w_{\text{prev}})

RQL의 actor 업데이트가 MPC와 다른 결정적 지점입니다.

\min_{\{u_{i|k}\}} J_{RQL}^a = \min \underbrace{\sum_{i=1}^{N-1} \gamma^{i-1} r(\hat x_{i|k}, x_{\text{des},i|k}, u_{i|k})}_{\text{짧은 지평선 } N-1 \text{ running cost}} + \underbrace{\hat Q(\hat x_{N|k}, x_{\text{des},N|k}, u_{N|k}; w_k)}_{\text{학습된 tail/terminal cost}}

즉 RQL = “짧은 MPC 비용 + 학습된 Q-function을 말단 비용으로”. 나머지 제약·구조는 MPC와 동일합니다. 지평선 끝을 Q-function이 근사하므로, 짧은 N 으로도 긴 지평선 효과를 누립니다(Algorithm 2).

Q-function·running cost 설계

running cost는 이차 형식입니다.

r(x, x_{\text{des}}, u) := e_x^T P_x e_x + e_u^T P_u e_u

e_x = x - x_{\text{des}}, e_u = u - u_{\text{des}} 이고 u_{\text{des}} = [\tfrac{mg}{4}\ \tfrac{mg}{4}\ \tfrac{mg}{4}\ \tfrac{mg}{4}]^T (서 있는 자세 유지에 충분한 기준 반력). 따라서 정확히 서 있으면 r=0. Q-function은 계산 효율을 위해 단순한 선형(이차) 모델 로 둡니다.

\hat Q(x_k, x_{\text{des},k}, u_k; w) := z_k^T A z_k, \qquad z_k := \begin{bmatrix} x_k - x_{k,\text{des}} \\ \sum_{i=1}^{4} f_{i,k} - mg \end{bmatrix}

A 는 대각 가중 행렬. 로봇이 목표 위치에 “이상적 힘(\sum f = mg)”으로 서 있을 때 Q가 0이 되도록 설계해, 단순 모델이어도 terminal cost로서 이득을 주리라 기대합니다.

논문 PDF — p.2

실험 셋업

세 프레임워크 위에 구축: rcognita(RL 에이전트 하이브리드 시뮬레이션 Python 패키지), ROS, Quad-SDK(A1용 planner+simulator). ROS가 컨트롤러(rcognita)와 Quad-SDK를 연결합니다.

실험

MPC와 RQL을 짧은/긴 예측 지평선에서 비교합니다(Fig. 3).

짧은 지평선 (N=2)

x축 위치 오차: 두 방법 모두 최소 — P_x 행렬에서 x축 오차에 높은 가중치를 줘 최우선 처리하기 때문.
방향(orientation) 오차: MPC는 짧은 지평선에서 큰 방향 오차를 보이는 반면, RQL은 roll 오차를 약 10배 줄임. Q-function이 비용 함수에서 지배적 역할을 해 RQL이 MPC를 능가.
running cost: RQL의 평균 running cost가 MPC보다 약 3배 낮음.

긴 지평선 (N=5)

지평선이 길어지면 두 컨트롤러의 성능이 거의 동일 해집니다. 긴 지평선에서는 Q-function의 비중이 비용 함수의 앞쪽 running cost 항들에 비해 줄어들기 때문입니다.

지평선 길이 vs 누적 비용 (Fig. 4)

MPC는 지평선이 짧을수록 누적 running cost가 급증(N=2 에서 약 5\times10^6).
RQL은 지평선과 무관하게 비교적 낮고 평탄.
주목: 짧은 지평선 RQL(N=2)이 긴 지평선 MPC(N=5)보다도 누적 비용이 낮음. 지평선이 길어질수록 Q-function의 중요도가 떨어져 두 방법이 수렴.

논문 PDF — p.3

비판적 고찰

강점

명확한 문제 정의와 해법. “MPC의 짧은 지평선 한계 → 학습된 Q-function을 terminal cost로”라는 구성이 깔끔합니다. 지수적으로 증가하는 계산 부담을 짧은 지평선 + 학습 말단 비용으로 우회한다는 발상이 실용적입니다.
사전 학습 불필요·live 운용. 순수 RL의 비싼 사전 학습 없이 온라인으로 critic을 갱신하며 동작해, 로봇 배포에 유리합니다.
정량적 우위. 짧은 지평선에서 roll 오차 ~10배·running cost ~3배 개선, 그리고 “짧은 RQL > 긴 MPC”라는 결과는 stacked 접근의 가치를 분명히 보여줍니다.
재현 가능한 셋업. rcognita·ROS·Quad-SDK 조합으로 A1 시뮬레이션을 구성해 비교를 명료히 했습니다.

약점과 한계

선형 Q-function의 본질적 제약(저자 인정). 실험은 단순 선형(이차) Q-function 에 기반합니다. 시스템의 높은 비선형성을 제대로 반영하려면 비선형 Q-function 이 필요하며, 그래야 긴 지평선에서도 추가 이득이 기대됩니다. 현재 이득이 저지평선에 국한된 이유이기도 합니다.
시뮬레이션 한정. 평가가 Quad-SDK 시뮬레이션에 머물러, 실제 A1 하드웨어 검증과 sim-to-real 갭 분석이 없습니다(논문 범위 밖).
단일 로봇·제한된 시나리오. A1 한 종류, 비교적 정형화된 보행 시나리오 중심이라, 험지·외란·다양한 gait로의 일반화는 추가 검증이 필요합니다(추측).
MPC 베이스라인 한 가지. 학습된 지평선 길이 방식 등 다른 MPC+RL 변형과의 비교가 있었다면 우위가 더 분명해졌을 것입니다.

요약 및 결론

이 논문은 사족로봇의 안정 보행을 위해 MPC와 예측형 RL(Roll-Out Q-Learning)을 결합 합니다. 핵심은 짧은 예측 지평선의 MPC 비용 끝에 신경망 Q-function을 “꼬리 비용(tail/terminal cost)”으로 붙여, 지평선이 길어질수록 지수적으로 커지는 계산 부담을 우회하고, 명목 MPC가 실패하는 짧은 지평선에서도 안정적 보행 을 달성하는 것입니다.

수치로 정리하면, 짧은 지평선(N=2)에서 RQL은 roll 오차를 약 10배, 평균 running cost를 약 3배 줄였고, 짧은 지평선 RQL이 긴 지평선 MPC보다도 누적 비용이 낮았습니다. 지평선이 길어지면 Q-function의 비중이 줄어 두 방법이 수렴합니다.

실무 관점에서 이 연구의 가치는 “학습된 terminal cost로 MPC의 짧은 지평선 한계를 메워, 사전 학습 없이 live로 안정 보행을 얻을 수 있음을 보인 것” 에 있습니다. 선형 Q-function·시뮬레이션 한정이라는 한계는 분명하지만, MPC + 학습된 tail cost(RQL) 라는 하이브리드는 온라인 제어 능력과 계산 복잡도의 균형을 잡는 유망한 방향을 제시합니다.

논문 PDF — p.4