📃Contact-Grounded Policy 리뷰

digit-360

diffusion

contact

tactile

Dexterous Visuotactile Policy with Generative Contact Grounding

Published

May 5, 2026

🤖 Contact-Grounded Policy (CGP)는 로봇의 실제 상태와 촉각 피드백의 결합된 궤적을 예측하고, 이를 준수 컨트롤러(compliance controller)를 위한 실행 가능한 목표 로봇 상태로 변환하여 다지점 접촉을 접지하는 visuotactile 정책입니다.
💡 이 정책은 conditional diffusion model을 사용하여 압축된 latent space에서 미래의 로봇 상태와 촉각 데이터를 효율적으로 예측하며, 학습된 contact-consistency mapping을 통해 의도된 접촉이 실제 로봇에서 실현되도록 합니다.
✅ CGP는 in-hand manipulation, 섬세한 grasping, 도구 사용 등 다양한 접촉 중심 작업에서 visuomotor 및 visuotactile diffusion-policy baseline보다 뛰어난 성능을 보였고, KL-regularized latent space와 residual mapping의 중요성을 입증했습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 논문은 다지(multi-finger) 로봇 손을 이용한 접촉 기반(contact-rich) 조작(dexterous manipulation)의 난제를 해결하기 위해 Contact-Grounded Policy (CGP)를 제안합니다. 기존의 모방 학습(imitation learning) 방법들은 주로 운동학적 궤적(kinematic trajectories)을 예측하며, 접촉 상태를 명시적으로 모델링하지 않아 복잡한 접촉 상호작용에 어려움을 겪습니다. CGP는 이러한 한계를 극복하기 위해 접촉의 물리적 구현 가능성(physical realizability)에 중점을 둡니다.

1. 핵심 방법론 (Core Methodology)

CGP는 접촉 기반 조작 문제를 “접촉 그라운딩(contact grounding)” 문제로 재정의합니다. 이는 단순한 추가 관측치로서의 촉각 신호 사용을 넘어, 실제 로봇 상태(x_t)와 촉각 피드백(u_t)의 상호 연결된 궤적을 예측하고, 이 예측을 컴플라이언스 컨트롤러(compliance controller)를 위한 실행 가능한 목표 로봇 상태(a_t)로 변환하는 “학습된 접촉 일관성 매핑(learned contact-consistency mapping)”을 사용합니다.

CGP는 두 가지 주요 구성 요소로 이루어져 있습니다:

Conditional Diffusion Model (\pi_\theta): 관측치 이력(O_t)을 조건으로 미래 실제 로봇 상태와 촉각 피드백 궤적을 예측합니다. 즉, (\hat{X}_t, \hat{U}_t) \sim \pi_\theta (\cdot | O_t)를 샘플링합니다. 여기서 \hat{X}_t = \{\hat{x}_{t+1}, \dots, \hat{x}_{t+T}\}는 미래 실제 로봇 상태 궤적이고, \hat{U}_t = \{\hat{u}_{t+1}, \dots, \hat{u}_{t+T}\}는 미래 촉각 피드백 궤적입니다. 효율적인 실시간 생성을 위해 촉각 관측치(u_t)는 KL-정규화된 변이형 오토인코더(KL-regularized VAE)를 통해 압축된 잠재 공간(h_t)에서 처리됩니다. 확산 모델은 Y_t = [x_{t+1:t+T}, h_{t+1:t+T}]에 대해 훈련됩니다. 확산 모델의 손실 함수는 다음과 같습니다: L_{\text{diff}}(\theta) = E_{(O_t,Y_0t ),\epsilon,j}[\| \epsilon - \pi_\theta (O_t, Y^j_t, j) \|^2] 여기서 Y^j_t = \alpha_j Y^0_t + \sigma_j \epsilon는 노이즈가 주입된 궤적입니다.
Learned Contact-Consistency Mapping (M_\phi): 예측된 실제 로봇 상태(\hat{x}_{t+k})와 촉각 피드백(\hat{u}_{t+k}) 쌍을 컨트롤러가 실행 가능한 목표 로봇 상태(\hat{a}_{t+k})로 변환합니다. 이 매핑은 잔여 형식(residual form)으로 구성되어 현재 실제 상태(x_t)로부터의 오프셋을 예측하며, 이는 학습을 안정화하고 컴플라이언스 컨트롤러 하에서 더 견고한 목표를 생성합니다. 매핑은 다음과 같이 표현됩니다: a_t = M_\phi(x_t, u_t) 추론 시에는 예측된 미래 궤적을 사용하여 \hat{a}_{t+k} = M_\phi(\hat{x}_{t+k}, \hat{u}_{t+k})를 계산하고, 컴플라이언스 컨트롤러는 이 목표를 추적하며, 정책은 반복적인 예측 제어(receding-horizon manner) 방식으로 재계획(replanning)합니다.

2. 기술적 상세 (Technical Details)

접촉 그라운딩의 개념: CGP는 접촉을 (실제 로봇 상태 x_t, 촉각 피드백 u_t, 목표 로봇 상태 a_t)의 삼중항으로 표현합니다. 이 접근 방식은 접촉 위치나 모드를 명시적으로 모델링하는 대신, 특정 촉각 센서 및 컴플라이언스 컨트롤러 설정 하에서 측정 가능하고 제어 가능한 신호를 통해 접촉을 간접적으로 나타냅니다.
잠재 촉각 생성 (Latent Tactile Generation): 고차원 촉각 데이터의 효율적인 처리를 위해 VAE를 사용하여 u_t를 잠재 표현 h_t \in \mathbb{R}^M으로 압축합니다. KL 정규화는 압축된 잠재 공간이 확산 모델에 적합하도록 잘 구조화되도록 돕습니다.
구현 선택 (Implementation Choices):
- 촉각 인코더 및 디코더: 시뮬레이션에서는 1D ResNet 기반의 조밀한 촉각 어레이(dense tactile arrays)를 사용하며, 실물 로봇에서는 2D ResNet 기반의 Digit360 센서(시각 기반 촉각 이미지)를 사용합니다. 각 모달리티에 맞게 설계되었지만, 공통 훈련 목표를 따릅니다.
- 시각 인코더 및 확산: Diffusion Policy [4]의 U-Net 기반 조건부 확산 모델과 DDIM 샘플링을 따릅니다. 실물 로봇에서는 각 촉각 이미지가 개별적으로 인코딩된 후 교차 센서 셀프 어텐션(cross-sensor self-attention)을 통해 집계됩니다.
- 접촉 일관성 매핑: 경량 네트워크로 구현됩니다. 시뮬레이션에서는 촉각 잠재 코드를 디코딩하여 재인코딩한 후 실제 로봇 상태와 연결하여 MLP에 입력하지만, 실물 로봇에서는 실시간 배포를 위해 촉각 잠재 상태를 실제 로봇 상태와 직접 연결하여 MLP에 입력합니다.

3. 실험 및 결과 (Experiments and Results)

CGP는 시뮬레이션 환경 (Tesollo DG-5F 핸드, 조밀한 촉각 어레이)과 실물 로봇 환경 (Allegro V5 핸드, Digit360 센서)에서 다양한 접촉 기반 조작 작업(In-Hand Box Flipping, Fragile Egg Grasping, Dish Wiping, Jar Opening)에 대해 평가되었습니다.

성능 비교: CGP는 visuomotor diffusion policy 및 visuotactile diffusion policy 기준선(baselines)보다 지속적으로 우수한 성능을 보였습니다. 특히 접시 닦기(Dish Wiping), 상자 뒤집기(In-Hand Box Flipping), 병 따기(Jar Opening)와 같이 지속적이거나 섬세한 접촉이 요구되는 작업에서 현저한 개선을 보였습니다.
접촉 그라운딩 증명: 롤아웃 스냅샷에서 예측된 촉각 신호와 실제 관측된 촉각 신호 간의 시간 정렬을 통해, CGP가 예측한 접촉이 실행 중에 실제로 구현됨을 입증했습니다. 이는 CGP가 단순히 가능한 촉각 결과를 예측하는 것이 아니라, 예측된 접촉 발전을 재현하기 위해 제어 가능한 상호작용 목표를 생성한다는 것을 의미합니다.
핸드 구성 예측 (Hand Configuration Prediction): 접촉 일관성 매핑의 효과를 검증하기 위한 제어된 실험에서, 실제 로봇 상태와 촉각 피드백 모두가 정확한 예측에 필수적임을 보여주었습니다. 잔여 예측(residual prediction) 방식이 절대 예측(absolute prediction) 방식보다 오류를 줄였으며, 이는 접촉 그라운딩이 실제 상태 주변에서 접촉 조건에 따른 수정 사항으로 모델링될 때 가장 잘 작동함을 시사합니다.
촉각 재구성 및 압축 (Tactile Reconstruction and Compression): KL 정규화가 재구성 오류를 약간 증가시킬 수 있지만, 확산 기반 예측의 안정성을 향상시키는 잘 구조화된 잠재 공간을 생성하는 데 중요함을 확인했습니다. 이는 하류 정책(downstream policy) 성능 향상으로 이어집니다.
시간 효율성 (Time Efficiency): CGP는 미래 촉각 피드백 및 접촉 일관성 목표를 모델링함에도 불구하고, 시각 및 시각-촉각 확산 정책 기준선과 유사한 추론 지연 시간(inference latency)을 달성했습니다.

4. 한계 및 향후 연구 (Limitations and Future Work)

센서 및 제어 특정성: CGP의 핵심 한계는 특정 센서 유형과 컴플라이언스 컨트롤러 설정에 대한 의존성입니다. 센서 유형이나 컨트롤러 구성이 변경될 경우 재훈련이 필요합니다. 향후 연구는 교차 센서 및 교차 컨트롤러 공동 훈련(co-training), 그리고 컨트롤러 매개변수 및 로봇 물리적 매개변수(예: 임피던스 게인)에 대한 조건화를 통해 일반화를 개선하는 것을 목표로 합니다.
단일 작업 훈련: 현재 CGP는 단일 작업 훈련 및 평가 프로토콜 하에서 검증되었습니다. 더 넓은 작업 분포로 확장하려면 더 다양한 데모와 상호작용을 통한 교차 작업 공동 훈련이 필요할 것으로 예상됩니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

들어가며: 왜 이 논문이 다섯 손가락 연구자들에게 중요한가

다지 손(multi-finger hand)으로 물건을 다루는 일을 한번 곰곰이 생각해보면, 묘한 사실 하나를 발견하게 됩니다. 우리가 컵을 든다는 행위는 “손가락 관절 각도를 어디에 둘 것인가”의 문제가 아니라, “어느 손가락이 어디를 얼마나 누르고 있어야 하는가”의 문제라는 점이지요. 그런데 우리의 정책 학습 모델들은 대부분 전자만 예측합니다. “타겟 관절 각도”를 뱉어내고는, 그 뒤의 PD 제어기와 물리 세계가 알아서 잘 처리해주리라 믿는 거죠.

문제는, 안 그렇다는 겁니다. 타겟 각도는 모델이 학습한 데이터 분포 안에서는 적당한 접촉을 만들어내지만, 새로운 물체를 만나면 모델은 이렇게 행동합니다 — 너무 강하게 쥐어 깨뜨리거나, 너무 약하게 잡아 미끄러뜨리거나. 왜냐하면 모델은 “접촉이 어떻게 진화해야 하는가”를 추론한 적이 없기 때문입니다.

Meta Reality Labs Research와 Purdue가 RSS 2026에 낸 Contact-Grounded Policy(이하 CGP)는 정확히 이 지점을 찌릅니다. “정책이 출력하는 행동을 컨트롤러 입장에서 다시 생각해보면, 그건 결국 접촉을 만드는 명령이지 않을까?”라는 질문이지요. 그리고 이 단순한 시각 전환에서, 꽤 우아한 시스템이 떨어집니다. Allegro V5 핸드와 Digit360을 쓴다는 점에서, 같은 플랫폼에서 작업하는 분들에게는 특히 와닿을 만한 작업입니다.

문제 정의: 다지 조작은 왜 그렇게 어려운가

운동학적 타겟의 한계

Diffusion Policy(DP) 계열의 정책들이 최근 몇 년 동안 imitation learning에서 보여준 성과는 인상적입니다. 그런데 DP 계열은 거의 항상 “타겟 로봇 상태(target robot state)”를 예측합니다. 즉, 컨트롤러가 추종해야 할 reference만 뱉어내고, 그것이 실제로 어떤 접촉을 만들어낼지는 신경 쓰지 않습니다.

이건 “픽 앤 플레이스” 같은 free-space 모션에서는 큰 문제가 아닙니다. 그런데 다지 조작은 거의 항상 다점 접촉(multi-point contact), 마찰, 그리고 미세 슬립이 동시에 일어나는 영역입니다. 같은 타겟 각도여도, 물체의 형상이 살짝 바뀌거나 마찰계수가 달라지면 접촉 패치(contact patch)는 완전히 다르게 형성되죠. 그래서 학습 시 분포에서 약간만 벗어나도 정책은 두 가지 실패 모드 중 하나로 빠집니다.

너무 뻣뻣함(Overly Stiff Motions): 타겟이 실제 도달 가능한 자세보다 깊숙이 박혀 있어, PD 제어기가 큰 토크를 뿜어내며 물체를 으깸. 깨지기 쉬운 계란 같은 작업에서 치명적.
힘 부족으로 슬립(Insufficient Force → Slip): 타겟이 충분히 압입되지 않아, 마찰력이 모자라 물체가 손가락 사이로 빠져나감. 박스 플리핑이나 jar opening에서 자주 발생.

논문이 보여주는 baseline 비디오에서 이 두 패턴이 정확히 재현됩니다. Visuotactile DP는 촉각을 관측으로 받기는 하지만, 여전히 출력은 운동학적 타겟이라 같은 함정에 빠집니다.

핵심 통찰: 접촉은 “삼각관계”다

이 논문이 던지는 가장 중요한 한 문장을 풀어쓰자면 이렇습니다.

고정된 촉각 센서와 컴플라이언스 컨트롤러 설정 하에서, 접촉 상태는 (실제 로봇 상태, 촉각 피드백, 컨트롤러 참조)라는 삼중항(triplet)에 의해 암묵적으로 정의된다.

이게 왜 자연스러운지를 PD 제어기 관점에서 보면 단번에 이해됩니다. 각 관절의 PD 제어기는 본질적으로 가상 스프링-댐퍼입니다.

\tau_j = K_p (q^{\text{target}}_j - q^{\text{actual}}_j) - K_d \dot{q}_j

여기서 K_p, K_d가 고정되어 있다면, 이 식의 의미는 다음과 같습니다.

타겟과 실제 사이의 간격이 곧 토크다.
그런데 정상 상태에서 그 간격을 만들어내는 건 외부 접촉력이다.
즉, (target - actual) 자체가 외부 접촉력의 비례 측정량이 된다.

여기에 촉각 센서(피부의 접촉 분포)까지 결합하면, 우리는 접촉의 “어디서/얼마나/어떻게” 정보를 모두 얻습니다. 그래서 이 세 가지를 한 묶음으로 보면:

+------------+        spring force        +------------+
|  TARGET    | <------------------------> |  ACTUAL    |
|  STATE     |   (PD controller spring)   |  STATE     |
+------------+                            +------------+
       \                                       /
        \                                     /
         \                                   /
          \         creates contact         /
           v                               v
              +----------------------+
              |  TACTILE FEEDBACK    |
              |  (where & how hard)  |
              +----------------------+

이 삼각형 관계가 CGP 전체 설계의 핵심입니다. 어떤 두 변을 알면 나머지 한 변은 학습 가능한 매핑으로 복원 가능하다는 직관이지요.

방법론: CGP 파이프라인을 뜯어보자

큰 그림: 두 컴포넌트의 분업

CGP는 의외로 단순하게 두 모듈로 나뉩니다.

\pi_\theta (조건부 확산 궤적 생성기): 현재 관측 O_t가 주어지면, 미래 horizon T에 대해 (actual robot state, tactile feedback) 페어의 시퀀스를 생성한다.
M_\phi (접촉-일관성 매핑): 각 시점의 (actual, tactile) 페어를 받아 그것을 만들어낼 target robot state를 추론한다.

이 분업이 왜 중요할까요? 직접 관측에서 타겟으로 바로 매핑(전형적인 DP)하면 정책이 “내가 이 타겟을 보냈을 때 컨트롤러가 어떻게 반응하고 어떤 접촉이 만들어질지”를 암묵적으로 학습해야 합니다. 그런데 이건 매우 분포 의존적이고, 새로운 물체에서 깨지기 쉽지요.

CGP는 대신 이렇게 말합니다: “먼저 우리가 만들고 싶은 접촉의 진화(state-tactile 궤적)를 그려라. 그다음에 그 접촉을 실제 컨트롤러가 만들어내려면 어떤 reference를 보내야 하는지를 따로 풀어라.” 인간이 컵을 잡을 때 “손가락 관절을 X 각도로 보내야지” 하지 않고 “엄지가 옆면을 부드럽게 누르고, 검지가 뒷면을 받쳐야지”라고 생각하는 것과 비슷합니다.

flowchart LR
    subgraph Obs["관측 O_t"]
        V[Vision: RGB camera]
        S[Proprioception: q_actual]
        T[Tactile: latent z_tac]
    end

    Obs --> Pi["π_θ<br/>Conditional Diffusion<br/>(Latent Space)"]

    Pi --> Pred["예측 궤적<br/>(s_t+1..t+T, z_tac_t+1..t+T)"]

    Pred --> Mphi["M_φ<br/>Contact-Consistency<br/>Mapping"]

    Mphi --> Tgt["target robot state<br/>q_target_t+1..t+T"]

    Tgt --> Ctrl["Compliance<br/>Controller<br/>(PD + impedance)"]

    Ctrl --> Robot["Robot<br/>(Allegro V5 / Tesollo DG-5F)"]

    Robot -.observation.-> Obs

    style Pi fill:#cfe8ff,stroke:#1a73e8
    style Mphi fill:#ffd9b3,stroke:#e8710a
    style Ctrl fill:#d4edda,stroke:#28a745

컴포넌트 1: 조건부 확산 궤적 생성기 \pi_\theta

논문에서는 \pi_\theta를 diffusion-policy 스타일로 파라미터화합니다. 즉, 노이즈에서 출발해 점진적 디노이징을 통해 궤적을 샘플링하지요. 다만 입력/출력 구성이 중요합니다.

입력 (조건):

비전 인코더로 압축한 RGB 특징
현재 관절 상태 q_t (proprioception)
VAE로 인코딩된 잠재 촉각 z^\text{tac}_t

출력 (생성):

미래 16 step의 (s_{t+1:t+T}, z^\text{tac}_{t+1:t+T}) 궤적

예측 horizon은 16 step, 그중 8 step만 실행하고 다시 replanning합니다. 전형적인 receding-horizon imitation 패턴이지요.

학습 목표는 표준 diffusion training loss입니다:

\mathcal{L}_\text{diff} = \mathbb{E}_{\tau, \epsilon, k} \left[ \big\| \epsilon - \epsilon_\theta(\tau_k, k, O_t) \big\|^2 \right]

여기서 \tau는 ground truth (state, latent-tactile) 궤적, k는 디노이징 스텝, \epsilon_\theta가 노이즈 예측 네트워크입니다. 추론 시에는 8-step DDIM 디노이징으로 빠르게 샘플링합니다.

컴포넌트 2: 접촉-일관성 매핑 M_\phi

이 모듈이 CGP의 진짜 본질입니다. 수식적으로는

q^\text{target}_t = M_\phi(s_t, \text{tac}_t)

라는 단순한 함수지만, 의미는 깊습니다. “내가 지금 이 actual 상태에 있고 이 촉각 신호를 받고 있다면, 컨트롤러는 어떤 reference로 작동 중일까?”를 학습한 모델입니다.

왜 이게 학습 가능할까요? 컴플라이언스 컨트롤러(K_p, K_d 고정)와 센서 설정이 고정이면, 이 매핑은 이론적으로 잘 정의된 역함수에 가깝습니다. 실제 환경에서는 마찰, 임팩트, 비강체 효과 때문에 깔끔한 역함수는 아니지만, 신경망이 데이터에서 그 관계를 잘 흉내낼 수 있다는 것이 이 논문의 실험적 주장입니다.

학습 데이터는 텔레오퍼레이션 시연에서 자연스럽게 얻습니다 — 매 스텝마다 (target, actual, tactile)이 모두 기록되니, 지도학습 회귀로 충분하지요:

\mathcal{L}_M = \mathbb{E}_{(s, \text{tac}, q^\text{target}) \sim \mathcal{D}} \left[ \big\| q^\text{target} - M_\phi(s, \text{tac}) \big\|^2 \right]

이 분리(factorization)가 왜 중요한가? 정책이 미래 (state, tactile) 궤적을 그리면, 그것은 “물리적으로 일어나야 할 일”을 묘사합니다. 그리고 M_\phi는 그 묘사를 컨트롤러가 실제로 실현 가능한 reference로 번역합니다. 이렇게 분리하면 정책은 컨트롤러 동역학을 알 필요 없이 접촉 진화만 모델링하면 되고, 매핑은 컨트롤러를 안다는 가정 하에 단순한 회귀 문제만 풀면 됩니다. 분업의 깔끔함이지요.

컴포넌트 3: 잠재 촉각 생성 (Latent Tactile Generation)

다지 촉각 센서의 raw 출력은 무지하게 큰 차원입니다. Allegro V5에 부착된 Digit360 같은 vision-based tactile sensor는 fingertip마다 수만 픽셀의 이미지를, dense tactile array(Tesollo DG-5F의 경우)는 수백 채널의 압력값을 매 시점 뱉어냅니다. 이걸 그대로 16-step horizon으로 생성하려면 시간도 메모리도 폭발하지요.

해결책은 latent diffusion에서 익숙한 그 패턴입니다 — VAE로 압축한 후 잠재 공간에서 디노이징.

z^\text{tac}_t = E_\psi(\text{tac}_t), \qquad \widehat{\text{tac}}_t = G_\psi(z^\text{tac}_t)

여기서 핵심은 KL 정규화입니다. 그냥 AE로 압축하면 잠재 공간이 띄엄띄엄해서 디노이징이 불안정해집니다. KL 페널티를 걸어 잠재 분포를 단위 가우시안 근처로 유지하면, 디퓨전 모델이 다루기 좋은 매끈한 매니폴드가 만들어집니다. 논문의 ablation은 이 KL 정규화가 안정성과 다운스트림 성능 모두에 기여한다고 보고합니다.

전체 추론 알고리즘 (의사코드)

# CGP inference loop (receding horizon, replan_every = 8)
def cgp_step(observation_buffer, q_actual_history, tactile_history):
    # 1. Encode current tactile observations to latent space
    z_tac_t = VAE_encoder(tactile_history[-k:])
    
    # 2. Form conditioning context O_t
    O_t = {
        "vision": visual_encoder(observation_buffer.images[-k:]),
        "state":  q_actual_history[-k:],
        "tactile_latent": z_tac_t,
    }
    
    # 3. Sample future trajectory via DDIM (8 denoising steps)
    tau = sample_noise(shape=(T, dim_state + dim_z_tac))
    for k_step in DDIM_schedule(num_steps=8):
        tau = denoise(tau, k_step, condition=O_t, network=eps_theta)
    
    s_future, z_tac_future = split(tau)        # T x dim_s, T x dim_z_tac
    
    # 4. Map each (state, latent-tactile) pair to a target robot state
    q_targets = []
    for h in range(T):
        # Decode tactile only if M_phi consumes raw tactile; many variants
        # consume latent directly. The paper uses the latent form.
        q_tar = M_phi(s_future[h], z_tac_future[h])
        q_targets.append(q_tar)
    
    # 5. Execute first 8 of 16 predicted target states; then replan
    return q_targets[:8]

컴플라이언스 컨트롤러: 손과 팔의 분업

CGP가 깔린 토대도 무시할 수 없습니다. 손은 joint-space PD, 팔은 operational-space impedance — 즉 whole-body compliance 구조입니다. 이 설정은 두 가지 점에서 중요한데요.

타겟이 약간 틀려도 망가지지 않음: 강성 제어와 달리, 컴플라이언스 제어는 환경 충돌이나 예측 오차에 부드럽게 반응합니다. 학습된 정책의 작은 오차를 물리적으로 흡수해주는 안전장치이지요.
삼각관계의 전제 조건: 앞서 본 (target, actual, tactile) 삼각관계는 compliance가 있어야 의미가 있습니다. 무한 강성 제어기에서는 actual은 항상 target과 같으니 정보가 사라지죠. PD-기반 컴플라이언스가 actual ≠ target이라는 “갭”을 만들어주고, 그 갭이 곧 접촉 정보가 됩니다.

JungYeon님이 IsaacLab으로 마이그레이션 하시며 다루셨던 PD vs PID, gain handling, angular_damping 디폴트 변경 같은 디테일들이 정확히 이 컴플라이언스 동역학을 좌우하는 노브들입니다. CGP가 sim2real에서 작동하려면 이 부분의 정확성이 결정적일 수밖에 없죠.

실험: 정말 작동하는가?

하드웨어와 태스크

환경	손	촉각 센서	태스크
Sim	Tesollo DG-5F (5-finger)	Dense whole-hand tactile array	Fragile Egg Grasping, Dish Wiping, In-Hand Box Flipping
Real	Allegro V5 (4-finger)	Digit360 fingertip (vision-based)	Jar Opening, In-Hand Box Flipping

흥미로운 점은 두 종류의 촉각 센서 모달리티(dense array vs vision-based)에서 같은 framework가 작동한다는 점입니다. VAE 백본만 갈아끼우면 되니, 이는 latent tactile diffusion 설계의 일반성 주장을 뒷받침합니다.

데이터는 텔레오퍼레이션으로 수집됩니다. 실제 로봇은 mocap 기반 hand-tracking, 시뮬레이션은 VR 텔레오퍼레이션. JungYeon님이 익숙하신 MANUS Core 3 + ROS2 글러브 텔레오퍼레이션이나 GeoRT/dex-retargeting 라인의 작업과 같은 결의 데이터 수집 인프라입니다.

세 가지 평가 축

논문은 평가를 세 갈래로 깔끔하게 나눕니다.

End-to-end 정책 성공률: 시뮬레이션 3개, 실제 2개 태스크에서 closed-loop rollout 성공률.
접촉-일관성 매핑 isolation 평가: M_\phi만 떼어내서 (state, tactile) → target 회귀 정확도와 일반화 능력 측정.
잠재 촉각 표현 분석: KL 정규화 유무, 잠재 차원, VAE 백본 등 design choice가 다운스트림 성능에 미치는 영향.

이 분리는 매우 좋은 평가 설계입니다. 왜냐하면 end-to-end 성공률만 보면 “왜 이게 잘 됐는지” 알 수 없고, 컴포넌트별 평가만 보면 “전체 시스템이 정말 통합돼서 작동하는지” 알 수 없는데, 둘 다를 보여주니까요.

결과 요약: baseline 대비 정성적 차이

논문은 visuomotor DP, visuotactile DP를 baseline으로 비교합니다. 정확한 수치는 논문을 보시는 게 좋지만, 정성적 패턴은 이렇습니다.

In-Hand Box Flipping: Visuomotor DP는 슬립으로 실패. Visuotactile DP는 회전 부족(incomplete flip)으로 실패. CGP는 다점 접촉을 단계적으로 옮겨가며 완수.
Fragile Egg Grasping: Baseline들은 too-stiff motion으로 계란 파괴. CGP는 부드러운 접촉 유지.
Dish Wiping: 곡면을 따라가며 일정 압력을 유지해야 하는 태스크. Baseline은 압력 부족 또는 과압. CGP는 곡률 변화에 맞춰 접촉 진화.

예측 검증: “예언”이 맞는가?

가장 흥미로운 정성적 결과 중 하나는 예측 vs 관측 촉각의 시간 정렬 비교입니다. CGP가 시점 t에서 예측한 미래 촉각 신호 \widehat{\text{tac}}_{t+h}와, 실제로 나중에 관측된 \text{tac}_{t+h}를 시간 축으로 정렬해 시각적으로 겹쳐보니 거의 일치합니다.

이게 의미심장한 이유는: 정책이 단순히 “그럴듯한 행동”을 예측하는 게 아니라, “내가 만들 접촉이 이렇게 진화할 것이다”라는 물리적 예언을 내고 그것을 실제로 실현하고 있다는 증거이기 때문입니다. Diffusion world model에서 “rollout이 환경과 얼마나 일치하느냐”가 본질적인 질문인데, CGP의 잠재 촉각 예측은 그 검증을 자연스럽게 통과한 셈입니다.

시각적 강건성

저자들이 따로 강조하는 흥미로운 결과: CGP는 시각 외란에 강하다. Box flipping 도중 카메라 시야를 부분적으로 가려도 작업이 이어집니다. 직관적으로는 정책이 시각에만 의존하지 않고 촉각/proprioception을 함께 grounding으로 쓰기 때문입니다. 시각이 끊어지면 다른 두 변이 임시로 더 큰 비중을 가져가는 셈이지요. 같은 이유로 Visuotactile DP보다 시각 corruption robustness가 더 좋게 나타납니다.

추론 시간

잠재 공간 디퓨전을 도입했으니 당연한 질문 — “운영 가능한 속도인가?” Figure 7의 추론 시간 비교에서 CGP는 visuomotor/visuotactile DP와 비슷한 수준의 추론 시간을 8-step DDIM 기준으로 달성합니다. 즉, 잠재 압축 덕분에 raw tactile을 직접 생성할 때보다 훨씬 빠르고, baseline 대비 큰 오버헤드 없이 더 풍부한 예측을 합니다.

비판적 고찰

강점: 우아한 분업

이 작업의 가장 큰 강점은 추상화의 깔끔함입니다.

접촉 표현의 implicit 학습: contact location, mode, friction을 일일이 모델링하지 않고, “삼중항으로 captures된다”는 가정 하에 데이터에서 학습. CTR(Contact Trust Region) 같은 explicit MPC 라인과 정반대 철학이지만, 그 철학이 일관성 있게 관철됩니다.
컨트롤러 의식적 학습(controller-aware learning): 정책 출력을 “컨트롤러 reference”로 명시적으로 매핑하는 점이 CGP의 가장 큰 차별점입니다. 대부분의 imitation learning 정책이 “행동을 환경이 어떻게 해석할지”에 무지한 반면, CGP는 그 인터페이스를 학습 안에 끌어들였습니다.
모달리티 무관 latent design: dense array든 vision-based tactile이든 같은 framework로 다룸. 이 점은 향후 GelSight, DIGIT, ReSkin, BioTac 등 다양한 센서로 확장하기 좋은 구조입니다.

한계 1: 컨트롤러 고정 가정

CGP는 명시적으로 “고정된 컴플라이언스 컨트롤러와 센서 설정”을 가정합니다. 이게 실용적으로 의미하는 바:

K_p, K_d를 바꾸면 M_\phi를 다시 학습해야 합니다. Stiffness scheduling이나 variable impedance 컨트롤(요즘 contact-rich에서 많이 쓰는)과 잘 안 맞을 수 있습니다.
센서를 교체하면 VAE와 M_\phi 모두 재학습. 인더스트리 배포에서는 부담스러울 수 있습니다.

이는 본질적으로 system identification 비용을 데이터 수집 + supervised learning으로 우회하는 trade-off입니다. JungYeon님께서 진행하신 Allegro의 friction modeling 및 system identification 작업과 결을 같이 하면서도, 다른 방식으로 비용을 분산시키는 접근이라 비교가 흥미롭습니다.

한계 2: 텔레오퍼레이션 데이터 의존

CGP는 imitation learning이라 시연 데이터가 필요하고, 다지 텔레오퍼레이션은 여전히 비싼 자원입니다. 다음 질문들은 논문이 직접 답하지 않습니다.

시연 양에 대한 scaling은 어떻게 되는가? (50개 vs 200개 vs 1000개)
한 태스크에서 학습한 M_\phi가 다른 태스크로 transfer되는가? (이론적으로는 컨트롤러+센서가 같으면 되니 transfer 가능해야 함)
HORA, RotateIt, AnyRotate 같은 RL 라인과 결합 가능한가? (즉, RL로 데이터를 self-collect하고 CGP의 contact grounding으로 부드럽게 만들기)

한계 3: 일반화 범위의 미지

논문이 보여주는 태스크들은 모두 강체 또는 거의 강체입니다. 변형체(천 wiping은 도구가 강체), 점성 유체, 입자 매체 같은 진짜 hard contact-rich domain에서 잠재 촉각 예측이 안정적일지는 별개의 질문입니다. KL 정규화된 latent space가 분포 외 접촉 패턴(예: 진동, 임팩트, 부분 슬립)을 표현할 수 있는지는 추가 실험이 필요해 보입니다.

한계 4: world model로서의 활용 가능성

저는 이 논문에서 크게 매력을 느끼는 한 측면이 잠재된 채 활용되지 않았다고 봅니다 — CGP의 latent tactile predictor는 사실상 작은 world model입니다. 미래 (state, tactile)을 예측하는 모델이니까요. 그럼 이걸 model-based RL의 dynamics model이나, planning을 위한 prediction backbone으로 쓸 수 있지 않을까? 논문은 이 가능성을 직접 다루지 않지만, dexterous MBRL이나 VLA + RL hybrid 라인에서 흥미로운 후속 연구 포인트입니다.

측면	HDP	CGP
접촉 표현	Explicit (3D contact position)	Implicit (state-tactile triplet)
다점 접촉	단일 contact 중심	Distributed multi-point 자연 지원
손가락 수	Gripper 위주	Multi-finger hand 표적
컨트롤러 통합	Loose	Tight (M_\phi로 명시)

시사점: 현장 연구자에게 무엇을 의미하는가

CGP가 만능 해법은 아닙니다. 그러나 이 논문은 다지 조작 정책 설계에서 다음의 명제를 강하게 드러냅니다.

“컨트롤러를 정책 설계에 명시적으로 끌어들여라.” Reference와 actual 사이의 갭이 곧 접촉 정보다. 강성 제어 위에 정책을 올리는 관행은 접촉이 풍부한 영역에서 정책의 학습 부담을 키운다.
“접촉을 직접 모델링하지 말고 그 결과를 모델링하라.” Contact location/mode/friction을 일일이 추정하는 대신, 그것이 만들어내는 (state, tactile) 페어를 학습해 implicit하게 다루는 편이 다지/다점 접촉에서 더 확장성이 좋다.
“잠재 공간이 다지 촉각을 다루는 자연스러운 언어다.” Raw tactile은 너무 무겁고 noisy하다. KL 정규화된 latent로 압축해야 안정적인 generative modeling이 가능하다.

요약 및 결론

Contact-Grounded Policy는 한 문장으로 요약하면 이렇습니다.

“다지 조작 정책의 출력을 운동학 타겟이 아닌 컨트롤러가 실현할 접촉의 진화로 정의하고, 그것을 잠재 공간에서 diffusion으로 생성한 뒤 학습된 매핑으로 컨트롤러 reference로 번역한다.”

이 한 문장 안에 세 가지 결정이 들어 있습니다.

표현(Representation): 접촉을 (target, actual, tactile) 삼중항으로 implicit하게 정의.
생성(Generation): 잠재 공간에서 conditional diffusion으로 (actual, tactile) 미래 궤적 샘플링.
실현(Realization): 학습된 M_\phi로 잠재 예측을 컨트롤러 reference로 번역.

각 결정은 단독으로는 이미 알려진 도구지만, 세 결정의 결합이 다지 조작 imitation learning에서 새로운 절충점을 만듭니다. 시각 외란 강건성, baseline 실패 모드(슬립/과압) 회피, 모달리티 일반성이 그 결합의 결실입니다.

남은 흥미로운 질문들 — RL과 결합 가능한가? Variable impedance에 확장될 수 있는가? Latent tactile predictor를 world model로 직접 활용할 수 있는가? 비강체/유체에서도 작동하는가? — 이런 질문들이 후속 연구의 풍부한 지평을 열어줍니다.

다지 조작 연구가 결국 도달하려는 목표는 “인간 손처럼 접촉을 통해 사고하는 로봇”이지요. CGP는 그 길로 한 걸음을 내딛었습니다. 그 걸음이 우아한 이유는, 새로운 알고리즘을 발명한 게 아니라 이미 있는 도구들을 접촉이라는 물리적 실체에 맞춰 정확한 자리에 배치한 데 있다고 봅니다.

좋은 시스템은 새로운 부품으로 만드는 게 아니라, 익숙한 부품 사이의 interface를 다시 그려서 만든다 — CGP는 그 교훈을 다지 조작 영역에서 한 번 더 보여준 작업입니다.

참고 자료

논문 (arXiv): https://arxiv.org/abs/2603.05687
프로젝트 페이지: https://contact-grounded-policy.github.io/
출처: Robotics: Science and Systems (RSS), 2026
저자: Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar (Purdue / Meta Reality Labs Research / UW-Madison)