flowchart LR
subgraph Obs["๊ด์ธก O_t"]
V[Vision: RGB camera]
S[Proprioception: q_actual]
T[Tactile: latent z_tac]
end
Obs --> Pi["ฯ_ฮธ<br/>Conditional Diffusion<br/>(Latent Space)"]
Pi --> Pred["์์ธก ๊ถค์ <br/>(s_t+1..t+T, z_tac_t+1..t+T)"]
Pred --> Mphi["M_ฯ<br/>Contact-Consistency<br/>Mapping"]
Mphi --> Tgt["target robot state<br/>q_target_t+1..t+T"]
Tgt --> Ctrl["Compliance<br/>Controller<br/>(PD + impedance)"]
Ctrl --> Robot["Robot<br/>(Allegro V5 / Tesollo DG-5F)"]
Robot -.observation.-> Obs
style Pi fill:#cfe8ff,stroke:#1a73e8
style Mphi fill:#ffd9b3,stroke:#e8710a
style Ctrl fill:#d4edda,stroke:#28a745
๐Contact-Grounded Policy ๋ฆฌ๋ทฐ
- ๐ค Contact-Grounded Policy (CGP)๋ ๋ก๋ด์ ์ค์ ์ํ์ ์ด๊ฐ ํผ๋๋ฐฑ์ ๊ฒฐํฉ๋ ๊ถค์ ์ ์์ธกํ๊ณ , ์ด๋ฅผ ์ค์ ์ปจํธ๋กค๋ฌ(compliance controller)๋ฅผ ์ํ ์คํ ๊ฐ๋ฅํ ๋ชฉํ ๋ก๋ด ์ํ๋ก ๋ณํํ์ฌ ๋ค์ง์ ์ ์ด์ ์ ์งํ๋ visuotactile ์ ์ฑ ์ ๋๋ค.
- ๐ก ์ด ์ ์ฑ ์ conditional diffusion model์ ์ฌ์ฉํ์ฌ ์์ถ๋ latent space์์ ๋ฏธ๋์ ๋ก๋ด ์ํ์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์ธกํ๋ฉฐ, ํ์ต๋ contact-consistency mapping์ ํตํด ์๋๋ ์ ์ด์ด ์ค์ ๋ก๋ด์์ ์คํ๋๋๋ก ํฉ๋๋ค.
- โ CGP๋ in-hand manipulation, ์ฌ์ธํ grasping, ๋๊ตฌ ์ฌ์ฉ ๋ฑ ๋ค์ํ ์ ์ด ์ค์ฌ ์์ ์์ visuomotor ๋ฐ visuotactile diffusion-policy baseline๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , KL-regularized latent space์ residual mapping์ ์ค์์ฑ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ค์ง(multi-finger) ๋ก๋ด ์์ ์ด์ฉํ ์ ์ด ๊ธฐ๋ฐ(contact-rich) ์กฐ์(dexterous manipulation)์ ๋์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Contact-Grounded Policy (CGP)๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ๋ฐฉ๋ฒ๋ค์ ์ฃผ๋ก ์ด๋ํ์ ๊ถค์ (kinematic trajectories)์ ์์ธกํ๋ฉฐ, ์ ์ด ์ํ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ์์ ๋ณต์กํ ์ ์ด ์ํธ์์ฉ์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. CGP๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ์ด์ ๋ฌผ๋ฆฌ์ ๊ตฌํ ๊ฐ๋ฅ์ฑ(physical realizability)์ ์ค์ ์ ๋ก๋๋ค.
1. ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
CGP๋ ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ๋ฌธ์ ๋ฅผ โ์ ์ด ๊ทธ๋ผ์ด๋ฉ(contact grounding)โ ๋ฌธ์ ๋ก ์ฌ์ ์ํฉ๋๋ค. ์ด๋ ๋จ์ํ ์ถ๊ฐ ๊ด์ธก์น๋ก์์ ์ด๊ฐ ์ ํธ ์ฌ์ฉ์ ๋์ด, ์ค์ ๋ก๋ด ์ํ(x_t)์ ์ด๊ฐ ํผ๋๋ฐฑ(u_t)์ ์ํธ ์ฐ๊ฒฐ๋ ๊ถค์ ์ ์์ธกํ๊ณ , ์ด ์์ธก์ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ(compliance controller)๋ฅผ ์ํ ์คํ ๊ฐ๋ฅํ ๋ชฉํ ๋ก๋ด ์ํ(a_t)๋ก ๋ณํํ๋ โํ์ต๋ ์ ์ด ์ผ๊ด์ฑ ๋งคํ(learned contact-consistency mapping)โ์ ์ฌ์ฉํฉ๋๋ค.
CGP๋ ๋ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค:
Conditional Diffusion Model (\pi_\theta): ๊ด์ธก์น ์ด๋ ฅ(O_t)์ ์กฐ๊ฑด์ผ๋ก ๋ฏธ๋ ์ค์ ๋ก๋ด ์ํ์ ์ด๊ฐ ํผ๋๋ฐฑ ๊ถค์ ์ ์์ธกํฉ๋๋ค. ์ฆ, (\hat{X}_t, \hat{U}_t) \sim \pi_\theta (\cdot | O_t)๋ฅผ ์ํ๋งํฉ๋๋ค. ์ฌ๊ธฐ์ \hat{X}_t = \{\hat{x}_{t+1}, \dots, \hat{x}_{t+T}\}๋ ๋ฏธ๋ ์ค์ ๋ก๋ด ์ํ ๊ถค์ ์ด๊ณ , \hat{U}_t = \{\hat{u}_{t+1}, \dots, \hat{u}_{t+T}\}๋ ๋ฏธ๋ ์ด๊ฐ ํผ๋๋ฐฑ ๊ถค์ ์ ๋๋ค. ํจ์จ์ ์ธ ์ค์๊ฐ ์์ฑ์ ์ํด ์ด๊ฐ ๊ด์ธก์น(u_t)๋ KL-์ ๊ทํ๋ ๋ณ์ดํ ์คํ ์ธ์ฝ๋(KL-regularized VAE)๋ฅผ ํตํด ์์ถ๋ ์ ์ฌ ๊ณต๊ฐ(h_t)์์ ์ฒ๋ฆฌ๋ฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ Y_t = [x_{t+1:t+T}, h_{t+1:t+T}]์ ๋ํด ํ๋ จ๋ฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{\text{diff}}(\theta) = E_{(O_t,Y_0t ),\epsilon,j}[\| \epsilon - \pi_\theta (O_t, Y^j_t, j) \|^2] ์ฌ๊ธฐ์ Y^j_t = \alpha_j Y^0_t + \sigma_j \epsilon๋ ๋ ธ์ด์ฆ๊ฐ ์ฃผ์ ๋ ๊ถค์ ์ ๋๋ค.
Learned Contact-Consistency Mapping (M_\phi): ์์ธก๋ ์ค์ ๋ก๋ด ์ํ(\hat{x}_{t+k})์ ์ด๊ฐ ํผ๋๋ฐฑ(\hat{u}_{t+k}) ์์ ์ปจํธ๋กค๋ฌ๊ฐ ์คํ ๊ฐ๋ฅํ ๋ชฉํ ๋ก๋ด ์ํ(\hat{a}_{t+k})๋ก ๋ณํํฉ๋๋ค. ์ด ๋งคํ์ ์์ฌ ํ์(residual form)์ผ๋ก ๊ตฌ์ฑ๋์ด ํ์ฌ ์ค์ ์ํ(x_t)๋ก๋ถํฐ์ ์คํ์ ์ ์์ธกํ๋ฉฐ, ์ด๋ ํ์ต์ ์์ ํํ๊ณ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ ํ์์ ๋ ๊ฒฌ๊ณ ํ ๋ชฉํ๋ฅผ ์์ฑํฉ๋๋ค. ๋งคํ์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค: a_t = M_\phi(x_t, u_t) ์ถ๋ก ์์๋ ์์ธก๋ ๋ฏธ๋ ๊ถค์ ์ ์ฌ์ฉํ์ฌ \hat{a}_{t+k} = M_\phi(\hat{x}_{t+k}, \hat{u}_{t+k})๋ฅผ ๊ณ์ฐํ๊ณ , ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ๋ ์ด ๋ชฉํ๋ฅผ ์ถ์ ํ๋ฉฐ, ์ ์ฑ ์ ๋ฐ๋ณต์ ์ธ ์์ธก ์ ์ด(receding-horizon manner) ๋ฐฉ์์ผ๋ก ์ฌ๊ณํ(replanning)ํฉ๋๋ค.
2. ๊ธฐ์ ์ ์์ธ (Technical Details)
- ์ ์ด ๊ทธ๋ผ์ด๋ฉ์ ๊ฐ๋ : CGP๋ ์ ์ด์ (์ค์ ๋ก๋ด ์ํ x_t, ์ด๊ฐ ํผ๋๋ฐฑ u_t, ๋ชฉํ ๋ก๋ด ์ํ a_t)์ ์ผ์คํญ์ผ๋ก ํํํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ด ์์น๋ ๋ชจ๋๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๋์ , ํน์ ์ด๊ฐ ์ผ์ ๋ฐ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ ์ค์ ํ์์ ์ธก์ ๊ฐ๋ฅํ๊ณ ์ ์ด ๊ฐ๋ฅํ ์ ํธ๋ฅผ ํตํด ์ ์ด์ ๊ฐ์ ์ ์ผ๋ก ๋ํ๋ ๋๋ค.
- ์ ์ฌ ์ด๊ฐ ์์ฑ (Latent Tactile Generation): ๊ณ ์ฐจ์ ์ด๊ฐ ๋ฐ์ดํฐ์ ํจ์จ์ ์ธ ์ฒ๋ฆฌ๋ฅผ ์ํด VAE๋ฅผ ์ฌ์ฉํ์ฌ u_t๋ฅผ ์ ์ฌ ํํ h_t \in \mathbb{R}^M์ผ๋ก ์์ถํฉ๋๋ค. KL ์ ๊ทํ๋ ์์ถ๋ ์ ์ฌ ๊ณต๊ฐ์ด ํ์ฐ ๋ชจ๋ธ์ ์ ํฉํ๋๋ก ์ ๊ตฌ์กฐํ๋๋๋ก ๋์ต๋๋ค.
- ๊ตฌํ ์ ํ (Implementation Choices):
- ์ด๊ฐ ์ธ์ฝ๋ ๋ฐ ๋์ฝ๋: ์๋ฎฌ๋ ์ด์ ์์๋ 1D ResNet ๊ธฐ๋ฐ์ ์กฐ๋ฐํ ์ด๊ฐ ์ด๋ ์ด(dense tactile arrays)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ค๋ฌผ ๋ก๋ด์์๋ 2D ResNet ๊ธฐ๋ฐ์ Digit360 ์ผ์(์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ด๋ฏธ์ง)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ง๊ฒ ์ค๊ณ๋์์ง๋ง, ๊ณตํต ํ๋ จ ๋ชฉํ๋ฅผ ๋ฐ๋ฆ ๋๋ค.
- ์๊ฐ ์ธ์ฝ๋ ๋ฐ ํ์ฐ: Diffusion Policy [4]์ U-Net ๊ธฐ๋ฐ ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ๊ณผ DDIM ์ํ๋ง์ ๋ฐ๋ฆ ๋๋ค. ์ค๋ฌผ ๋ก๋ด์์๋ ๊ฐ ์ด๊ฐ ์ด๋ฏธ์ง๊ฐ ๊ฐ๋ณ์ ์ผ๋ก ์ธ์ฝ๋ฉ๋ ํ ๊ต์ฐจ ์ผ์ ์ ํ ์ดํ ์ (cross-sensor self-attention)์ ํตํด ์ง๊ณ๋ฉ๋๋ค.
- ์ ์ด ์ผ๊ด์ฑ ๋งคํ: ๊ฒฝ๋ ๋คํธ์ํฌ๋ก ๊ตฌํ๋ฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ์ด๊ฐ ์ ์ฌ ์ฝ๋๋ฅผ ๋์ฝ๋ฉํ์ฌ ์ฌ์ธ์ฝ๋ฉํ ํ ์ค์ ๋ก๋ด ์ํ์ ์ฐ๊ฒฐํ์ฌ MLP์ ์ ๋ ฅํ์ง๋ง, ์ค๋ฌผ ๋ก๋ด์์๋ ์ค์๊ฐ ๋ฐฐํฌ๋ฅผ ์ํด ์ด๊ฐ ์ ์ฌ ์ํ๋ฅผ ์ค์ ๋ก๋ด ์ํ์ ์ง์ ์ฐ๊ฒฐํ์ฌ MLP์ ์ ๋ ฅํฉ๋๋ค.
3. ์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
CGP๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ (Tesollo DG-5F ํธ๋, ์กฐ๋ฐํ ์ด๊ฐ ์ด๋ ์ด)๊ณผ ์ค๋ฌผ ๋ก๋ด ํ๊ฒฝ (Allegro V5 ํธ๋, Digit360 ์ผ์)์์ ๋ค์ํ ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ์์ (In-Hand Box Flipping, Fragile Egg Grasping, Dish Wiping, Jar Opening)์ ๋ํด ํ๊ฐ๋์์ต๋๋ค.
- ์ฑ๋ฅ ๋น๊ต: CGP๋ visuomotor diffusion policy ๋ฐ visuotactile diffusion policy ๊ธฐ์ค์ (baselines)๋ณด๋ค ์ง์์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ์ ์ ๋ฆ๊ธฐ(Dish Wiping), ์์ ๋ค์ง๊ธฐ(In-Hand Box Flipping), ๋ณ ๋ฐ๊ธฐ(Jar Opening)์ ๊ฐ์ด ์ง์์ ์ด๊ฑฐ๋ ์ฌ์ธํ ์ ์ด์ด ์๊ตฌ๋๋ ์์ ์์ ํ์ ํ ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
- ์ ์ด ๊ทธ๋ผ์ด๋ฉ ์ฆ๋ช : ๋กค์์ ์ค๋ ์ท์์ ์์ธก๋ ์ด๊ฐ ์ ํธ์ ์ค์ ๊ด์ธก๋ ์ด๊ฐ ์ ํธ ๊ฐ์ ์๊ฐ ์ ๋ ฌ์ ํตํด, CGP๊ฐ ์์ธกํ ์ ์ด์ด ์คํ ์ค์ ์ค์ ๋ก ๊ตฌํ๋จ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ CGP๊ฐ ๋จ์ํ ๊ฐ๋ฅํ ์ด๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ, ์์ธก๋ ์ ์ด ๋ฐ์ ์ ์ฌํํ๊ธฐ ์ํด ์ ์ด ๊ฐ๋ฅํ ์ํธ์์ฉ ๋ชฉํ๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ํธ๋ ๊ตฌ์ฑ ์์ธก (Hand Configuration Prediction): ์ ์ด ์ผ๊ด์ฑ ๋งคํ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํ ์ ์ด๋ ์คํ์์, ์ค์ ๋ก๋ด ์ํ์ ์ด๊ฐ ํผ๋๋ฐฑ ๋ชจ๋๊ฐ ์ ํํ ์์ธก์ ํ์์ ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ฌ ์์ธก(residual prediction) ๋ฐฉ์์ด ์ ๋ ์์ธก(absolute prediction) ๋ฐฉ์๋ณด๋ค ์ค๋ฅ๋ฅผ ์ค์์ผ๋ฉฐ, ์ด๋ ์ ์ด ๊ทธ๋ผ์ด๋ฉ์ด ์ค์ ์ํ ์ฃผ๋ณ์์ ์ ์ด ์กฐ๊ฑด์ ๋ฐ๋ฅธ ์์ ์ฌํญ์ผ๋ก ๋ชจ๋ธ๋ง๋ ๋ ๊ฐ์ฅ ์ ์๋ํจ์ ์์ฌํฉ๋๋ค.
- ์ด๊ฐ ์ฌ๊ตฌ์ฑ ๋ฐ ์์ถ (Tactile Reconstruction and Compression): KL ์ ๊ทํ๊ฐ ์ฌ๊ตฌ์ฑ ์ค๋ฅ๋ฅผ ์ฝ๊ฐ ์ฆ๊ฐ์ํฌ ์ ์์ง๋ง, ํ์ฐ ๊ธฐ๋ฐ ์์ธก์ ์์ ์ฑ์ ํฅ์์ํค๋ ์ ๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ์ ์์ฑํ๋ ๋ฐ ์ค์ํจ์ ํ์ธํ์ต๋๋ค. ์ด๋ ํ๋ฅ ์ ์ฑ (downstream policy) ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋๋ค.
- ์๊ฐ ํจ์จ์ฑ (Time Efficiency): CGP๋ ๋ฏธ๋ ์ด๊ฐ ํผ๋๋ฐฑ ๋ฐ ์ ์ด ์ผ๊ด์ฑ ๋ชฉํ๋ฅผ ๋ชจ๋ธ๋งํจ์๋ ๋ถ๊ตฌํ๊ณ , ์๊ฐ ๋ฐ ์๊ฐ-์ด๊ฐ ํ์ฐ ์ ์ฑ ๊ธฐ์ค์ ๊ณผ ์ ์ฌํ ์ถ๋ก ์ง์ฐ ์๊ฐ(inference latency)์ ๋ฌ์ฑํ์ต๋๋ค.
4. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ (Limitations and Future Work)
- ์ผ์ ๋ฐ ์ ์ด ํน์ ์ฑ: CGP์ ํต์ฌ ํ๊ณ๋ ํน์ ์ผ์ ์ ํ๊ณผ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ ์ค์ ์ ๋ํ ์์กด์ฑ์ ๋๋ค. ์ผ์ ์ ํ์ด๋ ์ปจํธ๋กค๋ฌ ๊ตฌ์ฑ์ด ๋ณ๊ฒฝ๋ ๊ฒฝ์ฐ ์ฌํ๋ จ์ด ํ์ํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ๊ต์ฐจ ์ผ์ ๋ฐ ๊ต์ฐจ ์ปจํธ๋กค๋ฌ ๊ณต๋ ํ๋ จ(co-training), ๊ทธ๋ฆฌ๊ณ ์ปจํธ๋กค๋ฌ ๋งค๊ฐ๋ณ์ ๋ฐ ๋ก๋ด ๋ฌผ๋ฆฌ์ ๋งค๊ฐ๋ณ์(์: ์ํผ๋์ค ๊ฒ์ธ)์ ๋ํ ์กฐ๊ฑดํ๋ฅผ ํตํด ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ๋จ์ผ ์์ ํ๋ จ: ํ์ฌ CGP๋ ๋จ์ผ ์์ ํ๋ จ ๋ฐ ํ๊ฐ ํ๋กํ ์ฝ ํ์์ ๊ฒ์ฆ๋์์ต๋๋ค. ๋ ๋์ ์์ ๋ถํฌ๋ก ํ์ฅํ๋ ค๋ฉด ๋ ๋ค์ํ ๋ฐ๋ชจ์ ์ํธ์์ฉ์ ํตํ ๊ต์ฐจ ์์ ๊ณต๋ ํ๋ จ์ด ํ์ํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ์ ์ด ๋ ผ๋ฌธ์ด ๋ค์ฏ ์๊ฐ๋ฝ ์ฐ๊ตฌ์๋ค์๊ฒ ์ค์ํ๊ฐ
๋ค์ง ์(multi-finger hand)์ผ๋ก ๋ฌผ๊ฑด์ ๋ค๋ฃจ๋ ์ผ์ ํ๋ฒ ๊ณฐ๊ณฐ์ด ์๊ฐํด๋ณด๋ฉด, ๋ฌํ ์ฌ์ค ํ๋๋ฅผ ๋ฐ๊ฒฌํ๊ฒ ๋ฉ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ปต์ ๋ ๋ค๋ ํ์๋ โ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋๋ฅผ ์ด๋์ ๋ ๊ฒ์ธ๊ฐโ์ ๋ฌธ์ ๊ฐ ์๋๋ผ, โ์ด๋ ์๊ฐ๋ฝ์ด ์ด๋๋ฅผ ์ผ๋ง๋ ๋๋ฅด๊ณ ์์ด์ผ ํ๋๊ฐโ์ ๋ฌธ์ ๋ผ๋ ์ ์ด์ง์. ๊ทธ๋ฐ๋ฐ ์ฐ๋ฆฌ์ ์ ์ฑ ํ์ต ๋ชจ๋ธ๋ค์ ๋๋ถ๋ถ ์ ์๋ง ์์ธกํฉ๋๋ค. โํ๊ฒ ๊ด์ ๊ฐ๋โ๋ฅผ ๋ฑ์ด๋ด๊ณ ๋, ๊ทธ ๋ค์ PD ์ ์ด๊ธฐ์ ๋ฌผ๋ฆฌ ์ธ๊ณ๊ฐ ์์์ ์ ์ฒ๋ฆฌํด์ฃผ๋ฆฌ๋ผ ๋ฏฟ๋ ๊ฑฐ์ฃ .
๋ฌธ์ ๋, ์ ๊ทธ๋ ๋ค๋ ๊ฒ๋๋ค. ํ๊ฒ ๊ฐ๋๋ ๋ชจ๋ธ์ด ํ์ตํ ๋ฐ์ดํฐ ๋ถํฌ ์์์๋ ์ ๋นํ ์ ์ด์ ๋ง๋ค์ด๋ด์ง๋ง, ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ๋ง๋๋ฉด ๋ชจ๋ธ์ ์ด๋ ๊ฒ ํ๋ํฉ๋๋ค โ ๋๋ฌด ๊ฐํ๊ฒ ์ฅ์ด ๊นจ๋จ๋ฆฌ๊ฑฐ๋, ๋๋ฌด ์ฝํ๊ฒ ์ก์ ๋ฏธ๋๋ฌ๋จ๋ฆฌ๊ฑฐ๋. ์๋ํ๋ฉด ๋ชจ๋ธ์ โ์ ์ด์ด ์ด๋ป๊ฒ ์งํํด์ผ ํ๋๊ฐโ๋ฅผ ์ถ๋ก ํ ์ ์ด ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
Meta Reality Labs Research์ Purdue๊ฐ RSS 2026์ ๋ธ Contact-Grounded Policy(์ดํ CGP)๋ ์ ํํ ์ด ์ง์ ์ ์ฐ๋ฆ ๋๋ค. โ์ ์ฑ ์ด ์ถ๋ ฅํ๋ ํ๋์ ์ปจํธ๋กค๋ฌ ์ ์ฅ์์ ๋ค์ ์๊ฐํด๋ณด๋ฉด, ๊ทธ๊ฑด ๊ฒฐ๊ตญ ์ ์ด์ ๋ง๋๋ ๋ช ๋ น์ด์ง ์์๊น?โ๋ผ๋ ์ง๋ฌธ์ด์ง์. ๊ทธ๋ฆฌ๊ณ ์ด ๋จ์ํ ์๊ฐ ์ ํ์์, ๊ฝค ์ฐ์ํ ์์คํ ์ด ๋จ์ด์ง๋๋ค. Allegro V5 ํธ๋์ Digit360์ ์ด๋ค๋ ์ ์์, ๊ฐ์ ํ๋ซํผ์์ ์์ ํ๋ ๋ถ๋ค์๊ฒ๋ ํนํ ์๋ฟ์ ๋งํ ์์ ์ ๋๋ค.
๋ฌธ์ ์ ์: ๋ค์ง ์กฐ์์ ์ ๊ทธ๋ ๊ฒ ์ด๋ ค์ด๊ฐ
์ด๋ํ์ ํ๊ฒ์ ํ๊ณ
Diffusion Policy(DP) ๊ณ์ด์ ์ ์ฑ ๋ค์ด ์ต๊ทผ ๋ช ๋ ๋์ imitation learning์์ ๋ณด์ฌ์ค ์ฑ๊ณผ๋ ์ธ์์ ์ ๋๋ค. ๊ทธ๋ฐ๋ฐ DP ๊ณ์ด์ ๊ฑฐ์ ํญ์ โํ๊ฒ ๋ก๋ด ์ํ(target robot state)โ๋ฅผ ์์ธกํฉ๋๋ค. ์ฆ, ์ปจํธ๋กค๋ฌ๊ฐ ์ถ์ข ํด์ผ ํ reference๋ง ๋ฑ์ด๋ด๊ณ , ๊ทธ๊ฒ์ด ์ค์ ๋ก ์ด๋ค ์ ์ด์ ๋ง๋ค์ด๋ผ์ง๋ ์ ๊ฒฝ ์ฐ์ง ์์ต๋๋ค.
์ด๊ฑด โํฝ ์ค ํ๋ ์ด์คโ ๊ฐ์ free-space ๋ชจ์ ์์๋ ํฐ ๋ฌธ์ ๊ฐ ์๋๋๋ค. ๊ทธ๋ฐ๋ฐ ๋ค์ง ์กฐ์์ ๊ฑฐ์ ํญ์ ๋ค์ ์ ์ด(multi-point contact), ๋ง์ฐฐ, ๊ทธ๋ฆฌ๊ณ ๋ฏธ์ธ ์ฌ๋ฆฝ์ด ๋์์ ์ผ์ด๋๋ ์์ญ์ ๋๋ค. ๊ฐ์ ํ๊ฒ ๊ฐ๋์ฌ๋, ๋ฌผ์ฒด์ ํ์์ด ์ด์ง ๋ฐ๋๊ฑฐ๋ ๋ง์ฐฐ๊ณ์๊ฐ ๋ฌ๋ผ์ง๋ฉด ์ ์ด ํจ์น(contact patch)๋ ์์ ํ ๋ค๋ฅด๊ฒ ํ์ฑ๋์ฃ . ๊ทธ๋์ ํ์ต ์ ๋ถํฌ์์ ์ฝ๊ฐ๋ง ๋ฒ์ด๋๋ ์ ์ฑ ์ ๋ ๊ฐ์ง ์คํจ ๋ชจ๋ ์ค ํ๋๋ก ๋น ์ง๋๋ค.
- ๋๋ฌด ๋ปฃ๋ปฃํจ(Overly Stiff Motions): ํ๊ฒ์ด ์ค์ ๋๋ฌ ๊ฐ๋ฅํ ์์ธ๋ณด๋ค ๊น์์ด ๋ฐํ ์์ด, PD ์ ์ด๊ธฐ๊ฐ ํฐ ํ ํฌ๋ฅผ ๋ฟ์ด๋ด๋ฉฐ ๋ฌผ์ฒด๋ฅผ ์ผ๊นธ. ๊นจ์ง๊ธฐ ์ฌ์ด ๊ณ๋ ๊ฐ์ ์์ ์์ ์น๋ช ์ .
- ํ ๋ถ์กฑ์ผ๋ก ์ฌ๋ฆฝ(Insufficient Force โ Slip): ํ๊ฒ์ด ์ถฉ๋ถํ ์์ ๋์ง ์์, ๋ง์ฐฐ๋ ฅ์ด ๋ชจ์๋ผ ๋ฌผ์ฒด๊ฐ ์๊ฐ๋ฝ ์ฌ์ด๋ก ๋น ์ ธ๋๊ฐ. ๋ฐ์ค ํ๋ฆฌํ์ด๋ jar opening์์ ์์ฃผ ๋ฐ์.
๋ ผ๋ฌธ์ด ๋ณด์ฌ์ฃผ๋ baseline ๋น๋์ค์์ ์ด ๋ ํจํด์ด ์ ํํ ์ฌํ๋ฉ๋๋ค. Visuotactile DP๋ ์ด๊ฐ์ ๊ด์ธก์ผ๋ก ๋ฐ๊ธฐ๋ ํ์ง๋ง, ์ฌ์ ํ ์ถ๋ ฅ์ ์ด๋ํ์ ํ๊ฒ์ด๋ผ ๊ฐ์ ํจ์ ์ ๋น ์ง๋๋ค.
ํต์ฌ ํต์ฐฐ: ์ ์ด์ โ์ผ๊ฐ๊ด๊ณโ๋ค
์ด ๋ ผ๋ฌธ์ด ๋์ง๋ ๊ฐ์ฅ ์ค์ํ ํ ๋ฌธ์ฅ์ ํ์ด์ฐ์๋ฉด ์ด๋ ์ต๋๋ค.
๊ณ ์ ๋ ์ด๊ฐ ์ผ์์ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ ์ค์ ํ์์, ์ ์ด ์ํ๋ (์ค์ ๋ก๋ด ์ํ, ์ด๊ฐ ํผ๋๋ฐฑ, ์ปจํธ๋กค๋ฌ ์ฐธ์กฐ)๋ผ๋ ์ผ์คํญ(triplet)์ ์ํด ์๋ฌต์ ์ผ๋ก ์ ์๋๋ค.
์ด๊ฒ ์ ์์ฐ์ค๋ฌ์ด์ง๋ฅผ PD ์ ์ด๊ธฐ ๊ด์ ์์ ๋ณด๋ฉด ๋จ๋ฒ์ ์ดํด๋ฉ๋๋ค. ๊ฐ ๊ด์ ์ PD ์ ์ด๊ธฐ๋ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์ ์คํ๋ง-๋ํผ์ ๋๋ค.
\tau_j = K_p (q^{\text{target}}_j - q^{\text{actual}}_j) - K_d \dot{q}_j
์ฌ๊ธฐ์ K_p, K_d๊ฐ ๊ณ ์ ๋์ด ์๋ค๋ฉด, ์ด ์์ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ํ๊ฒ๊ณผ ์ค์ ์ฌ์ด์ ๊ฐ๊ฒฉ์ด ๊ณง ํ ํฌ๋ค.
- ๊ทธ๋ฐ๋ฐ ์ ์ ์ํ์์ ๊ทธ ๊ฐ๊ฒฉ์ ๋ง๋ค์ด๋ด๋ ๊ฑด ์ธ๋ถ ์ ์ด๋ ฅ์ด๋ค.
- ์ฆ, (target - actual) ์์ฒด๊ฐ ์ธ๋ถ ์ ์ด๋ ฅ์ ๋น๋ก ์ธก์ ๋์ด ๋๋ค.
์ฌ๊ธฐ์ ์ด๊ฐ ์ผ์(ํผ๋ถ์ ์ ์ด ๋ถํฌ)๊น์ง ๊ฒฐํฉํ๋ฉด, ์ฐ๋ฆฌ๋ ์ ์ด์ โ์ด๋์/์ผ๋ง๋/์ด๋ป๊ฒโ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ป์ต๋๋ค. ๊ทธ๋์ ์ด ์ธ ๊ฐ์ง๋ฅผ ํ ๋ฌถ์์ผ๋ก ๋ณด๋ฉด:
+------------+ spring force +------------+
| TARGET | <------------------------> | ACTUAL |
| STATE | (PD controller spring) | STATE |
+------------+ +------------+
\ /
\ /
\ /
\ creates contact /
v v
+----------------------+
| TACTILE FEEDBACK |
| (where & how hard) |
+----------------------+
์ด ์ผ๊ฐํ ๊ด๊ณ๊ฐ CGP ์ ์ฒด ์ค๊ณ์ ํต์ฌ์ ๋๋ค. ์ด๋ค ๋ ๋ณ์ ์๋ฉด ๋๋จธ์ง ํ ๋ณ์ ํ์ต ๊ฐ๋ฅํ ๋งคํ์ผ๋ก ๋ณต์ ๊ฐ๋ฅํ๋ค๋ ์ง๊ด์ด์ง์.
๋ฐฉ๋ฒ๋ก : CGP ํ์ดํ๋ผ์ธ์ ๋ฏ์ด๋ณด์
ํฐ ๊ทธ๋ฆผ: ๋ ์ปดํฌ๋ํธ์ ๋ถ์
CGP๋ ์์ธ๋ก ๋จ์ํ๊ฒ ๋ ๋ชจ๋๋ก ๋๋ฉ๋๋ค.
- \pi_\theta (์กฐ๊ฑด๋ถ ํ์ฐ ๊ถค์ ์์ฑ๊ธฐ): ํ์ฌ ๊ด์ธก O_t๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ฏธ๋ horizon T์ ๋ํด (actual robot state, tactile feedback) ํ์ด์ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
- M_\phi (์ ์ด-์ผ๊ด์ฑ ๋งคํ): ๊ฐ ์์ ์ (actual, tactile) ํ์ด๋ฅผ ๋ฐ์ ๊ทธ๊ฒ์ ๋ง๋ค์ด๋ผ target robot state๋ฅผ ์ถ๋ก ํ๋ค.
์ด ๋ถ์ ์ด ์ ์ค์ํ ๊น์? ์ง์ ๊ด์ธก์์ ํ๊ฒ์ผ๋ก ๋ฐ๋ก ๋งคํ(์ ํ์ ์ธ DP)ํ๋ฉด ์ ์ฑ ์ด โ๋ด๊ฐ ์ด ํ๊ฒ์ ๋ณด๋์ ๋ ์ปจํธ๋กค๋ฌ๊ฐ ์ด๋ป๊ฒ ๋ฐ์ํ๊ณ ์ด๋ค ์ ์ด์ด ๋ง๋ค์ด์ง์งโ๋ฅผ ์๋ฌต์ ์ผ๋ก ํ์ตํด์ผ ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ด๊ฑด ๋งค์ฐ ๋ถํฌ ์์กด์ ์ด๊ณ , ์๋ก์ด ๋ฌผ์ฒด์์ ๊นจ์ง๊ธฐ ์ฝ์ง์.
CGP๋ ๋์ ์ด๋ ๊ฒ ๋งํฉ๋๋ค: โ๋จผ์ ์ฐ๋ฆฌ๊ฐ ๋ง๋ค๊ณ ์ถ์ ์ ์ด์ ์งํ(state-tactile ๊ถค์ )๋ฅผ ๊ทธ๋ ค๋ผ. ๊ทธ๋ค์์ ๊ทธ ์ ์ด์ ์ค์ ์ปจํธ๋กค๋ฌ๊ฐ ๋ง๋ค์ด๋ด๋ ค๋ฉด ์ด๋ค reference๋ฅผ ๋ณด๋ด์ผ ํ๋์ง๋ฅผ ๋ฐ๋ก ํ์ด๋ผ.โ ์ธ๊ฐ์ด ์ปต์ ์ก์ ๋ โ์๊ฐ๋ฝ ๊ด์ ์ X ๊ฐ๋๋ก ๋ณด๋ด์ผ์งโ ํ์ง ์๊ณ โ์์ง๊ฐ ์๋ฉด์ ๋ถ๋๋ฝ๊ฒ ๋๋ฅด๊ณ , ๊ฒ์ง๊ฐ ๋ท๋ฉด์ ๋ฐ์ณ์ผ์งโ๋ผ๊ณ ์๊ฐํ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค.
์ปดํฌ๋ํธ 1: ์กฐ๊ฑด๋ถ ํ์ฐ ๊ถค์ ์์ฑ๊ธฐ \pi_\theta
๋ ผ๋ฌธ์์๋ \pi_\theta๋ฅผ diffusion-policy ์คํ์ผ๋ก ํ๋ผ๋ฏธํฐํํฉ๋๋ค. ์ฆ, ๋ ธ์ด์ฆ์์ ์ถ๋ฐํด ์ ์ง์ ๋๋ ธ์ด์ง์ ํตํด ๊ถค์ ์ ์ํ๋งํ์ง์. ๋ค๋ง ์ ๋ ฅ/์ถ๋ ฅ ๊ตฌ์ฑ์ด ์ค์ํฉ๋๋ค.
์ ๋ ฅ (์กฐ๊ฑด):
- ๋น์ ์ธ์ฝ๋๋ก ์์ถํ RGB ํน์ง
- ํ์ฌ ๊ด์ ์ํ q_t (proprioception)
- VAE๋ก ์ธ์ฝ๋ฉ๋ ์ ์ฌ ์ด๊ฐ z^\text{tac}_t
์ถ๋ ฅ (์์ฑ):
- ๋ฏธ๋ 16 step์ (s_{t+1:t+T}, z^\text{tac}_{t+1:t+T}) ๊ถค์
์์ธก horizon์ 16 step, ๊ทธ์ค 8 step๋ง ์คํํ๊ณ ๋ค์ replanningํฉ๋๋ค. ์ ํ์ ์ธ receding-horizon imitation ํจํด์ด์ง์.
ํ์ต ๋ชฉํ๋ ํ์ค diffusion training loss์ ๋๋ค:
\mathcal{L}_\text{diff} = \mathbb{E}_{\tau, \epsilon, k} \left[ \big\| \epsilon - \epsilon_\theta(\tau_k, k, O_t) \big\|^2 \right]
์ฌ๊ธฐ์ \tau๋ ground truth (state, latent-tactile) ๊ถค์ , k๋ ๋๋ ธ์ด์ง ์คํ , \epsilon_\theta๊ฐ ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ์ ๋๋ค. ์ถ๋ก ์์๋ 8-step DDIM ๋๋ ธ์ด์ง์ผ๋ก ๋น ๋ฅด๊ฒ ์ํ๋งํฉ๋๋ค.
์ปดํฌ๋ํธ 2: ์ ์ด-์ผ๊ด์ฑ ๋งคํ M_\phi
์ด ๋ชจ๋์ด CGP์ ์ง์ง ๋ณธ์ง์ ๋๋ค. ์์์ ์ผ๋ก๋
q^\text{target}_t = M_\phi(s_t, \text{tac}_t)
๋ผ๋ ๋จ์ํ ํจ์์ง๋ง, ์๋ฏธ๋ ๊น์ต๋๋ค. โ๋ด๊ฐ ์ง๊ธ ์ด actual ์ํ์ ์๊ณ ์ด ์ด๊ฐ ์ ํธ๋ฅผ ๋ฐ๊ณ ์๋ค๋ฉด, ์ปจํธ๋กค๋ฌ๋ ์ด๋ค reference๋ก ์๋ ์ค์ผ๊น?โ๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๋๋ค.
์ ์ด๊ฒ ํ์ต ๊ฐ๋ฅํ ๊น์? ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ(K_p, K_d ๊ณ ์ )์ ์ผ์ ์ค์ ์ด ๊ณ ์ ์ด๋ฉด, ์ด ๋งคํ์ ์ด๋ก ์ ์ผ๋ก ์ ์ ์๋ ์ญํจ์์ ๊ฐ๊น์ต๋๋ค. ์ค์ ํ๊ฒฝ์์๋ ๋ง์ฐฐ, ์ํฉํธ, ๋น๊ฐ์ฒด ํจ๊ณผ ๋๋ฌธ์ ๊น๋ํ ์ญํจ์๋ ์๋์ง๋ง, ์ ๊ฒฝ๋ง์ด ๋ฐ์ดํฐ์์ ๊ทธ ๊ด๊ณ๋ฅผ ์ ํ๋ด๋ผ ์ ์๋ค๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ์คํ์ ์ฃผ์ฅ์ ๋๋ค.
ํ์ต ๋ฐ์ดํฐ๋ ํ ๋ ์คํผ๋ ์ด์ ์์ฐ์์ ์์ฐ์ค๋ฝ๊ฒ ์ป์ต๋๋ค โ ๋งค ์คํ ๋ง๋ค (target, actual, tactile)์ด ๋ชจ๋ ๊ธฐ๋ก๋๋, ์ง๋ํ์ต ํ๊ท๋ก ์ถฉ๋ถํ์ง์:
\mathcal{L}_M = \mathbb{E}_{(s, \text{tac}, q^\text{target}) \sim \mathcal{D}} \left[ \big\| q^\text{target} - M_\phi(s, \text{tac}) \big\|^2 \right]
์ด ๋ถ๋ฆฌ(factorization)๊ฐ ์ ์ค์ํ๊ฐ? ์ ์ฑ ์ด ๋ฏธ๋ (state, tactile) ๊ถค์ ์ ๊ทธ๋ฆฌ๋ฉด, ๊ทธ๊ฒ์ โ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ์ด๋์ผ ํ ์ผโ์ ๋ฌ์ฌํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ M_\phi๋ ๊ทธ ๋ฌ์ฌ๋ฅผ ์ปจํธ๋กค๋ฌ๊ฐ ์ค์ ๋ก ์คํ ๊ฐ๋ฅํ reference๋ก ๋ฒ์ญํฉ๋๋ค. ์ด๋ ๊ฒ ๋ถ๋ฆฌํ๋ฉด ์ ์ฑ ์ ์ปจํธ๋กค๋ฌ ๋์ญํ์ ์ ํ์ ์์ด ์ ์ด ์งํ๋ง ๋ชจ๋ธ๋งํ๋ฉด ๋๊ณ , ๋งคํ์ ์ปจํธ๋กค๋ฌ๋ฅผ ์๋ค๋ ๊ฐ์ ํ์ ๋จ์ํ ํ๊ท ๋ฌธ์ ๋ง ํ๋ฉด ๋ฉ๋๋ค. ๋ถ์ ์ ๊น๋ํจ์ด์ง์.
์ปดํฌ๋ํธ 3: ์ ์ฌ ์ด๊ฐ ์์ฑ (Latent Tactile Generation)
๋ค์ง ์ด๊ฐ ์ผ์์ raw ์ถ๋ ฅ์ ๋ฌด์งํ๊ฒ ํฐ ์ฐจ์์ ๋๋ค. Allegro V5์ ๋ถ์ฐฉ๋ Digit360 ๊ฐ์ vision-based tactile sensor๋ fingertip๋ง๋ค ์๋ง ํฝ์ ์ ์ด๋ฏธ์ง๋ฅผ, dense tactile array(Tesollo DG-5F์ ๊ฒฝ์ฐ)๋ ์๋ฐฑ ์ฑ๋์ ์๋ ฅ๊ฐ์ ๋งค ์์ ๋ฑ์ด๋ ๋๋ค. ์ด๊ฑธ ๊ทธ๋๋ก 16-step horizon์ผ๋ก ์์ฑํ๋ ค๋ฉด ์๊ฐ๋ ๋ฉ๋ชจ๋ฆฌ๋ ํญ๋ฐํ์ง์.
ํด๊ฒฐ์ฑ ์ latent diffusion์์ ์ต์ํ ๊ทธ ํจํด์ ๋๋ค โ VAE๋ก ์์ถํ ํ ์ ์ฌ ๊ณต๊ฐ์์ ๋๋ ธ์ด์ง.
z^\text{tac}_t = E_\psi(\text{tac}_t), \qquad \widehat{\text{tac}}_t = G_\psi(z^\text{tac}_t)
์ฌ๊ธฐ์ ํต์ฌ์ KL ์ ๊ทํ์ ๋๋ค. ๊ทธ๋ฅ AE๋ก ์์ถํ๋ฉด ์ ์ฌ ๊ณต๊ฐ์ด ๋์๋์ํด์ ๋๋ ธ์ด์ง์ด ๋ถ์์ ํด์ง๋๋ค. KL ํ๋ํฐ๋ฅผ ๊ฑธ์ด ์ ์ฌ ๋ถํฌ๋ฅผ ๋จ์ ๊ฐ์ฐ์์ ๊ทผ์ฒ๋ก ์ ์งํ๋ฉด, ๋ํจ์ ๋ชจ๋ธ์ด ๋ค๋ฃจ๊ธฐ ์ข์ ๋งค๋ํ ๋งค๋ํด๋๊ฐ ๋ง๋ค์ด์ง๋๋ค. ๋ ผ๋ฌธ์ ablation์ ์ด KL ์ ๊ทํ๊ฐ ์์ ์ฑ๊ณผ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ ๋ชจ๋์ ๊ธฐ์ฌํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
์ ์ฒด ์ถ๋ก ์๊ณ ๋ฆฌ์ฆ (์์ฌ์ฝ๋)
# CGP inference loop (receding horizon, replan_every = 8)
def cgp_step(observation_buffer, q_actual_history, tactile_history):
# 1. Encode current tactile observations to latent space
z_tac_t = VAE_encoder(tactile_history[-k:])
# 2. Form conditioning context O_t
O_t = {
"vision": visual_encoder(observation_buffer.images[-k:]),
"state": q_actual_history[-k:],
"tactile_latent": z_tac_t,
}
# 3. Sample future trajectory via DDIM (8 denoising steps)
tau = sample_noise(shape=(T, dim_state + dim_z_tac))
for k_step in DDIM_schedule(num_steps=8):
tau = denoise(tau, k_step, condition=O_t, network=eps_theta)
s_future, z_tac_future = split(tau) # T x dim_s, T x dim_z_tac
# 4. Map each (state, latent-tactile) pair to a target robot state
q_targets = []
for h in range(T):
# Decode tactile only if M_phi consumes raw tactile; many variants
# consume latent directly. The paper uses the latent form.
q_tar = M_phi(s_future[h], z_tac_future[h])
q_targets.append(q_tar)
# 5. Execute first 8 of 16 predicted target states; then replan
return q_targets[:8]์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ: ์๊ณผ ํ์ ๋ถ์
CGP๊ฐ ๊น๋ฆฐ ํ ๋๋ ๋ฌด์ํ ์ ์์ต๋๋ค. ์์ joint-space PD, ํ์ operational-space impedance โ ์ฆ whole-body compliance ๊ตฌ์กฐ์ ๋๋ค. ์ด ์ค์ ์ ๋ ๊ฐ์ง ์ ์์ ์ค์ํ๋ฐ์.
- ํ๊ฒ์ด ์ฝ๊ฐ ํ๋ ค๋ ๋ง๊ฐ์ง์ง ์์: ๊ฐ์ฑ ์ ์ด์ ๋ฌ๋ฆฌ, ์ปดํ๋ผ์ด์ธ์ค ์ ์ด๋ ํ๊ฒฝ ์ถฉ๋์ด๋ ์์ธก ์ค์ฐจ์ ๋ถ๋๋ฝ๊ฒ ๋ฐ์ํฉ๋๋ค. ํ์ต๋ ์ ์ฑ ์ ์์ ์ค์ฐจ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํก์ํด์ฃผ๋ ์์ ์ฅ์น์ด์ง์.
- ์ผ๊ฐ๊ด๊ณ์ ์ ์ ์กฐ๊ฑด: ์์ ๋ณธ (target, actual, tactile) ์ผ๊ฐ๊ด๊ณ๋ compliance๊ฐ ์์ด์ผ ์๋ฏธ๊ฐ ์์ต๋๋ค. ๋ฌดํ ๊ฐ์ฑ ์ ์ด๊ธฐ์์๋ actual์ ํญ์ target๊ณผ ๊ฐ์ผ๋ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง์ฃ . PD-๊ธฐ๋ฐ ์ปดํ๋ผ์ด์ธ์ค๊ฐ actual โ target์ด๋ผ๋ โ๊ฐญโ์ ๋ง๋ค์ด์ฃผ๊ณ , ๊ทธ ๊ฐญ์ด ๊ณง ์ ์ด ์ ๋ณด๊ฐ ๋ฉ๋๋ค.
JungYeon๋์ด IsaacLab์ผ๋ก ๋ง์ด๊ทธ๋ ์ด์
ํ์๋ฉฐ ๋ค๋ฃจ์
จ๋ PD vs PID, gain handling, angular_damping ๋ํดํธ ๋ณ๊ฒฝ ๊ฐ์ ๋ํ
์ผ๋ค์ด ์ ํํ ์ด ์ปดํ๋ผ์ด์ธ์ค ๋์ญํ์ ์ข์ฐํ๋ ๋
ธ๋ธ๋ค์
๋๋ค. CGP๊ฐ sim2real์์ ์๋ํ๋ ค๋ฉด ์ด ๋ถ๋ถ์ ์ ํ์ฑ์ด ๊ฒฐ์ ์ ์ผ ์๋ฐ์ ์์ฃ .
์คํ: ์ ๋ง ์๋ํ๋๊ฐ?
ํ๋์จ์ด์ ํ์คํฌ
| ํ๊ฒฝ | ์ | ์ด๊ฐ ์ผ์ | ํ์คํฌ |
|---|---|---|---|
| Sim | Tesollo DG-5F (5-finger) | Dense whole-hand tactile array | Fragile Egg Grasping, Dish Wiping, In-Hand Box Flipping |
| Real | Allegro V5 (4-finger) | Digit360 fingertip (vision-based) | Jar Opening, In-Hand Box Flipping |
ํฅ๋ฏธ๋ก์ด ์ ์ ๋ ์ข ๋ฅ์ ์ด๊ฐ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ(dense array vs vision-based)์์ ๊ฐ์ framework๊ฐ ์๋ํ๋ค๋ ์ ์ ๋๋ค. VAE ๋ฐฑ๋ณธ๋ง ๊ฐ์๋ผ์ฐ๋ฉด ๋๋, ์ด๋ latent tactile diffusion ์ค๊ณ์ ์ผ๋ฐ์ฑ ์ฃผ์ฅ์ ๋ท๋ฐ์นจํฉ๋๋ค.
๋ฐ์ดํฐ๋ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์์ง๋ฉ๋๋ค. ์ค์ ๋ก๋ด์ mocap ๊ธฐ๋ฐ hand-tracking, ์๋ฎฌ๋ ์ด์ ์ VR ํ ๋ ์คํผ๋ ์ด์ . JungYeon๋์ด ์ต์ํ์ MANUS Core 3 + ROS2 ๊ธ๋ฌ๋ธ ํ ๋ ์คํผ๋ ์ด์ ์ด๋ GeoRT/dex-retargeting ๋ผ์ธ์ ์์ ๊ณผ ๊ฐ์ ๊ฒฐ์ ๋ฐ์ดํฐ ์์ง ์ธํ๋ผ์ ๋๋ค.
์ธ ๊ฐ์ง ํ๊ฐ ์ถ
๋ ผ๋ฌธ์ ํ๊ฐ๋ฅผ ์ธ ๊ฐ๋๋ก ๊น๋ํ๊ฒ ๋๋๋๋ค.
- End-to-end ์ ์ฑ ์ฑ๊ณต๋ฅ : ์๋ฎฌ๋ ์ด์ 3๊ฐ, ์ค์ 2๊ฐ ํ์คํฌ์์ closed-loop rollout ์ฑ๊ณต๋ฅ .
- ์ ์ด-์ผ๊ด์ฑ ๋งคํ isolation ํ๊ฐ: M_\phi๋ง ๋ผ์ด๋ด์ (state, tactile) โ target ํ๊ท ์ ํ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ธก์ .
- ์ ์ฌ ์ด๊ฐ ํํ ๋ถ์: KL ์ ๊ทํ ์ ๋ฌด, ์ ์ฌ ์ฐจ์, VAE ๋ฐฑ๋ณธ ๋ฑ design choice๊ฐ ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ.
์ด ๋ถ๋ฆฌ๋ ๋งค์ฐ ์ข์ ํ๊ฐ ์ค๊ณ์ ๋๋ค. ์๋ํ๋ฉด end-to-end ์ฑ๊ณต๋ฅ ๋ง ๋ณด๋ฉด โ์ ์ด๊ฒ ์ ๋๋์งโ ์ ์ ์๊ณ , ์ปดํฌ๋ํธ๋ณ ํ๊ฐ๋ง ๋ณด๋ฉด โ์ ์ฒด ์์คํ ์ด ์ ๋ง ํตํฉ๋ผ์ ์๋ํ๋์งโ ์ ์ ์๋๋ฐ, ๋ ๋ค๋ฅผ ๋ณด์ฌ์ฃผ๋๊น์.
๊ฒฐ๊ณผ ์์ฝ: baseline ๋๋น ์ ์ฑ์ ์ฐจ์ด
๋ ผ๋ฌธ์ visuomotor DP, visuotactile DP๋ฅผ baseline์ผ๋ก ๋น๊ตํฉ๋๋ค. ์ ํํ ์์น๋ ๋ ผ๋ฌธ์ ๋ณด์๋ ๊ฒ ์ข์ง๋ง, ์ ์ฑ์ ํจํด์ ์ด๋ ์ต๋๋ค.
- In-Hand Box Flipping: Visuomotor DP๋ ์ฌ๋ฆฝ์ผ๋ก ์คํจ. Visuotactile DP๋ ํ์ ๋ถ์กฑ(incomplete flip)์ผ๋ก ์คํจ. CGP๋ ๋ค์ ์ ์ด์ ๋จ๊ณ์ ์ผ๋ก ์ฎ๊ฒจ๊ฐ๋ฉฐ ์์.
- Fragile Egg Grasping: Baseline๋ค์ too-stiff motion์ผ๋ก ๊ณ๋ ํ๊ดด. CGP๋ ๋ถ๋๋ฌ์ด ์ ์ด ์ ์ง.
- Dish Wiping: ๊ณก๋ฉด์ ๋ฐ๋ผ๊ฐ๋ฉฐ ์ผ์ ์๋ ฅ์ ์ ์งํด์ผ ํ๋ ํ์คํฌ. Baseline์ ์๋ ฅ ๋ถ์กฑ ๋๋ ๊ณผ์. CGP๋ ๊ณก๋ฅ ๋ณํ์ ๋ง์ถฐ ์ ์ด ์งํ.
์์ธก ๊ฒ์ฆ: โ์์ธโ์ด ๋ง๋๊ฐ?
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ ์ฑ์ ๊ฒฐ๊ณผ ์ค ํ๋๋ ์์ธก vs ๊ด์ธก ์ด๊ฐ์ ์๊ฐ ์ ๋ ฌ ๋น๊ต์ ๋๋ค. CGP๊ฐ ์์ t์์ ์์ธกํ ๋ฏธ๋ ์ด๊ฐ ์ ํธ \widehat{\text{tac}}_{t+h}์, ์ค์ ๋ก ๋์ค์ ๊ด์ธก๋ \text{tac}_{t+h}๋ฅผ ์๊ฐ ์ถ์ผ๋ก ์ ๋ ฌํด ์๊ฐ์ ์ผ๋ก ๊ฒน์ณ๋ณด๋ ๊ฑฐ์ ์ผ์นํฉ๋๋ค.
์ด๊ฒ ์๋ฏธ์ฌ์ฅํ ์ด์ ๋: ์ ์ฑ ์ด ๋จ์ํ โ๊ทธ๋ด๋ฏํ ํ๋โ์ ์์ธกํ๋ ๊ฒ ์๋๋ผ, โ๋ด๊ฐ ๋ง๋ค ์ ์ด์ด ์ด๋ ๊ฒ ์งํํ ๊ฒ์ด๋คโ๋ผ๋ ๋ฌผ๋ฆฌ์ ์์ธ์ ๋ด๊ณ ๊ทธ๊ฒ์ ์ค์ ๋ก ์คํํ๊ณ ์๋ค๋ ์ฆ๊ฑฐ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. Diffusion world model์์ โrollout์ด ํ๊ฒฝ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋๋โ๊ฐ ๋ณธ์ง์ ์ธ ์ง๋ฌธ์ธ๋ฐ, CGP์ ์ ์ฌ ์ด๊ฐ ์์ธก์ ๊ทธ ๊ฒ์ฆ์ ์์ฐ์ค๋ฝ๊ฒ ํต๊ณผํ ์ ์ ๋๋ค.
์๊ฐ์ ๊ฐ๊ฑด์ฑ
์ ์๋ค์ด ๋ฐ๋ก ๊ฐ์กฐํ๋ ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ: CGP๋ ์๊ฐ ์ธ๋์ ๊ฐํ๋ค. Box flipping ๋์ค ์นด๋ฉ๋ผ ์์ผ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ๊ฐ๋ ค๋ ์์ ์ด ์ด์ด์ง๋๋ค. ์ง๊ด์ ์ผ๋ก๋ ์ ์ฑ ์ด ์๊ฐ์๋ง ์์กดํ์ง ์๊ณ ์ด๊ฐ/proprioception์ ํจ๊ป grounding์ผ๋ก ์ฐ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๊ฐ์ด ๋์ด์ง๋ฉด ๋ค๋ฅธ ๋ ๋ณ์ด ์์๋ก ๋ ํฐ ๋น์ค์ ๊ฐ์ ธ๊ฐ๋ ์ ์ด์ง์. ๊ฐ์ ์ด์ ๋ก Visuotactile DP๋ณด๋ค ์๊ฐ corruption robustness๊ฐ ๋ ์ข๊ฒ ๋ํ๋ฉ๋๋ค.
์ถ๋ก ์๊ฐ
์ ์ฌ ๊ณต๊ฐ ๋ํจ์ ์ ๋์ ํ์ผ๋ ๋น์ฐํ ์ง๋ฌธ โ โ์ด์ ๊ฐ๋ฅํ ์๋์ธ๊ฐ?โ Figure 7์ ์ถ๋ก ์๊ฐ ๋น๊ต์์ CGP๋ visuomotor/visuotactile DP์ ๋น์ทํ ์์ค์ ์ถ๋ก ์๊ฐ์ 8-step DDIM ๊ธฐ์ค์ผ๋ก ๋ฌ์ฑํฉ๋๋ค. ์ฆ, ์ ์ฌ ์์ถ ๋๋ถ์ raw tactile์ ์ง์ ์์ฑํ ๋๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ณ , baseline ๋๋น ํฐ ์ค๋ฒํค๋ ์์ด ๋ ํ๋ถํ ์์ธก์ ํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์ : ์ฐ์ํ ๋ถ์
์ด ์์ ์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ์ถ์ํ์ ๊น๋ํจ์ ๋๋ค.
- ์ ์ด ํํ์ implicit ํ์ต: contact location, mode, friction์ ์ผ์ผ์ด ๋ชจ๋ธ๋งํ์ง ์๊ณ , โ์ผ์คํญ์ผ๋ก captures๋๋คโ๋ ๊ฐ์ ํ์ ๋ฐ์ดํฐ์์ ํ์ต. CTR(Contact Trust Region) ๊ฐ์ explicit MPC ๋ผ์ธ๊ณผ ์ ๋ฐ๋ ์ฒ ํ์ด์ง๋ง, ๊ทธ ์ฒ ํ์ด ์ผ๊ด์ฑ ์๊ฒ ๊ด์ฒ ๋ฉ๋๋ค.
- ์ปจํธ๋กค๋ฌ ์์์ ํ์ต(controller-aware learning): ์ ์ฑ ์ถ๋ ฅ์ โ์ปจํธ๋กค๋ฌ referenceโ๋ก ๋ช ์์ ์ผ๋ก ๋งคํํ๋ ์ ์ด CGP์ ๊ฐ์ฅ ํฐ ์ฐจ๋ณ์ ์ ๋๋ค. ๋๋ถ๋ถ์ imitation learning ์ ์ฑ ์ด โํ๋์ ํ๊ฒฝ์ด ์ด๋ป๊ฒ ํด์ํ ์งโ์ ๋ฌด์งํ ๋ฐ๋ฉด, CGP๋ ๊ทธ ์ธํฐํ์ด์ค๋ฅผ ํ์ต ์์ ๋์ด๋ค์์ต๋๋ค.
- ๋ชจ๋ฌ๋ฆฌํฐ ๋ฌด๊ด latent design: dense array๋ vision-based tactile์ด๋ ๊ฐ์ framework๋ก ๋ค๋ฃธ. ์ด ์ ์ ํฅํ GelSight, DIGIT, ReSkin, BioTac ๋ฑ ๋ค์ํ ์ผ์๋ก ํ์ฅํ๊ธฐ ์ข์ ๊ตฌ์กฐ์ ๋๋ค.
ํ๊ณ 1: ์ปจํธ๋กค๋ฌ ๊ณ ์ ๊ฐ์
CGP๋ ๋ช ์์ ์ผ๋ก โ๊ณ ์ ๋ ์ปดํ๋ผ์ด์ธ์ค ์ปจํธ๋กค๋ฌ์ ์ผ์ ์ค์ โ์ ๊ฐ์ ํฉ๋๋ค. ์ด๊ฒ ์ค์ฉ์ ์ผ๋ก ์๋ฏธํ๋ ๋ฐ:
- K_p, K_d๋ฅผ ๋ฐ๊พธ๋ฉด M_\phi๋ฅผ ๋ค์ ํ์ตํด์ผ ํฉ๋๋ค. Stiffness scheduling์ด๋ variable impedance ์ปจํธ๋กค(์์ฆ contact-rich์์ ๋ง์ด ์ฐ๋)๊ณผ ์ ์ ๋ง์ ์ ์์ต๋๋ค.
- ์ผ์๋ฅผ ๊ต์ฒดํ๋ฉด VAE์ M_\phi ๋ชจ๋ ์ฌํ์ต. ์ธ๋์คํธ๋ฆฌ ๋ฐฐํฌ์์๋ ๋ถ๋ด์ค๋ฌ์ธ ์ ์์ต๋๋ค.
์ด๋ ๋ณธ์ง์ ์ผ๋ก system identification ๋น์ฉ์ ๋ฐ์ดํฐ ์์ง + supervised learning์ผ๋ก ์ฐํํ๋ trade-off์ ๋๋ค. JungYeon๋๊ป์ ์งํํ์ Allegro์ friction modeling ๋ฐ system identification ์์ ๊ณผ ๊ฒฐ์ ๊ฐ์ด ํ๋ฉด์๋, ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋น์ฉ์ ๋ถ์ฐ์ํค๋ ์ ๊ทผ์ด๋ผ ๋น๊ต๊ฐ ํฅ๋ฏธ๋กญ์ต๋๋ค.
ํ๊ณ 2: ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ ์์กด
CGP๋ imitation learning์ด๋ผ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ณ , ๋ค์ง ํ ๋ ์คํผ๋ ์ด์ ์ ์ฌ์ ํ ๋น์ผ ์์์ ๋๋ค. ๋ค์ ์ง๋ฌธ๋ค์ ๋ ผ๋ฌธ์ด ์ง์ ๋ตํ์ง ์์ต๋๋ค.
- ์์ฐ ์์ ๋ํ scaling์ ์ด๋ป๊ฒ ๋๋๊ฐ? (50๊ฐ vs 200๊ฐ vs 1000๊ฐ)
- ํ ํ์คํฌ์์ ํ์ตํ M_\phi๊ฐ ๋ค๋ฅธ ํ์คํฌ๋ก transfer๋๋๊ฐ? (์ด๋ก ์ ์ผ๋ก๋ ์ปจํธ๋กค๋ฌ+์ผ์๊ฐ ๊ฐ์ผ๋ฉด ๋๋ transfer ๊ฐ๋ฅํด์ผ ํจ)
- HORA, RotateIt, AnyRotate ๊ฐ์ RL ๋ผ์ธ๊ณผ ๊ฒฐํฉ ๊ฐ๋ฅํ๊ฐ? (์ฆ, RL๋ก ๋ฐ์ดํฐ๋ฅผ self-collectํ๊ณ CGP์ contact grounding์ผ๋ก ๋ถ๋๋ฝ๊ฒ ๋ง๋ค๊ธฐ)
ํ๊ณ 3: ์ผ๋ฐํ ๋ฒ์์ ๋ฏธ์ง
๋ ผ๋ฌธ์ด ๋ณด์ฌ์ฃผ๋ ํ์คํฌ๋ค์ ๋ชจ๋ ๊ฐ์ฒด ๋๋ ๊ฑฐ์ ๊ฐ์ฒด์ ๋๋ค. ๋ณํ์ฒด(์ฒ wiping์ ๋๊ตฌ๊ฐ ๊ฐ์ฒด), ์ ์ฑ ์ ์ฒด, ์ ์ ๋งค์ฒด ๊ฐ์ ์ง์ง hard contact-rich domain์์ ์ ์ฌ ์ด๊ฐ ์์ธก์ด ์์ ์ ์ผ์ง๋ ๋ณ๊ฐ์ ์ง๋ฌธ์ ๋๋ค. KL ์ ๊ทํ๋ latent space๊ฐ ๋ถํฌ ์ธ ์ ์ด ํจํด(์: ์ง๋, ์ํฉํธ, ๋ถ๋ถ ์ฌ๋ฆฝ)์ ํํํ ์ ์๋์ง๋ ์ถ๊ฐ ์คํ์ด ํ์ํด ๋ณด์ ๋๋ค.
ํ๊ณ 4: world model๋ก์์ ํ์ฉ ๊ฐ๋ฅ์ฑ
์ ๋ ์ด ๋ ผ๋ฌธ์์ ํฌ๊ฒ ๋งค๋ ฅ์ ๋๋ผ๋ ํ ์ธก๋ฉด์ด ์ ์ฌ๋ ์ฑ ํ์ฉ๋์ง ์์๋ค๊ณ ๋ด ๋๋ค โ CGP์ latent tactile predictor๋ ์ฌ์ค์ ์์ world model์ ๋๋ค. ๋ฏธ๋ (state, tactile)์ ์์ธกํ๋ ๋ชจ๋ธ์ด๋๊น์. ๊ทธ๋ผ ์ด๊ฑธ model-based RL์ dynamics model์ด๋, planning์ ์ํ prediction backbone์ผ๋ก ์ธ ์ ์์ง ์์๊น? ๋ ผ๋ฌธ์ ์ด ๊ฐ๋ฅ์ฑ์ ์ง์ ๋ค๋ฃจ์ง ์์ง๋ง, dexterous MBRL์ด๋ VLA + RL hybrid ๋ผ์ธ์์ ํฅ๋ฏธ๋ก์ด ํ์ ์ฐ๊ตฌ ํฌ์ธํธ์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต: ์ด๋์ ์๋ฆฌ ์ก๋๊ฐ?
flowchart TB
A[Contact-Rich<br/>Dexterous Manipulation]
A --> RL[Model-Free RL<br/>Approaches]
A --> MPC[Model-Based<br/>MPC Approaches]
A --> IL[Imitation Learning<br/>Approaches]
RL --> HORA["HORA<br/>(in-hand rotation, RL)"]
RL --> AnyR["AnyRotate<br/>RotateIt"]
RL --> DEX["DeXtreme<br/>(massive sim)"]
MPC --> CTR["CTR<br/>Contact Trust Region"]
IL --> DP["Diffusion Policy<br/>(visuomotor)"]
IL --> VtacDP["Visuotactile DP<br/>(tactile as obs)"]
IL --> RDP["Reactive Diffusion<br/>Policy (slow-fast)"]
IL --> HDP["Hierarchical DP<br/>(contact guidance)"]
IL --> CGP["**Contact-Grounded<br/>Policy (this paper)**"]
style CGP fill:#cfe8ff,stroke:#1a73e8,stroke-width:3px
CGP vs Visuotactile Diffusion Policy
๊ฐ์ฅ ์ง์ ์ ์ธ ๋น๊ต ๋์์ ๋๋ค. ๋ ๋ค ์๊ฐ+์ด๊ฐ ์ ๋ ฅ์ ๋ฐ๊ณ diffusion์ผ๋ก ์์ธกํฉ๋๋ค. ์ฐจ์ด๋ ๋จ ํ๋, ๋ฌด์์ ์์ธกํ๋๋์ ๋๋ค.
- Visuotactile DP: ์ถ๋ ฅ = ๋ฏธ๋ target robot state (kinematic).
- CGP: ์ถ๋ ฅ = ๋ฏธ๋ (actual robot state, tactile latent), ๊ทธ ํ M_\phi๋ฅผ ํตํด target์ผ๋ก ๋ณํ.
์ด ํ ์ค์ ์ฐจ์ด๊ฐ contact realization์์ ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋ง๋ญ๋๋ค. CGP์ ์ถ๋ ฅ์ ๋ณธ์ง์ ์ผ๋ก โ๋ด๊ฐ ๋ง๋ค๊ณ ์ถ์ ์ ์ด ๊ทธ ์์ฒดโ์ธ ๋ฐ๋ฉด, visuotactile DP์ ์ถ๋ ฅ์ โ๊ทธ ์ ์ด์ ๋ง๋ค ๊ฑฐ๋ผ๊ณ ์ถ์ ๋๋ referenceโ์ ๋๋ค. ํ์๋ ์ปจํธ๋กค๋ฌ ๋์ญํ์ ์ ์ฑ ์ด ์๋ฌต์ ์ผ๋ก ํ์ตํด์ผ ํ์ง์.
CGP vs Reactive Diffusion Policy (RDP)
RDP๋ slow-fast hierarchical ๊ตฌ์กฐ๋ก latent diffusion + ๋น ๋ฅธ tactile feedback fine-tuning์ ํฉ๋๋ค. ๋น์ทํ ์ : ๋ ๋ค latent space, ๋ ๋ค tactile ํ์ฉ. ๋ค๋ฅธ ์ :
- RDP์ fast network๋ latent action chunk๋ฅผ tactile์ ๋ฐ๋ผ ๋ฏธ์ธ์กฐ์ ํ๋ closed-loop tuner.
- CGP์ M_\phi๋ (state, tactile) โ target์ ์ ์ ๋งคํ.
RDP๋ ๋ฐ์ ์๋๋ฅผ, CGP๋ ์ ์ด grounding ์ ํ์ฑ์ ๊ฐ์กฐํ๋ ์ ์ ๋๋ค. ๋ ๋ผ์ธ์ด ๊ฒฐํฉ๋๋ฉด ํฅ๋ฏธ๋ก์ธ ๋ฏํฉ๋๋ค โ CGP์ contact-consistency mapping์ ๋น ๋ฅด๊ฒ ์ ์ฉํ๋ฉด์ ๋ฏธ์ธ ๋ณด์ ์ RDP ์คํ์ผ๋ก ํ๋ฉด.
CGP vs Hierarchical Diffusion Policy (HDP)
HDP๋ contact โ์์นโ๋ฅผ ๋ช ์์ ์ผ๋ก ์์ธกํ๊ณ ์ด๋ฅผ condition์ผ๋ก trajectory๋ฅผ ์์ฑํฉ๋๋ค. CGP๋ ์ ์ด์ (state, tactile) latent๋ก implicitํ๊ฒ ๋ค๋ฃน๋๋ค.
| ์ธก๋ฉด | HDP | CGP |
|---|---|---|
| ์ ์ด ํํ | Explicit (3D contact position) | Implicit (state-tactile triplet) |
| ๋ค์ ์ ์ด | ๋จ์ผ contact ์ค์ฌ | Distributed multi-point ์์ฐ ์ง์ |
| ์๊ฐ๋ฝ ์ | Gripper ์์ฃผ | Multi-finger hand ํ์ |
| ์ปจํธ๋กค๋ฌ ํตํฉ | Loose | Tight (M_\phi๋ก ๋ช ์) |
CGP๊ฐ ๋ค์ง ์์ ๋ ์์ฐ์ค๋ฌ์ด ์ด์ ๊ฐ ์ฌ๊ธฐ์ ๋๋ฌ๋์ง์. ๋ค์ฏ ์๊ฐ๋ฝ์ด ๋์์ ๋ง๋ค์ด๋ด๋ ์ ์ด ํจ์น๋ค์ ์ขํ๋ก ์ผ์ผ์ด ์ถ์ ํ๊ธฐ๋ ์ด๋ ต์ง๋ง, latent๋ก ๋ฌถ์ด ํํํ๋ฉด ์์ฐ์ค๋ฝ์ต๋๋ค.
์์ฌ์ : ํ์ฅ ์ฐ๊ตฌ์์๊ฒ ๋ฌด์์ ์๋ฏธํ๋๊ฐ
CGP๊ฐ ๋ง๋ฅ ํด๋ฒ์ ์๋๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์ ๋ค์ง ์กฐ์ ์ ์ฑ ์ค๊ณ์์ ๋ค์์ ๋ช ์ ๋ฅผ ๊ฐํ๊ฒ ๋๋ฌ๋ ๋๋ค.
- โ์ปจํธ๋กค๋ฌ๋ฅผ ์ ์ฑ ์ค๊ณ์ ๋ช ์์ ์ผ๋ก ๋์ด๋ค์ฌ๋ผ.โ Reference์ actual ์ฌ์ด์ ๊ฐญ์ด ๊ณง ์ ์ด ์ ๋ณด๋ค. ๊ฐ์ฑ ์ ์ด ์์ ์ ์ฑ ์ ์ฌ๋ฆฌ๋ ๊ดํ์ ์ ์ด์ด ํ๋ถํ ์์ญ์์ ์ ์ฑ ์ ํ์ต ๋ถ๋ด์ ํค์ด๋ค.
- โ์ ์ด์ ์ง์ ๋ชจ๋ธ๋งํ์ง ๋ง๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ธ๋งํ๋ผ.โ Contact location/mode/friction์ ์ผ์ผ์ด ์ถ์ ํ๋ ๋์ , ๊ทธ๊ฒ์ด ๋ง๋ค์ด๋ด๋ (state, tactile) ํ์ด๋ฅผ ํ์ตํด implicitํ๊ฒ ๋ค๋ฃจ๋ ํธ์ด ๋ค์ง/๋ค์ ์ ์ด์์ ๋ ํ์ฅ์ฑ์ด ์ข๋ค.
- โ์ ์ฌ ๊ณต๊ฐ์ด ๋ค์ง ์ด๊ฐ์ ๋ค๋ฃจ๋ ์์ฐ์ค๋ฌ์ด ์ธ์ด๋ค.โ Raw tactile์ ๋๋ฌด ๋ฌด๊ฒ๊ณ noisyํ๋ค. KL ์ ๊ทํ๋ latent๋ก ์์ถํด์ผ ์์ ์ ์ธ generative modeling์ด ๊ฐ๋ฅํ๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
Contact-Grounded Policy๋ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด ์ด๋ ์ต๋๋ค.
โ๋ค์ง ์กฐ์ ์ ์ฑ ์ ์ถ๋ ฅ์ ์ด๋ํ ํ๊ฒ์ด ์๋ ์ปจํธ๋กค๋ฌ๊ฐ ์คํํ ์ ์ด์ ์งํ๋ก ์ ์ํ๊ณ , ๊ทธ๊ฒ์ ์ ์ฌ ๊ณต๊ฐ์์ diffusion์ผ๋ก ์์ฑํ ๋ค ํ์ต๋ ๋งคํ์ผ๋ก ์ปจํธ๋กค๋ฌ reference๋ก ๋ฒ์ญํ๋ค.โ
์ด ํ ๋ฌธ์ฅ ์์ ์ธ ๊ฐ์ง ๊ฒฐ์ ์ด ๋ค์ด ์์ต๋๋ค.
- ํํ(Representation): ์ ์ด์ (target, actual, tactile) ์ผ์คํญ์ผ๋ก implicitํ๊ฒ ์ ์.
- ์์ฑ(Generation): ์ ์ฌ ๊ณต๊ฐ์์ conditional diffusion์ผ๋ก (actual, tactile) ๋ฏธ๋ ๊ถค์ ์ํ๋ง.
- ์คํ(Realization): ํ์ต๋ M_\phi๋ก ์ ์ฌ ์์ธก์ ์ปจํธ๋กค๋ฌ reference๋ก ๋ฒ์ญ.
๊ฐ ๊ฒฐ์ ์ ๋จ๋ ์ผ๋ก๋ ์ด๋ฏธ ์๋ ค์ง ๋๊ตฌ์ง๋ง, ์ธ ๊ฒฐ์ ์ ๊ฒฐํฉ์ด ๋ค์ง ์กฐ์ imitation learning์์ ์๋ก์ด ์ ์ถฉ์ ์ ๋ง๋ญ๋๋ค. ์๊ฐ ์ธ๋ ๊ฐ๊ฑด์ฑ, baseline ์คํจ ๋ชจ๋(์ฌ๋ฆฝ/๊ณผ์) ํํผ, ๋ชจ๋ฌ๋ฆฌํฐ ์ผ๋ฐ์ฑ์ด ๊ทธ ๊ฒฐํฉ์ ๊ฒฐ์ค์ ๋๋ค.
๋จ์ ํฅ๋ฏธ๋ก์ด ์ง๋ฌธ๋ค โ RL๊ณผ ๊ฒฐํฉ ๊ฐ๋ฅํ๊ฐ? Variable impedance์ ํ์ฅ๋ ์ ์๋๊ฐ? Latent tactile predictor๋ฅผ world model๋ก ์ง์ ํ์ฉํ ์ ์๋๊ฐ? ๋น๊ฐ์ฒด/์ ์ฒด์์๋ ์๋ํ๋๊ฐ? โ ์ด๋ฐ ์ง๋ฌธ๋ค์ด ํ์ ์ฐ๊ตฌ์ ํ๋ถํ ์งํ์ ์ด์ด์ค๋๋ค.
๋ค์ง ์กฐ์ ์ฐ๊ตฌ๊ฐ ๊ฒฐ๊ตญ ๋๋ฌํ๋ ค๋ ๋ชฉํ๋ โ์ธ๊ฐ ์์ฒ๋ผ ์ ์ด์ ํตํด ์ฌ๊ณ ํ๋ ๋ก๋ดโ์ด์ง์. CGP๋ ๊ทธ ๊ธธ๋ก ํ ๊ฑธ์์ ๋ด๋์์ต๋๋ค. ๊ทธ ๊ฑธ์์ด ์ฐ์ํ ์ด์ ๋, ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ช ํ ๊ฒ ์๋๋ผ ์ด๋ฏธ ์๋ ๋๊ตฌ๋ค์ ์ ์ด์ด๋ผ๋ ๋ฌผ๋ฆฌ์ ์ค์ฒด์ ๋ง์ถฐ ์ ํํ ์๋ฆฌ์ ๋ฐฐ์นํ ๋ฐ ์๋ค๊ณ ๋ด ๋๋ค.
์ข์ ์์คํ ์ ์๋ก์ด ๋ถํ์ผ๋ก ๋ง๋๋ ๊ฒ ์๋๋ผ, ์ต์ํ ๋ถํ ์ฌ์ด์ interface๋ฅผ ๋ค์ ๊ทธ๋ ค์ ๋ง๋ ๋ค โ CGP๋ ๊ทธ ๊ตํ์ ๋ค์ง ์กฐ์ ์์ญ์์ ํ ๋ฒ ๋ ๋ณด์ฌ์ค ์์ ์ ๋๋ค.
์ฐธ๊ณ ์๋ฃ
- ๋ ผ๋ฌธ (arXiv): https://arxiv.org/abs/2603.05687
- ํ๋ก์ ํธ ํ์ด์ง: https://contact-grounded-policy.github.io/
- ์ถ์ฒ: Robotics: Science and Systems (RSS), 2026
- ์ ์: Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar (Purdue / Meta Reality Labs Research / UW-Madison)