๐Contact Trust Region ๋ฆฌ๋ทฐ(feat.Dextreme)
CTR vs DeXtreme: ๋ฅ์ํ ์ ์ด ์กฐ์์ ํฅํ ๋ ๊ฐ๋ ๊ธธ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด ๊ณํ(MPC-CTR)๊ณผ ๊ฐํํ์ต ๊ธฐ๋ฐ ์กฐ์(DeXtreme)์ ์ํ์ ์๋ฆฌ์ ๊ตฌ์กฐ๋ฅผ ๊น์ด ๋ถ์ํ๊ณ , ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ ๊ด์ ์์ ๋น๊ต
- ์ด ๋ ผ๋ฌธ์ ์ ํต์ ์ธ ํ์ํ ์ ๋ขฐ ์์ญ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ํธ์ธก ์ ์ด ์ญํ์ ๊ณ ๋ คํ๋ Contact Trust Region (CTR)์ ์ ์ํฉ๋๋ค.
- ๐ค CTR์ ๊ธฐ๋ฐ์ผ๋ก, ์ ์๋ค์ ํจ์จ์ ์ธ ๋ก์ปฌ Model Predictive Control (MPC) ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ๊ณ , ์ด๋ฅผ ์ด๊ธฐ ์ถ์ ํด๋ฆฌ์คํฑ ๋ฐ ๋น๋ฒํ ์ฌ๊ณํ๊ณผ ๊ฒฐํฉํ์ฌ ๋ณต์กํ ์ ์ด ์กฐ์ ์์ ์ ๋ํ ์์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐บ๏ธ ์ ์๋ CTR ๊ธฐ๋ฐ ๋ก์ปฌ MPC๋ ๋ก๋๋งต ํ๋ ์์ํฌ์ ํตํฉ๋์ด ์ ์ญ ๊ณํ์ ์ํํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํจ์ฌ ์ ์ ๊ณ์ฐ ์๊ฐ์ผ๋ก ์ํ ๋ก๋ด ๋ฐ Allegro hand์ ๊ฐ์ ๋ณต์กํ ์์คํ ์์ ๋ฅ์ํ ์กฐ์์ ์์ฐํฉ๋๋ค.
Brief Review
๋ณธ ๋ ผ๋ฌธ โDexterous Contact-Rich Manipulation via the Contact Trust Regionโ์ ๋ก๋ด์ ๋ฅ์ํ๊ณ ์ ์ด์ด ๋ง์ ์กฐ์(dexterous contact-rich manipulation)์ ์ํ ํจ์จ์ ์ธ ์ง์ญ์ ๋์ญํ ๋ชจ๋ธ๊ณผ ๊ทธ ์ ๋ขฐ ์์ญ(trust region)์ ์ ์ํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ๊ธฐ์กด์ ๋ง์ ์ ๊ทผ ๋ฐฉ์์ ๋์ญํ์ Taylor ๊ทผ์ฌ์ ํ์ํ trust region์ ์์กดํ์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฐฉ์์ด ์ ์ด์ ๋น๋์นญ์ฑ(unilateral nature)๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ผ๊ด๋์ง ์๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ ์ ์ด์ ๋น๋์นญ์ฑ์ ํฌ์ฐฉํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ Contact Trust Region(CTR)์ ์ ์ํ๋ค. CTR์ ๊ธฐ๋ฐ์ผ๋ก, ๋จผ์ ์ง์ญ์ ์ธ ์ ์ด์ด ๋ง์ ๊ณํ์ ํฉ์ฑํ ์ ์๋ Model-Predictive Control(MPC) ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ๋ค. ๊ทธ ํ, ์ด ๊ธฐ๋ฅ์ ํ์ฅํ์ฌ ์ง์ญ MPC ๊ณํ๋ค์ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์ ์ญ์ ์ผ๋ก ๊ณํํ๊ณ ํจ์จ์ ์ด๋ฉฐ ๋ฅ์ํ ์ ์ด์ด ๋ง์ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ๋ ์ธ ๊ฐ์ง์ด๋ค. ์ฒซ์งธ, ์ ์ด ์ญํ์ ํจ์จ์ ์ผ๋ก ๊ทผ์ฌํ๋ Contact Trust Region(CTR)์ด๋ค. ๋์งธ, ์ง์ญ์ ์ธ ์ ์ด์ด ๋ง์ ์กฐ์์ ํนํ๋ ๋งค์ฐ ํจ์จ์ ์ธ ๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ MPC ์ปจํธ๋กค๋ฌ์ด๋ค. ์ ์งธ, ์ง์ญ ๊ถค์ ๋ค์ ์ฐ๊ฒฐํ๋ ์ ์ญ ํ๋๋์ด๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก : Contact Trust Region (CTR)
๋ณธ ๋ ผ๋ฌธ์ ์ ์ด ๋์ญํ์ Convex Quasidynamic Differentiable Contact(CQDC) ๋ชจ๋ธ๋ก ํํํ๋ค. ์ด๋ ์ ์ด ์๋ฎฌ๋ ์ด์ ์ ๋ค์ ํํ์ Second-Order Cone Program(SOCP)์ผ๋ก ์ ์ํํ๋ค: \begin{aligned} \min_{q_+} & \quad \frac{1}{2} q_+^\top P(q)q_+ + b(q, u)^\top q_+, \\ \text{subject to} & \quad J_i(q)q_+ + c_i(q) \in K_i, \quad \forall i \in I_c. \end{aligned} ์ฌ๊ธฐ์ q๋ ์์คํ ์ค์ (configuration), u๋ ๋ก๋ด์ ์ ์ด ์ ๋ ฅ(actuated configuration command), P, b, J_i, c_i๋ q, u์ ์์กดํ๋ ํ๋ ฌ/๋ฒกํฐ, I_c๋ ์ ์ด ์ ์ธ๋ฑ์ค ์งํฉ, K_i๋ ๊ฐ๋ฅํ ์๋(velocity)์ feasible cone์ด๋ค. ์ด SOCP์ KKT ์กฐ๊ฑด์ ์ค๋์ (quasi-dynamic) ์ด๋ ๋ฐฉ์ ์, ๋น๊ดํต(non-penetration), ๋ง์ฐฐ ์๋ฟ(friction cone), ์๋ณด์ฑ(complementarity) ์ ์ฝ์ ๋ง์กฑํ๋ค.
์ด ๋ชจ๋ธ์ ์ง์ ์ ์ธ ๋ฏธ๋ถ์ ์ ์ด ๋ชจ๋ ์ ํ์ผ๋ก ์ธํด ๊ธฐ์ธ๊ธฐ๊ฐ ๋ถ์ฐ์์ ์ด๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ ๋ก๊ทธ ๋ฐฐ๋ฆฌ์ด(log-barrier) ์ค๋ฌด๋ฉ์ ์ ์ฉํ ์ํ๋ ๋์ญํ f_\kappa(q,u)๋ฅผ ์ฌ์ฉํ๋ค. ์ด ์ํ๋ ๋์ญํ์ ์ค๋ฌด๋ฉ ํ๋ผ๋ฏธํฐ \kappa์ ์์กดํ๋ฉฐ, ์ ์ด์ด ์๋ ๊ฐ์ฒด ์ฌ์ด์๋ ํ์ ๋ฐ์์ํจ๋ค. ์ค๋ฌด๋ฉ๋ ๋์ญํ์ ๊ธฐ์ธ๊ธฐ๋ ๋ฏผ๊ฐ๋ ๋ถ์(sensitivity analysis)์ ํตํด ์ป์ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ smoothed dynamics์ Taylor ๊ทผ์ฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ ์ํ \hat{q}_+์ ์ ์ด๋ ฅ \hat{\lambda}_{+,i}์ ๋ํ ์ ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค: \begin{aligned} \hat{q}_+ &= A_\kappa \delta q + B_\kappa \delta u + f_\kappa(\bar{q}, \bar{u}), \\ \hat{\lambda}_{+,i} &= C_{\kappa,i} \delta q + D_{\kappa,i} \delta u + \lambda_{\kappa,i}(\bar{q}, \bar{u}). \end{aligned} ์ฌ๊ธฐ์ (\bar{q}, \bar{u})๋ ํ์ฌ nominal point์ด๊ณ (\delta q, \delta u)๋ perturbation์ด๋ค.
Ellipsoidal Trust Region (ETR)์ (\delta q, \delta u)์ ๋ํด \delta z^\top \Sigma \delta z \leq 1 ํํ์ ์ ์ฝ์ ๊ฐํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์ ์ด์ ๋น๋์นญ์ฑ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ค.
Contact Trust Region (CTR)์ ETR ์ ์ฝ์ ๋ํ์ฌ, ์ ์ ํ ๋ชจ๋ธ๋ก ์์ธก๋ ๋ค์ ์ํ \hat{q}_+์ ์ ์ด๋ ฅ \hat{\lambda}_{+,i}๊ฐ ์๋ ๋น์ํ๋ SOCP ๋์ญํ์ primal ๋ฐ dual feasibility constraint๋ฅผ ๋ง์กฑํด์ผ ํ๋ค๋ ์ ์ฝ์ ์ถ๊ฐํ๋ค: \begin{aligned} J_i \hat{q}_+ + c_i &\in K_i, \\ \hat{\lambda}_{+,i} &\in K_i^*. \end{aligned} ์ด๋ฌํ ์ ์ฝ์ ์ ํํ๋ ๋ณ์์ ๋ํด ๋ถ๊ณผ๋๋ฏ๋ก, CTR์ ์ฌ์ ํ ๋ณผ๋ก ์งํฉ(convex set)์ด๋ค (๊ตฌ์ฒด์ ์ผ๋ก, ์ฌ๋ฌ ๊ฐ์ second-order cone constraints์ ๊ต์งํฉ). Example 1๊ณผ 2๋ฅผ ํตํด, primal feasibility ์ ์ฝ(J_i \hat{q}_+ + c_i \in K_i)์ด ๋๋๋ก ์ค์ ๋๋ฌ ๊ฐ๋ฅํ ์์ญ๋ณด๋ค trust region์ ์ง๋์น๊ฒ ๋ณด์์ ์ผ๋ก ์ ํํจ์ ๋ณด์ฌ์ค๋ค.
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ primal feasibility ์ ์ฝ์ ์ํํ Relaxed Contact Trust Region (R-CTR)์ ์ ์ํ๋ค. R-CTR์ ETR ์ ์ฝ๊ณผ dual feasibility ์ ์ฝ(\hat{\lambda}_{+,i} \in K_i^*)๋ง์ ํฌํจํ๋ค. Example 3์ R-CTR์ ์ฌ์ฉํ Motion Set(์ ํํ๋ primal solution map์ ์ํ RA-CTR์ ์ด๋ฏธ์ง)์ด ๊ฐ์ฒด ์์ง์์ ์ง์ญ์ ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ๋ ์ ํฌ์ฐฉํจ์ ๋ณด์ฌ์ค๋ค. ๋ํ, RA-CTR๊ณผ ๊ทธ์ ๋ฐ๋ฅธ Wrench Set, Motion Set ๊ฐ๋ ์ ๊ณ ์ ์ ์ธ ์ ์ด ์ญํ ๊ฐ๋ ๊ณผ ์ฐ๊ฒฐ๋ ์ ์์์ ์ด๋ก ์ ์ผ๋ก ๋ณด์ธ๋ค (Lemma 2).
์ง์ญ ๊ณํ ๋ฐ ์ ์ด (Local Planning and Control)
์ ์๋ R-CTR์ ์ง์ญ ๊ถค์ ์ต์ ํ(trajectory optimization) ๋ฐ MPC์ ํ์ฉ๋๋ค. Algorithm 1์ R-CTR ์ ์ฝ์ ํฌํจํ๋ SOCP subproblem์ ๋ฐ๋ณต์ ์ผ๋ก ํด๊ฒฐํ์ฌ nominal trajectory๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ์์ด๋ค. ์ด ๋ฐฉ๋ฒ์ smoothed dynamics์ ์ ํ ๊ทผ์ฌ๋ฅผ ์ฌ์ฉํ์ง๋ง, R-CTR์ ํตํด ์ง์ญ์ ์ผ๋ก ์ ํจํ ์์ญ ๋ด์์ ๊ณํ์ด ์ด๋ฃจ์ด์ง๋๋ก ํ๋ค. ํนํ, ์ ์ด์ด ์๋ ์ด๊ธฐ ์ํ์์ ์์ํ ๊ฒฝ์ฐ, ๋ก๋ด์ด ๊ฐ์ฒด์ ์ ์ดํ๋๋ก ์ ๋ํ๋ ์ด๊ธฐ ์ถ์ธก ํด๋ฆฌ์คํฑ์ ์ ์ฉํ์ฌ ๊ณํ์ ํจ์จ์ฑ์ ๋์ธ๋ค. Example 4์ 5๋ ์ด ๋ฐฉ๋ฒ์ด ์ ์ด ๋ชจ๋ ์ ํ์ ํ์ํ๊ณ ๊ณํ์ ์ ๋ฆฌํ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋ค.
Algorithm 2๋ Algorithm 1์ MPC ํ๋ ์์ํฌ์ ์ ์ฉํ ๊ฒ์ด๋ค. ํ์ฌ ์ํ์์ ๋ฏธ๋ ์ํ๊น์ง์ ๊ถค์ ์ ๊ณํํ๊ณ , ๊ณํ๋ ์ฒซ ๋ฒ์งธ ์ ์ด ์ ๋ ฅ์ ์ค์ ์์คํ ์ ์ ์ฉํ ํ, ๋ค์ ์ํ๋ฅผ ๊ด์ฐฐํ์ฌ ๋ค์ ๊ณํ์ ์ํํ๋ค (re-planning).
์คํ ๊ฒฐ๊ณผ (Experiments)
๋ณธ ๋ ผ๋ฌธ์ IiwaBimanual (planar, 29 collision geometries) ๋ฐ AllegroHand (3D in-hand, 39 collision geometries) ๋ ๊ฐ์ง ์ ์ด์ด ๋ง์ ๋ก๋ด ์์คํ ์์ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ด์ ์ผ๋ก ํ๊ฐํ๋ค.
- CQDC ๋์ญํ์์์ ์ง์ญ MPC ์ฑ๋ฅ (Section 5):
- R-CTR, CTR, ETR์ ์ฌ์ฉํ๋ MPC์ ๋ชฉํ ๋๋ฌ ์ฑ๋ฅ(์ต์ข ๊ฐ์ฒด ์์น/ํ์ ์ค๋ฅ) ๋น๊ต.
- ์์ฑ๋ ๋ชฉํ๋ ์ง์ญ์ ์ผ๋ก ๋๋ฌ ๊ฐ๋ฅํ๋ MPC์ ๋์ ์ ์ธ ๋ชฉํ๋ค์ด๋ค (Figure 9).
- ๊ฒฐ๊ณผ(Figure 9, Table 2): R-CTR์ด ๋ ์์คํ ๋ชจ๋์์ ํ๊ท ์ค๋ฅ ๋ฐ ๋ถ์ฐ ์ธก๋ฉด์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ํนํ IiwaBimanual์์ CTR ๋ฐ ETR๋ณด๋ค ์ ์๋ฏธํ๊ฒ ์ฐ์ํ๋ค. AllegroHand์์๋ ์ฐจ์ด๊ฐ ๋น๊ต์ ์์๋๋ฐ, ์ด๋ ์์คํ ํน์ฑ์ bilateral contact regime์ด ๋ ์์ฃผ ํ์ฑํ๋ ์ ์๊ธฐ ๋๋ฌธ์ผ๋ก ์ถ์ธก๋๋ค.
- Trust region radius(r)์ MPC rollout horizon(H)์ ๋ํ ์คํ(Figure 10): ์ ์ ํ r๊ณผ H์์ ์ฑ๋ฅ์ด ์ต์ ํ๋๋ฉฐ, ๋๋ฌด ์์ r์ ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ์ ํํ๊ณ ๋๋ฌด ํฐ r์ ์ ํ ๊ทผ์ฌ์ ๋ถ์ ํ์ฑ์ผ๋ก ์ธํด ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ๊ธฐํ๋ค.
- 2์ฐจ ๋์ญํ ํ์์์ ์์ ํ ์ฑ๋ฅ (Section 6):
- CQDC ๋์ญํ ๋ชจ๋ธ๊ณผ ์ค์ ๋ฌผ๋ฆฌ(Drake ์๋ฎฌ๋ ์ด์ ๋ฐ ํ๋์จ์ด) ๊ฐ์ ์ฐจ์ด(ํนํ hydroplaning)๋ฅผ ๊ณ ๋ คํ ์์ ํ ์ฑ๋ฅ ํ๊ฐ.
- Algorithm 3์ ์ ์: MPC ๊ณํ์ ์ฌ๋ฌ ๋ฌผ๋ฆฌ ์คํ ์ ๊ฑธ์ณ ์คํํ๊ณ , ์ฌ๊ณํ ์ ํ์ฌ ๋ก๋ด ์ํ์ ๋ํด ์ด๊ธฐ ์ถ์ธก ํด๋ฆฌ์คํฑ์ ๋ค์ ์ ์ฉํ์ฌ ์ ์ด ์ ์ง๋ฅผ ๊ฐํ (MPCProj).
- Open-loop, No Heuristics, Closed-loop ์ธ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ ๋ณํ ํ๊ฐ.
- ๊ฒฐ๊ณผ(Figure 11, Table 4):
- Closed-loop MPC๋ Open-loop๋ณด๋ค ํจ์ฌ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ ์ด ๋์ญํ ๋ชจ๋ธ์ ๋ถ์ ํ์ฑ์๋ ๋ถ๊ตฌํ๊ณ ํผ๋๋ฐฑ์ด ์ค์ํจ์ ์์ฌํ๋ค.
- ์ด๊ธฐ ์ถ์ธก ํด๋ฆฌ์คํฑ ์ ์ฉ(Closed-loop vs. No Heuristics): ํ๊ท ์ค๋ฅ ๊ฐ์ ํจ๊ณผ๋ ์์ง๋ง, ์ ์ด ์์ค๋ก ์ธํ ํฐ ์ค๋ฅ ๋ฐ์ ๋น๋๋ฅผ ์ ์๋ฏธํ๊ฒ ์ค์๋ค (Figure 11 histogram). ํด๋ฆฌ์คํฑ ์ ์ฉ์ ๋ก๋ด ๊ฒฝ๋ก ๊ธธ์ด๋ฅผ ๋จ์ถ์ํค๋ ํจ๊ณผ๋ ์์๋ค (Figure 12).
- IiwaBimanual๊ณผ AllegroHand ๋น๊ต: AllegroHand ํ์คํฌ(in-hand manipulation)์ ๋ณธ์ง์ ์ธ ์ด๋ ค์(๋ฏธ๋๋ฌ์ง)์ผ๋ก ์ธํด IiwaBimanual๋ณด๋ค ํ๊ท ์ค๋ฅ๊ฐ ์ปธ๋ค.
- ํ๋์จ์ด ์คํ: ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์๋ค (Table 4).
์ ์ญ ๊ณํ (Global Planning)
์ง์ญ MPC๋ ๋นํ์์ ์์ง์์ด ํ์ํ ์ ์ญ ๋ชฉํ ๋ฌ์ฑ์ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ ์ง์ญ MPC์ ์ฅ์ ์ ํ์ฉํ๋ ๋ก๋๋งต(Roadmap) ๊ธฐ๋ฐ ์ ์ญ ๊ณํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
- ๋ชฉํ ์ํ ๊ธฐ๋ฐ ์ ์ด ์ค์ ์์ฑ (Section 7):
- ์ฃผ์ด์ง ๊ฐ์ฒด ์ํ(q_o)์ ๋ชฉํ(q_{og})์ ๋ํด, ์ง์ญ MPC๊ฐ ํจ์จ์ ์ผ๋ก ๋ชฉํ์ ๋๋ฌํ๋๋ก ์ ๋ฆฌํ ๋ก๋ด ์ค์ (q_a)์ ์ฐพ๋ ๋ฌธ์ ์ ์.
- ์ต์ ํ ๋ฌธ์ ์ ๋น์ฉ ํจ์๋ ์ง์ญ MPC์ ์ ํ ์๊ฐ ๊ฐ์น ํจ์(V)์ ๊ฐ๊ฑด์ฑ(robustness) regularizer(r)๋ฅผ ์กฐํฉํ๋ค. r์ RA-CTR ๊ธฐ๋ฐ wrench set์ ์ต๋ ๋ด์ ๊ตฌ ๋ฐ๊ฒฝ์ผ๋ก ์ ์๋๋ฉฐ, ์ด ์ค์ ์์ ๋ก๋ด์ด ๊ฐ์ฒด์ ์ผ๋ง๋ ํฐ ์ธ๋์ ๊ฒฌ๋ ์ ์๋์ง๋ฅผ ๋ํ๋ธ๋ค. ๋น์ฉ ํจ์๋ C(q_a; q_o, q_{og}) = V(q_a; q_o, q_{og}) - \alpha r(q_a; q_o)^2 ํํ์ด๋ค.
- ์ด ๋ฌธ์ ๋ ๋น๋ณผ๋กํ๋ฉฐ ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ ํด๋ฆฌ์คํฑ์ผ๋ก ํด๊ฒฐํ๋ค. AllegroHand์ ๊ฐ์ ๊ณ ์ฐจ์ ๋ก๋ด์ ๊ฒฝ์ฐ, reduced-order model (4๊ฐ์ sphere)์ ์ฌ์ฉํ๊ณ ๊ทธ ํด๋ฅผ ์ญ๊ธฐ๊ตฌํ(IK)์ผ๋ก ๋ก๋ด ์ค์ ์ ๋งคํํ๋ ํด๋ฆฌ์คํฑ์ ๋์ ํ๋ค.
- ๊ฒฐ๊ณผ(Figure 18, Table 6): AllegroHand์์ ์ง๊ด์ ์ด๊ณ ๋ชฉํ ๋ฌ์ฑ์ ํจ๊ณผ์ ์ธ ์ด๊ธฐ ๋ก๋ด ์ค์ ๋ค์ ์ฐพ์์ผ๋ฉฐ, MPC ๋กค์์ ๊ฒฐ๊ณผ 10mm ์ด๋ด์ ์์น ์ค๋ฅ์ 30mrad ์ด๋ด์ ํ์ ์ค๋ฅ๋ฅผ ๋ฌ์ฑํ๋ค.
- ๋ก๋๋งต ๊ธฐ๋ฐ ์ ์ญ ๊ณํ (Section 8):
- ์คํ๋ผ์ธ ๋จ๊ณ(Algorithm 4): ์์ ๊ณต๊ฐ์ ์ถฉ๋ถํ ์ปค๋ฒํ๋ ์์ ์ ์ธ ๊ฐ์ฒด ์ค์ ๋ค์ ํด๋นํ๋ ์ ์ด ์ค์ ๋ค์ ๋ก๋๋งต์ ์ ์ (vertices)์ผ๋ก ์์ฑํ๋ค. ๊ฐ ์ ์ ์์ ๋ํด ์ง์ญ MPC(๊ฐ์ฒด ๋ชฉํ ๋๋ฌ)์ ์ถฉ๋ ํํผ ๊ณํ(๋ก๋ด ์ฌ๋ฐฐ์น)์ ์์ฐจ์ ์ผ๋ก ์ ์ฉํ์ฌ ์ ์ด๊ฐ ์ฑ๊ณตํ๋ฉด ์์ง(edge)๋ฅผ ์ถ๊ฐํ๋ค (Figure 19). AllegroHand์ ๊ฒฝ์ฐ ๊ฐ์ฒด์ ๋์นญ์ฑ์ ํ์ฉํ์ฌ ๋ก๋๋งต ๊ตฌ์ถ์ ํจ์จํํ์ผ๋ฉฐ, ํ์ค ๋ ธํธ๋ถ CPU๋ง์ผ๋ก 10๋ถ ์ด๋ด์ ๋ก๋๋งต ๊ตฌ์ถ์ด ๊ฐ๋ฅํ๋ค. ํ๋์จ์ด์์ 150ํ ์ฐ์ ์์ง ์ ์ด์ ์ฑ๊ณตํ๋ฉฐ ๋ก๋๋งต์ ๊ฐ๊ฑด์ฑ์ ํ์ธํ๋ค.
- ์จ๋ผ์ธ ๋จ๊ณ: ์์์ ์์ ์ค์ ์์ ์์์ ๋ชฉํ ๊ฐ์ฒด ์ค์ ๊น์ง์ ๊ณํ์, ์์/๋ชฉํ๋ฅผ ๋ก๋๋งต์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ ์ ์ ์ฐ๊ฒฐํ ํ ๊ทธ๋ํ ์์์ ์ต๋จ ๊ฒฝ๋ก๋ฅผ ํ์ํ๋ ๋ฐฉ์์ผ๋ก ์ํ๋๋ค (Figure 20).
๊ฒฐ๋ก (Conclusion)
๋ณธ ๋ ผ๋ฌธ์ Contact Trust Region(CTR) ๊ฐ๋ ์ ํตํด ์ ์ด์ ๋น๋์นญ์ฑ์ ๊ณ ๋ คํ ์ง์ญ์ ๋์ญํ ๊ทผ์ฌ๋ฅผ ์ ๊ณตํ๊ณ , ์ด๋ฅผ ํ์ฉํ์ฌ ํจ์จ์ ์ธ MPC ๊ธฐ๋ฐ ์ง์ญ ๊ณํ ๋ฐ ์ ์ด ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค. ๋ํ, ์ ์ด ์ค์ ์์ฑ ๋ฐ ๋ก๋๋งต ๊ธฐ๋ฒ์ ํตํด ์ ์ญ์ ์ธ ์ ์ด์ด ๋ง์ ์กฐ์ ๊ณํ ๋ฅ๋ ฅ์ ๊ตฌํํ๋ค. ์ ์๋ ๋ฐฉ๋ฒ์ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๋์จ์ด ์คํ์ ํตํด ๊ทธ ์ฑ๋ฅ๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์ฆํ๋ค. ํนํ ์ฌ์ธต ๊ฐํ ํ์ต(deep RL) ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋นํด ํ์ ํ ๋ฎ์ ๊ณ์ฐ ์๊ฐ์ผ๋ก ๋ชฉํ ๋ฌ์ฑ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง ์ฌ์ ํ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค์ด ๋จ์์๋ค. ํน์ ๊ณํ ์คํจ์ ์์ธ, IiwaBimanual๊ณผ AllegroHand ๊ฐ feasibility constraint์ ์ญํ ์ฐจ์ด์ ๋ํ ๊น์ ์ดํด, ๊ทธ๋ฆฌ๊ณ CQDC์ hydroplaning๊ณผ ๊ฐ์ ๋ชจ๋ธ-ํ์ค ๋ฌผ๋ฆฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๊ณ ์ ์ด์ ๊ฐ๊ฑดํ๊ฒ ์ ์งํ๋ ๋ฌธ์ ๋ฑ์ ํฅํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ CTR, MPC, ์ ์ด ์ค์ ์์ฑ, ๋ก๋๋งต ๊ธฐ๋ฒ์ ์ ์ด์ด ๋ง์ ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ๊ฐ๋ ฅํ ๋๊ตฌ๋ค์ ์ ๊ณตํ๋ค.
Detail Review
CTR ์ต์ ํ ํ๋ ์์ํฌ
๊ฐ์: ์ ์ด ์ ๋ขฐ ์์ญ(Contact Trust Region, CTR)์ ๊ธฐ์กด์ ํ์ํ ์ ๋ขฐ์์ญ(Ellipsoidal Trust Region, ETR)์ ํ์ฅํ์ฌ, ์ ์ด ๋์ญํ์ ๋ฌผ๋ฆฌ ์ ์ฝ ์กฐ๊ฑด์ ๋ช ์์ ์ผ๋ก ํฌํจํ๋ ์๋ก์ด ์ ๋ขฐ์์ญ ๋ชจ๋ธ์ ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์ ํํ ์ค์ฐจ๋ฅผ ์ ์ดํ๋ ์์ ํ์ํ ์์ญ๋ฟ ์๋๋ผ, ์ ์ด ๊ฐ๋ฅ์ฑ ์ ์ฝ ์กฐ๊ฑด(์ผ๋ฐฉํฅ ์ ์ด๋ ฅ, ๋ง์ฐฐ ์๋ฟ ์ ์ฝ ๋ฑ)๋ ํจ๊ป ์ ์ฉํ์ฌ, ํ์ ๊ฐ๋ฅํ ์ง์ญ์ ํ์ค์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์ ๋ด๋ก ์ ํํ๋ ๊ฒ์ ๋๋ค.
1. ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ ์ด ๋์ญํ ๋ชจ๋ธ
CTR์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ ์ด ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํฉ๋๋ค. ํนํ, ์ด์ ์ฐ๊ตฌ์ธ Convex Quasi-Dynamic Contact (CQDC) ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก, ์ ์ด ๋์ญํ์ ๋ณผ๋ก ์ต์ ํ ๋ฌธ์ (SOCP ๋ฑ)๋ก ํํํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ํ๋ฉด ๋ค์ ์ํ๋ฟ ์๋๋ผ ์ ์ด๋ ฅ๊น์ง ๊ณ์ฐ๋๋ฉฐ, ์ํ์ ์ ์ด ์ ๋ ฅ์ ๋ํ ๊ฐ๋(Jacobian)๋ ํจ๊ป ์ป์ ์ ์์ต๋๋ค. ์ด๋ ์ ์ด๋ ฅ์ ์๋๋ณ์(dual variable)๋ก ๊ฐ์ฃผํ KKT ์กฐ๊ฑด ๋ฏผ๊ฐ๋ ํด์์ ํตํด ๊ฐ๋ฅํด์ง๋๋ค.
2. ์ํ ๋ฐ ์ ์ด๋ ฅ์ ์ ํํ
๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก, ๋ค์ ์ํ $+$์ ์ ์ด๋ ฅ $+$๋ ๋ค์๊ณผ ๊ฐ์ด ์ ํ ๊ทผ์ฌ๋ฉ๋๋ค:
- ์ํ ์ ๋ฐ์ดํธ: \hat{q}_+ = A_\kappa \, \delta q + B_\kappa \, \delta u + f_\kappa(\bar{q}, \bar{u})
- ์ ์ด๋ ฅ ์๋ต: \hat{\lambda}_{+,i} = C_{\kappa,i} \, \delta q + D_{\kappa,i} \, \delta u + \lambda_{\kappa,i}(\bar{q}, \bar{u})
์ด๋ ํ์ค์ ์ธ ์ํ ์ ํํ์ ๋ฌ๋ฆฌ, ์ ์ด๋ ฅ ๋ณํ๊น์ง ํจ๊ป ๊ทผ์ฌํ๋ฏ๋ก, ์ ์ด์ 1์ฐจ ์๋ต์ ์ ๋ฐํ๊ฒ ๋ฐ์ํ ์ ์์ต๋๋ค.
3. ์ ์ด ๊ฐ๋ฅ์ฑ ์ ์ฝ(Contact Feasibility Constraints)
CTR์ ์ ์ ํํ ๋ชจ๋ธ์ ๋ํด, ๋ค์๊ณผ ๊ฐ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ์ฝ์ ์ ์ฉํฉ๋๋ค:
๋น์นจํฌ ์กฐ๊ฑด (Primal feasibility): \hat{J}_i \, \hat{q}_+ + \hat{c}_i \in K_i โ ์ ์ด๋ฉด์์์ ์๋ ์ด๋์ด interpenetration์ ์ ๋ฐํ์ง ์๋๋ก ์ ํ
๋ง์ฐฐ ์๋ฟ ์กฐ๊ฑด (Dual feasibility): \hat{\lambda}_{+,i} \in K_i^* โ ๋ง์ฐฐ ๊ณ์ ๋ฐ ์ผ๋ฐฉํฅ ์ ์ด๋ ฅ ์กฐ๊ฑด(์ ์ ๋ง์ฐฐ๋ ฅ์ 0 ์ด์) ๋ณด์ฅ
์ด๋ฌํ ์กฐ๊ฑด์ 2์ฐจ์ ์๋ฟ ์ ์ฝ(SOCP) ํํ๋ก ์ ์ํ๋๋ฉฐ, ์ ๋ขฐ ์์ญ ๋ด์ ๋ชจ๋ ํ๋ณดํด๊ฐ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ง์กฑํ๋๋ก ๋ณด์ฅํฉ๋๋ค.
4. ์ ์ด ์ ๋ขฐ ์์ญ์ ์ํ์ ์ ์
CTR์ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ $(q, u)$์ ์งํฉ์ผ๋ก ์ ์๋ฉ๋๋ค:
- ํ์ํ ์ ์ฝ: \delta z^T \Sigma \delta z \leq 1 \quad (\delta z = [\delta q; \delta u])
- ์ ํํ๋ ์ํ ๋ฐ ์ ์ด๋ ฅ ์ ๋ง์กฑ
- ๋น์นจํฌ ์ ์ฝ: $_+$๊ฐ ์ ์ด๋ฉด์ ์นจํฌํ์ง ์์
- ๋ง์ฐฐ ์๋ฟ ์ ์ฝ: $_{+,i}$๊ฐ ์๋ฟ ๋ด๋ถ์ ์์นํจ
CTR์ ์ด๋ฌํ ์ ์ฝ๋ค์ ๊ต์งํฉ์ด๋ฉฐ, ์ด๋ ๋ณผ๋ก ์งํฉ(convex set)์ ๋๋ค. ๋ฐ๋ผ์ ์ดํ์ ์ต์ ํ ๋จ๊ณ๋ ๋ณผ๋ก ์ต์ ํ ๋ฌธ์ (SOCP)๋ก ์ ์ง๋ฉ๋๋ค.
5. ๋ณํ: A-CTR, R-CTR
- A-CTR (Action-only CTR): ์ํ๋ ๊ณ ์ ํ๊ณ ์ ๋ ฅ $u$๋ง์ ํ์ํ๋ ๊ฒฝ์ฐ. ๊ณ์ฐ๋์ด ์ค์ด ๋น ๋ฅธ ์ถ๋ก ๊ฐ๋ฅ
- R-CTR (Relaxed CTR): ๋น์นจํฌ ์กฐ๊ฑด์ ์ ๊ฑฐํ๊ณ ๋ง์ฐฐ ์ ์ฝ๋ง ์ ์ฉํ์ฌ ๋ณด์์ฑ ์ํ ๋ฐ ํ์ ๋ฐ๊ฒฝ ํ๋
์คํ ๊ฒฐ๊ณผ R-CTR์ด ์คํ๋ ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ์์์ผ๋ฉฐ, ์ด๋ ์ต์ ํ๊ฐ ๋ ์ ํ์ ์ธ ๋ฐฉํฅ์ผ๋ก๋ ์ ํจํ ์ ์ด ์กฐ์์ ๊ณํํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
CTR ๊ธฐ๋ฐ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC) ํตํฉ
CTR์ ๊ทธ ์์ฒด๋ก๋ ํ๋์ ์ ์ฝ ์กฐ๊ฑด ์งํฉ์ด์ง๋ง, ์ด๋ฅผ ์ค์ง์ ์ธ ์กฐ์ ์ ์ด๊ธฐ๋ก ์ฌ์ฉํ๋ ค๋ฉด MPC(๋ชจ๋ธ ์์ธก ์ ์ด) ํ๋ ์์ํฌ ๋ด์ ํตํฉํด์ผ ํฉ๋๋ค. ๋ณธ ์น์ ์์๋ CTR์ด ์ด๋ป๊ฒ MPC์ ํตํฉ๋๊ณ , ์ ์ด-ํ๋ถํ ์กฐ์์ ์ค์๊ฐ์ผ๋ก ์คํ ๊ฐ๋ฅํ ์ต์ ํ ๋ฌธ์ ๋ก ๋ณํํ๋์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
1. ์ ์ด ์์์ (contact-implicit) MPC
CTR ๋ ผ๋ฌธ์์๋ ์ ์ด-์์์ (contact-implicit) MPC ๋ฌธ์ ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ์ฆ, ์ ์ด ๋ชจ๋ ์ ์ด๋ฅผ ๋ฏธ๋ฆฌ ๋ช ์ํ์ง ์๊ณ , ์ ์ด ์ฌ๋ถ ๋ฐ ์ ์ด๋ ฅ์ ๋ฐ์์ ์ต์ ํ ๊ณผ์ ์์ ์๋์ผ๋ก ๊ฒฐ์ ํฉ๋๋ค.
- ๊ฐ ์์ ์์ CQDC ๊ธฐ๋ฐ ์ ํํ๋ฅผ ํตํด ์ํ ๋ฐ ์ ์ด๋ ฅ์ ๋ํ ์ ํ ๋ชจ๋ธ์ ์์ฑ
- CTR ์ ์ฝ(์ ์ด ๊ฐ๋ฅ์ฑ, ๋ง์ฐฐ ๋ฑ)์ ์ ์ฉํ SOCP ๋ฌธ์ ๋ฅผ ๊ตฌ์ฑ
- ์ผ์ ์๊ฐ ์งํ(horizon) ๋ด์์ ์ต์ ํํ ํ, ์ฒซ ๋ฒ์งธ ์ ์ด ์ ๋ ฅ๋ง ์ ์ฉํ๊ณ ๋ค์ ๋ฐ๋ณต (Receding Horizon Planning)
CTR์ ๊ตฌ์กฐ ๋๋ถ์ ์ด MPC ๋ฌธ์ ๋ ์ ๊ตฌ๊ฐ์์ ๋ณผ๋ก ์ต์ ํ(SOCP)๋ก ์ ์ง๋ฉ๋๋ค.
2. ๋ฐ๋ณต ์ต์ ํ ๋ฐ ํผ๋๋ฐฑ
CTR-MPC๋ ์ผ๋ฐ์ ์ธ MPC์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋งค ํ์์คํ ๋ง๋ค ์๋ก์ด ์ํ๋ฅผ ๊ด์ธกํ๊ณ , ์ ํํ๋ฅผ ์๋ก ์ํํ ํ ์ต์ ํํฉ๋๋ค. ์ด๋ฌํ ๋ฐ๋ณต ํผ๋๋ฐฑ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ ์ ๊ณตํฉ๋๋ค:
- ๋ชจ๋ธ๋ง ์ค๋ฅ๋ ์ธ๋์ ๋ํ ๊ฐ๊ฑด์ฑ ํ๋ณด
- ์ ์ด ๋ณํ๋ ๋ฏธ์ธํ ํ๊ฒฝ ์กฐ๊ฑด ๋ณํ์ ๋ํ ์ค์๊ฐ ์ ์
3. ๋ชจ๋ ์ ์ด ์์ด ์ ์ด ์ฒ๋ฆฌ
CTR-MPC๋ ์ ์ด ๋ชจ๋ ์ ์ด(mode scheduling)๋ฅผ ๋ช ์์ ์ผ๋ก ๊ธฐ์ ํ ํ์๊ฐ ์์ต๋๋ค. ๋ค์์ ์์ ์กฐ๊ฑด์ ํตํด ์ ์ด์ ์์ฑ๊ณผ ์๋ฉธ์ ์์ฐ์ค๋ฝ๊ฒ ํฌํจํฉ๋๋ค:
- ${+,i} K_i^*$ ์กฐ๊ฑด์ ${+,i} = 0$ (์ ์ด ์์)๋ ํ์ฉ
- $i + + _i K_i$๋ ๋ฌผ์ฒด์ ์๊ฐ๋ฝ์ด ๋จ์ด์ ธ ์์ ๋๋ ๋น์นจํฌ ์กฐ๊ฑด์ ๋ง์กฑํ๋๋ก ํ์ฉ
์ด๋ฌํ ์ค๊ณ๋ ์ ์ด ๋ชจ๋๋ฅผ ๋ช ์์ ์ผ๋ก ๋ถ๊ธฐ์ํค๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ์ ์ฐํ๊ณ ๊ณ์ฐ ํจ์จ์ ์ ๋๋ค.
4. ๊ณ์ฐ ํจ์จ์ฑ
CTR-MPC์ ๊ฐ ์ต์ ํ๋ ๋ณผ๋ก ๋ฌธ์ (SOCP)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํฉ๋๋ค:
- Allegro ํธ๋๋ก ํ๋ธ๋ฅผ ์กฐ์ํ๋ ์์ ์์, ์จ๋ผ์ธ ์ต์ ํ๋ ์ ์ด ์ด๋ด์ ์คํ ๊ฐ๋ฅ
- ์ ์ฒด ์กฐ์์ ์ํ ์กฐ์ ๋์ ๊ทธ๋ํ(๋ก๋๋งต)๋ฅผ ๊ตฌ์ถํ๋ ๋ฐ 10๋ถ ๋ฏธ๋ง ์์
์ด๋ ์ผ๋ฐ์ ์ธ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ณด๋ค ํจ์ฌ ๋ฎ์ ๊ณ์ฐ ์์์ผ๋ก ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
5. ์์ ์์ ๋ฐ ๊ฒฐ๊ณผ
CTR-MPC๋ ๋ ๊ฐ์ง ์ค์ ์์์์ ๊ฒ์ฆ๋์์ต๋๋ค:
์ํ ์กฐ์ (Bimanual Manipulation): ๋ ๊ฐ์ KUKA iiwa ํ๋ก ํฐ ์ํตํ ๋ฌผ์ฒด๋ฅผ ์ด๋์ํค๋ ์์ . ๋ณต์กํ ์ ์ด ํ์์ด ํ์ํ์ง๋ง, CTR-MPC๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ๋ชจ๋์์ ์ฑ๊ณต์ ์ผ๋ก ์ํ.
์ ์ ํ๋ธ ํ์ (In-Hand Manipulation): Allegro ํธ๋๋ก ํ๋ธ๋ฅผ ๋ค์ํ ๋ฐฉํฅ์ผ๋ก ํ์ ์ํค๋ ์์ . Relaxed CTR (R-CTR)์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ก๋๋งต ๊ธฐ๋ฐ ์ ๋ต์ผ๋ก ์ฅ๊ฑฐ๋ฆฌ ๋ชฉํ ํ์ ๋ ๋ฌ์ฑ ๊ฐ๋ฅํ์.
6. ์ ์ญ ๊ณํ๊ณผ์ ํตํฉ
CTR-MPC๋ ๋ณธ์ง์ ์ผ๋ก ๋ก์ปฌ ์ต์ ํ ๊ธฐ๋ฐ์ด๋ฏ๋ก, ์ ์ฒด ์ํ ๊ณต๊ฐ์์์ ๊ฒฝ๋ก ๊ณํ์ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ ผ๋ฌธ์์๋ ์ ์ญ ๋ก๋๋งต ๊ธฐ๋ฐ ๊ณํ(global roadmap planning)์ ์ ์ํฉ๋๋ค:
- ํ๋ธ์ ๋ค์ํ ์์ ๋ ํฌ์ฆ๋ฅผ ๋ ธ๋๋ก ๊ตฌ์ฑ
- CTR-MPC๋ฅผ ์ด์ฉํด ์ด๋ค ๋ ธ๋ ๊ฐ ๋จ๊ฑฐ๋ฆฌ ์กฐ์ ๊ถค์ (edge)๋ฅผ ์์ฑ
- ์ ์ฒด ๊ทธ๋ํ๋ฅผ ํ์ํ์ฌ ๋ฉ๋ฆฌ ๋จ์ด์ง ๋ชฉํ๋ ์์ฐจ์ ์กฐ์์ผ๋ก ๋๋ฌ ๊ฐ๋ฅ
์ด ๋ฐฉ์์ ์ ํต์ ์ธ ์ํ๋ง ๊ธฐ๋ฐ ๊ณํ๊ณผ ์ ์ฌํ์ง๋ง, MPC ๊ธฐ๋ฐ ๋์ ์์(primitive)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ด-ํ๋ถํ ๊ฒฝ๋ก ์์ฑ์ ๊ฐ๋ฅ์ผ ํฉ๋๋ค.
DeXtreme: ๊ฐํํ์ต ๊ธฐ๋ฐ ํ๋ธ ํ์ ์ ์ด
DeXtreme(NVIDIA Research, 2022)์ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ์ ์ฑ (policy)์ ํตํด, ์ ๋น์ฉ ๋ก๋ด ํธ๋์์๋ ์ ๋ฐํ ํ๋ธ ํ์ ์ ์ํํ ์์คํ ์ ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ CTR์ด ๋ค๋ฃฌ Allegro ํธ๋์ ์กฐ์ ๋ฌธ์ ์ ๋์ผํ ๋ฌธ์ ์ค์ ์์, ์ ํ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค.
1. ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ํ์ต
- Isaac Gym์ด๋ผ๋ GPU ๊ฐ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํด ์ ์ฑ ์ ํ์ต
- ๋ฌด๋ ค 10๋ง ๊ฐ ์ด์์ ๋ณ๋ ฌ ํ๊ฒฝ์ GPU์์ ๋์ ์คํ
- ์ด๋ก ์ธํด ๋ก๋ด์ ์ด์ธ์ ์ธ ์๋๋ก ์ํ์ฐฉ์ค ํ์ต ๊ฐ๋ฅ
2. ์ ์ฑ ๊ตฌ์กฐ
- ์ ์ฑ ์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ ๋ ฅ์ ๋ก๋ด ์ํ ๋ฐ ๋ฌผ์ฒด ์์ธ ์ ๋ณด
- ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ๋ ํ์ต๋จ: RGB ์นด๋ฉ๋ผ 3๋๋ฅผ ์ฌ์ฉํด ๋ฌผ์ฒด ์์ธ ์ถ์ ํ ์ ๋ ฅ์ผ๋ก ํ์ฉ
- ๋ณ๋์ ํฌ์ฆ ์ถ์ ์ ๊ฒฝ๋ง์ ํจ๊ป ํ์ต์์ผ, ์๊ฐ ์ ๋ณด์์ 3D ๋ฌผ์ฒด ์์ธ๋ฅผ ๋ณต์
3. ๋๋ฉ์ธ ๋๋คํ(Domain Randomization)
์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๊ฒฉ์ฐจ(Sim2Real gap)๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ฌผ๋ฆฌ ์์ฑ ๋ฐ ์๊ฐ ์กฐ๊ฑด์ ๊ด๋ฒ์ํ๊ฒ ๋๋คํ
- ์ง๋, ๋ง์ฐฐ๊ณ์, ํ๋ฉด ํ ์ค์ฒ, ์กฐ๋ช ์กฐ๊ฑด, ์นด๋ฉ๋ผ ์์น ๋ฑ
์ด๋ก ์ธํด ์ ์ฑ ์ ๋์ ์กฐ๊ฑด ๋ถํฌ์ ๋ํด ๊ฐ๊ฑดํ ํ๋ ์ ๋ต์ ํ์ตํจ
4. ํ์ต ๋น์ฉ ๋ฐ ๊ณ์ฐ ์์
- ์ฝ 32์๊ฐ ๋์ ๊ณ ์ฑ๋ฅ GPU ์๋ฒ์์ ํ์ต
- ์ด ๋์ ์ ์ฑ ์ ์ฝ 42๋ ์น์ ํด๋นํ๋ ์๋ฎฌ๋ ์ด์ ๊ฒฝํ์ ์ถ์
- ์ด๋ ๊ฐํํ์ต์ ๋ํ์ ์ธ ๋จ์ ์ธ ์ํ ๋นํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์งํ
5. ์คํ ๋ฐ ์ค์ ๋ก๋ด ์ ์ฉ
- ํ์ต ์๋ฃ ํ, ์ ์ฑ ์ ๊ณ ์ ์ค์๊ฐ ์ ์ด ๊ฐ๋ฅ (์ ๊ฒฝ๋ง ์ ๋ฐฉ ์ฐ์ฐ๋ง ์ํ)
- Allegro ํธ๋์์ ๋ชฉํ ๋ฐฉํฅ์ผ๋ก ํ๋ธ๋ฅผ ์์ ์ ์ผ๋ก ํ์ ์ํด
- OpenAI์ Shadow Hand์ ๋ฌ๋ฆฌ, ๊ด์ ์๊ฐ ์ ๊ณ ๋น์ฉ๋ ๋ฎ์ Allegro ํธ๋์์ ์ฑ๊ณตํ ์ ์ด ์ธ์์ ์
6. ์ผ๋ฐํ ๋ฐ ๊ฐ๊ฑด์ฑ
๋๋ฉ์ธ ๋๋คํ๋ฅผ ํตํด, ํ๋์จ์ด ์์์๋ ๊ฒฌ๋๋ ๊ฐ๊ฑด์ฑ ํ๋ณด
- ์: ์์ง ๊ด์ ์ด ๋์จํ ์ํ์์๋ ์ ์ฑ ์ด ๋ณด์ํ๋ฉฐ ๋์ ์ฑ๊ณต
์๊ฐ ๋คํธ์ํฌ๋ ๊ฐ๋ฆผ(occlusion) ๋ฐ ๋ชจ์ ๋ธ๋ฌ์๋ ๊ฒฌ๋ ์ ์๋๋ก ํ์ต๋จ
7. ์ ์ฑ ์ ํ๊ณ
DeXtreme์ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ง๋ง, CTR ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ ์ ์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ช ์์ ์ผ๋ก ๋ฐ์ํ์ง๋ ์์:
- ๋ง์ฐฐ ์๋ฟ, ๋น์นจํฌ ์กฐ๊ฑด ๋ฑ์ ํ์ต์ ํตํด ์๋ฌต์ ์ผ๋ก ์ต๋
- ํ๋์ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์์ง๊ณผ ๋ณด์ ํจ์ ์ค๊ณ๋ฅผ ํตํด ์ ๋๋จ
- ๋ฐ๋ผ์ ์ ์ฑ ์ ์ ํด๋น ๋์์ ์ํํ๋์ง ํด์ํ๊ธฐ ์ด๋ ต๊ณ , ์ ์ฝ ์กฐ๊ฑด ์๋ฐ ์ฌ๋ถ๋ ๋ช ์์ ์ผ๋ก ํ๋จํ๊ธฐ ์ด๋ ค์
CTR vs DeXtreme: ๋ ์ ๊ทผ ๋ฐฉ์์ ๋น๊ต ๋ถ์
CTR-MPC์ DeXtreme์ ๋ชจ๋ ์ ์์ ํ๋ธ ํ์ ๊ณผ ๊ฐ์ ๊ณ ๋๋ ์ ์ด ์กฐ์์ ๋ชฉํ๋ก ํ์ง๋ง, ๋ชจ๋ธ ๊ธฐ๋ฐ ์ต์ ํ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต์ด๋ผ๋ ์ ๋ฐ๋์ ์ฒ ํ์ ๊ฐ์ง๊ณ ์ ๊ทผํฉ๋๋ค. ์๋๋ ๋ ๋ฐฉ๋ฒ๋ก ์ ์ฃผ์ ๊ด์ ์์ ๋น๊ตํ ๋ด์ฉ์ ๋๋ค.
1. ์ ์ด ์ฒ๋ฆฌ ๋ฐฉ์
ํญ๋ชฉ | CTR-MPC | DeXtreme (RL) |
---|---|---|
์ ์ด ๋ชจ๋ธ๋ง | ๋ง์ฐฐ ์๋ฟ, ๋น์นจํฌ ์กฐ๊ฑด ๋ฑ์ ๋ช ์์ ์์์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ ์ต์ ํ์ ํตํฉ | ์๋ฎฌ๋ ์ด์ ๊ณผ ๋ณด์์ ํตํด ์๋ฌต์ ์ผ๋ก ์ ์ด ์ ๋ต์ ํ์ต |
์ ์ด๋ ฅ ์ถ๋ก | ์ ์ด๋ ฅ์ ์ต์ ํ ๋ณ์๋ก ์ง์ ๊ณ์ฐ๋๋ฉฐ, ๊ณํ ๊ณผ์ ์์ ์ฌ์ฉ๋จ | ์ ๊ฒฝ๋ง ๋ด๋ถ์์ ์๋ฌต์ ์ผ๋ก ํ์ฑ๋จ (๊ด์ธก ๋ถ๊ฐ) |
๋ฌผ๋ฆฌ ์๋ฐ ๊ฐ๋ฅ์ฑ | ์์ ์ ์ฝ์ผ๋ก ์ธํด ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฐ ๋ถ๊ฐ๋ฅ | ํ์ต๋ ์ ์ฑ ์ด ๋ฌผ๋ฆฌ ์ ์ฝ์ ์๋ฐํ ์ ์์ (ex. interpenetration) |
2. ์ํ ํจ์จ์ฑ๊ณผ ๊ณ์ฐ ์์
ํญ๋ชฉ | CTR-MPC | DeXtreme (RL) |
---|---|---|
์ฌ์ ํ์ต ํ์์ฑ | ์์ โ ๋งค ์คํ๋ง๋ค ์ต์ ํ | ํ์ โ ์์ญ์ต ์คํ ์ ์๋ฎฌ๋ ์ด์ ํ์ |
์คํ ์ ๊ณ์ฐ ๋น์ฉ | ์ค๊ฐ โ SOCP ์ต์ ํ ์ํ | ๋งค์ฐ ๋ฎ์ โ ์ ๊ฒฝ๋ง ์ ๋ฐฉ ์ฐ์ฐ๋ง ์ํ |
์ํ ํจ์จ์ฑ | ๋งค์ฐ ๋์ โ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ถ๋ก | ๋ฎ์ โ ๋ฐฉ๋ํ ์ํ์ฐฉ์ค ํ์ |
3. ์ผ๋ฐํ์ ์ ์์ฑ
ํญ๋ชฉ | CTR-MPC | DeXtreme (RL) |
---|---|---|
ํ๊ฒฝ ๋ณํ ๋์ | ๋ชจ๋ธ๋ง ์์ ํ๋ฉด ์ฆ์ ๋์ ๊ฐ๋ฅ | ์ฌ์ ํ์ต๋ ๋ถํฌ ์ธ์๋ ์ฌํ์ต ํ์ |
๋ชฉํ ๋ณํ ์ ์ | ์ฆ์ ๊ฐ๋ฅ (๋ชฉํ ์ํ๋ง ๋ฐ๊พธ๋ฉด ๋จ) | ๊ฐ๋ฅํ๋, ์ ํด์ง ๋ชฉํ ํ์ ๋ด์์๋ง ์ผ๋ฐํ๋จ |
์ธ๋ ๋์์ฑ | ๊ณ โ ์ฌ๊ณํ ๊ธฐ๋ฐ | ์ค โ ์ผ๋ถ ์ธ๋์๋ ๊ฐ๊ฑดํ๋ ๊ณํ ๋ฅ๋ ฅ์ ์์ |
4. ์ ์ฑ ๊ตฌ์กฐ์ ํด์ ๊ฐ๋ฅ์ฑ
ํญ๋ชฉ | CTR-MPC | DeXtreme (RL) |
---|---|---|
์ ์ฑ ํํ | ์ต์ ํ ๊ธฐ๋ฐ โ ํ์ฌ ์ํ์์ ๊ณํ์ ๊ณ์ฐ | ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ โ ๊ด์ธก โ ํ๋ ๋งคํ |
ํด์ ๊ฐ๋ฅ์ฑ | ๋์ โ ์ ์ด๋ ฅ, ์ ์ฝ ์กฐ๊ฑด ๋ฑ ํ์ธ ๊ฐ๋ฅ | ๋ฎ์ โ ๋ธ๋๋ฐ์ค ์ ์ฑ |
์ ์ฝ ์กฐ๊ฑด ์ถ๊ฐ ์ฉ์ด์ฑ | ์ฉ์ด โ ์์ ์ฝ์ ๋ง์ผ๋ก ๋ฐ์ ๊ฐ๋ฅ | ์ด๋ ค์ โ ๋คํธ์ํฌ ์ฌํ์ต ํ์ |
์์ฝ
ํญ๋ชฉ | CTR-MPC | DeXtreme (RL) |
---|---|---|
์ ์ด ์ฒ๋ฆฌ | ๋ช ์์ , ํด์ ๊ฐ๋ฅ | ์๋ฌต์ , ํด์ ๋ถ๊ฐ |
ํ์ต ํ์์ฑ | ์์ | ํผ (์์ญ์ต ์คํ ) |
์คํ ์๋ | ๋๋ฆฌ์ง๋ง ์ ํ | ๋งค์ฐ ๋น ๋ฆ |
์ผ๋ฐํ | ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ | ์ ํ๋ ๋ชฉํ ๋ด ์ผ๋ฐํ |
ํ์ฅ์ฑ ๋ฐ ์ ์ง๋ณด์ | ์ ์ฝ ์ถ๊ฐ/๋ณ๊ฒฝ ์ฌ์ | ์ฌํ์ต ํ์ |
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
CTR๊ณผ DeXtreme์ ๊ฐ๊ฐ ์ ํํ๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณํ๊ณผ ๋น ๋ฅด๊ณ ๊ฐ๊ฑดํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ด๋ผ๋ ์๋ฐ๋ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ์ฑ๊ฒฉ์ ์ฐจ์ด๋ ์คํ๋ ค ์ํธ๋ณด์์ ์ธ ํตํฉ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
1. ํ์ด๋ธ๋ฆฌ๋ ์ ๋ต์ ๊ฐ๋ฅ์ฑ
์์ผ๋ก์ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ํ์ํ ์ ์์ต๋๋ค:
CTR์ผ๋ก ์์ฑ๋ ๊ถค์ ์ imitation learning์ teacher๋ก ํ์ฉ
- RL์ ์ด๊ธฐ ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์๋ ด์ํฌ ์ ์์
DeXtreme ์ ์ฑ ์ warm-start๋ก ์ฌ์ฉํ์ฌ CTR ์ต์ ํ๋ฅผ ๊ฐ์
- ์ต์ ํ ์ด๊ธฐํ๋ฅผ RL ์ ์ฑ ๊ธฐ๋ฐ์ผ๋ก ์ค์ ํด ์ฐ์ฐ๋ ๊ฐ์
์ ์ด ๋ชจ๋ธ์ ์ผ๋ถ๋ฅผ ํ์ต๋ ๊ทผ์ฌ ๋ชจ๋ธ๋ก ๋์ฒด
- ์: ๋ง์ฐฐ๊ณ์ ์ถ์ , ๊ฐ์ ๊ณ์ ์ถ์ ๋ฑ ์ค์ ํ๊ฒฝ ํ๋ผ๋ฏธํฐ ๋ณด์
์ด์ฒ๋ผ ์์ธก์ ์ฅ์ ์ ์กฐํฉํ๋ ๋ฐฉ์์, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ํ์ฑ๊ณผ ํ์ต ๊ธฐ๋ฐ ์ ์ฐ์ฑ์ ๋์์ ํ๋ณดํ ์ ์๋ ์ ๋งํ ๋ฐฉํฅ์ ๋๋ค.
2. ์ค์๊ฐ์ฑ ํฅ์
CTR-MPC์ ๊ฒฝ์ฐ, ์ต์ ํ์ ์ค์๊ฐ์ฑ์ ์ฌ์ ํ ์ ํ์ ์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ ๊ทผ์ด ์ ์๋ ์ ์์ต๋๋ค:
- CTR ๊ธฐ๋ฐ ์ ์ฑ ์ ์ฌ์ ํ์ตํด ์ ๊ฒฝ๋ง์ผ๋ก ๊ทผ์ฌ (Policy Distillation)
- CTR ํด๋ฅผ ๋ฐ์ดํฐ์ ์ผ๋ก ์์ง ํ, offline RL์ด๋ trajectory matching์ผ๋ก ์ ์ฑ ํ์ต
์ด๋ฌํ ๋ฐฉ์์ ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์คํํ ์ ์๊ฒ ํด์ค ๋ฟ ์๋๋ผ, ์ ์ฑ ์ ํด์ ๊ฐ๋ฅ์ฑ๋ ๋ถ๋ถ์ ์ผ๋ก ์ ์งํ ์ ์์ต๋๋ค.
3. ๋ณด๋ค ๋ณต์กํ ์กฐ์ ์์ ํ์ฅ
ํฅํ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ๋ ๋ณต์กํ ์์ ์ผ๋ก์ ํ์ฅ์ ๋ชฉํ๋ก ํ ์ ์์ต๋๋ค:
- ๋น์ ํ ๋ฌผ์ฒด ์กฐ์ (๋ถ๊ท์นํ ํ์, ์ฐ์ฑ ๋ฌผ์ฒด ๋ฑ)
- ์๊ฐ ๊ธฐ๋ฐ ์ ๋ ฅ ํตํฉ (CTR๊ณผ ์นด๋ฉ๋ผ ์ธ์ ๊ฒฐํฉ)
- ์ฌ๋๊ณผ์ ํ์ ์กฐ์ (๊ณต๋ ์ด๋ฐ, ์์ ์ ์ฝ ๋ฑ ํฌํจ)
ํนํ CTR ๊ธฐ๋ฐ ์ ๊ทผ์ ์ ์ฝ ์กฐ๊ฑด ๊ธฐ๋ฐ์ ์ ๋ขฐ์ฑ๊ณผ ์์ ์ฑ์ ํ์ฉํด, ์ฌ๋๊ณผ ํจ๊ปํ๋ ํ๊ฒฝ์์๋ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
๋ง๋ฌด๋ฆฌ
โDexterous Contact-Rich Manipulation via the Contact Trust Regionโ ๋ ผ๋ฌธ์ ๊ณ ๋๋ ์กฐ์์์ ์ ์ด ์ ์ฝ์ ์ด๋ป๊ฒ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ๊ณ , ์ด๋ฅผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด ํ๋ ์์ํฌ์ ํตํฉํ ์ ์๋์ง๋ฅผ ์ํ์ ์ผ๋ก ์ฐ์ํ๊ฒ ํ์ด๋ธ ์์ ์ ๋๋ค. ๊ทธ์ ๋นํด DeXtreme์ ๋๊ท๋ชจ ๊ณ์ฐ ์์์ ํ์ฉํ ์ ํต์ ์ธ ์ฌ์ธต๊ฐํํ์ต ๋ฐฉ์์ด์ง๋ง, ์ค์ ์ ์ฉ์ฑ์ ์์ด ๋งค์ฐ ๊ฐ๋ ฅํ ์ ๊ทผ์์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ ํ๋ฆ์ ์๋ก ๊ฒฝ์์ ์ด๋ผ๊ธฐ๋ณด๋ค, ๋ค์ ์ธ๋์ ์กฐ์ ์์คํ ์์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์๋ ๊ธฐ์ ์คํํธ๋ผ์ ์๊ทน๋จ์ผ๋ก ์ดํด๋ ์ ์์ต๋๋ค.
์์ผ๋ก์ ์ฐ๊ตฌ๋, ์ด๋ค ๋ฐฉ๋ฒ๋ก ์ ์ํฉ์ ๋ฐ๋ผ ์ ํํ๊ฑฐ๋ ์กฐํฉํจ์ผ๋ก์จ, ๋ณด๋ค ์ ์ฐํ๊ณ ์์ ํ๋ฉฐ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ก๋ด ์กฐ์ ์์คํ ์ ๊ตฌ์ถํ๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ ๊ฒ์ ๋๋ค.