๐GraspMPC ๋ฆฌ๋ทฐ
- Grasp-MPC๋ ๋ณต์กํ ํ๊ฒฝ์์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ๊ฒฌ๊ณ ํ๊ฒ ํ์งํ๊ธฐ ์ํด ๊ฐ์น ํจ์(value function) ๊ธฐ๋ฐ์ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)๋ฅผ ํ์ฉํ๋ ํ์ ๋ฃจํ 6-DoF ์๊ฐ ํ์ง ์ ์ฑ ์ ์ ์ํฉ๋๋ค.
- ์ด ๊ฐ์น ํจ์๋ 8์ฒ ๊ฐ ์ด์์ Objaverse ๊ฐ์ฒด์ ๋ํ 2๋ฐฑ๋ง ๊ฐ ์ด์์ ์ฑ๊ณต ๋ฐ ์คํจ ํ์ง ๊ถค์ ์ ํฌํจํ๋ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์ด, ํ์ง ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ์์ธกํ๊ณ MPC ํ๋ ์์ํฌ ๋ด์์ ๋ก๋ด์ ์๋ดํฉ๋๋ค.
- Grasp-MPC๋ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ๊ธฐ์กด ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) ๋ฐ ํ์ ๋ฃจํ(closed-loop) ๋ฐฉ์์ ์ต๋ 33.3% ๋ฅ๊ฐํ๋ฉฐ, ์์ธก ์ค๋ฅ์ ๋ฌผ์ฒด ์์ธ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ๊ณผ ๋ค์ํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.

1 Brief Review
Grasp-MPC๋ ๋ณต์กํ ํ๊ฒฝ์์ ์๋ก์ด ๊ฐ์ฒด๋ฅผ ๊ฒฌ๊ณ ํ๊ณ ๋ฐ์์ ์ผ๋ก ํ์ ํ๊ธฐ ์ํด ์ค๊ณ๋ ํ์ ๋ฃจํ 6-DoF ๋น์ ๊ธฐ๋ฐ ๊ทธ๋ฆฝ ์ ์ฑ ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)์ ๋ฐ์ดํฐ์์ ํ์ต๋ ๊ฐ์น ํจ์๋ฅผ ๊ฒฐํฉํ์ฌ ๊ฐ๋ฐฉ ๋ฃจํ ๋ฐ ํ์ ๋ฃจํ ๊ทธ๋ฆฝ ๋ฐฉ์์ ์ฅ์ ์ ํตํฉํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
- ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์
์์ฑ (Data Generation):
- 8,515๊ฐ์ Objaverse ๊ฐ์ฒด๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ 2๋ฐฑ๋ง ๊ฐ ์ด์์ ๊ทธ๋ฆฝ ๊ถค์ (trajectory) ๋ฐ์ดํฐ์ ์ ์์ฑํฉ๋๋ค.
- ๊ถค์ ์ ์์ฉ ๊ทธ๋ฆฝ ์์ธก ๋ชจ๋ธ์์ ์ป์ noisyํ pre-grasp ์์ธ๋ถํฐ ground-truth grasp ์์ธ๊น์ง ๋ชจ์ ํ๋๋(CuRobo ์ฌ์ฉ)์ ํตํด ์์ฑ๋ฉ๋๋ค.
- Pre-grasp ์์ธ๋ annotated grasp ์์ธ์์ 15cm์ ๊ณ ์ ์คํ์ ์ ์ ์ฉํ๊ณ , U(-0.04cm, 0.04cm)์ ๋ณ์ง ๋ ธ์ด์ฆ์ U(-0.04\pi, 0.04\pi)์ ํ์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ค์์ฑ์ ํ๋ณดํฉ๋๋ค.
- ์์ฑ๋ ๊ถค์ ์ค ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ฆฝ ๊ฐ๋ฅํ ๊ฒฝ์ฐ๋ ์ฑ๊ณต(successful)์ผ๋ก, ๊ทธ ์ธ๋ ์คํจ(failed)๋ก ๋ ์ด๋ธ๋ง๋์ด ๊ฐ์น ํจ์ ํ์ต์ ํ์ฉ๋ฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ด 1์ต 1,500๋ง ๊ฐ์ ์ํ๋ฅผ ํฌํจํ๋ฉฐ, ์ฑ๊ณต ๊ถค์ ์ 70.2%๋ฅผ ์ฐจ์งํฉ๋๋ค.
- ๊ฐ์น ํจ์ ํ์ต (Value Function Training):
- ๊ฐ์น ํจ์ V(x_t)๋ ์ฃผ์ด์ง ์ํ์์ ์์๋๋ ์์ฌ ๋น์ฉ(cost-to-go)์ ๊ทผ์ฌํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ฌ๊ธฐ์ ์ํ x๋ ๋ถํ ๋ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋(segmented object point cloud)์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ค์ฌ์ ๋ํ end-effector์ ์๋์ ์ธ ํฌ์ฆ T_{\text{obj}}^{\text{EE}}๋ฅผ ํฌํจํฉ๋๋ค. ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ์ ๋ ฅ์ ํ์คํํ๊ธฐ ์ํด ์ค์ฌํ๋ฉ๋๋ค.
- ํ์ต์ Bellman ์๋ฌ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋ฉ๋๋ค. ๋น์ฉ c_t๋ ๊ทธ๋ฆฝ ๋ชฉํ ์์ธ์ ๋๋ฌํ๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋ฅํ ๊ฒฝ์ฐ 0์ผ๋ก, ๊ทธ ์ธ์๋ 1๋ก ์ ์๋๋ sparse cost label์ ๋๋ค. c_t = \begin{cases} 0 & \text{if } |q_{\text{goal},i} - q_{t,i}| \le 5e^{-3}, \forall i, \text{ and } \mathbf{1}_{\text{feasible}} = 1 \\ 1 & \text{Otherwise} \end{cases} ์ฌ๊ธฐ์ q_{t,i}๋ ์๊ฐ t์์์ i-๋ฒ์งธ joint position, q_{\text{goal},i}๋ ๋ชฉํ joint position, \mathbf{1}_{\text{feasible}}์ ๊ถค์ ์ด ๊ฐ๋ฅํ ๊ทธ๋ฆฝ์ ํด๋นํ๋์ง ์ฌ๋ถ๋ฅผ ๋ํ๋ ๋๋ค.
- ๊ฐ์น ํจ์๋ ๋ค์ ์์ ์ต์ํํ๋๋ก ํ์ต๋ฉ๋๋ค: \ell(\phi; x_t, c, x_{t+1}) = y_t - V_{\phi}(x_t)^2 ์ฌ๊ธฐ์ y_t = c_t + \gamma V_{\phi'}(x_{t+1})๋ 1-step target์ด๋ฉฐ, \gamma = 0.99๋ ํ ์ธ์จ(discount factor)์ ๋๋ค.
- ๊ฐ์น ํจ์ ๋คํธ์ํฌ๋ PointNet++ ์ธ์ฝ๋(ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ฒ๋ฆฌ)์ MLP(๊ณ ์ ์์ฉ์ฑ, end-effector ํฌ์ฆ ์ฒ๋ฆฌ)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ด๋ค์ ์ถ๋ ฅ์ ์ฐ๊ฒฐํ์ฌ ์ต์ข MLP ํค๋๋ก ๊ฐ์ ์์ธกํฉ๋๋ค. softplus ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ํญ์ ์์ ๊ฐ์ ์์ธกํ๋๋ก ํฉ๋๋ค.
- MPC ๋ด ๊ฐ์น ํจ์ ํตํฉ (Integrating a Value Function as a Grasp Cost within MPC):
- ํ์ต๋ ๊ฐ์น ํจ์๋ MPC์ ๋น์ฉ ํจ์๋ก ํตํฉ๋์ด ์จ๋ผ์ธ ๋ฐฐํฌ ์ ๊ทธ๋ฆฝ ๋น์ฉ์ ์ต์ํํ๋๋ก ๋ก๋ด์ ์๋ดํฉ๋๋ค.
- MPC์ ๊ทธ๋ฆฝ ๋น์ฉ์ ์์ธก ๊ถค์ ์ ๊ฐ ์ํ์ ๋ํ ๊ฐ์น ํจ์์ ํ ์ธ๋ ํฉ์ผ๋ก ์ ์๋ฉ๋๋ค: C_{\text{grasp}}(x_{h \in H}) = \sum_{t'=t}^{t+H} \gamma^{t'-t} V_{\theta}(x_{t'})
- ์ต์ข MPC ๋ชฉ์ ํจ์๋ CuRobo์ ๊ธฐ๋ณธ ๋น์ฉ(์ต์ jerk, ์ถฉ๋ ํํผ ๋ฑ)์ ๊ฐ์น ๊ธฐ๋ฐ ๊ทธ๋ฆฝ ๋น์ฉ์ ๋ํ ๊ฒ์ ๋๋ค: C_{\text{Grasp-MPC}} = C_{\text{curobo}} + \omega C_{\text{grasp}} ์ฌ๊ธฐ์ C_{\text{curobo}}๋ CuRobo์ ๊ธฐ๋ณธ ๋น์ฉ(world collision, self-collision, bounds cost), \omega = 1000์ ๊ฐ์น ํจ์ ๋น์ฉ์ ๊ฐ์ค์น์ ๋๋ค.
- MPC๋ GPU ๊ฐ์ ํ๋ ์์ํฌ์ธ CuRobo์ ๊ตฌํ๋ Model Predictive Path Integral (MPPI) ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
๋ฐฐํฌ (Deployment):
Grasp-MPC๋ ์์ฉ ๊ทธ๋ฆฝ ์์ธก ๋ชจ๋ธ(M2T2) ๋ฐ ๋ชจ์ ํ๋๋์ ๊ฒฐํฉํ์ฌ ์๋ํฉ๋๋ค. ๋ก๋ด์ ๋จผ์ ๋ชจ์ ํ๋๋๋ฅผ ์ฌ์ฉํ์ฌ pre-grasp ์์ธ๋ก ์ด๋ํ ๋ค์, Grasp-MPC๋ฅผ ํตํด ๊ฐ์ฒด๋ฅผ ํ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๋ก๋ด ์ํ, ๋ถํ ๋ ๊ฐ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋, ๊ทธ๋ฆฌ๊ณ ํ๊ฒฝ์ Signed Distance Field(SDF, NVBlox๋ก ํํ) ํผ๋๋ฐฑ์ ํ์ฉํ์ฌ ์ถฉ๋์ ํผํ๋ฉด์ ๊ทธ๋ฆฝ ์์ ์ ์ํํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
์๋ฎฌ๋ ์ด์ (FetchBench) ๋ฐ ์ค์ ํ๊ฒฝ์์ ๊ด๋ฒ์ํ ํ๊ฐ๋ฅผ ํตํด Grasp-MPC๋ ๊ฐ๋ฐฉ ๋ฃจํ, Diffusion Policy, Transformer Policy, IQL๊ณผ ๊ฐ์ ์ต์ฒจ๋จ ๋ฐฉ๋ฒ๋ก ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ํนํ, ์๋ฎฌ๋ ์ด์ ์์ ์ต๋ 32.6%, ์ค์ ํ๊ฒฝ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์กฐ๊ฑด์์ ์ต๋ 33.3%์ ๊ทธ๋ฆฝ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. Grasp-MPC๋ noisyํ ๊ทธ๋ฆฝ ์์ธ๋ ๋์ ์ธ ๊ฐ์ฒด ๊ต๋์๋ ๊ฒฌ๊ณ ํ๊ฒ ์๋ํ๋ฉฐ, ํ์ต ๋ฐ์ดํฐ์ ์ด ๋น ์ฅ๋ฉด์์๋ง ์์ฑ๋์์์๋ ๋ถ๊ตฌํ๊ณ ๋ณต์กํ ์ค์ ํ๊ฒฝ(ํ ์ด๋ธ ์, ์ ๋ฐ ์ ํผ์กํ ์ฅ๋ฉด)์์ ํจ๊ณผ์ ์ธ ๊ทธ๋ฆฝ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
2 Detail Review
Grasp-MPC ๋ ผ๋ฌธ ์ฌ์ธต ๋ฆฌ๋ทฐ ๋ถ์
2.1 1. ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ ๋ฐ ๊ธฐ์ ์ ํ์ ๋ถ์
Grasp-MPC ํ๋ ์์ํฌ ๊ฐ์: ๋ค์ํ ๊ฐ์ฒด ๋ฐ์ดํฐ์ (Objaverse์ 8์ฒ์ฌ ๊ฐ ๊ฐ์ฒด)์ผ๋ก๋ถํฐ ํ์ง(๊ทธ๋ฆฝ) ์์ธ๋ฅผ ์์ฑํ๊ณ , ๋ชจ์ ํ๋๋์ ํตํด 200๋ง ๊ฐ ์ด์์ ํ์ง ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์๋ฎฌ๋ ์ด์ ์์ ์์งํ๋ค. ์ด ๊ถค์ ๋ฐ์ดํฐ์๋ ์ฑ๊ณตํ ์๋์ ์คํจํ ์๋๊ฐ ๋ชจ๋ ํฌํจ๋๋ฉฐ, ์ด๋ฅผ ํ์ฉํด ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ด์ธก ๊ธฐ๋ฐ์ ๊ฐ์น ํจ์(value function)๋ฅผ ํ์ตํ๋ค. ํ์ต๋ ๊ฐ์น ํจ์๋ ํ์ง ์ฑ๊ณต ํ๋ฅ ์ ์์ธกํ๋ฉฐ MPC์ ๋น์ฉ ํจ์๋ก ํ์ฉ๋์ด, ์ถฉ๋ ํํผ ๋ฑ์ ์ ์ฝ ์กฐ๊ฑด ํ์ ๋ก๋ด์ ํ์ง ๋์์ ์ค์๊ฐ ์์ฑํ๋ค. ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ Grasp-MPC๋ฅผ ์ฌ์ฉํ์ฌ ๋ณต์กํ ํ๊ฒฝ์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์์ ํ๊ฒ ํ์งํ๋ UR10 ๋ก๋ด์ ์์๋ฅผ ๋ณด์ฌ์ค๋ค.
Grasp-MPC๋ ๋ณต์กํ ํ๊ฒฝ์์ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ๋ค๋ฃฐ ์ ์๋ ํ๋ฃจํ(closed-loop) 6-์์ ๋ ๋น์ ๊ธฐ๋ฐ ํ์ง ๊ธฐ๋ฒ์ผ๋ก, ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ์๋์๋ค. ์ด ๋ฐฉ๋ฒ์ open-loop ๋ฐฉ์(์ฌ์ ์ ์์ธก๋ ํ์ง ์์ธ๋ก ์ด๋)๊ณผ closed-loop ์ ์ด(์ค์๊ฐ ํผ๋๋ฐฑ์ ํตํ ์กฐ์ )์ ๊ฐ์ ์ ๊ฒฐํฉํ ๊ฒ์ด ํต์ฌ์ด๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Grasp-MPC๋ ์ต์ ๊ทธ๋ฆฝ ํฌ์ฆ ์์ธก ๋ชจ๋ธ์ ์ด์ฉํด ๋ก๋ด์ ๋๋ต์ ์ธ pre-grasp ์์ธ๊น์ง ๋จผ์ ์ด๋์ํจ ํ, ๊ทธ ์ง์ ๋ถํฐ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ฃจํ ๋ฐฉ์์ผ๋ก ํ์ง๋ฅผ ์๋ฃํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด open-loop ๊ธฐ๋ฒ์ด ๊ฒช๋ ๊ทธ๋ฆฝ ์์น ์์ธก ์ค์ฐจ๋ ๋ฌผ์ฒด ์์น ๋ณํ์ ์ค์๊ฐ์ผ๋ก ๋์ํ ์ ์์ผ๋ฉฐ, ๋ก๋ด์ด ๋ชฉํ๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ฉด์ ํ์ง๋ฅผ ์ฑ๊ณต์ํฌ ์ ์๊ฒ ๋๋ค.
Grasp-MPC์ ๊ฐ์ฅ ํฐ ๊ธฐ์ ์ ํ์ ์ MPC์ ๋น์ฉ ํจ์๋ก ํ์ต๋ ๊ฐ์น ํจ์๋ฅผ ๋์ ํ ์ ์ด๋ค. ์ ํต์ ์ธ ๋ฐฉ๋ฒ์์๋ ์์ธก๋ ํ์ง ์์ธ๊น์ง์ ๊ฑฐ๋ฆฌ ๋ฑ์ ๊ธฐํํ์ ๋น์ฉํจ์๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ด๋ ์ค์ฐจ์ ์ทจ์ฝํ๊ณ MPC์ ํ๋ฃจํ ์ ์ฌ๋ ฅ์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๋ค. ๋ฐ๋ฉด Grasp-MPC์์๋ ์๋ฎฌ๋ ์ด์ ์ ํตํด ๋๊ท๋ชจ๋ก ์์ง๋ ํ์ง ๊ถค์ ๋ฐ์ดํฐ(์ฑ๊ณต๊ณผ ์คํจ ์ฌ๋ก ๋ชจ๋ ํฌํจ)๋ก๋ถํฐ ๋น์ ๊ธฐ๋ฐ ๊ฐ์น ํจ์๋ฅผ ํ์ตํ๊ณ ์ด๋ฅผ ๊ณผ์ ๋น์ฉ(task cost)์ผ๋ก ์ฌ์ฉํ๋ค. ์ด ๊ฐ์น ํจ์๋ ์ฃผ์ด์ง ๋ฌผ์ฒด์ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๋ก๋ด ๋ง๋จEffector ์์ธ๋ฅผ ์ ๋ ฅ์ผ๋ก ํ์ง ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ์์ธกํ๋ฉฐ, MPC ๋ด๋ถ์์ ๊ณผ์ ์ฑ๊ณต๋๋ฅผ ๋ํ๋ด๋ ๋น์ฉ ํญ์ผ๋ก ์์ฉํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ก๋ด์ ์ด ๋น์ฉ์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ํ ๊ณต๊ฐ์ ํ์ํ๋ฉด์ ํ์ง ํ๋์ ์์ฑํ๊ฒ ๋๋ฉฐ, ์ด๋ ๊ณง ํ์ง ์ฑ๊ณต ํ๋ฅ ์ ์ต๋ํํ๋๋ก ์ ๋ํ๋ค. ์ถ๊ฐ์ ์ผ๋ก, MPC์ ์ต์ ํ ๊ณผ์ ์๋ ์ถฉ๋ ํํผ(collision avoidance)์ ๋์์ ๋ถ๋๋ฌ์(minimum jerk)์ ์ํ ๋น์ฉ ํญ๋ ํฌํจ๋์ด ์์ด ๋ณต์กํ ํ๊ฒฝ์์ ์์ ํ ํ์ง ๊ฒฝ๋ก๋ฅผ ์์ฑํ ์ ์๋ค. ์ด๋ฌํ ํ์ต๋ ๊ฐ์น ํจ์ ๊ธฐ๋ฐ ํ๋ฃจํ ์ ์ด๋ ๋์ ์ด๊ณ ํ์ํ ๊ณต๊ฐ์์๋ ํ์ง๋ฅผ ์์ ์ ์ด๊ณ ์ ๋ขฐ์ฑ ์๊ฒ ์ํํ ์ ์๊ฒ ํด์ฃผ๋ ๋ณธ ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ ์ ๊ธฐ์ฌ์ด๋ค.
๋ ผ๋ฌธ์์ ์ ์๋ค์ด ๊ฐ์กฐํ Grasp-MPC์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌ๋๋ค:
์์ ํ ํ๋ฃจํ ๋น์ ๊ธฐ๋ฐ ํ์ง ์ ์ฑ ์ ์: Grasp-MPC๋ ๋ณต์กํ(cluttered) ํ๊ฒฝ์์ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ๋ค๋ฃฐ ์ ์๋ ์์ ํ ํ๋ฃจํ ์๊ฐ ํ์ง ์ ์ฑ ์ ์ ์ํ๋ค. ์ฆ, ์ค์๊ฐ ์ผ์ ํผ๋๋ฐฑ์ ํตํด ๋์ ์ผ๋ก ์กฐ์ ํ๋ฉด์๋, ์ถฉ๋์ ํผํ๊ณ ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์ ์ ์๋ ์ ์ฑ ์ด๋ค.
๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต์ ํตํฉ: Grasp-MPC๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด (MPC)์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ์ ํตํฉํ์ฌ, ํ์ต๋ ๊ทธ๋ฆฝ ๊ฐ์น ํจ์๋ฅผ MPC ํ๋ ์์ํฌ์ ๊ฒฐํฉํ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ๊ตฌํํ๋ค. ์ด๋ฅผ ํตํด ๋ฐ์์ ์ด๊ณ ์ ์ฝ์ ์ค์ํ๋(grasping with reactive, constraint-aware) ํ์ง ์คํ์ด ๊ฐ๋ฅํด์ก์ผ๋ฉฐ, ๋์ ์ธ ํ๊ฒฝ์์๋ ์ค์๊ฐ ์ ์์ด ๊ฐ๋ฅํ๋ค.
๋๊ท๋ชจ ํฉ์ฑ ํ์ง ๊ถค์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ: ์ ์๋ค์ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ํ์ง ๊ถค์ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์๋๋ฐ, ์๋ฐฑ๋ง ๊ฑด(M=2,000,000+)์ ํ์ง ๊ฒฝ๋ก์ ์ํ, ๊ทธ๋ฆฌ๊ณ ์์ฒ ๊ฐ์ ์ด๋ฅด๋ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ค. ์ด๋ ๊ฒ ๋ฐฉ๋ํ Objaverse ๊ฐ์ฒด๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ์ ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ฐ์น ํจ์๋ฅผ ํ์ตํ๋ ๋ฐ ๊ธฐ์ฌํ์์ผ๋ฉฐ, ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ ํฌ๊ดํ๋ค.
ํญ๋์ ์คํ์ ํตํ ์ฑ๋ฅ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์ (FetchBench ๋ฒค์น๋งํฌ)๊ณผ ์ค์ ๋ก๋ด ์คํ ๋ชจ๋์์ ๊ด๋ฒ์ํ ํ๊ฐ๋ฅผ ์ํํ ๊ฒฐ๊ณผ, Grasp-MPC๋ ๊ธฐ์กด ์ต์ open-loop ๋ฐ closed-loop ๋ฐฉ๋ฒ๋ค์ ์๋ฏธ ์๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์๋ค. ํนํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ต๋ 32.6%, ์ค์ ๋ณต์กํ ํ๊ฒฝ์์ 33.3%๊น์ง ํ์ง ์ฑ๊ณต๋ฅ ์ ๊ฐ์ ํ์ฌ, diffusion ์ ์ฑ , Transformer ๊ธฐ๋ฐ ์ ์ฑ , IQL ๋ฑ ๋ค์ํ ๊ธฐ์กด ์ ๊ทผ๋ฒ ๋๋น ๋ ์๋ฆฟ์ ์ด์์ ํฅ์์ ๋ฌ์ฑํ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ณธ ๊ธฐ๋ฒ์ ์ค์ฉ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ๋ท๋ฐ์นจํด์ค๋ค.
์์ฝํ๋ฉด, Grasp-MPC๋ ๋๊ท๋ชจ ํ์ต๋ ๊ฐ์น ํจ์๋ฅผ MPC ์ ์ด ๋ฃจํ์ ํตํฉํจ์ผ๋ก์จ, ์ด์ ์ ํ์ง ๋ฐฉ๋ฒ๋ค์ด ์ง๋๋ ์ค์๊ฐ ํผ๋๋ฐฑ ๋ถ์กฑ ๋ฌธ์ , ์ผ๋ฐํ ํ๊ณ, ์์ ์ฑ ๋ฌธ์ ๋ฅผ ๋ชจ๋ ์์ฐ๋ฅด๋ ์๋ก์ด ์๋ฃจ์ ์ ์ ๊ณตํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๊ธฐ์ ์ ํ์ ์ ํฅํ ๋ณต์กํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ํผ๋๋ฐฑ ๊ธฐ๋ฐ์ ์์ ํ ์ ์ด์ ๋ฐ์ดํฐ ํ์ฉ์ ์ ๋ชฉ์ํค๋ ๋ฐ์ ์ค์ํ ๋ฐฉํฅ์ ์ ์ํ๋ค.
2.2 2. ์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ ํ๊ฐ
๋ ผ๋ฌธ์์๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ Grasp-MPC์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๊ทธ ์ ํจ์ฑ๊ณผ ์ฐ์์ฑ์ ์ ์ฆํ๋ค. ์คํ์ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ง๋ฌธ๋ค์ ์ค์ฌ์ผ๋ก ์ค๊ณ๋์๋ค:
- Ground Truth ํ์ง ์์ธ๊ฐ ์ฃผ์ด์ก์ ๋, Grasp-MPC๋ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์ผ๋ง๋ ์ ํ์งํ๋๊ฐ? (์ด๋ก ์ ์ผ๋ก ์ต์ ์ ํ์ง ์์น๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ ์ฑ๋ฅ ํ๊ฐ)
- ํ์ง ์์ธ์ ์ค์ฐจ/๋ ธ์ด์ฆ๊ฐ ์๋ ๊ฒฝ์ฐ(์: ์์ธก ์ค๋ฅ๋ก ์ธํ ์์น ํธ์ฐจ), Grasp-MPC๋ ์ผ๋ง๋ ๊ฒฌ๊ณ ํ๊ฒ ํ์ง๋ฅผ ์ํํ๋๊ฐ?
- ํ์ต๋ ๊ทธ๋ฆฝ ํฌ์ฆ ์์ธก ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ์งํ ๋(์ฆ, ์ค์ ๋ก๋ ์ด์์ ์ธ ํ์ง ์์ธ๊ฐ ์๋ ์์ธก๋ ๋ชฉํ๋ก ํ์ง ์๋), Grasp-MPC์ ์ฑ๋ฅ์ ์ด๋ ํ๊ฐ?
์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์ค์ : ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ํ๊ฐ๋ฅผ ์ํด FetchBench๋ผ๋ ํ์ค ํ๊ฒฝ์ ํ์ฉํ์๊ณ , ๋ก๋ด์ผ๋ก UR10 ํ๊ณผ Robotiq 2F-140 ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ๋ค. ํ๊ฐ ์ฅ๋ฉด์ ๋ค์ํ ๋ณต์กํ(cluttered) ํ๊ฒฝ์ผ๋ก ๊ตฌ์ฑ๋์์ผ๋ฉฐ, ์คํ์ ์ฌ์ฉ๋ ๋ฌผ์ฒด๋ค์ ๋ชจ๋ ์๋ก์ด ๊ฐ์ฒด(ํ์ต ์ ์ฌ์ฉ๋์ง ์์ ๊ฐ์ฒด)๋ก ์ฑ์์ก๋ค. 3๊ฐ์ ์นด๋ฉ๋ผ๋ก๋ถํฐ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์งํ์ฌ ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์๊ณ , ๊ฐ ์คํ ์ฅ๋ฉด๋ง๋ค ์ฌ๋ฌ ๊ฐ์ง ํ์ง ์๋๋ฆฌ์ค๋ฅผ ๊ตฌ์ฑํ์ฌ ์ด ์์ฒ ํ ์ด์์ ์ํ์ ์งํํ๋ค. ์ฑ๋ฅ ํ๊ฐ ์ฒ๋๋ก๋ ํ์ง ์ฑ๊ณต๋ฅ ์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ง์ ํ ์ผ์ ๋์ด ์ด์ ๋ค์ด์ฌ๋ฆฌ๋์ง๋ก ์ ์๋๋ค. (๋ชจ์ ํ๋๋์ผ๋ก pre-grasp ์ง์ ๊น์ง ์ด๋ํ๋ ๊ณผ์ ์์ ์คํจํ ๊ฒฝ์ฐ๋ ํ์ง ์๋๊ฐ ์ด๋ฃจ์ด์ง์ง ์์์ผ๋ฏ๋ก ๋ณ๋๋ก ์ ์ธํ์ฌ ์ฑ๊ณต๋ฅ ์ ๊ณ์ฐ).
๋น๊ต ๋ฐฉ๋ฒ(๋ฒ ์ด์ค๋ผ์ธ): Grasp-MPC์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต ์คํ์ ์ํํ๋ค. Open-loop ์ ๊ทผ์ ๋ํ๋ก๋ OSC(Operational Space Control) ๊ธฐ๋ฐ ์ง์ ์ด๋ ํ์ง ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ, ์ด๋ FetchBench์์๋ oracle์ ๊ฐ๊น์ด baseline์ผ๋ก ์ฐ์ด๋ ๋ฐฉ์์ด๋ค. ๋ํ ๋ชจ๋ฐฉํ์ต ๊ธฐ๋ฐ ํ๋ฃจํ ์ ์ฑ ์ธ Transformer Policy๋ ํฌํจ๋์๋๋ฐ, ์ด๋ FetchBench ๋ฒค์น๋งํฌ์ ์ฌ์ฉ๋ Transformer ์ํคํ ์ฒ์ ์ ์ฑ ์ด๋ค. ๋๋ถ์ด, Diffusion Policy (ํ์ฐ ์ ์ฑ ) ๋ฐฉ์์ ํ๋ฃจํ IL ์ ์ฑ ๋ ํ๊ฐ์ ํฌํจ๋์๋ค โ ์ด ๋ฐฉ๋ฒ์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ์ต์ ์ํ์ ๋ชจ๋ฐฉํ์ต ๊ธฐ๋ฐ ํ์ง ์ ์ฑ ์ค ํ๋์ด๋ค. ๋ง์ง๋ง์ผ๋ก, ์คํ๋ผ์ธ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ฑ ์ธ IQL (Implicit Q-Learning)์ ๋น๊ต์ ํฌํจ์์ผฐ๋ค. ๋ชจ๋ ๋ฐฉ๋ฒ๋ค์ Grasp-MPC์ ๋์ผํ๊ฒ ์ฌ์ ์ ๋ชจ์ ํ๋๋(CuRobo)๋ฅผ ์ด์ฉํด ๋ก๋ด์ ์ง์ ๋ pre-grasp ์์น๊น์ง ์์ง์ธ ๋ค, ๊ทธ ์ง์ ๋ถํฐ ๊ฐ์์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ง๋ฅผ ์ํํ๋๋ก ์ค์ ๋์๋ค. (์ฐธ๊ณ ๋ก IL ๊ธฐ๋ฐ ์ ์ฑ ๋ค์ ํ์ต ์ ์ฑ๊ณตํ ํ์ง ์ฌ๋ก๋ง์ผ๋ก ํ๋ จ๋์๋ค๊ณ ๋ช ์๋์ด ์๋ค.)
์๋ฎฌ๋ ์ด์ ์คํ ๊ฒฐ๊ณผ: ์ฐ์ ์ด์์ ์ธ ํ์ง ์์ธ(ground-truth annotation)๊ฐ ์ฃผ์ด์ง๋ ์คํ์์, Grasp-MPC๋ ์ฌ์ ๊ณํ(open-loop) ๊ธฐ๋ฐ์ Oracle ์ฑ๋ฅ์ ๊ทผ์ ํ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Grasp-MPC์ ํ์ง ์ฑ๊ณต๋ฅ ์ ์ฝ 73.6%์ ๋ฌํด, oracle์ ํด๋นํ๋ open-loop ๋ฐฉ์(OSC)์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ์ ์ฌํ ์์ค์ ๋ฌ์ฑํ๋ค. ๋์ฑ์ด Grasp-MPC๋ ๋ค๋ฅธ ํ๋ฃจํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํ์ ํ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๋๋ฐ, ์๋ฅผ ๋ค์ด IQL์ ๊ฒฝ์ฐ Grasp-MPC๋ณด๋ค ํจ์ฌ ๋ฎ์ ์ฑ๊ณต๋ฅ (์ฝ 60%๋)์ ๊ทธ์ณค๋ค. Transformer ๊ธฐ๋ฐ IL ์ ์ฑ ๊ณผ Diffusion ์ ์ฑ ์ญ์ Grasp-MPC๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ก์ผ๋ฉฐ, ์ด๋ ๋ชจ์ ํ๋๋์ผ๋ก ์์ง๋ ์ ํ์ ์ธ ์ๆผ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ฐ ๋ฐ๋ฅธ ํ๊ณ์, ํ๋ จ ํ๊ฒฝ๊ณผ ํ๊ฐ ํ๊ฒฝ ๊ฐ์ ์ฐจ์ด(domain mismatch)๋ก ์ธํ ์ฑ๋ฅ ์ ํ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์๋๋ค. (IL ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ๋น ํ ์ด๋ธ ํ๊ฒฝ์์ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ฃจ์ด์ก๋๋ฐ, ์ ์ ํ๊ฐ ์์๋ ๋ฌผ์ฒด๊ฐ ๋ง์ ๋ณต์กํ ํ๊ฒฝ์ด๋ผ MDP ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๊ณ , ์ด๋ก ์ธํด ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ฎ์๋ค๋ ์ค๋ช ์ด๋ค.)
๋ค์์ผ๋ก ํ์ง ์์ธ์ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์คํ(๋ ๋ฒ์งธ ์ง๋ฌธ)์์๋ Grasp-MPC์ ๊ฐ์ธํจ(robustness)์ด ๋๋๋ฌ์ก๋ค. Ground truth ํ์ง ์์น์ ๋ฌด์์ ์์น ์ค์ฐจ(์ ์ผํฐ๋ฏธํฐ ๋ณ์์ ํ์ ๋ ธ์ด์ฆ)๋ฅผ ์์ด์ ์คํํ ๊ฒฝ์ฐ, open-loop ๋ฐฉ์(OSC)์ ์ฑ๋ฅ์ด ์ฝ 40%p ๊ธ๋ฝํ์ฌ ์ ๋๋ก ํ์ง์ ์คํจํ๋ ๋ฐ๋ฉด, Grasp-MPC๋ ์ฝ 14%p ์ ๋์ ๊ฒฝ๋ฏธํ ์ฑ๋ฅ ๊ฐ์๋ง์ ๋ณด์ด๋ฉฐ ๋๋ถ๋ถ์ ์๋๋ฆฌ์ค์์ ์ฌ์ ํ ์ฑ๊ณต์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์๋๋ค. ์ด๋ ํ๋ฃจํ ์ ์ด๋ฅผ ํตํด ํผ๋๋ฐฑ์ ํ์ฉํ Grasp-MPC๊ฐ ์ด๊ธฐ ๋ชฉํ ์์น์ ๋ถ์ ํํจ์ ์ค์๊ฐ ๋ณด์ ํ๋ฉฐ ๋์ํ๋ ๋ฐ๋ฉด, open-loop์ ํ๋ฒ ๊ณํ๋ ๊ฒฝ๋ก๋ฅผ ์์ ํ์ง ๋ชปํด ์คํจํ๊ธฐ ๋๋ฌธ์ด๋ค. Grasp-MPC๋ ์ด ๊ฒฝ์ฐ์๋ ๋ค๋ฅธ ํ๋ฃจํ baselines๋ค๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ์ฌ, ์คํ๋ผ์ธ RL์ด๋ IL ๊ธฐ๋ฐ ์ ์ฑ ๋ค๋ณด๋ค ์ค์ฐจ์ ๋ํ ๋ด์ฑ์ด ๋์์ ๋ณด์ฌ์ฃผ์๋ค.
์ธ ๋ฒ์งธ๋ก, ํ์ต๋ ๊ทธ๋ฆฝ ํฌ์ฆ ์์ธก ๋ชจ๋ธ์ ์ค์ ๋ก ํ์ฉํ๋ ์๋๋ฆฌ์ค์์๋ Grasp-MPC์ ์ฑ๋ฅ ์ฐ์์ฑ์ด ์ ์ฆ๋์๋ค. ์ ์๋ค์ M2T2๋ผ๋ ์ต์ grasp pose ์์ธก ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด์ ํ์ง ๋ชฉํ ์์ธ๋ฅผ ์์ธกํ๊ณ , ์ด๋ฅผ ๊ฐ ๋ฐฉ๋ฒ๋ค์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ์์ธก๋ ํ์ง ์์ธ์๋ ํ์ฐ์ ์ผ๋ก ์ค์ฐจ์ ๋ ธ์ด์ฆ๊ฐ ์กด์ฌํ๊ธฐ ๋๋ฌธ์, ์ด ์ค์ ์ ์ค์ ๋ก๋ด ์ ์ฉ์ ๊ฐ๊น์ด ์๋๋ฆฌ์ค๋ค. ๊ทธ ๊ฒฐ๊ณผ IL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ฑ๊ณต๋ฅ 36.5% ์์ค์ ๊ทธ์ณ ๊ฑฐ์ ํ์ง์ ์คํจํ์๊ณ , open-loop ๋ฐฉ์(OSC)์ ์ฝ 63.6%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค (์ด ๊ฐ์ ground truth ์ฌ์ฉ ์๋ณด๋ค ์ฝ 15%p ๊ฐ์ํ ์์น์ด๋ค). ๋ฐ๋ฉด Grasp-MPC๋ 67.2%์ ์ฑ๊ณต๋ฅ ๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ground truth ๋๋น ์ฑ๋ฅ ๊ฐ์ํญ๋ ๋ถ๊ณผ 8%p์ ๊ทธ์ณ ์์ธก ์ค์ฐจ์ ๋ํ ๊ฒฌ๊ณ ํจ์ ๋๋ ท์ด ๋ณด์ฌ์ฃผ์๋ค. ์ฆ, ํ์ต๋ ๊ทธ๋ฆฝ ์์ธก ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์๋ฒฝํ์ง ์์์๋ ๋ถ๊ตฌํ๊ณ , Grasp-MPC๋ ํ๋ฃจํ ๋ณด์ ๊ณผ ๊ฐ์น ํจ์ ๊ธฐ๋ฐ์ ์์ ์ ์ธ ์ ์ด๋ฅผ ํตํด ์ต๊ณ ์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ ๊ฒ์ด๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ Grasp-MPC๊ฐ ์ค์ ๋ก๋ด ํ์ฅ์ ํฌ์ ๋ ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํ ๋, ์์ธก ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ๊ฐ์ธํ ์๋ฃจ์ ์์ ์์ฌํ๋ค.
์ค์ธ๊ณ(real-world) ์คํ ์ค์ : ์๋ฎฌ๋ ์ด์ ์์ ์ ์๋ฏธํ ์ฑ๋ฅ์ ๋ณด์ธ Grasp-MPC๋ฅผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์๋ ๊ฒ์ฆํ์๋ค. ์ค์ ์คํ์๋ UR10 ๋ก๋ด ํ๊ณผ Robotiq 2F-140 ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ๊ณ , ์ด์ง์ ์ธ 3๊ฐ์ง ํ๊ฒฝ์์ ํ๊ฐ๊ฐ ์ด๋ค์ก๋ค: (1) ๋ฌผ์ฒด๊ฐ ๊ฑฐ์ ์๋ ๋น ํ ์ด๋ธ ์, (2) ์ฌ๋ฌ ์๋ก์ด ๋ฌผ์ฒด๋ค์ด ๋์ธ ๋ณต์กํ ํ ์ด๋ธ ์(cluttered tabletop), (3) ๋ฌผ์ฒด๋ค์ด ์ ๋ฐ์ ๋์ธ ๋ณต์กํ ์ ๋ฐ ํ๊ฒฝ(shelf clutter). ๊ฐ ํ๊ฒฝ๋ง๋ค ์๋ก ๋ค๋ฅธ ๊ฐ์ฒด ์ธํธ๋ฅผ ๋ฐฐ์นํ์ฌ ๋ค์์ฑ์ ๋์๊ณ , ๊ฐ ๋ฌผ์ฒด์ ๋ํด ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ์ด๊ธฐ ์์ธ๋ฅผ ์ค์ ํ์ฌ ๋ฐ๋ณต ์ํํ๋ค. ํ๊ฒฝ๋ณ๋ก ์์ญ ํ ์ด์์ ํ์ง ์๋๋ฅผ ํตํด ์ผ๊ด์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํ๊ฐํ์๋ค. ๋ก๋ด์ ์๊ฐ ์ผ์๋ RealSense L515 ๊น์ด ์นด๋ฉ๋ผ 2๋๋ฅผ ์ฌ์ฉํ์ฌ ์ค์๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์์ฑํ๊ณ , ๋ชฉํ ๋ฌผ์ฒด๋ SAM-Track ๊ธฐ๋ฒ์ผ๋ก ๋ถ๋ฆฌ(segment)ํ์ฌ ์ธ์ํ๋ค. (SAM-Track์ Grounding DINO๋ฅผ ํตํ ๊ฐ์ฒด ๊ฒ์ถ๊ณผ SAM(Segment Anything)์ผ๋ก ๋ถํ ์ ๊ฒฐํฉํ ๋ฐฉ๋ฒ์ผ๋ก, ๋ชฉํ ๋ฌผ์ฒด์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ์ถ์ถํด์ค๋ค.) ๋ ์ฃผ๋ณ ์ฅ์ ๋ฌผ์ ๋ค๋ฃจ๊ธฐ ์ํด NVBlox๋ฅผ ์ด์ฉํด ํ๊ฒฝ์ ์ฅ์ ๋ฌผ ๋งต์ ์์ฑํ๊ณ , ์ด๋ฅผ ๋ชจ์ ํ๋๋๊ณผ MPC ๋ชจ๋์์ ๊ณ ๋ คํ๋๋ก ์ค์ ํ์ฌ ์ถฉ๋์ ์ฌ์ ์ ํํผํ๋๋ก ํ๋ค. ํ์ง ์ฑ๊ณต ๊ธฐ์ค์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ ์ฌํ๊ฒ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฌ๋ฆฐ ๋ค ๋ก๋ด์ ํ ํฌ์ง์ ๊น์ง ์ด๋์ํค๋ฉด์ ํ ๋ฒ๋ ๋จ์ด๋จ๋ฆฌ์ง ์๋ ๊ฒ์ผ๋ก ์ ์๋์๋ค.
์ค์ธ๊ณ ๋น๊ต ๋ฐ ์์ ์ฑ: ์ค์ ํ๊ฒฝ์์๋ ํ๋ฃจํ ์ ์ฑ ๋ค์ ์์ ์ฑ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์, ๋น๊ต ๋์์ผ๋ก๋ ์คํ ๋ฃจํ ๊ธฐ๋ฐ์ CuRobo-GraspAPI ๋ฐฉ๋ฒ๋ง์ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ์ ํ๋๋์ผ๋ก ์ง์ ๋ ํ์ง ์์ธ๊น์ง ์ด๋ํ ํ ๊ทธ๋๋ก ์ง๋ ๊ธฐ์กด์ open-loop ํ์ง ํ์ดํ๋ผ์ธ์ผ๋ก, ํ์ค์์ ๋น๊ต์ ์์ ํ๊ณ ์ ๋ขฐํ ๋งํ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฃผ๋๋ค. ๋ฐ๋ฉด ์์ ์๋ฎฌ๋ ์ด์ ์ ํฌํจ๋๋ ๋ค๋ฅธ ํ๋ฃจํ ๋ฐฉ์๋ค(IL ๊ธฐ๋ฐ ์ ์ฑ ๋ค ๋ฑ)์ ์ถฉ๋ ํํผ ๋ฉ์ปค๋์ฆ์ด ์์ด ์์ ๋ฌธ์ ๊ฐ ์์๋๋ฏ๋ก ์ค์ ๋ก๋ด์๋ ์ ์ฉํ์ง ์์๋ค. (์๋ฅผ ๋ค์ด ์ ๋ฐ์ด๋ ํ ์ด๋ธ์ ๋ก๋ดํ์ด ๋ถ๋ช์น ์ํ์ด ์์ด ์ ์ธํ๋ค๋ ์ค๋ช ์ด๋ค.) ์ด์ ๋นํด Grasp-MPC๋ MPC ์ต์ ํ ์์ฒด์ ์ถฉ๋ ํํผ ๋น์ฉ์ ํฌํจํ๊ณ ์์ด ์ฃผ๋ณ ์ฅ์ ๋ฌผ์ด ์๋ ์ํฉ์์๋ ์์ ํ๊ฒ ๋์ํ ์ ์๊ธฐ ๋๋ฌธ์, ์ค์ ๋ก๋ด ์คํ์ ์ ํฉํ๋ค๋ ์ ๋ ๊ฐ์กฐ๋์๋ค.
์ค์ธ๊ณ ์คํ ๊ฒฐ๊ณผ: ๋น ํ ์ด๋ธ๋ถํฐ ๋ณต์กํ ์ ๋ฐ๊น์ง ์ ์ง์ ์ผ๋ก ๋์ด๋๊ฐ ์ฆ๊ฐํ๋ 3๊ฐ์ง ํ๊ฒฝ ๋ชจ๋์์ Grasp-MPC๋ ์ผ๊ด๋๊ฒ open-loop ๊ธฐ์ค๋ณด๋ค ๋์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๊ฑฐ๋์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก Figure 8์ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ ํ๊ฒฝ์์๋ Grasp-MPC๊ฐ CuRobo(open-loop) ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๊ณต๋ฅ ์ด ๋์์ผ๋ฉฐ ๋ณต์กํ ํ๊ฒฝ์ผ์๋ก ๊ทธ ๊ฒฉ์ฐจ๊ฐ ์ปค์ก๋ค๊ณ ๋ณด๊ณ ๋๋ค. Open-loop ๋ฐฉ์์ ์์ธก๋ ํ์ง ์์ธ๊ฐ ์ด์์ ์์น์์ ์กฐ๊ธ๋ง ๋ฒ์ด๋๋ ์คํ ์ค ๊ฒฝ๋ก๋ฅผ ์์ ํ์ง ๋ชปํด ํ์ง์ ์คํจํ๋ ์ฌ๋ก๊ฐ ์ฆ์์ง๋ง, Grasp-MPC๋ ์คํ ๋์ค ์ง์์ ์ผ๋ก ๊ทธ๋ฆฌํผ์ ์์ธ๋ฅผ ์กฐ์ ํ๋ฉด์ ๊ฐ์น ํจ์ ์์ ๋น์ฉ์ ์ต์ํํ๋๋ก ๋์ํ๊ธฐ ๋๋ฌธ์, ์ฅ์ ๋ฌผ(์: ์ ๋ฐ ๊ฐ์ฅ์๋ฆฌ ๋ฑ)์ ํผํ๋ฉด์๋ ์ต์ข ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋น์จ์ด ํจ์ฌ ๋์๋ค. ์์ฝํ๋ฉด, ์ ์ ์ธ ๋ฌผ์ฒด ํ์ง ์์ ์์ ์กฐ์ฐจ๋ Grasp-MPC๊ฐ open-loop ๋๋น ๋ฐ์ด๋ ์ ์๋ ฅ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ค. ์ค์ ์์๋ก, Grasp-MPC๋ ์ ๋ฐ ๊ตฌ์์ ์๊ฑฐ๋ ์ฌ๋ฌ ๋ฌผ์ฒด ์ฌ์ด์ ๋ ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ์ง์ ๋๋ ์ค๊ฐ์ ๊ทธ๋ฆฝ ์์ธ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฑ๊ณต์ ์ผ๋ก ํ์งํ๋ ๋ชจ์ต์ ๋ณด์๋๋ฐ, ์ด๋ฌํ ๋ฅ๋ ฅ์ ๊ธฐ์กด ๊ฐ๋ฐฉํ ์ ์ด๋ก๋ ๋ถ๊ฐ๋ฅํ ๋ถ๋ถ์ด๋ค.
ํํธ, ๋์ ์ธ ๋ณํ์ ๋ํ ์ ์ ์คํ๋ ์งํ๋์๋ค. ์ด๋ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ํ๋ฃจํ ์ ์ด์ ์ฅ์ ์ ๊ทน๋ํํ๋ ์๋๋ฆฌ์ค๋ก์, ๋ก๋ด์ด ๋ชฉํ ํ์ง ์ง์ (pre-grasp)์ ๋๋ฌํ ํ์ ์๋์ ์ผ๋ก ๋ฌผ์ฒด์ ์์น๋ฅผ ์ด๋(๊ต๋)์์ผ ๋ณด๋ ํ ์คํธ์ด๋ค. ์ด๋ฌํ ๋๋ฐ ์ํฉ์ ์ผ๋ฐ์ ์ธ open-loop ์ ๊ทผ์ผ๋ก๋ ๋์์ด ๋ถ๊ฐ๋ฅํ๋ฏ๋ก, ํด๋น ์คํ์ Grasp-MPC ๋จ๋ ์ผ๋ก ์ํ๋์๋ค. ์คํ์์๋ ์ฌ๋ฌ ๋ฌผ์ฒด์ ๋ํด ๊ฐ๊ฐ ์ ์ฐจ๋ก์ฉ ํฐ ํญ์ ์์น ๊ต๋์ ์ฃผ์๋๋ฐ, Grasp-MPC๋ ๋ฌผ์ฒด๊ฐ ๊ฐ์๊ธฐ ์์ง์ฌ๋ ์ฆ๊ฐ์ ์ผ๋ก ๊ฒฝ๋ก๋ฅผ ๋ณด์ ํ์ฌ ๋๋ด ํ์ง์ ์ฑ๊ณตํ๋ ๋์ ์ ์๋ ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ฌ์ง์ด ํ์ต๋ ๊ฐ์น ํจ์๋ ์ฃผ๋ก 5cm ์ด๋ด์ ๋น๊ต์ ์์ ์์ง์๋ง ๊ฒฝํํ์์๋, ๊ทธ ์ด์์ ํฐ ๋ฌผ์ฒด ์ด๋์๋ ์ ์ญ์ ์ผ๋ก ํ์ง๋ฅผ ์ฌ๊ณํํ์ฌ ์๋นํ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค๋ ์ ์ด ๊ณ ๋ฌด์ ์ด๋ค. (์ ๋์ ์ธ ์ฑ๊ณต๋ฅ ์์น๊ฐ ์ ์๋์ง๋ ์์์ง๋ง, ์คํ ์์๋ฅผ ํตํด Grasp-MPC๊ฐ ์ค์๊ฐ์ผ๋ก ์์ง์ด๋ ํ์ ์ ์ถ์ ํ์ฌ ์ก๋ ๋ชจ์ต์ด ํ์ธ๋์๋ค๊ณ ํ๋ค.) ์ด๋ Grasp-MPC์ ํ๋ฃจํ ์ ์ด๊ฐ ๊ฐ์ง๋ ์ค์๊ฐ ์ ์์ฑ์ ์ ๋ณด์ฌ์ฃผ๋ ๋๋ชฉ์ผ๋ก, ์ค์ ์์ฉ์์ ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง๊ฑฐ๋ ์์ง์ผ ๋๋ ํ๋ณต(graceful recovery) ๊ฐ๋ฅํ ํ์ง ์์คํ ์ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ์คํ ๊ฒฐ๊ณผ๋ค์ ์๋ฎฌ๋ ์ด์ ์์๋ ์ค์ ์์๋ Grasp-MPC์ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ๊ฒฌ๊ณ ํจ์ ์ ์ฆํ๋ค. Grasp-MPC๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๊ฐ์น ํจ์ ๋๋ถ์ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๊ณ , MPC ๊ธฐ๋ฐ ํผ๋๋ฐฑ ์ ์ด๋ฅผ ํตํด ํ๊ฒฝ ๋ณํ๋ ์์ธก ์ค์ฐจ์๋ ํ๋ค๋ฆฌ์ง ์๋ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ์ฃผ์๋ค. ํนํ ๋ณต์กํ ์ค์ ํ๊ฒฝ (ํ ์ด๋ธ, ์ ๋ฐ ๋ฑ)์์๋ ์ถ๊ฐ ํ์ต ์์ด ๊ณง๋ฐ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๋ธ ์ ์, ์ด ์ ๊ทผ๋ฒ์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋ท๋ฐ์นจํ๋ ์ค์ํ ์ฑ๊ณผ๋ผ ํ ์ ์๋ค. Grasp-MPC๋ ์ผ์ ๋ ธ์ด์ฆ, ๋ฌผ๋ฆฌ์ ์ ์ด ๋ฑ์ ํ์ค ์์ธ์ ์ ๊ฒฌ๋๋ฉฐ, ์ด๋ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์์กดํ์ง ์๊ณ ๋ ๋ฌ์ฑ๋ ๊ฒ์ด๋ผ ๋์ฑ ์ฃผ๋ชฉ๋๋ค.
2.3 3. ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต ๋ถ์
๋ก๋ด ํ์ง(grasping) ๋ถ์ผ์ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํฌ๊ฒ open-loop ๋ฐฉ์๊ณผ closed-loop ๋ฐฉ์์ผ๋ก ์๋ถ๋๋ค. Open-loop ํ์ง ๊ธฐ๋ฒ๋ค์ ๋ฅ๋ฌ๋์ผ๋ก ๊ทธ๋ฆฝ ํฌ์ฆ(ํ์ง ์์ธ)๋ฅผ ์์ธกํ ํ, ๋ก๋ดํ์ ํด๋น ์์น๋ก ๋ชจ์ ํ๋๋ํด ์ด๋์์ผ ํ์งํ๋ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํด์๋ค. ๋ํ์ ์ผ๋ก ๋ฌผ์ฒด์ 3D ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํ์ฉํ ๋๊ท๋ชจ ํ์ต(์: Dex-Net ๋ฑ)์ด๋, ์๋ฎฌ๋ ์ดํฐ์์ ์์ฑํ ํ์ง annotation ๋ฐ์ดํฐ๋ฅผ ํตํ ํ์ต ๋ฐฉ๋ฒ๋ค์ด ์ด์ ์ํ๋ค. ์ด๋ฌํ open-loop ๋ฐฉ๋ฒ๋ค์ ๋น๊ต์ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ํ์ง ์ฑ๊ณต๋ฅ ์ด ๋๊ฒ ๋ณด๊ณ ๋์์ผ๋, ์ค์๊ฐ ํผ๋๋ฐฑ ๋ถ์กฑ์ผ๋ก ์ธํด ํ ๋ฒ ๊ณํ์ด ์์๋๋ฉด ๊ฒฝ๋ก๋ฅผ ์ ์ฐํ๊ฒ ์์ ํ์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฝ ํฌ์ฆ ์์ธก ์ค๋ฅ๋ ์คํ ์ค ๋ฌผ์ฒด์ ์์ง์ ๋ณํ์ ๋งค์ฐ ์ทจ์ฝํ๋ฉฐ, ๋ณต์กํ ํ๊ฒฝ์์ ๋ฌผ์ฒด๊ฐ ์๋ก ์ํธ์์ฉํ๊ฑฐ๋ ์์ธก๊ณผ ๋ค๋ฅธ ์์น์ ์์ ๋ ์คํจ์จ์ด ๋์์ง๋ ๋ฌธ์ ๊ฐ ์์๋ค.
ํ๋ฃจํ(closed-loop) ํ์ง ๊ธฐ๋ฒ๋ค์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ์ค์๊ฐ ์ผ์ ํผ๋๋ฐฑ์ ์ ์ด์ ๋์ ํ ๋ฐฉ๋ฒ๋ค์ด๋ค. ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๋ชจ๋ฐฉํ์ต(IL) ๊ธฐ๋ฐ ์ ์ฑ ํ์ต์ด ์ด์ ํด๋นํ๋ฉฐ, ๋ก๋ด์ด ์นด๋ฉ๋ผ ๋ฑ์ผ๋ก๋ถํฐ ์ฃผ๊ธฐ์ ์ผ๋ก ๊ด์ธก์ ๋ฐ์ ๋งค ์์ ํ๋์ ๊ฒฐ์ ํ๋ ์ ์ฑ (policy)์ ํ์ตํ๋ค. ์ด๋ฌํ ํ๋ฃจํ ๋ฐฉ๋ฒ๋ค์ ์คํ ๋ฃจํ์ ๋นํด ํผ๋๋ฐฑ์ผ๋ก ์ค์ฐจ๋ฅผ ์์ ํ ์ ์์ด ์ฑ๊ณต๋ฅ ํฅ์์ ์ฌ์ง๊ฐ ์์ง๋ง, ํ์ค์ ์ผ๋ก ํ์ต์ ์ํ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ต๊ณ ๋น์ผ ๋ฌธ์ ๊ฐ ์๋ค. ๋ง์ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ๋จ์ํ ํ ์ด๋ธ ์ ๋จ์ผ ๋ฌผ์ฒด ํ๊ฒฝ์์๋ง ํ์ต/ํ๊ฐ๋์๊ณ , ์ฃผ์ด์ง ์ ํ๋ ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ ์๋ก์ด ๋ฌผ์ฒด๋ ๋ณต์กํ ์ฅ๋ฉด์ผ๋ก ์ผ๋ฐํํ๊ธฐ ์ด๋ ค์ ๋ค. ํนํ ๋ค์ํ ๋ฌผ์ฒด์ ๋ํ ๋๊ท๋ชจ ํ์ง ๋ฐ์ดํฐ์ ๋ถ์กฑ์ด ๋ณ๋ชฉ์ด ๋์ด, ํ๋ฃจํ ์ ์ฑ ๋ค์ ์ฑ๋ฅ์ ์ ํ์ ์ด์๋ค. ๋ํ ํ์ต๋ ์ ์ฑ ์ด ์ถฉ๋ ํํผ์ ๊ฐ์ ์์ ์ฑ์ ๋ด์ฌ์ ์ผ๋ก ๋ณด์ฅํ์ง ๋ชปํด, ๋ณต์กํ ํ๊ฒฝ์ ๋ก๋ด์ ํฌ์ ํ๊ธฐ์๋ ์ํ ์์๊ฐ ๋ง์๋ค. ์์ปจ๋, ๊ธฐ์กด์ ์ฌ๋ฌ RL/IL ๊ธฐ๋ฐ ํ์ง ๋ ผ๋ฌธ๋ค์ ๋ก๋ด๊ณผ ์ฃผ๋ณ ๋ฌผ์ฒด ๊ฐ ์ถฉ๋์ ๊ณ ๋ คํ์ง ์์์ ์ค์ ์์ฉ์ ์์ ๋ฌธ์ ๊ฐ ์ง์ ๋์ด ์๋ค.
์ด ๋ ผ๋ฌธ์ Grasp-MPC ์ ๊ทผ๋ฒ์ ๊ธฐ์กด ๋๋น ๋ช ๊ฐ์ง ์ค์ํ ์ฐจ๋ณ์ ์ ์ง๋๋ค. ์ฐ์ , Open-loop์ Closed-loop์ ์ฅ์ ๊ฒฐํฉ์ด๋ผ๋ ๊ด์ ์์, Grasp-MPC๋ ์ฌ์ ํ์ต๋ ๊ทธ๋ฆฝ ์์ธก ๋ชจ๋ธ๊ณผ ๋ชจ์ ํ๋๋์ ์ฌ์ฉํด ์ด๊ธฐ ํ์ง ์์ธ๊น์ง ์ ๊ทผํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋จ๊ณ๋ฅผ ํ์ฉํ๋ฉด์๋, ์ต์ข ํ์ง ๋์์ MPC ํ๋ฃจํ ์ ์ด๋ก ์ํํจ์ผ๋ก์จ ๋ ์ ๊ทผ๋ฒ์ ์ด์ ์ ๋ชจ๋ ์ทจํ๋ค. ์ด์ฒ๋ผ ๋ชจ๋ธ ๊ธฐ๋ฐ + ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ํตํฉํ ์ค๊ณ๋ ๊ธฐ์กด์ ์๋ ์๋ก์ด ํ๋ก, open-loop ๋ฐฉ์์ ๋น ๋ฅธ ์ด๊ธฐ ๊ฒฝ๋ก ์ค์ ๋ฅ๋ ฅ๊ณผ closed-loop ๋ฐฉ์์ ์ค์๊ฐ ์ ์ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ ๊ฒ์ด๋ค. ํนํ MPC๋ฅผ ์ ์ฑ ์คํ๊ธฐ๋ก ์ฌ์ฉํ ์ ์ด ๋ ํนํ๋ฐ, ์ผ๋ฐ์ ์ธ RL๊ณผ ๋ฌ๋ฆฌ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ตํ์ง ์๊ณ ๊ฐ์น ํจ์๋ง์ผ๋ก๋ MPC๊ฐ ์ต์ ํ์๋ฅผ ์ฐพ์๋ผ ์ ์๋๋ก ํ๋ค. ์ด๋ ์คํ๋ผ์ธ RL์ ์ฒ ํ๊ณผ๋ ๋ง๋ฟ์ ์๋๋ฐ, ๊ธฐ์กด ์คํ๋ผ์ธ RL ๊ธฐ๋ฒ๋ค์ ๋์ฉ๋์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด์๋ ํ์ต๋ Qํจ์๋ ๊ฐ์นํจ์๋ก๋ถํฐ ์ ์ฑ ์ ์ถ์ถํ๋ ๊ณผ์ ์์ ์ด๋ ค์์ด ์์๋ค. Grasp-MPC๋ ์ ์ด์ MPC๊ฐ ๊ณง ์ ์ฑ ์ด๋ฏ๋ก ์ด๋ฌํ ์ถ์ถ ๊ณผ์ ์ด ๋ถํ์ํ๋ฉฐ, ๊ฐ ํจ์ ํ์ต ์์ฒด์ ์ง์คํ ์ ์์๋ค. ์ด๋ฌํ ๊ตฌ์กฐ ๋๋ถ์ IQL๊ณผ ๊ฐ์ ์คํ๋ผ์ธ RL ๋ฐฉ๋ฒ์ ๋นํด ํ์ต๋ ๊ฐ์น ํจ์๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๋ํ ๋น์ฉ ํจ์ ์ค๊ณ์ ์ธก๋ฉด์์, Grasp-MPC๋ ํ์ต ๊ธฐ๋ฐ์ ๋น์ฉ ํจ์(๊ฐ์น ํจ์)๋ฅผ ๋์ ํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋จ์ ์ ๊ทน๋ณตํ๋ค. ์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด, ๊ธฐ์กด์ Chen ๋ฑ์ ์ฐ๊ตฌ์์๋ ์์ธก๋ ๊ทธ๋ฆฝ ํฌ์ฆ์์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฐ ํจ์๋ฅผ MPC์ cost๋ก ์ฌ์ฉํ๋ ค ํ์ผ๋, ์ด๋ฌํ ๋จ์ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์ฒ๋๋ ํ์ง ์ฑ๊ณต์ ์ค์ํ ์ฌ๋ฌ ์์ธ(์: ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด์ ๊ตฌ์ฒด์ ์ธ ์ ์ด ๊ด๊ณ๋ ๋ฌผ์ฒด์ ๋ฌด๊ฒ ์ค์ฌ ๋ฑ)์ ๋ฐ์ํ์ง ๋ชปํด ๊ฒฐ๊ณผ์ ์ผ๋ก ์ต์ ์ด ์๋ ๋์์ ์ ๋ํ๋ ๋ฌธ์ ๊ฐ ์์๋ค. ๋ํ ๋ค๋ฅธ ์๋ ์ค ํ๋์ธ CV-MPC์์๋ ์๋์ ๋ฐ๋ชจ๋ง์ผ๋ก ๊ฐ์น ํจ์ ์์๋ธ์ ํ์ตํ์๋๋ฐ, ์ด๋ ์ ์ฐจ์ ์ํ(์: ๋ก๋ด joint ๊ฐ ๋ฑ)๋ง ์ฌ์ฉํ์ฌ ํ์ตํ์๊ธฐ ๋๋ฌธ์ ์๊ฐ์ ๋ค์์ฑ์ด๋ ์๋ก์ด ์ํฉ์ ์ ์ํ๊ธฐ ์ด๋ ค์ ๋ค. ๋ฐ๋ฉด Grasp-MPC์ ๊ฒฝ์ฐ ๊ณ ์ฐจ์ ์๊ฐ์ ๋ณด(ํฌ์ธํธ ํด๋ผ์ฐ๋)์ ์๋ฐฑ๋ง ๊ฑด์ ๋ค์ํ ์๋ฎฌ๋ ์ด์ ๊ถค์ ์ผ๋ก๋ถํฐ ํ์ตํ ๊ฐ์น ํจ์๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, ํ์ง ์ฑ๊ณต์ ์ํฅ์ ์ฃผ๋ ๋ฏธ์ธํ ์์๋ค๊น์ง ๋น์ฉ์ ๋ฐ์ํ ์ ์์๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ์ฑ๊ณต๋ฅ ๋ชจ๋ ํฅ์์์ผฐ๋ค. ์ด๋ Grasp-MPC๊ฐ MPC๋ฅผ ํ์ฉํ ํ๋ฃจํ ์ ์ด ๋ถ์ผ์์ ์ฒ์์ผ๋ก ๋๊ท๋ชจ ๋น์ ๊ธฐ๋ฐ ํ์ต์ ๊ฒฐํฉํ ์ฌ๋ก๋ก ํ๊ฐํ ์ ์๋ค.
๋ฐ์ดํฐ์ ๊ท๋ชจ์ ์ผ๋ฐํ ์ธก๋ฉด์์๋ Grasp-MPC๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ณด๋ค ์์ ๋ค. FetchBench ๋ฑ ์ด์ ์ฐ๊ตฌ๋ค์์๋ ํ์ง ๋ฐ์ดํฐ์ ์๊ณผ ๋ค์์ฑ์ ํ๊ณ๋ก ์ธํด ์ฑ๋ฅ์ด ์ ์ฝ๋์๋๋ฐ, Grasp-MPC๋ Objaverse ๊ธฐ๋ฐ์ผ๋ก ํจ์ฌ ํฐ ๊ท๋ชจ์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ํ์ตํจ์ผ๋ก์จ ์ด๋ฌํ ํ๊ณ๋ฅผ ๋ํํ๋ค. ํนํ FetchBench์์ ์ฌ์ฉ๋ Transformer IL ์ ์ฑ ์ ๊ฒฝ์ฐ ์ ํ๋ ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ผ ๋ณต์กํ ์ฅ์ ๋ฌผ ํ๊ฒฝ์์๋ ์ฑ๋ฅ์ด ๋จ์ด์ก์ผ๋, Grasp-MPC๋ ๋ ๋๊ท๋ชจยท๋ค์ํ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋๋ถ์ ์ด์ง์ ์ธ ํ๊ฒฝ์์๋ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ค์ ์คํ์์ Grasp-MPC๊ฐ ํ์ต ๋๋ ๋น ํ๊ฒฝ๋ง ๊ฒฝํํ์์๋ ๋ถ๊ตฌํ๊ณ , ๋ณต์กํ ํ ์ด๋ธ์ด๋ ์ ๋ฐ ํ๊ฒฝ์์ ๋ณ๋ ํ๋ ์์ด ๋์ ์ฑ๊ณต๋ฅ ์ ๋ธ ์ ์ ์ด๋ฌํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์์ ์ ๋ณด์ฌ์ค๋ค.
์์ ์ฑ๊ณผ ์์คํ ํตํฉ ๊ด์ ์์ ๋ณด๋๋ผ๋, Grasp-MPC๋ ์ค์ฉ์ ์ธ ์ฐ์๋ฅผ ๊ฐ๋๋ค. ๊ธฐ์กด์ ํ๋ฃจํ ํ์ต ์ ์ฑ ๋ค์ ์ฃผ๋ก ์ถฉ๋ ํํผ๋ ์์ ์ ์ฝ์ ๊ณ ๋ คํ์ง ์๊ณ ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ค์ ํ๊ฒฝ์์ ๋ก๋ด์ด ์ฅ์ ๋ฌผ๊ณผ ์ถฉ๋ํ ์ํ์ด ์์๋ค. ํ์ง๋ง Grasp-MPC๋ MPC ์ต์ ํ ๋ฌธ์ ์ ์์ ์ ์ํ ์ ์ฝ(์ถฉ๋ ํํผ, ์ต์ jerk ๋ฑ)์ ๋ช ์์ ์ผ๋ก ํฌํจ์์ผฐ๊ธฐ ๋๋ฌธ์, ํ์ํ ๊ณต๊ฐ์ด๋ ์ฅ์ ๋ฌผ์ด ๋ง์ ์ํฉ์์๋ ์์ ์ ์ผ๋ก ๋์ํ ์ ์์๋ค. ์ด๋ ๋ณธ ๋ ผ๋ฌธ ์คํ์์๋ ์ ์ฆ๋์ด, ๋ค๋ฅธ ํ๋ฃจํ ๋ฐฉ๋ฒ๋ค์ ํ์ค ํ๊ฒฝ์์ ์ํํด ์ ์ฉํ์ง ๋ชปํ ๋ฐ ๋นํด Grasp-MPC๋ ์ ๋ฐ ๊ฐ์ ๋ณต์กํ ํ๊ฒฝ์์๋ ๋ฌด์ฌ๊ณ ๋ก ์๋ฌด๋ฅผ ์ํํ๋ค. ๋์๊ฐ ์ด๋ฌํ ๋ชจ๋์ ์ค๊ณ ๋๋ถ์, Grasp-MPC๋ ์๋ก์ด ์ ์ฝ ์กฐ๊ฑด์ด๋ ํ๊ฒฝ ๋ณํ์ ์ ์ฐํ๊ฒ ๋์ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ๋ก๋ด์ ์์ ๊ณต๊ฐ์ ํน์ ๊ธ์ง ์์ญ์ด๋ ๋์ญํ์ ์ ํ์ด ์ถ๊ฐ๋๋๋ผ๋, MPC ๋ฌธ์ ์ ํด๋น ๋น์ฉ์ด๋ ์ ์ฝ์ ๋ฃ์ผ๋ฉด ์ฌํ์ต ์์ด๋ ์์คํ ์ ๋ฐ์๋ ์ ์๋ค. ์ด๋ ํ์ต๋ ์ ์ฑ ์ ๋ฐ๊พธ์ง ์๊ณ ๋ ์ ์ด ๋จ๊ณ์์ ํด๊ฒฐํ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ ์์ฉ์์์ ํธ์์ฑ์ ๋์ฌ์ค๋ค.
๋ง์ง๋ง์ผ๋ก, ์ฑ๋ฅ ์ธก๋ฉด์์์ ๋น๊ต๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. Grasp-MPC๋ ์๋ฎฌ๋ ์ด์ ์์์ 5,400์ฌ ๊ฐ์ ๋ค์ํ ํ์ง ์๋๋ฆฌ์ค๋ฅผ ์คํํ ๊ฒฐ๊ณผ, ๋ชจ๋ฐฉํ์ต(IL) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ์์๋ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , ๊ธฐ์กด ๊ณํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(planning-based)์ด ์์ธก ์ค์ฐจ๋ ์ผ์ ๋ ธ์ด์ฆ๋ก ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ์ํฉ์์๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋๋ค. ์คํ๋ผ์ธ RL์ธ IQL๊ณผ ๋น๊ตํด์๋, IQL์ด ์ ์ฑ ์ถ์ถ์ ๋นํจ์จ๋ก ์ฑ๋ฅ์ด ์ ํ๋ ๋ฐ๋ฉด Grasp-MPC๋ ๋ ๋์ ์ฑ๊ณต๋ฅ ๋ก ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. ์ค์ ๋ก๋ด ์คํ์์๋, ๊ธฐ์กด์ ๊ณํ ๊ธฐ๋ฐ ํ์ง ํ์ดํ๋ผ์ธ ๋๋น Grasp-MPC๊ฐ ๋ณต์กํ ํ ์ด๋ธ ๋ฐ ์ ๋ฐ ํ๊ฒฝ์์ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ ํ์ต ๋น์ ์ ํ์ง ์์ ํ๊ฒฝ์์๋ ํตํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ ๊ฒ์ด๋ค. ์์ปจ๋ Grasp-MPC๋ ํ ์์ ์์ ๊ฐ๋ฐฉํยทํ๋ฃจํ ํ์ง ์ ๊ทผ๋ฒ๋ค ๋ชจ๋๋ฅผ ๋ฐ์ด๋๋ ์๋ก์ด state-of-the-art ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ผ๋ก ํ๊ฐ๋๋ค.
ํํธ, ์ ์๋ค์ ์ด๋ฌํ ๊ณตํ์๋ ๋ถ๊ตฌํ๊ณ ๋จ์์๋ ํ๊ณ์ ๋ ์ธ๊ธํ๋ค. ์๋ฅผ ๋ค์ด ์ ๋์ ์ธ ์ฑ๊ณต๋ฅ ์ ๋ ๋์ด๊ธฐ ์ํด์๋ ํฅํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ํตํ ๋ ์ ํํ ์ฑ๊ณต/์คํจ ๋ ์ด๋ธ๋ง์ด๋, ํ์ค ๋ฐ์ดํฐ๋ก์ ํ์ธํ๋ ๋ฑ์ด ์ ํจํ ์ ์๋ค๊ณ ์ ์ํ๋ค. ๋ํ ํ์ฌ Grasp-MPC์ ๊ฒ์ฆ์ ํ์ง(grasping) ์์ ์ ๊ตญํ๋์ด ์๋๋ฐ, ์ ์ฌํ ์ ๊ทผ์ ๋ค๋ฅธ ์กฐ์(manipulation) ์์ (์: ๋๊ตฌ ์ฌ์ฉ์ด๋ ๋น์ ๊ธฐ๋ฐ ์์น ๋ฏธ์ธ์กฐ์ ๋ฑ)์๋ ํ์ฅํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ฉฐ, ์ด๋ ์ถํ ์ฐ๊ตฌ๊ณผ์ ๋ก ๋จ๊ฒจ๋์๋ค๊ณ ๋ฐํ๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , Grasp-MPC๋ ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น ๋ฐ์ดํฐ ๊ท๋ชจ, ์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ, ์คํ ๊ฒ์ฆ ๋ฉด์์ ์๋ก์ด ๊ธฐ์ค์ ์ธ์ด ์ฐ๊ตฌ๋ก์ ์์๊ฐ ํฌ๋ค. ์ด๋ ๋ก๋ด ํ์ง ๋ฐ ์ผ๋ฐ์ ์ธ ๋ก๋ด ์ ์ด ์ปค๋ฎค๋ํฐ์์ ๋ชจ๋ธ ์์ธก ์ ์ด์ ๋ฅ๋ฌ๋ ๊ฐ์น ํจ์์ ์ตํฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ์ฌ๋ก์ด๋ฉฐ, ํฅํ ๋์ฑ ๋ณต์กํ ์กฐ์ ์๋ฌด์ ํ๋ฃจํ ํ์ต๊ธฐ๋ฐ ์ ์ด๋ฅผ ์ ์ฉํ๋ ๋ฐ์ ๋ฐ๊ฑฐ๋ฆ์ด ๋ ๊ฒ์ผ๋ก ์ ๋ง๋๋ค.