๐Sequential Dexterity ๋ฆฌ๋ทฐ
- ๐ค ๋ณธ ๋ ผ๋ฌธ์ ๋ณต์กํ๊ณ ์ฅ๊ธฐ์ ์ธ ์กฐ์ ์์ ์ ์ํด ์ฌ๋ฌ Dexterous ์ ์ฑ ๋ค์ ํจ์จ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ โSequential Dexterityโ ์์คํ ์ ์ ์ํฉ๋๋ค.
- โ๏ธ ์ด ์์คํ ์ ์ ๋ฐฉ ์ด๊ธฐํ(forward initialization)์ Transition Feasibility Function์ ํ์ฉํ ํ๋ฐฉ ๋ฏธ์ธ ์กฐ์ (backward fine-tuning)์ ํฌํจํ๋ ์๋ฐฉํฅ ์ต์ ํ ๊ณผ์ ์ ํตํด ์ ์ฑ ๊ฐ์ ์ํํ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- โ ์ ์๋ ํ๋ ์์ํฌ๋ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ๊ธฐ์กด ๋จ๋ฐฉํฅ ์คํฌ ์ฒด์ด๋ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์์ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์ํค๊ณ , ์๋ก์ด ๊ฐ์ฒด ๋ชจ์์ ๋ํ ์ผ๋ฐํ ๋ฐ zero-shot transfer ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.

1 Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ์๋ธํ์คํฌ๋ค๋ก ๊ตฌ์ฑ๋ ์ฅ๊ธฐ์ (long-horizon)์ด๊ณ ๋ณต์กํ ์กฐ์ ์์ ์ ์ํํ๊ธฐ ์ํ RL(Reinforcement Learning) ๊ธฐ๋ฐ์ ์ผ๋ฐ ์์คํ ์ธ Sequential Dexterity๋ฅผ ์ ์ํ๋ค. ๋ฑ์คํฐ๋ฌ์ค ํธ๋(dexterous hand)๋ ๋์ ์์ ๋์ ์ ์์ฑ์ผ๋ก ์ด๋ฌํ ๋ณต์กํ ์์ ์ ์ ํฉํ์ง๋ง, ๊ณ ์ฐจ์์ ์ธ ํ๋ ๊ณต๊ฐ๊ณผ ๋ณตํฉ์ ์ธ ๋์ญํ์ผ๋ก ์ธํด ํ์ฉ์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. Sequential Dexterity๋ ์ฌ๋ฌ ๋ฑ์คํฐ๋ฌ์ค ์ ์ฑ (policy)์ ์ฐ๊ฒฐ(chain)ํ์ฌ ์ฅ๊ธฐ์ ์์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์์คํ ์ ํต์ฌ์ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์(Transition Feasibility Function, TFF)์ด๋ค. ์ด TFF๋ ์ ์ฑ ์ฐ๊ฒฐ์ ์ฑ๊ณต๋ฅ ์ ๋์ด๊ธฐ ์ํด ์๋ธ ์ ์ฑ (sub-policy)์ ์ ์ง์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ (finetune)ํ๊ณ , ์คํจ๋ก๋ถํฐ์ ๋ณต๊ตฌ ๋ฐ ๋ถํ์ํ ๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ๊ธฐ ์ํ ์์จ์ ์ธ ์ ์ฑ ์ ํ(policy-switching)์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์๋ฎฌ๋ ์ด์ ์์ ์์์ ๊ฐ์ฒด๋ก๋ง ํ๋ จ๋์์์๋ ๋ถ๊ตฌํ๊ณ , ๋ณธ ์์คํ ์ ์๋ก์ด ๊ฐ์ฒด ํ์์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ด๋ฉฐ, ์ค์ ๋ก๋ด ์์คํ ์ผ๋ก ์ ๋ก-์ท ์ ์ด(zero-shot transfer)๊ฐ ๊ฐ๋ฅํ๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋จ์ผ ์คํฌ(skill)์ ์ค์ ์ ๋๊ฑฐ๋, ์ธ์ ํ ์คํฌ ๊ฐ์ ์ํ ๊ณต๊ฐ ์ ๊ทํ(regularization)์ ์ง์คํ์ฌ ์ฅ๊ธฐ์ ๋ชฉํ๊ฐ ์ด๊ธฐ ์ ์ฑ ์ ๋ฏธ์น๋ ์ํฅ์ ๊ณ ๋ คํ์ง ์์๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด์ ๋ฌ๋ฆฌ ์ด์ค ๋ฐฉํฅ ์ต์ ํ(bi-directional optimization) ๊ณผ์ ์ ์ ์ํ์ฌ ์ ์ฒด ์คํฌ ์ฒด์ธ(skill chain)์ ํฌ๊ด์ ์ผ๋ก ์ต์ ํํ๋ค. ์ด๋ ์๋ฐฉํฅ ์ด๊ธฐํ(forward initialization) ๊ณผ์ ๊ณผ ์ญ๋ฐฉํฅ ๋ฏธ์ธ ์กฐ์ (backward fine-tuning) ๊ณผ์ ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋ฑ์คํฐ๋ฌ์ค ์๋ธ ์ ์ฑ ํ์ต(Learning dexterous sub-policies): ์ฅ๊ธฐ์ ์์ ์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ๋จผ์ ์ ์ฒด ์์ ์ K๋จ๊ณ์ ์๋ธํ์คํฌ G = (g_1, g_2, ..., g_K)๋ก ๋ถํดํ๊ณ , ๊ฐ ์๋ธ ์ ์ฑ \pi_i๋ฅผ PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ตํ๋ค. ๊ฐ ์๋ธํ์คํฌ๋ MDP(Markov Decision Process) M = (\mathcal{S}, \mathcal{A}, \pi, T, R, \gamma, \rho)๋ก ๊ณต์ํ๋๋ค. ์๋ฐฉํฅ ์ด๊ธฐํ(Forward initialization): ๊ฐ๋ณ ์๋ธ ์ ์ฑ ์ ํ๋ จํ๊ธฐ ์ํ ์ด๊ธฐ ์ํ๋ฅผ ์ ํํ๊ฒ ์ํ๋งํ๋ ๊ฒ์ ์ด๋ ต๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด์ ์๋ธํ์คํฌ \pi_{i-1}์ ์ฑ๊ณต์ ์ธ ์ต์ข ์ํ(\mathbf{s}_T^{i-1})๊ฐ ๋ค์ ์๋ธ ์ ์ฑ \pi_i์ ๊ทธ๋ด๋ฏํ ์ด๊ธฐ ์ํ(\rho_i)๋ฅผ ์ ๊ณตํ๋ค๋ ์ ์ ์ฐฉ์ํ๋ค. ๋ฐ๋ผ์, ํ๋ ์์ํฌ๋ ํ์คํฌ์ ์๊ฐ ์์์ ๋ฐ๋ผ ์๋ธ ์ ์ฑ ๋ค์ ์์ฐจ์ ์ผ๋ก ํ๋ จํ๋ค. ๊ฐ ์๋ธ ์ ์ฑ \pi_i๋ฅผ ํ๋ จํ ํ, ์ฑ๊ณต์ ์ธ ์ข ๋ฃ ์ํ ์งํฉ \{\mathbf{s}_T^i\}์ ์์งํ๊ณ , ์ด๋ฅผ ๋ค์ ์ ์ฑ \pi_{i+1}์ ํ๋ จํ๊ธฐ ์ํ ์ด๊ธฐ ์ํ ๋ถํฌ \rho_{i+1}๋ก ์ฌ์ฉํ๋ค. ์ด ์๋ฐฉํฅ ํ๋ จ ๋ฐฉ์์ ์ด๊ธฐ ์ํ์ ์ ํจ์ฑ์ ๋ณด์ฅํ์ฌ ๋ฑ์คํฐ๋ฌ์ค ์ ์ฑ ํ์ต์ ํจ์จ์ฑ์ ๋์ธ๋ค.
์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ด์ฉํ ์ ์ฑ ์ฐ๊ฒฐ(Policy chaining with Transition Feasibility Function): ์๋ฐฉํฅ ์ด๊ธฐํ๋ง์ผ๋ก๋ ์ด์ ์ ์ฑ \pi_{i-1}์ด ๋ค์ ์ ์ฑ \pi_i๊ฐ ํด๊ฒฐํ ์ ์๋ ์ข ๋ฃ ์ํ์ ๋๋ฌํ ์ ์์ผ๋ฏ๋ก ์ฑ๊ณต์ ๋ณด์ฅํ์ง ๋ชปํ๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ค์ ์ ์ฑ \pi_i์ ๊ฐ๋ฅ์ฑ(feasibility)์ ์ด์ ์ ์ฑ \pi_{i-1}์ ์ญ์ผ๋ก ์ ๋ฌํ์ฌ, \pi_{i-1}์ด \pi_i๊ฐ ์ฒ๋ฆฌํ ์ ์๋ ์ํ๋ก ์ต์ ํ๋๋๋ก ํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ด์ฉํ ์ญ๋ฐฉํฅ ์ ์ฑ ๋ฏธ์ธ ์กฐ์ ๋ฉ์ปค๋์ฆ์ ์ ์ํ๋ค. ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ ํ์ต(Learning Transition Feasibility Function): ์ฃผ์ด์ง ์ํ์ ๋ํ ์ ์ฑ ์ ๊ฐ๋ฅ์ฑ์ ํด๋น ์ํ์์ ์์ํ ๋ ์ ์ฑ ์ด ์ต์ข ์ ์ผ๋ก ์ฑ๊ณตํ ์ ์๋ ๋ฅ๋ ฅ์ผ๋ก ์ ์๋๋ค. ์ด ๊ฐ๋ ์ ์ ์ด ์ํ \mathbf{s}_0^i \in \rho_i (์ด๋ \mathbf{s}_T^{i-1}์ ๋์ผ)๋ฅผ ์๋ธํ์คํฌ ์คํ ๋ด์ ์์ ๋ณด์ ํฉ E_{\pi_i} \left[ \sum_{t=0}^{T-1} r_t \right]์ผ๋ก ๋งคํํ๋ ํจ์ F: \mathcal{S} \rightarrow \mathbb{R}๋ก ์ ํํ๋๋ค. TFF๋ ๋จ์ผ ์ํ \mathbf{s}_T^{i-1}๋ง์ผ๋ก๋ \pi_i์ ์ฑ๋ฅ์ ๊ตฌ๋ถํ๊ธฐ์ ๋ถ์ถฉ๋ถํ๋ฏ๋ก, ์ด์ ์๋ธํ์คํฌ๋ก๋ถํฐ์ ๊ฐ์ฒด ์๋์ ๊ฐ์ ์๊ฐ์ ์ ๋ณด๋ฅผ ํฌํจํ์ฌ 10๋จ๊ณ์ ๊ด์ฐฐ ์ํ ์ํ์ค \mathbf{s}_{[0:T-1]}^{i-1}๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , Multi-head Attention Network๋ฅผ ํ์ฉํ์ฌ ์ ์ ํ ์๊ฐ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ค. TFF F^i์ ์ต์ข ํ์ต ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ๋ค: L_i = \|F^i(\mathbf{s}_{[0:T-1]}^{i}) - E_{\pi_i} \left[ \sum_{t=0}^{T-1} r_t \right] \|_2^2 ์ญ๋ฐฉํฅ ์ ์ฑ ๋ฏธ์ธ ์กฐ์ (Backward policy fine-tuning): F^i๊ฐ ํ๋ จ๋๋ฉด, F^i๋ฅผ ๋ณด์กฐ ๋ณด์ ๊ตฌ์ฑ ์์๋ก ํตํฉํ์ฌ ์ด์ ์ ์ฑ \pi_{i-1}์ ๋ฏธ์ธ ์กฐ์ ํ ์ ์๋ค. ๋ฏธ์ธ ์กฐ์ ์ ๋ง์ง๋ง ์๋ธํ์คํฌ ์ ์ฑ \pi_{K-1}๋ถํฐ ์์ํ์ฌ ์ฒซ ๋ฒ์งธ ์ ์ฑ \pi_1์ด ์ ๋ฐ์ดํธ๋ ๋๊น์ง ๊ฐ ์ด์ ์ ์ฑ ์ ์์ฐจ์ ์ผ๋ก ๊ฐ์ ํ๋ค. ๊ฐ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์์, F^i๋ ์๋ณธ ์๋ธํ์คํฌ ๋ณด์ R_{i-1}๊ณผ ๊ฒฐํฉ๋์ด \pi_{i-1}์ ๋ฏธ์ธ ์กฐ์ ํ๋ ์ถ๊ฐ ๋ณด์์ผ๋ก ์ฌ์ฉ๋๋ค. ์ต์ข ์ ์ฑ ๋ฏธ์ธ ์กฐ์ ๋ณด์ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค: R'_{i-1}(\mathbf{s}_t, \mathbf{a}_t, \mathbf{s}_{t+1}; F^i) = \lambda_1 R_{i-1}(\mathbf{s}_t, \mathbf{a}_t, \mathbf{s}_{t+1}) + \lambda_2 F^i_{\omega}(\mathbf{s}_{[0:T-1]}^i) ์ฌ๊ธฐ์ \lambda_1๊ณผ \lambda_2๋ ๊ฐ์ค์น ๊ณ์์ด๋ค. \pi_{i-1}์ด ๊ฐ์ ๋๋ฉด, ๋ฐ์ดํฐ(์ด๊ธฐ ์ํ \mathbf{s}_{[0:T-1]}^{i-2}์์ \pi_{i-1}์ด ๋ฐ์ ๋์ ๋ณด์ E_{\pi_{i-1}} [\sum r_t]๊น์ง ๋งคํ)๋ฅผ ์์งํ์ฌ ์๋ก์ด ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ F^{i-1}๋ฅผ ๊ตฌ์ฑํ๊ณ , ์ด๋ ๋ค์ ์ด์ ์ ์ฑ \pi_{i-2}๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ด์ฉํ ์ ์ฑ ์ ํ(Policy switching with Transition Feasibility Function): ์ฌ๋ฌ ๋ฑ์คํฐ๋ฌ์ค ์ ์ฑ ์ ์ฐ๊ฒฐํ๋ ๋ฐ ์ค์ํ ๊ณผ์ ๋ ๋ค์ ์ ์ฑ ์ผ๋ก ์ธ์ , ์ด๋ค ์ ์ฑ ์ผ๋ก ์ ํํด์ผ ํ ์ง ๊ฒฐ์ ํ๋ ๊ฒ์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ํ๋ จ๋ TFF๋ฅผ ์ ์ฑ ์ ํ ์๋ณ์๋ก ํ์ฉํ๋ค. ๊ฐ ์๊ฐ ๋จ๊ณ์์ ๋ค์ ์๋ธ ์ ์ฑ ์ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ ๊ฐ๋ฅ์ฑ ์ ์ c_{i+1}^t = F^{i+1}(\mathbf{s}_{[0:t-1]}^t)/h_{i+1}๋ฅผ ์ถ๋ ฅํ๋ฉฐ, h_{i+1}์ ์ฑ๊ณต์ ์ธ ํ์คํฌ ์คํ์ ๋ณด์์ ๊ธฐ๋ฐํ ์๊ณ๊ฐ์ด๋ค. ์ ์ฑ ์ ํ์ ์ด์์ ์ธ ์์ ์ c_{i+1}^t > 1์ผ ๋๋ก ์ ์๋๋ค. ๋ํ, ๋ก๋ด์ด ์ด์ ์ ์ฑ ์ ์ฌ์ฉํ์ฌ ๋ณต๊ตฌํด์ผ ํ๊ฑฐ๋ ์ด๋ฏธ ๋ฌ์ฑ๋ ์๋ธํ์คํฌ๋ฅผ ๊ฑด๋๋ฐ์ด์ผ ํ ์๋ ์์ผ๋ฏ๋ก, ํ์ต๋ TFF ๊ทธ๋ฃน (F^2, ..., F^K)์ ๋จ๊ณ ์ถ์ ๊ธฐ(stage estimator)๋ก ํ์ฉํ๋ค. ๋งค ์ ์ฑ ์ ํ ๋จ๊ณ์์, ์ ์ฒด ํ์คํฌ์ ์ต์ข TFF๋ถํฐ ์ญ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ฅ์ฑ ์ ์๋ฅผ ๊ณ์ฐํ์ฌ, ์ฒ์์ผ๋ก c_i^t > 1์ธ ์๋ธ ์ ์ฑ ์ด ๋ค์ ์คํ ์ ์ฑ ์ผ๋ก ์ ํ๋๋ค. ์ด๋ค ์ ์๋ ๋ง์กฑํ์ง ์์ผ๋ฉด, ๋ก๋ด์ ์ ์ฒด ํ์คํฌ๋ฅผ ์ฒ์๋ถํฐ ์ฌ์์ํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ ์ฑ ์คํ ์ค ์์์น ๋ชปํ ์คํจ์ ๋ํ ๋ก๋ด์ ๊ฒฌ๊ณ ์ฑ(robustness)์ ํฅ์์ํค๊ณ , ๋ถํ์ํ ๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ์ด ํจ์จ์ ์ธ ํ์คํฌ ์คํ์ ์ด์งํ๋ค.
๋ณธ ์์คํ ์ Lego ๋ธ๋ก ๊ตฌ์กฐ ๊ตฌ์ถ ๋ฐ ๋๊ตฌ ์์น ์ง์ ์ด๋ผ๋ ๋ ๊ฐ์ง ์ฅ๊ธฐ์ ๋ฑ์คํฐ๋ฌ์ค ์กฐ์ ํ์คํฌ์ ๋ํด ํ๊ฐ๋์๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ณธ ์ฐ๊ตฌ์ ์ด์ค ๋ฐฉํฅ ์ต์ ํ ๋ฐฉ์์ ๊ธฐ์กด์ ๋จ์ผ ๋ฐฉํฅ ์คํฌ ์ฐ๊ฒฐ ๋ฐฉ๋ฒ๋ค(V-Chain, Policy-Seq, T-STAR)๋ณด๋ค ํ์คํฌ ์ฑ๊ณต๋ฅ ์์ 20% ์ด์ ํฌ๊ฒ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ํนํ, TFF๋ PPO๋ก ํ๋ จ๋ ๊ฐ์น ํจ์๋ณด๋ค ๋ค์ ์ ์ฑ ์ ๊ฐ๋ฅ์ฑ์ ๋ ์ ๋ชจ๋ธ๋งํ์ฌ 30% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. ๋ํ, TFF์ ์๊ฐ์ (temporal) ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ ๋ ์ ์ ์ํ ์ ๋ณด๋ง ์ฌ์ฉํ์ ๋๋ณด๋ค 8% ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ, ๋์ ์ธ ์๊ฐ๋ฝ ์์ง์์ ํฌํจํ๋ ๋ฑ์คํฐ๋ฌ์ค ์ ์ฑ ์ฐ๊ฒฐ์ ์์ด ์๊ฐ ์ ๋ณด ์ถ์ถ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ค. ์์จ์ ์ธ ์ ์ฑ ์ ํ ๋ฅ๋ ฅ์ 30% ์ด์์ ์ฑ๊ณต๋ฅ ํฅ์์ ๊ฐ์ ธ์ ์ฅ๊ธฐ์ ํ์คํฌ ์ฑ๊ณต์ ํ์์ ์์ ์ ์ฆํ๋ค. ์ค์ ๋ก๋ด ์คํ์์๋ ๋ณธ ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค 30% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ, ๋ ๊ฐ์ ๋ธ๋ก์ ์๋ ๋์ ์ ์ธ 8๋จ๊ณ ํ์คํฌ์์ 33%์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๋ค(๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ์ 0%).
๋ณธ ์ฐ๊ตฌ์ ํ๊ณ์ ์ผ๋ก๋ ์ ์ด์ด ๋ง์ ์ฝ์ ๊ณผ์ ์ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ด๋ ต๊ณ , ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ ์๋์ผ๋ก ์ค๊ณ๋ ๋๋ฆ ๋์์ด ํ์ํ๋ค๋ ์ ๊ณผ, ๋ชจํฐ ์ด๊ฐ(motor tactile) ์ ๋ณด๊ฐ ์ฑ๋ฅ ํฅ์์ ํฐ ๊ธฐ์ฌ๋ฅผ ํ์ง ๋ชปํ๋ค๋ ์ ์ด ์๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ผ์ ๊ธฐ๋ฐ ์ด๊ฐ ์ ํธ์ ์ ์ฌ๋ ฅ์ ํ์ํ ์ ์๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Sequential Dexterity๋ ์ฌ์ธต ๊ฐํ ํ์ต์ผ๋ก ํ์ต๋ ๋ค์์ ๋ฑ์คํฐ๋ฌ์ค ์ ์ฑ ์ ์ฐ๊ฒฐํ๋ ์ด์ค ๋ฐฉํฅ ์ต์ ํ ๊ณผ์ ์ ํตํด ์ฅ๊ธฐ์ ๋ฑ์คํฐ๋ฌ์ค ์กฐ์ ํ์คํฌ๋ฅผ ํด๊ฒฐํ๋ ์์คํ ์ด๋ค. ์์คํ ์ ํต์ฌ์ธ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ ์๋ธ ์ ์ฑ ์ ์ ์ง์ ์ธ ๋ฏธ์ธ ์กฐ์ ๊ณผ ๋์ ์ ์ฑ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ์ ์ฑ ์ฐ๊ฒฐ์ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ๋ณธ ์์คํ ์ ์ค์ ๋ฑ์คํฐ๋ฌ์ค ๋ก๋ด์ผ๋ก ์ ๋ก-์ท ์ ์ด๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ์๋ก์ด ๊ฐ์ฒด ํ์์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ธ๋ค. ๋ณธ ์ด์ค ๋ฐฉํฅ ์ต์ ํ ํ๋ ์์ํฌ๋ ๋ฑ์คํฐ๋ฌ์ค ์กฐ์์ ๋์ด ์ํ ๋ก๋ด(bimanual robots)์ ์ํ ์คํฌ ์ฐ๊ฒฐ๊ณผ ๊ฐ์ ์ ์ฌ์ ์์ฉ ๋ถ์ผ์์๋ ์ผ๋ฐ์ ์ธ ์คํฌ ์ฐ๊ฒฐ ๋ฐฉ๋ฒ์ผ๋ก ํ์ฉ๋ ์ ์๋ค.
2 Detail Review
Sequential Dexterity: ๋ค๋จ๊ณ ์ ๊ตํ ์กฐ์์ ์ํ ์ ์ฑ ์ฐ์ ์ฌ์ธต ๋ถ์
2.1 ๋ ผ๋ฌธ ๊ฐ์ ๋ฐ ๋ฌธ์ ์ ๊ธฐ
Sequential Dexterity๋ ๊ธด ์ํ์ค๋ก ์ด๋ฃจ์ด์ง ๋ณต์กํ ์กฐ์ ์์ ์ ๋ค์ค ์๋ธ ์ ์ฑ (sub-policy)์ ์ฐ์ํ์ฌ ์ํํ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ ๋๋ค. ํ์ค ์ธ๊ณ์ ์กฐ์ ๊ณผ์ ๋ค์ ์ฌ๋ฌ ์๋ธํ์คํฌ(์: ํ์, ์ ๋ ฌ, ํ์ง, ์ฝ์ )๋ก ๊ตฌ์ฑ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ๊ฐ ๋จ๊ณ์ ์๊ตฌ์ฌํญ์ด ์์ดํฉ๋๋ค. ์ฌ๋์ ์๊ณผ ์ ์ฌํ ๋ค์ง(ๅคๆ) ๋ก๋ด ์(dexterous hand)์ ๋๊ตฌ ๊ต์ฒด๋ ์ฌํ์ง ์์ด ๋ค์ํ ์กฐ์ ๋ชจ๋๋ฅผ ์ ํํ ์ ์์ด ์ด๋ฌํ ์ฅ๊ธฐ ๋ค๋จ๊ณ ์์ ์ ์ ์ฌ๋ ฅ์ด ํฌ์ง๋ง, ๋์์ ์์ ๋์ ํ๋ ๊ณต๊ฐ์ด ๊ณ ์ฐจ์์ด๋ผ ํ์ต๊ณผ ์ ์ด๊ฐ ๋งค์ฐ ์ด๋ ค์ด ๋์ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค.
๊ธฐ์กด์๋ ์ ์ฒด ์์ ์ ๋จ์ผ ์ ์ฑ ์ผ๋ก ํ์ตํ๊ธฐ ์ด๋ ค์ ํ์คํฌ๋ฅผ ๋ถํ ํ ๋ค ๊ฐ ๋จ๊ณ๋ฅผ ์์ฐจ ์คํํ๋ ์ ๊ทผ์ด ๊ฒํ ๋์์ผ๋, ๋์ด๋ธํ ์์ฐจ ์คํ์ ์ ๋จ๊ณ์์ ๋๋ฌํ ์ํ๊ฐ ๋ค์ ๋จ๊ณ ์ ์ฑ ์ด ํ์ต๋ ๋ถํฌ๋ฅผ ๋ฒ์ด๋๋ ๊ฒฝ์ฐ ์ฝ๊ฒ ์คํจํ๊ฒ ๋ฉ๋๋ค. ๋ค์ ๋งํด, ํ ๋จ๊ณ์ ์ข ๋ฃ ์ํ๊ฐ ๋ค์ ๋จ๊ณ ์ ์ฑ ์ ์์ ์ํ ๋ถํฌ ๋ฐ์ ์๋ค๋ฉด ์ฐ์์ ์คํจํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ์ํ ๋ถํฌ ๋ถ์ผ์น ๋ฌธ์ ์ ๊ธด ํธ๋ผ์ด์ฆ์ ๊ฑธ์น ๋ณต์กํ ๋์ ์ํธ์์ฉ์ ๋ค๋จ๊ณ ์ ์ฑ ์ฐ์์ ํต์ฌ ๋์ ๋ก ์ง๋ชฉ๋ฉ๋๋ค. Sequential Dexterity ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์, ์ ์ฑ ์ฒด์ด๋(policy chaining)์ ์ํ ์๋ก์ด ์๋ฐฉํฅ ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๋ณต์์ ์ ๋์ ์ ์ฑ ๋ค์ ํ ๋ฐ ๋ฌถ์ด ๋ณต์กํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ณ , ํ์ต์ ์ฌ์ฉํ์ง ์์ ์๋ก์ด ๋ฌผ์ฒด ํํ์๋ ์ผ๋ฐํํ๋ฉฐ, ๋์๊ฐ ์ถ๊ฐ ํ์ต ์์ด ์ค๋ฌผ ๋ก๋ด์ ์ ์ฉ(์ ๋ก์ท ์ ์ด)ํ ์ ์์์ ์์ฐํ์์ต๋๋ค.
2.2 ๋ฐฉ๋ฒ๋ก ์์ธ ๋ถ์
๊ทธ๋ฆผ 1: Sequential Dexterity ํ๋ ์์ํฌ ๊ฐ์. (a) ์๋ฎฌ๋ ์ด์ ์์ ๊ฐ ์๋ธํ์คํฌ๋ณ ์ ์ฑ \pi^1, \pi^2, \pi^3, \pi^4๋ฅผ ์์ฐจ ํ์ตํ๋ ์๋ฐฉํฅ ์ด๊ธฐํ(ํ๋์)์, ํ์ต ์๋ฃ ํ ์ด์ ์ ์ฑ ์ ๋ฏธ์ธ์กฐ์ ํ๋ ์ญ๋ฐฉํฅ ํ์ธํ๋(๋นจ๊ฐ์) ๊ณผ์ . \rho^i๋ ์ ์ฑ \pi^i์ ์ํ ๋ถํฌ, F^i๋ ์๋ธํ์คํฌ i์ i!-!1 ์ฌ์ด์ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์. (b) ์ค ๋ก๋ด ์ ์ฉ ์ ์ ์ฑ ์ ๋ ฅ์ผ๋ก 6D ๋ฌผ์ฒด ์์ธ์ ๋ก๋ด ์ํ๊ฐ ์ฃผ์ด์ง๋ฉฐ, ์ ์ฑ ์ ํ์ ์ต๊ทผ 10์คํ ์ํ๋ฅผ ๊ณ ๋ คํ F^i ์ถ๋ ฅ์ด ์๊ณ๊ฐ h^i๋ฅผ ๋๋์ง์ ๋ฐ๋ผ ์ด๋ฃจ์ด์ง๋ค. ๋จ๊ณ \pi^2 Orient, \pi^3 Grasp, \pi^4 Insert๋ฅผ ์ค ๋ก๋ด์์ ์ํํ๋ ๋ชจ์ต.
Sequential Dexterity์ ํต์ฌ ์์ด๋์ด๋ ๊ธด ์กฐ์ ์์ ์ ๊ตฌ์ฑํ๋ ๊ฐ ๋จ๊ณ๋ฅผ ๋ ๋ฆฝ์ ์ธ ํ์ ์ ์ฑ ์ผ๋ก ์ ์ํ๊ณ ๊ฐํํ์ต์ผ๋ก ํ์ตํ ๋ค, ์ด๋ค์ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ฒฐํ์ฌ ์ ์ฒด ์์ ์ ์ํํ๋๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ ์๋ฐฉํฅ ์ต์ ํ(bi-directional optimization)๋ผ๊ณ ๋ถ๋ฆฌ๋ ํ์ต ์ ์ฐจ๋ฅผ ๋์ ํ์์ต๋๋ค. ์ฐ์ , ์๋ฐฉํฅ ์ด๊ธฐํ ๋จ๊ณ์์๋ ๊ฐ ์๋ธํ์คํฌ๋ง๋ค ๊ฐ๋ณ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ด๋ PPO ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ ๊ฐํํ์ต ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ ์๋ธํ์คํฌ๋ฅผ MDP๋ก ์ ์ํ๊ณ ์ ์ฑ ์ ํ๋ จํ๋ฉฐ, ์ด์ ๋จ๊ณ์ ์ข ๋ฃ ์ํ ๋ถํฌ๋ฅผ ํ์ฉํด ๋ค์ ๋จ๊ณ ์ ์ฑ ์ ์ด๊ธฐ ์ํ๋ก ์ํ๋งํจ์ผ๋ก์จ ์ฐ์ ์ ๋ฐ์ํ ์ํ ๋ถํฌ๋ฅผ ๋ฏธ๋ฆฌ ํฌํจ์ํต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๊ฐ ์ ์ฑ \pi^i๊ฐ ์ ๋จ๊ณ \pi^{i-1}๊ฐ ๋ง๋ค์ด๋ผ ๋ฒํ ์ํ์์๋ ๋์ํ๋๋ก ์ ๋ฐฉ์ ํ์ต์ ์ํํ ์ ์์ต๋๋ค.
์ดํ ์ญ๋ฐฉํฅ ํ์ธํ๋ ๋จ๊ณ์์๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์(Transition Feasibility Function, F^i)๋ฅผ ํ์ฉํ์ฌ ์ด์ํ ์ ์ฑ ์ฌ์ด์ ์ ์์ ๋์ฑ ์ต์ ํํฉ๋๋ค. ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ F^i(s)๋ ์๋ธํ์คํฌ i์ ์ด๊ธฐ ์ํ s์ ๋ํด ํด๋น ์ํ์์ ์ ์ฑ \pi^i๋ฅผ ์์ํ์ ๋ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ด๋ ์ฑ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ ํจ์์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ฐ \pi^i๋ฅผ ํ์ตํ ํ, \pi^{i-1}์ ์ข ๋ฃ ์ํ(์ฆ \pi^i์ ์์ ์ํ)๋ค๊ณผ ๊ทธ๋ก๋ถํฐ \pi^i๋ฅผ ์คํํ์ ๋ ์ป์ ๋์ ๋ณด์ ๋๋ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๋ชจ์์ F^i๋ฅผ ์ง๋ ํ์ต์ผ๋ก ํ๋ จํฉ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ F^i๋ ์ํ s๊ฐ ๋ค์ ๋จ๊ณ ์ ์ฑ ์ ์ผ๋ง๋ ์ ํฉํ์ง๋ฅผ ์์ธกํ๋ ์ญํ ์ ํ๋ฉฐ, ๋ง์น ๋ค์ ์ ์ฑ ์ ๊ฐ์น ํจ์์ฒ๋ผ ๋์ํ์ง๋ง ์ผ๋ฐ์ ์ธ RL ๊ฐ์น ํจ์์ ๋ฌ๋ฆฌ ํ ์ธ๋์ง ์์ ์ต์ข ์ฑ๊ณผ์ ์ง์คํฉ๋๋ค. ์ค์ PPO ๋ฑ์ผ๋ก ์ป์ ๊ฐ์น ํจ์๋ ํ ์ธ์ ์ํฅ์ผ๋ก ํ์ ์ ์ฑ ์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ์ ๋๋ก ํ๊ฐํ์ง ๋ชปํ๋๋ฐ, ์ ์๋ค์ ๋ณ๋์ F^i ํ์ต์ผ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ํนํ F^i์๋ ์ต๊ทผ ๋ช ์คํ ๋์์ ์ํ ๋ณํ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ์๊ฐ์ ๋งฅ๋ฝ๋ ๋ฐ์ํ์๋๋ฐ, ์ด๋ ๊ฒ ๊ณผ๊ฑฐ ์ํ ์ด๋ ฅ์ ํตํฉํจ์ผ๋ก์จ ๋จ์ ๋จ์ผ ์ํ ๊ธฐ์ค๋ณด๋ค ์ ์ด ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ ํํ ์์ธกํ ์ ์์์ต๋๋ค.
์ด ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ด์ฉํด ์ด์ ๋จ๊ณ ์ ์ฑ ์ ์ญ๋ฐฉํฅ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฑ \pi^{i-1}์ ํ์ต์ F^i๋ฅผ ํตํ ์ถ๊ฐ ๋ณด์ ๋๋ ๊ท์ ํญ์ ๋ถ์ฌํ์ฌ, \pi^{i-1}์ด ์ข ๋ฃ ์ ์ํ๋ฅผ F^i ๊ธฐ์ค์ผ๋ก ๋์ ์ ์ด ์ ์๋ฅผ ์ป๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์๋ธํ์คํฌ 2 (Orient)์ ์ ์ด ํจ์ F^3๊ฐ โ์ด ์ํ์์ ์๋ธํ์คํฌ 3 (Grasp)์ด ์ฑ๊ณตํ ๊ฐ๋ฅ์ฑโ์ ๋ํ๋ธ๋ค๋ฉด, \pi^2์ ์ข ๋ฃ ์ํ๊ฐ F^3 ์ ๋์ ์ ์๋ฅผ ๋ฐ๋๋ก \pi^2๋ฅผ ์ ๋ฐ์ดํธํ๋ ์์ ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ํ์ ์ ์ฑ ์ ์ข ๋ฃ ์ํ ๋ถํฌ๋ฅผ ๋ค์ ์ ์ฑ ์ ์ด๊ธฐ ์ํ ๋ถํฌ์ ์ต๋ํ ์ผ์น์ํค๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ฐ์์ ์ฑ๊ณต๋ฅ ์ ๊ทน๋ํํฉ๋๋ค. Lee ๋ฑ(2021)์ T-STAR์ ๊ฐ์ ๊ธฐ์กด ๊ธฐ์ ์ฐ์ ๊ธฐ๋ฒ๋ค์ด ์ข ๋ฃ ์ํ ๋ถํฌ๋ฅผ ์ค์ด๋ ๋ํญํ๋ จ(์ด๋๋ฒ์๋ฆฌ) ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ๊ฒ๊ณผ ๋๋น๋๋ฉฐ, Sequential Dexterity๋ ๋ณด๋ค ์ง์ ์ ์ผ๋ก ํ์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ์์ธกํ์ฌ ํ์ฉํ๋ค๋ ์ฐจ๋ณ์ ์ด ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ ์ฑ ์ฒด์ด๋ ์คํ ๋จ๊ณ์์ ์ค์ํ ๊ฒ์ด ์์จ์ ์ธ ์ ์ฑ ์ ํ ๋ฉ์ปค๋์ฆ์ ๋๋ค. ๊ณ ์ ๋ ๋จ๊ณ ์์๋ก ํ ๋ฒ์ฉ๋ง ์ ์ฑ ์ ์คํํ๋ ๋์ , ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ํ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ์ ์ ํ ์ ์ฑ ์ ์ ํํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋ก๋ด์ด ์์ ๋์ค ๋งค ์์ ๋ง๋ค ํ์ฌ ์ํ๋ฅผ ๊ฐ์ง๊ณ ๊ฐ ๋ค์ ๊ฐ๋ฅ ๋จ๊ณ๋ค์ F ๊ฐ์ ํ๊ฐํ๊ณ , ์๊ณ๊ฐ์ ๋๊ฒจ ์คํ ์ค๋น๊ฐ ๋ ๊ฒ์ผ๋ก ํ์ ๋ ๊ฐ์ฅ ํ์์ ๋จ๊ณ๋ถํฐ ์คํํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ธ๋ก ์๊ธฐ ์์ ์์, ํ์ฌ ์ํ์์ ์ฝ์ ๋จ๊ณ๊ฐ ๋ฐ๋ก ๊ฐ๋ฅํ๋ค๊ณ ํ๋จ๋๋ฉด (์: ๋ธ๋ก์ ์ด๋ฏธ ์์ ์ฅ๊ณ ์๊ณ ์์ธ๋ ๋ง๋ค๋ฉด) ์ค๊ฐ ๋จ๊ณ๋ฅผ ๊ฑด๋๋ฐ๊ณ ์ฝ์ ์ ์ํํฉ๋๋ค. ๋ฐ๋๋ก, ๋ง์ฝ ํ์ฌ ๋จ๊ณ ์ํ์ด ์๋ชป๋์ด ๋ชฉํ ์ํ์ ๋๋ฌํ์ง ๋ชปํ๋๋ผ๋, F๊ฐ ์๋ ค์ฃผ๋ ๋ฐ์ ๋ฐ๋ผ ์ด์ ๋จ๊ณ๋ก ๋๋์๊ฐ ๊ต์ ํ ์๋ ์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ์ ์ฑ ์ ํ์ ์ญ์์ผ๋ก ํ์ํ๋ ๋ฐฉ์์ ์ทจํ๋๋ฐ, ์ฝ์ (\pi^4)โํ์ง(\pi^3)โ์ ๋ ฌ(\pi^2) ์์ผ๋ก ๊ฐ๊ฐ์ F ๊ฐ์ ํ์ธํด ๊ฐ๋ฅํ ๊ฐ์ฅ ์ง์ ๋ ๋จ๊ณ๋ก ์ ํํ๊ฑฐ๋, ๋ชจ๋ F ์ถ๋ ฅ์ด ๊ธฐ์ค ๋ฏธ๋ง์ด๋ฉด ์ฒ์๋ถํฐ ํ์(\pi^1)์ ๋ค์ ์คํํ๋๋ก ์ค๊ณํ์ต๋๋ค. ์ด๋ฌํ ๋์ ์ค์์นญ์ ์คํจ ๋ณต๊ตฌ์ ๋ถํ์ํ ๋จ๊ณ ์๋ต์ ๋ชจ๋ ๊ฐ๋ฅ์ผ ํ์ฌ ์ฒด์ด๋์ ๊ฐ์ธ์ฑ์ ํฌ๊ฒ ๋์์ต๋๋ค. ์์ปจ๋, Sequential Dexterity๋ ํ์ต ๋จ๊ณ์์ ๊ฐ ์ ์ฑ ์ด ์ฐ์์ ์ ํฉํ๋๋ก ์๋ฐฉํฅ์ผ๋ก ์ต์ ํ๋๊ณ , ์คํ ๋จ๊ณ์์๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ ๊ธฐ๋ฐ์ ์ง๋ฅํ ์ ํ์ ํตํด ๊ธด ๊ณํ์ ๊ฒฌ๊ณ ํ๊ฒ ์ํํฉ๋๋ค.
๊ฐ ์๋ธํ์คํฌ์ ๋ณด์ ์ค๊ณ๋ ํด๋น ๋จ๊ณ์ ๋ชฉํ ์๋ฃ์ ์ค์ ์ ๋๊ณ ์ด๋ฃจ์ด์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด โํ์โ ์ ์ฑ ์๋ ์ฌ๋ฐ๋ฅธ ๋ธ๋ก์ ์๋ณํ๊ฑฐ๋ ์ ๊ทผํ์ ๋์ ๋ณด์, โ์ ๋ ฌโ ์ ์ฑ ์๋ ๋ฌผ์ฒด์ ์์ธ๋ฅผ ๋ชฉํ ์์ธ์ ๊ฐ๊น๊ฒ ๋ง๋ค์๋ก ๋ถ์ฌ๋๋ ๋ณด์, โํ์งโ์๋ ์ฑ๊ณต์ ์ผ๋ก ๋ธ๋ก์ ์ฅ์์ ๋์ ๋ณด์ ๋ฑ์ด ์ฃผ์ด์ง๋๋ค. Sparse reward(ํฌ์ ๋ณด์)๋ณด๋ค shaping ๋ณด์์ ์ ์ ํ ์ถ๊ฐํ์ฌ ํ์ต์ ์ ๋ํ์ ๊ฒ์ผ๋ก ์ถ์ธก๋๋ฉฐ, ์ต์ข ๋จ๊ณ์ธ โ์ฝ์ โ๋ ๋ธ๋ก์ด ๋ชฉํ ์์น์ ์์ฐฉํ๋ฉด ๋ณด์์ ์ป๋๋ก ์ค๊ณ๋์์ต๋๋ค. ํนํ ์ญ๋ฐฉํฅ ํ์ธํ๋ ์์๋ ์์ ์ธ๊ธํ ๋๋ก F^i์ ์ถ๋ ฅ์ ์ผ์ข ์ ์ถ๊ฐ ๋ณด์์ผ๋ก ์ทจ๊ธํ์ฌ ์ด์ ์ ์ฑ ์ ์ข ๋ฃ ์ํ๋ฅผ ํฅ์์ํค๋ ๋ฐ ์ฌ์ฉํ์๊ณ , ์ด๋ ๊ธฐ์กด ๋ณด์๊ณผ ํฉ์ณ์ ธ ์์ด์ ํธ๊ฐ ๋ค์ ๋จ๊ณ์ ์ฑ๊ณต๊น์ง ์ผ๋์ ๋ ํ๋์ ํ๋๋ก ํฉ๋๋ค. ์ด๋ฌํ ๋ณด์ ์ฒด๊ณ์ ์ ์ด ํจ์ ํ์ฉ์ ํตํด ๋ถ๋ถ ์ต์ ํด์ ๋จธ๋ฌด๋ฅด๊ธฐ ์ฌ์ด ๊ฐ๋ณ ์ ์ฑ ๋ค์ ์ ์ฒด ์์ ์ ์ฑ๊ณต์ด๋ผ๋ ๊ธ๋ก๋ฒ ๋ชฉํ์ ์๋ ด์ํค๋๋ก ์ ๋ํ ๊ฒ์ด ๋ณธ ๋ฐฉ๋ฒ๋ก ์ ํน์ง์ ๋๋ค.
2.3 ์คํ ์ค์ ๋ฐ ๋ฒค์น๋งํฌ
๋ณธ ๋ ผ๋ฌธ์์๋ ์ ์ํ Sequential Dexterity ํ๋ ์์ํฌ๋ฅผ ์๋ฎฌ๋ ์ด์ ์คํ๊ณผ ์ค ๋ก๋ด ์คํ์ ํตํด ๊ฒ์ฆํ์ต๋๋ค. ์ฌ์ฉ๋ ์๋ฎฌ๋ ์ดํฐ๋ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ๊ฒฝ์ ์ง์ํ๋ Isaac Gym์ผ๋ก, ๊ฐ ์๋ธํ์คํฌ ์ ์ฑ ์ ํ์ตํ ๋ ์ต๋ 1024๊ฐ์ ํ๊ฒฝ์์ ๋ณ๋ ฌ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํจ์ผ๋ก์จ ํ์ต ํจ์จ์ ๋์์ต๋๋ค. ์คํ์ ๋ ๊ฐ์ง ๋ํ์ ์ธ ๋ค๋จ๊ณ ์กฐ์ ๊ณผ์ ์ ๋ํด ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, ๊ฐ ๊ณผ์ ์ ๋ํด ์ ์ ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต ํ๊ฐํ์ต๋๋ค.
๊ณผ์ 1: ๋ธ๋ก ์กฐ๋ฆฝ (Building Blocks) โ ๋ค์ํ ์์๊ณผ ํฌ๊ธฐ์ ๋ธ๋ก๋ค์ด ์์ฌ์๋ ์์์์ ์ง์ ๋ ๋ธ๋ก์ ์ฐพ์ (ํ์), ์๊ฐ๋ฝ์ ์ด์ฉํด ์ ์ ํ ์์ธ๋ก ์ ๋ ฌํ ํ, ๋ธ๋ก์ ํ์งํ์ฌ ๋ค์ด ์ฌ๋ฆฌ๊ณ , ๋ชฉํ ๊ตฌ์กฐ๋ฌผ์ ํด๋น ์์น์ ์ฝ์ ํ๋ ์ผ๋ จ์ ์์ ์ ๋๋ค. ์ด ๊ณผ์ ๋ Mega Bloks ์ฅ๋๊ฐ์ ์ฌ์ฉํ ๊ฐ์ด ์กฐ๋ฆฝ ์์ ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ด๋ฌํ ๋ค ๊ฐ์ง ์๋ธํ์คํฌ๋ฅผ ๋ธ๋ก ๊ฐ์๋งํผ ๋ฐ๋ณต ์ํํด์ผ ํ๋ ๋ณตํฉ ์ฅ๊ธฐ๊ณผ์ ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์๋ ๋ธ๋ก๋ค์ด ๋ฌด์์๋ก ์์ฌ์๊ณ ๋ก๋ด์ ์๋ชฉ ์นด๋ฉ๋ผ ๋ฑ์ ๊ฐ๊ฐ์ ํตํด ๋ธ๋ก์ ์ธ์ํ๊ฒ ๋ฉ๋๋ค. ์คํ์ ์ฌ์ฉ๋ ๋ก๋ด์ ๋ค๊ด์ ๋ก๋ด ์(4-finger dexterous hand)์ ์ฅ์ฐฉํ ๋ก๋ด ํ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ๊ทธ๋๋ก ์ ์ฉํ์ฌ ์ค์ ํ๋ผ์คํฑ ๋ธ๋ก ์กฐ๋ฆฝ์ ์ํํ์ต๋๋ค. ์ค ๋ก๋ด ํ๊ฒฝ์์๋ ์๋จ์ ์ฅ์ฐฉ๋ ์นด๋ฉ๋ผ๋ก ํ ์ด๋ธ ์ ๋ธ๋ก๋ค์ ๋๋ต์ ์์น๋ฅผ ํ์ ํ๊ณ , ์๋ชฉ์ ์ฅ์ฐฉ๋ RGB-D ์นด๋ฉ๋ผ ์์์์ ๋ชฉํ ๋ธ๋ก์ ๋ถํ (segmentation) ๋ฐ ์ถ์ ํ์ฌ ์ค์๊ฐ 6D ์์ธ๋ฅผ ์ถ์ ํ๋ ๋น์ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ต๋๋ค. ์ด ์ ๋ณด๋ฅผ ์ค์๊ฐ์ผ๋ก ์ ์ฑ ์ ์ ๋ ฅํ์ฌ ๋ก๋ด์ด ๋ธ๋ก์ ์ฐพ์ ์ง์ ์ ์๋๋ก ํ์ต๋๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ดํฐ์์ ๋ธ๋ก์ ํ์ ๋ผ์ ๋ฃ๋ ์ฝ์ ๋์์ ์์ฃผ ์ธ๋ฐํ ๋ถ๋ถ(๋ธ๋ก์ ์์ ํ ๋๋ฌ ๋ผ์ฐ๋ ๊ณผ์ )์ ์ ์ด ๋ชจ๋ธ ํ๊ณ๋ก ๊ตฌํ์ด ์ด๋ ค์ ๊ธฐ ๋๋ฌธ์, ์๋ฎฌ๋ ์ด์ ์์๋ ์ฝ์ ์ ์ฑ ์ด ๋ธ๋ก์ ๋ชฉํ ์์น์ ๋๋ต ๋๋ ๊ฒ์ผ๋ก ํ์ต๋์์ต๋๋ค. ์ค ๋ก๋ด ์คํ์์๋ ๋ธ๋ก์ ์ ์๋ฆฌ์ ์ฌ๋ ค๋๋ ๊ฒ๊น์ง๋ฅผ ํ์ต๋ ์ ์ฑ ์ผ๋ก ์ํํ๊ณ , ๋ง์ง๋ง์ ๋ก๋ด ํ๋ก ๋ธ๋ก์ ์๋๋ก ๋๋ฌ ์์ ํ ๋ผ์ฐ๋ ๋์์ ์คํฌ๋ฆฝํธ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ผ๋ก ์ค์ ์กฐ๋ฆฝ์ ๊ตฌํํ์ต๋๋ค. ์ด๋ฌํ ๋ถ๋ถ์ ๋ณธ ๋ฐฉ๋ฒ์ ๋ฌผ๋ฆฌ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ์กฐ์น๋ก, ์ดํ ํ๊ณ์ ์์ ์ถ๊ฐ ๋ ผ์๋ฉ๋๋ค.
๊ณผ์ 2: ๊ณต๊ตฌ ์์ธ ๋ง์ถ๊ธฐ (Tool Positioning) โ ํ ์ด๋ธ ์์ ์์ ์์ธ๋ก ๋์ธ ๊ณต๊ตฌ๋ฅผ ํ์งํ์ฌ ๋ค์ด์ฌ๋ฆฐ ๋ค, ์ฌ์ฉํ๊ธฐ ํธํ ์ค๋น ์์ธ๋ก ์ฌ์ ๋ ฌ(reorient)ํ๋ ์์ ์ ๋๋ค. ์คํ์์๋ ๋ง์น(hammer)๋ฅผ ๋ํ์ ์ธ ๊ณต๊ตฌ๋ก ์ฌ์ฉํ์ฌ ํ์ตํ์๊ณ , ์ด๊ธฐ์๋ ๋ง์น๊ฐ ๋ฐ๋ฅ์ ์๋ฌด๋ ๊ฒ๋ ๋์ฌ ์์ต๋๋ค. ๋ก๋ด ์์ด ๋ง์น๋ฅผ ์ง์ด ๋๋ ๋์(Grasp)์ด 1๋จ๊ณ, ์ด์ด์ ๊ณต๊ตฌ๋ฅผ ํ์ ์์ผ ์์ก์ด ๋ถ๋ถ์ด ์๋๋ก ํฅํ๋๋ก ์ธ์ฐ๋ ๋์(Orient)์ด 2๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ด ๊ณผ์ ๋ ๋ ๋จ๊ณ์ ์ฒด์ด๋์ด์ง๋ง, ํต์ฌ์ ์ฒซ ํ์ง์ ๋ฐฉ์์ด ๋ ๋ฒ์งธ ๋จ๊ณ์ ๋์ด๋์ ํฐ ์ํฅ์ ์ค๋ค๋ ์ ์ ๋๋ค. ์์ปจ๋ ๋ง์น๋ฅผ ์๋ฑํ ๊ฐ๋๋ก ์ง์ผ๋ฉด ํ์ ๋จ๊ณ์์ ๊ท ํ์ ์ก๊ธฐ ์ด๋ ต๊ฑฐ๋ ์ถฉ๋์ด ๋ฐ์ํด ์คํจํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด๊ธฐ ํ์ง ๋จ๊ณ๋ถํฐ ์ ์ฒด ๊ณผ์ ์ ๊ณ ๋ คํ ์ต์ ์ ๋ฐฉ์์ ์ทจํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ด ๊ณผ์ ์ญ์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ตํ ํ ์ค์ ๋ก๋ด์ผ๋ก ์ ๋ก์ท ๊ฒ์ฆ๋์์ผ๋ฉฐ, ์ถ๊ฐ๋ก ์ผ๋ฐํ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ํ์ต์ ์ฌ์ฉํ์ง ์์ ๊ณต๊ตฌ(์ฃผ๊ฑฑ, ์๊ฐ๋ฝ ๋ฑ์ ๋๊ตฌ)๋ฅผ ๋์์ผ๋ก๋ ์คํ์ด ์ํ๋์์ต๋๋ค.
๊ทธ๋ฆผ 2: ์คํ ํ๊ฒฝ ๋ฐ ๋น๊ต. (a) ๋ธ๋ก ์กฐ๋ฆฝ ๊ณผ์ โ ์๋ฎฌ๋ ์ดํฐ(์ผ์ชฝ)์ ์ค์ ๋ก๋ด(์ค๋ฅธ์ชฝ)์ ์์ ํ๊ฒฝ. ๋ก๋ด ํ ๋์ 4์๊ฐ๋ฝ ๋ก๋ด ํธ๋์ ์๋ชฉ ์นด๋ฉ๋ผ(๋นจ๊ฐ ์์), ์๋จ์ ์ ์ญ ์นด๋ฉ๋ผ(ํ๋ ์์)๊ฐ ๋ฐฐ์น๋์ด ๋ธ๋ก์ ํ์ํ๊ณ ์กฐ๋ฆฝํ๋ค. (b) ๊ณต๊ตฌ ์์ธ ๋ง์ถ๊ธฐ ๊ณผ์ โ ์ด๊ธฐ ์ํ์ ๋์ธ ๋ง์น๋ฅผ ๋์์ผ๋ก, Baseline(๊ธฐ์กด ์์ฐจ ์คํ ๋ฐฉ๋ฒ) vs Ours(์ ์ ๋ฐฉ๋ฒ)์ ๋น๊ต ์์. Baseline์ 1๋จ๊ณ ํ์ง ์ดํ ๋ง์น๋ฅผ ๋น์ค๋ฌํ ์ก์ 2๋จ๊ณ ์ ๋ ฌ์ ์คํจ(๋นจ๊ฐ X)ํ์ง๋ง, ์ ์ ๋ฐฉ๋ฒ์ ์ฒซ ํ์ง๋ถํฐ ๊ฐ๋๋ฅผ ๊ณ ๋ คํด ์ก์์ผ๋ก์จ ์ต์ข ์ ๋ ฌ์ ์ฑ๊ณต(๋ น์ ์ฒดํฌ)ํ๋ค.
๋ฒค์น๋งํฌ ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๋น๊ต ๋์์ด ์ ์ ๋์์ต๋๋ค. ์ฒซ์งธ, ๊ฐ ์๋ธํ์คํฌ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ตํ ํ ์๋ฌด ์กฐ์ ์์ด ์์๋๋ก ์คํํ๋ ๊ธฐ๋ณธ ์ ์ฑ ์ฐ์ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ์ด๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋จ์ํ ์ ํด์ง ์์๋ก ํ ๋ฒ์ฉ ์ ์ฑ ์ ์ ์ฉํ๋ ๊ฒ์ผ๋ก, ์ ์ด ๋ถํฌ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ง๋ baseline์ ๋๋ค. ๋์งธ, Lee ๋ฑ(2021)์ด ์ ์ํ T-STAR ๊ธฐ๋ฒ ๋ฑ ๊ธฐ์กด ๊ธฐ์ ์ฒด์ด๋ ์๊ณ ๋ฆฌ์ฆ๊ณผ์ ๋น๊ต๊ฐ ์ํ๋์์ต๋๋ค. T-STAR๋ ์ข ๋ฃ ์ํ ๋ถํฌ๋ฅผ ์ ํํ๊ธฐ ์ํด ์ ๋์ ํ์ต์ ํ์ฉํ๋ ์ ํ ์ฐ๊ตฌ๋ก, ๋ณธ ๋ ผ๋ฌธ์ ๋ฌธ์ ์ค์ (ํนํ ๋ค์ง ๋ก๋ด ์ ์ฌ์ฉ)๊ณผ๋ ์ฐจ์ด๊ฐ ์์ง๋ง ์์ด๋์ด์ ์ธ์ ํ ๊ธฐ๋ฒ์ ๋๋ค. ์ ์งธ, V-Chain์ด๋ผ๊ณ ๋ช ๋ช ๋ ๋น๊ต ๋ฐฉ๋ฒ์ ๋ค์ ๋จ๊ณ ์ ์ฑ ์ RL ๊ฐ์นํจ์๋ฅผ ์ ์ด ํ๊ฐ์ ํ์ฉํ์ฌ ์ด์ ์ ์ฑ ๋ค์ ํ์ธํ๋ํ๋ ๋ฐฉ์์ผ๋ก, ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ์ฐ๋ ๋์ PPO๋ก ํ์ต๋ ๊ฐ์น๋ง์ผ๋ก ์ฐ์๋ฅผ ์๋ํ ๊ฒฝ์ฐ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ํตํด ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์์ ์ด์ ์ ๊ฒ์ฆํ๊ณ ์ ํ์ต๋๋ค. ๋ท์งธ, Ours w/o temporal์ด๋ผ๊ณ ํ๋ ๋ณํ ๋ชจ๋ธ์ ์ ์ํ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์์์ ์๊ฐ์ ์ด๋ ฅ(์ํ ์ํ์ค) ์ ๋ ฅ์ ์ ์ธํ๊ณ ํ์ฌ ์ํ๋ง์ผ๋ก ์ ์ด ํ์ ์ ํ๋๋ก ํ ๋ฒ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ ์ด ํจ์์ ์๊ฐ ์ ๋ณด๋ฅผ ํฌํจ์ํค๋ ๊ฒ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ํ์ธํ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ Ours (์ ์ ๊ธฐ๋ฒ)์ ์๋ฐฉํฅ ์ต์ ํ + ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ + ์์จ ์ค์์นญ์ ํ์ ์ ์ฌ์ฉํ ์์ ํ Sequential Dexterity ์์คํ ์ ๋๋ค.
ํ๊ฐ ์งํ๋ก๋ ๊ฐ ๊ณผ์ ์์ ์ต์ข ๋ชฉํ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ฌ์ฑํ๋์ง์ ์ฑ๊ณต๋ฅ ์ด ์ฃผ์ํ๊ฒ ์ฌ์ฉ๋์์ต๋๋ค. ๋ธ๋ก ์กฐ๋ฆฝ์ ๊ฒฝ์ฐ ์ฃผ์ด์ง ๊ตฌ์กฐ๋ฌผ์ ๋ชจ๋ ์์ฑํ๋ ๋ฐ ์ฑ๊ณตํ ์คํ ์ํผ์๋ ๋น์จ๋ก ์ธก์ ๋๋ฉฐ, ๊ณต๊ตฌ ์์ธ ๋ง์ถ๊ธฐ๋ ๊ณต๊ตฌ๋ฅผ ๋ฐ๋ฅธ ์์ธ๋ก ์ธ์์ ์์ ์ ์ผ๋ก ์ ์งํ๋ ๋ฐ ์ฑ๊ณตํ ๋น์จ๋ก ์ ์๋ฉ๋๋ค. ์ด ๊ณผ์ ์์ ์๋ธํ์คํฌ๋ณ ๋จ๊ณ ์ฑ๊ณต๋ฅ ์ด๋ ์ํ ์๊ฐ, ์ ์ฑ ์ ํ ํ์ ๋ฑ๋ ๋ถ๊ฐ์ ์ผ๋ก ๊ด์ฐฐ๋์์ผ๋, ๊ฐ์ฅ ์ค์ํ ํ๊ฐ์งํ๋ ์ ์ฒด ์์ ์ ์์ ์ฌ๋ถ์์ต๋๋ค. ๋ํ ์ ์ฑ์ ํ๊ฐ๋ก ๊ฐ ๊ณผ์ ์ ํ๋ ๊ถค์ ๊ณผ ์ต์ข ์ํ๋ฅผ ๋น๊ตํ๊ณ , ์ ์ฑ ์ ํ ์ ๋ต์ ๋ฐ๋ฅธ ์ฑ๊ณต/์คํจ ์ฌ๋ก๋ฅผ ๋ถ์ํ์์ต๋๋ค. ์ผ๋ฐํ ํ๊ฐ๋ก๋, ์์ ์ธ๊ธํ ๋๋ก ๊ณต๊ตฌ ๊ณผ์ ์์๋ ํ์ต ์ ๋ณด์ง ๋ชปํ ์๋ก์ด ๋๊ตฌ(์: ์ฃผ๊ฑฑ, ์๊ฐ๋ฝ)๋ฅผ ํฌ์ ํ์ฌ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ์๊ณ , ๋ธ๋ก ์กฐ๋ฆฝ ๊ณผ์ ์์๋ ์๋ก์ด ๊ตฌ์กฐ ์กฐ๋ฆฝ(์: ๋ค๋ฅธ ํํ์ ๋ธ๋ก ์กฐํฉ ๊ตฌ์กฐ)์ ๋ํ ์ ์ฉ์ ์ดํด๋ณด์์ต๋๋ค. ๋์ผ๋ก, ์ค์ ๋ก๋ด ๊ฒ์ฆ์์๋ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ๊ทธ๋๋ก ์ฌ์ฉํ์ฌ ์ค์ ํ๊ฒฝ์์ ์์ ์ ์ํํ๋๋ก ํ๊ณ , ๊ทธ ์ฑ๊ณต ์ฌ๋ก ์์๊ณผ ๋น๋๋ฅผ ๋ณด๊ณ ํ์์ต๋๋ค. ์ฑ๊ณต๋ฅ ์ ๊ฒฝ์ฐ ์๋ฎฌ๋ ์ด์ ๋งํผ ๋ค์ ๋ฐ๋ณตํ์ง๋ ๋ชปํ์ง๋ง, ๋ช ์ฐจ๋ก ์์ฐ์์ ์ง์์ ์ผ๋ก ์์ ์์์ ์ฑ๊ณตํ๋ ๋ชจ์ต์ ๋ณด์ฌ ์ ๋ก์ท ํ์ต ์ ์ด์ ๊ฐ๋ฅ์ฑ์ ํ์ธํ์ต๋๋ค.
2.4 ๊ฒฐ๊ณผ ๋ถ์
์คํ ๊ฒฐ๊ณผ, Sequential Dexterity ํ๋ ์์ํฌ๋ ์ ์ํ ์์๋ค์ด ๋ชจ๋ ๊ฒฐํฉ๋์์ ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ์ ํ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ํนํ ์ ์ฒด ์์ ์ฑ๊ณต๋ฅ ์งํ์์ ๋ ๊ณผ์ ๋ชจ๋ ์ ์๋ฏธํ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
๋จผ์ ๋ธ๋ก ์กฐ๋ฆฝ ๊ณผ์ ๋ฅผ ์ดํด๋ณด๋ฉด, ์ ์ ๊ธฐ๋ฒ์ ์ฝ 80% ์ด์์ ์ต์ข ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ฌ, ๊ธฐ๋ณธ ์์ฐจ ์คํ ๋ฐฉ์(์ ์ด ์ต์ ํ ์์ด ๊ฐ ๋จ๊ณ ํ ๋ฒ์ฉ ์ํ) ๋๋น ์ฝ 30%ํฌ์ธํธ ์ด์ ์์นํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, baseline์ ๊ฒฝ์ฐ ์ฌ๋ฌ ๋ฒ์ ์ํ ์ค ์ ๋ฐ๋ ์ ๋๋ ์ํผ์๋์์๋ง ๊ตฌ์กฐ ์์ฑ์ ์ฑ๊ณตํ ๋ฐ๋ฉด, Sequential Dexterity๋ฅผ ์ ์ฉํ๋ฉด 10๋ฒ ์ค 8๋ฒ ์ด์์ ๋ก๋ด์ด ๋ชจ๋ ๋ธ๋ก์ ์ ์๋ฆฌ์ ์ ํํ ์์์ฌ๋ฆด ์ ์์์ต๋๋ค. ๊ณต๊ตฌ ์์ธ ๋ง์ถ๊ธฐ ๊ณผ์ ์์๋ ์ ์ฌํ ๊ฒฝํฅ์ผ๋ก, ์ ์ ๊ธฐ๋ฒ์ ์ฝ 90%์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ baseline(์ฝ 60% ์์ค)๋ณด๋ค ํฌ๊ฒ ์์ฐ์ต๋๋ค. ์ด๋ก์จ ์ ์ฑ ์ฒด์ด๋์ ํจ๊ณผ๊ฐ ์ ๋์ ์ผ๋ก ์ ์ฆ๋์๋๋ฐ, ํนํ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์ ๊ธฐ๋ฐ์ ์์จ ์ค์์นญ์ด ์์๋ ๊ฒฝ์ฐ(์ ์ฑ ์ ํ ํ์ฉ ํ์ 0์ผ ๋) ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ๋ฎ์๋ค๊ฐ, ์ค์์นญ์ 1ํ, 2ํ, 3ํ๋ก ๋๋ฆด์๋ก ์ฑ๊ณต๋ฅ ์ด ๋จ๊ณ์ ์ผ๋ก ํฅ์๋๋ ์์์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฆผ 3-(a)์์ ๋ณด์ด๋ฏ์ด, ์ ์ฑ ์ค์์นญ์ ์ ํ ํ์ฉํ์ง ์์ผ๋ฉด ๋ธ๋ก ์กฐ๋ฆฝ ์ฑ๊ณต๋ฅ ์ 50% ๋ฏธ๋ง์ ๋จธ๋ฌผ๋ ์ผ๋, ์ต๋ 3ํ๊น์ง ์ฌ์๋๋ฅผ ํ์ฉํ์ ์ฝ 80% ์์ค๊น์ง ๋์์ก์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณต๊ตฌ ๊ณผ์ ๋ 0ํ ์ค์์นญ ์ ~60%์์ 3ํ ์ ~90%๋ก ์์นํ์ฌ, ๋์ ์ ์ฑ ์ ํ์ด ๋ณต์กํ ์กฐ์์ ์ฑ๊ณต์ผ๋ก ์ด๋๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํจ์ ์ ์ ์์ต๋๋ค.
๊ทธ๋ฆผ 3: ์ฑ๋ฅ ์งํ ๋ฐ ์ ์ด ํจ์ ํจ๊ณผ ๋ถ์. (a) ์ ์ฑ ์ค์์นญ ํ์ฉ ํ์์ ๋ฐ๋ฅธ ์ต์ข ์ฑ๊ณต๋ฅ โ ์ค์์นญ์ ๋๋ฆด์๋ก ๋ธ๋ก ์กฐ๋ฆฝ(ํ๋์)๊ณผ ๊ณต๊ตฌ ์กฐ์ (์ฃผํฉ์) ๊ณผ์ ๋ชจ๋ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ํฅ์๋จ์ ๋ณด์ฌ์ค๋ค. (b) ๋ฌผ์ฒด ์์ธ ๋ถํฌ ๋น๊ต(T-STAR vs Ours) โ ๋ธ๋ก ์กฐ๋ฆฝ ๊ณผ์ ์ ์ ๋ ฌ ๋จ๊ณ์์, ๊ธฐ์กด ๋ฐฉ๋ฒ(T-STAR)์ ๋ก๋ด์ด ๋ค์ํ ๊ฐ๋๋ก ๋ธ๋ก์ ๋ฐฐ์นํ์ฌ ํ์ ํ์ง ๋จ๊ณ์ ์ง์ ํ์ง๋ง(์, ํ๋์ ๋ถํฌ), ์ ์ ๋ฐฉ๋ฒ์ ๋ธ๋ก์ ๋๊ธฐ๊ฐ ์๋ก ํฅํ ์์ธ์ ๋๋ถ๋ถ ๋ชจ์ด๋๋ก ์ ๋ํจ์ผ๋ก์จ ์ดํ ํ์ง์ ์ฝ์ ์ ์ฝ๊ฒ ๋ง๋ค๊ณ ์ฑ๊ณต ํ๋ฅ ์ ๋์ธ๋ค(์๋). ์ด๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๊ฐ ๋ค์ ๋จ๊ณ ์ฑ๊ณต์ ์ต์ ์ธ ์ํ๋ฅผ ํ์ตํ๊ณ ์ด์ ๋จ๊ณ ์ ์ฑ ์ ๊ทธ ๋ฐฉํฅ์ผ๋ก ์ ๋ํ ๊ฒฐ๊ณผ์ด๋ค.
์ ์ด ๊ฐ๋ฅ์ฑ ํจ์์ ํ์ฉ์ ๋จ์ํ ์ฑ๊ณต๋ฅ ์์น๋ฟ ์๋๋ผ, ๊ฐ ๋จ๊ณ์ ์ ์ฑ์ ๋์ ํ์ง๋ ํฅ์์์ผฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ธ๋ก ์กฐ๋ฆฝ์์ ์ ๋ ฌ(Orient) ์ ์ฑ ์ ๋ธ๋ก์ ๋ฐฉํฅ์ ์ด๋ป๊ฒ ์ก๋๋๊ฐ ์ดํ ํ์ง ๋ฐ ์ฝ์ ์ฑ๊ณต์ ๊ฒฐ์ ์ ์ธ๋ฐ, ์ ์ ๊ธฐ๋ฒ์ ์ ๋ ฌ ๋จ๊ณ์์ ๋ธ๋ก์ ๋๊ธฐ๊ฐ ์๋ก ํฅํ๋๋ก ํ์ ์ํค๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ฌ๋์ด ๋ ๊ณ ๋ธ๋ก์ ๋ผ์ธ ๋ ์๋ฉด ๋๊ธฐ๊ฐ ์๋ก ์ค๋๋ก ๋ง์ถ๋ ๊ฒ๊ณผ ์ ์ฌํ ์ ๋ต์ผ๋ก, ์ด๋ฌํ ๊ณํ์ ๋์์ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๊ฐ โ์ด ์์ธ๊ฐ ๋ค์ ๋จ๊ณ์ ์ ๋ฆฌํ๋คโ๋ ์ ํธ๋ฅผ ์ฃผ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ฉด, ์ ์ด ํจ์๋ฅผ ์ฐ์ง ์์ ๋ฐฉ๋ฒ์ด๋ T-STAR ๋ฑ์ ๊ธฐ์กด ์ ๊ทผ์ ์ ๋ ฌ ๋จ๊ณ์์ ๋ค์ํ ๊ฐ๋๋ก ๋ธ๋ก์ ๋์ ํ์ ๋จ๊ณ์ ๋ ๋์ ์ด๊ธฐ ๋ถํฌ๋ฅผ ํ์ฉํ์ง๋ง, ์คํ๋ ค ๊ทธ ๋๋ฌธ์ ํ์ง๋ ์ฝ์ ๋จ๊ณ์์ ๋ถํ์ํ ์ด๋ ค์์ด ์๊ธธ ์ ์์ต๋๋ค. ๊ทธ๋ฆผ 3-(b)๋ ์ด๋ฌํ ์ฐจ์ด๋ฅผ ์ ๋ณด์ฌ์ฃผ๋๋ฐ, T-STAR ๋ฐฉ์์ผ๋ก ์ต์ ํ๋ ์ ์ฑ ์ ๋ธ๋ก์ ์ต์ข ์์ธ ๋ถํฌ๊ฐ ๋น๊ต์ ๋๊ฒ ํผ์ ธ ์๋ ๋ฐ๋ฉด(Ours ์ด์ ์ ์ฐธ๊ณ ์ฉ), Sequential Dexterity์ ์ ์ฑ ์ ํ์ ๋ ๋ฒ์(๊ฑฐ์ ๋๊ธฐ๊ฐ ์์ชฝ์ ํฅํ ์์ญ)์ ๋ชฐ๋ ค ์์ต๋๋ค. ์ด๋ ๋ฏ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ๋ชฉํ ์ํ ๊ณต๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ์ ํํจ์ผ๋ก์จ ์ ์ฒด ์ฐ์์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ๋์์์ ์ ์ ์์ต๋๋ค.
Baseline ๋๋น ์ฑ๋ฅ ๊ฐ์ ์ ๊ฐ๋ณ ์ฌ๋ก ๋น๊ต๋ฅผ ํตํด์๋ ๋๋ฌ๋ฉ๋๋ค. ๊ณต๊ตฌ ์์ธ ๋ง์ถ๊ธฐ ๊ณผ์ ์ ๊ฒฝ์ฐ, ๊ธฐ์กด ์์ฐจ ์คํ ๋ฐฉ์(baseline)์ ์ฒซ ํ์ง์์ ๋ง์น๋ฅผ ์์ผ๋ก ๋ํ ์ฑ ์ก๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๊ณ , ์ด ์ํ์์๋ ์๋ฌด๋ฆฌ ํ์ ํ๋ ค ํด๋ ๋ง์น๋จธ๋ฆฌ๊ฐ ๊ฑธ๋ ค ์์ธ ๋ณ๊ฒฝ์ ์คํจํ๊ณค ํ์ต๋๋ค (์ ๊ทธ๋ฆผ 2-(b) ๋นจ๊ฐ X ์ํฉ). ๋ฐ๋ฉด Sequential Dexterity๋ฅผ ํตํด ํ์ต๋ ์ ์ฑ ์ ์ฒซ ๋จ๊ณ์์๋ถํฐ ๋ง์น๋ฅผ ์ธ์ธ ๊ฒ์ ์ผ๋์ ๋๊ณ ์์ก์ด ๋ถ๋ถ์ ์๋์ชฝ์ผ๋ก ํฅํ๊ฒ ์ก๋ ์ ๋ต์ ์ทจํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ ๋ฒ์งธ ๋จ๊ณ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ง์น๋ฅผ ๋๋ฐ๋ก ์ธ์ธ ์ ์์๊ณ ์ต์ข ์ ์ผ๋ก ์์ ๋ ์์ธ๋ฅผ ๋ง๋ค ์ ์์์ต๋๋ค (๊ทธ๋ฆผ 2-(b) ๋ น์ ์ฒดํฌ ์ํฉ). ์ด์ฒ๋ผ ์ด๊ธฐ ๋จ๊ณ์์์ ์ ์ ํ ๊ฒฐ์ ์ด ํ์ ๋จ๊ณ ์ฑ๊ณต์ผ๋ก ์ด์ด์ง๋ ์ฌ๋ก๊ฐ ๋ค์ ๊ด์ฐฐ๋์์ต๋๋ค.
์ผ๋ฐํ ์ฑ๋ฅ ์ธก๋ฉด์์๋ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. ๊ณต๊ตฌ ๊ณผ์ ์์ ํ์ต์ ์ฌ์ฉํ์ง ์์ ์ฃผ๊ฑฑ, ์๊ฐ๋ฝ ๋ฑ์ ๋๊ตฌ์ ๋ํด์๋ ์ ์ ์ ์ฑ ์ ํฐ ์ฑ๋ฅ ์ ํ ์์ด ์์ ์ ์ํํด๋์ต๋๋ค. ์์ปจ๋ ์๊ฐ๋ฝ์ ๋์ ํ ๋ถ๋ถ์ ์ก์ ๋์๋ ํ์ต๋ ๋ง์น ํ์ง ์ ์ฑ ์ ์์ฉํ์ฌ ๋น์ทํ ์๋ฆฌ๋ก ํ์ง ๋ฐ ์ธ์ฐ๊ธฐ ๋์์ ์ฑ๊ณต์์ผฐ์ต๋๋ค. ์ฑ๊ณต๋ฅ ์์น๋ ๋ง์น์ ๋นํด ๋ค์ ๋ฎ์์ง ์ ์์ผ๋, baseline๊ณผ ๋น๊ตํ๋ฉด ์ฌ์ ํ ๋์ ์ฑ๊ณต ๋น์จ์ ์ ์งํ๋ฉฐ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ํํ์ต๋๋ค. ๋ธ๋ก ์กฐ๋ฆฝ์ ๊ฒฝ์ฐ ํ์ต์๋ ๋ช ๊ฐ์ง ํฌ๊ธฐ์ ์์์ ๋ธ๋ก๋ง ์ฌ์ฉ๋์์ง๋ง, ํ ์คํธ์์๋ ์ฒ์ ๋ณด๋ ํํ์ ๋ธ๋ก(์: ๋ค๋ฅธ ๋ชจ์์ ์กฐ๋ฆฝ ๋ธ๋ก)์ ํฌ์ ํด๋ ์์ฝ๊ฒ ์ ์ํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ด๋ ์ ์ํ ์ ์ฑ ์ด ๋ฌผ์ฒด์ ์ ํํ CAD ๋ชจ๋ธ์ ์์กดํ๊ธฐ๋ณด๋ค๋ ์๊ฐ/์ด๊ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํ ์กฐ์ ์คํฌ์ ํ์ตํ์์ ์์ฌํฉ๋๋ค. ๋ํ ๋ธ๋ก์ ์ด๊ธฐ ๋ฐฐ์น๋ ๋ชฉํ ๊ตฌ์กฐ์ ํํ๊ฐ ๋ฌ๋ผ์ ธ๋, ์ฃผ์ด์ง ์กฐ๋ฆฝ ์ค๋ช ์๋ง ๋ฐ๊พธ๋ฉด (์: GUI๋ก ์ํ๋ ๊ตฌ์กฐ๋ฅผ ์ง์ ) ๋ก๋ด์ด ๋์ผํ ์ฐ์ ์ ์ฑ ์ผ๋ก ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ์์์ฌ๋ ธ์ต๋๋ค. ์ด๋ฌํ ํ์คํฌ ์ ์๋ ฅ์ ๋ณธ ๊ธฐ๋ฒ์ ๋ฒ์ฉ์ฑ์ ๋ท๋ฐ์นจํ๋ ์ฆ๊ฑฐ์ ๋๋ค.
๋์ผ๋ก, ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ Sequential Dexterity์ ์ค์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ ์ ์ฑ
๋ค์ ๊ทธ๋๋ก ์ด์ํ ๋ก๋ด์, ์นด๋ฉ๋ผ๋ก ์๋ณํ ๋ธ๋ก์ ์ฐพ์ ์ง์ด์ ๊ตฌ์กฐ๋ฌผ์ ์๋ ์ผ๋ จ์ ๋์์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค. ๋
ผ๋ฌธ์ ๊ณต๊ฐ๋ ๋์์์ ๋ณด๋ฉด ๋ก๋ด์ด ์ฌ๋ฌ ํํ์ ๋ธ๋ก ๊ตฌ์กฐ (์: ๋ค์ธต ํ, ํน์ ํจํด ์กฐ๋ฆฝ ๋ฑ)๋ฅผ ์ฌ๋์ ๋์ ์์ด ์์ฑํ๋ ์ธ์์ ์ธ ์์ฐ์ด ํฌํจ๋์ด ์์ต๋๋ค. ํนํ ์ถ๊ฐ ํ์ต์ด๋ ๋ฏธ์ธ์กฐ์ ์์ด ์๋ฎฌ๋ ์ด์
์ ์ฑ
์ ๋ฐ๋ก ์ฌ์ฉํ๋ค๋ ์ ์์, ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ ๊ฒฉ์ฐจ(sim2real gap)๋ฅผ ์ต์ํํ ์ ์ฑ
ํ์ต์ ํจ๊ณผ๋ฅผ ์ค์ฆํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ฌผ๋ก ์๋ฒฝํ ์ ๋ก์ท ์ ์ด๋ฅผ ์ํด ๋ช ๊ฐ์ง ์์ง๋์ด๋ง์ด ๋ํด์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ฎฌ๋ ์ดํฐ์์๋ ์๊ฐ๋ฝ ์์ง์์ด ๋น ๋ฅด๊ฒ ํ๋ ์ง๋ ํ์์ด ์์์ผ๋, ์ค์ ๋ก๋ด์์๋ ์ด๋ฅผ ์ง์ํํ ํํฐ๋ก ํํํํ์ฌ ์ ์ด์ ์์ ์ฑ์ ๋์์ต๋๋ค. ๋ํ ์์ ์ค๋ช
ํ ๋๋ก ๋ง์ง๋ง ์ฝ์
๋์์ ์ฝ๊ฐ์ ์คํฌ๋ฆฝํธ ๋ณด์กฐ๋ฅผ ๋ฐ์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ์ต๋ ๋ถ๋ถ(ํ์์ ๋ ฌํ์ง)๋ง์ผ๋ก๋ ๋ก๋ด์ด ์ค์ค๋ก ๋ธ๋ก์ ์ง์ด ์ ํํ ์์ธ๋ก ์์น์ํค๋ ๊ฑด ๊ธฐ์กด์๋ ๋ณด๊ธฐ ๋๋ฌธ ์ฑ๊ณผ๋ก, ๋ชจ๋ธ ์์ ๊ฐํํ์ต(model-free RL) ๊ธฐ๋ฒ์ผ๋ก ์ด๋ ๊ฒ ๋ณต์กํ ์ค์ ์กฐ๋ฆฝ ์์
์ ์ฑ๊ณตํ ์ฒซ ์ฌ๋ก ์ค ํ๋๋ก ํ๊ฐ๋ฉ๋๋ค.
2.5 ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
Sequential Dexterity๋ ๊ธด ์ํ์ (long-horizon)์ ๋ค๋จ๊ณ ์์ ์ ๋ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ์ง๋ง, ์ฌ์ ํ ๋ช ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌํ๋ฉฐ ํฅํ ๊ฐ์ ์ฌ์ง๊ฐ ์์ต๋๋ค.
์ฒซ์งธ, ์๋ธํ์คํฌ์ ๋ถํ ๊ณผ ์ ์๊ฐ ์ฌ๋์ ์ํด ์ฌ์ ์ ์ฃผ์ด์ง๋ ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ธ๋ก ํ์, ์ ๋ ฌ, ํ์ง, ์ฝ์ ์ 4๋จ๊ณ์ ๊ณต๊ตฌ ํ์ง, ์ ๋ ฌ์ 2๋จ๊ณ๋ฅผ ์ ์ ๋ก ํ์ต๋๋ค. ์ด๋ฌํ ์๋ธํ์คํฌ ๋ถํ ์ ๋๋ฉ์ธ ์ง์์ ํ์ฉํ ๊ฒ์ผ๋ก, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ฝ๊ฒ ๋ง๋ ์ฅ์ ์ด ์์ง๋ง ๋ฒ์ฉ ์ธ๊ณต์ง๋ฅ์ ์ ๊ทผ๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ์์ต๋๋ค. ํฅํ์๋ ๋ก๋ด์ด ์ค์ค๋ก ์๋ธํ์คํฌ๋ฅผ ๋ฐ๊ฒฌํ๊ฑฐ๋, ๊ณ ์์ค ๋ชฉํ๋ง ์ฃผ์ด์ ธ๋ ๋ด๋ถ์ ์ผ๋ก ์ ์ ํ ์ ์ฑ ์ฒด์ธ์ ๊ตฌ์ฑํ ์ ์๋ ์๋ ๊ณ์ธตํ ํ์ต์ผ๋ก ํ์ฅ๋ ์ ์์ ๊ฒ์ ๋๋ค.
๋์งธ, ํ์ต ๋น์ฉ์ ๋ฌธ์ ์ ๋๋ค. ๊ฐ ์๋ธ ์ ์ฑ ์ ๊ฐํํ์ต์ผ๋ก ํ๋ จํ๋ ๋ฐ ์๋นํ ์๋ฎฌ๋ ์ด์ ์๊ฐ์ด ๊ฑธ๋ ธ์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ๋ธ๋ก ์กฐ๋ฆฝ์ ๊ฒฝ์ฐ ์๋ธํ์คํฌ ํ๋๋ฅผ ํ์ตํ๋ ๋ฐ ํ๋ฃจ~์ดํ ์ ๋ ์์๋๋ฉฐ, ๋ชจ๋ ๋จ๊ณ๋ฅผ ์์ฐจ/์ญ๋ฐฉํฅ์ผ๋ก ์ต์ ํํ๋ ๋ฐ ์๋นํ ๊ณ์ฐ์์์ด ํ์ํ์ต๋๋ค. ์ด๋ ํ์ฌ ๊ธฐ์ ์์ค์์ ๋ถ๊ฐํผํ ๋ฉด๋ ์์ง๋ง, ํฅํ ๋ ํจ์จ์ ์ธ ํ์ต ์๊ณ ๋ฆฌ์ฆ(PPO ์ธ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ธฐ๋ฒ ๋ฑ)์ด๋ ์งํํจ์ ์ฌ์ฌ์ฉ ๋ฑ์ ํตํด ํ๋ จ ์๊ฐ์ ๋จ์ถํ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ ํ์ฌ๋ ์๋ฎฌ๋ ์ดํฐ ์์์ ๋๋์ ๋ณ๋ ฌ ํ๊ฒฝ์ ์ฌ์ฉํ๋๋ฐ, ์ค์ ๋ก๋ด ํ์ต์ผ๋ก ์ด๋ฌํ ๊ธฐ๋ฒ์ ํ์ฅํ๋ ค๋ฉด ํ๋ณธ ํจ์จ์ ๋์ด๊ฑฐ๋ ์ธ๊ฐ ์์ฐ์ผ๋ก ์ด๊ธฐ ์ ์ฑ ์ ์ป๋ ๋ฑ์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
์ ์งธ, ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค์ ์ฐจ์ด๋ก ์ธํ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ง์ ํ๋ฏ์ด ๋ธ๋ก ์ฝ์ ๊ณผ ๊ฐ์ ์ ์ด์ด ๋ง์ ์ธ๋ฐํ ๋์์ ์๋ฎฌ๋ ์ดํฐ์์ ์ ํํ ๊ตฌํํ๊ธฐ ์ด๋ ค์ ๊ณ , ๊ฒฐ๊ตญ ์ผ๋ถ๋ฅผ ์คํฌ๋ฆฝํธ์ ์์กดํ์ต๋๋ค. ์ด๋ ๊ณง ์ ์ด๋ ฅ, ๋ง์ฐฐ, ๋ณํ ๋ฑ์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์ ํํ ๋ค๋ฃจ๋ ์ด๋ ค์์ ๋ปํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์์ ์ด๋ฌํ ์ ์ด ์์ ์ฑ์ ๋ํ ํ๊ฐ๋ฅผ ํฌํจ์ํค๊ฑฐ๋, ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์์๋ถํฐ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ค์ํํ๋ ๋๋ฉ์ธใฉใณ๋คํ(domain randomization)๋ฅผ ํตํด ํ์ค ์ ์๋ ฅ์ ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ ์ด๊ฐ ์ผ์๋ ํ ์ ์ด๋ฅผ ํตํฉํ์ฌ, ๋จ์ ์๊ฐ ์ ๋ณด๋ก ์ด๋ ค์ด ๋ฏธ์ธ ์ ์ด ๋์์ ์ฑ๊ณต๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ๋ ๊ณ ๋ คํด๋ณผ ์ ์์ต๋๋ค.
๋ท์งธ, ์ผ์ฑ ๋ฐ ์์คํ ๋ณต์ก๋์ ํ๊ณ์ ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ์์๋ ์์ ์ํ ๊ด์ฐฐ(ground-truth state)์ ์ฃผ๋ก ์ฌ์ฉํ์ฌ ํ์ตํ๊ณ , ํ์ค ์คํ์์๋ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด 2๋์ ์นด๋ฉ๋ผ์ ์ธ๋ถํ/์ถ์ ๋ฐ 6D ํฌ์ฆ ์ถ์ ์๊ณ ๋ฆฌ์ฆ(XMem, DenseFusion ๋ฑ)์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ฌํ ์ธ์ง ์์คํ ์ ์ถ๊ฐ์ ์ธ ์ค๋ฅ ๊ฐ๋ฅ์ฑ์ ๋ดํฌํ๋ฉฐ, ์ค์ ์ ์ฉ ์ ์๋นํ ์ค์ ๊ณผ ๋ณด์ ์ด ํ์ํฉ๋๋ค. ํฅํ์๋ ํ์ต ๋จ๊ณ์์๋ถํฐ ์์ ์ ๋ ฅ์ ๋ฐ์ end-to-end๋ก ์ ์ฑ ์ ํ์ตํ๊ฑฐ๋, ๋ณด๋ค ๊ฒฝ๋์ ์ผ์ ๊ตฌ์ฑ์ผ๋ก ๋์ํ ์ ์๋๋ก ๋จ์ํํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ชฉ ์นด๋ฉ๋ผ ํ๋๋ง์ผ๋ก๋ ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ํ์งํ๊ณ ์กฐ์ํ๋๋ก ํ์ต์ํค๋ ๋ฐฉํฅ์ ๋๋ค. ์ด๋ ๋์ด๋๊ฐ ๋์ง๋ง, ์ฑ๊ณตํ๋ค๋ฉด ์์คํ ๊ตฌ์ฑ์ ๋ณต์ก๋๋ฅผ ์ค์ด๊ณ ์ค์ฉ์ฑ์ ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค.
๋ค์ฏ์งธ, ์ ์ฑ ์ฐ์์ ๋ฒ์์ ๊ดํ ํ๊ณ์ ๋๋ค. Sequential Dexterity๋ ํ์ฌ ๊ณ ์ ๋ ์์์ ์คํฌ ์ฒด์ธ ๋ด์์๋ง ๋์ํฉ๋๋ค (๋น๋ก ์ค์์นญ์ผ๋ก ๋ฐ๋ณต์ด๋ ์๋ต์ ๊ฐ๋ฅํ์ง๋ง). ๋ง์ฝ ์์ ๋์ค ์ ํ ์๋ก์ด ํ์ ๊ณผ์ ๊ฐ ํ์ํด์ง๊ฑฐ๋ ๋ถ๊ธฐ(branch)๊ฐ ๋ฐ์ํ๋ ์๋๋ฆฌ์ค์์๋ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์๋ฅผ ๋ค์ด ์กฐ๋ฆฝ ์์ ์ค ๋ธ๋ก์ด ๋จ์ด์ง๊ฑฐ๋ ํ์๋๋ ๋ฑ ์์ธ ์ํฉ์ด ๋ฐ์ํ๋ฉด, ํ์ฌ ์ฒด๊ณ๋ก๋ ์ฌ์ ์ ํ์ต๋ ์๋ธํ์คํฌ๋ก ๋์ฒํ ์ ์์ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋น์ ํ ์ํฉ์ ๋์ํ๋ ค๋ฉด ์์ ๊ณ์ธต์ ํ๋๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ ์จ๋๋งจ๋ ํ์ต๊ณผ ๊ฒฐํฉ์ด ํ์ํ ๊ฒ์ ๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ์ฒด์ค์ ๊ฐ์ ์ ๋ต ๊ฒ์์์ ๋ณด๋ฏ์ด, ๊ณ ์์ค ํ๋๋๊ฐ ์๋ธ ์ ์ฑ ๋ค์ ํธ์ถํ๊ณ ์กฐํฉํ๋ ๊ณ์ธต์ ์ ์ด ๊ตฌ์กฐ๋ก ํ์ฅํ๋ ๋ฐฉํฅ์ ์ ์ํ ์ ์์ต๋๋ค. ๋ํ ์ฌ๋ฌ ๋์ ๋ก๋ด ์์ด๋ ์ฌ๋-๋ก๋ด ํ์ ๋ฑ์ ๋ค์ค ์์ด์ ํธ ์ํฉ์์๋ ์ด์ ์ ์ฌํ ์ ์ฑ ์ฒด์ด๋ ๊ฐ๋ ์ ์ ์ฉํ๋ ค๋ฉด ์ด๋ป๊ฒ ํ ์ง ํ๊ตฌํด๋ณผ ์ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ค์ง ๋ก๋ด ์ ์์ฒด์ ํ๊ณ๋ ์กด์ฌํฉ๋๋ค. ์ฌ๋ ์๊ณผ ์ ์ฌํ ๋ก๋ด ํธ๋๋ ์ ์ฐ์ฑ์ด ๋์ง๋ง ์ ์ด๊ฐ ์ด๋ ค์, ํ์ฌ๊น์ง๋ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ ๋ฑ์ ๋นํด ์ ๋ขฐ๋๊ฐ ๋ฎ์ ํธ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ํํ๊ทธ๋ฆฌํผ๋ก๋ ์ํ์ด ์ด๋ ค์ด ์์ ์ด ๋ณธ ๊ณผ์ ์์์ ๊ฐ์กฐํ๊ณ ์์ผ๋, ๋ฐ๋๋ก ๋งํ๋ฉด ๋ค์ง ์์ด ๋ฐ๋์ ํ์ํ์ง ์์ ์์ ์์๋ ์ฒด์ด๋ ๊ธฐ๋ฒ ์์ด๋ ์ฑ๊ณตํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ์ด๋ค ์ ํ์ ์์ ์ ๋ค์ง ์ + ์ฒด์ด๋ ์ ๊ทผ์ด ์ ๋ฆฌํ์ง๋ฅผ ์๋ณํ๊ณ , ๋ถํ์ํ ๊ฒฝ์ฐ์๋ ๋จ์ ๊ทธ๋ฆฌํผ๋ ๋จ์ผ ์ ์ฑ ์ผ๋ก๋ ์ถฉ๋ถํ์ง๋ฅผ ๊ตฌ๋ถํ๋ ์ฐ๊ตฌ๊ฐ ์ค์ฉ์ ๊ด์ ์์ ์ค์ํฉ๋๋ค. ๋ํ ๋ค์ง ์์ ๊ณ ์ ํ ๋ฌธ์ ์ธ ๊ด์ ์ ์ฝ, ๋ด๊ตฌ์ฑ, ์ ์ด ์ง์ฐ ๋ฑ์ด ํ์ค ์ ์ฉ์ ๊ฑธ๋ฆผ๋์ผ ์ ์์ด, ์ด๋ฌํ ๋ถ๋ถ์ ๊ฐ์ ํ๊ฑฐ๋ ์ฒด์ด๋ ๊ธฐ๋ฒ์ด ๊ทธ๋ฌํ ํ๋์จ์ด ํ๊ณ๋ฅผ ์ํํ ์ ์๋์ง๋ ์ดํด๋ด์ผ ํฉ๋๋ค.
2.6 ์ดํ ๋ฐ ๊ธฐ์ฌ๋ ํ๊ฐ
Sequential Dexterity ๋ ผ๋ฌธ์ ๋ก๋ด ๊ฐํํ์ต ๋ถ์ผ์์ ์ฅ๊ธฐ horizon ๊ณผ์ ์ ํ๊ธฐ ์ํด ํ ๊ฑธ์ ๋์๊ฐ ์ค์ํ ์ฐ๊ตฌ๋ก ํ๊ฐ๋ฉ๋๋ค. ํนํ ๋ค๊ด์ ๋ก๋ด ์๊ณผ ๊ฐ์ด ์ ์ด๊ฐ ๊น๋ค๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ํ์ฉํ์ฌ, ์ด์ ์๋ ์ฌ๋์ด ๊ฐ์ ํ๊ฑฐ๋ ์คํจ์จ์ด ๋์๋ ๋ค๋จ๊ณ ์กฐ์ ์์ ์ ์์จ์ ์ผ๋ก ํ์ต ์ํํด๋ธ ์ ์์ ํฐ ์์๊ฐ ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ๋(contribution)๋ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ ์ ์์ต๋๋ค:
๋ค๋จ๊ณ ์ฌ์ธ ์กฐ์์ ์ํ ์ ์ฑ ์ฒด์ด๋์ ๊ฐ์ฒ: ๋ณธ ์ฐ๊ตฌ๋ ์ฅ๊ธฐ ๋ค๋จ๊ณ ์กฐ์ ์์ ์ ์ ์ฑ ์ฐ์ ๊ธฐ๋ฒ์ ์ ์ฉํ ์ต์ด์ ์ฌ๋ก ์ค ํ๋๋ก, ํนํ ๋ค์ง ๋ก๋ด ์์ ์ด์ฉํ ์ ๊ตํ ์์ ์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ๊ธฐ์กด์๋ ์ฃผ๋ก ๋จ์ ๊ทธ๋ฆฌํผ๋ ๋จ์ผ ๋จ๊ณ ์์ ์์ฃผ๋ก ์ฐ๊ตฌ๋๋ ๋ถ์ผ์, ๋ณต์กํ ์ ์กฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ ์ํ๊ณ ํด๊ฒฐ์ฑ ์ ๋ชจ์ํ๋ค๋ ์ ์์ ํ์ ์ ๊ฐ์น๋ฅผ ์ง๋๋๋ค.
์ผ๋ฐ์ ์ธ ์๋ฐฉํฅ ์ต์ ํ ํ๋ ์์ํฌ ์ ์: ๋จ์ํ ๊ฐ๋ณ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋์ด์, ์๋ฐฉํฅ ํ์ต + ์ ์ด ํจ์ ๊ธฐ๋ฐ ์ญ๋ฐฉํฅ ํ์ธํ๋์ด๋ผ๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ถํ์์ต๋๋ค. ์ด ํ๋ ์์ํฌ๋ ํฅํ ๋ค๋ฅธ ํํ์ ๋ค๋จ๊ณ ์์ ์ด๋ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์๋ ์์ฉ๋ ์ ์๋ ์ค๊ณ๋ก์, ์ ์ฑ ์ฒด์ด๋์ ๋ํ ๋ณดํธ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ ์ ์ด ๋์ด ํ๊ฐ๋ฉ๋๋ค. ํนํ value ํจ์๊ฐ ์๋ ๋ณ๋์ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ๋์ ํ๊ณ , ์ด๋ฅผ ์ ์ฑ ์ ํ ์ ๋ต๊น์ง ํตํฉ์ํจ ๊ฒ์ ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ์ฐฝ์์ฑ์ด๋ผ ํ ์ ์์ต๋๋ค.
๋ค๋จ๊ณ ์กฐ์์์์ SOTA ์ฑ๋ฅ๊ณผ ์คํ๊ฒฝ ๊ฒ์ฆ: ์ ์ํ ๋ฐฉ๋ฒ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์คํจํ๊ฑฐ๋ ์ฑ๋ฅ์ด ๋ฎ์๋ ๋ณตํฉ ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ์์ผ๋ฉฐ, ์์น์ ์ผ๋ก๋ ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์ฆํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด์ ๊ฐํํ์ต ์ฐ๊ตฌ์์๋ ๋ชจ๋ธ ํ๋ฆฌ ๋ฐฉ์์ผ๋ก๋ ํ์ง ๋ชปํ๋ IKEA ๊ฐ๊ตฌ ์กฐ๋ฆฝ๋ฅ์ ์์ ์ ๋ณธ ์ฐ๊ตฌ์ ์ ์ฌํ ์ ๊ทผ์ผ๋ก ํด๊ฒฐํ๊ณ , ๋ณธ ๋ ผ๋ฌธ ์ญ์ ๋ธ๋ก ์กฐ๋ฆฝ ์์ ์ ์ต์ด๋ก ๋ฌ์ฑํ์ต๋๋ค. ๋ํ ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ก ์ค์ ๋ก๋ด์ ์ด์ํ์ฌ ์์ ์ฑ๊ณต์ ์์ฐํจ์ผ๋ก์จ, ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ๊ทธ์น์ง ์๊ณ ํ์ค ์ ์ฉ ๊ฐ๋ฅ์ฑ๊น์ง ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์์ ์๋นํ ๊น๋ค๋ก์ด ๋จ๊ณ์ธ๋ฐ, ์ ์๋ค์ ํตํฉ์ ๋ ธ๋ ฅ(์๋ฎฌ๋ ์ดํฐ ์ ์ , ๋น์ ๋ชจ๋ ๊ฐ๋ฐ, ์ ์ด ์์ ํ ๋ฑ)์ผ๋ก ์ด๋ฃจ์ด๋ธ ์ฑ๊ณผ์ ๋๋ค. ์ด๋ฌํ sim-to-real ์ฑ๊ณต ์ฌ๋ก๋ ํ๊ณ์ ์ ๊ณ ๋ชจ๋์ ์๊ฐ์ ์ฃผ๋ฉฐ, ํฅํ ์ ์ฌํ ์ฐ๊ตฌ์ ๋ํ ์ ๋ขฐ๋๋ฅผ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ๊ด๋ จ ๋ฌธํ๋ค๊ณผ ๋น๊ตํด๋ณด๋ฉด, ์ด์ ์ ์คํฌ ์ฒด์ด๋ ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ์ํ ๊ณต๊ฐ ํ์ฅ์ด๋ ์ต์ ํ๋ ์์ํฌ ๋ฑ์ ํตํด ์ ์ฑ ์ฐ๊ฒฐ์ ์๋ํ๋๋ฐ, Sequential Dexterity๋ ์ํ ๋ถํฌ์ ํญ๋ฐ์ ์ฆ๊ฐ๋ฅผ ์ต์ ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๊ทผํ ์ ์ด ๋ ํนํฉ๋๋ค. ํนํ T-STAR(Lee et al., 2021) ๋ฑ์ด adversarial training์ผ๋ก ๋ถํฌ๋ฅผ ์ ํํ ๋ฐ ๋ฐํด, ๋ณธ ๋ ผ๋ฌธ์ ํ์ต๋ ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ฅผ ํ์ฉํ ์ง์ ์ ์ธ ๋ณด์ ํผ๋๋ฐฑ์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ์์ ์ ์ด๋ฉด์๋ ํจ๊ณผ์ ์ธ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ๋ํ ๊ณผ๊ฑฐ ์ฐ๊ตฌ๋ค์ด ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ ๋ฑ ์ ํ๋ ์กฐ์์์ ๋จ์ ์์ (์: ๋ธ๋ก ์๊ธฐ 2~3๋จ๊ณ ์ ๋)์ ์์ฐํ ๊ฒ์ ๋นํด, ๋ณธ ์ฐ๊ตฌ๋ ๋ค์ง ์์ ํ๋ถํ ์กฐ์ ๊ฐ๋ฅ์ฑ์ ํ์ฉํด ๋ ๋ณต์กํ ์์ ์ ํ๋ค๋ ์ ์์ ์ค์ฉ์ ๊ฐ์น๊ฐ ์์ต๋๋ค. ์ฌ๋์ ์์ฒ๋ผ ๋ค์ํ ํํ์ ๋ฌผ์ฒด๋ฅผ ๋ค๋ค์ผ ํ๋ ๊ณผ์ ์์ ๋ณธ ๋ฐฉ๋ฒ์ด ์ง๊ฐ๋ฅผ ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค ์ ์ ๋๋ค.
๋ฌผ๋ก Sequential Dexterity์๋ ์์ ๋ ผ์ํ ๊ฐ์ ์ ๋ค์ด ์์ง๋ง, ํ์ฌ ์์ ๊ธฐ์ค์ผ๋ก ๋ณผ ๋ ์ด ๋ ผ๋ฌธ์ ์ฅ๊ธฐ ๊ฐํํ์ต ์ ์ด์ ๋ก๋ด ์กฐ์์ ๊ต์ฐจ์ ์์ ์๋นํ ์ง์ ์ ์ด๋ฃฌ ๊ฒ์ผ๋ก ํ๊ฐ๋ฉ๋๋ค. ํ๋ฌธ์ ์ผ๋ก๋, ๊ธด ์๊ฐ๋ฒ์์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณํ(plan)๊ณผ ํ์ต(learning)์ ์ ๋ชฉํ ํ ๊ฐ์ง ์ฑ๊ณต ์๋ฅผ ์ ์ํ๊ณ , ์ค์ฉ์ ์ผ๋ก๋ ํฅํ ์ฐ์ ์ฉ ๋ก๋ด์ด๋ ๊ฐ์ ์ฉ ๋ก๋ด์ ๋ณต์กํ ์์ ํ์ต์ ์ ์ฉ๋ ์ ์๋ ๊ธฐ์ ๋ฐฉํฅ์ ์ ์ํ์ต๋๋ค. ํนํ, ์ ์ด ๊ฐ๋ฅ์ฑ ํจ์๋ผ๋ ๊ฐ๋ ์ ์ถํ ๋ค์ํ ๊ณ์ธตํ ๊ฐํํ์ต ์๋๋ฆฌ์ค์์ ํ์ฉ๋ ์ ์๋ ์์ด๋์ด๋ก, ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฅผ ๋ณํยทํ์ฅํ์ฌ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์ ์์ฐ์ ํ์ฉํ ์ ์ฑ ์ฐ์ ํ์ต์ด๋, ๋ค์ค ๋ก๋ด ํ์ ๊ณผ์ ์ ์ ์ด ๊ฐ๋ฅ์ฑ ํ๊ฐ๋ฅผ ๋์ ํ๋ ๋ฐฉํฅ ๋ฑ์ด ๋ ์ค๋ฆ ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, โSequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulationโ ๋ ผ๋ฌธ์ ๋ค๋จ๊ณ ์กฐ์ ๋ฌธ์ ์ ๋์ ํ ํ์ ์ ์ธ ์ฐ๊ตฌ๋ก์, ์ ์ฑ ์ฐ์๋ฅผ ํตํ ์ฅ๊ธฐ ๊ณผ์ ํด๊ฒฐ์ด๋ผ๋ ๋ก๋ดํ์ต ๋ถ์ผ์ ๋์ ๋ฅผ ํ ๋จ๊ณ ์ ์ง์์ผฐ์ต๋๋ค. ์ด ์ฐ๊ตฌ์ ์ฑ๊ณผ๋ ํฅํ ๋ก๋ด์ด ์ธ๊ฐ ์์ค์ ๋ค์ํ๊ณ ๊ธด ์์ ์ ์ํํ๊ธฐ ์ํด ์ด๋ค ํ์ต ํ๋ ์์ํฌ๊ฐ ํ์ํ์ง์ ๋ํ ํต์ฐฐ์ ์ ๊ณตํ๋ฉฐ, ๊ด๋ จ ๋ถ์ผ ์ฐ๊ตฌ์ ๋ฐ ํ์๋ค์๊ฒ ์ ์ฉํ ๋ฒค์น๋งํฌ์ ์์ด๋์ด์ ๊ธฐ์ค์ ์ด ๋ ๊ฒ์ ๋๋ค. ์์ผ๋ก ์ด ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ๋์ฑ ๋ฐ์ ํ์ฌ, ๋ก๋ด์ด ์ค์ ์ธ๊ณ์์ ์ฐ์์ ์ธ ๋ณตํฉ ์์ ์ ์์ ํ๊ณ ์ ๋ขฐ์ฑ ์๊ฒ ์ํํ๋ ๋ ์ด ์๋น๊ฒจ์ง๊ธธ ๊ธฐ๋ํด๋ด ๋๋ค.