๐VT-Refine ๋ฆฌ๋ทฐ
- ๐ค VT-Refine์ ์ค์ ์์ฐ, ๊ณ ์ถฉ์ค๋ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ๋ฐ ๊ฐํ ํ์ต์ ๊ฒฐํฉํ์ฌ ์ ๋ฐํ๊ณ ์ ์ด์ด ๋ง์ ์์ ์กฐ๋ฆฝ ์์ ์ ์ํ ์๊ฐ-์ด๊ฐ ์ ์ฑ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ํ๋ จ์ ์๋์ ์ค์ ์๊ฐ-์ด๊ฐ ์์ฐ์ผ๋ก ํ์ฐ ์ ์ฑ ์ ์ฌ์ ํ์ตํ ํ, GPU ๊ฐ์ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋๊ท๋ชจ ๊ฐํ ํ์ต์ ํตํด ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ sim-to-real ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, VT-Refine์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ์กฐ๋ฆฝ ์ฑ๋ฅ๊ณผ ๊ฐ๊ฑด์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ํนํ ์ด๊ฐ ํผ๋๋ฐฑ์ด ์ ๋ฐ๋์ ํ์ ๋ฅ๋ ฅ ๊ฐํ์ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
VT-Refine ํ๋ ์์ํฌ ๊ฐ์: VT-Refine๋ ์ค์ ์ฌ๋ ์์ฐ์ผ๋ก ํ์ตํ ์๊ฐ-์ด๊ฐ ๊ธฐ๋ฐ ํ์ฐ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์ด์ ํ์ฌ ๋๊ท๋ชจ ๊ฐํํ์ต์ผ๋ก ์ธ๋ฐํ๊ฒ ๊ฐ์ ํ ํ ๋ค์ ํ์ค์ ์ ์ฉํ๋ ์ค์ธ๊ณ-์๋ฎฌ๋ ์ด์ -์ค์ธ๊ณ(real-to-sim-toreal) ์ํ ์กฐ๋ฆฝ ํ์ต ๊ธฐ๋ฒ์ด๋ค. ์ ๊ทธ๋ฆผ์์ ๋ณด์ด๋ฏ, Stage 1์์๋ ์ฌ๋ ์๊ฒฉ์กฐ์์ผ๋ก ์์งํ ์ฝ 30๊ฐ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ์๊ฐ ๋ฐ ์ด๊ฐ ์ ๋ ฅ์ด ํฌํจ๋ ํ์ฐ ์ ์ฑ (diffusion policy)์ ์ฌ์ ํ์ตํ๊ณ , Stage 2์์๋ ํด๋น ์ ์ฑ ์ ๊ฐ์ ํ๊ฒฝ์ ๋์งํธ ํธ์์ผ๋ก ์ฎ๊ฒจ ๋๋ฑํ ์๊ฐ/์ด๊ฐ ์ผ์ ์ ๋ ฅ์ ๋ชจ์ฌํ๋ฉด์ ๋ณ๋ ฌ ๊ฐํํ์ต(RL)์ผ๋ก ์ ์ฑ ์ ํ์ธํ๋ํ๋ค. ์ด๋ ๊ฒ ๊ฐํํ์ต์ผ๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฐ ์ ์ฑ ์ ๋ค์ ์ค์ ๋ก๋ด์ผ๋ก ์ฎ๊ฒจ์ ธ ์ ๊ตํ ์ํ ์กฐ๋ฆฝ ์์ ์ ์ํํ๊ฒ ๋๋ค.
Brief Review
VT-Refine๋ ์๋ฎฌ๋ ์ด์ ๋ฏธ์ธ ์กฐ์ (Simulation Fine-Tuning)์ ํตํด Visuo-Tactile(์๊ฐ-์ด๊ฐ) ํผ๋๋ฐฑ ๊ธฐ๋ฐ์ ์์ ์กฐ๋ฆฝ ์์ ์ ํ์ตํ๊ธฐ ์ํ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ ์ฌ๋์ด ์ด๊ฐ ํผ๋๋ฐฑ์ ์ ์ํ๋ฉฐ ์์ ์กฐ๋ฆฝ ์์ ์ ์ํํ๋ ๋ฅ๋ ฅ์ ๋ฐ์ด๋์ง๋ง, ๋ก๋ด์๊ฒ ํ๋ ๋ณต์ (Behavioral Cloning)๋ง์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ค๋ ๋ฌธ์ ์ ์ฃผ๋ชฉํฉ๋๋ค. ์ด๋ ์ฌ๋ ์์ฐ์ ๋น์ต์ ์ฑ(suboptimality)๊ณผ ์ ํ๋ ๋ค์์ฑ ๋๋ฌธ์ ๋๋ค.
VT-Refine์ ์ ๋ฐํ๊ณ ์ ์ด์ด ๋ง์ ์์ ์กฐ๋ฆฝ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ค์ ์์ฐ, ๊ณ ์ถฉ์ค๋ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ , ๊ทธ๋ฆฌ๊ณ ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ๊ฒฐํฉํฉ๋๋ค. ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ์ค์ ์ธ๊ณ ์ฌ์ ํ์ต(Real-World Pre-Training):
- ์๋์ ์ค์ ์ธ๊ณ ์์ฐ(์: 30 ์ํผ์๋)์ ์ฌ์ฉํ์ฌ Visuo-Tactile Diffusion Policy๋ฅผ ์ฌ์ ํ์ตํฉ๋๋ค.
- ์ด ์์ฐ ๋ฐ์ดํฐ๋ ๋๊ธฐํ๋ ์๊ฐ ๋ฐ ์ด๊ฐ ์ ๋ ฅ์ ํฌํจํฉ๋๋ค. ์๊ฐ ์ ๋ ฅ์ ๋ก๋ด์ Ego-centric ์นด๋ฉ๋ผ์์ ์ป์ ์ปฌ๋ฌ ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ P_{\text{visual},t} \in \mathbb{R}^{N_{\text{vis}} \times 4}์ด๋ฉฐ, ์ด๊ฐ ์ ๋ ฅ์ ์ผ์ ์ ๋์ 3D ์์น์ ์ฐ์์ ์ธ ์ผ์ ๊ฐ์ ๋ํ๋ด๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ P_{\text{tactile},t} \in \mathbb{R}^{N_{\text{tac}} \times 4}์ ๋๋ค.
- N_{\text{tac}} = 384 \times N_{\text{finger}}๋ก ์ค์ ๋๋๋ฐ, ์ด๋ ๊ฐ ์ผ์ ํจ๋๊ฐ 12 \times 32 = 384๊ฐ์ ์ด๊ฐ ํฌ์ธํธ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ๋ก๋ด ๊ณ ์ ์์ฉ ๊ฐ๊ฐ(Proprioception) ์ ๋ณด(๋ ํ๊ณผ ๋ ๊ทธ๋ฆฌํผ์ ์กฐ์ธํธ ์์น)๋ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๊ฐ ๋ฐ ์ด๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ PointNet ์ธ์ฝ๋(\text{PointNetEncoderXYZTactile})์ ์ํด ์ฒ๋ฆฌ๋๋ฉฐ, ๊ทธ ์ถ๋ ฅ์ ๋ค์ธต ํผ์ ํธ๋ก (MLP)์ผ๋ก ์ธ์ฝ๋ฉ๋ ๊ณ ์ ์์ฉ ๊ฐ๊ฐ ํน์ง๊ณผ ์ฐ๊ฒฐ๋์ด ๋ ธ์ด์ฆ ์ ๊ฑฐ ํ์ฐ ๋คํธ์ํฌ(denoising diffusion network)์ ์ปจ๋์ ๋ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ Diffusion Policy [1]์ ํ๋ ์ฒญํฌ ์์ธก ๋ฐฉ์(action chunk prediction)์ ๋ฐ๋ฅด๋ฉฐ, ์ ํ๋ ์์ฐ ๋ฐ์ดํฐ๋ก ์ธํด ์์ ์ฑ๊ณต๋ฅ ์ด ๋์ง ์์ ์ ์์ง๋ง, ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์์ RL์ ์ํ ๊ฐ๋ ฅํ ์ฌ์ ์ง์(prior)์ ์ ๊ณตํฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์
๋ฏธ์ธ ์กฐ์ (Simulation Fine-Tuning):
- ์ฌ์ ํ์ต๋ Diffusion Policy๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๋์งํธ ํธ์์ผ๋ก ์ ์ด๋ฉ๋๋ค.
- ์ฌ๊ธฐ์ ๊ฐํ ํ์ต์ ํตํด ์ ์ฑ ์ ์ถ๊ฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๊ฐ๊ฑด์ฑ(robustness)๊ณผ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค.
- ๋ฏธ์ธ ์กฐ์ ์ Diffusion Policy Policy Optimization (DPPO) [6] ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉฐ, ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ผ๋ก ํ์ํํ์ฌ ๋ณด์ ์ ํธ๊ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์ฒด์ธ์ ํตํด ํจ๊ณผ์ ์ผ๋ก ์ ํ๋๋๋ก ํฉ๋๋ค.
- ์กํฐ(Actor) ๋คํธ์ํฌ๋ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋๊ณ , ํฌ๋ฆฌํฑ(Critic) ๋คํธ์ํฌ๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋ฉ๋๋ค. ํฌ๋ฆฌํฑ์ ๋ก๋ด ๋ฐ ๊ฐ์ฒด ์ํ์ ์ ์ฐจ์ ํํ์ ๋ฐ๋ ๋น๋์นญ ์กํฐ-ํฌ๋ฆฌํฑ ์ ๋ต(Asymmetric Actor-Critic strategy) [53]์ ์ฑํํฉ๋๋ค.
- ๋ณด์ ํจ์๋ ํฌ์ ๋ณด์(Sparse Reward)์ผ๋ก ์ค์ ๋ฉ๋๋ค. ๋ถํ์ด ์ฑ๊ณต์ ์ผ๋ก ์กฐ๋ฆฝ๋๋ฉด 1์ ๋ณด์์ ๋ฐ๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ ๋ณด์์ ๋ฐ์ต๋๋ค. ์ฌ์ ํ์ต์ด RL ํ์์ ์๋ดํ๋ ๊ฐ๋ ฅํ ์ฌ์ ์ง์์ ์ ๊ณตํ๋ฏ๋ก ๋ณต์กํ ๋ณด์ ์ค๊ณ๋ ํผํ ์ ์์ต๋๋ค.
VT-Refine์ ์ ํํ Sim-to-Real ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด GPU ๊ฐ์ ์๋ฎฌ๋ ์ด์ ์ ์ฌ์ฉํ์ฌ ์์ ํญ์(piezoresistive) ์ด๊ฐ ์ผ์๋ฅผ ์ฌ์ค์ ์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ์ด ์ผ์(โFlexiTacโ)๋ 12x32 ์ผ์ ์ ๋ ๋งคํธ๋ฆญ์ค๋ก ๊ตฌ์ฑ๋์ด 2mm ๊ณต๊ฐ ํด์๋๋ก ๋ฒ์ ๋ฐฉํฅ ํ(normal force) ์ ํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ์ TacSL [12] ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๊ฐ ์ด๊ฐ ํฌ์ธํธ์ ๊ฐ์ฒด ๊ฐ์ฒด ๊ฐ์ ์ ์ด์ Kelvin-Voigt ๋ชจ๋ธ๋ก ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค. ์ด๋ ์ ํ ์คํ๋ง๊ณผ ์ ์ฑ ๋ํผ๊ฐ ๋ณ๋ ฌ๋ก ์ฐ๊ฒฐ๋ ํํ๋ก, ์ ์ด ๋ฒ์ ํ f_n = -(k_n d + k_d \dot{d})n๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ฌ๊ธฐ์ d๋ ์นจํฌ ๊น์ด(interpenetration depth), \dot{d}๋ ์ ์ด ๋ฒ์ ์ ๋ฐ๋ฅธ ์๋ ์๋, n์ ์ธํฅ ์ ์ด ๋ฒ์ ๋ฒกํฐ์ด๋ฉฐ, k_n๊ณผ k_d๋ ๊ฐ๊ฐ ํ์ฑ๋ฅ (compliance stiffness)๊ณผ ์ ์ฑ ๊ณ์(damping coefficient)์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์ผ์ ๊ฐ์ ์๋ต์ ์ผ์น์ํค๊ธฐ ์ํด ์ผ์ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ์ฐจ๋ฅผ ๊ฑฐ์น๋ฉฐ, ์ด๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ํ์คํ ๊ทธ๋จ ๋ถํฌ๋ฅผ ๋น๊ตํ์ฌ ๊ฒ์ฆ๋ฉ๋๋ค.
์ด ํ๋ ์์ํฌ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ํํ์ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ๊ฒฌ๊ณ ํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ด๋ ์๊ฐ ๋ฐ ์ด๊ฐ ์์์ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ๋ณด์กดํ์ฌ ์ ์ฑ ํจ๊ณผ๋ฅผ ๋์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, VT-Refine์ ๋ฐ์ดํฐ ๋ค์์ฑ์ ๋์ด๊ณ ๋ณด๋ค ํจ๊ณผ์ ์ธ ์ ์ฑ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ์กฐ๋ฆฝ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ํนํ, ์ฌ์ ํ์ต๋ง์ผ๋ก๋ ๋ฌ์ฑํ๊ธฐ ์ด๋ ค์ ๋ ๋ฏธ์ธํ ์กฐ์ ๋์(์: โwiggle-and-dockโ maneuvers)์ด RL ๋ฏธ์ธ ์กฐ์ ์ ํตํด ์์ฐ์ค๋ฝ๊ฒ ๋ํ๋ ์ ์ฑ ์ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ๋์์ต๋๋ค.
Detail Review
๊ธฐ์ ์ ๊ธฐ์ฌ
VT-Refine ์ฐ๊ตฌ์ ํต์ฌ ๊ธฐ์ฌ๋ ์ ๋ฐํ ์ํ ์กฐ๋ฆฝ ์์ ์ ์ํ ์๊ฐ-์ด๊ฐ ํตํฉ ์ ์ฑ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ๊ฒ์ด๋ค. ์ ์๋ค์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ์ ์ ํ์ ์ ๊ฐ์กฐํ๋ค:
- ์์ฐ ๊ธฐ๋ฐ ํ์ฐ ์ ์ฑ + ๊ฐํํ์ต ํ์ธํ๋: ์๋์ ์ฌ๋ ์์ฐ์ผ๋ก ํ์ต๋ ์๊ฐ-์ด๊ฐ ํ์ฐ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์์ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ํฅ์์์ผฐ๋ค. ์ด๋ ๊ธฐ์กด ํ๋๋ชจ๋ฐฉ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ ์ ์ฑ ์ ํ์ ๋ฅ๋ ฅ์ ๋์ฌ, ์์ฐ ๋ฐ์ดํฐ ์ฃผ๋ณ์ ์ํ-ํ๋ ๊ณต๊ฐ์ ์ ๊ทน ํํํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๊ฒ ํ๋ค. ๋ค์ ๋งํด, ํ๋๋ชจ๋ฐฉ(BC) ๋จ๊ณ์์ ํ์ตํ ์ ์ฑ ์ด ๊ธฐ๋ณธ๊ธฐ๋ฅผ ์ ๊ณตํ๋ฉด, ์ดํ RL ๋จ๊ณ์์ ๊ทธ ์ฃผ๋ณ ์์ญ์ ํ์ ๋ฐ ์ต์ ํํ์ฌ ์ฌ๋ ๋ฐ๋ชจ์ ์๋ ๋ฏธ์ธ ๋์๊น์ง ์ต๋ํ๋๋ก ๋ง๋ ๊ฒ์ด๋ค.
- ๊ณ ์ถฉ์ค๋ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ๋ชจ๋: GPU ๊ฐ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ๋ด์ ์ค์ ์ด๊ฐ์ผ์๋ฅผ ์ถฉ์คํ ๋ชจ์ฌํ๋ ๋ณ๋ ฌ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ๋ชจ๋์ ๊ฐ๋ฐํ๋ค. ํนํ ํผ์์กฐ์ ํญ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ์ ๊ท๋ ฅ(normal force) ์ ํธ๋ฅผ ์ ํํ ์ฌํํ๋๋ก ํจ์ผ๋ก์จ, ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ๊ฐ ์ด๊ฐ ์ ๋ณด์ ์ฐจ์ด๋ฅผ ํฌ๊ฒ ์ค์๋ค. ๊ธฐ์กด์ ๊ดํ์ ์ด๊ฐ์ผ์๊ฐ ์กฐ๋ช ์กฐ๊ฑด๊ณผ ๋ณต์กํ ์ง๊ฐ ์ฌํ ๋ฌธ์ ๋ก ์๋ฎฌ๋ ์ด์ ์ด ๊น๋ค๋ก์ด ๋ฐ๋ฉด, VT-Refine๋ ๊ตฌ์กฐ์ ์ ์ด ํจํด๊ณผ ์ ๊ท๋ ฅ ๋ถํฌ์ ์ด์ ์ ๋ง์ถ ์ด๊ฐ์ผ์๋ฅผ ์ ํํ์ฌ ์๋ฎฌ๋ ์ด์ ์ฉ์ด์ฑ๊ณผ ์ด์์ฑ์ ๋์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด๊ฐ ์ ๋ณด์ ์ค-๊ฐ์ ์ ํ ๊ฐ ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ํฌ๊ฒ ์ขํ, ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฑ ํ์ต์ ํ์ฉํ ์ ์์๋ค.
- ์๊ฐ-์ด๊ฐ ํฌ์ธํธ ๊ธฐ๋ฐ ํํ ๋ฐ ํตํฉ: ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค์ ์์ ๋กญ๊ฒ ์ค๊ฐ ์ ์๋ ํตํฉ ์ํ ํํ์ผ๋ก ํฌ์ธํธํด๋ผ์ฐ๋(point cloud) ๊ธฐ๋ฐ ํํ์ ๋์ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์นด๋ฉ๋ผ๋ก ์ป์ ์๊ฐ ์ ๋ณด๋ฅผ 3์ฐจ์ ์ ๋ค๋ก ํํํ๊ณ , ๋ก๋ด ์๊ฐ๋ฝ์ ๋ถํฌ๋ ์ด๊ฐ ๊ฐ๋ค๋ ํด๋น ์์น์ ์ ๋ค๋ก ๋ณํํ์ฌ, ๋ ์ ๋ณด๋ฅผ ํ๋์ ์ ๊ตฌ๋ฆ์ผ๋ก ๊ฒฐํฉํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๊ฐ๊ณผ ์ด๊ฐ์ ๊ณต๊ฐ์ ๊ด๊ณ๊ฐ ๋ณด์กด๋์ด, ๋์ผํ ์ธ์ฝ๋(์: PointNet)๋ฅผ ํตํด ์ผ๊ด๋๊ฒ ์ฒ๋ฆฌํ ์ ์๊ณ , ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๋ก๋ด ๊ฐ์ ๋์ผํ ํํ์ ์ ๋ ฅ์ผ๋ก ์ ์ฑ ์ ์ ์ดํ ์ ์๋ค. ์ด๋ฌํ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ์์ ์กฐ์ ์ ์ฑ ์ ์๋ฐฉํฅ ์ด์์ฑ์ ๋์ฌ, ํ์คโ์๋ฎฌ๋ ์ดํฐ ์ฌ์ ํ์ต ๋ฐ ์๋ฎฌ๋ ์ดํฐโํ์ค ํ์ธํ๋ ๊ฒฐ๊ณผ์ ์์ค์ ์ต์ํํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ค. ์ด์์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ํตํด VT-Refine๋ ๋์ ์ ๋ฐ๋์ ์ ์ด์ด ํ๋ถํ ์ํ ์กฐ๋ฆฝ ๋ฌธ์ ์์ ๊ธฐ์กด ๋ฐฉ์๋ค์ด ๊ฐ๊ณ ์๋ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ํํ์๋ค. ํนํ ์ฌ๋์ ์ด๊ฐ ํ์ฉ ๋ฅ๋ ฅ์ ๋ก๋ด์ ์ด์ํ๊ธฐ ์ํด ์ค์ ๋ฐ์ดํฐ์ ํ๊ณ๋ฅผ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ก ๋ณด์ํ๋ ์ ๋ต๊ณผ, ํ์ต ํํ ๋ฐ ์ผ์ ๋์์ธ๊น์ง ์์ฐ๋ฅด๋ ์ด์ฒด์ ์ ๊ทผ์ ์ ๋ณด์ธ ์ ์ด ๋๋ณด์ธ๋ค.
๋ฐฉ๋ฒ๋ก ์ ์ฐธ์ ์ฑ
VT-Refine์ ๋ฐฉ๋ฒ๋ก ์ ์๊ฐ-์ด๊ฐ ํตํฉ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์ ํตํด ํ์ต ๋ฐ ํฅ์์ํค๋ ์๋ก์ด ์ ๊ทผ์ ์ ์ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ ์ฐธ์ ํ ๊ตฌ์ฑ ์์๋ค๋ก ์ด๋ฃจ์ด์ง๋ค.
- ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ฑ ํ์ต: ์ด๊ธฐ ์ ์ฑ ์ ์ธ๊ณต์ง๋ฅ ์์ฑ ๋ชจ๋ธ์ ์ผ์ข ์ธ DDPM(Denoising Diffusion Probabilistic Model)์ ์ด์ฉํด ํ์ต๋๋ค. ์ฐ๊ตฌ์ง์ 30ํ ์ ๋์ ์ฌ๋ ํ ๋ ์คํผ๋ ์ด์ ์์ฐ์ ๋ชจ์ ๋ก๋ด์ ์๊ฐ(์นด๋ฉ๋ผ point cloud)๊ณผ ์ด๊ฐ(์ผ์ point cloud) ๋ฐ ๊ด์ ์ํ(proprioception)๋ฅผ ์ ๋ ฅ์ผ๋ก, ๋ค ๋จ๊ณ ๋ํจ์ ๊ณผ์ ์ ํตํด ๋ฏธ๋ H=16 ์คํ ์ ํ๋ ์ํ์ค๋ฅผ ์์ฑํ๋ ์ ์ฑ \pi: O \rightarrow A๋ฅผ ํ๋ จ์์ผฐ๋ค. ํ์ฐ ๋ชจ๋ธ์ ์ฃผ์ด์ง ๊ด์ธก์์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ฐจ ์ ๊ฑฐํ๋ฉฐ ์ต์ ํ๋์ ์ถ๋ ฅํ๋๋ก ํ์ต๋๋๋ฐ, ์ด๋ ์ ํ๋ ์์ฐ ๋ฐ์ดํฐ๋ก๋ ๋ค์ํ ํ๋ ๋ถํฌ๋ฅผ ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ด ์์ด ์ต๊ทผ ๋ก๋ด ์ ์ด์ ๋์ ๋๊ณ ์๋ค. VTRefine๋ ์ด๋ฌํ ํ์ฐ ์ ์ฑ ์ ์ํ ์กฐ์์ ์ ์ฉํ์ฌ, ์ฌ๋ ์์ฐ์ ๋ถํฌ๋ฅผ ํ็ฟํ๋ฉด์๋ ์ผ์ ์์ค์ ํ์์ ํ๋์ ๋ด์ฌํ ์ด๊ธฐ ์ ์ฑ ์ ์ป๋๋ค.
- ๊ณ ํด์๋ ์ด๊ฐ ์ผ์ ์ค๊ณ ๋ฐ ์๋ฎฌ๋ ์ด์ : VT-Refine์ ๋ ๋ค๋ฅธ ํ์ ์ ํ์ค๊ณผ ์๋ฎฌ๋ ์ด์ ๋ชจ๋์์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ง์ถคํ ์ด๊ฐ ์ผ์(FlexiTac)๋ฅผ ์ค๊ณํ ๊ฒ์ด๋ค. ๊ฐ ๋ก๋ด ์๊ฐ๋ฝ์๋ 12\times32 ๋ฐฐ์ด์ ์ด๊ฐ ์ผ์ ํจ๋๊ฐ ๋ถ์ฐฉ๋๋๋ฐ, ์ธ์ ์ผ์ ๊ฐ ๊ฐ๊ฒฉ์ด 2mm์ธ ๊ณ ํด์๋ ์ด๊ฐ ๋งคํธ๋ฆญ์ค์ด๋ค. ์ด ํจ๋๋ ์ ์ฐํ ์ธ์ํ๋ก ๊ธฐํ (FPC) ๋ ์ฅ ์ฌ์ด์ ์๋ ฅ ๊ฐ์ ํ๋ฆ(ํผ์์กฐ ์ ํญ์ธต)์ ๋ผ์ด 3์ค ๋ ์ด์ด ๊ตฌ์กฐ๋ก ์ ์๋์ด, ํ์ ๊ฐํ๋ฉด ํด๋น ์ง์ ์ ์ ํญ์ด ๋ณํด ์ ๊ท๋ ฅ ๋ถํฌ๋ฅผ ์ฝ์ด๋ผ ์ ์๋ค ใ30โ ใ. ์ด๋ฌํ ์ค๊ณ๋ ์๊ณ ์ ์ฐํ์ฌ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ๊ณก๋ฉด์๋ ๋ถ์ฐฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ฌด์๋ณด๋ค ๊ดํ์ ์ด๊ฐ์ผ์ ๋๋น ์๋ฎฌ๋ ์ด์ ์ด ์ฉ์ดํ๋ค๋ ์ฅ์ ์ด ์๋ค. ๊ดํ ์ผ์๋ ๋ฏธ์ธํ ์ง๊ฐ๊ณผ ์ ๋จ๋ ฅ๊น์ง ๊ฐ์งํ์ง๋ง ์๋ฎฌ๋ ์ดํฐ์์ ์ด๋ฅผ ์ ํํ ์ฌํํ๊ธฐ ์ด๋ ต๋ค. ๋ฐ๋ฉด FlexiTac ์ผ์๋ ํ๋ฉด ์ ์ด ํจํด์ ์ ๊ท๋ ฅ ๊ฐ๋ค์ ํ๋ ฌ๋ก ์ ๊ณตํ๋ฏ๋ก, ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ฌผ์ฒด์ ์ผ์ ๊ฒฉ์ ๊ฐ ์ถฉ๋ ๊น์ด๋ฅผ ๊ณ์ฐํด ๋์ํ๋ ํ ์ ํธ๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ๋น๊ต์ ์ ํํ ๋ชจ์ฌํ ์ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ Nvidia Isaac Gym ๊ธฐ๋ฐ์ TacSL ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด ์ด๋ฌํ ํ์ฑ ์ ์ด ๋ชจ๋ธ์ ๋ณ๋ ฌ GPU ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๊ตฌํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ค์์์ ์ด๊ฐ ๋ถํฌ์ ์๋ฎฌ๋ ์ด์ ์์ฑ ์ด๊ฐ ๋ถํฌ๊ฐ ํต๊ณ์ ์ผ๋ก ์ ์ฌํ๊ฒ ์ผ์นํจ์ ํ์ธํ์๊ณ , ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ๊ฐ์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฌํ๊ณ ์์ฑํ์ฌ ์ ์ฑ ๊ฐํํ์ต์ ํ์ฉํ ์ ์์๋ค.
FlexiTac ์ด๊ฐ ์ผ์ ์ค๊ณ: VT-Refine์์ ์ฌ์ฉํ ์ ์ฐํ ์ด๊ฐ์ผ์(FlexiTac)์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ ๊ทธ๋ฆผ์ด๋ค. ์์ ์/ํ๋ถ FPC์ธต(0.2mm) ์ฌ์ด์ ์๋ ฅ ๊ฐ์ ํ๋ฆ(0.1mm)์ด ๋์ฌ ์์ผ๋ฉฐ, ์ผ์ ํจ๋ ์ ์ฒด ํฌ๊ธฐ๋ ์ฝ ๊ฐ๋ก 6.4cm, ์ธ๋ก 2.5cm์ด๋ค. ์ด๋ฌํ ์ผ์ 4๊ฐ๊ฐ ๋ก๋ด ์ํ ๊ทธ๋ฆฌํผ์ ์๊ฐ๋ฝ๋ค์ ๋ถ์ฐฉ๋์ด, ์ ์ด ์ ๊ฐ ์ง์ ์ ์ ๊ท๋ ฅ ๋ณํ๋ฅผ 384๊ฐ ์ฑ๋์ ์ค์๊ฐ ์ ํธ๋ก ํ๋ํ๋ค. ํด๋น ์ ํธ๋ ์๋ฎฌ๋ ์ดํฐ์์๋ ๋์ผํ ๋ถํด๋ฅ์ผ๋ก ์์ฑ๋๋ฉฐ, ํ์ฒ๋ฆฌ๋ฅผ ํตํด ์ด๊ฐ pointcloud ํํ๋ก ๋ณํ๋์ด ์๊ฐ ์ ๋ณด์ ๊ฒฐํฉ๋๋ค.
- ๊ฐํํ์ต์ ํตํ ์ ์ฑ ํ์ธํ๋: ์๋ฎฌ๋ ์ดํฐ ๋ด ๋์งํธ ํธ์ ํ๊ฒฝ์์๋ ์๊ธฐ ํ์ต๋ ํ์ฐ ์ ์ฑ ์ ์ด๊ธฐํ ๊ฐ์ผ๋ก ํ์ฉํ์ฌ, ์ ์ฑ ๊ฒฝ์ฌ ๊ธฐ๋ฐ์ ๊ฐํํ์ต(RL)์ผ๋ก ์ถ๊ฐ ํ๋ จ์ ์งํํ๋ค. ๋ ผ๋ฌธ์์๋ ํ์ฐ ์ ์ฑ ์ ์๊ฐ์ ๊ฐ ๊ณผ์ ์ MDP๋ก ํด์ํ์ฌ DPPO(Diffusion Policy Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋๋ฐ, ๊ฐ๋จํ ๋งํด ๋ฐฐ์นํ ๋ณ๋ ฌ ํ๊ฒฝ์์ ๋ค์์ ๋ก๋ด์ด ๋์์ ์กฐ๋ฆฝ ์์ ์ ์๋ํ๋ฉด์ ์ฑ๊ณต ์ฌ๋ถ(์์ฑ ์ ๋ณด์ 1)๋ฅผ ๊ฐ์ง๊ณ ์ ์ฑ ๋ง์ ์ ๋ฐ์ดํธํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ๋ฐฐ์ฐ(Actor) ์ ๊ฒฝ๋ง์ ์ฌ์ ํ์ต๋ ํ์ฐ ์ ์ฑ ๊ฐ์ค์น๋ฅผ ์ด์ด๋ฐ๊ณ , ๋น๋์นญ ํ์ต์ ์ํด ๋นํ๊ฐ(Critic)๋ง์๋ ๋ก๋ด ์ํ์ ์ ์ฐจ์ ์ ๋ณด(๋ฌผ์ฒด ์์น ๋ฑ)๊ฐ ์ฃผ์ด์ ธ ํจ์จ์ ์ผ๋ก ๊ฐ์น๋ฅผ ํ๊ฐํ๋ค. Sparseํ ์ฑ๊ณต/์คํจ ๋ณด์์๋ ๋ถ๊ตฌํ๊ณ , ์ด๋ฏธ ์ด๋ ์ ๋ ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ ์ถ๋ฐ์ ์ผ๋ก ์ผ๊ธฐ์ ํ์ต์ด ์ํํ๋ฉฐ, ์์ญ๋ง ํ์ ๊ฐ์ ์กฐ๋ฆฝ ์๋๋ก ๋ฏธ์ธ ์กฐ์ ๋ ์ ์ฑ ์ ์ป์ ์ ์์๋ค. ์ด ๋๊ท๋ชจ ๋ณ๋ ฌ RL ํ์ธํ๋ ๊ณผ์ ์ ์์ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ์ ์ฑ ์ด ํด๋ด์ง ๋ชปํ๋ ๋ง์ง๋ง ์ ๋ฐ๋ฆฌ๋ฏธํฐ์ ์ ๋ฐ ์กฐ๋ฆฝ ๋์์ ์๋์ผ๋ก ํฐ๋ํ๊ฒ ๋ง๋๋ ํต์ฌ ๋จ๊ณ์ด๋ค.
- ์ค์ธ๊ณ ๋ณต๊ท ๋ฐ ํ๋ฃจํ ๊ฐ์ : ๊ฐํํ์ต์ผ๋ก ํฅ์๋ ์ ์ฑ ์ ์ต์ข ์ ์ผ๋ก ๋ค์ ์ค์ ๋ก๋ด์ ํ์ฌ๋์ด ํ ์คํธ๋๋ค. ์ด๋ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค์ ์ฐจ์ด(์: ๊น์ด ์นด๋ฉ๋ผ pointcloud ์ก์, ๋ก๋ด ์ ์ด๊ธฐ์ ๋ฏธ์ธ ์ค์ฐจ ๋ฑ)๋ก ์ฑ๋ฅ ์ ํ๊ฐ ์ผ๋ถ ๋ฐ์ํ ์ ์์ง๋ง, VT-Refine์์๋ ์ด๊ฐ์ผ์์ ๋ฎ์ ๋๋ฉ์ธ ๊ฒฉ์ฐจ(low-gap tactile modality)์ ํฌ์ธํธ ๊ธฐ๋ฐ ํํ ๋๋ถ์ ์คโ๊ฐ์ ์ ํ ์ ์ฑ๊ณต๋ฅ 5~10% ํ๋ฝ, ๊ฐ์โ์ค ์ ํ ์ 0~5% ๋ฏธ๋ง์ ๊ฒฝ๋ฏธํ ์ฑ๋ฅ ์ ํ๋ง ๊ด์ฐฐ๋์๋ค. ๋ฐ๋ฉด ์๋ฎฌ๋ ์ด์ ์ RL ํ์ธํ๋์ผ๋ก ์ป์ ์ฑ๊ณต๋ฅ ํฅ์์ด 30%ํฌ์ธํธ ์ด์์ ๋ฌํ๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ์ ์ด ์์ค์ ์ ์ฒด ์ฑ๋ฅ ๊ฐ์ ํจ๊ณผ์ ๋นํด ๋ฌด์ํ ์์ค์ด์๋ค๊ณ ๋ณด๊ณ ๋๋ค. ์์ฝํ๋ฉด, VT-Refine์ ๋ฐฉ๋ฒ ๋ก ์ ์ค์ธ๊ณ ์๋ ํ์ต โ ๊ฐ์ํ๊ฒฝ ๋๋ ๊ฐํ โ ์ค์ธ๊ณ ๊ฒ์ฆ์ ์ํ ๊ณ ๋ฆฌ๋ฅผ ํตํด, ํ์ค ๋ฐ์ดํฐ ํ๋์ ๋น์ฉ๊ณผ ์ํ์ ์ค์ด๋ฉด์๋ ์ต์ข ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๋ ์ฐฝ์ ์ธ ๋ฐฉ์์ด๋ผ ํ ์ ์๋ค.
์คํ ์ค๊ณ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์์๋ 5๊ฐ์ ๋์ด๋ ๋์ ์ํ ์กฐ๋ฆฝ ์์ ์ ์ ์ ํ์ฌ ์ ์ํ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ์๋ค. ์คํ์ ์ฌ์ฉ๋ ์์ ๋ค์ AutoMate ๋ฐ์ดํฐ์ ์ ํฌํจ๋ ๊ณผ์ ๋ค๋ก์, ๊ฐ๊ธฐ ๋ค๋ฅธ ํ์์ ํ๋ฌ๊ทธ-์์ผ ์์ ์์์ผ๋ก ์ง์ด์ ๊ณต์ค์์ ๊ฒฐํฉ(in-air insertion)ํด์ผ ํ๋ ๋ฌธ์ ๋ค์ด๋ค. ์๋ฅผ ๋ค์ด ์ก๊ฐ ๊ธฐ๋ฅ ๋ชจ์ ๋ํธ-๋ณผํธ ๊ฒฐํฉ, ์นด๋ฉ๋ผ ๋ ์ฆ ๋ง์ดํธ์ ์ ์ฌํ ๋ฒ ์๋ท ๊ฒฐํฉ, ์ํตํ ์ถ์ ์ฌ๋ฆฌ๋ธ์ ๋ผ์ฐ๊ธฐ, ์ ๊ธฐ ์ปค๋ฅํฐ ์ฝ์ ๋ฑ ๋ค์ํ ํํ์ ์ ๋ฐ ์ ํฉ ์์ ์ด ํฌํจ๋์๋ค. ์ด๋ฌํ ์์ ๋ค์ ๊ฒฐํฉ ์ ์์ผ๊ฐ ๊ฐ๋ ค์ง๊ณ ๋ฏธ์ธํ ์ค์ฐจ์๋ ์กฐ๋ฆฝ์ด ๋ถ๋ฐ๋๊ธฐ ์ฌ์, ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ์ฑ๊ณตํ๊ธฐ ์ด๋ ต๊ณ ํ๋ถํ ์ด๊ฐ ํ์ฉ์ด ํ์์ ์ธ ๊ณผ์ ๋ค์ด๋ค.
์คํ ํ๊ฒฝ ๊ตฌ์ฑ: ์ฐ๊ตฌ์ง์ ์๋ก ๋ค๋ฅธ ๋ ๋ก๋ด ํ๋ซํผ์์ ์คํ์ ์ํํ์ฌ ์ ์ ๊ธฐ๋ฒ์ ๋ฒ์ฉ์ฑ๋ ํ๊ฐํ์๋ค. ํ๋๋ ์ฑ ์ ์์ 6์์ ๋ ๋ก๋ดํ 2๋๋ฅผ ๋ฐฐ์นํ ํ ์ด๋ธํ ์ํ ๋ก๋ด์ผ๋ก, ์ํ WidowX ์๊ณผ ์ํํธ ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ๋ค. ๋ค๋ฅธ ํ๋๋ ์ฌ๋ ์๋ฐ์ ์ ๋ชจ์ฌํ ์ธ๋ฏธ-ํด๋จธ๋ ธ์ด๋ ์ํ ๋ก๋ด์ผ๋ก, 7์์ ๋ Kinova Gen3 ๋ ๋์ Robotiq 2F-140 ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ ๋ณด๋ค ํฌ๊ณ ๋ฌด๊ฑฐ์ด ์์คํ ์ด๋ค. ๋ ํ๋ซํผ ๋ชจ๋ ๊ฐ ๊ทธ๋ฆฌํผ์ ์๊ฐ๋ฝ 4๊ฐ ๋ฉด์ FlexiTac ์ด๊ฐ์ผ์๊ฐ ๋ถ์ฐฉ๋์๊ณ , ์ธํ RealSense D455 ๊น์ด ์นด๋ฉ๋ผ๋ก๋ถํฐ ๋ก๋ด ์ค์ฌ ์์ ์ ์ ๊ตฐ ์๊ฐ์ ๋ณด๋ฅผ ์ ๋ ฅ๋ฐ์๋ค. ์ฌ๋ ์์ฐ ๋ฐ์ดํฐ๋ Meta Quest 2 VR ์ฅ์น๋ฅผ ์ด์ฉํ ์๊ฒฉ ์กฐ์์ผ๋ก ์์ง๋์๋๋ฐ, ์ฌ๋์ด ๊ฐ์ํ์ค ํธ๋์ปจํธ๋กค๋ฌ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ๋ผ์ฐ๋ ๋์์ ํ๋ฉด ๋ก๋ด ํ์ด ์ด๋ฅผ ๋ชจ๋ฐฉํ๋๋ก ์ ์ดํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ๊ฒ ๊ณผ์ ๋น 30ํ์ ์์ฐ์ ๋ชจ์ ์์ ์ค๋ช ํ Stage 1 ํ์ฐ ์ ์ฑ ํ์ต์ ์งํํ ํ, ๋์ผํ ๊ณผ์ ๋ฅผ ๋ชจ์ฌํ ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ์์ Stage 2 RL ํ์ธํ๋์ ๊ฑฐ์ณ ์ ์ฑ ์ ์ต์ข ์์ฑ์์ผฐ๋ค. ์๋ฎฌ๋ ์ดํฐ์์๋ ๋งค ์ํญ๋ง๋ค ์๋ฐฑ ๋์ ๋ณ๋ ฌ ๋ก๋ด์ด ์์ ์ ๋ฐ๋ณต์๋ํ๋ฉด์ ํ์ต์ด ์ด๋ฃจ์ด์ ธ, ํ์ค์์๋ ๋ถ๊ฐ๋ฅํ ๋๋์ ์ํ์ฐฉ์ค๋ฅผ ์์ ํ๊ฒ ๊ฒฝํํ๊ฒ ํ๋ค. ๋ง์ง๋ง์ผ๋ก ์ด๋ ๊ฒ ์ป์ด์ง ์ ์ฑ ์ ๋ ์ค์ ๋ก๋ด ํ๋ซํผ์ ์ด์ํ์ฌ ์ฑ๊ณต๋ฅ (success rate) ๋ฐ ์กฐ๋ฆฝ ์ ๋ฐ๋๋ฅผ ์ธก์ ํ์๋ค. ๊ฐ ์์ ๋ง๋ค ์์ญ ํ์ ์๋๋ฅผ ํตํด ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๊ธฐ๋กํ๊ณ , ๋ฐฉ๋ฒ ๊ฐ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค.
๋น๊ต ๋์ ๋ฐ ํ๊ฐ ์งํ: ๊ฒ์ฆ์ ์ํด ๋ค ๊ฐ์ง ๋ฐฉ์์ ์ ์ฑ ์ด ๋น๊ต๋์๋ค. (a) Pre-Train ์ ์ฉ: ์ฌ๋ ์์ฐ๋ง์ผ๋ก ํ์ต๋ ํ์ฐ ์ ์ฑ (ํ์ธํ๋ ์์ด ๋ฐ๋ก ์คํ). (b) Fine-Tune (w/ Pre-Train): ์์ฐ์ผ๋ก ํ์ต๋ ์ ์ฑ ์ ์ด๊ธฐํ๋ก ํ์ฌ ์๋ฎฌ๋ ์ดํฐ์์ RL ํ์ธํ๋๊น์ง ๊ฑฐ์น ์ต์ข ์ ์ฑ (์ ์ ๋ฐฉ๋ฒ). (c) Fine-Tune (w/o Pre-Train): ์์ฐ ๋ฐ์ดํฐ ์์ด ์ฒ์๋ถํฐ RL๋ก๋ง ํ์ตํ ์ ์ฑ . (d) ์๊ฐ ์ ์ฉ ์ ์ฑ : ์์ (a)์ (b)์ ๋ํ์ฌ ์ด๊ฐ ์ ๋ ฅ์ ์ฌ์ฉํ์ง ์๊ณ ์นด๋ฉ๋ผ ์์๋ง์ผ๋ก ํ์ต์ํจ ๋์ ์คํ. ์ด๋ค์ ๊ณง ๊ธฐ์กด์ Vision-only BC ๋ฐ Vision-only RL ๋ฐฉ๋ฒ์ ํด๋นํ๋ค. ๋ชจ๋ ์ ์ฑ ์ ๋ํด ์กฐ๋ฆฝ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ 1/0์ ๋ณด์์ผ๋ก ์ ์ํ์ฌ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ๊ณ , ์ถ๊ฐ๋ก ์กฐ๋ฆฝ์ด ๊ฑฐ์ ์๋ฃ๋์์ผ๋ ๋ง์ง๋ง ์ ๋ฐ๋ฆฌ๋ฏธํฐ ๊ฐ๊ฒฉ์ ์ขํ์ง ๋ชปํ ๊ฒฝ์ฐ ๋ฑ์ ๋ถ์ํ์ฌ ์ ์ฑ ์ ์ ๋ฐ๋๋ฅผ ํ๊ฐํ์๋ค.
์คํ ๊ฒฐ๊ณผ: ์ ๋ฐ์ ์ธ ๊ฒฐ๊ณผ๋ ์ ์ํ VT-Refine ๋ฐฉ๋ฒ์ ๋๋ ทํ ์ฐ์์ฑ์ ๋ณด์ฌ์ฃผ์๋ค.
- ์ฒซ์งธ, RL ํ์ธํ๋์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ก๋๋ฐ, ์๋ฎฌ๋ ์ด์ ์์ ๊ฐํํ์ต์ ๊ฑฐ์น ์ ์ฑ ์ ๊ฑฐ์น์ง ์์ ์ ์ฑ ์ ๋นํด ํ์ค ์ฑ๊ณต๋ฅ ์ด ํฐ ํญ์ผ๋ก ํฅ์๋์๋ค. ์๋ฅผ ๋ค์ด ํ ์ด๋ธํ ์ํ๋ก๋ด ์คํ์์, ์ด๊ฐ์ ํฌํจํ ์ ์ฑ ์ ๊ฒฝ์ฐ ์์ฐ๋ง์ผ๋ก ๋ฌ์ฑํ ์ฑ๊ณต๋ฅ ์ด ๊ณผ์ ์ ๋ฐ๋ผ 12~54% ์์ค์ด์์ผ๋, RL ํ์ธํ๋ ํ์๋ 76~98%๊น์ง ์์นํ์๋ค. ํฅ์ ํญ์ ๊ณผ์ ์ ๋ฐ๋ผ +30%p ์ด์์ ๋ฌํ์ผ๋ฉฐ, ํนํ ๊ฒฐํฉ ๊ฐ๊ฒฉ์ด ๋งค์ฐ ์ด์ดํ ๊ณ ์ ๋ฐ ์์ ์ผ์๋ก ํ์ธํ๋ ์ ํ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ์ปธ๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์์ฐ ๋ฐ์ดํฐ ์์ด ์ฒ์๋ถํฐ RL๋ก ํ์ตํ ์ ์ฑ ์ ์ด๋ค ๊ฒฝ์ฐ๋ ์ฑ๊ณต์ ์ธ ์กฐ๋ฆฝ์ ํด๋ด์ง ๋ชปํด ์ฑ๊ณต๋ฅ 0%์ ๋จธ๋ฌผ๋ ๋๋ฐ, ์ด๋ ์ด๊ธฐ ์์ฐ์ ํตํด ํ์ต์ ์์ ํํ๋ ๋จ๊ณ๊ฐ ํ์์ ์์ ๋ฐฉ์ฆํ๋ค. ๋ค์ ๋งํด ์ฌ๋ ๋ฐ๋ชจ์ ๊ธฐ๋ณธ๊ธฐ๊ฐ ์๋ค๋ฉด, ๋ณต์กํ ์ํ ์กฐ๋ฆฝ์ ์์ ํ ๊ฐํํ์ต๋ง์ผ๋ก๋ ํ์ํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค.
- ๋์งธ, ์ด๊ฐ ์ ๋ณด์ ๊ธฐ์ฌ๊ฐ ์ ๋์ ์ผ๋ก ํ์ธ๋์๋ค. ์ด๊ฐ์ ํฌํจํ ์๊ฐ-์ด๊ฐ ์ ์ฑ ์ ์ด๊ฐ์ ๋ฐฐ์ ํ ์๊ฐ ์ ์ฉ ์ ์ฑ ์ ๋นํด ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์์ปจ๋ ์๊ฐ ์ ์ฉ ์ ์ฑ ์ ํ๋ฌ๊ทธ์ ์์ผ์ ๋ฏธ์ธํ ์ ์ด ๋จ์๋ค์ ์ธ์งํ์ง ๋ชปํด ๋ ๋ฌผ์ฒด๋ฅผ ๋ง๋ฌผ๋ฆฌ๋ ๊ณผ์ ์์ ๊ณต์ค์์ ๋จธ๋ญ๊ฑฐ๋ฆฌ๊ฑฐ๋(hovering) ๊ฐ๋ ๋ถ์ผ์น๋ก ์ฝ์ ์ ์๋ํ๋ค ์คํจํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค. ๋ฐ๋ฉด ์ด๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ฒฐํฉ๋ถ์ ๋ฟ๋ ์๊ฐ์ ํ ๋ณํ๋ฅผ ๊ฐ์งํด ์ฆ๊ฐ์ ์ผ๋ก ๋ฏธ์ธ ์์น๋ฅผ ์กฐ์ ํจ์ผ๋ก์จ ๋๊น์ง ๊ฒฐํฉ์ ์๋ฃํ๋ ๋น์จ์ด ๋์๋ค. ์๋ฎฌ๋ ์ดํฐ ํ๊ฐ์์ ์ด๊ฐ ์ ์ฑ ์ ์ด๊ธฐ ํ์ต๋จ๊ณ๋ถํฐ ์๊ฐ ์ ์ฉ๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ๋ก ์์ํด ์ต์ข ์๋ ๋ ๋์ ์ ํ๋๋ก ์๋ ดํ์๋๋ฐ, ์ด๋ ์ด๊ฐ์ด ์ด๊ธฐ ํ์ต ๊ฐ์ด๋์ ์ต์ข ๋ฏธ์ธ ์กฐ์ ๋ชจ๋์๋์์ ์ฃผ์์์ ์์ฌํ๋ค. ์์ฝํ์๋ฉด, โ์ด๊ฐ์ ์ฌ์ฉํ ์ฐ๋ฆฌ ์ ์ฑ ์ ์์๋ ๋๋ ๋ ์ ๋ฐํ๋คโ๋ ๊ฒ์ด ์ ์๋ค์ ์ค๋ช ์ด๋ค.
- ์ ์งธ, ์ธ๋ถ ์ฑ๋ฅ ๋ถ์ ๋ฐ ๋ด์ฑ ํ๊ฐ๋ ์ค๋๋ ฅ ์๊ฒ ์ ์๋์๋ค. ์์ฐ ๋ฐ์ดํฐ์ ์์ ๋ฌ๋ฆฌํด๋ณธ ์คํ์์, 10๊ฐ ์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ๊ฑฐ์ ์ฑ๊ณต๋ฅ 0%์ ๊ทธ์ณค์ผ๋ RL ํ์ธํ๋ ํ ์ฝ 30%๊น์ง ํฅ์๋์๊ณ , 30๊ฐ vs 50๊ฐ ์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ๋ ๋ค ํ์ธํ๋ ํ ๊ฑฐ์ ์๋ฒฝ์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ์์ฐ์ 30๊ฐ์์ 50๊ฐ๋ก ๋๋ฆฌ๋ ๊ฒ์ ์ด๊ธฐ ์ฑ๊ณต๋ฅ ์ ์ฝ๊ฐ ๊ธฐ์ฌํ์ง๋ง ๊ฒฐ์ ์ ์ด์ง ์์์ผ๋ฉฐ, ๊ฒฐ๊ตญ ๋ณ๋ชฉ์ ์ถฉ๋ถํ ๋ฐ๋ชจ ์์ง๋ณด๋ค RL์ ํตํ ๋ฏธ์ธ๋์ ํ์ต์ ์์๋ค๊ณ ๋ถ์๋๋ค. ๋ํ ์ ์ฑ ์ ๊ฐ์ธ์ฑ(robustness) ์ธก๋ฉด์์, ์ ์๋ค์ ์์์ ์ด๊ธฐ ๋ฌผ์ฒด ๋ฐฐ์น ๋ณํ(์ฝ ยฑ3cm ๋ฒ์)๋ ์ก๋ ๊ณผ์ ์์์ ๋ฏธ๋๋ฌ์ง ๋ฑ์ด ๋ฐ์ํด๋ ์ด๊ฐ ๊ธฐ๋ฐ ํ์ธํ๋ ์ ์ฑ ์ ์์ฐ์ค๋ฝ๊ฒ โ๋ฌผ์ฒด๋ฅผ ํ๋ค๋ฉฐ ๋ค์ ๋ง์ถ๋(wiggleand-dock)โ ๋์์ ์ํํ๋ฉฐ ์ฑ๊ณต์ ์ด๋ฅด๋ ๊ฒ์ ๊ด์ฐฐํ๋ค. ์ด๋ฌํ ๋์์ ์ฌ๋์ด ์ด๊ฐ์ผ๋ก ์ฝ์ ์ ์๋ํ ๋ ๋ณด์ด๋ ์ ๋ต๊ณผ ์ ์ฌํ๋ฉฐ, ์ด๊ธฐ ๋ฐ๋ชจ์๋ ์์๋ ๊ฒ์ด RL ๋จ๊ณ๋ฅผ ํตํด ์๋ฐ์ ์ผ๋ก ํ์ต๋ ํ๋ ํจํด์ด์๋ค๊ณ ํ๋ค. ๋ฐ๋ฉด ์ด๊ฐ์ด ์๋ ์ ์ฑ ์ ์ฝ์ ์ด ์ด๊ธ๋ฌ์ ๋ ๋ฌด์์ ํ์ ์ค ๋ฐ๋ค ์คํจํ๊ฑฐ๋ ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ๋ ๋ฑ ์ฌ์ธํ ๋์์ ํ์ง ๋ชปํ๋ค. ๋์ผ๋ก, ๋ ๋ก๋ด ํ๋ซํผ ๊ฐ ์ฑ๋ฅ ๋น๊ต์์๋ ๋์ฒด๋ก ์ผ๊ด๋ ํฅ์ ์ถ์ด๊ฐ ๋ํ๋ฌ์ผ๋, ํ ์ด๋ธํ ์ํ ๋ก๋ด์ ๋นํด Kinova ๊ธฐ๋ฐ ํฐ ๋ก๋ด์์๋ ์ ๋ ์ฑ๊ณต๋ฅ ์ด ๋ค์ ๋ฎ์๋ค. ์ด๋ ํฐ ๋ก๋ด์ ์ ์ด ๋ฏธ์ธ ์ ํ๋ ํ๊ณ๋ ์นด๋ฉ๋ผ ์์ผ ๋ฑ์ ์ฐจ์ด๋ก ์ธํ ๊ฒ์ด๋ฉฐ, ๊ทธ๋ผ์๋ ์ด๊ฐ ๊ธฐ๋ฐ ํ์ธํ๋์ผ๋ก ์ป์ ๊ฐ์ ์จ์ ๋ ํ๋ซํผ์์ ์ ์ฌํ์ฌ ์ ์ ๊ธฐ๋ฒ์ ์ผ๋ฐ์ฑ์ ์ ์ฆํ์๋ค.
์ข ํฉํ๋ฉด, ์คํ ์ค๊ณ๋ ์ ์ ํ ๋์ด๋์ ๊ณผ์ ๋ฅผ ์ ๋ณํ๊ณ , ๋ค์ํ ํต์ ์คํ(์ /๋ฌด ์ด๊ฐ, ์ /๋ฌด ํ์ธํ๋, ๋ฐ๋ชจ ์๋ ๋ณํ, ๋ก๋ด ํ๋ซํผ ๋ณํ ๋ฑ)์ ํตํด ์ ์ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๋ค๊ฐ๋๋ก ์ ์ฆํ์๋ค. ์ฑ๊ณต๋ฅ ๊ณผ ๋์ ํจํด์ ๋ํ ์ ๋/์ ์ฑ ๋ถ์์ด ๋ชจ๋ ์ ์๋์ด ์ค๋๋ ฅ์ ๋์์ผ๋ฉฐ, ํนํ โ์ด๊ฐ์ ์ฌ์ฉํ ์๋ฎฌ๋ ์ด์ ํ์ธํ๋์ด ์๋ค๋ฉด ๋ถ๊ฐ๋ฅํ์ ์กฐ๋ฆฝ์ ๊ฐ๋ฅํ๊ฒ ํ๋คโ๋ ์ฃผ์ฅ์ ์คํ ๋ฐ์ดํฐ๋ก ๋ท๋ฐ์นจํ ์ ์ด ๋๋ณด์ธ๋ค.
๊ฒฐ๋ก
VT-Refine๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ๊ฒฐํฉํ ์ํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ํ ๋จ๊ณ ๋์ฝ์ ์ด๋ฃฌ ์ฐ๊ตฌ๋ก ํ๊ฐ๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฌ๋์ด ์๋์ ๊ฐ๊ฐ์ผ๋ก ์ํํ๋ ์ ๋ฐ ์กฐ๋ฆฝ์ ๋ก๋ด์ด ํ์ตํ๋๋ก ํ๊ธฐ ์ํด, ์ค์ -๊ฐ์ ํ๊ฒฝ์ ์๋ณตํ๋ ์๋ก์ด ํ์ต ์ฌ์ดํด์ ์ ์ํ๋ค. ์์์ ์ค์ ์์ฐ์ผ๋ก ํ์ต๋ ์ ์ฑ ์ ๋๊ท๋ชจ ๊ฐ์ ๋ฐ์ดํฐ๋ก ๊ฐํํ์ฌ ํ์ค์ ๋ค์ ์ ์ฉํ๋ ์ด ์ ๊ทผ๋ฒ์, ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์๋ฎฌ๋ ์ดํฐ ๊ฐ ๊ฒฉ์ฐจ๋ผ๋ ๋ ๋์ ๋ฅผ ๋ชจ๋ ํด๊ฒฐํ ์ ์์ ์์๊ฐ ํฌ๋ค. ๋ํ ์ด๊ฐ์ผ์ ํ๋์จ์ด ๊ฐ๋ฐ๋ถํฐ ํํ ํตํฉ, ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ, ์คํ ๊ฒ์ฆ๊น์ง ์ ์คํ(full-stack)์ ์์ฐ๋ฅด๋ ํตํฉ ์ฐ๊ตฌ๋ก์, ํฅํ ์ ์ฌํ ๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ํ์ต์ ์ข์ ์ฒญ์ฌ์ง์ ์ ์ํ๋ค. ๋ฌผ๋ก ์๋ฒฝํ ์์ค์ ์๋์ด์, ํ์ฌ ๋ฐฉ๋ฒ๋ ์ผ๋ถ ์คํจ ์ผ์ด์ค(์: ํน์ ๊ฐ๋๋ก ์ฝ์ ์ด ์ด๋ ค์ด ๊ฒฝ์ฐ ๋ฑ)๊ฐ ์กด์ฌํ๋ฉฐ ์ฌ์ ํ ์ฌ์ ์์ฐ ๋ฐ์ดํฐ์ ์ฑ๋ฅ์ด ์์กดํ๋ ํ๊ณ๊ฐ ์๋ค. ๊ทธ๋ฌ๋ ์ ์๋ค์ด ๊ณต๊ฐํ FlexiTac ์ผ์์ ์๋ฎฌ๋ ์ด์ ๋ชจ๋์ ๊ด๋ จ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ํ์ฉ ๊ฐ์น๊ฐ ๋๊ณ , ํฅํ ์์ฐ ์์ด๋ ์์ฒด ํ์์ผ๋ก ํ์ตํ๋ ์์จ์ฑ์ด๋ ๋ ๋ณต์กํ ์กฐ๋ฆฝ ์๋๋ฆฌ์ค๋ก์ ํ์ฅ ๋ฑ ๋์ ๊ณผ์ ๋ค์ด ๋จ์ ์๋ค. ๊ทธ๋ผ์๋ ๊ฒฐ๋ก ์ ์ผ๋ก, VT-Refine๋ โ์ด๊ฐ์ด ์์ด์ผ ๋ง์ง๋ง 2mm๋ฅผ ํด๋ผ ์ ์๋คโ๋ ๊ตํ์ ๋ก๋ด ํ์ต์ ๋ช ํํ ๊ฐ์ธ์ํจ ์ฑ๊ณต์ ์ธ ์ฌ๋ก๋ก ๋จ์ ๊ฒ์ด๋ค.