๐Twisting Lids Off๋ฆฌ๋ทฐ
- ์๋ฎฌ๋ ์ด์ ์์ ์ฌ์ธต ๊ฐํ ํ์ต(RL)์ผ๋ก ํ๋ จ๋ ์ ์ฑ ์ ํตํด ๋ก๋ด์ด ๋ ๊ฐ์ ๋ค์งํ ์์ผ๋ก ๋ค์ํ ๋ฌผ์ฒด์ ๋๊ป์ ๋๋ ค ์ฌ๋(lid-twisting) ์์ ์ ์ค์ ์ธ๊ณ์์ ์ ๋ก-์ท(zero-shot)์ผ๋ก ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- ํต์ฌ ๊ธฐ์ ๋ก๋ ์ค์ ์ญํ์ ๋ชจ๋ฐฉํ๋ ๋ธ๋ ์ดํฌ ๊ธฐ๋ฐ(brake-based) ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง, ํจ์จ์ ์ธ ์ค์๊ฐ ์ธ์์ ์ํ ํฌ์ ๊ฐ์ฒด ํํ(sparse object representation), ๊ทธ๋ฆฌ๊ณ ์์ฐ์ค๋ฌ์ด ๋์์ ์ ๋ํ๋ ํคํฌ์ธํธ ๊ธฐ๋ฐ(keypoint-based) ์ ์ด ๋ณด์(contact reward)์ด ์์ต๋๋ค.
- ์ ์๋ ์์คํ ์ ๋ค์ํ ๋ชจ์, ํฌ๊ธฐ ๋ฐ ์ฌ์ง์ ๊ฐ์ ์ฉ ๋ฌผ์ฒด์ ๋ํ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ธ๋ถ ๊ต๋์ ๋ํ ๊ฐ๊ฑดํจ์ ์ ์ฆํ์ผ๋ฉฐ, ์ฌ์ง์ด ๋๊ป์ ์์ ํ ์ ๊ฑฐํ๋(lid-removal) ์๋ก์ด ์์ ๊น์ง ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค.
Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋ ๊ฐ์ ๋ค์ง(multi-fingered) ๋ก๋ด ์์ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ฌผ์ฒด์ ๋๊ป์ ๋๋ฆฌ๊ฑฐ๋ ์ ๊ฑฐํ๋ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ์ฌ-ํฌ-๋ฆฌ์ผ(sim-to-real) ๊ฐํ ํ์ต(RL) ์์คํ ์ ์ ์ํ๋ค. ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ๋จ์ผ ์ ์ฑ ์ด ์ค์ ํ๊ฒฝ์ ๋ค์ํ ๋ฌผ๋ฆฌ์ ํน์ฑ(๋ชจ์, ํฌ๊ธฐ, ์ง๋, ์์, ์ฌ๋ฃ ๋ฑ)์ ๊ฐ์ง ์๋ก์ด ๋ฌผ์ฒด๋ก ์ ๋ก์ท(zero-shot) ์ ์ด๋๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ๋ค์ง ์์ ์์คํ ์์๋ ์ ๋ก ์๋ ์ฑ๊ณผ์ด๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์์ ์กฐ์์ ๋์ ์ฐจ์์ฑ๊ณผ ์ ์ด์ด ๋น๋ฒํ ์์ ์ ๋ณธ์ง์ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋ฐ์ํ๋ ๊ธฐ์กด์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ฃผ์ ํต์ฐฐ๋ ฅ์ ์ ์ํ๋ค.
๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง: ๋๊ป๊ณผ ๋ชธ์ฒด ์ฌ์ด์ ์ ์ ๋ง์ฐฐ์ ์ ํํ๊ฒ ์๋ฎฌ๋ ์ด์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค๋ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์ โ๋ธ๋ ์ดํฌ ๋งํฌ(Brake Link)โ ๊ธฐ๋ฐ์ ๊ฐ์ฒด ๋ชจ๋ธ์ ๋์ ํ๋ค. ์ด ๋ชจ๋ธ์ ๋ฆฌ๋ณผ๋ฃจํธ ์กฐ์ธํธ(revolute joint)์ ๋์ฌ์ฐ ๊ตฌ์กฐ๋ก ์ฐ๊ฒฐ๋ ๋ ๊ฐ์ ๊ฐ์ฒด(๋ชธ์ฒด์ ๋๊ป) ์ฌ์ด์ ํ๋ฆฌ์ฆํ ์กฐ์ธํธ(prismatic joint)๋ฅผ ํตํด ์ง์์ ์ผ๋ก ์๋ ฅ์ ๊ฐํ๋ ํน๋ณํ โ๋ธ๋ ์ดํฌ ๋งํฌโ๋ฅผ ํฌํจํ๋ค. ์ด๋ ๋๊ป์ด ๋์ฌ๋ก ์กฐ์ฌ์ง ๊ฒ๊ณผ ์ ์ฌํ๊ฒ ์ธ๊ณต์ ์ผ๋ก ๋ง์ฐฐ๋ ฅ์ ์์ฑํ์ฌ, ๋๊ป๊ณผ ๋ชธ์ฒด ์ฌ์ด์ ์๋์ ์ธ ํ์ ์ ๋ฐฉ์งํ๋ค. ์ด ์ค๊ณ๋ ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ์ ์งํ๋ฉด์ ์ค์ ๋ฌผ๋ฆฌ ์ญํ์ ๋ํ ๋์ ์ถฉ์ค๋๋ฅผ ์ ๊ณตํ์ฌ ํจ์จ์ ์ธ ์ ์ฑ ํ์ต๊ณผ ์ฑ๊ณต์ ์ธ ์ฌ-ํฌ-๋ฆฌ์ผ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์ธ์ง(Perception): ๋ฏธ์ธํ ์ ์ด ์กฐ์์ ์ ๋ฐํ ์ง๊ฐ ์ ๋ณด๊ฐ ํ์ํ ๊ฒ์ด๋ผ๋ ์ด๊ธฐ ๊ฐ์ค๊ณผ ๋ฌ๋ฆฌ, ๋ณธ ์ฐ๊ตฌ๋ โ์ค๋ธ์ ํธ ๋ถํ (object segmentation)โ ๋ฐ โํธ๋ํน(tracking)โ ๋๊ตฌ(
Segment Anything Model (SAM)
๋ฐXMem
)์์ ์ถ์ถํ โ๋ ์ ์ ํฌ์(sparse) ๊ฐ์ฒด ํํโ๋ง์ผ๋ก๋ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค. ์ค์ ํ๊ฒฝ์์ RGBD ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด ๋ง์คํฌ์ ์ค์ฌ์ ์ด๋ฏธ์ง ํ๋ฉด์์ ์ป๊ณ , ๋ ธ์ด์ฆ ์๋ ๊น์ด ์ ๋ณด๋ฅผ ํตํด 3D ๊ฐ์ฒด ํคํฌ์ธํธ(keypoint)๋ฅผ ์ถ์ ํ๋ค. ์ด๋ฌํ ์ต์ํ์ ์ง๊ฐ ์ ๋ณด์ โ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)โ ๊ธฐ๋ฒ์ ํ์(occlusion) ๋ฐ ์นด๋ฉ๋ผ ๋ ธ์ด์ฆ์ ๊ฐ์ธํ ์ ์ฑ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ํนํ, ๋ฌผ์ฒด ์์น ๊ด์ธก ๋ ธ์ด์ฆ, ๊ด์ ๊ด์ธก ๋ ธ์ด์ฆ, ์ก์ ๋ ธ์ด์ฆ๊ฐ Sim-to-Real ์ ์ด์ ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ์ธ๊ธ๋๋ค.๋ณด์ ์ค๊ณ: ๋จ์ผ ๋ถํ์ ๊ฐ์ฒด ์กฐ์์ ์ฌ์ฉ๋๋ ๊ธฐ์กด ๋ณด์ ์ค๊ณ๋ ๋ค์ค ๋ถํ ์กฐ์์๋ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ์ ๋์ํ์ฌ, ๋ณธ ์ฐ๊ตฌ๋ ๊ฐ๋จํ โํคํฌ์ธํธ ๊ธฐ๋ฐ ์ ์ด ๋ณด์(keypoint-based contact reward)โ์ ํฌํจํ๋ ๋ค์ค ๋ณด์ ํญ์ ์ ์ํ๋ค.
- ๋นํ๊ธฐ ๋ณด์ (Twisting Reward): ๋๊ป์ ํ์ ๊ฐ๋(\Delta\theta)์ ๋น๋กํ์ฌ ๋ณด์์ ์ค๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค. r_{twisting} = \Delta\theta = q^{bottle}_{t+1} - q^{bottle}_t
- ์๊ฐ๋ฝ ์ ์ด ๋ณด์ (Finger Contact Reward): ์๊ฐ๋ฝ ๋์ด ๋ณ์ ๋ชธ์ฒด(X_L`)์ ๋๊ป(X_R)์ ๋ถ์ฐฉ๋ ์ฐธ์กฐ ์ ์ด ์ง์ ์ ์ต๋ํ ๊ฐ๊น๊ฒ ์ ์ง๋๋๋ก ์ ๋ํ๋ค. ์ด๋ ์๊ฐ๋ฝ ๋ ์์น(F^L_i, F^R_i)์ ์ฐธ์กฐ ์ง์ ๊ฐ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋น๋กํ๋ ํํ๋ก ์ ์๋๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค. r_{contact} = \sum_i \left( \frac{1}{1+\alpha d(X_L, F^L_i)} + \frac{1}{1+\alpha d(X_R, F^R_i)} \right) ์ฌ๊ธฐ์ \alpha๋ ์ค์ผ์ผ๋ง ํ์ดํผํ๋ผ๋ฏธํฐ์ด๊ณ , d(A, x) = \min_i \|A_i - x\|_2๋ ์ x์ ์ ์ธํธ A ์ฌ์ด์ ์ต์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ํ๋ธ๋ค. ์ด ๋ณด์์ ๋ฐ๋์งํ ํ๋๊ณผ ์์ ์ฑ๊ณต์ ํ์์ ์ธ ๊ฒ์ผ๋ก ํ์ธ๋์๋ค.
- ์์ธ ๋ณด์ (Pose Reward): ๋ณ์ ์ฃผ์ถ(x_{axis})์ด ๋ฏธ๋ฆฌ ์ ์๋ ๋ฐฉํฅ(v)๊ณผ ์ ๋ ฌ๋๋๋ก ์ฅ๋ คํ๋ค. ์์์ ๋ค์๊ณผ ๊ฐ๋ค. r_{pose} = - \arccos(\langle x_{axis}, v \rangle)
- ์ด ์ธ์๋ ์์ ํจ๋ํฐ(work penalty) ๋ฐ ์ก์ ํจ๋ํฐ(action penalty)์ ๊ฐ์ ์ ๊ทํ ํญ์ด ํฌํจ๋๋ค.
์ ์ฑ ํ์ต์ PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋น๋์นญ ๋นํ๊ฐ ๊ด์ธก(asymmetric critic observation)์ ์ฌ์ฉํ์ฌ ์ํ๋๋ค. ๊ด์ธก ๊ณต๊ฐ์๋ ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ ์ ๊ด์ ์์น, ๋ณ ๋ชธ์ฒด์ ๋๊ป์ ์ถ์ ๋ 3D ์ง๋ ์ค์ฌ ์์น, ์ด์ ์ ๋ช ๋ น๋ ๋ชฉํ ๊ด์ ์์น๊ฐ ํฌํจ๋๋ค. ์ก์ ๊ณต๊ฐ์ PD ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด ์์ฑ๋ ์๋์ ์ธ ๋ชฉํ ๊ด์ ์์น๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ถ๋๋ฌ์ด ์์ง์์ ์ํด EMA(Exponential Moving Average)๊ฐ ์ ์ฉ๋๋ค. \tilde{q}_{t+1} = \tilde{q}_t + \eta EMA(a_t)
์๋ฎฌ๋ ์ด์ ์คํ์ ํตํด ํคํฌ์ธํธ ๊ธฐ๋ฐ ์ ์ด ๋ณด์๊ณผ ์๊ฐ ์ ๋ณด๊ฐ ์ ์ฑ ํ์ต ๋ฐ ์ฑ๋ฅ์ ํ์์ ์์ ๊ฒ์ฆํ๋ค. ๋ํ, ๋จ์ผ ๋ฌผ์ฒด ํ๋ จ๋ณด๋ค ๋ค์ค ๋ฌผ์ฒด ํ๋ จ์ด ์ฝ๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์ด๋ ํ๋ จ ์ค ๋ค์ํ ๋ฌผ์ฒด ์ธ์คํด์ค๋ฅผ ํตํด ํ์ ๊ณผ์ ์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋๋ค.
์ค์ ํ๊ฒฝ ์คํ์์๋ ์ ์ํ๋ ์ ์ฑ ์ด ๋ชจ๋ ๊ธฐ์ค์ (์คํ ๋ฃจํ ๋ฆฌํ๋ ์ด, ๋น์ ์์, ๋น๋์นญ ํ๋ จ ์์, ๋ํ ์ ์ฑ ๋คํธ์ํฌ)์ ๋ฅ๊ฐํ๋ฉฐ, ์์ ์ ์ธ ํ์ง์ ํจ๊ณผ์ ์ธ ๋๊ป ๋นํ๊ธฐ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ํนํ, ์คํ ๋ฃจํ ์ ์ฑ ์ ๋ฎ์ ์ฑ๋ฅ์ ์ด ๊ณผ์ ๊ฐ ๋ฌผ์ฒด ์ํ์ ๋ฐ๋ผ ๋งค์ฐ ์ ๋ฐํ ์ก์ ์ ์๊ตฌํจ์ ์์ฌํ๋ค. ๋ํ ์ ์ฑ ์ด ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด๋์ง ๋ชปํ ๊ฒ์ ๊ณผ์ ํฉ(overfitting) ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ ์ด์ด ๋น๋ฒํ ์์ ์ ์ฌ-ํฌ-๋ฆฌ์ผ ์ ์ด๋ฅผ ์ํด์๋ ์ ์ฑ ๋คํธ์ํฌ ํฌ๊ธฐ ์ ์ด๊ฐ ์ค์ํจ์ ์์ฌํ๋ค. ๋ํ, ์ ์ฑ ์ ์ธ๋ถ ํ์ ๋ํ ๊ฐ์ธ์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ํ๋ จ๋์ง ์์ โ๋๊ป ์ ๊ฑฐ(lid-removal)โ ์์ ์ ๋ํด์๋ ์๋ก์ด ๊ฐ์ ์ฉ ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ์ฐ๊ตฌ๋ ์์ ๋ก๋ด์ ๋ณต์กํ ์กฐ์ ๋ฅ๋ ฅ ๊ฐ๋ฐ์ ์์ด ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ์ด๋ ์ค์ ์ธ๊ณ์ ๋ค์ํ ๋ฌผ์ฒด์ ๋ํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๋ ๋ฐ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ค.
Detail Review
์๋ก
๋ฅ ๋ฌ๋์ ๊ธฐ๋ฐ์ผ๋ก ๋ ์์ ์ด์ฉํ ์ด์ค ์๊ฐ๋ฝ ๋ก๋ด์ด ๋ณ๋๊ป์ ๋๋ ค ์ฌ๋ ๊ฒ์ ๋งค์ฐ ๋ํดํ ๋ฌธ์ ๋ก ๊ฐ์ฃผ๋์ด ์๋ค. ๋ณต์กํ ์ ์ด ๋์ญํ๊ณผ ๋์ ์์ ๋์ ์กฐ์ ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. Lin ๋ฑ์ ๊ฐํํ์ต์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ธ๊ณ์ ๋ฐ๋ก ์ ์ฉํ์ฌ, ๋ค์ํ ๋ณ ๋ชจ์์์ ์ผ๋ฐํํ ์ ์๋ ๋ณ๋๊ป ๋นํ๊ธฐ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ค์ ๊ธฐ์กด์ ์๋ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง, ์ค์๊ฐ ์ธ์ง, ๋ณด์ ์ค๊ณ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ์ด์ค ๋ค๊ด์ ๋ก๋ด ์์ ๋ํ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์๋ฎฌ๋ ์ดํฐ-์ค์ธ๊ณ ์ด์ (sim-to-real)์ด ๊ฐ๋ฅํจ์ ์ฆ๋ช ํ๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ ์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ ํต์ฌ ๊ธฐ๋ฒ๊ณผ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ธต ๋ถ์ํ๊ณ , ํ๊ณ์ ๋ฐ ์์๋ ํจ๊ป ๋ ผ์ํ๋ค.
์์คํ ๊ตฌ์ฑ ๋ฐ ๊ธฐ์ ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋ ๊ฐ์ 16-์์ ๋(DoF) Allegro ๋ก๋ด ์์ ์ฌ์ฉํ๋ค. ๊ฐ ์์ UR5e ๋ก๋ด ์์ ๊ณ ์ ๋์ด ์์ผ๋ฉฐ, Intel RealSense D435๋ฅผ ํตํด ๋ฌผ์ฒด ์ํ๋ฅผ ์ธ์ํ๋ค. ์ ์ด ์ฃผ๊ธฐ๋ ์ฝ 30Hz ์ ๋๋ก ์ค์ ๋์์ผ๋ฉฐ, ๋ก๋ด์๋ ๊ด์ ๋ณ ์ํผ๋์ค PD ์ ์ด๊ธฐ๊ฐ ์ ์ฉ๋๋ค. ๊ฐํํ์ต ์์ด์ ํธ์ ๊ด์ธก(observation)์ผ๋ก๋ ๊ฐ ์์ ๊ด์ ๊ฐ๋, ๋ณ ๋ณธ์ฒด์ ๋๊ป์ 3D ์ค์ฌ ์์น, ์ด์ ์ ๋ช ๋ น๋ ๊ด์ ์์น ๋ฑ์ด ์ฌ์ฉ๋๋ค. ํ๋(action)์ ๊ฐ ๊ด์ ์ ๋ชฉํ ์์น ๋ณ์๋ก ํํ๋๋ฉฐ, ์ด๋ฅผ PD ์ ์ด๊ธฐ์ ์ ๋ ฅํด ํ ํฌ ๋ช ๋ น์ ์์ฑํ๋ค. ์์ด์ ํธ ๋คํธ์ํฌ๋ 3-์ธต MLP(256-256-128)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ๋์ ๋ถํฌ๋ฅผ ์ถ๋ ฅํ๋ค.

๋ ๊ฐ์ Allegro ํธ๋๋ก ๊ตฌ์ฑ๋ ์คํ ์์คํ . ์๋จ: UR5e ์์ ์ฅ์ฐฉ๋ ๋ก๋ด ์๋ค์ด ๋ณ๋๊ป์ ์กฐ์ํ๋ ๋ชจ์ต. ํ๋จ: RGB ์นด๋ฉ๋ผ ์์์์ ๋ณ ๋ชธ์ฒด(๋ถ์ ์)์ ๋๊ป(์ด๋ก์)์ ๋ง์คํฌ๋ฅผ ์ถ์ ํ๊ณ , ๊น์ด ์ ๋ณด๋ฅผ ์ฌ์ฉํด ๊ฐ ์ค์ฌ์ ์ 3D๋ก ๊ณ์ฐํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ RGBD ์นด๋ฉ๋ผ์์ ์ป์ ๋ณ์ ๋ถํ (segmentation) ๋ง์คํฌ ์ค์ฌ๊ณผ ๊น์ด ์ ๋ณด๋ง์ผ๋ก ๋ณ ๋ชธ์ฒด์ ๋๊ป์ 3D ์์น๋ฅผ ๊ณ์ฐํ์ฌ ๊ด์ธก ์ ๋ณด๋ก ์ฌ์ฉํ๋ค.
์๋ฎฌ๋ ์ด์ ์์๋ ๋ณ๊ณผ ๋๊ป์ ๊ฐ๊ฐ ๊ฐ์ฒด ๋ ๊ฐ๋ก ๋ชจ๋ธ๋งํ๊ณ , ์ด ๋์ ๋์ฌ์ฐ์ด ๋ฌ๋ฆฐ ๊ด์ ๋ก ์ฐ๊ฒฐํ๋ค. ํต์ฌ ๊ณตํ์ ๊ธฐ์ฌ ์ค ํ๋๋ ๋ธ๋ ์ดํฌ ๋งํฌ(brake link)๋ฅผ ๋์ ํ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ด๋ค. ์ด๋ ๋ณ ๋ชธ์ฒด์ ๋๊ป ์ฌ์ด์ ๊ฐ์(prismatic joint)๋๋ ์ถ๊ฐ ๋งํฌ๋ก, ๋๊ป๊ณผ ๋ชธ์ฒด ์ฌ์ด์ ๋ง์ฐฐ๋ ฅ์ ์๋ฎฌ๋ ์ด์ ํ๋ค. ์ด ๋ธ๋ ์ดํฌ ๋งํฌ๊ฐ ์์ผ๋ฉด ๋๊ป์ด ์๊ฐ๋ฝ๊ณผ ์ ์ดํ์ง ์์๋ ์ฝ๊ฒ ํ์ ํ๊ธฐ์, ๋ง์น ์ค์ ๋ก ๋์ฌ์ฐ์ด ๊ฑธ๋ฆฐ ๋ฏํ ๋ฌผ๋ฆฌ์ ์ ํญ์ ๊ตฌํํด ์ค๋ค. ์ด๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ํฌ๊ฒ ํฌ์ํ์ง ์์ผ๋ฉด์๋ ์ค์ ์ ์ ์ฌํ ๋์ญํ์ ์ป์ ์ ์์๋ค. ์ค์ ์คํ์ ์ํด ๋ค์ํ ๋ชจ์๊ณผ ํฌ๊ธฐ์ 3D ํ๋ฆฐํ ๋ณ ๊ฐ์ฒด๋ ์ ์ํ์์ผ๋ฉฐ, ์ผ๋ถ๋ ๋๊ป์ด ๋ฌดํํ ํ์ ํ๋ ๊ด์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
๊ธฐ์ฌ ์์ฝ
์ด ๋ ผ๋ฌธ์์๋ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค:
- ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง: ๋ ํํธ(๋ณ ๋ชธ์ฒด์ ๋๊ป)๋ก ๊ตฌ์ฑ๋ ๊ด์ ๊ฐ์ฒด๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ํด ๋ธ๋ ์ดํฌ ๋งํฌ๋ฅผ ๋์ ํ์ฌ, ๋๊ป๊ณผ ๋ชธ์ฒด ์ฌ์ด์ ๋ง์ฐฐ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋ชจ๋ธ๋ง.
- ์ธ์ง(Perception) ๊ธฐ๋ฒ: ๋ณ์ฒด์ ๋๊ป์ ๊ตฌ๋ถํ ๋ถํ (segmentation) ๋ง์คํฌ์ ์ค์ฌ์ ๋ ๊ฐ๋ง์ ์ด์ฉํ๋ ๊ทนํ ํฌ์ํ ๊ฐ์ฒด ํํ์ ์ฌ์ฉํ๋ฉฐ, ์ค์ฐจ ๋ด์ฑ ์๋ ํ์ต์ ์ํด ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ์ ์ ์ฉ.
- ๋ณด์ ์ค๊ณ: ๋ ์๊ฐ๋ฝ ๊ฐ๊ฐ์ด ๋ณ ๋ชธ์ฒด์ ๋๊ป์ ํน์ ํคํฌ์ธํธ์ ๊ฐ๊น์์ง๋๋ก ์ ๋ํ๋ โํคํฌ์ธํธ ๊ธฐ๋ฐ ์ ์ด ๋ณด์โ์ ๋์ ํ์ฌ ์์ฐ์ค๋ฌ์ด ๊ทธ๋ฆฝ ๋ฐ ๋นํ๋ฆผ ๋์์ ์ ๋. ํ์ ๋ณด์๊ณผ ๋ณ ์ถ ์ ๋ ฌ ๋ณด์์ ์ถ๊ฐ๋ก ๊ฒฐํฉํ์ฌ ์ธ๋ถํ๋ ํ๋ ์ง์๋ฅผ ๊ตฌํํ๋ค.
- RL ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ-์ค์ธ๊ณ ์ ์ด: ๋ฅ RL(PPO)์ ์ด์ฉํด ์๋ฎฌ๋ ์ด์ ์ผ๋ก๋ถํฐ ํ์ตํ ์ ์ฑ ์ ์ค์ธ๊ณ ์ด์ค ์ ์กฐ์์ ์ง์ ์ ์ดํ๋ ์์คํ ์ ๊ตฌ์ถํ ์ฒซ ์ฌ๋ก๋ก, ๋ค์ํ ์ ์ ์๋ ๋ณ ๊ฐ์ฒด์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋์ ์ด๊ณ ์ฌ์ธํ ํ๋์ ๋ณด์ฌ์ฃผ์๋ค.
๋ฐฉ๋ฒ๋ก ๋ถ์
๊ฐํํ์ต ์ค์
๋ฌธ์ ๋ ๋ถ๋ถ ๊ด์ธก ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (POMDP)์ผ๋ก ์ค์ ๋์๋ค. ์ํ(state)๋ ๋ก๋ด ๊ด์ ๊ฐ๋, ๋ณ์ฒด์ ๋๊ป์ 3D ์์น ๋ฑ์ ๊ด์ธก(observation)์ ํฌํจํ๋ค. ํ๋(action)์ ๋ก๋ด ๊ด์ ๊ฐ๋ ๋ชฉํ ๊ฐ์ ์๋์ ๋ณ์๋ก ํํ๋๋ค. ํ๋ ์ถ๋ ฅ์ ๋ถ๋๋ฝ๊ฒ ํ๊ธฐ ์ํด ์ง์ ๊ฐ์ค ์ด๋ ํ๊ท (EMA)์ผ๋ก ๋ณด์ ํ๋ฉฐ, PD ์ ์ด๊ธฐ๋ฅผ ํตํด ํ ํฌ๋ก ๋ณํํ๋ค. PPO(Adam ์ต์ ํ ํฌํจ)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ ํ์ตํ๋ฉฐ, ์ ์ฑ ๋คํธ์ํฌ๋ 3์ธต MLP(256-256-128), ์ํ-๋ ๋ฆฝ ๊ฐ์ฐ์์ ๋ถํฌ, ๊ฐ ํจ์ ๋คํธ์ํฌ๋ 3์ธต MLP(512-512-512) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ๋ํ ๊ฐ์นํจ์ ํ์ต ์์๋ง ๋ฌผ๋ฆฌ ๋งค๊ฐ๋ณ์ ๋ฑ์ ํน๊ถ์ ๋ณด(privileged observations)๋ฅผ ์ถ๊ฐ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๋น๋์นญ ํ์ต(asymmetric PPO)์ ํตํด ์๋ฎฌ๋ ์ดํฐ-์ค์ธ๊ณ ์ด์ ์ฑ๋ฅ์ ๋์๋ค.
๋ณด์ ํจ์ ์ค๊ณ
๊ณผ์ ์ํ์ ๊ตฌ์ฒดํํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ฃผ์ ๋ณด์ ํญ(term)์ ์ค๊ณํ๋ค.
์ฒซ์งธ, ํ์ ๋ณด์(Twisting Reward)์ ๋๊ป์ด ํ ํ์์คํ ๋์ ํ์ ํ ๊ฐ๋ ฮฮธ ๋ฅผ ๋ณด์์ผ๋ก ํ๋ค :
r_{\text {twist }}=\Delta \theta
๋์งธ, ํคํฌ์ธํธ ๊ธฐ๋ฐ ์๊ฐ๋ฝ ์ ์ด ๋ณด์(Finger Contact Reward)์ด๋ค. ๋ณ ๋ชธ์ฒด์ ๋๊ป์ ๊ฐ๊ฐ ์ฌ์ ์ ์ ์๋ ํคํฌ์ธํธ ์งํฉ์ ๋๊ณ , ์ผ์๊ณผ ์ค๋ฅธ์์ ํน์ ์๊ฐ๋ฝ ๋(์: ์์ง ๋ฑ) ์์น๊ฐ ํด๋น ํคํฌ์ธํธ์ ๊ฐ๊น์์ง๋๋ก ๊ฑฐ๋ฆฌ์ ๋ฐ๋น๋กํ๋ ๋ณด์์ ์ค๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ ์๊ฐ๋ฝ ๋ ์์น \mathbf{p}_L, \mathbf{p}_R ์ ๋ํด ๋ณ์ฒด์ ๋๊ป ์์ ๋ค ๊ฐ์ ํคํฌ์ธํธ \left\{\mathbf{k}_i\right\} ์ \left\{\mathbf{k}_j\right\} ์ค ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฒ๊ณผ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ์ฌ ๋ณด์์ ๊ณ์ฐํ๋ค. ์ด ๋ณด์์ด ํด์๋ก ์๊ฐ๋ฝ์ด ๋ณ๋๊ป์ ์์ฐ์ค๋ฝ๊ฒ ์์ผ์ฅ ์ ์๋ค.
์ ์งธ, ์์ธ ๋ณด์(Pose Reward)์ ๋ณ์ ์ฃผ์ ์ถ์ด ํน์ ๋ฐฉํฅ(์: ์์ง)์ ์ ๋ ฌ๋๋๋ก ์ ๋ํ๋ค. ์ถ๊ฐ๋ก, ๋ถํ์ํ ํฐ ํ๋์ ์ต์ ํ๊ธฐ ์ํด ์์ (work)๊ณผ ํ๋(action) ํฌ๊ธฐ ํจ๋ํฐ๋ฅผ ๋์ ํ๋ค. ์ด๋ค์ ๊ฐ์คํฉํ์ฌ ์ ์ฒด ๋ณด์ ํจ์๊ฐ ๊ตฌ์ฑ๋๋ค. ์คํ์์ ํคํฌ์ธํธ ์ ์ด ๋ณด์์ด ์ ๊ฑฐ๋๊ฑฐ๋ ์ฝํ๋๋ฉด ํ์ต ํจ์จ๊ณผ ์ต์ข ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋๋ฐ , ์ด๋ ์ด ๋ณด์์ด ๋ณต์กํ ๋ ์ ์กฐ์ ๋์์์ ์ํ๋ ์์ธ ํ์์ ๊ฐ๋ ฅํ ์ ๋ํจ์ ์๋ฏธํ๋ค.

์๋ก ๋ค๋ฅธ ๋ณด์ ์ค๊ณ์ ๋ฐ๋ฅธ ์๋ฎฌ๋ ์ด์ ํ๋ ์์. ์ฒซ์งธ ์ค(โOurs 100% Contact Rewardโ)์ ํคํฌ์ธํธ ๊ธฐ๋ฐ ์ ์ด ๋ณด์์ด ์ถฉ๋ถํ ์ฃผ์ด์ก์ ๋์ ์์ ์ ์ด๊ณ ์์ฐ์ค๋ฌ์ด ๊ทธ๋ฆฝ๊ณผ ๋นํ๊ธฐ ๋ชจ์ต์ด๋ค. ๋์งธ ์ค(โGait Constraint Rewardโ)์ ๊ธฐ์กด ์๊ฐ๋ฝ ๋ณดํ ํจํด ์ ์ฝ๋ง์ ์ด ๊ฒฝ์ฐ๋ก ์๋์์ด ๋ถ์์ ํ๋ฉฐ ๋นํ๋ฆผ์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์๋๋ค. ์ ์งธ ์ค(โ50% Contact Rewardโ)์ ์ ์ด ๋ณด์์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ ๊ฒฝ์ฐ๋ก, ์ก๊ธฐ๋ ๋ค์ ํ๊ฒ๊ณ ๋์์ด ๋ ๋งค๋๋ฝ๋ค. ์ด ์์๋ ํคํฌ์ธํธ ๋ณด์์ด ๋ ์ ์กฐ์ ๋์ ํ์์์ ํ์์ ์ธ ์ญํ ์ ํจ์ ๋ณด์ฌ์ค๋ค.
์ธ์ง ๋ฐ ๋๋ฉ์ธ ๋๋คํ
์ค์ ํ๊ฒฝ์์๋ ์๊ฐ๋ฝ์ด ๋ณ์ ๊ฐ๋ฆฐ ๋ณต์กํ ์ฅ๋ฉด์์๋ ๋ฌผ์ฒด ์์น๋ฅผ ์ถ์ ํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ์ฒซ ํ๋ ์์์ Segment Anything ๋ชจ๋ธ๋ก ๋ณ ๋ชธ์ฒด์ ๋๊ป์ RGB ๋ง์คํฌ๋ฅผ ์ป๊ณ , XMem ํธ๋์ปค๋ก ์ดํ ํ๋ ์์ ์ถ์ ํ๋ค. ๋ง์คํฌ ์ค์ฌ์ ์ 2D ์ขํ์ ๊น์ด(Depth) ์ธก์ ๊ฐ์ ๊ฒฐํฉํด 3D ์์น๋ฅผ ๊ณ์ฐํ๋ค. ๋๋๊ฒ๋ ์ด ๊ทนํ ํฌ์ํ ํํ(๋ ์ ์์น)๋ง์ผ๋ก๋ ๋ณต์กํ ์์ ์ด ๊ฐ๋ฅํจ์ ์คํ์ ์ผ๋ก ํ์ธํ๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ์ฐจ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด ๊ด๋ฒ์ํ ๋๋ฉ์ธ ๋๋คํ๋ฅผ ์ ์ฉํ๋ค. ๋ณ ์ง๋, ๋ง์ฐฐ ๊ณ์, ํฌ๊ธฐ, ๋ชจ์, ์ด๊ธฐ ์์น/์์ธ, ๋ก๋ด ๊ด์ ๋ง์ฐฐ, PD ์ด๋, ๊ด์ธก ๋ ธ์ด์ฆ, ํ๋ ์/์ก์ ์ง์ฐ ๋ฑ ์ฌ๋ฌ ๋ฌผ๋ฆฌ์ ยท๋น๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋คํ๊ฒ ๋ณํ์์ผฐ๋ค. ๋ํ, ๋๋ค ์ธ๋ถ ํ์ ์ฃผ๊ธฐ์ ์ผ๋ก ๊ฐ์ฒด์ ๊ฐํด ์๋ฎฌ๋ ์ดํฐ์ ์๋ ๋์์ ๋ชจ๋ธ๋งํ๋ค. ์ด๋ฌํ ๋๋คํ๋ ์ ๋ก์ท ์ ์ด ์ฑ๊ณต์ ์ค์ํ ์ญํ ์ ํ๋ค.
์๋ฎฌ๋ ์ด์ ์คํ
์๋ฎฌ๋ ์ด์ ์์๋ ๋ค์ํ ๋ณ ๋ชจ์(์ฃผ๋ก ์ค๋ฆฐ๋)์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค. ๋ ๊ฐ์ง ์คํ ๊ตฌ์ฑ์ ๋์๋ค: โ ๋จ์ผ ๊ฐ์ฒด ํ์ต(single-object, ์ค๊ฐ ํฌ๊ธฐ)๊ณผ โก ๋ค์ค ๊ฐ์ฒด ํ์ต(multi-object, ๋ค์ํ ํฌ๊ธฐ).
์ฑ๋ฅ ํ๊ฐ์งํ๋ก๋ ๊ฐ๋ ๋ณ์(Angular Displacement, AD)์ ์คํจ ์๊ฐ(Time-to-Fail, TTF)์ ์ฌ์ฉํ๋ค. AD๋ ํ ์คํ ๋์ ๋๊ป์ด ํ์ ํ ์ด๋๋ฅผ ๋ํ๋ด๊ณ , TTF๋ ๋ณ์ด ๋จ์ด์ง๊ธฐ ์ ๊น์ง ์ง์๋ ์๊ฐ์ ์ธก์ ํ๋ค.
- ์ฒซ์งธ, ๋ณด์ ์ค๊ณ์ ์ํฅ์ ๋ถ์ํ๋ค. ํคํฌ์ธํธ ์ ์ด ๋ณด์์ ์ค์ธ ์ ์ฑ (โReduced Contact Rewardโ)์ ๋นํ๊ธฐ ๋ฅ๋ ฅ์ ์ ํ ํ์ตํ์ง ๋ชปํ๊ณ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์๋ค. ๋ณด์ ๊ฐ๋์ ํ์ต ํจ์จ ๋ฐ ์ต์ข AD ์ ์๋ ์์ ์๊ด๊ด๊ณ๊ฐ ์์์ผ๋ฉฐ, ์ ์ด ๋ณด์์ด ์ถฉ๋ถํ์ง ์์ผ๋ฉด RL์ ํ์ ๊ณต๊ฐ์ด ์ง๋์น๊ฒ ์ปค์ ธ ํ์ต์ด ์คํจํ๋ค.
- ๋์งธ, ์๊ฐ ์ ๋ณด์ ์ ๋ฌด๋ฅผ ๋น๊ตํ๋ค. ์๊ฐ ์ ๋ ฅ ์์ด(๋จ์ง ๊ด์ ์ ๋ณด๋ง์ผ๋ก) ํ์ตํ ์ ์ฑ (No-Vis baseline)์, ๋จ์ผ/๋ค์ค ๊ฐ์ฒด ๋ชจ๋์์ ์ฐ๋ฆฌ ๋ฐฉ๋ฒ ๋๋น ํ์ ํ ๋ฎ์ AD๋ฅผ ๋ณด์๋ค. ์ด๋ ๋ณ์ ์์น ์ ๋ณด๋ฅผ ๊ฐ์ ์ ์ผ๋ก ์ถ์ ํ๊ธฐ ์ํด ๊ด์ ๋ง ๋ณด๋ ๊ฒ์ผ๋ก ์ด ๋ณต์กํ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค. ๋ฐ๋ฉด ๋ณธ ์ ์ฑ ์ 3D ์์น๋ฅผ ๊ด์ธก์ ํฌํจ์์ผ ์์ ์ ๋นํ๊ธฐ ๋์์ ๋ฌ์ฑํ๋ค.
- ์ ์งธ, ๋จ์ผ vs ๋ค์ค ๊ฐ์ฒด ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ดํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋จ์ผ ๊ฐ์ฒด ํ์ต์ ํน์ ๋ฌผ์ฒด์ ํนํ๋๋ ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ๋ค์ค ๊ฐ์ฒด ํ์ต์ ์ผ๋ฐํ์ ์ ๋ฆฌํ๋ค๊ณ ์๋ ค์ ธ ์๋ค. ๋๋๊ฒ๋ ๋ ์ค์ ์์ ๋ค์ค ๊ฐ์ฒด ํ์ต์ด ๋จ์ผ ๊ฐ์ฒด ํ์ต๋ณด๋ค AD๊ฐ ์ฝ๊ฐ ๋ ๋๊ฒ ๋ํ๋ฌ๋ค. ์ด๋ ๋ค์ค ๊ฐ์ฒด ํ์ต์ด ๋์ด๋์ ๋ฐ๋ฅธ ์์ฐ์ค๋ฌ์ด ์ปค๋ฆฌํ๋ผ ํจ๊ณผ๋ฅผ ์ ๊ณตํ์ฌ ํ์์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ผ๋ก ์ ์๋ค์ ์ถ์ ํ๋ค.
์ค์ ์คํ ๋ฐ ํ๊ฐ
์คํ ํ๊ฒฝ
์คํ์ ๋ ๋์ Allegro ์๊ณผ UR5e ํ, ์ฑ๊ธ RealSense D435 ์นด๋ฉ๋ผ๋ก ๊ตฌ์ฑ๋๋ค. ํ์ต๋ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์ ์ ๋ก์ท์ผ๋ก ๋ฐ๋ก ์ ์ด๋๋ค(์ถ๊ฐ์ ํ์ต ์์). ํ๊ฐ ๋์ ๊ฐ์ฒด๋ ์ด ๋ค์ฏ ์ข ์ ์คํ์ฉ ๋ณ์ผ๋ก, ์ด ์ค ๋ค ๊ฐ๋ ํ๋ จ ๋ถํฌ์ ์ ์ฌํ ์ํ ๋ชธ์ฒด, ํ๋๋ ๋ค๋ชจ ๋ชธ์ฒด๋ฅผ ๊ฐ์ง ๋ถํฌ ์ธ ๊ฐ์ฒด์ด๋ค. ๊ฐ ์ ์ฑ ๋ง๋ค 30์ด์ฉ 20ํ ๋ฐ๋ณต ์คํํ์ฌ AD์ TTF๋ฅผ ์ธก์ ํ๋ค. ์ต์ข ์ ์ผ๋ก 10๊ฐ์ ๋ฌด์์ ์๋๋ก ํ์ตํ ์ ์ฑ ์ค ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ฐ์ํ ์์ 3๊ฐ๋ฅผ ์ฌ์ฉํด ํ๊ท ์ ๊ณ์ฐํ๋ค.
๋น๊ต๊ตฐ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ์คํ๋ฃจํ ์ฌ์ ์ ์ฑ (Replay): ์๋ฎฌ๋ ์ด์ ์์ ์ฑ๊ณต ๊ถค์ ์ ๋ นํํด ๊ทธ๋๋ก ์ฌ์.
- ์๊ฐ ์ ๋ณด ์ ๊ฑฐ(No-Vis): ๊ธฐ์กด ์ ์ฑ ์์ ๋ณ ์ ๋ณด ์ ๋ ฅ๋ง ์ ๊ฑฐ.
- ๋น๋์นญํ์ต ์ ๊ฑฐ(No-Asym): ๊ฐ์นํจ์์ ํน๊ถ์ ๋ณด๋ฅผ ์ ๊ณต ํ์ง ์๊ณ ํ์ต.
- ๋ํ ์ ๊ฒฝ๋ง(Large): ๋คํธ์ํฌ ํฌ๊ธฐ ์ฆ๊ฐ(๊ณผ์ ํฉ ๊ฒ์ฆ์ฉ).
์คํ ๊ฒฐ๊ณผ
๋ณธ ์ ์ฑ ์ ๋ชจ๋ ์ธก์ ์งํ์์ ๋ค๋ฅธ ๋น๊ต๊ตฐ์ ์๋์ ์ผ๋ก ๋ฅ๊ฐํ๋ค. ์๋ฅผ ๋ค์ด ํ๋ ๋ณ(BlueBottle)์์ ๋ณธ ์ ์ฑ ์ ํ๊ท ์ฝ 946ยฐ(โ2.6๋ฐํด)์ ํ์ ์ ์ํํ ๋ฐ๋ฉด, ๋๋จธ์ง ์ ์ฑ ์ ๊ฑฐ์ 30ยฐ ์ดํ์ ํ์ ์ ๊ธฐ๋กํ๋ค. ๋ํ TTF(ํ๋๋ณ ๊ธฐ์ค)์์ ๋ณธ ์ ์ฑ ์ ์ฝ 23.7์ด ๋์ ์์ ์ ์ผ๋ก ์ ์ง๋์์ผ๋, ๋ค๋ฅธ ์ ์ฑ ์ ๋๋ถ๋ถ 7์ด ์ดํ์์ ๋ณ์ด ๋จ์ด์ก๋ค. ์คํ๋ฃจํ ์ฌ์ ์ ์ฑ ์ ๊ฑฐ์ ๋ณ์ ๋จ์ดํธ๋ฆฌ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋๋ฐ, ์ด๋ ๋ฏธ์ธํ ์ ์ด ์์ ์์ ์ ์ฑ ์ ์ ๋ฐ์ฑ์ด ์์ผ๋ฉด ๋ณ์ด ์๊ฐ๋ฝ์ ๊ตด๋ฌ๋จ์ด์ง๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ํนํ, ๋ํ ๋คํธ์ํฌ(Large)๋ ์๋ฎฌ๋ ์ด์ ์์๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ง๋ง ์ค์ธ๊ณ์์ ์คํจํด, ๊ณผ์ ํฉ์ ์ํ์ฑ์ ์์ฌํ๋ค.
์ผ๋ฐํ ๋ฐ ๊ฐ์ธ์ฑ
์ถ๊ฐ๋ก ์ ์๋ค์ ์ค์ ์ํ์ฉ ๋ณ(์ฃผ๋ฅ๋ณ, ๋ ์ฝฉ๋ฒํฐ ๋ฑ) 10๊ฐ๋ฅผ ํ ์คํธํด ์ ์ฑ ์ ์ผ๋ฐํ๋ ฅ์ ํ๊ฐํ๋ค. ์ด๋ค ๋ฌผ์ฒด๋ ๋ชจ์ยทํฌ๊ธฐยท์ฌ์งยท์ง๋์ด ๋ชจ๋ ๋ฌ๋๊ณ , ์ค์ ๋ก ๋๋ถ๋ถ์ ๋๊ป์ด ๋์ฌ์ฒ๋ผ ์ ๊ธฐ์ง ์๋ ๊ตฌ์กฐ์๋ค. ์ฑ๊ณต ๊ธฐ์ค์ โ๋๊ป์ด ์์ ํ ๋ถ๋ฆฌ๋๋ ๊ฒโ์ผ๋ก ์ผ์์ ๋, ๋ณธ ์ ์ฑ ์ ์ฝ 30% ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ์ด๋ ๋ณธ ์ ์ฑ ์ด ํ๋ จ ํ๊ฒฝ๊ณผ ๊ฝค ๋ค๋ฅธ ์ํฉ์์๋ ์ ํ์ ์ผ๋ก ๋นํ๊ธฐ ๊ธฐ์ ์ ์ ์ดํ ์ ์์์ ๋ณด์ฌ์ค๋ค. ๋ํ ์ ์ฑ ์ ์ธ๋ ๊ฐ์ธ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์คํ ์ค ์์ ์๊ฐ์ ์ง๊ฒ๋ก ๋ฌผ์ฒด๋ฅผ ๋ฐ๊ฑฐ๋ ๊ฑด๋๋ ค ํ์ ๊ฐํ๋ค. ๊ทธ๋ผ์๋ ์ ์ฑ ์ ๋ณ์ ์ฌ์ค์ฌ์ผ๋ก ์ด๋์ํค๊ณ ๋นํ๊ธฐ๋ฅผ ๊ณ์ํ์ฌ ์ธ๋์ ๋ํ ์ ์๋ ฅ์ ํ์ธํ๋ค. ์ด ์คํ์์๋ ๋ง์ปค ๊ธฐ๋ฐ ๊ฐ์ฒด ์ถ์ (์ฐฉ์ฉ ๋ง์ปค)์ด ์ฌ์ฉ๋์๋๋ฐ, ์ด๋ ์๊ฐ์ ๋ง์คํฌ ์ถ์ข ๊ณผ์ ์ํธ์์ฉ์ ๋ถ๋ฆฌํ์ฌ ๋ถ์ํ๊ธฐ ์ํจ์ด๋ค. ์๋ ๊ทธ๋ฆผ์ ์ธ๋ถ ํ์ ๊ฐํ๋ ์์๋ฅผ ๋ณด์ฌ์ค๋ค.

ํ์ต๋ ์ ์ฑ ์ด ์ธ๋ถ ํ์ ์ํด ๋ณ์ด ํ๋ค๋ฆด ๋์ ๋ชจ์ต. ์๋จ ์ผ์ชฝ๋ถํฐ ์๊ณ๋ฐฉํฅ์ผ๋ก, ์ง๊ฒ๋ฅผ ์ด์ฉํด ๋ค์ํ ๋ฐฉํฅ์์ ํ์ ๊ฐํ๋ค. ์ ์ฑ ์ ํ์ ๋ฐ์ ๋ค์๋ ์๊ฐ๋ฝ์ ๊ทธ๋ฆฝ๊ณผ ์์ธ๋ฅผ ์กฐ์ ํ์ฌ ๋ณ์ ๋ค์ ์ค์ฌ์ผ๋ก ์ก์์ฌ๋ ธ์ผ๋ฉฐ, ๋นํ๊ธฐ๋ฅผ ์ง์ํ๋ค. ์ด๋ ํ์ต๋ ์ ์ฑ ์ด ์๊ธฐ์น ์์ ์ธ๋์๋ ์ผ๋ถ๋ถ ์ ์ํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
ํ๊ณ ๋ฐ ๋นํ์ ๊ณ ์ฐฐ
์ด ์์คํ ์ ๋ณต์กํ ์์๋ ๋ฎ์ ์ ํ๋์ ๊ฐ์ฒด ์ธ์์ด ํ์ํ ์ํฉ์๋ ์์ง ์ทจ์ฝํ ์ ์๋ค. ๋จผ์ , ๋ณด์ ํจ์๋ฅผ ์ธ๋ฐํ๊ฒ ์ค๊ณํด์ผ ํ๋๋ฐ, ์ค์ ํ๊ฒฝ์์์ ์ถ๊ฐ์ ์ธ ๋ฌด์์์ฑ์ด๋ ์์ธ ์ํฉ์ด ๋ฐ์ํ๋ฉด ์ ์ฑ ์ ๋์์ด ์์ธก ๋ถ๊ฐ๋ฅํด์ง ์ ์๋ค. ๋ํ, ๊ฐ์ฒด ๋ถํ ๊ณผ ์ถ์ ์ ์ํด ํ์ต๋ ๋ชจ๋ธ(SAM, XMem)์ ์ฌ์ฉํ์์ผ๋, ์ด๋ค์ ๋๊ป ๋ถ๋ฆฌ ์ ์ถ์ ๋ชฉํ๊ฐ ๋ณ๊ฒฝ๋๋ ๋ฑ ์ ํ๋ ๊ฒฝ์ฐ์ ์์ ์์กดํ๋ค. ํ์ต์ ์์๋ ๊ณ์ฐ๋๊ณผ ์๋ฎฌ๋ ์ดํฐ-์ค์๊ฐ ๊ฐ ๋๋ฉ์ธ ๊ฐญ๋ ์ฌ์ ํ ๊ณ ๋ ค ์ฌํญ์ด๋ค. ๊ทธ๋ผ์๋ ์ด ์ฐ๊ตฌ๋ ์ด์ค ๋ค๊ด์ ์์ ์ฌ์ฉํ ๋ณต์กํ ์กฐ์ ๋์์ RL๋ก ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ค ์ฒซ ์ฌ๋ก๋ผ๋ ์ ์์ ์์๊ฐ ํฌ๋ค. ๊ธฐ์กด์ ๋ก๋ด ํ 2๊ฐ๋ฅผ ์ด์ฉํ ์์ ์์ ๊ฐ๋จํ ๊ทธ๋ฆฌํผ๋ฅผ ์ด ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ด๋ค์ ๊ณ ์ฐจ์ ์๊ฐ๋ฝ ์ ์ด ๊ณต๊ฐ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋ฏธ๋ฌํ ๋์ ํจํด์ ํ์ตํ๋ค๋ ์ ์์ ํฐ ์ง์ ์ด๋ค. ํนํ, ํน์ ๊ฐ์ฒด ๋ชจ๋ธ์ ์ ํ์ ์์ด ๋ค์ํ ๋ณ์ ์ผ๋ฐํ๋ ์ ์ฑ ์ ์ป์๋ค๋ ์ ์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ฌ์ค๋ค.
๊ฒฐ๋ก
Lin ๋ฑ์ ๋ ์์ ์ฌ์ฉํ๋ ๋ณ๋๊ป ๋นํ๊ธฐ ์์ ์ ๋ํ์ฌ, ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง(๋ธ๋ ์ดํฌ ๋งํฌ), ํฌ์ํ ์ธ์ง ์ ๋ ฅ(๋ถํ ๋ง์คํฌ ์ค์ฌ) ๋ฐ ์ ๊ตํ ๋ณด์ ์ค๊ณ๋ฅผ ๊ฒฐํฉํ ๋ฅ RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ก์จ ๋ณต์กํ ์ด์ค ์ ์กฐ์ ๊ณผ์ ๋ฅผ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํด ์ค์ธ๊ณ๋ก ์ด์ ํ ์ ์์์ ์ค์ฆํ์์ผ๋ฉฐ, ๋ค์ํ ํ ์คํธ์์ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ๊ฐ์ธ์ฑ์ ๋ณด์๋ค. ์์ผ๋ก ์ด๋ฌํ ์ ๊ทผ์ ๋ ๋ง์ ๋ณต์ก ์กฐ์ ๊ณผ์ ๋ก ํ์ฅ๋ ์ ์์ ๊ฒ์ด๋ฉฐ, ์ธ๊ฐ ์์์ ์์ฐ ์์ด๋ ๋ค๊ด์ ๋ก๋ด์ด ์ฐฝ์์ ์กฐ์์ ํฐ๋ํ๋ ๊ธธ์ ์ด์ด์ค ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.