๐From One Hand to Multiple Hands ๋ฆฌ๋ทฐ
- ๐ก ์ด ์ฐ๊ตฌ๋ ๋จ์ผ ์นด๋ฉ๋ผ ์๊ฒฉ ์กฐ์ ์์คํ ์ ํตํด ๋ค์ค ์๊ฐ๋ฝ ๋ก๋ด์ ๋ฅ์ํ ์กฐ์์ ์ํ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๐ค ๋ณธ ์์คํ ์ iPad๋ก ์ธ๊ฐ์ ์์ ์ดฌ์ํ์ฌ ์๋ฎฌ๋ ์ดํฐ์ ๋ง์ถคํ ๋ก๋ด ์์ ์์ฑํ ํ, ์ด ๋ฐ์ดํฐ๋ฅผ Allegro, Schunk ๋ฑ ์ฌ๋ฌ ์ข ๋ฅ์ ์ค์ ๋ก๋ด ์์ ๋ง๊ฒ ์คํ๋ผ์ธ์ผ๋ก ๋ฆฌํ๊ฒํ ํ์ฌ ๋ชจ๋ฐฉ ํ์ต์ ํ์ฉํฉ๋๋ค.
- ๐ ์ ์๋ ๋ฐฉ์์ผ๋ก ์์ง๋ ์์ฐ ๋ฐ์ดํฐ๋ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๊ณ , Sim2Real ์ ํ ์ ๋ ๊ฒฌ๊ณ ํ๊ณ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋์์ ๊ฐ๋ฅํ๊ฒ ํจ์ ๋ณด์ฌ์ค๋๋ค.
Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋จ์ผ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ (teleoperation)์ ํตํด ์๋ จ๋ ์กฐ์(dexterous manipulation)์ ์ํ ์ธ๊ฐ ์๋ฒ ๋ฐ์ดํฐ(human demonstration data)๋ฅผ ์์งํ๊ณ , ์ด๋ฅผ ์ด์ฉํ์ฌ ๋ค์ง(multi-finger) ๋ก๋ด ํธ๋์ ๋ํ Imitation Learning ์ ์ฑ ์ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก ํ์ต๋ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ด(transfer)์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
I. ์๊ฐ
๋ค์ง ๋ก๋ด ํธ๋๋ฅผ ์ด์ฉํ Dexterous Manipulation์ ๋ก๋ด๊ณตํ์์ ๊ฐ์ฅ ๋์ ์ ์ด๊ณ ์ค์ํ ๋ฌธ์ ์ค ํ๋์ ๋๋ค. ๋ก๋ด ํธ๋์ ์กฐ์ ๋์ ๊ฐ์ ๋ณต์กํ ์ ์ด ํจํด์ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต๊ณ , ๊ตฌ์กฐํ๋์ง ์์ ํ๊ฒฝ์์ ์ ์ด์ด ๋ง์ ์์ ์ ํด๊ฒฐํ๋ ์ ์ด๊ธฐ๋ฅผ ์๋์ผ๋ก ์ค๊ณํ๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ์ต๊ทผ Reinforcement Learning (RL)์ด ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง, ๋์ Degree-of-Freedom (DoF)๊ณผ ๋ถ์ฐ์์ ์ธ ์ ์ด์ RL ์ ์ฑ ํ๋ จ์ ์ํ ๋ณต์ก์ฑ(sample complexity)์ ์ฆ๊ฐ์ํต๋๋ค. ๋ํ, RL ๋ณด์์ ํตํ ๋ธ๋๋ฐ์ค ์ต์ ํ๋ ์์์น ๋ชปํ๊ฑฐ๋ ์์ ํ์ง ์์ ํ๋์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ํ ๋ ์คํผ๋ ์ด์ ์ ํตํด ์์ง๋ ์ธ๊ฐ ์๋ฒ์ผ๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ Dexterous Manipulation์ ์ํ ์์ฐ์ค๋ฌ์ด ํด๊ฒฐ์ฑ ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ๊ธฐ์กด ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ Virtual Reality (VR) ์ฅ์น๋ ์ ์ ๊ธ๋ฌ๋ธ(wired gloves)๋ฅผ ํ์๋ก ํ์ฌ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ(scalability)์ด ์ ํ๋ฉ๋๋ค. Vision-based ํ ๋ ์คํผ๋ ์ด์ ์ ํน์ ์ฅ๋น ์ฐฉ์ฉ์ ํ์์ฑ์ ์์ ๋น์ฉ์ ์ ๊ฐํ๊ณ ํ์ฅ์ฑ์ ๋์ด์ง๋ง, ์ธ๊ฐ ์ ์์ง์์ ๋ก๋ด ์ ์์ง์์ผ๋ก ๋ณํํ๋ ๋ชจ์ ๋ฆฌํ๊ฒํ (Motion Retargeting)์ด๋ผ๋ ์๋ก์ด ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๊ณผ์ ์ด ์ง๊ด์ ์ด์ง ์์ผ๋ฉด ์ธ๊ฐ ์์ ์๊ฐ ๋ก๋ด์ ์ ์ดํ๊ธฐ ์ด๋ ต๊ณ , ํน์ ๋ก๋ด ์์ผ๋ก ์์ง๋ ์๋ฒ์ ๋์ผํ ๋ก๋ด์์๋ง Imitation Learning์ ์ฌ์ฉ๋ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ผ ์นด๋ฉ๋ผ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ๋์ ํฉ๋๋ค. ์ด ์์คํ ์ iPad์ ์ปดํจํฐ๋ง์ผ๋ก ํจ์จ์ ์ผ๋ก 3D ์๋ฒ์ ์์งํ ์ ์์ต๋๋ค. ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ(physical simulator) ๋ด์์ ๊ฐ ์ฌ์ฉ์์ ๋ํด ์ฌ์ฉ์ ๋ง์ถคํ ๋ก๋ด ํธ๋(customized robot hand)๋ฅผ ์์ฑํ๋ค๋ ์ ์ ๋๋ค. ์ด ํธ๋๋ ์์ ์ ์๊ณผ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ฐฉํ์ฌ ์ง๊ด์ ์ธ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํ๊ณ ๋ฐ์ดํฐ ์์ง ์ ๋ถ์์ ํ ์ธ๊ฐ-๋ก๋ด ํธ๋ ๋ฆฌํ๊ฒํ ์ ํผํ์ฌ ๋๊ท๋ชจ์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ป์ ์ ์๊ฒ ํฉ๋๋ค. ๋ฐ์ดํฐ ์์ง ํ, ๋ง์ถคํ ๋ก๋ด ํธ๋์ ๊ถค์ (trajectory)์ ๋ค์ํ ์ค์ ๋ก๋ด ํธ๋(์: Schunk Robot Hand, Adroit Robot Hand, Allegro Robot Hand)๋ก ๋ณํ๋์ด ํ๋ จ ์๋ฒ์ผ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ์ Imitation Learning์ ํตํด ์ฌ๋ฌ ๋ณต์กํ ์กฐ์ ์์ ์์ ๊ธฐ์กด baseline ๋๋น ํฐ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ํนํ, ํ์ต๋ ์ ์ฑ ์ด ์ค์ ๋ก๋ด์ผ๋ก ์ ์ด๋ ๋ ํจ์ฌ ๋ ๊ฐ๊ฑดํจ(robust)์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
II. ์ ์ํ๋ ์์คํ ๊ฐ์
์ ์ํ๋ ํ๋ ์์ํฌ๋ ๋ค์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค (๊ทธ๋ฆผ 2 ์ฐธ์กฐ):
- Customized Hand Teleoperation: iPad์์ RGB-D ๋น๋์ค ์คํธ๋ฆฌ๋ฐ์ ํตํด ์์ ์์ ์ ๋ชจ์์ ์ถ์ ํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ์ฌ์ฉ์ ๋ง์ถคํ ๋ก๋ด ํธ๋๋ฅผ ์ค์๊ฐ์ผ๋ก ๊ตฌ์ฑํฉ๋๋ค. ์ธ๊ฐ ์์ ์๋ ์ด ๋ง์ถคํ ๋ก๋ด ํธ๋๋ฅผ ์ ์ดํ์ฌ Dexterous Manipulation ์์ ์ ์ํํฉ๋๋ค. ์ด ์์คํ ์ ํตํด ์๊ฐ๋น ์ฝ 60๊ฐ์ ์ฑ๊ณต์ ์ธ ์๋ฒ์ ํจ์จ์ ์ผ๋ก ์์งํ ์ ์์ต๋๋ค.
- Multi-Robots Demonstration Translation: ๋ง์ถคํ ํธ๋๋ก ์์ง๋ ์๋ฒ ๊ถค์ ์ ์คํ๋ผ์ธ์์ Motion Retargeting ์ต์ ํ๋ฅผ ํตํด ์ค์ ๋ก๋ด ํธ๋(Schunk, Allegro, Adroit Robot Hand ๋ฑ)์ ์ํ-์ก์ ๊ถค์ (joint position ๋ฐ motor command)์ผ๋ก ๋ณํํฉ๋๋ค. ์ด ๋ณํ์ ์์ ๊ธฐํํ์ ๊ตฌ์กฐ, DoF, ์ฌ์ง์ด ์๊ฐ๋ฝ ๊ฐ์๊ฐ ๋ค๋ฅธ ๋ก๋ด์๋ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
- Demonstration-Augmented Policy Learning: ๋ณํ๋ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ Dexterous Manipulation ์ ์ฑ ์ ํ๋ จํฉ๋๋ค. ์ด๋ RL ๋ชฉ์ ํจ์์ ์๋ฒ์ ์ฌ์ฉํ์ฌ Behavior Cloning์ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ๋๋ค (Demo Augmented Policy Gradient, DAPG). ์ด ํ๋ ์์ํฌ๋ RL ๋จ๋ ์ผ๋ก๋ ์ ํด๊ฒฐ๋์ง ์๋ ๋ณต์กํ ์์ ์์ ํจ์จ์ ์ผ๋ก ์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ธฐ์ ์ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
ํ์ต๋ ์ ์ฑ ์ XArm-6 ๋ก๋ด์ ๋ถ์ฐฉ๋ ์ค์ Allegro Hand๋ก Sim2Real ์ ์ด ์คํ์ ์ํํ์์ผ๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ํตํฉํจ์ผ๋ก์จ Sim2Real ๊ฐญ(gap)์ ๋ํ ์ ์ฑ ์ ๊ฐ๊ฑดํจ์ ํฌ๊ฒ ํฅ์์ํค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
III. Customized Hand Teleoperation
ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ iPad์ ๋ ธํธ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค (๊ทธ๋ฆผ 3 ์ฐธ์กฐ). iPad์ ์ ๋ฉด ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ 25fps๋ก ์ธ๊ฐ ์์ ์์ RGB-D ๋น๋์ค๋ฅผ ์คํธ๋ฆฌ๋ฐํฉ๋๋ค. ์์คํ ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ, ์ธ๊ฐ ๋์์ ํฌ์ฐฉํ๋ Hand Detector, ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ์๊ฐํํ๋ GUI๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
A. Task Description
์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ SAPIEN [47]์์ ๊ตฌ์ถ๋์์ผ๋ฉฐ, ์ธ ๊ฐ์ง Dexterous Manipulation ์์ ์ด ์ค๊ณ๋์์ต๋๋ค:
- Relocate: ๋ก๋ด์ด ๋ฌผ์ฒด(์: YCB dataset์ Tomato Soup Can, Potted Meat Can, Mustard Bottle)๋ฅผ ๋ค์ด ๋ชฉํ ์์น๋ก ์ฎ๊น๋๋ค. ์ด๊ธฐ ๋ฐ ๋ชฉํ ํฌ์ฆ๊ฐ ๋ฌด์์๋ก ์ค์ ๋๋ ๋ชฉํ-์กฐ๊ฑด๋ถ(goal-conditioned) ์์ ์ ๋๋ค (๊ทธ๋ฆผ 1, ์ฒซ์งธ ์ค).
- Flip: ๋ก๋ด์ด ํ ์ด๋ธ ์์ ๋จธ๊ทธ์ปต์ ๋ค์ง์ต๋๋ค. ๋จธ๊ทธ์ปต์ ์์น์ ์ค๋ ฅ ๋ฐฉํฅ์ ๋ฐ๋ผ ์ํ ํ์ ์ด ๋ฌด์์๋ก ์ค์ ๋ฉ๋๋ค (๊ทธ๋ฆผ 1, ๋์งธ ์ค).
- Open Door: ๋ก๋ด์ด ๋ฌธ ์์ก์ด๋ฅผ ๋๋ ค ๋ฌธ์ ์ ๊ธ ํด์ ํ ๋ค์ ๋น๊ฒจ์ ๋ฌธ์ ์ฝ๋๋ค. ๋ฌธ์ ์์น๊ฐ ๋ฌด์์๋ก ์ค์ ๋ฉ๋๋ค (๊ทธ๋ฆผ 1, ์ ์งธ ์ค).
B. Hand Detector
Hand Detector๋ RGB-D ํ๋ ์์ ์ ๋ ฅ๋ฐ์ ์๋ชฉ ํฌ์ฆ, ์ ํฌ์ฆ ํ๋ผ๋ฏธํฐ, ์ ๋ชจ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. MediaPipe [49]์ FrankMocap [50]์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์์ต๋๋ค. MediaPipe hand tracker๋ก ์ ์์ญ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๊ฐ์งํ๊ณ , ์ด๋ฅผ FrankMocap ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ SMPL-X [51] ๋ชจ๋ธ ๊ธฐ๋ฐ์ ํฌ์ฆ ๋ฐ ๋ชจ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํฉ๋๋ค. SMPL-X ๋ชจ๋ธ์ ์์ ๊ธฐํํ์ ๊ตฌ์กฐ์ ๋ํ ๋ชจ์ ํ๋ผ๋ฏธํฐ์ ๋ณํ์ ๋ํ ํฌ์ฆ ํ๋ผ๋ฏธํฐ๋ก ์์ ๋ํ๋ ๋๋ค. ์ถ์ ๋ ํ๋ผ๋ฏธํฐ์ PnP (Perspective-n-Point) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์๋ชฉ์ ์นด๋ฉ๋ผ ๋ณํ์ ๊ณ์ฐํฉ๋๋ค.
C. Customized Robot Hand
๋ณธ ์์คํ ์ ๊ฐ ์ฌ์ฉ์์ ์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง์ถคํ ๋ก๋ด ํธ๋๋ฅผ ๊ตฌ์ถํฉ๋๋ค. ์ด๊ธฐํ ์ ์ถ์ ๋ ์ ๋ชจ์ ํ๋ผ๋ฏธํฐ๋ก๋ถํฐ ์ธ๊ฐ ์์ ๊ด์ ๊ณจ๊ฒฉ(joint skeleton)์ ์ถ์ถํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ๋์ผํ ์ด๋ํ์ ๊ตฌ์กฐ(kinematics structure)๋ฅผ ๊ฐ์ง ๋ก๋ด ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค (๊ทธ๋ฆผ 4 ์ฐธ์กฐ). ํจ์จ์ ์ธ ์ถฉ๋ ๊ฐ์ง ๋ฐ ์์ ์ ์ธ ์๋ฎฌ๋ ์ด์ ์ ์ํด ์๋ฐ๋ฅ์ ์์, ์๊ฐ๋ฝ์ ์บก์๊ณผ ๊ฐ์ ๊ธฐ๋ณธ ๋ํ์ ์ฌ์ฉํฉ๋๋ค. ๋ง์ถคํ ํธ๋๋ SMPL-X ๋ชจ๋ธ๊ณผ ์ผ์นํ๋ 45 DoF (15 * 3)๋ฅผ ๊ฐ์ง๋ฉฐ, Motion Retargeting ์์ด ๊ฐ์ง๋ ํฌ์ฆ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ ์ ์ด๋ฉ๋๋ค (ํ I ์ฐธ์กฐ).
Customized Robot Hand์ ๊ด์ ๊ฐ๋๋ PD controller๋ก ์ ์ด๋ฉ๋๋ค. ์ถ์ ๋ ํฌ์ฆ๋ ์ ์ญ ํต๊ณผ ํํฐ(low-pass filter)๋ฅผ ๊ฑฐ์ณ ์์น ๋ชฉํ(position target)๋ก ์ค์ ๋ฉ๋๋ค. ์๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์ ์ง๊ฐ ์ค๋ฅ(perception error) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ๋ชจ์ ์ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ขฐ๋ ์ ์(confidence score)๋ก ํ์ฉํฉ๋๋ค. ์ด๊ธฐํ ์ ์ต์ ์ ์์ผ์์ ์ถ์ ๋ ๋ชจ์ ํ๋ผ๋ฏธํฐ๋ฅผ ground-truth๋ก ์ฌ์ฉํ๊ณ , ํ์ฌ ํ๋ ์์ ๋ชจ์ ํ๋ผ๋ฏธํฐ์์ ์ค์ฐจ๋ฅผ ํตํด ํฌ์ฆ ์ ํ๋์ ์ ๋ขฐ๋๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ ๋ขฐ๋ ๊ธฐ๋ฐ PD ์ ์ด๋ ๋ค์ ์์์ผ๋ก ํํ๋ฉ๋๋ค:
u(t) = p(t)K_pe(t) + k_d\frac{de(t)}{dt}
์ฌ๊ธฐ์ u(t)๋ ๊ด์ ํ ํฌ(joint torque), K_p์ K_d๋ PD ํ๋ผ๋ฏธํฐ์ด๋ฉฐ, p(t)๋ ์ ๊ทํ๋ ํ๋ฅ ๋ฐ๋(normalized probability density)๋ก ๊ณ์ฐ๋ ์ ๋ขฐ๋ ์ ์์ ๋๋ค. ์ง๊ฐ ์ค๋ฅ๊ฐ ํด ๊ฒฝ์ฐ, ์ ์ด๊ธฐ์ ๊ฐ์ฑ(stiffness)์ ์ค์ฌ ์์น ์๋ ๊ฐ์์ค๋ฌ์ด ์์ง์์ ์ ๊ฑฐํฉ๋๋ค.
IV. Multi-Robots Demonstration Translation
A. Hand Pose Retargeting
๋ง์ถคํ ํธ๋์์ ์์ง๋ ์๋ฒ์ ํน์ ๋ก๋ด ํธ๋๋ก ๋ณํํ๊ธฐ ์ํด Hand Pose Retargeting์ ์ํํฉ๋๋ค. ๋ณธ ์์คํ ์ ์ด๋ฅผ ์คํ๋ผ์ธ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํฉ๋๋ค.
\begin{gathered} \min _{q_t^R} \sum_{i=0}^N\left\|f_i^C\left(q_t^C\right)-f_i^R\left(q_t^R\right)\right\|^2+\alpha\left\|q_t^R-q_{t-1}^R\right\|^2 \\ \quad \text { s.t. } \quad q_{\text {lower }}^R \leq q_t^R \leq q_{\text {upper }}^R, \end{gathered}
์ฌ๊ธฐ์ q_t^C๋ ๋ง์ถคํ ๋ก๋ด์ ์๊ฐ t์์์ ๊ด์ ์์น, q_t^R๋ ํน์ ๋ก๋ด(์: Schunk Robot Hand)์ ํด๋น ๊ด์ ์์น์ ๋๋ค. f_C^i์ f_R^i๋ ๋ ๋ก๋ด์ i-๋ฒ์งธ ํคํฌ์ธํธ(์: ์๊ฐ๋ฝ ๋ ์์น)์ ๋ํ ์ ๋ฐฉ ์ด๋ํ(forward kinematics) ํจ์๋ฅผ ๋ํ๋ ๋๋ค. ์๊ฐ์ ์ผ๊ด์ฑ(temporal consistency)์ ๊ฐ์ ํ๊ธฐ ์ํด ๊ด์ ์์น ๋ณํ๋ฅผ ํจ๋ํฐํ๋ ์ ๊ทํ ํญ์ ์ถ๊ฐํ๊ณ , q_t^R๋ฅผ q_{t-1}^R์ ๊ฐ์ผ๋ก ์ด๊ธฐํํฉ๋๋ค. ์ด ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉด ์ด๋ค ํน์ ๋ก๋ด์ ๋ํด์๋ ๊ด์ ์์น ๊ถค์ q_t^R๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค (๊ทธ๋ฆผ 5 ์ฐธ์กฐ).
B. Action Computation
Joint Pose Trajectory ์ธ์๋ Demo-augmented Policy Learning์ ์ํด ๊ฐ ์๊ฐ๋ฝ ๊ด์ ์ ๋ํ ์ก์ (action), ์ฆ joint torque ๋๋ motor control command๊ฐ ํ์ํฉ๋๋ค. DexMV [54]์ ์ ์ฐจ๋ฅผ ๋ฐ๋ผ, ๋จผ์ joint pose trajectory๋ฅผ 1์ฐจ ์ ์ญ ํต๊ณผ ํํฐ์ ํต๊ณผ์ํจ ํ, ๋ก๋ด ์ญ๋ํ(inverse dynamics)์ ์กฐ์๊ธฐ ๋ฐฉ์ ์(manipulator equation) \tau = f_{inv}(q, q', q'')๋ฅผ ํตํด joint torque๋ฅผ ๊ณ์ฐํฉ๋๋ค.
V. Demonstration-Augmented Policy Learning
๋ฌด์์๋ก ์ด๊ธฐํ๋๊ฑฐ๋ ๋ชฉํ ํฌ์ฆ๊ฐ ์ฃผ์ด์ง๋ ์์ ์์๋ ๋จ์ํ Behavior Cloning๋ง์ผ๋ก๋ ์ฑ๊ณตํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ ์๋ฒ์ RL์ ํตํฉํ๋ Imitation Learning ์๊ณ ๋ฆฌ์ฆ์ธ Demo Augmented Policy Gradient (DAPG) [3]๋ฅผ ์ฌ์ฉํฉ๋๋ค. DAPG์ ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
g_{aug} = \sum_{(s,a)\in\rho^\pi}\nabla \ln \pi(a|s)A^\pi (s, a)+\sum_{(s,a)\in\rho^{\pi_{demo}}}\nabla \ln \pi_\theta (a|s)\lambda_0\frac{\lambda_1}{k} \max_{(s',a')\in\rho^\pi}A^\pi (s', a')
์ฌ๊ธฐ์ ์ฒซ ๋ฒ์งธ ํญ์ RL์ ์ผ๋ฐ์ ์ธ ์ ์ฑ ๊ธฐ์ธ๊ธฐ(policy gradient) ๋ชฉ์ ํจ์์ด๊ณ , ๋ ๋ฒ์งธ ํญ์ ์๋ฒ์ ์ด์ฉํ Imitation ๋ชฉ์ ํจ์์ ๋๋ค. ์ด๋ Behavior Cloning๊ณผ ์จ๋ผ์ธ RL์ ์กฐํฉ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. \rho^\pi๋ ์ ์ฑ \pi ํ์์์ ์ ์ ์ธก์ (occupancy measure), \lambda_0์ \lambda_1์ ํ์ดํผํ๋ผ๋ฏธํฐ, k๋ ํ๋ จ ๋ฐ๋ณต ํ์์ ๋๋ค. A^\pi (s', a')๋ ์ด์ ํจ์(advantage function)์ ๋๋ค.
VI. ์คํ
A. Teleoperation User Study
์ ์๋ Customized Robot Hand์ ์ด์ ์ ์ ์ฆํ๊ธฐ ์ํด 17๋ช ์ ์ธ๊ฐ ์์ ์๋ฅผ ๋์์ผ๋ก ํ ๋ ์คํผ๋ ์ด์ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค. ์์ ์๋ค์ Customized Robot Hand, Schunk SVH Hand, Adroit Hand, Allegro Hand์ ๋ค ๊ฐ์ง ๋ก๋ด ํธ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ Relocate ๋ฐ Open Door ์์ ์ ์ํํ์ต๋๋ค. Customised Robot Hand์ ๊ฒฝ์ฐ ์ธ๊ฐ ํฌ์ฆ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ ๊ด์ ์ PD ๋ชฉํ๋ก ์ง์ ์ฌ์ฉํ์ง๋ง, ๋๋จธ์ง ์ธ ๋ก๋ด์ ๊ฒฝ์ฐ ์จ๋ผ์ธ Motion Retargeting์ด ํ์ํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ํ II(Relocate)์ ํ III(Open Door)์ ๋ํ๋ ์์ต๋๋ค. Customized Robot Hand๋ ๋ค๋ฅธ ์ธ ๋ก๋ด ํธ๋์ ์จ๋ผ์ธ Retargeting ๋ฐฉ์์ ๋นํด ๋ชจ๋ ์์ ์์ ์๋ฑํ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, Relocate ์์ ์ ๊ฒฝ์ฐ Customized Hand๋ ์๊ฐ๋น ์ฝ 60๊ฐ์ ์ฑ๊ณต์ ์ธ ๋ฐ๋ชจ๋ฅผ ์์งํ ์ ์์์ง๋ง, Allegro Hand๋ฅผ ์ง์ ์กฐ์ํ ๋๋ 10๊ฐ์ ๋ถ๊ณผํ์ต๋๋ค. ์ฌ์ฉ์๋ค์ Customized Hand๊ฐ ๋ค๋ฅธ ๋ก๋ด ํธ๋๋ณด๋ค ์ ์ดํ๊ธฐ ์ฝ๋ค๊ณ ๋ณด๊ณ ํ์ต๋๋ค. ์ด๋ ์จ๋ผ์ธ Motion Retargeting ๋จ๊ณ์์ ๋ฐ์ํ๋ ์ ์ด ๋ถ๊ฐ๋ฅํ ์๊ฐ ์๋ชจ(ํ๊ท 76 ยฑ 65ms, ํฐ ํธ์ฐจ) ๋๋ฌธ์ธ ๊ฒ์ผ๋ก ๋ถ์๋์์ต๋๋ค. ์จ๋ผ์ธ Retargeting์ ์ ๊ฑฐํจ์ผ๋ก์จ ์์คํ ์ ๋ ๋ถ๋๋ฝ๊ณ ์ฆ๊ฐ์ ์ธ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค.
B. Task Learning Comparison
Relocate (์ธ ๊ฐ์ง ๋ค๋ฅธ ๋ฌผ์ฒด), Flip, Open Door ์์ ์์ ์ฒ๋ฆฌ๋ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ ํ๋ จํ๊ณ RL baseline๊ณผ ๋น๊ตํ์ต๋๋ค. RL baseline์ผ๋ก๋ Trust Region Policy Optimization (TRPO) [56]์ ์ฌ์ฉํ์ต๋๋ค. ์ ์ฑ ๋ฐ ๊ฐ์น ํจ์(value function)๋ 32 ร 32์ 2-layer Multi-Layer Perceptrons (MLPs)๋ก ๊ตฌ์ฑ๋์๊ณ , TRPO๋ ๊ฐ ์คํ ๋ง๋ค 200๊ฐ์ ๊ถค์ ์ ์ฌ์ฉํ์ต๋๋ค. Imitation Learning ์๊ณ ๋ฆฌ์ฆ์ DAPG๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ฐ ์์ ์ ๋ํด 50๊ฐ์ ์๋ฒ ๊ถค์ ์ ์์งํ๊ณ ์ด๋ฅผ ํน์ ๋ก๋ด์ผ๋ก Retargetingํ์ต๋๋ค.
ํ๋ จ ๊ณก์ ์ ๊ทธ๋ฆผ 6์, ์ธ ๊ฐ์ง ํน์ ๋ก๋ด ํธ๋์ ์ฑ๊ณต๋ฅ ์ ํ IV์ ์์ฝ๋์ด ์์ต๋๋ค. Imitation Learning ๋ฐฉ์์ธ DAPG๋ ๋๋ถ๋ถ์ ์์ ๊ณผ ๋ก๋ด์์ RL baseline์ ๋ฅ๊ฐํ์ต๋๋ค. ์ด๋ Motion Retargeting์ ํตํด ์์ฑ๋ ์๋ฒ์ด ์ ์ฑ ํ๋ จ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ ์ผํ ์์ธ๋ Allegro Hand๋ฅผ ์ฌ์ฉํ Open Door ์์ ์ด์๋๋ฐ, DAPG๋ ์์ฐ์ค๋ฌ์ด ํ๋์ผ๋ก ์์ก์ด๋ฅผ ์ก๊ณ ๋ฌธ์ ์ด๋ ค๊ณ ์๋ํ๋ ๋ฐ๋ฉด, RL ์ ์ฑ ์ ํฐ ํ์ผ๋ก ์์ก์ด๋ฅผ ๋๋ฅด๋ฉฐ ๋ง์ฐฐ์ ์์กดํ์ฌ ๋ฌธ์ ์ฌ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค (๊ทธ๋ฆผ 8). ์ด๋ ์๋ฒ์ด ์ ์ฑ ์ ํ๋์ ์์๋(์ธ๊ฐ๊ณผ ๊ฐ์) ์์ ํ ๋ฐฉํฅ์ผ๋ก ์กฐ์ ํ๋ ๋ฐ ์ค์ํ ๊ฐ์น๋ฅผ ์ ๊ณตํจ์ ๊ฐ์กฐํฉ๋๋ค.
C. Ablation Study
๋ค์ํ ๋์ ์กฐ๊ฑด๊ณผ ์๋ฒ ๋ฐ์ดํฐ ์์ ์ํฅ์ ์กฐ์ฌํ๊ธฐ ์ํด, ๋ฌผ์ฒด ๋ง์ฐฐ, ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ, ๋ฌผ์ฒด ๋ฐ๋, ์๋ฒ ๋ฐ์ดํฐ ์๋ฅผ ๋์์ผ๋ก Relocate (tomato soup can, Schunk Robot) ์์ ์์ Ablation Study๋ฅผ ์ํํ์ต๋๋ค (๊ทธ๋ฆผ 7). ํ์ต ๊ณก์ ์ ๋ง์ฐฐ ๋ณํ์ ๊ฐ๊ฑดํจ์ ๋ณด์๋๋ฐ, ์ด๋ ๋ค์ง ํธ๋๊ฐ ์ฌ๋ฌ ์ ์ด์ ์ ํตํด ํ ํ์(force closure)๋ฅผ ํ์ฑํ์ฌ ๋ง์ฐฐ์ ๋ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฌผ์ฒด ๋ฐ๋์ ๋ํด์๋ ์ ์ฌํ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ์ต๋๋ค. ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ์ ๊ฒฝ์ฐ, ๊ฐ์ฑ์ด ํด์๋ก ๋ ๋นจ๋ฆฌ ๋ชฉํ์ ๋๋ฌํ์ง๋ง, ์์ PD ๊ฐ์ผ๋ก๋ ์์ ์ ํด๊ฒฐํ ์ ์์์ต๋๋ค. ๋ ๋ง์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, 20-30๊ฐ์ ๋ฐ๋ชจ์์๋ ๋ถ์ฐ(variance)์ด ๋ ํฌ๊ฒ ๋ํ๋ฌ์ต๋๋ค.
D. Real-World Robot Experiments
์ค์ ๋ก๋ด ์คํ์์๋ XArm-6 ๋ก๋ด ์ [58]์ Allegro Hand๋ฅผ ๋ถ์ฐฉํ์ต๋๋ค (๊ทธ๋ฆผ 9 ์ฐธ์กฐ). Relocate ๋ฐ Flip ์์ ์ ํ๊ฐํ์ผ๋ฉฐ, Sim2Real ์ ์ด๋ฅผ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ํ๋ จ ์ค ๋ฌผ์ฒด ํฌ์ฆ์ ๊ฐ์ฐ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(additive Gaussian noise)๋ฅผ ์ ์ฉํ๊ณ ๋ง์ฐฐ, ๋ฐ๋, PD ์ ์ด ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฌด์์ํํ์ต๋๋ค. ๊ด์ธก ๊ณต๊ฐ์ ๋ก๋ด ๊ณ ์ ์ํ(proprioceptive state), ๋ฌผ์ฒด ํฌ์ฆ(์ด๊ธฐ ํฌ์ฆ๋ RealSense D435 ์นด๋ฉ๋ผ๋ก ์บก์ฒ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ICP ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ถ์ ), ๊ทธ๋ฆฌ๊ณ Relocate์ ๊ฒฝ์ฐ ๋ชฉํ ์์น๋ฅผ ํฌํจํ์ต๋๋ค.
Relocate ์์ ์์๋ ํ๋ จ์ ์ฌ์ฉ๋ ๋ฌผ์ฒด(known object)์ ํ๋ จ ์ค ๋ณด์ง ๋ชปํ ์๋ก์ด ๋ฌผ์ฒด(novel object) ๊ทธ๋ฃน์ผ๋ก ๋๋์ด ์ ์ฑ ์ ํ๊ฐํ์ต๋๋ค (๊ทธ๋ฆผ 10). ์ ๋์ ๊ฒฐ๊ณผ(ํ V)๋ Imitation Learning (DAPG)์ด ์์ RL๋ณด๋ค ์ค์ ๋ก๋ด ์ ์ด ์ ํจ์ฌ ๋ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์กฐ์ ์ ์ฑ ์ด Sim2Real ๊ฐญ์ ๋ ๊ฐ๊ฑดํ๊ธฐ ๋๋ฌธ์ผ๋ก ์ถ์ ๋ฉ๋๋ค. ๋์ฑ ํฅ๋ฏธ๋กญ๊ฒ๋, ํ์ต๋ ์ ์ฑ ์ ํ๋ จ ์ค ๋ณด์ง ๋ชปํ ์๋ก์ด ๋ฌผ์ฒด์๋ ์ผ๋ฐํ๋์์ต๋๋ค. ์ด๋ ๋ค์ง ํธ๋๊ฐ ์ธ๊ฐ์ฒ๋ผ ์๋ํ ๋ ํ์ ๋ณํ์ ๋ํ ์ผ์ ์์ค์ ๊ฐ๊ฑดํจ์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค.
์ ์ฑ ์๊ฐํ(๊ทธ๋ฆผ 11)๋ Sim2Real ๊ฐญ์ ๋ํ Imitation Learning ์ ์ฑ ์ ๊ฐ๊ฑดํจ์ ์ค๋ช ํฉ๋๋ค. Relocate ์์ ์์ RL ์ ์ฑ ์ ๋ถ์์ ํ ์ ์ด(๋ ์๊ฐ๋ฝ๋ง ์ฌ์ฉ)์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๊ฒฝํฅ์ด ์์์ง๋ง, ์๋ฒ์ผ๋ก ํ๋ จ๋ ์ ์ฑ ์ ๋ค ์๊ฐ๋ฝ ๋ชจ๋๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์ ์ผ๋ก ์ก์์ต๋๋ค. ์ด๋ก ์ธํด ์ค์ ๋ก๋ด์์๋ RL ์ ์ฑ ์ ๋ฌผ์ฒด๊ฐ ์์์ ๋ฏธ๋๋ฌ์ง๋ ๋ฐ๋ฉด, Imitation Learning ์ ์ฑ ์ ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์์ต๋๋ค. Flip ์์ ์์๋ ์์ RL ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ์์ ์ปต์ ๋น ๋ฅด๊ฒ ๋ฐ์ด ํด๊ฒฐํ์ง๋ง, Imitation Learning ์ ์ฑ ์ ํ ์๊ฐ๋ฝ์ ์ปต ์์ ๋ฃ๊ณ ์๋ชฉ์ ํ์ ์ํค๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํ๋์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ RL ์ ์ฑ ์ ํ๋์ ์ค์ ๋ก๋ด ํธ๋์์๋ ๊ฑฐ์ ์ฑ๊ณตํ์ง ๋ชปํ์ต๋๋ค. ๋ ๊ฐ์ง ์์ ๋ชจ๋์์ ์์ RL์ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ์ ํน์ฑ์ โํดํนโํ์ฌ ๋ถ์์ฐ์ค๋ฌ์ด ํ๋์ ํ์ตํ๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, ์ด๋ ์ค์ ์ธ๊ณ๋ก ์ ์ด๋๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด, ๋ณธ ๋ ผ๋ฌธ์ ์๋ฒ์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํ๋์ ํ์ตํ๋ Imitation Learning์ ์ค์ ์ธ๊ณ ์์ฉ์ ํจ์ฌ ๋ ๊ฐ๊ฑดํ๊ณ ์์ ์ ์ธ ์ ์ฑ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
VII. ๊ฒฐ๋ก
๋ณธ ๋ ผ๋ฌธ์ Imitation Learning์ ์ํ ์ธ๊ฐ ์ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด ์๋ก์ด ๋จ์ผ ์นด๋ฉ๋ผ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ์ ์ํฉ๋๋ค. ํนํ, ๋ค์ํ ์ธ๊ฐ ์์ ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ค ์ง๊ด์ ์ผ๋ก ์์งํ ์ ์๋๋ก ๋ง์ถคํ ๋ก๋ด ํธ๋(customized robot hand) ๊ฐ๋ ์ ๋์ ํ์ต๋๋ค. ์์ง๋ ์๋ฒ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๋ก๋ด์์์ Dexterous Manipulation ํ์ต์ ๊ฐ์ ํ๊ณ , ๋ฐ์ดํฐ ์์ง์ด ๋จ ํ ๋ฒ๋ง ํ์ํจ์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ์ธ๊ณ์ ๋ฐฐ์น๋ ๋ ๊ฐ๊ฑด์ฑ์ ๋์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Detail Review
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: From One Hand to Multiple Hands โ Single-Camera Teleoperation์ ํ์ฉํ ๋ค์ง ๋ก๋ด ์ ๋ชจ๋ฐฉํ์ต
1. ๋ฐฉ๋ฒ๋ก (Methodology)
1.1 ๋จ์ผ ์นด๋ฉ๋ผ ํ ๋ ์คํผ๋ ์ด์ ์ ํตํ ๋ฐ๋ชจ ์์ง
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ๋จ์ผ RGB-D ์นด๋ฉ๋ผ(์์ดํจ๋)์ ๊ธฐ๋ฐํ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ํตํด ์ธ๊ฐ ์ ์์ฐ(demonstration)์ ํจ์จ์ ์ผ๋ก ์์งํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ค. ์ฌ์ฉ์๋ ํน์ ์ฅ๋น ์์ด ์์ดํจ๋ ํ ๋๋ง์ผ๋ก ์์ ์ ์ ๋์์ ์ดฌ์ํ์ฌ 3์ฐจ์ ์ ์์ธ์ ํ์์ ์ค์๊ฐ์ผ๋ก ์ถ์ ํ๋ค. ์ ์๋ค์ MediaPipe์ FrankMocap ๊ธฐ๋ฐ์ ์ ์ถ์ ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ, ์ ๋ ฅ RGB-D ์์์์ ์๋ชฉ ์์น, ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋(ํฌ์ฆ) ๋ฐ ์ ํํ(shape) ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ์ ํ๋ค. ์ฌ๊ธฐ์ SMPL-X ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์์ ํ์๊ณผ ํฌ์ฆ๋ฅผ ํ๋ผ๋ฏธํฐํํ๋ฉฐ, ์ด๊ธฐ ํ๋ ์์์ ์ถ์ ๋ ์ ํํ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์ฌ์ฉ์์ ์ ํฌ๊ธฐ์ ๋ชจ์์ ํ์ ํ๋ค. ์ดํ ์ด ์ ๋ณด๋ฅผ ์ด์ฉํด ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ(SAPIEN) ์์ ์ฌ์ฉ์ ์๊ณผ ๋์ผํ ํํใปํฌ๊ธฐ์ ๋ง์ถคํ ๋ก๋ด ์ ๋ชจ๋ธ์ ์ฆ์์์ ์์ฑํ๋ค. ์ด ์ปค์คํ ๋ก๋ด ์(customized robot hand)์ ์ฌ์ฉ์์ ์ ๊ณจ๊ฒฉ๊ณผ ์ด๋ํ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๋ฐ์ํ๋ฉฐ, ์๋ฅผ ๋ค์ด ์ฌ์ฉ์์ ์์ง์๊ฐ๋ฝ์ด ์งง๋ค๋ฉด ์์ฑ๋ ๋ก๋ด ์์์๋ ์์ง๊ฐ ์งง๊ฒ ๊ตฌํ๋๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ก๋ด ์ ๋ชจ๋ธ์ ์ฝ 45์์ ๋(DoF)๋ฅผ ๊ฐ์ ธ ์ธ๊ฐ ์์ ์ฌ์ธํ ์์ง์์ ๋ชจ์ฌํ๋ค.
์ฌ์ฉ์๋ ์์ ์ ์์ ์์ง์ด๋ฉด, PD ์ ์ด๊ธฐ๋ฅผ ํตํด ํด๋น ๊ด์ ๋ชฉํ๊ฐ์ด ์๋ฎฌ๋ ์ดํฐ์ ์ปค์คํ ๋ก๋ด ์์ ์ ๋ฌ๋์ด ๋ก๋ด ์์ด ๋ฐ๋ผ ์์ง์ธ๋ค. ์ด๋ ์์ ๊ธฐ๋ฐ ์ถ์ ์ ์ค์ฐจ๋ก ์ธํ ์ก์์ด๋ ํ๋ ๋์์ ์ค์ด๊ธฐ ์ํด, ์ ์๋ค์ ์ ํํ ์ถ์ ๊ฐ์ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ค์น๋ก ํ์ฉํ PD ์ ์ด ๊ธฐ๋ฒ์ ๊ณ ์ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด๊ธฐ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ์ป์ ์ shape ํ๋ผ๋ฏธํฐ๋ฅผ ๊ธฐ์ค๊ฐ์ผ๋ก ์ผ๊ณ , ๋งค ํ๋ ์์ shape ์ถ์ ์น์์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ์ฌ ์ถ์ ์ ํ๋์ ์ ๋ขฐ๋๋ก ํ์ฉํ๋ค. ์ ๋ขฐ๋๊ฐ ๋ฎ์ ๊ฒฝ์ฐ(์ ์ถ์ ์ค์ฐจ๊ฐ ํฐ ๊ฒฝ์ฐ) PD ์ ์ด์ ๊ฐ์ฑ์ ๋ฎ์ถ์ด ๊ฐ์์ค๋ฐ ์๋ชป๋ ๋์ ์ ์ก์ ์ต์ ํจ์ผ๋ก์จ, ๋ถ๋๋ฝ๊ณ ์์ ์ ์ธ ์๊ฒฉ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
์ด ์์คํ ์ ์จ๋ผ์ธ ๋ชจ์ ๋ฆฌํ๊ธฐํ (motion retargeting)์ ํ์๋ก ํ์ง ์๋๋ค๋ ์ ์์ ๊ธฐ์กด ๋ฐฉ์๊ณผ ์ฐจ๋ณํ๋๋ค. ์ผ๋ฐ์ ์ธ ๋น์ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ ์์๋ ์ฌ๋ ์์ ๊ด์ ์์ง์์ ๋ก๋ด ์์ ๊ด์ ๋ก ์ค์๊ฐ ๋ณํํด์ผ ํ๋๋ฐ, ์ฌ๋ ์๊ณผ ๋ก๋ด ์ ๊ตฌ์กฐ ์ฐจ์ด๋ก ์ธํด ์ ์ด๊ฐ ์ด๋ ต๊ณ ์ง์ฐ์ด ๋ฐ์ํ๊ณค ํ๋ค. ๋ฐ๋ฉด ๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ์ฉ์๋ณ๋ก ๋์ผํ ๊ตฌ์กฐ์ ๋ก๋ด ์์ ์ฌ์ฉํ๋ฏ๋ก ์ด๋ฌํ ๋งคํ ๊ณผ์ ์ด ๋ถํ์ํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฌ์ฉ์๋ ๋ง์น ์์ ์ ์์ ๊ทธ๋๋ก ๊ฐ์ ๊ณต๊ฐ์ ์ฎ๊ฒจ๋์ ๋ฏํ ์์ฐ์ค๋ฌ์ด ๋ฐฉ์์ผ๋ก ๋ฌผ์ฒด ์กฐ์ ์์ฐ์ ํ ์ ์๋ค. ์ ์๋ค์ ์ฌ์ฉ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์ ์ ์์คํ ์ผ๋ก๋ 1์๊ฐ์ ์ฝ 60๊ฐ์ ์ฑ๊ณต ์์ฐ์ ๋ชจ์ ์ ์๋๋ฐ, ์ด๋ ์์ปจ๋ ์ฌ์ฉ์๊ฐ ์ง์ Allegro ๋ก๋ด ์(4์๊ฐ๋ฝ ๋ก๋ด)์ ์กฐ์ํด ์์ฐ์ ๋ชจ์ ๋์ ์ฝ 10๊ฐ์ ๋นํด 6๋ฐฐ์ ๋ฌํ๋ ์์น๋ค. ์คํ์ ์ฐธ์ฌํ ์ฌ๋๋ค ์ญ์ ์ปค์คํ ์์ด ๊ธฐ์กด ๋ก๋ด ์๋ณด๋ค ์กฐ์ํ๊ธฐ ํจ์ฌ ์ฝ๋ค๊ณ ํ๊ฐํ์๋ค. ์ด๋ฌํ ๋์ ๋ฐ๋ชจ ์์ง ํจ์จ์ ๋๊ท๋ชจ์ ์์ง์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๊ฒ ํด์ฃผ๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ฐฉ ํ์ต ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋ค.
1.2 ๋ค์ค ๋ก๋ด ์์ผ๋ก์ ์์ฐ ๋ฐ์ดํฐ ๋ณํ (Multi-Hand Demonstration Translation)
์๋ฎฌ๋ ์ดํฐ์์ ์์ง๋ ๋ง์ถคํ ๋ก๋ด ์์ ์์ฐ trajectories๋, ์คํ๋ผ์ธ ๋จ๊ณ์์ ์์์ ํ๊น ๋ก๋ด ์ ๋ชจ๋ธ๋ก ๋ณํ(retargeting)๋๋ค. ์ด๋ ํ ๋ฒ์ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ ์์ง์ผ๋ก ์ฌ๋ฌ ์ข ๋ฅ์ ๋ก๋ด ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์์ ์๋ฏธํ๋ค. ๋ ผ๋ฌธ์์๋ Schunk SVH 5์๊ฐ๋ฝ ๋ก๋ด ์, Adroit ์(์๋์์ด๊ณ ๋ํ Adroit) ๋ฐ Allegro Hand(4์๊ฐ๋ฝ)์ ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ์์ฉ ๋ก๋ด ์์ ๋์์ผ๋ก ์คํํ์๋ค. ์ด๋ค ๋ก๋ด ์๋ค์ ํํ(geometry)์ ์ด๋ ๋ฒ์(DOF)๋ฟ ์๋๋ผ ์๊ฐ๋ฝ ๊ฐ์๊น์ง ์ฌ๋ ์๊ณผ ์์ดํ์ง๋ง, ์ปค์คํ ์ ์์ฐ์ ๊ฐ ๋ก๋ด ์์ ๋ฐ์ดํฐ๋ก ๋ณํํจ์ผ๋ก์จ ๋์ผ ๊ณผ์ ์ ๋ํ ๋ค์ข ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ ์ ์๋ค.
๋ชจ์ ๋ฆฌํ๊ธฐํ ์ ๊ฐ ๋ก๋ด ์์ ๊ด์ ์์ง์ ๊ถค์ ์ ์ฐพ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๊ณต์ํ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ปค์คํ ์๊ณผ ํ๊น ๋ก๋ด ์์ ์ค์ ํคํฌ์ธํธ (์๊ฐ๋ฝ ๋ ์์น ๋ฑ)๊ฐ ์ต๋ํ ์ผ์นํ๋๋ก ๋ ์์ ๊ด์ ๊ฐ์ ์กฐ์ ํ๋ ๋ฐฉ์์ ์ทจํ๋ค. ๊ฐ ์์ ์์ ์ ์ ๋ชจ๋ธ์ ์ ๋ฐฉํฅ ์ด๋ํ ๊ฒฐ๊ณผ(์๊ฐ๋ฝ ํคํฌ์ธํธ ์ขํ) ๊ฐ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ๊ด์ ๊ตฌ์ฑ์ ์ฐพ์๋ด๋ฉฐ, ์๊ฐ์ ์ฐ์์ฑ์ ์ํด ์ด์ ํ๋ ์์ ํด๋ก ์ด๊ธฐํํ๊ณ ๊ด์ ๋ณํ๋์ ๋ํ ์ ๊ทํ ํญ์ ์ถ๊ฐํ์ฌ ๋ถ๋๋ฌ์ด ๊ถค์ ์ ์ป๋๋ค. ์ด๋ ๊ฒ ๊ณ์ฐ๋ ๊ด์ ์์น trajectory๋ ํด๋น ๋ก๋ด ์์์์ ์์ฐ์ผ๋ก ๊ฐ์ฃผ๋๋ฉฐ, ์ดํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํฌ์ ๋ ์ ์๋ค. ํนํ Allegro Hand์ ๊ฒฝ์ฐ ์ธ๊ฐ ์๊ฐ๋ฝ๋ณด๋ค ํ๋ ์ ์ 4๊ฐ ์๊ฐ๋ฝ๋ง ์๊ธฐ ๋๋ฌธ์, ์ต์ ํ ๊ณผ์ ์์ ์ธ๊ฐ์ ์ฝ์ง/์์ง ์์ง์์ ๋๋จธ์ง ์๊ฐ๋ฝ์ ๋ถ์ฐ์ํค๋ ๋ฑ ํํ ์ฐจ์ด๋ฅผ ๋ณด์ ํ๋ค. ์ ์๋ค์ ์ด๋ฌํ ์คํ๋ผ์ธ ๋ฆฌํ๊ธฐํ ์ ์ค์๊ฐ์ผ๋ก ํ ๋๋ณด๋ค ๊ณ์ฐ ๋น์ฉ์ด ํฌ์ง๋ง, ํ ๋ฒ๋ง ์ํํ๋ฉด ๋๋ฏ๋ก ์ถฉ๋ถํ ๊ฐ๋ดํ ์ ์๋ ์์ค์ด๋ผ๊ณ ์ค๋ช ํ๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ์คํ๋ผ์ธ ๋ฆฌํ๊ธฐํ ์ ์ ๋ฐ๋ฆฌ์ด ๋จ์์ ๊ณ์ฐ ์๊ฐ์ด ๋ค์ง๋ง, ์จ๋ผ์ธ ๋ฆฌํ๊ธฐํ ์์๋ ๋ฐ๋ณต ์ต์ ํ๋ก ์ธํด ํ๋ ์ ๊ฐ ์ง์ฐ์ด ๋ค์ฅ๋ ์ฅ ์ปค์ ธ ์ฌ๋์ด ๋ค์ ๋์์ ์์ธกํ๋ฉฐ ์กฐ์ํ๊ธฐ ์ด๋ ต๊ฒ ๋๋ค๊ณ ์ง์ ํ๋ค. ์ปค์คํ ์ ์ ๊ทผ๋ฒ์ ์ด๋ฌํ ์จ๋ผ์ธ retargeting์ ๋ฐ๋ฅธ ์ง์ฐ๊ณผ ๋ถ์์ ์ฑ ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด์ํ์๋ค.
๋ฆฌํ๊ธฐํ ๋ ์์ฐ ๋ฐ์ดํฐ์๋ ๊ฐ ๋ก๋ด ์์ ์ํ(๊ด์ ๊ฐ ๋ฑ) ๋ฟ ์๋๋ผ ํ๋(action) ๋ฐ์ดํฐ๋ ํ์ํ๋ค. ๋ชจ๋ฐฉ ํ์ต์ ์ํด์๋ ์์ฐ ์ํ์ค์ ์ํ-์ก์ ์์ด ํ์ํ๋ฐ, ๊ด์ ์์น ๊ถค์ ์ผ๋ก๋ถํฐ ํด๋น ๋ก๋ด ์์ ๊ตฌ๋ ๋ช ๋ น(ํ ํฌ ๋๋ ๋ชจํฐ ์ ๋ ฅ)์ ๊ณ์ฐํ๋ ์ ์ฐจ๊ฐ ์ถ๊ฐ๋๋ค. ์ด ๋ถ๋ถ์์ ์ ์๋ค์ ์ด์ ์ฐ๊ตฌ์ธ DexMV ๋ฐฉ๋ฒ๋ก ์ ์ฐธ๊ณ ํ์ฌ, ์ฐ์ ๊ด์ ๊ฐ ์ํ์ค์ 1์ฐจ ์ ์ญํต๊ณผ ํํฐ๋ฅผ ์ ์ฉํ๊ณ , ๋ก๋ด ์ญ๋์ญํ(manipulator equation) ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ์์ ์ ๊ด์ ํ ํฌ๋ฅผ ์ถ์ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์๋ค. ์ด๋ฅผ ํตํด ์์ฐ ๊ถค์ ์ ๋ฐ๋ผ๊ฐ๋ ๋ฐ ํ์ํ ๊ทผ์ฌ ์ ์ด ์ ํธ๊น์ง ๊ณ์ฐํจ์ผ๋ก์จ, ์ต์ข ์ ์ผ๋ก โ(์ํ, ์ก์ ) ๊ถค์ โ ํํ์ ํ์ต์ฉ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค.
1.3 ๋ชจ๋ฐฉ ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์ ์ฑ ํ์ต
์ด๋ ๊ฒ ์ค๋น๋ ๋ค์ ๋ก๋ด ์์ ์ธ๊ฐ ์์ฐ๋ค์ ํ์ฉํ์ฌ, ์ต์ข ์ ์ผ๋ก ๋ค์ด๋ ํธ ์ ์ฑ ํ์ต(policy learning)์ ์ํํ๋ค. ๊ฐ์ฅ ๋จ์ํ ์ ๊ทผ์ธ ํ๋ ํด๋ก๋(Behavior Cloning)์ ๊ฒฝ์ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ก ๋ชจ๋ฐฉํ๋๋ก ํ์ตํ๋ฉด ๋์ง๋ง, ์ด๊ธฐ ์ํ๋ ๋ชฉํ ์กฐ๊ฑด์ด ๋ณํ๋ ๋ณต์กํ ์์ ์์๋ ์์ ํ๋ ํด๋ก๋๋ง์ผ๋ก๋ ์ฑ๊ณต์ ์ธ ์ ์ฑ ์ ์ป๊ธฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ๋ ผ๋ฌธ์์๋ ๊ฐํํ์ต(RL)์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ํํ์ ๋ชจ๋ฐฉ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฑํํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Rajeswaran ๋ฑ์ด ์ ์ํ DAPG (Demo Augmented Policy Gradient) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐํํ์ต ๋ชฉํ์ ์์ฐ ๋ชจ๋ฐฉ ํญ(term)์ ์ถ๊ฐํ์๋ค. DAPG๋ ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ์ฌ์ ํ์ต(behavior cloning)์ ์ค์ํ ํ, ์ดํ ํ์ต ๊ณผ์ ์์๋ ์ ์ฑ ๊ทธ๋๋์ธํธ ๊ณ์ฐ ์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ ๋๋ ๋ณด์(or ์ ๊ทํ ํญ)์ ์ถ๊ฐํจ์ผ๋ก์จ, ํ์ค RL๊ณผ BC์ ์กฐํฉ์ผ๋ก ๋ณผ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ TRPO(Trust Region Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ RL ๊ธฐ๋ฒ์ผ๋ก ์ฌ์ฉํ๊ณ , ์ฌ๊ธฐ์ ๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ธํ ์ผ๋ก DAPG๋ฅผ ์ ์ฉํ์ฌ ํ์ต์ ์งํํ์๋ค.
์ ์ฑ ํ์ต์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ด๋ฃจ์ด์ง๋ฉฐ, ๊ด์ธก ์ํ์๋ ๋ก๋ด ์ ๊ด์ ์ํ, ์๋ฐ๋ฅ(ํ)์ ์๋, ๋ฌผ์ฒด์ 3D ์์น์ ์์ธ ๋ฑ์ด ํฌํจ๋๋ค. ๊ณผ์ ์ ๋ฐ๋ผ ๋ชฉํ๋ฌผ์ ์์น๋ ๋ฌธ์ ํ์ง ๊ฐ๋ ๋ฑ์ ๋ชฉํ ์กฐ๊ฑด๋ ๊ด์ธก์ ์ฃผ์ด์ง๋ฉฐ, ์์ด์ ํธ์ ํ๋์ ์๋ฐ๋ฅ ์ด๋(์์ ๊ณต๊ฐ์์์ 6-์์ ๋ ์์ง์์ 6์ฐจ์ ์๋ ์ ์ด)๊ณผ ์๊ฐ๋ฝ ๊ด์ ์ ์ด(PD ์์น ์ ์ด ์ ๋ ฅ)๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ์ ์ฑ ์ ํด๋น ๋ก๋ด ์ ๋ชจ๋ธ์ ์๋ฎฌ๋ ์ด์ ์์ ๋์์ ์ตํ๊ฒ ๋๋ฉฐ, ์ดํ ์ค์ ๋ก๋ด ์์ผ๋ก์ ์ด์์ ๋ชฉํ๋ก ํ๋ค. ํนํ ์ค์ธ๊ณ๋ก์ ์ผ๋ฐํ๋ฅผ ๋๊ธฐ ์ํด, ํ์ต ์ค์ ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ์ ๋์ ํ์๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด์ ์ด๊ธฐ ์์น๋ ๋ฌผ๋ฆฌ ์์ฑ(๋ง์ฐฐ ๊ณ์, ๋ฌด๊ฒ ๋ฑ)์ ๋ค์ํ๊ฒ ๋๋คํํ๊ณ , ๊ด์ธก๋๋ ๋ฌผ์ฒด ์ํ์ ๊ฐ์ฐ์์ ์ก์์ ์ถ๊ฐํ์ฌ ์ผ์ ๋ ธ์ด์ฆ์ ํ๊ฒฝ ์ฐจ์ด๋ฅผ ๊ฒฌ๋๋๋ก ํ๋ จํ๋ค. ์ด๋ฌํ ์ ๋ต๊ณผ ์ธ๊ฐ ์ๆผ์ ๋์ ์ผ๋ก ์ ์ฑ ์ด ์ฌ๋๊ณผ ์ ์ฌํ ๋์ ์ ๋ต์ ํ์ตํ๊ฒ ๋์ด, ์๋ฎฌ๋ ์ด์ -์ค์ธ๊ณ ๊ฐ ๊ฒฉ์ฐจ(sim2real gap)๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ํฐ ๋์์ด ๋์๋ค๊ณ ์ ์๋ค์ ๋ฐํ๊ณ ์๋ค.
2. ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ ํ๊ฐ (Experiments and Results)
2.1 ์คํ ํ๊ฒฝ๊ณผ ๊ณผ์ ๊ตฌ์ฑ
์ ์๋ค์ ์์ ๊ตฌ์ถํ SAPIEN ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ์์ ์ธ ๊ฐ์ง ๋ณต์กํ ๋ค์ง ์กฐ์ ๊ณผ์ ๋ฅผ ์คํํ๋ค. ๊ฐ ๊ณผ์ ๋ ์ค์ ์ธ๊ฐ ์์ฐ์ ํตํด ๋ฐ์ดํฐ๊ฐ ์์ง๋๊ณ , ์ดํ ์ ์ฑ ํ์ต ๋ฐ ํ๊ฐ์ ํ์ฉ๋์๋ค:
- Relocate (๋ฌผ์ฒด ์ฎ๊ธฐ๊ธฐ): ๋ก๋ด ์์ด ํ์ ์์ ๋ฌผ์ฒด๋ฅผ ์ง์ด์ ์์์ ๋ชฉํ ์์น๋ก ์ฎ๊ธฐ๋ ์์ ์ด๋ค. ์ด๊ธฐ ๋ฌผ์ฒด์ ์์ธ์ ๋ชฉํ ์์น๋ ์ํผ์๋๋ง๋ค ๋ฌด์์๋ก ์ค์ ๋๋ฉฐ, ๋ก๋ด์ ๋ฌผ์ฒด๋ฅผ ๋ค์ด์ฌ๋ ค ์ ํด์ง ์์น์ ๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด ๊ณผ์ ์๋ YCB ๊ฐ์ฒด์ ์ ํ ๋งํ ์ํ ์บ, ํต์กฐ๋ฆผ(Potted Meat Can), ๋จธ์คํ๋ ๋ณ์ ์ธ ๊ฐ์ง ๋ฌผ์ฒด๊ฐ ์ฌ์ฉ๋์ด, ๋ชฉํ์งํฅ ๋ค์ค ๋ฌผ์ฒด ์กฐ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค.
- Flip (๋จธ๊ทธ์ปต ๋ค์ง๊ธฐ): ํํํ ํ ์ด๋ธ ์์ ๋์ธ ๋จธ๊ทธ์์ 90๋ ํ์ ์์ผ ์์ผ๋ก ๋ํ๋ ์์ ์ด๋ค. ๋ก๋ด ์์ ์์ ์์ผ์ฅ๊ณ ์ฒ์ฒํ ๊ธฐ์ธ์ฌ ๋ํ์ผ ํ๋ฉฐ, ์ง๋์น ํ์ ์ฃผ๋ฉด ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ํ๊ฒจ๋๊ฐ ์ ์๋ค. ์ด ๊ณผ์ ๋ ํน์ ๋ฐฉํฅ์ผ๋ก ํ์ ๋ฏธ์ธํ๊ฒ ๊ฐํ์ฌ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ๋งค ์ํผ์๋๋ง๋ค ๋จธ๊ทธ์์ ์ด๊ธฐ ์์น์ ํ์ ๊ฐ๋๊ฐ ๋ฌด์์๋ก ๋ณ๊ฒฝ๋๋ค.
- Open Door (๋ฌธ ์ด๊ธฐ): ๋ฌธ์ ๋ฌ๋ฆฐ ๋ ๋ฒ ํํ์ ์์ก์ด๋ฅผ ๋๋ ค์ ๋ฌธ์ ์ฌ๋ ์ด๋จ๊ณ ์์ ์ด๋ค. ๋จผ์ ์์ก์ด๋ฅผ ์ฅ๊ณ ํ์ ์์ผ ์ ๊ธ์ ํด์ ํ ๋ค, ๊ณ์ ์ก์ ์ํ๋ก ๋ฌธ์ ๋น๊ฒจ์ ์ฐ๋ค. ๋ก๋ด ์์ ์์ก์ด๋ฅผ ๋จ๋จํ ํ์งํ๋ฉด์๋ ํ์ ๊ณผ ๋น๊ธฐ๊ธฐ ๋ ๋์์ ๋ชจ๋ ์ํํ ์ ์๋ ์ ์ ํ ์๊ฐ๋ฝ ๊ตฌ์ฑ์ ์ฐพ์์ผ ํ๋ค. ๋งค ์๋๋ง๋ค ๋ฌธ์ ์์น(๊ฑฐ๋ฆฌ ๋ฑ)๊ฐ ์ฝ๊ฐ์ฉ ๋ฐ๋์ด, ์ผ๋ฐํ๋ ๋ฌธ ์ด๊ธฐ ๋์์ ์ตํ์ผ ํ๋ค.
๊ฐ ๊ณผ์ ์ ์ฑ๊ณต ๊ธฐ์ค์ ๋ช ํํ๊ฒ ์ ์๋์๋ค. ์๋ฅผ ๋ค์ด Relocate์ ๊ฒฝ์ฐ ์ํผ์๋ ์ข ๋ฃ ์ ๋ฌผ์ฒด์ ๋ชฉํ ์ง์ ์ฌ์ด ๊ฑฐ๋ฆฌ๊ฐ ์ผ์ ์๊ณ๊ฐ ์ดํ์ด๋ฉด ์ฑ๊ณต์ผ๋ก ํ์ ํ๊ณ , Flip์ ๋จธ๊ทธ์์ ๊ธฐ์ธ๊ธฐ ๊ฐ๋๊ฐ ๋ชฉํ ๋ฒ์์ ๋ค์ด์ค๋ฉด ์ฑ๊ณต์ผ๋ก ๋ณธ๋ค. Open Door๋ ๋ฌธ ๊ฒฝ์ฒฉ์ ํ์ ๊ฐ์ด ์ผ์ ๊ฐ๋ ์ด์ ๋ฒ์ด์ ธ ์ค์ ๋ก ๋ฌธ์ด ์ด๋ ธ์ ๋ ์ฑ๊ณต ์ฒ๋ฆฌํ๋ค. ์ด๋ฌํ ์ฑ๋ฅ ์งํ๋ฅผ ํตํด ์ฑ๊ณต๋ฅ (success rate)์ด๋ ์ํผ์๋ ๋ฆฌํด(return) ๋ฑ์ ์ธก์ ํ์๋ค.
2.2 ์ฌ์ฉ์ ์๊ฒฉ์กฐ์ ์คํ: ์ปค์คํ ์ vs. ๊ธฐ์กด ๋ก๋ด ์
๋จผ์ ๋ฐ๋ชจ ์์ง ๋จ๊ณ์ ํจ์ฉ์ฑ์ ํ์ธํ๊ธฐ ์ํด ์ํ๋ ํ ๋ ์คํผ๋ ์ด์ ์ฌ์ฉ์ ์ฐ๊ตฌ(user study) ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณธ๋ค. 17๋ช ์ ํผํ์๋ค์ด ์์ ์ ์ํ Relocate ๊ณผ์ ์ Open Door ๊ณผ์ ๋ฅผ ๊ฐ๊ธฐ ์ํํ๋, ๋ค ๊ฐ์ง ๋ค๋ฅธ ๋ก๋ด ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ก ํ๋ค. ๋น๊ต ๋์์ (1) ์ ์ํ ๋ง์ถคํ ๋ก๋ด ์, (2) Schunk SVH 5์๊ฐ๋ฝ ๋ก๋ด ์, (3) Adroit ๋ก๋ด ์, (4) Allegro ๋ก๋ด ์์ด์๋ค. ์ปค์คํ ์ ์ด์ธ์ ์ธ ๊ฒฝ์ฐ์๋ ๋ชจ๋ ์จ๋ผ์ธ ๋ชจ์ ๋ฆฌํ๊ธฐํ ์ ํตํด ์ฌ์ฉ์์ ์ ๋์์ด ํด๋น ๋ก๋ด ์์ผ๋ก ๋งคํ๋์๊ณ , ์ปค์คํ ์์ ๊ฒฝ์ฐ ์์ ์ค๋ช ํ ๋๋ก 1:1 ์ง์ ์ ์ด๊ฐ ์ด๋ฃจ์ด์ก๋ค.
ํ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก, ๊ฐ ์กฐํฉ(์์ + ๋ก๋ด ์)์ ๋ํด 5ํ์ฉ ์ฐ์ ์๋ํ๊ฒ ํ๊ณ ๊ทธ ํ๊ท ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์๋ฃ ์๊ฐ์ ์ธก์ ํ์๋ค. Relocate์ Open Door ๋ชจ๋ ๋ ๋จ๊ณ(stage)๋ก ๋๋์ด ์ธ๋ถํ ํ๊ฐํ์๋๋ฐ, ์๋ฅผ ๋ค์ด Open Door์ ๊ฒฝ์ฐ ์์ก์ด ํ์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ 1๋จ๊ณ, ๋ฌธ ์ด๊ธฐ ์๋ฃ ์ฌ๋ถ๋ฅผ 2๋จ๊ณ๋ก ๊ตฌ๋ถํด ๊ฐ๊ฐ์ ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์๊ฐ์ ๊ธฐ๋กํ๋ค. ์ด๋ ์์ ๋ด ์ธ๋ถ ๋จ๊ณ๋ณ๋ก ์ด๋ ๋ถ๋ถ์์ ์คํจํ๊ฑฐ๋ ์๊ฐ์ด ์ง์ฐ๋๋์ง ํ์ ํ๊ธฐ ์ํจ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ปค์คํ ๋ก๋ด ์์ ์ด์ฉํ ๊ฒฝ์ฐ ์๋์ ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ๋ ๋น ๋ฅธ ์ํ ์๊ฐ์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด Relocate ๊ณผ์ ์์ 1๋จ๊ณ(๋ฌผ์ฒด ๋ค์ด์ฌ๋ฆฌ๊ธฐ) ์ฑ๊ณต๋ฅ ์ ์ปค์คํ ์ 78.9%๋ก, Schunk(61.2%), Adroit(58.8%), Allegro(44.7%)์ ๋นํด ์๋ฑํ ๋์๋ค. 2๋จ๊ณ(๋ฌผ์ฒด ์ด๋ ์๋ฃ) ์ญ์ ์ปค์คํ ์์ด 55.3%๋ก ๋๋จธ์ง(30.6%, 28.2%, 16.9%)๋ณด๋ค ํจ์ฌ ๋์๋ค. Open Door ๊ณผ์ ์์๋ ์ปค์คํ ์์ 1๋จ๊ณ(์์ก์ด ๋๋ฆฌ๊ธฐ) ์ฑ๊ณต๋ฅ ์ด 95.3%๋ก ๋ค๋ฅธ ์๋ค(71~83%)๋ณด๋ค ๋์๊ณ , 2๋จ๊ณ(๋ฌธ ์ด๊ธฐ)๋ 82.4%๋ก ํ ๋ก๋ด ์๋ค(41~61%) ๋๋น ํฌ๊ฒ ์์ฐ๋ค. ์์ ์๋ฃ ์๊ฐ๋ ์ผ๊ด๋๊ฒ ์ปค์คํ ์์ด ์งง์์, ๋ ๋น ๋ฅด๊ฒ ๊ณผ์ ๋ฅผ ๋ฌ์ฑํ๋ค. ์ด๋ฌํ ์ฌ์ฉ์ ์คํ์ ํตํด, ๋ง์ถคํ ์์ ์ด์ฉํ ๋น์ ๊ธฐ๋ฐ ์๊ฒฉ์กฐ์์ด ์ ํต์ ์ธ ๋ก๋ด ์ ์ง์ ์ ์ด๋ณด๋ค ํจ์ฌ ํจ์จ์ ์์ด ๊ฒ์ฆ๋์๋ค. ์ ์๋ค์ ํนํ Allegro ์์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ ์กฐํ๋ ์ ์ ์ง์ ํ๋๋ฐ, ๊ทธ ์ด์ ๋ก โAllegro๋ ์๊ฐ๋ฝ์ด 4๊ฐ๋ผ ์ธ๊ฐ ์ ๋์์ ์ถฉ์คํ ๋งตํํ๊ธฐ ์ด๋ ต๊ณ , ์ ํฌ๊ธฐ๋ ์ฌ๋ ์๋ณด๋ค ํจ์ฌ ์ปค ์ ์ด๊ฐ ์ด์ํ๋คโ๊ณ ๋ถ์ํ๋ค. ๋ฐ๋ฉด ์ปค์คํ ์์ ์ฌ์ฉ์ ์๊ณผ ํฌ๊ธฐ/๊ตฌ์กฐ๊ฐ ๊ฐ๊ณ ์ถ๊ฐ ๋งคํ ๊ณ์ฐ์ด ์๊ธฐ์ ์ฆ๊ฐ์ ์ด๊ณ ์ง๊ด์ ์ธ ํผ๋๋ฐฑ์ ์ฃผ์ด ์กฐ์์ ์์ํ๊ฒ ๋ง๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ง์ถคํ ์ ์์คํ ์ ๋ฐ๋ชจ ์์ง ๋จ๊ณ๋ถํฐ ์ง์ ์ผ๋ก ์ฐ์ํ ๋ฐ์ดํฐ(๋์ ์ฑ๊ณต๋ฅ ์ ์์ฐ)๋ฅผ ๋ค๋ ํ๋ณดํ๊ฒ ํด์ฃผ๋ฉฐ, ์ด๋ ์ดํ ํ์ต ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ฐ์ด ๋๋ค.
2.3 ์ ์ฑ ํ์ต ์ฑ๋ฅ ๋น๊ต: RL vs. ๋ชจ๋ฐฉ ํ์ต
๋ค์์ผ๋ก, ์ด๋ ๊ฒ ์์ง๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์ฑ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์์ ๊ฐํํ์ต๊ณผ ๋น๊ต ํ๊ฐํ์๋ค. ๊ฐ ๊ณผ์ (Relocate - 3๊ฐ์ง ๊ฐ์ฒด, Flip, Open Door)์ ๋ํด TRPO ๊ธฐ๋ฐ ๊ฐํํ์ต(RL)์ผ๋ก ํ๋ จํ ์ ์ฑ ๊ณผ, DAPG ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต(IL)์ผ๋ก ํ๋ จํ ์ ์ฑ ์ ๋น๊ตํ์๋ค. ์ฌ๊ธฐ์ ์์ฐ ๋ฐ์ดํฐ์ ์์ ๊ณผ์ ๋น 50๊ฐ ์ํผ์๋๋ก ๋์ผํ๊ฒ ์ ํํ์๊ณ , ์ ์ฑ ํ์ต์ 3๊ฐ์ ์๋๋ก ๋ฐ๋ณตํ์ฌ ์๋ ด ์๋์ ์ต์ข ์ฑ๋ฅ์ ํ๊ท ์ ๋น๊ตํ๋ค. Figure 4์ ํ์ตๆฒ์ ๋ฐ Table VI์ ์ต์ข ์ฑ๊ณต๋ฅ ์ด ๋ ๋ฐฉ๋ฒ์ ์ข ํฉ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
ํ์ตๆฒ์ ์ ๋ณด๋ฉด, ๋ชจ๋ฐฉ ํ์ต(DAPG)์ด ์์ RL๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ์ด๊ธฐ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๊ณ ๋ ๋์ ์์ค์์ ์๋ ดํ๋ ๊ฒฝํฅ์ด ๋ช ํํ๋ค. ํนํ ๋์ด๋๊ฐ ๋์ ๊ณผ์ ์ผ์๋ก ๊ทธ ๊ฒฉ์ฐจ๊ฐ ํฌ๊ฒ ๋ฒ์ด์ก๋ค. ์ต์ข ์ฑ๊ณต๋ฅ ์งํ๋ก ๋ณด์๋, ๋๋ถ๋ถ์ ๊ณผ์ -๋ก๋ด ์กฐํฉ์์ DAPG ์ ์ฑ ์ด RL ์ ์ฑ ์ ๋ฅ๊ฐํ๋ค. ์๋ฅผ ๋ค์ด Relocate-ํ ๋งํ ์บ, ๋จธ๊ทธ ๋ค์ง๊ธฐ ๋ฑ์์ ๋ชจ๋ ๋ก๋ด ์์ ๋ํด ๋ชจ๋ฐฉ ํ์ต์ด ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์๋ค. ์ด๋ ์ฌ๋ ์์ฐ์ผ๋ก๋ถํฐ ์์ฑํ ๋ฐ์ดํฐ๊ฐ ํ์ต์ ์ ์๋ฏธํ ์ ํธ๋ฅผ ์ ๊ณตํ์ฌ, ๊ณ ์ฐจ์ ํ์ ๊ณต๊ฐ์์ RL ํผ์ ํ์ตํ ๋ ๋ฐ์ํ๋ ์ํ์ฐฉ์ค๋ฅผ ํฌ๊ฒ ์ค์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ Open Door ๊ณผ์ ์์ Allegro ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ์๋ค. ์ด ํ ๊ฐ์ง ์ฌ๋ก์์๋ DAPG ์ ์ฑ ์ ์ต์ข ์ฑ๊ณต๋ฅ ์ด RL๊ณผ ํฐ ์ฐจ์ด๊ฐ ์์๋๋ฐ, ์ด๋ Allegro ์์ ๊ตฌ์กฐ์ ํ๊ณ์ ๊ณผ์ ์ ๋์ด๋๊ฐ ๋ง๋ฌผ๋ ค ๋ํ๋ ๊ฒฐ๊ณผ๋ก ๋ณด์ธ๋ค. ๋น๋ก ์ ๋์ ์ฑ๋ฅ ํฅ์์ ์์์ง๋ง, ๋ ์ ๊ทผ๋ฒ์ ๋์ ์์์ ํฌ๊ฒ ๋ฌ๋๋ค. ์ ์๋ค์ด ์๊ฐ์ ์ผ๋ก ์ ์ฑ ํ๋์ ๊ด์ฐฐํ ๋ฐ๋ก๋, DAPG๋ก ํ์ต๋ ์ ์ฑ ์ ์ฌ๋์ฒ๋ผ ์์ก์ด๋ฅผ ์ฅ๊ณ ๋๋ฆฐ ํ ๋น๊ธฐ๋ ์์ฐ์ค๋ฌ์ด ์ ๋ต์ ๊ตฌ์ฌํ ๋ฐ๋ฉด, ์์ RL ์ ์ฑ ์ ์์ก์ด๋ฅผ ์ ๋๋ก ์ฅ์ง ๋ชปํ๊ณ ์๋ฐ๋ฅ์ผ๋ก ๊ฐ์์ ์ผ๋ก ๋๋ฅด๋ฉด์ ๋ง์ฐฐ๋ ฅ์ผ๋ก ๋ฌธ์ ์ฌ๋ ๋น๊ต์ ๋น์ ์์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๊ณ ํ๋ค. ํ์๋ ์๋ฎฌ๋ ์ดํฐ ์์์๋ ์ฐ์ฐํ ์ฑ๊ณตํ ์ง ๋ชจ๋ฅด๋ ์ค์ ์ธ๊ณ์์ ํตํ์ง ์์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ์ด ์ฌ๋ก๋, ๋ชจ๋ฐฉ ํ์ต์ ํตํด ์ป์ ์ ์ฑ ์ด ๋ณด๋ค ์ธ๊ฐ์ค๋ฌ์ด ๋์์ผ๋ก ์์ ํ๊ณ ์์ ๊ฐ๋ฅํ ๋ฒ์ ๋ด์์ ๊ณผ์ ๋ฅผ ์ํํจ์ ๋ณด์ฌ์ค๋ค. ๊ฒฐ๊ตญ ๋๋ถ๋ถ์ ์ํฉ์์ ์ธ๊ฐ ๋ฐ๋ชจ ํ์ฉ์ด ํ์ต ์ฑ๋ฅ๊ณผ ํ๋ ํ์ง์ ํฅ์์ํด์ด ์ ์ฆ๋์๋ค.
2.4 ์ถ๊ฐ ์คํ: Ablation ๋ฐ ์ํฅ ์์ ๋ถ์
์ ์๋ค์ ๋ชจ๋ฐฉ ๊ฐํํ์ต์ ์ฑ๊ณต์ ๊ธฐ์ฌํ๋ ์์๋ค์ ๋ถ์ํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ์์ธ ๋ณ Ablation ์คํ๋ ์ํํ์๋ค. ์๋ฅผ ๋ค์ด, Relocate(ํ ๋งํ ์ํ ์บ) + Schunk Hand ์กฐํฉ์ ๋ํด, (a) ๋ฌผ์ฒด ๋ง์ฐฐ๊ณ์, (b) ๋ฌผ์ฒด ๋ฐ๋(๋ฌด๊ฒ), (c) PD ์ ์ด๊ธฐ์ ๊ฐ์ฑ/๊ฐ์ ๊ณ์, (d) ํ์ต์ ์ฌ์ฉํ ๋ฐ๋ชจ ๊ฐ์ ๋ฑ์ ๋ณํ์์ผ ๊ฐ๋ฉฐ DAPG ํ์ต์ ๋ฏผ๊ฐ๋๋ฅผ ๊ด์ฐฐํ๋ค. Figure 5์ ์ ์๋ ํ์ตๆฒ์ ์ ํตํด ๊ฐ ์กฐ๊ฑด ๋ณํ๊ฐ ํ์ต ์๋์ ์ต์ข ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋น๊ตํ์๋๋ฐ, ์ ๋ฐ์ ์ผ๋ก ํ๊ฒฝ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ ๋ณํ์๋ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋ ํ์ต์ ์์ ์ ์ผ๋ก ๋์ํจ์ ๋ณด์๋ค. ์์ปจ๋ ๋ฌผ์ฒด ๋ง์ฐฐ์ด๋ ๋ฌด๊ฒ๊ฐ ๋ฌ๋ผ์ ธ๋ ๋ฐ๋ชจ๋ฅผ ํฌํจํ ์ ์ฑ ์ ๋น๊ต์ ๊ฐ์ธํ ์ฑ๋ฅ ์ ์ง๋ฅผ ๋ณด์์ผ๋ฉฐ, ์ด๋ ์์ฐ์ ํตํด ํ์ตํ ์ธ๊ฐ ํน์ ์ ์ ์์ ์กฐ์ ์ ๋ต์ด ์์ฉํ ๊ฒฐ๊ณผ๋ก ํด์๋๋ค. ๋ํ ๋ฐ๋ชจ ๊ฐ์์ ๋ฐ๋ฅธ ์คํ์์๋, ์์ฐ ๋ฐ์ดํฐ๊ฐ ๋ง์์๋ก ํ์ต ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ค๊ฐ ์ด๋ ์ ๋ ์๋ ดํ๋ ์์์ด ๋ํ๋ฌ๋๋ฐ, ์ด๋ ์ถ๊ฐ ๋ฐ๋ชจ๊ฐ ์ด๊ธฐ ํ์ต์ ๋์์ ๋์ง๋ง ๊ณผ๋ํ ๊ฒฝ์ฐ ์ํ ์ฒด๊ฐ์ด ์์์ ์์ฌํ๋ค. PD ์ ์ด ํ๋ผ๋ฏธํฐ์ ๊ฒฝ์ฐ ๋๋ฌด ๋ฎ์ ๊ฐ์ฑ์ ์ ํ๋ ์ ํ๋ก, ๋๋ฌด ๋์ ๊ฐ์ฑ์ ์ง๋ ์ฆ๊ฐ๋ก ์ด์ด์ ธ, ์ ์ ํ ํ๋์ด ํ์ํจ์ ์คํ์ผ๋ก ํ์ธํ์๋ค.
2.5 ์ค์ธ๊ณ ๋ก๋ด์์ ์ ์ฉ ๋ฐ ์ฑ๋ฅ
์ต์ข ์ ์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ํ์ค์ ๋ก๋ด ์์ ์ด์ํ์ฌ ๊ฒ์ฆํ์๋ค. ํ๋์จ์ด ํ๋ซํผ์ Allegro Hand + XArm-6 ๋ก๋ด ํ ์กฐํฉ์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์ Allegro Hand ๋ชจ๋ธ๊ณผ ๋์ผํ ๋ก๋ด ์์ 6์์ ๋ ๋ก๋ด ํ ๋์ ์ฅ์ฐฉํ ๊ตฌ์ฑ์ด๋ค. ์ ์๋ค์ ํ์ต๋ ์ ์ฑ ์ผ๋ก ์ค์ธ๊ณ์์ ์ ๊ณผ์ ๋ค์ ์ํํด๋ณด๊ณ ์ฑ๊ณต๋ฅ ๊ณผ ๋์์ ์์ ์ฑ์ ํ๊ฐํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ธ๊ฐ ์์ฐ์ ํฌํจํ์ฌ ํ์ต๋ ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ์์๋ฟ๋ง ์๋๋ผ ์ค์ ํ๊ฒฝ์์๋ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ๊ฐ์ธํ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋์ฑ์ด ์๋ฎฌ๋ ์ด์ ์์๋ ๋ณด์ง ๋ชปํ๋ ์๋ก์ด ๊ฐ์ฒด๋ ๋ณํ๋ ์ํฉ์๋ ์ ์ฑ ์ด ๋น๊ต์ ์ ์ ์ํ๋ ๋ชจ์ต์ ๋ณด์๋๋ฐ, ์ด๋ ํ์ต ๊ณผ์ ์์ ์ธ๊ฐ ์์ฐ์ ํตํด ์ป์ ์ผ๋ฐ์ ์ธ ์กฐ์ ์๋ฆฌ์ ์์ฐ์ค๋ฌ์ด ํ ๊ฐํ๊ธฐ ์ ๋ต ๋๋ถ์ผ๋ก ํ์ด๋๋ค. ๋ฐ๋ฉด, ๋์ผ ํ๊ฒฝ์์ ์์ RL๋ก ํ์ต๋ ์ ์ฑ ์ ํ์ค์์ ๊ฑฐ์ ์คํจํ์๋๋ฐ, ์๋ฎฌ๋ ์ดํฐ ์์ ๋นํ์ค์ ์ธ ์ ๋ต(์: ๋ง์ฐฐ๋ก ๋ฌธ ๋ฐ๊ธฐ ๋ฑ)์ด ํ์ค์์ ํตํ์ง ์๊ณ , ๋ฏธ์ธํ ๋์ ์ค์ฐจ์ ๋ํ ๋ณด์ ๋ฅ๋ ฅ๋ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ ๋์ ์ผ๋ก ์คํ ํ์๊ฐ ์ ํ๋์ด ๊ตฌ์ฒด์ ์ธ ์ฑ๊ณต๋ฅ ์์น๋ก ๋น๊ตํ์ง ์์์ง๋ง, ๋ฐ๋ชจ ๊ธฐ๋ฐ ์ ์ฑ ์ด ์๋ฑํ ์์ ์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ณด์ธ ๊ฒ์ ๋ถ๋ช ํ๋ค. ์์ฝํ๋ฉด, ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ค์ฌ์ฃผ๋ ์ธ๊ฐ ๋ฐ๋ชจ์ ํ์ ์ ์ฆํ์ผ๋ฉฐ, ๋ณต์กํ ๋ค๊ด์ ์ ์กฐ์ ์์ ์ ์ค์ ๋ก๋ด์ผ๋ก ์ํํ๋ ๋ฐ ์์ด ๋ชจ๋ฐฉ ํ์ต์ ์ ์ฉ์ฑ์ ๋ณด์ฌ์ฃผ์๋ค.
3. ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต (Comparison with Prior Work)
๋ณธ ์ฐ๊ตฌ๋ ๋ค์ง ๋ก๋ด ์์ ์ ๊ตํ ์กฐ์๊ณผ ์ธ๊ฐ ์์ฐ ํ์ต ๋ถ์ผ์์ ์ฌ๋ฌ ๊ธฐ์กด ์ ๊ทผ๋ค๊ณผ ๊ตฌ๋ณ๋๋ ํ์ ์ ์ ์ ์ํ๋ค. ์ฌ๊ธฐ์๋ ๊ด๋ จ ์ ํ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ฌ ์ด ๋ ผ๋ฌธ์ ์ฐจ๋ณ์ฑ๊ณผ ๊ธฐ์ฌ๋๋ฅผ ๋ถ์ํ๋ค.
VR ๊ธ๋ฌ๋ธ ๊ธฐ๋ฐ ๋ฐ๋ชจ ์์ง vs. ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ๋ฐ๋ชจ ์์ง: ์ธ๊ฐ ์์ฐ์ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ ค๋ ์๋๋ ์ด์ ๋ถํฐ ์์ด ์๋ค. ๋ํ์ ์ผ๋ก 2018๋ Rajeswaran ๋ฑ์ VR ์ฅ๋น์ ๋ฐ์ดํฐ๊ธ๋ฌ๋ธ๋ฅผ ํ์ฉํด ์ธ๊ฐ์ด ๊ฐ์ํ์ค์์ ๋ก๋ด ์์ ์กฐ์ํ๋ฉฐ ๋ฐ๋ชจ๋ฅผ ๋ชจ์ผ๊ณ , ์ด๋ฅผ ํ์ฉํด DAPG ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฑ ์ ํ์ตํ๋ ์ฐ๊ตฌ๋ฅผ ์ํํ๋ค. ์ด ๋ฐฉ์์ ์ฑ๊ณต์ ์ธ Dexterous ํธ๋ ์กฐ์์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ ์ฉ ์ฅ๋น๊ฐ ํ์ํ๊ณ ํ์ ๋ ์ธ์๋ง ์ฐธ์ฌํ ์ ์์ด ๋ฐ์ดํฐ ์์ง์ ํ์ฅ์ฑ(scalability)์ด ๋จ์ด์ง๋ค๋ ๋จ์ ์ด ์์๋ค. ๋ฐ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ํน์ ์ฅ๋น ์์ด ์นด๋ฉ๋ผ๋ง์ผ๋ก ๋๊ตฌ๋ ๋ฐ๋ชจ๋ฅผ ์ ๊ณตํ ์ ์๋ ํ๊ฒฝ์ ๋ง๋ จํจ์ผ๋ก์จ, ๋ค์ํ ์ฌ์ฉ์๋ก๋ถํฐ ๋๋์ ๋ฐ๋ชจ๋ฅผ ์์ฝ๊ฒ ํ๋ณดํ ์ ์๊ฒ ํ๋ค. ์ค์ ๋ก โVR์ ํตํ ์์ง์ ๋ง์ ์ธ์ ๋ ธ๋ ฅ(human effort)์ ์ํด ํ์ฅ์ฑ์ด ๋ฎ์ง๋ง, ๋จ์ผ ์นด๋ฉ๋ผ ํ ๋ ์คํผ๋ ์ด์ ์ ํ๋ก์ธ์ค๋ฅผ ๋์ฑ ์์ฝ๊ณ ๋๊ท๋ชจ๋ก ํ์ฅ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋คโ๊ณ ์ ์๋ค๋ ๊ฐ์กฐํ๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํฅํ ํด๋ผ์ฐ๋ ๋ก๋ณดํฑ์ค๋ ํฌ๋ผ์ฐ๋์์ฑ์ ํตํด ๋ฐฉ๋ํ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ ์๋ ๊ธธ์ ์ด์๋ค๋ ์ ์์ ์์๊ฐ ํฌ๋ค.
๋ฉํฐ์บ Vision ํ ๋ ์คํผ๋ ์ด์ vs. ๋จ์ผ์บ ์ ๊ทผ: ๋น์ ๊ธฐ๋ฐ์ ์๊ฒฉ์กฐ์ ์์ฒด๋ ๊ณผ๊ฑฐ์๋ ์ฐ๊ตฌ๋ ๋ฐ ์๋๋ฐ, DexPilot ์ฐ๊ตฌ๊ฐ ๊ทธ ์ ๊ตฌ์ ์๋ค. DexPilot์์๋ 4๋์ ๊น์ด ์นด๋ฉ๋ผ(RealSense)๋ฅผ ํ ์ด๋ธ ์ฃผ๋ณ์ ๋ฐฐ์นํ๊ณ ๋ฐฐ๊ฒฝ์ ๊ฒ์ ์ฒ์ผ๋ก ๋ง๋ ๋ฑ ์๋นํ ๋ณต์กํ ์ธํ ์ ํตํด, ์ธ๊ฐ ์ ์์์ ์ธ์ํด Allegro ๋ก๋ด ์์ ์ ์ดํ์๋ค. ์ด์ ๋น๊ตํ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ์นด๋ฉ๋ผ ํ ๋(iPad)๋ก ๋์ผํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ฉด์, ์ถ๊ฐ๋ก ์ฌ์ฉ์๋ณ ์ปค์คํ ์ ์ธํฐํ์ด์ค๊น์ง ์ ๊ณตํ์ฌ ์กฐ์์ ์ง๊ด์ฑ์ ๋์๋ค. ๋ฌด์๋ณด๋ค๋, DexPilot ๋ฑ ์ด์ ์ฐ๊ตฌ๋ค์ ๋จ์ผ ํน์ ๋ก๋ด ์(์: Allegro)๋ง์ ๋์์ผ๋ก ํ์๋๋ฐ, ๋ณธ ์ฐ๊ตฌ๋ ๋์ผํ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋ก๋ด ์์ผ๋ก ๋ณํํ์ฌ ํ์ต์ ํ์ฉํ๋ ๋ฒ์ฉ์ฑ์ ์ ๋ณด์๋ค. ์ด๋ ์ด์ ์๋ ๋ณผ ์ ์์๋ ์๋ก์ด ๊ฐ๋ ์ผ๋ก, ์์ปจ๋ ํ ์ฌ๋์ ์์ฐ์ผ๋ก ์ฅํฌ ์, ์ด๋๋ก์ดํธ ์, ์๋ ๊ทธ๋ก ์ ๊ฐ๊ฐ์ ์ ์ฑ ์ ๋ชจ๋ ํ์ต์ํฌ ์ ์์์ ์ฒ์์ผ๋ก ์ค์ฆํ์๋ค. ์ด๋ฌํ Multi-hand demonstration ์์ด๋์ด๋ ๋ก๋ด ํธ๋ ํ๋์จ์ด๊ฐ ๋ค์ํ ํ์ค์์ ๋ฐ์ดํฐ ํจ์จ์ ์ธ ํ์ต์ ๊ฐ๋ฅ์ผ ํ๋ ๋ฐฉํฅ์ฑ์ ์ ์ํ๋ค.
๋จ์ ๊ทธ๋ฆฌํผ(2-jaw) ์์ vs. ๊ณ ์ฐจ์ ๋ค์ง ์กฐ์: ์ธ๊ฐ ์์ฐ์ ๋น์ ์ผ๋ก๋ถํฐ ๊ฐ์ ธ์ ํ์ตํ๋ ์ฐ๊ตฌ ์ค์๋, ๋น๊ต์ ๊ฐ๋จํ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ(์ง๊ฒ ํํ ๋ก๋ด ํธ๋)๋ก ํฝ์คํ๋ ์ด์ค ๊ฐ์ ์์ ์ ๊ฐ๋ฅด์น๋ ์ฌ๋ก๋ค์ด ์์๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ ๋์ ์์์ ๋ชจ๋ฐฉํด 2-finger ๊ทธ๋ฆฌํผ๋ก ๋ฌผ์ฒด๋ฅผ ์ง๋ ์ ๋์ ๊ณผ์ ๋ 3D ์ ๋ณด ์์ด๋ ๊ฐ๋ฅํ์ฌ, 2D ์์ ๊ธฐ๋ฐ imitation์ด ์๋๋์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ ํ ์ฐ๊ตฌ๋ค์ ์ ์ฐจ์ ์ ์ด(๋ช ๊ฐ ๊ด์ )์ ๋จ์ ์์ ์ ๊ตญํ๋์ด, ๋ณต์กํ ์๊ฐ๋ฝ๋ค์ ํ์ฉํ 3D ์ํธ์์ฉ ๊ณผ์ ์๋ ์ ์ฉํ๊ธฐ ์ด๋ ค์ ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์์คํ ์ RGB-D๋ฅผ ํตํด 3D ์-๋ฌผ์ฒด ํฌ์ฆ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ ํ์ฉํด ๋ณต์กํ ์ ์ด์ด ์๋ ์์ ๋ค(์: ์์ก์ด ๋๋ ค๋น๊ธฐ๊ธฐ)์ ์์ฐ ๋ฐ ํ์ตํ์๋ค๋ ์ ์์, ๊ธฐ์กด ์์ ๋ชจ๋ฐฉํ์ต ์ฐ๊ตฌ๋ค์ ํ ๋จ๊ณ ๋ฐ์ ์์ผฐ๋ค. ์์ปจ๋ ๋ณด๋ค ๋์ด๋ ๋์ ๋ค์ง ์กฐ์ ์์ ์ ๋น์ ๊ธฐ๋ฐ ๋ชจ๋ฐฉํ์ต์ ํ์ฅํ ์ฌ๋ก๋ก ํ๊ฐ๋๋ค.
๋ค์ ๋ก๋ด ์ ๊ฐ ์ ์ฑ ์ ์ด: ๋ค๊ด์ ๋ก๋ด ์ ์ฐ๊ตฌ์์ ๋ก๋ด ๊ตฌ์กฐ๊ฐ ๋ฐ๋๋ฉด ์๋ก ํ์ต์ ํด์ผ ํ๋ ๋ฌธ์ ๋ ์ค๋ ์ง์๋ ์์ ์๋ค. ์๋ฅผ ๋ค์ด 5์๊ฐ๋ฝ ๋ก๋ด์ ๋ง์ถฐ ํ์ต๋ ์ ์ฑ ์ 4์๊ฐ๋ฝ ๋ก๋ด์๋ ๋ฐ๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต๊ณ , ์ฌ์ง์ด ์๊ฐ๋ฝ ๊ธธ์ด ๋น์จ ์ฐจ์ด๋ง ์์ด๋ ์ฑ๋ฅ์ ํฐ ์ํฅ์ด ์์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ ์๋๋ก meta-learning์ด๋ ์ด์ข ๋ก๋ด ๊ฐ domain adaptation ๋ฑ์ ์ฐ๊ตฌ๊ฐ ์ผ๋ถ ์์์ง๋ง, ์ฌ์ ํ ์ฌ์ ๋ฐ์ดํฐ ์ค๋น๋ ๋ณด์ ์ด ๊น๋ค๋ก์ ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ฌ๋ ์์ด๋ผ๋ ๊ณตํต ์ฐธ์กฐ ๊ธฐ์ค(human hand as common reference)์ ํ์ฉํ์ฌ, ์ฒ์์๋ ์ฌ๋ ์๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ์ปค์คํ ์์ผ๋ก ์์ฐ์ ๋ชจ์ผ๊ณ ๋์ ์ด๋ฅผ ๊ฐ ๋ก๋ด ์์ผ๋ก ๋ณํํจ์ผ๋ก์จ ์์ฐ์ค๋ฝ๊ฒ ์ฌ๋ฌ ํํ์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ฌ๋ฌ ๋ก๋ด ํ๋ซํผ์ ๊ฑธ์ณ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ ์ ์๊ฒ ๋์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ ๋ก๋ด๋ณ ์ต์ ์ ์ฑ ์ ํ์ตํ๋ฉด์๋ ํ์ํ ์ธ๊ฐ ์์ฐ ํ์๋ ์ต์ํํ๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์๋ค. ์ด๋ ๊ธฐ์กด์ multi-finger manipulation ์ฐ๊ตฌ์์ ํ ์ข ๋ฅ ๋ก๋ด์ ํนํ๋ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ ๊ดํ๊ณผ ๋ฌ๋ฆฌ, ๋ฒ์ฉ์ ์ธ ์์ฐ ๋ฐ์ดํฐ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ฒ์ ๋ณด์ฌ์ค ๊ฒ์ด๋ค.
์ ์ฑ ์ ์์ฐ์ค๋ฌ์๊ณผ ์์ ์ฑ: OpenAI์ ์ ๋ช ํ Rubikโs Cube ํธ๋ ๋ก๋ด ์๊ณผ ๊ฐ์ ์ฌ๋ก์์ ๋ณผ ์ ์๋ฏ, ์์ ๊ฐํํ์ต์ ํตํด ๋ค๊ด์ ์ ์กฐ์์ ์ต๋์ํค๋ ๊ฒ์ ๊ฐ๋ฅํ์ง๋ง ์ข ์ข ๋น์ธ๊ฐ์ ์ธ ํด๋ฒ(์: ํ๋ธ ๋์ก๋ค ๋ฐ๊ธฐ ๋ฑ)์ด ๋ํ๋๊ฑฐ๋, ํ์ค ์ ์ฉ ์ ์๊ธฐ์น ๋ชปํ ๋์์ ๋ณด์ผ ์ ์๋ค. ์ด์ ๋นํด ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ์ ์ธ๊ฐ์ ๋ฐ๋ชจ๋ฅผ ํตํด ์ ์ฑ ์ด ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ์ ๋ํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ RL๋ง ์ฌ์ฉํ์ ๋ ๋ํ๋๋ ์ํํ๊ฑฐ๋ ์ด์ํ ํ๋์ ์ต์ ํ๋ ํจ๊ณผ๊ฐ ์์๋ค. ๋ ผ๋ฌธ์์ ๋ฌ์ฌ๋ ๊ฒ์ฒ๋ผ, ๋ฌธ ์ด๊ธฐ ๋์์์ ์์ RL ์ ์ฑ ์ ๋ฌธ์ ๋ง์ฐฐ๋ก ์ต์ง๋ก ์ฌ๋ ๋ฐฉ๋ฒ์ ํํ์ง๋ง, ๋ฐ๋ชจ๋ฅผ ์ฐธ๊ณ ํ ์ ์ฑ ์ ์์ก์ด๋ฅผ ์ ๋๋ก ์ก๊ณ ํธ๋ ๋ณด๋ค ์์ ํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ๊ตฌ์ฌํ๋ค. ์ด๋ฐ ์ฐจ์ด๋ ์ฐ์ ์ ์์ฉ์์ ๋งค์ฐ ์ค์ํ๋ค. ์ฆ, ๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด ๋๋น ์์ ํ๊ณ ์ ๋ขฐํ ์ ์๋ ๋ค์ง ์ ์กฐ์ ์ ์ฑ ์ ์ป๋ ๋ฐ ๊ธฐ์ฌํ๋ค๊ณ ํ๊ฐํ ์ ์๋ค.
์์ฝํ๋ฉด, โFrom One Hand to Multiple Handsโ ๋ ผ๋ฌธ์ ๋น์ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ , ๋ง์ถคํ ๋ก๋ด ์ ๊ฐ๋ , ๋ค์ค ๋ก๋ด ๊ฐ ์์ฐ ์ด์, ๋ฐ๋ชจ-๊ฐํ ํ์ต ํตํฉ ๋ฑ์ ํ ๋ฐ ๋ฌถ์ด ๋ค์ง ๋ก๋ด ์ ํ์ต์ ์๋ก์ด ์งํ์ ์ฐ ์ฐ๊ตฌ๋ผ ํ ์ ์๋ค. ์ด์ ์ฐ๊ตฌ๋ค์ ๋นํด ๋ฐ์ดํฐ ์์ง์ ์ฉ์ด์ฑ๊ณผ ํ์ฅ์ฑ, ํ์ต ์ ์ฑ ์ ์ฑ๋ฅ๊ณผ ํ์ค ์ ํฉ์ฑ ์ธก๋ฉด์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ํฅํ ๋ค์ํ ํํ์ ๋ก๋ด ์์ด๋ ๋ณต์กํ ์กฐ์ ์์ ์ ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๋ ๋ชจ๋ฐฉํ์ต ํ๋ ์์ํฌ๋ก์ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.