๐DexScrew ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ก ์ด ๋ ผ๋ฌธ์ ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ณต์กํ ์ ์ด ๊ธฐ๋ฐ์ ๋ฅ์ํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๊ธฐ ์ํ sim-to-real ํ๋ ์์ํฌ์ธ DexScrew๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ ๏ธ DexScrew๋ ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ์์ ํ์ ๊ธฐ์ ์ ํ์ตํ๊ณ , ์ด ๊ธฐ์ ์ ํ์ฉํ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ค์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ค, ์ด multisensory ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ชจ๋ฐฉ(behavior cloning) ์ ์ฑ ์ ํ๋ จํ์ฌ ํ์ค ์ ์ฉ์ฑ์ ๋์ ๋๋ค.
- ๐ ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ ๋ฐ ์คํฌ๋ฅ๋๋ผ์ด๋น ์์ ์ ๋ํ ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ๋ฒ์ ์ง์ ์ ์ธ sim-to-real ๋ฐฉ์๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ๊ณผ unseen object์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ผ๋ฉฐ, ์ด๊ฐ ์ผ์ฑ๊ณผ temporal history๊ฐ robustํ ์ฑ๋ฅ์ ํ์์ ์์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๋ณต์กํ ์ ์ด ์ญํ(contact dynamics) ๋ฐ ๋ค์ค ์ผ์(multisensory) ์ ํธ(ํนํ ์ด๊ฐ ํผ๋๋ฐฑ)๊ฐ ํ์ํ ์ฌ์ธํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๊ธฐ ์ํ sim-to-real ํ๋ ์์ํฌ์ธ DexScrew๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด Sim-to-Real ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ(์ ํํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์ด๋ ค์, ๊ฐ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ Sim-to-Real ๊ฐ๊ทน)์ ๋ชจ๋ฐฉ ํ์ต(Imitation Learning)์ ํ๊ณ(๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์)๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค.
์ ์ํ๋ ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์
์์ ๊ฐํ ํ์ต(RL) ์ ์ฑ
ํ๋ จ (III-A):
- ๊ฐ์ํ๋ ๊ฐ์ฒด ๋ชจ๋ธ๋ง (Simplified Object Modeling): ๋ํธ๋ ์คํฌ๋ฅ์ ๋ณต์กํ ์ค๋ ๋ ๊ตฌ์กฐ๋ฅผ ์ง์ ์๋ฎฌ๋ ์ด์ ํ๋ ๋์ , ํ์ ๋์์ ๋ณธ์ง์ ํฌ์ฐฉํ๊ธฐ ์ํด ๊ฐ๋จํ ๊ธฐํํ์ ํํ(์: ๋ํธ์๋ ๋๊บผ์ด ์ผ๊ฐํ, ์คํฌ๋ฃจ๋๋ผ์ด๋ฒ์๋ ํ๊ฐํ ๋๋ ์ญ์ด๊ฐํ)๋ฅผ ํ์ ์กฐ์ธํธ(revolute joint)๋ก ๊ณ ์ ๋ ๋ฒ ์ด์ค์ ์ฐ๊ฒฐํ์ฌ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ ์ฑ ์ด ํ์ ํ๋์ ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ๋์ต๋๋ค.
- ํ๋ จ ํ์ดํ๋ผ์ธ: ๋จผ์ ํน๊ถ ์ ๋ณด(privileged information)์ ์ ๊ทผํ ์ ์๋ ์ค๋ผํด ์ ์ฑ (oracle policy)์ ํ๋ จํ ๋ค์, ์ด๋ฅผ ํตํด ์์ธก ๋ชจ๋ \phi์ ์ํด ๊ณผ๊ฑฐ ํ๋ ์ด๋ ฅ(proprioceptive history) h_t๋ก๋ถํฐ ์ถ๋ก ๋ ์๋ฒ ๋ฉ \hat{z}_t = \phi(h_t)์ ๊ธฐ๋ฐํ๋ ์ผ์๋ชจํฐ ์ ์ฑ (sensorimotor policy)์ Distillํฉ๋๋ค.
- ํน๊ถ ์ ๋ณด (Privileged Information): ์ค๋ผํด ์ ์ฑ ์ ๊ฐ์ฒด์ ์์น, ์ค์ผ์ผ, ์ง๋, ๋ง์ฐฐ ๊ณ์ ๋ฑ ์ค์ ํ๊ฒฝ ๋ฐ ๊ฐ์ฒด ์์ฑ์ ๋ํ ์ง์ ์ง์ค(ground-truth) ์ ๋ณด์ ์ ๊ทผํฉ๋๋ค. (์์ธํ ๋ด์ฉ์ Appendix A ์ฐธ์กฐ).
- ํ๋ (Actions): ์ ์ฑ ์ ์๋์ ์ธ ๋ชฉํ ์์น(relative target position)๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ์ด๋ ๋ก๋ด์ ๋ฎ์ ์์ค์ PD ์ปจํธ๋กค๋ฌ๋ก ์ ๋ฌ๋์ด ํ ํฌ๋ก ๋ณํ๋ฉ๋๋ค.
- ๋ณด์ ํจ์ (Reward): ์๋ฎฌ๋ ์ด์ ์์ ์ ์ฑ ์ ๋ชฉํ๋ ๊ฐ์ํ๋ ๊ฐ์ฒด๋ฅผ ํ์ ์กฐ์ธํธ ์ฃผ๋ณ์ผ๋ก ํ์ ์ํค๋ ๊ฒ์ ๋๋ค. ๋ณด์์ ํ์คํฌ ๋ณด์(r_{task}, ํ์ ๋ฐ ๊ทผ์ ์ฑ ์ฅ๋ ค), ์๋์ง ํ๋ํฐ(r_{energy}, ๋นํจ์จ์ ์ธ ๋์ ์ต์ ), ์์ ์ฑ ํ๋ํฐ(r_{stability}, ์์ ์ ์ธ ํ๋ ์ ์ง)์ ๊ฐ์ค์น ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค (Appendix B ์ฐธ์กฐ).
- ํ๋ จ: ์ค๋ผํด ์ ์ฑ ์ PPO(Proximal Policy Optimization)๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋๋ฉฐ, ์ผ์๋ชจํฐ ์ ์ฑ ์ DAgger ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํ๋ จ๋ฉ๋๋ค. ์ผ์๋ชจํฐ ์ ์ฑ ์ ํ๋ จ ๋ชฉํ๋ ์์ธก๋ ํ๋๊ณผ ํน๊ถ ์๋ฒ ๋ฉ์ด ์ค๋ผํด ์ ์ฑ ์ ํ๋ ๋ฐ ์ค์ ํน๊ถ ์๋ฒ ๋ฉ๊ณผ ์ผ์นํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค: \mathcal{L} = \|a_{Hand_t} - \hat{a}_{Hand_t}\|^2_2 + \|z_t - \hat{z}_t\|^2_2.
- ๋๋ฉ์ธ ๋ฌด์์ํ (Domain Randomization): RL ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ(robustness)์ ํฅ์์ํค๊ธฐ ์ํด ๊ฐ์ฒด ์ง๋, ์ง๋ ์ค์ฌ, ๋ง์ฐฐ ๊ณ์, ํฌ๊ธฐ, PD ์ด๋(gain)์ ๋ฌด์์ํํ๊ณ ๊ด์ธก ๋ฐ ํ๋ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํฉ๋๋ค (Appendix C, Table V ์ฐธ์กฐ).
- ํ์ต๋ ์ ์ฑ
์ ํ์ฉํ ์ค์ ๋ฐ์ดํฐ ์์ง (III-B):
- ์คํฌ ๊ธฐ๋ฐ ๋ณด์กฐ ์๊ฒฉ ์กฐ์ (Skill-Based Assisted Teleoperation): ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ์๊ฐ๋ฝ ํ์ ์คํฌ(skill primitive)์ ํ์ฉํ์ฌ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค. ์ธ๊ฐ ์กฐ์์๋ ๊ฐ๋ณ ์กฐ์ธํธ๋ฅผ ๋ช ๋ นํ๋ ๋์ VR ์ปจํธ๋กค๋ฌ์ ์กฐ์ด์คํฑ์ ์ฌ์ฉํ์ฌ ๋ก๋ด ํ์ ์๋ชฉ ์์ง์๋ง ์ ์ดํ๊ณ , ํ์ํ ๋ ์๊ฐ๋ฝ ํ์ ์คํฌ์ ํ์ฑํํฉ๋๋ค.
- ๋ฐ์ดํฐ ๊ธฐ๋ก: ๊ฐ ํ์์คํ ์์ RL ์ ์ฑ ์ด ์์ฑํ ์ ํ๋(a_{Hand_t})๊ณผ ์ธ๊ฐ ์๊ฒฉ ์กฐ์์ ์ํด ์์ฑ๋ ํ ํ๋(a_{Arm_t})์ ํฌํจํ๋ ํ๋ a_t = [a_{Hand_t}, a_{Arm_t}]์ ๊ธฐ๋กํฉ๋๋ค. ๋ํ, ๋ชจ๋ ์กฐ์ธํธ ์์น(q_t = [q_{Hand_t}, q_{Arm_t}])์ 5๊ฐ ์๊ฐ๋ฝ ๋ชจ๋์ ์์ ์ด๊ฐ ์ ํธ(c_t \in \mathbb{R}^{5 \times 120 \times 3})๋ฅผ ํฌํจํ๋ ๋ค์ค ์ผ์ ๊ด์ธก(q_t, c_t)์ ๊ธฐ๋กํฉ๋๋ค.
- ์ด๊ฐ ์ ํธ (Tactile Signal): XHand ๋ก๋ด์ ๋ด์ฅ๋ ์๋ ฅ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ฐ ์๊ฐ๋ฝ ๋์๋ 120๊ฐ์ ์ผ์ฑ ์์๊ฐ ์์ด 3์ถ ํ์ ์ธก์ ํฉ๋๋ค.
- ๋ค์ค ์ผ์ ๋ฐ์ดํฐ๋ก ํ๋ ๋ณต์ (Behavior Cloning, BC) ์ ์ฑ
ํ๋ จ (III-C):
- ์ ๊ฒฝ๋ง ์ํคํ ์ฒ (Neural Network Architecture): ํผ๋ํฌ์๋ ์ ๊ฒฝ๋ง์ ์ ์ฑ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๊ณผ๊ฑฐ K ํ์์คํ ์ ๊ด์ธก(q_{t-K+1:t}, c_{t-K+1:t})์ ๋จ์ผ ํน์ง ๋ฒกํฐ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค. ์ด๊ฐ ์ ํธ๋ ๋จผ์ ํํํ(flattening)๋ ํ MLP๋ฅผ ํต๊ณผํฉ๋๋ค. ๊ฒฐํฉ๋ ํน์ง ๋ฒกํฐ๋ hourglass encoder๋ฅผ ํตํด ์ฒ๋ฆฌ๋์ด ํ๋ ์์ธก์ ์ถ๋ ฅํฉ๋๋ค.
- ํ๋ ์ฒญํน (Action Chunking): ์ ์ฑ ์ ๋จ์ผ ํ์์คํ ํ๋์ด ์๋ ๋ฏธ๋ ํ๋ ์ํ์ค \hat{a}_{t:t+H}๋ฅผ ์์ธกํฉ๋๋ค(๊ธฐ๋ณธ๊ฐ K=5, H=16).
- ํ๋ จ: ์์ง๋ ๋ฐ์ดํฐ D_Real์ ์ฌ์ฉํ์ฌ ์ง๋ ํ์ต(supervised learning) ๋ฐฉ์์ผ๋ก BC ์ ์ฑ \pi_{BC}๋ฅผ ํ๋ จํฉ๋๋ค. ์์ค ํจ์๋ ์์ธก๋ ํ๋ ์ฒญํฌ์ ์ค์ ์ ๋ฌธ๊ฐ ํ๋ ์ํ์ค ๊ฐ์ L2 ๋ ธ๋ฆ(norm) ์ฐจ์ด์ ํฉ์ผ๋ก ์ ์๋ฉ๋๋ค: \mathcal{L}_{BC} = \sum_{t=1}^{T} \sum_{h=0}^{H} \|\hat{a}_{t+h} - a_{t+h}\|^2_2.
์คํ ๋ฐ ๊ฒฐ๊ณผ:
๋ ๊ฐ์ง ๊ณผ์ (๋ํธ-๋ณผํธ ์กฐ์, ์คํฌ๋ฃจ๋๋ผ์ด๋น)์ ๋ํด ํ๋ ์์ํฌ๋ฅผ ํ๊ฐํฉ๋๋ค.
- ๋ํธ-๋ณผํธ ์กฐ์ (Nut-Bolt Fastening): ์ง์ ์ ์ธ Sim-to-Real ์ ์ด๋ก๋ ๋ํธ๋ฅผ ์๋๋ก ์กฐ์ผ ์ ์์ผ๋ฏ๋ก, ์ค๋ ๋ ์ํธ์์ฉ์ด ์๋ฎฌ๋ ์ด์
๋์ง ์์ต๋๋ค. ํ์ต๋ ์ ์ฑ
์ ๋ค์ํ ๋ํธ ํํ(์ ์ฌ๊ฐํ, ์ผ๊ฐํ, ์ก๊ฐํ, ์ญ์ํ)์ ์ผ๋ฐํ๋ฉ๋๋ค.
- ๊ด์ธก ์ด๋ ฅ ๋ฐ ์ด๊ฐ ์ ๋ณด์ ํจ๊ณผ: ๊ด์ธก์ ์งง์ ์๊ฐ ์ด๋ ฅ(temporal history)์ ์ถ๊ฐํ๋ ๊ฒ์ด ์งํ๋ฅ (progress ratio)์ ํฌ๊ฒ ํฅ์์ํค๊ณ ์คํ ์๊ฐ์ ์ค์ ๋๋ค. ์ด๊ฐ ์ ๋ ฅ์ ์ถ๊ฐํ๋ฉด ํนํ ์ผ๊ฐํ ๋ฐ ์ญ์ํ ๋ํธ์ ๊ฐ์ ์ด๋ ค์ด ํํ์์ ์งํ๋ฅ ์ด ๊ฐ์ ๋ฉ๋๋ค. ์ด๊ฐ๊ณผ ์๊ฐ ์ด๋ ฅ์ ๋ชจ๋ ๊ฒฐํฉํ ๋ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ์คํจ ๋ชจ๋: ๊ด์ธก ์ด๋ ฅ์ด ์๋ ์ ์ฑ ์ ๋ฏธ๋ฌํ ํํ ๋ณํ์ ๋์ํ๊ธฐ ์ด๋ ต๊ณ , ๋น์ด๊ฐ ์ ์ฑ ์ ๋ถ์์ ํ ์ ์ด ์ํ๋ก ์์ฃผ ๋ฏธ๋๋ฌ์ ธ ์ ๋ ฌ์ ์์ต๋๋ค. ์ด๊ฐ ์ ์ฑ ์ ์๋ชฉ์ ์กฐ์ ํ๊ฑฐ๋ ํํฅ ํ์ ๊ฐํ์ฌ ์ด๋ฌํ ์คํจ๋ฅผ ๋ณต๊ตฌํ ์ ์์ต๋๋ค.
- ์คํฌ๋ฃจ๋๋ผ์ด๋น (Screwdriving): ๋ํธ ์กฐ์๋ณด๋ค ๋ณธ์ง์ ์ผ๋ก ๋ ์์ ์ ์ธ ๊ณผ์ ์
๋๋ค.
- Sim-to-Real ์ ์ฑ ๋ฐ ์ ๋ฌธ๊ฐ ์ฌํ: ์ง์ ์ ์ธ Sim-to-Real ์ ์ฑ ์ ์๋ฏธ ์๋ ํ๋์ ์์ฑํ์ง๋ง ๊ณผ์ ๋ฅผ ์์ ํ ์๋ฃํ์ง ๋ชปํฉ๋๋ค. ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์ฌํ(expert replay)์ ์ฑ๊ณต๋ฅ ์ด ๋์ง๋ง ๋ฐฐํฌ ์ ๋ณํ์ ์ ์ํ์ง ๋ชปํฉ๋๋ค.
- ํ๋ ๋ณต์ ์ ์ฑ : ์ ์๋ BC ์ ์ฑ ์ Sim-to-Real ๋ฐ ์ ๋ฌธ๊ฐ ์ฌํ baseline๋ณด๋ค ๋ช ํํ ํฅ์์ ๋ณด์ฌ์ค๋๋ค. ์ด๊ฐ ์ผ์ฑ ๋๋ ์๊ฐ ์ด๋ ฅ ๊ฐ๋ณ ์ถ๊ฐ ์ ์งํ๋ฅ ์ด ํฅ์๋๋ฉฐ, ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๊ฒฐํฉํ ๋ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค(95.00% ์งํ๋ฅ ).
- ์คํจ ๋ชจ๋: ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) baseline์ ์ ์ง์ ์ธ ํธ๋ค ๋ฏธ๋๋ฌ์ง๊ณผ ๋ฐฉํฅ ๋๋ฆฌํํธ๋ก ์ธํด ์์ฃผ ์คํจํฉ๋๋ค. ์ด๊ฐ ํผ๋๋ฐฑ๊ณผ ์๊ฐ ์ด๋ ฅ์ด ๋ชจ๋ ์๋ BC ์ ์ฑ ์ ์๋ชฉ ๋ฐฉํฅ์ ์กฐ์ ํ๊ณ ์ ์ ํ ํ์ ๊ฐํ์ฌ ์ด๋ฌํ ํจ๊ณผ๋ฅผ ๋ณด์ํฉ๋๋ค.
- ์ธ๋์ ๋ํ ๊ฐ๊ฑด์ฑ (Out-of-distribution Robustness): ํ๋ จ ์ค ๊ฒช์ง ๋ชปํ ์ธ๋ถ ์ธ๋(์: ์๊ฐ๋ฝ์ ๊ฐ์ฒด์์ ๋์ด๋น๊ธฐ๊ฑฐ๋ ์คํฌ๋ฃจ๋๋ผ์ด๋ฒ๋ฅผ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ํ์ )์๋ ๋ถ๊ตฌํ๊ณ ์ ์ฑ ์ด ์์ ์ ์ธ ์กฐ์ ํ๋์ผ๋ก ์ผ๊ด๋๊ฒ ๋ณต๊ตฌ๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก :
์ด ์ฐ๊ตฌ๋ ๊ฐ์ํ๋ ์๋ฎฌ๋ ์ด์ ์ ํตํด ์ฌ์ธํ ํ์ ์คํฌ์ ํ์ตํ ๋ค์, ์ด ์คํฌ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์๊ฒฉ ์กฐ์์ ํตํด ์ค์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ์ด๊ฐ ํผ๋๋ฐฑ์ ํตํฉํ์ฌ ํ๋ ๋ณต์ ์ ์ฑ ์ ํ์ตํ๋ DexScrew ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๋ํธ-๋ณผํธ ์กฐ์ ๋ฐ ์คํฌ๋ฃจ๋๋ผ์ด๋น ๊ณผ์ ์์ ์๋ฎฌ๋ ์ด์ ๋จ๋ ์ผ๋ก๋ ๋ณต์กํ ์ญํ์ ํฌ์ฐฉํ ์ ์์์ผ๋, ์ด๊ฐ ์ผ์ฑ๊ณผ ์๊ฐ ์ด๋ ฅ์ ๊ฒฐํฉํ ํ๋ ๋ณต์ ๋ ๋ค์ํ๊ณ ์ด์ ์ ๋ณด์ง ๋ชปํ ๊ฐ์ฒด ํํ์ ๊ฑธ์ณ ๊ฐ๊ฑดํ๊ณ ์ ๋ขฐํ ์ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ ์ ์ฆํ์ต๋๋ค. ์ด ๋จ๊ณ๋ณ ํ์ดํ๋ผ์ธ์ ๋ณต์กํ ์ ์ด์ด ๋ง์ ์กฐ์์ ์ํ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์๋ฃจ์ ์ ์ ๊ณตํ๋ฉฐ, ์ด๊ฐ ์ผ์ฑ๊ณผ ์คํฌ ๊ธฐ๋ฐ ์๊ฒฉ ์กฐ์์ด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๋ฐฐํฌ ์ฌ์ด์ ํจ๊ณผ์ ์ธ ๋ค๋ฆฌ ์ญํ ์ ํจ์ ๊ฐ์กฐํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
1.1 Dexterous Manipulation์ ํ์ฌ ๊ณผ์
๋ก๋ด๊ณตํ์์ ๋ค์ง(multi-fingered) ์์ ์ด์ฉํ ์ ๋ฐ ์กฐ์(dexterous manipulation)์ ์ธ๊ฐ ์์ค์ ๋ฒ์ฉ ๋ก๋ด์ ํฅํ ํต์ฌ ๋์ ๊ณผ์ ์ ๋๋ค. ์ธ๊ฐ์ ์์ 20๊ฐ ์ด์์ ์์ ๋(DoF)๋ฅผ ๊ฐ์ง๋ฉฐ, ์๋ฐฑ ๊ฐ์ ์ด๊ฐ ์์ฉ์ฒด๋ฅผ ํตํด ๋ฏธ์ธํ ์ ์ด ์ ๋ณด๋ฅผ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ฌํ ๋ณต์ก์ฑ์ ๋ก๋ด ์์คํ ์์ ์ฌํํ๋ ๊ฒ์ ๊ธฐ๊ณ ์ค๊ณ, ์ผ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ ์ด ๋ชจ๋์์ ๊ทผ๋ณธ์ ์ธ ์ด๋ ค์์ ์๋ฐํฉ๋๋ค.
์ต๊ทผ ๋ช ๋ ๊ฐ ๊ฐํํ์ต(Reinforcement Learning, RL)๊ณผ ์๋ฎฌ๋ ์ด์ -์ค์ ์ ์ด(Sim-to-Real Transfer)๊ฐ ์ด ๋ถ์ผ์์ ํ๊ธฐ์ ์ธ ๋ฐ์ ์ ์ด๋์ด์์ต๋๋ค. OpenAI์ ๋ฃจ๋น ์ค ํ๋ธ ์กฐ์, DexTreme ํ๋ก์ ํธ์ ๊ทนํ ๋ฏผ์ฒฉ์ฑ ์์ฐ ๋ฑ์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ฑ๊ณต ์ฌ๋ก๋ค์ ๋๋ถ๋ถ ๊ฐ์ฒด์ ๋จ์ ์ฌ๋ฐฐํฅ(reorientation)์ด๋ ๊ทธ๋์คํ(grasping)์ ๊ตญํ๋์ด ์์ผ๋ฉฐ, ์ค์ ์ฐ์ ํ์ฅ์์ ์๊ตฌ๋๋ ๋ณต์กํ ๋๊ตฌ ์ฌ์ฉ์ด๋ ์ ๋ฐ ์กฐ๋ฆฝ ์์ ์ผ๋ก์ ํ์ฅ์ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์์์ต๋๋ค.
1.2 โ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ โ์ด๋ผ๋ ๊ทผ๋ณธ์ ๋ฌธ์
์ด ๋ ผ๋ฌธ์ ์ ๋ชฉ์์ ํต์ฌ ํค์๋๋ โImperfect Simulationsโ์ ๋๋ค. ํ์ฌ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ค(Isaac Gym, MuJoCo, PyBullet ๋ฑ)์ ๊ฐ์ฒด ๋์ญํ(rigid body dynamics)์์๋ ์๋นํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์์ญ์์๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๊ฐ์ง๋๋ค:
๋ณต์กํ ์ ์ด ์ญํ(Contact Dynamics): ์๊ฐ๋ฝ๊ณผ ๊ฐ์ฒด ๊ฐ์ ๋ฏธ๋๋ฌ์ง(sliding), ๊ตฌ๋ฆ(rolling), ์ ์ฐฉ(stiction) ํ์์ ์ ํํ ๋ชจ๋ธ๋งํ๊ธฐ ์ด๋ ต์ต๋๋ค.
๋ค์ค ๊ฐ๊ฐ ์ ํธ(Multisensory Signals): ํนํ ์ด๊ฐ(tactile) ํผ๋๋ฐฑ์ ์ ์ด ๋ถํฌ, ์ ๋จ๋ ฅ, ๋ฒ์ ๋ ฅ์ ๋ณต์กํ ์ํธ์์ฉ์ ํฌํจํ๋ฉฐ, ์ด๋ฅผ ์๋ฎฌ๋ ์ด์ ์์ ์ ํํ ์ฌํํ๋ ๊ฒ์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
๋๊ตฌ ๋ฐ ๊ด์ ๊ฐ์ฒด(Articulated Objects): ๋์ฌ, ๋ณผํธ, ๊ฐ์ ๊ฐ์ ๊ด์ ๋ฉ์ปค๋์ฆ์ ๋ด๋ถ ๋ง์ฐฐ, ๋ฐฑ๋์(backlash), ํด๋ฆฌ์ด๋ฐ์ค ๋ฑ ์๋ฎฌ๋ ์ด์ ์์ ๋ชจ๋ธ๋งํ๊ธฐ ๊ทนํ ์ด๋ ค์ด ํน์ฑ์ ๊ฐ์ง๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ โ๋ถ์์ ํจโ์ ์ธ์ ํ๊ณ , ์ด๋ฅผ ์ฐํํ๊ฑฐ๋ ๋ณด์ํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ์ํฉ๋๋ค.
2. ํต์ฌ ๋ฐฉ๋ฒ๋ก : 3๋จ๊ณ Sim-to-Real ํ๋ ์์ํฌ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ์ฒด๊ณ์ ์ธ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ๋๋ค.
2.1 1๋จ๊ณ: ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ์์์ RL ํ์ต
์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์๋์ ์ผ๋ก ๋จ์ํ๋ ๊ฐ์ฒด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์ ๊ฐํํ์ต ์ ์ฑ ์ ํ๋ จํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ํต์ฌ ํต์ฐฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
๋จ์ํ์ ์ฒ ํ: - ์ ํํ ๋ฌผ๋ฆฌ์ ์ฌํ๋ณด๋ค๋ ์ฌ๋ฐ๋ฅธ ํ๋ ๊ตฌ์กฐ(behavioral structure)์ ์ถํ์ ์ง์คํฉ๋๋ค. - ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ์ ๊ฒฝ์ฐ, ์ ํํ ๋์ฌ์ฐ ๊ธฐํ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋์ ๊ธฐ๋ณธ์ ์ธ ์ํตํ ํ์๊ณผ ๋ง์ฐฐ ํน์ฑ๋ง์ผ๋ก๋ ์ฌ๋ฐ๋ฅธ finger gait(์๊ฐ๋ฝ ๋ณดํ ํจํด)๊ฐ ํ์ต๋ ์ ์์ต๋๋ค.
Finger Gait์ ๊ฐ๋ : Finger gait๋ in-hand manipulation์์ ํต์ฌ์ ์ธ ๊ฐ๋ ์ ๋๋ค. ์ธ๊ฐ์ด ํ์ ๋๋ฆฌ๊ฑฐ๋ ๋์ ์ ๊ตด๋ฆด ๋, ์๊ฐ๋ฝ๋ค์ ์์ฐจ์ ์ผ๋ก ์ ์ด๊ณผ ์ดํ์ ๋ฐ๋ณตํ๋ฉฐ ๊ฐ์ฒด๋ฅผ ์กฐ์ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ๋ํธ๋ฅผ ๋๋ฆฌ๊ฑฐ๋ ์คํฌ๋ฅ๋๋ผ์ด๋ฒ๋ฅผ ์กฐ์ํ ๋ ํ์ํ ์ด๋ฌํ finger gait ํจํด์ด ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ์์๋ ์์ฐ์ค๋ฝ๊ฒ ์ถํ(emerge)ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ ์ด๊ฒ์ด ์๋ํ๋๊ฐ? - Domain Randomization๊ณผ ํจ๊ป ์ฌ์ฉํ๋ฉด, ์ ์ฑ ์ด ํน์ ์๋ฎฌ๋ ์ด์ ํ๋ผ๋ฏธํฐ์ ๊ณผ์ ํฉ(overfit)๋์ง ์์ต๋๋ค. - ๋จ์ํ๋ ํ๊ฒฝ์์ ํ์ต๋ โ๊ฑฐ์น(coarse)โ ์ ์ฑ ์ ๊ธฐ๋ณธ์ ์ธ ์กฐ์ ์ ๋ต์ ์ธ์ฝ๋ฉํ๋ฉฐ, ์ดํ ๋จ๊ณ์์ ์ ์ ๋ฉ๋๋ค.
2.2 2๋จ๊ณ: ํ ๋ ์คํผ๋ ์ด์ ์ ํตํ ์ค์ ๋ฐ์ดํฐ ์์ง
๋ ๋ฒ์งธ ๋จ๊ณ๋ ์ด ํ๋ ์์ํฌ์ ๊ฐ์ฅ ํ์ ์ ์ธ ๋ถ๋ถ์ ๋๋ค. 1๋จ๊ณ์์ ํ์ต๋ RL ์ ์ฑ ์ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ์คํฌ ํ๋ฆฌ๋ฏธํฐ๋ธ(skill primitive)๋ก ํ์ฉํฉ๋๋ค.
2.2.1 ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๊ทผ๋ณธ์ ํ๊ณ
์์ ํ ๋ ์คํผ๋ ์ด์ ์ ๋ฌธ์ :
๋ค์ง ์์ ์ง์ ํ ๋ ์คํผ๋ ์ด์ ์ ๋ค์๊ณผ ๊ฐ์ ๊ทผ๋ณธ์ ์ด๋ ค์์ ๊ฐ์ง๋๋ค:
์ฐจ์์ ์ ์ฃผ(Curse of Dimensionality): 16-24๊ฐ์ ๊ด์ ์ ๋์์ ์ ์ดํด์ผ ํ๋ฉฐ, ์ธ๊ฐ ์คํผ๋ ์ดํฐ์ ์ธ์ง ๋ถํ๊ฐ ๊ทน๋๋ก ๋์ต๋๋ค.
๊ธฐ๊ตฌํ์ ๋ถ์ผ์น(Kinematic Mismatch): ์ธ๊ฐ ์๊ณผ ๋ก๋ด ์์ ๊ธฐ๊ตฌํ์ด ๋ค๋ฅด๋ฏ๋ก, ์ง๊ด์ ์ธ ๋งคํ์ด ์ด๋ ต์ต๋๋ค. ์๋ฅผ ๋ค์ด, Allegro Hand๋ 4๊ฐ์ ์๊ฐ๋ฝ๋ง ์๊ณ ๊ฐ ์๊ฐ๋ฝ์ ๊ด์ ๋ฐฐ์น๊ฐ ์ธ๊ฐ๊ณผ ๋ค๋ฆ ๋๋ค.
์๊ฐ์ ์ ๋ฐ๋: Finger gait ๊ฐ์ ๋์ ์กฐ์์ ๋ฐ๋ฆฌ์ด ๋จ์์ ํ์ด๋ฐ์ด ์ค์ํ๋ฐ, ์ธ๊ฐ์ด ์ด๋ฅผ ์ง์ ์ ์ดํ๊ธฐ๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
ํ๋ จ ๋น์ฉ: ์๋ จ๋ ์คํผ๋ ์ดํฐ ์์ฑ์ ์์ญ-์๋ฐฑ ์๊ฐ์ด ์์๋๋ฉฐ, ํผ๋ก๋ก ์ธํ ๋ฐ์ดํฐ ํ์ง ์ ํ๊ฐ ๋ฐ์ํฉ๋๋ค.
์์ Sim-to-Real ์ ์ด์ ๋ฌธ์ :
์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ์ง์ ์ค์ ์ ์ ์ฉํ ๋์ ์คํจ ์์ธ:
์ ์ด ์ญํ ๋ถ์ผ์น: ์๋ฎฌ๋ ์ด์ ์ ์ ์ด ๋ชจ๋ธ์ ์ค์ ์ ๋ณต์กํ ๋ง์ฐฐ, ๋ณํ, ์ ์ฐฉ ํ์์ ํฌ์ฐฉํ์ง ๋ชปํฉ๋๋ค.
๊ฐ๊ฐ ๊ฒฉ์ฐจ(Sensory Gap): ์๋ฎฌ๋ ์ด์ ์์๋ ์๋ฒฝํ ์ํ ์ ๋ณด์ ์ ๊ทผํ์ง๋ง, ์ค์ ์์๋ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ผ์ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
์ก์ถ์์ดํฐ ๋ชจ๋ธ๋ง ์ค๋ฅ: ๋ชจํฐ์ ๋น์ ํ์ฑ, ๋ฐฑ๋์, ๋ง์ฐฐ ๋ฑ์ด ์ ํํ ๋ชจ๋ธ๋ง๋์ง ์์ต๋๋ค.
ํ๊ฒฝ ๋ณ๋์ฑ: ์กฐ๋ช , ์จ๋, ์ต๋ ๋ฑ ์๋ฎฌ๋ ์ด์ ์์ ๊ณ ๋ คํ์ง ์์ ์์๋ค์ด ์ค์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
2.2.2 ์ ์๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ ์์ธ ์ค๊ณ
๋ณธ ๋ ผ๋ฌธ์ ํต์ฌ ํต์ฐฐ์ RL ์ ์ฑ ์ โ์๋ ์กฐ์ข ์ฅ์น(autopilot)โ๋ก ํ์ฉํ๋ ๊ฒ์ ๋๋ค.
์์คํ ์ํคํ ์ฒ:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ HUMAN OPERATOR โ
โ - High-level intent: start, stop, direction, force level โ
โ - Cognitive load: LOW (only strategic decisions) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Sparse commands (1-5 Hz)
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ COMMAND INTERFACE โ
โ - Joystick / Keyboard / Voice commands โ
โ - Maps discrete inputs to continuous conditioning signals โ
โ - Direction vector: 3D rotation axis โ
โ - Force level: scalar multiplier for torque limits โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Conditioning signal c(t)
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ RL SKILL PRIMITIVE (from Stage 1) โ
โ โ
โ ฯ(a|s,c) : (proprioception, conditioning) โ joint commands โ
โ โ
โ - Handles ALL low-level finger coordination โ
โ - Generates finger gait patterns automatically โ
โ - Adjusts grip force based on sensed slip โ
โ - Execution rate: 30-50 Hz โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Joint position/torque commands
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ROBOT HARDWARE โ
โ - Multi-fingered hand (16-24 DoF) โ
โ - Tactile sensor arrays on fingertips โ
โ - Joint encoders and torque sensors โ
โ - Low-level PD control at 500-1000 Hz โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Sensor feedback
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ DATA COLLECTION MODULE โ
โ Records synchronized streams: โ
โ - Tactile: contact distribution, force magnitude (100+ Hz) โ
โ - Proprioception: joint angles, velocities, torques (500 Hz) โ
โ - Task state: object pose, rotation angle (30 Hz) โ
โ - Labels: success/failure, phase annotations โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์กฐ๊ฑดํ ์ ํธ(Conditioning Signal)์ ์ค๊ณ:
RL ์ ์ฑ ์ ์กฐ๊ฑดํ ์ ํธ c(t)๋ฅผ ์ถ๊ฐ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ๋์ ์กฐ์ ํฉ๋๋ค:
c(t) = [direction_vector, force_level, task_phase]
direction_vector โ โยณ:
- Unit vector specifying desired rotation axis
- Example: [0, 0, 1] for clockwise rotation around z-axis
- Example: [0, 0, -1] for counter-clockwise
force_level โ [0, 1]:
- Scalar multiplying base torque limits
- 0.3: gentle manipulation (initial threading)
- 0.7: normal operation
- 1.0: high-torque (final tightening)
task_phase โ {approach, grasp, rotate, release}:
- Discrete phase indicator
- Enables phase-specific behaviors
RL ์ ์ฑ ์ ์กฐ๊ฑด๋ถ ๊ตฌ์กฐ:
class ConditionalSkillPolicy(nn.Module):
def __init__(self, obs_dim, cond_dim, action_dim):
self.obs_encoder = MLP([obs_dim, 256, 256])
self.cond_encoder = MLP([cond_dim, 64, 64])
self.policy_head = MLP([320, 256, action_dim])
def forward(self, observation, conditioning):
# Encode proprioceptive observation
obs_features = self.obs_encoder(observation)
# Encode conditioning signal
cond_features = self.cond_encoder(conditioning)
# Concatenate and produce action
combined = torch.cat([obs_features, cond_features], dim=-1)
action = self.policy_head(combined)
return action2.2.3 ์ธ๊ฐ-๋ก๋ด ์ญํ ๋ถ๋ด์ ์๋ฆฌ
Fitts์ MABA-MABA ์์น ์ ์ฉ:
์ธ๊ฐ๊ณผ ๊ธฐ๊ณ(๋ก๋ด)์ ์ญํ ๋ถ๋ด์ ๊ฐ์์ ๊ฐ์ ์ ํ์ฉํฉ๋๋ค:
| Capability | Human | Robot (RL Policy) |
|---|---|---|
| Strategic planning | โ Excellent | โ Limited |
| Anomaly detection | โ Excellent | โณ Moderate |
| High-frequency control | โ Poor | โ Excellent |
| Precise timing | โ Poor | โ Excellent |
| Fatigue resistance | โ Poor | โ Excellent |
| Adaptability to novel situations | โ Good | โณ Within training distribution |
๊ตฌ์ฒด์ ์ญํ ๋ถ๋ด ์์ (๋ํธ ์ฒด๊ฒฐ ์์ ):
Human responsibilities:
โโโ Decide WHEN to start grasping
โโโ Specify rotation DIRECTION (CW/CCW)
โโโ Judge if nut is properly seated
โโโ Detect cross-threading (via visual inspection)
โโโ Decide when tightening is complete
โโโ Handle exceptions and failures
RL Policy responsibilities:
โโโ Execute finger gait for continuous rotation
โโโ Maintain stable multi-finger grasp
โโโ Adjust grip force to prevent slip
โโโ Coordinate 16-24 joints simultaneously
โโโ React to contact events in real-time
โโโ Generate smooth, collision-free motions
2.2.4 ๋ฐ์ดํฐ ์์ง์ ์์ธ ํ๋กํ ์ฝ
์์ง๋๋ ๋ฐ์ดํฐ ์คํธ๋ฆผ:
1. Tactile Stream (100-1000 Hz):
โโโ Per-finger contact maps: [N_fingers ร H ร W] pressure images
โโโ Aggregated features: total force, CoP, contact area
โโโ Temporal derivatives: force rate, slip indicators
โโโ Raw sensor values for offline reprocessing
2. Proprioceptive Stream (500-1000 Hz):
โโโ Joint positions: q โ โ^{n_joints}
โโโ Joint velocities: qฬ โ โ^{n_joints}
โโโ Joint torques: ฯ โ โ^{n_joints}
โโโ End-effector poses (computed via FK)
3. Task State Stream (30-100 Hz):
โโโ Object pose (from external tracking or estimation)
โโโ Rotation angle accumulated
โโโ Task phase labels
โโโ Success/failure flags
4. Command Stream (1-10 Hz):
โโโ Human input commands (raw)
โโโ Interpreted conditioning signals
โโโ Timestamps for synchronization
๋ฐ์ดํฐ ํ์ง ๋ณด์ฅ ๋ฉ์ปค๋์ฆ:
- ์๋ ํํฐ๋ง: ๋ถ์์ ํ๊ฑฐ๋ ์คํจํ ์ํผ์๋ ์๋ ์ ์ธ
- ๋๊ธฐํ ๊ฒ์ฆ: ์ผ์ ์คํธ๋ฆผ ๊ฐ ์๊ฐ ์ ๋ ฌ ํ์ธ
- ์ด์์น ํ์ง: ๋น์ ์์ ์ผ์ ๊ฐ ํ๋๊น
- ๋ฐธ๋ฐ์ฑ: ์ฑ๊ณต/์คํจ, ๋ค์ํ ๊ฐ์ฒด์ ๋ํด ๊ท ํ ์กํ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ
2.2.5 ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ ์ด๋ก ์ ์ฅ์
์ ๋ณด ์ด๋ก ์ ๊ด์ :
Traditional Teleoperation:
I(Demo; Task) โค I(Human_skill; Task)
โ Limited by human's motor control capability
Hybrid Approach:
I(Demo; Task) = I(Human_intent; Task) + I(RL_execution; Task|Human_intent)
โ Human provides WHAT, RL provides HOW
โ Information is additive, not bottlenecked
์ํ ๋ณต์ก๋ ๊ด์ :
์์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ํน์ ์์ ์ ํ์ตํ๋ ๋ฐ ํ์ํ ๋ฐ๋ชจ ์๋ฅผ N_{teleop}, ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ผ๋ก ํ์ํ ์๋ฅผ N_{hybrid}๋ผ ํ๋ฉด:
N_hybrid << N_teleop
Reasons:
1. RL policy already knows basic manipulation structure
2. Human only needs to provide high-level variation
3. Low-level noise is filtered by RL
์์ง๋๋ ๋ฐ์ดํฐ์ ์ง์ ์ฐจ์ด:
| Aspect | Pure Teleoperation | Hybrid Approach |
|---|---|---|
| Motion smoothness | Variable (human tremor) | Consistent (RL generated) |
| Timing precision | Poor (human reaction time) | Excellent (policy-controlled) |
| Coverage of state space | Biased to human preferences | More systematic |
| Failure modes captured | Uncontrolled failures | Controlled exploration |
| Sensory richness | Same | Same |
์ด ์ ๊ทผ๋ฒ์ ํต์ฌ ์ฅ์ ์ ํจ์จ์ฑ๊ณผ ๋ฐ์ดํฐ ํ์ง์ ๋์ ๋ฌ์ฑ์ ๋๋ค. ์ธ๊ฐ์ด ์์ฒ ๋ฒ์ ์ํ์ฐฉ์ค ์์ด๋ ์๋ฏธ ์๋ ์กฐ์ ๋ฐ๋ชจ๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ ์ ์์ผ๋ฉฐ, ๋์์ ์๋ฎฌ๋ ์ด์ ์์๋ ์ป์ ์ ์๋ ํ๋ถํ ์ค์ ๊ฐ๊ฐ ์ ๋ณด๊ฐ ํฌํจ๋ฉ๋๋ค.
2.3 3๋จ๊ณ: ์ด๊ฐ ํตํฉ Behavior Cloning
๋ง์ง๋ง ๋จ๊ณ์์๋ ์์ง๋ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ ๋ชจ๋ฐฉ ํ์ต(Behavior Cloning) ์ ์ฑ ์ ํ๋ จํฉ๋๋ค.
์ ์ด๊ฐ์ด ์ค์ํ๊ฐ?
๋ํธ-๋ณผํธ ์ฒด๊ฒฐ์ด๋ ์คํฌ๋ฅ๋๋ผ์ด๋น ๊ฐ์ ์์ ์์ ์ด๊ฐ์ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค:
- ์ ์ด ์ํ ์ธ์: ์๊ฐ๋ฝ์ด ๊ฐ์ฒด์ ์ ์ดํ๊ณ ์๋์ง, ์ด๋์์ ์ ์ดํ๋์ง
- ์ฌ๋ฆฝ ๊ฐ์ง: ๊ฐ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๊ธฐ ์์ํ๋ ์๊ฐ์ ๊ฐ์งํ์ฌ ๊ทธ๋ฆฝ ์กฐ์
- ํ ํผ๋๋ฐฑ: ๋ํธ๊ฐ ๋๊น์ง ์กฐ์ฌ์ก๋์ง, ๋์ฌ์ฐ์ด ์ ๋ ฌ๋์๋์ง ํ๋จ
- ํ์ ์ถ๋ก : ์ด๊ฐ์ ํตํด ๋ณด์ด์ง ์๋ ๊ฐ์ฒด ํน์ฑ ํ์
์ผ๋ฐํ(Generalization) ๋ฅ๋ ฅ:
๋ ผ๋ฌธ์ ํต์ฌ ์ฃผ์ฅ ์ค ํ๋๋ ํ์ต๋ ์ ์ฑ ์ด ๋ค์ํ ํ์์ ๋ํธ์ ์คํฌ๋ฅ๋๋ผ์ด๋ฒ๋ก ์ผ๋ฐํ๋๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ์ด๊ฐ ์ ๋ณด๊ฐ ์๊ฐ์ ์ผ๋ก ๋ณด์ด์ง ์๋ ๊ฐ์ฒด ํน์ฑ(๋์ฌ์ฐ ํผ์น, ํค๋ ํ์ ๋ฑ)์ ๋ํ ์๋ฌต์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
3. ๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
3.1 ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์ค๊ณ ์ฒ ํ
3.1.1 ๊ฐ์ฒด ๋ชจ๋ธ ๋จ์ํ์ ์์น๊ณผ ๊ทผ๊ฑฐ
๋ณธ ๋ ผ๋ฌธ์์ ์ฑํํ ๊ฐ์ฒด ๋ชจ๋ธ ๋จ์ํ๋ ๋จ์ํ ๊ณ์ฐ ํจ์จ์ฑ ์ถ๊ตฌ๊ฐ ์๋, ํ์ต ๊ฐ๋ฅ์ฑ(learnability)๊ณผ ์ ์ด ๊ฐ๋ฅ์ฑ(transferability) ์ฌ์ด์ ๊ท ํ์ ๊ณ ๋ คํ ์ค๊ณ ๊ฒฐ์ ์ ๋๋ค.
๋จ์ํ ์ ๋ต์ ์์ธ:
| Real Object | Simulation Representation | Simplification Point | Preserved Properties |
|---|---|---|---|
| Hex nut | Cylindrical primitive | Thread removed, basic friction only | Rotation axis, graspable region, basic friction |
| Bolt | Fixed axis | Only rotation instead of helical motion | Axis direction, torque-rotation relationship |
| Screwdriver | Straight rod | Head shape simplified | Length, mass distribution, grip region |
์ ๋์ฌ์ฐ์ ๋ชจ๋ธ๋งํ์ง ์๋๊ฐ?
๋์ฌ์ฐ์ ์ ํํ ๋ฌผ๋ฆฌ์ ๋ชจ๋ธ๋ง์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํฉ๋๋ค:
์ ์ด์ ํญ๋ฐ(Contact Point Explosion): ๋์ฌ์ฐ์ ํฌ๋ฆฌ์ปฌ ๊ธฐํ๋ ์๋ฐฑ ๊ฐ์ ์ ์ด์ ์ ์์ฑํ์ฌ ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ํฌ๊ฒ ์ ํ์ํต๋๋ค.
์์น์ ๋ถ์์ ์ฑ: ๋ฏธ์ธํ ๋์ฌ์ฐ ๊ฐ๊ฒฉ(0.5-2mm)์์์ ์ ์ด ํด์์ ์์น์ ์ผ๋ก ๋ถ์์ ํ๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํฉ๋๋ค.
๋ถํ์ํ ๋ณต์ก์ฑ: RL ์์ด์ ํธ๊ฐ ํ์ตํด์ผ ํ ํต์ฌ ํ๋(finger gait, ๊ทธ๋ฆฝ ์กฐ์ )์ ๋์ฌ์ฐ ์ธ๋ถ ์ฌํญ๊ณผ ๋ ๋ฆฝ์ ์ ๋๋ค.
ํต์ฌ ํต์ฐฐ:
์๋ฎฌ๋ ์ด์ ์ ๋ชฉ์ ์ โ์ค์ ์ ๋์ผํ ๋ฌผ๋ฆฌ์ ๊ฒฝํโ์ ์ ๊ณตํ๋ ๊ฒ์ด ์๋๋ผ, โ์ฌ๋ฐ๋ฅธ ํ๋ ํจํด์ ํ์ํ ์ ์๋ ์ถฉ๋ถํ ํ๋ถํ ํ๊ฒฝโ์ ์ ๊ณตํ๋ ๊ฒ์ ๋๋ค.
3.1.2 Domain Randomization์ ์ฒด๊ณ์ ์ ์ฉ
Domain Randomization์ Sim-to-Real Gap์ ์ค์ด๊ธฐ ์ํ ํ์ค ๊ธฐ๋ฒ์ด์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ ํ์ ์ด๊ณ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํฉ๋๋ค.
๋๋คํ ํ๋ผ๋ฏธํฐ ๊ณ์ธต:
Level 1: Physical Parameters (Strong Randomization)
โโโ Object mass: uniform(0.5x, 1.5x)
โโโ Friction coefficient: uniform(0.3, 1.2)
โโโ Moment of inertia: uniform(0.8x, 1.2x)
โโโ Contact stiffness: uniform(0.7x, 1.3x)
Level 2: Geometric Parameters (Moderate Randomization)
โโโ Object scale: uniform(0.85, 1.15)
โโโ Finger length: uniform(0.95, 1.05)
โโโ Joint offset: gaussian(0, 0.5mm)
Level 3: Sensor/Actuator Noise (Light Randomization)
โโโ Joint position noise: gaussian(0, 0.01rad)
โโโ Torque sensor noise: gaussian(0, 0.1Nm)
โโโ Control delay: uniform(0, 50ms)
๋๋คํ์ ํต์ฌ ์์น:
๋ณด์์ ์ ๊ทผ: ๊ณผ๋ํ ๋๋คํ๋ ํ์ต์ ๋ฐฉํดํฉ๋๋ค. ํนํ ๊ธฐํํ์ ํ๋ผ๋ฏธํฐ๋ ์ค์ ๋ณ๋ ๋ฒ์ ๋ด์์๋ง ๋๋คํํฉ๋๋ค.
์๊ด๊ด๊ณ ๋ณด์กด: ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ฐ๊ด๋ ํ๋ผ๋ฏธํฐ(์: ์ง๋๊ณผ ๊ด์ฑ)๋ ํจ๊ป ๋ณ๊ฒฝํ์ฌ ๋นํ์ค์ ์ธ ์กฐํฉ์ ๋ฐฉ์งํฉ๋๋ค.
์ ์ง์ ํ๋: ํ์ต ์ด๊ธฐ์๋ ์ข์ ๋ฒ์๋ก ์์ํ์ฌ ์ ์ง์ ์ผ๋ก ๋๋คํ ๋ฒ์๋ฅผ ํ๋ํ๋ curriculum ์ ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
3.2 ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ
3.2.1 ์๊ณ ๋ฆฌ์ฆ ์ ํ์ ๊ทผ๊ฑฐ
๋ค์ง ์ ์ ์ด ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ์ ๊ฐ์ง๋๋ค: - ๊ณ ์ฐจ์ ์ฐ์ ํ๋ ๊ณต๊ฐ (16-24 DoF) - ๋ณต์กํ ์ ์ด ์ญํ์ผ๋ก ์ธํ ๋นsmooth ๋ณด์ landscape - ์ฅ๊ธฐ ์๊ฐ ์์กด์ฑ (finger gait๋ ์์ญ ์คํ ์ ๊ฑธ์ณ ๋ฐ์)
์ด๋ฌํ ํน์ฑ์ ๊ณ ๋ คํ ๋, ๋ค์ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ์ ํฉํฉ๋๋ค:
PPO (Proximal Policy Optimization):
Advantages:
- Stable learning (clipping prevents large policy changes)
- Easy parallelization (thousands of environments simultaneously)
- Relatively few hyperparameters to tune
Expected hyperparameters:
- Learning rate: 3e-4
- Clip range: 0.2
- Entropy coefficient: 0.01
- GAE lambda: 0.95
- Batch size: 4096-16384
SAC (Soft Actor-Critic):
Advantages:
- Maximum entropy principle encourages exploration
- Sample efficient (off-policy)
- Can learn diverse action modes
Application scenarios:
- Useful for fine-tuning on real robot
- When learning with limited data
3.2.2 ๋ณด์ ํจ์์ ์์ธ ์ค๊ณ
๋ณด์ ํจ์ ์ค๊ณ๋ RL ๊ธฐ๋ฐ ์กฐ์์์ ๊ฐ์ฅ ์ด๋ ค์ด ๋ถ๋ถ ์ค ํ๋์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์์ ์ ์ ํฉํ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํฉ๋๋ค:
๋ํธ-๋ณผํธ ์ฒด๊ฒฐ ์์ ์ ๋ณด์ ๋ถํด:
def compute_reward(state, action, next_state):
# 1. ์งํ๋ ๋ณด์ (Progress Reward)
# ๋ํธ์ ํ์ ๊ฐ๋ ๋ณํ๋ฅผ ์ธก์
delta_angle = next_state.nut_angle - state.nut_angle
r_progress = progress_scale * delta_angle # ์๊ณ๋ฐฉํฅ ํ์ ์ ์์ ๋ณด์
# 2. ์ ์ด ํ์ง ๋ณด์ (Contact Quality Reward)
# ์์ ์ ์ธ ๋ค์ค ์๊ฐ๋ฝ ์ ์ด ์ฅ๋ ค
num_contacts = count_finger_contacts(next_state)
contact_stability = compute_grasp_stability(next_state)
r_contact = contact_scale * (num_contacts / max_fingers) * contact_stability
# 3. ์ ๋ ฌ ๋ณด์ (Alignment Reward)
# ๋ํธ๊ฐ ๋ณผํธ ์ถ๊ณผ ์ ๋ ฌ๋ ์ ๋
alignment_error = compute_axis_alignment(next_state)
r_align = align_scale * exp(-alignment_error / alignment_temp)
# 4. ์๋์ง ํ๋ํฐ (Energy Penalty)
# ๊ณผ๋ํ ํ ์ฌ์ฉ ์ต์
total_torque = sum(abs(action))
r_energy = -energy_scale * total_torque
# 5. ์ฌ๋ฆฝ ํ๋ํฐ (Slip Penalty)
# ๊ฐ์ฒด ๋ฏธ๋๋ฌ์ง ๊ฐ์ง์ ํ๋ํฐ
if detect_slip(state, next_state):
r_slip = -slip_penalty
else:
r_slip = 0
# 6. ์ฑ๊ณต ๋ณด์ (Sparse Success Reward)
# ์์
์๋ฃ์ ํฐ ๋ณด์
if task_completed(next_state):
r_success = success_bonus
else:
r_success = 0
return r_progress + r_contact + r_align + r_energy + r_slip + r_success๋ณด์ ๊ฐ์ค์น ํ๋์ ๊ณ ๋ ค์ฌํญ:
| Reward Component | Problem with Low Weight | Problem with High Weight |
|---|---|---|
| Progress | Slow learning, meaningless motion | Unstable fast rotation, object drop |
| Contact | Unstable grip | Overly conservative motion |
| Energy | Inefficient force use | Too weak grip, task failure |
| Slip | Frequent object drops | Overly cautious motion |
3.2.3 Teacher-Student Distillation ์ํคํ ์ฒ
๋ง์ sim-to-real ์ฐ๊ตฌ์์ ํจ๊ณผ์ ์ธ teacher-student ๊ตฌ์กฐ๋ฅผ ๋ณธ ์์ ์ ์ ์ฉํ๋ฉด:
Teacher Policy (Simulation only):
โโโ Input: Full state information (object pose, velocity, contact points, etc.)
โโโ Output: Optimal action
โโโ Training: Millions of steps in simulation
Student Policy (Real deployment):
โโโ Input: Limited sensory information (proprioception, tactile)
โโโ Output: Action (similar to teacher)
โโโ Training: Imitate teacher's behavior + fine-tune with real data
Privileged Information์ ํ์ฉ:
Teacher๋ ์๋ฎฌ๋ ์ด์ ์์๋ง ์ ๊ทผ ๊ฐ๋ฅํ โํน๊ถ ์ ๋ณดโ๋ฅผ ํ์ฉํฉ๋๋ค:
- ์ ํํ ๊ฐ์ฒด pose
- ๋ชจ๋ ์ ์ด์ ์ ์์น์ ํ
- ๊ฐ์ฒด์ ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ
Student๋ ์ด๋ฌํ ์ ๋ณด ์์ด๋ ์ ์ฌํ ํ๋์ ์ถ๋ ฅํ๋๋ก ํ์ต๋๋ฉฐ, ์ด ๊ณผ์ ์์ ์๋ฌต์ ์ํ ์ถ์ (implicit state estimation)์ ์ํํ๊ฒ ๋ฉ๋๋ค.
3.3 ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ๊ธฐ์ ์ ์ค๊ณ
3.3.1 ํ์ด๋ธ๋ฆฌ๋ ์ ์ด ์ํคํ ์ฒ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Human Operator โ
โ (High-level intent: start, stop, direction, force adjust) โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ High-level commands (5-10Hz)
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Command Interpreter โ
โ - Convert to continuous direction vector โ
โ - Map force level to torque limits โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Conditioning signal
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ RL Skill Primitive Policy โ
โ - Input: proprioception + conditioning signal โ
โ - Output: per-joint torque/position commands โ
โ - Execution rate: 30-50Hz โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Low-level commands
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Low-level Controller โ
โ - PD controller (for position commands) โ
โ - Torque control (for direct torque commands) โ
โ - Execution rate: 500-1000Hz โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ Multi-fingered Hand โ
โ - 16-24 DoF โ
โ - Tactile sensor arrays โ
โ - Joint encoders โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
3.3.2 ์ธ๊ฐ-๋ก๋ด ์ธํฐํ์ด์ค ์ต์
์ต์ 1: ํ ํฑ ์ฅ์น ๊ธฐ๋ฐ
Device: Geomagic Touch, Falcon, etc.
Advantages: Force feedback, intuitive operation
Disadvantages: Not suitable for high-DoF hand control
Application: Used for wrist/arm position control, fingers delegated to RL
์ต์ 2: ์ฅ๊ฐ ๊ธฐ๋ฐ (Manus, HaptX ๋ฑ)
Advantages: Natural hand movement mapping
Disadvantages: Kinematic mismatch between human and robot hands
Application: Retargeting algorithm required
์ต์ 3: ๋จ์ํ๋ ๋ช ๋ น ์ธํฐํ์ด์ค
Input: Joystick, keyboard, voice commands
Advantages: Low cost, easy to learn
Disadvantages: Fine control difficult
Application: Suitable for this paper's approach (RL handles fine control)
3.4 ์ด๊ฐ ์ผ์ฑ ์์คํ ์ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ
3.4.1 ์ด๊ฐ ์ผ์ ์ ํ๋ณ ํน์ฑ
์ ํญ์ ์ด๋ ์ด ์ผ์:
Principle: Measure resistance change under pressure
Resolution: 4-16 taxel/cmยฒ
Sampling: 100-1000Hz
Advantages: Low cost, high spatial resolution
Disadvantages: Hysteresis, drift
Examples: FSR array, Tekscan
์ฉ๋์ ์ผ์:
Principle: Capacitance change under pressure
Resolution: 1-4 taxel/cmยฒ
Sampling: 100-500Hz
Advantages: Low hysteresis, stable
Disadvantages: Sensitive to electromagnetic interference
Examples: Syntouch BioTac, Robotic Skin
๊ดํ์/๋น์ ๊ธฐ๋ฐ:
Principle: Camera imaging of gel deformation
Resolution: Hundreds to thousands taxel equivalent
Sampling: 30-60Hz (camera framerate)
Advantages: Very high resolution, 3-axis force measurement possible
Disadvantages: Processing delay, computational cost
Examples: GelSight, DIGIT, Soft Bubble
3.4.2 ์ด๊ฐ ๋ฐ์ดํฐ์ ์ ๊ฒฝ๋ง ์ ๋ ฅ ํํ
์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ฑ ๋คํธ์ํฌ์ ์ ๋ ฅํ๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ต๋๋ค:
๋ฐฉ๋ฒ 1: Raw ์ด๋ฏธ์ง ํํ
๋ฐฉ๋ฒ 2: ์์ฝ ํต๊ณ๋
# ์ ์ฐจ์ ํน์ง์ผ๋ก ์์ถ
tactile_features = {
'total_force': sum(tactile_readings),
'center_of_pressure': compute_cop(tactile_readings),
'contact_area': count_nonzero(tactile_readings > threshold),
'max_pressure': max(tactile_readings),
'pressure_gradient': compute_gradient(tactile_readings)
}๋ฐฉ๋ฒ 3: ์๊ฐ์ ํน์ง ํฌํจ
3.4.3 ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ ์ํคํ ์ฒ
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ Tactile Input โ โProprioceptiveโ โ Task Conditionโ
โ (HรWรT) โ โ Input(JรT) โ โ (D) โ
โโโโโโโโฌโโโโโโโโ โโโโโโโโฌโโโโโโโโ โโโโโโโโฌโโโโโโโโ
โ โ โ
โผ โผ โผ
โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโ
โ CNN โ โ MLP โ โ Embedding โ
โ Encoder โ โ Encoder โ โ Layer โ
โโโโโโโโฌโโโโโโโโ โโโโโโโโฌโโโโโโโโ โโโโโโโโฌโโโโโโโโ
โ โ โ
โโโโโโโโโโโโโโฌโโโโโดโโโโโโโโโโโโโโโโโ
โ Concatenation
โผ
โโโโโโโโโโโโโโโโโโโโ
โ Fusion Network โ
โ (MLP/Attention)โ
โโโโโโโโโโฌโโโโโโโโโโ
โ
โผ
โโโโโโโโโโโโโโโโโโโโ
โ Policy Head โ
โ (Action Output) โ
โโโโโโโโโโโโโโโโโโโโ
4. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
4.1 ๊ธฐ์กด Sim-to-Real ์ ๊ทผ๋ฒ๋ค
| Method | Advantages | Limitations | Comparison with This Paper |
|---|---|---|---|
| Domain Randomization | Easy to implement, no additional real data required | Unrealistic behavior learning with excessive randomization | This paper uses DR only in Stage 1, refines with real data |
| System Identification | Accurate simulation possible | Time consuming, needs to be redone for each object | This paper does not depend on object model accuracy |
| Real-to-Sim-to-Real | Corrects simulation with real data | Complex pipeline, computational cost | This paper directly uses real data instead of simulation correction |
| Online Adaptation | Responds to real-time environment changes | Can be dangerous on real robot | This paper deploys after offline learning for safety |
4.2 ์ ์ฌ ์ฐ๊ตฌ๋ค
DexTreme (2023): - ๊ทนํ์ in-hand manipulation ์์ฐ - ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ + Domain Randomization์ ์์กด - ์ด๊ฐ ์์ด ๊ณ ์ ๊ฐ๊ฐ๋ง ์ฌ์ฉ - ๋ณธ ๋ ผ๋ฌธ์ ์ด๊ฐ ํตํฉ์ผ๋ก ๋ ๋ณต์กํ ์์ ์ํ
Transic (2024): - ์จ๋ผ์ธ ๊ต์ ์ ํตํ sim-to-real ์ ์ด - ์ค์๊ฐ ์ธ๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ ์ฑ ์์ - ๋ณธ ๋ ผ๋ฌธ์ ํ ๋ ์คํผ๋ ์ด์ ์ ๋ฐ์ดํฐ ์์ง์ ํ์ฉํ์ฌ ์ฐจ๋ณํ
CyberDemo (CVPR 2024): - ์๋ฎฌ๋ ์ด์ ๋ฐ๋ชจ์ ๋๊ท๋ชจ ์ฆ๊ฐ - ์ฌ์ ํ์ต๋ ์๊ฐ ํํ ํ์ฉ - ๋ณธ ๋ ผ๋ฌธ์ ์ค์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ง์ ํ์ฉํ์ฌ ๋ ํ๋ถํ ๊ฐ๊ฐ ์ ๋ณด ํฌํจ
4.3 ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ๋ค
Visual Dexterity (Chen et al., 2023): - ์๊ฐ๋ง์ผ๋ก in-hand ์ฌ๋ฐฐํฅ - ์ด๊ฐ ์์ด ์๊ฐ์ ์ถ๋ก ์ ์์กด - ๋ณธ ๋ ผ๋ฌธ์ ์ด๊ฐ์ผ๋ก ์๊ฐ์ ํ๊ณ ๋ณด์
In-Hand Manipulation of Articulated Tools (2025): - ๊ด์ ๋๊ตฌ์ in-hand ์กฐ์ - ์๋ฎฌ๋ ์ด์ ์ ์ฑ + ์ด๊ฐ ๊ธฐ๋ฐ ์ ์ - ๋ณธ ๋ ผ๋ฌธ๊ณผ ์ ์ฌํ ์ฒ ํ์ด์ง๋ง ๋ค๋ฅธ ์์ฉ ์์ญ
5. ํ์คํฌ ๋ถ์: ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ๊ณผ ์คํฌ๋ฅ๋๋ผ์ด๋น
5.1 ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ (Nut-Bolt Fastening)
์์ ๋ถํด:
- ์ ๊ทผ ๋จ๊ณ (Approach Phase)
- ์์ด ๋ํธ์ ์ ๊ทผ
- ์ ์ ํ ๊ทธ๋ฆฝ ์์ธ ํ์ฑ
- ํ์ง ๋จ๊ณ (Grasping Phase)
- ๋ค์ค ์๊ฐ๋ฝ์ผ๋ก ๋ํธ ์์ ์ ํ์ง
- ์ด๊ธฐ ํ ํฌ ์ ํญ ์์ด ํ์ ๊ฐ๋ฅ ํ์ธ
- ํ์ ๋จ๊ณ (Rotation Phase)
- ์๊ฐ๋ฝ๋ค์ ์์ฐจ์ ์ฌ๋ฐฐ์น (finger gait)
- ์ผ์ ํ ํ ํฌ ์ ์ฉํ๋ฉฐ ํ์
- ์ฒด๊ฒฐ ์๋ฃ ๊ฐ์ง (Completion Detection)
- ํ ํฌ ์ฆ๊ฐ ๊ฐ์ง
- ์ด๊ฐ/๊ณ ์ ๊ฐ๊ฐ์ผ๋ก โ๊ฝ ์กฐ์ฌ์งโ ํ๋จ
๋์ ๊ณผ์ : - ๋ํธ์ ๋ณผํธ ๋์ฌ์ฐ์ ์ ๋ ฌ (Cross-threading ๋ฐฉ์ง) - ํ์ ์ค ๋ํธ ์ฌ๋ฆฝ ๋ฐฉ์ง - ๋ค์ํ ๋ํธ ํฌ๊ธฐ/ํ์์ ๋ํ ์ผ๋ฐํ
5.2 ์คํฌ๋ฅ๋๋ผ์ด๋น (Screwdriving)
์์ ํน์ฑ: - ๋๊ตฌ(์คํฌ๋ฅ๋๋ผ์ด๋ฒ) ์ฌ์ฉ์ด ์ถ๊ฐ๋จ - ํค๋์ ๋๋ผ์ด๋ฒ ํ์ ์ ๋ ฌ์ด ์ค์ - ์ถ๋ฐฉํฅ ์๋ ฅ๊ณผ ํ์ ํ ํฌ์ ์กฐํฉ ํ์
ํต์ฌ ๋์ : - ๋๋ผ์ด๋ฒ-์คํฌ๋ฅ ๊ฒฐํฉ ์ ์ง - ์ ์ ํ ์ถ๋ฐฉํฅ ํ ์ ์ฉ (๋๋ฌด ์ฝํ๋ฉด ์บ ์์, ๋๋ฌด ๊ฐํ๋ฉด ์์) - ๋ค์ํ ์คํฌ๋ฅ ํค๋ ํ์ (์ญ์, ์ผ์, ๋ณํ ๋ฑ) ์ ์
6. ์ด๋ก ์ ์์์ ์ค์ฉ์ ํจ์
6.1 ์ด๋ก ์ ๊ธฐ์ฌ์ ์ฌ์ธต ๋ถ์
6.1.1 โGood Enoughโ ์๋ฎฌ๋ ์ด์ ๊ฐ์ค์ ํ์ํ
๋ณธ ๋ ผ๋ฌธ์ ๊ฐ์ฅ ๊ทผ๋ณธ์ ์ธ ์ด๋ก ์ ๊ธฐ์ฌ๋ ์๋ฎฌ๋ ์ด์ ์ถฉ์ค๋(fidelity)์ ํ์ต ํจ๊ณผ ์ฌ์ด์ ๊ด๊ณ์ ๋ํ ์๋ก์ด ๊ด์ ์ ๋๋ค.
๊ธฐ์กด ๊ด์ (High-Fidelity Paradigm):
Sim-to-Real Performance โ Simulation Accuracy
โ More accurate simulation = Better transfer
โ Invest in system identification, precise modeling
์ ์๋ ๊ด์ (Behavioral Sufficiency Paradigm):
Sim-to-Real Performance = f(Behavioral Structure Learning) ร g(Real Data Refinement)
โ Simulation only needs to be "sufficient for exploring correct behavior space"
โ Lack of physical accuracy is compensated by real data
์ด ๊ฐ์ค์ ์ด๋ก ์ ๊ทผ๊ฑฐ:
Manifold Hypothesis for Manipulation: ์ฑ๊ณต์ ์ธ ์กฐ์ ์ ์ฑ ๋ค์ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์ ์ ์ฐจ์ manifold ์์ ์กด์ฌํฉ๋๋ค. ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ๋ ์ด manifold์ ๋๋ต์ ์ธ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ ์ ์๋ค๋ฉด, ์ธ๋ถ ์กฐ์ ์ ์ดํ์ ๊ฐ๋ฅํฉ๋๋ค.
Behavioral Invariance: ํน์ ํ๋ ํจํด(์: finger gait)์ ๋ฌผ๋ฆฌ์ ์ธ๋ถ์ฌํญ์ ๊ด๋ฒ์ํ ๋ณํ์๋ ๋ถ๊ตฌํ๊ณ ์ ํจํฉ๋๋ค. ์ด๋ ์ด๋ฌํ ํจํด์ด ํน์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ๊ตฌ์กฐ์ ์ ์ฝ์์ ๊ธฐ์ธํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
Information Bottleneck ๊ด์ : ์ค์ ํ๊ฒฝ์ ๋ชจ๋ ์ ๋ณด๊ฐ ์กฐ์์ ํ์ํ ๊ฒ์ ์๋๋๋ค. ์๋ฎฌ๋ ์ด์ ์ ์์ ์ ๊ด๋ จ๋ ์ ๋ณด๋ง ์ ๋ฌํ๋ฉด ๋๋ฉฐ, ๊ด๋ จ ์๋ ์ธ๋ถ์ฌํญ์ ๋ถ์ผ์น๋ ๋ฌด์ ๊ฐ๋ฅํฉ๋๋ค.
6.1.2 ๊ณ์ธต์ ํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ
๋ณธ ๋ ผ๋ฌธ์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ๊ณ์ธต์ ๊ธฐ์ ํ์ต(Hierarchical Skill Learning)์ ๊ตฌ์ฒด์ ๊ตฌํ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
Options Framework์์ ์ฐ๊ฒฐ:
Traditional Options:
- Option = (Initiation set, Policy, Termination condition)
- Learn high-level policy on pre-defined primitives
This paper's approach:
- RL-learned skill primitive (simulation)
- Learn option selection/composition via teleoperation (real)
- Form unified policy via BC
Information Theoretic ๊ด์ :
I(Action; Task Success | Observation) =
I(Action; Task Success | Low-level State) [Maximized in RL stage]
+ I(Action; Task Success | High-level Intent) [Collected in Teleop stage]
+ I(Action; Task Success | Tactile Feedback) [Integrated in BC stage]
๊ฐ ๋จ๊ณ๊ฐ ์๋ก ๋ค๋ฅธ ์ ๋ณด์์ ํ์ฉํ์ฌ ์ ์ฒด ์ํธ์ ๋ณด๋ฅผ ๊ทน๋ํํฉ๋๋ค.
6.1.3 ์ด๊ฐ์ ํ์์ฑ์ ๋ํ ์ด๋ก ์ ๋ถ์
์ ์๊ฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ฐ?
๋ํธ-๋ณผํธ ์ฒด๊ฒฐ ๊ฐ์ ์์ ์์ ์๊ฐ์ ํ๊ณ๋ฅผ ์ ๋ณด์ด๋ก ๊ด์ ์์ ๋ถ์ํ ์ ์์ต๋๋ค:
Observable information via vision:
- Approximate object pose
- Finger positions
- Global scene structure
Information NOT observable via vision (tactile required):
- Contact presence (when occluded by fingers)
- Contact force magnitude and direction
- Onset of slip
- Thread engagement state
- Torque resistance changes
Observability ๋ถ์:
์์คํ ์ ์ํ x๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ํ์ํ ๊ด์ธก y์ ๊ด์ ์์:
Vision only:
x_estimated = f(visual_obs)
โ Contact-related states are unobservable
Vision + Tactile:
x_estimated = g(visual_obs, tactile_obs)
โ Full state observable (or sufficiently estimable)
Complementary Sensing์ ์๋ฆฌ:
์๊ฐ๊ณผ ์ด๊ฐ์ ์๋ก ๋ณด์์ ์ธ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค:
| Aspect | Vision | Tactile |
|---|---|---|
| Spatial range | Global (entire workspace) | Local (contact points only) |
| Information type | Geometric, appearance | Dynamic, force |
| Occlusion robustness | Vulnerable to occlusion | Only valid during contact but occlusion-independent |
| Temporal resolution | Framerate limited | Very high (kHz possible) |
6.2.2 ๋ฐ์ดํฐ ์์ง ํจ์จ์ฑ์ ์ ๋์ ๋ถ์
๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต:
Pure Teleoperation (Conventional):
โโโ Training time: 10-50 hours (depending on task complexity)
โโโ Demo collection rate: 5-20 demos/hour (after training)
โโโ Demo quality: High variance (fatigue, concentration)
โโโ Required personnel: Expert operator
โโโ Total cost: High
RL + Teleoperation (This paper):
โโโ Training time: 1-5 hours (RL handles low-level)
โโโ Demo collection rate: 20-100 demos/hour
โโโ Demo quality: Consistent (RL provides stable base motion)
โโโ Required personnel: General worker possible
โโโ Total cost: Medium
Pure Simulation RL (Zero-shot):
โโโ Training time: Days to weeks (depending on compute)
โโโ Real data: Not required
โโโ Success rate: Low to medium (Sim2Real Gap)
โโโ Adaptability: Low (retrain for each new object)
โโโ Total cost: Low (hardware cost only)
ROI ๋ถ์:
์ ์กฐ ํ๊ฒฝ์์ ๋ณธ ์ ๊ทผ๋ฒ์ ํฌ์ ๋๋น ํจ๊ณผ๋ฅผ ๋ถ์ํ๋ฉด:
Initial Investment:
โโโ Multi-fingered robot hand: $20,000-100,000
โโโ Tactile sensors: $5,000-20,000
โโโ Teleoperation equipment: $2,000-10,000
โโโ System integration: $10,000-50,000
โโโ Total initial cost: $37,000-180,000
Annual Cost Savings:
โโโ Labor cost reduction: $30,000-80,000 (replacing 1-2 workers)
โโโ Quality cost reduction: $5,000-20,000 (lower defect rate)
โโโ Flexibility value: $10,000-50,000 (fast line changeover)
โโโ Total annual savings: $45,000-150,000
Break-even point: 1-3 years
6.2.3 ๊ธฐ์ ์ฑ์๋์ ์ฑํ ์ฅ๋ฒฝ
Technology Readiness Level (TRL) ๋ถ์:
Current TRL: 4-5 (Validated in laboratory environment)
Challenges for TRL 6-7:
โโโ Hardware reliability (MTBF > 10,000 hours)
โโโ Software stability (99.9% uptime)
โโโ Safety certification (ISO 10218, ISO/TS 15066)
โโโ User interface improvement
Challenges for TRL 8-9:
โโโ Mass-producible hardware
โโโ Standardized integration protocols
โโโ Ease of maintenance
โโโ Total cost of ownership (TCO) optimization
์กฐ์ง์ ์ฑํ ์ฅ๋ฒฝ:
| Barrier | Description | Mitigation Strategy |
|---|---|---|
| Technical uncertainty | Difficult to guarantee performance | Validate with pilot projects |
| Initial investment | High equipment cost | RaaS (Robot-as-a-Service) model |
| Workforce transition | Existing worker reallocation | Phased deployment, retraining programs |
| Integration complexity | Connection with existing systems | Develop standard interfaces |
| Regulatory compliance | Safety certification requirements | Consider from early design stage |
6.2.4 ๊ฒฝ์ ๊ธฐ์ ๊ณผ์ ํฌ์ง์ ๋
๊ธฐ์ ์คํํธ๋ผ์์์ ์์น:
Manual Work โ -------- [This Paper] -------- โ Full Automation
โ โ โ
Max Flexibility Balance Point Max Speed
Max Cost Medium Min Cost (at scale)
Variable Quality Consistent Quality Consistent Quality
๋์ ๊ธฐ์ ๊ณผ์ ๋น๊ต:
Dedicated Automation Equipment:
โโโ Advantages: High speed, proven reliability
โโโ Disadvantages: No flexibility, high initial cost
โโโ Suitable for: Mass production, single product
Collaborative Robot (Simple gripper):
โโโ Advantages: Low cost, easy programming
โโโ Disadvantages: Cannot perform precision manipulation
โโโ Suitable for: Pick-and-place, simple assembly
This Paper's Multi-fingered Hand Approach:
โโโ Advantages: High flexibility, complex tasks possible
โโโ Disadvantages: Currently high cost, immature technology
โโโ Suitable for: High-mix low-volume, precision assembly, high-value products
7. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
7.1 ํ์ฌ ์ ๊ทผ๋ฒ์ ํ๊ณ
1. ์์ ๋ฒ์์ ์ ํ: - ํ์ฌ๋ ๋ํธ-๋ณผํธ์ ์คํฌ๋ฅ๋๋ผ์ด๋น์ ์ง์ค - ๋ ๋ณต์กํ bimanual ์กฐ์์ด๋ ๋๊ตฌ ๊ต์ฒด๋ก์ ํ์ฅ ํ์
2. ์ผ๋ฐํ์ ๊ฒฝ๊ณ: - ํ๋ จ๋ ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ ๋ด์์๋ง ์ผ๋ฐํ ๊ฒ์ฆ - ์์ ํ ์๋ก์ด ํํ์ ์กฐ์์ผ๋ก์ ์ ์ด๋ ๋ฏธ๊ฒ์ฆ
3. ๊ฐ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ: - ์ด๊ฐ๊ณผ ๊ณ ์ ๊ฐ๊ฐ ์ค์ฌ - ์๊ฐ ํตํฉ์ ๋ํ ๋ ผ์ ์ ํ์
4. ์ค์๊ฐ ์ ์: - ์คํ๋ผ์ธ ํ์ต ํ ๊ณ ์ ๋ ์ ์ฑ ๋ฐฐํฌ - ๋ฐฐํฌ ์ค ์จ๋ผ์ธ ์ ์ ๋ฅ๋ ฅ ๋ถ๋ช ํ
7.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
1. ๋ค์ค ๋ชจ๋ฌ ๊ฐ๊ฐ ์ตํฉ:
Vision + Tactile + Proprioception + Audio
โ
Multimodal Transformer
โ
Unified Policy
- ์๊ฐ์ผ๋ก ์ ์ญ์ ์ํฉ ํ์
- ์ด๊ฐ์ผ๋ก ๊ตญ์์ ์ ์ด ์ ๋ณด ํ๋
- ์ฒญ๊ฐ์ผ๋ก ์ํ ๋ณํ ๊ฐ์ง (๋์ฌ๊ฐ ์กฐ์ฌ์ง๋ ์๋ฆฌ ๋ฑ)
2. ์ฅ๊ธฐ ์ํ ์์ (Long-Horizon Tasks): - ํ์ฌ: ๋จ์ผ ๊ฐ์ฒด์ ๋จ์ผ ์กฐ์ - ๋ฏธ๋: ์ฐ์์ ์ธ ์กฐ๋ฆฝ ์ํ์ค, ์๋ฌ ๋ณต๊ตฌ
3. ๊ธฐ๋ฐ ๋ชจ๋ธ(Foundation Models) ํตํฉ: - ๋๊ท๋ชจ ์ฌ์ ํ๋ จ๋ ์ด๊ฐ/์กฐ์ ๋ชจ๋ธ - ์๋ก์ด ์์ ์ few-shot ์ ์
4. ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ: - ์คํจ ์์ธก ๋ฐ ์์ ํ ์ ์ง - ์ธ๊ฐ๊ณผ์ ํ์ ์๋๋ฆฌ์ค
8. ๊ฒฐ๋ก
โLearning Dexterous Manipulation Skills from Imperfect Simulationsโ๋ ๋ก๋ด ์ ๋ฐ ์กฐ์ ๋ถ์ผ์์ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๋:
๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ์ ์์ฉ: ์๋ฒฝํ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ ๋์ ํ๋ ๊ตฌ์กฐ์ ์ถํ์ ์ง์ค
3๋จ๊ณ ํ์ดํ๋ผ์ธ: ์๋ฎฌ๋ ์ด์ RL โ ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ ์์ง โ ์ด๊ฐ ํตํฉ BC๋ก ์ด์ด์ง๋ ์ฒด๊ณ์ ์ ๊ทผ
์ด๊ฐ์ ํ์์ฑ: ์ ๋ฐ ์กฐ์์์ ์ด๊ฐ ํผ๋๋ฐฑ์ ์ค์์ฑ ์ค์ฆ
์ค์ฉ์ ํ์คํฌ: ์ฐ์ ์ ์ผ๋ก ์๋ฏธ ์๋ ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ๊ณผ ์คํฌ๋ฅ๋๋ผ์ด๋น์์ ํจ๊ณผ ๊ฒ์ฆ
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ค์๊ฒ ์ด ๋ ผ๋ฌธ์ Sim-to-Real์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์ ๊ฐ๊ทน์ ์ขํ๋ ค ํ๊ธฐ๋ณด๋ค, ๊ทธ ๊ฐ๊ทน์ ์ธ์ ํ๊ณ ์ฒด๊ณ์ ์ผ๋ก ๋ณด์ํ๋ ์ ๊ทผ๋ฒ์ ํฅํ ๋ฒ์ฉ ์กฐ์ ๋ก๋ด ๊ฐ๋ฐ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ ๊ฒ์ ๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์์ ์ธ๊ธ๋ ๊ด๋ จ ์ฐ๊ตฌ๋ค:
- OpenAI, โLearning Dexterous In-Hand Manipulation,โ IJRR 2020
- Chen et al., โVisual Dexterity: In-Hand Reorientation of Novel and Complex Object Shapes,โ Science Robotics 2023
- Handa et al., โDexTreme: Transfer of Agile In-Hand Manipulation from Simulation to Reality,โ ICRA 2023
- Wang et al., โCyberDemo: Augmenting Simulated Human Demonstration,โ CVPR 2024
- Lin et al., โSim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids,โ arXiv 2025
- Yu & Wang, โDexterous Manipulation for Multi-Fingered Robotic Hands With Reinforcement Learning: A Review,โ Frontiers in Neurorobotics 2022
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
2025๋ ๋ฐํ๋ DexScrew ๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๊ฐ ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ์ค์ด๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ๊ณผ ํ ๋ ์ต๋ ์ด์ , ํ๋ ํด๋ก๋์ ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์๋ค์ ๊ฐ์ํ๋ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํด ๊ธฐ๋ณธ์ ์ธ ํ์ ์กฐ์ ํ๋์ ํ์ตํ๊ณ , ์ด๋ฅผ ์ค์ธ๊ณ ํ ๋ ์ต๋ ์ด์ ์คํฌ๋ก ํ์ฉํ์ฌ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ค, ์ต์ข ์ ์ผ๋ก ๋ค์ค ๊ฐ๊ฐ(tactile) ์ ๋ณด๋ฅผ ํฌํจํ ํ๋ ํด๋ก๋์ผ๋ก ์ค์ ์์ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ด ๋ฐฉ์์ ํตํด ๋ชจ์ ๋ฌผ๋ฆฌ์ ์ด๊ฐ ์ผ์ฑ ๊ฐ์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๊ณ , ๋์ฌ ์ฒด๊ฒฐ ๋ฐ ๋ํธ-๋ณผํธ ์กฐ๋ฆฝ๊ณผ ๊ฐ์ ์ ์ด์ด ๋ณต์กํ ์์ ์ ์์ ์ ์ผ๋ก ์ํํ๋ ์ ์ฑ ์ ์ป์ ์ ์์์ต๋๋ค.
๋ฐฉ๋ฒ๋ก ๊ฐ์ ๋ฐ ํ์ดํ๋ผ์ธ
DexScrew ํ๋ ์์ํฌ๋ ์๋ฎฌ๋ ์ด์ RL โ ์คํฌ๊ธฐ๋ฐ ํ ๋ ์ต๋ ์ด์ โ ํ๋ ํด๋ก๋์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ๋จ๊ณ์ ์ฃผ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
Oracle RL ์ ์ฑ ํ์ต: ์๋ฎฌ๋ ์ดํฐ์์ ๊ฐํํ์ต์ ์ํํ์ฌ ๊ธฐ์ด์ ์ธ ํ์ ์ด๋ ์คํฌ์ ํ๋ํฉ๋๋ค. ์ด๋ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํด ๊ต์ฌ(oracle) ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ฎฌ๋ ์ดํฐ๋ ๋ํธ/๋ณผํธ ๋๋ ๋๋ผ์ด๋ฒ ํธ๋ค์ ํ์ ๊ด์ (revolute joint)๋ก ๋จ์ํํ์ฌ ์ค๋ฌผ์ ๋์ฌ์ฐ ๋ชจ๋ธ๋ง์ ๊ฑด๋๋๋๋ค. ๊ต์ฌ ์ ์ฑ ์ ๋ฌผ์ฒด์ ์ ํํ ์์น, ํฌ๊ธฐ, ์ง๋, ๋ง์ฐฐ๊ณ์, ๊ด์ฑ ์ค์ฌ ๋ฐ ์๊ฐ๋ฝ์ ์ ์ด ์ํ ๋ฑ ์๋ฎฌ๋ ์ดํฐ ๋ด๋ถ ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ด์ฐฐํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ๊ต์ฌ ์ ์ฑ ์ โ์ ํํโ ์๋ฎฌ๋ ์ดํฐ ์ ๋ณด๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ํ์ ์คํฌ์ ํฐ๋ํ์ง๋ง, ์ค์ ํ๊ฒฝ์ ์ง์ ์ ์ฉํ๊ธฐ์๋ ์๋ฎฌ๋ ์ด์ ์ ๋ถ์์ ์ฑ์ด ์กด์ฌํฉ๋๋ค.
Sensorimotor ์ ์ฑ ์ถ์ถ(PADAPT ๊ธฐ๋ฐ ํ์ ์ ์ฑ ): ๊ต์ฌ ์ ์ฑ ์์ ์ป์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ด์ ์์น ๋ฑ ๋ด๋ถ ๊ฐ๊ฐ(proprioceptive) ์ ๋ณด๋ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ ํ์ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์๋ค์ DAgger(On-policy ํ์ ๋ณต์ ) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํ์ ์ ์ฑ ์ ๋ฐ๋ณต์ ์ผ๋ก ์คํํ๊ณ , ๊ทธ ์๊ฐ ๊ต์ฌ ์ ์ฑ ์ด ์์ธกํ ํ๋์ ์ง๋ ์ ํธ๋ก ์ผ์ ํ์ตํฉ๋๋ค. ์ด ๊ณผ์ ์์ ํ์ ์ ์ฑ ์ ์ญ์ฌ ๊ธฐ๋ฐ ์ ์ฌ ์๋ฒ ๋ฉ ๋ชจ๋์ ํตํด ๊ณผ๊ฑฐ ๊ด์ ์ํ ์ ๋ณด(๊ณผ๊ฑฐ joint ๋ชฉํ๊ฐ)๋ฅผ ํ์ฉํ์ฌ ๊ต์ฌ์ ํน๊ถ ์ ๋ณด๋ฅผ ์ถ์ ํฉ๋๋ค. ํ์ ์ ์ฑ ์ ๊ด์ฐฐ ๊ณต๊ฐ์ ๊ด์ ์์น์ 3-step ๊ณผ๊ฑฐ ๋ชฉํ๊ฐ(์ฌ๋ผ์ด๋ฉ ์๋์ฐ)์ด๋ฉฐ, ๊ต์ฌ ์ ์ฑ ์ ์ ๋ฐํจ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ผ์ RL+Behavior Cloning ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค. ์ด๋ก์จ, ๊ต์ฌ(oracle)์ ํน๊ถ๊ด์ฐฐ(privileged observation) ์์ด๋ ๊ทผ์ฌํ๋ ํ์ ์คํฌ์ ํ๋ํ ํ์ ์ ์ฑ ์ด ๋ง๋ค์ด์ง๋๋ค.
์คํฌ๊ธฐ๋ฐ ํ ๋ ์ต๋ ์ด์ (data collection): ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ตํ ํ์ ์คํฌ์ ์ค์ ์กฐ์ ๋ฐ์ดํฐ ์์ง์ ํ์ฉํฉ๋๋ค. ์ฌ๋ ์กฐ์์๋ ๊ฐ์ํ์ค(VR) ์กฐ์ด์คํฑ์ ํตํด ๋ก๋ด ํ์ ์์น์ ์์ธ๋ง์ ์ ์ดํ๊ณ , ์๊ฐ๋ฝ ๊ด์ ์ ํ์ ๋์์ ํ์ต๋ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ผ๋ก ์๋ ์คํํฉ๋๋ค. ์ฆ, ์ธ๊ฐ์ ์๋ชฉ(wrist)์ ์์นยท์์ธ๋ฅผ ์กฐ์ ํ๋ฉฐ ํ์ ์คํฌ์ ์์/์ค๋จ ํ์ด๋ฐ๋ง ๊ฒฐ์ ํ๊ณ , ๋ณต์กํ ์๊ฐ๋ฝ ํ์์ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ๋งก๊น๋๋ค. ์ด ๋๋ถ์ ๋น์ ๋ฌธ๊ฐ๋ ๋ณต์กํ ์๋์์ ์ผ์ผ์ด ์กฐ์ํ ํ์ ์์ด ํจ์จ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์์ต๋๋ค. ํ ๋ ์ต๋ ์ด์ ์ค ๋งค ํ์์คํ ๋ง๋ค ๋ก๋ด์ ๊ด์ ์ํ ๋ฐ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ด ์์ฑํ ์๊ฐ๋ฝ ๋ชฉํ ๊ด์ (action)๊ณผ ์ธ๊ฐ์ด ์กฐ์ด์คํฑ์ผ๋ก ์ ์ดํ ํ ๊ด์ (action)์ ํจ๊ป ๊ธฐ๋กํฉ๋๋ค. ๋ํ XHand ํธ๋์ ์ฅ์ฐฉ๋ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์(๊ฐ ์๊ฐ๋ฝ ๋์ 120๊ฐ์ 3์ถ ์๋ ฅ ์ผ์, ์ต์ ๊ฐ์ง๋ ฅ 5gf)๋ฅผ ์ด์ฉํด ๋ค์ค๊ฐ๊ฐ ๊ด์ฐฐ(๊ด์ ์์นยท์๋์ ์ด๊ฐ ์ ํธ)์ ์์งํฉ๋๋ค. ์ด๋ ๊ฒ ์์ง๋ ๋ฐ์ดํฐ๋ ์ค์ ์์ ํ๊ฒฝ์์ ์๊ฐ๋ฝ ์ ์ด ํจํด๊ณผ ํ ์ ๋ณด(tactile), ํ ์์น ๋ฑ ๋ค์ํ ์ผ์ ์ ๋ณด๋ฅผ ํฌํจํฉ๋๋ค.
ํ๋ ํด๋ก๋(Behavior Cloning)์ผ๋ก ์ต์ข ์ ์ฑ ํ์ต: ์์งํ ํ ๋ ์ต๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ค์ ์ฌ์ฉ ๊ฐ๋ฅํ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ค์ค๊ฐ๊ฐ ๊ด์ฐฐ(๊ด์ ์ ๋ณด ๋ฐ ์ด๊ฐ์ ๋ณด ์ญ์ฌ)๊ณผ ์์ง๋ ์ ๋ฌธ๊ฐ ํ๋(์๋ฎฌ๋ ์ด์ ์ ์ฑ ๊ณผ ์ธ๊ฐ ์กฐ์์ ๊ฒฐํฉ๋ ํ๋)์ ๋งคํํ๋๋ก ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํ๋ ํด๋ก๋์ ์ํํฉ๋๋ค. ์ ์ฑ ์ ๊ฒฝ๋ง์ ๊ณผ๊ฑฐ ๊ด์ฐฐ๋ค์ ์ํ์ค๋ก ์ฐ๊ฒฐ(concatenate)ํ์ฌ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๊ฐ ๋ฐ์ดํฐ๋ ๋จผ์ MLP๋ฅผ ๊ฑฐ์ณ ์์ถ๋ ํ, Hourglass ์ํคํ ์ฒ๋ก ํตํฉํฉ๋๋ค. ๋ํ ์ด ๋ ผ๋ฌธ์ ์ก์ ์ฒญํน(Action Chunking) ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ํ ํ์์คํ ์ด ์๋๋ผ ์ฐ์๋ ์ก์ ์ํ์ค(์: ์ผ์ ์๊ฐ ๋์์ ์ฐ์ ๋ช ๋ น)๋ฅผ ํ ๋ฒ์ ์์ธกํ๋๋ก ํ์ตํฉ๋๋ค. ํ์ต ์์ค๋ก๋ ์์ธกํ ์ก์ ์ฒญํน ์ํ์ค์ ์ ๋ฌธ๊ฐ ์ํ์ค ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ MSE ์์ค์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ์ ์ฑ ์ ์๊ฐ ์ ๋ณด์ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋ชจ๋ ํ์ฉํ์ฌ ํ๊ณผ ์๊ฐ๋ฝ์ ํ์๋ ์์ง์์ ๊ตฌํํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์ค์ ๋ก๋ด์์ ๋ํธ ์ฒด๊ฒฐ๊ณผ ์คํฌ๋ฅ ๋๋ผ์ด๋น ์์ ์ ์ํํ ์ ์๊ฒ ๋ฉ๋๋ค.
ํ์ดํ๋ผ์ธ์ ํ์ต ๊ณผ์ ์์ ๊ฐํํ์ต๊ณผ ์ง๋ํ์ต ๋ชจ๋ ํ์ฉ๋์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์ Oracle ์ ์ฑ ํ์ต์๋ Proximal Policy Optimization(PPO)์ ์ฌ์ฉํ์ผ๋ฉฐ, ๊ด์ฐฐ ๋ฐ ํ๋์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
- ๊ด์ฐฐ(Observation): ๋ก๋ด์ ๊ด์ ์์น ๋ฐ ๋ชฉํ ์์น(๊ณผ๊ฑฐ 3์คํ ์ด๋ ฅ)์ ํน๊ถ ์ ๋ณด. ํน๊ถ ์ ๋ณด๋ ๊ฐ์ฒด ์์น/ํฌ๊ธฐ/์ง๋/๋ง์ฐฐ/๊ด์ฑ์ค์ฌ ๋ฑ์ ํ๊ฒฝ ๋ณ์์ ํธ๋ ๊ด์ ์ํ, PD ์ ์ด๊ธฐ์ ํ๋ผ๋ฏธํฐ ๋ฑ์ ํฌํจํฉ๋๋ค.
- ํ๋(Action): ์๋์ ๊ด์ ๋ชฉํ ์์น(relativ target position)๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ค์ ์ ์ด์์๋ ํ์ฌ ๊ด์ ์์น์ ์ก์
์ ์ค์ผ์ผ์ ๊ณฑํ ๊ฐ
(pos + 0.1 * action)์ PD ์ปจํธ๋กค๋ฌ๋ก ๋ณด๋ด์ ํ ํฌ๋ก ๋ณํํฉ๋๋ค. - ๋ณด์(Reward): ํ์ ์ถ ์๋(angular velocity)๊ฐ ์์ฑ์ผ์๋ก ๋์ ๋ณด์์ ์ฃผ๋ ํ์ ๋ณด์(rotation reward)๊ณผ, ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์ ๊ฐ๊น์ด ์ ์ง๋๋๋ก ํ๋ ๊ทผ์ ๋ณด์(proximity reward)์ ์ค๋๋ค. ์ฌ๊ธฐ์ ๊ณผ๋ํ ์๋์ง ์ฌ์ฉ์ ์ต์ ํ๋ ๊ด์ ํ ํฌ ๋ฐ ์์ ๋ ํ๋ํฐ, ์๊ฐ๋ฝ ์ด๊ธฐ ์์ธ ์ ์ง ํธ์ฐจ ํ๋ํฐ ๋ฑ ์์ ์ฑ ์ ์ง๋ฅผ ์ํ ํ๋ํฐ๊ฐ ๊ฐ์คํฉ์ผ๋ก ํฌํจ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ ๋ณด์์ ์ถ์๋๋ฅผ ์์ผ๋ก ํด๋ฆฌํํ ๋ค ์ ๊ทํํ์ฌ ์์ฑ ํ์ ์๋ง ๊ฐ์ ๋ถ์ฌํ๋ฉฐ, ์๋์ง ํ๋ํฐ๋ ํฌ๊ณ ๋น ๋ฅธ ํ ํฌ ๋์์ ๋น์ฉ์ ๋ถ๊ณผํฉ๋๋ค.
Oracle ์ ์ฑ ํ์ต ์์๋ ๋๋ฉ์ธ ๋๋คํ(Domain Randomization)๋ฅผ ์ ์ฉํ์ฌ ๋ฌผ์ฒด ์ง๋, ๋ง์ฐฐ๊ณ์, ํฌ๊ธฐ, ์ปจํธ๋กค๋ฌ ์ด๋ ๋ฑ์ ๋ฌด์์๋ก ๋ณํ์์ผฐ์ต๋๋ค. ์ด๋ ์๋ฎฌ๋ ์ด์ ์ ๋ถํ์ค์ฑ์ ๊ณ ๋ คํด ์ค์ ์ํฉ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํจ์ ๋๋ค. ๋ํ, Thumb/Index ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด ์ฌ์ด ๊ฑฐ๋ฆฌ๊ฐ ์ผ์ ํ๊ณ ์ด์ ๋ฉ์ด์ง๊ฑฐ๋, ๋ฌผ์ฒด๊ฐ ์ ์งํ๊ฑฐ๋ ์ ์ด๋ ฅ์ด ์ฌ๋ผ์ง๋ ๊ฒฝ์ฐ ์ํผ์๋๋ฅผ ์กฐ๊ธฐ ์ข ๋ฃํ๋ ์กฐ๊ฑด์ ๋์ด ์คํจ ๋ชจ๋๋ฅผ ๋น ๋ฅด๊ฒ ํ์ต์์ ์ ์ธํฉ๋๋ค.
์๋ฎฌ๋ ์ด์ ๋จ๊ณ์ ํ์ต ์ธ๋ถ ์ค์ ์ ์๋์ ๊ฐ์ต๋๋ค. PPO๋ 8,192๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์์ ์ฝ 3.1\times10^9 ์ํ(ํ๊ฒฝ ์คํ )์ ์์งํ์ฌ ํ๋ จํ์ผ๋ฉฐ, ํ์ต๋ฅ ์ 5\times10^{-3}๋ก ์ค์ ๋์์ต๋๋ค. ์ ์ฑ ๊ณผ ๊ฐ์น ํจ์๋ ๋ณ๋์ MLP(๋ค์ธต ํผ์ ํธ๋ก )๋ก ๋ก๋ด ์ํ์ ํน๊ถ ์ ๋ณด๋ฅผ ๊ฐ๊ฐ ์๋ฒ ๋ฉํ ๋ค ๊ฒฐํฉํ์ฌ ์์ธกํ๋๋ก ์ค๊ณํ์ต๋๋ค. ํ์ ์ ์ฑ ํ์ต ์์๋ on-policy BC ๋ฐฉ์์ ์ฌ์ฉํ์ฌ, ๋งค ์์ ๋ง๋ค ํ์์ด ์ํํ ํ๋๊ณผ ๊ต์ฌ๊ฐ ์์ธกํ ํ๋์ ๋น๊ตํ๋ฉฐ ์ตํฐ๋ง์ด์ฆ ํฉ๋๋ค. ์ด๋ฌํ ๋๊ท๋ชจ ํ์ต์ ํตํด ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ์๋์ ์ผ๋ก ๋น ๋ฅด๊ฒ ์์ ์ ํ์ ๋์์ ํ๋ํ๋ฉฐ, ํ์ต ๊ณผ์ ์ ์ฒด๋ ๋จ์ผ GPU์์ 1์ผ ๋ด์ธ์ ์๊ฐ์ ์๋ฃ๋์๋ค๊ณ ํฉ๋๋ค.
์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
ํ๋์จ์ด ๋ฐ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ
์คํ์์๋ UR5e ๋ก๋ด ํ(6DoF)๊ณผ 12DoF์ XHand ๋ค์ง ์์ ์ฌ์ฉํ์ต๋๋ค. XHand๋ ์์ง์ ๊ฒ์ง์ ๊ฐ๊ฐ 3์์ ๋(ํ์ +ํ/๊ตฝํ+๋ฒ๋ฆผ/๋ชจ์)๊ฐ ์์ผ๋ฉฐ, ๋๋จธ์ง ์ธ ์๊ฐ๋ฝ์ ๊ฐ๊ฐ 2์์ ๋์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์ NVIDIA Isaac Gym ์์ง์ ์ฌ์ฉํ์๊ณ , 8,192๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์ ํตํด ํ์ตํ์ผ๋ฉฐ, ๊ฐ ์ํผ์๋ ์ต๋ ๊ธธ์ด๋ 800 ์คํ (์ ์ด ์ฃผ๊ธฐ 20Hz, 40์ด ์๋น)์ ๋๋ค.
์กฐ์ ๊ณผ์ ๋ ๋ ๊ฐ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: (1) ๋ํธ-๋ณผํธ ์ฒด๊ฒฐ(fastening)๊ณผ (2) ์คํฌ๋ฃจ๋๋ผ์ด๋น. ํ์ต ์๋ฎฌ๋ ์ดํฐ์์๋ ์ค์ ๋์ฌ์ฐ ๋์ ํ์ ๊ฐ๋ฅํ ์กฐ์ธํธ๋ก ์ฐ๊ฒฐ๋ ๊ธฐํํ์ ๋ฌผ์ฒด ๋ชจ๋ธ(์ผ๊ฐํ ๋๋ ๋ค๊ฐํ ๋จ๋ฉด ๋ํธ, ๋ค๊ฐํ ์์ก์ด ๋ฑ)์ ์ฌ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ํธ ์ฒด๊ฒฐ ํ์ต์๋ ์ผ๊ฐํ ๋ชจ์ ๋ํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋์ ์ ๋ณต(clearance)์ ๊ฐ์ง ํ์ ๋ณดํ์ ์ ๋ํ๊ณ , ์คํฌ๋ฃจ๋๋ผ์ด๋น ํ์ต์๋ ์ํ์ด ์๋ 8๊ฐํ/12๊ฐํ ํธ๋ค์ ๋ค์ํ๊ฒ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๋ค์ํ ํ์์ ๋ ธ์ถํ์ฌ ์ค์ ์์ ๋ชจ์ ๋ณํ์ ๊ฒฌ๊ณ ํ๋๋ก ์ผ๋ฐํํ๊ธฐ ์ํจ์ ๋๋ค.
์ฑ๋ฅ ํ๊ฐ์งํ๋ก๋ ์งํ๋ฅ (progress ratio)์ ์๋ฃ์๊ฐ(completion time)์ ์ฌ์ฉํ์ต๋๋ค. ์งํ๋ฅ ์ ํ์ ํ์ ํ์ ๋๋น ์ค์ ๋ฌ์ฑํ ํ์ ํ์์ ๋น์จ๋ก ์ ์ํ๋ฉฐ, 100%๋ ์์ ์์ ์ฑ๊ณต์ ์๋ฏธํฉ๋๋ค. ์๋ฃ์๊ฐ์ ์์ ์ฒด๊ฒฐ(์งํ๋ฅ 100%)์ ์ด๋ฃจ๋ ๋ฐ ๊ฑธ๋ฆฐ ์๊ฐ์ ๋๋ค. ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก๋ ์์ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ์ง์ ์ ์ฉ(direct sim-to-real), ์ค์ ๋ก ์์ง๋ ์ ๋ฌธ๊ฐ ํ ๋ ์ต ๊ถค์ ์ ๋ฆฌํ๋ ์ด ๋ฑ์ด ๋น๊ต๋์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ์์ฝ
๋ํธ-๋ณผํธ ์ฒด๊ฒฐ(Nut-Bolt Fastening): ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ๋ฐ๋ก ์ฌ์ฉํ๋ฉด ์คํฌ๋ฅ ํ์ ์ ๊ฐ๋ฅํ๋ ๋ํธ๋ฅผ ์๋๋ก ๋ฐ์ด๋ฃ์ง ๋ชปํด ์์ ์ ์๋ฃํ์ง ๋ชปํฉ๋๋ค. ์ค์ ๋ก ์์ง๋ ๋ฐ์ดํฐ(์ฌ๋์ด ์๋ชฉ ์กฐ์ ํฌํจ)๋ฅผ BCํ์ฌ ์ป์ ์ ์ฑ ์ ๋ค์ํ ๋ํธํ์(์ ์ฌ๊ฐํ, ์ผ๊ฐํ, ์ก๊ฐํ, ์ญ์ํ)์์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ํนํ ์๊ฐ ์ด๋ ฅ(history)๊ณผ ์ด๊ฐ ์ ๋ณด๋ฅผ ํจ๊ป ์ฌ์ฉํ ์ ์ฑ ์ด ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ํ I์ ๊ฒฐ๊ณผ์์ ๋ณผ ๋, ์๊ฐ ์ด๋ ฅ๋ง ์ฌ์ฉํ ๋๋ณด๋ค ์ด๊ฐ์ ์ถ๊ฐํ๋ฉด ์ด๋ ค์ด ํ์(์ผ๊ฐํ, ์ญ์ํ)์์ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ์ฆ๊ฐํ๋ฉฐ, ๋ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ฌ์ฉํ ๋ ๊ฑฐ์ ๋ชจ๋ ๊ฒฝ์ฐ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๊ฐ+์ด๋ ฅ ์ฌ์ฉ ์ ์ ์ฌ๊ฐํ ๋ํธ 97.5%, ์ญ์ํ ๋ํธ 95%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๋ฐ๋ฉด, ์ด๊ฐ ์์ด ์ด๋ ฅ๋ง ์ฌ์ฉํ์ ๋๋ ๊ฐ๊ฐ 87.5%์ 85.0%์์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์ด๊ฐ ์ ๋ณด๊ฐ ์ด๋ ค์ด ํ์์์์ ์์ ์ฑ ์ ์ง์ ํ์ ์ง์ฒ ๊ฐ์ง์ ํนํ ์ ๋ฆฌํจ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ์ด๋ ฅ์ด ์๋ ์ ์ฑ ์ ๋ชจ์์ ์ถ๋ก ํ๊ธฐ ์ด๋ ค์ ์ผ๋ฐํ๊ฐ ๋จ์ด์ก๊ณ , ์ด๋ ฅ ๋๋ถ์ ์ด๋ฌํ ๋ฌธ์ ๊ฐ ์๋นํ ์ํ๋์์ต๋๋ค.
์คํฌ๋ฃจ๋๋ผ์ด๋น(Screwdriving): ๋ํธ ์ฒด๊ฒฐ๋ณด๋ค ์ ์ฝ์ด ์ ์ด ํ์ ๊ณ ์ ํด๋ ์ด๋ ์ ๋ ํ์ ์ด ๊ฐ๋ฅํฉ๋๋ค. ํ์ง๋ง ์คํ ๊ฒฐ๊ณผ ์์ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ผ๋ก๋ ์งํ๋ฅ ์ฝ 41.6%๋ฐ์ ์ป์ง ๋ชปํ๊ณ (์์ ์ฑ๊ณต ์ฌ๋ก๊ฐ ์์ด ์๋ฃ์๊ฐ ๊ณ์ฐ ๋ถ๊ฐ), ์ ๋ฌธ๊ฐ ๋ฆฌํ๋ ์ด(์์ง๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์) ์ ์ฑ ๋ 50.8%์ ๊ทธ์ณค์ต๋๋ค. ๋ฐ๋ฉด DexScrew ๋ฐฉ๋ฒ์ผ๋ก ํ์ต๋ BC ์ ์ฑ ์ ๊ธฐ๋ณธ์ ์ผ๋ก 69.2%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ , ์ด๋ ฅ์ ์ถ๊ฐํ๋ฉด 67.6%, ์ด๊ฐ๋ง ์ถ๊ฐํ๋ฉด 87.5%, ๋ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ฉด ๋ฌด๋ ค 95.0%๊น์ง ์์นํ์ต๋๋ค. ํนํ ์ด๊ฐ๊ณผ ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ ๋ ํ๊ท ์๋ฃ์๊ฐ๋ ํฌ๊ฒ ๊ฐ์ํ๋ ๋ฑ ํจ์จ์ฑ ๋ฉด์์๋ ์ฐ์ํ์ต๋๋ค. ์ ์๋ค์ ๋๋๋ก BC๊ฐ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ๋๋ฐ, ์ด๋ ์ฑ๊ณตํ ๊ถค์ ๋ง ์ ๋ณํ์ฌ ํ์ตํ๋ ํํฐ๋ง๋ ํ๋ ํด๋ก๋ ํจ๊ณผ๋ก ์ค๋ช ํ์ต๋๋ค.
์ ์ฑ ์คํ: ํ์ต๋ ์ ์ฑ ์ ์ธ๋ ์ํฉ์์๋ ๊ฐ๊ฑด์ฑ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์์ ๋ฐ๋ ค๋๊ฑฐ๋ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋๋ ค์ง๋ ๊ฒฝ์ฐ์๋, ์ ์ฑ ์ ์ด๊ฐ ์ ํธ ํจํด์ด ์ ์์ ์ธ ํ์ ๋จ๊ณ์ ๋ฌ๋ผ์ง์ ์ธ์ํ๊ณ ์๋ชฉ ๋ฐฉํฅ์ ์กฐ์ ํ์ฌ ํ์ ์ ํ๋ณตํ์ต๋๋ค. ์ค์ ๋ก ์ด๊ฐ ์๊ทธ๋์ฒ ๋ถ์ ๊ฒฐ๊ณผ, ์ฌ๋ฐ๋ฅธ ํ์ ์ ์ด ์ํ์์๋ ์์ ์ ์ธ ์ด๊ฐ ํจํด์ด ๋ํ๋๋ฉฐ, ์ด๋ฅผ ์ ์งํ๊ธฐ ์ํด ์ ์ฑ ์ด ์๋ชฉ ๊ฐ๋์ ์๋ ฅ์ ์กฐ์ ํ๋ ๊ฒฝํฅ์ด ๊ด์ฐฐ๋์์ต๋๋ค.
์ฑ๋ฅ ์งํ ๋ฐ ์ ๋ ํ๊ฐ
์คํ์์๋ ๊ฐ ๋ฐฉ์์ ์งํ๋ฅ (Progress Ratio)๊ณผ ์๋ฃ ์๊ฐ(Time)์ ๋น๊ตํ์ต๋๋ค. ์งํ๋ฅ ์ ์ ์ฒด ํ์ ๋จ๊ณ(๋ํธ๋ ๋์ฌ์ฐ ๋๊น์ง ํ์ , ๋๋ผ์ด๋ฒ๋ ์์ ์ฒด๊ฒฐ) ๋๋น ๋ฌ์ฑํ ํ์ ๋จ๊ณ์ ๋น์จ๋ก, ๋์ ์งํ๋ฅ ์ผ์๋ก ๋ชฉํ ์์ ์ ๊ฐ๊น์ด ๋๋ฌํ์์ ์๋ฏธํฉ๋๋ค. ์๋ฃ ์๊ฐ์ ์์ ์ฒด๊ฒฐ์ ์ด๋ฃฌ ์คํ์ ์์ ์๊ฐ ํ๊ท ์ ๋๋ค. ํ I, II์ ์์น์์ ๋ณด๋ฏ, DexScrew์ ํ๋ ํด๋ก๋ ์ ์ฑ (์ด๊ฐ+์ด๋ ฅ)์ ์ง์ sim2real๊ณผ ๋น๊ตํ์ฌ ์งํ๋ฅ ์ด ํฌ๊ฒ ๋๊ณ , ์ฑ๊ณต ์ ์๋ฃ์๊ฐ์ด ์งง์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ํธ ์ฒด๊ฒฐ์์ ์ด๊ฐ+์ด๋ ฅ BC๋ ๋ชจ๋ ๋ํธํ์์์ 95โ98% ์ด์์ ์งํ๋ฅ ์ ๊ธฐ๋กํด, ์ด๊ฐ ์์ด 60โ80%๋ฅผ ๋์ง ๋ชปํ ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํด ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์คํฌ๋ฃจ๋๋ผ์ด๋น์์๋ ์ด๊ฐ+์ด๋ ฅ BC๋ 95.0% ์งํ๋ฅ ์ ๋ฌ์ฑํด, ์์ ์๋ฎฌ๋ ์ด์ (41.6%) ๋๋น ํฐ ํญ์ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ด๋ ๊ฐ์ํ๋ ์๋ฎฌ๋ ์ดํฐ๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ์์๋ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ๊ณผ ์ด๊ฐ ํผ๋๋ฐฑ์ ์ค์ ๋ฐ์ดํฐ๋ก ๋ณด์ํ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
๋นํ์ ๋ถ์: ์ฅ๋จ์ ๋ฐ ํ๊ณ
์ฅ์ (Strengths): DexScrew๋ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ์ฅ์ (๋น ๋ฅธ ๋๊ท๋ชจ ํ์ต)๊ณผ ์ค์ ๋ฐ์ดํฐ์ ์ฅ์ (์ ํํ ๋ฌผ๋ฆฌยท์ผ์ฑ) ๋ชจ๋๋ฅผ ํ์ฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์์ ๊ธฐ์ด์ ์ธ ์์ง์ ์คํฌ์ ์ต๋ํ์ฌ ์ธ๊ฐ ์กฐ์์ ๋๊ณ , ์ค์ ํ ๋ ์ต์ ํตํด ํ์ค ์ธ๊ณ์ ์ ์ด ์ญํ๊ณผ ์ด๊ฐ ์ ๋ณด๋ฅผ ํ์ต ๋ฐ์ดํฐ๋ก ํ๋ณดํ๋ค๋ ์ ์ด ํ์ ์ ์ ๋๋ค. ์ค์ ํ๊ฐ์์ ๋ณด๋ฏ, ์ด๊ฐ ์ผ์ฑ๊ณผ ์๊ฐ ์ ๋ณด์ ๊ฒฐํฉ์ ๋ณต์กํ ์ ์ด ์ํฉ(์: ํ์์ด ๋ค์ํ ๋ํธ, ๋ง์ฐฐ์ด ๋ถํ์คํ ์คํฌ๋ฅ๋๋ผ์ด๋น)์์ ํ์ ํ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์์ต๋๋ค. ๋ํ, ํ๋ ํด๋ก๋ ๋จ๊ณ์์ ์ก์ ์ฒญํน์ ๋์ ํ์ฌ ๊ธด ์๊ณ์ด ํ๋์ ์์ธกํ๋๋ก ํ ์ ๋ ์ค์ ๋ก๋ด ์ ์ด์์ ์ ์ฉํ ๊ธฐ๋ฒ์ ๋๋ค. ์ ์ฑ ๋คํธ์ํฌ ์ค๊ณ๋ ํ์ต ํ๋ก์ธ์ค๋ ๋น๊ต์ ํ์ค์ ์ธ ๊ธฐ๋ฒ(MLP ์๋ฒ ๋ฉ, Hourglass ๋คํธ์ํฌ, PPO, DAgger ๋ฑ)์ ์ฌ์ฉํ์ฌ ์ฌํ ๊ฐ๋ฅ์ฑ์ ๋์๊ณ , ๋๊ท๋ชจ ๋ณ๋ ฌํ๊ฒฝ์ผ๋ก ํจ์จ์ ์ธ ํ์ต์ ๋ฌ์ฑํ์ต๋๋ค.
๋จ์ ๋ฐ ํ๊ณ (Limitations): ๊ทธ๋ผ์๋ ๋ช ๊ฐ์ง ํ๊ณ๊ฐ ์์ต๋๋ค. ์ฐ์ ํ ๋ ์ต๋ ์ด์ ๋จ๊ณ๋ ์ธ๊ฐ์ ์ง์ ๊ฐ์ ์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ ์์ ์์จ์ฑ์ด ์ ํ๋ฉ๋๋ค. ์ ์๋ ์ง์ ํ๋ฏ์ด ์คํฌ ๊ธฐ๋ฐ ํ ๋ ์ต์ ์๋ํ๋ ๋ฐ์ดํฐ ์์ง๋ณด๋ค ํจ์จ์ฑ์ด ๋ฎ๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์๋ ์ ์ฝ์ด ์์ต๋๋ค. ํนํ, ์คํ์์๋ ์ด๋ฏธ ๋ํธ๊ฐ ๋ณผํธ ์์ ์์นํด ์๊ณ ๋๋ผ์ด๋ฒ๊ฐ ๋์ฌ์ ๋ง์ถฐ ์ฝ์ ๋ ์ํ์์ ํ ๋ ์ต์ ์์ํ์ต๋๋ค. ์ฆ, ๋ฌผ์ฒด ์ธ์์ด๋ ์ด๊ธฐ ์ ๋ ฌ์ ํฌํจ๋์ง ์์ ๋จ์ผ ์์ ๋จ๊ณ์ ๊ตญํ๋์ด ์์ต๋๋ค. ์ด๋ฅผ ํ์ฅํ๋ ค๋ฉด ๋น์ ์ผ์์ ๊ณ ์ ๋ฐ ํ ์ผ์ ๋ฑ์ ์ถ๊ฐํด์ผ ํ ๊ฒ์ ๋๋ค.
๋ํ, ์ด ์ ๊ทผ๋ฒ์ ๋ณต์กํ ํ์ต ํ์ดํ๋ผ์ธ๊ณผ ๋ฆฌ์์ค๋ฅผ ์๊ตฌํฉ๋๋ค. Oracle RL ๋จ๊ณ์์ ์์ญ์ต ๋จ๊ณ์ ์ํ์ ํ์๋ก ํ์ผ๋ฉฐ, XHand์ ๊ฐ์ ๊ณ ๊ฐ์ ์ด๊ฐ ์ผ์ ์ฅ์ฐฉ ํธ๋, VR๊ธฐ๋ฐ ์กฐ์ ์ธํฐํ์ด์ค ๋ฑ ํน์ ์ฅ๋น๊ฐ ํ์ํฉ๋๋ค. ์ ์ฑ ํ์ต๊ณผ ์ธ ๊ฐ์ง ๋จ๊ณ์ ํตํฉ ๊ณผ์ ์ด ๋น๊ต์ ์๊ณ ๊ฐ ๋ง์ด ๋๋ ๋ฐ๋ค๊ฐ, ํน์ ์์ ์ ํนํ๋ ์ค๊ณ(์: ๋ํธ ์ฒด๊ฒฐ์ ์ํ ํ์ ์คํฌ)๋ผ ๋ค๋ฅธ ์ ํ์ ์์ ์ผ๋ก ์ ํํ ๋๋ง๋ค ๊ฐ ๋จ๊ณ๋ฅผ ๋ค์ ์ํํด์ผ ํ ์ ์์ต๋๋ค. ๋ํ, ํ๋ ํด๋ก๋ ๊ธฐ๋ฐ ํ์ต์ ์์ง๋ ๋ฐ์ดํฐ์ ํ์ง์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ์์งํ ๊ถค์ ์ธ์ ์ํฉ์ ๋ํ ์ผ๋ฐํ๊ฐ ์ ํ์ ์ผ ์ ์์ต๋๋ค(์ ์๋ ํ์ต ์ด๋ ฅ์ ์ค์์ฑ์ ์ธ๊ธํจ). ๋ง์ง๋ง์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์์ฒด๋ ์ค์ ๋์ฌ์ฐ ๋ฌผ๋ฆฌ๋ ์ ์ฒด ์กฐ๋ฆฝ ๋์ญํ์ ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์ฌ์ด์๋ ์ฌ์ ํ ์ผ๋ถ ๊ฒฉ์ฐจ๊ฐ ๋จ์ ์์ผ๋ฉฐ, ์์ ํ ์๋ฎฌ๋ ์ด์ ๋์ฒด๋ ์ด๋ ต์ต๋๋ค. Simulation ablation์์ ํ์ธํ๋ฏ์ด, ํน๊ถ ์ ๋ณด ์์ด ํ์ตํ์ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ํ์ฌ, ํ ๋จ๊ณ์์๋ ์๋ฎฌ๋ ์ดํฐ ๋ด๋ถ ์ ๋ณด๋ฅผ ์ ๊ทน ํ์ฉํด์ผ ํ๋ค๋ ์ ์ฝ์ด ์์ต๋๋ค.
์ ์ฉ ๋ฒ์: ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ด๊ณผ ์ด๊ฐ์ด ์ค์ํ ์ ๋ฐ ์กฐ๋ฆฝ ์์ (nut-bolt fastening, screwdriving ๋ฑ)์ ์ ํฉํฉ๋๋ค. ํนํ, ๋ค์ง(ๅคๆ) ๋ก๋ด ํธ๋์ ์ด๊ฐ ์ผ์๊ฐ ๊ฐ์ถฐ์ง ์์คํ ์์ ๊ทธ ํจ๊ณผ๊ฐ ํฝ๋๋ค. ํ์ง๋ง ์์ ํ ๋น์ ์ด ์์ ์ด๋ ์๊ฐ ์ ๋ณด์ ํฌ๊ฒ ์์กดํ๋ ์์ ์๋ ์ถ๊ฐ ์์ ์ด ํ์ํ๋ฉฐ, ๋๊ท๋ชจ ๊ตฐ์ง ์กฐ์์ฒ๋ผ ํ ๋ ์ต์ด ์ด๋ ค์ด ํ๊ฒฝ์์๋ ์ ํ์ ์ ๋๋ค. ๋ํ, ์๋ฎฌ๋ ์ด์ ์ ๋จ์ํ๊ฐ ํต์ฌ์ธ๋ฐ, ๋๋ฌด ๋จ์ํ ๊ฒฝ์ฐ ๋ฐฐ์ด ์คํฌ์ด ์ค์ ์ํฉ์ ๋ถ์ ํฉํด์ง ์ ์์ผ๋ฏ๋ก, ์์ ํน์ฑ์ ๋ง๋ ์๋ฎฌ๋ ์ดํฐ ๋ชจ๋ธ๋ง์ด ์ค์ํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ์ ๋ง
DexScrew๋ ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ฐ์ดํฐ ํ์ต์ ๊ฒฐํฉํ์ฌ, ์ด๊ฐ ๊ธฐ๋ฐ์ ์ฌ์ธํ ์กฐ์์ ๊ฐ๋ฅ์ผ ํ๋ ์ ๋งํ ์ ๊ทผ์ ์ ์ํฉ๋๋ค. ์ฌ์ธต ๋ถ์ ๊ฒฐ๊ณผ, ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์์ ์ต๋ํ ํ์ ๋์์ด ์ค์ ํ ๋ ์ต๊ณผ ๊ฒฐํฉ๋ ๋ ๋ณต์กํ ์ ์ด ์์ ์์๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ํ ๋ ์ต ์์กด์ฑ์ ์ค์ด๊ธฐ ์ํด ์์จ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ด๋ ์ฌ๋ ์๊ฐ ๋์ ํ์ต์ ๋์ ํ๊ณ , ๊ธด๋ฐํ ์๊ฐ-์ด๊ฐ ํตํฉ์ ํตํด ์์ ์ด๊ธฐ ์ ๋ ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ์ค์ํด ๋ณด์ ๋๋ค. ๋ํ, ๋ณด๋ค ๊ด๋ฒ์ํ ์กฐ์ ์์ ์ ๋ํ ๊ฒ์ฆ์ ํตํด ์ผ๋ฐ์ฑ(generalization)์ ํ๊ฐํ๊ณ , ํ์ต ํจ์จ์ฑ ๊ฐ์ ์ ์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ต์ ํ๋ ํ์ํ ๊ณผ์ ์ ๋๋ค. ์ด๋ฌํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ๋ค๋ฉด DexScrew ์คํ์ผ์ ํ๋ ์์ํฌ๋ ๋ค์ฉ๋ ๋ก๋ด ํธ๋๋ฅผ ํ์ฉํ ์ ๋ฐ ์กฐ๋ฆฝ์ด๋ ์ ํ ๊ฒ์ฌ ๋ฑ ์ค์ ์ฐ์ ์์ฉ์์ ๊ฐ๋ ฅํ ์๋ฃจ์ ์ด ๋ ์ ์์ ๊ฒ์ ๋๋ค.