๐Spin pens ๋ฆฌ๋ทฐ
- ์ด ์ฐ๊ตฌ๋ ๊ณ ํ์ง ๋ฐ๋ชจ ๋ถ์กฑ๊ณผ ์๋ฎฌ๋ ์ด์ -์ค์ (sim-to-real) ๊ฐ์ ํฐ ๊ฒฉ์ฐจ๋ก ์ธํด ์ด๋ ค์ ๋ ํ๊ณผ ์ ์ฌํ ๋ฌผ์ฒด๋ฅผ ๋ก๋ด ์์ผ๋ก ์ฐ์์ ์ผ๋ก ํ์ ์ํค๋ ์ต์ด์ ํ์ต ๊ธฐ๋ฐ ์์คํ ์ ์ ์ํฉ๋๋ค.
- โ๏ธ ์ ์๋ค์ ๋จผ์ ๊ฐํ ํ์ต์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ์ค๋ผํด ์ ์ฑ (oracle policy)์ ํ๋ จํ์ฌ ๊ณ ์ถฉ์ค๋ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , ์ด ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ก๋ด์ ์คํ๋ฃจํ ์ ์ด(open-loop control)์ ์ฌ์ฉํ์ฌ ๊ณ ํ์ง ์ค์ ์ธ๊ณ ๋ฐ๋ชจ๋ฅผ ์์งํ์ต๋๋ค.
- ๐ก ์์ง๋ ์ค์ ์ธ๊ณ ๊ถค์ 50๊ฐ ๋ฏธ๋ง์ผ๋ก ์ฌ์ ํ๋ จ๋ ์ผ์๋ชจํฐ ์ ์ฑ (sensorimotor policy)์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ๋ค์ํ ํ ์ ์ฌ ๊ฐ์ฒด๋ฅผ ์ฌ๋ฌ ๋ฒ ํ์ ์ํฌ ์ ์์์ผ๋ฉฐ, ์ด๋ ๋ณต์กํ ์ธํธ๋ ์กฐ์(in-hand manipulation)์์ ์๋ฎฌ๋ ์ด์ ์ฌ์ ํ๋ จ๊ณผ ์ค์ ์ธ๊ณ ๋ฏธ์ธ ์กฐ์ ์ ์ค์์ฑ์ ์ ์ฆํ์ต๋๋ค.


Brief Review
๋ณธ ๋ ผ๋ฌธ์ ํ๊ณผ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ ์์์ ํ์ ์ํค๋ ์ธํธ๋ ์กฐ์(in-hand manipulation) ๊ธฐ์ ์ ํ์ตํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค. ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๊ณ ํ์ง ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ๋ถ์กฑ๊ณผ ์๋ฎฌ๋ ์ด์ (Sim)๊ณผ ์ค์ (Real) ํ๊ฒฝ ๊ฐ์ ์๋นํ ๊ฒฉ์ฐจ(Sim-to-Real gap)๋ก ์ธํด ์ด๋ฌํ ๋์ ์ด๊ณ ๋ณต์กํ ์์ ์ํ์ ์ด๋ ค์์ ๊ฒช์๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ โ์ค๋ผํด ์ ์ฑ (oracle policy)โ์ ํ๋ จํ๊ณ , ์ด๋ฅผ ํตํด ๊ณ ํ์ง์ ๊ถค์ ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋ ๊ฐ์ง ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋๋๋ฐ, ์ฒซ์งธ, ์๋ฎฌ๋ ์ด์ ์์ โ์ผ์๋ชจํฐ ์ ์ฑ (sensorimotor policy)โ์ ์ฌ์ ํ๋ จํ๋ ๋ฐ ์ฌ์ฉ๋๊ณ , ๋์งธ, ์ค์ ๋ก๋ด์์ โ์คํ ๋ฃจํ ๊ถค์ ๋ฆฌํ๋ ์ด(open-loop trajectory replay)โ๋ฅผ ์ํํ์ฌ ์ค์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ค์ ํ๊ฒฝ์ ์ ์ฑ ์ ์ ์์ํค๊ธฐ ์ํด ์ด ์ค์ ๊ถค์ ๋ค์ ์ฌ์ฉํ์ฌ ์ผ์๋ชจํฐ ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ (fine-tune)ํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก
์ค๋ผํด ์ ์ฑ ํ๋ จ (Oracle Policy Training): ๊ณ ํ์ง์ ํ์ค์ ์ธ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ค๋ผํด ์ ์ฑ ์ ๊ฐํ ํ์ต์ผ๋ก ํ๋ จํ๋ค. ์ด ์ ์ฑ ์ ์ค์ ์ธ๊ณ์์๋ ์ ๊ทผํ ์ ์๋ โํน๊ถ ์ ๋ณด(privileged information)โ๋ฅผ ํ์ฉํ๋ค.
- ๊ด์ธก๊ฐ(\mathbf{o}_t): ๋ก๋ด์ ํ์ฌ ๊ด์ ์์น(\mathbf{q}_t), ์ด์ ๊ด์ ๋ชฉํ(\mathbf{a}_{t-1}), ์ด์ง ์ด๊ฐ ์ ํธ(\mathbf{c}_t), ์๋ ์์น(\mathbf{p}_t), ํ์ ํ์ฌ ์์ธ ๋ฐ ๊ฐ์๋(\mathbf{w}_t), ๊ทธ๋ฆฌ๊ณ ํ์ ํฌ์ธํธ ํด๋ผ์ฐ๋(\in \mathbb{R}^{100 \times 3})๋ฅผ ํฌํจํ๋ค. ํฌ์ธํธ ํด๋ผ์ฐ๋๋ PointNet [58]์ ์ฌ์ฉํ์ฌ ์ธ์ฝ๋ฉ๋๋ค. ๋ํ, ํน๊ถ ์ ๋ณด๋ก ํ์ ์ง๋(mass), ์ง๋ ์ค์ฌ(center of mass), ๋ง์ฐฐ ๊ณ์(coefficient of friction), ๋ฌผ์ฒด ํฌ๊ธฐ(object size)์ ๊ฐ์ ๋ฌผ๋ฆฌ์ ์์ฑ์ด ์ ๋ ฅ์ผ๋ก ํฌํจ๋๋ค. ๊ณผ๊ฑฐ 3๋จ๊ณ์ ๊ด์ ์์น์ ๋ชฉํ๊ฐ ์คํ๋์ด ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
- ํ๋(\mathbf{a}_t): ์ ์ฑ ๋คํธ์ํฌ f(\mathbf{o}_t)๊ฐ ์ ๊ณตํ๋ ์๋ ๋ชฉํ ์์น์ด๋ฉฐ, \mathbf{a}_t = \eta f(\mathbf{o}_t) + \mathbf{a}_{t-1}์ ๊ฐ์ด ์ด์ ๋ชฉํ์ ์ค์ผ์ผ๋ง๋ ํ๋์ ๋ํ์ฌ ๊ณ์ฐ๋๋ค. ์ด ๋ชฉํ๋ ์ ์์ค PD ์ ์ด๊ธฐ(PD controller)๋ฅผ ํตํด ๋ก๋ด์ ํ ํฌ๋ก ๋ณํ๋์ด ์ ๋ฌ๋๋ค.
- Reward Function(r): ํ์ Z์ถ์ ์ค์ฌ์ผ๋ก ์ฐ์์ ์ธ ํ์ ์ ๋ชฉํ๋ก ํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค. r = r_{rot} + \lambda_z r_z + \lambda_{energy} r_{energy} ์ฌ๊ธฐ์ r_{rot}๋ ํ์ ํ์ ์๋๋ฅผ ๋ณด์ํ๊ณ , \lambda_z r_z๋ ํ์ ๊ฐ์ฅ ๋์ ์ ๊ณผ ๋ฎ์ ์ ์ฌ์ด์ ๋์ด ์ฐจ์ด์ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ์ฌ ํ์ ์ํ์ผ๋ก ์ ์งํ๋๋ก ์ ๋ํ๋ค. \lambda_{energy} r_{energy}๋ ๋ฌผ์ฒด์ ์ ํ ์๋, ์ด๊ธฐ ๊ด์ ์์น๋ก๋ถํฐ์ ํธ์ฐจ, ๊ธฐ๊ณ์ ์์ ๋, ์ ์ฉ๋ ํ ํฌ์ ๋ํ ํ๋ํฐ๋ฅผ ํฌํจํ๋ค.
- ์ด๊ธฐ ์ํ ์ค๊ณ: ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, ๋ฌด์์ ์ํ๋ง ๋์ ์ธ๊ฐ์ ํ ๋๋ฆฌ๊ธฐ์์ ์๊ฐ์ ๋ฐ์ 6๊ฐ์ง โ์ ํํ๋ ์ด๊ธฐ ํ์ง(canonical initial poses)โ๋ฅผ ์๋์ผ๋ก ์ค๊ณํ๊ณ , ์ก์(noise)์ ์ถ๊ฐํ์ฌ ์์ ์ ์ธ ์ด๊ธฐ ์ํ๋ฅผ ์์ฑ ๋ฐ ํํฐ๋งํ๋ค. ์ด๋ ์ ์ฑ ํ๋ จ ์ ์ ์๋ฏธํ ํ์์ ์ด์งํ๋ ๋ฐ ์ค์ํ๋ค.
- ์ ์ฑ ์ต์ ํ: PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ค๋ผํด ์ ์ฑ ์ ํ๋ จํ๋ค. ์ ์ฑ ๋ฐ ๊ฐ์น ๋คํธ์ํฌ๋ MLP(Multi-Layer Perceptron)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๊ฐ ์ ์ฉ๋๋ค.
์ผ์๋ชจํฐ ์ ์ฑ ์ฌ์ ํ๋ จ (Sensorimotor Policy Pre-training): ์ค๋ผํด ์ ์ฑ ์ ํน๊ถ ์ ๋ณด ์์ด๋ ์ค์ ํ๊ฒฝ์ ์ง์ ๋ฐฐํฌํ ์ ์๋ค. ์ด์ ์ฐ๊ตฌ์ DAgger์ ๊ฐ์ ์ง์ ์ ์ธ ์ฆ๋ฅ(distillation) ๋ฐฉ์์ ๋ณธ ์์ ์ ๋์ ์ด๊ณ ์ ์ด์ด ๋ง์ ํน์ฑ์ผ๋ก ์ธํด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ์ ํฐ ๋ถ์ผ์น(mismatch)๋ก ์ธํด ์ ๋๋ก ์๋ํ์ง ์์๋ค. ํนํ ์ด๊ฐ-์๊ฐ ํผ๋๋ฐฑ(visuotactile feedback)์ ์ฌ์ฉํ๋ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์ค์ ํ๊ฒฝ์์๋ ํฐ ๊ฐญ์ ์ง๋ฉดํ๋ค. ๋ฐ๋ฉด ๊ณ ์ ์์ฉ์ฑ ํผ๋๋ฐฑ(proprioceptive feedback)๋ง์ ์ฌ์ฉํ๋ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์๋ ์๋ ดํ์ง ๋ชปํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์๋ฎฌ๋ ์ด์ ์์ ์ค๋ผํด ์ ์ฑ f๋ฅผ ์คํํ์ฌ ๊ณ ์ ์์ฉ์ฑ ์ํ์ ํ๋์ ๋ฐ์ดํฐ์ (\mathbf{s}_t, \mathbf{a}_t)์ ์์งํ๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์๋ฎฌ๋ ์ด์ ์์ ๊ณ ์ ์์ฉ์ฑ ์ ์ฑ ์ ์ฌ์ ํ๋ จํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ์ด ๋จ๊ณ์ ๋ชฉํ๋ ์ผ์๋ชจํฐ ์ ์ฑ ์ ๋ค์ํ ํ๋ จ ๋ฐ์ดํฐ์ ๋ ธ์ถ์์ผ โ์์ง์ ์ฌ์ ์ง์(motion prior)โ์ ์ ๊ณตํ๋ ๊ฒ์ด๋ค. ์ด ์ฌ์ ํ๋ จ์ ์ ์ฑ ์ด ๋ถ์ ํํ ์ญํ์ผ๋ก ์ธํด ์ค์ ์ธ๊ณ๋ก ์ง์ ์ ์ด๋์ง๋ ์์ง๋ง, ์ค์ ์ธ๊ณ ๊ถค์ ์ผ๋ก ํจ์จ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค. ๊ณ ์ ์์ฉ์ฑ ์ ์ฑ ์ 30๋จ๊ณ์ ๊ด์ ์์น(\mathbf{q}_{t-29:t})์ ์ด์ ๊ด์ ๋ชฉํ(\mathbf{a}_{t-30:t-1})๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ผ๋ฉฐ, ์๊ฐ์ ํธ๋์คํฌ๋จธ(temporal transformer)๋ฅผ ์ฌ์ฉํ์ฌ ์์ฐจ์ ํน์ง์ ๋ชจ๋ธ๋งํ๊ณ MLP๋ฅผ ์ ์ฑ ๋คํธ์ํฌ๋ก ์ฌ์ฉํ๋ค.
์ค๋ผํด ๋ฆฌํ๋ ์ด๋ฅผ ํตํ ์ผ์๋ชจํฐ ์ ์ฑ ๋ฏธ์ธ ์กฐ์ (Fine-tuning Sensorimotor Policy with Oracle Replay): ํฐ Sim-to-Real ๊ฐญ์ ๊ทน๋ณตํ๊ณ ์ ์ฑ ์ ์ค์ ์ญํ์ ์ ์์ํค๊ธฐ ์ํด ์ค์ ๊ถค์ ์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฌ๋ ๋์ ์ธ ํ ํ์ ์์ ์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ๊ณ ํ์ง ๋ฐ๋ชจ๋ฅผ ์์งํ๊ธฐ ๋งค์ฐ ์ด๋ ต๋ค. ๋ณธ ์ฐ๊ตฌ์ ํต์ฌ ๊ด์ฐฐ์ ์ค๋ผํด ์ ์ฑ ์ด ์ง์ ์ ์ด๋์ง๋ ์์ง๋ง, ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก๋ ์์ฑํ๊ธฐ ์ด๋ ค์ด ์์ง์ ์ํ์ค๋ฅผ ์ ๊ณตํ๋ค๋ ์ ์ด๋ค. ์ด์ ์๊ฐ์ ๋ฐ์, ์๋ฎฌ๋ ์ด์ ์์ ์์ฑ๋ ์ค๋ผํด ์ ์ฑ ์ ๊ถค์ ์ ์ค์ ๋ก๋ด์์ โ์คํ ๋ฃจํ ์ ์ด๊ธฐ(open-loop controller)โ๋ก ํ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ค๋ผํด ์ ์ฑ ํ๋ จ ํ, ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ 15๊ฐ์ 800 ํ์์คํ ์ด์ ์ง์๋๋ ๊ถค์ ์ ์ ํํ๋ค. ์ด ํ๋ ์ํ์ค๋ฅผ ์ธ ๊ฐ์ง ํ๋ จ ๋ฌผ์ฒด(training objects)์ ๋ํด ์ค์ ๋ก๋ด์ ๋ฆฌํ๋ ์ดํ๋ค. ์ด ์คํ ๋ฃจํ ์ ์ด๊ธฐ๊ฐ ๋ฌผ์ฒด๋ฅผ 2\pi ๋ผ๋์ ์ด์ ํ์ ์ํค๋ ๋ฐ ์ฑ๊ณตํ๋ฉด, ํด๋น ๊ถค์ ์ ์ค์ ๋ฐ์ดํฐ์ ์ ์ ์ฅํ๋ค. ์ด ๊ณผ์ ์ ๋ฌผ์ฒด๋น 15๊ฐ์ ๊ถค์ (์ด 45๊ฐ)์ด ์์ง๋ ๋๊น์ง ๋ฐ๋ณตํ๋ค. ์ด ๋ฐฉ์์ผ๋ก ์์ง๋ ๋ฐ์ดํฐ๋ ์ ์ฑ ์ ๋ณด์ ์ ์์ ๋ฐ๋ฅธ ๋ถ๋๋ฌ์ด ์์ง์๊ณผ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ํฌํจํ๋ค๋ ์ฅ์ ์ด ์๋ค. ์ฌ์ ํ๋ จ๋ ๊ณ ์ ์์ฉ์ฑ ์ ์ฑ ์ ์ด ์๋์ ์ค์ ๋ฐ์ดํฐ์ (50๊ฐ ๋ฏธ๋ง์ ๊ถค์ )์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋์ด ์ค์ ์ญํ์ ์ ์ํ๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ
- ์ค๋ผํด ์ ์ฑ ํ๋ จ: ์ ์ค๊ณ๋ ์ด๊ธฐ ์ํ ๋ถํฌ(6๊ฐ์ง ์ ํํ๋ ํ์ง)๊ฐ ์๊ฐ๋ฝ ๋ณดํ(finger gaiting)์ ์ถํ์ ๊ฒฐ์ ์ ์ด๋ฉฐ, ๋จ์ผ ์ด๊ธฐ ์์ธ๋ก๋ ํ ๋ฒ์ ํ์ ๋ ๋ฌ์ฑํ๊ธฐ ์ด๋ ต๋ค. ์ด๊ฐ ํผ๋๋ฐฑ, ํฌ์ธํธ ํด๋ผ์ฐ๋, ๋ฌผ์ฒด ๋ฌผ๋ฆฌ์ ์์ฑ๊ณผ ๊ฐ์ ํน๊ถ ์ ๋ณด๋ ์ ์ฑ ์๋ ด์ ํ์์ ์ด๋ค. Z์ถ ๋ณด์(r_z)์ ํ์ด ์ํ์ ์ ์งํ๋ฉฐ ์์ ์ ์ผ๋ก ํ์ ํ๋๋ก ๋๊ณ , ์ด๋ ์ค์ ๋ฆฌํ๋ ์ด์ ์ฑ๊ณต๋ฅ ์ ๋์ธ๋ค. r_z ์์ด๋ ํ์ด ๊ธฐ์ธ์ด์ ธ ๋ถ์์ ํด์ง๋ค.
- ์ผ์๋ชจํฐ ์ ์ฑ ๋ฐฐํฌ: ์ค๋ผํด ๋ฆฌํ๋ ์ด ์์ฒด๋ ์ค์ ํ๊ฒฝ์์ ํฉ๋ฆฌ์ ์ธ ์ฑ๋ฅ์ ๋ณด์ด๋, ๋ณธ ์ฐ๊ตฌ์ ๋ฏธ์ธ ์กฐ์ ๋ ์ ์ฑ ์ด ํ๋ จ ๋ฌผ์ฒด์์ 15-30% ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ, ๋ฏธํ์ต ๋ฌผ์ฒด(unseen objects)์์๋ 10% ๋ ๊ธด ํ์ ๋์ ๋ฌ์ฑํ๋ ๋ฑ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ธ๋ค. ์ด๋ ์๋ฎฌ๋ ์ด์ ์ฌ์ ํ๋ จ์ ํตํ ๋ค์ํ ๋ฐ์ดํฐ ํ์ต์ ์ด์ ์ ๋ณด์ฌ์ค๋ค. DAgger ๋ฐฉ์์ ์ง์ ์ ์ธ ์ฆ๋ฅ๋ Sim-to-Real ๊ฐญ์ด ๋๋ฌด ์ปค์ ํ ํ์ ์์ ์๋ ์คํจํ๋ค. ์ฌ์ ํ๋ จ๊ณผ ๋ฏธ์ธ ์กฐ์ ์ ๋ชจ๋ ํ์์ ์ธ ๊ตฌ์ฑ ์์์ด๋ค. ์ฌ์ ํ๋ จ๋ง์ผ๋ก๋ ์๋ฎฌ๋ ์ด์ -์ค์ ๊ฐ์ ๋ฌผ๋ฆฌ์ ๊ฐญ์ผ๋ก ์ธํด ์ค์ ํ๊ฒฝ์์ ํจ๊ณผ๊ฐ ์ ํ์ ์ด๋ฉฐ, ๋ฏธ์ธ ์กฐ์ ๋ง์ผ๋ก๋ ์ ํ๋ ์ค์ ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋์ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ค. ์ค์ ๋ฐ๋ชจ ์๋ฅผ 15๊ฐ์์ 75๊ฐ๋ก ๋๋ ค๋ ์ฌ์ ํ๋ จ์ ๋์ฒดํ ์๋ ์์ผ๋ฉฐ, ํนํ ๋ฏธํ์ต ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ฌ์ ํ ๋ณธ ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋ฎ๊ฒ ๋ํ๋ฌ๋ค.
๊ฒฐ๋ก ๋ฐ ๊ตํ
๋ณธ ์ฐ๊ตฌ๋ ํ์ต ๊ธฐ๋ฐ ์์คํ ์ผ๋ก์๋ ์ต์ด๋ก ํ๊ณผ ์ ์ฌํ ๋ฌผ์ฒด๋ฅผ ์ฐ์์ ์ผ๋ก ํ์ ์ํค๋ ๋ฐ ์ฑ๊ณตํ๋ค. ์ด๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ ๊ตํ์ ์ป์๋ค.
- ์๋ฎฌ๋ ์ด์ ํ๋ จ์์๋ ํ์(exploration)์ ๋๊ธฐ ์ํ ์ ์ ํ ์ด๊ธฐ ๋ถํฌ ์ค๊ณ์ ์ ์ฑ ํ์ต์ ์ด์งํ๊ธฐ ์ํ ํน๊ถ ์ ๋ณด ์ฌ์ฉ ๋ฑ ๊ด๋ฒ์ํ ์ค๊ณ๊ฐ ํ์ํ๋ค.
- ์ ์ด์ด ๋ง๊ณ ๊ณ ๋๋ก ๋์ ์ธ ์์ ์ ๊ฒฝ์ฐ, Sim-to-Real์ ์ง์ ์ ์ผ๋ก ์๋ํ์ง ์๋๋ค. ์์ ๋ฌผ๋ฆฌ์ Sim-to-Real ๊ฐญ์ ๊ด๋ฒ์ํ ๋๋ฉ์ธ ๋ฌด์์ํ๋ง์ผ๋ก๋ ๋ฉ์ฐ๊ธฐ ์ด๋ ต๋ค.
- ์๋ฎฌ๋ ์ด์ ์ ์ธ๊ฐ์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ ํ ๋๋ฆฌ๊ธฐ์ ๊ฐ์ ๋์ ์ธ ๊ธฐ์ ์ ํ์ํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํ๋ค.
- ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ๊ณ ์ ์์ฉ์ฑ ์ ์ฑ ์ด ์ค์ ํ๊ฒฝ์์ ์ง์ ์๋ํ์ง ์๋๋ผ๋, ์์์ ์ฑ๊ณต์ ์ธ ์ค์ ๊ถค์ ๋ง์ผ๋ก๋ ์ค์ ์ญํ์ ์ ์ํ๋๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ ์ ์๋ค.
ํ๊ณ์ : ํ์ฌ ์์คํ ์ Z์ถ์ ์ค์ฌ์ผ๋ก ํ ํ์ ๋ง ๊ฐ๋ฅํ๋ฉฐ, ๋ฌผ์ฒด๊ฐ ์์ ์ ์ธ ํ์ง ์์น์ ๋์ฌ์์์ ๊ฐ์ ํ๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ๋ค์ถ ํ์ ์ผ๋ก์ ํ์ฅ๊ณผ ๊ณ ๊ธ ํ์ง(grasping) ๊ธฐ์ ์ ํตํฉ์ ๋ชฉํ๋ก ํ๋ค.
Detail Review
๋ก๋ด์ด ํ์ ๋๋ฆฌ๋ ๋ฒ์ ๋ฐฐ์ฐ๋ค โ โLessons from Learning to Spin โPensโโ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
๋ค์ด๊ฐ๋ฉฐ
์ฌ๋๋ค์ ์๊ฐ๋ฝ์ผ๋ก ํ์ ๋๋ฆฌ๋ ๋ฌ๊ธฐ๋ฅผ ์ข ์ข ๋ถ๋ฆฌ๊ณค ํฉ๋๋ค. ์ด๋ ๊ฒ๋ณด๊ธฐ์ ๋จ์ํด ๋ณด์ฌ๋, ๋ก๋ด ์์๊ฒ๋ ์๋นํ ์ด๋ ค์ด ์ ๊ตํ ์ ๋ด ์กฐ์(in-hand manipulation) ๊ธฐ์ ์ ๋๋ค. ํ๊ณผ ๊ฐ์ด ๊ธธ์ญํ ๋ฌผ์ฒด๋ฅผ ์ ์์์ ์์ ๋กญ๊ฒ ํ์ ์ํค๋ ๋ฅ๋ ฅ์ ์ฌ๋ฏธ ์ด์์ ์๋ฏธ๋ฅผ ๊ฐ์ต๋๋ค. ๋ง์น๋ ๋๋ผ์ด๋ฒ์ฒ๋ผ ๊ธธ์ญํ ๋๊ตฌ๋ค์ ๋ค๋ฃจ๋ ๋์๊ณผ ์ ์ฌํ๊ธฐ ๋๋ฌธ์, ๋ก๋ด์ด ์ด๋ฌํ ํ ๋๋ฆฌ๊ธฐ๋ฅผ ํด๋ผ ์ ์๋ค๋ ๊ฒ์ ๋ค์ํ ๋๊ตฌ ์ฌ์ฉ์ ๊ธฐ์ด ๊ธฐ์ ์ ํ๋ณดํ๋ ์ ์ด๊ธฐ๋ ํฉ๋๋ค. ํ์ง๋ง ์ง๊ธ๊น์ง ๊ฐํํ์ต ๋ฑ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ด๋ฌํ ์์ ์ ๋ฌ์ฑํ๊ธฐ๋ ๋งค์ฐ ์ด๋ ค์ ์ต๋๋ค. ๋ฌด์๋ณด๋ค ์ฌ๋์ฒ๋ผ ์๋ฒ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ ํ๋ค๊ณ , ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ์ฌ์ด์ ๋ฌผ๋ฆฌ ์ฐจ์ด(์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฒฉ์ฐจ)๋ ์ปค์, ๊ฐ์ํ๋ จ ์ฑ๊ณผ๋ฅผ ํ์ค์ ์ฎ๊ธฐ๊ธฐ ์ด๋ ค์ ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฒ ๋ฆฌ๋ทฐ์์๋ 2024๋ CoRL(๋ก๋ดํ์ต ์ฝํผ๋ฐ์ค)์ ๋ฐํ๋ โLessons from Learning to Spin โPensโโ ๋ ผ๋ฌธ์ ๊น์ด ์๊ฒ ์ดํด๋ณด๊ณ ์ ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์๋ก์ด ์ ๊ทผ๋ฒ์ผ๋ก ๋ก๋ด ์์ด ํ๊ณผ ์ ์ฌํ ๋ฌผ์ฒด๋ฅผ ์๊ฐ๋ฝ ์ฌ์ด์์ ์ฌ๋ฌ ๋ฐํด ํ์ ์ํค๋ ๋ฐ ์ฑ๊ณตํ๊ณ , ๊ทธ ๊ณผ์ ์์ ์ป์ ํต์ฐฐ๊ณผ ํ๊ณ๋ฅผ ๊ณต์ ํ๊ณ ์์ต๋๋ค. ๋ณธ ํฌ์คํธ์์๋ ํด๋น ๋ ผ๋ฌธ์ ์ฃผ์ ๋ด์ฉ์ ์์ฝํ๊ณ , ์ฌ์ฉ๋ ๊ธฐ๋ฒ๊ณผ ๋ชจ๋ธ์ ๊ธฐ์ ์ ์์๋ฅผ ์ค๋ช ํ๋ฉฐ, ์ป์ด์ง ๊ตํ๊ณผ ๋จ์ ๊ณผ์ ๋ฅผ ํจ๊ป ๋ถ์ํด๋ณด๊ฒ ์ต๋๋ค.
๋ฐฐ๊ฒฝ ๋ฐ ๋์ ๊ณผ์
๋ก๋ด์ ์ ๋ด ์กฐ์ ๊ธฐ์ ์ ์ธ๊ฐ ์์ค์ ์ฌ์ธํจ์ ๋ฌ์ฑํ๊ธฐ ์ํด ํ์์ ์ธ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค. ๊ณผ๊ฑฐ์๋ ๋ก๋ด ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋๋ฆฌ๊ฑฐ๋ ์ฌ๋ฐฐ์ดํ๋ ์๋๊ฐ ์์๋ ๊ฒ์ ์๋์ง๋ง, ํ ๋๋ฆฌ๊ธฐ์ฒ๋ผ ์ฐ์์ ์ด๊ณ ์ญ๋์ ์ธ ํ์ ๋์์ ํนํ ๋์ ๊ฐ ๋์์ต๋๋ค. ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๊ธฐ๋ฒ๋ค์ด ์ด ๋ฌธ์ ์ ๋ถ๋ชํ์จ ์ฃผ๋ ์ด์ ๋ ๋ ๊ฐ์ง์ ๋๋ค. ์ฒซ์งธ, ์ด๋ฌํ ๊ณ ๋๋ ์์ ์ ๋ํ ๊ณ ํ์ง ์ๆผ(๋ฐ๋ชฌ์คํธ๋ ์ด์ ) ๋ฐ์ดํฐ๋ฅผ ์ป๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ์ฌ๋ ์์ ์ฌ์ธํ ์์ง์์ ๋ชจ๋ฐฉํ๊ฑฐ๋ ์๊ฒฉ ์กฐ์ข (ํ ๋ ์คํผ๋ ์ด์ )์ ํตํด ๋ก๋ด์ ์๋ฒ์ ๊ฐ๋ฅด์น๋ ค ํด๋, ํ ๋๋ฆฌ๊ธฐ์ ๋ณต์กํ ๋์์ ์ ํํ ์ฌํํ๊ธฐ๊ฐ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ต๋๋ค. ๋์งธ, ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ์ ์ฐจ์ด(sim-to-real gap)๊ฐ ๋งค์ฐ ํฌ๋ค๋ ๋ฌธ์ ์ ๋๋ค. ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ก๋ด ์๊ฐ๋ฝ์ด ํ์ ๋๋ฆฌ๋ ๋ฐ ์ฑ๊ณตํ๋๋ผ๋, ์ค์ ๋ก๋ด์ ๋์ผํ ์ ์ฑ (policy)์ ์ด์ํ๋ฉด ๋ง์ฐฐ ๊ณ์, ๋ฌผ์ฒด์ ๋ฏธ์ธํ ๋ฌผ๋ฆฌ ํน์ฑ ์ฐจ์ด, ์ผ์ ์ค์ฐจ ๋ฑ์ผ๋ก ์ธํด ํ์ ๊ธ์ธ ๋จ์ด๋จ๋ฆฌ๊ธฐ ์ผ์ค์ ๋๋ค. ํนํ ํ ๋๋ฆฌ๊ธฐ์ฒ๋ผ ์ ์ด์ด ์ฐ์์ ์ผ๋ก ๋ฐ์ํ๊ณ ๋งค์ฐ ์ญ๋์ ์ธ ์์ ์ ๊ฒฝ์ฐ ์ด ๊ฒฉ์ฐจ๋ ๋์ฑ ์ฌํด์ ธ์, ๋จ์ํ ๋๋ฉ์ธ ๋๋คํ ๋ฑ์ผ๋ก๋ ๋ฉ์ฐ๊ธฐ ์ด๋ ต๋ค๋ ๊ฒ์ด ์ ํ ์ฐ๊ตฌ๋ค์ ๊ตํ์ด์์ต๋๋ค.
์ฐ๊ตฌํ ์ญ์ ์ด๊ธฐ์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ๋ฐ๋ก ํ์ค ๋ก๋ด์ ์ด์ํด ๋ณด๊ฑฐ๋, ํ๋์จ์ด ๊ตฌ์กฐ์ ๋ฌผ์ฒด ์ฌ์ง์ ๋ฐ๊ฟ๋ณด๋ ๋ฑ ์ฌ๋ฌ ์๋๋ฅผ ํ์ง๋ง ๋ฒ๋ฒ์ด ์คํจ๋ฅผ ๊ฒช์์ต๋๋ค. ํ์ ์ด๋ด ์๊ฐ๋ฝ ์ฌ์ด์์ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ํ๊ฒจ ๋๊ฐ ๋จ์ด์ก๊ณ , ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ์ฌ์ด์ ๋ถํฌ ์ฐจ์ด(distribution shift)๋ฅผ ์ค๊ฐํด์ผ ํ์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ํ ์ ์์๊น์? ์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ์๋ฎฌ๋ ์ด์ ์ ํ์ ์ต๋ํ ํ์ฉํ๋ฉด์๋, ์ต์ํ์ ํ์ค ๋ฐ์ดํฐ๋ก ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๋ ํ์ด๋ธ๋ฆฌ๋ ํ์ต ์ ๋ตโ์ ์์ต๋๋ค. ๋ค์ ์น์ ์์๋ ์ ์๋ค์ด ์ ์ํ ๋ ์ฐฝ์ ์ธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ ๊ทผ ๋ฐฉ๋ฒ: ์๋ฎฌ๋ ์ด์ ์ค๋ผํด๊ณผ ํ์ค ์ ์
โLessons from Learning to Spin โPensโโ ๋ ผ๋ฌธ์ ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ๋ฐ์ดํฐ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ํ์ฉํ๋ ํ์ต ํ์ดํ๋ผ์ธ์ ๊ณ ์ํ์์ต๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ์์ฝํ ์ ์์ต๋๋ค:
์๋ฎฌ๋ ์ด์ ์์์ ์ค๋ผํด ์ ์ฑ ํ์ต โ ์ฐ์ ๊ฐ์ ํ๊ฒฝ์์ ํ ๋๋ฆฌ๊ธฐ ๋ฌธ์ ๋ฅผ ์ถฉ๋ถํ ํ์ํ ์ ์๋ ์ค๋ผํด ์ ์ฑ (oracle policy)์ ๊ฐํํ์ต์ผ๋ก ํ๋ จํฉ๋๋ค. ์ฌ๊ธฐ์ ์ค๋ผํด ์ ์ฑ ์ด๋ ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ๊ณตํ๋ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ๋ชจ๋ ํ์ฉํ๋ ์ ์ง์ ๋ฅํ ์ ์ฑ ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ค์ ๋ก๋ด์ ์นด๋ฉ๋ผ๋ ์ด๊ฐ ์ผ์๋ก๋ง ํ์ ์ํ๋ฅผ ์ถ์ ํด์ผ ํ์ง๋ง, ์ค๋ผํด ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์ด ์ ๊ณตํ๋ ํ์ ์ ํํ ์์น์ ์๋ ๋ฑ ์์ ํ ์ํ ์ ๋ณด๋ฅผ ๊ด์ธก์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ถ๊ฐ ์ ๋ณด ๋๋ถ์ ๊ฐํํ์ต ์์ด์ ํธ๋ ํ์์ ๋น ๋ฅด๊ฒ ์งํํ๋ฉฐ ์ฑ๊ณต ๊ถค์ ๋ค์ ๋ง๋ค์ด๋ผ ์ ์์ต๋๋ค. ์ค๋ผํด ์ ์ฑ ์ ๊ฒฐ๊ตญ ํ์ ์ฐ์ ํ์ ์ํค๋ ํ๋ฅญํ ์ ๋ต์ ์ตํ๊ฒ ๋์๊ณ , ์ด๋ฅผ ํตํด ์ ๋ฐํ ์๋ฎฌ๋ ์ด์ ๊ถค์ ๋ฐ์ดํฐ์ ์ ๋ค์ ํ๋ณดํ ์ ์์์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ์ด ๋จ๊ณ์์ ์์ฑ๋ ๊ถค์ ๋ค์ ํ์ ๋๋ฆฌ๋ ์๊ฐ๋ฝ ๋์์ ๊ณ ํด์๋ ์๋๋ฆฌ์ค๋ค์ ๋ด๊ณ ์์ด ์ดํ ๊ณผ์ ์ ํต์ฌ์ ์ธ ๋ฐ๊ฑฐ๋ฆ์ด ๋ฉ๋๋ค.
ํ์ ์ ์ฑ ํ์ต ๋ฐ ์ด๋ฆฐ ๋ฃจํ ์คํ โ ๋ค์์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ์์ง๋ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์(sensorimotor) ์ ์ฑ ์ ํ์ต์ํต๋๋ค. ํ์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ํฌ์ ๋ ์ผ์ ๊ธฐ๋ฐ ์ ์ฑ ์ผ๋ก, ์ค๋ผํด๊ณผ ๋ฌ๋ฆฌ ํน๊ถ ์ ๋ณด ์์ด ๋ก๋ด์ด ์ค์ ๋ก ์ฌ์ฉํ ์ ์๋ ์ผ์ ์ ํธ๋ง์ผ๋ก ๋์ํ๋๋ก ์ค๊ณ๋ฉ๋๋ค. ์ด๋ฅผ ์ํด ์ค๋ผํด์ ์๋ฎฌ๋ ์ด์ ๊ถค์ ์ ๋ชจ๋ฐฉ ํ์ต(behavior cloning)์ด๋ ์ง๋ํ์ต์ ํตํด ํ์ ์ ์ฑ ์ด ๋ฐ๋ผํ๋๋ก ํ๋ จํฉ๋๋ค. ์ด๋ ๊ฒ ์ด๊ธฐํ๋ ํ์ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์์๋ ํ์ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ ์๊ณ ์์ง๋ง, ์ฌ์ ํ ํ์ค ํ๊ฒฝ์์ ๋ฐ๋ก ์ธ ์ ์์ ์ ๋๋ก ๊ฒฌ๊ณ ํ์ง๋ ์์ ์ํ์ ๋๋ค. ๋ฐ๋ผ์ ์ฐ๊ตฌํ์ ํ ๊ฑธ์ ๋ ๋์๊ฐ, ์ด ํ์ ์ ์ฑ ์ ํ์ค ๋ก๋ด์ ์ ์ฉํ์ฌ ์ด๋ฆฐ ๋ฃจํ(open-loop)๋ก ์คํํด ๋ณด์์ต๋๋ค. ์ฌ๊ธฐ์ ์ด๋ฆฐ ๋ฃจํ ์คํ์ด๋, ์๋ฎฌ๋ ์ด์ ์์ ๋ นํํ ๋์ ์ก์ ์ํ์ค๋ฅผ ๊ทธ๋๋ก ๋ก๋ด์ ์ฌ์ํ๋ ๊ฒ์ผ๋ก, ์คํ ๋์ค์ ๋ณ๋์ ํผ๋๋ฐฑ ๋ณด์ ์์ด ๊ณ ์ ๋ ์ก์ ๊ถค์ ์ ๋ฐ๋ผ๊ฐ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋๋๊ฒ๋ ์ค๋ผํด ์ ์ฑ ์ผ๋ก๋ถํฐ ํ์ตํ ํ์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์์๋ ์ผ์ ์์ค์ ํ ํ์ ์ ๋ง๋ค์ด๋๊ณ , ํนํ ๊ทธ ์ค ์ผ๋ถ ์๋์์๋ ํ์ ์ฌ๋ฌ ์ฐจ๋ก ํ์ ์ํค๋ ์ฑ๊ณต ์ฌ๋ก๋ค๋ ์ป์ ์ ์์์ต๋๋ค. ์ฐ๊ตฌ์ง์ ์ด๋ฌํ ์ฑ๊ณต์ ์ธ ํ์ค ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ์์งํ์ฌ ๋ค์ ๋จ๊ณ์ ํ์ฉํฉ๋๋ค.
ํ์ค ๋ฐ์ดํฐ๋ก ์ ์ฑ ๋ฏธ์ธ์กฐ์ โ ๋ง์ง๋ง ๋จ๊ณ์์๋, ๋ฐฉ๊ธ ํ๋ณดํ ํ์ค ์ธ๊ณ์ ์ฑ๊ณต ๊ถค์ ๋ฐ์ดํฐ(50๊ฐ ๋ฏธ๋ง์ ๋น๊ต์ ์ ์ ์๋ผ๊ณ ํฉ๋๋ค)๋ฅผ ๊ฐ์ง๊ณ ํ์ ์ ์ฑ ์ ํ์ธํ๋(fine-tuning)ํฉ๋๋ค. ์ด๋ ์ผ์ข ์ ๋๋ฉ์ธ ์ ์ ๋จ๊ณ๋ก, ์๋ฎฌ๋ ์ด์ ์ ์ฉ ์ ์ฑ ์ด ํ์ค์ ๋ฌผ๋ฆฌ ๋ฒ์น๊ณผ ์ก์์ ์ ์ํ๋๋ก ๋์์ค๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ ์ ์ฑ ์ ํ์ค ๊ถค์ ๋ฐ์ดํฐ์ ๋ํด ๋ค์ ํ ๋ฒ ๋ชจ๋ฐฉ ํ์ตํ๊ฑฐ๋, ํ์์ ๋ฐ๋ผ ์ถ๊ฐ ๊ฐํํ์ต์ ์งํํ์ฌ ํ์ค ๋ฌผ๋ฆฌ์ ๋ง๊ฒ ๋ณด์ ํ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ต์ข ์ ์ฑ ์ ๋น๋ก์ ํ์ค ํ๊ฒฝ์์ ํ์ ์์ ์ ์ผ๋ก ๋๋ฆด ์ ์๋ ๋ฅ๋ ฅ์ ์ป๊ฒ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋จ 50๊ฐ ๋ฏธ๋ง์ ํ์ค ๊ถค์ ๋ง์ผ๋ก๋, ์๋ฎฌ๋ ์ดํฐ ์์์๋ง ํตํ๋ ์ ์ฑ ์ด ํ์ค์ ์ค์ฐจ์ ๋ง์ฐฐ์ ๊ฒฌ๋๋ฉฐ ํ์ ๋๋ฆด ์ ์๊ฒ ๋ ๊ฒ์ด์ฃ . ๋์ฑ์ด ์ด ์ต์ข ์ ์ฑ ์ ๋ฌผ๋ฆฌ์ ์์ฑ์ด ์ ๊ฐ๊ฐ์ธ 10์ฌ ์ข ์ ํ ๋ชจ์ ๋๊ตฌ๋ค์ ๋ํด์๋ ๋ชจ๋ ์ ์ฐจ๋ก ์ฐ์ ํ์ ์ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํด๋์ต๋๋ค.

๊ทธ๋ฆผ 1: ๋ณธ ์ฐ๊ตฌ์์ ์ ์๋ ํ์ต ํ์ดํ๋ผ์ธ ๊ฐ๋ต๋. ์ผ์ชฝ์์๋ ์๋ฎฌ๋ ์ด์ ์์ ์ค๋ผํด ์ ์ฑ ์ ๊ฐํํ์ต์ผ๋ก ํ๋ จํ์ฌ ๊ณ ํ์ง ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ , ์ด ๋ฐ์ดํฐ๋ก ํ์ ์ ์ฑ ์ ์ฌ์ ํ์ตํฉ๋๋ค. ๊ทธ ํ ๊ทธ ํ์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ด๋ฆฐ ๋ฃจํ ์ ์ด๋ก ์คํํ์ฌ ์ฑ๊ณต ์ฌ๋ก ํ์ค ๊ถค์ ์ ์์งํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ํด๋น ํ์ค ๊ถค์ ์ผ๋ก ํ์ ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ์ฌ ํ์ค ํ๊ฒฝ์ ์ ์๋ ์ต์ข ์ ์ฑ ์ ์ป์ต๋๋ค. ์ด ํ์ดํ๋ผ์ธ์ ํตํด ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋ฅ๋ ฅ๊ณผ ํ์ค ๋ฐ์ดํฐ์ ์ ํ์ฑ์ ๊ฒฐํฉํจ์ผ๋ก์จ, ์์ ํ ์ธ๊ฐ ์๋ฒ์ด๋ ์์ ํ ์๋ฎฌ๋ ์ด์ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ ํ ๋๋ฆฌ๊ธฐ ๊ณผ์ ๋ฅผ ๋ฌ์ฑํ ์ ์์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ: ํ ๋๋ฆฌ๊ธฐ์ ๋ฌ์ฑ ๋ฐ ๋ถ์
๊ทธ๋ ๋ค๋ฉด ์ด๋ฌํ ์ ๊ทผ๋ฒ์ผ๋ก ์ป์ ์ต์ข ๋ก๋ด ์ ์ฑ ์ ์ค์ ๋ก ์ด๋ ์ ๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์๊น์? ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ๋ถ๊ณผ 50๊ฐ ๋ฏธ๋ง์ ํ์ค ์ฑ๊ณต ์ฌ๋ก ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ ์ ์ฑ ์์๋ ๋ถ๊ตฌํ๊ณ , ๋ก๋ด ์์ ๋ค์ํ ํ ๋ชจ์์ ๋ฌผ์ฒด๋ฅผ ์๊ฐ๋ฝ ์ฌ์ด์์ ์ฌ๋ฌ ๋ฐํด ์ฐ์์ผ๋ก ํ์ ์ํค๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์ฌ๊ธฐ์๋ ํ๋ผ์คํฑ ๋ณผํ, ๋ง์ปค, ๋๋ฌด ๋ง๋ ๋ฑ ๋ฌผ๋ฆฌ์ ํน์ฑ(๋ฌด๊ฒ, ๋ง์ฐฐ, ๊ท ํ)์ด ์๋ก ๋ค๋ฅธ 10์ฌ ๊ฐ์ ๋ฌผ์ฒด๋ค์ด ํฌํจ๋์ด ์์๋๋ฐ, ์ ์ฑ ์ ์ด๋ค ํ-์ ์ฌ ๋ฌผ์ฒด(pen-like objects) ๊ฐ๊ฐ์ ๋ํด ์์ ์ ์ผ๋ก ํ์ ๋์์ ๊ตฌ์ฌํ์ต๋๋ค. ์ด๋ ๋จ์ํ ํ๋์ ๋ฌผ์ฒด์ ํนํ๋ ์๋ฃจ์ ์ด ์๋๋ผ, ์ผ๋ฐํ๋ ํ ๋๋ฆฌ๊ธฐ ๊ธฐ์ ์ ์ต๋ํ์์ ๋ณด์ฌ์ค๋๋ค.
๋ํ ํฅ๋ฏธ๋ก์ด ์ ์, ๊ฐํํ์ต ๋จ๊ณ์์์ ์ค๊ณ ์ ํ์ด ์ค์ ๊ฒฐ๊ณผ์ ํฐ ์ํฅ์ ๋ฏธ์ณค๋ค๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ์๋ฎฌ๋ ์ด์ ์์ ์ค๋ผํด ์ ์ฑ ์ ํ์ตํ ๋ ์ฌ๋ฌ ๊ฐ์ง ๋ณด์ ์ค๊ณ์ ์ ์ฝ ์กฐ๊ฑด์ ์คํํ๋๋ฐ, ์ด๋ฅผ ํตํด ์ฑ๊ณต์ ์ธ ํ ๋๋ฆฌ๊ธฐ์๋ ์ด๋ค ์์๊ฐ ์ค์ํ์ง๋ฅผ ๋ถ์ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ค๋ผํด ์ ์ฑ ์ ํ๋ จํ ๋ ์๊ฐ๋ฝ ์์ธ๋ฅผ ํ๋์ ๊ณ ์ ๋ ํฌ์ฆ๋ก๋ง ์ฌ์ฉํ๋๋ก ์ ํํ ๊ฒฝ์ฐ(์ผ์ข ์ ๋จ์ผ ์์ธ ์ ์ฝ ์คํ)์๋ ์์ด์ ํธ๊ฐ ํ์ ๊ธธ๊ฒ ๋๋ฆฌ์ง ๋ชปํ์ต๋๋ค. ์ด๋๋ ์๊ฐ๋ฝ์ ์์น๋ฅผ ๋ฐ๊พธ๋ ํ๊ฑฐ๊ฒ์ดํ (finger gaiting)์ด ๋ํ๋์ง ์์, ํ์์ด ๋นํจ์จ์ ์ด๊ณ ๊ฒฐ๊ตญ ์ฐ์ ํ์ ์ ์คํจํ์ต๋๋ค. ๋ฐ๋ฉด ์ฐ๋ฆฌ ๋ฐฉ๋ฒ(์ ์๋ ๋ฐฉ๋ฒ)์์๋ ์์ด์ ํธ๊ฐ ํ์ต์ ํตํด ์๋ฐ์ ์ผ๋ก ์๊ฐ๋ฝ์ ๋์ด ์์ง์ด๋ฉฐ(pingergaiting) ํ์ ๊ณ์ ํ์ ์ํค๋ ๋์์ ํฐ๋ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ์ง์์ ์ธ(spinning) ์ฐ์ ํ์ ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค. ํ๊ฑฐ๊ฒ์ดํ ์ ๋ง์น ์ฌ๋์ด ์๊ฐ๋ฝ์ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ๋ฌผ์ฒด๋ฅผ ์ฎ๊ฒจ ์ฅ๋ ๋์์ ๋น์ ๋ ์ ์๋๋ฐ, ๋ก๋ด ์ ์ฑ ์ด ์ด๋ฐ ํ๋์ ์ค์ค๋ก ํ์ตํ๋ค๋ ๊ฒ์ ๋งค์ฐ ๊ณ ๋ฌด์ ์ธ ์ฑ๊ณผ์ ๋๋ค.
๋ ๋ค๋ฅธ ๋ถ์ ์์๋ก๋ Reward Function์ ๊ตฌ์ฑ์ด ์์์ต๋๋ค. ์ฐ๊ตฌํ์ ํ์ ๋๋ฆฌ๋ ๊ฐํํ์ต ๋ณด์์ ํน๋ณํ ํญ๋ชฉ์ ํ๋ ์ถ๊ฐํ๋๋ฐ, ๋ฐ๋ก โZ-์ถ ๋ณด์(Z-reward)โ์ ๋๋ค. ์ด๋ ํ์ด ํ์ ์ค์ ๊ธฐ์ธ์ด์ง์ง ์๊ณ , ์ผ์ ์์ค ์ด์ ๋์ด๋ฅผ ์ ์งํ๋๋ก ์ ๋ํ๋ ๋ณด์์ผ๋ก ํด์๋ฉ๋๋ค. ์ด ๋ณด์์ ์ค์์ฑ์, Z-๋ณด์์ ์ ์ธํ ์คํ์์ ๋๋ฌ๋ฌ์ต๋๋ค. ํด๋น ์คํ์์๋ ์๋ฎฌ๋ ์ด์ ์์์๋ ํ์ ๋๋ฆด ์ ์์์ง๋ง, ์ผ์ ์๊ฐ ์ดํ ํ์ด ๊ธฐ์ธ์ด์ง๋ฉด์ ๊ฒฐ๊ตญ ์๊ฐ๋ฝ ์ฌ์ด์์ ๋น ์ ธ๋ฒ๋ฆฌ๋ ๋ฌธ์ ๊ฐ ๊ด์ฐฐ๋์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ธ์ด์ง(tilt) ํ์์ ํนํ ํ์ค ๋ก๋ด์์ ๋ ์น๋ช ์ ์ด์ด์, Z-๋ณด์์ด ์๋ ์ ์ฑ ์ ์ค์ ํ ์คํธ ์ ํ์ ์ฝ๊ฒ ๋จ์ด๋จ๋ ธ๋ค๊ณ ํฉ๋๋ค. ๋ฐ๋ผ์ ํ์ ์์ ์ ์ผ๋ก ์ฌ๋ฌ ๋ฐํด ๋๋ฆฌ๋ ค๋ฉด, ํ์ ์๋๋ ํ์๋ฟ๋ง ์๋๋ผ ์์ธ ์์ ์ฑ(orientation stability) ์ญ์ ์ค์ํ๋ค๋ ๊ตํ์ ์ป์์ต๋๋ค.
์ฐ๊ตฌ์ง์ ์ ์ํ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฌ๋ฌ ๋น๊ต ์คํ(๋ฒ ์ด์ค๋ผ์ธ)๋ ์ํํ์์ต๋๋ค. ์ฒซ์งธ, ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ก ์ฌ์ฉ(์๋ฎฌ๋ ์ด์ ์ฌ์ ํ์ต only)ํ๋ ๋ฐฉ์์ ์ํํ๋๋ฐ, ์์๋๋ก ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๋ฌผ๋ฆฌ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ์ง ๋ชปํด ํ ๋๋ฆฌ๊ธฐ์ ์คํจํ์ต๋๋ค. ๋์งธ, ์๋ฎฌ๋ ์ด์ ๊ถค์ ์ ์ด๋ฆฐ ๋ฃจํ๋ก๋ง ์ฌ์ํ๋ ๋จ์ ๋ชจ๋ฐฉ ๋ฐฉ์์ ๊ฒฝ์ฐ, ๋์ ์์ฒด๋ ๊ทธ๋ด๋ฏํ์ง๋ง ์ผ์ ํผ๋๋ฐฑ์ด ์ ํ ์๊ธฐ ๋๋ฌธ์ ์์ ๋ถํ์ค์ฑ์๋ ๊ธ๋ฐฉ ์คํจ๋ก ์ด์ด์ก์ต๋๋ค. ์ฆ, ์ด๋ฌํ ์คํ ๋ฃจํ ์ฌ์์ ์ฌํ์ฉ ๋ถ๊ฐ๋ฅํ ์ผํ์ฑ ๋ฌ๊ธฐ์ ๊ทธ์น๊ณ ์ผ๋ฐํ๋ ์ ์ฑ ์ด ๋ ์ ์์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋น์ (distillation) ๊ธฐ๋ฐ ์ ๊ทผ๋ ๊ฒํ ๋์๋๋ฐ, ์ด๋ ์๋ง๋ ์๋ฎฌ๋ ์ด์ ์์ ์๊ฐ์ ๊ด์ฐฐ๋ก ํ์ตํ ์ ์ฑ ์ distillํ์ฌ ํ์ค์ ์ ์ฉํ๋ ค ํ ์๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด ๊ฒฝ์ฐ ๋ฌผ์ฒด(ํ)๊ฐ ํ์ ํ๋ฉฐ ์์ง์ผ ๋ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ธ์์ ์ค์ฐจ๊ฐ ์ปค์ง๊ณ , ํ๋ จ ๋ถํฌ์์ ๋ฒ์ด๋(OOD) ์๊ฐ ์ ๋ณด๊ฐ ์ ๋ ฅ๋๋ฉด์ ์ ์ฑ ์ฑ๋ฅ์ด ๋ถ์์ ํด์ก์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฌผ์ฒด๊ฐ ํ๋ฉด์์ ํ๋ค๋ ค ๋ณด์ด๋(oscillates) ์ํฉ์์ ๋น์ ์ ์ฑ ์ ํฐ ์๋ฌ๋ฅผ ์ผ์ผ์ผฐ๊ณ , ํ ๋๋ฆฌ๊ธฐ๋ฅผ ์ ์งํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ฌํ ๋น๊ต ์คํ๋ค์ ๋ณธ ๋ ผ๋ฌธ์ ํผํฉ ์ ๊ทผ๋ฒ์ด ์ ํ์ํ์ง ์ ๋ท๋ฐ์นจํด์ค๋๋ค. ์์ปจ๋, ์๋ฎฌ๋ ์ด์ ํ์ต๋ง์ผ๋ก๋ ๋ถ์กฑํ์ง๋ง, ๊ทธ๋ ๋ค๊ณ ํ์ค ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฒ์๋ถํฐ ํ์ตํ๊ธฐ์ ํ์์ด ๋ถ๊ฐ๋ฅํ ์ด ๋๋ ๋ง ์ํฉ์์, ์๋ฎฌ๋ ์ด์ ์ ์ฑ๊ณต ๊ฒฝํ์ ์ต๋ํ ํ์ฉํ๊ณ ์ต์ํ์ ํ์ค ๊ฒฝํ์ผ๋ก ๋ณด์ํ๋ ๊ฒ์ด ํต์ฌ์ด๋ผ๋ ์ ์ ์ ์ฆํ ์ ์ ๋๋ค.
๋ฐฐ์ด ๊ตํ ๋ฐ ํ๊ณ
์ด ์ฐ๊ตฌ๋ฅผ ํตํด ์ป์ ๊ตํ(lessons)๋ค์ ํ ๋๋ฆฌ๊ธฐ ๊ณผ์ ์๋ง ๊ตญํ๋์ง ์๊ณ , ์ผ๋ฐ์ ์ธ ๋ก๋ด ๊ฐํํ์ต๊ณผ ์๋ฎฌ๋ ์ด์ ํ์ฉ์ ์์ฌํ๋ ๋ฐ๊ฐ ํฝ๋๋ค. ์ ์๋ค์ ๋ ผ๋ฌธ์์ ๊ฐ๋ฐ ๊ณผ์ ์์ ๋๋ ์ฃผ์ ๊ตํ์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ์์ต๋๋ค:
ํ์์ ์ํ ์๋ฎฌ๋ ์ด์ ์ค๊ณ์ ์ค์์ฑ: ์๋ฎฌ๋ ์ด์ ์์ ๊ฐํํ์ต์ ์ฑ๊ณต์ํค๋ ค๋ฉด ํ์์ด ์ถฉ๋ถํ ์ด๋ฃจ์ด์ง๋๋ก ํ๊ฒฝ๊ณผ ๋ณด์์ ๊ผผ๊ผผํ ์ค๊ณํด์ผ ํฉ๋๋ค. ์ด๊ธฐ ์ํ ๋ถํฌ๋ฅผ ์ ์ ํ ๋ค์ํ๊ฒ ๋ง๋ค์ด ์์ด์ ํธ๊ฐ ์ฌ๋ฌ ์ํฉ์ ์ ํ๊ฒ ํ๊ณ , ํ์ต์ ๋๋ ํน๊ถ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ฑ ์ธ์ฌํ ๋์์ธ์ด ํ์ํ์ต๋๋ค. ์ด๋ฌํ ๋ ธ๋ ฅ์ด ๋ท๋ฐ์นจ๋์ด์ผ ๋น๋ก์ ์๋ฎฌ๋ ์ดํฐ ์์์ ์ด๋ ค์ด ๊ธฐ์ ์ด ๋ฐํ๋ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
๋จ์ํ Sim-to-Real์ ํตํ์ง ์๋๋ค: ์ ์ด์ด ๋ง์ ๊ณ ๋์ด๋ ๋์์ผ์๋ก, ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋๋ก ํ์ค์ ๊ฐ์ ธ์ค๋ ๊ฒ์ ๊ฑฐ์ ์คํจํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง์ด ์ด๊ฐ, ์๊ฐ ์ผ์ ๋ฑ์ ๊ฐ๋ณ์ ์ผ๋ก ๋ฐฐ์ ํด๋ณด๋ ๋ฑ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ ์๋ํด๋ดค์ง๋ง, ๋ฌผ๋ฆฌ ์์ง๊ณผ ์ค์ ์ธ๊ณ์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ ๋จ์์ต๋๋ค. ๊ด๋ฒ์ํ ๋๋ฉ์ธ ๋๋คํ์กฐ์ฐจ๋ ์ด ๊ฒฉ์ฐจ๋ฅผ ์์ ํ ๋ฉ๊พธ์ง ๋ชปํ๊ณ , ๊ฒฐ๊ตญ ํ์ค ๋ฐ์ดํฐ์ ์ง์ ์ ์ธ ํ์ฉ์ด ๋ถ๊ฐํผํ์์ต๋๋ค.
๊ทธ๋๋ ์๋ฎฌ๋ ์ด์ ์ ์ ์ฉํ๋ค: ๋น๋ก ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ๋ง์ผ๋ก ์์ฑํ์ ์ป์ ์ ์์ง๋ง, ์๋ฎฌ๋ ์ดํฐ๋ ์ฌ์ ํ ์๋ก์ด ๊ธฐ์ ์ ํ์ํ๋ ๋ฐ ํ์์ ์ ๋๋ค. ํ ๋๋ฆฌ๊ธฐ์ ๊ฐ์ ์ญ๋์ ์คํฌ์ ์ธ๊ฐ์ด ๋ก๋ด์ ์๊ฒฉ์ผ๋ก ์กฐ์ข ํ๋ฉฐ ๊ฐ๋ฅด์น๊ธฐ์๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ต๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ ๊ฐํํ์ต์ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ์ฐพ์๋ด๋ ๊ณผ์ ์ด ์์๊ธฐ์, ์ด๊ธฐ ์ ์ฑ ๊ณผ ๊ถค์ ์ ํ๋ณดํ ์ ์์์ต๋๋ค. ์ด๋ ๋ค๋ฅธ ๋ณต์กํ ๋ก๋ด ๊ธฐ์ ํ์ต์๋ ์์ฌํ๋ ๋ฐ๊ฐ ์์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋๊ตฌ๋ก ์ ๊ทน ํ์ฉํ๋ ๊ทธ ํ๊ณ๋ฅผ ์ธ์งํ๋ ๊ท ํ ์กํ ์ ๊ทผ์ด ํ์ํฉ๋๋ค.
ํ์ค ๋ฐ์ดํฐ๋ ์๊ฐ๋ณด๋ค ์ ๊ฒ ํ์ํ๋ค: ํฌ๋ง์ ์ธ ์์์, ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ฑ ์ ์ ํ์ฉํ๋ฉด ์๋์ ํ์ค ์ฑ๊ณต ๋ฐ์ดํฐ๋ก๋ ์ถฉ๋ถํ ์ ์ฑ ์ ๋ณด์ ํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ์์๋ ๋ถ๊ณผ 50์ฌ ๊ฐ ๋ฏธ๋ง์ ์คํ ๊ถค์ ์ผ๋ก๋ ์ ์ฑ ์ ํ์ค์ ์ ์(fine-tuning)์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฆ, ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๊ธฐ๋ณธ๊ธฐ๋ฅผ ์ตํ ๋์ผ๋ฉด ์ดํ ํ์ค์์๋ ๋ช์ญ ์ฐจ๋ก์ ์คํ๋ง์ผ๋ก๋ ๋์ ์์ค์ ์ฑ๋ฅ์ ์ป์ด๋ผ ์ ์๋ค๋ ๋ป์ ๋๋ค. ์ด๋ ๋ก๋ด ํ์ต ๋ถ์ผ์์ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก๋ฉด์ผ๋ก ํฐ ์๋ฏธ๊ฐ ์์ต๋๋ค.
์ด๋ฌํ ๊ตํ๋ค๊ณผ ๋๋ถ์ด, ๋ณธ ์ฐ๊ตฌ์์ ๋๋ฌ๋ ๋ช ๊ฐ์ง ํ๊ณ์ ๋ ์ง๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค. - ์ฒซ์งธ, ์ต์ข ์ ์ฑ ์ ์๊ฐ ์ผ์์ ์์กดํ์ง ์๋ proprioceptive(๊ณ ์ ๊ฐ๊ฐ) ๊ธฐ๋ฐ ์ ์ฑ ์ ๋๋ค. ์ด๋ ํ์ ์์น๋ ์์ง์์ ๋ก๋ด ์์ ๊ด์ ์ผ์ ๋ฑ์ผ๋ก๋ง ์ถ์ ํ๋ค๋ ์๋ฏธ์ธ๋ฐ, ์ด๋ฌํ ์ ๊ทผ์ ๋ฌผ์ฒด์ ํํ๋ ์ฃผ๋ณ ํ๊ฒฝ ๋ณํ๋ฅผ ์ธ์งํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ฒ์ฉ์ฑ ๋ฉด์์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. - ๋์งธ, ๋ ผ๋ฌธ์์ ๋ณด๊ณ ๋ ์คํจ ์ฌ๋ก๋ค์ ๋ณด๋ฉด ํ ๋ฐฉ๋ฒ์ ํ๋์จ์ด์ ํ๊ณ๋ ๋ํ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด ์์ ์ ์ด ์ฃผํ์(control frequency)๊ฐ ์ถฉ๋ถํ ๋์ง ์์ ๋น ๋ฅด๊ฒ ๋จ์ด์ง๋ ๋ฌผ์ฒด๋ฅผ ๋ถ์ก์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค. ํ์ด ์๊ฐ๋ฝ์์ ์ด์ง ์ดํํ ๋ ์ฌ๋นจ๋ฆฌ ๋์ํด์ผ ํ์ง๋ง, ํ์ฌ ์์คํ ์ ์๋๋ก ์ญ๋ถ์กฑ์ด์๋ค๋ ๊ฒ์ ๋๋ค. ๋ํ ํ์ด ๋๋ฉด์ ๋ฌด๊ฒ์ค์ฌ(center of mass)์ด ๋ฏธ์ธํ๊ฒ ๋ณํด ๊ท ํ์ด ๊นจ์ง๋ ๊ฒฝ์ฐ๋ ์์๋๋ฐ, ์ด๋ฐ ์ํฉ์์๋ ์์คํ ์ด ๋ถ์์ ํด์ ธ ์คํจ๊ฐ ๋ฐ์ํ์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ค์ ํ๋์จ์ด ์ฑ๋ฅ์ด๋ ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ํด์ผ๋ง ๊ทน๋ณตํ ์ ์๋ ๋ถ๋ถ์ผ๋ก ๋ณด์ ๋๋ค. - ๋ง์ง๋ง์ผ๋ก, ๋น๋ก ์ฌ๋ฌ ์ข ๋ฅ์ ํ์ ๋ค๋ค๋ค๊ณ ๋ ํ๋ ๋ชจ๋ ํํ์ ๋๊ตฌ๋ก ์ผ๋ฐํ๋์๋ค๊ณ ๋ณด๊ธด ์ด๋ ต์ต๋๋ค. ํ ๋๋ฆฌ๊ธฐ๋ ๋น๊ต์ ๋์นญ์ ์ด๊ณ ๊ธธ์ญํ ๋ฌผ์ฒด๋ผ ๊ฐ๋ฅํ ๋ฉด๋ ์๋๋ฐ, ์ ํ ๋ค๋ฅธ ๋ชจ์์ด๋ ์ง๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋๋ ์ด ์ ๊ทผ๋ฒ์ด ์ ํจํ ์ง๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ํฅํ์๋ ๋ ๋ณต์กํ ์กฐ์ ๊ณผ์ (์: ๊ณต์ค์์ ๋์ก๋ค ๋ฐ๊ธฐ, ๋น๋์นญ ๋ฌผ์ฒด ๋ค๋ฃจ๊ธฐ ๋ฑ)์๋ ์ด๋ฒ ๊ธฐ๋ฒ์ ํ์ฅํ์ฌ ํ ์คํธํด๋ณผ ์ ์์ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก
โLessons from Learning to Spin โPensโโ ๋ ผ๋ฌธ์ ๋ก๋ด ๊ฐํํ์ต ์ฐ๊ตฌ์์ ํ๋์ ์ด์ ํ๊ฐ ๋ ๋งํ ํฅ๋ฏธ๋ก์ด ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ค์ ์ด๋ ค์ด ํ ๋๋ฆฌ๊ธฐ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์์, ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋ฅ๋ ฅ๊ณผ ํ์ค์ ์ ํํ ํผ๋๋ฐฑ์ ๊ฒฐํฉํ๋ ์ฐฝ์์ ์ธ ์ ๋ต์ ์ ๋ณด์์ต๋๋ค. ์ด๋ฅผ ํตํด ์๋์ ํ์ค ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ณต์กํ ๊ธฐ์ ์ ํ์ตํ ์ ์์์ ์ฆ๋ช ํ๊ณ , ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ฒํ๋ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฒฉ์ฐจ์ ํจ์ ์ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ์ต๋๋ค. ํนํ ๊ฐํํ์ต์ผ๋ก ๋ก๋ด ์์ ํ๊ฑฐ๊ฒ์ดํ ๊ณผ ๊ฐ์ ์ธ๊ฐ ์ ์ฌ ์ ๋ต์ด ์๋ฐ์ ์ผ๋ก ๋ฐํ๋ ์ , ๊ทธ๋ฆฌ๊ณ ์ฐ์ ํ์ ์ด๋ผ๋ ๋์ ๋ฅผ ๋ฌ์ฑํด๋๋ค๋ ์ ์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ๋ฌผ๋ก ์์ง ํด๊ฒฐํด์ผ ํ ํ๊ณ๋ค๋ ์กด์ฌํ์ง๋ง, ์ ์๋ค์ด ๊ณต์ ํ ๊ตํ๋ค์ ํฅํ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ๊ท์คํ ์ง์นจ์ด ๋ ๊ฒ์ ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก, ์ด ์ฐ๊ตฌ๋ โ์ด๋ ต๋ค๊ณ ์ฌ๊ฒจ์ง ๋ก๋ด ๊ธฐ์ ๋ ์ฌ๋ฐ๋ฅธ ํ์ต ์ ๋ต์ ํตํด ๊ทน๋ณต ๊ฐ๋ฅํ๋คโ๋ ํฌ๋ง์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ผ๋ก ํ ๋๋ฆฌ๊ธฐ๋ฅผ ๋์ด์, ๋ก๋ด์ด ๋์ฑ ๋ค์ํ ๋๊ตฌ๋ฅผ ๋ฅ์ํ๊ฒ ๋ค๋ฃจ๋ ๋ชจ์ต์ ๊ธฐ๋ํด ๋ด๋ ์ข๊ฒ ์ต๋๋ค.