Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • ๋“ค์–ด๊ฐ€๋ฉฐ
    • ๋ฐฐ๊ฒฝ ๋ฐ ๋„์ „ ๊ณผ์ œ
    • ์ ‘๊ทผ ๋ฐฉ๋ฒ•: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์˜ค๋ผํด๊ณผ ํ˜„์‹ค ์ ์‘
    • ์‹คํ—˜ ๊ฒฐ๊ณผ: ํŽœ ๋Œ๋ฆฌ๊ธฐ์˜ ๋‹ฌ์„ฑ ๋ฐ ๋ถ„์„
    • ๋ฐฐ์šด ๊ตํ›ˆ ๋ฐ ํ•œ๊ณ„
    • ๊ฒฐ๋ก 

๐Ÿ“ƒSpin pens ๋ฆฌ๋ทฐ

in-hand
rl
spin-task
Lessons from Learning to Spin โ€œPensโ€
Published

August 1, 2025

  • Paper Link
  • Project Link
  • Github Link
  1. ์ด ์—ฐ๊ตฌ๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ ๋ถ€์กฑ๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์ œ(sim-to-real) ๊ฐ„์˜ ํฐ ๊ฒฉ์ฐจ๋กœ ์ธํ•ด ์–ด๋ ค์› ๋˜ ํŽœ๊ณผ ์œ ์‚ฌํ•œ ๋ฌผ์ฒด๋ฅผ ๋กœ๋ด‡ ์†์œผ๋กœ ์—ฐ์†์ ์œผ๋กœ ํšŒ์ „์‹œํ‚ค๋Š” ์ตœ์ดˆ์˜ ํ•™์Šต ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. โš™๏ธ ์ €์ž๋“ค์€ ๋จผ์ € ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์˜ค๋ผํด ์ •์ฑ…(oracle policy)์„ ํ›ˆ๋ จํ•˜์—ฌ ๊ณ ์ถฉ์‹ค๋„ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๋กœ๋ด‡์˜ ์˜คํ”ˆ๋ฃจํ”„ ์ œ์–ด(open-loop control)์— ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ์‹ค์ œ ์„ธ๊ณ„ ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค.
  3. ๐Ÿ’ก ์ˆ˜์ง‘๋œ ์‹ค์ œ ์„ธ๊ณ„ ๊ถค์  50๊ฐœ ๋ฏธ๋งŒ์œผ๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ…(sensorimotor policy)์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํŽœ ์œ ์‚ฌ ๊ฐ์ฒด๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ํšŒ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๋ณต์žกํ•œ ์ธํ•ธ๋“œ ์กฐ์ž‘(in-hand manipulation)์—์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‚ฌ์ „ ํ›ˆ๋ จ๊ณผ ์‹ค์ œ ์„ธ๊ณ„ ๋ฏธ์„ธ ์กฐ์ •์˜ ์ค‘์š”์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Brief Review

๋ณธ ๋…ผ๋ฌธ์€ ํŽœ๊ณผ ๊ฐ™์€ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ์—์„œ ํšŒ์ „์‹œํ‚ค๋Š” ์ธํ•ธ๋“œ ์กฐ์ž‘(in-hand manipulation) ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค์€ ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์˜ ๋ถ€์กฑ๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜(Sim)๊ณผ ์‹ค์ œ(Real) ํ™˜๊ฒฝ ๊ฐ„์˜ ์ƒ๋‹นํ•œ ๊ฒฉ์ฐจ(Sim-to-Real gap)๋กœ ์ธํ•ด ์ด๋Ÿฌํ•œ ๋™์ ์ด๊ณ  ๋ณต์žกํ•œ ์ž‘์—… ์ˆ˜ํ–‰์— ์–ด๋ ค์›€์„ ๊ฒช์—ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning, RL)์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ โ€™์˜ค๋ผํด ์ •์ฑ…(oracle policy)โ€™์„ ํ›ˆ๋ จํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ๊ถค์  ๋ฐ์ดํ„ฐ์…‹์„ ์ƒ์„ฑํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๋‘ ๊ฐ€์ง€ ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ์ฒซ์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ โ€™์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ…(sensorimotor policy)โ€™์„ ์‚ฌ์ „ ํ›ˆ๋ จํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๊ณ , ๋‘˜์งธ, ์‹ค์ œ ๋กœ๋ด‡์—์„œ โ€™์˜คํ”ˆ ๋ฃจํ”„ ๊ถค์  ๋ฆฌํ”Œ๋ ˆ์ด(open-loop trajectory replay)โ€™๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์‹ค์ œ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์‹ค์ œ ํ™˜๊ฒฝ์— ์ •์ฑ…์„ ์ ์‘์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ด ์‹ค์ œ ๊ถค์ ๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ…์„ ๋ฏธ์„ธ ์กฐ์ •(fine-tune)ํ•œ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

  1. ์˜ค๋ผํด ์ •์ฑ… ํ›ˆ๋ จ (Oracle Policy Training): ๊ณ ํ’ˆ์งˆ์˜ ํ˜„์‹ค์ ์ธ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์˜ค๋ผํด ์ •์ฑ…์„ ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จํ•œ๋‹ค. ์ด ์ •์ฑ…์€ ์‹ค์ œ ์„ธ๊ณ„์—์„œ๋Š” ์ ‘๊ทผํ•  ์ˆ˜ ์—†๋Š” โ€™ํŠน๊ถŒ ์ •๋ณด(privileged information)โ€™๋ฅผ ํ™œ์šฉํ•œ๋‹ค.

    • ๊ด€์ธก๊ฐ’(\mathbf{o}_t): ๋กœ๋ด‡์˜ ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜(\mathbf{q}_t), ์ด์ „ ๊ด€์ ˆ ๋ชฉํ‘œ(\mathbf{a}_{t-1}), ์ด์ง„ ์ด‰๊ฐ ์‹ ํ˜ธ(\mathbf{c}_t), ์†๋ ์œ„์น˜(\mathbf{p}_t), ํŽœ์˜ ํ˜„์žฌ ์ž์„ธ ๋ฐ ๊ฐ์†๋„(\mathbf{w}_t), ๊ทธ๋ฆฌ๊ณ  ํŽœ์˜ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ(\in \mathbb{R}^{100 \times 3})๋ฅผ ํฌํ•จํ•œ๋‹ค. ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋Š” PointNet [58]์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ์ฝ”๋”ฉ๋œ๋‹ค. ๋˜ํ•œ, ํŠน๊ถŒ ์ •๋ณด๋กœ ํŽœ์˜ ์งˆ๋Ÿ‰(mass), ์งˆ๋Ÿ‰ ์ค‘์‹ฌ(center of mass), ๋งˆ์ฐฐ ๊ณ„์ˆ˜(coefficient of friction), ๋ฌผ์ฒด ํฌ๊ธฐ(object size)์™€ ๊ฐ™์€ ๋ฌผ๋ฆฌ์  ์†์„ฑ์ด ์ž…๋ ฅ์œผ๋กœ ํฌํ•จ๋œ๋‹ค. ๊ณผ๊ฑฐ 3๋‹จ๊ณ„์˜ ๊ด€์ ˆ ์œ„์น˜์™€ ๋ชฉํ‘œ๊ฐ€ ์Šคํƒ๋˜์–ด ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.
    • ํ–‰๋™(\mathbf{a}_t): ์ •์ฑ… ๋„คํŠธ์›Œํฌ f(\mathbf{o}_t)๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ƒ๋Œ€ ๋ชฉํ‘œ ์œ„์น˜์ด๋ฉฐ, \mathbf{a}_t = \eta f(\mathbf{o}_t) + \mathbf{a}_{t-1}์™€ ๊ฐ™์ด ์ด์ „ ๋ชฉํ‘œ์— ์Šค์ผ€์ผ๋ง๋œ ํ–‰๋™์„ ๋”ํ•˜์—ฌ ๊ณ„์‚ฐ๋œ๋‹ค. ์ด ๋ชฉํ‘œ๋Š” ์ €์ˆ˜์ค€ PD ์ œ์–ด๊ธฐ(PD controller)๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์— ํ† ํฌ๋กœ ๋ณ€ํ™˜๋˜์–ด ์ „๋‹ฌ๋œ๋‹ค.
    • Reward Function(r): ํŽœ์˜ Z์ถ•์„ ์ค‘์‹ฌ์œผ๋กœ ์—ฐ์†์ ์ธ ํšŒ์ „์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค. r = r_{rot} + \lambda_z r_z + \lambda_{energy} r_{energy} ์—ฌ๊ธฐ์„œ r_{rot}๋Š” ํŽœ์˜ ํšŒ์ „ ์†๋„๋ฅผ ๋ณด์ƒํ•˜๊ณ , \lambda_z r_z๋Š” ํŽœ์˜ ๊ฐ€์žฅ ๋†’์€ ์ ๊ณผ ๋‚ฎ์€ ์  ์‚ฌ์ด์˜ ๋†’์ด ์ฐจ์ด์— ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ํŽœ์„ ์ˆ˜ํ‰์œผ๋กœ ์œ ์ง€ํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. \lambda_{energy} r_{energy}๋Š” ๋ฌผ์ฒด์˜ ์„ ํ˜• ์†๋„, ์ดˆ๊ธฐ ๊ด€์ ˆ ์œ„์น˜๋กœ๋ถ€ํ„ฐ์˜ ํŽธ์ฐจ, ๊ธฐ๊ณ„์  ์ž‘์—…๋Ÿ‰, ์ ์šฉ๋œ ํ† ํฌ์— ๋Œ€ํ•œ ํŽ˜๋„ํ‹ฐ๋ฅผ ํฌํ•จํ•œ๋‹ค.
    • ์ดˆ๊ธฐ ์ƒํƒœ ์„ค๊ณ„: ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋‹ฌ๋ฆฌ, ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ๋ง ๋Œ€์‹  ์ธ๊ฐ„์˜ ํŽœ ๋Œ๋ฆฌ๊ธฐ์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ 6๊ฐ€์ง€ โ€™์ •ํ˜•ํ™”๋œ ์ดˆ๊ธฐ ํŒŒ์ง€(canonical initial poses)โ€™๋ฅผ ์ˆ˜๋™์œผ๋กœ ์„ค๊ณ„ํ•˜๊ณ , ์žก์Œ(noise)์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์•ˆ์ •์ ์ธ ์ดˆ๊ธฐ ์ƒํƒœ๋ฅผ ์ƒ์„ฑ ๋ฐ ํ•„ํ„ฐ๋งํ•œ๋‹ค. ์ด๋Š” ์ •์ฑ… ํ›ˆ๋ จ ์‹œ ์œ ์˜๋ฏธํ•œ ํƒ์ƒ‰์„ ์ด‰์ง„ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜๋‹ค.
    • ์ •์ฑ… ์ตœ์ ํ™”: PPO(Proximal Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ค๋ผํด ์ •์ฑ…์„ ํ›ˆ๋ จํ•œ๋‹ค. ์ •์ฑ… ๋ฐ ๊ฐ€์น˜ ๋„คํŠธ์›Œํฌ๋Š” MLP(Multi-Layer Perceptron)๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”(domain randomization)๊ฐ€ ์ ์šฉ๋œ๋‹ค.
  2. ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ… ์‚ฌ์ „ ํ›ˆ๋ จ (Sensorimotor Policy Pre-training): ์˜ค๋ผํด ์ •์ฑ…์€ ํŠน๊ถŒ ์ •๋ณด ์—†์ด๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์— ์ง์ ‘ ๋ฐฐํฌํ•  ์ˆ˜ ์—†๋‹ค. ์ด์ „ ์—ฐ๊ตฌ์˜ DAgger์™€ ๊ฐ™์€ ์ง์ ‘์ ์ธ ์ฆ๋ฅ˜(distillation) ๋ฐฉ์‹์€ ๋ณธ ์ž‘์—…์˜ ๋™์ ์ด๊ณ  ์ ‘์ด‰์ด ๋งŽ์€ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ๊ฐ„์˜ ํฐ ๋ถˆ์ผ์น˜(mismatch)๋กœ ์ธํ•ด ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š์•˜๋‹ค. ํŠนํžˆ ์ด‰๊ฐ-์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ(visuotactile feedback)์„ ์‚ฌ์šฉํ•˜๋Š” ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•ฉ๋ฆฌ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋‚˜, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋Š” ํฐ ๊ฐญ์— ์ง๋ฉดํ–ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ํ”ผ๋“œ๋ฐฑ(proprioceptive feedback)๋งŒ์„ ์‚ฌ์šฉํ•˜๋Š” ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋„ ์ˆ˜๋ ดํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์˜ค๋ผํด ์ •์ฑ… f๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ƒํƒœ์™€ ํ–‰๋™์˜ ๋ฐ์ดํ„ฐ์…‹ (\mathbf{s}_t, \mathbf{a}_t)์„ ์ˆ˜์ง‘ํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ •์ฑ…์„ ์‚ฌ์ „ ํ›ˆ๋ จํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ์ด ๋‹จ๊ณ„์˜ ๋ชฉํ‘œ๋Š” ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ…์„ ๋‹ค์–‘ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋…ธ์ถœ์‹œ์ผœ โ€™์›€์ง์ž„ ์‚ฌ์ „ ์ง€์‹(motion prior)โ€™์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ์‚ฌ์ „ ํ›ˆ๋ จ์€ ์ •์ฑ…์ด ๋ถ€์ •ํ™•ํ•œ ์—ญํ•™์œผ๋กœ ์ธํ•ด ์‹ค์ œ ์„ธ๊ณ„๋กœ ์ง์ ‘ ์ „์ด๋˜์ง€๋Š” ์•Š์ง€๋งŒ, ์‹ค์ œ ์„ธ๊ณ„ ๊ถค์ ์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •๋  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ๋‹ค. ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ •์ฑ…์€ 30๋‹จ๊ณ„์˜ ๊ด€์ ˆ ์œ„์น˜(\mathbf{q}_{t-29:t})์™€ ์ด์ „ ๊ด€์ ˆ ๋ชฉํ‘œ(\mathbf{a}_{t-30:t-1})๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์œผ๋ฉฐ, ์‹œ๊ฐ„์  ํŠธ๋žœ์Šคํฌ๋จธ(temporal transformer)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ˆœ์ฐจ์  ํŠน์ง•์„ ๋ชจ๋ธ๋งํ•˜๊ณ  MLP๋ฅผ ์ •์ฑ… ๋„คํŠธ์›Œํฌ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

  3. ์˜ค๋ผํด ๋ฆฌํ”Œ๋ ˆ์ด๋ฅผ ํ†ตํ•œ ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ… ๋ฏธ์„ธ ์กฐ์ • (Fine-tuning Sensorimotor Policy with Oracle Replay): ํฐ Sim-to-Real ๊ฐญ์„ ๊ทน๋ณตํ•˜๊ณ  ์ •์ฑ…์„ ์‹ค์ œ ์—ญํ•™์— ์ ์‘์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์‹ค์ œ ๊ถค์ ์„ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋™์ ์ธ ํŽœ ํšŒ์ „ ์ž‘์—…์€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ๊ณ ํ’ˆ์งˆ ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ๋งค์šฐ ์–ด๋ ต๋‹ค. ๋ณธ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๊ด€์ฐฐ์€ ์˜ค๋ผํด ์ •์ฑ…์ด ์ง์ ‘ ์ „์ด๋˜์ง€๋Š” ์•Š์ง€๋งŒ, ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ๋Š” ์ƒ์„ฑํ•˜๊ธฐ ์–ด๋ ค์šด ์›€์ง์ž„ ์‹œํ€€์Šค๋ฅผ ์ œ๊ณตํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด์— ์˜๊ฐ์„ ๋ฐ›์•„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ƒ์„ฑ๋œ ์˜ค๋ผํด ์ •์ฑ…์˜ ๊ถค์ ์„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ โ€™์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด๊ธฐ(open-loop controller)โ€™๋กœ ํ™œ์šฉํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์˜ค๋ผํด ์ •์ฑ… ํ›ˆ๋ จ ํ›„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ 15๊ฐœ์˜ 800 ํƒ€์ž„์Šคํ… ์ด์ƒ ์ง€์†๋˜๋Š” ๊ถค์ ์„ ์„ ํƒํ•œ๋‹ค. ์ด ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์„ธ ๊ฐ€์ง€ ํ›ˆ๋ จ ๋ฌผ์ฒด(training objects)์— ๋Œ€ํ•ด ์‹ค์ œ ๋กœ๋ด‡์— ๋ฆฌํ”Œ๋ ˆ์ดํ•œ๋‹ค. ์ด ์˜คํ”ˆ ๋ฃจํ”„ ์ œ์–ด๊ธฐ๊ฐ€ ๋ฌผ์ฒด๋ฅผ 2\pi ๋ผ๋””์•ˆ ์ด์ƒ ํšŒ์ „์‹œํ‚ค๋Š” ๋ฐ ์„ฑ๊ณตํ•˜๋ฉด, ํ•ด๋‹น ๊ถค์ ์„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹์— ์ €์žฅํ•œ๋‹ค. ์ด ๊ณผ์ •์„ ๋ฌผ์ฒด๋‹น 15๊ฐœ์˜ ๊ถค์ (์ด 45๊ฐœ)์ด ์ˆ˜์ง‘๋  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•œ๋‹ค. ์ด ๋ฐฉ์‹์œผ๋กœ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ์ •์ฑ…์˜ ๋ณด์ƒ ์ •์˜์— ๋”ฐ๋ฅธ ๋ถ€๋“œ๋Ÿฌ์šด ์›€์ง์ž„๊ณผ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•œ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ •์ฑ…์€ ์ด ์†Œ๋Ÿ‰์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ์…‹(50๊ฐœ ๋ฏธ๋งŒ์˜ ๊ถค์ )์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •๋˜์–ด ์‹ค์ œ ์—ญํ•™์— ์ ์‘ํ•œ๋‹ค.

์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ

  • ์˜ค๋ผํด ์ •์ฑ… ํ›ˆ๋ จ: ์ž˜ ์„ค๊ณ„๋œ ์ดˆ๊ธฐ ์ƒํƒœ ๋ถ„ํฌ(6๊ฐ€์ง€ ์ •ํ˜•ํ™”๋œ ํŒŒ์ง€)๊ฐ€ ์†๊ฐ€๋ฝ ๋ณดํ–‰(finger gaiting)์˜ ์ถœํ˜„์— ๊ฒฐ์ •์ ์ด๋ฉฐ, ๋‹จ์ผ ์ดˆ๊ธฐ ์ž์„ธ๋กœ๋Š” ํ•œ ๋ฒˆ์˜ ํšŒ์ „๋„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ, ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ, ๋ฌผ์ฒด ๋ฌผ๋ฆฌ์  ์†์„ฑ๊ณผ ๊ฐ™์€ ํŠน๊ถŒ ์ •๋ณด๋Š” ์ •์ฑ… ์ˆ˜๋ ด์— ํ•„์ˆ˜์ ์ด๋‹ค. Z์ถ• ๋ณด์ƒ(r_z)์€ ํŽœ์ด ์ˆ˜ํ‰์„ ์œ ์ง€ํ•˜๋ฉฐ ์•ˆ์ •์ ์œผ๋กœ ํšŒ์ „ํ•˜๋„๋ก ๋•๊ณ , ์ด๋Š” ์‹ค์ œ ๋ฆฌํ”Œ๋ ˆ์ด์˜ ์„ฑ๊ณต๋ฅ ์„ ๋†’์ธ๋‹ค. r_z ์—†์ด๋Š” ํŽœ์ด ๊ธฐ์šธ์–ด์ ธ ๋ถˆ์•ˆ์ •ํ•ด์ง„๋‹ค.
  • ์„ผ์„œ๋ชจํ„ฐ ์ •์ฑ… ๋ฐฐํฌ: ์˜ค๋ผํด ๋ฆฌํ”Œ๋ ˆ์ด ์ž์ฒด๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ํ•ฉ๋ฆฌ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ด๋‚˜, ๋ณธ ์—ฐ๊ตฌ์˜ ๋ฏธ์„ธ ์กฐ์ •๋œ ์ •์ฑ…์ด ํ›ˆ๋ จ ๋ฌผ์ฒด์—์„œ 15-30% ๋” ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ, ๋ฏธํ•™์Šต ๋ฌผ์ฒด(unseen objects)์—์„œ๋„ 10% ๋” ๊ธด ํšŒ์ „๋Ÿ‰์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋“ฑ ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ํ†ตํ•œ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ํ•™์Šต์˜ ์ด์ ์„ ๋ณด์—ฌ์ค€๋‹ค. DAgger ๋ฐฉ์‹์˜ ์ง์ ‘์ ์ธ ์ฆ๋ฅ˜๋Š” Sim-to-Real ๊ฐญ์ด ๋„ˆ๋ฌด ์ปค์„œ ํŽœ ํšŒ์ „ ์ž‘์—…์—๋Š” ์‹คํŒจํ•œ๋‹ค. ์‚ฌ์ „ ํ›ˆ๋ จ๊ณผ ๋ฏธ์„ธ ์กฐ์ •์€ ๋ชจ๋‘ ํ•„์ˆ˜์ ์ธ ๊ตฌ์„ฑ ์š”์†Œ์ด๋‹ค. ์‚ฌ์ „ ํ›ˆ๋ จ๋งŒ์œผ๋กœ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์ œ ๊ฐ„์˜ ๋ฌผ๋ฆฌ์  ๊ฐญ์œผ๋กœ ์ธํ•ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ๊ฐ€ ์ œํ•œ์ ์ด๋ฉฐ, ๋ฏธ์„ธ ์กฐ์ •๋งŒ์œผ๋กœ๋Š” ์ œํ•œ๋œ ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ๋˜์–ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋–จ์–ด์ง„๋‹ค. ์‹ค์ œ ๋ฐ๋ชจ ์ˆ˜๋ฅผ 15๊ฐœ์—์„œ 75๊ฐœ๋กœ ๋Š˜๋ ค๋„ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ๋Œ€์ฒดํ•  ์ˆ˜๋Š” ์—†์œผ๋ฉฐ, ํŠนํžˆ ๋ฏธํ•™์Šต ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์€ ์—ฌ์ „ํžˆ ๋ณธ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ๋‚ฎ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ๊ตํ›ˆ

๋ณธ ์—ฐ๊ตฌ๋Š” ํ•™์Šต ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์œผ๋กœ์„œ๋Š” ์ตœ์ดˆ๋กœ ํŽœ๊ณผ ์œ ์‚ฌํ•œ ๋ฌผ์ฒด๋ฅผ ์—ฐ์†์ ์œผ๋กœ ํšŒ์ „์‹œํ‚ค๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตํ›ˆ์„ ์–ป์—ˆ๋‹ค.

  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ›ˆ๋ จ์—์„œ๋Š” ํƒ์ƒ‰(exploration)์„ ๋•๊ธฐ ์œ„ํ•œ ์ ์ ˆํ•œ ์ดˆ๊ธฐ ๋ถ„ํฌ ์„ค๊ณ„์™€ ์ •์ฑ… ํ•™์Šต์„ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•œ ํŠน๊ถŒ ์ •๋ณด ์‚ฌ์šฉ ๋“ฑ ๊ด‘๋ฒ”์œ„ํ•œ ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ์ ‘์ด‰์ด ๋งŽ๊ณ  ๊ณ ๋„๋กœ ๋™์ ์ธ ์ž‘์—…์˜ ๊ฒฝ์šฐ, Sim-to-Real์€ ์ง์ ‘์ ์œผ๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ˆœ์ˆ˜ ๋ฌผ๋ฆฌ์  Sim-to-Real ๊ฐญ์€ ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”๋งŒ์œผ๋กœ๋Š” ๋ฉ”์šฐ๊ธฐ ์–ด๋ ต๋‹ค.
  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์€ ์ธ๊ฐ„์˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ๋Š” ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•œ ํŽœ ๋Œ๋ฆฌ๊ธฐ์™€ ๊ฐ™์€ ๋™์ ์ธ ๊ธฐ์ˆ ์„ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์œ ์šฉํ•˜๋‹ค.
  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ •์ฑ…์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ง์ ‘ ์ž‘๋™ํ•˜์ง€ ์•Š๋”๋ผ๋„, ์†Œ์ˆ˜์˜ ์„ฑ๊ณต์ ์ธ ์‹ค์ œ ๊ถค์ ๋งŒ์œผ๋กœ๋„ ์‹ค์ œ ์—ญํ•™์— ์ ์‘ํ•˜๋„๋ก ํšจ๊ณผ์ ์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •๋  ์ˆ˜ ์žˆ๋‹ค.

ํ•œ๊ณ„์ : ํ˜„์žฌ ์‹œ์Šคํ…œ์€ Z์ถ•์„ ์ค‘์‹ฌ์œผ๋กœ ํ•œ ํšŒ์ „๋งŒ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ฌผ์ฒด๊ฐ€ ์•ˆ์ •์ ์ธ ํŒŒ์ง€ ์œ„์น˜์— ๋†“์—ฌ์žˆ์Œ์„ ๊ฐ€์ •ํ•œ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค์ถ• ํšŒ์ „์œผ๋กœ์˜ ํ™•์žฅ๊ณผ ๊ณ ๊ธ‰ ํŒŒ์ง€(grasping) ๊ธฐ์ˆ ์˜ ํ†ตํ•ฉ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.


Detail Review

๋กœ๋ด‡์ด ํŽœ์„ ๋Œ๋ฆฌ๋Š” ๋ฒ•์„ ๋ฐฐ์šฐ๋‹ค โ€“ โ€œLessons from Learning to Spin โ€˜Pensโ€™โ€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋“ค์–ด๊ฐ€๋ฉฐ

์‚ฌ๋žŒ๋“ค์€ ์†๊ฐ€๋ฝ์œผ๋กœ ํŽœ์„ ๋Œ๋ฆฌ๋Š” ๋ฌ˜๊ธฐ๋ฅผ ์ข…์ข… ๋ถ€๋ฆฌ๊ณค ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฒ‰๋ณด๊ธฐ์—” ๋‹จ์ˆœํ•ด ๋ณด์—ฌ๋„, ๋กœ๋ด‡ ์†์—๊ฒŒ๋Š” ์ƒ๋‹นํžˆ ์–ด๋ ค์šด ์ •๊ตํ•œ ์† ๋‚ด ์กฐ์ž‘(in-hand manipulation) ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ํŽœ๊ณผ ๊ฐ™์ด ๊ธธ์ญ‰ํ•œ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ์—์„œ ์ž์œ ๋กญ๊ฒŒ ํšŒ์ „์‹œํ‚ค๋Š” ๋Šฅ๋ ฅ์€ ์žฌ๋ฏธ ์ด์ƒ์˜ ์˜๋ฏธ๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋ง์น˜๋‚˜ ๋“œ๋ผ์ด๋ฒ„์ฒ˜๋Ÿผ ๊ธธ์ญ‰ํ•œ ๋„๊ตฌ๋“ค์„ ๋‹ค๋ฃจ๋Š” ๋™์ž‘๊ณผ ์œ ์‚ฌํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋กœ๋ด‡์ด ์ด๋Ÿฌํ•œ ํŽœ ๋Œ๋ฆฌ๊ธฐ๋ฅผ ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ๋‹ค์–‘ํ•œ ๋„๊ตฌ ์‚ฌ์šฉ์˜ ๊ธฐ์ดˆ ๊ธฐ์ˆ ์„ ํ™•๋ณดํ•˜๋Š” ์…ˆ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ง€๊ธˆ๊นŒ์ง€ ๊ฐ•ํ™”ํ•™์Šต ๋“ฑ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์ด๋Ÿฌํ•œ ์ž‘์—…์„ ๋‹ฌ์„ฑํ•˜๊ธฐ๋ž€ ๋งค์šฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ๋ฌด์—‡๋ณด๋‹ค ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์‹œ๋ฒ”์„ ๋ณด์—ฌ์ฃผ๊ธฐ๋„ ํž˜๋“ค๊ณ , ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ๋กœ๋ด‡ ์‚ฌ์ด์˜ ๋ฌผ๋ฆฌ ์ฐจ์ด(์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฒฉ์ฐจ)๋„ ์ปค์„œ, ๊ฐ€์ƒํ›ˆ๋ จ ์„ฑ๊ณผ๋ฅผ ํ˜„์‹ค์— ์˜ฎ๊ธฐ๊ธฐ ์–ด๋ ค์› ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ๋ฆฌ๋ทฐ์—์„œ๋Š” 2024๋…„ CoRL(๋กœ๋ด‡ํ•™์Šต ์ฝ˜ํผ๋Ÿฐ์Šค)์— ๋ฐœํ‘œ๋œ โ€œLessons from Learning to Spin โ€˜Pensโ€™โ€ ๋…ผ๋ฌธ์„ ๊นŠ์ด ์žˆ๊ฒŒ ์‚ดํŽด๋ณด๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๋กœ๋ด‡ ์†์ด ํŽœ๊ณผ ์œ ์‚ฌํ•œ ๋ฌผ์ฒด๋ฅผ ์†๊ฐ€๋ฝ ์‚ฌ์ด์—์„œ ์—ฌ๋Ÿฌ ๋ฐ”ํ€ด ํšŒ์ „์‹œํ‚ค๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ๊ณ , ๊ทธ ๊ณผ์ •์—์„œ ์–ป์€ ํ†ต์ฐฐ๊ณผ ํ•œ๊ณ„๋ฅผ ๊ณต์œ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ํฌ์ŠคํŠธ์—์„œ๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๋‚ด์šฉ์„ ์š”์•ฝํ•˜๊ณ , ์‚ฌ์šฉ๋œ ๊ธฐ๋ฒ•๊ณผ ๋ชจ๋ธ์˜ ๊ธฐ์ˆ ์  ์š”์†Œ๋ฅผ ์„ค๋ช…ํ•˜๋ฉฐ, ์–ป์–ด์ง„ ๊ตํ›ˆ๊ณผ ๋‚จ์€ ๊ณผ์ œ๋ฅผ ํ•จ๊ป˜ ๋ถ„์„ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฐฐ๊ฒฝ ๋ฐ ๋„์ „ ๊ณผ์ œ

๋กœ๋ด‡์˜ ์† ๋‚ด ์กฐ์ž‘ ๊ธฐ์ˆ ์€ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฌ์„ธํ•จ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํ•„์ˆ˜์ ์ธ ์—ฐ๊ตฌ ์ฃผ์ œ์ž…๋‹ˆ๋‹ค. ๊ณผ๊ฑฐ์—๋„ ๋กœ๋ด‡ ์†์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ๋Œ๋ฆฌ๊ฑฐ๋‚˜ ์žฌ๋ฐฐ์—ดํ•˜๋Š” ์‹œ๋„๊ฐ€ ์—†์—ˆ๋˜ ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ, ํŽœ ๋Œ๋ฆฌ๊ธฐ์ฒ˜๋Ÿผ ์—ฐ์†์ ์ด๊ณ  ์—ญ๋™์ ์ธ ํšŒ์ „ ๋™์ž‘์€ ํŠนํžˆ ๋‚œ์ œ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ํ•™์Šต ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•๋“ค์ด ์ด ๋ฌธ์ œ์— ๋ถ€๋”ชํ˜€์˜จ ์ฃผ๋œ ์ด์œ ๋Š” ๋‘ ๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. ์ฒซ์งธ, ์ด๋Ÿฌํ•œ ๊ณ ๋‚œ๋„ ์ž‘์—…์— ๋Œ€ํ•œ ๊ณ ํ’ˆ์งˆ ์‹œๆผ”(๋ฐ๋ชฌ์ŠคํŠธ๋ ˆ์ด์…˜) ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๊ธฐ๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์˜ ์„ฌ์„ธํ•œ ์›€์ง์ž„์„ ๋ชจ๋ฐฉํ•˜๊ฑฐ๋‚˜ ์›๊ฒฉ ์กฐ์ข…(ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜)์„ ํ†ตํ•ด ๋กœ๋ด‡์— ์‹œ๋ฒ”์„ ๊ฐ€๋ฅด์น˜๋ ค ํ•ด๋„, ํŽœ ๋Œ๋ฆฌ๊ธฐ์˜ ๋ณต์žกํ•œ ๋™์ž‘์„ ์ •ํ™•ํžˆ ์žฌํ˜„ํ•˜๊ธฐ๊ฐ€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„์˜ ์ฐจ์ด(sim-to-real gap)๊ฐ€ ๋งค์šฐ ํฌ๋‹ค๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ์ด ํŽœ์„ ๋Œ๋ฆฌ๋Š” ๋ฐ ์„ฑ๊ณตํ•˜๋”๋ผ๋„, ์‹ค์ œ ๋กœ๋ด‡์— ๋™์ผํ•œ ์ •์ฑ…(policy)์„ ์ด์‹ํ•˜๋ฉด ๋งˆ์ฐฐ ๊ณ„์ˆ˜, ๋ฌผ์ฒด์˜ ๋ฏธ์„ธํ•œ ๋ฌผ๋ฆฌ ํŠน์„ฑ ์ฐจ์ด, ์„ผ์„œ ์˜ค์ฐจ ๋“ฑ์œผ๋กœ ์ธํ•ด ํŽœ์„ ๊ธˆ์„ธ ๋–จ์–ด๋œจ๋ฆฌ๊ธฐ ์ผ์‘ค์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ํŽœ ๋Œ๋ฆฌ๊ธฐ์ฒ˜๋Ÿผ ์ ‘์ด‰์ด ์—ฐ์†์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๊ณ  ๋งค์šฐ ์—ญ๋™์ ์ธ ์ž‘์—…์˜ ๊ฒฝ์šฐ ์ด ๊ฒฉ์ฐจ๋Š” ๋”์šฑ ์‹ฌํ•ด์ ธ์„œ, ๋‹จ์ˆœํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋“ฑ์œผ๋กœ๋Š” ๋ฉ”์šฐ๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์ด ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์˜ ๊ตํ›ˆ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌํŒ€ ์—ญ์‹œ ์ดˆ๊ธฐ์— ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ๋ฐ”๋กœ ํ˜„์‹ค ๋กœ๋ด‡์— ์ด์‹ํ•ด ๋ณด๊ฑฐ๋‚˜, ํ•˜๋“œ์›จ์–ด ๊ตฌ์กฐ์™€ ๋ฌผ์ฒด ์žฌ์งˆ์„ ๋ฐ”๊ฟ”๋ณด๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ์‹œ๋„๋ฅผ ํ–ˆ์ง€๋งŒ ๋ฒˆ๋ฒˆ์ด ์‹คํŒจ๋ฅผ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ํŽœ์€ ์ด๋‚ด ์†๊ฐ€๋ฝ ์‚ฌ์ด์—์„œ ๋ฏธ๋„๋Ÿฌ์ง€๊ฑฐ๋‚˜ ํŠ•๊ฒจ ๋‚˜๊ฐ€ ๋–จ์–ด์กŒ๊ณ , ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ํ˜„์‹ค ์‚ฌ์ด์˜ ๋ถ„ํฌ ์ฐจ์ด(distribution shift)๋ฅผ ์‹ค๊ฐํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋Ÿฐ ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ’€ ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€œ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ํž˜์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜๋ฉด์„œ๋„, ์ตœ์†Œํ•œ์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ”์šฐ๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ•™์Šต ์ „๋žตโ€์— ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ์„น์…˜์—์„œ๋Š” ์ €์ž๋“ค์ด ์ œ์•ˆํ•œ ๋…์ฐฝ์ ์ธ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์ ‘๊ทผ ๋ฐฉ๋ฒ•: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์˜ค๋ผํด๊ณผ ํ˜„์‹ค ์ ์‘

โ€œLessons from Learning to Spin โ€˜Pensโ€™โ€ ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ณ ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ ํฌ๊ฒŒ ์„ธ ๋‹จ๊ณ„๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ์˜ ์˜ค๋ผํด ์ •์ฑ… ํ•™์Šต โ€“ ์šฐ์„  ๊ฐ€์ƒ ํ™˜๊ฒฝ์—์„œ ํŽœ ๋Œ๋ฆฌ๊ธฐ ๋ฌธ์ œ๋ฅผ ์ถฉ๋ถ„ํžˆ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ์˜ค๋ผํด ์ •์ฑ…(oracle policy)์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์˜ค๋ผํด ์ •์ฑ…์ด๋ž€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๊ฐ€ ์ œ๊ณตํ•˜๋Š” ํŠน๊ถŒ ์ •๋ณด(privileged information)๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ์ „์ง€์ „๋Šฅํ•œ ์ •์ฑ…์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‹ค์ œ ๋กœ๋ด‡์€ ์นด๋ฉ”๋ผ๋‚˜ ์ด‰๊ฐ ์„ผ์„œ๋กœ๋งŒ ํŽœ์˜ ์ƒํƒœ๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•˜์ง€๋งŒ, ์˜ค๋ผํด ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด ์ œ๊ณตํ•˜๋Š” ํŽœ์˜ ์ •ํ™•ํ•œ ์œ„์น˜์™€ ์†๋„ ๋“ฑ ์™„์ „ํ•œ ์ƒํƒœ ์ •๋ณด๋ฅผ ๊ด€์ธก์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ถ”๊ฐ€ ์ •๋ณด ๋•๋ถ„์— ๊ฐ•ํ™”ํ•™์Šต ์—์ด์ „ํŠธ๋Š” ํƒ์ƒ‰์„ ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰ํ•˜๋ฉฐ ์„ฑ๊ณต ๊ถค์ ๋“ค์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ค๋ผํด ์ •์ฑ…์€ ๊ฒฐ๊ตญ ํŽœ์„ ์—ฐ์† ํšŒ์ „์‹œํ‚ค๋Š” ํ›Œ๋ฅญํ•œ ์ „๋žต์„ ์ตํžˆ๊ฒŒ ๋˜์—ˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ •๋ฐ€ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ถค์  ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ค์ˆ˜ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, ์ด ๋‹จ๊ณ„์—์„œ ์ƒ์„ฑ๋œ ๊ถค์ ๋“ค์€ ํŽœ์„ ๋Œ๋ฆฌ๋Š” ์†๊ฐ€๋ฝ ๋™์ž‘์˜ ๊ณ ํ•ด์ƒ๋„ ์‹œ๋‚˜๋ฆฌ์˜ค๋“ค์„ ๋‹ด๊ณ  ์žˆ์–ด ์ดํ›„ ๊ณผ์ •์— ํ•ต์‹ฌ์ ์ธ ๋ฐ‘๊ฑฐ๋ฆ„์ด ๋ฉ๋‹ˆ๋‹ค.

  2. ํ•™์ƒ ์ •์ฑ… ํ•™์Šต ๋ฐ ์—ด๋ฆฐ ๋ฃจํ”„ ์‹คํ–‰ โ€“ ๋‹ค์Œ์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ˆ˜์ง‘๋œ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•™์ƒ(sensorimotor) ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ํ•™์ƒ ์ •์ฑ…์€ ์‹ค์ œ ๋กœ๋ด‡์— ํˆฌ์ž…๋  ์„ผ์„œ ๊ธฐ๋ฐ˜ ์ •์ฑ…์œผ๋กœ, ์˜ค๋ผํด๊ณผ ๋‹ฌ๋ฆฌ ํŠน๊ถŒ ์ •๋ณด ์—†์ด ๋กœ๋ด‡์ด ์‹ค์ œ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์„ผ์„œ ์‹ ํ˜ธ๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜๋„๋ก ์„ค๊ณ„๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์˜ค๋ผํด์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ถค์ ์„ ๋ชจ๋ฐฉ ํ•™์Šต(behavior cloning)์ด๋‚˜ ์ง€๋„ํ•™์Šต์„ ํ†ตํ•ด ํ•™์ƒ ์ •์ฑ…์ด ๋”ฐ๋ผํ•˜๋„๋ก ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ดˆ๊ธฐํ™”๋œ ํ•™์ƒ ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์—์„œ๋Š” ํŽœ์„ ๋Œ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ๊ณ  ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ํ˜„์‹ค ํ™˜๊ฒฝ์—์„œ ๋ฐ”๋กœ ์“ธ ์ˆ˜ ์žˆ์„ ์ •๋„๋กœ ๊ฒฌ๊ณ ํ•˜์ง€๋Š” ์•Š์€ ์ƒํƒœ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฐ๊ตฌํŒ€์€ ํ•œ ๊ฑธ์Œ ๋” ๋‚˜์•„๊ฐ€, ์ด ํ•™์ƒ ์ •์ฑ…์„ ํ˜„์‹ค ๋กœ๋ด‡์— ์ ์šฉํ•˜์—ฌ ์—ด๋ฆฐ ๋ฃจํ”„(open-loop)๋กœ ์‹คํ–‰ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์—ด๋ฆฐ ๋ฃจํ”„ ์‹คํ–‰์ด๋ž€, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋…นํ™”ํ•œ ๋™์ž‘ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ๊ทธ๋Œ€๋กœ ๋กœ๋ด‡์— ์žฌ์ƒํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์‹คํ–‰ ๋„์ค‘์— ๋ณ„๋„์˜ ํ”ผ๋“œ๋ฐฑ ๋ณด์ • ์—†์ด ๊ณ ์ •๋œ ์•ก์…˜ ๊ถค์ ์„ ๋”ฐ๋ผ๊ฐ€๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ์˜ค๋ผํด ์ •์ฑ…์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ํ•™์ƒ ์ •์ฑ…์€ ์‹ค์ œ ๋กœ๋ด‡์—์„œ๋„ ์ผ์ • ์ˆ˜์ค€์˜ ํŽœ ํšŒ์ „์„ ๋งŒ๋“ค์–ด๋ƒˆ๊ณ , ํŠนํžˆ ๊ทธ ์ค‘ ์ผ๋ถ€ ์‹œ๋„์—์„œ๋Š” ํŽœ์„ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ํšŒ์ „์‹œํ‚ค๋Š” ์„ฑ๊ณต ์‚ฌ๋ก€๋“ค๋„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด๋Ÿฌํ•œ ์„ฑ๊ณต์ ์ธ ํ˜„์‹ค ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€๋กœ ์ˆ˜์ง‘ํ•˜์—ฌ ๋‹ค์Œ ๋‹จ๊ณ„์— ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

  3. ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ์ •์ฑ… ๋ฏธ์„ธ์กฐ์ • โ€“ ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ๋Š”, ๋ฐฉ๊ธˆ ํ™•๋ณดํ•œ ํ˜„์‹ค ์„ธ๊ณ„์˜ ์„ฑ๊ณต ๊ถค์  ๋ฐ์ดํ„ฐ(50๊ฐœ ๋ฏธ๋งŒ์˜ ๋น„๊ต์  ์ ์€ ์ˆ˜๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค)๋ฅผ ๊ฐ€์ง€๊ณ  ํ•™์ƒ ์ •์ฑ…์„ ํŒŒ์ธํŠœ๋‹(fine-tuning)ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ผ์ข…์˜ ๋„๋ฉ”์ธ ์ ์‘ ๋‹จ๊ณ„๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ „์šฉ ์ •์ฑ…์ด ํ˜„์‹ค์˜ ๋ฌผ๋ฆฌ ๋ฒ•์น™๊ณผ ์žก์Œ์— ์ ์‘ํ•˜๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ•™์ƒ ์ •์ฑ…์„ ํ˜„์‹ค ๊ถค์  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋‹ค์‹œ ํ•œ ๋ฒˆ ๋ชจ๋ฐฉ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ํ•„์š”์— ๋”ฐ๋ผ ์ถ”๊ฐ€ ๊ฐ•ํ™”ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์—ฌ ํ˜„์‹ค ๋ฌผ๋ฆฌ์— ๋งž๊ฒŒ ๋ณด์ •ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ตœ์ข… ์ •์ฑ…์€ ๋น„๋กœ์†Œ ํ˜„์‹ค ํ™˜๊ฒฝ์—์„œ ํŽœ์„ ์•ˆ์ •์ ์œผ๋กœ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋‹จ 50๊ฐœ ๋ฏธ๋งŒ์˜ ํ˜„์‹ค ๊ถค์ ๋งŒ์œผ๋กœ๋„, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์†์—์„œ๋งŒ ํ†ตํ•˜๋˜ ์ •์ฑ…์ด ํ˜„์‹ค์˜ ์˜ค์ฐจ์™€ ๋งˆ์ฐฐ์„ ๊ฒฌ๋””๋ฉฐ ํŽœ์„ ๋Œ๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๊ฒƒ์ด์ฃ . ๋”์šฑ์ด ์ด ์ตœ์ข… ์ •์ฑ…์€ ๋ฌผ๋ฆฌ์  ์†์„ฑ์ด ์ œ๊ฐ๊ฐ์ธ 10์—ฌ ์ข…์˜ ํŽœ ๋ชจ์–‘ ๋„๊ตฌ๋“ค์— ๋Œ€ํ•ด์„œ๋„ ๋ชจ๋‘ ์ˆ˜ ์ฐจ๋ก€ ์—ฐ์† ํšŒ์ „์„ ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌํ˜„ํ•ด๋ƒˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1: ๋ณธ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ๋žต๋„. ์™ผ์ชฝ์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์˜ค๋ผํด ์ •์ฑ…์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด ๋ฐ์ดํ„ฐ๋กœ ํ•™์ƒ ์ •์ฑ…์„ ์‚ฌ์ „ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ ๊ทธ ํ•™์ƒ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์—ด๋ฆฐ ๋ฃจํ”„ ์ œ์–ด๋กœ ์‹คํ–‰ํ•˜์—ฌ ์„ฑ๊ณต ์‚ฌ๋ก€ ํ˜„์‹ค ๊ถค์ ์„ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ํ•ด๋‹น ํ˜„์‹ค ๊ถค์ ์œผ๋กœ ํ•™์ƒ ์ •์ฑ…์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ํ˜„์‹ค ํ™˜๊ฒฝ์— ์ ์‘๋œ ์ตœ์ข… ์ •์ฑ…์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ํƒ์ƒ‰ ๋Šฅ๋ ฅ๊ณผ ํ˜„์‹ค ๋ฐ์ดํ„ฐ์˜ ์ •ํ™•์„ฑ์„ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์ˆœ์ „ํžˆ ์ธ๊ฐ„ ์‹œ๋ฒ”์ด๋‚˜ ์ˆœ์ „ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ํŽœ ๋Œ๋ฆฌ๊ธฐ ๊ณผ์ œ๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ: ํŽœ ๋Œ๋ฆฌ๊ธฐ์˜ ๋‹ฌ์„ฑ ๋ฐ ๋ถ„์„

๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ์–ป์€ ์ตœ์ข… ๋กœ๋ด‡ ์ •์ฑ…์€ ์‹ค์ œ๋กœ ์–ด๋А ์ •๋„ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์„๊นŒ์š”? ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, ๋ถˆ๊ณผ 50๊ฐœ ๋ฏธ๋งŒ์˜ ํ˜„์‹ค ์„ฑ๊ณต ์‚ฌ๋ก€ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•œ ์ •์ฑ…์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋กœ๋ด‡ ์†์€ ๋‹ค์–‘ํ•œ ํŽœ ๋ชจ์–‘์˜ ๋ฌผ์ฒด๋ฅผ ์†๊ฐ€๋ฝ ์‚ฌ์ด์—์„œ ์—ฌ๋Ÿฌ ๋ฐ”ํ€ด ์—ฐ์†์œผ๋กœ ํšŒ์ „์‹œํ‚ค๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ํ”Œ๋ผ์Šคํ‹ฑ ๋ณผํŽœ, ๋งˆ์ปค, ๋‚˜๋ฌด ๋ง‰๋Œ€ ๋“ฑ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ(๋ฌด๊ฒŒ, ๋งˆ์ฐฐ, ๊ท ํ˜•)์ด ์„œ๋กœ ๋‹ค๋ฅธ 10์—ฌ ๊ฐœ์˜ ๋ฌผ์ฒด๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์—ˆ๋Š”๋ฐ, ์ •์ฑ…์€ ์ด๋“ค ํŽœ-์œ ์‚ฌ ๋ฌผ์ฒด(pen-like objects) ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์•ˆ์ •์ ์œผ๋กœ ํšŒ์ „ ๋™์ž‘์„ ๊ตฌ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ํ•˜๋‚˜์˜ ๋ฌผ์ฒด์— ํŠนํ™”๋œ ์†”๋ฃจ์…˜์ด ์•„๋‹ˆ๋ผ, ์ผ๋ฐ˜ํ™”๋œ ํŽœ ๋Œ๋ฆฌ๊ธฐ ๊ธฐ์ˆ ์„ ์Šต๋“ํ–ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋˜ํ•œ ํฅ๋ฏธ๋กœ์šด ์ ์€, ๊ฐ•ํ™”ํ•™์Šต ๋‹จ๊ณ„์—์„œ์˜ ์„ค๊ณ„ ์„ ํƒ์ด ์‹ค์ œ ๊ฒฐ๊ณผ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์ณค๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์˜ ์˜ค๋ผํด ์ •์ฑ…์„ ํ•™์Šตํ•  ๋•Œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ณด์ƒ ์„ค๊ณ„์™€ ์ œ์•ฝ ์กฐ๊ฑด์„ ์‹คํ—˜ํ–ˆ๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ์„ฑ๊ณต์ ์ธ ํŽœ ๋Œ๋ฆฌ๊ธฐ์—๋Š” ์–ด๋–ค ์š”์†Œ๊ฐ€ ์ค‘์š”ํ•œ์ง€๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜ค๋ผํด ์ •์ฑ…์„ ํ›ˆ๋ จํ•  ๋•Œ ์†๊ฐ€๋ฝ ์ž์„ธ๋ฅผ ํ•˜๋‚˜์˜ ๊ณ ์ •๋œ ํฌ์ฆˆ๋กœ๋งŒ ์‚ฌ์šฉํ•˜๋„๋ก ์ œํ•œํ•œ ๊ฒฝ์šฐ(์ผ์ข…์˜ ๋‹จ์ผ ์ž์„ธ ์ œ์•ฝ ์‹คํ—˜)์—๋Š” ์—์ด์ „ํŠธ๊ฐ€ ํŽœ์„ ๊ธธ๊ฒŒ ๋Œ๋ฆฌ์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ๋Š” ์†๊ฐ€๋ฝ์˜ ์œ„์น˜๋ฅผ ๋ฐ”๊พธ๋Š” ํ•‘๊ฑฐ๊ฒŒ์ดํŒ…(finger gaiting)์ด ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์•„, ํƒ์ƒ‰์ด ๋น„ํšจ์œจ์ ์ด๊ณ  ๊ฒฐ๊ตญ ์—ฐ์† ํšŒ์ „์— ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์šฐ๋ฆฌ ๋ฐฉ๋ฒ•(์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•)์—์„œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ํ•™์Šต์„ ํ†ตํ•ด ์ž๋ฐœ์ ์œผ๋กœ ์†๊ฐ€๋ฝ์„ ๋Š์–ด ์›€์ง์ด๋ฉฐ(pingergaiting) ํŽœ์„ ๊ณ„์† ํšŒ์ „์‹œํ‚ค๋Š” ๋™์ž‘์„ ํ„ฐ๋“ํ–ˆ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ์ง€์†์ ์ธ(spinning) ์—ฐ์† ํšŒ์ „์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ํ•‘๊ฑฐ๊ฒŒ์ดํŒ…์€ ๋งˆ์น˜ ์‚ฌ๋žŒ์ด ์†๊ฐ€๋ฝ์„ ๋ฒˆ๊ฐˆ์•„ ๊ฐ€๋ฉฐ ๋ฌผ์ฒด๋ฅผ ์˜ฎ๊ฒจ ์ฅ๋Š” ๋™์ž‘์— ๋น„์œ ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๋กœ๋ด‡ ์ •์ฑ…์ด ์ด๋Ÿฐ ํ–‰๋™์„ ์Šค์Šค๋กœ ํ•™์Šตํ–ˆ๋‹ค๋Š” ๊ฒƒ์€ ๋งค์šฐ ๊ณ ๋ฌด์ ์ธ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ๋ถ„์„ ์š”์†Œ๋กœ๋Š” Reward Function์˜ ๊ตฌ์„ฑ์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌํŒ€์€ ํŽœ์„ ๋Œ๋ฆฌ๋Š” ๊ฐ•ํ™”ํ•™์Šต ๋ณด์ƒ์— ํŠน๋ณ„ํ•œ ํ•ญ๋ชฉ์„ ํ•˜๋‚˜ ์ถ”๊ฐ€ํ–ˆ๋Š”๋ฐ, ๋ฐ”๋กœ โ€œZ-์ถ• ๋ณด์ƒ(Z-reward)โ€์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํŽœ์ด ํšŒ์ „ ์ค‘์— ๊ธฐ์šธ์–ด์ง€์ง€ ์•Š๊ณ , ์ผ์ • ์ˆ˜์ค€ ์ด์ƒ ๋†’์ด๋ฅผ ์œ ์ง€ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๋ณด์ƒ์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ์ด ๋ณด์ƒ์˜ ์ค‘์š”์„ฑ์€, Z-๋ณด์ƒ์„ ์ œ์™ธํ•œ ์‹คํ—˜์—์„œ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ์‹คํ—˜์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์—์„œ๋Š” ํŽœ์„ ๋Œ๋ฆด ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ, ์ผ์ • ์‹œ๊ฐ„ ์ดํ›„ ํŽœ์ด ๊ธฐ์šธ์–ด์ง€๋ฉด์„œ ๊ฒฐ๊ตญ ์†๊ฐ€๋ฝ ์‚ฌ์ด์—์„œ ๋น ์ ธ๋ฒ„๋ฆฌ๋Š” ๋ฌธ์ œ๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์šธ์–ด์ง(tilt) ํ˜„์ƒ์€ ํŠนํžˆ ํ˜„์‹ค ๋กœ๋ด‡์—์„œ ๋” ์น˜๋ช…์ ์ด์–ด์„œ, Z-๋ณด์ƒ์ด ์—†๋Š” ์ •์ฑ…์€ ์‹ค์ œ ํ…Œ์ŠคํŠธ ์‹œ ํŽœ์„ ์‰ฝ๊ฒŒ ๋–จ์–ด๋œจ๋ ธ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํŽœ์„ ์•ˆ์ •์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฐ”ํ€ด ๋Œ๋ฆฌ๋ ค๋ฉด, ํšŒ์ „ ์†๋„๋‚˜ ํšŸ์ˆ˜๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž์„ธ ์•ˆ์ •์„ฑ(orientation stability) ์—ญ์‹œ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ตํ›ˆ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ์ง„์€ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๋น„๊ต ์‹คํ—˜(๋ฒ ์ด์Šค๋ผ์ธ)๋„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ๋ฐ”๋กœ ์‚ฌ์šฉ(์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‚ฌ์ „ํ•™์Šต only)ํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์‹œํ—˜ํ–ˆ๋Š”๋ฐ, ์˜ˆ์ƒ๋Œ€๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ๋ฌผ๋ฆฌ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ•˜์ง€ ๋ชปํ•ด ํŽœ ๋Œ๋ฆฌ๊ธฐ์— ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ถค์ ์„ ์—ด๋ฆฐ ๋ฃจํ”„๋กœ๋งŒ ์žฌ์ƒํ•˜๋Š” ๋‹จ์ˆœ ๋ชจ๋ฐฉ ๋ฐฉ์‹์˜ ๊ฒฝ์šฐ, ๋™์ž‘ ์ž์ฒด๋Š” ๊ทธ๋Ÿด๋“ฏํ•˜์ง€๋งŒ ์„ผ์„œ ํ”ผ๋“œ๋ฐฑ์ด ์ „ํ˜€ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ž‘์€ ๋ถˆํ™•์‹ค์„ฑ์—๋„ ๊ธˆ๋ฐฉ ์‹คํŒจ๋กœ ์ด์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ด๋Ÿฌํ•œ ์˜คํ”ˆ ๋ฃจํ”„ ์žฌ์ƒ์€ ์žฌํ™œ์šฉ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ผํšŒ์„ฑ ๋ฌ˜๊ธฐ์— ๊ทธ์น˜๊ณ  ์ผ๋ฐ˜ํ™”๋œ ์ •์ฑ…์ด ๋  ์ˆ˜ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋น„์ „(distillation) ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋„ ๊ฒ€ํ† ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ์•„๋งˆ๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹œ๊ฐ์  ๊ด€์ฐฐ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์„ distillํ•˜์—ฌ ํ˜„์‹ค์— ์ ์šฉํ•˜๋ ค ํ•œ ์‹œ๋„์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ฒฝ์šฐ ๋ฌผ์ฒด(ํŽœ)๊ฐ€ ํšŒ์ „ํ•˜๋ฉฐ ์›€์ง์ผ ๋•Œ ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ์ธ์‹์— ์˜ค์ฐจ๊ฐ€ ์ปค์ง€๊ณ , ํ›ˆ๋ จ ๋ถ„ํฌ์—์„œ ๋ฒ—์–ด๋‚œ(OOD) ์‹œ๊ฐ ์ •๋ณด๊ฐ€ ์ž…๋ ฅ๋˜๋ฉด์„œ ์ •์ฑ… ์„ฑ๋Šฅ์ด ๋ถˆ์•ˆ์ •ํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ฌผ์ฒด๊ฐ€ ํ™”๋ฉด์—์„œ ํ”๋“ค๋ ค ๋ณด์ด๋Š”(oscillates) ์ƒํ™ฉ์—์„œ ๋น„์ „ ์ •์ฑ…์€ ํฐ ์—๋Ÿฌ๋ฅผ ์ผ์œผ์ผฐ๊ณ , ํŽœ ๋Œ๋ฆฌ๊ธฐ๋ฅผ ์œ ์ง€ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋น„๊ต ์‹คํ—˜๋“ค์€ ๋ณธ ๋…ผ๋ฌธ์˜ ํ˜ผํ•ฉ ์ ‘๊ทผ๋ฒ•์ด ์™œ ํ•„์š”ํ•œ์ง€ ์ž˜ ๋’ท๋ฐ›์นจํ•ด์ค๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜์ง€๋งŒ, ๊ทธ๋ ‡๋‹ค๊ณ  ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๊ธฐ์—” ํƒ์ƒ‰์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ์ด ๋”œ๋ ˆ๋งˆ ์ƒํ™ฉ์—์„œ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์„ฑ๊ณต ๊ฒฝํ—˜์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜๊ณ  ์ตœ์†Œํ•œ์˜ ํ˜„์‹ค ๊ฒฝํ—˜์œผ๋กœ ๋ณด์™„ํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ด๋ผ๋Š” ์ ์„ ์ž…์ฆํ•œ ์…ˆ์ž…๋‹ˆ๋‹ค.

๋ฐฐ์šด ๊ตํ›ˆ ๋ฐ ํ•œ๊ณ„

์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ์–ป์€ ๊ตํ›ˆ(lessons)๋“ค์€ ํŽœ ๋Œ๋ฆฌ๊ธฐ ๊ณผ์ œ์—๋งŒ ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ , ์ผ๋ฐ˜์ ์ธ ๋กœ๋ด‡ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™œ์šฉ์— ์‹œ์‚ฌํ•˜๋Š” ๋ฐ”๊ฐ€ ํฝ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋…ผ๋ฌธ์—์„œ ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ๋А๋‚€ ์ฃผ์š” ๊ตํ›ˆ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๋ฆฌํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ํƒ์ƒ‰์„ ์œ„ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ค๊ณ„์˜ ์ค‘์š”์„ฑ: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฐ•ํ™”ํ•™์Šต์„ ์„ฑ๊ณต์‹œํ‚ค๋ ค๋ฉด ํƒ์ƒ‰์ด ์ถฉ๋ถ„ํžˆ ์ด๋ฃจ์–ด์ง€๋„๋ก ํ™˜๊ฒฝ๊ณผ ๋ณด์ƒ์„ ๊ผผ๊ผผํžˆ ์„ค๊ณ„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ์ƒํƒœ ๋ถ„ํฌ๋ฅผ ์ ์ ˆํžˆ ๋‹ค์–‘ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ์—์ด์ „ํŠธ๊ฐ€ ์—ฌ๋Ÿฌ ์ƒํ™ฉ์„ ์ ‘ํ•˜๊ฒŒ ํ•˜๊ณ , ํ•™์Šต์„ ๋•๋Š” ํŠน๊ถŒ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋“ฑ ์„ธ์‹ฌํ•œ ๋””์ž์ธ์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋…ธ๋ ฅ์ด ๋’ท๋ฐ›์นจ๋˜์–ด์•ผ ๋น„๋กœ์†Œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ ์–ด๋ ค์šด ๊ธฐ์ˆ ์ด ๋ฐœํ˜„๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๋‹จ์ˆœํ•œ Sim-to-Real์€ ํ†ตํ•˜์ง€ ์•Š๋Š”๋‹ค: ์ ‘์ด‰์ด ๋งŽ์€ ๊ณ ๋‚œ์ด๋„ ๋™์ž‘์ผ์ˆ˜๋ก, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ๋ฅผ ๊ทธ๋Œ€๋กœ ํ˜„์‹ค์— ๊ฐ€์ ธ์˜ค๋Š” ๊ฒƒ์€ ๊ฑฐ์˜ ์‹คํŒจํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์ด ์ด‰๊ฐ, ์‹œ๊ฐ ์„ผ์„œ ๋“ฑ์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ๋ฐฐ์ œํ•ด๋ณด๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•์„ ์‹œ๋„ํ•ด๋ดค์ง€๋งŒ, ๋ฌผ๋ฆฌ ์—”์ง„๊ณผ ์‹ค์ œ ์„ธ๊ณ„์˜ ๊ทผ๋ณธ์  ์ฐจ์ด๋Š” ๋‚จ์•˜์Šต๋‹ˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์กฐ์ฐจ๋„ ์ด ๊ฒฉ์ฐจ๋ฅผ ์™„์ „ํžˆ ๋ฉ”๊พธ์ง€ ๋ชปํ–ˆ๊ณ , ๊ฒฐ๊ตญ ํ˜„์‹ค ๋ฐ์ดํ„ฐ์˜ ์ง์ ‘์ ์ธ ํ™œ์šฉ์ด ๋ถˆ๊ฐ€ํ”ผํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • ๊ทธ๋ž˜๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์€ ์œ ์šฉํ•˜๋‹ค: ๋น„๋ก ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ๋งŒ์œผ๋กœ ์™„์„ฑํ’ˆ์„ ์–ป์„ ์ˆœ ์—†์ง€๋งŒ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋Š” ์—ฌ์ „ํžˆ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ํŽœ ๋Œ๋ฆฌ๊ธฐ์™€ ๊ฐ™์€ ์—ญ๋™์  ์Šคํ‚ฌ์€ ์ธ๊ฐ„์ด ๋กœ๋ด‡์„ ์›๊ฒฉ์œผ๋กœ ์กฐ์ข…ํ•˜๋ฉฐ ๊ฐ€๋ฅด์น˜๊ธฐ์—๋Š” ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ •์ด ์žˆ์—ˆ๊ธฐ์—, ์ดˆ๊ธฐ ์ •์ฑ…๊ณผ ๊ถค์ ์„ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค๋ฅธ ๋ณต์žกํ•œ ๋กœ๋ด‡ ๊ธฐ์ˆ  ํ•™์Šต์—๋„ ์‹œ์‚ฌํ•˜๋Š” ๋ฐ”๊ฐ€ ์žˆ์œผ๋ฉฐ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํƒ์ƒ‰ ๋„๊ตฌ๋กœ ์ ๊ทน ํ™œ์šฉํ•˜๋˜ ๊ทธ ํ•œ๊ณ„๋ฅผ ์ธ์ง€ํ•˜๋Š” ๊ท ํ˜• ์žกํžŒ ์ ‘๊ทผ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  • ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋Š” ์ƒ๊ฐ๋ณด๋‹ค ์ ๊ฒŒ ํ•„์š”ํ•˜๋‹ค: ํฌ๋ง์ ์ธ ์†Œ์‹์€, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์ž˜ ํ™œ์šฉํ•˜๋ฉด ์†Œ๋Ÿ‰์˜ ํ˜„์‹ค ์„ฑ๊ณต ๋ฐ์ดํ„ฐ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์ •์ฑ…์„ ๋ณด์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ถˆ๊ณผ 50์—ฌ ๊ฐœ ๋ฏธ๋งŒ์˜ ์‹คํ–‰ ๊ถค์ ์œผ๋กœ๋„ ์ •์ฑ…์„ ํ˜„์‹ค์— ์ ์‘(fine-tuning)์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ๊ธฐ๋ณธ๊ธฐ๋ฅผ ์ตํ˜€ ๋†“์œผ๋ฉด ์ดํ›„ ํ˜„์‹ค์—์„œ๋Š” ๋ช‡์‹ญ ์ฐจ๋ก€์˜ ์‹คํ—˜๋งŒ์œผ๋กœ๋„ ๋†’์€ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์—์„œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์œผ๋กœ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ตํ›ˆ๋“ค๊ณผ ๋”๋ถˆ์–ด, ๋ณธ ์—ฐ๊ตฌ์—์„œ ๋“œ๋Ÿฌ๋‚œ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์ ๋„ ์งš๊ณ  ๋„˜์–ด๊ฐ€๊ฒ ์Šต๋‹ˆ๋‹ค. - ์ฒซ์งธ, ์ตœ์ข… ์ •์ฑ…์€ ์‹œ๊ฐ ์„ผ์„œ์— ์˜์กดํ•˜์ง€ ์•Š๋Š” proprioceptive(๊ณ ์œ ๊ฐ๊ฐ) ๊ธฐ๋ฐ˜ ์ •์ฑ…์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํŽœ์˜ ์œ„์น˜๋‚˜ ์›€์ง์ž„์„ ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ ์„ผ์„œ ๋“ฑ์œผ๋กœ๋งŒ ์ถ”์ •ํ•œ๋‹ค๋Š” ์˜๋ฏธ์ธ๋ฐ, ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ๋ฌผ์ฒด์˜ ํ˜•ํƒœ๋‚˜ ์ฃผ๋ณ€ ํ™˜๊ฒฝ ๋ณ€ํ™”๋ฅผ ์ธ์ง€ํ•˜์ง„ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฒ”์šฉ์„ฑ ๋ฉด์—์„œ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. - ๋‘˜์งธ, ๋…ผ๋ฌธ์—์„œ ๋ณด๊ณ ๋œ ์‹คํŒจ ์‚ฌ๋ก€๋“ค์„ ๋ณด๋ฉด ํ˜„ ๋ฐฉ๋ฒ•์˜ ํ•˜๋“œ์›จ์–ด์  ํ•œ๊ณ„๋„ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡ ์†์˜ ์ œ์–ด ์ฃผํŒŒ์ˆ˜(control frequency)๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋†’์ง€ ์•Š์•„ ๋น ๋ฅด๊ฒŒ ๋–จ์–ด์ง€๋Š” ๋ฌผ์ฒด๋ฅผ ๋ถ™์žก์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŽœ์ด ์†๊ฐ€๋ฝ์—์„œ ์‚ด์ง ์ดํƒˆํ•  ๋•Œ ์žฌ๋นจ๋ฆฌ ๋Œ€์‘ํ•ด์•ผ ํ•˜์ง€๋งŒ, ํ˜„์žฌ ์‹œ์Šคํ…œ์˜ ์†๋„๋ก  ์—ญ๋ถ€์กฑ์ด์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํŽœ์ด ๋Œ๋ฉด์„œ ๋ฌด๊ฒŒ์ค‘์‹ฌ(center of mass)์ด ๋ฏธ์„ธํ•˜๊ฒŒ ๋ณ€ํ•ด ๊ท ํ˜•์ด ๊นจ์ง€๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์—ˆ๋Š”๋ฐ, ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ๋Š” ์‹œ์Šคํ…œ์ด ๋ถˆ์•ˆ์ •ํ•ด์ ธ ์‹คํŒจ๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์€ ํ•˜๋“œ์›จ์–ด ์„ฑ๋Šฅ์ด๋‚˜ ์ œ์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฐœ์„ ํ•ด์•ผ๋งŒ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ€๋ถ„์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. - ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋น„๋ก ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ํŽœ์„ ๋‹ค๋ค˜๋‹ค๊ณ ๋Š” ํ•˜๋‚˜ ๋ชจ๋“  ํ˜•ํƒœ์˜ ๋„๊ตฌ๋กœ ์ผ๋ฐ˜ํ™”๋˜์—ˆ๋‹ค๊ณ  ๋ณด๊ธด ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ํŽœ ๋Œ๋ฆฌ๊ธฐ๋Š” ๋น„๊ต์  ๋Œ€์นญ์ ์ด๊ณ  ๊ธธ์ญ‰ํ•œ ๋ฌผ์ฒด๋ผ ๊ฐ€๋Šฅํ•œ ๋ฉด๋„ ์žˆ๋Š”๋ฐ, ์ „ํ˜€ ๋‹ค๋ฅธ ๋ชจ์–‘์ด๋‚˜ ์งˆ๊ฐ์˜ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃฐ ๋•Œ๋„ ์ด ์ ‘๊ทผ๋ฒ•์ด ์œ ํšจํ• ์ง€๋Š” ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ๋” ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ณผ์ œ(์˜ˆ: ๊ณต์ค‘์—์„œ ๋˜์กŒ๋‹ค ๋ฐ›๊ธฐ, ๋น„๋Œ€์นญ ๋ฌผ์ฒด ๋‹ค๋ฃจ๊ธฐ ๋“ฑ)์—๋„ ์ด๋ฒˆ ๊ธฐ๋ฒ•์„ ํ™•์žฅํ•˜์—ฌ ํ…Œ์ŠคํŠธํ•ด๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

โ€œLessons from Learning to Spin โ€˜Pensโ€™โ€ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์—์„œ ํ•˜๋‚˜์˜ ์ด์ •ํ‘œ๊ฐ€ ๋  ๋งŒํ•œ ํฅ๋ฏธ๋กœ์šด ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ์–ด๋ ค์šด ํŽœ ๋Œ๋ฆฌ๊ธฐ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ณผ์ •์—์„œ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ํƒ์ƒ‰ ๋Šฅ๋ ฅ๊ณผ ํ˜„์‹ค์˜ ์ •ํ™•ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๊ฒฐํ•ฉํ•˜๋Š” ์ฐฝ์˜์ ์ธ ์ „๋žต์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์†Œ๋Ÿ‰์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ๋ณต์žกํ•œ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ–ˆ๊ณ , ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ฒ˜ํ–ˆ๋˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฒฉ์ฐจ์˜ ํ•จ์ •์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ๋กœ๋ด‡ ์†์— ํ•‘๊ฑฐ๊ฒŒ์ดํŒ…๊ณผ ๊ฐ™์€ ์ธ๊ฐ„ ์œ ์‚ฌ ์ „๋žต์ด ์ž๋ฐœ์ ์œผ๋กœ ๋ฐœํ˜„๋œ ์ , ๊ทธ๋ฆฌ๊ณ  ์—ฐ์† ํšŒ์ „์ด๋ผ๋Š” ๋‚œ์ œ๋ฅผ ๋‹ฌ์„ฑํ•ด๋ƒˆ๋‹ค๋Š” ์ ์€ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์•„์ง ํ•ด๊ฒฐํ•ด์•ผ ํ•  ํ•œ๊ณ„๋“ค๋„ ์กด์žฌํ•˜์ง€๋งŒ, ์ €์ž๋“ค์ด ๊ณต์œ ํ•œ ๊ตํ›ˆ๋“ค์€ ํ–ฅํ›„ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ์— ๊ท€์ค‘ํ•œ ์ง€์นจ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ, ์ด ์—ฐ๊ตฌ๋Š” โ€œ์–ด๋ ต๋‹ค๊ณ  ์—ฌ๊ฒจ์ง„ ๋กœ๋ด‡ ๊ธฐ์ˆ ๋„ ์˜ฌ๋ฐ”๋ฅธ ํ•™์Šต ์ „๋žต์„ ํ†ตํ•ด ๊ทน๋ณต ๊ฐ€๋Šฅํ•˜๋‹คโ€๋Š” ํฌ๋ง์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ํŽœ ๋Œ๋ฆฌ๊ธฐ๋ฅผ ๋„˜์–ด์„œ, ๋กœ๋ด‡์ด ๋”์šฑ ๋‹ค์–‘ํ•œ ๋„๊ตฌ๋ฅผ ๋Šฅ์ˆ™ํ•˜๊ฒŒ ๋‹ค๋ฃจ๋Š” ๋ชจ์Šต์„ ๊ธฐ๋Œ€ํ•ด ๋ด๋„ ์ข‹๊ฒ ์Šต๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee