Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ๋“ค์–ด๊ฐ€๋ฉฐ: ์™œ ์ด‰๊ฐ์ธ๊ฐ€?
    • 1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์ด‰๊ฐ RL์˜ ํ˜„์ฃผ์†Œ์™€ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๋ฌธ์ œ๋“ค
      • 1.1 ์™œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL์ธ๊ฐ€?
      • 1.2 ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๋ชจ์ˆœ๋œ ๊ฒฐ๊ณผ๋“ค
      • 1.3 ํ•ต์‹ฌ ๊ฐ€์„ค: ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ๋…ํŠนํ•œ ํŠน์„ฑ
    • 2. ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก : ์ž๊ธฐ์ง€๋„ํ•™์Šต์œผ๋กœ ์ด‰๊ฐ ํ‘œํ˜„ ๊ฐ•ํ™”ํ•˜๊ธฐ
      • 2.1 ๋ฌธ์ œ ์„ค์ •: ๋ถ€๋ถ„ ๊ด€์ธก MDP
      • 2.2 ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜
      • 2.3 ๋„ค ๊ฐ€์ง€ ์ž๊ธฐ์ง€๋„ ๋ชฉ์ ํ•จ์ˆ˜
      • 2.4 ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ (Separated Auxiliary Memory)
    • 3. Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ
      • 3.1 ์„ค๊ณ„ ์ฒ ํ•™
      • 3.2 Find ํƒœ์Šคํฌ
      • 3.3 Bounce ํƒœ์Šคํฌ
      • 3.4 Baoding ํƒœ์Šคํฌ
    • 4. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„
      • 4.1 ์‹คํ—˜ ์„ค์ •
      • 4.2 RL-only ๊ฒฐ๊ณผ: ์ด‰๊ฐ ์ •๋ณด๋Š” ์–ธ์ œ ์œ ์šฉํ•œ๊ฐ€?
      • 4.3 RL+SSL ๊ฒฐ๊ณผ: ์ž๊ธฐ์ง€๋„ํ•™์Šต์˜ ํšจ๊ณผ
      • 4.4 ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ์˜ ํšจ๊ณผ
      • 4.5 ๋ฌผ๋ฆฌ์  ์ง€ํ‘œ๋กœ ๋ณธ ์„ฑ๋Šฅ
    • 5. ์‹ฌ์ธต ๋…ผ์˜: ํ•ต์‹ฌ ์งˆ๋ฌธ๋“ค์— ๋Œ€ํ•œ ๋‹ต๋ณ€
      • 5.1 Q1: Binary contacts๋Š” proprioceptive history๋ฅผ ๋„˜์–ด์„œ๋Š” ์ด์ ์„ ์ œ๊ณตํ•˜๋Š”๊ฐ€?
      • 5.2 Q2: ์ž๊ธฐ์ง€๋„ํ•™์Šต์ด ์ •ํ™•ํžˆ ์–ด๋–ป๊ฒŒ ๋„์›€์ด ๋˜๋Š”๊ฐ€?
      • 5.3 Q3: ์ž๊ธฐ์ง€๋„ํ•™์Šต์ด proprioceptive, tactile, ๋˜๋Š” ๊ฒฐํ•ฉ ํ‘œํ˜„์„ ๊ฐ•ํ™”ํ•˜๋Š”๊ฐ€?
      • 5.4 Q4: Forward model์€ ์ด‰๊ฐ ์ƒํ˜ธ์ž‘์šฉ์˜ dynamics๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ•™์Šตํ•˜๋Š”๊ฐ€?
      • 5.5 Q5: On-policy ์—์ด์ „ํŠธ๊ฐ€ off-policy ๋ฐ์ดํ„ฐ์—์„œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋ฉด ์ด์ ์ด ์žˆ๋Š”๊ฐ€?
    • 6. ํ‘œํ˜„ ๋ถ„์„: Latent Trajectory ์‹œ๊ฐํ™”
      • Baoding
      • Bounce
    • 7. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
      • 7.1 ์ฃผ์š” ํ•œ๊ณ„
      • 7.2 Sim-to-Real ์ „์ด ๊ฐ€๋Šฅ์„ฑ
      • 7.3 ์ผ๋ฐ˜ํ™” ๊ธฐ๋Œ€
    • 8. ์‹ค์šฉ์  ๊ถŒ์žฅ์‚ฌํ•ญ
      • ๊ถŒ์žฅ์‚ฌํ•ญ 1: SSL๊ณผ ๊ณต๋™ ํ•™์Šต
      • ๊ถŒ์žฅ์‚ฌํ•ญ 2: ๋‹จ์ˆœํ•œ ์ด‰๊ฐ ํ‘œํ˜„๋ถ€ํ„ฐ ์‹œ์ž‘
    • 9. ์ด ๋…ผ๋ฌธ์˜ ์˜์˜์™€ ๋กœ๋ด‡๊ณตํ•™์— ๋Œ€ํ•œ ์‹œ์‚ฌ์ 
      • 9.1 ํ•™์ˆ ์  ๊ธฐ์—ฌ
      • 9.2 ์‹ค์šฉ์  ์‹œ์‚ฌ์ 
      • 9.3 ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 10. ๋งˆ์น˜๋ฉฐ
  • โ›๏ธ Dig Review
    • ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ
    • ๋ฌธ์ œ ์ •์˜ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ์„ค์ •
    • ๋ชจ๋ธ ๊ตฌ์„ฑ ๋ฐ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•
      • ์ œ์•ˆ๋œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ชฉํ‘œ๋“ค (SSL Objectives)
      • ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ„๋ฆฌ ๊ธฐ๋ฒ• (Separated Auxiliary Memory)
    • ์‹คํ—˜ ํ™˜๊ฒฝ: Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ
    • ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„
      • 1. ์ด‰๊ฐ ์ •๋ณด์˜ ํšจ๊ณผ (RL-only ๋Œ€์กฐ๊ตฐ)
      • 2. ์ž๊ธฐ์ง€๋„ ํ•™์Šต์˜ ํšจ๊ณผ (RL+SSL)
      • 3. ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ„๋ฆฌ์˜ ํšจ๊ณผ (RL+SSL+Memory)
      • 4. ์„ฑ๋Šฅ ์ง€ํ‘œ ๋ฐ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋น„๊ต
    • ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต: ๋ฌด์—‡์ด ์ƒˆ๋กœ์›Œ์กŒ๋‚˜?
    • ๊ฒฐ๋ก  ๋ฐ ์ „๋ง

๐Ÿ“ƒRoTO ๋ฆฌ๋ทฐ

rl
benchmark
tactile
Enhancing Tactile-based Reinforcement Learning for Robotic Control + Robot Tactile Olympiad (RoTO)
Published

November 30, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Bechmark
  • Project
  1. ๐Ÿ’ก ์ด ์—ฐ๊ตฌ๋Š” ์‹œ๊ฐ ๋˜๋Š” ์ด์ƒ์ ์ธ ์ƒํƒœ ์ •๋ณด์— ๋Œ€ํ•œ ์˜์กด๋„๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋กœ๋ด‡ ์ œ์–ด์—์„œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(RL)์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” self-supervised learning(SSL) ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿค– Proprioception๊ณผ sparse binary contact์— ์ดˆ์ ์„ ๋งž์ถฐ, ์ด ๋ฐฉ๋ฒ•๋ก ์€ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ œ์–ด ์˜ค๋ฅ˜๊ฐ€ ๊ฐ์ง€ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋กœ๋ด‡-๊ฐ์ฒด ๋ถ„๋ฆฌ ์›€์ง์ž„๊ณผ ๊ฐ™์€ ์ƒํ™ฉ์—์„œ ์ด‰๊ฐ ์‹ ํ˜ธ๊ฐ€ ์ •๊ตํ•œ ์กฐ์ž‘(dexterity)์— ์ค‘์š”ํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ํŠนํžˆ Forward Dynamics(FD) SSL objective๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ์˜ ๋ณต์žกํ•œ ์ ‘์ด‰ ์ž‘์—…์—์„œ ์ดˆ์ธ์ ์ธ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, SSL ๋ฉ”๋ชจ๋ฆฌ๋ฅผ on-policy ๋ฉ”๋ชจ๋ฆฌ๋กœ๋ถ€ํ„ฐ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

๋ณธ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์ œ์–ด๋ฅผ ์œ„ํ•œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(RL)์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‹œ๊ฐ ์ •๋ณด์— ์˜์กดํ•˜๋Š” ๊ธฐ์กด ๋กœ๋ด‡ ์กฐ์ž‘์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•ด ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ด‰๊ฐ ์„ผ์‹ฑ์ด RL์—์„œ ์ผ๊ด€๋˜์ง€ ์•Š์€ ํšจ์šฉ์„ฑ์„ ๋ณด์ด๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(SSL) ๋ฐฉ๋ฒ•๋ก ์„ ๊ฐœ๋ฐœํ•˜์—ฌ ์ด‰๊ฐ ๊ด€์ฐฐ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” proprioception๊ณผ sparse binary contact๋ผ๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์„ผ์„œ ์„ค์ •์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์ด์ง„ ์ด‰๊ฐ ์‹ ํ˜ธ๊ฐ€ ํŠนํžˆ ๋กœ๋ด‡-๊ฐ์ฒด ๊ฐ„์˜ ๋น„๋™๊ธฐ์  ์›€์ง์ž„๊ณผ ๊ฐ™์ด proprioceptive ์ œ์–ด ์˜ค๋ฅ˜๋กœ๋Š” ๊ฐ์ง€ํ•˜๊ธฐ ์–ด๋ ค์šด ์ƒํ˜ธ์ž‘์šฉ์—์„œ ๋กœ๋ด‡์˜ ์ •๊ตํ•จ์„ ์œ„ํ•ด ํ•„์ˆ˜์ ์ž„์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

๋ณธ ์—ฐ๊ตฌ๋Š” ๋ถ€๋ถ„ ๊ด€์ฐฐ ๊ฐ€๋Šฅ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(POMDP)์„ ๋ฌธ์ œ ์„ค์ •์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ์—์ด์ „ํŠธ๋Š” ๊ด€์ฐฐ o_t๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค. o_t๋Š” proprioceptive (๊ด€์ ˆ ๊ฐ๋„ \theta, ๊ด€์ ˆ ์†๋„ \dot{\theta}, ์ด์ „ ํ–‰๋™ a_{t-1}, ๊ทธ๋ฆฌ๊ณ  ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๋ง๋‹จ ์žฅ์น˜ ์ž์„ธ x_{EE}, q_{EE}) ๋ฐ ์ด‰๊ฐ (์ด์ง„ ์ ‘์ด‰ b \in \{0, 1\}^{N_{sensors}}) ์–‘์‹์˜ k-๋‹จ๊ณ„ ์ด๋ ฅ์„ ์—ฐ๊ฒฐํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” ๊ด€์ฐฐ ์ธ์ฝ”๋” e, ์ •์ฑ… \pi, ๊ฐ€์น˜ ํ•จ์ˆ˜ v์˜ ์„ธ ๊ฐ€์ง€ MLP๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๊ด€์ฐฐ ์ธ์ฝ”๋”๋Š” ๋ณตํ•ฉ ๊ฐ๊ฐ ์ž…๋ ฅ์„ z_t๋ผ๋Š” ์••์ถ•๋œ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ์ •์ฑ…๊ณผ ๊ฐ€์น˜ ํ•จ์ˆ˜๋Š” ์ด z_t์— ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•˜์—ฌ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์€ Proximal Policy Optimisation (PPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ‘œํ˜„ ํ•™์Šต์„ ์œ„ํ•œ ์ž๊ธฐ ์ง€๋„ ๋ณด์กฐ ์†์‹ค L_{aux}๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.

์ด ์†์‹ค ํ•จ์ˆ˜ L์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: L_{PPO}(\theta_e, \theta_\pi, \theta_v) = L_{CLIP}^\pi(\theta_e, \theta_\pi) - c_V L_V(\theta_e, \theta_v) + c_{ent}L_{entropy}(\theta_e, \theta_\pi) L = L_{PPO}(\theta_e, \theta_\pi, \theta_v) + c_{aux}L_{aux}(\theta_e, \theta_{aux}) ์—ฌ๊ธฐ์„œ \theta_e, \theta_\pi, \theta_v๋Š” ๊ฐ๊ฐ ์ธ์ฝ”๋”, ์ •์ฑ…, ๊ฐ€์น˜ ํ•จ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, \theta_{aux}๋Š” ๋ณด์กฐ ๋„คํŠธ์›Œํฌ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.

์ €์ž๋“ค์€ ๋„ค ๊ฐ€์ง€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ชฉ์  ํ•จ์ˆ˜ L_{aux}๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค:

  1. ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ (Tactile Reconstruction, TR): ์•ˆ์ •์ ์ธ proprioceptive ์ด๋ ฅ์˜ ํŠน์ง•์— ์กฐ๊ธฐ์— ํŽธํ–ฅ๋˜๋Š” ๊ฒฝํ–ฅ์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด, ํ•™์Šต๋œ ๋‹ค์ค‘ ๋ชจ๋“œ ํ‘œํ˜„ z_t๋กœ๋ถ€ํ„ฐ ์ด‰๊ฐ ๊ด€์ฐฐ o_t^{tact}๋งŒ์„ ๋…์ ์ ์œผ๋กœ ๋””์ฝ”๋”ฉํ•˜๋Š” ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ด์ง„ ์ž…๋ ฅ์ด๋ฏ€๋กœ ์ด์ง„ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ(BCE) ์†์‹ค์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ ‘์ด‰ ๋ฐ์ดํ„ฐ์˜ ํฌ์†Œ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์˜คํƒ(missed contacts)์— ๋” ํฐ ํŒจ๋„ํ‹ฐ๋ฅผ ์ฃผ๊ธฐ ์œ„ํ•ด ์–‘์„ฑ ๊ฐ€์ค‘์น˜ p_c=10์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. L_{TR} = \text{BCE}(\hat{o}_t^{tact}, o_t^{tact}) = -(p_c \cdot o_t^{tact} \cdot \log(\hat{o}_t^{tact}) + (1 - o_t^{tact}) \cdot \log(1 - \hat{o}_t^{tact}))

  2. ์ „์ฒด ์žฌ๊ตฌ์„ฑ (Full Reconstruction, FR): TR ์†์‹ค๊ณผ ์—ฐ์†์ ์ธ proprioceptive ๊ด€์ฐฐ o_t^{prop}์— ๋Œ€ํ•œ ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ(MSE) ์†์‹ค์˜ ํ•ฉ์œผ๋กœ ์ด‰๊ฐ ๋ฐ proprioceptive ๊ด€์ฐฐ์„ ๋™์‹œ์— ๋””์ฝ”๋”ฉํ•˜๋Š” ํ‘œ์ค€ ์žฌ๊ตฌ์„ฑ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. L_{FR} = L_{TR} + \text{MSE}(\hat{o}_t^{prop}, o_t^{prop})

  3. ์ˆœ๋ฐฉํ–ฅ ๋™์—ญํ•™ (Forward Dynamics, FD): ๊ด€์ฐฐ์„ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ํ‘œํ˜„์œผ๋กœ ์ถ”์ถœํ•˜๋„๋ก ์žฅ๋ คํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋‹จ๊ณ„ ์ˆœ๋ฐฉํ–ฅ ๋™์—ญํ•™์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ z_t์™€ ํ–‰๋™ a_t๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ˆœ๋ฐฉํ–ฅ ๋ชจ๋ธ f๋Š” ๋‹ค์Œ ์ž ์žฌ ์ƒํƒœ \hat{z}_{t+1} = f(z_t, a_t)๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด ์˜ˆ์ธก์€ ์ž๊ธฐ ํšŒ๊ท€์ ์œผ๋กœ ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์•ˆ์ •์ ์ธ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์œ„ํ•ด, ์˜ˆ์ธก์€ ์‹ค์ œ ์ธ์ฝ”๋” e์˜ ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท (EMA)์œผ๋กœ ์œ ์ง€๋˜๋Š” ํƒ€๊ฒŸ ์ธ์ฝ”๋” e_T๋กœ ์ƒ์„ฑ๋œ ํƒ€๊ฒŸ ์ž ์žฌ ์ƒํƒœ z_{t+i}^T = e_T(o_{t+i})์™€ ๋น„๊ต๋ฉ๋‹ˆ๋‹ค. L_{FD} = \sum_{i=1}^{n-1}\text{MSE}\left(p(\hat{z}_{t+i}), z_{t+i}^T\right)

  4. ์ด‰๊ฐ ์ˆœ๋ฐฉํ–ฅ ๋™์—ญํ•™ (Tactile Forward Dynamics, TFD): ํ•™์Šต๋œ ๋™์—ญํ•™ ์ž ์žฌ ๊ณต๊ฐ„์ด ์ด‰๊ฐ ๋™์—ญํ•™๋„ ๋ชจ๋ธ๋งํ•˜๋„๋ก ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด FD ์†์‹ค์— ๋ฏธ๋ž˜ ์ด‰๊ฐ ๊ด€์ฐฐ์„ ์žฌ๊ตฌ์„ฑํ•˜๋Š” TR ์†์‹ค์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. L_{TFD} = L_{FD} + \sum_{i=1}^{n-1}\text{BCE}(\hat{o}_{t+i}^{tact}, o_{t+i}^{tact})

๋˜ํ•œ, ๋ณธ ๋…ผ๋ฌธ์€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฉ”๋ชจ๋ฆฌ๋ฅผ on-policy ๋ฉ”๋ชจ๋ฆฌ๋กœ๋ถ€ํ„ฐ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ณด์กฐ ์—…๋ฐ์ดํŠธ๋ฅผ ์•ˆ์ •ํ™”ํ•˜๊ณ  ๋” ๋„“์€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์—์„œ ์ตœ์ ํ™”ํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ๋ณต์žกํ•œ Baoding ์ž‘์—…์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๊ฒฐ๋ก 

์‹คํ—˜์€ Isaac Lab์—์„œ ๊ตฌํ˜„๋œ ์„ธ ๊ฐ€์ง€ ๋งž์ถคํ˜• ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…(Find, Bounce, Baoding)์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ Robot Tactile Olympiad (RoTO)์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: * ํฌ์†Œํ•œ ์ด์ง„ ์ด‰๊ฐ ์‹ ํ˜ธ๊ฐ€ proprioceptive ์ด๋ ฅ๋งŒ์œผ๋กœ๋Š” ๋‹ฌ์„ฑํ•  ์ˆ˜ ์—†๋Š” ์ •๊ตํ•จ์„ ์ œ๊ณตํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋กœ๋ด‡๊ณผ ๊ฐ์ฒด ๊ฐ„์˜ ๋น„๋™๊ธฐ์  ์›€์ง์ž„, ๋‚ฎ์€ ๊ด€์„ฑ ๊ฐ์ฒด, ์ ‘์ด‰ ๊ณต๊ฐ„ ๋ชจํ˜ธ์„ฑ, ๋‹ค์ค‘ ์ ‘์ด‰ ํ•ด์ƒ๋„์™€ ๊ฐ™์ด proprioceptive ์ œ์–ด ์˜ค๋ฅ˜๋กœ๋Š” ๋ชจ๋“  ํ™˜๊ฒฝ ๋™์—ญํ•™์„ ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ๋“ฑ๋กํ•  ์ˆ˜ ์—†๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ด‰๊ฐ ์ •๋ณด์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. * ์ œํ•œ๋œ ๊ฐ๊ฐ ์„ค์ •(proprioception ๋ฐ 17๊ฐœ์˜ ์ด์ง„ ์ ‘์ด‰)๋งŒ์œผ๋กœ ๋ณต์žกํ•œ ์ ‘์ด‰ ์ž‘์—…์—์„œ ์ธ๊ฐ„ ์ดˆ์›”์ ์ธ(superhuman) ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์ •๊ตํ•จ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. * ์ œ์•ˆ๋œ ๋„ค ๊ฐ€์ง€ SSL ๋ชฉ์  ํ•จ์ˆ˜ ์ค‘์—์„œ ์ˆœ๋ฐฉํ–ฅ ๋™์—ญํ•™(FD)์ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ด๋ฉฐ, ๊ฐ์ฒด ์œ„์น˜์™€ ์†๋„๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ํ‘œํ˜„์„ ์ƒ์„ฑํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. * SSL ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ on-policy ๋ฉ”๋ชจ๋ฆฌ๋กœ๋ถ€ํ„ฐ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, off-policy ๊ฒฝํ—˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL์˜ ์ผ๊ด€๋˜์ง€ ์•Š์€ ํšจ์šฉ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘์— ์ด‰๊ฐ ์„ผ์‹ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•œ ์‹ค์šฉ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

๋“ค์–ด๊ฐ€๋ฉฐ: ์™œ ์ด‰๊ฐ์ธ๊ฐ€?

๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋ถ„์•ผ์—์„œ ์šฐ๋ฆฌ๋Š” ์˜ค๋žซ๋™์•ˆ โ€œ๋น„์ „(vision)โ€์— ์˜์กดํ•ด์™”์Šต๋‹ˆ๋‹ค. RGB ์นด๋ฉ”๋ผ, ๋ށ์Šค ์„ผ์„œ, ํฌ์ธํŠธํด๋ผ์šฐ๋“œโ€ฆ ์ด ๋ชจ๋“  ์‹œ๊ฐ์  ์ •๋ณด๊ฐ€ ๋กœ๋ด‡์˜ ๋ˆˆ์ด ๋˜์–ด์™”์ฃ . ํ•˜์ง€๋งŒ ํ•œ ๋ฒˆ ์ƒ๊ฐํ•ด๋ณด์„ธ์š”. ์ธ๊ฐ„์ด ์–ด๋‘์šด ๋ฐฉ์—์„œ ์—ด์‡ ๋ฅผ ์ฐพ๊ฑฐ๋‚˜, ์ฃผ๋จธ๋‹ˆ ์†์—์„œ ๋™์ „์„ ๊ตฌ๋ณ„ํ•˜๊ฑฐ๋‚˜, ์—ฐ์•ฝํ•œ ๊ณ„๋ž€์„ ๊นจ์ง€ ์•Š๊ณ  ์ง‘์„ ๋•Œโ€”์šฐ๋ฆฌ๋Š” ๋ˆˆ์ด ์•„๋‹Œ ์†๋์˜ ์ด‰๊ฐ์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค.

Edinburgh ๋Œ€ํ•™์˜ Elle Miller ์—ฐ๊ตฌํŒ€์€ ์ด ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค: โ€œ๋กœ๋ด‡์ด ์ง„์ •์œผ๋กœ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด, ๋‹จ์ˆœํžˆ ๋ณด๋Š” ๊ฒƒ์„ ๋„˜์–ด ๋А๋‚„ ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜์ง€ ์•Š์„๊นŒ?โ€

์ด ๋…ผ๋ฌธ์€ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต(Tactile-based RL)์˜ ์ž ์žฌ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ž๊ธฐ์ง€๋„ํ•™์Šต(Self-Supervised Learning, SSL) ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜๊ณ , ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์—์„œ ๋ณด๊ณ ๋œ ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ๋ถˆ์ผ์น˜ํ•œ ํšจ๊ณผ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ํ•ด๋‹ต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, ๊ณต ๋ฐ”์šด์‹ฑ๊ณผ Baoding ball ํšŒ์ „์ด๋ผ๋Š” ๊ณ ๋‚œ๋„ ์ ‘์ด‰ ํƒœ์Šคํฌ์—์„œ ์ธ๊ฐ„์„ ์ดˆ์›”ํ•˜๋Š”(superhuman) ์†์žฌ์ฃผ๋ฅผ ์‹œ์—ฐํ•˜๋ฉฐ, ์ด‰๊ฐ ์กฐ์ž‘ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ Robot Tactile Olympiad (RoTO)๋ฅผ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค.


1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์ด‰๊ฐ RL์˜ ํ˜„์ฃผ์†Œ์™€ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ๋ฌธ์ œ๋“ค

1.1 ์™œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL์ธ๊ฐ€?

๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜(manipulation)์˜ ์ •์˜ ์ž์ฒด๊ฐ€ โ€œ์„ ํƒ์  ์ ‘์ด‰์„ ํ†ตํ•œ ์ œ์–ดโ€์ž…๋‹ˆ๋‹ค. ๋ฌผ์ฒด๋ฅผ ์žก๊ณ , ๋†“๊ณ , ๋Œ๋ฆฌ๊ณ , ์กฐ์ž‘ํ•˜๋Š” ๋ชจ๋“  ๊ณผ์ •์€ ์ ‘์ด‰์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ˜„์žฌ ๋Œ€๋ถ€๋ถ„์˜ ์†์žฌ์ฃผ ์žˆ๋Š”(dexterous) ๋กœ๋ด‡ ์‹œ์Šคํ…œ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„์— ์ง๋ฉดํ•ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ์ด์ƒํ™”๋œ ์ƒํƒœ ์ •๋ณด์— ๋Œ€ํ•œ ์˜์กด: OpenAI์˜ ์œ ๋ช…ํ•œ in-hand manipulation ์—ฐ๊ตฌ๋Š” ๋ฌผ์ฒด์™€ ์†๊ฐ€๋ฝ ์œ„์น˜ ์ถ”์ •์„ ์œ„ํ•ด ๋ฌด๋ ค 19๋Œ€์˜ ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ด๋Ÿฐ ์„ค์ •์€ ๋น„ํ˜„์‹ค์ ์ž…๋‹ˆ๋‹ค.

  2. Teacher-Student ๋„คํŠธ์›Œํฌ์˜ ํ•œ๊ณ„: ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ privileged information(ํŠน๊ถŒ ์ •๋ณด)์œผ๋กœ teacher๋ฅผ ํ•™์Šต์‹œํ‚ค๊ณ , ์ด๋ฅผ sensory-only student๋กœ ์ฆ๋ฅ˜(distillation)ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Š” ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•œ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฐ€์ •์„ ๊ฒ€์ฆํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

  3. ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘ ์–ด๋ ค์›€: ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ•จ๊ป˜ ๊ธฐ๋กํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ•ํ™”ํ•™์Šต์ด ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์˜ ์ฃผ์š” ํ›„๋ณด๋กœ ๋– ์˜ค๋ฆ…๋‹ˆ๋‹ค.

1.2 ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ๋ชจ์ˆœ๋œ ๊ฒฐ๊ณผ๋“ค

์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL์— ๋Œ€ํ•œ 10๋…„ ์ด์ƒ์˜ ์—ฐ๊ตฌ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ทธ ํšจ๊ณผ์— ๋Œ€ํ•œ ๋ฌธํ—Œ์˜ ์ฆ๊ฑฐ๋Š” ๋ชจ์ˆœ์ ์ž…๋‹ˆ๋‹ค:

  • ๊ธ์ •์  ๊ฒฐ๊ณผ: ์ผ๋ถ€ ์—ฐ๊ตฌ๋“ค์€ ์ด‰๊ฐ ์ •๋ณด ์ถ”๊ฐ€ ์‹œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด๊ณ 
  • ๋ถ€์ •์ /์ค‘๋ฆฝ์  ๊ฒฐ๊ณผ: ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค์€ ์ด‰๊ฐ ์ถ”๊ฐ€๊ฐ€ ๋ณ„๋‹ค๋ฅธ ์ด์ ์ด ์—†๊ฑฐ๋‚˜ ์‹ฌ์ง€์–ด ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚จ๋‹ค๊ณ  ๋ณด๊ณ 
  • ๊ทน๋‹จ์  ์ฃผ์žฅ: Qi et al. (2023)์€ binary contacts๊ฐ€ ์ด๋ฏธ proprioceptive history์— ์•”๋ฌต์ ์œผ๋กœ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค

์ด๋Ÿฐ ๋ชจ์ˆœ์˜ ์›์ธ์€ ๋ฌด์—‡์ผ๊นŒ์š”?

1.3 ํ•ต์‹ฌ ๊ฐ€์„ค: ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ๋…ํŠนํ•œ ํŠน์„ฑ

Miller ์—ฐ๊ตฌํŒ€์€ ์ด ๋ชจ์ˆœ์˜ ์›์ธ์ด ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์ด deep RL์— ์ œ์‹œํ•˜๋Š” ๊ณ ์œ ํ•œ ๋ฐ์ดํ„ฐ ํŠน์„ฑ์— ์žˆ๋‹ค๊ณ  ๊ฐ€์„ค์„ ์„ธ์›๋‹ˆ๋‹ค:

  1. ํฌ์†Œ์„ฑ(Sparsity): ์ด‰๊ฐ ์ธก์ •๊ฐ’์€ ์ ‘์ด‰ ์‹œ์—๋งŒ ์กด์žฌํ•˜๊ณ , ๋Œ€๋ถ€๋ถ„์˜ ์‹œ๊ฐ„์€ 0์ž…๋‹ˆ๋‹ค
  2. ๋น„์—ฐ์†์„ฑ(Non-smoothness): ์ ‘์ด‰/๋น„์ ‘์ด‰์˜ ๊ธ‰๊ฒฉํ•œ ์ „ํ™˜์œผ๋กœ ์ธํ•œ ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ์…‹
  3. ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ: ์—ฐ์†์ ์ธ proprioceptive ์‹ ํ˜ธ์— ๋น„ํ•ด ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์›€

๊ฒฐ๊ณผ์ ์œผ๋กœ, deep RL ์—์ด์ „ํŠธ๊ฐ€ ์›์‹œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์—์„œ ์œ ์šฉํ•œ ํ‘œํ˜„์„ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์–ด, ์—ฐ์†์ ์ธ proprioceptive ์‹ ํ˜ธ์—๋งŒ ์˜์กดํ•˜๋Š” ์ฐจ์„ ์˜ ์ •์ฑ…์œผ๋กœ ์กฐ๊ธฐ ์ˆ˜๋ ดํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


2. ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก : ์ž๊ธฐ์ง€๋„ํ•™์Šต์œผ๋กœ ์ด‰๊ฐ ํ‘œํ˜„ ๊ฐ•ํ™”ํ•˜๊ธฐ

2.1 ๋ฌธ์ œ ์„ค์ •: ๋ถ€๋ถ„ ๊ด€์ธก MDP

์—ฐ๊ตฌํŒ€์€ ํŠน์ˆ˜ํ•œ ํ˜•ํƒœ์˜ Partially-Observable MDP (POMDP)๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค:

  • ๊ด€์ธก(Observation): k-timestep ํžˆ์Šคํ† ๋ฆฌ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ผ์„œ ํŒ๋…๊ฐ’
    • Proprioceptive: ๊ด€์ ˆ ๊ฐ๋„(ฮธ), ๊ด€์ ˆ ์†๋„(ฮธฬ‡), ์ด์ „ ํ–‰๋™(a_{t-1}), ์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ
    • Tactile: Binary contacts b โˆˆ {0, 1}^{N_sensors}

ํ•ต์‹ฌ์€ ๋น„์ „์ด๋‚˜ privileged information ์—†์ด, ์˜ค์ง ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ(proprioception)๊ณผ sparse binary contacts๋งŒ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์˜๋„์ ์ธ ์„ค๊ณ„ ์„ ํƒ์ธ๋ฐ:

  1. Sim-to-real ๊ฐญ ์ตœ์†Œํ™”: Binary contact๋Š” ์—ฐ์† ์ธก์ •๊ฐ’์˜ ์„ผ์„œ ๋…ธ์ด์ฆˆ ๋ฌธ์ œ๋ฅผ ํšŒํ”ผ
  2. ํ™•์žฅ์„ฑ: ๊ฐ€์žฅ ๋‹จ์ˆœํ•˜๊ณ  ์ €๋ ดํ•œ ์ด‰๊ฐ ์„ค์ •
  3. ์ˆœ์ˆ˜ ์ด‰๊ฐ ํšจ๊ณผ ๊ฒ€์ฆ: ๋น„์ „ ๋“ฑ ๋ณด์™„ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ๊ฐ„์„ญ ๋ฐฐ์ œ

2.2 ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜

์—์ด์ „ํŠธ๋Š” ์„ธ ๊ฐœ์˜ MLP๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

Observation Encoder (e): o_t โ†’ 1024 โ†’ 512 โ†’ 256 โ†’ z_t Policy (ฯ€): z_t โ†’ 128 โ†’ 64 โ†’ a_t Value Function (v): z_t โ†’ 128 โ†’ 64 โ†’ V(o_t)

PPO(Proximal Policy Optimization)์˜ ํด๋ฆฝ ๋ณ€ํ˜•์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž๊ธฐ์ง€๋„ ๋ณด์กฐ ์†์‹ค(L_aux)๋กœ ํ‘œํ˜„ ํ•™์Šต์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค:

L = L_PPO(ฮธ_e, ฮธ_ฯ€, ฮธ_v) + c_aux ยท L_aux(ฮธ_e, ฮธ_aux)

2.3 ๋„ค ๊ฐ€์ง€ ์ž๊ธฐ์ง€๋„ ๋ชฉ์ ํ•จ์ˆ˜

์—ฐ๊ตฌํŒ€์€ ์ด‰๊ฐ ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ 4๊ฐ€์ง€ SSL ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์ œ์•ˆํ•˜๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค:

2.3.1 Tactile Reconstruction (TR)

ํ•ต์‹ฌ ์•„์ด๋””์–ด: Gradient ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”๊ฐ€ ์•ˆ์ •์ ์ธ proprioceptive history์˜ ํŠน์ง•์„ ์„ ํ˜ธํ•˜์—ฌ ๋ณต์žกํ•œ ์ด‰๊ฐ ์ž…๋ ฅ์„ ๋ฌด์‹œํ•˜๋Š” ๊ฒฝํ–ฅ์„ ์™„ํ™”

๊ตฌํ˜„: - ํ•™์Šต๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„ z_t์—์„œ ์ด‰๊ฐ ๊ด€์ธก o^{tact}_t๋งŒ์„ ๋””์ฝ”๋”ฉ - Binary ์ž…๋ ฅ์ด๋ฏ€๋กœ Binary Cross-Entropy(BCE) ์†์‹ค ์‚ฌ์šฉ - ์ค‘์š”: ํฌ์†Œํ•œ binary contact ๋ฐ์ดํ„ฐ์˜ ๋ถˆ๊ท ํ˜•์„ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด positive weighting p_c = 10 ์ ์šฉ (false negative ํŽ˜๋„ํ‹ฐ ๊ฐ•ํ™”)

L_TR = BCE(รด^{tact}_t, o^{tact}_t) = -(p_c ยท o^{tact}_t ยท log(รด^{tact}_t) + (1 - o^{tact}_t) ยท log(1 - รด^{tact}_t))

2.3.2 Full Reconstruction (FR)

๋น„๊ต ๊ธฐ์ค€์„ : ์ด‰๊ฐ๊ณผ proprioceptive ๊ด€์ธก์„ ๋™์‹œ์— ๋””์ฝ”๋”ฉ

L_FR = L_TR + MSE(รด^{prop}_t, o^{prop}_t)

2.3.3 Forward Dynamics (FD)

ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ƒํƒœ ์ „์ด์—์„œ ๋ฌผ์ฒด ์†๋„๋‚˜ ๋งˆ์ฐฐ ๊ฐ™์€ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ธ์ฝ”๋”ฉํ•˜๋„๋ก ์œ ๋„

๊ตฌํ˜„: - ํ˜„์žฌ ๊ด€์ธก์—์„œ ๋ฏธ๋ž˜ ์—ฌ๋Ÿฌ timestep์˜ ํ‘œํ˜„์„ ์˜ˆ์ธกํ•˜๋„๋ก ์ธ์ฝ”๋” ํ•™์Šต - ๋ฉ”๋ชจ๋ฆฌ์—์„œ ๊ธธ์ด n์˜ ์‹œํ€€์Šค (o_t, a_t, โ€ฆ, o_{t+n-1}, a_{t+n-1}) ์ƒ˜ํ”Œ๋ง - Forward model f๊ฐ€ ์ž๊ธฐํšŒ๊ท€์ ์œผ๋กœ ๋ฏธ๋ž˜ latent state ์˜ˆ์ธก - Target encoder: ์‹ค์ œ ์ธ์ฝ”๋”์˜ EMA(Exponential Moving Average)๋กœ ์•ˆ์ •์  ํ•™์Šต ์‹ ํ˜ธ ์ œ๊ณต - Projector: ์˜ˆ์ธก ํ•™์Šต๊ณผ ๋‹ค์ด๋‚˜๋ฏน์Šค ํ•™์Šต์„ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ๋น„์„ ํ˜• ํ”„๋กœ์ ์…˜ ์ ์šฉ

L_FD = ฮฃ_{i=1}^{n-1} MSE(p(แบ‘_{t+i}), z^T_{t+i})

2.3.4 Tactile Forward Dynamics (TFD)

ํ•ต์‹ฌ ์•„์ด๋””์–ด: ํ•™์Šต๋œ dynamics latent space๊ฐ€ ์ด‰๊ฐ dynamics๋„ ๋ชจ๋ธ๋งํ•˜๋„๋ก ๋ณด์žฅ

๊ตฌํ˜„: Forward dynamics ์†์‹ค์— ๋ฏธ๋ž˜ ์ด‰๊ฐ ์ƒํƒœ ์žฌ๊ตฌ์„ฑ ์†์‹ค ์ถ”๊ฐ€

L_TD = L_FD + ฮฃ_{i=1}^{n-1} BCE(รด^{tact}_{t+i}, o^{tact}_{t+i})

2.4 ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ (Separated Auxiliary Memory)

On-policy RL๊ณผ ๋ณด์กฐ ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ๋™์ผํ•œ rollout ๋ฐ์ดํ„ฐ์—์„œ ๊ณต๋™ ์ตœ์ ํ™”ํ•  ๋•Œ, ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๊ธ‰๊ฒฉํ•œ ๋ณ€ํ™”๊ฐ€ ๋ณด์กฐ ์†์‹ค์— ์ž‘์€ ์ŠคํŒŒ์ดํฌ๋ฅผ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค.

์ œ์•ˆ ํ•ด๊ฒฐ์ฑ…: - ๋ณด์กฐ ํƒœ์Šคํฌ์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ํฐ ๋ณ„๋„ ๋ฒ„ํผ์— ์ €์žฅ - ๋ฒ„ํผ ํฌ๊ธฐ: [N_rollouts, B, R, โ€ฆ] (๊ธฐ์กด on-policy ๋ฉ”๋ชจ๋ฆฌ์˜ N_rollouts ๋ฐฐ)

๊ธฐ๋Œ€ ํšจ๊ณผ: 1. ๋ณด์กฐ ์—…๋ฐ์ดํŠธ ์•ˆ์ •ํ™” 2. ๋” ๋„“์€ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์—์„œ ์ตœ์ ํ™”


3. Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ

3.1 ์„ค๊ณ„ ์ฒ ํ•™

์—ฐ๊ตฌํŒ€์€ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํฌ RoTO๋ฅผ Isaac Lab์—์„œ ๊ตฌํ˜„ํ•˜์—ฌ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์„ธ ๊ฐ€์ง€ ํƒœ์Šคํฌ๋Š” ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์ƒํ˜ธ์ž‘์šฉ ํŒจํ„ด์„ ํฌ๊ด„ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

ํƒœ์Šคํฌ ์ƒํ˜ธ์ž‘์šฉ ํŒจํ„ด ๋กœ๋ด‡ ์ด‰๊ฐ ์„ผ์„œ ์ˆ˜
Find Sparse (ํฌ์†Œ) Franka 2
Bounce Intermittent (๊ฐ„ํ—์ ) Shadow Hand 17
Baoding Sustained (์ง€์†์ ) Shadow Hand 17

3.2 Find ํƒœ์Šคํฌ

๋ชฉํ‘œ: 20cm ร— 20cm ์˜์—ญ ๋‚ด์—์„œ ๊ณ ์ •๋œ ๊ตฌ์ฒด๋ฅผ ์ฐพ๊ธฐ (300 timesteps = 5์ดˆ)

์„ค์ •: - Franka ๋กœ๋ด‡ ์‚ฌ์šฉ, ํ–‰๋™ ๊ณต๊ฐ„ a_t โˆˆ โ„^9 - ์†๊ฐ€๋ฝ์— 2๊ฐœ์˜ ์ด‰๊ฐ ์„ผ์„œ ๋ถ€์ฐฉ - ๊ด€์ธก ํžˆ์Šคํ† ๋ฆฌ ๊ธธ์ด k = 16

๋ณด์ƒ: - r_dist: ๋ฌผ์ฒด์™€ ์—”๋“œ์ดํŽ™ํ„ฐ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์ฆ๊ฐ€

3.3 Bounce ํƒœ์Šคํฌ

๋ชฉํ‘œ: 10์ดˆ(600 timesteps) ๋™์•ˆ ๊ณต์„ ์ตœ๋Œ€ํ•œ ๋งŽ์ด ๋ฐ”์šด์Šค

์„ค์ •: - Shadow Hand ์‚ฌ์šฉ, ํ–‰๋™ ๊ณต๊ฐ„ a_t โˆˆ โ„^20 - ๊ฐ ๋งํฌ๊ฐ€ ์ด‰๊ฐ ์„ผ์„œ ์—ญํ•  (17๊ฐœ) - ๊ด€์ธก ํžˆ์Šคํ† ๋ฆฌ ๊ธธ์ด k = 4 - ๊ณต ํŠน์„ฑ: 70mm ์ง๊ฒฝ, 30g (์‚ฌ๋ฌด์šฉ ์ŠคํŠธ๋ ˆ์Šค๋ณผ ๊ธฐ์ค€)

๋ฐ”์šด์Šค ์ •์˜: ์ตœ์†Œ 5 timesteps(~83ms) ์ ‘์ด‰ ์—†๋Š” ๊ธฐ๊ฐ„ ํ›„์˜ ์ ‘์ด‰ ์ด๋ฒคํŠธ

๋ณด์ƒ: - r_air: ์ ‘์ด‰ ์—†๋Š” ์‹œ๊ฐ„์— ๋น„๋ก€ - r_bounce: ์„ฑ๊ณต์  ๋ฐ”์šด์Šค ์‹œ ๋ณด๋„ˆ์Šค - r_fall: ๊ณต์ด 24cm ์ด์ƒ ๋ฒ—์–ด๋‚˜๋ฉด ํŽ˜๋„ํ‹ฐ

์ธ๊ฐ„ ๊ธฐ๋ก: ๊ธฐ๋„ค์Šค ์„ธ๊ณ„ ๊ธฐ๋ก์€ 60์ดˆ์— 353ํšŒ โ†’ 10์ดˆ์— ์•ฝ 59ํšŒ

3.4 Baoding ํƒœ์Šคํฌ

๋ชฉํ‘œ: 10์ดˆ(600 timesteps) ๋™์•ˆ ๋‘ ๊ฐœ์˜ Baoding ball์„ ์† ์•ˆ์—์„œ ์ตœ๋Œ€ํ•œ ๋งŽ์ด ํšŒ์ „

์„ค์ •: - Shadow Hand ์‚ฌ์šฉ - ๋ณผ ํŠน์„ฑ: 1.5์ธ์น˜ ์ง๊ฒฝ, 55g

ํšŒ์ „ ์ •์˜: ๊ฐ ๊ณต์ด ์ดˆ๊ธฐ ์œ„์น˜๋กœ ๋Œ์•„์˜ค๋ฉด 1ํšŒ์ „ - ๊ฐ€์ƒ ํƒ€๊ฒŸ ์„ค์ •: ๋‘ ๊ณต์˜ ์ค‘์‹ฌ์ด ํƒ€๊ฒŸ ์ค‘์‹ฌ์—์„œ 1.0cm ์ด๋‚ด๋ฉด ํƒ€๊ฒŸ ์ „ํ™˜ ๋ฐ ๋ณด๋„ˆ์Šค

๋ณด์ƒ: - r_dist1, r_dist2: ๊ฐ ๊ณต์˜ ํƒ€๊ฒŸ ๊ฑฐ๋ฆฌ - r_rotation: ์„ฑ๊ณต์  ํšŒ์ „ ์‹œ ๋ณด๋„ˆ์Šค - r_fall: ๊ณต ๊ฐ„ ๊ฑฐ๋ฆฌ๊ฐ€ 15cm ์ดˆ๊ณผ ์‹œ ํŽ˜๋„ํ‹ฐ

์ธ๊ฐ„ ๊ธฐ๋ก: ์˜จ๋ผ์ธ์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์žฅ ๋น ๋ฅธ ์‹œ์—ฐ์€ 10์ดˆ์— 13ํšŒ์ „


4. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„

4.1 ์‹คํ—˜ ์„ค์ •

ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”: - ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋ชจ๋“  ํ™˜๊ฒฝ-๋ฐฉ๋ฒ• ์กฐํ•ฉ์— ๋Œ€ํ•ด ๊ฐœ๋ณ„ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์Šค์œ• ์ˆ˜ํ–‰ - Optuna TPE sampler ์‚ฌ์šฉ, 20 trials per sweep - ์Šค์œ• ํŒŒ๋ผ๋ฏธํ„ฐ: PPO ๊ด€๋ จ (lr, rollout length, minibatches, learning epochs, entropy scale), SSL ๊ด€๋ จ (lr_aux, c_aux), dynamics sequence length n

์ปดํ“จํŒ…: 8ร— NVIDIA RTX A4500, ์ด ~1,260 ์‹œ๊ฐ„

4.2 RL-only ๊ฒฐ๊ณผ: ์ด‰๊ฐ ์ •๋ณด๋Š” ์–ธ์ œ ์œ ์šฉํ•œ๊ฐ€?

์ฒซ ๋ฒˆ์งธ ์‹คํ—˜์€ ์„ธ ๊ฐ€์ง€ RL-only ์—์ด์ „ํŠธ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค: 1. Proprioceptive-tactile 2. Proprioceptive-only 3. Proprioceptive-only (๋งˆ์ง€๋ง‰ ํ–‰๋™ a_{t-1} ์ œ์™ธ)

Find ํƒœ์Šคํฌ

  • Proprioceptive-tactile์ด ์•ฝ๊ฐ„์˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ํ–ฅ์ƒ๋งŒ ์ œ๊ณต
  • ์ตœ์ข… ์„ฑ๋Šฅ์€ proprioceptive-only์™€ ๋™๋“ฑ
  • ํ•ต์‹ฌ ๋ฐœ๊ฒฌ: Proprioceptive ์—์ด์ „ํŠธ์˜ ์„ฑ๊ณต์€ ๋งˆ์ง€๋ง‰ ํ–‰๋™(a_{t-1})์— ๊ฒฐ์ •์ ์œผ๋กœ ์˜์กด
    • ์ œ์–ด ์˜ค๋ฅ˜๋ฅผ ํ†ตํ•œ ์•”๋ฌต์  ๋ฌผ์ฒด ์ ‘์ด‰ ์ถ”๋ก  ๊ฐ€๋Šฅ
    • ์ •์ฑ… ๊ฒ€์‚ฌ ๊ฒฐ๊ณผ: ์ถฉ๋Œ ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ „๋žต ์‚ฌ์šฉ

Bounce ํƒœ์Šคํฌ

  • ์ด‰๊ฐ ์ •๋ณด ์ถ”๊ฐ€ ์‹œ ๋†’์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ๊ณผ ์šฐ์ˆ˜ํ•œ ๋ฆฌํ„ด
  • ํ•˜์ง€๋งŒ proprioceptive-only๋„ ์†์„ ๋ป—์€ ์ƒํƒœ๋กœ ํ‡ดํ™”๋œ, ์ƒํƒœ-๋ถˆ๊ฐ€์ง€๋ก ์  ๋ฐ”์šด์‹ฑ ๋™์ž‘์œผ๋กœ ๋†’์€ ๋ฆฌํ„ด ๋‹ฌ์„ฑ

Baoding ํƒœ์Šคํฌ

  • ์ด‰๊ฐ ์ •๋ณด์˜ ๊ฐ€์žฅ ํฐ ์œ ์šฉ์„ฑ ์ž…์ฆ
  • Proprioceptive-only: ์™„์ „ ์‹คํŒจ
  • Proprioceptive-tactile: ๊ธฐ๋Šฅ์  ์„ฑ๊ณต (๋น„๋ก ๋†’์€ ๋ถ„์‚ฐ)

๊ฒฐ๋ก : ์ด‰๊ฐ ์„ผ์‹ฑ์€ ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ์œ ์šฉ์„ฑ์ด ๋‹ค๋ฆ„. ์ด๋Š” ์„น์…˜ 4.5์˜ โ€œ์™œ ์ด‰๊ฐ์ธ๊ฐ€?โ€ ๋…ผ์˜๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.

4.3 RL+SSL ๊ฒฐ๊ณผ: ์ž๊ธฐ์ง€๋„ํ•™์Šต์˜ ํšจ๊ณผ

๋„ค ๊ฐ€์ง€ SSL ๋ชฉ์ ํ•จ์ˆ˜(TR, FR, FD, TFD)๋ฅผ RL-only ๊ธฐ์ค€์„ ๊ณผ ๋น„๊ต:

์ผ๊ด€๋œ ๊ฒฐ๊ณผ

  • TR๊ณผ FD๊ฐ€ ๋ชจ๋“  ํ™˜๊ฒฝ์—์„œ RL-only ๊ธฐ์ค€์„ ์„ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€

ํ™˜๊ฒฝ๋ณ„ ์„ธ๋ถ€ ๊ฒฐ๊ณผ

  • Find: FD > TR (proprioceptive ํžˆ์Šคํ† ๋ฆฌ ์••์ถ•์ด ๋” ์ค‘์š”)
  • Bounce: FD โ‰ˆ TR (์ด‰๊ฐ ์‹ ํ˜ธ ์••์ถ•์ด ์ฃผ์š” ์ด์ )
    • TFD๋Š” ์ด ํƒœ์Šคํฌ์—์„œ ์ตœ์•…์˜ ์„ฑ๋Šฅ
  • Baoding:
    • TR์ด ๋” ๋†’์€ ํ‰๊ท  ๋ฆฌํ„ด (๋” ์ข์€ ์„ฑ๋Šฅ ๋ถ„ํฌ ๋•๋ถ„)
    • FD๊ฐ€ ๋” ๋†’์€ ์ƒํ•œ ๋„๋‹ฌ
    • FR์ด TR๋ณด๋‹ค ํ˜„์ €ํžˆ ๋‚ฎ์Œ: Proprioceptive ์žฌ๊ตฌ์„ฑ๊ณผ ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ์˜ ๊ฒฐํ•ฉ์ด ๋ถ€์ •์  ๊ฐ„์„ญ ์œ ๋ฐœ
    • TR๋งŒ์ด ์‹คํŒจ ์—†๋Š” ์‹คํ–‰ ๋‹ฌ์„ฑ

FR๊ณผ TFD์˜ ๋ถˆ์ผ์น˜

  • FR, TFD์˜ ์„ฑ๋Šฅ์€ ํ™˜๊ฒฝ์— ๋”ฐ๋ผ ๋ฏผ๊ฐํ•˜๊ฒŒ ๋ณ€ํ™”
  • TFD: Find์—์„œ ์ตœ๊ณ , Bounce์—์„œ ์ตœ์•…

4.4 ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ์˜ ํšจ๊ณผ

FD ์—์ด์ „ํŠธ์— ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ ์šฉํ•œ ๊ฒฐ๊ณผ:

ํƒœ์Šคํฌ ํšจ๊ณผ
Find ์ตœ์†Œ
Bounce ์ตœ์†Œ
Baoding ์ƒ๋‹นํ•œ ๊ฐœ์„ 

ํ•ด์„: Baoding ํƒœ์Šคํฌ๋Š” ๋” ๊ธด ์‹œ๊ฐ„์  ํ˜ธ๋ผ์ด์ฆŒ์˜ dynamics์— ๋Œ€ํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•˜๋ฉฐ, ๋‘ ๊ณต์˜ ํšŒ์ „์€ ๋ฐ”์šด์Šค๋‚˜ ์ ‘์ด‰ ์ด๋ฒคํŠธ๋ณด๋‹ค ๋” ๋งŽ์€ timesteps์— ๊ฑธ์ณ ์ผ์–ด๋‚จ.

4.5 ๋ฌผ๋ฆฌ์  ์ง€ํ‘œ๋กœ ๋ณธ ์„ฑ๋Šฅ

์ตœ์ ํ™”๋œ ์—์ด์ „ํŠธ์˜ ๋ฌผ๋ฆฌ์  ์„ฑ๋Šฅ:

ํƒœ์Šคํฌ ์ง€ํ‘œ RL-only ์ตœ๊ณ  SSL ์ธ๊ฐ„ ๊ธฐ๋ก
Find ๋ฌผ์ฒด ๋ฐœ๊ฒฌ ์‹œ๊ฐ„ 1.9์ดˆ 1.4์ดˆ (FD, 36%โ†“) 2.1์ดˆ
Bounce 10์ดˆ๋‹น ๋ฐ”์šด์Šค 69ํšŒ 79ํšŒ (FD, +10ํšŒ) 59ํšŒ (๊ธฐ๋„ค์Šค)
Baoding 10์ดˆ๋‹น ํšŒ์ „ 5ํšŒ 17ํšŒ (FD+Memory) 13ํšŒ

Superhuman ์„ฑ๋Šฅ: - Bounce: ์ตœ๊ณ  ์—์ด์ „ํŠธ 88ํšŒ (๊ธฐ๋„ค์Šค ๊ธฐ๋ก์˜ ~1.5๋ฐฐ) - Baoding: ์ตœ๊ณ  ์—์ด์ „ํŠธ 25ํšŒ (์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ ~2๋ฐฐ)


5. ์‹ฌ์ธต ๋…ผ์˜: ํ•ต์‹ฌ ์งˆ๋ฌธ๋“ค์— ๋Œ€ํ•œ ๋‹ต๋ณ€

5.1 Q1: Binary contacts๋Š” proprioceptive history๋ฅผ ๋„˜์–ด์„œ๋Š” ์ด์ ์„ ์ œ๊ณตํ•˜๋Š”๊ฐ€?

๋‹ต๋ณ€: Yes, ํ•˜์ง€๋งŒ ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ๋‹ค๋ฆ„

์—ฐ๊ตฌํŒ€์€ ๋ช…์‹œ์  ์ด‰๊ฐ ์ •๋ณด๊ฐ€ ์œ ์šฉํ•œ ๊ฒฝ์šฐ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค:

1. ๋ถ„๋ฆฌ๋œ ๋ฌผ์ฒด-๋กœ๋ด‡ dynamics (Decoupled object-robot dynamics)

๋ฌผ์ฒด์˜ ์›€์ง์ž„์ด ๊ด€์ ˆ ๋ฐฉํ–ฅ๊ณผ ์ง๊ตํ•˜๋Š” ์„ฑ๋ถ„์„ ๊ฐ€์งˆ ๋•Œ, ์ ‘์ด‰์ด ๋ฐœ์ƒํ•ด๋„ ๊ด€์ ˆ ์ œ์–ด ์˜ค๋ฅ˜๊ฐ€ ๊ฑฐ์˜ ๋ณ€ํ™”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์˜ˆ์‹œ: Baoding ํƒœ์Šคํฌ์—์„œ ๊ณต๋“ค์€ ์ฃผ๋กœ ์†์˜ ํ‰๋ฉด์„ ๋”ฐ๋ผ ์ˆ˜ํ‰์œผ๋กœ ์ด๋™ํ•˜๋ฉฐ, ์ด๋Š” ์กฐ์ž‘์— ์‚ฌ์šฉ๋˜๋Š” ๊ด€์ ˆ ์šด๋™๊ณผ ๋ถ„๋ฆฌ๋ฉ๋‹ˆ๋‹ค.

2. ์ €๊ด€์„ฑ ๋ฌผ์ฒด (Low-inertia objects)

๋งค์šฐ ๊ฐ€๋ณ๊ฑฐ๋‚˜ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ๋ฌผ์ฒด(์˜ˆ: Bounce์˜ 30g ๊ณต, ์ข…์ด, ์ŠคํŽ€์ง€)๋Š” ์ ‘์ด‰ ์‹œ ์ถฉ๋ถ„ํ•œ ๋ฐ˜๋ ฅ์„ ์ƒ์„ฑํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ: ๋กœ๋ด‡์˜ proprioceptive ์„ผ์„œ๊ฐ€ ์œ ์˜๋ฏธํ•œ ์‹ ํ˜ธ๋ฅผ ๋“ฑ๋กํ•˜์ง€ ๋ชปํ•ด, ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ์ง€๋ฅผ ์œ„ํ•ด ๋ช…์‹œ์  ์ด‰๊ฐ ์„ผ์‹ฑ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

3. ์ ‘์ด‰ ๊ณต๊ฐ„์  ๋ชจํ˜ธ์„ฑ (Contact spatial ambiguity)

์ •์ฑ…์ด ๋‹จ์ผ ๊ฐ•์ฒด ๋งํฌ๋ฅผ ๋”ฐ๋ผ ์ ‘์ด‰์˜ ํŠน์ • ์œ„์น˜๋ฅผ ์•Œ์•„์•ผ ํ•  ๋•Œ.

๋ฌธ์ œ: ๊ด€์ ˆ ์ œ์–ด ์˜ค๋ฅ˜๋Š” ๋ชจํ„ฐ์— ๋Œ€ํ•œ ์ˆœ ํž˜ ๊ธฐ์—ฌ๋งŒ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ๊ด€์ ˆ์—์„œ ํž˜๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ํ™•์ธํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

4. ๋‹ค์ค‘ ์ ‘์ด‰ ํ•ด์ƒ๋„ (Multi-contact resolution)

์ •์ฑ…์ด ์ด ํž˜ ๊ธฐ์—ฌ์˜ ์ถœ์ฒ˜๋ฅผ ๊ตฌ๋ถ„ํ•ด์•ผ ํ•  ๋•Œ (ํ•˜๋‚˜์˜ ๊ฐ•ํ•œ ์ ‘์ด‰ vs ์—ฌ๋Ÿฌ ์•ฝํ•œ ๋™์‹œ ์ ‘์ด‰).

๋ฌธ์ œ: ์ œ์–ด ์˜ค๋ฅ˜๋Š” ์ˆœ ํž˜์˜ ์ด ํฌ๊ธฐ๋งŒ ์ œ๊ณตํ•˜์—ฌ, ๋‹ค์ค‘ ๋ฏธ์„ธ ์ ‘์ด‰ ์ด๋ฒคํŠธ ๊ฐ„์˜ ๊ตฌ๋ถ„์„ ํ๋ฆฌ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

5.2 Q2: ์ž๊ธฐ์ง€๋„ํ•™์Šต์ด ์ •ํ™•ํžˆ ์–ด๋–ป๊ฒŒ ๋„์›€์ด ๋˜๋Š”๊ฐ€?

๊ฐ€์„ค: SSL์ด ํƒœ์Šคํฌ-ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ํ•™์Šต๋œ ํ‘œํ˜„ z_t์— ์••์ถ•ํ•˜๋„๋ก ๊ฐ•์ œํ•จ์œผ๋กœ์จ ๋„์›€

๊ฒ€์ฆ: ์ถ•์†Œ๋œ latent ํ‘œํ˜„ z_t์™€ ground-truth ์ƒํƒœ ๋ณ€์ˆ˜ ๋ฒกํ„ฐ s_t ๊ฐ„์˜ ์ƒํ˜ธ ์ •๋ณด I(z_t; s_t) ์ธก์ •

๋ฐฉ๋ฒ•๋ก : - KSG(Kraskov-Stoegbauer-Grassberger) ์ถ”์ •๊ธฐ ์‚ฌ์šฉ - 256์ฐจ์› z_t๋ฅผ PCA๋กœ D=13 ์„ฑ๋ถ„์œผ๋กœ ์ถ•์†Œ (๊ณ ์ฐจ์› ํŽธํ–ฅ ๋Œ€์‘) - K=4 ์ตœ๊ทผ์ ‘ ์ด์›ƒ ์‚ฌ์šฉ

Bounce ๊ฒฐ๊ณผ

  • ๊ธฐ๋ณธ PPO๊ฐ€ ๊ฐ€์žฅ ๋†’์€ I(z_t; s_t) โ†’ ๋ฐ˜๋ณต์ , ์ €์—”ํŠธ๋กœํ”ผ ๋™์ž‘(๊ณต์„ ๊ฐ€๋‘๋Š”)์œผ๋กœ ์ธํ•œ ์ธ์œ„์  MI ์ฆ๊ฐ€
  • ์žฌ๊ตฌ์„ฑ ์—์ด์ „ํŠธ: MI โ‰ˆ 0
  • dynamics ์—์ด์ „ํŠธ๋งŒ ๋น„์˜ MI ๋“ฑ๋ก

Marginal MI ๋ถ„์„: I(z_t; s_{t,j}) - FD ์—์ด์ „ํŠธ: ๊ณต์˜ ์ˆ˜์ง ์†๋„์™€ ์œ„์น˜ ์ •๋ณด(x, z ์ขŒํ‘œ)๋ฅผ ๊ณ ์œ ํ•˜๊ฒŒ ์ธ์ฝ”๋”ฉ - ๋ชจ๋“  ์—์ด์ „ํŠธ: ์ ‘์ด‰ ์—†๋Š” timesteps ์ˆ˜ ๋ณต์› - TR, TFD: ๊ณต์˜ ์ˆ˜์ง ์†๋„ ์ถ”๊ฐ€ ๋ณต์›

Baoding ๊ฒฐ๊ณผ

  • MI ๋ถ„ํฌ๊ฐ€ ์„ฑ๋Šฅ ๋ถ„ํฌ์™€ ๋” ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜
  • FD ์—์ด์ „ํŠธ๊ฐ€ PPO์˜ ๊ฑฐ์˜ 3๋ฐฐ MI ํฌ์ฐฉ

Marginal MI ๋ถ„์„: - FD๋งŒ ๋น„์˜ marginals ๋‹ฌ์„ฑ - ๊ณต ์œ„์น˜ ์ธ์ฝ”๋”ฉ ์šฐ์„ ์ˆœ์œ„: x (์†๊ณผ ํ‰ํ–‰) > y (์†์— ์ˆ˜์ง) > z

5.3 Q3: ์ž๊ธฐ์ง€๋„ํ•™์Šต์ด proprioceptive, tactile, ๋˜๋Š” ๊ฒฐํ•ฉ ํ‘œํ˜„์„ ๊ฐ•ํ™”ํ•˜๋Š”๊ฐ€?

์žฌ๊ตฌ์„ฑ ๋ชฉ์ ํ•จ์ˆ˜

  • Find: FR > TR โ†’ proprioceptive ํžˆ์Šคํ† ๋ฆฌ ์••์ถ•์ด ๋” ์œ ์ต (์ œ์–ด ์˜ค๋ฅ˜๋กœ ๋ฌผ์ฒด ๊ฐ์ง€์— ๋” ์˜์กด)
  • Bounce: FR โ‰ˆ TR โ†’ ์ด‰๊ฐ ์‹ ํ˜ธ ์••์ถ•์ด ์ฃผ์š” ์ด์ 
  • Baoding: TR >> FR โ†’ proprioceptive + tactile ์žฌ๊ตฌ์„ฑ ๊ฒฐํ•ฉ์ด ๋ถ€์ •์  ๊ฐ„์„ญ ์œ ๋ฐœ
    • TR๋งŒ์ด ์‹คํŒจ ์—†๋Š” ์‹คํ–‰ ๋‹ฌ์„ฑ
    • ์—์ด์ „ํŠธ ์‹คํŒจ๊ฐ€ ์ด‰๊ฐ ์ •๋ณด์˜ ๊ฒฌ๊ณ ํ•œ ํ‘œํ˜„ ๋ถˆ๋Šฅ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ

Dynamics ๋ชฉ์ ํ•จ์ˆ˜

  • TFD vs FD ๋น„๊ต: ๊ฒฐํ•ฉ ํ‘œํ˜„์—์„œ forward dynamics + ์˜ˆ์ธก latent state์˜ ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ ์†์‹ค
  • Find: TFD ์•ฝ๊ฐ„ ์œ ์ต โ†’ ์†์‹ค ์กฐํ•ฉ์ด ์œ ์šฉํ•  ์ˆ˜ ์žˆ์Œ
  • Bounce, Baoding: TFD๊ฐ€ FD๋ณด๋‹ค ์ €์กฐ

ํ•ด์„: 1. FD๊ฐ€ ๊ฒฐํ•ฉ ํ‘œํ˜„์—์„œ ํ•„์š”ํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์•”๋ฌต์ ์œผ๋กœ ํฌ์ฐฉํ•  ์ •๋„๋กœ ๊ฒฌ๊ณ  2. ๋ช…์‹œ์  ์žฌ๊ตฌ์„ฑ ์†์‹ค์ด ๋ฐ”๋žŒ์งํ•˜์ง€ ์•Š์€ ํ•™์Šต ์ถฉ๋Œ์„ ์œ ๋ฐœ

5.4 Q4: Forward model์€ ์ด‰๊ฐ ์ƒํ˜ธ์ž‘์šฉ์˜ dynamics๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ•™์Šตํ•˜๋Š”๊ฐ€?

๋‹ต๋ณ€: ๋งค์šฐ ์ž˜ ํ•™์Šตํ•จ

์—ฐ๊ตฌํŒ€์€ ๋ฏธ๋ž˜ ์ตœ๋Œ€ 10 timesteps๊นŒ์ง€์˜ ์ด‰๊ฐ ์ƒํƒœ ์˜ˆ์ธก์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ์ง€ํ‘œ๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค:

ํ•ต์‹ฌ ๋ฐœ๊ฒฌ

  • True positive rate: ~99% (Baoding), ~90-99% (Bounce)
  • False negative rate < 1% (๋†’์€ positive weighting ๋•๋ถ„)
  • ๋‹ค์†Œ ๊ณผ์˜ˆ์ธก ๊ฒฝํ–ฅ (๊ณผ์†Œ์˜ˆ์ธก๋ณด๋‹ค)

ํฅ๋ฏธ๋กœ์šด ๊ด€์ฐฐ

  • Bounce o_7: ์ ‘์ด‰ ์—†๋Š” ๊ด€์ธก์—์„œ ๋””์ฝ”๋”๊ฐ€ ๋‹ค์Œ ์ƒํƒœ์˜ ์ ‘์ด‰์„ ์ •ํ™•ํžˆ ์˜ˆ์ธก (์œ„์น˜๋Š” ๋‹ค์†Œ ๋ถ€์ •ํ™•)
    • ์ด๋Š” ํ‘œํ˜„์ด ๊ณต์˜ z ์œ„์น˜์™€ ์†๋„ ์„ฑ๋ถ„์„ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌ
  • Baoding: ์ผ๋ถ€ false positive ์˜ˆ์ธก์ด ๋‹จ์ง€ 1 timestep ๋น ๋ฆ„ (์ •ํ™•ํ•˜์ง€๋งŒ ํƒ€์ด๋ฐ๋งŒ ์ฐจ์ด)

5.5 Q5: On-policy ์—์ด์ „ํŠธ๊ฐ€ off-policy ๋ฐ์ดํ„ฐ์—์„œ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋ฉด ์ด์ ์ด ์žˆ๋Š”๊ฐ€?

๋‹ต๋ณ€: Yes, ํšจ๊ณผ๋Š” ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ๋‹ค๋ฆ„

  • Find, Bounce: ์ตœ์†Œ ํšจ๊ณผ
  • Baoding: ์ƒ๋‹นํ•œ ๊ฐœ์„ 

ํ•ด์„: Baoding์˜ ํšŒ์ „ ํƒœ์Šคํฌ๊ฐ€ ๋” ๊ธด ์‹œ๊ฐ„์  ํ˜ธ๋ผ์ด์ฆŒ์— ๊ฑธ์นœ ์ถ”๋ก ์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ

์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์‹œ์‚ฌ์ : Off-policy ๋ฐ์ดํ„ฐ๋ฅผ on-policy ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด ์œ ๋งํ•œ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ


6. ํ‘œํ˜„ ๋ถ„์„: Latent Trajectory ์‹œ๊ฐํ™”

์—ฐ๊ตฌํŒ€์€ ๊ฐ ์—์ด์ „ํŠธ์˜ latent ํ‘œํ˜„ z_t๋ฅผ PCA๋กœ 2D๋กœ ์ถ•์†Œํ•˜์—ฌ ๋‹จ์ผ ์—ํ”ผ์†Œ๋“œ์˜ ๊ถค์ ์„ ์‹œ๊ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.

Baoding

RL-only

  • ๊ณ ๋ฆฌ ํ˜•ํƒœ ๊ถค์ : ๋ฐ˜๋ณต์  ๋™์ž‘ ๋ฐ˜์˜
  • ๋ฐ˜ํšŒ์ „ ๊ฐ„ ์ ‘์ด‰ ํ™œ์„ฑํ™”์˜ ๋Œ€์นญ์„ฑ (๋‘ ์ด‰๊ฐ ํ”ผํฌ)

TR (Tactile Reconstruction)

  • ํ•˜ํŠธ ํ˜•ํƒœ, ํ™•์‚ฐ๋œ ๊ถค์ : ๊ฐ ํšŒ์ „์ด ์•ฝ๊ฐ„์”ฉ ๋‹ค๋ฆ„
  • ๋ฐ˜ํšŒ์ „ ๊ฐ„ ์ ‘์ด‰ ํ™œ์„ฑํ™”์˜ ๋น„๋Œ€์นญ์„ฑ
  • ์ •์ฑ…: FD์ฒ˜๋Ÿผ ๋ถ€๋“œ๋Ÿฝ์ง€๋งŒ RL-only์ฒ˜๋Ÿผ ๊ณต์„ ๊ฐ€๊น๊ฒŒ ์œ ์ง€

FD (Forward Dynamics)

  • ๋” ํƒ€์ดํŠธํ•œ ๊ณ ๋ฆฌ ํ˜•ํƒœ: RL-only๋ณด๋‹ค ์ข์€ ๊ฒฝ๊ณ„
  • ๋ฐ˜ํšŒ์ „ ๊ฐ„ ์ ‘์ด‰ ํ™œ์„ฑํ™”์˜ ๋น„๋Œ€์นญ์„ฑ

Bounce

RL-only

  • ์ˆœ์ฐจ์  latent ์ƒํƒœ๊ฐ€ ๊ณ ๋„๋กœ ๋ถˆ์—ฐ์†์ ์ด๊ณ  ๋ฉ€๋ฆฌ ๋–จ์–ด์ง
  • ์—์ด์ „ํŠธ๊ฐ€ ๋†’์€ ์ •๋ฐ€๋„๋กœ ๋™์ผํ•œ ๋™์ž‘ ๋ฐ˜๋ณต
  • ์ตœ๋Œ€ 6๊ฐœ ํ™œ์„ฑํ™”์˜ ๋น„์˜ ์ด‰๊ฐ ๊ด€์ธก ์˜์—ญ ๋‘ ๊ณณ (๊ฒ€์ง€์™€ ์†Œ์ง€๋กœ ๊ณต ์•ˆ์ •ํ™”)

SSL ์—์ด์ „ํŠธ

  • ์™„์ „ํžˆ ๋‹ค๋ฅธ ๊ถค์ : 1-2๊ฐœ ์ ‘์ด‰๋งŒ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ๋ณดํ–‰์œผ๋กœ ์ „ํ™˜
  • ์ˆœ์ฐจ ์ƒํƒœ๊ฐ€ ์—ฌ์ „ํžˆ ๋‹ค์–‘ํ•œ ์˜์—ญ์— ๋ถ„ํฌํ•˜์ง€๋งŒ, ์˜์—ญ์ด ํ›จ์”ฌ ํ™•์‚ฐ๋จ

7. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

7.1 ์ฃผ์š” ํ•œ๊ณ„

์‹ค์ œ ํ•˜๋“œ์›จ์–ด ๊ฒ€์ฆ ๋ถ€์žฌ

  • ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ(Isaac Lab)์—์„œ ๋„์ถœ
  • ์™„ํ™” ์ „๋žต: Sparse binary contact ์‹ ํ˜ธ์— ์ง‘์ค‘ํ•˜์—ฌ ์—ฐ์† ์„ผ์„œ ๋…ธ์ด์ฆˆ์˜ ์ฃผ์š” ๋ณต์žก์„ฑ ํšŒํ”ผ

๊ณ„์‚ฐ ์‹œ๊ฐ„ ์ฆ๊ฐ€

  • SSL ์—์ด์ „ํŠธ ํ•™์Šต์€ RL-only๋ณด๋‹ค ๋” ๋งŽ์€ ๊ณ„์‚ฐ ์‹œ๊ฐ„ ์†Œ์š”
  • ์žฌ๊ตฌ์„ฑ์€ ์˜ํ–ฅ์ด ์ ์ง€๋งŒ, forward dynamics์˜ sequence length n์ด ๋†’์„์ˆ˜๋ก ๊ทน์ ์œผ๋กœ ์ฆ๊ฐ€

์ถ”๊ฐ€ ๋ฉ”๋ชจ๋ฆฌ ์š”๊ตฌ

  • ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ์‹œ ๋” ๋งŽ์€ ๋ฉ”๋ชจ๋ฆฌ ํ•„์š”

7.2 Sim-to-Real ์ „์ด ๊ฐ€๋Šฅ์„ฑ

์—ฐ๊ตฌํŒ€์€ ํ•ต์‹ฌ ๊ธฐ์—ฌ๊ฐ€ ์ตœ์ ํ™” ์ „๋žต์ด๋ผ๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค: - ์šฐ์ˆ˜ํ•˜๊ณ  ๊ตฌ๋ณ„๋˜๋Š” ์ •์ฑ…์„ ์‚ฐ์ถœํ•˜๋Š” ์ „๋žต - ์ด์ ์€ ์ „์ด ๊ฐ€๋Šฅํ•ด์•ผ ํ•จ (RL-only ์—์ด์ „ํŠธ์˜ ์ตœ์ข… sim-to-real ๊ฐญ์ด ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค๋ฉด)

7.3 ์ผ๋ฐ˜ํ™” ๊ธฐ๋Œ€

  • ๋‹ค๋ฅธ ํ™˜๊ฒฝ ๋„๋ฉ”์ธ(์˜ˆ: locomotion)์— ์ ‘๊ทผ๋ฒ•์„ ์ ์šฉํ•ด๋„ ์œ ์‚ฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์˜ˆ์ƒ๋จ

8. ์‹ค์šฉ์  ๊ถŒ์žฅ์‚ฌํ•ญ

์—ฐ๊ตฌํŒ€์€ ๋ฐœ๊ฒฌ์„ ๋‘ ๊ฐ€์ง€ ๊ถŒ์žฅ์‚ฌํ•ญ์œผ๋กœ ์••์ถ•ํ•ฉ๋‹ˆ๋‹ค:

๊ถŒ์žฅ์‚ฌํ•ญ 1: SSL๊ณผ ๊ณต๋™ ํ•™์Šต

์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL ์—์ด์ „ํŠธ๋ฅผ tactile reconstruction ๋˜๋Š” forward dynamics์™€ ๋ถ„๋ฆฌ๋œ ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ๋กœ ๊ณต๋™ ํ•™์Šตํ•˜์„ธ์š”.

์œ ์‚ฌํ•œ ์„ค์ •์—์„œ ์ž‘์—…ํ•˜๊ณ  ๋” ๋†’์€ (๊ทธ๋ฆฌ๊ณ  ์ž ์žฌ์ ์œผ๋กœ ๋” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š”) ๋ฆฌํ„ด ๋ถ„ํฌ๋ฅผ ์›ํ•œ๋‹ค๋ฉด.

๊ถŒ์žฅ์‚ฌํ•ญ 2: ๋‹จ์ˆœํ•œ ์ด‰๊ฐ ํ‘œํ˜„๋ถ€ํ„ฐ ์‹œ์ž‘

์ฒ˜์Œ์—๋Š” ๋” ๋‹จ์ˆœํ•œ ์ด‰๊ฐ ์ •๋ณด ํ˜•์‹(binary, continuous, contact pose)์„ ๊ตฌํ˜„ํ•˜๊ณ , ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋งŒ ํ”ฝ์…€ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ‘œํ˜„์œผ๋กœ ์ „ํ™˜ํ•˜์„ธ์š”.

  • ์ฆ๊ฐ€๋œ ๊ฐ๊ฐ ์ •๋ณด๊ฐ€ ์ด๋ก ์ ์œผ๋กœ ์œ ๋ฆฌํ•˜์ง€๋งŒ, ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ๋น„์šฉ ์ˆ˜๋ฐ˜
  • ํ†ต๊ณ„์ ์œผ๋กœ ๋” ์–ด๋ ค์›€: Z^{N_sensors} ๊ณต๊ฐ„์˜ ํ•จ์ˆ˜๊ฐ€ {0,1}^{N_sensors}๋ณด๋‹ค ํ›จ์”ฌ ํผ
  • ํ”ฝ์…€ ๊ธฐ๋ฐ˜ ์‹ ํ˜ธ์˜ ๋Œ€์—ญํญ์ด Isaac Lab ๋“ฑ์—์„œ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ ์ˆ˜๋ฅผ ์ง์ ‘ ์ œํ•œ
  • ๋ณธ ์—ฐ๊ตฌ๊ฐ€ binary ์ด‰๊ฐ ๊ด€์ธก์˜ ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ํšจ๋Šฅ์„ ๋ฐํ˜”์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์šฐ์„  ํ™œ์šฉ

9. ์ด ๋…ผ๋ฌธ์˜ ์˜์˜์™€ ๋กœ๋ด‡๊ณตํ•™์— ๋Œ€ํ•œ ์‹œ์‚ฌ์ 

9.1 ํ•™์ˆ ์  ๊ธฐ์—ฌ

  1. ์ด‰๊ฐ RL์˜ ๋ชจ์ˆœ์  ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์„ค๋ช…: ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ํฌ์†Œ์„ฑ๊ณผ ๋น„์—ฐ์†์„ฑ์ด ํ•™์Šต์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค๋ฉฐ, SSL์ด ์ด๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆ

  2. ์ด‰๊ฐ ์œ ์šฉ์„ฑ์˜ ์กฐ๊ฑด ๊ทœ๋ช…: ๋‹จ์ˆœํžˆ โ€œ์ด‰๊ฐ์ด ์ข‹๋‹ค/๋‚˜์˜๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ, ์–ธ์ œ, ์™œ ์œ ์šฉํ•œ์ง€๋ฅผ ๋„ค ๊ฐ€์ง€ ์กฐ๊ฑด์œผ๋กœ ๋ช…ํ™•ํžˆ ์ •๋ฆฌ

  3. ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต: RoTO๊ฐ€ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์—ฐ๊ตฌ์˜ ํ‘œ์ค€ํ™”์™€ ์žฌํ˜„์„ฑ์„ ์ด‰์ง„ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€

  4. Off-policy ๋ฐ์ดํ„ฐ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ: On-policy ํ•™์Šต์—์„œ off-policy ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์‹œ

9.2 ์‹ค์šฉ์  ์‹œ์‚ฌ์ 

์„ผ์„œ ์„ค๊ณ„ ๊ด€์ 

  • ๊ณ ํ•ด์ƒ๋„ visuotactile ์„ผ์„œ๊ฐ€ ํ•ญ์ƒ ํ•„์š”ํ•œ ๊ฒƒ์€ ์•„๋‹˜
  • Binary contact ์„ผ์„œ๋งŒ์œผ๋กœ๋„ superhuman ์†์žฌ์ฃผ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ
  • ๋น„์šฉ ํšจ์œจ์ ์ธ ์ด‰๊ฐ ์‹œ์Šคํ…œ ์„ค๊ณ„์˜ ๊ฐ€๋Šฅ์„ฑ

ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ด€์ 

  • End-to-end RL๋งŒ์œผ๋กœ๋Š” ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋ฅผ ์™„์ „ํžˆ ํ™œ์šฉํ•˜๊ธฐ ์–ด๋ ค์›€
  • ํ‘œํ˜„ ํ•™์Šต ๋ณด์กฐ ๋ชฉ์ ํ•จ์ˆ˜๊ฐ€ ํ•„์ˆ˜์ 
  • Forward dynamics๊ฐ€ ํŠนํžˆ ํšจ๊ณผ์ 

Sim-to-Real ๊ด€์ 

  • Binary contact์— ์ง‘์ค‘ํ•จ์œผ๋กœ์จ sim-to-real ๊ฐญ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ์ „๋žต ์ œ์‹œ
  • ์—ฐ์† ์„ผ์„œ ๋…ธ์ด์ฆˆ ๋ชจ๋ธ๋ง์˜ ๋ณต์žก์„ฑ ํšŒํ”ผ

9.3 ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  1. ์‹ค์ œ ๋กœ๋ด‡ ๊ฒ€์ฆ: Shadow Hand ๋˜๋Š” ์œ ์‚ฌํ•œ dexterous hand์—์„œ์˜ sim-to-real ์ „์ด ์—ฐ๊ตฌ

  2. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ: ๋น„์ „๊ณผ ์ด‰๊ฐ์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•  ๋•Œ์˜ SSL ์ „๋žต

  3. ์—ฐ์† ์ด‰๊ฐ ์‹ ํ˜ธ: Binary๋ฅผ ๋„˜์–ด ์—ฐ์†์ ์ธ ์••๋ ฅ/์ „๋‹จ๋ ฅ ์ •๋ณด ํ™œ์šฉ ์‹œ์˜ SSL ์ ‘๊ทผ๋ฒ•

  4. ๊ณ„์ธต์  ํ•™์Šต: ์žฅ๊ธฐ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์Šคํ‚ฌ ํ•™์Šต๊ณผ ์กฐํ•ฉ


10. ๋งˆ์น˜๋ฉฐ

Elle Miller ์—ฐ๊ตฌํŒ€์˜ ์ด ๋…ผ๋ฌธ์€ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ๋ถ„์•ผ์˜ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ์ž…๋‹ˆ๋‹ค. 10๋…„ ์ด์ƒ ์ถ•์ ๋œ ๋ชจ์ˆœ์  ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋“ค์— ๋ช…ํ™•ํ•œ ํ•ด์„์„ ์ œ๊ณตํ•˜๊ณ , ์‹ค์šฉ์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์ธ์ƒ์ ์ธ ๊ฒƒ์€:

  1. ๋‹จ์ˆœํ•จ์˜ ํž˜: ๋ณต์žกํ•œ ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์•„๋‹Œ ๋‹จ์ˆœํ•œ binary contact๋กœ superhuman ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  2. ๋ช…ํ™•ํ•œ ๋ถ„์„: ์ด‰๊ฐ์ด โ€œ์™œโ€ ๊ทธ๋ฆฌ๊ณ  โ€œ์–ธ์ œโ€ ํ•„์š”ํ•œ์ง€์— ๋Œ€ํ•œ ์ฒด๊ณ„์  ๋ถ„์„
  3. ์žฌํ˜„ ๊ฐ€๋Šฅ์„ฑ: RoTO ๋ฒค์น˜๋งˆํฌ์™€ ์ฝ”๋“œ ๊ณต๊ฐœ๋กœ ํ›„์† ์—ฐ๊ตฌ ์ด‰์ง„

๋กœ๋ด‡์ด ์ง„์ •์œผ๋กœ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด, ๋ณด๋Š” ๊ฒƒ์„ ๋„˜์–ด ๋А๋ผ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋Š” ์ค‘์š”ํ•œ ํ•œ ๊ฑธ์Œ์ž…๋‹ˆ๋‹ค.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

๋กœ๋ด‡์ด ์ธ๊ฐ„์ฒ˜๋Ÿผ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•˜๋ ค๋ฉด ์‹œ๊ฐ์— ์˜์กดํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด ํ™˜๊ฒฝ์„ โ€œ๋А๋‚„โ€ ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ„ํ˜ธ ๋กœ๋ด‡์ด ํ™˜์ž๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋ถ€์ถ•ํ•˜๊ฑฐ๋‚˜, ์žฅ์• ์ธ์„ ๋•๋Š” ๋กœ๋ด‡ ํŒ”์ด ์นซ์†”์งˆ์„ ๋„์šธ ๋•Œ, ๋กœ๋ด‡์ด ๋‹จ์ˆœํžˆ ์นด๋ฉ”๋ผ ์˜์ƒ๋งŒ ๋ณด๋Š” ๊ฒƒ์œผ๋กœ๋Š” ์•ˆ์ „ํ•˜๊ณ  ์ •๊ตํ•œ ๋™์ž‘์„ ๋ณด์žฅํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ์ด๋Ÿฌํ•œ ์ด‰๊ฐ ์„ผ์‹ฑ(tactile sensing) ๋Šฅ๋ ฅ์€ ๋กœ๋ด‡์ด ๋ฌผ์ฒด์™€ ์ ‘์ด‰ํ•˜๋Š” ๋ฏธ์„ธํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ์ง€ํ•˜์—ฌ ๋ณด๋‹ค ์ธ๊ฐ„์— ๊ฐ€๊นŒ์šด ์„ฌ์„ธํ•œ ์ œ์–ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ง€๊ธˆ๊นŒ์ง€ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ ์ด์ƒ์ ์ธ ์ƒํƒœ ์ •๋ณด(์˜ˆ: ๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ ์œ„์น˜๋‚˜ ์ ‘์ด‰ ์ง€์ ) ์—†์ด ์ˆœ์ˆ˜ํ•˜๊ฒŒ ์„ผ์„œ ์ •๋ณด๋งŒ์œผ๋กœ ๊ณ ๋‚œ๋„ ์ž‘์—…์„ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์€ ํฐ ๋„์ „์ด์—ˆ๋‹ค. ๊ณผ๊ฑฐ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ฌผ์ฒด์™€ ์†๊ฐ€๋ฝ ์œ„์น˜ ์ถ”์ •์„ ์œ„ํ•ด 19๋Œ€์˜ ์นด๋ฉ”๋ผ๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ทน๋‹จ์ ์ธ ์‚ฌ๋ก€๋„ ์žˆ์—ˆ๋‹ค. ์ด๋Š” ํ˜„์‹ค์ ์œผ๋กœ ๋งค์šฐ ๋น„ํšจ์œจ์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning, RL)์„ ํ†ตํ•ด ๋กœ๋ด‡์ด ์ง์ ‘ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๋„๋ก ํ•˜๋Š” ์ ‘๊ทผ์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

๊ฐ•ํ™”ํ•™์Šต์€ ์ตœ๊ทผ ๋กœ๋ด‡ ๋ณดํ–‰ ๋“ฑ์—์„œ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์ง€๋งŒ, ๋กœ๋ด‡ ์กฐ์ž‘(manipulation) ๋ถ„์•ผ์—์„œ๋Š” ์•„์ง ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์— ๋งŽ์ด ์˜์กดํ•˜๊ณ  ์žˆ๋‹ค. ํŠนํžˆ ๊ธฐ์กด์˜ ์กฐ์ž‘ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ํ•œ๊ณ„์™€ ๋ณต์žกํ•œ ๋ณด์ƒ ์„ค๊ณ„ ๋ฌธ์ œ, ๊ทธ๋ฆฌ๊ณ  ๋ฌด์—‡๋ณด๋‹ค ์ด์ƒ์ ์ธ ์ƒํƒœ ์ •๋ณด์—์˜ ๊ณผ๋„ํ•œ ์˜์กด ๋•Œ๋ฌธ์— ํ•œ๊ณ„๋ฅผ ๋ณด์˜€๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์˜ ๋Œ€์ƒ์ธ Miller ๋“ฑ(2025)์˜ ๋…ผ๋ฌธ โ€œEnhancing Tactile-based Reinforcement Learning for Robotic Controlโ€์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋กœ ๊ทน๋ณตํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ €์ž๋“ค์€ โ€œ์กฐ์ž‘(manipulation)์€ ๋ณธ์งˆ์ ์œผ๋กœ ์„ ํƒ์  ์ ‘์ด‰์„ ํ†ตํ•œ ์ œ์–ดโ€๋ผ๋Š” ๊ด€์ ์—์„œ, ์ด‰๊ฐ ์„ผ์‹ฑ๋งŒ์œผ๋กœ๋„ ๋ฌผ์ฒด์˜ ์œ„์น˜์™€ ๋™์ž‘์„ ์ถฉ๋ถ„ํžˆ ํŒŒ์•…ํ•˜์—ฌ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๋กœ๋ด‡์˜ ๊ด€์ ˆ ์„ผ์„œ ์ •๋ณด(๊ณ ์œ  ๊ฐ๊ฐ)์™€ ์ด์ง„ ์ ‘์ด‰ ์‹ ํ˜ธ๋งŒ ๊ฐ€์ง€๊ณ ๋„ ์‹œ๊ฐ์ด๋‚˜ ์ •ํ™•ํ•œ ์œ„์น˜์ •๋ณด ์—†์ด ์ž‘์—…์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์ง€๋‚œ 10์—ฌ ๋…„๊ฐ„ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL์— ๋Œ€ํ•œ ๊ด€์‹ฌ์ด ๊พธ์ค€ํžˆ ์žˆ์—ˆ์œผ๋‚˜, ๋šœ๋ ทํ•œ ๋ŒํŒŒ๊ตฌ๋Š” ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์•˜๋‹ค. ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์„ ๋ณด๋ฉด ์ผ๊ด€๋˜์ง€ ์•Š์€ ๊ฒฐ๊ณผ๋“ค์ด ๋ณด๊ณ ๋˜์—ˆ๋Š”๋ฐ, ์–ด๋–ค ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ์•ฝ๊ฐ„ ํ–ฅ์ƒ๋œ๋‹ค๊ณ  ํ•œ ๋ฐ˜๋ฉด, ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค์€ ๊ฑฐ์˜ ์ฐจ์ด๊ฐ€ ์—†๊ฑฐ๋‚˜ ์ด‰๊ฐ ์—†์ด๋„ ์ถฉ๋ถ„ํ•˜๋‹ค๋Š” ์ฃผ์žฅ์„ ๋‚ด๋†“์•˜๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Melnik ๋“ฑ(2021)๊ณผ Merzic ๋“ฑ(2019)์€ ์ด‰๊ฐ์ด ์•ฝ๊ฐ„์˜ ์ด๋“์„ ์ค€๋‹ค๊ณ  ๋ณด๊ณ ํ–ˆ์ง€๋งŒ, Vulin ๋“ฑ(2021)์ด๋‚˜ Hansen ๋“ฑ(2022)์€ ์ด‰๊ฐ ์ถ”๊ฐ€์— ์œ ์˜๋ฏธํ•œ ์ด๋“์ด ์—†์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์‹ฌ์ง€์–ด Qi ๋“ฑ(2023)์€ โ€œ๊ด€์ ˆ ์›€์ง์ž„ ๊ธฐ๋ก๋งŒ์œผ๋กœ๋„ ์ด๋ฏธ ์ด์ง„ ์ ‘์ด‰ ์ •๋ณด๊ฐ€ ํ•จ์ถ•๋˜์–ด ์žˆ๋‹คโ€๋ฉฐ ์ด‰๊ฐ ์„ผ์„œ์˜ ํ•„์š”์„ฑ์„ ๋‚ฎ๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ๋„ ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—‡๊ฐˆ๋ฆฐ ๊ฒฐ๊ณผ์˜ ์›์ธ์œผ๋กœ, ์ €์ž๋“ค์€ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ์ฃผ๋ชฉํ•œ๋‹ค. ์ด‰๊ฐ ์‹ ํ˜ธ๋Š” ์ŠคํŒŒ์Šค(sparse)ํ•˜๊ฒŒ ๋ฐœ์ƒํ•˜๊ณ  ์ ‘์ด‰ ์‹œ์—๋งŒ ๋ถˆ์—ฐ์†์ ์œผ๋กœ ํŠ€์–ด๋‚˜์˜ค๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด, ์—ฐ์†์ ์œผ๋กœ ๋ณ€ํ•˜๋Š” ๊ด€์ ˆ ์ •๋ณด์— ๋น„ํ•ด ํ•™์Šต์ด ์–ด๋ ต๊ณ  ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์ผ๋ฐ˜์ ์ธ ๋”ฅ RL ์—์ด์ „ํŠธ๋Š” ์›์‹œ ์ด‰๊ฐ ์‹ ํ˜ธ๋กœ๋ถ€ํ„ฐ ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์„ ๋ฝ‘์•„๋‚ด์ง€ ๋ชปํ•˜๊ณ , ์•ˆ์ •์ ์ธ ๊ด€์ ˆ ๊ฐ๊ฐ์—๋งŒ ์˜์กดํ•˜๋Š” ์„œ๋ธŒ์˜ตํ‹ฐ๋ฉ€ ์ •์ฑ…์— ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•ด๋ฒ„๋ฆด ์šฐ๋ ค๊ฐ€ ์žˆ๋‹ค.

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ ์ €์ž๋“ค์€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(Self-Supervised Learning, SSL)์„ ๋„์ž…ํ•˜์—ฌ ์—์ด์ „ํŠธ์˜ ๊ด€์ฐฐ ์ธ์ฝ”๋”ฉ(Observation Representation) ํ•™์Šต์„ ๋„์™€์ฃผ๊ณ ์ž ํ•œ๋‹ค. ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์ด๋ž€ ์ถ”๊ฐ€์ ์ธ ์™ธ๋ถ€ ๊ฐ๋… ์‹ ํ˜ธ ์—†์ด, ๋ฐ์ดํ„ฐ ์ž์ฒด์—์„œ ์ •์˜ํ•œ ๋ณด์กฐ ๊ณผ์ œ(auxiliary task)๋ฅผ ํ†ตํ•ด ํ‘œํ˜„ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ๊ณผ๊ฑฐ์—๋„ ๋ช‡๋ช‡ ์—ฐ๊ตฌ์—์„œ ์ด‰๊ฐ ์‹ ํ˜ธ์— ๋Œ€ํ•œ SSL ์‹œ๋„๋ฅผ ํ•˜๊ธด ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹œ๊ฐ-์ด‰๊ฐ ๋ณตํ•ฉ ์ž…๋ ฅ์— ์ด๋ฏธ์ง€ ์ฆ๊ฐ•์„ ์ ์šฉํ•˜๊ฑฐ๋‚˜, ๋งˆ์Šคํฌ ๋ณต์›(masked reconstruction) ๋ฐฉ๋ฒ•์œผ๋กœ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ์‹œ๋„๋ฅผ ํ•œ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ์ƒํƒœ ๋ณ€ํ™”์˜ ํ•ต์‹ฌ ํŠน์ง•(์˜ˆ: ๋ฌผ์ฒด์˜ ์†๋„๋‚˜ ๋งˆ์ฐฐ ์ •๋ณด ๋“ฑ)์„ ์ž ์žฌ ํ‘œํ˜„์— ์ถฉ๋ถ„ํžˆ ๋‹ด์ง€ ๋ชปํ–ˆ๊ณ , ๋ณต์žกํ•œ ์ œ์–ด์— ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๋‹ค๊ณ  ์ €์ž๋“ค์€ ์ง€์ ํ•ฉ๋‹ˆ๋‹ค.

์ด์— ๋ณธ ๋…ผ๋ฌธ์˜ ์ค‘์‹ฌ ๋ชฉํ‘œ๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์ œ์–ด ๊ณผ์ œ์—์„œ ์ด‰๊ฐ ๊ด€์ฐฐ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์ ์ธ SSL ๋ฐฉ๋ฒ•๋ก ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์‹œ๊ฐ ๋˜๋Š” ์‹ฌ๋„ ์นด๋ฉ”๋ผ ๋“ฑ์˜ ๋‹ค๋ฅธ ๊ฐ๊ฐ์€ ์•„์˜ˆ ๋ฐฐ์ œํ•˜๊ณ  ์ด‰๊ฐ์—๋งŒ ์ง‘์ค‘ํ•˜์˜€์œผ๋ฉฐ, ํ˜„์‹ค ์ ์šฉ์„ ์—ผ๋‘์— ๋‘๊ณ  ๊ฐ€์žฅ ๋‹จ์ˆœํ•˜๊ณ  ์ €๋ ดํ•œ ํ˜•ํƒœ์˜ ์ด‰๊ฐ ์„ผ์„œ ์„ธํŒ…์ธ ์ŠคํŒŒ์Šค ์ด์ง„ ์ ‘์ด‰(binary contact) ์ •๋ณด์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ง„ ์ ‘์ด‰ ์‹ ํ˜ธ๋ž€ ๋ง ๊ทธ๋Œ€๋กœ ๊ฐ ์ด‰๊ฐ ์„ผ์„œ ์ง€์ ์—์„œ ์ ‘์ด‰์ด ์žˆ์œผ๋ฉด 1, ์—†์œผ๋ฉด 0์œผ๋กœ ํ‘œ์‹œํ•˜๋Š” ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹จ์ˆœํ™”๋Š” ์—ฐ์†์ ์ธ ์ด‰๊ฐ ๊ฐ’์— ๋น„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ์ฐจ์ด๋ฅผ ์ค„์—ฌ์ฃผ๊ณ , ๊ณ ๊ฐ€์˜ ์„ผ์„œ ์—†์ด๋„ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ €์ž๋“ค์€ ๊ต์‚ฌ-ํ•™์ƒ ๋„คํŠธ์›Œํฌ(privileged teacher-student imitation)์ฒ˜๋Ÿผ ์ด์ƒ์ ์ธ ์ •๋ณด๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฐ„์ ‘ ๋ฐฉ์‹ ๋Œ€์‹ , ์˜จ์ „ํžˆ ์„ผ์„œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง์ ‘ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ์ ‘๊ทผ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ์ „์ ์œผ๋กœ ๋กœ๋ด‡์˜ โ€œ๊ฐ๊ฐโ€๋งŒ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์ด์ƒ์ ์ธ ์ƒํƒœ ์ •๋ณด ์—†์ด๋„ ์ถฉ๋ถ„ํ•œ ์ œ์–ด ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด ๋ณธ ์—ฐ๊ตฌ์˜ ํฐ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.

๋ฌธ์ œ ์ •์˜ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ์„ค์ •

์ด ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ๋Š” ๋ฌธ์ œ๋Š” ๋ถ€๋ถ„ ๊ด€์ธก ๋งˆ์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(Partially-Observable Markov Decision Process, POMDP)์œผ๋กœ ๊ณต์‹ํ™”๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ํ™˜๊ฒฝ์˜ ์™„์ „ํ•œ ์ƒํƒœ๋ฅผ ์ง์ ‘ ๊ด€์ธกํ•  ์ˆ˜ ์—†๊ณ , ๋Œ€์‹  ์ œํ•œ๋œ ์„ผ์„œ ์ •๋ณด์˜ ์ด๋ ฅ๋งŒ์„ ๊ด€์ฐฐ๋กœ ์–ป์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์‹œ๊ฐ์€ ์ œ์™ธํ•˜๊ณ  ๋กœ๋ด‡ ๊ด€์ ˆ ๋ฐ์ดํ„ฐ(ํ”„๋ฆฌ์˜คํ”„๋ฆฌ์…‰์…˜)์™€ ์ด‰๊ฐ ์„ผ์„œ ๋ฐ์ดํ„ฐ์˜ ์ตœ๊ทผ k ์Šคํ… ํžˆ์Šคํ† ๋ฆฌ o_t = \[o_{t-k+1}, \..., o_t\]๋ฅผ ํ•˜๋‚˜์˜ ๊ด€์ฐฐ๋กœ ๋ฐ›์•„๋“ค์ด๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๊ด€์ ˆ ๋ฐ์ดํ„ฐ์—๋Š” ๊ด€์ ˆ ๊ฐ๋„, ๊ด€์ ˆ ์†๋„, ๊ทธ๋ฆฌ๊ณ  ๋ฐ”๋กœ ์ด์ „ ํƒ€์ž„์Šคํ…์˜ ์‹คํ–‰ ์•ก์…˜ ๋“ฑ์ด ํฌํ•จ๋˜๊ณ , ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์ˆ˜์˜ ์ ‘์ด‰ ์„ผ์„œ๋“ค์—์„œ ๋ฐœ์ƒํ•œ ์ด์ง„ ์ ‘์ด‰ ์‹ ํ˜ธ๋“ค์ž…๋‹ˆ๋‹ค. ์ด ๊ด€์ฐฐ ํžˆ์Šคํ† ๋ฆฌ๋ฅผ ํ†ตํ•ด ํ˜„์žฌ ์ƒํƒœ์— ๋Œ€ํ•œ ๋‹จ์„œ๋ฅผ ์–ป๊ณ , ์—์ด์ „ํŠธ(policy \pi_\theta)๋Š” ๊ทธ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ํ–‰๋™ a_t๋ฅผ ์„ ํƒํ•˜์—ฌ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ถ€๋ถ„ ๊ด€์ธก ํ™˜๊ฒฝ์—์„œ ๊ณผ๊ฑฐ ๋ช‡ ์Šคํ…์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์Œ“์•„ ์“ฐ๋Š” ๊ฒƒ์€, ํ˜„์žฌ ์ˆœ๊ฐ„์— ๊ฐ์ง€๋˜์ง€ ์•Š๋Š” ๋ฌผ์ฒด์˜ ์šด๋™ ๋“ฑ์„ ์ด๋ ฅ ์ •๋ณด๋กœ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.

์‹คํ—˜์—์„œ๋Š” ๋Œ€ํ‘œ์ ์ธ ๊ทผ์ ‘ ์„ผ์„œ/์ด‰๊ฐ ์žฅ์ฐฉ ๋กœ๋ด‡์œผ๋กœ์„œ ํ”„๋ž‘์นด(Franka) ์•”๊ณผ ์„€๋„์šฐ ํ•ธ๋“œ(Shadow Hand)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ”„๋ž‘์นด ์•”์€ 7์ž์œ ๋„ ๋กœ๋ด‡ํŒ”๋กœ, ์†๊ฐ€๋ฝ ๋ง๋‹จ์— ๊ฐ„๋‹จํ•œ ์ด‰๊ฐ ํŒจ๋“œ(์ด์ง„ ์ ‘์ด‰ ์„ผ์„œ) 2๊ฐœ๋ฅผ ๋ถ€์ฐฉํ•œ ์„ค์ •์ด๊ณ , ์„€๋„์šฐ ํ•ธ๋“œ๋Š” ์ธ๊ฐ„ ์†๊ณผ ์œ ์‚ฌํ•œ 20์ž์œ ๋„ ๋กœ๋ด‡ ์†์œผ๋กœ ์†๊ฐ€๋ฝ ๋งˆ๋”” ๋ฐ ์†๋ฐ”๋‹ฅ ๋“ฑ ์ด 17๊ณณ์— ์ ‘์ด‰ ์„ผ์„œ๊ฐ€ ๋ถ„ํฌ๋œ ๊ฒƒ์œผ๋กœ ๋ชจ๋ธ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ด€์ฐฐ ํžˆ์Šคํ† ๋ฆฌ ๊ธธ์ด k๋Š” ์‹คํ—˜ ๊ณผ์ œ์— ๋”ฐ๋ผ ์ ์ ˆํžˆ ์„ค์ •๋˜์–ด, ํ•„์š”์— ๋”ฐ๋ผ ์ˆ˜๋ฐฑ ๋ฐ€๋ฆฌ์ดˆ ์ด๋‚ด์˜ ์ตœ๊ทผ ์„ผ์„œ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค์ •์—์„œ ์ด์ƒ์ ์ธ ๋ฌผ์ฒด ์œ„์น˜๋‚˜ ์‹œ๊ฐ ์ •๋ณด๋Š” ์ „ํ˜€ ์‚ฌ์šฉ๋˜์ง€ ์•Š์œผ๋ฉฐ, ์˜ค์ง ๋กœ๋ด‡ ์ž์‹ ์˜ ๊ด€์ ˆ ๋ฐ ์ด‰๊ฐ ์„ผ์„œ ์ •๋ณด๋งŒ์œผ๋กœ ํ•™์Šต์ด ์ด๋ค„์ง‘๋‹ˆ๋‹ค.

ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์ €์ž๋“ค์€ PPO(Proximal Policy Optimization) ๊ธฐ๋ฐ˜์˜ on-policy ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๊ธฐ๋ณธ PPO ๊ตฌํ˜„์— ๋ช‡ ๊ฐ€์ง€ ์ปค์Šคํ„ฐ๋งˆ์ด์ฆˆ๋ฅผ ํ–ˆ๋Š”๋ฐ, ๋ฐ”๋กœ ๋‹ค์ค‘ ํ™˜๊ฒฝ ๋ณ‘๋ ฌ ํ•™์Šต(์ˆ˜์ฒœ ๊ฐœ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ๋ณ‘๋ ฌ ์‹คํ–‰)๊ณผ ๊ด€์ฐฐ ํžˆ์Šคํ† ๋ฆฌ ์Šคํƒœํ‚น, ๊ทธ๋ฆฌ๊ณ  ๋ณธ ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์ธ ์ž๊ธฐ์ง€๋„ ๋ณด์กฐ ์†์‹ค(SSL) ํ†ตํ•ฉ ๋“ฑ์ด ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 4096๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•˜๊ณ  100๊ฐœ์˜ ํ™˜๊ฒฝ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋“ฑ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌํ™”๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋†’์˜€์œผ๋ฉฐ, ๊ฐ ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์ œ๋Œ€๋กœ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด ํ™˜๊ฒฝ ๋ฐ ๊ธฐ๋ฒ•๋ณ„๋กœ ์„ธ๋ฐ€ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹(Optuna ๊ธฐ๋ฐ˜ ๋žœ๋ค ํƒ์ƒ‰ 20ํšŒ)์ด ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต์—๋Š” 8๊ฐœ์˜ GPU์™€ ์ƒ๋‹นํ•œ ์‹œ๊ฐ„(๊ฐ ์‹คํ—˜ ์•ฝ 60์‹œ๊ฐ„ ร— ์—ฌ๋Ÿฌ ์กฐ๊ฑด)์ด ํˆฌ์ž…๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ณต์žกํ•œ ์ด‰๊ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ๋‹ค์ค‘ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์œผ๋กœ ์ธํ•œ ๋†’์€ ์—ฐ์‚ฐ ๋ถ€ํ•˜ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ชจ๋ธ ๊ตฌ์„ฑ ๋ฐ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•

๋ณธ ์—ฐ๊ตฌ์˜ ์—์ด์ „ํŠธ ๊ตฌ์กฐ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ฐฐ ์ธ์ฝ”๋”์™€ ์ •์ฑ…์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋จผ์ € ๋กœ๋ด‡์˜ ๊ด€์ ˆ ์ƒํƒœ+์ด‰๊ฐ ํžˆ์Šคํ† ๋ฆฌ ๊ด€์ฐฐ o_t๊ฐ€ ์ธ์ฝ”๋” ๋„คํŠธ์›Œํฌ f_\phi์— ์ž…๋ ฅ๋˜์–ด ์ž ์žฌ ํ‘œํ˜„ z_t๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ด z_t๋Š” ์ €์ฐจ์› ์ƒํƒœ ํ‘œํ˜„์œผ๋กœ, ์ดํ›„ ์ •์ฑ… ๋„คํŠธ์›Œํฌ \pi_\theta(z_t)์™€ ๊ฐ€์น˜ํ•จ์ˆ˜ V_\psi(z_t)์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋˜์–ด ํ–‰๋™์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ \pi_\theta์™€ V_\psi๋Š” PPO๋กœ ํ•™์Šต๋˜๋ฉฐ, ์ด๋•Œ ์ธ์ฝ”๋” f_\phi๋„ ์ •์ฑ… ๊ทธ๋ผ๋””์–ธํŠธ์™€ ๊ฐ€์น˜ ์†์‹ค์— ์˜ํ•ด ๊ฐ™์ด ์—…๋ฐ์ดํŠธ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๋”ํ•ด, ์ €์ž๋“ค์€ ์ธ์ฝ”๋” f_\phi๊ฐ€ ๋ณด๋‹ค ์œ ์šฉํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋„๋ก ๋•๊ธฐ ์œ„ํ•ด 4๊ฐ€์ง€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(SSL) ๋ณด์กฐ ๊ณผ์ œ๋ฅผ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์กฐ ๊ณผ์ œ๋“ค์€ ์ธ์ฝ”๋” ์ถœ๋ ฅ z_t์— ๋Œ€ํ•ด ๋ณ„๋„์˜ ๋ณด์กฐ ๋„คํŠธ์›Œํฌ๋“ค์„ ์ด์šฉํ•ด ์ •์˜๋˜๋ฉฐ, ์ธ์ฝ”๋” ํŒŒ๋ผ๋ฏธํ„ฐ \phi๋Š” ์ด ๋ณด์กฐ ๊ณผ์ œ ์†์‹ค๋„ ํ•จ๊ป˜ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ๋ณด์กฐ ๊ณผ์ œ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ณด์กฐ ๋„คํŠธ์›Œํฌ๋“ค์€ ํ•™์Šต ํ›„ ํ๊ธฐ๋˜๋ฉฐ ์‹ค์ œ ์ •์ฑ… ์‹คํ–‰ ์‹œ์—๋Š” ์‚ฌ์šฉ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์ œ์•ˆ๋œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ชฉํ‘œ๋“ค (SSL Objectives)

์ €์ž๋“ค์€ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ๋„ค ๊ฐ€์ง€์˜ SSL ๋ณด์กฐ ๋ชฉํ‘œ๋ฅผ ์ œ์•ˆํ•˜๊ณ  ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜๋Š” ๊ฐ ๋ชฉํ‘œ์™€ ๊ทธ ๋ชฉ์  ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์„ค๋ช…์ž…๋‹ˆ๋‹ค:

  1. ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ (Tactile Reconstruction, TR): ์ธ์ฝ”๋” f_\phi๊ฐ€ ์ถœ๋ ฅํ•œ ์ž ์žฌ ํ‘œํ˜„ z_t์—์„œ ํ˜„์žฌ ์ด‰๊ฐ ๊ด€์ฐฐ o_t^{tactile}์„ ๋ณต์›ํ•˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ z_t๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋””์ฝ”๋” ๋„คํŠธ์›Œํฌ g_{TR}๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ์›๋ž˜ ์ด‰๊ฐ ์„ผ์„œ๋“ค์˜ ์ด์ง„ ์ ‘์ด‰ ์‹ ํ˜ธ ๋ถ„ํฌ \hat{o}_t^{tactile}๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ์‹ค์ œ ์ ‘์ด‰ ์‹ ํ˜ธ o_t^{tactile}์™€ ๋น„๊ตํ•˜์—ฌ ์ด์ง„ ํฌ๋กœ์Šค์—”ํŠธ๋กœํ”ผ(Binary Cross-Entropy) ์†์‹ค๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด‰๊ฐ ์‹ ํ˜ธ๋Š” ์ ‘์ด‰์ด ๋“œ๋ฌธ๋“œ๋ฌธ ๋ฐœ์ƒํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋ถ€๋ถ„ 0์œผ๋กœ ์ฑ„์›Œ์ง„ ํฌ์†Œ ๋ฒกํ„ฐ์ธ๋ฐ, ํ•™์Šต ์‹œ ๊ฑฐ์ง“ ์Œ์„ฑ(false negative), ์ฆ‰ ์‹ค์ œ ์ ‘์ด‰์„ ๋†“์น˜๋Š” ๊ฒฝ์šฐ๋ฅผ ํŠนํžˆ ํฌ๊ฒŒ ํŒจ๋„ํ‹ฐ ์ฃผ์–ด์•ผ ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์ด ํ•™์Šต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์–‘์„ฑ(์ ‘์ด‰) ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋†’์—ฌ ๋†“์นจ์„ ์ตœ์†Œํ™”ํ•˜๋„๋ก ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชฉํ‘œ๋ฅผ ํ†ตํ•ด ์ธ์ฝ”๋”๊ฐ€ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ๋ฒ„๋ฆฌ์ง€ ์•Š๊ณ  ์ž ์žฌ ํ‘œํ˜„์— ๋ณด์กดํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

  2. ์ „์ฒด ๊ด€์ฐฐ ์žฌ๊ตฌ์„ฑ (Full Reconstruction, FR): ์ด๊ฒƒ์€ ์œ„์˜ TR์„ ํ™•์žฅํ•˜์—ฌ, ์ž ์žฌ ํ‘œํ˜„ z_t๋กœ๋ถ€ํ„ฐ ๋กœ๋ด‡ ๊ด€์ ˆ(Proprioception)๊ณผ ์ด‰๊ฐ ๋ชจ๋‘๋ฅผ ๋ณต์›ํ•˜๋„๋ก ํ•˜๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ณ„๋„์˜ ๋””์ฝ”๋” g_{FR}๊ฐ€ z_t๋กœ๋ถ€ํ„ฐ ๊ด€์ ˆ ์ƒํƒœ \hat{o}_t^{prop}์™€ ์ด‰๊ฐ \hat{o}_t^{tactile}๋ฅผ ๋™์‹œ์— ์˜ˆ์ธกํ•˜๊ฒŒ ํ•˜๋ฉฐ, ์†์‹ค ํ•จ์ˆ˜๋Š” ์ด‰๊ฐ ๋ถ€๋ถ„์˜ BCE ์†์‹ค + ๊ด€์ ˆ ์—ฐ์†๊ฐ’์— ๋Œ€ํ•œ ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE)์˜ ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ธ์ฝ”๋”์— ์ „์ฒด ๊ด€์ฐฐ์˜ ์ •๋ณด ๋ณด์กด์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ‘œ๋ฉด์ ์œผ๋กœ๋Š” ๊ฐ€์žฅ ๋งŽ์€ ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜๋Š” ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ๋ชจ๋“  ์ •๋ณด๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋ ค๋‹ค ๋ณด๋ฉด ์ •์ฑ…์— ๋ถˆํ•„์š”ํ•œ ์„ธ๋ถ€์‚ฌํ•ญ๊นŒ์ง€ ํ‘œํ˜„์— ๋‚จ์•„ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์šฐ๋ ค๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. ์ „๋ฐฉ ๋™์—ญํ•™ ์˜ˆ์ธก (Forward Dynamics, FD): ์ธ์ฝ”๋” ํ‘œํ˜„์ด ๋ฏธ๋ž˜ ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ์—์„œ ์ž์ฃผ ์“ฐ์ด๋Š” ๋‹ค์ค‘ ์Šคํ… forward model ์•„์ด๋””์–ด๋ฅผ ์ด‰๊ฐ ํ™˜๊ฒฝ์— ์ ์šฉํ•œ ๊ฒƒ์œผ๋กœ, z_t์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์•ž์œผ๋กœ n ์Šคํ… ํ›„์˜ ์ž ์žฌ ํ‘œํ˜„๋“ค์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ํ˜„์žฌ ์ž ์žฌ ์ƒํƒœ z_t์™€ ์•ก์…˜ a_t๋ฅผ ์ž…๋ ฅ์œผ๋กœ 1-step ์˜ˆ์ธก ๋ชจ๋ธ h_{\theta}๊ฐ€ ๋‹ค์Œ ์ž ์žฌ ์ƒํƒœ \hat{z}*{t+1}์„ ์˜ˆ์ธกํ•˜๊ณ , ์ด๋ฅผ ๋‹ค์‹œ ์ž…๋ ฅ ์‚ผ์•„ a*}์™€ ํ•จ๊ป˜ \hat{z*{t+2}๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์‹์œผ๋กœ ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒํ•˜๊ฒŒ n๋‹จ๊ณ„ ๋ฏธ๋ž˜๊นŒ์ง€ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก์˜ ๋ชฉํ‘œ์น˜๋Š” ์ธ์ฝ”๋”์˜ ํƒ€๊นƒ ๋„คํŠธ์›Œํฌ f*์ž…๋‹ˆ๋‹ค. ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด, ์˜ˆ์ธก ์ถœ๋ ฅ์— ํ•œ ๋ฒˆ ๋” }}}$ (์ธ์ฝ”๋”์˜ ํŒŒ๋ผ๋ฏธํ„ฐ EMA ๋ณต์‚ฌ๋ณธ)์— ์˜ํ•ด ๊ณ„์‚ฐ๋œ ์‹ค์ œ ๋ฏธ๋ž˜ ์ž ์žฌํ‘œํ˜„ $z_{t+k๋น„์„ ํ˜• ํˆฌ์˜(projection) p(\cdot)์„ ์ ์šฉํ•œ ๋’ค ์ด์™€ ํƒ€๊นƒ ํ‘œํ˜„ z_{t+k}^{tgt} ์‚ฌ์ด์˜ Mean Squared Error ์†์‹ค์„ ๋ˆ„์ ํ•ฉ์‚ฐํ•˜์—ฌ FD ์†์‹ค๋กœ ์‚ผ์Šต๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, ์ธ์ฝ”๋” ํ‘œํ˜„ z_t๊ฐ€ ํ–ฅํ›„ ๋ช‡ ์Šคํ…์˜ ๋™์ ์ธ ๋ณ€ํ™”๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ๋‹ค๋‹จ๊ณ„ ๋™์—ญํ•™ ์˜ˆ์ธก์ด ํŠนํžˆ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ํ™˜๊ฒฝ์—์„œ ์œ ์šฉํ•  ๊ฒƒ์œผ๋กœ ๋ณด๊ณ , ํ•ต์‹ฌ SSL ๊ธฐ๋ฒ•์œผ๋กœ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค.

  4. ์ด‰๊ฐ ์กฐ๊ฑด ์ „๋ฐฉ ์˜ˆ์ธก (Tactile Forward Dynamics, TFD): ์ด๊ฒƒ์€ FD์™€ TR์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ์ œ์•ˆ์ž…๋‹ˆ๋‹ค. FD์—์„œ๋Š” ์ž ์žฌ ์ƒํƒœ๋งŒ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•˜๋ฉด ๋˜์ง€๋งŒ, TFD์—์„œ๋Š” ์˜ˆ์ธกํ•œ ์ž ์žฌ ์ƒํƒœ๋กœ๋ถ€ํ„ฐ ๋‹ค์‹œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ๋ณต์›ํ•˜๋Š” ๊ณผ์ •์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ํ•œ ์Šคํ… ๋ฏธ๋ž˜๋ฅผ ์˜ˆ์ธกํ•œ \hat{z}*{t+1}๋ฅผ ๋””์ฝ”๋”๋ฅผ ํ†ตํ•ด \hat{o}*๊ณผ ๋น„๊ตํ•˜์—ฌ }^{tactile}$๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ์‹ค์ œ ์ ‘์ด‰ ์‹ ํ˜ธ $o_{t+1}^{tactileBCE ์žฌ๊ตฌ์„ฑ ์†์‹ค์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด tactile ์žฌ๊ตฌ์„ฑ ์†์‹ค์„ ๊ธฐ์กด FD ์†์‹ค์— ๋”ํ•˜์—ฌ TFD์˜ ์ตœ์ข… ์†์‹ค๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ฏธ๋ž˜ ์˜ˆ์ธก๊ณผ ์ด‰๊ฐ ์„ธ๋ถ€์ •๋ณด ๋ณต์›์„ ๋™์‹œ์— ๋งŒ์กฑํ•˜๋Š” ํ‘œํ˜„์„ ํ•™์Šต์‹œํ‚ค๋ฉฐ, ํŠนํžˆ ๋ฏธ๋ž˜์˜ ์ ‘์ด‰ ๋ฐœ์ƒ ์—ฌ๋ถ€๊นŒ์ง€ ์ž ์žฌ ํ‘œํ˜„์— ๋…น์—ฌ๋‚ด๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์ด ๋ฐํžŒ ๋ฐ”์— ๋”ฐ๋ฅด๋ฉด, TFD๋Š” ์ด‰๊ฐ ๋™์—ญํ•™๊นŒ์ง€ ๋ชจ๋ธ๋งํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ชฉํ‘œ๋กœ์„œ ์ œ์•ˆ๋˜์—ˆ์ง€๋งŒ, ์„ฑ๋Šฅ ๋ฉด์—์„œ๋Š” ํ™˜๊ฒฝ์— ๋”ฐ๋ผ FD์™€ TR ์‚ฌ์ด์—์„œ ๋‹ค์†Œ ์ƒ์ดํ•œ ์–‘์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค (์ž์„ธํ•œ ๊ฒฐ๊ณผ๋Š” ๋’ค์—์„œ ์–ธ๊ธ‰).

์ด์ƒ์˜ ๋ณด์กฐ ๋ชฉํ‘œ๋“ค์€ ๋ชจ๋‘ ์ •์ฑ…์˜ ์ฃผ ์†์‹ค(PPO ์†์‹ค)์— ๊ฐ€์ค‘์น˜๋กœ ๋”ํ•ด์ ธ ๋™์‹œ์— ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค. ๋ณด์กฐ ์†์‹ค๋กœ ์ธ์ฝ”๋”๋ฅผ ํ›ˆ๋ จํ•  ๋•Œ ์ค‘์š”ํ•œ ์ ์€, ์‹ค์ œ ์ •์ฑ…์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•˜๋А๋ƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ on-policy RL์—์„œ๋Š” ๋งค ์—ํฌํฌ ์ƒˆ๋กœ์šด ๋กค์•„์›ƒ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ๋ฐ”๋กœ ํ•™์Šต์— ์‚ฌ์šฉํ•œ ๋’ค ํ๊ธฐํ•˜๋Š”๋ฐ, ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ๋น ๋ฅด๊ฒŒ ๋ฐ”๋€Œ๋Š” ๋ฐ์ดํ„ฐ๋กœ SSL์„ ํ•™์Šตํ•˜๋ฉด ์†์‹ค ์ง„ํญ์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ํ˜„์ƒ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ์—ํ”ผ์†Œ๋“œ๊ฐ€ ๋๋‚  ๋•Œ ์ ‘์ด‰ ์‹ ํ˜ธ๊ฐ€ ๊ฐ‘์ž๊ธฐ ์‚ฌ๋ผ์ง€๋Š” ๋“ฑ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ์ด์‚ฐ์  ๋ณ€ํ™”๊ฐ€ ์›์ธ์ธ ๊ฒƒ์œผ๋กœ ํŒŒ์•…ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ„๋ฆฌ ๊ธฐ๋ฒ• (Separated Auxiliary Memory)

๋ฐ์ดํ„ฐ ๋ถˆ์•ˆ์ • ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ณ  ๋” ํ’๋ถ€ํ•œ ๊ฒฝํ—˜์— ๊ธฐ๋ฐ˜ํ•œ ๋ณด์กฐ ํ•™์Šต์„ ํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ SSL ํ•™์Šต์„ ์œ„ํ•œ ๋ณ„๋„์˜ ๋ฉ”๋ชจ๋ฆฌ ๋ฒ„ํผ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, PPO์˜ on-policy ๋กค์•„์›ƒ ๋ฉ”๋ชจ๋ฆฌ(์˜ˆ: N_{env} \times T steps)์™€ ๋ถ„๋ฆฌ๋œ ๋Œ€์šฉ๋Ÿ‰ ๋ฒ„ํผ๋ฅผ ๋งŒ๋“ค์–ด, ์—ฌ๋Ÿฌ ์—ํ”ผ์†Œ๋“œ์— ๊ฑธ์นœ ๊ฒฝํ—˜์„ ๋ˆ„์  ์ €์žฅํ•œ ๋’ค ์ด ๋ฐ์ดํ„ฐ๋กœ SSL ๋ณด์กฐ์†์‹ค์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ PPO์˜ ํ•œ ๋ฒˆ ๋กค์•„์›ƒ์œผ๋กœ 4096 \times 32 ์Šคํ…์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์Œ“์ธ๋‹ค๋ฉด, SSL ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ๋Š” ๊ทธ ๋ช‡ ๋ฐฐ(๋…ผ๋ฌธ์—์„œ๋Š” 4๋ฐฐ ๋“ฑ ๊ฐ€๋ณ€์ ) ํฌ๊ธฐ๋กœ ์šด์˜ํ•˜๋ฉฐ ์—ฌ๋Ÿฌ ๋กค์•„์›ƒ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ง€์†์ ์œผ๋กœ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ณด์กฐ ๊ณผ์ œ ํ•™์Šต ์‹œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ๊ธ‰๋ณ€ํ•˜์ง€ ์•Š์•„ ์•ˆ์ •์ ์ธ ํ•™์Šต ์‹ ํ˜ธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ณ , ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์˜ ์ ‘์ด‰ ๋ฐ์ดํ„ฐ๋ฅผ ํญ๋„“๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด ๋ฐฉ๋ฒ•์€ on-policy ๊ฐ•ํ™”ํ•™์Šต์— off-policy ์Šคํƒ€์ผ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ์‹œ๋„๋ผ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค (์‹คํ—˜ ๊ฒฐ๊ณผ ์„น์…˜์—์„œ ์ƒ์„ธํžˆ ๋…ผ์˜).

๊ทธ๋ฆผ 1: ์ œ์•ˆ๋œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ RL+SSL ๊ตฌ์กฐ์™€ ์‹คํ—˜ ํ™˜๊ฒฝ. ์ƒ๋‹จ์€ Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ์˜ ์„ธ ๊ฐ€์ง€ ๊ณผ์ œ (Find, Bounce, Baoding)๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํ•˜๋‹จ์€ ์—์ด์ „ํŠธ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ฐฐ(k ์Šคํ…์˜ ๊ด€์ ˆ+์ด‰๊ฐ ํžˆ์Šคํ† ๋ฆฌ) ์ž…๋ ฅ์ด ์ธ์ฝ”๋”๋ฅผ ๊ฑฐ์ณ ์ž ์žฌ ํ‘œํ˜„ z_t๋กœ ๋ณ€ํ™˜๋˜๊ณ , ์ด z_t๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •์ฑ… \pi๊ฐ€ ํ–‰๋™์„ ์„ ํƒํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ชฉํ‘œ๋“ค์€ ์ธ์ฝ”๋” f_\phi์˜ ํ•™์Šต์„ ๋„์™€์ฃผ๋ฉฐ, ๊ทธ๋ฆผ์—๋Š” ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ(TR)๊ณผ ์ „๋ฐฉ ๋™์—ญํ•™ ์˜ˆ์ธก(FD)์˜ ๊ฐœ๋…๋„๊ฐ€ ์˜ˆ์‹œ๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ๋‹ค.

์‹คํ—˜ ํ™˜๊ฒฝ: Robot Tactile Olympiad (RoTO) ๋ฒค์น˜๋งˆํฌ

๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š” Robot Tactile Olympiad (RoTO)๋ผ ๋ช…๋ช…๋œ ํ‘œ์ค€ํ™”๋œ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ ๊ฒƒ์ด๋‹ค. RoTO๋Š” ์„ธ ๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์ ‘์ด‰ ํŒจํ„ด์˜ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์„ธ ๊ณผ์ œ ๋ชจ๋‘ NVIDIA Isaac Gym/Isaac Lab ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์— ๊ตฌ์ถ•๋˜์—ˆ์œผ๋ฉฐ, 120Hz ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ 60Hz ์ œ์–ด ์ฃผ๊ธฐ๋กœ ์‹คํ–‰๋œ๋‹ค. ๊ฐ ๊ณผ์ œ์˜ ๊ฐœ์š”๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  • Find: ์ฑ…์ƒ ์œ„ 20cm ร— 20cm ์˜์—ญ ๋‚ด ๋ฌด์ž‘์œ„ ์œ„์น˜์— ๋†“์ธ ์ž‘์€ ๊ตฌ์ฒด(์Šคํ”ผ์–ด)๋ฅผ ๋กœ๋ด‡ํŒ”(Franka)์ด ์ œํ•œ ์‹œ๊ฐ„ ๋‚ด ์ด‰๊ฐ์œผ๋กœ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” 5์ดˆ (300 ์Šคํ…) ๋™์•ˆ ์†๊ฐ€๋ฝ ๋์˜ ์ ‘์ด‰์„ ํ†ตํ•ด ๊ณต์„ ์ฐพ์•„ ์ ‘์ด‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๊ณต์„ ์œ„ํ•ด์„œ๋Š” ํƒ์ƒ‰ ๋™์ž‘ ์ „๋žต๊ณผ ์ ๊ทน์  ์ด‰๊ฐ ํƒ์ง€๊ฐ€ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. (ํ”„๋ž‘์นด ์†๊ฐ€๋ฝ์— 2๊ฐœ์˜ ์ด‰๊ฐ ํŒจ๋“œ ํ™œ์šฉ)

  • Bounce: ์ธ๊ฐ„์˜ ์†๋ฐ”๋‹ฅ์œผ๋กœ ๊ณต์„ ํŠ•๊ธฐ๋Š” ๋™์ž‘์— ํ•ด๋‹นํ•˜๋ฉฐ, ์„€๋„์šฐ ํ•ธ๋“œ๋ฅผ ์ด์šฉํ•ด ๊ณ ๋ฌด๊ณต์„ ๊ฐ€๋Šฅํ•œ ๋งŽ์ด ๋ฐ”๋‹ฅ์น˜๊ธฐ(์—ฐ์†์ ์œผ๋กœ ํŠ•๊ฒจ ์˜ฌ๋ฆฌ๊ธฐ) ํ•˜๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” 10์ดˆ (600 ์Šคํ…) ๋™์•ˆ ๊ณต์„ ๋†“์น˜์ง€ ์•Š๊ณ  ์—ฌ๋Ÿฌ ๋ฒˆ ํŠ•๊ธฐ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋ฉฐ, 5 ์Šคํ… ์ด์ƒ ์—ฐ์† ๋น„์ ‘์ด‰ ์ƒํƒœ ํ›„ ๋‹ค์‹œ ์ ‘์ด‰์ด ๋ฐœ์ƒํ•˜๋ฉด ์ด๋ฅผ ํ•œ ๋ฒˆ์˜ ์„ฑ๊ณต์ ์ธ ๋ฐ”์šด์Šค๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ๋œ ๊ณต์€ ์ง€๋ฆ„ 70mm, ๋ฌด๊ฒŒ 30g์˜ ๋ง๋ž‘ํ•œ ๊ณต(์ŠคํŠธ๋ ˆ์Šค ๋ณผ)๋กœ ๋ชจ๋ธ๋ง๋˜์—ˆ์œผ๋ฉฐ, 10์ดˆ ๋™์•ˆ ์ด๋ก ์ ์œผ๋กœ ์ตœ๋Œ€ 100๋ฒˆ๊นŒ์ง€ ํŠ•๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฐธ๊ณ ๋กœ ์ธ๊ฐ„์˜ ๊ธฐ๋„ค์Šค ์„ธ๊ณ„ ๊ธฐ๋ก์€ 10์ดˆ์— 59ํšŒ ๋ฐ”์šด์Šค๋ผ๊ณ  ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. (์„€๋„์šฐ ํ•ธ๋“œ์˜ ๋ชจ๋“  ์†๊ฐ€๋ฝ ๋งˆ๋”” ๋“ฑ์— ์ด 17๊ฐœ ์ด‰๊ฐ ์„ผ์„œ ํ™œ์šฉ)

  • Baoding: ์ „ํ†ต์ ์ธ ๋ฐ”์˜ค๋”˜ ๋ณผ(Baoding balls) ํšŒ์ „ ๋ฌ˜๊ธฐ์—์„œ ์ฐฉ์•ˆํ•œ ๊ณผ์ œ๋กœ, ์„€๋„์šฐ ๋กœ๋ด‡ ์†์ด ์†๋ฐ”๋‹ฅ ์œ„์—์„œ ๋‘ ๊ฐœ์˜ ๊ธˆ์†๊ตฌ๋ฅผ ์„œ๋กœ ๋‘˜๋Ÿฌ๊ฐ€๋ฉฐ ํšŒ์ „์‹œํ‚ค๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” 10์ดˆ ๋™์•ˆ ๋‘ ๊ณต์„ ์ตœ๋Œ€ํ•œ ๋งŽ์ด ํšŒ์ „์‹œ์ผœ์•ผ ํ•˜๋ฉฐ, ๊ณต๋“ค์€ ์ง€๋ฆ„ ์•ฝ 3.8cm, ๊ฐœ๋‹น 55g์œผ๋กœ ์„ค์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ์ง€์†์ ์ธ ๋‹ค์ค‘ ์ ‘์ด‰์„ ์ˆ˜๋ฐ˜ํ•˜๋ฉฐ ๊ณ ๋‚œ๋„์˜ ์†์žฌ์ฃผ๋ฅผ ์š”ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ๊ฒฝ์šฐ ์ˆ™๋ จ์ž๋„ 10์ดˆ์— ์•ฝ 13ํšŒ ํšŒ์ „์ด ์ตœ๋Œ€ ์ˆ˜์ค€์œผ๋กœ ๋ณด๊ณ ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์„ธ ๊ฐ€์ง€ ๊ณผ์ œ๋Š” ๊ฐ๊ฐ ๋“œ๋ฌธ ์ ‘์ด‰(Find), ์ฃผ๊ธฐ์ /๊ฐ„ํ—์  ์ ‘์ด‰(Bounce), ์ง€์† ๋ณต์žก ์ ‘์ด‰(Baoding) ์ƒํ™ฉ์„ ๋Œ€๋ณ€ํ•˜๋ฉฐ, ์ด‰๊ฐ ์ •๋ณด์˜ ์œ ์šฉ์„ฑ์ด ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ๋Š” ํญ๋„“์€ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํฌ๊ด„ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ํ™˜๊ฒฝ๋“ค๊ณผ ํŠœ๋‹๋œ ๋ฒ ์ด์Šค๋ผ์ธ ๊ตฌํ˜„์„ ๊ณต๊ฐœํ•˜์—ฌ, ์•ž์œผ๋กœ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ์—ฐ๊ตฌ๊ฐ€ ๊ณตํ†ต๋œ ํ”Œ๋žซํผ ์œ„์—์„œ ๋น„๊ต๋˜๊ณ  ๋ฐœ์ „๋  ์ˆ˜ ์žˆ๋„๋ก ์žฅ๋ คํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์ฃผ๋กœ (1) ์ด‰๊ฐ ์ •๋ณด์˜ ํšจ๊ณผ, (2) SSL ๋ณด์กฐ ํ•™์Šต์˜ ํšจ๊ณผ, (3) ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ„๋ฆฌ์˜ ํšจ๊ณผ์˜ ์„ธ ๊ฐˆ๋ž˜๋กœ ๋‚˜๋‰˜์–ด ๋ถ„์„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๊ฒฐ๊ณผ๋Š” 5๊ฐœ ์‹œ๋“œ์— ๋Œ€ํ•œ ํ‰๊ท  ์„ฑ๋Šฅ๊ณก์„ ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋ณด๊ณ ๋˜์—ˆ์œผ๋ฉฐ, ์ตœ์ข… ์„ฑ๋Šฅ์€ ๋ฌผ๋ฆฌ์ ์ธ ์„ฑ๊ณต ํšŸ์ˆ˜๋‚˜ ์‹œ๊ฐ„ ๋“ฑ์œผ๋กœ๋„ ํ•ด์„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

1. ์ด‰๊ฐ ์ •๋ณด์˜ ํšจ๊ณผ (RL-only ๋Œ€์กฐ๊ตฐ)

๋จผ์ € ๊ฐ•ํ™”ํ•™์Šต๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์„ธ ๊ฐ€์ง€ ์—์ด์ „ํŠธ๋ฅผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค: - Proprioceptive-only: ๊ด€์ ˆ ์ƒํƒœ ์ •๋ณด๋งŒ ์‚ฌ์šฉ (์ด‰๊ฐ ๋ฏธํฌํ•จ) - Proprioceptive + Tactile: ๊ด€์ ˆ + ์ด‰๊ฐ ์ •๋ณด ๋ชจ๋‘ ์‚ฌ์šฉ - Proprioceptive (no last action): ์ฐธ๊ณ ๋กœ ๊ด€์ ˆ ์ •๋ณด ์ค‘ ์ง€๋‚œ ์Šคํ…์˜ ์•ก์…˜ ํ•ญ๋ชฉ์„ ์ œ์™ธํ•œ ๋ฒ„์ „ (Find ๊ณผ์ œ์—์„œ ์ด ์š”์†Œ์˜ ์˜ํ–ฅ ํ™•์ธ์šฉ)

์ด ๋น„๊ต๋ฅผ ํ†ตํ•ด ์ˆœ์ˆ˜ ์ด‰๊ฐ ์ •๋ณด์˜ ์ด๋“์„ ํ‰๊ฐ€ํ–ˆ๋Š”๋ฐ, ๊ฒฐ๊ณผ๋Š” ๊ณผ์ œ์— ๋”ฐ๋ผ ์ƒ์ดํ–ˆ์Šต๋‹ˆ๋‹ค:

  • Find: ์ดˆ๊ธฐ ํ•™์Šต์—์„œ๋Š” ์ด‰๊ฐ ํฌํ•จ ์—์ด์ „ํŠธ๊ฐ€ ์•ฝ๊ฐ„ ๋” ๋น ๋ฅด๊ฒŒ ๊ณต์„ ์ฐพ์•˜์ง€๋งŒ, ์ตœ์ข… ์„ฑ๋Šฅ์€ ์ด‰๊ฐ์„ ๋นผ๋„ ๋™์ผํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ๊ด€์ ˆ-only ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์€ ์ง€๋‚œ ์•ก์…˜ ์ •๋ณด์˜ ํฌํ•จ ์—ฌ๋ถ€์— ํฌ๊ฒŒ ์ขŒ์šฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋กœ๋ด‡ํŒ”์ด ์ด์ „ ์Šคํ…์— ์†๊ฐ€๋ฝ์„ ๋ป—์—ˆ์„ ๋•Œ ์ ‘์ด‰ ์—ฌ๋ถ€๋ฅผ ๊ด€์ ˆ ์ œ์–ด ์˜ค์ฐจ๋กœ ๊ฐ„์ ‘ ์ถ”๋ก ํ•˜๋Š” ์ „๋žต์„ ํ•™์Šตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ถ„์„๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ •์ฑ…์„ ๋“ค์—ฌ๋‹ค๋ณด๋‹ˆ, ๋กœ๋ด‡ํŒ”์ด ๋ฌด์ž‘์œ„๋กœ ์†์„ ๋ป—์–ด ์ถฉ๋Œ ๊ฐ€๋Šฅ์„ฑ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ์ทจํ•˜๋Š” ๋“ฑ ์ผ์ข…์˜ โ€œ๋ชธ์œผ๋กœ ๋•Œ์šฐ๋Š”โ€ ํƒ์ƒ‰ ์ „๋žต์„ ๊ตฌ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ Find ๊ณผ์ œ์—์„œ๋Š” ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์—†์–ด๋„ ๊ด€์ ˆ ๊ฐ๊ฐ๋งŒ์œผ๋กœ๋„ ๋ฌผ์ฒด๋ฅผ ์ฐพ์•„๋‚ด๋Š” ํŽธ๋ฒ•์ด ๊ฐ€๋Šฅํ–ˆ๋˜ ์…ˆ์ž…๋‹ˆ๋‹ค.

  • Bounce: ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ๊ฒฝ์šฐ ํ•™์Šต์ด ๋” ๋นจ๋ฆฌ ์ง„ํ–‰๋˜๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ๋„ ๋‹ค์†Œ ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด‰๊ฐ์„ ์ด์šฉํ•˜๋ฉด ๋งค ํŠ•๊ธธ ๋•Œ ๊ณต์ด ์†์— ๋‹ฟ๋Š” ์ •ํ™•ํ•œ ์ˆœ๊ฐ„์„ ๊ฐ์ง€ํ•˜์—ฌ ์ ์ ˆํžˆ ์†๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋“ฑ ์กฐ๊ธˆ ๋” ์ •๊ตํ•œ ์ œ์–ด๋ฅผ ํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ด‰๊ฐ ์—†๋Š” ์—์ด์ „ํŠธ๋„ ์˜์™ธ๋กœ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์†๋ฐ”๋‹ฅ์„ ํŽธ ์ฑ„ ๊ณต์„ ๊ทœ์น™์ ์œผ๋กœ ํŠ•๊ธฐ๋Š” ์ƒํƒœ-๋ฌด๊ด€ํ•œ(degenerate) ์ „๋žต์„ ์จ์„œ ๊ณต์ด ์šด ์ข‹๊ฒŒ๋„ ๊ณ„์† ์†์œ„์— ๋จธ๋ฌผ๋„๋ก ๋งŒ๋“  ๊ฒฐ๊ณผ์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋กœ๋ด‡์ด ๊ณต์„ โ€œ์žก์•„ ๊ฐ€๋‘๋‹ค์‹œํ”ผ(trapping)โ€ ํ•˜๋ฉด์„œ ํŠ•๊ธฐ๋Š” ๋‹จ์กฐ๋กœ์šด ๋™์ž‘์œผ๋กœ๋„ ์–ด๋А ์ •๋„ ์„ฑ๊ณต์ด ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋žต์€ ์ผ๋ฐ˜์„ฑ์ด ๋–จ์–ด์ง€์ง€๋งŒ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์˜ ํŠน์ˆ˜์„ฑ์„ ํŒŒ๊ณ ๋“ค์–ด ์ด‰๊ฐ ์—†์ด๋„ ์„ฑ๊ณผ๋ฅผ ๋‚ธ ์˜ˆ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Baoding: ๋‘ ๊ฐœ์˜ ๊ณต์„ ๋Œ๋ฆฌ๋Š” ์ด ๊ณผ์ œ์—์„œ๋Š” ์ด‰๊ฐ์˜ ์œ ๋ฌด๊ฐ€ ์„ฑํŒจ๋ฅผ ๊ฐ€๋ฅด๋Š” ๊ฒฐ์ •์  ์š”์†Œ์˜€์Šต๋‹ˆ๋‹ค. ์ด‰๊ฐ์ด ์—†๋Š” ์—์ด์ „ํŠธ๋Š” ๋๊นŒ์ง€ ๊ณต ํšŒ์ „์— ์ „ํ˜€ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ•˜๋Š” ์ˆ˜์ค€์ด์—ˆ์ง€๋งŒ, ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์ค€ ์—์ด์ „ํŠธ๋Š” ๋ช‡ ๋ฒˆ์ด๋ผ๋„ ํšŒ์ „์„ ์ด๋ค„๋‚ด๋ฉฐ ํ•™์Šต์— ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์„ฑ๋Šฅ ๋ถ„์‚ฐ์ด ์ปค์„œ ์‹œ๋“œ์— ๋”ฐ๋ผ ์„ฑ๊ณต๋ฅ  ํŽธ์ฐจ๊ฐ€ ์žˆ์—ˆ๋Š”๋ฐ, ์ด๋Š” ๊ณผ์ œ ์ž์ฒด์˜ ๋‚œ์ด๋„๊ฐ€ ๋†’์•„ ๋ถˆ์•ˆ์ •ํ•œ ํ•™์Šต ์–‘์ƒ์„ ๋ณด์˜€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด Baoding๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ ‘์ด‰ ๊ณผ์ œ์—์„œ๋Š” ์ด‰๊ฐ ์—†์ด ํ•™์Šต์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๊ณ , Bounce์ฒ˜๋Ÿผ ๋น„๊ต์  ๋‹จ์ˆœํ•œ ๋ฐ˜๋ณต ๋™์ž‘์€ ์ด‰๊ฐ ์—†์ด๋„ ํŽธ๋ฒ•์œผ๋กœ ๊ฐ€๋Šฅํ•˜๋ฉฐ, Find๋Š” ์ด‰๊ฐ์ด ์žˆ์œผ๋ฉด ๋„์›€์€ ๋˜์ง€๋งŒ ๊ฒฐ์ •์ ์ด์ง€๋Š” ์•Š๋‹ค๋Š” ๊ฒฐ๋ก ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ด€์ฐฐ์„ ํ†ตํ•ด ์ €์ž๋“ค์€ โ€œ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ์œ ์šฉ์„ฑ์€ ๊ณผ์ œ์— ๊ฐ•ํ•˜๊ฒŒ ์˜์กด์ โ€์ด๋ฉฐ, ์˜ค์ง ํŠน์ • ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋งŒ ๊ด€์ ˆ ์ •๋ณด๋กœ ํฌ์ฐฉ๋˜์ง€ ์•Š๋Š” ๋™์  ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ์ด‰๊ฐ์˜ ์—ญํ• ์ด๋ผ๋Š” ๊ฐ€์„ค์„ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ์ด ๊ฐ€์„ค์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„์„์€ ์•„๋ž˜ ๋…ผ์˜์—์„œ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

2. ์ž๊ธฐ์ง€๋„ ํ•™์Šต์˜ ํšจ๊ณผ (RL+SSL)

๋‹ค์Œ์œผ๋กœ, ์ œ์•ˆ๋œ 4๊ฐ€์ง€ SSL ๋ณด์กฐ ๊ณผ์ œ(TR, FR, FD, TFD)๋ฅผ ๊ฐ๊ฐ ์ ์šฉํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฒฝ์šฐ ๊ด€์ ˆ+์ด‰๊ฐ ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•˜๋Š” ์—์ด์ „ํŠธ์— ๋Œ€ํ•ด ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋ฅผ ์š”์•ฝํ•˜๋ฉด:

  • TR (์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ) ๊ณผ FD (์ „๋ฐฉ ๋™์—ญํ•™): ์ด ๋‘ ๋ฐฉ๋ฒ•์ด ๋ชจ๋“  ํ™˜๊ฒฝ์—์„œ ์ผ๊ด€๋˜๊ฒŒ RL-only ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋‹จ์ˆœํžˆ ๊ฐ•ํ™”ํ•™์Šต๋งŒ ํ•œ ๊ฒฝ์šฐ๋ณด๋‹ค ํ•ญ์ƒ ๋” ๋†’์€ ๋ณด์ƒ ๋˜๋Š” ์„ฑ๊ณต ํšŸ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜ ์ค‘์—์„œ๋Š” FD ์ ์šฉ ์—์ด์ „ํŠธ๊ฐ€ Find์™€ Bounce์—์„œ ๋‹ค์†Œ ๋” ๋‚˜์€ ํ‰๊ท  ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , Baoding์—์„œ๋Š” TR ์ ์šฉ ์—์ด์ „ํŠธ๊ฐ€ ํ‰๊ท ์ ์œผ๋กœ ๋” ์•ˆ์ •์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. Baoding์˜ ๊ฒฝ์šฐ FD๋„ ์ตœ๊ณ  ์„ฑ๋Šฅ์€ ๋” ๋†’์•˜์ง€๋งŒ ์‹œ๋“œ ๊ฐ„ ๋ณ€๋™์ด ์ปค์„œ, TR์ด ์กฐ๊ธˆ ๋‚ฎ์ง€๋งŒ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์œผ๋กœ ํ‰๊ท ๊ฐ’์€ ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • FR (์ „์ฒด ์žฌ๊ตฌ์„ฑ) ๊ณผ TFD (์ด‰๊ฐ+๋™์—ญํ•™ ๊ฒฐํ•ฉ): ์ด ๋‘ ๋ฐฉ๋ฒ•์˜ ์„ฑ๋Šฅ์€ ํ™˜๊ฒฝ์— ๋”ฐ๋ผ ๋“ค์‘ฅ๋‚ ์‘ฅํ•˜์—ฌ ์ผ๊ด€๋œ ์šฐ์—ด์„ ๋ณด์ด์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด TFD๋Š” Find์—์„œ ๋„ค ๋ฐฉ๋ฒ• ์ค‘ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ƒˆ์ง€๋งŒ, Bounce์—์„œ๋Š” ์˜คํžˆ๋ ค ๊ฐ€์žฅ ๋‚˜์œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. FR์€ ์–ด๋–ค ๊ฒฝ์šฐ์—” TR๋ณด๋‹ค ๋ชปํ•˜๊ณ , ์–ด๋–ค ๊ฒฝ์šฐ์—” ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋‚˜์€ ๋“ฑ ๋šœ๋ ทํ•œ ํŒจํ„ด์ด ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋“  ์ •๋ณด๋ฅผ ๋ณต์›ํ•˜๋ ค๋Š” FR์ด ๋ถˆํ•„์š”ํ•œ ์žก์Œ๊นŒ์ง€ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, TFD์˜ ๋ณตํ•ฉ ๋ชฉํ‘œ๊ฐ€ ํ•™์Šต์„ ๊ณผ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๊ณผ์ œ๋ณ„๋กœ ์ƒ๋ฐ˜๋œ ํšจ๊ณผ๋ฅผ ๋‚ณ์•˜์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์•ˆ์ •์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ SSL ๋ณด์กฐ ๋ชฉํ‘œ๋Š” FD๋กœ ํŒ๋‹จ๋˜๋ฉฐ, TR๋„ ๋‹จ์ˆœํ•˜์ง€๋งŒ ์œ ์šฉํ•œ ๋ณด์กฐ ๋ชฉํ‘œ๋กœ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์ €์ž๋“ค๋„ โ€œforward dynamics ๋ชฉํ‘œ๊ฐ€ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ด๋ฉฐ, ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ์†๋„ ๋“ฑ์„ ์ž˜ ์ธ์ฝ”๋”ฉํ•œ๋‹คโ€๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 2: ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ณด์กฐ ๊ณผ์ œ๋“ค์˜ ๊ตฌ์กฐ. ์ƒ๋‹จ (๋นจ๊ฐ„์ƒ‰)์€ ์žฌ๊ตฌ์„ฑ ๊ณ„์—ด ๋ชฉํ‘œ(TR, FR)๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ธ์ฝ”๋” ์ถœ๋ ฅ z_t์—์„œ ๋””์ฝ”๋”๋ฅผ ํ†ตํ•ด ์›๋ž˜ ์ด‰๊ฐ ๊ด€์ฐฐ \hat{o}*t^{tactile} (๋ฐ FR์˜ ๊ฒฝ์šฐ ๊ด€์ ˆ ๊ด€์ฐฐ๊นŒ์ง€)์„ ๋ณต์›ํ•˜๋„๋ก ํ•œ๋‹ค. ํ•˜๋‹จ (๋…น์ƒ‰)์€ ์ „๋ฐฉ ๋™์—ญํ•™ ๊ณ„์—ด ๋ชฉํ‘œ(FD, TFD)๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์ธ์ฝ”๋” f*\phi์™€ ์˜ˆ์ธก ๋ชจ๋ธ h_\theta๋ฅผ ์‚ฌ์šฉํ•ด z_t๋กœ๋ถ€ํ„ฐ ๋‹ค๊ฐ€์˜ฌ ์ž ์žฌ์ƒํƒœ๋“ค์„ ์ˆœ์ฐจ ์˜ˆ์ธกํ•˜๋ฉฐ, EMA ํƒ€๊นƒ ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ z_{t+k}^{tgt}์™€ ๋น„๊ตํ•˜์—ฌ ์†์‹ค์„ ๊ณ„์‚ฐํ•œ๋‹ค. TFD์˜ ๊ฒฝ์šฐ ์˜ˆ์ธกํ•œ ์ž ์žฌ์ƒํƒœ๋กœ๋ถ€ํ„ฐ ๋‹ค์‹œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ๋””์ฝ”๋”๋กœ ๋ณต์›ํ•˜๋„๋ก ์š”๊ตฌํ•˜์—ฌ, ๋ฏธ๋ž˜ ์ ‘์ด‰๊นŒ์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์กฐ ํ•™์Šต์„ ํ†ตํ•ด ์ธ์ฝ”๋”๋Š” ๋‹จ์ˆœ RL๋กœ ํ•™์Šตํ•  ๋•Œ๋ณด๋‹ค ๋” ํ’๋ถ€ํ•œ ์ •๋ณด(์˜ˆ: ๋ฌผ์ฒด์˜ ์œ„์น˜, ์ ‘์ด‰ ์‹œ์ , ์†๋„ ๋“ฑ)๋ฅผ ์ž ์žฌ ํ‘œํ˜„์— ํ•จ์ถ•ํ•˜๊ฒŒ ๋œ๋‹ค.

  • ํ•™์Šต ์•ˆ์ •์„ฑ ๋ฐ ํ‘œํ˜„ ๋ถ„์„: FD์™€ TR์ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ด์œ ๋Š”, ์ธ์ฝ”๋”๊ฐ€ ๊ณผ์ œ์— ํ•„์š”ํ•œ ํ•ต์‹ฌ ์ •๋ณด์— ์ง‘์ค‘ํ•˜๋„๋ก ํ•ด์ฃผ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋œ ์ž ์žฌ ํ‘œํ˜„ z_t๊ฐ€ ์‹ค์ œ ํ™˜๊ฒฝ์˜ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ(์˜ˆ: ๊ณต์˜ ์‹ค์ œ ์œ„์น˜/์†๋„ ๋“ฑ)๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ•จ์ถ•ํ•˜๋Š”์ง€๋ฅผ Mutual Information(MI, ์ƒํ˜ธ์ •๋ณด๋Ÿ‰)์œผ๋กœ ์ธก์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, Bounce ๊ณผ์ œ์—์„œ๋Š” ์ด‰๊ฐ์ด ์—†๋Š” PPO ์—์ด์ „ํŠธ๊ฐ€ ์˜คํžˆ๋ ค ๊ฐ€์žฅ ๋†’์€ MI๋ฅผ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ์•ž์„œ ๋งํ•œ โ€œ๊ณต ๊ฐ€๋‘๊ธฐโ€ ์ „๋žต์œผ๋กœ ํ™˜๊ฒฝ ์ƒํƒœ๊ฐ€ ๊ฑฐ์˜ ๋ณ€ํ™”ํ•˜์ง€ ์•Š์•„ ๊ฒ‰๋ณด๊ธฐ MI๊ฐ€ ๋†’๊ฒŒ ๋‚˜์˜จ ๊ฒƒ์ด๋ผ๊ณ  ํ•ด์„๋ฉ๋‹ˆ๋‹ค. Baoding ๊ณผ์ œ์—์„œ๋Š” FD ์ ์šฉ ์—์ด์ „ํŠธ์˜ ์ž ์žฌ ํ‘œํ˜„์ด ๊ฐ€์žฅ ๋†’์€ MI๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ (๊ธฐ๋ณธ PPO์˜ 3๋ฐฐ ์ˆ˜์ค€), ํŠนํžˆ ๊ฐœ๋ณ„ ๋ณ€์ˆ˜๋ณ„ MI๋ฅผ ๋ณด๋ฉด ๊ณต๋“ค์˜ ์ขŒํ‘œ์™€ ์†๋„ ์„ฑ๋ถ„์„ FD๋งŒ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด TR/FR์ฒ˜๋Ÿผ ์žฌ๊ตฌ์„ฑ ์œ„์ฃผ์˜ ๋ชฉํ‘œ๋Š” ์˜คํžˆ๋ ค ์ค‘์š”ํ•œ ๋™์—ญํ•™ ์ •๋ณด๋ฅผ ์žก์•„๋‚ด์ง€ ๋ชปํ•ด MI๊ฐ€ 0์— ๊ฐ€๊น๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด๋Š” FD ๋ณด์กฐ ํ•™์Šต์ด ํ™˜๊ฒฝ ๋™์—ญํ•™ ์˜ˆ์ธก์— ํ•„์ˆ˜์ ์ธ ์ •๋ณด(๊ณต ์›€์ง์ž„)๋ฅผ ์ž ์žฌ๊ณต๊ฐ„์— ์ƒˆ๊ฒจ ๋„ฃ์—ˆ๋‹ค๋Š” ๊ฐ•๋ ฅํ•œ ์ฆ๊ฑฐ์ด๋ฉฐ, ์•ž์„œ FD์˜ ๋†’์€ ์„ฑ๋Šฅ๊ณผ๋„ ๋งฅ๋ฝ์ด ๊ฐ™์Šต๋‹ˆ๋‹ค.

3. ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ„๋ฆฌ์˜ ํšจ๊ณผ (RL+SSL+Memory)

๋งˆ์ง€๋ง‰์œผ๋กœ, Separated Auxiliary Memory ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด FD ์—์ด์ „ํŠธ์— ์ด ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ ์‹คํ—˜์ด ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. (FD๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ–ˆ๊ธฐ์— FD ์„ค์ •์œผ๋กœ ์‹คํ—˜) ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, Find์™€ Bounce์—์„œ๋Š” ๋ณ„๋‹ค๋ฅธ ์„ฑ๋Šฅ ๋ณ€ํ™”๊ฐ€ ์—†์—ˆ์œผ๋‚˜ Baoding์—์„œ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ Baoding ๊ณผ์ œ์—์„œ๋Š” ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๋Š˜๋ฆฐ ๊ฒฝ์šฐ ํ•™์Šต ์ดˆ๊ธฐ๋ถ€ํ„ฐ ํ›จ์”ฌ ์•ˆ์ •์ ์œผ๋กœ ํšŒ์ „ ์„ฑ๊ณต ํšŸ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ–ˆ๊ณ , ์ตœ์ข…์ ์œผ๋กœ๋„ ๊ธฐ์กด๋ณด๋‹ค ๋†’์€ ํ‰๊ท  ํšŒ์ „ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๊ทธ ์ด์œ ๋ฅผ Baoding ์ž‘์—…์˜ ๋ณต์žก์„ฑ ๋ฐ ์žฅ๊ธฐ ์˜์กด์„ฑ์—์„œ ์ฐพ์•˜์Šต๋‹ˆ๋‹ค. ๋‘ ๊ณต์„ ์†์•ˆ์—์„œ ๋Œ๋ฆฌ๋Š” ๋™์ž‘์€ ์ˆœ๊ฐ„์ ์ธ ์ ‘์ด‰ ์ด๋ฒคํŠธ๋ณด๋‹ค๋Š” ์ผ์ • ๊ธฐ๊ฐ„์— ๊ฑธ์นœ ์—ฐ์†์ ์ธ ์›€์ง์ž„์„ ํ•„์š”๋กœ ํ•˜๋ฏ€๋กœ, ์งง์€ ๋กค์•„์›ƒ ๋ฉ”๋ชจ๋ฆฌ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ์—” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ์— ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋งŽ์ด ์œ ์ง€ํ•จ์œผ๋กœ์จ ๋” ๊ธด ์‹œ๊ฐ„ ๋ฒ”์œ„์˜ ํŒจํ„ด์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ์ด๊ฒƒ์ด Baoding์—์„œ ํฐ ํšจ๊ณผ๋ฅผ ๋ณธ ๋ฐ˜๋ฉด, Find๋‚˜ Bounce์ฒ˜๋Ÿผ ๋น„๊ต์  ๋‹จ์ˆœํ•˜๊ฑฐ๋‚˜ ์งง์€ ์ƒํ˜ธ์ž‘์šฉ์—์„œ๋Š” ์˜ํ–ฅ์ด ๋ฏธ๋ฏธํ–ˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ์ด ๊ฒฐ๊ณผ๋Š” on-policy ํ™˜๊ฒฝ์—์„œ๋„ off-policy ๋ฐ์ดํ„ฐ ํ™œ์šฉ์ด ์ด์ ์„ ์ค„ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ๊ฐ€๋ฆฌ์ผœ โ€œon-policy ์—์ด์ „ํŠธ๋„ off-policy ๋ฐ์ดํ„ฐ๋กœ ํ‘œํ˜„ ํ•™์Šต์„ ํ•˜๋ฉด ์ด๋“์„ ๋ณผ ์ˆ˜ ์žˆ๋‹คโ€๋ฉฐ, ํ–ฅํ›„ ๋‘ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•˜๋Š” ์—ฐ๊ตฌ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ์„ฑ๋Šฅ ์ง€ํ‘œ ๋ฐ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋น„๊ต

ํ•™์Šต ๊ณก์„  ์™ธ์—๋„, ๋…ผ๋ฌธ์€ ์ตœ์ข… ์ •์ฑ…๋“ค์˜ ๋ฌผ๋ฆฌ์  ์„ฑ๋Šฅ ์ง€ํ‘œ(์˜ˆ: 10์ดˆ๋‹น ๋ฐ”์šด์Šค ํšŸ์ˆ˜, ํšŒ์ „ ํšŸ์ˆ˜ ๋“ฑ)๋ฅผ ์ธ๊ฐ„์ด๋‚˜ ๊ธฐ์กด ์„ฑ๊ณผ์™€ ๋น„๊ตํ•˜์—ฌ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ๋งค์šฐ ๋†€๋ผ์šด โ€œ์ดˆ์ธ์ (superhuman)โ€ ์„ฑ๋Šฅ์ด ๋‹ฌ์„ฑ๋˜์—ˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Bounce ๊ณผ์ œ์˜ ๊ฒฝ์šฐ ์ตœ๊ณ ์˜ ์—์ด์ „ํŠธ๊ฐ€ 10์ดˆ์— 88๋ฒˆ ๊ณต์„ ํŠ•๊ฒจ, ์ธ๊ฐ„ ์„ธ๊ณ„๊ธฐ๋ก 59ํšŒ๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. Baoding ๊ณผ์ œ์—์„œ๋„ ๊ธฐ์กด ๋ณด๊ณ ๋œ ๋กœ๋ด‡/์ธ๊ฐ„ ์ตœ๊ณ  ๊ธฐ๋ก์ด 10์ดˆ์— 3~13ํšŒ ํšŒ์ „ ์ •๋„์ธ๋ฐ, ๋ณธ ์—ฐ๊ตฌ์˜ SSL ์ ์šฉ ์—์ด์ „ํŠธ๋Š” ๋ฌด๋ ค 25ํšŒ ํšŒ์ „์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ฌ์ง€์–ด ๊ฐ•ํ™”ํ•™์Šต๋งŒ์œผ๋กœ ํ•™์Šตํ•œ (SSL ๋ฏธ์‚ฌ์šฉ) ์ด‰๊ฐ ์—์ด์ „ํŠธ์กฐ์ฐจ 13ํšŒ ํšŒ์ „์— ๋„๋‹ฌํ•˜์—ฌ ์ˆ™๋ จ๋œ ์ธ๊ฐ„๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์„ ๋ณด์˜€๊ณ , ๊ฑฐ๊ธฐ์— SSL์„ ๊ฒฐํ•ฉํ•˜์ž ์ธ๊ฐ„์˜ ์•ฝ ๋‘ ๋ฐฐ์— ๋‹ฌํ•˜๋Š” ๊ฒฝ์ง€์— ์ด๋ฅธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. Find ๊ณผ์ œ์˜ ๊ฒฝ์šฐ๋„ ์ด‰๊ฐ+FD ์—์ด์ „ํŠธ๊ฐ€ ํ‰๊ท  1.4์ดˆ ๋งŒ์— ๋ฌผ์ฒด๋ฅผ ์ฐพ์•„๋‚ด์–ด ์ˆœ์ˆ˜ PPO๋ณด๋‹ค 36% ๋น ๋ฅด๊ฒŒ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด๋Ÿฌํ•œ ์ˆ˜์น˜๋Š” ๋ชจ๋‘ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‚ด ์„ฑ๊ณผ์ด๋ฏ€๋กœ ํ˜„์‹ค์— ๋ฐ”๋กœ ์ ์šฉ๋˜๋ฆฌ๋ผ ์žฅ๋‹ดํ•  ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ํ˜„์‹ค์˜ ์ฐจ์ด๋ฅผ ์ธ์ •ํ•˜๋ฉด์„œ, ๋‹ค๋งŒ โ€œ๋ฐ”๋กœ ํ˜„์‹ค์— ์“ฐ์ด์ง€๋Š” ๋ชปํ•˜๊ฒ ์ง€๋งŒ ์—ฐ๊ตฌ์  ํฅ๋ฏธ๋ฅผ ์œ„ํ•ด ์†Œ๊ฐœํ•œ๋‹คโ€๊ณ  ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋น„์ „๋„ ์—†์ด ์˜ค์ง ์ด‰๊ฐ์œผ๋กœ ์ธ๊ฐ„์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ƒˆ๋‹ค๋Š” ์ ์€ ๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ์—์„œ ์ƒ๋‹นํžˆ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต: ๋ฌด์—‡์ด ์ƒˆ๋กœ์›Œ์กŒ๋‚˜?

์ด๋ฒˆ ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ๋ถ„์•ผ์—์„œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ธก๋ฉด์˜ ์ง„์ „์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ด€๋ จ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ•˜๋ฉฐ ํ•ต์‹ฌ ๊ฐœ์„ ์  ๋ฐ ์ฐจ๋ณ„์ ์„ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

1) ์ด์ƒ์  ์ •๋ณด๋‚˜ ์‹œ๊ฐ ์—†์ด โ€œ๋งน๋ชฉ์ (Blind)โ€ ์กฐ์ž‘ ํ•™์Šต: ๊ณผ๊ฑฐ์˜ ๋‚œ์ด๋„ ๋†’์€ ์ธํ•ธ๋“œ ์กฐ์ž‘ ์—ฐ๊ตฌ๋“ค์„ ๋ณด๋ฉด, ๋Œ€๋ถ€๋ถ„ ์นด๋ฉ”๋ผ ์˜์ƒ, ์™ธ๋ถ€ ํŠธ๋ž˜ํ‚น, ํ˜น์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‚ด๋ถ€ ์ƒํƒœ์— ์ ‘๊ทผํ•˜๋Š” ํŠน๊ถŒ ์ •๋ณด์— ํฌ๊ฒŒ ์˜์กดํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ OpenAI์˜ ์œ ๋ช…ํ•œ ์†๋ฐ”๋‹ฅ ๋‚ด ํ๋ธŒ ๋Œ๋ฆฌ๊ธฐ ์—ฐ๊ตฌ(Andrychowicz et al., 2020)์—์„œ๋Š” ๋‹ค์ˆ˜์˜ ์นด๋ฉ”๋ผ์™€ ๊ฐ์ฒด ์œ„์น˜ ์ถ”์ ๊ธฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค์—์„œ๋„ RGB-D ์„ผ์„œ๋‚˜ ํฌ์ฆˆ ์ถ”์ •๊ธฐ, ํ˜น์€ ๊ต์‚ฌ-ํ•™์ƒ ๋ชจํ˜•์„ ํ†ตํ•œ ๋ชจ๋ฐฉ ํ•™์Šต์œผ๋กœ ์ด์ƒ์ ์ธ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๊ณค ํ–ˆ์Šต๋‹ˆ๋‹ค. Baoding ๊ณต ํšŒ์ „์˜ ๊ฒฝ์šฐ๋„ ์ด์ „์—๋Š” ๊ณต์˜ ์œ„์น˜๋ฅผ ์ถ”์ ํ•˜๊ธฐ ์œ„ํ•ด ์นด๋ฉ”๋ผ๋ฅผ ์“ฐ๊ฑฐ๋‚˜ ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜ privileged distillation ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ˆœ์ˆ˜ํ•˜๊ฒŒ ๋กœ๋ด‡ ์ž์ฒด์˜ ๊ฐ๊ฐ๋งŒ์œผ๋กœ ์กฐ์ž‘ํ•œ ์‚ฌ๋ก€๋Š” ๊ทนํžˆ ๋“œ๋ฌผ์—ˆ๋Š”๋ฐ, ๊ทธ๋‚˜๋งˆ Sievers ๋“ฑ(2022)์ด๋‚˜ Yang ๋“ฑ(2023)์˜ ์ผ๋ถ€ ์—ฐ๊ตฌ์—์„œ ์•„๋ฌด ์„ผ์„œ๋„ ์•ˆ ๋ณด๊ณ (๋งน๋ชฉ์ ์œผ๋กœ) ๋ฌผ์ฒด ํšŒ์ „์ด๋‚˜ ๋‹จ์ˆœ Baoding ๋ฐ˜ํšŒ์ „ ์ •๋„๋ฅผ ๋ณด์—ฌ์ค€ ๊ฒƒ์ด ๊ณ ์ž‘์ž…๋‹ˆ๋‹ค. ๊ทธ ์„ฑ๋Šฅ๋„ 10์ดˆ์— ๋ช‡ ๋ฐ”ํ€ด ๋Œ๋ฆฌ์ง€ ๋ชปํ•˜๋Š” ๊ธฐ๋ณธ์ ์ธ ์ˆ˜์ค€(3ํšŒ์ „)์ด์—ˆ์ฃ . ์ด๋ฒˆ ๋…ผ๋ฌธ์€ ์˜ค์ง ๊ด€์ ˆ+์ด‰๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ, ์ฆ‰ โ€œ๋งน๋ชฉ์ โ€์œผ๋กœ๋„ ์ด๋Ÿฌํ•œ ๋ณต์žกํ•œ ์กฐ์ž‘์„ ํ›จ์”ฌ ๋†’์€ ์ˆ˜์ค€์œผ๋กœ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์ด ๊ตณ์ด ์นด๋ฉ”๋ผ 10๋Œ€๋ฅผ ๋‹ฌ์ง€ ์•Š๊ณ ๋„, ์ž๊ธฐ ์†๋์˜ ๊ฐ๊ฐ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ๊ณ ๋‚œ๋„ ์ž‘์—…์„ ํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ 25ํšŒ Baoding ํšŒ์ „์ด๋‚˜ 88ํšŒ ๊ณต ํŠ•๊ธฐ๊ธฐ ๋“ฑ์˜ ์„ฑ๊ณผ๋Š” ๊ธฐ์กด ์ž‘์—…๊ณผ ๋น„๊ตํ•ด ์งˆ์ ์œผ๋กœ ๋„์•ฝํ•œ ์ˆ˜์ค€์ด๋ฉฐ, ํ–ฅํ›„ ์‹ค์„ธ๊ณ„์—์„œ๋„ ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ๊ฐ€์น˜๋ฅผ ์žฌ์กฐ๋ช…ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

2) ์ด‰๊ฐ ์ •๋ณด ํ™œ์šฉ์— ๋Œ€ํ•œ ๋…ผ์Ÿ ํ•ด์†Œ: ์•ž์„œ ์†Œ๊ฐœํ–ˆ๋“ฏ ์ด‰๊ฐ ์„ผ์„œ์˜ ํ•„์š”์„ฑ์— ๋Œ€ํ•ด ํ•™๊ณ„์˜ ์˜๊ฒฌ์ด ๋ถ„๋ถ„ํ–ˆ๋Š”๋ฐ, ์ด ์—ฐ๊ตฌ๋Š” โ€œ์–ธ์ œ ์ด‰๊ฐ์ด ํ•„์ˆ˜์ ์ธ๊ฐ€โ€์— ๋Œ€ํ•œ ๋ถ„๋ช…ํ•œ ๋‹ต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด‰๊ฐ์ด ์œ ์šฉํ•œ ๋„ค ๊ฐ€์ง€ ๋Œ€ํ‘œ ์ƒํ™ฉ์„ ์ •๋ฆฌํ–ˆ๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ์ด์ „ ์—ฐ๊ตฌ๋“ค์˜ ์ƒ๋ฐ˜๋œ ๊ฒฐ๊ณผ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค:

  1. ๋ฌผ์ฒด-๋กœ๋ด‡ ์šด๋™์˜ ๋ถ„๋ฆฌ: ๋ฌผ์ฒด์˜ ์›€์ง์ž„์ด ๋กœ๋ด‡ ๊ด€์ ˆ์˜ ์›€์ง์ž„๊ณผ ์ง๊ตํ•˜๊ฑฐ๋‚˜ ๋…๋ฆฝ์ ์ผ ๋•Œ, ์ ‘์ด‰์ด ๋ฐœ์ƒํ•ด๋„ ๊ด€์ ˆ ์ œ์–ด ์˜ค์ฐจ์— ๊ฑฐ์˜ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์ด‰๊ฐ์ด ์—†๋‹ค๋ฉด ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. (Baoding ๊ณผ์ œ์—์„œ ๊ณต๋“ค์ด ์†๋ฐ”๋‹ฅ ๋ฉด์„ ๋”ฐ๋ผ ์ˆ˜ํ‰์œผ๋กœ ์›€์ง์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ด์— ํ•ด๋‹น)

  2. ๊ทน๋„๋กœ ๊ฐ€๋ฒผ์šด ๋ฌผ์ฒด: ๋งค์šฐ ๊ฐ€๋ณ๊ฑฐ๋‚˜ ์œ ์—ฐํ•œ ๋ฌผ์ฒด๋Š” ์ ‘์ด‰ ์‹œ ๋กœ๋ด‡์— ํฐ ๋ฐ˜๋ ฅ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์ง€ ์•Š์•„ ๊ด€์ ˆ ํ† ํฌ/์œ„์น˜ ๋ณ€ํ™”๋กœ ๊ฐ์ง€ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด๋•Œ๋Š” ์ ‘์ด‰ ์„ผ์„œ๊ฐ€ ์žˆ์–ด์•ผ ๋ฌผ์ฒด์™€ ๋‹ฟ์•˜๋Š”์ง€ ํ™•์‹คํžˆ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (์˜ˆ: Bounce์˜ 30g ๊ฐ€๋ฒผ์šด ๊ณต, ์ข…์ด, ์ŠคํŽ€์ง€ ๋“ฑ)

  3. ์ ‘์ด‰ ์œ„์น˜์˜ ๋ชจํ˜ธ์„ฑ: ํ•˜๋‚˜์˜ ๋งํฌ(๊ด€์ ˆ ๋งˆ๋””) ์œ„ ์—ฌ๋Ÿฌ ์ง€์  ์ค‘ ์–ด๋””์— ๋‹ฟ์•˜๋Š”์ง€ ์•Œ์•„์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ๊ด€์ ˆ ์„ผ์„œ๋Š” ์ ‘์ด‰์œผ๋กœ ์ธํ•œ ์ด ํž˜๋งŒ ๋А๋‚„ ๋ฟ, ํž˜์ด ์ž‘์šฉํ•œ ์ •ํ™•ํ•œ ์œ„์น˜๊นŒ์ง€๋Š” ์•Œ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์ด‰๊ฐ ๋ฐฐ์—ด ์„ผ์„œ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  4. ๋‹ค์ค‘ ์ ‘์ด‰ ์ƒํ™ฉ: ๋™์‹œ์— ์—ฌ๋Ÿฌ ๊ตฐ๋ฐ ์ ‘์ด‰์ด ๋ฐœ์ƒํ•˜์—ฌ ์ „์ฒด ํž˜์ด ๋ถ„์‚ฐ๋˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ๊ด€์ ˆ ์ œ์–ด ์˜ค์ฐจ๋กœ๋Š” ํ•ฉ๋ ฅ๋งŒ ๊ด€์ฐฐ๋˜๋ฏ€๋กœ, **์—ฌ๋Ÿฌ ์ ‘์ด‰์„ ํ•˜๋‚˜์˜ ํฐ ์ ‘์ด‰๊ณผ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹คใ€‘. ์ด‰๊ฐ ์„ผ์„œ๋Š” ๊ฐ ์ง€์ ๋ณ„ ์ ‘์ด‰์„ ๋”ฐ๋กœ ๊ฐ์ง€ํ•จ์œผ๋กœ์จ ์ด๋Ÿฐ ์ƒํ™ฉ์„ ํ•ด์†Œํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ƒํ™ฉ๋“ค์—์„œ๋Š” ์ด‰๊ฐ ์„ผ์‹ฑ์ด ๊ด€์ ˆ ๊ณ ์œ ๊ฐ๊ฐ์ด ๋†“์น˜๋Š” ์ •๋ณด๋ฅผ ์ฑ„์›Œ์ฃผ์–ด ํ•™์Šต ์„ฑ๋Šฅ์— ๊ฒฐ์ •์  ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ด๋ฒˆ ์—ฐ๊ตฌ๋กœ ์‹ค์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ด์ „์— ์ด‰๊ฐ์ด ๋ณ„ ํšจ๊ณผ๋ฅผ ๋ชป ๋ดค๋˜ ์—ฐ๊ตฌ๋“ค์€, ์•„๋งˆ๋„ ์‹คํ—˜ ๊ณผ์ œ๊ฐ€ ์ด๋Ÿฌํ•œ ์กฐ๊ฑด์— ๋ถ€ํ•ฉํ•˜์ง€ ์•Š๊ฑฐ๋‚˜, ์ด‰๊ฐ ์‹ ํ˜ธ ์ฒ˜๋ฆฌ์˜ ๋ฏธํก์œผ๋กœ ์ธํ•ด ์œ ์˜๋ฏธํ•œ ์ •๋ณด ์ถ”์ถœ์— ์‹คํŒจํ–ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Miller ๋“ฑ์˜ ๊ฒฐ๊ณผ๋Š” โ€œ์ด‰๊ฐ์€ ์“ธ๋ชจ์—†๋‹คโ€๋Š” ์ผ๋ถ€ ๊ฒฌํ•ด์— ๋ฐ˜๋ฐ•ํ•˜๋ฉฐ, ์กฐ๊ฑด๋ถ€์ด์ง€๋งŒ ๋ฐ˜๋“œ์‹œ ํ•„์š”ํ•œ ์—ญํ• ์ด ์žˆ์Œ์„ ๋ถ„๋ช…ํžˆ ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

3) ํ‘œํ˜„ ํ•™์Šต์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๊ธฐ์กด ์ด‰๊ฐ RL ์—ฐ๊ตฌ์—์„œ๋Š” ์ฃผ๋กœ RL ๋ณธ์—ฐ์˜ ํ•™์Šต์— ์ง‘์ค‘ํ•˜๊ณ , ํ‘œํ˜„ ํ•™์Šต ์ธก๋ฉด์€ ๊ฐ„๊ณผ๋˜๊ธฐ ์ผ์‘ค์˜€์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ์‹œ๋„๋“ค์ด ์—†์—ˆ๋˜ ๊ฒƒ์€ ์•„๋‹ˆ๋‚˜, ์˜ˆ๋ฅผ ๋“ค์–ด ๋ณ€๋ถ„ ์˜คํ† ์ธ์ฝ”๋”(VAE)๋ฅผ ํ™œ์šฉํ•ด ์•ˆ์ •ํ™” ๊ณผ์ œ๋ฅผ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ํ”ฝ์…€ ๊ธฐ๋ฐ˜์˜ ๋งˆ์Šคํฌ ๋ณต์›์ด๋‚˜ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ๋ณธ ์ •๋„์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์˜์ƒ+์ด‰๊ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ค์ •์—์„œ ๋Œ€์กฐํ•™์Šต(contrastive learning)์œผ๋กœ ๋‘ ๊ฐ๊ฐ์˜ ์ž ์žฌ ํ‘œํ˜„์„ ๋งž์ถ”๋Š” ๋“ฑ์˜ ์—ฐ๊ตฌ๋„ ์žˆ์—ˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋“ค์€ ๋กœ๋ด‡ ์ œ์–ด ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๋Œ์–ด์˜ฌ๋ฆฌ์ง€๋Š” ๋ชปํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ์Šคํ… ๋ฏธ๋ž˜ ์˜ˆ์ธก์ด๋ผ๋Š” ๊ฐ•ํ™”ํ•™์Šต ํ‘œํ˜„ ํ•™์Šต ๊ธฐ๋ฒ•(FD)์„ ์ด‰๊ฐ ๋„๋ฉ”์ธ์— ๋ณธ๊ฒฉ์ ์œผ๋กœ ๋„์ž…ํ•˜์—ฌ, ์ด‰๊ฐ ์ •๋ณด๊ฐ€ ์‹ค์ œ ๋ฌผ์ฒด ๋™์—ญํ•™์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•˜๋„๋ก ๋งŒ๋“  ์ตœ์ดˆ์˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์ด์ง„ ์ ‘์ด‰์ฒ˜๋Ÿผ ๋‹จ์ˆœํ•œ ์‹ ํ˜ธ์กฐ์ฐจ๋„ ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋ฉด ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ํ’ˆ์€ ์ž ์žฌ ๋ฒกํ„ฐ๋กœ ๊ฑฐ๋“ญ๋‚  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ •์ฑ… ์ตœ์ ํ™”์˜ ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋“ค์ด ๊ฐ„๊ณผํ–ˆ๋˜ ๋ถ€๋ถ„์œผ๋กœ, ํ–ฅํ›„ ์ด‰๊ฐ ๋ฟ ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ์„ผ์„œ(์˜ˆ: ๋น„์ „)์™€์˜ ํ†ตํ•ฉ ํ‘œํ˜„ ํ•™์Šต ์—ฐ๊ตฌ์—๋„ ์ฐธ๊ณ ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋Š” ์ค‘์š”ํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

4) ์ด‰๊ฐ ํŠน์„ฑ์— ๋งž์ถ˜ RL ๋ฐฉ๋ฒ•๋ก  ๊ฐœ์„ : ์ด‰๊ฐ ์ƒํ˜ธ์ž‘์šฉ์˜ ๋นˆ๋„์™€ ํŠน์„ฑ์— ๋งž๊ฒŒ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์กฐ์ •ํ•˜๋ ค๋Š” ์‹œ๋„๋„ ๊ณผ๊ฑฐ์— ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Vulin ๋“ฑ(2021)์€ off-policy ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ์ ‘์ด‰์ด ์žˆ์—ˆ๋˜ ์—ํ”ผ์†Œ๋“œ ์ƒ˜ํ”Œ์˜ ๋น„์œจ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ผ๊ณ , Hansen ๋“ฑ(2022)์€ ์ ‘์ด‰ ๋ฐœ์ƒ ์‹œ์—๋งŒ ์ธ์ฝ”๋”๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋„๋ก ํ•˜๋Š” ๋“ฑ ๋ณ€ํ˜•์„ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ on-policy ํ™˜๊ฒฝ์—์„œ๋Š” ์ด๋Ÿฐ ์ ‘๊ทผ์ด ์‰ฝ์ง€ ์•Š์•„ ๊ฑฐ์˜ ์‹œ๋„๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. Miller ๋“ฑ์˜ ์—ฐ๊ตฌ๋Š” on-policy PPO ์„ค์ •์—์„œ ์ตœ์ดˆ๋กœ ๋ณด์กฐ ์†์‹ค ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ์…‹์„ ๋ณ„๋„๋กœ ๊ด€๋ฆฌํ•จ์œผ๋กœ์จ, ๊ฒฐ๊ณผ์ ์œผ๋กœ off-policy ๊ฒฝํ—˜๋„ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์•„์ด๋””์–ด๋Š” ๋‹จ์ˆœํ•ด ๋ณด์ด์ง€๋งŒ ์ด์ „์— ์‹œ๋„๋˜์ง€ ์•Š์•˜๋˜ ๊ฒƒ์œผ๋กœ, Baoding ๊ฐ™์€ ์–ด๋ ค์šด ์ž‘์—…์—์„œ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๊ฐ•ํ™”ํ•™์Šต ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์‹œ์‚ฌ์ ์„ ์ฃผ๋ฉฐ, ํ–ฅํ›„ on-policy/off-policy ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผ๊ณ ์ž ํ•˜๋Š” ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์— ์˜๊ฐ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5) ๋ฒค์น˜๋งˆํฌ์™€ ์žฌํ˜„์„ฑ: ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ €์ž๋“ค์€ ์ด‰๊ฐ RL ์—ฐ๊ตฌ์˜ ์ง„ํฅ์„ ์œ„ํ•ด ๊ณต์šฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ–ˆ๋‹ค๋Š” ์ ๋„ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ๊ฐ์ž ๋‹ค๋ฅธ ํ•˜๋“œ์›จ์–ด(์„ผ์„œ ์ข…๋ฅ˜, ๊ฐœ์ˆ˜, ์œ„์น˜)์™€ ๊ณผ์ œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋†“์•˜๊ธฐ ๋•Œ๋ฌธ์—, ์„œ๋กœ ์ง์ ‘ ๋น„๊ต๊ฐ€ ์–ด๋ ต๊ณ  ์ฒด๊ณ„์ ์ธ ๋ฐœ์ „์ด ๋”๋”˜ ์ธก๋ฉด์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. RoTO ๋ฒค์น˜๋งˆํฌ๋Š” ํ‘œ์ค€ํ™”๋œ ํ™˜๊ฒฝ๊ณผ ์„ฑ๋Šฅ์ง€ํ‘œ, ๊ทธ๋ฆฌ๊ณ  ์˜คํ”ˆ์†Œ์Šค ์ฝ”๋“œ/์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ์•ž์œผ๋กœ ๋‚˜์˜ฌ ์—ฐ๊ตฌ๋“ค์ด ๋™์ผํ•œ ๊ธฐ์ค€์—์„œ ๊ฐœ์„  ์—ฌ๋ถ€๋ฅผ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ๋น„์ „ ๊ธฐ๋ฐ˜ RL์—์„œ Atari๋‚˜ DeepMind Control suite ๋“ฑ์ด ๊ณต์šฉ ์‹œํ—˜์žฅ ์—ญํ• ์„ ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ, ์ด‰๊ฐ RL ๋ถ„์•ผ์—๋„ ๊ณตํ†ต ํ‰๊ฐ€๋Œ€๊ฐ€ ์ƒ๊ธด ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋…ธ๋ ฅ์€ ์—ฐ๊ตฌ์˜ ์žฌํ˜„์„ฑ(reproducibility)๊ณผ ๋น„๊ต ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์—ฌ, ํ–ฅํ›„ ์ด‰๊ฐ ์„ผ์‹ฑ์„ ํ†ตํ•œ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ์˜ ๊ฐ€์†์„ ๊ธฐ๋Œ€ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ์ „๋ง

์ด๋ฒˆ ๋ฆฌ๋ทฐ์—์„œ ์‚ดํŽด๋ณธ Miller ๋“ฑ(2025)์˜ ์—ฐ๊ตฌ๋Š”, โ€œ์ด‰๊ฐ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ๋กœ๋ด‡์˜ ์„ฌ์„ธํ•œ ์ œ์–ด ๋Šฅ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์„ ๋‹ค์–‘ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ง„ ์ ‘์ด‰ ์„ผ์„œ ์‹ ํ˜ธ์กฐ์ฐจ๋„ ์ž˜ ํ™œ์šฉํ•˜๋ฉด ๋ณต์žกํ•œ ๋ฌผ์ฒด ์กฐ์ž‘์— ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ ๊ด€์ ˆ ์„ผ์„œ๋งŒ์œผ๋กœ๋Š” ์ธ์ง€ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฏธ์„ธํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํฌ์ฐฉํ•ด๋ƒ„์œผ๋กœ์จ ํ•™์Šต ์„ฑ๋Šฅ๊ณผ ์•ˆ์ •์„ฑ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ๋‹จ์ˆœ RL๋กœ๋Š” ์–ป๊ธฐ ํž˜๋“  ์œ ์šฉํ•œ ํ‘œํ˜„์„ ์ž ์žฌ๊ณต๊ฐ„์— ์‹ฌ์–ด์คŒ์œผ๋กœ์จ ์ •์ฑ… ํ•™์Šต์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์กฐํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๋ณด์กฐ ๊ณผ์ œ ์ค‘ ๋ฏธ๋ž˜ ์ƒํƒœ ์˜ˆ์ธก(FD) ๋ฐฉ์‹์ด ๊ฐ€์žฅ ๋‘๊ฐ์„ ๋‚˜ํƒ€๋ƒˆ๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” ๋ฌผ์ฒด์˜ ์›€์ง์ž„๊ณผ ๋™์—ญํ•™์  ํŠน์„ฑ๊นŒ์ง€ ๋‚ด์žฌํ™”๋œ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ๋†’์€ ๋ณด์ƒ๊ณผ ์„ฑ๊ณต๋ฅ ๋กœ ์ด์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€, ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์ธก๋ฉด์—์„œ๋„ on-policy RL๊ณผ off-policy ํ‘œํ˜„ ํ•™์Šต์˜ ๊ฒฐํ•ฉ์ด ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์–ด, ๋ณต์žกํ•œ ์žฅ๊ธฐ ์ ‘์ด‰ ๊ณผ์ œ(Baoding)์—์„œ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์ด ์—ฐ๊ตฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜์ด๋ผ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ๊ณผ ์‹คํ—˜์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ ์ €์ž๋“ค์ด ์ด์ง„ ์ ‘์ด‰์ฒ˜๋Ÿผ ์ด์ƒํ™”๋œ ๋‹จ์ˆœ ์„ผ์„œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ์ด์œ ๋„, ํ˜„์‹ค ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋ถˆํ™•์‹ค์„ฑ๊ณผ ์žก์Œ์„ ํ”ผํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ ค๋Š” ์˜๋„์˜€์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์— ์ด ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•œ๋‹ค๋ฉด, ์ ์ ˆํ•œ ์ ‘์ด‰ ์„ผ์„œ์˜ ๋ฐฐ์น˜์™€ ๋ณด์ • ๊ทธ๋ฆฌ๊ณ  ํ›ˆ๋ จ๋œ ์ •์ฑ…์˜ ์ด์‹ ๋“ฑ์˜ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ‘œํ˜„ ํ•™์Šต ์ „๋žต ๊ทธ ์ž์ฒด๋Š” ํ˜„์‹ค์—์„œ๋„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฆฌ๋ผ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ด ์—ฐ๊ตฌ์—์„œ ๊ฐœ๋ฐœ๋œ ํ•™์Šต ์ „๋žต(SSL ๋ณด์กฐ ๋ชฉํ‘œ, ๋ณด์กฐ ๋ฉ”๋ชจ๋ฆฌ ๋“ฑ)๋“ค์€ ํŠน์ • ํ™˜๊ฒฝ์— ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ  ์ผ๋ฐ˜์ ์ธ ์›๋ฆฌ์ด๋ฏ€๋กœ, ์ด‰๊ฐ ์ด์™ธ์˜ ๋‹ค๋ฅธ ํ˜•ํƒœ ์„ผ์„œ๋‚˜ ๊ณผ์ œ์—๋„ ํ™•์žฅ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, โ€œEnhancing Tactile-based RL for Robotic Controlโ€ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์ด‰๊ฐ ๊ฐ•ํ™”ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํ•œ ๋‹จ๊ณ„ ๋Œ์–ด์˜ฌ๋ฆฐ ์„ฑ๊ณผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ฐ ์ •๋ณด ์—†์ด๋„ ์ด‰๊ฐ์„ ํ†ตํ•ด ์ถฉ๋ถ„ํ•œ ํ™˜๊ฒฝ ์ดํ•ด์™€ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ์ด๋Ÿฌํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šต์— ๋…น์—ฌ๋‚ผ์ง€์— ๋Œ€ํ•œ ๊ตฌ์ฒด์  ํ•ด๋ฒ•(๋ฏธ๋ž˜์˜ˆ์ธก ๊ธฐ๋ฐ˜ ํ‘œํ˜„ ํ•™์Šต ๋“ฑ)์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ, ์˜์ˆ˜ ์ œ์–ด, ์„ฌ์„ธํ•œ ์ œ์กฐ ์ž‘์—… ๋“ฑ ๊ฐ๊ฐ ์ฃผ๋„ํ˜• ๋กœ๋ด‡ ๊ธฐ์ˆ ์— ํญ๋„“๊ฒŒ ์‘์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ถ๊ทน์ ์œผ๋กœ๋Š” ๋กœ๋ด‡์ด ์‚ฌ๋žŒ์ฒ˜๋Ÿผ โ€œ๋ณด๊ณ  ๋А๋ผ๋ฉฐโ€ ๋ฐฐ์šฐ๋Š” ์ž์œจ์„ฑ์— ํ•œ ๊ฑธ์Œ ๋‹ค๊ฐ€๊ฐ„ ์—ฐ๊ตฌ๋ผ๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee