Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • Abstract
    • Introduction
    • Related Work
    • Proposed Method - ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต
      • Sparsh-X ๋ชจ๋ธ ๊ฐœ์š”
      • ์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต (SSL Training Pipeline)
    • ์‹คํ—˜: ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์—์„œ์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ™œ์šฉ
      • ๋ฌผ๋ฆฌ์  ์†์„ฑ ์ถ”๋ก  (Inferring Physical Properties with Sparsh-X)
      • ์ •์ฑ… ํ•™์Šต์—์„œ์˜ Sparsh-X ํ™œ์šฉ (Sparsh-X for Policy Learning)
    • Discussion
    • Conclusion
    • Limitations and Future Work

๐Ÿ“ƒSparsh-X ๋ฆฌ๋ทฐ

tactile
digit360
multlimodal
sparsh-x
Tactile Beyond Pixels - Multisensory Touch Representations for Robot Manipulation
Published

August 19, 2025

  • Paper Link
  • Code Link
  1. ์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต ๋ชจ๋ธ์ธ Sparsh-X๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” Digit 360 ์„ผ์„œ์—์„œ ์–ป์€ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋ชจ์…˜, ์••๋ ฅ ๋“ฑ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ์–‘์ƒ์„ ์ž์ฒด ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ‘œํ˜„์œผ๋กœ ์œตํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  2. ์•ฝ 100๋งŒ ๊ฑด์˜ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ Sparsh-X๋Š” ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ๋ฐ ์ ‘์ด‰ ์—ญํ•™์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ด๋Ÿฌํ•œ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
  3. ์‹คํ—˜ ๊ฒฐ๊ณผ, Sparsh-X๋Š” ๋ชจ๋ฐฉ ํ•™์Šต ๋ฐ Sim-to-Real ์ด‰๊ฐ ์ ์‘์„ ํ†ตํ•ด ๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ 63% ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์ถ”์ • ์ •ํ™•๋„๋ฅผ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ 48% ๊ฐœ์„ ํ•˜์—ฌ ๊ฒฌ๊ณ ํ•œ ๋ฏธ์„ธ ์กฐ์ž‘ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Brief Review

์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ์ผ๋ฐ˜ ๋ชฉ์ ์˜ ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ํ‘œํ˜„(multisensory touch representations) ๋ชจ๋ธ์ธ Sparsh-X๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Sparsh-X๋Š” Digit 360 ์„ผ์„œ์—์„œ ์ˆ˜์ง‘๋œ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋ชจ์…˜(IMU), ์••๋ ฅ์˜ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์•ฝ 100๋งŒ ๊ฑด์˜ ์ ‘์ด‰ ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋กœ ์ž๊ฐ€ ์ง€๋„ ํ•™์Šต(self-supervised learning)๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ„์ , ๊ณต๊ฐ„์  ์Šค์ผ€์ผ์˜ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ์ด‰๊ฐ ์‹ ํ˜ธ๋“ค์„ ๋‹จ์ผํ™”๋œ ํ‘œํ˜„์œผ๋กœ ์œตํ•ฉํ•˜์—ฌ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค.

Sparsh-X์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ transformer ๊ธฐ๋ฐ˜์˜ ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜์— ์žˆ์Šต๋‹ˆ๋‹ค.

์ž…๋ ฅ ์‹ ํ˜ธ๋Š” ๋จผ์ € L_f๊ฐœ์˜ ๋ ˆ์ด์–ด(L_f = 8)์—์„œ ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ self-attention์„ ํ†ตํ•ด ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์ดํ›„ L_b๊ฐœ์˜ ๋ธ”๋ก(L_b = 4)์—์„œ๋Š” attention bottlenecks [35]๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ cross-modal ์ •๋ณด ํ๋ฆ„์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด B๊ฐœ์˜ bottleneck fusion tokens(B = 4)์ด ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ embedding์— ์—ฐ๊ฒฐ๋˜๋ฉฐ, ๊ฐ cross-modal ์—…๋ฐ์ดํŠธ ํ›„ fusion tokens๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ „๋ฐ˜์— ๊ฑธ์ณ ํ‰๊ท ํ™”๋˜์–ด ์ •๋ณด ๊ณต์œ ๋ฅผ ์ด‰์ง„ํ•ฉ๋‹ˆ๋‹ค. ์ด transformer ๋ ˆ์ด์–ด ์ˆ˜๋Š” L = L_f + L_b = 12๋กœ ์„ค์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ „์ฒ˜๋ฆฌ๋˜๊ณ  ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค:

  • Image: 30fps๋กœ ์ƒ˜ํ”Œ๋ง๋œ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ 5์˜ temporal stride๋กœ ์ฑ„๋„ ์ฐจ์›์— ๋”ฐ๋ผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. hyper-fisheye ์ด๋ฏธ์ง€๋Š” 224x224x3 ํฌ๊ธฐ๋กœ ์ž๋ฅด๊ณ  ๋ฆฌ์‚ฌ์ด์ฆˆ๋˜๋ฉฐ, 16x16 ํฌ๊ธฐ์˜ ํŒจ์น˜(patch)๋กœ ๋ถ„ํ• ๋œ ํ›„ linear projection layer๋ฅผ ํ†ตํ•ด 768์ฐจ์›์˜ embedding์œผ๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • Audio: 48kHz๋กœ ์ƒ˜ํ”Œ๋ง๋œ ๋‘ ๊ฐœ์˜ ์ ‘์ด‰ ๋งˆ์ดํฌ์—์„œ ์–ป์€ 0.55์ดˆ์˜ ์˜ค๋””์˜ค ์‹ ํ˜ธ๋Š” 5ms Hamming window์™€ 2.5ms์˜ hop length๋กœ 128์ฑ„๋„์˜ log-mel spectogram์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๋‘ ๋งˆ์ดํฌ์˜ spectogram์ด ์—ฐ๊ฒฐ๋˜์–ด 224x256 ์˜ค๋””์˜ค ์ž…๋ ฅ์ด ๋˜๋ฉฐ, 16 ํฌ๊ธฐ์˜ ํŒจ์น˜๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • IMU (Accelerometer): 400Hz๋กœ ์ƒ˜ํ”Œ๋ง๋œ 3์ถ• ๊ฐ€์†๋„๊ณ„ ๋ฐ์ดํ„ฐ๋Š” 0.55์ดˆ ์ฐฝ์œผ๋กœ ํ†ตํ•ฉ๋˜์–ด 224x3 temporal signal๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • Pressure: 200Hz๋กœ ์ƒ˜ํ”Œ๋ง๋œ ์••๋ ฅ ์‹ ํ˜ธ๋Š” 1.1์ดˆ ์ฐฝ์œผ๋กœ ํ†ตํ•ฉ๋˜์–ด 224x1 temporal signal๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.

Sparsh-X๋Š” ์ž๊ฐ€ ์ง€๋„ ํ•™์Šต์„ ์œ„ํ•ด teacher-student self-distillation ์ ‘๊ทผ ๋ฐฉ์‹ [40, 11]์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”์™€ ์˜ˆ์ธก ํ—ค๋“œ๋กœ ๊ตฌ์„ฑ๋œ ๋‘ ๋ธŒ๋žœ์น˜์—์„œ, ํ•™์ƒ ์ž…๋ ฅ ํ† ํฐ์— ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•˜๊ณ  (๋กœ์ปฌ ๋งˆ์Šคํฌ์˜ ๊ฒฝ์šฐ 10-50%, ์ „์—ญ ๋งˆ์Šคํฌ์˜ ๊ฒฝ์šฐ 50-100% ์‹ ํ˜ธ ์œ ์ง€), ๊ต์‚ฌ ํ† ํฐ์„ pseudo-label๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง ์˜ˆ์ธก ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ ํ™” ๋ชฉํ‘œ๋Š” ๊ต์‚ฌ์™€ ํ•™์ƒ ๋„คํŠธ์›Œํฌ์˜ softmax ์ถœ๋ ฅ ๊ฐ„ cross-entropy์ž…๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ์‹คํ—˜์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์˜์—ญ์—์„œ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์ถ”๋ก  (Inferring physical properties): ๊ฐ์ฒด-ํ–‰๋™-ํ‘œ๋ฉด ๋ถ„๋ฅ˜(object-action-surface classification), ์žฌ๋ฃŒ-์–‘ ์ถ”์ •(material-quantity estimation), ๋ฒ•์„ ๋ ฅ ์ถ”์ •(normal force estimation)๊ณผ ๊ฐ™์€ ์ง€๋„ ํ•™์Šต(supervised learning) ์ž‘์—…์„ ํ†ตํ•ด Sparsh-X ํ‘œํ˜„์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-X์˜ ์ธ์ฝ”๋” ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •๋œ ์ƒํƒœ๋กœ task-specific attentive decoder๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ์ˆœ์ˆ˜ํ•˜๊ฒŒ ํ‘œํ˜„์˜ ํ’ˆ์งˆ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋… ์‚ฌ์šฉ ๋Œ€๋น„ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๊ฐ€ ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, end-to-end ๋ชจ๋ธ๋ณด๋‹ค ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  2. ์ •์ฑ… ํ•™์Šต์„ ์œ„ํ•œ Sparsh-X ํ†ตํ•ฉ (Sparsh-X for Policy Learning):
    • ๋ชจ๋ฐฉ ํ•™์Šต(Imitation Learning)์„ ํ†ตํ•œ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…: ๋กœ๋ด‡์ด Allegro hand์™€ Digit 360 ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ์†Œ์ผ“์— ์‚ฝ์ž…ํ•˜๋Š” ์ž‘์—…์—์„œ, Sparsh-X๋ฅผ ํ™œ์šฉํ•œ ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์ด ์ •์ฑ… ์„ฑ๊ณต๋ฅ ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์™ธ๋ถ€ ์‹œ๊ฐ ์ •๋ณด๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค 500%, ์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ ์‚ฌ์šฉํ•œ end-to-end ์ •์ฑ…๋ณด๋‹ค 63%์˜ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹ค์ œ ์„ธ๊ณ„๋กœ์˜ ์ด‰๊ฐ ์ ์‘(Sim-to-Real Tactile Adaptation)์„ ํ†ตํ•œ ์†์•ˆ ๊ฐ์ฒด ํšŒ์ „: Hora [51]์™€ ๊ฐ™์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ›ˆ๋ จ๋œ ๊ธฐ๋ณธ ์ •์ฑ… ์œ„์— ControlNet [52]์„ ํ™œ์šฉํ•˜์—ฌ ์ด‰๊ฐ ์ ์‘ ๋ชจ๋“ˆ์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ(์งˆ๋Ÿ‰, ๋งˆ์ฐฐ ๋“ฑ) ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ •์ฑ…์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์—ฌ ์ˆ˜์ง ํ‘œ๋ฅ˜(vertical drift)๋ฅผ 90% ๊ฐ์†Œ์‹œํ‚ค๊ณ , ๊ฐ์ฒด ์Šฌ๋ฆฝ์„ ์ค„์—ฌ ํšŒ์ „ ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

Sparsh-X๋Š” ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ๋กœ๋ด‡ ์กฐ์ž‘์˜ ์ •๋ฐ€์„ฑ๊ณผ ๊ฒฌ๊ณ ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜๋ฉฐ, ์ด‰๊ฐ ์„ผ์‹ฑ ๋ถ„์•ผ์˜ foundation models ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ๋ฐœ๊ฑธ์Œ์„ ๋‚ด๋””๋Ž ์Šต๋‹ˆ๋‹ค.


Detail Review

Abstract

์ด ๋…ผ๋ฌธ์—์„œ๋Š” Sparsh-X (๋˜๋Š” TacX๋กœ๋„ ์–ธ๊ธ‰๋จ)๋ผ๋Š” ๋‹ค์ค‘๊ฐ๊ฐ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. Sparsh-X๋Š” ํ•˜๋‚˜์˜ ๋กœ๋ด‡ ์ด‰๊ฐ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋„ค ๊ฐ€์ง€ ์ƒ์ดํ•œ ์ด‰๊ฐ ์‹ ํ˜ธ โ€“ ์˜์ƒ(Image), ์†Œ๋ฆฌ(Audio), ์šด๋™(IMU ๋ฐ์ดํ„ฐ), ์••๋ ฅ(Pressure) โ€“ ๋ฅผ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ‘œํ˜„ ๊ณต๊ฐ„์— ์œตํ•ฉํ•˜๋Š” ๋ฐฑ๋ณธ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ Meta(Facebook) FAIR ์—ฐ๊ตฌํŒ€๊ณผ ๋Œ€ํ•™ ์—ฐ๊ตฌ์ž๋“ค์ด ํ•จ๊ป˜ ๊ฐœ๋ฐœํ•˜์˜€์œผ๋ฉฐ, ์ƒˆ๋กœ์šด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ์„ผ์„œ Digit 360์œผ๋กœ ์•ฝ 100๋งŒ ํšŒ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ด๋ฅผ ํ•™์Šต์— ํ™œ์šฉํ–ˆ๋‹ค. ์ €์ž๋“ค์€ Sparsh-X๊ฐ€ ์ด๋Ÿฌํ•œ ๋ฐฉ๋Œ€ํ•œ ๋น„์ง€๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ ‘์ด‰์— ๋‚ด์žฌ๋œ ๋ฌผ๋ฆฌ์  ์†์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ, ์ดํ›„ ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ์— ํ™œ์šฉํ•  ๋•Œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€๋‹ค. ์‹ค์ œ๋กœ ๋ชจ๋ฐฉ ํ•™์Šต ๊ธฐ๋ฐ˜ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๊ณผ์ œ์—์„œ, Sparsh-X ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ ์ •์ฑ…์€ ์ˆœ์ˆ˜ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ •์ฑ… ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ ์ด 500% ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ๋‹จ์ผ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜(end-to-end) ์ •์ฑ… ๋Œ€๋น„ 63% ๋†’์•„์กŒ๋‹ค. ๋˜ํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ๋ฏธ๋„๋Ÿผ ๊ฐ์†Œ๋ฅผ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ํ˜„์‹ค๋กœ ์ ์‘์‹œํ‚ฌ ๋•Œ ๋ฌผ์ฒด์˜ ์•ˆ์ •์  ํŒŒ์ง€ ์œ ์ง€ ๋Šฅ๋ ฅ์ด 90% ๊ฐœ์„ ๋˜๋Š” ๋“ฑ, ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๊ฒฌ๊ณ ์„ฑ ๋ฐ ์ ์‘์„ฑ ๋ฉด์—์„œ ํ˜„์ €ํ•œ ๊ฐœ์„ ์„ ํ™•์ธํ•˜์˜€๋‹ค. ๋‚˜์•„๊ฐ€ Sparsh-X ํ‘œํ˜„์ด ๋ฌผ์ฒด-ํ–‰๋™-ํ‘œ๋ฉด ์‹๋ณ„, ์žฌ์งˆ ๋ฐ ์–‘ ์ถ”์ •, ํž˜ ์˜ˆ์ธก ๋“ฑ์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ ์ถ”๋ก  ๊ณผ์ œ์—์„œ๋„ ๊ธฐ์กด ๋‹จ์ผ๋ชจ๋‹ฌ ์ ‘๊ทผ๋ณด๋‹ค ํ‰๊ท  48% ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ž„์œผ๋กœ์จ, ๋ฉ€ํ‹ฐ์„ผ์„œ ์‚ฌ์ „ํ•™์Šต์˜ ์ด์ ์„ ์ž…์ฆํ•˜์˜€๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋‚ด์šฉ์„ ๊ฐ ์„น์…˜๋ณ„๋กœ ์ •๋ฆฌํ•˜๊ณ , ์ €์ž๋“ค์˜ ๋ฌธ์ œ์˜์‹, ์ œ์•ˆ ๊ธฐ๋ฒ•์˜ ์ฐฝ์˜์„ฑ ๋ฐ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์„ฑ, ์‹คํ—˜ ์„ค๊ณ„์˜ ํƒ€๋‹น์„ฑ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„, ๊ทธ๋ฆฌ๊ณ  ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ๊ณผ์ œ ๋“ฑ์— ๋Œ€ํ•ด ์‹ฌ์ธต์ ์œผ๋กœ ํ•ด์„คํ•œ๋‹ค.

Introduction

๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ œ์˜์‹

์ด‰๊ฐ์€ ์ธ๊ฐ„์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ๋Šฅ๋ ฅ์— ํ•„์ˆ˜์ ์ธ ํ’๋ถ€ํ•œ ๊ฐ๊ฐ์ด๋‹ค. ์‚ฌ๋žŒ์€ ํ”ผ๋ถ€ ๋ณ€ํ˜•, ์ง„๋™, ์šด๋™, ์••๋ ฅ ๋“ฑ ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ  ์ ์‘์ ์œผ๋กœ ์กฐ์ž‘ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์†๋ ๊ฐ๊ฐ๋งŒ์œผ๋กœ๋„ ํ”Œ๋ผ์Šคํ‹ฑ ์ปต๊ณผ ์ข…์ด์ปต์„ ๊ตฌ๋ถ„ํ•˜๊ฑฐ๋‚˜, ์†๊ฐ€๋ฝ ์‚ฌ์ด์— ํŽœ์„ ๊ตด๋ฆฌ๊ฑฐ๋‚˜, ์‹œ์•ผ๊ฐ€ ๊ฐ€๋ ค์ง„ ์ƒํƒœ์—์„œ๋„ ๋„๊ตฌ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์ ๊ทน ํ™œ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ์„ฌ์„ธํ•œ ์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•œ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋กœ๋ด‡ ๊ณตํ•™ ๋ถ„์•ผ์—์„œ๋Š” ์•„์ง๊นŒ์ง€ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ์˜ ํ™œ์šฉ์ด ํฌ๊ฒŒ ๋’ค์ฒ˜์ ธ ์žˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ํ•˜๋‚˜์˜ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ฃผ๋กœ ์ด‰๊ฐ ์ด๋ฏธ์ง€)์— ์˜์กดํ•˜๋Š”๋ฐ, ์ด๋Š” ๊ทธ๊ฐ„ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ‘œ์ค€ํ™”๋œ ํ•˜๋“œ์›จ์–ด(์˜ˆ: GelSight ๊ณ„์—ด ๊ด‘ํ•™ ์ด‰๊ฐ ์„ผ์„œ)์— ํ•œ์ •๋˜์–ด ์™”๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์ด์ œ ๋“ฑ์žฅํ•˜๊ณ  ์žˆ์ง€๋งŒ, ์ด์งˆ์ ์ธ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•๋ก ์ด ๋ถ€์กฑํ•œ ์‹ค์ •์ด์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฉ์ฐจ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ํ‘œํ˜„ ํ•™์Šต(Representation Learning)์„ ํ™œ์šฉํ•˜๋Š” ์ ‘๊ทผ์„ ์ œ์•ˆํ•œ๋‹ค. ์—ฌ๋Ÿฌ ์„ผ์„œ ๋ชจ๋“œ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์ƒํ˜ธ๋ณด์™„์ ์ธ ์ ‘์ด‰ ์ •๋ณด๋ฅผ ํ•˜๋‚˜์˜ ๊ณต์œ  ์ž ์žฌ ๊ณต๊ฐ„์— ์œตํ•ฉํ•จ์œผ๋กœ์จ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ์กฐ์ž‘ ๊ณผ์ œ์— ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ด๊ณ  ๊ฒฌ๊ณ ํ•œ ํ•™์Šต์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋ ค๋Š” ๊ฒƒ์ด๋‹ค. ํŠนํžˆ, ์ž๊ธฐ ์ง€๋„ํ•™์Šต(self-supervised learning)์„ ํ†ตํ•ด ๊ฑฐ๋Œ€ํ•œ ๋น„๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์—์„œ ์ด‰๊ฐ ํ‘œํ˜„์„ ์‚ฌ์ „ํ•™์Šตํ•˜๋ฉด, ์ดํ›„ ํŠน์ • ๊ณผ์ œ๋ฅผ ํ•™์Šตํ•  ๋•Œ ์†Œ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์–ป๊ฑฐ๋‚˜ ์žก์Œ ๋ฐ ๋ถ„์‚ฐ์— ๊ฐ•์ธํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ์ด ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์—ฐ๊ตฌ๋“ค์—์„œ ์‹œ์‚ฌ๋˜์–ด ์™”๋‹ค.

์ œ์•ˆ ๊ธฐ๋ฒ•

์ด๋Ÿฌํ•œ ๋™๊ธฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์€ Sparsh-X๋ผ ๋ช…๋ช…๋œ ์ฒซ ๋ฒˆ์งธ ๋ฒ”์šฉ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ๋ฐฑ๋ณธ ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•œ๋‹ค. Sparsh-X๋Š” Meta AI๊ฐ€ ๊ฐœ๋ฐœํ•œ Digit 360์ด๋ผ๋Š” ์‹ ํ˜• ์ด‰๊ฐ ์„ผ์„œ๋ฅผ ํ†ตํ•ด ์–ป์€ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ์ •๋ณด(์ด๋ฏธ์ง€, ์†Œ๋ฆฌ, ์šด๋™, ์••๋ ฅ)๋ฅผ Transformer ๊ธฐ๋ฐ˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์œตํ•ฉํ•˜์—ฌ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” ์Šฌ๋ผ์ด๋”ฉ, ํƒญ(tapping), ํšŒ์ „, ๋ฌผ์ฒด ์ง‘๊ธฐ ๋ฐ ๋†“๊ธฐ ๋“ฑ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ๋™์ž‘ ์ƒํ™ฉ์—์„œ ์ˆ˜์ง‘๋œ ๋น„๋ผ๋ฒจ ์ ‘์ด‰ ๋ฐ์ดํ„ฐ ์•ฝ 100๋งŒ ๊ฑด์ด๋ฉฐ, Sparsh-X๋Š” ์ด ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ์ผ๋ฐ˜์ ์ธ ์ด‰๊ฐ ํ‘œํ˜„์„ ์ž๊ธฐ ์ง€๋„ํ•™์Šต์œผ๋กœ ํ•™์Šตํ•œ๋‹ค. ์ €์ž๋“ค์€ ํ•™์Šต๋œ Sparsh-X ํ‘œํ˜„์ด ๋ฌผ์ฒด์˜ ์ข…๋ฅ˜๋‚˜ ์งˆ๋Ÿ‰๊ณผ ๊ฐ™์€ ๊ฐ์ฒด ํŠน์„ฑ, ์ ‘์ด‰๋ ฅ์ด๋‚˜ ์žฌ์งˆ๊ณผ ๊ฐ™์€ ์ •์  ์ ‘์ด‰ ์†์„ฑ, ๋ฏธ๋„๋Ÿฌ์ง์ด๋‚˜ ์ถฉ๊ฒฉ ๊ฐ™์€ ๋™์  ์ƒํ˜ธ์ž‘์šฉ ๋‹จ์„œ ๋“ฑ ๊ด‘๋ฒ”์œ„ํ•œ ๋ฌผ๋ฆฌ์  ์†์„ฑ๋“ค์„ ์†๋ ์ˆ˜์ค€์—์„œ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ ์†๋ ์ด‰๊ฐ ํ‘œํ˜„์€ ๋กœ๋ด‡์œผ๋กœ ํ•˜์—ฌ๊ธˆ ๋ฌผ์ฒด ๋ฐ ์ ‘์ด‰ ์ƒํƒœ ์ •๋ณด๋ฅผ ์ง์ ‘ ์ž ์žฌ๊ณต๊ฐ„์—์„œ ํ”ผ๋“œ๋ฐฑ๋ฐ›๊ฒŒ ํ•ด์ฃผ๋ฏ€๋กœ, ์„ฌ์„ธํ•œ ์กฐ์ž‘(dexterous manipulation)์— ํŠนํžˆ ์œ ์šฉํ•˜๋‹ค๊ณ  ๊ฐ•์กฐํ•œ๋‹ค.

์ •์ฑ… ํ•™์Šต๊ณผ์˜ ์—ฐ๊ณ„

๊ถ๊ทน์ ์œผ๋กœ ์ด‰๊ฐ ์‹ ํ˜ธ์˜ ๊ฐ€์น˜๋Š” ๋กœ๋ด‡ ํ•™์Šต์— ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์œผ๋กœ ์“ฐ์ด๋А๋ƒ์— ๋‹ฌ๋ ค์žˆ๋‹ค๊ณ  ์ €์ž๋“ค์€ ๋งํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์‹ค์—์„œ๋Š” ์ด‰๊ฐ ์ •๋ณด๋ฅผ ๊ฐ•ํ™”ํ•™์Šต ๋“ฑ์— ํ™œ์šฉํ•˜๊ธฐ ์–ด๋ ค์šด ์ ์ด ๋งŽ๋‹ค. ํŠนํžˆ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ๊ฒฉ์ฐจ(sim-to-real gap)๋กœ ์ธํ•ด, ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์—†๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ํ˜„์‹ค ๋กœ๋ด‡์— ์ด์‹ํ•˜๊ธฐ๊ฐ€ ๊นŒ๋‹ค๋กญ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Sparsh-X ํ‘œํ˜„์ด ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‘ ๊ฐ€์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ์‹ค์ฆํ•˜์˜€๋‹ค: ์ฒซ์งธ, ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning)์„ ํ†ตํ•ด ์ธ๊ฐ„ ๋ฐ๋ชจ์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ฑ… ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ๋‘˜์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ privileged information(์ ‘์ด‰๋ ฅ ๋“ฑ ํ˜„์‹ค์—์„œ ์ง์ ‘ ์–ป๊ธฐ ํž˜๋“  ์ •๋ณด)์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์— ํ˜„์‹ค ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์ ์‘(sim-to-real tactile adaptation)ํ•˜๋Š” ๊ฒฝ์šฐ์ด๋‹ค. ๊ฐ๊ฐ์˜ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…(insertion) ๊ณผ ์†๋ฐ”๋‹ฅ ์œ„ ๋ฌผ์ฒด ํšŒ์ „(in-hand rotation)์ด๋ผ๋Š” ์ •๋ฐ€ ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์‹คํ—˜ํ•˜์—ฌ Sparsh-X ํ™œ์šฉ์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ๊ฒฐ๊ณผ์  ์œผ๋กœ, ๋‹ค์ค‘ ์ด‰๊ฐ์„ ํ†ตํ•ฉํ•œ Sparsh-X ํ‘œํ˜„์„ ํ™œ์šฉํ•˜๋ฉด ๊ธฐ์กด์˜ ๋‹จ์ผ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ณด๋‹ค ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๊ณ , ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ์„ ๊ณต์œ  ์ž ์žฌ ๊ณต๊ฐ„์— ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ํ„ฐ์น˜์˜ ๋ถ„์•ผ์—์„œ๋„ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋กœ ํ–ฅํ•˜๋Š” ํ•œ ๊ฑธ์Œ์„ ๋‚ด๋”›์—ˆ๋‹ค๊ณ  ์ €์ž๋“ค์€ ๊ฐ•์กฐํ•œ๋‹ค. ์•„๋ž˜๋Š” ์ €์ž๋“ค์ด ๋ฐํžŒ ๋ณธ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ์‚ฌํ•ญ์ด๋‹ค:

  • ์ฒซ์งธ, Sparsh-X๋ผ๋Š” ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ๋ฐฑ๋ณธ์„ ์ œ์‹œํ•˜์˜€๋‹ค. ์ด ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๊ด€์„ฑ(IMU), ์••๋ ฅ ์‹ ํ˜ธ๋ฅผ ํ•˜๋‚˜์˜ ๋ฒ”์šฉ ํ‘œํ˜„ ๊ณต๊ฐ„์— ์œตํ•ฉํ•˜๋ฉฐ, ์ž๊ธฐ ์ง€๋„ํ•™์Šต์œผ๋กœ ๋Œ€๊ทœ๋ชจ(Digit 360์œผ๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘๋œ M๊ฐœ ์ด์ƒ์˜) ๋น„๋ผ๋ฒจ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต๋œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ณ  ์ด์‹ ๊ฐ€๋Šฅํ•œ(t transferable) ๋กœ๋ด‡ ์ด‰๊ฐ ์ง€๊ฐ ๋Šฅ๋ ฅ์„ ๊ตฌํ˜„ํ•˜์˜€๋‹ค.
  • ๋‘˜์งธ, Digit 360 ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘๋œ ์„ธ๊ณ„ ์ตœ์ดˆ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ  ์ด๋ฅผ ๊ณต๊ฐœํ•˜์˜€๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ ‘์ด‰ ์—ญํ•™(contact dynamics)์ด๋‚˜ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ ๊ด€์ ์—์„œ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. (Sparsh-X์˜ ํ•™์Šต๊ณผ ๋ชจ๋“  ํ‰๊ฐ€ ์‹คํ—˜์— ์ด ๋ฐ์ดํ„ฐ์…‹์ด ํ™œ์šฉ๋˜์—ˆ๋‹ค.)
  • ์…‹์งธ, Sparsh-X๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์˜ ์„ฑ๋Šฅ๊ณผ ๊ฒฌ๊ณ ์„ฑ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ํ˜„์‹ค ์„ธ๊ณ„ ์‹คํ—˜์œผ๋กœ ์‹ค์ฆํ•˜์˜€๋‹ค. ํŠนํžˆ ์ •๋ฐ€ ์กฐ์ž‘ ๊ณผ์ œ์ธ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…๊ณผ ์† ์•ˆ์—์„œ์˜ ๋ฌผ์ฒด ํšŒ์ „ ์ž‘์—…์—์„œ, Sparsh-X์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ‘œํ˜„์„ ํ†ตํ•ฉํ•˜๋ฉด ๋‹จ์ผ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ ์ด 63% ํ–ฅ์ƒ๋˜๊ณ , ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต ์ •์ฑ…์˜ ํ˜„์‹ค ์ ์‘ ์‹œ ๋ฌผ์ฒด ์ƒํƒœ ๋ณต์› ๋Šฅ๋ ฅ์ด 90% ๊ฐœ์„ ๋จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋Š” ์ด‰๊ฐ ์ ์‘ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ์˜ privileged ์ •๋ณด๊ฐ€ ํ˜„์‹ค์˜ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์ฒด๋  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Related Work

์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ ๊ธฐ์กด์˜ ๋กœ๋ด‡ ์ด‰๊ฐ ์—ฐ๊ตฌ๋Š” ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ด์šฉํ•œ ์ด‰๊ฐ ์„ผ์„œ(vision-based tactile sensor)์— ํฌ๊ฒŒ ์˜์กดํ•ด์™”๋‹ค. GelSight์™€ ์œ ์‚ฌํ•œ ์ด‰๊ฐ ์นด๋ฉ”๋ผ ์„ผ์„œ๋“ค์ด ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ, ์ด๋“ค์€ ์†๊ฐ€๋ฝ ๋‚ด๋ถ€์— ์žฅ์ฐฉ๋œ ์นด๋ฉ”๋ผ๋กœ ํƒ„์„ฑ์ฒด ํ‘œ๋ฉด์˜ ๋ณ€ํ˜• ์ด๋ฏธ์ง€๋ฅผ ์ดฌ์˜ํ•˜์—ฌ ์ ‘์ด‰์„ ๊ฐ์ง€ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๊ฐ ์ด‰๊ฐ ์„ผ์„œ๋Š” ์žฌ์งˆ ๋ถ„๋ฅ˜๋‚˜ ๋‚ด์šฉ๋ฌผ ๋ถ€ํ”ผ ์˜ˆ์ธก , ๋ฌผ์ฒด ํ˜•์ƒ ์ถ”๋ก  , ์ ‘์ด‰ ์ง€์  ์œ„์น˜ ์ถ”์ • , ์‚ฝ์ž… ๋™์ž‘ , ์œค๊ณฝ ์ถ”์  ๋“ฑ ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ๊ณผ์ œ์— ํ™œ์šฉ๋˜์–ด ์™”๋‹ค. ํ•œํŽธ, ์˜ค๋””์˜ค(์ง„๋™)๋ฅผ ์ด‰๊ฐ์— ํ™œ์šฉํ•œ ์—ฐ๊ตฌ๋„ ์กด์žฌํ•˜๋Š”๋ฐ, ์ ‘์ด‰์‹œ ๋ฐœ์ƒํ•˜๋Š” ์†Œ๋ฆฌ๋ฅผ ํ†ตํ•ด ๋ฌผ์ฒด์˜ ์†์„ฑ ์ด๋‚˜ ๋™์  ์ƒํ˜ธ์ž‘์šฉ์„ ์ถ”์ •ํ•˜๋Š” ์‹œ๋„๋“ค์ด ์žˆ์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์˜ค๋””์˜ค๋งŒ์œผ๋กœ๋Š” ์—ฐ์†์ ์ธ ํž˜์ด๋‚˜ ๋ณ€ํ˜•, ์šด๋™๋Ÿ‰ ๋“ฑ์„ ์ธ์ง€ํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ์ตœ๊ทผ์—๋Š” ์˜ค๋””์˜ค-๋น„์ „ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์œผ๋กœ ํ™•์žฅํ•˜๋Š” ์—ฐ๊ตฌ๋„ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์‹œ๊ฐ๊ณผ ์†Œ๋ฆฌ๋Š” ์„œ๋กœ ๋ณด์™„์ (tactile state๋ฅผ ๋ณด๊ฐ•)์ธ ๊ด€๊ณ„์ด์ง€๋งŒ, ์†๊ฐ€๋ฝ ์ž์ฒด์˜ ์›€์ง์ž„(IMU)์ด๋‚˜ ์••๋ ฅ ๋ถ„ํฌ์™€ ๊ฐ™์€ ์ถ”๊ฐ€ ์ด‰๊ฐ ์ •๋ณด๊นŒ์ง€ ํ™œ์šฉํ•œ๋‹ค๋ฉด, ์ „๋‹จ ๋ ฅ(shear force) ๊ฐ์ง€๋‚˜ ๋ฌผ์ฒด ํŠน์„ฑ ์ธ์‹, ์ ‘์ด‰๋ฉด์—์„œ์˜ ๋ฏธ๋„๋Ÿผ ๋ฐ ์ž์„ธ ๋ณ€ํ™” ๊ฐ์ง€ ๋“ฑ์— ๋”์šฑ ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ์ค„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋…ผ๋ฌธ์€ ์ง€์ ํ•œ๋‹ค.

์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต

์ž๊ธฐ ์ง€๋„ํ•™์Šต์„ ํ†ตํ•œ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต(SSL for tactile)์€ ์ตœ๊ทผ ๋ถ€์ƒํ•œ ๋ถ„์•ผ๋กœ, ์ฃผ๋กœ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํ‘œํ˜„ ํ•™์Šต์— ์ง‘์ค‘๋˜์–ด ์™”๋‹ค. ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์€ ๋Œ€๋Ÿ‰์˜ unlabeled ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์—์„œ ํŠน์ง• ํ‘œํ˜„(feature embedding)์„ ํ•™์Šต์‹œ์ผœ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ฆ๋Œ€๋ฅผ ์ž…์ฆํ•˜์˜€๋‹ค. ํ•œํŽธ, ์ถ”๊ฐ€์ ์ธ ์ด‰๊ฐ ๋ชจ๋‹ฌ(ex: ์˜ค๋””์˜ค)์„ ํ•จ๊ป˜ ํ™œ์šฉํ•˜๋ ค๋Š” ์‹œ๋„์—์„œ๋Š”, ๋Œ€๊ฐœ ์‚ฌ์ „ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ํŠน์ • ๊ณผ์ œ ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹(finetuning)ํ•˜๊ฑฐ๋‚˜ , ์˜ค๋””์˜ค-๋น„๋””์˜ค ํ•ฉ์„ฑ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ์ •๋„์˜€๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ๊ฐ ๋ชจ๋‹ฌ๋ณ„ ๊ฐœ๋ณ„์ ์ธ ์ฒ˜๋ฆฌ์— ๋จธ๋ฌผ๋ €๊ณ , ๊ทผ๋ณธ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ ํ‘œํ˜„์„ ํ•™์Šตํ•˜์ง€๋Š” ๋ชปํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MULSA๋ผ๋Š” ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ๋น„์ „ ์ด๋ฏธ์ง€์™€ ์ ‘์ด‰ ๋งˆ์ดํฌ ์˜ค๋””์˜ค๋ฅผ RGB ์ด๋ฏธ์ง€๋กœ ๊ฐ„์ฃผํ•˜์—ฌ ์ž…๋ ฅ์„ ๋‹จ์ˆœ ๋ณ‘ํ•ฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์ œ์•ˆํ–ˆ์œผ๋‚˜, ๋ชจ๋‹ฌ๋ณ„ ํ† ํฐ์„ ์ „๋ถ€์—ฐ๊ฒฐ(concatenate)ํ•˜์—ฌ ์ฟผ๋“œ๋Ÿฌํ‹ฑ(Quadratic) ๋ณต์žก๋„์˜ Self-Attention์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋น„ํšจ์œจ๋กœ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€๋‹ค. ๋˜ํ•œ MimicTouch๋ผ๋Š” ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ์ด๋ฏธ์ง€์™€ ์˜ค๋””์˜ค ๊ฐ๊ฐ์— ๊ฐœ๋ณ„์ ์ธ ์ž๊ธฐ์ง€๋„ํ•™์Šต์„ ์ ์šฉํ–ˆ์„ ๋ฟ ๋ช…์‹œ์ ์ธ ๊ต์ฐจ ๋ชจ ๋‹ฌ ์œตํ•ฉ์€ ์—†์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด์™€ ๋‹ฌ๋ฆฌ, Sparsh-X๋Š” ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ์šด๋™, ์••๋ ฅ์˜ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ์„ ํ•œ๊บผ๋ฒˆ์— ํ†ตํ•ฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฉ€ํ‹ฐ์„ผ์„œ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ํŠนํžˆ ํŠธ๋žœ์Šคํฌ๋จธ ๋‚ด์— bottleneck self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ ๋ชจ๋‹ฌ ๊ฐ„ ์ •๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ›๋„๋ก ์„ค๊ณ„ํ•จ์œผ๋กœ์จ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ์˜ ์ ‘์ด‰ ํŠน์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๋ฉด์„œ๋„ ๊ธฐ์กด์˜ ๋‹จ์ˆœ ํ† ํฐ ์—ฐ๊ฒฐ ๋ฐฉ์‹๋ณด๋‹ค ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๋‚ฎ์ถ”๋Š” ์žฅ์ ์„ ๊ฐ–๋Š”๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ๊ณต์šฉ ์ž ์žฌ ํ‘œํ˜„์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ ‘์ด‰ ๊ณผ์ œ์—์„œ ์œ ์šฉํ•œ ๋ฌผ๋ฆฌ์  ํŠน์ง•๋“ค์„ ํ•จ์ถ•ํ•˜๊ณ  ์žˆ์–ด, ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์‰ฝ๊ฒŒ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

Digit 360 ์„ผ์„œ

์ €์ž๋“ค์€ ๋ณธ ์—ฐ๊ตฌ์— ์‚ฌ์šฉ๋œ Digit 360 ์ด‰๊ฐ ์„ผ์„œ์˜ ํŠน์ง•๋„ ์†Œ๊ฐœํ•œ๋‹ค. Digit 360์€ ์†๊ฐ€๋ฝ ํฌ๊ธฐ์˜ ๋ฐ˜๊ตฌํ˜• ๋ถ€๋“œ๋Ÿฌ์šด ์—˜๋ผ์Šคํ† ๋จธ ๋” ๋‚ด๋ถ€์— ์ดˆ๊ด‘๊ฐ(fisheye) ์นด๋ฉ”๋ผ, ์ ‘์ด‰ ๋งˆ์ดํฌ, IMU(๊ด€์„ฑ์ธก์ •์žฅ์น˜), ์ •์  ์••๋ ฅ ์„ผ์„œ ๋“ฑ์„ ํ†ตํ•ฉํ•œ ๋‹ค์ค‘๊ฐ๊ฐ ์ด‰๊ฐ ์„ผ์„œ์ด๋‹ค. ์ด์ฒ˜๋Ÿผ ์ž‘์€ ํผํŒฉํ„ฐ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ๋“ฑ์žฅํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡ ์†๊ฐ€๋ฝ๋งˆ๋‹ค ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๋น„๋กฏํ•œ ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ์‹ ํ˜ธ๋ฅผ ํš๋“ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋…ํŠนํ•œ ๋ฐ˜๊ตฌํ˜• ํ˜•ํƒœ ๋•Œ๋ฌธ์— ์ƒˆ๋กœ์šด ๊ณผ์ œ๋„ ๋ฐœ์ƒ ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋” ํ˜•ํƒœ์˜ ๋ง๋ž‘ํ•œ ์„ผ์„œ ํ‘œ๋ฉด์ด ์ ‘์ด‰ ์‹œ ๋’คํ‹€๋ฆฌ๊ณ  ๋ณ€์œ„๋˜๋ฏ€๋กœ, ์ „๋‹จ๋ ฅ ์ถ”์ •์ด ๋งค์šฐ ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๋˜ํ•œ ํ•˜์ดํผ-ํ”ผ์‰ฌ์•„์ด ๋ Œ์ฆˆ์™€ LED ์กฐ๋ช…์ด ๋‚ด์žฅ๋˜์–ด ์žˆ์ง€๋งŒ, ๊ธฐ์กด์˜ ๊ด‘ํ•™์ ์ธ 3D ํ‘œ๋ฉด ๋ณต์› ๊ธฐ๋ฒ•(์˜ˆ: ํฌ์•„์†ก ์ ๋ถ„๋ฒ•)์„ ๋ฐ”๋กœ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ €์ž๋“ค์€ ๋Œ€๊ทœ๋ชจ ์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต์„ ํ†ตํ•ด ํ•ด๋‹น ์„ผ์„œ์˜ ๋ณต์žกํ•œ ์ ‘์ด‰ ์–‘์ƒ์„ ๊ทน๋ณตํ•˜๋Š” ๋ฐฉํ–ฅ์ด ์œ ๋งํ•˜๋‹ค๊ณ  ๋ณด๊ณ  ์žˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ์„ผ์„œ ํ•˜๋“œ์›จ์–ด์˜ ์ œ์•ฝ์œผ๋กœ ์ธํ•œ ๋ฐ์ด ํ„ฐ ์™œ๊ณก์ด๋‚˜ ๋ถˆํ™•์‹ค์„ฑ์กฐ์ฐจ๋„ ๋ฐฉ๋Œ€ํ•œ ๊ฒฝํ—˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์ด ๋‚ด์žฌ์ ์œผ๋กœ ๋ณด์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฆฌ๋ผ๋Š” ๊ฒƒ์ด๋‹ค.

Proposed Method - ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต

Sparsh-X ๋ชจ๋ธ ๊ฐœ์š”

์ž…๋ ฅ๊ณผ ์•„ํ‚คํ…์ฒ˜

Sparsh-X๋Š” Transformer ๊ธฐ๋ฐ˜์˜ ํ‘œํ˜„ ํ•™์Šต ๋ฐฑ๋ณธ(backbone)์œผ๋กœ์„œ, Digit 360 ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ๋™์‹œ ์ˆ˜์ง‘๋œ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ์‹ ํ˜ธ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๊ฐ€์†๋„, ์••๋ ฅ)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š”๋‹ค. ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ํ•ต์‹ฌ์€ โ€œ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ฒ˜๋ฆฌ + bottleneck ํ† ํฐ์„ ํ†ตํ•œ ์œตํ•ฉโ€์ด๋ผ๊ณ  ์š”์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค. ์šฐ์„  ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ž…๋ ฅ์€ ๊ฐœ๋ณ„์ ์ธ Transformer ์ธ์ฝ”๋” ์ธต์„ ํ†ต๊ณผํ•˜๋ฉฐ, ์ด ์ธต๋“ค์€ Self-Attention ๊ธฐ์ œ๋กœ ํ•ด๋‹น ๋ชจ๋‹ฌ์˜ ํŒจ์น˜/์‹œ๊ณ„์—ด ํ† ํฐ๋“ค ์‚ฌ์ด์˜ ํŒจํ„ด ์„ ํ•™์Šตํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ผ์ • ๊นŠ์ด์˜ ์ธต์„ ์ง€๋‚˜๋ฉด, ๊ต์ฐจ-๋ชจ๋‹ฌ ์ •๋ณด ๊ตํ™˜ ๋‹จ๊ณ„๊ฐ€ ๋“ฑ์žฅํ•˜๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ โ€œbottleneck tokenโ€์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ํŠน๋ณ„ํ•œ ํ† ํฐ๋“ค์„ ๋งค๊ฐœ๋กœ ๋ชจ๋‹ฌ ๊ฐ„ Attention์ด ์ด๋ฃจ์–ด์ง„๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ธ์ฝ”๋”์— ๊ณต์œ ๋œ bottleneck ํ† ํฐ๋“ค์„ ์ž…๋ ฅ์œผ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ, ์ด ํ† ํฐ๋“ค์ด ์ผ์ข…์˜ ์š”์•ฝ์ž(summarizer) ์—ญํ• ์„ ํ•˜๋ฉฐ ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋กœ๋ถ€ํ„ฐ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋„๋ก ํ•œ๋‹ค. ํ•œ ๋ฒˆ ๊ต์ฐจ-์–ดํ…์…˜์ด ์ˆ˜ํ–‰๋œ ํ›„์—๋Š”, ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„๋กœ ์ถ”๊ฐ€ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๊ธฐ ์ „์— ๊ฐ ๋ชจ๋‹ฌ ์— ์‚ฝ์ž…๋œ bottleneck ํ† ํฐ๋“ค์˜ ๊ฐ’์„ ํ‰๊ท ๋‚ด์–ด ๊ณต์œ ํ•จ์œผ๋กœ์จ, ๋ชจ๋‹ฌ๋“ค ์‚ฌ์ด์— ์ •๋ณด๊ฐ€ ์›ํ™œํžˆ ๊ตํ™˜๋˜๊ณ  ๊ฒฐํ•ฉ๋˜๊ฒŒ ์„ค๊ณ„ํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์ •์ด ์—ฌ๋Ÿฌ Transformer ๋ธ”๋ก์— ๊ฑธ์ณ ๋ฐ˜๋ณต๋˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋“  ๋ชจ๋‹ฌ์˜ ์ •๋ณด๊ฐ€ ํ•˜๋‚˜์˜ ์‘์ง‘๋œ ์ž ์žฌํ‘œํ˜„์œผ๋กœ ์••์ถ•๋œ๋‹ค. ์š”์ปจ๋Œ€, bottleneck ํ† ํฐ๋“ค์€ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์‚ฌ์ด๋ฅผ ์—ฐ๊ฒฐํ•ด์ฃผ๋Š” ์†Œํ†ต ์ฑ„๋„๋กœ ๊ธฐ๋Šฅํ•˜๋ฉฐ, ๊ฐ ๋ธ”๋ก๋งˆ๋‹ค ๋‹ค์ค‘๊ฐ๊ฐ ์š”์•ฝ์ •๋ณด๋ฅผ ๋ฝ‘์•„๋‚ด ๊ณต์œ ํ•จ์œผ๋กœ์จ ํšจ์œจ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ์„ ๊ฐ€๋Šฅ์ผ€ ํ•œ๋‹ค. (์ด๋Š” ๊ธฐ์กด์˜ ํ† ํฐ ๋‹จ์ˆœ ๋ณ‘ ํ•ฉ ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋‚ฎ์€ ์—ฐ์‚ฐ ๋ณต์žก๋„๋กœ ๋ชจ๋‹ฌ ๊ฒฐํ•ฉ์„ ์‹คํ˜„ํ•œ ์•„์ด๋””์–ด๋ผ๋Š” ์ ์—์„œ ์ฐฝ์˜์ ์ด๋‹ค.) Sparsh-X์˜ ์ „์ฒด Transformer ๋ ˆ์ด์–ด๋Š” ์ด L์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ทธ ์ค‘ ์ฒ˜์Œ U๊ฐœ ์ธต์€ ๋ชจ๋‹ฌ๋ณ„ ์ž์ฒด ์ฒ˜๋ฆฌ๋งŒ ์ˆ˜ํ–‰ํ•˜๊ณ , ๋‚˜๋จธ์ง€ Lโ€“U๊ฐœ ์ธต์€ ๋ฐฉ๊ธˆ ์„ค๋ช…ํ•œ bottleneck ๊ธฐ๋ฐ˜ ๊ต์ฐจ-๋ชจ๋‹ฌ ์œตํ•ฉ์„ ํฌํ•จํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š” ์ €์ž๋“ค์ด ์ฐธ๊ณ ํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‹คํ—˜์ ์œผ๋กœ ์ตœ์ ํ™”๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

Sparsh-X ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ๋ฐฑ๋ณธ ๋ชจ๋ธ์˜ ๊ฐœ๋žต๋„. ๊ฐ ์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, IMU, ์••๋ ฅ)๋Š” ์šฐ์„  ๋ณ„๋„์˜ Transformer ์ธ์ฝ”๋” ์ธต๋“ค์„ ํ†ต๊ณผํ•˜๋ฉฐ, ์ดํ›„ ๋ธ”๋ก์—์„œ๋Š” ์ฃผํ™ฉ์ƒ‰์˜ Bottleneck ํ† ํฐ๋“ค์„ ๋งค๊ฐœ๋กœ ์„œ๋กœ์˜ ์ •๋ณด๋ฅผ ๊ตํ™˜(fuse)ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์–ด์ง„ ํ†ตํ•ฉ ํ‘œํ˜„์€ ์ƒ์œ„์— ์›ํ•˜๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์šฉ ๋””์ฝ”๋”/์ •์ฑ…๋ง์— ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค.*

์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ ํ† ํฐํ™”

๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋Š” ์ˆ˜์ง‘ ์ฃผ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๊ฐ€ ์„œ๋กœ ์ƒ์ดํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ๊ฐ Sparsh-X์— ์ž…๋ ฅ๋˜๊ธฐ ์ „์— ์ ์ ˆํ•œ ์ „์ฒ˜๋ฆฌ์™€ ํ† ํฐํ™” ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. ์•„๋ž˜๋Š” ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ฒ˜๋ฆฌ ์š”์•ฝ์ด๋‹ค:

  • ์ด‰๊ฐ ์ด๋ฏธ์ง€: Digit 360 ์„ผ์„œ๋Š” ์•ฝ 30Hz๋กœ ์ด‰๊ฐ ์˜์ƒ์„ ํš๋“ํ•œ๋‹ค. ์—ฐ์† ํ”„๋ ˆ์ž„ ๊ฐ„์˜ ๋ณ€ํ™”๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ์œ„ํ•ด, ๊ณผ๊ฑฐ 0.17์ดˆ ๊ตฌ๊ฐ„(5ํ”„๋ ˆ์ž„)์„ ์ฑ„๋„ ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ฒฐ(concatenate)ํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. (์–ด๋–ค ์—ฐ๊ตฌ์—์„œ๋Š” ์งง์€ ํ”„๋ ˆ์ž„ ๋ฌถ์Œ์„ ์ด์šฉํ•ด ๋ฏธ์„ธํ•œ ์‹œ๊ฐ„ ๋ณ€ํ™”๊นŒ์ง€ ์ธ์‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ทจํ•œ๋‹ค.) ์ด๋ ‡๊ฒŒ ๊ฒฐํ•ฉ๋œ ์ด๋ฏธ์ง€๋Š” ๋‘ฅ๊ทผ ์–ด์•ˆ ์˜์ƒ์ด๋ผ ์ผ๋ถ€ ๊ฐ€์žฅ์ž๋ฆฌ๋ฅผ ํฌ๋กญ(crop)ํ•˜์—ฌ ์ค‘์‹ฌ๋ถ€๋กœ ํ™•๋Œ€ํ•˜๊ณ , ์ตœ์ข…์ ์œผ๋กœ ์ •ํ•ด์ง„ ํ•ด์ƒ๋„๋กœ ๋ฆฌ์‚ฌ์ด ์ฆˆํ•œ๋‹ค. ์ดํ›„ ์ผ๋ฐ˜์ ์ธ ViT(Vision Transformer)์ฒ˜๋Ÿผ ์ด๋ฏธ์ง€๋ฅผ ์ž‘์€ ํŒจ์น˜๋“ค๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๊ฐ ํŒจ์น˜๋ฅผ ์„ ํ˜•ํˆฌ์˜ํ•˜์—ฌ 768์ฐจ์› ์ž„๋ฒ ๋”ฉ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. (์˜ˆ์ปจ๋Œ€ 96ร—96 ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ 16ร—16 ํŒจ์น˜๋กœ ๋ถ„ํ• ํ•˜๋ฉด 36๊ฐœ ํŒจ์น˜๊ฐ€ ๋‚˜์˜ค๊ณ , ๊ฐ ํŒจ์น˜๋ฅผ 768์ฐจ์› ๋ฒกํ„ฐ๋กœ ์ž„๋ฒ ๋”ฉํ•˜๋Š” ์‹์ด๋‹ค.)
  • ์ ‘์ด‰ ์˜ค๋””์˜ค: Digit 360์—๋Š” ๋‘ ๊ฐœ์˜ ์ ‘์ด‰ ๋งˆ์ดํฌ๊ฐ€ ๋‚ด์žฅ๋˜์–ด ์žˆ์–ด, 48kHz์˜ ๊ณ ์†์œผ๋กœ ์ ‘์ด‰ ์ง„๋™์Œ์„ ์ˆ˜์ง‘ํ•œ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์•ฝ 0.55์ดˆ ๊ธธ์ด์˜ ์˜ค๋””์˜ค ์‹ ํ˜ธ ๊ตฌ๊ฐ„์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ์ด ๊ตฌ๊ฐ„์˜ ์‹ ํ˜ธ๋ฅผ 5ms ์œˆ๋„์šฐ, 2.5ms ํ™‰์œผ๋กœ ๋กœ๊ทธ-๋ฉœ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ๋ฉœ ์ฃผํŒŒ์ˆ˜ ์ฑ„๋„์€ 128๊ฐœ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋‘ ๋งˆ์ดํฌ์˜ ์ŠคํŽ™ํŠธ๋กœ๊ทธ๋žจ์„ ์ƒํ•˜๋กœ ๋ถ™์—ฌ(concatenate) โ€œ2 ร— 128 ์ฑ„๋„โ€๋กœ ๋งŒ๋“ค๊ณ , ์ด๋ฅผ ๋‹ค์‹œ ํŒจ์น˜๋กœ ๋‚˜๋ˆ„์–ด(์˜ˆ: 16ร—16 ํŒจ์น˜ ๋“ฑ) ์ž„๋ฒ ๋”ฉ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์˜ค๋””์˜ค๋กœ๋ถ€ํ„ฐ๋„ ์ผ์ • ๊ธธ์ด์˜ ํ† ํฐ ์‹œํ€€์Šค๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค.
  • ์šด๋™/๊ฐ€์†๋„(IMU): Digit 360์˜ 3์ถ• ๊ฐ€์†๋„๊ณ„ ์‹ ํ˜ธ๋Š” 400Hz๋กœ ์ƒ˜ํ”Œ๋ง๋œ๋‹ค. ์•ฝ 0.55์ดˆ ๋ถ„๋Ÿ‰์˜ IMU ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„์„œ ํ•˜๋‚˜์˜ ์ž…๋ ฅ ์‹œํ€€์Šค๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด ์‹ ํ˜ธ ์—ญ์‹œ ์ ์ ˆํ•œ ์‹œ๊ณ„์—ด ํŒจ์น˜๋กœ ๋ถ„ํ•  ํ›„ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ํˆฌ์˜ํ•œ๋‹ค. (IMU ๋ฐ์ดํ„ฐ๋Š” 3๊ฐœ์˜ ์ถ• ์„ฑ๋ถ„์ด ์žˆ์–ด 3์ฑ„๋„ ์‹œ๊ณ„์—ด๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด ํŠน์ • window ๊ธธ์ด๋กœ ๋ฌถ์–ด ํ•˜๋‚˜์˜ ํ† ํฐ์œผ๋กœ ๋งŒ๋“œ๋Š” ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์˜€๋‹ค.)
  • ์ •์  ์••๋ ฅ: ์••๋ ฅ ์„ผ์„œ๋Š” 200Hz๋กœ ์ฝํžˆ๋ฉฐ, ๋‹ค๋ฅธ ์‹ ํ˜ธ๋ณด๋‹ค ๋А๋ฆฌ๋ฏ€๋กœ 1.1์ดˆ ๊ธธ์ด์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ๋ฒˆ์— ์‚ฌ์šฉํ•œ๋‹ค. ์ด ์—ญ์‹œ IMU์™€ ๋™์ผํ•˜๊ฒŒ ์‹œ๊ณ„์—ด ์‹ ํ˜ธ๋ฅผ ์ž„๋ฒ ๋”ฉ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋งŒ๋“ ๋‹ค. (์••๋ ฅ ๋ฐ์ดํ„ฐ๋Š” 1์ถ•์˜ ์‹œ๊ฐ„ํ๋ฆ„ ๊ฐ’์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.)

์š”์•ฝํ•˜๋ฉด, ์ด๋ฏธ์ง€๋Š” ๊ณต๊ฐ„ ํŒจ์น˜๋“ค์˜ ์‹œํ€€์Šค, ์˜ค๋””์˜ค/IMU/์••๋ ฅ์€ ์‹œ๊ฐ„ ํŒจ์น˜๋“ค์˜ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜๋˜์–ด Sparsh-X์˜ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค. ์—ฌ๊ธฐ์— ํฌ์ง€์…”๋„ ์ž„๋ฒ ๋”ฉ์„ ๋”ํ•ด ์œ„์น˜ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ณ , ์•ž์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ ๋ชจ๋‹ฌ๋ณ„ Transformer ์ธ์ฝ”๋”์™€ bottleneck ์œตํ•ฉ ๋ชจ๋“ˆ์„ ํ†ตํ•ด ์ตœ์ข… ํ†ตํ•ฉ ํ‘œํ˜„์„ ์‚ฐ์ถœํ•œ๋‹ค.

์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต (SSL Training Pipeline)

Sparsh-X ๋ชจ๋ธ์€ ๋ผ๋ฒจ ์—†๋Š” ์ ‘์ด‰ ๋ฐ์ดํ„ฐ๋กœ ์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต(self-supervised pretraining)๋œ๋‹ค. ์ž๊ธฐ ์ง€๋„ํ•™์Šต์„ ํƒํ•จ์œผ๋กœ์จ ๋ฒ”์šฉ์ ์ธ ํ‘œํ˜„ ํ•™์Šต, ์žก์Œ/๋ถ„์‚ฐ์— ๋Œ€ํ•œ ๊ฐ•์ธํ•จ, ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต ๊ฐ€๋Šฅ ๋“ฑ์˜ ์ด์ ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋“ค์€ ์ตœ๊ทผ ์„ฑ๊ณต์ ์ธ ์ž๊ธฐ ์ง€๋„ํ•™์Šต ๊ธฐ๋ฒ•๋“ค์„ ์ฐธ๊ณ ํ•˜์—ฌ, ๊ต์‚ฌ-ํ•™์ƒ ๋„คํŠธ์›Œํฌ ๊ฐ„ ์ง€์‹ ์ฆ๋ฅ˜(self-distillation) ๋ฐฉ์‹์„ ํ™œ์šฉํ–ˆ๋‹ค. ์ด๋Š” DINO ๋“ฑ์˜ ๋น„๋””์˜ค ํ‘œํ˜„ ํ•™์Šต ๊ธฐ๋ฒ•๊ณผ ์œ ์‚ฌํ•œ ์•„์ด๋””์–ด๋กœ, ๋™์ผํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ Teacher ๋„คํŠธ์›Œ ํฌ์™€ Student ๋„คํŠธ์›Œํฌ๋ฅผ ๋‘๊ณ , Student๊ฐ€ ๋ถ€๋ถ„ ์ •๋ณด๋งŒ ๊ฐ€์ง€๊ณ  Teacher์˜ ์ถœ๋ ฅ์„ ๋งž์ถ”๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ตฌ์ฒด์ ์ธ ์ ˆ์ฐจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  1. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: Sparsh-X์˜ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์€ ๋‘ ๊ฐ€์ง€ ๊ฒฝ๋กœ๋กœ ์ˆ˜์ง‘๋˜์—ˆ๋‹ค. ์ฒซ์งธ๋Š” ๋กœ๋ด‡ ์†(Allegro Hand)์— Digit 360 ์„ผ์„œ๋“ค์„ ์žฅ์ฐฉํ•˜๊ณ  ๋ฌด์ž‘์œ„๋กœ ๋ฌผ์ฒด๋ฅผ ๋งŒ์ง€์ž‘๊ฑฐ๋ฆฌ๋ฉฐ(random motions with objects) ์ ‘์ด‰์„ ๋ฐœ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋•Œ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ์ด ๊ฐ์ข… ๋ฌผ์ฒด ๋”๋ฏธ ์†์„ ํœ˜์ “๊ฑฐ๋‚˜ ๋ˆ„๋ฅด๊ณ  ๋น„ํŠธ๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ์ ‘์ด‰ ๊ฒฝํ—˜์„ ์Œ“๋Š”๋‹ค. ๋‘˜์งธ๋Š” ์ˆ˜๋™ ์กฐ์ž‘๊ธฐ(manual picker)๋ผ๋Š” ์žฅ์น˜๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒƒ์œผ๋กœ, Digit 360์„ ์ง‘ ๊ฒŒ ๋์— ๋‹ฌ์•„ ๋ฌผ์ฒด๋ฅผ ์ง‘๊ณ (sliding), ๋Œ๊ณ  ์Šฌ๋ผ์ด๋”ฉํ•˜๊ฑฐ๋‚˜, ํƒํƒ ๋‘๋“œ๋ฆฌ๊ฑฐ๋‚˜, ๋“ค์–ด์˜ฌ๋ ธ๋‹ค ๋–จ์–ด๋œจ๋ฆฌ๋Š” ๋“ฑ์˜ ์›์ž์  ์กฐ์ž‘ ํ–‰๋™(atomic manipulation actions)์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋•Œ ์ ‘์ด‰ํ•˜๋Š” ํ‘œ๋ฉด์˜ ๊ฑฐ์น ๊ธฐ, ๊ฒฝ๋„, ๋งˆ์ฐฐ๊ณ„์ˆ˜, ์žฌ์งˆ ๋“ฑ์„ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ”๊พธ์–ด๊ฐ€๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•˜๋‹ค. ์ด๋ ‡๊ฒŒ ์ˆ˜์ง‘๋œ ๋‹ค์ฑ„๋กœ์šด ์ด‰๊ฐ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ๋ถ€ํ„ฐ ์ด M๊ฐœ(์•ฝ ๋ฐฑ๋งŒ)์˜ ์ƒ˜ํ”Œ์„ ์–ป์–ด ํ•™์Šต์— ์‚ฌ์šฉํ–ˆ๋‹ค. (M์˜ ์ •ํ™•ํ•œ ๊ฐ’์€ ๋…ผ๋ฌธ์—์„œ 100๋งŒ ๋‚ด์™ธ๋กœ ์–ธ๊ธ‰๋จ.)

  2. ๊ต์‚ฌ-ํ•™์ƒ ๊ตฌ์กฐ: Teacher ๋„คํŠธ์›Œํฌ์™€ Student ๋„คํŠธ์›Œํฌ๋Š” ๋™์ผํ•œ Sparsh-X ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ง€๋งŒ, Teacher๋Š” ํ•™์Šต ๊ณผ์ •์—์„œ ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜๋Š” ํ‰๊ท  ๊ฐ€์ค‘์น˜(EMA) ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๊ต์  ์•ˆ์ •๋œ ์ถœ๋ ฅ์„ ๋งŒ๋“ ๋‹ค (๋˜๋Š” ๊ณผ๊ฑฐ epoch์˜ student๋ฅผ teacher๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹). Student ๋„คํŠธ์›Œํฌ๋Š” ์‹ค์ œ๋กœ ํ•™์Šต๋˜๋Š” ๋„คํŠธ์›Œํฌ๋กœ, Teacher์˜ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค. ๋‘˜ ๋ชจ๋‘ Transformer ์ธ์ฝ”๋”์™€ ์˜ˆ์ธก ํ—ค๋“œ(projection head)๋ฅผ ๊ฐ–์ถ” ๊ณ  ์žˆ๋‹ค.

  3. ๋งˆ์Šคํ‚น ๋ฐ ์˜ˆ์ธก: ๊ฐ ํ•™์Šต iteration์—์„œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์— ๋Œ€ํ•ด, ํ•™์ƒ(Student) ์ž…๋ ฅ ํ† ํฐ์—๋Š” ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•œ๋‹ค. ํ•œ ์ƒ˜ํ”Œ ๋‚ด์—์„œ๋„ ์ผ๋ถ€ ํ† ํฐ์€ local mask (10~50% ๋‚จ๊น€), ์ผ๋ถ€๋Š” global mask (50~100% ๋‚จ๊น€) ์ฒ˜๋ฆฌ๋ฅผ ํ•˜์—ฌ, ๋ถ€๋ถ„์ ์ธ ์ •๋ณด๋งŒ์œผ๋กœ ์ „์ฒด๋ฅผ ์ถ”๋ก ํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค. (์ด๋Š” ์ตœ๊ทผ ์ž๊ธฐ์ง€๋„ ๋น„๋””์˜ค ํ•™์Šต์—์„œ ์ž์ฃผ ์“ฐ์ด๋Š” ๊ตญ์†Œ/์ „์—ญ ๋งˆ์Šคํ‚น ์ „๋žต์ด๋‹ค.) Teacher ๋„คํŠธ์›Œํฌ์—๋Š” ์›๋ณธ ์ž…๋ ฅ(๋งˆ์Šคํ‚น ์—†์Œ ๋˜๋Š” ํ›จ์”ฌ ์ ๊ฒŒ)์œผ๋กœ ํ†ต๊ณผ์‹œ์ผœ ๋ณด๋‹ค ํ’๋ถ€ํ•œ ์ •๋ณด๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ํ‘œํ˜„์„ ์–ป๋Š”๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ Student์˜ ๋ชจ๋“  ๋ชจ๋‹ฌ ์ถœ๋ ฅ ์ค‘ โ€œ[CLS] ํ† ํฐโ€ ๊ฒฉ์ธ ๋Œ€ํ‘œ ํ† ํฐ๋“ค์„ ํ•œ๋ฐ ๋ชจ์œผ๊ณ  (๋งˆ์Šคํฌ ์ข…๋ฅ˜๋ณ„๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ) ๊ฐ๊ฐ ์˜ˆ์ธก ํ—ค๋“œ๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ํ™•๋ฅ  ๋ถ„ํฌ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค. ํ•œํŽธ Teacher ๋„คํŠธ์›Œํฌ ์ถœ๋ ฅ ํ† ํฐ๋“ค์€ ํด๋Ÿฌ์Šคํ„ฐ๋ง๋œ ์˜์‚ฌ ๋ ˆ์ด๋ธ”(pseudo-label)๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ Teacher์˜ ํŠน์ • ๋ ˆ์ด์–ด ์ถœ๋ ฅ์— ๋Œ€ํ•ด ์˜จ๋ผ์ธ k-means ๋“ฑ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ(centroid)๋“ค์„ ์ •ํ•˜๊ณ , ๊ฐ ํ† ํฐ์„ ํ•ด๋‹น ์ค‘์‹ฌ๋“ค์— ํ• ๋‹นํ•˜์—ฌ soft label (ํ† ํฐ์ด ์†ํ•  ํ™•๋ฅ ๋ถ„ํฌ)๋กœ ์‚ผ๋Š”๋‹ค. ์ด Teacher ํ† ํฐ ๊ธฐ๋ฐ˜์˜ soft label์„ Student ๋„คํŠธ์›Œํฌ์˜ ์˜ˆ์ธก๊ณผ ๋น„๊ตํ•˜์—ฌ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ฆ‰ Student๋Š” ์ œํ•œ๋œ ์ •๋ณด๋ฅผ ๋ณด๊ณ  Teacher๊ฐ€ ๋งŒ๋“  ๊ตฐ์ง‘๋ถ„ํฌ๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋˜๋Š” ์…ˆ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์ง€์‹ ์ฆ๋ฅ˜ ๊ธฐ๋ฐ˜์˜ ์ž๊ธฐ ์ง€๋„ํ•™์Šต์€, ๋ผ๋ฒจ ์—†์ด๋„ ๋ชจ๋ธ์ด ์ž๊ธฐ ์ž์‹ ์—๊ฒŒ ๋ฐฐ์›Œ๋‚˜๊ฐ€๋Š”(self-distill) ๊ณผ์ •์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฏธ์ง€๋Š” ๋ฌผ๋ก  ๋‹ค์ค‘์„ผ ์„œ ์ž…๋ ฅ์—์„œ๋„ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค. ์ €์ž๋“ค์€ ํ•™์Šต ์ค‘ ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ๋“ค์ด ๋ชจ๋ธ ํ–ฅ์ƒ์— ๋”ฐ๋ผ ๋ณ€ํ™”(adapt over time)ํ•˜๋„๋ก ํ•˜์—ฌ ์ ์ง„์ ์œผ๋กœ ํ‘œํ˜„์ด ์„ธ๋ จ๋˜๊ฒŒ ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค.

  4. ํ•™์Šต ์„ค์ •: Sparsh-X๋Š” 200 epoch ๋™์•ˆ ํ•™์Šต๋˜์—ˆ๋‹ค. ์‚ฌ์šฉํ•œ GPU ์ž์›์€ A100 40GB ร— 16๋Œ€๋กœ, ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” 128, ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ AdamW๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , ํ•™์Šต๋ฅ ์€ ์ดˆ๋ฐ˜์— ์„ ํ˜• ์ฆ๊ฐ€(linear ramp-up) ํ›„ ์ฝ”์‚ฌ์ธ ์Šค์ผ€์ค„๋กœ ๊ฐ์†Œ์‹œ์ผฐ๋‹ค. ๋Œ€๊ทœ๋ชจ ์—ฐ์‚ฐ์ด ์š”๊ตฌ๋˜์—ˆ์ง€๋งŒ Meta์˜ ์—ฐ๊ตฌ ์ธํ”„๋ผ๋ฅผ ํ†ตํ•ด ์ด๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ถ”๊ฐ€์ ์ธ ํ•™์Šต ์„ธ๋ถ€์‚ฌํ•ญ(ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๋“ฑ)์€ ๋ถ€๋ก์— ์ œ์‹œ๋˜์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต ๊ฒฐ๊ณผ, Sparsh-X๋Š” ๋Œ€๋Ÿ‰์˜ ์กฐ์ž‘ ๊ฒฝํ—˜์œผ๋กœ๋ถ€ํ„ฐ ์ ‘์ด‰์˜ ๊ณตํ†ต ํ‘œํ˜„์„ ์Šต๋“ํ•˜๊ฒŒ ๋œ๋‹ค. ๋‹ค์Œ์œผ๋กœ ์ €์ž๋“ค์€ ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„์ด ์‹ค์ œ๋กœ ์œ ์šฉํ•œ์ง€๋ฅผ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ๊ฒ€์ฆํ•˜์˜€๋‹ค.

์‹คํ—˜: ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์—์„œ์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ™œ์šฉ

์ €์ž๋“ค์€ Sparsh-X ํ‘œํ˜„์˜ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ์ค‘์‹ฌ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋ฅผ ์„ค๊ณ„ํ•˜์˜€๋‹ค. ์—ฐ๊ตฌ์˜ ์ค‘์‹ฌ ์งˆ๋ฌธ์€ ๋‘ ๊ฐ€์ง€์ด๋‹ค: (1) Sparsh-X๊ฐ€ ํ•™์Šตํ•œ ํ‘œํ˜„์€ ์–ด๋–ค ๋ฌผ๋ฆฌ์  ์†์„ฑ๋“ค์„ ๋‹ด๊ณ  ์žˆ๋Š”๊ฐ€? (2) ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ์ด ์ด‰๊ฐ ํ‘œํ˜„์„ ์–ด๋–ป๊ฒŒ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?. ์ด๋ฅผ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ์ง€๋„ํ•™์Šต์„ ํ†ตํ•œ ๋ฌผ๋ฆฌ ์†์„ฑ ์ถ”๋ก  ์‹คํ—˜(4.1์ ˆ)๊ณผ, ๊ฐ•ํ™”/๋ชจ๋ฐฉํ•™์Šต์„ ํ†ตํ•œ ์ •์ฑ… ํ–ฅ์ƒ ์‹คํ—˜(4.2์ ˆ)์˜ ๋‘ ํ๋ฆ„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์‹คํ—˜์ด ์ง„ํ–‰๋˜์—ˆ๋‹ค.

๋ฌผ๋ฆฌ์  ์†์„ฑ ์ถ”๋ก  (Inferring Physical Properties with Sparsh-X)

์ด ๋ถ€๋ถ„์—์„œ๋Š” Sparsh-X์˜ ๊ณ ์ •๋œ(frozen) ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋ฌผ๋ฆฌ์ ์ธ ํŠน์„ฑ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•œ๋‹ค. Sparsh-X ์ธ์ฝ”๋”๋Š” ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ทธ๋Œ€๋กœ ๊ณ ์ •์‹œํ‚ค๊ณ , ๋ณ„๋„์˜ ๊ฐ€๋ฒผ์šด ๋””์ฝ”๋”(MLP ๋“ฑ)๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ํŠน์ • ๊ณผ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„ ์ž์ฒด์˜ ํ’ˆ์งˆ์„ ์˜จ์ „ํžˆ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค (๋งŒ์•ฝ ์ธ์ฝ”๋”๊นŒ์ง€ fine-tuningํ•œ๋‹ค๋ฉด ์‚ฌ์ „ํ•™์Šต์˜ ๊ณตํ—Œ๋„ ํŒŒ์•…์ด ์–ด๋ ค์›Œ์ง€๋ฏ€๋กœ). ์ €์ž๋“ค์€ ์„ธ ๊ฐ€์ง€ ์œ ํ˜•์˜ ๊ณผ์ œ๋ฅผ ์ค€๋น„ํ•˜์˜€๋‹ค :

  1. ๊ฐ์ฒด-ํ–‰๋™-ํ‘œ๋ฉด ๋ถ„๋ฅ˜: ํ•œ ๋ฒˆ์˜ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ์—์„œ ์–ด๋–ค ๋ฌผ์ฒด๋ฅผ ์–ด๋–ค ํ–‰๋™์œผ๋กœ ์–ด๋–ค ํ‘œ๋ฉด์—์„œ ๋‹ค๋ฃจ์—ˆ๋Š”์ง€๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๊ณผ์ œ์ด๋‹ค. ๋ฐ์ดํ„ฐ๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ manual picker ์žฅ์น˜๋กœ ์ˆ˜์ง‘ํ•œ ํ•˜์œ„์…‹์„ ํ™œ์šฉํ–ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ง‘๊ฒŒ๋กœ ์ฅ๋Š” ๋ฌผ์ฒด๋Š” ๊ณจํ”„๊ณต, ๋ ˆ๊ณ  ๋ธ”๋Ÿญ, ๋‚˜๋ฌดํ† ๋ง‰ (3์ข…) ์ค‘ ํ•˜๋‚˜์ด๊ณ , ์ˆ˜ํ–‰ํ•œ ํ–‰๋™์€ ํ‰๋ฉด ์Šฌ๋ผ์ด๋”ฉ, ์›ํ˜• ์Šฌ๋ผ์ด๋”ฉ, ๋‘๋“œ๋ฆฌ๊ธฐ (3์ข…) ์ค‘ ํ•˜๋‚˜์ด๋ฉฐ, ์ ‘์ด‰ํ•œ ์™ธ๋ถ€ ํ‘œ๋ฉด์€ ํ”Œ๋ผ์Šคํ‹ฑ, ์ง๋ฌผ(์ฒœ), ์ž”๋””, ๊ฑฐ์นœ ํ•ฉํŒ (4์ข…) ์ค‘ ํ•˜๋‚˜์˜€ ๋‹ค. ์ด ์„ธ ๊ฐ€์ง€ ๋ฒ”์ฃผ์˜ ์กฐํ•ฉ์œผ๋กœ ์ด 3ร—3ร—4 = 36๊ฐ€์ง€ ํด๋ž˜์Šค๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์ด ๊ณผ์ œ๋ฅผ ํ†ตํ•ด Sparsh-X ํ‘œํ˜„์ด ๋งˆ์ฐฐ, ๊ฒฝ๋„, ๊ฑฐ์น ๊ธฐ ๋“ฑ์˜ ์ •์  ์ ‘์ด‰ ํŠน์„ฑ๊ณผ ์Šฌ๋ผ์ด๋”ฉ vs ํƒญํ•‘ ๊ฐ™์€ ๋™์  ์ƒํ˜ธ์ž‘์šฉ ํŒจํ„ด๊นŒ์ง€ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋“ค์€ Sparsh-X ์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ณ€๊ฒฝ/์ œ๊ฑฐ(ablations)ํ•ด๊ฐ€๋ฉฐ ๋ฉ€ํ‹ฐ์„ผ์„œ์˜ ์ด์ ์„ ๋ถ„์„ํ–ˆ๊ณ , ์ „ํ†ต์ ์ธ end-to-end ํ•™์Šต ๋ชจ๋ธ(์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ ์ž…๋ ฅ ๋ฐ›์•„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ๋ชจ๋ธ)๊ณผ๋„ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜์˜€๋‹ค.
  2. ์žฌ์งˆ-์–‘(์งˆ๋Ÿ‰) ์ถ”์ •: Sparsh-X ํ‘œํ˜„์ด ๋ฌผ์ฒด์˜ ์žฌ์งˆ(material)๊ณผ ๋‚ด์šฉ๋ฌผ์˜ ์–‘ ๋˜๋Š” ์งˆ๋Ÿ‰(quantity)๊นŒ์ง€๋„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๊ณผ์ œ์ด๋‹ค. ์ด๋Š” ์šฉ๊ธฐ ์†์— ๋“  ๋ฌผ์งˆ์˜ ์ข…๋ฅ˜์™€ ๊ทธ ์ฑ„์›Œ์ง„ ์ •๋„๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ธ๊ฐ„์˜ ์ง๊ด€์ฒ˜๋Ÿผ ํ”๋“ค์–ด์„œ ์†Œ๋ฆฌ์™€ ๊ฐ๊ฐ์œผ๋กœ ๋‚ด์šฉ๋ฌผ ํŒŒ์•…ํ•˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์‹คํ—˜ํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 8์˜จ์Šค์งœ๋ฆฌ ๋ณ‘์— ์Œ€, ์˜ฅ์ˆ˜์ˆ˜์•Œ, ๋น„ํƒ€๋ฏผ ์•Œ์•ฝ, ๋ Œํ‹ธ์ฝฉ, ๋ฌผ, ๊ธฐ๋ฆ„ ๋“ฑ ์—ฌ์„ฏ ๊ฐ€์ง€ ์žฌ๋ฃŒ ์ค‘ ํ•˜๋‚˜๋ฅผ ๋‹ด๊ณ , ์–‘์„ ๋‹ฌ๋ฆฌ ์ฑ„์›Œ ๋„ฃ์€ ํ›„ ๋šœ๊ป‘์„ ๋‹ซ๊ณ  ๋กœ๋ด‡ ํŒ”๋กœ ์žก์•„ ์œ„์•„๋ž˜๋กœ ํ”๋“œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์˜€๋‹ค. Sparsh-X ์„ผ์„œ์—๋Š” ์ด ๊ณผ์ •์—์„œ ๋‚ด์šฉ๋ฌผ์˜ ํ”๋“ค๋ฆฌ๋Š” ์†Œ๋ฆฌ, ๋ณ‘์˜ ๋ฏธ์„ธํ•œ ์›€์ง์ž„, ์••๋ ฅ ๋ณ€ํ™” ๋“ฑ์ด ๋ชจ๋‘ ์ž…๋ ฅ๋œ๋‹ค. ์ด 18๊ฐ€์ง€ (6 ์žฌ์งˆ ร— 3 ์ฑ„์›€ ์ˆ˜์ค€) ์กฐํ•ฉ์— ๋Œ€ํ•ด, Sparsh-X ํ‘œํ˜„์œผ๋กœ๋ถ€ํ„ฐ ์žฌ์งˆ ์ข…๋ฅ˜ + ์–‘ ์ˆ˜์ค€์„ ๋™์‹œ์— ๋ถ„๋ฅ˜ํ•˜๋„๋ก ๋””์ฝ”๋”๋ฅผ ํ•™์Šตํ–ˆ๋‹ค. ์ด ์—ญ์‹œ ํ•™์Šต ๋ฐ์ดํ„ฐ ์–‘์„ ๋‹ฌ๋ฆฌ ํ•ด๋ณด๋ฉฐ ํ‘œํ˜„์˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ์‹œํ—˜ํ–ˆ๊ณ , ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ E2E ๋ชจ๋ธ๊ณผ ์ •ํ™•๋„๋ฅผ ๋น„๊ตํ•˜์˜€๋‹ค.
  3. ์ ‘์ด‰๋ ฅ(์ •๊ทœ๋ ฅ) ์ถ”์ •: Sparsh-X ํ‘œํ˜„์ด ์ ‘์ด‰ ์‹œ ๊ฐ€ํ•ด์ง„ ํž˜(magnitude of force)๊นŒ์ง€ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ณผ์ œ์ด๋‹ค. ํ”ํžˆ ์ ‘์ด‰๋ ฅ ์ถ”์ •์€ ์‹œ๊ฐ ์ด‰๊ฐ์„ผ์„œ์—์„œ ์ค‘์š”ํ•œ ๋ฌธ์ œ๋กœ, Gelsight๋ฅ˜ ์„ผ์„œ๋Š” ์ด๋ฏธ์ง€ ๋ณ€ํ˜•์œผ๋กœ ํž˜์˜ ํฌ๊ธฐ๋ฅผ ์—ญ์ถ”์ •ํ•˜๊ธฐ๋„ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” Digit 360 ์„ผ์„œ์— ๋ฐ˜๊ตฌํ˜• ํ”„๋กœ๋ธŒ(๋‘ฅ๊ทผ ๋ˆŒ๋Ÿฌ์ง€๋Š” ๋„๊ตฌ)๋ฅผ ๊ฐ–๋‹ค ๋Œ€์–ด ์ผ์ •ํ•œ ํž˜์œผ๋กœ ๋ˆ„๋ฅผ ๋•Œ Sparsh-X ํ‘œํ˜„์„ ๋ณด๊ณ  ๊ทธ ํž˜(์ •๊ทœ ๋ฐฉํ–ฅ ํž˜)์„ ํšŒ๊ท€ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šตํ–ˆ๋‹ค. ํž˜์˜ ํฌ๊ธฐ ๋Š” ์„ผ์„œ ๋’ค์— ์žฅ์ฐฉ๋œ ํฌ์Šค/ํ† ํฌ(force-torque) ์ธก์ • ์žฅ๋น„๋กœ ์ •ํ™•ํžˆ ๊ณ„์ธกํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•˜๋‹ค. ์—ฌ๋Ÿฌ ์œ„์น˜, ์—ฌ๋Ÿฌ ํฌ๊ธฐ์˜ ํž˜์œผ๋กœ ๋ˆ„๋ฅด๋ฉด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ , Sparsh-X ํ‘œํ˜„์„ ์ž…๋ ฅ์œผ๋กœ ํšŒ๊ท€ ํ—ค๋“œ๋ฅผ ๋ถ™์—ฌ ํž˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•œ ๊ฒƒ์ด๋‹ค. ์ด ๊ฒฝ์šฐ๋„ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์กฐํ•ฉ๋ณ„๋กœ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜์˜€๋‹ค.

ํ‰๊ฐ€ ๋ฐ ๊ฒฐ๊ณผ: ์ด ์„ธ ๊ฐ€์ง€ ๊ณผ์ œ์—์„œ Sparsh-X (๋™๊ฒฐ) ํ‘œํ˜„ + ์–•์€ ๋””์ฝ”๋” ์กฐํ•ฉ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์—ฌ, 1) ์–ด๋–ค ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์กฐํ•ฉ์ด ๊ฐ€์žฅ ๊ธฐ์—ฌํ•˜๋Š”์ง€, 2) ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„์ด ์—†๋Š” ๊ฒฝ์šฐ ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ํ–ฅ์ƒ๋˜๋Š”์ง€ ํ™•์ธํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์ „๋ฐ˜์ ์œผ๋กœ ์—ฌ๋Ÿฌ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ํ•จ๊ป˜ ์“ธ ๋•Œ ์„ฑ๋Šฅ์ด ์ตœ๊ณ ๋กœ ๋†’์•˜๋‹ค.

  • ๊ฐ์ฒด-ํ–‰๋™-ํ‘œ๋ฉด ๋ถ„๋ฅ˜์˜ ๊ฒฝ์šฐ, Sparsh-X์˜ ๋„ค ๋ชจ๋‹ฌ ํ†ตํ•ฉ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•  ๋•Œ ์ •ํ™•๋„๊ฐ€ ๊ฐ€์žฅ ๋†’์•˜์œผ๋ฉฐ, ์ด๋Š” ์ด‰๊ฐ์ด๋ฏธ์ง€ ํ•˜๋‚˜๋งŒ ์‚ฌ์šฉํ•  ๋•Œ๋ณด๋‹ค ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ๋œ ๊ฒƒ์ด์—ˆ๋‹ค. ๋˜ํ•œ ๋™์ผํ•œ ์–‘์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ end-to-end ๋ฐฉ์‹(์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต)๊ณผ ๋น„๊ตํ•˜๋ฉด, Sparsh-X ํ‘œํ˜„์„ ํ™œ์šฉํ•œ ์ชฝ์ด ๋” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ๋ฉด์—์„œ ์ด์ ์„ ๋ณด์˜€๋‹ค. (์ €์ž๋“ค์€ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ๋ฅผ 1์ฒœ, 4.8์ฒœ, 48.3์ฒœ ๋“ฑ์œผ๋กœ ๋Š˜๋ ค๊ฐ€๋ฉฐ ๋น„๊ตํ–ˆ๋Š”๋ฐ, Sparsh-X ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ํฌํ™”์— ๊ฐ€๊นŒ์šด ์„ฑ๋Šฅ์„ ๋‚ธ ๋ฐ˜๋ฉด E2E ๋ชจ๋ธ์€ ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค.) ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋กœ, ์˜ˆ๋ฅผ ๋“ค์–ด ์ ์€ ๋ฐ์ดํ„ฐ(1.0k ์ƒ˜ํ”Œ) ํ•™์Šต ์‹œ Sparsh-X ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์€ ์•ฝ 60~70%๋Œ€ ์ •ํ™•๋„๋ฅผ ๋ณด์ธ ๋ฐ˜๋ฉด, ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋… E2E ๋ชจ๋ธ์€ 20%๋Œ€์— ๋จธ๋ฌผ๋ €๋‹ค. ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ(48k ์ƒ˜ํ”Œ)๋ฅผ ์คฌ์„ ๋•Œ๋Š” E2E๋„ ํ–ฅ์ƒ๋˜์ง€๋งŒ, Sparsh-X ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์ด ์—ฌ์ „ํžˆ ์ตœ๊ณ  ์ •ํ™•๋„(์•ฝ 90% ๊ทผ์ ‘)๋ฅผ ๊ธฐ๋กํ–ˆ๋‹ค. ์ด๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ƒํ˜ธ ๋ณด์™„์  ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํ•œํŽธ, ์˜ค๋””์˜ค+IMU๋งŒ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ๋Š” ์ •ํ™•๋„๊ฐ€ ๋‹ค์†Œ ๋‚ฎ์•˜์ง€๋งŒ, ์ด๋Š” ์ด๋ฏธ์ง€/์••๋ ฅ ์ •๋ณด ๋ถ€์žฌ๋กœ ๋ฌผ์ฒด ์‹๋ณ„ ๋“ฑ์—์„œ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ณด์ธ๋‹ค. (์˜ค๋””์˜ค๋Š” ์ ‘์ด‰ ์—ฌ๋ถ€์™€ ํŒจํ„ด์€ ์•Œ๋ ค์ฃผ์ง€๋งŒ ์žฌ์งˆ ๋“ฑ์˜ ํžŒํŠธ๋Š” ๋ถ€์กฑํ•˜๋ฏ€๋กœ.)
  • ์žฌ์งˆ-์–‘ ๋ถ„๋ฅ˜ ๊ณผ์ œ์—์„œ๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ Sparsh-X๊ฐ€ ํƒ์›”ํ•œ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€๋‹ค. ์ด ๊ณผ์ œ๋Š” 18 ํด๋ž˜์Šค ๋ฉ€ํ‹ฐ๋ผ๋ฒจ ๋ถ„๋ฅ˜๋กœ ๊ฝค ์–ด๋ ต์ง€๋งŒ, Sparsh-X ํ‘œํ˜„์œผ๋กœ ํ•™์Šตํ•œ ๋””์ฝ”๋”๋Š” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ํŠนํžˆ ์˜ค๋””์˜ค+IMU ๋ชจ๋‹ฌ์ด ์ด ๊ณผ์ œ์— ์ค‘์š”ํ•˜๊ฒŒ ์ž‘์šฉํ–ˆ๋Š”๋ฐ, ๋ณ‘์„ ํ”๋“ค ๋•Œ ๋‚˜๋Š” ์†Œ๋ฆฌ๋‚˜ ๋ฏธ์„ธ ์ง„๋™์œผ๋กœ ๋‚ด์šฉ๋ฌผ ์ข…๋ฅ˜์™€ ์–‘์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋…์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ 100% ์‚ฌ์šฉํ•ด๋„ ์ •ํ™•๋„๊ฐ€ 60~70% ์ •๋„์˜€์ง€๋งŒ, Sparsh-X ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์„ ์“ฐ๋ฉด ๋” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ด๋ฅผ ์ƒํšŒํ–ˆ๋‹ค. (๋…ผ๋ฌธ ๋ถ€๋ก์˜ ํ˜ผ๋™ํ–‰๋ ฌ์„ ๋ณด๋ฉด, E2E ๋ชจ๋ธ์€ ์˜ˆ์ปจ๋Œ€ ๋ฌผ๊ณผ ๊ธฐ๋ฆ„์„ ์ž˜ ํ˜ผ๋™ํ•˜์ง€๋งŒ TacX(Sparsh-X) ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์ •ํ™•ํžˆ ๊ตฌ๋ถ„ํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.) ์ด๋Š” ์‚ฌ์ „ํ•™์Šต ํ‘œํ˜„์ด ์žฌ์งˆ/์งˆ๋Ÿ‰์— ๊ด€ํ•œ ํŠน์ง•๋„ ์ž˜ ํฌ์ฐฉํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  • ์ •๊ทœ๋ ฅ ์ถ”์ • ์‹คํ—˜์—์„œ๋Š”, ๋ชจ๋“  ๋ชจ๋‹ฌ ํ†ตํ•ฉ์‹œ ํ‰๊ท  ์˜ค์ฐจ๊ฐ€ ์•ฝ 35 mN์œผ๋กœ ๊ฐ€์žฅ ๋‚ฎ์•˜๊ณ , ์ด๋Š” ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋… ๋Œ€๋น„ 17% ํ–ฅ์ƒ๋œ ์ •ํ™•๋„๋ผ๊ณ  ๋ณด๊ณ ๋˜์—ˆ๋‹ค. ํŠนํžˆ ์••๋ ฅ ์„ผ์„œ๋‚˜ ์ด๋ฏธ์ง€๋Š” ํž˜์˜ ํฌ๊ธฐ์— ๊ด€ํ•œ ๋‹จ์„œ๊ฐ€ ๋˜๊ณ , ์˜ค๋””์˜ค๋„ ์ ‘์ด‰ ๊ฐ•๋„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ์†Œ๋ฆฌ ์ง„ํญ ๋“ฑ์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์—ฌ๋Ÿฌ ์‹ ํ˜ธ๋ฅผ ํ•จ๊ป˜ ์“ธ ๋•Œ ํž˜ ์ถ”์ •์ด ์ •ํ™•ํ•ด์กŒ๋‹ค. ์ด ์ •๋„ ์ˆ˜์ค€์˜ ์˜ค์ฐจ(์ˆ˜์‹ญ mN)๋Š” ๊ธฐ์กด ๋น„์ „ ์ด‰๊ฐ์„ผ์„œ๋กœ ํž˜ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์ˆ˜์ค€์œผ๋กœ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์ด ํž˜ ์ถ”์ •์—๋„ ์œ ์šฉํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ฐธ๊ณ ๋กœ ์ด๋ฏธ์ง€ ๋‹จ์ผ ๋ชจ๋‹ฌ๋กœ๋„ ์–ด๋А ์ •๋„ ํž˜ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์—ˆ๋Š”๋ฐ, ์ด๋Š” Elastomer ๋ณ€ํ˜• ํฌ๊ธฐ๋กœ๋ถ€ํ„ฐ ํž˜์„ ๊ฐ€๋Š ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๊ณ , Sparsh-X ์‚ฌ์ „ํ•™์Šต์„ ๊ฑฐ์นœ ํ‘œํ˜„์ด ๊ทธ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ผ๋ถ€ ํ•™์Šตํ–ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์„ Figure 4์— ์š”์•ฝ๋˜์–ด ์žˆ๋‹ค. ์ „์ฒด์ ์œผ๋กœ, Sparsh-X์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ํ‘œํ˜„์€ ์ ‘์ด‰์„ ํ†ตํ•ด ์•Œ ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ๋Ÿ‰๋“ค์„ ์„ฑ๊ณต์ ์œผ๋กœ ๋‚ดํฌํ•˜๊ณ  ์žˆ์—ˆ๋‹ค. ๋˜ํ•œ ์‚ฌ์ „ํ•™์Šต์˜ ํšจ๊ณผ๋กœ ์ ์€ ๋ ˆ์ด๋ธ” ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‚ฌ์ „ํ•™์Šต ์ ‘๊ทผ์ด ์œ ๋งํ•จ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค. ํŠนํžˆ ์—ฌ๋Ÿฌ ์ด‰๊ฐ ๋ชจ๋‹ฌ์˜ ์‹œ๋„ˆ์ง€๊ฐ€ ๋‹จ์ผ ๋ชจ๋‹ฌ ๋Œ€๋น„ ํฌ๋ฉฐ, ๊ฐ ๋ชจ๋‹ฌ์ด ์ œ๊ณตํ•˜๋Š” ๋ณด์™„์  ์ •๋ณด(์˜ˆ: ์˜ค๋””์˜ค๋Š” ์ ‘์ด‰ ์ด๋ฒคํŠธ, ์ด๋ฏธ์ง€๋Š” ์ ‘์ด‰๋ฉด ๋ถ„ํฌ, IMU๋Š” ์šด๋™ ๋ณ€ํ™”, ์••๋ ฅ์€ ํž˜ ๋ณ€ํ™”)๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ฒฐ ํ•ฉํ•˜๋Š” Sparsh-X์˜ ๋Šฅ๋ ฅ์ด ๋“œ๋Ÿฌ๋‚ฌ๋‹ค.

์ •์ฑ… ํ•™์Šต์—์„œ์˜ Sparsh-X ํ™œ์šฉ (Sparsh-X for Policy Learning)

๋‘ ๋ฒˆ์งธ๋กœ, Sparsh-X ์ด‰๊ฐ ํ‘œํ˜„์„ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด์ ์„ ์‹คํ—˜ํ–ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ํ˜„์‹ค ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ ๋‘ ๊ฐ€์ง€์— Sparsh-X๋ฅผ ์ ์šฉํ•˜์˜€๋‹ค:

  1. ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๊ณผ์ œ (Plug Insertion via Imitation Learning): ํ”Œ๋Ÿฌ๊ทธ(์ „์› ์ปค๋„ฅํ„ฐ)๋ฅผ ์†Œ์ผ“์— ๊ฝ‚๋Š” ๋™์ž‘์€ ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ๋Œ€ํ‘œ์ ์ธ ์‚ฝ์ž… ์ž‘์—…์œผ๋กœ ๋งŽ์ด ์—ฐ๊ตฌ๋˜์–ด ์™”๋‹ค. ์ด ๊ณผ์ œ์—์„œ ์ €์ž๋“ค์€ ์ด‰๊ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์ด ๋†’์€ ์ •๋ฐ€๋„ ์ž‘์—…์˜ ์„ฑ๊ณต๋ฅ ์„ ์–ผ๋งˆ๋‚˜ ํ–ฅ์ƒ์‹œํ‚ค๋Š”์ง€ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์‹คํ—˜ ํ™˜๊ฒฝ์€ Allegro ๋กœ๋ด‡ ํ•ธ๋“œ์— Digit 360 ์„ผ์„œ๋ฅผ ์—„์ง€, ์ง‘๊ฒŒ, ์ค‘์ง€์— ์žฅ์ฐฉํ•˜๊ณ , ๋กœ๋ด‡์ด ๋ฏธ๋ฆฌ ์ฅ๊ณ  ์žˆ๋Š” ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ๊ณ ์ •๋œ ์†Œ์ผ“์— ๋ผ์šฐ๋Š” ์ž‘์—…์ด๋‹ค. ์‚ฌ๋žŒ์˜ kinesthetic teleop(ํž˜ ๋ฐ˜ํ”ผ๋“œ๋ฐฑ ์žฅ์น˜ ๋“ฑ์œผ๋กœ ์›๊ฒฉ ์กฐ์ข…)๋ฅผ ํ†ตํ•ด 100๊ฐœ์˜ ๋ฐ๋ชจ ์‹œ์—ฐ์„ ๋ชจ์•„์„œ, ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ฐฉํ•™์Šต์œผ๋กœ ์ •์ฑ…์„ ํ›ˆ๋ จํ–ˆ๋‹ค. ๋ฐ๋ชจ์—๋Š” ์†๊ฐ€๋ฝ ๊ด€์ ˆ์ƒํƒœ, ์†๋ชฉ ์œ„์น˜, ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ์˜์ƒ, ์†๊ฐ€๋ฝ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ ๋“ฑ์ด ๊ธฐ๋ก๋˜์—ˆ๋‹ค.
  2. ์ •์ฑ… ๊ตฌ์กฐ: ํ•™์Šต๋œ ์ •์ฑ…์€ ACT (Action Chunking with Transformers)๋ผ๋Š” ๊ธฐ์กด ๋ชจ๋ฐฉํ•™์Šต ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณ€ํ˜•ํ•ด ์‚ฌ์šฉํ–ˆ๋‹ค. ์ž…๋ ฅ์œผ๋กœ๋Š” ์†๋ชฉ ์žฅ์ฐฉ ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ Sparsh-X ์ด‰๊ฐ ํ‘œํ˜„์„ ๋ชจ๋‘ ๋ฐ›๋Š”๋‹ค. ์นด๋ฉ”๋ผ ์ž…๋ ฅ์€ ๋ณ„๋„์˜ CNN ์ธ์ฝ”๋”๋ฅผ ๊ฑฐ์ณ ์ž„๋ฒ ๋”ฉ๋˜๊ณ , ์ด‰๊ฐ์€ Sparsh-X ์ธ์ฝ”๋”(์‚ฌ์ „ํ•™์Šต๋œ)๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ๊ฐ ์†๊ฐ€๋ฝ(3๊ฐœ ์†๊ฐ€๋ฝ)์˜ ํ‘œํ˜„์„ ์–ป๋Š”๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์„ธ ์†๊ฐ€๋ฝ์˜ ์ด‰๊ฐ ํ‘œํ˜„์€ ์–ดํ…ํ‹ฐ๋ธŒ ํ’€๋ง(attentive pooling)์œผ๋กœ ํ•˜๋‚˜๋กœ ํ†ตํ•ฉ๋œ๋‹ค. ์ด ์‹œ๊ฐ+์ด‰๊ฐ ์œตํ•ฉ ์ž„๋ฒ ๋”ฉ์„ Transformer ์ •์ฑ…๋ง์— ๋„ฃ์–ด, ๋ฏธ๋ž˜ Timestep ๋™์•ˆ์˜ endeffector(์†๋ชฉ) ์›€์ง์ž„ ๊ฒฝ๋กœ๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ–ˆ๋‹ค. (์ฆ‰ ํ•œ๋ฒˆ์— ์ผ์ • ์‹œ๊ฐ„๊ตฌ๊ฐ„์˜ ๊ถค์ ์„ ์ถœ๋ ฅํ•˜๋Š” ์ •์ฑ…์ด๋‹ค.)
  3. ๋น„๊ต ๊ธฐ๋ฒ•: ๋น„๊ต๋ฅผ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ž…๋ ฅ ์กฐํ•ฉ์˜ ์ •์ฑ…์„ ํ•™์Šต์‹œ์ผฐ๋‹ค. (a) Sparsh-X ๋ชจ๋“  ๋ชจ๋‹ฌ ์ด‰๊ฐ + ์นด๋ฉ”๋ผ, (b) Sparsh-X ์ค‘ ํŠน์ • ๋ชจ๋‹ฌ๋งŒ (์˜ˆ: ์˜ค๋””์˜ค+IMU๋งŒ, ๋˜๋Š” ์ด๋ฏธ์ง€๋งŒ) + ์นด๋ฉ”๋ผ, (c) ์ด‰๊ฐ ์—†๋Š” ์‹œ๊ฐ์นด๋ฉ”๋ผ๋งŒ ์ž…๋ ฅ(baseline), (d) ์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ ์ž…๋ ฅํ•˜์—ฌ end-to-end๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ์ •์ฑ…(์นด๋ฉ”๋ผ๋„ ํฌํ•จ) ๋“ฑ์ด๋‹ค. ์ด๋ ‡๊ฒŒํ•จ์œผ๋กœ์จ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ์˜ ๊ธฐ์—ฌ, ์‚ฌ์ „ํ•™์Šต ์œ ๋ฌด์˜ ์˜ํ–ฅ ๋“ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋น„๊ตํ–ˆ๋‹ค. ๊ฐ ์ •์ฑ…์€ 20ํšŒ์˜ ์‚ฝ์ž… ์‹œ๋„๋ฅผ ํ†ตํ•ด ์„ฑ๊ณต๋ฅ ์„ ์ธก์ •ํ–ˆ์œผ๋ฉฐ, ์ดˆ๊ธฐ ์†๋ชฉ ์ž์„ธ๋Š” ๋ฌด์ž‘์œ„๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ์ฃผ์—ˆ๋‹ค.

๊ฒฐ๊ณผ: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ ์ •์ฑ…์€ ํ˜„๊ฒฉํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋‹ค. ์†๋ชฉ ์นด๋ฉ”๋ผ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ์„ฑ๊ณต๋ฅ ์ด 15% ์ˆ˜์ค€์— ๋ถˆ๊ณผํ–ˆ๋Š”๋ฐ, Sparsh-X ๋ชจ๋“  ์ด‰๊ฐ ๋ชจ๋‹ฌ์„ ์‚ฌ์šฉํ•˜๋ฉด 90%์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ-only ๋Œ€๋น„ 500% ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋กœ, ์‹œ๊ฐ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ๋ชจํ˜ธํ–ˆ๋˜ ์‚ฝ์ž… ์ •ํ•ฉ ์—ฌ๋ถ€๋ฅผ ์ด‰๊ฐ์ด ํ™•์‹คํžˆ ๋ณด์™„ํ•ด์คŒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋˜ํ•œ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ํ•˜๋‚˜๋งŒ ์‚ฌ์šฉํ•˜๋Š” end-to-end ์ •์ฑ…์˜ ์„ฑ๊ณต๋ฅ  (~55%)๊ณผ ๋น„๊ตํ•ด๋„ Sparsh-X ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •์ฑ…์€ 63%p ๋†’์•˜๋‹ค. ์•„๋ž˜ ๊ทธ๋ž˜ํ”„๋Š” ๋‹ค์–‘ํ•œ ๊ฒฝ์šฐ์˜ ์„ฑ๊ณต๋ฅ ์„ ์š”์•ฝํ•œ ๊ฒƒ์ด๋‹ค (Wrist๋Š” ์†๋ชฉ ์นด๋ฉ”๋ผ, Touch๋Š” ์ด‰๊ฐ์„ ์˜๋ฏธ).

fcd5e6f3-0c08-4d63-bfb5-a96a1d167973

ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๊ณผ์ œ์—์„œ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์กฐํ•ฉ์— ๋”ฐ๋ฅธ ์„ฑ๊ณต๋ฅ  ๋น„๊ต. ๋ณด๋ผ์ƒ‰์ด Sparsh-X ์‚ฌ์ „ํ•™์Šต ํ‘œํ˜„ ์‚ฌ์šฉ ์ •์ฑ…, ํšŒ์ƒ‰์ด ๋™์ผ ์ž…๋ ฅ์„ end-to-end๋กœ ํ•™์Šตํ•œ ์ •์ฑ…(E2E)๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์™ผ์ชฝ ์ฒซ ๋ฒˆ์งธ ๊ทธ๋ฃน์€ ์†๋ชฉ ์นด๋ฉ”๋ผ + ๋ชจ๋“  ์ด‰๊ฐ ๋ชจ๋‹ฌ(Sparsh-X)๋กœ, ์•ฝ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•˜๋‹ค. ๋ฐ˜๋ฉด ์†๋ชฉ ์นด๋ฉ”๋ผ ๋‹จ๋… (๋งจ ์˜ค๋ฅธ์ชฝ)์€ 5% ์ˆ˜์ค€์œผ๋กœ ์‹คํŒจ์œจ์ด ๋งค์šฐ ๋†’๋‹ค. ์ด‰๊ฐ ์ด๋ฏธ์ง€ ํ•˜๋‚˜๋งŒ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ(Wrist+Touch(Image)) E2E๊ฐ€ Sparsh-X๋ณด๋‹ค ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ์ด๋Š” ํŠน์ • ์ž‘์—…์— ๊ณผ์ ํ•ฉ๋œ ํ•™์Šต์˜ ํšจ๊ณผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, Sparsh-X ํ‘œํ˜„์€ ๋ณด๋‹ค ๋ฒ”์šฉ์ ์ž„์„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค๋Š” ์–ธ๊ธ‰์ด ์žˆ๋‹ค.

์œ„ ๊ฒฐ๊ณผ์—์„œ ์ฃผ๋ชฉํ•  ์ ์€, ์‚ฌ์ „ํ•™์Šต(Pretraining)์˜ ํšจ๊ณผ๋‹ค. Sparsh-X (๋ณด๋ผ์ƒ‰ ๋ฐ”)๋Š” ๋™์ผํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ •์ฑ…๊ณผ ํ•จ๊ป˜ ํ•™์Šตํ•œ ๊ฒฝ์šฐ(ํšŒ์ƒ‰๋ฐ”)๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค. ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„์„ ์“ฐ์ง€ ์•Š๊ณ  ์ •์ฑ… ๋ฐ์ดํ„ฐ๋กœ๋งŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋ฉด ์„ฑ๊ณต๋ฅ ์ด ์ ˆ๋ฐ˜ ์ˆ˜์ค€์œผ๋กœ ๋–จ์–ด์ง€๋Š”๋ฐ, Sparsh-X ์‚ฌ์šฉ ์‹œ ์•ฝ 90% ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์žˆ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต์œผ๋กœ ์–ป์€ ์ด‰๊ฐ ํ‘œํ˜„์ด ์—†์—ˆ๋‹ค๋ฉด, ์ •์ฑ… ํ•™์Šต ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋Š” ๋ณต์žกํ•œ ์ด‰๊ฐ ํŠน์ง•์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šต์‹œํ‚ค๊ธฐ ์–ด๋ ค์› ์„ ๊ฒƒ์ž„์„ ๋ณด์—ฌ์ค€๋‹ค. ์ฆ‰ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ+์‚ฌ์ „ํ•™์Šต์˜ ์กฐํ•ฉ์ด ์ •์ฑ… ์„ฑ๋Šฅ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•œ ๊ฒƒ์ด๋‹ค. ์ €์ž๋“ค์€ โ€œ์ ‘์ด‰์˜ ๋ฏธ๋ฌ˜ํ•œ ๋‹จ์„œ๋ฅผ ๊ตฌ๋ณ„ํ•˜๋ ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐ๊ฐ์ด ํ•„์š”ํ•˜๋ฉฐ, ์‚ฌ์ „ํ•™์Šต์€ ๊ทธ๋Ÿฐ ํŠน์ง•๋“ค์„ ๋ฏธ๋ฆฌ ํ•™์Šตํ•ด๋‘๋Š” ์—ญํ• ์„ ํ•œ๋‹คโ€๋ผ๊ณ  ์„ค๋ช…ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜ค๋””์˜ค๋Š” ํ”Œ๋Ÿฌ๊ทธ ํ•€๊ณผ ์†Œ์ผ“์ด ์ฒ˜์Œ ๋‹ฟ์„ ๋•Œ โ€œ๋”ธ๊นโ€ ์†Œ๋ฆฌ๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ ‘์ด‰ ๊ฐœ์‹œ๋ฅผ ์•Œ๋ ค์ฃผ๊ณ , ์ด‰๊ฐ ์ด๋ฏธ์ง€์™€ ์••๋ ฅ์€ ์ •๋ ฌ ๋ฐ ์‚ฝ์ž… ์ค‘์˜ ๋ฏธ์„ธํ•œ ํž˜ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ž˜ ๋ผ์›Œ์ง€๊ณ  ์žˆ๋Š”์ง€ ํ”ผ๋“œ๋ฐฑํ•ด์ค€ ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฌ๋Ÿฌ ์‹ ํ˜ธ๋ฅผ ์ข…ํ•ฉํ•ด์•ผ ์ข์€ ๊ณต์ฐจ์˜ ์‚ฝ์ž… ์ž‘์—…์„ ์„ฑ๊ณต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š”๋ฐ, Sparsh-X๋Š” ๊ทธ๋Ÿฌํ•œ ์ด‰๊ฐ ์ƒํ˜ธ๋ณด์™„ ์‹ ํ˜ธ๋“ค์„ ์ž ์žฌ๊ณต๊ฐ„์—์„œ ์ž˜ ์œตํ•ฉํ•ด์ฃผ์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

ํ•œํŽธ ํฅ๋ฏธ๋กœ์šด ๊ด€์ฐฐ๋กœ, ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ์ผ ๋ชจ๋‹ฌ์˜ ๊ฒฝ์šฐ end-to-end๋กœ ํ•ด๋‹น ์ž‘์—…์— ํŠนํ™”ํ•ด ํ•™์Šตํ•œ ์ธ์ฝ”๋”๊ฐ€ ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋†’์•˜๋‹ค. ์œ„ ๊ทธ๋ž˜ํ”„์˜ ์„ธ ๋ฒˆ์งธ ๊ทธ๋ฃน์—์„œ ํšŒ์ƒ‰๋ง‰๋Œ€(E2E ์ด๋ฏธ์ง€)๊ฐ€ ๋ณด๋ผ๋ง‰๋Œ€(Sparsh-X ์ด๋ฏธ์ง€)๋ณด๋‹ค ๋†’์Œ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ์ด‰๊ฐ ์ด๋ฏธ์ง€ ์‹ ํ˜ธ๋Š” ์‹คํ—˜ ์กฐ๊ฑด์—์„œ ๋ณ€ํ™”๊ฐ€ ์ž‘๊ธฐ ๋•Œ๋ฌธ์—, ํŠน์ • ํ™˜๊ฒฝ์— ์ตœ์ ํ™”๋œ ์ „์šฉ ์ธ์ฝ”๋”๊ฐ€ ๋ฏธ์„ธํ•œ ์ฐจ์ด๋ฅผ ๋” ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ์ €์ž๋“ค์€ ๋ถ„์„ํ–ˆ๋‹ค. ๋‹ค๋งŒ ์ด ๊ฒฝ์šฐ ๋ถ„ํฌ ๋‚ด(in-distribution) ํ‰๊ฐ€์ด๋ฏ€๋กœ, ๋ฒ”์šฉ์„ฑ ์ธก๋ฉด์—์„œ๋Š” Sparsh-X ํ‘œํ˜„์ด ๋” ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์— ๊ฒฌ๊ณ ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ๋˜ํ•œ Sparsh-X๋„ ๋” ๋ฐฉ๋Œ€ํ•œ ๋ฐ ์ดํ„ฐ๋กœ ํ•™์Šต๋˜๊ฑฐ๋‚˜ ํŒŒ์ธํŠœ๋‹์„ ๊ฑฐ์น˜๋ฉด ์„ฑ๋Šฅ์ด ๊ฐœ์„ ๋  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค. ๊ฒฐ๊ตญ ๋ชจ๋“  ๋ชจ๋‹ฌ์„ ์กฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด ์ด๋Ÿฌํ•œ ๋‹จ์ผ๋ชจ๋‹ฌ ํ•œ๊ณ„๋ฅผ ์ƒ์‡„ํ•˜๋ฉฐ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‚ด์—ˆ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ์ด๋‹ค. ์†๋ชฉ ์นด๋ฉ”๋ผ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ์‹œ๊ฐ์ ์ธ ๋ชจํ˜ธ์„ฑ(visual aliasing) ๋ฌธ์ œ๋กœ ์‹คํŒจ๊ฐ€ ์žฆ์•˜๋Š”๋ฐ, ์ด๋Š” ์นด๋ฉ”๋ผ ๊ฐ๋„๊ฐ€ ์ œํ•œ์ ์ด๋ผ ํ”Œ๋Ÿฌ๊ทธ ํ•€์ด ์†Œ์ผ“ ๊ตฌ๋ฉ ๋ฐ”๋กœ ์œ„์— ์žˆ์ง€ ์•Š์•„๋„ ๊ทธ๋ ‡๊ฒŒ ๋ณด์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ์ด‰๊ฐ์ด ์—†์œผ๋ฉด ์ž˜๋ชป ์ •๋ ฌ๋œ ์ฑ„๋กœ ํž˜์„ ์ฃผ์–ด ๋ฐ€์–ด ์‹คํŒจํ•˜์ง€๋งŒ, ์ด‰๊ฐ์ด ์žˆ์œผ๋ฉด ์•ˆ ๋งž๋Š” ์ ‘์ด‰์„ ์ฆ‰์‹œ ๊ฐ์ง€ํ•˜๊ณ  ๋ฏธ์„ธํ•˜๊ฒŒ ์กฐ์ •ํ•จ์œผ๋กœ์จ ์„ฑ๊ณต ํ™•๋ฅ ์ด ํฌ๊ฒŒ ๋†’์•„์กŒ๋‹ค.

  1. ์†์•ˆ์˜ ๋ฌผ์ฒด ํšŒ์ „ โ€“ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ •์ฑ…์˜ ์ด‰๊ฐ ์ ์‘ (In-hand Rotation with Sim-to-real Tactile Adaptation): ๋‘ ๋ฒˆ์งธ ์‹คํ—˜์€, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šต๋œ dexterous ์กฐ์ž‘ ์ •์ฑ…์— ํ˜„์‹ค์˜ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋‹ค. ํ˜„์‹ค์—์„œ ๋‹ค์ง€ ์†์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ๋Œ๋ฆฌ๋Š” ์ž‘์—…์€ ์–ด๋ ค์›Œ์„œ, ๋ณดํ†ต ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ privileged information(๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ pose, ์งˆ๋Ÿ‰, ๋งˆ์ฐฐ ๋“ฑ)์— ์ ‘๊ทผํ•ด ์ •์ฑ…์„ ๋จผ์ € ํ•™์Šตํ•˜๊ณ , ์ด๋ฅผ ํ˜„์‹ค๋กœ ์ด์ „ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์“ฐ์ธ๋‹ค. ํ•˜์ง€๋งŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‚ฌ์šฉํ•œ ์ด๋Ÿฌํ•œ ์ •๋ณด๋“ค์€ ํ˜„์‹ค์—์„œ๋Š” ์ง์ ‘ ์–ป์„ ์ˆ˜ ์—†๋Š”๋ฐ, ์ด‰๊ฐ์€ ๊ทธ ๋Œ€์ฒด์žฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ์ €์ž๋“ค์€ โ€œํ˜„์‹ค์—์„œ ๋” ํ’๋ถ€ํ•œ ์„ผ์‹ฑ(์ด‰๊ฐ)์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค๋ฉด, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ •์ฑ…์„ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€๋ผ๋Š” ์งˆ๋ฌธ์„ ๋˜์กŒ๋‹ค. ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, Hora๋ผ๋Š” ์ด๋ฆ„์˜ ๊ธฐ์กด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต ์ •์ฑ…์„ ํ™œ์šฉํ–ˆ๋‹ค. Hora๋Š” ๊ด€์ ˆ ์œ„์น˜ ๋“ฑ ๊ณ ์œ ๊ฐ๊ฐ(proprioception)๋งŒ์œผ๋กœ ์ปต ๋ชจ์–‘ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ ์—์„œ z์ถ• ํšŒ์ „์‹œํ‚ค๋Š” ์ •์ฑ…์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๋น ๋ฅธ ๋ชจํ„ฐ ์ ์‘ ๊ธฐ๋ฒ•์œผ๋กœ ํ•™์Šต๋œ ๊ฒƒ์ด๋‹ค. ํ•™์Šต ๋‹น์‹œ Hora๋Š” ๋ฌผ์ฒด์˜ ๋ฌด๊ฒŒ, ๋งˆ์ฐฐ๊ณ„์ˆ˜, ์ ‘์ด‰์ง€์  ์œ„์น˜ ๋“ฑ ๋‹ค์–‘ํ•œ privileged ์ •๋ณด๋ฅผ ํ™œ์šฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ํ˜„์‹ค๋ณด๋‹ค ์œ ๋ฆฌํ•œ ์กฐ๊ฑด์ด์—ˆ๋‹ค. ํ˜„์‹ค๋กœ ๊ฐ€์ ธ์˜ค๋ฉด ์ด๋Ÿฌํ•œ ์ •๋ณด ์—†์ด ์˜ค์ง ๊ด€์ ˆ ์ƒํƒœ๋งŒ์œผ๋กœ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•ด์„œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋œ๋‹ค. ์ €์ž๋“ค์€ Sparsh-X ์ด‰๊ฐ ํ‘œํ˜„์„ Hora ์ •์ฑ…์— ์ถ”๊ฐ€๋กœ ๊ณต๊ธ‰ํ•˜์—ฌ, ๋งˆ์น˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋•Œ์˜ privileged ์ •๋ณด๋ฅผ ์ผ๋ถ€ ๋ณด์™„ํ•ด์ฃผ๋Š” ์ด‰๊ฐ ์ ์‘(tactile adaptation)์„ ์‹œ๋„ํ–ˆ๋‹ค.
  2. ์ ์‘ ๊ธฐ๋ฒ•(ControlNet ํ™œ์šฉ): ๋ฒ ์ด์Šค ์ •์ฑ…์ธ Hora๋ฅผ ๋ณด์กดํ•˜๋ฉด์„œ ์ƒˆ๋กœ์šด ์ด‰๊ฐ ์ž…๋ ฅ์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด, ControlNet์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ControlNet์€ ์›๋ž˜ ์ด๋ฏธ์ง€์ƒ์„ฑ ๋“ฑ์—์„œ ์ถ”๊ฐ€ ์กฐ๊ฑด์„ ์ฃผ์ž…ํ•  ๋•Œ ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ•์ธ๋ฐ, ํ•ต์‹ฌ์€ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •ํ•˜๊ณ  ๋ณ‘๋ ฌ์ ์ธ ๊ฒฝ๋กœ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ž…๋ ฅ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ 0์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ฒฐํ•˜์—ฌ, ํ•™์Šต ์ดˆ๊ธฐ์— ๊ธฐ์กด ๋ชจ๋ธ ์ถœ๋ ฅ์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋‹ค๊ฐ€ ์ ์ง„์ ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋ฉฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋„๋ก ํ•œ๋‹ค. ์ด๋ฅผ ์ •์ฑ… ํ•™์Šต์— ์‘์šฉํ•˜์—ฌ, Hora ์ •์ฑ…๋ง์€ ๊ทธ๋Œ€๋กœ ๋‘๊ณ  ๋ณ„๋„์˜ ์ด‰๊ฐ ์ ์‘ ๋ชจ๋“ˆ์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์ด๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, Sparsh-X ์ธ์ฝ”๋”๋Š” ์–‘์†๊ฐ€๋ฝ(Allegro ์†์˜ 4๊ฐœ ์†๊ฐ€๋ฝ)์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ํ‘œํ˜„์„ ์ถœ๋ ฅํ•˜๊ณ , ์ตœ๊ทผ 1.5์ดˆ๊ฐ„์˜ ์‹œ๊ณ„์—ด์„ ์ผ์ • ๊ธธ์ด๋กœ ๋ฌถ์–ด Conv ๊ธฐ๋ฐ˜ temporal encoder๋ฅผ ํ†ต๊ณผ์‹œํ‚จ๋‹ค. ์ด ์ถœ๋ ฅ์ด ControlNet์„ ํ†ตํ•ด Hora ์ •์ฑ…์˜ ์ค‘๊ฐ„์ธต์— ํ•ฉ์ณ์ ธ, ์ตœ์ข…์ ์œผ๋กœ ์†๊ฐ€๋ฝ ๋ชจํ„ฐ ๋ช…๋ น์„ ์ƒ์„ฑํ•œ๋‹ค. ํ•™์Šต์€ ์‹ค์ œ ๋กœ๋ด‡์—์„œ Hora ์ •์ฑ…์„ ์‹คํ–‰ํ•˜๋ฉฐ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์šฐ์„  Hora ๊ธฐ๋ณธ ์ •์ฑ…์„ ์ด์šฉํ•ด ํ˜„์‹ค์—์„œ ์—ฌ๋Ÿฌ ์‹œ๋„๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ , ๊ทธ ์ค‘ 30์ดˆ ์ด์ƒ ๋ฌผ์ฒด๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ํšŒ์ „์‹œํ‚จ 50๊ฐœ์˜ ์„ฑ๊ณต ํŠธ๋ผ์ ํ† ๋ฆฌ๋ฅผ ์„ ๋ณ„ํ–ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ControlNet ๊ฒฝ๋กœ์˜ ๊ฐ€์ค‘์น˜๋งŒ์„ ํ•™์Šต์‹œ์ผœ (Hora์˜ ์›๋ž˜ ๊ฒฝ๋กœ ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •) ์‹ค์ œ ๊ด€์ ˆ ์ƒํƒœ(joint angles)์™€ Hora+ControlNet ์ถœ๋ ฅ ํ–‰๋™(target action) ๊ฐ„ L2 ์˜ค์ฐจ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ผ์ข…์˜ ํ–‰๋™ ๋ชจ๋ฐฉ์ด์ง€๋งŒ, ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์ด์šฉํ•ด Hora ์ •์ฑ…์ด ๋‚ด๋Š” ๋ช…๋ น์„ ๋ณด์ •ํ•˜๋„๋ก ํ•™์Šต๋œ๋‹ค๋Š” ์ ์ด๋‹ค.
  3. ํ‰๊ฐ€ ์„ค์ •: ํ•™์Šต๋œ Hora+ControlNet(Sparsh-X) ์ •์ฑ…์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ๋ฌผ์ฒด ํšŒ์ „ ์•ˆ์ •์„ฑ์„ ์ธก์ •ํ–ˆ๋‹ค. ๋น„๊ต ๋Œ€์ƒ์€ ์›๋ณธ Hora (๋ฒ ์ด์Šค๋ผ์ธ), Hora์— Sparsh-X ์ด‰๊ฐ ์ถ”๊ฐ€ โ€“ end-to-end๋กœ ํ•จ๊ป˜ ํ•™์Šต(E2E), Hora๋ฅผ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ๋ฒ„์ „, ๊ด€์ ˆ+์‹œ๊ฐ ๋ชจ๋‹ฌ๋กœ imitation learningํ•œ ์ •์ฑ… ๋“ฑ์ด์—ˆ๋‹ค. ์„ฑ๋Šฅ ์ฒ™๋„๋กœ๋Š”, ๋ฌผ์ฒด๋ฅผ ํšŒ์ „์‹œํ‚ค๋Š” ๋™์•ˆ ๋ฌผ์ฒด๊ฐ€ ์†์—์„œ ๋ฏธ๋„๋Ÿฌ์ ธ ๋‚ด๋ ค๊ฐ€๋Š” ์ •๋„(Vertical drift)์™€ ๋ฌผ์ฒด ๋ฅผ ๋–จ์–ด๋œจ๋ฆฌ๊ธฐ๊นŒ์ง€ ๋ฒ„ํ‹ด ์‹œ๊ฐ„(Time-to-fall)๋ฅผ ์Ÿ€๋‹ค. ๊ฐ ์ •์ฑ…๋ณ„๋กœ ์ตœ๋Œ€ 60์ดˆ ์—ํ”ผ์†Œ๋“œ๋ฅผ 10ํšŒ ๋ฐ˜๋ณตํ•ด ํ‰๊ท ์„ ๊ตฌํ–ˆ๋‹ค. ๋˜ํ•œ ๋ฌผ์ฒด์˜ ๋งˆ์ฐฐ ๊ฐ์†Œ, ๋ฌผ์ฒด ์งˆ๋Ÿ‰ ์ฆ๊ฐ€ ๋“ฑ์˜ ๋ฌผ์ฒด ๋ฌผ์„ฑ ๋ณ€ํ™” ์ƒํ™ฉ์—์„œ๋„ ๋™์ผํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜์—ฌ ๊ฒฌ๊ณ ์„ฑ์„ ์‚ดํˆ๋‹ค.

๊ฒฐ๊ณผ: Hora+ControlNet(Sparsh-X) ์ •์ฑ…์€ ๊ธฐ์กด Hora ๋Œ€๋น„ ์›”๋“ฑํžˆ ์•ˆ์ •์ ์ด์—ˆ๋‹ค. ๊ธฐ๋ณธ ๋ฌผ์ฒด ๋ฌผ์„ฑ ์กฐ๊ฑด์—์„œ, Sparsh-X ์ด‰๊ฐ์„ ๋„ฃ์–ด์ค€ ๊ฒฝ์šฐ ๋ฌผ์ฒด์˜ ์ˆ˜์ง ๋ณ€์œ„(๋ฏธ๋„๋Ÿฌ์ง ๋†’์ด)๊ฐ€ 90% ๊ฐ์†Œํ–ˆ๊ณ , ์ด๋Š” Hora ํŒŒ์ธํŠœ๋‹์ด๋‚˜ End-toEnd ์ด‰๊ฐ ํ†ตํ•ฉ๋ณด๋‹ค๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์ด์—ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์›๋ณธ Hora๋Š” ๋ฌผ์ฒด๊ฐ€ ์ˆ˜์ดˆ ๋‚ด์— ์†๋ฐ”๋‹ฅ ์ชฝ์œผ๋กœ ๋ฏธ๋„๋Ÿฌ์ ธ ๋ช‡ cm ์ด๋™ํ–ˆ์ง€๋งŒ, Sparsh-X ์ด‰๊ฐํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์œผ๋ฉด ๊ฑฐ์˜ ๋ฏธ๋„๋Ÿฌ์ง์ด ๋ฐœ์ƒํ•˜์ง€ ์•Š์•„ ํšŒ์ „ ๋‚ด๋‚ด ์•ˆ์ •์ ์œผ๋กœ ์žก๊ณ  ์žˆ์—ˆ๋‹ค. Time-to-fall๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์–ด, Sparsh-X ์ •์ฑ…์€ 60์ดˆ ๋‚ด๋‚ด ๋ฌผ์ฒด๋ฅผ ๋–จ์–ด๋œจ๋ฆฌ์ง€ ์•Š๋Š” ๋น„์œจ์ด ๋†’์•˜๋‹ค. ๋ฐ˜๋ฉด imitation learning์œผ๋กœ ์ด‰๊ฐ ์—†์ด ํ•™์Šตํ•œ ์ •์ฑ…(๊ด€์ ˆ ๋ฐ์ดํ„ฐ -> ํ–‰๋™ ๋ฐ”๋กœ ๋งคํ•‘)์€ ๊ธˆ๋ฐฉ ๋ถˆ์•ˆ์ • ์ƒํƒœ์— ๋น ์ ธ ํ‰๊ท  ์œ ์ง€์‹œ๊ฐ„์ด ๊ฐ€์žฅ ๋‚ฎ์•˜๋‹ค. ์ด๋Š” ๋‹จ์ˆœ ์‹œ๋„-์˜ค์ฐจ ๋งŒ์œผ๋กœ๋Š” ํ•™์Šต์ด ์–ด๋ ค์šด ๋ณต์žกํ•œ ์ ์‘์„, ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์ด ์žˆ์–ด์•ผ ์ œ๋Œ€๋กœ ํ•ด๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ๋˜ํ•œ Hora ํŒŒ์ธํŠœ๋‹ ์—ญ์‹œ Sparsh-X์— ๋ชป ๋ฏธ์ณค๋Š”๋ฐ, ์ด๋Š” ์ข‹์€ ์‹œ์—ฐ๋งŒ์œผ๋กœ๋Š” ์„ผ์„œ ์ •๋ณด ๋ถ€์กฑ์„ ๋ฉ”๊พธ๊ธฐ ์–ด๋ ต๊ณ , ์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์ด ์žˆ์–ด์•ผ ์„ฑ๋Šฅ ๊ฐœ์„ ์— ํ•œ๊ณ„๊ฐ€ ์—†์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

๋”์šฑ ํฅ๋ฏธ๋กœ์šด ๋ถ€๋ถ„์€ ๋ฌผ์ฒด ๋ฌผ๋ฆฌ ํŠน์„ฑ์ด ๋ณ€ํ–ˆ์„ ๋•Œ์˜ ์„ฑ๋Šฅ ๋น„๊ต๋‹ค. ๋จผ์ €, ๋งˆ์ฐฐ ๊ณ„์ˆ˜๋ฅผ ๋‚ฎ์ถ˜(๋ฏธ๋„๋Ÿฌ์šด) ๋ฌผ์ฒด์˜ ๊ฒฝ์šฐ, Sparsh-X ์ด‰๊ฐ์„ ์‚ฌ์šฉํ•˜๋Š” ์ •์ฑ…๋งŒ์ด ๊ฑฐ์˜ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์•ˆ์ •์ ์œผ๋กœ ํšŒ์ „์„ ์ง€์†ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ๋ฐ˜๋ฉด Sparsh-X ์ค‘ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋ชจ๋‹ฌ๋งŒ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ(์ฆ‰ Sparsh-X(Image))๋Š” ์–ด๋ ค์›€์„ ๊ฒช์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋งˆ์ฐฐ ๊ฐ์†Œ๋กœ ์ธํ•œ ์ ‘์ด‰ ํŒจ์น˜์˜ ๋ณ€ํ™”๊ฐ€ ๋ฏธ๋ฌ˜ํ•ด์„œ ์ด๋ฏธ์ง€๋กœ๋งŒ์€ ๊ฐ์ง€ํ•˜๊ธฐ ํž˜๋“ค์—ˆ๋˜ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. Sparsh-X ์ „์ฒด ๋ชจ๋‹ฌ์—์„œ๋Š” ์˜ค๋””์˜ค/IMU/์••๋ ฅ ๋“ฑ์ด ํ•ฉ์ณ์ ธ ์ด๋Ÿฐ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ์—ˆ๊ธฐ์— ์—ฌ์ „ํžˆ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜์ง€ ์•Š์•˜๋‹ค. ๋‹ค์Œ์œผ๋กœ ๋ฌผ์ฒด ์งˆ๋Ÿ‰์„ 20g ์ฆ๊ฐ€์‹œ์ผœ ๋ฌด๊ฒ๊ฒŒ ๋งŒ๋“  ๊ฒฝ์šฐ์—๋Š”, Sparsh-X ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๊ณผ Sparsh-X ์ด๋ฏธ์ง€ ๋ชจ๋‘ ๊ธฐ๋ณธ Hora๋ณด๋‹ค ๊ฐœ์„ ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋ฌด๊ฒŒ๊ฐ€ ๋ฌด๊ฑฐ์›Œ์ง€๋ฉด ์›๋ž˜ Hora ์ •์ฑ…์€ ์ด๋ฅผ ๋ชจ๋ฅธ ์ฑ„ ๊ธฐ์กด ํŒจํ„ด๋Œ€๋กœ ์›€์ง์ด๋‹ค๊ฐ€ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜์ง€๋งŒ, Sparsh-X ํ‘œํ˜„์ด ๋ฌผ์ฒด๊ฐ€ ๋ฌด๊ฑฐ์›Œ์กŒ์Œ์„ ์ด‰๊ฐ์••/์ด๋ฏธ์ง€ ๋“ฑ์œผ๋กœ ๊ฐ์ง€ํ•˜์—ฌ, ๋งˆ์น˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์•Œ๋ ค์ฃผ๋˜ ๋ฌผ์ฒด์งˆ๋Ÿ‰ ์ •๋ณด๋ฅผ ๋Œ€์ฒดํ•ด์ค€ ์…ˆ์ด ๋œ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์†๊ฐ€๋ฝ ์›€์ง์ž„์„ ์ข€ ๋” ๋„“๊ฒŒ (finger gaiting) ์กฐ์ ˆํ•˜์—ฌ ๋ฌด๊ฑฐ์›Œ์ง„ ๋ฌผ์ฒด๋„ ๋–จ์–ด๋œจ๋ฆฌ์ง€ ์•Š๊ณ  ํšŒ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์š”์ปจ๋Œ€, Sparsh-X ์ด‰๊ฐ ํ‘œํ˜„์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ privileged ์ •๋ณด์— ์ƒ์‘ํ•˜๋Š” ์—ญํ• ์„ ํ•˜์—ฌ ์ •์ฑ…์˜ ์ ์‘๋ ฅ์„ ๋†’์˜€๋‹ค๋Š” ๊ฒƒ์ด ํ•ต ์‹ฌ ๊ฒฐ๋ก ์ด๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, ์‹œ๋ฎฌ๋ ˆ์ด์…˜โ†’ํ˜„์‹ค ์ •์ฑ… ์ด์ „ ์ƒํ™ฉ์—์„œ Sparsh-X๋Š” ์ด‰๊ฐ ์ ์‘ ๋ชจ๋“ˆ์„ ํ†ตํ•ด ํ˜„์‹ค ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ๋ถ€๊ฐ€์ •๋ณด์ฒ˜๋Ÿผ ํ™œ์šฉํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๊ธฐ์กด ์ •์ฑ…์˜ ์„ฑ๋Šฅ์„ ์ƒ๋‹นํžˆ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๊ฑฐ๋‚˜ ๋ฐ๋ชจ๋ฅผ ๋ชจ๋ฐฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํšจ๊ณผ์ ์ด์—ˆ์œผ๋ฉฐ, ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ์ž์ฒด๊ฐ€ ์ฃผ๋Š” ์ •๋ณด๋Ÿ‰์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅํ•œ ๊ฒƒ์œผ๋กœ ํ•ด์„๋œ๋‹ค. ํŠนํžˆ ์—ฌ๋Ÿฌ ๋ชจ๋‹ฌ์˜ ์ด‰๊ฐ์„ ๋ชจ๋‘ ํ™œ์šฉํ•ด์•ผ ๋ฏธ๋„๋Ÿฌ์›€, ๋ฌด๊ฒŒ ๋ณ€ํ™” ๋“ฑ ๋ฏธ์„ธํ•œ ์ ‘์ด‰ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ ์ ˆํžˆ ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ ์ค€ ์ ์ด ์ธ์ƒ์ ์ด๋‹ค.

Discussion

๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต์ด ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์— ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ์—ฌ๋Ÿฌ ๊ฐ๋„์—์„œ ์ž…์ฆํ•˜์˜€๋‹ค. ์ €์ž๋“ค์€ ์„œ๋‘์—์„œ ์ œ๊ธฐํ–ˆ๋˜ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‹ต์„ ์ œ์‹œํ•œ๋‹ค:

  • Q1: ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ด‰๊ฐ ํ‘œํ˜„์„ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์— ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•? โ€“ Sparsh-X์™€ ๊ฐ™์€ ์‚ฌ์ „ํ•™์Šต๋œ ์ด‰๊ฐ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋ฉด, ์ •์ฑ… ํ•™์Šต์˜ ์„ฑ๋Šฅ๊ณผ ๊ฒฌ๊ณ ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ํ™•์ธ๋˜์—ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋ชจ๋ฐฉ ํ•™์Šต๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ •์ฑ…์˜ ์ด‰๊ฐ ์ ์‘์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ์„ ํƒ์ƒ‰ํ–ˆ๋Š”๋ฐ, ๋ชจ๋ฐฉ ํ•™์Šต์€ ๋ฐ๋ชจ์— ๋‚ด์žฌ๋œ ํ’๋ถ€ํ•œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•˜๊ธฐ์— ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฐฉ๋ฒ•์ด๊ณ , ์ด‰๊ฐ ์ ์‘์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋‚˜ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋˜ ์ •๋ณด๋ฅผ ํ˜„์‹ค ์ด‰๊ฐ์œผ๋กœ ๋Œ€์ฒดํ•œ ๋‹ค๋Š” ์ ์—์„œ ์ƒˆ๋กœ์šด ์‹œ๋„๋ฅผ ๋ณด์—ฌ์คฌ๋‹ค. ๋‘ ๊ฒฝ์šฐ ๋ชจ๋‘ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…๊ณผ ๋ฌผ์ฒด ํšŒ์ „์ด๋ผ๋Š” ์ค‘์š” ์กฐ์ž‘ ์ž‘์—…์— ์ ์šฉ๋˜์–ด, ์ด‰๊ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์˜ ๋„์ž…์œผ๋กœ ์ •์ฑ… ์„ฑ๊ณต๋ฅ  63% ํ–ฅ์ƒ, ๋ฌผ์ฒด ์ƒํƒœ ๋ณต์›๋ ฅ 90% ํ–ฅ์ƒ ๋“ฑ์˜ ๊ตฌ์ฒด์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ํ•™์Šต์—์„œ ์ด‰๊ฐ ์ •๋ณด๊ฐ€ ์–ผ๋งˆ๋‚˜ ํฐ ๊ฐ€์น˜๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ฃผ๋Š” ๊ฐ•๋ ฅํ•œ ์ฆ๊ฑฐ๋‹ค. ํŠนํžˆ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ์ด์‹์—์„œ ์ด‰๊ฐ ์ ์‘์€, privileged ์ •๋ณด์˜ ๊ฒฉ์ฐจ๋ฅผ ์ƒ๋‹น ๋ถ€๋ถ„ ํ•ด์†Œํ•˜์—ฌ, ๊ธฐ์กด์˜ ๋ชจํ„ฐ ์ ์‘ ์ ‘๊ทผ๋ณด๋‹ค๋„ ํ˜„์‹ค์„ฑ ์žˆ๊ฒŒ ์ •์ฑ…์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  • Q2: Sparsh-X ํ‘œํ˜„์ด ํ•™์Šตํ•œ ์ด‰๊ฐ ์†์„ฑ์€ ๋ฌด์—‡์ธ๊ฐ€? โ€“ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ํ™•์ธํ•œ ๊ฒฐ๊ณผ, SparshX์˜ ์ž๊ธฐ ์ง€๋„ ํ‘œํ˜„์€ ๋ฌผ์ฒด ์‹๋ณ„, ํ–‰๋™ ์œ ํ˜•, ํ‘œ๋ฉด ์žฌ์งˆ, ๋‚ด์šฉ๋ฌผ ์–‘, ์ ‘์ด‰๋ ฅ ๋“ฑ ๋‹ค๋ฐฉ๋ฉด์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๊ณ  ์žˆ์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Sparsh-X ํ‘œํ˜„๋งŒ์œผ๋กœ๋„ ์–ด๋–ค ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ์–ด๋–ค ํ–‰๋™์„ ํ–ˆ๋Š”์ง€ 80~90% ์ •ํ™•๋„๋กœ ์•Œ์•„๋งžํž ์ˆ˜ ์žˆ์—ˆ๊ณ , ๋ฌผ ์†์— ๋“  ๊ฒƒ๊ณผ ๊ธฐ๋ฆ„์„ ๊ตฌ๋ถ„ํ•˜๊ฑฐ๋‚˜ ๋ณ‘์— ์ ˆ๋ฐ˜ ์ฑ„์› ๋Š”์ง€ ๊ฐ€๋“ ์ฑ„์› ๋Š”์ง€ ํŒŒ์•…ํ•˜๋Š” ๋“ฑ ์ •๊ตํ•œ ์ธ์‹ ๋Šฅ๋ ฅ์„ ๋ณด์˜€๋‹ค. ๋˜ํ•œ ์ผ๋ฐ˜์ ์œผ๋กœ ์ด‰๊ฐ ์—ฐ๊ตฌ์—์„œ ๋‹ค๋ฃจ๋Š” ํž˜ ์˜ˆ์ธก๋„ ์ˆ˜ํ–‰ํ•˜์—ฌ, ๊ธฐ์กด ๋‹จ์ผ ๋ชจ๋‹ฌ ๋ฐฉ์‹๋ณด๋‹ค ์˜ค์ฐจ๋ฅผ ํฌ๊ฒŒ ์ค„์˜€๋‹ค. ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ„ ๊ธฐ์—ฌ๋ฅผ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ์ด๋ฏธ์ง€+์˜ค๋””์˜ค+IMU+์••๋ ฅ์˜ ๋ชจ๋“  ์กฐํ•ฉ์ด ํ•ญ์ƒ ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ์ฃผ์—ˆ๊ณ , ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์„์ˆ˜๋ก ์‚ฌ์ „ํ•™์Šต์˜ ์ด๋“์ด ๋”์šฑ ๋ถ€๊ฐ๋˜์—ˆ๋‹ค. ์‚ฌ์ „ํ•™์Šต ์—†๋Š” ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋… ๋ชจ๋ธ ๋Œ€๋น„ ํ‰๊ท  48% ์ •ํ™•๋„ ํ–ฅ์ƒ์ด ์žˆ์—ˆ๋‹ค๋Š” ๊ฒฐ๊ณผ ๋Š” ๋ฉ€ํ‹ฐ์„ผ์„œ ์œตํ•ฉ๊ณผ ์‚ฌ์ „ํ•™์Šต์˜ ์œ„๋ ฅ์„ ๋‹จ ์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Ÿฌํ•œ ์ ๋“ค์„ ๋“ค์–ด, ์ €์ž๋“ค์€ Sparsh-X๊ฐ€ ์†๋ ์ˆ˜์ค€์˜ ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ์  ํŠน์ง•์„ ํฌ์ฐฉํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•˜์˜€๊ณ , ์ด๋ฅผ ์ ‘์ด‰ ์ƒํƒœ ํ”ผ๋“œ๋ฐฑ์„ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ง์ ‘ ์ œ๊ณตํ•˜๋Š” ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์œผ๋กœ์„œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋…ผํ•œ๋‹ค.

์˜์˜ ๋ฐ ์ฐจ๋ณ„์„ฑ: Sparsh-X๋Š” ์‚ฌ์ƒ ์ตœ์ดˆ๋กœ ์ด๋ฏธ์ง€, ์†Œ๋ฆฌ, ๋™์ž‘, ์••๋ ฅ์˜ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ๊ฐ์„ ํ•˜๋‚˜๋กœ ์œตํ•ฉํ•œ ํ‘œํ˜„ ํ•™์Šต ๋ชจ๋ธ์ด๋ผ๋Š” ์ ์—์„œ ํฐ ์˜์˜๋ฅผ ์ง€๋‹Œ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ํ•˜๋‚˜ ๋˜๋Š” ๋‘ ๊ฐœ ๋ชจ๋‹ฌ์— ๊ตญํ•œ๋˜์—ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ธ๊ฐ„ ์ด‰๊ฐ์˜ ๋‹ค๋ฉด์„ฑ์„ ๋กœ๋ด‡์— ๊ตฌํ˜„ํ•˜๋ ค๋Š” ํฌ๊ด„์ ์ธ ์‹œ๋„๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ Transformer+๋ณดํ‹€๋„ฅ ํ† ํฐ์ด๋ผ๋Š” ์„ธ๋ จ๋œ ์•„ํ‚คํ…์ฒ˜๋กœ ๊ณ„์‚ฐ ํšจ์œจ๊ณผ ํ‘œํ˜„๋ ฅ์„ ๋ชจ๋‘ ์žก์€ ์ , ๊ทธ๋ฆฌ๊ณ  ๋Œ€๊ทœ๋ชจ ์ž๊ธฐ์ง€๋„ ์‚ฌ์ „ํ•™์Šต์„ ํ†ตํ•ด ๋ผ๋ฒจ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•œ ์ ์€ ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‹ค. ๋˜ํ•œ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๊ณต๊ฐœํ•จ์œผ๋กœ์จ, ํ–ฅํ›„ ์ด ๋ถ„์•ผ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•œ ๊ฒƒ๋„ ์ค‘์š”ํ•œ ๊ณตํ—Œ์ด๋‹ค. ์‹คํ—˜์ ์œผ๋กœ๋„, ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์ œ์–ด ์‹คํ—˜๊ณผ ํ‘œํ˜„ ํ‰๊ฐ€ ์‹คํ—˜์„ ๋ชจ๋‘ ๋‹ค๋ฃจ์–ด ํ‘œํ˜„ ํ•™์Šต์ด ์‹ค์ œ ๋กœ๋ด‡ ์„ฑ๋Šฅ์—๊นŒ์ง€ ์ด์–ด์ง์„ ์ž…์ฆํ•˜์˜€๋‹ค. ์ด๋Š” ๋‹จ์ˆœํ•œ ํŠน์„ฑ ํ‰๊ฐ€์— ๊ทธ์น˜๋Š” ์—ฌ๋Ÿฌ ํ‘œํ˜„ ํ•™์Šต ์—ฐ๊ตฌ๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ๋ถ€๋ถ„์ด๋‹ค. ์˜ˆ์ปจ๋Œ€, Sparsh-X๋ฅผ ํ™œ์šฉํ•œ ์ •์ฑ…์€ ์‹œ๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ณ ๋‚œ๋„ ์ž‘์—…์„ ์„ฑ๊ณต์‹œ์ผœ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Ÿฌํ•œ ์„ฑ๊ณต ์‚ฌ๋ก€๋Š” โ€œ์ด‰๊ฐ์ด ๋กœ๋ด‡ ์กฐ์ž‘ ์— ํ•„์ˆ˜์ โ€์ด๋ผ๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ๊ฐ•ํ™”ํ•œ๋‹ค. ๋” ๋‚˜์•„๊ฐ€ foundation model for touch๋ผ๋Š” ํ‘œํ˜„์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ, ์ €์ž๋“ค์€ ์ด ์—ฐ๊ตฌ๊ฐ€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์‘์šฉ์— ์ผ๋ฐ˜์ ์œผ๋กœ ์“ฐ์ผ ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ์ด‰๊ฐ ๋ชจ๋ธ์˜ ์‹œ์ž‘์ ์ด ๋˜๊ธธ ๊ธฐ๋Œ€ํ•˜๊ณ  ์žˆ๋‹ค.

๊ณ ์ฐฐ: ๋ฌผ๋ก , Sparsh-X์—๋„ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๊ฐœ์„  ์ง€์ ์ด ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ์‹คํ—˜์—์„œ ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ, ํŠน์ • ์ด‰๊ฐ ๋ชจ๋‹ฌ(์ด๋ฏธ์ง€)๋งŒ์œผ๋กœ ์ „๋ฌธํ™”๋œ ํ•™์Šต์„ ํ•˜๋ฉด ๊ทธ ๊ณผ์ œ์— ํ•œํ•ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜๋„ ์žˆ์—ˆ๋‹ค. ์ด๋Š” Sparsh-X ํ‘œํ˜„์ด ๋ฒ”์šฉ์„ฑ ๋Œ€๊ฐ€๋กœ ํŠนํ™” ์„ฑ๋Šฅ์ด ์•ฝ๊ฐ„ ๋–จ์–ด์งˆ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฉ์ฐจ๋Š” ์‚ฌ์ „ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์ด๋‚˜ finetuning ๊ธฐ๋ฒ•์œผ๋กœ ๋ฉ”์šธ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ Sparsh-X๋Š” ํ˜„์žฌ Digit 360 ์„ผ์„œ์— ํŠนํ™”๋˜์–ด ์žˆ๋Š”๋ฐ, ๋‹ค๋ฅธ ์ด‰๊ฐ ์„ผ์„œ๋‚˜ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ๋„ ์ผ๋ฐ˜ํ™”๋˜๋Š”์ง€๋Š” ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Sparsh-X์˜ ๊ฐœ๋…์€ ์„ผ์„œ ์ข…๋ฅ˜์— ๋ฌด๊ด€ํ•˜๊ฒŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์ด๋ผ๋Š” ๋ณดํŽธ์„ฑ์„ ์ง€๋‹ˆ๋ฏ€๋กœ, ์„ผ์„œ-๋ถˆ๋ณ€์ ์ธ ์ด‰๊ฐ ํ‘œํ˜„(sensor-invariant tactile representation) ๋ฐฉํ–ฅ์œผ๋กœ๋„ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ €์ž๋“ค์ด ์ฐธ๊ณ ๋ฌธํ—Œ์—์„œ ์–ธ๊ธ‰ํ•œ ๋™์‹œ๋Œ€ ์—ฐ๊ตฌ๋“ค ์„ ๋ณด๋ฉด, ์—ฌ๋Ÿฌ ์„ผ์„œ๊ฐ„ transferableํ•œ ํ‘œํ˜„ ํ•™์Šต์ด๋‚˜ Sparsh-X์˜ ๋‹จ์ˆœํ™” ๋ฒ„์ „๋“ค๋„ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์–ด, ์ด ๋ถ„์•ผ๊ฐ€ ํ™œ๋ฐœํžˆ ์ „๊ฐœ๋˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

Conclusion

์š”์•ฝํ•˜๋ฉด, โ€œTactile Beyond Pixelsโ€ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ์œตํ•ฉ ํ‘œํ˜„ํ•™์Šต์— ๋Œ€ํ•œ ์„ ๊ตฌ์ ์ธ ์—ฐ๊ตฌ๋กœ์„œ, Sparsh-X๋ผ๋Š” ๊ฐ•๋ ฅํ•œ ์ด‰๊ฐ ๋ฐฑ๋ณธ ๋ชจ๋ธ์„ ์ œ์‹œํ•˜์˜€๋‹ค. ์ด ๋ชจ๋ธ์€ Digit 360 ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, IMU, ์••๋ ฅ ์‹ ํ˜ธ๋ฅผ Transformer๋ฅผ ํ†ตํ•ด ํšจ์œจ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ, ์†๋ ์ ‘์ด‰์˜ ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ํ•จ์ถ•ํ•œ ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค. ์ž๊ธฐ ์ง€๋„ ์‚ฌ์ „ํ•™์Šต ๋•๋ถ„์— ๋ผ๋ฒจ ์—†์ด๋„ ๊ฑฐ๋Œ€ํ•œ ์ ‘์ด‰ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šต๋˜์—ˆ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์—์„œ ๋›ฐ์–ด ๋‚œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์‹œํ˜„ํ–ˆ๋‹ค. ๋…ผ๋ฌธ์€ ์ •๊ตํ•œ ๋กœ๋ด‡ ์กฐ์ž‘(ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…)๊ณผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ •์ฑ…์˜ ํ˜„์‹ค ์ ์‘(๋ฌผ์ฒด ํšŒ์ „) ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ†ตํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ์˜ ์‹ค์ œ์  ๊ฐ€์น˜๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ๋™์‹œ์— ๋ฌผ์ฒด ์‹๋ณ„, ์žฌ์งˆ/์งˆ๋Ÿ‰ ํŒŒ์•…, ํž˜ ์ถ”์ • ๋“ฑ ์ด‰๊ฐ ์ธ์ง€ ์ธก๋ฉด์—์„œ๋„ Sparsh-X์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ•˜์˜€๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์€ ๋กœ๋ด‡์—๊ฒŒ ์ด‰๊ฐ์„ โ€œํ†ตํ•ฉ๋œ ๊ฐ๊ฐโ€์œผ๋กœ ๊ฐ€๋ฅด์น˜๋Š” ์ ‘๊ทผ์ด ํ˜„์‹คํ™”๋˜์—ˆ์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, ํ–ฅํ›„ ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์™€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅ๋œ๋‹ค๋ฉด ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๋ฒ”์šฉ ์ง€๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ํฌ๊ฒŒ ๊ธฐ ์—ฌํ•  ๊ฒƒ์œผ๋กœ ์ „๋ง๋œ๋‹ค. Touch ๋ถ„์•ผ์˜ Foundation Model ๊ฐœ๋…์€ ์•„์ง ์ดˆ๋ณด์ ์ด์ง€๋งŒ, Sparsh-X๋Š” ๊ทธ ์œ ๋ง์„ฑ์„ ์ฆ๋ช…ํ•œ ์ฒซ ๊ฑธ์Œ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ ์ธ๊ฐ„์ด ์ด‰๊ฐ์„ ํ†ตํ•ด ์–ป๋Š” ๋‹ค์ธต์  ์ •๋ณด๋ฅผ ๋กœ๋ด‡๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์™„์ „ ์ž์œจ์ ์ธ ์„ฌ์„ธํ•œ ๋กœ๋ด‡ ์† ์กฐ์ž‘์„ ํ–ฅํ•œ ์ค‘์š”ํ•œ ์ง„์ „์ด๋‹ค.

์ด๋ฒˆ ์—ฐ๊ตฌ๋กœ ์ธํ•ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ์„ผ์„œ์˜ ํ™œ์šฉ๊ณผ ๋Œ€๊ทœ๋ชจ ํ‘œํ˜„ ํ•™์Šต์˜ ๊ฒฐํ•ฉ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์ด ์ฃผ๋ชฉ๋ฐ›๊ฒŒ ๋˜์—ˆ๋‹ค. ์•ž์œผ๋กœ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ์ž๋“ค์ด Sparsh-X ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๊ฑฐ๋‚˜ ํ™•์žฅํ•˜์—ฌ, ๋”์šฑ ํ–ฅ์ƒ๋œ ์ด‰๊ฐ ์ง€๋Šฅ๊ณผ ๊ด‘๋ฒ”์œ„ํ•œ ๋กœ๋ด‡ ์‘์šฉ์„ ์‹คํ˜„ํ•ด ๋‚˜๊ฐˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค. ๋‚˜์•„๊ฐ€ ์‹œ๊ฐ, ์ด‰๊ฐ, ์ฒญ๊ฐ์„ ๋ชจ๋‘ ํ†ตํ•ฉํ•œ ์ง„์ •ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ์ง€๊ฐ ์—ฐ๊ตฌ๋กœ๊นŒ์ง€ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฌ์„ธํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋กœ๋ด‡ ๊ฐœ๋ฐœ์— ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•  ๊ฒƒ์ด๋‹ค.

Limitations and Future Work

  • ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ์˜ ํ•œ๊ณ„: Sparsh-X์˜ ์‚ฌ์ „ํ•™์Šต์€ ๋‹จ์ผ ์œ ํ˜•์˜ ์„ผ์„œ(Digit 360)๋กœ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์— ๊ธฐ๋ฐ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์„ผ์„œ ์ž์ฒด์˜ ํŽธํ–ฅ์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋ชจ๋‹ฌ์˜ ๊ฒฝ์šฐ, ์‚ฌ์šฉ๋œ ์„ผ์„œ ์žฅ์น˜๋งˆ๋‹ค ๊ด‘ํ•™์  ํŠน์„ฑ์ด ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์ง€๋งŒ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์—์„œ๋Š” ๊ธฐ๊ธฐ ์ข…๋ฅ˜๊ฐ€ ์ œํ•œ์ ์ด๋ผ ๋‹ค์–‘์„ฑ์ด ๋‚ฎ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด๋Š” ํ•™์Šต๋œ ํ‘œํ˜„์˜ ๋ฒ”์šฉ์„ฑ์— ์ œ์•ฝ์„ ๊ฑธ ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์—ฌ๋Ÿฌ ์„ผ์„œ์™€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ๋” ๋ฐฉ๋Œ€ํ•œ ๋ฉ€ํ‹ฐ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์‚ฌ์ „ํ•™์Šต ํ•จ์œผ๋กœ์จ, ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๊ณต๋™ ๋…ธ๋ ฅ์ด ํ•„์š”ํ•˜๋‹ค.
  • ํ‘œํ˜„ ๋ฏธ์„ธ์กฐ์ •(fine-tuning) ๋ถ€์žฌ: ๋ณธ ์—ฐ๊ตฌ์˜ ์‹คํ—˜๋“ค์€ Sparsh-X ์ธ์ฝ”๋”๋ฅผ ํ•ญ์ƒ ๋™๊ฒฐ(frozen) ์ƒํƒœ๋กœ ๋‘๊ณ  ์ง„ํ–‰๋˜์—ˆ๋‹ค. ์ด๋Š” ์ˆœ์ˆ˜ํ•œ ์‚ฌ์ „ํ•™์Šต ํšจ๊ณผ๋ฅผ ๋ณด๊ธฐ ์œ„ํ•œ ์˜๋„์  ์„ค์ •์ด์ง€๋งŒ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋ณ„๋กœ ํ‘œํ˜„์„ ๋ฏธ์„ธ์กฐ์ •ํ–ˆ๋‹ค๋ฉด ์„ฑ๋Šฅ์ด ๋” ํ–ฅ์ƒ๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ํŠนํžˆ ์•ž์„œ ๋…ผ์˜๋œ ๋Œ€๋กœ, ํŠน์ • ์ด‰๊ฐ ๋ชจ๋‹ฌ์˜ ์‚ฌ์ „ํ•™์Šต ํ‘œํ˜„์€ ํ•œ์ •๋œ ๋ฐ์ดํ„ฐ ์ƒํ™ฉ์—์„œ๋Š” ํŠนํ™” ํ•™์Šต์— ๋ฐ€๋ฆด ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๊ณผ์ œ๋ณ„ ์ถ”๊ฐ€ ํ•™์Šต์ด๋‚˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋“ฑ์„ ํ†ตํ•ด ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” Sparsh-X๋ฅผ end-to-end๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด์„œ๋„ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š” ๊ธฐ๋ฒ•, ๋˜๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋งˆ๋‹ค ์ ์ ˆํ•œ ๊ฐ€์ค‘์น˜ ์กฐ์ •์„ ํ•˜๋Š” ๋ฐฉํ–ฅ ๋“ฑ์ด ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ๋‹ค.
  • ํž˜ ์„ผ์‹ฑ ๋ฒ”์œ„์˜ ์ œํ•œ: ๋…ผ๋ฌธ์—์„œ๋Š” ์ •์ ์ธ ์ˆ˜์ง ๋ฐฉํ–ฅ ํž˜(normal force) ์ถ”์ •๋งŒ ๋‹ค๋ฃจ์—ˆ์œผ๋ฉฐ, ๊ทธ๊ฒƒ๋„ ๋‹จ์ˆœํ•œ ์ ‘์ด‰ ์กฐ๊ฑด(๊ตฌํ˜• ํ”„๋กœ๋ธŒ๋กœ ์ˆ˜์ง ๋ˆ„๋ฆ„)์— ๊ตญํ•œ๋˜์—ˆ๋‹ค. ์‹ค์ œ ํ˜„์žฅ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ๊ธฐํ•˜(geometry)๋‚˜ ๋ณต์ˆ˜ ์ ‘์ด‰ ์ง€์  ๋™์‹œ ๋ฐœ์ƒ ๋“ฑ์ด ํ”ํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ๋กœ Sparsh-X๋ฅผ ํ‰๊ฐ€ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ํŠนํžˆ ์ „๋‹จ๋ ฅ(shear force) ์ถ”์ •์€ ์ด๋ฒˆ์— ์ œ์™ธ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ์ด‰๊ฐ์„ผ์„œ ๋‚ด๋ถ€์˜ ๋ณ€ํ˜•๊ณผ ์™ธ๋ ฅ์ด ๋’ค์„ž์—ฌ ๋ชจํ˜•ํ™”๊ฐ€ ๊นŒ๋‹ค๋กญ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ํ•œ๋‹ค. ํ–ฅํ›„์—๋Š” ๋‹ค์–‘ํ•œ ํ˜•์ƒ์˜ ์„ผ์„œ ์ ‘์ด‰์ด๋‚˜ ๋น„์ •ํ˜•์ ์ธ ํž˜ ํŒจํ„ด์— ๋Œ€ํ•ด์„œ๋„ Sparsh-X ํ‘œํ˜„์˜ ํ™œ์šฉ์„ ํ™•์žฅํ•˜๊ณ , ํ•„์š”ํ•˜๋‹ค๋ฉด ๋ฌผ๋ฆฌ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ง๊ณผ ํ•™์Šต์„ ์ ‘๋ชฉํ•˜์—ฌ ๋ณด๋‹ค ํ’๋ถ€ํ•œ ํž˜ ์ธ์ง€ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ ๋ฏธ๋„๋Ÿฌ์ง ๊ฒ€์ถœ์ด๋‚˜ ๋งˆ์ฐฐ๊ณ„์ˆ˜ ์ถ”์ • ๋“ฑ, ํ˜„์žฌ ๊ฒฐ๊ณผ์—์„œ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์ธ ์˜์—ญ๋“ค์„ ๋” ์ฒด๊ณ„์ ์œผ๋กœ ํŒŒ๊ณ ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
  • ๋ฒ”์šฉ์„ฑ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์˜ ํ™•์žฅ: Sparsh-X๋Š” ์ด‰๊ฐ์— ์ดˆ์ ์„ ๋งž์ท„์ง€๋งŒ, ์žฅ๊ธฐ์ ์œผ๋กœ ๋ณด๋ฉด ์‹œ๊ฐ, ์ด‰๊ฐ, ์ฒญ๊ฐ์„ ๋ชจ๋‘ ์•„์šฐ๋ฅด๋Š” ๋กœ๋ด‡ ๊ฐ๊ฐ ํ†ตํ•ฉ์ด ๋ชฉํ‘œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•  ๋•Œ, ๋ˆˆ(์นด๋ฉ”๋ผ)์œผ๋กœ ์ „๋ฐ˜์  ์ƒํ™ฉ์„ ๋ณด๊ณ , ์†๋(Digit 360)์œผ๋กœ ์„ธ๋ฐ€ํ•œ ์ ‘์ด‰์„ ๋А๋ผ๋ฉฐ, ๋งˆ์ดํฌ๋กœ ์†Œ๋ฆฌ๋„ ๋“ค์„ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „์‹ ์ (multimodal) ๊ฐ๊ฐ ํ†ตํ•ฉ์„ ํ•œ๊บผ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋„ ๊ตฌ์ƒ ๊ฐ€๋Šฅํ•˜๋‹ค. Sparsh-X์˜ ์„ฑ๊ณต์€ ์šฐ์„  ์ด‰๊ฐ ๋‚ด๋ถ€์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ์„ ๋ณด์—ฌ์ค€ ๊ฒƒ์ด์ง€๋งŒ, ๋‚˜์•„๊ฐ€ ์ด์งˆ์ ์ธ ์„ผ์„œ ๊ฐ„ ํ†ตํ•ฉ๊นŒ์ง€ ํฌ๊ด„ํ•˜๋ ค๋ฉด ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ์ด๋Š” ์ œํ•œ์ด๋ผ๊ธฐ๋ณด๋‹ค ๋ฐฉํ–ฅ์„ฑ์œผ๋กœ์„œ ์–ธ๊ธ‰ํ•  ๋ถ€๋ถ„์ด๋‹ค. ๋˜ํ•œ ๊ฒฝ๋Ÿ‰ํ™”๋‚˜ ์‹ค์‹œ๊ฐ„์„ฑ ์ธก๋ฉด์—์„œ, ํ˜„์žฌ ๋ชจ๋ธ์€ ํฌ๊ณ  ๋ฌด๊ฑฐ์šด๋ฐ ์ด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์••์ถ•ํ•˜๊ฑฐ๋‚˜ distillationํ•˜์—ฌ ์ž„๋ฒ ๋””๋“œ ์‹œ์Šคํ…œ์— ๋„ฃ๋Š” ์—ฐ๊ตฌ๋„ ํ–ฅํ›„ ์‹ค์šฉํ™”๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•  ๊ฒƒ์ด๋‹ค.

์œ„์˜ ๋…ผ์˜์™€ ํ•œ๊ณ„๋“ค์„ ์ข…ํ•ฉํ•˜๋ฉด, Sparsh-X ์—ฐ๊ตฌ๋Š” ๋ถ„๋ช…ํžˆ ํ˜์‹ ์ ์ด์ง€๋งŒ ๊ทธ ์™„์„ฑ๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ํ›„์† ์—ฐ๊ตฌ์˜ ์—ฌ์ง€๊ฐ€ ๋‚จ์•„ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ๋“ค์€ ์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์น˜๋ฅผ ํ›ผ์†ํ•˜๊ธฐ๋ณด๋‹ค๋Š” ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ถ„์•ผ๋ฅผ ๊ฐœ์ฒ™ํ–ˆ๋‹ค๋Š” ๊ธ์ •์  ์˜๋ฏธ๋กœ ํ•ด์„ํ•ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ์„ฑ๊ณผ๋Š” ๋กœ๋ด‡ ์ด‰๊ฐ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์˜ ์ค‘์š”์„ฑ์„ ํ™˜๊ธฐ์‹œ์ผฐ๊ณ , ์•ž์œผ๋กœ ๋” ์ •๊ตํ•œ ์ด‰๊ฐ ์ง€๋Šฅ์„ ํ–ฅํ•œ ๊ฒฝ์Ÿ๊ณผ ํ˜‘๋ ฅ์„ ๊ฐ€์†ํ™”ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

Copyright 2024, Jung Yeon Lee