Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • 1. ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๋‚ด์šฉ ์š”์•ฝ
    • 2. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ•œ๊ณ„ ๋ถ„์„
    • 3. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
    • 4. ์‹ค์ œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€

๐Ÿ“ƒTactile Beyond Pixel ๋ฆฌ๋ทฐ

tactile
digit360
multlimodal
Multisensory Touch Representations for Robot Manipulation
Published

August 19, 2025

  • Paper Link
  1. ๐Ÿ‘‰ ์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต ๋ชจ๋ธ์ธ Sparsh-X๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” Digit 360 ์„ผ์„œ์—์„œ ์–ป์€ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋ชจ์…˜, ์••๋ ฅ ๋“ฑ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ์–‘์ƒ์„ ์ž์ฒด ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ‘œํ˜„์œผ๋กœ ์œตํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ“š ์•ฝ 100๋งŒ ๊ฑด์˜ ์ ‘์ด‰ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ Sparsh-X๋Š” ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ๋ฐ ์ ‘์ด‰ ์—ญํ•™์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ด๋Ÿฌํ•œ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ์‹คํ—˜ ๊ฒฐ๊ณผ, Sparsh-X๋Š” ๋ชจ๋ฐฉ ํ•™์Šต ๋ฐ Sim-to-Real ์ด‰๊ฐ ์ ์‘์„ ํ†ตํ•ด ๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ 63% ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์ถ”์ • ์ •ํ™•๋„๋ฅผ ๊ธฐ์กด ๋ฐฉ์‹ ๋Œ€๋น„ 48% ๊ฐœ์„ ํ•˜์—ฌ ๊ฒฌ๊ณ ํ•œ ๋ฏธ์„ธ ์กฐ์ž‘ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Brief Review

์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ์ผ๋ฐ˜ ๋ชฉ์ ์˜ ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ํ‘œํ˜„(multisensory touch representations) ๋ชจ๋ธ์ธ Sparsh-X๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Sparsh-X๋Š” Digit 360 ์„ผ์„œ์—์„œ ์ˆ˜์ง‘๋œ ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋ชจ์…˜(IMU), ์••๋ ฅ์˜ ๋„ค ๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์•ฝ 100๋งŒ ๊ฑด์˜ ์ ‘์ด‰ ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋กœ ์ž๊ฐ€ ์ง€๋„ ํ•™์Šต(self-supervised learning)๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ„์ , ๊ณต๊ฐ„์  ์Šค์ผ€์ผ์˜ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ์ด‰๊ฐ ์‹ ํ˜ธ๋“ค์„ ๋‹จ์ผํ™”๋œ ํ‘œํ˜„์œผ๋กœ ์œตํ•ฉํ•˜์—ฌ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค.

Sparsh-X์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ transformer ๊ธฐ๋ฐ˜์˜ ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜์— ์žˆ์Šต๋‹ˆ๋‹ค(๊ทธ๋ฆผ 2 ์ฐธ์กฐ).

์ž…๋ ฅ ์‹ ํ˜ธ๋Š” ๋จผ์ € L_f๊ฐœ์˜ ๋ ˆ์ด์–ด(L_f = 8)์—์„œ ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„๋กœ ๋…๋ฆฝ์ ์ธ self-attention์„ ํ†ตํ•ด ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์ดํ›„ L_b๊ฐœ์˜ ๋ธ”๋ก(L_b = 4)์—์„œ๋Š” attention bottlenecks [35]๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ cross-modal ์ •๋ณด ํ๋ฆ„์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด B๊ฐœ์˜ bottleneck fusion tokens(B = 4)์ด ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ embedding์— ์—ฐ๊ฒฐ๋˜๋ฉฐ, ๊ฐ cross-modal ์—…๋ฐ์ดํŠธ ํ›„ fusion tokens๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ „๋ฐ˜์— ๊ฑธ์ณ ํ‰๊ท ํ™”๋˜์–ด ์ •๋ณด ๊ณต์œ ๋ฅผ ์ด‰์ง„ํ•ฉ๋‹ˆ๋‹ค. ์ด transformer ๋ ˆ์ด์–ด ์ˆ˜๋Š” L = L_f + L_b = 12๋กœ ์„ค์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ „์ฒ˜๋ฆฌ๋˜๊ณ  ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค:

  • Image: 30fps๋กœ ์ƒ˜ํ”Œ๋ง๋œ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ 5์˜ temporal stride๋กœ ์ฑ„๋„ ์ฐจ์›์— ๋”ฐ๋ผ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. hyper-fisheye ์ด๋ฏธ์ง€๋Š” 224x224x3 ํฌ๊ธฐ๋กœ ์ž๋ฅด๊ณ  ๋ฆฌ์‚ฌ์ด์ฆˆ๋˜๋ฉฐ, 16x16 ํฌ๊ธฐ์˜ ํŒจ์น˜(patch)๋กœ ๋ถ„ํ• ๋œ ํ›„ linear projection layer๋ฅผ ํ†ตํ•ด 768์ฐจ์›์˜ embedding์œผ๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • Audio: 48kHz๋กœ ์ƒ˜ํ”Œ๋ง๋œ ๋‘ ๊ฐœ์˜ ์ ‘์ด‰ ๋งˆ์ดํฌ์—์„œ ์–ป์€ 0.55์ดˆ์˜ ์˜ค๋””์˜ค ์‹ ํ˜ธ๋Š” 5ms Hamming window์™€ 2.5ms์˜ hop length๋กœ 128์ฑ„๋„์˜ log-mel spectogram์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๋‘ ๋งˆ์ดํฌ์˜ spectogram์ด ์—ฐ๊ฒฐ๋˜์–ด 224x256 ์˜ค๋””์˜ค ์ž…๋ ฅ์ด ๋˜๋ฉฐ, 16 ํฌ๊ธฐ์˜ ํŒจ์น˜๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • IMU (Accelerometer): 400Hz๋กœ ์ƒ˜ํ”Œ๋ง๋œ 3์ถ• ๊ฐ€์†๋„๊ณ„ ๋ฐ์ดํ„ฐ๋Š” 0.55์ดˆ ์ฐฝ์œผ๋กœ ํ†ตํ•ฉ๋˜์–ด 224x3 temporal signal๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  • Pressure: 200Hz๋กœ ์ƒ˜ํ”Œ๋ง๋œ ์••๋ ฅ ์‹ ํ˜ธ๋Š” 1.1์ดˆ ์ฐฝ์œผ๋กœ ํ†ตํ•ฉ๋˜์–ด 224x1 temporal signal๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.

Sparsh-X๋Š” ์ž๊ฐ€ ์ง€๋„ ํ•™์Šต์„ ์œ„ํ•ด teacher-student self-distillation ์ ‘๊ทผ ๋ฐฉ์‹ [40, 11]์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”์™€ ์˜ˆ์ธก ํ—ค๋“œ๋กœ ๊ตฌ์„ฑ๋œ ๋‘ ๋ธŒ๋žœ์น˜์—์„œ, ํ•™์ƒ ์ž…๋ ฅ ํ† ํฐ์— ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•˜๊ณ  (๋กœ์ปฌ ๋งˆ์Šคํฌ์˜ ๊ฒฝ์šฐ 10-50%, ์ „์—ญ ๋งˆ์Šคํฌ์˜ ๊ฒฝ์šฐ 50-100% ์‹ ํ˜ธ ์œ ์ง€), ๊ต์‚ฌ ํ† ํฐ์„ pseudo-label๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ๋ง ์˜ˆ์ธก ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ ํ™” ๋ชฉํ‘œ๋Š” ๊ต์‚ฌ์™€ ํ•™์ƒ ๋„คํŠธ์›Œํฌ์˜ softmax ์ถœ๋ ฅ ๊ฐ„ cross-entropy์ž…๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ์‹คํ—˜์€ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ์˜์—ญ์—์„œ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  1. ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์ถ”๋ก  (Inferring physical properties): ๊ฐ์ฒด-ํ–‰๋™-ํ‘œ๋ฉด ๋ถ„๋ฅ˜(object-action-surface classification), ์žฌ๋ฃŒ-์–‘ ์ถ”์ •(material-quantity estimation), ๋ฒ•์„ ๋ ฅ ์ถ”์ •(normal force estimation)๊ณผ ๊ฐ™์€ ์ง€๋„ ํ•™์Šต(supervised learning) ์ž‘์—…์„ ํ†ตํ•ด Sparsh-X ํ‘œํ˜„์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-X์˜ ์ธ์ฝ”๋” ๊ฐ€์ค‘์น˜๋Š” ๊ณ ์ •๋œ ์ƒํƒœ๋กœ task-specific attentive decoder๋ฅผ ํ›ˆ๋ จ์‹œ์ผœ ์ˆœ์ˆ˜ํ•˜๊ฒŒ ํ‘œํ˜„์˜ ํ’ˆ์งˆ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋‹จ๋… ์‚ฌ์šฉ ๋Œ€๋น„ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๊ฐ€ ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, end-to-end ๋ชจ๋ธ๋ณด๋‹ค ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  2. ์ •์ฑ… ํ•™์Šต์„ ์œ„ํ•œ Sparsh-X ํ†ตํ•ฉ (Sparsh-X for Policy Learning):
    • ๋ชจ๋ฐฉ ํ•™์Šต(Imitation Learning)์„ ํ†ตํ•œ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…: ๋กœ๋ด‡์ด Allegro hand์™€ Digit 360 ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ์†Œ์ผ“์— ์‚ฝ์ž…ํ•˜๋Š” ์ž‘์—…์—์„œ, Sparsh-X๋ฅผ ํ™œ์šฉํ•œ ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์ด ์ •์ฑ… ์„ฑ๊ณต๋ฅ ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์™ธ๋ถ€ ์‹œ๊ฐ ์ •๋ณด๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค 500%, ์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ ์‚ฌ์šฉํ•œ end-to-end ์ •์ฑ…๋ณด๋‹ค 63%์˜ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹ค์ œ ์„ธ๊ณ„๋กœ์˜ ์ด‰๊ฐ ์ ์‘(Sim-to-Real Tactile Adaptation)์„ ํ†ตํ•œ ์†์•ˆ ๊ฐ์ฒด ํšŒ์ „: Hora [51]์™€ ๊ฐ™์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ›ˆ๋ จ๋œ ๊ธฐ๋ณธ ์ •์ฑ… ์œ„์— ControlNet [52]์„ ํ™œ์šฉํ•˜์—ฌ ์ด‰๊ฐ ์ ์‘ ๋ชจ๋“ˆ์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ(์งˆ๋Ÿ‰, ๋งˆ์ฐฐ ๋“ฑ) ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ •์ฑ…์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์—ฌ ์ˆ˜์ง ํ‘œ๋ฅ˜(vertical drift)๋ฅผ 90% ๊ฐ์†Œ์‹œํ‚ค๊ณ , ๊ฐ์ฒด ์Šฌ๋ฆฝ์„ ์ค„์—ฌ ํšŒ์ „ ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

Sparsh-X๋Š” ๋‹ค์ค‘ ๊ฐ๊ฐ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ๋กœ๋ด‡ ์กฐ์ž‘์˜ ์ •๋ฐ€์„ฑ๊ณผ ๊ฒฌ๊ณ ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜๋ฉฐ, ์ด‰๊ฐ ์„ผ์‹ฑ ๋ถ„์•ผ์˜ foundation models ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ๋ฐœ๊ฑธ์Œ์„ ๋‚ด๋””๋Ž ์Šต๋‹ˆ๋‹ค.


Detail Review

1. ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๋‚ด์šฉ ์š”์•ฝ

Sparsh-X์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ‘œํ˜„ ์œตํ•ฉ ๊ตฌ์กฐ ์˜ˆ์‹œ. ์ด ๊ตฌ์กฐ๋Š” Digit 360 ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์ด‰๊ฐ ์ด๋ฏธ์ง€, ์ง„๋™(์˜ค๋””์˜ค), ๊ด€์„ฑ๋ชจ์…˜, ์••๋ ฅ ์‹ ํ˜ธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ๋ฐฑ๋ณธ์—์„œ ์ด๋“ค์„ ์œตํ•ฉํ•˜์—ฌ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ๋ฐ ์ ‘์ด‰ ์ƒํƒœ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ†ตํ•ฉ ํ‘œํ˜„์„ ํ•™์Šตํ•œ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” Meta/FAIR๊ฐ€ ๊ฐœ๋ฐœํ•œ ์ดˆ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์„ผ์„œ Digit 360์„ ํ™œ์šฉํ•˜์—ฌ 4๊ฐ€์ง€ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๊ด€์„ฑ, ์••๋ ฅ)๋ฅผ ํ†ตํ•ฉํ•˜๋Š” Sparsh-X๋ผ๋Š” ํ‘œํ˜„ ํ•™์Šต ๋ฐฑ๋ณธ์„ ์ œ์•ˆํ•œ๋‹ค. ์ €์ž๋“ค์€ ์•ฝ 100๋งŒ ๊ฑด์˜ ์ ‘์ด‰-์กฐ์ž‘ ๋ฐ์ดํ„ฐ(์‚ฝ์ž…, ๋ฏธ๋„๋Ÿผ, ๋‘๋“œ๋ฆผ, ํšŒ์ „ ๋“ฑ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ํ–‰๋™)๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์œผ๋กœ Sparsh-X๋ฅผ ์‚ฌ์ „ํ•™์Šต์‹œ์ผฐ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ํ‘œํ˜„์€ ๋ฌผ์ฒด์˜ ์งˆ๋Ÿ‰, ๋งˆ์ฐฐ, ํž˜ ๋“ฑ์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๋ฅผ ํฌํ•จํ•œ๋‹ค.

  • ์ œ์•ˆ ๋ฐฉ์‹: Sparsh-X๋Š” ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๋…๋ฆฝ์ ์ธ ํŠธ๋žœ์Šคํฌ๋จธ ๋ธ”๋ก์œผ๋กœ ์ธ์ฝ”๋”ฉํ•œ ํ›„, ๋ณ‘๋ชฉ(Bottleneck) ํ† ํฐ์„ ๋งค๊ฐœ๋กœ ํฌ๋กœ์Šค-๋ชจ๋‹ฌ ํ“จ์ „์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ฐ–๋Š”๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฟ ์•„๋‹ˆ๋ผ ์ดˆ์Œ์† ์ง„๋™์Œ, ๊ฐ€์†๋„/์ž์ด๋กœ ์„ผ์„œ ์ •๋ณด, ์••๋ ฅ ์‹ ํ˜ธ ๋“ฑ ์ด์งˆ์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ์ž ์žฌ ๊ณต๊ฐ„์— ํšจ๊ณผ์ ์œผ๋กœ ์œตํ•ฉํ•œ๋‹ค.
  • ๋ฐ์ดํ„ฐ: ์–‘ํŒ” ๋กœ๋ด‡ ์†๊ฐ€๋ฝ๊ณผ ์ˆ˜๋™ ์ง‘๊ฒŒ์— ์žฅ์ฐฉํ•œ Digit 360์œผ๋กœ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘ํ•œ ์•ฝ 1M์˜ ๋น„๋ผ๋ฒจ ์ ‘์ด‰ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ์ด ๋Œ€๊ทœ๋ชจ ๋ฌด๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์…‹์€ ํ–ฅํ›„ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ๋„ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
  • ์‹คํ—˜ ๊ณผ์ œ: ํ•™์Šต๋œ ํ‘œํ˜„์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์‹คํ—˜์— ์ ์šฉ๋˜์—ˆ๋‹ค.
    1. ํ‰๋‚ด ํ•™์Šต(imitation learning)์„ ํ†ตํ•œ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๊ณผ์ œ(Allegro ๋กœ๋ด‡ ์†์— ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ๊ฝ‚๋Š” ์ž‘์—…)์™€,
    2. ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ์ด‰๊ฐ ์ ์‘์„ ํ†ตํ•œ ์†์•ˆ ํšŒ์ „ ๊ณผ์ œ(์ปต ๋ชจ์–‘ ๋ฌผ์ฒด๋ฅผ ์† ์•ˆ์—์„œ ํšŒ์ „์‹œํ‚ค๋Š” ์ž‘์—…)์ด๋‹ค.
    • ๋˜ํ•œ ๋ฌผ๋ฆฌ์  ์†์„ฑ ์ถ”๋ก  ๊ณผ์ œ(๋ฌผ์ฒด-ํ–‰๋™ ๋ถ„๋ฅ˜, ์žฌ์งˆยท์งˆ๋Ÿ‰ยท์–‘ ์ถ”์ •, ๊ฐ€ํ•ด์ง„ ํž˜ ์ถ”์ • ๋“ฑ)๋„ ๋ณ‘ํ–‰ํ•˜์—ฌ ํ‰๊ฐ€ํ–ˆ๋‹ค.
  • ์ฃผ์š” ๊ฒฐ๊ณผ:
    • Sparsh-X๋ฅผ ํ™œ์šฉํ•œ ์ •์ฑ…์€ (a) ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ์ •๋ณด๋งŒ ์‚ฌ์šฉํ•œ ์ •์ฑ… ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ ์ด ์•ฝ 500%(์ฆ‰ 5๋ฐฐ) ๋†’๊ณ , (b) ์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ ๋‹จ๋…์œผ๋กœ ์‚ฌ์šฉํ•œ ์ข…๋‹จ๊ฐ„(end-to-end) ํ•™์Šต ๋Œ€๋น„ 63% ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค.
    • ํŠนํžˆ, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ์‹คํ—˜์—์„œ๋Š” Sparsh-X ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด 20ํšŒ ์‹œ๋„ ์ค‘ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋น„์ „ยท์ด‰๊ฐ ๋ฐฉ์‹ ๋Œ€๋น„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.
    • ์†์•ˆ ํšŒ์ „ ๊ณผ์ œ์—์„œ๋Š” Sparsh-X๋ฅผ ์ด์šฉํ•ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ›ˆ๋ จ๋œ ์ •์ฑ…์„ ์ ์‘์‹œํ‚จ ๊ฒฐ๊ณผ, ๋ฌผ์ฒด์˜ ์ˆ˜์ง ์ด๋™์ด ์•ฝ 90% ๊ฐ์†Œํ•˜๋Š” ๋“ฑ ์•ˆ์ •์„ฑ์ด ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ๋‹ค.
    • ๋ฌผ๋ฆฌ ์†์„ฑ ์ถ”๋ก ์—์„œ๋Š” Sparsh-X ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ด 48% ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•ด, ๊ธฐ์กด ์ข…๋‹จ ํ•™์Šต ๋ฐฉ์‹ ๋Œ€๋น„ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์ดํ•ด ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ๋ณด์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉด ํž˜ ์ถ”์ • ์˜ค์ฐจ๊ฐ€ ํ‰๊ท  35mN๋กœ ์ด‰๊ฐ ์˜์ƒ๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค 17% ๊ฐ์†Œํ–ˆ๋‹ค.

2. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ•œ๊ณ„ ๋ถ„์„

  • ํ†ตํ•ฉ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐฑ๋ณธ: ๋ณธ ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” Sparsh-X๋ผ๋Š” ์ตœ์ดˆ์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ‘œํ˜„ ๋ฐฑ๋ณธ์ด๋‹ค. ์ด์ „๊นŒ์ง€ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต์€ ๋Œ€๋ถ€๋ถ„ ๋‹จ์ผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์˜ˆ: GelSight๋ฅ˜ ์ด‰๊ฐ ์˜์ƒ)๋‚˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ๊ฐœ๋ณ„ ํ•™์Šต์— ๊ทธ์ณค๋‹ค. Sparsh-X๋Š” ๋„ค ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๋ณ‘๋ชฉ ๊ธฐ๋ฐ˜ ํŠธ๋žœ์Šคํฌ๋จธ๋กœ ์œตํ•ฉํ•จ์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์‹ ํ˜ธ ๊ฐ„์˜ ์ƒํ˜ธ ๋ณด์™„์  ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•œ๋‹ค. ํŠนํžˆ, ๋‹จ์ˆœ ํ† ํฐ ๋ณ‘ํ•ฉ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠธ๋žœ์Šคํฌ๋จธ(MULSA)๋ณด๋‹ค ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ํฌ๊ฒŒ ๋‚ฎ์ถ”๊ณ , ๋„ค ๊ฐ€์ง€ ์ž…๋ ฅ์„ ํ•˜๋‚˜์˜ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์••์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋Œ€๊ทœ๋ชจ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต: ์•ฝ 100๋งŒ ๊ฑด์˜ ์‹ค์ œ ์ ‘์ด‰ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ SSL(์ž๊ธฐ ์ง€๋„ ํ•™์Šต)์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋น„์šฉ ์—†์ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ์ด‰๊ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•˜์˜€๋‹ค. ์‚ฌ์ „ํ•™์Šต๋œ Sparsh-X ํ‘œํ˜„์€ downstream ํ•™์Šต ์‹œ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ ํฌ๊ฒŒ ๋†’์—ฌ, ์ ์€ ๋ ˆ์ด๋ธ” ์ƒ˜ํ”Œ๋กœ๋„ ์•ˆ์ •์ ์ธ ์ •์ฑ… ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
  • ์ •๋ฐ€ํ•œ ๋ฌผ๋ฆฌํŠน์„ฑ ํ•™์Šต: Sparsh-X๋Š” ๋ฌผ์ฒด์˜ ์งˆ๋Ÿ‰, ๋งˆ์ฐฐ๊ณ„์ˆ˜, ์ ์šฉ ํž˜ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ ์†์„ฑ์„ ํฌ์ฐฉํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์†์„ฑ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. ์‹ค์ œ๋กœ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋ฌผ์ฒด-ํ–‰๋™-๋ฉด ๋ถ„๋ฅ˜, ์žฌ์งˆยท์–‘ ์˜ˆ์ธก, ๊ฐ€ํ•ด์ง„ ํž˜ ์ถ”์ • ์‹คํ—˜์„ ํ†ตํ•ด Sparsh-X๊ฐ€ 48% ๋” ๋†’์€ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ž„์„ ํ™•์ธํ–ˆ๋‹ค. ๋˜ํ•œ ์ •์ƒ(normal) ํž˜ ์ถ”์ • ์‹คํ—˜์—์„œ ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๊ฒฐํ•ฉํ•  ๋•Œ ํ‰๊ท  ์˜ค์ฐจ๊ฐ€ 17% ๊ฐ์†Œํ•˜์—ฌ ํž˜ ์ถ”์ • ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.
  • ์ •์ฑ… ํ•™์Šต๊ณผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ ์‘: Sparsh-X ํ‘œํ˜„์€ ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ์ •์ฑ… ํ•™์Šต์—๋„ ์ ์šฉ๋˜์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๊ณผ์ œ์—์„œ ์ด๋ฏธ์ง€+์ด‰๊ฐ์˜ ์กฐํ•ฉ์œผ๋กœ ํ–‰๋™์„ ์˜ˆ์ธกํ•˜๋Š” ์ข…๋‹จ๊ฐ„ ๋ชจ๋ธ์— Sparsh-X๋ฅผ ์ถ”๊ฐ€ํ•˜์ž ์„ฑ๊ณต๋ฅ ์ด 63% ์ฆ๊ฐ€ํ–ˆ๋‹ค. ๋˜ํ•œ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ›ˆ๋ จ๋œ ์†์•ˆ ๋ฌผ์ฒด ํšŒ์ „ ์ •์ฑ…์— Sparsh-X ๊ธฐ๋ฐ˜์˜ ์ด‰๊ฐ ์ ์‘ ๋ชจ๋“ˆ(ControlNet)์„ ์ ์šฉํ•˜์ž ๋ฌผ์ฒด์˜ ๋ฏธ๋„๋Ÿฌ์ง์ด ํ˜„์ €ํžˆ ์ค„์–ด๋“ค์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์ˆ˜์ง ์ด๋™๋Ÿ‰ 90% ๊ฐ์†Œ ํšจ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ ํ‘œํ˜„์€ ์‹œ๋ฎฌ-์‹ค์ „ ์ „์ด(sim-to-real) ๋ฌธ์ œ ํ•ด๊ฒฐ์—๋„ ๊ธฐ์—ฌํ•จ์„ ๋ณด์˜€๋‹ค.
  • ํ•œ๊ณ„์ : ์ด ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ์„ผ์„œ ์ด‰๊ฐ์˜ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋‚˜ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•œ๊ณ„๋„ ์ง€์ ํ•œ๋‹ค. ์ฒซ์งธ, ํ˜„์žฌ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์€ Digit 360 ์„ผ์„œ๊ฐ€ ํฌํ•จ๋œ ํŠน์ • ํ”Œ๋žซํผ(์˜ˆ: Allegro ์†, ์ˆ˜๋™ ์ง‘๊ฒŒ)์—์„œ ์ˆ˜์ง‘๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด‰๊ฐ ์˜์ƒ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ๋‹ค์–‘์„ฑ์ด ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ๋‹ค. ์„ผ์„œ๋ณ„ ๊ด‘ํ•™์  ํŠน์„ฑ ์ฐจ์ด๋กœ ์ธํ•ด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์ œํ•œ๋  ์šฐ๋ ค๊ฐ€ ์žˆ๋‹ค. ๋‘˜์งธ, ๋ชจ๋“  ์‹คํ—˜์—์„œ Sparsh-X ํ‘œํ˜„์„ ๊ณ ์ •(frozen) ์ƒํƒœ๋กœ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋ณ„๋กœ ํŒŒ์ธํŠœ๋‹์„ ํ•˜์ง€ ์•Š์•˜๋‹ค. ์‹ค์ œ ์ ์šฉ ์‹œ ํŒŒ์ธํŠœ๋‹์„ ํ—ˆ์šฉํ•˜๋ฉด ๊ฐœ๋ณ„ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ๋”์šฑ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค. ์…‹์งธ, ํž˜ ์ถ”์ • ์‹คํ—˜์€ ์ •์ƒ ๋ฐฉํ–ฅ ํž˜์— ํ•œ์ •๋˜์—ˆ๊ณ , ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ๊ธฐํ•˜๋‚˜ ์ „๋‹จ๋ ฅ ์ถ”์ •์€ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๋‹ค. ์ „๋‹จ๋ ฅ์€ Digit 360 ๊ตฌ์กฐ(ํƒ„์„ฑ๋”) ๋•Œ๋ฌธ์— ๋ชจ๋ธ๋ง์ด ๋ณต์žกํ•˜๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋ณ„๋„ ๊ณ ๋ ค๋˜์ง€ ์•Š์•˜๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋Œ€์šฉ๋Ÿ‰ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ณ„์‚ฐ ์ž์›๊ณผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋…ธ๋ ฅ์ด ์ปค์„œ, ์‹ค์ œ๋กœ ์ ์šฉํ•˜๋Š” ๋ฐ ๋น„์šฉ ๋ถ€๋‹ด์ด ์žˆ๋‹ค.

3. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

  • ๊ธฐ์กด ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ์—ฐ๊ตฌ: ์ „ํ†ต์ ์œผ๋กœ ๋กœ๋ด‡ ์ด‰๊ฐ ์—ฐ๊ตฌ์—์„œ๋Š” GelSight, DIGIT ๋“ฑ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค. ์ด๋Ÿฐ ์„ผ์„œ๋Š” ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ์ œ๊ณตํ•ด ๋ฌผ์ฒด ํ˜•์ƒ, ํž˜, ๋งˆ์ฐฐ ๋“ฑ์„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€๋ถ€๋ถ„ ์ž‘์—…์€ ๋‹จ์ผ ์ด‰๊ฐ ์ด๋ฏธ์ง€์— ์˜์กดํ•˜๊ฑฐ๋‚˜, ์™ธ๋ถ€ ์นด๋ฉ”๋ผ์™€ ์—ฐ๊ณ„ํ•˜๋Š” ๋ฐฉ์‹์ด์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์–‘ํ•œ ์กฐ๋ฆฝ, ํ‘œ๋ฉด ์‹๋ณ„, ๊ฒฝ๋กœ ์ถ”์  ๊ณผ์ œ์—์„œ GelSight๋ฅ˜ ์„ผ์„œ๊ฐ€ ํ™œ์šฉ๋˜์—ˆ์ง€๋งŒ, ์˜์ƒ ์ด‰๊ฐ๋งŒ์œผ๋กœ๋Š” ์—ฐ์†์ ์ธ ์ ‘์ด‰ ๋™์ž‘์˜ ๋ฏธ์„ธํ•œ ๋ณ€ํ™”๋ฅผ ์™„์ „ํžˆ ํฌ์ฐฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.
  • ์˜ค๋””์˜ค ๋ฐ ๊ธฐํƒ€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ™œ์šฉ: ์ผ๋ถ€ ์—ฐ๊ตฌ์—์„œ๋Š” ์ ‘์ด‰ ์‹œ ๋ฐœ์ƒํ•˜๋Š” ์ง„๋™์Œ(์˜ค๋””์˜ค)์ด๋‚˜ ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ์˜์ƒ์„ ํ•จ๊ป˜ ์ด์šฉํ•˜์—ฌ ๋ฌผ์ฒด ํŠน์„ฑ์„ ์ถ”์ •ํ•˜๋ ค ํ–ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์ ‘์ด‰ ๋งˆ์ดํฌ๋ฅผ ์ด์šฉํ•ด ์žฌ์งˆ์„ ์‹๋ณ„ํ•˜๊ฑฐ๋‚˜, ์˜์ƒ-์˜ค๋””์˜ค ํ•ฉ์„ฑ ํ•™์Šต์„ ์‹œ๋„ํ•œ ๋ฐ” ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์˜ค๋””์˜ค ๋‹จ์ผ ๋ชจ๋‹ฌ๋กœ๋Š” ์ ‘์ด‰๊ณผ์ •์˜ ๋ณต์žกํ•œ ํž˜ยท๋ณ€ํ˜• ์ •๋ณด๋ฅผ ์˜จ์ „ํžˆ ์–ป๊ธฐ ์–ด๋ ต๊ณ , ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์„ ํ•˜๋”๋ผ๋„ ์ฃผ๋กœ ์‹œ๊ฐ๊ณผ ์ฒญ๊ฐ์—๋งŒ ๊ตญํ•œ๋˜์—ˆ๋‹ค.
  • ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ ‘๊ทผ: MULSA ๋“ฑ ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ๋น„์ „, ์ด‰๊ฐ ์˜์ƒ, ์˜ค๋””์˜ค๋ฅผ ํ•จ๊ป˜ Transformer๋กœ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„์„ ์‹œ๋„ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ MULSA๋Š” ๋‹จ์ˆœํžˆ ๋ชจ๋“  ํ† ํฐ์„ ์ด์–ด๋ถ™์—ฌ(attention concatenation) ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ ๋ณต์žก๋„๊ฐ€ ๋งค์šฐ ์ปค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๋˜ํ•œ MimicTouch (Yu et al., 2024)์™€ ๊ฐ™์€ ์—ฐ๊ตฌ๋Š” ์˜์ƒ ์ด‰๊ฐ๊ณผ ์˜ค๋””์˜ค๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ SSL๋กœ ํ•™์Šตํ–ˆ์ง€๋งŒ, ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„ ์œตํ•ฉ์„ ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š์•„ ์ด‰๊ฐ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ–ˆ๋‹ค.
  • ๋ณธ ๋…ผ๋ฌธ์˜ ์ฐจ๋ณ„์ : Sparsh-X๋Š” ๋„ค ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๊ด€์„ฑ, ์••๋ ฅ)๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ์ ์—์„œ ๊ธฐ์กด ์—ฐ๊ตฌ์™€ ๋šœ๋ ทํ•œ ์ฐจ๋ณ„์„ฑ์„ ๊ฐ€์ง„๋‹ค. ํŠนํžˆ, ๋ณ‘๋ชฉ ํ† ํฐ ๊ธฐ๋ฐ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๋„์ž…ํ•ด ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์œตํ•ฉํ•˜๋ฉฐ, ์ข…๋ž˜ ๋ฐฉ์‹๋ณด๋‹ค ๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ํ‘œํ˜„๋ ฅ ๋ชจ๋‘ ๊ฐœ์„ ํ–ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ์Œ์„ฑ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์ด๋‚˜ ๋‹จ์ผ์„ผ์„œ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ๋‹ค๋ฃจ์ง€ ๋ชปํ•œ ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ, ๋” ํ’๋ถ€ํ•œ ์ด‰๊ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค. ์ฆ‰, ์ข…์ „ ์—ฐ๊ตฌ๊ฐ€ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ–ˆ๋˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์œตํ•ฉ ๋ฐฉ์‹์„ ์ œ์•ˆํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡์˜ ์ด‰๊ฐ ์ธ์ง€๊ฐ€ ํ•œ์ธต ๋ฐœ์ „๋˜์—ˆ๋‹ค.

4. ์‹ค์ œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€

  • ์„ผ์„œ ๋ฐ ํ•˜๋“œ์›จ์–ด ์ธก๋ฉด: ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ Digit 360 ์„ผ์„œ๋ฅผ ์ „์ œ๋กœ ํ•œ๋‹ค. Digit 360์€ Meta FAIR์™€ GelSight๊ฐ€ ๊ณต๊ฐœํ•œ ์ตœ์ฒจ๋‹จ ์ด‰๊ฐ ์„ผ์„œ๋กœ, ์ง€๋ฆ„ 14mm์˜ ์ธ์กฐ ์†๊ฐ€๋ฝ ๋ชจ์–‘์ด๋ฉฐ 18๊ฐœ ์ด์ƒ์˜ ์„ผ์‹ฑ ๊ธฐ๋Šฅ์„ ํ†ตํ•ฉํ•œ๋‹ค[16]. ๋ฌผ๋ฆฌ์  ๋ณ€ํ˜•๊ณผ ์••๋ ฅ, ์ง„๋™์„ ์ดˆ๊ณ ํ•ด์ƒ๋„๋กœ ๊ฐ์ง€ํ•˜์—ฌ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์ •๋ฐ€๋„๋กœ ํ„ฐ์น˜๋ฅผ ๋””์ง€ํ„ธํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค[16]. GelSight ์ธก์€ ์ด ์„ผ์„œ๋ฅผ ๋‚ด๋…„๋ถ€ํ„ฐ ๋ณธ๊ฒฉ ๊ณต๊ธ‰ํ•  ์˜ˆ์ •์ด๋ฏ€๋กœ, ํ–ฅํ›„ ์‚ฐ์—…์šฉ ๋กœ๋ด‡์—๋„ ์žฅ์ฐฉ์ด ๊ฐ€๋Šฅํ•ด์งˆ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ๋Š” ๋น„๊ต์  ์‹คํ—˜์‹ค์šฉ ํ”„๋กœํ† ํƒ€์ž… ์ˆ˜์ค€์ด๋ฏ€๋กœ, ์‹ค์ œ ๊ณต์žฅ์ด๋‚˜ ์„œ๋น„์Šค ํ™˜๊ฒฝ์— ๋ฐฐ์น˜ํ•˜๋ ค๋ฉด ์ถ”๊ฐ€์ ์ธ ๋‚ด๊ตฌ์„ฑ ๊ฒ€์ฆ๊ณผ ๋น„์šฉ ๊ณ ๋ ค๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ์‹œ์Šคํ…œ ์š”๊ตฌ ์‚ฌํ•ญ: Sparsh-X๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต์ด ์ „์ œ๋˜๋ฏ€๋กœ ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›๊ณผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ํ•„์š”ํ•˜๋‹ค. ์‚ฐ์—… ํ˜„์žฅ์—์„œ ๋„์ž…ํ•˜๋ ค๋ฉด ๊ฐœ๋ณ„ ์ž‘์—…์— ๋งž์ถฐ ์ถ”๊ฐ€ ํ•™์Šต ๋˜๋Š” ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์ด ํ•„์ˆ˜์ ์ด๋‹ค. ๋˜ํ•œ, Digit 360์„ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ์— ๋ถ€์ฐฉํ•˜๊ณ  ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ ค๋ฉด ๊ณ ์† ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ์—ฐ์‚ฐ ํ•˜๋“œ์›จ์–ด๊ฐ€ ์š”๊ตฌ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฝ์ž… ์กฐ๋ฆฝ ์ž‘์—…์—์„œ๋Š” ์„ผ์„œ-ํ–‰๋™ ๋ฐ˜์‘ ์ง€์—ฐ(latency)์„ ์ค„์—ฌ์•ผ ํ•˜๋ฉฐ, ์‚ฐ์—…์šฉ ๋กœ๋ด‡ ์•”์— ์ •ํ™•ํžˆ ๋งž๋„๋ก ์„ผ์„œ ์žฅ์ฐฉ ๋ฐฉ์‹์„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค.
  • ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ: ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , Sparsh-X์˜ ์ด‰๊ฐ ํ‘œํ˜„์€ ๊ณ ์ •๋ฐ€ ์ž‘์—…์— ์œ ๋ฆฌํ•˜๋‹ค. ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…, ๋‚˜์‚ฌ ์ฒด๊ฒฐ ๋“ฑ ์นด๋ฉ”๋ผ๋กœ๋Š” ์–ด๋ ค์šด ์ •๋ฐ€ ์กฐ๋ฆฝ ์ž‘์—…์ด๋‚˜, ์กฐ๋ฆฌ ๋กœ๋ด‡์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘, ๋ณต์žก ํ˜•์ƒ์˜ ๋ถ€ํ’ˆ ๊ฒ€์‚ฌ ๋“ฑ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ์„ผ์„œ ๋ฐ์ดํ„ฐ์™€ ํ•™์Šต์„ ๋ณ‘ํ–‰ํ•˜๋ฉด ๋น„์ „ ์ •๋ณด๊ฐ€ ๋ถˆ์ถฉ๋ถ„ํ•œ ์–ด๋‘ก๊ฑฐ๋‚˜ ๋ถ€๋ถ„ ๊ฐ€๋ ค์ง„ ํ™˜๊ฒฝ์—์„œ๋„ ์•ˆ์ •์ ์ธ ์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ์˜ˆ์ปจ๋Œ€, ๋ณต์žกํ•œ ํšŒ๋กœ๊ธฐํŒ ์œ„ ์ž‘์€ ๋ถ€ํ’ˆ์„ ์ง‘๊ฑฐ๋‚˜, ์˜๋ฃŒ์šฉ ๋กœ๋ด‡์ด ๋ฏธ์„ธํ•œ ์กฐ์ง์„ ๋‹ค๋ฃจ๋Š” ์ž‘์—… ๋“ฑ์— ์‘์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ๋กœ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…๊ณผ ๊ฐ™์€ ์‚ฐ์—…์  ์˜๋ฏธ๊ฐ€ ์žˆ๋Š” ์กฐ์ž‘์—์„œ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๊ด€์ฐฐ๋˜์—ˆ๋‹ค.
  • ์ œ์•ฝ ๋ฐ ์ „๋ง: ํ˜„์žฌ ์—ฐ๊ตฌ ๋‹จ๊ณ„์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ํ˜•ํƒœ(๊ฒฝ์‚ฌ์ง„ ํ‘œ๋ฉด, ์ „๋‹จ๋ ฅ ๋“ฑ)์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ๋ถ€์กฑํ•˜๋ฉฐ, ๋Œ€๋Ÿ‰์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•๋„ ํ•„์š”ํ•œ ์ƒํƒœ์ด๋‹ค. ๋˜ํ•œ ์‹ค์ œ ์‚ฐ์—… ํ™˜๊ฒฝ์—์„œ๋Š” ์„ผ์„œ์˜ ๋‚ด๊ตฌ์„ฑ, ์žก์Œยท์˜ค์—ผ ๋ฌธ์ œ, ๋ชจ๋ธ์˜ ์ถ”๋ก  ์†๋„ ๋“ฑ์ด ์ถ”๊ฐ€ ๊ณผ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  Sparsh-X๋Š” ์ด‰๊ฐ์— ๊ธฐ๋ฐ˜ํ•œ โ€˜๊ธฐ์ดˆ ๋ชจ๋ธ(Foundation Model)โ€™ ์ ‘๊ทผ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ฆ‰, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์ž‘์—…์— ์žฌ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ด‰๊ฐ ํ‘œํ˜„์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ์ถ”ํ›„ ๋„๋ฉ”์ธ๋ณ„ ๋ฏธ์„ธ ์กฐ์ •์œผ๋กœ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์ด ํฌ๋‹ค. ์‹ค์ œ๋กœ GelSight ์ธก์€ Digit 360์„ ๋กœ๋ด‡ ์ด‰๊ฐ ์—ฐ๊ตฌ์˜ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ํ‰๊ฐ€ํ•˜๋ฉฐ, ์˜๋ฃŒยท๊ฐ€์ƒํ˜„์‹คยทํœด๋จธ๋…ธ์ด๋“œ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ์‘์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์ „๋งํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ์™€ ์—ฐ์‚ฐ ์ž์›์ด ํ™•๋ณด๋œ๋‹ค๋ฉด, Sparsh-X ๋ฐฉ์‹์€ ์‚ฐ์—…์šฉยท์„œ๋น„์Šค์šฉ ๋กœ๋ด‡์—์„œ ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ํ•„์š”๋กœ ํ•˜๋Š” ๋‹ค์ˆ˜ ๊ณผ์ œ์— ์ ์šฉ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค.

Copyright 2024, Jung Yeon Lee