Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
    • ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 
    • ํ‰๊ฐ€ ๊ฒฐ๊ณผ
  • Detail Review
    • ๋ฐฐ๊ฒฝ ๋ฐ ์—ฐ๊ตฌ ๋™๊ธฐ
    • ์ฃผ์š” ๊ธฐ์—ฌ ๋ฐ ์ ‘๊ทผ ๋ฐฉ๋ฒ•
    • ๐Ÿ’ก ๋ชจ๋ธ ๋ฐ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก 
    • ์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ
    • ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ
    • ๐Ÿ’ฅ Sparsh (์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต) ์—ฐ๊ตฌ์™€์˜ ์—ฐ๊ด€์„ฑ

๐Ÿ“ƒSparsh-Skin ๋ฆฌ๋ทฐ

sparsh-skin
ssl
touch
tactile
Self-supervised perception for tactile skin covered dexterous hands
Published

July 4, 2025

  • Paper Link
  • Project Link

  1. ์ž์„ฑ ์Šคํ‚จ ์„ผ์„œ๊ฐ€ ์žฅ์ฐฉ๋œ ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ๊ณ ์„ฑ๋Šฅ ์ด‰๊ฐ ํ‘œํ˜„ ๋ชจ๋ธ์ธ Sparsh-skin์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. Sparsh-skin์€ ๋ผ๋ฒจ๋ง์ด ๋˜์–ด ์žˆ์ง€ ์•Š์€ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋กœ๋ด‡ ์†-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž๊ธฐ ์ฆ๋ฅ˜(self-distillation) ๋ฐฉ์‹์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ์ผ๋ฐ˜ํ™”๋œ ์ด‰๊ฐ ํŠน์„ฑ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  3. ํž˜ ์ถ”์ •, ์กฐ์ด์Šคํ‹ฑ ์ƒํƒœ ์ถ”์ •, ์ž์„ธ ์ถ”์ •, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๋“ฑ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ, Sparsh-skin ํ‘œํ˜„์€ ๊ธฐ์กด ์—ฐ๊ตฌ ๋ฐ End-to-end ํ•™์Šต ๋ฐฉ์‹ ๋Œ€๋น„ ์„ฑ๋Šฅ๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๋น„์Šทํ•œ ์ €์ž๋“ค ๋ฆฌ์ŠคํŠธ๋กœ ์ด์ „์— ์ž‘์„ฑํ•œ ๋…ผ๋ฌธ์ธ Sparsh: Self-supervised touch representations for vision-based tactile sensing ๋…ผ๋ฌธ๊ณผ ํ˜ผ๋™ํ•˜์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ•ฉ๋‹ˆ๋‹ค. ํ•ด๋‹น ๋…ผ๋ฌธ์— ๋Œ€ํ•œ ํฌ์ŠคํŒ…์€ ๐Ÿ“ƒSparsh ๋ฆฌ๋ทฐ์— ์žˆ์Šต๋‹ˆ๋‹ค.


Brief Review

๋ณธ ๋…ผ๋ฌธ์€ ์ž๊ธฐ์‹ ํ”ผ๋ถ€ ์„ผ์„œ๋กœ ๋ฎ์ธ ๋ฏผ์ฒฉํ•œ ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ์ž๊ธฐ ์ง€๋„ ๋ฐฉ์‹์˜ ์ธ์ง€(Self-supervised perception) ์ ‘๊ทผ๋ฒ•์ธ Sparsh-skin์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ž๊ธฐ์‹ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋Š” ์†๊ฐ€๋ฝ ๋์— ๊ตญํ•œ๋˜๊ณ  ๋Œ€์—ญํญ์— ์ œ์•ฝ์ด ์žˆ๋Š” ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ์™€ ๋‹ฌ๋ฆฌ, ๋น ๋ฅธ ์‘๋‹ต ์†๋„์™€ ์œ ์—ฐํ•œ ํผ ํŒฉํ„ฐ๋กœ ์† ์ „์ฒด๋ฅผ ์ปค๋ฒ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์† ์ „์ฒด์˜ ์ด‰๊ฐ ์ธ์ง€๋Š” ๋กœ๋ด‡์˜ ๋ฏผ์ฒฉ์„ฑ์— ๋งค์šฐ ์ค‘์š”ํ•˜์ง€๋งŒ, ๋ฒ”์šฉ ๋ชจ๋ธ์˜ ๋ถ€์žฌ์™€ ์ž๊ธฐ ํ”Œ๋Ÿญ์Šค(magnetic flux) ์‹ ํ˜ธ์˜ ํ•ด์„ ๋ฐ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜์˜ ์–ด๋ ค์›€์œผ๋กœ ์ธํ•ด ์ด๋Ÿฌํ•œ ์„ผ์„œ์˜ ํ™œ์šฉ์ด ์ œํ•œ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

Sparsh-skin์€ ๋กœ๋ด‡ ์†์˜ ์šด๋™ํ•™์  ์ •๋ณด์™€ ์ด‰๊ฐ ์„ผ์‹ฑ ์ด๋ ฅ์„ ์ž…๋ ฅ๋ฐ›์•„, ๋ชจ๋“  downstream task์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์  ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ(latent tactile embedding)์„ ์ถœ๋ ฅํ•˜๋Š” ์ธ์ฝ”๋”์ž…๋‹ˆ๋‹ค. ์ด ์ธ์ฝ”๋”๋Š” Allegro ์†์— Xela uSkin ์„ผ์„œ๋ฅผ ์žฅ์ฐฉํ•˜์—ฌ ์ˆ˜์ง‘๋œ ์•ฝ 4์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋‹ค์–‘ํ•œ ๋น„๋ ˆ์ด๋ธ” ์†-๋ฌผ์ฒด ์ƒํ˜ธ ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ Self-distillation ๋ฐฉ์‹์„ ํ†ตํ•ด ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(SSL)์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜(ํž˜ ์ถ”์ •, ์กฐ์ด์Šคํ‹ฑ ์ƒํƒœ ์ถ”์ •, ์ž์„ธ ์ถ”์ •, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ์ •์ฑ… ํ•™์Šต ๋“ฑ)์„ ํ†ตํ•ด ์‚ฌ์ „ ํ•™์Šต๋œ Sparsh-skin ํ‘œํ˜„์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ƒ˜ํ”Œ ํšจ์œจ์ (sample efficient)์ผ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ธฐ์กด ์—ฐ๊ตฌ ๋Œ€๋น„ 41% ์ด์ƒ, ์ข…๋‹จ ๊ฐ„ ํ•™์Šต(end-to-end learning) ๋Œ€๋น„ 56% ์ด์ƒ ์ž‘์—… ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ๋ณด์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

Sparsh-skin์€ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ํ•™์ƒ(student) ๋„คํŠธ์›Œํฌ E_\theta์™€ ๊ต์‚ฌ(teacher) ๋„คํŠธ์›Œํฌ E_{\hat{\theta}}๋กœ ๊ตฌ์„ฑ๋œ ์ž๊ธฐ ์ฆ๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ์€ 100ms ๊ธธ์ด์˜ ์ด‰๊ฐ ์ธก์ •๊ฐ’ (\mathbf{x}_{1:10} \in \mathbb{R}^{10 \times 368 \times 3})๊ณผ ์„ผ์„œ ์œ„์น˜ ์ •๋ณด (\mathbf{p}_{1:10} \in \mathbb{R}^{10 \times 368 \times 3})์˜ ์ด๋ ฅ์ž…๋‹ˆ๋‹ค. ๊ฐ ์„ผ์„œ(์ด 368๊ฐœ)์˜ ๋ฐ์ดํ„ฐ๋Š” ์„ ํ˜• ํˆฌ์˜ f_{\text{linear}}์„ ํ†ตํ•ด ํ‘œํ˜„ ์ฐจ์› d๋กœ ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค: \mathbf{z}_i = f_{\text{linear}}(\mathbf{x}_{1:10} | \mathbf{p}_{1:10}) \in \mathbb{R}^{368 \times d} ๋˜ํ•œ, ์†๋ฐ”๋‹ฅ, ์†๊ฐ€๋ฝ ๋งˆ๋””, ์†๊ฐ€๋ฝ ๋ ๋“ฑ Xela ์„ผ์„œ ํŒจ๋“œ์˜ ์œ ํ˜•์— ๋”ฐ๋ผ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ† ํฐ(learnable token)์ด ๊ฐ ์„ผ์„œ์— ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค. ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(positional embedding) ๋Œ€์‹  3D ์„ผ์„œ ์œ„์น˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์†์ƒ(data corruption) ๊ธฐ๋ฒ•์œผ๋กœ๋Š” ์ด๋ฏธ์ง€ ๋„๋ฉ”์ธ์˜ ํฌ๋กญ/๋ฆฌ์‚ฌ์ด์ฆˆ๊ฐ€ ์ž๊ธฐ ํ”Œ๋Ÿญ์Šค ์‹ ํ˜ธ์˜ ์˜๋ฏธ๋ก ์  ๋ณ€ํ™”๋ฅผ ์œ ๋ฐœํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ํ† ํฐํ™” ์ดํ›„์— ๋ธ”๋ก ๋งˆ์Šคํ‚น(block masking)์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ธ์ ‘ํ•œ ์„ผ์„œ ์•„์ผ๋žœ๋“œ(sensor island)๋ฅผ ํฌํ•จํ•œ ์—ฐ์†์ ์ธ ์„ผ์„œ ๋ธ”๋ก์„ ์ž…๋ ฅ์—์„œ ์ œ๊ฑฐํ•˜๋Š” ํฌ๋กœ์Šค-ํƒ์…€(cross-taxel) ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋Š” ์†์ƒ๋œ ์ž…๋ ฅ \bar{\mathbf{z}}_i๋ฅผ ๋ฐ›๊ณ , ๊ต์‚ฌ ๋„คํŠธ์›Œํฌ๋Š” ๋œ ์†์ƒ๋œ ์ž…๋ ฅ \mathbf{z}^*_i๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค (ํ•™์ƒ์€ ๋ฌด์ž‘์œ„๋กœ 10%~40%์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์œ ์ง€ํ•œ k๊ฐœ ๋งˆ์Šคํฌ๋ฅผ, ๊ต์‚ฌ๋Š” 40%~100%์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์œ ์ง€ํ•œ 1-2๊ฐœ ๋งˆ์Šคํฌ๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค).

์˜ˆ์ธก ์ž‘์—…(prediction task)์€ ๋งˆ์Šคํฌ๋“œ ์˜คํ†  ์žฌ๊ตฌ์„ฑ(masked auto-reconstruction)๋ณด๋‹ค ์„ผ์„œ ๋…ธ์ด์ฆˆ์— ๊ฐ•๊ฑดํ•œ ๋ถ„๋ฅ˜(classification) ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ณ€ํ™˜๋œ ์„ผ์„œ ํ† ํฐ์€ ๋ถ„๋ฅ˜ ํ—ค๋“œ f_{\text{class}}๋ฅผ ํ†ตํ•ด ํ”„๋กœํ† ํƒ€์ž… ๋กœ์ง“(prototype logit)์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค:

  • ํ•™์ƒ์€ \bar{\mathbf{p}}_i = f_{\text{class}}(E_\theta(\bar{\mathbf{z}}_i)),
  • ๊ต์‚ฌ๋Š” \mathbf{p}^*_i = f_{\text{class}}(E_{\hat{\theta}}(\mathbf{z}^*_i)).

ํ•™์ƒ ๋ฐ ๊ต์‚ฌ ๋กœ์ง“ ์˜ˆ์ธก ๊ฐ„์˜ ํŒจ์น˜ ๋ ˆ๋ฒจ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ(patch level cross entropy) ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ผ์„œ ํ‘œํ˜„์—์„œ ๊ตญ์†Œ-์ „์—ญ(local-to-global) ๋Œ€์‘ ํ•™์Šต์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ต์‚ฌ ๋„คํŠธ์›Œํฌ์˜ ๊ฐ€์ค‘์น˜ \hat{\theta}๋Š” ์—ญ์ „ํŒŒ(back-propagation)๊ฐ€ ์•„๋‹Œ ํ•™์ƒ ๋„คํŠธ์›Œํฌ ๊ฐ€์ค‘์น˜ \theta์˜ ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท (EMA)์œผ๋กœ๋งŒ ์—…๋ฐ์ดํŠธ๋ฉ๋‹ˆ๋‹ค: \hat{\theta} \triangleq \text{EMA}(\theta)

ํ‰๊ฐ€ ๊ฒฐ๊ณผ

์‚ฌ์ „ ํ•™์Šต ์ง„ํ–‰ ์ƒํ™ฉ ๋ชจ๋‹ˆํ„ฐ๋ง์„ ์œ„ํ•ด ์˜จ๋ผ์ธ ํ”„๋กœ๋ธŒ(online probe)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์žฌ๊ตฌ์„ฑ(reconstruction) ๋ฐ ๋ฌผ์ฒด ์‹๋ณ„ ๋Šฅ๋ ฅ(๋ถ„๋ฅ˜ ์ •ํ™•๋„)์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, Sparsh-skin์€ MAE ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์žฌ๊ตฌ์„ฑ ๋ฐ ๋ฌผ์ฒด ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ(์•ฝ 95% ์ •ํ™•๋„)์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์—์„œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์€ ์ฆ‰๊ฐ์  ์˜ˆ์ธก ์ž‘์—…๊ณผ ์‹œ๊ฐ„์  ์ถ”๋ก  ์ž‘์—…์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

  • ์ฆ‰๊ฐ์  ์ž‘์—…(ํž˜ ์ถ”์ •)์—๋Š” ์–ดํ…ํ‹ฐ๋ธŒ ํ’€๋ง(attentive pooling)๊ณผ ์ž‘์€ 2์ธต MLP๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ„์  ์ž‘์—…(์กฐ์ด์Šคํ‹ฑ, ์ž์„ธ ์ถ”์ •)์—๋Š” ์–ดํ…ํ‹ฐ๋ธŒ ํ’€๋ง ํ›„ 1์ธต Transformer ๋ธ”๋ก์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋น„๊ต์—๋Š” BYOL* (๋ณธ ๋…ผ๋ฌธ์—์„œ ์žฌํ˜„ํ•œ BYOL ๋ณ€ํ˜•), End-to-end, Sparsh-skin (frozen), Sparsh-skin (finetuned), Sparsh-skin (MAE)์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ์€ RMSE (ํž˜, ์กฐ์ด์Šคํ‹ฑ, ์ž์„ธ), ์ž์„ธ ์ •ํ™•๋„ (์ž์„ธ), ์„ฑ๊ณต๋ฅ  (ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…)๋กœ ์ธก์ •๋˜๋ฉฐ, ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋ ˆ์ด๋ธ”๋œ ๋ฐ์ดํ„ฐ์˜ ๋น„์œจ์„ ๋ณ€ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ํž˜ ์ถ”์ •: End-to-end ๋ชจ๋ธ์€ ํŠนํžˆ ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ์„ฑ๋Šฅ์ด ๋งค์šฐ ๋–จ์–ด์ง€์ง€๋งŒ, Sparsh-skin (frozen) ๋ฐ Sparsh-skin (finetuned)์€ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์ผ๊ด€๋œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-skin (MAE)๋Š” ์ž๊ธฐ ํ”Œ๋Ÿญ์Šค ์‹ ํ˜ธ์˜ ๋…ธ์ด์ฆˆ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.
  • ์กฐ์ด์Šคํ‹ฑ ์ƒํƒœ ์ถ”์ •: Sparsh-skin์€ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๊ธฐ์กด HiSS* ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, 3.3%์˜ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋„ ๋†’์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ๋ณด์ด๋ฉฐ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ž์„ธ ์ถ”์ •: ์‚ฌ์ „ ํ•™์Šต๋œ Sparsh-skin ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ ๋ชจ๋“  ๋ชจ๋ธ์ด End-to-end ๋ชจ๋ธ๋ณด๋‹ค ๋‚ฎ์€ RMSE์™€ ๋†’์€ ์ž์„ธ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. Sparsh-skin (finetuned)์€ End-to-end ๋Œ€๋น„ ์ด๋™์—์„œ ์•ฝ 10%, ํšŒ์ „์—์„œ ์•ฝ 20% ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์† ์ „์ฒด ์„ผ์‹ฑ(palm sensing)์ด ์ž์„ธ ์ถ”์ •์— ์ค‘์š”ํ•จ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ •์ฑ… ํ•™์Šต (ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…): ๋น„์ „๊ณผ Sparsh-skin ์ด‰๊ฐ ํ‘œํ˜„์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•œ ์ •์ฑ…์€ ๋น„์ „ ๋‹จ๋… ์ •์ฑ… (20% SR) ๋ฐ ์ข…๋‹จ ๊ฐ„ ์‹œ๊ฐ-์ด‰๊ฐ ์ •์ฑ… (40% SR) ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ (Sparsh-skin (frozen) 75% SR)์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด‰๊ฐ ์ •๋ณด๊ฐ€ ์‚ฝ์ž… ์„ฑ๊ณต๋ฅ ์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ์—ฐ๊ตฌ๋Š” ์ž๊ธฐ์‹ ํ”ผ๋ถ€ ์„ผ์„œ๋ฅผ ์œ„ํ•œ ๊ณ ์„ฑ๋Šฅ ์ด‰๊ฐ ํ‘œํ˜„ ๋ชจ๋ธ์ธ Sparsh-skin์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ๋น„๋ ˆ์ด๋ธ” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ํš๋“๋œ Sparsh-skin ํ‘œํ˜„์€ ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์ค‘์‹ฌ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ๊ณผ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์† ์ „์ฒด ์ด‰๊ฐ ํ‘œํ˜„์„ ์œ„ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(foundation model)๋กœ ๋‚˜์•„๊ฐ€๋Š” ํ•œ ๋‹จ๊ณ„๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์˜ ํ•œ๊ณ„์ ์œผ๋กœ๋Š”, ๋ฐ์ดํ„ฐ ์†์ƒ ์ „๋žต์ด ์ฃผ๋กœ ๊ณต๊ฐ„์ ์ด๋ฉฐ ์‹œ๊ฐ„์  ์ƒ๊ด€ ๊ด€๊ณ„ ํ•™์Šต์„ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃจ์ง€ ์•Š๋Š” ์ , ํ˜„์žฌ ์ž์„ธ ์ถ”์ • ์ž‘์—…์€ ๊ณ ์ •๋œ ์†๊ณผ 2D ์ž์„ธ์— ์ œํ•œ์ ์ด๋ผ๋Š” ์ , ๊ทธ๋ฆฌ๊ณ  ์‹œ๊ฐ-์ด‰๊ฐ ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์  ๋“ฑ์ด ์ œ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.


Detail Review

Self-supervised perception for tactile skin covered dexterous hands โ€“ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋ฐฐ๊ฒฝ ๋ฐ ์—ฐ๊ตฌ ๋™๊ธฐ

๋กœ๋ด‡ ์†์˜ ์ด‰๊ฐ ๊ฐ๊ฐ์€ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๊ณ  ์กฐ์ž‘๊ธฐ(dexterous manipulator)์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์†๊ฐ€๋ฝ ๋์— ๊ตญํ•œ๋œ ๊ธฐ์กด ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ(์˜ˆ: GelSight ๊ณ„์—ด, DIGIT ๋“ฑ)๋Š” ๊ณ ํ•ด์ƒ๋„ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ์† ์ „์ฒด๋ฅผ ๊ฐ์‹ธ๋Š” ํ˜•ํƒœ๋กœ ์ ์šฉ๋˜๊ธฐ ์–ด๋ ต๊ณ  ๋Œ€์—ญํญ ์ œ์•ฝ์œผ๋กœ ๋น ๋ฅธ ์‘๋‹ต์—๋„ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋น„ํ•ด ์ž๊ธฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ(magnetic tactile skin)๋Š” ์–‡๊ณ  ์œ ์—ฐํ•˜๊ฒŒ ์†๊ฐ€๋ฝ ๋งˆ๋””์™€ ์†๋ฐ”๋‹ฅ ์ „์ฒด์— ๋ถ€์ฐฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋น ๋ฅธ ์‘๋‹ต ์†๋„๋ฅผ ๊ฐ–์ถ˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ์ž๊ธฐ ์ด‰๊ฐ ์„ผ์„œ๋“ค์€ ์„ผ์„œ ์ถœ๋ ฅ(์ž๊ณ„ ํ”Œ๋Ÿญ์Šค)์„ ํ•ด์„ํ•˜๊ณ  ๋ณด์ •(calibration)ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์ด ์žˆ๊ณ , ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์ง€์ž๊ธฐ ํ™˜๊ฒฝ์—์„œ์˜ ๊ธฐ์ค€์  ๋“œ๋ฆฌํ”„ํŠธ ๋“ฑ ๋ฌธ์ œ๋กœ ํ‘œ์ค€ํ™”๋œ ์ผ๋ฐ˜ ๋ชจ๋ธ์ด ๋ถ€์žฌํ•˜์—ฌ ๋„๋ฆฌ ํ™œ์šฉ๋˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๊ธฐ์กด์—๋Š” ํŠน์ • ์ž‘์—…์ด๋‚˜ ์„ผ์„œ์— ํŠนํ™”๋œ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๋˜๋Š” ๊ฐœ๋ณ„ ํ•™์Šต ๋ชจ๋ธ์— ์˜์กดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜๊ณ , ์† ์ „์ฒด๋ฅผ ํฌ๊ด„ํ•˜๋Š” ์ผ๊ด€๋œ ์ด‰๊ฐ ํ‘œํ˜„ ๋ฐฉ์‹์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋งฅ๋ฝ์—์„œ, Akash Sharma ๋“ฑ ์—ฐ๊ตฌ์ง„์€ โ€œSelf-supervised perception for tactile skin covered dexterous handsโ€ ๋…ผ๋ฌธ์—์„œ ์†๊ฐ€๋ฝ, ๋งˆ๋””, ์†๋ฐ”๋‹ฅ์„ ๋ชจ๋‘ ๋ฎ๋Š” ๋‹ค์ˆ˜์˜ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์–ป๋Š” ์‹ ํ˜ธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(self-supervised learning)์„ ํ™œ์šฉํ•ด ๋Œ€๋Ÿ‰์˜ ๋น„๋ผ๋ฒจ(unlabeled) ์ƒํ˜ธ์ž‘์šฉ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ผ๋ฐ˜์ ์ธ ์ด‰๊ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡ ์† ์ „์ฒด์˜ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ•˜๋‚˜์˜ ์ž ์žฌ ๋ฒกํ„ฐ ํ‘œํ˜„(latent embedding)์œผ๋กœ ์••์ถ•ํ•˜์—ฌ, ์ดํ›„ ์–ด๋–ค ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…(task)์—๋„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ์‹œ๊ฐ ์ธ์‹ ๋ถ„์•ผ์—์„œ ์ž๊ธฐ ์ง€๋„ ํ‘œํ˜„ ํ•™์Šต์ด ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘” ๊ฒƒ์„ ์ด‰๊ฐ ์˜์—ญ์— ์ ์šฉํ•œ ๊ฒƒ์œผ๋กœ, ๋ณต์žกํ•œ ๋ผ๋ฒจ๋ง ์—†์ด๋„ ๋ชจ๋ธ์ด ์ด‰๊ฐ์˜ ํ’๋ถ€ํ•œ ํŠน์ง•๋“ค์„ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ์ด ์—ฐ๊ตฌ์˜ ๋™๊ธฐ๋Š” ์† ์ „์ฒด์— ๋ถ„ํฌ๋œ ์ด‰๊ฐ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์–ป๋Š” ๋ฐฉ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•ด์„ํ•˜๊ณ  ๋ฒ”์šฉ์ ์œผ๋กœ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•œ ํ‘œํ˜„ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธฐ์กด ์—ฐ๊ตฌ์ธ โ€œSparsh: Self-supervised touch representations for vision-based tactile sensingโ€์—์„œ ์†๋ ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์‹ฑ์— ๋Œ€ํ•œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•์ด ์ œ์‹œ๋˜์—ˆ๋Š”๋ฐ, ๋ณธ ๋…ผ๋ฌธ์€ ๊ทธ ์ฒ ํ•™์„ ์ด์–ด๋ฐ›์•„ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋ผ๋Š” ์ƒˆ๋กœ์šด ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ์— ์ ์šฉํ•˜๊ณ  ํ™•์žฅํ•œ ์—ฐ๊ตฌ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜์—์„œ๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๊ธฐ์—ฌ์™€ ๋ฐฉ๋ฒ•๋ก , ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ธํžˆ ์‚ดํŽด๋ณธ ํ›„, ์•ž์„  Sparsh ์—ฐ๊ตฌ์™€์˜ ๊ธฐ์ˆ ์  ์—ฐ๊ด€์„ฑ๊ณผ ์ฐจ์ด์ ์„ ๋น„๊ตํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๊ธฐ์—ฌ ๋ฐ ์ ‘๊ทผ ๋ฐฉ๋ฒ•

Sparsh-skin์ด๋ผ ๋ช…๋ช…๋œ ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ๋ฒ•์€, ์•Œ๋ ˆ๊ทธ๋กœ(Allegro) ๋กœ๋ด‡ ์†์— ์žฅ์ฐฉ๋œ Xela uSkin ์ž๊ธฐ ์ด‰๊ฐ ์„ผ์„œ๋“ค๋กœ๋ถ€ํ„ฐ ์† ์ „์ฒด์˜ ์ด‰๊ฐ ์ƒํƒœ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์‚ฌ์ „ํ•™์Šต ์ธ์ฝ”๋”(pre-trained encoder)๋ฅผ ์ œ์‹œํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์†๊ฐ€๋ฝ ๋, ๋งˆ๋””, ์†๋ฐ”๋‹ฅ ๋“ฑ ์—ฌ๋Ÿฌ ๋ถ€์œ„์— ๋ถ„ํฌ๋œ ๋‹ค์ˆ˜์˜ uSkin ์„ผ์„œ๋“ค๋กœ๋ถ€ํ„ฐ ์–ป๋Š” ์‹ ํ˜ธ๋ฅผ ํ•œ๋ฐ ๋ชจ์•„ ํ’€-ํ•ธ๋“œ(full-hand) ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ํ•œ ์‹œ์ ์˜ ์„ผ์„œ ๊ฐ’๋ฟ ์•„๋‹ˆ๋ผ ์ตœ๊ทผ์˜ ์งง์€ ์ด๋ ฅ๊นŒ์ง€ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ์‹œ๊ฐ„์  ๋งฅ๋ฝ(์˜ˆ: ๋ฏธ๋„๋Ÿฌ์ง ๋ฐœ์ƒ ์ถ”์ด ๋“ฑ)์„ ๋ฐ˜์˜ํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ์—๋Š” ๊ฐ ์„ผ์„œ์˜ 3์ฐจ์› ์œ„์น˜ ์ •๋ณด๊นŒ์ง€ ํฌํ•จํ•˜์—ฌ, ๋ชจ๋ธ์ด ์ ‘์ด‰ ์‹ ํ˜ธ์˜ ๊ณต๊ฐ„์  ๋ถ„ํฌ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ Sparsh-skin ์ธ์ฝ”๋”๋Š” ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ํŠน์ • ์ž‘์—…์— ํŠนํ™”๋œ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ๋ฐ”๋กœ ์‚ฌ์šฉ๋˜๊ฑฐ๋‚˜, ์ตœ์†Œํ•œ์˜ ๋ฏธ์„ธ์กฐ์ •(fine-tuning)๋งŒ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ ํ‘œํ˜„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์† ์ „์ฒด๋ฅผ ๋ฎ๋Š” ์ž๊ธฐ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋ฅผ ์œ„ํ•œ ์ตœ์ดˆ์˜ ๋ฒ”์šฉ ํ‘œํ˜„ ํ•™์Šต ๋ชจ๋ธ ์ œ์‹œ: ์†๋ฐ”๋‹ฅ๊นŒ์ง€ ํฌํ•จํ•œ ๋‹ค์ง€์  ์ด‰๊ฐ์„ ํ†ตํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด, ์ž์ฒด ๊ฐœ๋ฐœํ•œ Sparsh-skin ์ธ์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ํ’€-ํ•ธ๋“œ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์— ์†๋ ์œ„์ฃผ์˜ ์ด‰๊ฐ์„ผ์„œ ์—ฐ๊ตฌ๋ฅผ ์† ์ „์ฒด๋กœ ํ™•์žฅํ•œ ๊ฒƒ์œผ๋กœ, ๋กœ๋ด‡ ์†์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘(dexterity) ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋น„๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘ ๋ฐ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ์ ์šฉ: ์—ฐ๊ตฌ์ง„์€ VR ์›๊ฒฉ์กฐ์ž‘์„ ํ†ตํ•ด 14๊ฐ€์ง€ ์ผ์ƒ ๋ฌผ์ฒด(์žฅ๋‚œ๊ฐ, ๋„๊ตฌ ๋“ฑ)๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ฅ๊ธฐ, ๋ฐ€๊ธฐ, ๋น„๋น„๊ธฐ, ํšŒ์ „, ๋ˆ„๋ฅด๊ธฐ, ๋ฌธ์ง€๋ฅด๊ธฐ, ๊ด€์ ˆ ์šด๋™ ๋“ฑ ๋‹ค์–‘ํ•œ ์›์ž์  ์กฐ์ž‘ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์•ฝ 4์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ๊ฒฝํ—˜์„ ํ™œ์šฉํ•ด ๋ผ๋ฒจ์ด ์—†๋Š” ์ƒํƒœ์—์„œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(self-supervised learning)์œผ๋กœ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์ „ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ž๊ธฐ-์ฆ๋ฅ˜(self-distillation) ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ๊ต์‚ฌ-ํ•™์ƒ ๋„คํŠธ์›Œํฌ ๊ฐ„ ํ›ˆ๋ จ์œผ๋กœ ๋ชจ๋ธ์ด ์†์ƒ๋œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ๋„ ์ผ๊ด€๋œ ํ‘œํ˜„์„ ์ถ”์ถœํ•˜๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ๋ฒ”์šฉ์„ฑ ๋ฐ ์„ฑ๋Šฅ ์ž…์ฆ: ์‚ฌ์ „ํ•™์Šต๋œ Sparsh-skin ํ‘œํ˜„์˜ ํšจ์šฉ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์ƒํƒœ ์ถ”์ •(state estimation)๋ถ€ํ„ฐ ์ •์ฑ… ํ•™์Šต(policy learning)์— ์ด๋ฅด๋Š” ์—ฌ๋Ÿฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์— ์ ์šฉํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ 41% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ, ์—”๋“œํˆฌ์—”๋“œ ํ•™์Šต ๋Œ€๋น„ 56% ์ด์ƒ์˜ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜์˜€๊ณ , ๋ฐ์ดํ„ฐ ํšจ์œจ(sample efficiency)๋„ ํฌ๊ฒŒ ๋†’์•„์ ธ ์ ์€ ์–‘์˜ ํ•™์Šต๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” Sparsh-skin ์ž„๋ฒ ๋”ฉ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๊ฑธ์ณ ์ผ๋ฐ˜์ ์ด๊ณ  ํ’๋ถ€ํ•œ ์ด‰๊ฐ ํŠน์„ฑ์„ ํ•จ์œ ํ•˜๊ณ  ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ธฐ์—ฌ๋ฅผ ํ†ตํ•ด, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฒ”์šฉ ๋กœ๋ด‡ ์ด‰๊ฐ ์ง€๊ฐ์„ ํ–ฅํ•œ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ์† ์ „์ฒด์— ๋ถ„ํฌ๋œ ์„ผ์„œ๋“ค์˜ ๊ณ ์ฐจ์› ์‹ ํ˜ธ๋ฅผ ์ €์ฐจ์› ๋ฒกํ„ฐ๋กœ ํ•จ์ถ•ํ•จ์œผ๋กœ์จ, ๋ณต์žกํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ๋กœ๋ด‡์˜ ํ•™์Šต ๋ฐ ์ œ์–ด์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก ๋ชจ๋ธ ๋ฐ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก 

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” Sparsh-skin ์ธ์ฝ”๋”์˜ ํ•™์Šต ๋ฐฉ๋ฒ•์€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต(SSL)์˜ ์ผ์ข…์ธ ์ž๊ธฐ-์ฆ๋ฅ˜(self-distillation)๋ฅผ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๊ต์‚ฌ(teacher) ๋„คํŠธ์›Œํฌ์™€ ํ•™์ƒ(student) ๋„คํŠธ์›Œํฌ์˜ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋‘ ๋„คํŠธ์›Œํฌ๋Š” ๋™์ผํ•œ ์ธ์ฝ”๋” ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ณต์œ ํ•˜์ง€๋งŒ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ๋ฐฉ์‹์— ์ฐจ์ด๋ฅผ ๋‘ก๋‹ˆ๋‹ค. ๊ต์‚ฌ ๋„คํŠธ์›Œํฌ๋Š” ํ•™์ƒ ๋„คํŠธ์›Œํฌ์˜ ๊ณผ๊ฑฐ ๊ฐ€์ค‘์น˜๋ฅผ ์ด์šฉํ•˜๊ฑฐ๋‚˜ ์ง€์ˆ˜ ์ด๋™ ํ‰๊ท (EMA)์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜์–ด ๋ณด๋‹ค ์•ˆ์ •๋œ ์ถœ๋ ฅ์„ ์ œ๊ณตํ•˜๊ณ , ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋Š” ์‹ค์ œ ํ•™์Šต์„ ํ†ตํ•ด ๊ฐ€์ค‘์น˜๊ฐ€ ๊ฐฑ์‹ ๋ฉ๋‹ˆ๋‹ค.

ํ›ˆ๋ จ ์‹œ๊ฐ„๋งˆ๋‹ค ๋™์ผํ•œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ต์‚ฌ์™€ ํ•™์ƒ์— ์„œ๋กœ ๋‹ค๋ฅธ ์ž…๋ ฅ์„ ์ œ๊ณตํ•˜๋Š”๋ฐ, ๊ต์‚ฌ์—๊ฒŒ๋Š” ์™„์ „ํ•œ ์›๋ณธ ๋ฐ์ดํ„ฐ x๋ฅผ ์ž…๋ ฅํ•˜๊ณ , ํ•™์ƒ์—๊ฒŒ๋Š” ์—ฌ๊ธฐ์— ์žก์Œ ๋˜๋Š” ๊ฒฐ์†์„ ๊ฐ€ํ•œ ๋ณ€ํ˜• ๋ฐ์ดํ„ฐ \tilde{x}๋ฅผ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ•™์ƒ ์ž…๋ ฅ \tilde{x}๋Š” ์ผ๋ถ€ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ๋งˆ์Šคํ‚น(masking)ํ•˜๊ฑฐ๋‚˜ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๋“ฑ์˜ ์˜ค์—ผ๋œ(corrupted) ๋ฐ์ดํ„ฐ๋กœ ๋งŒ๋“ค์–ด, ํ•™์ƒ ์ธ์ฝ”๋”๊ฐ€ ๋ถˆ์™„์ „ํ•œ ์ •๋ณด๋กœ๋ถ€ํ„ฐ๋„ ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์„ ์ถ”์ถœํ•˜๋„๋ก ๋„์ „ํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ ๊ต์‚ฌ ์ธ์ฝ”๋”๋Š” ์˜จ์ „ํ•œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๊ธฐ์ค€์ด ๋  ํ‘œํ˜„ E_{\hat{\theta}}(x)์„ ์ƒ์„ฑํ•ด ๋†“์Šต๋‹ˆ๋‹ค. ํ•™์Šต ๋ชฉํ‘œ๋Š” ํ•™์ƒ ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ ํ‘œํ˜„ E_{\theta}(\tilde{x})๊ฐ€ ๊ต์‚ฌ์˜ ์ถœ๋ ฅ E_{\hat{\theta}}(x)์™€ ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋‘ ์ถœ๋ ฅ ์ž„๋ฒ ๋”ฉ ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜(์˜ˆ: ์ฝ”์‚ฌ์ธ ๊ฑฐ๋ฆฌ ํ˜น์€ L2 ๋…ธ๋ฆ„)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉฐ ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋Š” ๋ถ€๋ถ„์ ์ธ ์ •๋ณด๋งŒ์œผ๋กœ๋„ ์ „์ฒด ์ •๋ณด๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จ๋˜๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ฐ•์ธํ•˜๊ณ  ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1: Sparsh-skin ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ฐœ์š”. ์•Œ๋ ˆ๊ทธ๋กœ ๋กœ๋ด‡ ์†์— ์ž๊ธฐ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋ฅผ ๋ถ€์ฐฉํ•˜์—ฌ ์ „์ฒด ์†๊ฐ€๋ฝ๊ณผ ์†๋ฐ”๋‹ฅ์—์„œ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค (์™ผ์ชฝ). ๊ต์‚ฌ ๋„คํŠธ์›Œํฌ๋Š” ์™„์ „ํ•œ ์„ผ์„œ ์ž…๋ ฅ x๋ฅผ ๋ฐ›์•„ ์ž ์žฌ ํ‘œํ˜„ E_{\hat{\theta}}(x)์„ ์ƒ์„ฑํ•˜๊ณ , ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋Š” ์ผ๋ถ€ ์„ผ์„œ ์‹ ํ˜ธ๊ฐ€ ์ œ๊ฑฐ๋˜๊ฑฐ๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ์˜ค์—ผ๋œ ์ž…๋ ฅ \tilde{x}์— ๋Œ€ํ•ด ํ‘œํ˜„ E_{\theta}(\tilde{x})์„ ์ถœ๋ ฅํ•œ๋‹ค (์˜ค๋ฅธ์ชฝ). ํ•™์ƒ ๋„คํŠธ์›Œํฌ๋Š” ์ž์‹ ์˜ ์ถœ๋ ฅ์„ ๊ต์‚ฌ ์ถœ๋ ฅ์— ๊ฐ€๊น๊ฒŒ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋จ์œผ๋กœ์จ, ๋ถˆ์™„์ „ํ•œ ์ž…๋ ฅ์—์„œ๋„ ์˜๋ฏธ ์žˆ๋Š” ์ „์ฒด ์ด‰๊ฐ ์ƒํƒœ ํ‘œํ˜„์„ ์–ป๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค. ์•„๋ž˜ ์ž‘์€ ์˜ˆ์‹œ ๊ทธ๋ฆผ๋“ค์€ ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ Sparsh-skin ํ‘œํ˜„์„ ํ™œ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋“ค์„ ๋ณด์—ฌ์ค€๋‹ค. (์ด๋ฏธ์ง€ ์ œ๊ณต: ๋…ผ๋ฌธ ์ €์ž)

Sparsh-skin ์ธ์ฝ”๋”์˜ ์ž…๋ ฅ์€ ๋กœ๋ด‡ ์†์˜ ๊ฐ ์ด‰๊ฐ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์ตœ๊ทผ ์งง์€ ์‹œ๊ฐ„ ๋™์•ˆ ์ˆ˜์ง‘๋œ ์‹ ํ˜ธ ์‹œํ€€์Šค์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์•ฝ 0.1์ดˆ ์ด๋‚ด์˜ ์งง์€ ์‹œ๊ฐ„ ์ฐฝ(window) ๋™์•ˆ ์„ผ์„œ๋“ค์ด ์ถœ๋ ฅํ•œ ์ •๊ทœํ™”๋œ 3์ถ• ํž˜ ์‹ ํ˜ธ๋“ค์„ ๋ชจ์•„ ํ•˜๋‚˜์˜ ์ž…๋ ฅ์œผ๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ˆœ๊ฐ„์ ์ธ ๊ฐ’๋ณด๋‹ค ์•ฝ๊ฐ„์˜ ์‹œ๊ฐ„์  ๋ณ€ํ™”๊นŒ์ง€ ๊ณ ๋ คํ•จ์œผ๋กœ์จ, ์ •์  ์••๋ ฅ ๋ถ„ํฌ๋ฟ ์•„๋‹ˆ๋ผ ๋งˆ์ฐฐ๋ ฅ ๋ณ€ํ™”, ๋ฏธ๋„๋Ÿฌ์ง ๋“ฑ ๋™์  ํŠน์ง•๋„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ์ด์ „์˜ Sparsh ์—ฐ๊ตฌ์—์„œ๋„ ์ˆ˜์‹ญ ๋ฐ€๋ฆฌ์ดˆ ๊ธธ์ด์˜ ์งง์€ ํ”„๋ ˆ์ž„ ์‹œํ€€์Šค(์˜ˆ: 80ms)๋ฅผ ํ† ํฐํ™”ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋ฉด ์ผ๋ฐ˜ํ™”์™€ ํ‘œํ˜„๋ ฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒฐ๊ณผ๊ฐ€ ์žˆ์—ˆ๋Š”๋ฐ, Sparsh-skin ์—ญ์‹œ ์ด๋Ÿฌํ•œ Temporal Tokenization ๊ฐœ๋…์„ ์ž๊ธฐ ์ด‰๊ฐ ์‹ ํ˜ธ์— ์ ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ Sparsh-skin์˜ ์ž…๋ ฅ์—๋Š” ๊ฐ ์„ผ์„œ์˜ ๊ณต๊ฐ„์  ์œ„์น˜ ์ •๋ณด(์† ๊ตฌ์กฐ ๋‚ด 3D ์ขŒํ‘œ)๋ฅผ ํฌํ•จ์‹œ์ผœ, ์ธ์ฝ”๋”๊ฐ€ ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ๊ณต๊ฐ„์  ๋งฅ๋ฝ๊นŒ์ง€ ๊ณ ๋ คํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ™์€ ํฌ๊ธฐ์˜ ํž˜์ด๋ผ๋„ ์†๋ฐ”๋‹ฅ ์ค‘์•™์—์„œ ๊ฐ์ง€๋œ ๊ฒƒ๊ณผ ์†๊ฐ€๋ฝ ๋์—์„œ ๊ฐ์ง€๋œ ๊ฒƒ์€ ๋กœ๋ด‡์ด ์ทจํ•ด์•ผ ํ•  ๋Œ€์‘์ด ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ชจ๋ธ์ด ์„ผ์„œ์˜ ์œ„์น˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ธ์ฝ”๋” ๋ชจ๋ธ ๊ตฌ์กฐ ์ž์ฒด์— ๋Œ€ํ•ด์„œ๋Š” ๋…ผ๋ฌธ์—์„œ ๊ตฌ์ฒด์ ์ธ ๊ตฌํ˜„ ๋””ํ…Œ์ผ์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ๊ธฐ๋ณธ์ ์œผ๋กœ ์œ„์—์„œ ์„ค๋ช…ํ•œ ๊ต์‚ฌ/ํ•™์ƒ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ์‹ ๊ฒฝ๋ง ์ธ์ฝ”๋”์ž…๋‹ˆ๋‹ค. ๊ฐ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์˜ค๋Š” ์‹œ๊ฐ„ ์ด๋ ฅ ์‹ ํ˜ธ๋Š” ๊ฐœ๋ณ„์ ์œผ๋กœ ์ž„๋ฒ ๋”ฉ๋œ ํ›„ ์† ์ „์ฒด ์ˆ˜์ค€์—์„œ ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ํ•œ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ์ถ”์ธก๋˜๋Š” ๊ฒƒ์€, ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ ์„ผ์„œ ์ •๋ณด๋ฅผ ํ•˜๋‚˜์˜ ํ† ํฐ์œผ๋กœ ๋ณด๊ณ  ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ์ธ์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋ชจ๋ธ์€ ์„ผ์„œ-๋ ˆ๋ฒจ์˜ ํ‘œํ˜„(sensor-level representation)์„ ํ•™์Šตํ•œ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๊ฐ ์„ผ์„œ ์‹ ํ˜ธ๋ฅผ ์ €์ฐจ์› ํŠน์ง•์œผ๋กœ ์ž„๋ฒ ๋”ฉํ•œ ๋’ค, ์ด๋Ÿฌํ•œ ์ž„๋ฒ ๋”ฉ๋“ค์„ ํ†ตํ•ฉํ•˜์—ฌ ์† ์ „์ฒด์˜ ํ‘œํ˜„์„ ๋งŒ๋“ ๋‹ค๋Š” ์˜๋ฏธ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ๋‚˜ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง(GNN) ๊ฐ™์€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ฐ ์„ผ์„œ์˜ ์œ„์น˜๋‚˜ ์ธ์ ‘ํ•œ ์„ผ์„œ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋…ผ๋ฌธ์€ ๊ตฌ์ฒด์ ์ธ ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค๋Š” ํ•™์Šต ์ „๋žต(self-distillation)์— ์ค‘์ ์„ ๋‘์–ด ์„œ์ˆ ํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ์—ฌ๊ธฐ์„œ๋Š” ํ•ต์‹ฌ ์•„์ด๋””์–ด ์ˆ˜์ค€์—์„œ ์ดํ•ดํ•˜๋ฉด ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, Sparsh-skin์˜ ๋ฐฉ๋ฒ•๋ก ์€ (1) ์† ์ „์ฒด์—์„œ ์–ป์€ ์งง์€ ์‹œ๊ฐ„ ๊ตฌ๊ฐ„์˜ ๋‹ค์ค‘ ์ด‰๊ฐ ์‹ ํ˜ธ์™€ ์„ผ์„œ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ , (2) ์ž๊ธฐ-์ฆ๋ฅ˜ ๋ฐฉ์‹์˜ ๋ฌด๋ผ๋ฒจ ์‚ฌ์ „ํ•™์Šต์„ ํ†ตํ•ด ํ•™์ƒ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋ถ€๋ถ„ ๊ด€์ฐฐ์—์„œ๋„ ์ „์ฒด ์ด‰๊ฐ ์ƒํƒœ๋ฅผ ํ•จ์ถ•ํ•˜๋Š” ํ‘œํ˜„์„ ๋‚ด๋„๋ก ํ›ˆ๋ จํ•˜๋ฉฐ, (3) ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ๊ณ ์ • ๋˜๋Š” ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ›„์† ์ž‘์—…์— ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ

์—ฐ๊ตฌ์ง„์€ ์ œ์•ˆํ•œ Sparsh-skin ์ธ์ฝ”๋”์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํฌ๊ฒŒ ๋‚˜๋ˆ„์–ด ๋ณด๋ฉด (a) ๋ฌผ๋ฆฌ์  ์–‘์ƒ ์ถ”์ • (์˜ˆ: ํž˜, ๋ฌผ์ฒด ์œ„์น˜ ๋“ฑ)๊ณผ (b) ์กฐ์ž‘ ์ •์ฑ… ํ•™์Šต ๋‘ ๋ฒ”์ฃผ๋กœ ์‹คํ—˜์„ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ๋œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์€ Shadow Allegro Hand๋กœ, ์—ฌ๊ธฐ์— 16๊ฐœ์˜ Xela uSkin ์„ผ์„œ ํŒจ์น˜๋ฅผ ์žฅ์ฐฉํ•˜์—ฌ ์†๊ฐ€๋ฝ 4๊ฐœ ์ „์ฒด์™€ ์†๋ฐ”๋‹ฅ ์ผ๋ถ€๋ฅผ ์ปค๋ฒ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฐ ์„ผ์„œ ํŒจ์น˜๋Š” 3์ถ• ํž˜์„ ๊ฐ์ง€ํ•˜๋ฏ€๋กœ, ์† ์ „์ฒด์—์„œ 3ร—16=48์ฐจ์›์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์‹œ๊ฐ์ ์œผ๋กœ๋Š” ์ผ์ข…์˜ ํž˜ ๋ถ„ํฌ ์ง€๋„์ฒ˜๋Ÿผ ์ถœ๋ ฅ๋ฉ๋‹ˆ๋‹ค. ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋Œ€๋กœ ์—ฐ๊ตฌ์ง„์€ VR ๊ธฐ๊ธฐ๋ฅผ ์ด์šฉํ•ด ์›๊ฒฉ ์กฐ์ž‘์œผ๋กœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์ง„ํ–‰ํ–ˆ๋Š”๋ฐ, ์ด 4์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ ๋™์•ˆ 14๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ผ์ƒ ๋ฌผ์ฒด ๋ฐ ์žฅ๋‚œ๊ฐ์„ ๊ฐ€์ง€๊ณ  ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ ‘์ด‰ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ถ€๋“œ๋Ÿฌ์šด ๊ณต์„ ์ฅ์—ˆ๋‹ค ๋†“๊ธฐ, ๋ธ”๋ก์„ ์†๋ฐ”๋‹ฅ์—์„œ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฌ๊ธฐ, ๋ณ‘๋šœ๊ป‘์„ ๋น„ํ‹€์–ด ์—ด๊ธฐ, ํ‚ค๋ณด๋“œ๋ฅผ ๋ˆ„๋ฅด๊ธฐ ๋“ฑ์˜ ์›์ดˆ์  ๋™์ž‘๋“ค์ด ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ๋Š” ์™„์ „ํžˆ ๋ผ๋ฒจ ์—†๋Š” ์ƒํƒœ๋กœ ์ˆ˜์ง‘๋˜์—ˆ์œผ๋ฉฐ, Sparsh-skin ์ธ์ฝ”๋”์˜ ์‚ฌ์ „ํ•™์Šต์— ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ „ํ•™์Šต ํ›„, ์—ฐ๊ตฌ์ง„์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ๋“ค์—์„œ Sparsh-skin์˜ ํ‘œํ˜„์„ ํ™œ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ํž˜(์ ‘์ด‰ ์‹ ํ˜ธ) ์žฌ๊ตฌ์„ฑ ๋ฐ ์ถ”์ •: ์ฒซ ๋ฒˆ์งธ๋กœ, ์ด‰๊ฐ ์‹ ํ˜ธ ์ž์ฒด๋ฅผ ๋ณต์›ํ•˜๋Š” ๊ณผ์ œ๋ฅผ ํ†ตํ•ด ์ธ์ฝ”๋”๊ฐ€ ์‹ค์ œ ํž˜ ์ •๋ณด๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ณด์กดํ•˜๋Š”์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-skin ์ธ์ฝ”๋”๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ์ž ์žฌ ๋ฒกํ„ฐ๋ฅผ ๋‹ค์‹œ ์›๋ž˜ ๊ฐ ์„ผ์„œ๋“ค์˜ ์‹ ํ˜ธ๋กœ ๋ณต์›ํ•˜๋„๋ก ์˜คํ† ์ธ์ฝ”๋” ๋ฐ์ฝ”๋”๋ฅผ ํ›ˆ๋ จํ•˜์—ฌ, ๋ณต์›๋œ ์ด‰๊ฐ ์ง€๋„๋ฅผ ์‹œ๊ฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋…น์ƒ‰ ์›์œผ๋กœ ํ‘œ์‹œ๋œ ์„ผ์„œ๋ณ„ ๋ˆ„๋ฅด๋Š” ํž˜์˜ ํฌ๊ธฐ(์› ํฌ๊ธฐ์— ๋น„๋ก€)์™€ ๋นจ๊ฐ„ ํ™”์‚ดํ‘œ๋กœ ํ‘œ์‹œ๋œ ์ „๋‹จ(๋งˆ์ฐฐ) ๋ฐฉํ–ฅ(์›๋ž˜ ์„ผ์„œ ์œ„์น˜์—์„œ ์–ด๊ธ‹๋‚œ ์ •๋„์™€ ๋ฐฉํ–ฅ์œผ๋กœ ํ‘œํ˜„)์ด ์‹ค์ œ ์ ‘์ด‰๊ณผ ์ž˜ ๋ถ€ํ•ฉํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” Sparsh-skin์˜ ์ž ์žฌ ํ‘œํ˜„์ด ์„ผ์„œ๋ณ„ ์ ‘์ด‰๋ ฅ (์ •๊ทœ๋ถ„๋ ฅ + ์ „๋‹จ๋ ฅ) ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์••์ถ•ํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€, ๋ณ„๋„์˜ ์ ˆ๋Œ€ ํž˜ ๋ณด์ • ๋ชจ๋ธ์„ ์•ฝ๊ฐ„์˜ ์ง€๋„ํ•™์Šต์œผ๋กœ ํ•™์Šตํ•˜๋ฉด, Sparsh-skin ํ‘œํ˜„์œผ๋กœ๋ถ€ํ„ฐ ์‹ค์ œ ๋‰ดํ„ด ๋‹จ์œ„์˜ ํž˜ ์ถ”์ •๋„ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํž˜ ์ถ”์ • ๋Šฅ๋ ฅ์€ ์ถ”ํ›„ ๋กœ๋ด‡์ด ์ ‘์ด‰๋ ฅ์„ ์กฐ์ ˆํ•˜๊ฑฐ๋‚˜, ๋ฏธ๋„๋Ÿฌ์ง์„ ์˜ˆ๋ฐฉํ•˜๊ธฐ ์œ„ํ•ด ํž˜ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๋“ฑ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์†์— ์ฅ” ๋ฌผ์ฒด์˜ ์ž์„ธ(pose) ์ถ”์ •: ๋‘ ๋ฒˆ์งธ๋กœ, ๋กœ๋ด‡ ์†์ด ์žก๊ณ  ์žˆ๋Š” ๋ฌผ์ฒด์˜ ์ƒ๋Œ€์ ์ธ ์ž์„ธ๋ฅผ ์ด‰๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ๊ณผ์ œ๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์†๋ฐ”๋‹ฅ ์œ„์— ๋†“์ธ ์›๊ธฐ๋‘ฅ ๋ฌผ์ฒด์˜ ํšŒ์ „ ๊ฐ๋„๋‚˜ ์œ„์น˜ ์ด๋™์„ Sparsh-skin ํ‘œํ˜„์œผ๋กœ๋ถ€ํ„ฐ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ํšŒ๊ท€-๋ถ„๋ฅ˜ ํ˜ผํ•ฉ ๋ฐฉ์‹(regression-by-classification)์˜ ์–•์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ, Sparsh-skin ํ‘œํ˜„์„ ์ž…๋ ฅ ๋ฐ›์•„ ๋ฌผ์ฒด์˜ SE(3) ์ž์„ธ๋ฅผ ์ถ”๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค (Sparsh ๋…ผ๋ฌธ์˜ ๊ฒฝ์šฐ 2D ํ‰๋ฉด ์ƒ์˜ SE(2) ๋ณ€ํ™˜์„ ์ถ”์ •ํ•˜๋Š” ์‹คํ—˜์ด ์žˆ์—ˆ๊ณ , ๋ณธ ์—ฐ๊ตฌ์—์„œ๋„ ์œ ์‚ฌํ•œ ์ ‘๊ทผ์„ 3์ฐจ์›์œผ๋กœ ํ™•์žฅํ–ˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค). ๊ทธ ๊ฒฐ๊ณผ Sparsh-skin์œผ๋กœ ํ•™์Šตํ•œ ํ‘œํ˜„์ด ๋ฌผ์ฒด์˜ ํšŒ์ „ ๋ฐ ์ด๋™ ์ •๋ณด๋ฅผ ์ƒ๋‹น ๋ถ€๋ถ„ ๋‚ดํฌํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด‰๊ฐ๋งŒ์œผ๋กœ๋„ ๋ฌผ์ฒด์˜ ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์‹œ๊ฐ ์ •๋ณด ์—†์ด๋„ ์†์•„๊ท€ ๋‚ด์˜ ๋ฌผ์ฒด ์ถ”์ ์ด ๊ฐ€๋Šฅํ•  ์ž ์žฌ๋ ฅ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

  • ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…(์ •๋ฐ€ ์กฐ์ž‘) ์ •์ฑ… ํ•™์Šต: ์„ธ ๋ฒˆ์งธ๋กœ, Sparsh-skin ํ‘œํ˜„์ด ์‹ค์ œ ๋‹ค์ง€ ์† ์กฐ์ž‘ ๊ณผ์ œ์—์„œ ์ •์ฑ…(policy) ํ•™์Šต์„ ์–ผ๋งˆ๋‚˜ ๋„์™€์ฃผ๋Š”์ง€ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์œผ๋กœ ์„ ํƒ๋œ ๊ณผ์ œ๋Š” ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž…์œผ๋กœ, ๋กœ๋ด‡ ์†์ด ๋ฏธ๋ฆฌ ์ฅ๊ณ  ์žˆ๋Š” ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ์•ž์— ๋†“์ธ ๋ฉ€ํ‹ฐํƒญ ์ฝ˜์„ผํŠธ์˜ ์ฒซ ๋ฒˆ์งธ ์†Œ์ผ“์— ์ •ํ™•ํžˆ ๊ฝ‚๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ์†๊ฐ€๋ฝ๋“ค๋กœ ํ”Œ๋Ÿฌ๊ทธ๋ฅผ ๋‹จ๋‹จํžˆ ์ฅ” ์ฑ„, ์†๋ชฉ๊ณผ ์†๊ฐ€๋ฝ์˜ ์ ์ ˆํ•œ ์กฐํ•ฉ ์›€์ง์ž„์œผ๋กœ ํ”Œ๋Ÿฌ๊ทธ ํ•€์„ ์†Œ์ผ“ ํ™€์— ๋งž์ถฐ ๋„ฃ์–ด์•ผ ํ•˜๋ฏ€๋กœ, ๋‚œ์ด๋„๊ฐ€ ๋†’์€ ์ •๋ฐ€ ์กฐ์ž‘์— ์†ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ์ž‘์—…์— ๋Œ€ํ•ด ์ธ๊ฐ„ ์›๊ฒฉ์กฐ์ž‘ ๋ฐ๋ชจ ์—ฌ๋Ÿฌ ํšŒ๋ฅผ ์ˆ˜์ง‘ํ•œ ํ›„, ์ด๋ฅผ ์ด์šฉํ•ด ํ™•์‚ฐ ์ •์ฑ…(Diffusion Policy) ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด ์ •์ฑ…์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ฉ€ํ‹ฐ ๋ชจ๋‹ฌ ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, 3๋Œ€์˜ ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ ์†๋ชฉ ์นด๋ฉ”๋ผ ์˜์ƒ์ด ์‹œ๊ฐ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง€๊ณ  ์—ฌ๊ธฐ์— Sparsh-skin ์ด‰๊ฐ ํ‘œํ˜„์ด ๊ฒฐํ•ฉ๋œ ํ˜•ํƒœ์˜€์Šต๋‹ˆ๋‹ค. ๋น„๊ต๊ตฐ์œผ๋กœ๋Š” ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์˜ค์ง ๋น„์ „(vision) ์ž…๋ ฅ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ์™€, ์ด‰๊ฐ์„ ์‚ฌ์šฉํ•˜๋˜ end-to-end๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒฝ์šฐ ๋“ฑ์„ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, Sparsh-skin ์‚ฌ์ „ํ•™์Šต ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋ฉฐ, ๋™์ผํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ end-to-end๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์ด๋‚˜ ์ด‰๊ฐ์„ ๋ฐฐ์ œํ•œ ์ •์ฑ…์— ๋น„ํ•ด ์•ˆ์ •์ ์ด๊ณ  ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต๋จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ Sparsh-skin ํ‘œํ˜„์„ ์“ด ์ •์ฑ…์€ ์‹œ๊ฐ ์ž…๋ ฅ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…๋ณด๋‹ค ์„ฑ๊ณต๋ฅ ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’๊ณ (์ด‰๊ฐ ๋ฏธํ™œ์šฉ ๋Œ€๋น„), end-to-end ๋Œ€๋น„ ํ•™์Šต ์•ˆ์ •์„ฑ ๋ฐ ์„ฑ๊ณต๋ฅ  ๋ชจ๋‘ ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ๋ณด๊ณ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด‰๊ฐ ํ‘œํ˜„์ด ์‹œ๊ฐ์œผ๋กœ ๋ถ€์กฑํ•œ ๋ฏธ์„ธ ์ •๋ ฌ ์ •๋ณด๋ฅผ ๋ณด์™„ํ•˜๊ณ , ํ•™์Šต ๊ณต๊ฐ„์„ ์ค„์—ฌ์ฃผ์–ด ์ •์ฑ… ํ•™์Šต์„ ์šฉ์ดํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค.

ไปฅไธŠ ์„ธ ๊ฐ€์ง€ ๋Œ€ํ‘œ ์‹คํ—˜์„ ํ†ตํ•ด, Sparsh-skin์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์ด ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ์œ ์šฉํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •๋Ÿ‰์ ์ธ ์„ฑ๋Šฅ์„ ์š”์•ฝํ•˜๋ฉด, Sparsh-skin์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ ๊ธฐ์กด์˜ ์ตœ์„ ์˜ ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ‰๊ท  41% ์ด์ƒ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์žˆ์—ˆ๊ณ , ํŠน์ • ์ž‘์—…์—์„œ๋Š” ์ตœ๋Œ€ 56% ํ–ฅ์ƒ์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋ฌผ์ฒด ์ž์„ธ ์ถ”์ • ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ๋†’์•„์กŒ์œผ๋ฉฐ, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ์„ฑ๊ณต๋ฅ ๋„ ์ด‰๊ฐ ๋ฏธ์‚ฌ์šฉ ๋Œ€๋น„ ์ƒ๋‹นํžˆ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•™์Šต ๊ณก์„ ์„ ๋น„๊ตํ•˜๋ฉด, ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋ชฉํ‘œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•จ์„ ๋ณด์—ฌ ํ‘œ๋ณธ ํšจ์œจ์„ฑ(sample efficiency) ์—ญ์‹œ ๊ฐœ์„ ๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Sparsh-skin ์ž„๋ฒ ๋”ฉ์ด ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์ƒํ™ฉ์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”๋œ ํŠน์ง• ํ‘œํ˜„์„ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅํ•œ ๊ฒฐ๊ณผ๋กœ, ๊ฐ๊ฐ์˜ ๊ณผ์ œ๋งˆ๋‹ค ์ดˆ๋ฐ˜๋ถ€ํ„ฐ ์œ ์šฉํ•œ ํŠน์„ฑ์„ ์ถ”์ถœํ•˜์—ฌ ํ•™์Šต์„ ๋น ๋ฅด๊ฒŒ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ

๋ณธ ์—ฐ๊ตฌ๋Š” ์† ์ „์ฒด ์ด‰๊ฐ ์„ผ์„œ๋ฅผ ํ™œ์šฉํ•œ ์ž๊ธฐ ์ง€๋„ ํ‘œํ˜„ ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋‚จ์•„์žˆ๋Š” ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ๋ฐœ์ „์‹œํ‚ฌ ๋ฐฉํ–ฅ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:

  • ์ ˆ๋Œ€์  ํž˜/๋ฌผ๋ฆฌ๋Ÿ‰์— ๋Œ€ํ•œ ์ •๋ฐ€ ๋ณด์ •: Sparsh-skin ํ‘œํ˜„์€ ๋‹ค์–‘ํ•œ ์ ‘์ด‰ ํŒจํ„ด์˜ ์ƒ๋Œ€์  ์ฐจ์ด๋Š” ์ž˜ ํ•™์Šตํ•˜์ง€๋งŒ, ์‹ค์ œ ๋‰ดํ„ด ๋‹จ์œ„์˜ ์ ˆ๋Œ€ ํž˜ ์ถ”์ •์ด๋‚˜ ์ ˆ๋Œ€์ ์ธ ๋งˆ์ฐฐ ๊ณ„์ˆ˜ ์ถ”์ • ๋“ฑ์—๋Š” ์ถ”๊ฐ€ ๋ณด์ •์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž๊ธฐ ์„ผ์„œ ์ถœ๋ ฅ์€ ํ™˜๊ฒฝ ์ž๊ณ„๋‚˜ ๊ฐœ๋ณ„ ์„ผ์„œ ํŽธ์ฐจ ๋“ฑ์œผ๋กœ drift๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์–ด, ์™„์ „ํžˆ ๋ณด์ • ์—†๋Š” ์ƒํƒœ๋กœ๋Š” ์ ˆ๋Œ€๊ฐ’ ์˜ˆ์ธก์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์‚ฌ์ „ํ•™์Šต๋œ ํ‘œํ˜„์— ์†Œ๋Ÿ‰์˜ ๋ผ๋ฒจ๋œ ๋ฐ์ดํ„ฐ(์˜ˆ: ํž˜ ์„ผ์„œ ๊ณ„์ธก๊ฐ’)๋กœ ๋ฏธ์„ธ ๋ณด์ •์„ ๊ฐ€ํ•˜์—ฌ, ์ ˆ๋Œ€ ๋ฌผ๋ฆฌ๋Ÿ‰๊นŒ์ง€ ์ •๋ฐ€ํ•˜๊ฒŒ ์ถ”์ •ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์–‘ํ•œ ์„ผ์„œ ๋ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€์˜ ํ†ตํ•ฉ: ๋ณธ ์—ฐ๊ตฌ๋Š” Xela์‚ฌ์˜ uSkin์ด๋ผ๋Š” ํŠน์ • ์ž๊ธฐ ์ด‰๊ฐ ์„ผ์„œ ํ•˜๋“œ์›จ์–ด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ์ด‰๊ฐ ์„ผ์„œ(์˜ˆ: ๊ด‘ํ•™์‹ ์ ค ์ด‰๊ฐ์„ผ์„œ, ์••์ „ ์„ผ์„œ ๋“ฑ)๋‚˜ ์˜จ๋„/์ง„๋™๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์ ‘์ด‰ ๊ฐ๊ฐ๊นŒ์ง€ ํ†ตํ•ฉํ•œ ํ‘œํ˜„์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ๋„ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์‚ฌ์‹ค Sparsh ๊ณ„์—ด์˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋กœ Sparsh-X๋ผ๋Š” ๋‹ค์ค‘๋ชจ๋‹ฌ(multisensory) ์ด‰๊ฐ ํ‘œํ˜„์„ ๊ฐœ๋ฐœํ•œ ์˜ˆ๊ฐ€ ์žˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ๋Š” ์ด๋ฏธ์ง€, ํž˜, ์ง„๋™, ์Œํ–ฅ ๋“ฑ์˜ ์‹ ํ˜ธ๋ฅผ ํ•จ๊ป˜ ํ•™์Šต์‹œ์ผœ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ Sparsh-skin๋„ ๋น„์ „ ์นด๋ฉ”๋ผ ์ •๋ณด๋‚˜ ์†Œ๋ฆฌ ์„ผ์„œ ๋“ฑ์„ ๊ฒฐํ•ฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์œผ๋กœ ๋ฐœ์ „์‹œํ‚จ๋‹ค๋ฉด, ๋”์šฑ ํ’๋ถ€ํ•œ ์ด‰๊ฐ ์ง€๊ฐ ๋Šฅ๋ ฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์ผ๋ฐ˜ํ™” ๋ฐ ์ „์ด ํ•™์Šต: Sparsh-skin ์ธ์ฝ”๋”๋Š” ํ•œ ๊ฐ€์ง€ ๋กœ๋ด‡ ์†๊ณผ ์„ผ์„œ ์„ธํŒ…์— ๋Œ€ํ•ด ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋‹ค๋ฅธ ๋กœ๋ด‡ ์†(์˜ˆ: ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅธ ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ)์ด๋‚˜ ๋‹ค๋ฅธ ์„ผ์„œ ๋ฐฐ์—ด์—๋„ ์ ์šฉํ•˜๋ ค๋ฉด ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์† ๊ตฌ์กฐ๋‚˜ ์„ผ์„œ ๋ถ„ํฌ๊ฐ€ ๋ฐ”๋€Œ๋ฉด ์„ผ์„œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋“ฑ ์ž…๋ ฅ ํ‘œํ˜„์„ ์กฐ์ •ํ•ด์•ผ ํ•˜๋ฉฐ, ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ์ „์ด ํ•™์Šต(transfer learning)์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋ž˜์—๋Š” ์—ฌ๋Ÿฌ ํ˜•ํƒœ์˜ ์†๊ณผ ์„ผ์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ํ•˜๋“œ์›จ์–ด์— ๋„๋ฉ”์ธ ์ ์‘์‹œํ‚ค๋Š” ์—ฐ๊ตฌ๋„ ์ด๋ฃจ์–ด์งˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

  • ์‹ค์‹œ๊ฐ„ ์ œ์–ด์™€์˜ ์ ‘๋ชฉ: ํ˜„์žฌ Sparsh-skin ํ‘œํ˜„์€ ์ฃผ๋กœ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ํ•™์Šต ๋ฐ ํ‰๊ฐ€๋กœ ๊ทธ์ณ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„์—๋Š” ์ด ํ‘œํ˜„์„ ๋กœ๋ด‡์˜ ์‹ค์‹œ๊ฐ„ ์ œ์–ด ๋ฃจํ”„์— ๋„ฃ์–ด, ํ”ผ๋“œ๋ฐฑ ์ œ์–ด๋‚˜ ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด(MPC)์—์„œ ๋ฐ”๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ๋„ ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์†๊ฐ€๋ฝ ๋ฏธ๋„๋Ÿฌ์ง ๊ฐ์ง€ ํ›„ ์ฆ‰๊ฐ ๊ทธ๋ฆฝ ์กฐ์ •์„ ํ•œ๋‹ค๋“ ๊ฐ€, ํž˜ ์ œ์–ด ๋ฃจํ”„์— Sparsh-skin ํ”ผ์ฒ˜๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๋“ฑ์˜ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ธ์ฝ”๋”์˜ ์ถ”๋ก  ์†๋„ ์ตœ์ ํ™”์™€ ์‹ค์‹œ๊ฐ„ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ ๋“ฑ์ด ๋’ท๋ฐ›์นจ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, Sparsh-skin ์—ฐ๊ตฌ๋Š” ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ์žฅ์„ ์—ด์—ˆ์œผ๋‚˜, ์ ˆ๋Œ€์  ๋ฌผ๋ฆฌ๋Ÿ‰ ์ถ”์ •, ๋‹ค์–‘ํ•œ ์„ผ์„œ ํ†ตํ•ฉ, ์ƒˆ๋กœ์šด ํ˜•ํƒœ๋กœ์˜ ์ผ๋ฐ˜ํ™”, ์‹ค์‹œ๊ฐ„ ์‹œ์Šคํ…œ ์ ์šฉ ๋“ฑ ์•ž์œผ๋กœ ํƒ๊ตฌํ•ด์•ผ ํ•  ํฅ๋ฏธ๋กœ์šด ์—ฐ๊ตฌ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์ง€์†์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ์ด๋ค„์ง„๋‹ค๋ฉด, ์žฅ์ฐจ ๋กœ๋ด‡์ด ์‚ฌ๋žŒ ์ˆ˜์ค€์œผ๋กœ ํ’๋ถ€ํ•œ ์ด‰๊ฐ์ง€๋Šฅ์„ ๊ฐ–์ถ”๋Š” ๋ฐ ํฌ๊ฒŒ ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

๐Ÿ’ฅ Sparsh (์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต) ์—ฐ๊ตฌ์™€์˜ ์—ฐ๊ด€์„ฑ

์•ž์„œ ์–ธ๊ธ‰ํ•˜์˜€๋“ฏ์ด, ๋ณธ ๋…ผ๋ฌธ์˜ Sparsh-skin์€ 2024๋…„ CoRL์— ๋ฐœํ‘œ๋œ Sparsh ์—ฐ๊ตฌ์˜ ์—ฐ์žฅ์„  ์ƒ์— ์žˆ์Šต๋‹ˆ๋‹ค. Sparsh๋Š” โ€œSelf-supervised touch representations for vision-based tactile sensingโ€๋ผ๋Š” ์ œ๋ชฉ ๊ทธ๋Œ€๋กœ, ์‹œ๊ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ด‰๊ฐ ์„ผ์„œ(์˜ˆ: GelSight, DIGIT์™€ ๊ฐ™์€ ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ์„ผ์„œ)๋ฅผ ์œ„ํ•œ ์ž๊ธฐ ์ง€๋„ ํ‘œํ˜„ ํ•™์Šต ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•œ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. Sparsh ์—ฐ๊ตฌ์˜ ๋ฐฐ๊ฒฝ์—๋Š”, ์ตœ๊ทผ ๋“ฑ์žฅํ•œ ๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์นด๋ฉ”๋ผ ์„ผ์„œ๋“ค์ด ๋กœ๋ด‡ ์กฐ์ž‘์— ํฐ ๋„์›€์ด ๋˜๊ณ  ์žˆ์ง€๋งŒ, ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์„ผ์„œ๋งˆ๋‹ค ๋ผ์ดํŒ… ์กฐ๋ช…, ์ ค ํŒจํ„ด, ์นด๋ฉ”๋ผ ํŠน์„ฑ ๋“ฑ์ด ๋‹ฌ๋ผ ์„ผ์„œ๋งˆ๋‹ค ๋ณ„๋„์˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š” ๋น„ํšจ์œจ์ด ์žˆ๋‹ค๋Š” ๋ฌธ์ œ์˜์‹์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฏธ๋„๋Ÿฌ์ง(slip) ๊ฐ์ง€๋‚˜ ์ ‘์ด‰๋ ฅ ์ถ”์ • ๋“ฑ์˜ ๊ณผ์ œ๋ฅผ ์œ„ํ•œ ๋ ˆ์ด๋ธ”๋œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์–ด๋ ค์›€๋„ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž Sparsh์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์นด๋ฉ”๋ผ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์•ฝ 46๋งŒ ์žฅ ์ด์ƒ์˜ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ์•„ ํ•ฉ์ณ์„œ ํ†ตํ•ฉ๋œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, Sparsh ์—ฐ๊ตฌ์ง„์€ MAE(Masked Autoencoder), DINO(์ž๊ธฐ ์ฆ๋ฅ˜), JEPA(Joint Embedding Predictive Architecture) ๋“ฑ ์—ฌ๋Ÿฌ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ๊ธฐ๋ฒ•์„ ์‹คํ—˜์ ์œผ๋กœ ๋น„๊ตํ•˜์—ฌ, ์–ด๋–ค ์ ‘๊ทผ์ด ์ด‰๊ฐ ์ด๋ฏธ์ง€ ํ‘œํ˜„์— ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ์ง€ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ํ”ฝ์…€ ๊ณต๊ฐ„์—์„œ ๋ณต์›ํ•˜๋Š” MAE๋ณด๋‹ค๋Š”, ์ž ์žฌ ํ‘œํ˜„ ๊ณต๊ฐ„์—์„œ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” DINO๋‚˜ I-JEPA์™€ ๊ฐ™์€ ๊ธฐ๋ฒ•์ด ๋” ์šฐ์ˆ˜ํ•˜๋‹ค๋Š” ๊ฒฐ๋ก ์„ ์–ป์—ˆ๊ณ , ์ตœ์ข…์ ์œผ๋กœ Sparsh-DINO์™€ Sparsh-IJEPA ๋ชจ๋ธ์ด ๊ฐ€์žฅ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์€ ์‚ฌ์ „ํ•™์Šต์„ ๊ฑฐ์น˜์ง€ ์•Š์€ end-to-end ํ•™์Šต ๋Œ€๋น„ TacBench๋กœ ๋ช…๋ช…๋œ ์ด‰๊ฐ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท  95.1%๋ผ๋Š” ์••๋„์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ์‚ฌ์ „ํ•™์Šต์˜ ํšจ๊ณผ๊ฐ€ ๋งค์šฐ ํฌ๋‹ค๋Š” ๊ฒƒ์„ ๋‹จ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. TacBench์—๋Š” 6๊ฐ€์ง€์˜ ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ๊ณผ์ œ(์˜ˆ: ์ ‘์ด‰๋ ฅ ๋งต ๋ณต์›, ๋ฏธ๋„๋Ÿผ ์—ฌ๋ถ€ ๋ถ„๋ฅ˜, ๋ฌผ์ฒด ์‹๋ณ„, ์กฐ์ž‘ ๊ณ„ํš ๋“ฑ)๊ฐ€ ํฌํ•จ๋˜๋Š”๋ฐ, Sparsh ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์€ ์ด๋“ค ์—ฌ๋Ÿฌ ๊ณผ์ œ์™€ ์„œ๋กœ ๋‹ค๋ฅธ ์„ผ์„œ๋“ค์— ๋Œ€ํ•ด ๋ชจ๋‘ ์ผ๊ด€๋˜๊ฒŒ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ Sparsh ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด, ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ์„ผ์„œ ๋ถ„์•ผ์—์„œ๋„ ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ฒ”์šฉ ์ด‰๊ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋ฉด ๊ฐœ๋ณ„ ๋ฌธ์ œ์— ์ผ์ผ์ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ํšจ๊ณผ์ ์ž„์ด ์ž…์ฆ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ Sparsh์˜ ์ฒ ํ•™๊ณผ ์„ฑ๊ณผ๋Š” Sparsh-skin์œผ๋กœ ๊ณ ์Šค๋ž€ํžˆ ์ด์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋‘ ์—ฐ๊ตฌ์˜ ๊ธฐ์ˆ ์  ์—ฐ์†์„ฑ๊ณผ ์ฐจ๋ณ„์ ์„ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ํ•™์Šต ์ฒ ํ•™์˜ ์—ฐ์†์„ฑ: ๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ โ€œ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์šฉ ํ‘œํ˜„(foundation representation)โ€์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋ผ๋ฒจ์ด ๋ถ€์กฑํ•œ ์ด‰๊ฐ ์˜์—ญ์—์„œ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์„ ๋„์ž…ํ•˜์—ฌ ์‚ฌ์ „ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ๋งŒ๋“ค๊ณ , ์ด๋ฅผ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์šฉํ•˜๋Š” ํฐ ํ๋ฆ„์ด Sparsh์—์„œ Sparsh-skin์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๊ฐ ์ด‰๊ฐ์ด๋ฏธ์ง€์—์„œ ์ž๊ธฐ ์ด‰๊ฐํ”ผ๋ถ€ ์‹ ํ˜ธ๋กœ ์ž…๋ ฅ modality๋งŒ ๋‹ฌ๋ผ์กŒ์„ ๋ฟ, ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต โ†’ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ „์ด์˜ ๊ตฌ์กฐ๋Š” ๋™์ผํ•œ ์ฒ ํ•™์ž…๋‹ˆ๋‹ค.

  • ์„ผ์„œ ํ˜•ํƒœ์˜ ์ฐจ์ด: Sparsh๋Š” ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ(vision-based tactile) ์ฆ‰, ์ด๋ฏธ์ง€ ํ˜•ํƒœ์˜ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด Sparsh-skin์€ ์ž๊ธฐ์žฅ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ๋กœ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค์ค‘ ์ง€์ ์˜ ์•„๋‚ ๋กœ๊ทธ ์‹ ํ˜ธ ์‹œํ€€์Šค ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. Sparsh์—์„œ๋Š” ์ด๋ฏธ์ง€ ํŒจ์น˜๋ฅผ ๋งˆ์Šคํ‚นํ•˜๊ฑฐ๋‚˜ ํ•˜๋Š” ์‹์œผ๋กœ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์ด ํ™œ์šฉ๋˜์—ˆ๊ณ , Conv-NeXt๋‚˜ ViT์™€ ๊ฐ™์€ ๋น„์ „ ์‹ ๊ฒฝ๋ง ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-skin์—์„œ๋Š” ์‹œ๊ณ„์—ด ์„ผ์„œ ์‹ ํ˜ธ์ด๋ฏ€๋กœ, ์‹œ๊ฐ„ ์ฒ˜๋ฆฌ ๋ฐ ์„ผ์„œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋“ฑ ์‹œ๊ณ„์—ด+๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๊ด€์ ์—์„œ Sparsh๋Š” CNN/Transformer ๋น„์ „ ๋ฐฑ๋ณธ์ด๊ณ , Sparsh-skin์€ ์•„๋งˆ๋„ ์‹œ๊ณ„์—ด ์ž„๋ฒ ๋”ฉ + Transformer (ํ˜น์€ GNN) ๊ตฌ์กฐ๋กœ ๊ตฌํ˜„๋˜๋Š” ๋“ฑ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Sparsh๋Š” ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ์„ผ์„œ ์ด๋ฏธ์ง€(์†๊ฐ€๋ฝ ํ•œ ๊ฐœ์˜ ์ด‰๊ฐ ์ด๋ฏธ์ง€)์— ๋Œ€ํ•ด ๋™์ž‘ํ•˜์ง€๋งŒ, Sparsh-skin์€ ์† ์ „์ฒด์˜ ์—ฌ๋Ÿฌ ์„ผ์„œ๋ฅผ ๋™์‹œ์— ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ฆ‰ Sparsh๋Š” ์—ฌ๋Ÿฌ ์„ผ์„œ ์ข…๋ฅ˜์— ๋Œ€ํ•ด ๊ฐ๊ฐ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์ด์—ˆ๋‹ค๋ฉด, Sparsh-skin์€ ์—ฌ๋Ÿฌ ์„ผ์„œ๊ฐ€ ์ด๋ฃจ๋Š” ํ•˜๋‚˜์˜ ์‹œ์Šคํ…œ์„ ํ•œ๊บผ๋ฒˆ์— ๋ชจ๋ธ๋งํ•œ๋‹ค๋Š” ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๋ฒ”์œ„: Sparsh๋Š” ์—ฌ๋Ÿฌ ์—ฐ๊ตฌํŒ€์ด ๊ณต๊ฐœํ•œ ์—ฌ๋Ÿฌ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ฉ ํ™œ์šฉํ•˜์—ฌ ์ด 66๋งŒ์žฅ ๊ฐ€๋Ÿ‰์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ์•˜์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” GelSight ์„ผ์„œ๋กœ ๋ˆ„๋ฅธ ๋ฌผ์ฒด ๋ฐ์ดํ„ฐ, DIGIT ์„ผ์„œ๋กœ ๋ฌธ์ง€๋ฅธ ๋ฐ์ดํ„ฐ ๋“ฑ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์ด ํฌํ•จ๋˜์–ด, ํ•œ ๊ฐ€์ง€ ์†๊ฐ€๋ฝ ์„ผ์„œ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ์˜ ๋ฒ”์šฉ์„ฑ์„ ํ‚ค์› ์Šต๋‹ˆ๋‹ค. Sparsh-skin์€ ์ž์ฒด ์ˆ˜์ง‘ํ•œ 4์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋ฉ€ํ‹ฐ์„ผ์„œ ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ , ์ด๋Š” ํ•œ ์œ ํ˜•์˜ ์„ผ์„œ(uSkin)์ด์ง€๋งŒ ์†์˜ ์—ฌ๋Ÿฌ ์œ„์น˜์™€ ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ๋™์ž‘์„ ์•„์šฐ๋ฅด๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ด์•˜์Šต๋‹ˆ๋‹ค. Sparsh๊ฐ€ ์„ผ์„œ ๊ฐ„ ๋ฒ”์šฉ์„ฑ(๋‹ค๋ฅธ ์ด‰๊ฐ ์นด๋ฉ”๋ผ๋“ค ๋ชจ๋‘์— ํ†ตํ•˜๋Š” ๋ชจ๋ธ)์„ ๋‹ฌ์„ฑํ•˜๋ ค ํ–ˆ๋‹ค๋ฉด, Sparsh-skin์€ ์† ๋‚ด์˜ ๊ณต๊ฐ„์  ๋ฒ”์šฉ์„ฑ(์†๊ฐ€๋ฝ~์†๋ฐ”๋‹ฅ ์–ด๋””์—์„œ ์ ‘์ด‰์ด ์ผ์–ด๋‚˜๋„ ์ผ๊ด€๋œ ํ‘œํ˜„์œผ๋กœ ํ†ตํ•ฉ)์„ ๋‹ฌ์„ฑํ•˜๋ ค ํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ž๊ธฐ ์ง€๋„ ๋ฐฉ์‹ ๋น„๊ต: ๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ self-supervised ๊ธฐ๋ฒ•์„ ์ผ์ง€๋งŒ, ์ ‘๊ทผ๋ฒ•์— ์•ฝ๊ฐ„ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. Sparsh์—์„œ๋Š” ๋งˆ์Šคํ‚น ํ›„ ๋ณต์›(MAE)๊ณผ ์ž๊ธฐ ์ฆ๋ฅ˜(DINO), ์˜ˆ์ธก ์ฝ”๋”ฉ(JEPA) ๋“ฑ์„ ํญ๋„“๊ฒŒ ์‹œ๋„ํ•˜๊ณ  ๋น„๊ต์‹คํ—˜์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-skin์—์„œ๋Š” ๊ทธ ์ค‘ ์ž๊ธฐ ์ฆ๋ฅ˜(self-distillation) ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ ๊ต์‚ฌ-ํ•™์ƒ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Sparsh์—์„œ ๋ฐœ๊ฒฌ๋œ โ€œ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์ด ํ”ฝ์…€ ๋ณต์›๋ณด๋‹ค ํšจ๊ณผ์ โ€์ด๋ผ๋Š” ๊ตํ›ˆ์„ ๋ฐ”ํƒ•์œผ๋กœ, Sparsh-skin์—์„œ๋„ latent representation์„ ๋งž์ถ”๋Š” ๋ฐฉํ–ฅ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์„ ํƒํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ Sparsh-skin์€ ์ž…๋ ฅ์˜ ์ผ๋ถ€๋ฅผ ๋งˆ์Šคํ‚นํ•˜๊ณ  ์™„์ „ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ตฌ์กฐ๋กœ, MAE์™€ DINO ์•„์ด๋””์–ด๋ฅผ ์ ˆ์ถฉํ•œ ๋น„๋Œ€์นญ ์ž๊ธฐ ์ฆ๋ฅ˜ ํ˜•ํƒœ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Sparsh์˜ DINO๋Š” ๋™์ผํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋‘ ๊ฐ€์ง€ ์ฆ๊ฐ•ํ•˜์—ฌ ๋‘˜ ๋‹ค ์ธ์ฝ”๋”์— ํ†ต๊ณผ์‹œ์ผœ ์ž„๋ฒ ๋”ฉ์„ ๋งž์ถ”๋Š” ๋Œ€์นญ์  ๊ตฌ์กฐ์ธ๋ฐ, Sparsh-skin์€ ์™„์ „ vs ์†์ƒ ์ž…๋ ฅ์˜ ๋น„๋Œ€์นญ ๊ตฌ์กฐ๋ผ๋Š” ์ ์ด ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค.

  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ ์ฐจ์ด: Sparsh์—์„œ๋Š” TacBench๋ผ๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ •์˜ํ•˜์—ฌ, ์ด‰๊ฐ ์ด๋ฏธ์ง€๋กœ ํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๊ณผ์ œ (์ •์ƒ/์ „๋‹จ๋ ฅ์žฅ ์žฌํ˜„, ๋ฌผ์ฒด ์‹๋ณ„, ์ ‘์ด‰ ์—ฌ๋ถ€ ํŒ๋ณ„, ๋ฏธ๋„๋Ÿผ ์˜ˆ์ธก, ๋ฌผ์ฒด ํฌ์ฆˆ ์ถ”์ •, ์กฐ์ž‘ ๊ณ„ํš)์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh-skin์—์„œ๋Š” ๋กœ๋ด‡ ์† ์กฐ์ž‘๊ณผ ๊ด€๋ จ๋œ ๊ณผ์ œ๋“ค (ํž˜ ์ถ”์ •, ๋ฌผ์ฒด ์ž์„ธ ์ถ”์ •, ํ”Œ๋Ÿฌ๊ทธ ์‚ฝ์ž… ๋“ฑ)์„ ์„ ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. Sparsh์˜ ๊ณผ์ œ๋“ค์ด ์ฃผ๋กœ ๋‹จ์ผ ์ด‰๊ฐ ์„ผ์„œ์˜ ๋ฒ”์œ„์—์„œ ์ •์˜๋œ ๊ฒƒ์ด๋ผ๋ฉด, Sparsh-skin์˜ ๊ณผ์ œ๋“ค์€ ์† ์ „์ฒด ํ˜‘์‘์ด ํ•„์š”ํ•œ ์ข€ ๋” ๋ณต์žกํ•œ ์กฐ์ž‘๊นŒ์ง€ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์„ผ์„œ ๋ฒ”์œ„ ํ™•์žฅ์— ๋”ฐ๋ผ ํ‰๊ฐ€ ๋ฒ”์œ„๋„ ํ™•์žฅ๋œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์„ฑ๋Šฅ ์ง€ํ‘œ: ๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ ์‚ฌ์ „ํ•™์Šต์˜ ์ด์ ์œผ๋กœ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์–ป์—ˆ์ง€๋งŒ, Sparsh์—์„œ๋Š” 95%์— ๋‹ฌํ•˜๋Š” ํ–ฅ์ƒ์„ ๋ณธ ๋ฐ˜๋ฉด Sparsh-skin์—์„œ๋Š” 40~56% ์ •๋„์˜ ํ–ฅ์ƒ์„ ๋ณด๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ฐจ์ด๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์š”์ธ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Sparsh์˜ TacBench๋Š” ๋น„๊ต์  ๋‹จ์ˆœํ•œ ๋ถ„๋ฅ˜/ํšŒ๊ท€ ๊ณผ์ œ๋“ค์ด๊ณ  end-to-end ํ•™์Šต ์„ฑ๋Šฅ์ด ๋‚ฎ์•˜๋˜ ๋ฐ˜๋ฉด, Sparsh-skin์˜ ๊ณผ์ œ๋“ค์€ ์ด๋ฏธ ์ผ๋ถ€ vision ์ •๋ณด๋„ ๋ณ‘ํ•ฉ๋˜๋Š” ๋“ฑ ๊ธฐ๋ณธ ์„ฑ๋Šฅ์ด ๋†’์€ ํŽธ์ด๋ผ ๊ฐœ์„  ํญ์ด ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ์—ฌ์ „ํžˆ ๋‘ ๊ฒฝ์šฐ ๋ชจ๋‘ ์‚ฌ์ „ํ•™์Šต ํ‘œํ˜„์˜ ์šฐ์ˆ˜์„ฑ์€ ๋ช…ํ™•ํžˆ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, Sparsh์™€ Sparsh-skin์€ โ€œ์ด‰๊ฐ์˜ ๋ฒ”์šฉ ํ‘œํ˜„ ํ•™์Šตโ€์ด๋ผ๋Š” ๊ณตํ†ต๋œ ๋น„์ „์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ์ „์ž๋Š” ์†๊ฐ€๋ฝ ์ด‰๊ฐ์นด๋ฉ”๋ผ๋กœ, ํ›„์ž๋Š” ์† ์ „์ฒด ์ด‰๊ฐํ”ผ๋ถ€๋กœ ๊ฐ๊ฐ ๊ทธ ๋น„์ „์„ ์‹คํ˜„ํ•œ ์ž‘์—…์ž…๋‹ˆ๋‹ค. Sparsh๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ์ด‰๊ฐ ์ด๋ฏธ์ง• ์„ผ์„œ ๊ฐ„์— ํ†ตํ•˜๋Š” ํ‘œ์ค€ ๋ชจ๋ธ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์˜€๋‹ค๋ฉด, Sparsh-skin์€ ์† ์ „์ฒด๋ฅผ ํ™œ์šฉํ•œ ์ด‰๊ฐ ์ง€๊ฐ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ ๋กœ๋ด‡ ์ด‰๊ฐ ๋ถ„์•ผ์—์„œ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์˜ ํ•™์Šต ์ ‘๊ทผ์ด ์œ ํšจํ•จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ๋‚˜์•„๊ฐ€ ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์ด๋‚˜ ๋” ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ Sparsh ์‹œ๋ฆฌ์ฆˆ์˜ ์ถ•์ ๋œ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋กœ๋ด‡์ด ๋” ์˜๋ฆฌํ•˜๊ณ  ๋ฏผ์ฒฉํ•˜๊ฒŒ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ์ด‰๊ฐ ์ง€๋Šฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋˜๊ธธ ๊ธฐ๋Œ€ํ•ด ๋ด…๋‹ˆ๋‹ค.


์•„๋ž˜๋Š” โ€œSelf-supervised perception for tactile skin covered dexterous handsโ€ (Sparsh-skin) ๋…ผ๋ฌธ๊ณผ โ€œSparsh: Self-supervised touch representations for vision-based tactile sensingโ€ ๋…ผ๋ฌธ์˜ ์ฃผ์š” ํ•ญ๋ชฉ๋ณ„ ๋น„๊ตํ‘œ์ž…๋‹ˆ๋‹ค.

ํ•ญ๋ชฉ Sparsh (CoRL 2024) Sparsh-skin (arXiv 2025)
๋ชฉํ‘œ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ(GelSight, DIGIT ๋“ฑ)์˜ ๋ฒ”์šฉ ํ‘œํ˜„ ํ•™์Šต ์ž๊ธฐ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ(uSkin ๋“ฑ)์˜ ์† ์ „์ฒด ํ†ตํ•ฉ ํ‘œํ˜„ ํ•™์Šต
์„ผ์„œ ์œ ํ˜• ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ (์ด๋ฏธ์ง€ ํ˜•ํƒœ) ์ž๊ธฐ์žฅ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ”ผ๋ถ€ ์„ผ์„œ (3์ถ• ํž˜ ๋ฒกํ„ฐ, ๋‹ค์ง€์ )
์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์ด๋ฏธ์ง€ (๋‹จ์ผ ์†๋ ์„ผ์„œ) ์‹œ๊ณ„์—ด ํž˜ ์‹ ํ˜ธ + ์„ผ์„œ ์œ„์น˜ ์ •๋ณด (์† ์ „์ฒด 16๊ฐœ ์„ผ์„œ)
ํ•™์Šต ๋ฐฉ์‹ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต: MAE, DINO, I-JEPA ๋น„๊ต ์‹คํ—˜ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต: ๋น„๋Œ€์นญ self-distillation (๊ต์‚ฌ/ํ•™์ƒ ๋„คํŠธ์›Œํฌ)
๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๋น„์ „ ๋ฐฑ๋ณธ (CNN, Vision Transformer) ์‹œ๊ณ„์—ด/๊ณต๊ฐ„ ์ •๋ณด ํ†ตํ•ฉ ์ธ์ฝ”๋” (Transformer ๋˜๋Š” GNN ๊ธฐ๋ฐ˜ ์ถ”์ •)
๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ์•ฝ 66๋งŒ ๊ฐœ ์ด๋ฏธ์ง€ (์—ฌ๋Ÿฌ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ) ์•ฝ 4์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋กœ๋ด‡ ์† ๋‹ค์ค‘ ์„ผ์„œ ์‹œํ€€์Šค (์ž์ฒด ์ˆ˜์ง‘)
์„ผ์„œ ๋‹ค์–‘์„ฑ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ์„ผ์„œ ํ†ตํ•ฉ ํ•˜๋‚˜์˜ ์„ผ์„œ ์ข…๋ฅ˜(uSkin), ์† ๋‚ด์˜ ๋‹ค์–‘ํ•œ ์œ„์น˜ ์ปค๋ฒ„
๊ณต๊ฐ„ ์ปค๋ฒ„๋ฆฌ์ง€ ์ฃผ๋กœ ์†๊ฐ€๋ฝ ๋ ์ค‘์‹ฌ (์„ผ์„œ 1~2๊ฐœ) ์†๊ฐ€๋ฝ, ๋งˆ๋””, ์†๋ฐ”๋‹ฅ๊นŒ์ง€ ์† ์ „์ฒด
์ž…๋ ฅ ๋ณ€ํ˜• ๊ธฐ๋ฒ• ์ด๋ฏธ์ง€ ์ฆ๊ฐ• (ํšŒ์ „, ๋งˆ์Šคํ‚น, ํฌ๋กญ ๋“ฑ) ์„ผ์„œ ๋งˆ์Šคํ‚น, ๋…ธ์ด์ฆˆ ์‚ฝ์ž… (์†์ƒ๋œ ์ž…๋ ฅ ์ƒ์„ฑ)
๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ ์ ‘์ด‰๋ ฅ ์ถ”์ •, ๋ฏธ๋„๋Ÿผ ๊ฐ์ง€, ๋ฌผ์ฒด ์‹๋ณ„, ํฌ์ฆˆ ์ถ”์ • ๋“ฑ (TacBench) ํž˜ ๋ณต์›, ๋ฌผ์ฒด ์ž์„ธ ์ถ”์ •, ์ •๋ฐ€ ์‚ฝ์ž… ์กฐ์ž‘ ์ •์ฑ… ๋“ฑ
๋Œ€ํ‘œ ์‹คํ—˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๊ธฐ์กด ๋Œ€๋น„ ์ตœ๋Œ€ +95% ํ–ฅ์ƒ ๊ธฐ์กด ๋Œ€๋น„ ํ‰๊ท  +41% ํ–ฅ์ƒ (์ตœ๋Œ€ +56%)
ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ‘œํ˜„์˜ ๋ฒ”์šฉํ™” ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ (TacBench) ์ œ์‹œ ์† ์ „์ฒด ์ด‰๊ฐ ํ‘œํ˜„ ํ•™์Šต๊ณผ ์ž๊ธฐ ์ง€๋„ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ
์ผ๋ฐ˜ํ™” ๋ฐฉํ–ฅ ์„ผ์„œ ์ข…๋ฅ˜ ๊ฐ„์˜ ๋ฒ”์šฉ ํ‘œํ˜„ ์„ผ์„œ ์œ„์น˜ยท์ ‘์ด‰ ์ƒํ™ฉ ๊ฐ„์˜ ๋ฒ”์šฉ ํ‘œํ˜„
์ฃผ์š” ์ฐจ๋ณ„์  ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ์„ผ์„œ๋“ค์— ๋Œ€ํ•œ Cross-sensor ํ‘œํ˜„ ์† ์ „์ฒด์˜ ์‹œ๊ณต๊ฐ„์  ์„ผ์„œ ํ†ตํ•ฉ ํ‘œํ˜„
ํ™œ์šฉ ์˜ˆ์‹œ ๋‹จ์ผ ์„ผ์„œ ๊ธฐ๋ฐ˜ ๋ถ„๋ฅ˜/ํšŒ๊ท€ ๊ณผ์ œ ๋ฉ€ํ‹ฐ์„ผ์„œ ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ์ •์ฑ…, ๋ฌผ์ฒด ์ถ”์  ๋“ฑ ์ •๋ฐ€ ์ž‘์—…

์š”์•ฝํ•˜์ž๋ฉด:

  • Sparsh๋Š” โ€œ์„ผ์„œ ์ข…๋ฅ˜์˜ ๋‹ค์–‘์„ฑโ€์„ ์•„์šฐ๋ฅด๋Š” ๋ฒ”์šฉ ์ด‰๊ฐ ํ‘œํ˜„์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ ,
  • Sparsh-skin์€ โ€œ์† ์ „์ฒด ์œ„์น˜์˜ ๋‹ค์–‘์„ฑโ€์„ ๊ณ ๋ คํ•œ ํ†ตํ•ฉ ์ด‰๊ฐ ์ง€๊ฐ์„ ์ถ”๊ตฌํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๋…ผ๋ฌธ์€ ์ž…๋ ฅ modality์™€ ์„ผ์„œ ํ™˜๊ฒฝ์ด ๋‹ค๋ฅด์ง€๋งŒ, ๋ชจ๋‘ ์ด‰๊ฐ ํ‘œํ˜„์„ self-supervised ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์—ฌ๋Ÿฌ ์ž‘์—…์— ์ „์ด์‹œํ‚ค๋Š” ๋ฐฉ์‹์„ ๊ณตํ†ต์ ์œผ๋กœ ์ฑ„ํƒํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ฐธ๊ณ ๋ฌธํ—Œ:

  1. Akash Sharma et al., โ€œSelf-supervised perception for tactile skin covered dexterous handsโ€, arXiv preprint 2505.11420 (2025)
  2. Carolina Higuera et al., โ€œSparsh: Self-supervised touch representations for vision-based tactile sensingโ€, CoRL 2024 (arXiv:2410.24090)
  3. Akash Sharma et al., โ€œTactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation (Sparsh-X)โ€, arXiv preprint (2025) (๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด‰๊ฐ ํ‘œํ˜„ ํ™•์žฅ ์—ฐ๊ตฌ)

Copyright 2024, Jung Yeon Lee