Curieux.JY
  • JungYeon Lee
  • Post
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก 
      • ์†์€ ํ•œ ์ข…๋ฅ˜์˜ ์„ผ์„œ๋กœ ๋งŒ์ ธ์ง€์ง€ ์•Š๋Š”๋‹ค
      • ์ด ๋…ผ๋ฌธ์˜ ํ•œ ์ค„
    • ๋ฐฉ๋ฒ•
      • ํฐ ๊ทธ๋ฆผ: ๋‘ ์ข…๋ฅ˜ ์„ผ์„œ โ†’ ํ•˜๋‚˜์˜ ๊ทธ๋ž˜ํ”„ โ†’ ์ž„๋ฒ ๋”ฉ
      • ๋…ธ๋“œ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฒ•: ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋งˆ๋‹ค ๋‹ค๋ฅธ ์ž…๊ตฌ
      • ์—ฃ์ง€: ์†์˜ ์œ„์ƒ๊ณผ ์šด๋™ํ•™์„ ๋”ฐ๋ฅธ๋‹ค
      • GCN ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ์˜ ์ง๊ด€
      • Masked Autoencoder๋กœ ์••์ถ•
      • ํ•™์Šต-์‚ฌ์šฉ ํ”„๋กœํ† ์ฝœ(์˜์‚ฌ์ฝ”๋“œ)
    • ์‹คํ—˜
      • ํ•˜๋“œ์›จ์–ด ์„ค์ •
      • ์‹คํ—˜ A: 8์ข… ์ปต ๋ถ„๋ฅ˜
      • ์‹คํ—˜ B: ์กฐ์ž‘ ์ค‘ ์ž ์žฌ ๊ณต๊ฐ„ ๋ถ„์„
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
      • ๊ฐ•์ 
      • ์•ฝ์ ยทํ•œ๊ณ„
      • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์œ„์น˜
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒHeterogeneous Tactile GNN

tactile
gnn
dexterous
Learning Heterogeneous Tactile Representations with Graph Neural Networks for Dexterous Manipulation
Published

May 1, 2026

  • Paper Link
  • Poster Link

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก 

์†์€ ํ•œ ์ข…๋ฅ˜์˜ ์„ผ์„œ๋กœ ๋งŒ์ ธ์ง€์ง€ ์•Š๋Š”๋‹ค

์‚ฌ๋žŒ์ด ์ปต์„ ์ง‘์–ด ๋šœ๊ป‘์„ ์—ด๊ณ  ๋‚ด์šฉ๋ฌผ์„ ๋”ฐ๋ฅด๋Š” ๋™์ž‘์„ ๋– ์˜ฌ๋ ค ๋ณด์„ธ์š”. ์†๋(fingertip)์€ ํ‘œ๋ฉด์˜ ๋ฏธ์„ธํ•œ ๊ตด๊ณก๊ณผ ๋ฏธ๋„๋Ÿฌ์ง์„ ๋งค์šฐ ์˜ˆ๋ฏผํ•˜๊ฒŒ ๋А๋ผ๊ณ , ์†๋ฐ”๋‹ฅ(palm)์€ ๋ฌผ์ฒด๋ฅผ ๊ฐ์‹ธ ์•ˆ์„ ๋•Œ์˜ ๋„“์€ ์ ‘์ด‰๊ณผ ๋ถ„ํฌ๋œ ํž˜์„ ๊ฐ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์‚ฌ๋žŒ ์†์€ ์†๋์— ๊ธฐ๊ณ„์ˆ˜์šฉ๊ธฐ(mechanoreceptor)๊ฐ€ ์†๋ฐ”๋‹ฅ๋ณด๋‹ค ํ›จ์”ฌ ์กฐ๋ฐ€ํ•˜๊ฒŒ ๋ถ„ํฌ๋˜์–ด ์žˆ์–ด์„œ, ์†๋์€ ์ •๋ฐ€ ์‹๋ณ„์„, ์†๋ฐ”๋‹ฅ์€ ๊ด‘์—ญ ์ ‘์ด‰ ์ •๋ณด๋ฅผ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ์ด ์ธ๊ฐ„ ์†์˜ ์ด์ข…(heterogeneous) ์ด‰๊ฐ ๊ตฌ์กฐ์—์„œ ์˜๊ฐ์„ ์–ป์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์ด‰๊ฐ ์—ฐ๊ตฌ์˜ ๊ณ ์งˆ์ ์ธ ํ•œ๊ณ„๋Š”, ๋Œ€๋ถ€๋ถ„์˜ ํ•™์Šต๋œ ์ด‰๊ฐ ํ‘œํ˜„์ด ๋‹จ ํ•˜๋‚˜์˜ ์„ผ์‹ฑ ๋ฐฉ์‹(single modality)์—๋งŒ ์˜์กดํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

  • ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ(vision-based tactile sensor): GelSight, DIGIT ๋ฅ˜์ฒ˜๋Ÿผ ์นด๋ฉ”๋ผ๋กœ ์ ‘์ด‰๋ฉด์˜ ๋ณ€ํ˜•์„ ์ฐ์–ด ๊ณ ํ•ด์ƒ๋„ ๊ณต๊ฐ„ ๊ตฌ์กฐยทํ…์Šค์ฒ˜๋ฅผ ์žก์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€ ํ•œ ์žฅ์ด ๊ณง ํ•œ ์†๋์˜ ์ด์•ผ๊ธฐ์ผ ๋ฟ์ž…๋‹ˆ๋‹ค.
  • ํฌ์†Œ taxel ๊ธฐ๋ฐ˜ ์„ผ์„œ(sparse taxel-based sensor): ์••์ „(piezoelectric)ยท์ •์ „์šฉ๋Ÿ‰(capacitive)ยท์ž๊ธฐ(magnetic) ๋ฐฉ์‹ ๋“ฑ์œผ๋กœ, ์ ‘์ด‰ ์••๋ ฅ๊ณผ ๋ถ„ํฌ๋œ ํž˜(distributed force)์„ ์ธก์ •ํ•˜๋Š” ๋ฐ ๊ฐ•ํ•ฉ๋‹ˆ๋‹ค. uSkin์ด ๋Œ€ํ‘œ์ ์ธ ์ž๊ธฐ์‹ 3์ถ• ํž˜ ์„ผ์„œ์ž…๋‹ˆ๋‹ค.

๋‘ ๋ฐฉ์‹์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฌผ๋ฆฌ๋Ÿ‰์„, ์„œ๋กœ ๋‹ค๋ฅธ ์œ„์น˜์—์„œ, ์„œ๋กœ ๋‹ค๋ฅธ ํ•ด์ƒ๋„๋กœ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๋น„์œ ํ•˜์ž๋ฉด ์†๋์˜ ๋น„์ „ ์„ผ์„œ๋Š” ๊ณ ํ™”์งˆ ์˜์ƒ ์นด๋ฉ”๋ผ์ด๊ณ , ์†๋ฐ”๋‹ฅ์˜ uSkin์€ ์—ฌ๋Ÿฌ ์ง€์ ์— ๋ฐ•ํžŒ 3์ถ• ์ €์šธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋Š” ์ด ๋‘˜์„ ํ•จ๊ป˜ ๋ชจ๋ธ๋งํ•˜๋Š” ์ผ์„ ๊ฑฐ์˜ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๊ณ , ์ด ๋…ผ๋ฌธ์˜ ํ‘œํ˜„์„ ๋นŒ๋ฆฌ๋ฉด โ€œ์ด์ข… ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ•จ๊ป˜ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์‚ฌ์‹ค์ƒ ๋ฏธ๊ฐœ์ฒ™(largely unexplored)โ€ ์ƒํƒœ์˜€์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ํ•œ ์ค„

์†๋์˜ ๋น„์ „ ์ด‰๊ฐ๊ณผ ์†๋ฐ”๋‹ฅ์˜ ์ž๊ธฐ์‹ taxel์„ ์†์˜ ๋ฌผ๋ฆฌ์  ๋ฐฐ์น˜์— ๋งž์ถ˜ ํ•˜๋‚˜์˜ ์ด์ข… ๊ทธ๋ž˜ํ”„(heterogeneous graph)๋กœ ๋ฌถ๊ณ , GCN๊ณผ masked autoencoder๋กœ ์••์ถ•๋œ ํ†ตํ•ฉ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•œ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•™์Šตํ•œ ํ‘œํ˜„์„ 30๊ฐœ ๋ฌผ์ฒด์˜ โ€œ๋†€์ด ๋ฐ์ดํ„ฐ(play data)โ€๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ ๋’ค, (1) 8์ข… ์ปต ๋ถ„๋ฅ˜์—์„œ ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ์„ฑ๋Šฅ์„, (2) ์›๊ฒฉ์กฐ์ž‘(teleoperation) ๋™์•ˆ ์˜๋ฏธ ์žˆ๊ฒŒ ๊ตฌ์กฐํ™”๋˜๋Š” ์ž ์žฌ ๊ณต๊ฐ„์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

์ €์ž์ง„์€ ์™€์„ธ๋‹ค๋Œ€ํ•™(Waseda University) ์—ฐ๊ตฌ์ง„ โ€” Tai Yamada, Satoshi Funabashi, Steven Oh, Pranav Ponnivalavan, Tetsuya Ogata, Shigeki Sugano โ€” ์ด๋ฉฐ, ๋ณธ ๋…ผ๋ฌธ์€ ICRA ๊ณ„์—ด ViTac ์›Œํฌ์ˆ์˜ ๋‹จํŽธ(short paper)์ž…๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•

ํฐ ๊ทธ๋ฆผ: ๋‘ ์ข…๋ฅ˜ ์„ผ์„œ โ†’ ํ•˜๋‚˜์˜ ๊ทธ๋ž˜ํ”„ โ†’ ์ž„๋ฒ ๋”ฉ

flowchart LR
    subgraph FT["Fingertips x4 (vision-based)"]
        IMG["Image 680x480"] --> CNN["CNN encoder"]
        CNN --> FM["Feature map 16x12<br/>= 192 nodes / fingertip"]
    end
    subgraph PA["Palm (uSkin magnetic)"]
        TX["248 taxels<br/>tri-axial (fx, fy, fz)"]
    end
    FM --> G
    TX --> G
    G["Heterogeneous tactile graph<br/>768 + 248 = 1016 nodes<br/>edges = spatial proximity + hand kinematics"]
    G --> GCN["Graph Convolutional Network"]
    GCN --> MAE["Masked Autoencoder<br/>(compression)"]
    MAE --> EMB["Unified tactile embedding"]
    EMB --> HEAD["Frozen encoder + task head<br/>(classification / analysis)"]

์ด ๊ทธ๋ฆผ์ด ๋…ผ๋ฌธ Fig. 1๊ณผ Fig. 2์˜ ํ•ต์‹ฌ์„ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ๊ฐ์ž์˜ ๋ฐฉ์‹์œผ๋กœ ๋…ธ๋“œ๊ฐ€ ๋˜์–ด ํ•˜๋‚˜์˜ ์†-์ •๋ ฌ ๊ทธ๋ž˜ํ”„์— ํ•ฉ์ณ์ง€๊ณ , ๊ทธ ์œ„์—์„œ GCN์ด ์ •๋ณด๋ฅผ ์„ž์€ ๋’ค masked autoencoder๊ฐ€ ์••์ถ•ํ•ด ์ตœ์ข… ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋…ธ๋“œ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฒ•: ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋งˆ๋‹ค ๋‹ค๋ฅธ ์ž…๊ตฌ

์ด ๋…ผ๋ฌธ์—์„œ โ€œheterogeneous(์ด์ข…)โ€๊ฐ€ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ฌด์—‡์„ ๋œปํ•˜๋Š”์ง€๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ์„ผ์„œ๊ฐ€ ๋…ธ๋“œ๊ฐ€ ๋˜๋Š” ๋ฐฉ์‹์ด ์„œ๋กœ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

1) ์†๋ โ€” ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ

  • ๊ฐ ๋น„์ „ ์ด‰๊ฐ ์„ผ์„œ๋Š” 680 ร— 480 ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋Œ€๋กœ ๊ทธ๋ž˜ํ”„์— ๋„ฃ์œผ๋ฉด ์ฐจ์›์ด ๋„ˆ๋ฌด ํฝ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ CNN์œผ๋กœ 16 ร— 12 ํŠน์ง• ๋งต์œผ๋กœ ์••์ถ•ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ํŠน์ง• ๋งต์˜ ๊ฐ ๊ณต๊ฐ„ ์œ„์น˜(spatial location)๋ฅผ ํ•˜๋‚˜์˜ ๊ทธ๋ž˜ํ”„ ๋…ธ๋“œ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ 16 \times 12 = 192๊ฐœ ๋…ธ๋“œ๊ฐ€ ์†๋ ํ•˜๋‚˜์—์„œ ๋‚˜์˜ต๋‹ˆ๋‹ค.
  • Allegro hand๋Š” ์†๋ ์„ผ์„œ๊ฐ€ 4๊ฐœ์ด๋ฏ€๋กœ, ์†๋ ๋…ธ๋“œ๋Š” 4 \times 192 = 768๊ฐœ์ž…๋‹ˆ๋‹ค.

์ง๊ด€์ ์œผ๋กœ, ์†๋์˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ โ€œ์ž‘์€ ํŒจ์น˜๋“ค์˜ ๊ฒฉ์žโ€๋กœ ์ชผ๊ฐœ๊ณ , ๊ฐ ํŒจ์น˜๊ฐ€ ์ž๊ธฐ ์˜์—ญ์˜ ์ ‘์ด‰ ๊ตฌ์กฐ๋ฅผ ๋Œ€ํ‘œํ•˜๋Š” ๋…ธ๋“œ๊ฐ€ ๋˜๋Š” ์…ˆ์ž…๋‹ˆ๋‹ค.

2) ์†๋ฐ”๋‹ฅ โ€” uSkin ์ž๊ธฐ์‹ taxel

  • ์†๋ฐ”๋‹ฅ์—๋Š” 248๊ฐœ์˜ uSkin taxel์ด ์žˆ๊ณ , ๊ฐ taxel์€ 3์ถ• ํž˜ (f_x, f_y, f_z)์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
  • taxel ํ•˜๋‚˜๊ฐ€ ๊ณง ๋…ธ๋“œ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์†๋ฐ”๋‹ฅ ๋…ธ๋“œ๋Š” 248๊ฐœ์ž…๋‹ˆ๋‹ค.

3) ํ•ฉ์น˜๋ฉด

\underbrace{4 \times 192}_{\text{fingertip} = 768} + \underbrace{248}_{\text{palm}} = 1016 \ \text{nodes}

์ด๋ ‡๊ฒŒ ์ด 1016๊ฐœ ๋…ธ๋“œ์˜ ์ด์ข… ๊ทธ๋ž˜ํ”„๊ฐ€ ๋งŒ๋“ค์–ด์ง‘๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์€, ์†๋ ๋…ธ๋“œ์˜ ํŠน์ง•(๊ณ ํ•ด์ƒ๋„ ์˜์ƒ์—์„œ ์˜จ ์ž ์žฌ ๋ฒกํ„ฐ)๊ณผ ์†๋ฐ”๋‹ฅ ๋…ธ๋“œ์˜ ํŠน์ง•(3์ถ• ํž˜)์ด ๋ฌผ๋ฆฌ์  ์˜๋ฏธ๊ฐ€ ์ „ํ˜€ ๋‹ค๋ฅด๋‹ค๋Š” ์ ์ด๊ณ , ๊ทธ๊ฒƒ์„ ํ•˜๋‚˜์˜ ๊ทธ๋ž˜ํ”„ ์•ˆ์— ๊ณต์กด์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์ด โ€œheterogeneousโ€์˜ ์‹ค์ฒด์ž…๋‹ˆ๋‹ค.

์—ฃ์ง€: ์†์˜ ์œ„์ƒ๊ณผ ์šด๋™ํ•™์„ ๋”ฐ๋ฅธ๋‹ค

๋…ธ๋“œ๋งŒํผ ์ค‘์š”ํ•œ ๊ฒƒ์ด ์—ฃ์ง€(์—ฐ๊ฒฐ)์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ์—ฃ์ง€๋ฅผ ๋‘ ๊ฐ€์ง€ ๊ธฐ์ค€์œผ๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

  • ๊ณต๊ฐ„์  ๊ทผ์ ‘์„ฑ(spatial proximity): ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ฐ€๊นŒ์šด ์ด‰๊ฐ ์š”์†Œ๋ผ๋ฆฌ ์—ฐ๊ฒฐ. โ†’ ๊ตญ์†Œ ์ ‘์ด‰ ์˜์—ญ ๋‚ด๋ถ€์—์„œ ์ •๋ณด ๊ตํ™˜.
  • ์†์˜ ์šด๋™ํ•™ ๊ตฌ์กฐ(kinematic structure): ์†๊ฐ€๋ฝ-์†๋ฐ”๋‹ฅ์ฒ˜๋Ÿผ ์šด๋™ํ•™์ ์œผ๋กœ ์ด์–ด์ง„ ๋ถ€์œ„๋ฅผ ์—ฐ๊ฒฐ. โ†’ ์† ์ „์ฒด(hand-level) ์ˆ˜์ค€์˜ ๊ตฌ์กฐ์  ์ •๋ณด ๊ตํ™˜.

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ฉ”์‹œ์ง€๊ฐ€ ๊ตญ์†Œ ์ ‘์ด‰(๋ฏธ์„ธํ•œ ์†๋ ์ ‘์ด‰)๊ณผ ๊ด‘์—ญ ๊ตฌ์กฐ(์† ์ „์ฒด์— ํผ์ง„ ํž˜) ๋‘ ์Šค์ผ€์ผ์„ ๋ชจ๋‘ ์˜ค๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„์œ ํ•˜๋ฉด, ์˜†์ž๋ฆฌ ๋™๋ฃŒ์™€ ๊ท“์†๋ง(๊ตญ์†Œ)๋„ ํ•˜๊ณ , ๋ถ€์„œ ์ „์ฒด ํšŒ์˜(๊ด‘์—ญ)๋„ ํ•˜๋Š” ํ†ต์‹ ๋ง์„ ํ•œ ๊ทธ๋ž˜ํ”„ ์•ˆ์— ๊น”์•„ ๋‘” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

GCN ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ์˜ ์ง๊ด€

๊ทธ๋ž˜ํ”„ ํ•ฉ์„ฑ๊ณฑ(GCN)์˜ ํ•œ ๋ ˆ์ด์–ด๋Š” โ€œ๊ฐ ๋…ธ๋“œ๊ฐ€ ์ด์›ƒ์˜ ์ •๋ณด๋ฅผ ๋ชจ์•„ ์ž์‹ ์„ ๊ฐฑ์‹ โ€ํ•˜๋Š” ์—ฐ์‚ฐ์ž…๋‹ˆ๋‹ค. ํ‘œ์ค€ GCN ํ˜•ํƒœ๋กœ ์“ฐ๋ฉด:

h_v^{(l+1)} = \sigma\!\Big( \sum_{u \in \mathcal{N}(v) \cup \{v\}} \frac{1}{c_{vu}}\, W^{(l)} h_u^{(l)} \Big)

  • h_v^{(l)}: ๋ ˆ์ด์–ด l์—์„œ ๋…ธ๋“œ v์˜ ํŠน์ง• ๋ฒกํ„ฐ.
  • \mathcal{N}(v): v์˜ ์ด์›ƒ ๋…ธ๋“œ(๊ณต๊ฐ„ ๊ทผ์ ‘ + ์šด๋™ํ•™ ์—ฐ๊ฒฐ).
  • W^{(l)}: ํ•™์Šต๋˜๋Š” ๊ฐ€์ค‘์น˜.
  • c_{vu}: ์ •๊ทœํ™” ์ƒ์ˆ˜(์˜ˆ: \sqrt{\deg(v)\deg(u)}).
  • \sigma: ๋น„์„ ํ˜• ํ™œ์„ฑํ™”.

๋ ˆ์ด์–ด๋ฅผ ์Œ“์„์ˆ˜๋ก ์†๋์˜ ๋ฏธ์„ธ ์ ‘์ด‰ ์ •๋ณด์™€ ์†๋ฐ”๋‹ฅ์˜ ๋ถ„ํฌ ํž˜ ์ •๋ณด๊ฐ€ ์† ์ „์ฒด๋กœ ๋ฒˆ์ ธ ์„ž์ž…๋‹ˆ๋‹ค. ์†๋ ๋…ธ๋“œ๊ฐ€ ์†๋ฐ”๋‹ฅ ๋…ธ๋“œ์˜ ํž˜ ๋งฅ๋ฝ์„ โ€œ์ฐธ๊ณ โ€ํ•˜๊ณ , ์†๋ฐ”๋‹ฅ ๋…ธ๋“œ๊ฐ€ ์†๋์˜ ๋ฏธ์„ธ ๊ตฌ์กฐ๋ฅผ โ€œ์ฐธ๊ณ โ€ํ•˜๋Š” ์‹์˜ ๊ต์ฐจ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ†ตํ•ฉ์ด ๊ทธ๋ž˜ํ”„ ์œ„์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค.

Masked Autoencoder๋กœ ์••์ถ•

GCN์ด ๋งŒ๋“  ์ž ์žฌ ํ‘œํ˜„์„ masked autoencoder(MAE)๋กœ ํ•œ ๋ฒˆ ๋” ์••์ถ•ํ•ด ์ตœ์ข… ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. MAE์˜ ๋ฐœ์ƒ์€ โ€œ์ž…๋ ฅ์˜ ์ผ๋ถ€๋ฅผ ๊ฐ€๋ฆฐ ๋’ค ๋ณต์›ํ•˜๊ฒŒ ํ•™์Šตโ€ํ•˜๋Š” ์ž๊ธฐ์ง€๋„(self-supervised) ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋…ธ๋“œ/ํŠน์ง•์„ ๊ฐ€๋ ค๋„ ๋‚˜๋จธ์ง€ ๋งฅ๋ฝ์œผ๋กœ ๋ณต์›ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์€ ๋ถ„ํฌ๋œ ์ด‰๊ฐ ์‹ ํ˜ธ ์‚ฌ์ด์˜ ์ƒ๊ด€ ๊ตฌ์กฐ๋ฅผ ํ‘œํ˜„ ์•ˆ์— ๋‹ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์†๋์˜ ๋ฏธ์„ธ ์ ‘์ด‰ ๊ตฌ์กฐ์™€ ์†๋ฐ”๋‹ฅ์˜ ๋ถ„ํฌ ํž˜์„ ๋ชจ๋‘ ํ’ˆ์€ ์ปดํŒฉํŠธํ•œ ์ด์ข… ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์ด ๋‚˜์˜ต๋‹ˆ๋‹ค.

ํ•™์Šต-์‚ฌ์šฉ ํ”„๋กœํ† ์ฝœ(์˜์‚ฌ์ฝ”๋“œ)

# Pre-training (self-supervised, on play data from 30 objects)
for batch in play_data:
    G = build_hetero_graph(fingertip_images, palm_taxels)   # 1016 nodes
    H = GCN(G)                                               # message passing
    z = MaskedAutoencoder.encode(H)                          # compact embedding
    loss = MaskedAutoencoder.reconstruction_loss(H, mask)
    update(GCN, MaskedAutoencoder)

# Downstream (encoder frozen)
freeze(GCN, MaskedAutoencoder)
for batch in task_data:
    z = encode(build_hetero_graph(...))
    y = TaskHead(z)            # e.g. cup classification
    update(TaskHead)           # only the head is trained

ํ•ต์‹ฌ ์„ค๊ณ„ ๊ฒฐ์ •์€ ์‚ฌ์ „ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ๋™๊ฒฐ(freeze)ํ•˜๊ณ , ๋‹ค์šด์ŠคํŠธ๋ฆผ์—์„œ๋Š” ๊ฐ€๋ฒผ์šด ํƒœ์Šคํฌ ํ—ค๋“œ๋งŒ ํ•™์Šตํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰ โ€œ์ด‰๊ฐ ํ‘œํ˜„ ์ž์ฒด๋Š” ํ•œ ๋ฒˆ ์ž˜ ๋ฐฐ์›Œ ๋‘๊ณ , ๊ณผ์ œ๋งˆ๋‹ค ์ž‘์€ ํ—ค๋“œ๋งŒ ๊ฐˆ์•„ ๋ผ์šด๋‹คโ€๋Š” ํ‘œํ˜„ํ•™์Šต(representation learning)์˜ ์ „ํ˜•์  ๊ตฌ๋„๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

์‹คํ—˜

ํ•˜๋“œ์›จ์–ด ์„ค์ •

  • ๋กœ๋ด‡ ํŒ”: UR5e
  • ์†: Allegro hand (4์ง€)
  • ์†๋: ์ž์ฒด ์ œ์ž‘ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ(๋ถ€๋“œ๋Ÿฌ์šด ์ ‘์ด‰๋ฉด + ๋‚ด๋ถ€ ๋งˆ์ปค ์ธต + ์ž„๋ฒ ๋””๋“œ ์นด๋ฉ”๋ผ; Appendix I).
  • ์†๋ฐ”๋‹ฅ: uSkin ์ž๊ธฐ์‹ taxel ์„ผ์„œ(3์ถ• ํž˜).
  • ์›๊ฒฉ์กฐ์ž‘: Allegro hand ์ œ์–ด์šฉ ๋ชจ์…˜์บก์ฒ˜ ๊ธ€๋Ÿฌ๋ธŒ, ํŒ” ์ œ์–ด์šฉ ์ถ•์†Œํ˜• ๋ฆฌ๋” ๋””๋ฐ”์ด์Šค(leader device).

์‹คํ—˜ A: 8์ข… ์ปต ๋ถ„๋ฅ˜

๊ธฐํ•˜ํ•™์  ๋ณ€ํ˜•์ด ๋‹ค๋ฅธ 8๊ฐ€์ง€ ์ปต ๋ณ€ํ˜•(cup variants)์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ ๋กœ๋ด‡ ์†์ด ๊ฐ ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ์กฐ์ž‘ํ•˜๋ฉด์„œ ์†๋๊ณผ ์†๋ฐ”๋‹ฅ ์„ผ์„œ๊ฐ€ ์ ‘์ด‰ ์‹ ํ˜ธ๋ฅผ ๋ชจ์œผ๊ณ , ๋™๊ฒฐ๋œ GCN ์ธ์ฝ”๋”๊ฐ€ ๋งŒ๋“  ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€๋ฒผ์šด ๋ถ„๋ฅ˜ ํ—ค๋“œ์— ๋„ฃ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค(๋…ผ๋ฌธ Table I).

Class Precision Recall F1-score
Original Cup 1.000 1.000 1.000
Standard Cup 0.988 0.995 0.992
Low-Poly Cup 0.999 1.000 0.999
Cup with Double Strip Deformation 1.000 1.000 1.000
Cup with Single Strip Deformation 1.000 0.952 0.975
Polygonal Cup 0.954 1.000 0.976
Wavy Cup 1.000 1.000 1.000
Wavy Twisted Cup 1.000 0.982 0.991

๋Œ€๋ถ€๋ถ„์˜ ๋ณ€ํ˜•์—์„œ ๊ฑฐ์˜ ์™„๋ฒฝ(near-perfect)ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. F1์ด ๊ฐ€์žฅ ๋‚ฎ์€ ํ•ญ๋ชฉ๋„ 0.975(Single Strip), 0.976(Polygonal)์œผ๋กœ ๋†’์Šต๋‹ˆ๋‹ค. ํ•ด์„ํ•˜๋ฉด, ์ด์ข… ์ด‰๊ฐ ํ‘œํ˜„์ด ์ปต๋“ค ์‚ฌ์ด์˜ ๊ธฐํ•˜ํ•™์ ยท์ ‘์ด‰์  ์ฐจ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„ ์˜ค๋ถ„๋ฅ˜๊ฐ€ ๋ชฐ๋ฆฌ๋Š” ์Œ์„ ๋ณด๋ฉด, Single Strip์˜ recall ์ €ํ•˜์™€ Polygonal์˜ precision ์ €ํ•˜๊ฐ€ ํ•จ๊ป˜ ๋‚˜ํƒ€๋‚˜๋Š”๋ฐ, ์ด๋Š” ๋‘ ํด๋ž˜์Šค๊ฐ€ ์„œ๋กœ ํ˜ผ๋™๋˜๋Š” ๊ฒฝํ–ฅ(ํ˜•ํƒœ๊ฐ€ ๋น„๊ต์  ๊ฐ€๊นŒ์šด ๋ณ€ํ˜•๋ผ๋ฆฌ)์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์ €์ž๋“ค์€ ํ–ฅํ›„ ํ…์Šค์ฒ˜ยท๊ฒฝ๋„(hardness)๋ฅผ ํฌํ•จํ•œ ๋” ๋„“์€ ์žฌ์งˆ ์ดํ•ด ๊ณผ์ œ๋กœ ํ‰๊ฐ€๋ฅผ ํ™•์žฅํ•˜๊ฒ ๋‹ค๊ณ  ๋ฐํž™๋‹ˆ๋‹ค.

์‹คํ—˜ B: ์กฐ์ž‘ ์ค‘ ์ž ์žฌ ๊ณต๊ฐ„ ๋ถ„์„

๋‘ ๋ฒˆ์งธ ์‹คํ—˜์€ ์ •๋Ÿ‰ ์ง€ํ‘œ๊ฐ€ ์•„๋‹ˆ๋ผ ์ž ์žฌ ๊ณต๊ฐ„์˜ ๊ตฌ์กฐ๋ฅผ ๋“ค์—ฌ๋‹ค๋ด…๋‹ˆ๋‹ค. ๋ชจ์…˜์บก์ฒ˜ ๊ธ€๋Ÿฌ๋ธŒ๋กœ ์ˆ˜์ง‘ํ•œ ์›๊ฒฉ์กฐ์ž‘ ์‹œ์—ฐ์—์„œ, ์†์ด ์ปต์„ ์žก๊ณ  โ†’ ์—„์ง€์™€ ๊ฒ€์ง€๋กœ ๋šœ๊ป‘์„ ์—ด๊ณ  โ†’ ๋‚ด์šฉ๋ฌผ์„ ๋”ฐ๋ฅด๋Š” ์‹œํ€€์Šค๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” 30๊ฐœ ๋ฌผ์ฒด play data๋กœ ์‚ฌ์ „ํ•™์Šต ํ›„ ๋™๊ฒฐ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ด‰๊ฐ ์ž ์žฌ ๊ณต๊ฐ„์„ PCA๋กœ ์‹œ๊ฐํ™”ํ•˜๋ฉด(๋…ผ๋ฌธ Fig. 3) ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ๋ฆ„์ด ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค.

phase 1: before contact      -> latent stays compact (clustered)
phase 2: palm touches cup     -> embedding starts to separate into structured regions
phase 3: fingertips open lid  -> latent trajectory spreads further
         & pour                  in the embedding space

์ฆ‰ ์ ‘์ด‰ ์ด์ „์—๋Š” ํ‘œํ˜„์ด ํ•œ ์ ์— ๋ญ‰์ณ ์žˆ๋‹ค๊ฐ€, ์†๋ฐ”๋‹ฅ์ด ์ปต์— ๋‹ฟ๋Š” ์ˆœ๊ฐ„๋ถ€ํ„ฐ ๊ตฌ์กฐ์ ์œผ๋กœ ๊ฐˆ๋ผ์ง€๊ณ , ์†๋์ด ๋šœ๊ป‘ ์—ด๊ธฐยท๋”ฐ๋ฅด๊ธฐ์— ๊ด€์—ฌํ•˜๋ฉด์„œ ์ž ์žฌ ๊ถค์ ์ด ๋” ๋„“๊ฒŒ ํผ์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต๋œ ์ด์ข… ํ‘œํ˜„์ด ๋ถ„ํฌ๋œ ์†๋ฐ”๋‹ฅ ํž˜๊ณผ ๋ฏธ์„ธํ•œ ์†๋ ์ ‘์ด‰ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ, ์กฐ์ž‘ ๋„์ค‘์˜ ์˜๋ฏธ ์žˆ๋Š” ์ ‘์ด‰ ์ „์ด(contact transition)๋ฅผ ํฌ์ฐฉํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

  • ์ง„์งœ ์ด์ข… ์œตํ•ฉ: ์†๋ ๋น„์ „ ์ด‰๊ฐ(๊ณ ํ•ด์ƒ๋„ ๊ตฌ์กฐ)๊ณผ ์†๋ฐ”๋‹ฅ ์ž๊ธฐ์‹ taxel(๋ถ„ํฌ ํž˜)์„ ํ•˜๋‚˜์˜ ์†-์ •๋ ฌ ๊ทธ๋ž˜ํ”„์—์„œ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ•จ๊ป˜ ๋ชจ๋ธ๋งํ•˜๋Š” ์ผ์ด ๊ทธ๋™์•ˆ ๊ฑฐ์˜ ์—†์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋ฌธ์ œ์˜์‹์ด ์‹ ์„ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ทธ๋ž˜ํ”„์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€: ์†๋ 4๊ฐœ + ์†๋ฐ”๋‹ฅ์ฒ˜๋Ÿผ ์œ„์น˜ยทํ•ด์ƒ๋„ยท๋ฌผ๋ฆฌ๋Ÿ‰์ด ์ œ๊ฐ๊ฐ์ธ ์„ผ์„œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ ๊ทธ๋ž˜ํ”„๋Š” ๋งค์šฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ž๋ฃŒ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๊ณต๊ฐ„ ๊ทผ์ ‘์„ฑ๊ณผ ์šด๋™ํ•™ ๊ตฌ์กฐ๋ฅผ ์—ฃ์ง€๋กœ ๋ช…์‹œํ•ด, ๊ตญ์†Œ ์ ‘์ด‰๊ณผ ์† ์ „์ฒด ๊ตฌ์กฐ๋ฅผ ํ•œ ๋ฒˆ์— ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  • ํ‘œํ˜„ํ•™์Šต ๊ตฌ๋„: play data 30๊ฐœ๋กœ ์ž๊ธฐ์ง€๋„ ์‚ฌ์ „ํ•™์Šต โ†’ ์ธ์ฝ”๋” ๋™๊ฒฐ โ†’ ๊ฐ€๋ฒผ์šด ํ—ค๋“œ๋งŒ ํ•™์Šต. ๋ผ๋ฒจ์ด ๊ท€ํ•œ ๋กœ๋ด‡ ์ด‰๊ฐ ๋„๋ฉ”์ธ์— ์ ํ•ฉํ•œ ์„ค๊ณ„์ด๊ณ , ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ(๊ฑฐ์˜ ์™„๋ฒฝ)์œผ๋กœ ํ‘œํ˜„์˜ ์œ ์šฉ์„ฑ์„ ์ง์ ‘ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ์ •์„ฑ ๋ถ„์„์˜ ์„ค๋“๋ ฅ: ์ปต ์žก๊ธฐ-๋šœ๊ป‘ ์—ด๊ธฐ-๋”ฐ๋ฅด๊ธฐ ์‹œํ€€์Šค์—์„œ ์ž ์žฌ ๊ณต๊ฐ„์ด ๋‹จ๊ณ„์ ์œผ๋กœ ํŽผ์ณ์ง€๋Š” ๋ชจ์Šต์€, ์ž„๋ฒ ๋”ฉ์ด ๋‹จ์ˆœ ๋ถ„๋ฅ˜ ํŠน์ง•์ด ์•„๋‹ˆ๋ผ ์กฐ์ž‘์˜ ์ ‘์ด‰ ๋™์—ญํ•™์„ ๋‹ด๊ณ  ์žˆ์Œ์„ ์ง๊ด€์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์•ฝ์ ยทํ•œ๊ณ„

  • ํ‰๊ฐ€๊ฐ€ ์ข๋‹ค: ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ •๋Ÿ‰ ํ‰๊ฐ€๊ฐ€ ์‚ฌ์‹ค์ƒ 8์ข… ์ปต ๋ถ„๋ฅ˜ ๋‹จ์ผ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ๋ชจ๋‘ โ€œ์ปตโ€์ด๋ผ๋Š” ํ•œ ๋ฒ”์ฃผ์˜ ๋ณ€ํ˜•์ด๋ผ, ์žฌ์งˆยท๋ฒ”์ฃผ๋ฅผ ๋„˜๋‚˜๋“œ๋Š” ์ผ๋ฐ˜ํ™”๋Š” ์•„์ง ์ž…์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค(์ €์ž๋“ค๋„ ํ…์Šค์ฒ˜ยท๊ฒฝ๋„ ํ™•์žฅ์„ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‘ ).
  • ๋น„๊ต ๊ธฐ์ค€์„ (baseline) ๋ถ€์žฌ: ๋‹จ์ผ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์†๋๋งŒ / ์†๋ฐ”๋‹ฅ๋งŒ)๋‚˜ ๋™์งˆ ๊ทธ๋ž˜ํ”„ ๋Œ€๋น„ ์ด์ข… ์œตํ•ฉ์˜ ์ด๋“์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ablation์ด ๋ณธ๋ฌธ์— ์—†์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ โ€œ์ด์ข…์ด๋ผ์„œ ์ข‹๋‹คโ€๊ฐ€ ์ˆ˜์น˜๋กœ ์ฆ๋ช…๋˜์—ˆ๋‹ค๊ธฐ๋ณด๋‹ค๋Š” ์„ค๊ณ„ ๋…ผ๊ฑฐ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค.
  • ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ์ ์ˆ˜์˜ ์–‘๋ฉด์„ฑ: F1์ด ๋Œ€๋ถ€๋ถ„ 1.0์— ๊ฐ€๊น๋‹ค๋Š” ๊ฒƒ์€ ๊ณผ์ œ๊ฐ€ ํ‘œํ˜„์˜ ๋ณ€๋ณ„๋ ฅ์„ ์ถฉ๋ถ„ํžˆ ์‹œํ—˜ํ•  ๋งŒํผ ์–ด๋ ต์ง€ ์•Š์•˜์„ ๊ฐ€๋Šฅ์„ฑ๋„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋” ํ˜ผ๋™๋˜๊ธฐ ์‰ฌ์šด ๋ฌผ์ฒด๊ตฐ์—์„œ์˜ ์„ฑ๋Šฅ์ด ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค.
  • ์กฐ์ž‘ ์ •์ฑ…์œผ๋กœ์˜ ์—ฐ๊ฒฐ์€ ๋ฏธ์™„: ์ž ์žฌ ๊ณต๊ฐ„ ๋ถ„์„์€ ์ •์„ฑ์ ์ด๋ฉฐ, ์ด ํ‘œํ˜„์ด ์‹ค์ œ ์ •์ฑ… ํ•™์Šต(policy learning) ์„ฑ๋Šฅ์„ ์–ผ๋งˆ๋‚˜ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š”์ง€๋Š” ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ๊ฒจ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์›Œํฌ์ˆ ๋‹จํŽธ์˜ ํ•œ๊ณ„: ๋ถ„๋Ÿ‰์ƒ GCN์˜ ๊ตฌ์ฒด์  ์ธต์ˆ˜ยทMAE์˜ ๋งˆ์Šคํ‚น ๋น„์œจยท์ž„๋ฒ ๋”ฉ ์ฐจ์› ๋“ฑ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋ณธ๋ฌธ์— ๋ช…์‹œ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. (์ถ”์ธก: ์ •์‹ ํ™•์žฅ ๋…ผ๋ฌธ์—์„œ ๋ณด๊ฐ•๋  ๋ถ€๋ถ„.)

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์œ„์น˜

  • ๋‹จ์ผ ๋ชจ๋‹ฌ ๋น„์ „ ์ด‰๊ฐ ํ‘œํ˜„ (Sparsh ๋“ฑ [16], canonical/force-based pretraining [18], 3D-ViTac [19]): ๊ณ ํ•ด์ƒ๋„ ๋น„์ „ ์ด‰๊ฐ ๋˜๋Š” 3D taxel์„ ๊ฐ๊ฐ ๋”ฐ๋กœ ํ‘œํ˜„ํ•™์Šต. ๋ณธ ๋…ผ๋ฌธ์€ ์ด ๋‘˜์„ ํ•œ ๊ทธ๋ž˜ํ”„์—์„œ ์œตํ•ฉํ•œ๋‹ค๋Š” ์ ์ด ์ฐจ๋ณ„์ ์ž…๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ-์ด‰๊ฐ ์œตํ•ฉ (predictive force attention [17]): ๋น„์ „๊ณผ ์ด‰๊ฐ์„ contrastive/cross-attention์œผ๋กœ ๊ฒฐํ•ฉ. ๋ณธ ๋…ผ๋ฌธ์€ ๋น„์ „ ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹ˆ๋ผ ๋‘ ์ข…๋ฅ˜์˜ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ž์ฒด๋ฅผ ์œตํ•ฉํ•œ๋‹ค๋Š” ์ ์—์„œ ๊ฒฐ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
  • ์ด‰๊ฐ play data ์‚ฌ์ „ํ•™์Šต (Dexterity from Touch [20], tactile-skin perception [21]): ๋กœ๋ด‡ ๋†€์ด ๋ฐ์ดํ„ฐ๋กœ ์ด‰๊ฐ ํ‘œํ˜„์„ ์ž๊ธฐ์ง€๋„ ํ•™์Šตํ•˜๋Š” ํ๋ฆ„๊ณผ ๊ฐ™์€ ๊ณ„๋ณด. ๋ณธ ๋…ผ๋ฌธ์€ ๊ฑฐ๊ธฐ์— ์ด์ข… ๊ทธ๋ž˜ํ”„ + masked autoencoder๋ผ๋Š” ๊ตฌ์กฐ๋ฅผ ๋”ํ•ฉ๋‹ˆ๋‹ค.
  • ์–‘์† ์ •๋ฐ€ ์›๊ฒฉ์กฐ์ž‘ (bimanual dexterity [22]): ๋ณธ ๋…ผ๋ฌธ์ด ์‚ฌ์šฉํ•˜๋Š” ๋ชจ์…˜์บก์ฒ˜ ๊ธ€๋Ÿฌ๋ธŒยท๋ฆฌ๋” ๋””๋ฐ”์ด์Šค ๊ธฐ๋ฐ˜ ์›๊ฒฉ์กฐ์ž‘ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ์‹์˜ ์ถœ์ฒ˜.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ โ€œ์ œ๊ฐ๊ฐ์ธ ๋‘ ์ข…๋ฅ˜์˜ ์† ์ด‰๊ฐ โ€” ์†๋์˜ ๊ณ ํ•ด์ƒ๋„ ๋น„์ „ ์ด‰๊ฐ๊ณผ ์†๋ฐ”๋‹ฅ์˜ ๋ถ„ํฌํ˜• ์ž๊ธฐ์‹ 3์ถ• taxel โ€” ์„ ์†์˜ ๋ฌผ๋ฆฌ์  ๋ฐฐ์น˜์— ๋งž์ถ˜ 1016๊ฐœ ๋…ธ๋“œ์˜ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ๋ฌถ๊ณ , GCN๊ณผ masked autoencoder๋กœ ํ•˜๋‚˜์˜ ์ปดํŒฉํŠธํ•œ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•œ๋‹คโ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ง๊ด€์ ์œผ๋กœ, ์‚ฌ๋žŒ ์†์ด ์†๋(์ •๋ฐ€)๊ณผ ์†๋ฐ”๋‹ฅ(๊ด‘์—ญ)์ด๋ผ๋Š” ์ด์งˆ์  ๊ฐ๊ฐ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ†ตํ•ฉํ•˜๋“ฏ, ์ด ์—ฐ๊ตฌ๋Š” ๊ทธ ์ด์งˆ์„ฑ์„ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ ์ž์ฒด๋กœ ํก์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋น„์ „ ์ด๋ฏธ์ง€๋Š” CNN์œผ๋กœ 16ร—12 ๊ฒฉ์ž ๋…ธ๋“œ(์†๋๋‹น 192๊ฐœ)๊ฐ€ ๋˜๊ณ , uSkin taxel์€ ๊ทธ๋Œ€๋กœ 248๊ฐœ ๋…ธ๋“œ๊ฐ€ ๋˜๋ฉฐ, ๊ณต๊ฐ„ ๊ทผ์ ‘์„ฑ๊ณผ ์šด๋™ํ•™ ๊ตฌ์กฐ๋กœ ์—ฃ์ง€๋ฅผ ๊น”์•„ ๋‘ ์„ธ๊ณ„๋ฅผ ์ž‡์Šต๋‹ˆ๋‹ค.

์‹คํ—˜์ ์œผ๋กœ๋Š” 30๊ฐœ ๋ฌผ์ฒด play data๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ ๋™๊ฒฐ ์ธ์ฝ”๋”๊ฐ€ 8์ข… ์ปต ๋ถ„๋ฅ˜์—์„œ ๊ฑฐ์˜ ์™„๋ฒฝํ•œ F1(๋Œ€๋ถ€๋ถ„ ~1.0, ์ตœ์ € 0.975)์„ ๋‹ฌ์„ฑํ–ˆ๊ณ , ์›๊ฒฉ์กฐ์ž‘ ์‹œํ€€์Šค์—์„œ ์ž ์žฌ ๊ณต๊ฐ„์ด ์ ‘์ด‰-๋น„์ ‘์ด‰, ์†๋ฐ”๋‹ฅ-์†๋ ๊ด€์—ฌ์— ๋”ฐ๋ผ ๋‹จ๊ณ„์ ์œผ๋กœ ๊ตฌ์กฐํ™”๋˜๋Š” ๋ชจ์Šต์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, ์ด ์›Œํฌ์ˆ ๋‹จํŽธ์€ โ€œ์ด์ข… ์ด‰๊ฐ์„ ์–ด๋–ป๊ฒŒ ํ•˜๋‚˜์˜ ํ‘œํ˜„์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š”๊ฐ€โ€๋ผ๋Š” ๋Šฅ์ˆ™ ์กฐ์ž‘์˜ ํ•ต์‹ฌ ๋‚œ์ œ์— ๋Œ€ํ•ด, ์ด์ข… ๊ทธ๋ž˜ํ”„ + ์ž๊ธฐ์ง€๋„ ์‚ฌ์ „ํ•™์Šต์ด๋ผ๋Š” ๊น”๋”ํ•œ ํ•œ ์ˆ˜๋ฅผ ์ œ์‹œํ•œ ์ดˆ๊ธฐ ๋‹จ๊ณ„์˜ ์œ ๋งํ•œ ์‹œ๋„์ž…๋‹ˆ๋‹ค. ์ •๋Ÿ‰ baselineยทablation๊ณผ ์ •์ฑ… ํ•™์Šต์œผ๋กœ์˜ ์—ฐ๊ฒฐ์ด ๋ณด๊ฐ•๋œ๋‹ค๋ฉด, ๋‹ค์ข… ์ด‰๊ฐ ์œตํ•ฉ ํ‘œํ˜„์˜ ์‹ค์šฉ์  ๊ธฐ์ค€์ ์ด ๋  ์ž ์žฌ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee