flowchart LR
subgraph FT["Fingertips x4 (vision-based)"]
IMG["Image 680x480"] --> CNN["CNN encoder"]
CNN --> FM["Feature map 16x12<br/>= 192 nodes / fingertip"]
end
subgraph PA["Palm (uSkin magnetic)"]
TX["248 taxels<br/>tri-axial (fx, fy, fz)"]
end
FM --> G
TX --> G
G["Heterogeneous tactile graph<br/>768 + 248 = 1016 nodes<br/>edges = spatial proximity + hand kinematics"]
G --> GCN["Graph Convolutional Network"]
GCN --> MAE["Masked Autoencoder<br/>(compression)"]
MAE --> EMB["Unified tactile embedding"]
EMB --> HEAD["Frozen encoder + task head<br/>(classification / analysis)"]
๐Heterogeneous Tactile GNN
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
์์ ํ ์ข ๋ฅ์ ์ผ์๋ก ๋ง์ ธ์ง์ง ์๋๋ค
์ฌ๋์ด ์ปต์ ์ง์ด ๋๊ป์ ์ด๊ณ ๋ด์ฉ๋ฌผ์ ๋ฐ๋ฅด๋ ๋์์ ๋ ์ฌ๋ ค ๋ณด์ธ์. ์๋(fingertip)์ ํ๋ฉด์ ๋ฏธ์ธํ ๊ตด๊ณก๊ณผ ๋ฏธ๋๋ฌ์ง์ ๋งค์ฐ ์๋ฏผํ๊ฒ ๋๋ผ๊ณ , ์๋ฐ๋ฅ(palm)์ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ธ ์์ ๋์ ๋์ ์ ์ด๊ณผ ๋ถํฌ๋ ํ์ ๊ฐ์งํฉ๋๋ค. ์ค์ ๋ก ์ฌ๋ ์์ ์๋์ ๊ธฐ๊ณ์์ฉ๊ธฐ(mechanoreceptor)๊ฐ ์๋ฐ๋ฅ๋ณด๋ค ํจ์ฌ ์กฐ๋ฐํ๊ฒ ๋ถํฌ๋์ด ์์ด์, ์๋์ ์ ๋ฐ ์๋ณ์, ์๋ฐ๋ฅ์ ๊ด์ญ ์ ์ด ์ ๋ณด๋ฅผ ๋ด๋นํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด ์ธ๊ฐ ์์ ์ด์ข (heterogeneous) ์ด๊ฐ ๊ตฌ์กฐ์์ ์๊ฐ์ ์ป์ต๋๋ค.
๋ก๋ด ์ด๊ฐ ์ฐ๊ตฌ์ ๊ณ ์ง์ ์ธ ํ๊ณ๋, ๋๋ถ๋ถ์ ํ์ต๋ ์ด๊ฐ ํํ์ด ๋จ ํ๋์ ์ผ์ฑ ๋ฐฉ์(single modality)์๋ง ์์กดํ๋ค๋ ์ ์ ๋๋ค.
- ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(vision-based tactile sensor): GelSight, DIGIT ๋ฅ์ฒ๋ผ ์นด๋ฉ๋ผ๋ก ์ ์ด๋ฉด์ ๋ณํ์ ์ฐ์ด ๊ณ ํด์๋ ๊ณต๊ฐ ๊ตฌ์กฐยทํ ์ค์ฒ๋ฅผ ์ก์ต๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง ํ ์ฅ์ด ๊ณง ํ ์๋์ ์ด์ผ๊ธฐ์ผ ๋ฟ์ ๋๋ค.
- ํฌ์ taxel ๊ธฐ๋ฐ ์ผ์(sparse taxel-based sensor): ์์ (piezoelectric)ยท์ ์ ์ฉ๋(capacitive)ยท์๊ธฐ(magnetic) ๋ฐฉ์ ๋ฑ์ผ๋ก, ์ ์ด ์๋ ฅ๊ณผ ๋ถํฌ๋ ํ(distributed force)์ ์ธก์ ํ๋ ๋ฐ ๊ฐํฉ๋๋ค. uSkin์ด ๋ํ์ ์ธ ์๊ธฐ์ 3์ถ ํ ์ผ์์ ๋๋ค.
๋ ๋ฐฉ์์ ์๋ก ๋ค๋ฅธ ๋ฌผ๋ฆฌ๋์, ์๋ก ๋ค๋ฅธ ์์น์์, ์๋ก ๋ค๋ฅธ ํด์๋๋ก ์ธก์ ํฉ๋๋ค. ๋น์ ํ์๋ฉด ์๋์ ๋น์ ์ผ์๋ ๊ณ ํ์ง ์์ ์นด๋ฉ๋ผ์ด๊ณ , ์๋ฐ๋ฅ์ uSkin์ ์ฌ๋ฌ ์ง์ ์ ๋ฐํ 3์ถ ์ ์ธ์ ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ด ๋์ ํจ๊ป ๋ชจ๋ธ๋งํ๋ ์ผ์ ๊ฑฐ์ ๋ค๋ฃจ์ง ์์๊ณ , ์ด ๋ ผ๋ฌธ์ ํํ์ ๋น๋ฆฌ๋ฉด โ์ด์ข ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํจ๊ป ๋ชจ๋ธ๋งํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ค์ ๋ฏธ๊ฐ์ฒ(largely unexplored)โ ์ํ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ ์ค
์๋์ ๋น์ ์ด๊ฐ๊ณผ ์๋ฐ๋ฅ์ ์๊ธฐ์ taxel์ ์์ ๋ฌผ๋ฆฌ์ ๋ฐฐ์น์ ๋ง์ถ ํ๋์ ์ด์ข ๊ทธ๋ํ(heterogeneous graph)๋ก ๋ฌถ๊ณ , GCN๊ณผ masked autoencoder๋ก ์์ถ๋ ํตํฉ ์ด๊ฐ ์๋ฒ ๋ฉ์ ํ์ตํ๋ค.
์ด๋ ๊ฒ ํ์ตํ ํํ์ 30๊ฐ ๋ฌผ์ฒด์ โ๋์ด ๋ฐ์ดํฐ(play data)โ๋ก ์ฌ์ ํ์ตํ ๋ค, (1) 8์ข ์ปต ๋ถ๋ฅ์์ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๋ฅ์, (2) ์๊ฒฉ์กฐ์(teleoperation) ๋์ ์๋ฏธ ์๊ฒ ๊ตฌ์กฐํ๋๋ ์ ์ฌ ๊ณต๊ฐ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ํต์ฌ ๊ฒฐ๊ณผ์ ๋๋ค.
์ ์์ง์ ์์ธ๋ค๋ํ(Waseda University) ์ฐ๊ตฌ์ง โ Tai Yamada, Satoshi Funabashi, Steven Oh, Pranav Ponnivalavan, Tetsuya Ogata, Shigeki Sugano โ ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ICRA ๊ณ์ด ViTac ์ํฌ์์ ๋จํธ(short paper)์ ๋๋ค.
๋ฐฉ๋ฒ
ํฐ ๊ทธ๋ฆผ: ๋ ์ข ๋ฅ ์ผ์ โ ํ๋์ ๊ทธ๋ํ โ ์๋ฒ ๋ฉ
์ด ๊ทธ๋ฆผ์ด ๋ ผ๋ฌธ Fig. 1๊ณผ Fig. 2์ ํต์ฌ์ ์์ฝํฉ๋๋ค. ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ๊ฐ์์ ๋ฐฉ์์ผ๋ก ๋ ธ๋๊ฐ ๋์ด ํ๋์ ์-์ ๋ ฌ ๊ทธ๋ํ์ ํฉ์ณ์ง๊ณ , ๊ทธ ์์์ GCN์ด ์ ๋ณด๋ฅผ ์์ ๋ค masked autoencoder๊ฐ ์์ถํด ์ต์ข ์๋ฒ ๋ฉ์ ๋ง๋ญ๋๋ค.
๋ ธ๋๋ฅผ ๋ง๋๋ ๋ฒ: ๋ชจ๋ฌ๋ฆฌํฐ๋ง๋ค ๋ค๋ฅธ ์ ๊ตฌ
์ด ๋ ผ๋ฌธ์์ โheterogeneous(์ด์ข )โ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ ๋ปํ๋์ง๊ฐ ์ค์ํฉ๋๋ค. ๋ ์ผ์๊ฐ ๋ ธ๋๊ฐ ๋๋ ๋ฐฉ์์ด ์๋ก ๋ค๋ฆ ๋๋ค.
1) ์๋ โ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ
- ๊ฐ ๋น์ ์ด๊ฐ ์ผ์๋ 680 ร 480 ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ญ๋๋ค.
- ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋๋ก ๊ทธ๋ํ์ ๋ฃ์ผ๋ฉด ์ฐจ์์ด ๋๋ฌด ํฝ๋๋ค. ๊ทธ๋์ CNN์ผ๋ก 16 ร 12 ํน์ง ๋งต์ผ๋ก ์์ถํฉ๋๋ค.
- ์ด ํน์ง ๋งต์ ๊ฐ ๊ณต๊ฐ ์์น(spatial location)๋ฅผ ํ๋์ ๊ทธ๋ํ ๋ ธ๋๋ก ์ทจ๊ธํฉ๋๋ค. ์ฆ 16 \times 12 = 192๊ฐ ๋ ธ๋๊ฐ ์๋ ํ๋์์ ๋์ต๋๋ค.
- Allegro hand๋ ์๋ ์ผ์๊ฐ 4๊ฐ์ด๋ฏ๋ก, ์๋ ๋ ธ๋๋ 4 \times 192 = 768๊ฐ์ ๋๋ค.
์ง๊ด์ ์ผ๋ก, ์๋์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ โ์์ ํจ์น๋ค์ ๊ฒฉ์โ๋ก ์ชผ๊ฐ๊ณ , ๊ฐ ํจ์น๊ฐ ์๊ธฐ ์์ญ์ ์ ์ด ๊ตฌ์กฐ๋ฅผ ๋ํํ๋ ๋ ธ๋๊ฐ ๋๋ ์ ์ ๋๋ค.
2) ์๋ฐ๋ฅ โ uSkin ์๊ธฐ์ taxel
- ์๋ฐ๋ฅ์๋ 248๊ฐ์ uSkin taxel์ด ์๊ณ , ๊ฐ taxel์ 3์ถ ํ (f_x, f_y, f_z)์ ์ธก์ ํฉ๋๋ค.
- taxel ํ๋๊ฐ ๊ณง ๋ ธ๋ ํ๋์ ๋๋ค. ๋ฐ๋ผ์ ์๋ฐ๋ฅ ๋ ธ๋๋ 248๊ฐ์ ๋๋ค.
3) ํฉ์น๋ฉด
\underbrace{4 \times 192}_{\text{fingertip} = 768} + \underbrace{248}_{\text{palm}} = 1016 \ \text{nodes}
์ด๋ ๊ฒ ์ด 1016๊ฐ ๋ ธ๋์ ์ด์ข ๊ทธ๋ํ๊ฐ ๋ง๋ค์ด์ง๋๋ค. ์ฌ๊ธฐ์ ํต์ฌ์, ์๋ ๋ ธ๋์ ํน์ง(๊ณ ํด์๋ ์์์์ ์จ ์ ์ฌ ๋ฒกํฐ)๊ณผ ์๋ฐ๋ฅ ๋ ธ๋์ ํน์ง(3์ถ ํ)์ด ๋ฌผ๋ฆฌ์ ์๋ฏธ๊ฐ ์ ํ ๋ค๋ฅด๋ค๋ ์ ์ด๊ณ , ๊ทธ๊ฒ์ ํ๋์ ๊ทธ๋ํ ์์ ๊ณต์กด์ํจ๋ค๋ ๊ฒ์ด โheterogeneousโ์ ์ค์ฒด์ ๋๋ค.
์ฃ์ง: ์์ ์์๊ณผ ์ด๋ํ์ ๋ฐ๋ฅธ๋ค
๋ ธ๋๋งํผ ์ค์ํ ๊ฒ์ด ์ฃ์ง(์ฐ๊ฒฐ)์ ๋๋ค. ๋ ผ๋ฌธ์ ์ฃ์ง๋ฅผ ๋ ๊ฐ์ง ๊ธฐ์ค์ผ๋ก ์ ์ํฉ๋๋ค.
- ๊ณต๊ฐ์ ๊ทผ์ ์ฑ(spatial proximity): ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๊น์ด ์ด๊ฐ ์์๋ผ๋ฆฌ ์ฐ๊ฒฐ. โ ๊ตญ์ ์ ์ด ์์ญ ๋ด๋ถ์์ ์ ๋ณด ๊ตํ.
- ์์ ์ด๋ํ ๊ตฌ์กฐ(kinematic structure): ์๊ฐ๋ฝ-์๋ฐ๋ฅ์ฒ๋ผ ์ด๋ํ์ ์ผ๋ก ์ด์ด์ง ๋ถ์๋ฅผ ์ฐ๊ฒฐ. โ ์ ์ ์ฒด(hand-level) ์์ค์ ๊ตฌ์กฐ์ ์ ๋ณด ๊ตํ.
์ด๋ ๊ฒ ํ๋ฉด ๋ฉ์์ง๊ฐ ๊ตญ์ ์ ์ด(๋ฏธ์ธํ ์๋ ์ ์ด)๊ณผ ๊ด์ญ ๊ตฌ์กฐ(์ ์ ์ฒด์ ํผ์ง ํ) ๋ ์ค์ผ์ผ์ ๋ชจ๋ ์ค๊ฐ ์ ์์ต๋๋ค. ๋น์ ํ๋ฉด, ์์๋ฆฌ ๋๋ฃ์ ๊ท์๋ง(๊ตญ์)๋ ํ๊ณ , ๋ถ์ ์ ์ฒด ํ์(๊ด์ญ)๋ ํ๋ ํต์ ๋ง์ ํ ๊ทธ๋ํ ์์ ๊น์ ๋ ๊ฒ์ ๋๋ค.
GCN ๋ฉ์์ง ํจ์ฑ์ ์ง๊ด
๊ทธ๋ํ ํฉ์ฑ๊ณฑ(GCN)์ ํ ๋ ์ด์ด๋ โ๊ฐ ๋ ธ๋๊ฐ ์ด์์ ์ ๋ณด๋ฅผ ๋ชจ์ ์์ ์ ๊ฐฑ์ โํ๋ ์ฐ์ฐ์ ๋๋ค. ํ์ค GCN ํํ๋ก ์ฐ๋ฉด:
h_v^{(l+1)} = \sigma\!\Big( \sum_{u \in \mathcal{N}(v) \cup \{v\}} \frac{1}{c_{vu}}\, W^{(l)} h_u^{(l)} \Big)
- h_v^{(l)}: ๋ ์ด์ด l์์ ๋ ธ๋ v์ ํน์ง ๋ฒกํฐ.
- \mathcal{N}(v): v์ ์ด์ ๋ ธ๋(๊ณต๊ฐ ๊ทผ์ + ์ด๋ํ ์ฐ๊ฒฐ).
- W^{(l)}: ํ์ต๋๋ ๊ฐ์ค์น.
- c_{vu}: ์ ๊ทํ ์์(์: \sqrt{\deg(v)\deg(u)}).
- \sigma: ๋น์ ํ ํ์ฑํ.
๋ ์ด์ด๋ฅผ ์์์๋ก ์๋์ ๋ฏธ์ธ ์ ์ด ์ ๋ณด์ ์๋ฐ๋ฅ์ ๋ถํฌ ํ ์ ๋ณด๊ฐ ์ ์ ์ฒด๋ก ๋ฒ์ ธ ์์ ๋๋ค. ์๋ ๋ ธ๋๊ฐ ์๋ฐ๋ฅ ๋ ธ๋์ ํ ๋งฅ๋ฝ์ โ์ฐธ๊ณ โํ๊ณ , ์๋ฐ๋ฅ ๋ ธ๋๊ฐ ์๋์ ๋ฏธ์ธ ๊ตฌ์กฐ๋ฅผ โ์ฐธ๊ณ โํ๋ ์์ ๊ต์ฐจ ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ์ด ๊ทธ๋ํ ์์์ ์์ฐ์ค๋ฝ๊ฒ ์ผ์ด๋ฉ๋๋ค.
Masked Autoencoder๋ก ์์ถ
GCN์ด ๋ง๋ ์ ์ฌ ํํ์ masked autoencoder(MAE)๋ก ํ ๋ฒ ๋ ์์ถํด ์ต์ข ์๋ฒ ๋ฉ์ ๋ง๋ญ๋๋ค. MAE์ ๋ฐ์์ โ์ ๋ ฅ์ ์ผ๋ถ๋ฅผ ๊ฐ๋ฆฐ ๋ค ๋ณต์ํ๊ฒ ํ์ตโํ๋ ์๊ธฐ์ง๋(self-supervised) ๋ฐฉ์์ ๋๋ค. ์ผ๋ถ ๋ ธ๋/ํน์ง์ ๊ฐ๋ ค๋ ๋๋จธ์ง ๋งฅ๋ฝ์ผ๋ก ๋ณต์ํ ์ ์์ด์ผ ํ๋ฏ๋ก, ๋ชจ๋ธ์ ๋ถํฌ๋ ์ด๊ฐ ์ ํธ ์ฌ์ด์ ์๊ด ๊ตฌ์กฐ๋ฅผ ํํ ์์ ๋ด๊ฒ ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์๋์ ๋ฏธ์ธ ์ ์ด ๊ตฌ์กฐ์ ์๋ฐ๋ฅ์ ๋ถํฌ ํ์ ๋ชจ๋ ํ์ ์ปดํฉํธํ ์ด์ข ์ด๊ฐ ์๋ฒ ๋ฉ์ด ๋์ต๋๋ค.
ํ์ต-์ฌ์ฉ ํ๋กํ ์ฝ(์์ฌ์ฝ๋)
# Pre-training (self-supervised, on play data from 30 objects)
for batch in play_data:
G = build_hetero_graph(fingertip_images, palm_taxels) # 1016 nodes
H = GCN(G) # message passing
z = MaskedAutoencoder.encode(H) # compact embedding
loss = MaskedAutoencoder.reconstruction_loss(H, mask)
update(GCN, MaskedAutoencoder)
# Downstream (encoder frozen)
freeze(GCN, MaskedAutoencoder)
for batch in task_data:
z = encode(build_hetero_graph(...))
y = TaskHead(z) # e.g. cup classification
update(TaskHead) # only the head is trainedํต์ฌ ์ค๊ณ ๊ฒฐ์ ์ ์ฌ์ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ๋๊ฒฐ(freeze)ํ๊ณ , ๋ค์ด์คํธ๋ฆผ์์๋ ๊ฐ๋ฒผ์ด ํ์คํฌ ํค๋๋ง ํ์ตํ๋ค๋ ์ ์ ๋๋ค. ์ฆ โ์ด๊ฐ ํํ ์์ฒด๋ ํ ๋ฒ ์ ๋ฐฐ์ ๋๊ณ , ๊ณผ์ ๋ง๋ค ์์ ํค๋๋ง ๊ฐ์ ๋ผ์ด๋คโ๋ ํํํ์ต(representation learning)์ ์ ํ์ ๊ตฌ๋๋ฅผ ๋ฐ๋ฆ ๋๋ค.
์คํ
ํ๋์จ์ด ์ค์
- ๋ก๋ด ํ: UR5e
- ์: Allegro hand (4์ง)
- ์๋: ์์ฒด ์ ์ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(๋ถ๋๋ฌ์ด ์ ์ด๋ฉด + ๋ด๋ถ ๋ง์ปค ์ธต + ์๋ฒ ๋๋ ์นด๋ฉ๋ผ; Appendix I).
- ์๋ฐ๋ฅ: uSkin ์๊ธฐ์ taxel ์ผ์(3์ถ ํ).
- ์๊ฒฉ์กฐ์: Allegro hand ์ ์ด์ฉ ๋ชจ์ ์บก์ฒ ๊ธ๋ฌ๋ธ, ํ ์ ์ด์ฉ ์ถ์ํ ๋ฆฌ๋ ๋๋ฐ์ด์ค(leader device).
์คํ A: 8์ข ์ปต ๋ถ๋ฅ
๊ธฐํํ์ ๋ณํ์ด ๋ค๋ฅธ 8๊ฐ์ง ์ปต ๋ณํ(cup variants)์ ๋ถ๋ฅํ๋ ๊ณผ์ ์ ๋๋ค. ๋ฐ์ดํฐ ์์ง ์ ๋ก๋ด ์์ด ๊ฐ ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์กฐ์ํ๋ฉด์ ์๋๊ณผ ์๋ฐ๋ฅ ์ผ์๊ฐ ์ ์ด ์ ํธ๋ฅผ ๋ชจ์ผ๊ณ , ๋๊ฒฐ๋ GCN ์ธ์ฝ๋๊ฐ ๋ง๋ ์๋ฒ ๋ฉ์ ๊ฐ๋ฒผ์ด ๋ถ๋ฅ ํค๋์ ๋ฃ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค(๋ ผ๋ฌธ Table I).
| Class | Precision | Recall | F1-score |
|---|---|---|---|
| Original Cup | 1.000 | 1.000 | 1.000 |
| Standard Cup | 0.988 | 0.995 | 0.992 |
| Low-Poly Cup | 0.999 | 1.000 | 0.999 |
| Cup with Double Strip Deformation | 1.000 | 1.000 | 1.000 |
| Cup with Single Strip Deformation | 1.000 | 0.952 | 0.975 |
| Polygonal Cup | 0.954 | 1.000 | 0.976 |
| Wavy Cup | 1.000 | 1.000 | 1.000 |
| Wavy Twisted Cup | 1.000 | 0.982 | 0.991 |
๋๋ถ๋ถ์ ๋ณํ์์ ๊ฑฐ์ ์๋ฒฝ(near-perfect)ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. F1์ด ๊ฐ์ฅ ๋ฎ์ ํญ๋ชฉ๋ 0.975(Single Strip), 0.976(Polygonal)์ผ๋ก ๋์ต๋๋ค. ํด์ํ๋ฉด, ์ด์ข ์ด๊ฐ ํํ์ด ์ปต๋ค ์ฌ์ด์ ๊ธฐํํ์ ยท์ ์ด์ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๊ณ ์๋ค๋ ๋ป์ ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ์ค๋ถ๋ฅ๊ฐ ๋ชฐ๋ฆฌ๋ ์์ ๋ณด๋ฉด, Single Strip์ recall ์ ํ์ Polygonal์ precision ์ ํ๊ฐ ํจ๊ป ๋ํ๋๋๋ฐ, ์ด๋ ๋ ํด๋์ค๊ฐ ์๋ก ํผ๋๋๋ ๊ฒฝํฅ(ํํ๊ฐ ๋น๊ต์ ๊ฐ๊น์ด ๋ณํ๋ผ๋ฆฌ)์ ์์ฌํฉ๋๋ค.
์ ์๋ค์ ํฅํ ํ ์ค์ฒยท๊ฒฝ๋(hardness)๋ฅผ ํฌํจํ ๋ ๋์ ์ฌ์ง ์ดํด ๊ณผ์ ๋ก ํ๊ฐ๋ฅผ ํ์ฅํ๊ฒ ๋ค๊ณ ๋ฐํ๋๋ค.
์คํ B: ์กฐ์ ์ค ์ ์ฌ ๊ณต๊ฐ ๋ถ์
๋ ๋ฒ์งธ ์คํ์ ์ ๋ ์งํ๊ฐ ์๋๋ผ ์ ์ฌ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ค์ฌ๋ค๋ด ๋๋ค. ๋ชจ์ ์บก์ฒ ๊ธ๋ฌ๋ธ๋ก ์์งํ ์๊ฒฉ์กฐ์ ์์ฐ์์, ์์ด ์ปต์ ์ก๊ณ โ ์์ง์ ๊ฒ์ง๋ก ๋๊ป์ ์ด๊ณ โ ๋ด์ฉ๋ฌผ์ ๋ฐ๋ฅด๋ ์ํ์ค๋ฅผ ์ํํฉ๋๋ค. ์ธ์ฝ๋๋ 30๊ฐ ๋ฌผ์ฒด play data๋ก ์ฌ์ ํ์ต ํ ๋๊ฒฐ๋์ด ์์ต๋๋ค.
์ด๊ฐ ์ ์ฌ ๊ณต๊ฐ์ PCA๋ก ์๊ฐํํ๋ฉด(๋ ผ๋ฌธ Fig. 3) ๋ค์๊ณผ ๊ฐ์ ํ๋ฆ์ด ๊ด์ฐฐ๋ฉ๋๋ค.
์ฆ ์ ์ด ์ด์ ์๋ ํํ์ด ํ ์ ์ ๋ญ์ณ ์๋ค๊ฐ, ์๋ฐ๋ฅ์ด ์ปต์ ๋ฟ๋ ์๊ฐ๋ถํฐ ๊ตฌ์กฐ์ ์ผ๋ก ๊ฐ๋ผ์ง๊ณ , ์๋์ด ๋๊ป ์ด๊ธฐยท๋ฐ๋ฅด๊ธฐ์ ๊ด์ฌํ๋ฉด์ ์ ์ฌ ๊ถค์ ์ด ๋ ๋๊ฒ ํผ์ง๋๋ค. ์ด๋ ํ์ต๋ ์ด์ข ํํ์ด ๋ถํฌ๋ ์๋ฐ๋ฅ ํ๊ณผ ๋ฏธ์ธํ ์๋ ์ ์ด ๊ตฌ์กฐ๋ฅผ ํตํฉํ์ฌ, ์กฐ์ ๋์ค์ ์๋ฏธ ์๋ ์ ์ด ์ ์ด(contact transition)๋ฅผ ํฌ์ฐฉํจ์ ์์ฌํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์ง์ง ์ด์ข ์ตํฉ: ์๋ ๋น์ ์ด๊ฐ(๊ณ ํด์๋ ๊ตฌ์กฐ)๊ณผ ์๋ฐ๋ฅ ์๊ธฐ์ taxel(๋ถํฌ ํ)์ ํ๋์ ์-์ ๋ ฌ ๊ทธ๋ํ์์ ํตํฉํฉ๋๋ค. ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํจ๊ป ๋ชจ๋ธ๋งํ๋ ์ผ์ด ๊ทธ๋์ ๊ฑฐ์ ์์๋ค๋ ์ ์์ ๋ฌธ์ ์์์ด ์ ์ ํฉ๋๋ค.
- ๊ทธ๋ํ์ ์์ฐ์ค๋ฌ์: ์๋ 4๊ฐ + ์๋ฐ๋ฅ์ฒ๋ผ ์์นยทํด์๋ยท๋ฌผ๋ฆฌ๋์ด ์ ๊ฐ๊ฐ์ธ ์ผ์๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ๊ทธ๋ํ๋ ๋งค์ฐ ์์ฐ์ค๋ฌ์ด ์๋ฃ๊ตฌ์กฐ์ ๋๋ค. ๊ณต๊ฐ ๊ทผ์ ์ฑ๊ณผ ์ด๋ํ ๊ตฌ์กฐ๋ฅผ ์ฃ์ง๋ก ๋ช ์ํด, ๊ตญ์ ์ ์ด๊ณผ ์ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ํ ๋ฒ์ ๋ค๋ฃน๋๋ค.
- ํํํ์ต ๊ตฌ๋: play data 30๊ฐ๋ก ์๊ธฐ์ง๋ ์ฌ์ ํ์ต โ ์ธ์ฝ๋ ๋๊ฒฐ โ ๊ฐ๋ฒผ์ด ํค๋๋ง ํ์ต. ๋ผ๋ฒจ์ด ๊ทํ ๋ก๋ด ์ด๊ฐ ๋๋ฉ์ธ์ ์ ํฉํ ์ค๊ณ์ด๊ณ , ๋ถ๋ฅ ์ฑ๋ฅ(๊ฑฐ์ ์๋ฒฝ)์ผ๋ก ํํ์ ์ ์ฉ์ฑ์ ์ง์ ๋ณด์์ต๋๋ค.
- ์ ์ฑ ๋ถ์์ ์ค๋๋ ฅ: ์ปต ์ก๊ธฐ-๋๊ป ์ด๊ธฐ-๋ฐ๋ฅด๊ธฐ ์ํ์ค์์ ์ ์ฌ ๊ณต๊ฐ์ด ๋จ๊ณ์ ์ผ๋ก ํผ์ณ์ง๋ ๋ชจ์ต์, ์๋ฒ ๋ฉ์ด ๋จ์ ๋ถ๋ฅ ํน์ง์ด ์๋๋ผ ์กฐ์์ ์ ์ด ๋์ญํ์ ๋ด๊ณ ์์์ ์ง๊ด์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
์ฝ์ ยทํ๊ณ
- ํ๊ฐ๊ฐ ์ข๋ค: ๋ค์ด์คํธ๋ฆผ ์ ๋ ํ๊ฐ๊ฐ ์ฌ์ค์ 8์ข ์ปต ๋ถ๋ฅ ๋จ์ผ ๊ณผ์ ์ ๋๋ค. ๊ฒ๋ค๊ฐ ๋ชจ๋ โ์ปตโ์ด๋ผ๋ ํ ๋ฒ์ฃผ์ ๋ณํ์ด๋ผ, ์ฌ์งยท๋ฒ์ฃผ๋ฅผ ๋๋๋๋ ์ผ๋ฐํ๋ ์์ง ์ ์ฆ๋์ง ์์์ต๋๋ค(์ ์๋ค๋ ํ ์ค์ฒยท๊ฒฝ๋ ํ์ฅ์ ํฅํ ๊ณผ์ ๋ก ๋ ).
- ๋น๊ต ๊ธฐ์ค์ (baseline) ๋ถ์ฌ: ๋จ์ผ ๋ชจ๋ฌ๋ฆฌํฐ(์๋๋ง / ์๋ฐ๋ฅ๋ง)๋ ๋์ง ๊ทธ๋ํ ๋๋น ์ด์ข ์ตํฉ์ ์ด๋์ ์ ๋์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ablation์ด ๋ณธ๋ฌธ์ ์์ต๋๋ค. ๋ฐ๋ผ์ โ์ด์ข ์ด๋ผ์ ์ข๋คโ๊ฐ ์์น๋ก ์ฆ๋ช ๋์๋ค๊ธฐ๋ณด๋ค๋ ์ค๊ณ ๋ ผ๊ฑฐ์ ๊ฐ๊น์ต๋๋ค.
- ๊ฑฐ์ ์๋ฒฝํ ์ ์์ ์๋ฉด์ฑ: F1์ด ๋๋ถ๋ถ 1.0์ ๊ฐ๊น๋ค๋ ๊ฒ์ ๊ณผ์ ๊ฐ ํํ์ ๋ณ๋ณ๋ ฅ์ ์ถฉ๋ถํ ์ํํ ๋งํผ ์ด๋ ต์ง ์์์ ๊ฐ๋ฅ์ฑ๋ ์์ฌํฉ๋๋ค. ๋ ํผ๋๋๊ธฐ ์ฌ์ด ๋ฌผ์ฒด๊ตฐ์์์ ์ฑ๋ฅ์ด ๊ถ๊ธํฉ๋๋ค.
- ์กฐ์ ์ ์ฑ ์ผ๋ก์ ์ฐ๊ฒฐ์ ๋ฏธ์: ์ ์ฌ ๊ณต๊ฐ ๋ถ์์ ์ ์ฑ์ ์ด๋ฉฐ, ์ด ํํ์ด ์ค์ ์ ์ฑ ํ์ต(policy learning) ์ฑ๋ฅ์ ์ผ๋ง๋ ๋์ด์ฌ๋ฆฌ๋์ง๋ ํฅํ ๊ณผ์ ๋ก ๋จ๊ฒจ ๋์์ต๋๋ค.
- ์ํฌ์ ๋จํธ์ ํ๊ณ: ๋ถ๋์ GCN์ ๊ตฌ์ฒด์ ์ธต์ยทMAE์ ๋ง์คํน ๋น์จยท์๋ฒ ๋ฉ ์ฐจ์ ๋ฑ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ณธ๋ฌธ์ ๋ช ์๋์ง ์์ต๋๋ค. (์ถ์ธก: ์ ์ ํ์ฅ ๋ ผ๋ฌธ์์ ๋ณด๊ฐ๋ ๋ถ๋ถ.)
๊ด๋ จ ์ฐ๊ตฌ์์ ์์น
- ๋จ์ผ ๋ชจ๋ฌ ๋น์ ์ด๊ฐ ํํ (Sparsh ๋ฑ [16], canonical/force-based pretraining [18], 3D-ViTac [19]): ๊ณ ํด์๋ ๋น์ ์ด๊ฐ ๋๋ 3D taxel์ ๊ฐ๊ฐ ๋ฐ๋ก ํํํ์ต. ๋ณธ ๋ ผ๋ฌธ์ ์ด ๋์ ํ ๊ทธ๋ํ์์ ์ตํฉํ๋ค๋ ์ ์ด ์ฐจ๋ณ์ ์ ๋๋ค.
- ์๊ฐ-์ด๊ฐ ์ตํฉ (predictive force attention [17]): ๋น์ ๊ณผ ์ด๊ฐ์ contrastive/cross-attention์ผ๋ก ๊ฒฐํฉ. ๋ณธ ๋ ผ๋ฌธ์ ๋น์ ์ด๋ฏธ์ง๊ฐ ์๋๋ผ ๋ ์ข ๋ฅ์ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ์์ฒด๋ฅผ ์ตํฉํ๋ค๋ ์ ์์ ๊ฒฐ์ด ๋ค๋ฆ ๋๋ค.
- ์ด๊ฐ play data ์ฌ์ ํ์ต (Dexterity from Touch [20], tactile-skin perception [21]): ๋ก๋ด ๋์ด ๋ฐ์ดํฐ๋ก ์ด๊ฐ ํํ์ ์๊ธฐ์ง๋ ํ์ตํ๋ ํ๋ฆ๊ณผ ๊ฐ์ ๊ณ๋ณด. ๋ณธ ๋ ผ๋ฌธ์ ๊ฑฐ๊ธฐ์ ์ด์ข ๊ทธ๋ํ + masked autoencoder๋ผ๋ ๊ตฌ์กฐ๋ฅผ ๋ํฉ๋๋ค.
- ์์ ์ ๋ฐ ์๊ฒฉ์กฐ์ (bimanual dexterity [22]): ๋ณธ ๋ ผ๋ฌธ์ด ์ฌ์ฉํ๋ ๋ชจ์ ์บก์ฒ ๊ธ๋ฌ๋ธยท๋ฆฌ๋ ๋๋ฐ์ด์ค ๊ธฐ๋ฐ ์๊ฒฉ์กฐ์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ์์ ์ถ์ฒ.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ์ ๊ฐ๊ฐ์ธ ๋ ์ข ๋ฅ์ ์ ์ด๊ฐ โ ์๋์ ๊ณ ํด์๋ ๋น์ ์ด๊ฐ๊ณผ ์๋ฐ๋ฅ์ ๋ถํฌํ ์๊ธฐ์ 3์ถ taxel โ ์ ์์ ๋ฌผ๋ฆฌ์ ๋ฐฐ์น์ ๋ง์ถ 1016๊ฐ ๋ ธ๋์ ์ด์ข ๊ทธ๋ํ๋ก ๋ฌถ๊ณ , GCN๊ณผ masked autoencoder๋ก ํ๋์ ์ปดํฉํธํ ์ด๊ฐ ์๋ฒ ๋ฉ์ ํ์ตํ๋คโ๋ ๊ฒ์ ๋๋ค.
์ง๊ด์ ์ผ๋ก, ์ฌ๋ ์์ด ์๋(์ ๋ฐ)๊ณผ ์๋ฐ๋ฅ(๊ด์ญ)์ด๋ผ๋ ์ด์ง์ ๊ฐ๊ฐ์ ์์ฐ์ค๋ฝ๊ฒ ํตํฉํ๋ฏ, ์ด ์ฐ๊ตฌ๋ ๊ทธ ์ด์ง์ฑ์ ๊ทธ๋ํ ๊ตฌ์กฐ ์์ฒด๋ก ํก์ํฉ๋๋ค. ๋น์ ์ด๋ฏธ์ง๋ CNN์ผ๋ก 16ร12 ๊ฒฉ์ ๋ ธ๋(์๋๋น 192๊ฐ)๊ฐ ๋๊ณ , uSkin taxel์ ๊ทธ๋๋ก 248๊ฐ ๋ ธ๋๊ฐ ๋๋ฉฐ, ๊ณต๊ฐ ๊ทผ์ ์ฑ๊ณผ ์ด๋ํ ๊ตฌ์กฐ๋ก ์ฃ์ง๋ฅผ ๊น์ ๋ ์ธ๊ณ๋ฅผ ์์ต๋๋ค.
์คํ์ ์ผ๋ก๋ 30๊ฐ ๋ฌผ์ฒด play data๋ก ์ฌ์ ํ์ตํ ๋๊ฒฐ ์ธ์ฝ๋๊ฐ 8์ข ์ปต ๋ถ๋ฅ์์ ๊ฑฐ์ ์๋ฒฝํ F1(๋๋ถ๋ถ ~1.0, ์ต์ 0.975)์ ๋ฌ์ฑํ๊ณ , ์๊ฒฉ์กฐ์ ์ํ์ค์์ ์ ์ฌ ๊ณต๊ฐ์ด ์ ์ด-๋น์ ์ด, ์๋ฐ๋ฅ-์๋ ๊ด์ฌ์ ๋ฐ๋ผ ๋จ๊ณ์ ์ผ๋ก ๊ตฌ์กฐํ๋๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค.
์ข ํฉํ๋ฉด, ์ด ์ํฌ์ ๋จํธ์ โ์ด์ข ์ด๊ฐ์ ์ด๋ป๊ฒ ํ๋์ ํํ์ผ๋ก ํตํฉํ๋๊ฐโ๋ผ๋ ๋ฅ์ ์กฐ์์ ํต์ฌ ๋์ ์ ๋ํด, ์ด์ข ๊ทธ๋ํ + ์๊ธฐ์ง๋ ์ฌ์ ํ์ต์ด๋ผ๋ ๊น๋ํ ํ ์๋ฅผ ์ ์ํ ์ด๊ธฐ ๋จ๊ณ์ ์ ๋งํ ์๋์ ๋๋ค. ์ ๋ baselineยทablation๊ณผ ์ ์ฑ ํ์ต์ผ๋ก์ ์ฐ๊ฒฐ์ด ๋ณด๊ฐ๋๋ค๋ฉด, ๋ค์ข ์ด๊ฐ ์ตํฉ ํํ์ ์ค์ฉ์ ๊ธฐ์ค์ ์ด ๋ ์ ์ฌ๋ ฅ์ด ์์ต๋๋ค.