Curieux.JY
  • JungYeon Lee
  • Post
  • Lecture
  • Note

On this page

  • πŸ” Ping Review
  • πŸ”” Ring Review
    • μ„œλ‘ 
    • 방법
      • 전체 ꡬ쑰 ν•œλˆˆμ— 보기
      • 1단계: μžκΈ°μ§€λ„ λŒ€μ‘° ν‘œν˜„ 투영
      • 2단계: λŒ€μ‘° ν‘œν˜„μœΌλ‘œ μœ΅ν•© μ •λ ¬
      • μ˜μ‚¬μ½”λ“œ
      • κ΅¬ν˜„ μ„ΈλΆ€
    • μ‹€ν—˜
      • 데이터셋
      • 재질 λΆ„λ₯˜ κ²°κ³Ό
      • νŒŒμ§€ 예츑 κ²°κ³Ό (Feeling of Success)
      • 절제 μ‹€ν—˜ (Ablation)
      • 정성적 뢄석
    • λΉ„νŒμ  κ³ μ°°
    • κ΄€λ ¨ 연ꡬ 비ꡐ
    • μš”μ•½ 및 κ²°λ‘ 

πŸ“ƒConViTac

tactile
fusion
representation
Aligning Visual-Tactile Fusion with Contrastive Representations
Published

April 10, 2026

  • Paper Link

πŸ” Ping Review

πŸ” Ping β€” A light tap on the surface. Get the gist in seconds.


πŸ”” Ring Review

πŸ”” Ring β€” An idea that echoes. Grasp the core and its value.

μ„œλ‘ 

λ‘œλ΄‡μ΄ 세상을 β€œμ΄ν•΄β€ν•˜λ €λ©΄ μ‹œκ°κ³Ό 촉각이 ν•¨κ»˜ ν•„μš”ν•©λ‹ˆλ‹€. μ‹œκ°μ€ λ©€λ¦¬μ„œ 물체의 전체적인 윀곽과 배치λ₯Ό μ•Œλ €μ£Όμ§€λ§Œ, 손이 물체에 λ‹ΏλŠ” μˆœκ°„ μΌμ–΄λ‚˜λŠ” λ―Έμ„Έν•œ λ³€ν˜•, κ±°μΉ κΈ°, λ―Έλ„λŸ¬μ§ 같은 동적인 μ •λ³΄λŠ” λ†“μΉ˜κΈ° μ‰½μŠ΅λ‹ˆλ‹€. λ°˜λŒ€λ‘œ 촉각은 이런 접촉 μˆœκ°„μ˜ μ„Έλ°€ν•œ 정보λ₯Ό μž‘μ•„λ‚΄μ§€λ§Œ, 물체 μ „μ²΄μ˜ λ§₯락은 μ•Œμ§€ λͺ»ν•©λ‹ˆλ‹€. μ‚¬λžŒμ˜ λ‡ŒλŠ” 이 λ‘˜μ„ μ ˆλ¬˜ν•˜κ²Œ κ²°ν•©ν•©λ‹ˆλ‹€. 눈으둜 β€œμ§€κΈˆ λ§Œμ§€κ³  μžˆλŠ” 뢀뢄”을 μ •ν™•νžˆ μ§šμ–΄λ‚΄κ³ , κ·Έ 뢀뢄에 λŒ€ν•œ 촉감을 μ‹œκ°μ  λ§₯락 μœ„μ— λ§μž…ν˜€ μ΄ν•΄ν•©λ‹ˆλ‹€. 마치 지도λ₯Ό λ³΄λ©΄μ„œ(μ‹œκ°) μ†λμœΌλ‘œ 길의 μ§ˆκ°μ„ λ”λ“¬λŠ”(촉각) 것과 κ°™μŠ΅λ‹ˆλ‹€.

λ¬Έμ œλŠ” κΈ°μ‘΄ λ‘œλ΄‡ μ‹œμŠ€ν…œμ΄ 이 결합을 λ„ˆλ¬΄ λ‹¨μˆœν•˜κ²Œ ν•œλ‹€λŠ” μ μž…λ‹ˆλ‹€. λ§Žμ€ 연ꡬ가 μ‹œκ° νŠΉμ§•κ³Ό 촉각 νŠΉμ§•μ„ κ·Έλƒ₯ λ”ν•˜κ±°λ‚˜(addition) μ΄μ–΄λΆ™μ΄λŠ”(concatenation) λ°©μ‹μœΌλ‘œ μœ΅ν•©ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 마치 두 μž₯의 사진을 겹쳐 λ†“κΈ°λ§Œ ν•˜κ³  β€œμ–΄λŠ 픽셀이 μ–΄λŠ 픽셀에 λŒ€μ‘ν•˜λŠ”μ§€β€λŠ” μ‹ κ²½ μ“°μ§€ μ•ŠλŠ” 것과 κ°™μŠ΅λ‹ˆλ‹€. μ‹œκ°μ˜ μ–΄λŠ μ˜μ—­μ΄ μ΄‰κ°μ˜ μ–΄λŠ 접촉점에 ν•΄λ‹Ήν•˜λŠ”μ§€λ₯Ό νŠΉμ§•(feature) μˆ˜μ€€μ—μ„œ μ •λ ¬(align)ν•˜μ§€ λͺ»ν•˜λ©΄, 두 λͺ¨λ‹¬λ¦¬ν‹°μ˜ 정보가 μ œλŒ€λ‘œ μ–΄μš°λŸ¬μ§€μ§€ λͺ»ν•©λ‹ˆλ‹€.

또 λ‹€λ₯Έ 흐름은 λŒ€μ‘° ν•™μŠ΅(contrastive learning)을 μ‚¬μš©ν•΄ μ‹œκ°-μ΄‰κ°μ˜ 곡동 ν‘œν˜„(joint representation)을 λ°°μš°λŠ” κ²ƒμž…λ‹ˆλ‹€. λŒ€μ‘° ν•™μŠ΅μ€ β€œμ§μ΄ λ§žλŠ” μ‹œκ°-촉각 μŒμ€ κ°€κΉκ²Œ, μ•ˆ λ§žλŠ” μŒμ€ λ©€κ²Œβ€ μž„λ² λ”© 곡간을 ν•™μŠ΅ν•˜λŠ” μžκΈ°μ§€λ„(self-supervised) λ°©μ‹μž…λ‹ˆλ‹€. ν•˜μ§€λ§Œ 이 방식듀은 ν‘œν˜„μ„ ν•™μŠ΅ν•œ λ’€ λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…(예: 재질 λΆ„λ₯˜)μ—μ„œλŠ” 보톡 λ§ˆμ§€λ§‰μ— μž‘μ€ μ™„μ „μ—°κ²°μΈ΅(fully connected layer) ν•˜λ‚˜λ§Œ μ§€λ„ν•™μŠ΅μœΌλ‘œ λ―Έμ„Έμ‘°μ •ν•©λ‹ˆλ‹€. 즉, μ •λ‹΅ λ ˆμ΄λΈ”(ground truth)이 ν‘œν˜„ ν•™μŠ΅ κ³Όμ • 전체에 영ν–₯을 μ£Όμ§€ λͺ»ν•˜κ³ , λ§ˆμ§€λ§‰ λΆ„λ₯˜κΈ°μ—λ§Œ 살짝 λ‹ΏλŠ” μ…ˆμž…λ‹ˆλ‹€. κ°•λ ₯ν•œ 지도 μ‹ ν˜Έλ₯Ό μΆ©λΆ„νžˆ ν™œμš©ν•˜μ§€ λͺ»ν•˜λŠ” ꡬ쑰적 ν•œκ³„κ°€ μžˆλŠ” 것이죠.

ConViTac(King’s College London, Wu, Zhao, Luo, 2025)은 이 두 세계λ₯Ό μž‡μŠ΅λ‹ˆλ‹€. 핡심 μ•„μ΄λ””μ–΄λŠ” ν•œ λ¬Έμž₯으둜 μš”μ•½λ©λ‹ˆλ‹€: μžκΈ°μ§€λ„ λŒ€μ‘° ν•™μŠ΅μœΌλ‘œ 미리 ν•™μŠ΅ν•œ β€œμ •λ ¬λœ μž„λ² λ”©β€μ„, μ™„μ „ μ§€λ„ν•™μŠ΅ μœ΅ν•© λ„€νŠΈμ›Œν¬μ˜ 쑰건(condition)으둜 μ£Όμž…ν•΄μ„œ μœ΅ν•©μ„ μ •λ ¬μ‹œν‚€μž. μ €μžλ“€μ΄ μ œμ•ˆν•œ λ©”μ»€λ‹ˆμ¦˜μ˜ 이름은 Contrastive Embedding Conditioning (CEC) μž…λ‹ˆλ‹€.

핡심 κΈ°μ—¬λŠ” λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

  • λŒ€μ‘° ν‘œν˜„μ„ μ΄μš©ν•΄ μœ΅ν•© λ‹¨κ³„μ—μ„œ νŠΉμ§• 정렬을 κ°•ν™”ν•˜λŠ” μƒˆλ‘œμš΄ μ‹œκ°-촉각 ν‘œν˜„ ν•™μŠ΅ λ„€νŠΈμ›Œν¬ ConViTac을 μ œμ•ˆ.
  • μ‚¬μ „ν•™μŠ΅λœ λŒ€μ‘° μΈμ½”λ”λ‘œ μ‹œκ°Β·μ΄‰κ°μ„ 톡합 잠재 곡간에 νˆ¬μ˜ν•˜κ³ , κ·Έ μž„λ² λ”©μ„ ꡐ차 λͺ¨λ‹¬ μ–΄ν…μ…˜(cross-modal attention)의 쑰건으둜 μ‚¬μš©ν•΄ μœ΅ν•©μ„ μ •λ ¬ν•˜λŠ” CEC λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ•ˆ.
  • Touch and Go, ObjectFolder Real, Feeling of Success λ“± 싀세계 λ°μ΄ν„°μ…‹μ—μ„œ κ΄‘λ²”μœ„ν•œ μ‹€ν—˜μœΌλ‘œ SoTA λŒ€λΉ„ μš°μœ„μ™€ CEC의 효과λ₯Ό μž…μ¦ (재질 λΆ„λ₯˜Β·νŒŒμ§€ μ˜ˆμΈ‘μ—μ„œ μ΅œλŒ€ 12.0%p ν–₯상).

방법

전체 ꡬ쑰 ν•œλˆˆμ— 보기

ConViTac은 λ™κΈ°ν™”λœ μ‹œκ° μ‹œν€€μŠ€ V = \{v_1, \dots, v_N\}와 촉각 μ‹œν€€μŠ€ T = \{t_1, \dots, t_N\}λ₯Ό μž…λ ₯으둜 λ°›μŠ΅λ‹ˆλ‹€. 두 μ‹œν€€μŠ€λŠ” μΌλŒ€μΌ λŒ€μ‘μœΌλ‘œ λ™μ‹œμ— μˆ˜μ§‘λ©λ‹ˆλ‹€(같은 μˆœκ°„μ˜ 카메라 이미지와 λΉ„μ „ 기반 촉각 μ„Όμ„œ 이미지). 각 ν”„λ ˆμž„ v_i, t_iλŠ” \mathbb{R}^{H \times W \times C} ν…μ„œλ‘œ λ¦¬μ‚¬μ΄μ¦ˆλ©λ‹ˆλ‹€. λΉ„μ „ 기반 촉각 μ„Όμ„œ(예: GelSight)λŠ” 좜λ ₯이 κ²°κ΅­ μ΄λ―Έμ§€λΌμ„œ, μ‹œκ°κ³Ό 촉각을 같은 β€œμ΄λ―Έμ§€β€ ν˜•μ‹μœΌλ‘œ λ‹€λ£° 수 μžˆλ‹€λŠ” 점이 이 μ ‘κ·Όμ˜ μ „μ œμž…λ‹ˆλ‹€.

λ„€νŠΈμ›Œν¬λŠ” μ„Έ λΆ€λΆ„μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.

  1. 이쀑 인코더(dual encoders): μ‹œκ°/촉각 각각의 νŠΉμ§•μ„ 뽑고, μœ΅ν•© λͺ¨λ“ˆ \oplus둜 톡합.
  2. λŒ€μ‘° 인코더(contrastive encoder): μžκΈ°μ§€λ„ λŒ€μ‘° ν•™μŠ΅μœΌλ‘œ μ‚¬μ „ν•™μŠ΅λ˜μ–΄, μ‹œκ°Β·μ΄‰κ°μ„ 곡유 잠재 곡간에 투영.
  3. ꡐ차 λͺ¨λ‹¬ μ–΄ν…μ…˜ λͺ¨λ“ˆ: λŒ€μ‘° ν‘œν˜„μ„ 쑰건으둜 μœ΅ν•©μ„ μ •λ ¬.

전체 λ„€νŠΈμ›Œν¬λŠ” μ™„μ „ μ§€λ„ν•™μŠ΅μ΄λ©°, λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ€ ꡐ차 μ—”νŠΈλ‘œν”Ό(cross-entropy) μ†μ‹€λ‘œ ν•™μŠ΅ν•©λ‹ˆλ‹€.

flowchart TD
    subgraph Stage_A["Stage A: Self-Supervised Contrastive Pretraining (SimCLR)"]
        V1[Visual seq V] --> CE[Contrastive Encoder e_c]
        T1[Tactile seq T] --> CE
        CE --> EMB[Unified Embedding e_p]
        EMB -.-> CLOSS[Contrastive Loss L_c]
    end

    subgraph Stage_B["Stage B: Supervised Fusion Alignment (encoder frozen)"]
        V2[Visual seq V] --> VENC[Visual ViT Encoder]
        T2[Tactile seq T] --> TENC[Tactile ViT Encoder]
        VENC --> Fv[F_v]
        TENC --> Ft[F_t]
        Fv --> FUSE[Fusion: f_f]
        Ft --> FUSE
        EMB2[Frozen e_p as condition] --> XATT[Cross-Modal Attention]
        FUSE --> XATT
        XATT --> FA[Aligned feature f_a]
        FA --> FC[FC layer] --> Y[Output y]
    end

    EMB -.frozen.-> EMB2

1단계: μžκΈ°μ§€λ„ λŒ€μ‘° ν‘œν˜„ 투영

λ¨Όμ € λͺ¨λ“  μ‹œκ°-촉각 데이터에 λŒ€ν•΄ SimCLR λ°©μ‹μœΌλ‘œ λŒ€μ‘° 인코더 \varepsilon^cλ₯Ό μ‚¬μ „ν•™μŠ΅ν•©λ‹ˆλ‹€. 이 μΈμ½”λ”λŠ” μ‹œκ° μž…λ ₯κ³Ό 촉각 μž…λ ₯을 같은 톡합 잠재 곡간(unified latent space)으둜 νˆ¬μ˜ν•©λ‹ˆλ‹€. μ§κ΄€μ μœΌλ‘œλŠ” β€œκ°™μ€ 물체의 μ‹œκ° λͺ¨μŠ΅κ³Ό 촉감은 이 κ³΅κ°„μ—μ„œ μ„œλ‘œ κ°€κΉŒμš΄ 점이 λ˜λ„λ‘β€ μ’Œν‘œκ³„λ₯Ό λ°°μš°λŠ” κ²ƒμž…λ‹ˆλ‹€.

투영된 μž„λ² λ”©μ€ μ‹œκ°Β·μ΄‰κ° μž„λ² λ”©μ„ 이어뢙여 λ§Œλ“­λ‹ˆλ‹€.

e^p = C\big[\varepsilon^c(v),\ \varepsilon^c(t)\big]

μ—¬κΈ°μ„œ CλŠ” 채널 λ°©ν–₯ μ—°κ²°(concatenation)μž…λ‹ˆλ‹€.

λŒ€μ‘° 손싀은 InfoNCE ν˜•νƒœλ‘œ, 배치 크기 B에 λŒ€ν•΄ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

\mathcal{L}^c = -\sum_{i=1}^{2B} \log \frac{\exp(S_{i,\,i+B})}{\sum_{j \neq i} \exp(S_{i,\,j})}

μœ μ‚¬λ„ ν–‰λ ¬ SλŠ” μ •κ·œν™”λœ μž„λ² λ”©μ˜ 내적을 μ˜¨λ„ \tau둜 λ‚˜λˆˆ κ°’μž…λ‹ˆλ‹€.

S_{i,j} = \frac{e_i^p \cdot e_j^p}{\tau}

μ§κ΄€μ μœΌλ‘œ ν’€λ©΄, λΆ„μžλŠ” β€œμ§„μ§œ 짝(positive pair)β€μ˜ μœ μ‚¬λ„λ₯Ό ν‚€μš°κ³ , λΆ„λͺ¨λŠ” β€œλ‚˜λ¨Έμ§€ λͺ¨λ“  잘λͺ»λœ 짝(negative)β€μ˜ μœ μ‚¬λ„λ₯Ό λˆ„λ¦…λ‹ˆλ‹€. \tauλŠ” 이 경쟁의 λ‚ μΉ΄λ‘œμ›€μ„ μ‘°μ ˆν•˜λŠ” μ˜¨λ„ μ†μž‘μ΄μž…λ‹ˆλ‹€. ν•œ λ°°μΉ˜μ— 2B개(μ‹œκ° B + 촉각 B)κ°€ λ“€μ–΄κ°€κ³ , i번째의 μ–‘μ˜ 짝은 i+Bλ²ˆμ§Έμ— μœ„μΉ˜ν•˜λŠ” κ΅¬μ‘°μž…λ‹ˆλ‹€.

2단계: λŒ€μ‘° ν‘œν˜„μœΌλ‘œ μœ΅ν•© μ •λ ¬

이제 λŒ€μ‘° 인코더λ₯Ό 동결(freeze)ν•œ 채, λ³„λ„μ˜ ViT 기반 이쀑 인코더가 μ‹œκ° νŠΉμ§• F^v와 촉각 νŠΉμ§• F^tλ₯Ό μΆ”μΆœν•©λ‹ˆλ‹€. 두 νŠΉμ§•μ€ 차원 0 λ°©ν–₯으둜 μ—°κ²°ν•œ λ’€ μ„ ν˜•μΈ΅μ„ 거쳐 μœ΅ν•©λ©λ‹ˆλ‹€.

f^f = L_v\big[C(F^v)\big] \ \oplus\ L_t\big[C(F^t)\big]

μ—¬κΈ°μ„œ \oplusλŠ” μΌλ°˜ν™”λœ μœ΅ν•© μ—°μ‚°μœΌλ‘œ, μ—°κ²°(concatenation), λ§μ…ˆ(addition), ν˜Ήμ€ μ†Œν”„νŠΈλ§₯슀 가쀑합(softmax-weighted sum, SWS) 쀑 무엇이든 λ“€μ–΄κ°ˆ 수 μžˆλŠ” μžλ¦¬μž…λ‹ˆλ‹€.

핡심은 κ·Έλ‹€μŒμž…λ‹ˆλ‹€. λ™κ²°λœ λŒ€μ‘° μž„λ² λ”© e^pλ₯Ό ꡐ차 λͺ¨λ‹¬ μ–΄ν…μ…˜μ˜ 질의(query) μͺ½ 쑰건으둜 μ‚¬μš©ν•΄ μœ΅ν•© νŠΉμ§• f^fλ₯Ό μ •λ ¬ν•©λ‹ˆλ‹€.

\mathcal{A}^{cm}(e, f) = \mathrm{softmax}\!\left(\frac{q k^\top}{\sqrt{d}}\right) v, \quad q = w_q e,\ k = w_k f,\ v = w_v f

즉, 질의 qλŠ” μ •λ ¬λœ λŒ€μ‘° μž„λ² λ”©μ—μ„œ λ‚˜μ˜€κ³ , ν‚€ k와 κ°’ vλŠ” μœ΅ν•© νŠΉμ§•μ—μ„œ λ‚˜μ˜΅λ‹ˆλ‹€. λΉ„μœ ν•˜μžλ©΄, λŒ€μ‘° μž„λ² λ”©μ΄ β€œμ΄ μ‹œκ°-촉각 쌍이 의미적으둜 어디에 μœ„μΉ˜ν•˜λŠ”μ§€β€λ₯Ό μ•„λŠ” μ•ˆλ‚΄μž(질의)κ°€ λ˜μ–΄, μœ΅ν•©λœ μ›μ‹œ νŠΉμ§•(κ°’) μ€‘μ—μ„œ κ·Έ μ˜λ―Έμ— λΆ€ν•©ν•˜λŠ” 뢀뢄에 주의λ₯Ό μ§‘μ€‘ν•˜λ„λ‘ λ§Œλ“œλŠ” κ²ƒμž…λ‹ˆλ‹€. λ§ˆμ§€λ§‰μœΌλ‘œ 닀쀑 ν—€λ“œ(h개) 좜λ ₯을 λͺ¨μλ‹ˆλ‹€.

f^a = C\big[\mathcal{A}^{cm}_1(e^p, f^f), \dots, \mathcal{A}^{cm}_h(e^p, f^f)\big]\, w_0

μ •λ ¬λœ νŠΉμ§• f^aλŠ” 완전연결측을 거쳐 μ΅œμ’… 좜λ ₯ y(재질 λΆ„λ₯˜, νŒŒμ§€ 성곡 예츑 λ“±)λ₯Ό λ§Œλ“­λ‹ˆλ‹€.

μ˜μ‚¬μ½”λ“œ

# Stage A: self-supervised contrastive pretraining
for batch (V, T) in dataloader:
    e_v = contrastive_encoder(V)
    e_t = contrastive_encoder(T)
    e_p = concat(e_v, e_t)
    S   = normalize(e_p) @ normalize(e_p).T / tau
    loss = info_nce(S)            # positives at offset B
    update(contrastive_encoder, loss)

# Stage B: supervised fusion alignment (contrastive encoder frozen)
freeze(contrastive_encoder)
for batch (V, T, label) in dataloader:
    Fv = visual_vit(V)
    Ft = tactile_vit(T)
    ff = fuse(linear_v(concat(Fv)), linear_t(concat(Ft)))   # +, concat, or SWS
    ep = concat(contrastive_encoder(V), contrastive_encoder(T))  # no grad
    q  = Wq @ ep
    k  = Wk @ ff
    v  = Wv @ ff
    fa = multihead_cross_attention(q, k, v)
    y  = fc(fa)
    loss = cross_entropy(y, label)
    update(visual_vit, tactile_vit, attention, fc, loss)

κ΅¬ν˜„ μ„ΈλΆ€

  • λ°±λ³Έ: Vision Transformer, 패치 수 P = 16.
  • ꡐ차 λͺ¨λ‹¬ μ–΄ν…μ…˜ ν—€λ“œ: 8개.
  • λŒ€μ‘° 인코더 선택지: CNN, ViT, DINO (DINOκ°€ κ°€μž₯ 우수).
  • νŒŒλΌλ―Έν„° 증가: 168.07 β†’ 259.86 MiB (μ•½ 35.4% 증가).
  • 속도: 38.17 β†’ 31.85 FPS (μ•½ 16.6% κ°μ†Œ).
  • μ΅œμ ν™”: Adam, 초기 ν•™μŠ΅λ₯  0.1, 배치 16, μž‘μ—…λ‹Ή μ•½ 30 에폭 수렴.
  • ν•˜λ“œμ›¨μ–΄: NVIDIA RTX 3080Ti.

μ‹€ν—˜

데이터셋

  • Touch and Go: μ•½ 13,900 μƒ˜ν”Œ, 4,000μ—¬ 물체, 20개 재질 μΉ΄ν…Œκ³ λ¦¬. 싀세계 μ‹œκ°-촉각 데이터.
  • ObjectFolder Real: 100개 물체, 7개 재질 클래슀.
  • Feeling of Success: νŒŒμ§€ 성곡/μ‹€νŒ¨ 예츑 (grasping prediction).

비ꡐ λŒ€μƒμ€ λŒ€μ‘° ν•™μŠ΅ 계열(VT CMC 2022, SSVTP 2023, MViTac 2024)κ³Ό 지도 ν•™μŠ΅ 계열(STAM, VTFSA, Calandra et al. 2017)μž…λ‹ˆλ‹€.

재질 λΆ„λ₯˜ κ²°κ³Ό

ν‘œλ‘œ μ •λ¦¬ν•œ μΉ΄ν…Œκ³ λ¦¬ λΆ„λ₯˜ 정확도(%)μž…λ‹ˆλ‹€.

데이터셋 μ§€ν‘œ Chance μ΅œκ°• λŒ€μ‘° baseline ConViTac ν–₯상폭
Touch and Go Category 18.6 74.9 (MViTac) 86.3 +11.4
Touch and Go Hard/Soft 66.1 91.8 (MViTac) 94.3 +2.5
Touch and Go Rough/Smooth 56.3 84.1 (MViTac) 88.5 +4.4
ObjectFolder Real Category 13.8 47.9 (VTFSA, 지도) 59.9 +12.0
ObjectFolder Real Hard/Soft 50.6 72.2 (VTFSA) 77.2 +5.0
ObjectFolder Real Rough/Smooth 49.0 74.1 (VTFSA) 81.1 +7.0

Touch and Go μΉ΄ν…Œκ³ λ¦¬ λΆ„λ₯˜μ—μ„œ ConViTac은 86.3%둜, μ΅œκ°• λŒ€μ‘° baseline λŒ€λΉ„ μ•½ 33.7%의 μƒλŒ€μ  ν–₯상(11.4%p)을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. ObjectFolder Realμ—μ„œλ„ κ°€μž₯ μ–΄λ €μš΄ μΉ΄ν…Œκ³ λ¦¬ λΆ„λ₯˜μ—μ„œ 12.0%pλΌλŠ” 큰 κ°œμ„ μ„ λƒˆλŠ”λ°, 이 데이터셋은 물체 μˆ˜κ°€ 100개둜 적고 재질 ν΄λž˜μŠ€κ°€ 7개라 λ‚œμ΄λ„κ°€ λ†’μŠ΅λ‹ˆλ‹€(Chanceκ°€ 13.8%).

νŒŒμ§€ 예츑 κ²°κ³Ό (Feeling of Success)

방법 정확도(%)
Chance 50.8
MViTac (μ΅œκ°• λŒ€μ‘° baseline) 60.3
STAM (지도, 촉각 μ „μš©) 80.0
ConViTac 84.3

νŒŒμ§€ 성곡 μ˜ˆμΈ‘μ€ 거의 이진 λΆ„λ₯˜(Chance 50.8%)에 κ°€κΉμŠ΅λ‹ˆλ‹€. ConViTac은 84.3%둜, κΈ°μ‘΄ μ΅œκ°• μ§€λ„ν•™μŠ΅ baseline λŒ€λΉ„ +4.3%pλ₯Ό λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€. ν₯미둜운 점은 순수 λŒ€μ‘° ν•™μŠ΅ 계열(MViTac 60.3%)이 지도 ν•™μŠ΅ 계열(STAM 80.0%)에 크게 λ’€μ²˜μ§„λ‹€λŠ” 것인데, μ΄λŠ” μ•žμ„œ μ§€μ ν•œ β€œλŒ€μ‘° ν‘œν˜„λ§ŒμœΌλ‘œλŠ” 지도 μ‹ ν˜Έκ°€ ν‘œν˜„ ν•™μŠ΅μ— μΆ©λΆ„νžˆ μ•ˆ λ“€μ–΄κ°„λ‹€β€λŠ” ν•œκ³„λ₯Ό κ·ΈλŒ€λ‘œ λ³΄μ—¬μ€λ‹ˆλ‹€. ConViTac은 λŒ€μ‘° ν‘œν˜„μ„ 지도 ν•™μŠ΅ ν”„λ ˆμž„μ˜ 쑰건으둜 λŒμ–΄λ“€μ—¬ 두 μ§„μ˜μ˜ μž₯점을 λͺ¨λ‘ μ·¨ν•©λ‹ˆλ‹€.

절제 μ‹€ν—˜ (Ablation)

(1) λŒ€μ‘° 인코더 ꡬ쑰 (Touch and Go / Feeling of Success)

인코더 Touch and Go Feeling of Success
CNN 84.2 84.1
ViT 84.3 83.9
DINO 86.3 84.3

μžκΈ°μ§€λ„ μ‚¬μ „ν•™μŠ΅μœΌλ‘œ 잘 μ •λ ¬λœ ν‘œν˜„μ„ κ°€μ§„ DINOκ°€ κ°€μž₯ μ’‹μ•˜μŠ΅λ‹ˆλ‹€. 쑰건으둜 μ£Όμž…ν•  μž„λ² λ”©μ˜ β€œμ •λ ¬ ν’ˆμ§ˆβ€μ΄ κ³§ μ΅œμ’… μ„±λŠ₯κ³Ό 직결됨을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

(2) 쑰건 λͺ¨λ‹¬λ¦¬ν‹° (Touch and Go Category)

쑰건 정확도(%)
쑰건 μ—†μŒ (CEC 미적용) 79.3
μ‹œκ°λ§Œ 쑰건 84.4
μ΄‰κ°λ§Œ 쑰건 85.0
μ‹œκ°+촉각 쑰건 86.3

두 λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό λͺ¨λ‘ 쑰건으둜 μ“Έ λ•Œ +7.0%p둜 졜고. ν•œμͺ½λ§Œ 써도 5%p 이상 ν–₯μƒλ˜λŠ” 것을 보면, CECκ°€ 단일 λͺ¨λ‹¬ ν‘œν˜„μ΄λΌλ„ 의미 μžˆλŠ” μ•ˆλ‚΄ μ‹ ν˜Έλ₯Ό μ€€λ‹€λŠ” 점을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€.

(3) μœ΅ν•© λͺ¨λ“ˆλ³„ CEC 효과 (Touch and Go Category)

μœ΅ν•© 방식 CEC 미적용 CEC 적용 ν–₯상폭
Concatenation 79.3 86.3 +7.0
Addition 77.5 80.8 +3.3
SWS 78.2 82.7 +4.5

μ–΄λ–€ μœ΅ν•© 방식을 μ“°λ“  CECκ°€ μΌκ΄€λ˜κ²Œ μ„±λŠ₯을 λŒμ–΄μ˜¬λ¦½λ‹ˆλ‹€. CECκ°€ νŠΉμ • μœ΅ν•© ꡬ쑰에 μ’…μ†λ˜μ§€ μ•ŠλŠ” ν”ŒλŸ¬κ·ΈμΈ ν˜•νƒœμ˜ μ •λ ¬ λͺ¨λ“ˆμž„을 λ³΄μ—¬μ£ΌλŠ” μ€‘μš”ν•œ κ²°κ³Όμž…λ‹ˆλ‹€.

정성적 뢄석

  • GradCam: CEC 적용 μ‹œ λͺ¨λΈμ΄ 접촉 μ˜μ—­(contact region)에 더 μ§‘μ€‘ν•˜λŠ” μ–΄ν…μ…˜ 맡을 ν˜•μ„±.
  • PCA: CEC μ‚¬μš© μ‹œ νŠΉμ§• 뢄포가 더 잘 μ •λ ¬λ˜κ³  일관성이 ν–₯상됨을 확인.

λΉ„νŒμ  κ³ μ°°

강점

  • λŒ€μ‘° ν•™μŠ΅(μžκΈ°μ§€λ„)κ³Ό μ™„μ „ μ§€λ„ν•™μŠ΅μ˜ μž₯점을 κ²°ν•©ν•˜λŠ” κΉ”λ”ν•œ λ°œμƒμž…λ‹ˆλ‹€. β€œμ •λ ¬λœ μž„λ² λ”©μ„ 쑰건으둜 μ£Όμž…ν•œλ‹€β€λŠ” μ•„μ΄λ””μ–΄λŠ” λ‹¨μˆœν•˜μ§€λ§Œ νš¨κ³Όκ°€ 크고, 절제 μ‹€ν—˜μ—μ„œ μœ΅ν•© 방식과 λ¬΄κ΄€ν•˜κ²Œ μΌκ΄€λœ ν–₯상을 보여 μΌλ°˜μ„±μ΄ λ†’μŠ΅λ‹ˆλ‹€.
  • 싀세계 데이터셋 3μ’…μ—μ„œ ν­λ„“κ²Œ κ²€μ¦ν–ˆκ³ , μΉ΄ν…Œκ³ λ¦¬ λΆ„λ₯˜μ²˜λŸΌ μ–΄λ €μš΄ 닀쀑 클래슀 κ³Όμ œμ—μ„œ 두 자릿수 %p ν–₯μƒμ΄λΌλŠ” 의미 μžˆλŠ” κ²°κ³Όλ₯Ό λƒˆμŠ΅λ‹ˆλ‹€.
  • λͺ¨λ“ˆμ„±(plug-in)이 λ†’μ•„, κΈ°μ‘΄ μ‹œκ°-촉각 νŒŒμ΄ν”„λΌμΈμ— CEC만 λΌμ›Œλ„£μ–΄ κ°œμ„ μ„ κΈ°λŒ€ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ•½μ Β·ν•œκ³„

  • μ—°μ‚° λΉ„μš©: νŒŒλΌλ―Έν„°κ°€ 35.4% μ¦κ°€ν•˜κ³  μΆ”λ‘  속도가 16.6% κ°μ†Œν•©λ‹ˆλ‹€. λ³„λ„μ˜ λŒ€μ‘° 인코더(특히 DINO)λ₯Ό 항상 λŒλ €μ•Ό ν•˜λ―€λ‘œ, μ‹€μ‹œκ°„ λ‘œλ΄‡ μ œμ–΄ 루프에 κ·ΈλŒ€λ‘œ λ„£κΈ°μ—” 뢀담이 μžˆμŠ΅λ‹ˆλ‹€.
  • 동기화 κ°€μ •: μ‹œκ°κ³Ό 촉각이 μΌλŒ€μΌλ‘œ μ™„λ²½νžˆ λ™κΈ°ν™”λœ 쌍으둜 λ“€μ–΄μ˜¨λ‹€λŠ” μ „μ œκ°€ κ°•ν•©λ‹ˆλ‹€. μ‹€μ œ μ‘°μž‘ μ€‘μ—λŠ” μ‹œμ•Ό κ°€λ¦Ό, 타이밍 어긋남이 흔해, 비동기 μƒν™©μ—μ„œμ˜ 강건성은 κ²€μ¦λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€ (μΆ”μΈ‘: λΉ„μ „ 기반 촉각 μ„Όμ„œκ°€ μ•„λ‹Œ force/pressure μ„Όμ„œμ—λŠ” β€œμ΄λ―Έμ§€ν™”β€ μ „μ œκ°€ μ•ˆ λ§žμ•„ 적용이 μ–΄λ €μšΈ 수 있음).
  • 과제 λ²”μœ„: 평가가 λΆ„λ₯˜(재질, νŒŒμ§€ 성곡)에 μ§‘μ€‘λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. μ‹€μ œ 폐루프 λ‘œλ΄‡ μ‘°μž‘(연속 μ œμ–΄, νšŒκ·€ 기반 μžμ„Έ μΆ”μ • λ“±)μ—μ„œμ˜ νš¨μš©μ€ 직접 보이지 μ•Šμ•˜μŠ΅λ‹ˆλ‹€.
  • ν•™μŠ΅λ₯  0.1 + Adam 섀정은 λ‹€μ†Œ 이둀적이라(보톡 Adam은 더 μž‘μ€ ν•™μŠ΅λ₯ ), μž¬ν˜„ μ‹œ μ£Όμ˜κ°€ ν•„μš”ν•΄ λ³΄μž…λ‹ˆλ‹€ (μΆ”μΈ‘).
  • 초기 ν•™μŠ΅λ₯ μ΄ λ†’κ³  μž‘μ—…λ‹Ή ~30 μ—ν­μœΌλ‘œ 비ꡐ적 λΉ λ₯΄κ²Œ μˆ˜λ ΄ν•˜μ§€λ§Œ, λŒ€μ‘° 인코더 μ‚¬μ „ν•™μŠ΅ λΉ„μš©μ€ λ³„λ„λ‘œ λ“€μ–΄κ°‘λ‹ˆλ‹€.

κ΄€λ ¨ 연ꡬ 비ꡐ

μ ‘κ·Ό λŒ€ν‘œ 연ꡬ μœ΅ν•© 방식 지도 μ‹ ν˜Έ ν™œμš© ν•œκ³„
직접 μœ΅ν•© (지도) VTFSA, STAM λ§μ…ˆ/μ—°κ²°/μ–΄ν…μ…˜ 강함 λͺ¨λ‹¬ κ°„ νŠΉμ§• μ •λ ¬ 약함
λŒ€μ‘° ν‘œν˜„ (μžκΈ°μ§€λ„) VT CMC, SSVTP, MViTac, UniTouch μž„λ² λ”© μœ μ‚¬λ„ 약함 (λ§ˆμ§€λ§‰ FC만) 지도 μ‹ ν˜Έκ°€ ν‘œν˜„ ν•™μŠ΅μ— 미반영
CEC (μ œμ•ˆ) ConViTac λŒ€μ‘° μž„λ² λ”© 쑰건 + ꡐ차 μ–΄ν…μ…˜ 강함 μ—°μ‚°/νŒŒλΌλ―Έν„° 증가

κΈ°μ‘΄ 직접 μœ΅ν•© 계열은 κ°•ν•œ 지도 μ‹ ν˜Έλ₯Ό μ“°μ§€λ§Œ 정렬이 μ•½ν•˜κ³ , λŒ€μ‘° 계열은 정렬은 μ’‹μ§€λ§Œ 지도 μ‹ ν˜Έλ₯Ό λͺ» μ‚΄λ¦½λ‹ˆλ‹€. ConViTac은 β€œμ •λ ¬μ€ λŒ€μ‘° ν‘œν˜„μ— λ§‘κΈ°κ³ , κ·Έ 정렬을 쑰건으둜 지도 ν•™μŠ΅ μœ΅ν•©μ— μ£Όμž…β€ν•¨μœΌλ‘œμ¨ 두 약점을 λ™μ‹œμ— λ©”μ›λ‹ˆλ‹€. λΉ„μ „-μ–Έμ–΄ μƒμ„±μ—μ„œ λŒ€μ‘° μž„λ² λ”©(예: CLIP μž„λ² λ”©)을 쑰건으둜 μ“°λŠ” νŒ¨λŸ¬λ‹€μž„μ„ μ‹œκ°-촉각 μœ΅ν•©μ— κ°€μ Έμ˜¨ 것이 κ°œλ…μ μœΌλ‘œ μ‹ μ„ ν•œ μ§€μ μž…λ‹ˆλ‹€.

μš”μ•½ 및 κ²°λ‘ 

ConViTac은 β€œμž˜ μ •λ ¬λœ μžκΈ°μ§€λ„ λŒ€μ‘° μž„λ² λ”©μ„ μ™„μ „ μ§€λ„ν•™μŠ΅ μœ΅ν•©μ˜ 쑰건으둜 μ£Όμž…ν•œλ‹€β€λŠ” ν•œ κ°€μ§€ 아이디어λ₯Ό CEC λ©”μ»€λ‹ˆμ¦˜μœΌλ‘œ κ΅¬ν˜„ν•΄, μ‹œκ°-촉각 μœ΅ν•©μ˜ 고질적 문제인 νŠΉμ§• μ •λ ¬ 뢀쑱을 ν•΄κ²°ν•©λ‹ˆλ‹€. SimCLR둜 λŒ€μ‘° 인코더λ₯Ό μ‚¬μ „ν•™μŠ΅ν•˜κ³  이λ₯Ό λ™κ²°ν•œ λ’€, ꡐ차 λͺ¨λ‹¬ μ–΄ν…μ…˜μ˜ 질의둜 μ‚¬μš©ν•΄ ViT 기반 μœ΅ν•© νŠΉμ§•μ„ μ •λ ¬ν•˜λŠ” κ΅¬μ‘°μž…λ‹ˆλ‹€.

μ‹€ν—˜μ μœΌλ‘œ Touch and Go μΉ΄ν…Œκ³ λ¦¬ λΆ„λ₯˜ 86.3%(+11.4%p), ObjectFolder Real μΉ΄ν…Œκ³ λ¦¬ 59.9%(+12.0%p), Feeling of Success νŒŒμ§€ 예츑 84.3%(+4.3%p)둜 μΌκ΄€λœ SoTAλ₯Ό λ‹¬μ„±ν–ˆκ³ , 절제 μ‹€ν—˜μ—μ„œ CECκ°€ μœ΅ν•© 방식·쑰건 λͺ¨λ‹¬λ¦¬ν‹°μ™€ λ¬΄κ΄€ν•˜κ²Œ μ•ˆμ •μ μœΌλ‘œ μ„±λŠ₯을 λŒμ–΄μ˜¬λ¦Όμ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

λ‘œλ΄‡κ³΅ν•™ μ‹€λ¬΄μž κ΄€μ μ—μ„œ 핡심 κ΅ν›ˆμ€ 두 κ°€μ§€μž…λ‹ˆλ‹€. 첫째, λͺ¨λ‹¬λ¦¬ν‹° μœ΅ν•©μ—μ„œ μ–΄λ–»κ²Œ ν•©μΉ˜λŠλƒλ³΄λ‹€ ν•©μΉ˜κΈ° 전에 의미적으둜 μ •λ ¬λ˜μ–΄ μžˆλŠλƒκ°€ 더 μ€‘μš”ν•  수 μžˆλ‹€λŠ” 점. λ‘˜μ§Έ, μžκΈ°μ§€λ„λ‘œ 얻은 μ •λ ¬ μ‹ ν˜Έλ₯Ό μ§€λ„ν•™μŠ΅μ˜ β€œμ‘°κ±΄β€μœΌλ‘œ μž¬ν™œμš©ν•˜λŠ” νŒ¨ν„΄μ€ 촉각을 λ„˜μ–΄ λ‹€λ₯Έ λ©€ν‹°λͺ¨λ‹¬ λ‘œλ΄‡ 인식에도 μ‘μš©ν•  μ—¬μ§€κ°€ ν¬λ‹€λŠ” μ μž…λ‹ˆλ‹€. λ‹€λ§Œ μ—°μ‚° λΉ„μš© 증가와 λΆ„λ₯˜ μœ„μ£Ό ν‰κ°€λŠ” μ‹€μ œ 폐루프 μ‘°μž‘ 적용 전에 μ§šμ–΄λ³Ό μˆ™μ œλ‘œ λ‚¨μŠ΅λ‹ˆλ‹€.

Copyright 2026, JungYeon Lee