flowchart TD
subgraph Stage_A["Stage A: Self-Supervised Contrastive Pretraining (SimCLR)"]
V1[Visual seq V] --> CE[Contrastive Encoder e_c]
T1[Tactile seq T] --> CE
CE --> EMB[Unified Embedding e_p]
EMB -.-> CLOSS[Contrastive Loss L_c]
end
subgraph Stage_B["Stage B: Supervised Fusion Alignment (encoder frozen)"]
V2[Visual seq V] --> VENC[Visual ViT Encoder]
T2[Tactile seq T] --> TENC[Tactile ViT Encoder]
VENC --> Fv[F_v]
TENC --> Ft[F_t]
Fv --> FUSE[Fusion: f_f]
Ft --> FUSE
EMB2[Frozen e_p as condition] --> XATT[Cross-Modal Attention]
FUSE --> XATT
XATT --> FA[Aligned feature f_a]
FA --> FC[FC layer] --> Y[Output y]
end
EMB -.frozen.-> EMB2
πConViTac
π Ping Review
π Ping β A light tap on the surface. Get the gist in seconds.
π Ring Review
π Ring β An idea that echoes. Grasp the core and its value.
μλ‘
λ‘λ΄μ΄ μΈμμ βμ΄ν΄βνλ €λ©΄ μκ°κ³Ό μ΄κ°μ΄ ν¨κ» νμν©λλ€. μκ°μ λ©λ¦¬μ 물체μ μ 체μ μΈ μ€κ³½κ³Ό λ°°μΉλ₯Ό μλ €μ£Όμ§λ§, μμ΄ λ¬Όμ²΄μ λΏλ μκ° μΌμ΄λλ λ―ΈμΈν λ³ν, κ±°μΉ κΈ°, λ―Έλλ¬μ§ κ°μ λμ μΈ μ 보λ λμΉκΈ° μ½μ΅λλ€. λ°λλ‘ μ΄κ°μ μ΄λ° μ μ΄ μκ°μ μΈλ°ν μ 보λ₯Ό μ‘μλ΄μ§λ§, 물체 μ 체μ λ§₯λ½μ μμ§ λͺ»ν©λλ€. μ¬λμ λλ μ΄ λμ μ λ¬νκ² κ²°ν©ν©λλ€. λμΌλ‘ βμ§κΈ λ§μ§κ³ μλ λΆλΆβμ μ νν μ§μ΄λ΄κ³ , κ·Έ λΆλΆμ λν μ΄κ°μ μκ°μ λ§₯λ½ μμ λ§μ ν μ΄ν΄ν©λλ€. λ§μΉ μ§λλ₯Ό 보면μ(μκ°) μλμΌλ‘ κΈΈμ μ§κ°μ λλ¬λ(μ΄κ°) κ²κ³Ό κ°μ΅λλ€.
λ¬Έμ λ κΈ°μ‘΄ λ‘λ΄ μμ€ν μ΄ μ΄ κ²°ν©μ λ무 λ¨μνκ² νλ€λ μ μ λλ€. λ§μ μ°κ΅¬κ° μκ° νΉμ§κ³Ό μ΄κ° νΉμ§μ κ·Έλ₯ λνκ±°λ(addition) μ΄μ΄λΆμ΄λ(concatenation) λ°©μμΌλ‘ μ΅ν©νμ΅λλ€. μ΄λ λ§μΉ λ μ₯μ μ¬μ§μ κ²Ήμ³ λκΈ°λ§ νκ³ βμ΄λ ν½μ μ΄ μ΄λ ν½μ μ λμνλμ§βλ μ κ²½ μ°μ§ μλ κ²κ³Ό κ°μ΅λλ€. μκ°μ μ΄λ μμμ΄ μ΄κ°μ μ΄λ μ μ΄μ μ ν΄λΉνλμ§λ₯Ό νΉμ§(feature) μμ€μμ μ λ ¬(align)νμ§ λͺ»νλ©΄, λ λͺ¨λ¬λ¦¬ν°μ μ λ³΄κ° μ λλ‘ μ΄μ°λ¬μ§μ§ λͺ»ν©λλ€.
λ λ€λ₯Έ νλ¦μ λμ‘° νμ΅(contrastive learning)μ μ¬μ©ν΄ μκ°-μ΄κ°μ 곡λ νν(joint representation)μ λ°°μ°λ κ²μ λλ€. λμ‘° νμ΅μ βμ§μ΄ λ§λ μκ°-μ΄κ° μμ κ°κΉκ², μ λ§λ μμ λ©κ²β μλ² λ© κ³΅κ°μ νμ΅νλ μκΈ°μ§λ(self-supervised) λ°©μμ λλ€. νμ§λ§ μ΄ λ°©μλ€μ ννμ νμ΅ν λ€ λ€μ΄μ€νΈλ¦Ό μμ (μ: μ¬μ§ λΆλ₯)μμλ λ³΄ν΅ λ§μ§λ§μ μμ μμ μ°κ²°μΈ΅(fully connected layer) νλλ§ μ§λνμ΅μΌλ‘ λ―ΈμΈμ‘°μ ν©λλ€. μ¦, μ λ΅ λ μ΄λΈ(ground truth)μ΄ νν νμ΅ κ³Όμ μ 체μ μν₯μ μ£Όμ§ λͺ»νκ³ , λ§μ§λ§ λΆλ₯κΈ°μλ§ μ΄μ§ λΏλ μ μ λλ€. κ°λ ₯ν μ§λ μ νΈλ₯Ό μΆ©λΆν νμ©νμ§ λͺ»νλ ꡬ쑰μ νκ³κ° μλ κ²μ΄μ£ .
ConViTac(Kingβs College London, Wu, Zhao, Luo, 2025)μ μ΄ λ μΈκ³λ₯Ό μμ΅λλ€. ν΅μ¬ μμ΄λμ΄λ ν λ¬Έμ₯μΌλ‘ μμ½λ©λλ€: μκΈ°μ§λ λμ‘° νμ΅μΌλ‘ 미리 νμ΅ν βμ λ ¬λ μλ² λ©βμ, μμ μ§λνμ΅ μ΅ν© λ€νΈμν¬μ 쑰건(condition)μΌλ‘ μ£Όμ ν΄μ μ΅ν©μ μ λ ¬μν€μ. μ μλ€μ΄ μ μν λ©μ»€λμ¦μ μ΄λ¦μ Contrastive Embedding Conditioning (CEC) μ λλ€.
ν΅μ¬ κΈ°μ¬λ λ€μκ³Ό κ°μ΅λλ€.
- λμ‘° ννμ μ΄μ©ν΄ μ΅ν© λ¨κ³μμ νΉμ§ μ λ ¬μ κ°ννλ μλ‘μ΄ μκ°-μ΄κ° νν νμ΅ λ€νΈμν¬ ConViTacμ μ μ.
- μ¬μ νμ΅λ λμ‘° μΈμ½λλ‘ μκ°Β·μ΄κ°μ ν΅ν© μ μ¬ κ³΅κ°μ ν¬μνκ³ , κ·Έ μλ² λ©μ κ΅μ°¨ λͺ¨λ¬ μ΄ν μ (cross-modal attention)μ 쑰건μΌλ‘ μ¬μ©ν΄ μ΅ν©μ μ λ ¬νλ CEC λ©μ»€λμ¦μ μ μ.
- Touch and Go, ObjectFolder Real, Feeling of Success λ± μ€μΈκ³ λ°μ΄ν°μ μμ κ΄λ²μν μ€νμΌλ‘ SoTA λλΉ μ°μμ CECμ ν¨κ³Όλ₯Ό μ μ¦ (μ¬μ§ λΆλ₯Β·νμ§ μμΈ‘μμ μ΅λ 12.0%p ν₯μ).
λ°©λ²
μ 체 ꡬ쑰 νλμ 보기
ConViTacμ λκΈ°νλ μκ° μνμ€ V = \{v_1, \dots, v_N\}μ μ΄κ° μνμ€ T = \{t_1, \dots, t_N\}λ₯Ό μ λ ₯μΌλ‘ λ°μ΅λλ€. λ μνμ€λ μΌλμΌ λμμΌλ‘ λμμ μμ§λ©λλ€(κ°μ μκ°μ μΉ΄λ©λΌ μ΄λ―Έμ§μ λΉμ κΈ°λ° μ΄κ° μΌμ μ΄λ―Έμ§). κ° νλ μ v_i, t_iλ \mathbb{R}^{H \times W \times C} ν μλ‘ λ¦¬μ¬μ΄μ¦λ©λλ€. λΉμ κΈ°λ° μ΄κ° μΌμ(μ: GelSight)λ μΆλ ₯μ΄ κ²°κ΅ μ΄λ―Έμ§λΌμ, μκ°κ³Ό μ΄κ°μ κ°μ βμ΄λ―Έμ§β νμμΌλ‘ λ€λ£° μ μλ€λ μ μ΄ μ΄ μ κ·Όμ μ μ μ λλ€.
λ€νΈμν¬λ μΈ λΆλΆμΌλ‘ ꡬμ±λ©λλ€.
- μ΄μ€ μΈμ½λ(dual encoders): μκ°/μ΄κ° κ°κ°μ νΉμ§μ λ½κ³ , μ΅ν© λͺ¨λ \oplusλ‘ ν΅ν©.
- λμ‘° μΈμ½λ(contrastive encoder): μκΈ°μ§λ λμ‘° νμ΅μΌλ‘ μ¬μ νμ΅λμ΄, μκ°Β·μ΄κ°μ 곡μ μ μ¬ κ³΅κ°μ ν¬μ.
- κ΅μ°¨ λͺ¨λ¬ μ΄ν μ λͺ¨λ: λμ‘° ννμ 쑰건μΌλ‘ μ΅ν©μ μ λ ¬.
μ 체 λ€νΈμν¬λ μμ μ§λνμ΅μ΄λ©°, λ€μ΄μ€νΈλ¦Ό μμ μ κ΅μ°¨ μνΈλ‘νΌ(cross-entropy) μμ€λ‘ νμ΅ν©λλ€.
1λ¨κ³: μκΈ°μ§λ λμ‘° νν ν¬μ
λ¨Όμ λͺ¨λ μκ°-μ΄κ° λ°μ΄ν°μ λν΄ SimCLR λ°©μμΌλ‘ λμ‘° μΈμ½λ \varepsilon^cλ₯Ό μ¬μ νμ΅ν©λλ€. μ΄ μΈμ½λλ μκ° μ λ ₯κ³Ό μ΄κ° μ λ ₯μ κ°μ ν΅ν© μ μ¬ κ³΅κ°(unified latent space)μΌλ‘ ν¬μν©λλ€. μ§κ΄μ μΌλ‘λ βκ°μ 물체μ μκ° λͺ¨μ΅κ³Ό μ΄κ°μ μ΄ κ³΅κ°μμ μλ‘ κ°κΉμ΄ μ μ΄ λλλ‘β μ’νκ³λ₯Ό λ°°μ°λ κ²μ λλ€.
ν¬μλ μλ² λ©μ μκ°Β·μ΄κ° μλ² λ©μ μ΄μ΄λΆμ¬ λ§λλλ€.
e^p = C\big[\varepsilon^c(v),\ \varepsilon^c(t)\big]
μ¬κΈ°μ Cλ μ±λ λ°©ν₯ μ°κ²°(concatenation)μ λλ€.
λμ‘° μμ€μ InfoNCE ννλ‘, λ°°μΉ ν¬κΈ° Bμ λν΄ λ€μκ³Ό κ°μ΅λλ€.
\mathcal{L}^c = -\sum_{i=1}^{2B} \log \frac{\exp(S_{i,\,i+B})}{\sum_{j \neq i} \exp(S_{i,\,j})}
μ μ¬λ νλ ¬ Sλ μ κ·νλ μλ² λ©μ λ΄μ μ μ¨λ \tauλ‘ λλ κ°μ λλ€.
S_{i,j} = \frac{e_i^p \cdot e_j^p}{\tau}
μ§κ΄μ μΌλ‘ νλ©΄, λΆμλ βμ§μ§ μ§(positive pair)βμ μ μ¬λλ₯Ό ν€μ°κ³ , λΆλͺ¨λ βλλ¨Έμ§ λͺ¨λ μλͺ»λ μ§(negative)βμ μ μ¬λλ₯Ό λλ¦ λλ€. \tauλ μ΄ κ²½μμ λ μΉ΄λ‘μμ μ‘°μ νλ μ¨λ μμ‘μ΄μ λλ€. ν λ°°μΉμ 2Bκ°(μκ° B + μ΄κ° B)κ° λ€μ΄κ°κ³ , iλ²μ§Έμ μμ μ§μ i+Bλ²μ§Έμ μμΉνλ ꡬ쑰μ λλ€.
2λ¨κ³: λμ‘° ννμΌλ‘ μ΅ν© μ λ ¬
μ΄μ λμ‘° μΈμ½λλ₯Ό λκ²°(freeze)ν μ±, λ³λμ ViT κΈ°λ° μ΄μ€ μΈμ½λκ° μκ° νΉμ§ F^vμ μ΄κ° νΉμ§ F^tλ₯Ό μΆμΆν©λλ€. λ νΉμ§μ μ°¨μ 0 λ°©ν₯μΌλ‘ μ°κ²°ν λ€ μ νμΈ΅μ κ±°μ³ μ΅ν©λ©λλ€.
f^f = L_v\big[C(F^v)\big] \ \oplus\ L_t\big[C(F^t)\big]
μ¬κΈ°μ \oplusλ μΌλ°νλ μ΅ν© μ°μ°μΌλ‘, μ°κ²°(concatenation), λ§μ (addition), νΉμ μννΈλ§₯μ€ κ°μ€ν©(softmax-weighted sum, SWS) μ€ λ¬΄μμ΄λ λ€μ΄κ° μ μλ μ리μ λλ€.
ν΅μ¬μ κ·Έλ€μμ λλ€. λκ²°λ λμ‘° μλ² λ© e^pλ₯Ό κ΅μ°¨ λͺ¨λ¬ μ΄ν μ μ μ§μ(query) μͺ½ 쑰건μΌλ‘ μ¬μ©ν΄ μ΅ν© νΉμ§ f^fλ₯Ό μ λ ¬ν©λλ€.
\mathcal{A}^{cm}(e, f) = \mathrm{softmax}\!\left(\frac{q k^\top}{\sqrt{d}}\right) v, \quad q = w_q e,\ k = w_k f,\ v = w_v f
μ¦, μ§μ qλ μ λ ¬λ λμ‘° μλ² λ©μμ λμ€κ³ , ν€ kμ κ° vλ μ΅ν© νΉμ§μμ λμ΅λλ€. λΉμ νμλ©΄, λμ‘° μλ² λ©μ΄ βμ΄ μκ°-μ΄κ° μμ΄ μλ―Έμ μΌλ‘ μ΄λμ μμΉνλμ§βλ₯Ό μλ μλ΄μ(μ§μ)κ° λμ΄, μ΅ν©λ μμ νΉμ§(κ°) μ€μμ κ·Έ μλ―Έμ λΆν©νλ λΆλΆμ μ£Όμλ₯Ό μ§μ€νλλ‘ λ§λλ κ²μ λλ€. λ§μ§λ§μΌλ‘ λ€μ€ ν€λ(hκ°) μΆλ ₯μ λͺ¨μλλ€.
f^a = C\big[\mathcal{A}^{cm}_1(e^p, f^f), \dots, \mathcal{A}^{cm}_h(e^p, f^f)\big]\, w_0
μ λ ¬λ νΉμ§ f^aλ μμ μ°κ²°μΈ΅μ κ±°μ³ μ΅μ’ μΆλ ₯ y(μ¬μ§ λΆλ₯, νμ§ μ±κ³΅ μμΈ‘ λ±)λ₯Ό λ§λλλ€.
μμ¬μ½λ
# Stage A: self-supervised contrastive pretraining
for batch (V, T) in dataloader:
e_v = contrastive_encoder(V)
e_t = contrastive_encoder(T)
e_p = concat(e_v, e_t)
S = normalize(e_p) @ normalize(e_p).T / tau
loss = info_nce(S) # positives at offset B
update(contrastive_encoder, loss)
# Stage B: supervised fusion alignment (contrastive encoder frozen)
freeze(contrastive_encoder)
for batch (V, T, label) in dataloader:
Fv = visual_vit(V)
Ft = tactile_vit(T)
ff = fuse(linear_v(concat(Fv)), linear_t(concat(Ft))) # +, concat, or SWS
ep = concat(contrastive_encoder(V), contrastive_encoder(T)) # no grad
q = Wq @ ep
k = Wk @ ff
v = Wv @ ff
fa = multihead_cross_attention(q, k, v)
y = fc(fa)
loss = cross_entropy(y, label)
update(visual_vit, tactile_vit, attention, fc, loss)ꡬν μΈλΆ
- λ°±λ³Έ: Vision Transformer, ν¨μΉ μ P = 16.
- κ΅μ°¨ λͺ¨λ¬ μ΄ν μ ν€λ: 8κ°.
- λμ‘° μΈμ½λ μ νμ§: CNN, ViT, DINO (DINOκ° κ°μ₯ μ°μ).
- νλΌλ―Έν° μ¦κ°: 168.07 β 259.86 MiB (μ½ 35.4% μ¦κ°).
- μλ: 38.17 β 31.85 FPS (μ½ 16.6% κ°μ).
- μ΅μ ν: Adam, μ΄κΈ° νμ΅λ₯ 0.1, λ°°μΉ 16, μμ λΉ μ½ 30 μν μλ ΄.
- νλμ¨μ΄: NVIDIA RTX 3080Ti.
μ€ν
λ°μ΄ν°μ
- Touch and Go: μ½ 13,900 μν, 4,000μ¬ λ¬Όμ²΄, 20κ° μ¬μ§ μΉ΄ν κ³ λ¦¬. μ€μΈκ³ μκ°-μ΄κ° λ°μ΄ν°.
- ObjectFolder Real: 100κ° λ¬Όμ²΄, 7κ° μ¬μ§ ν΄λμ€.
- Feeling of Success: νμ§ μ±κ³΅/μ€ν¨ μμΈ‘ (grasping prediction).
λΉκ΅ λμμ λμ‘° νμ΅ κ³μ΄(VT CMC 2022, SSVTP 2023, MViTac 2024)κ³Ό μ§λ νμ΅ κ³μ΄(STAM, VTFSA, Calandra et al. 2017)μ λλ€.
μ¬μ§ λΆλ₯ κ²°κ³Ό
νλ‘ μ 리ν μΉ΄ν κ³ λ¦¬ λΆλ₯ μ νλ(%)μ λλ€.
| λ°μ΄ν°μ | μ§ν | Chance | μ΅κ° λμ‘° baseline | ConViTac | ν₯μν |
|---|---|---|---|---|---|
| Touch and Go | Category | 18.6 | 74.9 (MViTac) | 86.3 | +11.4 |
| Touch and Go | Hard/Soft | 66.1 | 91.8 (MViTac) | 94.3 | +2.5 |
| Touch and Go | Rough/Smooth | 56.3 | 84.1 (MViTac) | 88.5 | +4.4 |
| ObjectFolder Real | Category | 13.8 | 47.9 (VTFSA, μ§λ) | 59.9 | +12.0 |
| ObjectFolder Real | Hard/Soft | 50.6 | 72.2 (VTFSA) | 77.2 | +5.0 |
| ObjectFolder Real | Rough/Smooth | 49.0 | 74.1 (VTFSA) | 81.1 | +7.0 |
Touch and Go μΉ΄ν κ³ λ¦¬ λΆλ₯μμ ConViTacμ 86.3%λ‘, μ΅κ° λμ‘° baseline λλΉ μ½ 33.7%μ μλμ ν₯μ(11.4%p)μ 보μμ΅λλ€. ObjectFolder Realμμλ κ°μ₯ μ΄λ €μ΄ μΉ΄ν κ³ λ¦¬ λΆλ₯μμ 12.0%pλΌλ ν° κ°μ μ λλλ°, μ΄ λ°μ΄ν°μ μ 물체 μκ° 100κ°λ‘ μ κ³ μ¬μ§ ν΄λμ€κ° 7κ°λΌ λμ΄λκ° λμ΅λλ€(Chanceκ° 13.8%).
νμ§ μμΈ‘ κ²°κ³Ό (Feeling of Success)
| λ°©λ² | μ νλ(%) |
|---|---|
| Chance | 50.8 |
| MViTac (μ΅κ° λμ‘° baseline) | 60.3 |
| STAM (μ§λ, μ΄κ° μ μ©) | 80.0 |
| ConViTac | 84.3 |
νμ§ μ±κ³΅ μμΈ‘μ κ±°μ μ΄μ§ λΆλ₯(Chance 50.8%)μ κ°κΉμ΅λλ€. ConViTacμ 84.3%λ‘, κΈ°μ‘΄ μ΅κ° μ§λνμ΅ baseline λλΉ +4.3%pλ₯Ό λ¬μ±νμ΅λλ€. ν₯λ―Έλ‘μ΄ μ μ μμ λμ‘° νμ΅ κ³μ΄(MViTac 60.3%)μ΄ μ§λ νμ΅ κ³μ΄(STAM 80.0%)μ ν¬κ² λ€μ²μ§λ€λ κ²μΈλ°, μ΄λ μμ μ§μ ν βλμ‘° ννλ§μΌλ‘λ μ§λ μ νΈκ° νν νμ΅μ μΆ©λΆν μ λ€μ΄κ°λ€βλ νκ³λ₯Ό κ·Έλλ‘ λ³΄μ¬μ€λλ€. ConViTacμ λμ‘° ννμ μ§λ νμ΅ νλ μμ 쑰건μΌλ‘ λμ΄λ€μ¬ λ μ§μμ μ₯μ μ λͺ¨λ μ·¨ν©λλ€.
μ μ μ€ν (Ablation)
(1) λμ‘° μΈμ½λ ꡬ쑰 (Touch and Go / Feeling of Success)
| μΈμ½λ | Touch and Go | Feeling of Success |
|---|---|---|
| CNN | 84.2 | 84.1 |
| ViT | 84.3 | 83.9 |
| DINO | 86.3 | 84.3 |
μκΈ°μ§λ μ¬μ νμ΅μΌλ‘ μ μ λ ¬λ ννμ κ°μ§ DINOκ° κ°μ₯ μ’μμ΅λλ€. 쑰건μΌλ‘ μ£Όμ ν μλ² λ©μ βμ λ ¬ νμ§βμ΄ κ³§ μ΅μ’ μ±λ₯κ³Ό μ§κ²°λ¨μ μμ¬ν©λλ€.
(2) 쑰건 λͺ¨λ¬λ¦¬ν° (Touch and Go Category)
| 쑰건 | μ νλ(%) |
|---|---|
| 쑰건 μμ (CEC λ―Έμ μ©) | 79.3 |
| μκ°λ§ 쑰건 | 84.4 |
| μ΄κ°λ§ 쑰건 | 85.0 |
| μκ°+μ΄κ° 쑰건 | 86.3 |
λ λͺ¨λ¬λ¦¬ν°λ₯Ό λͺ¨λ 쑰건μΌλ‘ μΈ λ +7.0%pλ‘ μ΅κ³ . νμͺ½λ§ μ¨λ 5%p μ΄μ ν₯μλλ κ²μ 보면, CECκ° λ¨μΌ λͺ¨λ¬ ννμ΄λΌλ μλ―Έ μλ μλ΄ μ νΈλ₯Ό μ€λ€λ μ μ μ μ μμ΅λλ€.
(3) μ΅ν© λͺ¨λλ³ CEC ν¨κ³Ό (Touch and Go Category)
| μ΅ν© λ°©μ | CEC λ―Έμ μ© | CEC μ μ© | ν₯μν |
|---|---|---|---|
| Concatenation | 79.3 | 86.3 | +7.0 |
| Addition | 77.5 | 80.8 | +3.3 |
| SWS | 78.2 | 82.7 | +4.5 |
μ΄λ€ μ΅ν© λ°©μμ μ°λ CECκ° μΌκ΄λκ² μ±λ₯μ λμ΄μ¬λ¦½λλ€. CECκ° νΉμ μ΅ν© ꡬ쑰μ μ’ μλμ§ μλ νλ¬κ·ΈμΈ ννμ μ λ ¬ λͺ¨λμμ 보μ¬μ£Όλ μ€μν κ²°κ³Όμ λλ€.
μ μ±μ λΆμ
- GradCam: CEC μ μ© μ λͺ¨λΈμ΄ μ μ΄ μμ(contact region)μ λ μ§μ€νλ μ΄ν μ λ§΅μ νμ±.
- PCA: CEC μ¬μ© μ νΉμ§ λΆν¬κ° λ μ μ λ ¬λκ³ μΌκ΄μ±μ΄ ν₯μλ¨μ νμΈ.
λΉνμ κ³ μ°°
κ°μ
- λμ‘° νμ΅(μκΈ°μ§λ)κ³Ό μμ μ§λνμ΅μ μ₯μ μ κ²°ν©νλ κΉλν λ°μμ λλ€. βμ λ ¬λ μλ² λ©μ 쑰건μΌλ‘ μ£Όμ νλ€βλ μμ΄λμ΄λ λ¨μνμ§λ§ ν¨κ³Όκ° ν¬κ³ , μ μ μ€νμμ μ΅ν© λ°©μκ³Ό 무κ΄νκ² μΌκ΄λ ν₯μμ λ³΄μ¬ μΌλ°μ±μ΄ λμ΅λλ€.
- μ€μΈκ³ λ°μ΄ν°μ 3μ’ μμ νλκ² κ²μ¦νκ³ , μΉ΄ν κ³ λ¦¬ λΆλ₯μ²λΌ μ΄λ €μ΄ λ€μ€ ν΄λμ€ κ³Όμ μμ λ μλ¦Ώμ %p ν₯μμ΄λΌλ μλ―Έ μλ κ²°κ³Όλ₯Ό λμ΅λλ€.
- λͺ¨λμ±(plug-in)μ΄ λμ, κΈ°μ‘΄ μκ°-μ΄κ° νμ΄νλΌμΈμ CECλ§ λΌμλ£μ΄ κ°μ μ κΈ°λν μ μμ΅λλ€.
μ½μ Β·νκ³
- μ°μ° λΉμ©: νλΌλ―Έν°κ° 35.4% μ¦κ°νκ³ μΆλ‘ μλκ° 16.6% κ°μν©λλ€. λ³λμ λμ‘° μΈμ½λ(νΉν DINO)λ₯Ό νμ λλ €μΌ νλ―λ‘, μ€μκ° λ‘λ΄ μ μ΄ λ£¨νμ κ·Έλλ‘ λ£κΈ°μ λΆλ΄μ΄ μμ΅λλ€.
- λκΈ°ν κ°μ : μκ°κ³Ό μ΄κ°μ΄ μΌλμΌλ‘ μλ²½ν λκΈ°νλ μμΌλ‘ λ€μ΄μ¨λ€λ μ μ κ° κ°ν©λλ€. μ€μ μ‘°μ μ€μλ μμΌ κ°λ¦Ό, νμ΄λ° μ΄κΈλ¨μ΄ νν΄, λΉλκΈ° μν©μμμ κ°κ±΄μ±μ κ²μ¦λμ§ μμμ΅λλ€ (μΆμΈ‘: λΉμ κΈ°λ° μ΄κ° μΌμκ° μλ force/pressure μΌμμλ βμ΄λ―Έμ§νβ μ μ κ° μ λ§μ μ μ©μ΄ μ΄λ €μΈ μ μμ).
- κ³Όμ λ²μ: νκ°κ° λΆλ₯(μ¬μ§, νμ§ μ±κ³΅)μ μ§μ€λμ΄ μμ΅λλ€. μ€μ ν루ν λ‘λ΄ μ‘°μ(μ°μ μ μ΄, νκ· κΈ°λ° μμΈ μΆμ λ±)μμμ ν¨μ©μ μ§μ 보μ΄μ§ μμμ΅λλ€.
- νμ΅λ₯ 0.1 + Adam μ€μ μ λ€μ μ΄λ‘μ μ΄λΌ(λ³΄ν΅ Adamμ λ μμ νμ΅λ₯ ), μ¬ν μ μ£Όμκ° νμν΄ λ³΄μ λλ€ (μΆμΈ‘).
- μ΄κΈ° νμ΅λ₯ μ΄ λκ³ μμ λΉ ~30 μνμΌλ‘ λΉκ΅μ λΉ λ₯΄κ² μλ ΄νμ§λ§, λμ‘° μΈμ½λ μ¬μ νμ΅ λΉμ©μ λ³λλ‘ λ€μ΄κ°λλ€.
κ΄λ ¨ μ°κ΅¬ λΉκ΅
| μ κ·Ό | λν μ°κ΅¬ | μ΅ν© λ°©μ | μ§λ μ νΈ νμ© | νκ³ |
|---|---|---|---|---|
| μ§μ μ΅ν© (μ§λ) | VTFSA, STAM | λ§μ /μ°κ²°/μ΄ν μ | κ°ν¨ | λͺ¨λ¬ κ° νΉμ§ μ λ ¬ μ½ν¨ |
| λμ‘° νν (μκΈ°μ§λ) | VT CMC, SSVTP, MViTac, UniTouch | μλ² λ© μ μ¬λ | μ½ν¨ (λ§μ§λ§ FCλ§) | μ§λ μ νΈκ° νν νμ΅μ λ―Έλ°μ |
| CEC (μ μ) | ConViTac | λμ‘° μλ² λ© μ‘°κ±΄ + κ΅μ°¨ μ΄ν μ | κ°ν¨ | μ°μ°/νλΌλ―Έν° μ¦κ° |
κΈ°μ‘΄ μ§μ μ΅ν© κ³μ΄μ κ°ν μ§λ μ νΈλ₯Ό μ°μ§λ§ μ λ ¬μ΄ μ½νκ³ , λμ‘° κ³μ΄μ μ λ ¬μ μ’μ§λ§ μ§λ μ νΈλ₯Ό λͺ» μ΄λ¦½λλ€. ConViTacμ βμ λ ¬μ λμ‘° ννμ λ§‘κΈ°κ³ , κ·Έ μ λ ¬μ 쑰건μΌλ‘ μ§λ νμ΅ μ΅ν©μ μ£Όμ βν¨μΌλ‘μ¨ λ μ½μ μ λμμ λ©μλλ€. λΉμ -μΈμ΄ μμ±μμ λμ‘° μλ² λ©(μ: CLIP μλ² λ©)μ 쑰건μΌλ‘ μ°λ ν¨λ¬λ€μμ μκ°-μ΄κ° μ΅ν©μ κ°μ Έμ¨ κ²μ΄ κ°λ μ μΌλ‘ μ μ ν μ§μ μ λλ€.
μμ½ λ° κ²°λ‘
ConViTacμ βμ μ λ ¬λ μκΈ°μ§λ λμ‘° μλ² λ©μ μμ μ§λνμ΅ μ΅ν©μ 쑰건μΌλ‘ μ£Όμ νλ€βλ ν κ°μ§ μμ΄λμ΄λ₯Ό CEC λ©μ»€λμ¦μΌλ‘ ꡬνν΄, μκ°-μ΄κ° μ΅ν©μ κ³ μ§μ λ¬Έμ μΈ νΉμ§ μ λ ¬ λΆμ‘±μ ν΄κ²°ν©λλ€. SimCLRλ‘ λμ‘° μΈμ½λλ₯Ό μ¬μ νμ΅νκ³ μ΄λ₯Ό λκ²°ν λ€, κ΅μ°¨ λͺ¨λ¬ μ΄ν μ μ μ§μλ‘ μ¬μ©ν΄ ViT κΈ°λ° μ΅ν© νΉμ§μ μ λ ¬νλ ꡬ쑰μ λλ€.
μ€νμ μΌλ‘ Touch and Go μΉ΄ν κ³ λ¦¬ λΆλ₯ 86.3%(+11.4%p), ObjectFolder Real μΉ΄ν κ³ λ¦¬ 59.9%(+12.0%p), Feeling of Success νμ§ μμΈ‘ 84.3%(+4.3%p)λ‘ μΌκ΄λ SoTAλ₯Ό λ¬μ±νκ³ , μ μ μ€νμμ CECκ° μ΅ν© λ°©μ·쑰건 λͺ¨λ¬λ¦¬ν°μ 무κ΄νκ² μμ μ μΌλ‘ μ±λ₯μ λμ΄μ¬λ¦Όμ 보μμ΅λλ€.
λ‘λ΄κ³΅ν μ€λ¬΄μ κ΄μ μμ ν΅μ¬ κ΅νμ λ κ°μ§μ λλ€. 첫째, λͺ¨λ¬λ¦¬ν° μ΅ν©μμ μ΄λ»κ² ν©μΉλλλ³΄λ€ ν©μΉκΈ° μ μ μλ―Έμ μΌλ‘ μ λ ¬λμ΄ μλλκ° λ μ€μν μ μλ€λ μ . λμ§Έ, μκΈ°μ§λλ‘ μ»μ μ λ ¬ μ νΈλ₯Ό μ§λνμ΅μ β쑰건βμΌλ‘ μ¬νμ©νλ ν¨ν΄μ μ΄κ°μ λμ΄ λ€λ₯Έ λ©ν°λͺ¨λ¬ λ‘λ΄ μΈμμλ μμ©ν μ¬μ§κ° ν¬λ€λ μ μ λλ€. λ€λ§ μ°μ° λΉμ© μ¦κ°μ λΆλ₯ μμ£Ό νκ°λ μ€μ ν루ν μ‘°μ μ μ© μ μ μ§μ΄λ³Ό μμ λ‘ λ¨μ΅λλ€.