📃ConViTac

tactile

fusion

representation

Aligning Visual-Tactile Fusion with Contrastive Representations

Published

April 10, 2026

Paper Link

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론

로봇이 세상을 “이해”하려면 시각과 촉각이 함께 필요합니다. 시각은 멀리서 물체의 전체적인 윤곽과 배치를 알려주지만, 손이 물체에 닿는 순간 일어나는 미세한 변형, 거칠기, 미끄러짐 같은 동적인 정보는 놓치기 쉽습니다. 반대로 촉각은 이런 접촉 순간의 세밀한 정보를 잡아내지만, 물체 전체의 맥락은 알지 못합니다. 사람의 뇌는 이 둘을 절묘하게 결합합니다. 눈으로 “지금 만지고 있는 부분”을 정확히 짚어내고, 그 부분에 대한 촉감을 시각적 맥락 위에 덧입혀 이해합니다. 마치 지도를 보면서(시각) 손끝으로 길의 질감을 더듬는(촉각) 것과 같습니다.

문제는 기존 로봇 시스템이 이 결합을 너무 단순하게 한다는 점입니다. 많은 연구가 시각 특징과 촉각 특징을 그냥 더하거나(addition) 이어붙이는(concatenation) 방식으로 융합했습니다. 이는 마치 두 장의 사진을 겹쳐 놓기만 하고 “어느 픽셀이 어느 픽셀에 대응하는지”는 신경 쓰지 않는 것과 같습니다. 시각의 어느 영역이 촉각의 어느 접촉점에 해당하는지를 특징(feature) 수준에서 정렬(align)하지 못하면, 두 모달리티의 정보가 제대로 어우러지지 못합니다.

또 다른 흐름은 대조 학습(contrastive learning)을 사용해 시각-촉각의 공동 표현(joint representation)을 배우는 것입니다. 대조 학습은 “짝이 맞는 시각-촉각 쌍은 가깝게, 안 맞는 쌍은 멀게” 임베딩 공간을 학습하는 자기지도(self-supervised) 방식입니다. 하지만 이 방식들은 표현을 학습한 뒤 다운스트림 작업(예: 재질 분류)에서는 보통 마지막에 작은 완전연결층(fully connected layer) 하나만 지도학습으로 미세조정합니다. 즉, 정답 레이블(ground truth)이 표현 학습 과정 전체에 영향을 주지 못하고, 마지막 분류기에만 살짝 닿는 셈입니다. 강력한 지도 신호를 충분히 활용하지 못하는 구조적 한계가 있는 것이죠.

Figure 1

ConViTac(King’s College London, Wu, Zhao, Luo, 2025)은 이 두 세계를 잇습니다. 핵심 아이디어는 한 문장으로 요약됩니다: 자기지도 대조 학습으로 미리 학습한 “정렬된 임베딩”을, 완전 지도학습 융합 네트워크의 조건(condition)으로 주입해서 융합을 정렬시키자. 저자들이 제안한 메커니즘의 이름은 Contrastive Embedding Conditioning (CEC) 입니다.

핵심 기여는 다음과 같습니다.

대조 표현을 이용해 융합 단계에서 특징 정렬을 강화하는 새로운 시각-촉각 표현 학습 네트워크 ConViTac을 제안.
사전학습된 대조 인코더로 시각·촉각을 통합 잠재 공간에 투영하고, 그 임베딩을 교차 모달 어텐션(cross-modal attention)의 조건으로 사용해 융합을 정렬하는 CEC 메커니즘을 제안.
Touch and Go, ObjectFolder Real, Feeling of Success 등 실세계 데이터셋에서 광범위한 실험으로 SoTA 대비 우위와 CEC의 효과를 입증 (재질 분류·파지 예측에서 최대 12.0%p 향상).

방법

전체 구조 한눈에 보기

ConViTac은 동기화된 시각 시퀀스 V = \{v_1, \dots, v_N\}와 촉각 시퀀스 T = \{t_1, \dots, t_N\}를 입력으로 받습니다. 두 시퀀스는 일대일 대응으로 동시에 수집됩니다(같은 순간의 카메라 이미지와 비전 기반 촉각 센서 이미지). 각 프레임 v_i, t_i는 \mathbb{R}^{H \times W \times C} 텐서로 리사이즈됩니다. 비전 기반 촉각 센서(예: GelSight)는 출력이 결국 이미지라서, 시각과 촉각을 같은 “이미지” 형식으로 다룰 수 있다는 점이 이 접근의 전제입니다.

네트워크는 세 부분으로 구성됩니다.

이중 인코더(dual encoders): 시각/촉각 각각의 특징을 뽑고, 융합 모듈 \oplus로 통합.
대조 인코더(contrastive encoder): 자기지도 대조 학습으로 사전학습되어, 시각·촉각을 공유 잠재 공간에 투영.
교차 모달 어텐션 모듈: 대조 표현을 조건으로 융합을 정렬.

전체 네트워크는 완전 지도학습이며, 다운스트림 작업은 교차 엔트로피(cross-entropy) 손실로 학습합니다.

Figure 2

flowchart TD
    subgraph Stage_A["Stage A: Self-Supervised Contrastive Pretraining (SimCLR)"]
        V1[Visual seq V] --> CE[Contrastive Encoder e_c]
        T1[Tactile seq T] --> CE
        CE --> EMB[Unified Embedding e_p]
        EMB -.-> CLOSS[Contrastive Loss L_c]
    end

    subgraph Stage_B["Stage B: Supervised Fusion Alignment (encoder frozen)"]
        V2[Visual seq V] --> VENC[Visual ViT Encoder]
        T2[Tactile seq T] --> TENC[Tactile ViT Encoder]
        VENC --> Fv[F_v]
        TENC --> Ft[F_t]
        Fv --> FUSE[Fusion: f_f]
        Ft --> FUSE
        EMB2[Frozen e_p as condition] --> XATT[Cross-Modal Attention]
        FUSE --> XATT
        XATT --> FA[Aligned feature f_a]
        FA --> FC[FC layer] --> Y[Output y]
    end

    EMB -.frozen.-> EMB2

1단계: 자기지도 대조 표현 투영

먼저 모든 시각-촉각 데이터에 대해 SimCLR 방식으로 대조 인코더 \varepsilon^c를 사전학습합니다. 이 인코더는 시각 입력과 촉각 입력을 같은 통합 잠재 공간(unified latent space)으로 투영합니다. 직관적으로는 “같은 물체의 시각 모습과 촉감은 이 공간에서 서로 가까운 점이 되도록” 좌표계를 배우는 것입니다.

투영된 임베딩은 시각·촉각 임베딩을 이어붙여 만듭니다.

e^p = C\big[\varepsilon^c(v),\ \varepsilon^c(t)\big]

여기서 C는 채널 방향 연결(concatenation)입니다.

대조 손실은 InfoNCE 형태로, 배치 크기 B에 대해 다음과 같습니다.

\mathcal{L}^c = -\sum_{i=1}^{2B} \log \frac{\exp(S_{i,\,i+B})}{\sum_{j \neq i} \exp(S_{i,\,j})}

유사도 행렬 S는 정규화된 임베딩의 내적을 온도 \tau로 나눈 값입니다.

S_{i,j} = \frac{e_i^p \cdot e_j^p}{\tau}

직관적으로 풀면, 분자는 “진짜 짝(positive pair)”의 유사도를 키우고, 분모는 “나머지 모든 잘못된 짝(negative)”의 유사도를 누릅니다. \tau는 이 경쟁의 날카로움을 조절하는 온도 손잡이입니다. 한 배치에 2B개(시각 B + 촉각 B)가 들어가고, i번째의 양의 짝은 i+B번째에 위치하는 구조입니다.

2단계: 대조 표현으로 융합 정렬

이제 대조 인코더를 동결(freeze)한 채, 별도의 ViT 기반 이중 인코더가 시각 특징 F^v와 촉각 특징 F^t를 추출합니다. 두 특징은 차원 0 방향으로 연결한 뒤 선형층을 거쳐 융합됩니다.

f^f = L_v\big[C(F^v)\big] \ \oplus\ L_t\big[C(F^t)\big]

여기서 \oplus는 일반화된 융합 연산으로, 연결(concatenation), 덧셈(addition), 혹은 소프트맥스 가중합(softmax-weighted sum, SWS) 중 무엇이든 들어갈 수 있는 자리입니다.

핵심은 그다음입니다. 동결된 대조 임베딩 e^p를 교차 모달 어텐션의 질의(query) 쪽 조건으로 사용해 융합 특징 f^f를 정렬합니다.

\mathcal{A}^{cm}(e, f) = \mathrm{softmax}\!\left(\frac{q k^\top}{\sqrt{d}}\right) v, \quad q = w_q e,\ k = w_k f,\ v = w_v f

즉, 질의 q는 정렬된 대조 임베딩에서 나오고, 키 k와 값 v는 융합 특징에서 나옵니다. 비유하자면, 대조 임베딩이 “이 시각-촉각 쌍이 의미적으로 어디에 위치하는지”를 아는 안내자(질의)가 되어, 융합된 원시 특징(값) 중에서 그 의미에 부합하는 부분에 주의를 집중하도록 만드는 것입니다. 마지막으로 다중 헤드(h개) 출력을 모읍니다.

f^a = C\big[\mathcal{A}^{cm}_1(e^p, f^f), \dots, \mathcal{A}^{cm}_h(e^p, f^f)\big]\, w_0

정렬된 특징 f^a는 완전연결층을 거쳐 최종 출력 y(재질 분류, 파지 성공 예측 등)를 만듭니다.

Figure 3

의사코드

# Stage A: self-supervised contrastive pretraining
for batch (V, T) in dataloader:
    e_v = contrastive_encoder(V)
    e_t = contrastive_encoder(T)
    e_p = concat(e_v, e_t)
    S   = normalize(e_p) @ normalize(e_p).T / tau
    loss = info_nce(S)            # positives at offset B
    update(contrastive_encoder, loss)

# Stage B: supervised fusion alignment (contrastive encoder frozen)
freeze(contrastive_encoder)
for batch (V, T, label) in dataloader:
    Fv = visual_vit(V)
    Ft = tactile_vit(T)
    ff = fuse(linear_v(concat(Fv)), linear_t(concat(Ft)))   # +, concat, or SWS
    ep = concat(contrastive_encoder(V), contrastive_encoder(T))  # no grad
    q  = Wq @ ep
    k  = Wk @ ff
    v  = Wv @ ff
    fa = multihead_cross_attention(q, k, v)
    y  = fc(fa)
    loss = cross_entropy(y, label)
    update(visual_vit, tactile_vit, attention, fc, loss)

구현 세부

백본: Vision Transformer, 패치 수 P = 16.
교차 모달 어텐션 헤드: 8개.
대조 인코더 선택지: CNN, ViT, DINO (DINO가 가장 우수).
파라미터 증가: 168.07 → 259.86 MiB (약 35.4% 증가).
속도: 38.17 → 31.85 FPS (약 16.6% 감소).
최적화: Adam, 초기 학습률 0.1, 배치 16, 작업당 약 30 에폭 수렴.
하드웨어: NVIDIA RTX 3080Ti.

실험

데이터셋

Touch and Go: 약 13,900 샘플, 4,000여 물체, 20개 재질 카테고리. 실세계 시각-촉각 데이터.
ObjectFolder Real: 100개 물체, 7개 재질 클래스.
Feeling of Success: 파지 성공/실패 예측 (grasping prediction).

비교 대상은 대조 학습 계열(VT CMC 2022, SSVTP 2023, MViTac 2024)과 지도 학습 계열(STAM, VTFSA, Calandra et al. 2017)입니다.

재질 분류 결과

표로 정리한 카테고리 분류 정확도(%)입니다.

데이터셋	지표	Chance	최강 대조 baseline	ConViTac	향상폭
Touch and Go	Category	18.6	74.9 (MViTac)	86.3	+11.4
Touch and Go	Hard/Soft	66.1	91.8 (MViTac)	94.3	+2.5
Touch and Go	Rough/Smooth	56.3	84.1 (MViTac)	88.5	+4.4
ObjectFolder Real	Category	13.8	47.9 (VTFSA, 지도)	59.9	+12.0
ObjectFolder Real	Hard/Soft	50.6	72.2 (VTFSA)	77.2	+5.0
ObjectFolder Real	Rough/Smooth	49.0	74.1 (VTFSA)	81.1	+7.0

Figure 4

Touch and Go 카테고리 분류에서 ConViTac은 86.3%로, 최강 대조 baseline 대비 약 33.7%의 상대적 향상(11.4%p)을 보였습니다. ObjectFolder Real에서도 가장 어려운 카테고리 분류에서 12.0%p라는 큰 개선을 냈는데, 이 데이터셋은 물체 수가 100개로 적고 재질 클래스가 7개라 난이도가 높습니다(Chance가 13.8%).

파지 예측 결과 (Feeling of Success)

방법	정확도(%)
Chance	50.8
MViTac (최강 대조 baseline)	60.3
STAM (지도, 촉각 전용)	80.0
ConViTac	84.3

파지 성공 예측은 거의 이진 분류(Chance 50.8%)에 가깝습니다. ConViTac은 84.3%로, 기존 최강 지도학습 baseline 대비 +4.3%p를 달성했습니다. 흥미로운 점은 순수 대조 학습 계열(MViTac 60.3%)이 지도 학습 계열(STAM 80.0%)에 크게 뒤처진다는 것인데, 이는 앞서 지적한 “대조 표현만으로는 지도 신호가 표현 학습에 충분히 안 들어간다”는 한계를 그대로 보여줍니다. ConViTac은 대조 표현을 지도 학습 프레임의 조건으로 끌어들여 두 진영의 장점을 모두 취합니다.

절제 실험 (Ablation)

논문 그림 1

(1) 대조 인코더 구조 (Touch and Go / Feeling of Success)

인코더	Touch and Go	Feeling of Success
CNN	84.2	84.1
ViT	84.3	83.9
DINO	86.3	84.3

자기지도 사전학습으로 잘 정렬된 표현을 가진 DINO가 가장 좋았습니다. 조건으로 주입할 임베딩의 “정렬 품질”이 곧 최종 성능과 직결됨을 시사합니다.

(2) 조건 모달리티 (Touch and Go Category)

조건	정확도(%)
조건 없음 (CEC 미적용)	79.3
시각만 조건	84.4
촉각만 조건	85.0
시각+촉각 조건	86.3

두 모달리티를 모두 조건으로 쓸 때 +7.0%p로 최고. 한쪽만 써도 5%p 이상 향상되는 것을 보면, CEC가 단일 모달 표현이라도 의미 있는 안내 신호를 준다는 점을 알 수 있습니다.

(3) 융합 모듈별 CEC 효과 (Touch and Go Category)

융합 방식	CEC 미적용	CEC 적용	향상폭
Concatenation	79.3	86.3	+7.0
Addition	77.5	80.8	+3.3
SWS	78.2	82.7	+4.5

어떤 융합 방식을 쓰든 CEC가 일관되게 성능을 끌어올립니다. CEC가 특정 융합 구조에 종속되지 않는 플러그인 형태의 정렬 모듈임을 보여주는 중요한 결과입니다.

정성적 분석

GradCam: CEC 적용 시 모델이 접촉 영역(contact region)에 더 집중하는 어텐션 맵을 형성.
PCA: CEC 사용 시 특징 분포가 더 잘 정렬되고 일관성이 향상됨을 확인.

논문 그림 2

비판적 고찰

강점

대조 학습(자기지도)과 완전 지도학습의 장점을 결합하는 깔끔한 발상입니다. “정렬된 임베딩을 조건으로 주입한다”는 아이디어는 단순하지만 효과가 크고, 절제 실험에서 융합 방식과 무관하게 일관된 향상을 보여 일반성이 높습니다.
실세계 데이터셋 3종에서 폭넓게 검증했고, 카테고리 분류처럼 어려운 다중 클래스 과제에서 두 자릿수 %p 향상이라는 의미 있는 결과를 냈습니다.
모듈성(plug-in)이 높아, 기존 시각-촉각 파이프라인에 CEC만 끼워넣어 개선을 기대할 수 있습니다.

약점·한계

연산 비용: 파라미터가 35.4% 증가하고 추론 속도가 16.6% 감소합니다. 별도의 대조 인코더(특히 DINO)를 항상 돌려야 하므로, 실시간 로봇 제어 루프에 그대로 넣기엔 부담이 있습니다.
동기화 가정: 시각과 촉각이 일대일로 완벽히 동기화된 쌍으로 들어온다는 전제가 강합니다. 실제 조작 중에는 시야 가림, 타이밍 어긋남이 흔해, 비동기 상황에서의 강건성은 검증되지 않았습니다 (추측: 비전 기반 촉각 센서가 아닌 force/pressure 센서에는 “이미지화” 전제가 안 맞아 적용이 어려울 수 있음).
과제 범위: 평가가 분류(재질, 파지 성공)에 집중되어 있습니다. 실제 폐루프 로봇 조작(연속 제어, 회귀 기반 자세 추정 등)에서의 효용은 직접 보이지 않았습니다.
학습률 0.1 + Adam 설정은 다소 이례적이라(보통 Adam은 더 작은 학습률), 재현 시 주의가 필요해 보입니다 (추측).
초기 학습률이 높고 작업당 ~30 에폭으로 비교적 빠르게 수렴하지만, 대조 인코더 사전학습 비용은 별도로 들어갑니다.

접근	대표 연구	융합 방식	지도 신호 활용	한계
직접 융합 (지도)	VTFSA, STAM	덧셈/연결/어텐션	강함	모달 간 특징 정렬 약함
대조 표현 (자기지도)	VT CMC, SSVTP, MViTac, UniTouch	임베딩 유사도	약함 (마지막 FC만)	지도 신호가 표현 학습에 미반영
CEC (제안)	ConViTac	대조 임베딩 조건 + 교차 어텐션	강함	연산/파라미터 증가

요약 및 결론

ConViTac은 “잘 정렬된 자기지도 대조 임베딩을 완전 지도학습 융합의 조건으로 주입한다”는 한 가지 아이디어를 CEC 메커니즘으로 구현해, 시각-촉각 융합의 고질적 문제인 특징 정렬 부족을 해결합니다. SimCLR로 대조 인코더를 사전학습하고 이를 동결한 뒤, 교차 모달 어텐션의 질의로 사용해 ViT 기반 융합 특징을 정렬하는 구조입니다.

실험적으로 Touch and Go 카테고리 분류 86.3%(+11.4%p), ObjectFolder Real 카테고리 59.9%(+12.0%p), Feeling of Success 파지 예측 84.3%(+4.3%p)로 일관된 SoTA를 달성했고, 절제 실험에서 CEC가 융합 방식·조건 모달리티와 무관하게 안정적으로 성능을 끌어올림을 보였습니다.

로봇공학 실무자 관점에서 핵심 교훈은 두 가지입니다. 첫째, 모달리티 융합에서 어떻게 합치느냐보다 합치기 전에 의미적으로 정렬되어 있느냐가 더 중요할 수 있다는 점. 둘째, 자기지도로 얻은 정렬 신호를 지도학습의 “조건”으로 재활용하는 패턴은 촉각을 넘어 다른 멀티모달 로봇 인식에도 응용할 여지가 크다는 점입니다. 다만 연산 비용 증가와 분류 위주 평가는 실제 폐루프 조작 적용 전에 짚어볼 숙제로 남습니다.