📃ViTac-Tracing

tactile

deformable

ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing

Published

May 30, 2026

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론

변형체(deformable object)를 다룬다는 것

로봇이 다루는 대상이 강체(rigid body)일 때는 문제가 비교적 단순합니다. 컵의 자세(pose)는 6개의 숫자(위치 3 + 회전 3)로 완전히 표현되고, 한 번 잡으면 손과 물체의 상대 관계가 변하지 않습니다. 그런데 신발끈, 케이블, 수건, 천 같은 변형체로 넘어가는 순간 이야기가 완전히 달라집니다. 이런 물체는 자유도(DoF)가 사실상 무한대에 가깝고, 책상 위에 아무렇게나 놓이면 접히고 꼬이고 뭉쳐 있어서 “지금 이 물체가 어떤 상태인가”를 한눈에 파악하기조차 어렵습니다.

그래서 변형체 조작에는 흔히 전처리 단계가 필요합니다. 구겨진 티셔츠를 펴서 평평하게 만들면 옷깃이나 모서리 같은 특징점(landmark)을 찾기 쉬워지고, 그다음 접기·정리 같은 다운스트림(downstream) 작업이 수월해지죠. 이 논문이 다루는 tracing(트레이싱, 물체를 따라가며 펴기)이 바로 그 전처리에 해당합니다. 그리퍼(gripper)로 물체의 한쪽 끝을 잡고, 물체의 가장자리(edge)를 따라 손가락을 미끄러뜨려 반대쪽 끝까지 쓸어내려 엉킨 물체를 곧게 펴진(extended) 상태로 만드는 것입니다.

비유하자면, 헝클어진 목걸이 줄을 한 손으로 고정하고 다른 손가락으로 줄을 쭉 훑어 내려 매듭 없이 펴는 동작을 떠올리면 됩니다. 사람은 손끝의 촉감으로 “줄이 아직 손가락 사이에 잘 물려 있는지”를 느끼면서 자연스럽게 합니다. 로봇이 이걸 하려면 그 촉감을 어떻게든 흉내내야 합니다.

논문 그림 1

두 종류의 트레이싱, 그리고 일반화 문제

논문은 트레이싱을 두 범주로 나눕니다.

1D 트레이싱 (object following): 끈, 케이블, 로프처럼 선형(linear) 물체를 따라가기
2D 트레이싱 (object sliding): 수건, 천처럼 평면(planar) 물체의 한쪽 가장자리(edge)를 따라가기

구조는 다르지만 둘 다 “물체와 접촉을 유지하며 한쪽 끝에서 반대쪽 끝까지 미끄러진다”는 점에서 물리적으로 닮아 있습니다. 그래서 저자들은 하나의 통합 모델(unified model)로 1D와 2D를 모두 다룰 수 있지 않을까?라는 질문을 던집니다.

기존 접근들은 여기서 막혔습니다.

모델 기반 제어(model-based control): 물체의 상태와 동역학(dynamics)을 정확히 모델링해야 하는데, 무한 DoF 변형체에서는 이게 매우 어렵고 물체 종류마다 컨트롤러를 새로 짜야 합니다.
강화학습(RL): 보상 함수(reward) 설계와 시뮬레이션 내 정확한 변형체 모델링이 필요하고, 시뮬레이션에서 학습한 정책을 실제 로봇에 옮길 때 sim-to-real gap으로 자주 실패합니다.

이 논문이 택한 길은 모방학습(Imitation Learning, IL)입니다. 사람이 직접 시연(demonstration)한 데이터로 정책을 학습하므로, 명시적인 물체 동역학 모델도 필요 없고 sim-to-real gap도 없습니다. 여러 종류의 물체를 트레이싱하는 통합 정책을 학습하기에 매력적인 선택지죠. 저자들은 이것이 1D와 2D 변형체 트레이싱을 통합 정책으로 다루는 첫 시도라고 주장합니다.

왜 촉각(tactile)이 필요한가

트레이싱의 성패는 결국 “접촉을 잃지 않는 것”에 달려 있습니다. 그런데 트레이싱 중에는 그리퍼 손가락 자체가 물체를 가려서(occlusion) 카메라만으로는 지금 물체가 손가락 사이에 제대로 물려 있는지 알 수 없습니다. 손가락 끝 가장자리로 물체가 미끄러져 빠지기 직전인지, 중앙에 안정적으로 물려 있는지를 시각만으로 판단하기 어렵다는 뜻입니다.

이 국소(local) 정보의 공백을 메우는 것이 바로 촉각 센서입니다. 이 논문은 GelSight Wedge 계열의 비전 기반 촉각 센서(vision-based tactile sensor)를 그리퍼 손가락에 통합합니다. 비전 기반 촉각 센서는 투명 젤 표면이 물체에 눌린 모양을 내부 카메라로 찍어 고해상도 촉각 이미지(tactile image)를 만드는 장치입니다. 즉 촉각을 “이미지”로 바꿔 시각과 같은 방식으로 처리할 수 있게 해줍니다.

정리하면, 이 논문의 큰 그림은 다음과 같습니다.

flowchart TB
    A[Crumpled deformable object<br/>1D rope/cable or 2D towel/cloth] --> B[ViTac-Tracing policy]
    V[Visual image: global context] --> B
    T[Tactile image: local contact] --> B
    K[Robot kinematics: proprioception] --> B
    B --> C[Slide gripper along the object<br/>while keeping contact]
    C --> D[Extended, untangled state]
    D --> E[Easier downstream manipulation:<br/>folding, cable insertion, dressing]

핵심 기여를 세 가지로 요약하면 다음과 같습니다.

시각-촉각 모방학습 프레임워크를 제안해, 실제 로봇이 다양한 1D/2D 변형체를 하나의 통합 정책으로 트레이싱하게 함.
저비용 시각-촉각 원격조작(teleoperation) 시스템을 만들어, 시연자(operator)와 로봇 양쪽 모두에 멀티모달 피드백을 제공함.
광범위한 ablation/비교 실험으로 각 구성 요소의 효과를 검증하고, 본 적 있는(seen) 물체와 본 적 없는(unseen) 물체 모두에서 성능을 보임.

방법

문제 정의: 수식으로 본 “잘된 트레이싱”

먼저 트레이싱을 수학적으로 정의합니다. 1D 변형체(또는 2D 물체의 한쪽 가장자리)를 Cartesian 공간 안의 시변 공간 곡선(time-varying spatial curve) \mathcal{C}_t \subset \mathbb{R}^3로 모델링합니다. 곡선의 전체 길이를 L이라 하고, 작업은 t=0부터 t=T까지 진행됩니다.

기호를 정리하면:

p_0 = (x_0, y_0, z_0): 다른 그리퍼가 고정하고 있는 고정점(fixed point)
p_t = (x_t, y_t, z_t): 움직이는 그리퍼와 물체의 접촉점(contact point)
o^T: 그리퍼의 촉각 감지 영역(tactile sensing region)

성공적인 트레이싱이 만족해야 할 제약은 직관적으로 두 가지입니다.

물체를 놓치지 말 것: 접촉점은 항상 곡선 위에 있어야 함. 즉 p_t \in \mathcal{C}_t.
손가락 중앙에 물려 있을 것: 접촉점은 촉각 감지 영역 안에 머물러야 함. 즉 p_t \in o^T. 감지 영역을 벗어났다는 건 물체가 손가락 끝으로 미끄러져 빠졌다는 뜻입니다.

또한 작업의 “진행”에 대한 두 가지 목표도 정의합니다.

접촉점과 고정점 사이 거리가 시간이 지나며 점점 전체 길이로 수렴해야 함: \|p_t - p_0\|_2 \to L.
그 거리는 단조 증가(monotonically increasing)해야 함: \frac{d}{dt}\|p_t - p_0\|_2 \geq 0. (한 번 편 부분이 다시 줄어들면 안 된다는 뜻 — 뒤로 가지 말고 꾸준히 끝을 향해 나아가라.)

이 정의가 중요한 이유는, 뒤에서 나오는 두 가지 손실 함수(local center loss, global task loss)가 정확히 이 제약·목표를 정책에 주입하기 위한 장치이기 때문입니다.

논문 그림 2

데이터 수집: 멀티모달 피드백을 갖춘 원격조작 시스템

모방학습은 시연 데이터의 품질이 곧 정책의 품질입니다. 그래서 저자들은 데이터 수집 장치 자체에 공을 들였습니다. 하드웨어 구성은 다음과 같습니다.

로봇: 양팔(dual-arm) ABB YuMi. 한 팔은 leader(시연자가 조종), 다른 쪽은 follower(실제 작업 수행).
시각 센서: ZED 2 스테레오 카메라가 위에서 내려다보는(top-down) 뷰 제공.
촉각 센서: GelSight Wedge 기반 비전 촉각 센서를 follower 그리퍼 손가락에 장착.
제어: 로봇은 관절 위치(joint position) 모드로 제어, 엔드이펙터(EE) 속도는 400 mm/s로 제한. Nvidia Jetson Orin이 카메라·ROS 드라이버 구동(ROS Noetic, Docker 컨테이너).

여기서 영리한 부분은 시연자(사람)에게도 피드백을 준다는 점입니다. 기존 저가 원격조작 시스템은 대부분 촉각 피드백이 없어서, 시연자가 “지금 물체가 잘 물려 있는지”를 모른 채 조종합니다. 그러면 시연 데이터의 질이 떨어지죠. 이 시스템은:

follower의 시각·촉각 이미지를 실시간으로 화면에 스트리밍해 시연자가 접촉 상태를 눈으로 확인.
leader 그리퍼에 진동 모터(DAOKAI DC 5V Mini)를 달아, 로봇이 특이점(singularity) 근처에 가면 진동으로 경고.

특이점 경고는 정책이 (관절각이 아니라) EE pose 기준으로 학습되기 때문에 필요합니다. EE pose와 관절각의 매핑이 일대일이 아니라서(non-unique), 특정 EE 자세에서 로봇이 움직일 수 없는 곤란한 관절 구성에 빠질 수 있거든요. 특이점 근접도는 Yoshikawa 가조작성 지수(Manipulability Index)로 계산합니다.

w(q) = \sqrt{\det\!\big(J(q)\,J(q)^T\big)}

여기서 q는 로봇의 관절 상태, J(\cdot)는 야코비안(Jacobian) 행렬입니다. 직관적으로 w(q)가 클수록 그 자세에서 로봇이 여러 방향으로 자유롭게 움직일 수 있다는 뜻이고(=손재주가 좋음), 작아질수록 특이점에 가깝다는 뜻입니다. w(q)가 임계값 \lambda_w \cdot \max(w) 아래로 떨어지면 진동이 켜지며, \lambda_w = 0.2는 grid search로 정했습니다.

이렇게 수집된 한 에피소드(episode) \mathcal{D}는 시점 t마다 관측 o_t = \{o_t^K, o_t^V, o_t^T\}(각각 kinematics, visual, tactile)와 시연자 쪽에서 얻은 ground-truth 행동 a_t의 쌍으로 구성됩니다:

\mathcal{D} = \{(o_t, a_t)\}_{t=0}^{T}

정책 백본: Action Chunking Transformer (ACT)

정책의 뼈대는 ACT(Action Chunking Transformer)입니다. ACT는 저비용 양팔 모방학습으로 유명한 방법으로, 한 번에 한 스텝만 예측하는 대신 앞으로의 k개 행동을 묶음(chunk)으로 예측합니다. 이렇게 하면 누적 오차(compounding error)와 떨림이 줄어드는 장점이 있습니다.

입력 처리 흐름은 다음과 같습니다.

o_t^K (로봇 kinematics) → MLP로 특징 추출
o_t^V (시각 이미지) → CNN (ResNet18)
o_t^T (촉각 이미지) → 별도의 CNN (ResNet18)
세 특징을 concatenate해서 Transformer 기반 정책 네트워크에 입력

flowchart LR
    K[Robot kinematics o_K] --> M[MLP]
    V[Visual image o_V] --> C1[CNN ResNet18]
    T[Tactile image o_T] --> C2[CNN ResNet18]
    M --> F[Concatenated features]
    C1 --> F
    C2 --> F
    F --> TR[Transformer policy network]
    TR --> A[Predicted action chunk a_t:t+k]
    TR --> I[Predicted completion sequence I_t:t+k]
    A --> L1[Local Center Loss]
    I --> L2[Global Task Loss]
    TR --> L3[Regularization KL Loss]
    L1 --> LO[Overall Loss]
    L2 --> LO
    L3 --> LO

ACT는 기본적으로 두 개의 손실로 학습됩니다.

재구성 손실(reconstruction loss) — 예측 행동이 시연 행동과 일치하도록:

\mathcal{L}_{reconst} = \mathrm{MAE}(\hat{a}_{t:t+k},\, a_{t:t+k})

여기서 MAE는 평균 절대 오차(L1 loss)입니다.

정규화 손실(regularization loss) — ACT는 CVAE(조건부 변분 오토인코더) 구조라, 스타일 변수 z의 인코더 분포를 표준 정규분포에 가깝게 묶어둡니다:

\mathcal{L}_{reg} = D_{KL}\big(q_\phi(z \mid a_{t:t+k}, \bar{o}_t)\,\|\,\mathcal{N}(0, I)\big)

q_\phi는 Transformer 인코더, z는 스타일 변수, \bar{o}_t는 이미지 관측을 뺀 나머지 관측입니다.

여기까지는 표준 ACT입니다. 이 논문의 진짜 기여는 여기에 두 가지 손실을 더한 것입니다 — 하나는 국소(local) 관점, 하나는 전역(global) 관점.

논문 그림 3

기여 1: Local Center Loss (국소 중심 손실)

문제 정의의 제약 2번(“접촉점이 촉각 감지 영역 안에 있어야 함”)을 떠올려봅시다. 변형체는 DoF가 높아서, 접촉이 촉각 센서의 가장자리(edge) 쪽으로 치우치면 손가락 밖으로 미끄러져 떨어지기 쉽습니다. 이상적인 접촉 위치는 촉각 이미지의 중앙(center)입니다.

핵심 통찰은 이렇습니다. 시연 데이터가 항상 완벽하지는 않다. 시연자가 실시간 촉각 모니터링을 보면서 조작하긴 하지만, 모든 순간 접촉점을 정확히 손가락 중앙으로 유지하지는 못합니다. 그래서 모든 시연 행동을 똑같은 가중치로 모방하는 대신, 접촉점을 중앙으로 가져가는 행동에 더 큰 가중치를 줍니다.

구현은 다음과 같습니다.

접촉점 위치를 촉각 이미지에서 추출: 고해상도 촉각 텍스처는 매우 선명하므로 고전적 영상처리로 충분합니다. 그레이스케일 변환 → 임계값(thresholding) → 가우시안 필터링 → 윤곽선(contour) 추출로 접촉 마스크를 만들고, 가장 큰 윤곽을 타원(ellipse)으로 피팅(또는 PCA로 분석)해 픽셀 좌표 접촉점 p_t^{tac} = (u_t^{tac}, v_t^{tac})를 얻습니다.
중심에서 멀수록 작아지는 가중치: 감지 영역의 중심을 c = (u_c, v_c)라 할 때,

w_t = \exp\!\left(-\frac{\|p_t^{tac} - c\|}{c}\right)

접촉점이 중심에 가까우면 w_t \approx 1, 가장자리로 갈수록 0에 가까워집니다. 즉 “이미 잘 물려 있는 좋은 순간의 행동”을 더 신뢰하라는 뜻입니다.

가중 재구성 손실:

\mathcal{L}_{center} = w_{t:t+k} \cdot \mathrm{MAE}(\hat{a}_{t:t+k},\, a_{t:t+k})

비유하자면, 줄넘기를 배우는 학생에게 코치가 “잘 돌렸을 때의 폼을 특히 잘 기억해 둬”라고 말하는 것과 같습니다. 어설펐던 순간의 동작은 덜 따라하고, 안정적이었던 순간의 동작을 집중적으로 모방하게 만드는 것이죠.

기여 2: Global Task Loss (전역 작업 손실)

Center loss가 “접촉을 잃지 마”라는 국소 제약을 담당한다면, 전역 손실은 “작업이 얼마나 진행됐는지, 언제 멈춰야 하는지”라는 전역 목표를 담당합니다. 많은 변형체 조작은 정확한 종료(termination)가 중요합니다 — 수건을 접으려면 모서리에서 멈춰야 하고, 케이블을 클립에 꽂으려면 그리퍼에서 빠지기 직전에 멈춰야 합니다.

저자들은 완료 지수(completion index) I라는 스칼라를 정의합니다. 작업 중 물체가 (고정점과 접촉점 사이에서) 팽팽하게 당겨져 직선에 가깝다고 가정하면, 이미 펴진 길이를 p_0와 p_t 사이 거리로 추정할 수 있고, 이를 전체 길이로 나눠 진행률을 구할 수 있습니다.

먼저 촉각 이미지에서 얻은 접촉점 p_t^{tac}를 그리퍼 좌표계(센서 좌표계와 일치)로 변환합니다:

p_t^{gripper} = \left(\frac{u_t^{tac} - u_c}{p2m},\; \frac{v_t^{tac} - v_c}{p2m},\; 0\right)

여기서 p2m은 픽셀-미터 스케일(pixel-to-meter)입니다. 그다음 좌표 변환으로 월드 좌표계의 접촉점 p_t를 구합니다:

p_t = T_{gripper}^{world}\, p_t^{gripper}

T_{gripper}^{world}는 그리퍼에서 월드로의 변환 행렬입니다. 이제 ground-truth 완료 지수를 시연 데이터에 라벨링할 수 있습니다:

I = \min\!\Big(\max\big(\tfrac{\|p_t - p_0\|_2}{\|p_T - p_0\|_2},\, 0\big),\, 1\Big)

분자는 현재까지 펴진 길이, 분모는 최종(끝까지 갔을 때) 길이입니다. 따라서 I는 0(시작)에서 1(완료)로 매끄럽게 증가하는 진행률입니다. \min/\max는 값을 [0, 1]로 클립(clip)하기 위한 것입니다.

그리고 정책 네트워크에 완료 지수 예측 분기(branch)를 추가합니다. 행동 시퀀스와 나란히 완료 지수 시퀀스 \hat{I}_{t:t+k}도 예측하게 하고, 이를 MSE로 학습합니다:

\mathcal{L}_{task} = \mathrm{MSE}(\hat{I}_{t:t+k},\, I_{t:t+k})

직관적으로 이것은 정책에게 “지금 작업의 몇 퍼센트가 끝났는지 항상 의식하라”고 가르치는 보조 과제(auxiliary task)입니다. 진행률을 인지하면 끝점을 더 잘 인식하고, 너무 일찍 멈추거나 끝을 지나쳐 계속 가는(over-tracing) 실수를 줄일 수 있습니다.

전체 손실

네 손실을 가중합한 것이 최종 목적함수입니다(재구성 손실은 center loss에 흡수됨):

\mathcal{L} = \mathcal{L}_{center} + \lambda_{reg}\,\mathcal{L}_{reg} + \lambda_{task}\,\mathcal{L}_{task}

\lambda_{reg} = 100, \lambda_{task} = 100이며 grid search로 정했습니다.

의사코드로 정리하면 학습 루프는 다음과 같습니다.

for each batch (o_K, o_V, o_T, a, p0, pT) in dataset:
    # feature extraction
    f = concat(MLP(o_K), CNN_v(o_V), CNN_t(o_T))

    # policy forward
    a_hat, I_hat, z_dist = transformer_policy(f)

    # local center loss
    p_tac = extract_contact_point(o_T)        # contour + ellipse/PCA
    w = exp(-norm(p_tac - center) / center)
    L_center = w * MAE(a_hat, a)

    # global task loss
    p_world = transform_to_world(p_tac)
    I_gt = clip(norm(p_world - p0) / norm(pT - p0), 0, 1)
    L_task = MSE(I_hat, I_gt)

    # regularization
    L_reg = KL(z_dist, N(0, I))

    loss = L_center + 100 * L_reg + 100 * L_task
    loss.backward(); optimizer.step()

실험

설정

물체(seen): 1D 2종(flat shoelace 신발끈, braided cable 케이블), 2D 2종(face towel 수건, microfiber cloth 천). 각 물체당 25회 시연, 총 100 에피소드. 30 Hz로 시각·촉각 이미지, 로봇 상태, 행동을 기록.
물체(unseen, 일반화 평가): 1D rope(합성 로프)와 2D napkin(면 냅킨).
입력: 이미지는 480×480으로 crop/resize. 행동·상태는 16차원 — 관절공간 모델은 14 joint + 2 gripper, Cartesian 모델은 2 EE pose + 2 gripper.
학습: chunk size k=60, 시각·촉각용 ResNet18 백본 분리, 밝기·대비·감마 증강(augmentation), 15,000 epoch, validation loss 최소 체크포인트 선택. RTX 4090, AMD Threadripper Pro 5965WX, 128 GB RAM.
추론: temporal aggregation은 비활성화. Cartesian 모델은 출력 EE pose를 관절각으로 변환 후 실행.
평가 지표:
- Success(성공): 끝점(길이의 마지막 5% 이내)까지 따라가 그곳에서 파지 유지.
- Robot collision: 물체나 자기 자신과 충돌해 회복 불가.
- Early stopping: 끝에 도달하지 못했지만 물체는 놓지 않음.
- Over-tracing: 마지막 5%에 도달했으나 파지를 유지하지 못함.
- Object dropping: 끝 도달 전에 물체를 떨어뜨림.
- 보조 지표: Success time(성공 소요 시간), Completion ratio \|p_T - p_0\|_2 / L(도달 거리/전체 길이).

결과 1: 자세 표현 — 관절각 vs EE pose

먼저 proprioception(자기 자세 인지)을 관절각으로 줄지, EE pose로 줄지를 비교했습니다. 4개 물체, 물체당 10회, 총 40회 실험입니다.

표현 방식	Success rate
Joint Space (관절각)	70.0% [54.6, 81.9]
EE pose (Cartesian, Ours)	80.0% [65.2, 89.5]

EE pose 모델이 더 높은 성공률과 더 높은 completion ratio를 보였고, 특히 물체 떨어뜨림(dropping)이 훨씬 적었습니다. 해석은 이렇습니다. 트레이싱이라는 작업은 본질적으로 작업공간(task space)에서 정의됩니다. EE pose는 작업 목표와 입력을 정렬시켜 모호성(관절각의 중복성)을 줄이고, 손가락 대비 물체 방향을 미세 조정하기 좋습니다. 그래서 이후 실험은 모두 EE pose 표현을 씁니다.

논문 그림 4

결과 2: 구성 요소 Ablation

각 센서 모달리티와 손실의 기여를 떼어보며 검증한 핵심 표입니다(물체당 10회, 총 40회).

방법	Success rate	Collision	Early stop	Over-trace	Drop
Joint Space	70.0% [54.6, 81.9]	1/40	4/40	2/40	5/40
w/o Vision (시각 제거)	65.0% [49.5, 77.9]	4/40	2/40	8/40	1/40
w/o Tactile (촉각 제거)	60.0% [44.6, 73.7]	2/40	5/40	1/40	8/40
w/o Center Loss	65.0% [49.5, 77.9]	4/40	1/40	0/40	9/40
w/o Task Loss	67.5% [52.0, 79.9]	3/40	3/40	7/40	0/40
Ours (전체)	80.0% [65.2, 89.5]	2/40	2/40	3/40	1/40

이 표는 각 구성 요소가 서로 다른 실패 모드를 막는다는 점에서 매우 깔끔합니다.

시각 제거: over-tracing이 8/40으로 급증. 시각이 없으면 끝점을 못 보고 지나쳐 계속 갑니다. 즉 시각 = 작업 진행/종료 인식.
촉각 제거: dropping이 8/40으로 급증, completion ratio도 가장 낮음. 촉각이 없으면 안정적 접촉을 못 잡아 물체를 떨어뜨립니다. 즉 촉각 = 안정적 접촉 유지.
Center loss 제거: dropping이 9/40으로 가장 높음. 중심 손실이 “접촉을 중앙으로 가져가는 조정 행동”을 학습시켜 떨어뜨림을 막는다는 증거.
Task loss 제거: over-tracing 7/40으로 높고 early stopping도 늘어남. 완료 지수 출력이 끝점 인식에 기여함을 보여줍니다.

흥미로운 점은 success time(소요 시간)은 모든 변형에서 큰 차이가 없었다는 것입니다. 즉 이 구성 요소들은 “속도”가 아니라 “성공/실패의 질”을 좌우합니다.

논문 그림 5

결과 3: 통합 모델 vs 개별 모델

1D만, 2D만, 전부 합친 데이터로 각각 학습해 비교했습니다(Table II). 결론은 통합 학습이 개별 학습 대비 성능을 해치지 않는다입니다. 같은 물체 기준으로 단일 데이터 모델과 통합 모델 사이에 뚜렷한 차이가 없었습니다. 1D 물체의 성공률(80~90%)이 2D보다 대체로 높았는데, 2D 물체는 손가락 밖으로 천 일부가 늘어져(dangle) 중력 때문에 그리퍼 앞쪽으로 빠지기 쉬워서입니다. 수건은 천보다 크고 무거워 더 불리했고, 길이가 길수록 추적 오차가 누적됐습니다.

결과 4: Unseen 물체 일반화

학습에 쓰지 않은 로프(1D)와 냅킨(2D)으로 평가했습니다(물체당 20회).

Unseen 물체	Success rate	Collision	Early stop	Over-trace	Drop
Rope (1D)	70.0% [48.1, 85.5]	0/20	4/20	4/20	2/20
Napkin (2D)	60.0% [38.7, 78.1]	2/20	0/20	4/20	2/20

전체 평균 65%로, seen 물체의 80%보다 낮지만 무너지지 않았습니다. 종료 관련 실패(early stopping, over-tracing)가 더 자주 나왔는데, 이는 시각적 외형이 달라진 영향이 더 크다는 해석입니다. 촉각 텍스처는 unseen 물체가 seen 물체와 닮아 있어(논문 Fig. 6) 접촉 유지 측면의 일반화는 비교적 잘 됐습니다.

논문 그림 6

비판적 고찰

강점

문제-해법의 정합성이 명확함: 문제 정의에서 두 제약(p_t \in o^T, p_t \in \mathcal{C}_t)과 두 목표(단조 증가, 길이 수렴)를 세우고, center loss와 task loss가 각각 이를 정확히 겨냥합니다. Ablation 표의 실패 모드 분포가 이 설계 의도를 깔끔하게 입증합니다.
시연자에게도 피드백을 준 점: 데이터 수집 장치의 진동·실시간 스트리밍은 사소해 보이지만, 모방학습의 병목인 “시연 품질”을 정면으로 다룬 실용적 기여입니다.
모듈성: center loss, task loss, teleoperation 시스템은 ACT에 종속되지 않고 Diffusion Policy 등 다른 IL 알고리즘에도 이식 가능하다고 저자들이 밝힙니다. 재사용성이 높습니다.
고전 영상처리의 적절한 활용: 접촉점 추출에 무거운 학습 모델 대신 contour+ellipse 피팅을 쓴 것은 고해상도 촉각 텍스처의 선명함을 잘 살린 합리적 선택입니다.

약점·한계

표본 규모가 작음: 핵심 비교가 물체당 10회(ablation 총 40회), unseen은 물체당 20회 수준입니다. Wilson 95% 신뢰구간이 상당히 넓어(예: Ours 80%의 구간 [65.2, 89.5]) “80% vs 65%(w/o Tactile 60%)”의 차이가 통계적으로 얼마나 견고한지는 다소 보수적으로 받아들여야 합니다.
완료 지수의 가정: task loss는 “물체가 p_0과 p_t 사이에서 팽팽히 직선으로 당겨진다”는 가정에 기댑니다. 느슨하거나 곡률이 큰 구간, 매우 신축성 있는 물체에서는 이 직선 거리 추정이 실제 진행률과 어긋날 수 있습니다. (추측: 신축성이 큰 고무줄류에서는 오차가 커질 가능성.)
2D 물체의 중력 취약성: 2D 물체의 dropping/over-tracing은 정책보다는 그리퍼 형상의 한계로 보입니다. 저자들도 V자형·구멍형 그리퍼 등 mechanical intelligence와의 결합을 향후 과제로 듭니다.
시각 의존적 일반화: unseen 성능 저하가 주로 시각 외형 변화에서 온다는 점은, 시각 인코더가 외형에 다소 과적합(overfit)됐을 가능성을 시사합니다. 조명을 고정하고 검은 스펀지 패드를 쓰는 등 환경이 통제된 점도 실제 적용 시 일반화에 부담이 될 수 있습니다.
단일 로봇·단일 센서 평가: ABB YuMi + GelSight Wedge 한 조합에서만 검증되어, 다른 그리퍼/센서로의 이식성은 미검증입니다.

요약 및 결론

ViTac-Tracing은 “엉킨 변형체를 펴는 트레이싱”이라는 전처리 작업을, 시각과 촉각을 함께 쓰는 단일 통합 모방학습 정책으로 푼 연구입니다. 핵심은 두 개의 트레이싱 특화 손실입니다.

Local Center Loss: 접촉점을 촉각 이미지 중앙으로 가져가는 행동에 가중치를 줘 접촉 안정성(놓치지 않기)을 확보.
Global Task Loss: 완료 지수 I를 보조 출력으로 예측하게 해 작업 진행/종료 인식(언제 멈출지)을 학습.

여기에 시연자에게 시각·촉각·진동 피드백을 주는 저비용 ABB YuMi 원격조작 시스템으로 양질의 데이터를 모았습니다. 결과적으로 seen 물체 80%, unseen 물체 65%의 성공률을 달성했고, ablation으로 “시각=종료 인식, 촉각=접촉 유지, center loss=떨어뜨림 방지, task loss=종료 정확도”라는 역할 분담을 명확히 보였습니다.

로봇공학 실무자 관점에서 이 논문이 주는 메시지는 다음과 같습니다. 변형체 조작에서 촉각은 “있으면 좋은” 것이 아니라 가림(occlusion)이 본질인 상황에서 국소 접촉 정보를 메우는 필수 요소이며, 작업의 진행률을 명시적 보조 과제로 학습시키면 종료 시점 판단이 크게 개선된다는 점입니다. 두 손실 모두 ACT가 아닌 다른 IL 백본(예: Diffusion Policy)에도 그대로 붙일 수 있는 모듈이라, 접촉 기반 조작을 연구하는 사람에게 곧장 시도해볼 만한 실용적 도구입니다. 향후 과제로는 특화 그리퍼와의 결합, 더 깊은 센서 융합, 더 큰 규모의 평가가 제시되었습니다.