📃DeFM 리뷰

depth

representation

ssl

Learning Foundation Representations from Depth for Robotics

Published

January 30, 2026

🔍 Ping. 🔔 Ring. ⛏️ Dig. A tiered review series: quick look, key ideas, deep dive.

🤔 DeFM은 로봇 공학 애플리케이션을 위해 큐레이션된 6천만 개의 depth 이미지 데이터셋에서 DINOv2 스타일의 self-distillation을 사용하여 사전 학습된 최초의 depth 전용 foundation model입니다.
✨ 이 모델은 metric awareness를 보존하는 새로운 3채널 input normalization 전략을 도입했으며, 효율적인 로봇 배포를 위해 ViT-S 및 CNN과 같은 소형 모델로도 distillation되었습니다.
🚀 DeFM은 classification, semantic segmentation, 그리고 navigation, manipulation, locomotion과 같은 다양한 로봇 task에서 SOTA 성능을 달성했으며, 강력한 sim-to-real transfer 능력을 보여줍니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

본 논문은 로봇 공학 분야에서 Depth 이미지의 중요성에도 불구하고, 해당 모달리티에 특화된 대규모 일반 목적의 파운데이션 모델(Foundation Model, FM)이 부재하다는 문제점을 지적한다. 기존의 접근 방식들은 RGB 사전 학습 모델을 Depth 이미지에 재활용하거나 태스크별(task-specific)로 인코더를 처음부터 학습시켜 분포 불일치(distribution mismatch) 및 일반화(generalization) 성능 저하와 같은 한계를 보였다. 이러한 간극을 메우기 위해 본 논문은 DeFM(Depth Foundation Model)을 제안한다. DeFM은 6,040만 개의 Depth 이미지로 구성된 큐레이션된 데이터셋을 사용하여 DINOv2 스타일의 자기 지도 학습(self-supervised learning) 방식으로 학습된 Depth 전용 FM이다.

핵심 방법론:

DeFM은 DINOv2 프레임워크를 Depth 모달리티에 맞게 조정하여 활용한다. 이는 학생 네트워크(f_s)가 모멘텀(momentum) 업데이트되는 교사 네트워크(f_t)의 출력 분포를 예측하도록 최적화되는 자기 증류(self-distillation) 방식을 따른다. 입력 Depth 이미지 x에 대해, 다양한 기하학적(geometric) 및 측광학적(photometric) 증강이 적용된 G개의 대규모 글로벌 크롭(x_g)과 L개의 소규모 로컬 크롭(x_l)을 준비한다. 교사 네트워크는 글로벌 크롭을 처리하여 목표 분포 p_t를 생성하고, 학생 네트워크는 로컬 크롭 및 부분적으로 마스킹된 글로벌 크롭(x'_g)을 처리한다. 학습에는 다음 세 가지 주요 손실 함수가 사용된다:

DINO 글로벌 크롭 손실(\mathcal{L}_{Global}): 학생 네트워크의 부분적으로 마스킹된 글로벌 크롭(x'_g) 표현과 교사 네트워크의 마스킹되지 않은 글로벌 크롭(x_g) 표현을 정렬한다. 이는 Vision Transformer(ViT)의 클래스 토큰(cls token) 피처에 대해 계산되는 DINO 손실이다: \mathcal{L}_{Global} = \sum_{i=1}^G \sum_{j=1, j \neq i}^G \mathcal{L}_{DINO}(f_s(x'_{g_i}), f_t(x_{g_j}))
DINO 로컬 크롭 손실(\mathcal{L}_{Local}): 학생 네트워크의 로컬 크롭(x_l) 표현과 교사 네트워크의 글로벌 크롭(x_g) 표현을 정렬한다. 이 역시 cls 토큰 간에 계산된다: \mathcal{L}_{Local} = \sum_{g=1}^G \sum_{l=1}^L \mathcal{L}_{DINO}(f_s(x_l), f_t(x_g))
iBOT 패치 손실(\mathcal{L}_{iBOT}): 밀집 공간 피처(dense spatial features) 학습에 필수적이다. 랜덤하게 마스킹된 입력 패치에 대해 학생의 피처 예측(p_{s_i})과 교사의 해당 패치 목표 분포(p_{t_i}) 간의 교차 엔트로피 손실(cross-entropy loss)을 적용한다: \mathcal{L}_{iBOT} = - \sum_{i \in \text{masked}} p_{t_i} \log p_{s_i}

전체 손실은 이 세 항의 가중치 합과 피처 공간 붕괴를 방지하는 KoLeo 정규화(regularizer)로 구성된다.

DeFM 학습을 위한 데이터셋은 총 6,040만 개의 Depth 이미지로, 단안 Depth 추정(Monocular Depth Estimation, MDE)을 통해 RGB 데이터셋을 변환한 이미지, 시뮬레이션(Synthetic) 데이터, 그리고 실제(Real) 센서 데이터를 혼합하여 구성되었다. 이는 Depth 데이터의 다양성, 규모, 노이즈 특성을 모두 포괄하여 인코더가 광범위한 환경에서 강건하게 일반화될 수 있도록 한다.

특히, Depth 이미지의 넓은 스케일 범위(밀리미터에서 수백 미터)를 효과적으로 처리하기 위해 새로운 입력 정규화 전략이 도입되었다. 근거리 Depth 변화가 로봇 의사결정에 더 중요함을 고려하여, 다음 세 개의 채널로 구성된 로그 압축 Depth 표현을 사용한다:

글로벌 로그 스케일 Depth(C_1): 현재 이미지 내의 최소(D_{min}) 및 최대 Depth(D_{max})를 사용하여 로그 압축 Depth를 정규화하여 상대적인 기하학적 구조를 보존한다. 로그 변환은 \text{logp}(D) = \log(1+D)로 정의된다: C_1 = \frac{\log p(D) - \log p(D_{\min})}{\log p(D_{\max}) - \log p(D_{\min})}
중간 범위 정규화(C_2): 조작 및 실내 상호작용에 가장 적합한 Depth 범위를 강조한다: C_2 = \frac{\log p(D)}{\log p(10)}
원거리 범위 정규화(C_3): 장거리 내비게이션 및 실외 장면에 적합한 Depth 범위를 강조한다: C_3 = \frac{\log p(D)}{\log p(100)}

최종 입력은 X_{in} = [C_1, C_2, C_3]와 같이 세 채널을 쌓아 구성되며, 전역 평균 및 표준 편차 정규화가 적용된다. 이 방식은 전역 메트릭 Depth를 보존하면서 미세한 근거리 구조와 안정적인 그래디언트를 유지한다.

DeFM의 가장 큰 모델인 ViT-L/14(3억 7백만 매개변수)는 FSDP(Fully-Sharded Data Parallel) 구현을 사용하여 학습되었다. 로봇 시스템의 자원 제약을 고려하여, DeFM-L/14를 교사 모델로 사용하여 ViT-S, ResNet, RegNet, EfficientNet 등 3백만~3천만 매개변수의 소형 모델로 지식 증류(knowledge distillation)를 수행했다. 특히, CNN 학생 모델이 ViT 교사의 밀집 공간 피처를 효과적으로 학습할 수 있도록 BiFPN(Bi-directional Feature Pyramid Network)을 CNN 인코더 위에 추가하여 다양한 해상도의 피처 맵을 융합하도록 설계했다.

실험 결과:

DeFM의 강건성과 일반화 가능성은 광범위한 실험을 통해 입증되었다.

정성적 평가: PCA(Principal Component Analysis)를 통해 DeFM-L/14 인코더가 추출한 피처가 질감이나 색상 정보 없이도 Depth 이미지에서 의미론적 클러스터링(예: 컵 손잡이)을 형성함을 보여주었다. 이는 다양한 센서 모달리티에 걸쳐 일관성을 보이며, 로봇 조작에 유용한 사전 지식을 학습했음을 시사한다.
분류(Classification): ImageNet-Depth-1K 벤치마크(MDE를 통해 생성)에서 DeFM-L/14는 기존의 최첨단 RGB 기반 FM(DINOv2, DINOv3, C-RADIOv3)을 능가하는 SOTA 성능을 달성했다. 특히 DeFM-S/14는 동일 크기 범주의 기존 모델 대비 최대 10%까지 우수한 성능을 보였다. 증류된 소형 CNN 모델들도 일부 더 큰 RGB ViT-S 기반 모델보다 뛰어난 성능을 보였다.
의미론적 분할(Semantic Segmentation): ScanNet, SUN-RGBD(실내), OFFSED, TartanGround(실외), GraspNet-1B(조작) 등 다양한 Depth 데이터셋에서 DeFM은 기존 베이스라인을 대부분 능가하는 강건한 일반화 성능을 입증했다 (ViT-S에서 mIoU 최대 30% 향상).
로봇 공학 응용:
- 내비게이션(Habitat Point-Goal Nav): DeFM 기반 모델(DeFM-S/14, DeFM-ResNet-50)은 기존의 스크래치 학습된 ResNet-50과 경쟁하거나 더 우수한 SPL(Success weighted by Path Length) 성능을 보이며, DeFM의 즉각적인 활용성을 입증했다.
- 내비게이션(Embodiment Aware Point-Goal Nav - Unitree B2W): Unitree B2W 로봇을 사용한 실제 장거리 내비게이션 태스크에서 DeFM 인코더 기반 정책은 VAE(Variational Auto Encoder) 기반 베이스라인보다 높은 성공률(SR)을 달성했다. 특히 DeFM은 OOD(Out-of-Distribution) 장애물에 대한 뛰어난 인식과 회피 능력을 보여주며, 이는 더 나은 기하학적 및 의미론적 환경 이해 덕분으로 분석된다. 다양한 실제 환경에서의 강건한 sim-to-real 전이가 시연되었다.
- 조작(Dexterous Grasping - KUKA-Allegro): Teacher-student 훈련 패러다임을 사용한 정교한 로봇 팔-손 그립 태스크에서 DeFM 모델(특히 미세 조정된 버전)은 가장 높은 성공률을 기록했으며, 다양한 노이즈 모델에 대한 강건성을 입증했다.
- 이동(Locomotion - Quadrupedal Ladder Climbing - ANYmal): 사족 보행 로봇의 사다리 오르기 태스크에서 DeFM 기반 인코더는 스크래치 학습된 CNN 베이스라인과 유사한 성능을 달성하면서도 훨씬 적은 계산 리소스를 요구했다.

결론적으로, DeFM은 Depth 이미지를 위한 최초의 대규모 자기 지도 학습 파운데이션 모델로서, 강건하고 일반화 가능한 기하학적 및 의미론적 피처를 학습한다. 이는 분류, 분할, 내비게이션, 이동, 조작 등 광범위한 로봇 인식 및 제어 태스크에 즉시 활용 가능하며, 다양한 실제 환경에서의 강건한 sim-to-real 전이를 가능하게 한다. 특히, 효율성을 위해 증류된 소형 모델들은 자원 제약적인 로봇 시스템에 효과적으로 배포될 수 있음을 보여준다. 향후 연구로는 ViT 아키텍처의 아티팩트 완화, 태스크 다양성 확장, LiDAR 데이터로의 적용, 그리고 데이터셋 및 모델 스케일의 지속적인 확장이 제안된다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

서론: 왜 깊이 영상에 파운데이션 모델이 필요한가?

문제의 본질

로봇공학에서 깊이 센서(Depth Sensor)는 마치 공기처럼 당연하게 여겨지는 존재입니다. Intel RealSense, ZED 카메라, LiDAR 등 다양한 형태로 거의 모든 로봇 플랫폼에 탑재되어 있죠. 그런데 한 가지 재미있는 사실이 있습니다. RGB 이미지 분야에서는 DINOv2, CLIP, SAM 같은 거대한 파운데이션 모델들이 컴퓨터 비전의 판도를 바꾸고 있는데, 정작 깊이 영상만을 위한 파운데이션 모델은 존재하지 않았다는 것입니다.

왜 이것이 문제일까요? 현재 대부분의 깊이 기반 로봇 시스템은 다음과 같은 방식으로 작동합니다:

처음부터 학습: 매번 새로운 태스크를 위해 인코더를 처음부터 학습
태스크 특화: 내비게이션용 인코더, 매니퓰레이션용 인코더, 로코모션용 인코더가 각각 별개
RGB 모델 차용: DINOv2 같은 RGB 파운데이션 모델을 깊이 영상에 그대로 적용 (도메인 불일치 발생)

이건 마치 영어 원어민에게 한국어 문서를 번역시키는 것과 같습니다. 작동은 하겠지만, 한국어의 뉘앙스를 제대로 살리기는 어렵죠.

DeFM의 등장

ETH Zurich의 Robotic Systems Lab(RSL)에서 이 문제에 정면으로 도전했습니다. DeFM(Depth Foundation Model)은 6천만 장의 깊이 영상으로 사전 학습된, 로봇공학을 위한 최초의 깊이 전용 파운데이션 모델입니다.

“TL;DR - A DINO-style encoder, but for depth image inputs.”

— DeFM GitHub README

핵심 아이디어는 단순하면서도 강력합니다: RGB에서 작동했던 자기지도학습(Self-supervised Learning)의 스케일링 법칙이 깊이 모달리티에도 적용될 것이라는 가설입니다.

연구 기여 요약

DeFM의 주요 기여는 다음과 같습니다:

기여	설명
최초의 깊이 파운데이션 모델	60M 깊이 영상으로 학습된 대규모 사전학습 모델
Metric-Aware 정규화	밀리미터부터 100미터까지의 스케일을 보존하는 새로운 입력 정규화
효율적인 모델 증류	307M → 3M 파라미터까지 다양한 크기의 모델 제공
범용 로봇공학 벤치마크	분류, 세그멘테이션, 내비게이션, 매니퓰레이션, 로코모션에서 SOTA

flowchart TB
    subgraph Dataset["🗂️ 데이터셋 구축 (60M 깊이 영상)"]
        A1[시뮬레이션 데이터] --> A3[큐레이션된 데이터셋]
        A2[실제 센서 데이터] --> A3
    end
    
    subgraph Training["🔄 Self-Distillation 학습"]
        B1[Teacher ViT-L/14] --> B2[Student ViT-L/14]
        B2 --> B1
        B3[DINO Loss + iBOT Loss]
    end
    
    subgraph Distillation["📦 모델 증류"]
        C1[DeFM ViT-L 307M] --> C2[ViT-S 22M]
        C1 --> C3[ResNet-18~50]
        C1 --> C4[EfficientNet B0~B6]
        C1 --> C5[RegNet 4~12M]
    end
    
    subgraph Applications["🤖 로봇공학 응용"]
        D1[내비게이션]
        D2[매니퓰레이션]
        D3[로코모션]
        D4[세그멘테이션]
    end
    
    A3 --> Training
    Training --> Distillation
    Distillation --> Applications

Figure 1: DeFM의 전체 파이프라인 개요

방법론: DeFM은 어떻게 깊이를 이해하는가?

Self-Distillation: 스스로를 가르치는 학습

DeFM의 핵심 학습 방법은 DINOv2 스타일의 Self-Distillation입니다. 이 아이디어를 이해하기 위해 간단한 비유를 들어보겠습니다.

상상해보세요. 당신이 미술 선생님(Teacher)이면서 동시에 학생(Student)입니다. 하나의 풍경을 다양한 각도와 크기로 스케치한 후, 선생님으로서의 자신이 학생으로서의 자신에게 “이 다양한 스케치들이 모두 같은 풍경을 표현하고 있다”는 것을 가르칩니다. 라벨이 전혀 없이도, 자기 자신과의 대화를 통해 풍경의 본질을 이해하게 되는 것이죠.

학습 프레임워크의 구조

flowchart LR
    subgraph Input["입력 이미지"]
        I[깊이 영상]
    end
    
    subgraph Augment["데이터 증강"]
        I --> G1[Global Crop 1]
        I --> G2[Global Crop 2]
        I --> L1[Local Crop 1]
        I --> L2[Local Crop 2]
    end
    
    subgraph Teacher["Teacher Network<br/>(Momentum Update)"]
        G1 --> T[ViT-L/14]
        G2 --> T
    end
    
    subgraph Student["Student Network<br/>(Gradient Update)"]
        G1 --> S[ViT-L/14]
        G2 --> S
        L1 --> S
        L2 --> S
    end
    
    subgraph Loss["손실 함수"]
        T --> DINO[DINO Loss]
        S --> DINO
        T --> iBOT[iBOT Patch Loss]
        S --> iBOT
    end

Figure 2: DeFM의 Self-Distillation 학습 구조

학습 과정을 수식으로 표현하면 다음과 같습니다:

DINO Loss (전역 일관성):

\mathcal{L}_{\text{DINO}} = -\sum_{x \in \{x_1^g, x_2^g\}} \sum_{x' \neq x} P_t(x) \log P_s(x')

여기서 P_t와 P_s는 각각 Teacher와 Student의 출력 확률 분포입니다. 핵심은 Teacher의 출력에서 그래디언트를 흘리지 않는다(stop-gradient)는 점입니다.

iBOT Loss (패치 수준 학습):

\mathcal{L}_{\text{iBOT}} = -\sum_{i \in \mathcal{M}} P_t^{(i)} \log P_s^{(i)}

iBOT은 마스킹된 패치 \mathcal{M}에 대해 Teacher의 패치 토큰을 예측하도록 Student를 학습시킵니다. 이를 통해 지역적인 기하학적 구조를 이해하게 됩니다.

Teacher 업데이트 (EMA):

\theta_t \leftarrow m \cdot \theta_t + (1-m) \cdot \theta_s

Teacher의 파라미터 \theta_t는 Student 파라미터 \theta_s의 지수 이동 평균(Exponential Moving Average)으로 업데이트됩니다. 모멘텀 m은 일반적으로 0.996~0.999 범위입니다.

Metric-Aware Input Normalization: 깊이의 척도를 보존하다

DeFM의 가장 독창적인 기여 중 하나는 3채널 로그 정규화(Three-Channel Log Normalization) 전략입니다.

왜 특별한 정규화가 필요한가?

깊이 영상의 고유한 특성을 생각해봅시다:

스케일 다양성: 매니퓰레이션에서는 수 센티미터, 내비게이션에서는 수십 미터의 깊이를 다룹니다
동적 범위: 가까운 물체와 먼 물체의 깊이 차이가 극심합니다
메트릭 정보: 실제 거리 정보가 로봇 제어에 필수적입니다

일반적인 min-max 정규화를 사용하면 어떻게 될까요?

# 일반적인 min-max 정규화
normalized = (depth - depth.min()) / (depth.max() - depth.min())

이 방식의 문제점은 메트릭 정보가 완전히 사라진다는 것입니다. 1미터 범위의 매니퓰레이션 씬과 100미터 범위의 야외 씬이 동일한 [0, 1] 범위로 압축됩니다.

DeFM의 해결책: 3채널 로그 압축

DeFM은 세 가지 다른 스케일의 로그 정규화를 각 채널에 적용합니다:

\text{Channel}_k(d) = \text{clip}\left(\frac{\log(d + \epsilon) - \log(d_{\min}^{(k)})}{\log(d_{\max}^{(k)}) - \log(d_{\min}^{(k)})}, 0, 1\right)

채널	범위	용도
채널 1 (Near-field)	0.01m ~ 1m	매니퓰레이션, 근거리 객체
채널 2 (Mid-range)	0.1m ~ 10m	실내 내비게이션, 로코모션
채널 3 (Far-field)	1m ~ 100m	야외 내비게이션, 대규모 환경

# DeFM의 깊이 전처리 의사코드
def preprocess_depth_image(depth_meters, target_size=518, patch_size=14):
    """
    깊이 영상을 DeFM의 3채널 메트릭-인식 형식으로 변환
    
    Args:
        depth_meters: 미터 단위의 깊이 맵 (H, W)
        target_size: 출력 이미지 크기
        patch_size: ViT 패치 크기
    
    Returns:
        normalized_depth: 정규화된 3채널 깊이 (3, H, W)
    """
    # 스케일 정의 (로그 공간)
    scales = [
        (0.01, 1.0),    # Near-field: 1cm ~ 1m
        (0.1, 10.0),    # Mid-range: 10cm ~ 10m
        (1.0, 100.0)    # Far-field: 1m ~ 100m
    ]
    
    channels = []
    for d_min, d_max in scales:
        log_depth = np.log(depth_meters + 1e-6)
        log_min, log_max = np.log(d_min), np.log(d_max)
        normalized = (log_depth - log_min) / (log_max - log_min)
        normalized = np.clip(normalized, 0, 1)
        channels.append(normalized)
    
    return np.stack(channels, axis=0)

이 접근법의 장점을 시각적으로 이해해봅시다:

일반 Min-Max 정규화:
Near objects  ████████████████████░░░░░░░░░░ (전체 범위의 대부분 차지)
Far objects   ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░█ (거의 구분 불가)

로그 정규화 (DeFM):
Near objects  ████████░░░░░░░░░░░░░░░░░░░░░░ (적절한 비율)
Far objects   ░░░░░░░░░░░░░░░░░████████████░ (충분한 해상도)

로그 스케일은 인간의 깊이 지각과도 유사합니다. 우리도 가까운 거리에서는 작은 차이를 잘 구분하지만, 먼 거리에서는 큰 차이만 인식하니까요.

CNN으로의 지식 증류: 효율성과 성능의 균형

로봇 시스템에서 307M 파라미터의 ViT-L 모델을 실시간으로 돌리는 것은 현실적으로 어렵습니다. NVIDIA Jetson Orin에서 ViT-L/14의 추론 시간은 72.82ms로, 실시간 제어에는 부적합합니다.

DeFM은 이 문제를 Teacher-Student 증류로 해결합니다:

flowchart TB
    subgraph Teacher["Teacher (Frozen)"]
        T1[DeFM ViT-L/14] --> T2[Spatial Tokens]
        T1 --> T3[Class Token]
    end
    
    subgraph Student["Student (Trainable)"]
        S1[CNN Encoder<br/>ResNet/EfficientNet] --> S2[BiFPN Module]
        S2 --> S3[Dense Features]
        S1 --> S4[Global Pool]
    end
    
    subgraph Loss["증류 손실"]
        T2 --> L1[Spatial Distillation]
        S3 --> L1
        T3 --> L2[Global Distillation]
        S4 --> L2
    end

Figure 3: CNN 증류 프레임워크

증류 손실은 두 가지 구성요소로 이루어집니다:

공간적 토큰 증류: \mathcal{L}_{\text{spatial}} = \frac{1}{HW}\sum_{i,j} \|f_s^{(i,j)} - f_t^{(i,j)}\|_2

전역 토큰 증류: \mathcal{L}_{\text{global}} = \|g_s - g_t\|_2

총 증류 손실: \mathcal{L}_{\text{distill}} = \lambda_s \mathcal{L}_{\text{spatial}} + \lambda_g \mathcal{L}_{\text{global}}

BiFPN(Bidirectional Feature Pyramid Network) 모듈은 CNN의 다중 스케일 특징을 Teacher ViT의 공간 토큰과 정렬시키는 역할을 합니다. 이를 통해 3M 파라미터의 EfficientNet-B0도 ViT-L의 표현력 일부를 물려받을 수 있습니다.

모델 Zoo: 다양한 선택지

DeFM은 다양한 배포 시나리오를 위해 총 11개의 모델 변형을 제공합니다:

모델	파라미터	Jetson Orin (ms)	ImageNet-1k-Depth Top-5 KNN
DeFM ViT-L/14	307M	72.82	84.79%
DeFM ViT-S/14	22.1M	11.92	78.06%
DeFM ResNet-50	26.2M	17.79	77.63%
DeFM ResNet-34	21.8M	13.54	72.72%
DeFM ResNet-18	11.7M	8.67	69.69%
DeFM EfficientNet-B6	29M	54.11	77.81%
DeFM EfficientNet-B0	3M	21.04	67.98%
DeFM RegNetY-1.6GF	12.4M	41.82	76.21%
DeFM RegNetY-400MF	4.1M	25.17	72.87%

선택 가이드:

최고 성능: DeFM ViT-L/14 (오프라인 분석, 고성능 서버)
균형점: DeFM ResNet-50 또는 EfficientNet-B4 (Jetson Orin급 엣지 디바이스)
초경량: DeFM EfficientNet-B0 (임베디드 시스템, 배터리 제한 로봇)

실험 및 결과: DeFM은 정말 작동하는가?

데이터셋: 6천만 깊이 영상의 구성

DeFM의 학습에는 다양한 소스에서 큐레이션된 60M 깊이 영상이 사용되었습니다:

pie title 데이터셋 소스 분포 (추정)
    "TartanAir (시뮬레이션)" : 35
    "Hypersim (시뮬레이션)" : 20
    "ScanNet (실제)" : 15
    "Isaac Sim 커스텀" : 20
    "기타 소스" : 10

Figure 4: DeFM 학습 데이터셋 구성

주목할 점은 시뮬레이션 데이터의 비중이 높다는 것입니다. 이는 깊이 영상의 고유한 특성 덕분에 가능합니다:

질감 불변성: RGB와 달리 깊이는 질감에 의존하지 않아 시뮬레이션-실제 간극이 적음
정확한 GT: 시뮬레이션에서 완벽한 깊이 라벨을 얻을 수 있음
다양한 환경: 실제로 접근 불가능한 환경(사다리 등반, 위험 지역)도 시뮬레이션 가능

의미론적 클러스터링의 창발: 깊이만으로 의미를 이해하다

DeFM의 가장 놀라운 결과 중 하나는 색상이나 질감 없이도 의미론적(Semantic) 특징이 학습된다는 점입니다.

PCA 시각화 실험에서 다음이 관찰되었습니다:

컵 손잡이: 여러 다른 센서(RealSense L515, D435i, ZED 2i, ZED X)로 촬영한 컵들에서 손잡이 부분이 일관되게 같은 색상(노란색)으로 클러스터링
서랍 손잡이: 다양한 가구의 서랍/캐비닛 손잡이가 자동으로 하이라이트
로봇 팔: 주방 씬에서 로봇 팔, 조리대, 배경, 조작 대상 물체가 명확히 분리

이것은 깊이 영상의 기하학적 특징만으로도 객체의 기능적 부분(affordance)을 학습할 수 있음을 시사합니다. 손잡이는 손잡이만의 독특한 3D 형상을 가지고 있으니까요.

벤치마크 1: 분류 및 세그멘테이션

ImageNet-1k-Depth 분류 (Linear Probing):

모델	파라미터	Top-1	Top-5
DINOv3 ViT-L/16 (RGB→Depth)	307M	58.2%	81.3%
Scratch ResNet-50	26M	42.1%	65.7%
DeFM ViT-L/14	307M	71.72%	84.79%
DeFM ViT-S/14	22M	61.54%	78.06%

DeFM은 RGB 파운데이션 모델(DINOv3)을 깊이에 직접 적용한 것보다 13.5% 높은 Top-1 정확도를 달성했습니다.

시맨틱 세그멘테이션 (mIoU, Linear Probing):

데이터셋	DINOv3 ViT-L/16	DeFM ViT-L/14	개선
ScanNet	28.52	31.34	+2.82
SUN-RGBD	32.74	31.26	-1.48
OFFSED (야외)	54.42	57.62	+3.20
TartanGround	62.16	67.69	+5.53
GraspNet-1B	23.89	27.85	+3.96

5개 데이터셋 중 4개에서 SOTA를 달성했습니다. 특히 ViT-S 크기에서의 개선이 두드러집니다: DeFM-S/14는 DINOv3-S/16 대비 최대 30% mIoU 향상을 보였습니다.

벤치마크 2: 로봇 내비게이션

DeFM의 진정한 가치는 로봇공학 태스크에서의 직접적인 적용에 있습니다.

실험 설정: - 플랫폼: ANYmal 사족보행 로봇 - 환경: Isaac Lab 시뮬레이션 → 실제 환경 (Sim-to-Real) - 태스크: 100미터 웨이포인트 내비게이션 - 비교 대상: VAE 인코더, DINOv3 특징

결과:

인코더	훈련 방식	시뮬레이션 성공률	실제 환경 성공률
VAE (Baseline)	Scratch	78%	65%
DINOv3 ViT-L	Frozen	82%	71%
DeFM RegNet	Frozen	89%	85%

DeFM의 특징적인 장점:

이상 장애물 회피: 가로등, 교통 표지판, 울타리 같은 “희귀한” 장애물을 더 잘 인식
Sim-to-Real 갭 축소: 시뮬레이션에서 실제 환경으로의 전이가 더 안정적
태스크 특화 전처리 불필요: elevation map 같은 수작업 파이프라인 없이 작동

벤치마크 3: 덱스트러스 매니퓰레이션

실험 설정: - 플랫폼: Kuka 팔 + Allegro Hand V4 - 환경: Isaac Lab (256개 병렬 환경 × 8 GPU) - 태스크: DextrAH 스타일의 정밀 그래스핑 - 노이즈 모델: Speckle, Dropout, Stick noise, Kinect noise model

결과:

인코더	훈련 방식	성공률 (Sim)	성공률 (Kinect Noise)
ImageNet ResNet-18	Frozen	45.2%	38.1%
DINOv3 ResNet-18 (증류)	Frozen	52.1%	44.3%
Scratch CNN	Full Train	61.8%	51.2%
DeFM ResNet-18	Frozen	67.3%	58.9%
DeFM ResNet-18	Fine-tuned	76.1%	68.4%

핵심 발견:

Frozen DeFM이 모든 Frozen 베이스라인을 23% 초과: 태스크 특화 파인튜닝 없이도 강력한 성능
Fine-tuned DeFM이 전체 베이스라인을 9% 초과: 파인튜닝 시 추가적인 이득
노이즈 강건성: Kinect 노이즈 모델에서도 성능 저하가 상대적으로 적음

벤치마크 4: 사다리 등반 로코모션

가장 도전적인 실험은 사족보행 로봇의 사다리 등반입니다.

실험 설정: - 플랫폼: ANYmal 사족보행 로봇 - 태스크: 산업용 사다리 등반 (perceptive locomotion) - 비교 대상: VAE 인코더, Scratch CNN

결과:

인코더	훈련 방식	등반 성공률
VAE Baseline	Scratch	85.3%
Scratch CNN	Scratch	90.45%
DeFM RegNet	Frozen	90.45%

Frozen DeFM이 Scratch 학습과 동일한 성능을 달성했다는 점이 중요합니다. 이는:

DeFM 특징이 태스크 특화 학습 없이도 충분히 풍부함을 의미
학습 시간과 데이터 효율성 측면에서 큰 이점
새로운 로코모션 태스크로의 빠른 전이 가능성

실제 환경에서의 PCA 시각화는 심한 센서 노이즈에도 불구하고 사다리 구조를 일관되게 클러스터링하는 것을 보여줍니다.

비판적 고찰: 강점, 약점, 그리고 한계

강점

1. 진정한 “Drop-in Replacement”

DeFM의 가장 큰 장점은 기존 파이프라인에 최소한의 변경으로 통합할 수 있다는 점입니다.

# 기존 코드
encoder = ResNet18(pretrained_imagenet=True)
features = encoder(rgb_image)

# DeFM으로 교체 (단 2줄 변경)
import torch
encoder = torch.hub.load('leggedrobotics/defm:main', 'defm_resnet18', pretrained=True)
depth_normalized = preprocess_depth_image(depth_meters)
features = encoder(depth_normalized)

2. 센서 불가지론(Sensor-Agnostic)

DeFM은 다양한 깊이 센서에서 일관된 표현을 학습합니다: - Structured Light (RealSense D4xx) - Time-of-Flight (RealSense L5xx) - Stereo Matching (ZED) - LiDAR 프로젝션

이는 센서 교체 시에도 재학습 없이 사용 가능함을 의미합니다.

3. Sim-to-Real 전이의 자연스러움

깊이 영상의 본질적 특성(질감 불변, 조명 불변) 덕분에 시뮬레이션에서 학습한 특징이 실제 환경으로 잘 전이됩니다.

4. 오픈소스 및 완전한 Model Zoo

# 즉시 사용 가능한 11개 모델
pip install torch torchvision huggingface_hub
model = torch.hub.load('leggedrobotics/defm:main', 'defm_vit_l14')

약점 및 한계

1. ViT 아티팩트 문제

논문에서 인정한 것처럼, ViT 아키텍처의 고유한 한계로 인한 시각적 아티팩트가 때때로 발생합니다. 이는 특히 고해상도 세그멘테이션에서 문제가 될 수 있습니다.

가능한 해결책: Register Token (DINOv2에서 제안된 방법) 도입

2. 실제 환경 실험의 제한성

“Our real-world experiments, though promising, are currently limited in terms of task diversity due to hardware constraints.”

현재 실제 환경 실험은 특정 플랫폼(ANYmal, Kuka+Allegro)에 국한되어 있습니다.

3. 동적 객체 처리의 불확실성

DeFM은 주로 정적 환경에서 평가되었습니다. 빠르게 움직이는 사람이나 차량이 있는 동적 환경에서의 성능은 추가 검증이 필요합니다.

4. 메트릭 정규화의 하이퍼파라미터

3채널 정규화의 범위(0.01-1m, 0.1-10m, 1-100m)가 특정 응용에서는 최적이 아닐 수 있습니다. 예를 들어: - 마이크로 매니퓰레이션 (밀리미터 단위) - 자율주행 (수백 미터 범위)

향후 연구 방향

flowchart LR
    ROOT((DeFM 발전))

    ROOT --> A[아키텍처 개선]
    A --> A1[Register Token 적용]
    A --> A2[Mamba/State Space 적응]
    A --> A3[Multi-scale 어텐션]

    ROOT --> B[멀티모달 확장]
    B --> B1[RGB-D 융합]
    B --> B2[Tactile 통합]
    B --> B3[Point Cloud 연동]

    ROOT --> C[응용 확장]
    C --> C1[수중 로봇]
    C --> C2[항공 드론]
    C --> C3[수술 로봇]

    ROOT --> D[효율성]
    D --> D1[INT8 양자화]
    D --> D2[Pruning]
    D --> D3[Mobile 최적화]

Figure 5: DeFM 기반 향후 연구 방향

모델	학습 방식	깊이 지원	로봇공학 특화
DINOv2	Self-distillation	RGB 전용	아니오
DINOv3	Self-distillation + Gram	RGB 전용	아니오
CLIP	Contrastive (Vision-Language)	RGB 전용	아니오
SAM	Segmentation 특화	RGB 전용	아니오
DeFM	Self-distillation	Depth 전용	예

모델	목적	방향성	DeFM과의 차이
Depth Anything	RGB→Depth 추정	RGB 입력	DeFM은 Depth 직접 인코딩
MiDaS	상대적 깊이 추정	RGB 입력	DeFM은 메트릭 깊이 보존
ZoeDepth	메트릭 깊이 추정	RGB 입력	DeFM은 깊이 센서 데이터 활용

모델	특징	DeFM과의 관계
Theia	다중 VFM 증류	DeFM과 상호보완적 (깊이 전문성)
VC-1	범용 로봇 비전	DeFM이 깊이 특화로 더 나은 성능
R3M	시간적 대조 학습	DeFM과 결합 가능 (RGB-D)

실용적 가이드: DeFM 사용법

설치 및 기본 사용

# 의존성 설치
pip install torch torchvision numpy huggingface_hub omegaconf

# PyTorch Hub를 통한 로딩

import torch
from defm import preprocess_depth_image

# 모델 로딩
model = torch.hub.load('leggedrobotics/defm:main', 'defm_vit_l14', pretrained=True)
model.eval().to("cuda")

# 깊이 전처리 (미터 단위 필수)
depth_meters = load_depth_sensor_data()  # 사용자의 깊이 데이터
normalized_depth = preprocess_depth_image(depth_meters, target_size=518, patch_size=14)

# 특징 추출
with torch.no_grad():
    output = model.get_intermediate_layers(
        normalized_depth.to("cuda"), 
        n=1, 
        reshape=True, 
        return_class_token=True
    )

spatial_features = output[0][0]  # (B, C, H', W') - 공간적 특징
class_token = output[0][1]       # (B, C) - 전역 특징

RL 정책 학습과의 통합

# Isaac Lab 스타일 정책 학습 예시
class DepthPolicyNetwork(nn.Module):
    def __init__(self, action_dim):
        super().__init__()
        # DeFM 인코더 (frozen)
        self.encoder = torch.hub.load(
            'leggedrobotics/defm:main', 
            'defm_resnet18', 
            pretrained=True
        )
        for param in self.encoder.parameters():
            param.requires_grad = False
        
        # 정책 헤드
        self.policy_head = nn.Sequential(
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Linear(256, action_dim)
        )
    
    def forward(self, depth_meters):
        depth_norm = preprocess_depth_image(depth_meters)
        with torch.no_grad():
            features = self.encoder(depth_norm)
        return self.policy_head(features)

성능 최적화 팁

배치 처리: 가능하면 여러 깊이 영상을 배치로 처리
Mixed Precision: torch.cuda.amp를 사용하여 FP16 추론
TensorRT 변환: 프로덕션 배포 시 TensorRT로 추가 최적화 가능

# Mixed Precision 예시
with torch.cuda.amp.autocast():
    features = model(depth_normalized)

결론

DeFM은 로봇공학 커뮤니티에 오랫동안 비어있던 퍼즐 조각을 채워주는 연구입니다.

핵심 테이크어웨이

깊이 모달리티도 파운데이션 모델의 혜택을 받을 수 있다
- RGB에서 성공한 Self-distillation이 깊이에도 적용 가능
- 색상/질감 없이도 의미론적 특징 학습 가능
Metric-aware 정규화가 핵심이다
- 3채널 로그 정규화로 다양한 스케일에서 메트릭 정보 보존
- 밀리미터~100미터 범위를 단일 모델로 커버
실용성이 검증되었다
- 내비게이션, 매니퓰레이션, 로코모션에서 일관된 성능 향상
- Frozen 특징만으로도 강력한 Sim-to-Real 전이
접근성이 높다
- 오픈소스, 다양한 모델 크기 제공
- 기존 파이프라인에 쉽게 통합 가능

DeFM은 “또 하나의 논문”이 아닙니다. 이것은 도구입니다. 여러분의 다음 프로젝트에서:

깊이 인코더를 처음부터 학습하고 계신가요? → DeFM을 사전학습 모델로 시작하세요
RGB 파운데이션 모델을 깊이에 억지로 적용하고 계신가요? → DeFM이 더 나은 대안입니다
Sim-to-Real 갭에 고통받고 계신가요? → DeFM의 도메인 일반화를 활용하세요

로봇공학에서 깊이 센싱은 앞으로도 핵심 모달리티로 남을 것입니다. DeFM은 그 첫 번째 파운데이션 모델로서, 앞으로 많은 후속 연구의 출발점이 될 것입니다.

참고문헌

Patel, M., Frey, J., Mittal, M., Yang, F., Hansson, A., Bar, A., Cadena, C., & Hutter, M. (2026). DeFM: Learning Foundation Representations from Depth for Robotics. arXiv preprint arXiv:2601.18923.
Oquab, M., et al. (2023). DINOv2: Learning Robust Visual Features without Supervision. arXiv preprint arXiv:2304.07193.
Siméoni, O., et al. (2025). DINOv3: Self-Distillation with No Labels v3. arXiv preprint.
Wang, W., et al. (2020). TartanAir: A Dataset to Push the Limits of Visual SLAM. IROS 2020.
Roberts, M., et al. (2021). Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding. ICCV 2021.

⛏️ Dig Review

⛏️ Dig — Go deep, uncover the layers. Dive into technical detail.

🌟 서론: 왜 Depth로 파운데이션 모델인가?

로봇이 실제 환경을 이해하고 행위(decision-making)로 이어가기 위해서는 감각 입력을 일관성 있고 일반화된 표현으로 변환하는 것이 필수입니다. 전통적으로 이미지 기반 세계에서는 RGB 기반의 Vision Foundation Models (VFM) 이 대세입니다. 하지만 이러한 모델은 조명, 색상, 텍스처 등에 민감하고 로봇이 실제 환경에서 학습한 RGB 기반 표현을 그대로 적용하기 어렵다는 한계가 있습니다.

반면 Depth 영상은 다음과 같은 강점을 갖습니다:

조명, 색상 변화에 강함
거리/구조적 정보가 내재화됨
시뮬레이션과 현실 간 간극(sim-to-real) 축소 가능

그런데도, 이제까지 Depth 자체만으로 학습된 대규모 표현은 거의 없었습니다. 기존 접근은 RGB-사전학습된 모델에 깊이(depth)를 강제로 맞추거나, 특정 작업(task)에서만 쓰는 엔코더를 학습하는 수밖에 없었습니다.

DeFM (Depth Foundation Model)은 이러한 공백을 채우기 위해 제안된 Depth 전용 대규모 self-supervised foundation model입니다.

📌 핵심 기여

DeFM 논문이 로봇공학자에게 주는 주요 기여는 다음과 같습니다:

Depth 기반 자체 self-supervised VFM의 최초 구현
6000만 장 규모의 Depth 이미지 데이터셋 구축
Depth 표현의 metric awareness 유지 전략 도입
경량화된 Distilled 모델 아키텍처 제공
분류‧세분화‧내비게이션‧운동‧조작 등 다양 과제에서 SOTA 성능 입증

이 논문은 대규모 데이터와 self-distillation을 활용해, 깊이 이미지에서도 기하학 및 의미 정보를 동시에 잡아내는 표현을 학습할 수 있음을 보여줍니다.

🧠 방법: DeFM이 Depth에서 무엇을 배우는가?

DeFM의 설계 철학은 아래 두 축으로 설명할 수 있습니다:

Self-Supervised Learning (SSL)
Depth-Specific Input Normalization

🔍 1) Self-Distillation 기반 Foundation Pretraining

DeFM은 self-distillation 계열의 DINO 스타일 학습 목표를 사용합니다. 이를 간단히 직관적으로 설명하면 다음과 같습니다.

🧠 Self-Distillation

두 네트워크가 존재합니다:

👩‍🏫 Teacher: 모멘텀 업데이트로 고정된 특징을 제공
👨‍🎓 Student: Teacher의 출력을 최대한 닮아가도록 학습

이때 두 모델은 Depth 이미지의 서로 다른 augmentation view를 입력받아, Student가 Teacher 특성 분포를 잘 모방하게 합니다.

이전에도 이런 self-distillation 방식은 RGB 객체 표현 학습에서 매우 강력하게 작동합니다 (예: DINOv2).

🧠 2) 입력 정규화 (Input Normalization)

Depth의 거리가 절대 값을 갖는다는 것은 큰 장점이지만, 센서마다 스케일이나 분포가 다를 수 있습니다. 이를 통일하여 모델에 입력하기 위해 DeFM은 다음 전략을 채택합니다:

Depth의 점 거리 분포(distance distribution) 를 전역 통계(예: 평균‧분산)로 정규화하여 다양한 센서, 환경, 시뮬레이터 간 스케일 불일치를 완화

이를 통해 모델이 촬영 환경에 덜 민감하게 됩니다.

📌 Distillation 및 경량 모델

DeFM은 처음엔 대형 Vision Transformer (ViT) 로 학습합니다.

그런 다음, 로봇 하드웨어에서 사용하기 좋은 경량화 모델로 Distillation 합니다:

ConvNet 기반 소형 네트워크 (ResNet, EfficientNet, RegNet)
컴팩트한 ViT-Small

이로써 로봇의 연산 제한 하에서 빠른 추론도 가능합니다.

📊 실험: DeFM은 정말 좋을까?

DeFM의 성능을 검증하기 위한 실험은 크게 두 축으로 이루어졌습니다.

🧪 1) Perception Task

📌 분류(Classification) & 분할(Semantic Segmentation)

DeFM은 다음 Task에서 비교대상 대비 뛰어난 성능을 보였습니다:

Task	비교 Baselines	DeFM 성능
Depth 분류	Scratch Depth Net / RGB 기반 전용 VFM	우위
Depth Segmentation	전통 CNN / RGB-VFM + Depth	최고 성능

이 실험은 Depth 기반 추출 표현이 기하학뿐 아니라 의미 정보까지도 효과적으로 캡처함을 보여줍니다.

👁 Perception Embedding 질적 시각화

PCA 시각화 결과는 다음과 같은 특징을 드러냅니다:

Depth Embeddings
  ↑ 거리/구조
  → 객체 의미
클러스터링이 의미 구성 요소를 반영함

이는 RGB 모델의 특징 디스트리뷰션과 유사하게, DeFM이 의미/기하 정보 모두를 잡고 있음을 말해줍니다.

🤖 2) Robotic Task Benchmark

DeFM은 다양한 로봇 강화학습 및 제어 과제에서도 뛰어난 일반화 능력을 보였습니다:

Category	Task 예시	DeFM vs Baselines
Navigation	Point-Goal 내비게이션	우월한 성능
Embodiment Aware Navigation	센서 물리 모델 적응	강한 sim-to-real
Dexterous Manipulation	그리핑 작업	높은 성공률
Locomotion	Quadruped Ladder Climbing	뛰어난 일반화

실험에서 DeFM을 fine-tuning 없이 frozen backbone으로 사용했음에도, 다른 센서/환경에 강건한 성능을 내는 모습을 보였습니다.

📌 Mermeid Diagram: DeFM 학습 파이프라인

아래는 DeFM의 대략적인 학습 파이프라인입니다.

flowchart TD
    A[Depth 이미지 데이터셋 (60M)] --> B[Augmentation]
    B --> C[Teacher Network]
    B --> D[Student Network]
    C --> E[Self-Distillation Loss]
    D --> E
    E --> F[Backprop 학습]
    F --> G[Pretrained DeFM]
    G --> H[Distillation to Compact Models]

🧠 비판적 고찰: 장단점 및 한계

✅ 장점

Depth 전용 표현: RGB 대신 깊이 자체를 학습 대상으로 함으로써 로봇 환경 이해력이 강해짐.
Sim-to-Real 일반화: Depth 시뮬레이션에서 학습한 모델이 현실 센서에서도 강건함.
경량화 모델 제공: 로봇 하드웨어에 바로 적용 가능.
다수 Task에서 SOTA: Perception에서 manipulation까지 폭넓은 과제 지원 가능.

❌ 단점 및 향후 과제

다중모달 혼합 부족: Depth와 RGB/Language의 통합 표현은 아직 미흡합니다.
Policy-Level 통합 검증 부족: RL 정책과의 end-to-end 통합 실험이 제한적입니다.
3D 시퀀스/동적 정보 미반영: Depth frame간 temporal 3D 정보 이용이 아직 제한적입니다.

🧩 관련 연구 대비

모델/방법	Depth 포함	Foundation Scale	로봇 특화
R3M	❌ RGB 중심	△	일부 조작
MVP	△ Depth 보조	△	일부
FP3	✔ Point Cloud	✔ RL focus	Manipulation
DeFM	✔ 전용 Depth	✔ Foundation	Navigation, Locomotion, Manipulation

DeFM은 순수 Depth 선구자적인 역할을 하며, RL과의 결합형 3D형 Foundation 모델 연구의 출발점이 될 수 있습니다.

🧠 요약 및 결론

DeFM은 Depth 중심의 self-supervised foundation model로서, 현재 로봇공학에서 중요한 Depth 인식 문제에 대한 강력한 표현을 제공합니다. Depth만으로 geometry와 semantic 정보를 동시에 캡처하며, sim-to-real 성능과 적용 범위가 넓습니다.

실제 로봇 과제에 바로 투입할 수 있는 사전 학습 모델을 제공하며, 이는 로봇 perception 및 제어 연구에 즉각적 도구(tool) 로써 큰 가치를 지닙니다.

참고 자료