๐MambaVision ๋ฆฌ๋ทฐ
- โจ MambaVision์ ๋น์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํด Mamba์ Transformer์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ ๋ฐฑ๋ณธ ์ํคํ ์ฒ์ ๋๋ค.
- ๐ง ์ด ๋ชจ๋ธ์ ๋น์ ์์ ์ ๋ง๊ฒ Mamba ๋ธ๋ก์ ์ฌ์ค๊ณํ๊ณ , ํนํ ๋ง์ง๋ง ๊ณ์ธต์ self-attention ๋ธ๋ก์ ์ ๋ต์ ์ผ๋ก ํตํฉํ์ฌ ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํฉ๋๋ค.
- ๐ MambaVision์ ImageNet-1K ๋ถ๋ฅ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, MS COCO ๋ฐ ADE20K ๋ฐ์ดํฐ์ ์ ๊ฐ์ฒด ๊ฐ์ง ๋ฐ ๋ถํ ๊ณผ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ์์ ์์๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ ๋์ ์ฒ๋ฆฌ๋๊ณผ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค.

1 Brief Review
MambaVision์ ์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ํด ํน๋ณํ ์ค๊ณ๋ ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ Mamba-Transformer ๋ฐฑ๋ณธ์ ๋๋ค. ์ด ์ฐ๊ตฌ์ ํต์ฌ ๊ธฐ์ฌ๋ ์๊ฐ ํน์ง์ ํจ์จ์ ์ธ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด Mamba ๊ณต์์ ์ฌ์ค๊ณํ ๊ฒ์ ๋๋ค. ํฌ๊ด์ ์ธ ablation ์ฐ๊ตฌ๋ฅผ ํตํด Vision Transformers (ViT)๋ฅผ Mamba์ ํตํฉํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ์ ์ ์ฆํฉ๋๋ค. ํนํ, Mamba ์ํคํ ์ฒ์ ์ต์ข ๋ ์ด์ด์ Self-Attention ๋ธ๋ก์ ์ถ๊ฐํจ์ผ๋ก์จ ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ ์์กด์ฑ(long-range spatial dependencies)์ ํฌ์ฐฉํ๋ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ๋ฐํ์ผ๋ก, ๋ค์ํ ์ค๊ณ ๊ธฐ์ค์ ์ถฉ์กฑ์ํค๋ ๊ณ์ธต์ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ง MambaVision ๋ชจ๋ธ๊ตฐ์ ์๊ฐํฉ๋๋ค.
1. ์ฃผ์ ๊ธฐ์ฌ
- ์๊ฐ ์นํ์ ์ธ Mamba ๋ธ๋ก ์ฌ์ค๊ณ: ์๋ณธ Mamba ์ํคํ ์ฒ ๋๋น ์ ํ๋์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋(throughput)์ ํฅ์์์ผฐ์ต๋๋ค.
- Mamba์ Transformer ๋ธ๋ก์ ํตํฉ ํจํด ์ฒด๊ณ์ ์กฐ์ฌ: ์ต์ข ๋จ๊ณ์ Self-Attention ๋ธ๋ก์ ํตํฉํ๋ ๊ฒ์ด ๋ชจ๋ธ์ ์ ์ญ์ ๋งฅ๋ฝ(global context) ๋ฐ ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ ์์กด์ฑ ํฌ์ฐฉ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ์ ์ฆํ์ต๋๋ค.
- ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ Mamba-Transformer ๋ชจ๋ธ MambaVision ๋์ : ImageNet-1K ๋ฐ์ดํฐ์ ์์ Top-1 ์ ํ๋์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ ์ธก๋ฉด์์ ์๋ก์ด SOTA Pareto frontier๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
2. ๋ฐฉ๋ฒ๋ก
2.1. ๋งคํฌ๋ก ์ํคํ ์ฒ
MambaVision์ 4๊ฐ์ ๋ค๋ฅธ ์คํ ์ด์ง๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ์ด๊ธฐ ๋ ์คํ
์ด์ง (Stage 1, 2): ๊ณ ํด์๋ ํน์ง์ ๋น ๋ฅธ ์ถ์ถ์ ์ํด CNN ๊ธฐ๋ฐ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํฉ๋๋ค. Stem์ 3x3 CNN ๋ ์ด์ด ๋ ๊ฐ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์คํธ๋ผ์ด๋(stride) 2๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ค๋ฒ๋ฉ ํจ์น(overlapping patches)๋ก ๋ณํํ๊ณ ์ฑ๋ C์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์ํฉ๋๋ค. ์คํ
์ด์ง ์ฌ์ด์ Downsampler๋ ์คํธ๋ผ์ด๋ 2์ 3x3 CNN ๋ ์ด์ด๋ก ์ด๋ฏธ์ง ํด์๋๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์
๋๋ค. CNN ๋ธ๋ก์ ๋ค์๊ณผ ๊ฐ์ ์ผ๋ฐ์ ์ธ ์์ฐจ ๋ธ๋ก(residual block) ๊ณต์์ ๋ฐ๋ฆ
๋๋ค: \hat{z} = \text{GELU}(\text{BN}(\text{Conv3x3}(z))) z = \text{BN}(\text{Conv3x3}(\hat{z})) + z
- ์ฌ๊ธฐ์ GELU๋ Gaussian Error Linear Unit ํ์ฑํ ํจ์๋ฅผ, BN์ Batch Normalization์ ๋ํ๋ ๋๋ค.
- ํ๊ธฐ ๋ ์คํ ์ด์ง (Stage 3, 4): ์ ์๋ MambaVision ๋ฐ Transformer ๋ธ๋ก์ ํฌํจํฉ๋๋ค. N๊ฐ์ ๋ ์ด์ด๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ, ์ฒซ N/2๊ฐ์ ๋ ์ด์ด๋ MambaVision ๋ฏน์ ๋ธ๋ก์ ์ฌ์ฉํ๊ณ , ๋๋จธ์ง N/2๊ฐ์ ๋ ์ด์ด๋ Self-Attention ๋ธ๋ก์ ์ฌ์ฉํฉ๋๋ค. ํนํ, Transformer ๋ธ๋ก์ ์ต์ข ์คํ ์ด์ง์ ๋ฐฐ์นํจ์ผ๋ก์จ ์์ค๋ ์ ์ญ์ ๋งฅ๋ฝ์ ๋ณต๊ตฌํ๊ณ ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ ์์กด์ฑ์ ํฌ์ฐฉํ ์ ์๋๋ก ํฉ๋๋ค.
2.2. ๋ง์ดํฌ๋ก ์ํคํ ์ฒ
2.2.1. Mamba ๊ธฐ์ด
Mamba์์ 1D ์ฐ์ ์ ๋ ฅ x(t) \in \mathbb{R}๋ ํ์ต ๊ฐ๋ฅํ ์๋ ์ํ h(t) \in \mathbb{R}^M์ ๋งค๊ฐ๋ณ์ A \in \mathbb{R}^{M \times M}, B \in \mathbb{R}^{M \times 1}, C \in \mathbb{R}^{1 \times M}๋ฅผ ํตํด y(t) \in \mathbb{R}๋ก ๋ณํ๋ฉ๋๋ค: h'(t) = Ah(t) + Bx(t) y(t) = Ch(t) ์ด ์ฐ์ ๋งค๊ฐ๋ณ์๋ค์ ๊ณ์ฐ ํจ์จ์ฑ์ ์ํด ์ด์ฐ ๋งค๊ฐ๋ณ์๋ก ๋ณํ๋ฉ๋๋ค. ์๊ฐ ์ค์ผ์ผ \Delta๋ฅผ ๊ฐ์ ํ ์์ฐจ ๋ณด๋ฅ(zero-order hold) ๊ท์น์ด ์ ์ฉ๋์ด ์ด์ฐ ๋งค๊ฐ๋ณ์ \bar{A} \in \mathbb{R}^{M \times M}, \bar{B} \in \mathbb{R}^{M \times 1}, \bar{C} \in \mathbb{R}^{1 \times M}๋ฅผ ์ป์ต๋๋ค: \bar{A} = \exp(\Delta A) \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot (\Delta B) \bar{C} = C ์ด์ฐ ๋งค๊ฐ๋ณ์๋ฅผ ์ฌ์ฉํ ์์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: h(t) = \bar{A}h(t-1) + \bar{B}x(t) y(t) = \bar{C}h(t) ๋ํ, ์ํ์ค ๊ธธ์ด T๋ฅผ ๊ฐ์ง ์ ๋ ฅ ์ํ์ค์ ๋ํด, ์ปค๋(kernel) K๋ฅผ ๊ฐ์ง ์ ์ญ ์ปจ๋ณผ๋ฃจ์ (global convolution)์ด Eq. 4์ ์ถ๋ ฅ์ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค: K = (CB, CAB, ..., CA^{T-1}B) y = x * K Mamba๋ S4 ๊ณต์์ ํ์ฅํ์ฌ ์ ํ์ฑ(Selectivity) ๋ฉ์ปค๋์ฆ์ ๋์ ํ๋๋ฐ, ์ด๋ ์ ๋ ฅ์ ์์กดํ๋ ์ํ์ค ์ฒ๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ชจ๋ธ์ ๋งค๊ฐ๋ณ์ B, C, \Delta๊ฐ ์ ๋ ฅ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์กฐ์ ๋๊ณ ๊ด๋ จ ์๋ ์ ๋ณด๋ฅผ ํํฐ๋งํ ์ ์๊ฒ ํฉ๋๋ค.
2.2.2. ๋ ์ด์ด ์ํคํ ์ฒ
์ ๋ ฅ X \in \mathbb{R}^{T \times C}์ ๋ํด, Stage 3๊ณผ 4์ ๋ ์ด์ด n์ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \hat{X}_n = \text{Mixer}(\text{Norm}(X_{n-1})) + X_{n-1} X_n = \text{MLP}(\text{Norm}(\hat{X}_n)) + \hat{X}_n ์ฌ๊ธฐ์ Norm์ Layer Normalization์, Mixer๋ ํ ํฐ ๋ฏน์ฑ ๋ธ๋ก(token mixing block)์ ๋ํ๋ ๋๋ค. N๊ฐ์ ๋ ์ด์ด๊ฐ ์ฃผ์ด์ก์ ๋, ์ฒซ N/2๊ฐ์ ๋ ์ด์ด๋ MambaVision Mixer ๋ธ๋ก์ ์ฌ์ฉํ๊ณ , ๋๋จธ์ง N/2๊ฐ์ ๋ ์ด์ด๋ Self-Attention์ ์ฌ์ฉํฉ๋๋ค.
MambaVision Mixer
MambaVision Mixer๋ ์๊ฐ ์์ ์ ๋ ์ ํฉํ๋๋ก ์๋ณธ Mamba ๋ฏน์๊ฐ ์ฌ์ค๊ณ๋์์ต๋๋ค.
- ์ธ๊ณผ์ ์ปจ๋ณผ๋ฃจ์ (causal convolution) ๋์ฒด: ์๊ฐ ์์ ์์๋ ๋ถํ์ํ๊ณ ์ ํ์ ์ธ ๋จ์ผ ๋ฐฉํฅ ์ํฅ(single direction influence)์ ์ ๊ฑฐํ๊ธฐ ์ํด ์ธ๊ณผ์ ์ปจ๋ณผ๋ฃจ์ ์ ์ผ๋ฐ ์ปจ๋ณผ๋ฃจ์ (regular convolution)์ผ๋ก ๋์ฒดํ์ต๋๋ค.
- ๋์นญ์ ๋ธ๋์น ์ถ๊ฐ: SSM์ ์์ฐจ์ ์ ์ฝ์ผ๋ก ์ธํด ์์ค๋ ์ ์๋ ์ฝํ ์ธ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด SSM์ด ์๋ ๋์นญ์ ๋ธ๋์น๋ฅผ ์ถ๊ฐํ์ต๋๋ค. ์ด ๋ธ๋์น๋ ์ถ๊ฐ ์ปจ๋ณผ๋ฃจ์ ๊ณผ SiLU (Sigmoid Linear Unit) ํ์ฑํ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ์ถ๋ ฅ ์ฐ๊ฒฐ: ๋ ๋ธ๋์น์ ์ถ๋ ฅ(SSM ๋ฐ ๋น-SSM)์ ์ฐ๊ฒฐํ ๋ค์ ์ต์ข Linear ๋ ์ด์ด๋ฅผ ํตํด ํฌ์ํฉ๋๋ค. ์ด ์กฐํฉ์ ์ต์ข ํน์ง ํํ์ด ์์ฐจ์ ๋ฐ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ํตํฉํ์ฌ ๋ ๋ธ๋์น์ ๊ฐ์ ์ ํ์ฉํ๋๋ก ํฉ๋๋ค. ์ ๋ ฅ X_{in}์ ๋ํด MambaVision Mixer์ ์ถ๋ ฅ X_{out}์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: X_1 = \text{Scan}(\sigma(\text{Conv}(\text{Linear}(C, C/2)(X_{in})))) X_2 = \sigma(\text{Conv}(\text{Linear}(C, C/2)(X_{in}))) X_{out} = \text{Linear}(C, C)(\text{Concat}(X_1, X_2)) ์ฌ๊ธฐ์ \text{Linear}(C_{in}, C_{out})(\cdot)๋ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์๋ฒ ๋ฉ ์ฐจ์์ด ๊ฐ๊ฐ C_{in} ๋ฐ C_{out}์ธ Linear ๋ ์ด์ด๋ฅผ ๋ํ๋ ๋๋ค. \text{Scan}์ ์ ํ์ ์ค์บ(selective scan) ์ฐ์ฐ์ด๋ฉฐ, \sigma๋ SiLU ํ์ฑํ ํจ์์ ๋๋ค.
Self-attention
ํ์ค Multihead Self-Attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ฉฐ, ๋ค์ ๊ณต์์ ๋ฐ๋ผ ๊ณ์ฐ๋ฉ๋๋ค: \text{Attention}(Q, K, V) = \text{Softmax}( \frac{QK^T}{\sqrt{d_h}} )V ์ฌ๊ธฐ์ Q, K, V๋ ๊ฐ๊ฐ ์ฟผ๋ฆฌ(query), ํค(key), ๊ฐ(value)์ ๋ํ๋ด๋ฉฐ, d_h๋ ์ดํ ์ ํค๋(attention head)์ ์์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ด์ ์ฐ๊ตฌ์ ์ ์ฌํ๊ฒ ์๋์ฐ ๋ฐฉ์(windowed manner)์ผ๋ก ์ดํ ์ ์ ๊ณ์ฐํ ์ ์์ต๋๋ค.
3. ์คํ ๋ฐ ๊ฒฐ๊ณผ
3.1. ์ด๋ฏธ์ง ๋ถ๋ฅ
ImageNet-1K ๋ฐ์ดํฐ์ ์์ MambaVision์ Conv-based, Transformer-based, Conv-Transformer, Mamba-based ๋ชจ๋ธ ๋ฑ ๋ค์ํ ๋ชจ๋ธ๊ตฐ๊ณผ ๋น๊ตํ์ฌ ImageNet Top-1 ์ ํ๋์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ ์ธก๋ฉด์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด, MambaVision-B๋ ConvNeXt-B (83.8%) ๋ฐ Swin-B (83.5%)๋ณด๋ค ๋์ 84.2%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ ํจ์ฌ ๋ ๋์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋์ ๋ณด์ ๋๋ค. Mamba-based ๋ชจ๋ธ๊ณผ ๋น๊ตํด์๋ MambaVision-B (84.2%)๋ VMamba-B (83.9%)๋ฅผ ๋ฅ๊ฐํ๋ฉฐ, ํจ์ฌ ๋์ ์ฒ๋ฆฌ๋์ ์ ๊ณตํฉ๋๋ค. ๋ํ MambaVision ๋ชจ๋ธ์ ์ ์ฌํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋นํด FLOPs๊ฐ ํจ์ฌ ๋ฎ์ต๋๋ค.
3.2. ๊ฐ์ฒด ๊ฐ์ง ๋ฐ ๋ถํ
MS COCO ๋ฐ์ดํฐ์ ์์์ ๊ฐ์ฒด ๊ฐ์ง ๋ฐ ์ธ์คํด์ค ๋ถํ , ADE20K ๋ฐ์ดํฐ์ ์์์ ์๋ฏธ๋ก ์ ๋ถํ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. MambaVision ๋ฐฑ๋ณธ์ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ๋๊ธ ํฌ๊ธฐ์ ๊ฒฝ์ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, MS COCO์์ MambaVision-T๋ ConvNeXt-T๋ณด๋ค box Average Precision (AP)์์ +0.7, mask AP์์ +0.6 ํฅ์๋์๊ณ , Swin-T๋ณด๋ค box AP์์ +0.7, mask AP์์ +0.6 ํฅ์๋์์ต๋๋ค. ADE20K์์ MambaVision-T, S, B๋ Swin-T, S, B๋ณด๋ค mIoU์์ ๊ฐ๊ฐ +1.5, +0.6, +1.0 ํฅ์๋์์ต๋๋ค. ์ด๋ MambaVision์ด ๋ค์ํ ๋น์ ์์ ์ ํจ๊ณผ์ ์ด๊ณ ๋ค์ฉ๋ ๋ฐฑ๋ณธ์์ ๊ฒ์ฆํฉ๋๋ค.
3.3. Ablation ์ฐ๊ตฌ
- ImageNet-21K ๋๊ท๋ชจ ์ฌ์ ํ๋ จ: Mamba ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์ ์ค ์ต์ด๋ก ๋๊ท๋ชจ ImageNet-21K ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ ์ค์ผ์ผ๋ง์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค. MambaVision-B์ Top-1 ์ ํ๋๊ฐ 84.2%์์ 84.9%๋ก ํฅ์๋์์ผ๋ฉฐ, MambaVision-L์ 85%์์ 86.1%๋ก ํฅ์๋์์ต๋๋ค. MambaVision-L3 (739.6M ๋งค๊ฐ๋ณ์)๋ 256 ํด์๋์์ 87.3%, 512 ํด์๋์์ 88.1%์ Top-1 ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ๋ชจ๋ธ์ ํ์ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค.
- Token Mixer ์ค๊ณ: MambaVision ํ ํฐ ๋ฏน์์ ์ฒด๊ณ์ ์ธ ์ค๊ณ๋ฅผ ์ํด ํฌ๊ด์ ์ธ ablation ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค. ์ธ๊ณผ์ ์ปจ๋ณผ๋ฃจ์ ์ ์ผ๋ฐ ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ๋์ฒดํ๊ณ , SSM์ด ์๋ ๋์นญ์ ๋ธ๋์น๋ฅผ ์ถ๊ฐํ๋ฉฐ, ์ด ๋ ๋ธ๋์น์ ์ถ๋ ฅ์ ์ฐ๊ฒฐํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ ์์ ์ ์ฆํ์ต๋๋ค. ํนํ, ์ฐ๊ฒฐ(concatenation) ๋ฐฉ์์ ImageNet Top-1 ์ ํ๋, MS COCO์ box AP, mask AP, ADE20K์ mIoU์์ ์๋นํ ๊ฐ์ ์ ๊ฐ์ ธ์์ต๋๋ค.
- ํ์ด๋ธ๋ฆฌ๋ ํจํด: Self-Attention๊ณผ MambaVision ํ ํฐ ๋ฏน์ ๊ฐ์ ๋ค์ํ ํ์ด๋ธ๋ฆฌ๋ ํตํฉ ํจํด์ ์กฐ์ฌํ์ต๋๋ค. Self-Attention ๋ธ๋ก์ ๊ฐ ์คํ ์ด์ง์ ๋ง์ง๋ง N/2 ๋ ์ด์ด์ ๋ฐฐ์นํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ(82.3%)์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ด๋ ์ ์ญ์ ๋งฅ๋ฝ ๋ฐ ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ ์์กด์ฑ ํฌ์ฐฉ์ ์ํด Self-Attention์ ์ต์ข ๋ ์ด์ด์ ๋ฐฐ์นํ๋ ๊ฒ์ด ์ค์ํจ์ ์์ฌํฉ๋๋ค.
- ํด์ ๊ฐ๋ฅ์ฑ (Interpretability): MambaVision์ Self-Attention ๋ ์ด์ด์์ ์์ฑ๋ ์ดํ ์ ๋งต(attention map)์ ์๊ฐํํ์ฌ ๋ชจ๋ธ์ด ๋ช ์์ ์ธ ์ง๋ ์์ด๋ ์๋ฏธ๋ก ์ ์ผ๋ก ์ค์ํ ์์ญ์ ์ง์คํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์ด๋ Self-Attention ๋ธ๋ก์ ์ต์ข ๋จ๊ณ์ ์ฌ์ฉํ๋ ์ํคํ ์ฒ ์ค๊ณ ์ ํ์ ๋ท๋ฐ์นจํฉ๋๋ค.
4. ๊ฒฐ๋ก
์ด ์ฐ๊ตฌ๋ ์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ํนํ๋ ์ต์ด์ Mamba-Transformer ํ์ด๋ธ๋ฆฌ๋ ๋ฐฑ๋ณธ์ธ MambaVision์ ์๊ฐํฉ๋๋ค. ์ ์ญ์ ๋งฅ๋ฝ ํํ ํ์ต ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ Mamba ๊ณต์ ์ฌ์ค๊ณ๋ฅผ ์ ์ํ์ต๋๋ค. MambaVision์ Top-1 ์ ํ๋์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ ์ธก๋ฉด์์ ์๋ก์ด SOTA Pareto frontier๋ฅผ ๋ฌ์ฑํ๋ฉฐ, Transformer ๋ฐ Mamba ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์๋นํ ์ฐจ์ด๋ก ๋ฅ๊ฐํฉ๋๋ค. ๋ถ๋ฅ, ๊ฐ์ง, ๋ถํ ์ ํฌํจํ ์ฌ๋ฌ ์๊ฐ ์์ ์ ๋ํ ๊ด๋ฒ์ํ ์คํ์ ํตํด ์ ๊ทผ ๋ฐฉ์์ ๋ค์ฉ๋์ฑ๊ณผ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. ํตํฉ ํจํด์ ๋ํ ์ฒด๊ณ์ ์ธ ๋ถ์์ Self-Attention ๋ธ๋ก์ ์ต์ข ๋ ์ด์ด์ ๋ฐฐ์นํ๋ ๊ฒ์ด ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ๋ชจ๋ธ์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ๊ฒ์ ๋ฐํ์ต๋๋ค. ๋ํ, MambaVision์ ImageNet-21K ์ฌ์ ํ๋ จ์ ์ฑ๊ณต์ ์ผ๋ก ์ค์ผ์ผ๋งํ์ฌ SOTA ๋ชจ๋ธ๊ณผ ๊ฒฌ์ค ๋งํ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํจ์ผ๋ก์จ ๋๊ท๋ชจ ๋น์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. MambaVision์ ์ฑ๊ณต์ ์์ Mamba ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ฉด์ ๊ฐ์ ์ ํ์ฉํ์ฌ ๋น์ ๋ฐฑ๋ณธ ์ค๊ณ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค.
1.1 +
Mamba์ ์ฅ์
- ์ ํ ์๊ฐ ๋ณต์ก๋ (Linear time complexity): Mamba๋ State Space Model(SSM) ๊ธฐ๋ฐ์ผ๋ก, ์ ๋ ฅ ์ํ์ค๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋์ด Transformer์ ์ฃผ๋ ๋ณ๋ชฉ์ธ self-attention์ ์ฟผ๋๋ฌํฑ(์ ๊ณฑ) ์ฐ์ฐ ๋ณต์ก๋๋ฅผ ์ ํ์ผ๋ก ์ค์์ต๋๋ค. ์ด๋ ๊ธด ์ํ์ค๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง ํจ์น ์ฒ๋ฆฌ ์ ๋งค์ฐ ํจ์จ์ ์ ๋๋ค.
- ํ๋์จ์ด ์นํ์ ์ค๊ณ์ ์ ํ์ ์ฒ๋ฆฌ (Selective processing): ์ ๋ ฅ ์์กด์ ์ธ ๋์ ํ๋ผ๋ฏธํฐ ์กฐ์ ์ ํตํด ์ค์ํ ์ ๋ณด์ ์ง์คํ๋ฉด์ ๋ถํ์ํ ์ ๋ณด๋ฅผ ๊ฑธ๋ฌ๋ด, ํจ์จ์ฑ๊ณผ ํํ๋ ฅ์ ๋์์ ๋์ ๋๋ค.
- ์ฐ์ํ ์๊ณ์ด ๋ฐ ์ฐ์ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ: SSM ๊ธฐ๋ฐ ํน์ฑ์ ์ฐ์์ ์ด๊ณ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ ํจํด์ ์ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
Transformer์ ์ฅ์
- ์ ์ญ ๋ฌธ๋งฅ ์ธ์ (Global context modeling): Self-attention ๋ฉ์ปค๋์ฆ ๋๋ถ์ ์ด๋ฏธ์ง ๋ด ๋ชจ๋ ์์น ๊ฐ ์ํธ์์ฉ์ ๋์๋ค๋ฐ์ ์ผ๋ก ๋ชจ๋ธ๋ง ๊ฐ๋ฅํ์ฌ, ์ฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ์ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
- ์ ์ฐ์ฑ: ๋ค์ํ ๋ฐ์ดํฐ ํ์๊ณผ ํฌ๊ธฐ์ ๋ง์ถ์ด ์์ฝ๊ฒ ์กฐ์ ๊ฐ๋ฅํ๋ฉฐ, ํนํ ๋น์์ฐจ์ ์ด๊ณ ๊ณต๊ฐ์ ์ธ ๋ถํฌ๊ฐ ์ค์ํ ๋น์ ์์ ์ ์ ํฉํฉ๋๋ค.
MambaVision์์ ๊ฒฐํฉ๋ ์๋์ง
- Mamba์ ํจ์จ์ ์ธ ์ง์ญ ๋ฐ ์ฐ์ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ๊ณผ Transformer์ ์ ์ญ์ ์ด๋ฉฐ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ ํฌ์ฐฉ ๋ฅ๋ ฅ์ ๊ฒฐํฉํด, ์ด๋ฏธ์ง ๋ด ๋ก์ปฌ ํน์ฑ๊ณผ ๊ธ๋ก๋ฒ ์ปจํ ์คํธ๋ฅผ ๋ชจ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํฉ๋๋ค.
- ํนํ, MambaVision์ ์ด๋ฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์๋ CNN ๊ธฐ๋ฐ ์ปจ๋ณผ๋ฃจ์ ๋ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ๊ณ , ์ค๊ฐ๊ณผ ํ๋ฐ ๋จ๊ณ์์ Mamba ๊ธฐ๋ฐ ๋ฏน์์ Transformer์ self-attention ๋ธ๋ก์ ํ์ด๋ธ๋ฆฌ๋๋ก ์กฐํฉํ์ฌ, ํจ์จ์ฑ๊ณผ ์ ํ๋์ ํธ๋ ์ด๋์คํ๋ฅผ ํ๋ฅญํ ๋ฌ์ฑํฉ๋๋ค.
- Transformer ๋ธ๋ก์ ์ต์ข ๋จ๊ณ์ ์ง์ค์ ์ผ๋ก ๋ฐฐ์น๋์ด ์ด๋ฏธ์ง์ ์ ์ญ ๋ฌธ๋งฅ์ ๋ณด์, Mamba ๋ธ๋ก์ผ๋ก ์ธํด ์ ํ๋ ์ ์ญ ์์ฉ ์์ญ ๋ฌธ์ ๋ฅผ ๋ณด์ํด์ค๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Mamba๋ ํจ์จ์ ์ด๊ณ ์ฐ์์ ์ํ์ค ์ฒ๋ฆฌ์ ๋ฐ์ด๋๊ณ , Transformer๋ ๊ฐ๋ ฅํ ์ ์ญ ๊ณต๊ฐ ์์กด์ฑ ํ์ต๋ฅ๋ ฅ์ด ์์ด, ๋ ์ํคํ ์ฒ๊ฐ ๋ง๋๋ฉด ๊ฐ๊ฐ์ ๋จ์ ์ ์ํ๋๊ณ ๊ฐ์ ๋ง ๋ชจ์์, ์ด๋ฏธ์ง ์ธ์ ๋ฑ ์ปดํจํฐ ๋น์ ์์ ์์ ๋ ํ์ํ ์ฑ๋ฅ๊ณผ ์๋ ์กฐํ๋ฅผ ์ด๋ฃฐ ์ ์๋ ๊ฒ์ ๋๋ค.
1. MambaVision ์ํคํ ์ฒ ๊ฐ์
- 4๋จ๊ณ(Stages)๋ก ๊ตฌ์ฑ๋ ๊ณ์ธตํ ๊ตฌ์กฐ
- Stage 1, 2: ๊ณ ํด์๋ ์ด๋ฏธ์ง์์ ๋น ๋ฅด๊ฒ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด Residual CNN ๋ธ๋ก์ ์ฌ์ฉํฉ๋๋ค.
- Stage 3, 4: ์ ํด์๋ ๊ณต๊ฐ์์ MambaVision Mixer(๊ฐ์ ๋ Mamba ๋ธ๋ก)์ Transformer์ self-attention ๋ธ๋ก์ ๊ฒฐํฉํด ์ฌ์ฉํฉ๋๋ค.
- ์ด ๊ตฌ์กฐ๋ ๋์ ํด์๋์์๋ ํจ์จ์ ์ง์ญ ํน์ฑ ์ถ์ถ์ ์ง์คํ๊ณ , ์ ์ ํด์๋๊ฐ ๋ฎ์์ง์๋ก ์ ์ญ ์ปจํ ์คํธ ์ดํด์ ์ง์คํ๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค.
2. MambaVision Mixer (๊ฐ์ ๋ Mamba ๋ธ๋ก)
๊ธฐ์กด Mamba (SSM ๊ธฐ๋ฐ) ์ค๊ณ๊ฐ ๊ฐ์ง๊ณ ์๋ ์์ฐจ์ ์ด๋ฉฐ ์ธ๊ณผ์ ์ธ causal convolution์ ํ๊ณ๋ฅผ ๋ณด์ํด ๋ค์๊ณผ ๊ฐ์ด ์ค๊ณํ์ต๋๋ค:
- ์ธ๊ณผ์ (convolution) causal conv ๋์ ์ผ๋ฐ conv ์ฌ์ฉ:
- ์๊ณ์ด ๋ฐ์ดํฐ์ฒ๋ผ ์ข->์ฐ ํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ์ง ์๊ณ , ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ํด ์ข์ฐ ๋ฐฉํฅ์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๊ณต๊ฐ์ ํ๋ฆ์ ๋ํด ๋ ์ ์ฐํฉ๋๋ค.
- ๋ ๊ฐ์ ๋ถ๊ธฐ(branch) ๋์
:
- SSM branch: Mamba ๊ณ ์ ์ ์ํ๊ณต๊ฐ ๋ชจ๋ธ(Selective scan)์ ํตํด ์ํ์ค์ ์ด๊ณ ๊ตฌ์กฐ์ ์ธ ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ ์๊ฐ์ ยท์์ฐจ์ ํน์ง ํฌ์ฐฉ์ ๊ฐ์ .
- ๋นSSM branch (Symmetric branch): ์ผ๋ฐ 1D convolution + SiLU (Sigmoid Linear Unit) ํ์ฑํ ์กฐํฉ์ผ๋ก, SSM์ด ์ง๋์น๊ฒ ํ ๋ฐฉํฅ์ฑ์ ๊ฐํ๋ ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ณ , ์ปจํ ์ธ ๊ธฐ๋ฐ ์ ์ญ ๋ฐ ์ง์ญ ํน์ง์ ๋ณด์ถฉ์ ์ผ๋ก ํ์ตํฉ๋๋ค.
- ์ถ๋ ฅ ํฉ์น๊ธฐ:
- ๋ ๋ถ๊ธฐ ์ถ๋ ฅ์ ์ ๋ฐ ํฌ๊ธฐ๋ก ์๋ฒ ๋ฉ ํ ์ฐ๊ฒฐ(concatenation)ํ๊ณ , ๋ง์ง๋ง์ ๋ค์ ์ ํ ๋ณํํ์ฌ ์๋ ์๋ฒ ๋ฉ ํฌ๊ธฐ๋ก ๋๋๋ฆฝ๋๋ค.
- ์ด๋ฌํ ๊ตฌ์กฐ๋ ์์ฐจ(SSM) + ๊ณต๊ฐ(๋นSSM) ์ ๋ณด๊ฐ ๊ฒฐํฉ๋์ด ํ๋ถํ ์๊ฐ ํน์ฑ ํํ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , Mamba์ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ Vision์ ๋ ์ ํฉํ๋๋ก ๊ฐ์ ๋ ๊ฒ์ ๋๋ค.
3. Transformer ๋ธ๋ก๊ณผ์ ํ์ด๋ธ๋ฆฌ๋ ํตํฉ
- MambaVision์ ์ ์ฒด Stage 3, 4 ๋ธ๋ก ์ค ๋ท๋ถ๋ถ(N/2 ์ธต)์ Transformer์ multi-head self-attention ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑํฉ๋๋ค.
- ์ด์ ๋ Transformer์ self-attention์ด ์ ์ญ์ ๋ฌธ๋งฅ ๋ชจ๋ธ๋ง์ ํนํ๋์ด ์์ด, MambaVision Mixer๊ฐ ์ฃผ๋ก ์ง์ญ๋จ์ ๋ฐ ๊ตฌ์กฐ์ ์ธ ํน์ง์ ๋ฝ์๋ธ ๋ค ํ๋ฐ๋ถ์์ ์ ์ญ ์ ๋ณด๋ฅผ ๋ณด๊ฐํ๋๋ก ์ญํ ์ ๋ถ๋ดํ๊ธฐ ์ํจ์ ๋๋ค.
- ์ฑ๋ฅ ์คํ์์ Transformer ๋ธ๋ก์ ๋ง์ง๋ง ์ธต(N/2, ํน์ N/4)์ ๋๋ ๊ฒ์ด ์์์ ํน์ ์ด๋ฐ๋ถ์ ๋ฐฐ์นํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ํจ๊ณผ์ ์์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค.
4. ๋ชจ๋ธ ๋ด๋ถ ์ฒ๋ฆฌ ํ๋ฆ (์์ ๋ฐ ์คํ ์ฝ๋ ๊ธฐ์ค)
- ์ ๋ ฅ: X \in \mathbb{R}^{T \times C} (์ํ์ค ๊ธธ์ด T, ์๋ฒ ๋ฉ ์ฐจ์ C)
- MambaVision Mixer ๋ธ๋ก ๋์:
- ์ฌ๊ธฐ์ Scan ํจ์๋ Mamba ๋ชจ๋ธ์ input-dependent selective state-space convolution์ด๋ฉฐ, \sigma๋ SiLU ํ์ฑํ์ ๋๋ค.
- X_1์์ SSM branch๊ฐ ์ ๋ ฅ ์ํ์ค๋ฅผ Mamba ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, X_2๋ ์ผ๋ฐ conv branch๊ฐ spatial ์ ๋ณด๋ฅผ ๋ณด์ํฉ๋๋ค.
- ์ด๋ ๊ฒ ์กฐํฉ๋ ์ถ๋ ฅ์ ๋ค์ MLP๋ Self-Attention ๋ธ๋ก์ ๋๊ฒจ ๋ด๋ถ ํํ์ ์งํ์ํต๋๋ค.
5. ์ถ๊ฐ์ ์ผ๋ก MambaVision์ ์ค๊ณ ํน์ง
- Downsampling CNN ๋ธ๋ก: ์ด๋ฏธ์ง ๊ท๋ชจ๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ์ ํ์ ์ธ ํ๋ง ๋์ 3ร3 stride=2 Conv๋ฅผ ์ฌ์ฉํด ๊ณต๊ฐ ํด์๋๋ฅผ ์กฐ์ ํ๋ฉฐ, ์ด๋ ์ ํ์ CNN์ ํน์ง ์ถ์ถ ๋ฐฉ์์ ๊ณ์นํฉ๋๋ค.
- Layer Normalization ์ฌ์ฉ: Mamba์ Transformer ๋ธ๋ก ๋ชจ๋ ์์ ์ ์ธ ํ์ต ๋ฐ ํํ์ ์ํด LayerNorm ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- ์๋์ฐ ๊ธฐ๋ฐ self-attention: Transformer ๋จ๊ณ์์ ์ฐ์ฐ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด ์ง์ญ ์๋์ฐ ๋ด์์ self-attention์ ์ํํ๋ฉฐ, Stage 3์์๋ window size 14, Stage 4์์๋ 7์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก ํด ์ต์ ์ ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ถ๊ตฌํฉ๋๋ค.
- ์ด ์๋์ฐ ํฌ๊ธฐ๋ ์คํ์ ์ผ๋ก๋ ์ต์ ๊ฐ์ผ๋ก ํ์ธ๋์์ผ๋ฉฐ, ์๋์ฐ๋ฅผ ํฌ๊ฒ ํ๋ฉด ์ ์ญ์ฑ์ ๋์ผ ์ ์์ง๋ง ์๋๊ฐ ์ฝ๊ฐ ๋๋ ค์ง๋๋ค.
์์ฝ
- MambaVision์ ์ง์ญ์ ์ธ ํจ์จ์ ์ํ์ค ๋ชจ๋ธ๋ง(Scan ๋ SSM)๊ณผ ๊ณต๊ฐ์ ๋นSSM ํ ํฐ ๋ฏน์๋ฅผ ๋ ๊ฐ์ ๋ณ๋ ฌ ๋ถ๊ธฐ๋ก ๊ฒฐํฉ.
- ๋ชจ๋ ์ ๋ ฅ์ ์ฐ์ฐํ๋๋ฐ ์์ด MambaVision Mixer๊ฐ ๋จผ์ ์ง์ญ/์์ฐจ์ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ํ์ .
- ํ๋ฐ๋ถ Transformer self-attention ๋ธ๋ก๋ค์ด ๋ฉ๋ฆฌ ๋จ์ด์ง ๊ณต๊ฐ ์ ๋ณด์ ์ ์ญ ๋ฌธ๋งฅ์ ํฌ์ฐฉ.
- ์ ์ฒด์ ์ผ๋ก ํจ์จ์ ์ด๋ฉด์๋ ์ฅ๊ฑฐ๋ฆฌ ๋ฐ ๋ค์ํ ๊ณต๊ฐ์ ์์กด์ฑ์ ํจ๊ป ํฌ์ฐฉํ๋ ค๋ ๋ณตํฉ์ ์ค๊ณ๋ฅผ ํตํด ๋์ ์ ํ๋์ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋๋ฅผ ๋ฌ์ฑ.
2 Detail Review
MambaVision: Mamba-Transformer ํ์ด๋ธ๋ฆฌ๋ ๋น์ ๋ฐฑ๋ณธ ๋ถ์
2.1 ์๊ฐ (Introduction)
๋ฅ๋ฌ๋ ๋น์ ๋ถ์ผ์์๋ ์ด๋ฏธ์ง ์ธ์ ์ฑ๋ฅ์ ๋์ด๋ฉด์๋ ํจ์จ์ ์ ์งํ๊ธฐ ์ํ ๋ฐฑ๋ณธ ๋ชจ๋ธ ์ค๊ณ๊ฐ ์ค์ํฉ๋๋ค. ๊ณผ๊ฑฐ์๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ด ์ฃผ๋ํ์ง๋ง, ์ต๊ทผ Transformer ๊ตฌ์กฐ๊ฐ Vision Transformer (ViT) ๋ฑ์ ํํ๋ก ๋ฑ์ฅํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. Transformer๋ ์๊ธฐ์ดํ ์ (self-attention)์ ํตํด ์ด๋ฏธ์ง ์ ์ญ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์๋ค๋ ๊ฐ์ ์ด ์์ง๋ง, ์ ๋ ฅ ํจ์น ์๊ฐ ๋์ด๋ ์๋ก ์ฐ์ฐ๋์ด $O(N^2)$ ์์ค์ผ๋ก ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋จ์ ์ด ์์ต๋๋ค. ํํธ, 2023๋ ์ ์ ์๋ Mamba๋ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(State Space Model, SSM) ๊ธฐ๋ฐ์ ์๋ก์ด ์ํ์ค ๋ชจ๋ธ๋ก, ์ ๋ ฅ ๊ธธ์ด์ ์ ํ ์๊ฐ ๋ณต์ก๋๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ ์์ฐ์ด ๋ฑ์ ์ํ์ค ์์ ์์ Transformer์ ํ์ ํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. Mamba์ ํต์ฌ ์์ด๋์ด๋ ์ ๋ ฅ ์์กด ๋์ ํ๋ผ๋ฏธํฐ ์ ํ ๋ฉ์ปค๋์ฆ์ ํตํด ๋ถํ์ํ ์ ๋ณด๋ ๊ฑฐ๋ฅด๋ฉด์ ๊ธด ์ํ์ค๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด์์ฃ .
์ด๋ฌํ ์ฅ์ ์๋ ๋ถ๊ตฌํ๊ณ , Mamba์ ๊ฐ์ SSM ๋ชจ๋ธ์ ์ปดํจํฐ ๋น์ ์ ์ง์ ์ ์ฉํ๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์กด์ฌํ์ต๋๋ค. ์ด๋ฏธ์ง์์๋ ๋ชจ๋ ํฝ์ ์ด ์์ฐจ์ ์ผ๋ก ์์กดํ์ง ์๊ณ ๊ณต๊ฐ์์ ๊ตญ์์ ๊ด๊ณ๊ฐ ์ฃผ๋ก ์ค์ํ๋ฉฐ, ๊ธ๋ก๋ฒ ๋งฅ๋ฝ๋ ํ ๋ฒ์ ๊ณ ๋ ค๋์ด์ผ ์ ํํ ํ๋จ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ธฐ๋ณธ Mamba๋ ์๋ํ๊ท์ ์์ฐจ ์ฒ๋ฆฌ ํน์ฑ ๋๋ฌธ์ ํ ๋ฒ์ ํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ณด๋ฅผ ํ๋ ค๋ณด๋ด ์ ์ญ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๊ณ , ์ด๋ฅผ ๊ทน๋ณตํ๋ ค ์๋ฐฉํฅ ์ฒ๋ฆฌ ๋ฑ์ ๋์ ํ๋ฉด ์ง์ฐ ์๊ฐ์ด ์ปค์ง๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ๊ฒฐ๊ตญ ์ต์ Vision Transformer๋ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ด ์ฌ์ ํ Mamba ๊ธฐ๋ฐ ๋น์ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ ํ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ํฉ์ด์์ต๋๋ค.
โMambaVision: A Hybrid Mamba-Transformer Vision Backboneโ์ ์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ์ ์๋ ํ์ ์ ์ธ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฑ๋ณธ์ ๋๋ค. NVIDIA์ Ali Hatamizadeh์ Jan Kautz ์ฐ๊ตฌ์ง์ Mamba ๊ตฌ์กฐ๋ฅผ ๋น์ ์ ๋ง๊ฒ ๊ฐ์ ํ๊ณ , ๊ทธ๊ฒ์ Transformer์ ์๊ธฐ์ดํ ์ ๊ณผ ๊ฒฐํฉํจ์ผ๋ก์จ ์์ชฝ์ ๊ฐ์ ์ ๋ชจ๋ ์ด๋ฆฐ ์๋ก์ด ๋ชจ๋ธ MambaVision์ ์ค๊ณํ์ต๋๋ค. ์ด ๊ธ์์๋ ํด๋น ๋ ผ๋ฌธ์ ํต์ฌ ๋ด์ฉ์ ๊น์ด ์๊ฒ ๋ถ์ํ๊ณ ์ ํฉ๋๋ค. Mamba์ Transformer๋ฅผ ์ด๋ป๊ฒ ๊ฒฐํฉํ์ฌ ๋ ๋์ ๋น์ ๋ฐฑ๋ณธ์ ๋ง๋ค์๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ด ์ ์ค์ํ์ง๋ฅผ ์๊ธฐ ์ฝ๊ฒ ํ์ด๋ณด๊ฒ ์ต๋๋ค. ๋ํ ๋ชจ๋ธ ์ํคํ ์ฒ์ ์ธ๋ถ ๊ตฌ์ฑ, ์ฃผ์ ์คํ ๊ฒฐ๊ณผ, ์ฅ๋จ์ ๊ณผ ์์ฌ์ ์ ์ดํด๋ด์ผ๋ก์จ MambaVision์ด ๊ฐ์ ธ์ฌ ๋น์ ๋ชจ๋ธ ์ค๊ณ์ ๋ฏธ๋์ ๋ํด ๋ ผ์ํ๊ฒ ์ต๋๋ค.
2.2 ๋ฐฐ๊ฒฝ (Background)
2.2.1 Transformer์ ๋น์ ๋ชจ๋ธ
Transformer๋ ์๋ ์์ฐ์ด ์ฒ๋ฆฌ์์ ๋ฑ์ฅํ ํ์ ์ ์ธ ๋ชจ๋ธ์ด์ง๋ง, ViT(Vision Transformer)๋ฅผ ํ๋๋ก ์ด๋ฏธ์ง ๋ถ์ผ์๋ ๋น ๋ฅด๊ฒ ๋์ ๋์์ต๋๋ค. Transformer์ ์๊ธฐ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ ๋ ฅ ํ ํฐ(์ด๋ฏธ์ง ํจ์น)๋ค ๊ฐ ๋ชจ๋ ์์ ๋น๊ตํ์ฌ ์ ์ญ์ ์ธ ์ํธ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ณต์กํ ์ด๋ฏธ์ง์์๋ ์ฅ๊ฑฐ๋ฆฌ ์์กด ๊ด๊ณ์ ์ ์ฒด ๋งฅ๋ฝ์ ํฌ์ฐฉํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด Swin Transformer๋ ์๋์ฐ ๋จ์๋ก ์๊ธฐ์ดํ ์ ์ ์ํํ๊ณ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ ์ง์ญ๊ณผ ์ ์ญ ํจํด์ ๋ชจ๋ ์ก์๋ด๋ ค ํ์ต๋๋ค. ์ด์ฒ๋ผ Transformer ๊ธฐ๋ฐ ๋น์ ๋ชจ๋ธ๋ค์ ๋์ ํํ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ๋ง๋ํ ์ฐ์ฐ๋๊ณผ ๋์ฉ๋ ๋ฐ์ดํฐ ํ์ต ํ์์ฑ์ด๋ผ๋ ํ๋ค์ด ์กด์ฌํฉ๋๋ค. $N N$ ํจ์น๋ค ์ฌ์ด ๋ชจ๋ ์์ ์ฒ๋ฆฌํ๋ ์๊ธฐ์ดํ ์ ์ ํด์๋๊ฐ ์ปค์ง์๋ก ์ฐ์ฐ ๋น์ฉ์ด ๊ธ์ฆํ๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์์ ์ฌ์ ํ๋ จ ๋ฑ์ด ์๊ตฌ๋์ด ํ์ค ์ ์ฉ์ ๋ถ๋ด์ด ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด Swin Transformer๋ ๊ตญ์ ์๋์ฐ๋ก ์ดํ ์ ๋ฒ์๋ฅผ ์ ํํ๊ฑฐ๋, ConvNeXt๊ฐ์ ํ๋์ CNN์ ๋ ์ด์ด ์ ๊ทํ ๋์ ๊ณผ ์ปค๋ ํฌ๊ธฐ ํ๋ ๋ฑ์ผ๋ก Transformer์ ์ผ๋ถ ์ด์ ์ ํก์ํ๊ธฐ๋ ํ์ต๋๋ค. ๊ทธ๋ผ์๋ ์ ์ญ receptive field(์์ฉ ์์ญ)๋ฅผ ํจ์จ์ ์ผ๋ก ํ๋ณดํ๋ ๊ฒ์ ์ฌ์ ํ ์์ CNN์๊ฒ ์ด๋ ค์ด ๊ณผ์ ์ด๊ณ , Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์๊ฒ ๊ณ์ฐ ํจ์จ ์ธก๋ฉด์ ๋์ ๊ณผ์ ๋ก ๋จ์ ์์์ต๋๋ค.
2.2.2 Mamba์ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ(SSM)
ํํธ, ์ํ ๊ณต๊ฐ ๋ชจ๋ธ (State Space Model)์ ์์ฐจ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ ๋ค๋ฅธ ํจ๋ฌ๋ค์์ผ๋ก, ์ฐ์ ์๊ฐ ์ญํ ์์คํ ์ผ๋ก ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๊ธฐ๋ฒ์ ๋๋ค. 2022๋ ๋ฑ์ฅํ S4 ๋ชจ๋ธ ๋ฑ์ด ๋ํ์ ์ด๋ฉฐ, ๋งค์ฐ ๊ธด ์ํ์ค๋ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ค๋ ์ ๋๋ฌธ์ ์ฃผ๋ชฉ๋ฐ์์ต๋๋ค. Mamba๋ ์ด๋ฌํ SSM ์ ๊ทผ์ ๋ฐ์ ์ํจ ์ต์ ๋ชจ๋ธ๋ก, 2023๋ ๋ณด๊ณ ๋์์ผ๋ฉฐ Transformer ๋๋น ์ ํ ์๊ฐ์ ๋ณต์ก๋๋ฅผ ์ต์ ํ๋ฉด์ ์ ์ฌํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํด ํ์ ๊ฐ ๋์์ต๋๋ค. Mamba์ ์๋ ์๋ฆฌ๋ฅผ ๊ฐ๋ตํ ํ์ด๋ณด๋ฉด, ์ ๋ ฅ ์ ํธ๋ฅผ ์ฐ์ ๋ฏธ๋ถ ๋ฐฉ์ ์ ํํ์ ์๋ ์ํ $h(t)$๋ก ๋ณํํ์ฌ ์ฒ๋ฆฌํ ๋ค, ์ด๋ฅผ ๋ค์ ์ถ๋ ฅ์ผ๋ก ๋ณํํ๋ ํํ์ ๋๋ค. ์ด ๊ณผ์ ์์ A, B, C ๋ฑ์ ํ๋ ฌ ํ๋ผ๋ฏธํฐ๊ฐ ์ํ์ค์ ๋ํน์ฑ์ ๊ฒฐ์ ํ๋๋ฐ, Mamba๋ ์ ํ์ ์ค์บ(selective scan) ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ฌ ์ ๋ ฅ์ ๋ฐ๋ผ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํจ์ผ๋ก์จ ๋ถํ์ํ ๋ถ๋ถ์ ๊ฑฐ๋ฅด๊ณ ํต์ฌ ์ ๋ณด๋ง ํจ์จ์ ์ผ๋ก ์ ๋ฌํ๋๋ก ํ์ต๋๋ค. ๋ํ ์ฐ์ ๋ชจ๋ธ์ ์ด์ฐํ(discretization)ํ์ฌ ํจ์จ์ ๋์ด๋ ๋ฑ ๊ณตํ์ ์ต์ ํ๋ ํฌํจํ๊ณ ์์ต๋๋ค. ์ฝ๊ฒ ๋น์ ํ๋ฉด, Transformer๊ฐ ๋ชจ๋ ํ ํฐ ์ ์ฌ์ด๋ฅผ ๋น๊ตํ๋ฉฐ โ๋ชจ๋ ์ ๋ณด๋ฅผ ํ๊บผ๋ฒ์ ๋ณด๋โ ๋ฐฉ์์ด๋ผ๋ฉด, Mamba๋ ์๊ฐ ํ๋ฆ์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ์ ๋ฌํ๋ฉฐ โ์ค์ํ ์ ๋ณด๋ง ๊ณจ๋ผ ๊ธฐ์ตํ๋โ ๋ฐฉ์์ด๋ผ ํ ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ฅผ ์ํ Mamba์๋ ๋์ด์ผ ํ ์ฐ์ด ๋ช ๊ฐ์ง ์์์ต๋๋ค. ์ฐ์ , ์ด๋ฏธ์ง ํฝ์ ๋ค์ ๋ฌธ์ฅ์ฒ๋ผ ์ ํ ์์๊ฐ ์๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ์, Mamba๊ฐ ํ ์คํธ์์ ํ๋ ๊ฒ์ฒ๋ผ ํ ๋ฐฉํฅ์ผ๋ก ์์ฐจ์ ์ผ๋ก ํฝ์ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด Mamba๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ผ์ชฝ ์์์ ์ค๋ฅธ์ชฝ ์๋๋ก ํ ์ค์ฉ ์ค์บํ๋ค๊ณ ์์ํด๋ณด๋ฉด, ์ํ์ข์ฐ๋ก ์ธ์ ํ ํฝ์ ๋ค์ ์ง์ญ์ ํจํด์ ๋์น ์ํ์ด ์๊ณ ์ ์ญ์ ์ธ ์ค๊ณฝ ํ์ ๋ ์ด๋ ต์ต๋๋ค. ์ค์ ๋ก Vision Mamba (Vim)๋ผ๋ ํ์ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ณ ์ ์๋ฐฉํฅ SSM์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์-์ผ์ชฝ์์ ์๋-์ค๋ฅธ์ชฝ ๋ฑ ๋ค ๋ฐฉํฅ์ผ๋ก ๋ฐ๋ณต ์ค์บํ๋ ๊ธฐ๋ฒ์ ๋์ ํ๊ธฐ๋ ํ์ต๋๋ค. ํ์ง๋ง ์ด๋ ๊ฒ ๋ชจ๋ ๋ฐฉํฅ์ผ๋ก ์์ฐจ ์ฒ๋ฆฌ๋ฅผ ํ๋ฉด ๊ธ๋ก๋ฒ ๋ฌธ๋งฅ์ ์ป์ ์ ์์ด๋, ๋ชจ๋ ํ ํฐ์ ๋ค ์ฒ๋ฆฌํ ๋๊น์ง ์ถ๋ ฅ์ด ์ง์ฐ๋์ด ํจ์จ์ด ๋จ์ด์ง๊ณ ํ์ต๋ ์ด๋ ค์์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ ๋ค๋ฅธ ์๋๋ก EfficientVMamba๋ ๊ณ ํด์๋ ๊ตฌ๊ฐ์๋ SSM, ์ ํด์๋ ๊ตฌ๊ฐ์๋ CNN์ ์ฌ์ฉํ๋ ํผํฉ ์ ๋ต์ ์ผ์ง๋ง, ์ฌ์ ํ ์ ์ญ ์ปจํ ์คํธ๋ฅผ ์จ์ ํ ๋ฐ์ํ์ง ๋ชปํด ์ ํ๋ ๋ฉด์์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ข ํฉํ๋ฉด, Mamba๋ฅ SSM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์์ฐจ์ ์ ์ฝ์ผ๋ก ์ธํ ๊ณต๊ฐ ์ดํด ๋ถ์กฑ๊ณผ ๊ธ๋ก๋ฒ ์ปจํ ์คํธ ํ์ฉ ๋ฏธํก์ด๋ผ๋ ์ฝ์ ์ ๋ณด์ด๊ณ ์์๋ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ ํ์์ฑ์ด ๋๋๋์์ต๋๋ค. CNN์ฒ๋ผ ์ด๊ธฐ ๊ตญ์ ํน์ง ์ถ์ถ์ ๋น ๋ฅด๊ฒ ํ๊ณ , Mamba์ ํจ์จ์ ์ํ์ค ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ ์งํ๋ ๋ถ์กฑํ ์ ์ญ ๋ฌธ๋งฅ ์ดํด๋ Transformer์ ์๊ธฐ์ดํ ์ ์ผ๋ก ๋ณด์ํ๋ฉด ์ด๋จ๊น ํ๋ ์์ด๋์ด์ ๋๋ค. ์ฆ, โ์ต๊ณ ์ ์ ํ๋๋ฅผ ๊ฐ์ฅ ํจ์จ์ ์ผ๋กโ ์ป๊ธฐ ์ํด ํ ๊ฐ์ง ๊ธฐ๋ฒ๋ง ๊ณ ์งํ๊ธฐ๋ณด๋ค ์๋ก ๋ค๋ฅธ ์ฅ์ ์ ๊ฐ์ง ๊ตฌ์กฐ๋ค์ ์กฐํฉํ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๊ฐ ๋ฐ์ ํ ๊ฒ์ ๋๋ค. ์ด์ ์๋ CoAtNet์ด๋ ConvNext ๋ฑ CNN+Transformer ํผ์ฑ ๋ชจ๋ธ๋ค์ด ์์์ง๋ง, Mamba์ Transformer๋ฅผ ๊ฒฐํฉํ ์๋๋ ์์์ต๋๋ค. MambaVision์ ๋ฐ๋ก ์ด๋ฌํ ์ฒซ ๋์ ์ผ๋ก์, Mamba ๊ธฐ๋ฐ ํ ํฐ ๋ฏน์(token mixer)์ Transformer ๋ธ๋ก์ ๊ฒฐํฉํ ์๋ก์ด ๋น์ ๋ฐฑ๋ณธ์ ์ ์ํฉ๋๋ค.
2.3 MambaVision์ด๋? (What Is MambaVision?)
MambaVision์ Mamba์ Transformer๋ฅผ ๋จ์ผ ์ํคํ ์ฒ ์์์ ์ตํฉํ ๊ณ์ธตํ(hierarchical) ๋น์ ๋ฐฑ๋ณธ ๋ชจ๋ธ์ ๋๋ค. ํ ๋ง๋๋ก ์์ฝํ๋ฉด, Mamba์ ํจ์จ์ฑ๊ณผ Transformer์ ์ ์ญ ํํ๋ ฅ์ ๋ชจ๋ ์ก์ ๋ชจ๋ธ์ด๋ผ ํ ์ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ํต์ฌ ๊ธฐ์ฌ๋ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๋๋ฉ๋๋ค. ์ฒซ์งธ, ๊ธฐ์กด Mamba ๋ธ๋ก์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ ํฉํ๋๋ก ์ฌ์ค๊ณ(re-design)ํ์ฌ โVision-Friendlyโ Mamba ํ ํฐ ๋ฏน์๋ฅผ ๋ง๋ค์๋ค๋ ๊ฒ์ ๋๋ค. ์๋ํ๊ท ํน์ฑ์ ์ํํ๊ณ ์ถ๊ฐ ๊ฒฝ๋ก๋ฅผ ๋์ ํ๋ ๋ฑ์ ๊ฐ์ ์ ํตํด, ์๋ณธ Mamba ๋๋น ์ ํ๋์ ์ฒ๋ฆฌ ํจ์จ์ ๋ชจ๋ ํฅ์์ํจ ์๋ก์ด ํ ํฐ ๋ฏน์๊ฐ ํ์ํ์ต๋๋ค. ๋์งธ, ์ด๋ ๊ฒ ๊ฐ์ ๋ Mamba ํ ํฐ ๋ฏน์๋ฅผ Transformer์ ์๊ธฐ์ดํ ์ ๋ธ๋ก๊ณผ ํผํฉํ์ฌ ํ์ด๋ธ๋ฆฌ๋ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๊ตฌํํ๋ค๋ ์ ์ ๋๋ค. ์ฌ๋ฌ ๊ฐ์ง ํตํฉ ๋ฐฉ๋ฒ์ ์คํํ ๋์, ๋ชจ๋ธ์ ํ๋ฐ๋ถ ์ธต๋ค์ ์๊ธฐ์ดํ ์ ์ ์ ์ฉํ๋ ์ ๋ต์ด ์ต์ ์์ ๋ฐ๊ฒฌํ๊ณ , ์ด๋ฅผ ํ ๋๋ก MambaVision์ด๋ผ๋ ๋ค์ค ํด์๋ ๋จ๊ณํ ๋ชจ๋ธ์ ์์ฑํ์ต๋๋ค.
MambaVision์ ์ ์ฒด์ ์ผ๋ก 4๊ฐ์ Stage(๋จ๊ณ)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋จ๊ณ์์ ์ ๋ ฅ ํด์๋๋ฅผ ์ ์ง์ ์ผ๋ก ์ค์ฌ๋๊ฐ๋ฉฐ ํน์ง์ ์ถ์ถํฉ๋๋ค. ์๋จ(Stage 1-2)์์๋ CNN ๊ธฐ๋ฐ ๋ ์ง๋์ผ ๋ธ๋ก๋ค์ ์ฌ์ฉํ์ฌ ๊ณ ํด์๋์ ์ ๋ ฅ์ ์ ์ํ ์ฒ๋ฆฌํ๊ณ ๋ค์ด์ํ๋งํฉ๋๋ค. ํ๋จ(Stage 3-4)์์๋ MambaVision Mixer ๋ธ๋ก๊ณผ Transformer ์๊ธฐ์ดํ ์ ๋ธ๋ก์ด ๊ฒฐํฉ๋์ด ๋์ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ Stage์ ๋ ์ด์ด๋ค ์ค ์ฒซ ์ ๋ฐ์ MambaVision Mixer + MLP๋ก ๊ตฌ์ฑ๋๊ณ , ๋๋จธ์ง ์ ๋ฐ์ Transformer Self-Attention + MLP๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ด๋ฐ์๋ Mamba ๊ธฐ๋ฐ์ ํจ์จ์ ํ ํฐ ํผํฉ์ผ๋ก ํน์ง์ ์ถ์ถํ๊ณ , ํ๋ฐ์๋ ์๊ธฐ์ดํ ์ ์ผ๋ก ์ ์ญ ํจํด์ ํ์ ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ โ์ต์ข ๋ช ๊ฐ ์ธต์ Transformer ๋ธ๋ก์ด ์์ด๋ฒ๋ฆฐ ์ ์ญ ๋ฌธ๋งฅ์ ํ๋ณตํ๊ณ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ์บก์ฒํด์ค๋คโ๊ณ ์ค๋ช ํฉ๋๋ค. ๋ค์ ๋งํด, MambaVision์ ๋ก์ปฌ-๊ธ๋ก๋ฒ ์ฒ๋ฆฌ์ ๊ท ํ์ ๊ณ์ธต ๊ตฌ์กฐ ๋ด์์ ๋ฌ์ฑํ ๋ชจ๋ธ์ธ ๊ฒ์ ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก MambaVision ๋ชจ๋ธ๊ตฐ(MambaVision-T, S, B, L ๋ฑ ํฌ๊ธฐ๋ณ ๋ชจ๋ธ)์ ImageNet-1K ์ด๋ฏธ์ง ๋ถ๋ฅ ๊ธฐ์ค์ผ๋ก ์ด์ ๊น์ง ๋ณด๊ณ ๋ ์ด๋ค ๋ชจ๋ธ๋ณด๋ค๋ ๋์ ์ ํ๋-์๋ ๊ท ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ฒฝ์ ๋ฐฑ๋ณธ๋ค๊ณผ Top-1 ์ ํ๋ ๋ ์ถ๋ก ์ฒ๋ฆฌ์๋(throughput)๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ฉฐ, MambaVision์ด ์๋ก์ด Pareto ์ต์ ์ ์ ๊ทธ๋ฆฐ๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. ํนํ ๋์ผํ ์์ค์ ์ ํ๋๋ฅผ ๋ด๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ์๋ฑํ ๋น ๋ฅด๋ฉฐ, ๋น์ทํ ์๋์์๋ ํจ์ฌ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๋๋ฐ, ์ด๋ ํ๋์จ์ด ํจ์จ์ฑ๊น์ง ๊ณ ๋ คํ Mamba์ ์ฅ์ ๊ณผ Transformer์ ํํ๋ ฅ์ ๋ชจ๋ ํ์ฉํ ๋๋ถ์ ๋๋ค. ๋ํ MS COCO ๊ฐ์ฒด ๊ฒ์ถ์ด๋ ADE20K ์ด๋ฏธ์ง ๋ถํ ๋ฑ์ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์์๋, MambaVision์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋๊ธ ๋ฐฑ๋ณธ์ ์ด ๋ชจ๋ธ๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ๋ณด๊ณ ๋ฉ๋๋ค. ์์ฝํ๋ฉด, MambaVision์ ๋น์ ๋ฐฑ๋ณธ ์ค๊ณ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ์ฒซ ์ฌ๋ก๋ก์, Mamba์ Transformer์ ๋ง๋จ์ด ์ค์ฉ์ ๊ฐ์น๊ฐ ์์์ ์ ์ฆํ ๊ฒ์ ๋๋ค.
2.4 ์ํคํ ์ฒ ์์ธ (Architecture Details)

MambaVision ๋ฐฑ๋ณธ์ ๊ณ์ธต์ ์ํคํ ์ฒ ๊ฐ์. ์ ๋ ฅ ์ด๋ฏธ์ง๋ ํฉ์ฑ๊ณฑ ๊ธฐ๋ฐ์ Stem๊ณผ Conv Block ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ๋ค์ด์ํ๋ง๋๊ณ , Stage 3์ 4์์ MambaVision Mixer ๋ธ๋ก๋ค๊ณผ Self-Attention ๋ธ๋ก๋ค์ด ์กฐํฉ๋์ด ํน์ง์ ์ถ์ถํ๋ค.
MambaVision์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ๋จ๊ณ๋ณ๋ก ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฆผ 2(์ ๋ค์ด์ด๊ทธ๋จ)์ MambaVision์ 4-Stage ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฐ์ Stem์ด๋ผ ๋ถ๋ฆฌ๋ ์ ๋ ฅ ์ฒ๋ฆฌ ๋จ๊ณ์์, ์ด๋ฏธ์ง๊ฐ ์์ ํจ์น๋ค๋ก ๋ถํ ๋์ด ๋ช ์ฐจ๋ก์ $3$ ํฉ์ฑ๊ณฑ๊ณผ ์คํธ๋ผ์ด๋ 2 ๋ค์ด์ํ๋ง์ ๊ฑฐ์น๋ฉฐ C ์ฐจ์ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ๋ฉ๋๋ค. ์ด Stem์ ์ผ์ข ์ ๊ฐ๋จํ CNN ์ธ์ฝ๋ ์ญํ ์ ํ์ฌ, ๊ฑฐ๋ํ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ ๊ฒฝ๋ง์ด ๋ค๋ฃฐ ์ ์๋ ์์ค์ผ๋ก ์ค์ฌ์ค๋๋ค. ์ด์ด์ Stage 1๊ณผ Stage 2์์๋ ์์ฐจ ์ฐ๊ฒฐ(residual connection)์ ๊ฐ๋ CNN ๋ธ๋ก๋ค์ด ์ฌ์ฉ๋ฉ๋๋ค. ๊ฐ Stage ์ฌ์ด์๋ ์คํธ๋ผ์ด๋ 2์ ๋ค์ด์ํ ํฉ์ฑ๊ณฑ์ด ์์ด ํด์๋๋ฅผ ๋จ๊ณ์ ์ผ๋ก ๋ฎ์ถ๋ฉฐ, ์ฑ๋ ์๋ ๋๋ ค๊ฐ๋๋ค (์: Stage 1 ์ถ๋ ฅ ์ฑ๋ $C$์์ Stage 2 ์ถ๋ ฅ $2C$๋ก ์ฆ๊ฐ). ์ด๋ฌํ ๋์์ธ์ ConvNeXt ๋ฑ ์ต์ CNN๊ณผ ์ ์ฌํ ๊ณ์ธตํ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ก, ๊ณ ํด์๋์์๋ ํฉ์ฑ๊ณฑ์ผ๋ก ๊ตญ์ ํน์ง์ ๋น ๋ฅด๊ฒ ์ถ์ถํ์ฌ ํจ์จ์ ๋์ด๊ธฐ ์ํจ์ ๋๋ค.
Stage 3์ Stage 4๊ฐ MambaVision์ ํต์ฌ ํ์ ์ด ๋ค์ด์๋ ๋ถ๋ถ์ ๋๋ค. ๊ฐ Stage์๋ ๋ค์์ ๋ ์ด์ด๊ฐ ์๋๋ฐ, ์ ๋ฐ์ MambaVision Mixer ๋ธ๋ก, ์ ๋ฐ์ Transformer Self-Attention ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด Stage 3์ 8๊ฐ์ ๋ ์ด์ด๊ฐ ์๋ค๋ฉด ์ฒ์ 4๊ฐ๋ MambaVision ํ ํฐ ๋ฏน์๋ฅผ, ๋๋จธ์ง 4๊ฐ๋ ๋ฉํฐํค๋ ์๊ธฐ์ดํ ์ ์ ์ฌ์ฉํฉ๋๋ค. ๊ฐ ๋ ์ด์ด๋ Layer Normalization -> ํ ํฐ ๋ฏน์ฑ(Mamba ๋๋ Self-Attention) -> ์์ฐจํฉ ๊ทธ๋ฆฌ๊ณ Layer Normalization -> MLP (๋ ๊ฐ์ ์ ํ์ธต์ผ๋ก ์ด๋ฃจ์ด์ง ํผ๋ํฌ์๋) -> ์์ฐจํฉ์ ํ์ค Transformer ์คํ์ผ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ ๋๋ค. Stage 3 ๋์์ ๋ค์ ๋ค์ด์ํ๋ง์ด ํ ๋ฒ ์ด๋ฃจ์ด์ง๊ณ , Stage 4์์๋ ๋์ผํ ํจํด์ผ๋ก ์งํ๋ฉ๋๋ค. ์ต์ข ์ ์ผ๋ก Stage 4 ์ถ๋ ฅ ํน์ฑ๋งต์ 2D ํ๊ท ํ๋ง์ผ๋ก ๊ณต๊ฐ ์ฐจ์์ ์ค์ด๊ณ , ์ต์ข ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ํต๊ณผ์์ผ ์์ธก์ ์ป์ต๋๋ค. ์ด์ฒ๋ผ MambaVision์ CNN+SSM+Transformer๊ฐ ์ ๊ธฐ์ ์ผ๋ก ํตํฉ๋ ํํ๋ก, ๊ฐ ๊ตฌ์ฑ ์์๊ฐ ์ ์ฌ์ ์์ ๋ฐฐ์น๋์ด ์์ต๋๋ค. CNN์ ๊ณ ํด์๋ ํน์ง ์ถ์ถ์ ๊ฐ์ํ๊ณ , Mamba ๊ธฐ๋ฐ ํ ํฐ ๋ฏน์๋ ์ค๊ฐ ๋จ๊ณ์์ ํจ์จ์ ์ผ๋ก ํน์ง์ ์ตํฉํ๋ฉฐ, Transformer ๋ธ๋ก์ ํ๋ฐ๋ถ์์ ์ ์ญ ์ํธ์์ฉ์ ๋ชจ๋ธ๋งํฉ๋๋ค. ํนํ Transformer ๋ธ๋ก์ ์ต์ข ๋จ๊ณ์ ๋ฐฐ์นํ ๊ฒ์, ์ ๋จ๊ณ๊น์ง์ ์ฒ๋ฆฌ์์ ๋์ณค์ ์ ์๋ ๊ธ๋ก๋ฒ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ณต์ํ๊ณ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํฌ์ฐฉํ๊ธฐ ์ํ ์ค๊ณ์์ ์ ํ์ ๋๋ค.
2.4.1 MambaVision Mixer ๋ธ๋ก ์ค๊ณ
MambaVision ์ํคํ ์ฒ์ ๋ฐฑ๋ฏธ๋ MambaVision Mixer๋ผ ๋ช ๋ช ๋ ํ ํฐ ๋ฏน์ฑ ๋ธ๋ก์ ๋๋ค. ์ด๋ ๊ธฐ์กด Mamba ๋ธ๋ก์ Vision ์ฉ๋๋ก ๊ฐ์กฐํ ๊ฒ์ผ๋ก, ๊ฐ๋จํ ๋งํด SSM ๊ธฐ๋ฐ ๋ถ์ง(branch)์ ๋น-SSM ๋ถ์ง ๋ ๊ฐ๋๋ก ์ ๋ ฅ์ ์ฒ๋ฆฌํ ๋ค ํตํฉํ๋ ๊ตฌ์กฐ์ ๋๋ค. ์๋ณธ Mamba Mixer๋ ํ ๋ฐฉํฅ์ผ๋ก๋ง ์ ๋ณด๋ฅผ ํ๋ ค๋ณด๋ด๋ ์ธ๊ณผ์ (convolution causal) 1D ์ปจ๋ณผ๋ฃจ์ ๊ณผ SSM์ผ๋ก ๊ตฌ์ฑ๋์ด ์์๋๋ฐ, ์ ์๋ค์ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ณ๊ฒฝ์ ๊ฐํ์ต๋๋ค:
1) ์ธ๊ณผ์ 1D ์ปจ๋ณผ๋ฃจ์ ์ ์ผ๋ฐ 1D ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ๋์ฒดํ์์ต๋๋ค. ์ธ๊ณผ์ ์ปจ๋ณผ๋ฃจ์ ์ ์ํ์ค ์ฒ๋ฆฌ์์ ํ์ฌ ์์น ์ดํ์ ์ ๋ณด๋ฅผ ์ฐจ๋จํ์ฌ ์๋ฐฉํฅ ์์กด๋ง ๋จ๊ธฐ๋ ์ญํ ์ ํ๋๋ฐ, ์ด๋ฏธ์ง์์๋ ๊ตณ์ด ํ์ชฝ ๋ฐฉํฅ์ผ๋ก ์ ํํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์คํ๋ ค ์ด๋ฌํ ์ ์ฝ์ด ํ ๋ฐฉํฅ์ผ๋ก๋ง ๊ตญ์ ํจํด์ ์ ๋ฌํ๋๋ก ๋ง๋ค์ด ๋น์ ์๋ ๋ถํ์ํ๊ณ ๋นํจ์จ์ ์ ๋๋ค. ์ผ๋ฐ ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ๋ฐ๊ฟ์ผ๋ก์จ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ๋ชจ๋ ํ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค.
2) SSM์ด ์๋ ๋ณ๋ ฌ ๋ถ์ง(branch)๋ฅผ ์ถ๊ฐํ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ๋ ฅ์ ๋๋ก ๋๋์ด ํ๋๋ ๊ธฐ์กด์ฒ๋ผ SSM ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ฅด๊ณ (Conv1D + SSM ์ฐ์ฐ), ๋ค๋ฅธ ํ๋๋ ์ถ๊ฐ๋ 1D ์ปจ๋ณผ๋ฃจ์ ์ฐ์ฐ + SiLU ํ์ฑํ๋ฅผ ํต๊ณผํ๋๋ก ํ์์ต๋๋ค. ์ด ๋ ๋ฒ์งธ ๊ฒฝ๋ก๋ ์์ฐจ์ ์ํ ์ ๋ฐ์ดํธ ์์ด ์ฆ๊ฐ์ ์ธ ๊ณต๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ฏ๋ก, SSM ๊ฒฝ๋ก๊ฐ ์ก์๋ด์ง ๋ชปํ ์ ์๋ ์ ์ ์ธ ์ ๋ณด๋ ๊ธ๋ก๋ฒ ํจํด์ ๋ณด์ํด์ฃผ๋ ์ญํ ์ ํฉ๋๋ค. ์ฝ๊ฒ ๋งํด, SSM ๋ถ๊ธฐ๊ฐ โ์๊ฐ์ (์์ฐจ์ ) ํตํฉโ์ ์ด์ ์ ๋๋ค๋ฉด, ์ถ๊ฐ๋ ๋ถ๊ธฐ๋ โ๊ณต๊ฐ์ ํํฐ๋งโ์ ์ํํ๋ ์ ์ ๋๋ค.
์ด ๋ ๊ฒฝ๋ก์ ์ถ๋ ฅ์ Concatenation(์ฑ๋ ์ถ ์ฐ๊ฒฐ)์ผ๋ก ํฉ์ณ์ง๊ณ , ๋ค์ ์ ํ ๊ฒฐํฉ์ ํตํด ์๋ ์ฐจ์์ผ๋ก ํฌ์ฌ(projection)๋ฉ๋๋ค. ์ด๋ ๊ฒ ์ถ๋ ฅ ํผ์ฒ๋ ๋ ๊ฐ์ง ๋ถ๊ธฐ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ๊ฒ ๋๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์์ฐจ ์ฐ๊ฒฐ์ ํตํด ์ ๋ ฅ๊ณผ ๋ํด์ง๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ๋์นญ ๋ถ๊ธฐ ์ค๊ณ๋ฅผ ํตํด SSM์ ์์ฐจ ์ ์ฝ์ผ๋ก ์ธํด ์์ค๋ ์ ์๋ ์ฝํ ์ธ ๋ฅผ ๋ณด์ํ๊ณ , ๋ ๋ถ๊ธฐ์ ์ฅ์ ์ ๋ชจ๋ ์ด๋ฆฐ ํํ์ ์ป์ ์ ์๋ค๊ณ ์ค๋ช ํฉ๋๋ค. ์ค์ํ๊ฒ๋, ์๋ก ์ถ๊ฐ๋ ๋ถ๊ธฐ๋ก ์ธํด ํ๋ผ๋ฏธํฐ ์๊ฐ ํฌ๊ฒ ๋์ง ์๋๋ก ๊ฐ ๋ถ๊ธฐ์ ์ถ๋ ฅ ์ฑ๋์ ์ ๋ฐ์ผ๋ก ์ค์ด๋ ๋ฑ ํฌ๊ธฐ ๊ท ํ๋ ๋ง์ถ์์ต๋๋ค.
์ด MambaVision Mixer ๋ธ๋ก์ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ธ ๊ฒ์ด ๋
ผ๋ฌธ Figure 3์
๋๋ค. ํด๋น ๊ทธ๋ฆผ์๋ SSM ๊ฒฝ๋ก(์ข์ธก, SSM
๋ธ๋ก ๋ฐ ๊ด๋ จ Conv1D)์ ์ ๊ท ๊ฒฝ๋ก(์ฐ์ธก, Conv1D
๋ฐ SiLU)๊ฐ ๋ณ๋ ฌ๋ก ๊ทธ๋ ค์ ธ ์๊ณ , ์ต์ข
Linear๋ก ํฉ์ณ์ง๋ ๋ชจ์ต์ด ๋ฌ์ฌ๋์ด ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก MambaVision Mixer๋ ์์ฐจ์ ์ฒ๋ฆฌ์ ์ฅ์ ๊ณผ ๋ณ๋ ฌ ๊ณต๊ฐ ์ฒ๋ฆฌ์ ์ฅ์ ์ ๋ชจ๋ ํ์ฉํ๋ ์ปค์คํ
ํ ํฐ ๋ฏน์๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด Mixer ๋ธ๋ก ํ๋๋ง ๋๊ณ ๋ด๋ ์๋ณธ Mamba ๋๋น ํฐ ์ฑ๋ฅ ํฅ์์ด ์์๋๋ฐ, ๋
ผ๋ฌธ ๋ถ๋ก์ ๊ณต๊ฐ๋ ์คํ์ ๋ณด๋ฉด:
- ์๋ฌด ์์ ์๋ ์๋ Mamba ํ ํฐ ๋ฏน์๋ ImageNet-1K Top-1 ์ ํ๋ ์ฝ 80.9%, ADE20K ๋ถํ mIoU 44.2 ๋ฑ์ ๊ทธ์ณค์ง๋ง,
- ์ธ๊ณผ ์ปจ๋ณผ๋ฃจ์ ์ ์ผ๋ฐ ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ๊ต์ฒดํ์ ๋ชจ๋ ์งํ๊ฐ ์ํญ ์์นํ๊ณ ,
- ๋์นญ Conv ๋ถ๊ธฐ(Conv2) ์ถ๊ฐ๊น์ง ํ๋๋ Top-1 81.3%, mIoU 45.7%๋ก ํฅ์๋์์ต๋๋ค,
- ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ ๊ฒฐํฉ ๋ฐฉ์์ gating ๋์ concat์ผ๋ก ๋ฐ๊พธ๋ ์ต์ข ์ค๊ณ์์ Top-1 82.3%, mIoU 46.0%๊น์ง ์ฑ๋ฅ์ด ๋์ฝํ์ต๋๋ค.
์ด๋ MambaVision Mixer ์ค๊ณ๊ฐ ๋น์ ์์ ์ ๋งค์ฐ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ ๋ฆฌํ๋ฉด, MambaVision์ ์ฑ๊ณต์ ๋จ์ํ Mamba์ Transformer๋ฅผ ๊ฒฐํฉํ๋ค๋ ๋ฐ ๊ทธ์น๋ ๊ฒ์ด ์๋๋ผ, Mamba ์์ฒด๋ฅผ ๋น์ ์ ์ต์ ํํ์ฌ ์ ๊ทธ๋ ์ด๋ํ ๋๋ถ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์ด Mixer ๋ธ๋ก์ ํตํด ๋ชจ๋ธ์ ์์ฐจ์ ์ฅ๊ธฐ ์์กด์ฑ๊ณผ ๊ณต๊ฐ์ ๊ธ๋ก๋ฒ ๋ฌธ๋งฅ์ ๋ชจ๋ ํฌ์ฐฉํ๋ ๊ฐ๋ ฅํ ํ ํฐ ํผํฉ์ ์ํํ๋ฉฐ, ์ดํ ์ด์ด์ง๋ Transformer ์๊ธฐ์ดํ ์ ์ธต๋ค๊ณผ ์๋์ง๋ฅผ ๋ ๋๋ค. Transformer ๋ธ๋ก์ ํ์ค ๋ฉํฐํค๋ self-attention์ ์ฌ์ฉํ๋, ์๋์ฐ ํฌ๊ธฐ ๋ฑ์ ์ ์ ํ ์กฐ์ ํ์ฌ ๋์ ํด์๋์์๋ ํจ์จ์ ์ผ๋ก ๋์ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ต์ข Stage์ self-attention์ resolution์ด ๋ง์ด ๋ด๋ ค๊ฐ ($7$ ๋ฑ) ์ํ์ด๊ธฐ์ ๋ถ๋ด์ด ํฌ์ง ์๊ณ , ๋์ ์ด๋ฏธ์ง ์ ์ญ์ ์ ๋ณด๋ฅผ ํตํฉํด์ค๋๋ค.
์์ปจ๋ MambaVision ์ํคํ ์ฒ๋ โCNN + ๊ฐ์ ๋ Mamba Mixer + Transformerโ๊ฐ ๋จ๊ณ๋ณ๋ก ๋ฐฐ์น๋ ํํ๋ก, ๊ฐ ๊ตฌ์ฑ์ ์ฅ์ ์ ์ต๋ํ ๋ฐํํ๋๋ก ์ ๊ตํ๊ฒ ์กฐํฉ๋์ด ์์ต๋๋ค. ์ด๊ธฐ Stage์์๋ CNN์ด ๋ก์ปฌ ํจํด์ ํฌ์ฐฉํ๊ณ ๋ค์ด์ํ๋งํ์ฌ ํจ์จ์ฑ ๊ทน๋ํ, ์ค๊ฐ Stage์์๋ MambaVision Mixer๊ฐ ์ค/์ฅ๊ธฐ ์์กด์ฑ์ ๋น ๋ฅด๊ฒ ํตํฉ, ํ๋ฐ Stage์์๋ Transformer ์ดํ ์ ์ด ์ ์ญ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํจ์ผ๋ก์จ, ์ต์ข ์ ์ผ๋ก ๊ณ ์์ถ๋ก ์๋ SOTA๊ธ ์ ํ๋๋ฅผ ๋ด๋ ๋ฐฑ๋ณธ์ ์์ฑํ ๊ฒ์ ๋๋ค.
2.5 ์คํ ๊ฒฐ๊ณผ (Experimental Results)
๋ ผ๋ฌธ์์๋ MambaVision์ ์ฐ์์ฑ์ ์ ์ฆํ๊ธฐ ์ํด ๋ค์ํ ๋น์ ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค. ์ด๋ฏธ์ง ๋ถ๋ฅ(ImageNet-1K)๋ถํฐ ๊ฐ์ฒด ๊ฒ์ถ/๋ถํ (MS COCO), ์ฅ๋ฉด ๋ถํ (ADE20K)์ ์ด๋ฅด๊ธฐ๊น์ง ํญ๋์ ํ๊ฐ์์ ๋์ผ ์ธ๋ ์ต๊ณ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค. ์ฃผ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
2.5.1 ImageNet-1K ๋ถ๋ฅ ์ฑ๋ฅ
ImageNet-1K ๋ฐ์ดํฐ์ ์ ๋ํ Top-1 ๋ถ๋ฅ ์ ํ๋์ ์ถ๋ก ์๋ ๋น๊ต์์, MambaVision ๋ชจ๋ธ๋ค์ ํ ์์ ์ต๊ณ ์ ๊ท ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ปจ๋ MambaVision-B ๋ชจ๋ธ(์ฝ 98M ํ๋ผ๋ฏธํฐ)์ Top-1 ์ ํ๋ 84.2%๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ๋น์ทํ ํฌ๊ธฐ์ ConvNeXt-B(88M param, 83.8%)๋ SwinV2-S/B(50-88M param, 83.8~84.6%) ๋ฑ์ ์์ง๋ ์ต๋๋ค. ๋๋ผ์ด ์ ์ ์ถ๋ก ์๋(์ด๋ฏธ์ง/์ด ๊ธฐ์ค)์์ MambaVision-B๊ฐ 3670 Img/sec๋ก, ConvNeXt-B์ 1485 Img/sec ๋๋น 2๋ฐฐ ์ด์ ๋น ๋ฅด๊ณ Swin๊ณผ ๋น๊ตํ๋ฉด ์๋ฐฐ์ ๋ฌํ๋ ์๋๋ฅผ ๋๋ค๋ ๊ฒ์ ๋๋ค. ์ฆ, MambaVision-B๋ ๋ ์ ํํ๋ฉด์๋ ํจ์ฌ ๋น ๋ฅธ ๋ชจ๋ธ์ธ ์ ์ ๋๋ค. ์์ ๋ชจ๋ธ์์๋ ์ ์ฌํ ์์์ด ๋ํ๋, MambaVision-T(Tiny๊ธ 32M param)์ 82.3% ์ ํ๋๋ก ConvNeXt-T(29M, 82.0%)์ ๊ฑฐ์ ๋๋ฑํ์ง๋ง ์๋๋ 6298 Img/sec๋ก ConvNeXt-T(3196 Img/sec)์ ๋ ๋ฐฐ์ ๋ฌํฉ๋๋ค. ์ด๋ EfficientFormer๋ NextViT ๊ฐ์ ๊ธฐ์กด ํจ์จ ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ์์ง๋ฅด๋ ์์น์ ๋๋ค. ์์ฝํ๋ฉด, MambaVision ์๋ฆฌ์ฆ๋ ๋ชจ๋ธ ํฌ๊ธฐ ์ ๋ฒ์์ ๊ฑธ์ณ ์ต์ ConvNeXt, Swin ๋ฑ์ ์ ํ๋๋ฅผ ๋ฅ๊ฐํ๊ฑฐ๋ ๋๋ฑํ๋ฉด์๋, ์ถ๋ก ์ฒ๋ฆฌ๋์ ์๋ฑํ ๋์ ์๋ก์ด Pareto ํ๋ก ํฐ์ด๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
์ด๋ฌํ ๊ฒฝํฅ์ ํ๋์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ๋ ผ๋ฌธ Figure 1์ ์ ํ๋-์ฒ๋ฆฌ๋ ๋ถํฌ ๊ทธ๋ํ์ ๋๋ค. ํด๋น ๊ทธ๋ํ์์ ์ฐ์ธก์๋จ ๋ฐฉํฅ์ผ๋ก ๋ณผ๋กํ๊ฒ ํ์ฑ๋ ์ต์ ์ ๊ฒฝ๊ณ๊ฐ MambaVision ๋ชจ๋ธ๋ค๋ก, ๊ธฐ์กด EfficientNet, Swin, ViT ๊ณ์ด ๋ฐ ๋ค๋ฅธ Mamba ๊ธฐ๋ฐ ๋ชจ๋ธ(Vim, VMamba ๋ฑ)๋ค์ด ๊ทธ๋ณด๋ค ์๋์ชฝ์ ์์นํฉ๋๋ค. ํนํ ์ด์ ์ Mamba ๊ธฐ๋ฐ ๋น์ ๋ชจ๋ธ๋ค์ด ์ต๊ณ 83%๋ ์ ํ๋์ ๊ทธ์ณค๋ ๊ฒ์ ๋นํด, MambaVision์ ์ด๋ฅผ ์ต๋ ์ฝ 85% ์์ค๊น์ง ๋์ด์ฌ๋ ธ์ต๋๋ค. ๋์์ ๋์ผ ์ ํ๋์์์ ์๋๋ ์๋ฐฐ ํฅ์๋์ด, ์๋ฅผ ๋ค์ด VMamba-B(89M param, 83.9%)๊ฐ 645 Img/sec์ ๋ถ๊ณผํ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ผ๋ก MambaVision-B๋ 3670 Img/sec์ ๋ฌํฉ๋๋ค. ํ ๋ง๋๋ก ๋ ์ ์ ์ฐ์ฐ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ์ ์ป๋ ๋ฐ ์ฑ๊ณตํ ๊ฒ์ ๋๋ค.
๋ํ ์ ์๋ค์ Mamba ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก์๋ ์ต์ด๋ก ImageNet-21K ๊ฑฐ๋ ๋ฐ์ดํฐ์ ์ผ๋ก MambaVision์ ์ฌ์ ํ๋ จํด ๋ณด๋ ์คํ๋ ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ฌ์ ํ๋ จ์ ๊ฑฐ์น MambaVision์ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์๋ฅผ ๋ค์ด MambaVision-B์ Top-1 ์ ํ๋๊ฐ 84.2% -> 84.9%๋ก ์ฌ๋ผ๊ฐ์ต๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์์๋ ์์ ์ ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ, ๋ชจ๋ธ ์ค์ผ์ผ์ ํค์๋ ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์ํจ์ ํ์ธํ ๊ฒ์ ๋๋ค (๋ ผ๋ฌธ์ Figure 4 ๊ทธ๋ํ ์ฐธ๊ณ ). ์ด๋ MambaVision์ด ํ์ฅ์ฑ(scale-up) ์ธก๋ฉด์์๋ ์ ์ฌ๋ ฅ์ด ์์์ ์์ฌํฉ๋๋ค.
2.5.2 ๊ฐ์ฒด ๊ฒ์ถ ๋ฐ ๋ถํ ์ฑ๋ฅ (COCO, ADE20K)
๋ค์์ผ๋ก ๋ค์ด์คํธ๋ฆผ ๋น์ ๊ณผ์ ์ ๋ํ ๋ฐฑ๋ณธ์ผ๋ก์์ ์ฑ๋ฅ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ MS COCO ๋ฐ์ดํฐ์ ์ ๊ฐ์ฒด ๊ฒ์ถ ๋ฐ ์ธ์คํด์ค ๋ถํ ์ Cascade Mask R-CNN ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์คํํ์๊ณ , ADE20K ๋ฐ์ดํฐ์ ์ ์ฅ๋ฉด ๋ถํ ์๋ UPerNet ๋ชจ๋ธ๋ก ์คํํ์์ต๋๋ค. ๋ชจ๋ ๊ฒฝ์ฐ์์ ๋์ผํ ์กฐ๊ฑด(๋์ผ ํค๋์ ํ์ต ์ค์ผ์ค) ํ์ ๋ฐฑ๋ณธ๋ง ๊ต์ฒดํ์ฌ ๋น๊ตํ๋๋ฐ, MambaVision ๋ฐฑ๋ณธ์ด ๋ค์ด๊ฐ ๋ชจ๋ธ์ด ์ผ๊ด๋๊ฒ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
COCO ๊ฒ์ถ/๋ถํ : MambaVision-T/S/B ๊ฐ๊ฐ์ ๋ฐฑ๋ณธ์ผ๋ก ์ผ์ ๋ ๋ฐ์ค mAP ๋ฐ ๋ง์คํฌ mAP ์งํ๊ฐ, ConvNeXt-T/S/B ๋๋น +0.1~+0.7 ์ ๋์ฉ ๋๊ฒ ๋ํ๋ฌ์ต๋๋ค. ์๋ฅผ ๋ค์ด, MambaVision-B ๋ฐฑ๋ณธ์ ๋ฐ์ค AP 52.8 / ๋ง์คํฌ AP 45.7์ ๊ธฐ๋กํ์ฌ ConvNeXt-B ๋ฐฑ๋ณธ(52.7 / 45.6)๋ณด๋ค ์ฝ๊ฐ ๋๊ณ , Swin-B ๋ฐฑ๋ณธ(51.9 / 45.0)๋ณด๋ค๋ ๋ฐ์ค AP +0.9, ๋ง์คํฌ +0.7 ์ ๋ ๊ฐ์ ๋์์ต๋๋ค. ํฅ์ ํญ์ด ์์ฃผ ํฌ์ง๋ ์์ง๋ง ์ผ๊ด๋๊ฒ ์ฐ์ธํ๋ฉฐ, ํ๋ผ๋ฏธํฐ๋ FLOPs ๋ฑ์ด ๋น์ทํ ์กฐ๊ฑด์์ ์ป์ ๊ฐ์ ์ด๋ผ ์๋ฏธ๊ฐ ์์ต๋๋ค. ๋ฌด์๋ณด๋ค, ์ฒ๋ฆฌ ์๋๋ฅผ ๋์ด๋ฉด์๋ ์ ํ๋ ์์ค์ด ์๋ค๋ ๊ฒ์ด ์ค์ํ๋ฐ, MambaVision ๋ฐฑ๋ณธ์ ์ฌ์ฉํ๋ฉด ๋์ผ ํ๋ ์์ํฌ์์ ์ถ๋ก FPS๋ ์ฌ๋ผ๊ฐ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ฏ๋ก ์ค์ฉ์ ์ ๋๋ค.
ADE20K ๋ถํ : Semantic segmentation ์์ ์์๋ mIoU ์งํ ์์ ๊ฐ์ ์ด ํ์ธ๋์์ต๋๋ค. MambaVision-T, S, B ๋ฐฑ๋ณธ์ ๊ฐ๊ฐ 46.0, 48.2, 49.1% mIoU๋ฅผ ๊ธฐ๋กํ๋๋ฐ, ์ด๋ ๋์๋๋ Swin-T/S/B ๋ฐฑ๋ณธ ์ฌ์ฉ ๋๋น +1.5, +0.6, +1.0% ํฅ์๋ ์์น์ ๋๋ค. ConvNeXt ๊ณ์ด๊ณผ ๋น๊ตํด์๋ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ MambaVision-B์ 49.1% mIoU๋ ๋๊ธ ๋ฐฑ๋ณธ ์ค ์ต๊ณ ์์ค์ผ๋ก, ๊ธฐ์กด Focal Transformer-B(49.0%)๋ Twins-L(48.8%) ๋ฑ์ ๊ทผ์ํ๊ฒ ์์ง๋ ์ต๋๋ค. ์ด๋ฌํ ์ด๋๋ค์ ํน๋ณํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด ๊ธฐ๋ณธ ์ค์ ์ผ๋ก ์ป์ ๊ฒ์ด์ด์ ๋์ฑ ๊ณ ๋ฌด์ ์ ๋๋ค. ์ฆ, MambaVision์ ๋ถ๋ฅ๋ฟ ์๋๋ผ ๊ฒ์ถ/๋ถํ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์๋ ๋ฒ์ฉ์ ์ผ๋ก ๊ฐํ ๋ฐฑ๋ณธ์์ ๋ณด์ฌ์ค๋๋ค.
์ ๋ฐ์ ์ผ๋ก ์คํ ๊ฒฐ๊ณผ๋ค์ MambaVision์ ํจ์จ์ ์ค๊ณ๊ฐ ๋ค์ํ ๋น์ ์์ ์ ์ฑ๋ฅ์ ํฅ์์ํด์ ์ ์ฆํฉ๋๋ค. ํนํ ์ถ๋ก ์๋ ํฅ์๊ณผ ์ ํ๋ ํฅ์์ด ๋์์ ์ด๋ฃจ์ด์ก๋ค๋ ์ ์์, ๋จ์ํ ์ ํ๋ ์น๋ถ๋ฅผ ๋์ด ์ค์ ์ ์ฉ ํจ์จ๊น์ง ๊ณ ๋ คํ ํฐ ์ง์ ์ด๋ผ ํ๊ฐํ ๋งํฉ๋๋ค.
2.6 ๋ถ์ ๋ฐ ๋ ผ์ (Analysis and Discussion)
MambaVision์ ์ฑ๊ณต ์์ธ์ ์กฐ๊ธ ๋ ๊น์ด ๋ค์ฌ๋ค๋ณด๊ณ , ๊ทธ ์๋ฏธ๋ฅผ ๋ถ์ํด๋ณด๊ฒ ์ต๋๋ค. ์ด ๋ชจ๋ธ์ด ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ โํ์ด๋ธ๋ฆฌ๋ ๋ฐฑ๋ณธโ ์ ๊ทผ์ด ์ผ๋ง๋ ๊ฐ๋ ฅํ ์ ์๋์ง์ ๋๋ค. MambaVision์ Transformer๋ฅ ๋ชจ๋ธ์ ์ธ๊ณ์ SSM(Recurrent) ๋ชจ๋ธ์ ์ธ๊ณ๋ฅผ ์ ๋ฌํ๊ฒ ๊ฒฐํฉํจ์ผ๋ก์จ, ์์ชฝ์ ์ฅ์ ์ ์ทจํ๊ณ ๋จ์ ์ ๋ณด์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด Conv-Transformer ํ์ด๋ธ๋ฆฌ๋(์: CoAtNet ๋ฑ) ์์ค์ ๋ฐ์ด๋๋ ์๋ก์ด SOTA ๋ฌ์ฑ์ด ๊ฐ๋ฅํ์ต๋๋ค.
๋จผ์ , MambaVision Mixer ๋ธ๋ก์ ๋์ ์ Mamba ๊ตฌ์กฐ์ ํ๊ณ์๋ ๊ณต๊ฐ์ ๋งฅ๋ฝ ํ์ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ์ต๋๋ค. SSM๋ง์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ฌธ์ ๊ฐ ๋์๋ ํ ๋ฐฉํฅ ์ ์ฝ์ ์์ ๊ณ , ๋ณ๋ ๋ถ๊ธฐ๋ฅผ ํตํด ๋ณ๋ ฌ์ ์ธ ๊ณต๊ฐ ํน์ง ์ถ์ถ์ ํจ์ผ๋ก์จ ๊ธ๋ก๋ฒ ์ปจํ ์คํธ๋ฅผ ํ๋ณดํ ๊ฒ์ด ์ฃผํจํ์ต๋๋ค. ์ค์ ablation ์ฐ๊ตฌ์์๋, ๊ธฐ์กด Mamba ๋๋น ์ ์ํ ๋ณํ(์ธ๊ณผ ์ปจ๋ธ ์ ๊ฑฐ, ๋์นญ ๋ถ๊ธฐ ์ถ๊ฐ, concat ํตํฉ)๋ฅผ ํ๋์ฉ ์ ์ฉํ ๋๋ง๋ค ImageNet, COCO, ADE20K ์งํ๊ฐ ๋ชจ๋ ์์นํ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก concat ๋ฐฉ์ ํตํฉ์ด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋๋ฐ, ์ด๋ ๋ ๋ถ๊ธฐ ์ถ๋ ฅ์ ์ ํ ๊ฒฐํฉํ์ฌ ์ตํฉํ๋ ๊ฒ์ด gating ๋ฑ๋ณด๋ค ํจ๊ณผ์ ์์ ์๋ฏธํฉ๋๋ค. ์ด ๋๋ถ์ ๋ชจ๋ธ์ ์์ฐจ์ ํน์ง๊ณผ ๊ณต๊ฐ์ ํน์ง์ โํ๋ถํ ํํโ์ ์ป๊ฒ ๋์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ ๊ฒฝ์๋ ฅ ์๋ ํํ ํ์ต์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
๋์งธ, Transformer ์๊ธฐ์ดํ ์ ์ ํตํฉ ์์น์ ๋ํ ์ ์๋ค์ ์ ๋ต์ด ์ณ์๋ค๋ ์ ์ ๋๋ค. ์ด๊ธฐ์๋ โ๊ณผ์ฐ Mamba์ Transformer ๋ธ๋ก์ ์ด๋ป๊ฒ ์๋ ๊ฒ์ด ์ต์ ์ผ๊น?โ ํ๋ ์๋ฌธ์ด ์์๋๋ฐ, ๋ ผ๋ฌธ์์๋ ๋ค์ํ ๋ฐฐ์น ํจํด์ ์คํํ์ต๋๋ค. ์ผ๋ถ ๋ ์ด์ด์๋ง ๋๋คํ๊ฒ Transformer๋ฅผ ๋ฃ์ด๋ณด๊ธฐ๋ ํ๊ณ , Stage ์๋ถ๋ถ์ ์ง์ค ๋ฐฐ์นํ๊ฑฐ๋ ๊ต์ฐจ ๋ฐฐ์นํ๋ ๋ฑ ์๋๋ฅผ ํ์ง๋ง ๋๋ถ๋ถ ์ต์ ์ด ์๋์์ต๋๋ค. Transformer ๋ธ๋ก์ ๋๋ฌด ์ด๋ฅธ ๋จ๊ณ(ํด์๋๊ฐ ๋์ ๋)์ ๋ฃ์ผ๋ฉด ์ฐ์ฐ๋์ด ์ปค์ ธ ๋นํจ์จ์ ์ผ ๋ฟ ์๋๋ผ ์ฑ๋ฅ ์ด๋๋ ํฌ์ง ์์์ต๋๋ค. ๊ต์ฐจ๋ก ๋ฒ๊ฐ์ ๋ฐฐ์นํ๋ ํจํด์ ์๋ก ๋ค๋ฅธ ํ ํฐ ๋ฏน์๊ฐ ์ํธ ๊ฐ์ญ์ด ์๊ฒจ ์ฑ๋ฅ์ด ๋จ์ด์ก์ต๋๋ค. ๋ฐ๋ฉด, ๋ง์ง๋ง ๋ช ๊ฐ ๋ ์ด์ด์ ์ฐ์ ๋ฐฐ์นํ๋ ํจํด์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ด์๋๋ฐ, ํนํ ๊ฐ Stage์ ์ตํ๋ฐ ์ ๋ฐ์ Transformer๋ก ํ ์ ํ์ ๋ ์ฑ๋ฅ์ด ์ต๊ณ ๋ก ๋ํ๋ฌ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Self-Attention์ Stage ํ๋ฐ N/2 ๋ ์ด์ด์๋ง ์ ์ฉํ ์ต์ข ์ค๊ณ๋ Top-1 ์ ํ๋ 82.3%๋ก, ๋ค๋ฅธ ํจํด๋ณด๋ค 0.5~1% ๊ฐ๋ ๋์์ต๋๋ค. ์ด๋ โ์๊ธฐ์ดํ ์ ์ ๋ง์ง๋ง์ ๋ชฐ์์ ์ฐ๋ ๊ฒ์ด ์ข๋คโ๋ ๋ ผ๋ฌธ์ ๊ฐ์ค๊ณผ ์ผ์นํ๋ ๊ฒฐ๊ณผ๋ก, ๊ฒฐ๊ตญ ํ์ฌ MambaVision์ ๊ตฌ์กฐ๋ก ์ฑํ๋์์ต๋๋ค. ์ด๋ก์จ ๋ชจ๋ธ์ SSM์ ํจ์จ๊ณผ ์ดํ ์ ์ ์ ์ญ์ฑ์ ๊ท ํ ์๊ฒ ํ๋ํ ๊ฒ์ ๋๋ค.
ํ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ๋ถ์์ MambaVision์ Self-Attention ๋ ์ด์ด๋ค์ด ์ค์ ๋ก ๋ฌด์์ ํ์ตํ์๋๊ฐ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ต์ข Transformer ๋ธ๋ก๋ค์ ์ดํ ์ ๋งต์ ์๊ฐํํ์ฌ, ์ด๋ค์ด ์๋ฏธ๋ก ์ ์ผ๋ก ์ค์ํ ์์ญ์ ์ง์คํ๊ณ ์์์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋นํ๊ธฐ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์ดํ ์ ํค๋๊ฐ ๋นํ๊ธฐ ์ ์ฒด ์ค๊ณฝ์ ํญ๋๊ฒ ํ์ฑํ๋์ด ๋์ ์ ์ฒด ํํ๋ฅผ ํฌ์ฐฉํ๊ณ , ์(bird) ์ด๋ฏธ์ง์์๋ ํ ํค๋๊ฐ ์์ ๋จธ๋ฆฌ์ ๊ผฌ๋ฆฌ ๋ฑ ๋ ํนํ ๋ถ๋ถ์ ์ง์ค์ ์ผ๋ก ๋ฐ๋ผ๋ณด๋ ๋ฑ ์ธ๋ฐํ ๋ถ๋ถ๊น์ง ๊ตฌ๋ถํ์ต๋๋ค. ์ฌ๋ ์ด๋ฏธ์ง์์๋ ์์ ๋ ๋ฌผ์ฒด์ ์ผ๊ตด ๋ฑ ์ํธ ์์ฉํ๋ ๋ ์์๋ฅผ ๋ชจ๋ ๊ฐ์กฐํ์ฌ, ์ฅ๋ฉด ๋ด ์์๋ค ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ๊ณ ์์์ ๋ณด์ฌ์คฌ์ต๋๋ค. ์ด๋ฌํ ์๊ฐ์ ํด์์, MambaVision์ ์๊ธฐ์ดํ ์ ์ด ๋จ์ํ ํ์์ ์ผ๋ก ์ถ๊ฐ๋ ๊ฒ์ด ์๋๋ผ ์ค์ ๋ก ๊ธ๋ก๋ฒ ์์กด์ฑ๊ณผ ์๋ฏธ ์๋ ํน์ง๋ค์ ํ์ตํ๊ณ ์์์ ๋ท๋ฐ์นจํฉ๋๋ค. ๋ฌ๋ฆฌ ๋งํด, ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ์ ์๋์ง๊ฐ ๋ด๋ถ ํํ์์๋ ํ์ธ๋ ๊ฒ์ ๋๋ค.
๋ฌผ๋ก MambaVision์๋ ๋ช ๊ฐ์ง ๊ณ ๋ คํ ์ ์ด ์์ต๋๋ค. ์ฒซ์งธ, Transformer ๋ธ๋ก์ ์ถ๊ฐ๋ก ์์ Mamba ๋ชจ๋ธ์ ๋นํด์๋ ๊ตฌ์กฐ๊ฐ ๋ค์ ๋ณต์กํด์ก๊ณ , SSM๊ณผ ์ดํ ์ ๋ชจ๋๋ฅผ ๊ตฌํํด์ผ ํ๋ฏ๋ก ๊ตฌํ์์ ๋ถ๋ด์ด ์์ต๋๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์์ ๊ณต๊ฐํ ์ฝ๋์ PyTorch ๊ตฌํ์ด ์ด๋ฅผ ์ ์ถ์ํํ๊ณ ์์ด ์ค์ฉ์ ์ฌ์ฉ์๋ ํฐ ์ง์ฅ์ด ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ํ MambaVision์ด ๋ฐ์ด๋ ์ฒ๋ฆฌ๋์ ๋ณด์ด๊ธด ํ์ง๋ง, ์ฌ๊ธฐ์๋ NVIDIA A100 GPU์์์ ์ต์ ํ๊ฐ ์์ฉํ ๋ฉด์ด ์์ต๋๋ค. ์ค์ ์๋ฒ ๋๋ ํ๊ฒฝ ๋ฑ์์ SSM ์ฐ์ฐ์ด ์ต์ ํ๋์ง ์์ผ๋ฉด ์ด๋ก ์ ์ธ ์ด์ ์ด ๋ชจ๋ ๋ํ๋์ง ์์ ์ ์์ผ๋ฏ๋ก, ํ๋ซํผ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํธ์ฐจ๋ ์ถํ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋์ผํ ํ๋์จ์ด ์กฐ๊ฑด์์ Transformer๋ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋น ๋ฅด๋ค๋ ์ ์ ๋งค์ฐ ๊ณ ๋ฌด์ ์ ๋๋ค.
๋ ํ๋, MambaVision์ ์ ํ๋ ํฅ์ ํญ์ EfficientNet์์ ViT๋ก ๊ฐ ๋์ฒ๋ผ ํ๊ฒฉ์ ์ด์ง ์์ง๋ง, ํจ์จ ํฅ์๊ณผ ๋๋ฐ๋์๋ค๋ ์ ์ ๊ธฐ์ตํด์ผ ํฉ๋๋ค. ์์ปจ๋ ConvNeXt-B ๋๋น +0.4%p ์ ํ๋ ์์น์ ์ผํ ์์ ๋ณด์ผ ์ ์์ผ๋, ์๋๋ฅผ 2๋ฐฐ ์ด์ ๋ด๋ฉด์ ์ด๋ค๋ธ ์ฑ๊ณผ์ ๋๋ค. ์ค์ ๋๊ท๋ชจ ์๋น์ค๋ ์์ฉ์์๋ ์ฒ๋ฆฌ ๋น์ฉ ์ ๊ฐ์ด ๊ณง ์ฑ๋ฅ๋งํผ ์ค์ํ๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ trade-off ๊ฐ์ ์ ์ค์ง์ ์ธ ๊ฐ์น๊ฐ ํฝ๋๋ค. ๋ ๋์๊ฐ, MambaVision์ ํฌ๊ธฐ ํ์ฅ์ ํตํด ์ํ์ ์ ๋๋ฌํ์ง ์๊ณ ๋ ๊ฐ์ ๋ ์ฌ์ง๋ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค (L, L2 ๋ชจ๋ธ์์ 85%+ ์ ํ๋ ๋ฌ์ฑ). ๋ฐ๋ผ์ ์ถ๊ฐ ๋ฐ์ดํฐ๋ ๋ชจ๋ธ ํ์ฅ์ ํตํด ํฅํ 86~87%๋๊น์ง๋ ๋ ธ๋ ค๋ณผ ์ ์์ ๊ฒ์ ๋๋ค.
ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ ์์ฌ์ : MambaVision์ ๋ฑ์ฅ์ ํฅํ ๋น์ ๋ชจ๋ธ ์ค๊ณ์ ๋ช ๊ฐ์ง ๊ตํ์ ์ค๋๋ค. ํ๋๋, ์ด์ง์ ์ธ ๋ชจ๋ธ ํจ๋ฌ๋ค์์ ๊ฒฐํฉ์ด ์๊ฐไปฅไธ์ ์๋์ง๋ฅผ ๋ผ ์ ์๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋์ Conv์ Transformer์ ๊ฒฐํฉ์ ๋ง์ด ์๋๋์ง๋ง, ์ํ์ค ๋ชจ๋ธ(SSM)๊ณผ Transformer์ ๊ฒฐํฉ์ ์ ์์ญ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ฅผ ํตํด SSM ๊ณ์ด๋ ์ถฉ๋ถํ vision-friendlyํ๊ฒ ๊ฐ์กฐ ๊ฐ๋ฅํ๊ณ , Transformer์ ์ํธ๋ณด์์ ์ผ๋ก ์๋ํ ์ ์์์ด ์ฆ๋ช ๋์์ต๋๋ค. ์ด๋ ์์ผ๋ก ๋ค๋ฅธ SSM ๋ณ์ข (์: S4, Linear RNN ๋ฑ)๊ณผ Transformer๋ฅผ ๊ฒฐํฉํ๊ฑฐ๋, ๋ ๋์๊ฐ CNN+SSM+Transformer ์ผ์ ํผํฉ ๊ตฌ์กฐ๋ฅผ ํ์ํ๋ ๋ฑ ์๋ก์ด ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ ์ฐ๊ตฌ์ ๊ฐ๋ฅ์ฑ์ ์ฝ๋๋ค. ๋ํ MambaVision์ ๊ณ ํด์๋ ์ ๋ ฅ ์ฒ๋ฆฌ์์ CNN ์ฌ์ฉ, ์ ํด์๋์์๋ SSM/์ดํ ์ ์ฌ์ฉ์ด๋ผ๋ ์ค๊ณ๋ฅผ ์ทจํ๋๋ฐ, ์ด๋ โ์ด๋ค ํด์๋ ๋ ๋ฒจ์์ ์ด๋ค ํ ํฐ ๋ฏน์๋ฅผ ์ฐ๋ ๊ฒ ์ต์ ์ธ๊ฐโ์ ๋ํ ํ๋์ ํด๋ต์ ๋๋ค. ํฅํ ๋ชจ๋ธ๋ค์ ํด์๋ ๋จ๊ณ๋ณ๋ก Conv, SSM, Attention์ ์ ์ ํ ๋ฐฐ์นํ๋ ๋คํธ์ํฌ ๊ฒ์์ ํตํด ๋์ฑ ๋ฐ์ ํ ์ ์์ ๊ฒ์ ๋๋ค.
2.7 ๊ฒฐ๋ก (Conclusion)
MambaVision์ Mamba(SSM)์ Transformer๋ฅผ ๊ฒฐํฉํ ์ต์ด์ ํ์ด๋ธ๋ฆฌ๋ ๋น์ ๋ฐฑ๋ณธ์ผ๋ก์, ํจ์จ๊ณผ ์ฑ๋ฅ์ ์ ๊ธฐ์ค์ ์ธ์ ์ต๋๋ค. ์ด ๋ชจ๋ธ์ Mamba์ ๊ณต์์ ๋น์ ๋๋ฉ์ธ์ ๋ง๊ฒ ์ฌ์ค๊ณํ๊ณ , ์ต์ ์ ๋ฐฉ์์ผ๋ก Transformer ๋ธ๋ก์ ํตํฉํจ์ผ๋ก์จ ์ ์ญ ๋ฌธ๋งฅ ํํ ํ์ต ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ImageNet-1K ๋ถ๋ฅ์์ Top-1 ์ ํ๋์ ์ฒ๋ฆฌ๋ ์ธก๋ฉด์ ์๋ก์ด SOTA Pareto ํ๋ก ํฐ์ด๋ฅผ ๋ฌ์ฑํ๊ณ , ๋ค์ํ ๋น์ ๊ณผ์ (๋ถ๋ฅ, ๊ฒ์ถ, ๋ถํ )์์ ๋๊ธ ๋ชจ๋ธ ๋๋น ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ํนํ ์ต์ข ๋จ๊ณ์ ์๊ธฐ์ดํ ์ ์ ๋ฐฐ์นํ๋ ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๋ฉด์๋ ํจ์จ์ ์ ์งํ ์ ์์์ ๋ณด์๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณผ ํฐ ๋ชจ๋ธ์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ด๋ฉฐ ๋๊ท๋ชจ ๋น์ ์์ฉ ๊ฐ๋ฅ์ฑ๋ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
MambaVision์ ์ฑ๊ณต์ ๊ธฐ์กด์ Mamba ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ฉด์ ๊ทธ ์ฅ์ ์ ์ด๋ฆฐ ํ๋ฅญํ ์ฌ๋ก๋ก, ๋ฏธ๋์ ๋น์ ๋ฐฑ๋ณธ ์ค๊ณ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ์ด์ ์ฐ๊ตฌ์๋ค์ ํ์ด๋ธ๋ฆฌ๋ ํ ๋ ์์์ ๋ ๋ค์ํ ์กฐํฉ๊ณผ ๋ณํ์ ์๋ํด๋ณผ ์ ์๊ฒ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, MambaVision์ ํ ๋๋ก ํฌ๋ก์ค๋ชจ๋ฌ(Vision+Language) ๋ชจ๋ธ์ด๋ ๋น๋์ค ์ฒ๋ฆฌ๋ก ํ์ฅํ๋ ์ฐ๊ตฌ, ๋๋ SSM ๋์ ๋ค๋ฅธ ํจ์จ ์ํ์ค ๋ชจ๋๊ณผ์ ๊ฒฐํฉ ๋ฑ์ด ๊ธฐ๋๋ฉ๋๋ค. ๊ฒฐ๊ตญ ์ค์ํ ๊ฒ์ ์ฅ์ ์ ๊ทน๋ํํ๊ณ ๋จ์ ์ ๋ณด์ํ๋ ๊ท ํ ์กํ ์ค๊ณ์ด๋ฉฐ, MambaVision์ด ๊ทธ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ๋งํผ ์์ผ๋ก ์ด์ข ๋ชจ๋ธ ์ตํฉ์ ํตํ ์๋ก์ด ํด๋์ค์ ๋น์ ๋ชจ๋ธ๋ค์ด ์์ ๋ฑ์ฅํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. MambaVision ์์ฒด๋ ํฅํ ์ค์๊ฐ ์๋น์ค๋ ๊ฒฝ๋ํ ์ฐ๊ตฌ ๋ฑ์ผ๋ก ๋ฐ์ ํ๋ฉด์, ๋ณด๋ค ๋์ ๋ฒ์์ ๋น์ ์์ฉ์ ์ํ ๋ ๋ ํ ๊ธฐ๋ฐ์ด ๋ ๊ฒ์ผ๋ก ์ ๋ง๋ฉ๋๋ค.