Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
    • 1.1 +
  • 2 Detail Review
    • 2.1 ์†Œ๊ฐœ (Introduction)
    • 2.2 ๋ฐฐ๊ฒฝ (Background)
      • 2.2.1 Transformer์™€ ๋น„์ „ ๋ชจ๋ธ
      • 2.2.2 Mamba์™€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)
    • 2.3 MambaVision์ด๋ž€? (What Is MambaVision?)
    • 2.4 ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ (Architecture Details)
      • 2.4.1 MambaVision Mixer ๋ธ”๋ก ์„ค๊ณ„
    • 2.5 ์‹คํ—˜ ๊ฒฐ๊ณผ (Experimental Results)
      • 2.5.1 ImageNet-1K ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ
      • 2.5.2 ๊ฐ์ฒด ๊ฒ€์ถœ ๋ฐ ๋ถ„ํ•  ์„ฑ๋Šฅ (COCO, ADE20K)
    • 2.6 ๋ถ„์„ ๋ฐ ๋…ผ์˜ (Analysis and Discussion)
    • 2.7 ๊ฒฐ๋ก  (Conclusion)

๐Ÿ“ƒMambaVision ๋ฆฌ๋ทฐ

mamba
transformer
vision
A Hybrid Mamba-Transformer Vision Backbone
Published

July 19, 2025

  • Paper Link
  • Github Link
  1. โœจ MambaVision์€ ๋น„์ „ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด Mamba์™€ Transformer์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฑ๋ณธ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  2. ๐Ÿง ์ด ๋ชจ๋ธ์€ ๋น„์ „ ์ž‘์—…์— ๋งž๊ฒŒ Mamba ๋ธ”๋ก์„ ์žฌ์„ค๊ณ„ํ•˜๊ณ , ํŠนํžˆ ๋งˆ์ง€๋ง‰ ๊ณ„์ธต์— self-attention ๋ธ”๋ก์„ ์ „๋žต์ ์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„ ์˜์กด์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ MambaVision์€ ImageNet-1K ๋ถ„๋ฅ˜์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, MS COCO ๋ฐ ADE20K ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ์ฒด ๊ฐ์ง€ ๋ฐ ๋ถ„ํ• ๊ณผ ๊ฐ™์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

1 Brief Review

MambaVision์€ ์‹œ๊ฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋œ ์ƒˆ๋กœ์šด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ Mamba-Transformer ๋ฐฑ๋ณธ์ž…๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ์‹œ๊ฐ ํŠน์ง•์˜ ํšจ์œจ์ ์ธ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด Mamba ๊ณต์‹์„ ์žฌ์„ค๊ณ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํฌ๊ด„์ ์ธ ablation ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด Vision Transformers (ViT)๋ฅผ Mamba์™€ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, Mamba ์•„ํ‚คํ…์ฒ˜์˜ ์ตœ์ข… ๋ ˆ์ด์–ด์— Self-Attention ๋ธ”๋ก์„ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„ ์˜์กด์„ฑ(long-range spatial dependencies)์„ ํฌ์ฐฉํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋‹ค์–‘ํ•œ ์„ค๊ณ„ ๊ธฐ์ค€์„ ์ถฉ์กฑ์‹œํ‚ค๋Š” ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐ€์ง„ MambaVision ๋ชจ๋ธ๊ตฐ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

1. ์ฃผ์š” ๊ธฐ์—ฌ

  • ์‹œ๊ฐ ์นœํ™”์ ์ธ Mamba ๋ธ”๋ก ์žฌ์„ค๊ณ„: ์›๋ณธ Mamba ์•„ํ‚คํ…์ฒ˜ ๋Œ€๋น„ ์ •ํ™•๋„์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋Ÿ‰(throughput)์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • Mamba์™€ Transformer ๋ธ”๋ก์˜ ํ†ตํ•ฉ ํŒจํ„ด ์ฒด๊ณ„์  ์กฐ์‚ฌ: ์ตœ์ข… ๋‹จ๊ณ„์— Self-Attention ๋ธ”๋ก์„ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์ด ๋ชจ๋ธ์˜ ์ „์—ญ์  ๋งฅ๋ฝ(global context) ๋ฐ ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„ ์˜์กด์„ฑ ํฌ์ฐฉ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ƒˆ๋กœ์šด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ Mamba-Transformer ๋ชจ๋ธ MambaVision ๋„์ž…: ImageNet-1K ๋ฐ์ดํ„ฐ์…‹์—์„œ Top-1 ์ •ํ™•๋„์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ธก๋ฉด์—์„œ ์ƒˆ๋กœ์šด SOTA Pareto frontier๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ๋ฐฉ๋ฒ•๋ก 

2.1. ๋งคํฌ๋กœ ์•„ํ‚คํ…์ฒ˜

MambaVision์€ 4๊ฐœ์˜ ๋‹ค๋ฅธ ์Šคํ…Œ์ด์ง€๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ดˆ๊ธฐ ๋‘ ์Šคํ…Œ์ด์ง€ (Stage 1, 2): ๊ณ ํ•ด์ƒ๋„ ํŠน์ง•์˜ ๋น ๋ฅธ ์ถ”์ถœ์„ ์œ„ํ•ด CNN ๊ธฐ๋ฐ˜ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Stem์€ 3x3 CNN ๋ ˆ์ด์–ด ๋‘ ๊ฐœ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ŠคํŠธ๋ผ์ด๋“œ(stride) 2๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์˜ค๋ฒ„๋žฉ ํŒจ์น˜(overlapping patches)๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  ์ฑ„๋„ C์˜ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ํ•ฉ๋‹ˆ๋‹ค. ์Šคํ…Œ์ด์ง€ ์‚ฌ์ด์˜ Downsampler๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2์˜ 3x3 CNN ๋ ˆ์ด์–ด๋กœ ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„๋ฅผ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค. CNN ๋ธ”๋ก์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ผ๋ฐ˜์ ์ธ ์ž”์ฐจ ๋ธ”๋ก(residual block) ๊ณต์‹์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค: \hat{z} = \text{GELU}(\text{BN}(\text{Conv3x3}(z))) z = \text{BN}(\text{Conv3x3}(\hat{z})) + z
    • ์—ฌ๊ธฐ์„œ GELU๋Š” Gaussian Error Linear Unit ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ, BN์€ Batch Normalization์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ํ›„๊ธฐ ๋‘ ์Šคํ…Œ์ด์ง€ (Stage 3, 4): ์ œ์•ˆ๋œ MambaVision ๋ฐ Transformer ๋ธ”๋ก์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. N๊ฐœ์˜ ๋ ˆ์ด์–ด๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, ์ฒซ N/2๊ฐœ์˜ ๋ ˆ์ด์–ด๋Š” MambaVision ๋ฏน์„œ ๋ธ”๋ก์„ ์‚ฌ์šฉํ•˜๊ณ , ๋‚˜๋จธ์ง€ N/2๊ฐœ์˜ ๋ ˆ์ด์–ด๋Š” Self-Attention ๋ธ”๋ก์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, Transformer ๋ธ”๋ก์„ ์ตœ์ข… ์Šคํ…Œ์ด์ง€์— ๋ฐฐ์น˜ํ•จ์œผ๋กœ์จ ์†์‹ค๋œ ์ „์—ญ์  ๋งฅ๋ฝ์„ ๋ณต๊ตฌํ•˜๊ณ  ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„ ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

2.2. ๋งˆ์ดํฌ๋กœ ์•„ํ‚คํ…์ฒ˜

2.2.1. Mamba ๊ธฐ์ดˆ

Mamba์—์„œ 1D ์—ฐ์† ์ž…๋ ฅ x(t) \in \mathbb{R}๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์€๋‹‰ ์ƒํƒœ h(t) \in \mathbb{R}^M์™€ ๋งค๊ฐœ๋ณ€์ˆ˜ A \in \mathbb{R}^{M \times M}, B \in \mathbb{R}^{M \times 1}, C \in \mathbb{R}^{1 \times M}๋ฅผ ํ†ตํ•ด y(t) \in \mathbb{R}๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค: h'(t) = Ah(t) + Bx(t) y(t) = Ch(t) ์ด ์—ฐ์† ๋งค๊ฐœ๋ณ€์ˆ˜๋“ค์€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ด์‚ฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์‹œ๊ฐ„ ์Šค์ผ€์ผ \Delta๋ฅผ ๊ฐ€์ •ํ•œ ์˜์ฐจ ๋ณด๋ฅ˜(zero-order hold) ๊ทœ์น™์ด ์ ์šฉ๋˜์–ด ์ด์‚ฐ ๋งค๊ฐœ๋ณ€์ˆ˜ \bar{A} \in \mathbb{R}^{M \times M}, \bar{B} \in \mathbb{R}^{M \times 1}, \bar{C} \in \mathbb{R}^{1 \times M}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค: \bar{A} = \exp(\Delta A) \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot (\Delta B) \bar{C} = C ์ด์‚ฐ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: h(t) = \bar{A}h(t-1) + \bar{B}x(t) y(t) = \bar{C}h(t) ๋˜ํ•œ, ์‹œํ€€์Šค ๊ธธ์ด T๋ฅผ ๊ฐ€์ง„ ์ž…๋ ฅ ์‹œํ€€์Šค์— ๋Œ€ํ•ด, ์ปค๋„(kernel) K๋ฅผ ๊ฐ€์ง„ ์ „์—ญ ์ปจ๋ณผ๋ฃจ์…˜(global convolution)์ด Eq. 4์˜ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค: K = (CB, CAB, ..., CA^{T-1}B) y = x * K Mamba๋Š” S4 ๊ณต์‹์„ ํ™•์žฅํ•˜์—ฌ ์„ ํƒ์„ฑ(Selectivity) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜๋Š”๋ฐ, ์ด๋Š” ์ž…๋ ฅ์— ์˜์กดํ•˜๋Š” ์‹œํ€€์Šค ์ฒ˜๋ฆฌ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ B, C, \Delta๊ฐ€ ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์กฐ์ •๋˜๊ณ  ๊ด€๋ จ ์—†๋Š” ์ •๋ณด๋ฅผ ํ•„ํ„ฐ๋งํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

2.2.2. ๋ ˆ์ด์–ด ์•„ํ‚คํ…์ฒ˜

์ž…๋ ฅ X \in \mathbb{R}^{T \times C}์— ๋Œ€ํ•ด, Stage 3๊ณผ 4์˜ ๋ ˆ์ด์–ด n์˜ ์ถœ๋ ฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค: \hat{X}_n = \text{Mixer}(\text{Norm}(X_{n-1})) + X_{n-1} X_n = \text{MLP}(\text{Norm}(\hat{X}_n)) + \hat{X}_n ์—ฌ๊ธฐ์„œ Norm์€ Layer Normalization์„, Mixer๋Š” ํ† ํฐ ๋ฏน์‹ฑ ๋ธ”๋ก(token mixing block)์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. N๊ฐœ์˜ ๋ ˆ์ด์–ด๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ฒซ N/2๊ฐœ์˜ ๋ ˆ์ด์–ด๋Š” MambaVision Mixer ๋ธ”๋ก์„ ์‚ฌ์šฉํ•˜๊ณ , ๋‚˜๋จธ์ง€ N/2๊ฐœ์˜ ๋ ˆ์ด์–ด๋Š” Self-Attention์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

MambaVision Mixer

MambaVision Mixer๋Š” ์‹œ๊ฐ ์ž‘์—…์— ๋” ์ ํ•ฉํ•˜๋„๋ก ์›๋ณธ Mamba ๋ฏน์„œ๊ฐ€ ์žฌ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ์ธ๊ณผ์  ์ปจ๋ณผ๋ฃจ์…˜(causal convolution) ๋Œ€์ฒด: ์‹œ๊ฐ ์ž‘์—…์—์„œ๋Š” ๋ถˆํ•„์š”ํ•˜๊ณ  ์ œํ•œ์ ์ธ ๋‹จ์ผ ๋ฐฉํ–ฅ ์˜ํ–ฅ(single direction influence)์„ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•ด ์ธ๊ณผ์  ์ปจ๋ณผ๋ฃจ์…˜์„ ์ผ๋ฐ˜ ์ปจ๋ณผ๋ฃจ์…˜(regular convolution)์œผ๋กœ ๋Œ€์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋Œ€์นญ์  ๋ธŒ๋žœ์น˜ ์ถ”๊ฐ€: SSM์˜ ์ˆœ์ฐจ์  ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์†์‹ค๋  ์ˆ˜ ์žˆ๋Š” ์ฝ˜ํ…์ธ ๋ฅผ ๋ณด์ƒํ•˜๊ธฐ ์œ„ํ•ด SSM์ด ์—†๋Š” ๋Œ€์นญ์  ๋ธŒ๋žœ์น˜๋ฅผ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ธŒ๋žœ์น˜๋Š” ์ถ”๊ฐ€ ์ปจ๋ณผ๋ฃจ์…˜๊ณผ SiLU (Sigmoid Linear Unit) ํ™œ์„ฑํ™”๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ ์—ฐ๊ฒฐ: ๋‘ ๋ธŒ๋žœ์น˜์˜ ์ถœ๋ ฅ(SSM ๋ฐ ๋น„-SSM)์„ ์—ฐ๊ฒฐํ•œ ๋‹ค์Œ ์ตœ์ข… Linear ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ํˆฌ์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ์กฐํ•ฉ์€ ์ตœ์ข… ํŠน์ง• ํ‘œํ˜„์ด ์ˆœ์ฐจ์  ๋ฐ ๊ณต๊ฐ„์  ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ†ตํ•ฉํ•˜์—ฌ ๋‘ ๋ธŒ๋žœ์น˜์˜ ๊ฐ•์ ์„ ํ™œ์šฉํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ X_{in}์— ๋Œ€ํ•ด MambaVision Mixer์˜ ์ถœ๋ ฅ X_{out}์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค: X_1 = \text{Scan}(\sigma(\text{Conv}(\text{Linear}(C, C/2)(X_{in})))) X_2 = \sigma(\text{Conv}(\text{Linear}(C, C/2)(X_{in}))) X_{out} = \text{Linear}(C, C)(\text{Concat}(X_1, X_2)) ์—ฌ๊ธฐ์„œ \text{Linear}(C_{in}, C_{out})(\cdot)๋Š” ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ ์ž„๋ฒ ๋”ฉ ์ฐจ์›์ด ๊ฐ๊ฐ C_{in} ๋ฐ C_{out}์ธ Linear ๋ ˆ์ด์–ด๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. \text{Scan}์€ ์„ ํƒ์  ์Šค์บ”(selective scan) ์—ฐ์‚ฐ์ด๋ฉฐ, \sigma๋Š” SiLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.

Self-attention

ํ‘œ์ค€ Multihead Self-Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋‹ค์Œ ๊ณต์‹์— ๋”ฐ๋ผ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค: \text{Attention}(Q, K, V) = \text{Softmax}( \frac{QK^T}{\sqrt{d_h}} )V ์—ฌ๊ธฐ์„œ Q, K, V๋Š” ๊ฐ๊ฐ ์ฟผ๋ฆฌ(query), ํ‚ค(key), ๊ฐ’(value)์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, d_h๋Š” ์–ดํ…์…˜ ํ—ค๋“œ(attention head)์˜ ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ด์ „ ์—ฐ๊ตฌ์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์œˆ๋„์šฐ ๋ฐฉ์‹(windowed manner)์œผ๋กœ ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ

3.1. ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜

ImageNet-1K ๋ฐ์ดํ„ฐ์…‹์—์„œ MambaVision์€ Conv-based, Transformer-based, Conv-Transformer, Mamba-based ๋ชจ๋ธ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ๊ตฐ๊ณผ ๋น„๊ตํ•˜์—ฌ ImageNet Top-1 ์ •ํ™•๋„์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ธก๋ฉด์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MambaVision-B๋Š” ConvNeXt-B (83.8%) ๋ฐ Swin-B (83.5%)๋ณด๋‹ค ๋†’์€ 84.2%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ํ›จ์”ฌ ๋” ๋†’์€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณด์ž…๋‹ˆ๋‹ค. Mamba-based ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด์„œ๋„ MambaVision-B (84.2%)๋Š” VMamba-B (83.9%)๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ํ›จ์”ฌ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ MambaVision ๋ชจ๋ธ์€ ์œ ์‚ฌํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์— ๋น„ํ•ด FLOPs๊ฐ€ ํ›จ์”ฌ ๋‚ฎ์Šต๋‹ˆ๋‹ค.

3.2. ๊ฐ์ฒด ๊ฐ์ง€ ๋ฐ ๋ถ„ํ• 

MS COCO ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๊ฐ์ฒด ๊ฐ์ง€ ๋ฐ ์ธ์Šคํ„ด์Šค ๋ถ„ํ• , ADE20K ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์˜๋ฏธ๋ก ์  ๋ถ„ํ•  ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. MambaVision ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ์€ ๋™๊ธ‰ ํฌ๊ธฐ์˜ ๊ฒฝ์Ÿ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MS COCO์—์„œ MambaVision-T๋Š” ConvNeXt-T๋ณด๋‹ค box Average Precision (AP)์—์„œ +0.7, mask AP์—์„œ +0.6 ํ–ฅ์ƒ๋˜์—ˆ๊ณ , Swin-T๋ณด๋‹ค box AP์—์„œ +0.7, mask AP์—์„œ +0.6 ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ADE20K์—์„œ MambaVision-T, S, B๋Š” Swin-T, S, B๋ณด๋‹ค mIoU์—์„œ ๊ฐ๊ฐ +1.5, +0.6, +1.0 ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” MambaVision์ด ๋‹ค์–‘ํ•œ ๋น„์ „ ์ž‘์—…์— ํšจ๊ณผ์ ์ด๊ณ  ๋‹ค์šฉ๋„ ๋ฐฑ๋ณธ์ž„์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.

3.3. Ablation ์—ฐ๊ตฌ

  • ImageNet-21K ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ›ˆ๋ จ: Mamba ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹ ์ค‘ ์ตœ์ดˆ๋กœ ๋Œ€๊ทœ๋ชจ ImageNet-21K ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ ์Šค์ผ€์ผ๋ง์„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. MambaVision-B์˜ Top-1 ์ •ํ™•๋„๊ฐ€ 84.2%์—์„œ 84.9%๋กœ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, MambaVision-L์€ 85%์—์„œ 86.1%๋กœ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. MambaVision-L3 (739.6M ๋งค๊ฐœ๋ณ€์ˆ˜)๋Š” 256 ํ•ด์ƒ๋„์—์„œ 87.3%, 512 ํ•ด์ƒ๋„์—์„œ 88.1%์˜ Top-1 ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋ชจ๋ธ์˜ ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Token Mixer ์„ค๊ณ„: MambaVision ํ† ํฐ ๋ฏน์„œ์˜ ์ฒด๊ณ„์ ์ธ ์„ค๊ณ„๋ฅผ ์œ„ํ•ด ํฌ๊ด„์ ์ธ ablation ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ณผ์  ์ปจ๋ณผ๋ฃจ์…˜์„ ์ผ๋ฐ˜ ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ๋Œ€์ฒดํ•˜๊ณ , SSM์ด ์—†๋Š” ๋Œ€์นญ์  ๋ธŒ๋žœ์น˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉฐ, ์ด ๋‘ ๋ธŒ๋žœ์น˜์˜ ์ถœ๋ ฅ์„ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ฒฐ์ •์ ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์—ฐ๊ฒฐ(concatenation) ๋ฐฉ์‹์€ ImageNet Top-1 ์ •ํ™•๋„, MS COCO์˜ box AP, mask AP, ADE20K์˜ mIoU์—์„œ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.
  • ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํŒจํ„ด: Self-Attention๊ณผ MambaVision ํ† ํฐ ๋ฏน์„œ ๊ฐ„์˜ ๋‹ค์–‘ํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ†ตํ•ฉ ํŒจํ„ด์„ ์กฐ์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. Self-Attention ๋ธ”๋ก์„ ๊ฐ ์Šคํ…Œ์ด์ง€์˜ ๋งˆ์ง€๋ง‰ N/2 ๋ ˆ์ด์–ด์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ(82.3%)์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์ „์—ญ์  ๋งฅ๋ฝ ๋ฐ ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„ ์˜์กด์„ฑ ํฌ์ฐฉ์„ ์œ„ํ•ด Self-Attention์„ ์ตœ์ข… ๋ ˆ์ด์–ด์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ (Interpretability): MambaVision์˜ Self-Attention ๋ ˆ์ด์–ด์—์„œ ์ƒ์„ฑ๋œ ์–ดํ…์…˜ ๋งต(attention map)์„ ์‹œ๊ฐํ™”ํ•˜์—ฌ ๋ชจ๋ธ์ด ๋ช…์‹œ์ ์ธ ์ง€๋„ ์—†์ด๋„ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์ค‘์š”ํ•œ ์˜์—ญ์— ์ง‘์ค‘ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Self-Attention ๋ธ”๋ก์„ ์ตœ์ข… ๋‹จ๊ณ„์— ์‚ฌ์šฉํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„ ์„ ํƒ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

4. ๊ฒฐ๋ก 

์ด ์—ฐ๊ตฌ๋Š” ์‹œ๊ฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ Mamba-Transformer ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฑ๋ณธ์ธ MambaVision์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ „์—ญ์  ๋งฅ๋ฝ ํ‘œํ˜„ ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ Mamba ๊ณต์‹ ์žฌ์„ค๊ณ„๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. MambaVision์€ Top-1 ์ •ํ™•๋„์™€ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ธก๋ฉด์—์„œ ์ƒˆ๋กœ์šด SOTA Pareto frontier๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, Transformer ๋ฐ Mamba ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์ƒ๋‹นํ•œ ์ฐจ์ด๋กœ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜, ๊ฐ์ง€, ๋ถ„ํ• ์„ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์‹œ๊ฐ ์ž‘์—…์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ํ†ตํ•ด ์ ‘๊ทผ ๋ฐฉ์‹์˜ ๋‹ค์šฉ๋„์„ฑ๊ณผ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ†ตํ•ฉ ํŒจํ„ด์— ๋Œ€ํ•œ ์ฒด๊ณ„์ ์ธ ๋ถ„์„์€ Self-Attention ๋ธ”๋ก์„ ์ตœ์ข… ๋ ˆ์ด์–ด์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ์ด ํšจ์œจ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ชจ๋ธ์˜ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ ํฌ์ฐฉ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, MambaVision์„ ImageNet-21K ์‚ฌ์ „ ํ›ˆ๋ จ์— ์„ฑ๊ณต์ ์œผ๋กœ ์Šค์ผ€์ผ๋งํ•˜์—ฌ SOTA ๋ชจ๋ธ๊ณผ ๊ฒฌ์ค„ ๋งŒํ•œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์œผ๋กœ์จ ๋Œ€๊ทœ๋ชจ ๋น„์ „ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. MambaVision์˜ ์„ฑ๊ณต์€ ์ˆœ์ˆ˜ Mamba ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜์˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉด์„œ ๊ฐ•์ ์„ ํ™œ์šฉํ•˜์—ฌ ๋น„์ „ ๋ฐฑ๋ณธ ์„ค๊ณ„์— ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.


1.1 +

Mamba์˜ ์žฅ์ 

  • ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„ (Linear time complexity): Mamba๋Š” State Space Model(SSM) ๊ธฐ๋ฐ˜์œผ๋กœ, ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด Transformer์˜ ์ฃผ๋œ ๋ณ‘๋ชฉ์ธ self-attention์˜ ์ฟผ๋“œ๋Ÿฌํ‹ฑ(์ œ๊ณฑ) ์—ฐ์‚ฐ ๋ณต์žก๋„๋ฅผ ์„ ํ˜•์œผ๋กœ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธด ์‹œํ€€์Šค๋‚˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ํŒจ์น˜ ์ฒ˜๋ฆฌ ์‹œ ๋งค์šฐ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
  • ํ•˜๋“œ์›จ์–ด ์นœํ™”์  ์„ค๊ณ„์™€ ์„ ํƒ์  ์ฒ˜๋ฆฌ (Selective processing): ์ž…๋ ฅ ์˜์กด์ ์ธ ๋™์  ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •์„ ํ†ตํ•ด ์ค‘์š”ํ•œ ์ •๋ณด์— ์ง‘์ค‘ํ•˜๋ฉด์„œ ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด, ํšจ์œจ์„ฑ๊ณผ ํ‘œํ˜„๋ ฅ์„ ๋™์‹œ์— ๋†’์ž…๋‹ˆ๋‹ค.
  • ์šฐ์ˆ˜ํ•œ ์‹œ๊ณ„์—ด ๋ฐ ์—ฐ์† ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ: SSM ๊ธฐ๋ฐ˜ ํŠน์„ฑ์ƒ ์—ฐ์†์ ์ด๊ณ  ์ˆœ์ฐจ์ ์ธ ๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Transformer์˜ ์žฅ์ 

  • ์ „์—ญ ๋ฌธ๋งฅ ์ธ์‹ (Global context modeling): Self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋•๋ถ„์— ์ด๋ฏธ์ง€ ๋‚ด ๋ชจ๋“  ์œ„์น˜ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ๋™์‹œ๋‹ค๋ฐœ์ ์œผ๋กœ ๋ชจ๋ธ๋ง ๊ฐ€๋Šฅํ•˜์—ฌ, ์žฅ๊ฑฐ๋ฆฌ ๊ณต๊ฐ„์  ์˜์กด์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์œ ์—ฐ์„ฑ: ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ํ˜•์‹๊ณผ ํฌ๊ธฐ์— ๋งž์ถ”์–ด ์†์‰ฝ๊ฒŒ ์กฐ์ • ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํŠนํžˆ ๋น„์ˆœ์ฐจ์ ์ด๊ณ  ๊ณต๊ฐ„์ ์ธ ๋ถ„ํฌ๊ฐ€ ์ค‘์š”ํ•œ ๋น„์ „ ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

MambaVision์—์„œ ๊ฒฐํ•ฉ๋œ ์‹œ๋„ˆ์ง€

  • Mamba์˜ ํšจ์œจ์ ์ธ ์ง€์—ญ ๋ฐ ์—ฐ์† ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ๊ณผ Transformer์˜ ์ „์—ญ์ ์ด๋ฉฐ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ ํฌ์ฐฉ ๋Šฅ๋ ฅ์„ ๊ฒฐํ•ฉํ•ด, ์ด๋ฏธ์ง€ ๋‚ด ๋กœ์ปฌ ํŠน์„ฑ๊ณผ ๊ธ€๋กœ๋ฒŒ ์ปจํ…์ŠคํŠธ๋ฅผ ๋ชจ๋‘ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • ํŠนํžˆ, MambaVision์€ ์ดˆ๋ฐ˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์—๋Š” CNN ๊ธฐ๋ฐ˜ ์ปจ๋ณผ๋ฃจ์…”๋„ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ค‘๊ฐ„๊ณผ ํ›„๋ฐ˜ ๋‹จ๊ณ„์—์„œ Mamba ๊ธฐ๋ฐ˜ ๋ฏน์„œ์™€ Transformer์˜ self-attention ๋ธ”๋ก์„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ๋กœ ์กฐํ•ฉํ•˜์—ฌ, ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•๋„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ํ›Œ๋ฅญํžˆ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • Transformer ๋ธ”๋ก์€ ์ตœ์ข… ๋‹จ๊ณ„์— ์ง‘์ค‘์ ์œผ๋กœ ๋ฐฐ์น˜๋˜์–ด ์ด๋ฏธ์ง€์˜ ์ „์—ญ ๋ฌธ๋งฅ์„ ๋ณด์™„, Mamba ๋ธ”๋ก์œผ๋กœ ์ธํ•ด ์ œํ•œ๋œ ์ „์—ญ ์ˆ˜์šฉ ์˜์—ญ ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•ด์ค๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, Mamba๋Š” ํšจ์œจ์ ์ด๊ณ  ์—ฐ์†์  ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์— ๋›ฐ์–ด๋‚˜๊ณ , Transformer๋Š” ๊ฐ•๋ ฅํ•œ ์ „์—ญ ๊ณต๊ฐ„ ์˜์กด์„ฑ ํ•™์Šต๋Šฅ๋ ฅ์ด ์žˆ์–ด, ๋‘ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋งŒ๋‚˜๋ฉด ๊ฐ๊ฐ์˜ ๋‹จ์ ์€ ์™„ํ™”๋˜๊ณ  ๊ฐ•์ ๋งŒ ๋ชจ์•„์„œ, ์ด๋ฏธ์ง€ ์ธ์‹ ๋“ฑ ์ปดํ“จํ„ฐ ๋น„์ „ ์ž‘์—…์—์„œ ๋” ํƒ์›”ํ•œ ์„ฑ๋Šฅ๊ณผ ์†๋„ ์กฐํ™”๋ฅผ ์ด๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


1. MambaVision ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

  • 4๋‹จ๊ณ„(Stages)๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„์ธตํ˜• ๊ตฌ์กฐ
    • Stage 1, 2: ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์—์„œ ๋น ๋ฅด๊ฒŒ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด Residual CNN ๋ธ”๋ก์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • Stage 3, 4: ์ €ํ•ด์ƒ๋„ ๊ณต๊ฐ„์—์„œ MambaVision Mixer(๊ฐœ์„ ๋œ Mamba ๋ธ”๋ก)์™€ Transformer์˜ self-attention ๋ธ”๋ก์„ ๊ฒฐํ•ฉํ•ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๊ตฌ์กฐ๋Š” ๋†’์€ ํ•ด์ƒ๋„์—์„œ๋Š” ํšจ์œจ์  ์ง€์—ญ ํŠน์„ฑ ์ถ”์ถœ์— ์ง‘์ค‘ํ•˜๊ณ , ์ ์  ํ•ด์ƒ๋„๊ฐ€ ๋‚ฎ์•„์งˆ์ˆ˜๋ก ์ „์—ญ ์ปจํ…์ŠคํŠธ ์ดํ•ด์— ์ง‘์ค‘ํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

2. MambaVision Mixer (๊ฐœ์„ ๋œ Mamba ๋ธ”๋ก)

๊ธฐ์กด Mamba (SSM ๊ธฐ๋ฐ˜) ์„ค๊ณ„๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋˜ ์ˆœ์ฐจ์ ์ด๋ฉฐ ์ธ๊ณผ์ ์ธ causal convolution์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค:

  • ์ธ๊ณผ์ (convolution) causal conv ๋Œ€์‹  ์ผ๋ฐ˜ conv ์‚ฌ์šฉ:
    • ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์ฒ˜๋Ÿผ ์ขŒ->์šฐ ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๊ณ , ์‹œ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•ด ์ขŒ์šฐ ๋ฐฉํ–ฅ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๊ณต๊ฐ„์  ํ๋ฆ„์— ๋Œ€ํ•ด ๋” ์œ ์—ฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋‘ ๊ฐœ์˜ ๋ถ„๊ธฐ(branch) ๋„์ž…:
    • SSM branch: Mamba ๊ณ ์œ ์˜ ์ƒํƒœ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective scan)์„ ํ†ตํ•ด ์‹œํ€€์Šค์ ์ด๊ณ  ๊ตฌ์กฐ์ ์ธ ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ„์ ยท์ˆœ์ฐจ์  ํŠน์ง• ํฌ์ฐฉ์— ๊ฐ•์ .
    • ๋น„SSM branch (Symmetric branch): ์ผ๋ฐ˜ 1D convolution + SiLU (Sigmoid Linear Unit) ํ™œ์„ฑํ™” ์กฐํ•ฉ์œผ๋กœ, SSM์ด ์ง€๋‚˜์น˜๊ฒŒ ํ•œ ๋ฐฉํ–ฅ์„ฑ์— ๊ฐ‡ํžˆ๋Š” ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ณ , ์ปจํ…์ธ  ๊ธฐ๋ฐ˜ ์ „์—ญ ๋ฐ ์ง€์—ญ ํŠน์ง•์„ ๋ณด์ถฉ์ ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ ํ•ฉ์น˜๊ธฐ:
    • ๋‘ ๋ถ„๊ธฐ ์ถœ๋ ฅ์€ ์ ˆ๋ฐ˜ ํฌ๊ธฐ๋กœ ์ž„๋ฒ ๋”ฉ ํ›„ ์—ฐ๊ฒฐ(concatenation)ํ•˜๊ณ , ๋งˆ์ง€๋ง‰์— ๋‹ค์‹œ ์„ ํ˜• ๋ณ€ํ™˜ํ•˜์—ฌ ์›๋ž˜ ์ž„๋ฒ ๋”ฉ ํฌ๊ธฐ๋กœ ๋˜๋Œ๋ฆฝ๋‹ˆ๋‹ค.
  • ์ด๋Ÿฌํ•œ ๊ตฌ์กฐ๋Š” ์ˆœ์ฐจ(SSM) + ๊ณต๊ฐ„(๋น„SSM) ์ •๋ณด๊ฐ€ ๊ฒฐํ•ฉ๋˜์–ด ํ’๋ถ€ํ•œ ์‹œ๊ฐ ํŠน์„ฑ ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , Mamba์˜ ํšจ์œจ์„ฑ์€ ์œ ์ง€ํ•˜๋ฉด์„œ Vision์— ๋” ์ ํ•ฉํ•˜๋„๋ก ๊ฐœ์„ ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3. Transformer ๋ธ”๋ก๊ณผ์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ†ตํ•ฉ

  • MambaVision์€ ์ „์ฒด Stage 3, 4 ๋ธ”๋ก ์ค‘ ๋’ท๋ถ€๋ถ„(N/2 ์ธต)์„ Transformer์˜ multi-head self-attention ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์ด์œ ๋Š” Transformer์˜ self-attention์ด ์ „์—ญ์  ๋ฌธ๋งฅ ๋ชจ๋ธ๋ง์— ํŠนํ™”๋˜์–ด ์žˆ์–ด, MambaVision Mixer๊ฐ€ ์ฃผ๋กœ ์ง€์—ญ๋‹จ์œ„ ๋ฐ ๊ตฌ์กฐ์ ์ธ ํŠน์ง•์„ ๋ฝ‘์•„๋‚ธ ๋’ค ํ›„๋ฐ˜๋ถ€์—์„œ ์ „์—ญ ์ •๋ณด๋ฅผ ๋ณด๊ฐ•ํ•˜๋„๋ก ์—ญํ• ์„ ๋ถ„๋‹ดํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ ์‹คํ—˜์—์„œ Transformer ๋ธ”๋ก์„ ๋งˆ์ง€๋ง‰ ์ธต(N/2, ํ˜น์€ N/4)์— ๋‘๋Š” ๊ฒƒ์ด ์ž„์˜์  ํ˜น์€ ์ดˆ๋ฐ˜๋ถ€์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ํšจ๊ณผ์ ์ž„์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

4. ๋ชจ๋ธ ๋‚ด๋ถ€ ์ฒ˜๋ฆฌ ํ๋ฆ„ (์ˆ˜์‹ ๋ฐ ์‹คํ—˜ ์ฝ”๋“œ ๊ธฐ์ค€)

  • ์ž…๋ ฅ: X \in \mathbb{R}^{T \times C} (์‹œํ€€์Šค ๊ธธ์ด T, ์ž„๋ฒ ๋”ฉ ์ฐจ์› C)
  • MambaVision Mixer ๋ธ”๋ก ๋™์ž‘:
\begin{aligned} X_1 &= \text{Scan} \big( \sigma(\text{Conv}(\text{Linear}(C \to C/2)(X))) \big) \\ X_2 &= \sigma \big(\text{Conv}(\text{Linear}(C \to C/2)(X)) \big) \\ X_{out} &= \text{Linear}(C, C)( \text{Concat}(X_1, X_2) ) \end{aligned}
  • ์—ฌ๊ธฐ์„œ Scan ํ•จ์ˆ˜๋Š” Mamba ๋ชจ๋ธ์˜ input-dependent selective state-space convolution์ด๋ฉฐ, \sigma๋Š” SiLU ํ™œ์„ฑํ™”์ž…๋‹ˆ๋‹ค.
  • X_1์—์„œ SSM branch๊ฐ€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ Mamba ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, X_2๋Š” ์ผ๋ฐ˜ conv branch๊ฐ€ spatial ์ •๋ณด๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋ ‡๊ฒŒ ์กฐํ•ฉ๋œ ์ถœ๋ ฅ์„ ๋‹ค์Œ MLP๋‚˜ Self-Attention ๋ธ”๋ก์— ๋„˜๊ฒจ ๋‚ด๋ถ€ ํ‘œํ˜„์„ ์ง„ํ™”์‹œํ‚ต๋‹ˆ๋‹ค.

5. ์ถ”๊ฐ€์ ์œผ๋กœ MambaVision์˜ ์„ค๊ณ„ ํŠน์ง•

  • Downsampling CNN ๋ธ”๋ก: ์ด๋ฏธ์ง€ ๊ทœ๋ชจ๊ฐ€ ํฌ๊ธฐ ๋•Œ๋ฌธ์— ์ „ํ˜•์ ์ธ ํ’€๋ง ๋Œ€์‹  3ร—3 stride=2 Conv๋ฅผ ์‚ฌ์šฉํ•ด ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ์กฐ์ ˆํ•˜๋ฉฐ, ์ด๋Š” ์ „ํ˜•์  CNN์˜ ํŠน์ง• ์ถ”์ถœ ๋ฐฉ์‹์„ ๊ณ„์Šนํ•ฉ๋‹ˆ๋‹ค.
  • Layer Normalization ์‚ฌ์šฉ: Mamba์™€ Transformer ๋ธ”๋ก ๋ชจ๋‘ ์•ˆ์ •์ ์ธ ํ•™์Šต ๋ฐ ํ‘œํ˜„์„ ์œ„ํ•ด LayerNorm ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ์œˆ๋„์šฐ ๊ธฐ๋ฐ˜ self-attention: Transformer ๋‹จ๊ณ„์—์„œ ์—ฐ์‚ฐ ๋น„์šฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์ง€์—ญ ์œˆ๋„์šฐ ๋‚ด์—์„œ self-attention์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, Stage 3์—์„œ๋Š” window size 14, Stage 4์—์„œ๋Š” 7์„ ๊ธฐ๋ณธ๊ฐ’์œผ๋กœ ํ•ด ์ตœ์ ์˜ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ ์ถ”๊ตฌํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ์œˆ๋„์šฐ ํฌ๊ธฐ๋Š” ์‹คํ—˜์ ์œผ๋กœ๋„ ์ตœ์ ๊ฐ’์œผ๋กœ ํ™•์ธ๋˜์—ˆ์œผ๋ฉฐ, ์œˆ๋„์šฐ๋ฅผ ํฌ๊ฒŒ ํ•˜๋ฉด ์ „์—ญ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ์ง€๋งŒ ์†๋„๊ฐ€ ์•ฝ๊ฐ„ ๋А๋ ค์ง‘๋‹ˆ๋‹ค.

์š”์•ฝ

  • MambaVision์€ ์ง€์—ญ์ ์ธ ํšจ์œจ์  ์‹œํ€€์Šค ๋ชจ๋ธ๋ง(Scan ๋œ SSM)๊ณผ ๊ณต๊ฐ„์  ๋น„SSM ํ† ํฐ ๋ฏน์„œ๋ฅผ ๋‘ ๊ฐœ์˜ ๋ณ‘๋ ฌ ๋ถ„๊ธฐ๋กœ ๊ฒฐํ•ฉ.
  • ๋ชจ๋“  ์ž…๋ ฅ์„ ์—ฐ์‚ฐํ•˜๋Š”๋ฐ ์žˆ์–ด MambaVision Mixer๊ฐ€ ๋จผ์ € ์ง€์—ญ/์ˆœ์ฐจ์  ํŒจํ„ด์„ ํšจ๊ณผ์ ์œผ๋กœ ํŒŒ์•….
  • ํ›„๋ฐ˜๋ถ€ Transformer self-attention ๋ธ”๋ก๋“ค์ด ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๊ณต๊ฐ„ ์ •๋ณด์™€ ์ „์—ญ ๋ฌธ๋งฅ์„ ํฌ์ฐฉ.
  • ์ „์ฒด์ ์œผ๋กœ ํšจ์œจ์ ์ด๋ฉด์„œ๋„ ์žฅ๊ฑฐ๋ฆฌ ๋ฐ ๋‹ค์–‘ํ•œ ๊ณต๊ฐ„์  ์˜์กด์„ฑ์„ ํ•จ๊ป˜ ํฌ์ฐฉํ•˜๋ ค๋Š” ๋ณตํ•ฉ์  ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ๋†’์€ ์ •ํ™•๋„์™€ ๋น ๋ฅธ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋‹ฌ์„ฑ.

2 Detail Review

MambaVision: Mamba-Transformer ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋น„์ „ ๋ฐฑ๋ณธ ๋ถ„์„

2.1 ์†Œ๊ฐœ (Introduction)

๋”ฅ๋Ÿฌ๋‹ ๋น„์ „ ๋ถ„์•ผ์—์„œ๋Š” ์ด๋ฏธ์ง€ ์ธ์‹ ์„ฑ๋Šฅ์„ ๋†’์ด๋ฉด์„œ๋„ ํšจ์œจ์„ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฑ๋ณธ ๋ชจ๋ธ ์„ค๊ณ„๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ณผ๊ฑฐ์—๋Š” ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN)์ด ์ฃผ๋„ํ–ˆ์ง€๋งŒ, ์ตœ๊ทผ Transformer ๊ตฌ์กฐ๊ฐ€ Vision Transformer (ViT) ๋“ฑ์˜ ํ˜•ํƒœ๋กœ ๋“ฑ์žฅํ•˜์—ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. Transformer๋Š” ์ž๊ธฐ์–ดํ…์…˜(self-attention)์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์ „์—ญ์˜ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ•์ ์ด ์žˆ์ง€๋งŒ, ์ž…๋ ฅ ํŒจ์น˜ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚ ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰์ด $O(N^2)$ ์ˆ˜์ค€์œผ๋กœ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œํŽธ, 2023๋…„์— ์ œ์•ˆ๋œ Mamba๋Š” ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(State Space Model, SSM) ๊ธฐ๋ฐ˜์˜ ์ƒˆ๋กœ์šด ์‹œํ€€์Šค ๋ชจ๋ธ๋กœ, ์ž…๋ ฅ ๊ธธ์ด์— ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ์ž์—ฐ์–ด ๋“ฑ์˜ ์‹œํ€€์Šค ์ž‘์—…์—์„œ Transformer์— ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. Mamba์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ž…๋ ฅ ์˜์กด ๋™์  ํŒŒ๋ผ๋ฏธํ„ฐ ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋Š” ๊ฑฐ๋ฅด๋ฉด์„œ ๊ธด ์‹œํ€€์Šค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด์—ˆ์ฃ .

์ด๋Ÿฌํ•œ ์žฅ์ ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , Mamba์™€ ๊ฐ™์€ SSM ๋ชจ๋ธ์„ ์ปดํ“จํ„ฐ ๋น„์ „์— ์ง์ ‘ ์ ์šฉํ•˜๋Š” ๋ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€์—์„œ๋Š” ๋ชจ๋“  ํ”ฝ์…€์ด ์ˆœ์ฐจ์ ์œผ๋กœ ์˜์กดํ•˜์ง€ ์•Š๊ณ  ๊ณต๊ฐ„์ƒ์˜ ๊ตญ์†Œ์  ๊ด€๊ณ„๊ฐ€ ์ฃผ๋กœ ์ค‘์š”ํ•˜๋ฉฐ, ๊ธ€๋กœ๋ฒŒ ๋งฅ๋ฝ๋„ ํ•œ ๋ฒˆ์— ๊ณ ๋ ค๋˜์–ด์•ผ ์ •ํ™•ํ•œ ํŒ๋‹จ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ๋ณธ Mamba๋Š” ์ž๋™ํšŒ๊ท€์  ์ˆœ์ฐจ ์ฒ˜๋ฆฌ ํŠน์„ฑ ๋•Œ๋ฌธ์— ํ•œ ๋ฒˆ์— ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ •๋ณด๋ฅผ ํ˜๋ ค๋ณด๋‚ด ์ „์—ญ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜์ง€ ๋ชปํ–ˆ๊ณ , ์ด๋ฅผ ๊ทน๋ณตํ•˜๋ ค ์–‘๋ฐฉํ–ฅ ์ฒ˜๋ฆฌ ๋“ฑ์„ ๋„์ž…ํ•˜๋ฉด ์ง€์—ฐ ์‹œ๊ฐ„์ด ์ปค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ตœ์‹  Vision Transformer๋‚˜ CNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์ด ์—ฌ์ „ํžˆ Mamba ๊ธฐ๋ฐ˜ ๋น„์ „ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์ƒํ™ฉ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

โ€œMambaVision: A Hybrid Mamba-Transformer Vision Backboneโ€์€ ์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ์—์„œ ์ œ์•ˆ๋œ ํ˜์‹ ์ ์ธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฑ๋ณธ์ž…๋‹ˆ๋‹ค. NVIDIA์˜ Ali Hatamizadeh์™€ Jan Kautz ์—ฐ๊ตฌ์ง„์€ Mamba ๊ตฌ์กฐ๋ฅผ ๋น„์ „์— ๋งž๊ฒŒ ๊ฐœ์„ ํ•˜๊ณ , ๊ทธ๊ฒƒ์„ Transformer์˜ ์ž๊ธฐ์–ดํ…์…˜๊ณผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ์–‘์ชฝ์˜ ๊ฐ•์ ์„ ๋ชจ๋‘ ์‚ด๋ฆฐ ์ƒˆ๋กœ์šด ๋ชจ๋ธ MambaVision์„ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธ€์—์„œ๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋‚ด์šฉ์„ ๊นŠ์ด ์žˆ๊ฒŒ ๋ถ„์„ํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. Mamba์™€ Transformer๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฒฐํ•ฉํ•˜์—ฌ ๋” ๋‚˜์€ ๋น„์ „ ๋ฐฑ๋ณธ์„ ๋งŒ๋“ค์—ˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฌํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ์ด ์™œ ์ค‘์š”ํ•œ์ง€๋ฅผ ์•Œ๊ธฐ ์‰ฝ๊ฒŒ ํ’€์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ์„ธ๋ถ€ ๊ตฌ์„ฑ, ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ, ์žฅ๋‹จ์ ๊ณผ ์‹œ์‚ฌ์ ์„ ์‚ดํŽด๋ด„์œผ๋กœ์จ MambaVision์ด ๊ฐ€์ ธ์˜ฌ ๋น„์ „ ๋ชจ๋ธ ์„ค๊ณ„์˜ ๋ฏธ๋ž˜์— ๋Œ€ํ•ด ๋…ผ์˜ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

2.2 ๋ฐฐ๊ฒฝ (Background)

2.2.1 Transformer์™€ ๋น„์ „ ๋ชจ๋ธ

Transformer๋Š” ์›๋ž˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ๋“ฑ์žฅํ•œ ํ˜์‹ ์ ์ธ ๋ชจ๋ธ์ด์ง€๋งŒ, ViT(Vision Transformer)๋ฅผ ํ•„๋‘๋กœ ์ด๋ฏธ์ง€ ๋ถ„์•ผ์—๋„ ๋น ๋ฅด๊ฒŒ ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Transformer์˜ ์ž๊ธฐ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ž…๋ ฅ ํ† ํฐ(์ด๋ฏธ์ง€ ํŒจ์น˜)๋“ค ๊ฐ„ ๋ชจ๋“  ์Œ์„ ๋น„๊ตํ•˜์—ฌ ์ „์—ญ์ ์ธ ์ƒํ˜ธ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋ณต์žกํ•œ ์ด๋ฏธ์ง€์—์„œ๋„ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด ๊ด€๊ณ„์™€ ์ „์ฒด ๋งฅ๋ฝ์„ ํฌ์ฐฉํ•˜๋Š” ๋ฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Swin Transformer๋Š” ์œˆ๋„์šฐ ๋‹จ์œ„๋กœ ์ž๊ธฐ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ง€์—ญ๊ณผ ์ „์—ญ ํŒจํ„ด์„ ๋ชจ๋‘ ์žก์•„๋‚ด๋ ค ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ Transformer ๊ธฐ๋ฐ˜ ๋น„์ „ ๋ชจ๋ธ๋“ค์€ ๋†’์€ ํ‘œํ˜„๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์ง€๋งŒ, ๋ง‰๋Œ€ํ•œ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ํ•™์Šต ํ•„์š”์„ฑ์ด๋ผ๋Š” ํ—ˆ๋“ค์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. $N N$ ํŒจ์น˜๋“ค ์‚ฌ์ด ๋ชจ๋“  ์Œ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์ž๊ธฐ์–ดํ…์…˜์€ ํ•ด์ƒ๋„๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์—ฐ์‚ฐ ๋น„์šฉ์ด ๊ธ‰์ฆํ•˜๊ณ , ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์‚ฌ์ „ํ›ˆ๋ จ ๋“ฑ์ด ์š”๊ตฌ๋˜์–ด ํ˜„์‹ค ์ ์šฉ์— ๋ถ€๋‹ด์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด Swin Transformer๋Š” ๊ตญ์†Œ ์œˆ๋„์šฐ๋กœ ์–ดํ…์…˜ ๋ฒ”์œ„๋ฅผ ์ œํ•œํ•˜๊ฑฐ๋‚˜, ConvNeXt๊ฐ™์€ ํ˜„๋Œ€์  CNN์€ ๋ ˆ์ด์–ด ์ •๊ทœํ™” ๋„์ž…๊ณผ ์ปค๋„ ํฌ๊ธฐ ํ™•๋Œ€ ๋“ฑ์œผ๋กœ Transformer์˜ ์ผ๋ถ€ ์ด์ ์„ ํก์ˆ˜ํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ์ „์—ญ receptive field(์ˆ˜์šฉ ์˜์—ญ)๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ์ˆœ์ˆ˜ CNN์—๊ฒ ์–ด๋ ค์šด ๊ณผ์ œ์ด๊ณ , Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์—๊ฒ ๊ณ„์‚ฐ ํšจ์œจ ์ธก๋ฉด์˜ ๋„์ „ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

2.2.2 Mamba์™€ ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM)

ํ•œํŽธ, ์ƒํƒœ ๊ณต๊ฐ„ ๋ชจ๋ธ (State Space Model)์€ ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋˜ ๋‹ค๋ฅธ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ, ์—ฐ์† ์‹œ๊ฐ„ ์—ญํ•™ ์‹œ์Šคํ…œ์œผ๋กœ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. 2022๋…„ ๋“ฑ์žฅํ•œ S4 ๋ชจ๋ธ ๋“ฑ์ด ๋Œ€ํ‘œ์ ์ด๋ฉฐ, ๋งค์šฐ ๊ธด ์‹œํ€€์Šค๋„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์  ๋•Œ๋ฌธ์— ์ฃผ๋ชฉ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. Mamba๋Š” ์ด๋Ÿฌํ•œ SSM ์ ‘๊ทผ์„ ๋ฐœ์ „์‹œํ‚จ ์ตœ์‹  ๋ชจ๋ธ๋กœ, 2023๋…„ ๋ณด๊ณ ๋˜์—ˆ์œผ๋ฉฐ Transformer ๋Œ€๋น„ ์„ ํ˜• ์‹œ๊ฐ„์— ๋ณต์žก๋„๋ฅผ ์–ต์ œํ•˜๋ฉด์„œ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ด ํ™”์ œ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Mamba์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๊ฐ„๋žตํžˆ ํ’€์–ด๋ณด๋ฉด, ์ž…๋ ฅ ์‹ ํ˜ธ๋ฅผ ์—ฐ์† ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹ ํ˜•ํƒœ์˜ ์€๋‹‰ ์ƒํƒœ $h(t)$๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ฒ˜๋ฆฌํ•œ ๋’ค, ์ด๋ฅผ ๋‹ค์‹œ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ A, B, C ๋“ฑ์˜ ํ–‰๋ ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์‹œํ€€์Šค์˜ ๋™ํŠน์„ฑ์„ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ, Mamba๋Š” ์„ ํƒ์  ์Šค์บ”(selective scan) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ ์ž…๋ ฅ์— ๋”ฐ๋ผ ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•จ์œผ๋กœ์จ ๋ถˆํ•„์š”ํ•œ ๋ถ€๋ถ„์€ ๊ฑฐ๋ฅด๊ณ  ํ•ต์‹ฌ ์ •๋ณด๋งŒ ํšจ์œจ์ ์œผ๋กœ ์ „๋‹ฌํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์—ฐ์† ๋ชจ๋ธ์„ ์ด์‚ฐํ™”(discretization)ํ•˜์—ฌ ํšจ์œจ์„ ๋†’์ด๋Š” ๋“ฑ ๊ณตํ•™์  ์ตœ์ ํ™”๋„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋น„์œ ํ•˜๋ฉด, Transformer๊ฐ€ ๋ชจ๋“  ํ† ํฐ ์Œ ์‚ฌ์ด๋ฅผ ๋น„๊ตํ•˜๋ฉฐ โ€œ๋ชจ๋“  ์ •๋ณด๋ฅผ ํ•œ๊บผ๋ฒˆ์— ๋ณด๋Š”โ€ ๋ฐฉ์‹์ด๋ผ๋ฉด, Mamba๋Š” ์‹œ๊ฐ„ ํ๋ฆ„์— ๋”ฐ๋ผ ์ •๋ณด๋ฅผ ์ „๋‹ฌํ•˜๋ฉฐ โ€œ์ค‘์š”ํ•œ ์ •๋ณด๋งŒ ๊ณจ๋ผ ๊ธฐ์–ตํ•˜๋Š”โ€ ๋ฐฉ์‹์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ Mamba์—๋Š” ๋„˜์–ด์•ผ ํ•  ์‚ฐ์ด ๋ช‡ ๊ฐ€์ง€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ์„ , ์ด๋ฏธ์ง€ ํ”ฝ์…€๋“ค์€ ๋ฌธ์žฅ์ฒ˜๋Ÿผ ์„ ํ˜• ์ˆœ์„œ๊ฐ€ ์žˆ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์—, Mamba๊ฐ€ ํ…์ŠคํŠธ์—์„œ ํ•˜๋˜ ๊ฒƒ์ฒ˜๋Ÿผ ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ํ”ฝ์…€ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์€ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Mamba๊ฐ€ ์ด๋ฏธ์ง€๋ฅผ ์™ผ์ชฝ ์œ„์—์„œ ์˜ค๋ฅธ์ชฝ ์•„๋ž˜๋กœ ํ•œ ์ค„์”ฉ ์Šค์บ”ํ•œ๋‹ค๊ณ  ์ƒ์ƒํ•ด๋ณด๋ฉด, ์ƒํ•˜์ขŒ์šฐ๋กœ ์ธ์ ‘ํ•œ ํ”ฝ์…€๋“ค์˜ ์ง€์—ญ์  ํŒจํ„ด์„ ๋†“์น  ์œ„ํ—˜์ด ์žˆ๊ณ  ์ „์—ญ์ ์ธ ์œค๊ณฝ ํŒŒ์•…๋„ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ Vision Mamba (Vim)๋ผ๋Š” ํ›„์† ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ณ ์ž ์–‘๋ฐฉํ–ฅ SSM์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์œ„-์™ผ์ชฝ์—์„œ ์•„๋ž˜-์˜ค๋ฅธ์ชฝ ๋“ฑ ๋„ค ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ˜๋ณต ์Šค์บ”ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ๋ชจ๋“  ๋ฐฉํ–ฅ์œผ๋กœ ์ˆœ์ฐจ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๋ฉด ๊ธ€๋กœ๋ฒŒ ๋ฌธ๋งฅ์€ ์–ป์„ ์ˆ˜ ์žˆ์–ด๋„, ๋ชจ๋“  ํ† ํฐ์„ ๋‹ค ์ฒ˜๋ฆฌํ•  ๋•Œ๊นŒ์ง€ ์ถœ๋ ฅ์ด ์ง€์—ฐ๋˜์–ด ํšจ์œจ์ด ๋–จ์–ด์ง€๊ณ  ํ•™์Šต๋„ ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ์‹œ๋„๋กœ EfficientVMamba๋Š” ๊ณ ํ•ด์ƒ๋„ ๊ตฌ๊ฐ„์—๋Š” SSM, ์ €ํ•ด์ƒ๋„ ๊ตฌ๊ฐ„์—๋Š” CNN์„ ์‚ฌ์šฉํ•˜๋Š” ํ˜ผํ•ฉ ์ „๋žต์„ ์ผ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์ „์—ญ ์ปจํ…์ŠคํŠธ๋ฅผ ์˜จ์ „ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•ด ์ •ํ™•๋„ ๋ฉด์—์„œ ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜๋ฉด, Mamba๋ฅ˜ SSM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ ์ˆœ์ฐจ์  ์ œ์•ฝ์œผ๋กœ ์ธํ•œ ๊ณต๊ฐ„ ์ดํ•ด ๋ถ€์กฑ๊ณผ ๊ธ€๋กœ๋ฒŒ ์ปจํ…์ŠคํŠธ ํ™œ์šฉ ๋ฏธํก์ด๋ผ๋Š” ์•ฝ์ ์„ ๋ณด์ด๊ณ  ์žˆ์—ˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ์—์„œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ์˜ ํ•„์š”์„ฑ์ด ๋Œ€๋‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. CNN์ฒ˜๋Ÿผ ์ดˆ๊ธฐ ๊ตญ์†Œ ํŠน์ง• ์ถ”์ถœ์€ ๋น ๋ฅด๊ฒŒ ํ•˜๊ณ , Mamba์˜ ํšจ์œจ์  ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์€ ์œ ์ง€ํ•˜๋˜ ๋ถ€์กฑํ•œ ์ „์—ญ ๋ฌธ๋งฅ ์ดํ•ด๋Š” Transformer์˜ ์ž๊ธฐ์–ดํ…์…˜์œผ๋กœ ๋ณด์™„ํ•˜๋ฉด ์–ด๋–จ๊นŒ ํ•˜๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ์ฆ‰, โ€œ์ตœ๊ณ ์˜ ์ •ํ™•๋„๋ฅผ ๊ฐ€์žฅ ํšจ์œจ์ ์œผ๋กœโ€ ์–ป๊ธฐ ์œ„ํ•ด ํ•œ ๊ฐ€์ง€ ๊ธฐ๋ฒ•๋งŒ ๊ณ ์ง‘ํ•˜๊ธฐ๋ณด๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ์žฅ์ ์„ ๊ฐ€์ง„ ๊ตฌ์กฐ๋“ค์„ ์กฐํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ๋ฐœ์ „ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ „์—๋„ CoAtNet์ด๋‚˜ ConvNext ๋“ฑ CNN+Transformer ํ˜ผ์„ฑ ๋ชจ๋ธ๋“ค์ด ์žˆ์—ˆ์ง€๋งŒ, Mamba์™€ Transformer๋ฅผ ๊ฒฐํ•ฉํ•œ ์‹œ๋„๋Š” ์—†์—ˆ์Šต๋‹ˆ๋‹ค. MambaVision์€ ๋ฐ”๋กœ ์ด๋Ÿฌํ•œ ์ฒซ ๋„์ „์œผ๋กœ์„œ, Mamba ๊ธฐ๋ฐ˜ ํ† ํฐ ๋ฏน์„œ(token mixer)์— Transformer ๋ธ”๋ก์„ ๊ฒฐํ•ฉํ•œ ์ƒˆ๋กœ์šด ๋น„์ „ ๋ฐฑ๋ณธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

2.3 MambaVision์ด๋ž€? (What Is MambaVision?)

MambaVision์€ Mamba์™€ Transformer๋ฅผ ๋‹จ์ผ ์•„ํ‚คํ…์ฒ˜ ์•ˆ์—์„œ ์œตํ•ฉํ•œ ๊ณ„์ธตํ˜•(hierarchical) ๋น„์ „ ๋ฐฑ๋ณธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํ•œ ๋งˆ๋””๋กœ ์š”์•ฝํ•˜๋ฉด, Mamba์˜ ํšจ์œจ์„ฑ๊ณผ Transformer์˜ ์ „์—ญ ํ‘œํ˜„๋ ฅ์„ ๋ชจ๋‘ ์žก์€ ๋ชจ๋ธ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋Š” ํฌ๊ฒŒ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๊ธฐ์กด Mamba ๋ธ”๋ก์„ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•˜๋„๋ก ์žฌ์„ค๊ณ„(re-design)ํ•˜์—ฌ โ€œVision-Friendlyโ€ Mamba ํ† ํฐ ๋ฏน์„œ๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ž๋™ํšŒ๊ท€ ํŠน์„ฑ์„ ์™„ํ™”ํ•˜๊ณ  ์ถ”๊ฐ€ ๊ฒฝ๋กœ๋ฅผ ๋„์ž…ํ•˜๋Š” ๋“ฑ์˜ ๊ฐœ์„ ์„ ํ†ตํ•ด, ์›๋ณธ Mamba ๋Œ€๋น„ ์ •ํ™•๋„์™€ ์ฒ˜๋ฆฌ ํšจ์œจ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œํ‚จ ์ƒˆ๋กœ์šด ํ† ํฐ ๋ฏน์„œ๊ฐ€ ํƒ„์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ด๋ ‡๊ฒŒ ๊ฐœ์„ ๋œ Mamba ํ† ํฐ ๋ฏน์„œ๋ฅผ Transformer์˜ ์ž๊ธฐ์–ดํ…์…˜ ๋ธ”๋ก๊ณผ ํ˜ผํ•ฉํ•˜์—ฌ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํ†ตํ•ฉ ๋ฐฉ๋ฒ•์„ ์‹คํ—˜ํ•œ ๋์—, ๋ชจ๋ธ์˜ ํ›„๋ฐ˜๋ถ€ ์ธต๋“ค์— ์ž๊ธฐ์–ดํ…์…˜์„ ์ ์šฉํ•˜๋Š” ์ „๋žต์ด ์ตœ์ ์ž„์„ ๋ฐœ๊ฒฌํ–ˆ๊ณ , ์ด๋ฅผ ํ† ๋Œ€๋กœ MambaVision์ด๋ผ๋Š” ๋‹ค์ค‘ ํ•ด์ƒ๋„ ๋‹จ๊ณ„ํ˜• ๋ชจ๋ธ์„ ์™„์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

MambaVision์€ ์ „์ฒด์ ์œผ๋กœ 4๊ฐœ์˜ Stage(๋‹จ๊ณ„)๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ ๋‹จ๊ณ„์—์„œ ์ž…๋ ฅ ํ•ด์ƒ๋„๋ฅผ ์ ์ง„์ ์œผ๋กœ ์ค„์—ฌ๋‚˜๊ฐ€๋ฉฐ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์•ž๋‹จ(Stage 1-2)์—์„œ๋Š” CNN ๊ธฐ๋ฐ˜ ๋ ˆ์ง€๋“€์–ผ ๋ธ”๋ก๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ํ•ด์ƒ๋„์˜ ์ž…๋ ฅ์„ ์‹ ์†ํžˆ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค. ํ›„๋‹จ(Stage 3-4)์—์„œ๋Š” MambaVision Mixer ๋ธ”๋ก๊ณผ Transformer ์ž๊ธฐ์–ดํ…์…˜ ๋ธ”๋ก์ด ๊ฒฐํ•ฉ๋˜์–ด ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฐ Stage์˜ ๋ ˆ์ด์–ด๋“ค ์ค‘ ์ฒซ ์ ˆ๋ฐ˜์€ MambaVision Mixer + MLP๋กœ ๊ตฌ์„ฑ๋˜๊ณ , ๋‚˜๋จธ์ง€ ์ ˆ๋ฐ˜์€ Transformer Self-Attention + MLP๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ดˆ๋ฐ˜์—๋Š” Mamba ๊ธฐ๋ฐ˜์˜ ํšจ์œจ์  ํ† ํฐ ํ˜ผํ•ฉ์œผ๋กœ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ํ›„๋ฐ˜์—๋Š” ์ž๊ธฐ์–ดํ…์…˜์œผ๋กœ ์ „์—ญ ํŒจํ„ด์„ ํŒŒ์•…ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” โ€œ์ตœ์ข… ๋ช‡ ๊ฐœ ์ธต์˜ Transformer ๋ธ”๋ก์ด ์žƒ์–ด๋ฒ„๋ฆฐ ์ „์—ญ ๋ฌธ๋งฅ์„ ํšŒ๋ณตํ•˜๊ณ  ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ์บก์ฒ˜ํ•ด์ค€๋‹คโ€๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, MambaVision์€ ๋กœ์ปฌ-๊ธ€๋กœ๋ฒŒ ์ฒ˜๋ฆฌ์˜ ๊ท ํ˜•์„ ๊ณ„์ธต ๊ตฌ์กฐ ๋‚ด์—์„œ ๋‹ฌ์„ฑํ•œ ๋ชจ๋ธ์ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ MambaVision ๋ชจ๋ธ๊ตฐ(MambaVision-T, S, B, L ๋“ฑ ํฌ๊ธฐ๋ณ„ ๋ชจ๋ธ)์€ ImageNet-1K ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๊ธฐ์ค€์œผ๋กœ ์ด์ „๊นŒ์ง€ ๋ณด๊ณ ๋œ ์–ด๋–ค ๋ชจ๋ธ๋ณด๋‹ค๋„ ๋†’์€ ์ •ํ™•๋„-์†๋„ ๊ท ํ˜• ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฒฝ์Ÿ ๋ฐฑ๋ณธ๋“ค๊ณผ Top-1 ์ •ํ™•๋„ ๋Œ€ ์ถ”๋ก  ์ฒ˜๋ฆฌ์†๋„(throughput)๋ฅผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, MambaVision์ด ์ƒˆ๋กœ์šด Pareto ์ตœ์  ์„ ์„ ๊ทธ๋ฆฐ๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋™์ผํ•œ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ๋‚ด๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์›”๋“ฑํžˆ ๋น ๋ฅด๋ฉฐ, ๋น„์Šทํ•œ ์†๋„์—์„œ๋Š” ํ›จ์”ฌ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋Š”๋ฐ, ์ด๋Š” ํ•˜๋“œ์›จ์–ด ํšจ์œจ์„ฑ๊นŒ์ง€ ๊ณ ๋ คํ•œ Mamba์˜ ์žฅ์ ๊ณผ Transformer์˜ ํ‘œํ˜„๋ ฅ์„ ๋ชจ๋‘ ํ™œ์šฉํ•œ ๋•๋ถ„์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ MS COCO ๊ฐ์ฒด ๊ฒ€์ถœ์ด๋‚˜ ADE20K ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๋“ฑ์˜ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์—์„œ๋„, MambaVision์„ ๋ฐฑ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์ด ๊ธฐ์กด ๋™๊ธ‰ ๋ฐฑ๋ณธ์„ ์“ด ๋ชจ๋ธ๋ณด๋‹ค ์ผ๊ด€๋˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๊ณ  ๋ณด๊ณ ๋ฉ๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, MambaVision์€ ๋น„์ „ ๋ฐฑ๋ณธ ์„ค๊ณ„์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€ ์ฒซ ์‚ฌ๋ก€๋กœ์„œ, Mamba์™€ Transformer์˜ ๋งŒ๋‚จ์ด ์‹ค์šฉ์  ๊ฐ€์น˜๊ฐ€ ์žˆ์Œ์„ ์ž…์ฆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.4 ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ (Architecture Details)

MambaVision ๋ฐฑ๋ณธ์˜ ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”. ์ž…๋ ฅ ์ด๋ฏธ์ง€๋Š” ํ•ฉ์„ฑ๊ณฑ ๊ธฐ๋ฐ˜์˜ Stem๊ณผ Conv Block ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ๋‹ค์šด์ƒ˜ํ”Œ๋ง๋˜๊ณ , Stage 3์™€ 4์—์„œ MambaVision Mixer ๋ธ”๋ก๋“ค๊ณผ Self-Attention ๋ธ”๋ก๋“ค์ด ์กฐํ•ฉ๋˜์–ด ํŠน์ง•์„ ์ถ”์ถœํ•œ๋‹ค.

MambaVision์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 2(์œ„ ๋‹ค์ด์–ด๊ทธ๋žจ)์€ MambaVision์˜ 4-Stage ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์šฐ์„  Stem์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ์ž…๋ ฅ ์ฒ˜๋ฆฌ ๋‹จ๊ณ„์—์„œ, ์ด๋ฏธ์ง€๊ฐ€ ์ž‘์€ ํŒจ์น˜๋“ค๋กœ ๋ถ„ํ• ๋˜์–ด ๋ช‡ ์ฐจ๋ก€์˜ $3$ ํ•ฉ์„ฑ๊ณฑ๊ณผ ์ŠคํŠธ๋ผ์ด๋“œ 2 ๋‹ค์šด์ƒ˜ํ”Œ๋ง์„ ๊ฑฐ์น˜๋ฉฐ C ์ฐจ์› ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ด Stem์€ ์ผ์ข…์˜ ๊ฐ„๋‹จํ•œ CNN ์ธ์ฝ”๋” ์—ญํ• ์„ ํ•˜์—ฌ, ๊ฑฐ๋Œ€ํ•œ ํ•ด์ƒ๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์‹ ๊ฒฝ๋ง์ด ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์œผ๋กœ ์ค„์—ฌ์ค๋‹ˆ๋‹ค. ์ด์–ด์„œ Stage 1๊ณผ Stage 2์—์„œ๋Š” ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connection)์„ ๊ฐ–๋Š” CNN ๋ธ”๋ก๋“ค์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ฐ Stage ์‚ฌ์ด์—๋Š” ์ŠคํŠธ๋ผ์ด๋“œ 2์˜ ๋‹ค์šด์ƒ˜ํ”Œ ํ•ฉ์„ฑ๊ณฑ์ด ์žˆ์–ด ํ•ด์ƒ๋„๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ๋‚ฎ์ถ”๋ฉฐ, ์ฑ„๋„ ์ˆ˜๋Š” ๋Š˜๋ ค๊ฐ‘๋‹ˆ๋‹ค (์˜ˆ: Stage 1 ์ถœ๋ ฅ ์ฑ„๋„ $C$์—์„œ Stage 2 ์ถœ๋ ฅ $2C$๋กœ ์ฆ๊ฐ€). ์ด๋Ÿฌํ•œ ๋””์ž์ธ์€ ConvNeXt ๋“ฑ ์ตœ์‹  CNN๊ณผ ์œ ์‚ฌํ•œ ๊ณ„์ธตํ˜• ํ”ผ๋ผ๋ฏธ๋“œ ๊ตฌ์กฐ๋กœ, ๊ณ ํ•ด์ƒ๋„์—์„œ๋Š” ํ•ฉ์„ฑ๊ณฑ์œผ๋กœ ๊ตญ์†Œ ํŠน์ง•์„ ๋น ๋ฅด๊ฒŒ ์ถ”์ถœํ•˜์—ฌ ํšจ์œจ์„ ๋†’์ด๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.

Stage 3์™€ Stage 4๊ฐ€ MambaVision์˜ ํ•ต์‹ฌ ํ˜์‹ ์ด ๋“ค์–ด์žˆ๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ๊ฐ Stage์—๋Š” ๋‹ค์ˆ˜์˜ ๋ ˆ์ด์–ด๊ฐ€ ์žˆ๋Š”๋ฐ, ์ ˆ๋ฐ˜์€ MambaVision Mixer ๋ธ”๋ก, ์ ˆ๋ฐ˜์€ Transformer Self-Attention ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Stage 3์— 8๊ฐœ์˜ ๋ ˆ์ด์–ด๊ฐ€ ์žˆ๋‹ค๋ฉด ์ฒ˜์Œ 4๊ฐœ๋Š” MambaVision ํ† ํฐ ๋ฏน์„œ๋ฅผ, ๋‚˜๋จธ์ง€ 4๊ฐœ๋Š” ๋ฉ€ํ‹ฐํ—ค๋“œ ์ž๊ธฐ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ ˆ์ด์–ด๋Š” Layer Normalization -> ํ† ํฐ ๋ฏน์‹ฑ(Mamba ๋˜๋Š” Self-Attention) -> ์ž”์ฐจํ•ฉ ๊ทธ๋ฆฌ๊ณ  Layer Normalization -> MLP (๋‘ ๊ฐœ์˜ ์„ ํ˜•์ธต์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ํ”ผ๋“œํฌ์›Œ๋“œ) -> ์ž”์ฐจํ•ฉ์˜ ํ‘œ์ค€ Transformer ์Šคํƒ€์ผ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. Stage 3 ๋์—์„œ ๋‹ค์‹œ ๋‹ค์šด์ƒ˜ํ”Œ๋ง์ด ํ•œ ๋ฒˆ ์ด๋ฃจ์–ด์ง€๊ณ , Stage 4์—์„œ๋„ ๋™์ผํ•œ ํŒจํ„ด์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ Stage 4 ์ถœ๋ ฅ ํŠน์„ฑ๋งต์„ 2D ํ‰๊ท  ํ’€๋ง์œผ๋กœ ๊ณต๊ฐ„ ์ฐจ์›์„ ์ค„์ด๊ณ , ์ตœ์ข… ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ์˜ˆ์ธก์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ MambaVision์€ CNN+SSM+Transformer๊ฐ€ ์œ ๊ธฐ์ ์œผ๋กœ ํ†ตํ•ฉ๋œ ํ˜•ํƒœ๋กœ, ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์ ์žฌ์ ์†Œ์— ๋ฐฐ์น˜๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. CNN์€ ๊ณ ํ•ด์ƒ๋„ ํŠน์ง• ์ถ”์ถœ์„ ๊ฐ€์†ํ•˜๊ณ , Mamba ๊ธฐ๋ฐ˜ ํ† ํฐ ๋ฏน์„œ๋Š” ์ค‘๊ฐ„ ๋‹จ๊ณ„์—์„œ ํšจ์œจ์ ์œผ๋กœ ํŠน์ง•์„ ์œตํ•ฉํ•˜๋ฉฐ, Transformer ๋ธ”๋ก์€ ํ›„๋ฐ˜๋ถ€์—์„œ ์ „์—ญ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Transformer ๋ธ”๋ก์„ ์ตœ์ข… ๋‹จ๊ณ„์— ๋ฐฐ์น˜ํ•œ ๊ฒƒ์€, ์•ž ๋‹จ๊ณ„๊นŒ์ง€์˜ ์ฒ˜๋ฆฌ์—์„œ ๋†“์ณค์„ ์ˆ˜ ์žˆ๋Š” ๊ธ€๋กœ๋ฒŒ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋ณต์›ํ•˜๊ณ  ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•œ ์„ค๊ณ„์ƒ์˜ ์„ ํƒ์ž…๋‹ˆ๋‹ค.

2.4.1 MambaVision Mixer ๋ธ”๋ก ์„ค๊ณ„

MambaVision ์•„ํ‚คํ…์ฒ˜์˜ ๋ฐฑ๋ฏธ๋Š” MambaVision Mixer๋ผ ๋ช…๋ช…๋œ ํ† ํฐ ๋ฏน์‹ฑ ๋ธ”๋ก์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด Mamba ๋ธ”๋ก์„ Vision ์šฉ๋„๋กœ ๊ฐœ์กฐํ•œ ๊ฒƒ์œผ๋กœ, ๊ฐ„๋‹จํžˆ ๋งํ•ด SSM ๊ธฐ๋ฐ˜ ๋ถ„์ง€(branch)์™€ ๋น„-SSM ๋ถ„์ง€ ๋‘ ๊ฐˆ๋ž˜๋กœ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•œ ๋’ค ํ†ตํ•ฉํ•˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์›๋ณธ Mamba Mixer๋Š” ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ •๋ณด๋ฅผ ํ˜๋ ค๋ณด๋‚ด๋Š” ์ธ๊ณผ์ (convolution causal) 1D ์ปจ๋ณผ๋ฃจ์…˜๊ณผ SSM์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์—ˆ๋Š”๋ฐ, ์ €์ž๋“ค์€ ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋ณ€๊ฒฝ์„ ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค:

  • 1) ์ธ๊ณผ์  1D ์ปจ๋ณผ๋ฃจ์…˜์„ ์ผ๋ฐ˜ 1D ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ๋Œ€์ฒดํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ธ๊ณผ์  ์ปจ๋ณผ๋ฃจ์…˜์€ ์‹œํ€€์Šค ์ฒ˜๋ฆฌ์—์„œ ํ˜„์žฌ ์œ„์น˜ ์ดํ›„์˜ ์ •๋ณด๋ฅผ ์ฐจ๋‹จํ•˜์—ฌ ์ˆœ๋ฐฉํ–ฅ ์˜์กด๋งŒ ๋‚จ๊ธฐ๋Š” ์—ญํ• ์„ ํ•˜๋Š”๋ฐ, ์ด๋ฏธ์ง€์—์„œ๋Š” ๊ตณ์ด ํ•œ์ชฝ ๋ฐฉํ–ฅ์œผ๋กœ ์ œํ•œํ•  ํ•„์š”๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์˜คํžˆ๋ ค ์ด๋Ÿฌํ•œ ์ œ์•ฝ์ด ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ๊ตญ์†Œ ํŒจํ„ด์„ ์ „๋‹ฌํ•˜๋„๋ก ๋งŒ๋“ค์–ด ๋น„์ „์—๋Š” ๋ถˆํ•„์š”ํ•˜๊ณ  ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜ ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ๋ฐ”๊ฟˆ์œผ๋กœ์จ ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  • 2) SSM์ด ์—†๋Š” ๋ณ‘๋ ฌ ๋ถ„์ง€(branch)๋ฅผ ์ถ”๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ž…๋ ฅ์„ ๋‘˜๋กœ ๋‚˜๋ˆ„์–ด ํ•˜๋‚˜๋Š” ๊ธฐ์กด์ฒ˜๋Ÿผ SSM ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ฅด๊ณ  (Conv1D + SSM ์—ฐ์‚ฐ), ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์ถ”๊ฐ€๋œ 1D ์ปจ๋ณผ๋ฃจ์…˜ ์—ฐ์‚ฐ + SiLU ํ™œ์„ฑํ™”๋ฅผ ํ†ต๊ณผํ•˜๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋‘ ๋ฒˆ์งธ ๊ฒฝ๋กœ๋Š” ์ˆœ์ฐจ์  ์ƒํƒœ ์—…๋ฐ์ดํŠธ ์—†์ด ์ฆ‰๊ฐ์ ์ธ ๊ณต๊ฐ„ ์ฒ˜๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, SSM ๊ฒฝ๋กœ๊ฐ€ ์žก์•„๋‚ด์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋Š” ์ •์ ์ธ ์ •๋ณด๋‚˜ ๊ธ€๋กœ๋ฒŒ ํŒจํ„ด์„ ๋ณด์™„ํ•ด์ฃผ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, SSM ๋ถ„๊ธฐ๊ฐ€ โ€œ์‹œ๊ฐ„์ (์ˆœ์ฐจ์ ) ํ†ตํ•ฉโ€์— ์ดˆ์ ์„ ๋‘”๋‹ค๋ฉด, ์ถ”๊ฐ€๋œ ๋ถ„๊ธฐ๋Š” โ€œ๊ณต๊ฐ„์  ํ•„ํ„ฐ๋งโ€์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์…ˆ์ž…๋‹ˆ๋‹ค.

์ด ๋‘ ๊ฒฝ๋กœ์˜ ์ถœ๋ ฅ์€ Concatenation(์ฑ„๋„ ์ถ• ์—ฐ๊ฒฐ)์œผ๋กœ ํ•ฉ์ณ์ง€๊ณ , ๋‹ค์‹œ ์„ ํ˜• ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ์›๋ž˜ ์ฐจ์›์œผ๋กœ ํˆฌ์‚ฌ(projection)๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ถœ๋ ฅ ํ”ผ์ฒ˜๋Š” ๋‘ ๊ฐ€์ง€ ๋ถ„๊ธฐ์˜ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๊ฒŒ ๋˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ์ž”์ฐจ ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ์ž…๋ ฅ๊ณผ ๋”ํ•ด์ง‘๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋Ÿฌํ•œ ๋Œ€์นญ ๋ถ„๊ธฐ ์„ค๊ณ„๋ฅผ ํ†ตํ•ด SSM์˜ ์ˆœ์ฐจ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์†์‹ค๋  ์ˆ˜ ์žˆ๋Š” ์ฝ˜ํ…์ธ ๋ฅผ ๋ณด์™„ํ•˜๊ณ , ๋‘ ๋ถ„๊ธฐ์˜ ์žฅ์ ์„ ๋ชจ๋‘ ์‚ด๋ฆฐ ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•˜๊ฒŒ๋„, ์ƒˆ๋กœ ์ถ”๊ฐ€๋œ ๋ถ„๊ธฐ๋กœ ์ธํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ๋Š˜์ง€ ์•Š๋„๋ก ๊ฐ ๋ถ„๊ธฐ์˜ ์ถœ๋ ฅ ์ฑ„๋„์„ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ด๋Š” ๋“ฑ ํฌ๊ธฐ ๊ท ํ˜•๋„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

์ด MambaVision Mixer ๋ธ”๋ก์˜ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด ๋…ผ๋ฌธ Figure 3์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ๊ทธ๋ฆผ์—๋Š” SSM ๊ฒฝ๋กœ(์ขŒ์ธก, SSM ๋ธ”๋ก ๋ฐ ๊ด€๋ จ Conv1D)์™€ ์‹ ๊ทœ ๊ฒฝ๋กœ(์šฐ์ธก, Conv1D ๋ฐ SiLU)๊ฐ€ ๋ณ‘๋ ฌ๋กœ ๊ทธ๋ ค์ ธ ์žˆ๊ณ , ์ตœ์ข… Linear๋กœ ํ•ฉ์ณ์ง€๋Š” ๋ชจ์Šต์ด ๋ฌ˜์‚ฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ MambaVision Mixer๋Š” ์ˆœ์ฐจ์  ์ฒ˜๋ฆฌ์˜ ์žฅ์ ๊ณผ ๋ณ‘๋ ฌ ๊ณต๊ฐ„ ์ฒ˜๋ฆฌ์˜ ์žฅ์ ์„ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ์ปค์Šคํ…€ ํ† ํฐ ๋ฏน์„œ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด Mixer ๋ธ”๋ก ํ•˜๋‚˜๋งŒ ๋†“๊ณ  ๋ด๋„ ์›๋ณธ Mamba ๋Œ€๋น„ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์žˆ์—ˆ๋Š”๋ฐ, ๋…ผ๋ฌธ ๋ถ€๋ก์— ๊ณต๊ฐœ๋œ ์‹คํ—˜์„ ๋ณด๋ฉด:

  • ์•„๋ฌด ์ˆ˜์ • ์—†๋Š” ์›๋ž˜ Mamba ํ† ํฐ ๋ฏน์„œ๋Š” ImageNet-1K Top-1 ์ •ํ™•๋„ ์•ฝ 80.9%, ADE20K ๋ถ„ํ•  mIoU 44.2 ๋“ฑ์— ๊ทธ์ณค์ง€๋งŒ,
  • ์ธ๊ณผ ์ปจ๋ณผ๋ฃจ์…˜์„ ์ผ๋ฐ˜ ์ปจ๋ณผ๋ฃจ์…˜์œผ๋กœ ๊ต์ฒดํ•˜์ž ๋ชจ๋“  ์ง€ํ‘œ๊ฐ€ ์†Œํญ ์ƒ์Šนํ–ˆ๊ณ ,
  • ๋Œ€์นญ Conv ๋ถ„๊ธฐ(Conv2) ์ถ”๊ฐ€๊นŒ์ง€ ํ–ˆ๋”๋‹ˆ Top-1 81.3%, mIoU 45.7%๋กœ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค,
  • ์ตœ์ข…์ ์œผ๋กœ ์ถœ๋ ฅ ๊ฒฐํ•ฉ ๋ฐฉ์‹์„ gating ๋Œ€์‹  concat์œผ๋กœ ๋ฐ”๊พธ๋Š” ์ตœ์ข… ์„ค๊ณ„์—์„œ Top-1 82.3%, mIoU 46.0%๊นŒ์ง€ ์„ฑ๋Šฅ์ด ๋„์•ฝํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Š” MambaVision Mixer ์„ค๊ณ„๊ฐ€ ๋น„์ „ ์ž‘์—…์— ๋งค์šฐ ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ •๋ฆฌํ•˜๋ฉด, MambaVision์˜ ์„ฑ๊ณต์€ ๋‹จ์ˆœํžˆ Mamba์™€ Transformer๋ฅผ ๊ฒฐํ•ฉํ–ˆ๋‹ค๋Š” ๋ฐ ๊ทธ์น˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, Mamba ์ž์ฒด๋ฅผ ๋น„์ „์— ์ตœ์ ํ™”ํ•˜์—ฌ ์—…๊ทธ๋ ˆ์ด๋“œํ•œ ๋•๋ถ„์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด Mixer ๋ธ”๋ก์„ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ˆœ์ฐจ์  ์žฅ๊ธฐ ์˜์กด์„ฑ๊ณผ ๊ณต๊ฐ„์  ๊ธ€๋กœ๋ฒŒ ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ํฌ์ฐฉํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ํ† ํฐ ํ˜ผํ•ฉ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ดํ›„ ์ด์–ด์ง€๋Š” Transformer ์ž๊ธฐ์–ดํ…์…˜ ์ธต๋“ค๊ณผ ์‹œ๋„ˆ์ง€๋ฅผ ๋ƒ…๋‹ˆ๋‹ค. Transformer ๋ธ”๋ก์€ ํ‘œ์ค€ ๋ฉ€ํ‹ฐํ—ค๋“œ self-attention์„ ์‚ฌ์šฉํ•˜๋˜, ์œˆ๋„์šฐ ํฌ๊ธฐ ๋“ฑ์„ ์ ์ ˆํžˆ ์กฐ์ ˆํ•˜์—ฌ ๋†’์€ ํ•ด์ƒ๋„์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ๋™์ž‘ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข… Stage์˜ self-attention์€ resolution์ด ๋งŽ์ด ๋‚ด๋ ค๊ฐ„ ($7$ ๋“ฑ) ์ƒํƒœ์ด๊ธฐ์— ๋ถ€๋‹ด์ด ํฌ์ง€ ์•Š๊ณ , ๋Œ€์‹  ์ด๋ฏธ์ง€ ์ „์—ญ์˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•ด์ค๋‹ˆ๋‹ค.

์š”์ปจ๋Œ€ MambaVision ์•„ํ‚คํ…์ฒ˜๋Š” โ€œCNN + ๊ฐœ์„ ๋œ Mamba Mixer + Transformerโ€๊ฐ€ ๋‹จ๊ณ„๋ณ„๋กœ ๋ฐฐ์น˜๋œ ํ˜•ํƒœ๋กœ, ๊ฐ ๊ตฌ์„ฑ์˜ ์žฅ์ ์„ ์ตœ๋Œ€ํ•œ ๋ฐœํœ˜ํ•˜๋„๋ก ์ •๊ตํ•˜๊ฒŒ ์กฐํ•ฉ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ Stage์—์„œ๋Š” CNN์ด ๋กœ์ปฌ ํŒจํ„ด์„ ํฌ์ฐฉํ•˜๊ณ  ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•˜์—ฌ ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”, ์ค‘๊ฐ„ Stage์—์„œ๋Š” MambaVision Mixer๊ฐ€ ์ค‘/์žฅ๊ธฐ ์˜์กด์„ฑ์„ ๋น ๋ฅด๊ฒŒ ํ†ตํ•ฉ, ํ›„๋ฐ˜ Stage์—์„œ๋Š” Transformer ์–ดํ…์…˜์ด ์ „์—ญ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•จ์œผ๋กœ์จ, ์ตœ์ข…์ ์œผ๋กœ ๊ณ ์†์ถ”๋ก ์—๋„ SOTA๊ธ‰ ์ •ํ™•๋„๋ฅผ ๋‚ด๋Š” ๋ฐฑ๋ณธ์„ ์™„์„ฑํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.5 ์‹คํ—˜ ๊ฒฐ๊ณผ (Experimental Results)

๋…ผ๋ฌธ์—์„œ๋Š” MambaVision์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋น„์ „ ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜(ImageNet-1K)๋ถ€ํ„ฐ ๊ฐ์ฒด ๊ฒ€์ถœ/๋ถ„ํ• (MS COCO), ์žฅ๋ฉด ๋ถ„ํ• (ADE20K)์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ํญ๋„“์€ ํ‰๊ฐ€์—์„œ ๋™์ผ ์„ธ๋Œ€ ์ตœ๊ณ  ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ต๊ฐ€ ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ฒฐ๊ณผ๋ฅผ ์š”์•ฝํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

2.5.1 ImageNet-1K ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ

ImageNet-1K ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ Top-1 ๋ถ„๋ฅ˜ ์ •ํ™•๋„์™€ ์ถ”๋ก  ์†๋„ ๋น„๊ต์—์„œ, MambaVision ๋ชจ๋ธ๋“ค์€ ํ˜„ ์‹œ์  ์ตœ๊ณ ์˜ ๊ท ํ˜• ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ MambaVision-B ๋ชจ๋ธ(์•ฝ 98M ํŒŒ๋ผ๋ฏธํ„ฐ)์€ Top-1 ์ •ํ™•๋„ 84.2%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ConvNeXt-B(88M param, 83.8%)๋‚˜ SwinV2-S/B(50-88M param, 83.8~84.6%) ๋“ฑ์„ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. ๋†€๋ผ์šด ์ ์€ ์ถ”๋ก  ์†๋„(์ด๋ฏธ์ง€/์ดˆ ๊ธฐ์ค€)์—์„œ MambaVision-B๊ฐ€ 3670 Img/sec๋กœ, ConvNeXt-B์˜ 1485 Img/sec ๋Œ€๋น„ 2๋ฐฐ ์ด์ƒ ๋น ๋ฅด๊ณ  Swin๊ณผ ๋น„๊ตํ•˜๋ฉด ์ˆ˜๋ฐฐ์— ๋‹ฌํ•˜๋Š” ์†๋„๋ฅผ ๋ƒˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, MambaVision-B๋Š” ๋” ์ •ํ™•ํ•˜๋ฉด์„œ๋„ ํ›จ์”ฌ ๋น ๋ฅธ ๋ชจ๋ธ์ธ ์…ˆ์ž…๋‹ˆ๋‹ค. ์ž‘์€ ๋ชจ๋ธ์—์„œ๋„ ์œ ์‚ฌํ•œ ์–‘์ƒ์ด ๋‚˜ํƒ€๋‚˜, MambaVision-T(Tiny๊ธ‰ 32M param)์€ 82.3% ์ •ํ™•๋„๋กœ ConvNeXt-T(29M, 82.0%)์™€ ๊ฑฐ์˜ ๋™๋“ฑํ•˜์ง€๋งŒ ์†๋„๋Š” 6298 Img/sec๋กœ ConvNeXt-T(3196 Img/sec)์˜ ๋‘ ๋ฐฐ์— ๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” EfficientFormer๋‚˜ NextViT ๊ฐ™์€ ๊ธฐ์กด ํšจ์œจ ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ์•ž์ง€๋ฅด๋Š” ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, MambaVision ์‹œ๋ฆฌ์ฆˆ๋Š” ๋ชจ๋ธ ํฌ๊ธฐ ์ „ ๋ฒ”์œ„์— ๊ฑธ์ณ ์ตœ์‹  ConvNeXt, Swin ๋“ฑ์˜ ์ •ํ™•๋„๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋™๋“ฑํ•˜๋ฉด์„œ๋„, ์ถ”๋ก  ์ฒ˜๋ฆฌ๋Ÿ‰์€ ์›”๋“ฑํžˆ ๋†’์•„ ์ƒˆ๋กœ์šด Pareto ํ”„๋ก ํ‹ฐ์–ด๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฝํ–ฅ์„ ํ•œ๋ˆˆ์— ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด ๋…ผ๋ฌธ Figure 1์˜ ์ •ํ™•๋„-์ฒ˜๋ฆฌ๋Ÿ‰ ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ๊ทธ๋ž˜ํ”„์—์„œ ์šฐ์ธก์ƒ๋‹จ ๋ฐฉํ–ฅ์œผ๋กœ ๋ณผ๋กํ•˜๊ฒŒ ํ˜•์„ฑ๋œ ์ตœ์„ ์˜ ๊ฒฝ๊ณ„๊ฐ€ MambaVision ๋ชจ๋ธ๋“ค๋กœ, ๊ธฐ์กด EfficientNet, Swin, ViT ๊ณ„์—ด ๋ฐ ๋‹ค๋ฅธ Mamba ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(Vim, VMamba ๋“ฑ)๋“ค์ด ๊ทธ๋ณด๋‹ค ์•„๋ž˜์ชฝ์— ์œ„์น˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ด์ „์˜ Mamba ๊ธฐ๋ฐ˜ ๋น„์ „ ๋ชจ๋ธ๋“ค์ด ์ตœ๊ณ  83%๋Œ€ ์ •ํ™•๋„์— ๊ทธ์ณค๋˜ ๊ฒƒ์— ๋น„ํ•ด, MambaVision์€ ์ด๋ฅผ ์ตœ๋Œ€ ์•ฝ 85% ์ˆ˜์ค€๊นŒ์ง€ ๋Œ์–ด์˜ฌ๋ ธ์Šต๋‹ˆ๋‹ค. ๋™์‹œ์— ๋™์ผ ์ •ํ™•๋„์—์„œ์˜ ์†๋„๋Š” ์ˆ˜๋ฐฐ ํ–ฅ์ƒ๋˜์–ด, ์˜ˆ๋ฅผ ๋“ค์–ด VMamba-B(89M param, 83.9%)๊ฐ€ 645 Img/sec์— ๋ถˆ๊ณผํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋Œ€์กฐ์ ์œผ๋กœ MambaVision-B๋Š” 3670 Img/sec์— ๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋งˆ๋””๋กœ ๋” ์ ์€ ์—ฐ์‚ฐ์œผ๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ์–ป๋Š” ๋ฐ ์„ฑ๊ณตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ์ €์ž๋“ค์€ Mamba ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ์„œ๋Š” ์ตœ์ดˆ๋กœ ImageNet-21K ๊ฑฐ๋Œ€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ MambaVision์„ ์‚ฌ์ „ํ›ˆ๋ จํ•ด ๋ณด๋Š” ์‹คํ—˜๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์‚ฌ์ „ํ›ˆ๋ จ์„ ๊ฑฐ์นœ MambaVision์€ ๋”์šฑ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด MambaVision-B์˜ Top-1 ์ •ํ™•๋„๊ฐ€ 84.2% -> 84.9%๋กœ ์˜ฌ๋ผ๊ฐ”์Šต๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ๋„ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ชจ๋ธ ์Šค์ผ€์ผ์„ ํ‚ค์›Œ๋„ ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ํ–ฅ์ƒํ•จ์„ ํ™•์ธํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค (๋…ผ๋ฌธ์˜ Figure 4 ๊ทธ๋ž˜ํ”„ ์ฐธ๊ณ ). ์ด๋Š” MambaVision์ด ํ™•์žฅ์„ฑ(scale-up) ์ธก๋ฉด์—์„œ๋„ ์ž ์žฌ๋ ฅ์ด ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

2.5.2 ๊ฐ์ฒด ๊ฒ€์ถœ ๋ฐ ๋ถ„ํ•  ์„ฑ๋Šฅ (COCO, ADE20K)

๋‹ค์Œ์œผ๋กœ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๋น„์ „ ๊ณผ์ œ์— ๋Œ€ํ•œ ๋ฐฑ๋ณธ์œผ๋กœ์„œ์˜ ์„ฑ๋Šฅ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” MS COCO ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ฐ ์ธ์Šคํ„ด์Šค ๋ถ„ํ• ์— Cascade Mask R-CNN ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹คํ—˜ํ•˜์˜€๊ณ , ADE20K ๋ฐ์ดํ„ฐ์…‹์˜ ์žฅ๋ฉด ๋ถ„ํ• ์—๋Š” UPerNet ๋ชจ๋ธ๋กœ ์‹คํ—˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฒฝ์šฐ์—์„œ ๋™์ผํ•œ ์กฐ๊ฑด(๋™์ผ ํ—ค๋“œ์™€ ํ•™์Šต ์Šค์ผ€์ค„) ํ•˜์— ๋ฐฑ๋ณธ๋งŒ ๊ต์ฒดํ•˜์—ฌ ๋น„๊ตํ–ˆ๋Š”๋ฐ, MambaVision ๋ฐฑ๋ณธ์ด ๋“ค์–ด๊ฐ„ ๋ชจ๋ธ์ด ์ผ๊ด€๋˜๊ฒŒ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • COCO ๊ฒ€์ถœ/๋ถ„ํ• : MambaVision-T/S/B ๊ฐ๊ฐ์„ ๋ฐฑ๋ณธ์œผ๋กœ ์ผ์„ ๋•Œ ๋ฐ•์Šค mAP ๋ฐ ๋งˆ์Šคํฌ mAP ์ง€ํ‘œ๊ฐ€, ConvNeXt-T/S/B ๋Œ€๋น„ +0.1~+0.7 ์ •๋„์”ฉ ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MambaVision-B ๋ฐฑ๋ณธ์€ ๋ฐ•์Šค AP 52.8 / ๋งˆ์Šคํฌ AP 45.7์„ ๊ธฐ๋กํ•˜์—ฌ ConvNeXt-B ๋ฐฑ๋ณธ(52.7 / 45.6)๋ณด๋‹ค ์•ฝ๊ฐ„ ๋†’๊ณ , Swin-B ๋ฐฑ๋ณธ(51.9 / 45.0)๋ณด๋‹ค๋Š” ๋ฐ•์Šค AP +0.9, ๋งˆ์Šคํฌ +0.7 ์ •๋„ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅ์ƒ ํญ์ด ์•„์ฃผ ํฌ์ง€๋Š” ์•Š์ง€๋งŒ ์ผ๊ด€๋˜๊ฒŒ ์šฐ์„ธํ•˜๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ๋‚˜ FLOPs ๋“ฑ์ด ๋น„์Šทํ•œ ์กฐ๊ฑด์—์„œ ์–ป์€ ๊ฐœ์„ ์ด๋ผ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฌด์—‡๋ณด๋‹ค, ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋†’์ด๋ฉด์„œ๋„ ์ •ํ™•๋„ ์†์‹ค์ด ์—†๋‹ค๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ๋ฐ, MambaVision ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋™์ผ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์ถ”๋ก  FPS๋„ ์˜ฌ๋ผ๊ฐˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋ฏ€๋กœ ์‹ค์šฉ์ ์ž…๋‹ˆ๋‹ค.

  • ADE20K ๋ถ„ํ• : Semantic segmentation ์ž‘์—…์—์„œ๋„ mIoU ์ง€ํ‘œ ์ƒ์˜ ๊ฐœ์„ ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. MambaVision-T, S, B ๋ฐฑ๋ณธ์€ ๊ฐ๊ฐ 46.0, 48.2, 49.1% mIoU๋ฅผ ๊ธฐ๋กํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋Œ€์‘๋˜๋Š” Swin-T/S/B ๋ฐฑ๋ณธ ์‚ฌ์šฉ ๋Œ€๋น„ +1.5, +0.6, +1.0% ํ–ฅ์ƒ๋œ ์ˆ˜์น˜์ž…๋‹ˆ๋‹ค. ConvNeXt ๊ณ„์—ด๊ณผ ๋น„๊ตํ•ด์„œ๋„ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ MambaVision-B์˜ 49.1% mIoU๋Š” ๋™๊ธ‰ ๋ฐฑ๋ณธ ์ค‘ ์ตœ๊ณ  ์ˆ˜์ค€์œผ๋กœ, ๊ธฐ์กด Focal Transformer-B(49.0%)๋‚˜ Twins-L(48.8%) ๋“ฑ์„ ๊ทผ์†Œํ•˜๊ฒŒ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ด๋“๋“ค์€ ํŠน๋ณ„ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ์—†์ด ๊ธฐ๋ณธ ์„ค์ •์œผ๋กœ ์–ป์€ ๊ฒƒ์ด์–ด์„œ ๋”์šฑ ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค. ์ฆ‰, MambaVision์€ ๋ถ„๋ฅ˜๋ฟ ์•„๋‹ˆ๋ผ ๊ฒ€์ถœ/๋ถ„ํ•  ๊ฐ™์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ณผ์ œ์—๋„ ๋ฒ”์šฉ์ ์œผ๋กœ ๊ฐ•ํ•œ ๋ฐฑ๋ณธ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ „๋ฐ˜์ ์œผ๋กœ ์‹คํ—˜ ๊ฒฐ๊ณผ๋“ค์€ MambaVision์˜ ํšจ์œจ์  ์„ค๊ณ„๊ฐ€ ๋‹ค์–‘ํ•œ ๋น„์ „ ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ถ”๋ก  ์†๋„ ํ–ฅ์ƒ๊ณผ ์ •ํ™•๋„ ํ–ฅ์ƒ์ด ๋™์‹œ์— ์ด๋ฃจ์–ด์กŒ๋‹ค๋Š” ์ ์—์„œ, ๋‹จ์ˆœํ•œ ์ •ํ™•๋„ ์Šน๋ถ€๋ฅผ ๋„˜์–ด ์‹ค์ œ ์ ์šฉ ํšจ์œจ๊นŒ์ง€ ๊ณ ๋ คํ•œ ํฐ ์ง„์ „์ด๋ผ ํ‰๊ฐ€ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.

2.6 ๋ถ„์„ ๋ฐ ๋…ผ์˜ (Analysis and Discussion)

MambaVision์˜ ์„ฑ๊ณต ์š”์ธ์„ ์กฐ๊ธˆ ๋” ๊นŠ์ด ๋“ค์—ฌ๋‹ค๋ณด๊ณ , ๊ทธ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์ด ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ”๋Š” โ€œํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฑ๋ณธโ€ ์ ‘๊ทผ์ด ์–ผ๋งˆ๋‚˜ ๊ฐ•๋ ฅํ•  ์ˆ˜ ์žˆ๋Š”์ง€์ž…๋‹ˆ๋‹ค. MambaVision์€ Transformer๋ฅ˜ ๋ชจ๋ธ์˜ ์„ธ๊ณ„์™€ SSM(Recurrent) ๋ชจ๋ธ์˜ ์„ธ๊ณ„๋ฅผ ์ ˆ๋ฌ˜ํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ, ์–‘์ชฝ์˜ ์žฅ์ ์„ ์ทจํ•˜๊ณ  ๋‹จ์ ์„ ๋ณด์™„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด Conv-Transformer ํ•˜์ด๋ธŒ๋ฆฌ๋“œ(์˜ˆ: CoAtNet ๋“ฑ) ์ˆ˜์ค€์„ ๋›ฐ์–ด๋„˜๋Š” ์ƒˆ๋กœ์šด SOTA ๋‹ฌ์„ฑ์ด ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค.

๋จผ์ €, MambaVision Mixer ๋ธ”๋ก์˜ ๋„์ž…์€ Mamba ๊ตฌ์กฐ์˜ ํ•œ๊ณ„์˜€๋˜ ๊ณต๊ฐ„์  ๋งฅ๋ฝ ํŒŒ์•… ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. SSM๋งŒ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ๋˜ ํ•œ ๋ฐฉํ–ฅ ์ œ์•ฝ์„ ์—†์• ๊ณ , ๋ณ„๋„ ๋ถ„๊ธฐ๋ฅผ ํ†ตํ•ด ๋ณ‘๋ ฌ์ ์ธ ๊ณต๊ฐ„ ํŠน์ง• ์ถ”์ถœ์„ ํ•จ์œผ๋กœ์จ ๊ธ€๋กœ๋ฒŒ ์ปจํ…์ŠคํŠธ๋ฅผ ํ™•๋ณดํ•œ ๊ฒƒ์ด ์ฃผํšจํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ablation ์—ฐ๊ตฌ์—์„œ๋„, ๊ธฐ์กด Mamba ๋Œ€๋น„ ์ œ์•ˆํ•œ ๋ณ€ํ™”(์ธ๊ณผ ์ปจ๋ธŒ ์ œ๊ฑฐ, ๋Œ€์นญ ๋ถ„๊ธฐ ์ถ”๊ฐ€, concat ํ†ตํ•ฉ)๋ฅผ ํ•˜๋‚˜์”ฉ ์ ์šฉํ•  ๋•Œ๋งˆ๋‹ค ImageNet, COCO, ADE20K ์ง€ํ‘œ๊ฐ€ ๋ชจ๋‘ ์ƒ์Šนํ–ˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ concat ๋ฐฉ์‹ ํ†ตํ•ฉ์ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋Š”๋ฐ, ์ด๋Š” ๋‘ ๋ถ„๊ธฐ ์ถœ๋ ฅ์„ ์„ ํ˜• ๊ฒฐํ•ฉํ•˜์—ฌ ์œตํ•ฉํ•˜๋Š” ๊ฒƒ์ด gating ๋“ฑ๋ณด๋‹ค ํšจ๊ณผ์ ์ž„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•๋ถ„์— ๋ชจ๋ธ์€ ์ˆœ์ฐจ์  ํŠน์ง•๊ณผ ๊ณต๊ฐ„์  ํŠน์ง•์˜ โ€œํ’๋ถ€ํ•œ ํ‘œํ˜„โ€์„ ์–ป๊ฒŒ ๋˜์—ˆ๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํƒœ์Šคํฌ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ํ‘œํ˜„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, Transformer ์ž๊ธฐ์–ดํ…์…˜์˜ ํ†ตํ•ฉ ์œ„์น˜์— ๋Œ€ํ•œ ์ €์ž๋“ค์˜ ์ „๋žต์ด ์˜ณ์•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” โ€œ๊ณผ์—ฐ Mamba์™€ Transformer ๋ธ”๋ก์„ ์–ด๋–ป๊ฒŒ ์„ž๋Š” ๊ฒƒ์ด ์ตœ์„ ์ผ๊นŒ?โ€ ํ•˜๋Š” ์˜๋ฌธ์ด ์žˆ์—ˆ๋Š”๋ฐ, ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ฐฐ์น˜ ํŒจํ„ด์„ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ ˆ์ด์–ด์—๋งŒ ๋žœ๋คํ•˜๊ฒŒ Transformer๋ฅผ ๋„ฃ์–ด๋ณด๊ธฐ๋„ ํ•˜๊ณ , Stage ์•ž๋ถ€๋ถ„์— ์ง‘์ค‘ ๋ฐฐ์น˜ํ•˜๊ฑฐ๋‚˜ ๊ต์ฐจ ๋ฐฐ์น˜ํ•˜๋Š” ๋“ฑ ์‹œ๋„๋ฅผ ํ–ˆ์ง€๋งŒ ๋Œ€๋ถ€๋ถ„ ์ตœ์ ์ด ์•„๋‹ˆ์—ˆ์Šต๋‹ˆ๋‹ค. Transformer ๋ธ”๋ก์„ ๋„ˆ๋ฌด ์ด๋ฅธ ๋‹จ๊ณ„(ํ•ด์ƒ๋„๊ฐ€ ๋†’์„ ๋•Œ)์— ๋„ฃ์œผ๋ฉด ์—ฐ์‚ฐ๋Ÿ‰์ด ์ปค์ ธ ๋น„ํšจ์œจ์ ์ผ ๋ฟ ์•„๋‹ˆ๋ผ ์„ฑ๋Šฅ ์ด๋“๋„ ํฌ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๊ต์ฐจ๋กœ ๋ฒˆ๊ฐˆ์•„ ๋ฐฐ์น˜ํ•˜๋Š” ํŒจํ„ด์€ ์„œ๋กœ ๋‹ค๋ฅธ ํ† ํฐ ๋ฏน์„œ๊ฐ„ ์ƒํ˜ธ ๊ฐ„์„ญ์ด ์ƒ๊ฒจ ์„ฑ๋Šฅ์ด ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋งˆ์ง€๋ง‰ ๋ช‡ ๊ฐœ ๋ ˆ์ด์–ด์— ์—ฐ์† ๋ฐฐ์น˜ํ•˜๋Š” ํŒจํ„ด์ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ด์—ˆ๋Š”๋ฐ, ํŠนํžˆ ๊ฐ Stage์˜ ์ตœํ›„๋ฐ˜ ์ ˆ๋ฐ˜์„ Transformer๋กœ ํ• ์• ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ์ตœ๊ณ ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, Self-Attention์„ Stage ํ›„๋ฐ˜ N/2 ๋ ˆ์ด์–ด์—๋งŒ ์ ์šฉํ•œ ์ตœ์ข… ์„ค๊ณ„๋Š” Top-1 ์ •ํ™•๋„ 82.3%๋กœ, ๋‹ค๋ฅธ ํŒจํ„ด๋ณด๋‹ค 0.5~1% ๊ฐ€๋Ÿ‰ ๋†’์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” โ€œ์ž๊ธฐ์–ดํ…์…˜์€ ๋งˆ์ง€๋ง‰์— ๋ชฐ์•„์„œ ์“ฐ๋Š” ๊ฒƒ์ด ์ข‹๋‹คโ€๋Š” ๋…ผ๋ฌธ์˜ ๊ฐ€์„ค๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ฒฐ๊ณผ๋กœ, ๊ฒฐ๊ตญ ํ˜„์žฌ MambaVision์˜ ๊ตฌ์กฐ๋กœ ์ฑ„ํƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ์จ ๋ชจ๋ธ์€ SSM์˜ ํšจ์œจ๊ณผ ์–ดํ…์…˜์˜ ์ „์—ญ์„ฑ์„ ๊ท ํ˜• ์žˆ๊ฒŒ ํš๋“ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•œ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ๋ถ„์„์€ MambaVision์˜ Self-Attention ๋ ˆ์ด์–ด๋“ค์ด ์‹ค์ œ๋กœ ๋ฌด์—‡์„ ํ•™์Šตํ•˜์˜€๋Š”๊ฐ€์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ตœ์ข… Transformer ๋ธ”๋ก๋“ค์˜ ์–ดํ…์…˜ ๋งต์„ ์‹œ๊ฐํ™”ํ•˜์—ฌ, ์ด๋“ค์ด ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์ค‘์š”ํ•œ ์˜์—ญ์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋น„ํ–‰๊ธฐ ์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ ์–ดํ…์…˜ ํ—ค๋“œ๊ฐ€ ๋น„ํ–‰๊ธฐ ์ „์ฒด ์œค๊ณฝ์— ํญ๋„“๊ฒŒ ํ™œ์„ฑํ™”๋˜์–ด ๋Œ€์ƒ ์ „์ฒด ํ˜•ํƒœ๋ฅผ ํฌ์ฐฉํ–ˆ๊ณ , ์ƒˆ(bird) ์ด๋ฏธ์ง€์—์„œ๋Š” ํ•œ ํ—ค๋“œ๊ฐ€ ์ƒˆ์˜ ๋จธ๋ฆฌ์™€ ๊ผฌ๋ฆฌ ๋“ฑ ๋…ํŠนํ•œ ๋ถ€๋ถ„์„ ์ง‘์ค‘์ ์œผ๋กœ ๋ฐ”๋ผ๋ณด๋Š” ๋“ฑ ์„ธ๋ฐ€ํ•œ ๋ถ€๋ถ„๊นŒ์ง€ ๊ตฌ๋ถ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์ด๋ฏธ์ง€์—์„œ๋Š” ์†์— ๋“  ๋ฌผ์ฒด์™€ ์–ผ๊ตด ๋“ฑ ์ƒํ˜ธ ์ž‘์šฉํ•˜๋Š” ๋‘ ์š”์†Œ๋ฅผ ๋ชจ๋‘ ๊ฐ•์กฐํ•˜์—ฌ, ์žฅ๋ฉด ๋‚ด ์š”์†Œ๋“ค ๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๊ฐ์  ํ•ด์„์€, MambaVision์˜ ์ž๊ธฐ์–ดํ…์…˜์ด ๋‹จ์ˆœํžˆ ํ˜•์‹์ ์œผ๋กœ ์ถ”๊ฐ€๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์‹ค์ œ๋กœ ๊ธ€๋กœ๋ฒŒ ์˜์กด์„ฑ๊ณผ ์˜๋ฏธ ์žˆ๋Š” ํŠน์ง•๋“ค์„ ํ•™์Šตํ•˜๊ณ  ์žˆ์Œ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋‹ฌ๋ฆฌ ๋งํ•ด, ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ตฌ์กฐ์˜ ์‹œ๋„ˆ์ง€๊ฐ€ ๋‚ด๋ถ€ ํ‘œํ˜„์—์„œ๋„ ํ™•์ธ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  MambaVision์—๋„ ๋ช‡ ๊ฐ€์ง€ ๊ณ ๋ คํ•  ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, Transformer ๋ธ”๋ก์˜ ์ถ”๊ฐ€๋กœ ์ˆœ์ˆ˜ Mamba ๋ชจ๋ธ์— ๋น„ํ•ด์„œ๋Š” ๊ตฌ์กฐ๊ฐ€ ๋‹ค์†Œ ๋ณต์žกํ•ด์กŒ๊ณ , SSM๊ณผ ์–ดํ…์…˜ ๋ชจ๋‘๋ฅผ ๊ตฌํ˜„ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ตฌํ˜„์ƒ์˜ ๋ถ€๋‹ด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋…ผ๋ฌธ์—์„œ ๊ณต๊ฐœํ•œ ์ฝ”๋“œ์™€ PyTorch ๊ตฌํ˜„์ด ์ด๋ฅผ ์ž˜ ์ถ”์ƒํ™”ํ•˜๊ณ  ์žˆ์–ด ์‹ค์šฉ์  ์‚ฌ์šฉ์—๋Š” ํฐ ์ง€์žฅ์ด ์—†์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ MambaVision์ด ๋›ฐ์–ด๋‚œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณด์ด๊ธด ํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์—๋Š” NVIDIA A100 GPU์—์„œ์˜ ์ตœ์ ํ™”๊ฐ€ ์ž‘์šฉํ•œ ๋ฉด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์ž„๋ฒ ๋””๋“œ ํ™˜๊ฒฝ ๋“ฑ์—์„œ SSM ์—ฐ์‚ฐ์ด ์ตœ์ ํ™”๋˜์ง€ ์•Š์œผ๋ฉด ์ด๋ก ์ ์ธ ์ด์ ์ด ๋ชจ๋‘ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ํ”Œ๋žซํผ์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ํŽธ์ฐจ๋Š” ์ถ”ํ›„ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด ์กฐ๊ฑด์—์„œ Transformer๋‚˜ CNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋น ๋ฅด๋‹ค๋Š” ์ ์€ ๋งค์šฐ ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค.

๋˜ ํ•˜๋‚˜, MambaVision์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ ํญ์€ EfficientNet์—์„œ ViT๋กœ ๊ฐˆ ๋•Œ์ฒ˜๋Ÿผ ํŒŒ๊ฒฉ์ ์ด์ง„ ์•Š์ง€๋งŒ, ํšจ์œจ ํ–ฅ์ƒ๊ณผ ๋™๋ฐ˜๋˜์—ˆ๋‹ค๋Š” ์ ์„ ๊ธฐ์–ตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ConvNeXt-B ๋Œ€๋น„ +0.4%p ์ •ํ™•๋„ ์ƒ์Šน์€ ์–ผํ• ์ž‘์•„ ๋ณด์ผ ์ˆ˜ ์žˆ์œผ๋‚˜, ์†๋„๋ฅผ 2๋ฐฐ ์ด์ƒ ๋‚ด๋ฉด์„œ ์ด๋ค„๋‚ธ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋Œ€๊ทœ๋ชจ ์„œ๋น„์Šค๋‚˜ ์‘์šฉ์—์„œ๋Š” ์ฒ˜๋ฆฌ ๋น„์šฉ ์ ˆ๊ฐ์ด ๊ณง ์„ฑ๋Šฅ๋งŒํผ ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฌํ•œ trade-off ๊ฐœ์„ ์€ ์‹ค์งˆ์ ์ธ ๊ฐ€์น˜๊ฐ€ ํฝ๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, MambaVision์€ ํฌ๊ธฐ ํ™•์žฅ์„ ํ†ตํ•ด ์ƒํ•œ์„ ์— ๋„๋‹ฌํ•˜์ง€ ์•Š๊ณ  ๋” ๊ฐœ์„ ๋  ์—ฌ์ง€๋„ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค (L, L2 ๋ชจ๋ธ์—์„œ 85%+ ์ •ํ™•๋„ ๋‹ฌ์„ฑ). ๋”ฐ๋ผ์„œ ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ๋‚˜ ๋ชจ๋ธ ํ™•์žฅ์„ ํ†ตํ•ด ํ–ฅํ›„ 86~87%๋Œ€๊นŒ์ง€๋„ ๋…ธ๋ ค๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ์˜ ์‹œ์‚ฌ์ : MambaVision์˜ ๋“ฑ์žฅ์€ ํ–ฅํ›„ ๋น„์ „ ๋ชจ๋ธ ์„ค๊ณ„์— ๋ช‡ ๊ฐ€์ง€ ๊ตํ›ˆ์„ ์ค๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š”, ์ด์งˆ์ ์ธ ๋ชจ๋ธ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ๊ฒฐํ•ฉ์ด ์ƒ๊ฐไปฅไธŠ์˜ ์‹œ๋„ˆ์ง€๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ทธ๋™์•ˆ Conv์™€ Transformer์˜ ๊ฒฐํ•ฉ์€ ๋งŽ์ด ์‹œ๋„๋์ง€๋งŒ, ์‹œํ€€์Šค ๋ชจ๋ธ(SSM)๊ณผ Transformer์˜ ๊ฒฐํ•ฉ์€ ์ƒˆ ์˜์—ญ์ž…๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด SSM ๊ณ„์—ด๋„ ์ถฉ๋ถ„ํžˆ vision-friendlyํ•˜๊ฒŒ ๊ฐœ์กฐ ๊ฐ€๋Šฅํ•˜๊ณ , Transformer์™€ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Œ์ด ์ฆ๋ช…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์œผ๋กœ ๋‹ค๋ฅธ SSM ๋ณ€์ข…(์˜ˆ: S4, Linear RNN ๋“ฑ)๊ณผ Transformer๋ฅผ ๊ฒฐํ•ฉํ•˜๊ฑฐ๋‚˜, ๋” ๋‚˜์•„๊ฐ€ CNN+SSM+Transformer ์‚ผ์› ํ˜ผํ•ฉ ๊ตฌ์กฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋“ฑ ์ƒˆ๋กœ์šด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ ์—ฐ๊ตฌ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ฝ๋‹ˆ๋‹ค. ๋˜ํ•œ MambaVision์€ ๊ณ ํ•ด์ƒ๋„ ์ž…๋ ฅ ์ฒ˜๋ฆฌ์—์„œ CNN ์‚ฌ์šฉ, ์ €ํ•ด์ƒ๋„์—์„œ๋Š” SSM/์–ดํ…์…˜ ์‚ฌ์šฉ์ด๋ผ๋Š” ์„ค๊ณ„๋ฅผ ์ทจํ–ˆ๋Š”๋ฐ, ์ด๋Š” โ€œ์–ด๋–ค ํ•ด์ƒ๋„ ๋ ˆ๋ฒจ์—์„œ ์–ด๋–ค ํ† ํฐ ๋ฏน์„œ๋ฅผ ์“ฐ๋Š” ๊ฒŒ ์ตœ์ ์ธ๊ฐ€โ€์— ๋Œ€ํ•œ ํ•˜๋‚˜์˜ ํ•ด๋‹ต์ž…๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋ชจ๋ธ๋“ค์€ ํ•ด์ƒ๋„ ๋‹จ๊ณ„๋ณ„๋กœ Conv, SSM, Attention์„ ์ ์ ˆํžˆ ๋ฐฐ์น˜ํ•˜๋Š” ๋„คํŠธ์›Œํฌ ๊ฒ€์ƒ‰์„ ํ†ตํ•ด ๋”์šฑ ๋ฐœ์ „ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.7 ๊ฒฐ๋ก  (Conclusion)

MambaVision์€ Mamba(SSM)์™€ Transformer๋ฅผ ๊ฒฐํ•ฉํ•œ ์ตœ์ดˆ์˜ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋น„์ „ ๋ฐฑ๋ณธ์œผ๋กœ์„œ, ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์˜ ์ƒˆ ๊ธฐ์ค€์„ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ Mamba์˜ ๊ณต์‹์„ ๋น„์ „ ๋„๋ฉ”์ธ์— ๋งž๊ฒŒ ์žฌ์„ค๊ณ„ํ•˜๊ณ , ์ตœ์ ์˜ ๋ฐฉ์‹์œผ๋กœ Transformer ๋ธ”๋ก์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ์ „์—ญ ๋ฌธ๋งฅ ํ‘œํ˜„ ํ•™์Šต ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ImageNet-1K ๋ถ„๋ฅ˜์—์„œ Top-1 ์ •ํ™•๋„์™€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ธก๋ฉด์˜ ์ƒˆ๋กœ์šด SOTA Pareto ํ”„๋ก ํ‹ฐ์–ด๋ฅผ ๋‹ฌ์„ฑํ–ˆ๊ณ , ๋‹ค์–‘ํ•œ ๋น„์ „ ๊ณผ์ œ(๋ถ„๋ฅ˜, ๊ฒ€์ถœ, ๋ถ„ํ• )์—์„œ ๋™๊ธ‰ ๋ชจ๋ธ ๋Œ€๋น„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ตœ์ข… ๋‹จ๊ณ„์— ์ž๊ธฐ์–ดํ…์…˜์„ ๋ฐฐ์น˜ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•˜๋ฉด์„œ๋„ ํšจ์œจ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€๊ณ , ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํฐ ๋ชจ๋ธ์—์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‚ด๋ฉฐ ๋Œ€๊ทœ๋ชจ ๋น„์ „ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ๋„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

MambaVision์˜ ์„ฑ๊ณต์€ ๊ธฐ์กด์˜ Mamba ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ฉด์„œ ๊ทธ ์žฅ์ ์„ ์‚ด๋ฆฐ ํ›Œ๋ฅญํ•œ ์‚ฌ๋ก€๋กœ, ๋ฏธ๋ž˜์˜ ๋น„์ „ ๋ฐฑ๋ณธ ์„ค๊ณ„์— ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด์ œ ์—ฐ๊ตฌ์ž๋“ค์€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ† ๋Œ€ ์œ„์—์„œ ๋” ๋‹ค์–‘ํ•œ ์กฐํ•ฉ๊ณผ ๋ณ€ํ˜•์„ ์‹œ๋„ํ•ด๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, MambaVision์„ ํ† ๋Œ€๋กœ ํฌ๋กœ์Šค๋ชจ๋‹ฌ(Vision+Language) ๋ชจ๋ธ์ด๋‚˜ ๋น„๋””์˜ค ์ฒ˜๋ฆฌ๋กœ ํ™•์žฅํ•˜๋Š” ์—ฐ๊ตฌ, ๋˜๋Š” SSM ๋Œ€์‹  ๋‹ค๋ฅธ ํšจ์œจ ์‹œํ€€์Šค ๋ชจ๋“ˆ๊ณผ์˜ ๊ฒฐํ•ฉ ๋“ฑ์ด ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ค‘์š”ํ•œ ๊ฒƒ์€ ์žฅ์ ์€ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ๋‹จ์ ์€ ๋ณด์™„ํ•˜๋Š” ๊ท ํ˜• ์žกํžŒ ์„ค๊ณ„์ด๋ฉฐ, MambaVision์ด ๊ทธ ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€ ๋งŒํผ ์•ž์œผ๋กœ ์ด์ข… ๋ชจ๋ธ ์œตํ•ฉ์„ ํ†ตํ•œ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์˜ ๋น„์ „ ๋ชจ๋ธ๋“ค์ด ์†์† ๋“ฑ์žฅํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. MambaVision ์ž์ฒด๋„ ํ–ฅํ›„ ์‹ค์‹œ๊ฐ„ ์„œ๋น„์Šค๋‚˜ ๊ฒฝ๋Ÿ‰ํ™” ์—ฐ๊ตฌ ๋“ฑ์œผ๋กœ ๋ฐœ์ „ํ•˜๋ฉด์„œ, ๋ณด๋‹ค ๋„“์€ ๋ฒ”์œ„์˜ ๋น„์ „ ์‘์šฉ์„ ์œ„ํ•œ ๋“ ๋“ ํ•œ ๊ธฐ๋ฐ˜์ด ๋  ๊ฒƒ์œผ๋กœ ์ „๋ง๋ฉ๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee