Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : VLA ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๋„์ „๊ณผ RoboMamba์˜ ๋“ฑ์žฅ
    • 1. ๋ฐฐ๊ฒฝ ์ง€์‹: State Space Model๊ณผ Mamba
      • 1.1 State Space Model์˜ ๊ธฐ๋ณธ ๊ฐœ๋…
      • 1.2 Mamba์˜ ํ•ต์‹ฌ ํ˜์‹ : Selective State Space Model
      • 1.3 Mamba์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„
    • 2. RoboMamba ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ ๋ถ„์„
      • 2.1 ์ „์ฒด ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”
      • 2.2 Vision Encoder์™€ Cross-modal Alignment
      • 2.3 Mamba Block ๊ตฌ์กฐ
      • 2.4 Policy Head ์„ค๊ณ„
    • 3. ํ•™์Šต ์ „๋žต: 2๋‹จ๊ณ„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ
      • 3.1 Stage 1: ์ถ”๋ก  ๋Šฅ๋ ฅ ํš๋“
      • 3.2 Stage 2: Robot Manipulation Fine-tuning
    • 4. ์‹คํ—˜ ๊ฒฐ๊ณผ ์‹ฌ์ธต ๋ถ„์„
      • 4.1 ์ผ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€
      • 4.2 ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€
      • 4.3 ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ ํ‰๊ฐ€
      • 4.4 ์ถ”๋ก  ์†๋„ ๋น„๊ต
      • 4.5 ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜
    • 5. Ablation Study ๋ถ„์„
      • 5.1 LLM ๋ฐฑ๋ณธ ๋น„๊ต
      • 5.2 ํ•™์Šต ์ „๋žต ์˜ํ–ฅ
      • 5.3 Vision Encoder ์„ ํƒ
      • 5.4 Policy Head ์„ค๊ณ„
    • 6. ๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„
      • 6.1 ์™œ Mamba๊ฐ€ ๋กœ๋ด‡ VLA์— ์ ํ•ฉํ•œ๊ฐ€?
      • 6.2 ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์˜ ๊ด€๊ณ„
      • 6.3 Global Token์˜ ์—ญํ• 
    • 7. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
      • 7.1 ํ˜„์žฌ ํ•œ๊ณ„์ 
      • 7.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 8. ๋กœ๋ด‡๊ณตํ•™ ๊ด€์ ์—์„œ์˜ ์‹œ์‚ฌ์ 
      • 8.1 ์‹ค์šฉ์  ์‹œ์‚ฌ์ 
      • 8.2 ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ฑ ์‹œ์‚ฌ์ 
      • 8.3 ๋น„๊ต ๊ด€์ 
    • 9. ๊ตฌํ˜„ ๊ณ ๋ ค์‚ฌํ•ญ
      • 9.1 ์‹ค์ œ ์ ์šฉ์„ ์œ„ํ•œ ์ฒดํฌ๋ฆฌ์ŠคํŠธ
      • 9.2 ์ปค์Šคํ„ฐ๋งˆ์ด์ง• ๊ฐ€์ด๋“œ
    • 10. ๊ฒฐ๋ก 
      • ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ
      • ๋กœ๋ด‡๊ณตํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋Œ€ํ•œ ์˜์˜
  • โ›๏ธ Dig Review
    • ์†Œ๊ฐœ (Introduction)
    • ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ (Background & Motivation)
    • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ (RoboMamba Architecture)
    • ํ•™์Šต ๋ฐฉ๋ฒ• ๋ฐ ๋ฐ์ดํ„ฐ์…‹ (Training Strategy and Datasets)
    • ์‹คํ—˜ ์„ค์ • ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• (Experimental Setup & Metrics)
    • ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„ (Results and Analysis)
      • ์ผ๋ฐ˜ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ์„ฑ๋Šฅ (General Vision-Language Reasoning)
      • ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ์„ฑ๋Šฅ (Robot-Specific Reasoning)
      • ๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๋Šฅ (Manipulation Performance in Simulation)
      • ์ถ”๊ฐ€ ์„ฑ๋Šฅ ๋ถ„์„ (Ablation Studies)
      • ์‹คํ™˜๊ฒฝ ๋กœ๋ด‡ ์‹คํ—˜ (Real-World Experiments)
    • ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ (Conclusion and Future Work)

๐Ÿ“ƒRoboMamba ๋ฆฌ๋ทฐ

mamba
vla
manipulation
Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
Published

December 12, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code
  1. ๐Ÿค– RoboMamba๋Š” Mamba ๊ธฐ๋ฐ˜์˜ ํšจ์œจ์ ์ธ Vision-Language-Action (VLA) ๋ชจ๋ธ๋กœ, ๋ณต์žกํ•œ ๋กœ๋ด‡ ์ถ”๋ก  ๋ฐ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ’ก ์ด ๋ชจ๋ธ์€ Vision Encoder์™€ Mamba๋ฅผ ํ†ตํ•ฉํ•˜๊ณ  ๊ณต๋™ ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๊ฐ์  ์ƒ์‹ ๋ฐ ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์Šต๋“ํ•˜๋ฉฐ, ์ดํ›„ ์ตœ์†Œํ•œ์˜ ํŒŒ์ธํŠœ๋‹์œผ๋กœ SE(3) pose prediction ๊ธฐ์ˆ ์„ ํšจ์œจ์ ์œผ๋กœ ์Šต๋“ํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ RoboMamba๋Š” ์ผ๋ฐ˜ ๋ฐ ๋กœ๋ด‡ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ , ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ธ์ƒ์ ์ธ pose prediction ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋‹ค 3๋ฐฐ ๋น ๋ฅธ inference ์†๋„๋ฅผ ์ž๋ž‘ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

๋ณธ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์ถ”๋ก  ๋ฐ ์กฐ์ž‘์„ ์œ„ํ•œ ํšจ์œจ์ ์ธ Vision-Language-Action (VLA) ๋ชจ๋ธ์ธ RoboMamba๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๋“ค์€ ๋ณต์žกํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ถ€์กฑ๊ณผ ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. RoboMamba๋Š” Mamba๋ผ๋Š” ์ƒˆ๋กœ์šด State Space Model (SSM)์„ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ์ถ”๋ก  ๋ฐ ๋™์ž‘ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ์ œ๊ณตํ•˜๋ฉฐ, ํšจ์œจ์ ์ธ Fine-tuning ๋ฐ ์ถ”๋ก ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

1. ๋ฌธ์ œ ์ •์˜ ๋ฐ Mamba ์†Œ๊ฐœ (Preliminaries)

  • ๋กœ๋ด‡ ์‹œ๊ฐ ์ถ”๋ก  (Robot Visual Reasoning): ์ž…๋ ฅ ์ด๋ฏธ์ง€ I \in \mathbb{R}^{W \times H \times 3}์™€ ์–ธ์–ด ์งˆ๋ฌธ L_q์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์–ธ์–ด ์‘๋‹ต L_a๋ฅผ ์ƒ์„ฑํ•˜๋Š” R(I, L_q) ํ•จ์ˆ˜๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ์‘๋‹ต์€ ์ข…์ข… ํ•˜์œ„ ์ž‘์—… (L_a \rightarrow (L_{1a}, L_{2a}, \ldots, L_{na}))์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
  • ๋™์ž‘ ์˜ˆ์ธก (Action Prediction): ์–ธ์–ด ์‘๋‹ต R(I, L_q)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ๋ด‡์˜ ๋™์ž‘ a๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํšจ์œจ์ ์ธ ์ •์ฑ… ํ—ค๋“œ \pi๋ฅผ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ๋™์ž‘์€ Franka Emika Panda ๋กœ๋ด‡ ํŒ”์˜ 6-DoF End-effector Pose (a_{pos} \in \mathbb{R}^3, a_{dir} \in \mathbb{R}^{3 \times 3})๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. Grasping ์ž‘์—…์˜ ๊ฒฝ์šฐ Gripper ์ƒํƒœ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ 7-DoF ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • Mamba (State Space Models): Mamba๋Š” Transformer์˜ ๋†’์€ ๊ณ„์‚ฐ ๋ณต์žก๋„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ SSM ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Mamba๋Š” ๋งŽ์€ Mamba Block์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋Š” SSM์ž…๋‹ˆ๋‹ค.
    • SSM์€ 1D ์ž…๋ ฅ ์‹œํ€€์Šค x(t)๋ฅผ ์€๋‹‰ ์ƒํƒœ h(t)๋ฅผ ํ†ตํ•ด 1D ์ถœ๋ ฅ ์‹œํ€€์Šค y(t)๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์—ฐ์† ์‹œ์Šคํ…œ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค: h'(t) = Ah(t) + Bx(t) y(t) = Ch(t) ์—ฌ๊ธฐ์„œ A \in \mathbb{R}^{N \times N}, B \in \mathbb{R}^{N \times 1}, C \in \mathbb{R}^{N \times 1}๋Š” SSM์˜ ํ•ต์‹ฌ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.
    • Mamba๋Š” ์‹œ๊ฐ„ ์Šค์ผ€์ผ ํŒŒ๋ผ๋ฏธํ„ฐ \Delta๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ์† ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ด์‚ฐํ™”ํ•ฉ๋‹ˆ๋‹ค. Zero-order hold ๋ฐฉ์‹์œผ๋กœ ์ด์‚ฐํ™”๋œ A์™€ B๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: \bar{A} = \exp(\Delta A) \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B ์ด์‚ฐ ํ˜•ํƒœ๋Š” h_t = \bar{A}h_{t-1} + \bar{B}x_t; y_t = \bar{C}h_t์ž…๋‹ˆ๋‹ค.
    • Mamba๋Š” Selective Scan Mechanism (S6)์„ ๋„์ž…ํ•˜์—ฌ SSM ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ์ฝ˜ํ…์ธ  ์ธ์‹ ์ถ”๋ก  (content-aware reasoning) ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์„ ํ˜• ๋ณต์žก๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

2. RoboMamba ์•„ํ‚คํ…์ฒ˜

RoboMamba๋Š” ์‹œ๊ฐ ์ถ”๋ก  ๋ฐ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๋ชจ๋‘ ๊ฐ–์ถ”๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ Large Language Models (LLMs)์™€ ์‹œ๊ฐ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ ์ธ์ฝ”๋” (Vision Encoder): CLIP (๋˜๋Š” SigLIP) ViT-Large์™€ ๊ฐ™์€ ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ์‹œ๊ฐ ํŠน์ง• f_v \in \mathbb{R}^{B \times N \times 1024}๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ B๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ, N์€ ํ† ํฐ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋ณธ ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋Š” ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•„ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ž…๋‹ˆ๋‹ค.
  • ๊ต์ฐจ ๋ชจ๋‹ฌ ์—ฐ๊ฒฐ์ž (Cross-modal Connector): Multi-Layer Perceptron (MLP)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ ์ธ์ฝ”๋”์™€ LLM์„ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ด MLP๋Š” ์‹œ๊ฐ ์ •๋ณด๋ฅผ Mamba์˜ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„ f_L \in \mathbb{R}^{B \times N \times 2560}์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์–ธ์–ด ๋ชจ๋ธ (Language Model): Mamba (2.8B/1.4B)๋ฅผ ์–ธ์–ด ๋ชจ๋ธ๋กœ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” Mamba์˜ ์ฝ˜ํ…์ธ  ์ธ์‹ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ์„ ํ˜• ๊ณ„์‚ฐ ๋ณต์žก๋„ ๋•๋ถ„์— ๋กœ๋ด‡ ๋ถ„์•ผ์—์„œ ํ•„์ˆ˜์ ์ธ ๋น ๋ฅธ ์‘๋‹ต ์‹œ๊ฐ„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ (Text Embedding): ์‚ฌ์ „ ํ›ˆ๋ จ๋œ Tokenizer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„ f_t \in \mathbb{R}^{B \times N \times 2560}์œผ๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ ์ฒ˜๋ฆฌ: ์‹œ๊ฐ ํ† ํฐ f_L์™€ ํ…์ŠคํŠธ ํ† ํฐ f_t๋ฅผ ์—ฐ๊ฒฐ(concatenate)ํ•˜์—ฌ Mamba ๋ชจ๋ธ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ์ถœ๋ ฅ: Mamba์˜ ์ถœ๋ ฅ ํ† ํฐ T_a๋Š” De-tokenizer๋ฅผ ํ†ตํ•ด ์ž์—ฐ์–ด ์‘๋‹ต L_a๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
  • ์ •์ฑ… ํ—ค๋“œ (Policy Head): End-effector์˜ ์œ„์น˜ a_{pos}์™€ ๋ฐฉํ–ฅ a_{dir}์„ ๋ณ„๋„๋กœ ํ•™์Šตํ•˜๋Š” ๋‘ ๊ฐœ์˜ MLP๋กœ ๊ตฌ์„ฑ๋œ ๊ฐ„๋‹จํ•œ ์ •์ฑ… ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ… ํ—ค๋“œ๋Š” ๋ชจ๋ธ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์•ฝ 0.1%๋งŒ์„ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๊ธ€๋กœ๋ฒŒ ํ† ํฐ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด๋Š” ์–ธ์–ด ์ถœ๋ ฅ ํ† ํฐ์—์„œ Pooling ์—ฐ์‚ฐ์„ ํ†ตํ•ด ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.

3. ํ›ˆ๋ จ ์ „๋žต (Training Strategy)

RoboMamba์˜ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

  • 1๋‹จ๊ณ„: ์ผ๋ฐ˜ ๋ฐ ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ํ›ˆ๋ จ (General and Robotic-related Training)
    • 1.1 ์ •๋ ฌ ์‚ฌ์ „ ํ›ˆ๋ จ (Alignment Pre-training): LLaVA์—์„œ ํ•„ํ„ฐ๋ง๋œ 558k ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ Cross-modal ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์‹œ๊ฐ ์ธ์ฝ”๋”์™€ Mamba ์–ธ์–ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ณ ์ •ํ•˜๊ณ , ํ”„๋กœ์ ํŠธ ๋ ˆ์ด์–ด (MLP)๋งŒ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ์ด๋ฏธ์ง€ ํŠน์ง•์„ Mamba์˜ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์— ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.
    • 1.2 ์ง€์‹œ๋ฌธ ๊ณต๋™ ํ›ˆ๋ จ (Instruction Co-training): ์ผ๋ฐ˜ ์‹œ๊ฐ ์ง€์‹œ๋ฌธ ๋ฐ์ดํ„ฐ (LLaVA mixed, ShareGPT4V-SFT, LLaVA-Next)์™€ ๋†’์€ ์ˆ˜์ค€์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ (RoboVQA)๋ฅผ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
      • ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์€ ํ• ๋ฃจ์‹œ๋„ค์ด์…˜(Hallucination) ๊ฐ์†Œ๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
      • RoboVQA ๋ฐ์ดํ„ฐ์…‹์€ ์žฅ๊ธฐ ๊ณ„ํš, ์„ฑ๊ณต ๋ถ„๋ฅ˜, ์ฐจ๋ณ„ ๋ฐ ์ƒ์„ฑ์  ์–ดํฌ๋˜์Šค, ๊ณผ๊ฑฐ ์„ค๋ช…, ๋ฏธ๋ž˜ ์˜ˆ์ธก ๋“ฑ ๋กœ๋ด‡ ๊ด€๋ จ ๊ธฐ์ˆ  ํ•™์Šต์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
      • ์ด ๋‹จ๊ณ„์—์„œ๋Š” CLIP ์ธ์ฝ”๋”๋ฅผ ๊ณ ์ •ํ•˜๊ณ , ํ”„๋กœ์ ํŠธ ๋ ˆ์ด์–ด์™€ Mamba๋ฅผ ๊ฒฐํ•ฉ๋œ ์ง€์‹œ๋ฌธ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ Fine-tuningํ•ฉ๋‹ˆ๋‹ค. Mamba ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ชจ๋“  ์ถœ๋ ฅ์€ Cross-entropy loss๋กœ ๊ฐ๋…๋ฉ๋‹ˆ๋‹ค.
  • 2๋‹จ๊ณ„: ๋กœ๋ด‡ ์กฐ์ž‘ Fine-tuning (Robot Manipulation Fine-tuning)
    • RoboMamba์˜ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ์œ„์— ๊ตฌ์ถ•๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ, ์กฐ์ž‘ Fine-tuning ๋‹จ๊ณ„์—์„œ ํ”„๋กœ์ ํŠธ ๋ ˆ์ด์–ด์™€ LLM์„ ์—…๋ฐ์ดํŠธํ•˜์ง€ ์•Š๊ณ , RoboMamba์˜ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ˆœํ•œ ์ •์ฑ… ํ—ค๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ Mamba์˜ ์ถœ๋ ฅ ํ† ํฐ์„ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ… ํ—ค๋“œ๋Š” End-effector์˜ ์œ„์น˜ a_{pos}์™€ ๋ฐฉํ–ฅ a_{dir}์„ ์˜ˆ์ธกํ•˜๋Š” ๋‘ ๊ฐ€์ง€ MLP๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
    • ์œ„์น˜ ์†์‹ค (L_{pos})์€ L1 norm์„ ์‚ฌ์šฉํ•˜๊ณ , ๋ฐฉํ–ฅ ์†์‹ค (L_{dir})์€ Rotation matrix์˜ trace๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๊ฐ๋„ ์ฐจ์ด๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: L_{pos} = \frac{1}{N} \sum_{i=1}^{N} |a_{pos} - a_{pos}^{gt}| L_{dir} = \frac{1}{N} \sum_{i=1}^{N} \arccos\left(\frac{\text{Tr}(a_{dir}^{gt \top}a_{dir}) - 1}{2}\right)
    • ์ •์ฑ… ํ—ค๋“œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์ „์ฒด ๋ชจ๋ธ์˜ 0.1%์— ๋ถˆ๊ณผํ•˜๋ฉฐ, ๋ช‡์‹ญ ๋ถ„ ๋งŒ์— ์ƒˆ๋กœ์šด ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋ฉด ์ ์€ ๋น„์šฉ์œผ๋กœ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

4. ์‹คํ—˜ ๊ฒฐ๊ณผ

  • ์ถ”๋ก  ๋Šฅ๋ ฅ: RoboMamba๋Š” 2.7B Mamba ๋ชจ๋ธ๋กœ OKVQA, VQAv2, GQA, VizWiz, POPE, MME, MMBench, MM-Vet ๋“ฑ ๋‹ค์–‘ํ•œ ์ผ๋ฐ˜ VQA ๋ฐ MLLM ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RoboVQA (๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ)์—์„œ BLEU-1์—์„œ BLEU-4๊นŒ์ง€์˜ ์ ์ˆ˜์—์„œ LLaMA-AdapterV2 ๋ฐ TinyLLaVA์— ๋น„ํ•ด ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค (BLEU-4 42.8).
  • ์กฐ์ž‘ ๋Šฅ๋ ฅ: SAPIEN ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ UMPNet, Flowbot3D, RoboFlamingo, ManipLLM๊ณผ ๋น„๊ตํ•˜์—ฌ RoboMamba๋Š” Seen Task์—์„œ 7.0%, Unseen Task์—์„œ 2.0%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋ฉฐ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํšจ์œจ์„ฑ: RoboMamba๋Š” ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋‹ค 3๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์กฐ์ž‘ Fine-tuning์— 10๋ฐฐ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ (3.7M, ์ „์ฒด ๋ชจ๋ธ์˜ 0.1%)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

5. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณ„ํš

RoboMamba๋Š” ํšจ์œจ์ ์ธ VLA ๋ชจ๋ธ๋กœ์„œ Mamba LLM๊ณผ ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์‹œ๊ฐ์  ์ƒ์‹ ์ถ”๋ก ๊ณผ ๋กœ๋ด‡ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ชจ๋‘ ๊ฐ–์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์†Œํ•œ์˜ Fine-tuning (0.1%์˜ ํŒŒ๋ผ๋ฏธํ„ฐ)์œผ๋กœ ์ƒˆ๋กœ์šด ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์กฐ์ž‘ ๊ธฐ์ˆ  ํ•™์Šต์— ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€, ๊ทธ๋ฆฌ๊ณ  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์†์ƒ์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” RoboMamba VLA ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋” ์ง„๋ณด๋œ ์„ ํ˜• ๋ณต์žก๋„ LLM ๋ชจ๋ธ์— ์ ์šฉํ•˜์—ฌ ์ถ”๋ก  ๋ฐ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , 3D Point cloud ๋ฐ ์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋Š” 4D Robot VLA ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : VLA ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๋„์ „๊ณผ RoboMamba์˜ ๋“ฑ์žฅ

๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋ถ„์•ผ์—์„œ Vision-Language-Action(VLA) ๋ชจ๋ธ์€ ์‹œ๊ฐ์  ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๊ณ  ์ ์ ˆํ•œ ํ–‰๋™์„ ์ƒ์„ฑํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด VLA ๋ชจ๋ธ๋“ค์€ ๋‘ ๊ฐ€์ง€ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„์— ์ง๋ฉดํ•ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ๋ณต์žกํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ถ€์กฑ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ Multimodal Large Language Model(MLLM) ๊ธฐ๋ฐ˜ ์ •์ฑ…๋“ค์€ ๊ธฐ๋ณธ์ ์ธ ์ž‘์—…์€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ๋Š” ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ „์ž๋ ˆ์ธ์ง€๋ฅผ ์—ด์–ด๋ผโ€๋ผ๋Š” ๋ช…๋ น์— ๋Œ€ํ•ด ๊ธฐ์กด MLLM๋“ค์€ ๊ณต์‹์ ์œผ๋กœ โ€œ1๋‹จ๊ณ„: ์†์žก์ด๋ฅผ ์ฐพ์•„๋ผโ€๋ผ๊ณ  ์‘๋‹ตํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ ๋งŽ์€ ์ „์ž๋ ˆ์ธ์ง€์—๋Š” ์†์žก์ด๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์ด ์‹ค์ œ ์žฅ๋ฉด์— ๊ธฐ๋ฐ˜ํ•œ ์ถ”๋ก ์ด ์•„๋‹Œ, ํ•™์Šต๋œ ํŒจํ„ด์— ์˜์กดํ•˜๋Š” ํ™˜๊ฐ(hallucination) ๋ฌธ์ œ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๋‘˜์งธ, ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ์ž…๋‹ˆ๋‹ค. MLLM์„ ํŒŒ์ธํŠœ๋‹ํ•˜๊ณ  ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์•ก์…˜์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ attention ๊ธฐ๋ฐ˜ LLM์˜ ํŠน์„ฑ์ƒ ๋ง‰๋Œ€ํ•œ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ์—์„œ์˜ ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋ฅผ ์–ด๋ ต๊ฒŒ ๋งŒ๋“œ๋Š” ์ฃผ์š” ์š”์ธ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋งฅ๋ฝ์—์„œ RoboMamba๋Š” State Space Model(SSM) ๊ธฐ๋ฐ˜์˜ Mamba ์•„ํ‚คํ…์ฒ˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‘ ๋ฌธ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” RoboMamba์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด, ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„, ํ•™์Šต ์ „๋žต, ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž ๊ด€์ ์—์„œ์˜ ์‹œ์‚ฌ์ ์„ ๋…ผ์˜ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.


1. ๋ฐฐ๊ฒฝ ์ง€์‹: State Space Model๊ณผ Mamba

1.1 State Space Model์˜ ๊ธฐ๋ณธ ๊ฐœ๋…

State Space Model(SSM)์€ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ์ˆ˜ํ•™์  ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒํƒœ ๋ฐฉ์ •์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

h'(t) = Ah(t) + Bx(t) y(t) = Ch(t)

์—ฌ๊ธฐ์„œ h(t) \in \mathbb{R}^N์€ ์ˆจ๊ฒจ์ง„ ์ƒํƒœ, x(t) \in \mathbb{R}๋Š” ์ž…๋ ฅ, y(t) \in \mathbb{R}๋Š” ์ถœ๋ ฅ์ž…๋‹ˆ๋‹ค. A \in \mathbb{R}^{N \times N}์€ ์ƒํƒœ ์ „์ด ํ–‰๋ ฌ, B \in \mathbb{R}^{N \times 1}์€ ์ž…๋ ฅ ํ–‰๋ ฌ, C \in \mathbb{R}^{1 \times N}์€ ์ถœ๋ ฅ ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์—ฐ์† ์‹œ๊ฐ„ ์‹œ์Šคํ…œ์„ ์ด์‚ฐํ™”ํ•˜๋ฉด:

h_t = \bar{A}h_{t-1} + \bar{B}x_t y_t = Ch_t

์—ฌ๊ธฐ์„œ \bar{A} = \exp(\Delta A), \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. \Delta๋Š” ์ด์‚ฐํ™” ์Šคํ… ํฌ๊ธฐ์ž…๋‹ˆ๋‹ค.

1.2 Mamba์˜ ํ•ต์‹ฌ ํ˜์‹ : Selective State Space Model

๊ธฐ์กด SSM์˜ ํ•œ๊ณ„๋Š” content-based reasoning ๋Šฅ๋ ฅ์˜ ๋ถ€์กฑ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ž…๋ ฅ์˜ ๋‚ด์šฉ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์ •๋ณด๋ฅผ ์„ ํƒ์ ์œผ๋กœ ์ „ํŒŒํ•˜๊ฑฐ๋‚˜ ์žŠ์–ด๋ฒ„๋ฆฌ๋Š” ๋Šฅ๋ ฅ์ด ์ œํ•œ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

Mamba๋Š” Selective Scan Mechanism(S6)์„ ๋„์ž…ํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” SSM ํŒŒ๋ผ๋ฏธํ„ฐ B, C, \Delta๋ฅผ ์ž…๋ ฅ์˜ ํ•จ์ˆ˜๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค:

B = f_B(x), \quad C = f_C(x), \quad \Delta = f_\Delta(x)

์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ž…๋ ฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์ •๋ณด ํ๋ฆ„์„ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ \Delta ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” RNN์˜ gating mechanism๊ณผ ์œ ์‚ฌํ•œ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ •๋ฆฌ๋กœ formalize๋ฉ๋‹ˆ๋‹ค:

์ •๋ฆฌ 1 (Selection Mechanism๊ณผ RNN Gating์˜ ์—ฐ๊ฒฐ): Mamba์˜ selective mechanism์€ LSTM/GRU์˜ gate ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ผ๋ฐ˜ํ™”๋œ ํ˜•ํƒœ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, \Delta๊ฐ€ ํด์ˆ˜๋ก ํ˜„์žฌ ์ž…๋ ฅ์— ๋” ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜๊ณ , ์ž‘์„์ˆ˜๋ก ์ด์ „ ์ƒํƒœ๋ฅผ ๋” ๋งŽ์ด ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

1.3 Mamba์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„

Mamba์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„์ž…๋‹ˆ๋‹ค:

๋ชจ๋ธ ํ•™์Šต ๋ณต์žก๋„ ์ถ”๋ก  ๋ณต์žก๋„ (๋‹จ๊ณ„๋‹น)
Transformer O(L^2) O(L) (KV cache ์‚ฌ์šฉ)
Mamba O(L) O(1)

์—ฌ๊ธฐ์„œ L์€ ์‹œํ€€์Šค ๊ธธ์ด์ž…๋‹ˆ๋‹ค. ์ถ”๋ก  ์‹œ Mamba๋Š” ์ด์ „ ์š”์†Œ๋“ค์˜ ์บ์‹œ ์—†์ด ์ƒ์ˆ˜ ์‹œ๊ฐ„์— ๋‹ค์Œ ํ† ํฐ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด, ๋กœ๋ด‡ ์ œ์–ด์™€ ๊ฐ™์€ ์‹ค์‹œ๊ฐ„ ์‘์šฉ์— ๋งค์šฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.


2. RoboMamba ์•„ํ‚คํ…์ฒ˜ ์ƒ์„ธ ๋ถ„์„

2.1 ์ „์ฒด ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”

RoboMamba๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ปดํฌ๋„ŒํŠธ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. Vision Encoder: CLIP ViT๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์—์„œ ์‹œ๊ฐ์  ํŠน์ง• ์ถ”์ถœ
  2. Cross-modal Connector: ์‹œ๊ฐ์  ํ† ํฐ์„ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ์ •๋ ฌ
  3. Mamba Language Model: ์ถ”๋ก  ๋ฐ ์–ธ์–ด ์ƒ์„ฑ ๋‹ด๋‹น
  4. Policy Head: SE(3) ํฌ์ฆˆ ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ฒฝ๋Ÿ‰ MLP ํ—ค๋“œ

2.2 Vision Encoder์™€ Cross-modal Alignment

RoboMamba๋Š” CLIP visual encoder๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์ด๋ฏธ์ง€ I \in \mathbb{R}^{W \times H \times 3}์—์„œ ์‹œ๊ฐ์  ํŠน์ง• f_v \in \mathbb{R}^{B \times N \times 1024}๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ B๋Š” ๋ฐฐ์น˜ ํฌ๊ธฐ, N์€ ํŒจ์น˜ ์ˆ˜์ž…๋‹ˆ๋‹ค.

์ถ”์ถœ๋œ ์‹œ๊ฐ์  ํŠน์ง•์€ MLP ๊ธฐ๋ฐ˜ projection layer๋ฅผ ํ†ตํ•ด Mamba์˜ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค:

z_v = \text{MLP}(f_v)

์ด projection layer๋Š” ๋น„๊ต์  ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ์ด์ง€๋งŒ, ์ ์ ˆํ•œ ํ•™์Šต ์ „๋žต๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ํšจ๊ณผ์ ์ธ cross-modal alignment๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณต์žกํ•œ cross-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—†์ด๋„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์„ค๊ณ„ ๊ฒฐ์ •์ž…๋‹ˆ๋‹ค.

2.3 Mamba Block ๊ตฌ์กฐ

RoboMamba์˜ ํ•ต์‹ฌ์ธ Mamba block์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

Input โ†’ Linear โ†’ Conv1D โ†’ SiLU โ†’ SSM โ†’ Output
         โ†“
      Linear โ†’ SiLU โ†’ Element-wise multiply

๊ฐ Mamba block์—์„œ:

  1. ์ž…๋ ฅ์€ ๋‘ ๊ฐœ์˜ ๋ณ‘๋ ฌ ๊ฒฝ๋กœ๋กœ ๋ถ„๊ธฐ๋ฉ๋‹ˆ๋‹ค
  2. ์ฒซ ๋ฒˆ์งธ ๊ฒฝ๋กœ: Linear โ†’ Conv1D โ†’ SiLU โ†’ Selective SSM
  3. ๋‘ ๋ฒˆ์งธ ๊ฒฝ๋กœ: Linear โ†’ SiLU (gating branch)
  4. ๋‘ ๊ฒฝ๋กœ์˜ ์ถœ๋ ฅ์ด element-wise๋กœ ๊ณฑํ•ด์ ธ ์ตœ์ข… ์ถœ๋ ฅ ์ƒ์„ฑ

์ด ๊ตฌ์กฐ๋Š” H3 block๊ณผ MLP block์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ๊ฒƒ์œผ๋กœ, ๊ธฐ์กด SSM ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค ๋‹จ์ˆœํ•˜๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

2.4 Policy Head ์„ค๊ณ„

RoboMamba์˜ ๋˜ ๋‹ค๋ฅธ ํ•ต์‹ฌ ํ˜์‹ ์€ ๊ทน๋„๋กœ ํšจ์œจ์ ์ธ policy head ์„ค๊ณ„์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๋“ค์ด ์ „์ฒด ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, RoboMamba๋Š” ๊ฐ„๋‹จํ•œ MLP ๊ธฐ๋ฐ˜ policy head๋งŒ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋Šฅ๋ ฅ์„ ํš๋“ํ•ฉ๋‹ˆ๋‹ค.

Policy head๋Š” ๋‘ ๊ฐ€์ง€ MLP๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. Position MLP: ์—”๋“œ์ดํŽ™ํ„ฐ์˜ 3D ์œ„์น˜ a_{pos} \in \mathbb{R}^3 ์˜ˆ์ธก
  2. Direction MLP: ์—”๋“œ์ดํŽ™ํ„ฐ์˜ ๋ฐฉํ–ฅ a_{dir} ์˜ˆ์ธก

์ž…๋ ฅ์œผ๋กœ๋Š” Mamba ์ถœ๋ ฅ ํ† ํฐ๋“ค์— ๋Œ€ํ•œ pooling ์—ฐ์‚ฐ์œผ๋กœ ์ƒ์„ฑ๋œ global token์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด global token์€ ์ „์ฒด ์‹œ๊ฐ-์–ธ์–ด ์ปจํ…์ŠคํŠธ๋ฅผ ์••์ถ•ํ•œ ํ‘œํ˜„์œผ๋กœ, SE(3) ํฌ์ฆˆ ์˜ˆ์ธก์— ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์†์‹ค ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค:

\mathcal{L}_{pos} = \|a_{pos} - a^*_{pos}\|_2^2 \mathcal{L}_{dir} = 1 - \cos(a_{dir}, a^*_{dir}) \mathcal{L}_{total} = \mathcal{L}_{pos} + \lambda \mathcal{L}_{dir}

์—ฌ๊ธฐ์„œ position loss๋Š” L2 norm, direction loss๋Š” cosine similarity ๊ธฐ๋ฐ˜์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ํ†ต๊ณ„: - Policy head ํŒŒ๋ผ๋ฏธํ„ฐ: ์•ฝ 3.7M (7MB) - ์ „์ฒด ๋ชจ๋ธ ๋Œ€๋น„ ๋น„์œจ: 0.1% - ๊ธฐ์กด VLA ์ ‘๊ทผ๋ฒ• ๋Œ€๋น„: 10๋ฐฐ ์ž‘์Œ


3. ํ•™์Šต ์ „๋žต: 2๋‹จ๊ณ„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

RoboMamba์˜ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰˜๋ฉฐ, ๊ฐ ๋‹จ๊ณ„๋Š” ๋ช…ํ™•ํ•œ ๋ชฉ์ ๊ณผ ์ตœ์ ํ™”๋œ ์ „๋žต์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

3.1 Stage 1: ์ถ”๋ก  ๋Šฅ๋ ฅ ํš๋“

Stage 1์€ ๋‹ค์‹œ ๋‘ ๊ฐœ์˜ ํ•˜์œ„ ๋‹จ๊ณ„๋กœ ๊ตฌ๋ถ„๋ฉ๋‹ˆ๋‹ค.

Stage 1.1: Alignment Pre-training

๋ชฉ์ : Vision encoder์™€ Mamba LLM ๊ฐ„์˜ cross-modal alignment ํ•™์Šต

๋ฐ์ดํ„ฐ: LLaVA filtered 558K image-text paired dataset

ํ•™์Šต ์„ค์ •: - Vision encoder์™€ Mamba LLM ํŒŒ๋ผ๋ฏธํ„ฐ: ๋™๊ฒฐ(Frozen) - Projection layer: ํ•™์Šต ๊ฐ€๋Šฅ - Loss: Cross-entropy loss on language tokens

์ด ๋‹จ๊ณ„์—์„œ๋Š” ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ์–ธ์–ด ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” projection layer๋งŒ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” pre-trained ๋ชจ๋ธ๋“ค์˜ ์ง€์‹์„ ๋ณด์กดํ•˜๋ฉด์„œ ํšจ์œจ์ ์ธ alignment๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

Stage 1.2: Instruction Co-training

๋ชฉ์ : ์ผ๋ฐ˜์ ์ธ ์‹œ๊ฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋™์‹œ ํ•™์Šต

๋ฐ์ดํ„ฐ: - LLaVA 1.5 instruction dataset (์ผ๋ฐ˜ ๋น„์ „-์–ธ์–ด ์ž‘์—…) - RoboVQA 300K dataset (๋กœ๋ด‡ ๊ด€๋ จ ์ž‘์—…)

ํ•™์Šต ์„ค์ •: - Vision encoder: ๋™๊ฒฐ - Projection layer + Mamba LLM: ํ•™์Šต ๊ฐ€๋Šฅ - Loss: Cross-entropy loss

Co-training์˜ ํ•ต์‹ฌ ์ธ์‚ฌ์ดํŠธ:

RoboMamba ์—ฐ๊ตฌ์ง„์€ ๊ธฐ์กด MLLM ํ•™์Šต ๋ฐฉ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ co-training ์ „๋žต์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ๋ถ„์•ผ๊ฐ€ ์ˆ˜๋งŽ์€ ๋ณต์žกํ•˜๊ณ  ์ƒˆ๋กœ์šด ์ž‘์—…์„ ํฌํ•จํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ–ฅ์ƒ๋œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•˜๋‹ค๋Š” ํŒ๋‹จ์— ๊ธฐ๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜์ ์œผ๋กœ co-training์ด ์ œ๊ณตํ•˜๋Š” ์žฅ์ : 1. ๋” ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๋กœ๋ด‡ ์ •์ฑ… ์ƒ์„ฑ 2. ์ผ๋ฐ˜ ์žฅ๋ฉด ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ (๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋œ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—… ๋•๋ถ„) 3. ํ™˜๊ฐ ํ˜„์ƒ ์™„ํ™” (์‹ค์ œ ์žฅ๋ฉด ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๊ฐ•ํ™”)

RoboVQA ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ด€๋ จ ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค: - Long-horizon task planning - Success/failure classification - Discriminative affordance (์–ด๋–ค ํ–‰๋™์ด ๊ฐ€๋Šฅํ•œ์ง€ ํŒ๋ณ„) - Generative affordance (๊ฐ€๋Šฅํ•œ ํ–‰๋™ ์ƒ์„ฑ) - Past description (๊ณผ๊ฑฐ ํ–‰๋™ ์„ค๋ช…) - Future prediction (๋ฏธ๋ž˜ ํ–‰๋™ ์˜ˆ์ธก)

3.2 Stage 2: Robot Manipulation Fine-tuning

๋ชฉ์ : ์ €์ˆ˜์ค€ SE(3) ํฌ์ฆˆ ์˜ˆ์ธก ๋Šฅ๋ ฅ ํš๋“

ํ•ต์‹ฌ ์„ค๊ณ„ ์ฒ ํ•™: โ€œ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋ชจ๋ธ์€ ์ตœ์†Œํ•œ์˜ ํŒŒ์ธํŠœ๋‹์œผ๋กœ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์Šคํ‚ฌ์„ ํš๋“ํ•  ์ˆ˜ ์žˆ๋‹คโ€

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: - SAPIEN ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ์‚ฌ์šฉ - PartNet-Mobility์˜ articulated objects - Franka Panda Robot with suction gripper - 10K ์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ ์˜ˆ์ธก ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ

ํ•™์Šต ์„ค์ •: - RoboMamba ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ: ๋™๊ฒฐ - Policy head๋งŒ: ํ•™์Šต ๊ฐ€๋Šฅ - ํ•™์Šต ์‹œ๊ฐ„: ์•ฝ 20~30๋ถ„ (๋‹จ์ผ A100 GPU)

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ”„๋กœ์„ธ์Šค: 1. ์›€์ง์ผ ์ˆ˜ ์žˆ๋Š” ํŒŒํŠธ์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ ‘์ด‰์  p ์„ ํƒ 2. ์—”๋“œ์ดํŽ™ํ„ฐ์˜ z์ถ•์„ ์ ‘์ด‰์  normal vector์˜ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์œผ๋กœ ์„ค์ • 3. y์ถ• ๋ฐฉํ–ฅ์€ ๋ฌด์ž‘์œ„๋กœ ์„ค์ • 4. ์„ฑ๊ณต์ ์ธ ์กฐ์ž‘์„ ์„ฑ๊ณต ์ƒ˜ํ”Œ๋กœ ๋ฐ์ดํ„ฐ์…‹์— ์ถ”๊ฐ€

์ด ์ ‘๊ทผ๋ฒ•์˜ ํ˜์‹ ์ ์ธ ์ ์€ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ํ•™์Šต์˜ ์ „์ œ ์กฐ๊ฑด์ด๋ผ๋Š” ๊ฐ€์„ค์„ ๊ฒ€์ฆํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. RoboMamba๊ฐ€ Stage 1์—์„œ ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํš๋“ํ•œ ํ›„์—๋Š”, ๊ทนํžˆ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ(0.1%)๋งŒ ํ•™์Šตํ•ด๋„ ํšจ๊ณผ์ ์ธ ํฌ์ฆˆ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.


4. ์‹คํ—˜ ๊ฒฐ๊ณผ ์‹ฌ์ธต ๋ถ„์„

4.1 ์ผ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€

RoboMamba๋Š” ๋‹ค์–‘ํ•œ MLLM ๋ฒค์น˜๋งˆํฌ์—์„œ 3.2B ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์œผ๋กœ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ ๋น„๊ต

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ OKVQA VQAv2 GQA VizWiz POPE MME MMB
LLaVA-1.5 7B - 78.5 62.0 50.0 85.9 1510 64.3
LLaMA-AdapterV2 7B - - - - - - -
TinyLLaVA 3B - - - - - - -
RoboMamba 2.7B ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ ๊ฒฝ์Ÿ๋ ฅ

ํ•ต์‹ฌ ๊ด€์ฐฐ: - RoboMamba๋Š” 2.7B ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ 7B ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ - ํŠนํžˆ GQA ๋ฒค์น˜๋งˆํฌ์—์„œ co-training ์ „๋žต์œผ๋กœ ์ธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ํ™•์ธ

4.2 ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€

RoboVQA ๋ฒค์น˜๋งˆํฌ์—์„œ RoboMamba์˜ ์„ฑ๋Šฅ์„ LLaMA-AdapterV2, TinyLLaVA์™€ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ BLEU-1 BLEU-2 BLEU-3 BLEU-4
LLaMA-AdapterV2 - - - ๋ฒ ์ด์Šค๋ผ์ธ
TinyLLaVA - - - -
RoboMamba ์ตœ๊ณ  ์ตœ๊ณ  ์ตœ๊ณ  42.8

์ฃผ์š” ๋ฐœ๊ฒฌ: 1. RoboMamba๋Š” BLEU-1๋ถ€ํ„ฐ BLEU-4๊นŒ์ง€ ๋ชจ๋“  ๋ฉ”ํŠธ๋ฆญ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ 2. ์ด๋Š” ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆ 3. ์ถ”๋ก  ์†๋„๋Š” LLaMA-AdapterV2 ๋Œ€๋น„ 7๋ฐฐ ๋น ๋ฆ„

4.3 ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ ํ‰๊ฐ€

SAPIEN ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜

SAPIEN ํ™˜๊ฒฝ์—์„œ articulated object manipulation ์ž‘์—…์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ •: - Training categories (seen): ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์นดํ…Œ๊ณ ๋ฆฌ - Test categories (unseen): ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์นดํ…Œ๊ณ ๋ฆฌ - ๋ฉ”ํŠธ๋ฆญ: Success rate (%)

์ฃผ์š” ๊ฒฐ๊ณผ: - RoboMamba๋Š” seen๊ณผ unseen ์นดํ…Œ๊ณ ๋ฆฌ ๋ชจ๋‘์—์„œ SOTA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ - ๋งŽ์€ ์ž‘์—…์—์„œ 80% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ  ๊ธฐ๋ก - ํŠนํžˆ unseen ์นดํ…Œ๊ณ ๋ฆฌ์—์„œ์˜ ๊ฐ•๊ฑดํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํ™•์ธ

์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ์˜ ์ƒ๊ด€๊ด€๊ณ„

์—ฐ๊ตฌ์ง„์€ ํฅ๋ฏธ๋กœ์šด ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค: ๋‹ค์–‘ํ•œ ์ˆ˜์ค€์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ๋ชจ๋ธ์— ๋™์ผํ•œ policy head๋ฅผ ํ•™์Šต์‹œ์ผœ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

์ถ”๋ก  ๋Šฅ๋ ฅ ์ˆ˜์ค€ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์„ฑ๊ณต๋ฅ 
๋‚ฎ์Œ (์ดˆ๊ธฐ ๋‹จ๊ณ„) ๋‚ฎ์Œ
์ค‘๊ฐ„ ์ค‘๊ฐ„
๋†’์Œ (RoboMamba) ๋†’์Œ

ํ•ต์‹ฌ ์ธ์‚ฌ์ดํŠธ: โ€œ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ํ•™์Šต์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹คโ€

์ด ๋ฐœ๊ฒฌ์€ ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์— ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค, ๋จผ์ € ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋Š” ๊ฒƒ์ด ๋” ํšจ์œจ์ ์ธ ์Šคํ‚ฌ ํš๋“์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

4.4 ์ถ”๋ก  ์†๋„ ๋น„๊ต

์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡ ์ œ์–ด์—์„œ ์ถ”๋ก  ์†๋„๋Š” ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ์ถ”๋ก  ์†๋„ (์ƒ๋Œ€์ ) ์ œ์–ด ์ฃผํŒŒ์ˆ˜
ManipLLM 1x ๊ธฐ์ค€
LLaMA-AdapterV2 ~1x -
RoboMamba 3x ์ตœ๊ณ 

RoboMamba๋Š” NVIDIA A100 GPU์—์„œ ์–‘์žํ™”๋‚˜ ์ถ”๋ก  ๊ฐ€์† ๊ธฐ๋ฒ• ์—†์ด๋„ ๊ธฐ์กด VLA ๋ชจ๋ธ ๋Œ€๋น„ 3๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba์˜ ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„ ๋•๋ถ„์ž…๋‹ˆ๋‹ค.

4.5 ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜

์—ฐ๊ตฌ์ง„์€ Franka Emika ๋กœ๋ด‡ ํŒ”์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ RoboMamba๋ฅผ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ์ž‘์—…: 1. Long-horizon task planning ์ƒ์„ฑ 2. ๊ฐ atomic task์— ๋Œ€ํ•œ ์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ ์˜ˆ์ธก 3. ์‹ค์ œ ์กฐ์ž‘ ์ˆ˜ํ–‰

์ •์„ฑ์  ๊ฒฐ๊ณผ: - RoboMamba๋Š” ๋ณต์žกํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ์ •ํ™•ํ•œ step-by-step ๊ณ„ํš ์ƒ์„ฑ - ๊ฐ ๋‹จ๊ณ„์— ๋Œ€ํ•ด ์ ์ ˆํ•œ ํฌ์ฆˆ ์˜ˆ์ธก ์ˆ˜ํ–‰ - ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ๋Šฅ๋ ฅ์ด ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์ „์ด ๊ฐ€๋Šฅํ•จ์„ ํ™•์ธ


5. Ablation Study ๋ถ„์„

5.1 LLM ๋ฐฑ๋ณธ ๋น„๊ต

์—ฐ๊ตฌ์ง„์€ Mamba-2.7B๋ฅผ ๋‹ค๋ฅธ ์„ ํ˜• ๋ณต์žก๋„ LLM๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

LLM ๋ฐฑ๋ณธ ์ผ๋ฐ˜ ์ถ”๋ก  ๋กœ๋ด‡ ์ถ”๋ก  ๋ณต์žก๋„
RWKV-3B ๋‚ฎ์Œ ๋‚ฎ์Œ ์„ ํ˜•
Mamba-2.7B ๋†’์Œ ๋†’์Œ ์„ ํ˜•

Mamba-2.7B๋Š” RWKV-3B ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋†’์€ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba์˜ selective mechanism์ด content-aware reasoning์— ๋” ํšจ๊ณผ์ ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

5.2 ํ•™์Šต ์ „๋žต ์˜ํ–ฅ

Co-training vs. ๊ฐœ๋ณ„ ํ•™์Šต

ํ•™์Šต ์ „๋žต ์ผ๋ฐ˜ ์ถ”๋ก  ๋กœ๋ด‡ ์ถ”๋ก  ์ผ๋ฐ˜ํ™”
์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ๋งŒ ๋†’์Œ ๋‚ฎ์Œ ๋‚ฎ์Œ
๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ ๋‚ฎ์Œ ์ค‘๊ฐ„ ์ค‘๊ฐ„
Co-training ๋†’์Œ ๋†’์Œ ๋†’์Œ

Co-training ์ „๋žต์€ ๋‘ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

5.3 Vision Encoder ์„ ํƒ

๋‹ค์–‘ํ•œ vision encoder๋ฅผ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, CLIP ViT๊ฐ€ ๋กœ๋ด‡ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด๋Š” CLIP์˜ ํ’๋ถ€ํ•œ ์‹œ๊ฐ-์–ธ์–ด ์‚ฌ์ „ ํ•™์Šต ์ง€์‹์ด ๋กœ๋ด‡ ์ž‘์—…์—๋„ ์œ ์šฉํ•˜๊ฒŒ ์ „์ด๋จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5.4 Policy Head ์„ค๊ณ„

์—ฐ๊ตฌ์ง„์€ ๋‹ค์–‘ํ•œ policy head ์„ค๊ณ„๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค:

  1. Simple MLP (์ฑ„ํƒ): ํšจ์œจ์ ์ด๊ณ  ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ
  2. Transformer-based head: ๋” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ, ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ
  3. Recurrent head: ๋ถˆํ•„์š”ํ•œ ๋ณต์žก์„ฑ

๊ฒฐ๋ก : ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ๋ฐฑ๋ณธ๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด, ๊ฐ„๋‹จํ•œ MLP๋งŒ์œผ๋กœ๋„ ํšจ๊ณผ์ ์ธ ํฌ์ฆˆ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


6. ๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„

6.1 ์™œ Mamba๊ฐ€ ๋กœ๋ด‡ VLA์— ์ ํ•ฉํ•œ๊ฐ€?

6.1.1 ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„์˜ ์‹ค์šฉ์  ์˜๋ฏธ

๋กœ๋ด‡ ์ œ์–ด ์‹œ์Šคํ…œ์—์„œ ์ œ์–ด ์ฃผํŒŒ์ˆ˜๋Š” ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ์— ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ:

  • ์ €์ฃผํŒŒ ์ œ์–ด (< 10 Hz): ๋А๋ฆฐ ์ž‘์—…๋งŒ ๊ฐ€๋Šฅ, ๋™์  ํ™˜๊ฒฝ ๋Œ€์‘ ๋ถˆ๊ฐ€
  • ์ค‘์ฃผํŒŒ ์ œ์–ด (10-50 Hz): ๋Œ€๋ถ€๋ถ„์˜ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์ž‘์—… ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ
  • ๊ณ ์ฃผํŒŒ ์ œ์–ด (> 50 Hz): ์ •๋ฐ€ ์ž‘์—…, ์ถฉ๋Œ ํšŒํ”ผ ๋“ฑ ๊ณ ๊ธ‰ ๊ธฐ๋Šฅ ๊ฐ€๋Šฅ

Transformer ๊ธฐ๋ฐ˜ VLA ๋ชจ๋ธ์€ ๊ธด ์‹œํ€€์Šค์—์„œ ์ถ”๋ก  ์‹œ๊ฐ„์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜์—ฌ ์ œ์–ด ์ฃผํŒŒ์ˆ˜๊ฐ€ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด Mamba๋Š” ์‹œํ€€์Šค ๊ธธ์ด์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์ผ์ •ํ•œ ์ถ”๋ก  ์‹œ๊ฐ„์„ ์œ ์ง€ํ•˜์—ฌ ๋” ๋†’์€ ์ œ์–ด ์ฃผํŒŒ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6.1.2 Content-aware Reasoning์˜ ์ค‘์š”์„ฑ

๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ๋Š” ์žฅ๋ฉด์˜ ํŠน์ • ๋ถ€๋ถ„์— ์„ ํƒ์ ์œผ๋กœ ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ด๋Š” ๋Šฅ๋ ฅ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค:

  • ์กฐ์ž‘ ๋Œ€์ƒ ๋ฌผ์ฒด์˜ ์ƒํƒœ ํŒŒ์•…
  • ์žฅ์• ๋ฌผ ์ธ์‹
  • ์ž‘์—… ๊ด€๋ จ affordance ์‹๋ณ„

Mamba์˜ selective mechanism์€ ์ด๋Ÿฌํ•œ ์„ ํƒ์  ์ •๋ณด ์ฒ˜๋ฆฌ๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. \Delta ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ†ตํ•ด ์–ด๋–ค ์ •๋ณด๋ฅผ ์ „ํŒŒํ•˜๊ณ  ์–ด๋–ค ์ •๋ณด๋ฅผ ์žŠ์„์ง€ ๋™์ ์œผ๋กœ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

6.2 ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์˜ ๊ด€๊ณ„

RoboMamba์˜ ํ•ต์‹ฌ ๋ฐœ๊ฒฌ ์ค‘ ํ•˜๋‚˜๋Š” โ€œ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ํ•™์Šต์˜ ์ „์ œ ์กฐ๊ฑดโ€์ด๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๋” ๊นŠ์ด ๋ถ„์„ํ•ด ๋ด…์‹œ๋‹ค.

6.2.1 ์™œ ์ถ”๋ก ์ด ๋จผ์ €์ธ๊ฐ€?

์ „ํ†ต์ ์ธ ๋กœ๋ด‡ ํ•™์Šต ์ ‘๊ทผ๋ฒ•์€ ํ–‰๋™ ๋ฐ์ดํ„ฐ๋กœ ์ง์ ‘ ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„:

  1. ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ๋ฌธ์ œ: ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ์ƒํ™ฉ์— ๋Œ€ํ•œ ํ–‰๋™ ๋ฐ์ดํ„ฐ ํ•„์š”
  2. ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„: ํ•™์Šต ๋ถ„ํฌ ์™ธ์˜ ์ƒํ™ฉ์—์„œ ์‹คํŒจ
  3. ๋ณต์žกํ•œ ์ž‘์—… ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€: ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์— ์ทจ์•ฝ

RoboMamba์˜ ์ ‘๊ทผ๋ฒ•์€ ์ด์™€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค:

  1. ๋จผ์ € ์„ธ๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด ํ•™์Šต (์ถ”๋ก  ๋Šฅ๋ ฅ)
  2. ๊ทธ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ–‰๋™ ํ•™์Šต (๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜)

์ด๋Š” ์ธ๊ฐ„์˜ ํ•™์Šต ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋จผ์ € ๋ฌผ๋ฆฌ ์„ธ๊ณ„์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๊ณ , ๊ทธ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒˆ๋กœ์šด ์กฐ์ž‘ ์Šคํ‚ฌ์„ ๋น ๋ฅด๊ฒŒ ์Šต๋“ํ•ฉ๋‹ˆ๋‹ค.

6.2.2 ํšจ์œจ์  ํŒŒ์ธํŠœ๋‹์ด ๊ฐ€๋Šฅํ•œ ์ด์œ 

RoboMamba๊ฐ€ 0.1%์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์œผ๋กœ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋Šฅ๋ ฅ์„ ํš๋“ํ•  ์ˆ˜ ์žˆ๋Š” ์ด์œ :

  1. ํ’๋ถ€ํ•œ ์‹œ๊ฐ์  ํ‘œํ˜„: CLIP encoder๊ฐ€ ์ด๋ฏธ ๋ฌผ์ฒด, ๊ณต๊ฐ„, ๊ด€๊ณ„์— ๋Œ€ํ•œ ํ’๋ถ€ํ•œ ํ‘œํ˜„ ํ•™์Šต
  2. ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ: Stage 1์—์„œ ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ ํš๋“
  3. ์ ์ ˆํ•œ ์ •๋ณด ์••์ถ•: Global token์ด ํฌ์ฆˆ ์˜ˆ์ธก์— ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์••์ถ•

Policy head๋Š” ์ด๋ฏธ ํ•™์Šต๋œ ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ SE(3) ํฌ์ฆˆ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ์—ญํ• ๋งŒ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

6.3 Global Token์˜ ์—ญํ• 

RoboMamba๋Š” Mamba ์ถœ๋ ฅ ํ† ํฐ๋“ค์— ๋Œ€ํ•œ pooling์œผ๋กœ global token์„ ์ƒ์„ฑํ•˜๊ณ , ์ด๋ฅผ policy head์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Global Token์˜ ํŠน์„ฑ: - ์ „์ฒด ์‹œ๊ฐ-์–ธ์–ด ์ปจํ…์ŠคํŠธ์˜ ์••์ถ•๋œ ํ‘œํ˜„ - ์žฅ๋ฉด์˜ semantic ์ •๋ณด์™€ ์ž‘์—… ์˜๋„๋ฅผ ๋™์‹œ์— ์ธ์ฝ”๋”ฉ - ๋กœ๋ด‡ ์ƒํƒœ ์ถ”์ •์— ํ•„์š”ํ•œ ์ •๋ณด ํฌํ•จ

์ด ์„ค๊ณ„๋Š” attention ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ [CLS] ํ† ํฐ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, Mamba์˜ sequential processing ํŠน์„ฑ์ƒ ๋ชจ๋“  ์ด์ „ ์ •๋ณด๊ฐ€ ํ†ตํ•ฉ๋œ ์ƒํƒœ๋ผ๋Š” ์ ์—์„œ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.


7. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

7.1 ํ˜„์žฌ ํ•œ๊ณ„์ 

7.1.1 ํฌ์ฆˆ ์˜ˆ์ธก์˜ ํ•œ๊ณ„

RoboMamba์˜ ํ˜„์žฌ ๊ตฌํ˜„์€ ๋‹จ์ผ ํฌ์ธํŠธ SE(3) ํฌ์ฆˆ ์˜ˆ์ธก์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

  • ๊ถค์ (trajectory) ์ƒ์„ฑ ๋ฏธ์ง€์›
  • ์—ฐ์†์ ์ธ ์ œ์–ด ์‹ ํ˜ธ ์ƒ์„ฑ ๋ฏธ์ง€์›
  • force/torque ์˜ˆ์ธก ๋ฏธํฌํ•จ

7.1.2 ์„ผ์„œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ œํ•œ

ํ˜„์žฌ ์‹œ์Šคํ…œ์€ RGB ์ด๋ฏธ์ง€๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:

  • ๊นŠ์ด(depth) ์ •๋ณด๋Š” pose prediction ์‹œ์—๋งŒ ์‚ฌ์šฉ
  • ์ด‰๊ฐ(tactile) ํ”ผ๋“œ๋ฐฑ ๋ฏธํ†ตํ•ฉ
  • proprioception ์ •๋ณด ๋ฏธํ™œ์šฉ

7.1.3 ์‹ค์‹œ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๋ถ€์žฌ

ํ˜„์žฌ ์•„ํ‚คํ…์ฒ˜๋Š” open-loop ์˜ˆ์ธก์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค:

  • ์‹คํ–‰ ์ค‘ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์กฐ์ • ๋ฏธ์ง€์›
  • ๋™์  ํ™˜๊ฒฝ ๋ณ€ํ™” ๋Œ€์‘ ์ œํ•œ์ 
  • ์‹คํŒจ ๋ณต๊ตฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฏธํฌํ•จ

7.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

7.2.1 ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ ํ™•์žฅ

๋ฏธ๋ž˜ RoboMamba ์ž…๋ ฅ:
โ”œโ”€โ”€ RGB ์ด๋ฏธ์ง€
โ”œโ”€โ”€ Depth ์ด๋ฏธ์ง€
โ”œโ”€โ”€ Point Cloud
โ”œโ”€โ”€ Tactile ๋ฐ์ดํ„ฐ
โ”œโ”€โ”€ Proprioception
โ””โ”€โ”€ Audio (์˜ต์…˜)

7.2.2 ์‹œ๊ฐ„์  ์ถ”๋ก  ๊ฐ•ํ™”

Mamba์˜ sequential nature๋ฅผ ํ™œ์šฉํ•œ ์‹œ๊ฐ„์  ์ถ”๋ก  ๊ฐ•ํ™”:

  • ๋น„๋””์˜ค ์ž…๋ ฅ ์ฒ˜๋ฆฌ
  • ๋™์ž‘ ์˜ˆ์ธก ๋ฐ ๊ถค์  ์ƒ์„ฑ
  • ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ƒํƒœ ์ถ”์ •

7.2.3 ๊ณ„์ธต์  ์ž‘์—… ๋ถ„ํ•ด

Long-horizon task๋ฅผ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๊ณ„์ธต์  ๊ตฌ์กฐ:

High-level: Task Planning (์–ธ์–ด)
    โ†“
Mid-level: Sub-task Decomposition
    โ†“
Low-level: Motion Primitive Selection + Pose Prediction

7.2.4 Closed-loop ์ œ์–ด ํ†ตํ•ฉ

์‹คํ–‰ ์ค‘ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ฉํ•œ closed-loop ์‹œ์Šคํ…œ:

Observe โ†’ Reason โ†’ Act โ†’ Observe (feedback) โ†’ Re-plan โ†’ ...

7.2.5 ๋” ํฐ ๊ทœ๋ชจ์˜ Mamba ๋ชจ๋ธ

ํ˜„์žฌ 2.7B ํŒŒ๋ผ๋ฏธํ„ฐ์—์„œ ๋” ํฐ ๋ชจ๋ธ๋กœ์˜ ํ™•์žฅ:

  • Mamba์˜ scaling ํŠน์„ฑ ๊ฒ€์ฆ
  • ๋” ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ํš๋“
  • ๋” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์ž‘์—… ์ง€์›

8. ๋กœ๋ด‡๊ณตํ•™ ๊ด€์ ์—์„œ์˜ ์‹œ์‚ฌ์ 

8.1 ์‹ค์šฉ์  ์‹œ์‚ฌ์ 

8.1.1 ๋ชจ๋ธ ๋ฐฐํฌ ๊ด€์ 

RoboMamba์˜ ํšจ์œจ์„ฑ์€ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ๋ฐฐํฌ์— ์ค‘์š”ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

์˜จ๋ณด๋“œ ๋ฐฐํฌ ๊ฐ€๋Šฅ์„ฑ: - 3.2B ํŒŒ๋ผ๋ฏธํ„ฐ: ๊ณ ์„ฑ๋Šฅ ์—ฃ์ง€ GPU์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅ - ์„ ํ˜• ์ถ”๋ก  ๋ณต์žก๋„: ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ์‘๋‹ต ์‹œ๊ฐ„ - ์ž‘์€ policy head: ๋น ๋ฅธ task-specific ์ ์‘

ํด๋ผ์šฐ๋“œ ์˜์กด์„ฑ ๊ฐ์†Œ: - ๋กœ์ปฌ ์ถ”๋ก  ๊ฐ€๋Šฅ์œผ๋กœ ๋„คํŠธ์›Œํฌ ์ง€์—ฐ ์ œ๊ฑฐ - ํ”„๋ผ์ด๋ฒ„์‹œ ๋ฏผ๊ฐ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅ - ์˜คํ”„๋ผ์ธ ๋™์ž‘ ์ง€์›

8.1.2 ํ•™์Šต ํšจ์œจ์„ฑ ๊ด€์ 

์—ฐ๊ตฌ ๋ฆฌ์†Œ์Šค ๋ฏผ์ฃผํ™”: - ๋‹จ์ผ A100 GPU๋กœ 20-30๋ถ„ ๋งŒ์— ์ƒˆ๋กœ์šด ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์Šคํ‚ฌ ํ•™์Šต - ๋Œ€๊ทœ๋ชจ ์ปดํ“จํŒ… ์ธํ”„๋ผ ๋ถˆํ•„์š” - ๋น ๋ฅธ ์‹คํ—˜ ์ดํ„ฐ๋ ˆ์ด์…˜ ๊ฐ€๋Šฅ

๋„๋ฉ”์ธ ์ ์‘: - ์ƒˆ๋กœ์šด ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ์‰ฝ๊ฒŒ ์ ์‘ - ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ ์ถ”๊ฐ€ ์šฉ์ด - ์ž‘์—… ํŠนํ™” ๋ฏธ์„ธ ์กฐ์ • ํšจ์œจ์ 

8.2 ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ฑ ์‹œ์‚ฌ์ 

8.2.1 Foundation Model๊ณผ ๋กœ๋ณดํ‹ฑ์Šค์˜ ์œตํ•ฉ

RoboMamba๋Š” โ€œ๋กœ๋ด‡์„ ์œ„ํ•œ foundation modelโ€ ๊ฐœ๋ฐœ์˜ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค:

  1. ํšจ์œจ์„ฑ ์šฐ์„ : Transformer ๋Œ€์‹  ๋” ํšจ์œจ์ ์ธ ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰
  2. ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•์กฐ: ๋‹จ์ˆœ ํ–‰๋™ ๋ณต์ œ๋ณด๋‹ค ์ดํ•ด ๊ธฐ๋ฐ˜ ํ•™์Šต
  3. ๋ชจ๋“ˆํ™” ์„ค๊ณ„: ์ถ”๋ก  ๋ชจ๋“ˆ๊ณผ ํ–‰๋™ ๋ชจ๋“ˆ์˜ ๋ถ„๋ฆฌ

8.2.2 Sim-to-Real Transfer

RoboMamba๊ฐ€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ๋Šฅ๋ ฅ์ด ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์ „์ด๋œ ๊ฒƒ์€ ์ค‘์š”ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

  • ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด sim-to-real gap ์™„ํ™”์— ๋„์›€
  • ์‹œ๊ฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์ด ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ์ค„์ž„
  • ๊ณ ์ˆ˜์ค€ ์ถ”์ƒํ™”๊ฐ€ ์ €์ˆ˜์ค€ ์ฐจ์ด๋ฅผ ํก์ˆ˜

8.3 ๋น„๊ต ๊ด€์ 

RoboMamba vs. ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•

์ธก๋ฉด ๊ธฐ์กด VLA End-to-end BC RoboMamba
์ถ”๋ก  ๋Šฅ๋ ฅ ์ œํ•œ์  ์—†์Œ ๊ฐ•๋ ฅ
ํ•™์Šต ํšจ์œจ์„ฑ ๋‚ฎ์Œ ์ค‘๊ฐ„ ๋†’์Œ
์ถ”๋ก  ์†๋„ ๋А๋ฆผ ๋น ๋ฆ„ ๋น ๋ฆ„
์ผ๋ฐ˜ํ™” ์ค‘๊ฐ„ ๋‚ฎ์Œ ๋†’์Œ
ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ ๋‚ฎ์Œ ๋†’์Œ

9. ๊ตฌํ˜„ ๊ณ ๋ ค์‚ฌํ•ญ

9.1 ์‹ค์ œ ์ ์šฉ์„ ์œ„ํ•œ ์ฒดํฌ๋ฆฌ์ŠคํŠธ

RoboMamba๋ฅผ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ์— ์ ์šฉํ•  ๋•Œ ๊ณ ๋ คํ•ด์•ผ ํ•  ์‚ฌํ•ญ๋“ค:

ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ์‚ฌํ•ญ

์†Œํ”„ํŠธ์›จ์–ด ํ™˜๊ฒฝ

๋ฐ์ดํ„ฐ ์ค€๋น„

9.2 ์ปค์Šคํ„ฐ๋งˆ์ด์ง• ๊ฐ€์ด๋“œ

์ƒˆ๋กœ์šด ๋กœ๋ด‡ ํ”Œ๋žซํผ ์ ์‘

# Policy head ์ปค์Šคํ„ฐ๋งˆ์ด์ง• ์˜ˆ์‹œ
class CustomPolicyHead(nn.Module):
    def __init__(self, input_dim, robot_dof):
        super().__init__()
        self.position_mlp = nn.Sequential(
            nn.Linear(input_dim, 512),
            nn.ReLU(),
            nn.Linear(512, 3)  # x, y, z
        )
        self.rotation_mlp = nn.Sequential(
            nn.Linear(input_dim, 512),
            nn.ReLU(),
            nn.Linear(512, 6)  # 6D rotation representation
        )
        # ๋กœ๋ด‡ ํŠนํ™” ์ถœ๋ ฅ ์ถ”๊ฐ€
        self.gripper_mlp = nn.Sequential(
            nn.Linear(input_dim, 256),
            nn.ReLU(),
            nn.Linear(256, 1),  # gripper open/close
            nn.Sigmoid()
        )

์ƒˆ๋กœ์šด ์ž‘์—… ์ถ”๊ฐ€

  1. ์ž‘์—… ์ •์˜: ๋ช…ํ™•ํ•œ ์„ฑ๊ณต ์กฐ๊ฑด ์ •์˜
  2. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋˜๋Š” ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘
  3. ํฌ๋งท ๋ณ€ํ™˜: RoboMamba ์ž…๋ ฅ ํ˜•์‹์— ๋งž๊ฒŒ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜
  4. Policy head ํ•™์Šต: ๋™๊ฒฐ๋œ backbone์œผ๋กœ head๋งŒ ํ•™์Šต

10. ๊ฒฐ๋ก 

RoboMamba๋Š” ๋กœ๋ด‡ VLA ๋ชจ๋ธ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. State Space Model ๊ธฐ๋ฐ˜์˜ Mamba ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋กœ๋ณดํ‹ฑ์Šค์— ์ ์šฉํ•˜์—ฌ, ํšจ์œจ์„ฑ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ณผ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ

  1. ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ : Transformer ๋Œ€์‹  Mamba๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ ํ˜• ์‹œ๊ฐ„ ๋ณต์žก๋„ ๋‹ฌ์„ฑ, 3๋ฐฐ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„
  2. ํšจ์œจ์  ํ•™์Šต ์ „๋žต: 2๋‹จ๊ณ„ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ถ”๋ก ๊ณผ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋Šฅ๋ ฅ ๋ถ„๋ฆฌ ํ•™์Šต
  3. ๊ทน๋„๋กœ ํšจ์œจ์ ์ธ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ํ•™์Šต: 0.1% ํŒŒ๋ผ๋ฏธํ„ฐ, 20-30๋ถ„ ํ•™์Šต์œผ๋กœ ์ƒˆ๋กœ์šด ์Šคํ‚ฌ ํš๋“
  4. ์ถ”๋ก -๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์—ฐ๊ฒฐ: โ€œ์ถฉ๋ถ„ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ํšจ์œจ์ ์ธ ์Šคํ‚ฌ ํ•™์Šต์˜ ์ „์ œ ์กฐ๊ฑดโ€์ด๋ผ๋Š” ํ†ต์ฐฐ

๋กœ๋ด‡๊ณตํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋Œ€ํ•œ ์˜์˜

RoboMamba๋Š” ๋กœ๋ด‡ ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค:

  • ์ดํ•ด ๊ธฐ๋ฐ˜ ํ•™์Šต: ๋‹จ์ˆœ ๋ชจ๋ฐฉ์ด ์•„๋‹Œ, ์„ธ๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•œ ํ–‰๋™ ํ•™์Šต
  • ํšจ์œจ์„ฑ ์ค‘์‹ฌ ์„ค๊ณ„: ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ๋ฐฐํฌ๋ฅผ ๊ณ ๋ คํ•œ ์‹ค์šฉ์  ์•„ํ‚คํ…์ฒ˜
  • ๋ชจ๋“ˆํ™”: ์ถ”๋ก  ๋ชจ๋“ˆ๊ณผ ํ–‰๋™ ๋ชจ๋“ˆ์˜ ๋ถ„๋ฆฌ๋กœ ์œ ์—ฐํ•œ ํ™•์žฅ ๊ฐ€๋Šฅ

ํ–ฅํ›„ Mamba ์•„ํ‚คํ…์ฒ˜์˜ ๋ฐœ์ „๊ณผ ํ•จ๊ป˜ RoboMamba์˜ ์ ‘๊ทผ๋ฒ•์€ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์‹œ๊ฐ„์  ์ถ”๋ก , ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ, closed-loop ์ œ์–ด ๋“ฑ์˜ ํ™•์žฅ์„ ํ†ตํ•ด ๋”์šฑ ๋ณต์žกํ•˜๊ณ  ์‹ค์šฉ์ ์ธ ๋กœ๋ด‡ ์‘์šฉ์ด ๊ฐ€๋Šฅํ•ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฐธ๊ณ  ๋ฌธํ—Œ

๋ณธ ๋ฆฌ๋ทฐ์—์„œ ์–ธ๊ธ‰๋œ ์ฃผ์š” ์—ฐ๊ตฌ๋“ค:

  • Gu & Dao (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • Liu et al. (2024). RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation. NeurIPS 2024
  • Sermanet et al. (2023). RoboVQA: Multimodal Long-horizon Reasoning for Robotics
  • Li et al. (2023). ManipLLM: Embodied Multimodal Large Language Model for Object-centric Robotic Manipulation
  • Xiang et al. (2020). SAPIEN: A Simulated Part-based Interactive Environment

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์†Œ๊ฐœ (Introduction)

RoboMamba๋Š” ๋กœ๋ด‡์ด ์‹œ๊ฐ ์ •๋ณด์™€ ์ž์—ฐ์–ด ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ์‹ค์ œ ๋™์ž‘์œผ๋กœ๊นŒ์ง€ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋œ ๋น„์ „-์–ธ์–ด-์•ก์…˜(VLA) ํ†ตํ•ฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์„ ๋กœ๋ด‡ ์กฐ์ž‘์— ํ™œ์šฉํ•˜๋ ค๋Š” ์‹œ๋„๊ฐ€ ํ™œ๋ฐœํ•˜์ง€๋งŒ, ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•๋“ค์€ ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๋ถ€์กฑ๊ณผ ๋ฏธ์„ธ์กฐ์ • ์‹œ์˜ ๋ง‰๋Œ€ํ•œ ์—ฐ์‚ฐ ๋น„์šฉ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•œ๊ณ„๋ฅผ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. RoboMamba๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Mamba๋ผ ๋ถˆ๋ฆฌ๋Š” ์ƒํƒœ๊ณต๊ฐ„ ๋ชจ๋ธ(SSM) ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์„ ๋กœ๋ด‡ ๋ถ„์•ผ์— ๋„์ž…ํ•œ ์ตœ์ดˆ์˜ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. 2024๋…„ NeurIPS์— ์ฑ„ํƒ๋œ ์ด ์—ฐ๊ตฌ๋Š”, ํšจ์œจ์„ฑ(linear time complexity)๊ณผ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก ๋ ฅ์„ ๊ฒธ๋น„ํ•œ Mamba๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡์—๊ฒŒ ์‹œ๊ฐ์  ์ƒ์‹๊ณผ ๊ณ ์ฐจ์› ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๊ณ , ์•„์ฃผ ๊ฐ„๋‹จํ•œ ์ •์ฑ… ํ—ค๋“œ๋งŒ์„ ์ถ”๊ฐ€ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ๋กœ๋ด‡ ์กฐ์ž‘(์˜ˆ: ํŒ”์˜ 6-์ž์œ ๋„ ์ž์„ธ ์˜ˆ์ธก)๊นŒ์ง€ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ์ ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ๊ธฐ์—ฌ:

  • ๋น„์ „-์–ธ์–ด ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜: ์‹œ๊ฐ ํŠน์„ฑ ์ถ”์ถœ์šฉ ๋น„์ „ ์ธ์ฝ”๋”(CLIP)์™€ ํšจ์œจ์ ์ธ Mamba ์–ธ์–ด ๋ชจ๋ธ์„ ์ƒˆ๋กญ๊ฒŒ ๊ฒฐํ•ฉํ•˜์—ฌ ์—”๋“œ-ํˆฌ-์—”๋“œ ๋กœ๋ด‡ MLLM์„ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์— ์‹œ๊ฐ์  ์ƒ์‹๊ณผ ๋กœ๋ด‡ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ•จ๊ป˜ ์ œ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํšจ์œจ์ ์ธ ์กฐ์ž‘ ๋ฏธ์„ธ์กฐ์ •: ์•„์ฃผ ๋‹จ์ˆœํ•œ ์ •์ฑ… ํ—ค๋“œ(policy head)๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋กœ๋ด‡์˜ ํŒ” ๋๋‹จ ์ž์„ธ(6-DoF ํฌ์ฆˆ)๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ 0.1%๋งŒ ๋ฏธ์„ธ์กฐ์ •ํ•ด๋„ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์ถฉ๋ถ„ํžˆ ๊ฐ–์ถฐ์ง„ ํ›„์—๋Š” ์ตœ์†Œํ•œ์˜ ๋น„์šฉ์œผ๋กœ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ํฅ๋ฏธ๋กœ์šด ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.
  • ํƒ์›”ํ•œ ์„ฑ๋Šฅ๊ณผ ์†๋„ ํ–ฅ์ƒ: ๋‹ค์–‘ํ•œ ์ผ๋ฐ˜ ๋ฐ ๋กœ๋ด‡ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ ์‹คํ™˜๊ฒฝ ๋กœ๋ด‡ ์‹คํ—˜ ๋ชจ๋‘์—์„œ ์ธ์ƒ์ ์ธ ์ž์„ธ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RoboVQA ๋ฒค์น˜๋งˆํฌ์—์„œ BLEU-4 ์ ์ˆ˜ 36.3์„ ๊ธฐ๋กํ•˜๊ณ , ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ 3๋ฐฐ ์ด์ƒ ๋น ๋ฅธ ์ถ”๋ก ์†๋„๋ฅผ ๊ตฌํ˜„ํ•˜์˜€์Šต๋‹ˆ๋‹ค (์ถ”ํ›„ ๋น„๊ต ์‹คํ—˜์—์„œ๋Š” ์ตœ๋Œ€ 7๋ฐฐ ์†๋„ ํ–ฅ์ƒ ๋ณด๊ณ ).

์ด ๋ฆฌ๋ทฐ์—์„œ๋Š” RoboMamba ๋…ผ๋ฌธ์˜ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜, ํ•™์Šต ๋ฐฉ๋ฒ•๋ก , ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ, ์‹คํ—˜ ์„ค์ •, ํ‰๊ฐ€ ์ง€ํ‘œ, ์‹คํ—˜ ๊ฒฐ๊ณผ (์ •๋Ÿ‰/์ •์„ฑ ํ‰๊ฐ€ ๋ฐ ablation ๋ถ„์„), ๊ทธ๋ฆฌ๊ณ  ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ๊นŒ์ง€ ๋…ผ๋ฌธ ์ „๋ฐ˜์„ ๊นŠ์ด ์žˆ๊ฒŒ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ (Background & Motivation)

๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์˜ ๊ถ๊ทน์  ๋ชฉํ‘œ ์ค‘ ํ•˜๋‚˜๋Š”, ๋กœ๋ด‡์ด ์‹œ๊ฐ ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๊ณ  ์ฃผ์–ด์ง„ ๋ชฉํ‘œ์— ๋”ฐ๋ผ ์ผ๋ จ์˜ ๋™์ž‘์„ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” ๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ถ”๋ก ๋ ฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋กœ๋ด‡์— ์ด์‹ํ•˜๊ณ ์ž, ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ ์ž์—ฐ์–ด ๋ช…๋ น์„ ํ•จ๊ป˜ ๋ฐ›์•„ ๊ณ„ํš์„ ์ˆ˜๋ฆฝํ•˜๊ฑฐ๋‚˜ ๋™์ž‘ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM (MLLM) ์—ฐ๊ตฌ๊ฐ€ ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Palm-E๋Š” ๋กœ๋ด‡ ๊ด€์ธก(๋น„์ „)๊ณผ ๋ช…๋ น์„ Transformer ๊ธฐ๋ฐ˜ LLM์— ํ†ตํ•ฉํ•ด ๊ณ„ํš์„ ์„ธ์› ๊ณ , VoxPoser๋Š” LLM์œผ๋กœ๋ถ€ํ„ฐ ๋„์ถœํ•œ ์–ดํฌ๋˜์Šค๋ฅผ ํ™œ์šฉํ•ด ์ œ๋กœ์ƒท์œผ๋กœ ๋กœ๋ด‡ ๊ถค์ ์„ ์˜ˆ์ธกํ–ˆ์Šต๋‹ˆ๋‹ค. RoboFlamingo๋Š” ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ๋น„์ „-์–ธ์–ด-์กฐ์ž‘ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ์–ธ์–ด ์กฐ๊ฑด๋ถ€ ์กฐ์ž‘์„ ์ˆ˜ํ–‰ํ–ˆ๊ณ , ManipLLM์€ LLM์„ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ์— ํŠนํ™” ํ›ˆ๋ จ์‹œ์ผœ ํŒ” ๋๋‹จ ์œ„์น˜๊นŒ์ง€ ์˜ˆ์ธกํ•˜๊ฒŒ ํ•œ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ธฐ์กด ๋กœ๋ด‡ MLLM ์ ‘๊ทผ๋ฒ•์—๋Š” ๋‘ ๊ฐ€์ง€ ํ•œ๊ณ„๊ฐ€ ์ง€์ ๋ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋ฏธ๋ฆฌ ํ›ˆ๋ จ๋œ LLM์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์€ ๋ณต์žกํ•œ ๋กœ๋ด‡ ์ถ”๋ก  ์ƒํ™ฉ์—์„œ ํ•œ๊ณ„๋ฅผ ๋“œ๋Ÿฌ๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ €์ž๋“ค์€ Figure 1 ์˜ˆ์‹œ์—์„œ, ์ผ๋ฐ˜ MLLM์„ ์กฐ์ •ํ•œ ๋กœ๋ด‡ ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš ๋ฌธ์ œ๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ์˜ ์ถ”๋ก ๋ ฅ ๋ถ€์กฑ์„ ์งš์—ˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ์˜ Self-Attention ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ๋Š” ๊ธธ์ด ์ฆ๊ฐ€์— ๋”ฐ๋ผ ๊ณ„์‚ฐ๋Ÿ‰์ด ์ด์ฐจ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฌํ•œ ๋น„์šฉ์ด ๋†’์€ ๋ชจ๋ธ์„ ๋กœ๋ด‡์— ์ ์šฉ ๋ฐ ์‹ค์‹œ๊ฐ„ ์ถ”๋ก ํ•˜๊ธฐ์—๋Š” ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์„ ๋กœ๋ด‡ ์กฐ์ž‘์— ํŒŒ์ธํŠœ๋‹ ๋ฐ ์ถ”๋ก ํ•˜๋Š” ๋ฐ ์—„์ฒญ๋‚œ ์ž์›๊ณผ ์‹œ๊ฐ„ ์ง€์—ฐ์ด ๋ฐœ์ƒํ•˜๋ฉฐ, ์ด๋Š” ํ˜„์‹ค์ ์ธ ๋กœ๋ด‡ ์‘๋‹ต ์†๋„ ์š”๊ตฌ์— ๋ถ€ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ไปฅไธŠ์˜ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ โ€œTransformer ๋Œ€์‹  ํšจ์œจ์ ์ธ SSM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ์จ๋ณด์žโ€๋Š” ์•„์ด๋””์–ด๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. SSM(State Space Model)์€ ์—ฐ์† ์‹œ์Šคํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋กœ, ์ž…๋ ฅ ๊ธธ์ด์— ์„ ํ˜•์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๋Š” ๊ณ„์‚ฐ๋Ÿ‰๊ณผ ์žฅ๊ธฐ ์˜์กด๊ด€๊ณ„ ํ•™์Šต์— ์œ ๋ฆฌํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ํŠนํžˆ 2023๋…„ ์ œ์•ˆ๋œ Mamba ๋ชจ๋ธ์€, Selective Scan Mechanism (S6)์ด๋ผ๋Š” ํ˜์‹ ์œผ๋กœ ์ž…๋ ฅ ๋‚ด์šฉ์— ๋”ฐ๋ผ ์ƒํƒœ๊ณต๊ฐ„ ํ–‰๋ ฌ์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ๋ฌธ๋งฅ ์ ์‘์  ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๊ณ , ๊ทธ๋Ÿผ์—๋„ ์ถ”๋ก  ๋ณต์žก๋„๋Š” ์„ ํ˜•์œผ๋กœ ์œ ์ง€๋˜๋Š” ์žฅ์ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. Mamba ๋ฐ SSM ๊ณ„์—ด ๋ชจ๋ธ๋“ค์€ NLP๋ฟ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ ๋ฐ ์˜์ƒ ๋ถ„์•ผ, ์ด๋ฏธ์ง€ ๋ณต์›(MambaIR), ์ดˆํ•ด์ƒ๋„(PanMamba), ํ™•์‚ฐ ๋ชจ๋ธ(DiS) ๋“ฑ์—์„œ Transformer ๋Œ€์•ˆ์œผ๋กœ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด, ๋กœ๋ด‡ ๋ถ„์•ผ์˜ ๋‚œ์ œ๋“ค(๊ณ ์ฐจ์› ์ถ”๋ก  + ์‹ค์‹œ๊ฐ„ ๋™์ž‘)๋„ Mamba๋กœ ํ’€ ์ˆ˜ ์žˆ์„๊นŒ? ์ด ์งˆ๋ฌธ์ด ๋ฐ”๋กœ RoboMamba์˜ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, RoboMamba๋Š” โ€œ๊ฐ•๋ ฅํ•œ ์ถ”๋ก ๋ ฅ + ๊ฒฝ๋Ÿ‰ ์ถ”๋ก ๋น„์šฉโ€์ด๋ผ๋Š” ๋‘ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ์žก๊ธฐ ์œ„ํ•ด Mamba ๊ธฐ๋ฐ˜ ์–ธ์–ด๋ชจ๋ธ์„ ์‹œ๊ฐ-์–ธ์–ด-์•ก์…˜ ํ†ตํ•ฉ ๋กœ๋ด‡ ๋ชจ๋ธ๋กœ ํ™•์žฅํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณต์žกํ•œ ๋กœ๋ด‡ ๋…ผ๋ฆฌ ์ถ”๋ก ๊ณผ ๋น ๋ฅธ ์ •์ฑ… ๊ฒฐ์ •์„ ๋™์‹œ์— ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ (RoboMamba Architecture)

RoboMamba์˜ ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” ๋น„์ „ ์ธ์ฝ”๋” + Mamba ์–ธ์–ด๋ชจ๋ธ + ์ •์ฑ… ํ—ค๋“œ์˜ ๊ฒฐํ•ฉ์œผ๋กœ ์š”์•ฝ๋ฉ๋‹ˆ๋‹ค.

Figure 2์— ๋ชจ๋ธ ๊ฐœ์š”๊ฐ€ ์ œ์‹œ๋˜์–ด ์žˆ๋Š”๋ฐ, ๊ทธ ํ๋ฆ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋น„์ „ ์ธ์ฝ”๋”: ์ž…๋ ฅ ์ด๋ฏธ์ง€์—์„œ ์‹œ๊ฐ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด CLIP ViT-Large ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ํ•œ ์žฅ๋‹น CLIP์€ ๋‹ค์ˆ˜์˜ ๋น„์ฃผ์–ผ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋ฉฐ, RoboMamba๋Š” ์—ฌ๋Ÿฌ ๋ฐฑ๋ณธ์„ ์•™์ƒ๋ธ”ํ•˜์ง€ ์•Š๊ณ  ๋‹จ์ผ CLIP ์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ถ€ ์ตœ์‹  MLLM๋“ค์€ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด DINOv2, ConvNeXt ๋“ฑ ์—ฌ๋Ÿฌ ์‹œ๊ฐ ๋ฐฑ๋ณธ์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์ง€๋งŒ, RoboMamba ์ €์ž๋“ค์€ ์‹ค์‹œ๊ฐ„์„ฑ์„ ์ค‘์‹œํ•˜์—ฌ ์ด๋Ÿฌํ•œ ์•™์ƒ๋ธ”๋กœ ์ธํ•œ ์—ฐ์‚ฐ ์ฆ๊ฐ€๋ฅผ ๋ฐฐ์ œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  ์–‘์งˆ์˜ ๋ฐ์ดํ„ฐ์™€ ํ›ˆ๋ จ ์ „๋žต์œผ๋กœ๋„ ๋‹จ์ผ ๋น„์ „ ๋ชจ๋ธ๋กœ ์ถฉ๋ถ„ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. CLIP์ด ์ถœ๋ ฅํ•œ ๋น„์ฃผ์–ผ ํ† ํฐ๋“ค์€ ๋ฐฐ์น˜ ์ฐจ์› B์™€ ํ† ํฐ ์ฐจ์› T๋กœ ๊ตฌ์„ฑ๋œ ๋ฒกํ„ฐ ์‹œํ€€์Šค๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋น„์ „-์–ธ์–ด ํŠน์ง• ์ •๋ ฌ: CLIP์˜ ์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ์„ ์–ธ์–ด๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๊ธฐ ์œ„ํ•ด ์–•์€ ๋‹ค์ธตํผ์…‰ํŠธ๋ก (MLP) ๊ธฐ๋ฐ˜์˜ ๊ต์ฐจ๋ชจ๋‹ฌ ํ”„๋กœ์ ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ํˆฌ์˜ ๋ ˆ์ด์–ด๊ฐ€ CLIP ํ† ํฐ์„ Mamba ์–ธ์–ด ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ์ดํ›„ ์–ธ์–ด๋ชจ๋ธ์ด ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” CLIP๊ณผ Mamba์˜ ๋ณธ์ฒด ๊ฐ€์ค‘์น˜๋Š” ๋ชจ๋‘ ๋™๊ฒฐํ•˜๊ณ  MLP ํ”„๋กœ์ ํ„ฐ๋งŒ ํ•™์Šต์‹œ์ผœ, ํšจ์œจ์ ์œผ๋กœ ์‹œ๊ฐ-์–ธ์–ด ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ต์ฐจ๋ชจ๋‹ฌ ์ •๋ ฌ(Alignment) ์‚ฌ์ „ํ›ˆ๋ จ(Stage 1.1)์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ํŠน์ง•์ด Mamba ํ† ํฌ๋‚˜์ด์ €์˜ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ๊ณผ ๋งค์นญ๋˜๋ฉฐ, ๋กœ๋ด‡ ๋ชจ๋ธ์ด ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์–ธ์–ด์ฒ˜๋Ÿผ ๋ฐ›์•„๋“ค์ผ ์ค€๋น„๋ฅผ ๊ฐ–์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  3. Mamba ์–ธ์–ด ๋ชจ๋ธ: RoboMamba์˜ ํ•ต์‹ฌ ์–ธ์–ด ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋ชจ๋“ˆ๋กœ Mamba (2.7B ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ)๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. Mamba๋Š” ์ˆ˜์‹ญ ๊ฐœ์˜ Mamba ๋ธ”๋ก์œผ๋กœ ์ด๋ฃจ์–ด์ง„ LLM์œผ๋กœ, ๊ฐ ๋ธ”๋ก์ด ์„ ํƒ์  ์ƒํƒœ๊ณต๊ฐ„ ๋ชจ๋ธ(Selective SSM) ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ SSM์€ ์—ฐ์† ์‹œ์Šคํ…œ์˜ 1์ฐจ ์ƒํƒœ๋ฐฉ์ •์‹์„ ํ™œ์šฉํ•˜์—ฌ, ์ž…๋ ฅ $u(t)$์—์„œ ์ถœ๋ ฅ $y(t)$๋ฅผ ์ƒํƒœ $x(t)$๋ฅผ ๊ฑฐ์ณ ์ƒ์„ฑํ•˜๋Š” ๊ตฌ์กฐ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. Mamba๋Š” ์—ฌ๊ธฐ์— Selective Scan Mechanism (S6)์„ ๋„์ž…ํ•ด ์ƒํƒœ ํ–‰๋ ฌ A, ์ž…๋ ฅ ํ–‰๋ ฌ B, ์ถœ๋ ฅ ํ–‰๋ ฌ C๋ฅผ ์ž…๋ ฅ ๋‚ด์šฉ์— ์ข…์†์ ์ธ ํ•จ์ˆ˜๋กœ ๋งŒ๋“ฆ์œผ๋กœ์จ, ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ ์œผ๋กœ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด Transformer ๋ชป์ง€์•Š์€ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ๋„ ๊ณ„์‚ฐ ๋ณต์žก๋„๋Š” O(n)์œผ๋กœ ์œ ์ง€ํ•˜๋Š” ์ ์ด Mamba์˜ ํ˜์‹ ์ž…๋‹ˆ๋‹ค. RoboMamba์—์„œ๋Š” ๋ฏธ๋ฆฌ ํ•™์Šต๋œ Mamba (2.8B ๋˜๋Š” 1.4B ๋ฒ„์ „)๋ฅผ ๋ถˆ๋Ÿฌ์™€ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž…๋ ฅ์œผ๋กœ ํ…์ŠคํŠธ ์งˆ๋ฌธ ํ† ํฐ๊ณผ ์•ž ๋‹จ๊ณ„์˜ ์‹œ๊ฐ ํ† ํฐ์„ ์—ฐ์ ‘ํ•˜์—ฌ ๋„ฃ์–ด์ค๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋Š” ์‚ฌ์ „ํ•™์Šต๋œ ํ† ํฌ๋‚˜์ด์ €๋กœ ์ž„๋ฒ ๋”ฉ๋˜๊ณ , CLIP-MLP๋ฅผ ํ†ต๊ณผํ•œ ์ด๋ฏธ์ง€ ํ† ํฐ ์‹œํ€€์Šค์™€ ๊ฒฐํ•ฉ( [IMAGE_TOKENS] + [TEXT_TOKENS] )๋˜์–ด Mamba์— ํˆฌ์ž…๋ฉ๋‹ˆ๋‹ค. Mamba๋Š” ๊ฐ•๋ ฅํ•œ ์‹œํ€€์Šค ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์œผ๋กœ ์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ์„ ํ†ตํ•ฉ ์ดํ•ดํ•˜์—ฌ, ์ตœ์ข… ์–ธ์–ด ์‘๋‹ต ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์งˆ๋ฌธ์ด โ€œ๋กœ๋ด‡์ด ์‹ํƒ์„ ์น˜์šฐ๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ•˜๋‚˜?โ€ ์ด๊ณ  ์ด๋ฏธ์ง€๊ฐ€ ์–ด์งˆ๋Ÿฌ์ง„ ์‹ํƒ ์‚ฌ์ง„์ด๋ผ๋ฉด, Mamba๋Š” ์—ฌ๋Ÿฌ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ โ€œ1๋‹จ๊ณ„: ๋ฌผ๊ฑด์„ ์ง‘๋Š”๋‹ค. 2๋‹จ๊ณ„: ๋ฌผ๊ฑด์„ ๋ฐ•์Šค์— ๋„ฃ๋Š”๋‹ค...โ€ ์™€ ๊ฐ™์ด ๋‹จ๊ณ„๋ณ„ ํ…์ŠคํŠธ ํ”Œ๋žœ์„ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ํ…์ŠคํŠธ ํ† ํฐ๋“ค์€ ๋‹ค์‹œ ํ† ํฌ๋‚˜์ด์ €๋ฅผ ๊ฑฐ์ณ ์ธ๊ฐ„์ด ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ์ตœ์ข… ์ž์—ฐ์–ด ์‘๋‹ต์œผ๋กœ ๋””ํ† ํฐํ™”๋ฉ๋‹ˆ๋‹ค.
  4. ์ •์ฑ… ํ—ค๋“œ (์•ก์…˜ ์˜ˆ์ธก): RoboMamba์˜ ์ถœ๋ ฅ์€ ๋น„๋‹จ ์–ธ์–ด ์‘๋‹ต์— ๊ทธ์น˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋™์‹œ์— ๋กœ๋ด‡ ํŒ”์˜ ๋™์ž‘ ๋ช…๋ น๋„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋„๋ก, Mamba ์ถœ๋ ฅ ํ† ํฐ์œผ๋กœ๋ถ€ํ„ฐ ํŒ” ๋๋‹จ ํฌ์ฆˆ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์€ ์ •์ฑ… ํ—ค๋“œ๋ฅผ ๋ถ€๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •์ฑ… ํ—ค๋“œ๋Š” 2๊ฐœ์˜ MLP๋กœ ์ด๋ฃจ์–ด์ ธ ํ•˜๋‚˜๋Š” ์†๋์˜ 3D ์œ„์น˜(Position), ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” 3D ๋ฐฉํ–ฅ(ํšŒ์ „ ๋งคํŠธ๋ฆญ์Šค)์„ ํšŒ๊ท€ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ด MLP๋“ค์€ Mamba ์ถœ๋ ฅ์˜ ๊ธ€๋กœ๋ฒŒ ํ† ํฐ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ผ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ๊ธ€๋กœ๋ฒŒ ํ† ํฐ์ด๋ž€ Mamba์˜ ์ตœ์ข… ์ถœ๋ ฅ ํ† ํฐ๋“ค์„ poolingํ•˜์—ฌ ํ•˜๋‚˜์˜ ๊ณ ์ฐจ์› ๋ฒกํ„ฐ๋กœ ์š”์•ฝํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. Mamba ์•„ํ‚คํ…์ฒ˜์ƒ ํŠน๋ณ„ํ•œ [CLS] ํ† ํฐ์ด ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์ถœ๋ ฅ ์‹œํ€€์Šค์˜ ํ‰๊ท ์ด๋‚˜ ๋งˆ์ง€๋ง‰ ๋“ฑ์„ ํ™œ์šฉํ•ด ์ „์ฒด ์ปจํ…์ŠคํŠธ๋ฅผ ๋Œ€ํ‘œํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ๋งŒ๋“  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด ์ •์ฑ… ํ—ค๋“œ๋Š” ํ˜„์žฌ ๋งฅ๋ฝ์—์„œ ๋กœ๋ด‡ ํŒ”์„ ์–ด๋–ป๊ฒŒ ์›€์ง์ผ์ง€๋ฅผ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค. Loss ํ•จ์ˆ˜๋Š” ๊ธฐ์กด ๋ฌธํ—Œ์„ ๋”ฐ๋ผ, ์˜ˆ์ธก ์œ„์น˜์™€ ์ •๋‹ต ์œ„์น˜ ๊ฐ„ ์˜ค์ฐจ์˜ trace, ๊ทธ๋ฆฌ๊ณ  ์˜ˆ์ธก ํšŒ์ „ ํ–‰๋ ฌ๊ณผ ์ •๋‹ต ํ–‰๋ ฌ ๊ฐ„ ์ฐจ์ด์˜ trace๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ์ ์€, RoboMamba๋Š” ์ด๋ฏธ์ง€ ์ขŒํ‘œ๊ณ„์—์„œ 2D ์ ‘์ด‰ ์ง€์  (u,v)๋งŒ ์˜ˆ์ธกํ•˜๊ณ , ํ•ด๋‹น ํ™”์†Œ์˜ ๊นŠ์ด(depth) ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด 3D ๊ณต๊ฐ„์ขŒํ‘œ $(x,y,z)$๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ”ฝ์…€ ์ขŒํ‘œ->3์ฐจ์› ๋ณ€ํ™˜์œผ๋กœ ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™”ํ•˜์—ฌ ํ•™์Šต ๋ถ€๋‹ด์„ ์ค„์ด๋Š” ์ „๋žต์œผ๋กœ, ๊ธฐ์กด Where2Act ๋“ฑ์˜ ์ ‘๊ทผ์—์„œ๋„ ์‚ฌ์šฉ๋œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ •์ฑ… ํ—ค๋“œ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋‹จ 3.7M (์•ฝ 7MB)๋กœ, ๋ชจ๋ธ ์ „์ฒด์˜ 0.1% ์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, RoboMamba๋Š” ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด๋ชจ๋ธ ๋ถ€๋ถ„(๋‚˜๋จธ์ง€ 99.9%)์€ ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š๊ณ , ์•„์ฃผ ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ๋งŒ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ์•ก์…˜ ์˜ˆ์ธก ๊ธฐ๋Šฅ์„ ํš๋“ํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ค๊ณ„ ๋•๋ถ„์— ๋ฏธ์„ธ์กฐ์ • ๋น„์šฉ ๋ฐ ์ถ”๋ก ์‹œ๊ฐ„์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ๋„, ์–ธ์–ด๋ชจ๋ธ์ด ์ง€๋‹Œ ๊ธฐ์กด ์ถ”๋ก ๋Šฅ๋ ฅ์„ ํ›ผ์†ํ•˜์ง€ ์•Š๊ณ  ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, RoboMamba๋Š” ํ•˜๋‚˜์˜ ํ†ตํ•ฉ ๋„คํŠธ์›Œํฌ ์•ˆ์— (๋น„์ „ ์ธ์ฝ”๋” + Mamba ์–ธ์–ด๋ชจ๋ธ)๋กœ ๊ณ ์ฐจ์› ์ถ”๋ก ์„ ์ฒ˜๋ฆฌํ•˜๊ณ , ํ•„์š”์‹œ ์ •์ฑ… ํ—ค๋“œ๋ฅผ ํ†ตํ•ด ์‹ค์ œ ๋กœ๋ด‡ ๋™์ž‘๊นŒ์ง€ ๋‚ด๋†“๋Š” ์—”๋“œ-ํˆฌ-์—”๋“œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ์ˆœ ๋ช…์พŒํ•œ ์„ค๊ณ„๋กœ, ์–ธ์–ด ์‘๋‹ต(์˜ˆ: ๊ณ„ํš ์„ค๋ช…)๊ณผ ๋™์ž‘ ์ถœ๋ ฅ(์˜ˆ: ์ขŒํ‘œ ๋ช…๋ น)์„ ๋™์‹œ์— ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ถ”๋ก ๊ณผ ํ–‰๋™์„ ๊ฒธ๋น„ํ•œ ๋กœ๋ด‡ ์—์ด์ „ํŠธ๋ฅผ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.

ํ•™์Šต ๋ฐฉ๋ฒ• ๋ฐ ๋ฐ์ดํ„ฐ์…‹ (Training Strategy and Datasets)

RoboMamba์˜ ํ•™์Šต์€ ๋‘ ๋‹จ๊ณ„(Stage)๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. Stage 1์€ ์ผ๋ฐ˜ ๋ฐ ๋กœ๋ด‡ ์ง€์‹ ํ•™์Šต ๋‹จ๊ณ„๋กœ, ๋‹ค์‹œ ๋‘ ๊ฐ€์ง€ ํ•˜์œ„ ๋‹จ๊ณ„(Stage 1.1๊ณผ 1.2)๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. Stage 2๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ ์ •์ฑ… ํ—ค๋“œ ๋ฏธ์„ธ์กฐ์ • ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๊ฐ ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ›ˆ๋ จ ๋ฐฉ์‹์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. - Stage 1.1: ๊ต์ฐจ๋ชจ๋‹ฌ ์ •๋ ฌ ์‚ฌ์ „ํ›ˆ๋ จ (Alignment Pre-training) โ€“ ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์‹œ๊ฐ ํŠน์ง•์„ ์–ธ์–ด๊ณต๊ฐ„์— ์ •๋ ฌํ•˜๋Š” ํ”„๋กœ์ ์…˜ MLP๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ ๋ฐ์ดํ„ฐ๋Š” LLaVA-LCS 558K๋กœ, LAION/CC/SBU ๋“ฑ ๋Œ€๊ทœ๋ชจ ์›น ์ด๋ฏธ์ง€-์บก์…˜ ๋ฐ์ดํ„ฐ์—์„œ ๊ท ํ˜• ์žกํžŒ ๊ฐœ๋… ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๋„๋ก ์„ ๋ณ„๋œ 55.8๋งŒ ์Œ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ BLIP ๋ชจ๋ธ๋กœ ์ƒ์„ฑํ•œ ์บก์…˜ ๋“ฑ์„ ์ถ”๊ฐ€ํ•ด ์ด๋ฏธ์ง€๋‹น ๋ณตํ•ฉ ์„ค๋ช…๋ฌธ์„ ๊ฐ–์ถ˜ ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ CLIP ๋น„์ „ ์ธ์ฝ”๋”์™€ Mamba ์–ธ์–ด๋ชจ๋ธ์€ ๋™๊ฒฐํ•˜๊ณ , ํ”„๋กœ์ ์…˜ MLP๋งŒ 1 epoch ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ ์–ธ์–ด ์ž„๋ฒ ๋”ฉ์„ ๋™์ผํ•œ ๊ณต๊ฐ„์— ๋งตํ•‘ํ•˜๊ณ , โ€œ์‹œ๊ฐ-์–ธ์–ด ํ˜ธํ™˜์„ฑโ€์„ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค. - Stage 1.2: ์ง€์‹œ๋ฌธ ๊ณต๋™ ํ•™์Šต (Instruction Co-training) โ€“ ์ •๋ ฌ์„ ๋งˆ์นœ ํ›„, ๋ณธ๊ฒฉ์ ์œผ๋กœ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ธธ๋Ÿฌ์ฃผ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์ผ๋ฐ˜ ๋น„์ „-์–ธ์–ด ๊ณผ์ œ์™€ ๋กœ๋ด‡ ํŠนํ™” ๊ณผ์ œ๋ฅผ ํ•จ๊ป˜ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๋ถ„์•ผ๋Š” ์ƒˆ๋กœ์šด ๋ณต์žกํ•œ ์ž‘์—…๋“ค์ด ๋งŽ์•„ ์ผ๋ฐ˜ํ™”๋ ฅ์ด ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์ณ ๊ณต๋™ํ›ˆ๋ จํ•˜๋Š” ์ „๋žต์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, 1.8๋ฐฑ๋งŒ ๊ฐœ์˜ ๊ฑฐ๋Œ€ ํ˜ผํ•ฉ๋ฐ์ดํ„ฐ๋ฅผ 2 epoch ํ•™์Šตํ•˜์˜€๋Š”๋ฐ, ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: - ์ผ๋ฐ˜ ์‹œ๊ฐ-์–ธ์–ด ์ง€์‹œ๋ฌธ ๋ฐ์ดํ„ฐ (์•ฝ 105.5๋งŒ ์Œ): LLaVA v1.5 ๋ฐ์ดํ„ฐ์…‹ 65.5๋งŒ + LRV-Instruct 40๋งŒ. LLaVA-1.5๋Š” ์‹œ๊ฐ์  ์งˆ๋ฌธ๋‹ต๋ณ€(VQA), ๋Œ€ํ™”(ShareGPT), OCR, ์บก์…”๋‹ ๋“ฑ 10๊ฐœ ์†Œ์Šค์˜ ํ˜ผํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€ํ‘œ์ ์ธ ๋น„์ „ ์–ธ์–ด ์ธ์ŠคํŠธ๋Ÿญ์…˜ ํŠœ๋‹ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. LRV-Instruct๋Š” GPT-4๋ฅผ ์ด์šฉํ•ด ์ƒ์„ฑํ•œ ๊ณ ํ’ˆ์งˆ ์‹œ๊ฐ ์ง€์‹œ๋ฌธ 40๋งŒ ๊ฐœ๋กœ, ํ™˜๊ฐ(hallucination) ์ค„์ด๊ธฐ์— ์ดˆ์ ์„ ๋‘” ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์‚ฌ์šฉ์ด ํ™˜๊ฐ ๊ฐ์†Œ์— ์œ ๋ฆฌํ•˜๋‹ค๋Š” ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด์„œ๋„, ๋กœ๋ด‡ ์ •์ฑ… ํšจ์œจ์„ ์œ„ํ•ด ๊ณ ํ•ด์ƒ๋„ ๋Œ€์‹  ์ด ํ…์ŠคํŠธ ๊ฐ•ํ™” ๋ฐ์ดํ„ฐ(LRV)๋ฅผ ๋„์ž…ํ–ˆ๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋กœ๋ด‡ MLLM์˜ ๊ฒฝ์šฐ โ€œ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๋ฌผ์ฒด ์กฐ์ž‘โ€๊ณผ ๊ฐ™์€ ํ™˜๊ฐ์€ ์น˜๋ช…์ ์ด๋ฏ€๋กœ, ์˜ˆ์ปจ๋Œ€ โ€œ์ „์ž๋ ˆ์ธ์ง€๋ฅผ ์—ด๋ผโ€๋Š” ๋ช…๋ น์— ๋ง‰์—ฐํžˆ โ€œ์†์žก์ด๋ฅผ ์žก์•„๋‹น๊ฒจ๋ผโ€๋ผ๊ณ  ๋‹ตํ•˜์ง€ ์•Š๋„๋ก (๋งŽ์€ ์ „์ž๋ ˆ์ธ์ง€๋Š” ์†์žก์ด๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค), ํ˜„์‹ค ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ต๋ณ€ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. - ๋กœ๋ด‡ ๊ณ ์ˆ˜์ค€ ์ถ”๋ก  ๋ฐ์ดํ„ฐ (80๋งŒ ์Œ): RoboVQA 800K. ์ด๋Š” ์ €์ž๋“ค์ด ์ˆ˜์ง‘ํ•œ ๋กœ๋ด‡ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ QA ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡/์ธ๊ฐ„ ์ฃผ์ฒด๊ฐ€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹ค์ œ ํ™˜๊ฒฝ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์•ฝ 5,246๊ฐœ์˜ ์žฅ๊ธฐ(horizon) ์ž‘์—… ์—ํ”ผ์†Œ๋“œ์™€ 92,948๊ฐœ์˜ ์ค‘๊ฐ„ ๊ธธ์ด ์ž‘์—… ์—ํ”ผ์†Œ๋“œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , ๊ฐ ์—ํ”ผ์†Œ๋“œ๋Š” ์ด๋ฏธ์ง€ + ํ…์ŠคํŠธ ์งˆ์˜๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. RoboVQA๋Š” ์žฅ๊ธฐ ๊ณ„ํš ์งˆ๋ฌธ, ์ž‘์—… ์„ฑ๊ณต์—ฌ๋ถ€ ๋ถ„๋ฅ˜, ์–ดํฌ๋˜์Šค ์ธ์‹ (์–ด๋–ค ๋ถ€๋ถ„์„ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋Š”์ง€), ๊ณผ๊ฑฐ ์ƒํ™ฉ ์„ค๋ช…, ๋ฏธ๋ž˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ๋“ฑ ๋กœ๋ด‡ ํŠน์œ ์˜ ๊ณ ์ฐจ์› QA๋ฅผ ๋ง๋ผํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณต์žกํ•œ ๋กœ๋ด‡ ๋ฌธ์ œ๋“ค์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผœ ์ค€๋‹ค๊ณ  ๋…ผ๋ฌธ์€ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

๊ณต๋™ ํ•™์Šต ์‹œ์—๋Š” CLIP ์ธ์ฝ”๋”๋ฅผ ๊ณ„์† ๋™๊ฒฐํ•˜๊ณ , ํ”„๋กœ์ ์…˜ ๋ ˆ์ด์–ด์™€ Mamba ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ๋ฏธ์„ธ์กฐ์ •ํ•˜์˜€์Šต๋‹ˆ๋‹ค. Cross-Entropy Loss๋กœ Mamba์˜ ๋ชจ๋“  ์ถœ๋ ฅ ํ† ํฐ์„ ์ •๋‹ต ๋ฌธ์žฅ์— ๋งž์ถ”๋„๋ก ์ง€๋„ํ•™์Šตํ•˜๋ฉฐ, ์ด๋ ‡๊ฒŒ ์ผ๋ฐ˜+๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ๊ด‘๋ฒ”์œ„ํ•œ ์‹œ๊ฐ/์–ธ์–ด ์ง€์‹์„ ํก์ˆ˜ํ•จ๊ณผ ๋™์‹œ์— ๋กœ๋ด‡ ์ถ”๋ก  ์Šคํ‚ฌ์„ ๋‚ด์žฌํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ํŠนํžˆ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋จ์œผ๋กœ์จ ์ผ๋ฐ˜ ์ƒ์‹ ์ถ”๋ก ๊นŒ์ง€ ํ–ฅ์ƒ๋˜๋Š” ์ด์ ๋„ ํ™•์ธํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ณต์žกํ•œ ๋กœ๋ด‡ ๋ฌธ์ œ๋ฅผ ํ’€๋ฉด์„œ ๊ณต๊ฐ„์ถ”๋ก (GQA ๋“ฑ) ๋Šฅ๋ ฅ๋„ ๊ฐ™์ด ์ข‹์•„์กŒ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. - Stage 2: ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฏธ์„ธ์กฐ์ • (Robot Manipulation Fine-tuning) โ€“ Stage 1์„ ๊ฑฐ์ณ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ RoboMamba์—, ๊ตฌ์ฒด์ ์ธ ๋™์ž‘ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ๋น ๋ฅด๊ฒŒ ๋ง์ž…ํžˆ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ ์ •์ฑ… ํ—ค๋“œ(MLP 2๊ฐœ)๋งŒ ํ•™์Šตํ•˜๋ฉฐ, RoboMamba ๋ณธ์ฒด์˜ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋™๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ โ€œ๋ณธ์ฒด ๋™๊ฒฐ + ์ž‘์€ ํ—ค๋“œ ํ•™์Šตโ€ ์ ‘๊ทผ์€, ํฐ ๋ชจ๋ธ์„ ๋‹ค์‹œ ํ•™์Šต์‹œ์ผœ ๋‚ด์žฌ๋œ ์–ธ์–ด๋Šฅ๋ ฅ์„ ๋ง๊ฐ€๋œจ๋ฆฌ์ง€ ์•Š๊ณ  ์œ ์ง€ํ•˜๋ฉด์„œ ํ–‰๋™ ์˜ˆ์ธก ๊ธฐ๋Šฅ๋งŒ ์ถ”๊ฐ€ํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ์ด ๋‹จ๊ณ„์—์„œ ๋น„์ „ ํ”„๋กœ์ ํ„ฐ์™€ LLM๊นŒ์ง€ ๋ชจ๋‘ ์—…๋ฐ์ดํŠธํ•˜์—ฌ, ๋ชจ๋ธ์ด ์›๋ž˜ ๊ฐ€์ง€๊ณ  ์žˆ๋˜ ์–ธ์–ด ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ํ›ผ์†๋  ์œ„ํ—˜์ด ์žˆ์—ˆ๊ณ , ํ•™์Šต ๋น„์šฉ๋„ ๋ง‰๋Œ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹: ์ •์ฑ… ํ—ค๋“œ ํ•™์Šต์„ ์œ„ํ•ด ์ €์ž๋“ค์€ SAPIEN ๋กœ๋ด‡ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ํ”„๋žญ์นด(Franka) Emika Panda ๋กœ๋ด‡ํŒ”์ด ๋‹ค์–‘ํ•œ ๋ฌผ์ด๋™ ๊ฐ์ฒด(PartNet-Mobility ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ๋ฐ˜)๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์กฐ์ž‘ํ•˜๋Š” ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์—๋Š” ํก์ฐฉ ๊ทธ๋ฆฌํผ๋ฅผ ์žฅ์ฐฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ‘œ๋ฉด์„ ๋ถ™์žก์„ ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ๊ณ , ๊ฐ ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋ฌผ์ฒด์˜ ์›€์ง์ผ ์ˆ˜ ์žˆ๋Š” ๋ถ€์œ„๋ฅผ ๋žœ๋ค ์„ ํƒํ•˜์—ฌ ์—”๋“œ์ดํŽ™ํ„ฐ(๋ง๋‹จ ์žฅ์น˜)๋ฅผ ์ ‘์ด‰์‹œํ‚ค๊ณ  ์žก์•„๋‹น๊ธฐ๋Š” (pulling) ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์กฐ์ž‘ ์„ฑ๊ณต ์‹œ ํ•ด๋‹น ์—”๋“œ์ดํŽ™ํ„ฐ์˜ 6-์ž์œ ๋„ ํฌ์ฆˆ(์œ„์น˜+๋ฐฉํ–ฅ, ํ•„์š” ์‹œ gripper ์ƒํƒœ๊นŒ์ง€ 7-DoF)์™€ ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋กํ•˜์—ฌ ์ง€๋„ํ•™์Šต์šฉ ๋ ˆ์ด๋ธ”๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜์—ฌ 20๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ์— ๊ฑธ์ณ ์ด 10,000์žฅ์˜ ํ•™์Šต์šฉ ์ด๋ฏธ์ง€+ํฌ์ฆˆ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋กœ, ํ›ˆ๋ จ ์นดํ…Œ๊ณ ๋ฆฌ์—๋Š” ๊ธˆ๊ณ (Safe), ๋ฌธ(Door), ๋ƒ‰์žฅ๊ณ (Refrigerator), ๋žฉํ†ฑ, ์ „์ž๋ ˆ์ธ์ง€, ์„œ๋ž(์Šคํ† ๋ฆฌ์ง€ ๊ฐ€๊ตฌ), ํ† ์Šคํ„ฐ ๋“ฑ ๋ฌธ์ด๋‚˜ ๋šœ๊ป‘์ด ์žˆ์–ด ๋‹น๊ฒจ ์—ด ์ˆ˜ ์žˆ๋Š” ๋ฌผ์ฒด๋“ค์ด ๋‹ค์ˆ˜ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ์šฉ์œผ๋กœ๋Š” 1,100์žฅ์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ณ„๋„๋กœ ์ˆ˜์ง‘ํ–ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์—๋Š” ํ›ˆ๋ จ์— ๋‚˜์˜จ ๊ฒƒ๋“ค๊ณผ ๊ฐ™์€ ์นดํ…Œ๊ณ ๋ฆฌ(Seen) ์ด๋ฏธ์ง€์™€ ํ•จ๊ป˜ ๋ณ€๊ธฐ(Toilet), ๊ฐ€์œ„(Scissors), ์ฃผ์ „์ž(Kettle), ์„ธํƒ๊ธฐ(Washing Machine), ์ˆ˜๋„๊ผญ์ง€(Faucet), ์ „ํ™”๊ธฐ(Phone) ๋“ฑ ์ด 10๊ฐœ์˜ ์ƒˆ๋กœ์šด ์นดํ…Œ๊ณ ๋ฆฌ(Unseen) ์ด๋ฏธ์ง€๋„ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ๋ฏธ๋ณด๋˜ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๊ณผ์ •: ์ •์ฑ… ํ—ค๋“œ์— ๋Œ€ํ•ด 5 epoch์˜ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ–ˆ์œผ๋ฉฐ, ํ•™์Šต๋ฅ  1e-5, weight decay 0.1 ๋“ฑ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ๋ถ€๋™์†Œ์ˆ˜ ๊ณ„์‚ฐ์€ 32-bit ์ •๋ฐ€๋„๋กœ ํ•˜์—ฌ, ๋ฏธ์„ธํ•œ ํšŒ๊ท€๊ฐ’ ์˜ˆ์ธก์˜ ์ •ํ™•๋„๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, 7MB ๋‚จ์ง“ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ์œผ๋กœ ๊ตฌ์„ฑ๋œ ํ—ค๋“œ๋ฅผ ๋‹จ 20๋ถ„ (NVIDIA A100 ๊ธฐ์ค€) ๋งŒ์— ํ•™์Šต ์™„๋ฃŒํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๋น ๋ฅด๊ฒŒ ๋ถ€์—ฌํ•˜๋Š” ํšจ์œจ์ ์ธ ๋ฐฉ์•ˆ์ž„์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๅƒ… 0.1%์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋งŒ์œผ๋กœ ์ƒˆ๋กœ์šด ์กฐ์ž‘ ์Šคํ‚ฌ์„ ์ตํ˜”๋‹ค๋Š” ์ ์—์„œ, โ€œ์ถ”๋ก ๋ ฅ๋งŒ ์ถฉ๋ถ„ํ•˜๋ฉด ์ ์€ ๋น„์šฉ์œผ๋กœ๋„ ํ–‰๋™ ๋Šฅ๋ ฅ์„ ์Šต๋“ํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๋ณธ ์—ฐ๊ตฌ์˜ ๊ฐ€์„ค์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ์ฆ๊ฑฐ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝ: Stage 1์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์‹œ๊ฐ/์–ธ์–ด/๋กœ๋ด‡ ์ง€์‹ ํ•™์Šต์œผ๋กœ RoboMamba๋Š” ๋†’์€ ์ˆ˜์ค€์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ์‹œ๊ฐ์  ์ดํ•ด๋ ฅ์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด์–ด Stage 2์˜ ๊ฒฝ๋Ÿ‰ ๋ฏธ์„ธ์กฐ์ •์œผ๋กœ ๋‚ฎ์€ ์ˆ˜์ค€์˜ ์กฐ์ž‘ ๊ธฐ์ˆ (์—”๋“œ์ดํŽ™ํ„ฐ ํฌ์ฆˆ ์‚ฐ์ถœ)์„ ํš๋“ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ „์ฒด ๊ณผ์ •์—์„œ Transformer ๊ธฐ๋ฐ˜ ๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ๋Œ€๋น„ ํ›จ์”ฌ ์ ์€ ์—ฐ์‚ฐ๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์ •์œผ๋กœ ๋™์ผ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค๋Š” ๊ฒƒ์ด RoboMamba์˜ ํฐ ๊ฐ•์ ์ž…๋‹ˆ๋‹ค. ์•„๋ž˜์—์„œ๋Š” ๊ตฌ์ฒด์ ์ธ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ์ฃผ์žฅ์˜ ๋‹น์œ„์„ฑ์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ • ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• (Experimental Setup & Metrics)

๋ชจ๋ธ ๊ตฌํ˜„: RoboMamba๋Š” ์‚ฌ์ „ํ•™์Šต๋œ CLIP ViT-L/14 (OpenAI CLIP, ๋˜๋Š” SigLIP ๋ณ€ํ˜•)๊ณผ Mamba ์–ธ์–ด๋ชจ๋ธ 2.7B๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Mamba 2.8B์™€ 1.4B ๋‘ ๊ฐ€์ง€๋ฅผ ์–ธ๊ธ‰ํ•˜๋Š”๋ฐ, ์ฃผ๋กœ 2.7B (2.8B ๊ทœ๋ชจ)์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์€ NVIDIA A100 GPU ์ƒ์—์„œ ์ง„ํ–‰๋˜์—ˆ๊ณ , Stage 1์—์„œ๋Š” 16-bit ํ˜ผํ•ฉ ์ •๋ฐ€๋„ ํ›ˆ๋ จ์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ ๋†’์˜€์œผ๋ฉฐ, Stage 2์—์„œ๋Š” 32-bit๋กœ ์„ธ๋ฐ€ํ•˜๊ฒŒ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข… RoboMamba ๋ชจ๋ธ์€ ์•ฝ 32์–ต๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ(์–ธ์–ด๋ชจ๋ธ+ํˆฌ์˜๊ธฐ+๋น„์ „์ธ์ฝ”๋”)์™€ ์ •์ฑ… ํ—ค๋“œ 370๋งŒ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ: - ์ผ๋ฐ˜ ๋น„์ „-์–ธ์–ด ์ถ”๋ก : ์ „๋ฐ˜์ ์ธ ์‹œ๊ฐ-์–ธ์–ด ์ดํ•ด ๋ฐ ์‘๋‹ต ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€ํ‘œ์ ์ธ VQA ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๋ฒค์น˜๋งˆํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด VQAv2 (์ผ๋ฐ˜ ์ด๋ฏธ์ง€ QA ์ •ํ™•๋„), OK-VQA (์ƒ์‹ ๊ธฐ๋ฐ˜ VQA), GQA (๊ณต๊ฐ„ ์ถ”๋ก  QA), VizWiz (์‹œ๊ฐ ์žฅ์• ์ธ ๋„์šฐ๋ฏธ QA), OCR-VQA (์ด๋ฏธ์ง€ ๋ฌธ์ž์ฝ๊ธฐ QA) ๋“ฑ์ด ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ตœ๊ทผ ๋“ฑ์žฅํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ํ‰๊ฐ€์„ธํŠธ์ธ POPE (Planning Oracle Prior Extraction; ๋กœ๋ด‡๊ณ„ํš ๊ด€๋ จ QA), MME (MultiModalEval; ๋‹ค์ค‘๋ชจ๋‹ฌ ๋Šฅ๋ ฅ ์ข…ํ•ฉํ‰๊ฐ€), MMBench, MM-Vet ๋“ฑ๋„ ํ™œ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ „๋ฐ˜์  ๋น„์ฃผ์–ผ-์–ธ์–ด ์ถ”๋ก ๋ ฅ์„ ์ ๊ฒ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋ฒค์น˜๋งˆํฌ์˜ ํŠน์ง•์€ Appendix E์— ์ƒ์„ธํžˆ ์ •๋ฆฌ๋˜์–ด ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๊ฒฐ๊ณผ ์œ„์ฃผ๋กœ ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. - ๋กœ๋ด‡ ํŠนํ™” ์ถ”๋ก : RoboVQA ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฒ€์ฆ์šฉ 1.8๋งŒ ๋ฌธํ•ญ์„ ํ™œ์šฉํ•˜์—ฌ, ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ง‘์ค‘ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. RoboVQA๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋ฐ”์™€ ๊ฐ™์ด ์žฅ๊ธฐ ๊ณ„ํš, ์„ฑ๊ณตํŒ๋ณ„, ์–ดํฌ๋˜์Šค ์ธ์‹, ๊ณผ๊ฑฐ/๋ฏธ๋ž˜ ์ถ”๋ก  ๋“ฑ์„ ํฌํ•จํ•˜๋ฏ€๋กœ, ์ด ์„ฑ๋Šฅ์ด ๋†’๋‹ค๋ฉด ๋กœ๋ด‡ ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ์ถ”๋ก ๋ ฅ์ด ์šฐ์ˆ˜ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ๋Š” LLaMA-Adapter V2 ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์„ ์„ ์ •ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ํ˜„์žฌ๊นŒ์ง€ ๋ณด๊ณ ๋œ ๋กœ๋ด‡ MLLM ์ค‘ ํ•˜๋‚˜์ธ ManipLLM์˜ ๋ฒ ์ด์Šค ๋ชจ๋ธ๋กœ ์‚ฌ์šฉ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ์ €์ž๋“ค์€ LLaMA-Adapter V2๋ฅผ ๋™์ผ RoboVQA ๋ฐ์ดํ„ฐ๋กœ 2 epoch ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. - ๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๋Šฅ: ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์˜ ๋ฌผ์ฒด ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ๋กœ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์€ Pulling (๋‹น๊ฒจ ์—ด๊ธฐ) ๋™์ž‘์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋ฉฐ, ์•ž์„œ ์ˆ˜์ง‘ํ•œ SAPIEN ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ…Œ์ŠคํŠธ ์„ธํŠธ 1.1k์žฅ์—์„œ ์˜ˆ์ธกํ•œ ์—”๋“œ์ดํŽ™ํ„ฐ ์ ‘์ด‰์ ๊ณผ ๋ฐฉํ–ฅ์„ ์‹ค์ œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ์ ์šฉํ•ด ๋ฌผ์ฒด์˜ ๊ด€์ ˆ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋ฌผ์ฒด ๋ฌธ์ด๋‚˜ ์„œ๋ž ๋“ฑ์ด 0.1m ์ด์ƒ ์—ด๋ฆฌ๋ฉด ์„ฑ๊ณต์œผ๋กœ ๊ฐ„์ฃผํ•˜๊ณ , ์„ฑ๊ณต ์ƒ˜ํ”Œ ์ˆ˜/์ „์ฒด ์ƒ˜ํ”Œ ์ˆ˜๋กœ ์„ฑ๊ณต๋ฅ (accuracy)์„ ๊ณ„์‚ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ๋ฌธํ—Œ์˜ ์ •์˜๋ฅผ ๋”ฐ๋ฅธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋น„๊ตํ•œ ๋ฒ ์ด์Šค๋ผ์ธ์€ ์ด 4๊ฐ€์ง€: UMPNet (์ƒํƒœ๊ธฐ๋ฐ˜ RL ์ ‘๊ทผ), FlowBot3D (ํฌ์ธํŠธํด๋ผ์šฐ๋“œ ์ƒ์˜ ๋ชจ์…˜ ํ”Œ๋กœ์šฐ ์˜ˆ์ธก), RoboFlamingo (OpenFlamingo ๊ธฐ๋ฐ˜ MLLM), ManipLLM (LLaMA-Adapter V2 ๊ธฐ๋ฐ˜ ์ตœ์‹  ๋กœ๋ด‡ MLLM). ์ด๋“ค ์—ญ์‹œ ๋™์ผํ•œ 10k ๋ฐ์ดํ„ฐ๋กœ ์žฌํ•™์Šตํ•˜์—ฌ ํ‰๊ฐ€ํ–ˆ์œผ๋ฉฐ, ๊ฐ ๋ฐฉ๋ฒ•์€ ํŠน์„ฑ์— ๋”ฐ๋ผ ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ์กฐ์ž‘ ์ „๋žต์œผ๋กœ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค (UMPNet์€ ์˜ˆ์ธก ํ”ฝ์…€ ์ขŒํ‘œ๋กœ ์ˆ˜์ง ๋ฐฉํ–ฅ ์ ‘๊ทผ, FlowBot3D๋Š” ์ ๊ตฐ flow ์ตœ๋Œ€ ์ง€์ ์œผ๋กœ ์ ‘์ด‰ ๋“ฑ). ์„ฑ๊ณต๋ฅ  ์™ธ์—๋„, ์ถ”๋ก  ํšจ์œจ์„ฑ(์ดˆ๋‹น ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„), ๋ฏธ์„ธ์กฐ์ •๋œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์–‘(๋ชจ๋ธ ์—…๋ฐ์ดํŠธ ๊ทœ๋ชจ) ๋“ฑ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ณ ๋ คํ•˜์—ฌ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. - ์‹ค์„ธ๊ณ„ ์‹คํ—˜: ํ›ˆ๋ จ์— ์“ฐ์ธ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฟ ์•„๋‹ˆ๋ผ ์‹ค์ œ ๋ฌผ์ฒด๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ๋กœ๋ด‡ํŒ” ์‹คํ—˜๋„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. Franka Emika Panda ๋กœ๋ด‡ํŒ”์— ์–‘๋ฉดํ…Œ์ดํ”„๋ฅผ ๋ถ€์ฐฉํ•œ ๋งž์ถคํ˜• ๊ทธ๋ฆฌํผ๋ฅผ ๋‹ฌ์•„ ํก์ฐฉ ํŒŒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ์ง‘์•ˆ ๋ฌผ์ฒด๋“ค(๋ฌธ, ๋žจํ”„, ํ† ์Šคํ„ฐ, ๋ณ‘ ๋“ฑ)์„ ์ƒ๋Œ€๋กœ RoboMamba๊ฐ€ ๋‚ด๋Š” ํ–‰๋™ ์ง€์‹œ๋ฅผ ์‹คํ–‰ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ณ„ํš ์‘๋‹ต๋„ ํ•จ๊ป˜ ํ‰๊ฐ€ํ•˜์—ฌ, ์˜ˆ์ปจ๋Œ€ ์žฅ๊ธฐ ์ž‘์—… ๊ณ„ํš์„ LLaMA-Adapter์™€ RoboMamba๊ฐ€ ๊ฐ๊ฐ ์–ด๋–ป๊ฒŒ ๊ธฐ์ˆ ํ•˜๋Š”์ง€ ๋น„๊ตํ•˜๊ฑฐ๋‚˜, ์–ดํฌ๋˜์Šค ์ธ์‹ ์ •ํ™•๋„, ๊ณผ๊ฑฐ/๋ฏธ๋ž˜ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ถ”๋ก ์ด ์ธ๊ฐ„ ์ƒ์‹์— ๋ถ€ํ•ฉํ•˜๋Š”์ง€ ๋“ฑ์„ ๊ด€์ฐฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ RoboMamba๊ฐ€ ์˜ˆ์ธกํ•œ 3D ์†๋ ํฌ์ฆˆ๋ฅผ ๋‹ค์‹œ 2D ์ด๋ฏธ์ง€์— ํˆฌ์˜ํ•˜์—ฌ (์ ‘์ด‰ ์ง€์ ์€ ๋นจ๊ฐ„ ์ , ์†๋ ๋ฐฉํ–ฅ์€ ํ™”์‚ดํ‘œ๋กœ ํ‘œ์‹œ) ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ์„ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ •์„ฑ์  ์‹คํ—˜์€ Supplementary Video๋กœ๋„ ์ œ๊ณต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ, ์ด๋Ÿฌํ•œ ์„ค์ •์—์„œ ๋„์ถœ๋œ ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ๋ถ„์„์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ๋ถ„์„ (Results and Analysis)

์ผ๋ฐ˜ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ์„ฑ๋Šฅ (General Vision-Language Reasoning)

๋จผ์ €, ์ผ๋ฐ˜์ ์ธ VQA ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ์„ ์‚ดํŽด๋ณด๋ฉด, RoboMamba๋Š” 27์–ต ๊ทœ๋ชจ์˜ ๋น„๊ต์  ์ž‘์€ LLM์„ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ์ „๋ฐ˜์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. Table 1์€ ์—ฌ๋Ÿฌ ๋ชจ๋ธ๋“ค๊ณผ์˜ ๋น„๊ต์ธ๋ฐ, ์ฃผ์š” ์ง€ํ‘œ๋ฅผ ๋ณด๋ฉด: - VQAv2 ์ •ํ™•๋„: RoboMamba (80.3) vs ๋‹ค๋ฅธ 7B ๋ชจ๋ธ๋“ค โ€“ ์˜ˆ: InstructBLIP(โ€“/78.5), LLaVA1.5(78.5), SPHINX(78.1) ๋“ฑ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ์•ฝ๊ฐ„ ์ƒํšŒ. - OK-VQA ์ •ํ™•๋„: RoboMamba (63.1)๋กœ, MobileVLM(โ€“)์ด๋‚˜ Qwen-VL(58.6) ๋“ฑ์„ ์•ž์„œ๊ณ  ํ˜„ SOTA์ˆ˜์ค€์ธ SPHINX(62.1)๋ณด๋‹ค๋„ ๊ทผ์†Œํ•˜๊ฒŒ ๋†’์Šต๋‹ˆ๋‹ค. - GQA(Spatial Reasoning): RoboMamba (62.4~64.4)๋กœ, LLaVA1.5(62.0)๋‚˜ SPHINX(62.6)๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋‹ค์†Œ ์šฐ์œ„์— ์žˆ์Šต๋‹ˆ๋‹ค. - VizWiz(์‹œ๊ฐ์žฅ์•  ๋ณด์กฐ): 55.0์œผ๋กœ MiniGPT-v2(53.6) ๋“ฑ๋ณด๋‹ค ๋†’๊ณ , ์ตœ๊ณ ๊ถŒ์ธ InstructBLIP(33.4)๋ณด๋‹ค ํฌ๊ฒŒ ์šฐ์„ธํ•˜๋‚˜ ์ด๋Š” ์ง€ํ‘œ ์ •์˜๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. - OCR-VQA(ํ…์ŠคํŠธ ์ธ์‹): 62.5~66.7๋กœ, ๋‹ค๋ฅธ ๋ชจ๋ธ ์ค‘ ๊ณต๊ฐœ๋œ ๊ฐ’์ด ๋งŽ์ง€ ์•Š์ง€๋งŒ SPHINX(66.0)์™€ ๊ทผ์ ‘ํ•ฉ๋‹ˆ๋‹ค. - POPE(๊ณ„ํš์˜ค๋ผํด ์ถ”์ถœ): 85.3~86.9๋กœ, LRV-Instruct ๋ฐ์ดํ„ฐ ๋•๋ถ„์— ํ™˜๊ฐ ์ค„์ด๊ธฐ์— ํšจ๊ณผ๋ฅผ ๋ด์„œ SPHINX(80.7)๋‚˜ TinyLLaVA(86.3) ๋“ฑ๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. - MME, MMBench, MM-Vet ๋“ฑ์˜ ์ข…ํ•ฉํ‰๊ฐ€ ์ ์ˆ˜๋„ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ RoboMamba๋Š” ๋ชจ๋“  ๋ฒค์น˜๋งˆํฌ์—์„œ ์ค€์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์œผ๋ฉฐ, ํŠน์ • ์ž‘์—…์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์— ๊ทผ์ ‘ํ–ˆ์Šต๋‹ˆ๋‹ค. Alignment ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ๋กœ๋ด‡+์ผ๋ฐ˜ ๊ณต๋™ํ›ˆ๋ จ ์ „๋žต์ด ํšจ๊ณผ์ ์œผ๋กœ ์ž‘์šฉํ•˜์—ฌ, ์ž‘์€ ๋ชจ๋ธ๋กœ๋„ ์ด์ •๋„ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ๊ณต๋™ํ›ˆ๋ จ์‹œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋Ÿ‰ ํˆฌ์ž…ํ•œ ๊ฒƒ์ด ๊ณต๊ฐ„ ์ดํ•ด ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•˜์—ฌ GQA ์„ฑ๋Šฅ์„ ๋†’์˜€๊ณ , ํ™˜๊ฐ ์™„ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ๋•์— POPE ๋ฒค์น˜๋งˆํฌ(๋กœ๋ด‡ ๊ณ„ํš ๋ฌธํ•ญ)์—์„œ ์˜ค๋‹ต์„ ์ค„์—ฌ ์„ฑ๊ณต๋ฅ  ํ–ฅ์ƒ์ด ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋ช‡๋ช‡ ์ง€ํ‘œ์—์„œ LLaVA1.5๋‚˜ SPHINX๊ฐ™์€ ์ตœ์‹  7B ๋ชจ๋ธ๋“ค์— ์•ฝ๊ฐ„ ๋ชป ๋ฏธ์น˜๋Š” ๋ถ€๋ถ„๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•ด์ƒ๋„ ์ œํ•œ(224px) ๋“ฑ์˜ ํšจ์œจ์„ฑ ์ค‘์‹œ ์„ค๊ณ„์— ๋”ฐ๋ฅธ ์ ˆ์ถฉ(trade-off)์œผ๋กœ ๋ณด์ด๋ฉฐ, ์ €์ž๋“ค์€ โ€œํ–ฅํ›„ ์ž์› ์—ฌ์œ ๊ฐ€ ์žˆ๋‹ค๋ฉด 70์–ต ๊ทœ๋ชจ์˜ RoboMamba-7B๋„ ๊ฐœ๋ฐœํ•  ๊ฒƒโ€์ด๋ผ๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ Table 1์—์„œ ์ž…๋ ฅ ํ•ด์ƒ๋„๋ฅผ 384px๋กœ ๋†’์ธ ๋ฒ„์ „๋„ ์ œ์‹œ๋˜์—ˆ๋Š”๋ฐ, ์„ฑ๋Šฅ์ด ์†Œํญ ๊ฐœ์„ ๋œ ์ง€ํ‘œ(GQA ๋“ฑ)๋„ ์žˆ์ง€๋งŒ ํฐ ์ฐจ์ด๋Š” ์—†์–ด์„œ, ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•์„ ์œ„ํ•ด ๊ธฐ๋ณธ 224 ํ•ด์ƒ๋„๋ฅผ ์„ ํƒํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ์„ฑ๋Šฅ (Robot-Specific Reasoning)

RoboVQA ๋ฒค์น˜๋งˆํฌ ์ƒ์—์„œ RoboMamba์˜ ๋กœ๋ด‡ ํŠนํ™” ์ถ”๋ก  ๋Šฅ๋ ฅ์€ ๋‘๋“œ๋Ÿฌ์กŒ์Šต๋‹ˆ๋‹ค. Figure 3 (a)์— ๋”ฐ๋ฅด๋ฉด, RoboMamba๋Š” BLEU-1~BLEU-4 ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ๋น„๊ต ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ BLEU-4 ๊ธฐ์ค€ RoboMamba๊ฐ€ 42.8์  (๋…ผ๋ฌธ ๋ณธ๋ฌธ ์–ธ๊ธ‰ ์—†์ด๋„ ์™ธ๋ถ€ ์š”์•ฝ์—์„œ ์ถ”์ •๋จ) ์„ ๊ธฐ๋กํ•œ ๋ฐ˜๋ฉด, ๋น„๊ต ๋Œ€์ƒ์ธ LLaMA-AdapterV2 (ManipLLM ๋ฒ ์ด์Šค)์˜ ๊ฒฝ์šฐ ๊ทธ๋ณด๋‹ค ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์žฅ๋ฌธ์˜ ๋‹ค๋‹จ๊ณ„ ๋กœ๋ด‡ ์„ค๋ช…๊ณผ ๊ฐ™์€ ์–ด๋ ค์šด ์ƒ์„ฑ ๋ฌธ์ œ์—์„œ RoboMamba๊ฐ€ ๋” ์ •ํ™•ํ•œ ๋‹ต๋ณ€์„ ๋‚ด๋†“์•˜์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํ›ˆ๋ จ ์ „๋žต์˜ ์œ ํšจ์„ฑ๋„ ์—ฌ๊ธฐ์„œ ์ž…์ฆ๋˜๋Š”๋ฐ, RoboMamba๋Š” ์ผ๋ฐ˜+๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ๋™์‹œ์— ํ•™์Šต(co-training)ํ•จ์œผ๋กœ์จ ๋กœ๋ด‡ ๋งฅ๋ฝ ์ถ”๋ก ์— ํŠนํ™”๋˜์—ˆ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด SOTA ๋กœ๋ด‡ MLLM ๋Œ€๋น„ ์šฐ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋”์šฑ ์ฃผ๋ชฉํ•  ์ ์€ ์ถ”๋ก  ์†๋„์ž…๋‹ˆ๋‹ค. RoboMamba๋Š” ๋™์ผ ์งˆ๋ฌธ์— ๋Œ€ํ•ด LLaMA-AdapterV2 ๋ฐ ManipLLM๋ณด๋‹ค 7๋ฐฐ ๋น ๋ฅธ ์‘๋‹ต ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Mamba ์–ธ์–ด๋ชจ๋ธ์˜ ์„ ํ˜• ์Šค์ผ€์ผ๋ง๊ณผ ์ฝ˜ํ…์ธ -์„ ๋ณ„ํ˜• ์ฒ˜๋ฆฌ ๋•๋ถ„์œผ๋กœ, Attention ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์˜ Quadratic ๋น„์šฉ์„ ํฌ๊ฒŒ ์•ž์ง€๋ฅด๋Š” ํšจ์œจ์„ฑ์„ ์‹ค์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์—๊ฒŒ ์žˆ์–ด ์‹ค์‹œ๊ฐ„์„ฑ์€ ์ค‘์š”ํ•˜๋ฏ€๋กœ, ์ด๋Ÿฌํ•œ ์†๋„ ํ–ฅ์ƒ์€ ๋‹จ์ˆœํ•œ ๋ถ€๊ฐ€ ์ด์ต์ด ์•„๋‹ˆ๋ผ ํ•ต์‹ฌ ์„ฑ๋Šฅ ์ง€ํ‘œ๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, RoboMamba๋Š” ๋กœ๋ด‡ ์ง€์‹ ์ดํ•ด ์ธก๋ฉด์—์„œ ๋” ์ •ํ™•ํ•˜๊ณ , ์‘๋‹ต ๋ฉด์—์„œ ๋” ๋ฏผ์ฒฉํ•œ ๋ชจ๋ธ์ž„์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์กฐ์ž‘ ์„ฑ๋Šฅ (Manipulation Performance in Simulation)

Table 2๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋“ค์˜ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. RoboMamba์˜ ์„ฑ๋Šฅ์„ ์ •๋ฆฌํ•˜๋ฉด: - ์ „์ฒด์ ์ธ SOTA ๋‹ฌ์„ฑ: Seen ์นดํ…Œ๊ณ ๋ฆฌ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์—์„œ RoboMamba๋Š” 7.0%p ๋†’๊ฒŒ (RoboMamba 71% vs ManipLLM 64% ๋‚ด์™ธ๋กœ ์ถ”์ •), Unseen ์นดํ…Œ๊ณ ๋ฆฌ ํ‰๊ท ์—์„œ๋„ 2.0%p ๊ฐ€๋Ÿ‰ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „ ์ตœ๊ณ  ๋ชจ๋ธ์ธ ManipLLM ๋Œ€๋น„ ์œ ์˜๋ฏธํ•œ ๊ฐœ์„ ์ด๋ฉฐ, RoboMamba๊ฐ€ ํ›ˆ๋ จ์— ์‚ฌ์šฉํ•œ 20์ข… ๋ฌผ์ฒด๋“ค๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฒ˜์Œ ๋ณด๋Š” ๋ฌผ์ฒด๋“ค์— ๋Œ€ํ•ด์„œ๋„ ๋” ๋‚˜์€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. - ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ์„ธ๋ถ€ ์„ฑ๋Šฅ: RoboMamba๋Š” ํ›ˆ๋ จ ์ค‘ ๋ณธ 20๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ ์ค‘ 14๊ฐœ์—์„œ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฌธ, ๋ƒ‰์žฅ๊ณ , ํ† ์Šคํ„ฐ, ๋žจํ”„ ๋“ฑ ๋ช‡๋ช‡ ํ•ญ๋ชฉ์—์„œ๋Š” 80~90%๋Œ€์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์˜ˆ์ธก์ด ๋งค์šฐ ์•ˆ์ •์ ์ด๋ฉฐ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๊ฐœ์ฒด์— ๋Œ€ํ•œ ์กฐ์ž‘๋„ ์ •ํ™•ํžˆ ์ˆ˜ํ–‰ํ•จ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ ๋ณด์ง€ ๋ชปํ•œ 10๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ฒฝ์šฐ, ์ตœ๊ทผ MLLM ๊ธฐ๋ฐ˜ ์„ธ ๊ธฐ๋ฒ•(RoboFlamingo, ManipLLM, RoboMamba) ๋ชจ๋‘ ์ƒ๋‹นํžˆ ์–‘ํ˜ธํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ€์œ„, ์ฃผ์ „์ž, ์ „ํ™”๊ธฐ ๊ฐ™์€ unseen ๋ฌผ์ฒด๋“ค๋„ 30~80% ์‚ฌ์ด์˜ ์ค€์ˆ˜ํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ด๋Š” ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์ „ํ†ต์ ์ธ UMPNet, FlowBot3D ๋“ฑ๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ๋•๋ถ„์ž…๋‹ˆ๋‹ค. RoboMamba ์—ญ์‹œ ์ด๋Ÿฌํ•œ LLM ๊ธฐ๋ฐ˜ ์ผ๋ฐ˜ํ™” ์ด์ ์„ ๊ณต์œ ํ•˜์—ฌ unseen์—์„œ๋„ ๊ฒฝ์Ÿ์ž๋“ค๊ณผ ๋น„์Šทํ•˜๊ฑฐ๋‚˜ ์•ฝ๊ฐ„ ์šฐ์œ„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค (ManipLLM๊ณผ ๊ฑฐ์˜ ๋™๋ฅ  ์ˆ˜์ค€์œผ๋กœ ์ถ”์ •). - ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ํšจ๊ณผ (ํšจ์œจ์„ฑ ๋น„๊ต): RoboMamba์˜ ๋‘๋“œ๋Ÿฌ์ง„ ์žฅ์ ์€ ํ›จ์”ฌ ์ ์€ ์—…๋ฐ์ดํŠธ๋กœ๋„ SOTA ์„ฑ๋Šฅ์„ ๋ƒˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. RoboFlamingo๋Š” ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ OpenFlamingo ์ „์ฒด์˜ 35.5%์ธ 18์–ต ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์žฌํ•™์Šตํ•ด์•ผ ํ–ˆ๊ณ , ManipLLM๋„ ๊ฑฐ๋Œ€ LLM์— ์–ด๋Œ‘ํ„ฐ 4,130๋งŒ๊ฐœ(๋ชจ๋ธ์˜ 0.5%) ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด RoboMamba๋Š” ๊ณ ์ž‘ 370๋งŒ๊ฐœ(0.1%)๋งŒ ์—…๋ฐ์ดํŠธํ•˜์˜€์œผ๋ฏ€๋กœ, ์ด์ „ MLLM ์กฐ์ž‘๋ฒ•๋“ค๋ณด๋‹ค 10๋ฐฐ ์ด์ƒ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์ •๋งŒ์œผ๋กœ ๋™๋“ฑํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ธ ์…ˆ์ž…๋‹ˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ ์ถ”๋ก  ์†๋„๋„ 7๋ฐฐ ๋น ๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, RoboMamba๋Š” ํšจ์œจ์„ฑ ๋ฉด์—์„œ ํƒ€์˜ ์ถ”์ข…์„ ๋ถˆํ—ˆํ•ฉ๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡ ์ œ์–ด๋ฅผ ์—ผ๋‘์— ๋‘˜ ๋•Œ, ์ด๋Ÿฌํ•œ ๊ฒฝ๋Ÿ‰/๊ณ ์† ํŠน์„ฑ์€ ๋ณธ ๋ชจ๋ธ์˜ ๊ฐ€์น˜๋ฅผ ํฌ๊ฒŒ ๋†’์—ฌ์ค๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ โ€œRoboMamba๋Š” ๊ฐ•๋ ฅํ•œ ์ถ”๋ก ๋ ฅ์„ ๊ฐ€์ง€๋ฉด์„œ๋„ ๋น„์šฉ ํšจ์œจ์ ์œผ๋กœ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ํš๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹คโ€๊ณ  ์ดํ‰ํ•ฉ๋‹ˆ๋‹ค.

์ถ”๊ฐ€ ์„ฑ๋Šฅ ๋ถ„์„ (Ablation Studies)

1. ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์ค‘์š”์„ฑ: ์ €์ž๋“ค์€ ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์˜ ์ถ”๋ก ๋ ฅ ์ฐจ์ด๊ฐ€ ์ตœ์ข… ์กฐ์ž‘ ์„ฑ๋Šฅ์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๋น„๊ต ์‹คํ—˜์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. RoboMamba 2.7B์— ๋Œ€ํ•˜์—ฌ, OpenFlamingo 9B (์ถ”๋ก ๋ ฅ ๊ฐ•ํ•˜์ง„ ์•Š์Œ), LLaMA-AdapterV2 7B (ManipLLM ๋ฒ ์ด์Šค), ๊ทธ๋ฆฌ๊ณ  RoboMamba 1.4B (๋ชจ๋ธ ํฌ๊ธฐ ์ ˆ๋ฐ˜)์™€ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋‘ ๋™์ผํ•˜๊ฒŒ ์ •์ฑ… ํ—ค๋“œ๋งŒ ๋ถ™์—ฌ ๋™๊ฒฐ ํ›„ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ์…‹์—…์œผ๋กœ ๋งž์ถ”์—ˆ๋Š”๋ฐ, Figure 3 (b) ๊ฒฐ๊ณผ RoboMamba 2.7B๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์ „ ์ถ”๋ก ๋Šฅ๋ ฅ์ด ์ข‹์€ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ์•ก์…˜ ํ•™์Šต์‹œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ RoboMamba 2.7B (w/o C)๋ผ๊ณ  ํ•ด์„œ Stage 1 ๊ณต๋™ํ›ˆ๋ จ ์‹œ RoboVQA ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ์™ธํ•œ ๋ฒ„์ „๋„ ์‹คํ—˜ํ–ˆ๋Š”๋ฐ, ์ด ๊ฒฝ์šฐ ์กฐ์ž‘ ์ •ํ™•๋„๊ฐ€ ๋ˆˆ์— ๋„๊ฒŒ ํ•˜๋ฝํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฏธ๋ณด๋˜ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง€๋Š” ์–‘์ƒ์ด ๊ด€์ฐฐ๋˜์–ด, ๋กœ๋ด‡ ๊ด€๋ จ ์ถ”๋ก  ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•œ ํ•™์Šต(C)์ด ์ถ”๋ก ๋ ฅ์„ ํ–ฅ์ƒ์‹œ์ผœ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์กฐ์ž‘ ์ผ๋ฐ˜ํ™”์—๋„ ๊ธฐ์—ฌํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, โ€œ๋กœ๋ด‡ ์Šคํ‚ฌ์„ ๊ฐ€๋ฅด์น  ๋•Œ ๋ง‰๋Œ€ํ•œ ์ถ”๊ฐ€ ํ•™์Šต์ด ํ•„์š”ํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ, ์• ์ดˆ์— ๋ชจ๋ธ์ด ํŠผํŠผํ•œ ์ถ”๋ก ๋ ฅ(ํŠนํžˆ ๋กœ๋ด‡ ์ƒ์‹)์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉด ๋œ๋‹คโ€๋Š” ์ฃผ์žฅ์ด ์ž…์ฆ๋œ ์…ˆ์ž…๋‹ˆ๋‹ค.

2. ์ •์ฑ… ํ—ค๋“œ ์„ค๊ณ„ ์˜ํ–ฅ: Appendix์˜ ์ถ”๊ฐ€ ์‹คํ—˜์œผ๋กœ, ์ •์ฑ… ํ—ค๋“œ์˜ ๊ตฌ์กฐ๋ฅผ ๋‹ฌ๋ฆฌํ•ด๋ณธ ๊ฒฝ์šฐ๋„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. (i) MLP1: ์œ„์น˜์™€ ๋ฐฉํ–ฅ์„ ํ•˜๋‚˜์˜ MLP์—์„œ ๋™์‹œ์— ์˜ˆ์ธก (์ถœ๋ ฅ ๋ถ„๊ธฐ๋งŒ ๋‹ค๋ฅด๊ฒŒ), (ii) MLP2: RoboMamba ๋…ผ๋ฌธ ๊ธฐ๋ณธ ์„ค์ •์ฒ˜๋Ÿผ ๋‘ ๊ฐœ์˜ MLP๋กœ ๊ฐ๊ฐ ์˜ˆ์ธก, (iii) (SSM+MLP)2: ๋‘ ๊ฐœ์˜ ํ—ค๋“œ MLP ์•ž์— ์ž‘์€ SSM ๋ธ”๋ก๊นŒ์ง€ ์‚ฝ์ž…ํ•˜์—ฌ ํ—ค๋“œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋Œ€ํญ ๋Š˜๋ฆฐ ๋ฒ„์ „(์•ฝ 4,520๋งŒ ํŒŒ๋ผ๋ฏธํ„ฐ, 1.3% ๋ชจ๋ธ). ๊ฒฐ๊ณผ๋Š” ์„ธ ์„ค์ • ๊ฐ„ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์ด ๊ฑฐ์˜ ๋™์ผ (62~64% ๋ฒ”์œ„)ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ—ค๋“œ์— ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋งŽ์ด ๋Š˜๋ฆฐ๋‹ค๊ณ  ์ •ํ™•๋„๊ฐ€ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์˜ค๋ฅด์ง€ ์•Š์•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ณง ํ•„์š” ์ด์ƒ์˜ ๋ณต์žกํ•œ ํ—ค๋“œ๋Š” ๋น„ํšจ์œจ์ด๋ฉฐ, RoboMamba์ฒ˜๋Ÿผ ์ตœ์†Œํ•œ์˜ ๋‹จ์ˆœ ํ—ค๋“œ๋กœ๋„ ์ถฉ๋ถ„ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก ๋Šฅ๋ ฅ์ด ๋ฐ›์ณ์ค€๋‹ค๋ฉด ์ž‘์€ ํ—ค๋“œ๋กœ๋„ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๊ณ , ํฐ ํ—ค๋“œ๋ฅผ ์“ด๋‹ค๊ณ  ์ถ”๋ก ๋ ฅ์ด ๋ถ€์กฑํ•œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋ฉ”๊พธ๊ธด ์–ด๋ ต๋‹ค๋Š” ์ ์—์„œ, ์ƒ์œ„ ๋‹จ๊ณ„์˜ ์ง€๋Šฅ(์ถ”๋ก ) ํ™•๋ณด๊ฐ€ ๊ทผ๋ณธ์ ์ž„์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

3. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์กฐํ•ฉ ์˜ํ–ฅ: ์—ญ์‹œ Appendix C์˜ Table 4์—์„œ, Stage 1 ํ›ˆ๋ จ์ „๋žต์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •๋ฆฌํ•˜๋ฉด, - ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ •๋ ฌ(Alignment) ์‚ฌ์ „ํ•™์Šต์„ ์ƒ๋žตํ•˜๋ฉด (Ex1) vs ์ˆ˜ํ–‰ํ•˜๋ฉด (Ex2), ๋ชจ๋“  ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ Ex2๊ฐ€ ํ–ฅ์ƒ๋˜์–ด ์ •๋ ฌ๋‹จ๊ณ„์˜ ์ค‘์š”์„ฑ์ด ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. - ํ™˜๊ฐ ์™„ํ™”์šฉ LRV-400K ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จ (Ex3) vs ๋ฏธํฌํ•จ (Ex2) ๋น„๊ต ์‹œ, POPE ๋ฒค์น˜๋งˆํฌ ์ •ํ™•๋„๊ฐ€ ์œ ์˜ํ•˜๊ฒŒ ์ƒ์Šนํ•˜์—ฌ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ํšจ๊ณผ์  ๊ธฐ์—ฌ๋ฅผ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. - ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ(RoboVQA 800K) ํฌํ•จ ์—ฌ๋ถ€ (Ex4 vs Ex3) ๋น„๊ต์—์„œ๋Š”, ๋กœ๋ด‡ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ถ€์—ฌ๋Š” ๋ฌผ๋ก  ์ผ๋ฐ˜ ์ƒ์‹ ์ถ”๋ก (OQVQA/GQA ๋“ฑ)๋„ ํ–ฅ์ƒ๋˜๋Š” ๋ถ€์ˆ˜ ํšจ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ GQA์—์„œ ๊ณต๊ฐ„์ถ”๋ก  ์ •ํ™•๋„๊ฐ€ ๋ˆˆ์— ๋„๊ฒŒ ์˜ค๋ฅด๋Š” ๋“ฑ, ๋กœ๋ด‡ ๋ณตํ•ฉ๊ณผ์ œ๊ฐ€ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์  ์‚ฌ๊ณ ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆผ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ablation ์—ฐ๊ตฌ๋“ค์€ RoboMamba ์„ค๊ณ„ ์„ ํƒ์˜ ์ •๋‹น์„ฑ์„ ๋’ท๋ฐ›์นจํ•˜๋ฉฐ, โ€œ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ ฌ + ์ผ๋ฐ˜/๋กœ๋ด‡ ๊ณต๋™ํ•™์Šตโ€์ด๋ผ๋Š” ์ปค๋ฆฌํ˜๋Ÿผ์˜ ํ˜œํƒ๊ณผ, โ€œ์ถฉ๋ถ„ํ•œ ์ถ”๋ก ๋Šฅ๋ ฅ ํ™•๋ณด ํ›„ ๊ฒฝ๋Ÿ‰ ํ—ค๋“œ ๋ฏธ์„ธ์กฐ์ •โ€์ด๋ผ๋Š” ์ ‘๊ทผ์˜ ํƒ€๋‹น์„ฑ์„ ๋ฐ์ดํ„ฐ๋กœ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ™˜๊ฒฝ ๋กœ๋ด‡ ์‹คํ—˜ (Real-World Experiments)

๋…ผ๋ฌธ ๋งˆ์ง€๋ง‰์œผ๋กœ, ํ›ˆ๋ จ๋œ RoboMamba๋ฅผ ์‹ค์ œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ๊ฐ€ ์†Œ๊ฐœ๋ฉ๋‹ˆ๋‹ค.

Figure 4์—๋Š” ๋‹ค์–‘ํ•œ ์‹ค์ œ ๊ฐ€์ •์šฉ ๋ฌผ์ฒด๋“ค์— ๋Œ€ํ•œ RoboMamba์˜ ๋™์ž‘๊ณผ ์‘๋‹ต ์˜ˆ์‹œ๊ฐ€ ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ด€์ฐฐ์„ ์ •๋ฆฌํ•˜๋ฉด:

  • ์žฅ๊ธฐ ๊ณ„ํš(Task Planning): โ€œํ…Œ์ด๋ธ”์„ ์น˜์šฐ๋Š” ๋ฒ•โ€, โ€œ์˜ท์žฅ ์ •๋ฆฌ ๋ฐฉ๋ฒ•โ€ ๊ฐ™์€ ๋ณต์žกํ•œ ์ง€์‹œ์—์„œ, RoboMamba๋Š” ์ƒํ™ฉ์— ๋งž๋Š” ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš์„ ์ •ํ™•ํžˆ ๊ธฐ์ˆ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋น„๊ต ๋Œ€์ƒ(LLaMA-AdapterV2)๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋‹จ์ˆœํ•˜๊ฑฐ๋‚˜ ๋ถ€์ •ํ™•ํ•œ ๋‹ต์„ ๋‚ด๋†“์•„ ๋Œ€์กฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” RoboMamba์˜ ๊ฐ•ํ™”๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ์‹ค์ œ ๊ณ„ํš ์ˆ˜๋ฆฝ์— ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ ๋™์ผํ•˜๊ฒŒ RoboVQA ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •๋œ ์ƒํƒœ์—์„œ์˜ ๋น„๊ต์˜€๊ธฐ์—, ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ ํ›ˆ๋ จ์ „๋žต์˜ ์ฐจ์ด๊ฐ€ ๊ณง ์„ฑ๋Šฅ ์ฐจ์ด๋กœ ๋“œ๋Ÿฌ๋‚œ ์…ˆ์ž…๋‹ˆ๋‹ค.
  • ์–ดํฌ๋˜์Šค ์ธ์‹ ๋ฐ ์žฅ๋ฉด ์ดํ•ด: RoboMamba๋Š” ์ฃผ์–ด์ง„ ์‹ค์ œ ์‚ฌ์ง„์—์„œ ์–ด๋–ค ๋ถ€๋ถ„์„ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹๋ณ„ํ•˜๊ณ  ๊ทธ ์ด์œ ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๋ฐ์—๋„ ๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฑ…์ƒ ๋žจํ”„ ์‚ฌ์ง„์„ ๋ณด๊ณ  โ€œ๋žจํ”„ ๊ฐ“์„ ์žก๊ณ  ๋Œ๋ฆฌ๋ฉด ์ผค ์ˆ˜ ์žˆ๋‹คโ€, ํ† ์Šคํ„ฐ ์‚ฌ์ง„์„ ๋ณด๊ณ  โ€œ๋ ˆ๋ฒ„๋ฅผ ๋ˆ„๋ฅด๋ฉด ๋™์ž‘ํ•œ๋‹คโ€ ๋“ฑ ์˜ฌ๋ฐ”๋ฅธ ์กฐ์ž‘ ๋ถ€์œ„์™€ ๋™์ž‘์„ ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์ด ํ™˜๊ฒฝ์—์„œ ํ–‰๋™ ๊ฐ€๋Šฅํ•œ ๋Œ€์ƒ๊ณผ ํ–‰๋™ ๋ฐฉ๋ฒ•์„ ์–ธ์–ด๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•˜๋ฉฐ, RoboMamba๊ฐ€ ์‹œ๊ฐ ์ดํ•ด์™€ ๋กœ๋ด‡ ์ง€์‹์„ ๊ฒฐํ•ฉํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.
  • ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ž˜ ์ถ”๋ก : ์ผ๋ถ€ ์‹คํ—˜์—์„œ๋Š” ์ผ๋ จ์˜ ์ด๋ฏธ์ง€๋“ค์„ ์ฃผ๊ณ  โ€œ์ด์ „ ์ƒํ™ฉ์€ ์–ด๋• ๋Š”๊ฐ€?โ€ ํ˜น์€ โ€œ๋‹ค์Œ์— ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚ ๊นŒ?โ€๋ฅผ ๋ฌป๊ธฐ๋„ ํ–ˆ๋Š”๋ฐ, RoboMamba๋Š” ๊ณผ๊ฑฐ ํ”„๋ ˆ์ž„์˜ ์„œ์ˆ ์ด๋‚˜ ๋ฏธ๋ž˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ์—ญ์‹œ ์‚ฌ๋žŒ์ด ๊ธฐ๋Œ€ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์‘๋‹ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‚ฌ๋žŒ์ด ์ปต์„ ์Ÿ๋Š” ์—ฐ์† ๋™์ž‘์—์„œ โ€œ์ด์ „์—๋Š” ์ปต์ด ๋˜‘๋ฐ”๋กœ ์žˆ์—ˆ๋Š”๋ฐ ์ง€๊ธˆ ์“ฐ๋Ÿฌ์กŒ๋‹คโ€, โ€œ์ดํ›„์—๋Š” ์•ก์ฒด๊ฐ€ ์Ÿ์•„์ ธ ํผ์งˆ ๊ฒƒ์ด๋‹คโ€ ๋“ฑ ์ƒํ™ฉ์„ ์ •ํ™•ํžˆ ์งš์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ„์  ์ถ”๋ก  ๋ฐ ์ƒ์‹๊นŒ์ง€ ๊ฒธ๋น„ํ•˜๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • ์‹ค์ œ ๋ฌผ์ฒด ์กฐ์ž‘: ์—ฐ๊ตฌ์ง„์€ Franka Panda ๋กœ๋ด‡ํŒ”๋กœ ์‹ค์ œ ๋ฌผ๊ฑด๋“ค์„ ์กฐ์ž‘ํ•˜๋Š” ์‹œ์—ฐ๋„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌธ๊ณ ๋ฆฌ๋ฅผ ์žก์•„๋‹น๊ฒจ ๋ฌธ ์—ด๊ธฐ, ๋žจํ”„ ์Šค์œ„์น˜ ๋ˆ„๋ฅด๊ธฐ ๋“ฑ ๋™์ž‘์„ ํ…Œ์ŠคํŠธํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. RoboMamba๋Š” ์นด๋ฉ”๋ผ ์˜์ƒ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ์ ‘์ด‰ ์ง€์  ํ”ฝ์…€๊ณผ ํšŒ์ „ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๊ณ , ์ด๋ฅผ ์‹ค์ œ ์ขŒํ‘œ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋กœ๋ด‡์„ ๊ตฌ๋™ํ–ˆ์Šต๋‹ˆ๋‹ค. Figure 4 ์˜ค๋ฅธ์ชฝ ์•„๋ž˜์—๋Š”, ์นด๋ฉ”๋ผ ์˜์ƒ์— ๋นจ๊ฐ„ ์ (์ ‘์ด‰์ )๊ณผ ํŒŒ๋ž€ ๋กœ๋ด‡ํŒ” ๊ทธ๋ฆผ(์˜ˆ์ธก ์ž์„ธ)์„ ๊ฒน์ณ ํ‘œ์‹œํ•œ ์˜ˆ์‹œ๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ์˜ˆ์ธก ์ง€์ ์ด ์ •ํ™•ํžˆ ๋ฌผ์ฒด์˜ ์†์žก์ด/๋ฒ„ํŠผ ๋“ฑ์— ์ผ์น˜ํ•˜๋ฉฐ, ํšŒ์ „ ๋ฐฉํ–ฅ๋„ ์ ์ ˆํ•˜๊ฒŒ ์‚ฐ์ถœ๋˜์—ˆ์Œ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ์ด ์‹ค๋ฌผ์—์„œ๋„ ์žฌํ˜„๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋ช‡๋ช‡ ์ถ”๊ฐ€ ์‚ฌ๋ก€ ๋ฐ ๋ฐ๋ชจ ๋น„๋””์˜ค๋Š” ๋ถ€๋ก๊ณผ ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€์— ๊ณต๊ฐœ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ, RoboMamba๋Š” ๊ฐ€์ƒ ํ™˜๊ฒฝ๋ฟ ์•„๋‹ˆ๋ผ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋„ ์œ ์šฉํ•œ ๋กœ๋ด‡ ์ง€๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณ ์ฐจ์› ์–ธ์–ด ์ถ”๋ก , ์‹œ๊ฐ์  ์–ดํฌ๋˜์Šค ์ดํ•ด, ์‹ค์‹œ๊ฐ„ ์ž์„ธ ์‚ฐ์ถœ์ด ์–ด์šฐ๋Ÿฌ์ ธ, ๋กœ๋ด‡์˜ ์ธ์ง€์™€ ํ–‰๋™์„ ์—ฐ๊ฒฐํ•˜๋Š” ํ†ตํ•ฉ AI์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ (Conclusion and Future Work)

RoboMamba ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ๋ชจ๋ธ ์„ค๊ณ„์— ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ํšจ์œจ์ ์ธ ์ƒํƒœ๊ณต๊ฐ„ LLM (Mamba)์— ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ๊ฒฐํ•ฉํ•ด ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ™•๋ณดํ•˜๊ณ , ๊ฑฐ๊ธฐ์— ์•„์ฃผ ์†Œ๋Ÿ‰์˜ ๋ฏธ์„ธ์กฐ์ •๋งŒ์œผ๋กœ ๋กœ๋ด‡ ์กฐ์ž‘ ๋Šฅ๋ ฅ๊นŒ์ง€ ๋ถ€์—ฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์ถ”๋ก ๋ ฅ๊ณผ ๋กœ์šฐ๋ ˆ๋ฒจ ์ œ์–ด ์‚ฌ์ด์˜ ๊ฐ„๊ทน์„ ํšจ์œจ์ ์œผ๋กœ ๋ฉ”์šฐ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ๊ณ , ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ•ด์น˜์ง€ ์•Š์œผ๋ฉด์„œ ์กฐ์ž‘ ์Šคํ‚ฌ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. RoboMamba๋Š” ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ์™€ ๋กœ๋ด‡ ํ‰๊ฐ€ ๋ชจ๋‘์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๊ณ , ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ์‹ค์ œ ์‹คํ—˜์—์„œ ์ตœ์ฒจ๋‹จ ์ˆ˜์ค€์˜ ์ž์„ธ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 7MB์งœ๋ฆฌ ํ—ค๋“œ๋ฅผ 20๋ถ„ ๋งŒ์— ํ•™์Šตํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋Šฅ๋ ฅ์„ ์Šต๋“ํ•œ ๊ฒƒ์€, ๋กœ๋ด‡ ํ•™์Šต์˜ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๋Š” ํ•˜๋‚˜์˜ ํ•ด๋ฒ•์œผ๋กœ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ, ์ €์ž๋“ค์€ ๋‹ค์Œ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค:

  • ์—ฐ์† ํ•™์Šต(Continual Learning): ์‹ค์ œ ๋กœ๋ด‡ ์ ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ํ™˜๊ฒฝ ๋ณ€ํ™”๋‚˜ ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ง€์†์ ์œผ๋กœ ๋ชจ๋ธ์„ ์ ์‘์‹œํ‚ค๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ถ”๊ฐ€ ๋ฏธ์„ธ์กฐ์ • ๊ณผ์ •์—์„œ ์ด์ „ ์ง€์‹์„ ๋ณด์กดํ•˜๊ณ  ์ ์ง„์ ์œผ๋กœ ๋Šฅ๋ ฅ์„ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ๋ฒ• (์˜ˆ: EWC ๋“ฑ ์ง€์†ํ•™์Šต ๊ธฐ๋ฒ•)์„ RoboMamba์— ์ ‘๋ชฉํ•  ๊ณ„ํš์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹ค์„ธ๊ณ„์—์„œ ๊ฒฝํ—˜์„ ์Œ“์œผ๋ฉฐ ์„ฑ์žฅํ•˜๋Š” ๋กœ๋ด‡ ๋ชจ๋ธ๋กœ ๋ฐœ์ „์‹œํ‚ค๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.
  • 3D ์ธ์ง€ ํ†ตํ•ฉ: ํ˜„์žฌ RoboMamba๋Š” 2D ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜์œผ๋กœ ๋™์ž‘ํ•˜์ง€๋งŒ, ๋กœ๋ด‡ ์กฐ์ž‘์—๋Š” 3D ์ •๋ณด๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์™€ ๊ฐ™์€ 3D ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” 3์ฐจ์› ๋กœ๋ด‡ MLLM ๋ฐฉํ–ฅ์„ ๋ชจ์ƒ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 3D ์ž…๋ ฅ์€ ๋” ํ’๋ถ€ํ•œ ๊ธฐํ•˜ํ•™ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ๋ณด๋‹ค ์ •๋ฐ€ํ•œ 6-DoF ์ž์„ธ ์˜ˆ์ธก๊ณผ ๋ณต์žกํ•œ ๊ณต๊ฐ„ ์กฐ์ž‘์— ๋„์›€์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ RoboMamba๋ฅผ ์‹œ๊ฐ+์–ธ์–ด+3D ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๋กœ ํ™•์žฅํ•˜์—ฌ, ์ž…์ฒด์  ์ธ์ง€์™€ ํ–‰๋™์„ ๊ตฌํ˜„ํ•  ๊ตฌ์ƒ์„ ๊ฐ–๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ํ™•์žฅ๊ณผ ๊ณต๊ฐœ: ๋น„๊ณต์‹์ ์œผ๋กœ๋Š” RoboMamba์˜ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ‚ค์šด 7B ๋ฒ„์ „์ด๋‚˜, ์ถ”๊ฐ€์ ์ธ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ํŠœ๋‹ํ•œ ๋ฒ„์ „ ๋“ฑ์„ ๊ฐœ๋ฐœํ•˜์—ฌ ์ž์› ์ œ์•ฝ์ด ์ ์€ ํ™˜๊ฒฝ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ์ถ”๊ตฌํ•  ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๋…ผ๋ฌธ์—์„œ ์–ธ๊ธ‰๋˜์ง„ ์•Š์•˜์ง€๋งŒ, ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์— ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜์—ฌ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ์ ์šฉํ•ด๋ณด๋Š” ๊ฒƒ๋„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์ปจ๋Œ€, RoboMamba๋Š” ๋กœ๋ด‡ ๋ถ„์•ผ์˜ ๋น„์ „-์–ธ์–ด-์•ก์…˜ ํ†ตํ•ฉ ์—ฐ๊ตฌ์— ์žˆ์–ด ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ ๋‘ ์ธก๋ฉด์—์„œ ์˜๋ฏธ์žˆ๋Š” ์ง„์ „์„ ๋ณด์—ฌ์ค€ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. Transformer ์˜์กด์—์„œ ๋ฒ—์–ด๋‚˜ ์ƒˆ๋กœ์šด ์•„ํ‚คํ…์ฒ˜(Mamba)๋กœ ์„ฑ๊ณผ๋ฅผ ๋ƒˆ๋‹ค๋Š” ์ ๋„ ์ฃผ๋ชฉํ• ๋งŒํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์ด ๋ฐฉํ–ฅ์˜ ์—ฐ๊ตฌ๊ฐ€ ๊ณ„์† ๋ฐœ์ „ํ•œ๋‹ค๋ฉด, ๋ณด๋‹ค ๋˜‘๋˜‘ํ•˜๊ณ  ๋น ๋ฅธ ๋กœ๋ด‡ ๋น„์„œ๋‚˜ ์ž์œจ์ž‘์—… ๋กœ๋ด‡์˜ ์‹คํ˜„์— ํ•œ ๊ฑธ์Œ ๋‹ค๊ฐ€๊ฐˆ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. RoboMamba๊ฐ€ ๊ทธ ํ•˜๋‚˜์˜ ์ด์ •ํ‘œ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee