๐RoboMamba ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค RoboMamba๋ Mamba ๊ธฐ๋ฐ์ ํจ์จ์ ์ธ Vision-Language-Action (VLA) ๋ชจ๋ธ๋ก, ๋ณต์กํ ๋ก๋ด ์ถ๋ก ๋ฐ ์กฐ์ ๋ฅ๋ ฅ์ ๋์์ ์ ๊ณตํฉ๋๋ค.
- ๐ก ์ด ๋ชจ๋ธ์ Vision Encoder์ Mamba๋ฅผ ํตํฉํ๊ณ ๊ณต๋ ํ์ต์ ํตํด ์๊ฐ์ ์์ ๋ฐ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ์ ์ต๋ํ๋ฉฐ, ์ดํ ์ต์ํ์ ํ์ธํ๋์ผ๋ก SE(3) pose prediction ๊ธฐ์ ์ ํจ์จ์ ์ผ๋ก ์ต๋ํฉ๋๋ค.
- ๐ RoboMamba๋ ์ผ๋ฐ ๋ฐ ๋ก๋ด ํ๊ฐ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ์ธ์์ ์ธ pose prediction ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋ค 3๋ฐฐ ๋น ๋ฅธ inference ์๋๋ฅผ ์๋ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ์ถ๋ก ๋ฐ ์กฐ์์ ์ํ ํจ์จ์ ์ธ Vision-Language-Action (VLA) ๋ชจ๋ธ์ธ RoboMamba๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ณต์กํ ์์ ์ ๋ํ ์ถ๋ก ๋ฅ๋ ฅ ๋ถ์กฑ๊ณผ ๋์ ๊ณ์ฐ ๋น์ฉ์ด๋ผ๋ ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๊ฒช๊ณ ์์ต๋๋ค. RoboMamba๋ Mamba๋ผ๋ ์๋ก์ด State Space Model (SSM)์ ํ์ฉํ์ฌ ๋ก๋ด ์ถ๋ก ๋ฐ ๋์ ๋ฅ๋ ฅ์ ๋์์ ์ ๊ณตํ๋ฉฐ, ํจ์จ์ ์ธ Fine-tuning ๋ฐ ์ถ๋ก ์ ์ ์งํฉ๋๋ค.
1. ๋ฌธ์ ์ ์ ๋ฐ Mamba ์๊ฐ (Preliminaries)
- ๋ก๋ด ์๊ฐ ์ถ๋ก (Robot Visual Reasoning): ์ ๋ ฅ ์ด๋ฏธ์ง I \in \mathbb{R}^{W \times H \times 3}์ ์ธ์ด ์ง๋ฌธ L_q์ ๊ธฐ๋ฐํ์ฌ ์ธ์ด ์๋ต L_a๋ฅผ ์์ฑํ๋ R(I, L_q) ํจ์๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. ์์ฑ๋ ์๋ต์ ์ข ์ข ํ์ ์์ (L_a \rightarrow (L_{1a}, L_{2a}, \ldots, L_{na}))์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๋์ ์์ธก (Action Prediction): ์ธ์ด ์๋ต R(I, L_q)๋ฅผ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ๋์ a๋ฅผ ์์ธกํ๋ ํจ์จ์ ์ธ ์ ์ฑ ํค๋ \pi๋ฅผ ๋์ ํฉ๋๋ค. ๋์์ Franka Emika Panda ๋ก๋ด ํ์ 6-DoF End-effector Pose (a_{pos} \in \mathbb{R}^3, a_{dir} \in \mathbb{R}^{3 \times 3})๋ก ํํ๋ฉ๋๋ค. Grasping ์์ ์ ๊ฒฝ์ฐ Gripper ์ํ๋ฅผ ์ถ๊ฐํ์ฌ 7-DoF ์ ์ด๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- Mamba (State Space Models): Mamba๋ Transformer์ ๋์ ๊ณ์ฐ ๋ณต์ก๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ SSM ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์
๋๋ค. Mamba๋ ๋ง์ Mamba Block์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํต์ฌ ๊ตฌ์ฑ ์์๋ SSM์
๋๋ค.
- SSM์ 1D ์ ๋ ฅ ์ํ์ค x(t)๋ฅผ ์๋ ์ํ h(t)๋ฅผ ํตํด 1D ์ถ๋ ฅ ์ํ์ค y(t)๋ก ๋ณํํฉ๋๋ค. ์ด๋ ์ฐ์ ์์คํ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค: h'(t) = Ah(t) + Bx(t) y(t) = Ch(t) ์ฌ๊ธฐ์ A \in \mathbb{R}^{N \times N}, B \in \mathbb{R}^{N \times 1}, C \in \mathbb{R}^{N \times 1}๋ SSM์ ํต์ฌ ํ๋ผ๋ฏธํฐ์ ๋๋ค.
- Mamba๋ ์๊ฐ ์ค์ผ์ผ ํ๋ผ๋ฏธํฐ \Delta๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด์ฐํํฉ๋๋ค. Zero-order hold ๋ฐฉ์์ผ๋ก ์ด์ฐํ๋ A์ B๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \bar{A} = \exp(\Delta A) \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B ์ด์ฐ ํํ๋ h_t = \bar{A}h_{t-1} + \bar{B}x_t; y_t = \bar{C}h_t์ ๋๋ค.
- Mamba๋ Selective Scan Mechanism (S6)์ ๋์ ํ์ฌ SSM ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ ฅ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์์ฑํจ์ผ๋ก์จ ์ฝํ ์ธ ์ธ์ ์ถ๋ก (content-aware reasoning) ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ์ ํ ๋ณต์ก๋๋ฅผ ์ ์งํฉ๋๋ค.
2. RoboMamba ์ํคํ ์ฒ
RoboMamba๋ ์๊ฐ ์ถ๋ก ๋ฐ ์กฐ์ ๋ฅ๋ ฅ์ ๋ชจ๋ ๊ฐ์ถ๊ธฐ ์ํด ์ฌ์ ํ๋ จ๋ Large Language Models (LLMs)์ ์๊ฐ ๋ชจ๋ธ์ ํ์ฉํฉ๋๋ค.
- ์๊ฐ ์ธ์ฝ๋ (Vision Encoder): CLIP (๋๋ SigLIP) ViT-Large์ ๊ฐ์ ์๊ฐ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์๊ฐ ํน์ง f_v \in \mathbb{R}^{B \times N \times 1024}๋ฅผ ์ถ์ถํฉ๋๋ค. ์ฌ๊ธฐ์ B๋ ๋ฐฐ์น ํฌ๊ธฐ, N์ ํ ํฐ ์๋ฅผ ๋ํ๋ ๋๋ค. ๋ณธ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ๋ ์์๋ธ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ ๋๋ค.
- ๊ต์ฐจ ๋ชจ๋ฌ ์ฐ๊ฒฐ์ (Cross-modal Connector): Multi-Layer Perceptron (MLP)๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ ์ธ์ฝ๋์ LLM์ ์ฐ๊ฒฐํฉ๋๋ค. ์ด MLP๋ ์๊ฐ ์ ๋ณด๋ฅผ Mamba์ ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ f_L \in \mathbb{R}^{B \times N \times 2560}์ผ๋ก ๋ณํํฉ๋๋ค.
- ์ธ์ด ๋ชจ๋ธ (Language Model): Mamba (2.8B/1.4B)๋ฅผ ์ธ์ด ๋ชจ๋ธ๋ก ์ ํํฉ๋๋ค. ์ด๋ Mamba์ ์ฝํ ์ธ ์ธ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ ํ ๊ณ์ฐ ๋ณต์ก๋ ๋๋ถ์ ๋ก๋ด ๋ถ์ผ์์ ํ์์ ์ธ ๋น ๋ฅธ ์๋ต ์๊ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ํ ์คํธ ์๋ฒ ๋ฉ (Text Embedding): ์ฌ์ ํ๋ จ๋ Tokenizer๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์๋ฒ ๋ฉ ๊ณต๊ฐ f_t \in \mathbb{R}^{B \times N \times 2560}์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
- ์ ๋ ฅ ์ฒ๋ฆฌ: ์๊ฐ ํ ํฐ f_L์ ํ ์คํธ ํ ํฐ f_t๋ฅผ ์ฐ๊ฒฐ(concatenate)ํ์ฌ Mamba ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- ์ถ๋ ฅ: Mamba์ ์ถ๋ ฅ ํ ํฐ T_a๋ De-tokenizer๋ฅผ ํตํด ์์ฐ์ด ์๋ต L_a๋ก ๋ณํ๋ฉ๋๋ค.
- ์ ์ฑ ํค๋ (Policy Head): End-effector์ ์์น a_{pos}์ ๋ฐฉํฅ a_{dir}์ ๋ณ๋๋ก ํ์ตํ๋ ๋ ๊ฐ์ MLP๋ก ๊ตฌ์ฑ๋ ๊ฐ๋จํ ์ ์ฑ ํค๋๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด ์ ์ฑ ํค๋๋ ๋ชจ๋ธ ์ ์ฒด ํ๋ผ๋ฏธํฐ์ ์ฝ 0.1%๋ง์ ์ฐจ์งํฉ๋๋ค. ๊ธ๋ก๋ฒ ํ ํฐ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด๋ ์ธ์ด ์ถ๋ ฅ ํ ํฐ์์ Pooling ์ฐ์ฐ์ ํตํด ์์ฑ๋ฉ๋๋ค.
3. ํ๋ จ ์ ๋ต (Training Strategy)
RoboMamba์ ํ๋ จ ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค.
- 1๋จ๊ณ: ์ผ๋ฐ ๋ฐ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ํ๋ จ (General and Robotic-related Training)
- 1.1 ์ ๋ ฌ ์ฌ์ ํ๋ จ (Alignment Pre-training): LLaVA์์ ํํฐ๋ง๋ 558k ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ Cross-modal ์ ๋ ฌ์ ์ํํฉ๋๋ค. ์๊ฐ ์ธ์ฝ๋์ Mamba ์ธ์ด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ ๊ณ ์ ํ๊ณ , ํ๋ก์ ํธ ๋ ์ด์ด (MLP)๋ง ์ ๋ฐ์ดํธํ์ฌ ์ด๋ฏธ์ง ํน์ง์ Mamba์ ๋จ์ด ์๋ฒ ๋ฉ์ ์ ๋ ฌํฉ๋๋ค.
- 1.2 ์ง์๋ฌธ ๊ณต๋ ํ๋ จ (Instruction Co-training): ์ผ๋ฐ ์๊ฐ ์ง์๋ฌธ ๋ฐ์ดํฐ (LLaVA mixed, ShareGPT4V-SFT, LLaVA-Next)์ ๋์ ์์ค์ ๋ก๋ด ๋ฐ์ดํฐ (RoboVQA)๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ์ผ๋ฐ ๋ฐ์ดํฐ์ ์ ํ ๋ฃจ์๋ค์ด์ (Hallucination) ๊ฐ์๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค.
- RoboVQA ๋ฐ์ดํฐ์ ์ ์ฅ๊ธฐ ๊ณํ, ์ฑ๊ณต ๋ถ๋ฅ, ์ฐจ๋ณ ๋ฐ ์์ฑ์ ์ดํฌ๋์ค, ๊ณผ๊ฑฐ ์ค๋ช , ๋ฏธ๋ ์์ธก ๋ฑ ๋ก๋ด ๊ด๋ จ ๊ธฐ์ ํ์ต์ ์ฌ์ฉ๋ฉ๋๋ค.
- ์ด ๋จ๊ณ์์๋ CLIP ์ธ์ฝ๋๋ฅผ ๊ณ ์ ํ๊ณ , ํ๋ก์ ํธ ๋ ์ด์ด์ Mamba๋ฅผ ๊ฒฐํฉ๋ ์ง์๋ฌธ ๋ฐ์ดํฐ์ ์ผ๋ก Fine-tuningํฉ๋๋ค. Mamba ์ธ์ด ๋ชจ๋ธ์ ๋ชจ๋ ์ถ๋ ฅ์ Cross-entropy loss๋ก ๊ฐ๋ ๋ฉ๋๋ค.
- 2๋จ๊ณ: ๋ก๋ด ์กฐ์ Fine-tuning (Robot Manipulation Fine-tuning)
- RoboMamba์ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ ์์ ๊ตฌ์ถ๋ฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, ์กฐ์ Fine-tuning ๋จ๊ณ์์ ํ๋ก์ ํธ ๋ ์ด์ด์ LLM์ ์ ๋ฐ์ดํธํ์ง ์๊ณ , RoboMamba์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ ์ ํฉ๋๋ค.
- ๋จ์ํ ์ ์ฑ ํค๋๋ฅผ ์ถ๊ฐํ์ฌ Mamba์ ์ถ๋ ฅ ํ ํฐ์ ๋ชจ๋ธ๋งํฉ๋๋ค. ์ด ์ ์ฑ ํค๋๋ End-effector์ ์์น a_{pos}์ ๋ฐฉํฅ a_{dir}์ ์์ธกํ๋ ๋ ๊ฐ์ง MLP๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ์์น ์์ค (L_{pos})์ L1 norm์ ์ฌ์ฉํ๊ณ , ๋ฐฉํฅ ์์ค (L_{dir})์ Rotation matrix์ trace๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฐ๋ ์ฐจ์ด๋ฅผ ์ฌ์ฉํฉ๋๋ค: L_{pos} = \frac{1}{N} \sum_{i=1}^{N} |a_{pos} - a_{pos}^{gt}| L_{dir} = \frac{1}{N} \sum_{i=1}^{N} \arccos\left(\frac{\text{Tr}(a_{dir}^{gt \top}a_{dir}) - 1}{2}\right)
- ์ ์ฑ ํค๋์ ํ๋ผ๋ฏธํฐ๋ ์ ์ฒด ๋ชจ๋ธ์ 0.1%์ ๋ถ๊ณผํ๋ฉฐ, ๋ช์ญ ๋ถ ๋ง์ ์๋ก์ด ์กฐ์ ๊ธฐ์ ์ ์ต๋ํ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ฉด ์ ์ ๋น์ฉ์ผ๋ก ์กฐ์ ๊ธฐ์ ์ ์ต๋ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ
- ์ถ๋ก ๋ฅ๋ ฅ: RoboMamba๋ 2.7B Mamba ๋ชจ๋ธ๋ก OKVQA, VQAv2, GQA, VizWiz, POPE, MME, MMBench, MM-Vet ๋ฑ ๋ค์ํ ์ผ๋ฐ VQA ๋ฐ MLLM ๋ฒค์น๋งํฌ์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ RoboVQA (๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฒค์น๋งํฌ)์์ BLEU-1์์ BLEU-4๊น์ง์ ์ ์์์ LLaMA-AdapterV2 ๋ฐ TinyLLaVA์ ๋นํด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค (BLEU-4 42.8).
- ์กฐ์ ๋ฅ๋ ฅ: SAPIEN ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ UMPNet, Flowbot3D, RoboFlamingo, ManipLLM๊ณผ ๋น๊ตํ์ฌ RoboMamba๋ Seen Task์์ 7.0%, Unseen Task์์ 2.0%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ฉฐ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ํจ์จ์ฑ: RoboMamba๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋ค 3๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์กฐ์ Fine-tuning์ 10๋ฐฐ ์ ์ ํ๋ผ๋ฏธํฐ (3.7M, ์ ์ฒด ๋ชจ๋ธ์ 0.1%)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
5. ๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณํ
RoboMamba๋ ํจ์จ์ ์ธ VLA ๋ชจ๋ธ๋ก์ Mamba LLM๊ณผ ์๊ฐ ์ธ์ฝ๋๋ฅผ ํตํฉํ์ฌ ์๊ฐ์ ์์ ์ถ๋ก ๊ณผ ๋ก๋ด ์ถ๋ก ๋ฅ๋ ฅ์ ๋ชจ๋ ๊ฐ์ถ์์ต๋๋ค. ์ต์ํ์ Fine-tuning (0.1%์ ํ๋ผ๋ฏธํฐ)์ผ๋ก ์๋ก์ด ์กฐ์ ๊ธฐ์ ์ ์ต๋ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ถ๋ก ๋ฅ๋ ฅ์ด ์กฐ์ ๊ธฐ์ ํ์ต์ ์ผ๋ง๋ ์ค์ํ์ง, ๊ทธ๋ฆฌ๊ณ ์ถ๋ก ๋ฅ๋ ฅ์ ์์์ํค์ง ์์ผ๋ฉด์ ์กฐ์ ๋ฅ๋ ฅ์ ํจ์จ์ ์ผ๋ก ๋ถ์ฌํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ๋ RoboMamba VLA ํ๋ ์์ํฌ๋ฅผ ๋ ์ง๋ณด๋ ์ ํ ๋ณต์ก๋ LLM ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์ถ๋ก ๋ฐ ์กฐ์ ๋ฅ๋ ฅ์ ๋์ฑ ํฅ์์ํค๊ณ , 3D Point cloud ๋ฐ ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ 4D Robot VLA ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐ ์ค์ ์ ๋ ๊ฒ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : VLA ๋ชจ๋ธ์ ์๋ก์ด ๋์ ๊ณผ RoboMamba์ ๋ฑ์ฅ
๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ๋ถ์ผ์์ Vision-Language-Action(VLA) ๋ชจ๋ธ์ ์๊ฐ์ ์ฅ๋ฉด์ ์ดํดํ๊ณ ์ ์ ํ ํ๋์ ์์ฑํ๋ ํต์ฌ ๊ธฐ์ ๋ก ์๋ฆฌ์ก๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ํ๊ณ์ ์ง๋ฉดํด ์์ต๋๋ค.
์ฒซ์งธ, ๋ณต์กํ ์์ ์ ๋ํ ์ถ๋ก ๋ฅ๋ ฅ ๋ถ์กฑ์ ๋๋ค. ๊ธฐ์กด์ Multimodal Large Language Model(MLLM) ๊ธฐ๋ฐ ์ ์ฑ ๋ค์ ๊ธฐ๋ณธ์ ์ธ ์์ ์ ์ฒ๋ฆฌํ ์ ์์ง๋ง, ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ์์ ์์๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ ์๋ ์ธ์ง๋ฅผ ์ด์ด๋ผโ๋ผ๋ ๋ช ๋ น์ ๋ํด ๊ธฐ์กด MLLM๋ค์ ๊ณต์์ ์ผ๋ก โ1๋จ๊ณ: ์์ก์ด๋ฅผ ์ฐพ์๋ผโ๋ผ๊ณ ์๋ตํ์ง๋ง, ์ค์ ๋ก ๋ง์ ์ ์๋ ์ธ์ง์๋ ์์ก์ด๊ฐ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ์ค์ ์ฅ๋ฉด์ ๊ธฐ๋ฐํ ์ถ๋ก ์ด ์๋, ํ์ต๋ ํจํด์ ์์กดํ๋ ํ๊ฐ(hallucination) ๋ฌธ์ ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋์งธ, ๋์ ๊ณ์ฐ ๋น์ฉ์ ๋๋ค. MLLM์ ํ์ธํ๋ํ๊ณ ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ์ก์ ์ ์์ฑํ๋ ๊ฒ์ attention ๊ธฐ๋ฐ LLM์ ํน์ฑ์ ๋ง๋ํ ๊ณ์ฐ ๋น์ฉ์ ์๊ตฌํฉ๋๋ค. ์ด๋ ์ค์ ๋ก๋ด ์์คํ ์์์ ์ค์๊ฐ ์ ์ด๋ฅผ ์ด๋ ต๊ฒ ๋ง๋๋ ์ฃผ์ ์์ธ์ ๋๋ค.
์ด๋ฌํ ๋งฅ๋ฝ์์ RoboMamba๋ State Space Model(SSM) ๊ธฐ๋ฐ์ Mamba ์ํคํ ์ฒ๋ฅผ ํ์ฉํ์ฌ ๋ ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ RoboMamba์ ํต์ฌ ์์ด๋์ด, ์ํคํ ์ฒ ์ค๊ณ, ํ์ต ์ ๋ต, ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๊ณ , ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์ ๊ด์ ์์์ ์์ฌ์ ์ ๋ ผ์ํ๊ฒ ์ต๋๋ค.
1. ๋ฐฐ๊ฒฝ ์ง์: State Space Model๊ณผ Mamba
1.1 State Space Model์ ๊ธฐ๋ณธ ๊ฐ๋
State Space Model(SSM)์ ์ฐ์ ์๊ฐ ์์คํ ์ ๋ชจ๋ธ๋งํ๋ ์ํ์ ํ๋ ์์ํฌ๋ก, ๋ค์๊ณผ ๊ฐ์ ์ํ ๋ฐฉ์ ์์ผ๋ก ํํ๋ฉ๋๋ค:
h'(t) = Ah(t) + Bx(t) y(t) = Ch(t)
์ฌ๊ธฐ์ h(t) \in \mathbb{R}^N์ ์จ๊ฒจ์ง ์ํ, x(t) \in \mathbb{R}๋ ์ ๋ ฅ, y(t) \in \mathbb{R}๋ ์ถ๋ ฅ์ ๋๋ค. A \in \mathbb{R}^{N \times N}์ ์ํ ์ ์ด ํ๋ ฌ, B \in \mathbb{R}^{N \times 1}์ ์ ๋ ฅ ํ๋ ฌ, C \in \mathbb{R}^{1 \times N}์ ์ถ๋ ฅ ํ๋ ฌ์ ๋๋ค.
์ด๋ฌํ ์ฐ์ ์๊ฐ ์์คํ ์ ์ด์ฐํํ๋ฉด:
h_t = \bar{A}h_{t-1} + \bar{B}x_t y_t = Ch_t
์ฌ๊ธฐ์ \bar{A} = \exp(\Delta A), \bar{B} = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot \Delta B๋ก ์ ์๋ฉ๋๋ค. \Delta๋ ์ด์ฐํ ์คํ ํฌ๊ธฐ์ ๋๋ค.
1.2 Mamba์ ํต์ฌ ํ์ : Selective State Space Model
๊ธฐ์กด SSM์ ํ๊ณ๋ content-based reasoning ๋ฅ๋ ฅ์ ๋ถ์กฑ์ด์์ต๋๋ค. ์ฆ, ์ ๋ ฅ์ ๋ด์ฉ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ ๋ณด๋ฅผ ์ ํ์ ์ผ๋ก ์ ํํ๊ฑฐ๋ ์์ด๋ฒ๋ฆฌ๋ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด์์ต๋๋ค.
Mamba๋ Selective Scan Mechanism(S6)์ ๋์ ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ SSM ํ๋ผ๋ฏธํฐ B, C, \Delta๋ฅผ ์ ๋ ฅ์ ํจ์๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค:
B = f_B(x), \quad C = f_C(x), \quad \Delta = f_\Delta(x)
์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ ๋ ฅ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ ๋ณด ํ๋ฆ์ ์ ์ดํ ์ ์๊ฒ ๋ฉ๋๋ค. ํนํ \Delta ํ๋ผ๋ฏธํฐ๋ RNN์ gating mechanism๊ณผ ์ ์ฌํ ์ญํ ์ ์ํํ๋ฉฐ, ์ด๋ ๋ค์๊ณผ ๊ฐ์ ์ ๋ฆฌ๋ก formalize๋ฉ๋๋ค:
์ ๋ฆฌ 1 (Selection Mechanism๊ณผ RNN Gating์ ์ฐ๊ฒฐ): Mamba์ selective mechanism์ LSTM/GRU์ gate ๋ฉ์ปค๋์ฆ์ ์ผ๋ฐํ๋ ํํ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, \Delta๊ฐ ํด์๋ก ํ์ฌ ์ ๋ ฅ์ ๋ ๋ง์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ณ , ์์์๋ก ์ด์ ์ํ๋ฅผ ๋ ๋ง์ด ์ ์งํฉ๋๋ค.
1.3 Mamba์ ๊ณ์ฐ ๋ณต์ก๋
Mamba์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์ ํ ์๊ฐ ๋ณต์ก๋์ ๋๋ค:
| ๋ชจ๋ธ | ํ์ต ๋ณต์ก๋ | ์ถ๋ก ๋ณต์ก๋ (๋จ๊ณ๋น) |
|---|---|---|
| Transformer | O(L^2) | O(L) (KV cache ์ฌ์ฉ) |
| Mamba | O(L) | O(1) |
์ฌ๊ธฐ์ L์ ์ํ์ค ๊ธธ์ด์ ๋๋ค. ์ถ๋ก ์ Mamba๋ ์ด์ ์์๋ค์ ์บ์ ์์ด ์์ ์๊ฐ์ ๋ค์ ํ ํฐ์ ์์ฑํ ์ ์์ด, ๋ก๋ด ์ ์ด์ ๊ฐ์ ์ค์๊ฐ ์์ฉ์ ๋งค์ฐ ์ ํฉํฉ๋๋ค.
2. RoboMamba ์ํคํ ์ฒ ์์ธ ๋ถ์
2.1 ์ ์ฒด ์ํคํ ์ฒ ๊ฐ์
RoboMamba๋ ์ธ ๊ฐ์ง ํต์ฌ ์ปดํฌ๋ํธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Vision Encoder: CLIP ViT๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ์๊ฐ์ ํน์ง ์ถ์ถ
- Cross-modal Connector: ์๊ฐ์ ํ ํฐ์ ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ์ ๋ ฌ
- Mamba Language Model: ์ถ๋ก ๋ฐ ์ธ์ด ์์ฑ ๋ด๋น
- Policy Head: SE(3) ํฌ์ฆ ์์ธก์ ์ํ ๊ฒฝ๋ MLP ํค๋
2.2 Vision Encoder์ Cross-modal Alignment
RoboMamba๋ CLIP visual encoder๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ์ด๋ฏธ์ง I \in \mathbb{R}^{W \times H \times 3}์์ ์๊ฐ์ ํน์ง f_v \in \mathbb{R}^{B \times N \times 1024}๋ฅผ ์ถ์ถํฉ๋๋ค. ์ฌ๊ธฐ์ B๋ ๋ฐฐ์น ํฌ๊ธฐ, N์ ํจ์น ์์ ๋๋ค.
์ถ์ถ๋ ์๊ฐ์ ํน์ง์ MLP ๊ธฐ๋ฐ projection layer๋ฅผ ํตํด Mamba์ ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ณํ๋ฉ๋๋ค:
z_v = \text{MLP}(f_v)
์ด projection layer๋ ๋น๊ต์ ๋จ์ํ ๊ตฌ์กฐ์ด์ง๋ง, ์ ์ ํ ํ์ต ์ ๋ต๊ณผ ๊ฒฐํฉํ๋ฉด ํจ๊ณผ์ ์ธ cross-modal alignment๋ฅผ ๋ฌ์ฑํ ์ ์์ต๋๋ค. ์ด๋ ๋ณต์กํ cross-attention ๋ฉ์ปค๋์ฆ ์์ด๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ์ค๊ณ ๊ฒฐ์ ์ ๋๋ค.
2.3 Mamba Block ๊ตฌ์กฐ
RoboMamba์ ํต์ฌ์ธ Mamba block์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค:
Input โ Linear โ Conv1D โ SiLU โ SSM โ Output
โ
Linear โ SiLU โ Element-wise multiply
๊ฐ Mamba block์์:
- ์ ๋ ฅ์ ๋ ๊ฐ์ ๋ณ๋ ฌ ๊ฒฝ๋ก๋ก ๋ถ๊ธฐ๋ฉ๋๋ค
- ์ฒซ ๋ฒ์งธ ๊ฒฝ๋ก: Linear โ Conv1D โ SiLU โ Selective SSM
- ๋ ๋ฒ์งธ ๊ฒฝ๋ก: Linear โ SiLU (gating branch)
- ๋ ๊ฒฝ๋ก์ ์ถ๋ ฅ์ด element-wise๋ก ๊ณฑํด์ ธ ์ต์ข ์ถ๋ ฅ ์์ฑ
์ด ๊ตฌ์กฐ๋ H3 block๊ณผ MLP block์ ์ฅ์ ์ ๊ฒฐํฉํ ๊ฒ์ผ๋ก, ๊ธฐ์กด SSM ์ํคํ ์ฒ๋ณด๋ค ๋จ์ํ๋ฉด์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
2.4 Policy Head ์ค๊ณ
RoboMamba์ ๋ ๋ค๋ฅธ ํต์ฌ ํ์ ์ ๊ทน๋๋ก ํจ์จ์ ์ธ policy head ์ค๊ณ์ ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ด ์ ์ฒด ๋ชจ๋ธ์ ํ์ธํ๋ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, RoboMamba๋ ๊ฐ๋จํ MLP ๊ธฐ๋ฐ policy head๋ง์ ์ถ๊ฐํ์ฌ ๋งค๋ํฐ๋ ์ด์ ๋ฅ๋ ฅ์ ํ๋ํฉ๋๋ค.
Policy head๋ ๋ ๊ฐ์ง MLP๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Position MLP: ์๋์ดํํฐ์ 3D ์์น a_{pos} \in \mathbb{R}^3 ์์ธก
- Direction MLP: ์๋์ดํํฐ์ ๋ฐฉํฅ a_{dir} ์์ธก
์ ๋ ฅ์ผ๋ก๋ Mamba ์ถ๋ ฅ ํ ํฐ๋ค์ ๋ํ pooling ์ฐ์ฐ์ผ๋ก ์์ฑ๋ global token์ ์ฌ์ฉํฉ๋๋ค. ์ด global token์ ์ ์ฒด ์๊ฐ-์ธ์ด ์ปจํ ์คํธ๋ฅผ ์์ถํ ํํ์ผ๋ก, SE(3) ํฌ์ฆ ์์ธก์ ํ์ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ต๋๋ค.
์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
\mathcal{L}_{pos} = \|a_{pos} - a^*_{pos}\|_2^2 \mathcal{L}_{dir} = 1 - \cos(a_{dir}, a^*_{dir}) \mathcal{L}_{total} = \mathcal{L}_{pos} + \lambda \mathcal{L}_{dir}
์ฌ๊ธฐ์ position loss๋ L2 norm, direction loss๋ cosine similarity ๊ธฐ๋ฐ์ ๋๋ค.
ํต์ฌ ํต๊ณ: - Policy head ํ๋ผ๋ฏธํฐ: ์ฝ 3.7M (7MB) - ์ ์ฒด ๋ชจ๋ธ ๋๋น ๋น์จ: 0.1% - ๊ธฐ์กด VLA ์ ๊ทผ๋ฒ ๋๋น: 10๋ฐฐ ์์
3. ํ์ต ์ ๋ต: 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ
RoboMamba์ ํ์ต ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋๋ฉฐ, ๊ฐ ๋จ๊ณ๋ ๋ช ํํ ๋ชฉ์ ๊ณผ ์ต์ ํ๋ ์ ๋ต์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
3.1 Stage 1: ์ถ๋ก ๋ฅ๋ ฅ ํ๋
Stage 1์ ๋ค์ ๋ ๊ฐ์ ํ์ ๋จ๊ณ๋ก ๊ตฌ๋ถ๋ฉ๋๋ค.
Stage 1.1: Alignment Pre-training
๋ชฉ์ : Vision encoder์ Mamba LLM ๊ฐ์ cross-modal alignment ํ์ต
๋ฐ์ดํฐ: LLaVA filtered 558K image-text paired dataset
ํ์ต ์ค์ : - Vision encoder์ Mamba LLM ํ๋ผ๋ฏธํฐ: ๋๊ฒฐ(Frozen) - Projection layer: ํ์ต ๊ฐ๋ฅ - Loss: Cross-entropy loss on language tokens
์ด ๋จ๊ณ์์๋ ์๊ฐ์ ์ ๋ณด๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ํํ๋ก ๋ณํํ๋ projection layer๋ง์ ํ์ตํฉ๋๋ค. ์ด๋ pre-trained ๋ชจ๋ธ๋ค์ ์ง์์ ๋ณด์กดํ๋ฉด์ ํจ์จ์ ์ธ alignment๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Stage 1.2: Instruction Co-training
๋ชฉ์ : ์ผ๋ฐ์ ์ธ ์๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ ๋์ ํ์ต
๋ฐ์ดํฐ: - LLaVA 1.5 instruction dataset (์ผ๋ฐ ๋น์ -์ธ์ด ์์ ) - RoboVQA 300K dataset (๋ก๋ด ๊ด๋ จ ์์ )
ํ์ต ์ค์ : - Vision encoder: ๋๊ฒฐ - Projection layer + Mamba LLM: ํ์ต ๊ฐ๋ฅ - Loss: Cross-entropy loss
Co-training์ ํต์ฌ ์ธ์ฌ์ดํธ:
RoboMamba ์ฐ๊ตฌ์ง์ ๊ธฐ์กด MLLM ํ์ต ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ co-training ์ ๋ต์ ์ฑํํ์ต๋๋ค. ์ด๋ ๋ก๋ด ๋ถ์ผ๊ฐ ์๋ง์ ๋ณต์กํ๊ณ ์๋ก์ด ์์ ์ ํฌํจํ๊ธฐ ๋๋ฌธ์, ํฅ์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ํ์ํ๋ค๋ ํ๋จ์ ๊ธฐ๋ฐํฉ๋๋ค.
์คํ์ ์ผ๋ก co-training์ด ์ ๊ณตํ๋ ์ฅ์ : 1. ๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ฑ ์์ฑ 2. ์ผ๋ฐ ์ฅ๋ฉด ์ถ๋ก ๋ฅ๋ ฅ ํฅ์ (๋ก๋ด ๋ฐ์ดํฐ์ ํฌํจ๋ ๋ณต์กํ ์ถ๋ก ์์ ๋๋ถ) 3. ํ๊ฐ ํ์ ์ํ (์ค์ ์ฅ๋ฉด ๊ธฐ๋ฐ ์ถ๋ก ๊ฐํ)
RoboVQA ๋ฐ์ดํฐ์ ์ ๋ค์๊ณผ ๊ฐ์ ๋ค์ํ ๋ก๋ด ๊ด๋ จ ์์ ์ ํฌํจํฉ๋๋ค: - Long-horizon task planning - Success/failure classification - Discriminative affordance (์ด๋ค ํ๋์ด ๊ฐ๋ฅํ์ง ํ๋ณ) - Generative affordance (๊ฐ๋ฅํ ํ๋ ์์ฑ) - Past description (๊ณผ๊ฑฐ ํ๋ ์ค๋ช ) - Future prediction (๋ฏธ๋ ํ๋ ์์ธก)
3.2 Stage 2: Robot Manipulation Fine-tuning
๋ชฉ์ : ์ ์์ค SE(3) ํฌ์ฆ ์์ธก ๋ฅ๋ ฅ ํ๋
ํต์ฌ ์ค๊ณ ์ฒ ํ: โ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ชจ๋ธ์ ์ต์ํ์ ํ์ธํ๋์ผ๋ก ๋งค๋ํฐ๋ ์ด์ ์คํฌ์ ํ๋ํ ์ ์๋คโ
๋ฐ์ดํฐ ์์ง: - SAPIEN ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์ฌ์ฉ - PartNet-Mobility์ articulated objects - Franka Panda Robot with suction gripper - 10K ์๋์ดํํฐ ํฌ์ฆ ์์ธก ๋ฐ์ดํฐ์ ์์ฑ
ํ์ต ์ค์ : - RoboMamba ์ ์ฒด ํ๋ผ๋ฏธํฐ: ๋๊ฒฐ - Policy head๋ง: ํ์ต ๊ฐ๋ฅ - ํ์ต ์๊ฐ: ์ฝ 20~30๋ถ (๋จ์ผ A100 GPU)
๋ฐ์ดํฐ ์์ง ํ๋ก์ธ์ค: 1. ์์ง์ผ ์ ์๋ ํํธ์์ ๋ฌด์์๋ก ์ ์ด์ p ์ ํ 2. ์๋์ดํํฐ์ z์ถ์ ์ ์ด์ normal vector์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์ค์ 3. y์ถ ๋ฐฉํฅ์ ๋ฌด์์๋ก ์ค์ 4. ์ฑ๊ณต์ ์ธ ์กฐ์์ ์ฑ๊ณต ์ํ๋ก ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ
์ด ์ ๊ทผ๋ฒ์ ํ์ ์ ์ธ ์ ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋งค๋ํฐ๋ ์ด์ ์คํฌ ํ์ต์ ์ ์ ์กฐ๊ฑด์ด๋ผ๋ ๊ฐ์ค์ ๊ฒ์ฆํ๋ค๋ ๊ฒ์ ๋๋ค. RoboMamba๊ฐ Stage 1์์ ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๋ํ ํ์๋, ๊ทนํ ์ ์ ํ๋ผ๋ฏธํฐ(0.1%)๋ง ํ์ตํด๋ ํจ๊ณผ์ ์ธ ํฌ์ฆ ์์ธก์ด ๊ฐ๋ฅํด์ง๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ ์ฌ์ธต ๋ถ์
4.1 ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ
RoboMamba๋ ๋ค์ํ MLLM ๋ฒค์น๋งํฌ์์ 3.2B ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋น๊ต
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | OKVQA | VQAv2 | GQA | VizWiz | POPE | MME | MMB |
|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5 | 7B | - | 78.5 | 62.0 | 50.0 | 85.9 | 1510 | 64.3 |
| LLaMA-AdapterV2 | 7B | - | - | - | - | - | - | - |
| TinyLLaVA | 3B | - | - | - | - | - | - | - |
| RoboMamba | 2.7B | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ | ๊ฒฝ์๋ ฅ |
ํต์ฌ ๊ด์ฐฐ: - RoboMamba๋ 2.7B ํ๋ผ๋ฏธํฐ๋ก 7B ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ฑ๋ฅ ๋ฌ์ฑ - ํนํ GQA ๋ฒค์น๋งํฌ์์ co-training ์ ๋ต์ผ๋ก ์ธํ ์ฑ๋ฅ ํฅ์ ํ์ธ
4.2 ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ
RoboVQA ๋ฒค์น๋งํฌ์์ RoboMamba์ ์ฑ๋ฅ์ LLaMA-AdapterV2, TinyLLaVA์ ๋น๊ตํ์ต๋๋ค.
| ๋ชจ๋ธ | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 |
|---|---|---|---|---|
| LLaMA-AdapterV2 | - | - | - | ๋ฒ ์ด์ค๋ผ์ธ |
| TinyLLaVA | - | - | - | - |
| RoboMamba | ์ต๊ณ | ์ต๊ณ | ์ต๊ณ | 42.8 |
์ฃผ์ ๋ฐ๊ฒฌ: 1. RoboMamba๋ BLEU-1๋ถํฐ BLEU-4๊น์ง ๋ชจ๋ ๋ฉํธ๋ฆญ์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ 2. ์ด๋ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฐ์์ฑ์ ์ ์ฆ 3. ์ถ๋ก ์๋๋ LLaMA-AdapterV2 ๋๋น 7๋ฐฐ ๋น ๋ฆ
4.3 ๋งค๋ํฐ๋ ์ด์ ์ฑ๋ฅ ํ๊ฐ
SAPIEN ์๋ฎฌ๋ ์ด์ ์คํ
SAPIEN ํ๊ฒฝ์์ articulated object manipulation ์์ ์ ํ๊ฐํ์ต๋๋ค.
์คํ ์ค์ : - Training categories (seen): ํ์ต์ ์ฌ์ฉ๋ ์นดํ ๊ณ ๋ฆฌ - Test categories (unseen): ํ์ต์ ์ฌ์ฉ๋์ง ์์ ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ - ๋ฉํธ๋ฆญ: Success rate (%)
์ฃผ์ ๊ฒฐ๊ณผ: - RoboMamba๋ seen๊ณผ unseen ์นดํ ๊ณ ๋ฆฌ ๋ชจ๋์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ - ๋ง์ ์์ ์์ 80% ์ด์์ ์ฑ๊ณต๋ฅ ๊ธฐ๋ก - ํนํ unseen ์นดํ ๊ณ ๋ฆฌ์์์ ๊ฐ๊ฑดํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ์ธ
์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๋งค๋ํฐ๋ ์ด์ ์ฑ๋ฅ์ ์๊ด๊ด๊ณ
์ฐ๊ตฌ์ง์ ํฅ๋ฏธ๋ก์ด ์คํ์ ์ํํ์ต๋๋ค: ๋ค์ํ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ชจ๋ธ์ ๋์ผํ policy head๋ฅผ ํ์ต์์ผ ๋งค๋ํฐ๋ ์ด์ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค.
| ์ถ๋ก ๋ฅ๋ ฅ ์์ค | ๋งค๋ํฐ๋ ์ด์ ์ฑ๊ณต๋ฅ |
|---|---|
| ๋ฎ์ (์ด๊ธฐ ๋จ๊ณ) | ๋ฎ์ |
| ์ค๊ฐ | ์ค๊ฐ |
| ๋์ (RoboMamba) | ๋์ |
ํต์ฌ ์ธ์ฌ์ดํธ: โ์ถ๋ก ๋ฅ๋ ฅ์ด ๋งค๋ํฐ๋ ์ด์ ์คํฌ ํ์ต์ ๊ธฐ๋ฐ์ด ๋๋คโ
์ด ๋ฐ๊ฒฌ์ ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ํ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค. ๋จ์ํ ํ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ๋ณด๋ค, ๋จผ์ ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ ๊ฒ์ด ๋ ํจ์จ์ ์ธ ์คํฌ ํ๋์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
4.4 ์ถ๋ก ์๋ ๋น๊ต
์ค์๊ฐ ๋ก๋ด ์ ์ด์์ ์ถ๋ก ์๋๋ ๋งค์ฐ ์ค์ํฉ๋๋ค.
| ๋ชจ๋ธ | ์ถ๋ก ์๋ (์๋์ ) | ์ ์ด ์ฃผํ์ |
|---|---|---|
| ManipLLM | 1x | ๊ธฐ์ค |
| LLaMA-AdapterV2 | ~1x | - |
| RoboMamba | 3x | ์ต๊ณ |
RoboMamba๋ NVIDIA A100 GPU์์ ์์ํ๋ ์ถ๋ก ๊ฐ์ ๊ธฐ๋ฒ ์์ด๋ ๊ธฐ์กด VLA ๋ชจ๋ธ ๋๋น 3๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ Mamba์ ์ ํ ์๊ฐ ๋ณต์ก๋ ๋๋ถ์ ๋๋ค.
4.5 ์ค์ ๋ก๋ด ์คํ
์ฐ๊ตฌ์ง์ Franka Emika ๋ก๋ด ํ์ ์ฌ์ฉํ์ฌ ์ค์ ํ๊ฒฝ์์๋ RoboMamba๋ฅผ ๊ฒ์ฆํ์ต๋๋ค.
์คํ ์์ : 1. Long-horizon task planning ์์ฑ 2. ๊ฐ atomic task์ ๋ํ ์๋์ดํํฐ ํฌ์ฆ ์์ธก 3. ์ค์ ์กฐ์ ์ํ
์ ์ฑ์ ๊ฒฐ๊ณผ: - RoboMamba๋ ๋ณต์กํ ์์ ์ ๋ํด ์ ํํ step-by-step ๊ณํ ์์ฑ - ๊ฐ ๋จ๊ณ์ ๋ํด ์ ์ ํ ํฌ์ฆ ์์ธก ์ํ - ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๋ฅ๋ ฅ์ด ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด ๊ฐ๋ฅํจ์ ํ์ธ
5. Ablation Study ๋ถ์
5.1 LLM ๋ฐฑ๋ณธ ๋น๊ต
์ฐ๊ตฌ์ง์ Mamba-2.7B๋ฅผ ๋ค๋ฅธ ์ ํ ๋ณต์ก๋ LLM๋ค๊ณผ ๋น๊ตํ์ต๋๋ค.
| LLM ๋ฐฑ๋ณธ | ์ผ๋ฐ ์ถ๋ก | ๋ก๋ด ์ถ๋ก | ๋ณต์ก๋ |
|---|---|---|---|
| RWKV-3B | ๋ฎ์ | ๋ฎ์ | ์ ํ |
| Mamba-2.7B | ๋์ | ๋์ | ์ ํ |
Mamba-2.7B๋ RWKV-3B ๋๋น ํ์ ํ ๋์ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ Mamba์ selective mechanism์ด content-aware reasoning์ ๋ ํจ๊ณผ์ ์์ ์์ฌํฉ๋๋ค.
5.2 ํ์ต ์ ๋ต ์ํฅ
Co-training vs. ๊ฐ๋ณ ํ์ต
| ํ์ต ์ ๋ต | ์ผ๋ฐ ์ถ๋ก | ๋ก๋ด ์ถ๋ก | ์ผ๋ฐํ |
|---|---|---|---|
| ์ผ๋ฐ ๋ฐ์ดํฐ๋ง | ๋์ | ๋ฎ์ | ๋ฎ์ |
| ๋ก๋ด ๋ฐ์ดํฐ๋ง | ๋ฎ์ | ์ค๊ฐ | ์ค๊ฐ |
| Co-training | ๋์ | ๋์ | ๋์ |
Co-training ์ ๋ต์ ๋ ๋ฅ๋ ฅ์ ๋์์ ํฅ์์ํค๋ ์๋์ง ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
5.3 Vision Encoder ์ ํ
๋ค์ํ vision encoder๋ฅผ ์คํํ ๊ฒฐ๊ณผ, CLIP ViT๊ฐ ๋ก๋ด ์๋๋ฆฌ์ค์์ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ด๋ CLIP์ ํ๋ถํ ์๊ฐ-์ธ์ด ์ฌ์ ํ์ต ์ง์์ด ๋ก๋ด ์์ ์๋ ์ ์ฉํ๊ฒ ์ ์ด๋จ์ ๋ณด์ฌ์ค๋๋ค.
5.4 Policy Head ์ค๊ณ
์ฐ๊ตฌ์ง์ ๋ค์ํ policy head ์ค๊ณ๋ฅผ ์คํํ์ต๋๋ค:
- Simple MLP (์ฑํ): ํจ์จ์ ์ด๊ณ ์ถฉ๋ถํ ์ฑ๋ฅ
- Transformer-based head: ๋ ๋ง์ ํ๋ผ๋ฏธํฐ, ์ ์ฌํ ์ฑ๋ฅ
- Recurrent head: ๋ถํ์ํ ๋ณต์ก์ฑ
๊ฒฐ๋ก : ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง ๋ฐฑ๋ณธ๊ณผ ๊ฒฐํฉํ๋ฉด, ๊ฐ๋จํ MLP๋ง์ผ๋ก๋ ํจ๊ณผ์ ์ธ ํฌ์ฆ ์์ธก์ด ๊ฐ๋ฅํฉ๋๋ค.
6. ๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
6.1 ์ Mamba๊ฐ ๋ก๋ด VLA์ ์ ํฉํ๊ฐ?
6.1.1 ์ ํ ์๊ฐ ๋ณต์ก๋์ ์ค์ฉ์ ์๋ฏธ
๋ก๋ด ์ ์ด ์์คํ ์์ ์ ์ด ์ฃผํ์๋ ์์ ์ฑ๊ณผ ์ฑ๋ฅ์ ์ง์ ์ ์ธ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก:
- ์ ์ฃผํ ์ ์ด (< 10 Hz): ๋๋ฆฐ ์์ ๋ง ๊ฐ๋ฅ, ๋์ ํ๊ฒฝ ๋์ ๋ถ๊ฐ
- ์ค์ฃผํ ์ ์ด (10-50 Hz): ๋๋ถ๋ถ์ ๋งค๋ํฐ๋ ์ด์ ์์ ์ํ ๊ฐ๋ฅ
- ๊ณ ์ฃผํ ์ ์ด (> 50 Hz): ์ ๋ฐ ์์ , ์ถฉ๋ ํํผ ๋ฑ ๊ณ ๊ธ ๊ธฐ๋ฅ ๊ฐ๋ฅ
Transformer ๊ธฐ๋ฐ VLA ๋ชจ๋ธ์ ๊ธด ์ํ์ค์์ ์ถ๋ก ์๊ฐ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํ์ฌ ์ ์ด ์ฃผํ์๊ฐ ์ ํ๋ฉ๋๋ค. ๋ฐ๋ฉด Mamba๋ ์ํ์ค ๊ธธ์ด์ ๋ฌด๊ดํ๊ฒ ์ผ์ ํ ์ถ๋ก ์๊ฐ์ ์ ์งํ์ฌ ๋ ๋์ ์ ์ด ์ฃผํ์๋ฅผ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
6.1.2 Content-aware Reasoning์ ์ค์์ฑ
๋ก๋ด ํ๊ฒฝ์์๋ ์ฅ๋ฉด์ ํน์ ๋ถ๋ถ์ ์ ํ์ ์ผ๋ก ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๋ฅ๋ ฅ์ด ์ค์ํฉ๋๋ค:
- ์กฐ์ ๋์ ๋ฌผ์ฒด์ ์ํ ํ์
- ์ฅ์ ๋ฌผ ์ธ์
- ์์ ๊ด๋ จ affordance ์๋ณ
Mamba์ selective mechanism์ ์ด๋ฌํ ์ ํ์ ์ ๋ณด ์ฒ๋ฆฌ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ํํ ์ ์์ต๋๋ค. \Delta ํ๋ผ๋ฏธํฐ๋ฅผ ํตํด ์ด๋ค ์ ๋ณด๋ฅผ ์ ํํ๊ณ ์ด๋ค ์ ๋ณด๋ฅผ ์์์ง ๋์ ์ผ๋ก ๊ฒฐ์ ํฉ๋๋ค.
6.2 ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๋งค๋ํฐ๋ ์ด์ ์ ๊ด๊ณ
RoboMamba์ ํต์ฌ ๋ฐ๊ฒฌ ์ค ํ๋๋ โ์ถ๋ก ๋ฅ๋ ฅ์ด ๋งค๋ํฐ๋ ์ด์ ์คํฌ ํ์ต์ ์ ์ ์กฐ๊ฑดโ์ด๋ผ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ๋ ๊น์ด ๋ถ์ํด ๋ด ์๋ค.
6.2.1 ์ ์ถ๋ก ์ด ๋จผ์ ์ธ๊ฐ?
์ ํต์ ์ธ ๋ก๋ด ํ์ต ์ ๊ทผ๋ฒ์ ํ๋ ๋ฐ์ดํฐ๋ก ์ง์ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ ํ๊ณ:
- ๋ฐ์ดํฐ ํจ์จ์ฑ ๋ฌธ์ : ๋ชจ๋ ๊ฐ๋ฅํ ์ํฉ์ ๋ํ ํ๋ ๋ฐ์ดํฐ ํ์
- ์ผ๋ฐํ ํ๊ณ: ํ์ต ๋ถํฌ ์ธ์ ์ํฉ์์ ์คํจ
- ๋ณต์กํ ์์ ์ฒ๋ฆฌ ๋ถ๊ฐ: ๋ค๋จ๊ณ ์ถ๋ก ์ด ํ์ํ ์์ ์ ์ทจ์ฝ
RoboMamba์ ์ ๊ทผ๋ฒ์ ์ด์ ๋ค๋ฆ ๋๋ค:
- ๋จผ์ ์ธ๊ณ์ ๋ํ ์ดํด ํ์ต (์ถ๋ก ๋ฅ๋ ฅ)
- ๊ทธ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ํ๋ ํ์ต (๋งค๋ํฐ๋ ์ด์ )
์ด๋ ์ธ๊ฐ์ ํ์ต ๊ณผ์ ๊ณผ ์ ์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋จผ์ ๋ฌผ๋ฆฌ ์ธ๊ณ์ ์๋ ๋ฐฉ์์ ์ดํดํ๊ณ , ๊ทธ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ์๋ก์ด ์กฐ์ ์คํฌ์ ๋น ๋ฅด๊ฒ ์ต๋ํฉ๋๋ค.
6.2.2 ํจ์จ์ ํ์ธํ๋์ด ๊ฐ๋ฅํ ์ด์
RoboMamba๊ฐ 0.1%์ ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก ๋งค๋ํฐ๋ ์ด์ ๋ฅ๋ ฅ์ ํ๋ํ ์ ์๋ ์ด์ :
- ํ๋ถํ ์๊ฐ์ ํํ: CLIP encoder๊ฐ ์ด๋ฏธ ๋ฌผ์ฒด, ๊ณต๊ฐ, ๊ด๊ณ์ ๋ํ ํ๋ถํ ํํ ํ์ต
- ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ: Stage 1์์ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ ํ๋
- ์ ์ ํ ์ ๋ณด ์์ถ: Global token์ด ํฌ์ฆ ์์ธก์ ํ์ํ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ถ
Policy head๋ ์ด๋ฏธ ํ์ต๋ ํ๋ถํ ํํ์ SE(3) ํฌ์ฆ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ์ญํ ๋ง ์ํํ๋ฉด ๋ฉ๋๋ค.
6.3 Global Token์ ์ญํ
RoboMamba๋ Mamba ์ถ๋ ฅ ํ ํฐ๋ค์ ๋ํ pooling์ผ๋ก global token์ ์์ฑํ๊ณ , ์ด๋ฅผ policy head์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
Global Token์ ํน์ฑ: - ์ ์ฒด ์๊ฐ-์ธ์ด ์ปจํ ์คํธ์ ์์ถ๋ ํํ - ์ฅ๋ฉด์ semantic ์ ๋ณด์ ์์ ์๋๋ฅผ ๋์์ ์ธ์ฝ๋ฉ - ๋ก๋ด ์ํ ์ถ์ ์ ํ์ํ ์ ๋ณด ํฌํจ
์ด ์ค๊ณ๋ attention ๊ธฐ๋ฐ ๋ชจ๋ธ์ [CLS] ํ ํฐ๊ณผ ์ ์ฌํ์ง๋ง, Mamba์ sequential processing ํน์ฑ์ ๋ชจ๋ ์ด์ ์ ๋ณด๊ฐ ํตํฉ๋ ์ํ๋ผ๋ ์ ์์ ๋ค๋ฆ ๋๋ค.
7. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
7.1 ํ์ฌ ํ๊ณ์
7.1.1 ํฌ์ฆ ์์ธก์ ํ๊ณ
RoboMamba์ ํ์ฌ ๊ตฌํ์ ๋จ์ผ ํฌ์ธํธ SE(3) ํฌ์ฆ ์์ธก์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค:
- ๊ถค์ (trajectory) ์์ฑ ๋ฏธ์ง์
- ์ฐ์์ ์ธ ์ ์ด ์ ํธ ์์ฑ ๋ฏธ์ง์
- force/torque ์์ธก ๋ฏธํฌํจ
7.1.2 ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ ์ ํ
ํ์ฌ ์์คํ ์ RGB ์ด๋ฏธ์ง๋ง์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค:
- ๊น์ด(depth) ์ ๋ณด๋ pose prediction ์์๋ง ์ฌ์ฉ
- ์ด๊ฐ(tactile) ํผ๋๋ฐฑ ๋ฏธํตํฉ
- proprioception ์ ๋ณด ๋ฏธํ์ฉ
7.1.3 ์ค์๊ฐ ํผ๋๋ฐฑ ๋ถ์ฌ
ํ์ฌ ์ํคํ ์ฒ๋ open-loop ์์ธก์ ๊ฐ๊น์ต๋๋ค:
- ์คํ ์ค ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์กฐ์ ๋ฏธ์ง์
- ๋์ ํ๊ฒฝ ๋ณํ ๋์ ์ ํ์
- ์คํจ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ ๋ฏธํฌํจ
7.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
7.2.1 ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ ํ์ฅ
๋ฏธ๋ RoboMamba ์
๋ ฅ:
โโโ RGB ์ด๋ฏธ์ง
โโโ Depth ์ด๋ฏธ์ง
โโโ Point Cloud
โโโ Tactile ๋ฐ์ดํฐ
โโโ Proprioception
โโโ Audio (์ต์
)
7.2.2 ์๊ฐ์ ์ถ๋ก ๊ฐํ
Mamba์ sequential nature๋ฅผ ํ์ฉํ ์๊ฐ์ ์ถ๋ก ๊ฐํ:
- ๋น๋์ค ์ ๋ ฅ ์ฒ๋ฆฌ
- ๋์ ์์ธก ๋ฐ ๊ถค์ ์์ฑ
- ์๊ฐ์ ๋ฐ๋ฅธ ์ํ ์ถ์
7.2.3 ๊ณ์ธต์ ์์ ๋ถํด
Long-horizon task๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํ ๊ณ์ธต์ ๊ตฌ์กฐ:
High-level: Task Planning (์ธ์ด)
โ
Mid-level: Sub-task Decomposition
โ
Low-level: Motion Primitive Selection + Pose Prediction
7.2.4 Closed-loop ์ ์ด ํตํฉ
์คํ ์ค ํผ๋๋ฐฑ์ ํตํฉํ closed-loop ์์คํ :
Observe โ Reason โ Act โ Observe (feedback) โ Re-plan โ ...
7.2.5 ๋ ํฐ ๊ท๋ชจ์ Mamba ๋ชจ๋ธ
ํ์ฌ 2.7B ํ๋ผ๋ฏธํฐ์์ ๋ ํฐ ๋ชจ๋ธ๋ก์ ํ์ฅ:
- Mamba์ scaling ํน์ฑ ๊ฒ์ฆ
- ๋ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ ํ๋
- ๋ ๋ค์ํ ๋ก๋ด ์์ ์ง์
8. ๋ก๋ด๊ณตํ ๊ด์ ์์์ ์์ฌ์
8.1 ์ค์ฉ์ ์์ฌ์
8.1.1 ๋ชจ๋ธ ๋ฐฐํฌ ๊ด์
RoboMamba์ ํจ์จ์ฑ์ ์ค์ ๋ก๋ด ์์คํ ๋ฐฐํฌ์ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค:
์จ๋ณด๋ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ: - 3.2B ํ๋ผ๋ฏธํฐ: ๊ณ ์ฑ๋ฅ ์ฃ์ง GPU์์ ์คํ ๊ฐ๋ฅ - ์ ํ ์ถ๋ก ๋ณต์ก๋: ์์ธก ๊ฐ๋ฅํ ์๋ต ์๊ฐ - ์์ policy head: ๋น ๋ฅธ task-specific ์ ์
ํด๋ผ์ฐ๋ ์์กด์ฑ ๊ฐ์: - ๋ก์ปฌ ์ถ๋ก ๊ฐ๋ฅ์ผ๋ก ๋คํธ์ํฌ ์ง์ฐ ์ ๊ฑฐ - ํ๋ผ์ด๋ฒ์ ๋ฏผ๊ฐ ํ๊ฒฝ์์ ์ฌ์ฉ ๊ฐ๋ฅ - ์คํ๋ผ์ธ ๋์ ์ง์
8.1.2 ํ์ต ํจ์จ์ฑ ๊ด์
์ฐ๊ตฌ ๋ฆฌ์์ค ๋ฏผ์ฃผํ: - ๋จ์ผ A100 GPU๋ก 20-30๋ถ ๋ง์ ์๋ก์ด ๋งค๋ํฐ๋ ์ด์ ์คํฌ ํ์ต - ๋๊ท๋ชจ ์ปดํจํ ์ธํ๋ผ ๋ถํ์ - ๋น ๋ฅธ ์คํ ์ดํฐ๋ ์ด์ ๊ฐ๋ฅ
๋๋ฉ์ธ ์ ์: - ์๋ก์ด ๋ก๋ด ํ๋ซํผ์ ์ฝ๊ฒ ์ ์ - ์๋ก์ด ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ ์ถ๊ฐ ์ฉ์ด - ์์ ํนํ ๋ฏธ์ธ ์กฐ์ ํจ์จ์
8.2 ์ฐ๊ตฌ ๋ฐฉํฅ์ฑ ์์ฌ์
8.2.1 Foundation Model๊ณผ ๋ก๋ณดํฑ์ค์ ์ตํฉ
RoboMamba๋ โ๋ก๋ด์ ์ํ foundation modelโ ๊ฐ๋ฐ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค:
- ํจ์จ์ฑ ์ฐ์ : Transformer ๋์ ๋ ํจ์จ์ ์ธ ์ํคํ ์ฒ ํ์
- ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์กฐ: ๋จ์ ํ๋ ๋ณต์ ๋ณด๋ค ์ดํด ๊ธฐ๋ฐ ํ์ต
- ๋ชจ๋ํ ์ค๊ณ: ์ถ๋ก ๋ชจ๋๊ณผ ํ๋ ๋ชจ๋์ ๋ถ๋ฆฌ
8.2.2 Sim-to-Real Transfer
RoboMamba๊ฐ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๋ฅ๋ ฅ์ด ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด๋ ๊ฒ์ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค:
- ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ด sim-to-real gap ์ํ์ ๋์
- ์๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ด ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ์ค์
- ๊ณ ์์ค ์ถ์ํ๊ฐ ์ ์์ค ์ฐจ์ด๋ฅผ ํก์
8.3 ๋น๊ต ๊ด์
RoboMamba vs. ๊ธฐ์กด ์ ๊ทผ๋ฒ
| ์ธก๋ฉด | ๊ธฐ์กด VLA | End-to-end BC | RoboMamba |
|---|---|---|---|
| ์ถ๋ก ๋ฅ๋ ฅ | ์ ํ์ | ์์ | ๊ฐ๋ ฅ |
| ํ์ต ํจ์จ์ฑ | ๋ฎ์ | ์ค๊ฐ | ๋์ |
| ์ถ๋ก ์๋ | ๋๋ฆผ | ๋น ๋ฆ | ๋น ๋ฆ |
| ์ผ๋ฐํ | ์ค๊ฐ | ๋ฎ์ | ๋์ |
| ํด์ ๊ฐ๋ฅ์ฑ | ๋์ | ๋ฎ์ | ๋์ |
9. ๊ตฌํ ๊ณ ๋ ค์ฌํญ
9.1 ์ค์ ์ ์ฉ์ ์ํ ์ฒดํฌ๋ฆฌ์คํธ
RoboMamba๋ฅผ ์ค์ ๋ก๋ด ์์คํ ์ ์ ์ฉํ ๋ ๊ณ ๋ คํด์ผ ํ ์ฌํญ๋ค:
ํ๋์จ์ด ์๊ตฌ์ฌํญ
์ํํธ์จ์ด ํ๊ฒฝ
๋ฐ์ดํฐ ์ค๋น
9.2 ์ปค์คํฐ๋ง์ด์ง ๊ฐ์ด๋
์๋ก์ด ๋ก๋ด ํ๋ซํผ ์ ์
# Policy head ์ปค์คํฐ๋ง์ด์ง ์์
class CustomPolicyHead(nn.Module):
def __init__(self, input_dim, robot_dof):
super().__init__()
self.position_mlp = nn.Sequential(
nn.Linear(input_dim, 512),
nn.ReLU(),
nn.Linear(512, 3) # x, y, z
)
self.rotation_mlp = nn.Sequential(
nn.Linear(input_dim, 512),
nn.ReLU(),
nn.Linear(512, 6) # 6D rotation representation
)
# ๋ก๋ด ํนํ ์ถ๋ ฅ ์ถ๊ฐ
self.gripper_mlp = nn.Sequential(
nn.Linear(input_dim, 256),
nn.ReLU(),
nn.Linear(256, 1), # gripper open/close
nn.Sigmoid()
)์๋ก์ด ์์ ์ถ๊ฐ
- ์์ ์ ์: ๋ช ํํ ์ฑ๊ณต ์กฐ๊ฑด ์ ์
- ๋ฐ์ดํฐ ์์ง: ์๋ฎฌ๋ ์ด์ ๋๋ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ๋ฐ์ดํฐ ์์ง
- ํฌ๋งท ๋ณํ: RoboMamba ์ ๋ ฅ ํ์์ ๋ง๊ฒ ๋ฐ์ดํฐ ๋ณํ
- Policy head ํ์ต: ๋๊ฒฐ๋ backbone์ผ๋ก head๋ง ํ์ต
10. ๊ฒฐ๋ก
RoboMamba๋ ๋ก๋ด VLA ๋ชจ๋ธ ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค. State Space Model ๊ธฐ๋ฐ์ Mamba ์ํคํ ์ฒ๋ฅผ ๋ก๋ณดํฑ์ค์ ์ ์ฉํ์ฌ, ํจ์จ์ฑ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ด๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ๊ณผ์ ๋ฅผ ๋์์ ํด๊ฒฐํ์ต๋๋ค.
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
- ์ํคํ ์ฒ ํ์ : Transformer ๋์ Mamba๋ฅผ ์ฌ์ฉํ์ฌ ์ ํ ์๊ฐ ๋ณต์ก๋ ๋ฌ์ฑ, 3๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋
- ํจ์จ์ ํ์ต ์ ๋ต: 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ผ๋ก ์ถ๋ก ๊ณผ ๋งค๋ํฐ๋ ์ด์ ๋ฅ๋ ฅ ๋ถ๋ฆฌ ํ์ต
- ๊ทน๋๋ก ํจ์จ์ ์ธ ๋งค๋ํฐ๋ ์ด์ ํ์ต: 0.1% ํ๋ผ๋ฏธํฐ, 20-30๋ถ ํ์ต์ผ๋ก ์๋ก์ด ์คํฌ ํ๋
- ์ถ๋ก -๋งค๋ํฐ๋ ์ด์ ์ฐ๊ฒฐ: โ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ด ํจ์จ์ ์ธ ์คํฌ ํ์ต์ ์ ์ ์กฐ๊ฑดโ์ด๋ผ๋ ํต์ฐฐ
๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ๋ํ ์์
RoboMamba๋ ๋ก๋ด ํ์ต์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค:
- ์ดํด ๊ธฐ๋ฐ ํ์ต: ๋จ์ ๋ชจ๋ฐฉ์ด ์๋, ์ธ๊ณ์ ๋ํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ํ ํ๋ ํ์ต
- ํจ์จ์ฑ ์ค์ฌ ์ค๊ณ: ์ค์ ๋ก๋ด ์์คํ ๋ฐฐํฌ๋ฅผ ๊ณ ๋ คํ ์ค์ฉ์ ์ํคํ ์ฒ
- ๋ชจ๋ํ: ์ถ๋ก ๋ชจ๋๊ณผ ํ๋ ๋ชจ๋์ ๋ถ๋ฆฌ๋ก ์ ์ฐํ ํ์ฅ ๊ฐ๋ฅ
ํฅํ Mamba ์ํคํ ์ฒ์ ๋ฐ์ ๊ณผ ํจ๊ป RoboMamba์ ์ ๊ทผ๋ฒ์ ๋์ฑ ๊ฐ๋ ฅํ ๋ก๋ด ์์คํ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ํนํ ์๊ฐ์ ์ถ๋ก , ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ, closed-loop ์ ์ด ๋ฑ์ ํ์ฅ์ ํตํด ๋์ฑ ๋ณต์กํ๊ณ ์ค์ฉ์ ์ธ ๋ก๋ด ์์ฉ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
๋ณธ ๋ฆฌ๋ทฐ์์ ์ธ๊ธ๋ ์ฃผ์ ์ฐ๊ตฌ๋ค:
- Gu & Dao (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- Liu et al. (2024). RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation. NeurIPS 2024
- Sermanet et al. (2023). RoboVQA: Multimodal Long-horizon Reasoning for Robotics
- Li et al. (2023). ManipLLM: Embodied Multimodal Large Language Model for Object-centric Robotic Manipulation
- Xiang et al. (2020). SAPIEN: A Simulated Part-based Interactive Environment
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๊ฐ (Introduction)
RoboMamba๋ ๋ก๋ด์ด ์๊ฐ ์ ๋ณด์ ์์ฐ์ด ๋ช ๋ น์ ์ดํดํ๊ณ ์ค์ ๋์์ผ๋ก๊น์ง ์ฐ๊ฒฐํ ์ ์๋๋ก ์ค๊ณ๋ ๋น์ -์ธ์ด-์ก์ (VLA) ํตํฉ ๋ชจ๋ธ์ ๋๋ค. ์ต๊ทผ ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ๋ก๋ด ์กฐ์์ ํ์ฉํ๋ ค๋ ์๋๊ฐ ํ๋ฐํ์ง๋ง, ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ์กฑ๊ณผ ๋ฏธ์ธ์กฐ์ ์์ ๋ง๋ํ ์ฐ์ฐ ๋น์ฉ์ด๋ผ๋ ๋ ๊ฐ์ง ํ๊ณ๋ฅผ ๊ฒช๊ณ ์์ต๋๋ค. RoboMamba๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Mamba๋ผ ๋ถ๋ฆฌ๋ ์ํ๊ณต๊ฐ ๋ชจ๋ธ(SSM) ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ๋ก๋ด ๋ถ์ผ์ ๋์ ํ ์ต์ด์ ์ฌ๋ก์ ๋๋ค. 2024๋ NeurIPS์ ์ฑํ๋ ์ด ์ฐ๊ตฌ๋, ํจ์จ์ฑ(linear time complexity)๊ณผ ๊ฐ๋ ฅํ ์ถ๋ก ๋ ฅ์ ๊ฒธ๋นํ Mamba๋ฅผ ํ์ฉํ์ฌ ๋ก๋ด์๊ฒ ์๊ฐ์ ์์๊ณผ ๊ณ ์ฐจ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ถ์ฌํ๊ณ , ์์ฃผ ๊ฐ๋จํ ์ ์ฑ ํค๋๋ง์ ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ํ์ฌ ๋ก๋ด ์กฐ์(์: ํ์ 6-์์ ๋ ์์ธ ์์ธก)๊น์ง ๊ฐ๋ฅํ๊ฒ ํ ์ ์ด ํต์ฌ์ ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ:
- ๋น์ -์ธ์ด ํตํฉ ์ํคํ ์ฒ: ์๊ฐ ํน์ฑ ์ถ์ถ์ฉ ๋น์ ์ธ์ฝ๋(CLIP)์ ํจ์จ์ ์ธ Mamba ์ธ์ด ๋ชจ๋ธ์ ์๋กญ๊ฒ ๊ฒฐํฉํ์ฌ ์๋-ํฌ-์๋ ๋ก๋ด MLLM์ ๊ตฌ์ฑํ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์๊ฐ์ ์์๊ณผ ๋ก๋ด ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ป ์ ๊ณตํ์ต๋๋ค.
- ํจ์จ์ ์ธ ์กฐ์ ๋ฏธ์ธ์กฐ์ : ์์ฃผ ๋จ์ํ ์ ์ฑ ํค๋(policy head)๋ฅผ ์ถ๊ฐํ์ฌ ๋ก๋ด์ ํ ๋๋จ ์์ธ(6-DoF ํฌ์ฆ)๋ฅผ ์์ธกํ๋๋ก ํ์ต๋๋ค. ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ 0.1%๋ง ๋ฏธ์ธ์กฐ์ ํด๋ ์กฐ์ ๊ธฐ์ ์ ์ต๋ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฆ, ์ถ๋ก ๋ฅ๋ ฅ์ด ์ถฉ๋ถํ ๊ฐ์ถฐ์ง ํ์๋ ์ต์ํ์ ๋น์ฉ์ผ๋ก ์กฐ์ ๋ฅ๋ ฅ์ ํ์ต ๊ฐ๋ฅํ๋ค๋ ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ์ ๋๋ค.
- ํ์ํ ์ฑ๋ฅ๊ณผ ์๋ ํฅ์: ๋ค์ํ ์ผ๋ฐ ๋ฐ ๋ก๋ด ํ๊ฐ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๋ฎฌ๋ ์ด์ ๋ฐ ์คํ๊ฒฝ ๋ก๋ด ์คํ ๋ชจ๋์์ ์ธ์์ ์ธ ์์ธ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ํนํ RoboVQA ๋ฒค์น๋งํฌ์์ BLEU-4 ์ ์ 36.3์ ๊ธฐ๋กํ๊ณ , ๋ก๋ด ์กฐ์ ์์ ์์๋ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น 3๋ฐฐ ์ด์ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๊ตฌํํ์์ต๋๋ค (์ถํ ๋น๊ต ์คํ์์๋ ์ต๋ 7๋ฐฐ ์๋ ํฅ์ ๋ณด๊ณ ).
์ด ๋ฆฌ๋ทฐ์์๋ RoboMamba ๋ ผ๋ฌธ์ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ, ๋ชจ๋ธ ์ํคํ ์ฒ, ํ์ต ๋ฐฉ๋ฒ๋ก , ๋ฐ์ดํฐ์ ๊ตฌ์ฑ, ์คํ ์ค์ , ํ๊ฐ ์งํ, ์คํ ๊ฒฐ๊ณผ (์ ๋/์ ์ฑ ํ๊ฐ ๋ฐ ablation ๋ถ์), ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณผ์ ๊น์ง ๋ ผ๋ฌธ ์ ๋ฐ์ ๊น์ด ์๊ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ (Background & Motivation)
๋ก๋ด ์กฐ์ ๋ถ์ผ์ ๊ถ๊ทน์ ๋ชฉํ ์ค ํ๋๋, ๋ก๋ด์ด ์๊ฐ ์ฅ๋ฉด์ ์ดํดํ๊ณ ์ฃผ์ด์ง ๋ชฉํ์ ๋ฐ๋ผ ์ผ๋ จ์ ๋์์ ์คํํ๋ ๊ฒ์ ๋๋ค. ์ต๊ทผ์๋ ๊ฑฐ๋์ธ์ด๋ชจ๋ธ(LLM)์ ์ถ๋ก ๋ ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ก๋ด์ ์ด์ํ๊ณ ์, ์นด๋ฉ๋ผ ์์๊ณผ ์์ฐ์ด ๋ช ๋ น์ ํจ๊ป ๋ฐ์ ๊ณํ์ ์๋ฆฝํ๊ฑฐ๋ ๋์ ์ํ์ค๋ฅผ ์์ฑํ๋ ๋ฉํฐ๋ชจ๋ฌ LLM (MLLM) ์ฐ๊ตฌ๊ฐ ๋ฑ์ฅํ์ต๋๋ค. ์๋ฅผ ๋ค์ด Palm-E๋ ๋ก๋ด ๊ด์ธก(๋น์ )๊ณผ ๋ช ๋ น์ Transformer ๊ธฐ๋ฐ LLM์ ํตํฉํด ๊ณํ์ ์ธ์ ๊ณ , VoxPoser๋ LLM์ผ๋ก๋ถํฐ ๋์ถํ ์ดํฌ๋์ค๋ฅผ ํ์ฉํด ์ ๋ก์ท์ผ๋ก ๋ก๋ด ๊ถค์ ์ ์์ธกํ์ต๋๋ค. RoboFlamingo๋ ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋น์ -์ธ์ด-์กฐ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์์ ์ํํ๊ณ , ManipLLM์ LLM์ ์กฐ์ ๋ฐ์ดํฐ์ ํนํ ํ๋ จ์์ผ ํ ๋๋จ ์์น๊น์ง ์์ธกํ๊ฒ ํ ๋ฐ ์์ต๋๋ค. ์ด๋ฌํ ์ ํ ์ฐ๊ตฌ์๋ ๋ถ๊ตฌํ๊ณ , ๊ธฐ์กด ๋ก๋ด MLLM ์ ๊ทผ๋ฒ์๋ ๋ ๊ฐ์ง ํ๊ณ๊ฐ ์ง์ ๋ฉ๋๋ค. ์ฒซ์งธ, ๋ฏธ๋ฆฌ ํ๋ จ๋ LLM์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋ณต์กํ ๋ก๋ด ์ถ๋ก ์ํฉ์์ ํ๊ณ๋ฅผ ๋๋ฌ๋์ต๋๋ค. ๋ ผ๋ฌธ ์ ์๋ค์ Figure 1 ์์์์, ์ผ๋ฐ MLLM์ ์กฐ์ ํ ๋ก๋ด ๋ชจ๋ธ์ด ๋ณต์กํ ๋ค๋จ๊ณ ๊ณํ ๋ฌธ์ ๋ฅผ ์ถฉ๋ถํ ํด๊ฒฐํ์ง ๋ชปํ๋ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ก๋ด ํ๊ฒฝ์์์ ์ถ๋ก ๋ ฅ ๋ถ์กฑ์ ์ง์์ต๋๋ค.
๋์งธ, ๊ฑฐ๋์ธ์ด๋ชจ๋ธ์ Self-Attention ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ ๊ธธ์ด ์ฆ๊ฐ์ ๋ฐ๋ผ ๊ณ์ฐ๋์ด ์ด์ฐจ์ ์ผ๋ก ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์, ์ด๋ฌํ ๋น์ฉ์ด ๋์ ๋ชจ๋ธ์ ๋ก๋ด์ ์ ์ฉ ๋ฐ ์ค์๊ฐ ์ถ๋ก ํ๊ธฐ์๋ ๋นํจ์จ์ ์ ๋๋ค. ์ค์ ๋ก ๊ฑฐ๋ ๋ชจ๋ธ์ ๋ก๋ด ์กฐ์์ ํ์ธํ๋ ๋ฐ ์ถ๋ก ํ๋ ๋ฐ ์์ฒญ๋ ์์๊ณผ ์๊ฐ ์ง์ฐ์ด ๋ฐ์ํ๋ฉฐ, ์ด๋ ํ์ค์ ์ธ ๋ก๋ด ์๋ต ์๋ ์๊ตฌ์ ๋ถํฉํ์ง ์์ต๋๋ค. ไปฅไธ์ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํด, ์ ์๋ค์ โTransformer ๋์ ํจ์จ์ ์ธ SSM ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์จ๋ณด์โ๋ ์์ด๋์ด๋ฅผ ์ ์ํฉ๋๋ค. SSM(State Space Model)์ ์ฐ์ ์์คํ ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์๊ณ์ด ๋ชจ๋ธ๋ก, ์ ๋ ฅ ๊ธธ์ด์ ์ ํ์ ์ผ๋ก ๋์ด๋๋ ๊ณ์ฐ๋๊ณผ ์ฅ๊ธฐ ์์กด๊ด๊ณ ํ์ต์ ์ ๋ฆฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค. ํนํ 2023๋ ์ ์๋ Mamba ๋ชจ๋ธ์, Selective Scan Mechanism (S6)์ด๋ผ๋ ํ์ ์ผ๋ก ์ ๋ ฅ ๋ด์ฉ์ ๋ฐ๋ผ ์ํ๊ณต๊ฐ ํ๋ ฌ์ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ๋ฌธ๋งฅ ์ ์์ ์ถ๋ก ์ด ๊ฐ๋ฅํ๊ณ , ๊ทธ๋ผ์๋ ์ถ๋ก ๋ณต์ก๋๋ ์ ํ์ผ๋ก ์ ์ง๋๋ ์ฅ์ ์ ๋ณด์์ต๋๋ค. Mamba ๋ฐ SSM ๊ณ์ด ๋ชจ๋ธ๋ค์ NLP๋ฟ ์๋๋ผ ์๊ฐ ๋ฐ ์์ ๋ถ์ผ, ์ด๋ฏธ์ง ๋ณต์(MambaIR), ์ดํด์๋(PanMamba), ํ์ฐ ๋ชจ๋ธ(DiS) ๋ฑ์์ Transformer ๋์์ผ๋ก ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด, ๋ก๋ด ๋ถ์ผ์ ๋์ ๋ค(๊ณ ์ฐจ์ ์ถ๋ก + ์ค์๊ฐ ๋์)๋ Mamba๋ก ํ ์ ์์๊น? ์ด ์ง๋ฌธ์ด ๋ฐ๋ก RoboMamba์ ์ถ๋ฐ์ ์ ๋๋ค.
์์ฝํ๋ฉด, RoboMamba๋ โ๊ฐ๋ ฅํ ์ถ๋ก ๋ ฅ + ๊ฒฝ๋ ์ถ๋ก ๋น์ฉโ์ด๋ผ๋ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก๊ธฐ ์ํด Mamba ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ์ ์๊ฐ-์ธ์ด-์ก์ ํตํฉ ๋ก๋ด ๋ชจ๋ธ๋ก ํ์ฅํ ์ฐ๊ตฌ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ณต์กํ ๋ก๋ด ๋ ผ๋ฆฌ ์ถ๋ก ๊ณผ ๋น ๋ฅธ ์ ์ฑ ๊ฒฐ์ ์ ๋์์ ๊ตฌํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ (RoboMamba Architecture)
RoboMamba์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋น์ ์ธ์ฝ๋ + Mamba ์ธ์ด๋ชจ๋ธ + ์ ์ฑ ํค๋์ ๊ฒฐํฉ์ผ๋ก ์์ฝ๋ฉ๋๋ค.
Figure 2์ ๋ชจ๋ธ ๊ฐ์๊ฐ ์ ์๋์ด ์๋๋ฐ, ๊ทธ ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋น์ ์ธ์ฝ๋: ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์๊ฐ ํน์ง์ ์ถ์ถํ๊ธฐ ์ํด CLIP ViT-Large ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฏธ์ง ํ ์ฅ๋น CLIP์ ๋ค์์ ๋น์ฃผ์ผ ํ ํฐ์ ์์ฑํ๋ฉฐ, RoboMamba๋ ์ฌ๋ฌ ๋ฐฑ๋ณธ์ ์์๋ธํ์ง ์๊ณ ๋จ์ผ CLIP ์ธ์ฝ๋๋ง ์ฌ์ฉํฉ๋๋ค. ์ผ๋ถ ์ต์ MLLM๋ค์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด DINOv2, ConvNeXt ๋ฑ ์ฌ๋ฌ ์๊ฐ ๋ฐฑ๋ณธ์ ํจ๊ป ์ฌ์ฉํ์ง๋ง, RoboMamba ์ ์๋ค์ ์ค์๊ฐ์ฑ์ ์ค์ํ์ฌ ์ด๋ฌํ ์์๋ธ๋ก ์ธํ ์ฐ์ฐ ์ฆ๊ฐ๋ฅผ ๋ฐฐ์ ํ์ต๋๋ค. ๋์ ์์ง์ ๋ฐ์ดํฐ์ ํ๋ จ ์ ๋ต์ผ๋ก๋ ๋จ์ผ ๋น์ ๋ชจ๋ธ๋ก ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์์ต๋๋ค. CLIP์ด ์ถ๋ ฅํ ๋น์ฃผ์ผ ํ ํฐ๋ค์ ๋ฐฐ์น ์ฐจ์ B์ ํ ํฐ ์ฐจ์ T๋ก ๊ตฌ์ฑ๋ ๋ฒกํฐ ์ํ์ค๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
- ๋น์ -์ธ์ด ํน์ง ์ ๋ ฌ: CLIP์ ์๊ฐ ์๋ฒ ๋ฉ์ ์ธ์ด๊ณต๊ฐ์ผ๋ก ๋งคํํ๊ธฐ ์ํด ์์ ๋ค์ธตํผ์ ํธ๋ก (MLP) ๊ธฐ๋ฐ์ ๊ต์ฐจ๋ชจ๋ฌ ํ๋ก์ ํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ํฌ์ ๋ ์ด์ด๊ฐ CLIP ํ ํฐ์ Mamba ์ธ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ณํํ์ฌ, ์ดํ ์ธ์ด๋ชจ๋ธ์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ดํดํ ์ ์๊ฒ ํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ CLIP๊ณผ Mamba์ ๋ณธ์ฒด ๊ฐ์ค์น๋ ๋ชจ๋ ๋๊ฒฐํ๊ณ MLP ํ๋ก์ ํฐ๋ง ํ์ต์์ผ, ํจ์จ์ ์ผ๋ก ์๊ฐ-์ธ์ด ์ ๋ ฌ์ ์ํํฉ๋๋ค. ์ด๋ฌํ ๊ต์ฐจ๋ชจ๋ฌ ์ ๋ ฌ(Alignment) ์ฌ์ ํ๋ จ(Stage 1.1)์ ํตํด ์ด๋ฏธ์ง ํน์ง์ด Mamba ํ ํฌ๋์ด์ ์ ๋จ์ด ์๋ฒ ๋ฉ๊ณผ ๋งค์นญ๋๋ฉฐ, ๋ก๋ด ๋ชจ๋ธ์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ธ์ด์ฒ๋ผ ๋ฐ์๋ค์ผ ์ค๋น๋ฅผ ๊ฐ์ถ๊ฒ ๋ฉ๋๋ค.
- Mamba ์ธ์ด ๋ชจ๋ธ: RoboMamba์ ํต์ฌ ์ธ์ด ์ดํด ๋ฐ ์์ฑ ๋ชจ๋๋ก Mamba (2.7B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ)๋ฅผ ์ฑํํ์ต๋๋ค. Mamba๋ ์์ญ ๊ฐ์ Mamba ๋ธ๋ก์ผ๋ก ์ด๋ฃจ์ด์ง LLM์ผ๋ก, ๊ฐ ๋ธ๋ก์ด ์ ํ์ ์ํ๊ณต๊ฐ ๋ชจ๋ธ(Selective SSM) ์ฐ์ฐ์ ์ํํฉ๋๋ค. ์ผ๋ฐ์ ์ธ SSM์ ์ฐ์ ์์คํ ์ 1์ฐจ ์ํ๋ฐฉ์ ์์ ํ์ฉํ์ฌ, ์ ๋ ฅ $u(t)$์์ ์ถ๋ ฅ $y(t)$๋ฅผ ์ํ $x(t)$๋ฅผ ๊ฑฐ์ณ ์์ฑํ๋ ๊ตฌ์กฐ๋ก ์ ์๋ฉ๋๋ค. Mamba๋ ์ฌ๊ธฐ์ Selective Scan Mechanism (S6)์ ๋์ ํด ์ํ ํ๋ ฌ A, ์ ๋ ฅ ํ๋ ฌ B, ์ถ๋ ฅ ํ๋ ฌ C๋ฅผ ์ ๋ ฅ ๋ด์ฉ์ ์ข ์์ ์ธ ํจ์๋ก ๋ง๋ฆ์ผ๋ก์จ, ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๊ฐ์ค์น๋ฅผ ๋์ ์ผ๋ก ์ ํํฉ๋๋ค. ์ด๋ฅผ ํตํด Transformer ๋ชป์ง์์ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ๊ณ์ฐ ๋ณต์ก๋๋ O(n)์ผ๋ก ์ ์งํ๋ ์ ์ด Mamba์ ํ์ ์ ๋๋ค. RoboMamba์์๋ ๋ฏธ๋ฆฌ ํ์ต๋ Mamba (2.8B ๋๋ 1.4B ๋ฒ์ )๋ฅผ ๋ถ๋ฌ์ ์ฌ์ฉํ๋ฉฐ, ์ ๋ ฅ์ผ๋ก ํ ์คํธ ์ง๋ฌธ ํ ํฐ๊ณผ ์ ๋จ๊ณ์ ์๊ฐ ํ ํฐ์ ์ฐ์ ํ์ฌ ๋ฃ์ด์ค๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ ์คํธ ํ๋กฌํํธ๋ ์ฌ์ ํ์ต๋ ํ ํฌ๋์ด์ ๋ก ์๋ฒ ๋ฉ๋๊ณ , CLIP-MLP๋ฅผ ํต๊ณผํ ์ด๋ฏธ์ง ํ ํฐ ์ํ์ค์ ๊ฒฐํฉ( [IMAGE_TOKENS] + [TEXT_TOKENS] )๋์ด Mamba์ ํฌ์ ๋ฉ๋๋ค. Mamba๋ ๊ฐ๋ ฅํ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ผ๋ก ์ด ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ํตํฉ ์ดํดํ์ฌ, ์ต์ข ์ธ์ด ์๋ต ํ ํฐ ์ํ์ค๋ฅผ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ง๋ฌธ์ด โ๋ก๋ด์ด ์ํ์ ์น์ฐ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ๋?โ ์ด๊ณ ์ด๋ฏธ์ง๊ฐ ์ด์ง๋ฌ์ง ์ํ ์ฌ์ง์ด๋ผ๋ฉด, Mamba๋ ์ฌ๋ฌ ์ถ๋ก ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ โ1๋จ๊ณ: ๋ฌผ๊ฑด์ ์ง๋๋ค. 2๋จ๊ณ: ๋ฌผ๊ฑด์ ๋ฐ์ค์ ๋ฃ๋๋ค...โ ์ ๊ฐ์ด ๋จ๊ณ๋ณ ํ ์คํธ ํ๋์ ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ํ ์คํธ ํ ํฐ๋ค์ ๋ค์ ํ ํฌ๋์ด์ ๋ฅผ ๊ฑฐ์ณ ์ธ๊ฐ์ด ์ฝ์ ์ ์๋ ์ต์ข ์์ฐ์ด ์๋ต์ผ๋ก ๋ํ ํฐํ๋ฉ๋๋ค.
- ์ ์ฑ ํค๋ (์ก์ ์์ธก): RoboMamba์ ์ถ๋ ฅ์ ๋น๋จ ์ธ์ด ์๋ต์ ๊ทธ์น์ง ์์ต๋๋ค. ๋์์ ๋ก๋ด ํ์ ๋์ ๋ช ๋ น๋ ๋ด๋ฆด ์ ์๋๋ก, Mamba ์ถ๋ ฅ ํ ํฐ์ผ๋ก๋ถํฐ ํ ๋๋จ ํฌ์ฆ๋ฅผ ์์ธกํ๋ ์์ ์ ์ฑ ํค๋๋ฅผ ๋ถ๊ฐํ์ต๋๋ค. ์ ์ฑ ํค๋๋ 2๊ฐ์ MLP๋ก ์ด๋ฃจ์ด์ ธ ํ๋๋ ์๋์ 3D ์์น(Position), ๋ค๋ฅธ ํ๋๋ 3D ๋ฐฉํฅ(ํ์ ๋งคํธ๋ฆญ์ค)์ ํ๊ท ์์ธกํฉ๋๋ค. ์ด MLP๋ค์ Mamba ์ถ๋ ฅ์ ๊ธ๋ก๋ฒ ํ ํฐ์ ์ ๋ ฅ์ผ๋ก ์ผ๋๋ฐ, ์ฌ๊ธฐ์ ๊ธ๋ก๋ฒ ํ ํฐ์ด๋ Mamba์ ์ต์ข ์ถ๋ ฅ ํ ํฐ๋ค์ poolingํ์ฌ ํ๋์ ๊ณ ์ฐจ์ ๋ฒกํฐ๋ก ์์ฝํ ๊ฒ์ ๋๋ค. Mamba ์ํคํ ์ฒ์ ํน๋ณํ [CLS] ํ ํฐ์ด ์๊ธฐ ๋๋ฌธ์, ์ถ๋ ฅ ์ํ์ค์ ํ๊ท ์ด๋ ๋ง์ง๋ง ๋ฑ์ ํ์ฉํด ์ ์ฒด ์ปจํ ์คํธ๋ฅผ ๋ํํ๋ ๋ฒกํฐ๋ฅผ ๋ง๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ด ๋ฒกํฐ๋ฅผ ํตํด ์ ์ฑ ํค๋๋ ํ์ฌ ๋งฅ๋ฝ์์ ๋ก๋ด ํ์ ์ด๋ป๊ฒ ์์ง์ผ์ง๋ฅผ ์ถ๋ก ํฉ๋๋ค. Loss ํจ์๋ ๊ธฐ์กด ๋ฌธํ์ ๋ฐ๋ผ, ์์ธก ์์น์ ์ ๋ต ์์น ๊ฐ ์ค์ฐจ์ trace, ๊ทธ๋ฆฌ๊ณ ์์ธก ํ์ ํ๋ ฌ๊ณผ ์ ๋ต ํ๋ ฌ ๊ฐ ์ฐจ์ด์ trace๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์ ์, RoboMamba๋ ์ด๋ฏธ์ง ์ขํ๊ณ์์ 2D ์ ์ด ์ง์ (u,v)๋ง ์์ธกํ๊ณ , ํด๋น ํ์์ ๊น์ด(depth) ์ ๋ณด๋ฅผ ํ์ฉํด 3D ๊ณต๊ฐ์ขํ $(x,y,z)$๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ํฝ์ ์ขํ->3์ฐจ์ ๋ณํ์ผ๋ก ๋ฌธ์ ๋ฅผ ๋จ์ํํ์ฌ ํ์ต ๋ถ๋ด์ ์ค์ด๋ ์ ๋ต์ผ๋ก, ๊ธฐ์กด Where2Act ๋ฑ์ ์ ๊ทผ์์๋ ์ฌ์ฉ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ ์ฑ ํค๋์ ์ ์ฒด ํ๋ผ๋ฏธํฐ ์๋ ๋จ 3.7M (์ฝ 7MB)๋ก, ๋ชจ๋ธ ์ ์ฒด์ 0.1% ์ ๋ถ๊ณผํฉ๋๋ค. ์ฆ, RoboMamba๋ ๊ฑฐ๋ํ ์ธ์ด๋ชจ๋ธ ๋ถ๋ถ(๋๋จธ์ง 99.9%)์ ๊ฑด๋๋ฆฌ์ง ์๊ณ , ์์ฃผ ์์ ์ถ๊ฐ ๋ชจ๋๋ง ํ์ต์ํค๋ ๊ฒ์ผ๋ก ์ก์ ์์ธก ๊ธฐ๋ฅ์ ํ๋ํฉ๋๋ค. ์ด ์ค๊ณ ๋๋ถ์ ๋ฏธ์ธ์กฐ์ ๋น์ฉ ๋ฐ ์ถ๋ก ์๊ฐ์ ์ต์ํํ๋ฉด์๋, ์ธ์ด๋ชจ๋ธ์ด ์ง๋ ๊ธฐ์กด ์ถ๋ก ๋ฅ๋ ฅ์ ํผ์ํ์ง ์๊ณ ๊ทธ๋๋ก ํ์ฉํ ์ ์์ต๋๋ค.
์ ๋ฆฌํ๋ฉด, RoboMamba๋ ํ๋์ ํตํฉ ๋คํธ์ํฌ ์์ (๋น์ ์ธ์ฝ๋ + Mamba ์ธ์ด๋ชจ๋ธ)๋ก ๊ณ ์ฐจ์ ์ถ๋ก ์ ์ฒ๋ฆฌํ๊ณ , ํ์์ ์ ์ฑ ํค๋๋ฅผ ํตํด ์ค์ ๋ก๋ด ๋์๊น์ง ๋ด๋๋ ์๋-ํฌ-์๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋จ์ ๋ช ์พํ ์ค๊ณ๋ก, ์ธ์ด ์๋ต(์: ๊ณํ ์ค๋ช )๊ณผ ๋์ ์ถ๋ ฅ(์: ์ขํ ๋ช ๋ น)์ ๋์์ ์์ฑํ ์ ์์ผ๋ฉฐ, ์ถ๋ก ๊ณผ ํ๋์ ๊ฒธ๋นํ ๋ก๋ด ์์ด์ ํธ๋ฅผ ๊ตฌํํฉ๋๋ค.
ํ์ต ๋ฐฉ๋ฒ ๋ฐ ๋ฐ์ดํฐ์ (Training Strategy and Datasets)
RoboMamba์ ํ์ต์ ๋ ๋จ๊ณ(Stage)๋ก ์ด๋ฃจ์ด์ง๋๋ค. Stage 1์ ์ผ๋ฐ ๋ฐ ๋ก๋ด ์ง์ ํ์ต ๋จ๊ณ๋ก, ๋ค์ ๋ ๊ฐ์ง ํ์ ๋จ๊ณ(Stage 1.1๊ณผ 1.2)๋ก ๋๋ฉ๋๋ค. Stage 2๋ ์์ ์ค๋ช ํ ์ ์ฑ ํค๋ ๋ฏธ์ธ์กฐ์ ๋จ๊ณ์ ๋๋ค. ๊ฐ ๋จ๊ณ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ๊ณผ ํ๋ จ ๋ฐฉ์์ ์ข ํฉ์ ์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค. - Stage 1.1: ๊ต์ฐจ๋ชจ๋ฌ ์ ๋ ฌ ์ฌ์ ํ๋ จ (Alignment Pre-training) โ ์ด ๋จ๊ณ์์๋ ์๊ฐ ํน์ง์ ์ธ์ด๊ณต๊ฐ์ ์ ๋ ฌํ๋ ํ๋ก์ ์ MLP๋ฅผ ํ์ตํฉ๋๋ค. ์ฌ์ฉ ๋ฐ์ดํฐ๋ LLaVA-LCS 558K๋ก, LAION/CC/SBU ๋ฑ ๋๊ท๋ชจ ์น ์ด๋ฏธ์ง-์บก์ ๋ฐ์ดํฐ์์ ๊ท ํ ์กํ ๊ฐ๋ ๋ถํฌ๋ฅผ ๊ฐ์ง๋๋ก ์ ๋ณ๋ 55.8๋ง ์์ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋๋ค. ๋ํ BLIP ๋ชจ๋ธ๋ก ์์ฑํ ์บก์ ๋ฑ์ ์ถ๊ฐํด ์ด๋ฏธ์ง๋น ๋ณตํฉ ์ค๋ช ๋ฌธ์ ๊ฐ์ถ ๊ฒ์ด ํน์ง์ ๋๋ค. ์ด ๋จ๊ณ์์ CLIP ๋น์ ์ธ์ฝ๋์ Mamba ์ธ์ด๋ชจ๋ธ์ ๋๊ฒฐํ๊ณ , ํ๋ก์ ์ MLP๋ง 1 epoch ํ์ตํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ์ธ์ด ์๋ฒ ๋ฉ์ ๋์ผํ ๊ณต๊ฐ์ ๋งตํํ๊ณ , โ์๊ฐ-์ธ์ด ํธํ์ฑโ์ ํ๋ณดํฉ๋๋ค. - Stage 1.2: ์ง์๋ฌธ ๊ณต๋ ํ์ต (Instruction Co-training) โ ์ ๋ ฌ์ ๋ง์น ํ, ๋ณธ๊ฒฉ์ ์ผ๋ก ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ธธ๋ฌ์ฃผ๋ ๋จ๊ณ์ ๋๋ค. ์ฌ๊ธฐ์๋ ์ผ๋ฐ ๋น์ -์ธ์ด ๊ณผ์ ์ ๋ก๋ด ํนํ ๊ณผ์ ๋ฅผ ํจ๊ป ํ์ต์ํค๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ๋ก๋ด ๋ถ์ผ๋ ์๋ก์ด ๋ณต์กํ ์์ ๋ค์ด ๋ง์ ์ผ๋ฐํ๋ ฅ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์, ๋ค์ํ ์ถ์ฒ์ ๋ฐ์ดํฐ๋ฅผ ํฉ์ณ ๊ณต๋ํ๋ จํ๋ ์ ๋ต์ ํํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, 1.8๋ฐฑ๋ง ๊ฐ์ ๊ฑฐ๋ ํผํฉ๋ฐ์ดํฐ๋ฅผ 2 epoch ํ์ตํ์๋๋ฐ, ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: - ์ผ๋ฐ ์๊ฐ-์ธ์ด ์ง์๋ฌธ ๋ฐ์ดํฐ (์ฝ 105.5๋ง ์): LLaVA v1.5 ๋ฐ์ดํฐ์ 65.5๋ง + LRV-Instruct 40๋ง. LLaVA-1.5๋ ์๊ฐ์ ์ง๋ฌธ๋ต๋ณ(VQA), ๋ํ(ShareGPT), OCR, ์บก์ ๋ ๋ฑ 10๊ฐ ์์ค์ ํผํฉ์ผ๋ก ๊ตฌ์ฑ๋ ๋ํ์ ์ธ ๋น์ ์ธ์ด ์ธ์คํธ๋ญ์ ํ๋ ๋ฐ์ดํฐ์ ์ ๋๋ค. LRV-Instruct๋ GPT-4๋ฅผ ์ด์ฉํด ์์ฑํ ๊ณ ํ์ง ์๊ฐ ์ง์๋ฌธ 40๋ง ๊ฐ๋ก, ํ๊ฐ(hallucination) ์ค์ด๊ธฐ์ ์ด์ ์ ๋ ๋ฐ์ดํฐ์ ๋๋ค. ์ฐ๊ตฌ์ง์ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์ฌ์ฉ์ด ํ๊ฐ ๊ฐ์์ ์ ๋ฆฌํ๋ค๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ฅผ ์ฐธ๊ณ ํ๋ฉด์๋, ๋ก๋ด ์ ์ฑ ํจ์จ์ ์ํด ๊ณ ํด์๋ ๋์ ์ด ํ ์คํธ ๊ฐํ ๋ฐ์ดํฐ(LRV)๋ฅผ ๋์ ํ๋ค๊ณ ์ค๋ช ํฉ๋๋ค. ์ค์ ๋ก ๋ก๋ด MLLM์ ๊ฒฝ์ฐ โ์กด์ฌํ์ง ์๋ ๋ฌผ์ฒด ์กฐ์โ๊ณผ ๊ฐ์ ํ๊ฐ์ ์น๋ช ์ ์ด๋ฏ๋ก, ์์ปจ๋ โ์ ์๋ ์ธ์ง๋ฅผ ์ด๋ผโ๋ ๋ช ๋ น์ ๋ง์ฐํ โ์์ก์ด๋ฅผ ์ก์๋น๊ฒจ๋ผโ๋ผ๊ณ ๋ตํ์ง ์๋๋ก (๋ง์ ์ ์๋ ์ธ์ง๋ ์์ก์ด๊ฐ ์์ต๋๋ค), ํ์ค ๊ธฐ๋ฐ์ผ๋ก ๋ต๋ณํ๋๋ก ํ์ต์ํค๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. - ๋ก๋ด ๊ณ ์์ค ์ถ๋ก ๋ฐ์ดํฐ (80๋ง ์): RoboVQA 800K. ์ด๋ ์ ์๋ค์ด ์์งํ ๋ก๋ด ๋ฉํฐ๋ชจ๋ฌ QA ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ค์ํ ๋ก๋ด/์ธ๊ฐ ์ฃผ์ฒด๊ฐ ๋ค์ํ ์์ ์ ์ํํ๋ ์ค์ ํ๊ฒฝ ๋ฐ์ดํฐ๋ฅผ ํฌํจํฉ๋๋ค. ์ฝ 5,246๊ฐ์ ์ฅ๊ธฐ(horizon) ์์ ์ํผ์๋์ 92,948๊ฐ์ ์ค๊ฐ ๊ธธ์ด ์์ ์ํผ์๋๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๊ฐ ์ํผ์๋๋ ์ด๋ฏธ์ง + ํ ์คํธ ์ง์๋ก ์ฃผ์ด์ง๋๋ค. RoboVQA๋ ์ฅ๊ธฐ ๊ณํ ์ง๋ฌธ, ์์ ์ฑ๊ณต์ฌ๋ถ ๋ถ๋ฅ, ์ดํฌ๋์ค ์ธ์ (์ด๋ค ๋ถ๋ถ์ ์กฐ์ํ ์ ์๋์ง), ๊ณผ๊ฑฐ ์ํฉ ์ค๋ช , ๋ฏธ๋ ๊ฒฐ๊ณผ ์์ธก ๋ฑ ๋ก๋ด ํน์ ์ ๊ณ ์ฐจ์ QA๋ฅผ ๋ง๋ผํฉ๋๋ค. ์ด๋ฌํ ๋ณต์กํ ๋ก๋ด ๋ฌธ์ ๋ค์ด ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์์ผ ์ค๋ค๊ณ ๋ ผ๋ฌธ์ ์ค๋ช ํฉ๋๋ค.
๊ณต๋ ํ์ต ์์๋ CLIP ์ธ์ฝ๋๋ฅผ ๊ณ์ ๋๊ฒฐํ๊ณ , ํ๋ก์ ์ ๋ ์ด์ด์ Mamba ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ง ๋ฏธ์ธ์กฐ์ ํ์์ต๋๋ค. Cross-Entropy Loss๋ก Mamba์ ๋ชจ๋ ์ถ๋ ฅ ํ ํฐ์ ์ ๋ต ๋ฌธ์ฅ์ ๋ง์ถ๋๋ก ์ง๋ํ์ตํ๋ฉฐ, ์ด๋ ๊ฒ ์ผ๋ฐ+๋ก๋ด ๋ฐ์ดํฐ ํผํฉ์ ํตํด ๋ชจ๋ธ์ด ๊ด๋ฒ์ํ ์๊ฐ/์ธ์ด ์ง์์ ํก์ํจ๊ณผ ๋์์ ๋ก๋ด ์ถ๋ก ์คํฌ์ ๋ด์ฌํ๊ฒ ๋ฉ๋๋ค. ์ ์๋ค์ ํนํ ๋ก๋ด ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋จ์ผ๋ก์จ ์ผ๋ฐ ์์ ์ถ๋ก ๊น์ง ํฅ์๋๋ ์ด์ ๋ ํ์ธํ๋๋ฐ, ์ด๋ ๋ณต์กํ ๋ก๋ด ๋ฌธ์ ๋ฅผ ํ๋ฉด์ ๊ณต๊ฐ์ถ๋ก (GQA ๋ฑ) ๋ฅ๋ ฅ๋ ๊ฐ์ด ์ข์์ก๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์ํฉ๋๋ค. - Stage 2: ๋ก๋ด ์กฐ์ ๋ฏธ์ธ์กฐ์ (Robot Manipulation Fine-tuning) โ Stage 1์ ๊ฑฐ์ณ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ RoboMamba์, ๊ตฌ์ฒด์ ์ธ ๋์ ์ํ ๋ฅ๋ ฅ์ ๋น ๋ฅด๊ฒ ๋ง์ ํ๋ ๋จ๊ณ์ ๋๋ค. ์ฌ๊ธฐ์๋ ์์ ์ค๋ช ํ ์ ์ฑ ํค๋(MLP 2๊ฐ)๋ง ํ์ตํ๋ฉฐ, RoboMamba ๋ณธ์ฒด์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ ๋๊ฒฐํฉ๋๋ค. ์ด๋ฌํ โ๋ณธ์ฒด ๋๊ฒฐ + ์์ ํค๋ ํ์ตโ ์ ๊ทผ์, ํฐ ๋ชจ๋ธ์ ๋ค์ ํ์ต์์ผ ๋ด์ฌ๋ ์ธ์ด๋ฅ๋ ฅ์ ๋ง๊ฐ๋จ๋ฆฌ์ง ์๊ณ ์ ์งํ๋ฉด์ ํ๋ ์์ธก ๊ธฐ๋ฅ๋ง ์ถ๊ฐํ๋ ์ญํ ์ ํฉ๋๋ค. ๋ฐ๋ฉด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ด ๋จ๊ณ์์ ๋น์ ํ๋ก์ ํฐ์ LLM๊น์ง ๋ชจ๋ ์ ๋ฐ์ดํธํ์ฌ, ๋ชจ๋ธ์ด ์๋ ๊ฐ์ง๊ณ ์๋ ์ธ์ด ์ถ๋ก ๋ฅ๋ ฅ์ด ํผ์๋ ์ํ์ด ์์๊ณ , ํ์ต ๋น์ฉ๋ ๋ง๋ํ์ต๋๋ค.
ํ๋ จ ๋ฐ์ดํฐ์ : ์ ์ฑ ํค๋ ํ์ต์ ์ํด ์ ์๋ค์ SAPIEN ๋ก๋ด ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํด ํ๋ญ์นด(Franka) Emika Panda ๋ก๋ดํ์ด ๋ค์ํ ๋ฌผ์ด๋ ๊ฐ์ฒด(PartNet-Mobility ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ)๋ฅผ ๋ฌด์์๋ก ์กฐ์ํ๋ ํ๊ฒฝ์ ๊ตฌ์ถํ์ต๋๋ค. ๋ก๋ด์๋ ํก์ฐฉ ๊ทธ๋ฆฌํผ๋ฅผ ์ฅ์ฐฉํ์ฌ ๋ค์ํ ํ๋ฉด์ ๋ถ์ก์ ์ ์๊ฒ ํ๊ณ , ๊ฐ ์ํผ์๋๋ง๋ค ๋ฌผ์ฒด์ ์์ง์ผ ์ ์๋ ๋ถ์๋ฅผ ๋๋ค ์ ํํ์ฌ ์๋์ดํํฐ(๋ง๋จ ์ฅ์น)๋ฅผ ์ ์ด์ํค๊ณ ์ก์๋น๊ธฐ๋ (pulling) ์คํ์ ์ํํ์ต๋๋ค. ์กฐ์ ์ฑ๊ณต ์ ํด๋น ์๋์ดํํฐ์ 6-์์ ๋ ํฌ์ฆ(์์น+๋ฐฉํฅ, ํ์ ์ gripper ์ํ๊น์ง 7-DoF)์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋กํ์ฌ ์ง๋ํ์ต์ฉ ๋ ์ด๋ธ๋ก ์ผ์์ต๋๋ค. ์ด๋ ๊ฒ ํ์ฌ 20๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ฑธ์ณ ์ด 10,000์ฅ์ ํ์ต์ฉ ์ด๋ฏธ์ง+ํฌ์ฆ ๋ฐ์ดํฐ๋ฅผ ์ป์์ต๋๋ค. ์์๋ก, ํ๋ จ ์นดํ ๊ณ ๋ฆฌ์๋ ๊ธ๊ณ (Safe), ๋ฌธ(Door), ๋์ฅ๊ณ (Refrigerator), ๋ฉํฑ, ์ ์๋ ์ธ์ง, ์๋(์คํ ๋ฆฌ์ง ๊ฐ๊ตฌ), ํ ์คํฐ ๋ฑ ๋ฌธ์ด๋ ๋๊ป์ด ์์ด ๋น๊ฒจ ์ด ์ ์๋ ๋ฌผ์ฒด๋ค์ด ๋ค์ ํฌํจ๋์์ต๋๋ค. ํ ์คํธ์ฉ์ผ๋ก๋ 1,100์ฅ์ ์ด๋ฏธ์ง๋ฅผ ๋ณ๋๋ก ์์งํ๋๋ฐ, ์ฌ๊ธฐ์๋ ํ๋ จ์ ๋์จ ๊ฒ๋ค๊ณผ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ(Seen) ์ด๋ฏธ์ง์ ํจ๊ป ๋ณ๊ธฐ(Toilet), ๊ฐ์(Scissors), ์ฃผ์ ์(Kettle), ์ธํ๊ธฐ(Washing Machine), ์๋๊ผญ์ง(Faucet), ์ ํ๊ธฐ(Phone) ๋ฑ ์ด 10๊ฐ์ ์๋ก์ด ์นดํ ๊ณ ๋ฆฌ(Unseen) ์ด๋ฏธ์ง๋ ํฌํจ๋์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ๋ฏธ๋ณด๋ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํจ์ ๋๋ค. ํ๋ จ ๊ณผ์ : ์ ์ฑ ํค๋์ ๋ํด 5 epoch์ ํ์ต์ ์ํํ์ผ๋ฉฐ, ํ์ต๋ฅ 1e-5, weight decay 0.1 ๋ฑ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๋ถ๋์์ ๊ณ์ฐ์ 32-bit ์ ๋ฐ๋๋ก ํ์ฌ, ๋ฏธ์ธํ ํ๊ท๊ฐ ์์ธก์ ์ ํ๋๋ฅผ ๋์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, 7MB ๋จ์งํ ํ๋ผ๋ฏธํฐ๋ง์ผ๋ก ๊ตฌ์ฑ๋ ํค๋๋ฅผ ๋จ 20๋ถ (NVIDIA A100 ๊ธฐ์ค) ๋ง์ ํ์ต ์๋ฃํ๋ค๊ณ ๋ณด๊ณ ํ์์ผ๋ฉฐ, ์ด๋ ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ ๋น ๋ฅด๊ฒ ๋ถ์ฌํ๋ ํจ์จ์ ์ธ ๋ฐฉ์์์ ๊ฐ์กฐํฉ๋๋ค. ๋ํ ๅ 0.1%์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ง์ผ๋ก ์๋ก์ด ์กฐ์ ์คํฌ์ ์ตํ๋ค๋ ์ ์์, โ์ถ๋ก ๋ ฅ๋ง ์ถฉ๋ถํ๋ฉด ์ ์ ๋น์ฉ์ผ๋ก๋ ํ๋ ๋ฅ๋ ฅ์ ์ต๋ํ ์ ์๋คโ๋ ๋ณธ ์ฐ๊ตฌ์ ๊ฐ์ค์ ๋ท๋ฐ์นจํ๋ ์ฆ๊ฑฐ๊ฐ ๋์์ต๋๋ค. ์์ฝ: Stage 1์ ๊ด๋ฒ์ํ ์๊ฐ/์ธ์ด/๋ก๋ด ์ง์ ํ์ต์ผ๋ก RoboMamba๋ ๋์ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์๊ฐ์ ์ดํด๋ ฅ์ ์ป๊ฒ ๋ฉ๋๋ค. ์ด์ด Stage 2์ ๊ฒฝ๋ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ๋ฎ์ ์์ค์ ์กฐ์ ๊ธฐ์ (์๋์ดํํฐ ํฌ์ฆ ์ฐ์ถ)์ ํ๋ํฉ๋๋ค. ์ด ์ ์ฒด ๊ณผ์ ์์ Transformer ๊ธฐ๋ฐ ๊ฑฐ๋์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ๋๋น ํจ์ฌ ์ ์ ์ฐ์ฐ๊ณผ ํ๋ผ๋ฏธํฐ ์์ ์ผ๋ก ๋์ผ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ์๋ค๋ ๊ฒ์ด RoboMamba์ ํฐ ๊ฐ์ ์ ๋๋ค. ์๋์์๋ ๊ตฌ์ฒด์ ์ธ ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ด๋ฌํ ์ฃผ์ฅ์ ๋น์์ฑ์ ํ์ธํฉ๋๋ค.
์คํ ์ค์ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ (Experimental Setup & Metrics)
๋ชจ๋ธ ๊ตฌํ: RoboMamba๋ ์ฌ์ ํ์ต๋ CLIP ViT-L/14 (OpenAI CLIP, ๋๋ SigLIP ๋ณํ)๊ณผ Mamba ์ธ์ด๋ชจ๋ธ 2.7B๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ Mamba 2.8B์ 1.4B ๋ ๊ฐ์ง๋ฅผ ์ธ๊ธํ๋๋ฐ, ์ฃผ๋ก 2.7B (2.8B ๊ท๋ชจ)์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. ํ์ต์ NVIDIA A100 GPU ์์์ ์งํ๋์๊ณ , Stage 1์์๋ 16-bit ํผํฉ ์ ๋ฐ๋ ํ๋ จ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ๋์์ผ๋ฉฐ, Stage 2์์๋ 32-bit๋ก ์ธ๋ฐํ๊ฒ ํ์ตํ์ต๋๋ค. ์ต์ข RoboMamba ๋ชจ๋ธ์ ์ฝ 32์ต๊ฐ ํ๋ผ๋ฏธํฐ(์ธ์ด๋ชจ๋ธ+ํฌ์๊ธฐ+๋น์ ์ธ์ฝ๋)์ ์ ์ฑ ํค๋ 370๋ง๊ฐ ํ๋ผ๋ฏธํฐ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ๊ฐ ๋ฒค์น๋งํฌ: - ์ผ๋ฐ ๋น์ -์ธ์ด ์ถ๋ก : ์ ๋ฐ์ ์ธ ์๊ฐ-์ธ์ด ์ดํด ๋ฐ ์๋ต ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ํ์ ์ธ VQA ๋ฐ ๋ฉํฐ๋ชจ๋ฌ LLM ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด VQAv2 (์ผ๋ฐ ์ด๋ฏธ์ง QA ์ ํ๋), OK-VQA (์์ ๊ธฐ๋ฐ VQA), GQA (๊ณต๊ฐ ์ถ๋ก QA), VizWiz (์๊ฐ ์ฅ์ ์ธ ๋์ฐ๋ฏธ QA), OCR-VQA (์ด๋ฏธ์ง ๋ฌธ์์ฝ๊ธฐ QA) ๋ฑ์ด ํฌํจ๋์์ต๋๋ค. ๋ํ ์ต๊ทผ ๋ฑ์ฅํ ๋ฉํฐ๋ชจ๋ฌ LLM ํ๊ฐ์ธํธ์ธ POPE (Planning Oracle Prior Extraction; ๋ก๋ด๊ณํ ๊ด๋ จ QA), MME (MultiModalEval; ๋ค์ค๋ชจ๋ฌ ๋ฅ๋ ฅ ์ข ํฉํ๊ฐ), MMBench, MM-Vet ๋ฑ๋ ํ์ฉํ์ฌ, ๋ชจ๋ธ์ ์ ๋ฐ์ ๋น์ฃผ์ผ-์ธ์ด ์ถ๋ก ๋ ฅ์ ์ ๊ฒํ์ต๋๋ค. ๊ฐ ๋ฒค์น๋งํฌ์ ํน์ง์ Appendix E์ ์์ธํ ์ ๋ฆฌ๋์ด ์๋ค๊ณ ํฉ๋๋ค๋ง, ์ฌ๊ธฐ์๋ ๊ฒฐ๊ณผ ์์ฃผ๋ก ๋ณด๊ฒ ์ต๋๋ค. - ๋ก๋ด ํนํ ์ถ๋ก : RoboVQA ๋ฐ์ดํฐ์ ์ ๊ฒ์ฆ์ฉ 1.8๋ง ๋ฌธํญ์ ํ์ฉํ์ฌ, ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ์ ์ง์ค ํ๊ฐํ์ต๋๋ค. RoboVQA๋ ์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด ์ฅ๊ธฐ ๊ณํ, ์ฑ๊ณตํ๋ณ, ์ดํฌ๋์ค ์ธ์, ๊ณผ๊ฑฐ/๋ฏธ๋ ์ถ๋ก ๋ฑ์ ํฌํจํ๋ฏ๋ก, ์ด ์ฑ๋ฅ์ด ๋๋ค๋ฉด ๋ก๋ด ๋๋ฉ์ธ์ ํนํ๋ ์ถ๋ก ๋ ฅ์ด ์ฐ์ํจ์ ์๋ฏธํฉ๋๋ค. ๋น๊ต ๋์์ผ๋ก๋ LLaMA-Adapter V2 ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ ์ ํ๋๋ฐ, ์ด๋ ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๋ก๋ด MLLM ์ค ํ๋์ธ ManipLLM์ ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก ์ฌ์ฉ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ์ ์๋ค์ LLaMA-Adapter V2๋ฅผ ๋์ผ RoboVQA ๋ฐ์ดํฐ๋ก 2 epoch ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค. - ๋ก๋ด ์กฐ์ ์ฑ๋ฅ: ์๋ฎฌ๋ ์ดํฐ ์์ ๋ฌผ์ฒด ์กฐ์ ์ฑ๊ณต๋ฅ ๋ก ์ธก์ ํ์ต๋๋ค. ์คํ์ Pulling (๋น๊ฒจ ์ด๊ธฐ) ๋์์ ์ด์ ์ ๋ง์ถ์์ผ๋ฉฐ, ์์ ์์งํ SAPIEN ์๋ฎฌ๋ ์ด์ ํ ์คํธ ์ธํธ 1.1k์ฅ์์ ์์ธกํ ์๋์ดํํฐ ์ ์ด์ ๊ณผ ๋ฐฉํฅ์ ์ค์ ์๋ฎฌ๋ ์ดํฐ์ ์ ์ฉํด ๋ฌผ์ฒด์ ๊ด์ ์ํ ๋ณํ๋ฅผ ๊ด์ฐฐํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ฌผ์ฒด ๋ฌธ์ด๋ ์๋ ๋ฑ์ด 0.1m ์ด์ ์ด๋ฆฌ๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผํ๊ณ , ์ฑ๊ณต ์ํ ์/์ ์ฒด ์ํ ์๋ก ์ฑ๊ณต๋ฅ (accuracy)์ ๊ณ์ฐํ์ต๋๋ค. ์ด๋ ๊ธฐ์กด ๋ฌธํ์ ์ ์๋ฅผ ๋ฐ๋ฅธ ๊ฒ์ ๋๋ค. ๋น๊ตํ ๋ฒ ์ด์ค๋ผ์ธ์ ์ด 4๊ฐ์ง: UMPNet (์ํ๊ธฐ๋ฐ RL ์ ๊ทผ), FlowBot3D (ํฌ์ธํธํด๋ผ์ฐ๋ ์์ ๋ชจ์ ํ๋ก์ฐ ์์ธก), RoboFlamingo (OpenFlamingo ๊ธฐ๋ฐ MLLM), ManipLLM (LLaMA-Adapter V2 ๊ธฐ๋ฐ ์ต์ ๋ก๋ด MLLM). ์ด๋ค ์ญ์ ๋์ผํ 10k ๋ฐ์ดํฐ๋ก ์ฌํ์ตํ์ฌ ํ๊ฐํ์ผ๋ฉฐ, ๊ฐ ๋ฐฉ๋ฒ์ ํน์ฑ์ ๋ฐ๋ผ ์ฝ๊ฐ ๋ค๋ฅธ ์กฐ์ ์ ๋ต์ผ๋ก ๊ตฌํ๋์์ต๋๋ค (UMPNet์ ์์ธก ํฝ์ ์ขํ๋ก ์์ง ๋ฐฉํฅ ์ ๊ทผ, FlowBot3D๋ ์ ๊ตฐ flow ์ต๋ ์ง์ ์ผ๋ก ์ ์ด ๋ฑ). ์ฑ๊ณต๋ฅ ์ธ์๋, ์ถ๋ก ํจ์จ์ฑ(์ด๋น ์ฒ๋ฆฌ ํ๋ ์), ๋ฏธ์ธ์กฐ์ ๋ ํ๋ผ๋ฏธํฐ์ ์(๋ชจ๋ธ ์ ๋ฐ์ดํธ ๊ท๋ชจ) ๋ฑ์ ์ข ํฉ์ ์ผ๋ก ๊ณ ๋ คํ์ฌ ๋น๊ตํ์ต๋๋ค. - ์ค์ธ๊ณ ์คํ: ํ๋ จ์ ์ฐ์ธ ์๋ฎฌ๋ ์ดํฐ๋ฟ ์๋๋ผ ์ค์ ๋ฌผ์ฒด๋ค์ ๋์์ผ๋ก ๋ก๋ดํ ์คํ๋ ์ํํ์ต๋๋ค. Franka Emika Panda ๋ก๋ดํ์ ์๋ฉดํ ์ดํ๋ฅผ ๋ถ์ฐฉํ ๋ง์ถคํ ๊ทธ๋ฆฌํผ๋ฅผ ๋ฌ์ ํก์ฐฉ ํ์ง๊ฐ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๊ณ , ์ง์ ๋ฌผ์ฒด๋ค(๋ฌธ, ๋จํ, ํ ์คํฐ, ๋ณ ๋ฑ)์ ์๋๋ก RoboMamba๊ฐ ๋ด๋ ํ๋ ์ง์๋ฅผ ์คํํด ๋ณด์์ต๋๋ค. ์ด๋ ์ธ์ด ๋ชจ๋ธ์ ๊ณํ ์๋ต๋ ํจ๊ป ํ๊ฐํ์ฌ, ์์ปจ๋ ์ฅ๊ธฐ ์์ ๊ณํ์ LLaMA-Adapter์ RoboMamba๊ฐ ๊ฐ๊ฐ ์ด๋ป๊ฒ ๊ธฐ์ ํ๋์ง ๋น๊ตํ๊ฑฐ๋, ์ดํฌ๋์ค ์ธ์ ์ ํ๋, ๊ณผ๊ฑฐ/๋ฏธ๋ ์ํฉ์ ๋ํ ์ถ๋ก ์ด ์ธ๊ฐ ์์์ ๋ถํฉํ๋์ง ๋ฑ์ ๊ด์ฐฐํ์ต๋๋ค. ๋ํ RoboMamba๊ฐ ์์ธกํ 3D ์๋ ํฌ์ฆ๋ฅผ ๋ค์ 2D ์ด๋ฏธ์ง์ ํฌ์ํ์ฌ (์ ์ด ์ง์ ์ ๋นจ๊ฐ ์ , ์๋ ๋ฐฉํฅ์ ํ์ดํ๋ก ํ์) ์์ธก์ ์ ํ์ฑ์ ์๊ฐ์ ์ผ๋ก ๊ฒ์ฆํ์ต๋๋ค. ์ด๋ฌํ ์ ์ฑ์ ์คํ์ Supplementary Video๋ก๋ ์ ๊ณต๋์์ต๋๋ค.
๋ค์์ผ๋ก, ์ด๋ฌํ ์ค์ ์์ ๋์ถ๋ ์คํ ๊ฒฐ๊ณผ์ ๋ถ์์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์ (Results and Analysis)
์ผ๋ฐ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ฑ๋ฅ (General Vision-Language Reasoning)
๋จผ์ , ์ผ๋ฐ์ ์ธ VQA ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ์ดํด๋ณด๋ฉด, RoboMamba๋ 27์ต ๊ท๋ชจ์ ๋น๊ต์ ์์ LLM์ ์ฌ์ฉํ๋ฉด์๋ ์ ๋ฐ์ ์ผ๋ก ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. Table 1์ ์ฌ๋ฌ ๋ชจ๋ธ๋ค๊ณผ์ ๋น๊ต์ธ๋ฐ, ์ฃผ์ ์งํ๋ฅผ ๋ณด๋ฉด: - VQAv2 ์ ํ๋: RoboMamba (80.3) vs ๋ค๋ฅธ 7B ๋ชจ๋ธ๋ค โ ์: InstructBLIP(โ/78.5), LLaVA1.5(78.5), SPHINX(78.1) ๋ฑ๊ณผ ์ ์ฌํ๊ฑฐ๋ ์ฝ๊ฐ ์ํ. - OK-VQA ์ ํ๋: RoboMamba (63.1)๋ก, MobileVLM(โ)์ด๋ Qwen-VL(58.6) ๋ฑ์ ์์๊ณ ํ SOTA์์ค์ธ SPHINX(62.1)๋ณด๋ค๋ ๊ทผ์ํ๊ฒ ๋์ต๋๋ค. - GQA(Spatial Reasoning): RoboMamba (62.4~64.4)๋ก, LLaVA1.5(62.0)๋ SPHINX(62.6)๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ค์ ์ฐ์์ ์์ต๋๋ค. - VizWiz(์๊ฐ์ฅ์ ๋ณด์กฐ): 55.0์ผ๋ก MiniGPT-v2(53.6) ๋ฑ๋ณด๋ค ๋๊ณ , ์ต๊ณ ๊ถ์ธ InstructBLIP(33.4)๋ณด๋ค ํฌ๊ฒ ์ฐ์ธํ๋ ์ด๋ ์งํ ์ ์๊ฐ ๋ค๋ฅผ ์ ์์ต๋๋ค. - OCR-VQA(ํ ์คํธ ์ธ์): 62.5~66.7๋ก, ๋ค๋ฅธ ๋ชจ๋ธ ์ค ๊ณต๊ฐ๋ ๊ฐ์ด ๋ง์ง ์์ง๋ง SPHINX(66.0)์ ๊ทผ์ ํฉ๋๋ค. - POPE(๊ณํ์ค๋ผํด ์ถ์ถ): 85.3~86.9๋ก, LRV-Instruct ๋ฐ์ดํฐ ๋๋ถ์ ํ๊ฐ ์ค์ด๊ธฐ์ ํจ๊ณผ๋ฅผ ๋ด์ SPHINX(80.7)๋ TinyLLaVA(86.3) ๋ฑ๊ณผ ๋น์ทํ๊ฑฐ๋ ๊ฐ์ ๋์์ต๋๋ค. - MME, MMBench, MM-Vet ๋ฑ์ ์ข ํฉํ๊ฐ ์ ์๋ ์ ๋ฐ์ ์ผ๋ก ๊ฒฝ์๋ ฅ ์๋ ์์ค์ ๋๋ค.
์ ์ฒด์ ์ผ๋ก RoboMamba๋ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์ค์ํ ์ฑ๋ฅ์ ๋ฐํํ์ผ๋ฉฐ, ํน์ ์์ ์์ ์ต๊ณ ์์ค์ ๊ทผ์ ํ์ต๋๋ค. Alignment ์ฌ์ ํ๋ จ๊ณผ ๋ก๋ด+์ผ๋ฐ ๊ณต๋ํ๋ จ ์ ๋ต์ด ํจ๊ณผ์ ์ผ๋ก ์์ฉํ์ฌ, ์์ ๋ชจ๋ธ๋ก๋ ์ด์ ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์๋ค๊ณ ๋ถ์ํฉ๋๋ค. ์์ปจ๋, ๊ณต๋ํ๋ จ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋๋ ํฌ์ ํ ๊ฒ์ด ๊ณต๊ฐ ์ดํด ํฅ์์ ๊ธฐ์ฌํ์ฌ GQA ์ฑ๋ฅ์ ๋์๊ณ , ํ๊ฐ ์ํ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ๋์ POPE ๋ฒค์น๋งํฌ(๋ก๋ด ๊ณํ ๋ฌธํญ)์์ ์ค๋ต์ ์ค์ฌ ์ฑ๊ณต๋ฅ ํฅ์์ด ๋ํ๋ฌ์ต๋๋ค. ๋ค๋ง ๋ช๋ช ์งํ์์ LLaVA1.5๋ SPHINX๊ฐ์ ์ต์ 7B ๋ชจ๋ธ๋ค์ ์ฝ๊ฐ ๋ชป ๋ฏธ์น๋ ๋ถ๋ถ๋ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํด์๋ ์ ํ(224px) ๋ฑ์ ํจ์จ์ฑ ์ค์ ์ค๊ณ์ ๋ฐ๋ฅธ ์ ์ถฉ(trade-off)์ผ๋ก ๋ณด์ด๋ฉฐ, ์ ์๋ค์ โํฅํ ์์ ์ฌ์ ๊ฐ ์๋ค๋ฉด 70์ต ๊ท๋ชจ์ RoboMamba-7B๋ ๊ฐ๋ฐํ ๊ฒโ์ด๋ผ๊ณ ๋ฐํ๊ณ ์์ต๋๋ค. ์ค์ ๋ก Table 1์์ ์ ๋ ฅ ํด์๋๋ฅผ 384px๋ก ๋์ธ ๋ฒ์ ๋ ์ ์๋์๋๋ฐ, ์ฑ๋ฅ์ด ์ํญ ๊ฐ์ ๋ ์งํ(GQA ๋ฑ)๋ ์์ง๋ง ํฐ ์ฐจ์ด๋ ์์ด์, ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ท ํ์ ์ํด ๊ธฐ๋ณธ 224 ํด์๋๋ฅผ ์ ํํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
๋ก๋ด ๊ด๋ จ ์ถ๋ก ์ฑ๋ฅ (Robot-Specific Reasoning)
RoboVQA ๋ฒค์น๋งํฌ ์์์ RoboMamba์ ๋ก๋ด ํนํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋๋๋ฌ์ก์ต๋๋ค. Figure 3 (a)์ ๋ฐ๋ฅด๋ฉด, RoboMamba๋ BLEU-1~BLEU-4 ๋ชจ๋ ์งํ์์ ๋น๊ต ๋ชจ๋ธ์ ๋ฅ๊ฐํ์ต๋๋ค. ์์ปจ๋ BLEU-4 ๊ธฐ์ค RoboMamba๊ฐ 42.8์ (๋ ผ๋ฌธ ๋ณธ๋ฌธ ์ธ๊ธ ์์ด๋ ์ธ๋ถ ์์ฝ์์ ์ถ์ ๋จ) ์ ๊ธฐ๋กํ ๋ฐ๋ฉด, ๋น๊ต ๋์์ธ LLaMA-AdapterV2 (ManipLLM ๋ฒ ์ด์ค)์ ๊ฒฝ์ฐ ๊ทธ๋ณด๋ค ๋ฎ์์ต๋๋ค. ์ด๋ ์ฅ๋ฌธ์ ๋ค๋จ๊ณ ๋ก๋ด ์ค๋ช ๊ณผ ๊ฐ์ ์ด๋ ค์ด ์์ฑ ๋ฌธ์ ์์ RoboMamba๊ฐ ๋ ์ ํํ ๋ต๋ณ์ ๋ด๋์์์ ์์ฌํฉ๋๋ค. ํ๋ จ ์ ๋ต์ ์ ํจ์ฑ๋ ์ฌ๊ธฐ์ ์ ์ฆ๋๋๋ฐ, RoboMamba๋ ์ผ๋ฐ+๋ก๋ด ๋ฐ์ดํฐ๋ก ๋์์ ํ์ต(co-training)ํจ์ผ๋ก์จ ๋ก๋ด ๋งฅ๋ฝ ์ถ๋ก ์ ํนํ๋์๊ณ , ๊ทธ ๊ฒฐ๊ณผ ๊ธฐ์กด SOTA ๋ก๋ด MLLM ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋์ฑ ์ฃผ๋ชฉํ ์ ์ ์ถ๋ก ์๋์ ๋๋ค. RoboMamba๋ ๋์ผ ์ง๋ฌธ์ ๋ํด LLaMA-AdapterV2 ๋ฐ ManipLLM๋ณด๋ค 7๋ฐฐ ๋น ๋ฅธ ์๋ต ์์ฑ์ด ๊ฐ๋ฅํ์ต๋๋ค. ์ด๋ Mamba ์ธ์ด๋ชจ๋ธ์ ์ ํ ์ค์ผ์ผ๋ง๊ณผ ์ฝํ ์ธ -์ ๋ณํ ์ฒ๋ฆฌ ๋๋ถ์ผ๋ก, Attention ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ Quadratic ๋น์ฉ์ ํฌ๊ฒ ์์ง๋ฅด๋ ํจ์จ์ฑ์ ์ค์ฆํ์ต๋๋ค. ๋ก๋ด์๊ฒ ์์ด ์ค์๊ฐ์ฑ์ ์ค์ํ๋ฏ๋ก, ์ด๋ฌํ ์๋ ํฅ์์ ๋จ์ํ ๋ถ๊ฐ ์ด์ต์ด ์๋๋ผ ํต์ฌ ์ฑ๋ฅ ์งํ๋ผ ํ ์ ์์ต๋๋ค. ์์ฝํ๋ฉด, RoboMamba๋ ๋ก๋ด ์ง์ ์ดํด ์ธก๋ฉด์์ ๋ ์ ํํ๊ณ , ์๋ต ๋ฉด์์ ๋ ๋ฏผ์ฒฉํ ๋ชจ๋ธ์์ด ํ์ธ๋์์ต๋๋ค.
๋ก๋ด ์กฐ์ ์ฑ๋ฅ (Manipulation Performance in Simulation)
Table 2๋ ์๋ฎฌ๋ ์ด์ ์ ๋ค์ํ ๊ฐ์ฒด๋ค์ ์กฐ์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ ๊ฒ์ ๋๋ค. RoboMamba์ ์ฑ๋ฅ์ ์ ๋ฆฌํ๋ฉด: - ์ ์ฒด์ ์ธ SOTA ๋ฌ์ฑ: Seen ์นดํ ๊ณ ๋ฆฌ ํ๊ท ์ฑ๊ณต๋ฅ ์์ RoboMamba๋ 7.0%p ๋๊ฒ (RoboMamba 71% vs ManipLLM 64% ๋ด์ธ๋ก ์ถ์ ), Unseen ์นดํ ๊ณ ๋ฆฌ ํ๊ท ์์๋ 2.0%p ๊ฐ๋ ํฅ์์ ๋ณด์์ต๋๋ค. ์ด๋ ์ด์ ์ต๊ณ ๋ชจ๋ธ์ธ ManipLLM ๋๋น ์ ์๋ฏธํ ๊ฐ์ ์ด๋ฉฐ, RoboMamba๊ฐ ํ๋ จ์ ์ฌ์ฉํ 20์ข ๋ฌผ์ฒด๋ค๋ฟ๋ง ์๋๋ผ ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ค์ ๋ํด์๋ ๋ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฐํํ์์ ๋ณด์ฌ์ค๋๋ค. - ์นดํ ๊ณ ๋ฆฌ๋ณ ์ธ๋ถ ์ฑ๋ฅ: RoboMamba๋ ํ๋ จ ์ค ๋ณธ 20๊ฐ ์นดํ ๊ณ ๋ฆฌ ์ค 14๊ฐ์์ ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ํนํ ๋ฌธ, ๋์ฅ๊ณ , ํ ์คํฐ, ๋จํ ๋ฑ ๋ช๋ช ํญ๋ชฉ์์๋ 80~90%๋์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ, ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ์์ง๋ ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์์ธก์ด ๋งค์ฐ ์์ ์ ์ด๋ฉฐ ๋ค์ํ ์ข ๋ฅ์ ๊ฐ์ฒด์ ๋ํ ์กฐ์๋ ์ ํํ ์ํํจ์ ๋ปํฉ๋๋ค. ํํธ ๋ณด์ง ๋ชปํ 10๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ฒฝ์ฐ, ์ต๊ทผ MLLM ๊ธฐ๋ฐ ์ธ ๊ธฐ๋ฒ(RoboFlamingo, ManipLLM, RoboMamba) ๋ชจ๋ ์๋นํ ์ํธํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์, ์ฃผ์ ์, ์ ํ๊ธฐ ๊ฐ์ unseen ๋ฌผ์ฒด๋ค๋ 30~80% ์ฌ์ด์ ์ค์ํ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, ์ด๋ ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํต์ ์ธ UMPNet, FlowBot3D ๋ฑ๋ณด๋ค ๋ฐ์ด๋ ๋๋ถ์ ๋๋ค. RoboMamba ์ญ์ ์ด๋ฌํ LLM ๊ธฐ๋ฐ ์ผ๋ฐํ ์ด์ ์ ๊ณต์ ํ์ฌ unseen์์๋ ๊ฒฝ์์๋ค๊ณผ ๋น์ทํ๊ฑฐ๋ ์ฝ๊ฐ ์ฐ์๋ฅผ ๋ณด์์ต๋๋ค (ManipLLM๊ณผ ๊ฑฐ์ ๋๋ฅ ์์ค์ผ๋ก ์ถ์ ). - ๋ชจ๋ธ ๊ฒฝ๋ํ ํจ๊ณผ (ํจ์จ์ฑ ๋น๊ต): RoboMamba์ ๋๋๋ฌ์ง ์ฅ์ ์ ํจ์ฌ ์ ์ ์ ๋ฐ์ดํธ๋ก๋ SOTA ์ฑ๋ฅ์ ๋๋ค๋ ๊ฒ์ ๋๋ค. RoboFlamingo๋ ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ OpenFlamingo ์ ์ฒด์ 35.5%์ธ 18์ต ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌํ์ตํด์ผ ํ๊ณ , ManipLLM๋ ๊ฑฐ๋ LLM์ ์ด๋ํฐ 4,130๋ง๊ฐ(๋ชจ๋ธ์ 0.5%) ํ๋ผ๋ฏธํฐ๋ฅผ ์ถ๊ฐํ๋ จํ์ต๋๋ค. ๋ฐ๋ฉด RoboMamba๋ ๊ณ ์ 370๋ง๊ฐ(0.1%)๋ง ์ ๋ฐ์ดํธํ์์ผ๋ฏ๋ก, ์ด์ MLLM ์กฐ์๋ฒ๋ค๋ณด๋ค 10๋ฐฐ ์ด์ ์ ์ ํ๋ผ๋ฏธํฐ ์์ ๋ง์ผ๋ก ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ธ ์ ์ ๋๋ค. ๊ฒ๋ค๊ฐ ์์ ์ธ๊ธํ๋ฏ ์ถ๋ก ์๋๋ 7๋ฐฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์, RoboMamba๋ ํจ์จ์ฑ ๋ฉด์์ ํ์ ์ถ์ข ์ ๋ถํํฉ๋๋ค. ์ค์๊ฐ ๋ก๋ด ์ ์ด๋ฅผ ์ผ๋์ ๋ ๋, ์ด๋ฌํ ๊ฒฝ๋/๊ณ ์ ํน์ฑ์ ๋ณธ ๋ชจ๋ธ์ ๊ฐ์น๋ฅผ ํฌ๊ฒ ๋์ฌ์ค๋๋ค. ์ ์๋ค์ โRoboMamba๋ ๊ฐ๋ ฅํ ์ถ๋ก ๋ ฅ์ ๊ฐ์ง๋ฉด์๋ ๋น์ฉ ํจ์จ์ ์ผ๋ก ์กฐ์ ๋ฅ๋ ฅ์ ํ๋ํ ์ ์์์ ๋ณด์ฌ์ค๋คโ๊ณ ์ดํํฉ๋๋ค.
์ถ๊ฐ ์ฑ๋ฅ ๋ถ์ (Ablation Studies)
1. ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์์ฑ: ์ ์๋ค์ ๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ถ๋ก ๋ ฅ ์ฐจ์ด๊ฐ ์ต์ข ์กฐ์ ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ๋น๊ต ์คํ์ ํ์ต๋๋ค. RoboMamba 2.7B์ ๋ํ์ฌ, OpenFlamingo 9B (์ถ๋ก ๋ ฅ ๊ฐํ์ง ์์), LLaMA-AdapterV2 7B (ManipLLM ๋ฒ ์ด์ค), ๊ทธ๋ฆฌ๊ณ RoboMamba 1.4B (๋ชจ๋ธ ํฌ๊ธฐ ์ ๋ฐ)์ ๋น๊ตํ์ต๋๋ค. ๋ชจ๋ ๋์ผํ๊ฒ ์ ์ฑ ํค๋๋ง ๋ถ์ฌ ๋๊ฒฐ ํ ๋ฏธ์ธ์กฐ์ ํ๋ ์ ์ ์ผ๋ก ๋ง์ถ์๋๋ฐ, Figure 3 (b) ๊ฒฐ๊ณผ RoboMamba 2.7B๊ฐ ๊ฐ์ฅ ๋์ ์กฐ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ฌ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ข์ ๋ชจ๋ธ์ผ์๋ก ๊ฐ์ ๋ฐ์ดํฐ๋ก ์ก์ ํ์ต์ ๋ ๋์ ์ฑ๋ฅ์ ๋ธ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ํนํ RoboMamba 2.7B (w/o C)๋ผ๊ณ ํด์ Stage 1 ๊ณต๋ํ๋ จ ์ RoboVQA ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ ์ธํ ๋ฒ์ ๋ ์คํํ๋๋ฐ, ์ด ๊ฒฝ์ฐ ์กฐ์ ์ ํ๋๊ฐ ๋์ ๋๊ฒ ํ๋ฝํ์ต๋๋ค. ํนํ ๋ฏธ๋ณด๋ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ์์์ด ๊ด์ฐฐ๋์ด, ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ ํฌํจํ ํ์ต(C)์ด ์ถ๋ก ๋ ฅ์ ํฅ์์์ผ ๊ฒฐ๊ณผ์ ์ผ๋ก ์กฐ์ ์ผ๋ฐํ์๋ ๊ธฐ์ฌํจ์ ์ ์ ์์ต๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, โ๋ก๋ด ์คํฌ์ ๊ฐ๋ฅด์น ๋ ๋ง๋ํ ์ถ๊ฐ ํ์ต์ด ํ์ํ ๊ฒ ์๋๋ผ, ์ ์ด์ ๋ชจ๋ธ์ด ํผํผํ ์ถ๋ก ๋ ฅ(ํนํ ๋ก๋ด ์์)์ ๊ฐ์ถ๊ณ ์์ผ๋ฉด ๋๋คโ๋ ์ฃผ์ฅ์ด ์ ์ฆ๋ ์ ์ ๋๋ค.
2. ์ ์ฑ ํค๋ ์ค๊ณ ์ํฅ: Appendix์ ์ถ๊ฐ ์คํ์ผ๋ก, ์ ์ฑ ํค๋์ ๊ตฌ์กฐ๋ฅผ ๋ฌ๋ฆฌํด๋ณธ ๊ฒฝ์ฐ๋ ๋น๊ตํ์ต๋๋ค. (i) MLP1: ์์น์ ๋ฐฉํฅ์ ํ๋์ MLP์์ ๋์์ ์์ธก (์ถ๋ ฅ ๋ถ๊ธฐ๋ง ๋ค๋ฅด๊ฒ), (ii) MLP2: RoboMamba ๋ ผ๋ฌธ ๊ธฐ๋ณธ ์ค์ ์ฒ๋ผ ๋ ๊ฐ์ MLP๋ก ๊ฐ๊ฐ ์์ธก, (iii) (SSM+MLP)2: ๋ ๊ฐ์ ํค๋ MLP ์์ ์์ SSM ๋ธ๋ก๊น์ง ์ฝ์ ํ์ฌ ํค๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ํญ ๋๋ฆฐ ๋ฒ์ (์ฝ 4,520๋ง ํ๋ผ๋ฏธํฐ, 1.3% ๋ชจ๋ธ). ๊ฒฐ๊ณผ๋ ์ธ ์ค์ ๊ฐ ์กฐ์ ์ฑ๊ณต๋ฅ ์ด ๊ฑฐ์ ๋์ผ (62~64% ๋ฒ์)ํ์ต๋๋ค. ์ฆ, ํค๋์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ง์ด ๋๋ฆฐ๋ค๊ณ ์ ํ๋๊ฐ ์ ์๋ฏธํ๊ฒ ์ค๋ฅด์ง ์์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ณง ํ์ ์ด์์ ๋ณต์กํ ํค๋๋ ๋นํจ์จ์ด๋ฉฐ, RoboMamba์ฒ๋ผ ์ต์ํ์ ๋จ์ ํค๋๋ก๋ ์ถฉ๋ถํจ์ ์์ฌํฉ๋๋ค. ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ฐ์ณ์ค๋ค๋ฉด ์์ ํค๋๋ก๋ ์ฑ๋ฅ์ ๋ผ ์ ์๊ณ , ํฐ ํค๋๋ฅผ ์ด๋ค๊ณ ์ถ๋ก ๋ ฅ์ด ๋ถ์กฑํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฉ๊พธ๊ธด ์ด๋ ต๋ค๋ ์ ์์, ์์ ๋จ๊ณ์ ์ง๋ฅ(์ถ๋ก ) ํ๋ณด๊ฐ ๊ทผ๋ณธ์ ์์ ๋ท๋ฐ์นจํ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
3. ํ๋ จ ๋ฐ์ดํฐ ์กฐํฉ ์ํฅ: ์ญ์ Appendix C์ Table 4์์, Stage 1 ํ๋ จ์ ๋ต์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํ์ต๋๋ค. ์ ๋ฆฌํ๋ฉด, - ์ด๋ฏธ์ง-ํ ์คํธ ์ ๋ ฌ(Alignment) ์ฌ์ ํ์ต์ ์๋ตํ๋ฉด (Ex1) vs ์ํํ๋ฉด (Ex2), ๋ชจ๋ ํ๊ฐ ์งํ์์ Ex2๊ฐ ํฅ์๋์ด ์ ๋ ฌ๋จ๊ณ์ ์ค์์ฑ์ด ๊ฒ์ฆ๋์์ต๋๋ค. - ํ๊ฐ ์ํ์ฉ LRV-400K ๋ฐ์ดํฐ๋ฅผ ํฌํจ (Ex3) vs ๋ฏธํฌํจ (Ex2) ๋น๊ต ์, POPE ๋ฒค์น๋งํฌ ์ ํ๋๊ฐ ์ ์ํ๊ฒ ์์นํ์ฌ ํด๋น ๋ฐ์ดํฐ์ ํจ๊ณผ์ ๊ธฐ์ฌ๋ฅผ ํ์ธํ์ต๋๋ค. - ๋ก๋ด ๋ฐ์ดํฐ(RoboVQA 800K) ํฌํจ ์ฌ๋ถ (Ex4 vs Ex3) ๋น๊ต์์๋, ๋ก๋ด ์ถ๋ก ๋ฅ๋ ฅ ๋ถ์ฌ๋ ๋ฌผ๋ก ์ผ๋ฐ ์์ ์ถ๋ก (OQVQA/GQA ๋ฑ)๋ ํฅ์๋๋ ๋ถ์ ํจ๊ณผ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
ํนํ GQA์์ ๊ณต๊ฐ์ถ๋ก ์ ํ๋๊ฐ ๋์ ๋๊ฒ ์ค๋ฅด๋ ๋ฑ, ๋ก๋ด ๋ณตํฉ๊ณผ์ ๊ฐ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ฌ๊ณ ๋ ฅ์ ๋์ด์ฌ๋ฆผ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ฌํ ablation ์ฐ๊ตฌ๋ค์ RoboMamba ์ค๊ณ ์ ํ์ ์ ๋น์ฑ์ ๋ท๋ฐ์นจํ๋ฉฐ, โ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ + ์ผ๋ฐ/๋ก๋ด ๊ณต๋ํ์ตโ์ด๋ผ๋ ์ปค๋ฆฌํ๋ผ์ ํํ๊ณผ, โ์ถฉ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ ํ๋ณด ํ ๊ฒฝ๋ ํค๋ ๋ฏธ์ธ์กฐ์ โ์ด๋ผ๋ ์ ๊ทผ์ ํ๋น์ฑ์ ๋ฐ์ดํฐ๋ก ์ฆ๋ช ํฉ๋๋ค.
์คํ๊ฒฝ ๋ก๋ด ์คํ (Real-World Experiments)
๋ ผ๋ฌธ ๋ง์ง๋ง์ผ๋ก, ํ๋ จ๋ RoboMamba๋ฅผ ์ค์ ๋ก๋ด ํ๋ซํผ์ ์ ์ฉํ ๊ฒฐ๊ณผ๊ฐ ์๊ฐ๋ฉ๋๋ค.
Figure 4์๋ ๋ค์ํ ์ค์ ๊ฐ์ ์ฉ ๋ฌผ์ฒด๋ค์ ๋ํ RoboMamba์ ๋์๊ณผ ์๋ต ์์๊ฐ ๋์ ์์ต๋๋ค. ์ฃผ์ ๊ด์ฐฐ์ ์ ๋ฆฌํ๋ฉด:
- ์ฅ๊ธฐ ๊ณํ(Task Planning): โํ ์ด๋ธ์ ์น์ฐ๋ ๋ฒโ, โ์ท์ฅ ์ ๋ฆฌ ๋ฐฉ๋ฒโ ๊ฐ์ ๋ณต์กํ ์ง์์์, RoboMamba๋ ์ํฉ์ ๋ง๋ ๋ค๋จ๊ณ ๊ณํ์ ์ ํํ ๊ธฐ์ ํ์ต๋๋ค. ๋ฐ๋ฉด ๋น๊ต ๋์(LLaMA-AdapterV2)๋ ์๋์ ์ผ๋ก ๋จ์ํ๊ฑฐ๋ ๋ถ์ ํํ ๋ต์ ๋ด๋์ ๋์กฐ๋์๋๋ฐ, ์ด๋ RoboMamba์ ๊ฐํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ค์ ๊ณํ ์๋ฆฝ์ ํจ๊ณผ์ ์์ ๋ณด์ฌ์ค๋๋ค. ๋ ๋ชจ๋ธ ๋ชจ๋ ๋์ผํ๊ฒ RoboVQA ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ๋ ์ํ์์์ ๋น๊ต์๊ธฐ์, ๋ชจ๋ธ ์ํคํ ์ฒ์ ํ๋ จ์ ๋ต์ ์ฐจ์ด๊ฐ ๊ณง ์ฑ๋ฅ ์ฐจ์ด๋ก ๋๋ฌ๋ ์ ์ ๋๋ค.
- ์ดํฌ๋์ค ์ธ์ ๋ฐ ์ฅ๋ฉด ์ดํด: RoboMamba๋ ์ฃผ์ด์ง ์ค์ ์ฌ์ง์์ ์ด๋ค ๋ถ๋ถ์ ์กฐ์ํ ์ ์๋์ง ์๋ณํ๊ณ ๊ทธ ์ด์ ๋ฅผ ์ค๋ช ํ๋ ๋ฐ์๋ ๋ฅํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฑ ์ ๋จํ ์ฌ์ง์ ๋ณด๊ณ โ๋จํ ๊ฐ์ ์ก๊ณ ๋๋ฆฌ๋ฉด ์ผค ์ ์๋คโ, ํ ์คํฐ ์ฌ์ง์ ๋ณด๊ณ โ๋ ๋ฒ๋ฅผ ๋๋ฅด๋ฉด ๋์ํ๋คโ ๋ฑ ์ฌ๋ฐ๋ฅธ ์กฐ์ ๋ถ์์ ๋์์ ์ธ๊ธํ์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ํ๊ฒฝ์์ ํ๋ ๊ฐ๋ฅํ ๋์๊ณผ ํ๋ ๋ฐฉ๋ฒ์ ์ธ์ด๋ก ํํํ ์ ์์์ ์๋ฏธํ๋ฉฐ, RoboMamba๊ฐ ์๊ฐ ์ดํด์ ๋ก๋ด ์ง์์ ๊ฒฐํฉํ ์ฑ๊ณผ์ ๋๋ค.
- ๊ณผ๊ฑฐ ๋ฐ ๋ฏธ๋ ์ถ๋ก : ์ผ๋ถ ์คํ์์๋ ์ผ๋ จ์ ์ด๋ฏธ์ง๋ค์ ์ฃผ๊ณ โ์ด์ ์ํฉ์ ์ด๋ ๋๊ฐ?โ ํน์ โ๋ค์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋ ๊น?โ๋ฅผ ๋ฌป๊ธฐ๋ ํ๋๋ฐ, RoboMamba๋ ๊ณผ๊ฑฐ ํ๋ ์์ ์์ ์ด๋ ๋ฏธ๋ ๊ฒฐ๊ณผ ์์ธก ์ญ์ ์ฌ๋์ด ๊ธฐ๋ํ๋ ๋ฐฉํฅ์ผ๋ก ์๋ตํ์ต๋๋ค. ์์ปจ๋ ์ฌ๋์ด ์ปต์ ์๋ ์ฐ์ ๋์์์ โ์ด์ ์๋ ์ปต์ด ๋๋ฐ๋ก ์์๋๋ฐ ์ง๊ธ ์ฐ๋ฌ์ก๋คโ, โ์ดํ์๋ ์ก์ฒด๊ฐ ์์์ ธ ํผ์ง ๊ฒ์ด๋คโ ๋ฑ ์ํฉ์ ์ ํํ ์ง์์ต๋๋ค. ์ด๋ ์๊ฐ์ ์ถ๋ก ๋ฐ ์์๊น์ง ๊ฒธ๋นํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค.
- ์ค์ ๋ฌผ์ฒด ์กฐ์: ์ฐ๊ตฌ์ง์ Franka Panda ๋ก๋ดํ๋ก ์ค์ ๋ฌผ๊ฑด๋ค์ ์กฐ์ํ๋ ์์ฐ๋ ์ํํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌธ๊ณ ๋ฆฌ๋ฅผ ์ก์๋น๊ฒจ ๋ฌธ ์ด๊ธฐ, ๋จํ ์ค์์น ๋๋ฅด๊ธฐ ๋ฑ ๋์์ ํ ์คํธํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. RoboMamba๋ ์นด๋ฉ๋ผ ์์ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ ์ด ์ง์ ํฝ์ ๊ณผ ํ์ ๊ฐ์ ์์ธกํ๊ณ , ์ด๋ฅผ ์ค์ ์ขํ๋ก ๋ณํํ์ฌ ๋ก๋ด์ ๊ตฌ๋ํ์ต๋๋ค. Figure 4 ์ค๋ฅธ์ชฝ ์๋์๋, ์นด๋ฉ๋ผ ์์์ ๋นจ๊ฐ ์ (์ ์ด์ )๊ณผ ํ๋ ๋ก๋ดํ ๊ทธ๋ฆผ(์์ธก ์์ธ)์ ๊ฒน์ณ ํ์ํ ์์๊ฐ ๋์ต๋๋ค. ์ ๋ฐ์ ์ผ๋ก ์์ธก ์ง์ ์ด ์ ํํ ๋ฌผ์ฒด์ ์์ก์ด/๋ฒํผ ๋ฑ์ ์ผ์นํ๋ฉฐ, ํ์ ๋ฐฉํฅ๋ ์ ์ ํ๊ฒ ์ฐ์ถ๋์์์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ์๋ฎฌ๋ ์ด์ ์์์ ๋์ ์ฑ๊ณต๋ฅ ์ด ์ค๋ฌผ์์๋ ์ฌํ๋ ์ ์์์ ์์ฌํฉ๋๋ค. ๋ช๋ช ์ถ๊ฐ ์ฌ๋ก ๋ฐ ๋ฐ๋ชจ ๋น๋์ค๋ ๋ถ๋ก๊ณผ ํ๋ก์ ํธ ํ์ด์ง์ ๊ณต๊ฐ๋์ด ์์ต๋๋ค.
์ ์ฒด์ ์ผ๋ก, RoboMamba๋ ๊ฐ์ ํ๊ฒฝ๋ฟ ์๋๋ผ ์ค์ ํ๊ฒฝ์์๋ ์ ์ฉํ ๋ก๋ด ์ง๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค๊ณ ํ๊ฐํ ์ ์์ต๋๋ค. ๊ณ ์ฐจ์ ์ธ์ด ์ถ๋ก , ์๊ฐ์ ์ดํฌ๋์ค ์ดํด, ์ค์๊ฐ ์์ธ ์ฐ์ถ์ด ์ด์ฐ๋ฌ์ ธ, ๋ก๋ด์ ์ธ์ง์ ํ๋์ ์ฐ๊ฒฐํ๋ ํตํฉ AI์ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณผ์ (Conclusion and Future Work)
RoboMamba ์ฐ๊ตฌ๋ ๋ก๋ด์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ๋ชจ๋ธ ์ค๊ณ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ์ต๋๋ค. ํจ์จ์ ์ธ ์ํ๊ณต๊ฐ LLM (Mamba)์ ์๊ฐ ์ธ์ฝ๋๋ฅผ ๊ฒฐํฉํด ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๋ณดํ๊ณ , ๊ฑฐ๊ธฐ์ ์์ฃผ ์๋์ ๋ฏธ์ธ์กฐ์ ๋ง์ผ๋ก ๋ก๋ด ์กฐ์ ๋ฅ๋ ฅ๊น์ง ๋ถ์ฌํ ์ ์์์ ์ ์ฆํ ๊ฒ์ ๋๋ค. ์ด๋ก์จ ๊ฑฐ๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ ฅ๊ณผ ๋ก์ฐ๋ ๋ฒจ ์ ์ด ์ฌ์ด์ ๊ฐ๊ทน์ ํจ์จ์ ์ผ๋ก ๋ฉ์ฐ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ , ์ถ๋ก ๋ฅ๋ ฅ์ ํด์น์ง ์์ผ๋ฉด์ ์กฐ์ ์คํฌ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ ๋ณด์์ต๋๋ค. RoboMamba๋ ์ผ๋ฐ ๋ฒค์น๋งํฌ์ ๋ก๋ด ํ๊ฐ ๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ธฐ๋กํ๊ณ , ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ์คํ์์ ์ต์ฒจ๋จ ์์ค์ ์์ธ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ 7MB์ง๋ฆฌ ํค๋๋ฅผ 20๋ถ ๋ง์ ํ์ตํ์ฌ ์๋ก์ด ๋ฅ๋ ฅ์ ์ต๋ํ ๊ฒ์, ๋ก๋ด ํ์ต์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๋ ํ๋์ ํด๋ฒ์ผ๋ก ํฐ ์๋ฏธ๊ฐ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก, ์ ์๋ค์ ๋ค์์ ์ธ๊ธํฉ๋๋ค:
- ์ฐ์ ํ์ต(Continual Learning): ์ค์ ๋ก๋ด ์ ์ฉ์ ์ํด์๋ ํ๊ฒฝ ๋ณํ๋ ์๋ก์ด ์์ ์ ์ง์์ ์ผ๋ก ๋ชจ๋ธ์ ์ ์์ํค๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ๊ณผ์ ์์ ์ด์ ์ง์์ ๋ณด์กดํ๊ณ ์ ์ง์ ์ผ๋ก ๋ฅ๋ ฅ์ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ (์: EWC ๋ฑ ์ง์ํ์ต ๊ธฐ๋ฒ)์ RoboMamba์ ์ ๋ชฉํ ๊ณํ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ค์ธ๊ณ์์ ๊ฒฝํ์ ์์ผ๋ฉฐ ์ฑ์ฅํ๋ ๋ก๋ด ๋ชจ๋ธ๋ก ๋ฐ์ ์ํค๊ณ ์ ํฉ๋๋ค.
- 3D ์ธ์ง ํตํฉ: ํ์ฌ RoboMamba๋ 2D ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ผ๋ก ๋์ํ์ง๋ง, ๋ก๋ด ์กฐ์์๋ 3D ์ ๋ณด๊ฐ ์ค์ํฉ๋๋ค. ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฐ์ 3D ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ 3์ฐจ์ ๋ก๋ด MLLM ๋ฐฉํฅ์ ๋ชจ์ํ๊ณ ์์ต๋๋ค. 3D ์ ๋ ฅ์ ๋ ํ๋ถํ ๊ธฐํํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ, ๋ณด๋ค ์ ๋ฐํ 6-DoF ์์ธ ์์ธก๊ณผ ๋ณต์กํ ๊ณต๊ฐ ์กฐ์์ ๋์์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ํฅํ RoboMamba๋ฅผ ์๊ฐ+์ธ์ด+3D ๋ฉํฐ๋ชจ๋ฌ๋ก ํ์ฅํ์ฌ, ์ ์ฒด์ ์ธ์ง์ ํ๋์ ๊ตฌํํ ๊ตฌ์์ ๊ฐ๊ณ ์์ต๋๋ค.
- ๋ชจ๋ธ ํ์ฅ๊ณผ ๊ณต๊ฐ: ๋น๊ณต์์ ์ผ๋ก๋ RoboMamba์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ด 7B ๋ฒ์ ์ด๋, ์ถ๊ฐ์ ์ธ ๋ก๋ด ๋ฐ์ดํฐ๋ก ๋์ฑ ์ ๊ตํ๊ฒ ํ๋ํ ๋ฒ์ ๋ฑ์ ๊ฐ๋ฐํ์ฌ ์์ ์ ์ฝ์ด ์ ์ ํ๊ฒฝ์์ ์ต๊ณ ์ฑ๋ฅ์ ์ถ๊ตฌํ ์๋ ์์ ๊ฒ์ ๋๋ค. ๋ํ ๋ ผ๋ฌธ์์ ์ธ๊ธ๋์ง ์์์ง๋ง, ์คํ์์ค ์ปค๋ฎค๋ํฐ์ ๋ชจ๋ธ์ ๊ณต๊ฐํ์ฌ ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ์ ์ฉํด๋ณด๋ ๊ฒ๋ ๊ธฐ๋ํ ์ ์์ต๋๋ค.
์์ปจ๋, RoboMamba๋ ๋ก๋ด ๋ถ์ผ์ ๋น์ -์ธ์ด-์ก์ ํตํฉ ์ฐ๊ตฌ์ ์์ด ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๋ ์ธก๋ฉด์์ ์๋ฏธ์๋ ์ง์ ์ ๋ณด์ฌ์ค ์ฌ๋ก์ ๋๋ค. Transformer ์์กด์์ ๋ฒ์ด๋ ์๋ก์ด ์ํคํ ์ฒ(Mamba)๋ก ์ฑ๊ณผ๋ฅผ ๋๋ค๋ ์ ๋ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ํฅํ ์ด ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ๊ณ์ ๋ฐ์ ํ๋ค๋ฉด, ๋ณด๋ค ๋๋ํ๊ณ ๋น ๋ฅธ ๋ก๋ด ๋น์๋ ์์จ์์ ๋ก๋ด์ ์คํ์ ํ ๊ฑธ์ ๋ค๊ฐ๊ฐ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. RoboMamba๊ฐ ๊ทธ ํ๋์ ์ด์ ํ๊ฐ ๋ ์ ์์ ๊ฒ์ ๋๋ค.