flowchart TD
A["๐ฃ๏ธ ๊ณ ์์ค ์ง์\n'์ปต์ ์ ์ ์์ ๋์๋ผ'"] --> B["๐๏ธ ์๊ฐ ์
๋ ฅ\n(์ด๋ฏธ์ง/๋น๋์ค)"]
B --> C["๐ง SigLIP Vision Encoder\nZv = g(Xv)"]
C --> D["๐ 2-Layer MLP Projector\nHv = h(Zv)"]
D --> E["๐ Qwen2.5-7B LLM\n(๊ธฐ๋ฐ ๋ชจ๋ธ)"]
E --> F["๐ ๋ค๋จ๊ณ ๊ณํ ์์ฑ\n1. ์ปต์ ์ ๊ทผ\n2. ์ปต์ ์ก๊ธฐ\n3. ์ปต ๋ค์ด์ฌ๋ฆฌ๊ธฐ\n..."]
F --> G["์๋ธํ์คํฌ๋ณ ๋ถ๊ธฐ"]
G --> H["๐ฏ A-LoRA\n์ดํฌ๋์ค ์์ธก"]
G --> I["๐ T-LoRA\n๊ถค์ ์์ธก"]
H --> J["๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ\n{l_x, l_y, r_x, r_y}"]
I --> K["์จ์ดํฌ์ธํธ ์ํ์ค\n{(xโ,yโ), (xโ,yโ), ...}"]
J --> L["๐ค ํตํฉ ์ถ๋ ฅ\n๊ณํ + ์ดํฌ๋์ค + ๊ถค์ "]
K --> L
style A fill:#E8F4FD,stroke:#2196F3
style E fill:#FFF3E0,stroke:#FF9800
style H fill:#E8F5E9,stroke:#4CAF50
style I fill:#F3E5F5,stroke:#9C27B0
style L fill:#FFEBEE,stroke:#F44336
๐RoboBrain ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
CVPR 2025
- ๐ง ๋ก๋ด ์กฐ์์ ์ํ ๊ธฐ์กด Multimodal Large Language Models (MLLMs)์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ์, RoboBrain์ ๊ณํ, affordance ์ธ์, trajectory ์์ธก ๋ฅ๋ ฅ์ ํตํฉํ ํต์ผ๋ ๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค.
- ๐ ์ด ๋ชจ๋ธ์ ์ถ์์ ์ธ ์ง์๋ฅผ ๊ตฌ์ฒด์ ์ธ ํ๋์ผ๋ก ๋ณํํ๊ธฐ ์ํด task planning, object affordance, end-effector trajectory๋ฅผ ํฌํจํ๋ ๊ณ ํ์ง์ ๋ค์ฐจ์ ShareRobot ๋ฐ์ดํฐ์ ์ ํ์ฉํฉ๋๋ค.
- ๐ ๋ค๋จ๊ณ ํ๋ จ ์ ๋ต๊ณผ ๊ณ ํด์๋ ์ด๋ฏธ์ง ๋ฐ ๊ธด ๋น๋์ค๋ฅผ ํตํฉํ์ฌ RoboBrain์ ๋ค์ํ ๋ก๋ด ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ ๋ก๋ด ์ธ๊ณต์ง๋ฅ ๋ฐ์ ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
โRoboBrain: A Unified Brain Model for Robotic Manipulationโ ๋ ผ๋ฌธ์ ๋ก๋ด ์กฐ์, ํนํ ์ฅ๊ธฐ์ (long-horizon) ์กฐ์ ์์ ์์ ๋ค์ค ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ํ์ฌ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ก๋ณด๋ธ๋ ์ธ(RoboBrain)์ด๋ผ๋ ํตํฉ ๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด MLLM์ ๊ณํ ๋ฅ๋ ฅ(Planning Capability), ์ดํฌ๋์ค ์ธ์(Affordance Perception), ๊ถค์ ์์ธก(Trajectory Prediction)์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋ก๋ด ๋๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ:
- ๋ก๋ณด๋ธ๋ ์ธ(RoboBrain) ์ ์: ๋ก๋ด ์กฐ์์ ์ํ ํตํฉ MLLM์ผ๋ก, ์ถ์์ ์ธ ๋ช ๋ น์ ๊ตฌ์ฒด์ ์ธ ํ๋์ผ๋ก ์ ํํ์ฌ ํจ์จ์ ์ธ ์์ ์คํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์์ด๋ก๋ด(ShareRobot) ๋ฐ์ดํฐ์ ๊ตฌ์ถ: ์์ ๊ณํ, ๊ฐ์ฒด ์ดํฌ๋์ค, ์๋ ์ดํํฐ(end-effector) ๊ถค์ ๊ณผ ๊ฐ์ ๋ค์ฐจ์ ์ ๋ณด๋ฅผ ๋ ์ด๋ธ๋งํ ๊ณ ํ์ง์ ์ด๊ธฐ์ข ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ค์ํ ๋ก๋ด ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํต๋๋ค.
- ๋ค๋จ๊ณ ํ์ต ์ ๋ต: ๋ก๋ด ๋ฐ์ดํฐ์ ์ผ๋ฐ ๋ค์ค ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ๊ณ , ์ฅ๊ธฐ ๋น๋์ค์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ํตํฉํ์ฌ ๋ก๋ด ์กฐ์ ๋ฅ๋ ฅ์ ๊ฐํํฉ๋๋ค.
- ์ต์ฒจ๋จ(SOTA) ์ฑ๋ฅ ๋ฌ์ฑ: ๋ค์ํ ๋ก๋ด ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ฌ ์ค์ ๋ก๋ด ์์ฉ ๋ถ์ผ์์์ ์ ์ฌ๋ ฅ์ ๊ฐ์กฐํฉ๋๋ค.
์์ด๋ก๋ด(ShareRobot) ๋ฐ์ดํฐ์ :
์์ด๋ก๋ด์ ๋ก๋ด ์กฐ์ ์์ ์ ์ํด ํน๋ณํ ์ค๊ณ๋ ๋๊ท๋ชจ์ ์ ๋ฐ ๋ฐ์ดํฐ์ ์ ๋๋ค.
- ์ ๋ฐ์ฑ(Fine-grained): Open X-Embodiment ๋ฐ์ดํฐ์ ๊ณผ ๋ฌ๋ฆฌ, ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ๊ฐ๋ณ ํ๋ ์์ ์ฐ๊ฒฐ๋ ์์ธํ ์ ์์ค ๊ณํ ๋ช ๋ น์ ํฌํจํฉ๋๋ค.
- ๋ค์ฐจ์์ฑ(Multi-dimensional): ์์ ๊ณํ, ๊ฐ์ฒด ์ดํฌ๋์ค, ์๋ ์ดํํฐ ๊ถค์ ์ ๋ ์ด๋ธ๋งํ์ฌ ๋ก๋ณด๋ธ๋ ์ธ์ ๋ฅ๋ ฅ์ ๊ฐํํฉ๋๋ค. ์ดํฌ๋์ค๋ ๋ฌผ์ฒด์ ์ํธ์์ฉํ๋ ์์ญ์ ๋ฐ์ด๋ฉ ๋ฐ์ค \{l(x), l(y), r(x), r(y)\}๋ก ํํํฉ๋๋ค. ๊ถค์ ์ ์๋ ์ดํํฐ์ ์์ง์์ ๋ํ๋ด๋ 2D ์จ์ดํฌ์ธํธ ์ํ์ค \{(x_i, y_i)\}๋ก ์ ์๋ฉ๋๋ค.
- ๊ณ ํ์ง(High quality): Open X-Embodiment ๋ฐ์ดํฐ์ ์์ ์ด๋ฏธ์ง ํด์๋, ์ค๋ช ์ ํ๋, ์ฑ๊ณต์ ์ธ ์์ ์คํ, ๋ช ํํ ์ดํฌ๋์ค ๋ฐ ๊ถค์ ๊ณผ ๊ฐ์ ์๊ฒฉํ ๊ธฐ์ค์ ์ ์ฉํ์ฌ 51,403๊ฐ์ ์ธ์คํด์ค๋ฅผ ์ ๋ณํ์ต๋๋ค.
- ๋๊ท๋ชจ(Large scale): 1,027,990๊ฐ์ ์ง์-์๋ต(QA) ์์ ํฌํจํ์ฌ, ๋ก๋ด ์์ ๊ณํ, ์ดํฌ๋์ค ์ธ์ ๋ฐ ๊ถค์ ์์ธก์ ์ํ ์ต๋ ๊ท๋ชจ์ ์คํ์์ค ๋ฐ์ดํฐ์ ์ ๋๋ค.
- ํ๋ถํ ๋ค์์ฑ(Rich diversity): 102๊ฐ์ ๋ค์ํ ์ฅ๋ฉด(์นจ์ค, ์คํ์ค, ์ฃผ๋ฐฉ, ์ฌ๋ฌด์ค ๋ฑ), 12๊ฐ์ ๋ก๋ด ์๋ ์ดํํฐ, 107๊ฐ์ง ์ ํ์ ์์ ์์ ์ ํฌํจํฉ๋๋ค. ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ์ ๋ฏธ๋(Gemini) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๊ณ ์์ค ์ค๋ช ์ ์ ์์ค ๊ณํ ๋ช ๋ น์ผ๋ก ๋ถํดํ๊ณ , ์ธ๊ฐ ์ฃผ์์๊ฐ ์ด๋ฅผ ๊ฒํ ๋ฐ ์ ์ ํ์ฌ 10๊ฐ์ง ์ง๋ฌธ ์ ํ์ ๋ํ ์ง์-์๋ต ์์ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค.
๋ก๋ณด๋ธ๋ ์ธ(RoboBrain) ๋ชจ๋ธ:
๋ก๋ณด๋ธ๋ ์ธ์ ์ถ์์ ์ธ ๋ช ๋ น์ ์ดํดํ๊ณ ๊ฐ์ฒด ์ดํฌ๋์ค ์์ญ ๋ฐ ์ ์ฌ์ ์ธ ์๋ ๊ถค์ ์ ๋ช ์์ ์ผ๋ก ์ถ๋ ฅํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ๋ชจ๋ธ ์ํคํ
์ฒ: LLaVA ์ํคํ
์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
- ์๊ฐ ์ธ์ฝ๋(Vision Encoder): SigLIP ๋ชจ๋ธ(siglip-so400m-patch14-384)์ ์ฌ์ฉํ๋ฉฐ, ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์๊ฐ์ ํน์ง Z_v = g(X_v)๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
- ํ๋ก์ ํฐ(Projector): 2๊ณ์ธต MLP(Multi-Layer Perceptron) h(\cdot)๋ก, Z_v๋ฅผ LLM์ ์๋ฏธ ๊ณต๊ฐ์ผ๋ก ๋งคํํ์ฌ ์๊ฐ ํ ํฐ H_v = h(Z_v)๋ฅผ ์์ฑํฉ๋๋ค.
- ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM): Qwen2.5-7B-Instruct๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํ ์คํธ ๋ช ๋ น X_t์ ์๊ฐ ํ ํฐ H_v๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ ์๋ต์ ์๊ธฐํ๊ท(autoregressive) ๋ฐฉ์์ผ๋ก ์์ฑํฉ๋๋ค.
- A-LoRA ๋ชจ๋: ์ดํฌ๋์ค ์ธ์์ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
- T-LoRA ๋ชจ๋: ๊ถค์ ์์ธก์ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
- ํ์ต ์ ๋ต (๋ค๋จ๊ณ):
- Phase 1: ์ผ๋ฐ OV ํ์ต (๊ธฐ๋ฐ MLLM ๊ฐ๋ฐ)
- Stage 1 (์ ๋ ฌ ๋ฐ ์ผ๋ฐ ์ง์ ํ์ต): LCS-558K ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์๊ฐ์ ํน์ง๊ณผ LLM ์๋ฏธ ๊ณต๊ฐ์ ์ ๋ ฌํฉ๋๋ค.
- Stage 1.5 (๋ค์ค ๋ชจ๋ฌ ์ผ๋ฐ ์ดํด ๊ฐํ): 4M ๊ณ ํ์ง ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ ์ฒด ๋ชจ๋ธ์ ํ์ตํฉ๋๋ค.
- Stage 2 (์๊ฐ ๋ช ๋ น ํ๋): LLaVA-OneVision-Data์ 3.2M ๋จ์ผ ์ด๋ฏธ์ง ๋ฐ 1.6M ์ด๋ฏธ์ง/๋น๋์ค ๋ฐ์ดํฐ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์ดํด๋ฅผ ํฅ์์ํต๋๋ค.
- Phase 2: ๋ก๋ด ํ์ต (ํต์ฌ ๋ฅ๋ ฅ ๊ฐํ)
- Stage 3 (๋ก๋ด ์ง์ ํ์ต): RoboVQA-800K, ScanView-318K, ์์ด๋ก๋ด-200K๋ฅผ ํฌํจํ 1.3M ๋ก๋ด ๋ฐ์ดํฐ์ Phase 1์ 1.7M ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํผํฉํ์ฌ ๋ชจ๋ธ์ ์กฐ์ ๊ณํ ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค. ํ๊ตญ์ ๋ง๊ฐ(catastrophic forgetting) ๋ฌธ์ ์ํ๋ฅผ ์ํด ๋ฐ์ดํฐ ํผํฉ์ด ์ด๋ฃจ์ด์ง๋๋ค.
- Stage 4 (๋ก๋ด ๋ค์ค ์์ ํ์ต): ์์ด๋ก๋ด ๋ฐ ๊ธฐํ ์คํ์์ค์ ์ดํฌ๋์ค ๋ฐ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ LoRA ๋ชจ๋์ ํตํด ๊ตฌ์ฒด์ ์ธ ์กฐ์ ๋ฅ๋ ฅ์ ๊ฐํํฉ๋๋ค.
- Phase 1: ์ผ๋ฐ OV ํ์ต (๊ธฐ๋ฐ MLLM ๊ฐ๋ฐ)
์คํ ๊ฒฐ๊ณผ:
- ๊ณํ ์์ : ๋ก๋ณด๋ธ๋ ์ธ์ RoboVQA, OpenEQA, ์์ด๋ก๋ด ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด MLLM(GPT-4V, LLaVA-1.5, LLaVA-OneVision-7b, Qwen2-VL-7b) ๋ฐ ๋ก๋ด ๋ชจ๋ธ(RoboMamba)์ ๋ชจ๋ ๋ฅ๊ฐํ๋ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ RoboVQA์์ BLEU-4 ์ ์์์ 2์ ๋ชจ๋ธ๋ณด๋ค 18.75% ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ์ดํฌ๋์ค ์์ธก: ํ๊ท ์ ๋ฐ๋(AP) ์งํ์์ Qwen2-VL-7B(12.5% AP) ๋ฐ LLaVA-NeXT-7B(9.8% AP)๋ณด๋ค ํจ์ฌ ์ฐ์ํ 27.1% AP๋ฅผ ๋ฌ์ฑํ์ฌ ๊ฐ์ฒด์ ๋ฌผ๋ฆฌ์ ์์ฑ ์ดํด ๋ฐ ์ ํํ ์ดํฌ๋์ค ์ ๊ณต ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
- ๊ถค์ ์์ธก: ์ด์ฐ ํ๋ ์ ฐ ๊ฑฐ๋ฆฌ(DFD), ํ์ฐ์ค๋๋ฅดํ ๊ฑฐ๋ฆฌ(HD), ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(RMSE) ์งํ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์จ์ดํฌ์ธํธ, ์์์ ๋ฐ ํน์ ํ ํฐ์ ํตํฉํ ๋ชจ๋ธ์ DFD, HD, RMSE์์ ๊ธฐ์ค์ ๋๋น ๊ฐ๊ฐ 42.9%, 94.2%, 31.6%์ ๊ฐ์๋ฅผ ๋ณด์ฌ ๊ถค์ ์์ธก ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ์์์ ์ถ๊ฐ๋ ์์ฑ๋ ๊ถค์ ๊ณผ ์๋ ์ดํํฐ ๊ฐ์ ๋ณ์ง ์คํ์ ์ ๊ต์ ํ๋ ๋ฐ ํจ๊ณผ์ ์ด์์ต๋๋ค.
- ์ผ๋ฐ ๋ฒค์น๋งํฌ: OCR, ์๊ฐ์ ์ธ์, ๋ค์ค ๋๋ฉ์ธ ์ถ๋ก , ์ค์ ํ๊ฒฝ ์ดํด ๋ฑ ๋ค์ํ ์ผ๋ฐ ๋ฒค์น๋งํฌ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ ๋ก๋ด ์์ ์ ์ต์ ํ๋์์์๋ ๋ถ๊ตฌํ๊ณ ์ ๋ฐ์ ์ธ ์ง์ ๊ธฐ๋ฐ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
- ์ด๋ธ๋ ์ด์ ์ฐ๊ตฌ: ์์ด๋ก๋ด ๋ฐ์ดํฐ์ ์ ํฌํจ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ๋น์จ(ํนํ 4:6 ๋น์จ)์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ฏธ์นจ์ ํ์ธํ์ต๋๋ค. ๋ค๋จ๊ณ ํ์ต ์ ๋ต์ด ๋ชจ๋ธ์ ๊ณํ ๋ฐ ์กฐ์ ๋ฅ๋ ฅ์ ์ ์ง์ ์ผ๋ก ํฅ์์ํด์ ์ ์ฆํ์ต๋๋ค.
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ:
๋ก๋ณด๋ธ๋ ์ธ์ ๋ก๋ด ์กฐ์์ ์ํ ํต์ผ๋ MLLM์ผ๋ก, ์์ด๋ก๋ด ๋ฐ์ดํฐ์ ๊ณผ ๋ค๋จ๊ณ ํ์ต ์ ๋ต์ ํตํด ์ถ์์ ์ธ ๋ช ๋ น์ ๊ตฌ์ฒด์ ์ธ ๋ก๋ด ํ๋์ผ๋ก ์ ํํ๋ ๋ฐ ํฐ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ๊ณต๊ฐ ์ดํด, ๊ตฌ์ฒดํ๋ ์ถ๋ก , ๋๊ตฌ ํ์ฉ, ์ฅ๋ฌธ ํ ์คํธ ์ดํด์ ๊ฐ์ ๋ก๋ณด๋ธ๋ ์ธ์ ๋ค์ํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ , ํจ์จ์ฑ๊ณผ ์์ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํ์ฌ ์ค์ ์๋๋ฆฌ์ค์ ์ ์ฉํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ๋ก๋ด์๊ฒ โ์๊ฐํ๋ ๋โ๋ฅผ ์ค ์ ์์๊น?
๋ก๋ด์๊ฒ โ์ฐป์ฃผ์ ์๋ฅผ ๋ค์ด์ ์ปต์ ๋ฌผ์ ๋ฐ๋ผ์คโ๋ผ๊ณ ๋งํ๋ค๊ณ ์์ํด ๋ณด์. ์ฐ๋ฆฌ ์ธ๊ฐ์ ์ด ๋ฌธ์ฅ์ ๋ฃ๋ ์๊ฐ ๋จธ๋ฆฟ์์์ ๋ฌด์์์ ์ผ๋ก ์์ฒญ๋ ์ฐ์ ์์ ์ ์ํํ๋ค. ๋จผ์ โ์ฐป์ฃผ์ ์์ ์ ๊ทผ โ ์์ก์ด๋ฅผ ์ก์ โ ๋ค์ด์ฌ๋ ค โ ์ปต ์๋ก ์ด๋ โ ๊ธฐ์ธ์ฌ ๋ฐ๋ฅด๊ธฐโ๋ผ๋ ๊ณํ(Planning) ์ ์ธ์ฐ๊ณ , ์ฐป์ฃผ์ ์์ ์ด๋๋ฅผ ์ก์์ผ ํ๋์ง ์กฐ์ ๊ฐ๋ฅ ์์ญ(Affordance) ์ ํ์ ํ๋ฉฐ, ์์ ํ์ฌ ์์น์์ ์์ก์ด๊น์ง ์ด๋ค ๊ฒฝ๋ก๋ก ์์ง์ฌ์ผ ํ๋์ง ๊ถค์ (Trajectory) ์ ์๋ฌต์ ์ผ๋ก ๊ณ์ฐํ๋ค.
ํ์ฌ์ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ง๋ฌธ์ ๋ตํ๊ฑฐ๋, ์ฅ๋ฉด์ ๋ฌ์ฌํ๋ ๋ฐ๋ ๋ฐ์ด๋๋ค. ๊ทธ๋ฐ๋ฐ ์์ ๊ฐ์ ๋ก๋ด ์กฐ์์ ํต์ฌ ์ธ ๊ฐ์ง ๋ฅ๋ ฅ โ ๊ณํ, ์ดํฌ๋์ค ์ธ์ง, ๊ถค์ ์์ธก โ ์ ๋์์ ํด๋ด๋ ๊ฒ์๋ ์ฌ์ ํ ์ํฌ๋ฅด๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด ๊ฐ๊ทน์ ๋ฉ์ฐ๋ ค๋ ์๋๋ค.
ํต์ฌ ์ง๋ฌธ์ ๋ช ํํ ํ๋ฉด ์ด๋ ๋ค:
โ์ถ์์ ์ธ ์์ฐ์ด ์ง์๋ฅผ ๋ฐ์์, ๊ตฌ์ฒด์ ์ธ ์กฐ์ ํ๋(์ด๋๋ฅผ ์ก๊ณ , ์ด๋ค ๊ฒฝ๋ก๋ก ์์ง์ผ์ง)์ผ๋ก ๋ณํํ๋ ํตํฉ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋๊ฐ?โ
RoboBrain์ ์ด ์ง๋ฌธ์ ๋ํ ํ๋์ ๋ต์ ์ ์ํ๋ค. โAbstract to Concreteโ๋ผ๋ ๋ถ์ ๊ฐ ๋งํ๋ฏ, ์ถ์์ ์ง์์์ ๊ตฌ์ฒด์ ํ๋๊น์ง์ ์ ๊ณผ์ ์ ํ๋์ MLLM ์์์ ์ฒ๋ฆฌํ๊ฒ ๋ค๋ ๊ฒ์ด ์ด ์ฐ๊ตฌ์ ์ผ์ฌ์ด๋ค.
์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
๊ธฐ์กด ๋ก๋ด ์กฐ์ ์ฐ๊ตฌ์ ํ๋ฆ์ ํฌ๊ฒ ๋ณด๋ฉด, ๋ ๊ฐ๋๋ก ๋๋๋ค:
- ๊ณ ์์ค ๊ณํ (High-level Planning): LLM/VLM์ ์ด์ฉํด ํ์คํฌ๋ฅผ ์๋ธํ์คํฌ๋ก ๋ถํดํ๋ ์ฐ๊ตฌ (์: SayCan, Inner Monologue, RT-H)
- ์ ์์ค ์ ์ด (Low-level Control): VLA ๋ชจ๋ธ์ด ์ง์ end-effector ์ก์ ์ ์ถ๋ ฅํ๋ ์ฐ๊ตฌ (์: RT-2, OpenVLA, ฯโ)
๋ฌธ์ ๋ ์ด ๋ ์ธ๊ณ๊ฐ ์ ์ฐ๊ฒฐ๋์ง ์๋๋ค๋ ์ ์ด๋ค. ๊ณํ์ ์ธ์ฐ๋๋ฐ ์ค์ ๋ก ์ด๋๋ฅผ ์ก์์ง ๋ชจ๋ฅด๊ฑฐ๋, ๊ถค์ ์ ์์ธกํ๋๋ฐ ์ ๊ทธ ๊ถค์ ์ด์ด์ผ ํ๋์ง ๋งฅ๋ฝ์ด ์๊ฑฐ๋. RoboBrain์ ์ด ๋ ์ฌ์ด์ โ๋น ์ง ๊ณ ๋ฆฌ(missing link)โ โ ์ดํฌ๋์ค์ ๊ถค์ ์์ธก โ ์ ํตํฉํจ์ผ๋ก์จ, ํ๋์ ๋ชจ๋ธ ์์์ โ์ โ ๋ฌด์์ โ ์ด๋ป๊ฒโ์ ์ ์ฒด ์คํํธ๋ผ์ ๋ค๋ฃจ๊ณ ์ ํ๋ค.
ํต์ฌ ๊ธฐ์ฌ: ๋ฐ์ดํฐ + ๋ชจ๋ธ + ํ์ต ์ ๋ต์ ์ผ์์ผ์ฒด
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ ํฌ๊ฒ ์ธ ์ถ์ผ๋ก ์ ๋ฆฌํ ์ ์๋ค:
| ๊ธฐ์ฌ | ๋ด์ฉ | ํต์ฌ ๊ฐ์น |
|---|---|---|
| ShareRobot ๋ฐ์ดํฐ์ | ๊ณํยท์ดํฌ๋์คยท๊ถค์ ์ ๋ค์ฐจ์ ๋ ์ด๋ธ์ด ํฌํจ๋ 100๋ง+ QA์ | ๊ธฐ์กด์ ์๋ ์ธ๋ฐํ ๋ก๋ด ์กฐ์ ํ์ต ๋ฐ์ดํฐ |
| RoboBrain ๋ชจ๋ธ | LLaVA ๊ธฐ๋ฐ MLLM์ A-LoRA/T-LoRA๋ฅผ ๊ฒฐํฉํ ํตํฉ ์ํคํ ์ฒ | ํ๋์ ๋ชจ๋ธ์์ ๊ณํโ์ดํฌ๋์คโ๊ถค์ ์ ๋ชจ๋ ์ฒ๋ฆฌ |
| ๋ค๋จ๊ณ ํ์ต ์ ๋ต | ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํ์ต(Phase 1) โ ๋ก๋ด ํนํ ํ์ต(Phase 2)์ 4+2 ์คํ ์ด์ง | Catastrophic forgetting ๋ฐฉ์ง์ ๋ฅ๋ ฅ ์ ์ง์ ํ์ฅ |
๋ฐฉ๋ฒ๋ก ์์ธ ๋ถ์
RoboBrain ๋ชจ๋ธ ์ํคํ ์ฒ: โํ๋์ ๋, ์ธ ๊ฐ์ง ๋ฅ๋ ฅโ
RoboBrain์ ์ํคํ ์ฒ๋ฅผ ์ดํดํ๋ ๊ฐ์ฅ ์ข์ ๋น์ ๋ ์ธ๊ฐ์ ๋๋ ํผ์ง์ด๋ค. ๋๋์๋ ์ธ์ด๋ฅผ ๋ด๋นํ๋ ์์ญ, ์๊ฐ์ ์ฒ๋ฆฌํ๋ ์์ญ, ์ด๋์ ๊ณํํ๋ ์์ญ์ด ์์ง๋ง, ์ด๋ค์ด ์๋ก ๊ธด๋ฐํ ์ฐ๊ฒฐ๋์ด ํ๋์ ํตํฉ๋ ์ธ์ง๋ฅผ ๋ง๋ค์ด๋ธ๋ค. RoboBrain๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ํ๋์ ๊ธฐ๋ฐ ๋ชจ๋ธ ์์ ํนํ๋ ๋ชจ๋๋ค์ด ํ๋ ฅํ๋ ๊ตฌ์กฐ๋ค.
๊ธฐ๋ฐ ๋ชจ๋ธ (Foundation Model for Planning)
LLaVA-OneVision ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ ๋ชจ๋๋ก ๊ตฌ์ฑ๋๋ค:
- Vision Encoder (ViT): SigLIP โ ์๊ฐ ์ ๋ ฅ์ ํน์ง ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉ
- Projector: 2-layer MLP โ ์๊ฐ ํน์ง์ LLM์ ์๋ฏธ ๊ณต๊ฐ์ผ๋ก ๋งคํ
- LLM: Qwen2.5-7B-Instruct โ ์ต์ข ํ ์คํธ ์๋ต ์์ฑ
์ํ์ ์ผ๋ก ํํํ๋ฉด:
Z_v = g(X_v) \quad \text{(์๊ฐ ์ธ์ฝ๋ฉ)}
H_v = h(Z_v) \quad \text{(์๋ฏธ ๊ณต๊ฐ ๋งคํ)}
Y = f(H_v, X_t) \quad \text{(์ธ์ด ์ง์ } X_t \text{์ ๊ธฐ๋ฐํ ์๊ธฐํ๊ท ์์ฑ)}
์ฌ๊ธฐ์ g(\cdot)๋ SigLIP ViT, h(\cdot)๋ 2-layer MLP Projector, f(\cdot)๋ Qwen2.5 LLM์ด๋ค.
์ด ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๊ณํ(Planning) ๋ฅ๋ ฅ์ ๋ด๋นํ๋ค. ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ๋ณด๊ณ , ์์ฐ์ด ์ง์๋ฅผ ๋ฐ์, ๋ค๋จ๊ณ ๊ณํ์ ํ ์คํธ๋ก ์ถ๋ ฅํ๋ค.
A-LoRA: ์ดํฌ๋์ค ์ธ์ง ๋ชจ๋
์ดํฌ๋์ค ์์ธก์ ์ํ ์ ์ฉ LoRA(Low-Rank Adaptation) ๋ชจ๋์ด๋ค. ์ฌ๊ธฐ์ โ์ดํฌ๋์คโ๋ ์ธ๊ฐ์ ์์ด ๋ฌผ์ฒด์ ์ ์ดํ๋ ์์ญ์ ์๋ฏธํ๋ค. ํ๋์ ๋ฌผ์ฒด์ ์ฌ๋ฌ ์ดํฌ๋์ค๊ฐ ์กด์ฌํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํ์์ ์ผ๋ก ํํํ๋ฉด:
O_i = \{A_i^0, A_i^1, \ldots, A_i^N\}
๊ฐ ์ดํฌ๋์ค A_i^k๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ \{l^{(x)}, l^{(y)}, r^{(x)}, r^{(y)}\}๋ก ํํ๋๋ค.
A-LoRA๋ฅผ ๋ณ๋๋ก ๋ถ๋ฆฌํ ์ด์ ๊ฐ ํฅ๋ฏธ๋ก์ด๋ฐ, ์ดํฌ๋์ค ์์ธก์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ์ธ์ด ์์ฑ๊ณผ๋ ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฅ๋ ฅ โ ๊ณต๊ฐ์ ์์น ์ถ๋ก โ ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ด๋ค. LoRA๋ฅผ ์ฌ์ฉํ๋ฉด ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ๊ฑด๋๋ฆฌ์ง ์๊ณ ๋ ์ด ํนํ๋ ๋ฅ๋ ฅ์ ์ถ๊ฐํ ์ ์๋ค.
T-LoRA: ๊ถค์ ์์ธก ๋ชจ๋
๊ถค์ ์์ธก์ ์ํ ๋ ๋ค๋ฅธ ์ ์ฉ LoRA ๋ชจ๋์ด๋ค. ์๊ฐ ๋จ๊ณ t์์์ ๊ถค์ ์จ์ดํฌ์ธํธ๋ฅผ ๋ค์์ฒ๋ผ ์์ธกํ๋ค:
P_{t:N} = \{(x_i, y_i) \mid i = t, t+1, \ldots, N\}
์ขํ๋ [0, 1000) ๋ฒ์๋ก ์ ๊ทํ๋๋ฉฐ(Qwen2-VL์ ๋ฐฉ์์ ๋ฐ๋ฆ), ๋ชจ๋ธ์ ์ด ์ขํ ์ํ์ค๋ฅผ ํ ์คํธ ํ ํฐ์ผ๋ก ์๊ธฐํ๊ท์ ์ผ๋ก ์์ฑํ๋ค.
์ค์ ์ด์ฉ ํ์ดํ๋ผ์ธ
์ค์ ์ด์ฉ ์์ ํ๋ฆ์ ์ ๋ฆฌํ๋ฉด:
์
๋ ฅ: ๊ณ ์์ค ์ง์ + ์๊ฐ ๊ด์ฐฐ (์ด๋ฏธ์ง/๋น๋์ค)
โ
[๊ธฐ๋ฐ ๋ชจ๋ธ] โ ๋ค๋จ๊ณ ๊ณํ ์์ฑ
โ
๊ฐ ์๋ธํ์คํฌ์ ๋ํด:
โโโ [A-LoRA] โ ์ดํฌ๋์ค ์์ญ (๋ฐ์ด๋ฉ ๋ฐ์ค) ์ถ๋ ฅ
โโโ [T-LoRA] โ ๊ถค์ ์จ์ดํฌ์ธํธ (2D ์ขํ์ด) ์ถ๋ ฅ
โ
์ถ๋ ฅ: ๊ณํ + ์ดํฌ๋์ค + ๊ถค์ ์ ํตํฉ ๊ฒฐ๊ณผ
๋ค์์ ์ด ํ์ดํ๋ผ์ธ์ Mermaid ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ํํํ ๊ฒ์ด๋ค:
ํ์ต ์ ๋ต: โ๊ฐ์๊ธฐ ๋ชจ๋ ๊ฒ์ ๋ฐฐ์ฐ์ง ๋ง๋ผโ
RoboBrain์ ํ์ต ์ ๋ต์ ์ธ๊ฐ์ ๋ฐ๋ฌ ๊ณผ์ ๊ณผ ์ ์ฌํ ์ ์ง์ ๋ฅ๋ ฅ ํ๋ ๋ฐฉ์์ด๋ค. ์์ด๊ฐ ๋จผ์ ์ธ์์ ๊ด์ฐฐํ๊ณ (์๊ฐ ํ์ต), ๋ง์ ๋ฐฐ์ฐ๊ณ (์ธ์ด ํ์ต), ๊ทธ ํ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ ๋ฒ์ ์ตํ๋ฏ(๊ธฐ๋ฅ ํ์ต), RoboBrain๋ ๋จ๊ณ๋ณ๋ก ๋ฅ๋ ฅ์ ์์๊ฐ๋ค.
Phase 1: ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํ์ต (General OneVision Training)
LLaVA-OneVision์ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ต์ ํ์ฉํ์ฌ ๊ธฐ์ด ์ฒด๋ ฅ์ ํค์ฐ๋ ๋จ๊ณ๋ค.
Stage 1 โ ์๊ฐ-์ธ์ด ์ ๋ ฌ (Alignment)
- ๋ฐ์ดํฐ: LCS-558K (์ด๋ฏธ์ง-ํ ์คํธ ์)
- ํ์ต ๋์: Projector๋ง ํ์ต (17M ํ๋ผ๋ฏธํฐ)
- ๋ชฉ์ : ์๊ฐ ํน์ง๊ณผ LLM ์๋ฏธ ๊ณต๊ฐ์ ์ ๋ ฌ
- ๋น์ : โ๋(์๊ฐ)๊ณผ ๋(์ธ์ด)๊ฐ ๊ฐ์ ์ธ์ด๋ฅผ ์ฐ๋๋ก ํต์ญ์ฌ๋ฅผ ํ๋ จโ
Stage 1.5 โ ์ผ๋ฐ ์ง์ ํ์ต
- ๋ฐ์ดํฐ: 4M ๊ณ ํ์ง ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ
- ํ์ต ๋์: ์ ์ฒด ๋ชจ๋ธ (8B ํ๋ผ๋ฏธํฐ)
- ๋ชฉ์ : ๋ฉํฐ๋ชจ๋ฌ ์ผ๋ฐ ์ง์ ์ดํด
- ๋น์ : โ์ธ์์ ๋ํ ๊ด๋ฒ์ํ ์์์ ์ต๋โ
Stage 2 โ ์ง์ ๋ฐ๋ฅด๊ธฐ ํ์ต (Visual Instruction Tuning)
- ๋ฐ์ดํฐ: 3.2M ๋จ์ผ ์ด๋ฏธ์ง + 1.6M ์ด๋ฏธ์ง/๋น๋์ค ๋ฐ์ดํฐ
- ํ์ต ๋์: ์ ์ฒด ๋ชจ๋ธ
- ๋ชฉ์ : ๊ณ ํด์๋ ์ด๋ฏธ์งยท๋น๋์ค ์ดํด ๋ฐ ์ง์ ์ํ
- ๋น์ : โ๋ณต์กํ ์ง์๋ฅผ ์ดํดํ๊ณ ๋ฐ๋ฅผ ์ ์๋ ๋ฅ๋ ฅ ํ์ตโ
Phase 2: ๋ก๋ด ํนํ ํ์ต (Robotic Training)
Phase 1์์ ๊ฐ์ถฐ์ง ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฐ ์์ ๋ก๋ด ํนํ ๋ฅ๋ ฅ์ ์๋ ๋จ๊ณ๋ค.
Stage 3 โ ๋ก๋ด ์ง์ ํ์ต (Robotic Knowledge Learning)
- ๋ฐ์ดํฐ: ์ด 3M (RoboVQA-800K + ScanView-318K + ShareRobot-200K + Phase 1 ๊ณ ํ์ง ์๋ธ์ 1.7M)
- ํ์ต ๋์: ์ ์ฒด ๋ชจ๋ธ
- ๋ชฉ์ : ๋ก๋ด ์กฐ์ ๊ณํ, ํ๊ฒฝ ์ธ์ง, ์ฅ๋ฉด ์ดํด
- ํต์ฌ ์ค๊ณ: Phase 1 ๋ฐ์ดํฐ 1.7M์ ํผํฉํ ์ด์ ๋ catastrophic forgetting ๋ฐฉ์ง๋ค. ๋ก๋ด ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ๋ฉด ์ด์ ์ ๋ฐฐ์ด ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฅ๋ ฅ์ด ๊ธ๊ฒฉํ ์์๋๋ฏ๋ก, ์ผ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ ์์ด ๊ท ํ์ ์ ์งํ๋ค.
Stage 4 โ ๋ก๋ด ๋ฉํฐํ์คํฌ ํ์ต (Robotic Multi-Task Learning)
- ์ดํฌ๋์ค ๋ฐ์ดํฐ: ~10K (ShareRobot + ์ธ๋ถ ์คํ์์ค)
- ๊ถค์ ๋ฐ์ดํฐ: ~400K
- ํ์ต ๋์: A-LoRA์ T-LoRA๋ง ํ์ต (๊ฐ 28M ํ๋ผ๋ฏธํฐ)
- ๋ชฉ์ : ๊ตฌ์ฒด์ ์ธ ์ดํฌ๋์ค ์ธ์ง์ ๊ถค์ ์์ธก
Stage 4์์ LoRA๋ง ํ์ตํ๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๊ฒฐํ ๊ฒ์ ๋งค์ฐ ์ค์ฉ์ ์ธ ์ ํ์ด๋ค. ์ดํฌ๋์ค(6,522์ฅ)์ ๊ถค์ (6,870์ฅ) ๋ฐ์ดํฐ๋ ๊ณํ ๋ฐ์ดํฐ(100๋ง+)์ ๋นํด ํฌ๊ฒ ์ ์ผ๋ฏ๋ก, ์ ์ฒด ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๋ฉด ์คํ๋ ค ๊ณผ์ ํฉ์ ์ํ์ด ์๋ค. LoRA๋ก ์๊ท๋ชจ ํ๋ผ๋ฏธํฐ๋ง ์กฐ์ ํ๋ฉด ์ด ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐํํ ์ ์๋ค.
ํ์ต ์ค์ ์์ฝ
| ๋จ๊ณ | ๋ฐ์ดํฐ ๊ท๋ชจ | ํ์ต ๋์ | ํ์ต ํ๋ผ๋ฏธํฐ | ํด์๋ |
|---|---|---|---|---|
| Stage 1 | 558K | Projector | 17M | 384px |
| Stage 1.5 | 4M | Full Model | 8B | Max 384ร(2ร2) |
| Stage 2 | 4.8M | Full Model | 8B | Max 384ร(6ร6) |
| Stage 3 | 3M | Full Model | 8B | Max 384ร(6ร6) |
| Stage 4 (A-LoRA) | 10K | A-LoRA | 28M | Max 384ร(6ร6) |
| Stage 4 (T-LoRA) | 400K | T-LoRA | 28M | Max 384ร(6ร6) |
๋ชจ๋ ๋จ๊ณ์์ ํ์ต๋ฅ ์ ViT์ 2 \times 10^{-6}, Projector/LLM/LoRA์ 1 \times 10^{-5}, epoch๋ 1๋ก ํต์ผ๋์๋ค. ํ์ต์ 8รA800 GPU ํด๋ฌ์คํฐ์์ DeepSpeed Zero3๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋์๋ค.
flowchart LR
subgraph Phase1["Phase 1: ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํ์ต"]
S1["Stage 1\n์๊ฐ-์ธ์ด ์ ๋ ฌ\n558K ์ด๋ฏธ์ง-ํ
์คํธ\nProjector๋ง ํ์ต"]
S15["Stage 1.5\n์ผ๋ฐ ์ง์ ํ์ต\n4M ๋ฐ์ดํฐ\n์ ์ฒด ๋ชจ๋ธ"]
S2["Stage 2\n์ง์ ๋ฐ๋ฅด๊ธฐ ํ์ต\n4.8M ์ด๋ฏธ์ง+๋น๋์ค\n์ ์ฒด ๋ชจ๋ธ"]
end
subgraph Phase2["Phase 2: ๋ก๋ด ํนํ ํ์ต"]
S3["Stage 3\n๋ก๋ด ์ง์ ํ์ต\n3M ๋ก๋ด+์ผ๋ฐ ํผํฉ\n์ ์ฒด ๋ชจ๋ธ"]
S4A["Stage 4\nA-LoRA (์ดํฌ๋์ค)\n10K ๋ฐ์ดํฐ"]
S4T["Stage 4\nT-LoRA (๊ถค์ )\n400K ๋ฐ์ดํฐ"]
end
S1 --> S15 --> S2 --> S3 --> S4A
S3 --> S4T
style Phase1 fill:#E3F2FD,stroke:#1565C0
style Phase2 fill:#FFF8E1,stroke:#F57F17
์คํ: ๊ฒฐ๊ณผ๋ ์ค๋๋ ฅ์ด ์๋๊ฐ?
์คํ ์ค์
ํ๊ฐ ๋ฒค์น๋งํฌ
์ธ ๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ์ ๋ํด ๊ฐ๊ฐ ์ ์ ํ ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๋ค:
| ๋ฅ๋ ฅ | ๋ฒค์น๋งํฌ | ๋ฉํธ๋ฆญ |
|---|---|---|
| ๊ณํ (Planning) | RoboVQA, OpenEQA, ShareRobot test set | BLEU-1~4, GPT-4o ํ๊ฐ ์ ์ |
| ์ดํฌ๋์ค | AGD20K test set | Average Precision (AP) |
| ๊ถค์ | ShareRobot trajectory test set | DFD, Hausdorff Distance, RMSE |
๋น๊ต ๋์
๊ณํ ํ์คํฌ์์๋ GPT-4V, Claude3, LLaVA-1.5, LLaVA-OneVision-7B, Qwen2-VL-7B, RoboMamba๋ฅผ ํฌํจํ 6๊ฐ MLLM๊ณผ ๋น๊ตํ๋ค.
๊ณํ ๋ฅ๋ ฅ ํ๊ฐ ๊ฒฐ๊ณผ
๋ ผ๋ฌธ์ Figure 5๊ฐ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด:
OpenEQA ๋ฒค์น๋งํฌ: RoboBrain์ด ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์ ์ํํ์ฌ SOTA ๋ฌ์ฑ. ์ด ๋ฒค์น๋งํฌ๋ 3D ๊ณต๊ฐ ๋ด embodied question answering์ ํ๊ฐํ๋ฏ๋ก, RoboBrain์ ๋ก๋ด ํ๊ฒฝ ์ดํด๋ ฅ์ด ๋ฐ์ด๋จ์ ์๋ฏธํ๋ค.
ShareRobot ๋ฒค์น๋งํฌ: ์ญ์ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ์ต๊ณ ์ฑ๋ฅ. ์์ฒด ๋ฐ์ดํฐ์ ํ ์คํธ์ด๋ฏ๋ก ๋ค์ ์ ๋ฆฌํ ์ ์์ง๋ง, ํ์ต-ํ ์คํธ ๋ถ๋ฆฌ๊ฐ ๋ช ํํ๋ฏ๋ก ๊ณผ์ ํฉ์ด ์๋ ์ง์ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฐ์ํ๋ค.
RoboVQA ๋ฒค์น๋งํฌ: ๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ก, BLEU-4 ์ ์์์ 2์ ๋ชจ๋ธ์ 18.75์ ์ฐจ์ด๋ก ์์ฐ๋ค. BLEU-4๋ 4-gram ์ ๋ฐ๋๋ฅผ ์ธก์ ํ๋ฏ๋ก, RoboBrain์ด ๋จ์ํ ๊ด๋ จ ๋จ์ด๋ฅผ ๋์ดํ๋ ์์ค์ด ์๋๋ผ ์ ํํ ์์์ ๊ตฌ๋ฌธ์ผ๋ก ๊ณํ์ ์์ฑํจ์ ๋ณด์ฌ์ค๋ค.
ํนํ RoboBrain์ด GPT-4V๋ Claude3 ๊ฐ์ ๊ฑฐ๋ ์์ฉ ๋ชจ๋ธ๋ ๋ฅ๊ฐํ๋ค๋ ์ ์ด ๋์ ๋๋๋ฐ, ์ด๋ ๋ฒ์ฉ MLLM๋ณด๋ค ๋๋ฉ์ธ ํนํ ํ์ต์ ํ์ด ๋ก๋ด ํ์คํฌ์์๋ ๋ ํฌ๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
์ดํฌ๋์ค ์์ธก ๊ฒฐ๊ณผ
| ๋ชจ๋ธ | AP (โ) |
|---|---|
| LLaVA-NeXT-7B | 9.8% |
| Qwen2-VL-7B | 12.5% |
| RoboBrain | 27.1% (+14.6) |
RoboBrain์ด Qwen2-VL ๋๋น AP์์ 14.6% ํฌ์ธํธ, LLaVA-NeXT ๋๋น 17.3% ํฌ์ธํธ ํฅ์์ ๋ฌ์ฑํ๋ค. ์ ๋๊ฐ์ผ๋ก ๋ณด๋ฉด 27.1%๊ฐ ๊ทธ๋ฆฌ ๋์ ๋ณด์ด์ง ์์ ์ ์๋๋ฐ, ์ดํฌ๋์ค ์์ธก์ ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ์ ์์ฑ๊ณผ ํ์คํฌ ๋งฅ๋ฝ์ ๋์์ ์ดํดํด์ผ ํ๋ ๋งค์ฐ ์ด๋ ค์ด ๊ณผ์ ์์ ๊ฐ์ํด์ผ ํ๋ค. ๊ธฐ์กด ๋ฒ์ฉ VLM๋ค์ ํ ์๋ฆฟ์ AP์ ๋น๊ตํ๋ฉด, ์๋นํ ๋์ฝ์ด๋ค.
๊ถค์ ์์ธก ๊ฒฐ๊ณผ
๊ถค์ ์์ธก์์๋ RoboBrain ์์ฒด์ ์ฌ๋ฌ ๋ณํ(variant) ๊ฐ ๋น๊ต๊ฐ ์ด๋ฃจ์ด์ก๋ค:
| ๋ฐฉ๋ฒ | DFD (โ) | HD (โ) | RMSE (โ) |
|---|---|---|---|
| Baseline | 0.191 | 0.171 | 0.133 |
| + Start Points | 0.176 | 0.157 | 0.117 |
| + Max Points | 0.185 | 0.163 | 0.125 |
| + Spec Token & End Points | 0.109 (-42.9%) | 0.010 (-94.2%) | 0.091 (-31.6%) |
๊ฐ ๋ณํ์ ์๋ฏธ๋ฅผ ํ์ด๋ณด๋ฉด:
- Start Points: end-effector์ ํ์ฌ 2D ์์ ์ขํ๋ฅผ ์ ๋ ฅ์ ์ถ๊ฐ. ์ด๊ฒ๋ง์ผ๋ก DFD๊ฐ 0.015 ๊ฐ์ํ๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด โ์ง๊ธ ์ด๋์ ์๋์งโ๋ฅผ ์์์ผ ์ ํํ ๊ถค์ ์ ์์ธกํ๋ค๋ ์ง๊ด์ ์ธ ๊ฒฐ๊ณผ๋ค.
- Max Points: ์จ์ดํฌ์ธํธ๋ฅผ ์ต๋ 10๊ฐ๋ก ์ ํ(๊ท ์ผ ์ํ๋ง). ์์ ์ธ๋ก ์ฝ๊ฐ์ ์ฑ๋ฅ ์ ํ๊ฐ ์์๋๋ฐ, ์จ์ดํฌ์ธํธ ์ ์ ํ์ด ๋๋ก ์ค์ํ ๊ฒฝ์ ์ ์ ๋๋ฝ์ํฌ ์ ์์์ ์์ฌํ๋ค.
- Spec Token & End Points: ํน์ ํ ํฐ์ผ๋ก ์จ์ดํฌ์ธํธ๋ฅผ ๊ฐ์กฐํ๊ณ , ๋์ฐฉ์ ์ ๋ณด๋ฅผ ์ถ๊ฐ. Hausdorff Distance๊ฐ 94.2% ๊ฐ์๋ผ๋ ๊ทน์ ์ธ ๊ฐ์ ์ ๋ณด์๋๋ฐ, ์ด๋ ์ต๋ ํธ์ฐจ(outlier) ๋ฌธ์ ๊ฐ ๊ฑฐ์ ํด๊ฒฐ๋์์์ ์๋ฏธํ๋ค. ๋์ฐฉ์ ์ ์๋ ค์ฃผ๋ฉด ๋ชจ๋ธ์ด โ์ด๋๋ก ๊ฐ์ผ ํ๋์งโ๊ฐ ๋ช ํํด์ง๋ฏ๋ก, ๊ถค์ ์ด ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ๋น ์ง๋ ๊ฒ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฉ์งํ๋ค.
์๊ฐํ ๋ถ์
๋ ผ๋ฌธ์ Figure 6์ RoboBrain์ ์ค์ ์๋์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ์๊ฐํ๋ค. โ์ปจํ ์ด๋์์ ๋ฌผ์ฒด๋ฅผ ๊บผ๋ด ๋ค๋ฅธ ๋ฌผ์ฒด ๊ทผ์ฒ์ ๋์๋ผโ๋ผ๋ ์ง์์ ๋ํด:
- 1ํด: ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ โ์ปจํ ์ด๋๋ฅผ ํฅํด ์ด๋โ ๊ณํ ์์ฑ
- 2ํด: ๋ค์ ์ด๋ฏธ์ง์์ โ๋ธ๋ก์ฝ๋ฆฌ๋ฅผ ๋๋น์์ ์ง๊ธฐโ ์์ฑ
- 3ํด: โ๋ธ๋ก์ฝ๋ฆฌ๋ฅผ ๋นจ๊ฐ ์๊ฐ๋ฝ ์ชฝ์ผ๋ก ์ด๋โ ์์ฑ
- 4ํด: โ๋ธ๋ก์ฝ๋ฆฌ๋ฅผ ๋นจ๊ฐ ์๊ฐ๋ฝ ์์ ๋๊ธฐโ ์์ฑ
- 5ํด: โ์๋ฃ(Done)โ ์ถ๋ ฅ
๊ฐ ๋จ๊ณ์์ ์ดํฌ๋์ค(๋ฐ์ด๋ฉ ๋ฐ์ค)์ ๊ถค์ (ํ์ดํ ๊ฒฝ๋ก)๋ ํจ๊ป ์ถ๋ ฅ๋๋ค. ์ด๊ฒ์ด RoboBrain์ ์ง์ ํ ๊ฐ์น๋ค โ ๋ค์ค ํด ์ํธ์์ฉ์์ ์ค์๊ฐ ์๊ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณํ์ ์ ์ง์ ์ผ๋ก ์คํํ๋ ๋ชจ์ต.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ๋ช ํํ ๋ฌธ์ ์ ์์ ์ฒด๊ณ์ ์ ๊ทผ
โAbstract to Concreteโ๋ผ๋ ํ๋ ์ด๋ฐ์ด ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค. ๊ณํ(์ถ์) โ ์ดํฌ๋์ค(์ค๊ฐ) โ ๊ถค์ (๊ตฌ์ฒด)์ด๋ผ๋ ์์ฐ์ค๋ฌ์ด ์ถ์ํ ๊ณ์ธต์ ์ ์ํ๊ณ , ์ด๋ฅผ ํ๋์ ๋ชจ๋ธ์์ ์ฒ๋ฆฌํ๊ฒ ๋ค๋ ๋น์ ์ด ๋ช ํํ๋ค. ์ด ํ๋ ์์ํฌ๋ ํฅํ ์ฐ๊ตฌ์ ์ข์ ์ฒญ์ฌ์ง์ด ๋๋ค.
2. ๋ฐ์ดํฐ์ ๊ธฐ์ฌ์ ์ค์ง์ ๊ฐ์น
ShareRobot์ ์ด ๋ ผ๋ฌธ์์ ์ ์๋ ๋ชจ๋ธ๋ง์ ์ํ ๊ฒ์ด ์๋๋ผ, ์ปค๋ฎค๋ํฐ ์ ์ฒด๊ฐ ํ์ฉํ ์ ์๋ ์์์ด๋ค. ํนํ OXE ๋ฐ์ดํฐ์์ ๊ณ ํ์ง ์๋ธ์ ์ ์ ๋ณํ๊ณ , 3๋ช ์ annotator๊ฐ ๊ฒ์ํ ์ธ๋ฐํ ๋ ์ด๋ธ์ ์ถ๊ฐํ ์ ์ ๋์ด ํ๊ฐํ ๋งํ๋ค. ์คํ์์ค๋ก ๊ณต๊ฐ๋ ์ ๋ ํฐ ์ฅ์ ์ด๋ค.
3. ์ค์ฉ์ ์ธ ์ํคํ ์ฒ ์ค๊ณ
LoRA๋ฅผ ํ์ฉํ ๋ชจ๋ ๋ถ๋ฆฌ๋ ๋งค์ฐ ํ๋ช ํ ์ ํ์ด๋ค. ์ดํฌ๋์ค์ ๊ถค์ ์ด๋ผ๋ ์๋ก ๋ค๋ฅธ ๋ฅ๋ ฅ์ ๋ ๋ฆฝ์ ์ธ LoRA๋ก ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๊ฐ ๋ชจ๋์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ๊ทธ๋ ์ด๋ํ๊ฑฐ๋ ๊ต์ฒดํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ๋์ค์ ๋ ์ข์ ๊ถค์ ๋ฐ์ดํฐ๊ฐ ๋์ค๋ฉด, T-LoRA๋ง ์ฌํ์ตํ๋ฉด ๋๋ค.
4. ํฌ๊ด์ ์ธ ์คํ
์ธ ๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ ๋ชจ๋์ ๋ํด ์ ๋์ ํ๊ฐ๋ฅผ ์ํํ๊ณ , ๊ถค์ ์์ธก์์๋ ablation study๋ฅผ ํตํด ๊ฐ ์ค๊ณ ์ ํ์ ๊ธฐ์ฌ๋ฅผ ๋ถ๋ฆฌํ ์ ์ด ์ข๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. 2D ๊ถค์ ์ ๊ทผ๋ณธ์ ํ๊ณ
๊ถค์ ์์ธก์ด 2D ์ด๋ฏธ์ง ์ขํ๋ก๋ง ์ด๋ฃจ์ด์ง๋ค๋ ์ ์ ์ค์ ๋ก๋ด ์ ์ด์ ์ ์ฉํ ๋ ์ฌ๊ฐํ ๋ณ๋ชฉ์ด ๋๋ค. ์ค์ ๋ก๋ด์ 3D ๊ณต๊ฐ์์ ์์ง์ด๋ฉฐ, ๊น์ด ์ ๋ณด ์์ด๋ ๋์ผํ 2D ๊ถค์ ์ด ๋ฌดํํ ๋ง์ 3D ๊ฒฝ๋ก์ ๋์ํ ์ ์๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ํ์ ์ฐ๊ตฌ์ธ RoboBrain 2.5์์๋ depth-aware 3D ๊ถค์ ์์ธก์ผ๋ก ์ด ํ๊ณ๋ฅผ ์ ํํ ๊ทน๋ณตํ๊ณ ์์ด, ์ ์๋ค๋ ์ด ๋ฌธ์ ๋ฅผ ์ธ์งํ๊ณ ์์์์ ์ ์ ์๋ค.
2. ์ค์ ๋ก๋ด ์คํ์ ๋ถ์ฌ
์ด๊ฒ์ด ๊ฐ์ฅ ํฌ๋ฆฌํฐ์ปฌํ ์ฝ์ ์ด๋ค. ๋ ผ๋ฌธ์ ๋ชจ๋ ํ๊ฐ๊ฐ ์คํ๋ผ์ธ ๋ฒค์น๋งํฌ์์ ์ด๋ฃจ์ด์ก๋ค. โ๋ก๋ด ๋๋โ๋ฅผ ํ๋ฐฉํ๋ฉด์ ์ค์ ๋ก๋ด์์์ closed-loop ์คํ์ด ์๋ค๋ ๊ฒ์, ๋ง์น ์๋์ฐจ ์์ง์ ์ค๊ณํ๊ณ ์๋ฎฌ๋ ์ด์ ๋ง ํ์ง ์ค์ ์ฐจ์ ์ฅ์ฐฉํด๋ณด์ง ์์ ๊ฒ๊ณผ ๊ฐ๋ค. RoboBrain์ ์ถ๋ ฅ(๊ณํ + ์ดํฌ๋์ค + ๊ถค์ )์ด ์ค์ ๋ก๋ด ์ปจํธ๋กค๋ฌ๋ก ์ด๋ป๊ฒ ๋ณํ๋๊ณ , ์ด๋ค ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋์ง์ ๋ํ ์ค์ฆ์ด ๋น ์ ธ ์๋ค.
3. ์ดํฌ๋์ค ๋ฐ์ดํฐ์ ์ค์ผ์ผ ๋ฌธ์
์ดํฌ๋์ค ํ์ต ๋ฐ์ดํฐ๊ฐ 6,000์ฅ์ด๋ผ๋ ๊ฒ์ ์๋นํ ์ ๋ค. ๋ฌผ์ฒด์ ์ข ๋ฅ, ์์ธ, ์กฐ๋ช , ํ์คํฌ์ ๋ค์์ฑ์ ๊ณ ๋ คํ๋ฉด, ์ด ๊ท๋ชจ๋ก๋ ์ผ๋ฐํ์ ํ๊ณ๊ฐ ์์ ์๋ฐ์ ์๋ค. AP 27.1%๋ผ๋ ๊ฒฐ๊ณผ๋, ํฅ์ํญ์ ํฌ์ง๋ง ์ ๋ ์ฑ๋ฅ์ ์์ง ์ค์ฉ ์์ค์ ๋ฏธ์น์ง ๋ชปํ๋ค.
4. ๊ณํ์์ ํ๋์ผ๋ก์ ๋ณํ(Plan-to-Action Gap)
RoboBrain์ โ๊ณํ ํ ์คํธ + ์ดํฌ๋์ค ๋ฐ์ค + 2D ๊ถค์ โ์ ์ถ๋ ฅํ์ง๋ง, ์ด๋ฅผ ์ค์ ๋ก๋ด์ joint ๋ช ๋ น์ด๋ end-effector pose ๋ช ๋ น์ผ๋ก ๋ณํํ๋ ๊ณผ์ ์ด ๋ ผ๋ฌธ์์ ๋ค๋ฃจ์ด์ง์ง ์๋๋ค. ์ด โ๋ง์ง๋ง 1๋ง์ผโ ๋ฌธ์ ๋ RoboBrain์ ๋ฒ์ ๋ฐ์ด๋ผ ํ ์ ์์ง๋ง, ํตํฉ ์๋ฃจ์ ์ ํ๋ฐฉํ๋ ๋งํผ ์ด์ ๋ํ ๋ ผ์๋ผ๋ ์์์ผ๋ฉด ์ข์์ ๊ฒ์ด๋ค.
5. ๋จ์ผ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ดํฌ๋์ค/๊ถค์ ์ ํ๊ณ
์ดํฌ๋์ค์ ๊ถค์ ์์ธก์ด ๋จ์ผ ํ๋ ์ ์ด๋ฏธ์ง์์ ์ํ๋๋ค๋ ์ ๋ ํ๊ณ๋ค. ๋์ ํ๊ฒฝ์์ ๋ฌผ์ฒด๊ฐ ์์ง์ด๊ฑฐ๋, ์ฅ์ ๋ฌผ์ด ๋ฑ์ฅํ๋ ๊ฒฝ์ฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ต๋ค. ๋น๋์ค ๊ธฐ๋ฐ์ ์๊ฐ์ ์ถ๋ก ์ด ์ดํฌ๋์ค/๊ถค์ ์๋ ํ์ฅ๋ ํ์๊ฐ ์๋ค.
6. ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ ๋ขฐ์ฑ ๋ฌธ์
๊ณํ ํ๊ฐ์์ GPT-4o๋ฅผ ํ๊ฐ์๋ก ์ฌ์ฉํ๋ โLLM-as-a-judgeโ ๋ฐฉ์์ ํธ๋ฆฌํ์ง๋ง, ๊ทธ ์์ฒด๋ก ํธํฅ๊ณผ ๋ ธ์ด์ฆ๊ฐ ์กด์ฌํ๋ค. ํนํ ๋ก๋ด ์กฐ์์ ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅ์ฑ(๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋ฅํ ๊ณํ์ธ์ง)์ LLM์ด ์ ํํ ํ๊ฐํ ์ ์๋์ง๋ ์๋ฌธ์ด๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
RoboBrain์ ์์น๋ฅผ ๊ด๋ จ ์ฐ๊ตฌ ์งํ๋ ์์์ ํ์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
| ๋ชจ๋ธ | ๊ณํ | ์ดํฌ๋์ค | ๊ถค์ | ์ค์ ๋ก๋ด ์คํ | ๊ธฐ๋ฐ ์ํคํ ์ฒ |
|---|---|---|---|---|---|
| RoboBrain | โ | โ | โ (2D) | โ | LLaVA + Qwen2.5-7B |
| RT-2 | โณ (์๋ฌต์ ) | โ | โ | โ | PaLI-X / PaLM-E |
| RT-H | โ | โ | โ | โ | RT-2 ๊ธฐ๋ฐ |
| PaLM-E | โณ | โ | โ | โ | PaLM + ViT |
| SayCan | โ | โ | โ | โ | PaLM |
| OpenVLA | โ | โ | โ | โ | Prismatic + Llama-2-7B |
| RoboMamba | โ | โ | โ | โณ | Mamba ๊ธฐ๋ฐ |
| LLaRVA | โ | โณ | โ (2D) | โ | LLaVA ๊ธฐ๋ฐ |
| RT-Trajectory | โ | โ | โ (2D) | โ | RT-2 ๊ธฐ๋ฐ |
์ด ํ์์ RoboBrain์ ๋ ๋ณด์ ์ธ ์์น๊ฐ ๋๋ฌ๋๋ค: ๊ณํ, ์ดํฌ๋์ค, ๊ถค์ ์ ์ธ ๋ฅ๋ ฅ์ ํ๋์ ๋ชจ๋ธ์์ ๋์์ ๋ค๋ฃจ๋ ๊ฑฐ์ ์ ์ผํ ์ฐ๊ตฌ๋ค. ๊ทธ๋ฌ๋ ๋์์, ์ค์ ๋ก๋ด ์คํ์ด ์๋ค๋ ์ ์์ RT-2, SayCan, OpenVLA ๋ฑ๊ณผ๋ ๊ฒ์ฆ ์์ค์ด ๋ค๋ฅด๋ค.
ํนํ ์ฃผ๋ชฉํ ์ ์ RT-Trajectory์์ ๊ด๊ณ๋ค. RoboBrain์ ๊ถค์ ์์ธก ๊ฐ๋ ์ RT-Trajectory์ โvisual traceโ์์ ์ง์ ์๊ฐ์ ๋ฐ์๋๋ฐ, RT-Trajectory๋ ์ด ๊ฐ๋ ์ ์ค์ ๋ก๋ด์์ ๊ฒ์ฆ๊น์ง ํ๋ค๋ ์ ์์ ์ฐจ์ด๊ฐ ์๋ค.
RoboBrain 2.0/2.5์์ ์ฐ๊ฒฐ
์ด ๋ ผ๋ฌธ(RoboBrain 1.0)์ ํ๊ณ๋ค์ ํ์ ์ฐ๊ตฌ์์ ์ฒด๊ณ์ ์ผ๋ก ๋ณด์๋๊ณ ์๋ค:
- RoboBrain 2.0 (2025.06): 3B/7B/32B ๋ค์ํ ํฌ๊ธฐ ๋ชจ๋ธ, ๊ณต๊ฐ ์ดํดยท์๊ฐ์ ์์ฌ๊ฒฐ์ ๊ฐํ
- RoboBrain 2.5 (2026.01): ๊น์ด ์ธ์ 3D ๊ถค์ ์์ธก, ๋ฐ์ง ์๊ฐ ๊ฐ์น ์ถ์ (Dense Temporal Value Estimation), ์ค์ ๋ก๋ด์์์ closed-loop ๊ฒ์ฆ
์ด ์งํ ๊ณผ์ ์ ๋ณด๋ฉด, RoboBrain 1.0์ด ์ ์ํ โAbstract to Concreteโ ํ๋ ์์ํฌ๊ฐ ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ด์์์ ์ ์ ์๋ค. 2D์์ 3D๋ก, ์คํ๋ผ์ธ์์ closed-loop์ผ๋ก, ๊ณํ์์ ์คํ๊น์ง โ ๊ทธ ํ์ฅ์ ์จ์์ด ์ด ๋ ผ๋ฌธ์ ์๋ค.
Allegro Hand ์ฐ๊ตฌ์์ ์ ์
Dexterous manipulation ์ฐ๊ตฌ์ ๊ด์ ์์, RoboBrain์ ์ดํฌ๋์ค ์์ธก ๋ชจ๋์ ์ ์์ค์ ์ ์ด ์์ญ ์ถ๋ก ์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋ ์ ์๋ค. ์๋ฅผ ๋ค์ด Allegro Hand์ ๊ฐ์ ๋ค์ง ๋ก๋ด ํธ๋์ ๊ฒฝ์ฐ:
- RoboBrain์ ์ดํฌ๋์ค ์ถ๋ ฅ(๋ฐ์ด๋ฉ ๋ฐ์ค)์ โ ํธ๋์ ๊ฐ๋ณ ์๊ฐ๋ฝ ๋ฐฐ์น ๊ณํ์ผ๋ก ๋ณํ
- 2D ๊ถค์ ์ โ ์๋ชฉ ๊ฒฝ๋ก ๊ณํ์ผ๋ก ํ์ฉ
- ๋ค๋จ๊ณ ๊ณํ์ โ ๊ทธ๋์คํ ์ ๋ต์ ์ํ์ฑ์ผ๋ก ํ์ฉ
๋ค๋ง ํ์ฌ RoboBrain์ ์ดํฌ๋์ค๋ ๋จ์ผ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ค์ด์ด์, ๋ค์ง ํธ๋์ ํ์ํ ๊ฐ๋ณ ์ ์ด์ ์์ค์ ์ธ๋ฐํ ์ดํฌ๋์ค๊น์ง๋ ์ง์ ์ ๊ณตํ์ง ๋ชปํ๋ค. ์ด๋ฅผ ํ์ฅํ๋ฉด dexterous manipulation์ ๋ ์ง์ ์ ์ธ ๊ธฐ์ฌ๊ฐ ๊ฐ๋ฅํ ๊ฒ์ด๋ค. ํนํ RoboBrain์ VLA ํ๋ ์์ํฌ๋ฅผ RL ๊ธฐ๋ฐ ํธ๋ ์ ์ด์ ๊ฒฐํฉํ๋ฉด, ๊ณ ์์ค ์๋ฏธ ์ดํด(๋ฌด์์ ์ก์์ง)์ ์ ์์ค ์ ์ด(์ด๋ป๊ฒ ์ก์์ง)์ ํตํฉ์ด ๊ฐ๋ฅํด์ง๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
ํ ์ค ์์ฝ
RoboBrain์ MLLM์ ๋ก๋ด ์กฐ์์ โํตํฉ ๋๋โ๋ก ๋ง๋ค๊ธฐ ์ํด, ๊ณํยท์ดํฌ๋์คยท๊ถค์ ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ์ ํ๋์ ๋ชจ๋ธ์ ํตํฉํ๊ณ , ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ (ShareRobot)๊ณผ ์ ์ง์ ํ์ต ์ ๋ต์ ์ ์ํ ์ฐ๊ตฌ๋ค.
ํต์ฌ ๊ตํ
- ๋ฐ์ดํฐ๊ฐ ์์ด๋ค. ShareRobot์ ์๊ฒฉํ ํํฐ๋ง๊ณผ ๋ค์ฐจ์ ๋ ์ด๋ธ๋ง์ ๋ชจ๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ฐ์ด ๋๋ค. ๋ก๋ด ํ์ต์์ ์๋ณด๋ค ์ง์ ์ค์์ฑ์ ์ฌํ์ธ.
- ์ ์ง์ ํ์ต์ด ํจ๊ณผ์ ์ด๋ค. ์ผ๋ฐ ๋ฉํฐ๋ชจ๋ฌ โ ๋ก๋ด ํนํ์ ๋จ๊ณ์ ์ ์ด๋ catastrophic forgetting์ ๋ฐฉ์งํ๋ฉด์ ๋๋ฉ์ธ ํนํ ๋ฅ๋ ฅ์ ํค์ฐ๋ ํจ๊ณผ์ ์ ๋ต์ด๋ค.
- ๋ชจ๋์ฑ์ ํ์ฅ์ฑ์ด๋ค. A-LoRA/T-LoRA๋ฅผ ํตํ ๋ฅ๋ ฅ ๋ถ๋ฆฌ๋ ํฅํ ๊ฐ๋ณ ๋ชจ๋์ ๋ ๋ฆฝ์ ์ ๊ทธ๋ ์ด๋๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ฉฐ, ์ด๋ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์์ ํ์ ๋ฐ์ ์๋ ์ ๋ฆฌํ๋ค.
- โAbstract to Concreteโ ํ๋ ์์ ๊ฐ๋ ฅํ๋ค. ์ด ์ถ์ํ ๊ณ์ธต ๊ตฌ์กฐ๋ ๋ก๋ด ์กฐ์์ ๋ณต์ก์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถํดํ๋ ์ ์ฉํ ์ฌ๊ณ ๋๊ตฌ๋ค.
- ๋ฒค์น๋งํฌ์์ ์ค์ธ๊ณ๋ก์ ๊ฐ๊ทน์ ์ฌ์ ํ๋ค. ์คํ๋ผ์ธ ์ฑ๋ฅ์ด ์๋ฌด๋ฆฌ ์ข์๋, closed-loop ๋ก๋ด ์คํ ์์ด๋ ์์ ํ ๊ฒ์ฆ์ด๋ผ ํ ์ ์๋ค.
๋ง์น๋ฉฐ
RoboBrain์ ์๋ฒฝํ ์๋ฃจ์ ์ด ์๋๋ค. 2D ๊ถค์ ์ ํ๊ณ, ์ค์ ๋ก๋ด ๊ฒ์ฆ์ ๋ถ์ฌ, ์ดํฌ๋์ค ๋ฐ์ดํฐ์ ๊ท๋ชจ ๋ถ์กฑ ๋ฑ ๋ถ๋ช ํ ์ฝ์ ์ด ์๋ค. ํ์ง๋ง โ์ถ์์ ์ธ์ด ์ง์์์ ๊ตฌ์ฒด์ ์กฐ์ ํ๋๊น์งโ๋ผ๋ ๋น์ ์ ๋ช ํํ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ฐ์ดํฐ-๋ชจ๋ธ-ํ์ต์ ์ผ์์ผ์ฒด๋ก ์ฒด๊ณ์ ์ผ๋ก ๊ตฌํํ ์ ์์ ์๋ฏธ ์๋ ์ด์ ํ๋ค.
ํนํ CVPR 2025์์ ๋ฐํ๋ ํ ๋ถ๊ณผ ๋ช ๊ฐ์ ๋ง์ 2.0, 2.5๋ก ๋น ๋ฅด๊ฒ ์งํํ๊ณ ์๋ค๋ ์ฌ์ค์, ์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ์๋ช ๋ ฅ๊ณผ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค. ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ผ๋ฉด, RoboBrain 1.0์ด ์ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ดํดํ๊ณ , ํ์ ๋ฒ์ ์ ๋ฐ์ ์ ์ฃผ์ํ๋ฉฐ, ์์ ์ ์ฐ๊ตฌ์ ์ด๋ป๊ฒ ์ ๋ชฉํ ์ ์์์ง ๊ณ ๋ฏผํด ๋ณผ ๊ฐ์น๊ฐ ์ถฉ๋ถํ๋ค.
๊ฒฐ๊ตญ ๋ก๋ด์๊ฒ ์ง์ ํ โ๋๋โ๋ฅผ ์ฃผ๋ ์ผ์, ํ๋์ ๋ ผ๋ฌธ์ผ๋ก ์์ฑ๋๋ ๊ฒ์ด ์๋๋ผ ์ปค๋ฎค๋ํฐ ์ ์ฒด์ ์ ์ง์ ์ถ์ ์ ํตํด ์ด๋ฃจ์ด์ง ๊ฒ์ด๋ค. RoboBrain์ ๊ทธ ์ฌ์ ์์ ์ค์ํ ๋ฐฉํฅํ ์ญํ ์ ํ๊ณ ์๋ค.
์ฐธ๊ณ ๋ฌธํ
- Ji, Y., et al. (2025). RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete. CVPR 2025.
- BAAI RoboBrain Team. (2025). RoboBrain 2.0 Technical Report. arXiv:2507.02029.
- Tan, H., et al. (2026). RoboBrain 2.5: Depth in Sight, Time in Mind. arXiv:2601.14352.
- Li, B., et al. (2024). LLaVA-OneVision: Easy Visual Task Transfer. arXiv:2408.03326.
- Gu, J., et al. (2023). RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches. arXiv:2311.01977.
- OโNeill, A., et al. (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA 2024.
- Sermanet, P., et al. (2024). RoboVQA: Multimodal Long-Horizon Reasoning for Robotics. ICRA 2024.