Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ๋กœ๋ด‡์—๊ฒŒ โ€œ์ƒ๊ฐํ•˜๋Š” ๋‡Œโ€๋ฅผ ์ค„ ์ˆ˜ ์žˆ์„๊นŒ?
      • ์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?
    • ํ•ต์‹ฌ ๊ธฐ์—ฌ: ๋ฐ์ดํ„ฐ + ๋ชจ๋ธ + ํ•™์Šต ์ „๋žต์˜ ์‚ผ์œ„์ผ์ฒด
    • ๋ฐฉ๋ฒ•๋ก  ์ƒ์„ธ ๋ถ„์„
      • ShareRobot: โ€œ์ข‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ข‹์€ ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹คโ€
      • RoboBrain ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: โ€œํ•˜๋‚˜์˜ ๋‡Œ, ์„ธ ๊ฐ€์ง€ ๋Šฅ๋ ฅโ€
      • ํ•™์Šต ์ „๋žต: โ€œ๊ฐ‘์ž๊ธฐ ๋ชจ๋“  ๊ฒƒ์„ ๋ฐฐ์šฐ์ง€ ๋งˆ๋ผโ€
    • ์‹คํ—˜: ๊ฒฐ๊ณผ๋Š” ์„ค๋“๋ ฅ์ด ์žˆ๋Š”๊ฐ€?
      • ์‹คํ—˜ ์„ค์ •
      • ๊ณ„ํš ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ
      • ์–ดํฌ๋˜์Šค ์˜ˆ์ธก ๊ฒฐ๊ณผ
      • ๊ถค์  ์˜ˆ์ธก ๊ฒฐ๊ณผ
      • ์‹œ๊ฐํ™” ๋ถ„์„
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
      • ๊ฐ•์ 
      • ์•ฝ์ ๊ณผ ํ•œ๊ณ„
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • RoboBrain 2.0/2.5์™€์˜ ์—ฐ๊ฒฐ
    • Allegro Hand ์—ฐ๊ตฌ์™€์˜ ์ ‘์ 
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
      • ํ•œ ์ค„ ์š”์•ฝ
      • ํ•ต์‹ฌ ๊ตํ›ˆ
      • ๋งˆ์น˜๋ฉฐ
    • ์ฐธ๊ณ  ๋ฌธํ—Œ

๐Ÿ“ƒRoboBrain ๋ฆฌ๋ทฐ

mllm
qwen
Segmentation-Driven Actor-Critic for Visual Reinforcement Learning
Published

February 21, 2026

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code Link
  • Project Link

CVPR 2025

  1. ๐Ÿง  ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ๊ธฐ์กด Multimodal Large Language Models (MLLMs)์˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž, RoboBrain์€ ๊ณ„ํš, affordance ์ธ์‹, trajectory ์˜ˆ์ธก ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•œ ํ†ต์ผ๋œ ๋‡Œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ“š ์ด ๋ชจ๋ธ์€ ์ถ”์ƒ์ ์ธ ์ง€์‹œ๋ฅผ ๊ตฌ์ฒด์ ์ธ ํ–‰๋™์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด task planning, object affordance, end-effector trajectory๋ฅผ ํฌํ•จํ•˜๋Š” ๊ณ ํ’ˆ์งˆ์˜ ๋‹ค์ฐจ์› ShareRobot ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ๋‹ค๋‹จ๊ณ„ ํ›ˆ๋ จ ์ „๋žต๊ณผ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ๋ฐ ๊ธด ๋น„๋””์˜ค๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ RoboBrain์€ ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๋กœ๋ด‡ ์ธ๊ณต์ง€๋Šฅ ๋ฐœ์ „์˜ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

โ€œRoboBrain: A Unified Brain Model for Robotic Manipulationโ€ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ์กฐ์ž‘, ํŠนํžˆ ์žฅ๊ธฐ์ (long-horizon) ์กฐ์ž‘ ์ž‘์—…์—์„œ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ํ˜„์žฌ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ๋กœ๋ณด๋ธŒ๋ ˆ์ธ(RoboBrain)์ด๋ผ๋Š” ํ†ตํ•ฉ ๋‡Œ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด MLLM์€ ๊ณ„ํš ๋Šฅ๋ ฅ(Planning Capability), ์–ดํฌ๋˜์Šค ์ธ์‹(Affordance Perception), ๊ถค์  ์˜ˆ์ธก(Trajectory Prediction)์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋กœ๋ด‡ ๋‘๋‡Œ ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ:

  1. ๋กœ๋ณด๋ธŒ๋ ˆ์ธ(RoboBrain) ์ œ์•ˆ: ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ํ†ตํ•ฉ MLLM์œผ๋กœ, ์ถ”์ƒ์ ์ธ ๋ช…๋ น์„ ๊ตฌ์ฒด์ ์ธ ํ–‰๋™์œผ๋กœ ์ „ํ™˜ํ•˜์—ฌ ํšจ์œจ์ ์ธ ์ž‘์—… ์‹คํ–‰์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  2. ์‰์–ด๋กœ๋ด‡(ShareRobot) ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ์ž‘์—… ๊ณ„ํš, ๊ฐ์ฒด ์–ดํฌ๋˜์Šค, ์—”๋“œ ์ดํŽ™ํ„ฐ(end-effector) ๊ถค์ ๊ณผ ๊ฐ™์€ ๋‹ค์ฐจ์› ์ •๋ณด๋ฅผ ๋ ˆ์ด๋ธ”๋งํ•œ ๊ณ ํ’ˆ์งˆ์˜ ์ด๊ธฐ์ข… ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  3. ๋‹ค๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ์ผ๋ฐ˜ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•˜๊ณ , ์žฅ๊ธฐ ๋น„๋””์˜ค์™€ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋กœ๋ด‡ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  4. ์ตœ์ฒจ๋‹จ(SOTA) ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜์—ฌ ์‹ค์ œ ๋กœ๋ด‡ ์‘์šฉ ๋ถ„์•ผ์—์„œ์˜ ์ž ์žฌ๋ ฅ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

์‰์–ด๋กœ๋ด‡(ShareRobot) ๋ฐ์ดํ„ฐ์…‹:

์‰์–ด๋กœ๋ด‡์€ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์„ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋œ ๋Œ€๊ทœ๋ชจ์˜ ์ •๋ฐ€ ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.

  • ์ •๋ฐ€์„ฑ(Fine-grained): Open X-Embodiment ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋‹ฌ๋ฆฌ, ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ๊ฐœ๋ณ„ ํ”„๋ ˆ์ž„์— ์—ฐ๊ฒฐ๋œ ์ƒ์„ธํ•œ ์ €์ˆ˜์ค€ ๊ณ„ํš ๋ช…๋ น์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค์ฐจ์›์„ฑ(Multi-dimensional): ์ž‘์—… ๊ณ„ํš, ๊ฐ์ฒด ์–ดํฌ๋˜์Šค, ์—”๋“œ ์ดํŽ™ํ„ฐ ๊ถค์ ์„ ๋ ˆ์ด๋ธ”๋งํ•˜์—ฌ ๋กœ๋ณด๋ธŒ๋ ˆ์ธ์˜ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์–ดํฌ๋˜์Šค๋Š” ๋ฌผ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์˜์—ญ์„ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค \{l(x), l(y), r(x), r(y)\}๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๊ถค์ ์€ ์—”๋“œ ์ดํŽ™ํ„ฐ์˜ ์›€์ง์ž„์„ ๋‚˜ํƒ€๋‚ด๋Š” 2D ์›จ์ดํฌ์ธํŠธ ์‹œํ€€์Šค \{(x_i, y_i)\}๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค.
  • ๊ณ ํ’ˆ์งˆ(High quality): Open X-Embodiment ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„, ์„ค๋ช… ์ •ํ™•๋„, ์„ฑ๊ณต์ ์ธ ์ž‘์—… ์‹คํ–‰, ๋ช…ํ™•ํ•œ ์–ดํฌ๋˜์Šค ๋ฐ ๊ถค์ ๊ณผ ๊ฐ™์€ ์—„๊ฒฉํ•œ ๊ธฐ์ค€์„ ์ ์šฉํ•˜์—ฌ 51,403๊ฐœ์˜ ์ธ์Šคํ„ด์Šค๋ฅผ ์„ ๋ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋Œ€๊ทœ๋ชจ(Large scale): 1,027,990๊ฐœ์˜ ์งˆ์˜-์‘๋‹ต(QA) ์Œ์„ ํฌํ•จํ•˜์—ฌ, ๋กœ๋ด‡ ์ž‘์—… ๊ณ„ํš, ์–ดํฌ๋˜์Šค ์ธ์‹ ๋ฐ ๊ถค์  ์˜ˆ์ธก์„ ์œ„ํ•œ ์ตœ๋Œ€ ๊ทœ๋ชจ์˜ ์˜คํ”ˆ์†Œ์Šค ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.
  • ํ’๋ถ€ํ•œ ๋‹ค์–‘์„ฑ(Rich diversity): 102๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์žฅ๋ฉด(์นจ์‹ค, ์‹คํ—˜์‹ค, ์ฃผ๋ฐฉ, ์‚ฌ๋ฌด์‹ค ๋“ฑ), 12๊ฐœ์˜ ๋กœ๋ด‡ ์—”๋“œ ์ดํŽ™ํ„ฐ, 107๊ฐ€์ง€ ์œ ํ˜•์˜ ์›์ž ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง์€ ์ œ๋ฏธ๋‹ˆ(Gemini) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ์ˆ˜์ค€ ์„ค๋ช…์„ ์ €์ˆ˜์ค€ ๊ณ„ํš ๋ช…๋ น์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ์ธ๊ฐ„ ์ฃผ์„์ž๊ฐ€ ์ด๋ฅผ ๊ฒ€ํ†  ๋ฐ ์ •์ œํ•˜์—ฌ 10๊ฐ€์ง€ ์งˆ๋ฌธ ์œ ํ˜•์— ๋Œ€ํ•œ ์งˆ์˜-์‘๋‹ต ์Œ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค.

๋กœ๋ณด๋ธŒ๋ ˆ์ธ(RoboBrain) ๋ชจ๋ธ:

๋กœ๋ณด๋ธŒ๋ ˆ์ธ์€ ์ถ”์ƒ์ ์ธ ๋ช…๋ น์„ ์ดํ•ดํ•˜๊ณ  ๊ฐ์ฒด ์–ดํฌ๋˜์Šค ์˜์—ญ ๋ฐ ์ž ์žฌ์ ์ธ ์ž‘๋™ ๊ถค์ ์„ ๋ช…์‹œ์ ์œผ๋กœ ์ถœ๋ ฅํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: LLaVA ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ ์ธ์ฝ”๋”(Vision Encoder): SigLIP ๋ชจ๋ธ(siglip-so400m-patch14-384)์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์‹œ๊ฐ์  ํŠน์ง• Z_v = g(X_v)๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค.
    • ํ”„๋กœ์ ํ„ฐ(Projector): 2๊ณ„์ธต MLP(Multi-Layer Perceptron) h(\cdot)๋กœ, Z_v๋ฅผ LLM์˜ ์˜๋ฏธ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ ์‹œ๊ฐ ํ† ํฐ H_v = h(Z_v)๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM): Qwen2.5-7B-Instruct๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ…์ŠคํŠธ ๋ช…๋ น X_t์™€ ์‹œ๊ฐ ํ† ํฐ H_v๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ ์‘๋‹ต์„ ์ž๊ธฐํšŒ๊ท€(autoregressive) ๋ฐฉ์‹์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • A-LoRA ๋ชจ๋“ˆ: ์–ดํฌ๋˜์Šค ์ธ์‹์„ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • T-LoRA ๋ชจ๋“ˆ: ๊ถค์  ์˜ˆ์ธก์„ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ํ•™์Šต ์ „๋žต (๋‹ค๋‹จ๊ณ„):
    • Phase 1: ์ผ๋ฐ˜ OV ํ•™์Šต (๊ธฐ๋ฐ˜ MLLM ๊ฐœ๋ฐœ)
      • Stage 1 (์ •๋ ฌ ๋ฐ ์ผ๋ฐ˜ ์ง€์‹ ํ•™์Šต): LCS-558K ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ์  ํŠน์ง•๊ณผ LLM ์˜๋ฏธ ๊ณต๊ฐ„์„ ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.
      • Stage 1.5 (๋‹ค์ค‘ ๋ชจ๋‹ฌ ์ผ๋ฐ˜ ์ดํ•ด ๊ฐ•ํ™”): 4M ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์ „์ฒด ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
      • Stage 2 (์‹œ๊ฐ ๋ช…๋ น ํŠœ๋‹): LLaVA-OneVision-Data์˜ 3.2M ๋‹จ์ผ ์ด๋ฏธ์ง€ ๋ฐ 1.6M ์ด๋ฏธ์ง€/๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋กœ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค ์ดํ•ด๋ฅผ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
    • Phase 2: ๋กœ๋ด‡ ํ•™์Šต (ํ•ต์‹ฌ ๋Šฅ๋ ฅ ๊ฐ•ํ™”)
      • Stage 3 (๋กœ๋ด‡ ์ง€์‹ ํ•™์Šต): RoboVQA-800K, ScanView-318K, ์‰์–ด๋กœ๋ด‡-200K๋ฅผ ํฌํ•จํ•œ 1.3M ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ Phase 1์˜ 1.7M ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์กฐ์ž‘ ๊ณ„ํš ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ํŒŒ๊ตญ์  ๋ง๊ฐ(catastrophic forgetting) ๋ฌธ์ œ ์™„ํ™”๋ฅผ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ์ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
      • Stage 4 (๋กœ๋ด‡ ๋‹ค์ค‘ ์ž‘์—… ํ•™์Šต): ์‰์–ด๋กœ๋ด‡ ๋ฐ ๊ธฐํƒ€ ์˜คํ”ˆ์†Œ์Šค์˜ ์–ดํฌ๋˜์Šค ๋ฐ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ LoRA ๋ชจ๋“ˆ์„ ํ†ตํ•ด ๊ตฌ์ฒด์ ์ธ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ:

  • ๊ณ„ํš ์ž‘์—…: ๋กœ๋ณด๋ธŒ๋ ˆ์ธ์€ RoboVQA, OpenEQA, ์‰์–ด๋กœ๋ด‡ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด MLLM(GPT-4V, LLaVA-1.5, LLaVA-OneVision-7b, Qwen2-VL-7b) ๋ฐ ๋กœ๋ด‡ ๋ชจ๋ธ(RoboMamba)์„ ๋ชจ๋‘ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RoboVQA์—์„œ BLEU-4 ์ ์ˆ˜์—์„œ 2์œ„ ๋ชจ๋ธ๋ณด๋‹ค 18.75% ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ์–ดํฌ๋˜์Šค ์˜ˆ์ธก: ํ‰๊ท  ์ •๋ฐ€๋„(AP) ์ง€ํ‘œ์—์„œ Qwen2-VL-7B(12.5% AP) ๋ฐ LLaVA-NeXT-7B(9.8% AP)๋ณด๋‹ค ํ›จ์”ฌ ์šฐ์ˆ˜ํ•œ 27.1% AP๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ฐ์ฒด์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ ์ดํ•ด ๋ฐ ์ •ํ™•ํ•œ ์–ดํฌ๋˜์Šค ์ œ๊ณต ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ถค์  ์˜ˆ์ธก: ์ด์‚ฐ ํ”„๋ ˆ์…ฐ ๊ฑฐ๋ฆฌ(DFD), ํ•˜์šฐ์Šค๋„๋ฅดํ”„ ๊ฑฐ๋ฆฌ(HD), ํ‰๊ท  ์ œ๊ณฑ๊ทผ ์˜ค์ฐจ(RMSE) ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์›จ์ดํฌ์ธํŠธ, ์‹œ์ž‘์  ๋ฐ ํŠน์ˆ˜ ํ† ํฐ์„ ํ†ตํ•ฉํ•œ ๋ชจ๋ธ์€ DFD, HD, RMSE์—์„œ ๊ธฐ์ค€์„  ๋Œ€๋น„ ๊ฐ๊ฐ 42.9%, 94.2%, 31.6%์˜ ๊ฐ์†Œ๋ฅผ ๋ณด์—ฌ ๊ถค์  ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์‹œ์ž‘์  ์ถ”๊ฐ€๋Š” ์ƒ์„ฑ๋œ ๊ถค์ ๊ณผ ์—”๋“œ ์ดํŽ™ํ„ฐ ๊ฐ„์˜ ๋ณ‘์ง„ ์˜คํ”„์…‹์„ ๊ต์ •ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ: OCR, ์‹œ๊ฐ์  ์ธ์‹, ๋‹ค์ค‘ ๋„๋ฉ”์ธ ์ถ”๋ก , ์‹ค์ œ ํ™˜๊ฒฝ ์ดํ•ด ๋“ฑ ๋‹ค์–‘ํ•œ ์ผ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ ๋กœ๋ด‡ ์ž‘์—…์— ์ตœ์ ํ™”๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ „๋ฐ˜์ ์ธ ์ง€์‹ ๊ธฐ๋ฐ˜๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์–ด๋ธ”๋ ˆ์ด์…˜ ์—ฐ๊ตฌ: ์‰์–ด๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์…‹์˜ ํฌํ•จ๊ณผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ๋น„์œจ(ํŠนํžˆ 4:6 ๋น„์œจ)์ด ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์นจ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์ด ๋ชจ๋ธ์˜ ๊ณ„ํš ๋ฐ ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ์ ์ง„์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ:

๋กœ๋ณด๋ธŒ๋ ˆ์ธ์€ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ํ†ต์ผ๋œ MLLM์œผ๋กœ, ์‰์–ด๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋‹ค๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์„ ํ†ตํ•ด ์ถ”์ƒ์ ์ธ ๋ช…๋ น์„ ๊ตฌ์ฒด์ ์ธ ๋กœ๋ด‡ ํ–‰๋™์œผ๋กœ ์ „ํ™˜ํ•˜๋Š” ๋ฐ ํฐ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋Š” ๊ณต๊ฐ„ ์ดํ•ด, ๊ตฌ์ฒดํ™”๋œ ์ถ”๋ก , ๋„๊ตฌ ํ™œ์šฉ, ์žฅ๋ฌธ ํ…์ŠคํŠธ ์ดํ•ด์™€ ๊ฐ™์€ ๋กœ๋ณด๋ธŒ๋ ˆ์ธ์˜ ๋‹ค์–‘ํ•œ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ „ ๋ฌธ์ œ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ๋กœ๋ด‡์—๊ฒŒ โ€œ์ƒ๊ฐํ•˜๋Š” ๋‡Œโ€๋ฅผ ์ค„ ์ˆ˜ ์žˆ์„๊นŒ?

๋กœ๋ด‡์—๊ฒŒ โ€œ์ฐป์ฃผ์ „์ž๋ฅผ ๋“ค์–ด์„œ ์ปต์— ๋ฌผ์„ ๋”ฐ๋ผ์ค˜โ€๋ผ๊ณ  ๋งํ•œ๋‹ค๊ณ  ์ƒ์ƒํ•ด ๋ณด์ž. ์šฐ๋ฆฌ ์ธ๊ฐ„์€ ์ด ๋ฌธ์žฅ์„ ๋“ฃ๋Š” ์ˆœ๊ฐ„ ๋จธ๋ฆฟ์†์—์„œ ๋ฌด์˜์‹์ ์œผ๋กœ ์—„์ฒญ๋‚œ ์—ฐ์‡„ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋จผ์ € โ€œ์ฐป์ฃผ์ „์ž์— ์ ‘๊ทผ โ†’ ์†์žก์ด๋ฅผ ์žก์•„ โ†’ ๋“ค์–ด์˜ฌ๋ ค โ†’ ์ปต ์œ„๋กœ ์ด๋™ โ†’ ๊ธฐ์šธ์—ฌ ๋”ฐ๋ฅด๊ธฐโ€๋ผ๋Š” ๊ณ„ํš(Planning) ์„ ์„ธ์šฐ๊ณ , ์ฐป์ฃผ์ „์ž์˜ ์–ด๋””๋ฅผ ์žก์•„์•ผ ํ•˜๋Š”์ง€ ์กฐ์ž‘ ๊ฐ€๋Šฅ ์˜์—ญ(Affordance) ์„ ํŒŒ์•…ํ•˜๋ฉฐ, ์†์„ ํ˜„์žฌ ์œ„์น˜์—์„œ ์†์žก์ด๊นŒ์ง€ ์–ด๋–ค ๊ฒฝ๋กœ๋กœ ์›€์ง์—ฌ์•ผ ํ•˜๋Š”์ง€ ๊ถค์ (Trajectory) ์„ ์•”๋ฌต์ ์œผ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

ํ˜„์žฌ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(MLLM)์€ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ฑฐ๋‚˜, ์žฅ๋ฉด์„ ๋ฌ˜์‚ฌํ•˜๋Š” ๋ฐ๋Š” ๋›ฐ์–ด๋‚˜๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์œ„์™€ ๊ฐ™์€ ๋กœ๋ด‡ ์กฐ์ž‘์˜ ํ•ต์‹ฌ ์„ธ ๊ฐ€์ง€ ๋Šฅ๋ ฅ โ€” ๊ณ„ํš, ์–ดํฌ๋˜์Šค ์ธ์ง€, ๊ถค์  ์˜ˆ์ธก โ€” ์„ ๋™์‹œ์— ํ•ด๋‚ด๋Š” ๊ฒƒ์—๋Š” ์—ฌ์ „ํžˆ ์„œํˆฌ๋ฅด๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ์ด ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๋ ค๋Š” ์‹œ๋„๋‹ค.

ํ•ต์‹ฌ ์งˆ๋ฌธ์„ ๋ช…ํ™•ํžˆ ํ•˜๋ฉด ์ด๋ ‡๋‹ค:

โ€œ์ถ”์ƒ์ ์ธ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ๋ฐ›์•„์„œ, ๊ตฌ์ฒด์ ์ธ ์กฐ์ž‘ ํ–‰๋™(์–ด๋””๋ฅผ ์žก๊ณ , ์–ด๋–ค ๊ฒฝ๋กœ๋กœ ์›€์ง์ผ์ง€)์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€

RoboBrain์€ ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ํ•˜๋‚˜์˜ ๋‹ต์„ ์ œ์‹œํ•œ๋‹ค. โ€œAbstract to Concreteโ€๋ผ๋Š” ๋ถ€์ œ๊ฐ€ ๋งํ•˜๋“ฏ, ์ถ”์ƒ์  ์ง€์‹œ์—์„œ ๊ตฌ์ฒด์  ํ–‰๋™๊นŒ์ง€์˜ ์ „ ๊ณผ์ •์„ ํ•˜๋‚˜์˜ MLLM ์•ˆ์—์„œ ์ฒ˜๋ฆฌํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด ์ด ์—ฐ๊ตฌ์˜ ์•ผ์‹ฌ์ด๋‹ค.

์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ๋กœ๋ด‡ ์กฐ์ž‘ ์—ฐ๊ตฌ์˜ ํ๋ฆ„์„ ํฌ๊ฒŒ ๋ณด๋ฉด, ๋‘ ๊ฐˆ๋ž˜๋กœ ๋‚˜๋‰œ๋‹ค:

  1. ๊ณ ์ˆ˜์ค€ ๊ณ„ํš (High-level Planning): LLM/VLM์„ ์ด์šฉํ•ด ํƒœ์Šคํฌ๋ฅผ ์„œ๋ธŒํƒœ์Šคํฌ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ์—ฐ๊ตฌ (์˜ˆ: SayCan, Inner Monologue, RT-H)
  2. ์ €์ˆ˜์ค€ ์ œ์–ด (Low-level Control): VLA ๋ชจ๋ธ์ด ์ง์ ‘ end-effector ์•ก์…˜์„ ์ถœ๋ ฅํ•˜๋Š” ์—ฐ๊ตฌ (์˜ˆ: RT-2, OpenVLA, ฯ€โ‚€)

๋ฌธ์ œ๋Š” ์ด ๋‘ ์„ธ๊ณ„๊ฐ€ ์ž˜ ์—ฐ๊ฒฐ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์ด๋‹ค. ๊ณ„ํš์€ ์„ธ์šฐ๋Š”๋ฐ ์‹ค์ œ๋กœ ์–ด๋””๋ฅผ ์žก์„์ง€ ๋ชจ๋ฅด๊ฑฐ๋‚˜, ๊ถค์ ์„ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์™œ ๊ทธ ๊ถค์ ์ด์–ด์•ผ ํ•˜๋Š”์ง€ ๋งฅ๋ฝ์ด ์—†๊ฑฐ๋‚˜. RoboBrain์€ ์ด ๋‘˜ ์‚ฌ์ด์˜ โ€œ๋น ์ง„ ๊ณ ๋ฆฌ(missing link)โ€ โ€” ์–ดํฌ๋˜์Šค์™€ ๊ถค์  ์˜ˆ์ธก โ€” ์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ, ํ•˜๋‚˜์˜ ๋ชจ๋ธ ์•ˆ์—์„œ โ€œ์™œ โ†’ ๋ฌด์—‡์„ โ†’ ์–ด๋–ป๊ฒŒโ€์˜ ์ „์ฒด ์ŠคํŽ™ํŠธ๋Ÿผ์„ ๋‹ค๋ฃจ๊ณ ์ž ํ•œ๋‹ค.


ํ•ต์‹ฌ ๊ธฐ์—ฌ: ๋ฐ์ดํ„ฐ + ๋ชจ๋ธ + ํ•™์Šต ์ „๋žต์˜ ์‚ผ์œ„์ผ์ฒด

์ด ๋…ผ๋ฌธ์˜ ๊ธฐ์—ฌ๋Š” ํฌ๊ฒŒ ์„ธ ์ถ•์œผ๋กœ ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค:

๊ธฐ์—ฌ ๋‚ด์šฉ ํ•ต์‹ฌ ๊ฐ€์น˜
ShareRobot ๋ฐ์ดํ„ฐ์…‹ ๊ณ„ํšยท์–ดํฌ๋˜์Šคยท๊ถค์ ์˜ ๋‹ค์ฐจ์› ๋ ˆ์ด๋ธ”์ด ํฌํ•จ๋œ 100๋งŒ+ QA์Œ ๊ธฐ์กด์— ์—†๋˜ ์„ธ๋ฐ€ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘ ํ•™์Šต ๋ฐ์ดํ„ฐ
RoboBrain ๋ชจ๋ธ LLaVA ๊ธฐ๋ฐ˜ MLLM์— A-LoRA/T-LoRA๋ฅผ ๊ฒฐํ•ฉํ•œ ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ๊ณ„ํšโ†’์–ดํฌ๋˜์Šคโ†’๊ถค์ ์„ ๋ชจ๋‘ ์ฒ˜๋ฆฌ
๋‹ค๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต(Phase 1) โ†’ ๋กœ๋ด‡ ํŠนํ™” ํ•™์Šต(Phase 2)์˜ 4+2 ์Šคํ…Œ์ด์ง€ Catastrophic forgetting ๋ฐฉ์ง€์™€ ๋Šฅ๋ ฅ ์ ์ง„์  ํ™•์žฅ

๋ฐฉ๋ฒ•๋ก  ์ƒ์„ธ ๋ถ„์„

ShareRobot: โ€œ์ข‹์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ข‹์€ ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹คโ€

๋ชจ๋“  ๋”ฅ๋Ÿฌ๋‹ ์—ฐ๊ตฌ์—์„œ ๋ฐ˜๋ณต๋˜๋Š” ์ง„๋ฆฌ๊ฐ€ ์žˆ๋‹ค๋ฉด, ๊ทธ๊ฒƒ์€ ๋ฐ์ดํ„ฐ์˜ ์งˆ์ด ๋ชจ๋ธ์˜ ์งˆ์„ ๊ฒฐ์ •ํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. RoboBrain์˜ ์ €์ž๋“ค์€ ์ด ์›์น™์— ์ถฉ์‹คํ•˜๊ฒŒ, ๋จผ์ € ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ์ƒ๋‹นํ•œ ๊ณต์„ ๋“ค์˜€๋‹ค.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ฒ ํ•™

ShareRobot๋Š” Open X-Embodiment(OXE) ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ถœ๋ฐœํ•œ๋‹ค. OXE๋Š” 60๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ์…‹, 22์ข…์˜ ๋กœ๋ด‡ ํ˜•ํƒœ๋ฅผ ์•„์šฐ๋ฅด๋Š” ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ๋ ˆํฌ์ง€ํ† ๋ฆฌ์ธ๋ฐ, ๋ฌธ์ œ๋Š” ์–‘์€ ๋งŽ์ง€๋งŒ ์งˆ์ด ๊ณ ๋ฅด์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ €์ž๋“ค์€ ๋‹ค์Œ ๊ธฐ์ค€์œผ๋กœ ์—„๊ฒฉํ•œ ํ•„ํ„ฐ๋ง์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค:

  • ํ•ด์ƒ๋„: 128px ๋ฏธ๋งŒ ์˜์ƒ ์ œ๊ฑฐ
  • ์„ค๋ช… ์ •ํ™•์„ฑ: ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ๋ˆ„๋ฝ๋œ ์„ค๋ช… ์ œ๊ฑฐ
  • ์„ฑ๊ณต ์—ฌ๋ถ€: ์‹คํŒจํ•œ ํƒœ์Šคํฌ ์‹œ์—ฐ ์ œ๊ฑฐ
  • ์˜์ƒ ๊ธธ์ด: 30ํ”„๋ ˆ์ž„ ๋ฏธ๋งŒ ์ œ๊ฑฐ (atomic task๊ฐ€ ๋„ˆ๋ฌด ์ ์Œ)
  • ๊ฐ์ฒด ๊ฐ€๋ ค์ง: ๋Œ€์ƒ ๋ฌผ์ฒด๋‚˜ end-effector๊ฐ€ ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ ์ œ๊ฑฐ
  • ๊ถค์  ๋ช…ํ™•์„ฑ: ๋ถˆ๋ถ„๋ช…ํ•œ ๊ถค์  ์ œ๊ฑฐ

์ด ํ•„ํ„ฐ๋ง์„ ํ†ตํ•ด 23๊ฐœ ์›๋ณธ ๋ฐ์ดํ„ฐ์…‹์—์„œ 51,403๊ฐœ ์ธ์Šคํ„ด์Šค๋ฅผ ์„ ๋ณ„ํ–ˆ๋‹ค. ๋น„์œ ํ•˜์ž๋ฉด, ๊ฑฐ๋Œ€ํ•œ ๊ด‘์‚ฐ์—์„œ ๋ถˆ์ˆœ๋ฌผ์„ ๊ฑธ๋Ÿฌ๋‚ด๊ณ  ๊ณ ์ˆœ๋„ ์›์„๋งŒ ์ถ”์ถœํ•œ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.

๋‹ค์ฐจ์› ๋ ˆ์ด๋ธ”๋ง

ShareRobot์˜ ์ง„์ •ํ•œ ์ฐจ๋ณ„์ ์€ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์— ์„ธ ๊ฐ€์ง€ ์ฐจ์›์˜ ๋ ˆ์ด๋ธ”์„ ๋™์‹œ์— ๋ถ€์—ฌํ•œ๋‹ค๋Š” ์ ์ด๋‹ค:

1. ๊ณ„ํš(Planning) ๋ ˆ์ด๋ธ”๋ง

๊ฐ ๋กœ๋ด‡ ์‹œ์—ฐ์—์„œ 30ํ”„๋ ˆ์ž„์„ ์ถ”์ถœํ•˜๊ณ , ๊ณ ์ˆ˜์ค€ ์„ค๋ช…๊ณผ ํ•จ๊ป˜ Gemini๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ €์ˆ˜์ค€ ๊ณ„ํš ์ง€์‹œ(atomic task)๋กœ ๋ถ„ํ•ดํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด:

๊ณ ์ˆ˜์ค€: "์ปต์„ ์ ‘์‹œ ์œ„์— ๋†“์•„๋ผ"
โ†’ ์ €์ˆ˜์ค€: 1. ์ปต์„ ํ–ฅํ•ด ์ด๋™  2. ์ปต์„ ์žก๊ธฐ  3. ์ปต์„ ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ
          4. ์ปต์„ ์ ‘์‹œ ์ชฝ์œผ๋กœ ์ด๋™  5. ์ปต์„ ์ ‘์‹œ ์œ„์— ๋‚ด๋ฆฌ๊ธฐ  6. ์ปต์„ ๋†“๊ธฐ

3๋ช…์˜ annotator๊ฐ€ ์ด ๊ฒฐ๊ณผ๋ฅผ ๊ฒ€์ˆ˜ยท์ •์ œํ•œ ํ›„, RoboVQA์˜ 10๊ฐœ ์งˆ๋ฌธ ์œ ํ˜•์— ๋Œ€ํ•ด ๊ฐ๊ฐ 5๊ฐœ ํ…œํ”Œ๋ฆฟ์„ ์„ค๊ณ„ํ•˜์—ฌ QA ์Œ์„ ์ƒ์„ฑํ–ˆ๋‹ค. ์ธ์Šคํ„ด์Šค๋‹น 2๊ฐœ ํ…œํ”Œ๋ฆฟ์„ ๋žœ๋ค ์„ ํƒํ•˜๋ฏ€๋กœ, 51,403๊ฐœ ์ธ์Šคํ„ด์Šค๊ฐ€ 1,027,990๊ฐœ QA ์Œ์œผ๋กœ ์ฆํญ๋œ๋‹ค. ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์˜ ๊ต๊ณผ์„œ์ ์ธ ์ ‘๊ทผ์ด๋‹ค.

์งˆ๋ฌธ ์œ ํ˜•์˜ ์˜ˆ์‹œ๋ฅผ ๋ณด๋ฉด:

์งˆ๋ฌธ ์œ ํ˜• ์˜ˆ์‹œ
๋‹ค์Œ ๋‹จ๊ณ„ ์˜ˆ์ธก โ€œ๋ชฉํ‘œ๊ฐ€ ใ€ˆ์‚ฌ๊ณผ ์ง‘๊ธฐใ€‰์ผ ๋•Œ, ๋‹ค์Œ ๋‹จ๊ณ„๋Š”?โ€
๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๊ณ„ํš โ€œ1๋‹จ๊ณ„~(n-1)๋‹จ๊ณ„๋ฅผ ์™„๋ฃŒํ•œ ๋’ค, ๋‹ค์Œ ์ฆ‰๊ฐ์  ๊ณผ์ œ๋Š”?โ€
์ž”์—ฌ ๋‹จ๊ณ„ ์˜ˆ์ธก โ€œใ€ˆ์žฅ๊ธฐ ๊ณผ์ œใ€‰์— ๊ฐ€๊นŒ์›Œ์ง€๊ธฐ ์œ„ํ•œ ๋‹ค์Œ 5๋‹จ๊ณ„๋Š”?โ€
์„ฑ๊ณต ํŒ๋‹จ (๊ธ์ •) โ€œใ€ˆํƒœ์Šคํฌ nใ€‰ ์ˆ˜ํ–‰์— ์„ฑ๊ณตํ–ˆ๋Š”๊ฐ€?โ€ โ†’ โ€œ์˜ˆโ€
์„ฑ๊ณต ํŒ๋‹จ (๋ถ€์ •) โ€œใ€ˆํƒœ์Šคํฌ nใ€‰์ด ์™„์ „ํžˆ ์ˆ˜ํ–‰๋˜์—ˆ๋Š”๊ฐ€?โ€ โ†’ โ€œ์•„๋‹ˆ์˜คโ€
๊ณผ๊ฑฐ ์„ค๋ช… โ€œ์ง์ „์— ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚ฌ๋Š”๊ฐ€?โ€
๋ฏธ๋ž˜ ์˜ˆ์ธก โ€œใ€ˆํƒœ์Šคํฌ n-1ใ€‰ ๋‹ค์Œ์— ๊ฐ€์žฅ ๊ฐ€๋Šฅ์„ฑ ๋†’์€ ์‚ฌ๊ฑด์€?โ€
์–ดํฌ๋˜์Šค (๊ธ์ •) โ€œ์ง€๊ธˆ ใ€ˆํƒœ์Šคํฌ nใ€‰์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€ โ†’ โ€œ์˜ˆโ€
์–ดํฌ๋˜์Šค (๋ถ€์ •) โ€œ์ง€๊ธˆ ใ€ˆ๋žœ๋ค ํƒœ์Šคํฌใ€‰๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋Š”๊ฐ€?โ€ โ†’ โ€œ์•„๋‹ˆ์˜คโ€
์ƒ์„ฑ์  ์–ดํฌ๋˜์Šค โ€œ์ง€๊ธˆ ๋ฌด์—‡์„ ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€

2. ์–ดํฌ๋˜์Šค(Affordance) ๋ ˆ์ด๋ธ”๋ง

6,522์žฅ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด, ๊ฐ ์ด๋ฏธ์ง€์—์„œ ์ง€์‹œ์— ๋งž๋Š” ์ ‘์ด‰ ์˜์—ญ์„ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค \{l^{(x)}, l^{(y)}, r^{(x)}, r^{(y)}\}๋กœ ํ‘œ๊ธฐํ–ˆ๋‹ค. ์—ฌ๊ธฐ์„œ (l^{(x)}, l^{(y)})๋Š” ์ขŒ์ƒ๋‹จ, (r^{(x)}, r^{(y)})๋Š” ์šฐํ•˜๋‹จ ์ขŒํ‘œ๋‹ค.

๊ฐ™์€ ๋ฌผ์ฒด๋ผ๋„ ํƒœ์Šคํฌ์— ๋”ฐ๋ผ ์–ดํฌ๋˜์Šค๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ์ ์ด ํฅ๋ฏธ๋กญ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ปคํ”ผ ํฌํŠธ์˜ ๊ฒฝ์šฐ:

  • โ€œ์ปคํ”ผ๋ฅผ ํฌํŠธ์— ๋„ฃ์–ด๋ผโ€ โ†’ ๋šœ๊ป‘ ์˜์—ญ์ด ์–ดํฌ๋˜์Šค
  • โ€œ์ปคํ”ผ๋ฅผ ํฌํŠธ์—์„œ ๋”ฐ๋ผ๋ผโ€ โ†’ ์†์žก์ด ์˜์—ญ์ด ์–ดํฌ๋˜์Šค

์ด๊ฒƒ์€ ์–ดํฌ๋˜์Šค๊ฐ€ ๋ฌผ์ฒด์˜ ๊ณ ์ •๋œ ์†์„ฑ์ด ์•„๋‹ˆ๋ผ, ํƒœ์Šคํฌ์™€ ๋งฅ๋ฝ์— ์˜์กดํ•˜๋Š” ๊ด€๊ณ„์  ์†์„ฑ์ด๋ผ๋Š” Gibson์˜ ์›๋ž˜ ์ •์˜์— ์ถฉ์‹คํ•œ ์„ค๊ณ„๋‹ค.

3. ๊ถค์ (Trajectory) ๋ ˆ์ด๋ธ”๋ง

6,870์žฅ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด, end-effector(๊ทธ๋ฆฌํผ ๋“ฑ)์˜ 2D ์›€์ง์ž„ ๊ฒฝ๋กœ๋ฅผ ์ตœ์†Œ 3๊ฐœ์˜ (x, y) ์ขŒํ‘œ๋กœ ํ‘œ๊ธฐํ–ˆ๋‹ค. RT-Trajectory์—์„œ ์†Œ๊ฐœ๋œ โ€œvisual traceโ€ ๊ฐœ๋…์„ ์ฐจ์šฉํ•œ ๊ฒƒ์œผ๋กœ, ์‹œ๊ฐ„ ๋‹จ๊ณ„ t์—์„œ์˜ ๊ถค์  ์›จ์ดํฌ์ธํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค:

P_{t:N} = \{(x_i, y_i) \mid i = t, t+1, \ldots, N\}

์—ฌ๊ธฐ์„œ (x_i, y_i)๋Š” ์ด๋ฏธ์ง€ ์ขŒํ‘œ๊ณ„์—์„œ์˜ i๋ฒˆ์งธ ์œ„์น˜์ด๊ณ , N์€ ์—ํ”ผ์†Œ๋“œ์˜ ์ด ์‹œ๊ฐ„ ๋‹จ๊ณ„ ์ˆ˜๋‹ค.

๋ฐ์ดํ„ฐ ๊ทœ๋ชจ์™€ ๋‹ค์–‘์„ฑ

์ตœ์ข… ๋ฐ์ดํ„ฐ์…‹์˜ ๊ทœ๋ชจ๋ฅผ ์ •๋ฆฌํ•˜๋ฉด:

๋ฐ์ดํ„ฐ ์œ ํ˜• ํ•™์Šต ์„ธํŠธ ํ…Œ์ŠคํŠธ ์„ธํŠธ ์ด ๊ทœ๋ชจ
๊ณ„ํš QA ์Œ 1,000,000 2,050 1,027,990
์–ดํฌ๋˜์Šค ์ด๋ฏธ์ง€ 6,000 522 6,522
๊ถค์  ์ด๋ฏธ์ง€ 6,000 870 6,870

12์ข…์˜ ๋กœ๋ด‡ embodiment, 102๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์žฅ๋ฉด(์นจ์‹ค, ์‹คํ—˜์‹ค, ์ฃผ๋ฐฉ, ์‚ฌ๋ฌด์‹ค ๋“ฑ), 107๊ฐ€์ง€ atomic task ์œ ํ˜•์„ ํฌํ•จํ•œ๋‹ค. ๊ฐ€์žฅ ๋นˆ๋„๊ฐ€ ๋†’์€ atomic task๋Š” โ€œpickโ€, โ€œmoveโ€, โ€œreachโ€, โ€œliftโ€, โ€œplaceโ€ ์ˆœ์œผ๋กœ, ์‹ค์ œ ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ๋ถ„ํฌ์™€ ์ž˜ ์ผ์น˜ํ•œ๋‹ค.


RoboBrain ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: โ€œํ•˜๋‚˜์˜ ๋‡Œ, ์„ธ ๊ฐ€์ง€ ๋Šฅ๋ ฅโ€

RoboBrain์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฐ€์žฅ ์ข‹์€ ๋น„์œ ๋Š” ์ธ๊ฐ„์˜ ๋Œ€๋‡Œ ํ”ผ์งˆ์ด๋‹ค. ๋Œ€๋‡Œ์—๋Š” ์–ธ์–ด๋ฅผ ๋‹ด๋‹นํ•˜๋Š” ์˜์—ญ, ์‹œ๊ฐ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์˜์—ญ, ์šด๋™์„ ๊ณ„ํšํ•˜๋Š” ์˜์—ญ์ด ์žˆ์ง€๋งŒ, ์ด๋“ค์ด ์„œ๋กœ ๊ธด๋ฐ€ํžˆ ์—ฐ๊ฒฐ๋˜์–ด ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ์ธ์ง€๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค. RoboBrain๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํ•˜๋‚˜์˜ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์œ„์— ํŠนํ™”๋œ ๋ชจ๋“ˆ๋“ค์ด ํ˜‘๋ ฅํ•˜๋Š” ๊ตฌ์กฐ๋‹ค.

๊ธฐ๋ฐ˜ ๋ชจ๋ธ (Foundation Model for Planning)

LLaVA-OneVision ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ธ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค:

  1. Vision Encoder (ViT): SigLIP โ€” ์‹œ๊ฐ ์ž…๋ ฅ์„ ํŠน์ง• ๋ฒกํ„ฐ๋กœ ์ธ์ฝ”๋”ฉ
  2. Projector: 2-layer MLP โ€” ์‹œ๊ฐ ํŠน์ง•์„ LLM์˜ ์˜๋ฏธ ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘
  3. LLM: Qwen2.5-7B-Instruct โ€” ์ตœ์ข… ํ…์ŠคํŠธ ์‘๋‹ต ์ƒ์„ฑ

์ˆ˜ํ•™์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด:

Z_v = g(X_v) \quad \text{(์‹œ๊ฐ ์ธ์ฝ”๋”ฉ)}

H_v = h(Z_v) \quad \text{(์˜๋ฏธ ๊ณต๊ฐ„ ๋งคํ•‘)}

Y = f(H_v, X_t) \quad \text{(์–ธ์–ด ์ง€์‹œ } X_t \text{์— ๊ธฐ๋ฐ˜ํ•œ ์ž๊ธฐํšŒ๊ท€ ์ƒ์„ฑ)}

์—ฌ๊ธฐ์„œ g(\cdot)๋Š” SigLIP ViT, h(\cdot)๋Š” 2-layer MLP Projector, f(\cdot)๋Š” Qwen2.5 LLM์ด๋‹ค.

์ด ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ๊ณ„ํš(Planning) ๋Šฅ๋ ฅ์„ ๋‹ด๋‹นํ•œ๋‹ค. ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๋ฅผ ๋ณด๊ณ , ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ๋ฐ›์•„, ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš์„ ํ…์ŠคํŠธ๋กœ ์ถœ๋ ฅํ•œ๋‹ค.

A-LoRA: ์–ดํฌ๋˜์Šค ์ธ์ง€ ๋ชจ๋“ˆ

์–ดํฌ๋˜์Šค ์˜ˆ์ธก์„ ์œ„ํ•œ ์ „์šฉ LoRA(Low-Rank Adaptation) ๋ชจ๋“ˆ์ด๋‹ค. ์—ฌ๊ธฐ์„œ โ€œ์–ดํฌ๋˜์Šคโ€๋ž€ ์ธ๊ฐ„์˜ ์†์ด ๋ฌผ์ฒด์™€ ์ ‘์ด‰ํ•˜๋Š” ์˜์—ญ์„ ์˜๋ฏธํ•œ๋‹ค. ํ•˜๋‚˜์˜ ๋ฌผ์ฒด์— ์—ฌ๋Ÿฌ ์–ดํฌ๋˜์Šค๊ฐ€ ์กด์žฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ˜•์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด:

O_i = \{A_i^0, A_i^1, \ldots, A_i^N\}

๊ฐ ์–ดํฌ๋˜์Šค A_i^k๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ \{l^{(x)}, l^{(y)}, r^{(x)}, r^{(y)}\}๋กœ ํ‘œํ˜„๋œ๋‹ค.

A-LoRA๋ฅผ ๋ณ„๋„๋กœ ๋ถ„๋ฆฌํ•œ ์ด์œ ๊ฐ€ ํฅ๋ฏธ๋กœ์šด๋ฐ, ์–ดํฌ๋˜์Šค ์˜ˆ์ธก์€ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜์ ์ธ ์–ธ์–ด ์ƒ์„ฑ๊ณผ๋Š” ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ๋Šฅ๋ ฅ โ€” ๊ณต๊ฐ„์  ์œ„์น˜ ์ถ”๋ก  โ€” ์„ ์š”๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. LoRA๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฑด๋“œ๋ฆฌ์ง€ ์•Š๊ณ ๋„ ์ด ํŠนํ™”๋œ ๋Šฅ๋ ฅ์„ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

T-LoRA: ๊ถค์  ์˜ˆ์ธก ๋ชจ๋“ˆ

๊ถค์  ์˜ˆ์ธก์„ ์œ„ํ•œ ๋˜ ๋‹ค๋ฅธ ์ „์šฉ LoRA ๋ชจ๋“ˆ์ด๋‹ค. ์‹œ๊ฐ„ ๋‹จ๊ณ„ t์—์„œ์˜ ๊ถค์  ์›จ์ดํฌ์ธํŠธ๋ฅผ ๋‹ค์Œ์ฒ˜๋Ÿผ ์˜ˆ์ธกํ•œ๋‹ค:

P_{t:N} = \{(x_i, y_i) \mid i = t, t+1, \ldots, N\}

์ขŒํ‘œ๋Š” [0, 1000) ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”๋˜๋ฉฐ(Qwen2-VL์˜ ๋ฐฉ์‹์„ ๋”ฐ๋ฆ„), ๋ชจ๋ธ์€ ์ด ์ขŒํ‘œ ์‹œํ€€์Šค๋ฅผ ํ…์ŠคํŠธ ํ† ํฐ์œผ๋กœ ์ž๊ธฐํšŒ๊ท€์ ์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค.

์‹ค์ œ ์šด์šฉ ํŒŒ์ดํ”„๋ผ์ธ

์‹ค์ œ ์šด์šฉ ์‹œ์˜ ํ๋ฆ„์„ ์ •๋ฆฌํ•˜๋ฉด:

์ž…๋ ฅ: ๊ณ ์ˆ˜์ค€ ์ง€์‹œ + ์‹œ๊ฐ ๊ด€์ฐฐ (์ด๋ฏธ์ง€/๋น„๋””์˜ค)
   โ†“
[๊ธฐ๋ฐ˜ ๋ชจ๋ธ] โ†’ ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš ์ƒ์„ฑ
   โ†“
๊ฐ ์„œ๋ธŒํƒœ์Šคํฌ์— ๋Œ€ํ•ด:
   โ”œโ”€โ”€ [A-LoRA] โ†’ ์–ดํฌ๋˜์Šค ์˜์—ญ (๋ฐ”์šด๋”ฉ ๋ฐ•์Šค) ์ถœ๋ ฅ
   โ””โ”€โ”€ [T-LoRA] โ†’ ๊ถค์  ์›จ์ดํฌ์ธํŠธ (2D ์ขŒํ‘œ์—ด) ์ถœ๋ ฅ
   โ†“
์ถœ๋ ฅ: ๊ณ„ํš + ์–ดํฌ๋˜์Šค + ๊ถค์ ์˜ ํ†ตํ•ฉ ๊ฒฐ๊ณผ

๋‹ค์Œ์€ ์ด ํŒŒ์ดํ”„๋ผ์ธ์„ Mermaid ๋‹ค์ด์–ด๊ทธ๋žจ์œผ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค:

flowchart TD
    A["๐Ÿ—ฃ๏ธ ๊ณ ์ˆ˜์ค€ ์ง€์‹œ\n'์ปต์„ ์ ‘์‹œ ์œ„์— ๋†“์•„๋ผ'"] --> B["๐Ÿ‘๏ธ ์‹œ๊ฐ ์ž…๋ ฅ\n(์ด๋ฏธ์ง€/๋น„๋””์˜ค)"]
    B --> C["๐Ÿง  SigLIP Vision Encoder\nZv = g(Xv)"]
    C --> D["๐Ÿ”— 2-Layer MLP Projector\nHv = h(Zv)"]
    D --> E["๐Ÿ“ Qwen2.5-7B LLM\n(๊ธฐ๋ฐ˜ ๋ชจ๋ธ)"]
    
    E --> F["๐Ÿ“‹ ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš ์ƒ์„ฑ\n1. ์ปต์— ์ ‘๊ทผ\n2. ์ปต์„ ์žก๊ธฐ\n3. ์ปต ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ\n..."]
    
    F --> G["์„œ๋ธŒํƒœ์Šคํฌ๋ณ„ ๋ถ„๊ธฐ"]
    G --> H["๐ŸŽฏ A-LoRA\n์–ดํฌ๋˜์Šค ์˜ˆ์ธก"]
    G --> I["๐Ÿ“ T-LoRA\n๊ถค์  ์˜ˆ์ธก"]
    
    H --> J["๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ\n{l_x, l_y, r_x, r_y}"]
    I --> K["์›จ์ดํฌ์ธํŠธ ์‹œํ€€์Šค\n{(xโ‚,yโ‚), (xโ‚‚,yโ‚‚), ...}"]
    
    J --> L["๐Ÿค– ํ†ตํ•ฉ ์ถœ๋ ฅ\n๊ณ„ํš + ์–ดํฌ๋˜์Šค + ๊ถค์ "]
    K --> L

    style A fill:#E8F4FD,stroke:#2196F3
    style E fill:#FFF3E0,stroke:#FF9800
    style H fill:#E8F5E9,stroke:#4CAF50
    style I fill:#F3E5F5,stroke:#9C27B0
    style L fill:#FFEBEE,stroke:#F44336


ํ•™์Šต ์ „๋žต: โ€œ๊ฐ‘์ž๊ธฐ ๋ชจ๋“  ๊ฒƒ์„ ๋ฐฐ์šฐ์ง€ ๋งˆ๋ผโ€

RoboBrain์˜ ํ•™์Šต ์ „๋žต์€ ์ธ๊ฐ„์˜ ๋ฐœ๋‹ฌ ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•œ ์ ์ง„์  ๋Šฅ๋ ฅ ํš๋“ ๋ฐฉ์‹์ด๋‹ค. ์•„์ด๊ฐ€ ๋จผ์ € ์„ธ์ƒ์„ ๊ด€์ฐฐํ•˜๊ณ (์‹œ๊ฐ ํ•™์Šต), ๋ง์„ ๋ฐฐ์šฐ๊ณ (์–ธ์–ด ํ•™์Šต), ๊ทธ ํ›„์— ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฒ•์„ ์ตํžˆ๋“ฏ(๊ธฐ๋Šฅ ํ•™์Šต), RoboBrain๋„ ๋‹จ๊ณ„๋ณ„๋กœ ๋Šฅ๋ ฅ์„ ์Œ“์•„๊ฐ„๋‹ค.

Phase 1: ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต (General OneVision Training)

LLaVA-OneVision์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ์ „๋žต์„ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์ดˆ ์ฒด๋ ฅ์„ ํ‚ค์šฐ๋Š” ๋‹จ๊ณ„๋‹ค.

Stage 1 โ€” ์‹œ๊ฐ-์–ธ์–ด ์ •๋ ฌ (Alignment)

  • ๋ฐ์ดํ„ฐ: LCS-558K (์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ)
  • ํ•™์Šต ๋Œ€์ƒ: Projector๋งŒ ํ•™์Šต (17M ํŒŒ๋ผ๋ฏธํ„ฐ)
  • ๋ชฉ์ : ์‹œ๊ฐ ํŠน์ง•๊ณผ LLM ์˜๋ฏธ ๊ณต๊ฐ„์˜ ์ •๋ ฌ
  • ๋น„์œ : โ€œ๋ˆˆ(์‹œ๊ฐ)๊ณผ ๋‡Œ(์–ธ์–ด)๊ฐ€ ๊ฐ™์€ ์–ธ์–ด๋ฅผ ์“ฐ๋„๋ก ํ†ต์—ญ์‚ฌ๋ฅผ ํ›ˆ๋ จโ€

Stage 1.5 โ€” ์ผ๋ฐ˜ ์ง€์‹ ํ•™์Šต

  • ๋ฐ์ดํ„ฐ: 4M ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ
  • ํ•™์Šต ๋Œ€์ƒ: ์ „์ฒด ๋ชจ๋ธ (8B ํŒŒ๋ผ๋ฏธํ„ฐ)
  • ๋ชฉ์ : ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ผ๋ฐ˜ ์ง€์‹ ์ดํ•ด
  • ๋น„์œ : โ€œ์„ธ์ƒ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์ƒ์‹์„ ์Šต๋“โ€

Stage 2 โ€” ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ํ•™์Šต (Visual Instruction Tuning)

  • ๋ฐ์ดํ„ฐ: 3.2M ๋‹จ์ผ ์ด๋ฏธ์ง€ + 1.6M ์ด๋ฏธ์ง€/๋น„๋””์˜ค ๋ฐ์ดํ„ฐ
  • ํ•™์Šต ๋Œ€์ƒ: ์ „์ฒด ๋ชจ๋ธ
  • ๋ชฉ์ : ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ยท๋น„๋””์˜ค ์ดํ•ด ๋ฐ ์ง€์‹œ ์ˆ˜ํ–‰
  • ๋น„์œ : โ€œ๋ณต์žกํ•œ ์ง€์‹œ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋”ฐ๋ฅผ ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ ํ•™์Šตโ€

Phase 2: ๋กœ๋ด‡ ํŠนํ™” ํ•™์Šต (Robotic Training)

Phase 1์—์„œ ๊ฐ–์ถฐ์ง„ ๊ฐ•๋ ฅํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ๋ฐ˜ ์œ„์— ๋กœ๋ด‡ ํŠนํ™” ๋Šฅ๋ ฅ์„ ์Œ“๋Š” ๋‹จ๊ณ„๋‹ค.

Stage 3 โ€” ๋กœ๋ด‡ ์ง€์‹ ํ•™์Šต (Robotic Knowledge Learning)

  • ๋ฐ์ดํ„ฐ: ์ด 3M (RoboVQA-800K + ScanView-318K + ShareRobot-200K + Phase 1 ๊ณ ํ’ˆ์งˆ ์„œ๋ธŒ์…‹ 1.7M)
  • ํ•™์Šต ๋Œ€์ƒ: ์ „์ฒด ๋ชจ๋ธ
  • ๋ชฉ์ : ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณ„ํš, ํ™˜๊ฒฝ ์ธ์ง€, ์žฅ๋ฉด ์ดํ•ด
  • ํ•ต์‹ฌ ์„ค๊ณ„: Phase 1 ๋ฐ์ดํ„ฐ 1.7M์„ ํ˜ผํ•ฉํ•œ ์ด์œ ๋Š” catastrophic forgetting ๋ฐฉ์ง€๋‹ค. ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•˜๋ฉด ์ด์ „์— ๋ฐฐ์šด ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Šฅ๋ ฅ์ด ๊ธ‰๊ฒฉํžˆ ์†์ƒ๋˜๋ฏ€๋กœ, ์ผ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ ์ ˆํžˆ ์„ž์–ด ๊ท ํ˜•์„ ์œ ์ง€ํ•œ๋‹ค.

Stage 4 โ€” ๋กœ๋ด‡ ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต (Robotic Multi-Task Learning)

  • ์–ดํฌ๋˜์Šค ๋ฐ์ดํ„ฐ: ~10K (ShareRobot + ์™ธ๋ถ€ ์˜คํ”ˆ์†Œ์Šค)
  • ๊ถค์  ๋ฐ์ดํ„ฐ: ~400K
  • ํ•™์Šต ๋Œ€์ƒ: A-LoRA์™€ T-LoRA๋งŒ ํ•™์Šต (๊ฐ 28M ํŒŒ๋ผ๋ฏธํ„ฐ)
  • ๋ชฉ์ : ๊ตฌ์ฒด์ ์ธ ์–ดํฌ๋˜์Šค ์ธ์ง€์™€ ๊ถค์  ์˜ˆ์ธก

Stage 4์—์„œ LoRA๋งŒ ํ•™์Šตํ•˜๊ณ  ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋™๊ฒฐํ•œ ๊ฒƒ์€ ๋งค์šฐ ์‹ค์šฉ์ ์ธ ์„ ํƒ์ด๋‹ค. ์–ดํฌ๋˜์Šค(6,522์žฅ)์™€ ๊ถค์ (6,870์žฅ) ๋ฐ์ดํ„ฐ๋Š” ๊ณ„ํš ๋ฐ์ดํ„ฐ(100๋งŒ+)์— ๋น„ํ•ด ํฌ๊ฒŒ ์ ์œผ๋ฏ€๋กœ, ์ „์ฒด ๋ชจ๋ธ์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋ฉด ์˜คํžˆ๋ ค ๊ณผ์ ํ•ฉ์˜ ์œ„ํ—˜์ด ์žˆ๋‹ค. LoRA๋กœ ์†Œ๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์กฐ์ •ํ•˜๋ฉด ์ด ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์šฐํšŒํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•™์Šต ์„ค์ • ์š”์•ฝ

๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ ํ•™์Šต ๋Œ€์ƒ ํ•™์Šต ํŒŒ๋ผ๋ฏธํ„ฐ ํ•ด์ƒ๋„
Stage 1 558K Projector 17M 384px
Stage 1.5 4M Full Model 8B Max 384ร—(2ร—2)
Stage 2 4.8M Full Model 8B Max 384ร—(6ร—6)
Stage 3 3M Full Model 8B Max 384ร—(6ร—6)
Stage 4 (A-LoRA) 10K A-LoRA 28M Max 384ร—(6ร—6)
Stage 4 (T-LoRA) 400K T-LoRA 28M Max 384ร—(6ร—6)

๋ชจ๋“  ๋‹จ๊ณ„์—์„œ ํ•™์Šต๋ฅ ์€ ViT์— 2 \times 10^{-6}, Projector/LLM/LoRA์— 1 \times 10^{-5}, epoch๋Š” 1๋กœ ํ†ต์ผ๋˜์—ˆ๋‹ค. ํ•™์Šต์€ 8ร—A800 GPU ํด๋Ÿฌ์Šคํ„ฐ์—์„œ DeepSpeed Zero3๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค.

flowchart LR
    subgraph Phase1["Phase 1: ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต"]
        S1["Stage 1\n์‹œ๊ฐ-์–ธ์–ด ์ •๋ ฌ\n558K ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ\nProjector๋งŒ ํ•™์Šต"]
        S15["Stage 1.5\n์ผ๋ฐ˜ ์ง€์‹ ํ•™์Šต\n4M ๋ฐ์ดํ„ฐ\n์ „์ฒด ๋ชจ๋ธ"]
        S2["Stage 2\n์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ํ•™์Šต\n4.8M ์ด๋ฏธ์ง€+๋น„๋””์˜ค\n์ „์ฒด ๋ชจ๋ธ"]
    end
    
    subgraph Phase2["Phase 2: ๋กœ๋ด‡ ํŠนํ™” ํ•™์Šต"]
        S3["Stage 3\n๋กœ๋ด‡ ์ง€์‹ ํ•™์Šต\n3M ๋กœ๋ด‡+์ผ๋ฐ˜ ํ˜ผํ•ฉ\n์ „์ฒด ๋ชจ๋ธ"]
        S4A["Stage 4\nA-LoRA (์–ดํฌ๋˜์Šค)\n10K ๋ฐ์ดํ„ฐ"]
        S4T["Stage 4\nT-LoRA (๊ถค์ )\n400K ๋ฐ์ดํ„ฐ"]
    end
    
    S1 --> S15 --> S2 --> S3 --> S4A
    S3 --> S4T

    style Phase1 fill:#E3F2FD,stroke:#1565C0
    style Phase2 fill:#FFF8E1,stroke:#F57F17


์‹คํ—˜: ๊ฒฐ๊ณผ๋Š” ์„ค๋“๋ ฅ์ด ์žˆ๋Š”๊ฐ€?

์‹คํ—˜ ์„ค์ •

ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ

์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋Šฅ๋ ฅ์— ๋Œ€ํ•ด ๊ฐ๊ฐ ์ ์ ˆํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค:

๋Šฅ๋ ฅ ๋ฒค์น˜๋งˆํฌ ๋ฉ”ํŠธ๋ฆญ
๊ณ„ํš (Planning) RoboVQA, OpenEQA, ShareRobot test set BLEU-1~4, GPT-4o ํ‰๊ฐ€ ์ ์ˆ˜
์–ดํฌ๋˜์Šค AGD20K test set Average Precision (AP)
๊ถค์  ShareRobot trajectory test set DFD, Hausdorff Distance, RMSE

๋น„๊ต ๋Œ€์ƒ

๊ณ„ํš ํƒœ์Šคํฌ์—์„œ๋Š” GPT-4V, Claude3, LLaVA-1.5, LLaVA-OneVision-7B, Qwen2-VL-7B, RoboMamba๋ฅผ ํฌํ•จํ•œ 6๊ฐœ MLLM๊ณผ ๋น„๊ตํ•œ๋‹ค.

๊ณ„ํš ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ

๋…ผ๋ฌธ์˜ Figure 5๊ฐ€ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์š”์•ฝํ•˜๋ฉด:

OpenEQA ๋ฒค์น˜๋งˆํฌ: RoboBrain์ด ๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ์„ ์ƒํšŒํ•˜์—ฌ SOTA ๋‹ฌ์„ฑ. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” 3D ๊ณต๊ฐ„ ๋‚ด embodied question answering์„ ํ‰๊ฐ€ํ•˜๋ฏ€๋กœ, RoboBrain์˜ ๋กœ๋ด‡ ํ™˜๊ฒฝ ์ดํ•ด๋ ฅ์ด ๋›ฐ์–ด๋‚จ์„ ์˜๋ฏธํ•œ๋‹ค.

ShareRobot ๋ฒค์น˜๋งˆํฌ: ์—ญ์‹œ ๋ชจ๋“  ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ์ตœ๊ณ  ์„ฑ๋Šฅ. ์ž์ฒด ๋ฐ์ดํ„ฐ์…‹ ํ…Œ์ŠคํŠธ์ด๋ฏ€๋กœ ๋‹ค์†Œ ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•™์Šต-ํ…Œ์ŠคํŠธ ๋ถ„๋ฆฌ๊ฐ€ ๋ช…ํ™•ํ•˜๋ฏ€๋กœ ๊ณผ์ ํ•ฉ์ด ์•„๋‹Œ ์ง„์ •ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ฐ˜์˜ํ•œ๋‹ค.

RoboVQA ๋ฒค์น˜๋งˆํฌ: ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋กœ, BLEU-4 ์ ์ˆ˜์—์„œ 2์œ„ ๋ชจ๋ธ์„ 18.75์  ์ฐจ์ด๋กœ ์•ž์„ฐ๋‹ค. BLEU-4๋Š” 4-gram ์ •๋ฐ€๋„๋ฅผ ์ธก์ •ํ•˜๋ฏ€๋กœ, RoboBrain์ด ๋‹จ์ˆœํžˆ ๊ด€๋ จ ๋‹จ์–ด๋ฅผ ๋‚˜์—ดํ•˜๋Š” ์ˆ˜์ค€์ด ์•„๋‹ˆ๋ผ ์ •ํ™•ํ•œ ์ˆœ์„œ์™€ ๊ตฌ๋ฌธ์œผ๋กœ ๊ณ„ํš์„ ์ƒ์„ฑํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

ํŠนํžˆ RoboBrain์ด GPT-4V๋‚˜ Claude3 ๊ฐ™์€ ๊ฑฐ๋Œ€ ์ƒ์šฉ ๋ชจ๋ธ๋„ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ์ ์ด ๋ˆˆ์— ๋„๋Š”๋ฐ, ์ด๋Š” ๋ฒ”์šฉ MLLM๋ณด๋‹ค ๋„๋ฉ”์ธ ํŠนํ™” ํ•™์Šต์˜ ํž˜์ด ๋กœ๋ด‡ ํƒœ์Šคํฌ์—์„œ๋Š” ๋” ํฌ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์–ดํฌ๋˜์Šค ์˜ˆ์ธก ๊ฒฐ๊ณผ

๋ชจ๋ธ AP (โ†‘)
LLaVA-NeXT-7B 9.8%
Qwen2-VL-7B 12.5%
RoboBrain 27.1% (+14.6)

RoboBrain์ด Qwen2-VL ๋Œ€๋น„ AP์—์„œ 14.6% ํฌ์ธํŠธ, LLaVA-NeXT ๋Œ€๋น„ 17.3% ํฌ์ธํŠธ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ์ ˆ๋Œ€๊ฐ’์œผ๋กœ ๋ณด๋ฉด 27.1%๊ฐ€ ๊ทธ๋ฆฌ ๋†’์•„ ๋ณด์ด์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์–ดํฌ๋˜์Šค ์˜ˆ์ธก์€ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ๊ณผ ํƒœ์Šคํฌ ๋งฅ๋ฝ์„ ๋™์‹œ์— ์ดํ•ดํ•ด์•ผ ํ•˜๋Š” ๋งค์šฐ ์–ด๋ ค์šด ๊ณผ์ œ์ž„์„ ๊ฐ์•ˆํ•ด์•ผ ํ•œ๋‹ค. ๊ธฐ์กด ๋ฒ”์šฉ VLM๋“ค์˜ ํ•œ ์ž๋ฆฟ์ˆ˜ AP์™€ ๋น„๊ตํ•˜๋ฉด, ์ƒ๋‹นํ•œ ๋„์•ฝ์ด๋‹ค.

๊ถค์  ์˜ˆ์ธก ๊ฒฐ๊ณผ

๊ถค์  ์˜ˆ์ธก์—์„œ๋Š” RoboBrain ์ž์ฒด์˜ ์—ฌ๋Ÿฌ ๋ณ€ํ˜•(variant) ๊ฐ„ ๋น„๊ต๊ฐ€ ์ด๋ฃจ์–ด์กŒ๋‹ค:

๋ฐฉ๋ฒ• DFD (โ†“) HD (โ†“) RMSE (โ†“)
Baseline 0.191 0.171 0.133
+ Start Points 0.176 0.157 0.117
+ Max Points 0.185 0.163 0.125
+ Spec Token & End Points 0.109 (-42.9%) 0.010 (-94.2%) 0.091 (-31.6%)

๊ฐ ๋ณ€ํ˜•์˜ ์˜๋ฏธ๋ฅผ ํ’€์–ด๋ณด๋ฉด:

  • Start Points: end-effector์˜ ํ˜„์žฌ 2D ์‹œ์ž‘ ์ขŒํ‘œ๋ฅผ ์ž…๋ ฅ์— ์ถ”๊ฐ€. ์ด๊ฒƒ๋งŒ์œผ๋กœ DFD๊ฐ€ 0.015 ๊ฐ์†Œํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋ธ์ด โ€œ์ง€๊ธˆ ์–ด๋””์— ์žˆ๋Š”์ง€โ€๋ฅผ ์•Œ์•„์•ผ ์ •ํ™•ํ•œ ๊ถค์ ์„ ์˜ˆ์ธกํ•œ๋‹ค๋Š” ์ง๊ด€์ ์ธ ๊ฒฐ๊ณผ๋‹ค.
  • Max Points: ์›จ์ดํฌ์ธํŠธ๋ฅผ ์ตœ๋Œ€ 10๊ฐœ๋กœ ์ œํ•œ(๊ท ์ผ ์ƒ˜ํ”Œ๋ง). ์˜ˆ์ƒ ์™ธ๋กœ ์•ฝ๊ฐ„์˜ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์žˆ์—ˆ๋Š”๋ฐ, ์›จ์ดํฌ์ธํŠธ ์ˆ˜ ์ œํ•œ์ด ๋•Œ๋กœ ์ค‘์š”ํ•œ ๊ฒฝ์œ ์ ์„ ๋ˆ„๋ฝ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  • Spec Token & End Points: ํŠน์ˆ˜ ํ† ํฐ์œผ๋กœ ์›จ์ดํฌ์ธํŠธ๋ฅผ ๊ฐ•์กฐํ•˜๊ณ , ๋„์ฐฉ์  ์ •๋ณด๋ฅผ ์ถ”๊ฐ€. Hausdorff Distance๊ฐ€ 94.2% ๊ฐ์†Œ๋ผ๋Š” ๊ทน์ ์ธ ๊ฐœ์„ ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ์ตœ๋Œ€ ํŽธ์ฐจ(outlier) ๋ฌธ์ œ๊ฐ€ ๊ฑฐ์˜ ํ•ด๊ฒฐ๋˜์—ˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. ๋„์ฐฉ์ ์„ ์•Œ๋ ค์ฃผ๋ฉด ๋ชจ๋ธ์ด โ€œ์–ด๋””๋กœ ๊ฐ€์•ผ ํ•˜๋Š”์ง€โ€๊ฐ€ ๋ช…ํ™•ํ•ด์ง€๋ฏ€๋กœ, ๊ถค์ ์ด ์—‰๋šฑํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋น ์ง€๋Š” ๊ฒƒ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ฐฉ์ง€ํ•œ๋‹ค.

์‹œ๊ฐํ™” ๋ถ„์„

๋…ผ๋ฌธ์˜ Figure 6์€ RoboBrain์˜ ์‹ค์ œ ์ž‘๋™์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์‹œ๊ฐํ™”๋‹ค. โ€œ์ปจํ…Œ์ด๋„ˆ์—์„œ ๋ฌผ์ฒด๋ฅผ ๊บผ๋‚ด ๋‹ค๋ฅธ ๋ฌผ์ฒด ๊ทผ์ฒ˜์— ๋†“์•„๋ผโ€๋ผ๋Š” ์ง€์‹œ์— ๋Œ€ํ•ด:

  1. 1ํ„ด: ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  โ€œ์ปจํ…Œ์ด๋„ˆ๋ฅผ ํ–ฅํ•ด ์ด๋™โ€ ๊ณ„ํš ์ƒ์„ฑ
  2. 2ํ„ด: ๋‹ค์Œ ์ด๋ฏธ์ง€์—์„œ โ€œ๋ธŒ๋กœ์ฝœ๋ฆฌ๋ฅผ ๋ƒ„๋น„์—์„œ ์ง‘๊ธฐโ€ ์ƒ์„ฑ
  3. 3ํ„ด: โ€œ๋ธŒ๋กœ์ฝœ๋ฆฌ๋ฅผ ๋นจ๊ฐ„ ์ˆŸ๊ฐ€๋ฝ ์ชฝ์œผ๋กœ ์ด๋™โ€ ์ƒ์„ฑ
  4. 4ํ„ด: โ€œ๋ธŒ๋กœ์ฝœ๋ฆฌ๋ฅผ ๋นจ๊ฐ„ ์ˆŸ๊ฐ€๋ฝ ์˜†์— ๋†“๊ธฐโ€ ์ƒ์„ฑ
  5. 5ํ„ด: โ€œ์™„๋ฃŒ(Done)โ€ ์ถœ๋ ฅ

๊ฐ ๋‹จ๊ณ„์—์„œ ์–ดํฌ๋˜์Šค(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค)์™€ ๊ถค์ (ํ™”์‚ดํ‘œ ๊ฒฝ๋กœ)๋„ ํ•จ๊ป˜ ์ถœ๋ ฅ๋œ๋‹ค. ์ด๊ฒƒ์ด RoboBrain์˜ ์ง„์ •ํ•œ ๊ฐ€์น˜๋‹ค โ€” ๋‹ค์ค‘ ํ„ด ์ƒํ˜ธ์ž‘์šฉ์—์„œ ์‹ค์‹œ๊ฐ„ ์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„ํš์„ ์ ์ง„์ ์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ๋ชจ์Šต.


๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

1. ๋ช…ํ™•ํ•œ ๋ฌธ์ œ ์ •์˜์™€ ์ฒด๊ณ„์  ์ ‘๊ทผ

โ€œAbstract to Concreteโ€๋ผ๋Š” ํ”„๋ ˆ์ด๋ฐ์ด ๋งค์šฐ ํšจ๊ณผ์ ์ด๋‹ค. ๊ณ„ํš(์ถ”์ƒ) โ†’ ์–ดํฌ๋˜์Šค(์ค‘๊ฐ„) โ†’ ๊ถค์ (๊ตฌ์ฒด)์ด๋ผ๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ์ถ”์ƒํ™” ๊ณ„์ธต์„ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ์ฒ˜๋ฆฌํ•˜๊ฒ ๋‹ค๋Š” ๋น„์ „์ด ๋ช…ํ™•ํ•˜๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํ–ฅํ›„ ์—ฐ๊ตฌ์˜ ์ข‹์€ ์ฒญ์‚ฌ์ง„์ด ๋œ๋‹ค.

2. ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ์—ฌ์˜ ์‹ค์งˆ์  ๊ฐ€์น˜

ShareRobot์€ ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ ๋ชจ๋ธ๋งŒ์„ ์œ„ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ปค๋ฎค๋‹ˆํ‹ฐ ์ „์ฒด๊ฐ€ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž์›์ด๋‹ค. ํŠนํžˆ OXE ๋ฐ์ดํ„ฐ์—์„œ ๊ณ ํ’ˆ์งˆ ์„œ๋ธŒ์…‹์„ ์„ ๋ณ„ํ•˜๊ณ , 3๋ช…์˜ annotator๊ฐ€ ๊ฒ€์ˆ˜ํ•œ ์„ธ๋ฐ€ํ•œ ๋ ˆ์ด๋ธ”์„ ์ถ”๊ฐ€ํ•œ ์ ์€ ๋†’์ด ํ‰๊ฐ€ํ•  ๋งŒํ•˜๋‹ค. ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋œ ์ ๋„ ํฐ ์žฅ์ ์ด๋‹ค.

3. ์‹ค์šฉ์ ์ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„

LoRA๋ฅผ ํ™œ์šฉํ•œ ๋ชจ๋“ˆ ๋ถ„๋ฆฌ๋Š” ๋งค์šฐ ํ˜„๋ช…ํ•œ ์„ ํƒ์ด๋‹ค. ์–ดํฌ๋˜์Šค์™€ ๊ถค์ ์ด๋ผ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋Šฅ๋ ฅ์„ ๋…๋ฆฝ์ ์ธ LoRA๋กœ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ, ๊ฐ ๋ชจ๋“ˆ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜๊ฑฐ๋‚˜ ๊ต์ฒดํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‚˜์ค‘์— ๋” ์ข‹์€ ๊ถค์  ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚˜์˜ค๋ฉด, T-LoRA๋งŒ ์žฌํ•™์Šตํ•˜๋ฉด ๋œ๋‹ค.

4. ํฌ๊ด„์ ์ธ ์‹คํ—˜

์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋Šฅ๋ ฅ ๋ชจ๋‘์— ๋Œ€ํ•ด ์ •๋Ÿ‰์  ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๊ณ , ๊ถค์  ์˜ˆ์ธก์—์„œ๋Š” ablation study๋ฅผ ํ†ตํ•ด ๊ฐ ์„ค๊ณ„ ์„ ํƒ์˜ ๊ธฐ์—ฌ๋ฅผ ๋ถ„๋ฆฌํ•œ ์ ์ด ์ข‹๋‹ค.

์•ฝ์ ๊ณผ ํ•œ๊ณ„

1. 2D ๊ถค์ ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„

๊ถค์  ์˜ˆ์ธก์ด 2D ์ด๋ฏธ์ง€ ์ขŒํ‘œ๋กœ๋งŒ ์ด๋ฃจ์–ด์ง„๋‹ค๋Š” ์ ์€ ์‹ค์ œ ๋กœ๋ด‡ ์ œ์–ด์— ์ ์šฉํ•  ๋•Œ ์‹ฌ๊ฐํ•œ ๋ณ‘๋ชฉ์ด ๋œ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์€ 3D ๊ณต๊ฐ„์—์„œ ์›€์ง์ด๋ฉฐ, ๊นŠ์ด ์ •๋ณด ์—†์ด๋Š” ๋™์ผํ•œ 2D ๊ถค์ ์ด ๋ฌดํ•œํžˆ ๋งŽ์€ 3D ๊ฒฝ๋กœ์— ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ํ›„์† ์—ฐ๊ตฌ์ธ RoboBrain 2.5์—์„œ๋Š” depth-aware 3D ๊ถค์  ์˜ˆ์ธก์œผ๋กœ ์ด ํ•œ๊ณ„๋ฅผ ์ •ํ™•ํžˆ ๊ทน๋ณตํ•˜๊ณ  ์žˆ์–ด, ์ €์ž๋“ค๋„ ์ด ๋ฌธ์ œ๋ฅผ ์ธ์ง€ํ•˜๊ณ  ์žˆ์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

2. ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์˜ ๋ถ€์žฌ

์ด๊ฒƒ์ด ๊ฐ€์žฅ ํฌ๋ฆฌํ‹ฐ์ปฌํ•œ ์•ฝ์ ์ด๋‹ค. ๋…ผ๋ฌธ์˜ ๋ชจ๋“  ํ‰๊ฐ€๊ฐ€ ์˜คํ”„๋ผ์ธ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ด๋ฃจ์–ด์กŒ๋‹ค. โ€œ๋กœ๋ด‡ ๋‘๋‡Œโ€๋ฅผ ํ‘œ๋ฐฉํ•˜๋ฉด์„œ ์‹ค์ œ ๋กœ๋ด‡์—์„œ์˜ closed-loop ์‹คํ—˜์ด ์—†๋‹ค๋Š” ๊ฒƒ์€, ๋งˆ์น˜ ์ž๋™์ฐจ ์—”์ง„์„ ์„ค๊ณ„ํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋งŒ ํ–ˆ์ง€ ์‹ค์ œ ์ฐจ์— ์žฅ์ฐฉํ•ด๋ณด์ง€ ์•Š์€ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. RoboBrain์˜ ์ถœ๋ ฅ(๊ณ„ํš + ์–ดํฌ๋˜์Šค + ๊ถค์ )์ด ์‹ค์ œ ๋กœ๋ด‡ ์ปจํŠธ๋กค๋Ÿฌ๋กœ ์–ด๋–ป๊ฒŒ ๋ณ€ํ™˜๋˜๊ณ , ์–ด๋–ค ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋Š”์ง€์— ๋Œ€ํ•œ ์‹ค์ฆ์ด ๋น ์ ธ ์žˆ๋‹ค.

3. ์–ดํฌ๋˜์Šค ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ ๋ฌธ์ œ

์–ดํฌ๋˜์Šค ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ 6,000์žฅ์ด๋ผ๋Š” ๊ฒƒ์€ ์ƒ๋‹นํžˆ ์ ๋‹ค. ๋ฌผ์ฒด์˜ ์ข…๋ฅ˜, ์ž์„ธ, ์กฐ๋ช…, ํƒœ์Šคํฌ์˜ ๋‹ค์–‘์„ฑ์„ ๊ณ ๋ คํ•˜๋ฉด, ์ด ๊ทœ๋ชจ๋กœ๋Š” ์ผ๋ฐ˜ํ™”์— ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜๋ฐ–์— ์—†๋‹ค. AP 27.1%๋ผ๋Š” ๊ฒฐ๊ณผ๋„, ํ–ฅ์ƒํญ์€ ํฌ์ง€๋งŒ ์ ˆ๋Œ€ ์„ฑ๋Šฅ์€ ์•„์ง ์‹ค์šฉ ์ˆ˜์ค€์— ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค.

4. ๊ณ„ํš์—์„œ ํ–‰๋™์œผ๋กœ์˜ ๋ณ€ํ™˜(Plan-to-Action Gap)

RoboBrain์€ โ€œ๊ณ„ํš ํ…์ŠคํŠธ + ์–ดํฌ๋˜์Šค ๋ฐ•์Šค + 2D ๊ถค์ โ€์„ ์ถœ๋ ฅํ•˜์ง€๋งŒ, ์ด๋ฅผ ์‹ค์ œ ๋กœ๋ด‡์˜ joint ๋ช…๋ น์ด๋‚˜ end-effector pose ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์ด ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค. ์ด โ€œ๋งˆ์ง€๋ง‰ 1๋งˆ์ผโ€ ๋ฌธ์ œ๋Š” RoboBrain์˜ ๋ฒ”์œ„ ๋ฐ–์ด๋ผ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ†ตํ•ฉ ์†”๋ฃจ์…˜์„ ํ‘œ๋ฐฉํ•˜๋Š” ๋งŒํผ ์ด์— ๋Œ€ํ•œ ๋…ผ์˜๋ผ๋„ ์žˆ์—ˆ์œผ๋ฉด ์ข‹์•˜์„ ๊ฒƒ์ด๋‹ค.

5. ๋‹จ์ผ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ์–ดํฌ๋˜์Šค/๊ถค์ ์˜ ํ•œ๊ณ„

์–ดํฌ๋˜์Šค์™€ ๊ถค์  ์˜ˆ์ธก์ด ๋‹จ์ผ ํ”„๋ ˆ์ž„ ์ด๋ฏธ์ง€์—์„œ ์ˆ˜ํ–‰๋œ๋‹ค๋Š” ์ ๋„ ํ•œ๊ณ„๋‹ค. ๋™์  ํ™˜๊ฒฝ์—์„œ ๋ฌผ์ฒด๊ฐ€ ์›€์ง์ด๊ฑฐ๋‚˜, ์žฅ์• ๋ฌผ์ด ๋“ฑ์žฅํ•˜๋Š” ๊ฒฝ์šฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ๋น„๋””์˜ค ๊ธฐ๋ฐ˜์˜ ์‹œ๊ฐ„์  ์ถ”๋ก ์ด ์–ดํฌ๋˜์Šค/๊ถค์ ์—๋„ ํ™•์žฅ๋  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

6. ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ์˜ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ

๊ณ„ํš ํ‰๊ฐ€์—์„œ GPT-4o๋ฅผ ํ‰๊ฐ€์ž๋กœ ์‚ฌ์šฉํ•˜๋Š” โ€œLLM-as-a-judgeโ€ ๋ฐฉ์‹์€ ํŽธ๋ฆฌํ•˜์ง€๋งŒ, ๊ทธ ์ž์ฒด๋กœ ํŽธํ–ฅ๊ณผ ๋…ธ์ด์ฆˆ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ํŠนํžˆ ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๋ฌผ๋ฆฌ์  ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ(๋ฌผ๋ฆฌ์ ์œผ๋กœ ๊ฐ€๋Šฅํ•œ ๊ณ„ํš์ธ์ง€)์„ LLM์ด ์ •ํ™•ํžˆ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋Š” ์˜๋ฌธ์ด๋‹ค.


๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

RoboBrain์˜ ์œ„์น˜๋ฅผ ๊ด€๋ จ ์—ฐ๊ตฌ ์ง€ํ˜•๋„ ์†์—์„œ ํŒŒ์•…ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๋ชจ๋ธ ๊ณ„ํš ์–ดํฌ๋˜์Šค ๊ถค์  ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜
RoboBrain โœ… โœ… โœ… (2D) โŒ LLaVA + Qwen2.5-7B
RT-2 โ–ณ (์•”๋ฌต์ ) โŒ โŒ โœ… PaLI-X / PaLM-E
RT-H โœ… โŒ โŒ โœ… RT-2 ๊ธฐ๋ฐ˜
PaLM-E โ–ณ โŒ โŒ โœ… PaLM + ViT
SayCan โœ… โŒ โŒ โœ… PaLM
OpenVLA โŒ โŒ โŒ โœ… Prismatic + Llama-2-7B
RoboMamba โœ… โŒ โŒ โ–ณ Mamba ๊ธฐ๋ฐ˜
LLaRVA โŒ โ–ณ โœ… (2D) โŒ LLaVA ๊ธฐ๋ฐ˜
RT-Trajectory โŒ โŒ โœ… (2D) โœ… RT-2 ๊ธฐ๋ฐ˜

์ด ํ‘œ์—์„œ RoboBrain์˜ ๋…๋ณด์ ์ธ ์œ„์น˜๊ฐ€ ๋“œ๋Ÿฌ๋‚œ๋‹ค: ๊ณ„ํš, ์–ดํฌ๋˜์Šค, ๊ถค์ ์˜ ์„ธ ๋Šฅ๋ ฅ์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์—์„œ ๋™์‹œ์— ๋‹ค๋ฃจ๋Š” ๊ฑฐ์˜ ์œ ์ผํ•œ ์—ฐ๊ตฌ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋™์‹œ์—, ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์ด ์—†๋‹ค๋Š” ์ ์—์„œ RT-2, SayCan, OpenVLA ๋“ฑ๊ณผ๋Š” ๊ฒ€์ฆ ์ˆ˜์ค€์ด ๋‹ค๋ฅด๋‹ค.

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€ RT-Trajectory์™€์˜ ๊ด€๊ณ„๋‹ค. RoboBrain์˜ ๊ถค์  ์˜ˆ์ธก ๊ฐœ๋…์€ RT-Trajectory์˜ โ€œvisual traceโ€์—์„œ ์ง์ ‘ ์˜๊ฐ์„ ๋ฐ›์•˜๋Š”๋ฐ, RT-Trajectory๋Š” ์ด ๊ฐœ๋…์„ ์‹ค์ œ ๋กœ๋ด‡์—์„œ ๊ฒ€์ฆ๊นŒ์ง€ ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

RoboBrain 2.0/2.5์™€์˜ ์—ฐ๊ฒฐ

์ด ๋…ผ๋ฌธ(RoboBrain 1.0)์˜ ํ•œ๊ณ„๋“ค์€ ํ›„์† ์—ฐ๊ตฌ์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ๋ณด์™„๋˜๊ณ  ์žˆ๋‹ค:

  • RoboBrain 2.0 (2025.06): 3B/7B/32B ๋‹ค์–‘ํ•œ ํฌ๊ธฐ ๋ชจ๋ธ, ๊ณต๊ฐ„ ์ดํ•ดยท์‹œ๊ฐ„์  ์˜์‚ฌ๊ฒฐ์ • ๊ฐ•ํ™”
  • RoboBrain 2.5 (2026.01): ๊นŠ์ด ์ธ์‹ 3D ๊ถค์  ์˜ˆ์ธก, ๋ฐ€์ง‘ ์‹œ๊ฐ„ ๊ฐ€์น˜ ์ถ”์ •(Dense Temporal Value Estimation), ์‹ค์ œ ๋กœ๋ด‡์—์„œ์˜ closed-loop ๊ฒ€์ฆ

์ด ์ง„ํ™” ๊ณผ์ •์„ ๋ณด๋ฉด, RoboBrain 1.0์ด ์ œ์‹œํ•œ โ€œAbstract to Concreteโ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์ด์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 2D์—์„œ 3D๋กœ, ์˜คํ”„๋ผ์ธ์—์„œ closed-loop์œผ๋กœ, ๊ณ„ํš์—์„œ ์‹คํ–‰๊นŒ์ง€ โ€” ๊ทธ ํ™•์žฅ์˜ ์”จ์•—์ด ์ด ๋…ผ๋ฌธ์— ์žˆ๋‹ค.


Allegro Hand ์—ฐ๊ตฌ์™€์˜ ์ ‘์ 

Dexterous manipulation ์—ฐ๊ตฌ์˜ ๊ด€์ ์—์„œ, RoboBrain์˜ ์–ดํฌ๋˜์Šค ์˜ˆ์ธก ๋ชจ๋“ˆ์€ ์† ์ˆ˜์ค€์˜ ์ ‘์ด‰ ์˜์—ญ ์ถ”๋ก ์— ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Allegro Hand์™€ ๊ฐ™์€ ๋‹ค์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ์˜ ๊ฒฝ์šฐ:

  • RoboBrain์˜ ์–ดํฌ๋˜์Šค ์ถœ๋ ฅ(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค)์„ โ†’ ํ•ธ๋“œ์˜ ๊ฐœ๋ณ„ ์†๊ฐ€๋ฝ ๋ฐฐ์น˜ ๊ณ„ํš์œผ๋กœ ๋ณ€ํ™˜
  • 2D ๊ถค์ ์„ โ†’ ์†๋ชฉ ๊ฒฝ๋กœ ๊ณ„ํš์œผ๋กœ ํ™œ์šฉ
  • ๋‹ค๋‹จ๊ณ„ ๊ณ„ํš์„ โ†’ ๊ทธ๋ž˜์Šคํ”„ ์ „๋žต์˜ ์‹œํ€€์‹ฑ์œผ๋กœ ํ™œ์šฉ

๋‹ค๋งŒ ํ˜„์žฌ RoboBrain์˜ ์–ดํฌ๋˜์Šค๋Š” ๋‹จ์ผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ˆ˜์ค€์ด์–ด์„œ, ๋‹ค์ง€ ํ•ธ๋“œ์— ํ•„์š”ํ•œ ๊ฐœ๋ณ„ ์ ‘์ด‰์  ์ˆ˜์ค€์˜ ์„ธ๋ฐ€ํ•œ ์–ดํฌ๋˜์Šค๊นŒ์ง€๋Š” ์ง์ ‘ ์ œ๊ณตํ•˜์ง€ ๋ชปํ•œ๋‹ค. ์ด๋ฅผ ํ™•์žฅํ•˜๋ฉด dexterous manipulation์— ๋” ์ง์ ‘์ ์ธ ๊ธฐ์—ฌ๊ฐ€ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค. ํŠนํžˆ RoboBrain์˜ VLA ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ RL ๊ธฐ๋ฐ˜ ํ•ธ๋“œ ์ œ์–ด์™€ ๊ฒฐํ•ฉํ•˜๋ฉด, ๊ณ ์ˆ˜์ค€ ์˜๋ฏธ ์ดํ•ด(๋ฌด์—‡์„ ์žก์„์ง€)์™€ ์ €์ˆ˜์ค€ ์ œ์–ด(์–ด๋–ป๊ฒŒ ์žก์„์ง€)์˜ ํ†ตํ•ฉ์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.


์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

ํ•œ ์ค„ ์š”์•ฝ

RoboBrain์€ MLLM์„ ๋กœ๋ด‡ ์กฐ์ž‘์˜ โ€œํ†ตํ•ฉ ๋‘๋‡Œโ€๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ๊ณ„ํšยท์–ดํฌ๋˜์Šคยท๊ถค์ ์ด๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋Šฅ๋ ฅ์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ์— ํ†ตํ•ฉํ•˜๊ณ , ์ด๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹(ShareRobot)๊ณผ ์ ์ง„์  ํ•™์Šต ์ „๋žต์„ ์ œ์•ˆํ•œ ์—ฐ๊ตฌ๋‹ค.

ํ•ต์‹ฌ ๊ตํ›ˆ

  1. ๋ฐ์ดํ„ฐ๊ฐ€ ์™•์ด๋‹ค. ShareRobot์˜ ์—„๊ฒฉํ•œ ํ•„ํ„ฐ๋ง๊ณผ ๋‹ค์ฐจ์› ๋ ˆ์ด๋ธ”๋ง์€ ๋ชจ๋“  ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค. ๋กœ๋ด‡ ํ•™์Šต์—์„œ ์–‘๋ณด๋‹ค ์งˆ์˜ ์ค‘์š”์„ฑ์„ ์žฌํ™•์ธ.
  2. ์ ์ง„์  ํ•™์Šต์ด ํšจ๊ณผ์ ์ด๋‹ค. ์ผ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ โ†’ ๋กœ๋ด‡ ํŠนํ™”์˜ ๋‹จ๊ณ„์  ์ „์ด๋Š” catastrophic forgetting์„ ๋ฐฉ์ง€ํ•˜๋ฉด์„œ ๋„๋ฉ”์ธ ํŠนํ™” ๋Šฅ๋ ฅ์„ ํ‚ค์šฐ๋Š” ํšจ๊ณผ์  ์ „๋žต์ด๋‹ค.
  3. ๋ชจ๋“ˆ์„ฑ์€ ํ™•์žฅ์„ฑ์ด๋‹ค. A-LoRA/T-LoRA๋ฅผ ํ†ตํ•œ ๋Šฅ๋ ฅ ๋ถ„๋ฆฌ๋Š” ํ–ฅํ›„ ๊ฐœ๋ณ„ ๋ชจ๋“ˆ์˜ ๋…๋ฆฝ์  ์—…๊ทธ๋ ˆ์ด๋“œ๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋ฉฐ, ์ด๋Š” ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ์˜ ํ˜‘์—… ๋ฐœ์ „์—๋„ ์œ ๋ฆฌํ•˜๋‹ค.
  4. โ€œAbstract to Concreteโ€ ํ”„๋ ˆ์ž„์€ ๊ฐ•๋ ฅํ•˜๋‹ค. ์ด ์ถ”์ƒํ™” ๊ณ„์ธต ๊ตฌ์กฐ๋Š” ๋กœ๋ด‡ ์กฐ์ž‘์˜ ๋ณต์žก์„ฑ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ์œ ์šฉํ•œ ์‚ฌ๊ณ  ๋„๊ตฌ๋‹ค.
  5. ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹ค์„ธ๊ณ„๋กœ์˜ ๊ฐ„๊ทน์€ ์—ฌ์ „ํ•˜๋‹ค. ์˜คํ”„๋ผ์ธ ์„ฑ๋Šฅ์ด ์•„๋ฌด๋ฆฌ ์ข‹์•„๋„, closed-loop ๋กœ๋ด‡ ์‹คํ—˜ ์—†์ด๋Š” ์™„์ „ํ•œ ๊ฒ€์ฆ์ด๋ผ ํ•  ์ˆ˜ ์—†๋‹ค.

๋งˆ์น˜๋ฉฐ

RoboBrain์€ ์™„๋ฒฝํ•œ ์†”๋ฃจ์…˜์ด ์•„๋‹ˆ๋‹ค. 2D ๊ถค์ ์˜ ํ•œ๊ณ„, ์‹ค์ œ ๋กœ๋ด‡ ๊ฒ€์ฆ์˜ ๋ถ€์žฌ, ์–ดํฌ๋˜์Šค ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ ๋ถ€์กฑ ๋“ฑ ๋ถ„๋ช…ํ•œ ์•ฝ์ ์ด ์žˆ๋‹ค. ํ•˜์ง€๋งŒ โ€œ์ถ”์ƒ์  ์–ธ์–ด ์ง€์‹œ์—์„œ ๊ตฌ์ฒด์  ์กฐ์ž‘ ํ–‰๋™๊นŒ์ง€โ€๋ผ๋Š” ๋น„์ „์„ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•˜๊ณ , ์ด๋ฅผ ๋ฐ์ดํ„ฐ-๋ชจ๋ธ-ํ•™์Šต์˜ ์‚ผ์œ„์ผ์ฒด๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ์ ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์ด์ •ํ‘œ๋‹ค.

ํŠนํžˆ CVPR 2025์—์„œ ๋ฐœํ‘œ๋œ ํ›„ ๋ถˆ๊ณผ ๋ช‡ ๊ฐœ์›” ๋งŒ์— 2.0, 2.5๋กœ ๋น ๋ฅด๊ฒŒ ์ง„ํ™”ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์€, ์ด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์˜ ์ƒ๋ช…๋ ฅ๊ณผ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž๋ผ๋ฉด, RoboBrain 1.0์ด ์ œ์‹œํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ดํ•ดํ•˜๊ณ , ํ›„์† ๋ฒ„์ „์˜ ๋ฐœ์ „์„ ์ฃผ์‹œํ•˜๋ฉฐ, ์ž์‹ ์˜ ์—ฐ๊ตฌ์— ์–ด๋–ป๊ฒŒ ์ ‘๋ชฉํ•  ์ˆ˜ ์žˆ์„์ง€ ๊ณ ๋ฏผํ•ด ๋ณผ ๊ฐ€์น˜๊ฐ€ ์ถฉ๋ถ„ํ•˜๋‹ค.

๊ฒฐ๊ตญ ๋กœ๋ด‡์—๊ฒŒ ์ง„์ •ํ•œ โ€œ๋‘๋‡Œโ€๋ฅผ ์ฃผ๋Š” ์ผ์€, ํ•˜๋‚˜์˜ ๋…ผ๋ฌธ์œผ๋กœ ์™„์„ฑ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ „์ฒด์˜ ์ ์ง„์  ์ถ•์ ์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์งˆ ๊ฒƒ์ด๋‹ค. RoboBrain์€ ๊ทธ ์—ฌ์ •์—์„œ ์ค‘์š”ํ•œ ๋ฐฉํ–ฅํƒ€ ์—ญํ• ์„ ํ•˜๊ณ  ์žˆ๋‹ค.


์ฐธ๊ณ  ๋ฌธํ—Œ

  • Ji, Y., et al. (2025). RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete. CVPR 2025.
  • BAAI RoboBrain Team. (2025). RoboBrain 2.0 Technical Report. arXiv:2507.02029.
  • Tan, H., et al. (2026). RoboBrain 2.5: Depth in Sight, Time in Mind. arXiv:2601.14352.
  • Li, B., et al. (2024). LLaVA-OneVision: Easy Visual Task Transfer. arXiv:2408.03326.
  • Gu, J., et al. (2023). RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches. arXiv:2311.01977.
  • Oโ€™Neill, A., et al. (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA 2024.
  • Sermanet, P., et al. (2024). RoboVQA: Multimodal Long-Horizon Reasoning for Robotics. ICRA 2024.

Copyright 2026, JungYeon Lee