Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ถ„์„
    • ์‹คํ—˜ ์„ค๊ณ„ ๋ถ„์„
    • ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 
    • ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ ๊ณ ์ฐฐ

๐Ÿ“ƒRoboTwin 2.0 ๋ฆฌ๋ทฐ

vla
bimanual
A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
Published

October 16, 2025

  • Paper Link
  • Homepage
  • Code Link
  1. ๐Ÿค– RoboTwin 2.0์€ ์ด์ค‘ ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, MLLM(Multimodal Large Language Model) ๊ธฐ๋ฐ˜์˜ ์ž๋™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํฌ๊ด„์ ์ธ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™” ๊ธฐ๋Šฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ์˜ ๋ณต์žก์„ฑ์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ’ก ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 731๊ฐœ ๊ฐ์ฒด๋ฅผ ํฌํ•จํ•˜๋Š” RoboTwin-OD ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ 50๊ฐ€์ง€ ์ด์ค‘ ํŒ” ์ž‘์—…์— ๊ฑธ์นœ 10๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ „๋ฌธ๊ฐ€ ๊ถค์  ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‚ด ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ํƒœ์Šคํฌ ์ฝ”๋“œ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ ์„ 10.9% ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ธฐ๊ตฌํ•™์— ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ RoboTwin 2.0 ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”๊ฐ€ ์—†๋Š” ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์ •์ฑ… ๊ฒฌ๊ณ ์„ฑ์ด ์ตœ๋Œ€ 31.9% ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ 10๊ฐœ์˜ ์‹ค์ œ ๋ฐ๋ชจ์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋  ๋•Œ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์ด 24.4% ์ƒ์Šนํ•˜์—ฌ Sim-to-Real ์ „์ด ๋ฐ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

teaser

Brief Review

RoboTwin 2.0์€ ์ด์ค‘ ๋กœ๋ด‡ ์กฐ์ž‘(bimanual robotic manipulation)์„ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์ด์ž ๋ฒค์น˜๋งˆํฌ์ด๋ฉฐ, ๊ฐ•๋ ฅํ•œ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”(domain randomization)๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡ ์ •์ฑ…(robot policy)์˜ ๊ฐ•๊ฑดํ•จ(robustness)๊ณผ ์ผ๋ฐ˜ํ™”(generalization) ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ธฐ์กด์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์ด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์œ„ํ•œ ํšจ์œจ์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๊ณผ ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žก์„ฑ์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ์ง€๋‚˜์น˜๊ฒŒ ๋‹จ์ˆœํ™”๋œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

RoboTwin 2.0์€ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค:

  1. ์ž๋™ํ™”๋œ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ (Automated Expert Data Generation Pipeline): ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์ธ-๋”-๋ฃจํ”„(simulation-in-the-loop) ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•˜์—ฌ ์ž‘์—… ์‹คํ–‰ ์ฝ”๋“œ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ณ  ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. MLLM์€ ์ž์—ฐ์–ด ์ง€์‹œ(natural language instructions)๋กœ๋ถ€ํ„ฐ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ž‘์—… ๊ณ„ํš(executable task plans)์„ ํ•ฉ์„ฑํ•˜๊ณ , vision-language model (VLM) observer๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹คํ–‰์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ  ์˜ค๋ฅ˜๋ฅผ ๊ฐ์ง€ํ•˜๋ฉฐ ์ˆ˜์ •์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ์‡„ ๋ฃจํ”„ ์•„ํ‚คํ…์ฒ˜๋Š” ์ฝ”๋“œ ์ƒ์„ฑ ์—์ด์ „ํŠธ๊ฐ€ ํ”„๋กœ๊ทธ๋žจ์„ ์ž๋™์œผ๋กœ ๊ฐœ์„ ํ•˜์—ฌ ์ตœ์†Œํ•œ์˜ ์‚ฌ๋žŒ ๊ฐ๋…์œผ๋กœ ๊ฐ•๊ฑดํ•˜๊ณ  ์ž์ฒด ๊ฐœ์„ ๋˜๋Š” ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

  2. ํฌ๊ด„์ ์ธ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™” (Comprehensive Domain Randomization): ์ •์ฑ…์˜ Sim-to-Real ๊ฒฉ์ฐจ๋ฅผ ์ค„์ด๊ณ  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋‹ค์„ฏ ๊ฐ€์ง€ ์ถ•(์–ธ์–ด ์ง€์‹œ(language instructions), ์žฅ๋ฉด ํ˜ผ๋ž€(scene clutter), ๋ฐฐ๊ฒฝ ํ…์Šค์ฒ˜(background textures), ์กฐ๋ช… ์กฐ๊ฑด(lighting conditions), ํƒ์ž ๋†’์ด(tabletop configurations))์— ๊ฑธ์ณ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ์žฅ๋ฉด ํ˜ผ๋ž€์„ ์œ„ํ•ด RoboTwin-OD์—์„œ ๊ฐ€์ ธ์˜จ 731๊ฐœ์˜ ๋ฐฉํ•ด ๊ฐ์ฒด(distractor objects)๋ฅผ ์ถ”๊ฐ€ํ•˜๋ฉฐ, ์ถฉ๋Œ ๊ฐ์ง€ ๋ฐฐ์น˜(collision-aware placement)๋ฅผ ํ†ตํ•ด ๋ฌผ๋ฆฌ์  ํƒ€๋‹น์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ๋ฐฐ๊ฒฝ ๋ฐ ํƒ์ž ํ‘œ๋ฉด์„ ์œ„ํ•ด LLM ํ”„๋กฌํ”„ํŠธ์™€ Stable Diffusion v2๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑํ•˜๊ณ  ์‚ฌ๋žŒ์˜ ํ•„ํ„ฐ๋ง์„ ๊ฑฐ์นœ 11,000๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ํ…์Šค์ฒ˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์กฐ๋ช…์€ ์ƒ‰์˜จ๋„, ๊ด‘์› ์œ ํ˜•, ๊ฐ•๋„ ๋ฐ ์œ„์น˜๊ฐ€ ๋ฌด์ž‘์œ„ํ™”๋ฉ๋‹ˆ๋‹ค. ํƒ์ž ๋†’์ด๋Š” ๊ฐ€๋Šฅํ•œ ๋ฒ”์œ„ ๋‚ด์—์„œ ๊ท ์ผํ•˜๊ฒŒ ๋ฌด์ž‘์œ„ํ™”๋ฉ๋‹ˆ๋‹ค. ์–ธ์–ด ์ง€์‹œ์˜ ๊ฒฝ์šฐ MLLM์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—… ํ…œํ”Œ๋ฆฟ๊ณผ ๊ฐ์ฒด ์„ค๋ช…์„ ์ƒ์„ฑํ•˜์—ฌ ์–ธ์–ด์  ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค.

  3. ๊ตฌํ˜„์ฒด ์ธ์‹ ํŒŒ์ง€ ์ ์‘ (Embodiment-Aware Grasp Adaptation): ๋กœ๋ด‡ ํŒ”์˜ ์ž์œ ๋„(DoF)์™€ ์šด๋™ํ•™์  ๊ตฌ์กฐ(kinematic structures)์˜ ์ฐจ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๊ฐ์ฒด์— ์—ฌ๋Ÿฌ ํŒŒ์ง€ ์ถ•(grasp axes)๊ณผ ์ ‘๊ทผ ๋ฐฉํ–ฅ(approach directions)์„ ํฌ๊ด„ํ•˜๋Š” ํ’๋ถ€ํ•œ ํ›„๋ณด ์กฐ์ž‘ ํฌ์ฆˆ(candidate manipulation poses) ์„ธํŠธ๋ฅผ ์ฃผ์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. Curobo์™€ ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ, GPU ๊ฐ€์† ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ(motion planner)๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์šด๋™ํ•™์  ์ œ์•ฝ ์กฐ๊ฑด(kinematic constraints) ํ•˜์—์„œ๋„ ํšจ์œจ์ ์ด๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„ํš์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Franka, Piper, UR5, ARX-X5, Aloha-AgileX์™€ ๊ฐ™์€ ๋‹ค์„ฏ ๊ฐ€์ง€ ๋กœ๋ด‡ ๊ตฌํ˜„์ฒด(robot embodiments)๋ฅผ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

RoboTwin 2.0์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๋ฆฌ์†Œ์Šค๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:

  • RoboTwin-OD ๊ฐ์ฒด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ: 147๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ์— ๊ฑธ์ณ 731๊ฐœ์˜ ๊ฐ์ฒด ์ธ์Šคํ„ด์Šค๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ๊ฐ ๊ฐ์ฒด๋Š” ์˜๋ฏธ๋ก ์ (semantic) ๋ฐ ์กฐ์ž‘ ๊ด€๋ จ(manipulation-relevant) ๋ ˆ์ด๋ธ”, ๋‹ค์–‘ํ•œ ์–ธ์–ด ์„ค๋ช…, ํ‚คํฌ์ธํŠธ-์ถ• ์ •๋ณด(placement points, functional points, grasp points, grasp axes)๋กœ ์ฃผ์„ ์ฒ˜๋ฆฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹: 50๊ฐœ์˜ ์ด์ค‘ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์„ 5๊ฐœ์˜ ๋กœ๋ด‡ ๊ตฌํ˜„์ฒด์— ๊ฑธ์ณ 100,000๊ฐœ ์ด์ƒ์˜ ์ „๋ฌธ๊ฐ€ ๊ถค์ (expert trajectories)์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฒค์น˜๋งˆํฌ: ํ˜ผ๋ž€์Šค๋Ÿฌ์šด ํ™˜๊ฒฝ(cluttered environments)๊ณผ ๊ฐœ๋ฐฉํ˜• ์–ธ์–ด ๋ชฉํ‘œ(open-ended language goals)์— ๋Œ€ํ•œ ์ •์ฑ… ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” RoboTwin 2.0์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค:

  • ์ž๋™ํ™”๋œ ์ „๋ฌธ๊ฐ€ ์ฝ”๋“œ ์ƒ์„ฑ: MLLM๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์ธ-๋”-๋ฃจํ”„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ฉํ•œ ํŒŒ์ดํ”„๋ผ์ธ์€ RoboTwin 1.0 ๋Œ€๋น„ ์ฝ”๋“œ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ (ASR)์—์„œ 10.9% ํ–ฅ์ƒ๋œ 71.3%๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ”ผ๋“œ๋ฐฑ์€ ์˜ค๋ฅ˜๋ฅผ ๊ฐ์ง€ํ•˜๊ณ  ์ •ํ™•ํ•œ ์ˆ˜์ •์„ ์œ ๋„ํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • ์ ์‘ํ˜• ํŒŒ์ง€(Adaptive Grasping) ํšจ์œจ์„ฑ: ๊ตฌํ˜„์ฒด ์ธ์‹ ํŒŒ์ง€ ์ฆ๊ฐ• ์ „๋žต์€ ํŠนํžˆ Aloha-AgileX, Piper, ARX-X5์™€ ๊ฐ™์€ ๋‚ฎ์€ ์ž์œ ๋„ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ ํ‰๊ท  8.3%์˜ ์ž‘์—… ์„ฑ๊ณต๋ฅ  ๊ฐœ์„ ์„ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.
  • ์ •์ฑ… ๊ฐ•๊ฑดํ•จ์— ๋Œ€ํ•œ ์˜ํ–ฅ: RoboTwin 2.0์˜ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™” ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์€ ์‹œ๊ฐ์  ๋ฐ ๊ณต๊ฐ„์  ๋ณ€ํ™”์— ๋Œ€ํ•œ ๊ฐ•๊ฑดํ•จ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. 10๊ฐœ์˜ ์‹ค์ œ ๋ฐ๋ชจ์™€ 1,000๊ฐœ์˜ ํ•ฉ์„ฑ ๊ถค์ ์„ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šต๋œ visionโ€“languageโ€“action (VLA) ๋ชจ๋ธ์€ 10๊ฐœ ๋ฐ๋ชจ ๊ธฐ๋ฐ˜(baseline) ๋ชจ๋ธ ๋Œ€๋น„ 367%์˜ ์ƒ๋Œ€์  ๊ฐœ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ ์—†์ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋œ ์ œ๋กœ์ƒท(zero-shot) ๋ชจ๋ธ๋„ 228%์˜ ์ƒ๋Œ€์  ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Sim-to-Real ์„ฑ๋Šฅ: ์‹ค์ œ ํ™˜๊ฒฝ ์‹คํ—˜์—์„œ RoboTwin 2.0์˜ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™” ํ•ฉ์„ฑ ๊ถค์ ์œผ๋กœ ๋ณด๊ฐ•๋œ ์ด์ค‘ ๋กœ๋ด‡ ์ •์ฑ…์€ ๊ฐ•๊ฑดํ•จ์—์„œ ๋ช…ํ™•ํ•œ ์ด๋“์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. 10๊ฐœ์˜ ์‹ค์ œ ๋ฐ๋ชจ์™€ 1,000๊ฐœ์˜ ํ•ฉ์„ฑ ๊ถค์ ์„ ๊ฒฐํ•ฉํ•œ few-shot ์„ค์ •์—์„œ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์€ 24.4% ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ์ œ๋กœ์ƒท ์„ค์ •์—์„œ๋„ 20% ์ด์ƒ์˜ ๊ฐœ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ๋”์šฑ ๋‘๋“œ๋Ÿฌ์ ธ, RoboTwin 2.0์ด ์–ด๋ ค์šด ์กฐ๊ฑด์—์„œ ํŠนํžˆ ํšจ๊ณผ์ ์ž„์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • RoboTwin 2.0 ๋ฒค์น˜๋งˆํฌ: 50๊ฐœ ๋ฒค์น˜๋งˆํฌ ์ž‘์—…์—์„œ VLA ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ(RDT, Pi0)์€ Hard ์กฐ๊ฑด(๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”๋œ ํ™˜๊ฒฝ)์—์„œ ๋” ๊ฐ•๋ ฅํ•œ ํšŒ๋ณตํƒ„๋ ฅ์„ฑ์„ ๋ณด์˜€์ง€๋งŒ, Easy ์กฐ๊ฑด(๊นจ๋—ํ•œ ํ™˜๊ฒฝ) ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ ์ด ๊ฐ๊ฐ 20.8%, 30.1% ํ•˜๋ฝํ•˜์—ฌ ๋„๋ฉ”์ธ ์ด๋™(domain shifts) ํ•˜์—์„œ์˜ ๊ฐ•๊ฑดํ•จ์ด ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ๋„์ „ ๊ณผ์ œ์ž„์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, RoboTwin 2.0์€ ๋‹ค์–‘ํ•˜๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ๊ฐ•๊ฑดํ•œ ์ด์ค‘ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ MLLM ๊ธฐ๋ฐ˜ ์ž‘์—… ์ƒ์„ฑ, ๊ตฌํ˜„์ฒด ์ ์‘ํ˜• ํ–‰๋™ ํ•ฉ์„ฑ ๋ฐ ํฌ๊ด„์ ์ธ ๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๊ธฐ์กด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ธฐ์˜ ์ฃผ์š” ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

Detail Review

๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ œ ์ •์˜: ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์€ ์‹ค์ œ ๋กœ๋ด‡ ํ•™์Šต์„ ๊ฐ€์†ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ ๊ณต๊ฐœ๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘(bimanual manipulation)์˜ ๊ฒฌ๊ณ ํ•œ ํ•™์Šต์„ ์ง€์›ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, (1) ์ƒˆ๋กœ์šด ์ž‘์—…(task)์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ƒ์„ฑํ•  ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์˜ ๋ถ€์žฌ์™€ (2) ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์˜ ๊ณผ๋„ํ•œ ๋‹จ์ˆœํ™”๋กœ ์ธํ•ด ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žก์„ฑ์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์ง€์ ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฌธ์ œ ์ƒํ™ฉ์—์„œ RoboTwin 2.0์€ โ€œ๊ฐ•๊ฑดํ•œ ์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘โ€์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์‹œ์Šคํ…œ ๊ฐœ์š”: RoboTwin 2.0์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๋Œ€๊ทœ๋ชจ ๊ฐ์ฒด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ (RoboTwin-OD): 147๊ฐœ ๋ฒ”์ฃผ์˜ 731๊ฐœ ๊ฐ์ฒด์— ๋Œ€ํ•œ 3D ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์˜€์œผ๋ฉฐ, ๊ฐ ๊ฐ์ฒด๋งˆ๋‹ค ์‹œ๋งจํ‹ฑ ์ •๋ณด์™€ ์กฐ์ž‘ ๊ด€๋ จ ์–ด๋…ธํ…Œ์ด์…˜(์žก๊ธฐ ์‰ฌ์šด ๋ถ€์œ„ ๋“ฑ)์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ์ž์ฒด ์Šค์บ”(534๊ฐœ ๊ฐ์ฒด)๋ฟ ์•„๋‹ˆ๋ผ Objaverse(27๊ฐœ ๋ฒ”์ฃผ 153๊ฐœ ๊ฐ์ฒด)์™€ SAPIEN PartNet-Mobility(9๊ฐœ ๋ฒ”์ฃผ 44๊ฐœ ๊ด€ ์ ˆ ๊ฐ์ฒด)์—์„œ ์ˆ˜์ง‘ํ•œ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋“ค์„ ์•„์šฐ๋ฆ…๋‹ˆ๋‹ค. ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์ •ํ™•์„ฑ์„ ์œ„ํ•ด ๋ชจ๋“  ๊ฐ์ฒด ๋ฉ”์‹œ์— convex decomposition์„ ์ ์šฉํ•ด ์ถฉ๋Œ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์ž๋™ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์„ ํ™œ์šฉํ•˜์—ฌ ์ž์—ฐ์–ด ์ž‘์—… ์„ค๋ช…์œผ๋กœ๋ถ€ํ„ฐ ์‹คํ–‰ ์ฝ”๋“œ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋“ˆ์ด ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ฝ”๋“œ ์ƒ์„ฑ ์—์ด์ „ํŠธ๋Š” ๋ฏธ๋ฆฌ ์ •์˜๋œ ์Šคํ‚ฌ API์™€ ์˜ˆ์‹œ ํ•จ์ˆ˜ ํ˜ธ์ถœ๋“ค, ๊ทธ๋ฆฌ๊ณ  ์ž‘์—… ์ œ์•ฝ์กฐ๊ฑด ๋“ฑ์„ ์ฐธ๊ณ ํ•ด ํŒŒ์ด์ฌ ํ˜•์‹์˜ ๋กœ๋ด‡ ๋™์ž‘ ์ฝ”๋“œ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ์ฝ”๋“œ์— ๋Œ€ํ•ด์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‚ด์—์„œ ๋ฐ˜๋ณต์  ์‹คํ–‰ ๋ฐ ๊ฒ€์ฆ ๋ฃจํ”„๋ฅผ ๋Œ๋ฆฝ๋‹ˆ๋‹ค. ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ˜ ๊ด€์ฐฐ ์—์ด์ „ํŠธ๊ฐ€ ์‹คํ–‰ ๊ณผ์ •์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜์—ฌ ์‹คํŒจ ์ง€์ ์„ ์ฐพ์•„๋‚ด๊ณ , ์ฝ”๋“œ ์—์ด์ „ํŠธ๊ฐ€ ์ด๋ฅผ ์ˆ˜์ •ํ•˜๋„๋ก ํ์‡„ ๋ฃจํ”„ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์ธ-๋”-๋ฃจํ”„ ์ž๋™ ๊ฒ€์ฆ ์ ˆ์ฐจ๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„ ๊ฐœ์ž… ์—†์ด๋„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋„๋ฉ”์ธ ๋žœ๋คํ™” (Domain Randomization): ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํ˜„์‹ค ๋Œ€์‘ ์„ฑ๋Šฅ(sim-to-real)์„ ๋†’์ด๊ธฐ ์œ„ํ•ด 5๊ฐ€์ง€ ์ถ•์—์„œ ํ™˜๊ฒฝ์„ ๋ฌด์ž‘์œ„๋กœ ๋‹ค์–‘ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ (a) ์ž‘์—…์— ๋ฌด๊ด€ํ•œ ๋ฐฉํ•ด ๋ฌผ์ฒด๋“ค(์žก๋™์‚ฌ๋‹ˆ)์„ ๋ฌด์ž‘์œ„ ๋ฐฐ์น˜ํ•˜์—ฌ ์–ด์ˆ˜์„ ํ•œ ํ™˜๊ฒฝ(clutter)์„ ์กฐ์„ฑํ•˜๊ณ , (b) ๋ฐฐ๊ฒฝ ๋ฐ ์ง€๋ฉด ํ…์Šค์ฒ˜๋ฅผ ํ’๋ถ€ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ๋ฌด์ž‘์œ„ ์ ์šฉํ•˜๋ฉฐ, (c) ์กฐ๋ช…์˜ ์ƒ‰์˜จ๋„ยท๋ฐ๊ธฐยท์œ„์น˜ ๋“ฑ์„ ๋ฌด์ž‘์œ„๋กœ ๋ณ€ํ™”์‹œ์ผœ ์‹œ๊ฐ์  ๋‹ค์–‘์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ , (d) ์ž‘์—…๋Œ€ ๋†’์ด๋ฅผ ํ˜„์‹ค์ ์ธ ๋ฒ”์œ„์—์„œ ์ž„์˜๋กœ ์กฐ์ •ํ•˜์—ฌ ๋กœ๋ด‡-๊ฐ์ฒด ๊ฐ„ ๊ณต๊ฐ„์  ๊ด€๊ณ„ ๋ณ€ํ™”๋ฅผ ์ฃผ๊ณ , (e) ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ ์—ญ์‹œ ๋‹ค์–‘ํ•œ ํ‘œํ˜„์œผ๋กœ ์ž๋™ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋Š” ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์˜ ํญ์„ ๋„“ํ˜€ ์ •์ฑ…(policy)์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๋†’์—ฌ์ค๋‹ˆ๋‹ค.
  • ๊ด‘๋ฒ”์œ„ํ•œ ์ž‘์—… ๋ฐ ๋กœ๋ด‡ ํ”Œ๋žซํผ ์ง€์›: RoboTwin 2.0์€ 50๊ฐ€์ง€ ์–‘ํŒ” ํ˜‘๋™ ์ž‘์—…์— ๋Œ€ํ•ด ์œ„์˜ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‹คํ˜„ํ•˜์˜€๊ณ , ๋‹ค์„ฏ ์ข…๋ฅ˜์˜ ์ด๊ธฐ์ข… ์–‘ํŒ” ๋กœ๋ด‡ ํ”Œ๋žซํผ(Aloha-AgileX, ARX-X5, Piper, Franka, UR5)์„ ํฌ๊ด„ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…-๋กœ๋ด‡ ์กฐํ•ฉ๋งˆ๋‹ค ์ „๋ฌธ๊ฐ€ ๊ถค์  ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™ ์ˆ˜์ง‘ํ•˜์˜€๋Š”๋ฐ, ์ด 10๋งŒ ๊ฐœ ์ด์ƒ์˜ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ฏธ๋ฆฌ ์ˆ˜์ง‘ํ•˜์—ฌ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผํ…Œ๋ฉด ์ž‘์—…๋ณ„๋กœ 100๊ฐœ์˜ ํด๋ฆฐ(clean) ์‹œ๋‚˜๋ฆฌ์˜ค(๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋ฏธ์ ์šฉ ์„ฑ๊ณต ์ผ€์ด์Šค)์™€ 400๊ฐœ์˜ ๋žœ๋คํ™” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ˆ˜์ง‘ํ•ด, ํ˜„์‹ค ๋ณ€์ด๋ฅผ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ๋ง๋ผํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

RoboTwin 2.0 ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”. (์™ผ์ชฝ) 731๊ฐœ ๊ฐ์ฒด๋กœ ๊ตฌ์„ฑ๋œ RoboTwin-OD ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, LLM์„ ํ™œ์šฉํ•œ ์ „๋ฌธ๊ฐ€ ์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋“ˆ์ด ์ž์—ฐ์–ด ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ๊ณผ์—… ์‹คํ–‰ ํ”„๋กœ๊ทธ๋žจ์„ ์ž๋™ ํ•ฉ์„ฑํ•œ๋‹ค. (๊ฐ€์šด๋ฐ) ๋‹ค์„ฏ ๊ฐ€์ง€ ์–‘ํŒ” ๋กœ๋ด‡ ํ”Œ๋žซํผ๊ณผ 50๊ฐ€์ง€ ์ž‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋Œ€๊ทœ๋ชจ ์ „๋ฌธ๊ฐ€ ๊ถค์ ์ด ์ˆ˜์ง‘๋œ๋‹ค. (์˜ค๋ฅธ์ชฝ) ์ด๋ ‡๊ฒŒ ํ›ˆ๋ จ๋œ ์ •์ฑ…์€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ๋ณ€ํ™”์—๋„ ๊ฐ•์ธํ•˜๊ฒŒ ๋™์ž‘ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ: RoboTwin 2.0์œผ๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•™์Šตํ•œ ์ •์ฑ…์€ ํ˜„์‹ค ํ™˜๊ฒฝ ๋ณ€์ด์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์—์„œ ๋šœ๋ ทํ•œ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ž‘์—… ์‹คํ–‰ ์ฝ”๋“œ๋ฅผ LLM์œผ๋กœ ์ž๋™ ์ƒ์„ฑํ•  ๋•Œ, ์ œ์•ˆ๋œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ์ ์šฉํ•˜๋ฉด ์ฝ”๋“œ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ ์ด ๊ธฐ์กด ๋Œ€๋น„ 10.9% ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ 10๊ฐœ ๋ฏธ๋งŒ์˜ ์†Œ๋Ÿ‰ ํ˜„์‹ค ์‹œ์—ฐ๋งŒ ์ถ”๊ฐ€ ํ•™์Šตํ•œ ๋น„์ „-์–ธ์–ด-์•ก์…˜(VLA) ๋ชจ๋ธ์€ ๋™์ผํ•œ 10๊ฐœ ์‹œ์—ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ ๋Œ€๋น„ ์„ฑ๊ณต๋ฅ ์ด 367% ์ƒ๋Œ€์  ํ–ฅ์ƒ(42.0% vs 9.0%)๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ์˜ค๋กœ์ง€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ›ˆ๋ จํ•œ ์ œ๋กœ์ƒท ๋ชจ๋ธ์กฐ์ฐจ๋„ 228%์˜ ์„ฑ ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๋ฉฐ, ๋ณ„๋„์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ ์—†์ด๋„ ์ƒ๋‹นํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋“ค์€ RoboTwin 2.0์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ˜„์‹ค๋กœ์˜ ์ „์ด(sim-to-real) ๋ฐ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ์„ฑ์„ ํฌ๊ฒŒ ๊ฐ•ํ™”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ธฐ, ๋ฒค์น˜๋งˆํฌ, ๋ฐ์ดํ„ฐ์…‹, ์ฝ”๋“œ ์ „๋ฐ˜์„ ๊ณต๊ฐœํ•˜์—ฌ, ์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์˜ ํ™•์žฅ์„ฑ ์žˆ๋Š” ์—ฐ๊ตฌ๋ฅผ ์ง€์›ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ถ„์„

RoboTwin 2.0์ด ์ œ์‹œํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค :

  1. ์ž๋™ํ™”๋œ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ธฐ์กด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ๋“ค์€ ํ’ˆ์งˆ ๊ด€๋ฆฌ์˜ ๋ถ€์žฌ๋กœ ์ธํ•ด ์‹คํŒจํ•˜๊ฑฐ๋‚˜ ๋น„ํ˜„์‹ค์ ์ธ ๊ถค์ ์ด ๋งŽ์ด ํฌํ•จ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. RoboTwin 2.0์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜์˜ ์ฝ”๋“œ ์ƒ์„ฑ ์—์ด์ „ํŠธ์™€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ „๋ฌธ๊ฐ€ ๊ฒ€์ˆ˜ ์ˆ˜์ค€์˜ ๊ถค์ ์„ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. VLM์ด ์‹คํ–‰ ๊ณผ์ •์„ ๋ฉด๋ฐ€ํžˆ ๊ด€์ฐฐํ•˜๊ณ  ์˜ค๋ฅ˜๋ฅผ ์ง„๋‹จํ•˜๋ฉด, LLM์ด ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ์–‘์ž ํ”ผ ๋“œ๋ฐฑ ๊ตฌ์กฐ๋กœ ๋™์ž‘ํ•˜์—ฌ, ์ธ์  ๊ฐœ์ž… ์—†์ด๋„ ์ž๊ฐ€ ๊ต์ •๋˜๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋‹น ๋‹ค์ค‘ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฑฐ์ณ ์„ฑ๊ณต ์ฝ”๋“œ๋ฅผ ์–ป์Œ์œผ๋กœ์จ, ํ•™์Šต์— ์œ ์šฉํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋งŒ์„ ์ถ•์ ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ ๋ฃจํ”„๋Š” ์œ ์‚ฌ ๋ถ„์•ผ ์„ ํ–‰์—ฐ๊ตฌ์— ๋“œ๋ฌธ ํ˜์‹ ์œผ๋กœ, ์‚ฌ๋žŒ์˜ ์‹œ์—ฐ ์—†์ด๋„ ์ „๋ฌธ ์‹œ์—ฐ ์ˆ˜์ค€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅ์„ฑ ์žˆ๊ฒŒ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  2. ์ฒด๊ณ„์ ์ธ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์ „๋žต: ๊ธฐ์กด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ์ฃผ๋กœ ๊น”๋”ํ•˜๊ณ  ๊ท ์ผํ•œ ํ™˜๊ฒฝ์— ๋จธ๋ฌผ๋Ÿฌ ์žˆ์–ด, ํ˜„์‹ค ์„ธ๊ณ„์˜ ์–ด์ˆ˜์„ ํ•จ์ด๋‚˜ ์กฐ๋ช… ๋ณ€ํ™” ๋“ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. RoboTwin 2.0์€ ์žฅ๋ฉด ๋ฌด์ž‘์œ„์„ฑ(๋ถˆํ•„์š”ํ•œ ๋ฌผ์ฒด ํ˜ผ์ž…)๋ถ€ํ„ฐ ์‹œ๊ฐ์  ์š”์†Œ ๋‹ค์–‘ํ™”(ํ…์Šค์ฒ˜, ์กฐ๋ช…)์™€ ๋ฌผ๋ฆฌ์  ํ™˜๊ฒฝ ๋ณ€ํ™”(ํƒ์ž ๋†’์ด), ๊ทธ๋ฆฌ๊ณ  ์–ธ์–ด ํ‘œํ˜„ ๋‹ค์–‘ํ™”๊นŒ์ง€ ๋‹ค๊ฐ๋„๋กœ ํ™˜๊ฒฝ์„ ๋ณ€ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํด๋Ÿฌํ„ฐ(clutter)๋ฅผ ํ†ตํ•œ ๋ฐฉํ•ด๋ฌผ ์„ž๊ธฐ๋Š” ํ˜„์‹ค ์ž‘์—… ๊ณต๊ฐ„์˜ ๋ณต์žก์„ฑ์„ ๋ชจ์‚ฌํ•˜๊ณ , 12,000์—ฌ ์ข…์˜ ํ…์Šค์ฒ˜๋กœ ๋ฐฐ๊ฒฝ๊ณผ ํ…Œ์ด๋ธ” ํ‘œ๋ฉด์„ ๋ฌด์ž‘์œ„ ์ ์šฉํ•œ ์ ์€ ๊ธฐ์กด์— ์—†๋˜ ๋Œ€๊ทœ๋ชจ ์‹œ๊ฐ ๋‹ค์–‘์„ฑ ํ™•๋ณด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์กฐ๋ช… ๋žœ๋คํ™”๋Š” ์—ฌ๋Ÿฌ ์ƒ‰์˜จ๋„ยท๊ด‘์›์œผ๋กœ ๊ฐ์ฒด์˜ ์‹œ๊ฐ์  ์†์„ฑ์„ ํ”๋“ค์–ด๋†“์•„ ์กฐ๋ช… ๋ณ€ํ™”์— ๊ฒฌ๋””๋Š” ์ •์ฑ…์„ ๋งŒ๋“ค๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ข…ํ•ฉ์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋œ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ•์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-ํ˜„์‹ค ๊ฐ„ ๊ฐญ์„ ์ขํžˆ๊ณ , ํ•™์Šต๋œ ์ •์ฑ…์ด ๋ฏธ์ฆ์ƒ ํ™˜๊ฒฝ์—๋„ ์ผ๋ฐ˜ํ™”๋˜๋„๋ก ํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค.

๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ตฌ์„ฑ์˜ ์‹œ๊ฐํ™” ์˜ˆ์‹œ. (์ƒ๋‹จ) ๋™์ผํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ์žฅ๋ฉด ์žก๋™์‚ฌ๋‹ˆ ๋ฐฐ์น˜, ๋ฐฐ๊ฒฝ ํ…์Šค์ฒ˜ ๋ณ€ํ™˜, ์กฐ๋ช… ์ƒ‰์˜จ๋„ ๋ณ€ํ™” ๋“ฑ์„ ์ ์šฉํ•˜์—ฌ ๋งค ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋‹ค๋ฅธ ๊ด€์ธก์„ ์ œ๊ณตํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์กฐ๋ช… ์ƒ‰์˜จ๋„๊ฐ€ ๋ฐ”๋€œ์— ๋”ฐ๋ผ ๋ฌผ์ฒด ์ƒ‰์กฐ๊ฐ€ ์˜จํ™”ํ•œ ์กฐ๋ช…๊ณผ ์ฐจ๊ฐ€์šด ์กฐ๋ช… ์•„๋ž˜ ๋‹ค๋ฅด๊ฒŒ ๋ณด์ด๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. (ํ•˜๋‹จ) ํ…์Šค์ฒ˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ƒ˜ํ”Œ๋“ค: ๊ฑฐ์นœ ๋‚˜๋ฌด๋ฌด๋Šฌ๋ถ€ํ„ฐ ๋งค๋ˆํ•œ ๋Œ€๋ฆฌ์„ ํŒจํ„ด๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์žฌ์งˆ์ด ์ค€๋น„๋˜์–ด, ๋ฐฐ๊ฒฝ๊ณผ ํ…Œ์ด๋ธ” ํ‘œ๋ฉด์— ๋ฌด์ž‘์œ„๋กœ ์ ์šฉ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๊ฐยทํ™˜๊ฒฝ์  ๋‹ค์–‘ํ™”๋Š” ์ •์ฑ… ๋ชจ๋ธ์ด ํ›ˆ๋ จ ์‹œ ์ ‘ํ•˜์ง€ ๋ชปํ•œ ํ™˜๊ฒฝ ์กฐ๊ฑด**์—๋„ ์ž˜ ๋Œ€์‘ํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.

  1. ๋กœ๋ด‡ ๊ตฌํ˜„์ฒด ํŠน์„ฑ์— ๋”ฐ๋ฅธ ์ ์‘ ๊ธฐ์ž‘: ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํŒ” ํ”Œ๋žซํผ์€ ๊ด€์ ˆ ์ž์œ ๋„(DoF)๋‚˜ ์šด๋™ ๋ฒ”์œ„, ์„ ํ˜ธ ๊ทธ๋ฆฝ ๋ฐฉ์‹์ด ๋‹ค๋ฅด์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹จ์ผ ๋กœ๋ด‡ ๊ธฐ์ค€์œผ๋กœ ๋งŒ๋“ค์–ด์ ธ ํ”Œ๋žซํผ ์ฐจ์ด๋ฅผ ๊ฐ„๊ณผํ–ˆ์Šต๋‹ˆ๋‹ค. RoboTwin 2.0์€ โ€œembodiment-awareโ€ ์ ์‘์„ ๋„์ž…ํ•˜์—ฌ, ๊ฐ์ฒด์˜ ์žก๊ธฐ ๋ฐฉ์‹(affordance)์„ ๋‹ค์ˆ˜ ๋ฏธ๋ฆฌ ๊ธฐ๋กํ•˜๊ณ  ๊ฐ ๋กœ๋ด‡๋ณ„๋กœ ๊ฐ€๋Šฅํ•œ ํ–‰๋™ ํ›„๋ณด๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Franka(๊ณ  DoF ๋กœ๋ด‡)๋Š” ์ƒ๋ถ€์—์„œ ์ง‘๊ธฐ๋ฅผ ์„ ํ˜ธํ•˜์ง€๋งŒ, Piper(์ € DoF ๋กœ๋ด‡)๋Š” ์ธก๋ฉด์—์„œ ์ง‘๊ธฐ๋ฅผ ์ฃผ๋กœ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋™์ผํ•œ ์บ” ์žก๊ธฐ ์ž‘์—…๋„ Franka๋Š” ์œ„์—์„œ ์ฅ์–ด ์˜ฌ๋ฆฌ์ง€๋งŒ, Piper๋กœ๋Š” ์˜†๊ตฌ๋ฆฌ๋ฅผ ๋ผ์›Œ๋“œ๋Š” ์‹์˜ ์ ‘๊ทผ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. RoboTwin 2.0์—์„œ๋Š” ๊ฐ ๊ฐ์ฒด๋งˆ๋‹ค ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์˜ grasp ํ›„๋ณด๋ฅผ ์ €์žฅํ•ด ๋‘๊ณ , ๋กœ๋ด‡๋ณ„ ๊ฐ€๋™ ๋ฒ”์œ„์— ๋งž์ถฐ ์ ์ ˆํ•œ ์žก๊ธฐ ๋™์ž‘์„ ์„ ํƒํ•˜๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋กœ์จ ๋ฐ์ดํ„ฐ์…‹ ์ž์ฒด๊ฐ€ ํ”Œ๋žซํผ ํŠนํ™” ๋™์ž‘์˜ ๋‹ค์–‘์„ฑ์„ ์ง€๋‹ˆ๊ฒŒ ๋˜์–ด, ํ•™์Šต๋œ ์ •์ฑ…์ด ์—ฌ๋Ÿฌ ๋กœ๋ด‡์— ๋ฒ”์šฉ์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋™์ผํ•œ ์ž‘์—…์ด๋ผ๋„ ๋กœ๋ด‡๋ณ„ ์ตœ์  ์ˆ˜ํ–‰ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ์— ๋ฐ˜์˜ํ•œ ๊ฒƒ์ด ๋ณธ ์—ฐ๊ตฌ์˜ ์ฐจ๋ณ„์  ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค.

RoboTwin 2.0์ด ์ง€์›ํ•˜๋Š” 5๊ฐ€์ง€ ๋กœ๋ด‡ ํ”Œ๋žซํผ ์˜ˆ์‹œ. ์„œ๋กœ ๋‹ค๋ฅธ ์ œ์กฐ์‚ฌ์™€ ํ˜•ํƒœ์  ํŠน์„ฑ์„ ์ง€๋‹Œ ์–‘ํŒ” ๋กœ๋ด‡๋“ค(AlohaAgileX, ARX-X5, Piper, Franka, UR5)์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. Piper(์™ผ์ชฝ์—์„œ ๋‘ ๋ฒˆ์งธ)๋Š” ๊ด€์ ˆ์ด ์ ์–ด ์›€์ง์ž„์ด ์ œํ•œ์ ์ด๋ฉฐ, Franka(๋งจ ์˜ค๋ฅธ์ชฝ)๋Š” ์ธ๊ฐ„ ํŒ”๊ณผ ์œ ์‚ฌํ•œ ๊ณ ์ž์œ ๋„ ๋กœ๋ด‡์ด๋‹ค. RoboTwin 2.0์€ ๊ฐ ํ”Œ๋žซํผ๋ณ„ ์ž‘์—… ์ œ์•ฝ๊ณผ ์„ ํ˜ธ ๋™์ž‘์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•จ์œผ๋กœ์จ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡์— ๊ฑธ์ณ ์ผ๋ฐ˜ํ™”๋˜๋Š” ์ •์ฑ… ํ•™์Šต**์„ ๊ฐ€๋Šฅ์ผ€ ํ•œ๋‹ค.

  1. ํ†ตํ•ฉํ˜• ๋ฒค์น˜๋งˆํฌ์™€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ž์› ๊ณต๊ฐœ: RoboTwin 2.0์€ RoboTwin-OD ๊ฐ์ฒด ๋ฐ์ดํ„ฐ์…‹, 100,000+๊ฐœ์˜ ์–‘ํŒ” ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฐ์ดํ„ฐ์…‹, ์Šค์ผ€์ผ๋Ÿฌ๋ธ” ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ, ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ชจ๋‘ ์ œ๊ณตํ•จ์œผ๋กœ์จ ํ•™๊ณ„์— ํฐ ์ž์›์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ 50๊ฐ€์ง€ ์–‘ํŒ” ํ˜‘๋™ ์ž‘์—… ์„ธํŠธ์™€ ํ†ต์ผ๋œ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์€, ์•ž์œผ๋กœ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์ด ๊ฐ™์€ ์กฐ๊ฑด์—์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฒจ๋ฃจ๋Š” ๊ณต์šฉ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์—ฐ๊ตฌ๋งˆ๋‹ค ์„œ๋กœ ๋‹ค๋ฅธ ์ž‘์—…ยทํ™˜๊ฒฝ์„ ์‚ฌ์šฉํ•ด ๊ฒฐ๊ณผ ๋น„๊ต๊ฐ€ ์–ด๋ ค์› ๋‹ค๋ฉด, RoboTwin 2.0์€ ๋‹ค์–‘์„ฑ๊ณผ ๋ณต์žก์„ฑ์„ ๊ฐ–์ถ˜ ํ•˜๋‚˜์˜ ๊ธฐ์ค€ ํ™˜๊ฒฝ์„ ์ œ์‹œํ•˜์—ฌ ์—ฐ๊ตฌ ๊ณต๋™์ฒด์˜ ํ˜‘๋ ฅ๊ณผ ๋ฐœ์ „์„ ์ด‰์ง„ํ•˜๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋“  ์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ•˜์—ฌ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ์ž์‹ ๋งŒ์˜ ์ƒˆ๋กœ์šด ์ž‘์—…์ด๋‚˜ ๋กœ๋ด‡์„ ์ด ํ”„๋ ˆ์ž„์›Œํฌ์— ์‰ฝ๊ฒŒ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ ์ ๋„ ์‹ค์šฉ์ ์ธ ๊ณตํ—Œ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด RoboTwin 2.0์€ ๊ธฐ์กด ์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ํ•œ๊ณ„์ โ€”ํ’ˆ์งˆ ๋ถ€์กฑ, ๋‹จ์กฐ๋กœ์šด ํ™˜๊ฒฝ, ๋‹จ์ผ ํ”Œ๋žซํผ ํŽธํ–ฅ์„ ์งš์–ด๋‚ด๊ณ , ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ์ž๋™ํ™”ยท๋‹ค์–‘ํ™”ยท์ ์‘ํ™” ๊ธฐ๋ฒ•์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋” ํฌ๊ณ  ํ˜„์‹ค์ ์ธ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ๊ฐ„ ๋…ธ๋™ ์—†์ด ํ™•๋ณดํ•จ๊ณผ ๋™์‹œ์—, ์—ฌ๋Ÿฌ ๋กœ๋ด‡๊ณผ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๊ฒฌ๋””๋Š” ํ•™์Šต ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ RoboTwin 1.0 (CVPR 2025)์—์„œ๋Š” ํ˜„์‹ค ์‹œ์—ฐ๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Œ์„ ๋งบ๋Š” ๋””์ง€ํ„ธ ํŠธ์œˆ ๊ฐœ๋…์„ ๋„์ž…ํ•œ ๋ฐ” ์žˆ๋Š”๋ฐ, ์ด๋ฒˆ RoboTwin 2.0์—์„œ๋Š” ๋Œ€ํ™”ํ˜• LLM ํ”ผ๋“œ๋ฐฑ๊ณผ ์ฒด๊ณ„์  ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋ฅผ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ๊ณผ ์ •์ฑ… ์„ฑ๋Šฅ์—์„œ ํ˜„์ €ํ•œ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์‹คํ—˜๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, RoboTwin 2.0์˜ ํŒŒ์ดํ”„๋ผ์ธ ์ ์šฉ ์‹œ ์ดˆ๊ธฐ 1ํšŒ์„ฑ ์ฝ”๋“œ ์ƒ์„ฑ ์„ฑ๊ณต๋ฅ ์ด 62.1%๋กœ RoboTwin 1.0์˜ 47.4% ๋Œ€๋น„ ํฌ๊ฒŒ ๋†’์•„์กŒ๊ณ , ๋ฐ˜๋ณต ํ”ผ๋“œ๋ฐฑ๊นŒ์ง€ ํฌํ•จํ•˜๋ฉด 71.3%๊นŒ์ง€ ํ–ฅ์ƒ๋˜์–ด ์ด์ „ ๋ฒ„์ „ ๋Œ€๋น„ ํ•œ์ธต ํ–ฅ์ƒ๋œ ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ ํ‰๊ท  ํ•„์š”ํ•œ ์ˆ˜์ • ํšŸ์ˆ˜ ๊ฐ์†Œ(RoboTwin 1.0: 2.46ํšŒ โ†’ 2.0: 1.76ํšŒ)์™€ LLM ํ† ํฐ ๋น„์šฉ ์ ˆ๊ฐ ๋“ฑ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ๋„ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ RoboTwin 2.0์€ ์ „์ž‘๊ณผ ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ทน๋ณตํ•˜๊ณ , ์–‘ํŒ” ๋กœ๋ด‡ ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์  ์„ ์ œ์‹œํ–ˆ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค๊ณ„ ๋ถ„์„

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: RoboTwin 2.0์—์„œ ๊ตฌ์ถ•ํ•œ RoboTwin-OD ๊ฐ์ฒด ๋ฐ์ดํ„ฐ์…‹์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๋Œ€๋กœ 731๊ฐœ์˜ 3D ๊ฐ์ฒด ์ž์‚ฐ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ๊ตฌ์„ฑ์€ โ‘  ์ž์ฒด ์ƒ์„ฑ ๊ฐ์ฒด: ์‹ค๋ฌผ ์ด๋ฏธ์ง€๋ฅผ Rodin ํ”Œ๋žซํผ์œผ๋กœ ์Šค์บ” ํ›„ 3D ๋ชจ๋ธ๋งํ•œ 534๊ฐœ ๊ฐ์ฒด (111๊ฐœ ๋ฒ”์ฃผ), โ‘ก Objaverse์—์„œ ์„ ๋ณ„ํ•œ 153๊ฐœ ๊ฐ์ฒด (27๊ฐœ ๋ฒ”์ฃผ)๋กœ ์‹œ๊ฐ์  ๋‹ค์–‘์„ฑ ๋ณด๊ฐ•, โ‘ข SAPIEN PartNet-Mobility์—์„œ ๊ฐ€์ ธ์˜จ 44๊ฐœ ๊ด€์ ˆํ˜• ๊ฐ์ฒด (9๊ฐœ ๋ฒ”์ฃผ)๋กœ ๋™์  ์ƒํ˜ธ์ž‘์šฉ ๊ฐ์ฒด ํฌํ•จ ๋“ฑ์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฐ์ฒด์—๋Š” ๋ฌผ์ฒด ์ด๋ฆ„, ๋ฒ”์ฃผ, ๋ถ€ํ’ˆ ๊ตฌ์„ฑ, ์„ ํ˜ธ ์žก๊ธฐ ๋ฐฉํ–ฅ ๋“ฑ์˜ ์ฃผ์„์ด ๋‹ฌ๋ ค ์žˆ์–ด, ๋กœ๋ด‡์ด ํ•ด๋‹น ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์œ ์šฉํ•œ ์ •๋ณด๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ €์ž๋“ค์€ ํ‘œ๋ฉด/๋ฐฐ๊ฒฝ ํ…์Šค์ฒ˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋„ ๋ณ„๋„๋กœ ๊ตฌ์ถ•ํ•˜์˜€๋Š”๋ฐ, ์›น ํฌ๋กค๋ง์œผ๋กœ ๋ชจ์€ 1000๊ฐœ์˜ ํ…์Šค์ฒ˜ ์„ค๋ช… ํ”„๋กฌํ”„ํŠธ๋ฅผ Stable Diffusion์œผ๋กœ ์ด๋ฏธ์ง€ํ™”ํ•˜๊ณ , ์‚ฌ๋žŒ์ด ์ˆ˜์ž‘์—…์œผ๋กœ 12,000์žฅ์˜ ๊ณ ํ’ˆ์งˆ ํ…์Šค์ฒ˜๋ฅผ ์ถ”๋ ค๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ›„์ˆ ํ•  ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์‹คํ—˜์— ์“ฐ์ด๋Š” ๋ฐฉ๋Œ€ํ•œ ์‹œ๊ฐ ์ž์›์ž…๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ์ž‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค: RoboTwin 2.0์€ 50๊ฐ€์ง€ ์–‘ํŒ” ํ˜‘๋™ ์ž‘์—… ์„ธํŠธ๋ฅผ ์ •์˜ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€์— ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ž‘์—…๋“ค์€ ๋‘ ํŒ”์„ ์ด์šฉํ•œ ๋ฌผ์ฒด ์กฐ์ž‘์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋‚œ์ด๋„์™€ ์ข…๋ฅ˜ ๋ฉด์—์„œ ๋‹ค์–‘ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Handover Block(ํ•œ ํŒ”์—์„œ ๋‹ค๋ฅธ ํŒ”๋กœ ๋ธ”๋ก ๊ฑด๋„ค๊ธฐ), Pick Dual Bottles(์–‘์†์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ๋‘ ๋ณ‘ ์ง‘๊ธฐ), Stack Blocks Two/Three(๋‘ ๊ฐœ ๋˜๋Š” ์„ธ ๊ฐœ์˜ ๋ธ”๋ก ์Œ“๊ธฐ), Place Dual Shoes(์‹ ๋ฐœ ํ•œ ์ผค๋ ˆ๋ฅผ ๋‘ ์†์œผ๋กœ ๊ฐ๊ธฐ ์˜ฎ๊ฒจ ์ œ์ž๋ฆฌ์— ๋†“๊ธฐ), Open Laptop/Microwave(์–‘์†์œผ๋กœ ๋…ธํŠธ๋ถ์ด๋‚˜ ์ „์ž๋ ˆ์ธ์ง€ ์—ด๊ธฐ) ๋“ฑ ์‹ค์ œ ํ˜‘๋™ ์ž‘์—…์„ ๋ฐฉ๋ถˆ์ผ€ ํ•˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…์—๋Š” ์ž์—ฐ์–ด๋กœ ๋œ ๋ชฉํ‘œ ์„ค๋ช…๊ณผ ์„ฑ๊ณต ์กฐ๊ฑด์ด ๋ช…์‹œ๋˜์–ด ์žˆ์œผ๋ฉฐ, RoboTwin 2.0์˜ ์ฝ”๋“œ ์ƒ์„ฑ ์—์ด์ „ํŠธ๋Š” ์ด ์„ค๋ช…์„ ๋ฐ›์•„ ํ•ด๋‹น ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ฝ”๋“œ๋ฅผ ์ž๋™ ์ž‘์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ž‘์—… ์„ธํŠธ๋Š” ์ผ์ƒ ๊ฐ€์‚ฌ, ๊ณต์žฅ ์กฐ๋ฆฝ, ๋ฌผ์ฒด ์ •๋ฆฌ ๋ฐ ๋ฐฐ์น˜ ๋“ฑ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์„ ๋ง๋ผํ•˜๋ฉฐ, ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์ƒํ™ฉ์— ๋”ฐ๋ฅธ ๋ณ€ํ˜•๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ โ€œ๋ฌผ์ฒด A๋ฅผ B์˜ ์ขŒ์ธก์— ๋†“๊ธฐโ€ ์ž‘์—…์€ A์™€ B์˜ ์ข…๋ฅ˜, ํฌ๊ธฐ, ์ดˆ๊ธฐ ์œ„์น˜์— ๋”ฐ๋ผ ๋งค ์—ํ”ผ์†Œ๋“œ ๋‹ค๋ฅธ ์–‘์ƒ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํฌ๊ด„์  ์ž‘์—… ๊ตฌ์„ฑ์€ ํ•™์Šต๋œ ์ •์ฑ…์˜ ๊ด‘๋ฒ”์œ„ํ•œ ๊ณผ์ œ ์ ์‘๋ ฅ์„ ์‹œํ—˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฐ ์ง€ํ‘œ: ์ €์ž๋“ค์€ RoboTwin 2.0์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ธก๋ฉด์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค:

  1. ์•ž์„œ ์„ค๋ช…ํ•œ ์ฝ”๋“œ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ž๋™ํ™” ์„ฑ๋Šฅ,
  2. ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋กœ ๋‹ค์–‘ํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•œ ์ •์ฑ… ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ,
  3. RoboTwin 2.0์ด ์ œ๊ณตํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์˜ ์œ ์šฉ์„ฑ (์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํ‰๊ฐ€).

๋จผ์ € ์ฝ”๋“œ ์ƒ์„ฑ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด 10๊ฐœ์˜ ๋Œ€ํ‘œ ์ž‘์—…์„ ์„ ์ •ํ•˜๊ณ , ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด LLM ์—์ด์ „ํŠธ๊ฐ€ 10๊ฐœ์˜ ํ›„๋ณด ํ”„๋กœ๊ทธ๋žจ์„ ์ƒ์„ฑํ•˜์—ฌ ๊ฐ๊ฐ 10ํšŒ์”ฉ ์‹คํ–‰์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ์ž‘์—…์— ๋Œ€ํ•ด ์ด 100ํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋Œ๋ ค ํ‰๊ท  ์„ฑ๊ณต๋ฅ (ASR:Average Success Rate)์„ ๊ณ„์‚ฐํ•˜๊ณ , ๊ทธ ์ค‘ ์ƒ์œ„ 5๊ฐœ ํ”„๋กœ๊ทธ๋žจ์˜ ํ‰๊ท  ์„ฑ๊ณต๋ฅ (Top-5 ASR)๋„ ๋ณ„๋„๋กœ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ฝ”๋“œ ์ˆ˜์ • ํ›„ ์„ฑ๊ณต๋ฅ (CRSR)๊ณผ ํ‰๊ท  ์ˆ˜์ • ํšŸ์ˆ˜(CR-Iter), ๊ทธ๋ฆฌ๊ณ  LLM ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰๊นŒ์ง€ ์ธก์ •ํ•˜์—ฌ ์ž๋™ํ™” ๋ฃจํ”„์˜ ํšจ์œจ์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ํ•œ๋ฒˆ์— ์„ฑ๊ณต์ ์ธ ํ”„๋กœ๊ทธ๋žจ์„ ์ƒ์„ฑํ•˜๋Š” ๋น„์œจ, ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์‹œ๋„ ๋ ์— ๊ฒฐ๊ตญ ์„ฑ๊ณต์ ์ธ ํ”„๋กœ๊ทธ๋žจ์„ ์–ป๋Š” ๋น„์œจ, ์ˆ˜์ •์— ๊ฑธ๋ฆฌ๋Š” ํ‰๊ท  ๋ฃจํ”„ ํšŸ์ˆ˜ ๋“ฑ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์–ด, ์‹œ์Šคํ…œ์˜ ์ž๋™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ํ”ผ๋“œ๋ฐฑ ์—†๋Š” 1ํšŒ์„ฑ ์ƒ์„ฑ(Vanilla) ๋Œ€๋น„ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋กœ๊ทธ ํ”ผ๋“œ๋ฐฑ ์ ์šฉ(FB) ์‹œ ์„ฑ๊ณต๋ฅ ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ์—ฌ๊ธฐ์— VLM ์˜์ƒ ํ”ผ๋“œ๋ฐฑ๊นŒ์ง€ ๊ฒฐํ•ฉ(MM FB)ํ•˜๋ฉด ์„ฑ๊ณต๋ฅ ๊ณผ ํšจ์œจ ๋ชจ๋‘ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ RoboTwin 2.0 ํ™˜๊ฒฝ์—์„œ ASR์ด ํ”ผ๋“œ๋ฐฑ ์—†์ด 62.1%์˜€์œผ๋‚˜, ์‹คํ–‰ ๋กœ๊ทธ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ 66.7%, VLM ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ 71.3%๊นŒ์ง€ ์ƒ์Šนํ–ˆ์Šต๋‹ˆ๋‹ค. Top-5 ASR ์—ญ์‹œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ”ผ๋“œ๋ฐฑ ์ ์šฉ ์‹œ 78.6%์— ๋‹ฌํ•ด, ์šฐ์ˆ˜ํ•œ ํ”„๋กœ๊ทธ๋žจ์ผ์ˆ˜๋ก ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ๋” ์•ˆ์ •์ ์œผ๋กœ ์„ฑ๊ณตํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์‹œ๊ฐ์ •๋ณด์— ๊ธฐ๋ฐ˜ํ•œ ์˜ค๋ฅ˜ ๊ต์ •์ด ๋‹จ์ˆœ ๋กœ๊ทธ ํ”ผ๋“œ๋ฐฑ๋ณด๋‹ค ํšจ๊ณผ์ ์ž„์„ ์˜๋ฏธํ•˜๋ฉฐ, RoboTwin 2.0์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ์‡„ ๋ฃจํ”„ ์„ค๊ณ„์˜ ํƒ€๋‹น์„ฑ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ ์ •์ฑ… ํ•™์Šต ๋ฐ ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด, ์ €์ž๋“ค์€ ๋น„์ „-์–ธ์–ด-์•ก์…˜(VLA) ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ํ•™์Šต ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ๋Š” RoboTwin 2.0์ด ์ƒ์„ฑํ•œ ํ•ฉ์„ฑ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ VLA ๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šต์‹œํ‚ค๊ณ , ์ดํ›„ ์‹ค์ œ ๋กœ๋ด‡ 10ํšŒ ๋ฐ๋ชจ๋งŒ ์ถ”๊ฐ€ ์ œ๊ณตํ•˜์—ฌ ๋ฏธ์„ธ์กฐ์ •(finetune)ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ์ •์ฑ…์„ ํ˜„์‹ค์˜ ์ƒˆ๋กœ์šด ์žฅ๋ฉด์—์„œ ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ, 10ํšŒ ๋ฐ๋ชจ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…(๊ฑฐ์˜ ๋ฐ์ดํ„ฐ ์—†์Œ) ๋Œ€๋น„ 367% ๋†’์€ ์„ฑ๊ณต๋ฅ (42.0% vs 9.0%)์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ๋ฆฌ ํ•™์Šตํ•œ ๋•๋ถ„์— ์ ์€ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€ ํ˜„ ์‹ค ๋ฐ์ดํ„ฐ ์ „ํ˜€ ์—†์ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•œ ๋ชจ๋ธ๋„ 9.0%์—์„œ 20.5%๋กœ (228% ํ–ฅ์ƒ) ์„ฑ๋Šฅ์ด ์ฆ๊ฐ€ํ•˜์—ฌ, ์ œ๋กœ์ƒท ์ˆ˜์ค€์—์„œ๋„ ํ˜„์‹ค ๊ณผ์ œ๋กœ์˜ ์ผ๋ฐ˜ํ™”๊ฐ€ ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉ๋œ ๊ฒƒ์€ ํ˜„์‹ค ํ™˜๊ฒฝ์˜ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•œ ์„ฑ๊ณต๋ฅ ๋กœ, RoboTwin 2.0์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํ˜„์‹ค ๋„๋ฉ”์ธ์— ์ ํ•ฉํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋ฅผ ์ ์šฉํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ํ˜„์‹ค ๋„๋ฉ”์ธ์—์„œ์˜ ์„ฑ๋Šฅ์„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’์—ฌ์คŒ์„ ์‹ค์ฆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ RoboTwin 2.0 ๋ฒค์น˜๋งˆํฌ์˜ ์œ ์šฉ์„ฑ์€ ์—ฌ๋Ÿฌ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ์ •์ฑ… ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋…ผ๋ฌธ์—์„œ๋Š” ๋™์ผํ•œ ์ •์ฑ…์„ ๊ฐ€์ง€๊ณ  ํƒ์ž ์œ„์— ๋ฐฉํ•ด๋ฌผ ์—†์Œ vs ์žˆ์Œ, ๋ฐ์€ ์กฐ๋ช… vs ์–ด๋‘์šด ์กฐ๋ช…, ๊น”๋”ํ•œ ๋ฐฐ๊ฒฝ vs ๋ณต์žกํ•œ ๋ฐฐ๊ฒฝ ํŒจํ„ด ๋“ฑ์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง„ ํ™˜๊ฒฝ์— ํˆฌ์ž…ํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ RoboTwin ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์€ ํ›ˆ๋ จ ์‹œ ๋ณด์ง€ ๋ชปํ•œ ์กฐํ•ฉ์˜ ํ™˜๊ฒฝ ๋ณ€ํ™”์—๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ์œ ์ง€ํ–ˆ๊ณ , ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ”Œ๋žซํผ ๊ต์ฒด ์‹คํ—˜์—์„œ๋„, RoboTwin ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ํ›ˆ๋ จ์— ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋กœ๋ด‡ (์˜ˆ: UR5๋กœ ํ›ˆ๋ จ ํ›„ Franka ๋กœ๋ด‡์— ํˆฌ์ž…)์œผ๋กœ๋„ ๋น„๊ต์  ์–‘ํ˜ธํ•˜๊ฒŒ ๋™์ž‘ํ•˜์—ฌ ๋กœ๋ด‡ ๊ตฌํ˜„์ฒด ๊ฐ„ ์ผ๋ฐ˜ ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ํ‰๊ฐ€๋“ค์€ RoboTwin 2.0์˜ ๋ฐ์ดํ„ฐ์™€ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ๊ณผ ๋ฒ”์šฉ์„ฑ์„ ์ •ํ™•ํžˆ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ• ํ‰๊ฐ€: ํŠนํžˆ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์š”์†Œ ๊ฐ๊ฐ์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ablation study๋„ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํด๋Ÿฌํ„ฐ ์ œ๊ฑฐ(๊นจ๋—ํ•œ ํ…Œ์ด๋ธ”๋งŒ ์‚ฌ์šฉ), ๋‹จ์ผ ์กฐ๋ช… ์กฐ๊ฑด ๊ณ ์ •, ๋‹จ์ผ ๋ฐฐ๊ฒฝ ๊ณ ์ •, ๋‹จ์ผ ๋ฌธ์žฅ ํŒจํ„ด ๊ณ ์ • ๋“ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ํ•™์Šตํ•œ ์ •์ฑ…๋“ค์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, ๋ชจ๋“  ๋žœ๋คํ™” ์š”์†Œ๋ฅผ ์ ์šฉํ•œ ๊ฒฝ์šฐ ๊ฐ€์žฅ ๋†’์€ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์ค‘ ์š”์ธ์˜ ํ™˜๊ฒฝ ๋‹ค์–‘ํ™”๊ฐ€ ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ๋‚ด๋ฉฐ ์ •์ฑ… ์„ฑ๋Šฅ์„ ๋†’์ธ๋‹ค๋Š” ์ ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋˜, ์ถฉ๋Œ ํšŒํ”ผ ๋ฐฐ์น˜๋‚˜ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ ๊ฐ์ฒด ํšŒํ”ผ ๋“ฑ RoboTwin 2.0์ด ๋„์ž…ํ•œ ์„ธ๋ถ€ ๊ธฐ๋ฒ•๋“ค์ด ์—†์œผ๋ฉด, ํด๋Ÿฌํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๋”๋ผ๋„ ์˜คํžˆ๋ ค ์ •์ฑ… ํ˜ผ๋ž€์ด ์ฆ๊ฐ€ํ•จ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋„ ์ฒด๊ณ„์ ์ด๊ณ  ๋˜‘๋˜‘ํ•˜๊ฒŒ ์ ์šฉํ•ด์•ผ ํšจ๊ณผ๊ฐ€ ๊ทน๋Œ€ํ™”๋จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, RoboTwin 2.0์˜ ๊ตฌ์กฐํ™”๋œ ๋žœ๋คํ™” ์ „๋žต์˜ ํ•ฉ๋ฆฌ์„ฑ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, RoboTwin 2.0์˜ ์‹คํ—˜ ์„ค๊ณ„๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋ถ€ํ„ฐ ํ‰๊ฐ€๊นŒ์ง€ ์ผ๊ด€๋œ ๋…ผ๋ฆฌ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๋ฐฉ๋Œ€ํ•œ ๊ฐ์ฒดยท์ž‘์—… ๋‹ค์–‘์„ฑ์„ ๊ฐ–์ถ˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ , ์ด๋ฅผ ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ ์‹œํ—˜ํ•จ์œผ๋กœ์จ โ€œ์ข‹์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ํ˜„์‹ค ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹คโ€๋Š” ๊ฐ€์„ค์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ ์ง€ํ‘œ๋„ ์ƒ์„ฑ ๋‹จ๊ณ„์™€ ํ•™์Šต ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ์ ์ ˆํžˆ ์„ค์ •๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฃจํ”„์˜ ์ •๋Ÿ‰์  ๋ถ„์„์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์˜ ์œ ํšจ์„ฑ์„ ์ž˜ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋„๋ฉ”์ธ ๋žœ๋คํ™”์˜ ๊ฐœ๋ณ„/์ข…ํ•ฉ ํšจ๊ณผ ๋ถ„์„ ์—ญ์‹œ ํ–ฅํ›„ ์—ฐ๊ตฌ์ž๋“ค์ด ์–ด๋–ค ์š”์†Œ์— ์ง‘์ค‘ํ•ด์•ผ ํ• ์ง€ ์ง€์นจ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ์‹คํ—˜ ์„ค๊ณ„์˜ ํƒ€๋‹น์„ฑ๊ณผ ์ฒ ์ €ํ•จ ๋•๋ถ„์—, ์ด ๋…ผ๋ฌธ์€ ์–‘ํŒ” ๋กœ๋ด‡ ํ•™์Šต์—์„œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜๋ฅผ ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ์ž…์ฆํ–ˆ๋‹ค๊ณ  ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 

์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘๊ณผ ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๊ด€ํ•œ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, RoboTwin 2.0์€ ์—ฌ๋Ÿฌ ๋ฉด์—์„œ ๋…์ž์ ์ธ ๊ฐ•์ ์„ ์ง€๋‹™๋‹ˆ๋‹ค.

  • RoboTurk (Crowdsourcing ํ†ตํ•œ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘): Stanford์˜ RoboTurk ํ”„๋กœ์ ํŠธ ๋Š” ๋น„์ „๋ฌธ๊ฐ€ ๋‹ค์ˆ˜๋ฅผ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑํ•˜์—ฌ ์›๊ฒฉ์œผ๋กœ ๋กœ๋ด‡์„ ์กฐ์ž‘ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์€ ๋Œ€ํ‘œ์ ์ธ ์‹œ๋„์ž…๋‹ˆ๋‹ค. 2019๋…„ ๋ฐœํ‘œ๋œ โ€œScaling Robot Supervision to Hundreds of Hours with RoboTurkโ€ ์—ฐ๊ตฌ์—์„œ๋Š” 54๋ช…์˜ ์ผ๋ฐ˜์ธ์ด ์Šค๋งˆํŠธํฐ/์›น ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ์›๊ฒฉ ์กฐ์ž‘์— ์ฐธ์—ฌํ•˜์—ฌ ์ด 111.25์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ์กฐ์ž‘ ์˜์ƒ์„ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์€ ์—ญ๋Œ€ ์ตœ๋Œ€ ๊ทœ๋ชจ์˜ ์ธ๊ฐ„ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋กœ ํ‰๊ฐ€๋ฐ›์œผ๋ฉฐ, ์‚ฌ๋žŒ์˜ ์ฐฝ์˜์  ๋ฌธ์ œํ•ด๊ฒฐ๊ณผ ์„ฌ์„ธํ•œ ์กฐ์ž‘์ด ๋…น์•„๋“  ํ’๋ถ€ํ•œ ์‹œ์—ฐ ๋ชจ์Œ์ด๋ผ๋Š” ์˜์˜๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. RoboTurk์—์„œ ๋‹ค๋ฃฌ ๋Œ€ํ‘œ ์ž‘์—…๋“ค์€ Object Search(์„ž์ธ ์ƒ์ž์—์„œ ๊ฐ™์€ ์ข…๋ฅ˜ ๋ฌผ์ฒด 3๊ฐœ ์ฐพ์•„ ๋ถ„๋ฅ˜ํ•˜๊ธฐ), Tower Creation(๊ทธ๋ฆ‡/์ปต๋“ฑ์œผ๋กœ ํƒ‘ ์Œ“๊ธฐ), Laundry Layout(์˜ท์ด๋‚˜ ์ฒœ์„ ํŽผ์ณ ๊ฐœ์–ด๋†“๊ธฐ) 3๊ฐ€์ง€๋กœ, ๋†’์€ ์ˆ˜์ค€์˜ ์ถ”๋ก ๊ณผ ์ •๋ฐ€ ์กฐ์ž‘์ด ๋ชจ๋‘ ์š”๊ตฌ๋˜๋Š” ๊ณผ์ œ๋กœ ์„ ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์—… ์„ค์ •์˜ ์ฐฝ์˜์„ฑ๊ณผ ์ธ๊ฐ„ dexterity ๋ฐ์ดํ„ฐ๋Š” RoboTwin๊ณผ ๋Œ€๋น„๋˜๋Š” RoboTurk๋งŒ์˜ ์žฅ์ ์ž…๋‹ˆ๋‹ค.
    • ์ฐจ๋ณ„์ : RoboTurk์˜ ์ ‘๊ทผ๋ฒ•์€ ์ธ๊ฐ„์ด ์ง์ ‘ ๋กœ๋ด‡์„ ์กฐ์ž‘ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๋Š” ๊ฒƒ์ด๊ณ , RoboTwin์€ AI๊ฐ€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ๊ทผ๋ณธ์  ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. RoboTurk๋Š” ํ˜„์‹ค ๋กœ๋ด‡(์ฃผ๋กœ Sawyer ์•” ๋กœ๋ด‡)์œผ๋กœ ์‹œ์—ฐ์„ ๋ชจ์•˜๊ธฐ ๋•Œ๋ฌธ์— ์‹ค์ œ ๋ฌผ๋ฆฌ์™€ ์žก์Œ์ด ๋ฐ˜์˜๋œ ๊ฐ’์ง„ ๋ฐ์ดํ„ฐ์ง€๋งŒ, ์ž‘์—… ์ข…๋ฅ˜๊ฐ€ 3๊ฐ€์ง€๋กœ ํ•œ์ •๋˜์–ด ์žˆ๊ณ , ์–‘ํŒ”์ด ์•„๋‹Œ ๋‹จ์ผ ํŒ” ์กฐ์ž‘ ์ค‘์‹ฌ์ด์—ˆ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด RoboTwin 2.0์€ 50๊ฐ€์ง€๋กœ ์ž‘์—… ํญ์ด ๋„“๊ณ  ์–‘์† ํ˜‘๋™์— ํŠนํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ ์ธก๋ฉด์—์„œ๋„ RoboTwin์€ ์ผ๋‹จ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๋ฉด ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋น„์šฉ์ด ์ €๋ ดํ•˜์ง€๋งŒ, RoboTurk๋Š” ์‚ฌ๋žŒ์„ ๊ณ„์† ์ฐธ์—ฌ์‹œ์ผœ์•ผ ํ•˜๋ฏ€๋กœ ํ™•์žฅ์— ์ธ์  ์ž์›์ด ์†Œ์š”๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์–‘ํŒ” ํ˜‘๋™ ์ž‘์—…์€ ์‚ฌ๋žŒ์—๊ฒŒ๋„ ์กฐ์ž‘ ๋‚œ๋„๊ฐ€ ๋†’์•„ RoboTurk ๋ฐฉ์‹์œผ๋กœ๋Š” ๋” ์–ด๋ ค์› ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š”๋ฐ, RoboTwin์€ ์ด๋Ÿฌํ•œ ๊ณ ๋‚œ๋„ ์ž‘์—…์„ AI ํ™œ์šฉ์œผ๋กœ ํ•ด๊ฒฐํ•œ ์…ˆ์ž…๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ RoboTwin์€ RoboTurk์˜ โ€œ๋กœ๋ด‡ ์กฐ์ž‘ ImageNetโ€์ด๋ผ๋Š” ๋น„์ „์„ ๋‹ค๋ฅธ ๊ฒฝ๋กœ(์‹œ๋ฎฌ๋ ˆ์ด์…˜)๋กœ ๋‹ฌ์„ฑํ•˜๊ณ ์ž ํ•˜๋ฉฐ, ๋‘˜์€ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค. RoboTwin์—์„œ ์ƒ์„ฑํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ RoboTurk์˜ ํ˜„์‹ค ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์™€ ๊ฒฐํ•ฉํ•œ๋‹ค๋ฉด, ํ•œ์ชฝ์˜ ๋ถ€์กฑํ•จ(์˜ˆ: ํ•ฉ์„ฑ vs ์‹ค์ œ์˜ ๊ฐ„๊ทน, ํ˜น์€ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ ๋ถ€์กฑ)์„ ์ƒํ˜ธ ๋ณด์™„ํ•˜์—ฌ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ RoboTwin ๋…ผ๋ฌธ์—์„œ๋„ ์†Œ๋Ÿ‰์˜ ํ˜„์‹ค ์‹œๆผ”(์˜ˆ: RoboTurk ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ์–ป์€ ์‹œ์—ฐ)์„ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์— ์ถ”๊ฐ€ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋จ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋Š”๋ฐ, ์ด๋Š” ๋ฏธ๋ž˜์— ๋‘ ์ ‘๊ทผ๋ฒ•์˜ ์‹œ๋„ˆ์ง€ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • RoboNet (์—ฌ๋Ÿฌ ๋กœ๋ด‡ ๋žฉ์˜ ๊ฒฝํ—˜ ํ†ตํ•ฉ ๋ฐ์ดํ„ฐ์…‹): Berkeley ๋“ฑ์„ ์ค‘์‹ฌ์œผ๋กœ 2019๋…„์— ์ œ์•ˆ๋œ RoboNet ์€ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ๊ธฐ๊ด€์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„ ๊ณต๊ฐœํ•œ ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘๋กœ๋ด‡ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. RoboNet์€ 7์ข…์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ”Œ๋žซํผ(์˜ˆ: Sawyer, Baxter, Kuka ๋“ฑ)์ด ํ…Œ์ด๋ธ” ์œ„์—์„œ ๊ฐ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์ด 162,000๊ฐœ์˜ trajecotry๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ, ์•ฝ 1,500๋งŒ ์žฅ์˜ ์˜์ƒ ํ”„๋ ˆ์ž„์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” 4๊ฐœ ์—ฐ๊ตฌ์†Œ์—์„œ ๊ฐ์ž ์ž์œจ ์ˆ˜์ง‘๋˜์—ˆ์œผ๋ฉฐ, ๋กœ๋ด‡ ํŒ”, ์นด๋ฉ”๋ผ ๋ทฐ, ์‹คํ—˜์‹ค ํ™˜๊ฒฝ, ์‚ฌ์šฉ ๊ฐ์ฒด๋“ค์ด ๋ชจ๋‘ ๋‹ค์–‘ํ•˜๊ฒŒ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. RoboNet์˜ ์ฃผ์š” ๋ชฉํ‘œ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋กœ ๋กœ๋ด‡ ํ–‰๋™ ๋ชจ๋ธ์„ ์‚ฌ์ „ํ•™์Šตํ•œ ๋’ค, ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์— ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์—์„œ RoboNet์œผ๋กœ ๋ชจ๋ธ์„ ์‚ฌ์ „ํ›ˆ๋ จํ•œ ๊ฒฝ์šฐ, ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์œผ๋กœ์˜ ์ ์‘์ด 4๋ฐฐ ์ด์ƒ ๋น ๋ฅด๊ฒŒ ์ด๋ฃจ์–ด์ง€๊ณ , ์ „ํ˜€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋‚˜ ์นด๋ฉ”๋ผ ๋ทฐ์—๋„ ์–ด๋А ์ •๋„ ๋™์ž‘ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๊ฒฝํ—˜์„ ๋ชจ์€ ๋ฐ์ดํ„ฐ์…‹์˜ ํž˜์„ ์ž…์ฆํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.
    • ์ฐจ๋ณ„์ : RoboNet๊ณผ RoboTwin 2.0์€ โ€œ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋กœ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒโ€์ด๋ผ๋Š” ํฐ ๋ฐฉํ–ฅ์€ ๊ฐ™์ง€๋งŒ, ์ ‘๊ทผ ๋ฐฉ์‹์— ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฉด์—์„œ, RoboNet์€ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์œผ๋กœ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์€ ๋ฐ˜๋ฉด, RoboTwin์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ RoboNet ๋ฐ์ดํ„ฐ์—๋Š” ํ˜„์‹ค ๋ฌผ๋ฆฌ์™€ ์žก์Œ์ด ๋ฐ˜์˜๋˜์–ด ์žˆ๊ณ  ๋„๋ฉ”์ธ ๋žœ๋คํ™” ์—†์ด๋„ ๋กœ๋ด‡/ํ™˜๊ฒฝ๋งˆ๋‹ค ์–ด๋А ์ •๋„ ์ฐจ์ด๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ RoboNet์˜ ๋ฐ์ดํ„ฐ๋Š” ํŠน์ • ๋ช…์‹œ์  ๊ณผ์—… ๋ชฉํ‘œ๊ฐ€ ์—†๋Š” ์ผ๋ฐ˜์ ์ธ ์ƒํ˜ธ์ž‘์šฉ(์˜ˆ: ๋ฐ€๊ธฐ, ์žก๊ธฐ ๋“ฑ)์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ˜๋ฉด, RoboTwin ๋ฐ์ดํ„ฐ๋Š” ๊ฐ ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋ช…ํ™•ํ•œ ๊ณผ์ œ ์„ฑ๊ณต/์‹คํŒจ ๊ธฐ์ค€์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ RoboTwin์˜ ๋ฐ์ดํ„ฐ๋Š” โ€œ์„ฑ๊ณตํ•œ ์‹œ์—ฐโ€ ์ค‘์‹ฌ์ด๋ผ์„œ ๋ชจ๋ธ์ด ๋ชฉํ‘œ์ง€ํ–ฅ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ์— ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ RoboNet ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํญ๋„“๊ฒŒ ์ปค๋ฒ„ํ•˜์ง€๋งŒ, ํ•™์Šต ์‹œ ๋ชฉํ‘œ๋ฅผ ์ •์˜ํ•ด์ฃผ๊ธฐ ์–ด๋ ต๊ณ  ์„ฑ๊ณต/์‹คํŒจ ๋ ˆ์ด๋ธ”๋„ ์—†์Šต๋‹ˆ๋‹ค. ๋˜, RoboNet์—๋Š” ์–ธ์–ด ์„ค๋ช…์ด๋‚˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๊ฐ€ ์—†์ง€๋งŒ, RoboTwin์€ ๋น„์ „+์–ธ์–ด๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‹œ๋‚˜๋ฆฌ์˜ค์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ VLA (Vision-Language-Action) ํ†ตํ•ฉ ์ •์ฑ… ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ ์ ์ด RoboTwin์˜ ๊ฐ•์ ์ž…๋‹ˆ๋‹ค. ํ•œํŽธ ์ž‘์—… ๋ณต์žก์„ฑ ์ธก๋ฉด์—์„œ๋„ ์ฐจ์ด๊ฐ€ ์žˆ๋Š”๋ฐ, RoboNet์€ ์ฃผ๋กœ ๋‹จ์ผ ํŒ”์˜ ๋‹จ์ˆœ ๋ฌผ์ฒด ์กฐ์ž‘(ํƒ๊ฒฌ์ด๋‚˜ ํ‘ธ์‹œ ๋“ฑ)์— ๊ฐ€๊น๊ณ , RoboTwin์€ ์–‘ํŒ”์˜ ํ˜‘๋™/๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ ๋ณต์žกํ•œ ์Šคํ‚ฌ๋“ค์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ํฌ๊ธฐ์™€ ๋ฒ”์šฉ์„ฑ์„ ๋ณด๋ฉด, RoboNet์€ ์—ฌ๋Ÿฌ ๊ธฐ๊ด€ ์ฐธ์—ฌ๋กœ ์—ฌ๋Ÿฌ ํ˜„์‹ค ๋กœ๋ด‡์„ ๋ง๋ผํ–ˆ์ง€๋งŒ, ๋ฒ”์šฉ API๋‚˜ ํ†ต์ผ๋œ ํ™˜๊ฒฝ์ด ์—†์–ด ์—ฐ๊ตฌ์ž๋“ค์ด ์ง์ ‘ ํ™œ์šฉํ•˜๊ธฐ ๊นŒ๋‹ค๋กœ์šด ์ธก๋ฉด์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. RoboTwin์€ ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด์—์„œ ๋‹ค์ˆ˜ ๋กœ๋ด‡์„ ์ง€์›ํ•˜๊ณ , ๋ฐ์ดํ„ฐ/์ฝ”๋“œ ๋ชจ๋‘ ๊น”๋”ํžˆ ๊ณต๊ฐœ๋˜์–ด ์žฌํ˜„์„ฑ๊ณผ ํ™•์žฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, RoboNet์€ ํ˜„์‹ค ๊ธฐ๋ฐ˜ โ€œ๋„“์€ ๋ถ„ํฌโ€ ๋ฐ์ดํ„ฐ, RoboTwin์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ โ€œ๋ชฉํ‘œ ์ง€ํ–ฅ์ โ€ ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ ๋‘ ์ ‘๊ทผ์€ ์ƒํ˜ธ๋ณด์™„์ ์ด๋ฉฐ, ์‹ค์ œ๋กœ RoboTwin 2.0 ๋…ผ๋ฌธ์˜ ๊ด€๋ จ์—ฐ๊ตฌ์—์„œ๋„ RoboNet์ฒ˜๋Ÿผ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ต๋Ÿ‰ํ•˜๋Š” ์‹œ๋„๊ฐ€ ์ผ๋ฐ˜ํ™”์— ์ค‘์š”ํ•จ์„ ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. RoboTwin 2.0์€ RoboNet์ด ์ œ์‹œํ•œ ๋น„์ „์„ ์–‘ํŒ” ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ ํ™•๋Œ€ํ•˜๋ฉด์„œ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๊ทธ ๋น„์ „์„ ๊ตฌํ˜„ํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๊ฒฝ๋กœ๋ฅผ ๋ณด์—ฌ์ค€ ๊ฒƒ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Google RT-1 / RT-2 ๋ฐ Open X-Embodiment (RT-X): Google์˜ Robotics Transformer ์‹œ๋ฆฌ์ฆˆ์ธ RT-1๊ณผ RT-2 ๋Š” ๋กœ๋ด‡์˜ ๋Œ€๊ทœ๋ชจ ์‹ค์„ธ๊ณ„ ๋ฐ์ดํ„ฐ ํ•™์Šต์„ ํ†ตํ•ด ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”๋ฅผ ๋‹ฌ์„ฑํ•œ ๋Œ€ํ‘œ์ ์ธ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. RT-1์€ 2022๋…„ ๋ฐœํ‘œ๋˜์—ˆ์œผ๋ฉฐ, ์•ฝ 130k๊ฐœ์˜ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์—ฐ(๊ฐ€์ • ๋‚ด ์กฐ์ž‘ ์ž„๋ฌด)์„ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋กœ ํ•™์Šต์‹œ์ผœ, ์‹œ๊ฐ(์นด๋ฉ”๋ผ ์ž…๋ ฅ)๊ณผ ์–ธ์–ด(๋ช…๋ น)๋ฅผ ์•ก์…˜ ์‹œํ€€์Šค๋กœ ์ง์ ‘ ๋งคํ•‘ํ•˜๋Š” end-to-end ์ •์ฑ…์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ฃผ๋ฐฉ ํ™˜๊ฒฝ ๋“ฑ์˜ ์‹ค์ œ ์žก์ผ 700์—ฌ ๊ฐ€์ง€์— ๋Œ€ํ•ด ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๋ณด์˜€๊ณ , 13๋Œ€์˜ ๋กœ๋ด‡์œผ๋กœ ์ˆ˜์ง‘ํ•œ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ๋ฐ ์ƒํ™ฉ์— ๋Œ€์‘ํ–ˆ์Šต๋‹ˆ๋‹ค. RT-2๋Š” 2023๋…„ ํ›„์†์œผ๋กœ, ์›น ์ด๋ฏธ์ง€/ํ…์ŠคํŠธ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ๊ณต๋™ ํ•™์Šต์‹œํ‚ด์œผ๋กœ์จ, ๋ณด์ง€ ์•Š์€ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ถ”๋ก ๊ณผ ๋™์ž‘๊นŒ์ง€ ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ง„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์“ฐ๋Ÿฌ์ง„ ์ปต์„ ์„ธ์›Œ์ค˜โ€ ๊ฐ™์€ ๋ช…๋ น์„ ์›น ํ•™์Šต์„ ํ†ตํ•ด ๊ฐœ๋…์„ ์•Œ๊ณ  ์žˆ๋Š” ๋ชจ๋ธ์ด ๋กœ๋ด‡ ์ œ์–ด๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ 2024๋…„ ๊ณต๊ฐœ๋œ Open X-Embodiment ํ”„๋กœ์ ํŠธ ๋Š” ํ•™๊ณ„์˜ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌํŒ€์ด ํ•จ๊ป˜ 22์ข…์˜ ๋กœ๋ด‡ ๊ตฌํ˜„์ฒด(๋‹จ์ผ์•”, ์–‘ํŒ”, ์ด๋™๋กœ๋ด‡, ์‚ฌ์กฑ๋ณดํ–‰ ๋“ฑ)๋ฅผ ์•„์šฐ๋ฅด๋Š” 100๋งŒ+ ๊ฐœ ํ˜„์‹ค ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. Open X-Embodiment (์ค„์—ฌ OpenX)๋Š” ํฉ์–ด์ ธ์žˆ๋˜ ๊ณต๊ฐœ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋“ค์„ ๋‹จ์ผํ•œ ํฌ๋งท์œผ๋กœ ํ†ตํ•ฉํ•˜๊ณ , ์ด๋ฅผ ํ•™์Šตํ•œ RT-X๋ผ๋Š” ๋ฒ”์šฉ ๋กœ๋ด‡ ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ์‡„์ ์œผ๋กœ ์ง„ํ–‰๋œ ๊ตฌ๊ธ€ RT-์‹œ๋ฆฌ์ฆˆ์— ๋Œ€์‘ํ•˜์—ฌ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ฑฐ๋Œ€ ๋กœ๋ด‡ ๋ชจ๋ธ์„ ๋งŒ๋“ค๋ ค๋Š” ์›€์ง์ž„์ž…๋‹ˆ๋‹ค.
    • ์ฐจ๋ณ„์ : RT-1/2 ๋ฐ OpenX์™€ RoboTwin 2.0์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด๋Š” โ€œ์‹ค์ œ vs ํ•ฉ์„ฑโ€์ž…๋‹ˆ๋‹ค. RT ๊ณ„์—ด๊ณผ OpenX์˜ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋‘ ํ˜„์‹ค ์„ธ๊ณ„์—์„œ ์ˆ˜์ง‘๋œ ์‹œ์—ฐ์œผ๋กœ, ์žก์Œ๊ณผ ํ•œ๊ณ„๊ฐ€ ํ˜„์‹ค ๊ทธ๋Œ€๋กœ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด RoboTwin์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ๋ฌดํ•œ์— ๊ฐ€๊น๊ฒŒ ๋ฐ์ดํ„ฐ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•˜๊ณ , ์œ„ํ—˜ํ•œ ์ƒํ™ฉ๋„ ๊ฐ€์ƒ์—์„œ ์‹œ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด OpenX ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋œ ์–‘ํŒ” ๋กœ๋ด‡ ์‹œ์—ฐ์€ ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ์œผ๋‚˜, RoboTwin์—์„œ๋Š” ๊ฐ€์ƒ์œผ๋กœ ๋ณต์žกํ•œ ์–‘ํŒ” ํ˜‘์—…์„ ๋ฌด์ˆ˜ํžˆ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ RT-1 ๋“ฑ์˜ ์ž‘์—…๋“ค์€ ๋Œ€๋ถ€๋ถ„ ๋‹จ์ผ ๋กœ๋ด‡ ํ”Œ๋žซํผ(์˜ˆ: ํ”ฝ์Šค๋˜์–ด์žˆ๋Š” ๋ชจ๋ฐ”์ผ ๋กœ๋ด‡ ํŒ”)์—์„œ ์ด๋ฃจ์–ด์ง„ ๋ฐ˜๋ฉด, RoboTwin์€ 5๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡์œผ๋กœ ๋™์ผ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•ด cross-embodiment ์ผ๋ฐ˜ํ™”์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์–ธ์–ด ์ž…๋ ฅ์˜ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ๋„, RT-1์€ ๋น„๊ต์  ์ •ํ˜•ํ™”๋œ ๋ช…๋ น๋ฌธ ์œ„์ฃผ์ด๊ณ  RT-2๋Š” ์›น ํ•™์Šต์œผ๋กœ ์–ธ์–ด ์ดํ•ด๋ฅผ ํ–ฅ์ƒํ–ˆ์ง€๋งŒ, RoboTwin์€ ๋ช…๋ น ํ…œํ”Œ๋ฆฟ๊ณผ ๊ฐ์ฒด ๋ฌ˜์‚ฌ ์ƒ์„ฑ๊ธฐ๋ฅผ ํ†ตํ•ด ๋งค ์—ํ”ผ์†Œ๋“œ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฌธ์žฅ์„ ์ œ์‹œํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์ด ์–ธ์–ด ํ‘œํ˜„ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•ด์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ ์ธก๋ฉด์—์„œ๋Š”, RT-์‹œ๋ฆฌ์ฆˆ๋Š” ๋ฐฉ๋Œ€ํ•œ ํ˜„์‹ค ๋ฐ์ดํ„ฐ ๋•์— ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋งค์šฐ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋‚˜, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์ด ๋ง‰๋Œ€ํ–ˆ์Šต๋‹ˆ๋‹ค. RoboTwin์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜์˜€๊ณ , ์†Œ๋Ÿ‰์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ 367%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋‚ธ ๊ฒƒ์€ ํ•ฉ์„ฑ+ํ˜„์‹ค ํ˜ผํ•ฉ ์ ‘๊ทผ์˜ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Open X-Embodiment์™€ ๋น„๊ตํ•˜๋ฉด, OpenX๋Š” ์ „ ์„ธ๊ณ„์—์„œ ๋ชจ์€ 22์ข… ๋กœ๋ด‡, 217๊ฐœ ์ž‘์—… ์ด์ƒ์„ ๋ง๋ผํ•œ โ€œ๋ฉ”๊ฐ€ ๋ฐ์ดํ„ฐ์…‹โ€์œผ๋กœ, ์Šค์ผ€์ผ ๋ฉด์—์„œ RoboTwin(50๊ฐœ ์ž‘์—…, 5์ข… ๋กœ๋ด‡)์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ OpenX์˜ ๋ฐ์ดํ„ฐ๋Š” ์ถœ์ฒ˜๋ณ„๋กœ ํ’ˆ์งˆ ํŽธ์ฐจ๊ฐ€ ์žˆ๊ณ  ๋ผ๋ฒจ๋ง/์ •์˜ ์ฒด๊ณ„๊ฐ€ ์ œ๊ฐ๊ฐ์ด์—ˆ๋˜ ๊ฒƒ์„ ํ†ตํ•ฉํ•œ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์™„์ „ํ•œ ์ผ๊ด€์„ฑ์„ ๋‹ด๋ณดํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด RoboTwin ๋ฐ์ดํ„ฐ๋Š” ํ•˜๋‚˜์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ํ†ต์ผ๋œ ๋ฐฉ์‹์œผ๋กœ ์ˆ˜์ง‘๋˜์–ด, ๋ชจ๋“  ์ž‘์—…์— ์ผ๊ด€๋œ ์ธํ„ฐํŽ˜์ด์Šค์™€ ๋ช…ํ™•ํ•œ ์„ฑ๊ณต ๊ธฐ์ค€์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฐ๊ตฌ์ž๊ฐ€ ํŠน์ • ์š”์†Œ๋งŒ ๋ณ€ํ™”์‹œ์ผœ ์‹คํ—˜ํ•˜๊ธฐ ์šฉ์ดํ•˜๋ฉฐ, ์žก์Œ ์š”์†Œ๋ฅผ ํ†ต์ œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ OpenX๋‚˜ RT-1 ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์นด๋ฉ”๋ผ ํ™”์งˆ์ด๋‚˜ ๋กœ๋ด‡ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ์˜ค๋ฅ˜ ๋“ฑ์ด ์„ž์—ฌ ์žˆ์–ด ๋ถ„์„์ด ์–ด๋ ต์ง€๋งŒ, RoboTwin ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ํ•„์š”ํ•œ ๋ถ€๋ถ„๋งŒ ์ œ์–ดํ•˜์—ฌ ์„ฑ๋Šฅ ์š”์ธ์„ ์—ฐ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ RoboTwin์˜ ์ฝ”๋“œ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ ๊ฐ™์€ ๊ฒƒ์€ RT/OpenX ์ชฝ์—๋Š” ์—†๋Š” ์ฐจ๋ณ„ ๊ธฐ์ˆ ๋กœ, ๋กœ๋ด‡ ํ–‰๋™์„ ํ”„๋กœ๊ทธ๋ž˜๋ฐ์ ์œผ๋กœ ์ƒ์„ฑ/์ˆ˜์ •ํ•˜๋Š” ์—ฐ๊ตฌ์—๋„ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ •๋ฆฌํ•˜๋ฉด, RT-X/OpenX๋Š” ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ๋ฒ”์šฉ ๋กœ๋ด‡ ๋ชจ๋ธ์„ ์ถ”๊ตฌํ•˜๊ณ , RoboTwin์€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ robustํ•œ ์–‘ํŒ” ๋กœ๋ด‡ ๋ชจ๋ธ์„ ์ถ”๊ตฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ๋Š” ์ด๋“ค๋„ ์ƒํ˜ธ ๋ณด์™„ ๊ฐ€๋Šฅํ•˜๋ฉฐ, RoboTwin์—์„œ ๋งŒ๋“  ํ•ฉ์„ฑ ์‹œ์—ฐ์„ RT-X ๊ฐ™์€ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์‚ฌ์ „ํ•™์Šต์— ํ™œ์šฉํ•˜๊ฑฐ๋‚˜, ๋ฐ˜๋Œ€๋กœ OpenX์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ RoboTwin์˜ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์— ๋ฐ˜์˜ํ•˜๋Š” ์‹์˜ ํ˜‘๋ ฅ ๋ฐฉํ–ฅ๋„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ ์™ธ ๊ด€๋ จ ์—ฐ๊ตฌ: RoboVerse ๋Š” 2025๋…„ ์†Œ๊ฐœ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์—ฌ๋Ÿฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ๋กœ๋ด‡ ๊ตฌํ˜„์„ ํ•˜๋‚˜๋กœ ๋ฌถ์–ด ๋ฒ”์šฉ์ ์ธ ๋กœ๋ด‡ ํ•™์Šต ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•˜๋ ค ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Meta-World (50๊ฐ€์ง€ ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ ์„ธํŠธ),ManiSkill2 (20๊ฐœ ์ž‘์—…๊ตฐ, 400๋งŒ ํ”„๋ ˆ์ž„ ์‹œ์—ฐ ํฌํ•จ), CALVIN (๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์žฅ๊ธฐ๊ณผ์ œ ์–ธ์–ด์ง€์‹œ ๋ฐ์ดํ„ฐ์…‹), LIBERO (130๊ฐœ ์ž‘์—…, ๊ณ ํ’ˆ์งˆ ํœด๋จผ ํ…”๋ ˆ์˜ต ๋ฐ์ดํ„ฐ), RoboMIND (479๊ฐœ ์ž‘์—…, 4์ข… ๋กœ๋ด‡, 107k ํ…”๋ ˆ์˜ต ์—ํ”ผ์†Œ๋“œ) ๋“ฑ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์…‹/๋ฒค์น˜๋งˆํฌ๊ฐ€ ์ตœ๊ทผ ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๊ฐ๊ฐ ๊ณ ์œ ํ•œ ์žฅ์ ์ด ์žˆ์ง€๋งŒ,RoboTwin 2.0์€ ์–‘ํŒ” ํ˜‘์—…์ด๋ผ๋Š” ํŠน์ˆ˜ ๋ถ„์•ผ์—์„œ ์ด๋“ค์˜ ์žฅ์ ์„ ๊ฒฐ์ง‘ํ•œ ๋А๋‚Œ์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ Meta-World์ฒ˜๋Ÿผ ๋‹ค์ค‘ ์ž‘์—… ๋ฒค์น˜๋งˆํฌ์ด๋ฉด์„œ, ManiSkill์ฒ˜๋Ÿผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋Œ€๋Ÿ‰ ์‹œ์—ฐ์„ ์ œ๊ณตํ•˜๊ณ , CALVIN์ฒ˜๋Ÿผ ์–ธ์–ด ์กฐ๊ฑด ์ •์ฑ…์„ ๋‹ค๋ฃจ๊ณ , LIBERO์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋“ค์„ ํฌ๊ด„ํ•˜๋ฉฐ, RoboMIND์ฒ˜๋Ÿผ ๋ณต์ˆ˜ ๋กœ๋ด‡ ํ”Œ๋žซํผ์„ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์–‘ํŒ” ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ๋Š” RoboTwin 2.0 ์ด์ „๊นŒ์ง€ ์ด๋ ‡๋‹ค ํ•  ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ/๋ฒค์น˜๋งˆํฌ๊ฐ€ ์—†์—ˆ๊ธฐ์—, RoboTwin ์‹œ๋ฆฌ์ฆˆ์˜ ๋“ฑ์žฅ์€ ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•˜๋Š” ์„ ๊ตฌ์ž ์—ญํ• ์„ ํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ RoboTwin 1.0(Generative Digital Twins)์—์„œ๋Š” ํ˜„์‹ค-์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Œ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ฐธ์‹ ํ•œ ๋ฒค์น˜๋งˆํฌ ์„ค์ •์„ ๋‚ด๋†“์•˜๋Š”๋ฐ, RoboTwin 2.0์€ ํ•œ ๊ฑธ์Œ ๋” ๋‚˜์•„๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์™„์ „ ์ž๋™ํ™”์™€ ๋‹ค์–‘ํ™”๋ฅผ ์ด๋ค„๋ƒˆ๋‹ค๋Š” ์ ์—์„œ ๊ธฐ์ˆ ์  ์ง„์ผ๋ณด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ ๊ณ ์ฐฐ

๋งˆ์ง€๋ง‰์œผ๋กœ, RoboTwin 2.0์˜ ์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜์™€ ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ์„ ์‚ดํŽด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  1. ์ „๋ฌธ๊ฐ€ ์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋“ˆ: RoboTwin 2.0์˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์€ Figure 3์— ๋„์‹ํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋‘ ๊ฐœ์˜ AI์—์ด์ „ํŠธ๊ฐ€ ํ˜‘๋ ฅํ•˜๋Š” ์ด์ค‘ ์—์ด์ „ํŠธ ๊ตฌ์กฐ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” ์ฝ”๋“œ-์ƒ์„ฑ ์—์ด์ „ํŠธ๋กœ, ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(์˜ˆ: GPT ๊ณ„์—ด)์˜ ํž˜์„ ๋นŒ๋ ค ์ž์—ฐ์–ด ์ž‘์—… ์„ค๋ช…์„ Python ์ฝ”๋“œ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ฝ”๋“œ ์ƒ์„ฑ์„ ๋•๊ธฐ ์œ„ํ•ด, ์‚ฌ์ „์— ์ •์˜๋œ ๋กœ๋ด‡ ์Šคํ‚ฌ API ๋ชฉ๋ก, ์˜ˆ์‹œ ํ•จ์ˆ˜ ํ˜ธ์ถœ๋“ค, ๊ณ„์ธต์  ์ž‘์—… ์ œ์•ฝ์กฐ๊ฑด ๋“ฑ์„ LLM์—๊ฒŒ ์ œ๊ณตํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ โ€œ์ปต์„ ์ง‘์–ด ์ƒ์ž ์•ˆ์— ๋„ฃ์–ด๋ผโ€๋ผ๋Š” ๊ณผ์ œ๋ฅผ ๋ฐ›์œผ๋ฉด, API ์‚ฌ์ „์—๋Š” pick(obj, hand), place(obj, location) ๋“ฑ์˜ ํ•จ์ˆ˜๊ฐ€ ์žˆ๊ณ , ์˜ˆ์‹œ๋กœ pick(cup, left_hand) ๊ฐ™์€ ํ˜ธ์ถœ, ๊ทธ๋ฆฌ๊ณ  โ€œ์ปต์„ ์ง‘์€ ํ›„ ์ƒ์ž ์ขŒํ‘œ ๋‚ด๋ถ€์— ์œ„์น˜์‹œํ‚ค๊ธฐโ€ ๋“ฑ์˜ ์ œ์•ฝ์„ ์ œ์‹œํ•˜์—ฌ, LLM์ด ์ด๋ฅผ ์ฐธ์กฐํ•ด ์ผ๋ จ์˜ ํ•จ์ˆ˜ ํ˜ธ์ถœ๋กœ ์ด๋ฃจ์–ด์ง„ ํŒŒ์ด์ฌ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ์ดˆ๊ธฐ ์ฝ”๋“œ๋Š” ๋ณดํ†ต ์™„๋ฒฝํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ์ด๋ฅผ ์‹ค์ œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ 10ํšŒ ์‹คํ–‰ํ•˜๋ฉด์„œ ๋กœ๊ทธ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ๋™์‹œ์— ๋‘ ๋ฒˆ์งธ ์—์ด์ „ํŠธ์ธ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ˜ ๊ด€์ฐฐ์ž๊ฐ€ ๊ฐ ์‹คํ–‰์„ ํ”„๋ ˆ์ž„๋ณ„๋กœ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜์—ฌ, ์–ด๋А ๋‹จ๊ณ„์—์„œ ์‹คํŒจํ–ˆ๋Š”์ง€, ์‹คํŒจ ์›์ธ์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์™ผ์†์ด ์ปต์„ ์ง‘์œผ๋ ค ํ–ˆ์œผ๋‚˜ ๋†“์ณค๋‹ค๋ฉด โ€œStep 2: ์™ผ์† grasp ์‹คํŒจโ€๋กœ ํ‘œ์‹œํ•˜๊ณ , ์ฝ”๋“œ ์ƒ ํ•ด๋‹น ๋ถ€๋ถ„์ด ๋ฌธ์ œ๋ผ๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ํ˜น์€ ์ฝ”๋“œ ์ž์ฒด์— ๋ฌธ๋ฒ• ์˜ค๋ฅ˜๊ฐ€ ์žˆ์œผ๋ฉด ๋ฐ”๋กœ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ •๋Ÿ‰์  ๋กœ๊ทธ (์„ฑ๊ณต/์‹คํŒจ ์—ฌ๋ถ€)์™€ ์ •์„ฑ์  ์ง„๋‹จ (์‹คํŒจ ์œ ํ˜•)์ด๋ผ๋Š” ๋‘ ์ข…๋ฅ˜์˜ ํ”ผ๋“œ๋ฐฑ์ด ์ค€๋น„๋˜๋ฉด, LLM ์ฝ”๋“œ ์—์ด์ „ํŠธ๋Š” ์ด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‹คํŒจ ์›์ธ์ด โ€œ์˜ค๋ฅธ์†์ด ์ด๋ฏธ ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ์žˆ์–ด์„œ ๋‘ ๋ฒˆ์งธ grasp ์‹คํŒจโ€๋ผ๋ฉด, LLM์€ ์˜ค๋ฅธ์†์ด ๋จผ์ € ์žก๊ณ  ์žˆ์„ ๋•Œ ์™ผ์†์ด ์žก๋„๋ก ์ˆœ์„œ๋ฅผ ๋ฐ”๊พธ๊ฑฐ๋‚˜, ๋จผ์ € ์žก์€ ๋ฌผ์ฒด๋ฅผ ๋‚ด๋ ค๋†“๋Š” ์ฝ”๋“œ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์‹์œผ๋กœ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋‹ค์‹œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์ƒˆ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜์—ฌ ์„ฑ๊ณต๋ฅ ์ด 50%๋ฅผ ๋„˜์œผ๋ฉด ์ข…๋ฃŒํ•˜๊ฑฐ๋‚˜, ์ตœ๋Œ€ 5ํšŒ ๋ฐ˜๋ณต๊นŒ์ง€ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ข…๋ฃŒ ์กฐ๊ฑด์€ ๋ฌดํ•œ ๋ฃจํ”„ ๋ฐฉ์ง€ ๋ฐ ์ตœ์†Œ ์„ฑ๋Šฅ ๋ณด์žฅ์„ ์œ„ํ•œ ๊ฒƒ์œผ๋กœ, ํ•œ ๋ฒˆ ์ƒ์„ฑ๋œ ์ตœ์ข… ์ฝ”๋“œ๋Š” ์ ์–ด๋„ ์ ˆ๋ฐ˜ ์ด์ƒ ์„ฑ๊ณตํ•˜๋Š” ์ค€(ๆบ–)์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ์‹คํ–‰ ์ฝ”๋“œ์ž„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๊ฐœ 5ํšŒ ๋‚ด์—์„œ ์ƒ๋‹น์ˆ˜ ์ž‘์—…์ด 80~100%์— ๊ทผ์ ‘ํ•œ ์„ฑ๊ณต๋ฅ ๋กœ ์ˆ˜๋ ดํ•˜๋ฉฐ, ์ผ๋ถ€ ๋ณต์žกํ•œ ์ž‘์—…๋„ 5ํšŒ ์•ˆ์— 50% ์ด์ƒ์€ ๋„๋‹ฌํ•˜๋„๋ก ์กฐ์œจ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ์‡„ ๋ฃจํ”„ ์ฝ”๋“œ ์ƒ์„ฑ ๊ณผ์ •์€ ์‚ฌ๋žŒ์˜ ๊ฐ๋… ์—†์ด ์ฝ”๋“œ->์‹คํ–‰->ํ”ผ๋“œ๋ฐฑ->์ฝ”๋“œ ์ˆ˜์ •์˜ self-refinement๋ฅผ ๊ตฌํ˜„ํ•œ ๊ฒƒ์œผ๋กœ, ๋กœ๋ด‡ ํ–‰๋™ ๊ณ„ํš์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐ ์žˆ์–ด ๋งค์šฐ ํ˜์‹ ์ ์ธ ์–ดํ”„๋กœ์น˜์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฉ€ํ‹ฐ ๋ชจ๋‹ฌ ํ”ผ๋“œ๋ฐฑ(์˜์ƒ ๊ธฐ๋ฐ˜)์ด ์ถ”๊ฐ€๋จ์œผ๋กœ์จ ๋‹จ์ˆœ ํ…์ŠคํŠธ ๋กœ๊ทธ๋กœ๋Š” ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฏธ๋ฌ˜ํ•œ ์‹คํŒจ ์›์ธ๊นŒ์ง€ ์งš์–ด์ค˜, LLM๊ฐ€ ๊ตฌ์ฒด์  ์ˆ˜์ •์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํ•œ ๊ฐ•ํ™”ํ•™์Šต์ด๋‚˜ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ˆ˜์ •๊ณผ ๋‹ฌ๋ฆฌ, ์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์ฝ”๋“œ๋ฅผ ๊ตฌ์กฐ์ ์œผ๋กœ ๊ณ ์น˜๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์ˆ ์ ์œผ๋กœ ์ด ๋ชจ๋“ˆ ๊ตฌํ˜„์€ Python ํ™˜๊ฒฝ๊ณผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(์˜ˆ: SAPIEN ๋ฌผ๋ฆฌ์—”์ง„ )๋ฅผ ์—ฐ๋™ํ•˜๊ณ , ์–ธ์–ด ๋ชจ๋ธ (์˜ˆ: GPT-4 ๋“ฑ) API๋ฅผ ํ˜ธ์ถœํ•ด ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ค„์กŒ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. VLM์€ ์˜ˆ์ปจ๋Œ€ MiniGPT-4๋‚˜ LLaVA ๊ณ„์—ด๋กœ ์žฅ๋ฉด์„ ์„ค๋ช…ํ•˜๊ณ  ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๋ชจ๋ธ์„ ํ™œ์šฉํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. (๋…ผ๋ฌธ์—์„œ๋Š” ๊ตฌ์ฒด์  ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค๋Š” ๊ฐœ๋…์  ๊ตฌ์„ฑ์„ ์ค‘์  ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.) ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด ์ „๋ฌธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ชจ๋“ˆ ๋•๋ถ„์—, ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์‹œ์—ฐํ•˜๊ฑฐ๋‚˜ ์‹คํŒจ ์ผ€์ด์Šค๋ฅผ ๊ฑธ๋Ÿฌ๋‚ผ ํ•„์š” ์—†์ด ์‹ ๋ขฐ๋„ ๋†’์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹œ์—ฐ์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  2. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ: ์œ„ ๋ชจ๋“ˆ๋กœ ์–ป์€ ์ „๋ฌธ๊ฐ€ ์ฝ”๋“œ๋Š” RoboTwin 2.0 ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค. ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์ตœ์ข… ์‚ฐ์ถœ๋œ ์„ฑ๊ณต ์ฝ”๋“œ๊ฐ€ ์žˆ๊ณ , ์ด๋ฅผ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์˜ trajectory๋ฅผ ๋Œ€๋Ÿ‰ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์ปต์„ ์ƒ์ž์— ๋„ฃ๋Š”โ€ ์ž‘์—…์˜ ์„ฑ๊ณต ์ฝ”๋“œ๊ฐ€ ์™„์„ฑ๋˜๋ฉด, ํ•ด๋‹น ์ฝ”๋“œ๋ฅผ ์ด์šฉํ•ด ์—ฌ๋Ÿฌ ์‹œ๋“œ(seed)๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋ฐ˜๋ณต ์‹คํ–‰ํ•˜์—ฌ ์ˆ˜์ฒœ ๊ฐœ์˜ ์—ํ”ผ์†Œ๋“œ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๋•Œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๊ฐ€ ํ•จ๊ป˜ ์ ์šฉ๋˜์–ด, ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ํ™˜๊ฒฝ ์„ค์ •์„ ๋ฐ”๊พธ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํด๋Ÿฌํ„ฐ์˜ ๊ฒฝ์šฐ, RoboTwin-OD ๊ฐ์ฒด ํ’€์—์„œ ๋ฌด์ž‘์œ„๋กœ ๋ช‡ ๊ฐœ์˜ ๋ฐฉํ•ด ๋ฌผ์ฒด๋ฅผ ๊ณจ๋ผ ์ž‘์—…๋Œ€ ์ฃผ๋ณ€์— ๋ฐฐ์น˜ํ•ฉ๋‹ˆ๋‹ค. ๋ฐฐ์น˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์‚ฌ์ „์— ๊ณ„์‚ฐ๋œ ์ถฉ๋Œ ๋ถ€ํ”ผ๋ฅผ ์‚ฌ์šฉํ•ด, ๋กœ๋ด‡์ด๋‚˜ ์ฃผ์š” ๊ฐ์ฒด์™€ ๊ฒน์น˜์ง€ ์•Š๋„๋ก ๋–จ์–ด๋œจ๋ฆฝ๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ๋„ ํƒœ๊ทธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ์˜ˆ๋ฅผ ๋“ค์–ด ์ปต์„ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์— ์ปต๊ณผ ๋งค์šฐ ๋น„์Šทํ•œ ์ปต์„ ๋ฐฉํ•ด๋ฌผ๋กœ ๋‘์ง€ ์•Š๋„๋ก ํ•˜์—ฌ ์ •์ฑ… ํ˜ผ๋ž€์„ ์ค„์ด๋Š” ์„ฌ์„ธํ•œ ์žฅ์น˜๋„ ํฌํ•จํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ๊ฒฝ/ํ‘œ๋ฉด ํ…์Šค์ฒ˜๋Š” ์•ž์„œ ๋งˆ๋ จํ•œ 12k์žฅ์˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ๋ฌด์ž‘์œ„๋กœ ๊ณจ๋ผ ํ…Œ์ด๋ธ”๊ณผ ๋ฒฝ ๋“ฑ์— ์ž…ํž™๋‹ˆ๋‹ค. ์กฐ๋ช…์€ ๋ฌผ๋ฆฌ์—”์ง„ ๋‚ด ๊ด‘์›์„ ์ œ์–ดํ•˜์—ฌ, ์ƒ‰์˜จ๋„(์˜ˆ: 3000K vs 7000K), ๊ด‘์› ๊ฐœ์ˆ˜ (์ „์—ญ ์กฐ๋ช… 1๊ฐœ vs ์ŠคํฌํŠธ๋ผ์ดํŠธ ์—ฌ๋Ÿฌ ๊ฐœ), ๋ฐ๊ธฐ ์„ธ๊ธฐ ๋“ฑ์„ ์ž„์˜ ์กฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. ํƒ์ž ๋†’์ด๋Š” ์˜ˆ์ปจ๋Œ€ 70cm~90cm ๋ฒ”์œ„์—์„œ Uniform ์ƒ˜ํ”Œ๋งํ•˜์—ฌ, ๋กœ๋ด‡์˜ ํŒ” ๊ฐ๋„์™€ ์นด๋ฉ”๋ผ ์‹œ์•ผ๊ฐ€ ๋‹ฌ๋ผ์ง€๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ์€ ๋งค ์—ํ”ผ์†Œ๋“œ ๋งˆ๋‹ค ์กฐ๊ธˆ์”ฉ ๋‹ฌ๋ฆฌ ์ƒ์„ฑ๋˜๋Š”๋ฐ, ์˜ˆ์ปจ๋Œ€ โ€œUse {arm} to place {A} to the left of {B}โ€ ๊ฐ™์€ ํ…œํ”Œ๋ฆฟ์˜ {A}, {B}์— ๋Œ€ํ•ด LLM์ด ์ƒ์„ฑํ•œ ๊ฐ์ฒด ๋ฌ˜์‚ฌ(e.g. โ€œwhite plastic lid sauce canโ€, โ€œgray kitchen pot for boilingโ€)๋ฅผ ์ฑ„์›Œ๋„ฃ์–ด ๋‹ค์–‘ํ•˜๊ฒŒ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. {arm} ์ž๋ฆฌ๋„ โ€œleft armโ€ ํ˜น์€ โ€œright armโ€ ๋“ฑ ์ž„์˜ ์ง€์ •ํ•˜์—ฌ ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์‹์œผ๋กœ โ€œUse left arm to place white plastic lid sauce can to the left of kitchenpot for boiling and cookingโ€ ์ฒ˜๋Ÿผ ๋‹ค์†Œ ์žฅํ™ฉํ•˜์ง€๋งŒ ๋‹ค์–‘ํ•œ ํ‘œํ˜„์˜ ๋ฌธ์žฅ์ด ๋งŒ๋“ค์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์–ธ์–ด์  ๋‹ค์–‘ํ™”๋Š” ๋ชจ๋ธ์ด ํŠน์ • ๋ฌธ๊ตฌ์— ์˜ค๋ฒ„ํ”ผํŒ…๋˜์ง€ ์•Š๊ณ , ์ฒ˜์Œ ๋ณด๋Š” ํ‘œํ˜„์œผ๋กœ ๋ช…๋ น์ด ์ฃผ์–ด์ ธ๋„ ์ดํ•ดํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•˜๋‚˜์˜ ์ž‘์—…์— ๋Œ€ํ•ด ๊ธฐ๋ณธ ํ™˜๊ฒฝ vs ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰๋œ ์ˆ˜๋งŽ์€ ๊ถค์ ๋“ค์ด ์Œ“์ž…๋‹ˆ๋‹ค. RoboTwin 2.0์—์„œ๋Š” ์ž‘์—… ๋‹น 500๊ฐœ์˜ ๊ถค์ (clean 100 + ๋žœ๋คํ™” 400) ร— 50 ์ž‘์—… ร— 5 ๋กœ๋ด‡ = 125,000๊ฐœ์˜ trajectory๊ฐ€ ์‚ฌ์ „ ์ˆ˜์ง‘๋˜์–ด ๊ณต๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” HuggingFace ์ €์žฅ์†Œ๋ฅผ ํ†ตํ•ด ์ œ๊ณต๋˜๋ฉฐ, ๊ฐ ์—ํ”ผ์†Œ๋“œ์— ์‹œ๊ฐ ๊ด€์ฐฐ (๋ฉ€ํ‹ฐ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€), ๋กœ๋ด‡ ์ƒํƒœ(๊ด€์ ˆ๊ฐ, Gripper ์ƒํƒœ ๋“ฑ), ์‹คํ–‰ํ•œ ์•ก์…˜ ์‹œํ€€์Šค, ์ž์—ฐ์–ด ์ง€์‹œ๋ฌธ, ์„ฑ๊ณต ์—ฌ๋ถ€ ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์˜์ƒ์€ 1์ธ์นญ ์นด๋ฉ”๋ผ ๋ทฐ์™€ ํƒ‘๋ทฐ ๋“ฑ ์—ฌ๋Ÿฌ ์‹œ์ ์œผ๋กœ ๋…นํ™”๋˜์–ด, ์—ฐ๊ตฌ์ž ํ•„์š”์— ๋”ฐ๋ผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค (์ž์„ธํ•œ ์‚ฌ์–‘์€ ๋…ผ๋ฌธ ๋ถ€๋ก์— ์–ธ๊ธ‰). ๋˜ํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณตํ†ต ํฌ๋งท (์˜ˆ: RLDS or HDF5)์œผ๋กœ ์ •๋ ฌ๋˜์–ด ์žˆ์–ด, ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ๊ฐ„ ๋ฐ์ดํ„ฐ๋ผ๋„ ๋™์ผํ•œ ์ฝ”๋“œ๋กœ ๋ถˆ๋Ÿฌ์™€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ‘œ์ค€ํ™”๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์€ ์‹คํ—˜์˜ ์žฌํ˜„์„ฑ์„ ๋†’์ด๊ณ , ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๊ฐ€ ์ถ”๊ฐ€ ์‹คํ—˜(์˜ˆ: ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ…Œ์ŠคํŠธ)์„ ํ•  ๋•Œ ์‰ฝ๊ฒŒ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.

  1. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ™˜๊ฒฝ ๋ฐ ๊ตฌํ˜„: RoboTwin 2.0์€ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ์–ธ๊ธ‰์€ ์ง์ ‘์ ์œผ๋กœ ์—†์ง€๋งŒ, ์—ฌ๋Ÿฌ ์ •ํ™ฉ์ƒ SAPIEN ์—”์ง„์„ ์‚ฌ์šฉํ•œ ๊ฒƒ์œผ๋กœ ์ง์ž‘๋ฉ๋‹ˆ๋‹ค. SAPIEN์€ ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๋™์  ์ƒํ˜ธ์ž‘์šฉ (์˜ˆ: ๊ด€์ ˆ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ)๊ณผ, PartNetMobility ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ 3D ์ž์‚ฐ ํ˜ธํ™˜์„ฑ์„ ๊ฐ–์ถ˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ, RoboTwin์—์„œ ํ™œ์šฉํ•œ 2300๊ฐœ+ ๊ด€์ ˆ ๊ฐ์ฒด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€๋„ ๋ถ€ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ RoboTwin์ด PartNet-Mobility์˜ ๊ฐ์ฒด๋ฅผ ์‚ฌ์šฉํ•œ ์ , ๊ทธ๋ฆฌ๊ณ  ํ”„๋ž‘์นด(Franka)๋‚˜ UR5 ๋กœ๋ด‡ ๋ชจ๋ธ๋„ SAPIEN์—์„œ ํ”ํžˆ ์“ฐ์ด๋Š” ์ž์‚ฐ์ด๋ผ๋Š” ์ ์—์„œ ๊ทธ๋Ÿฌํ•ฉ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋Š” PyBullet์ด๋‚˜ MuJoCo ๋“ฑ์˜ ๊ฐ€๋Šฅ์„ฑ๋„ ์žˆ์œผ๋‚˜, SAPIEN์€ ํ•™๊ณ„ ์ตœ์‹  ํŠธ๋ Œ๋“œ์ด๋ฉฐ ์ €์ž๋“ค์ด ์–ธ๊ธ‰ํ•œ ์ฐธ๊ณ ๋ฌธํ—Œ์—๋„ SAPIEN์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ ๋กœ๋ด‡ ์ œ์–ด๋Š” ๋กœ์šฐ๋ ˆ๋ฒจ ์ œ์–ด(๋ชจํ„ฐ ํ† ํฌ ๋“ฑ)๊ฐ€ ์•„๋‹ˆ๋ผ, RoboTwin์—์„œ๋Š” ๋ฏธ๋ฆฌ ์ •์˜๋œ ์Šคํ‚ฌ API๋กœ ์ถ”์ƒํ™” ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ pick(obj) ๋ฅผ ํ˜ธ์ถœํ•˜๋ฉด ๋กœ๋ด‡์ด ๋‚ด๋ถ€์ ์œผ๋กœ ํ•ด๋‹น ๊ฐ์ฒด ์œ„์น˜๊นŒ์ง€ IK๋กœ ํŒ”์„ ๋ป—๊ณ  ๊ทธ๋ฆฌํผ๋ฅผ ๋‹ซ๋Š” ์ผ๋ จ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Š” Python API ์ˆ˜์ค€์—์„œ ๋™์ž‘ํ•˜๋ฉฐ, ๋ฌผ๋ฆฌ ์—”์ง„ ๋‚ด ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ๋‚˜ Inverse Kinematics Solver๋ฅผ ํ†ตํ•ด ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค. RoboTwin ์ฝ”๋“œ๋Š” ์ด๋Ÿฌํ•œ ์ €์ˆ˜์ค€ ์ œ์–ด๋ฅผ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์˜คํ”ˆ์†Œ์Šค MoJo ๋˜๋Š” ์ž์ฒด ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ๋•๋ถ„์— LLM์ด ๊ตณ์ด ํ† ํฌ ์ œ์–ด๋ฅผ ์ง์ ‘ ์ถœ๋ ฅํ•  ํ•„์š” ์—†์ด, ๊ณ ์ˆ˜์ค€ API ์‹œํ€€์Šค๋งŒ ์ƒ์„ฑํ•˜๋ฉด ๋กœ๋ด‡์ด ์›€์ง์˜€์Šต๋‹ˆ๋‹ค.
  2. ๋ฉ€ํ‹ฐ ๋กœ๋ด‡ ์ง€์› ๊ตฌ์กฐ: RoboTwin 2.0์€ 5๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํŒ”์„ ์ง€์›ํ•˜๋Š”๋ฐ, ์ด๊ฒƒ์ด ๊ฐ€๋Šฅํ•œ ์ด์œ ๋Š” ์ถ”์ƒํ™” ๊ณ„์ธต ๋•๋ถ„์ž…๋‹ˆ๋‹ค. ์ฆ‰ ๋™์ผํ•œ ์Šคํ‚ฌ API๊ฐ€ ๊ฐ ๋กœ๋ด‡์— ๋Œ€ํ•ด ๊ตฌํ˜„๋˜์–ด ์žˆ์–ด, LLM์ด ์ƒ์„ฑํ•˜๋Š” ์ฝ”๋“œ๋Š” ๋กœ๋ด‡์— ๋ฌด๊ด€ํ•˜๊ฒŒ ๊ฐ™์€ ํ˜ธ์ถœ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‚ด๋ถ€์ ์œผ๋กœ Franka์ฒ˜๋Ÿผ 7-DoF ๋กœ๋ด‡์ด ๊ทธ ํ•จ์ˆ˜๋ฅผ ์‹คํ–‰ํ•  ๋•Œ์™€, Piper์ฒ˜๋Ÿผ 4-DoF ๋กœ๋ด‡์ด ์‹คํ–‰ํ•  ๋•Œ ์•ฝ๊ฐ„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•˜์ง€๋งŒ, ์™ธ๋ถ€์—์„œ ๋ณผ ๋•Œ๋Š” ๋™์ผํ•œ ํ•จ์ˆ˜๋ช…์ด ์ถ”์ƒํ™” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ grasp(obj, arm=โ€œleftโ€) ํ•จ์ˆ˜๋Š” ํ”„๋ž‘์นด๋ผ๋ฉด ์ƒ๋‹จ ์–ดํ”„๋กœ์น˜ ๊ฒฝ๋กœ๋ฅผ ํƒํ•˜๊ณ , Piper๋ผ๋ฉด ์ธก๋ฉด ์–ดํ”„๋กœ์น˜๋ฅผ ํƒํ•˜๋„๋ก ๊ตฌํ˜„ํ•ด ๋‘” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ๊ฐ์ฒด์˜ affordance ์ •๋ณด(์–ด๋””๋ฅผ ์žก์„ ์ˆ˜ ์žˆ๋Š”์ง€)๊ฐ€ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. RoboTwin-OD ๋‚ด ๊ฐ์ฒด๋“ค์€ CAD ๋ชจ๋ธ์ƒ ๊ทธ๋ฆฝ ์ง€์  ํ›„๋ณด๋‚˜ ๋ฐฉํ–ฅ๋ณ„ ์šฐ์„ ์ˆœ์œ„ ๊ฐ™์€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ–๊ณ  ์žˆ์–ด, Piper ๊ฐ™์€ ๋กœ๋ด‡์ผ ๊ฒฝ์šฐ ์ƒ๋ถ€ ์ง€์ ์€ ๋ฐฐ์ œํ•˜๊ณ  ์ธก๋ฉด ์ง€์ ๋“ค์„ ํ›„๋ณด๋กœ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ํ‰ํ˜• ์žก๊ธฐ vs ์ง‘๊ฒŒ ์žก๊ธฐ ๋“ฑ ๋กœ๋ด‡๋ณ„ ๊ทธ๋ฆฌํผ ํƒ€์ž… ์ฐจ์ด๋„ ๊ณ ๋ ค๋ฉ๋‹ˆ๋‹ค(์ผ๋ถ€ ๋กœ๋ด‡์€ ์–‘์†์œผ๋กœ ์ง‘๋Š” ํ˜•ํƒœ, ์ผ๋ถ€๋Š” ์–‘๊ฐˆ๋ž˜ ๊ทธ๋ฆฌํผ). ์ด๋Ÿฌํ•œ ์„ฌ์„ธํ•œ ๊ตฌํ˜„ ๋•๋ถ„์—, ๋™์ผํ•œ ์ฝ”๋“œ๋กœ๋„ ๊ฐ ๋กœ๋ด‡์ด ์ž๊ธฐ ์Šคํƒ€์ผ๋Œ€๋กœ ์ž„๋ฌด๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. RoboTwin 2.0 ์ฝ”๋“œ ๊ณต๊ฐœ๋ณธ์—๋Š” ์ƒˆ๋กœ์šด ๋กœ๋ด‡์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฐ€์ด๋“œ๋„ ํฌํ•จ๋ผ ์žˆ๋Š”๋ฐ, ์„ผ์„œ ์„ธํŒ…, ๋ฌผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ • ๋“ฑ์„ ์†์‰ฝ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ถ”์ƒํ™”๋˜์–ด ์žˆ์–ด ํ™•์žฅ ์šฉ์ด์„ฑ์ด ํ™•๋ณด๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  3. ์ •์ฑ… ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๊ตฌ์กฐ: RoboTwin 2.0์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ†ตํ•ฉ ๋ชจ๋ธ์„ ์ง€ํ–ฅํ•ฉ๋‹ˆ๋‹ค. VLA(๋น„์ „-์–ธ์–ด-์•ก์…˜) ๋ชจ๋ธ ๊ตฌ์กฐ๋กœ, CNN ์ธ์ฝ”๋”๋กœ ์ด๋ฏธ์ง€ ํ”ผ์ฒ˜ ์ถ”์ถœ, Transformer ์ธ์ฝ”๋”๋กœ ์–ธ์–ด ๋ช…๋ น ์ธ์ฝ”๋”ฉ, ์ด๋“ค์„ ๊ฒฐํ•ฉํ•˜์—ฌ Transformer ๋””์ฝ”๋”๋‚˜ FC ๋„คํŠธ์›Œํฌ๋กœ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ํ˜•ํƒœ๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ๋…ผ๋ฌธ์—์„œ๋Š” ํŠน์ • ๋ชจ๋ธ๋ณด๋‹ค ๋ฐ์ดํ„ฐ์˜ ํšจ์šฉ์— ์ดˆ์ ์„ ๋งž์ท„์ง€๋งŒ, ์ฐธ๊ณ ๋กœ ์ตœ๊ทผ ๋ฐœํ‘œ๋œ OpenVLA ๋‚˜ FineTuning VLA models ๋“ฑ์˜ ๊ธฐ๋ฒ•์ด ์ ์šฉ๋์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต์€ Behavior Cloning(๋ชจ๋ฐฉ ํ•™์Šต)์œผ๋กœ ์ด๋ฃจ์–ด์กŒ์œผ๋ฉฐ, ์†์‹คํ•จ์ˆ˜๋Š” L1/L2 ์œ„์น˜ ์˜ค๋ฅ˜+๊ทธ๋ฆฌํผ ์ƒํƒœ ํฌ๋กœ์Šค์—”ํŠธ๋กœํ”ผ ๋“ฑ์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ‰๊ฐ€ ์‹œ์—๋Š” ์•ž์„œ ๋งํ•œ๋Œ€๋กœ ์ƒˆ๋กœ์šด ํ˜„์‹ค ์‹œ๋‚˜๋ฆฌ์˜ค(๋ฐฐ๊ฒฝ/์กฐ๋ช… ๋ฐ”๋€ ๋ฌผ๋ฆฌ ์‹คํ—˜ํ™˜๊ฒฝ)์—์„œ ์‚ฌ๋žŒ์˜ ๊ฐ„๋‹จํ•œ ์ง€์‹œ๋ฅผ ์ฃผ๊ณ  ์„ฑ๊ณต๋ฅ ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ์‹คํ—˜์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ ๋žœ๋ค ์‹œ๋“œ๋กœ๋งŒ ํ‰๊ฐ€ํ•˜๊ธฐ๋„ ํ–ˆ์ง€๋งŒ, ํ•ต์‹ฌ ๊ฒฐ๊ณผ๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์œผ๋กœ ๊ฒ€์ฆํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜๋ฏธ๊ฐ€ ํฝ๋‹ˆ๋‹ค. ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์ด ํ˜„์‹ค์—์„œ ์–ด๋А ์ •๋„ ๋™์ž‘ํ•˜๊ณ , ์†Œ๋Ÿ‰์˜ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ ํฐ ํ–ฅ์ƒ์„ ๋ณด์ธ ๊ฒƒ์€, ํ•ฉ์„ฑ-ํ˜„์‹ค ํ˜ผํ•ฉํ•™์Šต์˜ ์‹ค์šฉ์  ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” Sim2Real ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ํฐ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ๋กœ, ํ–ฅํ›„ RoboTwin ๋ฐ์ดํ„ฐ์™€ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ค ๋น„์œจ๋กœ ์„ž์–ด์•ผ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‚ด๋Š”์ง€ ๋“ฑ์˜ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ์ž๊ทนํ•ฉ๋‹ˆ๋‹ค.

์ „๋ฐ˜์ ์œผ๋กœ, RoboTwin 2.0์˜ ๊ธฐ์ˆ ์  ๊ตฌํ˜„์€ ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ํ•™์Šต ์ธํ”„๋ผ ๊ตฌ์ถ• ๊ด€์ ์—์„œ ๋ชจ๋ฒ”์ ์ž…๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ ๊ตฌ์กฐ๋Š” ๋ณต์žกํ•˜์ง€๋งŒ ๊ฐ ์š”์†Œ๊ฐ€ ๋…ผ๋ฆฌ์ ์œผ๋กœ ๋ถ„๋ฆฌ๋˜์–ด (๋ฐ์ดํ„ฐ ์ƒ์„ฑ โ€“ ํ•™์Šต โ€“ ํ‰๊ฐ€ ๋ชจ๋“ˆ) ์žฌ์‚ฌ์šฉ๊ณผ ํ™•์žฅ์ด ์‰ฝ๊ณ , ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ์€ ์ตœ์†Œํ•œ์˜ ์ธ๊ฐ„ ๊ฐœ์ž…์œผ๋กœ ๋ง‰๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐ ๊ฐ€๋Šฅ์ผ€ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋„๋ฉ”์ธ ๋žœ๋คํ™”์™€ embodiment adaptation ๊ธฐ๋ฒ•์€ ๊ธฐ์กด์— ๊ฐœ๋ณ„์ ์œผ๋กœ ์ œ์•ˆ๋˜๋˜ ์•„์ด๋””์–ด๋“ค์„ ํ•œ ๋ฐ ๋ฌถ์–ด ์‹ค์šฉ์  ์‹œ์Šคํ…œ์— ๋…น์—ฌ๋‚ธ ๊ณตํ•™์  ์„ฑ์ทจ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ณต๊ฐœ๋œ ์ฝ”๋“œ๋ฅผ ํ†ตํ•ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ ์œ„์— ์ƒˆ๋กœ์šด ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ…Œ์ŠคํŠธํ•˜๊ฑฐ๋‚˜, ์ž๊ธฐ ๋กœ๋ด‡ ํ”Œ๋žซํผ์„ ์ถ”๊ฐ€ํ•ด ์‹คํ—˜ํ•˜๋Š” ๋“ฑ ํŒ”๋กœ์šฐ์—… ์—ฐ๊ตฌ๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ๋…ผ๋ฌธ์˜ ๊ฒฐ๋ก ๋ถ€์—์„œ ์ €์ž๋“ค์€ RoboTwin 2.0์ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰์„ ์—ด์—ˆ์Œ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์‹œ๋งจํ‹ฑ ์ •๋ณด๋ฅผ ๊ฐ–์ถ˜ ๊ฐ์ฒด ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, ์ž๋™ํ™”๋œ ๊ถค์  ์ƒ์„ฑ๊ณผ ํ’๋ถ€ํ•œ ํ™˜๊ฒฝ ๋ณ€์ด, ๊ทธ๋ฆฌ๊ณ  ์ด๋กœ๋ถ€ํ„ฐ ์–ป์€ ๊ฐ•์ธํ•œ ์ •์ฑ…๋“ค์˜ ์„ฑ๊ณผ๋Š”, ํ–ฅํ›„ ๋กœ๋ด‡ํ•™์Šต ์—ฐ๊ตฌ์—์„œ โ€œ๋” ๋งŽ๊ณ  ๋” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐโ€์˜ ์ค‘์š”์„ฑ์„ ์žฌํ™•์ธ์‹œ์ผœ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€ํ˜•๋ชจ๋ธ์„ ๋กœ๋ด‡ ์ œ์–ด์— ํ™œ์šฉํ•˜๋Š” ํ๋ฆ„๊ณผ, ๋””์ง€ํ„ธ ํŠธ์œˆ ๊ฐœ๋…์„ ํ™œ์šฉํ•œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-ํ˜„์‹ค ์—ฐ๊ณ„ ์—ฐ๊ตฌ ๋ชจ๋‘์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ RoboTwin 2.0์„ ๋ฐ”ํƒ•์œผ๋กœ, ํ˜„์‹ค ์„ธ๊ณ„ ์ ์šฉ ๋ฐ ๋‹ค์ค‘ ๊ฐ์ฒด ๋ณตํ•ฉ ์ž‘์—… ๋“ฑ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ๋‚˜์•„๊ฐˆ ๊ฒƒ์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ•˜๋ฉฐ ๋…ผ๋ฌธ์€ ๋งบ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ณง RoboTwin ํ”„๋กœ์ ํŠธ์˜ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ๋” ๋ณต์žกํ•œ ์กฐ์ž‘ ์‹œ๋‚˜๋ฆฌ์˜ค๋‚˜ ํ˜„์‹ค ๋กœ๋ด‡ ์˜จ๋ผ์ธ ํ•™์Šต ๋“ฑ์ด ๊ณ ๋ ค๋˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, RoboTwin 2.0์€ ์–‘ํŒ” ๋กœ๋ด‡ ์กฐ์ž‘ํ•™์Šต ๋ถ„์•ผ์˜ ๊ฒŒ์ž„์ฒด์ธ์ €๋กœ ํ‰๊ฐ€ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์ˆ ์ ์œผ๋กœ ์„ฌ์„ธํ•˜๊ฒŒ ์„ค๊ณ„๋œ๋ฐ์ดํ„ฐ ์ƒ์„ฑยทํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ, ๊ธฐ์กด ์ž์›์„ ์ ๊ทน ํ™œ์šฉํ•˜๋ฉด์„œ๋„ ์ƒˆ๋กœ์šด ๋Œ€์•ˆ์„ ์ œ์‹œํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์™€ LLM ํ™œ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ์‹ค์ œ์— ๊ฐ€๊นŒ์šด ๊ฐ•์ธํ•œ ์ •์ฑ… ์„ฑ๋Šฅ์€ ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹ฌ์ธต ๋ฆฌ๋ทฐ๋ฅผ ํ†ตํ•ด ๋ณผ ๋•Œ, RoboTwin 2.0์€ ๊ด€๋ จ ์˜์—ญ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ ์ž์›๊ณผ ๋ฒค์น˜๋งˆํฌ ํ‘œ์ค€์„ ์ œ๊ณตํ•จ๊ณผ ๋™์‹œ์—, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์˜ ํž˜๊ณผ ํ•œ๊ณ„๋ฅผ ํƒ๊ตฌํ•  ํ›Œ๋ฅญํ•œ ์ถœ๋ฐœ์ ์„ ๋งˆ๋ จํ–ˆ๋‹ค๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ๋ณธ ๋…ผ๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ›„์† ์—ฐ๊ตฌ๋“ค์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฒฉ์ฐจ๋ฅผ ์ค„์ด๊ณ , ๋กœ๋ด‡์˜ ๋ฒ”์šฉ์ง€๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ™œ๋ฐœํžˆ ์ „๊ฐœ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Copyright 2024, Jung Yeon Lee