๐RoboTwin 2.0 ๋ฆฌ๋ทฐ
- ๐ค RoboTwin 2.0์ ์ด์ค ํ ๋ก๋ด ์กฐ์์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์ ํ๋ ์์ํฌ๋ก, MLLM(Multimodal Large Language Model) ๊ธฐ๋ฐ์ ์๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ ๊ธฐ๋ฅ์ ํตํฉํ์ฌ ์ค์ ํ๊ฒฝ์ ๋ณต์ก์ฑ์ ๋ฐ์ํฉ๋๋ค.
- ๐ก ์ด ํ๋ ์์ํฌ๋ 731๊ฐ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ RoboTwin-OD ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ 50๊ฐ์ง ์ด์ค ํ ์์ ์ ๊ฑธ์น 10๋ง ๊ฐ ์ด์์ ์ ๋ฌธ๊ฐ ๊ถค์ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ๋ด ํผ๋๋ฐฑ์ ํตํด ํ์คํฌ ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ ์ 10.9% ํฅ์์ํค๊ณ ๋ค์ํ ๋ก๋ด ๊ธฐ๊ตฌํ์ ์ ์ํฉ๋๋ค.
- ๐ RoboTwin 2.0 ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ ๋๋ฉ์ธ ๋ฌด์์ํ๊ฐ ์๋ ๋ฐ์ดํฐ์ ๋นํด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ ์ฑ ๊ฒฌ๊ณ ์ฑ์ด ์ต๋ 31.9% ํฅ์๋์์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์์ 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ ํจ๊ป ์ฌ์ฉ๋ ๋ ํ๊ท ์ฑ๊ณต๋ฅ ์ด 24.4% ์์นํ์ฌ Sim-to-Real ์ ์ด ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค.
Brief Review
RoboTwin 2.0์ ์ด์ค ๋ก๋ด ์กฐ์(bimanual robotic manipulation)์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ์ด์ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ๊ฐ๋ ฅํ ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๋ฅผ ํตํด ๋ก๋ด ์ ์ฑ (robot policy)์ ๊ฐ๊ฑดํจ(robustness)๊ณผ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๊ธฐ์กด์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ด ์๋ก์ด ์์ ์ ์ํ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์ฑ ๋ฐฉ๋ฒ๊ณผ ํ์ค ์ธ๊ณ์ ๋ณต์ก์ฑ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ ์ง๋์น๊ฒ ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ด๋ผ๋ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ ํด๊ฒฐํฉ๋๋ค.
RoboTwin 2.0์ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค:
์๋ํ๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ (Automated Expert Data Generation Pipeline): ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)๊ณผ ์๋ฎฌ๋ ์ด์ -์ธ-๋-๋ฃจํ(simulation-in-the-loop) ํผ๋๋ฐฑ์ ํ์ฉํ์ฌ ์์ ์คํ ์ฝ๋๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฒ์ฆํ๊ณ ๊ฐ์ ํฉ๋๋ค. MLLM์ ์์ฐ์ด ์ง์(natural language instructions)๋ก๋ถํฐ ์คํ ๊ฐ๋ฅํ ์์ ๊ณํ(executable task plans)์ ํฉ์ฑํ๊ณ , vision-language model (VLM) observer๋ ์๋ฎฌ๋ ์ด์ ์์ ์คํ์ ๋ชจ๋ํฐ๋งํ๊ณ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๋ฉฐ ์์ ์ ์ ์ํฉ๋๋ค. ์ด ํ์ ๋ฃจํ ์ํคํ ์ฒ๋ ์ฝ๋ ์์ฑ ์์ด์ ํธ๊ฐ ํ๋ก๊ทธ๋จ์ ์๋์ผ๋ก ๊ฐ์ ํ์ฌ ์ต์ํ์ ์ฌ๋ ๊ฐ๋ ์ผ๋ก ๊ฐ๊ฑดํ๊ณ ์์ฒด ๊ฐ์ ๋๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋๋ก ํฉ๋๋ค.
ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ (Comprehensive Domain Randomization): ์ ์ฑ ์ Sim-to-Real ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ฏ ๊ฐ์ง ์ถ(์ธ์ด ์ง์(language instructions), ์ฅ๋ฉด ํผ๋(scene clutter), ๋ฐฐ๊ฒฝ ํ ์ค์ฒ(background textures), ์กฐ๋ช ์กฐ๊ฑด(lighting conditions), ํ์ ๋์ด(tabletop configurations))์ ๊ฑธ์ณ ์ ์ฉ๋ฉ๋๋ค. ์ฅ๋ฉด ํผ๋์ ์ํด RoboTwin-OD์์ ๊ฐ์ ธ์จ 731๊ฐ์ ๋ฐฉํด ๊ฐ์ฒด(distractor objects)๋ฅผ ์ถ๊ฐํ๋ฉฐ, ์ถฉ๋ ๊ฐ์ง ๋ฐฐ์น(collision-aware placement)๋ฅผ ํตํด ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ๋ณด์ฅํฉ๋๋ค. ๋ฐฐ๊ฒฝ ๋ฐ ํ์ ํ๋ฉด์ ์ํด LLM ํ๋กฌํํธ์ Stable Diffusion v2๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ๊ณ ์ฌ๋์ ํํฐ๋ง์ ๊ฑฐ์น 11,000๊ฐ์ ๊ณ ํ์ง ํ ์ค์ฒ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์กฐ๋ช ์ ์์จ๋, ๊ด์ ์ ํ, ๊ฐ๋ ๋ฐ ์์น๊ฐ ๋ฌด์์ํ๋ฉ๋๋ค. ํ์ ๋์ด๋ ๊ฐ๋ฅํ ๋ฒ์ ๋ด์์ ๊ท ์ผํ๊ฒ ๋ฌด์์ํ๋ฉ๋๋ค. ์ธ์ด ์ง์์ ๊ฒฝ์ฐ MLLM์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ ํ ํ๋ฆฟ๊ณผ ๊ฐ์ฒด ์ค๋ช ์ ์์ฑํ์ฌ ์ธ์ด์ ๋ค์์ฑ์ ํ๋ณดํฉ๋๋ค.
๊ตฌํ์ฒด ์ธ์ ํ์ง ์ ์ (Embodiment-Aware Grasp Adaptation): ๋ก๋ด ํ์ ์์ ๋(DoF)์ ์ด๋ํ์ ๊ตฌ์กฐ(kinematic structures)์ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ ๊ฐ์ฒด์ ์ฌ๋ฌ ํ์ง ์ถ(grasp axes)๊ณผ ์ ๊ทผ ๋ฐฉํฅ(approach directions)์ ํฌ๊ดํ๋ ํ๋ถํ ํ๋ณด ์กฐ์ ํฌ์ฆ(candidate manipulation poses) ์ธํธ๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํฉ๋๋ค. Curobo์ ๊ฐ์ ๊ณ ์ฑ๋ฅ, GPU ๊ฐ์ ๋ชจ์ ํ๋๋(motion planner)๋ฅผ ํตํฉํ์ฌ ๋ค์ํ ์ด๋ํ์ ์ ์ฝ ์กฐ๊ฑด(kinematic constraints) ํ์์๋ ํจ์จ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ ๊ณํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. Franka, Piper, UR5, ARX-X5, Aloha-AgileX์ ๊ฐ์ ๋ค์ฏ ๊ฐ์ง ๋ก๋ด ๊ตฌํ์ฒด(robot embodiments)๋ฅผ ์ง์ํฉ๋๋ค.
RoboTwin 2.0์ ๋ค์๊ณผ ๊ฐ์ ์๋ก์ด ๋ฆฌ์์ค๋ฅผ ์ ๊ณตํฉ๋๋ค:
- RoboTwin-OD ๊ฐ์ฒด ๋ผ์ด๋ธ๋ฌ๋ฆฌ: 147๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ฑธ์ณ 731๊ฐ์ ๊ฐ์ฒด ์ธ์คํด์ค๋ฅผ ํฌํจํ๋ฉฐ, ๊ฐ ๊ฐ์ฒด๋ ์๋ฏธ๋ก ์ (semantic) ๋ฐ ์กฐ์ ๊ด๋ จ(manipulation-relevant) ๋ ์ด๋ธ, ๋ค์ํ ์ธ์ด ์ค๋ช , ํคํฌ์ธํธ-์ถ ์ ๋ณด(placement points, functional points, grasp points, grasp axes)๋ก ์ฃผ์ ์ฒ๋ฆฌ๋์ด ์์ต๋๋ค.
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์ : 50๊ฐ์ ์ด์ค ๋ก๋ด ์กฐ์ ์์ ์ 5๊ฐ์ ๋ก๋ด ๊ตฌํ์ฒด์ ๊ฑธ์ณ 100,000๊ฐ ์ด์์ ์ ๋ฌธ๊ฐ ๊ถค์ (expert trajectories)์ ํฌํจํฉ๋๋ค.
- ๋ฒค์น๋งํฌ: ํผ๋์ค๋ฌ์ด ํ๊ฒฝ(cluttered environments)๊ณผ ๊ฐ๋ฐฉํ ์ธ์ด ๋ชฉํ(open-ended language goals)์ ๋ํ ์ ์ฑ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ RoboTwin 2.0์ ํจ๊ณผ๋ฅผ ์ ์ฆํฉ๋๋ค:
- ์๋ํ๋ ์ ๋ฌธ๊ฐ ์ฝ๋ ์์ฑ: MLLM๊ณผ ์๋ฎฌ๋ ์ด์ -์ธ-๋-๋ฃจํ ํผ๋๋ฐฑ์ ํตํฉํ ํ์ดํ๋ผ์ธ์ RoboTwin 1.0 ๋๋น ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ (ASR)์์ 10.9% ํฅ์๋ 71.3%๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ํนํ ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ์ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๊ณ ์ ํํ ์์ ์ ์ ๋ํ์ฌ ์ ๋ขฐ์ฑ์ ๋์ ๋๋ค.
- ์ ์ํ ํ์ง(Adaptive Grasping) ํจ์จ์ฑ: ๊ตฌํ์ฒด ์ธ์ ํ์ง ์ฆ๊ฐ ์ ๋ต์ ํนํ Aloha-AgileX, Piper, ARX-X5์ ๊ฐ์ ๋ฎ์ ์์ ๋ ๋ก๋ด ํ๋ซํผ์์ ํ๊ท 8.3%์ ์์ ์ฑ๊ณต๋ฅ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค.
- ์ ์ฑ ๊ฐ๊ฑดํจ์ ๋ํ ์ํฅ: RoboTwin 2.0์ ๋๋ฉ์ธ ๋ฌด์์ํ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์๊ฐ์ ๋ฐ ๊ณต๊ฐ์ ๋ณํ์ ๋ํ ๊ฐ๊ฑดํจ์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค. 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ 1,000๊ฐ์ ํฉ์ฑ ๊ถค์ ์ ํผํฉํ์ฌ ํ์ต๋ visionโlanguageโaction (VLA) ๋ชจ๋ธ์ 10๊ฐ ๋ฐ๋ชจ ๊ธฐ๋ฐ(baseline) ๋ชจ๋ธ ๋๋น 367%์ ์๋์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ค์ ๋ฐ์ดํฐ ์์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ ์ ๋ก์ท(zero-shot) ๋ชจ๋ธ๋ 228%์ ์๋์ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
- Sim-to-Real ์ฑ๋ฅ: ์ค์ ํ๊ฒฝ ์คํ์์ RoboTwin 2.0์ ๋๋ฉ์ธ ๋ฌด์์ํ ํฉ์ฑ ๊ถค์ ์ผ๋ก ๋ณด๊ฐ๋ ์ด์ค ๋ก๋ด ์ ์ฑ ์ ๊ฐ๊ฑดํจ์์ ๋ช ํํ ์ด๋์ ๋ณด์์ต๋๋ค. 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ 1,000๊ฐ์ ํฉ์ฑ ๊ถค์ ์ ๊ฒฐํฉํ few-shot ์ค์ ์์ ํ๊ท ์ฑ๊ณต๋ฅ ์ 24.4% ํฅ์๋์์ผ๋ฉฐ, ์ ๋ก์ท ์ค์ ์์๋ 20% ์ด์์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ๊ฐ์ ์ ์๊ฐ์ ์ผ๋ก ๋ณต์กํ ์ฅ๋ฉด์์ ๋์ฑ ๋๋๋ฌ์ ธ, RoboTwin 2.0์ด ์ด๋ ค์ด ์กฐ๊ฑด์์ ํนํ ํจ๊ณผ์ ์์ ๋ํ๋ ๋๋ค.
- RoboTwin 2.0 ๋ฒค์น๋งํฌ: 50๊ฐ ๋ฒค์น๋งํฌ ์์ ์์ VLA ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ(RDT, Pi0)์ Hard ์กฐ๊ฑด(๋๋ฉ์ธ ๋ฌด์์ํ๋ ํ๊ฒฝ)์์ ๋ ๊ฐ๋ ฅํ ํ๋ณตํ๋ ฅ์ฑ์ ๋ณด์์ง๋ง, Easy ์กฐ๊ฑด(๊นจ๋ํ ํ๊ฒฝ) ๋๋น ์ฑ๊ณต๋ฅ ์ด ๊ฐ๊ฐ 20.8%, 30.1% ํ๋ฝํ์ฌ ๋๋ฉ์ธ ์ด๋(domain shifts) ํ์์์ ๊ฐ๊ฑดํจ์ด ์ฌ์ ํ ์ค์ํ ๋์ ๊ณผ์ ์์ ๊ฐ์กฐํ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, RoboTwin 2.0์ ๋ค์ํ๊ณ ๊ณ ํ์ง์ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ ๊ฐ๊ฑดํ ์ด์ค ๋ก๋ด ์กฐ์์ ์ง์ํฉ๋๋ค. ์ด ์์คํ ์ MLLM ๊ธฐ๋ฐ ์์ ์์ฑ, ๊ตฌํ์ฒด ์ ์ํ ํ๋ ํฉ์ฑ ๋ฐ ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ํตํฉํ์ฌ ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ๊ธฐ์ ์ฃผ์ ํ๊ณ๋ฅผ ํด๊ฒฐํฉ๋๋ค.