๐RoboTwin 2.0 ๋ฆฌ๋ทฐ
- ๐ค RoboTwin 2.0์ ์ด์ค ํ ๋ก๋ด ์กฐ์์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์ ํ๋ ์์ํฌ๋ก, MLLM(Multimodal Large Language Model) ๊ธฐ๋ฐ์ ์๋ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ ๊ธฐ๋ฅ์ ํตํฉํ์ฌ ์ค์ ํ๊ฒฝ์ ๋ณต์ก์ฑ์ ๋ฐ์ํฉ๋๋ค.
- ๐ก ์ด ํ๋ ์์ํฌ๋ 731๊ฐ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ RoboTwin-OD ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ 50๊ฐ์ง ์ด์ค ํ ์์ ์ ๊ฑธ์น 10๋ง ๊ฐ ์ด์์ ์ ๋ฌธ๊ฐ ๊ถค์ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ๋ด ํผ๋๋ฐฑ์ ํตํด ํ์คํฌ ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ ์ 10.9% ํฅ์์ํค๊ณ ๋ค์ํ ๋ก๋ด ๊ธฐ๊ตฌํ์ ์ ์ํฉ๋๋ค.
- ๐ RoboTwin 2.0 ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ ๋๋ฉ์ธ ๋ฌด์์ํ๊ฐ ์๋ ๋ฐ์ดํฐ์ ๋นํด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ ์ฑ ๊ฒฌ๊ณ ์ฑ์ด ์ต๋ 31.9% ํฅ์๋์์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์์ 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ ํจ๊ป ์ฌ์ฉ๋ ๋ ํ๊ท ์ฑ๊ณต๋ฅ ์ด 24.4% ์์นํ์ฌ Sim-to-Real ์ ์ด ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค.

Brief Review
RoboTwin 2.0์ ์ด์ค ๋ก๋ด ์กฐ์(bimanual robotic manipulation)์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ์ด์ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ๊ฐ๋ ฅํ ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๋ฅผ ํตํด ๋ก๋ด ์ ์ฑ (robot policy)์ ๊ฐ๊ฑดํจ(robustness)๊ณผ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๊ธฐ์กด์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ด ์๋ก์ด ์์ ์ ์ํ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์ฑ ๋ฐฉ๋ฒ๊ณผ ํ์ค ์ธ๊ณ์ ๋ณต์ก์ฑ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ ์ง๋์น๊ฒ ๋จ์ํ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ด๋ผ๋ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ ํด๊ฒฐํฉ๋๋ค.
RoboTwin 2.0์ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค:
์๋ํ๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ (Automated Expert Data Generation Pipeline): ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)๊ณผ ์๋ฎฌ๋ ์ด์ -์ธ-๋-๋ฃจํ(simulation-in-the-loop) ํผ๋๋ฐฑ์ ํ์ฉํ์ฌ ์์ ์คํ ์ฝ๋๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฒ์ฆํ๊ณ ๊ฐ์ ํฉ๋๋ค. MLLM์ ์์ฐ์ด ์ง์(natural language instructions)๋ก๋ถํฐ ์คํ ๊ฐ๋ฅํ ์์ ๊ณํ(executable task plans)์ ํฉ์ฑํ๊ณ , vision-language model (VLM) observer๋ ์๋ฎฌ๋ ์ด์ ์์ ์คํ์ ๋ชจ๋ํฐ๋งํ๊ณ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๋ฉฐ ์์ ์ ์ ์ํฉ๋๋ค. ์ด ํ์ ๋ฃจํ ์ํคํ ์ฒ๋ ์ฝ๋ ์์ฑ ์์ด์ ํธ๊ฐ ํ๋ก๊ทธ๋จ์ ์๋์ผ๋ก ๊ฐ์ ํ์ฌ ์ต์ํ์ ์ฌ๋ ๊ฐ๋ ์ผ๋ก ๊ฐ๊ฑดํ๊ณ ์์ฒด ๊ฐ์ ๋๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋๋ก ํฉ๋๋ค.
ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ (Comprehensive Domain Randomization): ์ ์ฑ ์ Sim-to-Real ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ฏ ๊ฐ์ง ์ถ(์ธ์ด ์ง์(language instructions), ์ฅ๋ฉด ํผ๋(scene clutter), ๋ฐฐ๊ฒฝ ํ ์ค์ฒ(background textures), ์กฐ๋ช ์กฐ๊ฑด(lighting conditions), ํ์ ๋์ด(tabletop configurations))์ ๊ฑธ์ณ ์ ์ฉ๋ฉ๋๋ค. ์ฅ๋ฉด ํผ๋์ ์ํด RoboTwin-OD์์ ๊ฐ์ ธ์จ 731๊ฐ์ ๋ฐฉํด ๊ฐ์ฒด(distractor objects)๋ฅผ ์ถ๊ฐํ๋ฉฐ, ์ถฉ๋ ๊ฐ์ง ๋ฐฐ์น(collision-aware placement)๋ฅผ ํตํด ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ๋ณด์ฅํฉ๋๋ค. ๋ฐฐ๊ฒฝ ๋ฐ ํ์ ํ๋ฉด์ ์ํด LLM ํ๋กฌํํธ์ Stable Diffusion v2๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑํ๊ณ ์ฌ๋์ ํํฐ๋ง์ ๊ฑฐ์น 11,000๊ฐ์ ๊ณ ํ์ง ํ ์ค์ฒ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์กฐ๋ช ์ ์์จ๋, ๊ด์ ์ ํ, ๊ฐ๋ ๋ฐ ์์น๊ฐ ๋ฌด์์ํ๋ฉ๋๋ค. ํ์ ๋์ด๋ ๊ฐ๋ฅํ ๋ฒ์ ๋ด์์ ๊ท ์ผํ๊ฒ ๋ฌด์์ํ๋ฉ๋๋ค. ์ธ์ด ์ง์์ ๊ฒฝ์ฐ MLLM์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ ํ ํ๋ฆฟ๊ณผ ๊ฐ์ฒด ์ค๋ช ์ ์์ฑํ์ฌ ์ธ์ด์ ๋ค์์ฑ์ ํ๋ณดํฉ๋๋ค.
๊ตฌํ์ฒด ์ธ์ ํ์ง ์ ์ (Embodiment-Aware Grasp Adaptation): ๋ก๋ด ํ์ ์์ ๋(DoF)์ ์ด๋ํ์ ๊ตฌ์กฐ(kinematic structures)์ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฐ ๊ฐ์ฒด์ ์ฌ๋ฌ ํ์ง ์ถ(grasp axes)๊ณผ ์ ๊ทผ ๋ฐฉํฅ(approach directions)์ ํฌ๊ดํ๋ ํ๋ถํ ํ๋ณด ์กฐ์ ํฌ์ฆ(candidate manipulation poses) ์ธํธ๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํฉ๋๋ค. Curobo์ ๊ฐ์ ๊ณ ์ฑ๋ฅ, GPU ๊ฐ์ ๋ชจ์ ํ๋๋(motion planner)๋ฅผ ํตํฉํ์ฌ ๋ค์ํ ์ด๋ํ์ ์ ์ฝ ์กฐ๊ฑด(kinematic constraints) ํ์์๋ ํจ์จ์ ์ด๊ณ ์ ๋ขฐํ ์ ์๋ ๊ณํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. Franka, Piper, UR5, ARX-X5, Aloha-AgileX์ ๊ฐ์ ๋ค์ฏ ๊ฐ์ง ๋ก๋ด ๊ตฌํ์ฒด(robot embodiments)๋ฅผ ์ง์ํฉ๋๋ค.
RoboTwin 2.0์ ๋ค์๊ณผ ๊ฐ์ ์๋ก์ด ๋ฆฌ์์ค๋ฅผ ์ ๊ณตํฉ๋๋ค:
- RoboTwin-OD ๊ฐ์ฒด ๋ผ์ด๋ธ๋ฌ๋ฆฌ: 147๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ฑธ์ณ 731๊ฐ์ ๊ฐ์ฒด ์ธ์คํด์ค๋ฅผ ํฌํจํ๋ฉฐ, ๊ฐ ๊ฐ์ฒด๋ ์๋ฏธ๋ก ์ (semantic) ๋ฐ ์กฐ์ ๊ด๋ จ(manipulation-relevant) ๋ ์ด๋ธ, ๋ค์ํ ์ธ์ด ์ค๋ช , ํคํฌ์ธํธ-์ถ ์ ๋ณด(placement points, functional points, grasp points, grasp axes)๋ก ์ฃผ์ ์ฒ๋ฆฌ๋์ด ์์ต๋๋ค.
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์ : 50๊ฐ์ ์ด์ค ๋ก๋ด ์กฐ์ ์์ ์ 5๊ฐ์ ๋ก๋ด ๊ตฌํ์ฒด์ ๊ฑธ์ณ 100,000๊ฐ ์ด์์ ์ ๋ฌธ๊ฐ ๊ถค์ (expert trajectories)์ ํฌํจํฉ๋๋ค.
- ๋ฒค์น๋งํฌ: ํผ๋์ค๋ฌ์ด ํ๊ฒฝ(cluttered environments)๊ณผ ๊ฐ๋ฐฉํ ์ธ์ด ๋ชฉํ(open-ended language goals)์ ๋ํ ์ ์ฑ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ RoboTwin 2.0์ ํจ๊ณผ๋ฅผ ์ ์ฆํฉ๋๋ค:
- ์๋ํ๋ ์ ๋ฌธ๊ฐ ์ฝ๋ ์์ฑ: MLLM๊ณผ ์๋ฎฌ๋ ์ด์ -์ธ-๋-๋ฃจํ ํผ๋๋ฐฑ์ ํตํฉํ ํ์ดํ๋ผ์ธ์ RoboTwin 1.0 ๋๋น ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ (ASR)์์ 10.9% ํฅ์๋ 71.3%๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ํนํ ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ์ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๊ณ ์ ํํ ์์ ์ ์ ๋ํ์ฌ ์ ๋ขฐ์ฑ์ ๋์ ๋๋ค.
- ์ ์ํ ํ์ง(Adaptive Grasping) ํจ์จ์ฑ: ๊ตฌํ์ฒด ์ธ์ ํ์ง ์ฆ๊ฐ ์ ๋ต์ ํนํ Aloha-AgileX, Piper, ARX-X5์ ๊ฐ์ ๋ฎ์ ์์ ๋ ๋ก๋ด ํ๋ซํผ์์ ํ๊ท 8.3%์ ์์ ์ฑ๊ณต๋ฅ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค.
- ์ ์ฑ ๊ฐ๊ฑดํจ์ ๋ํ ์ํฅ: RoboTwin 2.0์ ๋๋ฉ์ธ ๋ฌด์์ํ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์๊ฐ์ ๋ฐ ๊ณต๊ฐ์ ๋ณํ์ ๋ํ ๊ฐ๊ฑดํจ์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค. 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ 1,000๊ฐ์ ํฉ์ฑ ๊ถค์ ์ ํผํฉํ์ฌ ํ์ต๋ visionโlanguageโaction (VLA) ๋ชจ๋ธ์ 10๊ฐ ๋ฐ๋ชจ ๊ธฐ๋ฐ(baseline) ๋ชจ๋ธ ๋๋น 367%์ ์๋์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ค์ ๋ฐ์ดํฐ ์์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋ ์ ๋ก์ท(zero-shot) ๋ชจ๋ธ๋ 228%์ ์๋์ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
- Sim-to-Real ์ฑ๋ฅ: ์ค์ ํ๊ฒฝ ์คํ์์ RoboTwin 2.0์ ๋๋ฉ์ธ ๋ฌด์์ํ ํฉ์ฑ ๊ถค์ ์ผ๋ก ๋ณด๊ฐ๋ ์ด์ค ๋ก๋ด ์ ์ฑ ์ ๊ฐ๊ฑดํจ์์ ๋ช ํํ ์ด๋์ ๋ณด์์ต๋๋ค. 10๊ฐ์ ์ค์ ๋ฐ๋ชจ์ 1,000๊ฐ์ ํฉ์ฑ ๊ถค์ ์ ๊ฒฐํฉํ few-shot ์ค์ ์์ ํ๊ท ์ฑ๊ณต๋ฅ ์ 24.4% ํฅ์๋์์ผ๋ฉฐ, ์ ๋ก์ท ์ค์ ์์๋ 20% ์ด์์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ๊ฐ์ ์ ์๊ฐ์ ์ผ๋ก ๋ณต์กํ ์ฅ๋ฉด์์ ๋์ฑ ๋๋๋ฌ์ ธ, RoboTwin 2.0์ด ์ด๋ ค์ด ์กฐ๊ฑด์์ ํนํ ํจ๊ณผ์ ์์ ๋ํ๋ ๋๋ค.
- RoboTwin 2.0 ๋ฒค์น๋งํฌ: 50๊ฐ ๋ฒค์น๋งํฌ ์์ ์์ VLA ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ(RDT, Pi0)์ Hard ์กฐ๊ฑด(๋๋ฉ์ธ ๋ฌด์์ํ๋ ํ๊ฒฝ)์์ ๋ ๊ฐ๋ ฅํ ํ๋ณตํ๋ ฅ์ฑ์ ๋ณด์์ง๋ง, Easy ์กฐ๊ฑด(๊นจ๋ํ ํ๊ฒฝ) ๋๋น ์ฑ๊ณต๋ฅ ์ด ๊ฐ๊ฐ 20.8%, 30.1% ํ๋ฝํ์ฌ ๋๋ฉ์ธ ์ด๋(domain shifts) ํ์์์ ๊ฐ๊ฑดํจ์ด ์ฌ์ ํ ์ค์ํ ๋์ ๊ณผ์ ์์ ๊ฐ์กฐํ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, RoboTwin 2.0์ ๋ค์ํ๊ณ ๊ณ ํ์ง์ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ ๊ฐ๊ฑดํ ์ด์ค ๋ก๋ด ์กฐ์์ ์ง์ํฉ๋๋ค. ์ด ์์คํ ์ MLLM ๊ธฐ๋ฐ ์์ ์์ฑ, ๊ตฌํ์ฒด ์ ์ํ ํ๋ ํฉ์ฑ ๋ฐ ํฌ๊ด์ ์ธ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ํตํฉํ์ฌ ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ๊ธฐ์ ์ฃผ์ ํ๊ณ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
Detail Review
๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ ์ ์: ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ฑ์ ์ค์ ๋ก๋ด ํ์ต์ ๊ฐ์ํ๋ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ ๊ณต๊ฐ๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ค์ ์ํ ๋ก๋ด ์กฐ์(bimanual manipulation)์ ๊ฒฌ๊ณ ํ ํ์ต์ ์ง์ํ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ต๋๋ค. ํนํ, (1) ์๋ก์ด ์์ (task)์ ๋๊ท๋ชจ๋ก ์์ฑํ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ๋ถ์ฌ์ (2) ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๊ณผ๋ํ ๋จ์ํ๋ก ์ธํด ํ์ค ์ธ๊ณ์ ๋ณต์ก์ฑ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์ง์ ๋์ด ์์ต๋๋ค. ์ด๋ฐ ๋ฌธ์ ์ํฉ์์ RoboTwin 2.0์ โ๊ฐ๊ฑดํ ์ํ ๋ก๋ด ์กฐ์โ์ ์ํ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ๋ก ์ ์๋์์ต๋๋ค.
์์คํ ๊ฐ์: RoboTwin 2.0์ ํต์ฌ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋๊ท๋ชจ ๊ฐ์ฒด ๋ผ์ด๋ธ๋ฌ๋ฆฌ (RoboTwin-OD): 147๊ฐ ๋ฒ์ฃผ์ 731๊ฐ ๊ฐ์ฒด์ ๋ํ 3D ๋ชจ๋ธ์ ๊ตฌ์ถํ์์ผ๋ฉฐ, ๊ฐ ๊ฐ์ฒด๋ง๋ค ์๋งจํฑ ์ ๋ณด์ ์กฐ์ ๊ด๋ จ ์ด๋ ธํ ์ด์ (์ก๊ธฐ ์ฌ์ด ๋ถ์ ๋ฑ)์ด ํฌํจ๋ฉ๋๋ค. ์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์์ฒด ์ค์บ(534๊ฐ ๊ฐ์ฒด)๋ฟ ์๋๋ผ Objaverse(27๊ฐ ๋ฒ์ฃผ 153๊ฐ ๊ฐ์ฒด)์ SAPIEN PartNet-Mobility(9๊ฐ ๋ฒ์ฃผ 44๊ฐ ๊ด ์ ๊ฐ์ฒด)์์ ์์งํ ๋ค์ํ ๊ฐ์ฒด๋ค์ ์์ฐ๋ฆ ๋๋ค. ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์ ํ์ฑ์ ์ํด ๋ชจ๋ ๊ฐ์ฒด ๋ฉ์์ convex decomposition์ ์ ์ฉํด ์ถฉ๋ ๋ชจ๋ธ์ ์ต์ ํํ์์ต๋๋ค.
- ์๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: ๋ฉํฐ๋ชจ๋ฌ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ํ์ฉํ์ฌ ์์ฐ์ด ์์ ์ค๋ช ์ผ๋ก๋ถํฐ ์คํ ์ฝ๋๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ๋ชจ๋์ด ๋์ ๋์์ต๋๋ค. ์ด ์ฝ๋ ์์ฑ ์์ด์ ํธ๋ ๋ฏธ๋ฆฌ ์ ์๋ ์คํฌ API์ ์์ ํจ์ ํธ์ถ๋ค, ๊ทธ๋ฆฌ๊ณ ์์ ์ ์ฝ์กฐ๊ฑด ๋ฑ์ ์ฐธ๊ณ ํด ํ์ด์ฌ ํ์์ ๋ก๋ด ๋์ ์ฝ๋๋ฅผ ๋ง๋ญ๋๋ค. ์์ฑ๋ ์ฝ๋์ ๋ํด์๋ ์๋ฎฌ๋ ์ดํฐ ๋ด์์ ๋ฐ๋ณต์ ์คํ ๋ฐ ๊ฒ์ฆ ๋ฃจํ๋ฅผ ๋๋ฆฝ๋๋ค. ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ ๊ด์ฐฐ ์์ด์ ํธ๊ฐ ์คํ ๊ณผ์ ์ ๋ชจ๋ํฐ๋งํ์ฌ ์คํจ ์ง์ ์ ์ฐพ์๋ด๊ณ , ์ฝ๋ ์์ด์ ํธ๊ฐ ์ด๋ฅผ ์์ ํ๋๋ก ํ์ ๋ฃจํ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ์๋ฎฌ๋ ์ด์ -์ธ-๋-๋ฃจํ ์๋ ๊ฒ์ฆ ์ ์ฐจ๋ฅผ ํตํด ์ธ๊ฐ ๊ฐ์ ์์ด๋ ์ ๋ฌธ๊ฐ ์์ค์ ์๋๋ฆฌ์ค ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
- ๋๋ฉ์ธ ๋๋คํ (Domain Randomization): ํฉ์ฑ ๋ฐ์ดํฐ์ ํ์ค ๋์ ์ฑ๋ฅ(sim-to-real)์ ๋์ด๊ธฐ ์ํด 5๊ฐ์ง ์ถ์์ ํ๊ฒฝ์ ๋ฌด์์๋ก ๋ค์ํํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก (a) ์์ ์ ๋ฌด๊ดํ ๋ฐฉํด ๋ฌผ์ฒด๋ค(์ก๋์ฌ๋)์ ๋ฌด์์ ๋ฐฐ์นํ์ฌ ์ด์์ ํ ํ๊ฒฝ(clutter)์ ์กฐ์ฑํ๊ณ , (b) ๋ฐฐ๊ฒฝ ๋ฐ ์ง๋ฉด ํ ์ค์ฒ๋ฅผ ํ๋ถํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ๋ฌด์์ ์ ์ฉํ๋ฉฐ, (c) ์กฐ๋ช ์ ์์จ๋ยท๋ฐ๊ธฐยท์์น ๋ฑ์ ๋ฌด์์๋ก ๋ณํ์์ผ ์๊ฐ์ ๋ค์์ฑ์ ๊ทน๋ํํ๊ณ , (d) ์์ ๋ ๋์ด๋ฅผ ํ์ค์ ์ธ ๋ฒ์์์ ์์๋ก ์กฐ์ ํ์ฌ ๋ก๋ด-๊ฐ์ฒด ๊ฐ ๊ณต๊ฐ์ ๊ด๊ณ ๋ณํ๋ฅผ ์ฃผ๊ณ , (e) ์์ฐ์ด ์ง์๋ฌธ ์ญ์ ๋ค์ํ ํํ์ผ๋ก ์๋ ์์ฑํฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐํ๋ ๋๋ฉ์ธ ๋๋คํ๋ ๋ฐ์ดํฐ ๋ถํฌ์ ํญ์ ๋ํ ์ ์ฑ (policy)์ ๊ฒฌ๊ณ ์ฑ์ ๋์ฌ์ค๋๋ค.
- ๊ด๋ฒ์ํ ์์ ๋ฐ ๋ก๋ด ํ๋ซํผ ์ง์: RoboTwin 2.0์ 50๊ฐ์ง ์ํ ํ๋ ์์ ์ ๋ํด ์์ ํ์ดํ๋ผ์ธ์ ์คํํ์๊ณ , ๋ค์ฏ ์ข ๋ฅ์ ์ด๊ธฐ์ข ์ํ ๋ก๋ด ํ๋ซํผ(Aloha-AgileX, ARX-X5, Piper, Franka, UR5)์ ํฌ๊ดํฉ๋๋ค. ๊ฐ ์์ -๋ก๋ด ์กฐํฉ๋ง๋ค ์ ๋ฌธ๊ฐ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ์๋ ์์งํ์๋๋ฐ, ์ด 10๋ง ๊ฐ ์ด์์ ์๋๋ฆฌ์ค๋ฅผ ๋ฏธ๋ฆฌ ์์งํ์ฌ ๊ณต๊ฐํ์ต๋๋ค. ์ด๋ฅผํ ๋ฉด ์์ ๋ณ๋ก 100๊ฐ์ ํด๋ฆฐ(clean) ์๋๋ฆฌ์ค(๋๋ฉ์ธ ๋๋คํ ๋ฏธ์ ์ฉ ์ฑ๊ณต ์ผ์ด์ค)์ 400๊ฐ์ ๋๋คํ ์๋๋ฆฌ์ค๋ฅผ ์์งํด, ํ์ค ๋ณ์ด๋ฅผ ํฌํจํ ๋ค์ํ ์ํฉ์ ๋ง๋ผํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์์ต๋๋ค.
RoboTwin 2.0 ํ๋ ์์ํฌ ๊ฐ์. (์ผ์ชฝ) 731๊ฐ ๊ฐ์ฒด๋ก ๊ตฌ์ฑ๋ RoboTwin-OD ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, LLM์ ํ์ฉํ ์ ๋ฌธ๊ฐ ์ฝ๋ ์์ฑ ๋ชจ๋์ด ์์ฐ์ด ์ ๋ ฅ์ผ๋ก๋ถํฐ ๊ณผ์ ์คํ ํ๋ก๊ทธ๋จ์ ์๋ ํฉ์ฑํ๋ค. (๊ฐ์ด๋ฐ) ๋ค์ฏ ๊ฐ์ง ์ํ ๋ก๋ด ํ๋ซํผ๊ณผ 50๊ฐ์ง ์์ ์๋๋ฆฌ์ค์์ ๋๊ท๋ชจ ์ ๋ฌธ๊ฐ ๊ถค์ ์ด ์์ง๋๋ค. (์ค๋ฅธ์ชฝ) ์ด๋ ๊ฒ ํ๋ จ๋ ์ ์ฑ ์ ๋ค์ํ ํ๊ฒฝ ๋ณํ์๋ ๊ฐ์ธํ๊ฒ ๋์ํจ์ ๋ณด์ฌ์ค๋ค.
์ฃผ์ ๊ฒฐ๊ณผ: RoboTwin 2.0์ผ๋ก ์์ฑํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํ์ตํ ์ ์ฑ ์ ํ์ค ํ๊ฒฝ ๋ณ์ด์ ๋ํ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์์ ๋๋ ทํ ํฅ์์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ ์คํ ์ฝ๋๋ฅผ LLM์ผ๋ก ์๋ ์์ฑํ ๋, ์ ์๋ ์๋ฎฌ๋ ์ด์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ์ ์ฉํ๋ฉด ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ ์ด ๊ธฐ์กด ๋๋น 10.9% ํฅ์๋์๊ณ , ์ด๋ฅผ ํตํด ์ป์ ํฉ์ฑ ๋ฐ์ดํฐ๋ก 10๊ฐ ๋ฏธ๋ง์ ์๋ ํ์ค ์์ฐ๋ง ์ถ๊ฐ ํ์ตํ ๋น์ -์ธ์ด-์ก์ (VLA) ๋ชจ๋ธ์ ๋์ผํ 10๊ฐ ์์ฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ ๋๋น ์ฑ๊ณต๋ฅ ์ด 367% ์๋์ ํฅ์(42.0% vs 9.0%)๋์์ต๋๋ค. ๋์๊ฐ ์ค๋ก์ง ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จํ ์ ๋ก์ท ๋ชจ๋ธ์กฐ์ฐจ๋ 228%์ ์ฑ ๋ฅ ํฅ์์ ๋ณด์ด๋ฉฐ, ๋ณ๋์ ํ์ค ๋ฐ์ดํฐ ์์ด๋ ์๋นํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ค์ RoboTwin 2.0์ด ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก์ ์ ์ด(sim-to-real) ๋ฐ ํ๊ฒฝ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ๊ฐํํจ์ ๋ณด์ฌ์ค๋๋ค. ์ ์๋ค์ ๋ณธ ํ๋ ์์ํฌ์ ๋ฐ์ดํฐ ์์ฑ๊ธฐ, ๋ฒค์น๋งํฌ, ๋ฐ์ดํฐ์ , ์ฝ๋ ์ ๋ฐ์ ๊ณต๊ฐํ์ฌ, ์ํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ํ์ฅ์ฑ ์๋ ์ฐ๊ตฌ๋ฅผ ์ง์ํ๊ณ ์์ต๋๋ค.
๊ธฐ์ ์ ๊ธฐ์ฌ ๋ถ์
RoboTwin 2.0์ด ์ ์ํ๋ ํต์ฌ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค :
- ์๋ํ๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ: ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๋ค์ ํ์ง ๊ด๋ฆฌ์ ๋ถ์ฌ๋ก ์ธํด ์คํจํ๊ฑฐ๋ ๋นํ์ค์ ์ธ ๊ถค์ ์ด ๋ง์ด ํฌํจ๋๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. RoboTwin 2.0์ ๋ฉํฐ๋ชจ๋ฌ LLM ๊ธฐ๋ฐ์ ์ฝ๋ ์์ฑ ์์ด์ ํธ์ ์๋ฎฌ๋ ์ด์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ๊ฒฐํฉํ์ฌ, ์ ๋ฌธ๊ฐ ๊ฒ์ ์์ค์ ๊ถค์ ์ ์๋ ์์ฑํ๋ ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. VLM์ด ์คํ ๊ณผ์ ์ ๋ฉด๋ฐํ ๊ด์ฐฐํ๊ณ ์ค๋ฅ๋ฅผ ์ง๋จํ๋ฉด, LLM์ด ์ฝ๋๋ฅผ ์์ ํ๋ ์์ ํผ ๋๋ฐฑ ๊ตฌ์กฐ๋ก ๋์ํ์ฌ, ์ธ์ ๊ฐ์ ์์ด๋ ์๊ฐ ๊ต์ ๋๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฐํ ์ ์์ต๋๋ค. ์ด๋ ์๋๋ฆฌ์ค๋น ๋ค์ค ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ ์ฑ๊ณต ์ฝ๋๋ฅผ ์ป์์ผ๋ก์จ, ํ์ต์ ์ ์ฉํ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ง์ ์ถ์ ํ๋๋ก ํฉ๋๋ค. ์ด๋ฌํ ์ ๋ฌธ๊ฐ ๊ฒ์ฆ ๋ฃจํ๋ ์ ์ฌ ๋ถ์ผ ์ ํ์ฐ๊ตฌ์ ๋๋ฌธ ํ์ ์ผ๋ก, ์ฌ๋์ ์์ฐ ์์ด๋ ์ ๋ฌธ ์์ฐ ์์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฅ์ฑ ์๊ฒ ํ๋ณดํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- ์ฒด๊ณ์ ์ธ ๋๋ฉ์ธ ๋๋คํ ์ ๋ต: ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๊น๋ํ๊ณ ๊ท ์ผํ ํ๊ฒฝ์ ๋จธ๋ฌผ๋ฌ ์์ด, ํ์ค ์ธ๊ณ์ ์ด์์ ํจ์ด๋ ์กฐ๋ช ๋ณํ ๋ฑ์ ๋ฐ์ํ์ง ๋ชปํ์ต๋๋ค. RoboTwin 2.0์ ์ฅ๋ฉด ๋ฌด์์์ฑ(๋ถํ์ํ ๋ฌผ์ฒด ํผ์ )๋ถํฐ ์๊ฐ์ ์์ ๋ค์ํ(ํ ์ค์ฒ, ์กฐ๋ช )์ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ ๋ณํ(ํ์ ๋์ด), ๊ทธ๋ฆฌ๊ณ ์ธ์ด ํํ ๋ค์ํ๊น์ง ๋ค๊ฐ๋๋ก ํ๊ฒฝ์ ๋ณํ์์ผฐ์ต๋๋ค. ํนํ ํด๋ฌํฐ(clutter)๋ฅผ ํตํ ๋ฐฉํด๋ฌผ ์๊ธฐ๋ ํ์ค ์์ ๊ณต๊ฐ์ ๋ณต์ก์ฑ์ ๋ชจ์ฌํ๊ณ , 12,000์ฌ ์ข ์ ํ ์ค์ฒ๋ก ๋ฐฐ๊ฒฝ๊ณผ ํ ์ด๋ธ ํ๋ฉด์ ๋ฌด์์ ์ ์ฉํ ์ ์ ๊ธฐ์กด์ ์๋ ๋๊ท๋ชจ ์๊ฐ ๋ค์์ฑ ํ๋ณด๋ผ ํ ์ ์์ต๋๋ค. ๋ํ ์กฐ๋ช ๋๋คํ๋ ์ฌ๋ฌ ์์จ๋ยท๊ด์์ผ๋ก ๊ฐ์ฒด์ ์๊ฐ์ ์์ฑ์ ํ๋ค์ด๋์ ์กฐ๋ช ๋ณํ์ ๊ฒฌ๋๋ ์ ์ฑ ์ ๋ง๋ค๊ณ ์ ํ์ต๋๋ค. ์ข ํฉ์ ์ผ๋ก ์ด๋ฌํ ๊ตฌ์กฐํ๋ ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ์ ์๋ฎฌ๋ ์ดํฐ-ํ์ค ๊ฐ ๊ฐญ์ ์ขํ๊ณ , ํ์ต๋ ์ ์ฑ ์ด ๋ฏธ์ฆ์ ํ๊ฒฝ์๋ ์ผ๋ฐํ๋๋๋ก ํ๋ ํต์ฌ ๊ธฐ์ฌ์ ๋๋ค.
๋๋ฉ์ธ ๋๋คํ ๊ตฌ์ฑ์ ์๊ฐํ ์์. (์๋จ) ๋์ผํ ์์ ์ ๋ํด ์ฅ๋ฉด ์ก๋์ฌ๋ ๋ฐฐ์น, ๋ฐฐ๊ฒฝ ํ ์ค์ฒ ๋ณํ, ์กฐ๋ช ์์จ๋ ๋ณํ ๋ฑ์ ์ ์ฉํ์ฌ ๋งค ์ํผ์๋๋ง๋ค ๋ค๋ฅธ ๊ด์ธก์ ์ ๊ณตํ๋ค. ์๋ฅผ ๋ค์ด ์กฐ๋ช ์์จ๋๊ฐ ๋ฐ๋์ ๋ฐ๋ผ ๋ฌผ์ฒด ์์กฐ๊ฐ ์จํํ ์กฐ๋ช ๊ณผ ์ฐจ๊ฐ์ด ์กฐ๋ช ์๋ ๋ค๋ฅด๊ฒ ๋ณด์ด๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. (ํ๋จ) ํ ์ค์ฒ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ํ๋ค: ๊ฑฐ์น ๋๋ฌด๋ฌด๋ฌ๋ถํฐ ๋งค๋ํ ๋๋ฆฌ์ ํจํด๊น์ง ๋ค์ํ ์ฌ์ง์ด ์ค๋น๋์ด, ๋ฐฐ๊ฒฝ๊ณผ ํ ์ด๋ธ ํ๋ฉด์ ๋ฌด์์๋ก ์ ์ฉ๋๋ค. ์ด๋ฌํ ์๊ฐยทํ๊ฒฝ์ ๋ค์ํ๋ ์ ์ฑ ๋ชจ๋ธ์ด ํ๋ จ ์ ์ ํ์ง ๋ชปํ ํ๊ฒฝ ์กฐ๊ฑด**์๋ ์ ๋์ํ๊ฒ ๋ง๋ ๋ค.
- ๋ก๋ด ๊ตฌํ์ฒด ํน์ฑ์ ๋ฐ๋ฅธ ์ ์ ๊ธฐ์: ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ ํ๋ซํผ์ ๊ด์ ์์ ๋(DoF)๋ ์ด๋ ๋ฒ์, ์ ํธ ๊ทธ๋ฆฝ ๋ฐฉ์์ด ๋ค๋ฅด์ง๋ง, ๋๋ถ๋ถ์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๋จ์ผ ๋ก๋ด ๊ธฐ์ค์ผ๋ก ๋ง๋ค์ด์ ธ ํ๋ซํผ ์ฐจ์ด๋ฅผ ๊ฐ๊ณผํ์ต๋๋ค. RoboTwin 2.0์ โembodiment-awareโ ์ ์์ ๋์ ํ์ฌ, ๊ฐ์ฒด์ ์ก๊ธฐ ๋ฐฉ์(affordance)์ ๋ค์ ๋ฏธ๋ฆฌ ๊ธฐ๋กํ๊ณ ๊ฐ ๋ก๋ด๋ณ๋ก ๊ฐ๋ฅํ ํ๋ ํ๋ณด๋ฅผ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด Franka(๊ณ DoF ๋ก๋ด)๋ ์๋ถ์์ ์ง๊ธฐ๋ฅผ ์ ํธํ์ง๋ง, Piper(์ DoF ๋ก๋ด)๋ ์ธก๋ฉด์์ ์ง๊ธฐ๋ฅผ ์ฃผ๋ก ์ํํด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ๋์ผํ ์บ ์ก๊ธฐ ์์ ๋ Franka๋ ์์์ ์ฅ์ด ์ฌ๋ฆฌ์ง๋ง, Piper๋ก๋ ์๊ตฌ๋ฆฌ๋ฅผ ๋ผ์๋๋ ์์ ์ ๊ทผ์ด ํ์ํฉ๋๋ค. RoboTwin 2.0์์๋ ๊ฐ ๊ฐ์ฒด๋ง๋ค ๋ค์ํ ๋ฐฉํฅ์ grasp ํ๋ณด๋ฅผ ์ ์ฅํด ๋๊ณ , ๋ก๋ด๋ณ ๊ฐ๋ ๋ฒ์์ ๋ง์ถฐ ์ ์ ํ ์ก๊ธฐ ๋์์ ์ ํํ๋๋ก ํ์์ต๋๋ค. ์ด๋ก์จ ๋ฐ์ดํฐ์ ์์ฒด๊ฐ ํ๋ซํผ ํนํ ๋์์ ๋ค์์ฑ์ ์ง๋๊ฒ ๋์ด, ํ์ต๋ ์ ์ฑ ์ด ์ฌ๋ฌ ๋ก๋ด์ ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๊ฒ ํฉ๋๋ค. ์ฆ, ๋์ผํ ์์ ์ด๋ผ๋ ๋ก๋ด๋ณ ์ต์ ์ํ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ์ ๋ฐ์ํ ๊ฒ์ด ๋ณธ ์ฐ๊ตฌ์ ์ฐจ๋ณ์ ๊ธฐ์ฌ์ ๋๋ค.
RoboTwin 2.0์ด ์ง์ํ๋ 5๊ฐ์ง ๋ก๋ด ํ๋ซํผ ์์. ์๋ก ๋ค๋ฅธ ์ ์กฐ์ฌ์ ํํ์ ํน์ฑ์ ์ง๋ ์ํ ๋ก๋ด๋ค(AlohaAgileX, ARX-X5, Piper, Franka, UR5)์ด ํฌํจ๋์ด ์๋ค. Piper(์ผ์ชฝ์์ ๋ ๋ฒ์งธ)๋ ๊ด์ ์ด ์ ์ด ์์ง์์ด ์ ํ์ ์ด๋ฉฐ, Franka(๋งจ ์ค๋ฅธ์ชฝ)๋ ์ธ๊ฐ ํ๊ณผ ์ ์ฌํ ๊ณ ์์ ๋ ๋ก๋ด์ด๋ค. RoboTwin 2.0์ ๊ฐ ํ๋ซํผ๋ณ ์์ ์ ์ฝ๊ณผ ์ ํธ ๋์์ ๊ณ ๋ คํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฑํจ์ผ๋ก์จ, ๋ค์ํ ๋ก๋ด์ ๊ฑธ์ณ ์ผ๋ฐํ๋๋ ์ ์ฑ ํ์ต**์ ๊ฐ๋ฅ์ผ ํ๋ค.
- ํตํฉํ ๋ฒค์น๋งํฌ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ ๊ณต๊ฐ: RoboTwin 2.0์ RoboTwin-OD ๊ฐ์ฒด ๋ฐ์ดํฐ์ , 100,000+๊ฐ์ ์ํ ์๋๋ฆฌ์ค ๋ฐ์ดํฐ์ , ์ค์ผ์ผ๋ฌ๋ธ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ, ํ์คํ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ชจ๋ ์ ๊ณตํจ์ผ๋ก์จ ํ๊ณ์ ํฐ ์์์ ์ ๊ณตํฉ๋๋ค. ํนํ 50๊ฐ์ง ์ํ ํ๋ ์์ ์ธํธ์ ํต์ผ๋ ํ๊ฐ ํ๋กํ ์ฝ์, ์์ผ๋ก ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ๋ค์ด ๊ฐ์ ์กฐ๊ฑด์์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฒจ๋ฃจ๋ ๊ณต์ฉ ๋ฒค์น๋งํฌ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค. ๊ธฐ์กด์๋ ์ฐ๊ตฌ๋ง๋ค ์๋ก ๋ค๋ฅธ ์์ ยทํ๊ฒฝ์ ์ฌ์ฉํด ๊ฒฐ๊ณผ ๋น๊ต๊ฐ ์ด๋ ค์ ๋ค๋ฉด, RoboTwin 2.0์ ๋ค์์ฑ๊ณผ ๋ณต์ก์ฑ์ ๊ฐ์ถ ํ๋์ ๊ธฐ์ค ํ๊ฒฝ์ ์ ์ํ์ฌ ์ฐ๊ตฌ ๊ณต๋์ฒด์ ํ๋ ฅ๊ณผ ๋ฐ์ ์ ์ด์งํ๋ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค. ๋ํ ๋ชจ๋ ์ฝ๋๋ฅผ ๊ณต๊ฐํ์ฌ ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์์ ๋ง์ ์๋ก์ด ์์ ์ด๋ ๋ก๋ด์ ์ด ํ๋ ์์ํฌ์ ์ฝ๊ฒ ์ถ๊ฐํ ์ ์๋๋ก ํ ์ ๋ ์ค์ฉ์ ์ธ ๊ณตํ์ ๋๋ค.
์์ฝํ๋ฉด RoboTwin 2.0์ ๊ธฐ์กด ์ํ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ ์์ฑ์ ํ๊ณ์ โํ์ง ๋ถ์กฑ, ๋จ์กฐ๋ก์ด ํ๊ฒฝ, ๋จ์ผ ํ๋ซํผ ํธํฅ์ ์ง์ด๋ด๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์๋ํยท๋ค์ํยท์ ์ํ ๊ธฐ๋ฒ์ ์ ์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ ํฌ๊ณ ํ์ค์ ์ธ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ธ๊ฐ ๋ ธ๋ ์์ด ํ๋ณดํจ๊ณผ ๋์์, ์ฌ๋ฌ ๋ก๋ด๊ณผ ์๋๋ฆฌ์ค์ ๊ฒฌ๋๋ ํ์ต ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์๋ ํ ๋๋ฅผ ๋ง๋ จํ์ต๋๋ค. ํนํ RoboTwin 1.0 (CVPR 2025)์์๋ ํ์ค ์์ฐ๊ณผ ์๋ฎฌ๋ ์ด์ ์์ ๋งบ๋ ๋์งํธ ํธ์ ๊ฐ๋ ์ ๋์ ํ ๋ฐ ์๋๋ฐ, ์ด๋ฒ RoboTwin 2.0์์๋ ๋ํํ LLM ํผ๋๋ฐฑ๊ณผ ์ฒด๊ณ์ ๋๋ฉ์ธ ๋๋คํ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๋ฐ์ดํฐ ๋ค์์ฑ๊ณผ ์ ์ฑ ์ฑ๋ฅ์์ ํ์ ํ ํฅ์์ ์ด๋ฃจ์์ต๋๋ค. ๋ ผ๋ฌธ ์คํ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, RoboTwin 2.0์ ํ์ดํ๋ผ์ธ ์ ์ฉ ์ ์ด๊ธฐ 1ํ์ฑ ์ฝ๋ ์์ฑ ์ฑ๊ณต๋ฅ ์ด 62.1%๋ก RoboTwin 1.0์ 47.4% ๋๋น ํฌ๊ฒ ๋์์ก๊ณ , ๋ฐ๋ณต ํผ๋๋ฐฑ๊น์ง ํฌํจํ๋ฉด 71.3%๊น์ง ํฅ์๋์ด ์ด์ ๋ฒ์ ๋๋น ํ์ธต ํฅ์๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ๋ฅ๋ ฅ์ ๊ฒ์ฆํ์์ต๋๋ค. ์ด๋ฌํ ๊ฐ์ ์ ํ๊ท ํ์ํ ์์ ํ์ ๊ฐ์(RoboTwin 1.0: 2.46ํ โ 2.0: 1.76ํ)์ LLM ํ ํฐ ๋น์ฉ ์ ๊ฐ ๋ฑ ํจ์จ์ฑ ์ธก๋ฉด์์๋ ํ์ธ๋์์ต๋๋ค. ๊ฒฐ๊ตญ RoboTwin 2.0์ ์ ์๊ณผ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ๊ณ , ์ํ ๋ก๋ด ํ์ต์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ ์ํ๋ค๊ณ ํ๊ฐํ ์ ์์ต๋๋ค.
์คํ ์ค๊ณ ๋ถ์
๋ฐ์ดํฐ์ ๊ตฌ์ฑ: RoboTwin 2.0์์ ๊ตฌ์ถํ RoboTwin-OD ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์ ์์ ์ธ๊ธํ ๋๋ก 731๊ฐ์ 3D ๊ฐ์ฒด ์์ฐ์ ํฌํจํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑ์ โ ์์ฒด ์์ฑ ๊ฐ์ฒด: ์ค๋ฌผ ์ด๋ฏธ์ง๋ฅผ Rodin ํ๋ซํผ์ผ๋ก ์ค์บ ํ 3D ๋ชจ๋ธ๋งํ 534๊ฐ ๊ฐ์ฒด (111๊ฐ ๋ฒ์ฃผ), โก Objaverse์์ ์ ๋ณํ 153๊ฐ ๊ฐ์ฒด (27๊ฐ ๋ฒ์ฃผ)๋ก ์๊ฐ์ ๋ค์์ฑ ๋ณด๊ฐ, โข SAPIEN PartNet-Mobility์์ ๊ฐ์ ธ์จ 44๊ฐ ๊ด์ ํ ๊ฐ์ฒด (9๊ฐ ๋ฒ์ฃผ)๋ก ๋์ ์ํธ์์ฉ ๊ฐ์ฒด ํฌํจ ๋ฑ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋ชจ๋ ๊ฐ์ฒด์๋ ๋ฌผ์ฒด ์ด๋ฆ, ๋ฒ์ฃผ, ๋ถํ ๊ตฌ์ฑ, ์ ํธ ์ก๊ธฐ ๋ฐฉํฅ ๋ฑ์ ์ฃผ์์ด ๋ฌ๋ ค ์์ด, ๋ก๋ด์ด ํด๋น ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ์ ์ฉํ ์ ๋ณด๋ก ํ์ฉ๋ฉ๋๋ค. ๋ํ ์ ์๋ค์ ํ๋ฉด/๋ฐฐ๊ฒฝ ํ ์ค์ฒ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ๋ณ๋๋ก ๊ตฌ์ถํ์๋๋ฐ, ์น ํฌ๋กค๋ง์ผ๋ก ๋ชจ์ 1000๊ฐ์ ํ ์ค์ฒ ์ค๋ช ํ๋กฌํํธ๋ฅผ Stable Diffusion์ผ๋ก ์ด๋ฏธ์งํํ๊ณ , ์ฌ๋์ด ์์์ ์ผ๋ก 12,000์ฅ์ ๊ณ ํ์ง ํ ์ค์ฒ๋ฅผ ์ถ๋ ค๋์ต๋๋ค. ์ด๋ ํ์ ํ ๋๋ฉ์ธ ๋๋คํ ์คํ์ ์ฐ์ด๋ ๋ฐฉ๋ํ ์๊ฐ ์์์ ๋๋ค.
๋ฒค์น๋งํฌ ์์ ์๋๋ฆฌ์ค: RoboTwin 2.0์ 50๊ฐ์ง ์ํ ํ๋ ์์ ์ธํธ๋ฅผ ์ ์ํ์ฌ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ํ๊ฐ์ ์ฌ์ฉํ์ต๋๋ค. ์ด ์์ ๋ค์ ๋ ํ์ ์ด์ฉํ ๋ฌผ์ฒด ์กฐ์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ๋์ด๋์ ์ข ๋ฅ ๋ฉด์์ ๋ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด Handover Block(ํ ํ์์ ๋ค๋ฅธ ํ๋ก ๋ธ๋ก ๊ฑด๋ค๊ธฐ), Pick Dual Bottles(์์์ผ๋ก ์๋ก ๋ค๋ฅธ ๋ ๋ณ ์ง๊ธฐ), Stack Blocks Two/Three(๋ ๊ฐ ๋๋ ์ธ ๊ฐ์ ๋ธ๋ก ์๊ธฐ), Place Dual Shoes(์ ๋ฐ ํ ์ผค๋ ๋ฅผ ๋ ์์ผ๋ก ๊ฐ๊ธฐ ์ฎ๊ฒจ ์ ์๋ฆฌ์ ๋๊ธฐ), Open Laptop/Microwave(์์์ผ๋ก ๋ ธํธ๋ถ์ด๋ ์ ์๋ ์ธ์ง ์ด๊ธฐ) ๋ฑ ์ค์ ํ๋ ์์ ์ ๋ฐฉ๋ถ์ผ ํ๋ ์๋๋ฆฌ์ค๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. ๊ฐ ์์ ์๋ ์์ฐ์ด๋ก ๋ ๋ชฉํ ์ค๋ช ๊ณผ ์ฑ๊ณต ์กฐ๊ฑด์ด ๋ช ์๋์ด ์์ผ๋ฉฐ, RoboTwin 2.0์ ์ฝ๋ ์์ฑ ์์ด์ ํธ๋ ์ด ์ค๋ช ์ ๋ฐ์ ํด๋น ์์ ์ ์ํํ๋ ์ฝ๋๋ฅผ ์๋ ์์ฑํฉ๋๋ค. ์์ ์ธํธ๋ ์ผ์ ๊ฐ์ฌ, ๊ณต์ฅ ์กฐ๋ฆฝ, ๋ฌผ์ฒด ์ ๋ฆฌ ๋ฐ ๋ฐฐ์น ๋ฑ ์ฌ๋ฌ ๋๋ฉ์ธ์ ๋ง๋ผํ๋ฉฐ, ๊ฐ ์์ ๋ง๋ค ์ํฉ์ ๋ฐ๋ฅธ ๋ณํ๋ ์กด์ฌํฉ๋๋ค. ์์ปจ๋ โ๋ฌผ์ฒด A๋ฅผ B์ ์ข์ธก์ ๋๊ธฐโ ์์ ์ A์ B์ ์ข ๋ฅ, ํฌ๊ธฐ, ์ด๊ธฐ ์์น์ ๋ฐ๋ผ ๋งค ์ํผ์๋ ๋ค๋ฅธ ์์์ ๋ณด์ผ ์ ์์ต๋๋ค. ์ด๋ฌํ ํฌ๊ด์ ์์ ๊ตฌ์ฑ์ ํ์ต๋ ์ ์ฑ ์ ๊ด๋ฒ์ํ ๊ณผ์ ์ ์๋ ฅ์ ์ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
ํ๊ฐ ์๋๋ฆฌ์ค ๋ฐ ์งํ: ์ ์๋ค์ RoboTwin 2.0์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ธก๋ฉด์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค:
- ์์ ์ค๋ช ํ ์ฝ๋ ์์ฑ ํ์ดํ๋ผ์ธ์ ์๋ํ ์ฑ๋ฅ,
- ๋๋ฉ์ธ ๋๋คํ๋ก ๋ค์ํ๋ ๋ฐ์ดํฐ๋ฅผ ํตํ ์ ์ฑ ๊ฐ๊ฑด์ฑ ํฅ์,
- RoboTwin 2.0์ด ์ ๊ณตํ๋ ๋ฒค์น๋งํฌ์ ์ ์ฉ์ฑ (์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ).
๋จผ์ ์ฝ๋ ์์ฑ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด 10๊ฐ์ ๋ํ ์์ ์ ์ ์ ํ๊ณ , ๊ฐ ์์ ์ ๋ํด LLM ์์ด์ ํธ๊ฐ 10๊ฐ์ ํ๋ณด ํ๋ก๊ทธ๋จ์ ์์ฑํ์ฌ ๊ฐ๊ฐ 10ํ์ฉ ์คํ์์ผฐ์ต๋๋ค. ํ๋์ ์์ ์ ๋ํด ์ด 100ํ ์๋ฎฌ๋ ์ด์ ์ ๋๋ ค ํ๊ท ์ฑ๊ณต๋ฅ (ASR:Average Success Rate)์ ๊ณ์ฐํ๊ณ , ๊ทธ ์ค ์์ 5๊ฐ ํ๋ก๊ทธ๋จ์ ํ๊ท ์ฑ๊ณต๋ฅ (Top-5 ASR)๋ ๋ณ๋๋ก ๊ธฐ๋กํ์ต๋๋ค. ๋ํ ์ฝ๋ ์์ ํ ์ฑ๊ณต๋ฅ (CRSR)๊ณผ ํ๊ท ์์ ํ์(CR-Iter), ๊ทธ๋ฆฌ๊ณ LLM ํ ํฐ ์ฌ์ฉ๋๊น์ง ์ธก์ ํ์ฌ ์๋ํ ๋ฃจํ์ ํจ์จ์ฑ์ ์ ๋ํํ์ต๋๋ค. ์ด๋ฌํ ํ๊ฐ ์งํ๋ ํ๋ฒ์ ์ฑ๊ณต์ ์ธ ํ๋ก๊ทธ๋จ์ ์์ฑํ๋ ๋น์จ, ์ฌ๋ฌ ๋ฒ์ ์๋ ๋ ์ ๊ฒฐ๊ตญ ์ฑ๊ณต์ ์ธ ํ๋ก๊ทธ๋จ์ ์ป๋ ๋น์จ, ์์ ์ ๊ฑธ๋ฆฌ๋ ํ๊ท ๋ฃจํ ํ์ ๋ฑ์ ์ข ํฉ์ ์ผ๋ก ๋ณด์ฌ์ฃผ์ด, ์์คํ ์ ์๋ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ ํผ๋๋ฐฑ ์๋ 1ํ์ฑ ์์ฑ(Vanilla) ๋๋น ์๋ฎฌ๋ ์ดํฐ ๋ก๊ทธ ํผ๋๋ฐฑ ์ ์ฉ(FB) ์ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ํฅ์๋์๊ณ , ์ฌ๊ธฐ์ VLM ์์ ํผ๋๋ฐฑ๊น์ง ๊ฒฐํฉ(MM FB)ํ๋ฉด ์ฑ๊ณต๋ฅ ๊ณผ ํจ์จ ๋ชจ๋ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์์ปจ๋ RoboTwin 2.0 ํ๊ฒฝ์์ ASR์ด ํผ๋๋ฐฑ ์์ด 62.1%์์ผ๋, ์คํ ๋ก๊ทธ ํผ๋๋ฐฑ์ผ๋ก 66.7%, VLM ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ์ผ๋ก 71.3%๊น์ง ์์นํ์ต๋๋ค. Top-5 ASR ์ญ์ ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ ์ ์ฉ ์ 78.6%์ ๋ฌํด, ์ฐ์ํ ํ๋ก๊ทธ๋จ์ผ์๋ก ํผ๋๋ฐฑ์ ํตํด ๋ ์์ ์ ์ผ๋ก ์ฑ๊ณตํจ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์๊ฐ์ ๋ณด์ ๊ธฐ๋ฐํ ์ค๋ฅ ๊ต์ ์ด ๋จ์ ๋ก๊ทธ ํผ๋๋ฐฑ๋ณด๋ค ํจ๊ณผ์ ์์ ์๋ฏธํ๋ฉฐ, RoboTwin 2.0์ ๋ฉํฐ๋ชจ๋ฌ ํ์ ๋ฃจํ ์ค๊ณ์ ํ๋น์ฑ์ ๋ท๋ฐ์นจํฉ๋๋ค.
๋ค์์ผ๋ก ์ ์ฑ ํ์ต ๋ฐ ์ผ๋ฐํ ํ๊ฐ๋ฅผ ์ํด, ์ ์๋ค์ ๋น์ -์ธ์ด-์ก์ (VLA) ๋ชจ๋ธ์ ํ์ฉํ ํ์ต ์คํ์ ์ํํ์ต๋๋ค. ํ๋ จ ๋จ๊ณ์์๋ RoboTwin 2.0์ด ์์ฑํ ํฉ์ฑ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ VLA ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ํค๊ณ , ์ดํ ์ค์ ๋ก๋ด 10ํ ๋ฐ๋ชจ๋ง ์ถ๊ฐ ์ ๊ณตํ์ฌ ๋ฏธ์ธ์กฐ์ (finetune)ํ์ต๋๋ค. ์ด๋ ๊ฒ ์ป์ ์ ์ฑ ์ ํ์ค์ ์๋ก์ด ์ฅ๋ฉด์์ ํ ์คํธํ ๊ฒฐ๊ณผ, 10ํ ๋ฐ๋ชจ๋ง์ผ๋ก ํ์ตํ ์ ์ฑ (๊ฑฐ์ ๋ฐ์ดํฐ ์์) ๋๋น 367% ๋์ ์ฑ๊ณต๋ฅ (42.0% vs 9.0%)์ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๋ฏธ๋ฆฌ ํ์ตํ ๋๋ถ์ ์ ์ ํ์ค ๋ฐ์ดํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ ๋ปํฉ๋๋ค. ๋ ๋์๊ฐ ํ ์ค ๋ฐ์ดํฐ ์ ํ ์์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ ๋ชจ๋ธ๋ 9.0%์์ 20.5%๋ก (228% ํฅ์) ์ฑ๋ฅ์ด ์ฆ๊ฐํ์ฌ, ์ ๋ก์ท ์์ค์์๋ ํ์ค ๊ณผ์ ๋ก์ ์ผ๋ฐํ๊ฐ ํฌ๊ฒ ๊ฐ์ ๋์์ต๋๋ค. ์ด๋ ํ๊ฐ ์งํ๋ก ์ฌ์ฉ๋ ๊ฒ์ ํ์ค ํ๊ฒฝ์ ์๋ก์ด ์์ ์ ๋ํ ์ฑ๊ณต๋ฅ ๋ก, RoboTwin 2.0์ ํ์ต ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ํ์ค ๋๋ฉ์ธ์ ์ ํฉํ์ง๋ฅผ ๋ํ๋ ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋๋ฉ์ธ ๋๋คํ๋ฅผ ์ ์ฉํ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํ์ค ๋๋ฉ์ธ์์์ ์ฑ๋ฅ์ ์ ์๋ฏธํ๊ฒ ๋์ฌ์ค์ ์ค์ฆํ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก RoboTwin 2.0 ๋ฒค์น๋งํฌ์ ์ ์ฉ์ฑ์ ์ฌ๋ฌ ์๋๋ฆฌ์ค์์์ ์ ์ฑ ์ผ๋ฐํ ํ๊ฐ๋ฅผ ํตํด ์ ์ฆ๋์์ต๋๋ค. ์์ปจ๋ ๋ ผ๋ฌธ์์๋ ๋์ผํ ์ ์ฑ ์ ๊ฐ์ง๊ณ ํ์ ์์ ๋ฐฉํด๋ฌผ ์์ vs ์์, ๋ฐ์ ์กฐ๋ช vs ์ด๋์ด ์กฐ๋ช , ๊น๋ํ ๋ฐฐ๊ฒฝ vs ๋ณต์กํ ๋ฐฐ๊ฒฝ ํจํด ๋ฑ์ผ๋ก ๋๋์ด์ง ํ๊ฒฝ์ ํฌ์ ํด๋ณด์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ RoboTwin ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ ํ๋ จ ์ ๋ณด์ง ๋ชปํ ์กฐํฉ์ ํ๊ฒฝ ๋ณํ์๋ ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ๊ณ , ๋๋ฉ์ธ ๋๋คํ๋ฅผ ์ ์ฉํ์ง ์์ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ํ ํ๋ซํผ ๊ต์ฒด ์คํ์์๋, RoboTwin ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ ํ๋ จ์ ์ฌ์ฉํ์ง ์์ ์๋ก์ด ๋ก๋ด (์: UR5๋ก ํ๋ จ ํ Franka ๋ก๋ด์ ํฌ์ )์ผ๋ก๋ ๋น๊ต์ ์ํธํ๊ฒ ๋์ํ์ฌ ๋ก๋ด ๊ตฌํ์ฒด ๊ฐ ์ผ๋ฐ ํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ฐ ํ๊ฐ๋ค์ RoboTwin 2.0์ ๋ฐ์ดํฐ์ ๋ฒค์น๋งํฌ๊ฐ ๋ค์ํ ์ํฉ์์ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ ์ ํํ ์ธก์ ํ ์ ์์์ ์๋ฏธํฉ๋๋ค.
๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ ํ๊ฐ: ํนํ ๋๋ฉ์ธ ๋๋คํ ์์ ๊ฐ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ablation study๋ ์ํ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ํด๋ฌํฐ ์ ๊ฑฐ(๊นจ๋ํ ํ ์ด๋ธ๋ง ์ฌ์ฉ), ๋จ์ผ ์กฐ๋ช ์กฐ๊ฑด ๊ณ ์ , ๋จ์ผ ๋ฐฐ๊ฒฝ ๊ณ ์ , ๋จ์ผ ๋ฌธ์ฅ ํจํด ๊ณ ์ ๋ฑ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ํ์ตํ ์ ์ฑ ๋ค์ ๋น๊ตํ ๊ฒฐ๊ณผ, ๋ชจ๋ ๋๋คํ ์์๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ ๊ฐ์ฅ ๋์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ค์ค ์์ธ์ ํ๊ฒฝ ๋ค์ํ๊ฐ ์๋์ง ํจ๊ณผ๋ฅผ ๋ด๋ฉฐ ์ ์ฑ ์ฑ๋ฅ์ ๋์ธ๋ค๋ ์ ์ ๋ท๋ฐ์นจํฉ๋๋ค. ๋, ์ถฉ๋ ํํผ ๋ฐฐ์น๋ ์๋งจํฑ ์ ์ฌ ๊ฐ์ฒด ํํผ ๋ฑ RoboTwin 2.0์ด ๋์ ํ ์ธ๋ถ ๊ธฐ๋ฒ๋ค์ด ์์ผ๋ฉด, ํด๋ฌํฐ๋ฅผ ์ถ๊ฐํ๋๋ผ๋ ์คํ๋ ค ์ ์ฑ ํผ๋์ด ์ฆ๊ฐํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋๋ฉ์ธ ๋๋คํ๋ ์ฒด๊ณ์ ์ด๊ณ ๋๋ํ๊ฒ ์ ์ฉํด์ผ ํจ๊ณผ๊ฐ ๊ทน๋ํ๋จ์ ๋ณด์ฌ์ฃผ๋ฉฐ, RoboTwin 2.0์ ๊ตฌ์กฐํ๋ ๋๋คํ ์ ๋ต์ ํฉ๋ฆฌ์ฑ์ ๋ท๋ฐ์นจํฉ๋๋ค.
์์ฝํ๋ฉด, RoboTwin 2.0์ ์คํ ์ค๊ณ๋ ๋ฐ์ดํฐ ์์ง๋ถํฐ ํ๊ฐ๊น์ง ์ผ๊ด๋ ๋ ผ๋ฆฌ๋ฅผ ๊ฐ์ง๋๋ค. ๋ฐฉ๋ํ ๊ฐ์ฒดยท์์ ๋ค์์ฑ์ ๊ฐ์ถ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ์ด๋ฅผ ๋ค์ํ ์กฐ๊ฑด์์ ์ํํจ์ผ๋ก์จ โ์ข์ ํฉ์ฑ ๋ฐ์ดํฐ๋ ํ์ค ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฐ๋คโ๋ ๊ฐ์ค์ ๊ฒ์ฆํ์ต๋๋ค. ํ๊ฐ ์งํ๋ ์์ฑ ๋จ๊ณ์ ํ์ต ๋จ๊ณ๋ก ๋๋์ด ์ ์ ํ ์ค์ ๋์์ผ๋ฉฐ, ํนํ ์ฝ๋ ์์ฑ ๋ฃจํ์ ์ ๋์ ๋ถ์์ ์๋ฎฌ๋ ์ด์ -๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ์ ํจ์ฑ์ ์ ๋ท๋ฐ์นจํฉ๋๋ค. ๋๋ฉ์ธ ๋๋คํ์ ๊ฐ๋ณ/์ข ํฉ ํจ๊ณผ ๋ถ์ ์ญ์ ํฅํ ์ฐ๊ตฌ์๋ค์ด ์ด๋ค ์์์ ์ง์คํด์ผ ํ ์ง ์ง์นจ์ ์ ๊ณตํฉ๋๋ค. ์ ๋ฐ์ ์ผ๋ก ์คํ ์ค๊ณ์ ํ๋น์ฑ๊ณผ ์ฒ ์ ํจ ๋๋ถ์, ์ด ๋ ผ๋ฌธ์ ์ํ ๋ก๋ด ํ์ต์์ ํฉ์ฑ ๋ฐ์ดํฐ์ ๊ฐ์น๋ฅผ ์ ๋ขฐ์ฑ ์๊ฒ ์ ์ฆํ๋ค๊ณ ํ๊ฐํ ์ ์์ต๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์
์ํ ๋ก๋ด ์กฐ์๊ณผ ๋๊ท๋ชจ ๋ก๋ด ํ์ต ๋ฐ์ดํฐ์ ๊ดํ ์ ํ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ ๋, RoboTwin 2.0์ ์ฌ๋ฌ ๋ฉด์์ ๋ ์์ ์ธ ๊ฐ์ ์ ์ง๋๋๋ค.
- RoboTurk (Crowdsourcing ํตํ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ ์์ง): Stanford์ RoboTurk ํ๋ก์ ํธ ๋ ๋น์ ๋ฌธ๊ฐ ๋ค์๋ฅผ ํฌ๋ผ์ฐ๋์์ฑํ์ฌ ์๊ฒฉ์ผ๋ก ๋ก๋ด์ ์กฐ์ํ๊ฒ ํจ์ผ๋ก์จ, ๋๊ท๋ชจ ๋ก๋ด ์กฐ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๋ํ์ ์ธ ์๋์
๋๋ค. 2019๋
๋ฐํ๋ โScaling Robot Supervision to Hundreds of Hours with RoboTurkโ ์ฐ๊ตฌ์์๋ 54๋ช
์ ์ผ๋ฐ์ธ์ด ์ค๋งํธํฐ/์น ์ธํฐํ์ด์ค๋ฅผ ํตํด ์๊ฒฉ ์กฐ์์ ์ฐธ์ฌํ์ฌ ์ด 111.25์๊ฐ ๋ถ๋์ ์กฐ์ ์์์ ์์งํ์ต๋๋ค. ํด๋น ๋ฐ์ดํฐ์
์ ์ญ๋ ์ต๋ ๊ท๋ชจ์ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ๋ก ํ๊ฐ๋ฐ์ผ๋ฉฐ, ์ฌ๋์ ์ฐฝ์์ ๋ฌธ์ ํด๊ฒฐ๊ณผ ์ฌ์ธํ ์กฐ์์ด ๋
น์๋ ํ๋ถํ ์์ฐ ๋ชจ์์ด๋ผ๋ ์์๋ฅผ ๊ฐ์ต๋๋ค. RoboTurk์์ ๋ค๋ฃฌ ๋ํ ์์
๋ค์ Object Search(์์ธ ์์์์ ๊ฐ์ ์ข
๋ฅ ๋ฌผ์ฒด 3๊ฐ ์ฐพ์ ๋ถ๋ฅํ๊ธฐ), Tower Creation(๊ทธ๋ฆ/์ปต๋ฑ์ผ๋ก ํ ์๊ธฐ), Laundry Layout(์ท์ด๋ ์ฒ์ ํผ์ณ ๊ฐ์ด๋๊ธฐ) 3๊ฐ์ง๋ก, ๋์ ์์ค์ ์ถ๋ก ๊ณผ ์ ๋ฐ ์กฐ์์ด ๋ชจ๋ ์๊ตฌ๋๋ ๊ณผ์ ๋ก ์ ์ ๋์์ต๋๋ค. ์ด๋ฌํ ๊ณผ์
์ค์ ์ ์ฐฝ์์ฑ๊ณผ ์ธ๊ฐ dexterity ๋ฐ์ดํฐ๋ RoboTwin๊ณผ ๋๋น๋๋ RoboTurk๋ง์ ์ฅ์ ์
๋๋ค.
- ์ฐจ๋ณ์ : RoboTurk์ ์ ๊ทผ๋ฒ์ ์ธ๊ฐ์ด ์ง์ ๋ก๋ด์ ์กฐ์ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ป๋ ๊ฒ์ด๊ณ , RoboTwin์ AI๊ฐ ์๋ฎฌ๋ ์ด์ ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค๋ ๊ทผ๋ณธ์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. RoboTurk๋ ํ์ค ๋ก๋ด(์ฃผ๋ก Sawyer ์ ๋ก๋ด)์ผ๋ก ์์ฐ์ ๋ชจ์๊ธฐ ๋๋ฌธ์ ์ค์ ๋ฌผ๋ฆฌ์ ์ก์์ด ๋ฐ์๋ ๊ฐ์ง ๋ฐ์ดํฐ์ง๋ง, ์์ ์ข ๋ฅ๊ฐ 3๊ฐ์ง๋ก ํ์ ๋์ด ์๊ณ , ์ํ์ด ์๋ ๋จ์ผ ํ ์กฐ์ ์ค์ฌ์ด์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ฐ๋ฉด RoboTwin 2.0์ 50๊ฐ์ง๋ก ์์ ํญ์ด ๋๊ณ ์์ ํ๋์ ํนํ๋์ด ์์ต๋๋ค. ๋ํ ๋ฐ์ดํฐ ์์ง ๋น์ฉ ์ธก๋ฉด์์๋ RoboTwin์ ์ผ๋จ ์์คํ ์ ๊ตฌ์ถํ๋ฉด ์ถ๊ฐ ๋ฐ์ดํฐ ์์ฑ ๋น์ฉ์ด ์ ๋ ดํ์ง๋ง, RoboTurk๋ ์ฌ๋์ ๊ณ์ ์ฐธ์ฌ์์ผ์ผ ํ๋ฏ๋ก ํ์ฅ์ ์ธ์ ์์์ด ์์๋ฉ๋๋ค. ํนํ ์ํ ํ๋ ์์ ์ ์ฌ๋์๊ฒ๋ ์กฐ์ ๋๋๊ฐ ๋์ RoboTurk ๋ฐฉ์์ผ๋ก๋ ๋ ์ด๋ ค์ ์ ๊ฒ์ผ๋ก ์์๋๋๋ฐ, RoboTwin์ ์ด๋ฌํ ๊ณ ๋๋ ์์ ์ AI ํ์ฉ์ผ๋ก ํด๊ฒฐํ ์ ์ ๋๋ค. ์์ปจ๋ RoboTwin์ RoboTurk์ โ๋ก๋ด ์กฐ์ ImageNetโ์ด๋ผ๋ ๋น์ ์ ๋ค๋ฅธ ๊ฒฝ๋ก(์๋ฎฌ๋ ์ด์ )๋ก ๋ฌ์ฑํ๊ณ ์ ํ๋ฉฐ, ๋์ ์ํธ ๋ณด์์ ์ ๋๋ค. RoboTwin์์ ์์ฑํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ RoboTurk์ ํ์ค ์์ฐ ๋ฐ์ดํฐ์ ๊ฒฐํฉํ๋ค๋ฉด, ํ์ชฝ์ ๋ถ์กฑํจ(์: ํฉ์ฑ vs ์ค์ ์ ๊ฐ๊ทน, ํน์ ๋ฐ์ดํฐ ๋ค์์ฑ ๋ถ์กฑ)์ ์ํธ ๋ณด์ํ์ฌ ๋์ฑ ๊ฐ๋ ฅํ ํ์ต์ด ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์ค์ ๋ก RoboTwin ๋ ผ๋ฌธ์์๋ ์๋์ ํ์ค ์ๆผ(์: RoboTurk ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ป์ ์์ฐ)์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋จ์ ๋ณด์ฌ์ฃผ์๋๋ฐ, ์ด๋ ๋ฏธ๋์ ๋ ์ ๊ทผ๋ฒ์ ์๋์ง ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
- RoboNet (์ฌ๋ฌ ๋ก๋ด ๋ฉ์ ๊ฒฝํ ํตํฉ ๋ฐ์ดํฐ์
): Berkeley ๋ฑ์ ์ค์ฌ์ผ๋ก 2019๋
์ ์ ์๋ RoboNet ์ ์ฌ๋ฌ ์ฐ๊ตฌ๊ธฐ๊ด์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๊ณต๊ฐํ ๋๊ท๋ชจ ๋ค์ค๋ก๋ด ํ์ต ๋ฐ์ดํฐ์
์
๋๋ค. RoboNet์ 7์ข
์ ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(์: Sawyer, Baxter, Kuka ๋ฑ)์ด ํ
์ด๋ธ ์์์ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋ ์ด 162,000๊ฐ์ trajecotry๋ฅผ ์์งํ์ฌ, ์ฝ 1,500๋ง ์ฅ์ ์์ ํ๋ ์์ ํฌํจํฉ๋๋ค. ๋ฐ์ดํฐ๋ 4๊ฐ ์ฐ๊ตฌ์์์ ๊ฐ์ ์์จ ์์ง๋์์ผ๋ฉฐ, ๋ก๋ด ํ, ์นด๋ฉ๋ผ ๋ทฐ, ์คํ์ค ํ๊ฒฝ, ์ฌ์ฉ ๊ฐ์ฒด๋ค์ด ๋ชจ๋ ๋ค์ํ๊ฒ ๊ตฌ์ฑ๋์์ต๋๋ค. RoboNet์ ์ฃผ์ ๋ชฉํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๋ก๋ด ํ๋ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ ๋ค, ์๋ก์ด ํ๊ฒฝ์ ์๋์ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ์ฌ ํ์ต ํจ์จ์ ๋์ด๋ ๊ฒ์ด์์ต๋๋ค. ์ค์ ์คํ์์ RoboNet์ผ๋ก ๋ชจ๋ธ์ ์ฌ์ ํ๋ จํ ๊ฒฝ์ฐ, ์๋ก์ด ํ๊ฒฝ์ผ๋ก์ ์ ์์ด 4๋ฐฐ ์ด์ ๋น ๋ฅด๊ฒ ์ด๋ฃจ์ด์ง๊ณ , ์ ํ ์๋ก์ด ๋ฌผ์ฒด๋ ์นด๋ฉ๋ผ ๋ทฐ์๋ ์ด๋ ์ ๋ ๋์ ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ค์ํ ๋ก๋ด ๊ฒฝํ์ ๋ชจ์ ๋ฐ์ดํฐ์
์ ํ์ ์
์ฆํ ๊ฒฐ๊ณผ์
๋๋ค.
- ์ฐจ๋ณ์ : RoboNet๊ณผ RoboTwin 2.0์ โ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ก ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์โ์ด๋ผ๋ ํฐ ๋ฐฉํฅ์ ๊ฐ์ง๋ง, ์ ๊ทผ ๋ฐฉ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๋จผ์ ๋ฐ์ดํฐ ์์ง ๋ฉด์์, RoboNet์ ์ค์ ๋ก๋ด ์คํ์ผ๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๋ฐ๋ฉด, RoboTwin์ ์๋ฎฌ๋ ์ด์ ์ ๋๋ค. ๋ฐ๋ผ์ RoboNet ๋ฐ์ดํฐ์๋ ํ์ค ๋ฌผ๋ฆฌ์ ์ก์์ด ๋ฐ์๋์ด ์๊ณ ๋๋ฉ์ธ ๋๋คํ ์์ด๋ ๋ก๋ด/ํ๊ฒฝ๋ง๋ค ์ด๋ ์ ๋ ์ฐจ์ด๊ฐ ์กด์ฌํฉ๋๋ค. ํ์ง๋ง RoboNet์ ๋ฐ์ดํฐ๋ ํน์ ๋ช ์์ ๊ณผ์ ๋ชฉํ๊ฐ ์๋ ์ผ๋ฐ์ ์ธ ์ํธ์์ฉ(์: ๋ฐ๊ธฐ, ์ก๊ธฐ ๋ฑ)์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ๋ฉด, RoboTwin ๋ฐ์ดํฐ๋ ๊ฐ ์ํผ์๋๋ง๋ค ๋ช ํํ ๊ณผ์ ์ฑ๊ณต/์คํจ ๊ธฐ์ค์ด ์์ต๋๋ค. ์ฆ RoboTwin์ ๋ฐ์ดํฐ๋ โ์ฑ๊ณตํ ์์ฐโ ์ค์ฌ์ด๋ผ์ ๋ชจ๋ธ์ด ๋ชฉํ์งํฅ์ ์ผ๋ก ํ์ตํ๊ธฐ์ ์ฉ์ดํฉ๋๋ค. ๋ฐ๋๋ก RoboNet ๋ฐ์ดํฐ๋ ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ ํญ๋๊ฒ ์ปค๋ฒํ์ง๋ง, ํ์ต ์ ๋ชฉํ๋ฅผ ์ ์ํด์ฃผ๊ธฐ ์ด๋ ต๊ณ ์ฑ๊ณต/์คํจ ๋ ์ด๋ธ๋ ์์ต๋๋ค. ๋, RoboNet์๋ ์ธ์ด ์ค๋ช ์ด๋ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๊ฐ ์์ง๋ง, RoboTwin์ ๋น์ +์ธ์ด๋ฅผ ๋ชจ๋ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ ์๋๋ฆฌ์ค์ ๋๋ค. ์ด๋ก์จ VLA (Vision-Language-Action) ํตํฉ ์ ์ฑ ํ์ต์ด ๊ฐ๋ฅํ ์ ์ด RoboTwin์ ๊ฐ์ ์ ๋๋ค. ํํธ ์์ ๋ณต์ก์ฑ ์ธก๋ฉด์์๋ ์ฐจ์ด๊ฐ ์๋๋ฐ, RoboNet์ ์ฃผ๋ก ๋จ์ผ ํ์ ๋จ์ ๋ฌผ์ฒด ์กฐ์(ํ๊ฒฌ์ด๋ ํธ์ ๋ฑ)์ ๊ฐ๊น๊ณ , RoboTwin์ ์ํ์ ํ๋/๋๊ตฌ ์ฌ์ฉ ๋ฑ ๋ณต์กํ ์คํฌ๋ค์ ํฌํจํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ํฌ๊ธฐ์ ๋ฒ์ฉ์ฑ์ ๋ณด๋ฉด, RoboNet์ ์ฌ๋ฌ ๊ธฐ๊ด ์ฐธ์ฌ๋ก ์ฌ๋ฌ ํ์ค ๋ก๋ด์ ๋ง๋ผํ์ง๋ง, ๋ฒ์ฉ API๋ ํต์ผ๋ ํ๊ฒฝ์ด ์์ด ์ฐ๊ตฌ์๋ค์ด ์ง์ ํ์ฉํ๊ธฐ ๊น๋ค๋ก์ด ์ธก๋ฉด์ด ์์์ต๋๋ค. RoboTwin์ ๋จ์ผ ํ๋ ์์ํฌ ๋ด์์ ๋ค์ ๋ก๋ด์ ์ง์ํ๊ณ , ๋ฐ์ดํฐ/์ฝ๋ ๋ชจ๋ ๊น๋ํ ๊ณต๊ฐ๋์ด ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ์ด ๋์ต๋๋ค. ์์ฝํ๋ฉด, RoboNet์ ํ์ค ๊ธฐ๋ฐ โ๋์ ๋ถํฌโ ๋ฐ์ดํฐ, RoboTwin์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ โ๋ชฉํ ์งํฅ์ โ ๋ฐ์ดํฐ๋ก ๊ตฌ๋ถํ ์ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก ๋ ์ ๊ทผ์ ์ํธ๋ณด์์ ์ด๋ฉฐ, ์ค์ ๋ก RoboTwin 2.0 ๋ ผ๋ฌธ์ ๊ด๋ จ์ฐ๊ตฌ์์๋ RoboNet์ฒ๋ผ ์ฌ๋ฌ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ฅผ ๊ต๋ํ๋ ์๋๊ฐ ์ผ๋ฐํ์ ์ค์ํจ์ ์ธ๊ธํ๊ณ ์์ต๋๋ค. RoboTwin 2.0์ RoboNet์ด ์ ์ํ ๋น์ ์ ์ํ ์๋๋ฆฌ์ค๋ก ํ๋ํ๋ฉด์, ํฉ์ฑ ๋ฐ์ดํฐ๋ก ๊ทธ ๋น์ ์ ๊ตฌํํ๋ ๋ ๋ค๋ฅธ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค.
- Google RT-1 / RT-2 ๋ฐ Open X-Embodiment (RT-X): Google์ Robotics Transformer ์๋ฆฌ์ฆ์ธ RT-1๊ณผ RT-2 ๋ ๋ก๋ด์ ๋๊ท๋ชจ ์ค์ธ๊ณ ๋ฐ์ดํฐ ํ์ต์ ํตํด ์ ๋ก์ท ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ๋ํ์ ์ธ ์ฌ๋ก์
๋๋ค. RT-1์ 2022๋
๋ฐํ๋์์ผ๋ฉฐ, ์ฝ 130k๊ฐ์ ์ค์ ๋ก๋ด ์์ฐ(๊ฐ์ ๋ด ์กฐ์ ์๋ฌด)์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ก ํ์ต์์ผ, ์๊ฐ(์นด๋ฉ๋ผ ์
๋ ฅ)๊ณผ ์ธ์ด(๋ช
๋ น)๋ฅผ ์ก์
์ํ์ค๋ก ์ง์ ๋งคํํ๋ end-to-end ์ ์ฑ
์ ์ ์ํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ฃผ๋ฐฉ ํ๊ฒฝ ๋ฑ์ ์ค์ ์ก์ผ 700์ฌ ๊ฐ์ง์ ๋ํด ์ค์๊ฐ ์ ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ณด์๊ณ , 13๋์ ๋ก๋ด์ผ๋ก ์์งํ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ๋ค์ํ ๋ฌผ์ฒด ๋ฐ ์ํฉ์ ๋์ํ์ต๋๋ค. RT-2๋ 2023๋
ํ์์ผ๋ก, ์น ์ด๋ฏธ์ง/ํ
์คํธ๋ก ์ฌ์ ํ์ต๋ ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๋ก๋ด ๋ฐ์ดํฐ์ ๊ณต๋ ํ์ต์ํด์ผ๋ก์จ, ๋ณด์ง ์์ ๋ฌผ์ฒด์ ๋ํ ์ถ๋ก ๊ณผ ๋์๊น์ง ๊ฐ๋ฅํ๊ฒ ์งํํ์ต๋๋ค. ์๋ฅผ ๋ค์ด โ์ฐ๋ฌ์ง ์ปต์ ์ธ์์คโ ๊ฐ์ ๋ช
๋ น์ ์น ํ์ต์ ํตํด ๊ฐ๋
์ ์๊ณ ์๋ ๋ชจ๋ธ์ด ๋ก๋ด ์ ์ด๋ก ์ํํ ์ ์์์ ๋ณด์์ต๋๋ค. ๋ํ 2024๋
๊ณต๊ฐ๋ Open X-Embodiment ํ๋ก์ ํธ ๋ ํ๊ณ์ ์ฌ๋ฌ ์ฐ๊ตฌํ์ด ํจ๊ป 22์ข
์ ๋ก๋ด ๊ตฌํ์ฒด(๋จ์ผ์, ์ํ, ์ด๋๋ก๋ด, ์ฌ์กฑ๋ณดํ ๋ฑ)๋ฅผ ์์ฐ๋ฅด๋ 100๋ง+ ๊ฐ ํ์ค ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ ์ฌ๋ก์
๋๋ค. Open X-Embodiment (์ค์ฌ OpenX)๋ ํฉ์ด์ ธ์๋ ๊ณต๊ฐ ๋ก๋ด ๋ฐ์ดํฐ๋ค์ ๋จ์ผํ ํฌ๋งท์ผ๋ก ํตํฉํ๊ณ , ์ด๋ฅผ ํ์ตํ RT-X๋ผ๋ ๋ฒ์ฉ ๋ก๋ด ๋ชจ๋ธ์ ์ ์ํ์์ต๋๋ค. ์ด๋ ํ์์ ์ผ๋ก ์งํ๋ ๊ตฌ๊ธ RT-์๋ฆฌ์ฆ์ ๋์ํ์ฌ ์คํ์์ค๋ก ๊ฑฐ๋ ๋ก๋ด ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ ์์ง์์
๋๋ค.
- ์ฐจ๋ณ์ : RT-1/2 ๋ฐ OpenX์ RoboTwin 2.0์ ๊ฐ์ฅ ํฐ ์ฐจ์ด๋ โ์ค์ vs ํฉ์ฑโ์ ๋๋ค. RT ๊ณ์ด๊ณผ OpenX์ ๋ฐ์ดํฐ๋ ๋ชจ๋ ํ์ค ์ธ๊ณ์์ ์์ง๋ ์์ฐ์ผ๋ก, ์ก์๊ณผ ํ๊ณ๊ฐ ํ์ค ๊ทธ๋๋ก์ ๋๋ค. ๋ฐ๋ฉด RoboTwin์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋ฌดํ์ ๊ฐ๊น๊ฒ ๋ฐ์ดํฐ ํ์ฅ์ด ๊ฐ๋ฅํ๊ณ , ์ํํ ์ํฉ๋ ๊ฐ์์์ ์๋ํ ์ ์๋ค๋ ์ด์ ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด OpenX ๋ฐ์ดํฐ์ ํฌํจ๋ ์ํ ๋ก๋ด ์์ฐ์ ์ ํ์ ์ผ ์ ์์ผ๋, RoboTwin์์๋ ๊ฐ์์ผ๋ก ๋ณต์กํ ์ํ ํ์ ์ ๋ฌด์ํ ๋ง๋ค์ด๋ผ ์ ์์ต๋๋ค. ๋ํ RT-1 ๋ฑ์ ์์ ๋ค์ ๋๋ถ๋ถ ๋จ์ผ ๋ก๋ด ํ๋ซํผ(์: ํฝ์ค๋์ด์๋ ๋ชจ๋ฐ์ผ ๋ก๋ด ํ)์์ ์ด๋ฃจ์ด์ง ๋ฐ๋ฉด, RoboTwin์ 5๊ฐ์ง ์๋ก ๋ค๋ฅธ ๋ก๋ด์ผ๋ก ๋์ผ ์์ ์ ์ํํ๋๋ก ํด cross-embodiment ์ผ๋ฐํ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ธ์ด ์ ๋ ฅ์ ๋ค์์ฑ ์ธก๋ฉด์์๋, RT-1์ ๋น๊ต์ ์ ํํ๋ ๋ช ๋ น๋ฌธ ์์ฃผ์ด๊ณ RT-2๋ ์น ํ์ต์ผ๋ก ์ธ์ด ์ดํด๋ฅผ ํฅ์ํ์ง๋ง, RoboTwin์ ๋ช ๋ น ํ ํ๋ฆฟ๊ณผ ๊ฐ์ฒด ๋ฌ์ฌ ์์ฑ๊ธฐ๋ฅผ ํตํด ๋งค ์ํผ์๋ ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ์ ์ ์ํ๋ฏ๋ก, ๋ชจ๋ธ์ด ์ธ์ด ํํ ๋ณํ์ ๊ฐ๊ฑดํด์ง๋๋ก ํฉ๋๋ค. ์ฑ๋ฅ ์ธก๋ฉด์์๋, RT-์๋ฆฌ์ฆ๋ ๋ฐฉ๋ํ ํ์ค ๋ฐ์ดํฐ ๋์ ์ค์ ํ๊ฒฝ์์ ๋งค์ฐ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋, ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ๋ง๋ํ์ต๋๋ค. RoboTwin์ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ผ๋ง๋ ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์ค์ผ ์ ์๋์ง ํ๊ตฌํ์๊ณ , ์๋์ ํ์ค ๋ฐ์ดํฐ๋ก 367%์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ธ ๊ฒ์ ํฉ์ฑ+ํ์ค ํผํฉ ์ ๊ทผ์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. Open X-Embodiment์ ๋น๊ตํ๋ฉด, OpenX๋ ์ ์ธ๊ณ์์ ๋ชจ์ 22์ข ๋ก๋ด, 217๊ฐ ์์ ์ด์์ ๋ง๋ผํ โ๋ฉ๊ฐ ๋ฐ์ดํฐ์ โ์ผ๋ก, ์ค์ผ์ผ ๋ฉด์์ RoboTwin(50๊ฐ ์์ , 5์ข ๋ก๋ด)์ ๋ฅ๊ฐํฉ๋๋ค. ๊ทธ๋ฌ๋ OpenX์ ๋ฐ์ดํฐ๋ ์ถ์ฒ๋ณ๋ก ํ์ง ํธ์ฐจ๊ฐ ์๊ณ ๋ผ๋ฒจ๋ง/์ ์ ์ฒด๊ณ๊ฐ ์ ๊ฐ๊ฐ์ด์๋ ๊ฒ์ ํตํฉํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์์ ํ ์ผ๊ด์ฑ์ ๋ด๋ณดํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด RoboTwin ๋ฐ์ดํฐ๋ ํ๋์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํต์ผ๋ ๋ฐฉ์์ผ๋ก ์์ง๋์ด, ๋ชจ๋ ์์ ์ ์ผ๊ด๋ ์ธํฐํ์ด์ค์ ๋ช ํํ ์ฑ๊ณต ๊ธฐ์ค์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ์ฐ๊ตฌ์๊ฐ ํน์ ์์๋ง ๋ณํ์์ผ ์คํํ๊ธฐ ์ฉ์ดํ๋ฉฐ, ์ก์ ์์๋ฅผ ํต์ ํ ์ ์์ต๋๋ค. ์์ปจ๋ OpenX๋ RT-1 ๋ฐ์ดํฐ์์๋ ์นด๋ฉ๋ผ ํ์ง์ด๋ ๋ก๋ด ์บ๋ฆฌ๋ธ๋ ์ด์ ์ค๋ฅ ๋ฑ์ด ์์ฌ ์์ด ๋ถ์์ด ์ด๋ ต์ง๋ง, RoboTwin ํฉ์ฑ ๋ฐ์ดํฐ๋ ํ์ํ ๋ถ๋ถ๋ง ์ ์ดํ์ฌ ์ฑ๋ฅ ์์ธ์ ์ฐ๊ตฌํ ์ ์์ต๋๋ค. ๋ํ RoboTwin์ ์ฝ๋ ์์ฑ ํ์ดํ๋ผ์ธ ๊ฐ์ ๊ฒ์ RT/OpenX ์ชฝ์๋ ์๋ ์ฐจ๋ณ ๊ธฐ์ ๋ก, ๋ก๋ด ํ๋์ ํ๋ก๊ทธ๋๋ฐ์ ์ผ๋ก ์์ฑ/์์ ํ๋ ์ฐ๊ตฌ์๋ ๊ธฐ์ฌํฉ๋๋ค. ์ ๋ฆฌํ๋ฉด, RT-X/OpenX๋ ํ์ค ๋ฐ์ดํฐ๋ก ๋ฒ์ฉ ๋ก๋ด ๋ชจ๋ธ์ ์ถ๊ตฌํ๊ณ , RoboTwin์ ํฉ์ฑ ๋ฐ์ดํฐ๋ก robustํ ์ํ ๋ก๋ด ๋ชจ๋ธ์ ์ถ๊ตฌํ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก๋ ์ด๋ค๋ ์ํธ ๋ณด์ ๊ฐ๋ฅํ๋ฉฐ, RoboTwin์์ ๋ง๋ ํฉ์ฑ ์์ฐ์ RT-X ๊ฐ์ ๊ฑฐ๋ ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ํ์ฉํ๊ฑฐ๋, ๋ฐ๋๋ก OpenX์ ํ์ค ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ RoboTwin์ ๋๋ฉ์ธ ๋๋คํ์ ๋ฐ์ํ๋ ์์ ํ๋ ฅ ๋ฐฉํฅ๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค.
- ๊ทธ ์ธ ๊ด๋ จ ์ฐ๊ตฌ: RoboVerse ๋ 2025๋ ์๊ฐ๋ ํ๋ ์์ํฌ๋ก, ์ฌ๋ฌ ์๋ฎฌ๋ ์ดํฐ์ ๋ก๋ด ๊ตฌํ์ ํ๋๋ก ๋ฌถ์ด ๋ฒ์ฉ์ ์ธ ๋ก๋ด ํ์ต ํ๋ซํผ์ ์ ๊ณตํ๋ ค ํ์ต๋๋ค. ๋ํ Meta-World (50๊ฐ์ง ๋ก๋ด ์กฐ์ ๊ณผ์ ์ธํธ),ManiSkill2 (20๊ฐ ์์ ๊ตฐ, 400๋ง ํ๋ ์ ์์ฐ ํฌํจ), CALVIN (๋ฉํฐ๋ชจ๋ฌ ์ฅ๊ธฐ๊ณผ์ ์ธ์ด์ง์ ๋ฐ์ดํฐ์ ), LIBERO (130๊ฐ ์์ , ๊ณ ํ์ง ํด๋จผ ํ ๋ ์ต ๋ฐ์ดํฐ), RoboMIND (479๊ฐ ์์ , 4์ข ๋ก๋ด, 107k ํ ๋ ์ต ์ํผ์๋) ๋ฑ ์ฌ๋ฌ ๋ฐ์ดํฐ์ /๋ฒค์น๋งํฌ๊ฐ ์ต๊ทผ ๋ฑ์ฅํ์ต๋๋ค. ์ด๋ค ๊ฐ๊ฐ ๊ณ ์ ํ ์ฅ์ ์ด ์์ง๋ง,RoboTwin 2.0์ ์ํ ํ์ ์ด๋ผ๋ ํน์ ๋ถ์ผ์์ ์ด๋ค์ ์ฅ์ ์ ๊ฒฐ์งํ ๋๋์ ๋๋ค. ์์ปจ๋ Meta-World์ฒ๋ผ ๋ค์ค ์์ ๋ฒค์น๋งํฌ์ด๋ฉด์, ManiSkill์ฒ๋ผ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋๋ ์์ฐ์ ์ ๊ณตํ๊ณ , CALVIN์ฒ๋ผ ์ธ์ด ์กฐ๊ฑด ์ ์ฑ ์ ๋ค๋ฃจ๊ณ , LIBERO์ฒ๋ผ ๋ค์ํ ๊ณผ์ ๋ค์ ํฌ๊ดํ๋ฉฐ, RoboMIND์ฒ๋ผ ๋ณต์ ๋ก๋ด ํ๋ซํผ์ ๊ณ ๋ คํฉ๋๋ค. ํนํ ์ํ ์กฐ์ ๋ถ์ผ์์๋ RoboTwin 2.0 ์ด์ ๊น์ง ์ด๋ ๋ค ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ/๋ฒค์น๋งํฌ๊ฐ ์์๊ธฐ์, RoboTwin ์๋ฆฌ์ฆ์ ๋ฑ์ฅ์ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ์ด์งํ๋ ์ ๊ตฌ์ ์ญํ ์ ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ํ RoboTwin 1.0(Generative Digital Twins)์์๋ ํ์ค-์๋ฎฌ๋ ์ด์ ์์ผ๋ก ํ๊ฐํ๋ ์ฐธ์ ํ ๋ฒค์น๋งํฌ ์ค์ ์ ๋ด๋์๋๋ฐ, RoboTwin 2.0์ ํ ๊ฑธ์ ๋ ๋์๊ฐ ๋ฐ์ดํฐ ์์ฑ์ ์์ ์๋ํ์ ๋ค์ํ๋ฅผ ์ด๋ค๋๋ค๋ ์ ์์ ๊ธฐ์ ์ ์ง์ผ๋ณด๋ผ ํ ์ ์์ต๋๋ค.
๊ธฐ์ ์ ์ธ๋ถ์ฌํญ ๊ณ ์ฐฐ
๋ง์ง๋ง์ผ๋ก, RoboTwin 2.0์ ์์คํ ์ํคํ ์ฒ์ ๊ตฌํ ์ธ๋ถ์ฌํญ์ ์ดํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ ๋ฌธ๊ฐ ์ฝ๋ ์์ฑ ๋ชจ๋: RoboTwin 2.0์ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ Figure 3์ ๋์ํ๋์ด ์์ผ๋ฉฐ, ๋ ๊ฐ์ AI์์ด์ ํธ๊ฐ ํ๋ ฅํ๋ ์ด์ค ์์ด์ ํธ ๊ตฌ์กฐ๋ก ์๋ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ๋ ์ฝ๋-์์ฑ ์์ด์ ํธ๋ก, ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(์: GPT ๊ณ์ด)์ ํ์ ๋น๋ ค ์์ฐ์ด ์์
์ค๋ช
์ Python ์ฝ๋๋ก ๋ณํํฉ๋๋ค. ์ด๋ ์ฝ๋ ์์ฑ์ ๋๊ธฐ ์ํด, ์ฌ์ ์ ์ ์๋ ๋ก๋ด ์คํฌ API ๋ชฉ๋ก, ์์ ํจ์ ํธ์ถ๋ค, ๊ณ์ธต์ ์์
์ ์ฝ์กฐ๊ฑด ๋ฑ์ LLM์๊ฒ ์ ๊ณตํ์ฌ ํ๋กฌํํธ๋ก ์ฌ์ฉํฉ๋๋ค. ์์ปจ๋ โ์ปต์ ์ง์ด ์์ ์์ ๋ฃ์ด๋ผโ๋ผ๋ ๊ณผ์ ๋ฅผ ๋ฐ์ผ๋ฉด, API ์ฌ์ ์๋
pick(obj, hand),place(obj, location)๋ฑ์ ํจ์๊ฐ ์๊ณ , ์์๋ก pick(cup, left_hand) ๊ฐ์ ํธ์ถ, ๊ทธ๋ฆฌ๊ณ โ์ปต์ ์ง์ ํ ์์ ์ขํ ๋ด๋ถ์ ์์น์ํค๊ธฐโ ๋ฑ์ ์ ์ฝ์ ์ ์ํ์ฌ, LLM์ด ์ด๋ฅผ ์ฐธ์กฐํด ์ผ๋ จ์ ํจ์ ํธ์ถ๋ก ์ด๋ฃจ์ด์ง ํ์ด์ฌ ์ฝ๋๋ฅผ ์์ฑํฉ๋๋ค. ์์ฑ๋ ์ด๊ธฐ ์ฝ๋๋ ๋ณดํต ์๋ฒฝํ์ง ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ค์ ์๋ฎฌ๋ ์ดํฐ์์ 10ํ ์คํํ๋ฉด์ ๋ก๊ทธ๋ฅผ ์์งํฉ๋๋ค. ๋์์ ๋ ๋ฒ์งธ ์์ด์ ํธ์ธ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ ๊ด์ฐฐ์๊ฐ ๊ฐ ์คํ์ ํ๋ ์๋ณ๋ก ๋ชจ๋ํฐ๋งํ์ฌ, ์ด๋ ๋จ๊ณ์์ ์คํจํ๋์ง, ์คํจ ์์ธ์ด ๋ฌด์์ธ์ง๋ฅผ ๋ถ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ผ์์ด ์ปต์ ์ง์ผ๋ ค ํ์ผ๋ ๋์ณค๋ค๋ฉด โStep 2: ์ผ์ grasp ์คํจโ๋ก ํ์ํ๊ณ , ์ฝ๋ ์ ํด๋น ๋ถ๋ถ์ด ๋ฌธ์ ๋ผ๊ณ ์ง์ ํฉ๋๋ค. ํน์ ์ฝ๋ ์์ฒด์ ๋ฌธ๋ฒ ์ค๋ฅ๊ฐ ์์ผ๋ฉด ๋ฐ๋ก ์๋ ค์ค๋๋ค. ์ด๋ ๊ฒ ์ ๋์ ๋ก๊ทธ (์ฑ๊ณต/์คํจ ์ฌ๋ถ)์ ์ ์ฑ์ ์ง๋จ (์คํจ ์ ํ)์ด๋ผ๋ ๋ ์ข ๋ฅ์ ํผ๋๋ฐฑ์ด ์ค๋น๋๋ฉด, LLM ์ฝ๋ ์์ด์ ํธ๋ ์ด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฝ๋๋ฅผ ์์ ํฉ๋๋ค. ์์ปจ๋ ์คํจ ์์ธ์ด โ์ค๋ฅธ์์ด ์ด๋ฏธ ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์์ด์ ๋ ๋ฒ์งธ grasp ์คํจโ๋ผ๋ฉด, LLM์ ์ค๋ฅธ์์ด ๋จผ์ ์ก๊ณ ์์ ๋ ์ผ์์ด ์ก๋๋ก ์์๋ฅผ ๋ฐ๊พธ๊ฑฐ๋, ๋จผ์ ์ก์ ๋ฌผ์ฒด๋ฅผ ๋ด๋ ค๋๋ ์ฝ๋๋ฅผ ์ถ๊ฐํ๋ ์์ผ๋ก ๊ฐ์ ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ค์ ์๋ฎฌ๋ ์ดํฐ์์ ์ ์ฝ๋๋ฅผ ์คํํ์ฌ ์ฑ๊ณต๋ฅ ์ด 50%๋ฅผ ๋์ผ๋ฉด ์ข ๋ฃํ๊ฑฐ๋, ์ต๋ 5ํ ๋ฐ๋ณต๊น์ง ์๋ํฉ๋๋ค. ์ด ์ข ๋ฃ ์กฐ๊ฑด์ ๋ฌดํ ๋ฃจํ ๋ฐฉ์ง ๋ฐ ์ต์ ์ฑ๋ฅ ๋ณด์ฅ์ ์ํ ๊ฒ์ผ๋ก, ํ ๋ฒ ์์ฑ๋ ์ต์ข ์ฝ๋๋ ์ ์ด๋ ์ ๋ฐ ์ด์ ์ฑ๊ณตํ๋ ์ค(ๆบ)์ ๋ฌธ๊ฐ ์์ค ์คํ ์ฝ๋์์ ์๋ฏธํฉ๋๋ค. ๋๊ฐ 5ํ ๋ด์์ ์๋น์ ์์ ์ด 80~100%์ ๊ทผ์ ํ ์ฑ๊ณต๋ฅ ๋ก ์๋ ดํ๋ฉฐ, ์ผ๋ถ ๋ณต์กํ ์์ ๋ 5ํ ์์ 50% ์ด์์ ๋๋ฌํ๋๋ก ์กฐ์จ๋์์ต๋๋ค. ์ด๋ฌํ ํ์ ๋ฃจํ ์ฝ๋ ์์ฑ ๊ณผ์ ์ ์ฌ๋์ ๊ฐ๋ ์์ด ์ฝ๋->์คํ->ํผ๋๋ฐฑ->์ฝ๋ ์์ ์ self-refinement๋ฅผ ๊ตฌํํ ๊ฒ์ผ๋ก, ๋ก๋ด ํ๋ ๊ณํ์ ์๋ํํ๋ ๋ฐ ์์ด ๋งค์ฐ ํ์ ์ ์ธ ์ดํ๋ก์น์ ๋๋ค. ํนํ ๋ฉํฐ ๋ชจ๋ฌ ํผ๋๋ฐฑ(์์ ๊ธฐ๋ฐ)์ด ์ถ๊ฐ๋จ์ผ๋ก์จ ๋จ์ ํ ์คํธ ๋ก๊ทธ๋ก๋ ํ์ ํ๊ธฐ ์ด๋ ค์ด ๋ฏธ๋ฌํ ์คํจ ์์ธ๊น์ง ์ง์ด์ค, LLM๊ฐ ๊ตฌ์ฒด์ ์์ ์ ํ์ตํ ์ ์๊ฒ ํ์ต๋๋ค. ์ด๋ ๋จ์ํ ๊ฐํํ์ต์ด๋ ๊ฒ์ ๊ธฐ๋ฐ ์์ ๊ณผ ๋ฌ๋ฆฌ, ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ ฅ์ ํ์ฉํ์ฌ ์ฝ๋๋ฅผ ๊ตฌ์กฐ์ ์ผ๋ก ๊ณ ์น๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ธฐ์ ์ ์ผ๋ก ์ด ๋ชจ๋ ๊ตฌํ์ Python ํ๊ฒฝ๊ณผ ์๋ฎฌ๋ ์ดํฐ(์: SAPIEN ๋ฌผ๋ฆฌ์์ง )๋ฅผ ์ฐ๋ํ๊ณ , ์ธ์ด ๋ชจ๋ธ (์: GPT-4 ๋ฑ) API๋ฅผ ํธ์ถํด ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ค์ก์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. VLM์ ์์ปจ๋ MiniGPT-4๋ LLaVA ๊ณ์ด๋ก ์ฅ๋ฉด์ ์ค๋ช ํ๊ณ ์ง๋ฌธ์ ๋ตํ๋ ๋ชจ๋ธ์ ํ์ฉํ์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. (๋ ผ๋ฌธ์์๋ ๊ตฌ์ฒด์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ณด๋ค๋ ๊ฐ๋ ์ ๊ตฌ์ฑ์ ์ค์ ์ค๋ช ํ๊ณ ์์ต๋๋ค.) ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ ์์ฑ ๋ชจ๋ ๋๋ถ์, ์ฌ๋์ด ์ผ์ผ์ด ์์ฐํ๊ฑฐ๋ ์คํจ ์ผ์ด์ค๋ฅผ ๊ฑธ๋ฌ๋ผ ํ์ ์์ด ์ ๋ขฐ๋ ๋์ ์๋ฎฌ๋ ์ด์ ์์ฐ์ ์ป์ ์ ์์์ต๋๋ค. - ๋ฐ์ดํฐ ์์ง ๋ฐ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ: ์ ๋ชจ๋๋ก ์ป์ ์ ๋ฌธ๊ฐ ์ฝ๋๋ RoboTwin 2.0 ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ์ถ๋ฐ์ ์ ๋๋ค. ๊ฐ ์์ ๋ง๋ค ์ต์ข ์ฐ์ถ๋ ์ฑ๊ณต ์ฝ๋๊ฐ ์๊ณ , ์ด๋ฅผ ํ์ฉํด ๋ค์ํ ์ํฉ์ trajectory๋ฅผ ๋๋ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ์ปต์ ์์์ ๋ฃ๋โ ์์ ์ ์ฑ๊ณต ์ฝ๋๊ฐ ์์ฑ๋๋ฉด, ํด๋น ์ฝ๋๋ฅผ ์ด์ฉํด ์ฌ๋ฌ ์๋(seed)๋ก ์๋ฎฌ๋ ์ด์ ์ ๋ฐ๋ณต ์คํํ์ฌ ์์ฒ ๊ฐ์ ์ํผ์๋๋ฅผ ๋ง๋ญ๋๋ค. ์ด๋ ๋๋ฉ์ธ ๋๋คํ๊ฐ ํจ๊ป ์ ์ฉ๋์ด, ์ํผ์๋๋ง๋ค ํ๊ฒฝ ์ค์ ์ ๋ฐ๊พธ๊ฒ ๋ฉ๋๋ค. ํด๋ฌํฐ์ ๊ฒฝ์ฐ, RoboTwin-OD ๊ฐ์ฒด ํ์์ ๋ฌด์์๋ก ๋ช ๊ฐ์ ๋ฐฉํด ๋ฌผ์ฒด๋ฅผ ๊ณจ๋ผ ์์ ๋ ์ฃผ๋ณ์ ๋ฐฐ์นํฉ๋๋ค. ๋ฐฐ์น ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ ์ ๊ณ์ฐ๋ ์ถฉ๋ ๋ถํผ๋ฅผ ์ฌ์ฉํด, ๋ก๋ด์ด๋ ์ฃผ์ ๊ฐ์ฒด์ ๊ฒน์น์ง ์๋๋ก ๋จ์ด๋จ๋ฆฝ๋๋ค. ๋ํ ์๋งจํฑ ์ ์ฌ๋ ํ๊ทธ๋ฅผ ํ์ฉํ์ฌ, ์๋ฅผ ๋ค์ด ์ปต์ ๋ค๋ฃจ๋ ์์ ์ ์ปต๊ณผ ๋งค์ฐ ๋น์ทํ ์ปต์ ๋ฐฉํด๋ฌผ๋ก ๋์ง ์๋๋ก ํ์ฌ ์ ์ฑ ํผ๋์ ์ค์ด๋ ์ฌ์ธํ ์ฅ์น๋ ํฌํจํ์ต๋๋ค. ๋ฐฐ๊ฒฝ/ํ๋ฉด ํ ์ค์ฒ๋ ์์ ๋ง๋ จํ 12k์ฅ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ๋ฌด์์๋ก ๊ณจ๋ผ ํ ์ด๋ธ๊ณผ ๋ฒฝ ๋ฑ์ ์ ํ๋๋ค. ์กฐ๋ช ์ ๋ฌผ๋ฆฌ์์ง ๋ด ๊ด์์ ์ ์ดํ์ฌ, ์์จ๋(์: 3000K vs 7000K), ๊ด์ ๊ฐ์ (์ ์ญ ์กฐ๋ช 1๊ฐ vs ์คํฌํธ๋ผ์ดํธ ์ฌ๋ฌ ๊ฐ), ๋ฐ๊ธฐ ์ธ๊ธฐ ๋ฑ์ ์์ ์กฐํฉํฉ๋๋ค. ํ์ ๋์ด๋ ์์ปจ๋ 70cm~90cm ๋ฒ์์์ Uniform ์ํ๋งํ์ฌ, ๋ก๋ด์ ํ ๊ฐ๋์ ์นด๋ฉ๋ผ ์์ผ๊ฐ ๋ฌ๋ผ์ง๋๋ก ํฉ๋๋ค. ์์ฐ์ด ์ง์๋ฌธ์ ๋งค ์ํผ์๋ ๋ง๋ค ์กฐ๊ธ์ฉ ๋ฌ๋ฆฌ ์์ฑ๋๋๋ฐ, ์์ปจ๋ โUse {arm} to place {A} to the left of {B}โ ๊ฐ์ ํ ํ๋ฆฟ์ {A}, {B}์ ๋ํด LLM์ด ์์ฑํ ๊ฐ์ฒด ๋ฌ์ฌ(e.g. โwhite plastic lid sauce canโ, โgray kitchen pot for boilingโ)๋ฅผ ์ฑ์๋ฃ์ด ๋ค์ํ๊ฒ ํํํฉ๋๋ค. {arm} ์๋ฆฌ๋ โleft armโ ํน์ โright armโ ๋ฑ ์์ ์ง์ ํ์ฌ ๋ฌธ์ฅ์ ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ฐ ์์ผ๋ก โUse left arm to place white plastic lid sauce can to the left of kitchenpot for boiling and cookingโ ์ฒ๋ผ ๋ค์ ์ฅํฉํ์ง๋ง ๋ค์ํ ํํ์ ๋ฌธ์ฅ์ด ๋ง๋ค์ด์ง๋๋ค. ์ด๋ฌํ ์ธ์ด์ ๋ค์ํ๋ ๋ชจ๋ธ์ด ํน์ ๋ฌธ๊ตฌ์ ์ค๋ฒํผํ ๋์ง ์๊ณ , ์ฒ์ ๋ณด๋ ํํ์ผ๋ก ๋ช ๋ น์ด ์ฃผ์ด์ ธ๋ ์ดํดํ๋๋ก ๋์ต๋๋ค.
์ด๋ ๊ฒ ํ๋์ ์์ ์ ๋ํด ๊ธฐ๋ณธ ํ๊ฒฝ vs ๋ค์ํ ํ๊ฒฝ์์ ์คํ๋ ์๋ง์ ๊ถค์ ๋ค์ด ์์ ๋๋ค. RoboTwin 2.0์์๋ ์์ ๋น 500๊ฐ์ ๊ถค์ (clean 100 + ๋๋คํ 400) ร 50 ์์ ร 5 ๋ก๋ด = 125,000๊ฐ์ trajectory๊ฐ ์ฌ์ ์์ง๋์ด ๊ณต๊ฐ๋์์ต๋๋ค. ๋ฐ์ดํฐ๋ HuggingFace ์ ์ฅ์๋ฅผ ํตํด ์ ๊ณต๋๋ฉฐ, ๊ฐ ์ํผ์๋์ ์๊ฐ ๊ด์ฐฐ (๋ฉํฐ์นด๋ฉ๋ผ ์ด๋ฏธ์ง), ๋ก๋ด ์ํ(๊ด์ ๊ฐ, Gripper ์ํ ๋ฑ), ์คํํ ์ก์ ์ํ์ค, ์์ฐ์ด ์ง์๋ฌธ, ์ฑ๊ณต ์ฌ๋ถ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. ํนํ ์์์ 1์ธ์นญ ์นด๋ฉ๋ผ ๋ทฐ์ ํ๋ทฐ ๋ฑ ์ฌ๋ฌ ์์ ์ผ๋ก ๋ นํ๋์ด, ์ฐ๊ตฌ์ ํ์์ ๋ฐ๋ผ ์ฌ์ฉํ ์ ์๊ฒ ํ์ต๋๋ค (์์ธํ ์ฌ์์ ๋ ผ๋ฌธ ๋ถ๋ก์ ์ธ๊ธ). ๋ํ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๊ณตํต ํฌ๋งท (์: RLDS or HDF5)์ผ๋ก ์ ๋ ฌ๋์ด ์์ด, ์๋ก ๋ค๋ฅธ ๋ก๋ด ๊ฐ ๋ฐ์ดํฐ๋ผ๋ ๋์ผํ ์ฝ๋๋ก ๋ถ๋ฌ์ ํ์ตํ ์ ์์ต๋๋ค. ์ด๋ฌํ ํ์คํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์คํ์ ์ฌํ์ฑ์ ๋์ด๊ณ , ๋ค๋ฅธ ์ฐ๊ตฌ์๊ฐ ์ถ๊ฐ ์คํ(์: ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ ํ ์คํธ)์ ํ ๋ ์ฝ๊ฒ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ฉํ ์ ์๊ฒ ํด์ค๋๋ค.
- ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ ๋ฐ ๊ตฌํ: RoboTwin 2.0์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ก ์ธ๊ธ์ ์ง์ ์ ์ผ๋ก ์์ง๋ง, ์ฌ๋ฌ ์ ํฉ์ SAPIEN ์์ง์ ์ฌ์ฉํ ๊ฒ์ผ๋ก ์ง์๋ฉ๋๋ค. SAPIEN์ ์ค์ ์ ์ ์ฌํ ๋์ ์ํธ์์ฉ (์: ๊ด์ ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ)๊ณผ, PartNetMobility ๊ฐ์ ๋๊ท๋ชจ 3D ์์ฐ ํธํ์ฑ์ ๊ฐ์ถ ์๋ฎฌ๋ ์ดํฐ๋ก, RoboTwin์์ ํ์ฉํ 2300๊ฐ+ ๊ด์ ๊ฐ์ฒด ๋ผ์ด๋ธ๋ฌ๋ฆฌ์๋ ๋ถํฉํฉ๋๋ค. ๋ํ RoboTwin์ด PartNet-Mobility์ ๊ฐ์ฒด๋ฅผ ์ฌ์ฉํ ์ , ๊ทธ๋ฆฌ๊ณ ํ๋์นด(Franka)๋ UR5 ๋ก๋ด ๋ชจ๋ธ๋ SAPIEN์์ ํํ ์ฐ์ด๋ ์์ฐ์ด๋ผ๋ ์ ์์ ๊ทธ๋ฌํฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ PyBullet์ด๋ MuJoCo ๋ฑ์ ๊ฐ๋ฅ์ฑ๋ ์์ผ๋, SAPIEN์ ํ๊ณ ์ต์ ํธ๋ ๋์ด๋ฉฐ ์ ์๋ค์ด ์ธ๊ธํ ์ฐธ๊ณ ๋ฌธํ์๋ SAPIEN์ด ํฌํจ๋์ด ์์ต๋๋ค. ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ก๋ด ์ ์ด๋ ๋ก์ฐ๋ ๋ฒจ ์ ์ด(๋ชจํฐ ํ ํฌ ๋ฑ)๊ฐ ์๋๋ผ, RoboTwin์์๋ ๋ฏธ๋ฆฌ ์ ์๋ ์คํฌ API๋ก ์ถ์ํ ํ์ต๋๋ค. ์ฆ pick(obj) ๋ฅผ ํธ์ถํ๋ฉด ๋ก๋ด์ด ๋ด๋ถ์ ์ผ๋ก ํด๋น ๊ฐ์ฒด ์์น๊น์ง IK๋ก ํ์ ๋ป๊ณ ๊ทธ๋ฆฌํผ๋ฅผ ๋ซ๋ ์ผ๋ จ ๋์์ ์ํํ๋ ์์ ๋๋ค. ์ด๋ Python API ์์ค์์ ๋์ํ๋ฉฐ, ๋ฌผ๋ฆฌ ์์ง ๋ด ๋ชจ์ ํ๋๋๋ Inverse Kinematics Solver๋ฅผ ํตํด ๊ตฌํ๋ฉ๋๋ค. RoboTwin ์ฝ๋๋ ์ด๋ฌํ ์ ์์ค ์ ์ด๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํด ์คํ์์ค MoJo ๋๋ ์์ฒด ๋ชจ์ ํ๋๋๋ฅผ ์ฌ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋๋ถ์ LLM์ด ๊ตณ์ด ํ ํฌ ์ ์ด๋ฅผ ์ง์ ์ถ๋ ฅํ ํ์ ์์ด, ๊ณ ์์ค API ์ํ์ค๋ง ์์ฑํ๋ฉด ๋ก๋ด์ด ์์ง์์ต๋๋ค.
- ๋ฉํฐ ๋ก๋ด ์ง์ ๊ตฌ์กฐ: RoboTwin 2.0์ 5๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ์ ์ง์ํ๋๋ฐ, ์ด๊ฒ์ด ๊ฐ๋ฅํ ์ด์ ๋ ์ถ์ํ ๊ณ์ธต ๋๋ถ์ ๋๋ค. ์ฆ ๋์ผํ ์คํฌ API๊ฐ ๊ฐ ๋ก๋ด์ ๋ํด ๊ตฌํ๋์ด ์์ด, LLM์ด ์์ฑํ๋ ์ฝ๋๋ ๋ก๋ด์ ๋ฌด๊ดํ๊ฒ ๊ฐ์ ํธ์ถ์ ์ฌ์ฉํฉ๋๋ค. ๋ด๋ถ์ ์ผ๋ก Franka์ฒ๋ผ 7-DoF ๋ก๋ด์ด ๊ทธ ํจ์๋ฅผ ์คํํ ๋์, Piper์ฒ๋ผ 4-DoF ๋ก๋ด์ด ์คํํ ๋ ์ฝ๊ฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋์ํ์ง๋ง, ์ธ๋ถ์์ ๋ณผ ๋๋ ๋์ผํ ํจ์๋ช ์ด ์ถ์ํ ์ญํ ์ ํฉ๋๋ค. ์์ปจ๋ grasp(obj, arm=โleftโ) ํจ์๋ ํ๋์นด๋ผ๋ฉด ์๋จ ์ดํ๋ก์น ๊ฒฝ๋ก๋ฅผ ํํ๊ณ , Piper๋ผ๋ฉด ์ธก๋ฉด ์ดํ๋ก์น๋ฅผ ํํ๋๋ก ๊ตฌํํด ๋ ์์ ๋๋ค. ์ด๋ ๊ฐ์ฒด์ affordance ์ ๋ณด(์ด๋๋ฅผ ์ก์ ์ ์๋์ง)๊ฐ ํ์ฉ๋ฉ๋๋ค. RoboTwin-OD ๋ด ๊ฐ์ฒด๋ค์ CAD ๋ชจ๋ธ์ ๊ทธ๋ฆฝ ์ง์ ํ๋ณด๋ ๋ฐฉํฅ๋ณ ์ฐ์ ์์ ๊ฐ์ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณ ์์ด, Piper ๊ฐ์ ๋ก๋ด์ผ ๊ฒฝ์ฐ ์๋ถ ์ง์ ์ ๋ฐฐ์ ํ๊ณ ์ธก๋ฉด ์ง์ ๋ค์ ํ๋ณด๋ก ์ ํํฉ๋๋ค. ๋ํ ํํ ์ก๊ธฐ vs ์ง๊ฒ ์ก๊ธฐ ๋ฑ ๋ก๋ด๋ณ ๊ทธ๋ฆฌํผ ํ์ ์ฐจ์ด๋ ๊ณ ๋ ค๋ฉ๋๋ค(์ผ๋ถ ๋ก๋ด์ ์์์ผ๋ก ์ง๋ ํํ, ์ผ๋ถ๋ ์๊ฐ๋ ๊ทธ๋ฆฌํผ). ์ด๋ฌํ ์ฌ์ธํ ๊ตฌํ ๋๋ถ์, ๋์ผํ ์ฝ๋๋ก๋ ๊ฐ ๋ก๋ด์ด ์๊ธฐ ์คํ์ผ๋๋ก ์๋ฌด๋ฅผ ์ํํ ์ ์๊ฒ ๋ฉ๋๋ค. RoboTwin 2.0 ์ฝ๋ ๊ณต๊ฐ๋ณธ์๋ ์๋ก์ด ๋ก๋ด์ ์ถ๊ฐํ๋ ๊ฐ์ด๋๋ ํฌํจ๋ผ ์๋๋ฐ, ์ผ์ ์ธํ , ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์กฐ์ ๋ฑ์ ์์ฝ๊ฒ ํ ์ ์๋๋ก ์ถ์ํ๋์ด ์์ด ํ์ฅ ์ฉ์ด์ฑ์ด ํ๋ณด๋์์ต๋๋ค.
- ์ ์ฑ ํ์ต ๋ฐ ํ๊ฐ ๊ตฌ์กฐ: RoboTwin 2.0์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ์ ์ฑ ์ ํ์ตํ๋ ๋จ๊ณ์์๋ ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ ๋ชจ๋ธ์ ์งํฅํฉ๋๋ค. VLA(๋น์ -์ธ์ด-์ก์ ) ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, CNN ์ธ์ฝ๋๋ก ์ด๋ฏธ์ง ํผ์ฒ ์ถ์ถ, Transformer ์ธ์ฝ๋๋ก ์ธ์ด ๋ช ๋ น ์ธ์ฝ๋ฉ, ์ด๋ค์ ๊ฒฐํฉํ์ฌ Transformer ๋์ฝ๋๋ FC ๋คํธ์ํฌ๋ก ์ก์ ์ํ์ค๋ฅผ ์ถ๋ ฅํ๋ ํํ๋ฅผ ์ฌ์ฉํ์ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ ํน์ ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ดํฐ์ ํจ์ฉ์ ์ด์ ์ ๋ง์ท์ง๋ง, ์ฐธ๊ณ ๋ก ์ต๊ทผ ๋ฐํ๋ OpenVLA ๋ FineTuning VLA models ๋ฑ์ ๊ธฐ๋ฒ์ด ์ ์ฉ๋์ ์ ์์ต๋๋ค. ํ์ต์ Behavior Cloning(๋ชจ๋ฐฉ ํ์ต)์ผ๋ก ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, ์์คํจ์๋ L1/L2 ์์น ์ค๋ฅ+๊ทธ๋ฆฌํผ ์ํ ํฌ๋ก์ค์ํธ๋กํผ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์์ ๊ฒ์ ๋๋ค. ํ๊ฐ ์์๋ ์์ ๋งํ๋๋ก ์๋ก์ด ํ์ค ์๋๋ฆฌ์ค(๋ฐฐ๊ฒฝ/์กฐ๋ช ๋ฐ๋ ๋ฌผ๋ฆฌ ์คํํ๊ฒฝ)์์ ์ฌ๋์ ๊ฐ๋จํ ์ง์๋ฅผ ์ฃผ๊ณ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ์ต๋๋ค. ์ผ๋ถ ์คํ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ๋๋ค ์๋๋ก๋ง ํ๊ฐํ๊ธฐ๋ ํ์ง๋ง, ํต์ฌ ๊ฒฐ๊ณผ๋ ์ค์ ๋ก๋ด ์คํ์ผ๋ก ๊ฒ์ฆํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ํฝ๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ์ ์ฑ ์ด ํ์ค์์ ์ด๋ ์ ๋ ๋์ํ๊ณ , ์๋์ ํ์ค ๋ฐ์ดํฐ๋ก ํฐ ํฅ์์ ๋ณด์ธ ๊ฒ์, ํฉ์ฑ-ํ์ค ํผํฉํ์ต์ ์ค์ฉ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ Sim2Real ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ํฐ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ๋ก, ํฅํ RoboTwin ๋ฐ์ดํฐ์ ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ด๋ค ๋น์จ๋ก ์์ด์ผ ์ต์ ์ ์ฑ๋ฅ์ ๋ด๋์ง ๋ฑ์ ์ถ๊ฐ ์ฐ๊ตฌ๋ฅผ ์๊ทนํฉ๋๋ค.
์ ๋ฐ์ ์ผ๋ก, RoboTwin 2.0์ ๊ธฐ์ ์ ๊ตฌํ์ ๋๊ท๋ชจ ๋ก๋ด ํ์ต ์ธํ๋ผ ๊ตฌ์ถ ๊ด์ ์์ ๋ชจ๋ฒ์ ์ ๋๋ค. ์์คํ ๊ตฌ์กฐ๋ ๋ณต์กํ์ง๋ง ๊ฐ ์์๊ฐ ๋ ผ๋ฆฌ์ ์ผ๋ก ๋ถ๋ฆฌ๋์ด (๋ฐ์ดํฐ ์์ฑ โ ํ์ต โ ํ๊ฐ ๋ชจ๋) ์ฌ์ฌ์ฉ๊ณผ ํ์ฅ์ด ์ฝ๊ณ , ์๋ํ ํ์ดํ๋ผ์ธ์ ์ต์ํ์ ์ธ๊ฐ ๊ฐ์ ์ผ๋ก ๋ง๋ํ ๋ฐ์ดํฐ๋ฅผ ์์ฐ ๊ฐ๋ฅ์ผ ํ์ต๋๋ค. ๋๋ฉ์ธ ๋๋คํ์ embodiment adaptation ๊ธฐ๋ฒ์ ๊ธฐ์กด์ ๊ฐ๋ณ์ ์ผ๋ก ์ ์๋๋ ์์ด๋์ด๋ค์ ํ ๋ฐ ๋ฌถ์ด ์ค์ฉ์ ์์คํ ์ ๋ น์ฌ๋ธ ๊ณตํ์ ์ฑ์ทจ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ํ ๊ณต๊ฐ๋ ์ฝ๋๋ฅผ ํตํด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ๋ณธ ํ๋ ์์ํฌ ์์ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ํ ์คํธํ๊ฑฐ๋, ์๊ธฐ ๋ก๋ด ํ๋ซํผ์ ์ถ๊ฐํด ์คํํ๋ ๋ฑ ํ๋ก์ฐ์ ์ฐ๊ตฌ๋ฅผ ์ฉ์ดํ๊ฒ ๋ง๋ค์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก ๋ ผ๋ฌธ์ ๊ฒฐ๋ก ๋ถ์์ ์ ์๋ค์ RoboTwin 2.0์ด ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ์๋ก์ด ์งํ์ ์ด์์์ ๊ฐ์กฐํฉ๋๋ค. ๋ค์ํ ์๋งจํฑ ์ ๋ณด๋ฅผ ๊ฐ์ถ ๊ฐ์ฒด ๋ผ์ด๋ธ๋ฌ๋ฆฌ, ์๋ํ๋ ๊ถค์ ์์ฑ๊ณผ ํ๋ถํ ํ๊ฒฝ ๋ณ์ด, ๊ทธ๋ฆฌ๊ณ ์ด๋ก๋ถํฐ ์ป์ ๊ฐ์ธํ ์ ์ฑ ๋ค์ ์ฑ๊ณผ๋, ํฅํ ๋ก๋ดํ์ต ์ฐ๊ตฌ์์ โ๋ ๋ง๊ณ ๋ ๋ค์ํ ๋ฐ์ดํฐโ์ ์ค์์ฑ์ ์ฌํ์ธ์์ผ์ค๋๋ค. ๋ํ ์ด ์ฐ๊ตฌ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ํ๋ชจ๋ธ์ ๋ก๋ด ์ ์ด์ ํ์ฉํ๋ ํ๋ฆ๊ณผ, ๋์งํธ ํธ์ ๊ฐ๋ ์ ํ์ฉํ ์๋ฎฌ๋ ์ดํฐ-ํ์ค ์ฐ๊ณ ์ฐ๊ตฌ ๋ชจ๋์ ๊ธฐ์ฌํฉ๋๋ค. ์์ผ๋ก RoboTwin 2.0์ ๋ฐํ์ผ๋ก, ํ์ค ์ธ๊ณ ์ ์ฉ ๋ฐ ๋ค์ค ๊ฐ์ฒด ๋ณตํฉ ์์ ๋ฑ์ผ๋ก ์ฐ๊ตฌ๊ฐ ๋์๊ฐ ๊ฒ์ด๋ผ๊ณ ์ธ๊ธํ๋ฉฐ ๋ ผ๋ฌธ์ ๋งบ์ต๋๋ค. ์ด๋ ๊ณง RoboTwin ํ๋ก์ ํธ์ ๋ค์ ๋จ๊ณ๋ก ๋ ๋ณต์กํ ์กฐ์ ์๋๋ฆฌ์ค๋ ํ์ค ๋ก๋ด ์จ๋ผ์ธ ํ์ต ๋ฑ์ด ๊ณ ๋ ค๋๊ณ ์์์ ์์ฌํฉ๋๋ค.
์์ฝํ๋ฉด, RoboTwin 2.0์ ์ํ ๋ก๋ด ์กฐ์ํ์ต ๋ถ์ผ์ ๊ฒ์์ฒด์ธ์ ๋ก ํ๊ฐํ ๋งํฉ๋๋ค. ๊ธฐ์ ์ ์ผ๋ก ์ฌ์ธํ๊ฒ ์ค๊ณ๋๋ฐ์ดํฐ ์์ฑยทํ์ต ํ์ดํ๋ผ์ธ, ๊ธฐ์กด ์์์ ์ ๊ทน ํ์ฉํ๋ฉด์๋ ์๋ก์ด ๋์์ ์ ์ํ ๋๋ฉ์ธ ๋๋คํ์ LLM ํ์ฉ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํตํด ์ป์ ์ค์ ์ ๊ฐ๊น์ด ๊ฐ์ธํ ์ ์ฑ ์ฑ๋ฅ์ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ฑ๊ณผ์ ๋๋ค. ์ด๋ฌํ ์ฌ์ธต ๋ฆฌ๋ทฐ๋ฅผ ํตํด ๋ณผ ๋, RoboTwin 2.0์ ๊ด๋ จ ์์ญ ์ฐ๊ตฌ์๋ค์๊ฒ ํ๋ถํ ๋ฐ์ดํฐ ์์๊ณผ ๋ฒค์น๋งํฌ ํ์ค์ ์ ๊ณตํจ๊ณผ ๋์์, ํฉ์ฑ ๋ฐ์ดํฐ์ ํ๊ณผ ํ๊ณ๋ฅผ ํ๊ตฌํ ํ๋ฅญํ ์ถ๋ฐ์ ์ ๋ง๋ จํ๋ค๊ณ ํ๊ฒ ์ต๋๋ค. ์์ผ๋ก ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ ์ฐ๊ตฌ๋ค์ด ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๊ณ , ๋ก๋ด์ ๋ฒ์ฉ์ง๋ฅ์ ํฅ์์ํค๋ ๋ฐฉํฅ์ผ๋ก ํ๋ฐํ ์ ๊ฐ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.