๐RoboVerse ๋ฆฌ๋ทฐ
Haoran Geng, Feishi Wang, Songlin Wei, Yuyang Li, Bangjun Wang ์ธ ๋ค์ (UC Berkeley, PKU, USC, UMich, UIUC, Stanford, CMU, UCLA, BIGAI)
Preprint (arXiv:2504.18904v1), 2025
- ๐ก ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ํฌ๋งทยทAPIยท์์ฐ์ด ์ ๊ฐ๊ฐ์ด๋ผ ํฉ์ฑ ๋ฐ์ดํฐยท๋ฒค์น๋งํฌ๊ฐ ํํธํ๋๋ ๋ฌธ์ ๋ฅผ, ํ๋์ ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก (simulator-agnostic) ์ถ์ํ ์์ ํ๋ซํผยท๋ฐ์ดํฐ์ ยท๋ฒค์น๋งํฌ ์ ์ ํต์งธ๋ก ์ฌ๋ ค ํผ๋ค.
- โ๏ธ ํต์ฌ ์ธํ๋ผ MetaSim์ด 3๊ณ์ธต(๋ฒ์ฉ config
MetaConfigโ ์ ๋ ฌ๋ ๋ฐฑ์๋Handlerโ Gym ๋ํผ)์ผ๋ก 6๊ฐ ์๋ฎฌ๋ ์ดํฐ(Isaac SimยทIsaac GymยทMuJoCoยทGenesisยทSAPIENยทPyBullet)๋ฅผ ๋์ผ ์ธํฐํ์ด์ค๋ก ๋ฌถ์ด, cross-simulator ํตํฉยทhybrid simulationยทcross-embodiment retargeting์ ๊ฐ๋ฅ์ผ ํ๊ณ , ๊ทธ ์์์ 14๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ง์ด๊ทธ๋ ์ด์ ํด 276 task categoryยท510.5k trajectoryยท5.5k assetยท50M+ transition์ ๋ฐ์ดํฐ์ ๊ณผ IL/RL ํตํฉ ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ ๋ค. - ๐ฏ IL ๋ฒค์น๋งํฌ์์ Diffusion Policy ํ๊ท 48.6%ยทACT ํ๊ท 50.0%๋ก ๋ฐ์ดํฐ ์ ๋ขฐ์ฑ์ ๊ฒ์ฆํ๊ณ , 4๋จ๊ณ ์ผ๋ฐํ ํ๋กํ ์ฝ(taskโenvโcameraโlighting)์์ ์ ์ง์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ธก์ ํ๋ฉฐ, RoboVerse ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ OpenVLA๊ฐ ์ถ๊ฐ ํ์ต ์์ด ์ค์ธ๊ณ grasping 50โ80%(์ง์ sim-to-real)๋ฅผ ๋ฌ์ฑํ๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
NLPยทCV๋ โ๋๊ท๋ชจ ๋ฐ์ดํฐ + ํ์ค ๋ฒค์น๋งํฌโ๋ก ํญ๋ฐ์ ์ผ๋ก ์ฑ์ฅํ์ง๋ง, ๋ก๋ด์ ๋ ์ถ ๋ชจ๋์์ ๋งํ๋ค. ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ ๋น์ธ๊ณ ํ๋์จ์ด ์ข ์์ ์ด๋ฉฐ, ์ค์ธ๊ณ ๋ฒค์น๋งํฌ๋ ์กฐ๋ช ยท๋ฐฐ์นยท๋ฐฐ๊ฒฝ์ด ๋งค๋ฒ ๋ฌ๋ผ ์ฌํ ๊ฐ๋ฅํ ๊ณต์ ๋น๊ต๊ฐ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ค. ์๋ฎฌ๋ ์ด์ ์ด ๋์์ด์ง๋ง โ ์ฌ๊ธฐ์ RoboVerse์ ๋ฌธ์ ์์์ด ์์๋๋ค โ ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ๋ด๋ถ ๊ตฌ์กฐยท์ธ๋ถ ์ธํฐํ์ด์คยท์์ฐ ํฌ๋งท์ด ๋๋ฌด ๋ฌ๋ผ์, ํ ์๋ฎฌ๋ ์ดํฐ์์ ๋ง๋ ๋ฐ์ดํฐยทํ์คํฌยท๋ชจ๋ธ์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ๋ก ์ฎ๊ธฐ๋ ์ผ์ด ๋ ธ๋์ง์ฝ์ ์ด๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ ์ํ๊ณ๊ฐ ํํธํ๋๋ค. RoboVerse๋ ์ด ํํธํ๋ฅผ ์ ๋ฉด์ผ๋ก ๊ฒจ๋ฅํด, ํฉ์ด์ง ์๋ฎฌ๋ ์ดํฐ๋ค์ ํ๋์ ํ์ค ํฌ๋งท๊ณผ ๋จ์ผ ์ธํ๋ผ ์๋๋ก ํตํฉํ๋ ํ๋ซํผ(MetaSim) + ๊ทธ ์์์ ๋ง๋ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์ + ํตํฉ ๋ฒค์น๋งํฌ์ 3์์ ํจํค์ง๋ฅผ ์ ์ํ๋ค.

๊ฐ์(Fig. 1) โ RoboVerse๋ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์ ํ๋ซํผ, ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์ , ํตํฉ ๋ฒค์น๋งํฌ๋ก ๊ตฌ์ฑ๋๋ค. ํต์ผ๋ ํ๋กํ ์ฝ๋ก ์ ํ์คํฌยท์์ฐ์ ๋งค๋๋ฝ๊ฒ ํตํฉํ๋ฉฐ, ๊ณต๊ฐ ๋ฐ์ดํฐ์ ๋ง์ด๊ทธ๋ ์ด์ ์ผ๋ก ๊ตฌ์ถ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
RoboVerse๋ ์๊ณ ๋ฆฌ์ฆ ๋
ผ๋ฌธ์ด๋ผ๊ธฐ๋ณด๋ค ์์คํ
ยท๋ฐ์ดํฐ์
๋
ผ๋ฌธ์ด๋ค. ํต์ฌ์ ๋จ์ผ ์์์ด ์๋๋ผ ์ถ์ํ์ ์ค๊ณ์ ์๋ค. ์์์ ์๋ฎฌ๋ ์ด์
์๋๋ฆฌ์ค๋ฅผ agentsยทobjectsยทtasksยทsensorsยทphysics ๋ค์ฏ ์์๋ก ๋ถํดํ๊ณ , ์ด๋ฅผ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌด๊ดํ nested dataclass MetaConfig๋ก ํํํ๋ค. ํ ์๋๋ฆฌ์ค config c๊ฐ ์ฃผ์ด์ง๋ฉด, ๊ฐ ์๋ฎฌ๋ ์ดํฐ ๋ฐฑ์๋์ Handler๊ฐ ์ด๋ฅผ ์์ ์ ๋ช
๋ น์ผ๋ก ๋ฒ์ญํ๋ค:
\text{Sim}_b = \mathcal{H}_b(c),\qquad b \in \{\text{IsaacSim},\text{IsaacGym},\text{MuJoCo},\text{Genesis},\text{SAPIEN},\text{PyBullet}\}.
Handler๋ ์๋ฎฌ๋ ์ด์
์๋ช
์ฃผ๊ธฐ ์ ์ฒด๋ฅผ ๊ณตํต ๋ฉ์๋(launch(), get_states(), set_states(), โฆ)๋ก ์ ๋ ฌํ๊ณ , ๊ทธ ์์ Gym ๋ํผ๊ฐ step()/reset()/render()/close()๋ฅผ ์ ๊ณตํ๋ค. ์ด ์ ๋ ฌ ๋์ ์ธ ๋ฅ๋ ฅ์ด ์๊ธด๋ค โ โ cross-simulator integration(ํ ์๋ฎฌ๋ ์ดํฐ์ ํ์คํฌยท๊ถค์ ์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ์์ ์ฌ์ฉ, sim-to-sim), โก hybrid simulation(ํ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์์ง + ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ์ ๋ ๋๋ฌ๋ฅผ ๊ฒฐํฉ), โข cross-embodiment transfer(์๋์ดํํฐ ์์ธ retargeting์ผ๋ก ํํ ๊ทธ๋ฆฌํผ ๋ก๋ด ๊ฐ ๊ถค์ ์ฌ์ฌ์ฉ). IL ๋ฒค์น๋งํฌ ๊ธฐ์ค์ ์ธ Diffusion Policy๋ ํ์ค ์กฐ๊ฑด๋ถ denoising์ผ๋ก ๋
ธ์ด์ฆ๋ฅผ ์์ธกํ๋ค: \widehat{\epsilon^{k}}=\epsilon_{\theta}(a^{k},s,k).
์ฃผ์ ๊ฒฐ๊ณผ: (์๋ฌธ ํ์ธ ์์น๋ง)
- ๋ฐ์ดํฐ์ ๊ท๋ชจ: manipulation 14๊ฐ ์์ค ๋ฒค์น๋งํฌ ๋ง์ด๊ทธ๋ ์ด์ โ 276 task category, 510.5k trajectory, 5.5k asset, ์ ์ฑ ํ์ต์ฉ 50M+ state transition(Tab. I).
- IL ๋ฒค์น๋งํฌ(Tab. II): 6๊ฐ ๋ํ ํ์คํฌ ํ๊ท ์ฑ๊ณต๋ฅ โ Diffusion Policy 48.6%(78M), ACT 50.0%(84M). ํ์คํฌ๋ณ ํธ์ฐจ ํผ(์: ์ ์ด ํ๋ถํ robosuite NutAssembly์์ DP 7.1%, ACT 0.0%).
- 4๋จ๊ณ ์ผ๋ฐํ(Tab. III): PickCube์์ Diffusion Policy๊ฐ Level 0 52.7% โ Level 1 11.1% โ Level 2ยท3 0.0%๋ก ๊ธ๋ฝ โ ์นด๋ฉ๋ผยท์กฐ๋ช ๋ณ๋์ ํ ์ ์ฑ ์ด ๋งค์ฐ ์ทจ์ฝํจ์ ์ ๋ํ.
- ์ง์ sim-to-real(Tab. V/VIII): RoboVerse ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ OpenVLA๊ฐ ์ถ๊ฐ ํ์ต ์์ด ๋ฏธ์ง ๋ฌผ์ฒด grasping์์ 7/10ยท8/10ยท5/10(50โ80%), Octo๋ 5/10ยท3/10ยท6/10(30โ60%).
- ๊ถค์ ์ฆ๊ฐ(Fig. 10): 50๊ฐ source ์์ฐ โ 200/1000/3000๊ฐ ์์ฑ ์์ฐ์ผ๋ก ๋๋ฆด์๋ก Diffusion Policy ์ฑ๊ณต๋ฅ ์ผ๊ด ์์น.
๊ฒฐ๋ก : RoboVerse๋ โ์ด๋ป๊ฒ ๋ ์ข์ ์ ์ฑ ์ ํ์ตํ๋๊ฐโ๊ฐ ์๋๋ผ โ์ด๋ป๊ฒ ์๋ฎฌ๋ ์ด์ ์์ฐ์ ํตํฉยทํ์ฅยทํ์คํํ๋๊ฐโ์ ๋ตํ๋ค. MetaSim์ ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ถ์ํ ํ๋๋ก ํฉ์ด์ง ๋ฒค์น๋งํฌ๋ฅผ ๋์ผ ํฌ๋งท์ผ๋ก ๋ชจ์ผ๊ณ , ๊ทธ ์์์ ๋๊ท๋ชจ ๋ฐ์ดํฐยทํตํฉ ๋ฒค์น๋งํฌยทsim-to-real ํ์ดํ๋ผ์ธ์ ์ผ๊ด๋๊ฒ ๊ตด๋ฆด ์ ์์์ ๊ด๋ฒ์ํ ์คํ์ผ๋ก ์ค์ฆํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
๋ก๋ด ํ์ต์ด NLPยทCV์ฒ๋ผ ์ค์ผ์ผํ์ง ๋ชปํ๋ ์ง์ง ๋ณ๋ชฉ์ ๋ชจ๋ธ์ด ์๋๋ผ ์ธํ๋ผ์ ํํธํ๋ค โ ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ํฌ๋งท์ด ๋ฌ๋ผ ๋ฐ์ดํฐยทํ์คํฌ๊ฐ ์ฌ์ฌ์ฉ๋์ง ์๋๋ค. RoboVerse๋ ์ด ํํธํ๋ฅผ ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ถ์ํ(MetaSim)๋ก ๋ดํฉํ๊ณ , ๊ทธ ์์ ํตํฉ ๋ฐ์ดํฐ์ ๊ณผ ๋ฒค์น๋งํฌ๋ฅผ ์์ โ์๋ฎฌ๋ ์ด์ ๋ณด์กฐ ๋ก๋ด ํ์ตโ์ ๊ณต์ฉ ๊ธฐ๋ฐ์ ์ ์ํ๋ค.
์ ์ด๋ ค์ด๊ฐ โ ๋ฐ์ดํฐ์ ๋ฒค์น๋งํฌ, ์์ชฝ์ ๋ณ๋ชฉ
์ ์๋ค์ ์ถ๋ฐ์ ์ ๋จ์ํ๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ํ์ค ๋ฒค์น๋งํฌ๊ฐ NLPยทCV๋ฅผ ๋์ด์ฌ๋ ธ๋๋ฐ ๋ก๋ด๋ง ์ ๋๋ค. ๋ ๊ฐ์ง ๊ธธ์ด ๋ค ๋งํ์๋ค.
์ค์ธ๊ณ ๊ธธ์ ํ๊ณ. ์ค๋ก๋ด ์์ฐ ์์ง์ ์๊ฐยท์์ ์ง์ฝ์ ์ด๊ณ , ๋ชจ์ ๋ฐ์ดํฐ๋ ํ๋์จ์ดยท๋ชจ๋ฌ๋ฆฌํฐ ์ข ์์ ์ด๋ผ ์ ์๋๋ฆฌ์ค๋ก ์ ์ฎ๊ฒจ๊ฐ์ง ์๋๋ค. ๋ ๊ทผ๋ณธ์ ์ผ๋ก ์ค์ธ๊ณ ๋ฒค์น๋งํฌ๋ ์ฌํ์ด ๋ถ๊ฐ๋ฅํ๋ค โ ๋ฌผ์ฒด ๋ฐฐ์น๊ฐ ๋กค์์๋ง๋ค ๋ณํ๊ณ , ์์ฐ๊ด์ด ํ๋ค๋ฆฌ๋ฉฐ, ๋ฐฐ๊ฒฝ์ด ๋ฐ๋๋ค. ๊ทธ๋์ ๊ณต์ ๋น๊ต๊ฐ ์ด๋ ต๊ณ ๊ฐ๋ฐ ๋ฐ๋ณต์ด ๋น์ธ๋ค.
์๋ฎฌ๋ ์ด์ ๊ธธ์ ํ๊ณ. ์๋ฎฌ๋ ์ดํฐ๋ ํจ์จ์ ๊ณ์ฐยทํฉ์ฑ ์์ฐยท์ฌํ ๊ฐ๋ฅ ์ค์ ์ ์ฃผ๋ ๋งค๋ ฅ์ ๋์์ด์ง๋ง, ๋ ์ฅ๋ฒฝ์ด ์๋ค. (1) ์๋ฎฌ๋ ์ดํฐ ์ค๊ณ๊ฐ ๋ณต์กํ๊ณ ๋ง์ ํ๋ซํผ์ด ๋ฏธ์ฑ์ํด ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์ ๋ฌธ์ฑ์ด ๋ ๋ค. (2) ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ๋ด๋ถ ์ํคํ ์ฒยท์ธ๋ถ ์ธํฐํ์ด์ค๊ฐ ์ฒ์ฐจ๋ง๋ณ์ด๋ผ ๋ฐ์ดํฐยท๋ชจ๋ธยท์ํฌํ๋ก๋ฅผ ํ ์๋ฎฌ๋ ์ดํฐ์์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ๋ก ์ฎ๊ธฐ๊ธฐ๊ฐ ๋ ธ๋์ง์ฝ์ ์ด๋ค. ๊ฒฐ๊ณผ๋ ํํธํ๋ ์ํ๊ณ โ ๊ธฐ์กด ํฉ์ฑ ๋ฐ์ดํฐ์ ยท๋ฒค์น๋งํฌ์ ์ฌ์ฌ์ฉ์ด ์ด๋ ต๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์ฉ์ด ๊ฐ๋ก๋งํ๋ค.
RoboVerse์ ๋ช ์ ๋ โ์ด ํํธํ ์์ฒด๊ฐ ํด๊ฒฐํด์ผ ํ 1์ฐจ ๋ฌธ์ โ๋ผ๋ ๊ฒ์ด๋ค. ๋ ๋์ ์ ์ฑ ์ด์ ์, ํฉ์ด์ง ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ๋์ ํ์ค ํฌ๋งท๊ณผ ๋จ์ผ ์ธํ๋ผ๋ก ๋ฌถ๋ ์ผ์ด ๋จผ์ ๋ค.
๋ฐฉ๋ฒ ์์ธ โ 3์์ ํ๋ ์์ํฌ
RoboVerse๋ (1) ์๋ฎฌ๋ ์ด์ ํ๋ซํผ, (2) ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ , (3) ํตํฉ ๋ฒค์น๋งํฌ์ ์ธ ๋ถ๋ถ์ผ๋ก ์ด๋ค์ง๊ณ , ๊ทธ ์ฌ์ฅ์ ์ธํ๋ผ MetaSim์ด ์๋ค.

์ ์ฒด ๊ตฌ์ฑ(Fig. 2) โ ์๋ฎฌ๋ ์ด์ ํ๋ซํผยท๋๊ท๋ชจ ๋ฐ์ดํฐ์ ยทํตํฉ ๋ฒค์น๋งํฌ. ํ๋ซํผ์ ํต์ฌ์ MetaSim์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ ์์ฑ๊ณผ ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ด ์ด๋ค์ง๋ค.
MetaSim์ 3๊ณ์ธต ์ํคํ ์ฒ
MetaSim์ ํน์ ์๋ฎฌ๋ ์ด์ ๊ตฌํ ์์ ๋์ด๋ ๊ณ ์์ค ์ธํฐํ์ด์ค๋ค. ์ธ ๊ณ์ธต์ผ๋ก ๋์ํ๋ค.
(1) ๋ฒ์ฉ ์ค์ ์์คํ
โ MetaConfig. ์ ํ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ agents(๋๊ฐ ํ๋ํ๋), objects(ํ๊ฒฝ์ ์ด๋ป๊ฒ ์๊ฒผ๋), tasks(๋ฌด์์ ํ๋ โ instructionยทsuccess metricยทreward), sensors(์ด๋ป๊ฒ ์ธ์งยท์ธก์ ํ๋), physics(์ง๋ฐฐ ๋ฌผ๋ฆฌ ๋ฒ์น)์ ๋ค์ฏ ์์๋ก ๊ตฌ์ฑ๋๋ค. ์ด์์ ์ผ๋ก ์ด๋ค์ ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ด์ด์ผ ํ๋ค. RoboVerse๋ ์ด๋ฅผ nested dataclass MetaConfig๋ก ์ถ์ํํ๋ค. ์๋ก ๋ค๋ฅธ ๋ฐฑ์๋๊ฐ ์ด config๋ฅผ ํด์ํด ๋์ ์๋ฎฌ๋ ์ด์
์ ๋ง๋ค๊ณ , ๋์์ ์๋ฎฌ๋ ์ดํฐ ๊ณ ์ ํ์ดํผํ๋ผ๋ฏธํฐ(solver type ๋ฑ)๋ ์ ํ์ ์ผ๋ก ๋ฐ์ ๊ฐ ์๋ฎฌ๋ ์ดํฐ์ ๊ณ ์ ๊ธฐ๋ฅ์ ์ด๋ฆฐ๋ค.

MetaConfig(Fig. 4) โ ์์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ํต์ฌ ์์(agentsยทobjectsยทtaskยทsensorsยทphysics)๋ฅผ ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ ์ผ๋ก ์ถ์ํํ nested dataclass. task๋ TaskConfig(instructionsยทsuccess_metricsยทreward_funcs)๋ก, physics๋ PhysicsConfig(gravityยทcollisionยทfriction)๋ก ํผ์ณ์ง๋ค.
(2) ์ ๋ ฌ๋ ์๋ฎฌ๋ ์ดํฐ ๋ฐฑ์๋ โ Handler. ์๋ฎฌ๋ ์ดํฐ๋ง๋ค ๊ตฌํ์ ๋ค๋ฅด์ง๋ง ์ผ์ ์ฐ์ฐ(์ฌ ์ด๊ธฐํยท๊ฐ์ฒด ๋ก๋ฉยท๋ฌผ๋ฆฌ ์คํ
ยท๊ด์ธก ํ๋ยท์๊ฐ ๊ด๋ฆฌยท์ฑ๊ณต ํ์ )์ ๋น์ทํ ํจํด์ ๋ฐ๋ฅธ๋ค. MetaSim์ ์ด๋ฅผ Handler ํด๋์ค์ ๊ณตํต ์ธํฐํ์ด์ค๋ก ์ ๋ ฌํ๋ค. ๊ฐ ์๋ฎฌ๋ ์ดํฐ๋ ์๊ธฐ Handler ์ธ์คํด์ค๋ฅผ ๊ฐ๊ณ launch(), get_states(), set_states() ๋ฑ ์๋ช
์ฃผ๊ธฐ ์ ์ฒด์ ๊ณตํต ๋ฉ์๋๋ฅผ ๊ตฌํํ๋ค.
(3) Gym ํ๊ฒฝ ๋ํผ. Handler๋ฅผ ๊ฐ์ธ ํ์ค ํ์ต ํ๊ฒฝ(Gym)์ผ๋ก ๋ง๋ ๋ค. step()/reset()/render()/close()๊ฐ ๋ด๋ถ์ ์ผ๋ก Handler ๋ฉ์๋๋ฅผ ํธ์ถํด ๊ตฌํ๋๋ค โ RLยท๋ก๋ด ํ์ต์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ํจ๋ฌ๋ค์์ ๊ณง์ฅ ๋ถ๋๋ค.

MetaSim 3๊ณ์ธต(Fig. 3) โ ๋ฒ์ฉ ์ค์ ์์คํ + ์ ๋ ฌ๋ ๋ฐฑ์๋(Isaac LabยทIsaac GymยทMuJoCoยทSAPIENยทGenesisยทBulletยทCoppeliaSim) + Gym ๋ํผ. ์ด ์ถ์ํ๊ฐ cross-simulator ํตํฉยทhybrid simulationยทcross-embodiment transfer ์ธ ๋ฅ๋ ฅ์ ๊ฐ๋ฅ์ผ ํ๊ณ , ๊ทธ ์์์ ํตํฉ ๋ฒค์น๋งํฌ์ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ด ๋ง๋ค์ด์ง๋ค.
์ธ ๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ
์ด ์ ๋ ฌ์์ ์ธ ๋ฅ๋ ฅ์ด ์์ฐํ ๋์จ๋ค. โ Cross-Simulator Integration โ ํ ์๋ฎฌ๋ ์ดํฐ์ ํ์คํฌยท๊ถค์ ์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ์์ ๊ทธ๋๋ก ์ฌ์ฉ. ์์ปจ๋ Meta-World ํ์คํฌ๋ฅผ Isaac Gym์์ ๋น ๋ฅธ ๋ณ๋ ฌ ํ์ต์ ์ฐ๊ณ , ์์ฑ๋ ๊ถค์ ์ Isaac Sim์์ ๋ ๋๋งํ๋ค(sim-to-sim). โก Hybrid Simulation โ ํ ์๋ฎฌ๋ ์ดํฐ์ ๊ฐ๋ ฅํ ๋ ๋๋ฌ(์: Isaac Sim)์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ดํฐ์ ์ ํํ ๋ฌผ๋ฆฌ ์์ง(์: MuJoCo)์ ๋จ์ผ ๋ช ๋ น์ผ๋ก ๊ฒฐํฉํด ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์์ฑ. โข Cross-Embodiment Transfer โ ์๋์ดํํฐ ์์ธ๋ฅผ retargetํด ์๋ก ๋ค๋ฅธ ํํ ๊ทธ๋ฆฌํผ ๋ก๋ด ํํ ๊ฐ ๊ถค์ ์ ์ฌ์ฌ์ฉ, ์ด์ข ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋จ์ผ ํฌ๋งท์ผ๋ก ํตํฉ.
๋ฐ์ดํฐ์ โ ๋ง์ด๊ทธ๋ ์ด์ ์ด ์ฃผ๋ ฅ, ๊ทธ ์์ ์์ฑยท์ฆ๊ฐ
๋ฐ์ดํฐ ๊ตฌ์ถ์ ์ฃผ๋ ์์ฒ์ ๊ธฐ์กด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ผ๋ก๋ถํฐ์ ๋ง์ด๊ทธ๋ ์ด์ ์ด๋ค. ์ง์ ๋ง์ด๊ทธ๋ ์ด์ ์ด ์ด๋ ค์ด ๊ฒฝ์ฐ motion planningยทRL rollout์ผ๋ก ์์ ํ ๊ถค์ ์ ๋ง๋ค๊ณ , success checker๋ฅผ ๋ง์ถฐ ์๊ฒฉํ ํํฐ๋งํ๋ค. ํ์ฌ manipulation ์ชฝ์ผ๋ก ManiSkillยทRLBenchยทCALVINยทMeta-WorldยทrobosuiteยทMimicGenยทGAPartNetยทOpen6DORยทARNOLDยทLIBEROยทSIMPLERยทGraspNetยทGarmentLabยทUniDoorManip ๋ฑ 14๊ฐ๋ฅผ ํตํฉํ๋ค. Navigation์ VLN-CE์ R2R(10k episode)ยทRxR(20k episode)์ MatterPort3D(90 scene)์ ๊ฒฐํฉํ๊ณ , locomotionยทwhole-body๋ HumanoidBenchยทHumanoid-XยทSkillBlender๋ฅผ ๊ฐ์ ธ์๋ค.
๋ง์ด๊ทธ๋ ์ด์ ์ ๋์ด ์ธ ๊ฐ๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ ๋ชจ์๋ค โ (a) teleoperation(ํค๋ณด๋ยท์กฐ์ด์คํฑยท์ค๋งํธํฐ ์ฑยท๋ชจ์ ์บก์ฒยทVR๋ก armยทdexterous handยทbimanual ์ ์ด), (b) AI-assisted task generation(๋๊ท๋ชจ ์์ฑ๋ชจ๋ธ์ด ๊ณต๊ฐยท์๋ฏธ ์ ์ฝ์ ํ์ตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ์ฌ์ ๋ฐฐ์น, format validation + feasibility check์ 2๋จ๊ณ ํํฐ๋ง), (c) real-to-sim(๋ชจ๋ฐ์ผ ๋ค์์ ์ดฌ์ โ COLMAPยทGaussian Splatting โ VLM์ผ๋ก ๋ฌผ๋ฆฌ ์์ฑ ์ถ๋ก โ TSDF ๋ฉ์ โ URDF ๊ตฌ์ฑ). ์ต์ข ์ ์ผ๋ก ๊ถค์ ์ฆ๊ฐ(MimicGen ํ๋ ์์ํฌ ๊ธฐ๋ฐ object-centric subtask ๋ถํด)๊ณผ domain randomization์ผ๋ก ๋ค์์ฑยท๊ท๋ชจ๋ฅผ ํค์ด๋ค. Domain randomization์ Isaac Sim handler์์ ๋ค ์ข ๋ฅ๋ก โ ํ ์ด๋ธ/๋ฐ๋ฅ/๋ฒฝ ์ฌ์ง(ํ ์ด๋ธ 300์ข , ๋ฒฝยท๋ฐ๋ฅ ๊ฐ ~150์ข ), ์กฐ๋ช (distant + cylinder light array), ์นด๋ฉ๋ผ ์์ธ(59๊ฐ ํ๋ณด), ๋ฐ์ฌ ์์ฑ(roughnessยทspecularยทmetallic).

๋ฐ์ดํฐ์ ๋น๊ตยท๊ฐค๋ฌ๋ฆฌ(Fig. 8) โ ์ข: ๋ํ์ ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ์ , ์ฐ: RoboVerse ๋ฐ์ดํฐ์ . ํ๋ถํ domain randomization์ ์ ์ฉํ ๋ํ ํ์คํฌ๋ค.
๋ฒค์น๋งํฌ โ 4๋จ๊ณ ์ผ๋ฐํ ํ๋กํ ์ฝ๊ณผ IL/RL
IL ๋ฒค์น๋งํฌ๋ ๊ณ ์ ๋ ์์ฐ ์งํฉ๊ณผ ํต์ ๋ ํ๊ฐ ํ๊ฒฝ์ ์ด๋ค. ํต์ฌ ์ค๊ณ๋ 4๋จ๊ณ ์ผ๋ฐํ ํ๋กํ ์ฝ๋ก, ๋ฐ์ดํฐ์ 90%๋ฅผ ํ์ต, 10%๋ฅผ ์ผ๋ฐํ ํ๊ฐ์ ํ ๋นํ๋ค โ Level 0: task space ์ผ๋ฐํ(์นด๋ฉ๋ผยท์ฌ์งยท์กฐ๋ช ๊ณ ์ , ๋ฌผ์ฒด ์ด๊ธฐํยทinstruction๋ง 90/10 ๋ถํ ), Level 1: environment randomization(์ฌยทํ ์ด๋ธยท๋ฐ๋ฅ ๋ณ๊ฒฝ), Level 2: camera randomization(์์ ๋์ดยท๊ฐ๋), Level 3: lightingยทreflection randomization. RL ๋ฒค์น๋งํฌ๋ Stable-Baselines3ยทrsl_rl์ PPO์ ์ ๋ฒค์น๋งํฌ์ TD-MPC2๋ฅผ MetaSim ์ธํฐํ์ด์ค์ ํตํฉํด HumanoidBench๋ฅผ MuJoCoโ๏ธIsaac Sim ์์ชฝ์์ ํ์ตํ ์ ์๊ฒ ํ๋ค.

4๋จ๊ณ ์ผ๋ฐํ ํ๋กํ ์ฝ(Fig. 9) โ Level 0(task space) โ Level 1(environment) โ Level 2(camera) โ Level 3(lightingยทreflection)๋ก ๊ฐ์๋ก randomization์ด ๊ฐํด์ง๋ค. 90% ํ์ต / 10% ์ผ๋ฐํ ํ๊ฐ.
์ง๊ด โ ์ โ์ถ์ํ ๋จผ์ โ์ธ๊ฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ํต์ฐฐ์ โ์ ์ฑ ์ ์ ๋ง๋๋ ๊ฒโ๊ณผ โ๋ฐ์ดํฐยท๋ฒค์น๋งํฌ๋ฅผ ์ ๋ง๋๋ ๊ฒโ์ด ์๋ก ๋ค๋ฅธ ๋ฌธ์ ์ด๊ณ , ํ์๊ฐ ์ ์์ ์ ์ ์กฐ๊ฑด์ด๋ผ๋ ์ ์ด๋ค. ์๋ฎฌ๋ ์ดํฐ A์ ํ์คํฌ๋ฅผ B์์ ๋ชป ์ฐ๋ฉด, ๋ชจ๋ ์ฐ๊ตฌ์๊ฐ ๊ฐ์ ๊ฐ์ ํ์คํฌ๋ฅผ ์ฌ๊ตฌํํ๋ฉฐ ๋ฐํด๋ฅผ ๋ค์ ๋ฐ๋ช ํ๋ค. MetaSim์ ํต์ฌ์ โ์ฌ์ ๊ธฐ์ ํ๋ ์ธ์ด(MetaConfig)โ์ โ๊ทธ ์ธ์ด๋ฅผ ์คํํ๋ ๋ฐฑ์๋(Handler)โ๋ฅผ ๋ถ๋ฆฌํ ๊ฒ โ ์ปดํ์ผ๋ฌ๊ฐ ์์ค์ฝ๋์ ํ๊น ์ํคํ ์ฒ๋ฅผ ๋ถ๋ฆฌํ๋ฏ. ์ด ๋ถ๋ฆฌ ํ ๋ฒ์ผ๋ก cross-simulatorยทhybridยทcross-embodiment๊ฐ ๋ชจ๋ ๊ฐ์ ์ถ์ํ์ ์์ฐ์ค๋ฌ์ด ๋ฐ๋ฆ์ ๋ฆฌ๊ฐ ๋๋ค. ํนํ hybrid simulation(์ ํํ ๋ฌผ๋ฆฌ + ์ข์ ๋ ๋๋ฌ๋ฅผ ์กฐํฉ)์ ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ๊ฐ ๋ชป ์ฃผ๋ โ์ ํํ๋ฉด์ ์ฌ์ค์ ์ธโ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ธ๊ฒ ๋ง๋ ๋ค๋ ์ ์์ sim-to-real์ ์ง์ ๊ธฐ์ฌํ๋ค.
์คํ โ ์ ๋ขฐ์ฑ ๊ฒ์ฆ์ด ๋ชฉ์
์ ์๋ค์ด ๋ชป ๋ฐ๋ ์ : ์คํ์ ๋ชฉ์ ์ ์ ์ฑ ์ฑ๋ฅ ๊ฒฝ์์ด ์๋๋ผ ๋ฐ์ดํฐยท๋ฒค์น๋งํฌ์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊ณผ ์์คํ ์ ํฌ๊ด์ฑ ์ ์ฆ์ด๋ค.
IL ๋ฒค์น๋งํฌ(Tab. II). ๊ฐ ์์ค ๋ฒค์น๋งํฌ์์ ๋ํ ํ์คํฌ ํ๋์ฉ(ManiSkill PickCubeยทStackCube, RLBench CloseBox, CALVIN MoveSliderLeft, LIBERO PickChocolatePudding, robosuite NutAssembly)์ ๊ณจ๋ผ ๋จ์ผ ํ์คํฌ ์ค์ ยท3 seed ํ๊ท ์ผ๋ก ํ๊ฐํ๋ค. ํ๊ท ์ฑ๊ณต๋ฅ ์ Diffusion Policy 48.6%, ACT 50.0%๋ก ๋น์ทํ์ง๋ง ํ์คํฌ๋ณ ๋ถ์ฐ์ด ํฌ๋ค โ CALVIN MoveSliderLeft์์ ACT 85.0%ยทDP 76.5%๋ก ๋๊ณ , ์ ์ด ํ๋ถํ robosuite NutAssembly์์๋ DP 7.1%ยทACT 0.0%๋ก ๋ฌด๋์ง๋ค. ์ด ๋ถ์ฐ ์์ฒด๊ฐ โ๋ฒค์น๋งํฌ๊ฐ ๋ค์ํ ๋์ด๋๋ฅผ ๋ด๋๋คโ๋ ์ฆ๊ฑฐ๋ก ์ ์๋๋ค.
4๋จ๊ณ ์ผ๋ฐํ(Tab. III). ํต์ฌ ๋ฉ์์ง๋ ํ ์ ์ฑ ๋ค์ด ์๊ฐ ์ผ๋ฐํ์ ๋งค์ฐ ์ฝํ๋ค๋ ๊ฒ์ด๋ค. PickCube์์ Diffusion Policy๋ Level 0 52.7% โ Level 1 11.1% โ Level 2ยท3 0.0%, ACT๋ 31.7% โ 30.0% โ 6.7% โ 3.3%๋ก ์นด๋ฉ๋ผยท์กฐ๋ช ๋ณ๋์์ ๊ฑฐ์ ๋ถ๊ดดํ๋ค. MoveSliderLeft์ฒ๋ผ ์๋์ ์ผ๋ก ๊ฒฌ๊ณ ํ ํ์คํฌ(DP L0 76.5% โ L3 60.0%)๋ ์์ง๋ง, ์ ๋ฐ์ ์ผ๋ก ์๊ฐ randomization์ด ๊ฐํด์ง์๋ก ๊ธ๊ฒฉํ ๋จ์ด์ง๋ค โ ์ด๋ ์ ์ฑ ์ ์ฝ์ ์ธ ๋์์ ๋ฒค์น๋งํฌ๊ฐ ์๋ฏธ ์๋ ๋์ด๋ ๊ตฌ๋ฐฐ๋ฅผ ์ ๊ณตํ๋ค๋ ๋ฐฉ์ฆ์ด๋ค.
๊ถค์ ์ฆ๊ฐ(Fig. 10). 50๊ฐ source ์์ฐ์์ 200ยท1000ยท3000๊ฐ๋ก ์ฆ๊ฐ์ ๋๋ฆด์๋ก 4๊ฐ ๋ํ ํ์คํฌ์์ Diffusion Policy ์ฑ๊ณต๋ฅ ์ด ์ผ๊ด ์์น โ ์ฆ๊ฐ API์ ํจ๊ณผ์ ํ์ฅ์ฑ์ ๋ณด์ธ๋ค.

๊ถค์ ์ฆ๊ฐ ํจ๊ณผ(Fig. 10) โ source ๋ฐ์ดํฐ์ ๋๋น ์ฆ๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ์ฑ๊ณต๋ฅ . ์์ฑ ๋ฐ์ดํฐ๊ฐ ๋์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ค.
World model ํ์ต(VI-E). DROID 50k episode๋ง์ผ๋ก ํ์ตํ action-conditioned world model์ action ์กฐ๊ฑด์ ๋ฐ๋ฅด๋ ๊ทธ๋ฆฌํผ-๋ฌผ์ฒด ์ ์ด์ ๋ฌผ๋ฆฌ๋ฅผ ๋ชป ์ก์ ์ ์ด ์ ๋ฌผ์ฒด๊ฐ โ๋คํ๋ฆฐ๋ค(warped)โ. RoboVerse ํฉ์ฑ 50k๋ฅผ ๋ํด 100k๋ก ํค์ฐ๋ฉด ๋ฌผ์ฒด ๊ธฐํ ๋ณด์กด์ด ๊ฐ์ ๋๋ค โ ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ฐํจ์ ๋ณด์ธ๋ค(๋ค๋ง โ์์๋ง ๋ณด๋ ๊ฒโ์ผ๋ก DROID์ ์ ๊ตํ ๋ฌผ๋ฆฌ๋ฅผ ๋ค ๋ฐฐ์ฐ๊ธด ๋ถ์กฑํ๋ค๊ณ ์์งํ ์ธ์ ).
์ง์ sim-to-real / sim-to-sim-to-real(VI-FยทG, Tab. V). RoboVerse ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ OpenVLA๋ฅผ ์ถ๊ฐ ํ์ต ์์ด ์ค์ธ๊ณ๋ก ์ฎ๊ฒจ ๋ฏธ์ง ํ๊ฒฝ์ ๋ฏธ์ง ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ค. GraspNet์์ ์ ์ํ ์์ฐ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ ๊ฒฐ๊ณผ, ๋์ ์ ์ธ์ด ์ ๋ grasping์์ OpenVLA 7/10ยท8/10ยท5/10(50โ80%), Octo 5/10ยท3/10ยท6/10. RL์ HumanoidBench whole-body ์ ์ด๋ฅผ sim-to-sim-to-real๋ก ์ ์ดํ๋ค.

์ง์ sim-to-real(Fig. 12) โ RoboVerse ํ๋ ์์ํฌ ๋ด ํ์ต์ด ๋ฏธ์ง ํ๊ฒฝ์ ๋ฏธ์ง ๋ฌผ์ฒด ์กฐ์์์ ๋งค๋๋ฌ์ด ์ง์ sim-to-real(IL)๊ณผ whole-body humanoid ์ ์ด์ sim-to-sim-to-real(RL) ์ ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํจ์ ๋ณด์ธ๋ค.
๐ฌ ์ฌํ ๋ ธํธ (claude-curio demo)
๋ ผ๋ฌธ์ ํต์ฌ ์ฃผ์ฅ(์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ถ์ํ๊ฐ ์ค์ ๋ก ๋์ํ๋๊ฐ)์ ์๋น์ GPU ํ๊ฒฝ์์ ์ง์ ๊ฒ์ฆํ๋ค โ RTX 4070 Laptop 8GB.
- ํตํฉ APIยท๋ ๋๊น์ง ํ์ธ. MuJoCo ๋ฐฑ์๋๋ก
python metasim/example/control_test.py --sim mujoco --headless๋ฅผ ์คํํด exit 0ยท100 ์คํ ยทFranka Panda ํ๊ณผ ์ค๋ธ์ ํธ ๋ ๋ ๋น๋์ค๋ฅผ ์ป์๋ค. ๋ช ๋ น ์ฑ๊ณต์ ๊ทธ์น์ง ์๊ณ ๊ฒฐ๊ณผ๊น์ง ๊ฒ์ฆ โ ๋์ฝ๋ ๊ฒฐ๊ณผ shape (100, 1024, 1024, 3) uint8, non-blank 100/100 ํ๋ ์. - โ1-์ธ์ ๋ฐฑ์๋ ๊ต์ฒดโ๊ฐ ์ฝ๋ ๋ ๋ฒจ์์ ์ฑ๋ฆฝ.
ScenarioCfg(simulator=...)ํ ์ธ์๋ก ๋ฐฑ์๋๋ฅผ ๋ฐ๊พธ๋ ๊ตฌ์กฐ๋ฅผ ํ์ธํ๋ค. ๋ ผ๋ฌธ์ด ๋งํ๋ simulator-agnostic ์ถ์ํ๊ฐ ์ถ์๋ ํํ์ด ์๋๋ผ ์ค์ ์ธํฐํ์ด์ค๋ก ์กด์ฌํ๋ค. - ์ฌํ์ฑ ๋ํ
์ผ. ํค๋๋ฆฌ์ค MuJoCo๋
MUJOCO_GL=egl๊ฐ ํ์๋ค. extras๋ ์์ ์กฐํฉ์ด ์ ๋๋ค โ ๋ฐฑ์๋๋ณ๋ก numpy/torch/CUDA ํ์ด ๋ฌ๋ผ ์ถฉ๋ํ๋ฏ๋ก ๋ฐฑ์๋ 1๊ฐ = venv 1๊ฐ๊ฐ ์ค๋ฌด ๊ท์น์ด๋ค. - ๋ฐ๊ฒฌํ ํ๊ณ. PyBullet ๋ฐฑ์๋๋ ์ด ์ปค๋ฐ ๊ธฐ์ค ํตํฉ state API๊ฐ ๋ถ์์ ํ๋ค โ
_get_states๊ฐbody_state๋ฅผ ์ฑ์ฐ์ง ์์ ํ ์ ๊ฒ์ฆ์์TypeError๊ฐ ๋ฌ๋ค. ๋์ผ ๊ฒฝ๋ก๋ฅผ MuJoCo๋ ํต๊ณผํ๋ฏ๋ก ํ๊ฒฝ ๋ฌธ์ ๊ฐ ์๋๋ผ ๋ฐฑ์๋๋ณ ํตํฉ ์ฑ์๋ ํธ์ฐจ๋ค.
์ฌํ์ claude-curio์ ์์ฒด ๋ฐ๋ชจ(์๋ณธ MetaSim ๊ธฐ๋ฐ)๋ก ์ํํ๋ค. ๊ฒ์ฆํ ๊ฒ์ ํตํฉ ์ถ์ํ์ ๋์ ์ฌ๋ถ์ด์ง ๋ฐ์ดํฐ์ ยท๋ฒค์น๋งํฌ ์ ์ฒด ๊ท๋ชจ์ ์ฌํ์ด ์๋๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ํํธํ๋ฅผ ์ ๋ฉด์ผ๋ก ํธ๋ ์ถ์ํ. โ์ฌ ๊ธฐ์ (MetaConfig) โ๏ธ ์คํ ๋ฐฑ์๋(Handler)โ ๋ถ๋ฆฌ๋ ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํ๋ค. ์ด ํ ๋ฒ์ ๊ฒฐ์ ์ผ๋ก cross-simulatorยทhybridยทcross-embodiment๊ฐ ๋ชจ๋ ๋ฐ๋ฆ์ ๋ฆฌ๋ก ๋์จ๋ค โ ์ ํ์์ ๋ฐ๋ช ํ์ง ์๊ณ ์ปดํ์ผ๋ฌ์ ๋ถ๋ฆฌ๋ฅผ ๋ก๋ด ์๋ฎฌ๋ ์ด์ ์ ์ ์ฉํ ๊น๋ํ ์ค๊ณ.
- ๊ท๋ชจ์ ํญ์ ๋์ ๋ฌ์ฑ. 14๊ฐ manipulation ๋ฒค์น๋งํฌ + navigation(R2RยทRxRยทMatterPort3D) + locomotion(HumanoidBenchยทHumanoid-X)์ ๋จ์ผ ํฌ๋งท์ผ๋ก ๋ชจ์ 276 categoryยท510.5k trajectoryยท50M+ transition์ ๋ง๋ ๊ฒ์ ๋จ์ ์์ด ์๋๋ผ ์ด์ง์ ์์ค๋ฅผ ํต์ผํ๋ค๋ ์ ์์ ๊ฐ์น๊ฐ ํฌ๋ค.
- ๋ฒค์น๋งํฌ์ ๋์ด๋ ๊ตฌ๋ฐฐ๊ฐ ์ธก์ ์ผ๋ก ๋๋ฌ๋๋ค. 4๋จ๊ณ ํ๋กํ ์ฝ์์ ์ ์ฑ ์ฑ๊ณต๋ฅ ์ด Level์ด ์ค๋ฅผ์๋ก ๋ฌด๋์ง๋ ๊ฒ(PickCube 52.7โ0.0%)์ ๋ฒค์น๋งํฌ๊ฐ ์๋ฏธ ์๋ ์ผ๋ฐํ ์๋ ฅ์ ์ค๋ค๋ ๊ฐํ ์ฆ๊ฑฐ๋ค. โ์ ์ฑ ๊ฒฝ์์ด ์๋๋ผ ์ ๋ขฐ์ฑ ๊ฒ์ฆโ์ด๋ผ๋ ๋ชฉ์ ๊ณผ ์ผ๊ด๋๋ค.
- sim-to-real๊น์ง ๋ซ๋ end-to-end. real-to-sim ์์ฐ ๋ณต์ โ ๋ฐ์ดํฐ ์์ฑ โ ์ ์ฑ ํ์ต โ ์ง์ sim-to-real๊น์ง ํ ํ๋ ์์ํฌ์์ ๊ตด๋ฌ๊ฐ๊ณ , ์ถ๊ฐ ํ์ต ์๋ ์ ์ด๋ก 50โ80% grasping์ ๋ณด์ธ ๊ฒ์ hybrid simulation์ ์ฌ์ค์ฑ ์ฃผ์ฅ์ ์ค์ฆ์ ๋จ๋ค.
- ์๊ธฐ ํ๊ณ์ ์ ์งํ๋ค. ๋ถ๋ก์์ ์ธ ์๋ฎฌ๋ ์ดํฐ(SAPIENยทIsaac GymยทPyBullet)๊ฐ ์ด๋๋ยท๊ฐ์ด๋๋ยท์ด๋์๋์ง ๋ณด์กด ๋ฒ์น์กฐ์ฐจ ์งํค์ง ๋ชปํจ์ ์ง์ ์ธก์ ํด ๋ณด์ด๊ณ , ์ด๋ฅผ โ๋ณต์กํ ๊ฑฐ๋์ ์ง์ sim-to-real ํฌ๋ง์ ๋น๊ด์ ์ ํธโ๋ผ ์ ๋๋ค โ ์๊ธฐ ํ๋ซํผ์ ํ ๋(์๋ฎฌ๋ ์ดํฐ)์ ํ๊ณ๋ฅผ ์จ๊ธฐ์ง ์๋ ๋ณด๊ธฐ ๋๋ฌธ ์ ์งํจ.
์ฝ์ ยทํ๊ณ
- teaser ์์น์ ๋ณธ๋ฌธ ์์น์ ๋ถ์ผ์น. Fig. 1 ์บก์ ์ โ1,000+ task, 10M+ transitionโ์ ๋ด์ธ์ฐ์ง๋ง ๋ณธ๋ฌธ ํต๊ณ๋ 276 task categoryยท510.5k trajectoryยท50M+ transition์ด๋ค. ์ ์๊ฐ ๋ค๋ฅธ(task vs task category) ํ์ผ ์ ์์ผ๋, ๋ํ ๊ทธ๋ฆผ์ ์ซ์๊ฐ ๋ณธ๋ฌธ๊ณผ ์ด๊ธ๋๋ ๊ฒ์ ์ธ์ฉ ์ ํผ๋์ ๋ถ๋ฅธ๋ค โ ๋ณธ ๋ฆฌ๋ทฐ๋ ๋ณธ๋ฌธ ์์น๋ฅผ ๊ถ์๋ก ์ผ์๋ค.
- ํ๊ฐ ํ๋ณธ์ด ์๋ค. IL์ ํ์ต 10 + ๊ฒ์ฆ 10 ์๋๋ฆฌ์คยท3 seed, sim-to-real grasping์ ํ์คํฌ๋น 10ํ๋ก ํ๋ณธ์ด ์์ ํต๊ณ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ ผํ๊ธฐ ์ด๋ ต๋ค. OpenVLA๋ ์์ ์ ์ฝ์ผ๋ก 20๊ฐ ์๋๋ฆฌ์ค๋ง, VLA๋ ๋จ์ผ ํ์คํฌ ์ค์ ๋ง ํ๊ฐํ๋ค.
- ๊ธฐ์ค์ ์ด ์ต์ ์ด ์๋ ์ ์์(์ ์ ์ธ์ ). ๋ชจ๋ baseline์ RoboVerse ์์์ ์ฌ๊ตฌํํ์ผ๋ ์ผ๋ถ๋ suboptimal์ผ ์ ์๋ค๊ณ ๋ช ์ํ๋ค. ๋ฐ๋ผ์ ํ์ ์ ๋ ์์น(์: ACT NutAssembly 0.0%)๋ฅผ ์ ๋ ผ๋ฌธ ์ฑ๋ฅ๊ณผ ์ง์ ๋น๊ตํ๋ฉด ์ ๋๋ค โ ์ด๋๊น์ง๋ ์์คํ ๊ฒ์ฆ์ฉ.
- cross-embodiment์ ๋ฒ์๊ฐ ์ข๋ค. retargeting์ด ํํ ๊ทธ๋ฆฌํผ ๋ก๋ด์ ํ์ ๋๋ค. dexterous handยท๋ค์ง ์ ๊ฐ ์ผ๋ฐ retargeting์ ๋ค๋ฃจ์ง ์์, ์์ฌ์ฃผ ์กฐ์ ๋ฐ์ดํฐ์ cross-embodiment ์ฌ์ฌ์ฉ์ ๋ฒ์ ๋ฐ์ด๋ค.
- ๋น๊ฐ์ฒดยทfoundation model์ ๋ฏธ์. ๋น๊ฐ์ฒด ๋ฌผ์ฒด์ ํต์ผ ํฌ๋งท์ด ์์ง ๋ฏธ์ง์์ด๊ณ (ํ๊ณ๋ก ๋ช ์), ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก foundation model์ ์ฌ์ ํ์ตํ๋ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ํ์ฉ์ ์์ ์ ์ฝ์ผ๋ก ๋ณธ ๋ ผ๋ฌธ ๋ฒ์ ๋ฐ์ด๋ค โ โ๋ฐ์ดํฐ์ ์ ๋ง๋ค์๋คโ์ โ๊ทธ ๋ฐ์ดํฐ๋ก ๋ฌด์์ด ๊ฐ๋ฅํ๊ฐโ๋ ์์ง ๋ถ๋ถ์ ์ผ๋ก๋ง ์ฐ๊ฒฐ๋๋ค.
- ์๋ฎฌ๋ ์ดํฐ ๋ฌผ๋ฆฌ ์์ฒด์ ์ฒ์ฅ. ๋ณด์กด ๋ฒ์น ์๋ฐ ์คํ์ด ๋ณด์ฌ์ฃผ๋ฏ, ํตํฉ ์ถ์ํ๊ฐ ์๋ฌด๋ฆฌ ๊น๋ํด๋ ํ๋ถ ์๋ฎฌ๋ ์ดํฐ๋ค์ ๋ฌผ๋ฆฌ ๋ถ์ ํ์ฑ์ ๊ทธ๋๋ก ์์๋๋ค. ํตํฉ์ด ์ ํ์ฑ์ ๋ง๋ค์ด์ฃผ์ง๋ ์๋๋ค.
- ์ธํ๋ผยท์ ์ง๋ณด์ ๋ถ๋ด. 6๊ฐ ์๋ฎฌ๋ ์ดํฐ ๋ฐฑ์๋๋ฅผ ๋์์ ์ ๋ ฌยท์ ์งํ๋ ๊ฒ์ ์ง์์ ๋น์ฉ์ด๋ฉฐ, ๊ฐ ์๋ฎฌ๋ ์ดํฐ ์ ๋ฐ์ดํธ๋ง๋ค Handler ์ ํฉ์ ๋ง์ถฐ์ผ ํ๋ค. ๋ ผ๋ฌธ์ ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ๋ก ์ ์งํ์๊ณ ์ ์ํ๋, ์ฅ๊ธฐ ์ ํฉ์ฑ์ ์ด๋ฆฐ ๋ฌธ์ ๋ค.
- ๋ฐฑ์๋๋ณ ํตํฉ ์ฑ์๋ ํธ์ฐจ. 6๊ฐ ๋ฐฑ์๋ ๋๋ฑ ์ง์์ ํ๋ฐฉํ์ง๋ง ์ค์ ์ฑ์๋๋ ๋ฐฑ์๋๋ง๋ค ๋ค๋ฅด๋ค โ ์ ์ฌํ ๋
ธํธ์์ MuJoCo๋ ํตํฉ state API๊ฐ ์ ์ ๋์ํ ๋ฐ๋ฉด PyBullet์ ๊ฐ์ ๊ฒฝ๋ก์์
body_state๋ฅผ ์ฑ์ฐ์ง ๋ชปํด ์คํจํ๋ค. โํตํฉ ์ธํฐํ์ด์คโ๊ฐ ๋ชจ๋ ๋ฐฑ์๋์์ ๋์ผ ์์ค์ผ๋ก ์์ฑ๋๋ค๊ณ ๊ฐ์ ํ๋ฉด ์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ๋งค๊น
RoboVerse๋ ์ธ ํ๋ฆ์ ํฉ๋ฅ์ ์ ์๋ค. ์ฒซ์งธ, ๋ก๋ด ์๋ฎฌ๋ ์ดํฐยท๋ฐ์ดํฐ ์์ฑ๊ธฐ: GPU ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐยท๋ ๋๋ง์ ์ ๊ณตํ๋ ManiSkill3 ๋ฆฌ๋ทฐ๋ RoboVerse๊ฐ ๋ง์ด๊ทธ๋ ์ด์ ํ๋ ์์ค ์ค ํ๋์ด๋ฉฐ, โ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ์ ๊น์ด vs ๋ค์ค ์๋ฎฌ๋ ์ดํฐ์ ํตํฉโ์ด๋ผ๋ ๋๋น๋ฅผ ์ด๋ฃฌ๋ค. ๊ฐํ domain randomization์ ๊ฐ์ถ ํ์ฅํ ๋ฐ์ดํฐ ์์ฑ๊ธฐยท๋ฒค์น๋งํฌ RoboTwin2 ๋ฆฌ๋ทฐ์๋ ๋ชฉํ(ํ์ฅ ๊ฐ๋ฅ ๋ฐ์ดํฐ + ๊ฒฌ๊ณ ํ ๋ฒค์น๋งํฌ)๊ฐ ๋งค์ฐ ๊ฐ๊น๋, RoboVerse๋ ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ๊ฐ ์๋๋ผ ์๋ฎฌ๋ ์ดํฐ-ํก๋จ ํตํฉ์ ํํ ์ ์ด ๋ค๋ฅด๋ค. ๋์งธ, ๋ฒค์น๋งํฌ: 1,000๊ฐ ์ผ์ ํ๋์ ๋ด์ BEHAVIOR-1K ๋ฆฌ๋ทฐ, whole-body locomotionยทmanipulation์ HumanoidBench ๋ฆฌ๋ทฐ๋ RoboVerse๊ฐ ์ง์ ๋ง์ด๊ทธ๋ ์ด์ ํด RL ๋ฒค์น๋งํฌ๋ก ํก์ํ ๋์์ผ๋ก, โ๊ฐ๋ณ ๋ฒค์น๋งํฌ vs ๋ฒค์น๋งํฌ๋ค์ ๋ฉํ-ํตํฉโ์ด๋ผ๋ ์ธต์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋ค. RoboVerse์ sim-to-sim-to-real humanoid ์ ์ด๋ Whole-Body Humanoid Locomotion ๋ฆฌ๋ทฐ์ ๋ง๋ฟ๋๋ค. ์ ์งธ, ๋ฐ์ดํฐ ์ฆ๊ฐยทworld model: ๊ถค์ ์ฆ๊ฐ์ DexMimicGen ๋ฆฌ๋ทฐ๊ฐ ํ์ฅํ MimicGen ํ๋ ์์ํฌ(object-centric subtask ๋ถํด)์ ๊ธฐ๋ฐํ๋ฉฐ, world model ์คํ์ ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ world model์ ๋ค๋ฃจ๋ Newt(TD-MPC2 World Model) ๋ฆฌ๋ทฐ์ โํฉ์ฑ ๋ฐ์ดํฐ๊ฐ world model ํ์ต์ ๋ณด๊ฐํ๋๊ฐโ๋ผ๋ ์ง๋ฌธ์์ ๋ง๋๋ค.
์์ฝ
RoboVerse์ ๊ธฐ์ฌ๋ โ๋ก๋ด ํ์ต์ ์ค์ผ์ผ๋ง ๋ณ๋ชฉ์ ๋ชจ๋ธ์ด ์๋๋ผ ์๋ฎฌ๋ ์ด์ ์ธํ๋ผ์ ํํธํ์ด๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ-๋ถ๊ฐ์ง๋ก ์ถ์ํ(MetaSim) ํ๋๋ก ํฉ์ด์ง ์๋ฎฌ๋ ์ดํฐยท๋ฒค์น๋งํฌยท๋ฐ์ดํฐ๋ฅผ ๋จ์ผ ํฌ๋งท์ผ๋ก ํตํฉํ ์ ์๋คโ๋ ์์คํ ์ ๋ช ์ ๋ฅผ ๊ด๋ฒ์ํ ์ค์ฆ์ผ๋ก ๋ท๋ฐ์นจํ ๋ฐ ์๋ค. MetaConfig(์ฌ ๊ธฐ์ ) โ๏ธ Handler(๋ฐฑ์๋ ์คํ) โ๏ธ Gym ๋ํผ์ 3๊ณ์ธต์ด cross-simulatorยทhybridยทcross-embodiment๋ฅผ ๋ฐ๋ฆ์ ๋ฆฌ๋ก ๋ง๋ค๊ณ , ๊ทธ ์์์ 14๊ฐ ๋ฒค์น๋งํฌ ๋ง์ด๊ทธ๋ ์ด์ + teleoperationยทAI ์์ฑยทreal-to-sim + ์ฆ๊ฐยทrandomization์ผ๋ก 276 categoryยท510.5k trajectoryยท50M+ transition์ ์๋๋ค. IL ๋ฒค์น๋งํฌ(DP 48.6%ยทACT 50.0%)์ 4๋จ๊ณ ์ผ๋ฐํ(PickCube 52.7โ0.0%)๋ ๋ฐ์ดํฐยท๋ฒค์น๋งํฌ์ ์ ๋ขฐ์ฑ๊ณผ ๋์ด๋ ๊ตฌ๋ฐฐ๋ฅผ ๊ฒ์ฆํ๊ณ , RoboVerse ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ OpenVLA์ ์ง์ sim-to-real grasping 50โ80%๋ hybrid simulation์ ์ฌ์ค์ฑ์ ์ค์ฆํ๋ค. ํ๊ณ๋ ๋ถ๋ช ํ๋ค โ teaser ์์น ๋ถ์ผ์น, ์์ ํ๊ฐ ํ๋ณธ, ํํ ๊ทธ๋ฆฌํผ์ ํ์ ๋ cross-embodiment, ๋ฏธ์์ ๋น๊ฐ์ฒดยทfoundation model ํ์ฉ, ๊ทธ๋ฆฌ๊ณ ๋ณด์กด ๋ฒ์น์กฐ์ฐจ ์ด๊ธฐ๋ ํ๋ถ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์ฒ์ฅ. ๊ทธ๋ผ์๋ โ์ ์ฑ ๊ฒฝ์ ์ด์ ์ ๊ณต์ฉ ๊ธฐ๋ฐ์ ๋จผ์ ๊น๋คโ๋ ์ด ํ๋ ์์ํฌ์ ๊ด์ ์, ํํธํ๋ก ๋ฉ์ถฐ ์๋ ์๋ฎฌ๋ ์ด์ ๋ณด์กฐ ๋ก๋ด ํ์ต์ ์ค๋๋ ฅ ์๋ ํตํฉ ์ฒญ์ฌ์ง์ ์ ์ํ๋ค. (์ฝ๋ยท๋ฐ์ดํฐ์ ์ ํ๋ก์ ํธ ํ์ด์ง์ ๊ณต๊ฐ โ ์ฌํ ํ๊ฐ๋ ํ๊ฒฝ ๊ตฌ์ถ ํ ๊ฐ๋ฅ.)