๐DrEureka ๋ฆฌ๋ทฐ
- ๐ค ์ด ๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ๋ก๋ด ์ ์ฑ ์ ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด์ํค๋ ๊ณผ์ ์์ ๋ณด์ ํจ์์ ์๋ฎฌ๋ ์ด์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ ์๋ ์ค๊ณ ๋ฐ ํ๋์ผ๋ก ์ธํ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด LLM ๊ธฐ๋ฐ์ DrEureka๋ฅผ ์ ์ํฉ๋๋ค.
- โ๏ธ DrEureka๋ LLM์ ํ์ฉํ์ฌ ์์ ์ง์นจ์ด ํฌํจ๋ ๋ณด์ ํจ์๋ฅผ ์๋ ์์ฑํ๊ณ , ์ด๊ธฐ ์ ์ฑ ์ ํตํด ํ๊ฒฝ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ Reward-Aware Physics Prior (RAPP)๋ฅผ ๊ตฌ์ถํ ๋ค, ์ด ์ฌ์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก Domain Randomization ๊ตฌ์ฑ์ ์ต์ ํํฉ๋๋ค.
- ๐ ์ ์๋ DrEureka๋ ์ฌ์กฑ ๋ณดํ ๋ฐ ์ ๊ตํ ์กฐ์ ์์ ์์ ๊ธฐ์กด์ ์๋ ์ค๊ณ ๋ฐฉ์๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์๊ฐ ๋ณผ ์์์ ๋ก๋ด ๊ท ํ ์ก๊ธฐ์ ๊ฐ์ ์๋ก์ด ๋์ ์ ์ธ ์์ ๋ ์๋ ๊ฐ์ ์์ด ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ์ฌ sim-to-real ์ ์ด๋ฅผ ๊ฐ์ํํ๋ ์ ์ฌ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
Brief Review
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ๊ธฐ์ ์ต๋์ ๊ฐ์ํํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ์ค์ ํ๊ฒฝ์ผ๋ก ์ ์ด์ํค๋ Sim-to-Real(์๋ฎฌ๋ ์ด์ -์ค์ ํ๊ฒฝ ์ ์ด) ๊ณผ์ ์์ ๋ฐ์ํ๋ ์๋ ์ค๊ณ ๋ฐ ํ๋์ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ํนํ, ๋ณด์ ํจ์(reward function) ์ค๊ณ์ ์๋ฎฌ๋ ์ด์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ ๋๋ฉ์ธ ๋๋คํ(Domain Randomization, DR) ๋ถํฌ ์ค์ ์ ํ์ํ ์๋นํ ์ธ์ ๋ ธ๋ ฅ๊ณผ ์๊ฐ์ ์ค์ด๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Large Language Models, LLMs)์ ๋ฌผ๋ฆฌ์ ์์(physical common sense) ๋ฐ ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ด๋ฌํ Sim-to-Real ์ค๊ณ ๊ณผ์ ์ ์๋ํํ๋ DrEureka๋ผ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. DrEureka๋ ๋์ ์์ ์ ๋ํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ง ์ฃผ์ด์ง๋ฉด, ์ค์ ํ๊ฒฝ ์ ์ด๋ฅผ ์ง์ํ๊ธฐ์ ์ ํฉํ ๋ณด์ ํจ์์ ๋๋ฉ์ธ ๋๋คํ ๋ถํฌ๋ฅผ ์๋์ผ๋ก ๊ตฌ์ฑํฉ๋๋ค.

DrEureka์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- LLM ๊ธฐ๋ฐ ๋ณด์ ํจ์ ํฉ์ฑ (LLM-Guided Reward Function Synthesis):
- ์ด ๋จ๊ณ๋ Eureka [9]์ ๋ณด์ ํจ์ ์ค๊ณ ์์น์ ๊ธฐ๋ฐ์ผ๋ก ํ๋, Sim-to-Real ์ค์ ์ ๋ง๊ฒ ๊ฐ์ ๋์์ต๋๋ค.
- LLM์ ํ์คํฌ ์ค๋ช (l_{\text{task}})๊ณผ ํ๊ฒฝ ์ฝ๋(M)์์ ์ ๊ณต๋๋ ํ๊ฒฝ ์ํ ๋ฐ ์ก์ ๊ณต๊ฐ ์์ฝ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
- ํนํ, DrEureka๋ ํ๋กฌํํธ์ ์์ ์ฑ(safety), ๋ถ๋๋ฌ์(smoothness), ๋ฐ๋์งํ ํ์คํฌ๋ณ ์์ฑ ๋ฑ์ ๋ช ์์ ์ผ๋ก ๊ณ ๋ คํ๋๋ก โ์์ ์ง์นจ(safety instruction)โ(l_{\text{safety}})์ ์ถ๊ฐํฉ๋๋ค. ์ด๋ LLM์ด ์ค์ ํ๊ฒฝ ์ ์ด์ ๋ ์ ํฉํ ์์ ๋ณด์ฅํ(safety-regularized) ๋ณด์ ํจ์๋ฅผ ์์ฑํ๋๋ก ์ ๋ํฉ๋๋ค.
- LLM์ ์ฌ๋ฌ ๋ณด์ ํจ์ ํ๋ณด๋ฅผ ์ฝ๋๋ก ์์ฑํ๊ณ , ๊ฐ ํ๋ณด๋ ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ํตํด ์ ์ฑ ์ ํ์ตํ๊ณ ํ์คํฌ ์ ์(F)๋ฅผ ๊ณ์ฐํ์ฌ ํ๊ฐ๋ฉ๋๋ค.
- ์ด๋ฌํ ์ ์์ ํ์ต ํต๊ณ(์: ํ์ต ์ค ๋ณด์ ๊ตฌ์ฑ ์์์ ๊ฐ)๋ LLM์ ํผ๋๋ฐฑ์ผ๋ก ์ ๊ณต๋์ด ๋ ๋์ ๋ณด์ ํจ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ฐ์ ์ํต๋๋ค.
- ์ต์ข ์ ์ผ๋ก, ์ด ๋จ๊ณ์์๋ ์ต์ ์ ๋ณด์ ํจ์(R_{\text{DrEureka}})์ ์ด์ ์์ํ๋ ์ด๊ธฐ ์ ์ฑ (\pi_{\text{initial}})์ ์ป์ต๋๋ค: R_{\text{DrEureka}}, \pi_{\text{initial}} := \text{Eureka}(M, l_{\text{task}} + l_{\text{safety}})
- ๋ณด์ ์ธ์ง ๋ฌผ๋ฆฌ ์ฌ์ ์์ฑ (Reward-Aware Physics Prior, RAPP):
- ์์ ํ ๋ณด์ ํจ์๋ ์ ์ฑ ํ๋์ ๊ท์ ํ์ง๋ง, Sim-to-Real ์ ์ด์๋ ์ถฉ๋ถํ์ง ์์ต๋๋ค.
- DrEureka๋ ํ์ต๋ ์ด๊ธฐ ์ ์ฑ (\pi_{\text{initial}})์ ์ฌ์ฉํ์ฌ ๋๋ฉ์ธ ๋๋คํ ํ๋ผ๋ฏธํฐ์ ๋ํ โ๋ณด์ ์ธ์ง ๋ฌผ๋ฆฌ ์ฌ์ โ(RAPP)์ ๊ตฌ์ถํฉ๋๋ค.
- RAPP์ ๋ชฉ์ ์ \pi_{\text{initial}}์ด ์ฌ์ ํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ํ๊ฒฝ ํ๋ผ๋ฏธํฐ์ ์ต๋ ๋ค์์ฑ ๋ฒ์๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋๋ฉ์ธ ๋๋คํ๊ฐ ํ์คํฌ ๋ณด์ ํจ์์ ๋ฐ๋ผ ๋ฌ๋ผ์ ธ์ผ ํ๋ฉฐ, ๋๋ฉ์ธ ๋๋คํ ์์ด ํ์ต๋ ์ ์ฑ ํ๋์ ๋ง๊ฒ ์ปค์คํฐ๋ง์ด์ง๋์ด์ผ ํ๋ค๋ ํต์ฐฐ์์ ์ถ๋ฐํฉ๋๋ค.
- ๊ตฌ์ฒด์ ์ผ๋ก, RAPP๋ ๊ฐ ๋๋ฉ์ธ ๋๋คํ ํ๋ผ๋ฏธํฐ์ ๋ํด โ์คํ ๊ฐ๋ฅํ(feasible)โ ๊ฐ์ ํํ ๋ฐ ์ํ์ ๊ณ์ฐํฉ๋๋ค. ์ด๋ ๊ด๋ฒ์ํ ์ ์ฌ์ ๊ฐ๋ค์ ํ์ํ๊ณ , ๊ฐ ๊ฐ์ ์๋ฎฌ๋ ์ด์ ์ ์ค์ ํ ํ(S.p = r), \pi_{\text{initial}}์ ์ด ์์ ๋ ์๋ฎฌ๋ ์ด์ ์์ ์คํํฉ๋๋ค. ์ ์ฑ ์ ์ฑ๋ฅ์ด ๋ฏธ๋ฆฌ ์ ์๋ ์ฑ๊ณต ๊ธฐ์ค์ ๋ง์กฑํ๋ฉด ํด๋น ๊ฐ์ ํด๋น ํ๋ผ๋ฏธํฐ์ ๋ํด ์คํ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
- ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ์คํ ๊ฐ๋ฅํ ๋ชจ๋ ๊ฐ ์งํฉ์ด ์ฃผ์ด์ง๋ฉด, ํ๋ผ๋ฏธํฐ์ ํํ ๋ฐ ์ํ์ ์ต์ ๋ฐ ์ต๋ ์คํ ๊ฐ๋ฅํ ๊ฐ์ผ๋ก ์ค์ ๋ฉ๋๋ค. ์ด ๊ณผ์ ์ ๊ณ์ฐ์ ์ผ๋ก ๊ฐ๋ณ๊ณ ๋ณ๋ ฌ์ ์ผ๋ก ํจ์จ์ ์ผ๋ก ์ํ๋ ์ ์์ต๋๋ค.
- LLM ๊ธฐ๋ฐ ๋๋ฉ์ธ ๋๋คํ ๊ตฌ์ฑ ์์ฑ (LLM for Domain Randomization):
- ์ด ์ต์ข ๋จ๊ณ์์๋ RAPP๊ฐ ๊ณ์ฐํ ๊ฐ DR ํ๋ผ๋ฏธํฐ์ ๋ํ ๋ฒ์ ์ ๋ณด๋ฅผ LLM์ ์ปจํ ์คํธ๋ก ์ ๊ณตํฉ๋๋ค.
- LLM์ ์ด ์ปจํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก (1) ๋๋คํํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ์ ๋ถ๋ถ์งํฉ์ ์ ํํ๊ณ , (2) ์ ํ๋ ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ๋๋คํ ๋ฒ์๋ฅผ ๊ฒฐ์ ํ๋๋ก ์ง์๋ฐ์ต๋๋ค.
- ์ด๋ LLM์ ์ ๋ก์ท(zero-shot) ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ฌ๋ฌ ๋ ๋ฆฝ์ ์ธ DR ๊ตฌ์ฑ ํ๋ณด(\mathcal{T}_1, \ldots, \mathcal{T}_m)๋ฅผ ์์ฑํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ์์ฑ๋ ๋ณด์ ํจ์(R_{\text{DrEureka}})์ ๊ฐ DR ๊ตฌ์ฑ(\mathcal{T}_i)์ ์ฌ์ฉํ์ฌ RL์ ํตํด ์ต์ข ์ ์ฑ (\pi_{\text{final},i} = \text{A}(M, \mathcal{T}_i, R_{\text{DrEureka}}))์ ํ์ตํ๊ณ ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌํฉ๋๋ค.
DrEureka๋ quadrupedal locomotion ๋ฐ dexterous manipulation ํ์คํฌ์ ๋ํ ํ๊ฐ์์ ๊ธฐ์กด์ ์๋ ์ค๊ณ ๊ตฌ์ฑ๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, quadruped locomotion ํ์คํฌ์์ DrEureka๋ก ํ์ต๋ ์ ์ฑ ์ ์ธ๊ฐ ์ค๊ณ ๋ณด์ ํจ์ ๋ฐ DR ํ๋ผ๋ฏธํฐ๋ก ํ์ต๋ ์ ์ฑ ๋ณด๋ค ์ ์ง ์๋์์ 34%, ์ด๋ ๊ฑฐ๋ฆฌ์์ 20% ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋์ต๋๋ค. ๋ํ, ์๊ฐ ๋ณผ ์์์ ๊ท ํ์ ์ก๊ณ ๊ฑท๋ ๊ฒ๊ณผ ๊ฐ์ ์๋ก์ด ๋ก๋ด ํ์คํฌ๋ฅผ ์๋ ์ค๊ณ ์์ด ํด๊ฒฐํ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ์ด๋ DrEureka๊ฐ ๋ก๋ด ๊ธฐ์ ๋ฐ๊ฒฌ์ ๊ฐ์ํํ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ์์ฌํฉ๋๋ค.

์์ฝํ๋ฉด, DrEureka๋ LLM์ ํ์ฉํ์ฌ Sim-to-Real ์ ์ด์ ํต์ฌ ๋ณ๋ชฉ์ธ ๋ณด์ ์ค๊ณ์ ๋๋ฉ์ธ ๋๋คํ ํ๋ผ๋ฏธํฐ ๊ตฌ์ฑ์ ์๋ํํจ์ผ๋ก์จ, ์ธ๊ฐ์ ๊ฐ์ ์์ด๋ ํจ๊ณผ์ ์ด๊ณ ์ค์ ํ๊ฒฝ์ ๊ฐ๊ฑดํ ๋ก๋ด ์ ์ฑ ์ ํ์ตํ ์ ์๊ฒ ํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค.
Detail Review
DrEureka: LLM ํ์ฉ Sim-to-Real ์ ์ด โ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (RSS 2024)
์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ํ์ค์ ๋ก๋ด์ ๊ทธ๋๋ก ์ด์(Sim-to-Real) ํ๋ ๊ฒ์ ๋ก๋ด ๊ธฐ์ ํ์ฅ์ ๋งค์ฐ ์ ๋งํ ์ ๊ทผ์ ๋๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด Sim-to-Real ์ ์ด ๊ธฐ๋ฒ๋ค์ ์์ ๋ณด์ ํจ์ ์ค๊ณ์ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ํ๋์ ์ฌ๋ ์์ผ๋ก ๋ฐ๋ณต ์กฐ์ ํด์ผ ํ๊ธฐ์, ๋ง์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ๋ค์์ต๋๋ค . ์ด๋ฒ ๋ฆฌ๋ทฐ์์๋ ์ด๋ฌํ ๊ณผ์ ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๋ก ์๋ํํ์ฌ ์๋ฎฌ๋ ์ด์ -ํ์ค ์ ์ด ์ค๊ณ๋ฅผ ๊ฐ์ํํ ์ฐ๊ตฌ โDrEureka: Language Model Guided Sim-To-Real Transferโ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค . ์ด ๋ ผ๋ฌธ์ 2024๋ Robotics: Science and Systems (RSS)์ ๋ฐํ๋์์ผ๋ฉฐ, UPennยทUT AustinยทNVIDIA ์ฐ๊ตฌ์ง์ด ํ์ ํ ๊ฒฐ๊ณผ๋ฌผ์ ๋๋ค. DrEureka๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ง์ผ๋ก ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค์ ๋ณด์ ํจ์์ ๋๋ฉ์ธ ๋๋คํ ๊ตฌ์ฑ์์๋ฅผ ์๋ ์์ฑํด, ๋ณ๋ ์์์ ์์ด๋ ํ์ค ๋ก๋ด์ ์ ์ฉ ๊ฐ๋ฅํ ์ ์ฑ ์ ํ์ต์์ผฐ์ต๋๋ค . ์๋์์๋ ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด์ ๊ธฐ์ฌ, ๊ธฐ์ ์ ์ ๊ทผ ๋ฐฉ๋ฒ, ์คํ ๋ฐ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋๋น ์ฐจ๋ณ์ , ํ๊ณ์ ํฅํ ๊ณผ์ ๋ฅผ ์ฐจ๋ก๋ก ์ ๋ฆฌํฉ๋๋ค.
1. ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด์ ์ฃผ์ ๊ธฐ์ฌ
DrEureka์ ํต์ฌ ์์ด๋์ด๋ LLM์ ํ์ฉํด Sim-to-Real ๊ณผ์ ์ ๋์ ์ ์๋ํํ๋ ๊ฒ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฌ๋์ด ์ผ์ผ์ด ์ง๋ ๋ณด์ ํจ์ ์ค๊ณ์ ๋๋ฉ์ธ ๋๋คํ(Domain Randomization) ํ๋ผ๋ฏธํฐ ์ค์ ์ LLM์ด ๋์ ์ํํฉ๋๋ค . ์ด๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก ์ง์์ด๋ ์ ์ฑ ์ ์ฎ๊ธธ ๋ ํ์ํ ๊น๋ค๋ก์ด ์ค๊ณ ์์ ์ ๋ํญ ์ค์ด๊ณ , ์๋ํ๋ ํ์ดํ๋ผ์ธ์ผ๋ก ์ ์ํ๊ฒ ์ต์ ๊ตฌ์ฑ์ ์ฐพ์๋ ๋๋ค .
์ฃผ์ ๊ธฐ์ฌ
- LLM ๊ธฐ๋ฐ Sim-to-Real ์๋ํ ๊ธฐ๋ฒ ์ ์ โ ๋ณด์ ํจ์ ์ค๊ณ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋๋ฉ์ธ ๋๋คํ๋ฅผ ๋์์ ์๋ ๊ตฌ์ฑํ๋ DrEureka ์๊ณ ๋ฆฌ์ฆ์ ์ ์ .
- ๋ค์ํ ๋ก๋ด ๊ณผ์ ์ ๋ํ ์ค์ธ๊ณ ๊ฒ์ฆ โ ์ฌ์กฑ๋ณดํ ๋ก๋ด Unitree Go1์ ๊ณ ์ ์ ์ง ๋ณดํ, ๋ก๋ด ์(LEAP Hand)์ ํ๋ธ ์กฐ์ ๋ฑ์์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์ค๊ณ๋ณด๋ค ์ฐ์ํ ์ ์ฑ ์ ๋ฌ์ฑ .
- ์๋ก์ด ๋์ ๊ณผ์ ์์์ ์ฑ๊ณต์ ์ ์ด โ ์๊ฐ ๊ณต ์ ๊ฑท๊ธฐ๋ผ๋ ์์ ํ ์๋ก์ด ๊ณผ์ ๋ฅผ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ์๋ ์ปค๋ฆฌํ๋ผ์ผ๋ก ํ์ตํ๊ณ , ํ์ค ๋ก๋ด์ ๊ณง์ฅ ์ ์ฉํด ์ ๋ถ๊ฐ ๊ท ํ์ ์ ์งํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑ .
2. ์ฌ์ฉ๋ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ธฐ์ ์ ์ ๊ทผ ๋ถ์
DrEureka๋ ์ธ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ ํตํด ํ๊ฒฝ๊ณผ ๋ณด์ ์ค๊ณ๋ฅผ ์๋ํํฉ๋๋ค .
- ๋ณด์ ํจ์ ์์ฑ
- ๊ณผ์ ์ค๋ช ๊ณผ ์์ ์ง์นจ์ LLM(GPT-4 ๋ฑ)์ ์ ๊ณต.
- LLM์ด ๋ณด์ ํจ์ ์ฝ๋(์: ํ์ด์ฌ+NumPy)๋ฅผ ์์ฑ.
- โ์์ ํ๋กฌํํธโ๋ฅผ ํตํด ๋ฌด๋ฆฌํ ๊ฐ์, ๊ด์ ์์์ ์ ๋ฐํ๋ ๋ณด์์ ํผํ๊ณ , ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์์ ๊ณ ๋ คํ๋๋ก ์ ๋ .
- ์ฌ๋ฌ ํ๋ณด๋ฅผ ์๋ฎฌ๋ ์ด์ ์์ ํ๊ฐ ํ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์ ๋ณด์ ํจ์๋ฅผ ์ ํ .
- RAPP (Reward-Aware Physics Prior)
- ์ ํ๋ ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ์ ๋ฃ๊ณ , ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(๋ง์ฐฐ, ์ง๋, ๊ฐ์ , ๊ด์ฑ ๋ฑ)๋ฅผ ํ๋์ฉ ๋ณํ์์ผ ์ ์ฑ ์ฑ๋ฅ์ด ์ ์ง๋๋ ๋ฒ์๋ฅผ ์ฐพ์ .
- ์ ์ฑ ์ด ์คํจํ์ง ์๋ ์ต์โ์ต๋ ํ์ฉ ๋ฒ์๋ฅผ ๊ธฐ๋กํ์ฌ, ์ดํ LLM์๊ฒ ์ ๋ฌํ ๋ฌผ๋ฆฌ prior๋ก ํ์ฉ .
- ์ด ๋จ๊ณ๋ ์ ์ฑ ์ด ๊ฒฌ๋ ์ ์๋ ๋ฌผ๋ฆฌ์ ํ๊ณ๋ฅผ ํ์ํ๋ ๊ณผ์ ์ผ๋ก, ๊ณผ๋ํ๊ฒ ๋์ ๋๋คํ๋ฅผ ๋ฐฉ์ง .
- LLM ๊ธฐ๋ฐ ๋๋ฉ์ธ ๋๋คํ ์์ฑ
- LLM์ ๋๋คํ ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ์ RAPP ๋ฒ์๋ฅผ ์ ๊ณต .
- LLM์ด ์ด๋ค ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ค ๋ถํฌ๋ก ์ํ๋งํ ์ง ์ ์(์: ๋ง์ฐฐ 0.6โ1.0 ๋ฒ์์์ ๊ท ์ผ ๋ถํฌ) .
- LLM์ด ๋์์ ์ฌ๋ฌ ํ๋ณด์์ ์์ฑ, ๊ฐ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ์์ RL ํ๋ จํ์ฌ ์ต์ข ์ ์ผ๋ก ํ์ค์์ ๊ฐ์ฅ ์ฑ๋ฅ ์ข์ ์ ์ฑ ์ ํ .
์ด ๊ณผ์ ์ ๋ฐ๋ณตํจ์ผ๋ก์จ DrEureka๋ LLMโ์๋ฎฌ๋ ์ดํฐ ๊ณต์งํ ๋ฃจํ๋ฅผ ํ์ฑํ๊ณ , ๋ณด์ ์ค๊ณ + ๋๋คํ ์ค๊ณ๋ฅผ ์ธ๊ฐ ๊ฐ์ ์์ด ์๋์ผ๋ก ์ต์ ํํ ์ ์์ต๋๋ค .
3. ์คํ ์ค๊ณ ๋ฐ ๊ฒฐ๊ณผ ํ๊ฐ
DrEureka๋ ๋ ๊ฐ์ง ๋ํ ๊ณผ์ ์ ํ๋์ ๋์ ์ ๊ณผ์ ๋ฅผ ํตํด ๊ฒ์ฆ๋์์ต๋๋ค.
- ์ฌ์กฑ๋ณดํ ์ ์ง (Go1 ๋ก๋ด)
- ๋ชฉํ: 2 m/s ์๋๋ก ๋น ๋ฅด๊ฒ ์ ์ง.
- ๋น๊ต: ์ธ๊ฐ ์ค๊ณ ๋ณด์+DR vs DrEureka ์๋ ์ค๊ณ.
- ๊ฒฐ๊ณผ: DrEureka ์ ์ฑ ์ด ํ๊ท ์๋ 34%โ, ์ด๋ ๊ฑฐ๋ฆฌ 20%โ ์ฑ๋ฅ ํฅ์ .
- ์งํ ์ผ๋ฐํ ํ๊ฐ(์ค๋ด ๋ฐ๋ฅ, ์๋, ๋ณด๋๋ธ๋ก, ์๋ง ์ ๊ธด ๋ฐ)์์๋ ์์ ์ ์ฑ๋ฅ ์ ์ง .
- Dexterous Manipulation (LEAP Hand, ํ๋ธ ๋๋ฆฌ๊ธฐ)
- ๋ชฉํ: ์๋ฐ๋ฅ ์ ํ๋ธ๋ฅผ ์ต๋ํ ๋ง์ด ํ์ ์ํค๊ธฐ.
- ๊ฒฐ๊ณผ: DrEureka ์ ์ฑ ์ด ์ธ๊ฐ ์ค๊ณ ๋๋น ์ฝ 3๋ฐฐ ๋ ๋ง์ ํ์ ์ฑ๊ณต .
- ์ ์ฑ ์ ์์ ์ฑ์ด ๋์ ์ค์ ๋ก๋ด์์๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์ .
- ์๊ฐ ๊ณต ์ ๊ฑท๊ธฐ (Ball Balancing)
- ์์ ํ ์๋ก์ด ๊ณผ์ : ํฐ ์๊ฐ ๊ณต ์์์ ๊ท ํ ์ก์ผ๋ฉฐ ์ ์ง.
- ๊ฒฐ๊ณผ: ์๋ฎฌ๋ ์ด์ ํ์ต ์ ์ฑ ์ ๊ณง์ฅ ํ์ค ์ ์ฉ, ์ ๋ถ๊ฐ ๊ท ํ ์ ์งํ๋ฉฐ ๊ฑท๊ธฐ ์ฑ๊ณต .
- ๊ต๋(๋ฐ๋ก ๊ณต์ ์ฐจ๊ฑฐ๋ ๊ณต์ ๊ณต๊ธฐ์์ ์ค์)์๋ ๋ก๋ด์ด ์ค์ค๋ก ๊ท ํ์ ํ๋ณต .
์ด ์คํ๋ค์ DrEureka๊ฐ ๋ค์ํ ํ๊ฒฝ์์ ํ์ตํ ์ ์ฑ ์ด ์๋ฎฌ๋ ์ด์ ์ ๋์ด ํ์ค์์๋ ๊ฐ๊ฑดํ๊ฒ ๋์ํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ธฐ์กด์ ์์์ ๊ธฐ๋ฐ ์ ๊ทผ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค .


Unitree Go1์ด ๋ค์ํ ์ค์ ์ง๋ฉด ์์์ DrEureka๋ก ํ์ตํ ์ ์ฑ ์ ์คํํ๋ ๋ชจ์ต. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์์ ์ฑ๊ณผ ์๋ ๋ชจ๋ ์ฐ์ํจ์ ๋ณด์ฌ์ค .

4. ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ ๋ฐ ๊ธฐ์ฌ
- LLM in Sim-to-Real ์ค๊ณ: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๋ก๋ด ์ฐ๊ตฌ๋ ์ฃผ๋ก ์์ฐ์ด๋ฅผ ๊ณ ์์ค ๊ณํ์ผ๋ก ๋ณํํ๊ฑฐ๋, ๋จ์ํ ํ๊ฒฝ ์ํ๋ง ์์ค์ ๊ทธ์ณค์ต๋๋ค . DrEureka๋ ์ฒ์์ผ๋ก ๋ณด์ ํจ์์ ๋๋ฉ์ธ ๋๋คํ๊น์ง ํฌํจํ Sim-to-Real ์ค๊ณ ์ ์ฒด๋ฅผ LLM์ด ์ฃผ๋ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค .
- ์ธ๊ฐ ๊ฐ์ ์ต์ํ: ๊ธฐ์กด ์ปค๋ฆฌํ๋ผ ์ค๊ณ๋ ๋๋ฉ์ธ ๋๋คํ ์ฐ๊ตฌ๋ ๋๋ถ๋ถ ์ ๋ฌธ๊ฐ๊ฐ ํ๋ผ๋ฏธํฐ ๋ฒ์๋ฅผ ์์ผ๋ก ์ง์ ํด์ผ ํ์ต๋๋ค . DrEureka๋ RAPP + LLM ์กฐํฉ์ผ๋ก ์ด๋ฅผ ์๋ํํ์ฌ ํจ์จ์ฑ๊ณผ ์ฌํ์ฑ์ ๋์์ ํ๋ณดํ์ต๋๋ค .
- ์ค์ธ๊ณ ์ฑ๋ฅ ๊ฒ์ฆ: ๋ง์ ์ ํ์ฐ๊ตฌ๊ฐ ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, DrEureka๋ ์ค์ ๋ก๋ด ์คํ์ ํตํด ์ง์ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค . ํนํ ์๊ฐ ๊ณต ์ ๊ฑท๊ธฐ์ ๊ฐ์ ์๋ก์ด ๊ณผ์ ๋ฅผ ์๋ ์ค๊ณํ๊ณ ์ฑ๊ณต์ ์ผ๋ก ์ ์ดํ ์ฌ๋ก๋ ์ต์ด์ ๊ฒฐ๊ณผ๋ก ํ๊ฐ๋ฉ๋๋ค .
- ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ LLM ํ์ฉ: LLM์ด ๋ฌผ๋ฆฌ์ ์์(๋ง์ฐฐ, ์ค๋ ฅ, ๊ด์ฑ ๋ฑ)์ ํ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ ๋ฒ์๋ฅผ ํฉ๋ฆฌ์ ์ผ๋ก ์ค์ ํ๊ณ , ๊ทธ ๊ทผ๊ฑฐ๊น์ง ์ค๋ช ํ ์ ์๋ค๋ ์ ์ AI-๋ก๋ด ๊ณตํ ์ตํฉ ์ฐ๊ตฌ์์ ์ค์ํ ์ ํ์ ์ ๋๋ค .
5. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ์ ๋ํ ๋นํ์ ๊ณ ์ฐฐ
DrEureka๋ ๊ฐ๋ ฅํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ง๋ง, ๋ช ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌํฉ๋๋ค .
ํ์ค ํผ๋๋ฐฑ ๋ถ์กฑ: ํ์ฌ DrEureka๋ ์๋ฎฌ๋ ์ดํฐ๋ง ์ฌ์ฉํ์ฌ ํ์ต ํ ํ์ค์ ๊ณง์ฅ ์ด์ํ๋ Zero-Shot Sim-to-Real์ ๋ชฉํ๋ก ํฉ๋๋ค. ํ์ง๋ง ํ์ค์ ๋ ธ์ด์ฆยท๋ง์ฐฐยท์ผ์ ์ค์ฐจ๋ ์๋ฎฌ๋ ์ดํฐ์ ์๋ฒฝํ ๋ฐ์๋์ง ์๊ธฐ ๋๋ฌธ์, ์ผ๋ถ ํ๊ฒฝ์์๋ ์ฌ์ ํ ์คํจํ ์ ์์ต๋๋ค . โ ํฅํ ๊ณผ์ : ํ์ค ์คํ ๋ฐ์ดํฐ๋ฅผ LLM ํ๋กฌํํธ๋ก ๋๋จน์ํ๋ Sim-Real co-adaptation ๋ฃจํ ํ์.
๊ฐ๊ฐ ํตํฉ ํ๊ณ: ๋ณธ ์ฐ๊ตฌ๋ proprioception ๊ธฐ๋ฐ ์ ์ด๋ง ๋ค๋ฃจ์๊ณ , ์๊ฐยท์ด๊ฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์์์ต๋๋ค . โ ํฅํ ๊ณผ์ : ๋น์ /๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๊น์ง ํตํฉํด ๋ ๋ณต์กํ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ์ ์ฑ ํ์ต์ผ๋ก ํ์ฅํด์ผ ํจ.
์๋ฎฌ๋ ์ดํฐ ํ์ง ์์กด์ฑ: DrEureka๋ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์ถฉ์ค๋๊ฐ ๋ฎ์ผ๋ฉด ํจ๊ณผ๊ฐ ๋จ์ด์ง ์ ์์ต๋๋ค . โ ํฅํ ๊ณผ์ : ์๋ฎฌ๋ ์ดํฐ ์ ๋ขฐ์ฑ ๊ฐ์ ๋๋ LLM์ด ์๋ฎฌ๋ ์ดํฐ ํ๊ณ ์์ฒด๋ฅผ ์ธ์ง/๋ณด์ํ ์ ์๋ ๊ตฌ์กฐ ํ์.
LLM ๋น์ฉ ๋ฐ ์์ ์ฑ: GPT-4์ ๊ฐ์ LLM ์ฌ์ฉ์๋ ๋น์ฉ(๋ ผ๋ฌธ์์๋ ์ฝ 15๋ฌ๋ฌ/24์๊ฐ)๊ณผ ์ถ๋ ฅ ํ์ง ํธ์ฐจ ๋ฌธ์ ๊ฐ ์์ต๋๋ค . โ ํฅํ ๊ณผ์ : ๊ฒฝ๋ํ๋ LLM์ด๋ ํ๋กฌํํธ ์ต์ ํ, ์ถ๋ ฅ ๊ฒ์ฆ ์ฒด๊ณ๊ฐ ํ์ํฉ๋๋ค.
๊ฒฐ๋ก
DrEureka๋ LLM์ ์ฝ๋ ์์ฑ ๋ฐ ๋ฌผ๋ฆฌ ์์ ํ์ฉ ๋ฅ๋ ฅ์ Sim-to-Real ํ์ดํ๋ผ์ธ์ ์ ๋ชฉํ์ฌ, ๋ณด์ ํจ์์ ๋๋ฉ์ธ ๋๋คํ ์ค๊ณ๋ฅผ ์๋ํํ๋ ์ต์ด์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฌ์กฑ๋ณดํ, ๋ก๋ด ์ ์กฐ์, ์๊ฐ ๊ณต ๊ฑท๊ธฐ์ ๊ฐ์ ๋ค์ํ๊ณ ๋์ด๋ ๋์ ๊ณผ์ ์์ ์ค์ ๋ก๋ด ์ ์ด ์ฑ๊ณต์ ์ ์ฆํ์ผ๋ฉฐ, ๊ธฐ์กด ์ ๋ฌธ๊ฐ ์ค๊ณ ๊ธฐ๋ฐ ์ ๊ทผ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค .
๋ฌผ๋ก ์์ง ํ์ค ํผ๋๋ฐฑ์ ๋ถ์กฑ, ์๋ฎฌ๋ ์ดํฐ ์์กด์ฑ, LLM ์ฌ์ฉ ๋น์ฉ ๋ฑ์ ํ๊ณ๊ฐ ์กด์ฌํ์ง๋ง, DrEureka๋ ๋ก๋ด ์ ์ด ํ์ต ์๋ํ์ LLM ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋์์ธ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ฉฐ, ํฅํ ๋ก๋ด ์ฐ๊ตฌ์ ํจ๋ฌ๋ค์ ์ ํ์ ์ด๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.