๐Eurekaverse ๋ฆฌ๋ทฐ
- ๐ค Eurekaverse๋ Large Language Model(LLM)์ ํ์ฉํ์ฌ ๋ก๋ด ๊ธฐ์ ํ๋ จ์ ์ํ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ํ๊ฒฝ์ ์๋์ผ๋ก ์์ฑํ๋ ๋น์ง๋ ํ๊ฒฝ ์ค๊ณ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- โ๏ธ ์ด ์๊ณ ๋ฆฌ์ฆ์ LLM์ด ์ฝ๋๋ฅผ ํตํด ํ๊ฒฝ์ ์์ฑํ๊ณ , ๋ก๋ด์ ํ๋ จ ์งํ ์ํฉ์ ๋ง์ถฐ ํ๊ฒฝ ๋์ด๋๋ฅผ ์ ์์ ์ผ๋ก ์งํ์ํค๋ ์์ด์ ํธ-ํ๊ฒฝ ๊ณต๋ ์งํ(agent-environment co-evolution) ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
- ๐ ์ฌ์กฑ๋ณดํ ๋ก๋ด ํ์ฟ ๋ฅด(parkour) ํ์ต์ ์ ์ฉํ ๊ฒฐ๊ณผ, Eurekaverse๋ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ์๋์ผ๋ก ์ค๊ณ๋ ํ๋ จ ์ฝ์ค๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ๋ฐ์ด๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
Brief Review
๋ก๋ด์๊ฒ ๋ณต์กํ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๊ธฐ ์ํ ์ ๋งํ ์ ๋ต์ ์ ์ง์ ์ผ๋ก ๋์ด๋๊ฐ ๋์์ง๋ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ์์ ๋ก๋ด์ ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ํจ๊ณผ์ ์ธ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ์ ๊ฐ๋ฐํ๋ ๊ฒ์ ์๋นํ ์ ๋ฌธ ์ง์์ ์๊ตฌํ๋ฉฐ, ์๋ก์ด ๋๋ฉ์ธ๋ง๋ค ๋ฐ๋ณต๋์ด์ผ ํ๋ ๋ฒ๊ฑฐ๋ก์์ด ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ํ๊ฒฝ์ด ์ข ์ข ์ฝ๋๋ก ์์ฐ์ค๋ฝ๊ฒ ํํ๋ ์ ์๋ค๋ ํต์ฌ ํต์ฐฐ๋ ฅ์ ๋ฐํ์ผ๋ก, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ํจ๊ณผ์ ์ธ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ ์ค๊ณ๋ฅผ ๋ฌ์ฑํ๊ณ ์๋ํํ ์ ์๋์ง ํ๊ตฌํฉ๋๋ค.
์ด๋ฌํ ๋งฅ๋ฝ์์, ๋ณธ ๋
ผ๋ฌธ์ ์ฌ์กฑ๋ณดํ ๋ก๋ด ํ์ฟ ๋ฅด ํ์ต ๋๋ฉ์ธ์์ Eurekaverse
๋ผ๋ ๋น์ง๋ ํ๊ฒฝ ์ค๊ณ ์๊ณ ๋ฆฌ์ฆ์ ์๊ฐํฉ๋๋ค. Eurekaverse
๋ LLM์ ํ์ฉํ์ฌ ๋ก๋ด ๊ธฐ์ ํ๋ จ์ ์ํ ์ ์ง์ ์ผ๋ก ๋ ๋์ ์ ์ด๊ณ , ๋ค์ํ๋ฉฐ, ํ์ต ๊ฐ๋ฅํ ํ๊ฒฝ์ ์ํ๋งํฉ๋๋ค. Eurekaverse
๊ฐ ์๋์ผ๋ก ์ค๊ณํ ์ปค๋ฆฌํ๋ผ์ ์๋ฎฌ๋ ์ด์
์์ ๋ณต์กํ ํ์ฟ ๋ฅด ๊ธฐ์ ์ ์ ์ง์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ฌ๋์ด ์๋์ผ๋ก ์ค๊ณํ ํ๋ จ ์ฝ์ค๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ผ๋ก ์ค์ ์ธ๊ณ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ด๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.

ํต์ฌ ๋ฐฉ๋ฒ๋ก : ์์ด์ ํธ์ ํ๊ฒฝ์ ๊ณต๋ ์งํ (Agent-Environment Co-Evolution)
Eurekaverse
๋ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ์งํ๋ฉ๋๋ค. ์ฒซ์งธ, LLM์ ์ฌ์ฉํ์ฌ ํ๋ จ์ ์ํ ์ด๊ธฐ ํ๊ฒฝ ์ธํธ๋ฅผ ์์ฑํฉ๋๋ค. ๋์งธ, ์์ด์ ํธ์ ํ๊ฒฝ์ ๊ณต๋ ์งํ(co-evolution)๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ณผ์ ์ ์ฌ์ฉํ์ฌ ํ์ฌ ํ๊ฒฝ ์ธํธ์์ ์์ด์ ํธ๋ฅผ ํ๋ จํ๊ณ , ์ด ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก LLM์ด ํ๊ฒฝ ์ธํธ๋ฅผ ์
๋ฐ์ดํธํ์ฌ ์์ด์ ํธ์ ํ์ฌ ์ญ๋์ ๊ณ์ ๋์ ํ๋ฉด์๋ ํ์ตํ๊ธฐ์ ๋๋ฌด ์ด๋ ต์ง ์๋๋ก ์กฐ์ ํฉ๋๋ค.
- ์ด๊ธฐ ํ๊ฒฝ ์์ฑ (Initial Environment Generation):
- LLM(๋ณธ ๋ ผ๋ฌธ์์๋ GPT-4o ์ฌ์ฉ)์๊ฒ ํ์คํฌ ์ค๋ช ๊ณผ ๋จ์ผ In-context ์์ ํ๊ฒฝ ํ๋ก๊ทธ๋จ(Python ํจ์ ํํ)์ ์ ๊ณตํ์ฌ ์ด๊ธฐ ํ๊ฒฝ ์ธํธ๋ฅผ ์ฟผ๋ฆฌํฉ๋๋ค.
- LLM์
height_field
(์ง๋ฉด์ ๋์ด๋ฅผ ์ ์ํ๋ 2D ๊ทธ๋ฆฌ๋)์goals
(๋ชฉํ ์ขํ ๋ชฉ๋ก)๋ฅผ ํฌํจํ๋ ํ๊ฒฝ ํ๋ก๊ทธ๋จ \theta๋ฅผ Python ์ฝ๋๋ก ์๋ตํฉ๋๋ค. - ๋ค์ํ ํ๋ จ ํ๊ฒฝ ์ธํธ๋ฅผ ์ป๊ธฐ ์ํด, LLM์ 0์ด ์๋
temperature
๋ก ์ฌ๋ฌ ๋ฒ ์ํ๋ง๋ฉ๋๋ค: \theta_j \sim \Lambda_{\text{init}}^{\text{LLM}}(\theta_{\text{incontext}}) ์ฌ๊ธฐ์ \theta_{\text{incontext}}๋ In-context ์์ ํ๊ฒฝ ํ๋ก๊ทธ๋จ์ ๋๋ค. - ์์ฑ๋ ํ๋ก๊ทธ๋จ์ ์ต๋ ๋์ด ๋ฐ ์ต๋ ๋์ด ์ฐจ์ด ์๊ณ๊ฐ๊ณผ ๊ฐ์ ๊ฐ๋จํ ์ ํจ์ฑ ๊ฒ์ฌ๋ฅผ ๊ฑฐ์ณ ์คํ ๊ฐ๋ฅํ๊ณ ํ๋นํ ์งํ์ ๋ณด์ฅํฉ๋๋ค.
- ์์ด์ ํธ์ ํ๊ฒฝ์ ๊ณต๋ ์งํ (Co-Evolution of Agents and Environments):
- ์ด๊ธฐ ํ๊ฒฝ์ LLM์ด ์์ด์ ํธ์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ์์ง ๋ชปํ๋ฏ๋ก ํ๋ จ์ ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค. ๋ํ, ์ด๋ค์ ๋
๋ฆฝ์ ์ผ๋ก ๋์ผํ๊ฒ ์ํ๋ง๋๋ฏ๋ก ์ ์ง์ ์ผ๋ก ๋์ ์ ์ธ ์ปค๋ฆฌํ๋ผ์ ํ์ฑํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด,
Eurekaverse
๋ ์ ์ฑ ์งํ์ ํ๊ฒฝ ์งํ ๋จ๊ณ๋ฅผ ๋ฒ๊ฐ์ ์ํํฉ๋๋ค. - ์ ์ฑ
์งํ (Policy Evolution):
- ๊ฐ ๋ฐ๋ณต์ ์์์์, N๊ฐ์ RL ์์ด์ ํธ \{\pi_i\}_{i=1}^N ์งํฉ์ด ๊ฐ๊ฐ J๊ฐ์ ํ๊ฒฝ์ผ๋ก ๊ตฌ์ฑ๋ ์์ฒด ํ๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ \{\theta_{ij}\}_{j=1}^J์์ ๋ ๋ฆฝ์ ์ด๊ณ ๋ณ๋ ฌ์ ์ผ๋ก ํ๋ จ๋ฉ๋๋ค.
- ๋ชจ๋ ์์ด์ ํธ๋ ์ด์ ๋ฐ๋ณต์ ํฌํจํ์ฌ ์ง๊ธ๊น์ง ์์ฑ๋ ๋ชจ๋ ํ๊ฒฝ์ ํฉ์งํฉ์ธ ํ๋ก์ ํ๊ฒฝ \Theta_{\text{proxy}} = \cup_i\{\theta_{ij}\}_{j=1}^J์ ๋ํด ํ๊ฐ๋ฉ๋๋ค.
- ์ด ํ๊ฐ๋ฅผ ํตํด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ์ ์ฑ \pi_{\text{best}}๊ฐ ์ ํ๋ฉ๋๋ค(\pi_{\text{best}} = \arg \max_{\pi_i} F(\pi_i, \Theta_{\text{proxy}})). ํ์ ๋ฐ๋ณต์์๋ ์ด \pi_{\text{best}}๊ฐ ์ด๊ธฐ ์ ์ฑ ์ผ๋ก ์ฌ์ฉ๋์ด ์ ์ฑ ์ด ์ ์ง์ ์ผ๋ก ๊ฐ์ ๋๋๋ก ํฉ๋๋ค.
- ๊ฒฌ๊ณ ์ฑ์ ์ํด โ์ํํธ ์ ํ(soft selection)โ ๋ฐฉ์์ด ์ฌ์ฉ๋๋๋ฐ, ์ด๋ ์ต๊ณ ์ฑ๋ฅ ์ ์ฑ ์ p_1=0.75, ๋ ๋ฒ์งธ ์ ์ฑ ์ p_2=0.25์ ํ๋ฅ ๋ก ์ ํ๋ ๊ธฐํ๋ฅผ ๋ถ์ฌํ๋ ๋ฐฉ์์ ๋๋ค.
- ํ๊ฒฝ ์งํ (Environment Evolution):
- ์ด๊ธฐ ๋ฐ๋ณต ํ,
Eurekaverse
๋ \pi_{\text{best}}๋ฅผ ํ๋ จํ๋ ๋ฐ ์ฌ์ฉ๋ ํ๊ฒฝ๋ค \{\theta_{\text{best},j}\}_{j=1}^J์ ์งํ์์ผ ์๋ก์ด ํ๊ฒฝ์ ์์ฑํฉ๋๋ค. - ์ด ์ธํธ์ ๊ฐ \theta_j์ ๋ํด, LLM์ ํด๋น ํ๊ฒฝ์ ๋ณํ \tilde{\theta}_j๋ฅผ ์์ฑํ๋๋ก ์์ฒญ๋ฐ์ต๋๋ค: \tilde{\theta}_j \sim \Lambda_{\text{evol}}^{\text{LLM}}(\theta_j, \theta_{\text{incontext}})
- LLM์๊ฒ๋ ์ด์ LLM ์๋ต์ธ \theta_j์ ํจ๊ป ํ๊ฒฝ ํต๊ณ(์: ์ต๋ ์งํ ๋์ด ์ฐจ์ด) ๋ฐ ์ ์ฑ
ํ๋ จ ํต๊ณ(์: ๋ณด์ ํญ, ์ฑ๊ณต๋ฅ )๊ฐ ์ถ๊ฐ ์ ๋ณด๋ก ์ ๊ณต๋์ด ์ ์ฑ
์ ํ์ต ์งํ ์ํฉ์ ๋ง์ถฐ ํ๊ฒฝ์ ์กฐ์ ํ ์ ์๊ฒ ํฉ๋๋ค. ๋ํ, ์ด์ ํ๋ จ์ ์ฌ์ฉ๋ ์งํ๋ค์ ์ค๋ช
(
docstring
)๋ ์ ๊ณต๋ฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ค์ ๋ฐ๋ณต์ ์ ์ฑ ํ๋ จ ์คํ์ ์ํ N๊ฐ์ ์๋ก์ด ํ๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ ๋ฆฝ์ ์ผ๋ก N๋ฒ ์ํ๋ฉ๋๋ค.
- ์ด๊ธฐ ๋ฐ๋ณต ํ,
- ์ด๊ธฐ ํ๊ฒฝ์ LLM์ด ์์ด์ ํธ์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ์์ง ๋ชปํ๋ฏ๋ก ํ๋ จ์ ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค. ๋ํ, ์ด๋ค์ ๋
๋ฆฝ์ ์ผ๋ก ๋์ผํ๊ฒ ์ํ๋ง๋๋ฏ๋ก ์ ์ง์ ์ผ๋ก ๋์ ์ ์ธ ์ปค๋ฆฌํ๋ผ์ ํ์ฑํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด,
์คํ ๊ฒฐ๊ณผ:
์ด ๋ฐฉ๋ฒ๋ก ์ Unitree Go1 ์ฌ์กฑ๋ณดํ ๋ก๋ด์ ํ์ฟ ๋ฅด ํ์ต์ ๋ํด ๊ด๋ฒ์ํ๊ฒ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ๊ฒ์ฆ๋์์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์
:
Eurekaverse
๋ ์ฌ๋์ด ์ค๊ณํ ํ๊ฒฝ(Human-Designed
)์ด๋ ๋ฌด์์๋ก ์์ฑ๋ ํ๊ฒฝ(Random
)์์ ํ๋ จ๋ ์ ์ฑ ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ,Human-Designed
ํ๊ฒฝ์์ ํ๋ จ๋ ์ ์ฑ ์ด ํ์ต ๊ณก์ ์ด ๋น ๋ฅด๊ฒ ํฌํ๋๋ ๋ฐ๋ฉด,Eurekaverse
๋ ํ๊ฒฝ์ด ํ์ฌ ์ต๊ณ ์ ์ฑ ์ ์ ์์ ์ผ๋ก ์งํํ๊ธฐ ๋๋ฌธ์ ์ง์์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ฉฐ ๊ถ๊ทน์ ์ผ๋ก ํ ์คํธ ๋ฒค์น๋งํฌ์์ Oracle ์ ์ฑ (ํ ์คํธ ํ๊ฒฝ์์ ์ง์ ํ๋ จ๋ ์ ์ฑ )์ ๊ทผ์ ํ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด๊ธฐ ํ๊ฒฝ๋ง ์ฌ์ฉํ๊ฑฐ๋, ๋จ์ํ ๋ค์์ฑ๋ง ์ถ๊ตฌํ๊ฑฐ๋, ์ ์ฑ ํผ๋๋ฐฑ ์์ด ๋์ด๋๋ง ๋์ด๋Ablation
๋ชจ๋ธ๋ค์ ๋ชจ๋ ์ฑ๋ฅ์ด ์ ์กฐํ์ฌ ์ ์์ ์ธ ์ปค๋ฆฌํ๋ผ๊ณผ ์ ์ฑ ํผ๋๋ฐฑ์ ์ค์์ฑ์ ์ ์ฆํ์ต๋๋ค. - ์ค์ ํ๊ฒฝ:
Eurekaverse
๋ก ํ๋ จ๋ ์ ์ฑ ์ ์ค์ ์ธ๊ณ์์ ์์ ์ค๋ฅด๊ธฐ, ๊ฐ๊ฒฉ ๋๊ธฐ, ๊ฒฝ์ฌ๋ก ์ค๋ฅด๊ธฐ, ๊ณ๋จ ์ค๋ฅด๊ธฐ ๋ฑ ๋ค์ํ ํ์ฟ ๋ฅด ํ์คํฌ์์Human-Designed
์ ์ฑ ๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ ์์ ํ๊ณ ์์ ์ ์ธ ๋์์ ๋ํ๋์ต๋๋ค. ๋ํ, ํ๋ จ ์ค ๋ณด์ง ๋ชปํ๋ ์์๋ ๋๊ฐ๊ณผ ๊ฐ์ ํ๊ฒฝ์ ํน์ง์๋ ๊ฐ๊ฑดํ์ผ๋ฉฐ, ์๋ก์ด ๋ณตํฉ ์ฅ์ ๋ฌผ ์ฝ์ค์์๋ ์ฑ๊ณต์ ์ผ๋ก ํ์ํ๋ ๋ฑ ํ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ํ๋ณต ๋์์ ์์ฐํ์ต๋๋ค.
๊ฒฐ๋ก :
Eurekaverse
๋ LLM์ ํ์ฉํ ์๋ํ๋ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ ์ค๊ณ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ ์ฑ
์ ํ์ฌ ํ๋ จ ์งํ ์ํฉ์ ์ ์ํ๋ ํจ๊ณผ์ ์ธ ํ๊ฒฝ ํ๋ก๊ทธ๋จ์ ์์ฑํ์ฌ ์๋ก์ด ๊ธฐ์ ์ ํ์ตํ๊ณ ๊ธฐ์กด ๊ธฐ์ ์ ์ฐ๋งํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ ๊ถ๊ทน์ ์ผ๋ก ๊ฐ๋ฐฉํ(open-ended)์ด๊ณ ๋ฒ์ฉ์ ์ธ ๋ก๋ด ์์ด์ ํธ๋ฅผ ํฅํ ๊ธธ์ ์ด ์ ์๋ LLM์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ํ๊ณ์ ์ผ๋ก๋ LLM ์ํ๋ง์ ํจ์จ์ฑ ํฅ์ ํ์์ฑ ๋ฐ ์๊ฐ์ ํผ๋๋ฐฑ์ ํ์ฉํ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ ๊ฐ๋ฅ์ฑ์ด ์ธ๊ธ๋์์ต๋๋ค.
Detail Review
LLM์ผ๋ก ์๋ํ๋ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ ์ค๊ณ: Eurekaverse ๋ฆฌ๋ทฐ
๋ก๋ด์๊ฒ ๋ณต์กํ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๋ ค๋ฉด, ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ์ฅ์ ๋ฌผ ์ฝ์ค๋ฅผ ์ค๋นํ๋ ์ปค๋ฆฌํ๋ผ ํ์ต(curriculum learning)์ด ํจ๊ณผ์ ์ด๋ผ๋ ์ฌ์ค์ด ์๋ ค์ ธ ์์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์ฝ์ค๋ฅผ ์ฌ๋์ด ์ง์ ์ค๊ณํ๋ ค๋ฉด ๋๋ฉ์ธ ์ ๋ฌธ ์ง์์ด ํ์ํ๊ณ , ์๋ก์ด ํ๊ฒฝ๋ง๋ค ๋งค๋ฒ ์์ ์ ๋ฐ๋ณตํด์ผ ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ Eurekaverse: Environment Curriculum Generation via Large Language Models๋ ์ด ๋ฌธ์ ๋ฅผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํด ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ํ๊ฒฝ ์์ฒด๋ฅผ ํ๋ก๊ทธ๋จ ์ฝ๋๋ก ํํํจ์ผ๋ก์จ, LLM์ด ์ ์ ๋ ์ด๋ ค์ด ํ์ต ํ๊ฒฝ(์ฅ์ ๋ฌผ ์ฝ์ค)์ ์๋์ผ๋ก ์์ฑํ ์ ์์์ง ํ๊ตฌํ ๊ฒ์ด์ฃ . ์ ์๋ค์ ์ด๋ฅผ ํตํด Eurekaverse๋ผ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค. Eurekaverse๋ LLM์๊ฒ ์ด๊ธฐ ์ฅ์ ๋ฌผ ์ฝ์ค๋ฅผ ๋ง๋ค์ด๋ณด๊ฒ ํ ๋ค, ๊ฐํํ์ต(RL)์ผ๋ก ๋ก๋ด ์ ์ด ์ ์ฑ ์ ํ๋ จํ๊ณ , ๊ทธ ์ฑ๋ฅ์ ๋ฐ๋ผ ์ฝ์ค๋ฅผ ๊ณ์ ์งํ์์ผ ๋๊ฐ๋ ๊ณต์งํ(agent-environment co-evolution) ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค .
์ด ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ๋ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ์์ฝ๋ฉ๋๋ค: ์ฒซ์งธ, LLM ๊ธฐ๋ฐ์ ์์จ์ ํ๊ฒฝ ๋์์ธ ์๊ณ ๋ฆฌ์ฆ(Eurekaverse)์ ์๊ฐํ์ฌ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ์ ์๋์ผ๋ก ์์ฑํ ์ ์๋๋ก ํ ์ . ๋์งธ, ์ด๋ฅผ 4์กฑ ๋ณดํ ๋ก๋ด์ ํ์ฟ ๋ฅด(์ฅ์ ๋ฌผ ๋๊ธฐ) ๊ณผ์ ์ ์ ์ฉํด ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ์คํ์ ํตํด ๊ฒ์ฆํ ๊ฒ์ ๋๋ค . ํนํ Eurekaverse๊ฐ ์๋ ์์ฑํ ํ์ต ์ฝ์ค๋ ์ฌ๋์ด ๋ง๋ ์ฝ์ค๋ณด๋ค๋ ๋ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ค์ ๋ก๋ด ์คํ์์๋ ์์ ์ ์ด๊ณ ๋น ๋ฅธ ์ ์ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค.
์ฌ์ฉ๋ ๋ฐฉ๋ฒ๋ก ๊ณผ ๊ธฐ์ ์ ์ ๊ทผ
Eurekaverse์ ํต์ฌ์ LLM์ผ๋ก ํ๊ฒฝ(์ฅ์ ๋ฌผ ์ฝ์ค)์ ํ๋ก๊ทธ๋จ ์ฝ๋๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๊ฐํํ์ต๊ณผ ๊ฒฐํฉํด ์ปค๋ฆฌํ๋ผ์ ๋ง๋ค์ด ๋๊ฐ๋ ๊ฒ์ ๋๋ค. 4์กฑ ๋ณดํ ๋ก๋ด ํ์ฟ ๋ฅด ๊ณผ์ ๋ฅผ ์๋ก ๋ค๋ฉด, ํ๊ฒฝ์ ๋ ์ ๋์ด๋ฅผ ๋ํ๋ด๋ 2D ๊ทธ๋ฆฌ๋(๋์ด์ฅ(height field))์ ๋ก๋ด์ด ์ฐจ๋ก๋ก ๋๋ฌํด์ผ ํ ๋ชฉํ(goal) ์ขํ๋ค์ ๋ฆฌ์คํธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ด ๋์ ํ์ด์ฌ ์ฝ๋(NumPy ์ฐ์ฐ ํฌํจ)๋ก ๊ตฌํ๋๋ฉฐ, LLM์ ์ด๋ฌํ ์ฝ๋ ํํ๋ก ์ฝ์ค๋ฅผ ์์ฑํฉ๋๋ค . ์๋ฅผ ๋ค์ด ๊ฐ์์ง ๊ณต์์ด๋ ๋์ดํฐ์์ ์๊ฐ์ ์ป์ด ์ฅ์ ๋ฌผ์ ์ค๊ณํ๋๋ก ํ๋กํํธ(prompts)๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ ์์ฑ๋ ์ฝ์ค๋ ์ต๋ ๋์ด ์ ํ, ๊ฒฝ์ฌ ์ฐจ์ด ์ ํ ๋ฑ์ ๊ฐ๋จํ ๊ฒ์ฆ ์ ์ฐจ๋ฅผ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ๋งค์ฐ ์ํํ ์ฝ์ค๋ ๊ฑธ๋ฌ๋ ๋๋ค .
๋ฐฉ๋ฒ์ ์ ์ฒด ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ์ด ๋จ๊ณ๋ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค :
- ์ด๊ธฐ ํ๊ฒฝ ์์ฑ: ์ฐ์ LLM์ ๊ณผ์ ์ค๋ช ๊ณผ ๊ฐ๋จํ ์์ ์ฝ์ค(์ธ์ปจํ ์คํธ ์์ )๋ฅผ ์ ๊ณตํ๊ณ , ์ฌ๋ฌ ๊ฐ์ ์ด๊ธฐ ํ๊ฒฝ ์ฝ๋๋ฅผ ์ํ๋งํฉ๋๋ค . (์: GPT-4o๋ฅผ ์ด์ฉํ์ฌ 8๊ฐ์ ํ๊ฒฝ์ ๋ฌด์์ ์จ๋๋ก ์์ฑ)
- ์ ์ฑ ํ๋ จ: ์์ฑ๋ ํ๊ฒฝ ์งํฉ์์ ๊ฐ ํ๊ฒฝ์ ํฌํจํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ(train library)๋ณ๋ก ๋ณ๋ ฌ๋ก ๋ณต์์ RL ์์ด์ ํธ๋ฅผ ํ๋ จํฉ๋๋ค. ๊ฐ ์์ด์ ํธ๋ PPO์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต๋๋ฉฐ, ๋ชจ๋ ํ๊ฒฝ์์์ ๋๋ฌ ๋ชฉํ ๊ฐ์ ๋ฑ์ ์ฑ๊ณผ ์งํ๋ฅผ ๊ธฐ๋กํฉ๋๋ค .
- ์ ์ฑ ํ๊ฐ ๋ฐ ์ ํ: ํ๋ จ์ด ๋๋๋ฉด ์ ์ฒด ํ๊ฒฝ(์ด์ ๊น์ง ์์ฑ๋ ๋ชจ๋ ์ฝ์ค)์์ ์์ด์ ํธ๋ค์ ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๊ฐ์ฅ ์ ์ํํ ์ ์ฑ (ฯ*)์ ์ ํํฉ๋๋ค . ์ฌ๋ฌ ๊ฐ์ ์์ด์ ํธ๋ฅผ ์ ์งํ๋ ์ด์ ๋, ๋์ ํ๊ฒฝ ์ค๊ณ์ ์ํฅ์ ๋ฐ์ง ์๊ณ ์ผ๋ถ๋ ์ ์ฉํ ํ๊ฒฝ์์ ํ์ตํ ๊ฐ๋ฅ์ฑ์ ๋์ด๊ธฐ ์ํจ์ ๋๋ค .
- ํ๊ฒฝ ์งํ (LLM ์ฌ์์ฑ): ์ ํ๋ ์ต๊ณ ์ ์ ์ฑ ์ด ํ๋ จ๋ ํ๊ฒฝ๋ค(ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ํ๋ช ๋ ํ๊ฒฝ)์ ๋ฐํ์ผ๋ก, LLM์๊ฒ ํด๋น ํ๊ฒฝ์ ์ข ๋ ์ด๋ ต๊ฒ ๋ณํํ๋๋ก ์์ฒญํฉ๋๋ค. ์ฆ, ๊ธฐ์กด ํ๊ฒฝ ์ฝ๋๋ฅผ LLM์ ๋ค์ ๋ณด๋ด๋ฉด์ ๋ก๋ด์ ํ์ฌ ์ฑ๋ฅ ์งํ(์: ์ฑ๊ณต๋ฅ , ํ๊ท ๋ณด์)์ ํ๊ฒฝ ํต๊ณ(์ต๋ ๋์ด ๋ฑ)๋ฅผ ํจ๊ป ์ ์ํ์ฌ ๋ค์ ์ธ๋ ํ๊ฒฝ์ ์์ฑํฉ๋๋ค . ์ด ๊ณผ์ ์ ์ถฉ๋ถํ ๋ฐ๋ณตํ์ฌ ์๋ก์ด ํ๊ฒฝ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๋ง๋ญ๋๋ค.
- ๋ฐ๋ณต ํ์ต: ์ด๋ ๊ฒ ์์ฑ๋ ์ ํ๊ฒฝ์์ ๋ค์ RL ์ ์ฑ ์ ํ์ต์ํค๊ณ , ์ ๊ณผ์ ์ ๋ฐ๋ณต(์์ด์ ํธ-ํ๊ฒฝ ๊ณต์งํ)ํ์ฌ ์ ์ง์ ์ผ๋ก ๋์ด๋๋ฅผ ๋์ฌ ๊ฐ๋๋ค .
์ด ๊ณผ์ ์ ์ ํต์ ์ธ ์ปค๋ฆฌํ๋ผ ํ์ต์ฒ๋ผ ์ ์ง์ ์ผ๋ก ์ด๋ ค์ด ํ๊ฒฝ์ ์ ๊ณตํ์ง๋ง, ์ปค๋ฆฌํ๋ผ ์์ฒด๋ฅผ LLM์ด ์๋์ผ๋ก ์ค๊ณํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค . ์ ์๋ค์ โ์ํํธ ์ ํ(soft selection)โ ๋ฐฉ์์ ๋์ ํ์ฌ ๋งค ์ธ๋๋ง๋ค ์ฑ๋ฅ ์์์ ๋ฐ๋ผ ์ ์ฑ ์ ๋ฌด์์๋ก ์ ํํ๊ธฐ๋ ํ์ผ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ์ ์ฑ ์ ์ถ๋ ฅํฉ๋๋ค. LLM์ผ๋ก๋ GPT-4o๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ ์ฒด ํ์ต์ GPU 8๋์์ ์ฝ 24์๊ฐ, OpenAI API ๋น์ฉ ์ฝ 15๋ฌ๋ฌ๊ฐ ์์๋์๋ค๊ณ ํฉ๋๋ค .
์คํ ์ค๊ณ ๋ฐ ๊ฒฐ๊ณผ ํ๊ฐ
์ ์๋ค์ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ์คํ์ ํตํด Eurekaverse์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ํ์ต์ Cheng et al.[21]์ ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, Unitree Go1 ๋ก๋ด(4์กฑ ๋ณดํ ๋ก๋ด)์ ๋ํด ๋์ด์ฅ(height field)๊ณผ ๋ชฉํ ์ขํ๋ก ์ ์๋ ํ์ฟ ๋ฅด ์ฝ์ค๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๋์ด๋์ ๋ฐ๋ผ ์ฅ์ ๋ฌผ์ ํฌ๊ธฐ๋ ๊ฐ๊ฒฉ์ด ์กฐ์ ๋๋ฉฐ, PPO๋ก ๊ต์ฌ ์ ์ฑ ์ ํ์ตํ ๋ค ๊น์ด ์ด๋ฏธ์ง ๊ธฐ๋ฐ ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅ(distillation)ํ์ฌ ์ค์ ๋ก๋ด์ ์ ์ฉํฉ๋๋ค. ๋น๊ต ๋์์ผ๋ก๋ ์ฌ๋์ด ์ค๊ณํ ์ฝ์ค(Human-Designed)์ ๋ฌด์์ ๋ฐฐ์น ์ฝ์ค(Random) ๋ฑ์ด ์์ต๋๋ค. ํนํ ์ฌ๋ ์ค๊ณ ์ฝ์ค๋ ์ผ๋ฐ์ ์ธ ํ์ฟ ๋ฅด ๊ธฐ์ ์ ๊ฐ๋ฅด์น๋๋ก ์ ๋ง๋ค์ด์ง ๊ฒ์ด์ง๋ง, ์ ์ ํ์ต์ด ๋น ๋ฅด๊ฒ ํฌํํ๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ, ํ๊ฒฝ ์ค๊ณ๊ฐ ํ์์ ์์ด ํ์ธ๋์์ต๋๋ค. ๋ฌด์์ ํ๊ฒฝ(Random)์์๋ ์ฑ๋ฅ ํฅ์์ด ๊ฑฐ์ ์์์ผ๋ฉฐ, ์ด๋ ์ฅ์ ๋ฌผ๋ค์ด ๋ฌด์์๋ก ๋ฐฐ์น๋์ด ๋ก๋ด์ด ์ ๋๋ก ํ์ตํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋๋ค . ๋ฐ๋ฉด Eurekaverse๋ ํ์ต ๊ณก์ ์ด ๊พธ์คํ ์์นํ๋ฉฐ ์ง์์ ์ธ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก Eurekaverse๊ฐ ๋ง๋ ์ปค๋ฆฌํ๋ผ์ผ๋ก ํ์ตํ ์ ์ฑ ์, ์ฌ๋ ์ค๊ณ ์ฝ์ค์ ์ ์ฑ ๋ณด๋ค ํ๊ท ์ ์ผ๋ก ๊ฑฐ์ ๋ ๊ฐ์ ์ถ๊ฐ ๋ชฉํ(goal)๋ฅผ ๋ ๋ฌ์ฑํ ์ ๋๋ก ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค . ์ฌ๋ ์ค๊ณ ์ฝ์ค๋ ์ด๋ฐ์๋ ๋นจ๋ฆฌ ํ์ต๋์ง๋ง ๊ณง ์ฑ๋ฅ์ด ํฌํ๋๋ ๋ฐ๋ฉด, Eurekaverse๋ ์ด๋ฐ ํ์ต์ด ๋ค์ ๋๋ ค๋ ํ๊ฒฝ์ด ์ ์ฑ ์ฑ๋ฅ์ ๋ง์ถฐ ์ง์์ ์ผ๋ก ์งํํ๊ธฐ ๋๋ฌธ์ ๋ง์ง๋ง์๋ ๋ ๋์ ์ฑ๋ฅ์ ์ป์์ต๋๋ค . ์ค์ ๋ก 20๊ฐ์ ํ ์คํธ ์ฝ์ค(์๋ฎฌ๋ ์ด์ )์์ ํ๊ฐํ์ ๋, Eurekaverse ํ์ต ์ ์ฑ ์ ์ธ๊ฐ ์ค๊ณ ์ฝ์ค๋ฅผ ๋ฐ๋ผ ํ์ตํ ์ ์ฑ ๋ณด๋ค ๋ชฉํ ๋ฌ์ฑ ๊ฐ์๊ฐ ํ๊ท 2๊ฐ๊ฐ๋ ๋ ๋์์ต๋๋ค . ๋ํ, โ์ด๊ธฐ ํ๊ฒฝ(Initial Envs)โ์ด๋ โ์ต์ข ํ๊ฒฝ(Final Envs)โ์ฒ๋ผ ํ๊ฒฝ ๋ณํ๋ฅผ ๊ณ ๋ คํ์ง ์์ ๊ฒฝ์ฐ, ์ ์ฑ ์ ๋ค์ํ ๊ธฐ์ ์ ์ตํ์ง ๋ชปํ๊ณ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค . ์ด๋ ๋จ์ํ ์ด๋ ค์ด ํ๊ฒฝ์ ๋๋ ค์ฃผ๋ ๊ฒ์ด ์๋๋ผ, ํ์ฌ ์ ์ฑ ์์ค์ ๋ง๊ฒ ์กฐ์ ๋ ์ ์์ ์ปค๋ฆฌํ๋ผ์ด ํ์ํจ์ ์์ฌํฉ๋๋ค .
์ค์ ๋ก๋ด ์คํ์์๋ Eurekaverse์ ์ฐ์์ฑ์ด ๋๋ฌ๋ฌ์ต๋๋ค. ๋ค ๊ฐ์ง ๋ํ์ ์ธ ์ค์ ๊ณผ์ (๋ฐ์ค ์ค๋ฅด๊ธฐ, ๊ฐ๊ฒฉ ๋ฐ์ด๋๊ธฐ, ๊ฒฝ์ฌ๋ก ์ค๋ฅด๊ธฐ, ๊ณ๋จ ๋๊ธฐ)์์ Eurekaverse๋ก ํ์ตํ ์ ์ฑ ์ ๊ฑฐ์ ๋ชจ๋ ๋์ด๋์์ ์ฌ๋ ์ค๊ณ ์ ์ฑ ๋ณด๋ค ์ฑ๊ณต๋ฅ ์ด ๋์์ต๋๋ค . ์๋ฅผ ๋ค์ด Go1 ๋ก๋ด์ ๋ํด 75cm ๋์ด์ ์ ํ, 50cm ๋์ด์ ์ฅ์ ๋ฌผ ์ค๋ฅด๊ธฐ, 30๋ ๊ฒฝ์ฌ๋ก ๋ฑ ๊น๋ค๋ก์ด ์กฐ๊ฑด์์๋ ์ฑ๊ณตํ์ผ๋ฉฐ, ๊ณ๋จ ๊ณผ์ ์์๋ ์ ์ฒด ๊ณ๋จ์ ์์ฃผํ์ต๋๋ค. ๋ฐ๋ฉด ์ฌ๋ ์ค๊ณ ์ฝ์ค๋ก ํ์ตํ ์ ์ฑ ์ ๋ชจํฐ ๊ณผ๋ถํ๋ก ๋์ด์ง๋ ๋ฑ์ ๋ถ์์ ํ ๋์์ด ์ฆ์๊ณ , ์ค์ ๊ฒฝ์ฌ๋ก ๊ณผ์ ์์๋ ๋ก๋ด์ด ์์๋ ์ ๋์ฌ์ ๋ ์ด์์ ์คํ์ ์งํํ์ง ๋ชปํ์ต๋๋ค .

์ค์ 4์กฑ ๋ณดํ ๋ก๋ด ์คํ์์ Eurekaverse๋ก ํ์ตํ ์ ์ฑ (๋นจ๊ฐ ์ ์ )์ด ์ฌ๋ ์ค๊ณ ์ ์ฑ (ํ๋ ์ ์ )๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค.
๋์ฑ ์ธ์์ ์ธ ๊ฒ์ ํ์ต ๊ณผ์ ์์ ํ ๋ฒ๋ ๋ณธ ์ ์๋ ์์ ํ ์๋ก์ด ์ฝ์ค์์๋ Eurekaverse ํ์ต ์ ์ฑ ์ด ๋ฐ์ด๋ ๋ฒ์ฉ์ฑ์ ๋ณด์ธ ์ ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ฐ์ค+์ ํ+๊ฒฝ์ฌ+์๊ฐ๋ณผ, ์ข์ ๋ฐ์จ์ด+65cm๊ฐญ, ์ฐ์ ์ ํ+๊ธฐ์ธ์ด์ง ๊ฒฝ์ฌ๋ฉด, ์ฅ์ ๋ฌผ ํฌ์ฒ+์ ๋ํ ๊ฐญ ๋ฑ 4๊ฐ์ง ์๋ก์ด ์ฝ์ค๋ฅผ ๊ตฌ์ฑํ๋๋ฐ, ์ฐ๋ฆฌ ์ ์ฑ ์ ์ด๋ค ๋ชจ๋ ์ฅ์ ๋ฌผ ์ฝ์ค๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๋ํํ์ต๋๋ค . ์ด๋ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ ์ป์ ์ ์ฑ ์ด ์ค์ ๋ฐ ์์์น ๋ชปํ ํ๊ฒฝ์์๋ ๊ฐ์ธํ ์ ์๋ ฅ์ ๊ฐ์ง๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค .
๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ ๋ฐ ๊ธฐ์ฌ
๊ธฐ์กด ์ฐ๊ตฌ๋ค์์๋ ๋ก๋ด ํ์ต์ ์ปค๋ฆฌํ๋ผ์ ์ ์ฉํ๋ ค๋ ์๋๋ ์์์ต๋๋ค. ๋ค๋ง ๋๋ถ๋ถ์ ํ๊ฒฝ ๋ณํ ๋ฒ์๋ฅผ ์ฌ๋์ด ์ง์ ์ค๊ณํ๊ฑฐ๋, ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋ฒ์๋ฅผ ๋ฌด์์๋ก ์กฐ์ ํ๋ ์์ค์ ๋จธ๋ฌผ๋ ์ต๋๋ค . ์๋ฅผ ๋ค์ด ์ด์ ์ฐ๊ตฌ๋ค์ 2D ๋ฏธ๋ก ๋ฐฐ์น ๊ฐ์ ๋จ์ ๊ณต๊ฐ์์ ๊ฐํํ์ต ์์ด์ ํธ์ ํ๊ฒฝ ์์ฑ์๋ฅผ ๋๊ฒฐ์ํค๋ ๋ฐฉ์์ ๊ณ ์ํ์ง๋ง, ์ด๊ฒ๋ ์ค๊ณ์๊ฐ ํ๊ฒฝ ์์ฑ ๊ท์น์ ๋ง๋ค์ด์ผ ํ๊ณ ํ์ฟ ๋ฅด์ฒ๋ผ ๋ณต์กํ ์งํ ์ ์ฒด๋ฅผ ๋ค๋ฃจ๊ธฐ์ ํ๊ณ๊ฐ ์์์ต๋๋ค . LLM์ ํ์ฉํ ์ฐ๊ตฌ๋ค๋ ์๊ธด ํ์ง๋ง, ์ฃผ๋ก ์์ ์์ค์ ๊ณํ์ด๋ ํฝ์คํ๋ ์ด์ค ์์ ์์ ํ๊ฒฝ ์ํ๋ง ์ ๋๋ก ์ฌ์ฉ๋์์ผ๋ฉฐ , ๋ณต์กํ 3D ๋ฌผ๋ฆฌ ํ๊ฒฝ ์ ์ฒด๋ฅผ ์ ์ง์ ์ผ๋ก ์งํ์ํค๋ ์๋ ์์์ต๋๋ค. ํํธ ํ๋ผ๋ฏธํฐ ๋๋คํ(simulation randomization) ์ฐ๊ตฌ๋ ์์๋๋ฐ, ์ด๋ ์ค๋ ฅ์ด๋ ์ง๋ ๊ฐ์ ๋ฌผ๋ฆฌ ์์น๋ฅผ ๋ฌด์์๋ก ์ ์ ํ๋ ๋จ์ํ ๋ฐฉ์์ด๋ผ ํ๊ฒฝ ๋ณํ์ ํญ์ด ์ ํ์ ์ ๋๋ค .
Eurekaverse๋ ๋ ๊ฐ์ง ์ธก๋ฉด์์ ๋ ์ฐฝ์ ์ ๋๋ค. ์ฒซ์งธ, ํ๊ฒฝ์ ํ๋ก๊ทธ๋จ ์ฝ๋๋ก ์ทจ๊ธํ์ฌ LLM์ด ์ง์ ์ฝ์ค๋ฅผ ์์ฑํ๊ณ ์์ ํ ์ ์๋๋ก ํ์ต๋๋ค . ๋ณต์กํ ์ฅ์ ๋ฌผ์ ๊ธฐํํ์ ๊ตฌ์ฑ์ ๋ช ์์ ์ผ๋ก ์ฝ๋๋ก ํํํจ์ผ๋ก์จ LLM์ด ์ ์ฐํ๊ฒ ๋ค์ํ ์ฝ์ค๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ๋์งธ, LLM ์์ฑ๊ณผ ์ ์ฑ ํ์ต์ adaptive co-evolution์ผ๋ก ๊ฒฐํฉํ ์ ์ ๋๋ค . ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, ์ ์ฑ ์ ํ์ฌ ์ฑ๋ฅ์ ๋ฐ์ํ์ฌ LLM์๊ฒ ๋ค์ ์ธ๋ ์ฝ์ค๋ฅผ ์งํ์์ผ ๋ฌ๋ผ๊ณ ํ๋ ํผ๋๋ฐฑ ๋ฃจํ๊ฐ ์ถ๊ฐ๋์ด ์์ต๋๋ค. ์ด๋ฅผ ํตํด ํ์ต์ด ์งํ๋ ์๋ก ์ปค๋ฆฌํ๋ผ์ด ์์ฐ์ค๋ฝ๊ฒ ์ด๋ ค์์ง๊ณ ๋ค์ํด์ง๋ฉฐ, ๋ก๋ด์ ๊ธฐ์ ์ด ์ ์ ํฅ์๋ฉ๋๋ค . ์ด์ฒ๋ผ LLM์ ์ด์ฉํ ์๋ ์ปค๋ฆฌํ๋ผ ์์ฑ์ ์ด์ ์ ์๋ ์ ๊ทผ์ ๋๋ค. ํนํ 4์กฑ ๋ณดํ ๋ก๋ด ํ์ฟ ๋ฅด์ ๊ฐ์ด ๋ณต์กํ ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์์๋ ์ฑ๊ณต์ ์ธ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ ์ ์ด ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น ์ค์ํ ๊ธฐ์ฌ๋ผ๊ณ ํ ์ ์์ต๋๋ค .
ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๊ณผ์
Eurekaverse๋ ๊ฐ๋ ฅํ์ง๋ง, ๋ช ๊ฐ์ง ํ๊ณ์ ๊ณผ์ ๋ ์ง๋๋๋ค. ๋ ผ๋ฌธ์์ ์ ์๋ค์ LLM ์ํ ํจ์จ์ ์ฃผ์ ๋ฌธ์ ๋ก ์ง์ ํฉ๋๋ค . ๋งค ๋ฐ๋ณต๋ง๋ค ๋ง์ ํ๊ฒฝ์ GPT-4o๋ก ์์ฑํด์ผ ํ๋ฏ๋ก, ๋ณด๋ค ์ ์ ํธ์ถ๋ก๋ ์ข์ ํ๊ฒฝ์ ๋ง๋ค๋๋ก LLM์ ๋ฏธ์ธ์กฐ์ (fine-tuning)ํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ ํ์ฌ ํ๊ฒฝ ๋ณํ ํ๋กฌํํธ๋ ํ ์คํธ ์ ๋ณด(๋ณด์, ์ฑ๊ณต๋ฅ ๋ฑ)๋ง ํ์ฉํ๊ธฐ ๋๋ฌธ์, ์์ผ๋ก๋ ํ๊ฒฝ์ 3D ๊ธฐํ ๊ตฌ์กฐ๋ ์ค์ ํ๋ฉด์ ํจ๊ป ์ ๊ณตํ๋ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ์ ์ฉํด LLM์ ๊ณต๊ฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด์ฌ๋ฆด ์ฌ์ง๋ ์์ต๋๋ค .
๊ทธ ๋ฐ์ ์ค์ฉ์ ๊ณ ๋ ค์ฌํญ๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ณธ ์คํ์์๋ GPT-4o API๋ฅผ ์ฌ์ฉํ์๊ณ 24์๊ฐ ํ์ต์ ๊ฑธ๋ ค ๋น์ฉ์ด ๋ฐ์ํ์ต๋๋ค. ๋ฐ๋ผ์ ์ค์๊ฐ ๋ก๋ด ํ์ต์ด๋ ๋ ์ ์ ๊ณ์ฐ ์์์ผ๋ก ์ ์ฉํ๊ธฐ ์ํด์๋ ํจ์จํ๊ฐ ํ์ํฉ๋๋ค. ๋ ํ์ฌ๋ ํ์ฟ ๋ฅด์ ์ง์คํ์ผ๋, ๋ค๋ฅธ ๋ก๋ด ๊ณผ์ (์: ์กฐ์, ๋นํ ๋ฑ)์๋ ์ ํฉํ ํ๊ฒฝ ์์ฑ์ด ๊ฐ๋ฅํ์ง ์คํ์ ํตํด ํ์ธํด์ผ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, LLM์ด ์ข ์ข ๋นํ์ค์ ์ธ ์ฝ๋๋ฅผ ์์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๊ฑธ๋ฌ๋ด๋ ์์ ์ฅ์น๋ ํํฐ๋ง ๊ธฐ๋ฒ๋ ์ค์ํฉ๋๋ค.
์์ฝํ์๋ฉด, Eurekaverse๋ ์ธ์ด ๋ชจ๋ธ์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋ก๋ด ํ๊ฒฝ ์ค๊ณ์ ์ ์ฉํ ํฅ๋ฏธ๋ก์ด ์๋๋ก์, ๋ณต์กํ ์ฅ์ ๋ฌผ ์ฝ์ค ์ปค๋ฆฌํ๋ผ์ ์๋ํํ์ต๋๋ค. ์ด๋ก์จ ๋ก๋ด ํ์ต์์์ ํ๊ฒฝ ์ปค๋ฆฌํ๋ผ ์ ์ ๋ถ๋ด์ ํฌ๊ฒ ๋์ด์ค ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ๋์์ LLM ํ์ฉ์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ ์ธก๋ฉด์์ ํ์ ์ฐ๊ตฌ๊ฐ ํ์ํจ๋ ๋๋ฌ๋์ต๋๋ค . ํฅํ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ๊ณผ ์์คํ ์ต์ ํ๋ฅผ ํตํด, ๋ ์ผ๋ฐ์ ์ด๊ณ ๋ฐ์ด๋ ๋ก๋ด ํ์ต ํ๊ฒฝ์ ๋ง๋๋ ์ฐ๊ตฌ๋ก ์ด์ด์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.