๐Eureka ๋ฆฌ๋ทฐ
- ๐ค EUREKA๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ๊ฐํ ํ์ต(RL)์ ์ํ Reward ํจ์๋ฅผ ์์จ์ ์ผ๋ก ์ค๊ณํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ฝ๋ ์์ฑ ๋ฐ ์ปจํ ์คํธ ๋ด ๊ฐ์ ๋ฅ๋ ฅ์ ํตํด Reward ์ฝ๋๋ฅผ ์งํ์ ์ผ๋ก ์ต์ ํํฉ๋๋ค.
- ๐ ์ด ์์คํ ์ 29๊ฐ์ง ๋ค์ํ RL ํ๊ฒฝ์์ ์ ๋ฌธ๊ฐ๊ฐ ์ค๊ณํ Reward๋ณด๋ค 83%์ ์์ ์์ ํ๊ท 52% ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ๋ณต์กํ ํ ์คํผ๋๊ณผ ๊ฐ์ ์ฌ์ธํ ์กฐ์ ์์ ์ ์ต์ด๋ก ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
- ๐ค EUREKA๋ ํ๊ฒฝ ์์ค ์ฝ๋์ ์ธ๊ฐ์ ํ ์คํธ ํผ๋๋ฐฑ์ ํ์ฉํ์ฌ ์์ ๋ณ ํ๋กฌํํธ ์์ด๋ ์๋ก์ด Reward ํจ์๋ฅผ ์์จ์ ์ผ๋ก ์์ฑํ๊ณ ๊ฐ์ ํ๋ฉฐ, ์ด๋ ์ธ๊ฐ๊ณผ ์ ๋ ฌ๋ ํ๋์ ์ ๋ํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
Brief Review
EUREKA๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ๋ก๋ด์ ์ ์์ค(low-level) ์กฐ์ ์์ ์ ์ํ Reward ํจ์(reward function)๋ฅผ ์๋ ์ค๊ณํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ธฐ์กด LLM์ ๋ก๋ด์ ๊ณ ์์ค(high-level) ์๋ฏธ๋ก ์ ๊ณํ์๋ ํ์ํ์ง๋ง, ํ ๋๋ฆฌ๊ธฐ์ ๊ฐ์ ๋ณต์กํ ์ ์์ค ์กฐ์ ๊ธฐ์ ํ์ต์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. Reward ํจ์ ์ค๊ณ๋ ๊ฐํ ํ์ต(RL)์์ ๋งค์ฐ ์ค์ํ์ง๋ง, ์ค์ ๋ก๋ ์๋์ ์ธ ์ํ์ฐฉ์ค ๊ณผ์ ์ด ๋ง๊ณ ์ต์ ์ด ์๋ Reward์ ์ด๋ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. EUREKA๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด GPT-4์ ๊ฐ์ LLM์ ์ฝ๋ ์์ฑ, ์ ๋ก์ท(zero-shot) ์์ฑ, ์ธ์ปจํ ์คํธ ๊ฐ์ (in-context improvement) ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์งํ์ ์ต์ ํ(evolutionary optimization)๋ฅผ ์ํํฉ๋๋ค.
EUREKA์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ์ธ ๊ฐ์ง ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ํ๊ฒฝ์ ์ปจํ ์คํธ๋ก ์ ๊ณต(Environment as Context)ํฉ๋๋ค. EUREKA๋ ํ๊ฒฝ์ ์๋ณธ ์์ค ์ฝ๋(Reward ์ฝ๋ ์ ์ธ)๋ฅผ LLM์ ์ง์ ์ ๋ ฅํ์ฌ ์คํ ๊ฐ๋ฅํ Reward ํจ์๋ฅผ ์ ๋ก์ท์ผ๋ก ์์ฑํฉ๋๋ค. ์ด๋ LLM์ด ํ๊ฒฝ์ ์ํ(state) ๋ฐ ์ก์ (action) ๋ณ์์ ์ ๊ทผํ๊ณ ์ด๋ฅผ ํ์ฉํ์ฌ Reward ํจ์๋ฅผ ๊ตฌ์ฑํ ์ ์๋๋ก ํฉ๋๋ค. ์ค์ ๋ก๋ LLM์ ์ปจํ ์คํธ ์ฐฝ(context window) ํ๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ํ๊ฒฝ์ ์ํ ๋ฐ ์ก์ ๋ณ์๋ฅผ ๋ ธ์ถํ๊ณ ์์ ํ ๋ช ์ํ๋ ์ฝ๋ ์ค๋ํซ๋ง์ ์๋ ์ถ์ถํ์ฌ ์ ๊ณตํฉ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์ ๋๋ถ์ EUREKA๋ ํ๊ฒฝ๋ณ ํ๋กฌํํธ ์์ง๋์ด๋ง์ด๋ Reward ํ ํ๋ฆฟ ์์ด๋ ์ฒซ ์๋์ ํ๋นํ Reward ์ฝ๋๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด,
fingertip pos
์ ๊ฐ์ ๊ธฐ์กด ๊ด์ธก ๋ณ์๋ฅผ ํ์ฉํ์ฌ ์ ๋ฅํ Reward ์ฝ๋๋ฅผ ๋ง๋ญ๋๋ค.์งํ์ ํ์(Evolutionary Search)์ ์ํํฉ๋๋ค. EUREKA๋ ์ด๊ธฐ Reward ํจ์์ ์ ์ฌ์ ์ธ ์ค๋ฅ๋ sub-optimality์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ฐ๋ณต์ ์ผ๋ก Reward ํ๋ณด๋ค์ ์ ์ํ๊ณ ๊ฐ์ฅ ์ ๋งํ ๊ฒ๋ค์ LLM ์ปจํ ์คํธ ๋ด์์ ๊ฐ์ ํฉ๋๋ค. ๊ฐ ๋ฐ๋ณต๋ง๋ค LLM์ผ๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ Reward ํจ์๋ฅผ ์ํ๋งํฉ๋๋ค. ์ด์ ๋ฐ๋ณต์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ Reward ํจ์์ ๊ทธ์ ๋ํ Reward ๋ฐ์(reward reflection)์ ๋ค์ ๋ฐ๋ณต์ ์ปจํ ์คํธ๋ก ์ฌ์ฉํ์ฌ K๊ฐ์ ์๋ก์ด Reward ํจ์๋ฅผ ์์ฑํฉ๋๋ค. ์ด ๊ณผ์ ์ ์ง์ ๋ ๋ฐ๋ณต ํ์(์: 5ํ)๊น์ง ๊ณ์๋๋ฉฐ, ๋ ๋์ ์ต์ ์ ์ ์ฐพ๊ธฐ ์ํด ์ฌ๋ฌ ๋ฒ์ ๋ฌด์์ ์ฌ์์(random restarts)์ ์ํํฉ๋๋ค. EUREKA๋ ์ด ์งํ์ ์ต์ ํ๋ฅผ ํตํด ์ด๊ธฐ์๋ ์ข์ง ์์๋ ์ฑ๋ฅ์ด ๊พธ์คํ ๊ฐ์ ๋์ด ๊ถ๊ทน์ ์ผ๋ก ์ธ๊ฐ ์ค๊ณ Reward์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
Reward ๋ฐ์(Reward Reflection) ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์์ฑ๋ Reward ํจ์์ ํ์ง์ ํ ์คํธ๋ก ์์ฝํ๋ ์๋ํ๋ ํผ๋๋ฐฑ์ ๋๋ค. EUREKA๋ Reward ํจ์๊ฐ ๊ฐ๋ณ Reward ๊ตฌ์ฑ ์์๋ค์ ์ฌ์ ํํ๋ก ๋ ธ์ถํ๋๋ก ์์ฒญํ๋ฉฐ, Reward ๋ฐ์์ ํ๋ จ ๊ณผ์ ์์ ์ด๋ค ๊ตฌ์ฑ ์์์ ์ค์นผ๋ผ ๊ฐ๊ณผ ์ ์ฒด ์์ ์ ํฉ๋ ํจ์(task fitness function)์ ์ค๋ ์ท ๊ฐ์ ์ถ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด,
av penalty
์ ๊ฐ์ ๊ฐ๋ณ Reward ๊ตฌ์ฑ ์์ ๊ฐ์ ๋ชฉ๋ก์ด ํผ๋๋ฐฑ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค. ์ด๋ ์์ ์ ํฉ๋ ํจ์ ์์ฒด๋ง์ผ๋ก๋ ์ ์ฉ ํ ๋น(credit assignment)์ ๋ํ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๊ณ , Reward ์ต์ ํ๊ฐ RL ์๊ณ ๋ฆฌ์ฆ์ ํน์ ์ ํ์ ์์กดํ๋ค๋ ์ ๋๋ฌธ์ ์ค์ํฉ๋๋ค. Reward ๋ฐ์์ LLM์ด ๋ณด๋ค ๋ณต์กํ๊ณ ๋ชฉํ ์งํฅ์ ์ธ Reward ํธ์ง์ ์ํํ ์ ์๋๋ก ์์ธํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, EUREKA๋ 10๊ฐ์ง ๋ก๋ด ํํ๋ฅผ ํฌํจํ 29๊ฐ์ ์คํ์์ค RL ํ๊ฒฝ์์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ค๊ณํ Reward ํจ์๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. 83%์ ํ์คํฌ์์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ๋ฅผ ๋ฅ๊ฐํ์ผ๋ฉฐ, ํ๊ท 52%์ ์ ๊ทํ๋ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ ๊ทํ๋ ๊ฐ์ ์ ์ \frac{\text{Method}-\text{Sparse}}{|\text{Human}-\text{Sparse}|}๋ก ํ๊ฐํ์ ๋, EUREKA๋ ์ธ๊ฐ Reward๊ณผ L2R(Language-to-Rewards)์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. ํนํ ๊ณ ์ฐจ์ ์กฐ์ ํ์คํฌ์์ ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. EUREKA๋ ์๋ Reward ์์ง๋์ด๋ง์ผ๋ก๋ ์ด์ ์ ๋ถ๊ฐ๋ฅํ๋ ํ ๋๋ฆฌ๊ธฐ(pen spinning)์ ๊ฐ์ ๋ณต์กํ ํ์คํฌ๋ฅผ ์ปค๋ฆฌํ๋ผ ํ์ต(curriculum learning)๊ณผ ๊ฒฐํฉํ์ฌ ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ, EUREKA๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ผ๋ก๋ถํฐ์ ๊ฐํ ํ์ต(RLHF)์ ๋ํ ์๋ก์ด ๊ฒฝ์ฌ๋ ์๋(gradient-free) ์ธ์ปจํ ์คํธ ํ์ต ์ ๊ทผ ๋ฐฉ์์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ, ๊ธฐ์กด ์ธ๊ฐ Reward ํจ์๋ฅผ ๊ฐ์ ํ๊ฑฐ๋ ์์ํ ํ ์คํธ ํผ๋๋ฐฑ์ ํตํด ์ธ๊ฐ ์๋์ ๋ ๋ถํฉํ๋ Reward์ ์์ฑํ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ์ด๋ LLM์ด ๊ด๋ จ ์ํ ๋ณ์์ ๋ํ ์ธ๊ฐ์ ์ง์๊ณผ Reward ์ค๊ณ ์๋ จ๋์ ๋ถ์กฑ์ ๋ณด์ํ ์ ์์์ ์์ฌํฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก EUREKA๋ LLM๊ณผ ์งํ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ๋ ๊ฐ๋จํ ์๋ฆฌ๊ฐ Reward ์ค๊ณ์ ๊ฐ์ ์ด๋ ค์ด ๊ฐ๋ฐฉํ ํ์ ๋ฌธ์ ์ ๋ํ ์ผ๋ฐ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์ ๊ทผ ๋ฐฉ์์์ ๋ณด์ฌ์ค๋๋ค.
Detail Review
๋ ผ๋ฌธ ๊ฐ์ ๋ฐ ์ฃผ์ ๊ธฐ์ฌ
Eureka (Evolution-driven Universal REward Kit for Agent)์ ๋ํ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ๊ฐํํ์ต์ Reward ํจ์๋ฅผ ์๋์ผ๋ก ์ค๊ณํ๋ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ GPT-4์ ๊ฐ์ ์ฝ๋ ์์ฑ ํนํ LLM์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ, ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค ๋๋ ๊ทธ ์ด์์ ํ์ง์ ๊ฐ์ง Reward ํจ์๋ฅผ ์๋ ์์ฑ ๋ฐ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ ์๋ค์ 29๊ฐ์ ๊ณต๊ฐ RL ํ๊ฒฝ(๋ก๋ดํ์ 10์ข ํฌํจ)์์ ์คํํ์ฌ, Eureka๊ฐ 83%์ ๊ณผ์ ์์ ์ธ๊ฐ์ด ์ค๊ณํ Reward์ ๋ฅ๊ฐํ๊ณ ํ๊ท 52%์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์์ ๋ณด๊ณ ํฉ๋๋ค. ํนํ ๋ณต์กํ ๊ณ ์ฐจ์ ์กฐ์ ์์ (์: 5์ง ๋ก๋ด ์์ผ๋ก ํ ๋๋ฆฌ๊ธฐ)์์๋ ๊ธฐ์กด ์์์ Reward์ผ๋ก ๋ฌ์ฑํ๊ธฐ ์ด๋ ค์ ๋ ์ฑ๊ณต์ ์ฒ์์ผ๋ก ์คํํด ๋ณด์์ต๋๋ค. ๋ํ Eureka๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ Reward ์ค๊ณ์ ํตํฉํ์ฌ ์์ด์ ํธ์ ํ๋์ ์ธ๊ฐ ์ ํธ์ ๋ง๊ฒ ์กฐ์ ํ๋ ์๋ก์ด ๋ฐฉ์์ RLHF(๊ฐํํ์ต ํ๊ฒฝ์์ ์ธ๊ฐ ํผ๋๋ฐฑ ํ์ฉ)๋ ์ ๋ณด์ ๋๋ค.
๋ ผ๋ฌธ์ ์๋์ ๊ฐ์ ์ธ ๊ฐ์ง ์ฃผ๋ ๊ธฐ์ฌ๋ฅผ ๊ฐ์กฐํฉ๋๋ค:
๋ฒ์ฉ์ Reward ์ค๊ณ ์ฑ๋ฅ โ ์ฌ์ ์ ์๋ ํ ํ๋ฆฟ์ด๋ ๊ณผ์ ๋ณ ํ๋กฌํํธ ์์ด๋ ์ฌ๋ฌ ๋ถ์ผ์ ๊ณผ์ ์์ ์ ๋ฌธ๊ฐ ์์ค Reward ํจ์๋ฅผ ์๋ ์์ฑํ์ฌ, ๋๋ถ๋ถ์ ๊ณผ์ ์์ ์ธ๊ฐ Reward๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ ๊ท ๋์ ํด๊ฒฐ โ ๊ธฐ์กด์ ์์์ Reward์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ ๊ณ ๋๋ ์กฐ์ ๊ณผ์ (์: ํ ํ์ )๋ฅผ Eureka Reward๊ณผ ๊ต์ก๊ณผ์ ํ์ต(curriculum learning)์ ํตํด ์ต์ด๋ก ์ฑ๊ณต์์ผฐ์ต๋๋ค. ์ด๋ Eureka๊ฐ ๋ณต์กํ ์คํฌ ํ์ต์ ๊ฒฌ์ธํ ์ ์๋ค๋ ๊ฒ์ ์ฆ๋ช ํฉ๋๋ค.
์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ โ ๋ชจ๋ธ ํ์ธํ๋ ์์ด๋ ์ฌ๋์ ํผ๋๋ฐฑ์ Reward ํจ์ ๊ฐ์ ์ ํ์ฉํ๋ ์๋ก์ด gradient-free RLHF ์ ๊ทผ์ ์ ์ํฉ๋๋ค. Eureka๋ ๊ธฐ์กด ์ธ๊ฐ Reward ํจ์๋ฅผ ์ถ๋ฐ์ ์ผ๋ก ์ผ์ ๋ ๋์ Reward์ผ๋ก ๊ฐ์ ํ๊ฑฐ๋, ์ค์ง ํ ์คํธ ํํ์ ์ธ๊ฐ ํผ๋๋ฐฑ๋ง์ผ๋ก ์์ด์ ํธ ํ๋์ ์ฌ๋์ด ์ ํธํ๋ ๋ฐฉํฅ์ผ๋ก ์กฐ์จํ ์ ์์์ ๋ณด์์ต๋๋ค.
์ด๋ฌํ ๊ธฐ์ฌ๋ฅผ ํตํด Eureka๋ ์ธ๊ฐ ์์ค์ Reward ์ค๊ณ๋ฅผ ์๋ํํ๋ ํ ๋๋ฅผ ๋ง๋ จํ์ต๋๋ค. Reward ํจ์ ์ค๊ณ์ ์ด๋ ค์์ ์ค๋ซ๋์ RL์ ๋ณ๋ชฉ์ผ๋ก ์ง์ ๋์ด ์๋๋ฐ, ์ฐ๊ตฌ ์กฐ์ฌ์ ๋ฐ๋ฅด๋ฉด 92%์ RL ์ฐ๊ตฌ์๋ค์ด Reward ์ค๊ณ๋ฅผ ์ํ์ฐฉ์ค์ ์์กดํ๊ณ 89%๋ ์์ ๋ค์ Reward์ด ์ต์ ์ดํ์ด๋ฉฐ ์๋์น ์์ ํ๋์ ์ ๋ฐํ ๊ฒฝํ์ด ์๋ค๊ณ ํฉ๋๋ค. Eureka๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LLM ๊ธฐ๋ฐ์ ๋ฒ์ฉ Reward ํ๋ก๊ทธ๋๋ฐ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฅ์ฑ์ ๋ฌป๊ณ , ์ด๋ฅผ ๊ตฌํํ ๊ฒ์ ๋๋ค.
Eureka ์์คํ ๊ตฌํ (์ฝ๋ ๊ตฌํ ๋ฐฉ์)
Eureka๋ โํ๊ฒฝ์ ์ดํดํ๋ LLMโ๊ณผ โ๊ฐํํ์ต ํ๊ฒฝโ์ ์ฐ๊ฒฐํ์ฌ Reward ์ฝ๋๋ฅผ ์์ฑํ๊ณ ๊ฐ์ ํ๋ ์๋ํ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ๊ฒฝ ์ ๋ณด์ ๊ณผ์ ์ค๋ช ์ ์ ๋ ฅ์ผ๋ก LLM์ด ํ์ด์ฌ Reward ํจ์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ RL ํ๊ฒฝ์์ ์คํํ์ฌ ์ ์ฑ ํ์ต ์ฑ๊ณผ๋ฅผ ํ๊ฐํ ๋ค, ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ LLM์ ํผ๋๋ฐฑ์ผ๋ก ์ ๊ณตํ์ฌ Reward ํจ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค. ์๋ ๊ทธ๋ฆผ์ Eureka ์์คํ ์ ํ๋ฆ์ ๋ํ๋ ๋๋ค.

Eureka ํ๋ ์์ํฌ ๊ฐ์ โ ํ๊ฒฝ ์์ค ์ฝ๋์ ๊ณผ์ ์์ฐ์ด ์ค๋ช ์ LLM(GPT-4)์ ์ปจํ ์คํธ๋ก ์ ๊ณตํ๋ฉด, LLM์ด ์ฆ์ ์คํ ๊ฐ๋ฅํ Reward ํจ์ ์ฝ๋๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ Reward ํจ์๋ฅผ ํ์ฉํ์ฌ GPU ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ(์: NVIDIA Isaac Gym)์์ ์์ด์ ํธ์ ๊ฐํํ์ต ์ ์ฑ ์ ํ๋ จํ๊ณ , ํ์ต ํต๊ณ(์ํผ์๋ ์ฑ๊ณต๋ฅ , Reward ๊ตฌ์ฑ์์ ๊ฐ ๋ณํ ๋ฑ)๋ฅผ ์์งํฉ๋๋ค. ๊ทธ ํ โReward ์ฑ์ฐฐ (reward reflection)โ ๋จ๊ณ์์ LLM์ ํ์ต ํผ๋๋ฐฑ(์: Reward ๊ตฌ์ฑ๋ณ ๊ฐ ์ถ์ด, ์ ์ฑ ์ฑ๋ฅ ์งํ ๋ฑ)์ ์์ฝ๋ ํ ์คํธ๋ก ์ ๋ฌํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก Reward ํจ์๋ฅผ ์์ /๊ฐ์ ํ๋๋ก ์๋ก์ด Reward ์ฝ๋ ์์ฑ์ ์์ฒญํฉ๋๋ค. ์ด๋ฌํ ์ฝ๋ ์์ฑ โ RLํ๋ จ โ ํผ๋๋ฐฑ โ ์ฝ๋ ์์ ์ ๋ฐ๋ณต ๋ฃจํ๋ฅผ ํตํด Reward ํจ์๋ ์ ์ง์ ์ผ๋ก ํฅ์๋ฉ๋๋ค.
LLMโํ๊ฒฝ ์ธํฐํ์ด์ค: ํ๊ฒฝ ์ฝ๋ ํ์ฉ
Eureka์ ํต์ฌ ์์ด๋์ด ์ค ํ๋๋ ํ๊ฒฝ์ ๊ทธ๋๋ก LLM์ ๋งฅ๋ฝ์ผ๋ก ์ ๊ณตํ๋ ๊ฒ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ๊ฒฝ์ Python ์์ค์ฝ๋์์ ์ํ(observation)์ ํ๋(action) ๋ณ์ ์ ์ ๋ถ๋ถ์ ์ถ์ถํ์ฌ, ํด๋น ํ๊ฒฝ ํด๋์ค/ํจ์ ์ฝ๋ ์์ฒด๋ฅผ ํ๋กฌํํธ์ ํฌํจ์ํต๋๋ค. ์ฌ๊ธฐ์ ๊ณผ์ (task) ์ค๋ช ๋ฌธ์์ด์ ์ถ๊ฐํ์ฌ, LLM์๊ฒ โ์ด ํ๊ฒฝ์์ ์ฃผ์ด์ง ๊ณผ์ ๋ฅผ ํด๊ฒฐํ Reward ํจ์๋ฅผ ์์ฑํ๋ผโ๋ ์ง์๋ฅผ ํฉ๋๋ค. ์ด๋ฌํ โํ๊ฒฝ ์์ฒด๋ฅผ ํ๋กฌํํธ๋กโ ์ ๊ณตํ๋ ์ ๊ทผ์ ๋ ๊ฐ์ง ์ด์ ์ ๊ฐ์ง๋๋ค:
์ง๊ด์ ์ธ ์ฝ๋ ์์ฑ ๋งฅ๋ฝ: LLM์ด ์ด๋ฏธ ํ์ตํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ํ๊ฒฝ์ ๋ณ์๋ช ์ ๊ทธ๋๋ก ํ์ฉํ์ฌ, ์ต์ํ ํ์์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ LLM์ด ์ผ๋ฐ์ ์ธ ์์ฐ์ด ์ค๋ช ๋ณด๋ค ์ ํํ ํ์ํ Reward ํญ๋ชฉ์ ํฌ์ฐฉํ์ฌ ์ฝ๋๋ก ๋ณํํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
ํ๊ฒฝ ์ ๋ณด์ ์ด์ฒด์ ์ ๊ณต: ํ๊ฒฝ ์ฝ๋์๋ ๊ณผ์ ์ ์ํ๊ณต๊ฐ๊ณผ ๋์ญํ์ ๋ํ ๋จ์๊ฐ ๋ดํฌ๋์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ด์ ๊ฐ, ๋ชฉํ ์์น ๋ฑ์ ๋ณ์๋ช ์ด ์ฃผ์ด์ง๋ฏ๋ก, LLM์ ์ด๋ค ๋ณ์๋ค์ด Reward์ ํ์ฉ๋ ์ ์๋์ง ์์ฐ์ค๋ฝ๊ฒ ํ์ ํฉ๋๋ค. ์ธ๊ฐ์ด ์ผ์ผ์ด ์๋ ค์ฃผ์ง ์์๋, ํ๊ฒฝ์ด ํ์ฉํ๋ ๋ชจ๋ ๊ด์ธก์น์ ๊ธฐ๋ฐํด Reward ํจ์๋ฅผ ๊ตฌ์ฑํ ์ ์๊ฒ ๋๋ ๊ฒ์ ๋๋ค.
์ค์ํ ์ ์, Eureka๋ ํน์ ๊ณผ์ ์ ๋ง์ถ ์ถ๊ฐ ํํธ ์์ด๋ ์ด ๋ฐฉ์๋ง์ผ๋ก ํ๋นํด ๋ณด์ด๋ ์ด๊ธฐ Reward ํจ์๋ฅผ ๋ง๋ค์ด๋ธ๋ค๋ ๊ฒ์
๋๋ค. ์๋ฅผ ๋ค์ด, ๋ณ๋ ํ
ํ๋ฆฟ ์์ด๋ GPT-4๋ ํ๊ฒฝ ์ฝ๋์ ๋์ค๋ fingertip_pos
๋ฑ ๊ด์ธก ๋ณ์๋ฅผ ์ด์ฉํด ํฉ๋ฆฌ์ ์ธ Reward ๊ณต์์ ์์ฑํ ์ ์์์ต๋๋ค. ๋ค๋ง, ์ด๋ ๊ฒ ์ฒซ ์๋์์ ์์ฑ๋ Reward ํจ์๋ ๋ฌธ๋ฒ ์ค๋ฅ๊ฐ ์๊ฑฐ๋, ์คํ๋๋๋ผ๋ ์ฑ๋ฅ์ด ๋ฏธํกํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Eureka๋ ํ ๋ฒ์ ์์ฑ์ ๊ทธ์น์ง ์๊ณ ๋ฐ๋ณต์ ๊ฐ์ ์ ์ฐจ๋ฅผ ๋์
ํฉ๋๋ค.
์ฐธ๊ณ : ํ๊ฒฝ ์ฝ๋๊ฐ ๋๋ฌด ๊ธธ ๊ฒฝ์ฐ๋ฅผ ๋๋นํด, ์ ์๋ค์ ์๋ ์คํฌ๋ฆฝํธ๋ก ์ค์ํ ๋ถ๋ถ๋ง ์ถ์ถํ์ฌ LLM ์ปจํ ์คํธ ๊ธธ์ด์ ๋ง๊ฒ ์กฐ์ ํ๋ค๊ณ ํฉ๋๋ค. ๋ํ ์๋ฎฌ๋ ์ดํฐ ์ข ์์ ์ธ ๋ด๋ถ ์ฝ๋(์: ๋ฌผ๋ฆฌ์์ง ์ธ๋ถ ์ค์ )๋ ์ ์ธํ์ฌ, ๋ค๋ฅธ ํ๊ฒฝ์๋ ์ผ๋ฐํ๋ ์ ์๋ ๋งฅ๋ฝ๋ง ์ ๊ณตํ๋๋ก ์ ๋ํ์ต๋๋ค.
์ฝ๋ ์์ฑ ๋ฐ ํ๊ฐ: ์งํ์ Reward ํ์
Eureka๋ ์งํ์ ํ์(evolutionary search) ์ ๋ต์ ํตํด, LLM์ด ์์ฑํ Reward ์ฝ๋์ ํ์ง์ ์ ์ฆ์ ์ผ๋ก ํฅ์์ํต๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์๋์ ๊ฐ์ด ์๋ํฉ๋๋ค:
๋ค์ ํ๋ณด ์์ฑ โ ๊ฐ ๋ฐ๋ณต(iteration) ๋จ๊ณ๋ง๋ค LLM์๊ฒ ๋์ผํ ํ๋กฌํํธ๋ฅผ ์ฌ๋ฌ ๋ฒ ๋ ๋ฆฝ์ ์ผ๋ก ์คํํ์ฌ K๊ฐ์ Reward ํจ์ ํ๋ณด๋ฅผ ์ํ๋งํฉ๋๋ค. ๊ธฐ๋ณธ ์ค์ ์ผ๋ก ํ ๋ฒ์ K=16๊ฐ์ ์ฝ๋๋ฅผ ์์ฑํ๋๋ฐ, ์ด๋ ๊ฒ ํ๋ฉด ์ต์ ํ๋ ์ด์์ ์คํ ๊ฐ๋ฅํ ์ฝ๋๊ฐ ๋์ฌ ํ๋ฅ ์ด ๋งค์ฐ ๋์ต๋๋ค (์ ์์ ๋ฐ๋ฅด๋ฉด 16๊ฐ ์ค ์ ์ด๋ 1๊ฐ๋ ์ค๋ฅ ์์ด ์คํ๋์๋ค๊ณ ํฉ๋๋ค). LLM์ ์ถ๋ ฅ์ ๋ค์ ํ๋ณดํจ์ผ๋ก์จ, ๋จ์ผ ์๋ ์ ๋ฐ์ํ ์ ์๋ ์ฝ๋ ์ค๋ฅ ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค.
๋๊ท๋ชจ ๋ณ๋ ฌ ํ๊ฐ โ ์์ฑ๋ ๊ฐ Reward ํจ์์ ๋ํด, ๋์์ RL ์์ด์ ํธ๋ฅผ ํ๋ จ์์ผ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. NVIDIA Isaac Gym๊ณผ ๊ฐ์ GPU ๊ฐ์ ํ๊ฒฝ์ ์ด์ฉํ์ฌ ์ฌ๋ฌ ์ ์ฑ ์ ๋ณ๋ ฌ๋ก ํ๋ จํจ์ผ๋ก์จ, ์์ญ ๊ฐ Reward์ ๋ํ ํ๊ฐ๋ฅผ ์ ์ํ ์ํํ ์ ์์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ Isaac Gym์ ํตํด ์ ์ฑ ํ์ต ์๋๊ฐ CPU ๋๋น ์ต๋ 1000๋ฐฐ๊น์ง ๊ฐ์๋์์์ ์ธ๊ธํ๋ฉฐ, ๋๊ท๋ชจ Reward ํ์์ ํ์คํํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. (๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ค RL ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋์ง๋ Isaac Gym ๊ธฐ๋ณธ RL ์๊ณ ๋ฆฌ์ฆ(PPO ๋ฑ)์ผ๋ก ์ถ์ ๋๋ฉฐ, GPT-4 ๋ฑ LLM๊ณผ๋ ๋ณ๊ฐ๋ก ์ ํต์ RL ํ์ต์ด ์ด๋ฃจ์ด์ง๋๋ค.)
์ต๊ณ ์ฑ๋ฅ Reward ์ ํ โ ํ๊ฐ ๊ฒฐ๊ณผ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ(score)์ ๋ธ Reward ํจ์๋ฅผ ์ฐ์ ์ ํํฉ๋๋ค. ์ด ๋ฒ ์คํธ ํ๋ณด๋ ์ดํ LLM ํ๋กฌํํธ์ ํฌํจ๋์ด, ๋ค์ ์ธ๋ Reward ์ฝ๋ ์์ฑ์ ์ฐธ์กฐ ์์(context)๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ๊ฒ ์ด์ ์ธ๋์ ์ฐ์ํ Reward์ ๋งฅ๋ฝ์ ์ถ๊ฐํจ์ผ๋ก์จ, LLM์ด ๊ธฐ์กด Reward์ ๊ตฌ์กฐ์ ์ฑ๋ฅ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๊ฐ์ ๋ ๋ณํ์ ๋ง๋ค๋๋ก ์ ๋ํฉ๋๋ค.
๋ฐ๋ณต ๋ฐ ๋ค์ค ์๋ โ ์ ๊ณผ์ ์ N๋ฒ ๋ฐ๋ณตํ์ฌ Reward์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋ฉฐ, ์ฌ๋ฌ ๋ ๋ฆฝ์ ์ธ ๊ฒ์ ์๋(random restarts)๋ ์ํํฉ๋๋ค. ๋ ผ๋ฌธ ์คํ์์๋ 5ํ ๋ ๋ฆฝ ์คํํ์ฌ ๊ฐ 5์ธ๋(iterations)์ฉ ํ์ํ๊ณ , ์ต์ข ์ ์ผ๋ก ์ป์ ์ต๊ณ ์ฑ๋ฅ Reward ํจ์๋ฅผ ๊ฒฐ๊ณผ๋ฌผ๋ก ์ ํํ์ต๋๋ค. (๋ค์ค ์์์ ์ ์ญ ์ต์ ํด๋ฅผ ์ฐพ๊ธฐ ์ํ ํ์ค ๊ธฐ๋ฒ์ผ๋ก, ์ด๊ธฐ ์ํ๋ง์ ์ด ๋์๊ฒ ๊ฑธ๋ ธ์ ๊ฒฝ์ฐ๋ฅผ ๋ณด์ํฉ๋๋ค.)
์งํ์ ํ์ ๊ณผ์ ์์ LLM์ ๋ ๊ฐ์ง ๋ชจ๋๋ก ํ์ฉ๋ฉ๋๋ค. ์ฒ์ 1์ธ๋์์๋ ์ค์ง ํ๊ฒฝ ์ฝ๋+๊ณผ์ ์ค๋ช ๋ง์ผ๋ก โ์ ๋ก์ทโ Reward ์์ฑ์ ์ํํ๊ณ , 2์ธ๋๋ถํฐ๋ ์ด์ ์ต๊ณ Reward๊ณผ ์ถ๊ฐ ์ง์๋ฅผ ๋งฅ๋ฝ์ ํฌํจํด โ๋ณ์ด(mutation)โ ์์ฑ์ ์ํํ๋ ๊ฒ์ ๋๋ค. ๋ณ์ด๋ฅผ ์ ๋ํ๊ธฐ ์ํด, ์ ์๋ค์ ํ๋กฌํํธ์ ๊ฐ๋จํ ํ ์คํธ ์ง์นจ(์: โ์ด Reward ํจ์๋ฅผ ์ฝ๊ฐ ์์ ํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ด๋๋ก ํด๋ณด์ธ์โ)์ ์ถ๊ฐํ๋ค๊ณ ํฉ๋๋ค. ์ด ์ง์นจ์ ๊ตฌ์ฒด์ ์ธ ์์ ๋ฐฉํฅ์ ๊ฐ์ํ์ง ์๊ณ ๋, LLM์ด ๋ค์ํ ํํ์ Reward ๋ณํ์ ์๋ํ๊ฒ ๋์ต๋๋ค. ์ค์ ๋ก Eureka๊ฐ ๋ง๋ค์ด๋ธ ๊ฐ์ ๋ค์ (1) ๊ธฐ์กด Reward ์ฑ๋ถ์ ๊ฐ์ค์น ๋ฑ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ , (2) ๊ธฐ์กด ์ฑ๋ถ์ ์์ ํํ ๋ณ๊ฒฝ, (3) ์์ ํ ์๋ก์ด Reward ์ฑ๋ถ ์ถ๊ฐ** ๋ฑ ๋งค์ฐ ์์ ๋ ๋์ ๋ณํ๋ค์ ํฌ๊ดํ์ต๋๋ค. Fig.3 (๋ ผ๋ฌธ ์์ ๊ทธ๋ฆผ)์์๋ ์ด๋ฌํ ๋ค์ํ ํํ์ Reward ์์ ์ด ์๊ฐํ๋์ด ์์ต๋๋ค.

์์ฝํ๋ฉด, Eureka์ ํ์์ ํญ๋์ Reward ๊ณต๊ฐ์์ LLM์ ์์ฑ ๋ค์์ฑ๊ณผ ๋ณ๋ ฌ RLํ๊ฐ๋ฅผ ๊ฒฐํฉํ์ฌ ์ฐ์ํ Reward ํจ์๋ฅผ ์งํ์ ์ผ๋ก ์ฐพ์๊ฐ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ ๊ธฐ์กด์ ์ฌ๋์ด ์๋์ผ๋ก Reward์ ํ๋ํ๋ ์ํ-์ค๋ฅ ๊ณผ์ ์ ์๋ํํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
Reward Reflection: ํ ์คํธ ๊ธฐ๋ฐ ์ฑ๋ฅ ํผ๋๋ฐฑ
Eureka๊ฐ LLM์ ํตํด Reward์ ๊ฐ์ ํ๊ธฐ ์ํด์๋, RL ํ๋ จ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ๋ LLM์ ์ดํด์ํฌ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค. ๋จ์ํ โํ์ฌ ์ ์ = Xโ์ ๊ฐ์ ์ซ์ ์ฑ์ ๋ง ์ ๊ณตํ๋ฉด, LLM์ ์ด๋ป๊ฒ Reward์ ๋ฐ๊ฟ์ผ ํ ์ง ๊ฐ์ ์ก๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ ๋ ๊ฐ๋ ์ด โReward ์ฑ์ฐฐ (reward reflection)โ์ ๋๋ค.
Reward ์ฑ์ฐฐ์ด๋, ์ ์ฑ
ํ์ต ๊ณผ์ ์ ํต์ฌ ๋ํฅ์ ์์ฝํ ํ
์คํธ ํผ๋๋ฐฑ์ผ๋ก์, LLM์ด Reward ํจ์์ ์ฅ๋จ์ ์ ํ์
ํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค. Eureka๋ ์ด๋ฅผ ์ํด Reward ํจ์๋ฅผ ํน๋ณํ ํ์์ผ๋ก ์์ฑํ๋๋ก ํ์ต๋๋ค: Reward ํจ์๊ฐ ๊ฐ ์์ ์ ๊ณ์ฐํ๋ ๊ฐ๋ณ Reward ๊ตฌ์ฑ ์์๋ค์ ๋์
๋๋ฆฌ๋ก ์ถ๋ ฅํ๊ฒ ํ ๊ฒ์
๋๋ค. ์๋ฅผ ๋ค์ด, ํ ํ์ ๊ณผ์ ๋ผ๋ฉด Reward ํจ์๊ฐ "orientation_bonus"
, "angular_velocity_penalty"
๋ฑ์ ์ฑ๋ถ๋ณ ๊ฐ์ ๋งค ์๋ฎฌ๋ ์ด์
๋จ๊ณ๋ง๋ค ์ฐ์ถํ์ฌ, ์ด Reward ์ธ์ ๊ตฌ์ฑ๋ณ ๊ฐ์ ๊ธฐ๋กํ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด RL ํ๋ จ ๋์ ๊ฐ ๊ตฌ์ฑ ์์๊ฐ ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ถ์ ํ ์ ์์ต๋๋ค. Eureka๋ ์ ํด์ง ๊ฐ๊ฒฉ๋ง๋ค (์: ํ๋ จ์ 20%, 40%, โฆ ์งํ ์์ ) ์ ์ฑ
์ ์ฑ๋ฅ๊ณผ Reward ๊ตฌ์ฑ๊ฐ ํต๊ณ๋ฅผ ์์งํ์ฌ, ์ด๋ฅผ ์ฌ๋ ์ฝ๊ธฐ ์ข์ ํํ๋ก ์์ฝํฉ๋๋ค.

์์: ๋ ผ๋ฌธ์์๋
av_penalty
(๊ฐ์๋ ํจ๋ํฐ)๋ผ๋ ๊ตฌ์ฑ์์์ ๊ฐ์ด ํ๋ จ ์ด๊ธฐ์ ๋๋ค๊ฐ ๋์ค์ ๋ฎ์์ง๋ ์ถ์ธ๋ฅผ ๋ณด์ธ ๊ฒฝ์ฐ๋ฅผ ์๋ก ๋ญ๋๋ค. ์ด๋ฌํ ์ ๋ณด๋ฅผ ํ ์คํธ๋ก โav_penalty ๊ฐ์ด ์ ์ฐจ ๊ฐ์ํ๋คโ, โ์ฑ๊ณต๋ฅ ์ ์ด๊ธฐ 0.1์์ ์ต์ข 0.9๋ก ์์นํ๋คโ ๋ฑ์ผ๋ก ํํํ์ฌ, LLM์๊ฒ ์ ๋ฌํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋กฌํํธ์ โ์ ํผ๋๋ฐฑ์ ๋ถ์ํ์ฌ Reward ํจ์๋ฅผ ๊ฐ์ ํ๋ผโ๋ ์์ ์์ฒญ์ ๋ง๋ถ์ ๋๋ค (๊ทธ๋ฆผ์ ํ๋์ Reward Reflection ์์ ์ฐธ์กฐ).
์ด๋ฐ ์์ธํ ํผ๋๋ฐฑ์ ๋ ๊ฐ์ง ์ด์ ๋ก ์ค์ํฉ๋๋ค. ์ฒซ์งธ, ์ด ์ ์(score)๋ง ์๋ ค์ฃผ๋ ๊ฒฝ์ฐ ์ด๋ค ๋ถ๋ถ์ด ๋ฌธ์ ์ธ์ง ์ ์ ์์ต๋๋ค. ๋ฐ๋ฉด ์ฑ๋ถ๋ณ ํผ๋๋ฐฑ์ ์ด๋ Reward ํญ๋ชฉ์ด ์ ์ฑ ์ ์ ๋ฐ์๋์๊ณ , ์ด๋ ๊ฒ์ด ๋ฌด์๋์๋์ง ์ง์ํ ์ ์๊ฒ ํด์ค๋๋ค. ๋์งธ, Reward ํจ์์ ํจ๊ณผ๋ ์ฌ์ฉ๋ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์, ์ฑ๋ฅ ์ ํ๊ฐ Reward ์ค๊ณ ๋ฌธ์ ์ธ์ง, ์๊ณ ๋ฆฌ์ฆ์์ ํ๊ณ์ธ์ง ๊ตฌ๋ถํด์ผ ํฉ๋๋ค. ์์ปจ๋ ๋์ผํ Reward๋ RL ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ์ฑ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์๋๋ฐ, Reward ์ฑ์ฐฐ์ ํ์ต๊ณผ์ ์์ฒด์ ๋ฐ์์ ๋ณด์ฌ์ฃผ๋ฏ๋ก, LLM์ด ํ ์๊ณ ๋ฆฌ์ฆ์ ์ต์ ํ๋ Reward์ผ๋ก ์กฐ์ ํ ์ ์๋๋ก ๋์์ค๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, Reward ์ฑ์ฐฐ์ ํฌํจํ ํผ๋๋ฐฑ์ ์ ๊ณตํ ๋ LLM์ ๋ ์ ๊ตํ๊ณ ๋ชฉํ ์งํฅ์ ์ธ ์์ ์ ์์ ๋ด๋๊ฒ ๋ฉ๋๋ค. ์ค์ ์คํ์์๋ Reward ์ฑ์ฐฐ์ ์ ๋ฌด์ ๋ฐ๋ผ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์ปธ์ต๋๋ค. Eureka์์ Reward ์ฑ์ฐฐ์ ์ ๊ฑฐํ๊ณ ์ค์ง ์ต์ข ์ฑ๋ฅ ์์น๋ง ํผ๋๋ฐฑ์ผ๋ก ์ค ๊ฒฝ์ฐ, ํ๊ท ์ฑ๋ฅ์ด 28.6%๋ ๋จ์ด์ก๊ณ , ํนํ ๋์ด๋ ๋์ ๊ณผ์ ์ผ์๋ก ์ฑ๋ฅ ์ ํ๊ฐ ๋๋๋ฌ์ก๋ค๊ณ ํฉ๋๋ค. ์ด๋ ์ธ๋ฐํ ํ ์คํธ ํผ๋๋ฐฑ์ด ๋ณต์กํ Reward ์ต์ ํ์ ํ์์ ์์ ๋ณด์ฌ์ค๋๋ค.
๊ตฌํ ์์ธ ๋ฐ ์ฌํ์ฑ
LLM ๋ชจ๋ธ: Eureka๋ OpenAI GPT-4(๋ฒ์ gpt-4-0314;deprecated!)๋ฅผ ๊ธฐ๋ณธ LLM์ผ๋ก ์ฌ์ฉํ์์ต๋๋ค. GPT-4์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ๊ณผ ์ง์ ์ดํด ๋ฅ๋ ฅ์ด ๋ณธ ์ฐ๊ตฌ์ ํ ๋๋ฅผ ์ด๋ฃจ๊ณ ์์ต๋๋ค. (์ฐธ๊ณ ๋ก, GPT-4์ ์ง์ ์ปท์คํ(2021๋ 9์) ์ดํ ๋ฑ์ฅํ ํ๊ฒฝ๋ค๋ ์คํ์ ํฌํจ๋์ด, ์ฌ์ ํ์ต ์ง์ ์์ด ์ง์ ํ ์ ๋ก์ท ์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค๊ณ ์ธ๊ธํฉ๋๋ค.)
๋ณด์กฐ ๋ชจ๋ธ ๋ฐ ๋๊ตฌ: ํน๋ณํ ๋ช ์๋ ๋ณ๋์ ๋ณด์กฐ ML๋ชจ๋ธ์ ์ฌ์ฉ๋์ง ์์์ผ๋ฉฐ, RL ์ ์ฑ ํ์ต์๋ ํ์ค PPO ์๊ณ ๋ฆฌ์ฆ(Isaac Gym ๋ด์ฅ)์ ํ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ค๋ง, ํ๋์ Reward ํ๋ณด๋ฅผ ํ๊ฐํ๋ ๋ฐ๋ ์์ฒ ํ์ ์๋ฎฌ๋ ์ด์ ์คํ ์ ์ํํด์ผ ํ๋ฏ๋ก, ๋ณ๋ ฌ์ฒ๋ฆฌ์ GPU ๊ฐ์์ด ํต์ฌ ๊ธฐ์ ์์๋ก ์ฌ์ฉ๋์์ต๋๋ค. ๋ํ ์ฝ๋ ๊ตฌํ ๋ฉด์์, ์์ฑ๋ Reward ํจ์์ ๋ฌธ๋ฒ ๊ฒ์ฌ๋ ์คํ ํ ์คํธ๋ฅผ ์๋ํํ์ฌ, ๋ฐํ์ ์ค๋ฅ๋ฅผ ๋ฏธ๋ฆฌ ๊ฐ์งํ๋ ์ฅ์น๋ ํฌํจ๋์์ ๊ฒ์ผ๋ก ์ถ์ธก๋ฉ๋๋ค (์คํ์์ค ์ฝ๋ ์์์ ํ์ธ ๊ฐ๋ฅ). ์๋ฅผ ๋ค์ด ์ฝ๋ ์คํ ์ ํ์ฑ์ ์๋ํ๊ฑฐ๋, ์คํ ์ค ์์ธ ๋ฐ์ ์ ํด๋น Reward์ ์ ์ 0์ผ๋ก ๊ฐ์ฃผํ๋ ์์ผ๋ก ๊ฒฌ๊ณ ์ฑ์ ํ๋ณดํ์ ๊ฒ์ ๋๋ค.
์คํ์์ค์ ์ฌํ์ฑ: ์ ์๋ค์ ํ๋กฌํํธ, ํ๊ฒฝ, ์์ฑ๋ Reward ํจ์ ์ฝ๋๋ฅผ ๋ชจ๋ ๊ณต๊ฐํ์ฌ ํ์ ์ฐ๊ตฌ๊ฐ ์ฉ์ดํ๋๋ก ํ๋ค๊ณ ๋ฐํ์ต๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ ๋ฐํ์ ํจ๊ป GitHub์ ๊ณต์ ๊ตฌํ ๋ฆฌํฌ์งํฐ๋ฆฌ๊ฐ ๊ณต๊ฐ๋์ด ์์ผ๋ฉฐ, ์ด๋ฏธ 3์ฒ ๊ฐ ์ด์์ Star๋ฅผ ๋ฐ์ ๋งํผ ํฐ ํธ์์ ์ป๊ณ ์์ต๋๋ค. ๊ณต๊ฐ ์ฝ๋์๋ ์ปค์คํ ํ๊ฒฝ ์ ์(IsaacGym ๊ธฐ๋ฐ), Eureka ์๊ณ ๋ฆฌ์ฆ (ํ๋กฌํํธ, GPT API ํธ์ถ, RL ํ์ต ๋ฃจํ), ๊ทธ๋ฆฌ๊ณ 29๊ฐ ๊ณผ์ ๊ฐ๊ฐ์ ๋ํด Eureka๊ฐ ๋ฐ๊ฒฌํ ์ต์ Reward ํจ์ ์์ ๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ๊ฒฐ๊ณผ๋ฅผ ์ฌํํ๊ฑฐ๋, ์๋ก์ด ํ๊ฒฝ์ Eureka๋ฅผ ์ ์ฉํด๋ณผ ์ ์๋ ๊ธฐ๋ฐ์ด ๊ฐ์ถฐ์ ธ ์์ต๋๋ค.
์ด๋ก ์ ๊ธฐ์ฌ ๋ฐ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ฑ
๊ธฐ์กด Reward ์ค๊ณ ์ ๊ทผ๊ณผ Eureka์ ์ฐจ๋ณ์
๊ฐํํ์ต์์ Reward ์ค๊ณ(reward design) ๋ฌธ์ ๋ฅผ ์๋ํํ๋ ค๋ ์๋๋ ๊ณผ๊ฑฐ์๋ ์ฌ๋ฌ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ฐ์ด ์ค๋ช
์ ํ์ฉํ์ฌ Reward์ ์์ฑํ๋ ์ ๊ทผ์ผ๋ก L2R(Language to Reward
, Yu et al., 2023)์ด๋ Text2Reward ๋ฑ์ด ์ต๊ทผ ์ ์๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ LLM์ ์ ํ์ ๋ฐฉ์์ผ๋ก ํ์ฉํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. L2R์ ๊ฒฝ์ฐ ๋ ๋จ๊ณ ํ๋กฌํํธ๋ฅผ ํตํด ์ฌ์ ์ ์๋ ํ
ํ๋ฆฟ ํํ์ Reward๋ง ์์ฑํ๋๋ก ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฒซ ๋ฒ์งธ LLM์ด โ๋ก๋ด์ ๋์์ ๋ํ ์์ โ์ ์ฑ์ฐ๋ฉด, ๋ ๋ฒ์งธ LLM์ด ์ด๋ฅผ ๋ฏธ๋ฆฌ ์ค๋น๋ Reward API ํจ์ ํธ์ถ ์ฝ๋๋ก ๋ณํํ๋ ์์ด์์ต๋๋ค. ์ด๋ฌํ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ์ ๊ทผ์ ์ธ๊ฐ์ด ์ ์ํ Reward ํ๋ฆฌ๋ฏธํฐ๋ธ(๊ธฐ๋ณธ ์์)์ ์กฐํฉ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ฏ๋ก ํํ๋ ฅ์ด ์ ํ๋๊ณ , ์๋ก์ด Reward ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ํ ํ๊ฒฝ๋ง๋ค ํ
ํ๋ฆฟ์ ์กฐ๊ธ์ฉ ๋ฐ๊พธ๊ฑฐ๋, LLM์ ๊ณผ์ ๋ณ ํํธ(prompt)๋ฅผ ์๋ ์ ๊ณตํด์ผ ํ๋ ๋ฑ ๋ฒ์ฉ์ฑ์๋ ํ๊ณ๊ฐ ์์์ต๋๋ค.
Eureka๋ ์ด๋ฌํ ๊ธฐ์กด ์ ๊ทผ๊ณผ ๋ช ๊ฐ์ง ์ค์ํ ์ฐจ๋ณ์ ์ ๋ณด์ ๋๋ค:
์ ์ฉ ํ๋กฌํํธ/ํ ํ๋ฆฟ์ ๋ถ์ฌ: Eureka๋ ์ด๋ค ๊ณผ์ ์๋ ๋์ผํ ์ ๋ต(ํ๊ฒฝ ์ฝ๋ + ๊ณผ์ ์ค๋ช )๋ง์ผ๋ก ์ ์ฉ๋ฉ๋๋ค. ์ถ๊ฐ ์์, ํ ํ๋ฆฟ, ์๋ ํ๋กฌํํธ ํ๋์ด ์ ํ ์์ผ๋ฉฐ, ์์ ํ LLM์ ์ผ๋ฐ ๋ฅ๋ ฅ์ ์์กดํด Reward์ ๋ง๋ญ๋๋ค. ๊ทธ๋ผ์๋ ๋๋ถ๋ถ ๊ณผ์ ์์ ์ธ๊ฐ Reward๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค๋ ์ ์์ ๋ฒ์ฉ์ฑ๊ณผ ํจ๊ณผ์ฑ์ ์ ์ฆํ์ต๋๋ค.
์์ ํ์์ Reward ํ๋ก๊ทธ๋จ ์์ฑ: L2R ๋ฑ์ด ์ ํด์ง ํจ์๋ค์ ์กฐํฉ๋ง ์์ฑํ ๋ฐ๋ฉด, Eureka๋ ํ์ด์ฌ ์ธ์ด๋ก ๋ ์์์ ๋ ผ๋ฆฌ๋ฅผ ์์ฑํฉ๋๋ค. ๋๋ถ์ ์์ ํ ์๋ก์ด Reward ๊ฐ๋ ๋ ๋์ ํ ์ ์์ต๋๋ค. ์ค์ Eureka๊ฐ ๋ง๋ค์ด๋ธ Reward ์ค์๋ ์ธ๊ฐ Reward๊ณผ ์๊ด๊ด๊ณ๊ฐ ๊ฑฐ์ ์๊ฑฐ๋ ์์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ด๋ฉด์๋ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ฒ๋ค์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค. ์ด๋ ์ธ๊ฐ์ด ์๊ฐํ์ง ๋ชปํ Reward ์ค๊ณ ์๋ฆฌ๋ฅผ Eureka๊ฐ ์ฐพ์๋์์ ์์ฌํฉ๋๋ค. ์์ปจ๋ ์ด๋ค ๊ณผ์ ์์๋ ์ธ๊ฐ Reward๊ณผ ์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์๋ํ๋ Reward์ด ์คํ๋ ค ํ์ต์ ์ด์งํ ์ฌ๋ก๋ ์์์ผ๋ฉฐ, ์ ์๋ค์ ํด๋น ์์๋ค์ ๋ถ๋ก์ ์ ์ํ์ต๋๋ค. ์ฆ, Eureka๋ ์ฌ๋์ ์ง๊ด์ ๋ฐ์ด๋๋ ์ฐฝ์์ ํด๋ฒ์ ๋ฐ๊ตดํ ์ ์์ต๋๋ค.
LLM ๊ธฐ๋ฐ ๋ฐ๋ณต ์ต์ ํ: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ Reward ํจ์๋ฅผ ํ ๋ฒ ์์ฑํ๊ณ ๋๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋ฐ๋ฉด Eureka๋ LLM์ ๋ฃจํ ์์์ ๋ฐ๋ณต ํธ์ถํ๋ฉฐ, ํ์ต์ผ๋ก๋ถํฐ ํผ๋๋ฐฑ์ ๋ฐ์ ์ ์ง์ ๊ฐ์ ์ ํฉ๋๋ค. ์ด๋ฐ in-context learning ๋ฃจํ๋ ๋ง์น LLM์ด โReward ๋๋ฒ๊น โ์ ํ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ฌ๋๋ Reward ์ค๊ณ ํ ์ ์ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ์์ ํ๋๋ฐ, Eureka๋ ์ด๋ฅผ ์๋ํํ๊ณ ํจ์ฌ ๋น ๋ฅธ ์ฌ์ดํด๋ก ๋๋ฆฐ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ํนํ Reward ์ฑ์ฐฐ์ ํตํด LLM์ด ์คํจ ์์ธ์ ์ดํดํ๊ณ ์์ ํ๋ ์ ์, ๊ธฐ์กด์ ์๋ ํ์ ์ ์ธ ์์์ ๋๋ค.
์ธ๊ฐ ํต์ฐฐ๊ณผ์ ๊ฒฐํฉ: Eureka๋ ์ธ๊ฐ์ด ๋ถ๋ถ์ ์ผ๋ก ์ค๊ณํ Reward๊ณผ ํ์ ํ ์๋ ์์ต๋๋ค. ์ธ๊ฐ์ด ๋ง๋ ์ด๊ธฐ Reward์ 1์ธ๋ ์ถ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ทธ ์์ ๊ฐ์ ์ ์์ํ๋ฉด, Eureka (Human Init.) ๋ฒ์ ์ด ๋์ค๋๋ฐ, ์ด๋ ์๋ณธ ์ธ๊ฐ Reward์ด๋ ์์ Eureka๋ณด๋ค ํญ์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์ธ๊ฐ์ ์ง๊ด(์ ์ฉํ ์ํ ๋ณ์ ์ ํ ๋ฑ)๊ณผ LLM์ ์ต์ ํ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ ๋ ์์น ํจ๊ณผ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ฐ๊ตฌ์ง์ โ์ธ๊ฐ์ ์ด๋ค ์ํ ๋ณ์๊ฐ ์ค์ํ์ง ์๋ ์์์ ์ง์์ ๊ฐ์ท์ง๋ง, ๊ทธ๊ฒ๋ค์ ์ด๋ป๊ฒ ์กฐํฉํ์ฌ Reward ์ค๊ณ๋ก ํ์ฉํ ์ง๋ ์๋์ ์ผ๋ก ๋ฏธ์ํ ์ ์๋คโ๋ ํต์ฐฐ์ ์ธ๊ธํ๋ฉฐ, Eureka๊ฐ ์ธ๊ฐ์ ์ฝ์ ์ ๋ณด์ํ๋ Reward ์ค๊ณ ์กฐ๋ ฅ์๋ก ๊ธฐ๋ฅํ ์ ์์์ ๊ฐ์กฐํฉ๋๋ค.
์์ ์ฑ๊ณผ ์ค๋ฆฌ์ ์ ๋ ฌ: Reward ํจ์๊ฐ ํญ์ ๋ฐ๋์งํ ํ๋์ ๋ด๋ณดํ์ง๋ ์๊ธฐ์, ์ธ๊ฐ ์ ํธ์ ๋ง๊ฒ Reward์ ์์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๊ธฐ์กด RLHF๋ ์ฃผ๋ก ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ์์ด์ง๋ง, Eureka๋ Reward ํจ์๋ฅผ ์์ ํ๋ ๋ฐฉ์์ RLHF๋ฅผ ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ ํ๊ฐ์๋ค์ด โ๋ก๋ด์ด ๋๋ฌด ์์ผ๋ก ์์ฌ ๋ฐ๋ ๋๋ฐ๋ก ๋ฐ๋๋ก Reward ์์ ํด๋ฌ๋ผโ๋ ์์ ํผ๋๋ฐฑ์ ํ ์คํธ๋ก ์ฃผ๋ฉด, Eureka๊ฐ ๊ทธ์ ๋ง์ถฐ Reward ํจ์์ ์์ธ ์ ์ง ํจ๋ํฐ ๋ฑ์ ์ถ๊ฐํ๋๋ก ๊ฐ์ ํ ์ ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ ์์ ํ๊ณ ์์ ์ ์ธ ๋์์ด ์ ๋๋์๊ณ , ์ฌ์ฉ์ 20๋ช ์ค 15๋ช ์ด ์๋ Reward์ผ๋ก ํ๋ จ๋ ๋ก๋ด๋ณด๋ค ์ธ๊ฐ ํผ๋๋ฐฑ ๋ฐ์ Reward์ผ๋ก ํ๋ จ๋ ๋ก๋ด์ ์ ํธํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ gradient-free RLHF ๋ฐฉ์์ Reward ์ค๊ณ ์ฐจ์์์์ ์ธ๊ฐ-๋ชจ๋ธ ์ํธ์์ฉ์ด๋ผ๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค.
์ด๋ก ์ ๊ธฐ๋ฐ๊ณผ ์์
์ด ๋ ผ๋ฌธ์ Reward ์ค๊ณ ๋ฌธ์ ๋ฅผ ๊ณต์์ ์ผ๋ก ์ ๋ฆฝํ๊ณ , Eureka๋ก ์ด๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค๋ ์ ์์ ์ด๋ก ์ ์ธ ์๋ฏธ๋ ๊ฐ์ต๋๋ค. ์ ์๋ค์ ์ฐ์ Singh et al. (2010)์ Reward์ค๊ณ ๋ฌธ์ (Reward Design Problem, RDP) ์ ์๋ฅผ ์ธ์ฉํ๋ฉฐ, โ์ฃผ์ด์ง ํ๊ฒฝ MDP์ ์ค์ ์ฑ๋ฅ ํ๊ฐ ํจ์ F ํ์์, ์ต์ ์ ์ ์ฑ ์ด ์ต๋์ F ์ ์๋ฅผ ์ป๋๋ก ํ๋ Reward R์ ์ฐพ๋ ๋ฌธ์ โ๋ก RDP๋ฅผ ์ค๋ช ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํ๋ก๊ทธ๋จ ์์ฑ ๋งฅ๋ฝ์ ๋ง๊ฒ ๋ณํํ์ฌ โReward ์์ฑ ๋ฌธ์ (Reward Generation Problem)โ๋ก ๋ช ๋ช ํฉ๋๋ค. ์ฆ, ์ฝ๋ ํํ๋ก ํํ๋ Reward ํจ์ ๊ณต๊ฐ R์์ ํ๋์ ์ฝ๋ ์กฐ๊ฐ์ ์ฐพ์๋ด๋ ๋ฌธ์ ๋ก ๊ฐ๋ ํํ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ์๊ณต๊ฐ์ ํ๋ก๊ทธ๋จ์ ๊ณต๊ฐ์ผ๋ก ๋งค์ฐ ํฌ๊ณ ๋น๊ตฌ์กฐ์ ์ด์ง๋ง, LLM์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ๊ณผ ํ๋ฅ ์ ํ์์ ํตํด ํด๋ฒ์ ์ฐพ์ ์ ์์์ Eureka๋ก ์ ์ฆํ์ต๋๋ค.
Eureka์ ์ฑ๊ณต ์์ธ์ ์ธ ๊ฐ์ง ์ค๊ณ ์ฒ ํ์ผ๋ก ์์ฝ๋ฉ๋๋ค:
ํ๊ฒฝ์ ๋งฅ๋ฝ์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ ์ผ๋ฐ์ฑ ํ๋ณด โ ๋ชจ๋ ๊ณผ์ ์ ํต์ฉ๋๋ ์ ๋ ฅ(์ฝ๋)๋ง์ผ๋ก LLM์ ํ์ฉํ์๊ณ , ๋๋ถ์ ๊ณผ์ ํนํ๋ ์ธ๊ฐ ์ง์ ์์ด๋ ์๋ํ์ต๋๋ค.
์งํ์ ํ์์ผ๋ก ํ์ง ํฅ์ โ ๋จ์ผ ์ํ์ ํ๊ณ๋ฅผ ๋ค์ ์ํ๊ณผ ๋ฐ๋ณต ๊ฐ์ ์ผ๋ก ๊ทน๋ณตํ์ฌ, LLM ์ถ๋ ฅ์ ์ฝ์ ์ ๋ณด์ํ์ต๋๋ค.
Reward ์ฑ์ฐฐ๋ก ์ ๊ตํ ํผ๋๋ฐฑ ์ ๊ณต โ ๋จ์ ์ฑ๋ฅ ์์น ์ด์์ ๋งฅ๋ฝ ์ ๋ณด๋ฅผ LLM์ ์ ๊ณตํจ์ผ๋ก์จ, ์ธ๋ฐํ๊ณ ํจ๊ณผ์ ์ธ ์ฝ๋ ์์ ์ ์ ๋ํ์ต๋๋ค.
์ด๋ฌํ ๊ตฌ์ฑ ์์๋ค์ ์ํธ๋ณด์์ ๊ฒฐํฉ์ด Eureka๋ฅผ ์ธ๊ฐ ์์ค๊น์ง ๋์ด์ฌ๋ฆฐ ํต์ฌ ๋น๊ฒฐ์ ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ Eureka๋ ๊ฐํํ์ต Reward ์ค๊ณ์ ํจ๋ฌ๋ค์์ ์ ํํ๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ฌ๋ ์ ๋ฌธ๊ฐ๊ฐ ์ค๋ ๊ฒฝํ์ ํตํด์ผ ํ ์์ ์ LLM๊ณผ ์๋ํ ๊ธฐ๋ฒ์ด ๋์ฒดํ๊ฑฐ๋ ๊ฐ์ํ ์ ์์์ ์ค์ฆํ ๊ฒ์ด๋ฏ๋ก, ๋ฏธ๋์ RL ์ฐ๊ตฌ ํ๋ก์ธ์ค์๋ ํฐ ์ํฅ์ ์ค ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ์ ๋ง
(โป ๋ ผ๋ฌธ์ ์ง์ ์ธ๊ธ๋์ง ์์ง๋ง, ์ดํด๋ฅผ ๋๊ธฐ ์ํด ๊ณ ๋ คํ ์ ์ ํจ๊ป ์์ ํฉ๋๋ค.)
Eureka๋ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ์ ์ ๋ก ํ๋ ์กฐ๊ฑด๋ค์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ๊ฒฝ์ ๋ด๋ถ ์ฝ๋ ๋๋ API ์ ๊ทผ์ด ๊ฐ๋ฅํด์ผ ํ๊ณ , ๊ฐํํ์ต์ผ๋ก ํ๊ฐํ ์ ์๋ ์ฑ๋ฅ ํจ์ F๊ฐ ์์ด์ผ ํฉ๋๋ค. ํ์ค ์ธ๊ณ ๋ฌธ์ ์ ๊ฒฝ์ฐ ํ๊ฒฝ ์ฝ๋๋ฅผ ์ป๊ธฐ ์ด๋ ต๊ฑฐ๋, ์๋ฎฌ๋ ์ดํฐ ์๋ ๋ฌผ๋ฆฌ ํ๊ฒฝ์์๋ Reward ํ๊ฐ์ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ Eureka ์ ๊ทผ์ ๊ทธ๋๋ก ์ ์ฉํ๊ธด ์ด๋ ค์ธ ์ ์์ต๋๋ค. ํฅํ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ์ด๋ ๋ชจ์ ํ์ต ๋ฑ์ ์ ๋ชฉํด ํ์ค์์๋ ๋น ๋ฅธ Reward ํ์์ ๊ฐ๋ฅ์ผ ํ๋ ์ฐ๊ตฌ๊ฐ ๋์ฌ ์ ์์ต๋๋ค.
๋ํ Eureka๋ ํ์ฌ GPT-4 ๊ฐ์ ๋๊ท๋ชจ ์ฌ์ค LLM API์ ์์กดํ๊ณ ์์ด, ์ฌํ ๋น์ฉ์ด๋ ๋ชจ๋ธ ์ ๊ทผ์ฑ ์ด์๋ ์กด์ฌํฉ๋๋ค. ์คํ์์ค ์ฝ๋ LLM์ด ๋ ๋ฐ์ ํ๋ฉด, ์์ฒด ํธ์คํ ์ผ๋ก Eureka๋ฅผ ์คํํ๋ ๋ฐฉํฅ๋ ๊ณ ๋ ค๋ ๊ฒ์ ๋๋ค. ์ค์ ๋ก ์ ์๋ค๋ ๋ชจ๋ ํ๋กฌํํธ๋ฅผ ๊ณต๊ฐํ์ผ๋ฏ๋ก, ๋ค๋ฅธ LLM์ผ๋ก ๋์ฒดํ์ฌ ์คํํ๋ ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ์ ์์ต๋๋ค.
๋์ผ๋ก, Reward ์ค๊ณ ์๋ํ๊ฐ ์ง๋๋ ํจ์์ ๋ํด ์๊ฐํด๋ณผ ์ ์ด ์์ต๋๋ค. Reward์ ๊ณง ์์ด์ ํธ์ ๋ชฉํ๋ฅผ ์ ์ํ๋ ๊ฒ์ด๋ฏ๋ก, Eureka ๊ฐ์ ๊ธฐ๋ฒ์ด ์๋ชป ์ฌ์ฉ๋ ๊ฒฝ์ฐ ์๋์น ์์ ๋ชฉํ๋ฅผ ๊ฐํํ๊ฑฐ๋, ์ค๋ฆฌ์ ์ผ๋ก ๋ ผ๋์ด ๋ ํ๋์ ๋ถ์ถ๊ธธ ์ํ๋ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ ๊ฐ๋ ๊ณผ ์์ ์ฅ์น๋ฅผ ๊ฐ์ถ ํ์ฉ์ด ์ค์ํ๋ฉฐ, Eureka์ ์ธ๊ฐ ํผ๋๋ฐฑ ํตํฉ ๊ธฐ๋ฅ์ ์ด๋ฌํ ์ํ์ ์ํํ๋ ๋ฐฉํฅ์ ์ข์ ์์์ด๋ผ ํ ์ ์์ต๋๋ค. ์์ผ๋ก Eureka๋ฅผ ํ์ฉํ ์์ ํ Reward ์ค๊ณ, ์ ๋ ฌ๋ AI ํ๋ จ ๋ฑ์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์ ๊ฐ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๊ฒฐ๋ก
Eureka: Human-Level Reward Design via Coding LLMs๋ ๋ํ์ธ์ด๋ชจ๋ธ์ ํตํ Reward ํจ์ ์๋ ์์ฑ์ด๋ผ๋ ์๋ก์ด ์งํ์ ์ฐ ์ฐ๊ตฌ๋ก์, ๊ฐํํ์ต์ ๋์ ์๋ Reward ์ค๊ณ๋ฅผ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ์ต๋๋ค. ์ฝ๋ ์์ฑ LLM๊ณผ ์งํ์ ํ์, ๊ทธ๋ฆฌ๊ณ RL ํผ๋๋ฐฑ ํตํฉ์ด๋ผ๋ ์์ด๋์ด ์กฐํฉ์ ํตํด, ์ธ๊ฐ ์ ๋ฌธ๊ฐ๋ณด๋ค๋ ๋์ Reward์ ์ฐพ์๋ด๊ณ ๋ณต์กํ ๋ก๋ด ์ ์ด ๊ณผ์ ๋ฅผ ๋ฌ์ฑํด๋ธ ์ ์ด ์ธ์์ ์ ๋๋ค. ๋ํ ๋ฒ์ฉ์ฑ์ ์งํฅํ ๊ตฌํ๊ณผ ์คํ์์ค ๊ณต๊ฐ๋ก ํ์ ์ ยท์ค์ฉ์ ํ๊ธ๋ ฅ๋ ๋์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฑ๊ณผ๋ ํฅํ ์๋ํ๋ RL ๋ฌธ์ ์ค๊ณ, ํด๋จผ-์ธ๋-๋ฃจํ ํ์ต ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ํฅ์ ์ค ๊ฒ์ด๋ฉฐ, AI ์์ด์ ํธ ๊ฐ๋ฐ ๊ณผ์ ์ ํจ์จํํ๊ณ ์ธ๊ฐ๊ณผ์ ํ์ ์ ์ฆ์งํ๋ ๋ฐฉํฅ์ผ๋ก ๊ณ์ ๋ฐ์ ๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.