๐End-to-end RL Dex-Grasping ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ง End-to-end ๋น์ ๊ธฐ๋ฐ ๊ฐํ ํ์ต์ ๋ก๋ด์ ๋ฏผ์ฒฉํ ํ์ง ์ ์ฑ ํ์ต์ ์ค์ํ์ง๋ง, ๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ณ๋ ฌํ ๋ฐฉ์์ ๋ฉ๋ชจ๋ฆฌ ๋นํจ์จ์ฑ์ผ๋ก ์ธํด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์์ ๋ฐฐ์น ํฌ๊ธฐ ํ์ฅ์ ์ ์ฝ์ ๊ฐ์ง๋๋ค.
- ๐ ๋ณธ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ดํฐ์ RL ํ์ต ๋ฐ ๊ฒฝํ ๋ฒํผ๋ฅผ ๋ณ๋์ GPU์ ๋ถ๋ฆฌํ๋ โ๋ถ์ฐ ์๋ฎฌ๋ ์ด์ (disaggregated simulation)โ ๋ฐฉ์์ ์ ์ํ์ฌ, ๋์ผ ํ๋์จ์ด์์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ฆฌ๊ณ end-to-end ์ฌ๋(depth) ์ ์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ ์ด ๋ฐฉ์์ ๊ธฐ์กด ์ํ ๊ธฐ๋ฐ ์ ์ฑ ์ฆ๋ฅ ๋๋น ์ ๋ณด ๋น๋์นญ์ฑ์ ํด์ํ์ฌ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ํฅ์๋ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ ๋ถ์ฐ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ฉด ์ค์ ์ฑ๋ฅ์ด ๋์ฑ ๊ฐ์ ๋จ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ์ฐ๊ตฌ๋ ๋ก๋ด ์๊ณผ ํธ๋ ์์คํ ์ ์ด์ฉํ ์ ๊ตํ ํ์ง(dexterous grasping)๋ฅผ ์ํ ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ end-to-end Reinforcement Learning (RL) ์ค์ผ์ผ๋ง ๊ธฐ๋ฒ์ ํ๊ตฌํฉ๋๋ค. ๊ธฐ์กด์ ์ํ ๊ธฐ๋ฐ(state-based) RL๊ณผ ๋ฌ๋ฆฌ, ์๊ฐ ๊ธฐ๋ฐ(vision-based) RL์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ด ๋ฎ์ ๋ฐฐ์น ํฌ๊ธฐ(batch size)๊ฐ ์์์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด๋ PPO์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฆฌํจ์๋ ๋ถ๊ตฌํ๊ณ , ์ํ ๊ธฐ๋ฐ ์ ์ฑ ์ ์๊ฐ ๋คํธ์ํฌ๋ก ์ฆ๋ฅ(distillation)ํ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ์๊ฐ ๊ธฐ๋ฐ RL์ ๋ฅ๋ ์๊ฐ(active vision) ํ๋์ ์์ฐ์ค๋ฝ๊ฒ ํ์ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
ํต์ฌ ๋ฌธ์ ์ :
์ด๋ฌํ ์๊ฐ ๊ธฐ๋ฐ RL ์ ์ฑ ํ๋ จ์ ์ฃผ์ ๋ณ๋ชฉ ํ์์ ๋๋ถ๋ถ์ ๊ธฐ์กด ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ํต์ ์ธ ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ(data parallelism) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ GPU์ ์ค์ผ์ผ๋ง๋๋ ๋ฐฉ์์์ ๋ฐ์ํฉ๋๋ค. ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฐฉ์์์๋ ๊ฐ GPU๊ฐ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์คํํ๊ณ , RL ๊ฒฝํ ๋ฒํผ๋ฅผ ์ ์ฅํ๋ฉฐ, ์กํฐ(actor)์ ํฌ๋ฆฌํฑ(critic)์ ๊ธฐ์ธ๊ธฐ(gradients)๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์๊ฐ ๊ธฐ๋ฐ RL์ ๊ฒฝ์ฐ ๊ฒฝํ ๋ฒํผ์ ํฌ๊ธฐ๊ฐ ๊ธ์ฆํ๊ณ , ๊ฐ GPU๊ฐ ์๋ฎฌ๋ ์ดํฐ์ ๋๊ท๋ชจ ์์ฐ ์บ์(asset cache)๋ฅผ ๋ณต์ฌํ์ฌ ๋ถํ์ํ ๋ฉ๋ชจ๋ฆฌ ์๋ชจ๋ฅผ ์ผ๊ธฐํ๋ฏ๋ก ๋นํจ์จ์ ์ ๋๋ค.
์ ์ํ๋ ๋ฐฉ๋ฒ๋ก : Disaggregated Simulation and RL
๋ณธ ๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ดํฐ์ RL ํ์ต (๊ฒฝํ ๋ฒํผ ๋ฐ ํ๋ จ)์ ๋ณ๋์ GPU์ ๋ถ๋ฆฌ(disaggregate)ํ์ฌ ๋ฐฐ์นํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 4๊ฐ์ GPU๊ฐ ์๋ ๋ ธ๋์์ 3๊ฐ์ GPU๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์คํ์ ์ ๋ ํ๊ณ , ๋๋จธ์ง 1๊ฐ์ GPU๋ RL ํ์ต๊ณผ ๊ฒฝํ ๋ฒํผ ์ ์ฅ์ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์
๋ณต์ ๋ณธ (Algorithm 1): ์๋ฎฌ๋ ์ด์
GPU s \in \{0, 1, 2\}๋ ๋ค์๊ณผ ๊ฐ์ด ์๋ํฉ๋๋ค.
- ํ๊ฒฝ์ ์ฌ์ค์ ํ๊ณ ์ด๊ธฐ ๊ด์ธก๊ฐ(obs)์ ์์ฑํฉ๋๋ค.
- ์ด ์ด๊ธฐ ๊ด์ธก๊ฐ์ ํ์ต๊ธฐ(learner) GPU (์: \ell \leftarrow 3)๋ก ์ ์กํฉ๋๋ค.
- ๋ฌดํ ๋ฃจํ ์์์ ํ์ต๊ธฐ๋ก๋ถํฐ ํ๋(actions)์ ์์ ํฉ๋๋ค.
- ์์ ๋ ํ๋์ผ๋ก ํ๊ฒฝ์ ํ ๋จ๊ณ(step) ์งํํ์ฌ ๋ค์ ๊ด์ธก๊ฐ(obs'), ๋ณด์(rew), ์๋ฃ ์ ํธ(dones)๋ฅผ ์ป์ต๋๋ค.
- ์ป์ (rew, dones, obs')๋ฅผ ํ์ต๊ธฐ GPU๋ก ๋ค์ ์ ์กํฉ๋๋ค.
- ํ์ต๊ธฐ/ํ๋ จ๊ธฐ (Algorithm 2): ํ์ต๊ธฐ GPU 3์ ๋ค์๊ณผ ๊ฐ์ด ์๋ํฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์ GPU S \leftarrow \{0, 1, 2\}๋ก๋ถํฐ ์ด๊ธฐ ๊ด์ธก๊ฐ obs[s]๋ฅผ ์์ ํฉ๋๋ค.
- ํธ๋ํ ๋ฆฌ ๋ฒํผ(trajectory buffer) D๋ฅผ ์ด๊ธฐํํฉ๋๋ค.
- ์ง์ ๋ horizon H ๋์ ๋ค์ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค:
- ๋ชจ๋ ์๋ฎฌ๋ ์ด์ GPU์ ๊ด์ธก๊ฐ์ ๋ชจ์ ์ ์ฑ \pi๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ actions๋ฅผ ๊ณ์ฐํฉ๋๋ค (์: actions \leftarrow \pi_{\text{stack}}(\{obs[s]\}_{s \in S})).
- ๊ณ์ฐ๋ actions[s]๋ฅผ ๊ฐ ์๋ฎฌ๋ ์ด์ GPU s๋ก ์ ์กํฉ๋๋ค.
- ๊ฐ ์๋ฎฌ๋ ์ด์ GPU๋ก๋ถํฐ (rew, dones, nextObs)๋ฅผ ์์ ํฉ๋๋ค.
- ์์ง๋ (obs, actions, rew, done)๋ฅผ ํธ๋ํ ๋ฆฌ ๋ฒํผ D์ ์ถ๊ฐํ๊ณ , obs๋ฅผ nextObs๋ก ์ ๋ฐ์ดํธํฉ๋๋ค.
- H ์คํ ์ด ๋๋๋ฉด ํธ๋ํ ๋ฆฌ ๋ฒํผ D๋ฅผ ์ฌ์ฉํ์ฌ PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฑ \pi๋ฅผ ํ๋ จํฉ๋๋ค.
์ด๋ฌํ ๋ถ๋ฆฌ ๋ฐฉ์์ ๊ธฐ์กด ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ ๋์ผํ ์์ GPU๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ๊ฐ๋ฅํ ํ๊ฒฝ ์๋ฅผ ๋ ๋ฐฐ ์ด์ ์ฆ๊ฐ์ํต๋๋ค (ํ I ์ฐธ์กฐ). ์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ง์ฝ์ ์ธ ์๊ฐ ๊ธฐ๋ฐ ํ๊ฒฝ์์ PPO ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ถฉ๋ถํ ํ๋ณดํ์ฌ ํ์ต ์ ํธ๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
ํ๋ จ ํ๊ฒฝ ๋ฐ ์ ์ฑ ์ํคํ ์ฒ:
DextrAH-RGB [9]์ ๋์ผํ Kuka iiwa ์๊ณผ Allegro V4 ํธ๋ ์์คํ ์ ์ฌ์ฉํ๋ฉฐ, Visual Dexterity ๋ฐ์ดํฐ์ [26]์ 140๊ฐ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ณ ๋ค์ด ์ฌ๋ฆฌ๋ ํ์คํฌ๋ฅผ ์ํํฉ๋๋ค. sim-to-real ์ ์ด๋ฅผ ์ํด Automatic Domain Randomization (ADR) [27, 9]์ ์ ์ฉํ์ฌ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(joint friction, stiffness, damping, mass ๋ฑ)๋ฅผ ๋ฌด์์ํํฉ๋๋ค. ์ ์ฑ ์ PPO [28]๋ก end-to-end ๋ฐฉ์์ผ๋ก ํ๋ จ๋ฉ๋๋ค. ๋คํธ์ํฌ ์ํคํ ์ฒ(๊ทธ๋ฆผ 3)๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: * CNN ๋ฐฑ๋ณธ: ์ ๋ ฅ ์ด๋ฏธ์ง๋ 4๊ฐ ๋ ์ด์ด์ CNN์ ํต๊ณผํฉ๋๋ค. ํํฐ ์๋ ๊ฐ๊ฐ [16, 32, 64, 128]์ด๋ฉฐ, ๋ ์ด์ด ์ ๊ทํ(layer normalization)์ ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. * ์๋ฒ ๋ฉ: CNN์ ์ถ๋ ฅ์ 32์ฐจ์ ์๋ฒ ๋ฉ(embedding)์ผ๋ก ๋ณํ๋ฉ๋๋ค. * ๊ฒฐํฉ ๋ฐ LSTM: ์ด ์๋ฒ ๋ฉ์ ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ(proprioception) ๋ฐ์ดํฐ์ ๊ฒฐํฉ๋์ด 1024 ์ ๋์ ๊ฐ์ง ๋ ๊ฐ์ LSTM ๋ ์ด์ด๋ฅผ ํต๊ณผํฉ๋๋ค. * MLP: LSTM์ ์ถ๋ ฅ์ [512, 512, 256] ์๋ ์ ๋์ ๊ฐ์ง 3๊ฐ ๋ ์ด์ด์ Fully Connected Network (MLP)๋ก ํผ๋๋ฉ๋๋ค. GPU ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ๊ณผ ํ์ต ์๋๋ฅผ ๊ณ ๋ คํ์ฌ RGB ๋์ ๊น์ด(depth) ๊ธฐ๋ฐ ์ ์ฑ ์ RL๋ก ํ๋ จํ ํ, ์ด๋ฅผ ์คํ ๋ ์ค RGB ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํฉ๋๋ค. ์ด๋ ์คํ ๋ ์ค RGB ์์ผ๋ก๋ถํฐ ๊น์ด๋ฅผ ๋ณต์ํ ์ ์์ผ๋ฏ๋ก, ์ํ ๊ธฐ๋ฐ ๊ต์ฌ(teacher) ์ ์ฑ ๊ณผ ํ์(student) ์ ์ฑ ์ฌ์ด์ ์กด์ฌํ๋ ์ ๋ณด ๋น๋์นญ์ฑ(information asymmetry) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ด๋ก ์ ์ธ ์ ๋ณด ๊ฒฉ์ฐจ(information gap)๋ฅผ ์์ฑ๋๋ค (๊ทธ๋ฆผ 4).
์คํ ๊ฒฐ๊ณผ:
- Disaggregated Simulation vs Data Parallelism: ์ ์๋ ๋ถ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ฐฉ์์ ์ ํต์ ์ธ ๋ฐ์ดํฐ ๋ณ๋ ฌ ์ฒ๋ฆฌ ๋ฐฉ์๋ณด๋ค ๋ชจ๋ ํ๊ฐ ์งํ(ADR Inc., % Full ADR, SR)์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค (ํ II). ํนํ 320x240 ํด์๋์์๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ๋ฐฉ์์ด ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ์ ์ฑ ์ ์ ํ ํ๋ จ์ํค์ง ๋ชปํ์ง๋ง, ๋ถ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ฐฉ์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ์๊ฐ ๊ธฐ๋ฐ RL ํ์คํฌ๊ฐ ์๋ฎฌ๋ ์ด์ ๊ฐ๋ฅํ ํ๊ฒฝ ์์ ํฌ๊ฒ ์ ์ฝ๋ฐ์์ ๋ณด์ฌ์ค๋๋ค.
- Distilling State Teachers vs Depth Teachers: ์๋ฎฌ๋ ์ด์ ์์ ๊น์ด ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ ์ผ๋ก๋ถํฐ ์ฆ๋ฅ๋ RGB ํ์ ์ ์ฑ ์ด ์ํ ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ ์ผ๋ก๋ถํฐ ์ฆ๋ฅ๋ RGB ํ์ ์ ์ฑ ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค (๊ทธ๋ฆผ 5). ์ด๋ ํ์๊ณผ ๊ต์ฌ ๊ฐ์ ์ ๋ณด ๋น๋์นญ์ฑ์ด ์ค์ด๋ค์ด ํ์์ด ์์ ์ ๋ชจ๋ฌ๋ฆฌํฐ(modality)์ ๋ ์ ํฉํ ํ๋์ ํ์ตํ ์ ์๊ฒ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Real World Benchmarking: ์ค์ ํ๊ฒฝ ๋น ํจํน(bin packing) ํ์คํฌ์์ ๊น์ด ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ (ํนํ ๋ถ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ๋ จ๋ ์ ์ฑ )์ด ์ํ ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ ์ ๋ฅ๊ฐํ๋ ์ต๊ณ ์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค (ํ III). ์ด๋ RL ํ์ต์ ๋ฐฐ์น ํฌ๊ธฐ ์ฆ๋๊ฐ ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ค์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํจ์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก :
๋ณธ ์ฐ๊ตฌ๋ ์ ๊ตํ ํ์ง๋ฅผ ์ํ end-to-end ๊น์ด ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ์ํ ๊ธฐ๋ฐ ์ ์ฑ ํ๋ จ ํ ์๊ฐ ๊ธฐ๋ฐ์ผ๋ก ์ฆ๋ฅํ๋ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๊น์ด ์ ์ฑ ์ RL๋ก ์ง์ ํ๋ จํ๊ณ ์ด๋ฅผ RGB ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํจ์ผ๋ก์จ ์ ๋ณด ๊ฒฉ์ฐจ ๋ฌธ์ ๋ฅผ ํด์ํ๊ณ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ํ๊ฒฝ์์ ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ๋ํ, ์ ์ ์์ GPU๋ก end-to-end RL ์ ์ฑ ์ ํจ์จ์ ์ผ๋ก ํ๋ จํ๊ธฐ ์ํ ๋ถ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ๋์ผํ ํ๋์จ์ด์์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ฆฌ๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ์๊ฐ ๊ธฐ๋ฐ RL ์ ์ฑ ํ๋ จ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ก๋ด๋ ์ด์ โ๋ณด๋ฉด์โ ๋ฐฐ์ด๋ค: End-to-end RL๋ก ์คํํ๋ Dexterous Grasping
NVIDIA์ UC Berkeley ์ฐ๊ตฌ์ง์ด ๋ฐํํ ์ ๋ง ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ์๊ฐํ๋ ค๊ณ ํฉ๋๋ค. ๋ก๋ด ์์ด ์ฌ๋์ฒ๋ผ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ง์ ์ ์๊ฒ ๋ง๋๋ ๊ฒ, ์ฆ dexterous grasping์ ๋ก๋ด๊ณตํ์ ์ค๋ ์์ ์์ฃ . ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
๐ค ๋ฌธ์ ์ ์์: ๋ก๋ด์ ์ โ๋ณด๋ ๊ฒโ์ ๋ฐฐ์ฐ๊ธฐ ์ด๋ ค์ธ๊น?
๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ง๋ ๋ฐฉ๋ฒ์ ํ์ต์ํค๋ ๊ฒ์ ์๊ฐ๋ณด๋ค ํจ์ฌ ๋ณต์กํ ๋ฌธ์ ์ ๋๋ค. ํนํ ์ฌ๋ ์์ฒ๋ผ ์ฌ๋ฌ ๊ฐ์ ์๊ฐ๋ฝ์ ๊ฐ์ง ๋ก๋ด ์(multi-fingered hand)์ผ๋ก ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ง๋ ๊ฒ์ ์ ๋ง ์ด๋ ค์ด ์ผ์ด์ฃ .
๊ธฐ์กด์๋ ์ด๋ป๊ฒ ํ์๊น?
์ ํต์ ์ผ๋ก ๋ก๋ด ๊ทธ๋์คํ ์ ์ฑ ์ ํฌ๊ฒ ๋ ๊ฐ์ง ํจ๋ฌ๋ค์์ผ๋ก ๋ฐ์ ํด์์ต๋๋ค:
State-based RL ์ ๊ทผ๋ฒ - ์๋ฒฝํ ์ํ ์ ๋ณด(๋ฌผ์ฒด ์์น, ๊ด์ ๊ฐ๋ ๋ฑ)์ ์ง์ ์ ๊ทผ - ๋์ ํ์ต ํจ์จ์ฑ๊ณผ ์์ ์ฑ - ๊ทธ๋ฌ๋ ์ค์ ํ๊ฒฝ์์๋ ์ด๋ฌํ ์๋ฒฝํ ์ํ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ด๋ ค์
Vision-based Policy Distillation ์ ๊ทผ๋ฒ - State-based teacher policy๋ฅผ ํ์ตํ ํ - ์ด๋ฅผ vision-based student policy๋ก distillation - ํ์ฌ ์ฐ์ ๊ณ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ
ํ์ง๋ง ์ด๋ฌํ distillation ์ ๊ทผ๋ฒ์๋ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๊ฐ ์กด์ฌํฉ๋๋ค. ๋ฐ๋ก โ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ ๊ฒฉ์ฐจ(Observability Gap)โ์ ๋๋ค.
๐ ํต์ฌ ๋ฌธ์ : Observability Gap
์๋ฅผ ๋ค์ด ๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ์ก์ผ๋ ค๊ณ ํ ๋๋ฅผ ์๊ฐํด๋ด ์๋ค. Teacher policy๋ ๋ฌผ์ฒด์ ์ ํํ 3D ์์น ์ ๋ณด๋ฅผ ์๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ๊ณ ์์ด๋ ๋ฌธ์ ์์ด ํ์ง ๋์์ ์ํํ ์ ์์ต๋๋ค. ํ์ง๋ง ์นด๋ฉ๋ผ ์์๋ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ student policy๋ ๋ก๋ด ํ์ ๊ฐ๋ ค์ง ๋ฌผ์ฒด๋ฅผ ๋ณผ ์ ์์ด teacher์ ํ๋์ ์ฌํํ๋ ๋ฐ ์คํจํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฌํ ์ํฉ์์ ์ด์์ ์ธ ๋น์ ๊ธฐ๋ฐ ์ ์ฑ ์ด๋ผ๋ฉด ๋ค์๊ณผ ๊ฐ์ ํ๋์ ํ์ตํด์ผ ํฉ๋๋ค: 1. ๋ฌผ์ฒด๊ฐ ๊ฐ๋ ค์ก์์ ์ธ์ 2. ๋ก๋ด ํ์ ์์ง์ฌ ์์ผ๋ฅผ ํ๋ณด 3. ๋ฌผ์ฒด๋ฅผ ํ์ธํ ํ ํ์ง ์ํ
์ด๋ฅผ โActive Vision Behaviorโ๋ผ๊ณ ํ๋ฉฐ, ์ด๋ distillation ๋ฐฉ์์ผ๋ก๋ ํ์ตํ๊ธฐ ์ด๋ ต์ต๋๋ค. Teacher policy๋ ์ด๋ฌํ ํ๋์ ํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ก ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด: ์ฒ์๋ถํฐ ๋ณด๋ฉด์ ๋ฐฐ์ฐ์!
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ ์์ ๋ช ํํฉ๋๋ค: ์ฒ์๋ถํฐ ๋๊น์ง vision input์ ์ฌ์ฉํ์ฌ RL๋ก ์ง์ ํ์ตํ์๋ ๊ฒ์ ๋๋ค.
โ End-to-End RL์ ์ฅ์
Active Vision์ ์์ฐ์ค๋ฌ์ด ์ถํ - ์ ์ฑ ์ด ์ฒ์๋ถํฐ ์๊ฐ ์ ๋ณด๋ง์ผ๋ก ํ์ตํ๋ฏ๋ก - ์์ผ๋ฅผ ํ๋ณดํ๊ณ , ๋ฌผ์ฒด๋ฅผ ์ถ์ ํ๋ ๋ฑ์ ํ๋์ด ์์ฐ์ค๋ฝ๊ฒ ๋ํ๋จ - Observability gap์ด ๊ทผ๋ณธ์ ์ผ๋ก ์กด์ฌํ์ง ์์
๋ ๋์ Sim-to-Real ์ ์ด - Teacher์ student ์ฌ์ด์ ํ๋ ๋ถ์ผ์น ๋ฌธ์ ํด๊ฒฐ - ์ค์ ํ๊ฒฝ์์๋ ํ์ต๋ active vision ํ๋์ด ์ ํจ
โ ๏ธ ๊ทธ๋ฐ๋ฐ ์ ์ ์ผ์๊น? Vision-based RL์ ๋ฌธ์
๊ทธ๋ ๋ค๋ฉด ์ ๊ธฐ์กด์๋ vision-based end-to-end RL์ด ๋๋ฆฌ ์ฌ์ฉ๋์ง ์์์๊น์? ๊ทธ ์ด์ ๋ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ์์ต๋๋ค.
State-based RL vs Vision-based RL
State ๊ธฐ๋ฐ ์ ๋ ฅ: - ์ ๋ ฅ ํฌ๊ธฐ: ~์์ญ์์ ์๋ฐฑ ์ฐจ์์ ๋ฒกํฐ - ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋: ๋งค์ฐ ์์ - ๋ฐฐ์น ํฌ๊ธฐ: ์๋ง ๊ฐ ํ๊ฒฝ ๋์ ์คํ ๊ฐ๋ฅ
Vision ๊ธฐ๋ฐ ์ ๋ ฅ: - ์ ๋ ฅ ํฌ๊ธฐ: ์ด๋ฏธ์ง ํฝ์ (์: 320ร240ร3 = 230,400 ์ฐจ์) - ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋: state ๋๋น ์์ฒ ๋ฐฐ - ๋ฐฐ์น ํฌ๊ธฐ: ์ ํ์
ํนํ PPO(Proximal Policy Optimization)์ ๊ฐ์ on-policy RL ์๊ณ ๋ฆฌ์ฆ์ ํฐ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ํ์์ ์ ๋๋ค. ์์ ๋ฐฐ์น๋ก๋ ์์ ์ ์ธ gradient ์ถ์ ์ด ์ด๋ ต๊ณ , ํ์ต์ด ๋ถ์์ ํด์ง๋๋ค.
๐ ๊ฒ์ ์ฒด์ธ์ : Disaggregated Simulation
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ โDisaggregated Simulation and RL Frameworkโ์ ๋๋ค.
๐ค ๊ธฐ์กด ๋ฐฉ์์ ๋ฌธ์ ์
์ ํต์ ์ธ ๋ฐฉ์(Data Parallelism)์์๋: - ๊ฐ GPU๊ฐ ์๋ฎฌ๋ ์ดํฐ + RL ํ์ต์ ๋ชจ๋ ์ํ - 4๊ฐ GPU๊ฐ ์๋ค๋ฉด: GPU 1, 2, 3, 4๊ฐ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์๋ - ๊ฐ GPU์ ๋ฉ๋ชจ๋ฆฌ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ + ๊ฒฝํ ๋ฒํผ + ๋ชจ๋ธ์ด ๋ชจ๋ ์ ์ฌ๋์ด์ผ ํจ
๋ฌธ์ ์ : - Vision-based ํ๊ฒฝ์ ๋ ๋๋ง์ ์์ฒญ๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ - ๊ฐ GPU์์ ์์์ ํ๊ฒฝ๋ง ์คํ ๊ฐ๋ฅ - ์ ์ฒด ๋ฐฐ์น ํฌ๊ธฐ๊ฐ PPO ํ์ต์ ๋ถ์ถฉ๋ถ
๐ก ์๋ก์ด ์์ด๋์ด: ์ญํ ์ ๋๋์!
์๋ก์ด ๋ฐฉ์์์๋ ์ญํ ์ ๋ถ๋ฆฌํฉ๋๋ค:
4๊ฐ GPU ๋ ธ๋์ ๊ฒฝ์ฐ: - GPU 1, 2, 3: ์๋ฎฌ๋ ์ดํฐ ์ ์ฉ (Simulator Workers) - ํ๊ฒฝ ๋ ๋๋ง - ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ - ๊ฒฝํ ๋ฐ์ดํฐ ์์ฑ
- GPU 4: RL ํ์ต ์ ์ฉ (Learner)
- ์ ๊ฒฝ๋ง ํ์ต
- Experience buffer ๊ด๋ฆฌ
- Policy update
์๋ ํ๋ฆ: 1. Simulator workers๊ฐ ํ์ฌ policy๋ก ํ๊ฒฝ์์ ๊ฒฝํ ์์ง 2. ์์ง๋ ๊ฒฝํ(observations, actions, rewards)์ Learner๋ก ์ ์ก 3. Learner๊ฐ ๋ชจ๋ ๊ฒฝํ์ ๋ชจ์ ํฐ ๋ฐฐ์น๋ก ํ์ต 4. ์ ๋ฐ์ดํธ๋ policy๋ฅผ ๋ค์ simulator workers๋ก ๋ฐฐํฌ
๐ ์ฑ๋ฅ ํฅ์: ์ซ์๋ก ๋ณด๋ ํจ๊ณผ
๋ ผ๋ฌธ์์ ์ ์ํ ๊ฒฐ๊ณผ๋ ์ธ์์ ์ ๋๋ค:
ํ๊ฒฝ ์ ๋น๊ต (NVIDIA L40S GPU 4๊ฐ ๊ธฐ์ค):
160ร120 ํด์๋: - Data Parallel: 4,096 environments - Disaggregated: 8,704 environments (2.13๋ฐฐ)
320ร240 ํด์๋: - Data Parallel: 512 environments - Disaggregated: 1,280 environments (2.5๋ฐฐ)
๋์ผํ ํ๋์จ์ด๋ก 2๋ฐฐ ์ด์์ ํ๊ฒฝ์ ๋์์ ์คํํ ์ ์๋ค๋ ๊ฒ์, PPO์ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ 2๋ฐฐ๋ก ๋๋ฆด ์ ์๋ค๋ ์๋ฏธ์ ๋๋ค. ์ด๋ ํ์ต ์์ ์ฑ๊ณผ ์ต์ข ์ฑ๋ฅ ๋ชจ๋์ ์ง์ ์ ์ผ๋ก ๊ธฐ์ฌํฉ๋๋ค.
๐ง ์๊ฐ์ ์์ฒ: LLM์์ ๋ฐฐ์ฐ๋ค
ํฅ๋ฏธ๋กญ๊ฒ๋, ์ด ์์ด๋์ด๋ ํ๋ LLM inference์์ ์ฌ์ฉ๋๋ disaggregated prefill and decode ๊ธฐ๋ฒ์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค. LLM serving์์: - Prefill: ๊ธด ์ ๋ ฅ ํ ํฐ์ ์ฒ๋ฆฌ (compute-intensive) - Decode: ํ ํ ํฐ์ฉ ์์ฑ (memory-intensive)
์ด ๋ ์์ ์ ๋ถ๋ฆฌํ๋ฉด ํจ์จ์ด ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ฒ๋ผ, ์๋ฎฌ๋ ์ด์ ๊ณผ RL ํ์ต์ ๋ถ๋ฆฌํ๋ ๊ฒ๋ ์ ์ฌํ ํจ๊ณผ๋ฅผ ๋ ๋๋ค.
๐ฏ ์ค์ ์ ๋ต: Depth โ Stereo RGB ํ์ดํ๋ผ์ธ
๋ ผ๋ฌธ์ ๋จ์ํ end-to-end vision RL๋ง ์ ์ํ๋ ๊ฒ์ด ์๋๋๋ค. ์ค์ ๋ฐฐํฌ๋ฅผ ์ํ ํ์ค์ ์ธ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
๐จ ์ Depth๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก?
RGB end-to-end RL์ ๋ฌธ์ : - Photorealistic rendering์ ๋งค์ฐ ๋๋ฆผ - ์ ํํ ๋น ์ ๋ฌ ์๋ฎฌ๋ ์ด์ ํ์ - ๊ณ์ฐ ๋น์ฉ์ด ๋๋ฌด ๋์
Depth์ ์ฅ์ : - ๋ ๋๋ง์ด ํจ์ฌ ๋น ๋ฆ (geometric information๋ง) - ๋ฌผ์ฒด์ 3D ๊ตฌ์กฐ ์ ๋ณด๋ฅผ ์ง์ ์ ๊ณต - ์๋ฎฌ๋ ์ด์ ์์ ํจ์จ์ ์ผ๋ก ์์ฑ ๊ฐ๋ฅ
์ค์ ๋ฐฐํฌ์ ํ์: - ์ค์ ๋ก๋ด์๋ stereo RGB ์นด๋ฉ๋ผ ์ฌ์ฉ - Depth sensor๋ ๋ถ์ ํํ๊ฑฐ๋ ์ฌ์ฉ ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ ๋ง์
๐ 3๋จ๊ณ๋ก ๋๋์ด ์ ๋ณตํ๊ธฐ
Stage 1: Depth-based End-to-End RL
Input: Depth images (์๋ฎฌ๋ ์ด์
)
Method: PPO with disaggregated simulation
Output: Depth-based teacher policy
- ๋๊ท๋ชจ ํ๊ฒฝ์์ ํจ์จ์ ์ผ๋ก ํ์ต
- Active vision ํ๋ ์์ฐ์ค๋ฝ๊ฒ ํ์ต
Stage 2: Distillation to Stereo RGB
Input: Stereo RGB images (์๋ฎฌ๋ ์ด์
)
Teacher: Depth-based policy
Output: Stereo RGB student policy
- Depth teacher์ ํ๋์ stereo RGB๋ก distillation
- ์ฌ์ ํ ๊ด์ฐฐ ๊ฐ๋ฅ์ฑ ๊ฒฉ์ฐจ ์กด์ฌํ์ง๋ง, state โ vision๋ณด๋ค ํจ์ฌ ์์
Stage 3: Sim-to-Real Transfer
Domain Randomization + Real-world deployment
- ADR (Automatic Domain Randomization) ์ ์ฉ
- ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ, ์กฐ๋ช , ํ ์ค์ฒ ๋ฑ ๋๋คํ
๐ Depth๊ฐ State๋ณด๋ค ๋์ ์ด์
๋ ผ๋ฌธ์ ํต์ฌ ์คํ์ ๋ฐ๊ฒฌ ์ค ํ๋๋ depth teacher๊ฐ state teacher๋ณด๋ค ์ฐ์ํ๋ค๋ ๊ฒ์ ๋๋ค.
๋น๊ต ์ค์ : 1. State teacher โ Stereo RGB student (๊ธฐ์กด ๋ฐฉ์) 2. Depth teacher โ Stereo RGB student (์ ์ ๋ฐฉ์)
๊ฒฐ๊ณผ (์๋ฎฌ๋ ์ด์ ์ฑ๊ณต๋ฅ ): - State teacher: ~70-80% - Depth teacher (baseline): ~85% - Depth teacher (disaggregated): ~90%
์ Depth๊ฐ ๋ ๋์๊ฐ?
Observability gap์ ๊ด์ ์์: - State์ Vision: ์์ ํ ๋ค๋ฅธ ์ ๋ณด ํ์ - State: ์ ํํ ์ซ์ ๊ฐ (๋ฌผ์ฒด ์ขํ [x, y, z]) - Vision: ํฝ์ ํจํด, ๋ถํ์ค์ฑ ์กด์ฌ
- Depth์ Stereo RGB: ์ ์ฌํ ์ ๋ณด ํ์
- ๋ ๋ค ์๊ฐ์ ํํ
- ๋ ๋ค ๊ธฐํํ์ ์ ๋ณด ํฌํจ
- Stereo RGB์์ depth ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ
์ฆ, depth teacher๋ student๊ฐ ์ค์ ๋ก ๊ฐ์ง ์ ์๋ ์ ๋ณด์ ๋ ์ ์ฌํ ๋ฐฉ์์ผ๋ก โ์๊ฐโํฉ๋๋ค.
๐ฌ ์คํ ํ๊ฒฝ: ๋ฌด์์ ๊ฐ์ง๊ณ ํ ์คํธํ๋?
๐ค ํ๋์จ์ด ๊ตฌ์ฑ
์๋ฎฌ๋ ์ด์ : - Kuka iiwa 7-DoF ๋ก๋ด ํ - Allegro Hand V4 16-DoF dexterous hand - ์ด 23-DoF ์์คํ
์ค์ ๋ก๋ด: - ๋์ผํ Kuka + Allegro ๊ตฌ์ฑ - Stereo RGB ์นด๋ฉ๋ผ (ZED 2) - ํ์ง ํ ๋ฌผ์ฒด๋ฅผ bin์ ํฌํํ๋ ํ์คํฌ
๐ฆ ํ ์คํธ ๋ฌผ์ฒด๋ค
Visual Dexterity Dataset: - 140๊ฐ์ ๋ค์ํ ๋ฌผ์ฒด - ์ผ์์ ์ธ ๋ฌผ๊ฑด๋ค (์ปต, ๋๊ตฌ, ์ฅ๋๊ฐ ๋ฑ) - ๋ค์ํ ํ์๊ณผ ํฌ๊ธฐ
ํ๊ฐ ๋ฉํธ๋ฆญ: - Success Rate: ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํ์งํ๊ณ bin์ ํฌํํ ๋น์จ
๐ฒ ํ์ค๊ฐ ๋ํ๊ธฐ: Domain Randomization
Sim-to-real gap์ ์ค์ด๊ธฐ ์ํด ADR (Automatic Domain Randomization) ์ฌ์ฉ:
๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ: - Joint friction, stiffness, damping - Object mass, friction - Contact parameters
์๊ฐ์ ์์ (RGB ํ์ต ์): - Lighting conditions - Texture randomization - Camera parameters
ADR์ ํน์ง: - ์ด๊ธฐ์๋ ์์ randomization ๋ฒ์ - ์ ์ฑ ์ด ์์ ํ๋๋ฉด ์ ์ง์ ์ผ๋ก ๋ฒ์ ํ๋ - ์ต์ข ์ ์ผ๋ก ๋์ ๋ฒ์์์๋ robustํ ์ ์ฑ ํ์ต
๐ ๊ฒฐ๊ณผ๋ ์ด๋ ์๊น? (์คํฌ์ผ๋ฌ: ๋์ฑ๊ณต!)
๐ป ์๋ฎฌ๋ ์ด์ ์์์ ์ฑ์ ํ
Depth End-to-End RL ๋น๊ต:
| Resolution | Method | Environments | Success Rate |
|---|---|---|---|
| 160ร120 | Data Parallel | 4,096 | ~82% |
| 160ร120 | Disaggregated | 8,704 | ~88% |
| 320ร240 | Data Parallel | 512 | ~75% |
| 320ร240 | Disaggregated | 1,280 | ~85% |
์ฃผ์ ๋ฐ๊ฒฌ: - Disaggregated ๋ฐฉ์์ด ๋ชจ๋ ํด์๋์์ ์ฐ์ - ๋ ๋์ ํด์๋(320ร240)์์๋ ํจ๊ณผ์ - ๋ฐฐ์น ํฌ๊ธฐ ์ฆ๊ฐ๊ฐ ์ง์ ์ ์ธ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง
๐ Teacher ๋น๊ต: ๋๊ฐ ๋ ์ ๊ฐ๋ฅด์น ๊น?
Teacher Type ๋น๊ต (Stereo RGB Student ๊ธฐ์ค):
| Teacher Type | Student Success Rate |
|---|---|
| State (baseline) | ~72% |
| Depth (data parallel) | ~79% |
| Depth (disaggregated) | ~85% |
๋ถ์: - Depth teacher๊ฐ state teacher๋ณด๋ค 7-13% ๋์ ์ฑ๋ฅ - Observability gap ๊ฐ์๊ฐ ์ค์ง์ ์ธ ์ด๋์ผ๋ก ๋ํ๋จ - Disaggregated simulation์ ํจ๊ณผ๊ฐ distillation ํ์๋ ์ ์ง
๐ ์ค์ ๋ก๋ด์์๋?
Real-World Success Rate:
๋ ผ๋ฌธ์์๋ ์ค์ ๋ก๋ด์์ ์ด์ state-of-the-art vision-based ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ธ ์์น๋ ๋ช ์๋์ง ์์์ง๋ง, ๋ค์ ์ฌํญ๋ค์ด ๊ด์ฐฐ๋์์ต๋๋ค:
์ ์ฑ์ ์ฑ๊ณผ: - ๋ค์ํ ๋ฌผ์ฒด์ ๋ํด robustํ ํ์ง - Active vision ํ๋์ ์ค์ ๋ฐํ (์: ๋ ๋์ ์์ผ ํ๋ณด๋ฅผ ์ํ ์์ง์) - ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ๊ณผ์ gap์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์์
Sim-to-Real Transfer์ ํจ๊ณผ: - Depth teacher ๊ธฐ๋ฐ ์ ์ฑ ์ด ๋ ๋์ ์ ์ด ํน์ฑ - ADR๊ณผ์ ์๋์ง ํจ๊ณผ - ์ค์ ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ ๋ํ robustํจ
๐ ๏ธ ๊ธฐ์ ์ ๊น์ด: ์ด๋ป๊ฒ ๊ตฌํํ์๊น?
๐งฑ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ
๋ ผ๋ฌธ์์๋ ๊ตฌ์ฒด์ ์ธ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์์ธํ ๋ฐํ์ง ์์์ง๋ง, vision-based RL์ ์ผ๋ฐ์ ์ธ ์ ๊ทผ์ ๋ฐ๋ฅผ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค:
Encoder (Vision): - Convolutional layers for spatial feature extraction - Possibly ResNet-like architecture - Separate encoders for left/right stereo images
Policy/Value Networks: - MLP layers after vision encoding - Separate heads for actor and critic (PPO) - Action output: 23-dimensional continuous control
โ๏ธ ํ์ต ์ค์
PPO Configuration: - Horizon length: ๋ ผ๋ฌธ์์ ์์๋ก 3์ ์ธ๊ธ (์ค์ ๋ ๋ ๊ธธ ์ ์์) - Learning rate, entropy coefficient ๋ฑ์ ๋ช ์๋์ง ์์ - 5 seeds average๋ก ์คํ ์ฌํ์ฑ ํ๋ณด
Simulation Scale: - ์์ฒ~์๋ง ๊ฐ์ parallel environments - GPU memory๋ฅผ ์ต๋ํ ํ์ฉํ๋ ํ๊ฒฝ ์ ์ค์
๐ง ๊ตฌํํ ๋ ์ฃผ์ํ ์ ๋ค
Communication Overhead: - Simulator workers์ learner ๊ฐ์ ๋ฐ์ดํฐ ์ ์ก - High-resolution images์ ํจ์จ์ ์ธ ์ ๋ฌ - Network bandwidth ๊ณ ๋ ค
Load Balancing: - 3๊ฐ simulator vs 1๊ฐ learner์ ๊ท ํ - Simulator๊ฐ ๋๋ฌด ๋น ๋ฅด๋ฉด learner๊ฐ bottleneck - Learner๊ฐ ๋๋ฌด ๋น ๋ฅด๋ฉด simulator๊ฐ ์ ํด
Memory Management: - Experience buffer์ ํจ์จ์ ์ธ ๊ด๋ฆฌ - Image data์ ์์ถ/๋น์์ถ trade-off
๐ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ๋ฉด?
๐๏ธ Vision-based Grasping์ ์ ๋ฐฐ๋ค
Parallel Jaw Grippers with End-to-End RL: - QT-Opt (Kalashnikov et al.), ๋ฑ - ๋จ์ํ gripper๋ก๋ end-to-end RL์ด ์ฑ๊ณต - ํ์ง๋ง dexterous hand์๋ ์ ์ฉ ์ด๋ ค์ - ์ด์ : ํจ์ฌ ๋์ action space dimension (2 DoF vs 16+ DoF)
DextrAH Series: - DextrAH-RGB (์ด์ state-of-the-art) - State teacher โ vision student distillation - ๋ณธ ๋ ผ๋ฌธ์ด ์ด๋ฅผ ์ฑ๋ฅ์ ์ผ๋ก ๋ฅ๊ฐ
๐คน Dexterous Manipulation์ ๋ค๋ฅธ ์ ๊ทผ๋ค
UniDexGrasp, DexGraspNet: - Large-scale dataset ๊ธฐ๋ฐ ์ ๊ทผ - ์ฃผ๋ก grasp pose generation์ ์ง์ค - ๋ณธ ๋ ผ๋ฌธ์ dynamic execution policy์ ์ง์ค
DemoGrasp, AdaDexGrasp: - Single demonstration์์ ํ์ต - RL์ ์ฌ์ฉํ์ง๋ง trajectory editing ๋ฐฉ์ - ๋ณธ ๋ ผ๋ฌธ๊ณผ๋ ๋ค๋ฅธ ๋ฐฉํฅ์ ์ ๊ทผ
๐ ์ด ๋ ผ๋ฌธ๋ง์ ํน๋ณํจ
์ต์ด ์ฑ๊ณผ: - Multi-fingered hand์์ end-to-end vision RL์ ์ต์ด sim-to-real ์ฑ๊ณต - ์ด๋ ๋ก๋ด ๊ณตํ ๋ถ์ผ์์ ์ค์ํ ์ด์ ํ
์ค์ฉ์ ์๋ฃจ์ : - ๋จ์ํ ์ด๋ก ์ ์ ์์ด ์๋ - ์ค์ ํ๋์จ์ด ์ ์ฝ ํ์์ ์๋ํ๋ ์์คํ - Scalableํ ๊ตฌํ ๋ฐฉ๋ฒ ์ ์
๐คท ์๋ฒฝํ์ง ์์์: ํ๊ณ์ ๊ณผ ๋ฏธ๋ ๋ฐฉํฅ
๐ ์์ง์ ์ด๋ฐ ๋ถ๋ถ์ด ์์ฌ์์
ํ๋์จ์ด ์๊ตฌ์ฌํญ: - ์ฌ์ ํ ๋ค์์ ๊ณ ์ฑ๋ฅ GPU ํ์ - 4๊ฐ GPU๊ฐ ์ต์ ์๊ตฌ์ฌํญ - ์๊ท๋ชจ ์ฐ๊ตฌ์ค์๋ ์ง์ ์ฅ๋ฒฝ
์๋ฎฌ๋ ์ด์ ์์กด์ฑ: - ์ฌ์ ํ ์๋ฎฌ๋ ์ด์ ์์ ํ์ต - Sim-to-real gap์ด ์์ ํ ํด์๋์ง ์์ - Real-world์์ ์ง์ ํ์ตํ๋ ๋ฐฉ๋ฒ ํ์
Task Specificity: - Grasp-and-place ํ์คํฌ์ ํนํ - ๋ ๋ณต์กํ manipulation์ ๋ํ ํ์ฅ์ฑ ๋ถ๋ช ํ
๐จ ๋ฐ๋ก ๊ฐ์ ํ ์ ์๋ ๊ฒ๋ค
Real-World RL Fine-tuning: - ์๋ฎฌ๋ ์ด์ ์์ ํ์ต ํ - ์ค์ ๋ก๋ด์์ ์๋์ ์ถ๊ฐ ํ์ต - SERL, DexGraspRL ๋ฑ์ ๋ฐฉ๋ฒ๊ณผ ๊ฒฐํฉ
Multi-task Learning: - ๋จ์ผ ํ์คํฌ๊ฐ ์๋ ๋ค์ํ manipulation skill ํ์ต - Task-conditioned policy - Transfer learning across tasks
Tactile Integration: - ํ์ฌ๋ vision๋ง ์ฌ์ฉ - Tactile sensor ์ถ๊ฐ ์ ๋ robustํ ํ์ง ๊ฐ๋ฅ - Vision + tactile์ multi-modal learning
๐ ๋ฏธ๋์๋ ์ด๋ฐ ๊ฒ๋ ๊ฐ๋ฅํ ๊น?
Foundation Models for Manipulation: - ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก pre-training - Fine-tuning for specific tasks - Vision-Language-Action models
Hierarchical RL: - High-level planning + low-level control - ๋ ๋ณต์กํ long-horizon tasks - Active vision์ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋ง
Sample Efficiency ๊ฐ์ : - Model-based RL ์ ๊ทผ - World models for dexterous manipulation - Off-policy ์๊ณ ๋ฆฌ์ฆ ํ์ฉ
โจ ๊ฒฐ๋ก : ๋ก๋ด์ด ์ง์ง๋ก โ๋ณด๋ฉด์โ ๋ฐฐ์ฐ๊ธฐ ์์ํ๋ค
โจ ๊ฒฐ๋ก : ๋ก๋ด์ด ์ง์ง๋ก โ๋ณด๋ฉด์โ ๋ฐฐ์ฐ๊ธฐ ์์ํ๋ค
์ด ๋ ผ๋ฌธ์ด ์ฐ๋ฆฌ์๊ฒ ์๋ ค์ค ๊ฒ๋ค
์ด ๋ ผ๋ฌธ์ dexterous grasping ๋ถ์ผ์ ์ ๋ง ์ค์ํ ์ธ ๊ฐ์ง๋ฅผ ๋ณด์ฌ์คฌ์ต๋๋ค:
1. ๋๋ํ ์ธํ๋ผ ์ค๊ณ์ ํ ๐ช - Disaggregated simulation์ผ๋ก ๋์ผํ GPU๋ก 2๋ฐฐ ์ด์์ ํ๊ฒฝ ์คํ - ๋๋ก๋ ์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ์์คํ ์ค๊ณ๊ฐ ๋ ์ค์ํ ์ ์๋ค๋ ๊ตํ - ๋ค๋ฅธ vision-based robotics task์๋ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ์์ด๋์ด
2. ์ค๊ฐ ๋จ๊ณ์ ์งํ ๐ฏ - Depth๋ฅผ ์ค๊ฐ ๋จ๊ณ๋ก ์ฌ์ฉํ๋ ํ์ค์ ์ธ ์ ๊ทผ - State โ Vision๋ณด๋ค Depth โ Vision์ด ํจ์ฌ ํจ๊ณผ์ - ์ด๋ก ๊ณผ ์ค์ฉ์ฑ ์ฌ์ด์ ์๋ฒฝํ ๊ท ํ์
3. ์ต์ด์ ์ฑ๊ณต ์ฌ๋ก ๐ - Multi-fingered hand์์ end-to-end vision RL์ ์ฒซ sim-to-real ์ฑ๊ณต - State-of-the-art ์ฑ๋ฅ ๋ฌ์ฑ - Active vision ํ๋์ด ์ค์ ๋ก ๋ํ๋จ์ ํ์ธ
๋ก๋ด๊ณตํ ๋ถ์ผ์ ๋์ง๋ ๋ฉ์์ง
ํจ๋ฌ๋ค์์ด ๋ฐ๋๊ณ ์์ต๋๋ค - Distillation๋ง์ด ์ ์ผํ ๋ฐฉ๋ฒ์ด ์๋ - End-to-end learning์ด ์ด์ ์ค์ฉ์ ์ธ ์ ํ์ง๊ฐ ๋จ - Infrastructure ๊ฐ์ ์ด ์๊ณ ๋ฆฌ์ฆ๋งํผ ์ค์
์์ง ํด๊ฒฐํ ๋ฌธ์ ๋ค - ๋ ํจ์จ์ ์ธ vision-based RL ์๊ณ ๋ฆฌ์ฆ ํ์ - Sim-to-real gap์ ๋ ์ค์ผ ๋ฐฉ๋ฒ ํ๊ตฌ - ์ค์ ํ๊ฒฝ์์ ์ง์ ํ์ตํ๋ ์์คํ ์ผ๋ก ๋ฐ์
์์ผ๋ก์ ์ ๋ง
์ด ์ฐ๊ตฌ๋ ์์์ ์ ๋๋ค. ์์ผ๋ก ์ฐ๋ฆฌ๋ ์ด๋ฐ ๊ฒ๋ค์ ๊ธฐ๋ํ ์ ์์ ๊ฒ ๊ฐ์์: - ๋ ๋ณต์กํ manipulation tasks๋ก์ ํ์ฅ - ๋ ์ ์ ์ปดํจํ ์์์ผ๋ก๋ ๊ฐ๋ฅํ ํ์ต - ์ค์ ํ๊ฒฝ์์ ๋ฐ๋ก ํ์ตํ๋ ์์คํ - ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ
ํ ์ค ์์ฝ
๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ โ๋ณด๊ณ ๋ฐฐ์ฐ๋โ ๊ฒ์ ๋ ์ด์ ๊ณต์๊ณผํ์ด ์๋๋๋ค. ์ฌ๋ฐ๋ฅธ infrastructure์ ๋ฐฉ๋ฒ๋ก ๋ง ์๋ค๋ฉด, vision-based end-to-end learning์ dexterous manipulation์ ๋ฏธ๋๊ฐ ๋ ์ ์์ต๋๋ค! ๐
ํจ๊ป ๋ณด๋ฉด ์ข์ ๋ ผ๋ฌธ๋ค - DextrAH-RGB: ์ด์ state-of-the-art vision-based grasping - UniDexGrasp: ๋๊ท๋ชจ dexterous grasping - DexGraspNet: Dexterous grasp ๋ฐ์ดํฐ์ - DemoGrasp: ๋จ์ผ ์์ฐ์์ ํ์ตํ๊ธฐ - Visual Dexterity: ์ด ๋ ผ๋ฌธ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ์
๐ฌ ๋ง์น๋ฉฐ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ๊น์ด์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋ชจ๋ ๊ฐ์ถ ํ๋ฅญํ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํด์. ํนํ disaggregated simulation์ด๋ผ๋ ์๋ฆฌํ engineering solution๊ณผ depth-based learning์ด๋ผ๋ ์ค์ฉ์ ์ ๊ทผ์ด ๊ฒฐํฉ๋์ด, ๊ทธ๋์ ์ด๋ ค์ ๋ vision-based dexterous grasping์ ํ์คํํ๋ค๋ ์ ์ด ์ธ์์ ์ ๋๋ค.
๋ก๋ด๊ณตํ์ ์ฐ๊ตฌํ์๋ ๋ถ๋ค๊ป ์ฃผ๋ ๊ตํ์ ๋ช ํํฉ๋๋ค: ๋๋ก๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ๋งํผ์ด๋ infrastructure์ ๊ฐ์ ์ด ์ค์ํ๋ค๋ ๊ฒ์ด์ฃ . ๋ ๋ง์ ํ๊ฒฝ์ ์๋ฎฌ๋ ์ด์ ํ ์ ์๊ฒ ๋ง๋๋ ๊ฒ๋ง์ผ๋ก๋ ํ์ต ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋ ์ ์์ต๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ์๊ฐ ๊ธฐ๋ฐ ๋ค์ง ๊ทธ๋ฆฌํ์ ๋์ ๊ณผ ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ํ๊ณ
ํ๋ ๋ก๋ด๊ณตํ์์ ๋ค์ง ๋ก๋ด ์์ ์ฌ์ฉํ ์ฌ์ธํ ๊ทธ๋ฆฌํ(dexterous grasping)์ ๋์ ๊ธฐ๋ฏผ์ฑ๊ณผ ์ ์์ฑ์ ์๊ตฌํ๋ ์ด๋ ค์ด ๋ฌธ์ ์ ๋๋ค. ์ด๋ฌํ ๋ณต์กํ ์กฐ์ ๊ณผ์ ์์๋ ๋ก๋ด์ด ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ฃผ๋ณ ํ๊ฒฝ์ ์ธ์ํ๊ณ ๋ฌผ์ฒด๋ฅผ ์ ํํ ํ์งํ ์ ์์ด์ผ ํฉ๋๋ค. ํนํ, ๋น์ ๊ธฐ๋ฐ ์ ์ฑ (vision-based policy)์ ํ์ต์ํค๋ ๊ฒ์ ํ์์ ์ด์ง๋ง, ์ด๋ฏธ์ง์ ๊ฐ์ ๊ณ ์ฐจ์ ์ ๋ ฅ ๊ณต๊ฐ์์์ ๊ฐํํ์ต์ ์ํ ๋ณต์ก๋๊ฐ ๋งค์ฐ ๋์ ์ค๋ ์ ๋ถํฐ ๋์ ๋ก ์ธ์๋์ด ์์ต๋๋ค.
๊ณผ๊ฑฐ์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ๊ณ๋ณ ํ์ต ๋๋ ๊ต์ฌ-ํ์(distillation) ์ ๊ทผ๋ฒ์ด ์ฃผ๋ก ์ฌ์ฉ๋์์ต๋๋ค. ๋ํ์ ์ผ๋ก ์๋ฎฌ๋ ์ดํฐ์์ ์ํ ์ ๋ณด(์: ๋ฌผ์ฒด์ ์์น, ๋ก๋ด ๊ด์ ๊ฐ ๋ฑ ํน๊ถ ์ ๋ณด)๋ฅผ ํ์ฉํด ๊ฐํํ์ต์ผ๋ก ๊ต์ฌ ์ ์ฑ ์ ๋จผ์ ํ๋ จํ ํ, ์ด๋ฅผ ๋ชจ๋ฐฉ ํ์ต์ผ๋ก ๋น์ ๊ธฐ๋ฐ ํ์ ์ ์ฑ ์ ์ฆ๋ฅ(distill)ํ๋ 2๋จ๊ณ ๋ฐฉ๋ฒ์ด ๋ง์ด ์ฐ๊ตฌ๋์์ต๋๋ค. ์ด ์ ๊ทผ์ ๊ต์ฌ์ ํ์์ ์ ๋ ฅ ๊ณต๊ฐ์ ๋ค๋ฅด๊ฒ ์ค๊ณํ ์ ์๋ค๋ ์ ์ฐ์ฑ์ ์ ๊ณตํ์ฌ, ์๋ฎฌ๋ ์ดํฐ์์๋ง ์ด์ฉ ๊ฐ๋ฅํ ์์ ์ํ ์ ๋ณด๋ฅผ ๊ต์ฌ์ ์ฃผ์ด RL ํ์ต์ ์ฉ์ดํ๊ฒ ํ๊ณ , ์ดํ ํ์์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ง์ผ๋ก ๋์์ ๋ชจ์ฌํ๋๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ฏธ์ง ๊ธฐ๋ฐ RL์ ๋ฎ์ ์ํ ํจ์จ ๋ฌธ์ ๋ฅผ ์ผ๋ถ ํํผํ๊ณ , ํ์ต ๊ณผ์ ์ โํ๋ ํ์ต(๊ต์ฌ ๋จ๊ณ)โ๊ณผ โํํ ํ์ต(ํ์ ๋จ๊ณ)โ์ผ๋ก ํฉํ ๋ผ์ด์ฆํ๋ ์ด์ ์ด ์์ต๋๋ค. ์ค์ ๋ก ์ด๋ฌํ ๋ฐฉ๋ฒ์ผ๋ก ๋ก๋ด ํ-์ ์์คํ ์ ๋ค์ํ ์์ ์ด ์ฑ๊ณต์ ์ผ๋ก ํ์ต๋ ๋ฐ ์์ต๋๋ค.
ํ์ง๋ง ๊ธฐ์กด ๋จ๊ณ๋ณ ์ ๊ทผ๋ฒ์๋ ๋ณธ์ง์ ์ธ ํ๊ณ๊ฐ ์์ต๋๋ค. ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๊ต์ฌ ์ ์ฑ ์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ง์ ์ฌ์ฉํ์ง ์์ผ๋ฏ๋ก, ํ์ ์ ์ฑ ์ด ์๊ฐ์ ์ผ๋ก ์ต์ ํ๋ ํ๋์ ๋ฐฐ์ฐ์ง ๋ชปํ๋ค๋ ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ต์ฌ RL ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ๊ณตํ๋ ๋ฌผ์ฒด์ ์ง๋ฉด์ง์ค ์์น(ground-truth pose)๋ฅผ ์๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ก๋ด ํ์ด ์นด๋ฉ๋ผ ์์ผ๋ฅผ ๊ฐ๋ฆฌ๊ณ ์์ด๋ ๋ฐ๋ก ๋ฌผ์ฒด๋ฅผ ์ง์ด๋ค ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฅผ ๊ทธ๋๋ก ๋ชจ๋ฐฉํ๋ ํ์ ์ ์ฑ ์ ์ค์ง ์นด๋ฉ๋ผ ์์๋ง ๋ณด๋ฉด์ ํ์ตํ๋ฏ๋ก, ํ์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฐ ์ํฉ์์ ํ์ ์น์ ์์ผ๋ฅผ ํ๋ณดํ๋ ํ๋์ ๋ฐฐ์ฐ์ง ๋ชปํ ์ฑ ๋ฌผ์ฒด๋ฅผ ์ก์ผ๋ ค ํด ์คํจํ ์ ์์ต๋๋ค. ์ด์ฒ๋ผ ๊ต์ฌ-ํ์ ๊ฐ ๊ด์ธก ์ฐจ์ด(observability gap)๋ก ์ธํด ํ์ ์ ์ฑ ์ด ๋ถ๋ถ ๊ด์ธก ํ์์ ๊ต์ฌ์ ํ๋์ ์ถฉ์คํ ์ฌํํ์ง ๋ชปํ๊ณ ์ต์ ์ฑ๋ฅ์์ ๋ฉ์ด์ง๋ ๋ฌธ์ ๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก ์ด๋ฌํ ๊ฐ๊ทน์ ์ ์ฑ ์ ์ํคํ ์ฒ๋ ์ ๋ ฅ๊ณต๊ฐ์ ์๋ฌด๋ฆฌ ๊ฐ์ ํด๋, ๊ต์ฌ๊ฐ ํ์ตํ ํ๋ ์ ๋ต ์์ฒด๊ฐ ์๊ฐ ์ผ์์ ์ต์ ํ๋์ด ์์ง ์๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ๊ตฌ์กฐ์ ํ๊ณ์ ๋๋ค.
์์ฝํ๋ฉด, ๊ธฐ์กด ๋จ๊ณ๋ณ ๋๋ ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํ์ต ์์ ์ฑ๊ณผ ์ฉ์ด์ฑ ์ธก๋ฉด์์๋ ์ ๋ฆฌํ์ง๋ง, ์๊ฐ ์ ๋ณด์ ํนํ๋ ๋ฅ๋์ ํ๋(์: ์์ผ๋ฅผ ํ๋ณดํ๊ธฐ ์ํ ํ ๋์ ๋ฑ)์ ๋ฐํ์ด ์ด๋ ต๊ณ ์ฑ๋ฅ ์ํ์ด ์กด์ฌํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ์ด๋ฌํ ๋งฅ๋ฝ์์, ๋ก๋ด์ด ์นด๋ฉ๋ผ ์์๋ถํฐ ์ ์ด ๋ช ๋ น๊น์ง ๋ชจ๋ ๊ณผ์ ์ ํตํฉ์ ์ผ๋ก ํ์ตํ๋ ์๋ํฌ์๋ ๊ฐํํ์ต(end-to-end RL) ๋ฐฉ์์ ์ด๋ก ์ ์ผ๋ก ๊ฐ์ฅ ์ด์์ ์ธ ์ ๊ทผ์ผ๋ก ์ฌ๊ฒจ์ง๋๋ค. ์๋ํฌ์๋ RL์ ์ผ์ ์ ๋ ฅ๋ง์ผ๋ก ์ง์ ์ ์ฑ ์ ํ๋ จํ๋ฏ๋ก ๊ด์ธก ์ฐจ์ด๊ฐ ์๊ณ , ๋ก๋ด์ด ์์ ์ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ง๋ ์ต์ ํ๋ ์ ๋ต์ ์ค์ค๋ก ์ฐพ์๋ผ ์ ์๋ค๋ ์ ์ฌ๋ ฅ์ด ์์ต๋๋ค. ํ์ง๋ง ๋ฐ๋๋ก, ์ด ์ ๊ทผ์ ๋ง๋ํ ๋ฐ์ดํฐ๋๊ณผ ๊ณ์ฐ ์์์ ํ์๋ก ํ๋ฉฐ ํ์ต์ด ๋ถ์์ ํ๋ค๋ ํ์ค์ ์ธ ์ด๋ ค์ ๋๋ฌธ์, ๊ทธ๋์ ๊ณ ๋์ด๋ ๋ค์ง ๊ทธ๋ฆฌํ์ฒ๋ผ ๋ณต์กํ ์์ ์๋ ์ ์ฉ๋ ์ ์ด ์์์ต๋๋ค. ์ค์ ๋ก ๊ธฐ์กด์๋ ๋จ์ํ ๊ทธ๋ฆฝ(grasping) ์์ ์ ์ ํ์ ์ผ๋ก ์๋ํฌ์๋ RL์ด ์๋๋์์ ๋ฟ์ด๊ณ , ๋ค๊ด์ ๋ก๋ด ์์ด ํฌํจ๋ ๋ณต์กํ ์กฐ์ ์์ ์ ์ง์ ํฝ์ ๋จ์๋ก RL์ ์ ์ฉํด ์ฑ๊ณตํ ์ฌ๋ก๋ ์ ๋ฌดํ์ต๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์์๋ โEnd-to-end RL Improves Dexterous Grasping Policiesโ (Ritvik Singh ์ธ, 2025) ๋ ผ๋ฌธ์ ๋ด์ฉ์ ์ฌ์ธต ๋ถ์ํ์ฌ, ์ด ์ฐ๊ตฌ๊ฐ ์ด๋ป๊ฒ ์๋ํฌ์๋ RL๋ก ๋ค์ง ๋ก๋ด ์ ๊ทธ๋ฆฌํ ์ ์ฑ ์ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋์ง๋ฅผ ์กฐ๋งํฉ๋๋ค. ํนํ ์๊ณ ๋ฆฌ์ฆ์ ํ์ ์ ์ค์ฌ์ผ๋ก, ์ ์๋ ๋ฐฉ๋ฒ์ด ๊ธฐ์กด ๋๋น ์ด๋ค ๊ฐ์ ์ ์ด๋ฃจ์๋์ง, ์๋ก์ด ๊ตฌ์กฐ/๊ธฐ์ ์์๋ ๋ฌด์์ธ์ง, ํ์ต ์ค์ ๊ณผ ์ ์ฑ ๊ตฌ์กฐ๋ ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์คํ ํ๊ฒฝ๊ณผ ๋ฒค์น๋งํฌ๋ก ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ์ป์๋์ง๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ค๋ช ํ๊ฒ ์ต๋๋ค. ์์ธ๋ฌ ์๋ํฌ์๋ RL ์ ๊ทผ๋ฒ์ด ์ ํต์ ์ธ ๋จ๊ณ๋ณ RL ๋๋ ๋ชจ๋ฐฉํ์ต ๋ฐฉ์๊ณผ ๋๋นํ์ฌ ๊ฐ์ง๋ ์ฅ๋จ์ ๋ ํจ๊ป ๋ ผ์ํ์ฌ, ์ค๋ฌด ๋ก๋ด ์์ง๋์ด์๊ฒ ์ค์ ์์คํ ๊ฐ๋ฐ ์ ์ ์ฉํ ํต์ฐฐ์ ์ ๊ณตํ๊ณ ์ ํฉ๋๋ค.
์ฃผ์ ๊ธฐ์ฌ ๋ฐ ํ์ ์์ฝ
๋ ผ๋ฌธ์์ ์ ์๋ค์ ๋ฉํฐํ๊ฑฐ ๋ก๋ด ์์ ์๋ํฌ์๋ ํ์ต์ ํตํ ์๋ฎฌ๋ ์ด์ -ํ์ค ์ฑ๋ฅ ํฅ์์ ์ต์ด๋ก ์ํํ๋ฉฐ, ์ธ ๊ฐ์ง ํต์ฌ ๊ธฐ์ฌ๋ฅผ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค:
์๋ํฌ์๋ RL์ ํ์ฉํ ์ต์ด์ ๋ค์ง ๋ก๋ด ์ Sim-to-Real ์ฑ๊ณต ์ฌ๋ก: ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ํฝ์ -ํฌ-์ก์ ์ ์ฑ ์ ๋ค์ง ๋ก๋ด ์์ ์ด์ํ์ฌ ํ์ค์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๊ธฐ์กด์ ์๋ ๊ฒ์ผ๋ก, ๋ฉํฐํ๊ฑฐ ํธ๋์ ์ฌ์ธํ ์กฐ์์ ์๋ํฌ์๋ RL์ ์ ์ฉํ ์ฒซ ์ฌ๋ก์ ๋๋ค. ํนํ ์๋ฎฌ๋ ์ดํฐ๋ก๋ถํฐ ์ค์ ๋ก๋ด์ผ๋ก์ ์ด์ (sim-to-real)๊น์ง ๋ฌ์ฑํจ์ผ๋ก์จ, ์๋ํฌ์๋ ํ์ต์ ์ค์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค.
๋๊ท๋ชจ ๋น์ ๊ธฐ๋ฐ RL ํ์ต์ ๊ฐ๋ฅ์ผ ํ๋ ์๋ฎฌ๋ ์ดํฐ ์ธํ๋ผ ๊ฐ์ : ์ด๋ฏธ์ง ์ ๋ ฅ์ ์ฌ์ฉํ๋ RL์ ๋ณ๋ ฌ ํ์ต ํจ์จ์ ๋์ด๊ธฐ ์ํด, ์๋ก์ด ๋ค์ค GPU ํ์ฉ ๊ธฐ๋ฒ์ธ ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถ๋ฆฌ(disaggregated simulation)๋ฅผ ์ ์ํ์ต๋๋ค. ๋์ผํ ํ๋์จ์ด์์ ๊ธฐ์กด ๋๋น ๋ฐฐ์น ๊ท๋ชจ(๋์ ํ๊ฒฝ ์)๋ฅผ 2๋ฐฐ ์ด์ ๋๋ ค ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ด์ ์๋ ํ์ต์ด ์ด๋ ค์ ๋ ๊ณ ํด์๋ ๋น์ RL๋ ์ฑ๊ณผ๋ฅผ ๋ด๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
๋น์ ๊ธฐ๋ฐ ๊ทธ๋ฆฌํ์ ์ต์ ์ฑ๋ฅ ๊ฒฝ์ : ์ ์ํ ์๋ํฌ์๋ ์ ์ฑ ์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋๋น ํ์ค ์ธ๊ณ ๊ทธ๋ฆฌํ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ํนํ ๋์ผํ ํ๊ฐ ๊ธฐ์ค์์ ์ด์ ์ ์ํ๊ธฐ๋ฐโ๋น์ ์ฆ๋ฅ ๋ฐฉ์๋ณด๋ค ์๋ฑํ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํจ์ผ๋ก์จ, ๊ด์ธก ์ ๋ณด ๊ฒฉ์ฐจ๋ฅผ ํด์ํ ์๋ํฌ์๋ ํ์ต์ ์ฐ์์ฑ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ ํฅํ ์๊ฐ ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์ ์ ์ฑ ๊ฐ๋ฐ์ ์์ด ์ค์ํ ์ฑ๊ณผ๋ก ํ๊ฐ๋ฉ๋๋ค.
์ดํ์์๋ ์๊ธฐ์ ํ์ ๋ค์ ๋ท๋ฐ์นจํ๋ ๊ธฐ๋ฒ๊ณผ ์คํ์ ๋ฐ๊ฒฌ๋ค์ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
ํ์ต ํ๊ฒฝ ๋ฐ ์ ์ฑ ๊ตฌ์กฐ
์คํ ํ๊ฒฝ์ UC Berkeley์ NVIDIA์์ ๊ฐ๋ฐํ DextrAH (Dexterous Arm-Hand) ํ๊ฒฝ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๋ก๋ด์ 7์์ ๋ KUKA iiwa ํ๊ณผ 16์์ ๋ Allegro V4 ๋ก๋ด ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ํํ์ ํฌ๊ธฐ์ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฌ๋ฆฌ๋ ๊ทธ๋ฆฝ ์์ ์ ์ํํ๋๋ก ํ์ต๋ฉ๋๋ค. ํ๋ จ ์ Visual Dexterity ๋ฐ์ดํฐ์ ์ ํฌํจ๋ 140์ข ์ ๋ฌผ์ฒด ๋ชจ๋ธ์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ์์ด์ ํธ๋ ๋ฌด์์๋ก ์ ์ ๋ ๋ฌผ์ฒด๋ฅผ ํ ์ด๋ธ ์์์ ํ์งํ์ฌ ๋ค์ด์ฌ๋ฆฌ๋ ๊ณผ์ ๋ฅผ ๋ฐ๋ณต ์ํํฉ๋๋ค. ์ด๋ฌํ ๋ค์ํ ๋ฌผ์ฒด๋ก ํ๋ จํจ์ผ๋ก์จ, ์ ์ฑ ์ด ์ผ๋ฐํ๋ ๊ทธ๋ฆฌํ ๋ฅ๋ ฅ์ ํ์ตํ๋๋ก ์ ๋ํ์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ด์ํ๊ธฐ ์ํด, ๋๋ฉ์ธ ๋๋คํ(domain randomization) ๊ธฐ๋ฒ์ด ์ ๊ทน ํ์ฉ๋์์ต๋๋ค. ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์์ ์ค๋ ฅ, ๋ง์ฐฐ๊ณ์, ๊ด์ ๋ง์ฐฐ/๊ฐ์ฑ/๊ฐ์ , ๋ฌผ์ฒด ์ง๋ ๋ฑ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋ จ ์ด๊ธฐ์ ๋ฒ์๋ฅผ ๋ฌด์์๋ก ์ค์ ํ๊ณ ์ ์ฐจ ํ๋ํ๋ Automatic Domain Randomization (ADR)์ ์ ์ฉํ์ฌ, ์ด๊ธฐ์๋ ๋น๊ต์ ์ฌ์ด ๋์ญํ ์กฐ๊ฑด์์ ํ์ตํ๋ค๊ฐ ์ ์ง์ ์ผ๋ก ํ์ค๊ณผ ๋น์ทํ ๋์ด๋๋ก ๋์์ง๋๋ก ์ปค๋ฆฌํ๋ผ์ ๊ตฌ์ฑํ์ต๋๋ค. ADR ๊ธฐ๋ฒ์ OpenAI ๋ฑ์ ์ ํ์ฐ๊ตฌ์์ ์ ์ฆ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ด๊ธฐ ํ์ต ์์ ์ฑ์ ๋ณด์ฅํ๋ฉด์ ์ต์ข ์ ์ฑ ์ ํ์ค ์ ์๋ ฅ(robustness)์ ๋์ด๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
์ ์ฑ ๋คํธ์ํฌ ์ํคํ ์ฒ๋ ๊ณ ์ฐจ์ ์ด๋ฏธ์ง ์ ๋ ฅ๊ณผ ๋ก๋ด ์์ฒด ์ํ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ ์คํ ์ค๊ณ๋์์ต๋๋ค. ์ฐ์ ์๊ฐ ์ ๋ ฅ์ผ๋ก ๊น์ด ์์(depth map)์ ์ฌ์ฉํ๋ฉฐ, ํด์๋๋ ์คํ์ ๋ฐ๋ผ 160\times120 ๋๋ 320\times240 ๋ฑ์ผ๋ก ์ค์ ๋์์ต๋๋ค. ์ด ๊น์ด ์์์ 4๊ณ์ธต ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ํต๊ณผ๋์ด ํน์ง์ ์ถ์ถํฉ๋๋ค. ๊ฐ ํฉ์ฑ๊ณฑ ๊ณ์ธต ๋ค์๋ Layer Normalization๊ณผ ReLU ํ์ฑํ ํจ์๊ฐ ์ ์ฉ๋๊ณ , ๋ง์ง๋ง ๊ณ์ธต ์ถ๋ ฅ์ 32์ฐจ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ์์ถ๋ฉ๋๋ค. ํํธ ๋ก๋ด์ ๊ด์ ๊ฐ๋, ์๋ ๋ฑ์ ํ๋กํ๋ฆฌ์ค์ ์ (proprioception) ์ ๋ณด๋ ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋๋ฐ, ์ด๋ CNN์์ ์ถ์ถ๋ ์๊ฐ ์๋ฒ ๋ฉ๊ณผ ์ฐ๊ฒฐ(concatenate)๋์ด ์ดํ ๊ณ์ธต์ผ๋ก ์ ๋ฌ๋ฉ๋๋ค.
์๊ฐ+์ํ ๊ฒฐํฉ ํน์ฑ์ 2๊ณ์ธต LSTM(์ฅ๋จ๊ธฐ ๋ฉ๋ชจ๋ฆฌ ๋คํธ์ํฌ)์ ์ ๋ ฅ๋ฉ๋๋ค. LSTM์ ์ฌ์ฉํจ์ผ๋ก์จ ์ ์ฑ ์ด ์๊ฐ์์ ์ฐ์์ ์ธ ์ ๋ณด(์: ๋ฌผ์ฒด ์ด๋, ๋ก๋ด ๋์ ์ด๋ ฅ)๋ฅผ ๊ธฐ์ตํ๊ณ ํ์ฉํ ์ ์๊ฒ ํ์์ต๋๋ค. LSTM์ ์๋์ํ ์ถ๋ ฅ์ ๋ค์ 3๊ณ์ธต ์์ ์ฐ๊ฒฐ๋ง(MLP)์ผ๋ก ์ ๋ฌ๋์ด ์ต์ข ์ ์ผ๋ก ๋ก๋ด์ ํ๋ ์ถ๋ ฅ(๊ด์ ์๋ ๋ช ๋ น ๋ฑ)์ ๊ณ์ฐํฉ๋๋ค. (๋น์ทํ ๊ตฌ์กฐ์ ํฌ๋ฆฌํฑ ๋คํธ์ํฌ๋ ๊ณต์ ๋๋ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์ค๊ณ๋์์ ๊ฒ์ ๋๋ค.) ์ ์๋ค์ ์ด๋ฌํ ๊ตฌ์กฐ๊ฐ DeepMind์ IMPALA ์์ด์ ํธ ๊ตฌ์กฐ์ ๋น๊ตํด LSTM์ ์์น๊ฐ ๋ค๋ฅด๋ฉฐ, CNN ํน์ง ํ ํ๋กํ๋ฆฌ์ค์ ์ ๊ณผ ๊ฒฐํฉํ์ฌ LSTM์ ๋ฃ๋ ๊ตฌ์ฑ์ด ํจ๊ณผ์ ์ด์๋ค๊ณ ์ค๋ช ํฉ๋๋ค. ์์ปจ๋, ์ด๋ฏธ์ง โ CNN โ ์ ์ฐจ์ ์๋ฒ ๋ฉ + ์ํ โ LSTM โ MLP์ ์์๋ก ์งํ๋๋ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ์ฑํํ ๊ฒ์ ๋๋ค (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ ).
์ด๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ๋ํ์ ์ธ Proximal Policy Optimization (PPO)์ด ์ฌ์ฉ๋์์ต๋๋ค. PPO๋ Actor-Critic ๊ณ์ด์ ์ต์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋น๊ต์ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ์ฌ ๋ก๋ด ์ ์ด ๋ฌธ์ ์ ๋๋ฆฌ ์ฐ์ ๋๋ค. ๋ค๋ง ์ด๋ฏธ์ง ๊ธฐ๋ฐ PPO์ ํ์ต ์ ํธ๊ฐ ์ถฉ๋ถํ ์์ ๋๊ธฐ ์ํด์๋ ๋๊ท๋ชจ ๋ฐฐ์น(batch)๊ฐ ์ค์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์๋ฎฌ๋ ์ดํฐ์์ ์์ฒ ๊ฐ ์ด์์ ๋ณ๋ ฌ ํ๊ฒฝ์ ๋์์ ์คํํ์ฌ ํ ๋ฒ์ ๋ง์ ์์ ์ํ-ํ๋-๋ณด์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ PPO ์ ๋ฐ์ดํธ์ ํ์ฉํ์ต๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๊ณ ์ฐจ์ ์ ๋ ฅ์ผ๋ก ์ธํ ์ก์์๋ ๋ถ๊ตฌํ๊ณ ์ ์ฑ ์ด ์๋ฏธ ์๋ ๊ทธ๋๋์ธํธ๋ฅผ ์ป์ ์ ์๋๋ก ํ ๊ฒ์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, ๋ณธ ์ฐ๊ตฌ์ ์ ์ฑ ํ์ต ์ค์ ์ โ์ด๋ฏธ์ง(CNN)-์ํ ํตํฉ(LSTM)-PPOโ๋ก ์์ฝ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ์๊ฐ์ ๋ณด์ ๋ก๋ด ๋ด๋ถ์ํ๋ฅผ ํจ๊ป ๊ณ ๋ คํ๋ ๋น์ฃผ๋ชจํฐ ์ ์ฑ (visuomotor policy) ๊ตฌ์กฐ์ ๋๋ค. ๋ค์์ผ๋ก, ์ด ์ ์ฑ ์ ์ด๋ค ๋ฐฉ์์ผ๋ก ์๋ํฌ์๋ RL๋ก ํ์ต์์ผฐ๋์ง ๊ทธ๋ฆฌ๊ณ ์ด๋ป๊ฒ ํจ์จ์ ๊ทน๋ํํ๋์ง๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์ ๊ทผ: ์๋ํฌ์๋ RL ํ์ต ์ ๋ต
1. ๊น์ด ์ ๋ ฅ ๊ธฐ๋ฐ ์๋ํฌ์๋ RL ๋ฐ RGB ์ฆ๋ฅ ํ์ดํ๋ผ์ธ
์์์ ์ธ๊ธํ๋ฏ, ์๋ํฌ์๋ ์๊ฐ RL์ ๊ฐ์ฅ ํฐ ๊ฑธ๋ฆผ๋์ ๋ง๋ํ ๊ณ์ฐ๋์ ๋๋ค. ํนํ RGB ์นด๋ฉ๋ผ ์์์ผ๋ก ์ง์ RL์ ์ํํ๋ ค๋ฉด ์ฌ์ค์ ์ธ ๊ด์/์ฌ์ง ๋ ๋๋ง๊น์ง ํ์ํด ์๋ฎฌ๋ ์ด์ ์ด ๋งค์ฐ ๋๋ ค์ง๋๋ค. ์ด์ ์ ์๋ค์ ํ์ค์ ์ธ ํํ์์ผ๋ก โ๊น์ด ์ด๋ฏธ์ง ๊ธฐ๋ฐ RL + ์ดํ RGB๋ก์ ์ ์ฑ ์ฆ๋ฅโ๋ผ๋ 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ์ ์ํ์ต๋๋ค. ํ๋ จ ๋จ๊ณ์์๋ ๋ฌผ์ฒด์ ํ๊ฒฝ์ ๋จ์ํ๊ฒ ํํํ๋ ๊น์ด ๋งต์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ๋น๊ต์ ๋ ๋๋ง ๋ถํ๊ฐ ๋ฎ์ ์กฐ๊ฑด์์ ์๋ํฌ์๋ RL์ ์ํํฉ๋๋ค. ์ด๋ ๊ฒ ์ป์ ๊น์ด ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ (teacher policy)์ ์ดํ ์คํ ๋ ์ค RGB ์นด๋ฉ๋ผ ์ ๋ ฅ ๊ธฐ๋ฐ ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅ(distillation)ํ์ฌ, ์ต์ข ์ ์ผ๋ก ํ์ค ๋ก๋ด์ ํฌ์ ํ RGB ์ ์ฑ ์ ์ป๋ ๋ฐฉ์์ ๋๋ค. ํ๋ง๋๋ก, ์๋ฎฌ๋ ์ดํฐ์์๋ ๊น์ด ์ผ์๋ก ํ์ตํ๊ณ , ํ์ค์์๋ ์คํ ๋ ์ค ์นด๋ฉ๋ผ๋ก ๋์ํ๋๋ก ๋ ๋จ๊ณ๋ก ๋๋ ๊ฒ์ ๋๋ค.
์ด ์ ๊ทผ์ ํต์ฌ ์ฅ์ ์ ๊ต์ฌ์ ํ์ ๊ฐ ๊ด์ธก ๊ฒฉ์ฐจ๋ฅผ ํฌ๊ฒ ์ค์๋ค๋ ๋ฐ ์์ต๋๋ค. ๊น์ด ์์๊ณผ ์คํ ๋ ์ค RGB ์์์ ๋ ๋ค ๋ก๋ด์ ์๊ฐ ์ผ์ ๋ฐ์ดํฐ๋ก์, ์ ์๋ ํ์๋ก๋ถํฐ ๊ธฐํํ์ ์ผ๋ก ๋ณต์ ๊ฐ๋ฅํ ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ค์ ๋๋ฑํ ์์ค์ ํ๊ฒฝ ๊ด์ธก์ ์ ๊ณตํฉ๋๋ค. ์ฆ, ๊น์ด๋ก ํ์ตํ ์ ์ฑ ์ด ์ทจํ ํ๋์ ์คํ ๋ ์ค ์นด๋ฉ๋ผ๋ก๋ ์ถฉ๋ถํ ๋ชจ๋ฐฉ ๊ฐ๋ฅํ๋ฏ๋ก, ๋ ์ ๋ ฅ ์ฌ์ด์ ์ด๋ก ์ ์ ๋ณด ์ฐจ์ด๊ฐ ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ์์ ์ง์ ํ ์ํ ๊ธฐ๋ฐ ๊ต์ฌ vs ๋น์ ํ์ ๋ฌธ์ ์ ๋์กฐ์ ์ ๋๋ค. ์ํ ๊ต์ฌ๋ ๋ฌผ์ฒด์ 3D ์์น ๋ฑ ํ์์๊ฒ ๋ณด์ด์ง ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฏ๋ก ํ์์ด ์์ ํ ๋ฐ๋ผํ๊ธฐ ์ด๋ ต์ง๋ง, ๊น์ด ๊ต์ฌ๋ ์ ์ด์ ์๊ฐ์ ์ ์ฝ ํ์์ ์ต์ ํ๋์๊ธฐ ๋๋ฌธ์ ํ์๋ ํด๋น ํ๋์ ๊ทธ๋๋ก ์ฌํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ค์ ๊ฒฐ๊ณผ๋ก๋, ๊น์ด ๊ต์ฌ โ RGB ํ์ ์ฆ๋ฅ์ ๊ฒฝ์ฐ ํ์ ์ ์ฑ ์ ์ฑ๋ฅ์ด ์ํ ๊ต์ฌ โ RGB ํ์ ์ฆ๋ฅ ๋๋น ํฌ๊ฒ ํฅ์๋จ์ ๋ ผ๋ฌธ์ ๋ณด์ฌ์ค๋๋ค (๋ค์ ์น์ ์คํ ๊ฒฐ๊ณผ ์ฐธ์กฐ).
๋ ํ ๊ฐ์ง ์ด์ ์, ๊น์ด ๊ธฐ๋ฐ RL ๊ต์ฌ๋ ์์ฒด๊ฐ ์๋ํฌ์๋ ๋น์ ์ ์ฑ ์ด๋ฏ๋ก ์ด๋ฏธ ์๊ฐ์ ์ผ๋ก ํฉ๋ฆฌ์ ์ธ ํ๋ ์ ๋ต์ ๋ด์ฌํํ๊ณ ์๋ค๋ ์ ์ ๋๋ค. ์์ ์์์ฒ๋ผ ํ์ด ์์ผ๋ฅผ ๊ฐ๋ฆด ๊ฒฝ์ฐ, ๊น์ด ๊ต์ฌ ์ ์ฑ ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ต๋์๋ค๋ฉด ํ์ ์ฎ๊ฒจ ๋ฌผ์ฒด๋ฅผ ๋ณด๋ฉด์ ์ก๋ ๋ฒ์ ์ค์ค๋ก ์ตํ์ ๊ฒ์ ๋๋ค. ๋ฐ๋ฉด ์ํ ๊ต์ฌ๋ ์ฒ์๋ถํฐ ๊ทธ๋ด ํ์๊ฐ ์์๊ธฐ์ ๊ทธ๋ฐ ํ๋์ ๋ฐฐ์ฐ์ง ๋ชปํ์ฃ . ๋ฐ๋ผ์ ๊น์ด ๊ต์ฌ์๊ฒ์ ๋ฐฐ์ด ํ์ ์ ์ฑ ์ ์๊ฐ์ ํผ๋๋ฐฑ์ ์ ๊ทน ํ์ฉํ๋ ํ๋์ ๋ณด์ฌ์ค๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ ๊น์ด ๊ต์ฌ๋ก๋ถํฐ ํ์ตํ ํ์์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ์ง ์๋๋ก ์๋ชฉ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ค๋ ์ง, ์์ผ์ ๋ฌผ์ฒด๋ฅผ ์ค๋ ์ ์งํ๋ฉด์ ์กฐ์ํ๋ ๋ฑ ๋ฅ๋์ ์๊ฐ ํ๋์ ๋ ์ ์ํํจ์ ๊ด์ฐฐํ๋ค๊ณ ํฉ๋๋ค. ์ ๋์ ์ผ๋ก๋ ๋น์ ๊ต์ฌ๋ก ํ์ตํ ํ์์ด ์ํ ๊ต์ฌ ๋๋น ๋ ๋์ ์ฐ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋๋ฐ, ์ด๋ ๊ต์ฌ-ํ์ ๊ฐ ์ ๋ณด ๋น๋์นญ์ด ์ ์ด ํ์ ์ ์ฑ ์ด ์๊ธฐ ๋ชจ๋ฌ๋ฆฌํฐ(์นด๋ฉ๋ผ)์ ๋ณด๋ค ์ต์ ํ๋์๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, โ๊น์ด๋ก RL ํ์ต + RGB๋ก ์ง์ ์ ๋ฌโ์ด๋ผ๋ ์ ๋ต์ ์๋ํฌ์๋ RL์ ์ฅ์ ์ ์ ์งํ๋ฉด์๋ ํ์ค ์ ์ฉ์ ์ํ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋ชจ๋ ์ก์ ์ฃผ์ ๊ธฐ์ ํ์ ์ด๋ผ ํ ์ ์์ต๋๋ค. ์ด ๋ฐฉ์ ๋๋ถ์ ์ฐ๊ตฌ์ง์ ์๋์ ์ผ๋ก ์ ์ ํ๋์จ์ด๋ก๋ ์์ ํ RGB ํฝ์ -ํฌ-์ก์ ์ ์ฑ ์ ํ๋ํ ์ ์์๊ณ , ์คํ์ ์ผ๋ก ๊ด์ธก ๊ฒฉ์ฐจ ๋ฌธ์ ๋ฅผ ํด์ํ์ฌ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์์์ต๋๋ค.
2. ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถํ ์ ํตํ ๋๊ท๋ชจ ๋ณ๋ ฌํ
์๋ํฌ์๋ ๋น์ ๊ฐํํ์ต์ ๋ ๋ค๋ฅธ ๋์ ์, ์ถฉ๋ถํ ๋ฐฐ์น ํฌ๊ธฐ(๋ณ๋ ฌ ํ๊ฒฝ ์)๋ฅผ ํ๋ณดํ์ง ๋ชปํ๋ฉด PPO ๋ฑ์ ์๊ณ ๋ฆฌ์ฆ์ด ์ ๋๋ก ์๋ ดํ์ง ์๋๋ค๋ ์ ์ ๋๋ค. ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ ธ์ด์ฆ๊ฐ ๋ง๊ณ ์ ํธ ๋๋น ์ก์ ๋น์จ์ด ๋ฎ๊ธฐ ๋๋ฌธ์, ์๋ง์ ์ํผ์๋๋ก๋ถํฐ ํ๊ท ์ ์ธ ํ์ต ์ ํธ๋ฅผ ๋ชจ์๋ณผ ํ์๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ์์ฒ ๊ฐ ์์ค์ ํ๊ฒฝ์ ๋์ ๊ตฌ๋ํ๋ ๋ณ๋ ฌํ๊ฐ ํ์์ ์ธ๋ฐ, GPU ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ์ ๊ฒฝ์ฐ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋์ด ๋ณ๋ชฉ์ด ๋์ด ํ๊ฒฝ ์๋ฅผ ๋ง์๊ป ๋๋ฆฌ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์๋๋ก๋ผ๋ฉด, ์๋ฅผ ๋ค์ด 4๊ฐ์ GPU๋ก ํ์ตํ ๊ฒฝ์ฐ ๊ฐ GPU๊ฐ ๋๊ฐ์ ์๋ฎฌ๋ ์ดํฐ ์ธ์คํด์ค๋ฅผ ์คํํ๋ฉฐ ๊ทธ ์์ ๋ค์์ ๋ณ๋ ฌ ํ๊ฒฝ์ ๊ฐ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฐ GPU๋ ์์ ์ ํ๊ฒฝ๋ค์ ๋ ๋๋ง ๋ฐ ๋ฌผ๋ฆฌ ๊ณ์ฐ์ ์ํํ๊ณ , ๋์์ RL ๊ฒฝํ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฑ ์ ๊ฒฝ๋ง๊น์ง ๋ชจ๋ ๋ก์ปฌ์ ์ ์งํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ชจ๋ GPU์ ๊ทธ๋ผ๋์ธํธ๋ฅผ ๋ชจ์ ํ๊ท ๋ด๋ฉฐ ํ์ตํ๋ ๋ฐ์ดํฐ ๋ณ๋ ฌ ๋ฐฉ์์ด ์ผ๋ฐ์ ์ด์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด ์ ๊ทผ์ ํฐ ๋ฉ๋ชจ๋ฆฌ ๋ญ๋น๋ฅผ ๋ณ์ต๋๋ค. ์๋ํ๋ฉด ๋ค GPU ๋ชจ๋ ๋์ผํ ์๋ฎฌ๋ ์ด์ ๋ฆฌ์์ค(์: ๋ฌผ์ฒดยท๋ก๋ด 3D ๋ชจ๋ธ, ๋ฌผ๋ฆฌ์์ง ์ํ ๋ฑ ์์ฐ ์บ์)๋ฅผ ๊ฐ์ ๋ฉ๋ชจ๋ฆฌ์ ๊ฐ์ง๊ณ ์์ด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ ํ๊ฒฝ ์๋ฅผ ๋๋ฆฌ๋ฉด ๊ฐ GPU์์ RL ๊ฒฝํ ๋ฒํผ๋ ์ปค์ง๋๋ฐ, ์ด๋ฏธ์ง ๊ด์ธก์ ๊ฒฝ์ฐ ์ด ๋ฒํผ๊ฐ ๊ธ๋ฐฉ ์GB๋ฅผ ์ฐจ์งํ์ฌ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋ฐํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ๊ฐ๋ ์ฐจ๊ธฐ ์ ์ PPO๊ฐ ์๊ตฌํ๋ ์ถฉ๋ถํ ํ๊ฒฝ์ ๋๋ฆฌ์ง ๋ชปํ๋ ์ํฉ์ด ๋ฐ์ํฉ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด โ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถ๋ฆฌ(Disaggregated Simulation and RL)โ๋ผ๋ ์๋ก์ด ๋ค์ค GPU ๋ณ๋ ฌํ ์ ๋ต์ ์ ์ํ์ต๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๊ฐ๋จํ ๋งํด, ์๋ฎฌ๋ ์ด์ ์ ์ฉ GPU์ ํ์ต ์ ์ฉ GPU๋ฅผ ๋ถ๋ฆฌํจ์ผ๋ก์จ ๊ฐ์์ ์ญํ ์ ์ต์ ํ๋ ์์ ํ์ฉ์ ํ์๋ ๊ฒ์ ๋๋ค. ์์ปจ๋ 4๊ฐ์ GPU๋ฅผ ๊ฐ์ง ํ ๋ ธ๋์์, 3๊ฐ GPU๋ ์๋ฎฌ๋ ์ด์ ๋ง ์ํํ๊ณ ๋จ์ 1๊ฐ GPU๋ PPO ํ์ต ๋ฐ ๊ฒฝํ ๋ฉ๋ชจ๋ฆฌ ์ ์ฅ์๋ง ์ง์คํ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ธ ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ GPU๊ฐ ํตํฉ๋ ํ๋์ ๊ฑฐ๋ํ ์๋ฎฌ๋ ์ดํฐ์ฒ๋ผ ๋์ํ๋ฉด์, ์ด์ ๋ณด๋ค ํจ์ฌ ๋ง์ ํ๊ฒฝ์ ๋์์ ๋๋ฆด ์ ์๊ฒ ๋ฉ๋๋ค. ์๋ํ๋ฉด ์ด์ ๊ฐ GPU๊ฐ ๋ถํ์ํ ์ค๋ณต ์์ (์ ์ฑ ๊ทธ๋ผ๋์ธํธ ๊ณ์ฐ, ๊ฒฝํ ๋ฒํผ ์ ์ฅ)์ ํ์ง ์์ผ๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ ๋ถ์ ์ ๋ถ ํ๊ฒฝ ์ ์ฆ๊ฐ์ ํฌ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋๋ก ํ์ต๊ธฐ GPU๋ ํ๊ฒฝ ์๋ฎฌ๋ ์ด์ ์ ์ ํ ์๊ณ ๊ฐ์ง ์์ผ๋ฏ๋ก ์ ์ฑ ์ ๊ฒฝ๋ง๊ณผ ๋์ฉ๋ ๋ฒํผ๋ฅผ ์ถฉ๋ถํ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฌํ ์ฑ, ์๋ฎฌ๋ ์ดํฐ GPU๋ค๋ก๋ถํฐ ์ํ ์ ์ก์ ๋ฐ์ PPO ์ ๋ฐ์ดํธ๋ฅผ ์ํํฉ๋๋ค. ์ด๋ GPU๋ค ๊ฐ ํต์ ์ ๋ณ๋ ฌ ๋น๋๊ธฐ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ํต์ ๋ฐ ๋๊ธฐํ ์ ์ฐจ๋ฅผ ์์ฌ์ฝ๋์ ๋ค์ด์ด๊ทธ๋จ์ผ๋ก ์์ธํ ์ ์ํ๊ณ ์์ต๋๋ค.
์ด Disaggregated Simulation ๊ธฐ๋ฒ์ ํจ๊ณผ๋ ์ธ์์ ์ ๋๋ค. ๋์ผํ 4รGPU ์ฅ๋น์์, ์ ํต์ ๋ฐ์ดํฐ ๋ณ๋ ฌ ๋ฐฉ์ ๋๋น 2๋ฐฐ ์ด์์ ๋์ ํ๊ฒฝ ์ ์ฆ๊ฐ๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํด์๋ 160\times120์ ๊น์ด ์ ๋ ฅ์ผ ๊ฒฝ์ฐ ๊ธฐ์กด์๋ GPU๋น 1024๊ฐ ํ๊ฒฝ(์ด 4096๊ฐ)์ ๋๋ฆด ์ ์์๋ ๊ฒ์ด, ๋ถ๋ฆฌ ๋ฐฉ์์ ์ฐ๋ฉด GPU๋น 2800๊ฐ๋ก ๋์ด๋ ์ด 8400๊ฐ ํ๊ฒฝ๊น์ง ํ์ฅ๋์์ต๋๋ค. ํด์๋๋ฅผ 320\times240๋ก ๋์ธ ๊ฒฝ์ฐ๋ ๊ธฐ์กด GPU๋น 256๊ฐ(์ด 1024๊ฐ)์์ 700๊ฐ(์ด 2100๊ฐ)๋ก ์ฝ 2๋ฐฐ ์ด์ ์ฆ๊ฐํ์ต๋๋ค. ์๋ ํ๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ ๊ฒ์ผ๋ก, ๋์ผํ ํ๋์จ์ด์์ ๋จ์ ๊ตฌ์กฐ ๋ณ๊ฒฝ๋ง์ผ๋ก ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ฉ๋์ ๋ ๋ฐฐ๋ก ๋๋ ธ์์ ๋ณด์ฌ์ค๋๋ค:
ํ 1. ์ ๋ ฅ ํด์๋๋ณ ๋์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ์ ๋น๊ต (4รNVIDIA GPU ๋ ธ๋ ๊ธฐ์ค). ๋ฐ์ดํฐ ๋ณ๋ ฌ์ ๊ฒฝ์ฐ ๊ฐ GPU๊ฐ ์๋ฎฌ๋ ์ดํฐ+ํ์ต๊ธฐ๋ฅผ ๋ชจ๋ ์คํํ๊ณ , ๋ถ๋ฆฌ ๋ฐฉ์์ ๊ฒฝ์ฐ 3๊ฐ GPU๋ ์๋ฎฌ๋ ์ดํฐ, 1๊ฐ GPU๋ ํ์ต๊ธฐ๋ก๋ง ์ฌ์ฉ๋์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ถ๋ฆฌ ๋ฐฉ์์ ๋์ผ ์์์์ ํ๊ฒฝ ์๋ฅผ ์ฝ 2๋ฐฐ๋ก ์ฆ๊ฐ์์ผฐ์ต๋๋ค.
์ด๋ฌํ ํ๊ฒฝ ์ ์ฆ๊ฐ๋ ๋จ์ํ ์์น์ ์ธ ๊ฐ์ ์ ๋์ด, ๊ทธ๋์ ๋ถ๊ฐ๋ฅํ๋ ๊ณ ํด์๋ ๋น์ RL ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ์ ์์ ์์๊ฐ ํฝ๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ํด์๋ 320\times240์์ ๊ธฐ์กด ๋ฐ์ดํฐ ๋ณ๋ ฌ๋ก๋ ์ ์ฑ ์ด ์ ํ ํ์ต๋์ง ์์์ง๋ง, ๋ถ๋ฆฌ ๋ฐฉ์์์๋ ์ผ์ ์์ค ์ฑ๋ฅ์ ๋ด๋ ์ ์ฑ ์ ํ์ตํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ธฐ์กด ๋ฐฉ์์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก PPO ๋ฐฐ์น๊ฐ ์ค์ด๋ค์ด ํ์ต์ด ๋ถ์์ ํ์ฌ ์ฑ๊ณต๋ฅ 0%์ ๋จธ๋ฌผ๋ ์ง๋ง, ์ ์ํ ๋ฐฉ์์ ํจ์ฌ ํฐ ๋ฐฐ์น๋ก ํ์ต์ ์งํํด ์ต์ข ์ฑ๊ณต๋ฅ ~35%์ ์ ์ฑ ์ ์ป์ด๋์ต๋๋ค. ๋ํ ํด์๋ 160\times120 ์คํ์ ๊ฒฝ์ฐ๋, ๋ถ๋ฆฌ ๋ฐฉ์์ ๋ชจ๋ ์๋(seed)์์ ๋๋ฉ์ธ ๋๋คํ ๋์ด๋ ์ต๋์น(Full ADR)์ ๋๋ฌํ๋ฉฐ ์ฝ 42%์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ง๋ง, ๊ธฐ์กด ๋ฐฉ์์ ์ผ๋ถ ์๋๋ง ํ์ ๋ ๋์ด๋๊น์ง ๋๋ฌ(20%)ํ๊ณ ์ฑ๊ณต๋ฅ ๋ 37%์ ๊ทธ์ณค์ต๋๋ค. ์ด๋ ๋์ผ ์กฐ๊ฑด์์ ๋ถ๋ฆฌ ๋ฐฉ์์ด ๋ ์ ๋ขฐ์ฑ ์๊ฒ ์ฐ์ํ ์ ์ฑ ์ ํ์ต์ํจ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ ์๋ค์ โ๋ณต์กํ ์๋ํฌ์๋ ์์ ์ ์ฑ๋ฅ์ ์๋ฎฌ๋ ์ดํธ ๊ฐ๋ฅํ ํ๊ฒฝ ์์ ๊ฐํ๊ฒ ์ ํ๋๋ฉฐ, ์ฐ๋ฆฌ์ ๊ธฐ๋ฒ์ฒ๋ผ ๊ทธ ํ๊ณ๋ฅผ ํ์ฅํ๋ฉด ๊ณง๋ฐ๋ก ์ ์ฑ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง๋คโ๊ณ ๊ฐ์กฐํฉ๋๋ค. ๊ฒฐ๊ตญ ์ด ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถ๋ฆฌ ๊ธฐ๋ฒ์ ์๋ํฌ์๋ RL์ ์ค์ฉํ๋ฅผ ๊ฐ๋ก๋ง๋ ๊ณ์ฐ ์์ ๋ณ๋ชฉ์ ์ํํ๋ ๊ธฐ์ ์ ๋ํ๊ตฌ๋ก์, ๋ณธ ์ฐ๊ตฌ์ ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ: ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ ํฅ์๊ณผ ์ค์ ๋ก๋ด ๊ฒ์ฆ
์ ์๋ ์ ๊ทผ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ ์๋ฎฌ๋ ์ด์ ํ๊ฐ์ ์ค์ธ๊ณ ๋ก๋ด ์คํ ๋ชจ๋์์ ๋ค์ํ ์งํ๋ฅผ ์ธก์ ํ์ต๋๋ค. ํ๊ฐ ๊ธฐ์ค์ผ๋ก๋ ๊ทธ๋ฆฌํ ์ฑ๊ณต๋ฅ (success rate)์ ์ฃผ๋ก ์ฌ์ฉํ์์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์๋ ์ถ๊ฐ์ ์ผ๋ก ๋๋ฉ์ธ ๋๋คํ ์งํ๋ฅ (ADR ๋ฌ์ฑ๋) ๋ฑ์ ํ์ต ์ง์ฒ๋๋ฅผ ์ดํด๋ณด์์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ์์์ ์ฑ๋ฅ ๋น๊ต
๋จผ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ์๋ํฌ์๋ RL ์ ์ฑ ์ ํ์ต ์ฑ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ๋ฐ์ดํฐ ๋ณ๋ ฌ vs ๋ถ๋ฆฌ ๋ฐฉ์ ๊ฐ์ ํ์ ํ ์ฐจ์ด๊ฐ ๋ํ๋ฌ์ต๋๋ค. ์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ, ๊ณ ํด์๋ ์ ๋ ฅ(320ร240)์์๋ ๊ธฐ์กด ๋ฐ์ดํฐ ๋ณ๋ ฌ๋ก๋ ์ด๋ ํ ์๋๋ ์ต์ข ๊ณผ์ ๋ฅผ ํ์ตํ์ง ๋ชปํ ๋ฐ๋ฉด(ADR ์งํ๋ 0%, ์ฑ๊ณต๋ฅ 0), ๋ถ๋ฆฌ ๋ฐฉ์์์๋ 5๊ฐ ์๋ ์ค 1๊ฐ ์ ๋๋ ์ต๊ณ ๋์ด๋๊น์ง ๋๋ฌ(20% ์๋ ๋ฌ์ฑ)ํ๊ณ , ํ๊ท ์ ์ผ๋ก๋ ADR ๋ฒ์์ 90%๊น์ง ๋์ด๋๋ฅผ ๋์ธ ์ ์ฑ ์ ์ป์ ์ ์์์ต๋๋ค. ๋น๋ก ๋ชจ๋ ์คํ์์ ์์ ํ ๋์ด๋์ ๋๋ฌํ์ง๋ ๋ชปํ์ง๋ง, ๋ถ๋ถ์ ์ผ๋ก๋ผ๋ ํ์ต์ด ์งํ๋์ด 35% ๊ฐ๋์ ๊ทธ๋ฆฝ ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๊ฒ์ ์๋ํฌ์๋ ๋น์ RL์ด ์ด ํด์๋์์๋ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋๋ค.
๋ฎ์ ํด์๋ ์กฐ๊ฑด(160ร120)์์๋ ์์ชฝ ๋ฐฉ์ ๋ชจ๋ ํ์ต์ด ๋๊ธด ํ์ง๋ง, ๋ถ๋ฆฌ ๋ฐฉ์์ ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ด ๋ ๋์์ต๋๋ค. ๋ฐ์ดํฐ ๋ณ๋ ฌ์ ๊ฒฝ์ฐ ์ ์ฒด ์๋ ์ค ์ผ๋ถ๋ง ์ต์ข ๋์ด๋(Full ADR)์ ๋๋ฌํ์ฌ ํ๊ท 20%์ ๋ฌ์ฑ๋ฅ ์ ๋ณด์์ผ๋, ๋ถ๋ฆฌ ๋ฐฉ์์ ๋ชจ๋ ์๋(100%)๊ฐ Full ADR์ ๋๋ฌํ๊ณ ์ฑ๊ณต๋ฅ ๋ ๋ ๋์์ต๋๋ค (42% vs 37%). ๋ค์ ๋งํด, ๋ถ๋ฆฌ ๋ฐฉ์์ ํ์ต ๊ฒฐ๊ณผ์ ํธ์ฐจ๋ฅผ ์ค์ด๊ณ ์ผ๊ด๋๊ฒ ๋์ด๋ ์ปค๋ฆฌํ๋ผ์ ๋๊น์ง ์ํํ๋๋ก ๋๋ ํจ๊ณผ๊ฐ ์์์ต๋๋ค. ์ด๋ ๋๊ท๋ชจ ๋ฐฐ์น๋ก ์ธํ PPO ํ์ต ์ ํธ ์์ ํ ๋๋ถ์ผ๋ก ํ์ด๋ฉ๋๋ค.
๋ค์์ผ๋ก, ๊ต์ฌ ์ ์ฑ ์ข ๋ฅ์ ๋ฐ๋ฅธ ํ์ ์ ์ฑ ์ฑ๋ฅ์ ์๋ฎฌ๋ ์ดํฐ์์ ๋น๊ตํ ๊ฒฐ๊ณผ๊ฐ ํฅ๋ฏธ๋ก์ด ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ํ ๊ธฐ๋ฐ ๊ต์ฌ vs ๊น์ด ๊ธฐ๋ฐ ๊ต์ฌ ๊ฐ๊ฐ์ผ๋ก ํ์ตํ ํ ๋์ผํ ์คํ ๋ ์ค RGB ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํ์ฌ, ์ต์ข ์ ์ฑ ์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ์ด ์คํ์์ ์ฑ๊ณต๋ฅ ์ โ์์์ ์์ ์ ๋ฌผ์ฒด๋ฅผ ๊ณต์ค์ ๋ค๊ณ ์๋ ํ๊ฒฝ ๋น์จโ๋ก ์ ์๋์๋๋ฐ (๋ค์ด์ฌ๋ฆฐ ํ 2์ด ์ ์ง ์ ํด๋น ํ๊ฒฝ์ ๋ฆฌ์ ), ๊ฐ์ด ๋์์๋ก ์ ์ฑ ์ด ๋น ๋ฅด๊ณ ๋ฅ์ํ๊ฒ ๋ฌผ์ฒด๋ฅผ ์ง๋๋ค๋ ์๋ฏธ์ ๋๋ค. ๊ฒฐ๊ณผ๋ ๋๋ ทํ์ต๋๋ค: ๊น์ด ๊ต์ฌ๋ก๋ถํฐ ๋ฐฐ์ด ํ์ ์ ์ฑ ์ด ์ ๊ตฌ๊ฐ์์ ์ํ ๊ต์ฌ ๊ธฐ๋ฐ ํ์๋ณด๋ค ๋์ ์ฑ๊ณต ๋น์จ์ ๊ธฐ๋กํ์ต๋๋ค. ๋ ๊ณก์ ์ ๊ฒฉ์ฐจ๋ ํ์ต ์ด์ค๋ฐ๋ถํฐ ๋ฒ์ด์ ธ ๋๊น์ง ์ ์ง๋์๋๋ฐ, ๋ ผ๋ฌธ์ ์ด๋ฅผ ๊ต์ฌ-ํ์ ๊ฐ ์ ๋ณด๋น๋์นญ ๊ฐ์ ํจ๊ณผ๋ก ํด์ํฉ๋๋ค. ์ฆ, ๋น์ ๊ต์ฌ๋ ํ์๊ณผ ๋์ผํ ์ ํ์ ์ ๋ ฅ์ ์ฌ์ฉํ๋ฏ๋ก ํ์์ด ๋ฐฐ์์ผ ํ ํ๋์ด ์๊ธฐ ์ผ์ ํ๊ณ ๋ด์์ ํฉ๋ฆฌ์ ์ด๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์์ด ํด๋น ํ๋์ ํจ์ฌ ํจ๊ณผ์ ์ผ๋ก ์ตํ๋ค๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๊น์ด ๊ต์ฌ์๊ฒ ๋ฐฐ์ด ํ์์ ํ์ด๋ ์๊ฐ๋ฝ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ์ง ์๋๋ก ์์ธ๋ฅผ ์กฐ์ ํ๋ ๋ฒ์ ํฐ๋ํ์ง๋ง, ์ํ ๊ต์ฌ์๊ฒ ๋ฐฐ์ด ํ์์ ๊ทธ๋ฐ ์ ๋ต์ ํ์ตํ์ง ๋ชปํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ด์ฒ๋ผ ์๋ํฌ์๋ ๋น์ RL๋ก ์ป์ ๊ต์ฌ๋ ํ์์๊ฒ๋ ์๊ฐ์ ์ผ๋ก ์ต์ ํ๋ ๋์์ ์ ์ํ ์ ์์์ ์๋ฎฌ๋ ์ด์ ์คํ์ด ๋ท๋ฐ์นจํด์ค๋๋ค.
์ค์ธ๊ณ ๋ก๋ด์ผ๋ก์ ๊ฒ์ฆ ๋ฐ ์ฑ๋ฅ
์๋ฎฌ๋ ์ด์ ์์ ๋์ถ๋ ์ ์ฑ ๋ค์ ์ค์ ๋ก๋ด ํ๋ซํผ์ ์ด์๋์ด ์ฑ๋ฅ์ด ๊ฒ์ฆ๋์์ต๋๋ค. ํ๊ฐ์๋ ๋ ผ๋ฌธ ์ ์๋ค์ด ์ด์ ์ฐ๊ตฌ๋ค์์ ํ๋ฆฝํ โ๋น ํฌ์ฅ(bin packing) ๊ทธ๋ฆฌํโ ๋ฒค์น๋งํฌ๊ฐ ํ์ฉ๋์์ต๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ค์ํ ๋ฌผ์ฒด๋ค์ ๋ํ ์ง์์ ์ธ ๊ทธ๋ฆฌํ ๋ฅ๋ ฅ์ ์ํํ๊ธฐ ์ํ ๊ฒ์ผ๋ก, ํ ์ด๋ธ ์์ ์๋ก ๋ค๋ฅธ 30๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ฌด์์๋ก ๋ฐฐ์นํ ํ ๋ก๋ด์ด ์ด๋ฅผ ํ๋์ฉ ์ง์ด ์ธ์ ํ ๋น(bin)์ ๋ฃ๋ ์์ ์ ๋ฐ๋ณต ์ํํ๊ฒ ํฉ๋๋ค. ์ ์ฑ ์ ํ ๋ฒ์ ํ๋์ ๋ฌผ์ฒด๋ฅผ ์ง๋๋ก ์ค์ ๋๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ถฉ๋ถํ ๋ค์ด์ฌ๋ฆฐ ๋ค์์๋ ๋ก๋ด์ด ๋ฏธ๋ฆฌ ์ ํด์ง ์ฌ์ ํ๋ก๊ทธ๋๋ฐ ๋์์ผ๋ก ๊ทธ ๋ฌผ์ฒด๋ฅผ ๋น์ ๋จ์ด๋จ๋ฆฌ๊ณ , ๋ค์ ์ด๊ธฐ ์์ธ๋ก ๋์์ ๋ค์ ๋ฌผ์ฒด๋ฅผ ์ง๋ ์์ผ๋ก ์งํ๋ฉ๋๋ค. (์ด๋ฌํ ์ผ๋ จ์ ๊ณผ์ ์ ํด๋จผ ์คํผ๋ ์ดํฐ ๊ฐ์ ์์ด ์ํ ๋จธ์ ์ ์ํด ์๋ํ๋์์ผ๋ฉฐ, ์ ์ฑ ๋คํธ์ํฌ ์์ฒด์๋ ๋ฌผ์ฒด์ ํ์ฌ ๋์ด๋ฅผ ์ถ์ ํ๋ ๋ณด์กฐ ํค๋๊ฐ ๋ถ์ด ์์ด ๋ฌผ์ฒด๊ฐ ๋ค๋ ธ๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํ๊ฒ ํ์ต๋๋ค.) ํ๊ฐ ์งํ๋ ์ต์ข ์ ์ผ๋ก ๋น์ ์ฑ๊ณต์ ์ผ๋ก ๋ด๊ธด ๋ฌผ์ฒด์ ๋น์จ, ์ฆ 30๊ฐ ์ค ๋ช ๊ฐ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ง์ด ์ฎ๊ฒผ๋์ง๋ฅผ ์ฑ๊ณต๋ฅ (%)๋ก ์ ์ํ์ต๋๋ค.
๋น๊ต ๋์์ ๊ธฐ์กด์ DextrAH ๊ณ์ด ๋ฐฉ๋ฒ๋ค๊ณผ ๋ณธ ์ฐ๊ตฌ์ ์ ์ฑ ๋ค์ ๋๋ค. DextrAH-G๋ 2024๋ ์ ๋ณด๊ณ ๋ ๋ฐฉ์์ผ๋ก, Geometric Fabrics ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฒ๊ณผ RL์ ๊ฒฐํฉํ์ฌ ์ํ ์ ๋ณด๋ก ํ์ต๋ ์ ์ฑ ์ด๊ณ , DextrAH-RGB๋ 2025๋ ๋ณด๊ณ ๋ ํ์ ์ฐ๊ตฌ๋ก ์์ ํ์ต๋ ์ํ ๊ธฐ๋ฐ ์ ์ฑ ์ RGB ๋น์ ๋ชจ๋ธ๋ก ์ฆ๋ฅํ ๊ฒ์ ๋๋ค. ํ๋ง๋๋ก DextrAH-RGB๋ ์ด ๋ ผ๋ฌธ์ด ๊ฐ์ ํ๊ณ ์ ํ๋ โ์ํ ๊ต์ฌ โ ๋น์ ํ์โ ๋ฐฉ์์ ์ต์ ๊ฒฐ๊ณผ๋ผ ๋ณผ ์ ์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ, ๋ณธ ๋ ผ๋ฌธ์ ์๋ํฌ์๋ RL ์ ์ฑ ์ด ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๋ฉฐ SOTA๋ฅผ ๊ฐฑ์ ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ธ ์์น๋ฅผ ๋ณด๋ฉด, DextrAH-G๋ ์ฝ 87%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ (์ํ ์ ๋ณด๋ฅผ ์ผ๋ถ ํ์ฉํ๋ฏ๋ก ์ํ์ ์ฒ๋ผ ์ฌ๊ฒจ์ง), DextrAH-RGB๋ 77%๋ก ๋ค์ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ต๋๋ค. ์ด๋ ์์ ์ง์ ํ ์ํ-๋น์ ๊ฐ ๊ฒฉ์ฐจ๋ก ์ธํด ํ์ค์์ ์ฑ๋ฅ์ด ๋จ์ด์ง ์๋ผ ํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, ์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊น์ด ๊ต์ฌ๋ฅผ ๊ฑฐ์ณ ์ป์ RGB ์ ์ฑ ์ 87%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ, ๋น์ ์ ์ฑ ์ผ๋ก์ ์ด์ ์ต๊ณ ์น(77%)๋ฅผ ํฌ๊ฒ ์ํํ๋ฉฐ ์ํ ๊ธฐ๋ฐ ๊ต์ฌ์ ์์ค๊น์ง ๋์ด์ฌ๋ ธ์ต๋๋ค. ๋์ฑ์ด ์ฌ๊ธฐ์ ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถ๋ฆฌ ๊ธฐ๋ฒ๊น์ง ํ์ฉํด ๋๋์ ๊ฒฝํ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ๊ฒฝ์ฐ ์ฑ๊ณต๋ฅ ์ด ๋ฌด๋ ค 93%์ ์ด๋ฅด๋ ์ต๋๋ค. 93%๋ผ๋ ๊ฒฐ๊ณผ๋ 30๊ฐ ์ค ๊ฑฐ์ 28๊ฐ ๋ฌผ์ฒด๋ฅผ ์ฐ์ ์ฑ๊ณต์ผ๋ก ์ฎ๊ฒผ์์ ์๋ฏธํ๋ฉฐ, ์ฌ๋ ์์ค์ ๊ทผ์ ํ๋ ๋งค์ฐ ๋์ ์ฑ๋ฅ์ ๋๋ค. ์ด๋ ๋์ผ ๋ก๋ดยทํ๊ฒฝ์์ ๋ณด๊ณ ๋ ์ต๊ณ ์ฑ๋ฅ์ผ๋ก์, ์๋ํฌ์๋ RL ์ ๊ทผ์ ํจ๊ณผ๋ฅผ ๊ทน๋ช ํ๊ฒ ๋ณด์ฌ์ค๋๋ค.
์ฑ๊ณต๋ฅ ํฅ์์ ํต๊ณ์ ์ ์๋ฏธ์ฑ์ ๋ ์ดํด๋ณด๋ฉด, ๊น์ด ๊ต์ฌ ๊ธฐ๋ฐ ์ ์ฑ ๋ค์ ๋ชจ๋ ์คํ ๋ฐ๋ณต์์ ์์ ์ ์ผ๋ก 80% ์ด์์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ ๋ฐ๋ฉด, ์ํ ๊ต์ฌ ๊ธฐ๋ฐ ์ ์ฑ (DextrAH-RGB)์ ์๋๋ฆฌ์ค์ ๋ฐ๋ผ ์คํจํ๋ ๋ณ๋์ด ๋ ์ปธ๋ค๊ณ ํฉ๋๋ค. ๋ฌด์๋ณด๋ค ๊น์ด ๊ต์ฌ + ๋ถ๋ฆฌ ํ์ต ์ ์ฑ ์ 93%๋ ๋จ์ํ ๋ฐฉ๋ฒ ๋ณ๊ฒฝ๋ง์ผ๋ก ๊ธฐ์กด ๋๋น 16%p ํฅ์๋ ๊ฒ์ด์ด์ ์ค๋ฌด ์์ง๋์ด๋ค์๊ฒ ํฐ ์ธ์์ ์ค๋๋ค. ์ด๋ ๊ต์ฌ-ํ์ ๊ด์ธก ์ฐจ์ด ํด์์ ์ด๋๊ณผ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ์ต์ ์ด๋์ด ์๋ก ์ํธ์์ฉํ์ฌ ์ป์ ๊ฒฐ๊ณผ๋ก ๋ณด์ ๋๋ค. ๋ ผ๋ฌธ์์๋ โ๊น์ด ๊ต์ฌ๋ก ํ์ตํ ์ ์ฑ ๋ค์ด ๊ธฐ์กด ์ํ ๊ต์ฌ ๊ธฐ๋ฐ ์ ์ฑ ๋ค์ ์ฑ๋ฅ ์ ํ์ ๊ทน๋ณตํ์ผ๋ฉฐ, ํนํ ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ๋ก ํ์ตํ ์ ์ฑ ์ด ๊ฐ์ฅ ์ฐ์ํ๋คโ๊ณ ๊ฒฐ๋ก ์ง๊ณ ์์ต๋๋ค. ์์ปจ๋ ์๋ํฌ์๋ RL์ ํตํ ๋น์ ์ธ์ ํ๋ ํ์ต๊ณผ ํ๋ จ ์ธํ๋ผ์ ๊ฐ์ ์ด ์ค์ ๋ก๋ด ์ฑ๋ฅ๊น์ง ํฅ์์ํจ ๊ฒ์ ์ ์ฆํ ์ ์ ๋๋ค.
์๋ํฌ์๋ RL vs ๋จ๊ณ๋ณ/๋ชจ๋ฐฉ ํ์ต: ์ฅ๋จ์ ๋ถ์
์์ ์ดํด๋ณธ ๋ด์ฉ๋ค์ ํ ๋๋ก, ์๋ํฌ์๋ ๊ฐํํ์ต ์ ๊ทผ๊ณผ ์ ํต์ ์ธ ๋จ๊ณ๋ณ/๋ชจ๋ฐฉ ํ์ต ์ ๊ทผ์ ์ค๋ฌด ๊ด์ ์์ ๋น๊ตํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ์ฅ๋จ์ ์ ๋์กฐ๊ฐ ๋๋ฌ๋ฉ๋๋ค.
โ ํ์ต ํ์ดํ๋ผ์ธ ๋ฐ ๊ตฌํ ๋ณต์ก๋: ๋จ๊ณ๋ณ ์ ๊ทผ์ ๊ต์ฌ RL๊ณผ ํ์ ๋ชจ๋ฐฉํ์ต์ผ๋ก ๋๋์ด ์์ด ๊ตฌํ ๋ณต์ก๋๊ฐ ๋ค์ ๋์ต๋๋ค. ๋ ๋จ๊ณ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์์ค ํจ์๋ฅผ ์ ์ฉํ๊ณ , ๊ต์ฌ-ํ์ ๊ฐ ๋ฐ์ดํฐ ์์ง/ํ์ต ์ผ์น๋ฅผ ๋ง์ถฐ์ผ ํฉ๋๋ค. ๋ํ ๊ต์ฌ ์ ์ฑ ํ์ต ํ ๋ณ๋์ ๋๋ roll-out์ผ๋ก ๋ฐ์ดํฐ์ ์ ๋ชจ์ ํ์์ ํ๋ จ์ํค๋ ๋ฑ ์ถ๊ฐ ์์ ์ด ํ์ํฉ๋๋ค. ๋ฐ๋ฉด ์๋ํฌ์๋ RL์ ๋จ์ผํ ํ์ต ๋ฃจํ๋ก ์ด๋ฃจ์ด์ ธ ์์ด ๊ตฌ์กฐ๊ฐ ๋จ์ํฉ๋๋ค. ํ ๋ฒ์ PPO (๋๋ ๊ธฐํ RL) ํ์ต์ผ๋ก ๋ฐ๋ก ์ต์ข ์ ์ฑ ์ ์ป์ ์ ์๊ณ , ๋ณ๋์ ๋ชจ๋ฐฉ ๋จ๊ณ๊ฐ ์์ผ๋ฏ๋ก ์ ์ฒด ํ์ดํ๋ผ์ธ๊ฐ ์งง๊ณ ์ง๊ด์ ์ ๋๋ค. ๋ค๋ง ์ด๋ฒ ์ฐ๊ตฌ์ฒ๋ผ ์๋ํฌ์๋ RL ๋ด๋ถ์์ ํจ์จ์ ๋์ด๊ธฐ ์ํ ํธ๋ฆญ(๊น์ด ํ์ฉ, ๋ฉํฐGPU ํ์ฉ)์ด ๋์ ๋๊ธด ํ์ผ๋, ์ด๋ ์ด๋๊น์ง๋ ํ์ต ๊ฐ์/์์ ํ ์๋จ์ด์ง ์๊ณ ๋ฆฌ์ฆ ํ๋ฆ ์์ฒด๋ ์ผ์ํ๋์ด ์์ต๋๋ค.
โ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ํ์ํ ์์: ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ RL๋ก ํ์ตํด์ผ ํ ๋ถ๋ถ์ ์ต์ํํ ์ ์๋ค๋ ์ด์ ์ด ์์ต๋๋ค. ์์ปจ๋ ๊ต์ฌ RL์ ์ํ ๊ณต๊ฐ์์ ์ํํ๋ฏ๋ก ๋น๊ต์ ํจ์จ์ ์ด๊ณ , ํ์ ์ ์ฑ ์ ์ง๋ํ์ต์ผ๋ก ํ์ต๋์ด RL์ ๋์ ์ํ ๋ณต์ก๋ ๋ฌธ์ ๋ฅผ ํผํ ์ ์์ต๋๋ค. ์ด๋ ๊ณง ์ ์ ๊ฒฝํ์ผ๋ก๋ ์ ์ฑ ์ ์ป์ ์ ์๊ณ , ํ์ํ ์๋ฎฌ๋ ์ด์ ์๊ฐ์ด ์ ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ฐ๋ฉด ์๋ํฌ์๋ RL์ ํฝ์ ๋จ์๊น์ง ํฌํจํ ๊ฑฐ๋ํ ์ํ๊ณต๊ฐ์ ์ง์ ํ์ํด์ผ ํ๋ฏ๋ก ํจ์ฌ ๋ง์ ๋ฐ์ดํฐ์ ์๊ฐ์ด ์๊ตฌ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ์๋ 4๊ฐ์ ์ต์ GPU๋ฅผ ์์ผ๊ฐ ํ์ฉํ๋ฉฐ ์์ฒ๋ง ๋จ๊ณ ์ด์์ ์๋ฎฌ๋ ์ด์ ์ ๋๋ฆฐ ๊ฒ์ผ๋ก ์ถ์ ๋๋ฉฐ, ํน๋ณํ ์ ์ํ ๋ถ์ฐ ๊ธฐ๋ฒ ์์ด๋ ํ์ต ์์ฒด๊ฐ ์ด๋ ค์ ์ต๋๋ค. ๋ฐ๋ผ์ ์์ ์ ์ฝ์ด ํฐ ํ์ ํ๊ฒฝ์์๋ ๊ณง๋ฐ๋ก ์๋ํฌ์๋ RL์ ์ ์ฉํ๊ธฐ ์ด๋ ค์ธ ์ ์๊ณ , ์ฌ์ ํ ๊ต์ฌ-ํ์ ๋ฐฉ๋ฒ์ด ์ค์ฉ์ ์ธ ๋์์ด ๋ ์ ์์ต๋๋ค.
โ ํ๋ ์ต์ ํ ๋ฐ ์ฑ๋ฅ ์ํ: ์๋ํฌ์๋ RL์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์ ์ฑ ์ด ์ ์ด์ ์์ ์ ์ผ์ ์ ๋ ฅ์ ๋ง์ถฐ ์ต์ ํ๋๋ค๋ ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ ๊ฒฐ๊ณผ์์ ๋ณด์๋ฏ, ์๊ฐ ์ ๋ณด๋ฅผ ์ง์ ํ์ฉํ์ฌ ํ์ตํ ์ ์ฑ ์ ์์ผ ํ๋ณด ๋ฑ์ ํ๋์ ์ค์ค๋ก ๋ฐ๊ฒฌํ๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์ผ ์กฐ๊ฑด์์ ๋ ๋์ ๊ทธ๋ฆฌํ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ๋จ๊ณ๋ณ ์ ๊ทผ์ ๊ตฌ์กฐ์ ํ๊ณโ์ฆ ํ์์ด ์๋ฒฝํ ๋ฐ๋ผ๊ฐ ์ ์๋ ๊ต์ฌ์ ํ๋โ๋ฅผ ๋ฐ์ด๋์ด ์ ์ฑ ์ฑ๋ฅ์ ์ํ์ ์ ๋์ธ ๊ฒ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค. ํนํ ๋ค์ด๋ด๋ฏนํ๊ณ ๋ถํ์ค์ฑ์ด ํฐ ์ค์ ํ๊ฒฝ์์๋ ์ด๋ฐ ์ผ์-๋ชจํฐ ์ผ์น(sensorimotor alignment)๊ฐ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋ฐ๋ฉด ๋จ๊ณ๋ณ ์ ๊ทผ์ ๊ต์ฌ๊ฐ ๋์ ์ฑ๋ฅ์ ๋ด๋๋ผ๋ ํ์์ด ์ด๋ฅผ ๋ชป ๋ฐ๋ผ๊ฐ๋ฉด ๊ฒฐ๊ตญ ์ ์ฒด ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค. ๋ํ ์ฌ๋์ด ์ค๊ณํ ๊ต์ฌ ๋ณด์์ด๋ ์ ๋ต์ ํ๊ณ๊ฐ ์๋ค๋ฉด ๊ทธ ์ญ์ ํ์ต ๊ฒฐ๊ณผ์ ์ ์ฝ์ ์ค ์ ์์ต๋๋ค. ์์ฝํ๋ฉด, ์๋ํฌ์๋ RL์ ๋ ๋์ ์ต์ข ์ฑ๋ฅ ์ ์ฌ๋ ฅ์ ๊ฐ์ง์ง๋ง, ๋จ๊ณ๋ณ ์ ๊ทผ์ ์ค์ ๋ก ๊ทธ ์ ์ฌ๋ ฅ์ ๋ฐํํ๊ธฐ๊น์ง ์ ํ์ด ์์ ์ ์๋ค๋ ์ ์ ๋๋ค.
โ ์์ ์ฑ๊ณผ ๋๋ฒ๊น ์ฉ์ด์ฑ: ํํธ, ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ค๊ฐ์ ๋ช ์์ ์ธ ๊ต์ฌ ์ ์ฑ ์ด ์กด์ฌํ๋ฏ๋ก, ์ ์ฑ ์ ์๋๋ ๋์์ ํด์ํ๊ฑฐ๋ ์ ์ดํ๊ธฐ ์ฝ๊ฐ ์์ํ ๋ฉด์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ต์ฌ ๋จ๊ณ์์ ์คํจํ๋ฉด ๊ฑฐ๊ธฐ์ ์์ธ์ ์ฐพ๊ณ ๊ฐ์ ํ ์ ์๊ณ , ํ์ ๋จ๊ณ์์ ์คํจํ๋ฉด ๋ฐ์ดํฐ ์ฆ๊ฐ์ด๋ ๋คํธ์ํฌ ๊ตฌ์กฐ ์กฐ์ ์ ํตํด ์์ ํ ์ ์์ต๋๋ค. ๋ํ ๊ต์ฌ ์ ์ฑ ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์ๆผํ๊ฑฐ๋ ์์ ํ๊ฒ ์ค๊ณํจ์ผ๋ก์จ, ์ ์ฑ ์ด ์ํํ ๋์์ ํ์ง ์๋๋ก ์์ ์ฅ์น๋ฅผ ๋ฃ๋ ๊ฒ๋ ๋น๊ต์ ์ฉ์ดํฉ๋๋ค. ๋ฐ๋ฉด ์๋ํฌ์๋ RL์ ํ์ต ๊ณผ์ ์ด ๋ธ๋๋ฐ์ค์ ๊ฐ๊น์, ์ ์ฑ ์ด ํ์ต ๋์ค ๋ณ๋์ค๋ฝ๊ฑฐ๋ ์ํํ ์๋๋ฅผ ํ ๊ฒฝ์ฐ ์ด๋ฅผ ์ ์ดํ๊ธฐ ์ด๋ ต์ต๋๋ค. ํนํ ํ์ค ๋ก๋ด์ ๋ฐ๋ก RL์ ์ ์ฉํ๋ฉด ์ถฉ๋ ๋ฑ ์ํ์ด ์์ผ๋ฏ๋ก, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ ํ์ฉํด์ผ ํฉ๋๋ค. (๋ณธ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ดํฐ์์ ์ถฉ๋ถํ ํ์ต ํ ๋๋ฉ์ธ ๋๋คํ๋ฅผ ๊ฑฐ์ณ ํ์ค๋ก ๊ฐ์ ธ์จ ๊ฒ์ด๋ฏ๋ก ์์ ๋ฌธ์ ๋ ํฌ์ง ์์์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ์๋ํฌ์๋ RL์ ์๋ฎฌ๋ ์ดํฐ์ ํฌ๊ฒ ์์กดํ๋ค๋ ์ ๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.)
โ ๊ธฐํ ์ธก๋ฉด: ๋ชจ๋ฐฉ ํ์ต์ด๋ ๋จ๊ณ๋ณ RL์ ์ด๊ธฐ ์๋ฒ ๋ฐ์ดํฐ๋ ์ ๋ฌธ๊ฐ ์ง์์ ์ฃผ์ ํ๊ธฐ ์ฉ์ดํ ๋ฐ๋ฉด, ์๋ํฌ์๋ RL์ ์์ ํ ์์จ ํ์ต์ ์์กดํฉ๋๋ค. ๋ฐ๋ผ์ ์ ์๋ ์ธ๊ฐ์ด ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ์ฑ ์ ์ ๋ํ๊ธฐ ์ฝ์ง๋ง, ์์จ์ฑ์ด ๋ถ์กฑํ์ฌ ์ธ๊ฐ ์์ฐ์ ํธํฅ๋ ์ ์์ต๋๋ค. ํ์๋ ๋ฐ์ดํฐ ํธํฅ ์์ด ์ต์ ํด๋ฅผ ์ฐพ์ ๊ฐ๋ฅ์ฑ์ด ์์ง๋ง, ๋ณด์ ์ค๊ณ๋ ํ์ ๋ฌธ์ ๊ฐ ๊น๋ค๋กญ์ต๋๋ค. ๊ฒฐ๊ตญ ๊ณผ์ ์ ํ๊ฒฝ์ ๋ฐ๋ผ ๋ ์ ๊ทผ์ ํธ๋ ์ด๋์คํ๊ฐ ์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ๋ ๋ณต์กํ ๋ค์ง ๊ทธ๋ฆฌํ ๋ถ์ผ์์ ์๋ํฌ์๋ RL์ ๊ฐ๋ฅ์ฑ์ ์ฆ๋ช ํจ์ผ๋ก์จ, ํฅํ์๋ ์ด๋ฌํ ์ ๊ทผ์ด ์ถฉ๋ถํ ์์ ํ์์ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค๊ณ ํ๊ฒ ์ต๋๋ค.
๊ฒฐ๋ก ๋ฐ ์์ฌ์
โEnd-to-end RL Improves Dexterous Grasping Policiesโ ๋ ผ๋ฌธ์ ํตํด, ์ฐ๋ฆฌ๋ ์๋ํฌ์๋ ๊ฐํํ์ต์ด ๋ค์ง ๋ก๋ด ์์ ๋ณต์กํ ์กฐ์์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ ์คํ๋ ค ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ํ์ธํ์ต๋๋ค. ์ ์๋ค์ ๊น์ด ์นด๋ฉ๋ผ ๊ธฐ๋ฐ์ ํฝ์ -ํฌ-์ก์ ์ ์ฑ ์ ๋๊ท๋ชจ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ต์ํค๊ณ , ์ด๋ฅผ ์คํ ๋ ์ค RGB ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํ์ฌ ์ค์ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ์ด์ ํจ์ผ๋ก์จ, ๋น์ ๊ธฐ๋ฐ ๋ก๋ด ๊ทธ๋ฆฌํ์ ์๋ก์ด ๊ฒฝ์ง๋ฅผ ๊ฐ์ฒํ์ต๋๋ค. ํนํ ์๋ฎฌ๋ ์ดํฐ-ํ์ต๊ธฐ ๋ถ๋ฆฌ๋ผ๋ ํ์ ์ ์ธ ์ธํ๋ผ ์ต์ ํ๋ฅผ ๋์ ํ์ฌ ์ ํ๋ GPU ์์์ผ๋ก๋ ์์ฒ ๊ฐ ํ๊ฒฝ์ ๋๋ฆด ์ ์์๊ณ , ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ์คํจํ๋ ๊ณ ํด์๋ ํ์ต๋ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์ด ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ค ์ฑ๋ฅ๊น์ง ํฅ์์ํค๋ ์ ์ํ์ ์ด๋ฃจ์ด๋์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ์ค๋ฌด ์์ง๋์ด๋ค์๊ฒ ๋ช ๊ฐ์ง ์ค์ํ ์์ฌ์ ์ ์ค๋๋ค. ์ฒซ์งธ, ์๋ํฌ์๋ ์ ๊ทผ์ด ๋ฐ๋์ ๋นํจ์จ์ ์ด์ง๋ง์ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ ์ ํ ์์คํ ์ต์ ํ์ ์ค๊ฐ ํํ(์: ๊น์ด)์ ํ์ฉ์ผ๋ก, ๋ณต์กํ ๋ก๋ด ๊ณผ์ ๋ ์๋ํฌ์๋๋ก ํ์ต ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ํฅํ ๋ก๋ด ํ์ต ์์คํ ์ ์ค๊ณํ ๋, ๊ตณ์ด ๋ชจ๋ ๊ฒ์ ๋จ๊ณ๋ณ๋ก ์ชผ๊ฐ๊ธฐ๋ณด๋ค ์ต์ํ์ ์ธ๊ฐ ๊ฐ์ ์ผ๋ก ํตํฉ ํ์ตํ๋ ๋ฐฉํฅ๋ ๊ณ ๋ คํด๋ณผ ๋งํจ์ ์์ฌํฉ๋๋ค. ๋์งธ, ์๋ฎฌ๋ ์ด์ ์ธํ๋ผ์ ์ค์์ฑ์ ๋๋ค. ๋ก๋ด ํ์ต ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ์๊ณ ๋ฆฌ์ฆ ์์ฒด๋ ์ค์ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์ฒ๋ผ ๋ณ๋ ฌ ํ๊ฒฝ ์๋ฅผ ๊ทน๋ํํ๊ฑฐ๋ ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ๋์ด๋ ์์ง๋์ด๋ง์ด ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ ์ ์์ต๋๋ค. ์ค๋ฌด์์๋ ์ข ์ข ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ด์ ์ ์ด๋ฌํ ์์คํ ์ต์ ํ๋ฅผ ํตํด ํฐ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์ผ๋ฏ๋ก, ํ์ต ์ฒด๊ณ ์ ์ฒด๋ฅผ ๋ณด๋ ์๊ฐ์ด ํ์ํฉ๋๋ค. ์ ์งธ, ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๋ ๊ฒ์ ์ค์์ฑ์ ๋๋ค. ๋ง์ฝ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๊ฐ, ํน์ ๊ต์ฌ์ ํ์ ๊ฐ์ ํ์ฉํ๋ ์ผ์ ์ ๋ณด ์์ค์ด ์ฐจ์ด๋๋ค๋ฉด, ๊ทธ ๊ฒฉ์ฐจ๋ก ์ธํด ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ ์ ์์์ ๋ณธ ์ฐ๊ตฌ๋ ์ ๋ณด์ฌ์ค๋๋ค. ๋ฐ๋ผ์ ํ์ค ์ ์ฉ์ ์ผ๋์ ๋ ๋ก๋ด ํ์ต์์๋ ๊ฐ๋ฅํ ํ ์ค์ ์ผ์์ ๋น์ทํ ์กฐ๊ฑด์ผ๋ก ํ์ต์ํค๊ฑฐ๋, ์๋๋ฉด ์ด ๋ ผ๋ฌธ์ ๊น์ดโRGB ์ฆ๋ฅ์ฒ๋ผ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ํ ์ ์๋ ์ถ๊ฐ ๊ณผ์ ์ ๋ฃ๋ ๊ฒ์ด ๋ฐ๋์งํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ด ์ฐ๊ตฌ๋ ๋ก๋ด ํ์ต์์์ ์๋ํฌ์๋ ๋ ๋ ๋จ๊ณ ์ ๊ทผ์ ๋ ผ์์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ต๋๋ค. ์๋ํฌ์๋ RL์ด ์ด๋ ค์ด ๊ธธ์ด์ง๋ง ์ ๋๋ก ๊ตฌํ๋๋ฉด ์ป์ ์ ์๋ ๋ณด์์ ์ฆ๋ช ํ๊ณ , ํํธ์ผ๋ก ๊ทธ ๊ตฌํ์ ์ํด ๋ฌด์์ด ํ์ํ์ง๋ ์ ์ํ์ต๋๋ค (๋๋์ ๋ณ๋ ฌํ, ์ ์ ํ ์ค๊ฐ ์ผ์ ํํ ๋ฑ). ์ด๋ฅผ ํตํด ์์ผ๋ก ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ค์ ์ธ์ ๊ฐ ์ธ๊ฐ์ฒ๋ผ ์นด๋ฉ๋ผ๋ง ๋ณด๊ณ ๋์์ ์ตํ๋ ๋ก๋ด์ ์คํํ๊ธฐ ์ํด ์ด๋ค ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํ ์ง ํํธ๋ฅผ ์ป์ ์ ์์ ๊ฒ์ ๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, ์๋ํฌ์๋ RL ์ ๊ทผ์ ๋ค์ง ๊ทธ๋ฆฌํ ์ ์ฑ ์ ์ฑ๋ฅ๊ณผ ํ๋ ํ์ง์ ํฅ์์ํค๋ ์ ๋งํ ๋ฐฉ๋ฒ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ํ์ ๋ค์ ์ถํ ๋ค์ํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์์ฉ๋์ด ๋ ์ค๋งํธํ๊ณ ๋ฅ๋์ ์ธ ๋ก๋ด์ ๊ฐ๋ฐํ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.