๐IBRL ๋ฆฌ๋ทฐ
- ๋ชจ๋ฐฉ ํ์ต(IL)๊ณผ ๊ฐํ ํ์ต(RL)์ ์ฅ์ ์ ๊ฒฐํฉํ IBRL(Imitation Bootstrapped Reinforcement Learning)์ ์ํ ํจ์จ์ฑ์ ๋์ด๋ ์๋ก์ด RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ํ๋ จ๋ ๋ณ๋์ IL ์ ์ฑ ์ ํ์ฉํ์ฌ ์จ๋ผ์ธ ์ํธ์์ฉ์์ ๋ ๋์ ์ก์ ์ ์ ์ํ๊ณ , RL ํ๋ จ ์ Q-ํจ์์ ๋ชฉํ ๊ฐ ์ถ์ ์ ๋ถํธ์คํธ๋ฉํ์ฌ ํ์๊ณผ ํ์ต ํจ์จ์ ํฌ๊ฒ ๊ฐ์ํํฉ๋๋ค.
- IBRL์ 6๊ฐ์ง ์๋ฎฌ๋ ์ด์ ๋ฐ 3๊ฐ์ง ์ค์ ๋ก๋ด ์์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ, ํนํ ์ด๋ ค์ด ์์ ์์ ํ์ํ ์ฑ๋ฅ๊ณผ ์ํ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค.
Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ฐฉ ํ์ต(Imitation Learning, IL)๊ณผ ๊ฐํ ํ์ต(Reinforcement Learning, RL)์ ์ฅ์ ์ ๊ฒฐํฉํ์ฌ ์ํ ํจ์จ์ฑ์ ๋์ด๋ ์๋ก์ด ํ๋ ์์ํฌ์ธ IBRL(Imitation Bootstrapped Reinforcement Learning)์ ์ ์ํฉ๋๋ค. ๋ก๋ด ์ ์ด ํ์คํฌ์์ IL์ ์ํ ํจ์จ์ฑ ๋๋ฌธ์ ๋๋ฆฌ ์ฌ์ฉ๋์ง๋ง, ๋ชจ๋ ์๋๋ฆฌ์ค์ ์ผ๋ฐํํ ์ ์๋ ํฌ๊ด์ ์ธ ์ ๋ฌธ๊ฐ ์์ฐ(demonstrations) ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ , ๋ถํฌ ๋ณํ(distribution shift) ๋ฐ์ ์ ๋ฐ์ดํฐ ์ฌ์์ง์ด ํ์ํ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ๋ฐ๋ฉด RL์ ์์จ์ ์ธ ์๊ธฐ ๊ฐ์ ์ ์ฐจ๋ก์ IL์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ ํ ์ ์๋ค๋ฉด ๋งค๋ ฅ์ ์ ๋๋ค.
IBRL์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ฐฉ ์ ์ฑ (\mu_\psi) ํ๋ จ: ์ ๊ณต๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ณ๋์ ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ \mu_\psi๋ฅผ ๋จผ์ ํ๋ จํฉ๋๋ค. ์ด IL ์ ์ฑ ์ ์จ๋ผ์ธ RL์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๊ฒ๋ณด๋ค ๋ ๊น๊ณ ๊ฐ๋ ฅํ ์ ๊ฒฝ๋ง์ ํ์ฉํ ์ ์์ต๋๋ค.
- ๋ ๋จ๊ณ์์์ IL ์ ์ฑ
ํ์ฉ: ํ๋ จ๋ IL ์ ์ฑ
์ RL ํ๋ จ์ ๊ฐ์ํํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ์์ ๋ช
์์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ์จ๋ผ์ธ ์ํธ์์ฉ (Actor Proposal): ์จ๋ผ์ธ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ ๋จ๊ณ์์, IL ์ ์ฑ ๊ณผ ํ์ฌ ํ๋ จ ์ค์ธ RL ์ ์ฑ (\pi_\theta)์ ๊ฐ๊ฐ ํ๋(a^{IL}, a^{RL})์ ์ ์ํฉ๋๋ค. ์์ด์ ํธ๋ ํ์ต ์ค์ธ Q-ํจ์(Q-function)์ ํ๊ฒ Q-ํจ์ Q_{\phi'}์ ๋ฐ๋ผ ๋ ๋์ Q-๊ฐ์ ๊ฐ์ง๋ ํ๋์ ์คํํฉ๋๋ค. ์ฆ, ๋ค์ ํ๋ a^*๋ ๋ค์๊ณผ ๊ฐ์ด ๊ฒฐ์ ๋ฉ๋๋ค. a^* = \underset{a \in \{a^{IL}, a^{RL}\}}{\text{argmax}} Q_{\phi'}(s, a)
- RL ํ๋ จ (Bootstrap Proposal): RL์ Q-๊ฐ ์ ๋ฐ์ดํธ๋ฅผ ์ํ ํ๊ฒ ๊ฐ์ ๊ณ์ฐํ ๋, ๋จ์ํ RL ์ ์ฑ ์ ํ๊ฒ ๋คํธ์ํฌ \pi_{\theta'}์์ ์ํ๋ง๋ ํ๋ a^{RL}_{t+1}๋ง ์ฌ์ฉํ๋ ๋์ , IL ์ ์ฑ ์์ ์ํ๋ง๋ ํ๋ a^{IL}_{t+1}๊ณผ RL ์ ์ฑ ์์ ์ํ๋ง๋ a^{RL}_{t+1} ์ค ๋ ๋์ Q-๊ฐ์ ๊ฐ์ง๋ ํ๋์ ์ฌ์ฉํ์ฌ ๋ถํธ์คํธ๋ฉํฉ๋๋ค. Q_\phi(s_t, a_t) \leftarrow r_t + \gamma \underset{a' \in \{a^{IL}_{t+1}, a^{RL}_{t+1}\}}{\text{max}} Q_{\phi'}(s_{t+1}, a')
- ๋ํ, ๋ค๋ฅธ ์ ํ ์ฐ๊ตฌ์ ์ ์ฌํ๊ฒ, RL ๋ฆฌํ๋ ์ด ๋ฒํผ(replay buffer)๋ฅผ ์์ฐ ๋ฐ์ดํฐ๋ก ๋ฏธ๋ฆฌ ์ฑ์์ ์ ์ฑ ์ด ์ฒซ ๋ฒ์งธ ์จ๋ผ์ธ ์ฑ๊ณต์ ๊ฑฐ๋๊ธฐ ์ ์ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํฉ๋๋ค.
IBRL๋ IL ์ ์ฑ ์ RL ์ ์ฑ ๊ณผ ๋ณ๋๋ก ์ ์งํจ์ผ๋ก์จ, ์น๋ช ์ ์ธ ๋ง๊ฐ(catastrophic forgetting)์ ๋ฐฉ์งํ๊ธฐ ์ํ ๋ช ์์ ์ธ ์ ๊ทํ ์์ค(regularization loss)์ด๋ ๋ณต์กํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด RL๊ณผ IL์ด ๊ฐ์์ ํ์คํฌ์ ๊ฐ์ฅ ์ ํฉํ ๋คํธ์ํฌ ์ํคํ ์ฒ์ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ฅผ ํตํด RL ์ ์ฑ ์ด ์ด๊ธฐ ๋จ๊ณ์์ ๋ฏธํกํ ๋ ํ์(exploration) ํ์ง๊ณผ ๊ฐ์น ์ถ์ (value estimation)์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋ํ IBRL์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํค๊ธฐ ์ํ ์ํคํ ์ฒ์ ๊ฐ์ ์ฌํญ๋ค์ ์ ์ํฉ๋๋ค:
- Actor Dropout: ์ ์ฑ ๋คํธ์ํฌ(actor) \pi_\theta์ Dropout์ ์ ์ฉํ์ฌ ์์ ์ฑ๊ณผ ์ํ ํจ์จ์ฑ์ ๊ฐ์ ํฉ๋๋ค.
- ๊ฐ์ ๋ Vision Encoder ๋ฐ Critic ๋์์ธ: ์ด๋ฏธ์ง ์ ๋ ฅ์ผ๋ก๋ถํฐ ํ์ตํ ๋, ๊ธฐ์กด์ ์์ ConvNet ๋์ ์์ ViT(Vision Transformer) ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๋ณต์กํ ํ์คํฌ์์ ์ฑ๋ฅ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํฉ๋๋ค.
IBRL์ 6๊ฐ์ ์๋ฎฌ๋ ์ด์ ํ์คํฌ(Meta-World ๋ฐ Robomimic)์ 3๊ฐ์ ์ค์ ๋ก๋ด ํ์คํฌ(Lift, Drawer, Hang)์ ๊ฑธ์ณ ๋ค์ํ ๋์ด๋ ์์ค์์ ํ๊ฐ๋์์ต๋๋ค. ๋ชจ๋ ํ์คํฌ๋ ํฌ์ํ 0/1 ๋ณด์(sparse 0/1 reward)์ ์ฌ์ฉํฉ๋๋ค. IBRL์ ๋ชจ๋ ํ์คํฌ์์ ๊ธฐ์กด์ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๊ฑฐ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ์ด๋ ค์ด ํ์คํฌ์์ ๊ทธ ๊ฐ์ ํญ์ด ๋๋๋ฌ์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฅ ์ด๋ ค์ด ์๋ฎฌ๋ ์ด์ ํ์คํฌ์์๋ ๋ ๋ฒ์งธ๋ก ์ข์ ๋ฐฉ๋ฒ๋ณด๋ค ๊ฑฐ์ ๋ ๋ฐฐ์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ๊น๋ค๋ก์ด ์ค์ ์ฒ ๊ฑธ๊ธฐ(deformable cloth hanging) ํ์คํฌ์์๋ ๋ ๋ฒ์งธ๋ก ์ข์ RL ๋ฐฉ๋ฒ๋ณด๋ค 2.4๋ฐฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
Detail Review
Imitation Bootstrapped Reinforcement Learning (IBRL) ๋ ผ๋ฌธ ์ฌ์ธต ๋ฆฌ๋ทฐ
1. ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๊ฐํํ์ต(RL)์ ๋ณต์กํ ์ ์ด ๋ฌธ์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ํ ํจ์จ์ฑ ๋ฐ ํ์ ์ด๋ ค์ ๋๋ฌธ์ ์ค์ ๋ก๋ด ์ ์ด์๋ ๋๋ฆฌ ์ฐ์ด์ง ๋ชปํด ์๋ค. ๋ฐ๋ฉด ๋ชจ๋ฐฉํ์ต(IL, ์: ํ๋ ํด๋ก๋)์ ์ ๋ฌธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ด๊ธฐ ์ ์ฑ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์ง๋ง, ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ปค๋ฒํ๊ธฐ ํ๋ค๊ณ ๋ฐฐํฌ ์ ๋ถํฌ ์ฐจ์ด ๋ฌธ์ ๋ก ์ฌ์์ง์ด ํ์ํ๋ค. ๋ฐ๋ผ์ ์์์ ์์ฐ๋ง์ผ๋ก ์์ํด ์์จ์ ์ผ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ํ์ต ๊ธฐ๋ฒ์ด ์๊ตฌ๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋๊ฐ (1) ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ์ฝ์ ํ์ฌ ํ์ต ์ ๊ณผ๋ ์ํ๋งํ๋ ๋ฐฉ์(RLPD: Reinforcement Learning from Prior Demonstrations), (2) ์์ฐ์ผ๋ก RL ์ ์ฑ ์ ์ฌ์ ํ์ตํ๊ณ ์ดํ ๋ฏธ์ธ์กฐ์ ์ ์ถ๊ฐ ๊ท์ (loss)๋ฅผ ์ ์ฉํ๋ ๋ฐฉ์, ๋๋ (3) ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(MoDem)์ผ๋ก ์์ฐ์ ํตํด ์ ์ฑ ยท๋นํ์ยท๋ชจ๋ธ์ ๋ชจ๋ ์ฌ์ ํ์ตํ ํ, ๋ชจ๋ธ ์์ธก ์ ์ด๋ก ๊ฐํํ์ตํ๋ ๋ฐฉ์ ๋ฑ์ด ์๋ค.
๊ทธ๋ฌ๋ (1)์ ๋ฐฉ์์ IL์ด ์ผ๋ฐํํ ์ ์ตํ ํ๋์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๊ณ , (2)์ ๋ฐฉ์์ RL ๊ณผ์ ์์ ์ด๊ธฐ ์ง์์ ์์ง ์๊ธฐ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด๋ ๋์ผํ ๋คํธ์ํฌ ๊ตฌ์กฐ ์ฌ์ฉ ์ ์ฝ์ด ํ์ํ๋ฉฐ, (3)์ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ (IL ์ ์ฑ )์ ๊ฐํํ์ต์ ์ง์ ํตํฉํ์ฌ ์ํ ํจ์จ์ ๋์ด๋ ์๋ก์ด ํ๋ ์์ํฌ IBRL์ ์ ์ํ๋ค.
2. IBRL ์๊ณ ๋ฆฌ์ฆ ๊ฐ์
IBRL์ ํต์ฌ ์์ด๋์ด๋ (๊ทธ๋ฆผ 1) ์ฐ์ ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ๋ชจ๋ฐฉํ์ต ์ ์ฑ (\mu_\psi)์ ํ์ตํ๊ณ , ์ด ์ ์ฑ ์ RL ํ์ต์ ๋ ๋จ๊ณ์ ํ์ฉํ๋ ๊ฒ์ด๋ค.
์ฒซ์งธ, ์จ๋ผ์ธ ์ํธ์์ฉ ๋จ๊ณ(Actor Proposal)์์๋ ๋งค ์์ ๋ง๋ค IL ์ ์ฑ ๊ณผ ํ์ฌ ํ์ต ์ค์ธ RL ์ ์ฑ (\pi_\theta)์ด ๊ฐ๊ฐ ํ๋ a_{IL} \sim \mu_{\psi}(s), a_{RL} \sim \pi_{\theta}(s)๋ฅผ ์ ์ํ๋ค. ์ด ๋ ํ๋ณด ํ๋์ ํ๊น Q-๋คํธ์ํฌ Q_{\phi'}๋ก ํ๊ฐํ์ฌ ๋ ๋์ Q๊ฐ์ ๊ฐ๋ ํ๋ a^{*} = \arg\max_{a \in \{ a_{IL},a_{RL}\}}Q_{\phi'}(s,a)๋ฅผ ์ค์ ํ๋์ผ๋ก ์ ํํ๋ค(์ (1)). ์ด ๋ฐฉ์์ผ๋ก IL ์ ์ฑ ์ด ์ด๊ธฐ ํ์์์ ์ ๋ขฐํ ์ ์๋ ํ๋์ ์ง์์ ์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ, ํฌ์ ๋ณด์ ํ๊ฒฝ์์ ๋น ๋ฅธ ์ฑ๊ณต ๊ฒฝํ์ ์ป์ ์ ์๋ค.
๋์งธ, RL ํ์ต ๋จ๊ณ(Bootstrap Proposal)์์๋ Q-ํจ์ ์ ๋ฐ์ดํธ ์ ๋ค์ ์ํ์์์ ์ต๋ Q๊ฐ์ ๊ณ์ฐํ ๋ IL ์ ์ฑ ๊ณผ RL ์ ์ฑ ์ด ์ ์ํ๋ ํ๋ ์ค ๋ ๋์ Q๊ฐ์ ๊ฐ๋ ์ชฝ์ ์ฌ์ฉํ๋ค. ์ฆ, ์ผ๋ฐ์ ์ธ TD ํ๊น r + \gamma Q'\left( s',\pi'(s') \right) ๋์ ์ r + \gamma\max\{ Q'\left( s',a_{IL} \right),Q'\left( s',a_{RL} \right)\} ํํ๋ก ๊ฐ ํจ์๋ฅผ ๋ถํธ์คํธ๋ํํ๋ค.
์ด๋ฅผ ํตํด IL ์ ์ฑ ์ด ์ ์ํ๋ ๊ณ ํ์ง ํ๋์ด Q-๊ฐ ํ์ต์ ์ง์ ๋ฐ์๋์ด ํ์ต ์๋๊ฐ ๊ฐ์ ๋๋ค. ๋ชจ๋ํ๋ ๊ตฌ์กฐ ๋๋ถ์ IL ์ ์ฑ ๊ณผ RL ์ ์ฑ ์ ๊ฐ์ ์ต์ ํ๋ ๋คํธ์ํฌ(์: ResNet-18 vs. ViT)๋ก ๋ ๋ฆฝ์ ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ, RL์ ์ํ ์ด๊ธฐ IL ์ง์ ์์ค(catastrophic forgetting)์ ์ฐ๋ คํ์ง ์์๋ ๋๋ค. ๋ํ ์ด๊ธฐ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ๋ฆฌํ๋ ์ด ๋ฒํผ๋ฅผ ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ๋ฏธ๋ฆฌ ์ฑ์ฐ๋ ๊ฒ์ ์ข ์ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ๊ฒ ์ ์ฉ๋๋ค.
3. ์ด๋ก ์ ๊ธฐ์ด
IBRL์ ํ์ค MDP \left( \mathcal{S},\mathcal{A},T,R,\gamma \right)๋ฅผ ๊ฐ์ ํ๋ฉฐ, ์คํ-ํด๋ฆฌ์ RL(TD3/SAC)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. ๋นํ์(Q_\varphi) ๋คํธ์ํฌ๋ ๊ฐํํ์ต ์์ค L(\varphi) = \left( r_{t} + \gamma Q_{\phi'}\left( s_{t + 1},\pi_{\theta'}\left( s_{t + 1} \right) \right) - Q_{\varphi}\left( s_{t},a_{t} \right) \right)^{2}๋ฅผ ์ต์ํํ๋ฉฐ, ์ ์ฑ (Actor) \pi_\theta๋ L(\theta) = - Q_{\varphi}\left( s,\pi_{\theta}(s) \right) ์์ค๋ก ํ์ต๋๋ค.
๋ชจ๋ฐฉํ์ต(IL) ์ ์ฑ
\mu_\psi๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ \mathcal{D}์์ ์ต๋์ฐ๋ ๋๋ ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ก ํ๋์ ๋ณต์ ํ์ฌ ํ์ต๋๋ค. IBRL์ ๋จผ์ ์ด ๋ฐ์ดํฐ์
์ผ๋ก \mu_\psi๋ฅผ ํ์ตํ๊ณ , ๊ทธ ํ ๊ฐํํ์ต ๊ณผ์ ์ \mu_\psi๋ฅผ ์ฐธ์กฐ ์ ์ฑ
(reference policy)์ผ๋ก ํ์ฉํ๋ค.
๊ธฐ์กด ์ฐ๊ตฌ ์ค ๋น์ทํ ์์ด๋์ด๋ก๋, ์ฌ๋์ด ๋ง๋ ์ฐธ์กฐ ์ ์ฑ ์ ์จ/์คํ-๋ผ์ธ์์ ์ฌ์ฉํ๋ PEX, EfficientImitate ๋ฑ์ด ์์ผ๋, ์ด๋ค์ ์ฃผ๋ก ํ์ ๋ณด์กฐ์๋ง IL ์ ์ฑ ์ ์ฌ์ฉํ๊ฑฐ๋ ์ ์ฐจ์ ๊ด์ธก์ ์ ํ๋๋ฉฐ ์คํ๋ ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋์๋ค. IBRL์ IL ์ ์ฑ ์ ํ์๊ณผ ํ์ต ๋ ๋จ๊ณ์ ๋ชจ๋ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ฉฐ ์ค์ ๋ก๋ด ํ์คํฌ๊น์ง ํ๊ฐํ ์ ์์ ์ฐจ๋ณํ๋๋ค.
4. ์คํ ์ค์
์ ์๋ค์ 6๊ฐ์ง ์๋ฎฌ๋ ์ด์ ํ์คํฌ์ 3๊ฐ์ง ์ค์ ๋ก๋ด ํ์คํฌ์์ IBRL์ ํ๊ฐํ๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ํฌ์ ๋ณด์์ ์ฐ์์ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ฃผ๋ก ํฝ&ํ๋ ์ด์ค ๊ณ์ด ๊ณผ์ ๋ฅผ ์ฌ์ฉํ๋ Robomimic ๋ฒค์น๋งํฌ(Stanford)์ Meta-World ๋ฒค์น๋งํฌ ํ๊ฒฝ์ ์ ํํ๋ค.
Robomimic ํ์คํฌ (Lift, PickPlaceCan, NutAssemblySquare): ๋ธ๋ก์ ๋ค์ด์ฌ๋ฆฌ๊ธฐ, ์บ์ ํฝ&ํ๋ ์ด์ค, ๋ํธ ์กฐ๋ฆฝ์ด๋ผ๋ 3๋จ๊ณ๋ก ๋์ด๋๊ฐ ์ฆ๊ฐํ๋ค. Lift๋ ๊ฐ๋จํ์ฌ 1๊ฐ, Can์ ๋ณดํตํ์ฌ 10๊ฐ, Square๋ ์ด๋ ค์ 50๊ฐ์ ์ ๋ฌธ๊ฐ ์์ฐ์ ์ฌ์ฉํ๋ค. ๊ด์ธก์ ์ด๋ฏธ์ง(ํฝ์ ) ๋ฐ ๋ก์ฐ-์คํ ์ดํธ(๋ก๋ด ๊ด์ ์ํ)๋ฅผ ๋ณํํ์ฌ ์คํํ๋ค.
Meta-World ํ์คํฌ (Assembly, BoxClose, CoffeePush, StickPull): ์ฃผ์ด์ง ์คํ๊ตฐ์์ ๋ฌด์์๋ก 4๊ฐ๋ฅผ ์ ์ ํ๋ค. ๊ฐ๊ฐ ์ด์ ๋ธ๋ฆฌ, ๋ฐ์ค ๋ซ๊ธฐ, ์ปคํผ ํธ์, ๋ง๋ ์ก์๋น๊ธฐ๊ธฐ๋ก, ํ์คํฌ๋น 3๊ฐ์ ์คํฌ๋ฆฝํธ ๊ธฐ๋ฐ ์ ๋ฌธ๊ฐ ์์ฐ์ ์ฌ์ฉํ๋ค. ์ํ๊ณต๊ฐ์ ์ด๋ฏธ์ง(ํฝ์ )์ด๋ค.
๋น๊ต ๋์์ ์๋์ ๊ฐ๋ค. Robomimic์์๋ RLPD+(TD3 ๊ธฐ๋ฐ ๊ตฌํ, ๋ฐ๋ชจ ๊ณผ๋์ํ๋ง)์, BC ์ฌ์ ํ์ต ํ ๊ท์ ๊ฐํํ์ต(BC+RLreg), SQIL(Synthetic Q-infilling) ๋ฑ์ ์ฌ์ฉํ๋ค. Meta-World์์๋ MoDem(๋ชจ๋ธ ๊ธฐ๋ฐ RL with demonstrations) ๋ฐ RLPD+๋ฅผ ํจ๊ป ๋น๊ตํ๋ค. ๋ชจ๋ ๋ฐฉ๋ฒ์ ๋์ผํ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ์ฌ ๊ณต์ ๋น๊ตํ์๋ค.
์ค์ ๋ก๋ด ์คํ์์๋ Franka ๋ก๋ดํ์ ์ฌ์ฉํ์ฌ Lift, Drawer, Hang ๊ณผ์ ๋ฅผ ์ํํ๋ค. ๊ฐ ๊ณผ์ ๋ณ๋ก 10~30ํ์ ์์ฐ์ ์์งํ์๊ณ , ๋งค ๋ฐฉ๋ฒ์ ๋์ผํ ์ํธ์์ฉ ์์ฐ(์คํ ์)๊ณผ ์ ์ฑ ์ ๋ฐ์ดํธ ํ์๋ฅผ ๋ถ์ฌํ๋ค. ์ฑ๊ณต ์ฌ๋ถ๋ ๋ฃฐ ๊ธฐ๋ฐ์ sparse ๋ณด์(์ฑ๊ณต ์ 1, ์๋๋ฉด 0)์ผ๋ก ์ธก์ ํ์๋ค.
5. ์๋ฎฌ๋ ์ด์ ์คํ ๊ฒฐ๊ณผ
5.1 Robomimic ํ์คํฌ
๊ทธ๋ฆผ 1์ Robomimic์ Lift, PickPlaceCan(Can), NutAssemblySquare(Square) ๊ณผ์ ์์ ํฝ์ /์คํ ์ดํธ ๊ด์ธก์ผ๋ก IBRL๊ณผ RLPD+(๊ธฐ์ค์ )๋ฅผ ๋น๊ตํ ํ์ต ๊ณก์ ์ด๋ค. ๊ทธ๋ํ์์ ๋นจ๊ฐ์ ์ ์ด IBRL, ํ๋์ ์ ์ด RLPD+๋ฅผ ๋ํ๋ด๋ฉฐ, ์ ์ ์ IBRL ๊ธฐ๋ณธ ๋ณํ(์ํฐ-์ฌ์)์ ์๋ฏธํ๋ค. Lift์ Can ํ๊ฒฝ์์๋ IBRL์ด ํจ์ฌ ๋น ๋ฅด๊ฒ ์ฑ๊ณต๋ฅ ์ ๋์ด์ฌ๋ฆผ์ ๋ณผ ์ ์๋ค. ํนํ ๋จ์ํ Lift์์๋ 10K ๋จ๊ณ ๋ฏธ๋ง์์ 100% ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ๋ฉฐ, RLPD+๋ณด๋ค ์ฝ 3๋ฐฐ ๋น ๋ฅธ ์๋ ด์ ๋ณด์ธ๋ค.
๊ทธ๋ฆผ 1์ ์ค๋ฅธ์ชฝ ์๋จ ๊ทธ๋ํ(Can)๋ IBRL์ด 20K ๋จ๊ณ ๋ด์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ ๋ฐ๋ฉด, RLPD+๋ ๋ ๋ง์ ๋จ๊ณ๊ฐ ํ์ํจ์ ๋ณด์ฌ์ค๋ค. Square๋ ๊ฐ์ฅ ์ด๋ ค์ด ํ๊ฒฝ์ผ๋ก, ์ด๊ธฐ ํ์ต์ด ๋งค์ฐ ๋๋ฆฌ์ง๋ง IBRL์ด ๊ณ์ ์ฐ์ธํ๋ค. ์ ๋ฐ์ ์ผ๋ก IBRL์ ๋ชจ๋ Robomimic ๊ณผ์ ์์ RLPD+๋ฅผ ํฌ๊ฒ ์์๋ฉฐ, ๊ฐ์ ์์ฐ ์๋ก๋ RLPD+๋ณด๋ค ์๋ฑํ ์ํ ํจ์จ์ ๋ณด์ธ๋ค.
๊ทธ๋ฆผ 1: Robomimic Lift, PickPlaceCan, NutAssemblySquare ๊ณผ์ ์์ IBRL(๋นจ๊ฐ)๊ณผ RLPD+(ํ๋)์ ํ์ต ์ฑ๋ฅ ๋น๊ต. ๊ฐ ๊ทธ๋ํ๋ ์ฑ๋ฅ(์ฑ๊ณต๋ฅ )์ ์ํธ์์ฉ ์คํ ์์ ๋ํด ๋ณด์ฌ์ค๋ค. ๋ชจ๋ ํ๊ฒฝ์์ IBRL์ด ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๋ฉฐ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํจ์ ํ์ธํ ์ ์๋ค.
๋ํ ํ 1์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, IBRL๋ก ํ์ต๋ ์ ์ฑ ์ ์ธ๊ฐ ์์ฐ๋ณด๋ค๋ ํ๊ท ์ํผ์๋ ๊ธธ์ด๊ฐ ์งง์์ง๋ ๊ฒฝํฅ์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด IBRL์ Lift, Can, Square์์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ(48.3, 116.0, 150.8 ์คํ )๋ณด๋ค ๊ฐ๊ฐ 3~2.2๋ฐฐ ๋น ๋ฅด๊ฒ ๊ณผ์ ๋ฅผ ์๋ฃํ์ผ๋ฉฐ, ํ๊ท ์ ์ผ๋ก๋ ์ฝ 2.3 ์คํ ์ ๋จ์ถํ๋ค. ์ด๋ IBRL์ด RL์ ํตํด ์์ฐ์์ ๋ณธ ๋์์ ๋์ด ํจ์จ์ ์ธ ํ๋์ ํ์ตํ์์ ์์ฌํ๋ค.
ํํธ, ํฝ์ ๊ธฐ๋ฐ ํ์ต์์๋ ๋๋ค ์ฌํํธ ๋ฐ์ดํฐ ์ฆ๊ฐ๊ณผ ์๋ชฉ ์นด๋ฉ๋ผ ํ์ฉ ๋๋ถ์ Lift์ Can์์ ์คํ๋ ค ์คํ ์ดํธ ๊ธฐ๋ฐ๋ณด๋ค ๋น ๋ฅธ ์๋ ด์ด ๊ด์ฐฐ๋์๋ค. Square๋ ์์ผ๊ฐ ์ ํ๋๋ ๋ณต์ก๋๋ก ์ธํด ํฝ์ ํ์ต์ด ์ด๋ ค์ ์ง๋ง, ๊ทธ๋๋ง IBRL์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ์ ์ฑ ์ ๊ฐ์ ํ๋ค.
์๋ฅผ ๋ค์ด Robomimic์ PickPlaceCan์์๋ ๋จ 10ํ์ ์์ฐ๊ณผ 10๋ง ๋จ๊ณ์ ์ํธ์์ฉ๋ง์ผ๋ก๋, IBRL์ RLPD ๋๋น ์ฑ๊ณต๋ฅ ์ด ์ฝ 6.4๋ฐฐ ๋๊ฒ ๋ํ๋ฌ๋ค. ์ด์ฒ๋ผ IBRL์ ์ ์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ ๊ฐํํ์ต์ ํจ๊ณผ์ ์ผ๋ก ์งํํ์ฌ, ํนํ ๋์ด๋๊ฐ ๋์ ๊ณผ์ ์์ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ๋ค.
5.2 Meta-World ํ์คํฌ
๊ทธ๋ฆผ 2๋ Meta-World์ 4๊ฐ ๊ณผ์ (Assembly, Box Close, Coffee Push, Stick Pull)์์ IBRL(๋นจ๊ฐ), IBRL Basic(๋นจ๊ฐ ์ ์ ), MoDem(์ด๋ก), RLPD+(ํ๋)์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒ์ด๋ค. ๋ชจ๋ ๊ทธ๋ํ์์ ๊ฐ๋ก์ถ์ ์ํธ์์ฉ ์คํ , ์ธ๋ก์ถ์ ์ฑ๊ณต๋ฅ ์ ๋ํ๋ธ๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด IBRL(๋นจ๊ฐ ์ค์ )์ด ๋ค ๊ฐ์ง ๊ณผ์ ๋ชจ๋์์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ์์ ๋ค. ํนํ ์ด๋ ค์ด ๊ณผ์ ์ธ Assembly๋ Stick Pull์์๋ IBRL์ด ๊ฑฐ์ 100% ์ฑ๊ณต๋ฅ ์ ๊ทผ์ ํ๋ ๋ฐ๋ฉด, MoDem๊ณผ RLPD+๋ ์๋นํ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋จธ๋ฌผ๋ ๋ค.
IBRL Basic(์ ์ )์ ์ธ์ฝ๋๋ฅผ ๊ฐ๋จํํ ๋ณํ์ผ๋ก, ๋จ์ ํ๊ฒฝ์์๋ ์คํ๋ ค IBRL๋ณด๋ค ์ฐ์ํ๋, ๋ณต์กํ ์์ ์์๋ ๊น์ ๊ตฌ์กฐ์ IBRL์ด ๋ ์์ ์ ์์ ๋ณด์ฌ์ค๋ค. ์ ๋ฐ์ ์ผ๋ก IBRL๊ณผ ๊ทธ ๋ณํ์ ๋ชจ๋ Meta-World ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ์ผ๋, MoDem์ 4๊ฐ ์ค 3๊ฐ ํ๊ฒฝ์์ ์ ๋ขฐํ ์ ์๋ ํด๊ฒฐ๋ฅ ์ ๋ฌ์ฑํ์ง ๋ชปํ๋ค. ์์ธ๋ฌ MoDem์ ๋ชจ๋ธ ํ์ต ๋ฐ ๊ณํ ๋จ๊ณ ๋๋ฌธ์ ์๊ฐ ๋น์ฉ์ด 150์๊ฐ ์ด์ ์์๋์ง๋ง, IBRL์ ๋จ์ํ ์ ์ฑ ํ์ต๋ง์ผ๋ก ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ์๋ค.
๊ทธ๋ฆผ 2: Meta-World ๊ณผ์ (Assembly, Box Close, Coffee Push, Stick Pull)์์์ IBRL, MoDem, RLPD+ ์ฑ๋ฅ ๋น๊ต. ๋นจ๊ฐ์ ์ค์ ์ด IBRL, ์ ์ ์ด IBRL Basic, ์ด๋ก์ด MoDem, ํ๋์ด RLPD+์ด๋ค. ๋ชจ๋ ๊ณผ์ ์์ IBRL(๋นจ๊ฐ)์ด ๋น ๋ฅด๊ณ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ๋์ด๋ ๋์ ํ๊ฒฝ์์ ๊ฒฉ์ฐจ๊ฐ ๋๋๋ฌ์ง๋ค.
5.3 ์ฃผ์ ๊ฒฐ๊ณผ ์์ฝ
์์ฝํ๋ฉด, IBRL์ 6๊ฐ ์๋ฎฌ๋ ์ด์ ๊ณผ์ ์์ ๋๋๋ฌ์ง ์ํ ํจ์จ ๊ฐ์ ์ ๋ณด์ฌ์ค๋ค. RLPD+์ ๊ฐ์ ๋จ์ํ ๋ฐ๋ชจ ๊ณผ๋์ํ๋ง ๊ธฐ๋ฒ์ ๋นํด, IL ์ ์ฑ ์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํจ์ผ๋ก์จ ์ด๊ธฐ ๋จ๊ณ๋ถํฐ ๊ณ ํ์ง์ ํ๋ ํ๋ณด๋ฅผ ์ป๊ณ ๋ ๋น ๋ฅธ ํ์์ ๊ฐ๋ฅ์ผ ํ๋ค. ๋ํ IBRL Basic์ ํฌํจํ์ฌ ๋ค์ํ ๊ตฌ์กฐ์์๋ ์์ ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ด๋ฉฐ, ๋ชจ๋ธ ๊ธฐ๋ฐ MoDem๋ณด๋ค ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์๋ ์ ๋ฆฌํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ IBRL์ด ๊ธฐ์กด ๊ธฐ๋ฒ ๋๋น ๋ ๋์ ์ํ ํจ์จ์ฑ๊ณผ ์ต์ข ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ ๋ท๋ฐ์นจํ๋ค.
6. ์ค์ ๋ก๋ด ์คํ ๋ฐ ์ ์ฉ์ฑ
IBRL์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ ์๋ค์ 3๊ฐ์ง ์ค์ ๋ก๋ด ์กฐ์ ๊ณผ์ ๋ฅผ ์ค์ ํ๋ค. ๊ณผ์ ๋ Franka Panda ๋ก๋ดํ๋ก ์ํ๋๋ฉฐ, Lift(๋ธ๋ก ๋ค์ด์ฌ๋ฆฌ๊ธฐ), Drawer(์๋ ์ด๊ธฐ), Hang(์ฒ ๊ฑธ๊ธฐ)์ผ๋ก ๋์ด๋๊ฐ ์ฆ๊ฐํ๋ค. ์ด๊ธฐ ์กฐ๊ฑด์ด๋ ๋ก๋ด ์์ ์์น์ ๋ณ์ด๊ฐ ์์ผ๋ฉฐ, ๊ฐ ๊ณผ์ ๋ณ๋ก 10~30ํ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. Lift์์๋ ์๋ชฉ ์นด๋ฉ๋ผ ์์ ์, Hang์์๋ 3์ธ์นญ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ๋ค. ๋ชจ๋ ๋ฐฉ๋ฒ์ ๋์ผํ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๊ณ , ์ํธ์์ฉ ์์ฐ๋ ๊ณผ์ ๋์ด๋์ ๋ง์ถ์ด ๋ถ์ฌํ๋ค.

๊ทธ๋ฆผ 8 ๋ฐ ํ I์ ๋ฐ๋ฅด๋ฉด, IBRL์ ์ธ ๊ณผ์ ๋ชจ๋์์ RLPD(RFT) ๋ฐ ํ๋ ๋ณต์ (BC) ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. Lift ๊ณผ์ ์์๋ 8K ์ํธ์์ฉ ๋จ๊ณ ๋ง์ IBRL์ด 100% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ , RLPD์ RFT๋ ๊ฐ๊ฐ 95%, 90%๋ก ๋ค๋ฅผ ์ด์๋ค. ๋ ์ด๋ ค์ด Lift Hard Eval ์ํฉ(๋ธ๋ก์ด ์๋ชฉ ์นด๋ฉ๋ผ ์์ผ ๊ฐ์ฅ์๋ฆฌ์ ๋์)์์๋ IBRL์ 95%์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ ๋ฐ๋ฉด, BC๋ 0%๋ก ์ฑ๋ฅ์ด ๊ธ๋ฝํ๋ค. ์ด๋ IBRL์ด ํ์ต ์ค ๋ค์ํ ์ด๊ธฐ ์ํ๋ฅผ ๊ฒฝํํ๋ฉฐ ๋ถํฌ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ์์ ์๋ฏธํ๋ค.
Drawer ๊ณผ์ (์๋ ์ด๊ธฐ)์์๋ 16K ๋จ๊ณ ์ํธ์์ฉ์์ IBRL์ด 95% ์ฑ๊ณต๋ฅ ๋ก ๊ฐ์ฅ ๋์๋ค. ์คํ์ ์กฐ๊ธฐ ์ค๋จํ 10K ๋จ๊ณ ์ง์ ์์๋ IBRL์ ์ด๋ฏธ 100%์ ๋๋ฌํ์ผ๋, RLPD์ RFT๋ 15% ์ดํ๋ก ๊ทนํ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ด์๋ค. IBRL์ ๋ฐ๋ชจ๊ฐ ์ถฉ๋ถํ๋๋ผ๋ ์ค์ ํ๊ฒฝ์ ์ธ๋ฐํ ์กฐ์์ด ํ์ํจ์ ๋น ๋ฅด๊ฒ ํ์ตํ์์ ๋ณด์ฌ์ค๋ค.
๊ฐ์ฅ ์ด๋ ค์ด Hang ๊ณผ์ (๋ณํ ์ฒ ๊ฑธ๊ธฐ)์์๋ IBRL๋ง์ด ๊ฐ๊ฑดํจ์ ์ฆ๋ช ํ๋ค. 30K ๋จ๊ณ ์ํธ์์ฉ ํ IBRL์ 85% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ BC(65%)๋ณด๋ค 20%p ๋์์ผ๋, RLPD์ RFT๋ ๊ฐ๊ฐ 15%, 25%์ ๋จธ๋ฌผ๋ ๋ค. ์ด๋ ์ฒ์ ๋ณํ์ฑ์ ์์ธกํ๊ธฐ ํ๋ค์ด ๋๋ค ํ์์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ ์ํฉ์์, IBRL์ด IL ์ ์ฑ ์ผ๋ก๋ถํฐ ์ป์ ์ฐ์ํ ์ด๊ธฐ ํ๋์ ๊พธ์คํ ํ์ฉํด ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ๊ฐ์ ํ ๊ฒฐ๊ณผ๋ค. ๊ทธ๋ฆผ 9์ ๋กค์์ ์์์์๋ IBRL์ ๋ ์ ์ ์คํ ๋ด์ ์ฑ๊ณตํ์ผ๋ฉฐ, BC๊ฐ ์คํจํ๋ ์ด๊ธฐ ์กฐ๊ฑด์์๋ ์ฑ๊ณตํจ์ ํ์ธํ ์ ์๋ค.
์์ฝํ๋ฉด, ์ค์ ํ๊ฒฝ์์๋ IBRL์ ๋จ์๊ฐ ๋ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ํ๋ํ์ฌ, ๋ค๋ฅธ RL ๊ธฐ๋ฒ๋ณด๋ค ์๋นํ ๋์ ์ํ ํจ์จ์ฑ์ ์ ์ฆํ๋ค. ํนํ BC ๊ธฐ๋ฐ ์ ์ฑ ์ ํ๊ณ๋ฅผ ๋์ด์๋ ์ฑ๋ฅ์ผ๋ก, ๋ถํฌ ๋ณํ๋ ๋ ธ์ด์ฆ์ ์ํ ์ฑ๋ฅ ์ ํ ์ํฉ์์๋ ๋น ๋ฅด๊ฒ ํ๋ณตํ ์ ์์์ ๋ณด์๋ค. ์ด๋ IBRL์ด ์ค์ ๋ก๋ด ์์ฉ์์ ๊ธฐ์กด IL ์ ์ฑ ์ ํฌ๊ฒ ๋ฐ์ด๋๋ ์ฑ๋ฅ ๊ฐ์ ์ ์ ์ํ ๊ฐ๋ฅ์ผ ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
7. ๊ธฐ์ฌ, ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
IBRL์ ๋ก๋ด ๊ฐํํ์ต ์ฐ๊ตฌ์ ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ์ฒซ์งธ, ๋ชจ๋ฐฉํ์ต ์ ์ฑ ์ ๋ช ์์ ์ผ๋ก ๊ฐํํ์ต์ ํตํฉํจ์ผ๋ก์จ ์์ฐ ๋ฐ์ดํฐ์ ์ด์ ์ ๊ทน๋ํํ๊ณ RL ํ์ ๋ฌธ์ ๋ฅผ ์ํํ๋ค. ๋์งธ, IL๊ณผ RL ์ ์ฑ ์ ๋ถ๋ฆฌ๋ก ๊ฐ์ ์ต์ ์ ๋คํธ์ํฌ์ ํ์ต๋ฒ์ ์ฌ์ฉํ ์ ์์ด, ๋ณด๋ค ์ ์ฐํ๊ณ ํจ์จ์ ์ธ ์ค๊ณ๊ฐ ๊ฐ๋ฅํ๋ค. ์ ์งธ, ํญ๋์ ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ์คํ์์ SoTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ๋ก๋ด ์ํ ํจ์จ์ ํ์ต์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค.
๊ทธ๋ฌ๋ ํ๊ณ์ ๋ ์กด์ฌํ๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ค์ ์คํ์์๋ ์๋ ์ด๊ธฐํ(autonomous reset)๋ฅผ ์ ์ฉํ์ง ์๊ณ ์๋ ๋ฆฌ์ ์ ์ฌ์ฉํ์ฌ ์์ ์ ํ๊ฐ๋ฅผ ๋ณด์ฅํ๋ค. ์ค์ ๋๊ท๋ชจ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์๋ ๋ฆฌ์ ๋ฉ์ปค๋์ฆ์ด ํ์ํ๋ฉฐ, ์ด๋ ํฅํ ๊ณผ์ ๋ก ๋จ๋๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ์์๋ BC๋ฅผ ์ฌ์ฉํ ๋จ์ผ ํํ์ IL ์ ์ฑ ์ ์คํํ์ง๋ง, IBRL ํ๋ ์์ํฌ๋ ์ด๋ก ์ ์ด๋ ํ IL ๊ธฐ๋ฒ๊ณผ๋ ๊ฒฐํฉ ๊ฐ๋ฅํ๋ค. ํฅํ์๋ ํ์ฐ ์ ์ฑ (diffusion policies) ๋ฑ ์ต์ IL ๋ฐฉ๋ฒ์ ๋์ ํ๊ฑฐ๋, PEX/PILCO ๋ฑ๊ณผ์ ๋น๊ต ์ฐ๊ตฌ๋ฅผ ํตํด ์ฑ๋ฅ์ ๋์ฑ ๊ฐ์ ํ ์ ์๋ค.
8. ๊ฒฐ๋ก
IBRL์ ์ ํ๋ ์ ๋ฌธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ฐฉํ์ต ์ ์ฑ ์ ์ฐธ์กฐ ์ ์ฑ ์ผ๋ก ํ์ฉํ์ฌ ์ํ ํจ์จ์ ์ธ ๊ฐํํ์ต์ ์คํํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์คํ ๊ฒฐ๊ณผ, IBRL์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ ์ ์ํธ์์ฉ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ ํนํ ์ด๋ ค์ด ๊ณผ์ ์์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ก๋ค. ์ค์ ๋ก๋ด ์คํ์์๋ ํ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์์๋ฉฐ, ๋ก๋ด ์ ์ด ์ ์ฑ ์ ๋น ๋ฅธ ํฅ์์ ๊ฐ๋ฅ์ผ ํ๋ค. ๋ฐ๋ผ์ IBRL์ ๋ก๋ด ๊ฐํํ์ต ์ฐ๊ตฌ์ ์์ด ์์ฐ ํ์ต๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉ์ ์๋ก์ด ๋ฐฉํฅ์ผ๋ก ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด ์ ์ฉ ์ธก๋ฉด์์๋ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ๋๋ค.