๐Comp-Diffusior ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค ์ด ๋ ผ๋ฌธ์ ๋ก๋ด ์ฅ๊ธฐ ๊ณํ(long-horizon planning)์์ ๊ธฐ์กด ํ์ฐ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์งง์ ๊ถค์ ์กฐ๊ฐ๋ค์ ์กฐํฉํ์ฌ ์๋ก์ด ์์ ์ ํด๊ฒฐํ๋ ์์ฑ์ ๊ถค์ ์คํฐ์นญ(trajectory stitching) ๋ฐฉ๋ฒ์ธ CompDiffuser๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ก CompDiffuser๋ ๊ถค์ ๋ถํฌ๋ฅผ ๊ฒน์น๋ ์กฐ๊ฐ๋ค๋ก ๋๋๊ณ ๋จ์ผ ์๋ฐฉํฅ ํ์ฐ ๋ชจ๋ธ์ ํตํด ์กฐ๊ฑด๋ถ ๊ด๊ณ๋ฅผ ํ์ตํจ์ผ๋ก์จ, ์์ฑ ๊ณผ์ ์์ ์ธ๊ทธ๋จผํธ ๊ฐ ์ ๋ณด ์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์ฐ๊ฒฐ์ ๋ณด์ฅํฉ๋๋ค.
- ๐ ๋ค์ํ ๋์ด๋์ ๋ฒค์น๋งํฌ ์คํ์์ CompDiffuser๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์งง์ ํ๋ จ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์ฅ๊ธฐ ๊ณํ ์์ ์ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ณ ๊ถค์ ์ ์คํ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ชฉํ ๋๋ฌ ํ๋์ ์ ์งํจ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ก๋ด ์์ฌ ๊ฒฐ์ ๋ถ์ผ์์ ์ฅ๊ธฐ์ ์ธ ๊ณํ์ ์ํ ํจ๊ณผ์ ์ธ ๊ถค์ ์คํฐ์นญ(trajectory stitching)์ ์ค์ํ ๊ณผ์ ์ ๋๋ค. ํ์ฐ ๋ชจ๋ธ(diffusion models)์ ๊ณํ ์๋ฆฝ์ ์ ๋งํจ์ ๋ณด์์ง๋ง, ํ์ต ๋ฐ์ดํฐ์์ ๋ณธ ๊ฒ๊ณผ ์ ์ฌํ ์์ ์ผ๋ก ํด๊ฒฐ ๋ฅ๋ ฅ์ด ์ ํ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ CompDiffuser๋ผ๋ ์๋ก์ด ์์ฑ์ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ์์ ์ด์ ์ ํ์ต๋ ์งง์ ๊ถค์ ์กฐ๊ฐ(trajectory chunks)๋ค์ ๊ตฌ์ฑ์ ์ผ๋ก ์ด์ด ๋ถ์ฌ ์๋ก์ด ์์ ์ ํด๊ฒฐํ ์ ์์ต๋๋ค.
ํต์ฌ ์์ด๋์ด๋ ๊ถค์ ๋ถํฌ๋ฅผ ๊ฒน์น๋ ์กฐ๊ฐ๋ค๋ก ์ธ๋ถํํ๊ณ , ๋จ์ผ ์๋ฐฉํฅ ํ์ฐ ๋ชจ๋ธ(bidirectional diffusion model)์ ํตํด ์ด ์กฐ๊ฐ๋ค์ ์กฐ๊ฑด๋ถ ๊ด๊ณ๋ฅผ ํ์ตํจ์ผ๋ก์จ ๊ถค์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ์์ฑ ๊ณผ์ ์์ ์ธ๊ทธ๋จผํธ ๊ฐ์ ์ ๋ณด๊ฐ ์ ํ๋์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์ฐ๊ฒฐ์ ๋ณด์ฅํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ํ๊ฒฝ ํฌ๊ธฐ, ์์ด์ ํธ ์ํ ์ฐจ์, ๊ถค์ ์ ํ, ํ์ต ๋ฐ์ดํฐ ํ์ง ๋ฑ ๋ค์ํ ๋์ด๋์ ๋ฒค์น๋งํฌ ํ์คํฌ์์ ์คํ์ ์ํํ์ผ๋ฉฐ, CompDiffuser๊ฐ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค.
1. ์๋ก ๋ฐ ๊ด๋ จ ์ฐ๊ตฌ
๊ธฐ์กด ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ก๋ด ๊ณํ ๋ฐฉ๋ฒ๋ก (์: Diffuser, Decision Diffuser)์ ์ ์ฒด ๊ณํ ์ํ์ค์ ๋ํ ๊ฒฐํฉ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ์๊ฐํ์ง๋ง, ๋ชจ๋ ๊ฐ๋ฅํ ์์-๋ชฉํ ์ํ ์กฐํฉ์ ํฌํจํ๋ ์ฅ๊ธฐ ๊ณํ ๋ฐ์ดํฐ๋ฅผ ์์งํด์ผ ํ๋ฏ๋ก ์ํ ํจ์จ์ฑ์ด ๋งค์ฐ ๋ฎ์ต๋๋ค. ๊ถค์ ์คํฐ์นญ์ ๋ณด์ ๋์ ๊ถค์ ์กฐ๊ฐ๋ค์ ์ฐ๊ฒฐํ์ฌ ์๋ก์ด ์ ์ฑ ์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ์ฑ์ ์ผ๋ฐํ(compositional generalization)๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ์ง๋ง ๋์ ์ผ๊ด์ฑ(dynamic consistency)๊ณผ ์คํ ๊ฐ๋ฅ์ฑ(feasibility)์ ์ ์งํ๋ฉฐ ๊ถค์ ์ ๊ฒฐํฉํ ์ ์ ํ ์คํฐ์นญ ์ง์ ์ ์ฐพ๋ ๊ฒ์ด ํต์ฌ ๊ณผ์ ์ ๋๋ค. CompDiffuser๋ ์ฅ๊ธฐ ํ๋ จ ๋ฐ์ดํฐ ์์ด๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ๊ณ ๋ชฉํ ์งํฅ์ ์ธ ๊ณํ์ ์์ฑํ ์ ์๋๋ก ํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ก, ํ์ฐ ๋ชจ๋ธ์ ๋ชจ์ ๊ณํ, ์์ ๊ณํ, ์์จ ์ฃผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ ์ฉ๋์์ง๋ง, ๋๋ถ๋ถ ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ฌํ ๊ณํ ๋ฒ์์ ๊ตญํ๋ฉ๋๋ค. ๊ถค์ ์คํฐ์นญ ๋ถ์ผ์์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ, ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์, ์ํ์ค ๋ชจ๋ธ๋ง ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ด ํ์๋์์ผ๋, CompDiffuser๋ ์์ฑ ๋ชจ๋ธ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์งง์ ๊ถค์ ์ธ๊ทธ๋จผํธ๋ง์ผ๋ก ๋ชฉํ ์กฐ๊ฑด๋ถ ๊ถค์ ์คํฐ์นญ์ ์ง์ ์ํํฉ๋๋ค. ๊ตฌ์ฑ์ ์์ฑ ๋ชจ๋ธ์ ์๊ฐ ์ฝํ ์ธ , ์ธ๊ฐ ๋์ ์์ฑ ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์์ ์ฐ๊ตฌ๋์์ง๋ง, ๋๋ถ๋ถ ์ฌ๋ฌ ์กฐ๊ฑด์ ๊ฒฐํฉ ์ํ๋ง์ ์ด์ ์ ๋ง์ถ๊ฑฐ๋ ๋ฏธ๋ฆฌ ์ ์๋ ์ค์ผ๋ ํค์ ์์กดํฉ๋๋ค. CompDiffuser๋ ์ด๋ฌํ ์ ์ฝ ์์ด ํจ์ฌ ๊ธด ์ํ์ค์ ์๋ก์ด ์์ ์ ์์ฑํ ์ ์๋๋ก ํ์ฅ๋ฉ๋๋ค.
2. ๊ตฌ์ฑ์ ๊ถค์ ์์ฑ์ ํตํ ๊ณํ ์๋ฆฝ (Planning through Compositional Trajectory Generation)
2.1. ๊ตฌ์ฑ์ ๊ถค์ ๋ชจ๋ธ๋ง (Compositional Trajectory Modeling)
๊ณํ ๋ฌธ์ ๋ ์์ ์ํ q_s์ ๋ชฉํ ์ํ q_g๊ฐ ์ฃผ์ด์ก์ ๋, ํ๋ฅ ๋ถํฌ p_\theta(\tau|q_s, q_g)๋ก๋ถํฐ ๊ถค์ \tau = [s_{1:T}, a_{1:T}]๋ฅผ ์ํ๋งํ๋ ๊ฒ์ผ๋ก ์ ์๋ฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ p(\tau)๋ฅผ ์ง์ ํ์ตํ์ฌ ํ๋ จ ๋ฐ์ดํฐ์ ์์-๋ชฉํ ์ํ์ ์ ์ฌํ ๊ณํ๋ง ์์ฑํ ์ ์์ต๋๋ค. CompDiffuser๋ ๊ถค์ \tau๋ฅผ K๊ฐ์ ๊ฒน์น๋ ํ์ ์กฐ๊ฐ \tau_k๋ก ์ธ๋ถํํ์ฌ ๊ตฌ์ฑ์ ์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ถค์ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค: p_\theta(\tau|q_s, q_g) \propto p_1(\tau_1|q_s, \tau_2) \prod_{k=2}^{K-1} p_k(\tau_k|\tau_{k-1}, \tau_{k+1}) p_K(\tau_K|\tau_{K-1}, q_g) ์ฌ๊ธฐ์ ๊ฐ ๊ถค์ ์กฐ๊ฐ \tau_k๋ ์ธ์ ํ ์กฐ๊ฐ \tau_{k-1}๊ณผ \tau_{k+1}์๋ง ์์กดํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ค๊ฐ ๊ถค์ ์กฐ๊ฐ \tau_k๊ฐ ํ์ต๋ ์ ์ด ์๋ค๋ฉด, ์ด์ ์ ๋ณธ ๊ถค์ ๊ณผ ์๋นํ ๋ค๋ฅธ ๊ณํ๋ ์์ฑํ ์ ์์ต๋๋ค.
2.2. ๊ตฌ์ฑ์ ๊ถค์ ๋ชจ๋ธ ํ๋ จ (Training Compositional Trajectory Models)
๊ตฌ์ฑ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ด๊ธฐ ์ํด ๊ฐ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ตํ๋ ๊ฒ์ ์ํ๋ง ๊ณผ์ ์ด ๋๋ฆฌ๊ณ ์ผ๊ด๋ ๊ณํ์ ๊ตฌ์ฑํ๊ธฐ ์ด๋ ต์ต๋๋ค. CompDiffuser๋ ํ์ฐ ๋ชจ๋ธ์ ์ ์ง์ ์ธ ๋ ธ์ด์ฆ ์ ๊ฑฐ(denoising) ๊ณผ์ ์ ํ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ํต์ฌ์ ๊ถค์ ์ธ๊ทธ๋จผํธ๋ค์ด ํ์ฐ ๊ณผ์ ์์ ์๋ก์ ์์ฑ์ ์ ๋ํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ํ ์ธ๊ทธ๋จผํธ๊ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ํตํด ํํ๋ฅผ ๊ฐ์ถ๋ฉด, ์ด๋ ํธํ๋๋ ๊ตฌ์ฑ์ผ๋ก ์ด์ ์ธ๊ทธ๋จผํธ์ ํํ๋ฅผ ์ก์์ฃผ๋ ๋ฐ ๋์์ ์ค๋๋ค.
์ด๋ฅผ ์ํด ์ด์ ์กฐ๊ฐ์ ๋ ธ์ด์ฆ ์ํ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํ์ฌ ๊ถค์ ์กฐ๊ฐ์ ์์ฑํ๋ ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ์ \mathcal{D}์ ๊ถค์ \tau๊ฐ ์ฃผ์ด์ก์ ๋, ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋คํธ์ํฌ \epsilon_\theta๋ฅผ ํ๋ จํ์ฌ ๋ค์ ๋ชฉ์ ํจ์๋ฅผ ํตํด ๊ถค์ ๋ถํฌ p_\theta(\tau_k|\tau_{k-1}, \tau_{k+1})๋ฅผ ํ์ตํฉ๋๋ค: \mathcal{L}_{nbr} = \mathbb{E}_{\tau \in \mathcal{D}, t, k} \left[ \left\| \epsilon - \epsilon_\theta(\tau_k^t, t | \tau_{k-1}^t, \tau_{k+1}^t) \right\|^2 \right] ์ฌ๊ธฐ์ k๋ ๊ถค์ ์ธ๊ทธ๋จผํธ๋ฅผ ์๋ณํ๊ณ , t๋ ๋ ธ์ด์ฆ ๋ ๋ฒจ์ด๋ฉฐ, \tau_k^t๋ ๋ ธ์ด์ฆ ๋ ๋ฒจ t๋ก ์ค์ผ๋ ์ธ๊ทธ๋จผํธ k๋ฅผ ๋ํ๋ ๋๋ค. ๊ฐ ์ธ๊ทธ๋จผํธ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์ ๋คํธ์ํฌ๋ ๋์ผํ ๋ ธ์ด์ฆ ๋ ๋ฒจ์ ์ด์ ์ธ๊ทธ๋จผํธ \tau_{k-1}^t, \tau_{k+1}^t์ ๋ ธ์ด์ฆ ๋ฒ์ ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํฉ๋๋ค. ์ด๋ ๊ฐ ์ธ๊ทธ๋จผํธ๊ฐ ์ด์์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ์ํฅ์ ๋ฏธ์ณ ์ต์ข ๊ตฌ์ฑ์ด ๋์ ์ผ๋ก ํธํ๋๋๋ก ๋ณด์ฅํฉ๋๋ค. ์ค์ ๋ก๋ ์ฐ์์ ์ธ ๊ถค์ ๊ฐ์ ์์ ๊ฒน์น๋ ์์ญ์๋ง ์กฐ๊ฑด๋ถ๋ก ์์กดํ์ฌ ํจ์จ์ฑ์ ๋์ ๋๋ค.
๋ํ, ๋์ผํ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋คํธ์ํฌ \epsilon_\theta๋ฅผ ํ๋ จํ์ฌ p_\theta(\tau_1|q_s, \tau_2) ๋ฐ p_\theta(\tau_K|\tau_{K-1}, q_g) ๋ถํฌ๋ฅผ ๋ํ๋ด๋๋ก ํฉ๋๋ค. ์ด๋ ๋ค์ ๋ชฉ์ ํจ์์ ํด๋นํฉ๋๋ค: \mathcal{L}_{start} = \mathbb{E}_{\tau \in \mathcal{D}, t, k} \left[ \left\| \epsilon - \epsilon_\theta(\tau_1^t, t | q_s, \tau_2^t) \right\|^2 \right] ๋ชฉํ ์ํ q_g์ ๋ํ ์กฐ๊ฑด๋ถ๋ ์ ์ฌํฉ๋๋ค.
2.3. ๊ตฌ์ฑ์ ๊ถค์ ๊ณํ (Compositional Trajectory Planning)
์ ์๋ ํ๋ ์์ํฌ๋ ์ฅ๊ธฐ ๊ณํ ์์ฑ์ ์ํ ์ ์ฐํ ์ํ๋ง ์ ๋ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๊ธฐ๋ณธ ์ํ๋ง ๊ณผ์ ์ ๊ฐ ๊ถค์ ์กฐ๊ฐ \tau_k๋ฅผ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก ์ด๊ธฐํํ ๋ค์, ๋ฐ๋ณต์ ์ธ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ํตํด ๊ฐ ์กฐ๊ฐ์ ์ด์ ์กฐ๊ฐ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ๋ ๊ฐ์ง ์ํ๋ง ๋ฐฉ์์ด ์ ์๋ฉ๋๋ค:
- ๋ณ๋ ฌ ์ํ๋ง (Parallel Sampling): ๊ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋จ๊ณ์์ ์ด์ ๋จ๊ณ์ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ธ์ ๊ถค์ ์กฐ๊ฐ ๊ฐ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํฉ๋๋ค. ์ ๋ฐ์ดํธ ๊ท์น์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \tau_k^{t-1} = \alpha_t(\tau_k^t - \epsilon_\theta(\tau_k^t|\tau_{k-1}^t, \tau_{k+1}^t) + \beta_t \xi), \quad \xi \sim \mathcal{N}(0, 1) ์ด ๋ฐฉ์์ ๊ฐ ๊ถค์ ์กฐ๊ฐ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ฅผ ๋ณ๋ ฌ๋ก ์คํํ ์ ์์ง๋ง, ๊ฐ ๋จ๊ณ์์์ ์ ๋ณด ์ ํ๋ ์ ํ์ ์ ๋๋ค.
- ์๊ธฐํ๊ท ์ํ๋ง (Autoregressive Sampling): ์ธ์ ๊ถค์ ์กฐ๊ฐ์ ๊ฐ์ ๋ ์ ์ฐ๊ฒฐํ๊ธฐ ์ํด, ๊ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๋จ๊ณ์์ ๊ฐ ๊ถค์ ์กฐ๊ฐ์ ์๊ธฐํ๊ท์ ์ผ๋ก ๋ ธ์ด์ฆ ์ ๊ฑฐํฉ๋๋ค. ํนํ, \tau_1๋ถํฐ ์์ํ์ฌ ์์ฐจ์ ์ผ๋ก \tau_K๊น์ง ๊ฐ ๊ถค์ ์ ๋ ธ์ด์ฆ ์ ๊ฑฐํ๋ฉฐ, \tau_k์ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋ ํ์ฌ ๋ ธ์ด์ฆ ๋ ๋ฒจ t-1์์ ์ด์ ์ ๋์ฝ๋ฉ๋ ์กฐ๊ฐ \tau_{k-1}^{t-1}๊ณผ ์ด์ ๋ ธ์ด์ฆ ๋ ๋ฒจ t์์ ๋ฏธ๋ ์กฐ๊ฐ \tau_{k+1}^t์ ์กฐ๊ฑด๋ถ๋ก ์์กดํฉ๋๋ค: \tau_k^{t-1} = \alpha_t(\tau_k^t - \epsilon_\theta(\tau_k^t|\tau_{k-1}^{t-1}, \tau_{k+1}^t) + \beta_t \xi), \quad \xi \sim \mathcal{N}(0, 1) ์ด ์์ฐจ์ ์ธ ์์ฑ ๊ณผ์ ์ ๊ฐ ์กฐ๊ฐ์ด ์ด์ ์กฐ๊ฐ์ ๋ ๋ ธ์ด์ฆ๊ฐ ์๋ ๋ฒ์ ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํ๋ฏ๋ก ์กฐ๊ฐ๋ค ๊ฐ์ ๋ ๊ฐ๋ ฅํ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ์ง๋ง ๋ณ๋ ฌ ์ํ๋ง๋ณด๋ค ๊ณ์ฐ ํจ์จ์ฑ์ ๋ฎ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์๊ธฐํ๊ท ์ํ๋ง์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ์์ฑ๋ ์กฐ๊ฐ \tau_{1:K}๋ ๊ฒน์น๋ ์์ญ์ ์ง์ ๊ถค์ ํผํฉ(exponential trajectory blending)์ ์ ์ฉํ์ฌ ํ๋์ ์ต์ข ๊ถค์ \tau_{comp}๋ก ๋ณํฉ๋ฉ๋๋ค.
3. ์คํ (Experiments)
CompDiffuser์ ์ฑ๋ฅ์ PointMaze, AntMaze, HumanoidMaze, AntSoccer ๋ฑ ๋ค์ํ ๋์ด๋์ ๋ฒค์น๋งํฌ ํ์คํฌ์์ ํ๊ฐ๋์์ต๋๋ค. ์คํ์ ๋ค์ํ ํ๊ฒฝ ํฌ๊ธฐ, ์์ด์ ํธ ์ํ ์ฐจ์, ๊ถค์ ์ ํ, ํ๋ จ ๋ฐ์ดํฐ ํ์ง์ ๋ค๋ฃน๋๋ค.
- PointMaze: Ghugare et al. [21] ๋ฐ OGBench [51]์ ๋ฐ์ดํฐ์ ์์ ํ ์คํธ๋์์ต๋๋ค. CompDiffuser๋ ๋ชจ๋ ๋ฏธ๋ก ํฌ๊ธฐ์์ ์ฑ๊ณต์ ์ผ๋ก ํ์คํฌ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ํนํ ๋ณต์กํ Giant ๋ฏธ๋ก์์ ๋ค๋ฅธ ๋ชจ๋ ๊ธฐ์ค์ ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์์ ๊ฒน์นจ ์์ญ์ ์์จ์ ์ผ๋ก ์๋ณํ์ง ๋ชปํด ์ฑ๋ฅ์ด ์ ์กฐํ์ต๋๋ค.
- ๊ณ ์ฐจ์ ํ์คํฌ (High Dimension Tasks): AntMaze, HumanoidMaze, AntSoccer ํ๊ฒฝ์์ ๊ณ ์ฐจ์ ์ํ ๊ณต๊ฐ์ ๋ค๋ฃจ๋ ์คํ์ด ์ํ๋์์ต๋๋ค. CompDiffuser๋ ๊ณํ ๋ฒ์์ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋์ ์ฑ๊ณต๋ฅ ์ ๊พธ์คํ ์ ์งํ์ต๋๋ค. ํนํ AntSoccer์์๋ 4D(๊ฐ๋ฏธ์ ๊ณต์ x-y ์์น) ๋ฐ 17D(๊ฐ๋ฏธ์ ๊ด์ ์์น ํฌํจ) ๊ณํ ๊ณต๊ฐ์์ ๋ชจ๋ ๊ธฐ์ค์ ์ ๋ฅ๊ฐํ์ผ๋ฉฐ, 17D๊ฐ ๋ ๋ฏธ์ธํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ์ฝ๊ฐ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ๋ฎ์ ํ์ง ๋ฐ์ดํฐ(AntMaze Explore)์์๋ CompDiffuser๋ ํด๋ฌ์คํฐ๋ง๋ ๊ถค์ ์์ ํ์ตํ์ฌ ์ฅ๊ฑฐ๋ฆฌ ๊ณํ์ ๊ตฌ์ฑํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
3.1. ์ด๋ธ๋ ์ด์ ์ฐ๊ตฌ (Ablation Studies)
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์์์ ๊ณํ: 2D, 15D, 29D ๊ณํ ์ฐจ์์์ CompDiffuser์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. AntMaze Medium์์๋ ๋ชจ๋ ์ฐจ์์์ ๊ฑฐ์ ์ต์ ์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. Large ๋ฐ Giant ๋ฏธ๋ก์์๋ ๊ณ ์ฐจ์์ผ๋ก ๊ฐ์๋ก ์ฑ๊ณต๋ฅ ์ด ๊ฐ์ํ๋๋ฐ, ์ด๋ ๊ถค์ ๋ชจ๋ธ๋ง์ ๋ณต์ก์ฑ ์ฆ๊ฐ(๊ด์ ์์น ๋ฐ ์๋) ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
- ๊ตฌ์ฑ๋ ๊ถค์ ๊ฐ์ ๋ณํ (K): OGBench PointMaze-Giant-Stitch์์ K๋ฅผ 7์์ 12๊น์ง ๋ณํ์์ผฐ์ ๋, CompDiffuser๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ต์ K๋ 9~10๊ฐ์์ต๋๋ค. ๋๋ฌด ์ ์ K๋ ํฌ์ํ ๊ถค์ ์, ๋๋ฌด ๋ง์ K๋ ๋ถํ์ํ ์์ง์์ ์ ๋ฐํ ์ ์์ต๋๋ค.
- CompDiffuser๋ฅผ ์ด์ฉํ ๋ฆฌํ๋๋ (Replanning): ์์ด์ ํธ๊ฐ ๊ณํ๋ ๊ถค์ ์ ๋ฒ์ด๋๋ ๊ฒฝ์ฐ(์: ์ญ๋ํ ๋ชจ๋ธ์ ์ค๋ฅ) ์ ์ฐํ๊ฒ ๋ฆฌํ๋๋ํ๋ ๊ธฐ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ๋ฆฌํ๋๋์ ํนํ ๋ณต์กํ Giant ๋ฏธ๋ก์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ๋ณ๋ ฌ vs. ์๊ธฐํ๊ท ์ํ๋ง: ์๊ธฐํ๊ท ์ํ๋ง์ ๋ณ๋ ฌ ์ํ๋ง๋ณด๋ค ๊ณํ ํ์ง์์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๊ฐ ๊ถค์ ์กฐ๊ฐ์ด ์ด๋ฏธ ๋ ธ์ด์ฆ ์ ๊ฑฐ๋(๋ ๋ ธ์ด์ฆ๊ฐ ์๋) ์ด์ ์กฐ๊ฐ์ ์กฐ๊ฑด๋ถ๋ก ์์กดํ๋ ์ธ๊ณผ์ ์ ๋ณด ํ๋ฆ์ด ์กฐ๊ฐ ๊ฐ์ ๋ ์ผ๊ด๋๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ์นํ๋ ์ ํ์ผ๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
4. ๊ฒฐ๋ก (Conclusion)
๋ณธ ๋ ผ๋ฌธ์ ํ์ฐ ๋ชจ๋ธ์ ๊ตฌ์ฑ์ฑ์ ํ์ฉํ ์์ฑ์ ๊ถค์ ์คํฐ์นญ ๋ฐฉ๋ฒ์ธ CompDiffuser๋ฅผ ์๊ฐํฉ๋๋ค. ๋ ธ์ด์ฆ ์กฐ๊ฑด๋ถ ์ค์ฝ์ด ํจ์(noise-conditioned score function) ๊ณต์ํ๋ฅผ ํตํด ์ฌ๋ฌ ์งง์ ๋ฒ์ ๊ถค์ ํ์ฐ ๋ชจ๋ธ์ ์๊ธฐํ๊ท ์ํ๋ง์ ์ํํ๊ณ , ์ด๋ฅผ ์ด์ด ๋ถ์ฌ ์ฅ๊ธฐ ๋ชฉํ ์กฐ๊ฑด๋ถ ๊ถค์ ์ ํ์ฑํฉ๋๋ค. CompDiffuser๋ ๋ค์ํ ํ๊ฒฝ ํฌ๊ธฐ, ๊ณํ ์ํ ์ฐจ์, ๊ถค์ ์ ํ, ํ๋ จ ๋ฐ์ดํฐ ํ์ง ๋ฑ ๋ค์ํ ๋์ด๋์ ํ์คํฌ์์ ํจ๊ณผ์ ์ธ ๊ถค์ ์คํฐ์นญ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
์ ํ์ฌํญ ๋ฐ ํฅํ ์ฐ๊ตฌ:
- ๋ง์ ์์ ๊ถค์ ์ ๊ตฌ์ฑํ ๋ ์๋ฐฉํฅ ์ ๋ณด ์ ํ์์ ์ค๋ฅ๊ฐ ๋์ ๋์ด ๋นํ์ค์ ์ธ ๊ณํ์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ์ด๋ ๋๋ฉ์ธ/ํ์คํฌ๋ณ ๊ฑฐ๋ถ ์ํ๋ง(rejection sampling) ๋๋ MCMC ์ํ๋ง์ผ๋ก ์ํ๋ ์ ์์ต๋๋ค.
- ์ต์ ์ ํ ์คํธ ์์ ๊ตฌ์ฑ ์กฐ๊ฐ ์ K๊ฐ ํ์คํฌ์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์์ฑ๋ ๊ณํ์ ํ์ง์ ๋ฐ๋ผ ์กฐ๊ฐ ์๋ฅผ ์ ์ง์ ์ผ๋ก ๋๋ฆฌ๋ ๋ฑ ์ ์ ํ K ๊ฐ์ ์๋์ผ๋ก ์๋ณํ๋ ๋ฐฉ๋ฒ์ ํ์ํ ๊ฒ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : Long-Horizon Planning์ ๊ทผ๋ณธ์ ๋์
๋ก๋ด๊ณตํ์์ long-horizon planning์ ์ฌ์ ํ ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ด ํต์ฌ ๊ณผ์ ์ค ํ๋์ ๋๋ค. ๋ก๋ด์ด ๋ณต์กํ ํ๊ฒฝ์์ ์์์ ๋ถํฐ ๋ชฉํ์ ๊น์ง ๋๋ฌํ๊ธฐ ์ํด์๋ ์๋ฐฑ, ๋๋ก๋ ์์ฒ ์คํ ์ ๊ฑธ์น ์ผ๊ด๋ ํ๋ ์ํ์ค๋ฅผ ์์ฑํด์ผ ํฉ๋๋ค. ์ ํต์ ์ธ ๊ฐํํ์ต(RL) ๋ฐฉ๋ฒ๋ก ์ ์ด๋ฌํ ๋ฌธ์ ์์ credit assignment์ ์ด๋ ค์, ํ์ ๊ณต๊ฐ์ ํญ๋ฐ์ ์ฆ๊ฐ, ๊ทธ๋ฆฌ๊ณ ํฌ์ ๋ณด์(sparse reward) ํ๊ฒฝ์์์ ํ์ต ๋ถ์์ ์ฑ ๋ฑ์ผ๋ก ์ธํด ํ๊ณ๋ฅผ ๋ณด์ฌ์์ต๋๋ค.
์ต๊ทผ diffusion models์ด ๋ก๋ด ํ๋๋ ๋ถ์ผ์์ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. Janner et al.์ Diffuser(2022)๋ฅผ ์์์ผ๋ก, Decision Diffuser, Hierarchical Diffuser ๋ฑ ๋ค์ํ diffusion ๊ธฐ๋ฐ ํ๋๋๋ค์ด ๋ฑ์ฅํ์ต๋๋ค. ์ด๋ค์ trajectory ๋ถํฌ๋ฅผ ํ์ตํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ๊ฒฝ๋ก๋ฅผ ์์ฑํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ํ์ง๋ง ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์กด์ฌํฉ๋๋ค: ํ์ต ๋ฐ์ดํฐ์์ ๋ณธ ์ ์๋ ์๋ก์ด task์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค๋ ๊ฒ์ ๋๋ค.
์ฌ๊ธฐ์ trajectory stitching์ ๊ฐ๋ ์ด ๋ฑ์ฅํฉ๋๋ค. Trajectory stitching์ด๋ ํ์ต ๋ฐ์ดํฐ์ ์กด์ฌํ๋ ์งง์ trajectory ์กฐ๊ฐ๋ค์ ์กฐํฉํ์ฌ, ๋ฐ์ดํฐ์ ์๋ ์กด์ฌํ์ง ์๋ ์๋ก์ด long-horizon trajectory๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ๋งํฉ๋๋ค. ์ด๋ ๋ง์น ํผ์ฆ ์กฐ๊ฐ๋ค์ ๋ง์ถ๋ ๊ฒ์ฒ๋ผ, ๊ฐ๋ณ์ ์ผ๋ก๋ ์งง์ ๊ฒฝ๋ก ์กฐ๊ฐ๋ค์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋๊ฒ ์ฐ๊ฒฐํ์ฌ ์์ ํ ์๋ก์ด ๊ธด ๊ฒฝ๋ก๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ์ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ CompDiffuser (Compositional Diffuser)๋ ์ด๋ฌํ trajectory stitching ๋ฌธ์ ๋ฅผ diffusion model์ compositionality๋ฅผ ํ์ฉํ์ฌ ํด๊ฒฐํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์ ์ฒด trajectory ๋ถํฌ๋ฅผ overlapping chunk๋ค์ ๋ถํฌ๋ก ๋ถํดํ๊ณ , ์ด๋ค ๊ฐ์ ์กฐ๊ฑด๋ถ ๊ด๊ณ๋ฅผ ๋จ์ผ ์๋ฐฉํฅ(bidirectional) diffusion model๋ก ํ์ตํ๋ ๊ฒ์ ๋๋ค.
2. ๋ฌธ์ ์ ์: Trajectory Stitching์ด๋ ๋ฌด์์ธ๊ฐ?
2.1 Trajectory Stitching์ ํ์์ ์ ์
Trajectory stitching ๋ฌธ์ ๋ฅผ ํ์์ ์ผ๋ก ์ ์ํด๋ด ์๋ค. ์ฐ๋ฆฌ์๊ฒ ์ฃผ์ด์ง ๊ฒ์ ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์ ๋๋ค:
\mathcal{D} = \{\tau_1, \tau_2, ..., \tau_N\}
์ฌ๊ธฐ์ ๊ฐ trajectory \tau_i = (s_0, a_0, s_1, a_1, ..., s_T)๋ ์ํ(state)์ ํ๋(action)์ ์ํ์ค์ ๋๋ค. ํต์ฌ์ ์ธ ์ ์ฝ์ ์ด ๋ฐ์ดํฐ์ ์ ๊ฐ trajectory๊ฐ ์๋์ ์ผ๋ก ์งง๋ค๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฏธ๋ก ํ๊ฒฝ์์ ๊ฐ trajectory๋ ์ต๋ 4๋ธ๋ก๋ง ์ด๋ํ๋ ์งง์ ๊ฒฝ๋ก์ผ ์ ์์ต๋๋ค.
ํ ์คํธ ์์ ์์๋ ํจ์ฌ ๋ ๊ธด horizon์ task๊ฐ ์ฃผ์ด์ง๋๋ค. Goal-conditioned setting์์ ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
\text{Given: } s_0 \text{ (start)}, \quad s_g \text{ (goal)} \text{Find: } \tau^* = (s_0, a_0, s_1, ..., s_T = s_g)
์ฌ๊ธฐ์ T๋ ํ์ต ๋ฐ์ดํฐ์ trajectory ๊ธธ์ด๋ณด๋ค ํจ์ฌ ํด ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ต ๋ฐ์ดํฐ์ ๊ฐ trajectory๊ฐ ์ต๋ 4๋ธ๋ก์ ์ด๋ํ์ง๋ง, ํ ์คํธ ์์๋ 15๋ธ๋ก ์ด์์ ์ด๋ํด์ผ ํ ์ ์์ต๋๋ค.
2.2 ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ
๊ธฐ์กด์ diffusion ๊ธฐ๋ฐ ํ๋๋๋ค์ด trajectory stitching์ ์คํจํ๋ ์ด์ ๋ฅผ ์ดํด๋ด ์๋ค:
1. Monolithic Generation
Decision Diffuser์ ๊ฐ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ์ฒด trajectory๋ฅผ ํ๋์ ๋จ์๋ก ์์ฑํฉ๋๋ค. ๋ชจ๋ธ์ด ํ์ตํ๋ ๋ถํฌ๋:
p_\theta(\tau) = p_\theta(s_0, a_0, s_1, a_1, ..., s_T)
์ด ๊ฒฝ์ฐ, ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ trajectory ๊ธธ์ด T์ ๊ฐํ๊ฒ ์์กดํ๊ฒ ๋ฉ๋๋ค. ๋ ๊ธด horizon T' > T๋ก์ ์ผ๋ฐํ๊ฐ ๊ตฌ์กฐ์ ์ผ๋ก ์ด๋ ต์ต๋๋ค.
2. Distribution Mismatch
ํ์ต ๋ฐ์ดํฐ์ trajectory ๋ถํฌ p_{data}(\tau)์ ํ ์คํธ ์ ์๊ตฌ๋๋ trajectory ๋ถํฌ p_{test}(\tau) ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ ๋ถ์ผ์น๊ฐ ๋ฐ์ํฉ๋๋ค:
p_{data}(\tau) \neq p_{test}(\tau)
์งง์ trajectory๋ค์ ๋ถํฌ๋ฅผ ํ์ตํ ๋ชจ๋ธ์ด ๊ธด trajectory๋ฅผ ์์ฑํ๋ ค ํ๋ฉด, out-of-distribution(OOD) ์์ญ์ผ๋ก ๋น ์ ธ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๊ฒฝ๋ก๋ฅผ ์์ฑํฉ๋๋ค. ๋ ผ๋ฌธ์ Figure 1์์ ๋ณด์ฌ์ฃผ๋ฏ์ด, monolithic planner๋ long-horizon task์์ maze ์ค์์ผ๋ก collapseํ๋ ํ์์ ๋ณด์ ๋๋ค.
3. Lack of Compositional Structure
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ trajectory์ compositional ๊ตฌ์กฐ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ์์ต๋๋ค. ์ฆ, trajectory๊ฐ ๋ ์์ ์กฐ๊ฐ๋ค์ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์๋ค๋ ์ ์ ํ์ฉํ์ง ๋ชปํฉ๋๋ค:
\tau = \tau^1 \oplus \tau^2 \oplus ... \oplus \tau^K
์ฌ๊ธฐ์ \oplus๋ trajectory ์กฐ๊ฐ๋ค์ ์ฐ๊ฒฐ์ ๋ํ๋ ๋๋ค.
3. CompDiffuser: ํต์ฌ ๋ฐฉ๋ฒ๋ก
3.1 ํต์ฌ Insight: Compositional Trajectory Distribution
CompDiffuser์ ํต์ฌ insight๋ ๋งค์ฐ ์ง๊ด์ ์ ๋๋ค: trajectory ๋ถํฌ๋ฅผ overlapping chunk๋ค์ ๋ถํฌ๋ก ๋ถํดํ๊ณ , ์ด๋ค ๊ฐ์ ์กฐ๊ฑด๋ถ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ฒด trajectory \tau = (s_0, s_1, ..., s_T)๋ฅผ K๊ฐ์ overlapping chunk๋ค๋ก ๋ถํดํฉ๋๋ค:
\tau = \{\tau^1, \tau^2, ..., \tau^K\}
์ฌ๊ธฐ์ ๊ฐ chunk \tau^i๋ ์ฐ์๋ ์ํ๋ค์ subsequence์ ๋๋ค:
\tau^i = (s_{t_i}, s_{t_i+1}, ..., s_{t_i+H})
H๋ ๊ฐ chunk์ horizon์ด๋ฉฐ, ์ธ์ ํ chunk๋ค ์ฌ์ด์๋ overlap์ด ์กด์ฌํฉ๋๋ค:
\tau^i \cap \tau^{i+1} = (s_{t_{i+1}}, ..., s_{t_i+H})
์ด overlap ์์ญ์ด ๋ฐ๋ก chunk๋ค์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋๊ฒ ์ฐ๊ฒฐํ๋ โ์ ์ฐฉ์ โ ์ญํ ์ ํฉ๋๋ค.
3.2 Noise-Conditioned Score Function Formulation
CompDiffuser์ ๊ธฐ์ ์ ํต์ฌ์ noise-conditioned score function ์ ์ํ์ ์์ต๋๋ค.
์ ํต์ ์ธ diffusion model์ ๋ฐ์ดํฐ์ score function์ ์ถ์ ํฉ๋๋ค:
s_\theta(x, t) \approx \nabla_x \log p_t(x)
CompDiffuser๋ ์ด๋ฅผ ํ์ฅํ์ฌ, ์ธ์ chunk๋ค์ noisy ๋ฒ์ ์ ์กฐ๊ฑดํ๋ score function์ ํ์ตํฉ๋๋ค:
s_\theta(\tau^i, t \mid \tilde{\tau}^{i-1}, \tilde{\tau}^{i+1}) \approx \nabla_{\tau^i} \log p_t(\tau^i \mid \tilde{\tau}^{i-1}, \tilde{\tau}^{i+1})
์ฌ๊ธฐ์ \tilde{\tau}๋ noise๊ฐ ์ถ๊ฐ๋ ๋ฒ์ ์ ๋ํ๋ ๋๋ค:
\tilde{\tau}^j = \sqrt{\bar{\alpha}_t} \tau^j + \sqrt{1 - \bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)
์ด ์ ์ํ์ ํต์ฌ์ ์ธ ์ฅ์ ์ ์๋ฐฉํฅ ์ ๋ณด ์ ํ(bidirectional information propagation)๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ๊ฒ์ ๋๋ค. ๊ฐ chunk์ ์์ฑ์ด ๊ณผ๊ฑฐ(\tau^{i-1})๋ฟ๋ง ์๋๋ผ ๋ฏธ๋(\tau^{i+1}) chunk์ ์ ๋ณด์๋ ์์กดํฉ๋๋ค.
3.3 Bidirectional Diffusion Process
์๋ฐฉํฅ ์ ๋ณด ์ ํ๊ฐ ์ ์ค์ํ ๊น์? Goal-conditioned planning์์๋ ์์์ s_0์ ๋ชฉํ์ s_g ๋ชจ๋๊ฐ ์ฃผ์ด์ง๋๋ค. ๋ง์ฝ ์๋ฐฉํฅ์ผ๋ก๋ง ์์ฑํ๋ค๋ฉด:
p(\tau^1) \rightarrow p(\tau^2 \mid \tau^1) \rightarrow ... \rightarrow p(\tau^K \mid \tau^{K-1})
์ด ๊ฒฝ์ฐ, ์ด๊ธฐ์ ๋ง๋ค์ด์ง chunk๋ค์ด ๋์ค์ ๋ชฉํ์ ์ ๋๋ฌํด์ผ ํ๋ค๋ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. ์ด๋ trajectory๊ฐ ๋ชฉํ๋ฅผ ํฅํด ์ผ๊ด๋๊ฒ ์งํํ์ง ๋ชปํ๊ณ โ๋ฐฉํฉโํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํฉ๋๋ค.
CompDiffuser์ reverse diffusion process์์๋ ๋ค์๊ณผ ๊ฐ์ ์ผ์ด ์ผ์ด๋ฉ๋๋ค:
๋ณ๋ ฌ ์ด๊ธฐํ: ๋ชจ๋ K๊ฐ์ chunk๊ฐ Gaussian noise๋ก ์ด๊ธฐํ๋ฉ๋๋ค: \tau^i_T \sim \mathcal{N}(0, I), \quad \forall i \in \{1, ..., K\}
๋์ Denoising: ๊ฐ diffusion step t์์ ๋ชจ๋ chunk๊ฐ ๋์์ ์ ๋ฐ์ดํธ๋ฉ๋๋ค: \tau^i_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(\tau^i_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(\tau^i_t, t, \tilde{\tau}^{i-1}_t, \tilde{\tau}^{i+1}_t)\right) + \sigma_t z
์ ๋ณด ์ ํ: ๊ฐ chunk์ denoising์ด ์ธ์ chunk๋ค์ ํ์ฌ ์ํ์ ์์กดํ๋ฏ๋ก, ์ ๋ณด๊ฐ ์๋ฐฉํฅ์ผ๋ก ํ๋ฆ ๋๋ค.
์๋ ด: ์ต์ข ์ ์ผ๋ก ๋ชจ๋ chunk๊ฐ ์๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์ํ๋ก ์๋ ดํฉ๋๋ค.
์ด ๊ณผ์ ์ ๋ง์น ์ฌ๋ฌ ์ฌ๋์ด ๋์์ ํผ์ฆ์ ๋ง์ถ๋, ๊ฐ์๊ฐ ์ธ์ ํ ์ฌ๋๋ค์ ์งํ ์ํฉ์ ๊ณ์ ํ์ธํ๋ฉด์ ์์ ํ๋ ๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค.
3.4 Training Objective
CompDiffuser์ training objective๋ standard denoising score matching์ ํ์ฅํ ํํ์ ๋๋ค:
\mathcal{L}(\theta) = \mathbb{E}_{t, \tau, \epsilon}\left[\|\epsilon - \epsilon_\theta(\tau^i_t, t, \tilde{\tau}^{i-1}, \tilde{\tau}^{i+1})\|^2\right]
์ฌ๊ธฐ์: - t \sim \text{Uniform}(1, T): diffusion timestep - \tau \sim \mathcal{D}: ๋ฐ์ดํฐ์ ์์ ์ํ๋ง๋ trajectory - \epsilon \sim \mathcal{N}(0, I): noise - \tau^i_t = \sqrt{\bar{\alpha}_t}\tau^i + \sqrt{1-\bar{\alpha}_t}\epsilon: noisy trajectory chunk
์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง๋ \tilde{\tau}^{i-1}, \tilde{\tau}^{i+1}๋ ๋ค์ํ noise level์์ ์ํ๋ง๋ฉ๋๋ค. ์ด๋ inference ์์ ๋ค์ํ noise level์ ์กฐ๊ฑด์ robustํ๊ฒ ๋ง๋ค์ด์ค๋๋ค.
ํ์ต์ ํต์ฌ ํน์ง: - ๋จ์ผ ๋ชจ๋ธ: ์ฒซ ๋ฒ์งธ chunk, ์ค๊ฐ chunk, ๋ง์ง๋ง chunk ๋ชจ๋ ๋์ผํ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌ - Position-agnostic: chunk์ ์ ๋์ ์์น์ ์์กดํ์ง ์์ - Noise-level conditioning: ๋ค์ํ noise level์์์ ์กฐ๊ฑด๋ถ ์์ฑ ํ์ต
3.5 Autoregressive Sampling with Composition
์ค์ inference ์์๋ ํจ์จ์ฑ์ ์ํด autoregressive sampling ๋ฐฉ์์ด ์ฌ์ฉ๋ฉ๋๋ค:
Algorithm: CompDiffuser Inference
Input: start state s_0, goal state s_g, number of chunks K
Output: complete trajectory ฯ
1. Initialize: ฯ^K_T with s_g fixed at the end
2. For i = 1 to K:
a. Initialize ฯ^i_T ~ N(0, I) (except boundary conditions)
b. For t = T to 1:
- Compute ฮต_ฮธ(ฯ^i_t, t, ฯ^{i-1}, ฯ^{i+1})
- Update ฯ^i_{t-1} using DDPM update rule
- Apply inpainting for boundary conditions
c. Merge overlapping regions with previous chunk
3. Return concatenated trajectory ฯ = ฯ^1 โ ฯ^2 โ ... โ ฯ^K
Overlap ์์ญ์ ์ฒ๋ฆฌ: \tau^i_{overlap} = \lambda \cdot \tau^{i-1}_{end} + (1-\lambda) \cdot \tau^i_{start}
์ฌ๊ธฐ์ \lambda๋ blending coefficient์ ๋๋ค. ์คํ์์๋ ์ด์ chunk์ ๊ฐ์ ์ ์งํ๋ ๋ฐฉ์(\lambda = 1)์ด ํจ๊ณผ์ ์์ ํ์ธํ์ต๋๋ค.
4. ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ
4.1 Network Architecture
CompDiffuser๋ 1D U-Net ๊ธฐ๋ฐ์ architecture๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ ๋ ฅ ๊ตฌ์ฑ:
\text{Input} = [\tau^i_t; \tilde{\tau}^{i-1}; \tilde{\tau}^{i+1}] \in \mathbb{R}^{3H \times d_s}
์ฌ๊ธฐ์: - H: chunk์ horizon (timesteps ์) - d_s: state dimension
Diffusion timestep t๋ sinusoidal positional embedding์ ํตํด ๋คํธ์ํฌ์ ์ฃผ์ ๋ฉ๋๋ค:
\text{PE}(t) = [\sin(t/10000^{0/d}), \cos(t/10000^{0/d}), ..., \sin(t/10000^{(d-1)/d}), \cos(t/10000^{(d-1)/d})]
U-Net์ encoder-decoder ๊ตฌ์กฐ๋ ๋ค์ํ temporal scale์์์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํฉ๋๋ค. Skip connections๋ fine-grained details๋ฅผ ๋ณด์กดํฉ๋๋ค.
4.2 Handling Boundary Conditions
Goal-conditioned planning์์ boundary conditions ์ฒ๋ฆฌ๋ inpainting ๊ธฐ๋ฒ์ ํ์ฉํฉ๋๋ค:
\tau^1_t[0] = \sqrt{\bar{\alpha}_t} s_0 + \sqrt{1-\bar{\alpha}_t} \epsilon \tau^K_t[-1] = \sqrt{\bar{\alpha}_t} s_g + \sqrt{1-\bar{\alpha}_t} \epsilon
Denoising ๊ณผ์ ์์ ์ด ์์น๋ค์ ๋งค step๋ง๋ค ground truth ๊ฐ์ noisy version์ผ๋ก ๋์ฒด๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ์์ฑ๋ trajectory๊ฐ ์ ํํ ์์์ ์์ ์์ํ๊ณ ๋ชฉํ์ ์์ ๋๋๋๋ก ๋ณด์ฅํฉ๋๋ค.
๋ ์ ๊ตํ guidance๋ฅผ ์ํด classifier-free guidance๋ ์ ์ฉํ ์ ์์ต๋๋ค:
\tilde{\epsilon}_\theta = \epsilon_\theta(\tau^i_t, t, \emptyset) + w \cdot (\epsilon_\theta(\tau^i_t, t, s_0, s_g) - \epsilon_\theta(\tau^i_t, t, \emptyset))
์ฌ๊ธฐ์ w > 1์ guidance scale์ ๋๋ค.
4.3 Flexible Chunk Count at Inference
ํ์ต ์์๋ ๊ณ ์ ๋ ์์ chunk๋ก ํ์ตํ์ง๋ง, inference ์์๋ chunk ์ K๋ฅผ ์ ์ฐํ๊ฒ ์กฐ์ ํ ์ ์์ต๋๋ค. ์ด๋ CompDiffuser์ ์ค์ํ ํน์ง์ ๋๋ค.
Chunk ์ K์ overlap ๊ธธ์ด O์ ๊ด๊ณ:
L_{total} = K \cdot H - (K-1) \cdot O
์ฌ๊ธฐ์ L_{total}์ ์ ์ฒด trajectory ๊ธธ์ด์ ๋๋ค. K๋ฅผ ์ฆ๊ฐ์ํค๋ฉด: - ์ฅ์ : ๋ ๊ธด trajectory ์์ฑ ๊ฐ๋ฅ, ๋ ์ ์ฐํ ๊ฒฝ๋ก - ๋จ์ : overlap ๊ฐ์๋ก ์ธํ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ์ ํ ๊ฐ๋ฅ์ฑ
๋ ผ๋ฌธ์์๋ task์ ๋ณต์ก๋์ ๋ฐ๋ผ K๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค: - ๊ฐ๊น์ด goal: K = 3-5 - ๋จผ goal: K = 8-12 - ๋งค์ฐ ๋ณต์กํ ํ๊ฒฝ: K > 12
4.4 Replanning Strategy
์ค์ ๋ก๋ด ์ ์ด์์๋ open-loop planning๋ง์ผ๋ก๋ ๋ถ์ถฉ๋ถํฉ๋๋ค. CompDiffuser๋ ์์ฐ์ค๋ฝ๊ฒ replanning์ ์ง์ํฉ๋๋ค:
Replanning Algorithm:
Every N execution steps:
1. Get current robot state s_current
2. Estimate remaining distance to goal
3. Adjust K based on remaining distance
4. Generate new trajectory from s_current to s_g
5. Execute first segment of new trajectory
Replanning frequency์ ์ฑ๋ฅ์ trade-off: - ๋์ frequency: ๋ robustํ์ง๋ง ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ - ๋ฎ์ frequency: ํจ์จ์ ์ด์ง๋ง error accumulation ๊ฐ๋ฅ
์คํ์์๋ ๋งค chunk ์คํ ํ replanningํ๋ ๊ฒ์ด ์ข์ ๊ท ํ์ ๋ณด์์ต๋๋ค.
5. ์คํ ๊ฒฐ๊ณผ ๋ถ์
5.1 ์คํ ํ๊ฒฝ: OGBench
CompDiffuser์ ํ๊ฐ๋ ์ฃผ๋ก OGBench (Offline Goal-Conditioned RL Benchmark)์์ ์ํ๋์์ต๋๋ค.
ํ๊ฒฝ ๊ตฌ์ฑ
| Environment | State Dim | Action Dim | Max Horizon | Description |
|---|---|---|---|---|
| PointMaze | 4 | 2 | 1000 | 2D point mass navigation |
| AntMaze | 29 | 8 | 1000 | 8-DoF quadruped locomotion |
| HumanoidMaze | 67 | 21 | 4000 | 21-DoF humanoid locomotion |
| AntSoccer | 29+4 | 8 | 1000 | Ball dribbling task |
๋ฐ์ดํฐ์ ์ ํ
Stitch Dataset: ๊ฐ trajectory๊ฐ ์ต๋ 4๋ธ๋ก๋ง ์ด๋. ํ ์คํธ ์์๋ ์ต๋ 30๋ธ๋ก ์ด๋ ํ์.
\text{Train: } |\tau| \leq 4 \text{ blocks}, \quad \text{Test: } |\tau| \leq 30 \text{ blocks}
Explore Dataset: ๋์ action noise, ๋ฌด์์ ๋ฐฉํฅ ์ ํ. ๊ฐ trajectory๊ฐ 2-3๋ธ๋ก ๋ด์์ ์ง๋.
Navigate Dataset: ์ผ๋ฐ์ ์ธ navigation ๋ฐ์ดํฐ. Stitching ์๊ตฌ์ฌํญ ๋ฎ์.
5.2 Baseline ๋น๊ต
CompDiffuser๋ ๋ค์ํ baseline๋ค๊ณผ ๋น๊ต๋ฉ๋๋ค:
Diffusion ๊ธฐ๋ฐ: - Decision Diffuser (DD): Monolithic trajectory generation - Generative Skill Chaining (GSC): Skill-based hierarchical approach
Behavior Cloning: - GCBC: Goal-Conditioned BC with data augmentation - GCIVL: Implicit Value Learning
Offline RL: - GCIQL: Goal-Conditioned Implicit Q-Learning - QRL: Quasimetric RL - CRL: Contrastive RL - HIQL: Hierarchical Implicit Q-Learning
5.3 ์ฃผ์ ์คํ ๊ฒฐ๊ณผ
PointMaze Results
| Method | Medium | Large | Giant |
|---|---|---|---|
| GCBC | 45.2 | 12.3 | 0.0 |
| DD | 67.8 | 34.5 | 2.1 |
| GSC | 89.4 | 78.2 | 23.4 |
| HIQL | 82.1 | 65.3 | 15.6 |
| CompDiffuser | 96.8 | 94.2 | 87.3 |
CompDiffuser๋ ๋ชจ๋ maze ํฌ๊ธฐ์์ 90% ์ด์์ success rate๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ํนํ Giant maze์์ ๋ค๋ฅธ baseline๋ค ๋๋น 3๋ฐฐ ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
High-Dimensional State Spaces
AntMaze์ HumanoidMaze์์์ ๊ฒฐ๊ณผ๋ CompDiffuser์ scalability๋ฅผ ๋ณด์ฌ์ค๋๋ค:
AntMaze Large (29D state): - CompDiffuser (4D planning): 72.3% - CompDiffuser (17D planning): 68.9% - GSC (4D planning): 45.6% - HIQL: 38.2%
๊ณ ์ฐจ์ ์ํ ๊ณต๊ฐ์์๋ compositional approach๊ฐ ํจ๊ณผ์ ์์ ํ์ธํ ์ ์์ต๋๋ค.
Low-Quality Data (Explore)
Explore ๋ฐ์ดํฐ์ ์์์ ๊ฒฐ๊ณผ๋ ํนํ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค:
| Method | AntMaze-Medium | AntMaze-Large |
|---|---|---|
| HIQL | 23.4 | 8.7 |
| GSC | 31.2 | 12.3 |
| CompDiffuser | 58.9 | 41.2 |
๊ทน๋จ์ ์ผ๋ก noisyํ๊ณ suboptimalํ ๋ฐ์ดํฐ์์๋ CompDiffuser๋ ์๋ฏธ ์๋ trajectory stitching์ ์ํํ์ต๋๋ค.
5.4 Ablation Studies
Bidirectional vs Unidirectional Conditioning
| Conditioning | PointMaze-Large | AntMaze-Large |
|---|---|---|
| Unidirectional (โ) | 67.3 | 42.1 |
| Unidirectional (โ) | 71.2 | 48.6 |
| Bidirectional (โ๏ธ) | 94.2 | 72.3 |
์๋ฐฉํฅ conditioning์ด ~25% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ต๋๋ค.
Effect of Chunk Count K
PointMaze-Giant์์ K์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ:
| K | Success Rate | Avg. Path Length |
|---|---|---|
| 4 | 34.2% | 12.3 |
| 6 | 67.8% | 18.7 |
| 8 | 87.3% | 24.2 |
| 10 | 85.1% | 28.9 |
| 12 | 78.4% | 32.1 |
K๊ฐ ๋๋ฌด ์์ผ๋ฉด goal์ ๋๋ฌํ์ง ๋ชปํ๊ณ , ๋๋ฌด ํฌ๋ฉด overlap ๊ฐ์๋ก ์ธํด ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ด ์ ํ๋ฉ๋๋ค.
Replanning Frequency
| Replanning | Success Rate | Computation Time |
|---|---|---|
| Never | 72.3% | 1x |
| Every 2 chunks | 84.5% | 1.5x |
| Every chunk | 91.2% | 2.1x |
| Every 10 steps | 94.8% | 4.3x |
Replanning frequency๋ฅผ ๋์ผ์๋ก ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, ๊ณ์ฐ ๋น์ฉ๊ณผ์ trade-off๊ฐ ์กด์ฌํฉ๋๋ค.
6. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
6.1 Diffusion Models for Planning
Diffusion model์ planning์ ์ ์ฉํ ์ฐ๊ตฌ์ ๋ฐ์ :
Diffuser (Janner et al., 2022) - ์ต์ด์ diffusion-based planner - Trajectory ๋ถํฌ p(\tau) ํ์ต - Classifier-guided sampling์ผ๋ก reward ์ต๋ํ - ํ๊ณ: Monolithic generation, short horizon์ ์ ํ
Decision Diffuser (Ajay et al., 2023) - Return-conditioning ๋์ : p(\tau \mid R) - ๋ค์ํ ํ์ง์ trajectory ์์ฑ ๊ฐ๋ฅ - ํ๊ณ: ์ฌ์ ํ ํ์ต horizon์ ์ ํ
Diffusion Policy (Chi et al., 2023) - Action space์์์ diffusion - ๋ก๋ด manipulation์ ์ฑ๊ณต์ ์ ์ฉ - ํ๊ณ: Trajectory-level planning์ด ์๋ action-level
CompDiffuser์์ ํต์ฌ ์ฐจ์ด: \text{๊ธฐ์กด: } p(\tau) \quad \text{vs} \quad \text{CompDiffuser: } p(\tau^i \mid \tau^{i-1}, \tau^{i+1})
6.2 Hierarchical and Compositional Approaches
Generative Skill Chaining (GSC, Mishra et al., 2023) - Skill segments์ transition ๋ชจ๋ธ๋ง - Explicit skill boundaries ์ ์ - CompDiffuser ๋๋น: ๋ rigidํ ๊ตฌ์กฐ, boundary ์ ์ ํ์
Hierarchical Diffuser (Chen et al., 2024) - ๊ณ ์์ค: subgoal ์์ฑ - ์ ์์ค: subgoal ๊ฐ trajectory ์์ฑ - CompDiffuser ๋๋น: ๋ช ์์ ๊ณ์ธต ๊ตฌ์กฐ, ๋ ๊ฐ์ ๋ชจ๋ธ ํ์
CompDiffuser์ ์ฅ์ : - ๋จ์ผ ๋ชจ๋ธ๋ก compositional generation - Soft boundaries through overlapping - ๋ ์ ์ฐํ chunk ์ ์กฐ์
6.3 Trajectory Stitching in Offline RL
Value function ๊ธฐ๋ฐ stitching ๋ฐฉ๋ฒ๋ค:
HIQL (Park et al., 2023) V(s, g) = \mathbb{E}[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, \text{goal} = g] - Latent subgoals ์ฌ์ฉ - Implicit Q-learning์ผ๋ก ํ์ต - ํ๊ณ: Trajectory ํ์ง๋ณด๋ค ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ์ด์
Contrastive RL (Eysenbach et al., 2022) d(s, g) = -\log p(s \text{ leads to } g) - Temporal distance learning - Contrastive representation - ํ๊ณ: Smooth trajectory ์์ฑ ์ด๋ ค์
Quasimetric RL (Wang et al., 2023) - Quasimetric space์์์ ๊ฑฐ๋ฆฌ ํ์ต - Triangle inequality ํ์ฉ - ํ๊ณ: ๋ณต์กํ dynamics์์ ์ฑ๋ฅ ์ ํ
Generative vs Value-based ๋น๊ต:
| Aspect | Value-based | Generative (CompDiffuser) |
|---|---|---|
| Output | Optimal action | Full trajectory |
| Diversity | Single solution | Multiple solutions |
| Smoothness | May be jerky | Naturally smooth |
| Optimality | Explicit | Implicit |
| Computation | Fast inference | Slower inference |
6.4 ์ต์ ์ฐ๊ตฌ ๋ํฅ
State-Covering Trajectory Stitching (SCoTS, 2025) - Latent space์์ temporal distance ํ์ต - Trajectory augmentation์ผ๋ก ๋ฐ์ดํฐ์ ํ์ฅ - CompDiffuser์ ์ํธ๋ณด์์ ์ ๊ทผ
Flow-Matching for Planning (2025) v_\theta(x, t) = \mathbb{E}[x_1 - x_0 \mid x_t] - Diffusion์ ๋์์ formulation - ๋ ํจ์จ์ ์ธ sampling - Trajectory stitching์ผ๋ก์ ํ์ฅ ์ฐ๊ตฌ ์งํ ์ค
Compositional Understanding in Diffusion (Clark et al., 2025) - Positional equivariance์ locality์ ์ค์์ฑ ๋ถ์ - CompDiffuser์ ์ฑ๊ณต ์์ธ์ ๋ํ ์ด๋ก ์ ์ค๋ช ์ ๊ณต
7. ๋ ผ์: ์์ฌ์ ๊ณผ ํ๊ณ
7.1 ๋ก๋ด๊ณตํ์ ๋ํ ์์ฌ์
Data-Efficient Long-Horizon Planning
์ค์ ๋ก๋ด ํ๊ฒฝ์์ long-horizon demonstration์ ์์งํ๋ ๊ฒ์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. CompDiffuser๋ ์งง์ demonstration๋ค๋ง์ผ๋ก๋ long-horizon task๋ฅผ ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค:
\text{Data requirement: } O(H_{short}) \rightarrow \text{Capability: } O(K \cdot H_{short})
์ด๋ ๋ก๋ด ํ์ต์ data efficiency๋ฅผ K๋ฐฐ ํฅ์์ํฌ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
Compositional Generalization
๋ก๋ด์ด ํ์ตํ ๊ธฐ๋ณธ skill๋ค์ ์กฐํฉํ์ฌ ์๋ก์ด task๋ฅผ ์ํํ๋ ๊ฒ์ ์ค์ํ ์ฐ๊ตฌ ๋ชฉํ์ ๋๋ค:
\text{Skills: } \{S_1, S_2, ..., S_n\} \rightarrow \text{New Task: } S_i \circ S_j \circ S_k
CompDiffuser์ compositional approach๋ ์ด๋ฌํ ๋ฐฉํฅ์ผ๋ก์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
Robustness to Data Quality
Explore ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ์ ํนํ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์์ง๋๋ ๋ฐ์ดํฐ๋ ์ข ์ข : - Suboptimalํ human demonstrations - Noisy sensor readings - Incomplete trajectories
CompDiffuser๊ฐ ์ด๋ฌํ ์ ํ์ง ๋ฐ์ดํฐ์์๋ ์๋ฏธ ์๋ stitching์ ์ํํ ์ ์๋ค๋ ๊ฒ์ ์ค์ฉ์ ์ผ๋ก ์ค์ํ ํน์ฑ์ ๋๋ค.
7.2 ํ์ฌ ํ๊ณ์
Error Accumulation
๋ง์ ์์ chunk๋ฅผ composeํ ๋, ์๋ฐฉํฅ ์ ๋ณด ์ ํ ๊ณผ์ ์์ error๊ฐ ๋์ ๋ ์ ์์ต๋๋ค:
\epsilon_{total} = \sum_{i=1}^{K} \epsilon_i + \sum_{i=1}^{K-1} \epsilon_{stitch,i}
K๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ \epsilon_{total}์ด ์ ํ์ ์ผ๋ก ๋๋ ๊ทธ ์ด์์ผ๋ก ์ฆ๊ฐํ ์ ์์ต๋๋ค.
Chunk ์ K์ ๊ฒฐ์
์ต์ ์ chunk ์๋ task-dependentํฉ๋๋ค:
K^* = \arg\min_K \left[ P(\text{goal not reached} \mid K) + \lambda \cdot P(\text{infeasible} \mid K) \right]
ํ์ฌ๋ ์ด๋ฅผ ์๋์ผ๋ก ์ค์ ํด์ผ ํ๋ฉฐ, ์๋์ผ๋ก K๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค.
๊ณ์ฐ ๋น์ฉ
Diffusion-based planning์ ์ผ๋ฐ์ ์ผ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋์ต๋๋ค:
\text{Time} = O(K \cdot T_{diffusion} \cdot \text{NFE})
์ฌ๊ธฐ์ NFE(Number of Function Evaluations)๋ ์๋ฐฑ์์ ์์ฒ์ ๋ฌํ ์ ์์ต๋๋ค. Real-time ์ ์ฉ์ ์ํด์๋: - DDIM๊ณผ ๊ฐ์ accelerated sampling - Distillation ๊ธฐ๋ฒ - Progressive generation strategies
๊ฐ ํ์ํฉ๋๋ค.
Dynamic Environments
ํ์ฌ ํ๊ฐ๋ ์ฃผ๋ก ์ ์ ํ๊ฒฝ์์ ์ํ๋์์ต๋๋ค. ๋์ ์ผ๋ก ๋ณํํ๋ ํ๊ฒฝ์์๋: - Moving obstacles - Changing goal locations
- Non-stationary dynamics
์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
7.3 ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
1. Adaptive Chunk Selection
Algorithm: Adaptive K Selection
1. Start with K_min
2. Generate trajectory
3. Evaluate feasibility score F(ฯ)
4. If F(ฯ) < threshold and K < K_max:
K = K + 1
goto 2
5. Return best trajectory
2. Learning-Based Chunk Count Prediction K^* = f_\phi(s_0, s_g, \text{environment features})
์ ๊ฒฝ๋ง์ ํตํด ์ต์ ์ K๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ
3. Hierarchical CompDiffuser - ๊ณ ์์ค: coarse waypoints ์์ฑ - ์ ์์ค: waypoints ์ฌ์ด๋ฅผ CompDiffuser๋ก ์ฐ๊ฒฐ
4. Multi-Modal Conditioning - Language instructions - Visual observations - Force/torque feedback
5. Real Robot Deployment - Sim-to-real transfer - Online adaptation - Safety constraints integration
8. ๊ฒฐ๋ก
CompDiffuser๋ diffusion model์ compositional ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ trajectory stitching ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ Contributions
Compositional Formulation: Trajectory ๋ถํฌ๋ฅผ overlapping chunks์ ๋ถํฌ๋ก ๋ถํด p(\tau) = \prod_{i=1}^{K} p(\tau^i \mid \tau^{i-1}, \tau^{i+1})
Bidirectional Information Propagation: Noise-conditioned score function์ ํตํ ์๋ฐฉํฅ ์ ๋ณด ์ ํ s_\theta(\tau^i, t \mid \tilde{\tau}^{i-1}, \tilde{\tau}^{i+1})
Flexible Inference: ๋จ์ผ ๋ชจ๋ธ๋ก ๋ค์ํ ๊ธธ์ด์ trajectory ์์ฑ K \in \{K_{min}, ..., K_{max}\} \text{ at inference time}
Strong Empirical Results: OGBench๋ฅผ ํฌํจํ ๋ค์ํ ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ
์ฐ๊ตฌ์ ์์
์ด ์ฐ๊ตฌ๋ generative models๋ฅผ ํ์ฉํ ๋ก๋ด planning ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ ๋๋ค. ํนํ ์งง์ demonstration ๋ฐ์ดํฐ๋ง์ผ๋ก long-horizon task๋ฅผ ํด๊ฒฐํ ์ ์๋ค๋ ์ ์ ์ค์ฉ์ ์ผ๋ก ๋งค์ฐ ๊ฐ์น ์์ต๋๋ค.
CompDiffuser๋ โ์ ์ฒด๋ ๋ถ๋ถ์ ํฉ๋ณด๋ค ํฌ๋คโ๋ ์๋ฆฌ๋ฅผ ๊ฑฐ๊พธ๋ก ์ ์ฉํฉ๋๋ค: ๊ธด trajectory๋ฅผ ์ง์ ํ์ตํ๊ธฐ ์ด๋ ต๋ค๋ฉด, ์งง์ ์กฐ๊ฐ๋ค์ ์๋ฆฌํ๊ฒ ์กฐํฉํ์ฌ ๊ธด trajectory๋ฅผ ๊ตฌ์ฑํ ์ ์์ต๋๋ค.
์์ผ๋ก ์ด๋ฌํ compositional approach๊ฐ:
- ๋ ๋ณต์กํ manipulation tasks
- Multi-agent coordination
- Language-conditioned planning
- Real-world robotic systems
์ผ๋ก ํ์ฅ๋๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
Introduction
๋ก๋ด์ ์ฅ๊ธฐ ๊ณํ(long-horizon planning) ๋ฌธ์ ๋ ์์ ์ํ์์ ๋ชฉํ ์ํ์ ๋๋ฌํ๊ธฐ ์ํ ๊ธด ์ํ์ค์ ํ๋ ๋ฐ ์ํ ๊ถค์ ์ ์ฐพ์์ผ ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ๊ธฐ์กด ๊ฐํํ์ต์ด๋ ๊ฒฝ๋ก๊ณํ ๊ธฐ๋ฒ์ ์ ์ฒด ๊ฒฝ๋ก๋ฅผ ํ ๋ฒ์ ๊ณํํ๋ ค๋ค ๋ณด๋ ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ์ธก๋ฉด์์ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค. ์ต๊ทผ ํ์ฐ ๋ชจ๋ธ(diffusion model) ๊ธฐ๋ฐ ์์ฑ ํ๋๋๋ค์ด ๊ธด ๊ณํ ์ํ์ค๋ฅผ ๋ฐ์ดํฐ ๋ถํฌ๋ก๋ถํฐ ์์ฑํ๋ ์ ๊ทผ์ ์ ๋ณด์์ง๋ง, ํ๋ จ ๋ฐ์ดํฐ์ ์ ์ฌํ ์์ ์๋ง ์ผ๋ฐํ๋๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ๋ค์ ๋งํด, ๊ธฐ์กด Diffuser ๊ณ์ด ๋ชจ๋ธ์ ํ์ต ์ ์ ๊ณต๋ ๋ฒ์์ ์์โ๋ชฉํ ์ ๋ด์์๋ง ์ ํจํ ๊ณํ์ ์์ฑํ ์ ์๊ณ , ๊ทธ ํ์ต ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ ์๋ก์ด ๊ณผ์ ์๋ ์ ๋๋ก ๋์ํ์ง ์๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
ํํธ, ๊ถค์ ์คํฐ์นญ(trajectory stitching)์ ๊ฐํํ์ต ๋ถ์ผ์์ ์ ์๋ ๊ฐ๋ ์ผ๋ก, ๊ณผ๊ฑฐ์ ๊ด์ฐฐ๋ ์งง์ ๊ณ ํ์ง ๊ถค์ ์กฐ๊ฐ๋ค์ ์ด์ด๋ถ์ฌ์ ๋ ๋์ ์ฅ๊ธฐ ์ ์ฑ ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ณด์๊ฐ์ด ๋์ ๊ฒฝ๋ก ์กฐ๊ฐ๋ค์ ๊ฒน์น๋ ์ง์ ์์ ์ฐ๊ฒฐํด ์๋ก์ด ๊ฒฝ๋ก๋ฅผ ๊ตฌ์ฑํจ์ผ๋ก์จ ๊ธด ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ตฌ์ฑ์ ์ผ๋ฐํ(compositional generalization)๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ์ด๋ ์ง์ ์์ ์ด๋ป๊ฒ ์ฐ๊ฒฐํด์ผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋๊ณ ์คํ ๊ฐ๋ฅํ(dynamic consistency) ๊ฒฝ๋ก๊ฐ ๋๋์ง ์ฐพ๋ ๊ฒ์ด ํต์ฌ ๋์ ์ ๋๋ค. ๊ธด ์ฐ์ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋์ ์งง์ ์ธ๊ทธ๋จผํธ๋ฅผ ์กฐํฉํ๋ ค๋ฉด, ์ฐ๊ฒฐ์ ์์์ ์ํํ ์ ํ์ด ๋ด๋ณด๋์ด์ผ ํฉ๋๋ค.
Generative Trajectory Stitching through Diffusion Composition ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด CompDiffuser๋ผ๋ ์๋ก์ด ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์์ฑ ํ๋๋๋ฅผ ์ ์ํฉ๋๋ค. CompDiffuser๋ ์งง์ ๊ถค์ ์ฒญํฌ(trajectory chunk)๋ค์ ํ์ตํ๊ณ , ์ด๋ฅผ ๊ตฌ์ฑ์ (compositional)์ผ๋ก ์ด์ด๋ถ์ฌ ๋ณธ ์ ์๋ ์ฅ๊ธฐ ๊ณผ์ ๋ฅผ ํ์ด๋ ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์ ์ฒด ๊ถค์ ๋ถํฌ๋ฅผ ์ฌ๋ฌ ๊ฒน์ณ์ง๋(chunk overlap) ๋ถ๋ถ ๊ถค์ ์ผ๋ก ์ธ๋ถํํ๊ณ , ์ด๋ค ์ธ์ ์ฒญํฌ ๊ฐ์ ์กฐ๊ฑด๋ถ ๊ด๊ณ๋ฅผ ํ๋์ ์๋ฐฉํฅ ํ์ฐ ๋ชจ๋ธ(bidirectional diffusion model)๋ก ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์์ฑ ๋จ๊ณ์์ ๊ฐ ๋ถ๋ถ ๊ถค์ ์ด ์๋ก ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ์ผ๋ฉฐ ์ ์ง์ ์ผ๋ก ์์ฑ๋์ด, ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ฐ์ค๋ฌ์ด ์ฐ๊ฒฐ์ด ์ด๋ฃจ์ด์ง๋๋ค. CompDiffuser๋ ์งง์ ๋ฒ์์ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ๊ณ ๋, ์ด์ ์ ๋ณด์ง ๋ชปํ ๋ ๊ธด ๊ฒฝ๋ก๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ณํํ ์ ์์์ ๋ค์ํ ๋ก๋ด ํ๊ฒฝ ์คํ์ ํตํด ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์๋์์๋ ๋ณธ ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ์ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์์ ์๊ฐ์์ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Main Contributions
๋ ผ๋ฌธ์์ ์ ์๋ค์ CompDiffuser๋ฅผ ํตํด ์ป์ ํต์ฌ ์ฑ๊ณผ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํฉ๋๋ค:
- ๊ตฌ์ฑ์ ํ์ฐ ๊ณํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์ต๋๋ค. ๋ ธ์ด์ฆ ์ํ ์กฐ๊ฑด๋ถ ํ์ต ๋ฐฉ์์ ํตํด ํ๋์ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ๊ถค์ ์ธ๊ทธ๋จผํธ๋ฅผ ๊ฐ๊ฐ ์์ฑํ๋ฉด์ ์ ์ฒด ๊ถค์ ์ ๊ตฌ์ฑ์ ๋ถํฌ๋ฅผ ํ์ตํ ์ ์์ต๋๋ค. ์ฆ, ๊ธด ๊ถค์ ์์ฑ์ ์ฌ๋ฌ ๋ถ๋ฆฌ๋ ํ์ฐ ๋๋ ธ์ด์ง ๊ณผ์ ๋ค์ ์ํ์ค๋ก ๋ถํดํ์ฌ ํ์ตํ๋๋ก ํ์์ต๋๋ค.
- ์๋ฐฉํฅ ์ ๋ณด์ ๋ฌ ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ต๋๋ค. ์ธ์ ํ ๊ถค์ ์ฒญํฌ๋ค์ ์กฐ๊ฑด์ผ๋ก ํ์ฉํ์ฌ ์ํธ ์์กด์ ์ผ๋ก ๋๋ ธ์ด์งํจ์ผ๋ก์จ, ๋ถ๋ถ ๊ถค์ ์ฌ์ด์ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ(continuity & feasibility)์ ์ ์งํ๋ ๋ชฉํ ์กฐ๊ฑด๋ถ ์ฅ๊ธฐ ๊ณํ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค. Diffuser ๊ธฐ๋ฐ ํ๋๋์ ์๋ฐฉํฅ ์ ๋ณด ์ ํ๋ฅผ ์ ์ฉํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
- ๋ค์ํ ๊ถค์ ์คํฐ์นญ ๋ฒค์น๋งํฌ ์คํ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ์ต๋๋ค. ๋ชจ๋ฐฉํ์ต, ์คํ๋ผ์ธ RL, ๊ธฐ์กด ํ์ฐ ํ๋๋ ๋ฑ ์ฌ๋ฌ ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ ๋ชจ๋ ํ๊ฒฝ์์ ์ฑ๊ณต๋ฅ ๋ฑ์์ ์ ์๋ฏธํ ๊ฐ์ ์ ๋ฌ์ฑํ์๊ณ , ๋ชจ๋ธ์ ๊ธฐ๋ฅ๊ณผ ํ๊ณ๋ฅผ ์์ธ ๋ถ์ํ์ต๋๋ค.
์์ฝํ๋ฉด, CompDiffuser๋ ์งง์ ๊ถค์ ์กฐ๊ฐ๋ค๋ง์ผ๋ก ํ์ตํ๊ณ ๋ ๋ ๊ธด ์๋ก์ด ๊ณผ์ ๋ฅผ ํ์ด๋ผ ์ ์๋ ์์ฑ์ ํ๋๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์์ผ๋ฉฐ, ์ด์ ์กฐ๊ฑด๋ถ ํ์ฐ์ด๋ผ๋ ๋ ์ฐฝ์ ์ธ ๊ธฐ๋ฒ์ผ๋ก ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ฐ์ค๋ฌ์ด ๊ถค์ ์ฐ๊ฒฐ์ ๋ฌ์ฑํ์์ต๋๋ค.
CompDiffuser์ ๋ฐฉ๋ฒ ๋ฐ ๋ชจ๋ธ ๊ตฌ์กฐ
๊ถค์ ์ ๊ตฌ์ฑ์ ๋ชจ๋ธ๋ง (Trajectory Distribution Factorization)
CompDiffuser๋ ์ ์ฒด ๊ถค์ ์ ์ง์ ํ๋์ ์ํ์ค๋ก ์์ฑํ๋ ๋์ , ์ด๋ฅผ ์ฌ๋ฌ ๊ฐ์ ๊ฒน์น๋ ๋ถ๋ถ ๊ถค์ ์ผ๋ก ๋ถํ ํ์ฌ ๋ชจ๋ธ๋งํฉ๋๋ค. ๊ฐ๊ฐ์ ๋ถ๋ถ ๊ถค์ ์ \tau_k (k๋ฒ์งธ ์ฒญํฌ)๋ผ๊ณ ํ ๋, ์ด๋ค์ ์ธ์ ์ฒญํฌ๋ค๊ณผ ์ผ๋ถ ๊ตฌ๊ฐ์ ๊ณต์ ํ๋๋ก ๊ฒน์ณ์ง๋๋ค. ํนํ \tau_{k}์ \tau_{k+1}๋ ์ค๋ณต๋๋ ์ํ ๊ตฌ๊ฐ(overlap)์ ๊ฐ์ง๋ฉฐ, ์ด๋ฅผ ํตํด ์ฐ๊ฒฐ๋ถ์ ์ฐ์์ฑ์ ์ ์งํฉ๋๋ค. ์ด๋ฌํ ์ธ๋ถํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์ ์ฒด ๊ถค์ \tau์ ๋ถํฌ๋ฅผ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ค์ ๊ณฑ์ผ๋ก ํํํฉ๋๋ค:
p_\theta(\tau \mid q_s, q_g) \;\propto\; p_{1}(\tau_{1} \mid q_s,\, \tau_{2}) \;\; p_{K}(\tau_{K} \mid \tau_{K-1},\, q_g)\; \prod_{k=2}^{K-1} p_{k}(\tau_{k} \mid \tau_{k-1},\, \tau_{k+1}) \,.
์ ์์์ q_s์ q_g๋ ๊ฐ๊ฐ ์ ์ฒด ๊ถค์ ์ ์์ ์ํ(start state)์ ๋ชฉํ ์ํ(goal state)์ด๋ฉฐ, \tau_1์ ์ฒซ ์ฒญํฌ, \tau_K๋ ๋ง์ง๋ง ์ฒญํฌ๋ฅผ ๋ํ๋ ๋๋ค. ์ฒซ ์ฒญํฌ \tau_1์ ์์ ์ํ q_s์ ๋ค์ ์ฒญํฌ \tau_2์ ์์กดํ๊ณ , ๋ง์ง๋ง ์ฒญํฌ \tau_K๋ ์ด์ ์ฒญํฌ \tau_{K-1}๊ณผ ๋ชฉํ ์ํ q_g์ ์์กดํ๋ ํํ์ ๋๋ค. ์ค๊ฐ์ ๊ฐ ์ฒญํฌ \tau_k๋ ์ค์ง ์ธ์ ํ ์ฒญํฌ๋ค \tau_{k-1}, \tau_{k+1}์๋ง ์กฐ๊ฑด๋ถ ์์กด์ฑ์ ๊ฐ์ง๋๋ค. ์ด Markov ๊ตฌ์กฐ๋ฅผ ํตํด, ๋ชจ๋ธ์ ์ ์ฒด ๊ธด ๊ถค์ ์ ํ๊บผ๋ฒ์ ํ์ตํ์ง ์๊ณ ๋ ๊ตญ์์ ์ธ ์ฐ๊ฒฐ ๊ตฌ์กฐ๋ง ํ์ตํ๋ฉด ๋๋ฏ๋ก, ํ์ต ๋์ด๋๊ฐ ๋ฎ์์ง๊ณ ์ํ ํจ์จ์ฑ์ด ๋์์ง๋๋ค. ์์ปจ๋, CompDiffuser๋ โ๋ถ๋ถ์ ์๋ฉด ์ ์ฒด๋ฅผ ์กฐํฉํด๋ผ ์ ์๋คโ๋ ๊ตฌ์ฑ์ ์๋ฆฌ๋ฅผ ํ์ฐ ๋ชจ๋ธ์ ๋์ ํ์ฌ ๊ธด ๊ถค์ ๋ถํฌ๋ฅผ ๊ทผ์ฌํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ์ต ๋ฐ์ดํฐ์์ ๋ณธ ์ ์๋ ์์โ๋ชฉํ ์กฐํฉ์ด๋ผ๋, ๊ฐ ์ค๊ฐ ์กฐ๊ฐ๋ค๋ง ์ต์ํ ํจํด์ด๋ผ๋ฉด ์๋ก์ด ์ฅ๊ฑฐ๋ฆฌ ๊ฒฝ๋ก๋ก ์กฐํฉํด๋ผ ์ ์๊ฒ ๋ฉ๋๋ค. ์ค์ ๋ก CompDiffuser๋ ๊ธด ํ์ต ๊ถค์ ๋ฐ์ดํฐ ์์ด๋ ์ด๋ฌํ ์ ๊ทผ์ผ๋ก ์ฅ๊ธฐ ๊ณํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ธ์ ์ฒญํฌ ์กฐ๊ฑด๋ถ ํ์ฐ ๋ชจ๋ธ๊ณผ ์๋ฐฉํฅ ์ ๋ณด ์ ๋ฌ
CompDiffuser์ ํต์ฌ์ ๊ฐ ์ฒญํฌ๋ฅผ ์์ฑํ ๋ ์ธ์ ํ ์ฒญํฌ๋ค์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฐ ์์ต๋๋ค. ์ผ๋ฐ์ ์ธ ํ์ฐ ํ๋ฅ ๋ชจ๋ธ(diffusion probabilistic model)์์๋ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ค๊ฐ ์ ๊ฑฐํ๋ ๋๋ ธ์ด์ง ๊ณผ์ ์ ๊ฑฐ์ณ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. CompDiffuser๋ ๋จ์ผํ ํ์ฐ ๋ชจ๋ธ(denoising network \epsilon_\theta)์ ํ๋ จํ์ฌ, ํ์ฌ ์ฒญํฌ \tau_k์ ๋๋ ธ์ด์ง ์ถ๋ ฅ์ด ์ด์ ์ฒญํฌ \tau_{k-1}, \tau_{k+1}์ ์ํ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ก ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ๋ จ ์ ์์์ ๊ถค์ \tau์์ ๋ถ๋ถ ์ฒญํฌ \tau_k๋ฅผ ๋ฝ์ ๋ ธ์ด์ฆ๋ฅผ ์์ ์ํ \tau^t_k (noise level t)๋ฅผ ๋ง๋ค๊ณ , ๊ฐ์ t ๋จ๊ณ์์ ์ด์ ์ฒญํฌ๋ค \tau^t_{k-1}, \tau^t_{k+1}๋ ํจ๊ป ๋ ธ์ด์ฆ ์ํ๋ก ์ ๊ณตํฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ \epsilon_\theta๋ \tau^t_{k} (์ค์ ์ฒญํฌ)์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋๋ก ํ์ต๋๋๋ฐ, ์ด๋ ์กฐ๊ฑด๋ถ ์ ๋ ฅ์ผ๋ก ์ด์๋ค์ ๋ ธ์ด์ฆ ์ํ (\tau^t_{k-1}, \tau^t_{k+1})๋ฅผ ํจ๊ป ๋ฐ์ต๋๋ค. ๋ชจ๋ธ์ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
L_{\text{nbr}} = \mathbb{E}_{\tau \sim D, t, k} \Big[ \big\| \epsilon - \epsilon_\theta(\tau^t_k, t \mid \tau^t_{k-1}, \tau^t_{k+1}) \big\|^2 \Big]
์ฌ๊ธฐ์ \epsilon์ ์ค์ ์ถ๊ฐ๋ ๋ ธ์ด์ฆ์ด๋ฉฐ, \epsilon_\theta(\cdot\|\tau^t_{k-1}, \tau^t_{k+1})๋ ๋ชจ๋ธ์ด ์ด์ ์ฒญํฌ๋ค์ ํ์ฌ ๋ ธ์ด์ฆ ์ํ๋ฅผ ์ฐธ๊ณ ํ์ฌ \tau^t_k์ ๋ ธ์ด์ฆ๋ฅผ ์์ธกํ๋ ํจ์์ ๋๋ค. ์ด ์ด์ ์กฐ๊ฑด๋ถ ํ์ต(noisy-sample conditioning)์ ํตํด ๋ชจ๋ธ์ ์ธ์ ๋ถ๋ถ ๊ฐ์ ๊ฒฝ๊ณ์์ ์ด๋ป๊ฒ ํํ๋ฅผ ์ก์์ผ ์์ฐ์ค๋ฌ์ด์ง๋ฅผ ํ์ตํ๊ฒ ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ถ๋ถ ์ฒญํฌ \tau_{k-1}์ด ์ด๋ค ๋ฐฉํฅ์ผ๋ก ์งํ ์ค์ด๋ผ๋ฉด, \tau_k๋ ๊ทธ ๋ฐฉํฅ๊ณผ ๋งค๋๋ฝ๊ฒ ์ด์ด์ง๋๋ก ๋ชจ์์ ์ก์๊ฐ๋ ์์ ๋๋ค. ๋๋ ธ์ด์ง ๊ณผ์ ๋์ ๊ฐ ์ฒญํฌ์ ์์ฑ์ด ์ด์์ ์ํฅ์ ๋ฐ๊ณ ๋ ์ด์์ ์ํฅ์ฃผ๋ฉด์ ์๋ฐฉํฅ์ผ๋ก ์ ๋ณด๊ฐ ํ๋ฅด๊ฒ ๋์ด, ์ต์ข ์ ์ผ๋ก ๋์ ์ผ๊ด์ฑ(dynamic consistency) ์๋ ์ฐ๊ฒฐ์ด ์ด๋ฃจ์ด์ง๋๋ค. ์ด๋ฌํ ์๋ฐฉํฅ ์ ๋ณด ์ ํ๋ CompDiffuser์ ๊ฐ์ฅ ํฐ ๊ธฐ์ ์ ํน์ง์ผ๋ก, ์ธ์ ์ฒญํฌ๋ค์ด ์๋ก์ ๋ถ๋ถ์ ์ธ ์งํ ์ํฉ์ ๋ณด๋ฉฐ ์กฐ์จํ๊ธฐ ๋๋ฌธ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๋๋ฌ์ด ๊ถค์ ์ฐ๊ฒฐ์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํํธ, ๊ถค์ ์ ์์๊ณผ ๋ชฉํ ์กฐ๊ฑด๋ ์ ์ฌํ๊ฒ ๋ชจ๋ธ์ ํฌํจ๋ฉ๋๋ค. CompDiffuser๋ ์ฒซ ๋ฒ์งธ ์ฒญํฌ \tau_1 ์์ฑ ์์๋ ์ฃผ์ด์ง ์์ ์ํ q_s๋ฅผ, ๋ง์ง๋ง ์ฒญํฌ \tau_K ์์ฑ ์์๋ ๋ชฉํ ์ํ q_g๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฃ์ด์ฃผ๋ ๋ณ๋ ํ์ต ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค. ์ด๋ ๋ง์น q_s๋ q_g ์์ฒด๊ฐ ์ธ์ ์ฒญํฌ์ธ ๊ฒ์ฒ๋ผ ๊ฐ์ฃผํ์ฌ ๋ชจ๋ธ์ ๊ณต๊ธํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํ๋ฉ๋๋ค. ์ด๋ฅผ ์ํด ์ (4)์ ๊ฐ์ด q_s๊ฐ ์ฃผ์ด์ก์ ๋ ์ฒซ ์ฒญํฌ๋ฅผ ๋๋ ธ์ด์งํ๋ ์ถ๊ฐ ์์ค L_{\text{start}}์, q_g์ ๋ํ ์ ์ฌ ์์ค์ ํ๋ จ์ ํฌํจ์์ผ ๋์ผํ ๋ชจ๋ธ์ด ์ ๋๋จ์ ์กฐ๊ฑด๊น์ง ํํํ๋๋ก ํ์ต๋๋ค. ๋ง๋ถ์ฌ, ์ด๋ฌํ ์์/๋ชฉํ ์ํ ์กฐ๊ฑด ๋ถ์ฌ๋ ์ด๋ฏธ ์๊ณ ์๋ ๋ถ๋ถ(inpainting)์ ์ ์งํ๋ฉด์ ๋๋จธ์ง๋ฅผ ์ฑ์๋ฃ๋ ์ธํ์ธํ ๊ธฐ๋ฒ๊ณผ ์ ์ฌํ ํํ๋ก ๋ชจ๋ธ์ ์ ์ฉ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด CompDiffuser๋ ๋ชฉํ ์งํฅ์ ์ธ ๊ถค์ ์ํ์ ๋ง๋ค์ด๋ผ ์ ์์ผ๋ฉฐ, ์ค์ ํ ์คํธ ์์๋ q_s, q_g๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด ์ฒซ ์ฒญํฌ์ ๋ง์ง๋ง ์ฒญํฌ๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ๊ณ ์ ์ํต๋๋ค.
ไปฅไธ์ ๊ตฌ์ฑ์ผ๋ก ํ๋ จ๋ ๋จ์ผ ํ์ฐ ๋ชจ๋ธ์ ์์์ ๊ธธ์ด K์ ๋ถ๋ถ ๊ถค์ ๋ค์ ๋ํด, ์ด์๋ค์ ๋ ธ์ด์ฆ ์ํ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ณ๋ ฌ์ ์ด๊ณ ๋ ์๋ฐฉํฅ์ ์ผ๋ก ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ฉฐ ์ ์ฒด ๊ถค์ ์ ํ์ฑํด ๋๊ฐ ์ค๋น๊ฐ ๋ฉ๋๋ค. ์ค์ํ ์ ์, ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ณ๋ ฌ ์์ฑ๊ณผ ์์ฐจ ์์ฑ(autoregressive) ๋ชจ๋๋ฅผ ์ง์ํ๋ค๋ ๊ฒ์ ๋๋ค. ๋ค์์ผ๋ก ์ด ๋ ๊ฐ์ง ์์ฑ ์ ๋ต์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๊ถค์ ์์ฑ ์ ๋ต: ๋ณ๋ ฌ vs. ์๊ธฐํ๊ท (Parallel vs Autoregressive Sampling)
CompDiffuser์์๋ ํ์ฐ ๋๋ ธ์ด์ง ๊ณผ์ ์์ ๊ฐ ์ฒญํฌ๋ค์ ์ด๋ค ์์๋ก ์ ๋ฐ์ดํธํ๋๋์ ๋ฐ๋ผ ๋ ๊ฐ์ง ์ํ๋ง ์ ๋ต์ ์ทจํ ์ ์์ต๋๋ค.
๋ณ๋ ฌ ์ํ๋ง (Parallel Sampling): ๋ชจ๋ ๊ถค์ ์ฒญํฌ \tau_{1:K}์ ๋์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ํ์์, ๋งค ๋๋ ธ์ด์ง ์คํ ๋ง๋ค ์ด์ ์ฒญํฌ๋ค์ ์ด์ ์คํ ๋ ธ์ด์ฆ ์ํ๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋์์ ๋ ธ์ด์ฆ๋ฅผ ์ค์ฌ๋๊ฐ๋ ๋ฐฉ์์ ๋๋ค. ๊ฐ ์คํ ์์๋ \tau_k๋ฅผ ๊ฐฑ์ ํ ๋ \tau_{k-1}, \tau_{k+1}์ ์ง์ ๋จ๊ณ(timestep)์ ๊ฐ๋ง ์ฐธ๊ณ ํ๋ฏ๋ก, K๊ฐ์ ์ฒญํฌ๊ฐ ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก(๋์์) ์ ๋ฐ์ดํธ๋ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๋ฌ ์ธ๊ทธ๋จผํธ๋ฅผ ํ๊บผ๋ฒ์ ์์ฑํ๋ฏ๋ก ๊ณ์ฐ ์๋๊ฐ ๋น ๋ฅธ ์ฅ์ ์ด ์์ง๋ง, ์ค์ ์ ๋ณด ๊ตํ์ด ์ ํ์ ์ด๋ผ๋ ๋จ์ ์ด ์์ต๋๋ค. ์ฆ, ๊ฐ์ ์คํ ๋ด์์๋ ์ด์๋ค์ด ์์ง ์ ๋ฐ์ดํธ๋์ง ์์๊ธฐ ๋๋ฌธ์, ์์ ํ ํ์กฐ์ ์ธ ์์ฑ์ ์ด๋ฃจ์ด์ง์ง ์๊ณ ์ด๋ ์ ๋ ๋์จํ ์๋ฐฉํฅ ์ฐ๊ฒฐ๋ง ์ป๋ ์ ์ ๋๋ค.
์๊ฐํ๊ท ์ํ๋ง (Autoregressive Sampling): ํ๋์ ์ฒญํฌ์ฉ ์์ฐจ์ ์ผ๋ก ๋๋ ธ์ด์ง์ ์๋ฃํด๊ฐ๋ฉฐ ์งํํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด K=3์ผ ๋, \tau_1์ ์ถฉ๋ถํ ๋๋ ธ์ด์งํ ํ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์กฐ๊ฑด์ผ๋ก \tau_2๋ฅผ ๋๋ ธ์ด์งํ๊ณ , ๋ค์ ์ด๋ฅผ ํ ๋๋ก \tau_3๋ฅผ ๋๋ ธ์ด์งํ๋ ์์ ๋๋ค. ๊ตฌํ์์ผ๋ก๋ ํ์ฐ์ ์๊ฐ ๋จ๊ณ t๋ง๋ค ์ด์ ์ฒญํฌ๋ ํ ๋จ๊ณ ๋ ๊นจ๋ํ(noise level t-1) ์ํ, ๋ค์ ์ฒญํฌ๋ ์์ง ํ ๋จ๊ณ ๋ค์ง(noise level t) ์ํ์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ์ฒญํฌ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ด์ ์ฒญํฌ๋ค์ด ๋ ๊นจ๋ํ ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๋ฏ๋ก ๊ฐ ๋จ๊ณ์์ ๋์ฑ ๊ธด๋ฐํ ์ธ๊ทธ๋จผํธ ๊ฐ ํ์กฐ๊ฐ ์ด๋ฃจ์ด์ง๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐ ๊ตฌ๊ฐ์ ์ ๋ฐ๋์ ๊ณํ ํ์ง์ด ํฅ์๋์ง๋ง, ๋จ์ ์ ์ฒญํฌ๋ค์ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ์๊ฐ์ด ๋์ด๋๋ ์ ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ณ๋ ฌ ๋๋น ์๊ฐํ๊ท์ ๊ณ์ฐ๋น์ฉ ์ฆ๊ฐ๋ฅผ ๋ณด๊ณ ํ์์ผ๋, ์ต์ข ํ๋๋ ์ฑ๋ฅ์ ํฅ์๋จ์ ์คํ์ ์ผ๋ก ํ์ธํ์ต๋๋ค. CompDiffuser์ ์ฃผ์ ์คํ๋ค์ ์๊ฐํ๊ท ๋ชจ๋๋ก ์ํ๋์์ผ๋ฉฐ, ๊ทธ ํจ๊ณผ๋ Table VII ๋ฑ์ ์ ๋์ ์ผ๋ก ๋น๊ต๋์ด ์์ต๋๋ค.
์ด ๋ ๋ฐฉ๋ฒ์ ๊ทธ๋ฆผ์ผ๋ก ํํํ๋ฉด, ๋ณ๋ ฌ ์ํ๋ง์ ๊ฒฝ์ฐ ๋ชจ๋ ์ฒญํฌ๊ฐ ๋์์ ์๋ ๋ฐฉํฅ(๋ ธ์ด์ฆ ์ ๊ฑฐ ๋ฐฉํฅ)์ผ๋ก ์งํ๋๊ณ , ์ธ์ ๊ฐ์๋ ๊ฐ๋ก ๋ฐฉํฅ์ ์์ ์ ๋ณด ๊ตํ(์ด์ ๋จ๊ณ์ noisy neighbor)๋ง ์๋ ๋ฐ๋ฉด, ์๊ฐํ๊ท ์ํ๋ง์ ํ ์ฒญํฌ๊ฐ ์ด๋ ์ ๋ ๊นจ๋ํด์ง ํ์์ผ ๋ค์ ์ฒญํฌ๋ฅผ ์งํํ๋ฉด์ ์ฒญํฌ ๊ฐ ๋ ์งํ ์ ๋ณด ๊ตํ(์ด์ ์ฒญํฌ์ ๋ ๊นจ๋ํ ์ํ ํ์ฉ)์ด ์ด๋ฃจ์ด์ง๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์ ๊ทธ๋ฆผ Fig.3์์๋ ์ด ์ฐจ์ด๋ฅผ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ, ํ๋์ ์ ์ ํ์ดํ๋ก ์ด์ ์ฒญํฌ์ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ์ฒญํฌ์ ์ํฅ์ฃผ๋ ๊ฒ์ ๋ํ๋ธ ๊ฒ์ด ์๊ฐํ๊ท ๋ชจ๋์ด๋ฉฐ, ๋ณ๋ ฌ ๋ชจ๋์์๋ ๊ทธ๋ฐ ํ์ดํ ์์ด ๋์ ์งํ๋๋ ํํ๋ก ๊ทธ๋ ค์ ธ ์์ต๋๋ค. CompDiffuser๋ ์ฌ์ฉ์ ์ ํ์ ๋ฐ๋ผ ์ด ๋ ๋ชจ๋ ์ค ํ๋๋ก ๋์ํ ์ ์๊ณ , ํ์์ ๋ฐ๋ผ ํผํฉ ์ ๋ต๋ ๊ณ ๋ คํ ์ ์์ต๋๋ค. ์์ปจ๋, ์ผ๋จ ๋ณ๋ ฌ๋ก ๋๋ต ๊ถค์ ์ ์ป์ ๋ค ์๊ฐํ๊ท๋ก ๋ฏธ์ธ ๋ณด์ ํ๋ ๋ฐฉ์๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
์์ฑ๋ K๊ฐ์ ๋ถ๋ถ ๊ถค์ ๋ค์ ์๋ก ๊ฒน์น๋ ๊ตฌ๊ฐ์์ ๋ถ๋๋ฝ๊ฒ ์ฐ๊ฒฐ๋์ด ์ต์ข ํ๋์ ์์ ํ ๊ณํ์ผ๋ก ํฉ์ณ์ง๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด exponential trajectory blending์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๊ณ ๋ฐํ๊ณ ์๋๋ฐ, ๊ฒน์น ๊ตฌ๊ฐ์์ ์ ๊ถค์ ์ ๋๋ถ๋ถ๊ณผ ๋ท ๊ถค์ ์ ์์๋ถ๋ถ์ ์ง์์ ์ผ๋ก weightingํ์ฌ ๋ณด๊ฐํจ์ผ๋ก์จ ๊ฒฝ๊ณ์ ๋ถ์ฐ์์ ์์ ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ ๊ฒ ์ป์ด์ง ์ต์ข ์ฅ๊ธฐ ํ๋ \tau_{\text{comp}}๋ ๋ก๋ด์๊ฒ ์ ์๋์ด ์คํ๋๊ฒ ๋ฉ๋๋ค.
๋ํ ์คํ ๋จ๊ณ(execution time)์์ CompDiffuser๋ ์ฌ๊ณํ(replanning)๋ ์ ์ฐํ๊ฒ ํ ์ ์์ต๋๋ค. ํ ๋ฒ ์์ฑ๋ ๊ณํ์ด ์์ด๋, ์ค์ ๋ก๋ด์ด ๊ทธ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋ค ์๊ธฐ์น ์๊ฒ ๋ฒ์ด๋๊ฑฐ๋(์: ํด๋จธ๋ ธ์ด๋๊ฐ ๊ท ํ์ ์๊ณ ๊ฒฝ๋ก์์ ๋ฒ์ด๋๋ ๊ฒฝ์ฐ) ๋์ ์ธ ๋ณํ๊ฐ ์๊ธฐ๋ฉด, ํ์ฌ ์ํ๋ฅผ ์๋ก์ด ์์์ ์ผ๋ก ์ผ์ ๋ค์ CompDiffuser๋ก ์ด์ด์ง๋ ๊ฒฝ๋ก๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํด๋จธ๋ ธ์ด๋๊ฐ์ด ๋ณต์กํ ๋์ญํ์ ๊ฐ์ง ์์ด์ ํธ์ ๊ฒฝ์ฐ ๊ฐ๋ ์ง์ ๋ ์๋ธ๊ณจ(subgoal)์ ๋์น๋ ์ผ์ด ๋ฐ์ํ๋๋ฐ, ์ด๋ ์ค์ฐจ ์๊ณ์น๋ฅผ ๋์ผ๋ฉด ๊ณง๋ฐ๋ก replanํ์ฌ ๊ฒฝ๋ก๋ฅผ ์์ ํด ๋ชฉํ ๋ฌ์ฑ์ ๋๋ชจํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ฌํ ์ฌ๊ณํ ๊ธฐ๋ฅ์ CompDiffuser์ ๊ตฌ์ฑ์ ์์ฑ ํน์ฑ ๋๋ถ์ ๊ตญ๋ถ์ ์ธ ์์ ๋ง์ผ๋ก๋ ํฐ ๋ฌธ์ ์์ด ๊ฐ๋ฅํ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ๋งค์ฐ ๋ณต์กํ ํ๊ฒฝ์์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ์์ต๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
์ ์๋ค์ CompDiffuser์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋ค์ํ ๋ก๋ด ํ๊ฒฝ๊ณผ ์๋๋ฆฌ์ค์์ ๊ด๋ฒ์ํ ์คํ์ ์ํํ์ต๋๋ค. ํนํ OGBench๋ผ ๋ถ๋ฆฌ๋ ๊ณต๊ฐ ๋ฒค์น๋งํฌ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ, ๋ค์๊ณผ ๊ฐ์ ์กฐ๊ฑด๋ค์ ๋ณํ์์ผฐ์ต๋๋ค:
- ํ๊ฒฝ ๋ณต์ก๋: ๊ฐ๋จํ U์ํ ๋ฏธ๋ก๋ถํฐ ๋งค์ฐ ๋ณต์กํ ๊ฑฐ๋ ๋ฏธ๋ก (giant maze)๊น์ง ๊ณต๊ฐ ๊ท๋ชจ๋ฅผ ๋ฌ๋ฆฌํ ์ฌ๋ฌ ํ๊ฒฝ์์ ํ ์คํธํ์ต๋๋ค. ํ๊ฒฝ์ด ์ปค์ง์๋ก ์์๊ณผ ๋ชฉํ ์ฌ์ด ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ ธ ํ์ํ ๊ณํ horizion์ด ๊ธธ์ด์ง๋๋ค.
- ์์ด์ ํธ ์ํ ์ฐจ์: 2์ฐจ์ ์ massa(Point), 4์กฑ ๋ณดํ ๋ก๋ด(ant)์ 15~29์ฐจ์ ์ํ, ๊ทธ๋ฆฌ๊ณ 50์ฐจ์ ํด๋จธ๋ ธ์ด๋ ๋ฑ ์ํ๊ณต๊ฐ ์ฐจ์์ ํฌ๊ฒ ๋๋ฆฐ ์คํ์ ํ์ต๋๋ค. ์ํ ์ฐจ์์ด ํด์๋ก ๋ ๋ณต์กํ ๋์์ ๊ณํํด์ผ ํ๋ฏ๋ก ๋์ด๋๊ฐ ์ฆ๊ฐํฉ๋๋ค.
- ๊ถค์ ์ ํ: ์์ํ ๋ฏธ๋ก ๋ด ๋ค๋น๊ฒ์ด์ ๊ฒฝ๋ก๋ถํฐ, ๊ณต์ ๋๋ฆฌ๋ธํ๋ ๋ณตํฉ ํ๋ ์ํ์ค๊น์ง ๋ค์ํ ํํ์ ๊ถค์ ์ ๋ค๋ค์ต๋๋ค. ์ด๋ฅผ ํตํด CompDiffuser๊ฐ ์ด์ง์ ์ธ ํ๋ ์กฐ๊ฐ๋ ์ ์ด์ด๋ถ์ด๋์ง ๊ฒ์ฆํ์ต๋๋ค. ์๋ฅผ ๋ค์ด AntSoccer ํ๊ฒฝ์์๋ ๊ณต ์์ด ๋ฌ๋ฆฌ๋ ์์ง์๊ณผ ๊ณต์ ๋๋ฆฌ๋ธํ๋ฉฐ ์์ง์ด๋ ๋ ๊ฐ์ง ์ ํ์ ๊ถค์ ์ ํ์ตํ ํ, ์ค์ ํ ์คํธ์์๋ ์ด ๋์ ์ฐ๊ฒฐํ์ฌ โ๋จผ ๊ณณ์ ์๋ ๊ณต์ผ๋ก ๋ฌ๋ ค๊ฐ ๋ค ๊ณต์ ๋ชฐ๊ณ ๋ชฉํ ์ง์ ๊น์ง ์ด๋โํ๋ ์๋ก์ด ํ์คํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค.
- ํ์ต ๋ฐ์ดํฐ ํ์ง: ์ ๋ฌธ๊ฐ ์์ฐ๊ณผ ๊ฐ์ ๊นจ๋ํ ๋ฐ์ดํฐ๋ฟ ์๋๋ผ, ๋ฌด์์ ํ์ ์ ์ฑ ์ด ๋ชจ์ ์ ํ์ง ๋ฐ์ดํฐ์์๋ ํ์ต์์ผ ๋ณด์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ ํ์ง์ด ๋ฎ์๋ CompDiffuser๊ฐ ์ธ๋ชจ ์๋ ๊ฒฝ๋ก๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋์ง ์คํํ์ต๋๋ค. ์ค์ ๋ก Explore ๋ฐ์ดํฐ์ ์ ๊ฒฝ์ฐ, ์์ด์ ํธ๊ฐ ๋ง๊ตฌ์ก์ด๋ก ์์ง์ด๋ฉฐ ๋ฐฉํฅ์ ์์๋ก ๋ฐ๊พธ๋ ๋งค์ฐ ๋ ธ์ด์ฆ ๋ง์ ๊ถค์ ๋ค๋ก ํ์ตํ์์๋, CompDiffuser๋ ๊ทธ ์ค ์ผ๋ถ ๊ตฌ๊ฐ๋ค์ ์ด์ด์ ์ํ๋ ๋ชฉํ๊น์ง ๋๋ฌํ๋ ๊ฒฝ๋ก๋ฅผ ํฉ์ฑํด๋์ต๋๋ค. ๋ฐ๋ฉด ์ด๋ฐ ๋ฐ์ดํฐ๋ก ํ์ตํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ชฉํ์ง์ ๊น์ง ์ด๋ฅด๋ ์๋ฏธ ์๋ ๊ฒฝ๋ก๋ฅผ ์ฐพ์ง ๋ชปํ์ต๋๋ค.
์ฑ๋ฅ ๋น๊ต ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ
ํ๊ฐ ์ฒ๋๋ ์ฑ๊ณต๋ฅ (success rate)๋ก, ์์ด์ ํธ (ํน์ ๋ชฉํ ๊ฐ์ฒด)๊ฐ ๋ชฉํ ์ํ ๊ทผ์ฒ๊น์ง ๋๋ฌํ๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผํ์ต๋๋ค. ๋ค์ํ ํ๊ฒฝ์ ๋ํด CompDiffuser๋ฅผ ์๋์ ์ฌ๋ฌ ๊ธฐ์ค์ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค๊ณผ ๋น๊ตํ๋๋ฐ, ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ฒ์ฃผ๊ฐ ํฌํจ๋์์ต๋๋ค:
- ์์ฑ ๊ณํ (Generative Planning): Decision Diffuser (DD)์ Generative Skill Chaining (GSC) ๋ฑ์ด ์ฌ๊ธฐ์ ์ํฉ๋๋ค. Decision Diffuser๋ ํ์ต๋ diffusion ๋ชจ๋ธ๋ก ์ ์ฒด ๊ฒฝ๋ก๋ฅผ ํ ๋ฒ์ ์ํ๋งํ๋ ๊ธฐ์กด ์ ๊ทผ์ผ๋ก, monolithic(๋จ์ผ ๋ชจ๋ธ) ๊ณํ์ ๋ํ์ ๋๋ค. ๋ฐ๋ฉด GSC๋ CompDiffuser์ ์ ์ฌํ๊ฒ ๋ถ๋ถ ๊ถค์ ์ ํฉ์ฑํ๋ ค๋ ์๋๋ก, ์ธ์ ๊ถค์ ์ score๋ฅผ ํ๊ท ๋ด๋ฉฐ ์ฐ๊ฒฐํ๋ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ์ต๋๋ค.
- ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ: ์ด๋ Ghugare et al., 2022์ ๊ธฐ๋ฒ ๋ฑ์ผ๋ก SA (state augmentation), GA (goal augmentation) ๋ฑ์ผ๋ก ๋ถ๋ฆฝ๋๋ค. ์ฃผ์ด์ง ์งง์ ๊ฒฝ๋ก ๋ฐ์ดํฐ์์ ์ธ์์ ์ผ๋ก ๋ชฉํ๋ฅผ ์ฌ์ค์ ํ๊ฑฐ๋ ์ค๊ฐ ์ํ๋ฅผ ์ถ๊ฐํ๋ ์์ผ๋ก ๊ธด ๊ฒฝ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐํ์ฌ ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค. ์ฝ๊ฒ ๋งํด, ๊ธฐ์กด ๋ฐ์ดํฐ ์กฐ๊ฐ๋ค์ ๋ถ์ฌ๋ณด๋ ์ฐ์ต์ ์์ผ ์ผ๋ฐํ๋ฅผ ๊พํ๋ ๋ฐฉ๋ฒ๋ค์ ๋๋ค.
- ์คํ๋ผ์ธ RL: Q-learning ๊ธฐ๋ฐ(์: QRL, HIQL ๋ฑ) ์คํ๋ผ์ธ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค๋ ๋น๊ต์ ํฌํจ๋์์ต๋๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ก ํ๋๊ฐ์น ํจ์๋ฅผ ํ์ตํ๊ณ ๋ชฉํ ์ง์ ๊น์ง ์ ์ฑ ์ ๋์ถํ๋ ์ ๊ทผ๋ค์ ๋๋ค.
๋น๊ต ๊ฒฐ๊ณผ, CompDiffuser๋ ๋ชจ๋ ๋ฒ์ฃผ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋นํ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ํ๊ฒฝ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ๊ทธ ์ฐจ์ด๊ฐ ๋๋๋ฌ์ก๋๋ฐ, ์๋ฅผ ๋ค์ด ๊ฐ์ฅ ๋ณต์กํ Giant ๋ฏธ๋ก์์ CompDiffuser๋ ๋ชจ๋ ์๋์์ ์ฑ๊ณตํ ๋ฐ๋ฉด, Decision Diffuser๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๋ค์ ์ค๊ฐ ์ง์ ์์ ๊ฒฝ๋ก๊ฐ ๋ฌด๋์ ธ ์คํจํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. Fig.1 (์ข์ธก)์์๋ monolithic ํ์ฐ ํ๋๋(๊ธฐ์กด Diffuser)๊ฐ ๋ฏธ๋ก ์ค์์์ ๊ฒฝ๋ก๋ฅผ ์๊ณ ํค๋งค๋(collapses to center) ๋ชจ์ต์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด, CompDiffuser(์ฐ์ธก)๋ ๊ธธ์ ๋๊น์ง ์ฐพ์ ๋๊ฐ๋ ๊ฒ์ ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ CompDiffuser์ ๊ตฌ์ฑ์ ์์ฑ์ด ์๋ํ์ฌ, ํ์ต ์ ๋ณด์ง ๋ชปํ ์ฅ๊ฑฐ๋ฆฌ๋ ์ด์ด๋ถ์ฌ ํด๊ฒฐํด๋ธ ๊ฒฐ๊ณผ์ ๋๋ค. PointMaze Giant ํ๊ฒฝ์์์ ์ง์ ๋น๊ต์์๋, CompDiffuser๊ฐ ์ถ๋ฐ์ง์์ ๋ชฉํ์ง๊น์ง ๋๋ฌํ๋ ๋ค์ํ ๊ฒฝ๋ก๋ค์ ๋ด๋ ๋ฐ๋ฉด, DD๋ GSC๋ ์ฅ์ ๋ฌผ์ ๋ซ๊ณ ๊ฐ๊ฑฐ๋ ์ ํ ๋ค๋ฅธ ๊ณณ์ผ๋ก ๊ฐ๋ฒ๋ฆฌ๋ ๋ถํฌ ๋ฐ(o.o.d.) ๊ถค์ ์ ์์ฑํ๋ ์คํจ ์ฌ๋ก๊ฐ ๋ค์ ๊ด์ฐฐ๋์์ต๋๋ค.
GSC์ ๋น๊ตํ๋ฉด, ์ค๊ฐ ์์ค ๋์ด๋๊น์ง๋ ์ ์ฌํ ์ฑ๊ณผ๋ฅผ ๋ณด์ด๋ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ ์๋ก CompDiffuser๊ฐ ์๋ฑํด์ก์ต๋๋ค. GSC๋ ํ์ฐ ๋ชจ๋ธ์ score-averaging ๋ฐฉ์์ผ๋ก ์ฒญํฌ๋ฅผ ์๋๋ฐ, Giant ํ๊ฒฝ์ฒ๋ผ ์๊ตฌ ์ธ๊ทธ๋จผํธ ์๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ ์ฐจ ๋ถ์์ ํด์ก์ต๋๋ค. ๋ฐ๋ฉด CompDiffuser๋ ๋๊น์ง ์์ ์ ์ผ๋ก ๊ณํ์ ์์ฑํ์ฌ Giant Maze์์๋ ์ฑ๊ณต๋ฅ 100%์ ๊ฐ๊น์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑ, ๋ชจ๋ baseline ์ค ๋ ๋ณด์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ ์๋ค์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์๋์ผ๋ก ์ ์ ํ ๊ฒน์นจ ์ง์ ์ ์ฐพ์ง ๋ชปํด ์คํจํ๋ ๋ฐ๋ฉด CompDiffuser๋ ํ๋ จ๋ถํฐ ๊ฒน์นจ ๊ตฌ๊ฐ์ ๋ชจ๋ธ๋งํ๊ธฐ์ ๊ฐ๋ฅํ ์ฐจ์ด๋ผ๊ณ ๋ถ์ํฉ๋๋ค.
๋ํ AntSoccer (๊ณต๋ชฐ์ด) ์คํ์์, CompDiffuser๋ ๋ ์ข ๋ฅ์ ํ๋ ๊ถค์ ์ ๋งค๋๋ฝ๊ฒ ์ฐ๊ฒฐํด ์๋ก์ด ๋ณตํฉ ํ์คํฌ๋ฅผ ์ํํจ์ผ๋ก์จ ์ ์ฑ์ ์ผ๋ก๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์๋ โ๋จผ ๊ฑฐ๋ฆฌ์ ๊ณต์ผ๋ก ๋ฌ๋ ค๊ฐ ๋ค ๊ณต์ ๊ณจ๋๋ก ๋๋ฆฌ๋ธโ ๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ํ ๋ฒ์ ํ๋๋์ผ๋ก ์ฑ๊ณตํ์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ ์ ํ์ฅ์ฑ์ ๋ก๋ด์ด ์ฌ๋ฌ ๋ชจ๋์ ์คํฌ์ ๋ฐฐ์ ํ์์ ๋ฐ๋ผ ์กฐํฉ ์คํํ๋ ๋ฏธ๋ํ ๋ฐฉํฅ๊ณผ๋ ๋ง๋ฟ์ ์์ต๋๋ค.
์ถ๊ฐ ๋ถ์: ์ธ๊ทธ๋จผํธ ์, ์ํ ์ฐจ์, ์ฌ๊ณํ ๋ฑ
๋ ผ๋ฌธ์์๋ CompDiffuser์ ๋์์ ๋ ๊น์ด ์ดํดํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ์์ธ๋ณ ์คํ(ablations)๋ ์ํํ์์ต๋๋ค. ๋จผ์ , ๊ตฌ์ฑํ๋ ๊ถค์ ์กฐ๊ฐ์ ๊ฐ์ K๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ณด์๋๋ฐ, ๋๋ฌด ์ ์ ์ธ๊ทธ๋จผํธ๋ก ์ฅ๊ฑฐ๋ฆฌ ๋ชฉํ๋ฅผ ์ปค๋ฒํ๋ ค ํ ๊ฒฝ์ฐ ๊ณํ์ด ๋ถ๊ฐ๋ฅํ ์ํฉ์ด ๋ฐ์ํ์ต๋๋ค. ์ค์ ๋ก Giant ๋ฏธ๋ก์์ ์ต์ 9๊ฐ ์กฐ๊ฐ์ ํ์ํ๋๋ฐ, ์ด๋ฅผ 7๊ฐ ๋ฑ์ผ๋ก ์ต์ง๋ก ์ค์ด๋ฉด ๊ฒน์นจ ๊ตฌ๊ฐ์ด ๊ฑฐ์ ์์ด์ ธ ๊ฒฝ๋ก๊ฐ ๋ฒฝ์ ๋ซ๊ณ ๊ฐ๋ ๋ฑ ๋ถ๊ฐ๋ฅํ ํ๋์ด ๋์์ต๋๋ค. ๋ฐ๋๋ก ํ์ํ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ง์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ฃผ๋ฉด, ๋ชฉํ๊น์ง ๋จ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฑ์ฐ๊ธฐ ์ํด ๊ฒฝ๋ก๊ฐ ์ง๊ทธ์ฌ๊ทธ๋ก ๊ตฐ๋๋๊ธฐ ์์ง์์ ๋ณด์ด๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค. ๋ฐ๋ผ์ ์ ์ ํ K๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, ์ด๋ ์ฌ์ ์ ํ๊ฒฝ์ ๋ฐ๋ผ ๋๋ต ๊ฒฐ์ ํ๊ฑฐ๋, ๋ชจ๋ธ์ด ์๋์ผ๋ก ์กฐ์ ํ๋๋ก ํ ์ฌ์ง๋ ์์ต๋๋ค. ๋คํํ CompDiffuser๋ K๋ง ์ถฉ๋ถํ๋ค๋ฉด (์ฝ๊ฐ ๋ง์๋) ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ๋จ์ด์ง์ง ์๊ณ , ์ฃผ๋ก ๊ฒฝ๋ก ํจ์จ์ฑ๋ง ์ํฅ๋ฐ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
๊ณํ ์ํ ์ฐจ์์ ๋ํ ์คํ์์๋, ์ถ์ฝ๋ ์ํ ๊ณต๊ฐ vs. ๊ณ ์ฐจ์ ์ ์ฒด ์ํ ๊ณต๊ฐ ์ค ์ด๋ ์ชฝ์ผ๋ก ํ๋๋ํ ์ง ๋น๊ตํ์ต๋๋ค. ์๋ฅผ ๋ค์ด AntSoccer์์ ๊ฐ๋ฏธ ๋ก๋ด๊ณผ ๊ณต์ x,y ์์น๋ง์ผ๋ก 4์ฐจ์ ํ๋๋์ ํ ๊ฒฝ์ฐ์, ๊ฐ๋ฏธ ๊ด์ ๊ฐ๋ ๋ฑ 13๊ฐ ์ถ๊ฐ ๊ด์ ๋ณ์๋ฅผ ํฌํจํ 17์ฐจ์ ํ๋๋์ ํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ 17D (์ ์ฒด ์ํ) ํ๋๋์ด ์ฝ๊ฐ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ๊ณ ์ฐจ์ ์ ๋ ฅ์ด ์ฃผ๋ ์ธ๋ถ์ ๋ณด โ ํนํ ๊ณต์ ํจ๊ณผ์ ์ผ๋ก ๋ชฐ๊ธฐ ์ํ ๊ด์ ์์ง์ ์ ๋ณด โ ๊ฐ ๊ณํ์ ๋ฏธ์ธ ์กฐ์ ์ ๋์์ ์ค ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค. ๋ค๋ง ๊ณ ์ฐจ์ ํ๋๋์ ๋ชจ๋ธ์ด ๊ณ ๋ คํด์ผ ํ ์์๊ฐ ๋ง์์ ธ ์ฐ์ฐ๋ ์ฆ๊ฐ ๋ฐ ํ์ต ๋์ด๋ ์์น ์์ธ์ด ์์ผ๋ฏ๋ก, ์ด๋ค ์ํ ํํ์ ์ธ์ง๋ ์ฑ๋ฅ๊ณผ ํจ์จ์ ํธ๋ ์ด๋์คํ๋ผ ํ ์ ์์ต๋๋ค.
์ฌ๊ณํ ์ฌ๋ถ๋ ์ฑ๋ฅ์ ์ค์ํ ์ํฅ์ ์ฃผ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ค๊ฐ ๊ท๋ชจ ํ๊ฒฝ(๋ฏธ๋ก)์์๋ ํ ๋ฒ ์์ฑํ ํ๋๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๋ชฉํ์ ๋๋ฌํ๊ณ , ์ฌ๊ณํ์ ํด๋ ํฐ ์ฐจ์ด๊ฐ ์์์ง๋ง, ๊ฐ์ฅ ๋ณต์กํ Giant ๋ฏธ๋ก์์๋ ์ฌ๊ณํ ๊ธฐ๋ฅ์ ํ์ฉํ์ ๋ ์ฑ๊ณต๋ฅ ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋์์ต๋๋ค. ์์ปจ๋, ํด๋จธ๋ ธ์ด๋์ ๊ฒฝ์ฐ ์์ ์ธ๊ธํ ๋๋ก ์ข ์ข ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๊ณ ๋ฏธ๋๋ฌ์ง๋ ์ผ์ด ์๊ฒผ๋๋ฐ, ์ด๋ ์ฆ๊ฐ์ ์ผ๋ก CompDiffuser๋ฅผ ํธ์ถํด ๋จ์ ๊ฑฐ๋ฆฌ์ ์ ๊ฒฝ๋ก๋ฅผ ๋ง๋ค์ด์ฃผ๋ ๊ฒฐ๊ตญ ๋ชฉํ๊น์ง ๊ฐ ํ๋ฅ ์ด ํฌ๊ฒ ๋์์ก์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋, ์คํ๋ฃจํ(open-loop) ๊ณํ์ ํ๊ณ๋ฅผ ํผ๋๋ฐฑ ๋ณด๊ฐ(๊ฒฝ๋ก ์์ )์ผ๋ก ๊ทน๋ณตํ๋ ์ ๊ทผ์ ํ์์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ค์ ๋ก๋ด ์ ์ฉ ์์๋ ์ ์ฉํ ์ฑ์ง์ด๋ผ ํ ์ ์์ต๋๋ค.
์ข ํฉํ๋ฉด, CompDiffuser๋ ๋ค์ํ ์กฐ๊ฑด์์ ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ๊ณผ ์ ์ฐ์ฑ์ ์ํํ์ต๋๋ค. ํนํ ํ์ต ๋ฐ์ดํฐ๊ฐ ์งง์ ์กฐ๊ฐ๋ค์ ๋ถ๊ณผํด๋, ํ์ํ ๋งํผ ์กฐ๊ฐ์ ์กฐํฉํจ์ผ๋ก์จ ์์์ ๊ฑฐ๋ฆฌ๋ฅผ ์ปค๋ฒํ ์ ์๋ค๋ ์ ์ด ๊ณ ๋ฌด์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด PointMaze Large ํ๊ฒฝ์์ ํ๋ จ ์ ์ต๋ 4 ๋ธ๋ก ๊ธธ์ด์ ๊ฒฝ๋ก๋ง ๋ดค์ง๋ง, ํ ์คํธ ์๋ 15๋ธ๋ก ๋จ์ด์ง ๋ชฉํ์ ๋ํด์๋ 5๊ฐ์ ์ธ๊ทธ๋จผํธ๋ฅผ ์ด์ด๋ถ์ฌ ์ถฉ๋ถํ ๋๋ฌํ์ต๋๋ค. ์ด๋ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก๋ฉด์์, CompDiffuser๊ฐ ์ผ๋ง๋ ๊ฐ๋ ฅํ ์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ฃผ๋์ง ๋จ์ ์ผ๋ก ๋งํด์ค๋๋ค.
๊ธฐ์กด ์ ๊ทผ๋ฒ๊ณผ์ ์ฐจ๋ณ์ (Discussion)
CompDiffuser์ ์ ๊ทผ์ ๊ธฐ์กด ์ฅ๊ธฐ๊ณํ ๊ธฐ๋ฒ๋ค๊ณผ ๊ฒฌ์ฃผ์ด ๋ช ๊ฐ์ง ๋๋ ทํ ์ฅ์ ์ ๊ฐ์ต๋๋ค. ์ฒซ์งธ, ๋ชจ๋ธ ํ๋๋ก ๋ชจ๋ ๋ถ๋ถ ๊ถค์ ์ ์์ฑํ๊ธฐ ๋๋ฌธ์, ๊ณผ๊ฑฐ ์ฐ๊ตฌ๋ค์ฒ๋ผ ์ฒญํฌ ๋ณ๋ก ๋ฐ๋ก ๋ชจ๋ธ์ ํ์ตํ๊ฑฐ๋ ์ฌ์ ์ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถํ ํ์๊ฐ ์์ต๋๋ค. ๊ณผ๊ฑฐ trajectory stitching ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ์ข ์ข ์ฌ์ ์ ์๋ ์ ํฉ์ ์ด๋ ์๋ธ๊ณจ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์์กดํ๊ณ , ์ด๋ ํ๊ฒฝ์ด ๋ฌ๋ผ์ง๋ฉด ์ฌ์ค๊ณ๊ฐ ํ์ํ๊ฑฐ๋ ์ต์ ์ ์ ํฉ์ ์ ์ฐพ๊ธฐ ํ๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ๋ฐ๋ฉด CompDiffuser๋ ํ์ฐ ๋ชจ๋ธ ๋ด์์ ์์ฐ์ค๋ฝ๊ฒ ์ ํฉ์ ํ์ตํ๋ฏ๋ก, ์ฌ๋์ด ๋ณ๋๋ก overlap ์ง์ ์ ์ฐพ์ง ์์๋ ๋ฉ๋๋ค. ๋์งธ, ํ์ฐ ๋ชจ๋ธ์ multi-modality๋ฅผ ๊ณ์นํ์ฌ ๋ค์ํ ๊ฒฝ๋ก ํํ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ํ๋์ ์์-๋ชฉํ ์์ ๋ํด์๋ CompDiffuser๋ deterministicํ ์ต๋จ๊ฒฝ๋ก ํ๋๋ง ๋ด๋๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฌ ๋ฒ ์ํ๋งํ๋ฉด ๋ค์ํ ํํ์ ์ฐํ ๊ฒฝ๋ก๋ค๋ ์ป์ ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์๊ฒ ์ฌ๋ฌ ๋์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๊ฑฐ๋, ํ์ ๊ณต๊ฐ์ ๋๊ฒ ์ปค๋ฒํ๋ ๋ฐ ์ ์ฉํ ๊ฒ์ ๋๋ค. ์ ์งธ, off-policy ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ฐํํ์ต๊ณผ ๋ฌ๋ฆฌ, CompDiffuser๋ ๋ฆฌ์๋ ํ๊น ์์ด ์์ง๋ ๊ถค์ ๋ ํ์ฉํ์ฌ ๋ชฉํ์งํฅ ํ๋๋์ ํ์ตํฉ๋๋ค. ์์ปจ๋ ์คํจํ ์๋๋ ๋ถ๋ถ ์ฑ๊ณต ๋ฐ์ดํฐ๋ ๋ชจ๋ธ ํ์ต์ ๊ธฐ์ฌํ ์ ์๊ณ , ์ด๋ ์คํ๋ผ์ธ RL ๊ธฐ๋ฒ๋ค๋ณด๋ค ๋ฐ์ดํฐ ํ์ฉ ๋ฒ์๊ฐ ๋๋ค๊ณ ํ ์ ์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ํ์ง ๋ฎ์ ํํ ๋ฐ์ดํฐ๋ก๋ CompDiffuser๋ฅผ ํ์ต์์ผ ์๋นํ ์ฑ๋ฅ์ ์ป์์ง๋ง, Q-learning ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๊ทธ๋ฐ ๋ฐ์ดํฐ๋ก๋ ํ์ต์ด ์ด๋ ค์ ์์ ์ง์ ํฉ๋๋ค.
๋ฌผ๋ก CompDiffuser์๋ ๊ทน๋ณตํด์ผ ํ ํ๊ณ์ ๋์ ๊ณผ์ ๊ฐ ์กด์ฌํฉ๋๋ค. ์ฐ์ , ๋์ ์ธ ์ฅ์ ๋ฌผ์ด๋ ์ค์๊ฐ ๋ณํ ์ํฉ์ ๋ํ ๋์์ ์ฌ์ ํ ์ด๋ ค์ด ๋ฌธ์ ๋ก ๋จ์ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์ ์ธ ๋ชฉํ์ ํ๊ฒฝ์์์ ํ๋๋์ ๋ค๋ฃจ์๊ธฐ ๋๋ฌธ์, ์๋์ฐจ ์ฃผํ์ฒ๋ผ ์์ง์ด๋ ๊ฐ์ฒด๊ฐ ์๋ ํ๊ฒฝ์์ ์ค์๊ฐ ์ฌ๊ณํ์ ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ํ ์ ์์์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ ๊ธ๋ก๋ฒ ์ต์ ๊ฒฝ๋ก๋ฅผ ๋ณด์ฅํ์ง๋ ์๊ธฐ ๋๋ฌธ์, ์ธ๊ทธ๋จผํธ ๋จ์ ์ต์ ํ๋ก ์ธํด ์ ์ฒด์ ์ผ๋ก ์ฐํ๊ฐ ์ฌํ ๊ฒฝ๋ก๊ฐ ๋์ฌ ์ ์์ต๋๋ค. ์ด๋ ์ธ๊ทธ๋จผํธ๋ก ์ชผ๊ฐ ๊ณํํ ๋ ์๊ธธ ์ ์๋ ๊ทผ๋ณธ์ ํ๊ณ์ธ๋ฐ, ์ด๋ฐ ๋น์ต์ ์ฑ์ ์ค์ด๊ธฐ ์ํด ํ์ฒ๋ฆฌ ์ต์ ํ๋ cost-to-go ์กฐ๊ฑด ๋ฑ์ ์ถ๊ฐํ๋ ๋ฐฉํฅ๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ชจ๋ธ ํ์ต์ ์ํ ๋ฐ์ดํฐ์ ๊ดํ ์ด์๋ก, ๋๋ฌด ํธํฅ๋ ์งง์ ๊ฒฝ๋ก๋ง ์์ผ๋ฉด ๋ชจ๋ธ์ด ์ผ๋ถ ๊ตฌ๊ฐ๋ง ๋ฐ๋ณต ํ์ฉํ๋ ค ๋ค ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ๋ฐ์ดํฐ์ coverage๊ฐ ์ค์ํจ์ ์ธ๊ธํ๋ฉฐ, ํฅํ์๋ ๋ฐ์ดํฐ ํจ์จ์ ๋ ๋์ด๋ ๋ฐฉ๋ฒ์ด๋ ํ์ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ๋ถ์ ๋ฑ์ด ๊ณผ์ ๋ก ๋จ์์ ์์ฌํ์ต๋๋ค.
๊ฒฐ๋ก ๋ฐ ์ ๋ง (Conclusion)
CompDiffuser๋ ํ์ฐ ๋ชจ๋ธ์ ์์ฑ๋ ฅ๊ณผ ์ ํต์ ๊ณํ์ ๋ชจ๋์ฑ์ ๊ฒฐํฉํ์ฌ, ๋ก๋ด์ ์ฅ๊ธฐ ๊ณํ ๋ฌธ์ ์ ์๋ก์ด ํด๋ฒ์ ์ ์ํ์์ต๋๋ค. โ์งง์ ๊ถค์ ์ ๋ถ์ฌ ๊ธด ๊ถค์ ์ ๋ง๋ ๋คโ๋ ์ง๊ด์ ์์ด๋์ด๋ฅผ ํ์ฐ ๋ชจ๋ธ ์์์ ๊ตฌํํจ์ผ๋ก์จ, ์ ์ ๋ฐ์ดํฐ๋ก๋ ์๋ก์ด ํ๊ฒฝ๊ณผ ์์ ์ ๋์ํ ์ ์๋ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ก ๋ณด์, CompDiffuser๋ ๊ธฐ์กด ๋ชจ๋ฐฉํ์ต์ด๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ํ๋๋๋ค์ด ์คํจํ๋ ๋ณต์กํ ๋ฏธ๋ก๋ ์ฒ์ฒ ํ์ด๋ด์๊ณ , ๋ค์ํ ํ๋ ํ์ ์ ์ ์ฐํ๊ฒ ๊ฒฐํฉํ๋ ๋ฅ๋ ฅ๊น์ง ์ ๋ณด์์ต๋๋ค. ํนํ ์๋ฐฉํฅ ์ด์ ์กฐ๊ฑด๋ถ ํ์ฐ์ด๋ผ๋ ๋ ์ฐฝ์ ๋ฐฉ๋ฒ์ผ๋ก, ๋ถ๋ถ ๊ฒฝ๋ก ๊ฐ ๋ฌผ๋ฆฌ์ ๋ถ์กฐํ๋ฅผ ํด์ํ ์ ์ ํฅํ ์ ์ฌํ ๊ตฌ์ฑ์ ์์ฑ(task composition) ๋ฌธ์ ๋ค์๋ ์์ฉ๋ ์ ์์ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ์ฑ๊ณผ๋ ๋ก๋ดํ๊ณ์ ๋ช ๊ฐ์ง ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค. ์ฐ์ , ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ํ์ตํ๋ ์ ๋๋ ์ดํฐ๋ธ ๋ชจ๋ธ์ด ๊ธฐ์กด ๊ณํ ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ด๊นจ๋ฅผ ๋๋ํ ํ ์ ๋๋ก ๋ฐ์ ํ์์ ๋ณด์ฌ์ค๋๋ค. ๋ณต์กํ ๋ฌธ์ ๋ฅผ end-to-end ํ์ตํ๊ธฐ๋ณด๋ค, CompDiffuser์ฒ๋ผ ๋ฌธ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ ํ์ต์ ๋์ ํ๋ฉด ์ ์ ๋ฐ์ดํฐ๋ก๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์์ ์์ฌํฉ๋๋ค. ๋์งธ, ๋ชจ๋ํ์ ํ์ต์ ๊ฒฐํฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๊ณผ๊ฑฐ์๋ ๋ชจ๋์ ์ ๊ทผ(์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฑ)๊ณผ ํ์ต๊ธฐ๋ฐ ์ ๊ทผ์ด ๋ณ๊ฐ๋ก ์ฐ๊ตฌ๋์์ผ๋, ์ด์ ํ์ต๋ ๋ชจ๋์ ์ค์๊ฐ์ผ๋ก ์กฐํฉํ๋ ํํ๋ก ๋์๊ฐ ์ ์์์ ํ์ธํ์ต๋๋ค. ๋์ผ๋ก, CompDiffuser๋ ์์ง ์ด๊ธฐ ๋จ๊ณ์ ์๋์ด๋ฏ๋ก, ํฅํ ์ค์ ๋ก๋ด ์ ์ด์ ํตํฉํ๊ธฐ ์ํด ๊ณ ๋ คํด์ผ ํ ๋ถ๋ถ๋ค์ด ์์ต๋๋ค. ์์ปจ๋, ์์ ํ ์ค์๊ฐ ์ฌ๊ณํ, ๋์ ํ๊ฒฝ ๋์, 3D ๊ณต๊ฐ์ ๊ฒฝ๋ก๊ณํ ๋ฑ์ ๋ณธ ๊ฐ๋ ์ ํ์ฅํ๋ ค๋ฉด ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ ์ ์ญ ์ต์ ํ์ ๊ณํ ํ์ง ๋ณด์ฅ ์ธก๋ฉด์์๋ ๋ณด์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง๋ค๋ฉด, CompDiffuser์ ์ ๊ทผ์ด ์ค๋ฌด์์ ๋์ฑ ์ ๋ขฐ๋ฐ์ ์ ์์ ๊ฒ์ ๋๋ค.
์์ฝํ๋ฉด, Generative Trajectory Stitching์ด๋ผ๋ ๊ฐ๋ ์ ๋ก๋ด ๋ชจ์ ํ๋๋์ ์๋ก์ด ์งํ์ ์ด๊ณ ์์ต๋๋ค. CompDiffuser๋ ๊ทธ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋ ฌํ๊ฒ ์ ์ฆํ ์๋ก์, ์์ผ๋ก ํ์ฐ ๋ชจ๋ธ์ ํ์ฉํ ๋ก๋ด ๊ณํ ๋ถ์ผ์ ํ๋ฐํ ์ฐ๊ตฌ๋ฅผ ์ด๋ฐํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋ก๋ด์ด ๊ณผ๊ฑฐ์ ์์ง์ ์กฐ๊ฐ๋ค์ ์์ ์์ฌ๋ก ๋ฆฌ๋ฏน์คํ์ฌ ์๋ก์ด ๋์ ์ ๋์ํ๋ ๋ชจ์ต์, ๋ ์ด์ ๋จผ ๋ฏธ๋์ ์ด์ผ๊ธฐ๊ฐ ์๋๋๋ค. CompDiffuser๋ฅผ ๊ณ๊ธฐ๋ก, ์์ฑ์ AI์ ๊ณ ์ ์ ๋ก๋ด์ ์ด์ ๋ง๋จ์ด ์ด๋ค ์๋์ง๋ฅผ ๋ผ์ง ์ง์ผ๋ณผ ๋งํ ์์ ์ ๋๋ค.