graph LR
subgraph Actor["Actor: Conditional Normalizing Flow"]
Z["Base Gaussian z0"] -->|"inverse: latent to action"| A["Action chunk a"]
A -->|"forward: action to latent"| Z
OBS1["Observation c = Enc(o)"] -.conditions.-> A
end
subgraph Critic["Action-chunked Critic"]
QIN["o_k, a_k"] --> QNET["Transformer Q-net (HL-Gauss)"]
QNET --> QVAL["Q-value (min over ensemble)"]
end
A -->|"differentiable rollout"| QIN
QVAL -->|"policy gradient"| A
๐SERNF
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
SERNF: ์ค์ ๋ก๋ด์์ ์์ฌ์ฃผ ์ ์ฑ ์ โ์กฐ๊ธ์ ๋ฐ์ดํฐ๋กโ ๋ค๋ฌ๋ ๋ฒ
ํ ์ค๋ก ์์ฝํ๋ฉด ์ด๋ ๋ค. SERNF๋ ์ค์ ๋ก๋ด์์ ์ฌ์ ํ์ต๋ ์์ฌ์ฃผ(dexterous) ์ ์ฑ ์, ์ ์ ์ํธ์์ฉ ์์ฐ์ผ๋ก ์์ ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ (fine-tuning)ํ๋ ์คํ-ํด๋ฆฌ์ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ค. ํต์ฌ ๋ฌด๊ธฐ๋ ๋ ๊ฐ์ง๋ค. (1) ์ ์ฑ ์ ์ ๊ทํ ํ๋ฆ(Normalizing Flow, NF)์ผ๋ก ํํํด ์ ํํ ๋ก๊ทธ์ฐ๋๋ฅผ ์ป๊ณ , (2) ํ ์คํ ์ด ์๋๋ผ ์ก์ ์ฒญํฌ(action chunk) ์ ์ฒด๋ฅผ ํ๊ฐํ๋ ํฌ๋ฆฌํฑ์ ๋๋ค. ์ด ๋ ์กฐ๊ฐ์ด ๋ง๋ฌผ๋ฆฌ๋ฉด, ๋ํจ์ ์ ์ฑ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ๋ ๋ณด์์ (conservative) ์ฐ๋ ์ ๊ทํ๊ฐ ๊ฐ๋ฅํด์ง๊ณ , ์ฒญํฌ ๋จ์ ์คํ๊ณผ ๊ฐ์น ์ถ์ ์ ๋ฐ์๊ฐ ๋ง์ ํฌ๋ ๋ง ํ ๋น(credit assignment)์ด ๊น๋ํด์ง๋ค.
์ ์๋ ETH ์ทจ๋ฆฌํ Soft Robotics Lab์ Chenyu Yang, Denis Tarasov(๊ณต๋ 1์ ์), Davide Liconti, Hehui Zheng, Robert K. Katzschmann์ด๋ค. ๋ ผ๋ฌธ์ ๋ ๊ฐ์ ์ค์ ๊ณผ์ (์ผ์ด์ค์์ ๊ฐ์๋ฅผ ๊บผ๋ด ํ ์ดํ๋ฅผ ์๋ฅด๊ธฐ, ์๋ฐ๋ฅ์ ์๋๋ก ํฅํ ์ฑ ํ๋ธ๋ฅผ ์์์์ ํ์ ์ํค๊ธฐ)์์ ๊ฒ์ฆํ๋ค. ๋ ๋ค ๊ธธ๊ณ (long-horizon), ๊ณ ์ฐจ์์ด๋ฉฐ, ์ ์ด๊ณผ ํ์ด๋ฐ์ ์์ ์ค์ฐจ์ ๋ฏผ๊ฐํ๋ค. ์์ฌ์ฃผ ์ฐ๊ตฌ๋ฅผ ํ๋ ์ฌ๋์ด๋ผ๋ฉด ์ต์ํ ๋ฐ๋ก ๊ทธ โ๊ฑฐ์ ๋๋๋ฐ ๋๊น์ง๋ ์ ๋๋โ ์ ์ฑ ์ ๋๊น์ง ๋ฐ์ด๋ถ์ด๋ ์ด์ผ๊ธฐ๋ค.
์๋ก : ์ โ๊ฑฐ์ ๋๋ ์ ์ฑ โ์ด ๋๊น์ง ์ ๊ฐ๋๊ฐ
์์ฆ ๋งค๋ํฐ๋ ์ด์ ์ ๋๊ท๋ชจ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก ํ์ตํ ๊ณ ์ฉ๋ ๋น์ฃผ์ผ๋ชจํฐ ์ ์ฑ ์ ํฌ๊ฒ ๊ธฐ๋๋ค. ํต์ ๋ ํ๊ฒฝ์์๋ ์ธ์์ ์ด๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ํ์ฅ์ ๋ด๋ ค๋์ผ๋ฉด ๋ฌด๋์ง๋ค. ๋ชจ๋ธ๋ง๋์ง ์์ ๋์ญํ, ํ๋์จ์ด ์ค์ฐจ, ์นด๋ฉ๋ผ ๋๋ฆฌํํธ, ๋๋ฉ์ธ ์ํํธ (๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ์์ง ๋ ๋ฏธ์ฒ ๋ชป ์ก์ ๊ณผ์ ๋ณ ๋ณ์๋ค)๊ฐ ์์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๋ฌธ์ ๋ ์์ฌ์ฃผ๊ฐ ํ์ํ ์ ๋ฐ ๊ณผ์ ์์ ํนํ ์ฌํ๋ค. ์์ง์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋น์ฉ์ด ์ฅ๋น์ ์๊ฐ ์์ชฝ์์ ๋น์ธ๋ค. ํ ๋ ์คํผ๋ ์ด์ ์์ฒด๊ฐ ์ด๋ ต๊ณ , ์๋ จ์ด ํ์ํ๊ณ , ์ ์ดยทํ์ด๋ฐ์ ๋ฏธ์ธํ ๋ณํ์ ๋ฏผ๊ฐํ๋ค. ๊ทธ๋์ ํ์ค์ ๋ก๋ด๊ณตํ์๋ ์์ฃผ โ๊ฑฐ์ ๋๋(almost works)โ ์ ์ฑ ์ ๋ฐฐํฌํ๋ค. ๊ทธ๋ด๋ฏํ๊ฒ ์์ง์ด์ง๋ง ์ค์ ์์ ์๊ตฌํ๋ ์ ๋ขฐ๋์ ์ฑ๊ณต๋ฅ ์๋ ๋ชป ๋ฏธ์น๋ค.
SERNF์ ์ถ๋ฐ์ ์ ์ฃผ๋ฅ์ ๋ฐ๋ ๋ฐฉํฅ์ด๋ค. ๋ฐ์ดํฐ๋ฅผ ๋ ๋ชจ์ผ๋ ๋์ , ์ ์ ๊ณผ์ ๋ณ ๋ฐ์ดํฐ์์ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ์ต๋์น๋ฅผ ์ง๋ธ๋ค. ์ค์ ๋ก๋ด ์ํธ์์ฉ ์๊ฐ์ ๋น์ธ๋ฏ๋ก, ์๊ณ ๋ฆฌ์ฆ์ ๋น ๋ฏํ ์์ฐ ์์์ ๊ตด๋ฌ์ผ ํ๊ณ ์์งํ ์ํ ํ ํจ๊น์ง ๋ค ์จ๋จน์ด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ RL ์ ๋ฐ์ดํธ๋ฅผ ํ๋ ค๋ฉด ์ ์ฑ ์ด ํ๋ฅ ์ ์ผ๋ก ์ ์ํ๋ผ์ผ ํ๋ค. ์ฐ๋ ๊ธฐ๋ฐ ๋ชฉ์ ํจ์๋ก ์ต์ ํํ ์ ์์ด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฌ๊ธฐ์ ๊ธฐ์กด ๋๊ตฌ๋ค์ ํ๊ณ๊ฐ ๋๋ฌ๋๋ค.
- ๋ํจ์ /ํ๋ก์ฐ ๋งค์นญ ์ ์ฑ : ํํ๋ ฅ์ด ์ข์ ๋ฉํฐ๋ชจ๋ฌ(multimodal) ์ก์ ๋ถํฌ๋ฅผ ์ ์ก๋๋ค. ํ์ง๋ง ์ก์ ์ ํ๋ฅ (์ฐ๋)์ด ๋ค๋ฃจ๊ธฐ ์ด๋ ต๋ค(intractable). ์ฐ๋๋ฅผ ๋ชป ๊ตฌํ๋ฉด โ์ด๊ธฐ ์ ์ฑ ์์ ๋๋ฌด ๋ฉ์ด์ง์ง ๋งโ๋ผ๋ ๋ณด์์ ์ ๊ทํ๋ฅผ ๊ฑธ ์๊ฐ ์๋ค. ์ ์ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ ๋ ์ด๊ฑด ์น๋ช ์ ์ด๋ค.
- ๊ฐ์ฐ์์ ์ ์ฑ : ์ฐ๋๋ ์ฝ๊ฒ ๋์จ๋ค. ๊ทธ๋ฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ํฉ์์ ๋ถ๊ดดํ๋ค. โ์ฅ์ ๋ฌผ์ ์ผ์ชฝ์ผ๋ก ๋๋ ์ค๋ฅธ์ชฝ์ผ๋ก ๋๋ ๋ ๋ค ์ ๋ตโ์ธ ์ํฉ์์ ๊ฐ์ฐ์์์ ๊ทธ ๋์ ํ๊ท ์ ๋ฑ๋๋ค. ํ๊ท ์ ์ ์ค์, ์ฆ ์ฅ์ ๋ฌผ์ ๋ฐ๋ ๊ฒฝ๋ก๋ค. ์ก์ ์ ์ฒญํฌ๋ก ๋ฌถ์ด ์คํํ๋ฉด ์ด ๋ถ๊ดด๊ฐ ๋ ์ฌํด์ง๋ค.
- ์คํ ๋จ์ ํฌ๋ฆฌํฑ: ์ ์ฑ ์ ์ฒญํฌ๋ก ํ๋ํ๋๋ฐ ํฌ๋ฆฌํฑ์ ํ ์คํ ์ฉ ํ๊ฐํ๋ค. ๋ฐ์๊ฐ ์ ๋ง์ผ๋ ์ฅ๊ธฐ ํฌ๋ ๋ง ํ ๋น์ด ์ํจ๋ค.
SERNF๋ ์ด ์ธ ๊ตฌ๋ฉ์ ํ ๋ฒ์ ๋ง๋๋ค. ์ ์ฑ ์ NF๋ก(ํํ๋ ฅ + ์ ํํ ์ฐ๋), ํฌ๋ฆฌํฑ์ ์ฒญํฌ ๋จ์๋ก(์คํ ๊ตฌ์กฐ์ ์ ๋ ฌ). ์ ์๋ค์ ํํ์ ๋น๋ฆฌ๋ฉด, ์ค์ ํ๋์จ์ด์์ ์ฐ๋ ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ์ ์ฑ ๊ณผ ์ฒญํฌ ๋จ์ ๊ฐ์น ํ์ต์ ๊ฒฐํฉํ ์ต์ด์ ์ฌ๋ก๋ค.
๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด ์ธ ๊ฐ์ง๋ค.
- ์ ๊ทํ ํ๋ฆ ์ ์ฑ + ์ก์ -์ฒญํฌ ํฌ๋ฆฌํฑ์ ๊ฒฐํฉํ, ์ค์ ๋น์ฃผ์ผ๋ชจํฐ ์ ์ด์ฉ RL ๋ฏธ์ธ์กฐ์ ๊ธฐ๋ฒ.
- ์ ์ ์จ-๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ํ ์ค์ฉ์ ํ์ต ๋ ์ํผ (์ด๊ธฐ ์ ์ฑ ์ผ๋ก์ ๋ณด์์ ์ ๊ทํ ํฌํจ).
- ๋ํ์ ์ธ ์์ฌ์ฃผยท์ ๋ฐ ์ค์ ๊ณผ์ ์์์ ์ค์ฆ๊ณผ, ์ฒญํฌ ๊ธธ์ดยทํฌ๋ฆฌํฑ ์ค๊ณ์ ์ํฅ ๋ถ์.
๋ฐฐ๊ฒฝ: NF์ ์ฒญํฌ ํฌ๋ฆฌํฑ์ ์ง๊ด์ผ๋ก ๋จผ์ ์ก๊ธฐ
๋ณธ๊ฒฉ์ ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ์ ์, ์ด ๋ ผ๋ฌธ์ ๋ ๋ฐ์น๋ ๋ ๊ฐ๋ ์ ๋น์ ๋ก ๊น์๋์. ์์์ ๊ทธ๋ค์์ ๋ณด๋ฉด ํจ์ฌ ํธํ๋ค.
์ ๊ทํ ํ๋ฆ: โ๋๊ฐ์ ์ ์๋ ์ฐฐํโ
๊ฐ์ฐ์์์ฒ๋ผ ๋จ์ํ ๋ถํฌ์์ ์์ํด, ๊ฐ์ญ(invertible) ๋ณํ์ ์ฌ๋ฌ ๋ฒ ์์ ๋ณต์กํ ๋ถํฌ๋ก ์ฃผ๋ฌผ๋ฌ๋ด๋ ๊ฒ์ด NF๋ค. ํต์ฌ์ ๊ฐ์ญ์ด๋ผ๋ ์ ์ด๋ค. ์ฐฐํ์ ์ด๋ค ๋ชจ์์ผ๋ก ๋น์๋ , ์ ํํ ๊ฑฐ๊พธ๋ก ๋๊ฐ์ ์๋์ ๋จ์ํ ๋ฉ์ด๋ฆฌ๋ก ๋๋ฆด ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋น๋ ๊ณผ์ ์์ โ์ผ๋ง๋ ๋์ด๊ณ ์ค์๋์งโ๋ฅผ ์ธก์ ํ ์ ์๋ค (์ด๊ฒ ์ผ์ฝ๋น์ ํ๋ ฌ์์ด๋ค). ์ด ๋์/์ค์ ์์ ์๋ฉด, ์์์ ์ก์ ์ด ์ผ๋ง๋ ๊ทธ๋ด๋ฏํ์ง ์ ํํ ํ๋ฅ ์ ๊ณ์ฐํ ์ ์๋ค.
์ด โ์ ํํ ์ฐ๋โ๊ฐ ์ ๊ทธ๋ ๊ฒ ์ค์ํ๊ฐ? ๋ํจ์ ์ ์ฃผ์ฌ์๋ฅผ ๊ตด๋ ค ์ํ์ ์ ๋ฝ์ง๋ง โ์ด ๋์ด ๋์ฌ ํ๋ฅ ์ด ์ ํํ ์ผ๋งโ์ธ์ง๋ ๋ชป ๋งํด์ฃผ๋ ๊ธฐ๊ณ๋ค. NF๋ ์ํ๋ ๋ฝ๊ณ , ๊ทธ ์ํ์ ํ๋ฅ ๋ ์ ํํ ๋งํด์ค๋ค. ๋ฏธ์ธ์กฐ์ ์์ โ์ ์ ์ฑ ์, ์์ฐํ๋ ํ๋์์ ๋๋ฌด ๋ฉ์ด์ง์ง ๋งโ๋ผ๊ณ ์ค์ ๋งค๋ ค๋ฉด ๋ฐ๋ก ์ด ํ๋ฅ ๊ฐ์ด ํ์ํ๋ค.
๋ณ์ ๋ณํ ๊ณต์์ด ์ด ๋ชจ๋ ๊ฑธ ํ ์ค๋ก ์ ๋๋ค.
\log p_\theta(z_K \mid c) = \log p_0(z_0) - \sum_{k=1}^{K} \log\left| \det \frac{\partial f_k(\cdot;c)}{\partial z_{k-1}} \right|
์ฝ๋ ๋ฒ์ ์ด๋ ๋ค. ์ต์ข ์ก์ z_K์ ๋ก๊ทธํ๋ฅ = ์์ ๋ฉ์ด๋ฆฌ z_0์ ๋ก๊ทธํ๋ฅ (์ฌ์ด ๊ฐ์ฐ์์์ด๋ผ ๊ณ์ฐ์ด ์ฝ๋ค) ๋นผ๊ธฐ ๋ณํ๋ง๋ค ๋์ธ ์์ ๋์ . c๋ ์กฐ๊ฑด(๋ณดํต ํ์ฌ ๊ด์ธก)์ด๋ค.
์ก์ ์ฒญํฌ ํฌ๋ฆฌํฑ: โ์๋ฌด ํ ์์ ์ ํต์งธ๋ก ์ฑ์ ํ๊ธฐโ
์์ฆ ๋ก๋ด์ ํ ์คํ ์ฉ์ด ์๋๋ผ ์ก์ ์ํ์ค(์ฒญํฌ)๋ฅผ ํต์งธ๋ก ์์ธกํด ์ด๋ฆฐ ๋ฃจํ(open-loop)๋ก ์คํํ๋ค. ์ถ๋ก ์ ์ ๊ฒ ํ๊ณ ์ ์ด ์ฃผํ์๋ฅผ ๋์ด๋ ค๋ ์ค์ฉ์ ์ ํ์ด๋ค. ๊ทธ๋ฐ๋ฐ ํ๊ฐ์(ํฌ๋ฆฌํฑ)๊ฐ ํ ๋ฐ์ง์ฉ ๋ฐ๋ก ์ฑ์ ํ๋ฉด, ์ ์ฑ ์ ๋ฐ์์ ์ด๊ธ๋๋ค.
๋น์ ํ์๋ฉด ์ถค์ด๋ค. ๋ฌด์ฉ์๋ โํ ์์ (์ฒญํฌ)โ์ ํ๋์ ํ๋ฆ์ผ๋ก ์ถ๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ์ฌ์์์ด ๋ฐ ๋๋ค ํ๋ํ๋๋ฅผ ๋ฐ๋ก ์ ์ ๋งค๊ธฐ๋ฉด, ์ด๋ ๋๋ค์ด ์ข์ ์๋ฌด์ ๊ธฐ์ฌํ๋์ง ๋ถ๊ฐ์ด ํ๋ ค์ง๋ค. ์์ ๋จ์๋ก ์ฑ์ ํ๋ฉด ๊ฐ์น ์ ๋ณด๊ฐ H ์คํ ์ ํ ๋ฒ์ ๊ฑฐ์ฌ๋ฌ ์ ํ๋๊ณ , ํฌ๋ ๋ง ํ ๋น์ด ๋๋ ทํด์ง๋ค.
์ฒญํฌ ํฌ๋ฆฌํฑ์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
Q_\phi(o_k, \mathbf{a}_k) \approx \mathbb{E}\left[ \sum_{i=0}^{H-1} \gamma^i r_{k,i} + \gamma^H V_\phi(o_{k+1}) \right]
o_{k+1}์ ๋ค์ ๊ฒฐ์ ๊ฒฝ๊ณ์์์ ๊ด์ธก์ด๋ค. ํ ์ฒญํฌ ์์ ๋ณด์์ ํ ์ธํด ๋ํ๊ณ , ์ฒญํฌ ๋์์์ ๋ฏธ๋ ๊ฐ์น๋ฅผ \gamma^H๋ก ์ด์ด ๋ถ์ธ๋ค.
์คํ๋ผ์ธ RL์ ๋ฉํฐ์คํ ๋ถํธ์คํธ๋ํ TD ์์ค์ ์ด๋ ๊ฒ ์ด๋ค.
\mathcal{L}_Q(\phi) = \mathbb{E}\left[ \left( Q_\phi(s_t, a_{t:t+H}) - \sum_{\tau=1}^{H} \gamma^\tau r_{t+\tau} - \gamma^H V_{\bar\phi}(s_{t+H}) \right)^2 \right]
๊ทธ๋ฆฌ๊ณ ์ ์ฑ ์ โํฌ๋ฆฌํฑ์ ์ต๋ํํ๋ ํ๋ ๋ถํฌ์์ ๋๋ฌด ๋ฒ์ด๋์ง ์๋๋คโ๋ ์ ์ฝ ์๋ ๊ฐฑ์ ๋๋ค.
\theta = \arg\max_\theta \; \mathbb{E}_{s_t \sim \mathcal{D}} \, \mathbb{E}_{a \sim \pi_\theta} \left[ Q_{\bar\phi}(s_t, a) \right] \quad \text{s.t.} \quad D(\pi_\theta, \pi_\beta) < \epsilon
์ฌ๊ธฐ์ D๋ ๋ค์ด๋ฒ์ ์ค, \epsilon์ ์ ๊ทํ ๊ฐ๋๋ค. NF๊ฐ ์ ํํ ์ฐ๋๋ฅผ ์ฃผ๊ธฐ์ ์ด ์ ์ฝ์ ์ค์ ๋ก ๊ฑธ ์ ์๋ค๋ ์ ์ด ํต์ฌ์ด๋ค.
๋ฐฉ๋ฒ: SERNF์ ํด๋ถ๋
์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๋จผ์ ๊ทธ๋ฆผ์ผ๋ก ์ก์.
์กํฐ๋ ์กฐ๊ฑด๋ถ NF๋ค. ์๋ฐฉํฅ(forward) ์ผ๋ก๋ ์ก์ ์ ์ ์ฌ(latent)๋ก ๋ณด๋ด๋ฉฐ ์ ํํ ๋ก๊ทธ์ฐ๋๋ฅผ ๋ฝ์ ํ๋ ๋ณต์ (behavior cloning) ์ง๋ํ์ต์ ์ด๋ค. ์ญ๋ฐฉํฅ(inverse) ์ผ๋ก๋ ๊ฐ์ฐ์์์์ ๋ฝ์ ์ ์ฌ๋ฅผ ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ์ฐ์ฐ์ผ๋ก ์ก์ ์ผ๋ก ๋ฐ๊ฟ, ํฌ๋ฆฌํฑ์ ํตํ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ ์ฑ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด ์๋ฐฉํฅ์ฑ์ด SERNF์ ์์ง์ด๋ค.
์กํฐ: ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ ๊ทํ ํ๋ฆ
๊ฐ NF ๋ณํ f_k(\cdot;c)๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๊ตฌ์กฐ(Jet ์คํ์ผ)๋ก ๊ตฌํ๋๊ณ , NinA์์ ์๊ฐ์ ๋ฐ์ RealNVP์ ์ปคํ๋ง ๋ ์ด์ด(coupling layer)๋ฅผ ์ด๋ค. ๋์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ ๊ทํ: ์ ๋ต ์ก์ ์ ๋ฐ์ดํฐ์ ํต๊ณ๋ก [-1, 1]๋ก ์ ๊ทํํ๋ค.
- ๋ ธ์ด์ฆ ์ฃผ์ : ์์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \mathcal{N}(0, \sigma_\text{noise}^2)๋ฅผ ๋ํ๋ค. ์์ ์ ์ก์ ๋ชจ๋ธ๋ง์ ๊ฒฐ์ ์ ์ด๋ผ๊ณ ์๋ ค์ง ํธ๋ฆญ์ด๋ค.
- \tanh^{-1} ๋ณํ: ๊ฒฝ๊ณ๊ฐ ์๋ ์ก์ ๊ณต๊ฐ์ ์ง์ํ๊ธฐ ์ํด ์์๋ณ๋ก ์ ์ฉํ๋ค.
์ปคํ๋ง ๋ ์ด์ด์ ํต์ฌ ์ฐ์ฐ์ ์ด๋ ๋ค. ์ฒญํฌ์ ์ ์ฌ ๋ณ์ z_k = [\mathbf{z}_1, \dots, \mathbf{z}_H](๊ฐ ์์๊ฐ ์ฒญํฌ ์์ ํ ์ก์ )๋ฅผ ๋ ๋ถ๋ถ x_{k_1}, x_{k_2}๋ก ๋ฌด์์ ๋ถํ ํ๋ค. ์กฐ๊ฑด c ์๋์์ x_{k_1}์ ๋น์ ํ ๋ณํ g_k(์๊ธฐ-์ดํ ์ + c์์ ๊ต์ฐจ-์ดํ ์ )์ ํต๊ณผ์์ผ ์ค์ผ์ผ s์ ๋ฐ์ด์ด์ค b๋ฅผ ์ป๊ณ , ๋ค์์ ์ํ ๋ณํ์ x_{k_2}์ ๊ฑด๋ค.
y_1์ ๊ทธ๋๋ก ๋๋ ๊ฒ์ด ํต์ฌ ํธ๋ฆญ์ด๋ค. ์ ๋ฐ์ ๊ฑด๋๋ฆฌ์ง ์์ผ๋ ๊ฐ์ญ์ฑ์ด ๋ณด์ฅ๋๊ณ ์ผ์ฝ๋น์ ํ๋ ฌ์ ๊ณ์ฐ์ด ์ธ์ง๋ค (๋๊ฐ/์ผ๊ฐ ๊ตฌ์กฐ). \tanh(s)๋ก ์ค์ผ์ผ์ ๋ฌถ์ด ํญ์ฃผ๋ฅผ ๋ง๋๋ค.
์ถ๋ก ํ ๋ ํ ๊ฐ์ง ๋ํ ์ผ์ด ํฅ๋ฏธ๋กญ๋ค. ํ์ต ๋ ๋ฒ ์ด์ค ๋ถํฌ๋ก \mathcal{N}(0, I)๋ฅผ ์ฐ์ง๋ง, ์ถ๋ก ์์๋ \mathcal{N}(0, \sigma_\text{sample}^2), \sigma_\text{sample} \le 1๋ก ์จ๋๋ฅผ ๋ฎ์ถฐ ์ํ๋งํ๋ค. ๋ ๊ทธ๋ด๋ฏํ(๊ณ ํ๋ฅ ) ์ก์ ์ ๋ฝ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ์ฅ์น๋ค. ๋ถํฌ๋ฅผ ์ขํ๋ฉด ํ๊ท ์ ๊ฐ๊น์ด, ์์ ํ ๋ชจ๋๋ก ์๋ ดํ๋ค.
์/์ญ๋ฐฉํฅ ์์ฌ์ฝ๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
# Algorithm 1: Normalizing-flow policy over action chunks
Input: observation o, base dist p0(z), invertible flow f_theta(.; o)
c <- Enc(o)
# Forward pass (likelihood evaluation)
z0 <- f_theta(a; c) # actions -> latent
log pi(a|o) <- log p0(z0) + log|det J_{f}(a; c)|
# Inverse pass (action generation)
z0 ~ p0(z)
a <- f_theta^{-1}(z0; c) # latent -> actions
log pi(a|o) <- log p0(z0) - log|det J_{f^{-1}}(z0; c)|ํฌ๋ฆฌํฑ: ํ๊ท๊ฐ ์๋๋ผ ๋ถ๋ฅ๋ก ๊ฐ์น๋ฅผ ๋ฐฐ์ด๋ค
ํฌ๋ฆฌํฑ์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ Q-๋คํธ์ํฌ๋ก ์ก์ -์ฒญํฌ ๊ฐ์น๋ฅผ ์์ธกํ๋ค. ๋ ๊ฐ์ง ์์ ํ ์ฅ์น๊ฐ ๋ค์ด๊ฐ๋ค.
- HL-Gauss ๋ถํฌ ํ๋ผ๋ฏธํฐํ: Q๊ฐ์ ๋จ์ผ ์ค์๋ก ํ๊ทํ์ง ์๊ณ , ๊ฐ์ ๋น(bin)์ผ๋ก ๋๋ ๋ฒ์ฃผํ ๋ถํฌ๋ก ๋ณด๊ณ ๊ต์ฐจ ์ํธ๋กํผ๋ก ํ์ตํ๋ค. โ๊ฐ ํจ์ ํ๊ท ๋์ ๋ถ๋ฅโ๋ผ๋ ์ต๊ทผ ํ๋ฆ(Stop Regressing ๋ฑ)์ ๋ฐ๋ฅธ ๊ฒ์ด๋ค. ํ๊ท๋ ํ๊น์ด ํฌ๊ฒ ํ๋ค๋ฆฌ๋ฉด ๋ถ์์ ํ๋ฐ, ๋ถ๋ฅ๋ ๊ทธ ํ๋ค๋ฆผ์ ๋ถํฌ๋ก ํก์ํด ์ค์ผ์ผ์ ๊ฐ๊ฑดํ๋ค.
- ์์๋ธ ์ต์ํ: ์ฌ๋ฌ ํฌ๋ฆฌํฑ ์์ธก ์ค ์ต์๊ฐ์ ์ต์ข Q๋ก ์ด๋ค. ๊ณผ๋์ถ์ (overestimation) ํธํฅ์ ๋๋ฅธ๋ค. (TD3/SAC์ ๋๋ธ Q ํธ๋ฆญ๊ณผ ๊ฐ์ ์ ์ ์ด๋ค.)
์ถ๋ก ๋๋ ์ ์ฑ ์์ ํ๋ณด ์ฒญํฌ๋ฅผ ์ฌ๋ฌ ๊ฐ ๋ฝ์ ํฌ๋ฆฌํฑ์ผ๋ก ์ ์ ๋งค๊ฒจ ๊ฐ์ฅ ์ข์ ๊ฑธ ๊ณ ๋ฅธ๋ค.
๊ด์ธก์ โ์์ง ์คํ ์ ํ ์ก์ โ์ ๋ฃ๋๋ค: RTC
๊ด์ธก o_t์๋ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง, ๋ก๋ด ์๊ธฐ์์ฉ(proprioception)๊ณผ ๋๋ถ์ด ์ง์ ์ฒญํฌ์์ ์์ง ์คํ๋์ง ์์ ์ก์ ๋ช ๊ฐ๊ฐ ๋ค์ด๊ฐ๋ค. ์ด๊ฒ์ด ์ค์๊ฐ ์ฒญํน(Real-Time Chunking, RTC)์ ๊ฐ๋ฅ์ผ ํ๋ค. ์ ์๋ค์ RTC๊ฐ ๋จ์ง ์ถ๋ก ์๊ฐ์ ์ค์ด๋ ๊ฑธ ๋์ด, ์ง์ ์ก์ ๋งฅ๋ฝ์ ์ ๊ณตํด ์ฑ๋ฅ ์์ฒด๋ฅผ ๋์ด์ฌ๋ ธ๋ค๊ณ ๋ณด๊ณ ํ๋ค. ์ฒญํฌ ๊ฒฝ๊ณ์์ ๋์์ด ๋๊ธฐ๋ ๋ฌธ์ ๋ฅผ ์ํํ๋, ์์ฌ์ฃผ ๊ณผ์ ์์ ์์ธ๋ก ์ค์ํ ๋ํ ์ผ์ด๋ค.
4๋จ๊ณ ํ์ต ๋ ์ํผ
SERNF์ ์ค์ ๊ฐ์น๋ ์ด ๋จ๊ณ์ ๋ ์ํผ์ ์๋ค. ์ ์ ๋ฐ์ดํฐ๋ก RL์ ๊ตด๋ฆด ๋ ๋ฌด์์ ์ธ์ ์ผ๋ฆฌ๊ณ ๋ น์ผ์ง๊ฐ ์น๋ถ๋ฅผ ๊ฐ๋ฅธ๋ค.
graph TD S1["Stage I: Imitation Learning<br/>NF policy BC init"] --> S2["Stage II: Offline Critic Warm-up<br/>freeze policy, train critic via TD"] S2 --> S3["Stage III: Full Offline RL<br/>critic + policy update with BC regularization"] S3 --> S4["Stage IV: Online RL Fine-tuning<br/>limited real-robot rollouts"] S4 -.collect new data.-> S3
Stage I โ ์ ์ฑ ์ด๊ธฐํ (๋ชจ๋ฐฉํ์ต). NF ์ ์ฑ ์ ์์ฐ ๋ฐ์ดํฐ์ ํ๋ ๋ณต์ ๋ก ๋ง์ถ๋ค. NF์ ์ฐ๋๊ฐ ์ ํํ๋ฏ๋ก BC๊ฐ ๊น๋ํ ์์ ๋ก๊ทธ์ฐ๋ ์ต์ํ๋ก ๋จ์ด์ง๋ค.
\mathcal{L}_\text{IL} = -\mathbb{E}\left[ \log \pi_\theta(a \mid o) \right]
Stage II โ ์คํ๋ผ์ธ ํฌ๋ฆฌํฑ ์๋ฐ์ . ์ ์ฑ ์ ์ผ๋ ค๋๊ณ ํฌ๋ฆฌํฑ๋ง ๋ฐ์ดํฐ๋ก TD ํ์ต์ํจ๋ค. ํ๊น์ ๋ค์๊ณผ ๊ฐ๋ค (d๋ ์ข ๋ฃ ํ๋๊ทธ, \hat a_{k+1}์ ์ด๊ธฐ ์ ์ฑ \pi_{\theta_0}์์ ๋ฝ์ ๋ค์ ์ฒญํฌ).
y = \sum_{t=0}^{H-1} \gamma^t r_{k,t} + \gamma^H (1-d)\, Q_{\bar\phi}(o_{k+1}, \hat a_{k+1})
ํฌ๋ฆฌํฑ์ด ์์ฑํ ์ํ์์ ์ ์ฑ ์ ๊ฑด๋๋ฆฌ๋ฉด ๋ง๊ฐ์ง๋ฏ๋ก, ๋จผ์ ํฌ๋ฆฌํฑ์ ์์ ์ ์ธ ๊ธฐ์ค์ ์ผ๋ก ๋ฐ์๋๋ ๊ฒ์ด๋ค.
Stage III โ ์์ ์คํ๋ผ์ธ RL. ์ด์ ํฌ๋ฆฌํฑ๊ณผ ์ ์ฑ ์ ํจ๊ป ๊ฐฑ์ ํ๋ค. Algorithm 2๋ก ์ข์ ์ก์ ์ ๊ณ ๋ฅด๊ณ , ๋์์ ์์ฐ ์ก์ a_d์ ๋ํ \log \pi_\theta(a_d \mid o)๋ฅผ BC ์ ๊ทํ ํญ์ผ๋ก ์ ์งํ๋ค. ์ด BC ํญ์ด ๋ฐ๋ก โ์ด๊ธฐ ์ ์ฑ ์์ ๋ฉ์ด์ง์ง ๋งโ๋ผ๋ ์ค์ด๋ค. NF๊ฐ ์ฐ๋๋ฅผ ์ฃผ๊ธฐ์ ๊ฐ๋ฅํ ๋ณด์์ ์ ๊ทํ๋ค.
Stage IV โ ์จ๋ผ์ธ RL ๋ฏธ์ธ์กฐ์ . ๋น ๋ฏํ ์ค์ ๋ก๋ด ๋กค์์ ์์ฐ์ผ๋ก ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ Stage III ๋ฃจํ์ ํ๋ ค ๋ฃ์ผ๋ฉฐ ์ ์ฑ ์ ๋๊น์ง ๋ค๋ฌ๋๋ค.
์คํ: ๋ ๊ฐ์ ๊น๋ค๋ก์ด ์ค์ ๊ณผ์
์ ์๋ค์ ๋ก๋ด๊ณตํ์ ๋ ์ฃผ๋ฅ ๋ฐฐํฌ ํ์ดํ๋ผ์ธ์ ๊ฐ๊ฐ ๋ํํ๋๋ก ๊ณผ์ ๋ฅผ ๊ณจ๋๋ค.
| ๊ณผ์ | ์ด๊ธฐํ ๋ฐฉ์ | ๋ํํ๋ ์ํฌํ๋ก | ๋์ |
|---|---|---|---|
| ๊ฐ์ ํ์ & ํ ์ดํ ์ ๋จ | ์ฌ๋ ํ ๋ ์คํผ๋ ์ด์ ์์ฐ | ์ ์ด ํ๋ถยท์๋ฎฌ ์ด๋ ค์ด IL ์ํฌํ๋ก | ์ผ์ด์ค์์ ๊ฐ์ ์ง๊ธฐ โ ๋ค๊ธฐ โ ์ ๋จ๊น์ง ๊ธด ์ํ์ค |
| ์์ ํ๋ธ ํ์ (์๋ฐ๋ฅ ์๋๋ก) | ์๋ฎฌ ํ์ต ์ ์ฑ ์ฆ๋ฅ(distill) | ์์ฌ์ฃผ ํธ๋์ ์ฃผ๋ฅ sim-to-real RL | ์๋ฐ๋ฅ์ ์๋๋ก ๋ ์ฑ ์์ ํ์ง ์ ์ง + ์ฐ์ ํ์ |
๋ ๊ณผ์ ๋ชจ๋ ๊ธธ๊ณ , ๊ณ ์ฐจ์์ด๋ฉฐ, ์ ์ดยทํ์ด๋ฐ ์ค์ฐจ์ ๋ฏผ๊ฐํ๋ค. ์ํ ํจ์จ ๋ฏธ์ธ์กฐ์ ์ ์คํธ๋ ์ค ํ ์คํธ๋ก ๊ฐํ๋ค.
๊ทธ๋ฆผ ์ค๋ช (Figure 4, ์ ์ฑ์ ๋กค์์). ์์ชฝ ํ์ ๊ฐ์ ํ์ยทํ ์ดํ ์ ๋จ์ผ๋ก, ํ์ง ํ๋ โ ๋ค์ด์ฌ๋ฆฌ๊ธฐ โ ์ ๋จ ์ฑ๊ณต์ ํ๋ฆ์ ๋ณด์ฌ์ค๋ค. ์๋์ชฝ ํ์ ์์ ํ๋ธ ํ์ ์ผ๋ก, ์์ ์ ํ์ง ์ ์ง์ ์๊ฐ์ ๋ฐ๋ฅธ ์ฐ์ ํ์ ์ ๋ณด์ฌ์ค๋ค. ์ฆ, โ์ ์ ์ธ ํ ์ฅ๋ฉดโ์ด ์๋๋ผ ์๊ฐ์ถ์ ๋ฐ๋ผ ๊ณผ์ ๊ฐ ๋๊น์ง ์์๋๋ ๋ชจ์ต์ด ํต์ฌ์ด๋ค.
๋ฒ ์ด์ค๋ผ์ธ๊ณผ ํต์ฌ ๊ฒฐ๊ณผ
๋น๊ต ๋์์ ACT(Action Chunking Transformer), ํ๋ก์ฐ ๋งค์นญ(flow matching) ์ ์ฑ , ๊ทธ๋ฆฌ๊ณ NF ๊ธฐ๋ฐ IL ๋ณํ๋ค(๋ฐ์ดํฐ ์ถ๊ฐ, ์จ๋ผ์ธ ๋ฐ์ดํฐ ๋จ์ ํฉ์น๊ธฐ)์ด๋ค.
๊ฐ์ฅ ์ค์ํ ๋ฐ๊ฒฌ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์์ IL์์๋ NF๊ฐ ํน๋ณํ์ง ์๋ค. Table II์ ๋ฐ๋ฅด๋ฉด, SERNF๊ฐ ์ฐ๋ NF ๋ชจ๋ฐฉ ์ ์ฑ ์ ๋ชจ๋ฐฉํ์ต๋ง์ผ๋ก ํ์ตํ์ ๋ ํ๋ก์ฐ ๋งค์นญยทACT์ ๋๋ฑํ ์ฑ๋ฅ์ ๋ธ๋ค. ์ฆ NF ๊ตฌ์กฐ ์์ฒด๊ฐ ์์ฌ์ฃผ ๊ณผ์ ์ ์ถฉ๋ถํ ํํ๋ ฅ์ ๊ฐ์ท๋ค๋ ํ์ธ์ด์ง, IL ๋จ๊ณ์์์ ์ฐ์๋ ์๋๋ค.
- ๋ฐ์ดํฐ๋ฅผ ๋ ๋ถ๋๋ค๊ณ ํ๋ฆฌ์ง ์๋๋ค. ํ ๋ ์คํผ๋ ์ด์ ์์ฐ์ ์ถ๊ฐํด IL์ ๋ณด๊ฐํด๋ ๊ฐ์ ์ ๋ฏธ๋ฏธํ๊ณ , ์ ๋จ์ ๋๊น์ง ์ฑ๊ณต์ํค์ง๋ ๋ชปํ๋ค. ์์ฌ์ฃผ ๊ณผ์ ์ ๋ง์ง๋ง ๋ง์ผ์ ๋ฐ์ดํฐ ์์ผ๋ก ๋ฉ์ฐ๊ธฐ ์ด๋ ต๋ค๋ ๋ป์ด๋ค.
- ์จ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ฒ ์์ผ๋ฉด ์คํ๋ ค ๋๋น ์ง๋ค. ์จ๋ผ์ธ ์ํธ์์ฉ์์ ๋ชจ์ ๊ถค์ ์ IL์ ๊ทธ๋ฅ ํฉ์น๋ฉด ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง๋ค. ์ ๋ฌธ๊ฐ ํ ๋ ์คํผ๋ ์ด์ ๊ณผ ์จ-ํด๋ฆฌ์ ๋ฐ์ดํฐ ์ฌ์ด์ ๋ถํฌ ๋ถ์ผ์น ๋๋ฌธ์ผ๋ก ๋ณด์ธ๋ค.
- SERNF๋ ํ์ค ๊ธฐ๋ฒ๋ค์ด ๋ฌด๋์ง๋ ์ง์ ์์ ์์ ์ ยท์ํ ํจ์จ์ ์ผ๋ก ์ ์ํ๋ค. RL ๋ฏธ์ธ์กฐ์ ์ NF + ์ฒญํฌ ํฌ๋ฆฌํฑ์ผ๋ก ๊ตด๋ ค์ผ ๋น๋ก์ โ๊ฑฐ์ ๋๋โ ์ ์ฑ ์ด โ๋๊น์ง ๋๋โ ์ ์ฑ ์ผ๋ก ๋์ด๊ฐ๋ค.
์ด ๊ฒฐ๊ณผ ๊ตฌ์กฐ๊ฐ ๋ฉ์์ง๋ฅผ ๋ถ๋ช ํ ํ๋ค. ๋ณ๋ชฉ์ ํํ๋ ฅ์ด ์๋๋ผ ๋ฏธ์ธ์กฐ์ ๋ฉ์ปค๋์ฆ์ด๋ค. IL๋ก๋ ACTยทํ๋ก์ฐ ๋งค์นญยทNF๊ฐ ๋น์ทํ๋ค. ์ฐจ์ด๋ ์ ์ ์ค์ ๋ฐ์ดํฐ๋ก ์์ ์ ์ธ RL ๊ฐฑ์ ์ ๊ฑธ ์ ์๋๋์์ ๊ฐ๋ฆฐ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ฐฑ์ ์ ๊ฐ๋ฅ์ผ ํ๋ ๊ฒ NF์ ์ ํํ ์ฐ๋์ ์ฒญํฌ ์ ๋ ฌ ํฌ๋ฆฌํฑ์ด๋ค.
์ ์ ์ฐ๊ตฌ (Ablations)
๋ถ๋ก์ ์ ์ ์ฐ๊ตฌ๋ ์ธ ์์ก์ด๋ฅผ ์ ๊ฒํ๋ค.
- ์ฒญํฌ ๊ธธ์ด H: ๋๋ฌด ์งง์ผ๋ฉด ์ฒญํฌ ํฌ๋ฆฌํฑ์ ์ด์ ์ด ์ค๊ณ , ๋๋ฌด ๊ธธ๋ฉด ์ด๋ฆฐ ๋ฃจํ ์คํ์ ์ค์ฐจ๊ฐ ๋์ ๋๋ค. ๊ณผ์ ๋ณ ์ ์ ์ง์ ์ด ์กด์ฌํ๋ค.
- NF ์ฉ๋(๋ธ๋ก ์ K ๋ฑ): ํํ๋ ฅ๊ณผ ํ์ต ์์ ์ฑยท๋น์ฉ ์ฌ์ด์ ํธ๋ ์ด๋์คํ.
- BC ๊ณ์: ๋ณด์์ฑ์ ์ธ๊ธฐ๋ค. ๋๋ฌด ํฌ๋ฉด ์ด๊ธฐ ์ ์ฑ ์ ๋ฌถ์ฌ ๊ฐ์ ์ด ๋งํ๊ณ , ๋๋ฌด ์์ผ๋ฉด ์ ์ ๋ฐ์ดํฐ์์ ์ ์ฑ ์ด ๋ฐ์ฐํ๋ค. ์ด ์์ก์ด๊ฐ SERNF ๋ ์ํผ์ ์์ ๋ฒจํธ๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์
1. ์ ํํ ์ฐ๋๋ผ๋ ํ ์๋ก ๋ณด์์ ๋ฏธ์ธ์กฐ์ ์ ๋ฌธ์ ์ฐ๋ค. ๋ํจ์ /ํ๋ก์ฐ ๋งค์นญ์ด ํํ๋ ฅ์ ์ข์๋ RL ๋ฏธ์ธ์กฐ์ ์์ ๋ฐ์ด ๋ฌถ์๋ ์ด์ ๊ฐ ์ฐ๋์ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์์ด์๋ค. SERNF๋ NF๋ก ๊ทธ ๋ฌธ์ ์ ๊ณต๋ฒ์ผ๋ก ์ฐ๋ค. โํํ๋ ฅ์ ์ ์งํ๋ฉด์ ์ฐ๋๋ ์ ํํโ๋ผ๋ ์กฐํฉ์ด ํต์ฌ ํต์ฐฐ์ด๋ค.
2. ์ ์ฑ ๊ณผ ํฌ๋ฆฌํฑ์ ์๊ฐ ๊ตฌ์กฐ๋ฅผ ์ผ์น์ํจ๋ค. ์ฒญํฌ๋ก ํ๋ํ๋ฉด ์ฒญํฌ๋ก ํ๊ฐํ๋ค. ๋น์ฐํด ๋ณด์ด์ง๋ง, ์ค์ ๋ก ์ ์ฑ ํํยท์ฐ๋ ์ ๊ทํยท๊ฐ์น ์ถ์ ์ ๋ชจ๋ ์ฒญํฌ ์คํ์ ๋ง์ถฐ ์ ๋ ฌํ ์ต์ด์ ์ค์ ํ๋์จ์ด ์ค์ฆ์ด๋ผ๋ ์ ์ด ๋ฌด๊ฒ๊ฐ ์๋ค.
3. ์ค์ ๋ ์ํผ๊ฐ ๊ตฌ์ฒด์ ์ด๋ค. IL ์ด๊ธฐํ โ ํฌ๋ฆฌํฑ ์๋ฐ์ โ ์์ ์คํ๋ผ์ธ RL โ ์จ๋ผ์ธ ๋ฏธ์ธ์กฐ์ ์ 4๋จ๊ณ, ๊ทธ๋ฆฌ๊ณ BC ์ ๊ทํยทHL-Gaussยท์์๋ธ ์ต์ํยทRTC ๊ฐ์ ์์ ํ ์ฅ์น๋ค์ ๊ทธ๋๋ก ๊ฐ์ ธ๋ค ์ธ ์ ์๋ ์์ง๋์ด๋ง ์์ฐ์ด๋ค. ์์ฌ์ฃผ RL์ ์ค์ ํธ๋์ ์ฌ๋ ค๋ณธ ์ฌ๋์ด๋ผ๋ฉด ์ด ๋ํ ์ผ๋ค์ ๊ฐ์น๋ฅผ ์๋ค.
4. ๋ ์ํฌํ๋ก๋ฅผ ๋ชจ๋ ์ปค๋ฒํ๋ค. ์์ฐ ๊ธฐ๋ฐ(IL)๊ณผ ์๋ฎฌ ์ฆ๋ฅ(sim-to-real RL) ์์ชฝ ์ถ๋ฐ์ ์์ ์๋ํจ์ ๋ณด์๋ค. ํ์ฅ ์ ์ฉ ๋ฒ์๊ฐ ๋๋ค๋ ์ ํธ๋ค.
ํ๊ณ (์ ์๋ค์ด ์ง์ ๋ฐํ ๊ฒ ํฌํจ)
1. ๊ณผ์ ๊ฐ ๋๋ฟ์ด๋ค. ๋ค์ค ๊ณผ์ ํ์ฅ์ด๋ ๋จ์ผ ๋ก๋ด์์์ ์ฐ์์ ๋ฉํฐํ์คํฌ ๋ฏธ์ธ์กฐ์ ์ ๋ฏธํด๊ฒฐ๋ก ๋จ์๋ค. ์์ฌ์ฃผ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํค์ฐ๋ ค๋ ์ ์ฅ์์๋ ๋ค์ ์ง๋ฌธ์ด ๋ฐ๋ก ์ฌ๊ธฐ์ ์์๋๋ค.
2. ๋ณด์ ์ค๊ณ๊ฐ ๋ณ๋ชฉ์ด๋ค. ์คํ์ ํฌ์(sparse)ยท์๋ ์ฃผ์ ๋ณด์์ ์์กดํ๋ค. ํ์ฅ์ฑ์ ๋จ์ด๋จ๋ฆฌ๊ณ , ๋ณด์์ด ๊ณผ์ ์ ์ด๊ธ๋๋ฉด ํ์ต์ ๋ฐฉํดํ ์ ์๋ค. ์ ์๋ค์ VLM์ผ๋ก ๋ณด์ ๋ผ๋ฒจ๋ง์ ์๋ํํ๋ฉด ์์์ ์ ํฌ๊ฒ ์ค์ด๊ณ ๋ ํฐ ๋ฐ์ดํฐยท๊ณผ์ ๋ก ํ์ฅํ ์ ์๋ค๊ณ ๋ณธ๋ค.
3. ๊ณ์ฐยท๊ตฌํ ๋ณต์ก๋๊ฐ ๋๋ค. ๋จ์ ๊ฐ์ฐ์์ ์ ์ฑ ๋ณด๋ค NF๋ ์ถ๊ฐ์ ์ธ ๊ตฌ์กฐ์ ํ์ต ์ค๋ฒํค๋๋ฅผ ๋ค๊ณ ์จ๋ค. ์์ง๋์ด๋งยท์ฐ์ฐ ๋น์ฉ์ด ์ฌ๋ผ๊ฐ๋ค. โ์ ํํ ์ฐ๋โ์ ๋๊ฐ๋ค.
4. ํ๊ฐ์ ํญ. ์ฑ๊ณต๋ฅ ์ ์ ๋ ์์น์ ํต๊ณ์ ์ ๋ขฐ๊ตฌ๊ฐ, ์๋๋ณ ๋ณ๋์ฑ, ๊ทธ๋ฆฌ๊ณ ACTยทํ๋ก์ฐ ๋งค์นญ์ ๋์ผํ RL ๋ฏธ์ธ์กฐ์ ์ (๊ฐ๋ฅํ ๋ฒ์์์) ์ ์ฉํ ๋ ์ง์ ์ ์ธ ๋น๊ต๊ฐ ์์ผ๋ฉด ๋ฉ์์ง๊ฐ ๋ ๋จ๋จํ์ ๊ฒ์ด๋ค. ํ์ฌ ๊ฒฐ๊ณผ๋ โIL์ ๋๋ฑ, ๋ฏธ์ธ์กฐ์ ์์ SERNF ์ฐ์โ๋ผ๋ ๊ตฌ์กฐ์ ์ฃผ์ฅ์ผ๋ก๋ ์ค๋๋ ฅ์ด ์์ผ๋, ๊ฐ ์์ ํ ์์(HL-Gauss vs ๋จ์ ํ๊ท, ์์๋ธ ์ ๋ฌด)์ ๊ธฐ์ฌ๋ฅผ ๋ถํดํ๋ ์ ์ ๊ฐ ๋ ์ด์ดํ๋ฉด ์ข๊ฒ ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
SERNF์ ์ขํ๋ฅผ ์ฃผ๋ณ ์ฐ๊ตฌ์ ๊ฒน์ณ ๋ณด๋ฉด ๊ธฐ์ฌ๊ฐ ๋ ๋๋ ทํด์ง๋ค.
| ์ถ | ๋ํจ์ /ํ๋ก์ฐ ๋งค์นญ ์ ์ฑ RL (DPPO, ReinFlow, \pi^*_{0.6} ๋ฑ) | ๊ฐ์ฐ์์ ์ ์ฑ + ์คํํฌ์จ RL (AWAC, Cal-QL, IBRL, SERL) | NF ์ ์ฑ (NinA, NF-P, โNFs are capable models for RLโ) | SERNF |
|---|---|---|---|---|
| ํํ๋ ฅ(๋ฉํฐ๋ชจ๋ฌ) | ๋์ | ๋ฎ์(๋ถ๊ดด) | ๋์ | ๋์ |
| ์ ํํ ์ฐ๋ | ์์(intractable) | ์์ | ์์ | ์์ |
| ๋ณด์์ ์ฐ๋ ์ ๊ทํ | ์ด๋ ค์ | ๊ฐ๋ฅ | ๊ฐ๋ฅ | ๊ฐ๋ฅ |
| ์ฒญํฌ ๋จ์ ํฌ๋ฆฌํฑ | ๋ถ๋ถ์ | ๋์ฒด๋ก ์คํ ๋จ์ | ๊ฑฐ์ ๋ฏธ์ ์ฉ | ์์ |
| ์ค์ ํ๋์จ์ด ์คํ-ํด๋ฆฌ์ ๋ฏธ์ธ์กฐ์ | ์ผ๋ถ | ์์ | ๊ฑฐ์ ์๋ฎฌยท์จ-ํด๋ฆฌ์ ํ์ | ์์(์ต์ด) |
- ๋ํจ์ /ํ๋ก์ฐ ๋งค์นญ RL ๊ณ์ด: ํํ๋ ฅ์ ๊ฐ์ ๊ธ์ด์ง๋ง ์ฐ๋๊ฐ ์ ๋์ ๋ณด์์ ๋ฏธ์ธ์กฐ์ ์ด ์ด๋ ต๋ค. SERNF๋ NF๋ก ์ด ์ฝ์ ์ ๋น์ผ๊ฐ๋ค.
- NF ์ ์ฑ ์ ํ์ฐ๊ตฌ: NF์ ์ ์ฑ ์ ํฉ์ฑ์ ์ด๋ฏธ ๋ณด์์ผ๋, ์ค์ ๋ก๋ด ์ ์ฉ์ ์จ-ํด๋ฆฌ์์ ๋จธ๋ฌผ๊ฑฐ๋ ๋๋ถ๋ถ ์๋ฎฌ์ ๊ทธ์ณค๋ค. SERNF๋ ์คํ-ํด๋ฆฌ์ + ์ค์ ํ๋์จ์ด + ๋ฏธ์ธ์กฐ์ ์ ๋์์ ๋ฌ์ฑํ ์ฒซ ์ฌ๋ก๋ฅผ ์์ฒํ๋ค.
- ์ก์ ์ฒญํน RL: ์ฒญํฌ ์ ๋ ฌ ํฌ๋ฆฌํฑ์ด ํ์ต ํจ์จ๊ณผ ํฌ๋ ๋ง ํ ๋น์ ๋๋๋ค๋ ์ ํ ๊ฒฐ๊ณผ(Li et al.)๋ฅผ ์ค์ ๋ฏธ์ธ์กฐ์ ํ์ดํ๋ผ์ธ์ ๋ น์ฌ ๋ฃ์๋ค.
- ์คํ๋ผ์ธ+์จ๋ผ์ธ RL ์์คํ (SERL, IBRL): ์์ฐยท์คํํด๋ฆฌ์ RLยทํด๋ง์ ์ค์ ํตํฉ์ ๊ฐ์กฐํ ๊ณ๋ณด ์์์, SERNF๋ ๋ฉํฐ๋ชจ๋ฌ ๋ถํฌยทํฌ์ ๋ณด์ ๊ณผ์ ๋ฅผ ์ํ ์ ํ ์ฐ๋ ์์ฑ ์ ์ฑ + ์ฒญํฌ ๊ฐ์น ํ์ต์ผ๋ก ํนํํ๋ค.
์์ฌ์ฃผ ํธ๋๋ฅผ ๋ค๋ฃจ๋ ์ ์ฅ์์ ๋ณด๋ฉด, ์ด ๋ ผ๋ฌธ์ โ์์ ํ๋ธ ํ์ ์ ์๋ฎฌ์์ ํ์ตํด ์ค์ ๋ก ์ฎ๊ธด ๋ค, ์ ์ ์ค์ ๋ฐ์ดํฐ๋ก ๋๊น์ง ๋ค๋ฌ๋๋คโ๋ ์ ํํ ๊ทธ sim-to-real ๋ฏธ์ธ์กฐ์ ๊ตฌ๋ฉ์ ๊ฒจ๋ฅํ๋ค. ์๋ฎฌ์์ PPO ๊ต์ฌ ์ ์ฑ ์ ํ์ตํ๊ณ SERNF ๊ตฌ์กฐ๋ก ์ฆ๋ฅํ ๋ค ์ค์ ์์ RL ๋ฏธ์ธ์กฐ์ ํ๋ค๋ ํ์ดํ๋ผ์ธ์, ํ์ฅ์ In-Hand Rotation ์์ ํ๋ฆ๊ณผ ๊ณง์ฅ ํฌ๊ฐ์ง๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
SERNF์ ๋ฉ์์ง๋ ๊ตฐ๋๋๊ธฐ ์์ด ๋ช ํํ๋ค. ์ค์ ์์ฌ์ฃผ ์ ์ฑ ์ ๋ง์ง๋ง ๋ง์ผ์ ๋ฐ์ดํฐ๋ฅผ ๋ ๋ชจ์์๊ฐ ์๋๋ผ, ์ ์ ๋ฐ์ดํฐ๋ก ์์ ์ ์ธ RL ๋ฏธ์ธ์กฐ์ ์ ๊ฑธ์ด์ ๋ฉ์ด๋ค. ๊ทธ ๋ฏธ์ธ์กฐ์ ์ ๊ฐ๋ฅ์ผ ํ๋ ๋ ๋ถํ์ด ์ ํํ ์ฐ๋๋ฅผ ์ฃผ๋ NF ์ ์ฑ ๊ณผ ์คํ ๋ฐ์์ ๋ง์ถ ์ฒญํฌ ํฌ๋ฆฌํฑ์ด๋ค.
ํต์ฌ์ ๋ค์ ์ง์ผ๋ฉด ์ด๋ ๋ค.
- ๋ํจ์ ์ ํํ๋ ฅ์ ์์ผ๋ ์ฐ๋๊ฐ ์์ด ๋ณด์์ ๋ฏธ์ธ์กฐ์ ์ด ๋งํ๊ณ , ๊ฐ์ฐ์์์ ์ฐ๋๋ ์์ผ๋ ๋ฉํฐ๋ชจ๋ฌ์์ ๋ถ๊ดดํ๋ค. NF๋ ๋ ๋ค ๊ฐ์ถฐ ๊ทธ ์ฌ์ด์ ๋น์๋ฆฌ๋ฅผ ์ฑ์ด๋ค.
- ์ฒญํฌ๋ก ํ๋ํ๋ฉด ์ฒญํฌ๋ก ํ๊ฐํด์ผ ํ๋ค. ์ฒญํฌ ํฌ๋ฆฌํฑ + HL-Gauss ๋ถ๋ฅ + ์์๋ธ ์ต์ํ + RTC๊ฐ ํ์ต์ ์์ ํํ๋ค.
- IL ์ด๊ธฐํ โ ํฌ๋ฆฌํฑ ์๋ฐ์ โ ์์ ์คํ๋ผ์ธ RL(BC ์ ๊ทํ) โ ์จ๋ผ์ธ ๋ฏธ์ธ์กฐ์ ์ 4๋จ๊ณ ๋ ์ํผ๊ฐ ์ค์ ์ ๋ผ๋๋ค.
- ์์ IL์์๋ ACTยทํ๋ก์ฐ ๋งค์นญยทNF๊ฐ ๋๋ฑํ๋ค. ์ฐจ์ด๋ ๋ฏธ์ธ์กฐ์ ์์ ๊ฐ๋ฆฐ๋ค. ๋ฐ์ดํฐ ์ถ๊ฐ๋ ์จ๋ผ์ธ ๋ฐ์ดํฐ ๋จ์ ๋ณํฉ์ ๋ต์ด ์๋์๊ณ , SERNF๋ง์ด ๋๊น์ง ๋ฐ์ด๋ถ์๋ค.
๋จ์ ์์ ๋ ๋ถ๋ช ํ๋ค. ๋ค์ค ๊ณผ์ ๋ก์ ํ์ฅ, ํฌ์ยท์๋ ๋ณด์์ VLM ์๋ ๋ผ๋ฒจ๋ง์ผ๋ก ๋์ฒดํ๊ธฐ, ๋ํ VLA ๋ชจ๋ธ๋ก์ ์ ์ฉ, ๊ทธ๋ฆฌ๊ณ NF๊ฐ ๋ค๊ณ ์ค๋ ๊ณ์ฐยท๊ตฌํ ๋น์ฉ ์ค์ด๊ธฐ๋ค. ์์ฌ์ฃผ RL์ ์ค์ ํธ๋์ ์ฌ๋ ค ๋๊น์ง ์ ๋ขฐ๋๋ฅผ ๋์ด์ฌ๋ฆฌ๋ ค๋ ์ฐ๊ตฌ์์๊ฒ, SERNF๋ โ๊ฑฐ์ ๋๋ ์ ์ฑ โ์ โ๋๋ ์ ์ฑ โ์ผ๋ก ๋๊ธฐ๋ ์ค์ฉ์ ํ ๋๋ฅผ ์ ์ํ๋ค. ํนํ ์๋ฎฌ ์ฆ๋ฅ โ ์ค์ ๋ฏธ์ธ์กฐ์ ๊ฒฝ๋ก๋ฅผ ํ๋ In-Hand ๊ณผ์ ๋ผ๋ฉด, ์ด ๋ ์ํผ์ ๊ฐ ์กฐ๊ฐ์ ๊ทธ๋๋ก ์คํ ์ค๊ณ์ ํก์ํด ๋ณผ ๊ฐ์น๊ฐ ์ถฉ๋ถํ๋ค.