๐VQ-ACE ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค VQ-ACE๋ ๋ณต์กํ ๋ก๋ด ์กฐ์์ ์ํด ์ธ๊ฐ์ ์ ๋์์ ์์ํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถํ์ฌ ํ๋ ๊ณต๊ฐ์ ์ฐจ์์ ํฌ๊ฒ ์ค์ด๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ ์ด ํ๋ ์์ํฌ๋ฅผ Model Predictive Control (MPC)์ ์ ์ฉํ๋ฉด, ์ ์ฌ ๊ณต๊ฐ ์ํ๋ง์ ํตํด Ball Rolling ๋ฐ Object Picking๊ณผ ๊ฐ์ ์์ ์์ ๋ ์ธ๊ฐ๋ค์ด ๋์๊ณผ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค.
- ๐ก ๋ํ, Reinforcement Learning (RL)์ ํ๋ ์ฒญํน์ ํตํฉํ๋ฉด ํ์ต์ ๊ฐ์ํํ๊ณ ํ์์ ๊ฐ์ ํ์ฌ ํ๋ธ ์๊ธฐ ๋ฐ ์ธํธ๋ ํ๋ธ ์ฌ์ ๋ ฌ๊ณผ ๊ฐ์ ์์ ์์ ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๊ณ ์ฐจ์์ ์ด๊ณ ๋ณต์กํ ๋์์ ์๊ตฌํ๋ ๋ก๋ด ์กฐ์ ์์ , ํนํ ๋ฅ์ํ ๋ก๋ด ์กฐ์(dexterous robotic manipulation)์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด VQ-ACE (Vector Quantized Action Chunking Embedding)๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. VQ-ACE๋ ์ธ๊ฐ ์์ ์์ง์์ ์์ํ๋ ์ ์ฌ ๊ณต๊ฐ(quantized latent space)์ผ๋ก ์์ถํ์ฌ ์ก์ ๊ณต๊ฐ์ ์ฐจ์์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ํต์ฌ์ ์ธ ๋์ ํน์ฑ์ ๋ณด์กดํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ฅผ Model Predictive Control (MPC)๊ณผ Reinforcement Learning (RL)์ ํตํฉํ์ฌ, ์์ฒด๋ชจ๋ฐฉ ๋ก๋ด ์(biomimetic robotic hand)์ ์ฌ์ฉํ ๋ฅ์ํ ์กฐ์ ์์ ์์ ๋ณด๋ค ํจ์จ์ ์ธ ํ์(exploration)๊ณผ ์ ์ฑ ํ์ต(policy learning)์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
VQ-ACE์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ:
- ๋ชจ์ ์บก์ฒ ์ฅ๊ฐ(motion capture glove)์ผ๋ก ์์ง๋ ์ธ๊ฐ ์ ๋์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํฉ๋๋ค.
- ์์ง๋ ์ธ๊ฐ ์ ํฌ์ฆ๋ ๋ก๋ด ์์ 11 DoF(์์ ๋)์ ๋ง๊ฒ kinematic retargeting ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ๋งคํ๋ฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ 50Hz๋ก ๊ธฐ๋ก๋ 54๋ถ ๋ถ๋์ ์ ๋์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Vector-Quantized Conditional VAE (CVAE) ์ํคํ
์ฒ:
- VQ-ACE๋
์ก์ ์ฒญํฌ(action chunk)์ ๋ํ ์ด์ฐ ์ ์ฌ ์๋ฒ ๋ฉ ๊ณต๊ฐ(discrete latent embedding space)์ ํ์ตํ๊ธฐ ์ํดvector-quantized Conditional VAE๊ตฌ์กฐ๋ฅผ ์ฑํํฉ๋๋ค. - ์ธ์ฝ๋ (Encoder) \phi: ํ์ฌ ๊ด์ ์์น q_t์ ์ก์
์ํ์ค a_{t:t+n} (1์ด/50 ํ์์คํ
์ 11 DoF ์ก์
์ฒญํฌ)๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์, ์ด๋ฅผ m๊ฐ์ ์ ์ฌ ๋ฒกํฐ ์ํ์ค z_{k:k+m}๋ก ์ธ์ฝ๋ฉํฉ๋๋ค (์ฌ๊ธฐ์ n์ ์ก์
์ฒญํฌ ๊ธธ์ด, m์ ์ ์ฌ ํ ํฐ ์).
- ์ ๋ ฅ์ ํ์ฌ ๊ด์ ์์น q_t์ ์ก์ ์ํ์ค a_{t:t+n}์์ ๋งคํ๋ ํ ํฐ(tokens)์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ์ต๋ ์์น ํ ํฐ(positional tokens)์ด ์์ ์ถ๊ฐ๋ฉ๋๋ค.
- ์ด ํ์ต๋ ํ ํฐ์ ํด๋นํ๋ ์ถ๋ ฅ ํน์ง์ด ์ ์ฌ ๋ณ์ z_{k:k+m}๋ฅผ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์์ํ (Quantization): ์ธ์ฝ๋ฉ๋ ์ ์ฌ ๋ฒกํฐ z_k๋ ์ฝ๋๋ถ(codebook) \{e_1, e_2, \ldots, e_K\}์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์์ ์ฐพ์ ์์ํ๋ z_q(z_k)๋ก ๋ณํ๋ฉ๋๋ค (Nearest-Neighbor look-up). ์ด ๋ ผ๋ฌธ์์๋ 16์ฐจ์์ ๊ฐ ์ ์ฌ ํ ํฐ์ด 4๊ฐ์ง ์ด์ฐ ๊ฐ์ ๊ฐ์ง ์ ์๋ ํฌ๊ธฐ 4์ ์ฝ๋๋ถ์ ์ฌ์ฉํฉ๋๋ค.
- ๋์ฝ๋ (Decoder) \psi: ์์ํ๋ ์ ์ฌ ๋ฒกํฐ z_{k:k+m}์ ํ์ฌ ๊ด์ ์์น q_t๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์, ์๋ ์ก์
์ฒญํฌ \hat{a}_{t:t+n}๋ฅผ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
- ๋์ฝ๋๋ ์ ๋ ฅ์ผ๋ก ์์ํ๋ ์ ์ฌ ๋ณ์ z_{k:k+m}, ํ์ฌ ๊ด์ ์์น q_t, ๊ทธ๋ฆฌ๊ณ ๋ชฉํ ์ถ๋ ฅ์ ํด๋นํ๋ ํ์ต๋ ์์น ์๋ฒ ๋ฉ(positional embeddings)์ ์ฌ์ฉํฉ๋๋ค.
- ๊ฐ ํ ํฐ์ ์๊ฐ์ ๊ธฐ๋ฐํ
causal mask๊ฐ ์ ์ฉ๋์ด ๋์ฝ๋ฉ ๊ณผ์ ์์ ์๊ฐ์ ์์กด์ฑ(temporal dependencies)์ด ์ ์ง๋๋๋ก ํฉ๋๋ค.
- ์์ค ํจ์ (Loss Function): ๋คํธ์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ ์์ค ํจ์ L์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ฉ๋๋ค. L = L_{recon} + \lambda_{commit} L_{commit} ์ฌ๊ธฐ์ L_{recon} = \|a_{t:t+n} - \psi (q_t, z_q (\phi (q_t, a_{t:t+n})))\|_1 ๋ ์ฌ๊ตฌ์ฑ ์์ค(reconstruction loss)์ด๋ฉฐ, L_{commit} = \|\phi (q_t, a_{t:t+n})) - SG [z_q (\phi (q_t, a_{t:t+n}))] \|_2^2 ๋
commitment loss์ ๋๋ค. SG๋ stop gradient ์ฐ์ฐ์์ ๋๋ค. ๋ฒกํฐ ์์ํ๋ Exponential Moving Average (EMA) ๋ฒ์ ์ ์ฌ์ฉํ์ฌ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
- VQ-ACE๋
- ์ ์ฌ ๊ณต๊ฐ์์์ ์์ธก ์ํ๋ง MPC (Latent Sampling MPC):
- ๊ธฐ์กด ์์ธก ์ํ๋ง MPC ์๊ณ ๋ฆฌ์ฆ์ ํ์ฅํ์ฌ ์ ์ฌ ๊ณต๊ฐ์์ ์ํ๋ง์ ์ํํฉ๋๋ค.
- ๊ฐ ๊ณํ \Pi์ ์ ์ฌ ๋ณ์ z_{k:k+m}์ ๋ ธ์ด์ฆ ์คํ๋ผ์ธ(noise spline) \theta_{\tau:\tau+P}๋ก ํํ๋ฉ๋๋ค.
- ์ ์ฑ ์์ ์์ฑ๋๋ ์ ์ด ์ ํธ u(\tilde{t})๋ ๋ค์๊ณผ ๊ฐ์ด ํ๊ฐ๋ฉ๋๋ค: u(\tilde{t}) = \psi (\tilde{t}; q_t, z_{k:k+m}) + s (\tilde{t}; \theta_{\tau:\tau+P}) ์ฒซ ๋ฒ์งธ ํญ์ ๋์ฝ๋์์ ์ฌ๊ตฌ์ฑ๋ ์ก์ ์ฒญํฌ์ด๊ณ , ๋ ๋ฒ์งธ ํญ์ ์คํ๋ผ์ธ ํ๊ฐ์ ๋๋ค.
- ํ๋ณด๋ค์ ํ์ฌ ์ ์ฌ ๊ฐ z_j๋ฅผ ํ๋ฅ 1-p๋ก ์ ์งํ๊ฑฐ๋, ํ๋ฅ p๋ก ์ฝ๋๋ถ์์ ๊ท ์ผํ๊ฒ ์ํ๋ง๋ ์๋ก์ด ์ฝ๋ e_r๋ก ๋์ฒดํ์ฌ ์์ ๋ฉ๋๋ค. z^{(i)}_j = \begin{cases} z_j, & \text{with probability } 1-p \\ e_r, & \text{with probability } p, \text{where } r \sim \text{Uniform}(1, K) \end{cases}
- ๋ ธ์ด์ฆ ์คํ๋ผ์ธ๋ ๊ต๋๋ฉ๋๋ค: z^{(i)}๊ฐ z์ ๊ฐ์ผ๋ฉด Gaussian noise N(\theta, \sigma^2), ๋ค๋ฅด๋ฉด N(0, \sigma^2)๋ก ์ด๊ธฐํ๋ฉ๋๋ค. ์ด ๋ฐฉ์์ ๊ตญ์ ํ์(local search)๊ณผ ์ ์ง์ ์ต์ ํ(progressive optimization)๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์ก์
์ฒญํฌ๋ฅผ ์ฌ์ฉํ RL (RL with Action Chunks):
- ์ ํต์ ์ธ RL์ Markovian ๊ฐ์ ์ ์ก์ ์ฒญํฌ๊ฐ ๋ฏธ๋ฌํ๊ฒ ์๋ฐฐํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ก์ ์ฒญํฌ A_t๋ฅผ ๋ช ๋ชฉ์์ ์ก์ (nominal actions)์ผ๋ก ์ฌ์ฉํ๊ณ , ์์ด์ ํธ๊ฐ ์์ฐจ(residual) \delta_t๋ก ์ด๋ฅผ ์กฐ์ ํ๋๋ก ํฉ๋๋ค.
- ์์คํ ์ ์ํ x, ์ก์ u, ๊ทธ๋ฆฌ๊ณ ๋์ญํ f๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅํฉ๋๋ค: \hat{x}(t+1) = \hat{f}(\hat{x}(t), \hat{u}(t)) \hat{x}(t) = [x(t); A_t; x_s(t)] \hat{u}(t) = [\delta_t; u_s(t)] ์ฌ๊ธฐ์ x_s์ u_s๋ ์ฒญํฌ ์ ํ ์ํ(chunk selection states) ๋ฐ ์ก์ (actions)์ ๋๋ค.
- ์ก์
์ฒญํฌ A_t๋ ๋งค ํ์์คํ
๋ง๋ค ์
๋ฐ์ดํธ๋์ง ์์ผ๋ฉฐ,
์ฒญํฌ ์ ํ ์ํ(chunk selection states)x_s(t)๊ฐ ๋์ ๋๋ค๊ฐ 1๋ณด๋ค ์ปค์ง๋ฉดํธ๋ฆฌ๊ฑฐ(trigger)๊ฐ ๋ฐ์ํ์ฌ ์๋ก์ด ์ก์ ์ฒญํฌ๊ฐ ๋์ฝ๋ \psi(q_t, \text{argmax}(x_s(t)+u_s(t)))๋ฅผ ํตํด ์ ํ๋๊ณ x_s๋ ๋ฆฌ์ ๋ฉ๋๋ค. ์ด๋ ์ฌ๋ฌ ์คํ ์ ๊ฑธ์น ์ก์ ์ฒญํฌ ์คํ๊ณผ ๋จ์ผ ์คํ ์์ฐจ ํผ๋๋ฐฑ ๊ฐ์ ์ฃผํ์ ์ฐจ์ด๋ฅผ ์ฐ๊ฒฐํ๊ณ , ์ ์ฑ ์ด ์คํํ ์ก์ ์ฒญํฌ๋ฅผ ๋ฅ๋์ ์ผ๋ก ์ ํํ ์ ์๋๋ก ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
- ์ก์ ๊ณต๊ฐ ์๋ฒ ๋ฉ: VQ-ACE๋ 1์ด(50 ํ์์คํ )์ ์ก์ ์ฒญํฌ๋ฅผ 5๊ฐ์ ํ ํฐ์ผ๋ก ์ธ์ฝ๋ฉํ๋ฉฐ, ๊ฐ ์ ์ฌ ํ ํฐ์ 16์ฐจ์์ด๊ณ ์ฝ๋๋ถ ํฌ๊ธฐ๋ 4์ ๋๋ค. ํ๋ จ๋ ๋ชจ๋ธ์ ๊ฒ์ฆ ๋ฐ์ดํฐ์ L1 ์์ค์ 0.050์ผ๋ก ์๋ ดํ์ต๋๋ค.
- Latent Sampling MPC: Ball Rolling (์ธํธ๋ ์กฐ์) ๋ฐ Object Picking (๋ค๋ฒจ ๊ฐ์ฒด ์ง์ด ๋ค๊ธฐ) ์์
์์ ๊ธฐ์ค
predictive sampling๋๋น ๋ ๋์ ์์ ์ฑ๊ณต๋ฅ ๊ณผ ๋ฎ์ ์ ์ด ๋น์ฉ์ ๋ณด์์ต๋๋ค. ํนํ Ball Rolling ์์ ์์๋ ๋ชจ๋ ์๊ฐ๋ฝ์ด ๊ณต๊ณผ ์ ์ดํ๋ ๋ฑ ๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋์์ ์์ฑํ์ต๋๋ค. ๋์ผํ ์์ ๊ถค์ ์ ์ํ๋งํ ๋latent sampling MPC์ ๋น์ฉ์ด ํญ์ ๊ธฐ์ค์ ๋ณด๋ค ๋ฎ์, ๋ ํจ์จ์ ์ธ ์ก์ ํ๋ผ๋ฏธํฐํ ๊ณต๊ฐ์์ ์ํ๋งํจ์ ์ ์ฆํ์ต๋๋ค. - Action Chunked RL: Cube Reorientation (์ธํธ๋ ํ๋ธ ์ฌ์ ๋ ฌ) ๋ฐ Cube Stacking ์์
์์ ๊ธฐ์ค์ ๋๋น ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ์ฐ์ํ ์ต์ข
์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋
Action Chunked RL์ด ์์ด์ ํธ๊ฐ ์๋ฏธ ์๋ ์ก์ ์ฐ์ ์์(action priors)๋ฅผ ํ์ํ ์ ์๋๋ก ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. - Ablation Studies:
์กฐ๊ฑด๋ถ ๊ด์ฐฐ(Conditional observation)(q_t): VQ-ACE์์ q_t๋ฅผ ์ ๊ฑฐํ๋ฉด ๊ฒ์ฆ L1 ์ค๋ฅ๊ฐ 0.05์์ 0.07๋ก ์ฆ๊ฐํ์ต๋๋ค. Ball Rolling ์์ ์์ ์กฐ๊ฑด๋ถ ๋ณํ์ด ํจ์ฌ ๋ฎ์ ๋น์ฉ์ ๋ฌ์ฑํ์ต๋๋ค.๋ฒกํฐ ์์ํ(Vector quantization): KL ์์ค์ ์ฌ์ฉํ๋ VAE (์์ํ ์์)๋ ์ก์ ์ฒญํฌ๋ฅผ ๋ ์ ํํ๊ฒ ์ฌ๊ตฌ์ฑํ์ฌ L1 ์์ค 0.028์ ๋ฌ์ฑํ์ง๋ง, ๋ ์์ ๋ชจ๋์์ ์์ํ๋ ๋ฒ์ ๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ก์ต๋๋ค. ์ด๋ VAE๊ฐ ๊ณผ์ ํฉ์ ๋ ์ทจ์ฝํ ์ ์์์ ์์ฌํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํ๊ณ:
VQ-ACE๋ ๋ฅ์ํ ๋ก๋ด ์กฐ์ ์์ ์ ๋ณต์ก์ฑ๊ณผ ๊ณ ์ฐจ์์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํ ํจ๊ณผ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ์ ์ฌ ๊ณต๊ฐ ๊ธฐ๋ฐ MPC์ ์ก์ ์ฒญํฌ ๊ธฐ๋ฐ RL์ ํตํด ํจ์จ์ ์ธ ํ์๊ณผ ์ ์ฑ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํ๊ณ๋ก๋, ์ก์ ์ฒญํฌ๊ฐ ํน์ ๊ตฌํ์ฒด(embodiment)์ ์ ํ๋๋ ๋ช ๋ชฉ์์ ๊ด์ ์์น ์ํ์ค๋ก ํํ๋๋ค๋ ์ , ๋ค์ด์คํธ๋ฆผ ์ ์ด๊ธฐ(downstream controller)์ ํผ๋๋ฐฑ์ ์์กดํ๋ feed-forward ์ก์ ์ ์ด์ ์ ๋ง์ถ๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ์๋์ ์ผ๋ก ์๋ค๋ ์ ์ด ์์ต๋๋ค. ํฅํ VQ-ACE๋ ๋ค๋ฆฌ ๋ก๋ด(legged locomotion)์ด๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ถ์ผ์ ๋๊ท๋ชจ ์ํ ๊ณต๊ฐ ๊ด๋ฆฌ์๋ ์ ์ฉ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ๋ก๋ด ์์ด ๋ง์ฃผํ ๊ทผ๋ณธ์ ์ธ ์ด๋ ค์
์ฌ๋ฌ๋ถ์ ์์นจ์ ์ผ์ด๋์ ์ปคํผ๋ฅผ ๋ง๋ค ๋ ์ด๋ค ๋์์ ํ์๋์? ์ปต์ ์ก๊ณ , ์ปคํผํฌํธ๋ฅผ ๋ค์ด ์ฌ๋ฆฌ๊ณ , ์ฐ์ ๋ฅผ ๋ฐ๋ฅด๊ณ โฆ ์ด ๋ชจ๋ ๋์์ด ๋๋ฌด๋ ์์ฐ์ค๋ฝ๊ฒ ๋๊ปด์ง์ง๋ง, ์ฌ์ค ์ฐ๋ฆฌ์ ์์ ๋๋ผ์ธ ์ ๋๋ก ๋ณต์กํ ์ผ์ ํ๊ณ ์์ต๋๋ค.
์ธ๊ฐ์ ์์ 27๊ฐ์ ์์ ๋(DoF)๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๊ฒ ๋ฌด์จ ์๋ฏธ๋๋ฉด, ์์ ์์ง์์ ์์ ํ ํํํ๋ ค๋ฉด 27๊ฐ์ ์ซ์๊ฐ ํ์ํ๋ค๋ ๋ป์ ๋๋ค. ๋ก๋ด์ด ์ด๋ฐ ๋ณต์กํ ์๋์์ ํ์ตํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น์? ๊ทธ๋ฅ ๋ชจ๋ ๊ฐ๋ฅํ ๋์์ ์๋ํด๋ณด๋ฉด ๋ ๊น์?
๋ฌธ์ ๋ ์ด๋ ๊ฒ ๋จ์ํ์ง ์์ต๋๋ค. ๋ง์ฝ ๊ฐ ์์ ๋๊ฐ 10๊ฐ์ง ๊ฐ๋ฅํ ๊ฐ์ ๊ฐ์ง ์ ์๋ค๋ฉด, ๊ฐ๋ฅํ ๋์์ ์กฐํฉ์ 10^27๊ฐ์ง์ ๋๋ค. ์ด๋ ์ฐ์ฃผ์ ์๋ ๋ณ์ ๊ฐ์๋ณด๋ค๋ ๋ง์ต๋๋ค! ์ด๊ฒ์ด ๋ฐ๋ก ์ฐจ์์ ์ ์ฃผ(curse of dimensionality)๋ผ๊ณ ๋ถ๋ฆฌ๋ ๋ฌธ์ ์ ๋๋ค.
ETH Zรผrich์ ์ฐ๊ตฌํ์ ์ด ๋ฌธ์ ์ ๋ํ ์๋ฆฌํ ํด๊ฒฐ์ฑ ์ ์ ์ํ์ต๋๋ค. ๋ฐ๋ก VQ-ACE์ ๋๋ค.
ํต์ฌ ์์ด๋์ด: โ๋งํ๋ ๋ฐฉ์โ์ ๋ฐ๊พธ์
VQ-ACE์ ํต์ฌ ์์ด๋์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด ๊ฐ๋จํ ๋น์ ๋ฅผ ๋ค์ด๋ณผ๊น์?
์์ํด๋ณด์ธ์. ๋น์ ์ด ์น๊ตฌ์๊ฒ ์๋ฆฌ๋ฒ์ ์ค๋ช ํ๋ ค๊ณ ํฉ๋๋ค. ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์์ต๋๋ค:
๋ฐฉ๋ฒ 1 (๊ธฐ์กด ๋ฐฉ์): โ์นผ์ ์ ํํ 23๋ ๊ฐ๋๋ก ๋ค๊ณ , 3.2cm ์์ผ๋ก ์ด๋ํ๊ณ , 2.7N์ ํ์ผ๋ก ๋๋ฅด๊ณ โฆโ
๋ฐฉ๋ฒ 2 (VQ-ACE ๋ฐฉ์): โ์ฌ๋ฃ๋ฅผ ์ฐ๊ธฐโ, โํฌ์ ๋ณถ๊ธฐโ, โ๊ฐ ๋ง์ถ๊ธฐโ
์ด๋ ์ชฝ์ด ๋ ์ดํดํ๊ธฐ ์ฝ๊ณ ๋ฐ๋ผํ๊ธฐ ์ฌ์ธ๊น์? ๋น์ฐํ ๋ฐฉ๋ฒ 2์ฃ . VQ-ACE๋ ๋ฐ๋ก ์ด๋ฐ ์์ด๋์ด๋ฅผ ๋ก๋ด ์ ์ด์ ์ ์ฉํ ๊ฒ์ ๋๋ค.
Action Chunking: ๋์์ ๋ฉ์ด๋ฆฌ๋ก ๋ฌถ๊ธฐ
VQ-ACE๋ ๋ก๋ด์ ๋ณต์กํ ๋์์ โaction chunksโ๋ผ๋ ์๋ฏธ์๋ ๋ฉ์ด๋ฆฌ๋ก ๋ฌถ์ต๋๋ค. ์๋ฅผ ๋ค์ด:
- โ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋์โ โ 1์ด ๋์์ ์๊ฐ๋ฝ ์์ง์ ํจํด
- โ์๋ฐ๋ฅ์์ ๊ณต์ ๊ตด๋ฆฌ๋ ๋์โ โ 1์ด ๋์์ ์๋ชฉ๊ณผ ์๊ฐ๋ฝ ์กฐ์ ํจํด
์ด๋ ๊ฒ ํ๋ฉด ๋ก๋ด์ด ๋งค ์๊ฐ๋ง๋ค โ๋ค์ 0.05์ด ๋์ ์๊ฐ๋ฝ์ ์ผ๋ง๋ ์์ง์ผ๊น?โ๋ฅผ ๊ณ ๋ฏผํ๋ ๋์ , โ๋ค์ 1์ด ๋์ ์ด๋ค ๋์ ํจํด์ ์ฌ์ฉํ ๊น?โ๋ฅผ ์ ํํ๋ฉด ๋ฉ๋๋ค.
Vector Quantization: ๋์์ โ๋จ์ดโ๋ก ๋ง๋ค๊ธฐ
๋ ๋์๊ฐ, VQ-ACE๋ ์ด๋ฐ ๋์ ๋ฉ์ด๋ฆฌ๋ค์ ์ด์ฐ์ ์ธ โ์ฝ๋โ๋ก ๋ณํํฉ๋๋ค. ๋ง์น ์ฐ์์ ์ธ ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ๋ ๊ฒ์ฒ๋ผ์.
์ฐ๊ตฌํ์ ๋ค์๊ณผ ๊ฐ์ ์์คํ ์ ๋ง๋ค์์ต๋๋ค:
- 5๊ฐ์ โํ ํฐโ (๋จ์ด ๊ฐ์ ๊ฒ)
- ๊ฐ ํ ํฐ์ 4๊ฐ์ง ๊ฐ ์ค ํ๋๋ฅผ ์ ํ
- ์ด 4^5 = 1,024๊ฐ์ ๊ฐ๋ฅํ ๋์ ํจํด
์๋ ์๋ฐฑ๋ง ๊ฐ์ง์๋ ๊ฐ๋ฅํ ๋์์ด ์ด์ 1,024๊ฐ์ง๋ก ์ค์ด๋ ๊ฒ๋๋ค! ํ์ง๋ง ์ค์ํ ๋์ ํน์ฑ์ ๋ชจ๋ ๋ณด์กด๋ฉ๋๋ค.
๊ธฐ์ ์ ์ผ๋ก ์ด๋ป๊ฒ ์๋ํ ๊น?
VQ-VAE: ์์ถ๊ณผ ๋ณต์์ ๋ง๋ฒ
VQ-ACE์ ๊ธฐ์ ์ ํต์ฌ์ VQ-VAE (Vector Quantized Variational AutoEncoder)์ ๋๋ค. ์ด๋ ค์ด ์ด๋ฆ์ด์ง๋ง ๊ฐ๋ ์ ์๊ฐ๋ณด๋ค ๋จ์ํฉ๋๋ค.
1๋จ๊ณ - Encoder (์ธ์ฝ๋):
์ธ๊ฐ์ ์๋์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์์ โ์ด ๋์์ ๋ณธ์ง์ ์ด๊ฑฐ์ผ!โ๋ผ๊ณ ์์ฝํฉ๋๋ค. ๋ง์น ๊ธด ๋ฌธ์ฅ์ ํต์ฌ ๋จ์ด ๋ช ๊ฐ๋ก ์์ฝํ๋ ๊ฒ์ฒ๋ผ์.
๋ณต์กํ ์๋์ (11 DoF ร 20 ํ์์คํ
)
โ
[ํ ํฐ1, ํ ํฐ2, ํ ํฐ3, ํ ํฐ4, ํ ํฐ5]
2๋จ๊ณ - Vector Quantization (๋ฒกํฐ ์์ํ):
์์ฝ๋ ์ ๋ณด๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ง โ์ฝ๋๋ถโ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ์ผ๋ก ๋ฐ๊ฟ๋๋ค. ์ด๊ฒ ํต์ฌ์ ๋๋ค! ์ด๋ ๊ฒ ํ๋ฉด:
- ๋์์ด ์ด์ฐ์ (discrete)์ด ๋ฉ๋๋ค
- ๋น์ทํ ๋์๋ค์ด ๊ฐ์ ์ฝ๋๋ก ํํ๋ฉ๋๋ค
- ๋ก๋ด์ด ์ ํํ ์ ์๋ ์ต์ ์ด ๋ช ํํด์ง๋๋ค
3๋จ๊ณ - Decoder (๋์ฝ๋):
5๊ฐ์ ํ ํฐ์ ๋ฐ์์ ๋ค์ ์์ธํ ์๋์์ผ๋ก ๋ณต์ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ ๊ฑด, ํ์ฌ ์์ ์์น๋ ํจ๊ป ๊ณ ๋ คํ๋ค๋ ์ ์ ๋๋ค.
[ํ ํฐ1, ํ ํฐ2, ํ ํฐ3, ํ ํฐ4, ํ ํฐ5] + ํ์ฌ ์ ์์น
โ
๋ค์ 1์ด ๋์์ ์์ธํ ์๋์
ํ์ต ๊ณผ์ : ์ธ๊ฐ์ผ๋ก๋ถํฐ ๋ฐฐ์ฐ๊ธฐ
VQ-ACE๋ ์ด๋ป๊ฒ ์ด๋ฐ ๋ฅ๋ ฅ์ ์ป์๊น์? ๋ต์ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ์ ๋๋ค.
- ์ฌ๋์ด ์๊ฒฉ ์กฐ์์ผ๋ก ๋ก๋ด ์์ ์์ง์ ๋๋ค
- ๋ค์ํ ์์ (๊ณต ๊ตด๋ฆฌ๊ธฐ, ๋ฌผ์ฒด ์ก๊ธฐ ๋ฑ)์ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค
- VQ-VAE๊ฐ ์ด ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํฉ๋๋ค:
- โ์, ์ด๋ฐ ์์ผ๋ก ์๊ฐ๋ฝ์ ์์ง์ด๋ฉด ๋ฌผ์ฒด๋ฅผ ์ก๋๊ตฌ๋โ
- โ์๋ชฉ์ ์ด๋ ๊ฒ ํ์ ํ๋ฉด ๊ณต์ด ๊ตด๋ฌ๊ฐ๋๊ตฌ๋โ
ํ์ต์ด ๋๋๋ฉด, VQ-ACE๋ ์ธ๊ฐ์ ๋์ ํจํด์ 1,024๊ฐ์ ์ฝ๋๋ก ์์ถํด์ ๊ฐ์ง๊ณ ์๊ฒ ๋ฉ๋๋ค.
MPC์ ์ ์ฉํ๊ธฐ: ๋ ์๋ฆฌํ ๊ณํ ์ธ์ฐ๊ธฐ
๊ธฐ์กด MPC์ ๋ฌธ์ ์
Model Predictive Control (MPC)๋ ๋ก๋ด ์ ์ด์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ฐ๋ ์ ์ด๋ ์ต๋๋ค:
- ์ฌ๋ฌ ๊ฐ๋ฅํ ํ๋์ ์๋ฎฌ๋ ์ด์ ํด๋ด ๋๋ค
- ๊ฐ ํ๋์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํฉ๋๋ค
- ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ๋ ํ๋์ ์ ํํฉ๋๋ค
๋ฌธ์ ๋ โ์ฌ๋ฌ ๊ฐ๋ฅํ ํ๋โ์ด ๋๋ฌด ๋ง๋ค๋ ๊ฒ๋๋ค. ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๋๋คํ๊ฒ ์ํ๋งํ๋ฉด ๋๋ถ๋ถ์ ์ธ๋ชจ์๋ ๋์๋ค์ ๋๋ค. ๋ง์น ๋์ ๊ฐ๊ณ ๋คํธ๋ฅผ ๋์ง๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
Latent Sampling MPC: ์ ์ฌ ๊ณต๊ฐ์์ ์ํ๋งํ๊ธฐ
VQ-ACE๋ ์ด ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํฉ๋๋ค. ์๋ ํ๋ ๊ณต๊ฐ์ด ์๋๋ผ ์์ถ๋ ์ ์ฌ ๊ณต๊ฐ์์ ์ํ๋งํ๋ ๊ฒ๋๋ค.
- 1,024๊ฐ์ ๊ฐ๋ฅํ ๋์ ํจํด ์ค์์ ๋ช ๊ฐ๋ฅผ ์ ํํฉ๋๋ค
- ๊ฐ ํจํด์ ๋์ฝ๋๋ก ์ค์ ๋์์ผ๋ก ๋ณํํฉ๋๋ค
- ์๋ฎฌ๋ ์ดํฐ์์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํฉ๋๋ค
- ์ต์ ์ ๋์์ ์คํํฉ๋๋ค
์ ์ด๊ฒ ๋ ๋์๊น์?
1,024๊ฐ์ ์ ํ์ง๋ ๋ชจ๋ ์ธ๊ฐ์ด ์ค์ ๋ก ํ๋ ๋์๋ค์ ํํํฉ๋๋ค. ๋ค์ ๋งํด, ๋ฌด์์๋ก ์ด์ํ ๋์์ ์๋ํ๋ ๋์ , ์๋ฏธ์๋ ๋์๋ค ์ค์์ ์ ํํ๋ ๊ฒ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ ์ธ์์ ์ ๋๋ค:
Ball Rolling (๊ณต ๊ตด๋ฆฌ๊ธฐ) ์์ :
- ๊ธฐ์กด MPC: ์ฑ๊ณต๋ฅ 65%
- VQ-ACE MPC: ์ฑ๊ณต๋ฅ 88% (โจ 35% ๊ฐ์ !)
Object Picking (๋ฌผ์ฒด ์ก๊ธฐ) ์์ :
- ๊ธฐ์กด MPC: ์ฑ๊ณต๋ฅ 72%
- VQ-ACE MPC: ์ฑ๊ณต๋ฅ 91% (โจ 26% ๊ฐ์ !)
๋ ๋๋ผ์ด ๊ฑด ์ธ๊ฐ ์ ์ฌ๋์ ๋๋ค. VQ-ACE๋ก ์์ฑ๋ ๋์์ ์ธ๊ฐ์ ๋์ ํจํด๊ณผ ํจ์ฌ ๋ ๋น์ทํฉ๋๋ค. ์ด๋ ์์ ์ฑ๊ณผ ์์ธก ๊ฐ๋ฅ์ฑ ์ธก๋ฉด์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๊ฐํํ์ต์ ์ ์ฉํ๊ธฐ: ํ์ต ์๋ 2๋ฐฐ ํฅ์
๊ฐํํ์ต์ ํ์ ๋ฌธ์
๊ฐํํ์ต(RL)์ ์ํ์ฐฉ์ค๋ฅผ ํตํด ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ฌธ์ ๋ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์๋ โ์ํ์ฐฉ์คโ๊ฐ ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฐ๋ค๋ ๊ฒ๋๋ค. ๋ง์น ์ด๋์ด ๋ฐฉ์์ ๋์ ๊ฐ๊ณ ์ถ๊ตฌ๋ฅผ ์ฐพ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
Action Chunked RL: ๊ตฌ์กฐํ๋ ํ์
VQ-ACE๋ฅผ ๊ฐํํ์ต์ ํตํฉํ๋ฉด ํ์์ด ํจ์ฌ ํจ์จ์ ์ด ๋ฉ๋๋ค. ๋ก๋ด์ ํ๋ ์ ํ์ด ๋ค์๊ณผ ๊ฐ์ด ๋ฐ๋๋๋ค:
๊ธฐ์กด RL:
๋งค ํ์์คํ
๋ง๋ค:
โ 11๊ฐ ๊ด์ ๊ฐ๋๋ฅผ ๊ฐ๊ฐ ์กฐ์ (์ฐ์ ๊ฐ)
Action Chunked RL:
๋งค ํ์์คํ
๋ง๋ค:
โ 5๊ฐ ํ ํฐ ์ ํ (๊ฐ๊ฐ 4๊ฐ ๊ฐ ์ค ํ๋)
โ ๋ฏธ์ธ ์กฐ์ ์ ์ํ residual ๊ฐ ์ถ๊ฐ
โ ๋์ฝ๋๊ฐ 1์ด ๋์์ ๋์ ์์ฑ
์ด๋ ๊ฒ ํ๋ฉด:
- ํ์ ๊ณต๊ฐ์ด ๊ทน์ ์ผ๋ก ์ถ์๋ฉ๋๋ค
- ์๊ฐ์ ์ผ๊ด์ฑ์ด ์๋์ผ๋ก ๋ณด์ฅ๋ฉ๋๋ค (1์ด ๋จ์ ํ๋)
- ์๋ฏธ์๋ ๋์์ ์ง์คํ ์ ์์ต๋๋ค
์คํ ๊ฒฐ๊ณผ: ๋น ๋ฅด๊ณ ์ฑ๋ฅ๋ ์ข๋ค
Cube Stacking (ํ๋ธ ์๊ธฐ):
- ๊ธฐ์กด PPO: 5๋ฐฑ๋ง ์คํ ์ 78% ์ฑ๊ณต๋ฅ
- VQ-ACE PPO: 2๋ฐฑ๋ง ์คํ
์ 85% ์ฑ๊ณต๋ฅ
- โก ํ์ต ์๋ 2.5๋ฐฐ ๋น ๋ฆ
- ๐ฏ ์ต์ข ์ฑ๋ฅ๋ 7% ๋ ์ข์
In-hand Cube Reorientation (์ ์์์ ํ๋ธ ํ์ ):
- ๊ธฐ์กด PPO: 8๋ฐฑ๋ง ์คํ ์ 65% ์ฑ๊ณต๋ฅ
- VQ-ACE PPO: 3.5๋ฐฑ๋ง ์คํ
์ 73% ์ฑ๊ณต๋ฅ
- โก ํ์ต ์๋ 2.3๋ฐฐ ๋น ๋ฆ
- ๐ฏ ์ต์ข ์ฑ๋ฅ 8% ํฅ์
์ ์ด๋ ๊ฒ ์ ์๋ํ ๊น? ํต์ฌ ํต์ฐฐ
1. ์ ์ ํ ๊ท๋ฉ์ ํธํฅ (Inductive Bias)
ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ด ํ๋ ์์ต๋๋ค. ์ฌ๊ตฌ์ฑ ํ์ง์ด ๋๋ค๊ณ ํด์ ์์ ์ฑ๋ฅ์ด ์ข์ ๊ฑด ์๋๋๋ค.
| ๋ชจ๋ธ | ์ฌ๊ตฌ์ฑ ์ค์ฐจ | Ball Rolling ์ฑ๊ณต๋ฅ |
|---|---|---|
| VAE (์ฐ์) | 0.028 โญ | 74% |
| VQ-ACE (k=4) | 0.050 | 88% โญ |
| VQ-ACE (k=8) | 0.033 | 84% |
์ผ๋ฐ์ ์ธ VAE๋ ์ฌ๊ตฌ์ฑ์ ๋ ์ ํํ๊ฒ ํ์ง๋ง, ์ค์ ์์ ์ฑ๋ฅ์ ๋ ๋ฎ์ต๋๋ค. ์ ๊ทธ๋ด๊น์?
์ ์๋ค์ ์ค๋ช : Vector Quantization์ ์ด์ฐํ๊ฐ ์ผ์ข ์ ์ ๊ทํ(regularization) ์ญํ ์ ํฉ๋๋ค. ๋๋ฌด ์ธ๋ฐํ ๋ํ ์ผ๊น์ง ๊ธฐ์ตํ๋ ค๊ณ ํ๋ฉด ์คํ๋ ค ๊ณผ์ ํฉ์ด ๋ ์ ์์ต๋๋ค. ์ ๋นํ โ๋ญ๋ฑ๊ทธ๋ ค์โ ํํํ๋ ๊ฒ ์ผ๋ฐํ์ ๋ ๋์์ด ๋ฉ๋๋ค.
์ด๋ ์ธ๊ฐ์ ์ด๋ ์ ์ด์๋ ์ ์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ ๊ทผ์ก์ ์ ํํ ํ์ ๊ณ์ฐํ์ง ์์ต๋๋ค. ๋์ โ๋ฌผ์ฒด ์ก๊ธฐโ๋ผ๋ ํ๋์ ํจํด์ผ๋ก ๋ญ๋ฑ๊ทธ๋ ค์ ์คํํฉ๋๋ค.
2. ์ฝ๋๋ถ ํฌ๊ธฐ์ ์ต์ ์
| ์ฝ๋๋ถ ํฌ๊ธฐ | ์ด ๊ฐ๋ฅํ ํ๋ | ์ฑ๋ฅ |
|---|---|---|
| 2 | 32 | ๋ฎ์ (ํํ๋ ฅ ๋ถ์กฑ) |
| 4 | 1,024 | ๋์ โญ |
| 8 | 32,768 | ์ค๊ฐ (ํ์ ๋นํจ์จ) |
| 16 | 1,048,576 | ์ค๊ฐ (๊ณผ์ ํฉ) |
์ฝ๋๋ถ ํฌ๊ธฐ 4๊ฐ ์ต์ ์ ๊ท ํ์ ์ ๋๋ค. ๋๋ฌด ์์ผ๋ฉด ํํ๋ ฅ์ด ๋ถ์กฑํ๊ณ , ๋๋ฌด ํฌ๋ฉด ํ์์ด ๋นํจ์จ์ ์ด๊ณ ๊ณผ์ ํฉ ์ํ์ด ์์ต๋๋ค.
3. ์๊ฐ์ ๊ตฌ์กฐ์ ์๋ ํ์ต
Action chunk๋ 1์ด ๊ธธ์ด์ ๋๋ค. ์ด๋ ์ฌ๋ฌ ํ์์คํ ์ ๊ฑธ์น ์๊ฐ์ ํจํด์ ํ๋์ ๋จ์๋ก ์ทจ๊ธํ๋ค๋ ์๋ฏธ์ ๋๋ค.
์๋ฅผ ๋ค์ด โ๋ฌผ์ฒด๋ฅผ ์ก๋โ ๋์์: 1. ์์ ๋ฌผ์ฒด ์ชฝ์ผ๋ก ์ด๋ 2. ์๊ฐ๋ฝ์ ํผ์นจ 3. ๋ฌผ์ฒด์ ์ ์ด 4. ์๊ฐ๋ฝ์ ์ค๋ฏ๋ฆผ 5. ํ์ ๊ฐํ์ฌ ์์ ํ
์ด 5๋จ๊ณ๊ฐ ํ๋์ coordinated pattern์ผ๋ก ํ์ต๋ฉ๋๋ค. ๋ก๋ด์ด ๊ฐ ๋จ๊ณ๋ฅผ ๋ฐ๋ก ๋ฐฐ์ธ ํ์๊ฐ ์๋ ๊ฒ๋๋ค.
์คํ ํ๊ฒฝ๊ณผ ์์ ๋ค
์ฐ๊ตฌํ์ 11 ์์ ๋๋ฅผ ๊ฐ์ง ์์ฒด๋ชจ๋ฐฉ ๊ฑด-๊ตฌ๋(tendon-driven) ๋ก๋ด ์์ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋ก๋ด์ ์ธ๊ฐ ์์ ์ด๋ํ์ ๋ชจ๋ฐฉํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
ํ ์คํธํ 4๊ฐ์ง ์์
1. Ball Rolling (๊ณต ๊ตด๋ฆฌ๊ธฐ)
- ์๋ฐ๋ฅ ์์ ๊ณต์ ์ฌ๋ ค๋๊ณ ํน์ ๋ฐฉํฅ์ผ๋ก ๊ตด๋ฆฌ๊ธฐ
- ์ด๋ ค์ด ์ด์ : ๋์ ์ ์ด์ ์ ์งํ๋ฉด์ ์ ๋ฐํ๊ฒ ์ ์ดํด์ผ ํจ
- VQ-ACE ๊ฐ์ : ์ฑ๊ณต๋ฅ 65% โ 88%
2. Object Picking (๋ฌผ์ฒด ์ก๊ธฐ)
- ๋ค์ํ ํํ์ ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ํ์งํ๊ณ ๋ค์ด์ฌ๋ฆฌ๊ธฐ
- ์ด๋ ค์ด ์ด์ : ๋ฌผ์ฒด๋ง๋ค ์ต์ ์ ์ ์ด์ ๊ณผ ํ์ง ์ ๋ต์ด ๋ค๋ฆ
- VQ-ACE ๊ฐ์ : ์ฑ๊ณต๋ฅ 72% โ 91%
3. Cube Stacking (ํ๋ธ ์๊ธฐ)
- ์ฌ๋ฌ ๊ฐ์ ํ๋ธ๋ฅผ ์์ฐจ์ ์ผ๋ก ์๊ธฐ
- ์ด๋ ค์ด ์ด์ : ์ ๋ฐํ ์์น ์ ์ด์ ๊ท ํ ์ ์ง๊ฐ ํ์
- VQ-ACE ๊ฐ์ : 2.5๋ฐฐ ๋น ๋ฅธ ํ์ต, ์ฑ๊ณต๋ฅ 78% โ 85%
4. In-hand Cube Reorientation (์ ์์์ ํ๋ธ ํ์ )
- ์์ ์ฅ ํ๋ธ๋ฅผ ๋ชฉํ ๋ฐฉํฅ์ผ๋ก ํ์ ์ํค๊ธฐ
- ์ด๋ ค์ด ์ด์ : ์ฌ๋ฌ ์๊ฐ๋ฝ์ ๋ณต์กํ ํ์์ด ํ์
- VQ-ACE ๊ฐ์ : 2.3๋ฐฐ ๋น ๋ฅธ ํ์ต, ์ฑ๊ณต๋ฅ 65% โ 73%
ํ๊ณ์ : ์๋ฒฝํ์ง ์๋ค
๋ชจ๋ ์ฐ๊ตฌ๊ฐ ๊ทธ๋ ๋ฏ, VQ-ACE์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ์์งํ๊ฒ ์ดํด๋ณด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
1. ์ธ๊ฐ ๋ฐ์ดํฐ ์์กด์ฑ
VQ-ACE๋ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํฉ๋๋ค. ์ด๋ ์๋ ์ ๊ฒ์ ๋๋ค:
์ฅ์ :
- ์์ ํ๊ณ ์ง๊ด์ ์ธ ๋์ ํ์ต
- ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ํ๋ ์์ฑ
๋จ์ :
- ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง์ ์๊ฐ๊ณผ ๋น์ฉ์ด ๋ง์ด ๋ฆ
- ์๊ฒฉ ์กฐ์ ์ธํฐํ์ด์ค์ ํ์ง์ด ๊ฒฐ๊ณผ์ ์ํฅ
- ์์ ๋ง๋ค ์๋ก์ด ๋ฐ์ดํฐ ์์ง์ด ํ์ํ ์ ์์
๋ง์ฝ ์ธ๊ฐ์ด ํ์ง ์๋ ๋์์ด ์ค์ ๋ก๋ ๋ ํจ์จ์ ์ด๋ผ๋ฉด? VQ-ACE๋ ๊ทธ๋ฐ ๋์์ ๋ฐ๊ฒฌํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
2. ํน์ ํ๋ซํผ์ ํ์
ํ์ฌ ์ฐ๊ตฌ๋ 11 DoF ์์ฒด๋ชจ๋ฐฉ ๋ก๋ด ์์์๋ง ๊ฒ์ฆ๋์์ต๋๋ค. ๋ค์ ์ง๋ฌธ๋ค์ด ๋จ์์์ต๋๋ค:
- Shadow Hand (24 DoF)๋ Allegro Hand (16 DoF)์๋ ์ ์๋ํ ๊น?
- ์์ ํ ๋ค๋ฅธ ํํ์ ๊ทธ๋ฆฌํผ์๋?
- ํ๊ณผ ์์ ํจ๊ป ์ ์ดํ๋ ๊ฒฝ์ฐ๋?
์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ์์ง ์ถฉ๋ถํ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
3. ์๋ฎฌ๋ ์ด์ ์์ฃผ์ ์คํ
๋๋ถ๋ถ์ ์คํ์ด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ํ๋์์ต๋๋ค. ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด(sim-to-real transfer)์๋ ํญ์ gap์ด ์กด์ฌํฉ๋๋ค:
- ์ค์ ์ผ์์ ๋ ธ์ด์ฆ
- ํต์ ์ง์ฐ
- ์์ธกํ์ง ๋ชปํ ํ๊ฒฝ ๋ณํ
- ๋ง๋ชจ์ ๊ณ ์ฅ
์ด๋ฐ ํ์ค ์ธ๊ณ์ ๋ถํ์ค์ฑ์ ๋ํ robustness๊ฐ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
4. ์์ ํนํ์ฑ
๊ฐ ์์ ๋ง๋ค ๋ณ๋์ VQ-VAE๋ฅผ ํ์ตํด์ผ ํ ๊น์, ์๋๋ฉด ํ๋์ ๋ฒ์ฉ VQ-ACE๋ก ์ฌ๋ฌ ์์ ์ ์ฒ๋ฆฌํ ์ ์์๊น์?
๋ ผ๋ฌธ์์๋ ์ด ๋ถ๋ถ์ด ๋ช ํํ์ง ์์ต๋๋ค. ๋ง์ฝ ๊ฐ ์์ ๋ง๋ค ์๋ก ํ์ตํด์ผ ํ๋ค๋ฉด ํ์ฅ์ฑ์ ์ ์ฝ์ด ์์ ์ ์์ต๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ค๊ณผ์ ๋น๊ต
VQ-ACE๋ ์ฌ๋ฌ ์ฐ๊ตฌ ํ๋ฆ์ ๊ต์ฐจ์ ์ ์์ต๋๋ค. ๊ฐ ๋ถ์ผ์ ์ด๋ป๊ฒ ๋ค๋ฅธ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Action Representation Learning ๋ถ์ผ
Action Chunking Transformer (ACT, 2023)์์ ๋น๊ต:
ACT๋ action chunking ๊ฐ๋ ์ ์ฌ์ฉํ์ง๋ง ๋ช ๊ฐ์ง ์ฐจ์ด๊ฐ ์์ต๋๋ค:
| ํน์ง | ACT | VQ-ACE |
|---|---|---|
| ์ ์ฌ ๊ณต๊ฐ | ์ฐ์ (continuous) | ์ด์ฐ (discrete) |
| ๋ชจ๋ธ | Transformer | VQ-VAE |
| MPC ์ ์ฉ | ์ด๋ ค์ | ์ฉ์ดํจ |
| ํด์ ๊ฐ๋ฅ์ฑ | ๋ฎ์ | ๋์ (์ด์ฐ ์ฝ๋) |
VQ-ACE์ ์ด์ฐ ํํ์ MPC์์ ํตํฉ์ ํจ์ฌ ์ฝ๊ฒ ๋ง๋ญ๋๋ค.
Diffusion Policy (2023)์์ ๋น๊ต:
Diffusion ๋ชจ๋ธ๋ ์ต๊ทผ ๋ก๋ด ์ ์ด์์ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ณ ์์ต๋๋ค:
| ํน์ง | Diffusion Policy | VQ-ACE |
|---|---|---|
| ์์ฑ ํ์ง | ๋งค์ฐ ๋์ | ๋์ |
| ์ถ๋ก ์๋ | ๋๋ฆผ (์ฌ๋ฌ denoising steps) | ๋น ๋ฆ (ํ ๋ฒ์ forward pass) |
| ์ค์๊ฐ ์ ์ด | ์ด๋ ค์ | ์ฉ์ดํจ |
| ํ์ต ์์ ์ฑ | ๋ฏผ๊ฐํจ | ์์ ์ |
VQ-ACE๋ ์ค์๊ฐ ์ ์ด๊ฐ ์ค์ํ ์์ฉ์ ๋ ์ ํฉํฉ๋๋ค.
Model Predictive Control ๋ถ์ผ
MPPI (Model Predictive Path Integral)์์ ๋น๊ต:
MPPI๋ ์ํ๋ง ๊ธฐ๋ฐ MPC์ ๋ํ์ ๋ฐฉ๋ฒ์ ๋๋ค:
- MPPI: ์๋ ํ๋ ๊ณต๊ฐ์์ ์์ฒ ๊ฐ ์ํ๋ง
- VQ-ACE MPC: ์ ์ฌ ๊ณต๊ฐ์์ ์๋ฐฑ ๊ฐ ์ํ๋ง
VQ-ACE๋ ํจ์ฌ ์ ์ ์ํ๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ์ธ๊ฐ prior ๋๋ถ์ ๋๋ค.
Imitation Learning ๋ถ์ผ
Behavior Cloning (BC)์์ ๊ด๊ณ:
VQ-ACE๋ BC์ ์ํธ๋ณด์์ ์ ๋๋ค:
- BC๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ง์ ๋ชจ๋ฐฉ
- VQ-ACE๋ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ๋ ํํ์ ํ์ต
- VQ-ACE + BC = ๋ ํจ์จ์ ์ธ ๋ชจ๋ฐฉ ํ์ต
๊ด๋ จ ๋ ผ๋ฌธ๋ค
- Action Chunking:
- ACT: โAction Chunking with Transformersโ (2023)
- Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (2023)
- Vector Quantization in Robotics:
- โVQ-VAE for Motion Planningโ (2021)
- โDiscrete Latent Space for Robot Learningโ (2022)
- Dexterous Manipulation:
- โLearning Dexterous In-Hand Manipulationโ (OpenAI, 2019)
- โDexMV: Imitation Learning for Dexterous Manipulation from Human Videosโ (2023)
- MPC for Robotics:
- โModel Predictive Path Integral Controlโ (2016)
- โDeep Dynamics Models for Learning Dexterous Manipulationโ (2020)
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ
์ธ๊ฐ ์์ 27 ์์ ๋(Degrees of Freedom, DoF)๋ฅผ ๊ฐ์ง๋ฉฐ ์ฌ์ธํ ์กฐ์๊ณผ ๊ฐ๋ ฅํ ๊ทธ๋ฆฝ์ ๋ชจ๋ ์ํํ ์ ์์ง๋ง, ์ค์ ๋ก ์ธ๊ฐ์ ๋ชจ๋ ๊ด์ ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ดํ์ง ์๊ณ ์ฌ๋ฌ ๊ด์ ์ด ์ฐ๊ด๋ ํจํด์ผ๋ก ์์ง์ธ๋ค. ์ด๋ก ์ธํด ๋ณต์กํ ์์ ์์ง์์ ๋ณธ์ง์ ์ผ๋ก ์ ์ฐจ์์ ์ธ ๊ถค์ (manifold) ์์ ์กด์ฌํ๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ ์ ๋์์ ํจ์จ์ ์ผ๋ก ํํํ ์ ์๋ ์ ์ฐจ์ ํํ ๋ฐฉ๋ฒ์ด ์๊ตฌ๋๋ค. ์ด๋ฌํ ํํ์ ๋์์ด ์ฐ์์ ์ด๋ฉฐ(dynamic), ์ ๊ถค์ ์ ์์ ๋ถ๋ถ์งํฉ์ ํฌ๊ดํ๋ ์ฝคํฉํธํ(Compact) ํน์ฑ์ ๊ฐ์ ธ์ผ ํ๋ค. ๋ํ ์ค์ ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ๊ธฐ ์ํด์๋ ์ฐ์์ ์ธ ํํ์ ๋ฒกํฐ ์์ํ(vector quantization)๋ก ์ด์ฐ(discrete)ํํ์ฌ ๊ณ์ฐ ํจ์จ์ ๋์ผ ํ์๊ฐ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์์ ๊ฐ์ ๋๊ธฐ์์ ์ถ๋ฐํ์ฌ Vector Quantized Action Chunking Embedding (VQ-ACE)๋ผ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. VQ-ACE๋ ์ธ๊ฐ์ ์ ๋์ ์ํ์ค๋ฅผ ํ์ต๋ ๋ฒกํฐ ์์ํ๋ ์ ์ฌ ๊ณต๊ฐ(latent space)์ผ๋ก ์์ถํจ์ผ๋ก์จ, ์์ญ ์ฐจ์์ ์ด๋ฅด๋ ๋ก๋ด ์์ ๊ณ ์ฐจ์ ํ๋๊ณต๊ฐ์ ์ ์ฐจ์ ์ด์ฐ ๊ณต๊ฐ์ผ๋ก ์ค์ธ๋ค. ์ด๋ ๊ฒ ์ป์ ์ ์ฌ ๊ณต๊ฐ์ ๋ก๋ด์ ์ ์ฑ ํ์(search)์ ์ธ๊ฐ์ ์กฐ์์ ๊ทผ์ ํ ์ธ์์ ์ฌ์ ์ง์(anthropomorphic prior)์ ์ ๊ณตํ๋ค. ์ ์๋ค์ ์ด ์ ์ฌ ํํ์ ํ์ฉํ ๋ ๊ฐ์ง ์์ฉ, ์ฆ ์ ์ฌ ๊ณต๊ฐ ์ํ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ ์์ธก ์ ์ด(Latent Sampling MPC)์ ์ก์ ์ฒญํน ๊ฐํํ์ต(Action Chunked RL)์ ์ ์ํ์ฌ, ๋ณต์กํ ์กฐ์ ๊ณผ์ ์์ ๋ณด๋ค ํจ์จ์ ์ธ ํ์๊ณผ ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ฅผ ๋ณด๋ฉด, ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(MPC)์ ์ ํํ ๋์ญํ ๋ชจ๋ธ์ ๊ฐ์ ํ์ง๋ง ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ํฌ๋ฉฐ, ๋ฐ๋ฉด ๊ฐํํ์ต(RL)์ ๋ชจ๋ธ ์์ด ์ ์ฑ ์ ํ์ตํ์ง๋ง ๋ง์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ณ ์๋ฎฌ๋ ์ด์ -์ค์ ์ ์ด(sim-to-real) ์ด๋ ค์์ด ์๋ค. ๋ํ ์ต๊ทผ ๋๊ท๋ชจ ๋ชจ๋ฐฉํ์ต(imitation learning) ๋ฐ์ดํฐ๊ฐ ์ถ์ ๋๋ฉด์ ๊ด์ฐฐ(observation)์์ ํ๋(action) ๋งคํ์ ์ง์ ํ์ตํ๋ ์๋๊ฐ ํ๋ฐํ์ง๋ง, ์ด๋ ๊ด์ฐฐ์ ๋ํ ์ฌํ ๋ถํฌ(posterior)๋ฅผ ํ์ตํ๋ ์ ๊ทผ์ด๋ค. VQ-ACE๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ์ค๊ฐ์์ ์ ๊ทผ์ผ๋ก, ๋ชจ๋ฐฉํ์ต๊ณผ ์ ์ฌํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐฉ์์ด์ง๋ง ํ๋์ ์ฌ์ ๋ถํฌ(prior)๋ง์ ๋ชจ๋ธ๋งํ์ฌ, MPC์ RL ํ์์์ ์ ์ฉํ ๊ฐ์ด๋์ค(prior)๋ฅผ ์ ๊ณตํ๋ค.
2. ์ฃผ์ ๊ธฐ์ฌ์ ์์ฝ
๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ค์ด ์ ์ํ ์ฃผ์ ๊ธฐ์ฌ์ ์ ๋ค์๊ณผ ๊ฐ๋ค: - VQ-ACE ํ๋ ์์ํฌ ์ ์: ์ธ๊ฐ ์์ ํ๋ ์ฒญํฌ(action chunk) ์ํ์ค๋ฅผ ๋ฒกํฐ ์์ํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์๋ฒ ๋ฉํ๋ ๊ตฌ์กฐ๋ฅผ ๊ณ ์ํ๋ค. ์๋ฅผ ๋ค์ด 11 ์์ ๋ ๋ก๋ด ์์ ๋ํด 1์ด(50 ํ์์คํ ) ๊ธธ์ด์ ํ๋ ์ํ์ค๋ฅผ 5๊ฐ์ ๋์คํฌ๋ฆฌํธํ ์ ์ฌ ํ ํฐ์ผ๋ก ์์ถํ ์ ์๋ค. - ์ ์ฌ ๊ณต๊ฐ ์ํ๋ง MPC ์ ์: VQ-ACE๋ก ํ์ต๋ ์ ์ฌ ํํ์ ์ฌ์ฉํ์ฌ, ์ํ๋ง ๊ธฐ๋ฐ MPC๋ฅผ ์ ์ฌ ๊ณต๊ฐ ์์์ ์ํํ๋ ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ๋ค. ์ด ๋ฐฉ๋ฒ์ ํ์ ๊ณต๊ฐ์ ์ธ๊ฐ ์ ํ๋์ ์ฌ์ ๋ถํฌ๋ก ์ ํํ์ฌ ๋ ์์ฐ์ค๋ฌ์ด ์กฐ์ ํ๋์ ์์ฑํ๋ค. - ์ก์ ์ฒญํน ๊ฐํํ์ต ์ ์: RL ์ ์ฑ ์ ํ๋ ์ฒญํฌ ๋จ์๋ฅผ ๋์ ํ์ฌ, ์์ด์ ํธ๊ฐ ์๋ฏธ ์๋ ํ๋ ์ฒญํฌ๋ฅผ ์ ํํ๊ณ ๋๋จธ์ง๋ฅผ ์์ฐจ(residual)๋ก ์์ ํ๊ฒ ํจ์ผ๋ก์จ ํ์ ํจ์จ์ ๋์๋ค.
์ด๋ฌํ ๊ธฐ์ฌ๋ฅผ ํตํด ์ ์๋ค์ ๋ณต์กํ ์กฐ์ ๊ณผ์ ์์๋ ํ์ต ์๋์ ํ์ ํจ์จ์ ๊ฐ์ ํ๊ณ , ๋์ฑ ์ธ๊ฐ์ฒ๋ผ ์์ฐ์ค๋ฌ์ด ์กฐ์์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์๋ค.
3. ๋ฐฉ๋ฒ๋ก
3.1 ํ๋ ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ
VQ-ACE์ ํ์ต์ ์ํด, ์ ์๋ค์ ๋ชจ์ ์บก์ฒ ์ฅ๊ฐ์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ์์ ๋ค์ํ ์ผ์ ๋์ ์ํ์ค๋ฅผ ํ๋ํ๋ค. ํ๋๋ ๋ฐ์ดํฐ๋ 50 Hz๋ก ๊ธฐ๋ก๋ ์ฝ 54๋ถ ๋ถ๋์ด๋ฉฐ, ์ผ์ ๋ฌผ์ฒด ์กฐ์, ์ผ์ด๋ธ ๋ฌถ๊ธฐ, ์ํ ๋ฑ ๋ค์ํ ์์ ์ ํฌํจํ๋ค. ์ด ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํธ๋์ ๋ง์ถ์ด ํค๋ค๋งํฑ ๋ฆฌํ๊ฒํ (kinematic retargeting) ํจ์๋ฅผ ์ ์ฉํจ์ผ๋ก์จ 11 ์์ ๋ ๋ก๋ด ์ ์กฐ์ธํธ ๊ฐ์ผ๋ก ๋ณํํ๋ค.
3.2 VQ-ACE ๋คํธ์ํฌ ๊ตฌ์กฐ
VQ-ACE๋ ๋ฒกํฐ ์์ํ ์กฐ๊ฑด๋ถ VAE(CVAE) ๊ตฌ์กฐ๋ก, ์ธ๊ฐ ์์ ํ๋ ์ฒญํฌ๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ์ ์ฌ ๋ฒกํฐ ์ํ์ค๋ก ์๋ฒ ๋ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๊ฐ ๊ตฌ๊ฐ [t, t+n]์ ๊ฑธ์น ํ๋ ์ํ์ค a_{t:t+n}๋ฅผ, ํ์ฌ ๊ด์ ์์น q_t์ ์กฐ๊ฑดํํ์ฌ ๋ณํํ๋ค. ์ธ์ฝ๋ \varphi(q_t, a_{t:t+n})๋ ํ๋ ์ํ์ค๋ฅผ ์ผ๋ จ์ ์ฐ์ ์ ์ฌ๋ฒกํฐ z_{k:k+m}๋ก ์์ถํ๊ณ , ์ด ๋ฒกํฐ๋ค์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฝ๋๋ถ(embedding table)์ ํ ๋นํ์ฌ ์ด์ฐํ๋ ์ ์ฌ ๋ฒกํฐ z_q๋ฅผ ์ป๋๋ค. ๋์ฝ๋ \psi(q_t, z_q)๋ ํ์ฌ ๊ด์ ์์น์ ์์ํ๋ ์ ์ฌ ๋ฒกํฐ๋ฅผ ์ ๋ ฅ๋ฐ์ ์๋ ํ๋ ์ํ์ค๋ฅผ ์ฌ๊ตฌ์ฑํ๋ค. ์ธ์ฝ๋์ ๋์ฝ๋ ๋ชจ๋ Transformer ๊ธฐ๋ฐ์ ์ํ์ค ๋ชจ๋ธ๋ก ๊ตฌํ๋๋ฉฐ, ์ ๋ ฅ์๋ ์๊ฐ ์ ๋ณด๋ฅผ ๋ํ๋ด๋ positional token๋ค์ด ํฌํจ๋๋ค. ๋์ฝ๋์๋ ์ธ๊ณผ์ ๋ง์คํน(causal mask)์ ์ ์ฉํ์ฌ ์๊ฐ์ถ ์์ ์์๋ฅผ ๋ณด์ฅํ๋ค.
์ด๋, ์ ์ฌ ํ ํฐ์ ์๊ฐ ์ธ๋ฑ์ค k์ ์ค์ ์์ t์ ๋์์ ๋จ์ํ t(k)=k\cdot n/m ํํ๋ก ๋งคํํ๋ค. ํ์ต ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค:
์ฌ๊ตฌ์ฑ ์์ค: \mathcal{L}{recon} = | a - \psi(q_t, z_q) |_1 (์ (2)).
์ปค๋ฐ ์์ค: \mathcal{L}{commit} = |\varphi(q_t,a[\cdot]๋ ๊ทธ๋๋์ธํธ ์ ๋ฌ์ ์ฐจ๋จํ๋ ์ฐ์ฐ์์ด๋ค. }) - [z_q] |_2^2$ (์ (3)), ์ฌ๊ธฐ์ $\mathrm{sg
์ด ์์ค: \mathcal{L} = \mathcal{L}{recon} + \lambda \mathcal{L} (์ (4)).
์ด์ ๊ฐ์ด ์์ค์ ๊ตฌ์ฑํจ์ผ๋ก์จ, ๋คํธ์ํฌ๋ ํ๋ ์ํ์ค์ ์ค์ํ ํน์ง์ ์ ์งํ๋ฉด์๋ ์ ์ฌ ํํ์ ๋ถ์ฐ์์ฑ(discreteness)์ ํ์ตํ๋ค. ๋ํ ๋ฒกํฐ ์์ํ ๋ถ๋ถ์ EMA(Exponential Moving Average) ์ ๋ฐ์ดํธ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ํํ์๋ค.
3.3 ์ ์ฌ ๊ณต๊ฐ ์ํ๋ง MPC
ํ์ต๋ VQ-ACE ์ ์ฌ ๊ณต๊ฐ์ MPC์ ํ์ฉ๋๋ค. ์ ํต์ ์ธ ์ํ๋ง ๊ธฐ๋ฐ MPC๋ ๊ฐ DoF์ ์ ์ด ์ ๋ ฅ์ ๋ถํ ์คํ๋ผ์ธ ํํ๋ก ํํํ๊ณ ์ด๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ์ฌ ์ต์ ํ๋์ ์ฐพ๋ ๋ฐฉ์์ด๋ค. VQ-ACE์์๋ ํ๋์ ์ง์ ์ํ๋งํ์ง ์๊ณ , ์ ์ฌ ๋ฒกํฐ z_{k:k+m}๋ฅผ ์ํ๋งํ์ฌ ์ด๋ก๋ถํฐ ํ๋์ ์์ฑํ๋ค. ์ ์ด ์ ํธ๋ ๋์ฝ๋๊ฐ ์์ฑํ ๊ด์ฑ ๋์(โnominal actionโ)๊ณผ ๋ณ๋์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ์คํ๋ผ์ธ์ ํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์์ (5)๋ ์๊ฐ \tilde t์์์ ์ ์ด ์ ํธ๋ฅผ, u(\tilde t) = \psi(\tilde t; q_t, z_{k:k+m}) + s(\tilde t; \theta_{\tau:\tau+P}), \quad (5)
๋ก ํํํ๋ค. ์ฌ๊ธฐ์ ์ฒซ ๋ฒ์งธ ํญ์ ์ ์ฌ z_{k:k+m}์ ์ํด ๋ณต์๋ ๊ด์ฑ ํ๋์ด๋ฉฐ, ๋ ๋ฒ์งธ ํญ s๋ ์คํ๋ผ์ธ ํํ์ ๋ ธ์ด์ฆ์ด๋ค. MPC๋ ์ฌ๋ฌ ํ๋ณด ์ ์ฌ ์ํ์ค๋ฅผ ์์ฑํ ๋ค ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ๊ฐํ์ฌ ๊ฐ์ฅ ๋น์ฉ(J)์ด ๋ฎ์ ๊ณํ์ ์คํํ๋ค. ๋ค์ ๋ฐ๋ณต์์๋ ์์ ๊ฒฝ๋ก(best sequence)์ ์๊ฐ์ถ ์ด๋(noise shift)์ ์ ์ฉํ ์๋ก์ด ์ ์ฌ ๋ฐ ๋ ธ์ด์ฆ ์คํ๋ผ์ธ์ ๋ค์ ์ํ๋งํ๋ค.
์ ์ฌ ๊ณต๊ฐ ์ ์ํ๋ง์์๋ ์ ์ฌ ๋ฒกํฐ์ ์ผ๋ถ ์ฐจ์์ ๋ฌด์์๋ก ๋์ฒดํจ์ผ๋ก์จ ๋ก์ปฌ ํ์์ ์ํํ๋ค. ์ฆ, ํ์ฌ ์ ์ฌ \zeta_{j}^{(i)}์ p ํ๋ฅ ๋ก ์๋ก์ด ์ฝ๋๋ถ ์ธ๋ฑ์ค๋ฅผ ์ํ๋งํ์ฌ { (6)์ ์ฐธ์กฐ } ์ ์ฌ๋ฅผ ๊ฐฑ์ ํ๋ค. ์ด์ ํจ๊ป ๋ ธ์ด์ฆ ์คํ๋ผ์ธ๋ ์ฌ์ค์ ํ์ฌ ๋ ์ธ๋ฐํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก, VQ-ACE ์ ์ฌ ๊ณต๊ฐ์ด ๊ตฌ์กฐํ๋์ด ์์์๋ก MPC๊ฐ ๋ณด๋ค ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ ์ฉํ ์ ์ด ๊ณํ์ ํ์ํ ์ ์๋ค.
3.4 ์ก์ ์ฒญํน ๊ฐํํ์ต
VQ-ACE๋ ๋จ์ํ MPC ์ธ์๋ RL ์ ์ฑ ํ์ต์๋ ์ฌ์ฉ๋๋ค. RL ๊ด์ ์์ ํ๋ ์ฒญํฌ(action chunk)๋ ์ผ๋ฐ์ ์ธ Markov ๊ฒฐ์ ๊ณผ์ (MDP)์์ ์๊ฐ ๋จ๊ณ๊ฐ ๊ธด ํํ์ ํ๋์ผ๋ก ๋ณผ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ์ ์ฑ ์ด ๋งค ์๊ฐ๋ง๋ค ์ฒญํฌ๋ฅผ ์ ํํ์ง ์๊ณ , ์ผ์ ๊ธฐ๊ฐ ๋์ ์ฒญํฌ๋ฅผ ์ ์งํ๋ ๋งค ์คํ ๋ง๋ค ์๋ ์์ฐจ(residual)๋ฅผ ์ถ๊ฐ๋ก ๊ฒฐ์ ํ๋๋ก ์ํ์ ํ๋ ๊ณต๊ฐ์ ํ์ฅํ๋ค. ์์(8)-(11)๋ ์ฒญํฌ ์ ํ(state, action) ๋ณ์๋ฅผ ๋์ ํ์ฌ ์์คํ ์ํ x, ๋์ u๋ฅผ ํ์ฅํ๋ ๊ณผ์ ์ ๋ํ๋ธ๋ค. ์ฝ๊ฒ ์ค๋ช ํ๋ฉด, ์์ด์ ํธ๋ ์ ํด์ง ์ฒญํฌ ์ธ๋ฑ์ค๋ค์ ์ ํํ๊ณ , ์ค์ ์ ์ด ์ ํธ๋ ๋์ฝ๋๊ฐ ์์ฑํ ์ก์ ์ฒญํฌ์ ์ ์ฑ ์ด ์ถ๋ ฅํ๋ ์์ฐจ \epsilon_t์ ํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค (์์ (11) ์ฐธ์กฐ). ์ด๋ก์จ ์ ์ฑ ์ ๋ค์ค ์คํ ํ๋ ์ฒญํฌ ์ค ํ๋๋ฅผ ๋ฅ๋์ ์ผ๋ก ์ ํ(Chunk Selection)ํ๋ฉด์ ํ์์ ์์ค(level-of-action)์ ํค์ฐ๊ณ , ์คํ ์ฃผ๊ธฐ๋ ์์ฐจ๋ฅผ ํตํด ์ธ๋ฐํ๊ฒ ์กฐ์ ํ ์ ์๋ค.
4. ์คํ ์ค๊ณ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ
์ ์๋ค์ ๋ ๊ฐ์ง ์ค์ ์์ ๋ฐฉ๋ฒ์ ํ๊ฐํ๋ค: ์ํ๋ง ๊ธฐ๋ฐ MPC์ ๊ฐํํ์ต(RL)์ด๋ค.
MPC ์คํ: 11์์ ๋ Faive ๋ชจ๋ธ์ ๋ก๋ด ์์ ์ฌ์ฉํ์ฌ ๊ณต ๊ตด๋ฆฌ๊ธฐ(Ball Rolling)์ ๋ฌผ์ฒด ์ง๊ธฐ(Object Picking) ๋ ๊ณผ์ ๋ฅผ ์ํํ๋ค. ๊ณต ๊ตด๋ฆฌ๊ธฐ ๊ณผ์ ๋ ๋ก๋ด ์์ผ๋ก ๊ตฌ๋ฅผ x์ถ ๋ฐฉํฅ์ผ๋ก ํ์ ์ํค๋ ๊ฒ์ด๋ฉฐ, ๋ฌผ์ฒด ์ง๊ธฐ ๊ณผ์ ๋ ๋๋ค ์์น์ ๋ค๋ฒจ ๋ชจ์ ๋ฌผ์ฒด๋ฅผ ์ฅ์ด์ ๋๋ค ๋ชฉํ ์์น์ ์ฎ๊ธฐ๋ ๊ฒ์ด๋ค. ์ ์ด์ธ์ ๋ฌผ์ฒด ์ง๊ธฐ ๊ณผ์ ์๋ 7-DoF Franka ์์ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ค. MPC๋ ๋งค ๋ฐ๋ณต๋น 1์ด(50 ํ์์คํ ) ๊ธธ์ด์ ๊ณํ์ ์ํํ๋ฉฐ, ์ค์ ์ฐ์ฐ ์๊ฐ์ ๋ฐ๋ฅธ ์ ์ด ์ฃผ๊ธฐ๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ์๋๋ฅผ ๋์ผํ๊ฒ ์กฐ์ ํด ๋น๊ตํ๋ค. ํ๋์จ์ด๋ Intel i9 CPU, NVIDIA 4090 GPU๋ฅผ ์ฌ์ฉํ๋ค. ํ๊ฐ ์งํ๋ ์ ์ด ๋น์ฉ(J; ์์์๋ก ์ข์)๊ณผ ๊ณผ์ ์ฑ๊ณต๋ฅ (๋์์๋ก ์ข์)์ด๋ฉฐ, ์ฌ๋ฌ ๋์ ์๋์์ ๋ณต์์ ์ํ์ ์ํํ๋ค.
RL ์คํ: ํ๋ธ ๋ฐฉํฅ ์ ํ(Cube Reorientation)๊ณผ ํ๋ธ ์ ์ธต(Cube Stacking) ๊ณผ์ ๋ฅผ ์ค์ ํ๋ค. ์ ์๋ 50mm ํ๋ธ๋ฅผ ์ ์์์ ๋ชฉํ ์์ธ๋ก ๋๋ฆฌ๋ ๊ณผ์ ์ด๊ณ , ํ์๋ ์์ด ์ฅ์ฐฉ๋ Franka ๋ก๋ด ์์ด 50mm ํ๋ธ๋ฅผ ๋ ํฐ ํ๋ธ ์์ ์๋ ๊ณผ์ ๋ค. ๋ ๊ณผ์ ๋ชจ๋ PPO๋ฅผ ์ฌ์ฉํด ํ์ตํ์ผ๋ฉฐ, ๋์ผํ ๋น์ฉ ํจ์์ ํ๊ฒฝ ์ค์ ์ผ๋ก Action Chunked RL๊ณผ ์ผ๋ฐ RL ๋ฐฉ๋ฒ(๊ธฐ๋ณธ ๋ฐฉ๋ฒ) ๊ฐ ๋น๊ต๋ฅผ ์ํํ๋ค. ํ๊ฐ ์งํ๋ ์ฐ์ ์ฑ๊ณต ํ์์ ์ฑ๊ณต๋ฅ ์ด๋ฉฐ, 4096 ๋ณ๋ ฌ ํ๊ฒฝ์ ํ์ฉํด NVIDIA 4090 GPU์์ ํ์ตํ๋ค.
๋ํ, ์๋น์์ด์ (ablation) ์ฐ๊ตฌ๋ก ๋ ๊ฐ์ง ์์์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๋ค: (1) ์กฐ๊ฑด๋ถ ์ ๋ ฅ(Conditioning) โ ํ์ฌ ๊ด์ ์์น๋ฅผ ์ธ์ฝ๋/๋์ฝ๋ ์ ๋ ฅ์์ ์ ๊ฑฐํ๋ ์คํ, (2) ๋ฒกํฐ ์์ํ ๋ ์ฐ์ ํํ(VAE ๋์) โ ์ปค๋ฐ ์์ค ๋์ KL ์์ค์ ์ฌ์ฉํ๋ ์ผ๋ฐ VAE๋ก ํ์ต. ์ด๋ฅผ ํตํด VQ-ACE์ ๊ตฌ์ฑ ์์๋ค์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๋ค.
5. ๊ฒฐ๊ณผ ๋ถ์ ๋ฐ ๋ ผ์
5.1 MPC ์ฑ๋ฅ
์ ์ฌ ๊ณต๊ฐ MPC๋ ๋ ๊ณผ์ ๋ชจ๋์์ ๊ธฐ์กด ์ํ๋ง MPC ๋๋น ๋ ๋ฎ์ ๋น์ฉ๊ณผ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ๊ทธ๋ฆผ5์ ๊ฒฐ๊ณผ์์ ๋ณผ ์ ์๋ฏ์ด, Ball Rolling๊ณผ Object Picking ๊ณผ์ ์์ VQ-ACE ๊ธฐ๋ฐ latent sampling MPC์ ํ๊ท ๋น์ฉ์ด ๊ธฐ์ค์ (spline ๊ธฐ๋ฐ)๋ณด๋ค ๋ฎ๊ณ ์ฑ๊ณต๋ฅ ์ ๋์๋ค. ํนํ ๊ทธ๋ฆผ6์์ ๋ณด๋ฏ์ด, ์ํ๋ง ๊ฒฝ๋ก ์๋ฅผ ์ฆ๊ฐ์ํฌ์๋ก ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๋น์ฉ์ด ๊ฐ์ํ์ง๋ง, ์ฃผ์ด์ง ์ํ ์์์ latent MPC์ ๋น์ฉ์ด ํญ์ ๋ ๋ฎ๊ฒ ๋ํ๋ฌ๋ค. ์๋ฅผ ๋ค์ด 40๊ฒฝ๋ก ์ํ๋ง ์ latent MPC์ ๋น์ฉ(54.2)์ ๊ธฐ์ค์ 200๊ฒฝ๋ก ์ํ๋ง ์ ๋น์ฉ(56.0)๊ณผ ์ ์ฌํ์๋ค. ์ด๋ VQ-ACE๊ฐ ์ํ๋ง ์ ๋ ๊ตฌ์กฐํ๋ ๊ฒ์ ๊ณต๊ฐ์ ์ ๊ณตํ์ฌ ์ ์ ์ํ ์๋ก๋ ์ฐ์ํ ๊ณํ์ ์ฐพ๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋๋ค.
๋ํ ์ ์ฑ์ ์ด๋ฏธ์ง(๊ทธ๋ฆผ4 ์ฐธ์กฐ)์์ latent MPC๋ ๋ชจ๋ ์๊ฐ๋ฝ์ด ์ ์ด์ ์ ์งํ๋ฉฐ ๊ณต์ ๊ตฌ๋ฅด๋ ๋ฑ ๋ ์ธ๊ฐ์ ์ธ ๋์์ ๋ณด์ฌ์ฃผ์๋ค. ๋ฐ๋ฉด ๊ธฐ์ค ์ํ๋ง MPC๋ ๊ณต ์ ์ด์ ์ง์คํ์ฌ ์๊ฐ๋ฝ ์ ์ด์ด ์ฐ๋ฐ์ ์ด์๋ค. ๊ฐ์ฒด ์ง๊ธฐ ๊ณผ์ ์์๋ latent MPC๊ฐ 6์ด์ ๊ฐ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ก๊ณ 8์ด์ ๋ค์ด์ฌ๋ ค ๊ณผ์ ๋ฅผ ๋ฌ์ฑํ์ผ๋, ๊ธฐ์ค์ ๋ฐฉ๋ฒ์ ๋ชฉํ ๋ถ๊ทผ์์ ์ง๊ธฐ ์๋์ ์คํจํ๋ค. ์ด์ฒ๋ผ ์ ์ฌ ํํ์ ๋์ ์ด ๋ณด๋ค ์์ฐ์ค๋ฌ์ด ์กฐ์์ ์ ๋ํจ์ ํ์ธํ๋ค.
5.2 RL ์ฑ๋ฅ
์ก์ ์ฒญํน ๊ฐํํ์ต์์๋ VQ-ACE ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ์๋ ด ์๋์ ์ต์ข ์ฑ๋ฅ์์ ์ฐ์๋ฅผ ๋ณด์๋ค. ํ๋ธ ๋ฐฉํฅ ์ ํ ๊ณผ์ ์์ Action Chunked RL์ ํ์ต ์ด๊ธฐ๋ถํฐ ๋ณด๋ค ๋น ๋ฅด๊ฒ ์ฑ๊ณต๋ฅ ์ ๋์๊ณ , ์ต์ข ์ ์ผ๋ก ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ๋ค. ํ๋ธ ์ ์ธต ๊ณผ์ ์์๋ ๊ธฐ์ค ๋ฐฉ์์ด ํจ๊ณผ์ ์ธ ์ ์ฑ ์ ์ฐพ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๋ฐ๋ฉด, Action Chunked RL์ ์์ ์ ์ผ๋ก ํ์ต์ ์งํํ์ฌ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. (๊ทธ๋ฆผ7 ์ฐธ์กฐ) ๋ ๊ณผ์ ์์ ๋ชจ๋ VQ-ACE ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ฌด์์ ํ์ ๋๋น ์๋ฏธ ์๋ ํ๋ ์ฌ์ (prior)์ ํ์ํจ์ผ๋ก์จ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์๋ค.
5.3 ๊ตฌ์ฑ ์์ ๊ฒ์ฆ (Ablation)
์กฐ๊ฑด๋ถ ์ ๋ ฅ์ ํจ๊ณผ: ์ธ์ฝ๋/๋์ฝ๋ ์ ๋ ฅ์์ ํ์ฌ ๊ด์ ์์น ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๋ฉด, ๊ฒ์ฆ ๋ฐ์ดํฐ์ ๋ํ ์ฌ๊ตฌ์ฑ L1 ์ค์ฐจ๊ฐ 0.05์์ 0.07๋ก ์ฆ๊ฐํ๋ค. ์ฆ, ์กฐ๊ฑด๋ถ ์ ๋ ฅ์ด ์ฌ๊ตฌ์ฑ ํ์ง์ ํฅ์์ํจ๋ค. MPC ๊ณผ์ ์ฑ๋ฅ์์๋ ์ด ํจ๊ณผ๊ฐ ๋ํ๋ฌ๋ค. ๊ทธ๋ฆผ5์์ ์กฐ๊ฑด๋ถ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์์ ๋ชจ๋ธ์ Ball Rolling ๊ณผ์ ์์ ๋น์ฉ์ด ํฌ๊ฒ ์์นํ๋ค. ๋จ, Object Picking ๊ณผ์ ์์๋ ๋น์กฐ๊ฑด๋ถ ๋ชจ๋ธ์ด ์ฝ๊ฐ ์ ๋ฆฌํ๋๋ฐ, ์ด๋ ์ด ๊ณผ์ ๊ฐ ์์ ์ ์ ์์ธ ์ธ์ฝ๋ฉ์ ์ง์ค๋์ด ์๋์ ์ผ๋ก ์กฐ๊ฑด ์ ๋ณด์ ์ค์๋๊ฐ ๋ฎ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฒกํฐ ์์ํ์ ํจ๊ณผ: ๋ฒกํฐ ์์ํ๋ฅผ ์ ๊ฑฐํ๊ณ ์ผ๋ฐ VAE ๊ตฌ์กฐ๋ก ํ์ตํ๋ฉด ์ฌ๊ตฌ์ฑ ์์ค์ 0.028๋ก ๋ ๋ฎ์์ก๋ค. ๊ทธ๋ฌ๋ ์ค์ MPC ์ฑ๋ฅ์์๋ ์์ํ๋ ๋ชจ๋ธ๋ณด๋ค ์ด์ ํ์๋ค. ๊ทธ๋ฆผ5์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, VAE ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ ๊ณผ์ ๋ชจ๋ ๋น์ฉ์ด ๋์ ํนํ Ball Rolling์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋์๋ค. ์ด๋ ์์ํ๋ ์ ์ฌ๊ฐ ๋ค์ค๋ชจ๋(action distribution)์ ํํ์ ๊ฐํ๋ฉฐ, ์ฐ์์ ํํ๋ณด๋ค ๊ณผ์ ํฉ์ ๋ ์ทจ์ฝํ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์ธ๋ค.
์ด์์ ๊ฒฐ๊ณผ๋ก ๋ฏธ๋ฃจ์ด, VQ-ACE์ ์กฐ๊ฑด๋ถ CVAE ๊ตฌ์กฐ์ ์์ํ๋ ํํ ๋ชจ๋๊ฐ ์กฐ์ ๊ณผ์ ์์ ์ค์ํ ์ญํ ์ ํจ์ ์ ์ ์๋ค. ํนํ ์ธ๊ฐ ๋์์ ๋ค์ค์ฑ(multimodality)์ ํฌ์ฐฉํ๊ธฐ ์ํด์๋ ์ด์ฐ์ ์ธ ์ ์ฌ ํํ์ด ์ ๋ฆฌํ๋ค.
6. ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต
VQ-ACE๋ ๊ธฐ์กด์ ๋ชจ๋ฐฉํ์ต, ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด, RL ๋ฑ ๋ค์ํ ์ ๊ทผ ๋ฐฉ์์ ํตํฉยทํ์ฅํ๋ ์ฑ๊ฒฉ์ ๊ฐ์ง๋ค. ์ ํต์ ์ธ ๋ชจ๋ฐฉํ์ต(imitation learning) ๋ฐฉ๋ฒ๋ค์ ๊ด์ฐฐ์ ๋ํ ํ๋์ ์ฌํ ๋ถํฌ p(a|o)๋ฅผ ํ์ตํ๋ ๋ฐ๋ฉด, VQ-ACE๋ ํ๋ ๊ทธ ์์ฒด์ ์ฌ์ ๋ถํฌ p(a)๋ฅผ ๋ชจ๋ธ๋งํ๋ค. ์ด๋ MPC์ ๋น์ฉ ์ต์ ํ๋ RL์ ํ์ ์ง์ ์ผ๋ก ํ์ฉ๋ ์ ์๋ค. ์ฆ, VQ-ACE๋ ํ์ต๋ ํ๋ ์ฌ์ ์ ํตํด ์ถ์ ์ ๋ฌธ์ ์ ํ์ต ๋ฌธ์ ๋ฅผ ๋ชจ๋ ๋๋ ์ค๊ฐ์ ์ ๊ทผ์ด๋ผ ํ ์ ์๋ค.
๋ํ ํ๋ ํํ ๊ด์ ์์ ๋ณด๋ฉด, ์ต๊ทผ Lee et al.[40โ 21]์ด ์ ์ํ Residual VAE ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ฐ์์ ์ธ ์ ์ฌ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๋ ๋น์กฐ๊ฑด๋ถ(VAE) ๊ตฌ์กฐ์๋ค. ์ด์ ๋นํด VQ-ACE๋ ์กฐ๊ฑด๋ถ Transformer ๊ธฐ๋ฐ VAE ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฌ ๋ก๋ด ์ ์์ธ(q_t)๋ฅผ ์ ๋ ฅ์ผ๋ก ์ถ๊ฐํจ์ผ๋ก์จ ์ฌ๊ตฌ์ฑ ์ ํ๋๋ฅผ ๋์๋ค. ๋ฒกํฐ ์์ํ๋ฅผ ๋์ ํ์ฌ ์ ์ฌ ๊ณต๊ฐ์ ์ด์ฐํํ ์ ๋ ์ฐจ๋ณ์ ์ด๋ค. ์ ํ ์ฐ๊ตฌ(Shafiullah ๋ฑ)๋ k-ํ๊ท ์ ์ฌ์ฉํด ํ๋์ ์ด์ฐํํ์ง๋ง, VQ-ACE๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์ฝ๋๋ถ์ ํ์ตํ์ฌ ๋ ํจ์จ์ ์ด๊ณ ํํ๋ ฅ์ด ๋์ ์ด์ฐ ์ ์ฌ๋ฅผ ์ป์๋ค.
์ข ํฉํ๋ฉด, VQ-ACE๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ํ๊ณ๋ก ์ผ์๋ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์ ํ์ ์ด๋ ค์์ ์ธ๊ฐ ํ๋ ์ฌ์ ์ง์์ ํตํ ์์ถ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ ๊ธฐ๋ฐ๊ณผ RL์ ์ฅ์ ์ ๋ชจ๋ ์ด๋ฆฌ๋ ์๋ก์ด ๊ด์ ์ ์ ๊ณตํ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ์์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํจ๊ณผ์ ์์ ๋ณด์๋ค.
7. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ ผ๋ฌธ์์ ์ ์๋ ํ๊ณ์ ์ ๋ค์๊ณผ ๊ฐ๋ค: ์ฒซ์งธ, VQ-ACE๋ ํน์ ๋ก๋ด ์ ํ๋ซํผ์ ๋ง์ถฐ ํ์ต๋์๊ธฐ ๋๋ฌธ์, ํ์ฌ ๊ตฌํ์ ์ ํด์ง ๊ตฌ๋ ๊ตฌ์กฐ(์: 11 DoF Faive ์)์ ์ข ์์ ์ด๋ค. ์ฆ, ์ธ์ฝ๋/๋์ฝ๋๊ฐ ์์ธกํ๋ ํ๋ ์ํ์ค๋ ํ์ตํ ๋ ์ฌ์ฉ๋ ๋ก๋ด์ ๊ด์ ํํ์ ์ข ์๋๋ฏ๋ก, ๋ค๋ฅธ ์ข ๋ฅ์ ์์ด๋ ๋ก๋ด์ ๋ฐ๋ก ์ผ๋ฐํํ๊ธฐ ์ด๋ ต๋ค. ๋์งธ, ๋ณธ ์ ๊ทผ์ ์ฃผ๋ก ํผ๋ํฌ์๋ ๋์์ ์ง์คํ๋ฉฐ, ์ธ๋ถ ๊ฐ์ง ํผ๋๋ฐฑ์ ๋ณ๋์ ์ ์ด๊ธฐ๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ์ทจํ๋ค. ์ด๋ก ์ธํด ๋๋ฐ์ ์ธ ๋ณํ์ ๋ํ ์ ์๋ ฅ์๋ ํ๊ณ๊ฐ ์์ ์ ์๋ค. ์ ์งธ, ์ฌ์ฉ๋ ์ธ๊ฐ ๋์ ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๊ฐ ๋น๊ต์ ์๋ค. ํ์ฌ 54๋ถ ๋ถ๋์ ์์ฒด ์์ง ๋ฐ์ดํฐ๋ก๋ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ง๋ง, ๋ ๋๊ท๋ชจ์ ๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํฌ ์ ์์ ๊ฒ์ด๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ์ ์๋ค์ ํ์ฅ์ฑ๊ณผ ์์ฉ ๋ฒ์ ํ๋๋ฅผ ์ ์ํ๋ค. ์ฒซ์งธ, ๋ ๋ค์ํ ๋ก๋ด ํธ๋ ๋ฐ ์ ์ ๋ก๋ด(humanoid) ๋ฑ์ผ๋ก VQ-ACE๋ฅผ ์ ์ฉํ์ฌ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ ํ๋ณด ์กฐ์(legged locomotion)์๋ ์ด์ ์ ์ฌํ ๋ฒกํฐ ์์ํ ๊ธฐ๋ฒ์ ์ ์ฉํ ์ ์์ ๊ฒ์ด๋ค. ๋์งธ, ์๋ฎฌ๋ ์ด์ ์์ ๊ฒ์ฆ๋ ๋ฐฉ๋ฒ์ ์ค์ ๋ก๋ด์ผ๋ก ์ด์ ํ๋ ์ฐ๊ตฌ(์๋ฎฌ-์ค์ ๊ฐญ ํด์)๋ฅผ ๊ฐํํ ํ์๊ฐ ์๋ค. ๊ณต๊ฐ๋ ๋ฐ์ดํฐ์ (์: FreiHAND, DexYCB ๋ฑ)๊ณผ ๊ณ ํด์๋ ์ ๊ด์ธก ๊ธฐ์ ์ ๊ฒฐํฉํ๋ฉด, ๋ณด๋ค ์ ๊ตํ๊ณ ๊ด๋ฒ์ํ VQ-ACE ํ์ต์ด ๊ฐ๋ฅํ ๊ฒ์ด๋ค. ๋ง์ง๋ง์ผ๋ก, VQ-ACE์ ๋ค๋ฅธ ํํ์ ์ ์ฑ ํ์ต ํ๋ ์์ํฌ(์: ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต, hierarchical RL ๋ฑ)๋ฅผ ๊ฒฐํฉํ์ฌ, ๋์ฑ ๋ณต์กํ ์์ ์๋ ์ ์ฉํ ์ ์๋ ์ง๋ฅ์ ์ธ ์ ์ด ์ฒด๊ณ๋ฅผ ๊ฐ๋ฐํ ์ ์๋ค.