๐ฯ0 ๋ฆฌ๋ทฐ
- ฯ0๋ ์ฌ์ ํ์ต๋ Vision-Language Model(VLM) ๋ฐฑ๋ณธ๊ณผ ํ๋ก์ฐ ๋งค์นญ(flow matching) ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด ์ ์ด์ ์ผ๋ฐ์ฑ๊ณผ ์ ๋ฐ์ฑ์ ํฅ์์ํจ ์๋ก์ด ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๋๋ค.
- ์ด ๋ชจ๋ธ์ ์ธํฐ๋ท ๊ท๋ชจ์ ์๋งจํฑ ์ง์์ ํ์ฉํ๋ฉฐ, 7๊ฐ์ง ๋ก๋ด ๊ตฌ์ฑ๊ณผ 68๊ฐ ์์ ์ ๊ฑธ์น 10,000์๊ฐ ์ด์์ ๋ฐฉ๋ํ ๊ต์ฐจ-embodiment ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต ๋ฐ ๋ฏธ์ธ ์กฐ์ ์ ๊ฑฐ์นฉ๋๋ค.
- ์คํ ๊ฒฐ๊ณผ, ฯ0๋ ๋นจ๋ ๊ฐ๊ธฐ, ์์ ์กฐ๋ฆฝ ๋ฑ ๋ณต์กํ๊ณ ์ฌ์ธํ ์กฐ์ ์์ ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, VLM ์ฌ์ ํ์ต์ด ์ธ์ด ์ง์ ์ดํด ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ์ ์ฆํ์ต๋๋ค.
Brief Review
์ด ๋ ผ๋ฌธ์ ์ ์ฐํ๊ณ ์ผ๋ฐ์ ์ด๋ฉฐ ์ ๊ตํ ๋ก๋ด ์์คํ ์ ์ํ ๋ฒ์ฉ ๋ก๋ด ์ ์ด ์ ์ฑ ์ธ ฯ0๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ Vision-Language Model (VLM)์ ๋ฐฑ๋ณธ์ผ๋ก ํ์ฉํ๊ณ , ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์์ ํ์ต๋ ์๋ฏธ๋ก ์ ์ง์์ ๋ก๋ด ์ ์ด๋ก ํ์ฅํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ฯ0์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- VLM ๋ฐฑ๋ณธ ํ์ฉ: PaliGemma [5]์ ๊ฐ์ ์ฌ์ ํ์ต๋ VLM์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ, ์ด๋ฏธ์ง์ ํ ์คํธ๋ก๋ถํฐ ํ์ต๋ ๊ด๋ฒ์ํ ์ง์, ์๋ฏธ๋ก ์ ์ถ๋ก ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ณ์นํฉ๋๋ค. ์ด๋ ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฐ์ดํฐ์์ ์ป์ ๊ฒฝํ์ ๋ก๋ด ์ ์ด์ ํตํฉํ๋ ์ญํ ์ ํฉ๋๋ค.
- Flow Matching์ ํตํ ์ฐ์์ ์ธ ์ก์
์์ฑ: ๊ธฐ์กด์ VLA ๋ชจ๋ธ๋ค์ด ์ฃผ๋ก autoregressive discretization ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ก์
์ ํ
์คํธ ํ ํฐ์ฒ๋ผ ์ฒ๋ฆฌํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ฯ0๋
conditional flow matching
[28, 32]์ ๋์ ํ์ฌ ์ฐ์์ ์ธ ์ก์ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. Flow matching์diffusion
[20, 46]์ ํ ๋ณํ์ผ๋ก, ๊ณ ์ฃผํ์ (์ต๋ 50 Hz)์ ์ก์ ์ฒญํฌ(action chunk) [57]๋ฅผ ์ ๋ฐํ๊ฒ ๋ชจ๋ธ๋งํ๊ณ ๋ณต์กํ ์ฐ์ ์ก์ ๋ถํฌ๋ฅผ ํํํ ์ ์์ด ์ธ๋ฐํ ์กฐ์(dexterous manipulation)์ด ์๊ตฌ๋๋ ์์ ์ ํนํ ์ ํฉํฉ๋๋ค. ์ก์ ์ฒญํฌ A_t = [a_t, a_{t+1},..., a_{t+H-1}]๋ ๋ฏธ๋ H ์คํ ์ ์ก์ ์ ๋ํ๋ด๋ฉฐ, H๋ 50์ผ๋ก ์ค์ ๋ฉ๋๋ค. ํ์ต ์ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_\tau (\theta) = \mathbb{E}_{p(A_t|o_t), q(A_t^\tau|A_t)}[\|v_\theta (A_t^\tau, o_t) - u(A_t^\tau|A_t)\|^2] ์ฌ๊ธฐ์ o_t๋ ๊ด์ธก๊ฐ (๋ค์ค RGB ์ด๋ฏธ์ง, ์ธ์ด ๋ช ๋ น์ด, ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ ์ํ), A_t^\tau๋ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์ก์ ์ฒญํฌ, v_\theta๋ ํ์ต๋ ๋ฒกํฐ ํ๋, u๋ ๋๋ ธ์ด์ง ๋ฒกํฐ ํ๋์ ๋๋ค. ํ๋ฅ ๊ฒฝ๋ก(probability path)๋ q(A_t^\tau|A_t) = \mathcal{N}(\tau A_t, (1-\tau)\mathbf{I})๋ก ์ ์๋๋ฉฐ, ๋๋ ธ์ด์ง ๋ฒกํฐ ํ๋ u(A_t^\tau|A_t) = \epsilon - A_t๋ ๋ฌด์์ ๋ ธ์ด์ฆ \epsilon \sim \mathcal{N}(0, \mathbf{I})์ ์ค์ ์ก์ A_t๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ถ๋ก ์์๋ ํ์ต๋ ๋ฒกํฐ ํ๋๋ฅผ \tau = 0์์ \tau = 1๊น์งforward Euler integration
๊ท์น์ ์ฌ์ฉํ์ฌ ํตํฉํ์ฌ ์ก์ ์ ์์ฑํฉ๋๋ค: A_t^{\tau+\delta} = A_t^\tau + \delta v_\theta (A_t^\tau, o_t) ์ด๋ \delta๋ ํตํฉ ์คํ ํฌ๊ธฐ์ด๋ฉฐ, ์คํ์์๋ 10๊ฐ์ ํตํฉ ์คํ ์ ์ฌ์ฉํฉ๋๋ค (\delta=0.1). - ์ก์
์ ๋ฌธ๊ฐ (Action Expert) ์ํคํ
์ฒ: VLM ๋ฐฑ๋ณธ์ ๋ก๋ด ๊ณ ์ ์ ์
๋ ฅ (๊ณ ์ ์์ฉ์ฑ ์ํ q_t) ๋ฐ ์ถ๋ ฅ (์ก์
A_t)์ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ณ๋์ ๊ฐ์ค์น ์ธํธ(โ์ก์
์ ๋ฌธ๊ฐโ)๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง ๋ฐ ํ
์คํธ ์
๋ ฅ์ ์ฒ๋ฆฌํ๋ VLM ๋ฐฑ๋ณธ๊ณผ ๋ก๋ด ๊ด๋ จ ์
์ถ๋ ฅ์ ์ฒ๋ฆฌํ๋ ์ก์
์ ๋ฌธ๊ฐ๋ก ๊ตฌ์ฑ๋
mixture of experts
[45] ๋์์ธ๊ณผ ์ ์ฌํฉ๋๋ค. PaliGemma (30์ต ํ๋ผ๋ฏธํฐ)์ ์ก์ ์ ๋ฌธ๊ฐ (3์ต ํ๋ผ๋ฏธํฐ)๋ฅผ ๊ฒฐํฉํ์ฌ ์ด 33์ต ํ๋ผ๋ฏธํฐ์ ๋ชจ๋ธ์ ๊ตฌ์ฑํฉ๋๋ค. - ํฌ๋ก์ค-์๋ฐ๋๋จผํธ (Cross-Embodiment) ํ์ต: ๋ค์ํ ๋ก๋ด ํ๋ซํผ (๋จ์ผ ํ ๋ก๋ด, ์ด์ค ํ ๋ก๋ด, ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ ๋ฑ)์์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ๋จ์ผ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ํ์ตํฉ๋๋ค. ์ด๋ ๋ค์ํ ๊ตฌ์ฑ ๊ณต๊ฐ๊ณผ ์ก์ ํํ์ ๊ฐ์ง ๋ก๋ด ์์คํ ์ ๋ํ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
ํ์ต ๋ ์ํผ:
๋
ผ๋ฌธ์ pre-training
๋ฐ post-training
(๋ฏธ์ธ ์กฐ์ ) ๋จ๊ณ๋ฅผ ๋ฐ๋ฅด๋ ๋ค๋จ๊ณ ํ์ต ์ ์ฐจ๋ฅผ ์ ์ํฉ๋๋ค.
- Pre-training: Physical Intelligence์์ ์์งํ 7๊ฐ์ง ๋ก๋ด ๊ตฌ์ฑ, 68๊ฐ์ง ํ์คํฌ์ ๋ํ ์ ๊ตํ ์กฐ์ ๋ฐ์ดํฐ์ (์ฝ 9์ต 3์ฒ๋ง ์คํ )๊ณผ ๊ณต๊ฐ๋ OXE [10] ๋ฐ์ดํฐ์ (22๊ฐ ๋ก๋ด ํฌํจ)์ ํฌํจํ ๋๊ท๋ชจ์ ๋ค์ํ ๋ฐ์ดํฐ ํผํฉ (์ด 10,000์๊ฐ ์ด์์ ๋ก๋ด ๋ฐ์ดํฐ)์ผ๋ก ๋ชจ๋ธ์ ์ฌ์ ํ์ตํฉ๋๋ค. ์ด ๋จ๊ณ๋ ๊ด๋ฒ์ํ ๊ธฐ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ถ์ฌํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- Post-training: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ ์ ๊ณ ์์ ๋ ๊ณ ํ์ง์ ํ์คํฌ๋ณ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ํน์ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ํ ์๋ จ๋๊ณ ์ ์ฐฝํ ์คํ ๋ฅ๋ ฅ์ ๋ถ์ฌํฉ๋๋ค. ์ด๋ LLM์ โ์ ๋ ฌ(alignment)โ ๊ณผ์ ๊ณผ ์ ์ฌํฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ:
ฯ0๋ ๋ค์ํ ์คํ์ ํตํด ๊ทธ ์ฑ๋ฅ์ ์ ์ฆํฉ๋๋ค.
- Out-of-box ํ๊ฐ: ์ฌ์ ํ์ต๋ง์ผ๋ก๋ ์ ์ธ ์ ๊ธฐ, ํ ์ด๋ธ ์ ๋ฆฌ, ์๋ฃํ ํฌ์ฅ ๋ฑ์ ๋ค์ํ ํ์คํฌ์์ ๊ธฐ์กด์ OpenVLA [24] ๋ฐ Octo [50]์ ๊ฐ์ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, VLM ์ฌ์ ํ์ต์ด ์๋ ฯ0-small ๋ฒ์ ๋ณด๋ค ์๋ฑํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ VLM ์ฌ์ ํ์ต์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
- ์ธ์ด ๋ช
๋ น์ด ์ถ์ข
: ฯ0๋ ์ธ์ด ๋ช
๋ น์ด ์ถ์ข
๋ฅ๋ ฅ์์ ฯ0-small๋ณด๋ค ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ, VLM ์ฌ์ ํ์ต์ด ๋ชจ๋ธ์ ์ธ์ด ์ดํด ๋ฅ๋ ฅ ํฅ์์ ํฌ๊ฒ ๊ธฐ์ฌํจ์ ์์ฌํฉ๋๋ค. ์ธ๊ฐ ์ ๋ฌธ๊ฐ ๋๋
high-level VLM policy
๊ฐ ์ ๊ณตํ๋ ์ค๊ฐ ์ธ์ด ๋ช ๋ น์ด๋ฅผ ํตํด ๋ณต์กํ ํ์คํฌ๋ฅผ ๋ ์ ์ํํ ์ ์์ต๋๋ค. - ์๋ก์ด ์ ๊ตํ ํ์คํฌ ํ์ต: ์ฌ์ ํ์ต ๋ฐ์ดํฐ์๋ ๋ค๋ฅธ ์๋ก์ด ํ์คํฌ(์: ๊ทธ๋ฆ ์๊ธฐ, ์๊ฑด ์ ๊ธฐ, ์ ์๋ ์ธ์ง์ ์ฉ๊ธฐ ๋ฃ๊ธฐ, ์ข ์ด ํ์ ๊ต์ฒด, ์๋์ ๋ฌผ๊ฑด ๋ฃ๊ธฐ)์ ๋ํ ๋ฏธ์ธ ์กฐ์ ํ๊ฐ์์, ฯ0๋ ๊ธฐ์กด์ ACT [57] ๋ฐ Diffusion Policy [9]๋ฅผ ํฌํจํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ฌ์ ํ์ต์ ํนํ ์ ์ ๋ฏธ์ธ ์กฐ์ ๋ฐ์ดํฐ๋ก๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํฉ๋๋ค.
- ๋ณตํฉ ๋ค๋จ๊ณ ํ์คํฌ ์๋ฌ: ์ธํ๋ฌผ ์ ๊ธฐ (์ ์งํ/์ด๋ํ ๋ก๋ด), ์ํ ์ ๋ฆฌ, ์์ ์กฐ๋ฆฝ, ๋ฌ๊ฑ ํฌ์ฅ, ๋์๋ฝ ํฌ์ฅ ๋ฑ ๋ณต์กํ๊ณ ์๊ฐ์ ์ผ๋ก ํ์ฅ๋ ๋ค๋จ๊ณ ํ์คํฌ์์, ฯ0๋ ์ฌ์ ํ์ต ๋ฐ ๋ฏธ์ธ ์กฐ์ ์กฐํฉ์ ํตํด ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ํ์คํฌ๋ ์์ญ ๊ฐ์ ๊ฐ๋ณ ํ๋๊ณผ ๋ค์ํ ๋ฌผ์ฒด ๊ตฌ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด์ ๊ฐ์ ๋ณต์กํ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ๋ค๋ฃจ๋ ๋ฅ๋ ฅ์ ์๊ตฌํฉ๋๋ค. ๋
ผ๋ฌธ์ ์ด๋ฌํ ์์ค์ ์์จ ์ฑ๋ฅ์ด ์ ๊ตํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์๋ก์ด
state-of-the-art
๋ฅผ ์ ์ํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค.
๊ฒฐ๋ก :
ฯ0๋ VLM ์ฌ์ ํ์ต๊ณผ flow matching ๊ธฐ๋ฐ ์ก์ ์์ฑ, ๊ทธ๋ฆฌ๊ณ ๋๊ท๋ชจ์ ๋ค๊ฐ์ ์ธ ๋ฐ์ดํฐ์ ์ ํ์ฉํ๋ ์ฌ์ ํ์ต-๋ฏธ์ธ ์กฐ์ ๋ ์ํผ๋ฅผ ํตํด ๋ฒ์ฉ์ ์ด๊ณ ์ ๊ตํ ๋ก๋ด ์ ์ด ๋ฅ๋ ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํ์คํ๋ฅผ ์ํ ์ค์ํ ๋ฐ๊ฑธ์์ผ๋ก ํ๊ฐ๋๋ฉฐ, ๋ฏธ๋ ์ฐ๊ตฌ๋ฅผ ์ํ ๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ฐ ์ ์ด ํ์ต ๋ฒ์ ํ์ฅ ๋ฑ์ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค.
Detail Review
ฯ0: ๋ฒ์ฉ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ๋น์ -์ธ์ด-์ก์ ํ๋ก์ฐ ๋ชจ๋ธ
๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ ์์ฝ
์ด ๋ ผ๋ฌธ์์๋ ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)๊ณผ ์ฐ์ ํ๋ ์์ฑ์ฉ ํ๋ก์ฐ ๋งค์นญ(flow matching) ๊ตฌ์กฐ๋ฅผ ๊ฒฐํฉํ ์๋ก์ด ๋ฒ์ฉ ๋ก๋ด ์ ์ด ์ ์ฑ ฯ0๋ฅผ ์ ์ํ๋ค. ฯ0๋ ์ธํฐ๋ท ๊ท๋ชจ์ ์๊ฐยท์ธ์ด ์ ๋ณด๋ฅผ ํ์ตํ VLM(์: 3B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ PaliGemma)์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ๋ณ๋์ ์ก์ ์ ๋ฌธ๊ฐ(action expert) ๋ชจ๋์ ์ถ๊ฐํ์ฌ ์ฐ์์ ์ด๊ณ ๊ณ ์ฃผํ์ ๋ก๋ด ํ๋์ ์์ฑํ ์ ์๋ค. ํ์ต ๋ฐฉ์์ ๋๊ท๋ชจ ์ฌ์ ํ์ต(Pre-training) โ ํ์ธํ๋(Post-training) ๋ ์ํผ๋ฅผ ๋ฐ๋ฅธ๋ค. ๋จผ์ 7๊ฐ์ง ๋ก๋ด ๊ตฌ์ฑ์์ ์์ง๋ 68๊ฐ ๊ณผ์ ๋ก ์ด๋ฃจ์ด์ง ์ด 10,000์๊ฐ ์ด์์ ๋ณต์กํ ์กฐ์ ๋ฐ์ดํฐ(์์ฌ ๋ฐ์ดํฐ + ๊ณต๊ฐ OXE ๋ฐ์ดํฐ์ )๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๋ค. ๊ทธ๋ฐ ๋ค์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ์ฌ ์ธํ๋ฌผ ์ ๊ธฐ, ์์ ์กฐ๋ฆฝ ๊ฐ์ ๋ณตํฉ ๋ค๋จ๊ณ ์์ ์ ์ํํ๋ค. ์ฃผ์ ๊ธฐ์ฌ์ ์ (1) VLM ๊ธฐ๋ฐ์ ์ ๊ฒฝ๋ง๊ณผ ํ๋ก์ฐ ๋งค์นญ ๊ธฐ๋ฐ ํ๋ ์์ฑ์ ํตํฉํ ์๋ก์ด ๋ชจ๋ธ ์ํคํ ์ฒ, (2) ๋ค์ํ ๋ก๋ด๊ณผ ์์ ์ ํฌํจํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ ๋ฐ ์ฌ์ ํ์ต/ํ์ธํ๋ ๋ ์ํผ, (3) ์คํ์ ํตํ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ์ด๋ค.

๊ธฐ์ ์ ์ค๋ช
- ๋น์ -์ธ์ด-์ก์ ํตํฉ: ฯ0์ ์ ๋ ฅ ๊ด์ฐฐ(observation)์ ์ฌ๋ฌ ์นด๋ฉ๋ผ์ RGB ์ด๋ฏธ์ง, ํ ์คํธ ๋ช ๋ น์ด, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด ๊ด์ ์ํ(ํ๋กํ๋ฆฌ์ค์ ํฐ๋ธ ์ ๋ณด)๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ ์ด๋ฏธ์ง์ ํ ์คํธ ํ ํฐ์ ์ฌ์ ํ์ต๋ VLM ๋ฐฑ๋ณธ(์: PaliGemma)์ผ๋ก ์ฒ๋ฆฌ๋๊ณ , ๊ด์ ์ํ์ ์์ธกํ ์ก์ ํ ํฐ์ ๋ณ๋์ ์ก์ ์ ๋ฌธ๊ฐ(action expert) ๋ชจ๋๋ก ๋ถ๋ฆฌ๋๋ค. ์ฆ, ํ๋์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ์์ ๋ ๊ฐ์ ์ ๋ฌธ๊ฐ(experts)๋ฅผ ๋์ด, ์ด๋ฏธ์งยท์ธ์ด ์ ๋ ฅ์ VLM ์ ๋ฌธ๊ฐ๋ก, ๋ก๋ด ์ํ ๋ฐ ํ๋ ํ ํฐ์ ์ก์ ์ ๋ฌธ๊ฐ๋ก ๊ฐ๊ฐ ๋ผ์ฐํ ๋๋ค. ์ด๋ ๋ธ๋ก ๋จ์ ์ธ๊ณผ์ (attention mask) ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ, ์ด๋ฏธ์ง/์ธ์ด ์ ๋ณด ๋ธ๋ก๊ณผ ํ๋ ํ ํฐ ๋ธ๋ก์ด ์๋ก ์ํฅ์ ์ฃผ๊ณ ๋ฐ๋๋ก ์ค๊ณ๋์๋ค.
- Flow Matching์ ํตํ ํ๋ ์์ธก: ฯ0๋ ํ๋ก์ฐ ๋งค์นญ(flow matching)์ด๋ผ๋ ํ์ฐ(diffusion) ๊ธฐ๋ฒ ๋ณํ์ ์ฌ์ฉํด ์ฐ์ ํ๋ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ค. ํ์ต ์์๋ ์ค์ ํ๋์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ๋ํ ํ, ๋คํธ์ํฌ๊ฐ ๋ ธ์ด์ฆ ์ถ๊ฐ๋ ํ๋( A^ฯ )์์ ์๋ ํ๋์ผ๋ก ๋๋์๊ฐ๋ ๋ ธ์ด์ฆ ์๋ ๋ฒกํฐ์ฅ์ ์์ธกํ๋๋ก ํ๋ค. ์ด๋ก์จ ํ๋ ์์ฑ์ด ๋ค์ค ๋ชจ๋์ ์ฐ์ ๋ถํฌ๋ก ํํ๋๊ณ ๋์ ์ ๋ฐ๋๋ฅผ ์ ์งํ๋ค. ์ถ๋ก ์์๋ ๋ฌด์์ ๋ ธ์ด์ฆ๋ก๋ถํฐ ์์ํ์ฌ, ํ์ตํ ๋ฒกํฐ์ฅ์ ์ด์ฉํด ์ฌ๋ฌ ๋จ๊ณ(๋ ผ๋ฌธ์์๋ 10๋จ๊ณ, ฮด=0.1)์ ์ค์ผ๋ฌ ์ ๋ถ์ผ๋ก ์ ์ง์ ์ผ๋ก ํ๋ ์ฒญํฌ(action chunk)๋ฅผ ์์ฑํ๋ค. ์ด ๊ณผ์ ์์ ๋ชจ๋ ํ๋ ํ ํฐ์ ์๋ก ์์ ์๋ฐฉํฅ(attend)์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ด์ ์ ๊ณ์ฐ๋ ํค/๊ฐ์ ์บ์ฑํ์ฌ ํจ์จ์ฑ์ ๋์๋ค.
- ์ก์ ์ฒญํน(Action Chunking): ฯ0๋ H=50 ํ์์คํ ์ ํด๋นํ๋ ์ก์ ์ฒญํฌ๋ฅผ ํ๊บผ๋ฒ์ ์์ธกํ๋ค. ์ฆ, 50ํ๋ ์ ๋ถ๋์ ์ฐ์ ํ๋ ์ํ์ค๋ฅผ ํ ๋ฒ์ ์์ฑํ์ฌ ๊ณ ์ฃผํ(์ต๋ 50Hz)์ ์ธ๋ฐํ ๋์์ด ๊ฐ๋ฅํ๋ค. ์ด๋ ๋จ์ผ ์คํ ์ฉ ๋์ฝ๋ฉํ๋ ๊ธฐ์กด์ ํ ์คํธ ํ ํฐ ๊ธฐ๋ฐ VLA(vision-language-action) ๋ชจ๋ธ์ด ์ด๋ ค์ํ๋ ๋ณต์กํ ์กฐ์ ์์ ์์ ์ ๋ฆฌํ๊ฒ ์์ฉํ๋ค.
- ํฌ๋ก์ค ์ ๋ฐ๋๋๋จผํธ ํ์ต: ฯ0๋ ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ๋ค์ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ชจ๋ธ๋ก ํตํฉ ํ์ตํ๋ค. ์คํ์ ์ฌ์ฉ๋ ๋ก๋ด์ ๋จ์ผ/๋์ผ ์ ๋ก๋ด(UR5e, Franka ๋ฑ)๊ณผ ์ด๋ํ ๋ก๋ด(๋ชจ๋ฐ์ผ ALOHA ๊ธฐ๋ฐ) ๋ฑ ์ด 7๊ฐ์ง ๊ตฌ์ฑ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ค 7๊ฐ ๋ก๋ด ๊ตฌ์ฑ์์ ์์ง๋ 68๊ฐ ์์ ๋ฐ์ดํฐ์ ๊ณต๊ฐ OXE ๋ฐ์ดํฐ์ ์ ๊ฒฐํฉํด ์ฌ์ ํ์ตํ์ผ๋ฉฐ , ์ด๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ ๋ก๋ด ๊ฐ ๊ฒฝํ ๊ณต์ ์ ๋ฒ์ฉ ์ ์ด ๋ฅ๋ ฅ์ ํ๋ณดํ์๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
- Out-of-Box ํ๊ฐ: ์ฌ์ ํ์ต๋ ฯ0(ํ์ธํ๋ ์์ด) ๋ชจ๋ธ์ ๋ค์ํ ์กฐ์ ์์ ์ ๋ํด ์ธ์ด ๋ช ๋ น๋ง์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด, โํฐ์ ์ธ ์ ๊ธฐโ, โ์ํ ์น์ฐ๊ธฐ(์ฌ์ด/์ด๋ ค์ด ๋ฒ์ )โ, โ์๋ฃํ ๋ด์ง ๋ด๊ธฐโ, โํ ์คํฐ์์ ํ ์คํธ ๊บผ๋ด๊ธฐโ ๋ฑ์ ํ ์คํธ์์ ฯ0๋ ๊ธฐ์กด์ ๋ํ ๋น์ -์ธ์ด-์ก์ ๋ชจ๋ธ(OpenVLA 7B)์ด๋ Octo(93M)๋ณด๋ค ์๋ฑํ ์ฑ๋ฅ์ ๊ธฐ๋กํ๋ค. ๊ทธ๋ฆผ 7์ ๋ฐ๋ฅด๋ฉด, ์ฐ์ฐ๋(ํ์ต ์คํ ) ๋๋ฑ ์กฐ๊ฑด(160k ์คํ )์์๋ ฯ0๋ ๋ชจ๋ ์์ ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ์์ฐ์ผ๋ฉฐ, ํ ํ์ต(700k ์คํ )์ ๊ฑฐ์น ฯ0-full์ ๋ชจ๋ ๊ณผ์ ์์ ์ต์์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ฑ๋ฅ ์งํ๋ ์์ ๋ณ ์ฑ๊ณต๋ฅ ๋ฐ ์งํ๋(์: ์ ๋ต ๋ฌผ์ฒด ๋ฐฐ์น ๊ฐ์)๋ก ์ธก์ ๋์๋ค.
- ์ธ์ด ๋ช ๋ น ์ํ: ฯ0๋ ์ธ์ด ์ง์์ ๋ฐ๋ผ ๋ฌผ์ฒด๋ฅผ ์ง์ด๋๋ ์์ ์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. โํ ์ด๋ธ ๋น์ฐ๊ธฐโ๋ โ์ํ ์ฐจ๋ฆฌ๊ธฐโ ๋ฑ ์ผ๋ จ์ ๊ฐ์ฒด ์ฎ๊ธฐ๊ธฐ ์์ ์์, ๋จ์ํ โ์ ์ฒด ์์ ๋ง ๋ช ๋ น(ฯ0-flat)โ ๋์ ์ค๊ฐ ๋จ๊ณ๋ณ ๋ช ๋ น(ฯ0-human)์ด๋ ์์ ์ ์ฑ (ฯ0-HL)์ผ๋ก ์๋ดํ ๋ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ์ฌ๋๋ค. ํนํ ฯ0๋ ์์ ํฌ๊ธฐ(VLM ๋น์ ์ฉ)์ ๋น๊ต๋ชจ๋ธ(ฯ0-small)์ ๋นํด ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ด ์๋ฑํ์ฌ, ์ฌ๋์ด ์ ๊ณตํ ๋จ๊ณ๋ณ ์ง์๋ฅผ ์ ๋ฐ๋๊ณ , ์์ VLM ์ ์ฑ ์ ์ง์๋ฅผ ๋ฐ์์ ๋์๋ ์ฑ๋ฅ ํฅ์์ด ๋๋ ทํ๋ค. ์ด๋ VLM ์ฌ์ ํ์ต์ด ์ธ์ด ๋ช ๋ น ์ํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ๋ณด์ฌ์ค๋ค.
- ํ์ธํ๋ ๊ณผ์ : ํ์ธํ๋์ ํตํด ฯ0๋ ์๋ก์ด ๋จ์ผ ๋จ๊ณ ์กฐ์ ๊ณผ์ ๋ ํ์ตํ๋ค. ์๋ฅผ ๋ค์ด, ์์ ์ฌ๋ฆฐ ๊ทธ๋ฆ ์ ๋ฆฌ(stack bowls), ์๊ฑด ์ ๊ธฐ(towel folding), ์ ์๋ ์ธ์ง ์กฐ์ ๋ฑ์์ ฯ0๋ ๋น๊ต์ ์ ์ ์์ ๋ฐ์ดํฐ๋ก๋ ๋์ ์์ฑ๋๋ฅผ ๋ฌ์ฑํ๋ค. ๊ทธ๋ฆผ 11์ ๋ฐ๋ฅด๋ฉด, ์ฌ์ ํ์ต๋ ฯ0๋ ๋ฌด์์ ์ด๊ธฐํ ๋ชจ๋ธ์ ๋นํด ์ ์ ํ์ต ๋ฐ์ดํฐ(1~10์๊ฐ)๋ก๋ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ผ๋ฉฐ, ํนํ ์ฌ์ด ๊ณผ์ ์์๋ ์๋์ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ 50% ์ด์์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ์ด๋ ์ฌ์ ํ์ต์ด ํ์ธํ๋ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ์ ๊ธฐ์ฌํจ์ ์๋ฏธํ๋ค.
- ๋ณตํฉ ๋ค๋จ๊ณ ๊ณผ์ : ฯ0๋ ์ธํ๋ฌผ ์ ๊ธฐ, ์ด๋์ ์ธํ๋ฌผ ์ฒ๋ฆฌ, ๊ฑด์กฐ๊ธฐ ์ฎ๊ธฐ๊ธฐ, ์ค๋ฌผ ์ ์ฌ ํ ์ด๋ธ ์ฒญ์, ๋ฐ์ค ์กฐ๋ฆฝ, ํฌ์ฅ ๊ณ๋ ๋ฑ ๋งค์ฐ ๋ณต์กํ ๋ค๋จ๊ณ ์์ ์์๋ ์ฑ๋ฅ์ ๋ณด์๋ค. ๊ทธ๋ฆผ 12, 13์ ๋ํ๋ ๋ฐ์ ๊ฐ์ด, ์ฌ์ ํ์ต+ํ์ธํ๋๋ ฯ0-full์ ๋ชจ๋ ๊ณผ์ ์์ 10ํ ํ๊ท 50% ์ด์์ ์ ์๋ฅผ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ฌ์ ํ์ต ์๋ scratch ๋ชจ๋ธ์ด๋ ์ฌ์ ํ์ต๋ง(out-of-box) ๋ชจ๋ธ๋ณด๋ค ์๋ฑํ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ํนํ ๋นจ๋ซ๊ฐ ์ ๊ธฐ๋ ๋ฐ์ค ์กฐ๋ฆฝ์ฒ๋ผ ๋์ด๋๊ฐ ๋์ ์์ ์์๋ ์ฌ์ ํ์ต ํจ๊ณผ๊ฐ ํฌ๊ฒ ๋ํ๋ฌ๋๋ฐ, ฯ0-full์ ๊ณผ์ ๋ณ ์ต๊ณ ์ ์์ ์ ๋ฐ ์ด์์ ๊พธ์คํ ๋ฌ์ฑํ๋ฉฐ ์๋ก์ด SOTA ์์ค์ ์ ์ด ๋ฅ๋ ฅ์ ์ ์ฆํ๋ค. ์ด๋ฌํ ํ๊ฐ๋ ๊ฐ๊ด์ ์ฑ์ ๊ธฐ์ค(1.0 ์๋ฒฝ ์ํ)์ผ๋ก 10ํ ๋ฐ๋ณต ํ๊ท ์ ์ฌ์ฉํ๋ค.
์ฅ์ ๊ณผ ํ๊ณ ๋ถ์
์ฅ์ : ฯ0์ ๊ฐ์ ์ ๋ฒ์ฉ์ฑ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์๋ค. ์ฌ์ ํ์ต๋ VLM์ ํ์ฉํจ์ผ๋ก์จ ์ธํฐ๋ท ๊ท๋ชจ์ ์๊ฐ-์ธ์ด ์ง์์ ๊ณ์นํ์ฌ, ๊ฐ ์์ ๋ณ๋ก ํนํ๋ ๋ชจ๋ธ๋ณด๋ค ๊ด๋ฒ์ํ ์ํฉ์ ๋์ํ ์ ์๋ค. ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ๋ฐ์ดํฐ๋ฅผ ๋จ์ผ ๋ชจ๋ธ๋ก ํตํฉ ํ์ตํ์๊ธฐ์, ์๋ก ๋ค๋ฅธ ๋ก๋ด ๊ฐ ์ ์ด ํ์ต์ด ๊ฐ๋ฅํ๋ค. ๋ํ ์ก์ ์ฒญํน๊ณผ ํ๋ก์ฐ ๋งค์นญ ๋๋ถ์ ์ต๋ 50Hz์ ๊ณ ์ฃผํ ์ฐ์ ์ ์ด๊ฐ ๊ฐ๋ฅํ์ฌ ์ธ๋ฐํ ์กฐ์ ์ํ์ด ๊ฐ๋ฅํ๋ค. ์คํ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต ฯ0๋ ์ ์ ํ์ธํ๋ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ ๋์๋๋ฐ, ์๋ฅผ ๋ค์ด ์ผ๋ถ ์ฌ์ด ๊ณผ์ ์์๋ 1์๊ฐ ๋ฏธ๋ง์ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๊ธฐ๋ณธ ์ฑ๋ฅ์ ๋๋ฌํ๋ค.
ํ๊ณ: ฯ0๋ ํ์ฌ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์๊ตฌ๋๊ณผ ๊ณ์ฐ ๋น์ฉ ๋๋ฌธ์ ํ์ค์ ํ๊ณ๋ ์กด์ฌํ๋ค. ์ฌ์ ํ์ต์๋ 10,000์๊ฐ ์ด์์ ํ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ณ , ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ๋ 33์ต ํ๋ผ๋ฏธํฐ์ ๋ฌํ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ ํ์ต ๋ฐ ์ถ๋ก ์ ๊ณ ์ฑ๋ฅ ํ๋์จ์ด์ ๊ธด ์๊ฐ์ด ํ์ํ๋ค. ์ค์๊ฐ ์ ์ด ์ธก๋ฉด์์๋, ํ๋ก์ฐ ๋งค์นญ์ ๋ค์ค ์ ๋ถ ๋จ๊ณ๋ฅผ ์๊ตฌํ๋ฏ๋ก(๋ ผ๋ฌธ์์๋ 10์คํ ) ์๋ต ์ง์ฐ์ด ์์ ์ ์๋ค. ๋ํ ๋ชจ๋ ๊ณผ์ ์์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฅํ์ง๋ ๋ชปํ๋ค. ๋ ผ๋ฌธ์์๋ ์ผ๋ถ ๊ณผ์ ๋ ์ ๋ขฐ์ฑ์ ํ๊ณ๊ฐ ์์์์ ์ธ๊ธํ๋ฉฐ, ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ(์ด๋ค ์์ , ์ด๋ค ๋น์จ์ด ์ค์ํ์ง)๊ณผ ์ถ๊ฐ ๋ฐ์ดํฐ์ ํจ๊ณผ๋ ์์ง ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์์๋ค. ๋ง์ง๋ง์ผ๋ก, ์ค์ ๋ก๋ด์ ์ ์ฉํ ๋ ๋ฐ์ํ ์ ์๋ ์์ ์ฑ ๋ฌธ์ (์: ์๊ธฐ์น ์์ ํ๋, ํ๊ฒฝ๊ณผ์ ์ถฉ๋)๋ ๊ณ ๋ ค๋์ด์ผ ํ๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๋ ผ๋ฌธ ์ ์๋ค์ ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ๋ฒ์ฉ์ฑ ๋ฑ์ ๋ํด ์ถ๊ฐ ์ฐ๊ตฌ์ ์ฌ์ง๋ฅผ ์ ์ํ๋ค. ์ค์ ๋ก๋ด ์์คํ ์ผ๋ก ํ์ฅํ๋ ค๋ฉด ์ค์๊ฐ ์ ์ด์ ์์ ์ฑ ๋ณด์ฅ์ด ์ค์ํ๋ค. ์๋ฅผ ๋ค์ด, ์ถ๋ก ์๋๋ฅผ ๋์ด๊ฑฐ๋ ์์ ํํฐ๋ฅผ ์ถ๊ฐํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ด ์ ์์ฑ์ ๊ฐ์ถ๋๋ก ์จ๋ผ์ธ ํ์ต์ด๋ ๋๋ฉ์ธ ์ ์ ๋ฐฉ๋ฒ๋ ์ ๋งํ๋ค. ๋ํ ๊ณ ์์ค ๊ณํ(Low-level ์ ์ด์ ์์ ๋ ๋ฒจ ๊ณํ ํตํฉ)์ ์ํด ์ธ์ด ๊ธฐ๋ฐ ํ๋๋๋ ๊ฐํํ์ต ๊ธฐ๋ฒ๊ณผ์ ์ฐ๋๋ ๊ณ ๋ คํ ์ ์๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์์๋ ์๋์ฐจ ์์จ์ฃผํ์ด๋ ๋ณดํ ๋ก๋ด ๋ฑ ๋งค์ฐ ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ๋ ์ธ๊ธํ๋ค. ์๋ฅผ ๋ค์ด ์ฃผํ ๋ค๋น๊ฒ์ด์ , ๋ณดํ ์ ์ด ๊ฐ์ ๋ถ์ผ์ ฯ0 ๊ฐ์ ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ๊ฐ๋ ์ ์ ์ฉํ ์ ์๋์ง ํ๊ตฌํ๋ ๊ฒ์ด ํฅํ ๊ณผ์ ๋ค.