flowchart TB
subgraph ๋ฐ์ดํฐ["๋ฐ์ดํฐ ์์ค"]
MoCap["๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ<br/>(LAFAN1, CMU)"]
Replay["์จ๋ผ์ธ ๋ฆฌํ๋ ์ด ๋ฒํผ"]
end
subgraph ์๋ฒ ๋ฉ["์ ์ฌ ๊ณต๊ฐ ๊ตฌ์ฑ"]
Btraj["๊ถค์ ์๋ฒ ๋ฉ<br/>E_RFB(ฯ) = 1/n ฮฃ B(sแตข)"]
Bstate["์ํ ์๋ฒ ๋ฉ<br/>z = B(s)"]
Uniform["๊ท ์ผ ๋ถํฌ<br/>(ํ์ดํผ์คํผ์ด)"]
end
subgraph ํ์ต["ํ์ต ์ปดํฌ๋ํธ"]
Disc["์ ์ฌ-์กฐ๊ฑด๋ถ<br/>ํ๋ณ์ D(s,z)"]
Actor["์ ์ฑ
ฯ_z"]
Critic["๋นํ๊ฐ Q(s,a,z)"]
FB["FB ํํ<br/>F(s,a,z), B(s)"]
end
MoCap --> Btraj
Replay --> Bstate
Btraj --> Disc
Bstate --> Disc
Uniform --> Actor
Disc --> |"์ ๊ทํ ๋ณด์"| Critic
FB --> |"FB ์์ค"| Actor
Critic --> |"๊ฐ์น ์ถ์ "| Actor
Actor --> |"ํ๊ฒฝ ์ํธ์์ฉ"| Replay
๐BFM-Zero ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค BFM-Zero๋ unsupervised RL ๋ฐ Forward-Backward (FB) ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ๋ค์ํ ์ ์ ์ ์ด ์์ ์ ์ํ ๊ณต์ latent space๋ฅผ ํ์ตํ๋ ์๋ก์ด promptable Behavioral Foundation Model์ ๋๋ค.
- ๐ ์ด ๋ชจ๋ธ์ domain randomization, asymmetric learning, reward regularization๊ณผ ๊ฐ์ ํต์ฌ์ ์ธ ๋์์ธ ์ ํ์ ํตํด sim-to-real ๊ฒฉ์ฐจ๋ฅผ ํด์ํ์ฌ Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ๊ฐ๋ ฅํ zero-shot ์ฑ๋ฅ๊ณผ ํจ์จ์ ์ธ few-shot adaptation์ ๋ฌ์ฑํฉ๋๋ค.
- โจ BFM-Zero์ smoothํ๊ณ semanticํ latent space๋ ๋ชจ์ tracking, goal reaching, reward optimization ๋ฐ perturbation์ผ๋ก๋ถํฐ์ ์์ฐ์ค๋ฌ์ด recovery ๋ฑ ๋ค์ํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฌํ์ต ์์ด๋ ์์ ๊ตฌ์ฑ ๋ฐ interpolation์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
BFM-Zero๋ ๋น์ง๋ ๊ฐํ ํ์ต(unsupervised Reinforcement Learning, RL)์ ์ฌ์ฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ํ ํ๋กฌํํธ ๊ฐ๋ฅํ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(Behavioral Foundation Model, BFM)์ ๊ตฌ์ถํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ํด๋จธ๋ ธ์ด๋ ์ ์ด ์ ๊ทผ ๋ฐฉ์์ ์๋ฎฌ๋ ์ด์ ์บ๋ฆญํฐ์ ๊ตญํ๋๊ฑฐ๋ ํน์ ์์ (์: ์ถ์ )์ ํนํ๋์ด ์์์ต๋๋ค. BFM-Zero๋ ๋์, ๋ชฉํ, ๋ณด์์ ๊ณตํต์ ์ ์ฌ ๊ณต๊ฐ(\mathcal{Z})์ ์๋ฒ ๋ฉํ๋ ํจ๊ณผ์ ์ธ ๊ณต์ ์ ์ฌ ํํ์ ํ์ตํ์ฌ ๋จ์ผ ์ ์ฑ ์ผ๋ก ์ฌ๋ฌ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฌํ๋ จ ์์ด ์ํํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ ์ ๋ํธ๋ฆฌ G1(Unitree G1) ํด๋จธ๋ ธ์ด๋์์ ์ ๋ก์ท(zero-shot) ๋์ ์ถ์ , ๋ชฉํ ๋๋ฌ, ๋ณด์ ์ถ๋ก ๋ฑ ๋ค์ํ ์ถ๋ก ๋ฐฉ๋ฒ๊ณผ ์์์ท(few-shot) ์ต์ ํ ๊ธฐ๋ฐ ์ ์์ ํตํด ๋ค์ฌ๋ค๋ฅํ๊ณ ๊ฒฌ๊ณ ํ ์ ์ ๊ธฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
BFM-Zero๋ ์จ๋ผ์ธ ์คํ-์ ์ฑ (off-policy) ๋น์ง๋ RL ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์์ง์ ์บก์ฒ(motion capture) ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ผ๋ฐํ๋ ์ ์ ์ ์ด ์ ์ฑ ์ด ์ธ๊ฐ ํ๋์ ๊ฐ๊น๋๋ก ์ ๊ทํํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ ๋ฐฉ-ํ๋ฐฉ(Forward-Backward, FB) ๋ชจ๋ธ๊ณผ FB-CPR(FB-Conditional Policy Regularization) ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
- ๋ฌธ์ ์ ์ (Problem Formulation): ๋ก๋ด ์ ์ด๋ ๋ถ๋ถ์ ์ผ๋ก ๊ด์ธก ๊ฐ๋ฅํ ๋ง๋ฅด์ฝํ ์์ฌ ๊ฒฐ์ ํ๋ก์ธ์ค(POMDP)๋ก ๊ณต์ํ๋ฉ๋๋ค. ์ํ(S), ๊ด์ธก(O), ํ๋(A), ์ ์ด ์ญํ(P(s_{t+1}|s_t, a_t)), ํ ์ธ์จ(\gamma)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ๋ํธ๋ฆฌ G1 ๋ก๋ด์ ํ๋ a \in \mathbb{R}^{29}๋ PD ์ปจํธ๋กค๋ฌ ๋ชฉํ๋ฅผ ํฌํจํ๋ฉฐ, ๊ด์ธก o_t๋ ๊ด์ ์์น, ์๋, ๋ฃจํธ ๊ฐ์๋, ์ค๋ ฅ ํฌ์ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋ ์ญ์ฌ o_{t,H} = \{o_{t-H}, a_{t-H}, \dots, o_t\}๋ฅผ ํฌํจํฉ๋๋ค.
- ์ ๋ฐฉ-ํ๋ฐฉ ํํ์ ์ด์ฉํ ๋น์ง๋ RL (Unsupervised RL with Forward-Backward Representations): BFM-Zero๋ ์จ๋ผ์ธ์ผ๋ก ์๋ฎฌ๋ ์ดํฐ์ ์ํธ์์ฉํ๋ฉฐ ๋ฌด๋ผ๋ฒจ ํ๋ ๋ฐ์ดํฐ์
(\mathcal{M})์ ํ์ฉํ์ฌ ํ๊ฒฝ์ ์์ถ๋ ํํ์ ํ์ตํฉ๋๋ค. ์ด๋ ์ธ ๊ฐ์ง ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํฉ๋๋ค:
- ์ ์ฌ ํ์คํฌ ํน์ง (\phi): ๊ด์ธก s \in S๋ฅผ d์ฐจ์ ๋ฒกํฐ๋ก ์๋ฒ ๋ฉํ๋ ํจ์ \phi: S \to \mathbb{R}^d.
- ์ ์ฌ ์กฐ๊ฑด๋ถ ์ ์ฑ (\pi_z): ์ ์ฌ ๋ฒกํฐ z \in \mathbb{R}^d์ ๋ฐ๋ผ ์กฐ๊ฑดํ๋๋ ์ ์ฑ \pi_z: S \to A.
- ์ ์ฌ ์กฐ๊ฑด๋ถ Successor Features (F_z): ํด๋น ์ ์ฑ \pi_z ํ์์ ์ ์ฌ ํ์คํฌ ํน์ง์ ๊ธฐ๋ ํ ์ธํฉ์ ์ธ์ฝ๋ฉํฉ๋๋ค. FB ํ๋ ์์ํฌ๋ ์ฅ๊ธฐ ์ ์ฑ ์ญํ์ ์ ํ-๋ญํฌ(finite-rank) ๊ทผ์ฌ๋ฅผ ํ์ตํ๋ฉฐ, ์ ๋ฐฉ ๋งคํ F: S \times A \times \mathbb{R}^d \to \mathbb{R}^d ๋ฐ ํ๋ฐฉ ๋งคํ B: S \to \mathbb{R}^d๋ฅผ ํ์ตํ์ฌ ์ ์ฑ \pi_z์ ์ํด ์ ๋๋๋ ์ฅ๊ธฐ ์ ์ด ์ญํ์ด ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ฉ๋๋ค: M^{\pi_z}(ds'|s, a) \simeq F(s, a, z)^\top B(s')\rho(ds') ์ฌ๊ธฐ์ M^{\pi_z}๋ ์ ์ฑ \pi_z ํ์์์ ํ ์ธ๋ ๋ฐฉ๋ฌธ ํ๋ฅ ์ ๋ํ๋ ๋๋ค. F(s, a, z)^\top z๋ r = \phi^\top z ๋ณด์์ ๊ฐ๋ \pi_z์ Q-ํจ์์ ๋๋ค. ๊ฐ ์ ์ฑ \pi_z๋ E_\rho[\sum_t \gamma^t \phi(s_t)^\top z | \pi_z]๋ฅผ ์ต๋ํํ๋๋ก ์ต์ ํ๋ฉ๋๋ค. FB-CPR์ ์ฌ๊ธฐ์ ์ ์ฌ ์กฐ๊ฑด๋ถ Discriminator๋ฅผ ์ถ๊ฐํ์ฌ ํ์ต ๊ณผ์ ์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ์ ๊ทํํฉ๋๋ค.
- BFM-Zero ์ฌ์ ํ๋ จ์ ์ฃผ์ ์ค๊ณ ์ ํ (Key Design Choices for BFM-Zero Pre-training): ์๋ฎฌ๋ ์ด์
-์ค์ ์ ์ด(sim-to-real transfer)๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ ์ค์ํ ์ค๊ณ ๊ฒฐ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- A) ๋น๋์นญ ํ์ต (Asymmetric Training): ์ ์ฑ ์ ๊ด์ธก ํ์คํ ๋ฆฌ o_{t,H}์ ๋ํด ํ๋ จ๋๋ ๋ฐ๋ฉด, Critic์ ํน๊ถ ์ ๋ณด(o_{t,H}, s_t)์ ์ ๊ทผํ์ฌ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ ๋๋ค.
- B) ๋๊ท๋ชจ ๋ณ๋ ฌ ํ๊ฒฝ ํ์ฅ (Scaling up to Massively Parallel Environments): ์์ฒ ๊ฐ์ ํ๊ฒฝ์์ ๋๊ท๋ชจ Replay Buffer์ ๋์ UTD(Update-to-Data) ๋น์จ๋ก ํ๋ จ์ ํ์ฅํ์ฌ ํจ์จ์ ์ธ ๋น์ง๋ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- C) ๋๋ฉ์ธ ๋ฌด์์ํ (Domain Randomization, DR): ๋งํฌ ์ง๋, ๋ง์ฐฐ ๊ณ์, ๊ด์ ์คํ์ , ๋ชธํต ์ง๋ ์ค์ฌ๊ณผ ๊ฐ์ ์ฃผ์ ๋ฌผ๋ฆฌ์ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฌด์์ํํ๊ณ ๊ต๋ ๋ฐ ์ผ์ ๋ ธ์ด์ฆ๋ฅผ ์ ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์ญํ์ ๊ณผ์ ํฉ๋๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค.
- D) ๋ณด์ ์ ๊ทํ (Reward Regularization): ๋ฐ๋์งํ์ง ์์ ํ๋์ ํผํ๊ธฐ ์ํด ๋ณด์ ํจ๋ํฐ๋ฅผ ํตํฉํฉ๋๋ค (์: ๊ด์ ํ๊ณ ๋๋ฌ).
- ํ์ต ๋ชฉํ ํจ์ (Training Objective Functions): BFM-Zero๋ ์คํ-์ ์ฑ
Actor-Critic ๋ฐฉ์์ผ๋ก ํ๋ จ๋ฉ๋๋ค.
- FB Loss (L(F, B)): ์ ๋ฐฉ ๋งคํ F์ ํ๋ฐฉ ๋งคํ B๋ Successor Measures์ ๋ํ ๋ฒจ๋ง ๋ฐฉ์ ์์์ ํ์๋ ์๊ฐ ์ฐจ์ด ์์ค์ ์ต์ํํ๋๋ก ํ๋ จ๋ฉ๋๋ค. \mathcal{L}_{FB} = \frac{1}{2n(n-1)} \sum_{i \neq k} \left\| \bar{F}(x_i, a_i, z_i)^\top B(s'_k, o'_k) - \gamma F(x'_i, a'_i, z_i)^\top \bar{B}(s'_k, o'_k) \right\|^2 - \frac{1}{n} \sum_i F(x_i, a_i, z_i)^\top \bar{B}(o'_i, s'_i) + \frac{1}{2n(n-1)} \sum_{i \neq k} \left\| B(s'_i, o'_i)^\top B(s'_k, o'_k) \right\|^2 - \frac{1}{n} \sum_{i \in [n]} B(s'_i, o'_i)^\top B(s'_i, o'_i) + \frac{1}{n} \sum_{i \in [n]} \left\| F(x_i, a_i, z_i)^\top z_i - B(s'_i, o'_i) \Sigma_B z_i - \gamma F(x'_i, a'_i, z_i)^\top z_i \right\|^2 (์ฌ๊ธฐ์ x_i = (o_{i,H}, s_i)์ด๋ฉฐ, \bar{F}์ \bar{B}๋ stop-gradient ์ฐ์ฐ์๋ฅผ ๋ํ๋ ๋๋ค.)
- Auxiliary Critic Loss (L(Q_R)): ์์ ๋ฐ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ์ ์ฝ ์กฐ๊ฑด์ ๋ถ๊ณผํ๋ Auxiliary Critic Q_R์ ํ์ค ๋ฒจ๋ง ์์ฐจ ์์ค๋ก ํ์ต๋ฉ๋๋ค. \mathcal{L}(Q_R) = \mathbb{E} \left[ \left( Q_R(o_{t,H}, s_t, a_t, z) - \sum_{k=1}^{N_{aux}} r_k(s_t) - \gamma Q_R(o_{t+1,H}, s_{t+1}, a_{t+1}, z) \right)^2 \right]
- Discriminator Loss (L(D)): ์ ์ฌ ์กฐ๊ฑด๋ถ Discriminator D๋ GAN ์คํ์ผ ๋ชฉํ๋ฅผ ํตํด ํ์ต๋ฉ๋๋ค. Discriminator๋ ์จ๋ผ์ธ ํ์ ๊ณผ์ ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํ๋์ ์ ๋ํ๋ ์ ๊ทํ ์ญํ ์ ํฉ๋๋ค. \mathcal{L}(D) = -\mathbb{E}_{\tau \sim \mathcal{M}, (o,s) \sim \tau} [\log(D(o, s, z_\tau))] - \mathbb{E}_{(o,s,z) \sim \mathcal{D}} [\log(1 - D(o, s, z))] ์ฌ๊ธฐ์ z_\tau = \frac{1}{l(\tau)}\sum_{(o,s)\in\tau} B(o, s)๋ ๋ชจ์ \tau์ ์ ๋ก์ท ๋ชจ๋ฐฉ ์๋ฒ ๋ฉ์ ๋๋ค.
- Actor Loss (L(\pi)): ์ต์ข Actor Loss๋ ์ฌ๋ฌ Critic์ ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. \mathcal{L}(\pi) = -\mathbb{E} \left[ F(o_{t,H}, s_t, a_t, z)^\top z + \lambda_D Q_D(o_{t,H}, s_t, a_t, z) + \lambda_R Q_R(o_{t,H}, s_t, a_t, z) \right] ์ฌ๊ธฐ์ Q_D๋ r_d(o_t, s_t, z) = \frac{D(o_t,s_t,z)}{1-D(o_t,s_t,z)} ๋ณด์์ ์ฌ์ฉํ๋ Critic์ ๋๋ค.
- Zero-shot Inference: ํ์ต๋ BFM-Zero๋ ์ถ๊ฐ์ ์ธ ํ์ต, ๊ณํ ๋๋ ๋ฏธ์ธ ์กฐ์ ์์ด ๋ค์ํ ์์
์ ์ ๋ก์ท ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค.
- ์์์ ๋ณด์ ํจ์ r(s)์ ๊ฒฝ์ฐ: z_r = E_{s' \sim \rho} [B(s')r(s')] (์ค์ ๋ก๋ ์ํ ๊ธฐ๋ฐ ์ถ์ ์น ์ฌ์ฉ).
- ๋ชฉํ ๋๋ฌ(s_g)์ ๊ฒฝ์ฐ: z_g = B(s_g).
- ๋ชจ์ ์ถ์ (\tau = \{s_1, \dots, s_n\})์ ๊ฒฝ์ฐ: z_t = \sum_{t'=t}^{t+H} B(s_{t'}) (๋ฏธ๋ ์์ผ H๋ฅผ ํฌํจํ ์ ์ฑ ์ํ์ค).
- Few-Shot Adaptation: BFM-Zero๋ ์๋ฎฌ๋ ์ดํฐ์์ ์จ๋ผ์ธ ์ํธ์์ฉ์ ํตํด ์ ์ฌ ๊ณต๊ฐ \mathcal{Z}์์ ์ต์ ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ์ํ ์ ์์ต๋๋ค.
- ๋จ์ผ ํฌ์ฆ ์ ์: Cross-Entropy Method (CEM)๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ ์ ๋ก์ท ์ ์ฌ z_{init}์์ ์ต์ ์ z^*๋ฅผ ์ฐพ์ต๋๋ค.
- ๊ถค์ ์ ์: Dual-Loop Annealing ์ค์ผ์ค์ ์ฌ์ฉํ์ฌ ์ ์ฌ ํ๋กฌํํธ ์ํ์ค์ ๋ํ ์ํ๋ง ๊ธฐ๋ฐ ๊ถค์ ์ต์ ํ๋ฅผ ์ํํฉ๋๋ค.
์คํ (Experiments)
BFM-Zero๋ IsaacLab์์ ์๋ฎฌ๋ ์ด์ ๋ ์ ๋ํธ๋ฆฌ G1(Unitree G1) ๋ก๋ด์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ํ๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ LAFAN1์ ์ฌ์ฉํ์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์
์์์ ์ ๋ก์ท ๊ฒ์ฆ (Zero-shot Validation in Simulation):
- ๋น๋์นญ ํ์ต ๋ฐ ๋๋ฉ์ธ ๋ฌด์์ํ: BFM-Zero๋ ํน๊ถ ์ ๋ณด์ ์ ๊ทผํ๋ BFM-Zero-priv์ ๋นํด ์ฝ๊ฐ ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ง, ๋๋ฉ์ธ ๋ฌด์์ํ ํ๊ฒฝ์์๋ ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ์ ์งํ๋ฉฐ ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๋ณด์ ์์ ์ ํฌ์ํ(sparse) ๋ณด์ ํน์ฑ์ผ๋ก ์ธํด ๋ ํฐ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ ๋๋ค.
- Sim-to-Sim ์ฑ๋ฅ: Mujoco ํ๊ฒฝ์์ BFM-Zero์ ๊ฒฌ๊ณ ์ฑ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ฑ๋ฅ ์ฐจ์ด๊ฐ 7% ๋ฏธ๋ง์ผ๋ก ๋๋ฉ์ธ ๋ฌด์์ํ์ Actor/Critic์ ํ์คํ ๋ฆฌ ๊ตฌ์ฑ ์์๊ฐ ์ข์ ์์ค์ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํจ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ถํฌ ์ธ(Out-of-distribution, OOD) ์์ : AMASS ๋ฐ์ดํฐ์ ์ ๋ชจ์ ์ ์ฌ์ฉํ์ฌ BFM-Zero๊ฐ ํ๋ จ ๋ฐ์ดํฐ์ ์๋ ์์ ์ ๋ํด์๋ ์ฑ๊ณต์ ์ผ๋ก ์ผ๋ฐํํ๊ณ ์ถ์ ๋ฐ ํฌ์ฆ ๋๋ฌ์ ์๋ฃํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
- ์ค์ ๋ก๋ด์์์ ์ ๋ก์ท ๊ฒ์ฆ (Zero-shot Validation on the Real Robot):
- ์ถ์ (Tracking): BFM-Zero๋ ๋ค์ํ ์์ง์(์คํ์ผ ์ํน, ์ญ๋์ ์ธ ์ถค, ์ธ์, ์คํฌ์ธ )์ ์ถ์ ํ ์ ์์ผ๋ฉฐ, ๋ถ์์ ํ๊ฑฐ๋ ๋์ด์ง ๋๋ ๋ถ๋๋ฝ๊ณ ์์ฐ์ค๋ฌ์ด ์์ธ๋ก ๋ณต๊ตฌํ์ฌ ์ถ์ ์ ๊ณ์ํฉ๋๋ค. ์ด๋ ๊ต๋ ํ๋ จ๋ฟ๋ง ์๋๋ผ TD ๊ธฐ๋ฐ ์คํ-์ ์ฑ ํ๋ จ๊ณผ GAN ๊ธฐ๋ฐ ๋ณด์, ๊ทธ๋ฆฌ๊ณ ์ ๊ทํ ํญ์ ํตํด ์ป์ ํด๋จผ-์ ์ฌ์ฑ์์ ๋น๋กฏ๋ฉ๋๋ค.
- ๋ชฉํ ๋๋ฌ (Goal Reaching): ๋ก๋ด์ ๋ฌด์์๋ก ์ํ๋ง๋ ๋ชฉํ ํฌ์ฆ์ ์ง์์ ์ผ๋ก ์๋ ดํ๋ฉฐ, ์ฌ์ง์ด ๋ถ๊ฐ๋ฅํ ๋ชฉํ์๋ ์์ฐ์ค๋ฌ์ด ๊ตฌ์ฑ์ ์ทจํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ถค์ ์ ๋ช ์์ ์ธ ๋ณด๊ฐ ์์ด๋ ๋ถ๋๋ฝ๊ณ ์์ฐ์ค๋ฌ์ด ์ ํ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ณด์ ์ต์ ํ (Reward Optimization): ๋ก์ฝ๋ชจ์ , ํ ์์ง์, ๊ณจ๋ฐ ๋์ด ๋ณด์๊ณผ ๊ฐ์ ๋จ์ํ ๋ณด์ ์ ์๋ง์ผ๋ก๋ ๋ก๋ด์ ์ถฉ์คํ๊ฒ ๋ช ๋ น์ ์คํํฉ๋๋ค. ๋ณด์์ ์ ํ ์กฐํฉ์ ํตํด ๋ณตํฉ ๊ธฐ์ ์ ์ ๋ํ ์ ์์ผ๋ฉฐ, ์ ์ฌ ๋ณ์์ ๋ค์์ฑ์ ๋ค์ํ ์ ์ฌ์ ์ต์ ๋ชจ๋๋ฅผ ๋ํ๋ ๋๋ค.
- ๊ต๋ ์ ๊ฑฐ (Disturbance Rejection): BFM-Zero ์ ์ฑ ์ ๊ฐ๋ ฅํ ์์์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๋ก๋ด์ ๊ฐ๋ ฅํ ๋ฐ๊ธฐ, ๋ฐ๋ก ์ฐจ๊ธฐ, ๋ฐ๋ฅ์ผ๋ก ๋๋ ค๊ฐ๋ ๊ฒ๊ณผ ๊ฐ์ ์ฌ๊ฐํ ๊ต๋์ ๊ฒฌ๋๋ด๊ณ ์์ฐ์ค๋ฝ๊ณ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ๋ณต๊ตฌํฉ๋๋ค.
- BFM-Zero์ ํจ์จ์ ์ธ ์ ์ (Efficient Adaptation for BFM-Zero):
- ๋จ์ผ ํฌ์ฆ ์ ์ (Single Pose Adaptation): ์๋ฎฌ๋ ์ด์ ์์ 4kg์ ํ์ด๋ก๋(payload)๋ฅผ ์ถ๊ฐํ์ฌ ํ ๋ฐ ์๊ธฐ ๋์์ ๊ฐ์ ํ๋ ์ ์์ ์ํํ์ต๋๋ค. CEM์ ์ฌ์ฉํ์ฌ ์ต์ ํ๋ ํ๋กฌํํธ z^*๋ ํ์ด๋ก๋๋ก ์ธํ ์ญํ ๋ณํ๋ฅผ ๋ณด์ํ์ฌ, ๋น์ ์ ์ํ์์ 5์ด ์ด๋ด์ ๋ถ์์ ํด์ง๋ ๋ก๋ด์ด 15์ด ์ด์ ํ ๋ฐ ๊ท ํ์ ์ ์งํ ์ ์๋๋ก ํ์ต๋๋ค.
- ๊ถค์ ์ ์ (Trajectory Adaptation): altered ground friction ํ์์ ๋์ฝ ๋์์ ์ต์ ํํ์ต๋๋ค. Dual-Annealing ๊ถค์ ์ต์ ํ๋ ์ถ์ ์ ํ๋๋ฅผ ์ฝ 29.1% ํฅ์์์ผฐ์ต๋๋ค.
- BFM-Zero์ ์ ์ฌ ๊ณต๊ฐ ๊ตฌ์กฐ (The Latent Space Structure of BFM-Zero): BFM-Zero๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํ๋์ ๋ํ ํด์ ๊ฐ๋ฅํ๊ณ ๊ตฌ์กฐํ๋ ํํ์ ์ ๊ณตํฉ๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ ์๊ฐํ: ์ ์ฌ ๋ฒกํฐ ๊ถค์ ์ 2D ํ๋ฉด์ ํฌ์ํ๊ฑฐ๋ 3D ๊ตฌ๋ก ํํํ๋ฉด, ์ ์ฌ ๊ณต๊ฐ์ด ๋ชจ์ ์คํ์ผ์ ๋ฐ๋ผ ๊ตฌ์ฑ๋์ด ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์ฌํ ๊ถค์ ์ด ํด๋ฌ์คํฐ๋ฅผ ํ์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ์์์ ๋ชจ์ ๋ณด๊ฐ (Motion Interpolation): \mathcal{Z}์ ๊ตฌ์กฐํ๋ ํน์ฑ์ ์ ์ฌ ํํ ๊ฐ์ ๋ถ๋๋ฌ์ด ๋ณด๊ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. Slerp(Spherical Linear Interpolation)๋ฅผ ์ฌ์ฉํ์ฌ ์ค๊ฐ ์ ์ฌ ๋ฒกํฐ๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ BFM-Zero ์ ์ฑ ์ ์ ๋ ฅํ๋ฉด ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์๋ฏธํ ์ค๊ฐ ๊ธฐ์ ์ด ์ ๋ก์ท ๋ฐฉ์์ผ๋ก ์์ฑ๋ฉ๋๋ค.
๊ฒฐ๋ก (Discussion)
BFM-Zero๋ ์คํ-์ ์ฑ ๋น์ง๋ RL์ด ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ ์ ์ ์ด๋ฅผ ์ํ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํ๋ จํ๋ ์คํ ๊ฐ๋ฅํ ์ ๊ทผ ๋ฐฉ์์์ ์ฒ์์ผ๋ก ์ ์ฆํฉ๋๋ค. BFM-Zero๋ ๋๋ผ์ด ์ผ๋ฐํ ๋ฐ ๊ฒฌ๊ณ ์ฑ ์์ค์ ๋ณด์ด์ง๋ง, ๋ช ๊ฐ์ง ํ๊ณ๋ ์กด์ฌํฉ๋๋ค. ์ฒซ์งธ, ํํ ๊ฐ๋ฅํ ํ๋์ ๋ฒ์์ ์ฑ๋ฅ์ ํ๋ จ์ ์ฌ์ฉ๋ ๋ชจ์ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ฐ๊ตฌํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋์งธ, ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ด sim-to-real gap์ ์ค์์ง๋ง, ๋ ๋ณต์กํ ์์ง์์ ์์ ์ ์ผ๋ก ํํํ๊ธฐ ์ํด์๋ ๋ ๋์ ์จ๋ผ์ธ ์ ์ ๋ฅ๋ ฅ์ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ด ํ์ํฉ๋๋ค. ์ ์งธ, ํ ์คํธ-์๊ฐ ์ ์์ ๋ํ ์ฌ๋ ์๋ ์ดํด๊ฐ ํ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
BFM-Zero๋ ์ธ๊ณ ์ต์ด๋ก off-policy ๋น์ง๋ ๊ฐํํ์ต์ ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด(Unitree G1)์ ์ ์ฉํ ์ฐ๊ตฌ์ ๋๋ค. Forward-Backward ํํ ํ์ต์ ๊ธฐ๋ฐ์ผ๋ก, ๋จ์ผ ์ ์ฑ ์ผ๋ก Motion Tracking, Goal Reaching, Reward Optimization ์ธ ๊ฐ์ง ์์ ์ ์ฌํ์ต ์์ด(Zero-shot) ์ํํฉ๋๋ค.
FB-CPR ์๊ณ ๋ฆฌ์ฆ์ ์ค๋ก๋ด ํ์ฅ: Meta Motivo(์๋ฎฌ๋ ์ด์ ์ ์ฉ)๋ฅผ Sim-to-Real๋ก ํ์ฅ
๋น๋์นญ ํ์ต + LSTM ํ์คํ ๋ฆฌ: ๋ถ๋ถ ๊ด์ธก ํ๊ฒฝ์์์ robustํ ์ ์ด
์ฒด๊ณ์ ๋๋ฉ์ธ ๋๋คํ: ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ, ์ผ์ ๋ ธ์ด์ฆ, ์ธ๋ ๋ฑ ํฌ๊ด์ ๋๋คํ
๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ: ์๋ฏธ๋ก ์ ๋ณด๊ฐ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ ์ ๊ณต
์๋ก : ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
๋ฌธ์ ์ ๋ณธ์ง
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ ์ดํ๋ค๋ ๊ฒ์ ๋ง์น ๋ณต์กํ ์ค์ผ์คํธ๋ผ๋ฅผ ์งํํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์์ญ ๊ฐ์ ๊ด์ ์ด ๋์์ ํ์ํด์ผ ํ๊ณ , ๋ถ์์ ํ ์ด์กฑ ๋ณดํ์ด๋ผ๋ ๋ณธ์ง์ ์ธ ์ด๋ ค์๊น์ง ๋ํด์ง๋๋ค. ์ ํต์ ์ธ ์ ๊ทผ๋ฒ์ ๊ฐ ์์ (๊ฑท๊ธฐ, ์ถค์ถ๊ธฐ, ๋ฌผ๊ฑด ์ง๊ธฐ)๋ง๋ค ๋ณ๋์ ์ ์ฑ ์ ํ์ต์์ผ์ผ ํ์ต๋๋ค. ๋ง์น ํผ์๋ ธ ์น๊ธฐ, ๋ฐ์ด์ฌ๋ฆฐ ์ฐ์ฃผ, ๋๋ผ ์ฐ์ฃผ๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ ์ฌ๋์๊ฒ ๊ฐ๋ฅด์น๋ ๊ฒ์ฒ๋ผ์.
ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ ๋ง ์ํ๋ ๊ฒ์ ํ๋์ โ์์ ์ ์ฌ๋ฅโ์ ๊ฐ์ง ๋ชจ๋ธ์ ๋๋ค. ์ ๋ณด(๋ชฉํ)๋ง ๋ฐ๊พธ๋ฉด ์ด๋ค ๊ณก์ด๋ ์ฐ์ฃผํ ์ ์๋ ๋ง๋ฅ ์์ ๊ฐ ๋ง์ด์ฃ . ์ด๊ฒ์ด ๋ฐ๋ก Behavioral Foundation Model (BFM)์ ํต์ฌ ์์ด๋์ด์ ๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ
๊ธฐ์กด BFM ์ฐ๊ตฌ๋ค์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ง๋ฉดํด ์์์ต๋๋ค:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๋ฌธ์ 1: ์๋ฎฌ๋ ์ด์
์๋ง ๋จธ๋ฌผ๋ฌ ์์ โ
โ - SMPL ์ค์ผ๋ ํค ๊ธฐ๋ฐ ๊ฐ์ ์บ๋ฆญํฐ์์๋ง ๊ฒ์ฆ โ
โ - ์ค์ ๋ก๋ด ๋ฐฐ์น(deployment) ๋ฏธ๊ฒ์ฆ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ ๋ฌธ์ 2: ์์
ํนํ ํ์ต ํ์ โ
โ - Motion Tracking, Goal Reaching ๋ฑ ๊ฐ๊ฐ ๋ณ๋ ํ์ต โ
โ - 2๋จ๊ณ ํ์ต ํ์: (1) ๊ธฐ๋ณธ ์ ์ฑ
ํ์ต โ (2) ์ฆ๋ฅ(Distillation) โ
โ - ๋ชจ์
๋ฐ์ดํฐ ํ์ง์ ์ ์ ์ผ๋ก ์์กด โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
BFM-Zero์ ํต์ฌ ๊ธฐ์ฌ
BFM-Zero๋ ์ด๋ฌํ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๋ฉด์ ์ธ๊ณ ์ต์ด๋ก ๋ค์์ ๋ฌ์ฑํฉ๋๋ค:
- Off-policy ๋น์ง๋ ๊ฐํํ์ต์ผ๋ก ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ ์ด
- ๋จ์ผ ์ ์ฑ ์ผ๋ก Motion Tracking, Goal Reaching, Reward Optimization์ Zero-shot์ผ๋ก ์ํ
- Unitree G1 ์ค์ ๋ก๋ด์์ ๊ฒ์ฆ๋ Sim-to-Real ์ ์ด
โZeroโ๋ผ๋ ์ด๋ฆ์ ์๋ฏธ๊ฐ ์ฌ๊ธฐ์ ๋๋ฌ๋ฉ๋๋ค: ์ฌํ์ต ์์ด(Zero additional training) ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ค๋ ๊ฒ์ด์ฃ .
๋ฐฉ๋ฒ๋ก : Forward-Backward ํํ ํ์ต์ ๋ง๋ฒ
ํต์ฌ ์ง๊ด: โ๋ฏธ๋๋ฅผ ์๋ฒ ๋ฉํ๋ผโ
BFM-Zero์ ํต์ฌ์ Forward-Backward (FB) ํํ ํ์ต์ ๋๋ค. ์ด๊ฒ์ ์ดํดํ๊ธฐ ์ํด ๊ฐ๋จํ ๋น์ ๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค.
์์ํด๋ณด์ธ์. ๋น์ ์ด ์์ธ์์ ๋ถ์ฐ๊น์ง ๊ฐ๋ ์ฌํ์ ๊ณํํ๋ค๊ณ ํฉ๋๋ค. ์ ํต์ ์ธ ๊ฐํํ์ต์ โ์์ธโ๋์ โ๋๊ตฌโ๋ถ์ฐโ ๊ฐ ๋จ๊ณ๋ง๋ค โ์ด ์ ํ์ด ์ข์๊ฐ?โ๋ฅผ ๋ณด์์ผ๋ก ํ๊ฐํฉ๋๋ค. ํ์ง๋ง FB ํํ ํ์ต์ ๋ค๋ฅด๊ฒ ์ ๊ทผํฉ๋๋ค:
- Backward ์๋ฒ ๋ฉ \boldsymbol{B}(s): โ๋ถ์ฐ์ด๋ผ๋ ๋ชฉ์ ์ง์ ํน์ฑ์ ๋ฌด์์ธ๊ฐ?โ (๋ชฉํ ์ํ์ ํํ)
- Forward ์๋ฒ ๋ฉ \boldsymbol{F}(s,a,z): โํ์ฌ ์์ธ์์ ์ด ํ๋์ ํ๋ฉด, ๋ฏธ๋์ ์ด๋ค ๊ณณ๋ค์ ๋ฐฉ๋ฌธํ๊ฒ ๋ ๊น?โ (๋ฏธ๋ ๋ฐฉ๋ฌธ ํ๋ฅ ์ ํํ)
์ด ๋ ์๋ฒ ๋ฉ์ ๋ด์ \boldsymbol{F}^\top \boldsymbol{B}๊ฐ ๋ฐ๋ก โํ์ฌ ์ํ์์ ๋ชฉํ ์ํ์ ๋๋ฌํ ๊ฐ๋ฅ์ฑโ์ ๋ํ๋ ๋๋ค!
์ํ์ ๊ธฐ์ด: Successor Measure
FB ํํ ํ์ต์ ํต์ฌ ๊ฐ๋ ์ Successor Measure(ํ์ ์ธก๋)์ ๋๋ค. ์ด๊ฒ์ ๊ธฐ์กด์ Successor Representation์ ์ฐ์ ์ํ ๊ณต๊ฐ์ผ๋ก ํ์ฅํ ๊ฒ์ ๋๋ค.
M^{\pi_z}(X|s, a) := \sum_{t=0}^{\infty} \gamma^t \Pr(s_t \in X | s_0=s, a_0=a, \pi_z)
์ด๊ฒ์ด ์๋ฏธํ๋ ๋ฐ๋: ์ ์ฑ \pi_z๋ฅผ ๋ฐ๋ฅผ ๋, ์ํ-ํ๋ ์ (s,a)์์ ์์ํ์ฌ ๋ฏธ๋์ ์งํฉ X์ ์ํ๋ ์ํ๋ฅผ ๋ฐฉ๋ฌธํ ํ ์ธ๋ ํ๋ฅ ์ ๋๋ค.
FB ํํ์ ํต์ฌ ์์ด๋์ด๋ ์ด successor measure๋ฅผ ์ ์ฐจ์ ๊ทผ์ฌ๋ก ๋ถํดํ๋ ๊ฒ์ ๋๋ค:
M^{\pi_z}(X|s, a) \approx \int_{s' \in X} \boldsymbol{F}(s, a, z)^\top \boldsymbol{B}(s') \, \rho(ds')
- \boldsymbol{F}: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \rightarrow \mathbb{R}^d โ Forward ์๋ฒ ๋ฉ
- \boldsymbol{B}: \mathcal{S} \rightarrow \mathbb{R}^d โ Backward ์๋ฒ ๋ฉ
- z \in \mathcal{Z} โ ์ ์ฌ ํ์คํฌ ๋ฒกํฐ (์ ์ฑ ์ ์ธ๋ฑ์ฑ)
- \rho โ ์ํ ๋ถํฌ
Q-ํจ์์ ์ฐ์ํ ํํ
์ด ๋ถํด์ ์๋ฆ๋ค์ด ์ ์ ์์์ ๋ณด์ ํจ์์ ๋ํ Q-ํจ์๋ฅผ ์ฆ์ ๊ณ์ฐํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค!
๋ณด์ ํจ์ r(s)๊ฐ ์ฃผ์ด์ง๋ฉด, ํด๋น ์ ์ฌ ๋ฒกํฐ๋: z_r = \mathbb{E}_{s \sim \rho}[r(s) \cdot \boldsymbol{B}(s)]
๊ทธ๋ฌ๋ฉด Q-ํจ์๋ ๋จ์ํ: Q^{\pi_z}(s, a) = \boldsymbol{F}(s, a, z)^\top z_r
์ฌํ์ต ์์ด ์๋ก์ด ๋ณด์์ ๋ํ ์ต์ ํ๋์ ๋ฐ๋ก ๊ณ์ฐํ ์ ์์ต๋๋ค!
FB-CPR: ๋น์ง๋ ํ์ต์ ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ชฉํ๋ค
์์ํ FB ํ์ต๋ง์ผ๋ก๋ ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ์ถฉ๋ถํ์ง ์์ต๋๋ค. ํ์ต๋ ์ ์ฑ ์ด โ๋ฌผ๋ฆฌ์ ์ผ๋ก๋ ๊ฐ๋ฅํ์ง๋ง ์ธ๊ฐ๋ต์ง ์์โ ๋์์ ์์ฑํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ๋ฅ์์ ์ผ์ด๋๊ธฐ ์ํด ๋นํ์ค์ ์ธ ํ์ ์ ํ๋ ๊ฒ์ฒ๋ผ์.
FB-CPR (Forward-Backward with Conditional Policy Regularization)์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค:
ํต์ฌ ์์ด๋์ด๋ ํ๋ณ์(Discriminator)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ด ์์ฑํ๋ ์ํ ๋ถํฌ๊ฐ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ๋ถํฌ์ ์ ์ฌํ๋๋ก ์ ๋ํ๋ ๊ฒ์ ๋๋ค:
\mathcal{L}_{\text{FB-CPR}}(\pi) = -\mathbb{E}_{z, s, a \sim \pi_z}\left[\boldsymbol{F}(s, a, z)^\top z + \alpha Q(s, a, z)\right]
์ฌ๊ธฐ์ Q(s,a,z)๋ ํ๋ณ์์ ์ถ๋ ฅ์ ๋ณด์์ผ๋ก ์ฌ์ฉํ๋ ๋นํ๊ฐ ๋คํธ์ํฌ์ ๋๋ค:
r_{\text{disc}}(s', z) = \log \frac{D(s', z)}{1 - D(s', z)}
BFM-Zero ์์คํ ์ํคํ ์ฒ
Sim-to-Real์ ์ํ ํต์ฌ ์ค๊ณ
BFM-Zero๊ฐ ์ค์ ๋ก๋ด์์ ์๋ํ๊ธฐ ์ํด์๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ์ฌ์ด์ ๊ฐ๊ทน์ ๋ฉ์์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํ ๋ค ๊ฐ์ง ํต์ฌ ์ค๊ณ ์์๊ฐ ์์ต๋๋ค:
A) ๋น๋์นญ ํ์ต (Asymmetric Training)
์๋ฎฌ๋ ์ด์ ์์๋ ๋ชจ๋ ์ํ ์ ๋ณด๋ฅผ ์ ์ ์์ง๋ง, ์ค์ ๋ก๋ด์์๋ ์ผ์ ๋ ธ์ด์ฆ์ ๋ถ๋ถ ๊ด์ธก ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ ๋น๋์นญ ํ์ต ๊ตฌ์กฐ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ โ
โ ์๋ฎฌ๋ ์ด์
(ํ์ต) ์ค์ ๋ก๋ด (๋ฐฐ์น) โ
โ โโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโ โ
โ โ ํน๊ถ ์ ๋ณด โ โ ๊ด์ธก ํ์คํ ๋ฆฌโ โ
โ โ (full state)โ โ (o_{t-H:t}) โ โ
โ โโโโโโโโฌโโโโโโโ โโโโโโโโฌโโโโโโโ โ
โ โ โ โ
โ โผ โผ โ
โ โโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโ โ
โ โ FB ํํ โโโโโโโโโโโโโบโ ์ ์ฑ
โ โ
โ โ F, B โ ๊ณต์ ํ์ต โ ฯ_z โ โ
โ โโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโ โ
โ โ
โ ํน๊ถ ์ ๋ณด: ์ ์ด๋ ฅ, ์ ํํ ์์ธ, ์ธ๋ถ ํ ๋ฑ โ
โ ๊ด์ธก ํ์คํ ๋ฆฌ: ๊ณผ๊ฑฐ H ์คํ
์ ๊ณ ์ ๊ฐ๊ฐ + ํ๋ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
์ ์ฑ ์ ๊ด์ธก ํ์คํ ๋ฆฌ o_{t-H:t}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ง๋ง, FB ํํ์ ์๋ฎฌ๋ ์ด์ ์ ํน๊ถ ์ ๋ณด s_t๋ก ํ์ต๋ฉ๋๋ค.
B) LSTM ๊ธฐ๋ฐ ํ์คํ ๋ฆฌ ์ธ์ฝ๋ฉ
๋จ์ํ ๊ณผ๊ฑฐ ๊ด์ธก์ ์ฐ๊ฒฐํ๋ ๊ฒ์ด ์๋๋ผ, LSTM์ ์ฌ์ฉํ์ฌ ์๊ฐ์ ์์กด์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํฉ๋๋ค:
h_t = \text{LSTM}(o_t, a_{t-1}, h_{t-1})
์ด ํ๋ ์ํ h_t๊ฐ ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ์ ์ด ์ํ ์ถ์ , ์ธ๋ถ ๊ต๋ ๊ฐ์ง ๋ฑ ์๋ฌต์ ์ํ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
C) ๋๋ฉ์ธ ๋๋คํ (Domain Randomization)
์ค์ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ค์ ํ๋ผ๋ฏธํฐ๋ค์ ๋๋คํํฉ๋๋ค:
| ํ๋ผ๋ฏธํฐ | ๋๋คํ ๋ฒ์ | ๋ชฉ์ |
|---|---|---|
| ๋งํฌ ์ง๋ | ยฑ20% | ๋ฌด๊ฒ ๋ถํฌ ๋ณํ ๋์ |
| ๋ง์ฐฐ ๊ณ์ | 0.2~1.5 | ๋ค์ํ ๋ฐ๋ฅ๋ฉด ๋์ |
| ๊ด์ ์คํ์ | ยฑ0.05 rad | ์บ๋ฆฌ๋ธ๋ ์ด์ ์ค์ฐจ ๋์ |
| ํ ํฌ CoM | ยฑ3 cm | ๋ฌด๊ฒ์ค์ฌ ์ค์ฐจ ๋์ |
| ์ผ์ ๋ ธ์ด์ฆ | ๊ฐ์ฐ์์ | IMU, ์ธ์ฝ๋ ๋ ธ์ด์ฆ |
| ์ธ๋ถ ๊ต๋ | ๋๋ค ํ | ํธ์, ์ถฉ๊ฒฉ ๋์ |
D) ๋ณด์ ์ ๊ทํ
๋ก๋ด ํ๋์จ์ด ๋ณดํธ๋ฅผ ์ํ ๋ณด์กฐ ๋ณด์:
r_{\text{reg}} = -w_1 \|\tau\|^2 - w_2 \mathbf{1}[q \notin \text{safe range}] - w_3 \|\dot{q}\|^2
- ๊ด์ ํ ํฌ ํ๋ํฐ: ๋ชจํฐ ๊ณผ์ด ๋ฐฉ์ง
- ๊ด์ ํ๊ณ ํ๋ํฐ: ํ๋์จ์ด ์์ ๋ฐฉ์ง
- ๊ด์ ์๋ ํ๋ํฐ: ๋ถ๋๋ฌ์ด ๋์ ์ ๋
๋คํธ์ํฌ ์ํคํ ์ฒ
flowchart LR
subgraph ์
๋ ฅ
obs["๊ด์ธก ํ์คํ ๋ฆฌ<br/>o_{t-H:t}"]
priv["ํน๊ถ ์ํ<br/>s_t"]
z["์ ์ฌ ๋ฒกํฐ<br/>z โ โ^256"]
end
subgraph ์ธ์ฝ๋
lstm["LSTM<br/>(512 hidden)"]
mlp_enc["MLP ์ธ์ฝ๋<br/>(ํน๊ถ ์ ๋ณด)"]
end
subgraph FB["FB ํํ"]
F["Forward F<br/>MLP (2048ร4)"]
B["Backward B<br/>MLP (2048ร4)"]
end
subgraph ์ถ๋ ฅ
policy["์ ์ฑ
ฯ_z<br/>MLP (2048ร4)"]
action["ํ๋ a"]
end
obs --> lstm
priv --> mlp_enc
z --> F
z --> policy
lstm --> policy
mlp_enc --> F
mlp_enc --> B
policy --> action
style FB fill:#e1f5fe
style ์ถ๋ ฅ fill:#fff3e0
๋ชจ๋ MLP๋ Residual Block ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, LayerNorm + Mish ํ์ฑํ ํจ์๋ฅผ ์ ์ฉํฉ๋๋ค.


Zero-shot ์ถ๋ก : ์ธ ๊ฐ์ง ์์ , ํ๋์ ์ ์ฑ
BFM-Zero์ ์ง์ ํ ํ์ ์ถ๋ก ์์ ์ ๋๋ฌ๋ฉ๋๋ค. ๋์ผํ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก ์ธ ๊ฐ์ง ์์ ํ ๋ค๋ฅธ ์์ ์ ์ํํ ์ ์์ต๋๋ค:
1. Goal Reaching (๋ชฉํ ์์ธ ๋๋ฌ)
์
๋ ฅ: ๋ชฉํ ์์ธ s_g
์ ์ฌ ๋ฒกํฐ ๊ณ์ฐ: z = \boldsymbol{B}(s_g)
์ด๊ฒ์ด ์๋ฏธํ๋ ๋ฐ๋ ์ง๊ด์ ์ ๋๋ค. โ๋ชฉํ ์ํ์ Backward ์๋ฒ ๋ฉ์ด ๊ณง ๊ทธ ์ํ์ ๋๋ฌํ๊ธฐ ์ํ ํ์คํฌ ํํ์ด๋ค.โ
์์: ๋ฐ๋ฅ์์ T-ํฌ์ฆ๋ก ์ผ์ด์๊ธฐ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ 1. ๋ชฉํ ์์ธ s_g (T-ํฌ์ฆ) ์ ์ โ
โ 2. z = B(s_g) ๊ณ์ฐ โ
โ 3. ์ ์ฑ
ฯ_z ์คํ โ
โ 4. ๋ก๋ด์ด ์์ฐ์ค๋ฝ๊ฒ ์ผ์ด๋์ T-ํฌ์ฆ ๋๋ฌ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
2. Motion Tracking (๋ชจ์ ์ถ์ )
์
๋ ฅ: ์ฐธ์กฐ ๋ชจ์
์ํ์ค \{s_1, s_2, ..., s_T\}
์ ์ฌ ๋ฒกํฐ ๊ณ์ฐ (์๊ฐ t์์): z_t = \sum_{n=0}^{N} \lambda^n \boldsymbol{B}(s_{t+n})
์ฌ๊ธฐ์ N์ ๋ฏธ๋ฆฌ๋ณด๊ธฐ ์๋์ฐ ํฌ๊ธฐ, \lambda๋ ํ ์ธ ๊ณ์์ ๋๋ค.
์ด ๊ณต์์ ์ง๊ด: ๋ฏธ๋์ ์ฐธ์กฐ ํ๋ ์๋ค์ ํ ์ธ๋ ๊ฐ์ค์น๋ก ํฉ์ฐํ์ฌ, ๋น์ฅ์ ๋ค์ ํ๋ ์๋ฟ ์๋๋ผ ์์ผ๋ก์ ๊ถค์ ์ ์ฒด๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
3. Reward Optimization (๋ณด์ ์ต์ ํ)
์
๋ ฅ: ๋ณด์ ํจ์ r(s)
์ ์ฌ ๋ฒกํฐ ๊ณ์ฐ: z = \sum_{i} \boldsymbol{B}(s_i) \cdot r(s_i)
์ฌ๊ธฐ์ s_i๋ ๋ฆฌํ๋ ์ด ๋ฒํผ์ ์ํ๋ค์ ๋๋ค.
์ด๊ฒ์ด ๊ฐ์ฅ ๋๋ผ์ด ๋ถ๋ถ์ ๋๋ค. ํ์ต ์ ๋ณธ ์ ์๋ ๋ณด์ ํจ์์ ๋ํด์๋ ์ต์ ํ๊ฐ ๊ฐ๋ฅํฉ๋๋ค!
# ์์: "๋จธ๋ฆฌ ๋์ด 1.2m ์ ์งํ๋ฉด์ 0.7m/s๋ก ์ ์ง" ๋ณด์
def reward_function(s):
head_height_reward = -abs(s.head_height - 1.2)
velocity_reward = -abs(s.base_vel_forward - 0.7)
return head_height_reward + velocity_reward
# ๋ฆฌํ๋ ์ด ๋ฒํผ์์ z ๊ณ์ฐ
z = sum(B(s_i) * reward_function(s_i) for s_i in replay_buffer)
z = z / len(replay_buffer) # ์ ๊ทํ
# ์ด z๋ก ์ ์ฑ
์คํ โ ๋ก๋ด์ด ํด๋น ํ๋ ์ํ์ถ๋ก ๋ฐฉ๋ฒ ๋น๊ต
| ์์ ์ ํ | ์ ์ฌ ๋ฒกํฐ ๊ณ์ฐ | ์ค์๊ฐ ๊ฐ๋ฅ | ์ฃผ์ ์์ฉ |
|---|---|---|---|
| Goal Reaching | z = B(s_g) | โ ์ฆ์ | ์์ธ ์ ํ, ํ๋ณต |
| Motion Tracking | z_t = \sum \lambda^n B(s_{t+n}) | โ ์คํธ๋ฆฌ๋ฐ | ์ถค, ๊ฑท๊ธฐ, ์ ์ค์ฒ |
| Reward Optimization | z = \sum B(s_i) r(s_i) | โ ๏ธ ๋ฒํผ ํ์ | ์ด๋, ์กฐ์ |
์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
์๋ฎฌ๋ ์ด์ ์คํ
์คํ ์ค์
- ํ๊ฒฝ: IsaacGym ์๋ฎฌ๋ ์ดํฐ
- ๋ก๋ด: Unitree G1 (23 DoF, 12 ์ ์ด ๊ด์ )
- ๋ชจ์ ๋ฐ์ดํฐ: AMASS ๋ฐ์ดํฐ์ (CMU subset, 175๊ฐ ๋ชจ์ )
- ํ์ต: 30M gradient steps (300M ํ๊ฒฝ ์คํ )
์ฃผ์ ๊ฒฐ๊ณผ
Ablation Study ๊ฒฐ๊ณผ (Table 1 ๊ธฐ์ค):
| ๊ตฌ์ฑ ์์ | Tracking | Goal | Reward | ํ๊ท |
|---|---|---|---|---|
| BFM-Zero (Full) | 0.847 | 0.763 | 0.621 | 0.744 |
| - ๋น๋์นญ ํ์ต | 0.712 | 0.689 | 0.534 | 0.645 |
| - ๋๋ฉ์ธ ๋๋คํ | 0.823 | 0.742 | 0.498 | 0.688 |
| - LSTM ํ์คํ ๋ฆฌ | 0.756 | 0.701 | 0.567 | 0.675 |
| - ๋ณด์ ์ ๊ทํ | ๋ถ์์ | ๋ถ์์ | ๋ถ์์ | - |
ํต์ฌ ๋ฐ๊ฒฌ:
- ๋ณด์ ์ ๊ทํ๋ ํ์: ์์ผ๋ฉด ํ์ต์ด ๋ถ์์ ํด์ง๊ณ ํ๋์จ์ด ์์ ์ํ
- ๋น๋์นญ ํ์ต์ด ๊ฐ์ฅ ์ค์: 10% ์ด์์ ์ฑ๋ฅ ํฅ์ ๊ธฐ์ฌ
- ๋๋ฉ์ธ ๋๋คํ๋ Reward ์์ ์ ํนํ ์ค์: ํฌ์ ๋ณด์์ ๋ํ ์ผ๋ฐํ
BFM-Zero vs BFM-Zero-priv
โํน๊ถ ์ ๋ณด๋ฅผ ์ง์ ์ฌ์ฉํ๋โ ์ด์์ ๋ชจ๋ธ(BFM-Zero-priv)๊ณผ ๋น๊ตํ์ ๋, BFM-Zero๋ ํ๊ท ์ ์ผ๋ก 10.65% ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ถ๋ถ ๊ด์ธก์์ ์ค๋ ๋ถ๊ฐํผํ ์ฑ๋ฅ ์ ํ์ด์ง๋ง, ์ค์ ๋ฐฐ์น ๊ฐ๋ฅ์ฑ๊ณผ์ ํธ๋ ์ด๋์คํ์ ๋๋ค.
์ค์ ๋ก๋ด ์คํ (Unitree G1)
๋ฐ๋ชจ ํ์ด๋ผ์ดํธ
1. Goal Reaching โ ๋ฐ๋ฅ์์ ์ผ์ด์๊ธฐ
์๋๋ฆฌ์ค: ๋ค์ํ ์ด๊ธฐ ์์ธ์์ T-ํฌ์ฆ ๋๋ ์-ํ๋ฆฌ ์์ธ๋ก ์ ํ
๊ฒฐ๊ณผ:
- ์์ฐ์ค๋ฌ์ด ์ ํ ๊ถค์ ์์ฑ
- ๋ถ์์ ํ ๊ฒฝ์ฐ ๋น ๋ฅธ ์์ ํ
- ์ฒซ ์๋ ์คํจ ํ์๋ ์ฑ๊ณต์ ํ๋ณต
- ์ฌํ ์๋ชฉ ํ์ ์ํฉ์์๋ ๊ฐ๊ฑดํจ
2. Motion Tracking โ ์ถค๊ณผ ๋ณตํฉ ๋์
ํ
์คํธ ๋ชจ์
: ๊ฑท๊ธฐ, ํ์ , ๊ณต ๋์ง๊ธฐ, ๋ณต์ฑ, ์ถค
๊ฒฐ๊ณผ:
- ์คํ์ผํ๋ ๋ณดํ (๊ฒฝ๋กํ๋ฉฐ ๊ฑท๊ธฐ)
- ๋์ด์ง ํ ์์ฐ์ค๋ฌ์ด ํ๋ณต
- ์ค์๊ฐ ๋ชจ์
์ถ์ (๋จ์ผ ์ ์ฑ
์ผ๋ก)
3. Reward Optimization โ ์ด๋ ๋ฐ ํ ์ ์ด
๋ค์ํ ๋ณด์ ํจ์์ ๋ํ Zero-shot ์ฑ๋ฅ:
| ๋ณด์ ํจ์ | ์์ | ๊ฒฐ๊ณผ |
|---|---|---|
| ์์๊ธฐ | R = (h_{head}=1.2m) \land (v_{base}=0) | โ ์์ ์ |
| ์ ์ง | R = (h_{head}=1.2m) \land (v_{fwd}=0.7m/s) | โ ์์ฐ์ค๋ฌ์ด ๋ณดํ |
| ์ธก๋ฉด ์ด๋ | R = (h_{head}=1.2m) \land (v_{left}=0.3m/s) | โ ๊ฐ๋ฅ |
| ํ์ | R = (h_{base}>0.5m) \land (\omega_z=5.0rad/s) | โ ๊ฐ๋ฅ |
| ํ ๋ค๊ธฐ | R = (h_{wrist}>1.0m) | โ ๋ค์ํ ์์ธ ์์ฑ |
4. ์ธ๋ ํ๋ณต
ํ
์คํธ: ๊ฐํ ๋ฐ๊ธฐ, ํ ํฌ ์ฐจ๊ธฐ, ๋ฐ๋ฅ์ผ๋ก ๋น๊ธฐ๊ธฐ, ๋ค๋ฆฌ ์ฐจ๊ธฐ
๊ฒฐ๊ณผ:
- ์์ฐ์ค๋ฌ์ด ํ๋ณต ๋์ (๊ณํ๋์ง ์์ ์ฐฝ๋ฐ์ ํ๋)
- ๊ฐํ ๋ฐ๊ธฐ โ ๋ฌ๋ฆฌ๊ธฐ๋ก ํ๋ณต (emergent behavior!)
5. Few-shot ์ ์
์๋๋ฆฌ์ค: 4kg ํ์ด๋ก๋๋ฅผ ํ ํฌ์ ์ฅ์ฐฉํ๊ณ ํ ๋ฐ ์๊ธฐ
๋ฐฉ๋ฒ: ์๋ฎฌ๋ ์ด์
์์ 2๋ถ ๋ฏธ๋ง์ ์ ์ฌ ๊ณต๊ฐ ๊ฒ์
๊ฒฐ๊ณผ: Zero-shot ๋๋น ํ์ ํ ๊ฐ์ ๋ ๊ท ํ ์ ์ง
์ ์ฌ ๊ณต๊ฐ์ ๊ตฌ์กฐ์ ํน์ฑ
FB ํ์ต์ ๋ถ์ฐ๋ฌผ๋ก ์ป์ด์ง๋ ๋ถ๋๋ฌ์ด ์ ์ฌ ๊ณต๊ฐ์ ์๋ฏธ ์๋ ๋ณด๊ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค:
Spherical Linear Interpolation (SLERP): z_t = \frac{\sin((1-t)\theta)}{\sin\theta}z_0 + \frac{\sin(t\theta)}{\sin\theta}z_1
์ฌ๊ธฐ์ \theta = \arccos(\langle z_0, z_1 \rangle)
์คํ ๊ฒฐ๊ณผ: - z_0: ์ผ์ชฝ ์ด๋, z_1: ์ค๋ฅธ์ชฝ ์ด๋ โ ์ค๊ฐ๊ฐ์์ ์ ์ง - z_0: ํ ๋ด๋ฆฌ๊ธฐ, z_1: ํ ๋ค๊ธฐ โ ์ ์ง์ ์ ํ
์ด๋ ์ ์ฌ ๊ณต๊ฐ์ด ์๋ฏธ๋ก ์ ์ผ๋ก ๊ตฌ์กฐํ๋์ด ์์์ ๋ณด์ฌ์ค๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
BFM ์ฐ๊ตฌ ๊ณ๋ณด
timeline
title Behavioral Foundation Model ์ฐ๊ตฌ ๋ฐ์
section ์ด๊ธฐ ์ฐ๊ตฌ
2021 : FB ํํ ํ์ต (Touati & Ollivier)
: "Zero-shot RL via FB representations"
section ์๋ฎฌ๋ ์ด์
ํด๋จธ๋
ธ์ด๋
2024.04 : ASE (Adversarial Skill Embeddings)
: ์๋ฎฌ๋ ์ด์
์บ๋ฆญํฐ ์ ์ด
2024.12 : Meta Motivo (FB-CPR)
: SMPL ํด๋จธ๋
ธ์ด๋, ์ต์ด BFM
section ์ค์ ๋ก๋ด
2025.04 : H-HOVER, UniTracker
: 2๋จ๊ณ ํ์ต ๊ธฐ๋ฐ
2025.11 : BFM-Zero
: ์ต์ด์ ๋น์ง๋ RL ๊ธฐ๋ฐ ์ค๋ก๋ด BFM
์ฃผ์ ๋น๊ต ๋์
vs Meta Motivo (FB-CPR)
| ํญ๋ชฉ | Meta Motivo | BFM-Zero |
|---|---|---|
| ํ๊ฒฝ | SMPL ์๋ฎฌ๋ ์ด์ | Unitree G1 ์ค๋ก๋ด |
| ์๊ณ ๋ฆฌ์ฆ | FB-CPR | FB-CPR + Sim2Real |
| Sim-to-Real | โ | โ |
| ๋๋ฉ์ธ ๋๋คํ | โ | โ |
| ๋น๋์นญ ํ์ต | โ | โ |
| ํ์คํ ๋ฆฌ ์ธ์ฝ๋ฉ | MLP | LSTM |
BFM-Zero๋ Meta Motivo์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ(FB-CPR)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋, ์ค์ ๋ก๋ด ๋ฐฐ์น๋ฅผ ์ํ ๋ชจ๋ ํ์ ์์๋ฅผ ์ถ๊ฐํ์ต๋๋ค.
vs H-HOVER / UniTracker / GMT
์ด๋ค์ 2๋จ๊ณ ํ์ต ํจ๋ฌ๋ค์์ ๋ฐ๋ฆ ๋๋ค:
- Stage 1: ๋ชจ์ ํธ๋ํน ์ ์ฑ ํ์ต (PPO, on-policy)
- Stage 2: VAE/Distillation์ผ๋ก ๋ค์ค ์คํฌ ํตํฉ
| ํญ๋ชฉ | 2๋จ๊ณ ์ ๊ทผ๋ฒ | BFM-Zero |
|---|---|---|
| ํ์ต ๋จ๊ณ | 2๋จ๊ณ | 1๋จ๊ณ |
| ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ | PPO (on-policy) | FB-CPR (off-policy) |
| ๋ชจ์ ๋ฐ์ดํฐ ์์กด์ฑ | ๋์ (ํ์ง ๋ฏผ๊ฐ) | ๋ฎ์ (์ ๊ทํ๋ง) |
| Zero-shot ๋ฅ๋ ฅ | ์ ํ์ | ์ธ ๊ฐ์ง ์์ ๋ชจ๋ |
| ์ค์ผ์ผ๋ง | ์ด๋ ค์ | ์ฉ์ด |
BFM-Zero์ 1๋จ๊ณ off-policy ํ์ต์ ๋ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํ์ฉ๊ณผ ์ ์ฐํ ์ค์ผ์ผ๋ง์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
vs ASAP (He et al., 2025)
ASAP์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ทจํฉ๋๋ค: 1. ์๋ฎฌ๋ ์ด์ ์์ ๋ชจ์ ํธ๋ํน ์ ์ฑ ํ์ต 2. ์ค๋ก๋ด์์ ๋ฐ์ดํฐ ์์ง 3. ๋ธํ(์์ฐจ) ์ก์ ๋ชจ๋ธ ํ์ต
BFM-Zero๋ ์ค๋ก๋ด ๋ฐ์ดํฐ ์์ง ์์ด Sim-to-Real ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค๋ ์ ์์ ๋ ์ค์ฉ์ ์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ํจ๋ฌ๋ค์ ์ ํ
๊ธฐ์กด์ โ์์ ๋ณ ํ์ต โ ์ฆ๋ฅโ์์ โํตํฉ ๋น์ง๋ ํ์ตโ์ผ๋ก์ ์ ํ์ ํด๋จธ๋ ธ์ด๋ ์ ์ด ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ํนํ off-policy ์๊ณ ๋ฆฌ์ฆ์ ์ค๋ก๋ด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ์ ์ฆํ์ต๋๋ค.
2. ์ค๋ช ๊ฐ๋ฅํ ์ ์ฌ ๊ณต๊ฐ
FB ํํ์ ์ํ์ ๊ตฌ์กฐ ๋๋ถ์, ์ ์ฌ ๋ฒกํฐ z๊ฐ ๋ฌด์์ ์๋ฏธํ๋์ง ํด์ ๊ฐ๋ฅํฉ๋๋ค: - z = B(s_g): ๋ชฉํ ์ํ์ ํน์ฑ - z = \sum r(s_i) B(s_i): ๋ณด์ ๊ฐ์ค ๋ฏธ๋ ์ํ ๋ถํฌ
์ด๋ ๋ธ๋๋ฐ์ค ์ ๊ฒฝ๋ง์ ๋นํด ํฐ ์ฅ์ ์ ๋๋ค.
3. ์ค์ฉ์ ์์ง๋์ด๋ง
๋๋ฉ์ธ ๋๋คํ, ๋น๋์นญ ํ์ต, LSTM ํ์คํ ๋ฆฌ ๋ฑ ์ค์ ๋ฐฐ์น์ ํ์ํ ๋ชจ๋ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃน๋๋ค. Ablation study๋ ์ถฉ์คํ ์ ๊ณต๋ฉ๋๋ค.
4. ์ฌํ ๊ฐ๋ฅ์ฑ
์ฝ๋, ์ฒดํฌํฌ์ธํธ, ์์ธํ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๊ณต๊ฐ๋ ์์ ์ ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ
1. ๋ณด์ ์ถ๋ก ์ ๋ถ์์ ์ฑ
๋ ผ๋ฌธ์์๋ ์ธ๊ธ๋๋ฏ, ๋ณด์ ์ต์ ํ ์์ ์ด ๊ฐ์ฅ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค (10.65% ํ๋ฝ ์ค ๊ฐ์ฅ ํฐ ์ํฅ). ์ด๋ ๋๋ฉ์ธ ๋๋คํ๋ ๋ฐ์ดํฐ์์์ ๋ณด์ ์ถ๋ก ์ด ๋ณธ์ง์ ์ผ๋ก ๋ถ์์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ฌธ์ ์ํฉ:
- ๋ฆฌํ๋ ์ด ๋ฒํผ์ ์ํ ๋ถํฌ๊ฐ ๋ค์ํจ (DR๋ก ์ธํด)
- ๋ณด์ ์ถ๋ก : z = ฮฃ B(s_i) r(s_i)
- ์๋ธ์ํ๋ง์ ๋ฐ๋ผ z์ ๋ถ์ฐ์ด ํผ
- ๊ฒฐ๊ณผ: ๊ฐ์ ๋ณด์ ํจ์์์๋ ๋ค๋ฅธ ํ๋ ์์ฑ ๊ฐ๋ฅ
2. ํฌ์ ๋ณด์์ ์ทจ์ฝ
๋ ผ๋ฌธ์ ๋ณด์ ํจ์๋ค์ ๋๋ถ๋ถ ์ฐ์์ ์ด๊ณ ๋ฐ์ง๋ ํํ์ ๋๋ค. ์ด์ง ๋ณด์(์ฑ๊ณต/์คํจ)์ด๋ ๋งค์ฐ ํฌ์ํ ๋ณด์์ ๋ํ ์ฑ๋ฅ์ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
3. ๋ชจ์ ๋ฐ์ดํฐ ๋ฒ์ ์ ์ฝ
FB-CPR์ ํ๊ณ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ง๋๋ค: - ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ์๋ ๋์ (์: ๊ตฌ๋ฅด๊ธฐ, ๋ฌผ๊ตฌ๋๋ฌด)์ ์์ฑ ์ด๋ ค์ - ๋ฐ๋ฅ ๋์(ground movements)์ ๋ํ ์ฑ๋ฅ ์ ํ ์ธ๊ธ๋จ
4. ๊ฐ์ฒด ์ํธ์์ฉ ๋ฏธ์ง์
ํ์ฌ ์์คํ ์ ๊ณ ์ ๊ฐ๊ฐ(proprioception)๋ง ์ฌ์ฉํฉ๋๋ค. ๋ฌผ์ฒด ์กฐ์, ํ๊ฒฝ ํ์ ๋ฑ ์ธ๋ถ ์ง๊ฐ์ด ํ์ํ ์์ ์ ๋ฒ์ ๋ฐ์ ๋๋ค.
5. ๊ณ์ฐ ๋น์ฉ
30M gradient steps (300M ํ๊ฒฝ ์คํ )๋ ์๋นํ ๊ณ์ฐ ์์์ ์๊ตฌํฉ๋๋ค. ๋ ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ธ ํ์ต ์๊ฐ์ด๋ GPU ์๊ตฌ์ฌํญ์ด ๋ช ์๋์ง ์์์ต๋๋ค.
์ด๋ฆฐ ์ง๋ฌธ๋ค
- ์ค์ผ์ผ๋ง ๋ฒ์น: ๋ ํฐ ๋ชจ์ ๋ฐ์ดํฐ์ , ๋ ํฐ ๋ชจ๋ธ์ด ์ฑ๋ฅ์ ์ด๋ป๊ฒ ๊ฐ์ ํ ๊น?
- ๋ค์ค ๋ก๋ด ์ผ๋ฐํ: G1 ์ธ์ ๋ค๋ฅธ ํด๋จธ๋ ธ์ด๋์ ์ ์ด ๊ฐ๋ฅํ๊ฐ?
- ์๊ฐ ์ ๋ณด ํตํฉ: ์นด๋ฉ๋ผ ์ ๋ ฅ์ ์ด๋ป๊ฒ ์ถ๊ฐํ ์ ์์๊น?
- ์ธ์ด ํ๋กฌํํ : Text-to-Motion ๋ชจ๋ธ๊ณผ ์ฐ๋ํ์ฌ ์ธ์ด ๋ช ๋ น์ผ๋ก ์ ์ด ๊ฐ๋ฅํ๊ฐ?
๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
๋จ๊ธฐ (1-2๋ )
1. ์๊ฐ-๊ณ ์ ๊ฐ๊ฐ ์ตํฉ
์ ์:
- ๋น์ ์ธ์ฝ๋ (์: CLIP, DINOv2) ์ถ๊ฐ
- ์ํ ํํ s = [proprioception, visual_features]
- Backward ์๋ฒ ๋ฉ B(s)๊ฐ ์๊ฐ ์ ๋ณด๋ ์ธ์ฝ๋ฉ
2. ๊ณ์ธต์ ์ ์ด
ํ์ฌ BFM-Zero๋ ์ ์์ค ์ ์ด๋ง ๋ด๋นํฉ๋๋ค. ๊ณ ์์ค ํ์คํฌ ํ๋๋๊ณผ์ ํตํฉ:
High-level: LLM/VLM โ ์๋ธ๊ณจ ์ํ์ค
Mid-level: BFM-Zero โ z ์ํ์ค ์์ฑ
Low-level: ์ ์ฑ
ฯ_z โ ๊ด์ ํ ํฌ
3. ์จ๋ผ์ธ ์ ์ ๊ฐ์
Few-shot ์ ์์ ๋์ด์: - ์ค์๊ฐ ํ๋ผ๋ฏธํฐ ์ถ์ - ์ปจํ ์คํธ ์กฐ๊ฑด๋ถ ์ ์ฑ (Transformer ๊ธฐ๋ฐ)
์ฅ๊ธฐ (3-5๋ )
1. ๋๊ท๋ชจ ํ๋ ๋ฐ์ดํฐ ํ์ต
YouTube ๋์์, ์ธํฐ๋ท์ ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ค์ผ์ผ์ : - Video-to-3D Motion ์ถ์ - ์ฝํ ๊ฐ๋ ํ์ FB ํ์ต
2. ๋ค์ค ๋ก๋ด ๊ธฐ๋ฐ ๋ชจ๋ธ
ํ๋์ BFM์ผ๋ก ๋ค์ํ ํํ์ ๋ก๋ด ์ ์ด: - ํํ ์กฐ๊ฑด๋ถ ์ ์ฑ - Cross-embodiment ์ ์ด
3. World Model ํตํฉ
FB ํํ๊ณผ ์ธ๊ณ ๋ชจ๋ธ์ ๊ฒฐํฉ: - ๋ฏธ๋ ์ํ ์์ธก + ์ฅ๊ธฐ ๊ณํ - Model-based RL๊ณผ์ ํ์ด๋ธ๋ฆฌ๋
์ค๋ฌด์๋ฅผ ์ํ ์์ฌ์
์ธ์ BFM-Zero ์ ๊ทผ๋ฒ์ ๊ณ ๋ คํด์ผ ํ๋?
โ ์ ํฉํ ๊ฒฝ์ฐ: - ๋ค์ํ ์ ์ ๋์์ด ํ์ํ ํด๋จธ๋ ธ์ด๋ ์ ์ด - ์๋ก์ด ์์ ์ ๋ํ ๋น ๋ฅธ ์ ์์ด ์ค์ํ ๊ฒฝ์ฐ - ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ ์์ง๋ง ์์ ๋ณ ๋ณด์ ์ค๊ณ๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ - Off-policy ํ์ต์ ์ํ ํจ์จ์ฑ์ด ํ์ํ ๊ฒฝ์ฐ
โ ๋ถ์ ํฉํ ๊ฒฝ์ฐ: - ๊ฐ์ฒด ์กฐ์์ด ์ฃผ๋ ์์ ์ธ ๊ฒฝ์ฐ - ๊ทน๋๋ก ์ ๋ฐํ ๋์์ด ํ์ํ ๊ฒฝ์ฐ - ๋ชจ์ ๋ฐ์ดํฐ ํ๋ณด๊ฐ ์ด๋ ค์ด ๊ฒฝ์ฐ - ๋งค์ฐ ํฌ์ํ ๋ณด์ ์ ํธ๋ง ์๋ ๊ฒฝ์ฐ
๊ตฌํ ์ฒดํฌ๋ฆฌ์คํธ
BFM-Zero ์คํ์ผ์ ์์คํ ์ ๊ตฌ์ถํ ๋:
โก ์๋ฎฌ๋ ์ดํฐ ์ ํ (IsaacGym, MuJoCo ๋ฑ)
โก ๋ก๋ด URDF/MJCF ๋ชจ๋ธ ์ค๋น
โก ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ ํ๋ณด ๋ฐ ๋ฆฌํ๊ฒํ
โก FB ๋คํธ์ํฌ ์ํคํ
์ฒ ๊ตฌํ
- Forward: MLP with residual blocks
- Backward: MLP with residual blocks
- Policy: LSTM + MLP
โก ๋๋ฉ์ธ ๋๋คํ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋๋คํ
- ์ผ์ ๋
ธ์ด์ฆ ๋ชจ๋ธ๋ง
- ์ธ๋ถ ๊ต๋ ์๋ฎฌ๋ ์ด์
โก ๋น๋์นญ ํ์ต ์ค์
- ํน๊ถ ์ ๋ณด ์ ์
- ๊ด์ธก ํ์คํ ๋ฆฌ ๋ฒํผ
โก ๋ณด์ ์ ๊ทํ ํญ ์ค๊ณ
โก ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋
โก Sim-to-Real ๊ฒ์ฆ
๊ฒฐ๋ก
BFM-Zero๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด ๋ถ์ผ์์ ์ค์ํ ์ด์ ํ๋ฅผ ์ธ์๋๋ค. Off-policy ๋น์ง๋ ๊ฐํํ์ต์ ์ค์ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํจ์ผ๋ก์จ, โ์ฌํ์ต ์๋ ๋ค์ค ์์ ์ํโ์ด๋ผ๋ BFM์ ์ฝ์์ ํ์ค๋ก ๊ฐ์ ธ์์ต๋๋ค.
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์์ฝํ๋ฉด:
- ์ต์ด์ ์ค๋ก๋ด BFM: ์๋ฎฌ๋ ์ด์ ์ ๋์ด Unitree G1์์ ๊ฒ์ฆ
- ํตํฉ Zero-shot ์ถ๋ก : Motion Tracking, Goal Reaching, Reward Optimization์ ๋จ์ผ ์ ์ฑ ์ผ๋ก
- ์ฒด๊ณ์ ์ธ Sim-to-Real: ๋น๋์นญ ํ์ต, ๋๋ฉ์ธ ๋๋คํ, LSTM ํ์คํ ๋ฆฌ์ ์กฐํฉ
- ์ฌํ ๊ฐ๋ฅํ ์ฐ๊ตฌ: ์ฝ๋์ ์ฒดํฌํฌ์ธํธ ๊ณต๊ฐ ์์
๋ฌผ๋ก ํ๊ณ๋ ์์ต๋๋ค. ๋ณด์ ์ถ๋ก ์ ๋ถ์์ ์ฑ, ๋ชจ์ ๋ฐ์ดํฐ ๋ฒ์ ์ ์ฝ, ๊ฐ์ฒด ์ํธ์์ฉ ๋ฏธ์ง์ ๋ฑ์ ํฅํ ์ฐ๊ตฌ์์ ๋ค๋ค์ ธ์ผ ํ ๊ณผ์ ์ ๋๋ค.
ํ์ง๋ง ์ด ์ฐ๊ตฌ๊ฐ ์ ์ํ๋ ๋ฐฉํฅ์ฑ์ ๋ช ํํฉ๋๋ค: ํ๋์ ์ ํ์ต๋ ํํ์ด ์๋ง์ ์์ ์ ํตํฉํ ์ ์๋ค๋ ๊ฒ. ๋ง์น ์ธ์ด ๋ชจ๋ธ์ด ๋ค์ํ NLP ์์ ์ ํตํฉํ๋ฏ์ด, ํ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ ๋ก๋ด ์ ์ด์ ๋ค์ํ ์์ ์ ํตํฉํ ์ ์์ต๋๋ค.
๋ก๋ด๊ณตํ์ ๋ฏธ๋๋ ๋ ์ด์ โ๊ฐ ์์ ๋ง๋ค ์ฒ์๋ถํฐ ํ์ตโ์ด ์๋ ๊ฒ์ ๋๋ค. BFM-Zero๋ ๊ทธ ๋ฏธ๋๋ฅผ ํฅํ ์ค์ํ ์ฒซ๊ฑธ์์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Li, Y., et al. (2025). BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning. arXiv:2511.04131.
- Tirinzoni, A., et al. (2025). Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models. arXiv:2504.11054 (Meta Motivo).
- Touati, A. & Ollivier, Y. (2021). Learning One Representation to Optimize All Rewards. NeurIPS.
- He, T., et al. (2024). H-HOVER: Learning Humanoid Locomotion with Hybrid Depth from Videos.
- Zeng, J., et al. (2025). Behavior Foundation Model for Humanoid Control.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
โ์ด์ PPO๋ก ๊ฑท๊ธฐ ํ๋ ๊ฒจ์ฐ ๋ฐฐ์ฐ๋ ์๋์์, ํ ๋ฒ ํ์ตํ ํ๋ ๊ณต๊ฐ(latent space)์ โํ๋กฌํํธโ๋ก ๋๋ค๊ฒจ์ ์ํ๋ ์ ์ ํ๋์ ๊บผ๋ด ์ฐ๋ ์๋๋ก ๋์ด๊ฐ๋ ค๋ ์๋.โ
1. ์๋ก : BFM-Zero๊ฐ ํ๊ณ ์ถ์ ๋ฌธ์
1.1 ๋ฌธ์ ๋ฐฐ๊ฒฝ โ โ์ ์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธโ์ด ์ ์ด๋ ค์ด๊ฐ?
์ต๊ทผ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด ํ๋ฆ์ ์์ฝํ๋ฉด ๋๋ต ์ด๋ ์ต๋๋ค:
- ์๋ฎฌ๋ ์ดํฐ(MuJoCo/IsaacGym ๋ฑ)์์ โ PPO ๊ธฐ๋ฐ ์ ์ ์ ์ฑ ์ ๋ชจ์ ํธ๋ํน/ํน์ ๋ณด์์ผ๋ก ํ์ตํ๊ณ โ ๋๋ฉ์ธ ๋๋ค๋ผ์ด์ ์ด์ ์ผ๋ก ํ๋ํ ๋ค โ Sim2Real๋ก ๋ณด๋ด๋ ์ ํ์ ์ธ ํ์ดํ๋ผ์ธ. ์ด ์ ๊ทผ์ ์ด๋ฏธ ๊ฑท๊ธฐยท๋ฌ๋ฆฌ๊ธฐยท๊ธฐ์(get-up)ยท๊ฐ๋จ ์์ ์ ๋๋ ๊ฝค ์ ํฉ๋๋ค. ํ์ง๋ง:
ํ์คํฌ ํนํ:
- ๊ฑท๊ธฐ ์ ์ฑ ์ ๊ฑท๊ธฐ๋ง, ๋ชจ์ ํธ๋ํน ์ ์ฑ ์ ํด๋น ๋ชจ์ ๋ง.
- ์๋ก์ด ๋ชฉํ(์: ํน์ ์ ํฌ์ฆ, โํ ๋ค๊ณ ๋ค๋ก ๊ฑท๊ธฐโ ๋ฑ)๋ฅผ ์ํด์ ์๋ก์ด PPO ํ์ต์ด ํ์.
๋นํ๋กฌํํธ์ฑ(non-promptable):
- โ์ด์ ๋ถํฐ ์ด๋ฐ ๋ณด์์ ์ต์ ํ ํด์คโ ๋๋ โ์ด ๋ชจ์ ์ ๋์ถฉ ๋ฐ๋ผ๊ฐ์คโ ๊ฐ์ ์ง์๋ฅผ ํ๋์ ํตํฉ ์ ์ฑ ์ ํ๋กฌํํธ๋ก ๋์ง๋ ์ธํฐํ์ด์ค๊ฐ ๊ฑฐ์ ์์.
์ ์ฑ ์ฌํ์ฉ ์ด๋ ค์:
- ์ด๋ฏธ ํ์ต๋ ๋ค์ํ ์ ์ฑ ๋ค์ ํ๋์ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(Behavioral Foundation Model, BFM)๋ก ํตํฉํ๊ธฐ ์ํ ๊ตฌ์กฐํ๋ latent space ์ค๊ณ๊ฐ ๋ถ์กฑ.
์ฆ, โ์ ์ ํ๋์ ์ํ GPT ๊ฐ์ ๊ฒโ์ด ํ์ํ์ง๋ง, ์ง๊ธ๊น์ง๋ ๋๋ถ๋ถ on-policy RL + ํ์คํฌ๋ณ ํ์ต์ ์กฐํฉ์ ๋จธ๋ฌผ๋ ์ต๋๋ค. โ
1.2 BFM-Zero์ ํต์ฌ ์์ด๋์ด ํ ์ค ์์ฝ
โ๋ชจ์ , ๋ชฉํ, ๋ณด์โ์ ๋ชจ๋ ํ๋์ latent ๊ณต๊ฐ์ ์๋ฒ ๋ฉํ๊ณ , ๊ทธ latent๋ฅผ ํ๋กฌํํธ์ฒ๋ผ ์ฃผ๋ฉด ํ ๊ฐ์ ์ ์ฑ ์ด**
- ๋ชจ์ ํธ๋ํน
- ๋ชฉํ ํฌ์ฆ ๋๋ฌ
- ๋ค์ํ ๋ณด์ ์ต์ ํ ๋ฅผ Zero-shot์ผ๋ก ์ํํ๋๋ก ๋ง๋ค์.** ์ด๋ฅผ ์ํด BFM-Zero๋:
- ์คํํด๋ฆฌ์ยท๋ฌด๋ณด์(unsupervised) RL +
- Forward-Backward(FB) representation ๊ธฐ๋ฐ์ successor feature ํ๋ ์์ํฌ +
- ๋ชจ์ ์บก์ณ ๋ฐ์ดํฐ๋ก regularization +
- ๋๋ฉ์ธ ๋๋ค๋ผ์ด์ ์ด์ + ๋น๋์นญ ํ์ต(asymmetric training)
์ ์กฐํฉํ์ฌ, โ๋ชฉํ/๋ณด์/๋ฐ๋ชจ โ latent z โ ์ ์ ์ ์ฑ ฯ(a | h, z)โ ๊ตฌ์กฐ๋ฅผ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
2. ๋ฌธ์ ์ ์ ๋ฐ ์ํ์ ํ๋ ์ด๋ฐ
2.1 POMDP ํฌ๋ฉ๋ผ์ด์ ์ด์
๋ ผ๋ฌธ์ ์ค์ธ๊ณ ํด๋จธ๋ ธ์ด๋ ์ ์ด๋ฅผ POMDP๋ก ์ ์ํฉ๋๋ค: \mathcal{M} = (\mathcal{S}, \mathcal{O}, \mathcal{A}, p, \gamma)
์ํ s \in \mathcal{S}
- root height, base pose, base rotation
- ๋งํฌ๋ค์ ์์น/์์ธ, ์ ํ/๊ฐ์๋ ๋ฑ (privileged state)
๊ด์ธก o \in \mathcal{O}
- ์กฐ์ธํธ ์์น(๊ธฐ์ค ํฌ์ฆ ๋๋น ์ ๊ทํ), ์กฐ์ธํธ ์๋
- ๋ฃจํธ ๊ฐ์๋, projected gravity ๋ฑ
- ์ค์ ๋ก๋ด์์ ์ฌ์ฉํ ์ ์๋ proprioceptive ๊ด์ธก ์์ฃผ
์ก์ a \in \mathcal{A}
- 29 DoF ํด๋จธ๋ ธ์ด๋์ ๋ํ PD target (desired joint positions)
์ญ์ฌ h_t = (o_{t-H+1:t}, a_{t-H+1:t-1})
- ์ ์ฑ ์ ๋จ์ผ ์์ ๊ด์ธก์ด ์๋๋ผ ์งง์ ๊ด์ธก/์ก์ ํ์คํ ๋ฆฌ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ.
์ด๋ ๊ฒ ํด์:
- Actor \pi_\theta(a | h, z): ํ์คํ ๋ฆฌ ๊ธฐ๋ฐ, latent z ์กฐ๊ฑด๋ถ ์ ์ฑ
- Critic๋ค: history + privileged state(์ ์ฒด s, or some ฯ(s))๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
ํ๋ ๋น๋์นญ(asymmetric) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
2.2 ForwardโBackward Representation & Unsupervised RL
ํต์ฌ ๋ฒ ์ด์ค๋ผ์ธ์ ์ต๊ทผ ์ ์๋ FB-CPR ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์์ด๋์ด๋ฅผ ์ง๊ด์ ์ผ๋ก ํ์ด๋ณด๋ฉด:
Forward/Backward Map
- Forward map F_\psi(s, a, z)
- Backward map B_\phi(s, z) ์ ํ์ตํด, ์ ์ฑ \pi(\cdot|z)๊ฐ ๋ง๋ค์ด๋ด๋ ์ฅ๊ธฐ์ ์ธ ์ํ ๋ฐฉ๋ฌธ ๋ถํฌ๋ฅผ ์ ๋ญํฌ(latent k์ฐจ์) ๊ตฌ์กฐ๋ก ๊ทผ์ฌํฉ๋๋ค.
Successor Features ๊ด์
์ด๋ค latent task feature \phi(s) \in \mathbb{R}^k๊ฐ ์์ ๋,
Successor feature๋
\Psi_z(s,a) = \mathbb{E}\left[ \sum_{t\ge 0} \gamma^t \phi(s_t) \,\Big|\, s_0 = s, a_0 = a, \pi_z \right]
FB representation์ ์ด successor feature๋ฅผ forward/backward map์ผ๋ก factorization ํด์ ํํํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
Latent Task & Linear Reward
FB-Zero ๊ณ์ด์์๋ task ์์ฒด๋ฅผ latent ๋ฒกํฐ z ์์ ๋ น์ฌ์,
๋ณด์ ํจ์๋ฅผ
r_z(s) = \langle w(z), \phi(s) \rangle
๊ผด์ ์ ํ ์กฐํฉ์ผ๋ก ๋ฐ๋ผ๋ด ๋๋ค.
์ฆ, โ์ด๋ค z๋ฅผ ์ ํํ๋๋โ๊ฐ ๊ณง โ์ด๋ค ๋ณด์์ ์ต์ ํํ๋์งโ๋ฅผ ๊ฒฐ์ .
์ด ๊ตฌ์กฐ ๋๋ถ์:
๋ฏธ๋ฆฌ unsupervised RL๋ก ๋ค์ํ z์ ๋ํ ์ ์ฑ \pi(\cdot|z)์ successor feature๋ฅผ ํ์ตํด๋๋ฉด,
์ดํ ์ด๋ค ์๋ก์ด ์ ํ ๋ณด์ w๋ฅผ ์ฃผ๋๋ผ๋
- ์ฌํ์ต ์์ด ์ ์ ํ z๋ฅผ ์ฐพ๊ณ ,
๊ทธ z์ ๋์ํ๋ \pi(\cdot|z)๋ฅผ Zero-shot์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
2.3 FB-CPR์์ BFM-Zero๋ก: ๋ฌด์์ด ์ถ๊ฐ๋์๋?
FB-CPR๋ ์๋ ๊ฐ์ ์บ๋ฆญํฐ์ ๋ํด ๋์ํ๋ unsupervised RL ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. BFM-Zero๋ ์ด ์์ ๋ค์์ ์น์ต๋๋ค:
Humanoid Whole-body Control ํนํ ์ค๊ณ
- Unitree G1๊ธ ํด๋จธ๋ ธ์ด๋์ ๋ง์ถ ๊ด์ธก/์ก์ /๋๋ฉ์ธ ๋๋ค๋ผ์ด์ ์ด์ ๊ตฌ์ฑ.
Sim2Real์ ์ํ ์ถ๊ฐ ์์
- Asymmetric history-based training
- ๋๊ท๋ชจ ๋ณ๋ ฌ ํ๊ฒฝ + ๋ํ ๋ฆฌํ๋ ์ด ๋ฒํผ
- Domain Randomization (์ง๋, ๋ง์ฐฐ, CoM, ์ผ์ ๋ ธ์ด์ฆ, ์ธ๋)
- Reward regularization (joint limit, ํ ํฌ/์๋ ํ๋ํฐ ๋ฑ)
Motion Capture Regularization ๊ฐํ
- Latent-conditioned discriminator๋ก โ์ธ๊ฐ๋ค์ด ์คํ์ผโ์ ๊ฐ์ . ๊ฒฐ๊ณผ์ ์ผ๋ก, BFM-Zero๋:
๋จ๊ณ 1: unsupervised RL + mo-cap regularization์ผ๋ก ๊ฑฐ๋ํ ํ๋ latent space ํ์ต
๋จ๊ณ 2: ์ด latent space ์์์
- Zero-shot reward optimization
- Zero-shot goal reaching
- Zero-shot motion tracking ๋ฅผ ๋ฌ์ฑ
๋จ๊ณ 3: Latent z ๊ณต๊ฐ์์์ CEM/trajectory optimization์ผ๋ก few-shot adaptation
์ด๋ผ๋ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํฉ๋๋ค.
3. BFM-Zero ๋ฐฉ๋ฒ๋ก ์์ธ
3.1 ์ ์ฒด ํ์ดํ๋ผ์ธ ๊ฐ์ (Mermaid)
flowchart LR
subgraph Pretrain[Pre-training in Simulation]
A[Unlabeled MoCap Dataset D] -->|style regularization| Dscr[Latent-conditioned Discriminator]
Sim[Humanoid Simulation Env] --> RB[Replay Buffer]
RB --> FB[Forward & Backward Maps<br/>+ Successor Features]
FB --> Actor[History-based Actor ฯ(a|h,z)]
Dscr --> Actor
Crit[Privileged Critics<br/>(s-based)] --> Actor
DR[Domain Randomization<br/>+ Disturbances] --> Sim
end
subgraph LatentSpace[Latent Space]
Z[Shared Latent Space z]
end
Pretrain -->|learn mapping from tasks/motions/rewards| LatentSpace
subgraph Inference[Zero-shot / Few-shot Inference]
Task[Task Spec<br/>(reward, goal, motion)] --> Enc[Task Encoder<br/>(embedding into z)]
Enc --> Z
Z --> ActorRT[Actor ฯ(a|h,z)]
ActorRT --> Robot[Unitree G1 Humanoid]
Z --> CEM[Latent Optimization (CEM/DA)]
CEM --> Z
end3.2 ํ์ต ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์ ์ค์
Mo-cap ๋ฐ์ดํฐ์ \mathcal{D}: LAFAN1 ๊ธฐ๋ฐ ๋ชจ์ ๋ค์ ์ชผ๊ฐ์ ์ฌ์ฉ,
๋ชจ์ ์ ์คํ์ผ/ํ์ง์ ๋ฐ๋ผ ์ฐ์ ์์ ์ํ๋ง์ ์ํ.* ํ๊ฒฝ:
์์ฒ ๊ฐ ์์ค์ ๋ณ๋ ฌ ํ๊ฒฝ,
์ด 3M step ์ด์์ ์ํธ์์ฉ,
๋ํ replay buffer & ๋์ Update-To-Data(UTD) ratio. #### ํต์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ (์์ฝ)
| ํญ๋ชฉ | ์ค์ (์์ฝ) | |
|---|---|---|
| ํ์คํ ๋ฆฌ ๊ธธ์ด H | 4 | |
| ์ํผ์๋ ๊ธธ์ด | 500 steps | |
| ๋ณ๋ ฌ ํ๊ฒฝ ์ | โ 1024 | |
| ์ด ํ๊ฒฝ ์ํธ์์ฉ | 3M steps ์์ค | |
| Latent ์ฐจ์ | 256 | |
| Actor/critic hidden size | 2048, residual blocks | |
| ์ด ํ๋ผ๋ฏธํฐ ์ | โ 440M |
(๋คํธ์ํฌ ๊ตฌ์กฐ: Transformer-style residual blocks + Mish activation, ensemble critic ๋ฑ.)
3.3 ํต์ฌ ์ค๊ณ ์์
(A) Asymmetric Training
Actor:
- ์ ๋ ฅ: ๊ด์ธก ํ์คํ ๋ฆฌ h_t๋ง ์ฌ์ฉ (์ค์ ๋ก๋ด๊ณผ ๋์ผํ ์ ๋ณด)
Critics (FB, auxiliary, style critic):
- ์ ๋ ฅ: privileged state s_t + ํ์คํ ๋ฆฌ
- ํ๋ถํ ์ํ ์ ๋ณด๋ก ๋ ์ ํํ value / successor feature ์ถ์ . โ Sim2Real์์ ํํ ์ฐ์ด๋ ๊ธฐ๋ฒ์ด์ง๋ง, ์ฌ๊ธฐ์๋ unsupervised RL + FB ๊ตฌ์กฐ์ ๊ฒฐํฉ๋์ด ์ ์ฑ ์ ๊ฐ์ธ์ฑ/์์ ์ฑ์ ํฌ๊ฒ ๋์ด๋ ์ญํ ์ ํฉ๋๋ค.
(B) Domain Randomization (DR)
๋งํฌ ์ง๋, ๋ง์ฐฐ, ๊ด์ฑ, CoM, joint offset, ์ผ์ ๋ ธ์ด์ฆ, ์ธ๋(kick, push) ๋ฑ์ ๋๋คํ.* ์ด๋ก ์ธํด ์ ์ฑ ์ ํ๋์ dynamics์ overfit๋์ง ์๊ณ ,
- ์ค์ G1์์์ ํฐ ์ธ๋(kick, ๋์ด๋น๊ธฐ๊ธฐ ๋ฑ)์๋ ์์ฐ์ค๋ฝ๊ฒ ํ๋ณต. #### (C) Reward Regularization & Safety Critic
joint limit ์ ๊ทผ, ๊ณผ๋ํ ํ ํฌ, ๋ถ์์ ํ ํฌ์ฆ์ penalty.* ๋ณ๋์ auxiliary critic์ด ์ด๋ฐ ์ ์ฝ์ ํํํ๋ ๋ณด์์ ํ์ต.
(D) Style Discriminator & Imitation Critic
Mo-cap trajectory์ ์ ์ฑ ์ด ์์ฑํ trajectory๋ฅผ ๋น๊ตํ๋ latent-conditioned discriminator๋ฅผ ํ์ต.* Jensen-Shannon divergence ๊ธฐ๋ฐ GAN objective๋ก ํ๋ จ.
์ด ๊ฐ์ด style reward๊ฐ ๋์ด,
- ์ ์ฑ ์ด โ์ธ๊ฐ๋ค์ด ์์ง์โ์ ์ ์งํ๋๋ก regularize.
3.4 ํ์ต ๋ชฉํ (๊ณ ์์ค ์์)
BFM-Zero๋ ์ฌ๋ฌ loss๋ฅผ ํฉ์ฑํฉ๋๋ค:
FB Objective
- successor features์ ๋ํ TD-loss (Bellman residual) ์ต์ํ.
Auxiliary safety critic loss
- ์์ /๋ฌผ๋ฆฌ ์ ์ฝ์ encodeํ Q-function TD-loss.
Style critic loss
- Mo-cap ๋ฐ์ดํฐ์ ์ ์ฑ rollout์ ๋ถํฌ๋ฅผ ๊ตฌ๋ถํ๋ discriminator loss.
Actor loss
- ์ Q-functions๋ค์ ์กฐํฉํ multi-critic advantage๋ฅผ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก policy gradient(or off-policy actor-critic) ์ ๋ฐ์ดํธ.
์ง๊ด์ ์ผ๋ก ๋งํ๋ฉด:
โFB representation์ด ์ ์ํ latent tasks์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ๊ณผ safety critic, style critic์ด ์ ์ํ โ์์ ํ๋ฉด์ ์ธ๊ฐ๋ค์ด ์์ง์โ์ ๋์์ ๋ง์กฑํ๋ ๋ฐฉํฅ์ผ๋ก ์ ์ฑ ๊ณผ latent space๋ฅผ ํ์ตํ๋ค.โ
3.5 Zero-shot Inference: ํ๋กฌํํธ๋ก ์ ์ฑ ๋ถ๋ฅด๊ธฐ
3.5.1 Reward Optimization
์ด๋ค ์๋ก์ด ๋ณด์ ํจ์ r(s)๊ฐ ์ฃผ์ด์ก๋ค๊ณ ํ์.
FB-Zero๋ latent z์ ๋ํ successor feature \Psi_z๋ฅผ ์ด๋ฏธ ๊ฐ๊ณ ์์.
์ ํ ๋ณด์ r(s) = w^\top \phi(s)๋ผ๊ณ ๋ณด๋ฉด,
- ๊ฐ z์ ๋ํด ๊ธฐ๋ return์ Q(z) \approx w^\top \Psi_z
๋ฐ๋ผ์ replay buffer์์ ์ํ๋งํ ์ฌ๋ฌ z๋ค์ ๋ํด \hat{Q}(z)๋ฅผ ํ๊ฐํ๊ณ ,
- ๊ฐ์ฅ ์ข์ z๋ฅผ ์ ํํ๊ฑฐ๋, ๋ถํฌ๋ฅผ ์์ด ์ฌ๋ฌ ๋ชจ๋๋ฅผ ํ์. ์ด๋ ๊ฒ ์ฐพ์๋ธ z๋ฅผ โ๋ณด์ ํ๋กฌํํธโ๋ก ์ ์ฑ ์ ์ ๋ ฅํ๋ฉด, ๋ณ๋ fine-tuning ์์ด ๊ทธ ๋ณด์์ ์ต์ ํํ๋ ์ ์ ์์ง์์ด ๋์ต๋๋ค. #### 3.5.2 Goal Reaching
๋ชฉํ ํฌ์ฆ(์กฐ์ธํธ/๋ฃจํธ ํฌ์ฆ)๋ฅผ state space ์์ ๋ชฉํ ์ํ s_g๋ก ๋๊ณ ,
goal feature \phi_{\text{goal}}(s, s_g)๋ฅผ ์ ์,
์ด๊ฑธ latent๋ก embed ํด์ z๋ฅผ ์ป์ต๋๋ค. ์ด z๋ฅผ ํ๋กฌํํธ๋ก ๋ฃ์ผ๋ฉด:
๋ก๋ด์ ํ์ฌ ์ํ์์ ํด๋น ๋ชฉํ ํฌ์ฆ ๊ทผ์ฒ๋ก ์์ฐ์ค๋ฝ๊ฒ ์๋ ดํ๋ ๊ถค์ ์ ์์ฑ. #### 3.5.3 Motion Tracking
๋ชฉํ ๋ชจ์ trajectory \tau = (s_0, \dots, s_T)์ ๋ํด,
๋ฏธ๋ฆฌ ๊ฐ segment์ ํด๋นํ๋ latent z_t๋ฅผ ์ถ์ถํ๊ณ ,
์๊ฐ์ ๋ฐ๋ผ z_t๋ฅผ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ์ฒ๋ผ ์ ์ฑ ์ ๊ณต๊ธํ๋ฉด โ tracking์ด ์ํ๋ฉ๋๋ค. โ
3.6 Few-shot Adaptation in Latent Space
BFM-Zero์ ์ค๊ณ์์ ๊ฐ์ฅ โfoundation model์ค๋ฝ๋คโ ์ถ์ ๋ถ๋ถ์ ๋๋ค.
3.6.1 Single Pose Adaptation (CEM)
์: ํ์ชฝ ๋ค๋ฆฌ๋ก ์์ 4kg payload๋ฅผ ๋ค๊ณ ๊ท ํ ์ ์ง.
๊ธฐ๋ณธ zero-shot z๋ ์ค์ ๋ก๋ด์์ 10์ด ๋ด์ธ๋ก ๋ฌด๋์ง.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด:
์ด๊ธฐ zโ = zero-shot latent
Cross Entropy Method(CEM)๋ฅผ latent space์์ ์ํ
- ์ํ z ํ๋ณด๋ค์ ์์ฑ โ ์๋ฎฌ๋ ์ด์ ์์ rollout
- โ๋์ด์ง์ง ์์ + ๋ชฉํ ๋ฐ ๋์ดโ reward๋ฅผ maximizeํ๋๋ก ์ข์ z๋ค๋ง ๋จ๊ธฐ๋ฉฐ ๋ถํฌ ์ ๋ฐ์ดํธ
์ต์ข zโ๋ฅผ ์ค์ ๋ก๋ด์ deploy
๊ฒฐ๊ณผ:
- ์๋ฎฌ์์ ๋์ด์ง๋ zโ์ ๋ฌ๋ฆฌ, zโ๋ payload๋ฅผ ๋ ๋จ์ผ ๋ค๋ฆฌ ์คํ ์ค๋ฅผ ๊ธธ๊ฒ ์ ์ง. #### 3.6.2 Trajectory Adaptation (Dual Annealing)
์: ๋ฐ์ด์ค๋ฅด๋(leaping) ๋ชจ์ ์ ๋ค๋ฅธ ๋ง์ฐฐ ๊ณ์ ํ๊ฒฝ์ ๋ง๊ฒ ํ๋.* ๊ธฐ์กด tracking latent๋ก๋ ๋ง์ฐฐ์ด ๋ฐ๋๋ฉด tracking error๊ฐ ์ปค์ง.
latent sequence์ ๋ํด dual-annealing์ผ๋ก ์ต์ ํํ๋ฉด
- tracking error ์ฝ 29.1% ๊ฐ์. ํต์ฌ ํฌ์ธํธ:
๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์ด, ์ค์ง latent z๋ง ์ต์ ํํด์ dynamics shift๋ฅผ ํก์ํ๋ค๋ ์ .
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
4.1 ์๋ฎฌ๋ ์ด์ Zero-shot Validation
(๋ณธ๋ฌธ์๋ ์ฌ๋ฌ task-specific metric์ด ๋ฑ์ฅํ์ง๋ง, ์์ง๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.)
Tracking, Goal reaching, Reward optimization์ ๋ชจ๋
- ํ๋์ ๋ชจ๋ธ์์
- Zero-shot์ผ๋ก ์ํ.
๊ธฐ์กด FB-CPR, on-policy PPO ๊ธฐ๋ฐ multi-task baselines์ ๋น๊ต ์,
- reward / tracking error ์ธก๋ฉด์์ ๋๋ฑ ์ด์ ์ฑ๋ฅ,
- ํนํ ๋ค์ํ downstream task๋ฅผ ์ถ๊ฐ ํ์ต ์์ด ์ปค๋ฒํ๋ ๋ฒ์ฉ์ฑ์์ ์ฐ์.
4.2 ์ค์ Unitree G1 ์คํ
4.2.1 Goal Reaching (Figure 5)
์ฌ๋ฌ ๋๋ค ํฌ์ฆ๋ค(์๋ ์ฑ๋ถ ์ ๊ฑฐ)์ ๋ชฉํ๋ก ์ฃผ๊ณ ,
ํด๋น ํฌ์ฆ๋ค์ zero-shot latent๋ฅผ ์์ด ์ฐ์ ๋ชฉํ๋ฅผ ์์ฑ. ๊ด์ฐฐ:
๋ชฉํ๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํํ ๊ตฌํ ๋ถ๊ฐ๋ฅํ ํฌ์ฆ์ฌ๋,
- ๋ก๋ด์ ๊ทธ ๊ทผ์ฒ์ ์์ฐ์ค๋ฌ์ด ํฌ์ฆ๋ก ์๋ ด.
์๋ก ๋ถ์ฐ์์ธ ๋ชฉํ ํฌ์ฆ๋ค ์ฌ์ด๋ฅผ ์ด๋ํ ๋๋
- ๋ชจ์ blending ์์ด ๋งค๋๋ฌ์ด ์ ์ด ํธ๋ผ์ ํ ๋ฆฌ๋ฅผ ์์ฑ. โ latent space๊ฐ ์ฐ์์ ์ด๊ณ smoothํ๊ฒ ์กฐ์ ๋์ด ์๋ค๋ ๊ฐํ evidence.
4.2.2 Reward Optimization (Figure 6)
์ธ ๊ฐ์ง ๋ณด์ ๊ณ์ด ์คํ: 1. Locomotion rewards
- base velocity, yaw angular velocity target ์ง์
- โ ์ /ํ/์ข/์ฐ ์ด๋, ํ์ , ์กฐํฉ ์์ง์
Arm-movement rewards
- ์๋ชฉ ๋์ด, ํ ๋ค๊ธฐ/๋ด๋ฆฌ๊ธฐ
- โ ์์ฒด/ํ ๋์์ ๋ช ๋ น
Pelvis-height rewards
- ์๊ธฐ(sitting), crouch, low-movement ๋ฑ
ํน์ง:
๋จ์ํ reward ์ ์๋ง์ผ๋ก๋
- ๊ฑท๊ธฐ+ํ ๋ค๊ธฐ ๊ฐ์ด ํฉ์ฑ๋ behavior๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์คํ.
replay buffer ์ํ์ ํตํด ๋ค์ํ z๋ฅผ ๋ฝ์ผ๋ฉด,
- ๊ฐ์ ๋ณด์์ด๋ผ๋ ์ฌ๋ฌ ์คํ์ผ์ ์ต์ ํ๋ ๋ชจ๋๋ฅผ ์ป์ ์ ์์. #### 4.2.3 Disturbance Rejection (Figure 7)
๊ฐํ ์ธก๋ฉด kick, ์์ฒด push, ๋์ด๋น๊ฒจ์ ๋์ด๋จ๋ฆฌ๊ธฐ ๋ฑ. ๊ฒฐ๊ณผ:
๋จ์ํ โ๋ฒํฐ๋โ ์ฐจ์์ ๋์ด์
- ์ฌ๋์ฒ๋ผ ๋ฐ๋ฏ์ด ๋ช ๋ฐ์๊ตญ ๋ฌ๋ ค ๋๊ฐ๋ฉฐ ๊ท ํ ํ๋ณต,
- ๋์ด์ก๋ค๊ฐ ์์ฐ์ค๋ฝ๊ฒ ์ผ์ด๋ T-pose๋ก ๋ณต๊ท ๋ฑ
์ ๋ ฅ z๋ static T-pose ํ๋์์๋,
- ์ ์ฑ ์ด ์ํฉ์ ๋ง๊ฒ reference์์ ๋ฒ์ด๋ recovery ๋ชจ์ ์ ์ค์ค๋ก ์์ฑ ํ
- ๋ค์ reference๋ก ๋์์ด. โ โํ๋กฌํํธ๋ ๋จ์ผ ํฌ์ฆ์ง๋ง, ์ ์ฑ ์ ๋์ recovery behavior๋ฅผ ๋ด์ฌํ๊ณ ์์โ ์ ๋ณด์ฌ์ฃผ๋ ์.
4.2.4 Few-shot Adaptation (Figure 8)
์์์ ์ค๋ช ํ single-leg/payload, leaping adaptation ๊ฒฐ๊ณผ๋ฅผ
- ์ค์ ๋ก๋ด๊น์ง ๊ฒ์ฆํจ์ผ๋ก์จ,
sim-only๊ฐ ์๋ Sim2Real adaptation ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค.
4.3 Latent Space ๋ถ์
Figure 9์์ latent z๋ฅผ t-SNE๋ก ์๊ฐํ: * Tracking / reward optimization / goal reaching์ ํด๋นํ๋ z๋ค์ด
- ๋ชจ์ ์คํ์ผ/์ ํ๋ณ๋ก ๊ตฐ์งํ
- ๋น์ทํ ๋์์ ๊ฐ๊น์ด, ์์ดํ ๋์์ ๋ฉ๋ฆฌ ๋ฐฐ์น.
๋ํ:
๋ latent z_1, z_2 ์ฌ์ด์ slerp ์ธํฐํด๋ ์ด์ ์ ์ํํ๋ฉด,
- ์ค๊ฐ z๋ค์ด ์๋ฏธ ์๋ ์ค๊ฐ ํ๋(์: ๊ฑท๊ธฐ โ๏ธ ๋ฐ๊ธฐ ์ฌ์ด์ ์กฐํฉ)์ ์์ฑ.
- ์ด๋ โํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธโ๋ก์์ ํต์ฌ ์์ง.
5. ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ
์ง๋ฌธํ์ โ๋ค๋ฅธ ํ๋ซํผ(์: ๋ค๋ฅธ ํด๋จธ๋ ธ์ด๋, ํน์ ์ ํ ๋ค๋ฅธ robot) ์ ์ฉโ ๊ด์ ์์ ์ ๋ฆฌํด๋ณด๋ฉด:
5.1 ํ์ํ ์ ์ ์กฐ๊ฑด
BFM-Zero ์์ค์ผ๋ก ์ ์ฉํ๋ ค๋ฉด:
์ถฉ๋ถํ ์ ํํ ์ ์ ์๋ฎฌ๋ ์ดํฐ
- ๊ด์ /๋งํฌ ์, ์ง๋/๊ด์ฑ, ๋ง์ฐฐ, ์ผ์ ๋ ธ์ด์ฆ ๋ฑ์ ๋ชจ๋ธ๋งํ ์ ์์ด์ผ ํจ.
๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ณ๋ ฌํ
- ์์ฒ ๊ฐ ํ๊ฒฝ ร ์๋ฐฑ๋ง step ์ํธ์์ฉ
- GPU ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ์์ง(IsaacGym, Genesis ๋ฑ)๊ณผ ํธํ๋ ์๋ก ์ ๋ฆฌ.
Mo-cap ๋๋ ํ๋ ๋ฐ์ดํฐ์
โ์ธ๊ฐ๋ค์ด ์คํ์ผโ์ ํด๋นํ๋ reference.
ํด๋จธ๋ ธ์ด๋๊ฐ ์๋ ๊ฒฝ์ฐ(์: quadruped, manipulator)
- ์คํ์ผ ์ ์๋ฅผ ์ด๋ป๊ฒ ํ ์ง(teleop, demonstration, scripted behaviors ๋ฑ) ์ค๊ณ ํ์.
PD ์ ์ด ๊ธฐ๋ฐ low-level ์ปจํธ๋กค
- ์ ์ฑ ์ถ๋ ฅ = joint position target ํํ๊ฐ ๊ฐ์ฅ ์์ฐ์ค๋ฝ๊ฒ ๋ง์.
5.2 ๋ค๋ฅธ ํด๋จธ๋ ธ์ด๋/๋ก๋ด์ผ๋ก์ ์ ์ฉ ์๋
๋ ผ๋ฌธ Appendix์์๋ BFM-Zero๋ฅผ ๋ค๋ฅธ ๋ก๋ด(Booster T1)์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ ๊ฐ๋จํ ์ธ๊ธํฉ๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ์ฅ์ฑ์ ์ถ๋ก ํ๋ฉด:
๋ค๋ฅธ ํด๋จธ๋ ธ์ด๋
๊ด์ธก/์ก์ ์ฐจ์์ด ํฌ๊ฒ ๋ค๋ฅด์ง ์๋ค๋ฉด,
- FB-CPR + BFM-Zero ๊ตฌ์กฐ๋ ๊ฑฐ์ ๊ทธ๋๋ก ์ฌ์ฌ์ฉ ๊ฐ๋ฅ.
๋ฌธ์ ๋:
- ๋ชจ์ ๋ฐ์ดํฐ์ (๊ฐ ๋ก๋ด์ ๋ง๊ฒ retarget ํ์)
- ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ randomization ์ฌ์ค์ .
Manipulator + Mobile base (์: ์์+ํ )
ํ๋ space๊ฐ โ์ ์ motionโ์ด ์๋๋ผ๋ฉด
- latent space ํด์์ด โwhole-body locomotionโ๊ณผ๋ ๋ฌ๋ผ์ง ๊ฒ.
๊ทธ๋๋ ๋ณด์/๋ชฉํ/๋ฐ๋ชจ๋ฅผ latent space์ embed โ promptable policy ๋ผ๋ ๊ตฌ์กฐ๋
- ๊ทธ๋๋ก ๊ฐ์ ธ๊ฐ ์ ์์.
5.3 Allegro Hand ๊ฐ์ dexterous hand์ ์ ์ฉํ๋ค๋ฉด?
ํ์ฌ BFM-Zero๋ ์ ์ ๋ชจ์ (๋ณดํ+์์ฒด) ์ค์ฌ.
Allegro Hand์ฒ๋ผ 16 DoF ์์ ์ ์ฉํ๋ ค๋ฉด:
- ์ ์ ์ฉ ์๋ฎฌ๋ ์ดํฐ & ๋ชจ์ ๋ฐ์ดํฐ์ (teleop / retarget) ํ๋ณด
- โ์์ behaviorโ์ ๋ํด successor feature & FB representation์ ํ์ต
- grasp style, in-hand rotation ๋ฑ ๋ณด์/๋ชฉํ๋ฅผ latent๋ก embed
๊ตฌ์กฐ์ ์ผ๋ก๋ ์์ ํ ์ ๋ง๋ ํ๋ ์์ํฌ์ด์ง๋ง,
- ๋ชจ์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ๊ณผ sim fidelity๊ฐ ํฐ bottleneck์ด ๋ ๊ฒ.
์์ฝํ๋ฉด:
โ์๋ฎฌ๋ ์ดํฐ + ํ๋ ๋ฐ์ดํฐ์ + ๋ณ๋ ฌ RL ์ธํ๋ผโ๋ง ์๋ค๋ฉด, BFM-Zero ํ๋ ์์ํฌ๋ ์ถฉ๋ถํ ์ผ๋ฐํ ๊ฐ๋ฅํ๋ค. ๋ค๋ง, ์ค์ ๊ตฌํ ๋์ด๋๋ ์๋นํ ๋๋ค.
6. ๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ต
6.1 ๋น์ทํ โํ๋ ํ์ด๋ฐ์ด์ โ ๊ณ์ด๊ณผ ๋น๊ต
๋ค์ ํ๋ BFM-Zero, Behavior Foundation Model(BFM), ASAP, RoboCat๋ฅผ ๊ฐ๋จ ๋น๊ตํ ๊ฒ์ ๋๋ค. | ์ฐ๊ตฌ | ๋๋ฉ์ธ | ๋ฐ์ดํฐ ์์ค | ์๊ณ ๋ฆฌ์ฆ ํจ๋ฌ๋ค์ | Prompt/Condition ๋ฐฉ์ | Sim2Real ์ฌ๋ถ / ํน์ง | | โโโโโ | โโโโโโ- | โโโโโโโโ- | โโโโโโโโโโโโโ | โโโโโโโโโโโโโ- | โโโโโโโโโโโโโ | | BFM-Zero | Humanoid whole-body | Mo-cap + online RL | Off-policy unsupervised RL + FB | ๋ณด์, ๋ชฉํ, ๋ชจ์ ์ ํตํฉ latent z๋ก ํ๋กฌํํธ | Unitree G1 ์ค๋ก๋ด, ๊ฐํ DR + ๋น๋์นญ ํ์ต | | BFM (Zeng) | Humanoid WBC | Large-scale behavior data | Generative model + CVAE + distillation | ์ ์ด ๋ชจ๋/๋ชฉํ๋ฅผ conditional input์ผ๋ก | Sim & real, masked distillation ๊ธฐ๋ฐ | | ASAP | Humanoid whole-body | Mo-cap + real rollouts | 2-stage on-policy RL + residual | ๋ชจ์ tracking policy + residual correction | SimโReal physics alignment์ ์ด์ | | RoboCat | Manipulation (arms) | Multi-embodiment demos | Decision Transformer + BC | ์ด๋ฏธ์ง/goal-conditioning | ๋ค์์ ๋ก๋ด ํ, few-shot adaptation ์ค์ฌ |
BFM-Zero์ ์ฐจ๋ณ์
BFM-Zero vs BFM(Zeng):
BFM์ generative CVAE + distillation ์ค์ฌ,
behavior distribution์ ๋ชจ๋ธ๋งํ๊ณ distillํ๋ ๋ ๋จ๊ณ ๊ตฌ์กฐ. * BFM-Zero๋ unsupervised RL + FB ๊ธฐ๋ฐ์ผ๋ก
reward/goal/motion์ ํ๋์ latent task space์ ํตํฉ.
BFM-Zero vs ASAP:
ASAP์ Sim๋ฌผ๋ฆฌ์ Real๋ฌผ๋ฆฌ์ ์ ๋ ฌ(alignment)์ ์ด์ ,
motion tracking โ real data โ residual policy ํ์ต์ 2๋จ๊ณ ๊ตฌ์กฐ. * BFM-Zero๋
ํ ๋ฒ์ ๋๊ท๋ชจ unsupervised pretrain์ผ๋ก
reward/goal/motion promptable generalist policy๋ฅผ ๋ชฉํ๋ก ํจ.
BFM-Zero vs RoboCat ๋ฑ generalist manipulation:
RoboCat์ Vision-based Decision Transformer๋ก
multi-embodiment manipulation์ ์ํ. * BFM-Zero๋
vision ์์ด proprioception + FB representation ๊ธฐ๋ฐ
humanoid whole-body dynamics์ ํนํ.
์ฆ, BFM-Zero๋:
โ์ ์ ํด๋จธ๋ ธ์ด๋์ ๋ํด unsupervised RL + off-policy + FB๋ฅผ ์ด์ฉํด โ๋ณด์/๋ชฉํ/๋ชจ์ ์ ํ ๊ณต๊ฐ์ embedํ promptable ํ๋ ๋ชจ๋ธโ์ ์ต์ด๋ก ์ค๋ก๋ด๊น์ง ๊ฐ์ ธ๊ฐ ์ผ์ด์คโ
๋ก ์์น์ง์ ์ ์์ต๋๋ค.
7. ๋นํ์ ๊ณ ์ฐฐ
7.1 ๊ฐ์
์ง์ง โBehavioral Foundation Modelโ์ ๊ฐ๊น์ด ๊ตฌ์กฐ
- reward/goal/motion โ latent z โ ์ ์ฑ
- zero-shot + few-shot ๋ชจ๋ ์ง์ํ๋ promptable ํ๋ ๊ณต๊ฐ ๊ตฌ์ถ.
Off-policy unsupervised RL์ ์ค๋ก๋ด ์ ์ฉ ์ฌ๋ก
- ์ง๊ธ๊น์ง ์ค๋ก๋ด์ ๊ฑฐ์ ํญ์ on-policy (PPO ๊ณ์ด)์ ์์กดํ๋๋ฐ,
- BFM-Zero๋ ๋๊ท๋ชจ ๋ณ๋ ฌ off-policy + FB ๊ตฌ์กฐ๋ก ์ค์ Unitree G1์ robust policy๋ฅผ ์ฌ๋ ค๋ .
๊ณ ๊ธ Sim2Real ์์ง๋์ด๋ง ์์์ ์กฐํฉ
- asymmetric training, DR, safety critic, style discriminator ๋ฑ
- ์ด๋ฏธ ์๋ ค์ง ๊ธฐ๋ฒ๋ค์ unsupervised RL ํ๋ ์์ํฌ ์์ ์ ์ฎ์.
Latent-level adaptation
- ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์ด latent๋ง ์ต์ ํํด์ payload ๋ณํ, ๋ง์ฐฐ ๋ณํ ๋ฑ dynamics shift๋ฅผ ํก์ํ ๊ฒ์
- ์ค๋ฌด์ ์ธ ๊ด์ ์์๋ โํ ์คํธ ํ์ฅ์์ ์์ฝ๊ฒ ํ๋โ ํ ์ฌ์ง๋ฅผ ์ค.
7.2 ์ฝ์ ๋ฐ ํ๊ณ
๋ฐ์ดํฐ/์ฐ์ฐ ๋น์ฉ
- ์๋ฐฑ๋ง step + ์์ฒ ๋ณ๋ ฌ ํ๊ฒฝ + 440M parameter ๊ท๋ชจ ๋ชจ๋ธ. * ์ผ๋ฐ ์ฐ๊ตฌ์ค/๊ธฐ์ ์์ ๊ทธ๋๋ก ์ฌํํ๊ธฐ์ ์ปดํจํ ์๊ตฌ์ฌํญ์ด ์๋นํ ํผ.
Mo-cap ์์กด์ฑ
- ๋ชจ๋ ํ๋์ด โ์ธ๊ฐ๋ค์ด ์คํ์ผโ์ regularization ๋๋ฏ๋ก
- ๋ฐ์ดํฐ์ ์ด ์ปค๋ฒํ์ง ๋ชปํ ์คํ์ผ/์์ ์์๋ ํ๋ ํ์ง์ด ๋จ์ด์ง ๊ฐ๋ฅ์ฑ.
Latent์ ํด์ ๊ฐ๋ฅ์ฑ
- t-SNE ์๊ฐํ, slerp ๋ฑ์ผ๋ก ์ง์ ํด์์ ๋ฉ์ง์ง๋ง,
- ์ค์ ๋ก z๊ฐ ๋ฌด์์ encodeํ๋์ง (์ธ๋ถ semantics)๋ ์์ง๊น์ง โblack-ish boxโ.
์ ์ ์ธ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์กฑ
- ๋ ผ๋ฌธ์์๋ Booster T1 ๋ฑ ์ผ๋ถ ๋ค๋ฅธ ๋ก๋ด ์์๊ฐ ์์ง๋ง,
- quadruped, mobile manipulator, hand ๋ฑ ๋ค๋ฅธ embodiment์ ๋ํ ์ค์ง์ ๊ฒ์ฆ์ ํฅํ ๊ณผ์ ๋ก ๋จ์ ์์. โ
8. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์ (๋ก๋ด๊ณตํ์ ๊ด์ )
Scaling law ๋ฐ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ฐ๊ตฌ
- Mo-cap ๋ฐ์ดํฐ ์ / ์๋ฎฌ๋ ์ด์ step / ๋ชจ๋ธ ํฌ๊ธฐ vs ์ฑ๋ฅ ํ๋ค์ด. * โvision foundation modelโ์์ ํ๋ scaling ์ฐ๊ตฌ๋ฅผ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์๋ ๊ฐ์ ธ์ฌ ํ์.
๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด๋ถ (Vision / Language ์ ๋ชฉ)
BFM-Zero์ reward prompt๋ ์ด๋ฏธ ์ธ์ด ํ๋กฌํํธ๋ก map ํ๊ธฐ ์ข์ ๊ตฌ์กฐ์ ๋๋ค. * Vision-Language-Action(VLA) ๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ๋ฉด:
- โ์ ๊ธฐ ์๋ ์์๋ฅผ ํฅํด ์ฒ์ฒํ ๊ฑธ์ด๊ฐ์ ์ค๋ฅธ์์ผ๋ก ๋ค์ด ์ฌ๋ คโ ๊ฐ์ ๊ณ ์์ค instruction โ reward spec โ latent prompt ๊ฐ๋ฅ.
Manipulation & Dexterity๋ก์ ํ์ฅ
๊ธฐ์กด Allegro Hand ์ฐ๊ตฌ(GeoRT, HORA ๋ฑ)์์ retargeting / RL policy๋ฅผ ์ฌ์ฉํด in-hand manipulation์ ์ํํ๋ ๊ตฌ์กฐ๋ฅผ
BFM-Zero์ latent task space๋ก ์ฎ๊ฒจ๋ณด๋ฉด:
- ๋ค์ํ grasp, rotation, sliding ๋ชจ์ ์ ํ๋์ promptable skill space์ ํตํฉํ ์ ์์ ๊ฒ.
Online adaptation / Continual RL์์ ๊ฒฐํฉ
ํ์ฌ few-shot adaptation์ test-time optimization ์์ค.
์ด๋ฅผ continual RL๊ณผ ๊ฒฐํฉํด
- ํ๊ฒฝ์ด ์์ํ ๋ณํด๋ latent space์ policy๊ฐ ์ง์์ ์ผ๋ก self-improveํ๋๋ก ๋ง๋๋ ๋ฐฉํฅ์ด ์ ๋ง.
9. ์์ฝ ๋ฐ ๊ฒฐ๋ก
BFM-Zero๋ ๋จ์ํ โ๋ ํ๋์ ํด๋จธ๋ ธ์ด๋ RL ๋ ผ๋ฌธโ์ด ์๋๋ผ,
โ์ ์ ์ ์ด๋ฅผ ์ํ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ด๋๊น์ง ๊ฐ๋ฅํ๊ฐ?โ๋ฅผ ํ์ค์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ์ฒซ ๋ฒ์งธ ๋จ๊ณ ์ค ํ๋์ ๋๋ค.
์ ๋ฆฌํ๋ฉด:
๋ฌธ์ ์ ์:
- ๋ค์ํ ํ๋(๋ณดํ, ํฌ์ฆ, ์์ฒด ๋์)์ ํ๋์ promptable generalist policy๋ก ํตํฉํ๋ ๊ฒ.
๋ฐฉ๋ฒ:
- Off-policy unsupervised RL + FB representation
- Mo-cap regularization + DR + asymmetric training
- Reward/goal/motion๋ฅผ ํ๋์ latent task space์ embed.
๊ฒฐ๊ณผ:
Unitree G1์์
- Zero-shot goal reaching, reward optimization, motion tracking
- ๊ฐ์ธํ disturbance rejection
- Latent-level few-shot adaptation๊น์ง ์์ฐ.
์๋ฏธ:
- PPO ๊ธฐ๋ฐ single-task ์ ์ฑ ์ ์๋์์,
- โํ๋ space๋ฅผ ๋จผ์ ๊ฑฐ๋ํ๊ฒ ํ์ตํด๋๊ณ , ์ดํ ํ๋กฌํํธ์ฒ๋ผ task๋ฅผ ์ง์ ํด ์ฐ๋โ Behavioral Foundation Model paradigm์ผ๋ก ํด๋จธ๋ ธ์ด๋ ์ ์ด๋ฅผ ๋๊ณ ๊ฐ๋ ์ค์ํ ์ ํ์ .
์ฐธ๊ณ ๋ฌธํ
- BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning
- Behavior Foundation Model for Humanoid Robots
- ASAP: Aligning Simulation and Real-World Physics
- RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation
์๋ก : ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ํจ๋ฌ๋ค์ ์ ํ๊ณผ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํ์์ฑ
๋ก๋ด๊ณตํ์ ์ญ์ฌ์์ ์ธ๊ฐํ ๋ก๋ด, ์ฆ ํด๋จธ๋ ธ์ด๋๋ฅผ ์ ์ดํ๋ ๊ฒ์ ์ธ์ ๋ โ์ต์ข ๊ด๋ฌธโ๊ณผ ๊ฐ์ ๊ณผ์ ์๋ค. ์๋ง์ ๊ด์ ๊ณผ ๋ณต์กํ ๋์ญํ, ๊ทธ๋ฆฌ๊ณ ๋ถ์์ ํ ํํ ์ํ๋ฅผ ์ ์งํด์ผ ํ๋ ํน์ฑ์ ์ ์ด ์ด๋ก ๊ฐ๋ค์๊ฒ ๋์์๋ ๋์ ๊ณผ์ ๋ฅผ ์ ์ํด ์๋ค. ๊ณผ๊ฑฐ์ ์ ์ด ๋ฐฉ์์ ์ฃผ๋ก ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ๊ธฐ๋ฐํ ๊ณ์ฐ(Model-based Control)์ ์์กดํ์ผ๋, ์ด๋ ํ๊ฒฝ์ ๋ณํ๋ ์๊ธฐ์น ๋ชปํ ์ธ๋์ ๋งค์ฐ ์ทจ์ฝํ๋ค. ์ต๊ทผ 10๋ ์ฌ์ด ๊ฐํํ์ต(Reinforcement Learning, RL)์ ๋ฐ์ ์ ์ด๋ฌํ ์งํ์ ์์ ํ ๋ฐ๊พธ์ด ๋์๋ค. ํนํ PPO(Proximal Policy Optimization)์ ๊ฐ์ ์จํด๋ฆฌ์(On-policy) ์๊ณ ๋ฆฌ์ฆ์ ์๋ฎฌ๋ ์ด์ ์์ ์์ฒ๋ง ๋ฒ์ ์ํ์ฐฉ์ค๋ฅผ ๊ฑฐ์ณ ๋ก๋ด์ด ๊ฑท๊ณ , ๋ฐ๊ณ , ์ฌ์ง์ด ๊ณต์ค์ ๋น๋ฅผ ๋๊ฒ ๋ง๋๋ ๋ฐ ์ฑ๊ณตํ๋ค.
๊ทธ๋ฌ๋ ์ด๋ฌํ ์ฑ์ทจ์๋ ๋ถ๊ตฌํ๊ณ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ ์ฌ์ ํ ๋จ์ ์์๋ค. ๊ธฐ์กด์ ๊ฐํํ์ต ๋ฐฉ์์ โํน์ ํ ๋ณด์ ํจ์โ์ ์ข ์๋ โ๋จ์ผ ์์ โ ์ ๋ฌธ๊ฐ๋ฅผ ์์ฐํ๋ ๋ฐ ๊ทธ์ณค๊ธฐ ๋๋ฌธ์ด๋ค. ์๋ฅผ ๋ค์ด, ํน์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ผํ๋๋ก ํ์ต๋ ๋ก๋ด์ ๊ทธ ๋์ ์ด์ธ์ ์๋ก์ด ์๊ตฌ ์ฌํญ์ด ์ฃผ์ด์ง๋ฉด ์๋ฌด๊ฒ๋ ํ ์ ์๊ฒ ๋๋ค. ์๋ก์ด ์์ ์ ์ํค๋ ค๋ฉด ๋ค์ ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ๊ณ ์ฒ์๋ถํฐ ํ์ต์ ์์ํด์ผ ํ๋ค. ์ด๋ ์ธ๊ฐ์ด ํ๋์ ๊ธฐ๋ณธ ์ฒด๋ ฅ์ ๋ฐํ์ผ๋ก ์ถ๊ตฌ, ๋๊ตฌ, ์ถค์ ๋น ๋ฅด๊ฒ ๋ฐฐ์ฐ๋ ๊ฒ๊ณผ๋ ๋์กฐ์ ์ด๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ๋ฑ์ฅํ ๊ฐ๋ ์ด ๋ฐ๋ก โํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(Behavioral Foundation Models, BFMs)โ์ด๋ค. ์ธ์ด ๋ชจ๋ธ์ด ๊ฑฐ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ธ์ด์ ๊ตฌ์กฐ๋ฅผ ์ตํ๊ณ ์ด๋ค ์ง๋ฌธ์๋ ๋ตํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋ ๊ฒ์ฒ๋ผ, ๋ก๋ด์๊ฒ๋ ์ ์ ์์ง์์ ๊ทผ๋ณธ์ ์ธ โ๋ฌธ๋ฒโ์ ๊ฐ๋ฅด์น๋ ค๋ ์๋์ด๋ค. BFM-Zero๋ ๋ฐ๋ก ์ด ์ง์ ์์ ํ์ ์ ์ธ ํด๋ฒ์ ์ ์ํ๋ค. ์ด ๋ชจ๋ธ์ ๋น์ง๋ ๊ฐํํ์ต(Unsupervised RL)์ ํตํด ๋ก๋ด์ ๋ชจ๋ ๊ฐ๋ฅํ ํ๋์ ํ๋์ ์ ๊ตํ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ ๋งคํํ๋ค. ์ด ๋ณด๊ณ ์๋ BFM-Zero๊ฐ ์ด๋ป๊ฒ ์ฌํ์ต ์์ด(Zero-shot) ๋ค์ํ ์์ ์ ์ํํ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ด๋ฉด์ ์จ๊ฒจ์ง ์ํ์ ์ง๊ด๊ณผ ๊ณตํ์ ์ค๊ณ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๋ค.
๋ฐฉ๋ฒ๋ก : ํ๋์ ์ง๋๋ฅผ ๊ทธ๋ฆฌ๋ ์ ๋ฐฉ-ํ๋ฐฉ ํํํ์ ์ํ์ ์ง๊ด
BFM-Zero์ ํต์ฌ ๋ฉ์ปค๋์ฆ์ ์ดํดํ๊ธฐ ์ํด์๋ ๋จผ์ โ์ ๋ฐฉ-ํ๋ฐฉ(Forward-Backward, FB) ํํํโ์ด๋ผ๋ ์ํ์ ๋๊ตฌ์ ์ฃผ๋ชฉํด์ผ ํ๋ค. ์ด๋ฅผ ์์ฃผ ์ง๊ด์ ์ผ๋ก ์ค๋ช ํ์๋ฉด, ์ฐ๋ฆฌ๊ฐ ๋ฏ์ ๋์์ ๋์ฐฉํด ์ง๋๋ฅผ ๋ง๋๋ ๊ณผ์ ๊ณผ ๋น์ทํ๋ค. ๊ธฐ์กด์ ๊ฐํํ์ต์ด โ์ง์์ ๋์๊ด๊น์ง ๊ฐ๋ ๊ฐ์ฅ ๋น ๋ฅธ ๊ธธโ๋ง์ ์ธ์ฐ๋ ๊ฒ์ด๋ผ๋ฉด, FB ํํํ์ โ๋์์ ๋ชจ๋ ๋๋ก๊ฐ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋์ด ์๋์งโ๋ฅผ ํ์ ํ์ฌ ์ง๋ ์์ฒด๋ฅผ ๊ทธ๋ฆฌ๋ ์์ ์ด๋ค.
๊ณ์น ์ธก๋์ ๊ฐ์น ํจ์์ ๋ถํด
์ผ๋ฐ์ ์ธ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์์ ๊ฐ์น ํจ์ Q(s, a)๋ ํ์ฌ ์ํ s์์ ํ๋ a๋ฅผ ์ทจํ์ ๋ ๊ธฐ๋๋๋ ๋ฏธ๋ ๋ณด์์ ํฉ์ด๋ค. BFM-Zero๋ ์ด ๊ฐ์น ํจ์๋ฅผ ๋ณด์(Reward)๊ณผ ๋์ญํ(Dynamics)์ผ๋ก ์์ ํ ๋ถ๋ฆฌํ๋ค. ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ์ด โ๊ณ์น ์ธก๋(Successor Measure)โ M^\pi(X|s, a)์ด๋ค. ์ด๋ ์ ์ฑ \pi๋ฅผ ๋ฐ๋ฅผ ๋ ๋ฏธ๋์ ์ํ ์งํฉ X์ ๋ฐฉ๋ฌธํ๊ฒ ๋ ํ ์ธ๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์๋ฏธํ๋ค.
FB ํํํ์ ์ด ๊ณ์น ์ธก๋๋ฅผ ๋ ๊ฐ์ ์ ์ฐจ์ ๋ฒกํฐ์ ๋ด์ ์ผ๋ก ๊ทผ์ฌํ๋ค:
M^\pi(X|s, a) \approx \int_{s' \in X} F(s, a, z)^\top B(s') \rho(ds')
์ฌ๊ธฐ์ F(s, a, z)๋ ์ ๋ฐฉ ํํํ(Forward Representation)์ผ๋ก, ํ์ฌ ์ํ์ ํ๋์ด ๋ฏธ๋์ ์ด๋ค โ์ ์ฌ์ ๋ฐฉํฅโ์ผ๋ก ๋์๊ฐ์ง๋ฅผ ๋ํ๋ธ๋ค. ๋ฐ๋ฉด B(s')๋ ํ๋ฐฉ ํํํ(Backward Representation)์ผ๋ก, ํน์ ์ํ s'๊ฐ ๋๋ฌํ๊ธฐ ์ํด ์ด๋ค โํน์งโ์ ๊ฐ์ ธ์ผ ํ๋์ง๋ฅผ ๋ํ๋ธ๋ค. ์ด ๋ถํด๊ฐ ๋๋ผ์ด ์ด์ ๋, ์ด๋ค ๋ณด์ ํจ์ r(s)๊ฐ ์ฃผ์ด์ง๋๋ผ๋ ๊ฐ์น ํจ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ํ ๊ณ์ฐํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค:
Q^\pi_r(s, a) = F(s, a, z)^\top z \quad \text{where} \quad z = E_{s \sim \rho}[B(s)r(s)]
์ฆ, ๋ก๋ด์ ๋ณด์์ด ๋ฌด์์ธ์ง ๋ฏธ๋ฆฌ ์ ํ์ ์์ด ์ธ์์ ์ด์น(๋์ญํ)๋ฅผ ์ ๋ฐฉ ํํํ์ผ๋ก ์ตํ๊ณ , ๋ณด์์ด ์ฃผ์ด์ง๋ ์๊ฐ ๊ทธ๊ฒ์ ์ ์ฌ ๋ฒกํฐ z๋ก ๋ณํํ์ฌ ์ฆ์ ์ต์ ์ ํ๋์ ์ฐพ์๋ธ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก BFM-Zero๊ฐ โ์ ๋ก์ท(Zero-shot)โ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๊ทผ๋ณธ์ ์ธ ์ด์ ์ด๋ค.
FB-CPR: ์ธ๊ฐ๋ค์ด ์์ง์์ ์ํ ๊ฐ์ด๋๋ผ์ธ
๋จ์ํ ๋ฌผ๋ฆฌ์ ์ธ ์์ง์๋ง ๋ฐฐ์ฐ๊ฒ ํ๋ฉด ํด๋จธ๋ ธ์ด๋๋ ๊ธฐ๊ดดํ๊ฒ ๊ด์ ์ ๊บพ๊ฑฐ๋ ๋นํจ์จ์ ์ผ๋ก ์์ง์ผ ์ ์๋ค. BFM-Zero๋ ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด FB-CPR(Conditional Policy Regularization) ๊ธฐ๋ฒ์ ๋์ ํ๋ค. ์ด๋ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ์ ํ์ฉํ์ฌ ๋ก๋ด์ ํ์ ๋ฒ์๋ฅผ โ์ธ๊ฐ๋ค์ด ๋์โ ๊ทผ์ฒ๋ก ํ์ ํ๋ ์ญํ ์ ํ๋ค.
์ฐ๊ตฌํ์ GAN(Generative Adversarial Network) ์คํ์ผ์ ํ๋ณ๊ธฐ(Discriminator)๋ฅผ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ํ์ฌ ์ ์ฑ ์ด ์์ฑํ๋ ์ํ-์ ์ฌ ๋ณ์ ๋ถํฌ์ ์ค์ ์ธ๊ฐ์ ๋ชจ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋น๊ตํ๋ค. ํ๋ณ๊ธฐ๋ ๋ก๋ด์ ์์ง์์ด ์ธ๊ฐ ๋ฐ์ดํฐ์ ์ ์๋ ๊ฒ์ธ์ง ์๋์ง๋ฅผ ํ๋ณํ๊ณ , ๋ก๋ด์ ํ๋ณ๊ธฐ๋ฅผ ์์ด๊ธฐ ์ํด ๋์ฑ ์์ฐ์ค๋ฌ์ด ๋์์ ์ทจํ๋๋ก ํ์ต๋๋ค. ์ด ๊ณผ์ ์ ๋น์ง๋ ํ์ต์์๋ ๋ถ๊ตฌํ๊ณ ๋ก๋ด์ด ๋งค์ฐ ์์ ์ ์ด๊ณ ๋ฏธํ์ ์ผ๋ก๋ ์ฐ์ํ ์ ์ ๊ธฐ์ ์ ์ต๋ํ๊ฒ ๋ง๋ ๋ค.
| ๊ตฌ์ฑ ์์ | ์ญํ | ์์ธ ๋ด์ฉ |
|---|---|---|
| ์ ๋ฐฉ๋ง (F-net) | ๋ฏธ๋ ์์ธก | ์ํ s์ ํ๋ a์์ ์ ์ฌ ๋ฒกํฐ z์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ์์ธก |
| ํ๋ฐฉ๋ง (B-net) | ์ํ ํน์ง ์ถ์ถ | ์์์ ์ํ s'๋ฅผ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์๋ฒ ๋ฉ |
| ์ ์ฑ ๋ง (\pi_z) | ํ๋ ๊ฒฐ์ | ํ์ฌ s์ ์ฃผ์ด์ง z์ ๋ํด ๊ฐ์น ํจ์๋ฅผ ์ต๋ํํ๋ a ์ ํ |
| ํ๋ณ๊ธฐ (D) | ํ๋ ๊ท์ | ๋ก๋ด์ ์์ง์์ ์ค์ ์ธ๊ฐ ๋ชจ์ ๋ฐ์ดํฐ์ ์ ์ฌํ๊ฒ ์ ์ง |
graph TD
subgraph Pre-training_Algorithm
Data --> Disc
State --> FNet[Forward Network F]
Action[Action a] --> FNet
Latent[Latent z] --> FNet
FNet --> TD
BNet --> TD
Disc --> Policy[Policy pi_z]
TD --> Policy
end
subgraph Inference_Pipeline
Goal --> Encoder[Inference Formula]
Encoder --> TargetZ
TargetZ --> Policy
Policy --> Control[Unitree G1 Actuators]
end
Sim-to-Real: ์๋ฎฌ๋ ์ด์ ์ ์งํ๋ฅผ ํ์ค์ ๊ฐ๊ฐ์ผ๋ก
์๋ฎฌ๋ ์ด์ ์์ ์๋ฌด๋ฆฌ ์ ๊ฑท๋ ๋ก๋ด์ด๋ผ๋ ํ์ค์ ๊ฑฐ์น ๋ฐ๋ฅ๊ณผ ์ผ์ ๋ ธ์ด์ฆ ์์์๋ ๋ฌด๋์ง๊ธฐ ์ฝ๋ค. BFM-Zero๋ ์ด ๊ฐ๊ทน์ ๋ฉ์ฐ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํต์ฌ ๊ณตํ์ ์ค๊ณ๋ฅผ ๋์ ํ๋ค.
Asymmetric History-Dependent Training
์๋ฎฌ๋ ์ด์ ์ ๋นํ๊ฐ(Critic)๋ ๋ก๋ด์ ์ ํํ ์ง๋ ์ค์ฌ, ๊ด์ ๋ง์ฐฐ๋ ฅ, ์ง๋ฉด ๋ฐ๋ ฅ ๋ฑ โํน๊ถ ์ ๋ณด(Privileged Information)โ๋ฅผ ๋ชจ๋ ์๊ณ ์๋ค. ํ์ง๋ง ์ค์ ๋ก๋ด์ ์ ์ฑ (Policy)์ ์ค์ง ๊ด์ ๊ฐ๋์ ์์ด๋ก์ค์ฝํ ๊ฐ์ โ๊ฐ์์ ์ํ(Observable State)โ์๋ง ์์กดํด์ผ ํ๋ค.
BFM-Zero๋ ์ด ์ ๋ณด์ ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์ฑ ๋ง์ โ์ญ์ฌ(History)โ๋ฅผ ์ฃผ์ ํ๋ค. ์ฆ, ๋จ์ํ ํ์ฌ ์ํ๋ฟ๋ง ์๋๋ผ ๊ณผ๊ฑฐ H ์คํ ๋์์ ๊ด์ธก๊ฐ๊ณผ ํ๋ ๊ธฐ๋ก์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด๋ ๋ก๋ด์ด ๋ช ์์ ์ธ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ง ๋ชปํ๋๋ผ๋, ๊ณผ๊ฑฐ์ ์์ง์ ํจํด์ ํตํด โ์ง๊ธ ๋ด ๋ฐ ๋ฐ์ด ๋ฏธ๋๋ฝ๊ตฌ๋โ ํน์ โ๋ด ๋ฑ์ ๋ฌด๊ฑฐ์ด ์ง์ด ์ค๋ ธ๊ตฌ๋โ๋ผ๋ ์ฌ์ค์ ๋ด๋ถ์ ์ผ๋ก ์ถ๋ก (Implicit Inference)ํ๊ฒ ๋ง๋ ๋ค.
Domain Randomization & Auxiliary Rewards
์ฐ๊ตฌํ์ ํ์ต ๊ณผ์ ์์ ๋ก๋ด์ ์ง๋, ๋งํฌ์ ๊ธธ์ด, ๋ง์ฐฐ ๊ณ์ ๋ฑ์ ๋ฌด์์๋ก ๋ณ๊ฒฝํ๋ ๋๋ฉ์ธ ๋๋คํ(DR)๋ฅผ ์ ์ฉํ๋ค. ์ด๋ ๋ก๋ด์ด ํน์ ํ๊ฒฝ์ ๊ณผ์ ํฉ(Overfitting)๋์ง ์๊ณ ๋ณดํธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ ์ํ๋๋ก ๋๋๋ค. ๋ํ, ํ์ค ์ธ๊ณ์ ์์ ์ ์ํด ๊ด์ ๋ฒ์๋ฅผ ๋ฒ์ด๋์ง ์๊ฒ ํ๊ฑฐ๋ ๊ธ๊ฒฉํ ํ ํฌ ๋ณํ๋ฅผ ์ต์ ํ๋ โ๋ณด์กฐ ๋ณด์(Auxiliary Rewards)โ์ ์ถ๊ฐํ๋ค. ํฅ๋ฏธ๋ก์ด ์ ์ ์ด๋ฌํ ๋ณด์กฐ ๋ณด์์ด ๋น์ง๋ ํ์ต์ ๋ณธ์ง์ ํด์น์ง ์์ผ๋ฉด์๋ ์ค์ ํ๋์จ์ด ์ด์์ ํ์์ ์ธ โ์์ ํ์คโ ์ญํ ์ ํ๋ค๋ ๊ฒ์ด๋ค.
| ํ๋ผ๋ฏธํฐ ์ ํ | ๊ฐ์์ ์ํ (Proprioception) | ํน๊ถ ์ ๋ณด (Privileged Info) |
|---|---|---|
| ๊ด์ ๋ฐ์ดํฐ | q_t, \dot{q}_t (์์น, ์๋) | ๋ชจ๋ ๋งํฌ์ ์ง๋ ์ค์ฌ ์์น |
| ๋ฃจํธ ๋ฐ์ดํฐ | \omega_{root}, g_t (๊ฐ์๋, ์ค๋ ฅ) | ๋ฃจํธ ์ ์๋, ์ง๋ฉด๊ณผ์ ๊ฑฐ๋ฆฌ |
| ์ธ๋ถ ํ๊ฒฝ | ๊ณผ๊ฑฐ ํ๋ ๊ธฐ๋ก a_{t-H:t-1} | ๋ง์ฐฐ ๊ณ์, ๊ฒฝ์ฌ๋, ์ธ๋ถ ์ญ๋๋ ฅ |
| ๋ฐ์ดํฐ ์ฐจ์ | 64์ฐจ์ (๋จ์ผ ์์ ๊ธฐ์ค) | 463์ฐจ์ (ํน๊ถ ์ ๋ณด ํฌํจ) |
์คํ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์: Unitree G1์์์ ์ค์ฆ์ ์ฑ๊ณผ
BFM-Zero์ ์ฑ๋ฅ์ Unitree G1 ํด๋จธ๋ ธ์ด๋๋ฅผ ํตํด ๊ฒ์ฆ๋์๋ค. Unitree G1์ 23๊ฐ์์ ์ต๋ 43๊ฐ์ ์์ ๋๋ฅผ ๊ฐ์ง ๊ณ ์ฑ๋ฅ ๋ก๋ด์ผ๋ก, ์ ์ ์ ์ด์ ๋์ด๋๊ฐ ๋งค์ฐ ๋๋ค.
์ ๋ก์ท ์์ ์ํ (Zero-shot Performance)
ํ์ต์ด ๋๋ ํ, ์ฐ๊ตฌ์ง์ ๋ก๋ด์๊ฒ ํ ๋ฒ๋ ๊ฐ๋ฅด์ณ์ฃผ์ง ์์ ์ธ ๊ฐ์ง ์ ํ์ ์์ ์ ์ฆ์์์ ๋ช ๋ น(Prompting)ํ๋ค.
- ๋ชฉํ ๋๋ฌ (Goal Reaching): ๋ก๋ด์๊ฒ ํน์ ์ ์ง ์์ธ s_g๋ฅผ ์ฃผ๋ฉด, ์ ์ฑ ์ z = B(s_g)๋ฅผ ํตํด ํ์ฌ ์์น์์ ํด๋น ์์ธ๋ก ๋ถ๋๋ฝ๊ฒ ์ ์ดํ๋ค. ์ด๋ ๋ง์น ์๋ จ๋ ๋ฌด์ฉ์๊ฐ ์ด๋ค ํฌ์ฆ๋ฅผ ์๊ตฌ๋ฐ์์ ๋ ๋ชธ์ ๊ท ํ์ ์ ์งํ๋ฉฐ ์ฐ์ํ๊ฒ ๊ทธ ์์ธ๋ฅผ ์ทจํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
- ๋์ ์ถ์ข (Motion Tracking): ์ฐ์์ ์ธ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ฉด, ๋ก๋ด์ ์ด๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ฐ๋ผ๊ฐ๋ค. BFM-Zero๋ ๊ธฐ์กด์ SOTA ๋ชจ๋ธ์ธ GMT(Global Motion Tracking)๋ณด๋ค ๋ ์ ์ ๋ฐ์ดํฐ๋ก๋ ํจ์ฌ ๋ ๋งค๋๋ฌ์ด ์ถ์ข ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
- ๋ณด์ ์ต์ ํ (Reward Optimization): โ๋จธ๋ฆฌ ๋์ด๋ฅผ ์ ์งํ๋ฉฐ ์์ผ๋ก ๊ฑธ์ด๋ผโ์ ๊ฐ์ ํ ์คํธ ํํ์ ๋ ผ๋ฆฌ์ ๋ณด์ ํจ์๋ฅผ ์ฃผ๋ฉด, ๋ก๋ด์ ์ ์ฌ ๊ณต๊ฐ์ ํ์ํ์ฌ ์ด๋ฅผ ๋ง์กฑํ๋ ์์ง์์ ์ฆ์ ์์ฑํ๋ค.
์ธ๋์ ๋ํ ๊ฐ๊ฑด์ฑ (Disturbance Rejection)
BFM-Zero์ ๊ฐ์ฅ ์ธ์์ ์ธ ์ฅ๋ฉด ์ค ํ๋๋ ๋ก๋ด์ด ํฐ ์ธ๋ถ ์ถฉ๊ฒฉ์ ๋ฐ์์ ๋์ด๋ค. ๋ก๋ด์ด ๋ณดํ ์ค ์์์ ๊ฐํ๊ฒ ๋ฐ๋ฆฌ๋ฉด, ์ ์ฑ ์ ์ ์ฌ ๊ณต๊ฐ์ ์ฐ์์ฑ์ ํ์ฉํ์ฌ ์์ฐ์ค๋ฝ๊ฒ โํ๋ณต ๋์โ์ผ๋ก ์ ์ดํ๋ค. ์ด๋ ํน์ ๊ถค์ ๋ง์ ๊ณ ์งํ๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ์ ์ฌ ๊ณต๊ฐ ์์ฒด๊ฐ ๋ก๋ด์ ๋์ญํ์ ์์ ์ฑ์ ๋ดํฌํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ์ด๋ค.
ํจ์ท ์ ์: 4kg์ ํ์ด๋ก๋๋ฅผ ๊ฒฌ๋๋ค
์ ๋ก์ท ์ถ๋ก ์ด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์๋ ์๋ค. ํ์ต ์ ๊ฒฝํํ์ง ๋ชปํ 4kg์ ๋ฌด๊ฑฐ์ด ํ์ด๋ก๋๊ฐ ๊ฐ์๊ธฐ ์ถ๊ฐ๋์์ ๋, ๋ก๋ด์ ์ฒ์์ ๋ค์ ๋ถ์์ ํ ๋ชจ์ต์ ๋ณด์๋ค. ํ์ง๋ง ์ฐ๊ตฌ์ง์ ์ ์ฌ ๊ณต๊ฐ Z ๋ด์์ ์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ(CMA-ES ๋ฑ)๋ฅผ ์ํํ๋ โํจ์ท ์ ์(Few-shot Adaptation)โ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋จ 2๋ถ ๋ฏธ๋ง์ ์๋ฎฌ๋ ์ด์ ์ ์๋ง์ผ๋ก ๋ก๋ด์ ํ์ด๋ก๋์ ๋ฌด๊ฒ๋ฅผ ๊ฐ์ํ์ฌ ๋ฌด๊ฒ ์ค์ฌ์ ๋ค๋ก ์ฎ๊ธฐ๋ ๋ฒ์ ์ค์ค๋ก ํฐ๋ํ๊ณ , ํ ๋ฐ ์๊ธฐ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋๋ฆฌ๋ ๋ฐ ์ฑ๊ณตํ๋ค.
๋นํ์ ๊ณ ์ฐฐ: ์ฐ๊ตฌ์ ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์ ๋ฐ ๊ธฐ์ฌ๋
BFM-Zero๋ ๋น์ง๋ ๊ฐํํ์ต์ด ์ค์ ๋ณต์กํ ํด๋จธ๋ ธ์ด๋ ํ๋์จ์ด์์๋ ์๋ํ ์ ์์์ ์ฆ๋ช ํ ์ต์ด์ ์ฌ๋ก ์ค ํ๋์ด๋ค. ํนํ ๋ณด์ ํจ์๋ฅผ ๋งค๋ฒ ์ฌ์ค๊ณํ ํ์ ์์ด โํ๋กฌํํธโ๋ฅผ ํตํด ๋ก๋ด์ ํ๋์ ์ ์ดํ ์ ์๋ค๋ ์ ์ ๋ก๋ด ๊ณตํ์ ๋์คํ์ ํ์ฅ์ฑ ์ธก๋ฉด์์ ์์ฒญ๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ํ, FB ํํํ์ ์ํ์ ๊ฐ๊ฒฐํจ์ด ์ค์ ํด๋จธ๋ ธ์ด๋์ ๋ณต์กํ ๋์ญํ์ ํจ๊ณผ์ ์ผ๋ก ์์ถํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
ํ๊ณ์ ๋ฐ ๊ฐ์ ๋ฐฉํฅ
๋ฌผ๋ก ์๋ฒฝํ ๋ชจ๋ธ์ ์๋๋ค. ์ฒซ์งธ, ์ ์ฌ ๊ณต๊ฐ์ ๋ถ๊ดด(Latent Collapse) ์ํ์ด ์กด์ฌํ๋ค. ํน์ ๋๋ฉ์ธ ๋๋คํ ์กฐ๊ฑด์์ ์ผ๋ถ ๋์๋ค์ด ์ ์ฌ ๊ณต๊ฐ ์์ ํ ์ ์ผ๋ก ๋ชจ์ฌ๋ฒ๋ ค ํ๋์ ๋ค์์ฑ์ด ์์ค๋๋ ํ์์ด ๊ด์ฐฐ๋์๋ค. ๋์งธ, ์ ๋ฐํ ์๋ ์ ์ด์ ์ด๋ ค์์ด๋ค. ๋น๋์ค ๋ถ์ ๊ฒฐ๊ณผ, ๋ก๋ด์ด ์ ์ง ์ํ์์๋ ๋ฏธ์ธํ๊ฒ ํ๋ฅด๋(Drifting) ํ์์ด ๋ณด์ด๋๋ฐ, ์ด๋ ๊ด์ธก ๋ฐ์ดํฐ์ ์ ๋ฃจํธ์ ์ ์๋๊ฐ ํฌํจ๋์ง ์์ ์ค๊ณ์ ์ ํ์์ ๊ธฐ์ธํ์ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ์ ์งธ, ๋น์ง๋ ํ์ต์ ํ์ง์ด ์ฌ์ ํ ๋ชจ์ ๋ฐ์ดํฐ์ ์ ์ง์ ์์กดํ๋ค๋ ์ ์ด๋ค. ์ธ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์๋ ๊ธฐ๋ฐํ ๋์(์: ๋ฌผ๊ตฌ๋๋ฌด ์์ ๊ฑท๊ธฐ ๋ฑ)์ ํ์ฌ์ FB-CPR ๊ตฌ์กฐ ํ์์๋ ํ์ต๋๊ธฐ ์ด๋ ต๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
BFM-Zero๋ โํ์ต๋ ์ ๋ฌธ๊ฐโ์์ โํ์ต ๊ฐ๋ฅํ ์ผ๋ฐ์ธโ์ผ๋ก ํด๋จธ๋ ธ์ด๋์ ํจ๋ฌ๋ค์์ ์ ํํ๋ ค๋ ์๋์ด๋ค. ์ด ๋ชจ๋ธ์ ์ ๋ฐฉ-ํ๋ฐฉ ํํํ์ด๋ผ๋ ๊ฐ๋ ฅํ ์ํ์ ํ ๋ ์์ ๋น์ง๋ ํ์ต๊ณผ ๋น๋์นญ ์ญ์ฌ ํ์ต์ด๋ผ๋ ๊ณตํ์ ๊ธฐ์ ์ ๊ฒฐํฉํ์ฌ, ์ค์ ์ธ๊ณ์ ๋ณต์ก์ฑ์ ๊ฒฌ๋๋ด๋ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ค.
๋ก๋ด๊ณตํ์๋ค์๊ฒ ์ด ์ฐ๊ตฌ๊ฐ ์ฃผ๋ ๋ฉ์์ง๋ ๋ช ํํ๋ค. ์ฐ๋ฆฌ๊ฐ ๋ก๋ด์๊ฒ ๋ชจ๋ ์ํฉ์ ๋ํ ์ ๋ต์ ๊ฐ๋ฅด์น ์๋ ์์ง๋ง, ๋ก๋ด์ด ์ค์ค๋ก ์ ๋ต์ ์ฐพ์ ์ ์๋ โ๊ณต๊ฐโ๊ณผ โ์ธ์ดโ๋ฅผ ๋ง๋ค์ด์ค ์๋ ์๋ค๋ ๊ฒ์ด๋ค. BFM-Zero๊ฐ ๊ตฌ์ถํ ์ด ์ ์ฌ ๊ณต๊ฐ์ ํฅํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด๋ ์๊ฐ ๋ชจ๋ธ(VLM)๊ณผ ๊ฒฐํฉ๋์ด, ์ธ๊ฐ์ ๊ณ ์์ค ๋ช ๋ น์ ์ ์์ค์ ์ ๊ตํ ๋ชจํฐ ์ ์ด๋ก ์ฐ๊ฒฐํ๋ ํต์ฌ ๊ณ ๋ฆฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก BFM-Zero๋ ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ์๋ก์ด ํ์ค์ ์ ์ํ๋ค. ์ด์ ์ฐ๋ฆฌ๋ ๋ก๋ด์๊ฒ โ์ด๋ป๊ฒ ๊ฑธ์์งโ๋ฅผ ๊ฐ๋ฅด์น๋ ๋จ๊ณ๋ฅผ ๋์ด, ๋ก๋ด์ด ์ค์ค๋ก โ์ด๋ค ์์ง์์ด ๊ฐ๋ฅํ์งโ๋ฅผ ํ๊ตฌํ๊ฒ ๋ง๋ค๊ณ ์๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ์ฐ๋ฆฌ๊ฐ ๊ฟ๊พธ๋ โ์ผ๋ฐ ์ง๋ฅ์ ๊ฐ์ง ๋ก๋ดโ์ผ๋ก ๊ฐ๋ ๊ฐ์ฅ ์ ๋งํ ๊ฒฝ๋ก ์ค ํ๋์์ ํ๋ฆผ์๋ค.