flowchart LR
subgraph ์
๋ ฅ["๋ค์ํ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ"]
A["๐ค ๋ก๋ด ๋ชจ์
<br/>(ํค๋ค๋งํฑ ํ๋๋)"]
B["๐ง ์ธ๊ฐ ๋ชจ์
<br/>(VR/๋น๋์ค/SMPL)"]
C["๐ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ์
<br/>(์์ฒด ์ธ๊ฐ + ํ์ฒด ๋ก๋ด)"]
end
subgraph ์ธ์ฝ๋["์ ์ฉ ์ธ์ฝ๋ (MLP)"]
EA["๋ก๋ด ์ธ์ฝ๋ โฐ_r"]
EB["์ธ๊ฐ ์ธ์ฝ๋ โฐ_h"]
EC["ํ์ด๋ธ๋ฆฌ๋ ์ธ์ฝ๋ โฐ_hyb"]
end
subgraph ์์ํ["FSQ ์์ํ๊ธฐ"]
Q["๋ฒ์ฉ ํ ํฐ z"]
end
subgraph ๋์ฝ๋["๊ณต์ ๋์ฝ๋"]
DC["์ ์ด ๋์ฝ๋ ๐_c<br/>โ ๊ด์ ๋ช
๋ น"]
DR["๋ชจ์
๋์ฝ๋ ๐_r<br/>โ ๋ก๋ด ๋ชจ์
์ฌ๊ตฌ์ฑ"]
end
A --> EA --> Q
B --> EB --> Q
C --> EC --> Q
Q --> DC
Q --> DR
๐Sonic ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค SONIC์ ๋๊ท๋ชจ ๋ฐ์ดํฐ(1์ต ํ๋ ์ ์ด์), ์ปดํจํ (9k GPU ์๊ฐ), ๋ชจ๋ธ ํฌ๊ธฐ(42M ํ๋ผ๋ฏธํฐ)๋ฅผ ํ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ๋ชจ์ ํธ๋ํน์ ํ์ฅํจ์ผ๋ก์จ, ์์ฐ์ค๋ฝ๊ณ ๊ฐ๋ ฅํ ์ ์ ์์ง์์ ์์ฑํ๋ ๋ฒ์ฉ ์ ์ด๊ธฐ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
- ๐ ์ด ํ๋ ์์ํฌ๋ ์ฌ์ฉ์ ๋ช ๋ น์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ค์๊ฐ Kinematic Planner์ VR Teleoperation, Human Video, Text, Music, VLA ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋ค์ํ ์ ๋ ฅ ์ธํฐํ์ด์ค๋ฅผ ์ง์ํ๋ Universal Token Space๋ฅผ ํตํด ๊ด๋ฒ์ํ ์ค์ ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- โจ SONIC์ ์ด์ ์ ๋ณธ ์ ์๋ ๋ชจ์ ์ ๋ํ ๋ฐ์ด๋ Generalization๊ณผ Unitree G1 ๋ก๋ด์์์ Robustํ Sim-to-Real Deployability๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, GR00T N1.5 VLA ๋ชจ๋ธ๊ณผ์ ์ฑ๊ณต์ ์ธ ํตํฉ์ผ๋ก Foundation Model ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด์ ์ค์ฉ์ ์ธ ๊ธฐ๋ฐ์ ๋ง๋ จํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ์ฐ๊ตฌ๋ ์์ฐ์ค๋ฌ์ด ํด๋จธ๋ ธ์ด๋(humanoid) ์ ์ ์ ์ด๋ฅผ ์ํ ๋์ ์ถ์ (motion tracking)์ ๊ท๋ชจ ํ์ฅ(supersizing)์ ์ค์ ์ ๋ SONIC(Supersizing mOtion tracking for Natural humanoId Control) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ํด๋จธ๋ ธ์ด๋ ์ ์ด ๋ฐฉ์์ด ์๋์ ์ธ ๋ณด์ ์ค๊ณ(reward engineering)์ ์ ํ์ ์ธ ํ๋์ ๋จธ๋ฌด๋ ๋ฐ๋ฉด, ์ด ์ฐ๊ตฌ๋ ๋ชจ๋ธ ์ฉ๋, ๋ฐ์ดํฐ ์, ์ปดํจํธ(compute)๋ฅผ ํ์ฅํจ์ผ๋ก์จ ๋ค์ํ ํ๋์ ์ฒ๋ฆฌํ ์ ์๋ ์ผ๋ฐํ๋(generalist) ํด๋จธ๋ ธ์ด๋ ์ปจํธ๋กค๋ฌ๋ฅผ ๊ฐ๋ฐํ๋ค.
1. ๋์ ๋ฐ ๋๊ธฐ (Introduction & Motivation)
์ต๊ทผ ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(foundation models)์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ปดํจํธ ์์์ผ๋ก ์ ๋ก ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ํด๋จธ๋ ธ์ด๋ ์ ์ด ๋ถ์ผ์์๋ ์ ์ฌํ ๊ท๋ชจ ํ์ฅ์ด ์ด๋ฃจ์ด์ง์ง ์์๋ค. ์ด๋ ์ฃผ๋ก ํ์คํฌ ์ ํ์ ๋ฌธ์ ์ ๊ฐ ํ์คํฌ์ ๋ํ ์๋์ ์ธ ๋ณด์ ์ค๊ณ์ ๊ธฐ์ธํ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ ์ถ์ ์ ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ํ์ฅ ๊ฐ๋ฅํ(scalable) foundational task๋ก ์ ์ํ๋ค. ๋์ ์ถ์ ์ ๋ชจ์ ์บก์ฒ(motion capture) ๋ฐ์ดํฐ๋ก๋ถํฐ ์กฐ๋ฐํ ํ๋ ์๋ณ ์ง๋ ํ์ต(dense, frame-by-frame supervision)์ ์ ๊ณตํ๋ฏ๋ก ์๋์ ์ธ ๋ณด์ ์ค๊ณ๊ฐ ํ์ ์์ผ๋ฉฐ, ์ด๋ ๊ท๋ชจ ํ์ฅ์ ์ ๋ฆฌํ๋ค.
2. SONIC ํ๋ ์์ํฌ ๊ฐ์ (SONIC Framework Overview)
SONIC์ ์ ๋ํธ๋ฆฌ G1 ํด๋จธ๋ ธ์ด๋(Unitree G1 humanoid) ๋ก๋ด์ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ๊ธฐ๋ฅ์ ๊ตฌํํ๋ค:
- ๊ท๋ชจ ํ์ฅ๋ ๋์ ์ถ์ (Supersized Motion Tracking): 1์ต ํ๋ ์ ์ด์์ ๋ชจ์ ๋ฐ์ดํฐ์ 9,000 GPU ์๊ฐ(์ต๋ 128 GPU)์ ์ฌ์ฉํ์ฌ ๋ฒ์ฉ์ ์ธ(universal) ์ถ์ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ค.
- ์ค์๊ฐ ํค๋ค๋งํฑ ๋ชจ์ ํ๋๋ (Real-time Kinematic Motion Planner): ์ฌ์ฉ์ ์๋๋ฅผ ๋จ๊ธฐ ๋ชจ์ ๋ ํผ๋ฐ์ค(short-horizon reference motions)๋ก ๋ณํํ์ฌ ์์ฐ์ค๋ฝ๊ณ ์ธํฐ๋ํฐ๋ธํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ํตํฉ ํ ํฐ ๊ณต๊ฐ (Unified Token Space): VR ํ ๋ ์คํผ๋ ์ด์ (teleoperation) ๊ธฐ๊ธฐ, ์ธ๊ฐ ๋น๋์ค, VLA(Vision-Language-Action) ๋ชจ๋ธ ๋ฑ ๋ค์ํ ๋ชจ์ ์ ๋ ฅ ์ธํฐํ์ด์ค๋ฅผ ๋์ผํ ์ ์ฑ (policy)์ผ๋ก ์ง์ํ๋ค.
3. ํต์ฌ ๋ฐฉ๋ฒ๋ก - ๋ฒ์ฉ ํด๋จธ๋ ธ์ด๋ ๋ชจ์ ์ถ์ (Core Methodology - Universal Humanoid Motion Tracking)
3.1. ๋ชจ์ ์ถ์ ์ ํํ (Motion Tracking Formulation)
ํด๋จธ๋ ธ์ด๋ ๋ชจ์ ์ถ์ ์ ๋ง๋ฅด์ฝํ ์์ฌ ๊ฒฐ์ ํ๋ก์ธ์ค(Markov Decision Process, MDP) \mathcal{M} = \langle\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \gamma\rangle๋ก ์ ํํ๋๋ฉฐ, PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฑ ์ ํ์ต์ํจ๋ค.
- ์ํ (States): ๋ก๋ด์ ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ(proprioceptive sensing) s_p^t (๊ด์ ์์น q_t, ๊ด์ ์๋ \dot{q}_t, ๋ฃจํธ(root) ๊ฐ์๋ \omega_t, ์ค๋ ฅ ๋ฒกํฐ g_t, ์ด์ ํ๋ a_{t-1})์ ๋ชจ์ ๋ช ๋ น์ด(motion command) s_g^t๋ก ๊ตฌ์ฑ๋๋ค. ๋ชจ์ ๋ช ๋ น์ด๋ ๋ก๋ด ๋ชจ์ g_r, ์ธ๊ฐ ๋ชจ์ g_h, ๋๋ ํ์ด๋ธ๋ฆฌ๋(hybrid) ๋ชจ์ g_m (์์ฒด ํคํฌ์ธํธ(keypoints)์ ํ์ฒด ๋ก๋ด ๋ชจ์ ๊ฒฐํฉ)์ ์ธ ๊ฐ์ง ์ ํ์ด ์๋ค. ๋ชจ๋ ์ํ ๊ฐ์ ๋ก๋ด์ ๋ก์ปฌ ํค๋ฉ ํ๋ ์(local heading frame)์์ 6D rotation representation (Zhou et al., 2019)์ ์ฌ์ฉํ์ฌ ํํ๋๋ค.
- ํ๋ (Actions): ์ ์ฑ \pi๋ ๊ฐ ๊ด์ ์ PD(Proportional-Derivative) ์ปจํธ๋กค๋ฌ์ ์ํด ์ถ์ ๋๋ ๋ชฉํ ๊ด์ ์์น(target joint positions) a_t๋ฅผ ์ถ๋ ฅํ๋ค.
- ๋ณด์ (Rewards): ๋ณด์์ ์ถ์ ๋ณด์(tracking reward)๊ณผ ํ๋ํฐ(penalty) ํญ์ ๊ฒฐํฉํ r_t = \mathcal{R}(s_p^t, s_g^t) + \mathcal{P}(s_p^t, a_t)๋ก ์ ์๋๋ค. ์ถ์ ๋ณด์ \mathcal{R}์ ๋ก๋ด์ ์ํ์ ๋ชฉํ ๋ชจ์ ๊ฐ์ ๋ฃจํธ ์์น, ๋ฃจํธ ๋ฐฉํฅ, ์ ์ฒด ๋งํฌ(body link) ์์น ๋ฐ ๋ฐฉํฅ, ์ ํ ๋ฐ ๊ฐ์๋ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ค. ํ๋ํฐ \mathcal{P}๋ ๊ธ์์ค๋ฌ์ด ํ๋ ๋ณํ, ๊ด์ ์ ํ ์๋ฐ, ์์น ์๋ ์ ์ด์ ๋ฐฉ์งํ๋ค.
- ๋๋ฉ์ธ ๋ฌด์์ํ (Domain Randomization): ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ํ๋ จ ์ค์ ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ(๋ง์ฐฐ ๊ณ์, ๋ณต์ ๊ณ์, ๊ธฐ๋ณธ ๊ด์ ์์น, ๋ฒ ์ด์ค COM ์คํ์ ), ๋ฃจํธ ์๋ ๊ต๋(external pushes), ๋ชฉํ ๋ชจ์ ๊ต๋(target motion perturbations) ๋ฑ์ ๋ฌด์์ํํ๋ค.
3.2. ๋ฒ์ฉ ์ ์ด ์ ์ฑ (Universal Control Policy)
SONIC์ ํต์ฌ์ ๋ค์ํ ์ ์ฒด(embodiments)์ ๋ชจ์ ๋ช ๋ น์ ์์ฉํ ์ ์๋ ํตํฉ ์ธ์ฝ๋-๋์ฝ๋(encoder-decoder) ์ํคํ ์ฒ์ด๋ค. ์ด๋ ์ธ๊ฐ ๋ฐ ๋ก๋ด ์ ์ฒด๋ก๋ถํฐ์ ์ด์ง์ ์ธ(heterogeneous) ์ ๋ ฅ์ ๊ณต์ ๋ ์ ์ฌ ํํ(shared latent representation)์ผ๋ก ์ฒ๋ฆฌํ๋ ํน์ ์ธ์ฝ๋๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค. ์ด ์ ์ฌ ํํ์ ์์ํ(quantization)๋์ด ๋ฒ์ฉ ํ ํฐ(universal token)์ด ๋๋ฉฐ, ์ด ํ ํฐ์ด ๊ณตํต ๋ก๋ด ์ ์ด ๋์ฝ๋(common robot control decoder)๋ฅผ ๊ตฌ๋ํ์ฌ ๋ชจํฐ ๋ช ๋ น์ ์์ฑํ๋ค.
- ์ธ์ฝ๋ (Encoders): ์ธ ๊ฐ์ง ํน์ ์ธ์ฝ๋๊ฐ ์กด์ฌํ๋ค.
- ๋ก๋ด ๋ชจ์ ์ธ์ฝ๋ (Robot Motion Encoder) \mathcal{E}_r: ๋ก๋ด ๊ด์ ์์น์ ์๋๋ฅผ ๋ฏธ๋ \Delta t_r ๊ฐ๊ฒฉ์ผ๋ก F_r ํ๋ ์ ๋์ ์ธ์ฝ๋ฉํ๋ค.
- ์ธ๊ฐ ๋ชจ์ ์ธ์ฝ๋ (Human Motion Encoder) \mathcal{E}_h: 3D ์ธ๊ฐ ๊ด์ ์์น๋ฅผ ๋ฏธ๋ \Delta t_h ๊ฐ๊ฒฉ์ผ๋ก F_h ํ๋ ์ ๋์ ์ธ์ฝ๋ฉํ๋ค.
- ํ์ด๋ธ๋ฆฌ๋ ๋ชจ์ ์ธ์ฝ๋ (Hybrid Motion Encoder) \mathcal{E}_m: ํ์ฌ ํ๋ ์์ ํฌ์ํ ์์ฒด ํคํฌ์ธํธ(๋จธ๋ฆฌ, ์)์ ๋ฏธ๋ \Delta t_m ๊ฐ๊ฒฉ์ผ๋ก F_m ํ๋ ์ ๋์์ ํ์ฒด ๋ก๋ด ๋ชจ์ ์ ๊ฒฐํฉํ์ฌ ์ธ์ฝ๋ฉํ๋ค. ๋ชจ๋ ์ธ์ฝ๋๋ MLP(Multi-Layer Perceptrons)๋ก ๊ตฌํ๋๋ฉฐ, ๋ค์ค ํ๋ ์ ์ ๋ ฅ์ ์์ธก ํ๋๊ณผ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํจ๋ค.
- ์์ํ๊ธฐ (Quantizer): ์ธ์ฝ๋ฉ๋ ์ ์ฌ ํํ์ FSQ(Finite Scalar Quantization) (Mentzer et al., 2023)๋ฅผ ์ฌ์ฉํ์ฌ D_z ์ฐจ์์ Lz ์์ํ ๋ ๋ฒจ์ ๊ฐ์ง ๋ฒ์ฉ ํ ํฐ z๋ก ์์ํ๋๋ค.
- ๋์ฝ๋ (Decoders):
- ๋ก๋ด ์ ์ด ๋์ฝ๋ (Robot Control Decoder) \mathcal{D}_c: ๋ฒ์ฉ ํ ํฐ์ ๋ก๋ด์ ๊ด์ ์ ์ ์ดํ๋ ๋ชจํฐ ๋ช ๋ น์ผ๋ก ๋ณํํ๋ค.
- ๋ก๋ด ๋ชจ์ ๋์ฝ๋ (Robot Motion Decoder) \mathcal{D}_r: ๋ก๋ด ๋ชจ์ ๋ช ๋ น์ ์ฌ๊ตฌ์ฑํ์ฌ ์ ์ฌ ๊ณต๊ฐ์ ๊ฐ์ ํ๊ณ ํน์ง ํ์ต(feature learning)์ ๋๋ ๋ณด์กฐ ์ง๋(auxiliary supervision)๋ฅผ ์ ๊ณตํ๋ค.
- ํ๋ จ (Training): ํ๋ จ์ ๋๊ธฐํ๋ ๋ชจ์
๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์งํ๋๋ฉฐ, ๊ฐ ๋ชจ์
์ ํ(g_r, g_h, g_m)์ ํด๋น ์ธ์ฝ๋๋ฅผ ํตํด ์ธ์ฝ๋ฉ๋๊ณ ์์ํ๋์ด ๋ฒ์ฉ ํ ํฐ z_r, z_h, z_m์ ์์ฑํ๋ค. ์ ์ฒด ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค: \mathcal{L} = \mathcal{L}_{\text{ppo}} + \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{token}} + \mathcal{L}_{\text{cycle}}
- \mathcal{L}_{\text{ppo}}: ํ์ค PPO ์์ค.
- \mathcal{L}_{\text{recon}} = \|\mathcal{D}_r(z_r) - g_r\|^2 + \|\mathcal{D}_r(z_h) - g_r\|^2 + \|\mathcal{D}_r(z_m) - g_r\|^2: ๋ค์ํ ์ ๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ(modality)์ ๋ํ ๋ก๋ด ๋ชจ์ ๋ช ๋ น ์ฌ๊ตฌ์ฑ ์์ค. ํนํ g_h๊ฐ ์ ๋ ฅ์ผ ๋๋ ์ธ๊ฐ ๋ชจ์ ์์ ๋ก๋ด ๋ชจ์ ์ผ๋ก์ ๋ฆฌํ๊ฒํ (retargeting) ํ์ดํ๋ผ์ธ ์ญํ ์ ํ๋ฉฐ, ํฌ๋ก์ค-์๋ฐ๋๋จผํธ(cross-embodiment) ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- \mathcal{L}_{\text{token}} = \|z_r - z_h\|^2: ๋ก๋ด ํ ํฐ z_r๊ณผ ์ธ๊ฐ ๋ชจ์ ํ ํฐ z_h ๊ฐ์ ๋ถ์ผ์น๋ฅผ ์ธก์ ํ์ฌ, ์ธ์ฝ๋ ๋คํธ์ํฌ๊ฐ ์ ์ฒด ๊ฐ ์ ๋ ฌ๋ ํํ์ ์์ฑํ๋๋ก ์ฅ๋ คํ๋ค.
- \mathcal{L}_{\text{cycle}} = \|\mathcal{E}_r(\mathcal{D}_r(z_h)) - z_r\|^2: ์๋ณธ ๋ก๋ด ํ ํฐ z_r๊ณผ ์ธ๊ฐ ํ ํฐ์ผ๋ก๋ถํฐ ์ฌ๊ตฌ์ฑ๋ ๋ก๋ด ๋ชจ์ ์ ๋ค์ ์ธ์ฝ๋ฉํ ํ ํฐ ๊ฐ์ cycle consistency ์์ค. ์ ์ํ ๋ชจ์ ์ํ๋ง(adaptive motion sampling)๊ณผ ๋ถ์ฐ ํ๋ จ(distributed training)์ด ์ฌ์ฉ๋๋ค.
3.3. ์์ฑ ํค๋ค๋งํฑ ๋ชจ์ ํ๋๋ (Generative Kinematic Motion Planner)
์ด ํ๋๋๋ ๋์ ์ถ์ ์ ์ฑ ๊ณผ ๋์ผํ ๋๊ท๋ชจ ์์ฐ ์ ์ ๋ชจ์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๋๊ท๋ชจ ์ ์ฌ ์์ฑ ๋ชจ๋ธ(large-scale latent generative model)์ด๋ค. ๋์ ์ธ๊ทธ๋จผํธ๋ฅผ 0.8์ด์์ 2.4์ด ์ฌ์ด๋ก ์์ฑํ๋ฉฐ, 5ms(๋ ธํธ๋ถ) ๋๋ 12ms(Jetson Orin GPU) ๋ฏธ๋ง์ ์ถ๋ก ์๊ฐ(inference time)์ ๋ณด์ธ๋ค.
- ๋ชจ์ ํํ (Motion Representation): ํ๋ จ ์ค์๋ ํ ๋น์ค(pelvis)๋ฅผ ๊ธฐ์ค์ผ๋ก ํ ๊ด์ ์์น์ ์ ์ญ(global) ๊ด์ ํ์ ์ ์ฌ์ฉํ์ฌ ํค๋ค๋งํฑ ๋ชจ์ ์ ํํํ๋ค.
- ์ ์ฌ ๊ณต๊ฐ์์์ ์์ฑ ์ ๊ฒฝ๋ง ๋ฐฑ๋ณธ (Generative Neural Backbone in Latent Space): ๊ณํ์ ์ ์ฌ ๊ณต๊ฐ์์ ์ํ๋๋ฉฐ, ์ฐ์์ ์ธ ๋ชจ์ ์ ๋ค์๊ณผ ๊ฐ์ ์ ์ฌ ํ ํฐ ์ํ์ค๋ก ์ธ์ฝ๋ฉ๋๋ค: \{z_t\}^{T/4}_{t=1} = \text{enc}\{p_t, r_t\}^T_{t=1} ์ฌ๊ธฐ์ p_t๋ ํฌ์ฆ ๊ตฌ์ฑ, r_t๋ t ์์ ์ ๋ฃจํธ ์์น์ด๋ค. ํธ๋์คํฌ๋จธ(Transformer) ๋๋ Conv1D ๋คํธ์ํฌ๊ฐ ์๊ฐ์ ์ผ๊ด์ฑ(temporal consistency)์ ํฌ์ฐฉํ๋ค. ์ธ๋นํธ์๋(in-betweening) ๊ณผ์ ์ ์์ ๋ฐ ๋ชฉํ ํคํ๋ ์(keyframes)์ ์ํด ์๋ด๋๋ฉฐ, ๋ง์คํฌ๋ ํ ํฐ ์์ธก(masked token prediction) ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. h = \mathcal{F}(\{p_t, r_t\}^4_{t=1}, \{p_t, r_t\}^T_{t=T-4}, \{z_t\}^{T/4}_{t=1}) \text{Prob}(z_t) = \sigma(h) ์ฌ๊ธฐ์ \mathcal{F}(\cdot)๋ ์ ๊ฒฝ๋ง ๋ฐฑ๋ณธ์ ๋ํ๋ด๊ณ h๋ ๊ฐ ํ ํฐ ์์น์ ๋ก์ง(logits)์ด๋ค.
- ๋ฃจํธ ๊ฒฝ๋ก ์คํ๋ง ๋ชจ๋ธ (Root Trajectory Spring Model): ์ฌ์ฉ์ ๋ช ๋ น์ผ๋ก๋ถํฐ ํคํ๋ ์์ ๋ฃจํธ ์์น์ ํค๋ฉ์ ์์ฑํ๊ธฐ ์ํด ์ง๊ด์ ์ธ ์๊ณ ๊ฐ์ ์คํ๋ง ๋ชจ๋ธ(critically damped spring model)์ ์ฌ์ฉํ๋ค: x(t) = x_T - x_0 + v_0 + \frac{c}{2} (x_T - x_0) t e^{-\frac{c}{2}t} ์ด๋ ํ ๋น์ค์ x์ถ ๋ฐ y์ถ ์์น์ ํ ๋น์ค์ ํฌ์๋ ํค๋ฉ ๊ฐ๋์ ์ ์ฉ๋๋ค.
- ํคํ๋ ์ ๋ชจ๋ ๋ฐ ์์ฉ ํตํฉ (Keyframe Module and Application Integration): ํ์ ์ ์ด(navigation control)์์๋ ๋ชฉํ ๋ฃจํธ ๊ฒฝ๋ก์ ์ํ๋ ์คํ์ผ์ ํด๋ฆฝ์์ ๋ฌด์์๋ก ์ ํ๋ ์ธ๊ทธ๋จผํธ๋ฅผ ๋ฐฐ์นํ์ฌ ํคํ๋ ์์ ์์ฑํ๋ค. ๋ณต์ฑ๊ณผ ๊ฐ์ ์ํฐํ ์ธ๋จผํธ ํ์คํฌ์์๋ ๊ฐ์ฅ ํํ์ ์ธ ์ธ๊ทธ๋จผํธ๊ฐ ๋ชฉํ ํคํ๋ ์์ผ๋ก ์ฌ์ฉ๋๋ค. ์ค์ฟผํ (squatting)์ด๋ ๋ฌด๋ฆ ๊ฟ๊ธฐ(kneeling)์ ๊ฐ์ ์กฐ์ ํ์คํฌ์์๋ ๋ชจ์ ํด๋ฆฝ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ค์๊ฐ์ผ๋ก ํคํ๋ ์์ ๊ฐ์ ธ์จ๋ค.
3.4. ๋ฉํฐ๋ชจ๋ฌ ๋ชจ์ ์์ฑ ๋ชจ๋ธ (Multi-modal Motion Generation Model)
GENMO (Li et al., 2025)๋ฅผ ์ฑํํ์ฌ ํ๋์ ํ๋ ์์ํฌ ๋ด์์ ๋ฉํฐ๋ชจ๋ฌ ์ปจ๋์ ๋(multi-modal conditioning)์ ์ง์ํ๋ค. ํต์ฌ ์์ด๋์ด๋ ๋น๋์ค๋ก๋ถํฐ์ ์ถ์ (estimation)์ ์ ์ฝ๋ ์์ฑ(constrained generation)์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด๋ค. ์ฆ, ๋ชจ๋ธ์ ๊ด์ฐฐ๋ ์ฆ๊ฑฐ(๋น๋์ค ํคํฌ์ธํธ)๋ฅผ ์ถฉ์กฑํ๋ ์์ ํ ๋ชจ์ ๊ฒฝ๋ก๋ฅผ ํฉ์ฑํ๋ ๋์์, ์ถ์์ ์ธ ์กฐ๊ฑด(ํ ์คํธ ๋๋ ์ค๋์ค)์ผ๋ก๋ถํฐ ๋ค์ํ ๋ชจ์ ์ ์์ฑํ ์ ์๋ค.
- ์ปจ๋์ ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฐ ์๊ฐ์ ๋ ์ด์์ (Conditioning Modalities and Temporal Layout): ํ ์คํธ ํ๋กฌํํธ, ์ค๋์ค ํน์ง, ์๊ฐ์ ๊ด์ฐฐ ๋ฑ ํผํฉ๋๊ณ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์กฐ๊ฑด์ ์์ฉํ๋ค. ๊ฐ ์คํธ๋ฆผ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋์ ์ํด ์ธ์ฝ๋ฉ๋์ด ๊ณตํต ๋ชจ์ ํ๋ ์ ์๋์ ๋ง์ถฐ์ง ํน์ง ์ํ์ค๋ก ๋ณํ๋๋ค.
- ์ํคํ ์ฒ (Architecture): ์กฐ๊ฑด ์คํธ๋ฆผ์ ์๊ฐ์ ํธ๋์คํฌ๋จธ(temporal transformer)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ์ ํ ํฐ๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด ํ ํฐ ๊ฐ์ ํฌ๋ก์ค-์ดํ ์ (cross-attention)์ ํตํด ์ตํฉ๋๋ค. ํ์ฐ ๊ธฐ๋ฐ ๋ชจ์ ์ฌ์ (diffusion-based motion prior)์ด ์ธ๊ฐ ๋ชจ์ ์ํ์ค์ ์๋ํ๋ฉฐ, ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(Gaussian noise)๋ฅผ ํค๋ค๋งํฑ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ(kinematically plausible) ๊ฒฝ๋ก๋ก ๋๋ ธ์ด์ง(denoising)ํ๋ค.
- ํ๋ จ ๋ชฉํ (Training Objective): (1) ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ฌ๋ฆฌํฐ์ ์กฐ๊ฑด์ ๋ถ์ฌํ๋ ํ์ค ํ์ฐ ์์ค(diffusion loss)์ ์ฌ์ฉํ๋ ์์ฑ ํ์ต(generative learning)๊ณผ (2) ๊ด์ฐฐ์ด ์กด์ฌํ ๋ ์ฌ๊ตฌ์ฑ ํญ(reconstruction terms)์ ์ถ๊ฐํ๋ ์ถ์ -์ ๋ ํ์ต(estimation-guided learning)์ด๋ผ๋ ๋ ๊ฐ์ง ์ํธ ๋ณด์์ ์ธ ๋ชฉํ๋ฅผ ํผํฉํ๋ค.
- ์ถ๋ก ๋ชจ๋ (Inference Modes): ์์ ์์ฑ(pure generation), ์ ์ฝ๋ ์์ฑ(constrained generation), ํ์ด๋ธ๋ฆฌ๋ ์ ์ด(hybrid control)๋ฅผ ์ง์ํ๋ค. ๋ชจ๋ ๋ชจ๋๋ ๋์ผํ ์ํ๋ฌ๋ฅผ ๊ณต์ ํ๋ฉฐ, ์ด๋ค ์กฐ๊ฑด ์คํธ๋ฆผ์ด ๋น์ด ์์ง ์์์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. TensorRT๋ฅผ ์ฌ์ฉํ์ฌ ๋น ๋ฅธ ์ถ๋ก ์ ์ํํ๋ค.
- ์์คํ ํตํฉ (Integration with our system): ์ ์ง์ฐ(low-latency) ๋ชจ์ ์์ฑ์ ์ํด ์ค๋ฒ๋ฉ(overlap)์ด ์๋ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ(sliding windows)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์๋์ฐ ๊ฐ์ ์ ํ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ธํ์ธํ (inpainting)์ ์ฌ์ฉํ ํ์ฐ ๋๋ ธ์ด์ง ํ๋ก์ธ์ค๋ฅผ ์์ ํ๋ค.
4. ๊ฒฐ๊ณผ ๋ฐ ํ๊ฐ (Results & Evaluation)
- ๋ชจ์ ์ถ์ (Motion Tracking): SONIC์ 1์ต ํ๋ ์์ ๋ชจ์ ์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, GPU ์๊ฐ, ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ์ ํฌ๊ธฐ ๋ฑ ์ธ ๊ฐ์ง ์ฃผ์ ์ธก๋ฉด์์ ๊ท๋ชจ ํ์ฅ์ ์ด์ ์ ๋ถ์ํ๋ค (๊ทธ๋ฆผ 2). ๋ชจ๋ ์ธก๋ฉด์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ผ๋ฉฐ, ํนํ ๋ชจ์ ๋ฐ์ดํฐ์ ํฌ๊ธฐ ์ฆ๊ฐ๊ฐ ๊ฐ์ฅ ํฐ ์ด๋์ ๊ฐ์ ธ์๋ค. Any2Track, BeyondMimic, GMT์ ๊ฐ์ ์ต์ ์ถ์ ๊ธฐ๋ค๊ณผ ๋น๊ตํ์ฌ, SONIC์ ๋ฏธ์ง์(unseen) ๋ชจ์ ์ํ์ค์์ ํจ์ฌ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ํฅ์๋ ์ถ์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค. ์ค์ธ๊ณ(real-world) ๋ฐฐํฌ์์๋ 50๊ฐ์ง ๋ค์ํ ๋ชจ์ ๊ฒฝ๋ก์ ๋ํด ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ๊ฑฐ์ ์ผ์นํ๋ 100% ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ ๊ฒฌ๊ณ ์ฑ์ ์ ์ฆํ๋ค.
- ์ธํฐ๋ํฐ๋ธ ๋ชจ์ ์ ์ด (Interactive Motion Control): SONIC์ ๋ด๋น๊ฒ์ด์ ์ ์ด(0.0m/s ~ 6.0m/s ์๋, 0 ~ 360๋ ๋ฐฉํฅ, ๋ค์ํ ์คํ์ผ)์ ๋ณต์ฑ๊ณผ ๊ฐ์ ์ธํฐ๋ํฐ๋ธ ์ํฐํ ์ธ๋จผํธ ํ์คํฌ, ์ค์ฟผํ , ๋ฌด๋ฆ ๊ฟ๊ธฐ, ํฌ๋กค๋ง(crawling)๊ณผ ๊ฐ์ ๋์ ๊ธฐ์ ์ ์ง์ํ๋ค. ํนํ, ํค๋ค๋งํฑ ํ๋๋์ ์ถ์ ์ ์ฑ ์ด ๋์ผํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋์๊ธฐ ๋๋ฌธ์ ์๋ก์ด ์์ฉ ํ๋ก๊ทธ๋จ์ ์ํด ์ฌํ๋ จํ ํ์๊ฐ ์์๋ค.
- ๋น๋์ค ํ ๋ ์คํผ๋ ์ด์ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํฌ๋ก์ค-์๋ฐ๋๋จผํธ ์ ์ด (Video Teleoperation and Multi-Modal Cross-Embodiment Control): SONIC์ GENMO๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋น๋์ค, ์์ฐ์ด ํ ์คํธ, ์์ ์ค๋์ค๋ก๋ถํฐ ์ธ๊ฐ ๋ชจ์ ์ ์์ฑํ๊ณ ๋ก๋ด์ด ์ด๋ฅผ ๋ชจ๋ฐฉํ ์ ์๋๋ก ํ๋ค. ํ ์คํธ ํ๋กฌํํธ(โwalk forwardโ, โact like a monkeyโ)์ ์์ ์กฐ๊ฑด๋ถ(music-conditioned) ๋์ค ๋์์ ํฌํจํ๋ฉฐ, ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ๋๊น ์๋ ์ ํ์ ์ง์ํ๋ค.
- VR ๊ธฐ๋ฐ ํ
๋ ์คํผ๋ ์ด์
๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ฐ๊ฒฐ (VR-Based Teleoperation and Connecting to Foundation Models):
- PICO ๊ธฐ๋ฐ ์ ์ VR ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ ์ฒด ํฌ์ฆ ์ ์ด๋ฅผ, (2) 3ํฌ์ธํธ VR ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง์, (3) VLA ๋ชจ๋ธ ๊ตฌ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ด์ (mobile manipulation)์ ์์ฐํ๋ค. ํนํ, GR00T N1.5 VLA ๋ชจ๋ธ์ 3ํฌ์ธํธ ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฌ๊ณผ๋ฅผ ์ ์๋ก ์ฎ๊ธฐ๋ ํ์คํฌ์์ 95%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, SONIC์ด VLA์ ๊ณ ์์ค ์ถ๋ก (System 2)์ ๋ณด์ํ๋ ๋ฐ์ํ ์ ์ ์ปจํธ๋กค๋ฌ(System 1) ์ญํ ์ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
5. Deployment
๋ชจ๋ ์ธํผ๋ฐ์ค(inference) ๋ฐ ๊ด๋ฆฌ ์คํ์ ์ ๋ํธ๋ฆฌ G1 ํ๋ซํผ์ ์จ๋ณด๋(onboard) CPU/GPU์์ ์คํ๋์ด ํผ๋๋ฐฑ ์ง์ฐ ์๊ฐ์ ์ต์ํํ๋ค. ์ ์ฑ ๋ฃจํ๋ 50Hz๋ก, ์ฌ์ฉ์ ์ ๋ ฅ์ 100Hz๋ก, ํค๋ค๋งํฑ ๋ชจ์ ํ๋๋๋ 10Hz๋ก ์๋ํ๋ค. Jetson Orin GPU์์ TensorRT์ CUDA Graph ๊ฐ์์ ์ฌ์ฉํ์ฌ 1-2ms(์ ์ฑ ) ๋๋ 12ms(๋ชจ์ ์์ฑ)์ ๋ฎ์ ์ง์ฐ ์๊ฐ์ ๋ฌ์ฑํ๋ค.
6. Discussion & Limitations
๋ณธ ์ฐ๊ตฌ๋ ๋์ ์ถ์ ์ ํด๋จธ๋ ธ์ด๋ ์ ์ด๋ฅผ ์ํ ํต์ฌ ํ์ฅ ๊ฐ๋ฅ ํ์คํฌ๋ก ์ค์ ํ๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ปดํจํธ ์์์ ํ์ฉํ์ฌ ์์ฐ์ค๋ฝ๊ณ ๊ฒฌ๊ณ ํ ์ ์ ํ๋์ ์์ฑํ๋ ๋จ์ผ ์ ์ฑ ์ ํ๋ จํ๋ค. ์ด๋ ๊ธฐ์กด ์ถ์ ๊ธฐ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ๊ณผ ๋ฒ์ฉ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ค์ฉ์ ์ธ ์์คํ ์ผ๋ก์ ๋ฐ์ ์ ์์ฌํ๋ค. ํ๊ณ์ ์ผ๋ก๋ ์์ , ๊ท์ ์ค์, ์๋์ง ํจ์จ์ฑ, ๋ ธ์ด์ฆ ์ ๋ ฅ ์ฒ๋ฆฌ์ ๋ํ ๊ณต์์ ์ธ ์ ๊ทผ์ด ๋ถ์กฑํ๋ค๋ ์ ์ด ์ธ๊ธ๋์๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ๋ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ๊ฑธ์น ์ค์ผ์ผ๋ง ๋ฒ์น, VLA ์ง์ ์ ์ ๋ก์ฝ๋งค๋ํฐ๋ ์ด์ (loco-manipulation) ํ์คํฌ, ๊ทธ๋ฆฌ๊ณ ํ๋๋, ํ ํฌ๋์ด์ (tokenizer), ์ ์ฑ ์ ๊ณต๋ ํ๋ จ์ ํ๊ตฌํ ์์ ์ด๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
TL;DR โ ํ๋์ ๋ณด๋ ํต์ฌ
โํด๋จธ๋ ธ์ด๋ ์ ์ด์๋ ์ค์ผ์ผ๋ง ๋ฒ์น์ด ์๋ํ๋ค.โ
NVIDIA Research ํ์ด ๋ฐํํ SONIC์ 1์ต ํ๋ ์ ์ด์์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ, 42M ํ๋ผ๋ฏธํฐ ์ ์ฑ ๋คํธ์ํฌ, ๊ทธ๋ฆฌ๊ณ 128 GPU ร 3์ผ(์ฝ 9,000~32,000 GPU-hours) ์ ๋๊ท๋ชจ ํ์ต์ ํตํด ๋จ์ผ ์ ์ฑ (single unified policy)์ผ๋ก ๊ฑท๊ธฐยท๋ฌ๋ฆฌ๊ธฐยท์ถคยท๊ธฐ์ด๊ฐ๊ธฐยท์ ํยทํ ๋ ์คํผ๋ ์ด์ ๊น์ง ์ปค๋ฒํ๋ ๋ฒ์ฉ ํด๋จธ๋ ธ์ด๋ ์ ์ ์ ์ด๊ธฐ๋ฅผ ๊ตฌํํ๋ค. ๋ชจ์ ํธ๋ํน์ด๋ผ๋ ๋จ์ผ ๊ณผ์ ๋ฅผ ์ค์ผ์ผ์ ํจ์ผ๋ก์จ ์์์ ๋ณด์ ์ค๊ณ(reward engineering) ์์ด ์ธ๊ฐ ์์ค์ ์์ฐ์ค๋ฌ์ด ๋์์ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
1. ์๋ก : ์ ํด๋จธ๋ ธ์ด๋ ์ ์ด๋ ์ค์ผ์ผ์ ์ ์คํจํ๋๊ฐ?
1.1 AI ์ค์ผ์ผ๋ง ํ๋ช ์ โ์ฌ๊ฐ์ง๋โ
์ง๋ 10๋ ๊ฐ AI๋ ๋๋ผ์ด ์ค์ผ์ผ๋ง์ ์๋๋ฅผ ๋ง์ดํ๋ค. GPT ๊ณ์ด ๋ชจ๋ธ์ ์์กฐ ๊ฐ์ ํ ํฐ์ผ๋ก ์๋ง ๋์ GPU ์์์ ํ์ต๋๊ณ , ์ด๋ฏธ์งยท๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ ์์ฒ ๋์ GPU๋ก ์์ญ์ต ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ค. ๊ทธ๋ฐ๋ฐ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด ๋ถ์ผ๋ ์ด๋ค๊ฐ?
ํ์ค์ ์ข ๋ค๋ฅด๋ค. ์ต์ฒจ๋จ ํด๋จธ๋ ธ์ด๋ ์ ์ด ์ ์ฑ (policy)์ ๋๋ถ๋ถ 3์ธต์ง๋ฆฌ MLP์ ์๋ฐฑ๋ง ํ๋ผ๋ฏธํฐ, GPU ํ ์ฅ์์ ๋ฉฐ์น ํ์ตํ๋ ์์ค์ ๋จธ๋ฌผ๋ฌ ์๋ค. ๊ฑท๊ธฐ ๋ฐ๋ก, ์ถค์ถ๊ธฐ ๋ฐ๋ก, ํ ๋ ์คํผ๋ ์ด์ ๋ฐ๋ก โ ํ๋์ ํ๋๋ง๋ค ๋ณ๋์ ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ๊ณ , ๋ณ๋์ ์ ์ฑ ์ ํ์ตํด์ผ ํ๋ค.
์ด ์ํฉ์ ๋น์ ํ์๋ฉด, ์ธ์ด ๋ชจ๋ธ์ ์ธ๊ณ์์ โ์์ด ๋ฒ์ญ ๋ชจ๋ธโ, โํ๋์ค์ด ๋ฒ์ญ ๋ชจ๋ธโ, โ์์ฝ ๋ชจ๋ธโ์ ์ ๋ถ ๋ฐ๋ก ๋ง๋๋ ๊ฒ๊ณผ ๊ฐ๋ค. GPT๊ฐ ํ๋์ ๋ชจ๋ธ๋ก ์ด ๋ชจ๋ ๊ฒ์ ํด๊ฒฐํ๋ฏ์ด, ํด๋จธ๋ ธ์ด๋ ์ ์ด๋ ํ๋์ ๋ชจ๋ธ์ด ๋ค์ํ ํ๋์ ๋ชจ๋ ์ํํ ์ ์์ด์ผ ํ์ง ์์๊น?
1.2 ์ ์ค์ผ์ผ๋ง์ด ์ ๋์๊น? โ ๊ณผ์ ์ ํ์ ๋ฌธ์
SONIC ์ ์๋ค์ ์ง๋จ์ ๋ช ์พํ๋ค: ๋ฌธ์ ๋ โ๊ณผ์ ์ ํ(task selection)โ์ ์๋ค.
๊ฑท๊ธฐ๋ฅผ ์ํ ๋ณด์ ํจ์๋ ์ถค์ ๋ํ ์ ํธ๋ฅผ ์ฃผ์ง ๋ชปํ๋ค. ์ผ์ด์๊ธฐ๋ฅผ ์ํ ๋ณด์์ ํ ๋ ์คํผ๋ ์ด์ ์ ์ธ๋ชจ๊ฐ ์๋ค. ๊ฐ๊ฐ์ ์๋ก์ด ๋ฅ๋ ฅ์๋ ์๋กญ๊ฒ ์ค๊ณ๋ ๋ณด์๊ณผ ๋ชฉํ๊ฐ ํ์ํ๋, ์ค์ผ์ผ์ ์์ฒด๊ฐ ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ ๊ฒ์ด๋ค. ๋ณด์์ ๋๋ฌด ์ค๋ ํ์ตํ๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ๋๋น ์ง๋(reward hacking) ํ์๊น์ง ๊ด์ฐฐ๋์๋ค.
1.3 ํด๋ฒ: ๋ชจ์ ํธ๋ํน์ โ๋ฒ์ฉ ๊ณผ์ โ๋ก
๊ทธ๋ ๋ค๋ฉด ๋ณด์ ์ค๊ณ ์์ด๋ ๋ค์ํ ํ๋์ ํ์ตํ ์ ์๋ ๋จ์ผ ๊ณผ์ ๊ฐ ์์๊น?
SONIC์ ๋ต์ ๋ฐ๋ก ๋ชจ์ ํธ๋ํน(motion tracking) ์ด๋ค.
๋ชจ์ ํธ๋ํน์ ์ฅ์ ์ ์์ฃผ ์ง๊ด์ ์ด๋ค:
- ๋ฐ์ง ๊ฐ๋ ์ ํธ(dense supervision): ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ๋งค ํ๋ ์์ด ๊ณง ํ์ต ๋ชฉํ๋ค. โ์ด ์์ธ๋ก ์ด ์์น์ ์์ด๋ผโ๋ผ๋ ๋ช ํํ ์ ํธ๊ฐ ํ๋ ์๋ง๋ค ์ฃผ์ด์ง๋ค.
- ํ๋ถํ ๊ธฐ์กด ๋ฐ์ดํฐ: ๊ฑท๊ธฐ, ๋ฌ๋ฆฌ๊ธฐ, ์ถค, ์คํฌ์ธ , ๋ฌผ์ฒด ์ํธ์์ฉ ๋ฑ์ ํฌํจํ๋ ๋ฐฉ๋ํ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ์ ์ด ์ด๋ฏธ ์์ญ ๋ ๊ฐ ์ถ์ ๋์ด ์๋ค(AMASS, LaFAN ๋ฑ).
- ๋ณด์ ์ค๊ณ ๋ถํ์: ์ฐธ์กฐ ๋์์ ๋ฐ๋ผํ๋ ๊ฒ ์์ฒด๊ฐ ๋ชฉํ์ด๋ฏ๋ก, ํ๋๋ง๋ค ๋ณ๋์ ๋ณด์์ ๋ง๋ค ํ์๊ฐ ์๋ค.
์ด๊ฒ์ด SONIC์ ์ถ๋ฐ์ ์ด๋ค. ๋ชจ์ ํธ๋ํน์ด๋ผ๋ ํ๋์ ํ์ฅ ๊ฐ๋ฅํ ๊ณผ์ ์์์, ๋ฐ์ดํฐยท๋ชจ๋ธยท์ฐ์ฐ์ ๋๊ท๋ชจ๋ก ํค์๋ณด์. ๊ทธ ๊ฒฐ๊ณผ๊ฐ ์ด๋ค์ง ๋ณด์.
2. ๋ฐฉ๋ฒ๋ก : SONIC์ ์ํคํ ์ฒ์ ํต์ฌ ์ค๊ณ
SONIC์ ์์คํ ์ ํฌ๊ฒ ์ธ ๊ฐ์ง ๊ธฐ๋ฅ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค:
- ๋๊ท๋ชจ ๋ชจ์ ํธ๋ํน ์ ์ฑ (Supersized Motion Tracker)
- ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ (Universal Token Space)
- ์ค์๊ฐ ํค๋ค๋งํฑ ๋ชจ์ ํ๋๋ (Kinematic Motion Planner)
๊ฐ๊ฐ์ ์์ธํ ์ดํด๋ณด์.
2.1 ๋๊ท๋ชจ ๋ชจ์ ํธ๋ํน ์ ์ฑ
์ค์ผ์ผ๋ง์ ์ธ ์ถ
SONIC์ ์ธ ๊ฐ์ง ์ถ์ ๋ฐ๋ผ ์ค์ผ์ผ์ ํ๋ค:
| ์ค์ผ์ผ๋ง ์ถ | ๊ธฐ์กด SOTA | SONIC |
|---|---|---|
| ๋ชจ๋ธ ํฌ๊ธฐ | ~1.2M ํ๋ผ๋ฏธํฐ | 42M ํ๋ผ๋ฏธํฐ |
| ๋ฐ์ดํฐ ๊ท๋ชจ | ์๋ง~์์ญ๋ง ํ๋ ์ | 1์ต+ ํ๋ ์ (700์๊ฐ, 50fps) |
| ์ฐ์ฐ๋ | GPU 1์ฅ ร ์์ผ | 128 GPU ร 3์ผ (9k~32k GPU-hours) |
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด LaFAN(์ฝ 40๋ง ํ๋ ์) ์์ค์ ๋ฐ์ดํฐ์ ์์ ์๊ท๋ชจ MLP๋ฅผ ํ์ตํ๋ค๋ฉด, SONIC์ ์์ฒด ์์งํ 1์ต ํ๋ ์ ์ด์์ ๊ณ ํ์ง ๋ชจ์ ๋ฐ์ดํฐ์์ 42M ํ๋ผ๋ฏธํฐ์ ์ ์ฑ ์ ํ์ตํ๋ค. ์ด๊ฑด ์๋ฆฟ์ ์์ฒด๊ฐ ๋ค๋ฅธ ์ด์ผ๊ธฐ๋ค.
๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ํ์ต
SONIC์ ํธ๋์ปค๋ Isaac Lab ํ๊ฒฝ์์ PPO(Proximal Policy Optimization) ๊ธฐ๋ฐ ๊ฐํํ์ต์ผ๋ก ํ์ต๋๋ค. ์์ด์ ํธ(Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด)๋ ๋งค ํ์์คํ ๋ง๋ค ์ฐธ์กฐ ๋ชจ์ ์ ๋ค์ ์์ธ๋ฅผ ๋ฐ์, ๊ด์ ์์น ๋ช ๋ น(target joint positions)์ ์ถ๋ ฅํ๊ณ , PD ์ ์ด๊ธฐ๋ฅผ ํตํด ํ ํฌ๊ฐ ์์ฑ๋๋ค.
์ด๋ฅผ ์์ฌ์ฝ๋๋ก ํํํ๋ฉด:
# SONIC ๋ชจ์
ํธ๋ํน RL ํ์ต ๋ฃจํ (๊ฐ๋
์ )
for epoch in training:
for env in parallel_envs(128 GPUs):
# 1. ์ฐธ์กฐ ๋ชจ์
์์ ํ์ฌ ํ๋ ์ ํ๊ฒ ๊ฐ์ ธ์ค๊ธฐ
ref_pose = motion_dataset.sample_frame(env.time)
# 2. ํ์ฌ ๋ก๋ด ์ํ ๊ด์ธก
obs = env.get_observation() # ๊ด์ ์์น, ์๋, IMU ๋ฑ
# 3. ๋ชจ์
๋ช
๋ น์ ๋ฒ์ฉ ํ ํฐ์ผ๋ก ์ธ์ฝ๋ฉ
token = encoder(ref_pose, obs)
z = FSQ_quantize(token)
# 4. ๋์ฝ๋๋ก ๊ด์ ๋ช
๋ น ์์ฑ
joint_targets = control_decoder(z, obs)
# 5. PD ์ ์ด๊ธฐ๋ก ํ ํฌ ๊ณ์ฐ ๋ฐ ์๋ฎฌ๋ ์ด์
์คํ
torques = PD_controller(joint_targets, current_joints)
env.step(torques)
# 6. ๋ณด์ ๊ณ์ฐ (๋ชจ์
์ถ์ข
+ ๋ฌผ๋ฆฌ ํ๋ํฐ)
reward = compute_reward(env.state, ref_pose)
# 7. PPO ์
๋ฐ์ดํธ
policy.update(observations, actions, rewards)
๋ณด์ ์ค๊ณ
๋ณด์ ํจ์๋ BeyondMimic์ ์ค๊ณ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ๋ชจ์ ์ถ์ข ์ ์ฌ๋ฌ ์ธก๋ฉด์ ํฌ๊ดํ๋ค:
r_{\text{total}} = \sum_i w_i \cdot r_i
๊ฐ ๋ณด์ ํญ๋ชฉ์ ๋ค์๊ณผ ๊ฐ๋ค:
| ๋ณด์ ํญ๋ชฉ | ์ถ์ ๋์ | ์ค๋ช |
|---|---|---|
| r_{\text{body\_pos}} | ๊ด์ ์์น (root ๊ธฐ์ค ์๋) | ๊ฐ ๋งํฌ์ 3D ์์น ์ค์ฐจ |
| r_{\text{body\_rot}} | ๊ด์ ๋ฐฉํฅ (6D ํ์ ) | ๊ฐ ๋งํฌ์ ํ์ ์ค์ฐจ |
| r_{\text{body\_lin\_vel}} | ๋งํฌ ์ ์๋ | ๋ฌผ๋ฆฌ์ ์์ฐ์ค๋ฌ์ |
| r_{\text{body\_ang\_vel}} | ๋งํฌ ๊ฐ์๋ | ๋์ ์ ํฉ์ฑ |
| ํจ๋ํฐ ํญ๋ชฉ๋ค | ๊ด์ ํ๊ณ ์๋ฐ, ๋ถํ์ํ ์ ์ด, ๊ธ๊ฒฉํ ๋ณํ | ์์ ํ๊ณ ๋ถ๋๋ฌ์ด ๋์ ์ ๋ |
ํต์ฌ ์ค๊ณ ๋ํ ์ผ๋ก, 6D ํ์ ํํ(Zhou et al., 2019)์ ์ฌ์ฉํ๋ค. ๊ธฐ์กด์ ์ค์ผ๋ฌ ๊ฐ์ด๋ ์ฟผํฐ๋์ธ์ด ๊ฐ์ง๋ ๋ถ์ฐ์์ฑ์ด๋ ์ด์ค ์ปค๋ฒ(double cover) ๋ฌธ์ ๋ฅผ ํผํ๊ณ , ์ ๊ฒฝ๋ง ํ์ต์ ๋ ์นํ์ ์ธ ์ฐ์ ํํ์ ์ฑํํ ๊ฒ์ด๋ค. ์ด๋ ์์ฆ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ์ด ๋ถ์ผ์์ ์ฌ์ค์ ํ์ค์ฒ๋ผ ์๋ฆฌ์ก์ ๊ดํ์ด๊ธฐ๋ ํ๋ค.
๋๋ฉ์ธ ๋๋คํ (Domain Randomization)
Sim-to-real ์ ์ด๋ฅผ ์ํด ํ์ต ์ค ๋ค์ํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋คํํ๋ค:
| ๋๋คํ ๋์ | ์ธ๋ถ ์ฌํญ |
|---|---|
| ๋ง์ฐฐ ๊ณ์ | ๋ฐ๋ฅ ๋ง์ฐฐ์ ๊ท ์ผ ๋ถํฌ ๋ณ๋ |
| ์ง๋/๊ด์ฑ | ๋ก๋ด ๋งํฌ ์ง๋์ ๋ถํ์ค์ฑ ๋ชจ๋ธ๋ง |
| ์ธ๋ถ ๊ต๋ | ๋ฃจํธ์ ๋๋ค ์ ํยท๊ฐ์๋ ์ญ๋ ์ธ๊ฐ (์ธ๋ถ ๋ฐ์นจ ์๋ฎฌ๋ ์ด์ ) |
| ๋ชจ์ ์ญ๋ | ์ฐธ์กฐ ๋ชจ์ ๋ช ๋ น ์์ฒด์ ๋ ธ์ด์ฆ ์ถ๊ฐ |
์ด๋ฌํ ๋๋คํ๊ฐ ์ค์ Unitree G1 ๋ก๋ด์์์ ์ ๋ก์ท ์ ์ด(zero-shot transfer)๋ฅผ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ํต์ฌ ์์๋ค. โ์๋ฎฌ๋ ์ด์ ์์ ์ถฉ๋ถํ ๋ค์ํ ์ธ๊ณ๋ฅผ ๊ฒฝํํ ์ ์ฑ ์, ์ค์ ์ธ๊ณ๋ผ๋ โ๋ ํ๋์ ๋ณํโ์๋ ์ ์ํ ์ ์๋คโ๋ ๊ฒ์ด ๊ทธ ๊ธฐ๋ณธ ์์ด๋์ด๋ค.
2.2 ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ (Universal Token Space)
์ฌ๊ธฐ๊ฐ SONIC์ ๊ฐ์ฅ ์๋ฆฌํ ์ค๊ณ๋ผ๊ณ ํ ์ ์๋ค.
๋ฌธ์ ์ธ์
์ค์ ์์ฉ์์ ๋ชจ์ ํธ๋์ปค์ ๋ค์ด์ค๋ ์ ๋ ฅ์ ์ฒ์ฐจ๋ง๋ณ์ด๋ค:
- ๋ก๋ด ๋ชจ์ : ํค๋ค๋งํฑ ํ๋๋๊ฐ ์์ฑํ ๋ก๋ด ๊ด์ ๊ถค์
- ์ธ๊ฐ ๋ชจ์ : VR ์ฅ์น๋ ๋น๋์ค์์ ์ถ์ ๋ SMPL ํ์์ ์ธ์ฒด ์์ธ
- ํ์ด๋ธ๋ฆฌ๋ ๋ชจ์ : ์์ฒด๋ ์ธ๊ฐ(VR ํคํฌ์ธํธ), ํ์ฒด๋ ๋ก๋ด(ํ๋๋ ์์ฑ)
์ด ์ธ ๊ฐ์ง ์ ํ ๋ค๋ฅธ ํํ์ ์ ๋ ฅ์ ํ๋์ ์ ์ฑ ์ด ์ฒ๋ฆฌํด์ผ ํ๋ค. ์ด๋ป๊ฒ?
์ธ์ฝ๋-์์ํ๊ธฐ-๋์ฝ๋ ๊ตฌ์กฐ
SONIC์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค:
๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ๋ ์์ธํ ๋ณด๋ฉด:
์ ์ฉ ์ธ์ฝ๋: ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ(๋ก๋ด/์ธ๊ฐ/ํ์ด๋ธ๋ฆฌ๋)์ ๋ง๋ MLP ์ธ์ฝ๋๊ฐ ์ ๋ ฅ์ ์ ์ฌ ํํ(latent representation)์ผ๋ก ๋ณํํ๋ค. ์ด๋ ๋ก๋ด ์ํ(proprioception)๋ ํจ๊ป ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ค.
FSQ ์์ํ๊ธฐ: Finite Scalar Quantization(Mentzer et al., 2023)์ ์ฌ์ฉํ์ฌ ์ฐ์ ์ ์ฌ ๋ฒกํฐ๋ฅผ ์ด์ฐ์ ์ธ ๋ฒ์ฉ ํ ํฐ(universal token) \mathbf{z}๋ก ์์ํํ๋ค. ์ด ํ ํฐ์ ์ฐจ์๋น L_z๊ฐ์ ์์ํ ์์ค์ ๊ฐ์ง๋ค. FSQ์ ์ฅ์ ์ VQ-VAE์ ์ฝ๋๋ถ ๋ถ๊ดด(codebook collapse) ๋ฌธ์ ์์ด ์์ ์ ์ธ ์ด์ฐ ํํ์ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๊ณต์ ๋์ฝ๋ 2์ข :
- ์ ์ด ๋์ฝ๋ \mathcal{D}_c: ๋ฒ์ฉ ํ ํฐ + ํ์ฌ ๋ก๋ด ์ํ โ ๊ด์ ์์น ๋ช ๋ น (์ค์ ์ ์ด์ ์ฌ์ฉ)
- ๋ชจ์ ๋์ฝ๋ \mathcal{D}_r: ๋ฒ์ฉ ํ ํฐ โ ๋ก๋ด ๋ชจ์ ๋ช ๋ น ์ฌ๊ตฌ์ฑ (๋ณด์กฐ ๊ฐ๋ ์ ํธ๋ก ์ ์ฌ ๊ณต๊ฐ ํ์ง ํฅ์)
์ด ์ค๊ณ์ ์๋ฆ๋ค์์, ์ ๋ ฅ ์ธ์ฝ๋๋ง ๋ฐ๊พธ๋ฉด ๋์ผํ ์ ์ฑ ์ผ๋ก ์์ ํ ๋ค๋ฅธ ์ธํฐํ์ด์ค๋ฅผ ์ง์ํ ์ ์๋ค๋ ๊ฒ์ด๋ค. VR ํ ๋ ์คํผ๋ ์ด์ ์ด๋ , ๋น๋์ค ๊ธฐ๋ฐ ๋ชจ์ ์ถ์ ์ด๋ , ํ ์คํธ-ํฌ-๋ชจ์ ์ด๋ , ๋ชจ๋ ๊ฐ์ ๋ฒ์ฉ ํ ํฐ์ผ๋ก ๋ณํ๋์ด ๊ฐ์ ๋์ฝ๋๋ฅผ ๊ณต์ ํ๋ค.
๋น์ ํ์๋ฉด, ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ์ผ์ข ์ โ์ด๋ ํผ์ง์ ์ธ์ดโ์ ๊ฐ๋ค. ๋์ผ๋ก ๋ณด๋ , ๊ท๋ก ๋ฃ๋ , ์์ผ๋ก ๋๋ผ๋ โ ์๋ก ๋ค๋ฅธ ๊ฐ๊ฐ ์ฑ๋์ ์ ๋ณด๊ฐ ๊ฒฐ๊ตญ ์ด๋ ํผ์ง์์๋ ํ๋์ ํต์ผ๋ ํํ์ผ๋ก ๋ณํ๋์ด ๊ทผ์ก์ ์ ์ดํ๋ ๊ฒ์ฒ๋ผ.
๊ต์ฐจ ์ ์ฒด(Cross-Embodiment) ์ง์
ํนํ ์ธ๊ฐ ์ธ์ฝ๋๋ฅผ ํตํด SMPL ํ์์ ์ธ๊ฐ ์์ธ๋ฅผ ์ง์ ๋ฒ์ฉ ํ ํฐ์ผ๋ก ๋งคํํ ์ ์๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ๋ฆฌํ๊ฒํ (retargeting) ๊ณผ์ ์์ด ์ธ๊ฐ ๋ชจ์ ์ ๋ก๋ด ์ ์ด ์ ํธ๋ก ๋ณํํ ์ ์๋ค. ์ด๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ธ๊ฐ โ ๋ก๋ด ๊ด์ ๋งคํ์ด๋ผ๋ ๋ณต์กํ ์ค๊ฐ ๋จ๊ณ(์: dex-retargeting, ProtoMotions ๋ฑ)๋ฅผ ๊ฑฐ์ณ์ผ ํ๋ ๊ฒ๊ณผ ํฐ ์ฐจ์ด์ ์ด๋ค.
์ด๋ ๋ฆฌํ๊ฒํ ํ์ง์ด ์ ์ฑ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค๋ ์ต๊ทผ ์ฐ๊ตฌ(Retargeting Matters, 2025)์ ๋ฌธ์ ๋ฅผ ์ฐํํ๋ ์ฐ์ํ ํด๋ฒ์ด๊ธฐ๋ ํ๋ค.
2.3 ์ค์๊ฐ ํค๋ค๋งํฑ ๋ชจ์ ํ๋๋
๋ชจ์ ํธ๋์ปค๊ฐ โ์ฐธ์กฐ ๋์์ ์ถฉ์คํ ๋ฐ๋ผํ๋ ๋ฅ๋ ฅโ์ ์ ๊ณตํ๋ค๋ฉด, ํค๋ค๋งํฑ ํ๋๋๋ โ์ฌ์ฉ์ ์๋๋ฅผ ์ฐธ์กฐ ๋์์ผ๋ก ๋ณํํ๋ ๋ฅ๋ ฅโ ์ ์ ๊ณตํ๋ค.
์ด ๊ตฌ๋ถ์ด ์ค์ํ๋ค. ํธ๋์ปค๋ง์ผ๋ก๋ โ์์ผ๋ก ๊ฑธ์ด๊ฐโ๋ผ๋ ๋ช ๋ น์ ์ฒ๋ฆฌํ ์ ์๋ค. ๋๊ตฐ๊ฐ๊ฐ ๊ตฌ์ฒด์ ์ธ ์ฐธ์กฐ ๋ชจ์ ์ ์ ๊ณตํด์ผ ํ๋ค. ํ๋๋๊ฐ ๋ฐ๋ก ๊ทธ ์ญํ ์ ํ๋ค.
์๋ ๋ฐฉ์
ํ๋๋๋ ์๊ธฐํ๊ท์ ์ธ๋นํธ์๋(autoregressive in-betweening) ๋ฐฉ์์ผ๋ก ๋์ํ๋ค:
- ์ฌ์ฉ์ ์ ๋ ฅ(๊ฒ์ํจ๋ ์กฐ์ด์คํฑ, ์๋ยท๋ฐฉํฅ ๋ช ๋ น)์ ๋ฐ๋๋ค
- ์๊ณ ๊ฐ์ ์คํ๋ง(critically damped spring) ๋ชจ๋ธ๋ก ๋ถ๋๋ฌ์ด ๋ฃจํธ ์์นยท๋ฐฉํฅ ๊ถค์ ์ ์์ฑํ๋ค
- ์ด์ ์ํ(context keyframes)์ ๋ชฉํ ์ํ(target keyframes) ์ฌ์ด๋ฅผ ๋ณด๊ฐํ์ฌ ๋ฏธ๋ ํค๋ค๋งํฑ ๋ชจ์ ์ ์์ฑํ๋ค
- ์์ฑ๋ ๋ชจ์ ์ ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ํตํด ํธ๋์ปค์ ์ ๋ฌํ๋ค
flowchart TB
U["๐ค ์ฌ์ฉ์ ์
๋ ฅ<br/>(๊ฒ์ํจ๋/์๋ ๋ช
๋ น)"] --> S["์๊ณ ๊ฐ์ ์คํ๋ง ๋ชจ๋ธ<br/>(๋ฃจํธ ๊ถค์ ์์ฑ)"]
S --> TF["๋ชฉํ ํคํ๋ ์ ์์ฑ"]
P["์ด์ ์ํ<br/>(์ปจํ
์คํธ ํคํ๋ ์)"] --> E["์ ์ฌ ํ ํฐ ์ธ์ฝ๋ฉ<br/>(๋ค์ด์ํ๋ง ๋น์จ: 4)"]
TF --> E
E --> M["๋ง์คํฌ ํ ํฐ ์์ธก<br/>(Transformer / Conv1D)"]
M --> D["๋์ฝ๋ฉ โ ํค๋ค๋งํฑ ๋ชจ์
์ํ์ค"]
D --> T["๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ โ ๋ชจ์
ํธ๋์ปค โ ๋ก๋ด ์ ์ด"]
๋ชจ์ ํํ๊ณผ ์ ์ฌ ๊ณต๊ฐ ๊ณํ
ํ๋๋์์ ์ฌ์ฉํ๋ ๋ชจ์ ํํ์ ๋ ๊ฐ์ง๋ฅผ ํฌํจํ๋ค:
- ๊ณจ๋ฐ ๊ธฐ์ค ์๋ ๊ด์ ์์น (pelvis-relative joint positions)
- ๊ธ๋ก๋ฒ ๊ด์ ํ์ (global joint rotations)
์ฌ๊ธฐ์ ์ค์ํ ์ค๊ณ ๊ฒฐ์ ์ด ์๋ค. ๋ก์ปฌ(์ ๊ทํ๋) ํ์ ๋์ ๊ธ๋ก๋ฒ ํ์ ์ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค. ์ด๋ ์ชผ๊ทธ๋ ค ์๊ธฐ(squatting)๋ ๊ธฐ์ด๊ฐ๊ธฐ(crawling)์ฒ๋ผ โ์ ๋ฉด(heading)โ์ ์ ์๊ฐ ๋ชจํธํ ๋์์์ ํนํ ์ค์ํ๋ค. ๋ก์ปฌ ์ ๊ทํ ๋ฐฉ์์์๋ ์ด๋ฐ ์์ธ์ ๋ฐฉํฅ ํํ์ด ๋ถ์์ ํด์ง์ง๋ง, ๊ธ๋ก๋ฒ ํ์ ์ ์ด ๋ฌธ์ ๋ฅผ ์ฐํํ๋ค.
ํ๋๋์ ์์ ๋ชจ์ ๊ณต๊ฐ์ด ์๋๋ผ ์ ์ฌ ํ ํฐ ๊ณต๊ฐ์์ ์ํ๋๋ค. ์ฐ์ ๋ชจ์ ์ ์ธ์ฝ๋๊ฐ ๋ค์ด์ํ๋ง ๋น์จ 4๋ก ์์ถํ ์ ์ฌ ํ ํฐ ์ํ์ค๋ก ๋ณํํ๊ณ , Transformer๋ Conv1D ๋ฐฑ๋ณธ์ด ์์ ํคํ๋ ์๊ณผ ๋ชฉํ ํคํ๋ ์ ์ฌ์ด์ ๋ง์คํฌ๋ ํ ํฐ์ ๋ฐ๋ณต์ ์ผ๋ก ์์ธก(masked token prediction)ํ์ฌ ์ฑ์ด๋ค.
ํ์ต ์์๋ ๋ชจ๋ ์ด๊ธฐ ๋ฐฉํฅ์์ ๊ณํ์ด ๊ฐ๋ฅํ๋๋ก ํ์ต ์ํ์ ๋๋ค ํ์ ์ํจ๋ค.
์ง์ํ๋ ์ํธ์์ฉ ๋ชจ๋
์ด ํ๋๋ ๋๋ถ์ ๋ค์๊ณผ ๊ฐ์ ๋ค์ํ ์ ์ด๊ฐ ๊ฐ๋ฅํด์ง๋ค:
| ์นดํ ๊ณ ๋ฆฌ | ๊ตฌ์ฒด์ ๋์ |
|---|---|
| ์คํ์ผ ๋ก์ฝ๋ชจ์ | ํ๋ณตํ๊ฒ ๊ฑท๊ธฐ, ์๋ฐํ๊ฒ ๊ฑท๊ธฐ, ๋ถ์๋นํ ๊ฑท๊ธฐ, ๋ฌ๋ฆฌ๊ธฐ |
| ์์ธ ๋ณํ | ์ชผ๊ทธ๋ ค ์๊ธฐ, ๋ฌด๋ฆ ๊ฟ๊ธฐ, ์์ผ๋ก ๊ธฐ์ด๊ฐ๊ธฐ, ํ๊ฟ์น๋ก ๊ธฐ์ด๊ฐ๊ธฐ |
| ๊ฒฉํฌ ๋์ | ๋ณต์ฑ, ์ด๋ํ๋ฉฐ ๋ณต์ฑ |
| ํ์ด๋ธ๋ฆฌ๋ ์ ์ด | ์์ฒด VR ํ ๋ ์คํผ๋ ์ด์ + ํ์ฒด ํ๋๋ ์๋ ์์ฑ |
2.4 ๋ฉํฐ๋ชจ๋ฌ ์ ์ด์ VLA ์ฐ๋
SONIC์ ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ GENMO๋ผ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ์ ์์ฑ ๋ชจ๋ธ๊ณผ ์ฐ๋๋๋ค. GENMO๋ ํ ์คํธ, ์ค๋์ค, ๋น๋์ค ๋ฑ ๋ค์ํ ์ ๋ ฅ์ ๋ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋๋ฅผ ๊ฐ์ถ๊ณ , ์๊ฐ์ ํธ๋์คํฌ๋จธ์ ๊ต์ฐจ ์ดํ ์ ์ ํตํด ์ ๋ณด๋ฅผ ์ตํฉํ ํ, ํ์ฐ(diffusion) ๊ธฐ๋ฐ ๋ชจ์ ํ๋ผ์ด์ด๋ก ์ ๋ ฅ์ ์ด๋ํ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ์ธ๊ฐ ๋ชจ์ ๊ถค์ ์ผ๋ก ๋๋ ธ์ด์งํ๋ค.
GENMO์ SONIC์ ์ฐ๋์ ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ํตํด ์ด๋ฃจ์ด์ง๋ค. GENMO๊ฐ ๋๋ ธ์ด์งํ ์ธ๊ฐ ๋ชจ์ ์ SONIC์ ์ธ๊ฐ ์ธ์ฝ๋๋ก ๋ฒ์ฉ ํ ํฐ์ผ๋ก ๋ณํํ๋ฉด, ๋์ผํ ๋์ฝ๋๊ฐ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์ ์ด๋ฅผ ์คํํ๋ค. ์ฌ๋ผ์ด๋ฉ ์๋์ฐ์ ์ธํ์ธํ ๊ธฐ๋ฒ์ผ๋ก ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ๋ณด์ฅํ๋ค.
์ง์๋๋ ๋ฉํฐ๋ชจ๋ฌ ์ธํฐํ์ด์ค
| ์ ๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ | ๊ฒฝ๋ก | ์์ฉ |
|---|---|---|
| ๋น๋์ค | ๋น๋์ค โ GENMO (์์ธ ์ถ์ , โฅ60fps) โ ์ธ๊ฐ ์ธ์ฝ๋ โ ๋ฒ์ฉ ํ ํฐ | ๋น๋์ค ํ ๋ ์คํผ๋ ์ด์ (๋จ์ ์นด๋ฉ๋ผ) |
| ํ ์คํธ | ํ ์คํธ โ GENMO (๋ชจ์ ์์ฑ) โ ์ธ๊ฐ ์ธ์ฝ๋ โ ๋ฒ์ฉ ํ ํฐ | ์์ฐ์ด ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด |
| ์์ | ์์ โ GENMO (์๋ฌด ์์ฑ) โ ์ธ๊ฐ ์ธ์ฝ๋ โ ๋ฒ์ฉ ํ ํฐ | ์์ ์ ๋ง์ถ ๋์ค |
| VR (์ ์ ) | PICO VR (ํค๋์ +๋ฐ๋ชฉ ํธ๋์ปค+์ปจํธ๋กค๋ฌ) โ SMPL ์ถ์ โ ์ธ๊ฐ ์ธ์ฝ๋ โ ๋ฒ์ฉ ํ ํฐ | ์ ๋ฐ ์ ์ ํ ๋ ์คํผ๋ ์ด์ |
| VR (3ํฌ์ธํธ) | PICO (๋จธ๋ฆฌ+์์, ๋ฐ๋ชฉ ํธ๋์ปค ๋ถํ์) โ ํ์ด๋ธ๋ฆฌ๋ ์ธ์ฝ๋ โ ๋ฒ์ฉ ํ ํฐ | ๊ฒฝ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ด์ ํ ๋ ์คํผ๋ ์ด์ |
| VLA ๋ชจ๋ธ | GR00T N1.5 โ ํ ๋ ์คํผ๋ ์ด์ ํ์ ์ ํธ โ ํ๋๋ โ ๋ฒ์ฉ ํ ํฐ | ์์จ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ด์ |
VR 3ํฌ์ธํธ ํ ๋ ์คํผ๋ ์ด์ ์ ์ธ๋ถ
3ํฌ์ธํธ ๋ชจ๋๋ ์ค์ฉ์ ๋ฐ์ดํฐ ์์ง์ ์ํด ์ค๊ณ๋์๋ค. ์ถ๋ ฅํ๋ ์ ํธ๋:
- 3๊ฐ์ ์์ฒด SE(3) ์์ธ (๋จธ๋ฆฌ, ์ผ์๋ชฉ, ์ค๋ฅธ์๋ชฉ)
- ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋
- ํ๋ฆฌ ๋์ด
- ๋ก์ฝ๋ชจ์ ๋ชจ๋ (๋๋ฆฐ ๊ฑท๊ธฐ / ๋น ๋ฅธ ๊ฑท๊ธฐ)
- ๋ด๋น๊ฒ์ด์ ๋ช ๋ น (๋ฃจํธ ์ ์๋ + ๋ฐฉํฅ)
์ด ์ ํธ๋ค์ด ํค๋ค๋งํฑ ํ๋๋(ํ์ฒด ๋ชจ์ ์์ฑ)์ ํ์ด๋ธ๋ฆฌ๋ ์ธ์ฝ๋(์์ฒด+ํ์ฒด ํตํฉ)๋ฅผ ๊ฑฐ์ณ ๋ฒ์ฉ ์ ์ฑ ์ผ๋ก ์ ๋ฌ๋๋ค.
VLA ์ฐ๋: System 1 + System 2
ํนํ ์ธ์์ ์ธ ๊ฒ์ GR00T N1.5 VLA ๋ชจ๋ธ๊ณผ์ ์ฐ๋์ด๋ค. VR 3ํฌ์ธํธ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์์งํ 300๊ฐ์ ๊ถค์ ๋ฐ์ดํฐ๋ก GR00T N1.5๋ฅผ ํ์ธํ๋ํ๋ฉด, VLA๊ฐ ์์ ์์ค์ ์ถ๋ก (์ด๋์ ์ฌ๊ณผ๊ฐ ์๋์ง, ์ ์ ์์ ์ฌ๋ ค๋์์ผ ํ๋์ง)์ ์ํํ๊ณ , SONIC์ด ํ์ ์์ค์ ๋ฐ์์ ์ ์ ์ ์ด๋ฅผ ์ํํ๋ค.
์ด๋ฅผ ์ ์๋ค์ ์ธ์ง๊ณผํ์ ์ฉ์ด๋ฅผ ๋น๋ ค ์ค๋ช ํ๋ค:
- SONIC = System 1 (๋น ๋ฅด๊ณ ๋ฐ์์ ์ธ ์ด๋ ๊ธฐ์ โ ์๋ฐฑ Hz ์์ค์ ์ ์ด ์ฃผ๊ธฐ)
- VLA = System 2 (๋๋ฆฌ์ง๋ง ์๊ณ ์ ์ธ ์ถ๋ก โ ์ Hz ์์ค)
์ด ์กฐํฉ์ผ๋ก ์ฌ๊ณผ-์ ์ ๋ชจ๋ฐ์ผ pick-and-place ๊ณผ์ ์์ 20ํ ์๋ ์ค 95% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
3. ์ ์ฒด ์์คํ ํ์ดํ๋ผ์ธ
SONIC์ ์ ์ฒด ์ํคํ ์ฒ๋ฅผ ์ข ํฉํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:
flowchart TB
subgraph ์์["์์ ๋ ๋ฒจ ์ธํฐํ์ด์ค"]
GP["๐ฎ ๊ฒ์ํจ๋"]
VR3["๐ฅฝ VR 3-ํฌ์ธํธ"]
VRF["๐ฅฝ VR ์ ์ "]
VID["๐น ๋น๋์ค"]
TXT["๐ ํ
์คํธ"]
MUS["๐ต ์์
"]
VLA["๐ง VLA<br/>(GR00T N1.5)"]
end
subgraph ์ค๊ฐ["๋ชจ์
์์ฑ / ๋ณํ"]
KP["ํค๋ค๋งํฑ<br/>ํ๋๋"]
GM["GENMO<br/>(๋ฉํฐ๋ชจ๋ฌ ๋ชจ์
์์ฑ)"]
PICO["PICO VR<br/>(SMPL ์ถ์ )"]
end
subgraph ํต์ฌ["SONIC ํต์ฌ"]
direction TB
ENC["์ ์ฉ ์ธ์ฝ๋<br/>(๋ก๋ด/์ธ๊ฐ/ํ์ด๋ธ๋ฆฌ๋)"]
UT["๋ฒ์ฉ ํ ํฐ z<br/>(FSQ ์์ํ)"]
DEC["๊ณต์ ๋์ฝ๋<br/>(์ ์ด + ๋ชจ์
์ฌ๊ตฌ์ฑ)"]
end
subgraph ์คํ["๋ก๋ด ์คํ"]
PD["PD ์ ์ด๊ธฐ"]
G1["Unitree G1<br/>(Jetson Orin)"]
end
GP --> KP --> ENC
VR3 --> KP
VR3 --> ENC
VRF --> PICO --> ENC
VID --> GM --> ENC
TXT --> GM
MUS --> GM
VLA --> KP
ENC --> UT --> DEC --> PD --> G1
์จ๋ณด๋ ๋ฐฐํฌ ์ฑ๋ฅ
์ ์ฒด ์์คํ ์ Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ Jetson Orin GPU์์ ์จ๋ณด๋๋ก ์คํ๋๋ค:
| ๊ตฌ์ฑ ์์ | ์ง์ฐ ์๊ฐ |
|---|---|
| ์ ์ฑ ์ถ๋ก (TensorRT + CUDA Graph) | 1~2 ms |
| ํค๋ค๋งํฑ ํ๋๋ | 12 ms |
| VR ํ ๋ ์คํผ๋ ์ด์ ์ ์ฒด ํ์ดํ๋ผ์ธ ํ๊ท ์ง์ฐ | 121.9 ms |
| ์ค๋ฅธ์ชฝ ์๋ชฉ ์์น ์ค์ฐจ (ํ๋ฆฌ ํ๋ ์ ๊ธฐ์ค) | ์ค์ฉ์ ์์ค |
์ด ์์ค์ ๋ ์ดํด์๋ฉด ์ค์๊ฐ ๋ฐ์์ ์ ์ด์ ์ถฉ๋ถํ๋ค. ํนํ ์ ์ฑ ์ถ๋ก 1~2ms๋ 500Hz ์ด์์ ์ ์ด ๋ฃจํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ๋ป์ด๋ค.
4. ์คํ ๊ฒฐ๊ณผ์ ๋ถ์
4.1 ์ค์ผ์ผ๋ง์ ํจ๊ณผ
SONIC ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒฐ๊ณผ ์ค ํ๋๋ ์ธ ์ถ ๋ชจ๋์์ ์ฑ๋ฅ์ด ์ง์์ ์ผ๋ก ํฅ์๋๋ค๋ ๋ฐ๊ฒฌ์ด๋ค (๋ ผ๋ฌธ Figure 2(a-c)).
๋ฐ์ดํฐ ๊ท๋ชจ์ ํจ๊ณผ
| ๋ฐ์ดํฐ์ | ํ๋ ์ ์ | MPJPE ๊ฒฝํฅ |
|---|---|---|
| LaFAN | 0.4M | ๋์ ์ค์ฐจ |
| In-house (๋ถ๋ถ) | 7.4M | ์ค๊ฐ ์ค์ฐจ |
| Full dataset | 100M | ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ |
๋ฐ์ดํฐ ๊ท๋ชจ ์ฆ๊ฐ๊ฐ ๊ฐ์ฅ ํฐ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์๋ค. ์ด๋ ์ง๊ด์ ์ผ๋ก๋ ์ดํด๊ฐ ๋๋ค โ ๋ค์ํ ์ธ๊ฐ ๋์์ โ์ฌ์ ์ง์(motion prior)โ์ ๋ ํ๋ถํ๊ฒ ํ์ตํ ์๋ก, ๋ณด์ง ๋ชปํ ๋์์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ข์์ง๋ค. ์ธ์ด ๋ชจ๋ธ์์ โ๋ ๋ง์ ํ ์คํธ๋ฅผ ํ์ตํ ์๋ก ๋ ์ข์ ์ธ์ด ์ดํดโ๊ฐ ๋๋ ๊ฒ๊ณผ ๊ฐ์ ์๋ฆฌ๋ค.
GPU ์๊ฐ์ ํจ๊ณผ
8 GPU, 32 GPU, 128 GPU๋ก ๊ฐ๊ฐ ์๋ ด๊น์ง ํ์ตํ ๊ฒฐ๊ณผ, ๋ ๋ง์ GPU์์ ๋ณ๋ ฌ ํ์ตํ ๊ฒฝ์ฐ๊ฐ ๋ ๋ฎ์ ์ ๊ทผ ์ฑ๋ฅ(asymptotic performance) ์ ๋ฌ์ฑํ๋ค. ์ด ๊ฒฐ๊ณผ๋ ๋จ์ํ ํ์ต ์๊ฐ ๋จ์ถ์ด ์๋๋ค. ๋์ผํ ์๋ ด ์๊ฐ์ ์ฃผ๋๋ผ๋, 128 GPU๊ฐ 8 GPU๋ณด๋ค ๋ ๋์ ์ต์ข ์ฑ๋ฅ์ ๋๋ฌํ๋ค.
์ด๋ ๋๊ท๋ชจ ๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ RL ํ์ต์ ์์ ์ฑ๊ณผ ํ์ ํ์ง์ ๊ธ์ ์ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ์์ฌํ๋ค. PPO์ ๊ฐ์น ํจ์ ์ถ์ ์ด ๋ ์ ํํด์ง๊ณ , ์ ์ฑ ๊ทธ๋๋์ธํธ์ ๋ถ์ฐ์ด ์ค์ด๋ค๋ฉด์, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ์ข์ ๋ก์ปฌ ๋ฏธ๋๋ง์ ์๋ ดํ๋ ๊ฒ์ผ๋ก ํด์ํ ์ ์๋ค.
๋ชจ๋ธ ํฌ๊ธฐ์ ํจ๊ณผ
1.2M์์ 42M ํ๋ผ๋ฏธํฐ๋ก ๋คํธ์ํฌ๋ฅผ ํค์ฐ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋๋ค. ๊ธฐ์กด ํด๋จธ๋ ธ์ด๋ ์ ์ด์์๋ MLP๋ฅผ ๋๋ฌด ํฌ๊ฒ ํค์ฐ๋ฉด ํ์ต์ด ๋ถ์์ ํด์ง๋ ๊ฒฝํฅ์ด ์์๋๋ฐ(BFM-Zero ๋ ผ๋ฌธ์์๋ residual architecture๊ฐ ์๋ ์์ MLP์ ๋ํํ๊ฐ ๋ถ์์ ํ๋ค๊ณ ๋ณด๊ณ ), SONIC์ ์ถฉ๋ถํ ๋ฐ์ดํฐ์ ์ฐ์ฐ์ ๋์์ ํฌ์ ํจ์ผ๋ก์จ ์ด ํ๊ณ๋ฅผ ๋์ด์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
4.2 ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต
SONIC์ AMASS ๋ฐ์ดํฐ์ ์ ๋ฏธ์ฌ์ฉ ์๋ธ์ (9์๊ฐ, 1,602๊ฐ ๊ถค์ โ TWIST์์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๋์ผ)์์ ํ๊ฐ๋ฅผ ์ํํ๋ค. SONIC์ AMASS ๋ฐ์ดํฐ๋ก ํ์ตํ์ง ์์์ผ๋ฏ๋ก, ์ด๋ ์์ ํ ๋ถํฌ ์ธ(out-of-distribution) ํ๊ฐ๋ค. ํ ์คํธ์ ๊ท๋ชจ ์์ฒด๊ฐ ๊ธฐ์กด ์ฐ๊ตฌ์ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ ๋น์ทํ ์์ค์ด๋ผ๋ ์ ๋ ์ฃผ๋ชฉํ ๋งํ๋ค.
๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ ํ๊ฐ๋ MuJoCo ํ๊ฒฝ์์ ์ํ๋์๋ค (๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์ด ์ง์ํ๋ ์๋ฎฌ๋ ์ดํฐ).
์ฑ๊ณต๋ฅ ๋น๊ต (๋ ผ๋ฌธ Figure 2(d))
| ๋ฐฉ๋ฒ | ํ์ต ๋ฐ์ดํฐ | ์ฑ๊ณต๋ฅ (Succ, %) |
|---|---|---|
| Any2Track | LaFAN | 58.3 |
| GMT | AMASS | 84.2 |
| BeyondMimic | LaFAN | 94.3 |
| SONIC | ์์ฒด ์์ง (100M) | 99.6 |
SONIC์ 99.6% ์ฑ๊ณต๋ฅ ์ ์๋์ ์ด๋ค. ํนํ AMASS ๋ฐ์ดํฐ๋ก ์ง์ ํ์ตํ GMT(84.2%)๋ณด๋ค๋ ๋๋ค๋ ์ ์ด ๋๋๋ค. SONIC์ AMASS๋ฅผ ํ ๋ฒ๋ ๋ณธ ์ ์ด ์๋๋ฐ๋ ๋ง์ด๋ค. ์ด๋ ์ถฉ๋ถํ ๋ค์ํ ๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ ์ฑ ์ด ์ง์ ํ โ๋ชจ์ ํ๋ผ์ด์ดโ๋ฅผ ํ๋ํ์์ ์์ฌํ๋ค.
์ถ์ ์ ํ๋ ๋ฉํธ๋ฆญ (๋ ผ๋ฌธ Figure 2(e-g))
| ๋ฉํธ๋ฆญ | ์ค๋ช | SONIC ์ฑ๋ฅ |
|---|---|---|
| MPJPE (E_{\text{mpjpe}}, mm) | ๋ฃจํธ ๊ธฐ์ค ์๋ ๊ด์ ์์น ์ค์ฐจ | ๋ชจ๋ ๋ฐฉ๋ฒ ์ค ์ต์ |
| ๊ฐ์๋ ์ค์ฐจ (E_{\text{acc}}, mm/frameยฒ) | ๋ฌผ๋ฆฌ์ ์์ฐ์ค๋ฌ์ | ๋ชจ๋ ๋ฐฉ๋ฒ ์ค ์ต์ |
| ์๋ ์ค์ฐจ (E_{\text{vel}}, mm/frame) | ๋์ ์ ํฉ์ฑ | ๋ชจ๋ ๋ฐฉ๋ฒ ์ค ์ต์ |
์ด ๋ฉํธ๋ฆญ๋ค์ ์ฑ๊ณต์ ์ผ๋ก ์ถ์ ๋ ๊ถค์ ์์๋ง ๊ณ์ฐ๋๋ค. ์ฆ, SONIC์ ๊ฑฐ์ ๋ชจ๋ ๊ถค์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ถ์ ํ๋ฉด์(99.6%), ๊ทธ ์ถ์ ํ์ง๊น์ง ๊ฐ์ฅ ๋๋ค.
์คํจ ๊ธฐ์ค
๋ชจ์ ์ถ์ข ์ด ์คํจ๋ก ๊ฐ์ฃผ๋๋ ์กฐ๊ฑด(๋ ผ๋ฌธ ๊ธฐ์ค, ์ํ๋ ๊ธฐ์ค):
- ๋ก๋ด ๋ฃจํธ ๋์ด๊ฐ ์ฐธ์กฐ ๋ชจ์ ์์ 0.25m ์ด์ ๋ฒ์ด๋จ (= ๋์ด์ง)
- ๋๋ ๋ฃจํธ ๋ฐฉํฅ์ด ์ฐธ์กฐ์์ 1 ๋ผ๋์ ์ด์ ๋ฒ์ด๋จ
์ด ๊ธฐ์ค ํ์์ 99.6%๋ฅผ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ์ฌ์ค์ 1,602๊ฐ ๊ถค์ ์ค ์ฝ 6๊ฐ๋ง ์คํจํ๋ค๋ ์๋ฏธ๋ค.
4.3 ์ค์ธ๊ณ ์ ์ด (Real-World Transfer)
์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค. SONIC์ ์ง์ ํ ์ํ๋๋ ์ค์ Unitree G1 ๋ก๋ด์ด๋ค.
์ ๋ก์ท Sim-to-Real
SONIC์ 50๊ฐ์ ๋ค์ํ ๋ชจ์ ๊ถค์ ์ ์ค์ ๋ก๋ด์์ ๋จ ํ ๋ฒ์ ์คํจ ์์ด ์ํํ๋ค (100% ์ฑ๊ณต๋ฅ ). ์ด๋ ๋ค์์ ํฌํจํ๋ ๋ณต์กํ ํ๋๋ค์ด๋ค:
- ์ถค ๋์ (์๋ฌด ์ถ์ข )
- ์ ํ ์ํ์ค
- ๋ก์ฝ๋ชจ์ -๋งค๋ํฐ๋ ์ด์ ๊ฒฐํฉ ๋์
- ์ฟตํ ๋์ (๋น๋์ค ํ ๋ ์คํผ๋ ์ด์ )
- ๊ธฐ์ด๊ฐ๊ธฐ
์ด ๊ฒฐ๊ณผ๋ ๋๋ฉ์ธ ๋๋คํ ์ ๋ต์ ํจ๊ณผ๋ฅผ ๊ฐ๋ ฅํ ๊ฒ์ฆํ๋ค. ์๋ฎฌ๋ ์ด์ ์์ ์ถฉ๋ถํ ๋ค์ํ ์กฐ๊ฑด์ ๋ ธ์ถ๋ ์ ์ฑ ์ด ์ค์ ์ธ๊ณ์ ๋ฌผ๋ฆฌ์ ์ฐจ์ด์๋ ๊ฒฌ๋ ์ ์๋ ๊ฐ๊ฑด์ฑ์ ํ๋ํ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์ ์ค์ธ๊ณ ์ฑ๋ฅ์ด ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ์ ๊ทผ์ ํ๋ค๊ณ ๋ณด๊ณ ํ๋ค.
ํ ๋ ์คํผ๋ ์ด์ ์ ๋ ํ๊ฐ
3ํฌ์ธํธ VR ํ ๋ ์คํผ๋ ์ด์ ๋ชจ๋์์ 300๊ฐ ๊ถค์ ์ ๊ฑธ์น ์ ๋์ ํ๊ฐ:
- ํ๊ท ์ง์ฐ์๊ฐ: 121.9 ms
- ์๋ชฉ ์ถ์ : ์ค๋ฅธ์ชฝ ์๋ชฉ ์์น ์ค์ฐจ๋ฅผ ํ๋ฆฌ ํ๋ ์ ๊ธฐ์ค์ผ๋ก ์ธก์ , ์ค์ฉ์ ์์ค ๋ฌ์ฑ
์ด๋ ์ฌ๊ณผ๋ฅผ ์ง์ด ์ ์์ ์ฌ๋ฆฌ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ด์ ๊ฐ์ ์ค์ ๊ณผ์ ๋ฅผ ์ํํ๊ธฐ์ ์ถฉ๋ถํ ์ ๋ฐ๋๋ค.
5. ๋นํ์ ๊ณ ์ฐฐ
5.1 ๊ฐ์
โ โ๊ณผ์ ์ ํโ์ด๋ผ๋ ๊ทผ๋ณธ์ ํต์ฐฐ
SONIC์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ์ด ์๋๋ผ, โ์ ์ง๊ธ๊น์ง ์ค์ผ์ผ์ ์ด ์ ๋๋๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ ๋ํ ๋ต์ด๋ค. ๋ชจ์ ํธ๋ํน์ ๋ฒ์ฉ ๊ณผ์ ๋ก ์ค์ ํ ๊ฒ์ ๋จ์ํ์ง๋ง ๊น์ ํต์ฐฐ์ด๋ค. ์ข์ ๊ณผํ์ ํน์ฑ โ ๋จ์ํ ์๋ฆฌ์์ ๋ณต์กํ ํ์์ ์ค๋ช ํ๋ ๊ฒ โ ์ ์ ๋ณด์ฌ์ค๋ค. ์ธ์ด ๋ชจ๋ธ์์ โ๋ค์ ํ ํฐ ์์ธกโ์ด ๋ฒ์ฉ ๊ณผ์ ์ธ ๊ฒ์ฒ๋ผ, ๋ชจ์ ํธ๋ํน์ ๋ก๋ด ์ ์ด์์์ ๋ฒ์ฉ ๊ณผ์ ๊ฐ ๋ ์ ์๋ค.
โก ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ๊น๋ํ ์ถ์ํ
FSQ ์์ํ๋ฅผ ํตํ ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ๋งค์ฐ ์ฐ์ํ ์ค๊ณ๋ค. VR์ด๋ ๋น๋์ค๋ ํ ์คํธ๋ , ๋ชจ๋ ๊ฒ์ด ๊ฐ์ ์ ๋ณด ๋ณ๋ชฉ(information bottleneck)์ ํต๊ณผํ๋ฏ๋ก, ์๋ก์ด ์ ๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ ์ธ์ฝ๋ ํ๋๋ง ํ์ตํ๋ฉด ๋๋ ๋ฌธ์ ๋ก ์ถ์๋๋ค. ๋ํ ๋ฆฌํ๊ฒํ ์์ด ๊ต์ฐจ ์ ์ฒด ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ์ ์์ ์ค์ฉ์ ๊ฐ์น๊ฐ ํฌ๋ค.
โข ์ค์ฉ์ ์์คํ ๊ตฌํ
๋ง์ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ด ์๊ณ ๋ฆฌ์ฆ ์ฑ๋ฅ๋ง ๋ณด์ฌ์ฃผ์ง๋ง, SONIC์ ์จ๋ณด๋ ๋ฐฐํฌ, ์ค์๊ฐ ํ๋๋, VLA ์ฐ๋, ๋ค์ํ ํ ๋ ์คํผ๋ ์ด์ ์ธํฐํ์ด์ค๊น์ง ์๊ฒฐ๋ ์์คํ ์ ๊ตฌ์ถํ๋ค. 1~2ms ์ถ๋ก ์ง์ฐ์ TensorRT/CUDA Graph ์ต์ ํ์ ๊ฒฐ๊ณผ์ด๋ฉฐ, ์ด๋ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํ ์ฌ์ธต์ ์์ง๋์ด๋ง์ด๋ค.
โฃ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๊ฒฝํ์ ๊ฒ์ฆ
๋ฐ์ดํฐยท๋ชจ๋ธยท์ฐ์ฐ ๊ฐ๊ฐ์ ์ถ์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค ๊ฒ์ ํฅํ ์ฐ๊ตฌ์ ๋ฐฉํฅ์ ๋ช ํํ ์ ์ํ๋ค. โ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์๋ผ, ๋ ํฐ ๋ชจ๋ธ์ ์ฐ๋ผ, ๋ ๋ง์ GPU๋ฅผ ์จ๋ผโ โ ์ด ๊ฐ๋จํ ์ฒ๋ฐฉ์ด ์ค์ ๋ก ์๋ํ๋ค๋ ์ฆ๊ฑฐ๋ ๋ถ์ผ ์ ์ฒด์ ํฐ ์ํฉํธ๋ฅผ ์ค๋ค.
โค ์์ ํ ํ์ดํ๋ผ์ธ: ํ ๋ ์คํผ๋ ์ด์ โ ๋ฐ์ดํฐ ์์ง โ VLA โ ์์จ ์ ์ด
ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ๊ทธ ๋ฐ์ดํฐ๋ก VLA๋ฅผ ํ์ตํ๊ณ , VLA๊ฐ ๊ฐ์ ์ธํฐํ์ด์ค๋ฅผ ํตํด ์์จ ์ ์ด๋ฅผ ์ํํ๋ ์์ ํ ๋ฐ์ดํฐ ํ๋ผ์ดํ (data flywheel) ์ ์์ฐํ๋ค. ์ด๋ ๋ชจ์ ํธ๋ํน์ด ๋จ์ํ ๋ชจ๋ฐฉ์ ๋์ด ์์จ์ ๊ณผ์ ์ํ์ ๊ธฐ์ด๊ฐ ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค.
5.2 ์ฝ์ ๊ณผ ํ๊ณ
โ ์์ ์ฑ(Safety)๊ณผ ์ปดํ๋ผ์ด์ธ์ค(Compliance)์ ๋ถ์ฌ
์ ์๋ค ์ค์ค๋ก๋ ์ธ์ ํ๋ฏ, ์์ ์ฑ, ์ปดํ๋ผ์ด์ธ์ค, ์๋์ง ํจ์จ์ ๋ํ ๊ณต์์ ์ฒ๋ฆฌ๊ฐ ์๋ค. ์ค์ ํ๊ฒฝ์์ ์ฌ๋๊ณผ ํจ๊ป ์ผํ๋ ํด๋จธ๋ ธ์ด๋์๊ฒ ์ด๋ ํ์์ ์ธ ์์๋ค. ์์น ๊ธฐ๋ฐ PD ์ ์ด๋ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์ฑ(stiff)ํ๋ฏ๋ก, ์์์น ๋ชปํ ์ ์ด ์ํฉ์์ ์ฌ๋์ด๋ ํ๊ฒฝ์ ์ํ์ ์ค ์ ์๋ค. ์ต๊ทผ GentleHumanoid ๊ฐ์ ์ฐ๊ตฌ๊ฐ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ธฐ ์์ํ์ง๋ง, SONIC์๋ ์์ง ๋ฐ์๋์ง ์์๋ค.
โก ์ปดํจํ ์์์ ์ฅ๋ฒฝ
128 GPU ร 3์ผ์ด๋ผ๋ ํ์ต ๋น์ฉ์ ๋๋ถ๋ถ์ ์ฐ๊ตฌ ๊ทธ๋ฃน์๊ฒ ํ์ค์ ์ด์ง ์๋ค. NVIDIA ๋ด๋ถ์์๋ ๊ฐ๋ฅํ์ง๋ง, ์ฌํ์ฑ(reproducibility) ์ธก๋ฉด์์ ํฐ ํ๊ณ๋ค. 8 GPU ๋ฒ์ ๋ ํ์ต ๊ฐ๋ฅํ์ง๋ง ์ฑ๋ฅ์ด ๋จ์ด์ง๋ฏ๋ก, โ์ต๊ณ ์ฑ๋ฅ์ ์ฌํํ๋ ค๋ฉด ๋๊ท๋ชจ ์์์ด ํ์ํ๋คโ๋ ์ง์ ์ฅ๋ฒฝ์ด ์กด์ฌํ๋ค. ์ด๋ ์๊ท๋ชจ ์ฐ๊ตฌ ๊ทธ๋ฃน์ด๋ ํ๊ณ์ ์ฐธ์ฌ๋ฅผ ์ ํํ ์ ์๋ค.
โข ์์ฒด ์์ง ๋ฐ์ดํฐ์ ์ ๋น๊ณต๊ฐ
1์ต ํ๋ ์์ ํต์ฌ ํ์ต ๋ฐ์ดํฐ๊ฐ ์์ฒด ์์ง(in-house) ๋ฐ์ดํฐ๋ค. ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ธ AMASS๋ LaFAN๋ง์ผ๋ก๋ ๋์ผํ ์ฑ๋ฅ์ ์ฌํํ ์ ์์ผ๋ฏ๋ก, ๋ฐ์ดํฐ ์์ฒด๊ฐ ๋น๊ณต๊ฐ ๊ฒฝ์ ์ฐ์๊ฐ ๋๋ค. ์ด๋ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ค๊ณ , ์ฐ๊ตฌ ๊ณต๋์ฒด์ ๋ฐ์ ์ ์ ํดํ ์ ์๋ค. ๋ค๋ง GR00T-WholeBodyControl ์ ์ฅ์์์ ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ ๊ณต๊ฐ๊ฐ ์์ ๋์ด ์์ด, ์ถ๋ก (inference) ์์ค์ ์ฌํ์ ๊ฐ๋ฅํด์ง ์ ๋ง์ด๋ค.
โฃ ๋ ธ์ด์ฆ์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ถ์ ๋ถ์กฑ
์ค์ ๋ฐฐํฌ์์ ๋ชจ์ ์ถ์ ํ์ดํ๋ผ์ธ์ ๋ ธ์ด์ฆ๋ ๋ถ๊ฐํผํ๋ค. ๋น๋์ค ๊ธฐ๋ฐ ์์ธ ์ถ์ , VR ํธ๋ํน์ ๋จ๋ฆผ, ๋คํธ์ํฌ ์ง์ฐ ๋ฑ์ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ๊ฒฐ๊ณผ๊ฐ ๋ถ์กฑํ๋ค. ๋ชจ์ ์ญ๋์ ๋๋ฉ์ธ ๋๋คํ์์ ๋ค๋ฃจ๊ธด ํ์ง๋ง, Any2Track์ด๋ ์ต๊ทผ์ Robust and Generalized Humanoid Motion Tracking ์ฐ๊ตฌ์ฒ๋ผ ๋ ธ์ด์ฆ ์์ค๋ณ ์ ๋์ ๊ฐ๊ฑด์ฑ ๋ถ์์ด ์์์ผ๋ฉด ๋ ์ค๋๋ ฅ์ด ์์์ ๊ฒ์ด๋ค.
โค ๋จ์ผ ๋ก๋ด ํ๋ซํผ
๋ชจ๋ ์คํ์ด Unitree G1 ํ๋์์ ์ํ๋์๋ค. ๋ค๋ฅธ ํํ์ ํด๋จธ๋ ธ์ด๋(Atlas, H1, Figure, 1X ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ ์ฆ๋์ง ์์๋ค. ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ๊ต์ฐจ ์ ์ฒด ๋ฅ๋ ฅ์ด ๋ค๋ฅธ ๋ก๋ด์ผ๋ก์ ํ์ฅ์ ๋์์ด ๋ ์ ์์ง๋ง, ๊ด์ ๊ตฌ์ฑ, ์ง๋ ๋ถํฌ, ์ก์ถ์์ดํฐ ํน์ฑ์ด ํฌ๊ฒ ๋ค๋ฅธ ๋ก๋ด์ผ๋ก์ ์ ์ด๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
โฅ ๋ฌผ์ฒด ์ํธ์์ฉ๊ณผ ์ ์ด ํ ์ ์ด์ ์ ํ
๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต์ ๋ณธ์ง์ ํ๊ณ๋ก, ๋ฌผ์ฒด์์ ์ ๋ฐํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ(ํ ์กฐ์ , ์ ์ด ์ธ์, ๋๊ตฌ ์ฌ์ฉ ๋ฑ)์ ์ถฉ๋ถํ ๋ค๋ค์ง์ง ์๋๋ค. ์ฌ๊ณผ-์ ์ ๊ณผ์ ๊ฐ ์์ฐ๋์์ง๋ง, ์ด๋ ์๋์ ์ผ๋ก ๋จ์ํ ํ์ง/๋ฐฐ์น ๊ณผ์ ๋ค. ๋ฐ๋ฉด BeyondMimic์ ํ์ฐ ์ ์ฑ ์ ํตํ ์ ๋ก์ท ๊ณผ์ ์ ํ์ ๋ณด์ฌ์ฃผ์ด ์ด ๋ฐฉ๋ฉด์์ ๋ ์ ์ฐํ ์ ์๋ค.
5.3 ์ด๋ฆฐ ์ง๋ฌธ๋ค
- ์ค์ผ์ผ๋ง์ ํ๊ณ๋ ์ด๋์ธ๊ฐ? 42M์์ 400M, 4B๋ก ๊ฐ๋ฉด ์ด๋ค ์ผ์ด ๋ฒ์ด์ง๋๊ฐ? ์ํ์ฒด๊ฐ(diminishing returns)์ด ์ธ์ ์์๋๋๊ฐ? ์ด์ ๋ํ ๋ณธ๊ฒฉ์ ์ธ ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law) ๋ถ์์ด ์์ง ์๋ค.
- ํ๋๋-ํ ํฌ๋์ด์ -์ ์ฑ ์ ๊ณต๋ ํ์ต(joint training) ์ ๋ชจ๋ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐญ์ ์ค์ผ ์ ์๋๊ฐ? ํ์ฌ๋ ๊ฐ๋ณ์ ์ผ๋ก ํ์ต๋๋ฏ๋ก, ์ธ์ฝ๋-๋์ฝ๋ ์ฌ์ด์ ๋ถ์ผ์น๊ฐ ์กด์ฌํ ์ ์๋ค.
- VLA ์ง์ ์ ์ ๋ก์ฝ๋งค๋ํฐ๋ ์ด์ ์ 300๊ฐ ๊ถค์ ์ ๋์ด ์์ฒ~์๋ง ๊ฐ ๊ท๋ชจ์์ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ด๋๊ฐ? ๊ณผ์ ์ ๋ณต์ก๋๊ฐ ๋์์ง๋ฉด?
- ์๋์ง ํจ์จ๊ณผ ๋ฐฐํฐ๋ฆฌ ์ ์ฝ ํ์์ ์ค์ ์ฅ์๊ฐ ๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํ๊ฐ?
- ์๋ฐฉํฅ ๋ฐ์ดํฐ ํ๋ผ์ดํ : ์์จ ์ ์ด ์ค ์คํจํ ๊ฒฝํ์ ๋ค์ ํ์ต์ ํ์ฉํ๋ ์จ๋ผ์ธ ํ์ต์ด ๊ฐ๋ฅํ๊ฐ?
6. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
6.1 ๋ชจ์ ํธ๋ํน ๊ณ๋ณด
timeline
title ํด๋จธ๋
ธ์ด๋ ๋ชจ์
ํธ๋ํน์ ์งํ
section ์ด๊ธฐ ์ฐ๊ตฌ
DeepMimic (2018) : ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ๋ชจ๋ฐฉ์ ๊ฐ์ฒ
AMP (2021) : ์ ๋์ ๋ชจ์
ํ๋ผ์ด์ด
section ๋ฒ์ฉ ํธ๋ํน
PHC (2023) : Perpetual Humanoid Control
MaskedMimic (2024) : ๋ง์คํฌ ๋ชจ์
์ธํ์ธํ
section ์ค์ธ๊ณ ๋ฐฐํฌ
Any2Track (2025) : 2๋จ๊ณ RL (ํธ๋์ปค+์ด๋ํฐ)
GMT (2025) : ๋ฒ์ฉ ๋ชจ์
ํธ๋ํน
BeyondMimic (2025) : ํ์ฐ ๊ธฐ๋ฐ ๋ค์ฉ๋ ์ ์ด
section ๋๊ท๋ชจ ์ค์ผ์ผ๋ง
SONIC (2025) : 1์ต ํ๋ ์ 42M params 128 GPU
CLOT (2025) : ํ๋ฃจํ ๊ธ๋ก๋ฒ ํธ๋ํน
6.2 ์ฃผ์ ๊ฒฝ์ ์ฐ๊ตฌ ์์ธ ๋น๊ต
| ํน์ฑ | Any2Track | GMT | BeyondMimic | SONIC |
|---|---|---|---|---|
| ํ์ต ๋ฐ์ดํฐ | LaFAN (~0.4M) | AMASS | LaFAN | ์์ฒด 100M+ |
| ๋ชจ๋ธ ํฌ๊ธฐ | ์ M | ์ M | ์ M | 42M |
| GPU ํ์ต | ์์ญ~์๋ฐฑ GPU-hrs | ์๋ฐฑ GPU-hrs | ์๋ฐฑ GPU-hrs | 9k~32k GPU-hrs |
| ํต์ฌ ์ ๊ทผ๋ฒ | ํธ๋์ปค+์ด๋ํฐ (2๋จ๊ณ) | PPO + ํธ๋์คํฌ๋จธ | ํ์ฐ ์ ์ฑ | PPO + ๋ฒ์ฉ ํ ํฐ |
| Sim-to-Real ์ ๋ต | ํ์คํ ๋ฆฌ ๊ธฐ๋ฐ ์ ์ | ๋๋ฉ์ธ ๋๋คํ | ๋๋ฉ์ธ ๋๋คํ | ๋๊ท๋ชจ ๋๋ฉ์ธ ๋๋คํ |
| ๋ค์ด์คํธ๋ฆผ ๊ณผ์ | ์ ํ์ | ์ ํ์ | ํ์ฐ ๊ธฐ๋ฐ ๊ณผ์ ์ ํ | ํ๋๋+VLA ์ฐ๋ |
| ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ | โ | โ | โ | โ (๋น๋์ค/ํ ์คํธ/์์ /VR) |
| OOD ์ฑ๊ณต๋ฅ | 58.3% | 84.2% | 94.3% | 99.6% |
| ์ค์ธ๊ณ ๊ฒ์ฆ | G1 ๋ฐฐํฌ, ๊ฐ๊ฑด์ฑ ํ ์คํธ | ์ ํ์ | G1 ๋ฐฐํฌ | G1, 50๊ถค์ 100% |
SONIC์ ์ฐจ๋ณ์ ์ ๋ช ํํ๋ค. ๋จ์ํ ํธ๋ํน ์ฑ๋ฅ๋ง ์ข์์ง ๊ฒ์ด ์๋๋ผ, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ ์ง์, ์ค์๊ฐ ํ๋๋, VLA ์ฐ๋์ด๋ผ๋ ์ค์ฉ์ ์์คํ ๊น์ง ์๋นํ๋ค.
๋ค๋ง ๊ฐ ๋ฒ ์ด์ค๋ผ์ธ์ ์ค๊ณ ์ฒ ํ๋ ์ดํดํ ํ์๊ฐ ์๋ค. Any2Track์ ํธ๋์ปค์ ์ด๋ํฐ๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋์ญํ ์ ์์ฑ์ ๋ช ์์ ์ผ๋ก ํ์ตํ๋ฏ๋ก, ๋ ธ์ด์ฆ๋ ์งํ ๋ณํ์ ๋ํ ๊ฐ๊ฑด์ฑ์์ ์ฅ์ ์ด ์๋ค. BeyondMimic์ ํ์ฐ ์ ์ฑ ์ ํตํด ๋ณด์ ์์ด ์ ๋ก์ท ๊ณผ์ ์ ํ์ด ๊ฐ๋ฅํ๋ฏ๋ก, ์๋ก์ด ๊ณผ์ ์ ๋ํ ์ ์ฐ์ฑ์์ ์ฅ์ ์ด ์๋ค. GMT๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ผ๋ก ์ฅ์๊ฐ ์๊ณต๊ฐ ์์กด์ฑ์ ํฌ์ฐฉํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๋ค.
6.3 BFM-Zero์์ ๋น๊ต
BFM-Zero๋ โํ๋ ๊ธฐ์ด ๋ชจ๋ธ(Behavioral Foundation Model)โ์ ์งํฅํ๋ ์ฐ๊ตฌ๋ค. BFM-Zero๋ ๋น์ง๋ RL(unsupervised RL) ์ ํตํด ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ ์๋จ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ๋ณด์ ์ถ๋ก (reward inference)์ผ๋ก ์ ๋ก์ท ๊ณผ์ ์ํ์ ์งํฅํ๋ค.
๋ ์ฐ๊ตฌ์ ํต์ฌ์ ์ฐจ์ด:
| ์ธก๋ฉด | BFM-Zero | SONIC |
|---|---|---|
| ํ์ต ํจ๋ฌ๋ค์ | ๋น์ง๋ RL + ์คํ ํด๋ฆฌ์ | ์ง๋ ๋ชจ์ ํธ๋ํน + ์จ ํด๋ฆฌ์ PPO |
| ๊ณผ์ ์ ํ | ๋ณด์ ์ถ๋ก (์ ๋ก์ท) | ํ๋๋/ํ ํฐ ๊ณต๊ฐ (์ธํฐํ์ด์ค ๊ต์ฒด) |
| ๋ชจ์ ๋ฐ์ดํฐ ์ญํ | ์ ๊ทํ ์๋จ | ์ง์ ์ ํ์ต ๋ชฉํ |
| ์ค์ธ๊ณ ๋ฐฐํฌ | ์ด๊ธฐ ๋จ๊ณ | ์๊ฒฐ๋ ์์คํ |
| ์ค์ผ์ผ | ์ค๊ท๋ชจ | ๋๊ท๋ชจ |
SONIC์ด ๋ ์ง์ ์ ์ด๊ณ ๊ณตํ์ ์ธ ์ ๊ทผ์ธ ๋ฐ๋ฉด, BFM-Zero๋ ๋ ์๋ฆฌ์ ์ด๊ณ ๋ฒ์ฉ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ค์ฉ์ ์ฑ๋ฅ์์๋ SONIC์ด ์์์ง๋ง, ๋ณด์ ํจ์ ์์ด ์ฌ์ ์ ์๋์ง ์์ ์๋ก์ด ๊ณผ์ ์ ์ ์ํ๋ ์ ์ฐ์ฑ์์๋ BFM-Zero์ ์ ๊ทผ์ด ์ฅ๊ธฐ์ ์ผ๋ก ๋ ์ ๋งํ ์ ์๋ค.
6.4 CLOT๊ณผ์ ๋น๊ต
์ต๊ทผ ๋ฐํ๋ CLOT(Closed-Loop Global Motion Tracking)์ ํ๋ฃจํ ๊ธ๋ก๋ฒ ํธ๋ํน์ ๊ฐ์กฐํ๋ค. SONIC์ด ๋ก์ปฌ(๋ฃจํธ ๊ธฐ์ค ์๋) ํธ๋ํน์ ์ฃผ๋ ฅํ๋ ๋ฐ๋ฉด, CLOT์ ๊ธ๋ก๋ฒ ์ขํ๊ณ์์์ ์์น ์ถ์ ์ ํตํด ์ฅ์๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์ ๋๋ฆฌํํธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. CLOT์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋๋คํ ์ ๋ต๊ณผ ์ ๋์ ๋ชจ์ ํ๋ผ์ด์ด(AMP)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ ์ฑ ์ด MLP ๋๋น ์ฅ์๊ฐ ์๊ณต๊ฐ ์์กด์ฑ ์ฒ๋ฆฌ์์ ์ฐ์ํจ์ ๋ณด์ฌ์ค๋ค. ๋ ์ฐ๊ตฌ๋ ๋ณด์์ ์ด๋ฉฐ, SONIC์ ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ + CLOT์ ๊ธ๋ก๋ฒ ํธ๋ํน์ ๊ฒฐํฉํ๋ฉด ๋ ๊ฐ๋ ฅํ ์์คํ ์ด ๋ ์ ์๋ค.
6.5 GR00T ์ํ๊ณ์์์ ์์น
SONIC์ NVIDIA์ GR00T ์ํ๊ณ ์์์ Whole-Body Control(WBC) ์ธต์ ๋ด๋นํ๋ค:
flowchart TB
subgraph GROOT["GR00T ์ํ๊ณ"]
direction TB
VLA2["GR00T N1.5/N1.6<br/>(System 2: VLA ์ถ๋ก )"]
SONIC2["SONIC / GEAR-SONIC<br/>(System 1: ์ ์ ๋ชจํฐ ๊ธฐ์ )"]
HW["Unitree G1 / ๊ธฐํ ํด๋จธ๋
ธ์ด๋<br/>(ํ๋์จ์ด)"]
VLA2 -->|"๊ณ ์์ค ๋ช
๋ น<br/>(SE(3) ์์ธ, ์๋)"| SONIC2
SONIC2 -->|"๊ด์ ํ ํฌ<br/>(PD ์ ์ด)"| HW
end
GitHub์์ ๊ณต๊ฐ๋ GR00T-WholeBodyControl ์ ์ฅ์์์ Decoupled WBC(์์ฒด IK + ํ์ฒด RL)์ GEAR-SONIC ์๋ฆฌ์ฆ ๋ชจ๋ธ์ด Apache 2.0(์ฝ๋) + NVIDIA Open Model License(๊ฐ์ค์น)๋ก ๊ณต๊ฐ๋์๊ฑฐ๋ ๊ณต๊ฐ ์์ ์ด๋ค.
7. Allegro Hand ๊ด์ ์์์ ์์ฌ์
Allegro Hand V4์ ๊ฐ์ ๋ค์ง(dexterous) ๋งค๋ํฐ๋ ์ด์ ์ฐ๊ตฌ ๊ด์ ์์ SONIC์ด ์ฃผ๋ ์์ฌ์ ์ ์ ๋ฆฌํด ๋ณด์.
๋ชจ์ ํธ๋ํน์ ํ์ฅ ๊ฐ๋ฅ์ฑ: SONIC์ด ์ ์ ์ ์ด์์ ๋ณด์ฌ์ค โ๋ชจ์ ํธ๋ํน = ๋ฒ์ฉ ๊ณผ์ โ ๊ณต์์ ์๊ฐ๋ฝ ์ ์ด์๋ ์ ์ฉํ ์ ์์๊น? ์ธ๊ฐ ์์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ(GRAB, ContactPose, DexYCB, OakInk ๋ฑ)๊ฐ ์๋น๋ ์ถ์ ๋์ด ์๋ค. SONIC์ ์ ๊ทผ์ ๋ฐ๋ผ, ๋๊ท๋ชจ ์ ๋ชจ์ ํธ๋ํน์ด dexterous manipulation์ ๊ธฐ์ด ๋ชจ๋ธ์ด ๋ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํด ๋ณผ ๋งํ๋ค.
๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ์ ๋งค๋ํฐ๋ ์ด์ ์ ์ฉ: SONIC์ FSQ ๊ธฐ๋ฐ ํ ํฐ ๊ณต๊ฐ์ ์ฐจ์ฉํ๋ฉด, ํ ๋ ์คํผ๋ ์ด์ (๋ฐ์ดํฐ ๊ธ๋ฌ๋ธ) ยท ๋น์ ๊ธฐ๋ฐ ์ ์ด(์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ ์์ธ ์ถ์ ) ยท ์ด๊ฐ ๊ธฐ๋ฐ ์ ์ด ๋ฑ ๋ค์ํ ์ ๋ ฅ์ ํ๋์ ์๊ฐ๋ฝ ์ ์ด ์ ์ฑ ์ผ๋ก ํตํฉํ ์ ์์ ๊ฒ์ด๋ค. ๋ฆฌํ๊ฒํ ์์ด ์ธ๊ฐ ์ ๋ชจ์ ์ ์ง์ Allegro Hand ์ ์ด๋ก ๋ณํํ๋ ๊ฒ๋ ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
VLA ์ฐ๋ ํจํด์ ์ ์ฉ: SONIC์ด GR00T N1.5์ ์ฐ๋ํ โSystem 1 + System 2โ ํจํด์ Allegro Hand์์๋ ์ ์ฉํ๋ค. VLA๊ฐ โ์ปต์ ๋ค์ด ์ฌ๋ คโ๋ผ๊ณ ์ง์ํ๋ฉด, ์๊ฐ๋ฝ ํธ๋์ปค๊ฐ ์ ์ ํ ํ์ง ์ ๋ต์ ์คํํ๋ ๊ตฌ์กฐ๋ฅผ ๊ตฌํํ ์ ์๋ค.
๋ฐ์ดํฐ ํ๋ผ์ดํ ์ ์ ์ฉ: ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ โ ์ด๋ฅผ VLA ํ์ต์ ์ฌ์ฉํ๊ณ โ VLA๊ฐ ์์จ ์กฐ์์ ์ํํ๋ SONIC์ ๋ฐ์ดํฐ ํ๋ผ์ดํ ์ Allegro Hand ์ํ๊ณ์ ์ ์ฉํ๋ ๊ฒ์ ๋งค์ฐ ์์ฐ์ค๋ฌ์ด ํ์ฅ์ด๋ค.
8. ์์ฝ ๋ฐ ๊ฒฐ๋ก
SONIC์ โํด๋จธ๋ ธ์ด๋ ์ ์ด์๋ ์ค์ผ์ผ๋ง์ด ์๋ํ๋คโ ๋ ๊ฒ์ ๊ฒฝํ์ ์ผ๋ก ์ ์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ค.
ํต์ฌ ๊ธฐ์ฌ ์ ๋ฆฌ
- ๋ชจ์ ํธ๋ํน์ ๋ฒ์ฉ ์ค์ผ์ผ๋ง ๊ณผ์ ๋ก ํ๋ฆฝ: ์์์ ๋ณด์ ์ค๊ณ ์์ด ๋ค์ํ ํ๋์ ํ์ตํ ์ ์๋ ์์ฐ์ค๋ฌ์ด ํ๋ ์์ํฌ
- ์ธ ์ถ ์ค์ผ์ผ๋ง์ ๊ฒฝํ์ ๊ฒ์ฆ: ๋ฐ์ดํฐ(100M+ ํ๋ ์), ๋ชจ๋ธ(42M params), ์ฐ์ฐ(128 GPU)์ด ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํด
- ๋ฒ์ฉ ํ ํฐ ๊ณต๊ฐ: FSQ ์์ํ๋ก ๋ก๋ด/์ธ๊ฐ/ํ์ด๋ธ๋ฆฌ๋ ๋ชจ์ ์ ํตํฉํ๋ ๊น๋ํ ์ถ์ํ, ๋ฆฌํ๊ฒํ ์๋ ๊ต์ฐจ ์ ์ฒด ์ ์ด
- ์ค์๊ฐ ํค๋ค๋งํฑ ํ๋๋: ์ฌ์ฉ์ ์๋๋ฅผ ์ฐธ์กฐ ๋ชจ์ ์ผ๋ก ๋ณํํ์ฌ ์ํธ์์ฉ์ ์ ์ด ๊ฐ๋ฅ
- ์๊ฒฐ๋ ์์คํ : ํ ๋ ์คํผ๋ ์ด์ โ ๋ฐ์ดํฐ ์์ง โ VLA ํ์ต โ ์์จ ์ ์ด๊น์ง์ ๋ฐ์ดํฐ ํ๋ผ์ดํ
๋จ๊ฒจ์ง ๊ณผ์
- ์์ ์ฑยท์ปดํ๋ผ์ด์ธ์คยท์๋์ง ํจ์จ์ ๊ณต์์ ์ฒ๋ฆฌ
- ์ปดํจํ ์์ ๋ฏผ์ฃผํ์ ๋ฐ์ดํฐ ๊ณต๊ฐ
- ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ
- ์ ๋ฐ ๋ฌผ์ฒด ์กฐ์๊ณผ ์ ์ด ํ ์ ์ด
- ํ๋๋-ํ ํฌ๋์ด์ -์ ์ฑ ์ ์๋ํฌ์๋ ๊ณต๋ ํ์ต
- ๋ณธ๊ฒฉ์ ์ธ ์ค์ผ์ผ๋ง ๋ฒ์น ๋ถ์
๋ง๋ฌด๋ฆฌ
๋ฌผ๋ฆฌํ์์ ์ข์ ์ด๋ก ์ ์กฐ๊ฑด์ โ๋จ์ํ ์๋ฆฌ์์ ๋ณต์กํ ํ์์ ์ค๋ช ํ๋ ๊ฒโ ์ด๋ค. SONIC์ ํต์ฌ ์๋ฆฌ โ โ์ธ๊ฐ์ ๋์์ ๋๊ท๋ชจ๋ก ์ ๋ฐ๋ผํ๋ฉด, ์ธ๊ฐ์ด ํ ์ ์๋ ๋ค์ํ ๊ฒ์ ํ๋์ ์ ์ฑ ์ผ๋ก ์ํํ ์ ์๊ฒ ๋๋คโ โ ๋ ์์ฃผ ๋จ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋จ์ํ ์๋ฆฌ๋ฅผ ๋๊น์ง ๋ฐ์ด๋ถ์์ ๋, ๊ฑท๊ธฐยท๋ฌ๋ฆฌ๊ธฐยท์ถคยท๊ธฐ์ด๊ฐ๊ธฐยทํ ๋ ์คํผ๋ ์ด์ ยท์์จ ๋งค๋ํฐ๋ ์ด์ ์ด๋ผ๋ ๋ณต์กํ ํ์๋ค์ด ํ๋์ ์ ์ฑ ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐํ๋๋ค.
๋ณต์กํ ๊ธฐ๊ต๋ฅผ ๋ถ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ, ์ฌ๋ฐ๋ฅธ ์ง๋ฌธ์ ๋์ง๊ณ (โ์ ์ค์ผ์ผ๋ง์ด ์ ๋๋๊ฐ?โ), ์ฌ๋ฐ๋ฅธ ๋ต์ ์ฐพ๊ณ (โ๊ณผ์ ์ ํ์ด ๋ฌธ์ ๋คโ), ๊ทธ ๋ต์ ๋๊น์ง ๋ฐ์ด๋ถ์ด๋ ๊ฒ(โ๊ทธ๋ฌ๋ฉด 1์ต ํ๋ ์์ผ๋ก ํด๋ณด์โ) โ SONIC์ ์ด ๊ณผ์ ์ ์ถฉ์คํ ์ํํ ์ฐ๊ตฌ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ ํด๋จธ๋ ธ์ด๋ ์ ์ด์ ํจ๋ฌ๋ค์์ ๋ฐ๊ฟ ๋งํผ ๊ฐ๋ ฅํ๋ค.
์ฐธ๊ณ ๋ฌธํ ๋ฐ ๋งํฌ
- ๋ ผ๋ฌธ: arXiv:2511.07820 (Luo et al., 2025)
- ํ๋ก์ ํธ ํ์ด์ง: nvlabs.github.io/SONIC
- ์ฝ๋/๋ชจ๋ธ: GR00T-WholeBodyControl (Apache 2.0 + NVIDIA Open Model License)
- ๊ด๋ จ ๋ชจ๋ธ: GR00T N1.5
- ์๋ฎฌ๋ ์ดํฐ: Isaac Lab
- ๋น๊ต ๋์ ์ฐ๊ตฌ:
- Any2Track โ Zhang et al., 2025 (arXiv:2509.13833)
- GMT โ Chen et al., 2025
- BeyondMimic โ Liao et al., 2025 (ํ๋ก์ ํธ ํ์ด์ง)
- BFM-Zero โ 2025 (arXiv:2511.04131)
- CLOT โ 2025 (arXiv:2602.15060)
- ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํ์ต ๋ ผ๋ฌธ ๋ชฉ๋ก: awesome-humanoid-robot-learning