๐VIRAL ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- โจ VIRAL์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์์จ์ ์ธ loco-manipulation ๊ธฐ์ ๋ถ์กฑ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ์ค์ ํ๋์จ์ด์ zero-shot์ผ๋ก ๋ฐฐํฌํ๋ visual sim-to-real ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ๐งโ๐ซ ์ด ํ๋ ์์ํฌ๋ privileged RL teacher๊ฐ ์ฅ๊ธฐ์ ์ธ loco-manipulation์ ํ์ตํ๊ณ , ์ด๋ฅผ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ๋ฐ ๊ด๋ฒ์ํ ์๊ฐ์ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ํตํด RGB ๊ธฐ๋ฐ student policy๋ก ์ฆ๋ฅํ๋ teacher-student ๋ฐฉ์์ ํ์ฉํฉ๋๋ค.
- ๐ค Unitree G1 ํด๋จธ๋ ธ์ด๋์ ๋ฐฐํฌ๋ VIRAL์ RGB ๊ธฐ๋ฐ ์ ์ฑ ์ ์ค์ ํ๊ฒฝ์์ 54ํ ์ฐ์ loco-manipulation์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ฉฐ, ๋ค์ํ ํ๊ฒฝ ๋ณํ์ ๋ํ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ ๋ฌธ๊ฐ ์์ค์ ๊ทผ์ ํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
VIRAL(Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation)์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์์จ์ ์ธ loco-manipulation(์ด๋๊ณผ ์กฐ์) ๊ธฐ์ ๋ถ์กฑ์ด๋ผ๋ ํต์ฌ์ ์ธ ๋ฐฐํฌ ์ฅ๋ฒฝ์ ํด๊ฒฐํ๊ธฐ ์ํ visual sim-to-real ํ๋ ์์ํฌ์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ชจ๋ ํ์ต ๊ณผ์ ์ ์๋ฎฌ๋ ์ด์ ์์ ์งํํ๋ฉฐ, ํ์ต๋ ์ ์ฑ ์ ์ค์ ํ๋์จ์ด์ zero-shot์ผ๋ก ๋ฐฐํฌํฉ๋๋ค.
VIRAL์ ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ Teacher-Student ๋์์ธ์ ๋ฐ๋ฆ ๋๋ค.
1. Teacher Training (Phase 1: Reinforcement Learning)
- Teacher Formulation: Teacher ์ ์ฑ \pi_{teacher}๋ privileged information(์์ ํ ์ํ ์ ๋ณด)์ ํ์ฉํ์ฌ ์ฅ๊ธฐ์ ์ธ loco-manipulation ์์ ์ ํ์ตํ๋ goal-conditioned RL ์ ์ฑ ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Action Space: Teacher๋ ์ ์์ค์ Whole-Body Control(WBC) ์ ์ฑ (์: HOMIE)์ ์ํ ๊ณ ์์ค ๋ช ๋ น์ ์ถ๋ ฅํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, a_t = (\Delta v_t, \Delta \omega_{yaw,t}, \Delta q_{arm,t}, \Delta q_{finger,t}) ํํ์ delta ๋ช ๋ น์ ์ถ๋ ฅํ๋ฉฐ, ์ฌ๊ธฐ์ \Delta v_t๋ ์ ํ ์๋(x, y), \Delta \omega_{yaw,t}๋ ๊ฐ์๋(yaw), \Delta q_{arm,t}๋ ํ ๊ด์ , \Delta q_{finger,t}๋ ์๊ฐ๋ฝ ๋ชจํฐ์ ๋ํ delta joint target์ ๋ํ๋ ๋๋ค. ์ด๋ฌํ delta action space๋ RL ํ๋ จ์ ํฌ๊ฒ ๊ฐ์ํํ๊ณ ์์ ํ์ํต๋๋ค.
- Privileged Observation: Teacher์ ๊ด์ธก o^{priv}_t = [o^{prop-priv}_t, o^{exte-priv}_t]๋ ๋ค์์ ํฌํจํฉ๋๋ค:
- Proprioception (o^{prop-priv}_t): ๋ก๋ด์ ๋ฒ ์ด์ค ์ ํ(v_t) ๋ฐ ๊ฐ์๋(\omega_t), ๋ฒ ์ด์ค ํฌ์ ์ค๋ ฅ(g_t), ์ด์ ์ก์ (a_{t-1}), ๊ด์ ์์น(q_t) ๋ฐ ์๋(\dot{q}_t), ์๋ ํ(f_{finger,t}).
- Exteroception (o^{exte-priv}_t): ํ์ฌ ์์ ๋จ๊ณ(e_t), ๋ฐฐ์น ๋ฐ ๋ฆฌํํธ ๋ชฉํ(T_t), ๋ก๋ด์ ๋ํ ๋ฌผ์ฒด์ ํ ์ด๋ธ์ ์๋ ๋ณํ(O_t).
- Reward Design: ์์ ์ ๊ฑท๊ธฐ(walking), ๋ฐฐ์น(placing), ์ก๊ธฐ(grasping), ํ์ (turning)์ ์ํ์ค๋ก ๋ถํ ๋๋ฉฐ, ๊ฐ ๋จ๊ณ์ ๋ํ ๋ณด์์ด ์ค๊ณ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด๋ฅผ ํฅํด ๊ฑท๋ ๋ณด์์ r_{walk} = \exp(-4 (\|p_{robot} - p_{GraspObj}\| - 0.45)^2)์ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
- Reference State Initialization (RSI): RL ํ๋ จ์ ์ํด ํ ๋ ์กฐ์ ์๋ฎฌ๋ ์ด์ ๋ฐ๋ชจ 200๊ฐ๋ฅผ ์์งํ๊ณ , ์ด๋ฅผ ์ํ ์ด๊ธฐํ ๋ฒํผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ํผ์๋ ๋ฆฌ์ ์ ๋ฐ๋ชจ ์ค๋ ์ท์ ์ํ๋งํ์ฌ ๋ก๋ด, ๋ฌผ์ฒด, ํ ์ด๋ธ์ ์ด๊ธฐํํจ์ผ๋ก์จ, ์ ์ฑ ์ด ์ฒ์๋ถํฐ ๋๋ฌํ๊ธฐ ์ด๋ ค์ด ๋ค์ํ ๋ณด์ ์ํ์ ๋ ธ์ถ๋ ์ ์๋๋ก ํ์ฌ ํ์์ ๊ฐ์ ํ๊ณ ๋ณด์ ์ค๊ณ์ ๋ถ๋ด์ ์ค์ ๋๋ค.
2. Student Training (Phase 2: Supervised Learning)
- Visual Distillation: Teacher ์ ์ฑ ์ ์ค์ ๋ก๋ด์์ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ด์ธก(proprioception ๋ฐ RGB ์ด๋ฏธ์ง)๋ง์ ๋ฐ๋ vision-based Student ์ ์ฑ \pi_{student}๋ก ์ฆ๋ฅ๋ฉ๋๋ค.
- DAgger & BC Mixture: Student๋ ์จ๋ผ์ธ DAgger์ Behavior Cloning(BC)์ ํผํฉ์ ํตํด ํ๋ จ๋ฉ๋๋ค. ๋ชฉํ๋ Teacher์ ์ก์ ์ ๋ชจ๋ฐฉํ๋ ๊ฒ์ ๋๋ค. ์์ค ํจ์๋ Teacher-induced ๋ฐ Student-induced ๊ด์ธก ๋ถํฌ์ ํผํฉ์ ๋ํด ๊ณ์ฐ๋๋ MSE ๋ชฉ์ ํจ์์ ๋๋ค: L_{distill} = E_{o_t \sim \rho_o}[\Vert \pi_{teacher}(o^{teacher}_t) - \pi_{student}(o^{student}_t) \Vert_2^2] ์ฌ๊ธฐ์ \rho_o \triangleq \alpha \rho_o^{\pi_{teacher}} + (1 - \alpha) \rho_o^{\pi_{student}}์ด๋ฉฐ, \alpha๋ ํผํฉ ๊ณ์๋ก, \alpha=0.5๊ฐ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- Network Backbone: Student์ vision backbone์ผ๋ก๋ DINOv3์ ๊ฐ์ ์ต์ ์ด๋ฏธ์ง ์ธ์ฝ๋๊ฐ ์ฌ์ฉ๋์ด ๊ณ ํ์ง RGB ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ฅผ proprioception๊ณผ ์ตํฉํ์ฌ ์ ์ฑ ํค๋์ ์ ๋ฌํฉ๋๋ค. ์๊ฐ์ ์ปจํ ์คํธ๋ฅผ ํตํฉํ๋ history-aware ์ํคํ ์ฒ๋ ํ๊ฐ๋ฉ๋๋ค.
- Distributed Simulation Learning System: ์๊ฐ์ ์๋ฎฌ๋ ์ด์ ํ๋ จ ์ฒ๋ฆฌ๋์ ํ์ฅํ๊ธฐ ์ํด Isaac Lab์์ TRL(Transformer Reinforcement Learning)๊ณผ Accelerate๋ฅผ ์ฌ์ฉํ์ฌ ์ต๋ 64๊ฐ์ GPU๋ฅผ ํ์ฉํ๋ ๋๊ท๋ชจ ๋ถ์ฐ ํ์ต ์์คํ ์ ๊ตฌํํฉ๋๋ค.
3. Sim-to-Real Transfer
- SysID for Dexterous Hand: Unitree G1์ ๊ณ ๊ธฐ์ด๋น 3-finger ๋ฑ์คํฐ๋ฌ์ค ํธ๋์ ์๋ฎฌ๋ ์ด์ -์ค์ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ค์ ๊ทธ๋ฆฝ-๋ฆด๋ฆฌ์ค ๋์์ ์๋ฎฌ๋ ์ด์ ์์ ์ฌํํ๊ณ , ์๊ฐ๋ฝ armature, stiffness, damping ๋งค๊ฐ๋ณ์์ ๋ํ ์์คํ ์๋ณ(SysID)์ ์ํํ์ฌ ์๋ฎฌ๋ ์ด์ ๊ด์ ๊ถค์ ์ ์ค์ ์ธก์ ๊ฐ๊ณผ ์ผ์น์ํต๋๋ค.
- FOV Alignment and Randomization: ์๋ฎฌ๋ ์ดํฐ์ ์นด๋ฉ๋ผ ๋ด๋ถ ๋งค๊ฐ๋ณ์(์ด์ ๊ฑฐ๋ฆฌ, ์ด์ ๊ฑฐ๋ฆฌ, ์ผ์ ์กฐ๋ฆฌ๊ฐ)๋ฅผ ์ ์กฐ์ ์ฒด ์ฌ์์ ๋ง์ถ๊ณ , ์ค์ -์๋ฎฌ๋ ์ด์ ์ธ์ธก ๋งค๊ฐ๋ณ์(extrinsics) ๋ณด์ ์ ์๊ฐ์ ์ผ๋ก ์ํํฉ๋๋ค. ํ๋ จ ์ค์๋ ์ธ์ธก ๋งค๊ฐ๋ณ์ ๋ฌด์์ํ(extrinsics randomization)๋ฅผ ์ ์ฉํ์ฌ ํ๋์จ์ด๋ก ์ธํ ์์ ์ฐจ์ด์ ๊ฐ๊ฑด์ฑ์ ํ๋ณดํฉ๋๋ค.
- Visual and Simulation Randomization: sim-to-real ์ ์ก์ ๊ฐํํ๊ธฐ ์ํด ํ๋ จ ์ค ๊ด๋ฒ์ํ ์๊ฐ์ ๋ฐ ๋ฌผ๋ฆฌ์ ๋ฌด์์ํ๊ฐ ์ ์ฉ๋ฉ๋๋ค. ์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง ํ์ง(๋ฐ๊ธฐ, ๋๋น, ์์กฐ, ์ฑ๋, ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ, ๋ธ๋ฌ), ์นด๋ฉ๋ผ ์ธ์ธก ๋งค๊ฐ๋ณ์, ์ผ์ ์ง์ฐ, ๋ ๋ผ์ดํธ ํ๊ฒฝ, ๋ฐ๋ฅ, ํ ์ด๋ธ, ๋ฌผ์ฒด, ๋ก๋ด ๊ตฌ์ฑ ์์์ ์ฌ๋ฃ ๋ฐ ์์ ์์ฑ ๋ฌด์์ํ๊ฐ ํฌํจ๋ฉ๋๋ค.
๊ท๋ชจ์ ์ค์์ฑ
VIRAL์ ์ปดํจํ ๊ท๋ชจ๊ฐ Teacher ๋ฐ Student ํ๋ จ ๋ชจ๋์ ์ค์ํจ์ ๊ฐ์กฐํฉ๋๋ค. ์์ญ ๊ฐ์ GPU(์ต๋ 64๊ฐ)๋ก ์๋ฎฌ๋ ์ด์ ์ ํ์ฅํ๋ ๊ฒ์ด ํ์ต์ ์ ๋ขฐ์ฑ์ ๋ณด์ฅํ๋ฉฐ, ๋ฎ์ ์ปดํจํ ํ๊ฒฝ์์๋ ์ข ์ข ์คํจํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ
Unitree G1 ํด๋จธ๋ ธ์ด๋์ ๋ฐฐํฌ๋ RGB ๊ธฐ๋ฐ ์ ์ฑ ์ ์ต๋ 54ํ ์ฐ์ loco-manipulation ์์ ์ ์ํํ๋ฉฐ, ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ๊ณต๊ฐ ๋ฐ ์ธํ ๋ณํ์ ์ผ๋ฐํ๋ฉ๋๋ค. ์ด ์ ์ฑ ์ ์ค์ ์ธ๊ณ fine-tuning ์์ด ์ธ๊ฐ ์ ๋ฌธ๊ฐ ํ ๋ ์กฐ์ ์ฑ๋ฅ์ ๊ทผ์ ํ๋ ๊ฒฌ๊ณ ํจ๊ณผ ํจ์จ์ฑ์ ๋ณด์์ต๋๋ค. ๊ด๋ฒ์ํ ablation ์ฐ๊ตฌ๋ฅผ ํตํด RGB ๊ธฐ๋ฐ ํด๋จธ๋ ธ์ด๋ loco-manipulation์ ์คํํ๋ ๋ฐ ํ์ํ ํต์ฌ ์ค๊ณ ์ ํ์ด ๋ถ์๋์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
TL;DR: VIRAL์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ loco-manipulation์ ์์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ๊ณ ์ค์ ํ๋์จ์ด์ zero-shot์ผ๋ก ๋ฐฐํฌํ๋ visual sim-to-real ํ๋ ์์ํฌ์ ๋๋ค. 64๊ฐ GPU ๊ท๋ชจ์ ๋๊ท๋ชจ ํ์ต๊ณผ ๊ด๋ฒ์ํ domain randomization์ ํตํด Unitree G1 ํด๋จธ๋ ธ์ด๋์์ 59ํ ์ฐ์ ์๋ ์ค 54ํ ์ฑ๊ณต(91.5%)์ด๋ผ๋ ์ ๋ฌธ๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์ ๊ทผ์ ํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
1. ์๋ก : ์ ํด๋จธ๋ ธ์ด๋ Loco-Manipulation์ด ์ด๋ ค์ด๊ฐ?
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ๋ฒ์ฉ ๋ฌผ๋ฆฌ์ ์ธ๊ณต์ง๋ฅ์ ๊ถ๊ทน์ ์ธ ๊ตฌํ์ฒด๋ก ์ฌ๊ฒจ์ง๋๋ค. ์ธ๊ฐ์ ํํ๋ฅผ ๊ฐ์ง ๋ก๋ด์ด ์ธ๊ฐ์ด ์ค๊ณํ ํ๊ฒฝ์์ ๋ค์ํ ๋ฌผ๋ฆฌ์ ์์ ์ ์ํํ ์ ์๋ค๋ฉด, ์ฌํ์ ๋ง์ ๋ฌผ๋ฆฌ์ ๋ ธ๋์ ๋์ฒดํ ์ ์์ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ์ ํด๋จธ๋ ธ์ด๋ ์์คํ ๋ค์ ๋๋ถ๋ถ ์ ์คํ๊ฒ ์ค๊ณ๋ ๋ฐ๋ชจ ํ๊ฒฝ ๋ฐ๊นฅ์์๋ ์ ํ์ ์ธ ์ค์ฉ์ฑ๋ง์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
๊ทธ ํต์ฌ์ ์ธ missing piece๊ฐ ๋ฐ๋ก autonomous loco-manipulation์ ๋๋ค. ์ด๊ฒ์ locomotion(์ด๋)๊ณผ manipulation(์กฐ์)์ ์จ๋ณด๋ ์ผ์ ๊ธฐ๋ฐ ์ธ์๊ณผ ํจ๊ป ๊ธด๋ฐํ๊ฒ ์กฐ์จํ์ฌ, ๊ธด ์๊ฐ ๋์ ๋ค์ํ ํ๊ฒฝ์์ ์ ์ฉํ ์์ ์ ์ํํ๋ ๋ฅ๋ ฅ์ ์๋ฏธํฉ๋๋ค.
1.1 ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๊ณ
ํ์ฌ ํด๋จธ๋ ธ์ด๋ ์ฐ๊ตฌ์ ์ฃผ์ ํ๋ฆ๋ค์ ์ดํด๋ณด๋ฉด:
- Blind Locomotion: proprioceptive ์ ๋ณด๋ง์ผ๋ก ๊ฑท๊ธฐ์ ์ง์ค. ํ๊ฒฝ ์ธ์ ์์ด๋ ์ค์ ์์ ์ํ ๋ถ๊ฐ.
- Tabletop Manipulation: ๊ณ ์ ๋ base์์์ manipulation. ์ด๋์ด ํ์ํ ์ค์ ํ๊ฒฝ์ ์ ์ฉ ๊ณค๋.
- Teleoperation ์์กด: ์ธ๊ฐ ์กฐ์์์ ์ค์๊ฐ ๊ฐ์ ํ์. ์์จ์ฑ์ด ์์ด ํ์ฅ์ฑ์ ํ๊ณ.
- ์ธ๋ถ ์ผ์ ์์กด: motion capture ๋ฑ ๋น์จ๋ณด๋ ์ผ์ ํ์. ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์ ์ฌ์ฉ ๋ถ๊ฐ.
1.2 Real-World Data vs. Simulation
์ต๊ทผ LLM์ ์ฑ๊ณต ํจ๋ฌ๋ค์์ ๋ก๋ณดํฑ์ค์ ์ ์ฉํ๋ ค๋ ์๋๋ค์ด ์์ต๋๋ค. ๋๊ท๋ชจ ์ค์ธ๊ณ ๋ฐ์ดํฐ์ ์ ์์งํ๊ณ โrobotic foundation modelโ์ ํ์ตํ๋ ์ ๊ทผ๋ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ mobile manipulation์ ๊ณ ์ ๋ tabletop ์ค์ ๋ณด๋ค ํจ์ฌ ๋ ๋ง์ variation์ ํฌํจํ๋ฉฐ, ํด๋จธ๋ ธ์ด๋์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋น ๋น์ฉ์ด ๋์ฑ ๋์ต๋๋ค. ๋์ ์์ ๋(DoF), ์์ ์ ์ฝ, ํ ๋ ์คํผ๋ ์ด์ ์คํ์ ์์ง๋์ด๋ง ์ค๋ฒํค๋ ๋ฑ์ด ๊ทธ ์ด์ ์ ๋๋ค.
์ด์ ๋ํ ๋์์ผ๋ก ์๋ฎฌ๋ ์ด์ ์ด ์์ต๋๋ค. ํ๋์ GPU ๊ฐ์ photorealistic ์๋ฎฌ๋ ์ดํฐ๋ค์ ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ด์ ๋๋น ํจ์ฌ ๋ฎ์ ํ๊ณ ๋น์ฉ์ผ๋ก ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. Sim-to-real์ ์ด๋ฏธ legged locomotion์์ de facto ์ ๊ทผ๋ฒ์ด ๋์์ง๋ง, manipulation ์์ญ์ ์ฌ์ ํ ์ค์ธ๊ณ imitation learning์ด ์ฃผ๋ฅ์ ๋๋ค.
ํต์ฌ ์ฐ๊ตฌ ์ง๋ฌธ: โCan visual sim-to-real enable useful humanoid loco-manipulation with onboard perception?โ
3. Teacher Policy ํ์ต: ํต์ฌ ์ค๊ณ ์์
Teacher policy๋ goal-conditioned RL policy๋ก formulate๋ฉ๋๋ค. ๋งค time step t์์ teacher๋ privileged observation์ ๋ฐ์ low-level WBC(Whole-Body Control) policy์ ์ ๋ฌํ high-level command๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
3.1 Action Space ์ค๊ณ: Delta vs. Absolute
์ผ๋ฐ์ ์ธ legged locomotion RL์์๋ absolute joint targets๋ฅผ action space๋ก ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ VIRAL์์๋ delta action space๋ฅผ ์ฑํํฉ๋๋ค. Policy๊ฐ ์ ๋ ์์น ๋์ ์ฆ๋ถ(increment)์ ์ถ๋ ฅํ๊ณ , ์ด๊ฒ์ด WBC command์ ๋์ ๋ฉ๋๋ค.
Action ๊ตฌ์ฑ: a = (ฮvโ, ฮvแตง, ฮฯ_yaw, ฮq_arm, ฮq_finger)
- ฮv: delta linear velocity (x, y)
- ฮฯ: delta angular velocity (yaw)
- ฮq: delta joint targets for arm and finger motors
์คํ ๊ฒฐ๊ณผ, delta action space๊ฐ RL ํ์ต์ ํ์ ํ ๊ฐ์ํํ๊ณ ์์ ํํฉ๋๋ค. Absolute action์ ์ฌ์ฉํ ๋ณํ์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ์ง ๋ชปํ ๋ฐ๋ฉด, delta action์ ์ฌ์ฉํ teacher๋ ์์ ์ ์ผ๋ก ๊ณผ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
3.2 WBC Command as API
VIRAL์ teacher๋ low-level motor skills์ ์ฒ์๋ถํฐ ํ์ตํ๋ ๋์ , pre-trained WBC policy(HOMIE) ์์์ ๋์ํฉ๋๋ค. ์ด ์ค๊ณ์ ํต์ฌ ์ด์ ์:
- Reward Engineering ๋ถ๋ด ๊ฐ์: ๊ธฐ๋ณธ์ ์ธ locomotion๊ณผ balance๋ WBC๊ฐ ์ฒ๋ฆฌํ๋ฏ๋ก, task-level reward์ ์ง์ค ๊ฐ๋ฅ.
- ์์ ํ๊ณ ์ ๋ขฐ์ฑ ์๋ ๋ฐฐํฌ: Action space๊ฐ ์์ ํ๊ณ ์ ๋ขฐ์ฑ ์๋ ํด๋จธ๋ ธ์ด๋ ๋์ ์์ญ์ผ๋ก ์ ํ๋จ.
- ๋ชจ๋์ฑ: ๋ค๋ฅธ WBC controller(์: TWIST, SONIC)๋ก ๋์ฒด ๊ฐ๋ฅํ ์ ์ฐํ ์ค๊ณ.
WBC์ command interface๋ locomotion์ ์ํ velocity์ height tracking commands, ๊ทธ๋ฆฌ๊ณ upper-body joint commands๋ฅผ ํฌํจํฉ๋๋ค. VIRAL์ ์ฌ๊ธฐ์ finger actions์ ์ถ๊ฐํ์ฌ ์์ ํ loco-manipulation action space๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
3.3 Reference State Initialization (RSI)
๊ณ ์์ ๋ ํด๋จธ๋ ธ์ด๋์์ ๊ธด ์๊ฐ ๋์์ walking-placing-grasping-turning ์คํฌ์ RL๋ก ํ์ตํ๋ ๊ฒ์ ๊ทน๋๋ก ์ด๋ ต์ต๋๋ค. Heavy reward engineering์ด ํ์ํ๊ณ , ๊ทธ๋ผ์๋ ์ข ์ข suboptimalํ๊ฑฐ๋ sim-to-real transfer๊ฐ ์คํจํ๋ policy๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค.
VIRAL์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Reference State Initialization (RSI)๋ฅผ ์ฌ์ฉํฉ๋๋ค. 200๊ฐ์ ํ ๋ ์คํผ๋ ์ด์ ์๋ฎฌ๋ ์ด์ demonstration์ ์์งํ๊ณ , ์ด๋ฅผ RL์ state-initialization buffer๋ก ํ์ฉํฉ๋๋ค.
RSI ๋์ ์๋ฆฌ: ๋งค episode reset ์, demonstration์ snapshot์ ์ํ๋งํ์ฌ scene(robot, objects, tables)์ ์ด๊ธฐํํฉ๋๋ค. ์ด๋ฅผ ํตํด policy๊ฐ ์ฒ์๋ถํฐ ๋ชจ๋ ๊ฒ์ ๋ฐ๊ฒฌํ๊ธฐ ์ ์๋ ๋ค์ํ rewarding states๋ฅผ ๊ฒฝํํ ์ ์์ต๋๋ค.
RSI์ ํต์ฌ ์ด์ ์ ๋ ๊ฐ์ง์ ๋๋ค: 1. Brittle reward tuning์ ๋ํ ์์กด๋๋ฅผ ํฌ๊ฒ ์ค์ ๋๋ค 2. ์ธ๊ฐ์ด ์ ๊ณตํ grasping๊ณผ placement poses๊ฐ ๊ฐ๋ ฅํ ์ฌ์ ์ง์(prior)์ ์ ๊ณตํ์ฌ sim-to-real transfer๋ฅผ ๊ฐ์ ํฉ๋๋ค.
Ablation ๊ฒฐ๊ณผ, RSI ์์ด๋ teacher policy๊ฐ ๋น ๋ฅด๊ฒ 10% ๋ฏธ๋ง์ ์ฑ๊ณต๋ฅ ์์ ์ ์ฒด๋๋ ๋ฐ๋ฉด, RSI๋ฅผ ์ฌ์ฉํ full VIRAL teacher๋ ๊ฑฐ์ 95% ์ฑ๊ณต๋ฅ ์ ๋๋ฌํฉ๋๋ค. ์ด๋ RSI๊ฐ ํด๋จธ๋ ธ์ด๋ loco-manipulation ํ์ต์ ํ์์ ์์ ๋ณด์ฌ์ค๋๋ค.
3.4 Stage-Based Reward Design
ํด๋จธ๋ ธ์ด๋ loco-manipulation์ ์ํ reward ์ค๊ณ๋ฅผ ์ํด, task๋ฅผ walking, placing, grasping, turning์ ์์ฐจ์ ๋จ๊ณ๋ก ๋ถํดํฉ๋๋ค. ๋ค ๊ฐ์ง ํต์ฌ reward๊ฐ ์ ์๋ฉ๋๋ค:
- Walking toward objects:
r_walk = -d_robot_object(๋ก๋ด-๋ฌผ์ฒด ๊ฑฐ๋ฆฌ ์ต์ํ) - Placing objects:
r_place = -d_object_target - f_finger(๋ฌผ์ฒด-๋ชฉํ ๊ฑฐ๋ฆฌ์ ์๊ฐ๋ฝ ํ) - Grasping objects:
r_grasp = f_grasp + d_hand_object(ํ์ง๋ ฅ๊ณผ ์-๋ฌผ์ฒด ๊ฑฐ๋ฆฌ) - Turning:
r_turn = -|y - y_target|(๋ชฉํ yaw ๊ฐ๋๋ก์ ํ์ )
์ด reward๋ stage-weighted sum์ผ๋ก ๊ณ์ฐ๋๋ฉฐ, stage ์ ํ์ stage-specific ์กฐ๊ฑด์ ์ํด ๊ฒฐ์ ๋ฉ๋๋ค. ์์ ํ place-pickup cycle์ 5๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: 1. ๋ฌผ์ฒด๋ก ๊ฑธ์ด๊ฐ๊ธฐ 2. ํ๊ณผ ์์ pre-place pose๋ก ์ด๋ 3. ๋ฌผ์ฒด ๋๊ธฐ 4. ๋ค์ ๋ฌผ์ฒด ์ก๊ณ ๋ค์ด์ฌ๋ฆฌ๊ธฐ 5. ํ์
์ด ์ํ์ค๋ฅผ ๋ฐ๋ณตํ์ฌ ๊ธด ์๊ฐ์ loco-manipulation loop๋ฅผ ์์ฑํฉ๋๋ค.
4. Student Policy ํ์ต: Visual Distillation
Privileged teacher๊ฐ ๊ฐ๋ ฅํ behavior๋ฅผ ๋ฐ๊ฒฌํ ํ, ์ด๋ฅผ ์ค์ ๋ก๋ด์์ ์ ๊ทผ ๊ฐ๋ฅํ ๊ด์ธก(proprioception๊ณผ RGB ์ด๋ฏธ์ง)๋ง ๋ฐ๋ student policy๋ก ์ฆ๋ฅํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์ ์์ tiled rendering๊ณผ ํจ๊ป ์ํ๋ฉ๋๋ค.
4.1 DAgger + BC Mixture
Student policy๋ online DAgger(Dataset Aggregation)์ Behavior Cloning(BC)์ ํ์ด๋ธ๋ฆฌ๋๋ฅผ ํตํด ํ์ต๋ฉ๋๋ค. ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๋์ผํ MSE objective๋ฅผ ๊ณต์ ํ์ง๋ง, ๊ด์ธก ๋ถํฌ์ ์ถ์ฒ๊ฐ ๋ค๋ฆ ๋๋ค:
L = ฮฑยทE[||ฯ_s(o) - ฯ_t(o)||ยฒ]_teacher + (1-ฮฑ)ยทE[||ฯ_s(o) - ฯ_t(o)||ยฒ]_student
- Teacher rollouts (BC): ๊นจ๋ํ๊ณ near-optimalํ demonstrations ์ ๊ณต. Student์ ๊ฐ๋ ฅํ prior๋ฅผ ๋น ๋ฅด๊ฒ ๊ฐ์ธ.
- Student rollouts (DAgger): Teacher์ ์ด์์ ๋ถํฌ ๋ฐ๊นฅ์ states ๋ ธ์ถ. Error-correction ๊ฒฌ๊ณ ์ฑ ํฅ์, compounding error ๋ฐฉ์ง.
Ablation ๊ฒฐ๊ณผ, ์์ BC(ฮฑ=1)๋ ๋น ๋ฅธ loss ๊ฐ์๋ฅผ ๋ณด์ด์ง๋ง ์์ ์ ์ค์๋ฅผ ๊ต์ ํ์ง ๋ชปํ๋ brittle policy๋ฅผ ์์ฑํฉ๋๋ค. Student rollouts๋ฅผ ๋์ ํ๋ฉด(ฮฑ=0.5) ์ต์ ํ๊ฐ ์ฝ๊ฐ ๋๋ ค์ง์ง๋ง, ๋ฐฐํฌ ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ํฅ์๋ฉ๋๋ค. ์ ์๋ค์ ฮฑ=0.5๋ฅผ ๊ธฐ๋ณธ DAgger-BC ๋น์จ๋ก ์ฑํํฉ๋๋ค.
4.2 Vision Backbone ์ ํ
Student์ vision backbone์ผ๋ก ์ต์ image encoder์ธ DINOv3๋ฅผ ์ฑํํฉ๋๋ค. 640ร480 RGB ์ด๋ฏธ์ง์์ high-quality visual features๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ proprioceptive ์ ๋ณด์ fusionํ์ฌ policy head์ ์ ๋ฌํฉ๋๋ค.
Vision backbone ๋น๊ต ์คํ ๊ฒฐ๊ณผ, state-of-the-art backbone(DINOv3)์ด ๋ ๊ฐ๋ ฅํ visual representations๊ณผ ๋ ํฐ capacity๋ฅผ ์ ๊ณตํ์ฌ, ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ๋ ๋์ task ์ฑ๊ณต๋ฅ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ ์ข์ visual features๊ฐ ๊ณง ๋ ์ ๋ขฐ์ฑ ์๋ policy ํ์ต์ผ๋ก ์ด์ด์ง๋๋ค.
4.3 History Architecture
Student policy head์ ์ํคํ ์ฒ๋ก single-step MLP baseline, feed-forward history model, ๊ทธ๋ฆฌ๊ณ ๋ค์ํ history length์ LSTM์ ๋น๊ตํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, history-aware models์ด ์ผ๊ด๋๊ฒ single-step baseline์ ๋ฅ๊ฐํฉ๋๋ค. ๋ ๊ธด temporal windows๋ ๋ฆฌ์์ค๊ฐ ํ์ฉํ๋ ๋ฒ์์์ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํฉ๋๋ค. ์ด๋ loco-manipulation๊ณผ ๊ฐ์ sequential decision-making task์์ temporal context๊ฐ ์ค์ํจ์ ์์ฌํฉ๋๋ค.
4.4 ๋ถ์ฐ ์๋ฎฌ๋ ์ด์ ํ์ต ์์คํ
๋๊ท๋ชจ visual simulation์ ๋ ๋๋ง์ด ์๋ physics simulation๋ณด๋ค ์ต์ ํ ์๋ฆฟ์ ์ด์ ๋๋ฆฝ๋๋ค. Visual simulation training throughput์ ํ์ฅํ๊ธฐ ์ํด, ์ ์๋ค์ TRL์ ์ปค์คํฐ๋ง์ด์ฆ๋ ๋ฒ์ ์ ๊ตฌํํ์ต๋๋ค. Accelerate๋ฅผ ์ง์ํ์ฌ ์ฌ๋ฌ GPU์ compute nodes์ ๊ฑธ์ณ ํจ์จ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
์ด ๊ตฌํ์ single-GPU ํ์ต์ ๋จ์์ฑ์ ์ ์งํ๋ฉด์, high-throughput visual sim-to-real ํ์ต์ ์ํด ๋๊ท๋ชจ ํด๋ฌ์คํฐ๋ก near-linear scaling์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
5. Sim-to-Real Transfer ์ ๋ต
Visual sim-to-real transfer๋ฅผ ์ํด VIRAL์ ๋ ๊ฐ์ง ์๋ณด์ ์ธ ์ ๋ต์ ๊ฒฐํฉํฉ๋๋ค: ์๋ฎฌ๋ ์ด์ ์ธก์ ๋๊ท๋ชจ domain randomization๊ณผ ํ๋์จ์ด ์ธก์ real-to-sim alignment.
5.1 System Identification for Dexterous Hand
ํ๋ ํด๋จธ๋ ธ์ด๋๋ค์ ์ ์ ๋ low-gear ratio motors๋ฅผ ์ฌ์ฉํ์ฌ motor-level SysID์ ํ์์ฑ์ ์ค์ด๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ Unitree G1์ 3-finger dexterous hand๋ high gear ratio๋ฅผ ์ฌ์ฉํ์ฌ, ์๋นํ sim-to-real mismatch๋ฅผ ์ด๋ํฉ๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์๋ค์ ์ค์ธ๊ณ์์ grasp-release primitive๋ฅผ ์ ์ํ๊ณ ๋์ผํ action sequence๋ฅผ ์๋ฎฌ๋ ์ด์ ์์ replayํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ finger armature, stiffness, damping parameters์ ๋ํด SysID๋ฅผ ์ํํ์ฌ, ์๋ฎฌ๋ ์ด์ ๋ joint trajectories๋ฅผ ์ค์ ์ธก์ ๊ฐ๊ณผ ์ ๋ ฌํฉ๋๋ค.
5.2 Camera FOV Alignment and Randomization
์๋ฎฌ๋ ์ดํฐ์ camera intrinsics(focal length, focus distance, sensor apertures)๋ฅผ ์ ์กฐ์ฌ ์ฌ์์ ๋ง์ถฅ๋๋ค. ๊ทธ๋ฌ๋ Unitree G1 ๋ก๋ด์ camera extrinsics๋ ์ ๋๋ณ๋ก ๋ค๋ฅด๋ฉฐ, ๊ฐ์ ๋ก๋ด์์๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ driftํ ์ ์์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ visual observations์ ๋ ์ ์ ๋ ฌํ๊ธฐ ์ํด, ์ ์๋ค์ ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ์ค์ ์ด๋ฏธ์ง๋ฅผ ์๊ฐ์ ์ผ๋ก ๋งค์นญํ์ฌ lightweight real-to-sim extrinsics calibration์ ์ํํฉ๋๋ค. ์ถ๊ฐ๋ก training ์ค extrinsics randomization์ ์ ์ฉํ์ฌ, student๊ฐ ํ๋์จ์ด ์ ๋ฐ viewpoint ์ฐจ์ด์ ๊ฒฌ๊ณ ํ๋๋ก ํฉ๋๋ค.
5.3 Visual and Simulation Randomization
๊ฒฌ๊ณ ์ฑ ํฅ์๊ณผ sim-to-real transfer ๊ฐ์ ์ ์ํด, training ์ค ๊ด๋ฒ์ํ visual ๋ฐ physical randomization์ ์ ์ฉํฉ๋๋ค:
| Category | Randomization Parameters |
|---|---|
| Image Quality | brightness, contrast, hue, saturation, Gaussian noise, blur |
| Camera Extrinsics | position noise (x, y, z), rotation noise (roll, pitch, yaw) |
| Camera Latency | transmission delays ๋ชจ๋ธ๋ง |
| Dome Light | Indoor, Clear, Cloudy, Night, Studio ํ๊ฒฝ |
| Material | floors, tables, objects, robot components์ ์์/์ฌ์ง ์์ฑ |
| Table Properties | ๋์ด, ๊น์ด, ๋๋น, ๋๊ป ๋ณํ |
Ablation ๊ฒฐ๊ณผ, ์ธ ๊ฐ์ง ์ฃผ์ component๊ฐ ๊ฐ์ฅ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค: 1. Material randomization (M) 2. Dome-light randomization (D) 3. Camera-extrinsics randomization (E)
๋ชจ๋ randomization์ ๋๋ฉด ์ฑ๋ฅ์ด 35.1% ๊ฐ์ํ๊ณ , ๊ฐ๋ณ component๋ฅผ ์ ๊ฑฐํด๋ ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค. ์ด๋ randomization๋ค์ด ์ํธ ๋ณด์์ ์ด๋ฉฐ ๊ฒฌ๊ณ ํ sim-to-real transfer๋ฅผ ์ํ ํต์ฌ ํ์ดํ๋ผ์ธ์ ํ์ฑํจ์ ๋ํ๋ ๋๋ค.
6. ์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
6.1 ์คํ ์ค์
์คํ์ 29-DoF Unitree G1 humanoid์์ ์ํ๋ฉ๋๋ค. ์ด ๋ก๋ด์ 7-DoF three-finger dexterous hands๋ฅผ ์ฅ์ฐฉํ๊ณ ์์ต๋๋ค. Perception์ Intel RealSense D435i๊ฐ ์ ๊ณตํ๋ฉฐ, ๋ชจ๋ policy inference๋ Intel i9-14900K CPU์ NVIDIA RTX 4090 GPU๊ฐ ์ฅ์ฐฉ๋ ๋ฐ์คํฌํ ์ํฌ์คํ ์ด์ ์์ ์ํ๋ฉ๋๋ค.
6.2 ๊ฒฌ๊ณ ์ฑ(Robustness) ํ๊ฐ
ํ์ต๋ student policy์ ๊ฒฌ๊ณ ์ฑ์ ์ฐ์์ ์ธ loco-manipulation task์์ ํ๊ฐํฉ๋๋ค. ํด๋จธ๋ ธ์ด๋๊ฐ ๋ ํ ์ด๋ธ ์ฌ์ด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฑธ์ด๋ค๋๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ๋๊ณ , ์ ๋ฌผ์ฒด๋ฅผ ์ก๊ณ , ๋์์๋ ๊ณผ์ ์ ๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ: 59ํ ์ฐ์ ์ค์ธ๊ณ ์๋์์ VIRAL์ 54ํ ์ฑ๊ณต (91.5% ์ฑ๊ณต๋ฅ )์ ๋ฌ์ฑํ๋ฉฐ, ํ์ฅ๋ ๋ฐฐํฌ์์ ๊ฐ๋ ฅํ ์ ๋ขฐ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ์์ ๋น๊ต
VIRAL์ ๋ ๋ช ์ ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ์ ๋น๊ตํฉ๋๋ค: G1 ํ ๋ ์คํผ๋ ์ด์ ๊ฒฝํ 1000์๊ฐ ์ด์์ ์ ๋ฌธ๊ฐ์ ์ฝ 1์๊ฐ ๊ฒฝํ์ ๋น์ ๋ฌธ๊ฐ. ๋ชจ๋ ์กฐ๊ฑด์์ ๋์ผํ HOMIE policy๋ฅผ ์ฌ์ฉํ์ฌ ๊ฑฐ์ apple-to-apple ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
| ์กฐ๊ฑด | ์ฑ๊ณต๋ฅ | Cycle Time |
|---|---|---|
| ์ ๋ฌธ๊ฐ (1000+ hrs) | 100% | 21.4์ด |
| VIRAL | 91.5% | 20.2์ด |
| ๋น์ ๋ฌธ๊ฐ (~1 hr) | 73% | ๋๋ฆผ |
์ ๋ฌธ๊ฐ๋ 100% ์ฑ๊ณต๋ฅ ๊ณผ 21.4์ด์ cycle time์ ๋ฌ์ฑํฉ๋๋ค. VIRAL์ 20.2์ด๋ก ์ฝ๊ฐ ๋ ๋น ๋ฅธ cycle time์ ๋ณด์ด๋ฉด์, ์ ๋ฌธ๊ฐ ์์ค์ ๊ทผ์ ํ๋ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค. ํํธ, ๋น์ ๋ฌธ๊ฐ๋ 73%์ ์ฑ๊ณต๋ฅ ๊ณผ ํ์ ํ ๋๋ฆฐ ์คํ ์๋๋ฅผ ๋ณด์ ๋๋ค.
์ด ๊ฒฐ๊ณผ๋ VIRAL์ด ์ ๋ฌธ๊ฐ ์์ค์ ์ฑ๊ณต์ ์์ง ์ด๋ ต์ง๋ง, ๋น์ ๋ฌธ๊ฐ๋ฅผ ์ ๋ขฐ์ฑ๊ณผ ํจ์จ์ฑ ๋ชจ๋์์ ํฌ๊ฒ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค.
6.3 ์ผ๋ฐํ(Generalization) ํ๊ฐ
์ค์ธ๊ณ ์ผ๋ฐํ๋ฅผ ์ฌ๋ฌ ํ๊ฒฝ ์์ธ์ ์ฒด๊ณ์ ์ผ๋ก ๋ณํ์์ผ ํ๊ฐํฉ๋๋ค:
- Tray Position: Y์ถ(์ข/์ค์/์ฐ), X์ถ(ํ ์ด๋ธ ์์ชฝ 20cm ~ ๊ฐ์ฅ์๋ฆฌ ๋ฐ๊นฅ 15cm)
- Cylinder Position: ๋ค์ํ ์์น์์์ ์ํตํ ๋ฌผ์ฒด ์กฐ์
- Robot Position: Y์ถ(์ข/์ค์/์ฐ), X์ถ(๊ฐ๊น์ด ๊ฑฐ๋ฆฌ~๋จผ ๊ฑฐ๋ฆฌ)
- Table Height: 26.5์ธ์น ~ 31.8์ธ์น ๋ฒ์
- Lighting Conditions: ๋ฐ์/์ด๋์/๊น๋นก์ ํ๊ฒฝ
- Table Cloth Color: ํ์, ๋ น์, ๋ ธ๋, ๋ณด๋ผ, ์ฒญ๋ก, ํ๋, ์ฃผํฉ, ๋นจ๊ฐ
- Table Type: ๋ค์ํ ์ฌ์ง๊ณผ ๋์์ธ์ ํ ์ด๋ธ
- Object Variety: ๋ค์ํ ํํ, ํฌ๊ธฐ, ์ฌ์ง์ ๋ฌผ์ฒด
์ด๋ฌํ ๋ณํ๋ค์ ๊ฑธ์ณ VIRAL์ ์ถ๊ฐ ํ๋ ์์ด ์ผ๊ด๋๊ฒ task๋ฅผ ์์ํฉ๋๋ค. ์ ์๋ค์ ์ด behavior๋ฅผ ์๋ฎฌ๋ ์ด์ training ์ค ์ฌ์ฉ๋ domain randomization๊ณผ RL์ ๊ฒฌ๊ณ ์ฑ์ ๊ธฐ์ธํฉ๋๋ค.
6.4 Compute Scaling์ ์ค์์ฑ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ์ค์ํ ๋ฐ๊ฒฌ ์ค ํ๋๋ compute scale์ด ์ ๋ขฐ์ฑ ์๋ loco-manipulation ํ์ต์ criticalํ๋ค๋ ๊ฒ์ ๋๋ค. Low-compute regime์์๋ ์ข ์ข ํ์ต์ด ์คํจํฉ๋๋ค.
Teacher Training Scaling
GPU ๋ฆฌ์์ค๋ฅผ 1๊ฐ์์ 16๊ฐ๋ก ํ์ฅํ๋ฉด์ teacher training์ ๋ถ์ํฉ๋๋ค. GPU ์๋ฅผ ๋๋ฆฌ๋ฉด ํ์ต์ด ์๋นํ ๊ฐ์ํ๋ฉ๋๋ค. ๋ ํฐ batch์ parallel environments๊ฐ ๋จ์ wall time๋น ๋ ๋์ state-space coverage๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ด๊ธฐ training์์๋ better-than-linear speedup์ ๋ณด์ ๋๋ค. ์๋ฅผ ๋ค์ด, 4 GPUs๋ก modest ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ๋ ์๊ฐ์ 2 GPUs์ ์ ๋ฐ ๋ฏธ๋ง์ ๋๋ค.
์๋๋ฅผ ๋์ด, scaling์ asymptotic performance์ ๋๋ ทํ ์ํฅ์ ๋ฏธ์นฉ๋๋ค: - ๋ถ์ถฉ๋ถํ compute(1-2 GPUs): teacher๊ฐ ์ํ๋ ์ฑ๋ฅ ๋ฒ์๋ณด๋ค ํจ์ฌ ์๋์์ ์ ์ฒด - 8-16 GPUs: ์ผ๊ด๋๊ฒ 90% ์ด์์ ์ฑ๊ณต๋ฅ ๋๋ฌ
Student Training Scaling
Student policy์์๋ ๋ช ํํ scaling ์ถ์ธ๊ฐ ๊ด์ฐฐ๋ฉ๋๋ค. GPU๋ฅผ 1๊ฐ์์ 64๊ฐ๋ก ๋๋ฆฌ๋ฉด์ distillation loss์ downstream ์ฑ๊ณต๋ฅ ์ ์ธก์ ํฉ๋๋ค.
- ๋ ํฐ ๊ท๋ชจ์ training์ด ์ผ๊ด๋๊ฒ ์๋ ด์ ๊ฐ์ํ
- ๋์ผํ loss ์๊ณ๊ฐ์ ํจ์ฌ ๋นจ๋ฆฌ ๋๋ฌ
- ์ฑ๊ณต๋ฅ ๊ณก์ ์ด ํจ์ฌ ๊ฐํ๋ฅด๊ฒ ์์น
์๋๋ฅผ ๋์ด, scaling์ training ์์ ์ฑ๋ ํฅ์ํฉ๋๋ค. ๋ ๋ง์ GPUs๋ก training๋ policies๋ ๋ ๋ถ๋๋ฌ์ด loss ๊ณก์ ๊ณผ ๋ ์ ์ ์ฑ๊ณต๋ฅ ๋ถ์ฐ์ ๋ณด์ ๋๋ค.
ํต์ฌ ํต์ฐฐ: ์๋นํ computing์ ๋จ์ํ ํธ์๊ฐ ์๋๋ผ, ์ ๋ขฐ์ฑ ์๋ visual loco-manipulation distillation์ ์ํ ์ค์ง์ ์ธ ์๊ตฌ์ฌํญ์ ๋๋ค.
6.5 Object Generalization
๋ ๊ฐ์ง training regime์์ grasping subtask์ object-level generalization์ ์ฐ๊ตฌํฉ๋๋ค: 1. ์ํตํ ๋ฌผ์ฒด๋ง์ผ๋ก single-object training 2. 10๊ฐ์ ๋ค๋ฅธ ๋ฌผ์ฒด๋ก multi-object training
Test time์ ๋์ผํ 10๊ฐ ๋ฌผ์ฒด์์ ํ๊ฐํ๊ณ normalized ์ฑ๊ณต๋ฅ ์ ๋ณด๊ณ ํฉ๋๋ค.
๊ฒฐ๊ณผ๋ ์ฌ๋ฌ ๋ฌผ์ฒด๋ก trainingํ๋ฉด ํจ์ฌ ๋ ๋์ generalization์ ์ฐ์ถํจ์ ๋ณด์ฌ์ค๋๋ค. Multi-object policy๋ ๋ชจ๋ ์นดํ ๊ณ ๋ฆฌ์์ cylinder-only baseline๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค.
7. ํ๊ณ์ ๊ณผ ๋ฏธ๋ ๋ฐฉํฅ: ๋ค ๊ฐ์ง Coverage Gap
Sim-to-real์ locomotion, geometric perception, rigid-body manipulation๊ณผ ๊ฐ์ ๊ฐ๋ณ ๋ฅ๋ ฅ์์ ๋๋ผ์ด ์ฑ๊ณต์ ๋ณด์ฌ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ฒ์ฉ loco-manipulation์ผ๋ก ํ์ฅํ๋ฉด(โ์ด๋๋ ์ด๋, ๋ฌด์์ด๋ ์ธ์, ๋ฌด์์ด๋ ์กฐ์โ), ํ์ฌ ํจ๋ฌ๋ค์์ด ์์ง ํด๊ฒฐํ์ง ๋ชปํ ๋ค ๊ฐ์ง critical coverage gaps์ด ๋๋ฌ๋ฉ๋๋ค.
7.1 Physics Coverage: ๋ฌผ๋ฆฌ์ ๋ค์์ฑ ๊ฒฉ์ฐจ
ํ๋ ์๋ฎฌ๋ ์ดํฐ๋ค์ ์ด๋ก ์ ์ผ๋ก fluid-structure interactions๊ณผ deformable bodies๋ฅผ ํฌํจํ ๋ณต์กํ dynamics๋ฅผ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค. ๊ทผ๋ณธ์ ์ธ ๋ณ๋ชฉ์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฅ์ ๋ถ์กฑ์ด ์๋๋ผ, ์ด๋ฌํ ๊ธฐ๋ฅ๋ค์ ํ์ค์ ๊ธฐ๋ฐ์ ๋๊ธฐ ์ํ ์์ง๋์ด๋ง ๋ ธ๋ ฅ์ ํ์ฅ์ฑ์ ๋๋ค.
์ถฉ๋ถํ ๋ ธ๋ ฅ์ ๋ค์ด๋ฉด, ์ ํผ๋ด๊ธฐ, ์ง๊ฒ๋ก ๊ตญ์ ์ง๊ธฐ, ๋ง๋ ์ฐ๊ธฐ, ์์ผ๋ก ์ด๋ฐฅ ๋ง๋ค๊ธฐ, ์ปคํผ ๋จธ์ ์ ์ฝฉ ๋ฃ๊ธฐ ๋ฑ ํน์ ํ๊ฒฝ์ ์๋ฎฌ๋ ์ด์ ํ๋๋ก ์์ง๋์ด๋งํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ฐ ์๋๋ฆฌ์ค๋ ์ค์ธ๊ณ์ ์ ๋ ฌํ๊ธฐ ์ํ material properties์ boundary conditions์ ๋ง์ถคํ ํ๋์ด ํ์ํฉ๋๋ค.
๋์ ์ ์ด ๋ ธ๋ ฅ์ ์ผ์์ํ์ open-ended diversity๋ก ํ์ฅํ๋ ๋ฐ ์์ต๋๋ค. ์ฅ๋ฒฝ์ ์ด๋ฌํ ์ํธ์์ฉ์ ์๋ฎฌ๋ ์ด์ ํ ์ ์๋ค๋ ๊ฒ์ด ์๋๋ผ, ์ค์ธ๊ณ ๋ฌผ๋ฆฌ์ long tail์ ๋ํด ์ ํํ ์ธ์คํด์คํํ๊ธฐ ์ํ ์์ง๋์ด๋ง ๋น์ฉ์ด ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ ๋ณต์ก์ฑ์ ์ด๊ณผํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
7.2 Task Coverage: Task ์์ฑ์ Long-Tail
๋ฌผ๋ฆฌ๊ฐ ์๋ฒฝํ๊ฒ ์๋ฎฌ๋ ์ด์ ๋ ์ ์๋ค ํ๋๋ผ๋, tasks์ ๋ค์์ฑ์ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์ต๋๋ค. ๋จ์ผ task(์: ์ค๊ฑฐ์ง)๋ฅผ ์ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๊ตฌ์ถ์๋ object geometries๋ฟ๋ง ์๋๋ผ functional affordances, ๋ค์ํ states(๋๋ฌ์ vs ๊นจ๋ํจ), interaction logic์ ๋ชจ๋ธ๋ง์ด ํ์ํฉ๋๋ค.
๋์ฑ์ด, ์๋ฎฌ๋ ์ด์ ์ ์ธ๊ฐ์ ์์๋ ฅ์ ์ํด ์ ํ๋ฉ๋๋ค. โunknown unknownsโโ์ค์ธ๊ณ ๋ฐฐํฌ ์ค์๋ง ๋ํ๋๋ edge cases์ task variantsโ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ ์ ์์ต๋๋ค.
7.3 Reward and Policy Coverage: Reward Engineering ๋ณ๋ชฉ
ํ์์ ์๋ดํ ๋งํผ ์ถฉ๋ถํ denseํ๋ฉด์๋ specification gaming์ ๋ฐฉ์งํ ๋งํผ ์ถฉ๋ถํ sparseํ โRL-friendlyโ reward functions์ ์ ์ํ๋ ๊ฒ์ ํ์ฅ๋์ง ์๋ ์ฌ์ธํ ๊ธฐ์ ์ ๋๋ค.
์ค์ ๋ก, under-exploration๊ณผ over-exploration ์ฌ์ด์ ๊ธด์ฅ์ด ๊ด์ฐฐ๋ฉ๋๋ค: - Dense, shaped rewards โ policy๋ฅผ local optima๋ simulator exploits๋ก ํธํฅ - Sparse rewards โ high-dimensional spaces์์ ํ์ต ๋ถํธ์คํธ๋ฉ ์คํจ
๋จ์ผ task์ ๊ฒฝ์ฐ, ์ด๋ฌํ rewards๋ฅผ โGoldilocksโ regime์ ์ฐพ๋๋ก ํ๋ํ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฌ๋ ์์ฒ ๊ฐ์ ๋ค๋ฅธ tasks์ ๋ํด robust reward functions์ ์๋์ผ๋ก ์ค๊ณํ๋ ๊ฒ์ ๋ค๋ฃจ๊ธฐ ์ด๋ ต์ต๋๋ค.
์ด๋ ์ค์ํ trade-off๋ฅผ ๊ฐ์กฐํฉ๋๋ค: sim-to-real์ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฑ์ ์ ๊ณตํ์ง๋ง, ๋์ ์ฌ์ ์์ง๋์ด๋ง ๋ ธ๋ ฅ์ ์๊ตฌํฉ๋๋ค. ๋์กฐ์ ์ผ๋ก, imitation learning์ ๋ถ๋ด์ ๋ฐ์ดํฐ ์์ง์ผ๋ก ์ด๋์ํต๋๋ค. ํ์ฌ๋ก์๋, ๋ฉฐ์น ๊ฐ์ ๊ณ ํ์ง ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ์ข ์ข ํน์ tasks์ ๋ํด ์๊ฐ์์ sim-to-real ์์ง๋์ด๋ง์ ๋ฅ๊ฐํ ์ ์์ต๋๋ค.
7.4 Hardware Coverage: ํ๋์จ์ด-์๋ฎฌ๋ ์ด์ ๊ฒฉ์ฐจ
๋ง์ง๋ง์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์ ์ด์ํ๋ actuation๊ณผ ํ์ฌ ํด๋จธ๋ ธ์ด๋ ํ๋์จ์ด์ ํ์ค ์ฌ์ด์ ๋๋ ทํ ๊ฒฉ์ฐจ๊ฐ ๋จ์ ์์ต๋๋ค. Locomotion์ ์ํ quasi-direct drive(QDD) actuators๋ ์๋์ ์ผ๋ก ์ ๋ชจ๋ธ๋ง๋์ง๋ง, dexterous manipulation hardware๋ ์ข ์ข ๋ชจ๋ธ๋ง๋์ง ์์ friction, backlash, thermal throttling, sensor noise๋ก ๊ณ ํต๋ฐ์ต๋๋ค.
7.5 ์ ์๋ค์ ์ ๋ง
์ด ๋ค ๊ฐ์ง gaps์ sim-to-real์ด ๋ก๋ณดํฑ์ค์์ ์ค์ํ ์ญํ ์ ์ ์งํ ๊ฒ์ด์ง๋งโํนํ ์์ ํ๊ณ ์์ ์ ์ธ ํ๊ฐ์ bounded state-spaces์ skills ํด๊ฒฐ์์โ๋ฒ์ฉ loco-manipulation์ผ๋ก ํ์ฅํ๋ ๊ฒ์ ๊ฐ๊น์ด ๋ฏธ๋์๋ ๋๋ฌํ ์ ์์ ๊ฐ๋ฅ์ฑ์ด ๋์์ ์์ฌํฉ๋๋ค.
์ด ๋ถ์ผ๋ locomotion์์ sim-to-real์ sweet spot์ ์ฑ๊ณต์ ์ผ๋ก ์๋ณํ์ต๋๋ค: ์ ํ๋ parameters(terrain, mass)์ aggressive randomization๊ณผ ์ ์คํ๊ฒ ์ค๊ณ๋ reward functions์ด ์ ์ผ๋ฐํํ๋ robust policies๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ๋ฌ๋ manipulation์ equivalent sweet spot์ ์์ง ๋ฐ๊ฒฌ๋์ง ์์์ต๋๋ค.
์ ์๋ค์ ์ ์: ์์ผ๋ก์ ๊ธธ์ ๋ ๋์ ๋ฐ์ดํฐ ์์ฝ์์คํ ๋ด์์ ์๋ฎฌ๋ ์ด์ ์ ์ญํ ์ ์ฌ์ ์ํ๋ ๊ฒ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์ด ์ค์ธ๊ณ์ ์ ์ฒด ๋ถํฌ๋ฅผ ์์ฑํ๋๋ก ๊ฐ์ ํ๋ ๋์ , ๋ค์ frontier๋ sim-to-real์ ๊ธ์ํ ์ฑ์ํด์ง๋ ์ค์ธ๊ณ imitation learning ๋ฐ foundation models ์คํ๊ณผ ํตํฉํ๋ ๋ฐ ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์ด ์ค์ธ๊ณ ํ์ต์ ๋์ฒดํ๊ธฐ๋ณด๋ค ๋ณด์ํ๋ ์ด ์๋์ง๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ฒ์ด ๋ฒ์ฉ loco-manipulation์ ๋ฏธ๋๋ฅผ ์ํ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๋ค.
8. ๊ฒฐ๋ก ๋ฐ ํต์ฌ ๊ตํ
VIRAL์ RGB ๊ธฐ๋ฐ ํด๋จธ๋ ธ์ด๋ loco-manipulation์ ์ค์ ๋ก ์๋ํ๊ฒ ๋ง๋๋ ํฌ๊ด์ ์ธ ๊ธฐ์ ์ ๋ ์ํผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
8.1 ์ฃผ์ ๊ธฐ์ ์ ๊ธฐ์ฌ
- Teacher-Student Framework: Privileged information์ผ๋ก ํ์ต ํ visual policy๋ก distillationํ๋ 2๋จ๊ณ ์ ๊ทผ๋ฒ
- Delta Action Space: Absolute targets ๋์ increments๋ฅผ ์ฌ์ฉํ์ฌ RL ํ์ต ๊ฐ์ํ ๋ฐ ์์ ํ
- Reference State Initialization: Teleoperation demonstrations๋ฅผ state-initialization buffer๋ก ํ์ฉ
- DAgger-BC Mixture: Teacher์ student rollouts์ ํผํฉ์ ํตํ ๊ฒฌ๊ณ ํ visual distillation
- ๋๊ท๋ชจ Domain Randomization: Visual, physical, camera parameters์ ๊ฑธ์น ๊ด๋ฒ์ํ randomization
8.2 ๋ก๋ด๊ณตํ์๋ค์ ์ํ ์ค์ฉ์ ๊ตํ
Compute Scale์ด ์ค์ํฉ๋๋ค: Low-compute regimes์์๋ ํ์ต์ด ์ข ์ข ์คํจํฉ๋๋ค. 64 GPUs ๊ท๋ชจ์ computing์ด ์ ๋ขฐ์ฑ ์๋ ํ์ต์ ์ค์ง์ ์๊ตฌ์ฌํญ์ ๋๋ค.
WBC๋ฅผ API๋ก ํ์ฉํ์ธ์: Low-level control์ ์ฒ์๋ถํฐ ํ์ตํ๊ธฐ๋ณด๋ค, pre-trained WBC ์์์ high-level policy๋ฅผ ํ์ตํ๋ฉด reward engineering ๋ถ๋ด์ด ์ค๊ณ ๋ฐฐํฌ๊ฐ ์์ ํด์ง๋๋ค.
Demonstrations๋ฅผ ์ ๊ทน ํ์ฉํ์ธ์: ์์ RL์ long-horizon loco-manipulation์์ ์คํจํ๊ธฐ ์ฝ์ต๋๋ค. RSI์ ๊ฐ์ demonstration-guided ์ ๋ต์ด ํ์์ ์ ๋๋ค.
Hardware alignment์ ํฌ์ํ์ธ์: ํนํ high gear ratio๊ฐ ์๋ dexterous hands์ SysID์ camera extrinsics calibration์ด ์ค์ํฉ๋๋ค.
Randomization์ ์ํธ ๋ณด์์ ์ ๋๋ค: Material, lighting, camera randomization์ด ํจ๊ป sim-to-real transfer์ ํต์ฌ ํ์ดํ๋ผ์ธ์ ํ์ฑํฉ๋๋ค.
8.3 ๋จ์ ๊ณผ์
VIRAL์ impressiveํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง, ๋ ผ๋ฌธ์์ ์์งํ๊ฒ ์ธ์ ํ๋ฏ์ด, ๋ฒ์ฉ loco-manipulation์ผ๋ก ํ์ฅํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ฆฐ ๋ฌธ์ ์ ๋๋ค. Physics diversity, task coverage, reward engineering, hardware-simulation gap์ ๋ค ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ๊ฒฉ์ฐจ๊ฐ ๋จ์ ์์ต๋๋ค.
๊ฐ์ฅ ์ ๋งํ ๋ฐฉํฅ์ sim-to-real์ ์ค์ธ๊ณ imitation learning ๋ฐ foundation models์ ํตํฉํ๋ ๊ฒ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์ด ์ค์ธ๊ณ ํ์ต์ ๋์ฒดํ๊ธฐ๋ณด๋ค ๋ณด์ํ๋ ์๋์ง๋ฅผ ์ฐพ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค.
Appendix: ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ
Teacher Policy (PPO)
| Parameter | Value |
|---|---|
| Number of environments | 32,768 (2048ร8GPUsร2Nodes) |
| Discount factor (ฮณ) | 0.998 |
| Learning rate | 0.00002 |
| Entropy coefficient | 0.01 |
| Value loss coefficient | 1 |
| Init noise std | 0.5 |
| MLP size | [512, 256, 128] |
Student Policy (DAgger + BC)
| Parameter | Value |
|---|---|
| Number of environments | 65,535 (1024ร8GPUsร8Nodes) |
| Steps per environment | 1 |
| Learning rate | 0.0002 |
| DAgger-BC ratio (ฮฑ) | 0.5 |
Domain Randomization Ranges
| Parameter | Distribution |
|---|---|
| Brightness | U(-0.2, 0.2) |
| Contrast | U(0.8, 1.2) |
| Camera Position X | U(-0.02, 0.02) m |
| Camera Position Y | U(-0.02, 0.02) m |
| Camera Position Z | U(-0.02, 0.02) m |
| Table Height | U(0.68, 0.81) m |
| Dome Light Intensity | U(500, 2000) |
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.