flowchart LR
ENV["Environment<br/>(๋์ ์๋ฎฌ๋ ์ด์
)"] --> ACTOR
subgraph OBS["๊ด์ธก ๋ถ๋ฆฌ"]
AO["Actor obs (๋นํน๊ถ)<br/>base orientation,<br/>angular velocity,<br/>joint states + ๋
ธ์ด์ฆ"]
CO["Critic obs (ํน๊ถ)<br/>+ remaining time,<br/>foot contact flags,<br/>MDP obs, noiseless state"]
end
ACTOR["Actor (time-invariant)"] -->|joint target<br/>sยทa + qฬ| PD["PD controller"]
PD --> ENV
AO --> ACTOR
CO --> CRITIC["Critic (privileged)"]
ENV --> CRITIC
CRITIC -->|value| RL["PPO"]
RL --> ACTOR
๐Arm-assisted Fall Recovery
๐ค ๋ณธ ๋ ผ๋ฌธ์ legged mobile manipulator๊ฐ ํ์ ์ด์ฉํด ๋ํ ํผํด๋ฅผ ์ค์ด๊ณ ๋ณต๊ตฌ๋ฅผ ๋ณด์กฐํ๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๊ณผ ์ด๋ฅผ ์ํ ๋น๋์นญ actor-critic ํ๋ จ ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค. ๐ฆพ ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ, ์ ์๋ ์ ์ฑ ์ ๊ธฐ์ค์ (baseline) ๋ฐฉ๋ฒ ๋๋น base contact impulse, peak joint internal force ๋ฐ base acceleration์ ํฌ๊ฒ ์ค์์ผ๋ฉฐ, ํ๋์จ์ด ํ ์คํธ์์๋ 98.9%์ ๋์ ๋ณต๊ตฌ ์ฑ๊ณต๋ฅ ๊ณผ ๋ค๋ฆฌ ํ ํฌ ์๋น ๊ฐ์๋ฅผ ๋ณด์์ต๋๋ค. โ ๋ํ, ์๊ฐ ๋ถ๋ณ(time-invariant) ์กํฐ ์ ์ฑ ์ด ๋ ๊ท ์ผํ ๋ณต๊ตฌ ๋์์ ์ ๋ํ๋ฉฐ, ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ก๋ด์ resting ๋ฐ self-righting๊ณผ ๊ฐ์ ๋ค๋ฅธ ์์ ์๋ ์ ์ฉ ๊ฐ๋ฅํจ์ ๊ฒ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ Legged Mobile Manipulator์ ๋์ ํผํด ๊ฐ์ ๋ฐ ํ๋ณต์ ์ํด ๋ก๋ด ํ์ ํ์ฉํ๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋์ ๋ฐ ํ๋ณต ์ ๋ต์ ๋นํ์ฑ ์ถฉ๋ ๋๋ ์ ์๋ ๋ฐฉํฅ์ผ๋ก์ ๋์๊ณผ ๊ฐ์ ์ ํ์ ์ธ ๊ฐ์ ์ ์ฌ์ฉํ๋ ๊ฒฝํฅ์ด ์์ด ์ค์๊ฐ ๊ณ์ฐ์ด ๊ฐ๋ฅํ๋๋ก ๋จ์ํ๋์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ๋ก๋ด ํ์ ์ฌ์ฉํ์ฌ ๋์ ํผํด๋ฅผ ์ค์ด๊ณ ๋ก๋ด์ ํ๋ณต์ ๋๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํฉ๋๋ค.
์ฃผ์ ๋ชฉํ๋ ๋ค์ํ ์ด๊ธฐ ๋์ ์กฐ๊ฑด์์ ๋ก๋ด์ด ๋์์ผ๋ก ์ธํ ์์์ ์ค์ด๊ณ ์ ํด์ง ์๊ฐ ๋ด์ ์์ ์ ์ธ ์คํ ์ค ์์ธ๋ก ํ๋ณตํ๋๋ก ํ๋ ๋จ์ผ ์ ์ด ์ ์ฑ ์ ํ๋ จํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ ์๋ค์ time-varying reward ํจ์๋ฅผ ํฌํจํ๋ finite-horizon MDP(Markov Decision Process)๋ก ๋ฌธ์ ๋ฅผ ์ ํํํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology):
๋ณธ ์ฐ๊ตฌ์ ํต์ฌ์ Asymmetric Actor-Critic ํ๋ จ ๊ตฌ์กฐ์ time-varying reward ํจ์๋ฅผ ์ฌ์ฉํ๋ ๋ฐ ์์ต๋๋ค.
- State Initialization and Rollout:
- ๋ค์ํ ๋์ ์๋๋ฆฌ์ค๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ํด, ์ด๊ธฐ ๊ธฐ๋ณธ ์ํ(base state)์ ๊ด์ ์ํ(joint state)๊ฐ ๋ฌด์์๋ก ์ด๊ธฐํ๋ฉ๋๋ค.
- ๊ด์ ์ก์ถ์์ดํฐ(joint actuator)๋ ๊ฐ ์ํผ์๋์์ 0.04์ด์์ 1.50์ด ์ฌ์ด์ ๋ฌด์์ ๊ธฐ๊ฐ ๋์ ๋นํ์ฑํ๋์ด, ๋ก๋ด์ด ์ด๋ฏธ ๋์ด์ง๋ ์ํฉ์ ์๋ฎฌ๋ ์ด์ ํฉ๋๋ค. ์ด๋ ์ปจํธ๋กค๋ฌ๊ฐ ๋ฆ๊ฒ ๋์์ ๊ฐ์งํ๋ ์ํฉ์ ๋๋นํ ๊ฒ์ ๋๋ค.
- ์ด ์ด๊ธฐ ๋นํ์ฑํ ๊ธฐ๊ฐ์ด ๋๋๋ฉด, ํ์ต๋ ์ ์ฑ (policy)์ด ๋ก๋ด์ ์ ์ดํ์ฌ ๋์ ํผํด๋ฅผ ์ค์ด๊ณ ํ๋ณต์ ์์ํฉ๋๋ค. ์ํผ์๋๋ MDP์ ๊ณ ์ ๋ ์๊ฐ ์งํ(time horizon)์ด ๋๋ ๋ ์ข ๋ฃ๋ฉ๋๋ค.
- Asymmetric Actor-Critic:
- ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ PPO(Proximal Policy Optimization)๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- Actor observation: ๋ก๋ด์ ๊ธฐ๋ณธ ๋ฐฉํฅ(base orientation), ๊ธฐ๋ณธ ๊ฐ์๋(base angular velocity), ๊ด์ ์ํ(joint states)๋ฅผ ํฌํจํ ๋ก๋ด ์ํ๋ฅผ ๊ด์ฐฐํฉ๋๋ค. ๋์ ํ ์ํ ์ถ์ ์ ๋ถํ์ค์ฑ ๋๋ฌธ์ ๊ธฐ๋ณธ ์ ํ ์๋(base linear velocity)๋ ์ ์ธ๋ฉ๋๋ค. ํ๋ จ ์ค์๋ Actor์ ๊ด์ฐฐ์ Gaussian noise๊ฐ ์ถ๊ฐ๋์ด ๋ก๋ด์ ์ํ ์ถ์ ๋ ธ์ด์ฆ์ ๋ํ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ ๋๋ค. Actor์ ์ ์ฑ ์ time-invariantํฉ๋๋ค.
- Critic observation: Actor์ noiseless ๊ด์ฐฐ๊ณผ ํจ๊ป ํน๊ถ์ ์ธ ๊ด์ฐฐ(privileged observations)์ ์ ๊ทผํ ์ ์์ต๋๋ค. ์ด๋ฌํ privileged observations๋ ๋ฐฐํฌ ์์๋ ์ฌ์ฉํ ์ ์์ง๋ง, ๊ฐ์น ํจ์(value function) ์ถ์ ์ ์ ํ๋๋ฅผ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค. ์ฌ๊ธฐ์๋ ์ํผ์๋์ ๋จ์ ์๊ฐ, ๋ฐ ์ ์ด ์ํ(foot contact states), ์ก์ถ์์ดํฐ ํ์ฑํ ์ฌ๋ถ๋ฅผ ๋ํ๋ด๋ ์ด์ง ํ๋๊ทธ(binary flag), ์ด๊ธฐ ๋นํ์ฑํ ๊ธฐ๊ฐ์ ๋จ์ ์๊ฐ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. Critic์ time-variantํ ๊ฐ์น ํจ์๋ฅผ ์ถ์ ํ์ฌ time-varying reward ํจ์์ ์ฐ๋๋ฉ๋๋ค.
- Actions:
- ์ ์ฑ ์ ์ํด ์์ฑ๋ ๊ด์ ๋ชฉํ(joint target)๋ \text{s}(\text{a} + \tilde{\text{q}})๋ก ๊ณ์ฐ๋ฉ๋๋ค. ์ฌ๊ธฐ์ \text{s}๋ ์ก์ ์ค์ผ์ผ๋ง ํฉํฐ(action scaling factor), \text{a}๋ ์ ์ฑ ์ ์ก์ ์ถ๋ ฅ, \tilde{\text{q}}๋ ๊ธฐ๋ณธ ๊ด์ ์์น(default joint position)์ ๋๋ค.
- ๊ณ์ฐ๋ ๊ด์ ์์น๋ ๋๋ผ์ด๋ธ์ PD ์ปจํธ๋กค๋ฌ(PD controller)์ ์์น ๋ชฉํ(position target)๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ALMA ๋ก๋ด์ ๊ฒฝ์ฐ ์ง์ ๋ ๊ธฐ๋ณธ ๊ฐ๋ ์ฃผ๋ณ์ ์ญ๋(perturbation)์ ์ถ๋ ฅํ๋ ๊ฒ์ด ์ข์ ์ด๊ธฐ ์ ์ฑ ์ผ๋ก ์์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- Reward Function:
- ๋์ ํผํด ๊ฐ์๋ ๋์ ์ ์ด ์ถฉ๊ฒฉ๋(contact impulse)๊ณผ ์ ์ฒด ๊ฐ์๋(body acceleration)์ ๊ฐ์ ์์น ์๋ ์ธก์ ๊ฐ์ ์กฐํฉ์ ์ต์ํํ๋ ๊ฒ์ผ๋ก ๊ณต์ํ๋ฉ๋๋ค.
- Time-variant task rewards (๋นจ๊ฐ์):
- Base height: ์ํผ์๋์ ๋ง์ง๋ง 2์ด ๋์ ๋ก๋ด์ ๋ชธํต ๋์ด๊ฐ 0.5m ์ด์์ผ ๋ ์ต๋ ๋ณด์์ ๋ฐ์ต๋๋ค.
- Joint position: ALMA์ ๊ธฐ๋ณธ ๊ด์ ์์น(default joint position)์์ ๋ฒ์ด๋๋ ๊ฒ์ ํ๋ํฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค.
- Base orientation: ๋ก๋ด์ด ๋กค(roll) ๋ฐ ํผ์น(pitch) ๊ฐ๋๋ฅผ ์ค์ฌ ๊ธฐ๋ณธ ๋ฐฉํฅ์ ํ๋ณตํ๋ ๊ฒ์ ๋ณด์์ ๋ถ์ฌํฉ๋๋ค.
- ์ด๋ฌํ task reward๋ ์ํผ์๋์ ๋ง์ง๋ง 2์ด ๋์์๋ง ํ์ฑํ๋ฉ๋๋ค.
- Time-invariant behavior rewards (ํ๋์):
- Body collision: ์ ์ฒด ์ถฉ๋์ ๋ํ ํ๋ํฐ๋ก, ์ ์ด๋ ฅ์ ํฌ๊ธฐ(\sum_{b \in B} \|\lambda_b[t]\|^2)์ ๋น๋กํฉ๋๋ค. ์ค์ผ์ผ์ -0.2์ ๋๋ค.
- Momentum change: ์ด๋๋ ๋ณํ(\sum_{b \in B} \|m_b a_b[t]\|)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -5e-3์ ๋๋ค.
- Body yank: ๋ฐ๋ ์ ํฌ(jerk, ํ์ ๋ณํ์จ)(\sum_{b \in B} \|F_b[t] - F_b[t-1]\|^2)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -5e-2์ ๋๋ค.
- Action rate: ์ก์ ๋ณํ์จ(\sum (a[t] - a[t-1])^2)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -3e-3์ ๋๋ค.
- Joint velocity: ๊ด์ ์๋(\sum_j \dot{q}_j^2)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -5e-4์ ๋๋ค.
- Torques: ํ ํฌ(\sum_j \tau_j^2)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -4e-7์ ๋๋ค.
- Acceleration: ๊ด์ ๊ฐ์๋(\sum_j \ddot{q}_j^2)์ ๋ํ ํ๋ํฐ๋ก, ์ค์ผ์ผ์ -1e-8์ ๋๋ค.
- ์ด๋ฌํ behavior reward๋ ํ๋ จ ์ํผ์๋ ์ ์ฒด์ ๊ฑธ์ณ ํ์ฑํ๋ฉ๋๋ค.
- ์ด๊ธฐ ๋นํ์ฑํ ๊ธฐ๊ฐ ๋์์๋ ์ ์ฑ ์ด ๋ก๋ด์ ๊ด์ ์ก์ ์ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฏ๋ก, task ๋ฐ behavior reward ๋ชจ๋ 0์ผ๋ก ์ค์ ๋ฉ๋๋ค.
Sim-to-Real Transfer:
NVIDIA Isaac Gym์ ์ฌ์ฉํ์ฌ ํ๋ จ ํ๊ฒฝ์ ์๋ฎฌ๋ ์ด์ ํ๊ณ 200Hz๋ก ์คํํ๋ฉฐ, ์ ์ฑ ์ 100Hz๋ก ์คํ๋ฉ๋๋ค. Sim-to-Real ์ ์ก์ ์ํด ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ ์ด ์ ์ฉ๋ฉ๋๋ค. * Actuator model: ๋ค๋ฆฌ ๋๋ผ์ด๋ธ์ ๋ํ ์ก์ถ์์ดํฐ ๋ชจ๋ธ์ด ์๋ฎฌ๋ ์ดํฐ์ ์ฌ์ฉ๋ฉ๋๋ค. ํ ๋๋ผ์ด๋ธ์ ๊ฒฝ์ฐ, ๋ง์ฐฐ์ ๋ฌด์์ํํ๊ณ ํ ํฌ ์ง์ฐ(torque delay)์ ์ถ๊ฐํฉ๋๋ค. * Terrain randomization: ํํํ ์งํ ๋์ ๋ถ๊ท ์ผํ ์งํ(uneven terrain)์ด ์ฌ์ฉ๋์ด ์ง๋ฉด ์ ์ด ๋ฒ์ ๋ฐฉํฅ(ground contact normal direction)์ ๋ฌด์์ํํ๊ณ ๋ ํฐ ์ฌ์ ๊ณต๊ฐ์ ์ฅ๋ คํฉ๋๋ค. * Observation noise: Actor ๊ด์ฐฐ์ Gaussian noise๊ฐ ์ถ๊ฐ๋์ด ๋ก๋ด์ ์ํ ์ถ์ ๋ ธ์ด์ฆ์ ๋ํ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ ๋๋ค. * Robot randomization: ๋ก๋ด์ ๊ธฐ๋ณธ ์ง๋(base mass)์ด ๋ฌด์์ํ๋๊ณ , ๋ก๋ด ๋ฐ๋์ ์ง๋ฉด ๋ง์ฐฐ ๊ณ์(friction coefficient)๋ ๋ฌด์์ํ๋ฉ๋๋ค.
๊ฒฐ๊ณผ:
- ๋์ ํผํด ๊ฐ์: ์ ์๋ ์ ์ฑ ์ ๊ธฐ์กด ๋น์ ์ปจํธ๋กค๋ฌ(freezing, damping)์ ๋น๊ตํ์ฌ ๊ธฐ๋ณธ ์ ์ด ์ถฉ๊ฒฉ๋(base contact impulse), ํผํฌ ๊ด์ ๋ด๋ถ ํ(peak joint internal forces), ๊ธฐ๋ณธ ๊ฐ์๋(base acceleration)๋ฅผ ํฌ๊ฒ ์ค์ ๋๋ค. ํนํ, ๊ธฐ๋ณธ ์ถฉ๊ฒฉ๋์ด 0.05Ns ๋ฏธ๋ง์ธ ๊ฒฝ์ฐ์ ์ ์ฑ ์ด ์ ์ด์ ํผํ๋ ๊ฒฝ์ฐ๊ฐ ๋ ๋ง์ ์์ ํํผ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ๋์ ํ๋ณต: ํ์ ์ฌ์ฉํ ์ ์ฑ ์ ์ด๊ธฐ ๋์ ๊ตฌ์ฑ์์ 98.9%์ ์ฑ๊ณต๋ฅ ๋ก ํ๋ณตํ๋ฉฐ, ํ์ด ๊ณ ์ ๋(tugged-arm) ์ ์ฑ ์ 95.2%๋ณด๋ค ์ฐ์ํฉ๋๋ค. ๋ํ, ํ ์ฌ์ฉ์ ํ๊ท ๋ค๋ฆฌ ํ ํฌ ์๋น๋ฅผ 9.17% ๊ฐ์์ํต๋๋ค. ์ ์ฑ ์ ๋์์ ๋ฐ๋ผ ํ์ ์ ์์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋์ ์ถฉ๊ฒฉ์ ์ํํ๊ณ ํ๋ณต์ ์ง์ํ๋ ์ ๋ต์ ํ์ตํฉ๋๋ค.
- Observation ๊ตฌ์ฑ Ablation Study:
- Privileged critic์ ์ค์์ฑ: Critic์ด ์ํผ์๋ ์งํ ์ํฉ์ด๋ privileged robot state observations๋ฅผ ๊ด์ฐฐํ์ง ๋ชปํ๋ฉด task๋ฅผ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. time-variantํ ๊ฐ์น ํจ์๋ฅผ ์ถ์ ํ๋ privileged critic์ด ์ ์ฑ ์ ๋ฐ์ดํธ์ ๋ถ์ฐ์ ํฌ๊ฒ ์ค์ฌ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Time-variant vs. time-invariant actor: Actor ๊ด์ฐฐ์ ์ํผ์๋์ ๋จ์ ์๊ฐ์ ํฌํจํ๋ ๊ฒ์ ์ํผ์๋ ๋ฆฌํด์ ํฐ ๋ณํ๋ฅผ ์ฃผ์ง ์์ง๋ง, ํ๋ณต ํ๋์ ๋ค๋ฅด๊ฒ ๋ง๋ญ๋๋ค. Time-variant ์ ์ฑ ์ ์์ ๋ณด์์ด ํ์ฑํ๋๊ธฐ ์ง์ ์๋ง ๋น ๋ฅด๊ฒ ํ๋ณตํ๋ ๊ฒฝํฅ์ด ์์ด ์์ง์์ด ์๊ฐ์ ์ผ๋ก ๊ท ์ผํ์ง ์๊ณ , ์คํจ ์ ํ๋ณต ์๋๋ฅผ ์ค๋จํ ์ ์์ต๋๋ค. ๋ฐ๋ฉด time-invariant ์ ์ฑ ์ ์๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ํ๋์ ๋ณด์ด๋ฉฐ ํญ์ ํ๋ณต์ ์๋ํ์ฌ ๋ฐฐํฌ์ ๋ ์ ํฉํ๊ณ ๊ฒฌ๊ณ ํฉ๋๋ค.
- Asymmetric actor-critic vs. privileged policy: ์ ์๋ ๋นํน๊ถ์ (non-privileged) time-invariant actor์ privileged critic์ ์ฌ์ฉํ ์ค์ (configuration 2)์ privileged policy ์ค์ (configuration 4)์ ๋นํด ํ๊ท ์ํผ์๋ ๋ฆฌํด์ด 3.0% ๊ฐ์ํ์ง๋ง, ํ์๋ ํ๋์จ์ด ๋ฐฐํฌ๋ฅผ ์ํด ์ถ๊ฐ์ ์ธ ์ ์ฑ ์ฆ๋ฅ(policy distillation) ๊ณผ์ ์ด ํ์ํฉ๋๋ค.
์ฌํ์ฑ ๋ฐ ๋ค๋ฅธ ์์ ์ผ๋ก์ ์ ์:
์ ์๋ ํ๋ จ ํ์ดํ๋ผ์ธ์ ๋กค์์ ์ด๊ธฐํ ๊ธฐ๊ฐ, ์ด ์์ ๊ธฐ๊ฐ, ๊ด์ ๋ชฉํ ์์น ๋ฐ ๋ณด์ ์ค์ผ์ผ๊ณผ ๊ฐ์ ์์ ์์ค ์ค์ ์ ์์ ํ๋ ๊ฒ๋ง์ผ๋ก ๋ค๋ฅธ ์ํ ์ ํ ์์ (state-transition tasks)์ ์ฝ๊ฒ ์ ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. โRestingโ(์์์ ์คํ ์ค ๊ตฌ์ฑ์์ ์ง๋ฉด์ ์ฐฉ์ง) ๋ฐ โSelf-rightingโ(๋์ด์ง ์ํ์์ ๊ธฐ๋ณธ ํด์ ์์ธ๋ก ์ผ์ด์๊ธฐ)๊ณผ ๊ฐ์ ๋ ๊ฐ์ง ์ถ๊ฐ ์์ ์ ๋ํ ์ ์ฑ ๋ ํ๋ จ ๋ฐ ํ๋์จ์ด ๊ฒ์ฆ์ ํตํด ๊ทธ ๊ฒฌ๊ณ ์ฑ์ ์ ์ฆํฉ๋๋ค.
๊ฒฐ๋ก :
์ด ์ฐ๊ตฌ๋ Legged Mobile Manipulator๋ฅผ ์ํ time-invariant ์ ์ด ์ ์ฑ ์ ํ๋ จํ๊ธฐ ์ํ Asymmetric Actor-Critic ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ์ ์ฑ ์ ๋ฌด์์ ๋์ ๊ตฌ์ฑ์์ time-based reward๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋๋ฉฐ, ๋์ ํผํด ๊ฐ์ ๋ฐ ํ๋ณต์ ์ํด ํ์ ์ ์์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค. ์ ์๋ ์ปจํธ๋กค๋ฌ๋ ๋์ ์ค ํผํฌ ์๊ฐ ์ถฉ๊ฒฉ๋, ๊ธฐ๋ณธ ๊ฐ์๋, ํผํฌ ๊ด์ ๋ด๋ถ ํ ์ธก๋ฉด์์ ๊ธฐ์ค ๋น์ ์ปจํธ๋กค๋ฌ๋ณด๋ค ์ฐ์ํฉ๋๋ค. ๋ํ, ํ์ ์ฌ์ฉํ ํ๋ณต ์ ์ฑ ์ ํ์ต ๊ธฐ๋ฐ์ ํ์ด ๊ณ ์ ๋ ํ๋ณต ์ ์ฑ ๋ณด๋ค ํ๋ณต ์ฑ๊ณต๋ฅ ๊ณผ ๋ค๋ฆฌ ํ ํฌ ์๋น ์ธก๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด ์ ์ฑ ์ ALMA ๋ก๋ด ์๋ฎฌ๋ ์ด์ ๋ฐ ํ๋์จ์ด์์ ๊ด๋ฒ์ํ๊ฒ ํ ์คํธ๋๊ณ ๋ฐฐํฌ๋์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ๊ธฐ๋ฅ ์ด์๊ณผ ๊ฐ์ ๋์์ผ๋ก ์ธํ ์ ์ฌ์ ์์์ ๊ณ ๋ คํ์ฌ ์ ์ฑ ์ ํ์ฅํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ค๋ฆฌ ๋ฌ๋ฆฐ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ๋ ์กฐ์ ๋ฅ๋ ฅ๊ณผ ๋น์ ํ ์งํ ์ฃผํ์ ๊ฒธ๋นํด ์ค์ฉ์ฑ์ด ๋์ต๋๋ค. ํ์ง๋ง ์์ฉ์์๋ ์ผ์๋ ์๋์ดํํฐ ๊ฐ์ ํน์ ํ์ด๋ก๋ ๋ฅผ ์ฃ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๊ณ , ๋์ด์ง๋ฉด ์ด ํ์ด๋ก๋์ ํ์ด ์์๋๊ธฐ ์ฝ์ต๋๋ค. ๋ฐ๋ผ์ ๋์ ์ค ์์ ๊ฐ์(fall damage reduction) ์ ์คํจ๋ก๋ถํฐ์ ๋ณต๊ท(recovery) ๋ legged ๋ก๋ด ๋ถ์ผ์ ๋จ์ ํต์ฌ ๊ณผ์ ์ ๋๋ค. ๋ ๋ค ๋ก๋ด์ด ์ง๋ฉด๊ณผ ์๋ฏธ ์๊ฒ ์ ์ดํด์ผ ํ๋ contact-rich ๋์์ด๋ผ ์ฆ์ ์ ์ด ์ ํ์ ๋ค๋ค์ผ ํฉ๋๋ค.
๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ๋ ๋ถ๋ช ํฉ๋๋ค.
- ๊ณํ(planning) ๊ธฐ๋ฐ ์์ ๊ฐ์: ๊ณ ์ /์ ์ ์ ์ด ์ํ์ค๋ฅผ ์ง๊ฑฐ๋ ukemi(๋๋ฒ) ๊ฐ์ ๋์์ผ๋ก ์ถฉ๊ฒฉ์ ํก์ํฉ๋๋ค. ํ์ง๋ง ๋นํ์ฑยท๋น๋ฏธ๋๋ผ ์ถฉ๋, ์์๋ฉด(sagittal)/๊ด์๋ฉด(frontal)์ผ๋ก๋ง ๋์ ๊ฐ์ ์ ํ์ ๊ฐ์ ์ ๊ธฐ๋๊ณ , ์ฌ์ง๊ฐ ์ ์ด ์ํ์ค๋ฅผ ์ถ์ข ํ ๋งํผ ์ถฉ๋ถํ ๋ฏผ์ฒฉํ๋ค๊ณ ๊ฐ์ ํ๋๋ฐ โ ๋ฌด๊ฑฐ์ด ๋ค๋ฆฌยท์ ํ๋ ๊ด์ ์๋ ๋ฅผ ๊ฐ์ง ๋ก๋ด์๋ ์ฑ๋ฆฝํ์ง ์์ต๋๋ค. ์์ ํด๋จธ๋ ธ์ด๋์์ ์ฐ๋ โํ ์์ ์ ์ (fully-stretched arm)โ ์์ธ๋ ALMA(์ฝ 58kg)์ฒ๋ผ ๋ฌด๊ฑฐ์ด ๋ก๋ด์์ ๋๋ผ์ด๋ธ์ ๊ณผํ ์ถฉ๊ฒฉ ์๋ ฅ์ ์ค ๋ฐ๋์งํ์ง ์์ต๋๋ค.
- ๊ณํ ๊ธฐ๋ฐ ๋ณต๊ท: ์ ํํ ์ํยท์ ์ด์ ์ถ์ ์ ์์กดํ๋๋ฐ, ๋์ ํ ์ํ ์ถ์ ๊ณผ ์ ์ด์ด ๋ถํ์คํด ์ด๋ ต์ต๋๋ค. ์ฌ์ ์ ์ ์ํ์คยท์ํ ์ ์ดยท๋ชจ๋ธ ๋จ์ํ ๊ฐ์ ํด๋ฆฌ์คํฑ์ด ํ์ํด ํน์ ๋ก๋ด์ ์ข ์๋ฉ๋๋ค.
- RL ๊ธฐ๋ฐ ๋ณต๊ท(๊ธฐ์กด): ํด๋ฆฌ์คํฑ์ ์ค์ผ ์ ์์ง๋ง, ๋์ ๋ณด์(๋ถ๋๋ฌ์) ๊ณผ ์์ ๋ณด์(๋ณต๊ท ์๊ฐ) ์ฌ์ด์ ๊ฐ์ค์น๋ฅผ ๋ง์ถ๋ ์ผ์ด ์ทจ์ฝํ๊ณ ๊ณ ๋ ํ๋ ์ ์๊ตฌํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ ์ค ์์ฝ: ์ต์ํ์ ๋จ์ํ๋ก, ํ์ ๋ฅ๋์ ์ผ๋ก ํ์ฉ ํด ๋์ ์์์ ์ค์ด๊ณ ๋ณต๊ทํ๋ ๋จ์ผ ์ ์ฑ ์, time-invariant ์ ์ฑ + time-varying ๋ณด์ ์ asymmetric actor-critic๋ก ํ์ตํ๋ค.
์ฃผ์ ๊ธฐ์ฌ๋ ์ธ ๊ฐ์ง์ ๋๋ค.
- ์ ์ ์ ์ฑ ๊ณผ ํ์ฌ ๋ฐฐํฌ๋๋ ๋น์ ์ปจํธ๋กค๋ฌ(๋๋ผ์ด๋ธ freezing/damping)์ ์ ๋ ๋น๊ต โ ๋์ ์ค base impulseยทpeak joint internal forceยทbase acceleration ๊ฐ์. ๋์นญ(symmetric)ยท์๊ฐ ๊ฐ๋ณ(time-variant) ๋ฒ์ ๋๋น ๋ณต๊ท ํ๋ ๊ฐ์ ์ ablation.
- ํ๋ก ์ ์์ ์ผ๋ก ๋์์ ๋ฉ์ถ๊ณ , ์ ํด์ง ์๊ฐ ์์ stance ์์ธ๋ก arm-assisted ๋ณต๊ท ํ๋ ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ + ALMA ํ๋์จ์ด ๊ฒ์ฆ.
- resting(์์ ์์ธ์์ ํด์ง ์์ธ๋ก), self-righting(๋์ด์ง ์ํ์์ ๊ธฐ๋ณธ ์์ธ๋ก) ๊ฐ์ ๋ค๋ฅธ ์์ ์ผ๋ก์ ํ์ฅ.
๋ฐฉ๋ฒ
๋ฌธ์ ๋ฅผ ์ ํ ์งํ์ (finite-horizon) MDP ๋ก ์ ์ํํฉ๋๋ค. ๋ก๋ด์ ๋ฌด์์ ์ด๊ธฐ ๋์ ์์ธ์์ ์์ํด, ์ํผ์๋ ๋์์ ์์ ๊ธฐ์ค ์ต์ํ + ์ง๋ฆฝ ๋ณต๊ท ์ ๋์ ๋ฐ๋ผ ๋ณด์์ ๋ฐ์ต๋๋ค. ํต์ฌ ๋๊ตฌ๋ asymmetric actor-critic ์ผ๋ก, critic๋ง ์๋ฎฌ๋ ์ดํฐ์ ํน๊ถ(privileged) ๊ด์ธก์ ์ ๊ทผํฉ๋๋ค.
์ํ ์ด๊ธฐํ์ ๋กค์์
๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ๋ ๋ณดํยท์กฐ์ยทthrowing ๋ฑ ์์ ๋ง๋ค ์ปจํธ๋กค๋ฌ๊ฐ ๋ค๋ฅด๊ณ ์ํ ๋ถํฌ(๋ค๋ฆฌ ์ ์ด, base ์์ธ ๋ฑ)๊ฐ ํฌ๊ฒ ๋ฌ๋ผ, ๋ชจ๋ ์ปจํธ๋กค๋ฌ์ ๋ง๋ ๋์ ๊ฐ์ง๊ธฐ๋ฅผ ๋ง๋ค๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋์ ์์ ์ปจํธ๋กค๋ฌ๊ฐ ์์ ์ ๊ฒ์ ์ํํด ๋์์ ๋ณด๊ณ ํ๋ฉด ์ด ์ ์ฑ ์ผ๋ก ์ ํํ๋ ๋น์ ์ปจํธ๋กค๋ฌ ๋ก ์ค๊ณํฉ๋๋ค.
๋ค์ํ ๋์ ์ด๊ธฐ ์กฐ๊ฑด์ ๋ง๋ค๊ธฐ ์ํด, ๊ฐ ์ํผ์๋์์ ์ด๊ธฐ baseยท๊ด์ ์ํ๋ฅผ ๋ฌด์์ํํ๊ณ ๊ด์ ์ก์ถ์์ดํฐ๋ฅผ 0.04~1.50์ด ๋์ ๋นํ์ฑํ ํด ๋ก๋ด์ด ๋จ์ด์ง๊ฒ ํฉ๋๋ค(์ํ 1.50์ด๋ ๋ฆ์ ๋์๊น์ง ํ์ฉ). ์ด ์ด๊ธฐํ ๊ตฌ๊ฐ์ด ๋๋๋ฉด ์ ์ฑ ์ด ๋ก๋ด์ ์ ์ดํ๋ฉฐ, ์ํผ์๋๋ MDP ์๊ฐ ์งํ์ ๋์์๋ง ์ข ๋ฃ๋ฉ๋๋ค.
Asymmetric actor-critic
PPO๋ฅผ ์ฌ์ฉํ๋ฉฐ critic๋ง ํน๊ถ ๊ด์ธก์ ๋ด ๋๋ค.
- Actor ๊ด์ธก: base ์์ธ, base ๊ฐ์๋, ๊ด์ ์ํ. base ์ ์๋๋ ๋์ ํ ์ถ์ ๋ถํ์ค์ฑ์ด ์ปค์ ์ ์ธ. ํ์ต ์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ์ถ๊ฐ(๊ฐ๊ฑด์ฑ).
- Critic ๊ด์ธก: ์ก์ ์๋ actor ๊ด์ธก + ํน๊ถ ๊ด์ธก(์ํผ์๋ ๋จ์ ์๊ฐ, ๋ฐ ์ ์ด ์ํ, ์ก์ถ์์ดํฐ ํ์ฑ ์ฌ๋ถ binary flag ๋ฐ ํ์ฑ๊น์ง ๋จ์ ์๊ฐ ๋ฑ MDP ๊ด์ธก).
ํต์ฌ: ๋จ์ ์๊ฐ์ critic๋ง ๊ด์ธก ํ๋ฏ๋ก actor์ ์ ์ฑ ์ ์๊ฐ ๋ถ๋ณ(time-invariant) ์ผ๋ก ์ ์ง๋ฉ๋๋ค. ํน๊ถ critic์ด time-varying ๋ณด์์ด ์ ๋ํ๋ ์ง์ง value๋ฅผ ์ ์ถ์ ํด, ๋นํน๊ถ actor๊ฐ ์์ ๊ฐ์ยท๋ณต๊ท ์คํฌ์ ์์ ์ ์ผ๋ก ๋ฐฐ์ฐ๊ฒ ํฉ๋๋ค.
ํ๋
์ ์ฑ ์ด ๋ด๋ ๊ด์ ๋ชฉํ๋ s\,a + \bar q ์ ๋๋ค(s: action scaling, a: ์ ์ฑ ์ถ๋ ฅ, \bar q: ๊ธฐ๋ณธ ๊ด์ ์์น). ์ด ๊ด์ ์์น๋ฅผ ๋๋ผ์ด๋ธ PD ์ปจํธ๋กค๋ฌ ์ ๋ชฉํ๋ก ์๋๋ค(๊ด์ ์ฐจ๋ถ action ๋์ ์ ๋ ๋ชฉํ). ๊ธฐ๋ณธ ๊ด์ ์์น์ action scale์ ์ธก๋ฉด ๋์ ์ ๋ฌด์์ action์ด ๋ก๋ด์ ๋ค์ง์ ๊ธฐํ๋ฅผ ๊ฐ๋๋ก ๊ณจ๋ผ, ์ด๊ธฐ ํ์ต์์ self-righting ํ์์ ๋์ต๋๋ค.
๋ณด์ ํจ์ (ํต์ฌ ์ค๊ณ)
๋์ ์์ ๊ฐ์๋ฅผ ์ฌ๋ฌ ๋ฐ๋์งํ์ง ์์ ์ธก์ ๊ฐ(๋์ contact impulse, body acceleration ๋ฑ)์ ์กฐํฉ ์ต์ํ ๋ก ์ ์ํํ๊ณ , ์ํผ์๋ ๋์์ stance ์์ธ ๊ทผ์ฒ๋ก ์ผ์ด์ ๋ฐ ๋ํด ๋ณด์ํฉ๋๋ค. ๋ณด์์ ๋ ์ข ๋ฅ๋ก ๋๋ฉ๋๋ค.
(1) Time-variant ์์ ๋ณด์ โ ์ํผ์๋์ ๋ง์ง๋ง 2.0์ด ์๋ง ํ์ฑ:
| ํญ๋ชฉ | ์๋ฏธ | scale |
|---|---|---|
| Base height | ํ ๋ฅด์ ๋์ด๊ฐ ๋์์๋ก ๋ณด์(โฅ0.5m์์ ์ต๋) | 600 |
| Stand joint position | ALMA ๊ธฐ๋ณธ ๊ด์ ์์ธ์์ ํธ์ฐจ ํ๋ํฐ | 350 |
| Base orientation | rollยทpitch ํ๋ํฐ๋ก base ์์ธ ๋ณต๊ท ์ ๋ | 120 |
(2) Time-invariant ํ๋ ๋ณด์ โ ์ํผ์๋ ์ ๊ตฌ๊ฐ ํ์ฑ(๋ถ๋๋ฌ์ด ๋์ ์ ๋):
| ํญ๋ชฉ | scale |
|---|---|
| Body collision | -0.2 |
| Momentum change | -5\times10^{-2} |
| Body yank(ํ ๋ณํ์จ) | -5\times10^{-2} |
| Action rate | -3\times10^{-3} |
| Joint velocity | -5\times10^{-4} |
| Torques | -4\times10^{-7} |
| Acceleration | -1\times10^{-8} |
์ง๊ด: โ์ธ์ ์ผ์ด์ค์ง(์์ )โ๋ ์๊ฐ์ ๋ฌถ๊ณ , โ์ด๋ป๊ฒ ๋ถ๋๋ฝ๊ฒ ์์ง์ผ์ง(ํ๋)โ๋ ํญ์ ์ ์ฉ ํจ์ผ๋ก์จ, ๋ถ๋๋ฌ์๊ณผ ๋ณต๊ท ์๊ฐ์ ๊ท ํ์ ๊ฐ์ค์น ํ๋ ์์ด ์๊ฐ ๊ตฌ์กฐ๋ก ๋ถ๋ฆฌํฉ๋๋ค. ์ด๊ธฐํ ๊ตฌ๊ฐ(์ก์ถ์์ดํฐ ๋นํ์ฑ)์์๋ ๋ ๋ณด์ ๋ชจ๋ 0์ด๋ผ ๊ด์ action์ ์ํฅ์ ์ฃผ์ง ์์ต๋๋ค.
Sim-to-Real
NVIDIA Isaac Gym(200Hz ์๋ฎฌ, 100Hz ์ ์ฑ )์ผ๋ก ํ์ตํ๋ฉฐ ์ ์ด๋ฅผ ์ํด:
- ์ก์ถ์์ดํฐ ๋ชจ๋ธ: ๋ค๋ฆฌ ๋๋ผ์ด๋ธ์ ์ ์ฉ(SEA), ํ์ pseudo-direct drive๋ก ํฌ๋ช ์ฑ์ด ์ข์ ๋ชจ๋ธ ๋์ ๋ง์ฐฐ ๋ฌด์์ํ + ํ ํฌ ์ง์ฐ๋ง ์ถ๊ฐ.
- ์งํ ๋ฌด์์ํ: ํ์ง ๋์ ์ธํ๋ถํํ ์งํ์ผ๋ก ์ง๋ฉด ๋ฒ์ ๋ฐฉํฅ์ ๋ฌด์์ํ, ๋ ํฐ clearance ์ ๋.
- ๊ด์ธก ๋ ธ์ด์ฆ: actor ๊ด์ธก์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ.
- ๋ก๋ด ๋ฌด์์ํ: base ์ถ๊ฐ ์ง๋ \sim \mathcal{U}(-5,5) kg, ์ง๋ฉด ๋ง์ฐฐ ๊ณ์ ๋ฌด์์ํ.
์คํ
๋์ ์์ ๊ฐ์
๋ฌด์์ ์ด๊ธฐ ๋์ ์์ธยทbase ์ง๋์ ๋ํด 2560ํ ๋กค์์์ผ๋ก, ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋น์ ์ปจํธ๋กค๋ฌ(๋๋ผ์ด๋ธ freezing, damping)์ ๋น๊ตํฉ๋๋ค. ์งํ๋ peak base instantaneous impulse, mean/peak base acceleration, peak joint internal force.
- Base contact impulse(Fig. 5a): ์ ์ ์ ์ฑ ์ 0.05Ns ์ด๊ณผ impulse ์ํ ์๊ฐ ์ ์ต๋๋ค. damping์ (์งํยท์ธก๋ฉด ๋์์ ๋์ํ๋) ๋ ๋ด์ฐ๋ฆฌ๋ฅผ, freezing์ ๋์ impulse ํ๋ฅ ์ ๋ณด์ฌ ํํํ ๊ผฌ๋ฆฌ๋ฅผ ๊ฐ์ง๋๋ค.
- Base acceleration(Fig. 5b): 95th percentile base acceleration์ด ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ์ ์ํ๊ฒ ๋ฎ์ โ ์ต์ ์๋๋ฆฌ์ค์์์ ์ฐ์.
- Peak joint internal force(Fig. 6): damping ๋๋น ์ํญ, freezing ๋๋น ์ ์ํ๊ฒ ๊ฐ์. ์ฆ ๋ ๋์ peak internal force๋ฅผ ์ ๋ฐํ์ง ์์ผ๋ฉด์ impulseยทacceleration์ ์ค์์ต๋๋ค.
๋์ ๋ณต๊ท
์ ์ฑ ์ ํ์ ์ ์์ ์ผ๋ก ์๋๋ค(Fig. 4 ์์: ๋จผ์ ๋ค๋ฆฌ๋ก ๋น ๋ฅด๊ฒ ์ผ์ด์๋ ค๋ค ์คํจโ๊ท ํ ์์คโํ๊ณผ ๋ฌด๋ฆ์ผ๋ก ๋์ ์์ ํโํ๋ก ์ง๋ฉด์ ๋ฐ์ด ๋ณต๊ทโํ ํ์). ์ฑ๊ณต ๊ธฐ์ค์ ์ํผ์๋ ๋์์ base height >0.5m, ์ต๋ ๊ด์ ์๋ <0.01 rad/s.
- Arm-assisted ๋ณต๊ท ์ฑ๊ณต๋ฅ 98.9% vs arm-tugged(ํ ๊ณ ์ ) 95.2% (2560 ์ํผ์๋, ๋์ผ ๋ณด์ยทMDP, ํ ์ฌ์ฉ ์ฌ๋ถ๋ง ์ฐจ์ด).
- ํ์ ์ฐ๋ฉด ๋ค๋ฆฌ ๋๋ผ์ด๋ธ ํ๊ท ํ ํฌ ์๋น 9.17% ๊ฐ์(ํ ๋์ ์์ด๋ ๋ค๋ฆฌ๋ฅผ ๋ ๋ฐ์ด์ผ ํจ).
Ablation: ๊ด์ธก ๊ตฌ์ฑ (Table II)
3๊ฐ ์๋, 20000 iteration ํ ํ๊ท (episode return / value error):
| Actor obs | Critic obs | Episode return | Value error |
|---|---|---|---|
| o_s | o_s | -3.88 | 0.0902 |
| o_s (ours) | o_s, o_{priv}, o_{MDP} | 12.9 | 0.00379 |
| o_s, o_{eplen} | o_s, o_{priv}, o_{MDP} | 12.9 | 0.00411 |
| o_s, o_{priv}, o_{MDP} | o_s, o_{priv}, o_{MDP} | 13.3 | 0.00336 |
- ํน๊ถ critic ํ์: ๋นํน๊ถ critic(๊ตฌ์ฑ 1)์ ์์ ์ ํ์ต ๋ชป ํจ. ์๊ฐ ๋ถ๋ณ critic์ด time-varying ๋ณด์์ ์ง์ง value๋ฅผ ๋ชป ๋ด ์ ์ฑ ์ ๋ฐ์ดํธ ๋ถ์ฐ์ด ํผ.
- time-invariant vs time-variant actor: episode return์ ๋น์ทํ๋, time-variant actor๋ โ์ ๋ฐ์ฏค ์ผ์ด๋ Hip ๊ด์ ํ๊ณ์ ๊ธฐ๋ ์ฌ๋ค๊ฐ ์์ ๋ณด์ ์ง์ ์ ๊ธํ ์ฌ๋ฐฐ์นโํ๋ ์๊ฐ์ ๋ถ๊ท ์ผํ ๋์์ ํ์ต โ ๋ฐฐํฌ์ ๋ถ์ ํฉ. time-invariant๋ ์ผ๊ด๋๊ฒ ํญ์ ๋ณต๊ท๋ฅผ ์๋ํด ๋ ๊ฒฌ๊ณ .
- asymmetric vs ํน๊ถ ์ ์ฑ : ๋นํน๊ถ time-invariant actor + ํน๊ถ critic(๊ตฌ์ฑ 2)์ ํน๊ถ ์ ์ฑ (๊ตฌ์ฑ 4) ๋๋น ํ๊ท return 3.0% ๊ฐ์์ ๊ทธ์น๋ฉด์, ์ถ๊ฐ distillation ์์ด ๋ฐ๋ก ํ๋์จ์ด ๋ฐฐํฌ ๊ฐ๋ฅ.
์ฌํ์ฑยทํ์ฅ
3๋ฐฐ ํค์ด ์์ ๋ณด์์ผ๋ก๋ ๋ณต๊ท height ๋ถํฌ๊ฐ ์ ์ฌ โ ๋ณด์ ์ค์ผ์ผ์ ๊ฐ๊ฑด. ๋ํ ์ด๊ธฐํ ๊ตฌ๊ฐยท์์ ์๊ฐยท๊ด์ ๋ชฉํยท๋ณด์ ์ค์ผ์ผ ๊ฐ์ ์์ ์ค์ ๋ง ๋ฐ๊ฟ resting(์์ ์์ธโํด์ง ์์ธ), self-righting(๋์ด์ง ์ํโ๊ธฐ๋ณธ ์์ธ)๋ก ์์ฝ๊ฒ ํ์ฅํ๊ณ ํ๋์จ์ด๋ก ๊ฒ์ฆํ์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์๊ฐ ๊ตฌ์กฐ๋ก ๋ณด์ ํ๋์ ์ฐํ. โ์์ ์ time-variant, ํ๋์ time-invariantโ๋ผ๋ ๋ถ๋ฆฌ๊ฐ, ๋ถ๋๋ฌ์ vs ๋ณต๊ท ์๊ฐ์ด๋ผ๋ ๊ณ ์ง์ ๊ฐ์ค์น ํ๋์ ๊น๋ํ๊ฒ ํ๋๋ค. time-invariant ์ ์ฑ ์ด ๋ฐฐํฌ์ ๋ ์ ํฉํ๋ค๋ ์ ๋ ablation์ผ๋ก ๋ณด์์ต๋๋ค.
- ๋ฌด๊ฑฐ์ด ๋ก๋ด์ ๋ง๋ ํ์ค์ ๊ฐ์ ์ํ. ๋นํ์ฑ/ํ๋ฉด ๋์ ๊ฐ์ ์ ์ฝ์ ๋ฒ๋ฆฌ๊ณ , ํ์ ๋ฅ๋์ ์ผ๋ก ์จ์ 58kg๊ธ ๋ก๋ด์ ๋์ยท๋ณต๊ท๋ฅผ ๋ค๋ฃฌ ์ ์ด ์ค์ฉ์ ์ ๋๋ค.
- ์ ๋ + ํ๋์จ์ด ๊ฒ์ฆ. 2560ํ ๋กค์์์ ์ ๋ ๋น๊ต(impulseยทaccelerationยทinternal force)์ ์ค์ ALMA ๊ฒ์ฆ์ ํจ๊ป ์ ์ํด ์ค๋๋ ฅ์ด ๋์ต๋๋ค.
- ๋จ์ผ ์ ์ฑ ์ ํตํฉ์ฑยทํ์ฅ์ฑ. ๋์ ๊ฐ์์ ๋ณต๊ท๋ฅผ ํ ์ ์ฑ ์ ๋ด๊ณ , ๋์ผ ํ์ดํ๋ผ์ธ์ผ๋ก restingยทself-righting๊น์ง ํ์ฅํ์ต๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ ์๊ฐ ์ธ์ ํ ํต์ฌ ํ๊ณ: ํ์ต ํ๊ฒฝ์ด base๊ฐ ์ง๋ฉด์ ๋ฟ๋ ์ํฉ์ ํํผ ํ๋๋ก ๊ตฌ์ฑ๋ผ, ๋์์ผ๋ก ๋๋ผ์ด๋ธ๊ฐ ๊ณ ์ฅ๋(dysfunctional) ๊ฒฝ์ฐ์๋ ์ ์ํ์ง ๋ชปํฉ๋๋ค. ์ค์ ์ฌํ ๋์์ ์์ ํ ๊ฑฐ๋์ ๋ค๋ฃฐ ์ ์์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์ ์์ฃผ์ ์ ๋ ํ๊ฐ. ์์ ์งํ ๋น๊ต๋ ๋๋ถ๋ถ ์๋ฎฌ๋ ์ด์ ์ด๋ฉฐ, ํ๋์จ์ด ๊ฒ์ฆ์ ์ ์ฑ์ ์์ฐ ์ค์ฌ์ ๋๋ค. ์ค์ธ๊ณ ์์ ๊ฐ์์ ์ ๋ ์์น๋ ์ ํ์ ์ ๋๋ค.
- peak joint internal force๋ ์ํญ ๊ฐ์ . damping ๋๋น internal force ๊ฐ์๋ marginal์ด๋ผ, ๋ชจ๋ ์์ ๊ธฐ์ค์์ ์๋์ ์ด์ง ์์ต๋๋ค.
- ๋น์ ์ปจํธ๋กค๋ฌ ์ ํ ์์กด. ์์ ์ปจํธ๋กค๋ฌ๊ฐ ๋์์ ์ ํํ ๊ฐ์งยท๋ณด๊ณ ํด์ผ ๋์ํ๋๋ฐ, ๋์ ๊ฐ์ง ์์ฒด์ ์ ๋ขฐ์ฑ์ ์ด ๋ ผ๋ฌธ์ ๋ฒ์ ๋ฐ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ๋ฌด๊ฑฐ์ด legged mobile manipulator(ALMA)์ ๋์ ์์ ๊ฐ์ + ๋ณต๊ท ๋ฅผ, ํ์ ๋ฅ๋์ ์ผ๋ก ํ์ฉ ํ๋ ๋จ์ผ ํ์ต ์ ์ฑ ์ผ๋ก ๋ค๋ฃน๋๋ค. ํต์ฌ์ asymmetric actor-critic ์ผ๋ก time-invariant ์ ์ฑ ์ time-varying ๋ณด์ ์ผ๋ก ํ์ตํด, ๋์ ๋ถ๋๋ฌ์๊ณผ ๋ณต๊ท ์๊ฐ์ ๊ฐ์ค์น ํ๋์ ์๊ฐ ๊ตฌ์กฐ๋ก ๋ถ๋ฆฌํ ๊ฒ์ ๋๋ค.
์์น๋ก ์ ๋ฆฌํ๋ฉด, ๋ฌด์์ ๋์ ์์ธ์ 98.9% ์์ ๋ณต๊ท์ ์ฑ๊ณต(ํ ๊ณ ์ 95.2% ๋๋น)ํ๊ณ , ํ ํ์ฉ์ผ๋ก ๋ค๋ฆฌ ํ ํฌ๋ฅผ 9.17% ์ ์ฝํ์ผ๋ฉฐ, ๋ฒ ์ด์ค๋ผ์ธ(freezing/damping) ๋๋น base impulseยท95th-percentile accelerationยทpeak joint internal force๋ฅผ ์ค์์ต๋๋ค. ํ์ต ์ ์ฑ ์ ์ค์ ALMA์์ ๋์ยท๋ณต๊ท ๋ชจ๋ ๊ฒ์ฆ๋์์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โ๋น์ผ ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ๋จ legged ๋ก๋ด์, ๋์ด์ ธ๋ ์์์ ์ค์ด๊ณ ์ค์ค๋ก ํ๋ณตํ๊ฒ ๋ง๋ค์ด ํ์ฅ ๋ฐฐํฌ์ ํ ๊ฑธ์ ๋ค๊ฐ๊ฐ๋คโ ๋ ๋ฐ ์์ต๋๋ค. ๊ณ ์ฅ๋ ๋๋ผ์ด๋ธ ๋์ยท์ค์ธ๊ณ ์ ๋ ํ๊ฐ๋ผ๋ ํ๊ณ๋ ๋จ์ง๋ง, ์๊ฐ ๊ฐ๋ณ ๋ณด์ + ๋นํน๊ถ ์๊ฐ ๋ถ๋ณ ์ ์ฑ ์ด๋ผ๋ ์ค๊ณ๋ contact-rich ๋น์ ํ๋ ํ์ต์ ์ข์ ๋ ์ํผ๋ฅผ ์ ์ํฉ๋๋ค.