flowchart TB
subgraph Actor["๐ค Actor Process"]
ENV[Environment]
ROBOT[Robot Controller]
HUMAN[Human Intervention<br>SpaceMouse]
POLICY[RL Policy ฯ]
ENV --> |observation| POLICY
POLICY --> |action a_rl| ROBOT
HUMAN --> |action a_itv| ROBOT
ROBOT --> |execute| ENV
end
subgraph Learner["๐ง Learner Process"]
RLPD[RLPD Update]
DQN[DQN Update<br>Gripper Control]
CRITIC[Critic Q]
ACTOR_NET[Actor ฯ]
GRASP_CRITIC[Grasp Critic]
end
subgraph Buffer["๐พ Replay Buffers"]
DEMO[Demo Buffer<br>20-30 demos]
RL_BUF[RL Buffer<br>On-policy data]
end
Actor --> |transitions| RL_BUF
Actor --> |interventions| DEMO
Actor --> |interventions| RL_BUF
DEMO --> |50% sampling| Learner
RL_BUF --> |50% sampling| Learner
Learner --> |updated params| Actor
style Actor fill:#e1f5fe
style Learner fill:#fff3e0
style Buffer fill:#e8f5e9
๐HIL-SERL ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค HIL-SERL (Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning)์ ์ธ๊ฐ์ ๊ฐ์ (human corrections)๊ณผ ํจ์จ์ ์ธ RL (Reinforcement Learning) ์๊ณ ๋ฆฌ์ฆ์ ํตํฉํ์ฌ ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๋ ์์คํ ์ ๋๋ค.
- ๐ ์ด ์์คํ ์ Jenga block ํํ, ํ์ด๋ฐ ๋ฒจํธ ์กฐ๋ฆฝ, ๋ง๋๋ณด๋ ์กฐ๋ฆฝ, ์ํ ํ์ ๋ฑ ๋ค์ํ ๋ณต์กํ ์กฐ์ ์์ ์์ 1~2.5์๊ฐ์ ํ๋ จ๋ง์ผ๋ก ๊ฑฐ์ ์๋ฒฝํ ์ฑ๊ณต๋ฅ ๊ณผ ๋น ๋ฅธ cycle time์ ๋ฌ์ฑํ์ต๋๋ค.
- โจ HIL-SERL์ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ๊ธฐ๋ฐ์ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค 2๋ฐฐ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ 1.8๋ฐฐ ๋น ๋ฅธ ์คํ ์๋๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, RL์ด ์ค์ ํ๊ฒฝ์์ ๋ณต์กํ๊ณ ์ ๊ตํ ๋น์ ๊ธฐ๋ฐ ์กฐ์ ์ ์ฑ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ์ค์๊ฐ(real-world) ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ต๋์ ์์ด Reinforcement Learning (RL)์ ์ ์ฌ๋ ฅ์ ์คํํ๋ ๋ฐ ๋ฐ๋ฅด๋ ๋์ ๊ณผ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํ Human-in-the-Loop vision-based RL ์์คํ ์ธ HIL-SERL์ ์ ์ํฉ๋๋ค. ์ด ์์คํ ์ ๋์ (dynamic) ์กฐ์, ์ ๋ฐ ์กฐ๋ฆฝ(precision assembly), ์ํ ํ์(dual-arm coordination)์ ํฌํจํ ๋ค์ํ ์๋ จ๋(dexterous) ์กฐ์ ์์ ์ ์ธ์์ ์ธ ์ฑ๋ฅ์ผ๋ก ์ํํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
HIL-SERL์ RL์ ์ค์ ์ ์ฉ์ ์ด๋ ต๊ฒ ํ๋ ์ํ ๋ณต์ก์ฑ(sample complexity), ์ต์ ํ ์์ ์ฑ(optimization stability), ์ ํํ ๋ณด์ ํจ์(reward function)์ ๋ถ์ฌ ๋ฑ์ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ๋ฌ ๊ตฌ์ฑ ์์๋ฅผ ํตํฉํฉ๋๋ค.
- ์ํ ํจ์จ์ ์ธ RL ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๋ฐ์ดํฐ ํตํฉ (Sample-Efficient RL Algorithm and Data Integration):
- ์์คํ ์ ํต์ฌ RL ์๊ณ ๋ฆฌ์ฆ์ RLPD (Ball et al., 2023)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. RLPD๋ ์ํ ํจ์จ์ฑ์ ๋์ด๊ณ ์ฌ์ ๋ฐ์ดํฐ(prior data)๋ฅผ ํตํฉํ ์ ์๋ค๋ ์ฅ์ ๋๋ฌธ์ ์ ํ๋์์ต๋๋ค.
- ํ์ต ๊ณผ์ ์์ Actor process๋ ํ์ฌ์ policy๋ฅผ ๋ก๋ด์ ์ ์ฉํ์ฌ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๊ณ , ์์ง๋ ๋ฐ์ดํฐ๋ฅผ Replay buffer๋ก ๋ณด๋ ๋๋ค. Learner process๋ Replay buffer์์ ๋ฐ์ดํฐ๋ฅผ ์ํ๋งํ์ฌ policy๋ฅผ ์ต์ ํํฉ๋๋ค.
- ๋ ๊ฐ์ง ์ข
๋ฅ์ Replay buffer๊ฐ ์ฌ์ฉ๋ฉ๋๋ค:
demo buffer๋ ์ธ๊ฐ ์์ฐ(demonstrations) ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ ,RL buffer๋ on-policy ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํฉ๋๋ค. Learner process๋demo buffer์RL buffer์์ ๋ฐ์ดํฐ๋ฅผ ๊ท ๋ฑํ๊ฒ ์ํ๋งํ์ฌ policy๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
- Human-in-the-Loop (HIL) ์ํธ์์ฉ (Human-in-the-Loop Interaction):
- ์ธ๊ฐ ์์ฐ(human demonstrations)๊ณผ ์ธ๊ฐ ๊ต์ (human corrections)์ ํตํฉํ์ฌ ํ์ต ๊ณผ์ ์ ๊ฐ์ํํฉ๋๋ค.
- Actor process ๋ด์์ ์ธ๊ฐ ์์ ์๋ SpaceMouse์ ๊ฐ์ ์ ๋ ฅ ์ฅ์น๋ฅผ ์ฌ์ฉํ์ฌ ๋ก๋ด์ ๊ฐ์ (intervene)ํ๊ณ ์ ์ดํ ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ํ๋ณต ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ์์น ์๋ ์ํ์ ๋๋ฌํ์ ๋, ๋๋ local optimum์ ๊ฐํ์ ๋ ํนํ ์ค์ํฉ๋๋ค.
- ์ธ๊ฐ์ด ๊ฐ์
ํ ๋, ์ ์ฑ
์ ํ๋(\mathbf{a}_{RL}) ๋์ ์ธ๊ฐ์ ํ๋(\mathbf{a}_{intv})์ด ๋ก๋ด์ ์ ์ฉ๋ฉ๋๋ค. ์ด ๊ฐ์
๋ฐ์ดํฐ๋
demo buffer์RL buffer๋ชจ๋์ ์ ์ฅ๋๋ฉฐ, policy์ ์ ํ(transitions)์RL buffer์๋ง ์ถ๊ฐ๋ฉ๋๋ค. - ์ด๊ธฐ์๋ ์ธ๊ฐ ๊ฐ์ ๋น๋๊ฐ ๋์ง๋ง, policy๊ฐ ๊ฐ์ ๋จ์ ๋ฐ๋ผ ์ ์ฐจ ๊ฐ์ํ์ฌ policy๊ฐ ์์จ์ ์ผ๋ก ์ํ๋ ์ ์๋๋ก ์ ๋ํฉ๋๋ค.
- ์์คํ
์์ค ์ค๊ณ ์ ํ (System-Level Design Choices):
- ์ฌ์ ํ๋ จ๋ Vision Backbones (Pretrained Vision Backbones): ํ์ต ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด ResNet-10 ๋ชจ๋ธ(ImageNet์ผ๋ก ์ฌ์ ํ๋ จ๋จ)๊ณผ ๊ฐ์ ์ฌ์ ํ๋ จ๋ vision backbone์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ ๊ฐ๊ฑด์ฑ(robustness), ์ผ๋ฐํ(generalization)๋ฟ๋ง ์๋๋ผ ์ต์ ํ ์์ ์ฑ(optimization stability) ๋ฐ ํ์ ํจ์จ์ฑ(exploration efficiency)์ ์ด์ ์ ์ ๊ณตํฉ๋๋ค. ์ฌ๋ฌ ์นด๋ฉ๋ผ์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ(embeddings)์ proprioceptive information๊ณผ ํจ๊ป ์ฐ๊ฒฐ๋์ด ํ์ต์ ์ฌ์ฉ๋ฉ๋๋ค.
- ๋ณด์ ํจ์ (Reward Function): ํฌ์ ๋ณด์ ํจ์(sparse reward function)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ฐ ์์ ์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ์ด์ง ๋ถ๋ฅ๊ธฐ(binary classifier)๋ฅผ ์คํ๋ผ์ธ(offline)์ผ๋ก ํ๋ จํ์ฌ ๋ณด์์ ๋ถ์ฌํฉ๋๋ค. ์ด๋ ์๋์ผ๋ก ๋ณด์์ ์ค๊ณํ๋ ์ด๋ ค์์ ํํผํฉ๋๋ค.
- ํ์ ๋ก๋ด ์์คํ
(Downstream Robotic System):
- ๊ณต๊ฐ ์ผ๋ฐํ(spatial generalization)๋ฅผ ์ด์งํ๊ธฐ ์ํด ๋ก๋ด์ proprioceptive state๋ฅผ ์๋ ์ขํ๊ณ(relative coordinate system)๋ก ํํํ์ฌ ego-centric formulation์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ํผ์๋ ์์ ์ end-effector์ ํฌ์ฆ๋ฅผ ๋ฌด์์ํํ์ฌ policy๊ฐ ๋ฌผ์ฒด์ ์์ง์์ ์ ์ํ ์ ์๋๋ก ํฉ๋๋ค.
- ์ ์ด์ด ๋ง์(contact-rich) ์์ ์ ์์ ์ ์ํด impedance controller๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๋์ (dynamic) ์์ ์๋ end-effector frame์์ ์ง์ feedforward wrenches๋ฅผ ๋ช ๋ นํ์ฌ ๋ก๋ด ํ์ ๊ฐ์์ํต๋๋ค.
- ๊ทธ๋ฆฌํผ ์ ์ด (Gripper Control): ๊ทธ๋ฆฌํผ ์ ์ด๋ฅผ ์ํด ๋ณ๋์ critic network๋ฅผ ์ฌ์ฉํ์ฌ ์ด์ฐ(discrete) grasping action์ ํ๊ฐํฉ๋๋ค. ์ด๋ ๊ทธ๋ฆฌํผ์ โopenโ, โcloseโ, โstayโ์ ๊ฐ์ ์ด์ฐ์ ์ธ ํ๋์ ์ฐ์ ๋ถํฌ๋ก ๊ทผ์ฌํํ๋ ์ด๋ ค์์ ํด์ํฉ๋๋ค. ๋ ๊ฐ์ ๋ณ๋ MDP๋ฅผ ํด๊ฒฐํฉ๋๋ค: ์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ \mathcal{M}_1 = \{\mathcal{S}, \mathcal{A}_1, \rho_1, \mathcal{P}_1, r, \gamma\}๊ณผ ์ด์ฐ์ ์ธ ํ๋ ๊ณต๊ฐ \mathcal{M}_2 = \{\mathcal{S}, \mathcal{A}_2, \rho_2, \mathcal{P}_2, r, \gamma\}์ ๋๋ค. \mathcal{M}_2์ critic์ DQN (Mnih et al., 2013)์ ์ ๋ฐ์ดํธ ๊ท์น์ ๋ฐ๋ฆ ๋๋ค: \mathcal{L}(\theta) = \mathbb{E}_{\mathbf{s},\mathbf{a},\mathbf{s}'}\left[\left(r + \gamma Q_{\theta}'\left(\mathbf{s}', \arg\max_{\mathbf{a}'} Q_{\theta}\left(\mathbf{s}', \mathbf{a}'\right)\right) - Q_{\theta}(\mathbf{s}, \mathbf{a})\right)^2\right] ํ๋ จ ๋๋ ์ถ๋ก ์, ๋จผ์ \mathcal{M}_1์ policy์์ ์ฐ์์ ์ธ ํ๋์ ์ฟผ๋ฆฌํ ๋ค์, \mathcal{M}_2์ critic์์ argmax๋ฅผ ํตํด ์ด์ฐ์ ์ธ ํ๋์ ์ฟผ๋ฆฌํ์ฌ ๋ก๋ด์ ๊ฒฐํฉ๋ ํ๋์ ์ ์ฉํฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
์ด ์ฐ๊ตฌ๋ Motherboard Assembly, IKEA Assembly, Car Dashboard Assembly, Object Handover, Timing Belt Assembly, Jenga Whipping, Object Flipping์ ํฌํจํ 7๊ฐ์ง ๋ค์ํ ์์ ์ ๋ํด HIL-SERL์ ํ๊ฐํ์ต๋๋ค.
- ์ฑ๋ฅ ์ฐ์์ฑ: HIL-SERL์ ํ๊ท 100%์ ์ฑ๊ณต๋ฅ ๊ณผ ํ๊ท 5.4์ด์ cycle time์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ด๋ Imitation Learning (IL) ๊ธฐ๋ฐ์ HG-DAgger baseline(ํ๊ท 49.7% ์ฑ๊ณต๋ฅ , ํ๊ท 9.6์ด cycle time)์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค. ํนํ ๋ณต์กํ ์์ (Jenga Whipping, RAM stick insertion, Timing Belt Assembly)์์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋๋๋ฌ์ง๋๋ค.
- ํ๋ จ ์๊ฐ: ๋๋ถ๋ถ์ ์์ ์์ 1~2.5์๊ฐ ์ด๋ด์ ์ค์๊ฐ ํ๋ จ์ผ๋ก near-perfect ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์ธ๊ฐ ๊ฐ์ ๊ฐ์: ํ๋ จ์ด ์งํ๋จ์ ๋ฐ๋ผ ์ธ๊ฐ ๊ฐ์ ๋น๋์ ๊ฐ์ ์๊ฐ์ด ์ ์ง์ ์ผ๋ก ๊ฐ์ํ์ฌ policy๊ฐ ์์จ์ ์ผ๋ก ๊ฐ์ ๋จ์ ๋ณด์ฌ์ค๋๋ค.
- ๊ฐ๊ฑด์ฑ (Robustness): HIL-SERL๋ก ํ์ต๋ policy๋ ์ธ๋ถ ๊ต๋(perturbations), ๊ฐ์ ๋ ๊ทธ๋ฆฌํผ ๊ฐ๋ฐฉ(forcibly opened grippers), ๋ถ๋ํ grasping pose์ ๊ฐ์ ์์์น ๋ชปํ ์ํฉ์ ๋์ ์ผ๋ก ์ ์ํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ค์ค๋ก ์ฌ์๋(retrying)ํ๊ฑฐ๋ ์ฌ๊ทธ๋ฆฌํ(regrasping)ํ๋ ํ๋์ ํ์ตํฉ๋๋ค.
- ๋ค๋ฅธ Baseline๊ณผ์ ๋น๊ต: Diffusion Policy, Residual RL, DAPG, IBRL๊ณผ ๊ฐ์ ์ต์ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ ๋๋ HIL-SERL์ ์ผ๊ด๋๊ฒ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ํนํ, ์ด๊ธฐ ๋ฐ์ดํฐ ์์ด RL๋ก๋ง ํ์ตํ๋ ๊ฒ์ 0%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, ์จ๋ผ์ธ(online) ์ธ๊ฐ ๊ต์ ์์ด ์์ฐ ๋ฐ์ดํฐ๋ง ๋๋ฆฌ๋ ๊ฒ์ ๋ณต์กํ ์์ ์์ ์คํจํ์ต๋๋ค.
๊ฒฐ๊ณผ ๋ถ์ (Result Analysis)
- ํ์ต๋ Policy์ ์ ๋ขฐ์ฑ (Reliability of the Learned Policies):
- HIL-SERL์ ๋์ ์ ๋ขฐ์ฑ์ RL์ inherentํ ์๊ธฐ ๊ต์ (self-correction) ๋ฅ๋ ฅ์์ ๋น๋กฏ๋ฉ๋๋ค. policy sampling์ ํตํด agent๋ ์ฑ๊ณต๊ณผ ์คํจ๋ก๋ถํฐ ์ง์์ ์ผ๋ก ํ์ตํ์ฌ ๊ฐ์ ๋ฉ๋๋ค.
- RAM insertion ์์ ์ ์ํ ๋ฐฉ๋ฌธ ํํธ๋งต(state visitation heatmaps) ๋ถ์ ๊ฒฐ๊ณผ, policy๋ ์ด๊ธฐ ์ํ์์ ๋ชฉํ ์์น๋ก ์ด์ด์ง๋ โ๊น๋๊ธฐ(funnel)โ ๋ชจ์์ ์ ์ง์ ์ผ๋ก ํ์ฑํ๋ฉฐ, ์ด๋ policy์ ์์ ๊ฐ๊ณผ ์ ๋ฐ๋๊ฐ ์ฆ๊ฐํจ์ ๋ํ๋ ๋๋ค.
- Q-function variance ๋ถ์์ ํตํด โcritical statesโ(Q-function variance๊ฐ ํฐ ์ํ)๊ฐ ํ์ธ๋์์ผ๋ฉฐ, ์ด ์ํ๋ค์ policy ์ฑ๊ณต์ ์ค์ํ๋ฉฐ ๋์ Q-value์ ๊ด๋ จ์ด ์์ต๋๋ค. ์ด๋ RL์ด ๋์ ํ๋ก๊ทธ๋๋ฐ(dynamic programming)์ ํตํด ์ค์ํ ์ํ๋ฅผ ๋์ Q-value๋ก ์ฐ๊ฒฐํจ์ผ๋ก์จ ์์ญ์ ๊ฐ๊ฑดํ๊ฒ ๋ง๋ ๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
- ๋ฐ์ํ(Reactive) Policy์ ์์ธกํ(Predictive) Policy (Reactive Policy and Predictive Policy):
- HIL-SERL์ ๋จ์ผ ์๊ณ ๋ฆฌ์ฆ ํ๋ ์์ํฌ ๋ด์์ ๋ ๊ฐ์ง ์ ํ์ policy๋ฅผ ๋ชจ๋ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- ๋ฐ์ํ Policy (Reactive Policy): RAM insertion๊ณผ ๊ฐ์ ์ ๋ฐ ์กฐ์ ์์ ์์๋ ์ด๊ธฐ์๋ ๋์ ๋ถ์ฐ(variance)์ ๋ณด์ด์ง๋ง, ๋ชฉํ์ ๊ฐ๊น์์ง์๋ก ๋น ๋ฅด๊ฒ ๊ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. ์ด๋ continuous visual servoing๊ณผ ๊ฐ์ด ์ค์๊ฐ์ผ๋ก ๊ฐ๊ฐ ํผ๋๋ฐฑ์ ๋ฐ์ํ๋ ํ๋ฃจํ(closed-loop) ๋์์ ์๋ฏธํฉ๋๋ค. ์ถฉ๋ ํ ์ ์ด์ ๋๊ณ ๋ค์ ์ ๊ทผํ๋ ๋ฑ ์ฌ๋ฌ ๋ฒ์ ์๋๋ฅผ ํตํด ์ค๋ฅ๋ฅผ ์์ ํ๋ ๋ฅ๋ ฅ์ด ํน์ง์ ๋๋ค.
- ์์ธกํ Policy (Predictive Policy): Jenga Whipping๊ณผ ๊ฐ์ ๋์ ์กฐ์ ์์ ์์๋ ํ์ค ํธ์ฐจ(standard deviation)๊ฐ ์ง์์ ์ผ๋ก ๋ฎ๊ฒ ์ ์ง๋ฉ๋๋ค. ์ด๋ agent๊ฐ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์์ ์ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ณ , ์์ธก ์ค์ฐจ๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๋์์ ์ ๋ฐํ๊ฒ ๋ค๋ฌ์ด ์ผ๊ด๋ ๊ฐ๋ฃจํ(open-loop) ๋์์ ์ํํจ์ ๋ํ๋ ๋๋ค.
๊ฒฐ๋ก (Conclusion)
๋ณธ ์ฐ๊ตฌ๋ ์ ์ ํ ์ค๊ณ ์ ํ์ ํตํด Model-free RL์ด ํ์ค ์ธ๊ณ์์ ์ค์ฉ์ ์ธ ์๊ฐ ๋ด์ ๋ค์ํ ๋ณต์กํ ์กฐ์ ์์ ์ ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. HIL-SERL์ ์ธ๊ฐ ์์ฐ๊ณผ ๊ต์ ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ณ , RLPD์ ๊ฐ์ ์ํ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ๋ฉฐ, ํน์ ๋ก๋ด ์์คํ ์ค๊ณ(์: relative coordinate system, gripper control์ ์ํ ๋ณ๋ critic)๋ฅผ ํตํด ๋์ ์ฑ๋ฅ๊ณผ ๊ฐ๊ฑด์ฑ์ ๋ฌ์ฑํฉ๋๋ค. ์ด ์์ ์ High-Mix Low-Volume (HMLV) ์ ์กฐ์ ๊ฐ์ ์ฐ์ ์์ฉ ๋ถ์ผ์ ์ ์ฌ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๋ฏธ๋์ ๋ก๋ด foundation model์ ์ํ ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ฑ ์๋จ์ผ๋ก๋ ํ์ฉ๋ ์ ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๋ก๋ด ์กฐ์์ ์ค๋๋ ๊ฟ
์ฌ๋ฌ๋ถ, ์ ์ ์์ํด ๋ณด์ธ์. ๋ก๋ด์ด ๋ง๋๋ณด๋์ RAM ์นด๋๋ฅผ ์ฝ์ ํ๊ณ , IKEA ๊ฐ๊ตฌ๋ฅผ ์กฐ๋ฆฝํ๊ณ , ์ฌ์ง์ด ์ ๊ฐ ๋ธ๋ก์ ์ฑ์ฐ์ผ๋ก ๋นผ๋ด๋ ์ฅ๋ฉด์์. SF ์ํ์์๋ ๋ณผ ๋ฒํ ์ฅ๋ฉด ๊ฐ์ง๋ง, UC Berkeley์ ์ฐ๊ตฌํ์ด ์ด๋ฅผ ํ์ค๋ก ๋ง๋ค์ด๋์ต๋๋ค. ๊ทธ๊ฒ๋ 1~2.5์๊ฐ์ ์ค์ธ๊ณ ํ๋ จ๋ง์ผ๋ก์.
๊ฐํํ์ต(Reinforcement Learning, RL)์ ์ค๋ซ๋์ ๋ก๋ด๊ณตํ์ ์ฑ๋ฐฐ(Holy Grail)๋ก ์ฌ๊ฒจ์ ธ ์์ต๋๋ค. ์ํ์ฐฉ์ค๋ฅผ ํตํด ์ค์ค๋ก ์ต์ ์ ํ๋์ ํ์ตํ๋ค๋ ๊ฐ๋ ์ ๋งค๋ ฅ์ ์ด์ง๋ง, ํ์ค์์๋ ๋ ๋ฒฝ์ ๋ถ๋ชํ์ต๋๋ค:
- ์ํ ๋ณต์ก๋(Sample Complexity): ์๋ฐฑ๋ง ๋ฒ์ ์ํ์ด ํ์ํ๋ค๋ฉด, ์ค์ ๋ก๋ด์ผ๋ก๋ ๋ถ๊ฐ๋ฅ
- ๋ณด์ ํจ์ ์ค๊ณ: โ์ข์โ ํ๋์ ์ ์ํ๋ ๊ฒ์ด ์๊ฐ๋ณด๋ค ์ด๋ ต๋ค
- ์ต์ ํ ๋ถ์์ ์ฑ: ๊ณ ์ฐจ์ ์ด๋ฏธ์ง ์ ๋ ฅ์์ ์ ์ฑ ์ด ์๋ ดํ์ง ์๋ ๋ฌธ์
์ด ๋ ผ๋ฌธ, HIL-SERL (Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning)์ ์ด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ํํฉ๋๋ค. ํ์ธ๋ง ๊ต์๋์ด๋ผ๋ฉด ์ด๋ ๊ฒ ๋ง์ํ์ จ์ ๊ฑฐ์์: โ์์ฐ์ ์ฐ๋ฆฌ๊ฐ ์๊ฐํ๋ ๊ฒ๋ณด๋ค ๋จ์ํ ๋๊ฐ ๋ง๋ค. ๋ค๋ง ์ฌ๋ฐ๋ฅธ ๊ด์ ์ ์ฐพ์์ผ ํ๋ค.โ
๋ฌธ์ ์ ์: ์ฐ๋ฆฌ๊ฐ ํด๊ฒฐํ๋ ค๋ ๊ฒ
๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ฅผ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ผ๋ก ์ ์ํด ๋ด ์๋ค:
\mathcal{M} = \{\mathcal{S}, \mathcal{A}, \rho, P, r, \gamma\}
์ฌ๊ธฐ์:
| ๊ธฐํธ | ์๋ฏธ | ์ค์ ์์ |
|---|---|---|
| \mathcal{S} | ์ํ ๊ณต๊ฐ | ์นด๋ฉ๋ผ ์ด๋ฏธ์ง + ๋ก๋ด ๊ด์ ์ ๋ณด |
| \mathcal{A} | ํ๋ ๊ณต๊ฐ | End-effector twist (6D) + ๊ทธ๋ฆฌํผ ๋ช ๋ น |
| \rho(\mathbf{s}_0) | ์ด๊ธฐ ์ํ ๋ถํฌ | ์์ ์์ ์์น์ ๋๋คํ |
| P | ์ ์ด ํ๋ฅ | ๋ก๋ด๊ณผ ํ๊ฒฝ์ ๋ฌผ๋ฆฌ ๋ฒ์น (๋ฏธ์ง) |
| r | ๋ณด์ ํจ์ | ์์ ์ฑ๊ณต ์ +1, ์คํจ ์ 0 |
| \gamma | ํ ์ธ ๊ณ์ | ๋ฏธ๋ ๋ณด์์ ํ์ฌ ๊ฐ์น (๋ณดํต 0.99) |
์ฐ๋ฆฌ์ ๋ชฉํ๋ ๊ธฐ๋ ๋์ ๋ณด์์ ์ต๋ํํ๋ ์ ์ฑ \pi^*๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค:
\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{H} \gamma^t r(\mathbf{s}_t, \mathbf{a}_t)\right]
์ฌ๊ธฐ์ ๊ธฐ๋๊ฐ์ ์ด๊ธฐ ์ํ ๋ถํฌ, ์ ์ด ํ๋ฅ , ๊ทธ๋ฆฌ๊ณ ์ ์ฑ \pi์ ๋ํด ์ทจํด์ง๋๋ค.
HIL-SERL์ ํ์ ์ ๋จ์ํฉ๋๋ค: ์ธ๊ฐ์ ๊ฐ์ (correction)์ ๊ฐํํ์ต์ ํ์ ํจ์จ์ฑ์ ๋์ด๋ ๋๊ตฌ๋ก ํ์ฉํ๋ ๊ฒ. ์ด๋ ๋จ์ํ ๋ชจ๋ฐฉํ์ต(Imitation Learning)์ด ์๋๋ผ, RL์ด ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด์๋ ์ด์ํ ์ ์๊ฒ ํฉ๋๋ค.
์ฐ๊ตฌ์ ๊ธฐ์ฌ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด:
- ์ค์ธ๊ณ ํ์ต ์๊ฐ ๋จ์ถ: 1~2.5์๊ฐ ๋ด ๊ฑฐ์ 100% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋ชจ๋ฐฉํ์ต ๋๋น ์ฐ์์ฑ: ํ๊ท 101% ์ฑ๊ณต๋ฅ ํฅ์, 1.8๋ฐฐ ๋น ๋ฅธ ์ฌ์ดํด ํ์
- ๋ค์ํ ์์ ๋ฒ์: ๋์ ์กฐ์, ์ ๋ฐ ์กฐ๋ฆฝ, ์ํ ํ์กฐ๊น์ง ๋จ์ผ ํ๋ ์์ํฌ๋ก ํด๊ฒฐ
- ์ต์ด์ ์ค์ธ๊ณ ์ฑ๊ณผ๋ค:
- ์ด๋ฏธ์ง ์ ๋ ฅ ๊ธฐ๋ฐ ์ํ ํ์กฐ RL
- ์ ๊ฐ ํํ(Jenga Whipping)
- ํ์ด๋ฐ ๋ฒจํธ ์กฐ๋ฆฝ
๋ฐฉ๋ฒ๋ก : HIL-SERL์ ์๋ ์๋ฆฌ
์์คํ ์ํคํ ์ฒ ๊ฐ์
HIL-SERL์ ์ธ ๊ฐ์ง ํต์ฌ ํ๋ก์ธ์ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
์ด ์ํคํ ์ฒ์ ํต์ฌ์ ๋น๋๊ธฐ์ ํต์ ์ ๋๋ค. Actor๋ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , Learner๋ ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ๋ง์น ์ฒด์ค ์ ์๊ฐ ๊ฒฝ๊ธฐ๋ฅผ ์น๋ฅด๋ฉด์ ๋์์ ๋ณต๊ธฐ๋ฅผ ํ๋ ๊ฒ๊ณผ ๊ฐ์ฃ .
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: RLPD ๊ธฐ๋ฐ ํ์ต
RLPD (Reinforcement Learning with Prior Data)
HIL-SERL์ ์ฌ์ฅ๋ถ๋ RLPD ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ ํต์ฌ ์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค: ๋งค ํ์ต ์คํ ์์ ์ฌ์ ๋ฐ์ดํฐ์ ์จ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ 50:50์ผ๋ก ์ํ๋งํฉ๋๋ค.
Q-ํจ์์ ์ ์ฑ ์ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
Critic (Q-ํจ์) ์ ๋ฐ์ดํธ: \mathcal{L}_Q(\phi) = \mathbb{E}_{\mathbf{s}, \mathbf{a}, \mathbf{s}'} \left[ \left( Q_\phi(\mathbf{s}, \mathbf{a}) - \left( r(\mathbf{s}, \mathbf{a}) + \gamma \mathbb{E}_{\mathbf{a}' \sim \pi_\theta} [Q_{\bar{\phi}}(\mathbf{s}', \mathbf{a}')] \right) \right)^2 \right]
Actor (์ ์ฑ ) ์ ๋ฐ์ดํธ: \mathcal{L}_\pi(\theta) = -\mathbb{E}_{\mathbf{s}} \left[ \mathbb{E}_{\mathbf{a} \sim \pi_\theta} [Q_\phi(\mathbf{s}, \mathbf{a})] + \alpha \mathcal{H}(\pi_\theta(\cdot|\mathbf{s})) \right]
์ฌ๊ธฐ์ Q_{\bar{\phi}}๋ ํ๊ฒ ๋คํธ์ํฌ์ด๊ณ , \alpha๋ ์ํธ๋กํผ ์ ๊ทํ ๊ฐ์ค์น์ ๋๋ค.
Q-ํจ์๋ โ์ด ์ํ์์ ์ด ํ๋์ ํ๋ฉด ์์ผ๋ก ์ผ๋ง๋ ์ข์๊น?โ๋ฅผ ์์ธกํฉ๋๋ค. ์ ์ฑ ์ โQ-๊ฐ์ด ๋์ ํ๋์ ๋ ์์ฃผ ์ ํํ์โ๋ผ๊ณ ํ์ตํฉ๋๋ค. ์ํธ๋กํผ ํญ์ ์ ์ฑ ์ด ๋๋ฌด ๋นจ๋ฆฌ ํ ๊ฐ์ง ํ๋์ ์ง์ฐฉํ์ง ์๋๋ก ํ์์ ์ฅ๋ คํฉ๋๋ค.
๊ทธ๋ฆฌํผ ์ ์ด: ๋ณ๋์ DQN
์ฐ์ ํ๋(end-effector twist)๊ณผ ์ด์ฐ ํ๋(๊ทธ๋ฆฌํผ ์ด๊ธฐ/๋ซ๊ธฐ/์ ์ง)์ ๋ถ๋ฆฌํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ๊ทธ๋ฆฌํผ๋ DQN์ผ๋ก ํ์ตํฉ๋๋ค:
\mathcal{L}(\theta) = \mathbb{E}_{\mathbf{s}, \mathbf{a}, \mathbf{s}'} \left[ \left( r + \gamma Q_{\theta'}(\mathbf{s}', \arg\max_{\mathbf{a}'} Q_\theta(\mathbf{s}', \mathbf{a}')) - Q_\theta(\mathbf{s}, \mathbf{a}) \right)^2 \right]
์ด์ฐ ํ๋ ๊ณต๊ฐ \mathcal{A}_2๋:
| ๋จ์ผ ๊ทธ๋ฆฌํผ | ์ํ ๊ทธ๋ฆฌํผ |
|---|---|
| {open, close, stay} | {open, close, stay}ยฒ = 9๊ฐ์ง ์กฐํฉ |
์ ๊ฒฝ๋ง ๊ตฌ์กฐ
flowchart LR
subgraph Input["์
๋ ฅ"]
IMG1[Wrist Camera<br>128ร128]
IMG2[Side Camera<br>128ร128]
PROP[Proprioception<br>๊ด์ ์์น/์๋/ํ]
end
subgraph Vision["๋น์ ๋ฐฑ๋ณธ"]
RESNET1[ResNet-10<br>ImageNet Pretrained]
RESNET2[ResNet-10<br>Shared Weights]
end
subgraph Fusion["ํน์ง ์ตํฉ"]
CONCAT[Concatenate]
MLP1[MLP Layers]
end
subgraph Output["์ถ๋ ฅ"]
ACTOR[Actor Head<br>ฮผ, ฯ for 6D twist]
CRITIC[Critic Head<br>Q(s,a)]
GRASP[Grasp Critic<br>Q(s, a_gripper)]
end
IMG1 --> RESNET1
IMG2 --> RESNET2
RESNET1 --> CONCAT
RESNET2 --> CONCAT
PROP --> CONCAT
CONCAT --> MLP1
MLP1 --> ACTOR
MLP1 --> CRITIC
MLP1 --> GRASP
style Input fill:#e3f2fd
style Vision fill:#f3e5f5
style Fusion fill:#e8f5e9
style Output fill:#fff8e1
์ฌ์ ํ๋ จ ๋น์ ๋ฐฑ๋ณธ์ ์ค์์ฑ
์ ImageNet์ผ๋ก ์ฌ์ ํ๋ จ๋ ResNet-10์ ์ฌ์ฉํ ๊น์? ์ด๋ ๋จ์ํ ์ผ๋ฐํ๋ฅผ ์ํ ๊ฒ์ด ์๋๋๋ค:
- ์ต์ ํ ์์ ์ฑ: ๋๋ค ์ด๊ธฐํ๋ ๋คํธ์ํฌ๋ ์ด๊ธฐ์ ๋ถ์์ ํ ํน์ง์ ์์ฑ
- ํ์ ํจ์จ์ฑ: ์๋ฏธ ์๋ ์๊ฐ ํน์ง์ด ๋ ๋์ ์ด๊ธฐ ์ ์ฑ ์ ์ ๋
- ํ๋ จ ์๊ฐ ๋จ์ถ: ์๊ฐ ํํ์ ์ฒ์๋ถํฐ ํ์ตํ ํ์๊ฐ ์์
์ฌ์ ํ๋ จ ๋ฐฑ๋ณธ์ ๋ง์น ์ธ๊ตญ์ด๋ฅผ ๋ฐฐ์ธ ๋ ๋ชจ๊ตญ์ด ์ค๋ ฅ์ด ๋์์ด ๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์์ ํ ์๋ก์ด ์ธ์ด์ง๋ง, ์ธ์ด์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ธฐ์ด๊ฐ ์์ผ๋ฉด ํจ์ฌ ๋นจ๋ฆฌ ๋ฐฐ์ธ ์ ์์ฃ .
Human-in-the-Loop: ์ธ๊ฐ ๊ฐ์ ์ ๋ง๋ฒ
๊ฐ์ ๋ฉ์ปค๋์ฆ
sequenceDiagram
participant H as Human
participant A as Actor
participant E as Environment
participant B as Buffer
Note over A,E: ์์จ ๋กค์์ ์์ (tโ)
loop tโ to tโ
A->>E: action a_rl
E->>A: observation, reward
A->>B: store (s, a_rl, r, s')
end
Note over H,A: ์ธ๊ฐ์ด ๋ฌธ์ ์ํฉ ๊ฐ์ง (tแตข)
H->>A: SpaceMouse takeover
rect rgb(255,230,230)
Note over H,E: ์ธ๊ฐ ๊ฐ์
๊ตฌ๊ฐ
loop tแตข to tแตขโโ
H->>E: action a_itv
E->>A: observation, reward
A->>B: store to Demo + RL buffer
end
end
Note over A,E: ์ ์ฑ
์ ์ด ๋ณต๊ท
A->>E: continue with a_rl
ํต์ฌ ๊ท์น:
- ๊ฐ์ ๋ฐ์ดํฐ์ ์ด์ค ์ ์ฅ: ์ธ๊ฐ ๊ฐ์ ์ Demo ๋ฒํผ์ RL ๋ฒํผ ๋ชจ๋์ ์ ์ฅ
- ์ ์ฑ ์ ์ด ๋ฐ์ดํฐ: ๊ฐ์ ์ ํ์ ์ํ-ํ๋์ RL ๋ฒํผ์๋ง ์ ์ฅ
- ์ ์ง์ ๊ฐ์ ๊ฐ์: ํ๋ จ ์ด๊ธฐ์๋ ์ฆ์ ๊ฐ์ , ์ ์ฑ ๊ฐ์ ์ ๋ฐ๋ผ ๊ฐ์
HG-DAgger์์ ์ฐจ์ด์
| ์ธก๋ฉด | HG-DAgger | HIL-SERL |
|---|---|---|
| ํ์ต ๋ฐฉ์ | ์ง๋ํ์ต (Behavioral Cloning) | ๊ฐํํ์ต (RLPD) |
| ๋ณด์ ํ์ฉ | ์์ | ์์ ๋ณด์์ผ๋ก ์ต์ ํ |
| ๋ฐ์ดํฐ ๊ฐ์ค์น | ๋ชจ๋ ๋ฐ์ดํฐ ๋๋ฑ | Q-๊ฐ์ ๋ฐ๋ฅธ ๋์ ๊ฐ์ค์น |
| ์ฑ๋ฅ ํ๊ณ | ์ธ๊ฐ ์์ฐ ์์ค | ์ธ๊ฐ ์ด์ ๊ฐ๋ฅ |
HG-DAgger๋ ์ธ๊ฐ์ด โ์ด๋ ๊ฒ ํดโ๋ผ๊ณ ๋ณด์ฌ์ฃผ๋ฉด ๊ทธ๋๋ก ๋ฐ๋ผํฉ๋๋ค. HIL-SERL์ ์ธ๊ฐ์ด โ์ฌ๊ธฐ์ ์ค์ํ์ดโ๋ผ๊ณ ์๋ ค์ฃผ๋ฉด, ๊ทธ ์ ๋ณด๋ฅผ ํ์ฉํด ๋ ๋์ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ์ฐพ์๋ ๋๋ค.
๋ณด์ ํจ์ ์ค๊ณ: ์ด์ง ๋ถ๋ฅ๊ธฐ์ ํ
๋ณต์กํ ๋ณด์ ํ์ฑ(reward shaping) ๋์ , HIL-SERL์ ๋จ์ํ ์ด์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
r(\mathbf{s}) = \begin{cases} 1 & \text{if classifier predicts success} \ 0 & \text{otherwise} \end{cases}
๋ถ๋ฅ๊ธฐ ํ๋ จ ๊ณผ์
flowchart LR
subgraph Collection["๋ฐ์ดํฐ ์์ง (~5๋ถ)"]
POS[์์ฑ ์ํ<br>~200๊ฐ]
NEG[์์ฑ ์ํ<br>~1000๊ฐ]
end
subgraph Training["๋ถ๋ฅ๊ธฐ ํ๋ จ"]
DATA[์ด๋ฏธ์ง ๋ฐ์ดํฐ]
CNN[CNN Classifier]
EVAL[ํ๊ฐ<br>>95% ์ ํ๋]
end
subgraph Deployment["๋ฐฐํฌ"]
REWARD[์ค์๊ฐ<br>๋ณด์ ํ์ ]
end
POS --> DATA
NEG --> DATA
DATA --> CNN
CNN --> EVAL
EVAL --> REWARD
style Collection fill:#e3f2fd
style Training fill:#fff3e0
style Deployment fill:#e8f5e9
์ ์ด ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ผ๊น์?
- ์ค๊ณ ์ฉ์ด์ฑ: โ์ฑ๊ณต์ด๋ ๋ฌด์์ธ๊ฐ?โ๋ง ์ ์ํ๋ฉด ๋จ
- ์ผ๋ฐ์ฑ: ๋ชจ๋ ์์ ์ ๋์ผํ ๋ฐฉ์ ์ ์ฉ
- ์ธ๊ฐ ๋ฐ๋ชจ์์ ์๋์ง: ๋ฐ๋ชจ๊ฐ sparse ๋ณด์์ ํ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
ํ์ ๋ก๋ด ์์คํ ์ค๊ณ
์๊ธฐ์ค์ฌ์ (Ego-centric) ์ขํ๊ณ
๊ณต๊ฐ ์ผ๋ฐํ๋ฅผ ์ํด, ๋ชจ๋ ๊ด์ธก๊ณผ ํ๋์ ํ์ฌ end-effector ํ๋ ์์ ๊ธฐ์ค์ผ๋ก ํํ๋ฉ๋๋ค:
\mathbf{x}_{ego} = \mathbf{T}_{ee}^{-1} \cdot \mathbf{x}_{world}
์ด๊ฒ์ด ์ ์ค์ํ ๊น์? ๋ฌผ์ฒด์ ์์น๊ฐ ์กฐ๊ธ ๋ฌ๋ผ์ ธ๋, end-effector ๊ด์ ์์๋ ๋์ผํ ์๋์ ์์น ๊ด๊ณ๋ฅผ ์ ์งํฉ๋๋ค. ๋ง์น ์ฐ๋ฆฌ๊ฐ ์ปต์ ์ง์ ๋, ์ปต์ด ํ ์ด๋ธ ์ด๋์ ์๋ โ์ ์์ ์๋คโ๋ ๊ด์ ์์ ์ ๊ทผํ๋ ๊ฒ๊ณผ ๊ฐ์ฃ .
์ํผ๋์ค ์ ์ด๊ธฐ
์ ์ด์ด ๋ง์ ์์ ์์ ์์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ์ํผ๋์ค ์ ์ด๊ธฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
\mathbf{F} = K_p(\mathbf{x}_{des} - \mathbf{x}) + K_d(\dot{\mathbf{x}}_{des} - \dot{\mathbf{x}})
- K_p: ๊ฐ์ฑ(stiffness) ํ๋ ฌ
- K_d: ๊ฐ์ (damping) ํ๋ ฌ
- ์ฐธ์กฐ ์ ํ(reference limiting)์ผ๋ก ๊ธ๊ฒฉํ ์์ง์ ๋ฐฉ์ง
๋์ ์์ (์ ๊ฐ ํํ, ๋ฌผ์ฒด ๋ค์ง๊ธฐ)์ ๊ฒฝ์ฐ, end-effector ํ๋ ์์์ ์ง์ ํผ๋ํฌ์๋ ๋ ์น(wrench)๋ฅผ ๋ช ๋ นํฉ๋๋ค.
์คํ: ๋ค์ํ ๋์ ๊ณผ์ ๋ค
์คํ ์์ ๊ฐ์
HIL-SERL์ 7๊ฐ์ง ์ฃผ์ ์์ ๋ฒ์ฃผ์์ ํ๊ฐ๋์์ต๋๋ค:
์คํ ์์ ๋ถ๋ฅ
| ์นดํ ๊ณ ๋ฆฌ | ์์ |
|---|---|
| ์ ๋ฐ ์กฐ๋ฆฝ | RAM ์ฝ์ , SSD ์กฐ๋ฆฝ, USB ์ฝ์ , ์ผ์ด๋ธ ํด๋ฆฌํ |
| ๋ํ ์กฐ๋ฆฝ | IKEA ์ ๋ฐ, ์๋์ฐจ ๋์๋ณด๋ |
| ์ํ ํ์กฐ | ๋ฌผ์ฒด ํธ๋์ค๋ฒ, ํ์ด๋ฐ ๋ฒจํธ |
| ๋์ ์กฐ์ | ์ ๊ฐ ํํ, ๋ฌผ์ฒด ๋ค์ง๊ธฐ |
์์ ๋ณ ์์ธ ์ค๋ช
1. ๋ง๋๋ณด๋ ์กฐ๋ฆฝ (Motherboard Assembly)
| ํ์ ์์ | ๋์ด๋ | ํต์ฌ ๋์ |
|---|---|---|
| RAM ์ฝ์ | โญโญโญ | ๋ฏธ์ธํ ์ ๋ ฌ + ์ ์ ํ ํ ์กฐ์ |
| SSD ์กฐ๋ฆฝ | โญโญโญ | ํ ์์ ๋ฐฉ์ง + 2๋จ๊ณ ์ฝ์ |
| USB ์ฝ์ | โญโญโญโญ | ์์ ๋ฐฐ์น๋ ์ผ์ด๋ธ ํ์ง + ๋ถํ์ค์ฑ ์ฒ๋ฆฌ |
| ์ผ์ด๋ธ ํด๋ฆฌํ | โญโญ | ๋ณํ ๊ฐ๋ฅ ์ผ์ด๋ธ + ํ์ดํธํ ์ฝ์ |
RAM ์ฝ์ ์ ๊ฒฝ์ฐ, ๊ณผ๋ํ ํ์ RAM ์นด๋๋ฅผ ๊ทธ๋ฆฌํผ ๋ด์์ ๊ธฐ์ธ์ด์ง๊ฒ ํ๊ณ , ๋ถ์กฑํ ํ์ ์ฝ์ ์คํจ๋ฅผ ์ผ๊ธฐํฉ๋๋ค. ์ ์ฑ ์ ์ด ๋ฏธ๋ฌํ ๊ท ํ์ ํ์ตํด์ผ ํฉ๋๋ค.
2. ํ์ด๋ฐ ๋ฒจํธ ์กฐ๋ฆฝ (Timing Belt Assembly)
์ด ์์ ์ NIST ๋ณด๋ ์กฐ๋ฆฝ ์ฑ๋ฆฐ์ง์ ์ผ๋ถ๋ก, ๊ฐ์ฅ ๋์ ์ ์ธ ์์ ์ค ํ๋์ ๋๋ค:
- ๋ณํ ๊ฐ๋ฅ ๋ฌผ์ฒด: ๋ฒจํธ๊ฐ ์์ธก ๋ถ๊ฐ๋ฅํ๊ฒ ๋ณํ
- ์ํ ํ์กฐ: ์ ๋ฐํ ํ์ด๋ฐ์ผ๋ก ๋ฒจํธ๋ฅผ ํ๋ฆฌ์ ๋ผ์์ผ ํจ
- ํ ์ ๋ ์กฐ์: ๋ฒจํธ๋ฅผ ๋ผ์ฐ๋ ๋์ ํ ์ ๋ ์กฐ์ ํ์
3. ์ ๊ฐ ํํ (Jenga Whipping)
์ด๊ฒ์ ๋ค๋ฅธ ์์ ๋ค๊ณผ ๋ณธ์ง์ ์ผ๋ก ๋ค๋ฆ ๋๋ค:
- ๊ณ ์ ๋์ ์กฐ์: ์ฑ์ฐ์ด ๋งค์ฐ ๋น ๋ฅด๊ฒ ์์ง์
- ๋ณต์กํ ์ ์ด ์ญํ: ๊ณต๊ธฐ ์ ํญ, ๋ธ๋ก ๊ฐ ๋ง์ฐฐ ๋ฑ
- ๊ฐ๋ฐฉ ๋ฃจํ ํ๋: ์ค์๊ฐ ํผ๋๋ฐฑ์ด ๋ถ๊ฐ๋ฅํ ์๋
์ ๊ฐ ํํ์ ํ ๋์ค ์๋ธ์ ๋น์ ํ ์ ์์ต๋๋ค. ์ผ๋จ ์ค์์ด ์์๋๋ฉด ์ค๊ฐ์ ์กฐ์ ํ ์ ์์ต๋๋ค. ์ ์ฑ ์ ์๋ง์ ์ํ์ฐฉ์ค๋ฅผ ํตํด โ์ด ๊ฐ๋์ ํ์ผ๋ก ํ๋๋ฅด๋ฉด ์ ๋ธ๋ก์ด ๋น ์ง๋คโ๋ ์ง๊ด์ ๋ฌผ๋ฆฌ๋ฅผ ์ฒดํํด์ผ ํฉ๋๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ
์ฑ๊ณต๋ฅ ๋ฐ ์ฌ์ดํด ํ์ ๋น๊ต
๋ค์ ํ๋ HIL-SERL๊ณผ HG-DAgger(๋ชจ๋ฐฉํ์ต) ๊ฐ์ ๋น๊ต ๊ฒฐ๊ณผ์ ๋๋ค:
| ์์ | ํ๋ จ์๊ฐ | BC ์ฑ๊ณต๋ฅ | HIL-SERL ์ฑ๊ณต๋ฅ | ํฅ์ | BC ์ฌ์ดํด | HIL-SERL ์ฌ์ดํด | ์๋ ํฅ์ |
|---|---|---|---|---|---|---|---|
| RAM ์ฝ์ | 1.5h | 29% | 100% | +245% | 8.3s | 4.8s | 1.7ร |
| SSD ์กฐ๋ฆฝ | 1h | 79% | 100% | +27% | 6.7s | 3.3s | 2.0ร |
| USB ์ฝ์ | 2.5h | 26% | 100% | +285% | 13.4s | 6.7s | 2.0ร |
| ์ผ์ด๋ธ ํด๋ฆฌํ | 1.25h | 95% | 100% | +5% | 7.2s | 4.2s | 1.7ร |
| IKEA ์ธก๋ฉด1 | 2h | 77% | 100% | +30% | 6.5s | 2.7s | 2.4ร |
| IKEA ์ธก๋ฉด2 | 1.75h | 79% | 100% | +27% | 5.0s | 2.4s | 2.1ร |
| IKEA ์ํ | 1h | 35% | 100% | +186% | 8.9s | 2.4s | 3.7ร |
| ๋์๋ณด๋ ์กฐ๋ฆฝ | 2h | 41% | 100% | +144% | 20.3s | 8.8s | 2.3ร |
| ๋ฌผ์ฒด ํธ๋์ค๋ฒ | 2.5h | 79% | 100% | +27% | 16.1s | 13.6s | 1.2ร |
| ํ์ด๋ฐ ๋ฒจํธ | 6h | 2% | 100% | +4900% | 9.1s | 7.2s | 1.3ร |
| ์ ๊ฐ ํํ | 1.25h | 8% | 100% | +1150% | - | - | - |
| ๋ฌผ์ฒด ๋ค์ง๊ธฐ | 1h | 46% | 100% | +117% | 3.9s | 3.8s | 1.0ร |
| ํ๊ท | - | 49.7% | 100% | +101% | 9.6s | 5.4s | 1.8ร |
- ๋ชจ๋ ์์ ์์ 100% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ํ๊ท 101% ์ฑ๊ณต๋ฅ ํฅ์, 1.8๋ฐฐ ๋น ๋ฅธ ์ฌ์ดํด ํ์
- ๋ณต์กํ ์์ ์ผ์๋ก ๊ฒฉ์ฐจ ํ๋ (ํ์ด๋ฐ ๋ฒจํธ: +4900%)
๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ๊ณผ์ ๋น๊ต
| ๋ฐฉ๋ฒ | RAM ์ฝ์ | ๋์๋ณด๋ | ๋ฌผ์ฒด ๋ค์ง๊ธฐ | ํ๊ท |
|---|---|---|---|---|
| Diffusion Policy | 27% | 18% | 56% | 34% |
| HG-DAgger | 29% | 41% | 46% | 39% |
| BC (200 demos) | 12% | 35% | 46% | 31% |
| IBRL | 75% | 0% | 95% | 57% |
| Residual RL | 0% | 0% | 97% | 32% |
| DAPG | 8% | 18% | 72% | 33% |
| HIL-SERL (no demo, no itv) | 0% | 0% | 0% | 0% |
| HIL-SERL (no itv) | 48% | 0% | 100% | 49% |
| HIL-SERL (full) | 100% | 100% | 100% | 100% |
ํ์ต ๊ณก์ ๋ถ์
RAM ์ฝ์ ์์ - ์ฑ๊ณต๋ฅ ์ถ์ด (HIL-SERL vs HG-DAgger)
| ํ๋ จ ์๊ฐ (๋ถ) | HIL-SERL | HG-DAgger |
|---|---|---|
| 0 | 10% | 15% |
| 20 | 45% | 30% |
| 40 | 75% | 35% |
| 60 | 95% | 28% |
| 80 | 100% | 32% |
HIL-SERL์ ํ์ต ๊ณก์ ์ ๋ช ํํ ํจํด์ ๋ณด์ ๋๋ค:
- ์ฑ๊ณต๋ฅ : ๋น ๋ฅด๊ฒ ์์นํ์ฌ 100%์ ์๋ ด
- ๊ฐ์ ๋ฅ : ์ ์ง์ ์ผ๋ก ๊ฐ์ํ์ฌ 0%์ ๋๋ฌ
- ์ฌ์ดํด ํ์: ํ๋ จ ์งํ์ ๋ฐ๋ผ ์ง์์ ๊ฐ์
๋ฐ๋ฉด HG-DAgger๋:
- ์ฑ๊ณต๋ฅ : ๋ณ๋ํ๋ฉฐ ์ผ์ ์์ค์์ ์ ์ฒด
- ๊ฐ์ ๋ฅ : ์๊ฐ์ ๋ฐ๋ผ ๊ฐ์ํ์ง ์์
- ์ฌ์ดํด ํ์: ๊ฐ์ ๋์ง ์์
๊ฒฌ๊ณ ์ฑ(Robustness) ๊ฒฐ๊ณผ
ํ์ต๋ ์ ์ฑ ์ ๋ค์ํ ์ธ๋ถ ๊ต๋์ ๋ํด ๊ฒฌ๊ณ ํจ์ ๋ณด์ ๋๋ค:
| ์์ | ๊ต๋ ์ ํ | ์ ์ฑ ๋ฐ์ |
|---|---|---|
| RAM ์ฝ์ | ๋ง๋๋ณด๋ ์ด๋ | ์ค์๊ฐ ์ถ์ ํ๋ฉฐ ์ฝ์ ์ฑ๊ณต |
| ํธ๋์ค๋ฒ | ๊ทธ๋ฆฌํผ ๊ฐ์ ์ด๋ฆผ | ์ฌํ์ง ํ ์์ ์ฌ์๋ |
| ํ์ด๋ฐ ๋ฒจํธ | ๋ฒจํธ ์ธ๋ถ ๊ต๋ | ์ ์์ ์ฌ์กฐ์ |
| USB ์ฝ์ | ๋ถ๋ ํ์ง ์์ธ | ์ฌํ์ง ํ ์ฝ์ |
| ๋์๋ณด๋ | ์์ชฝ ๊ทธ๋ฆฌํผ ๊ฐ์ ์ด๋ฆผ | ์์ฐจ์ ์ฌํ์ง ํ ์ฌ์๋ |
์ด๋ฌํ ๊ฒฌ๊ณ ํ ํ๋๋ค์ ๋ช ์์ ์ผ๋ก ํ๋ก๊ทธ๋๋ฐ๋์ง ์์์ต๋๋ค. RL์ ์์จ ํ์ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ์ถํํ์ต๋๋ค.
๊ฒฐ๊ณผ ๋ถ์: ์ HIL-SERL์ด ์๋ํ๋๊ฐ?
ํ์ต๋ ์ ์ฑ ์ ์ ๋ขฐ์ฑ
ํผ๋(Funnel) ํ์ฑ ๋ฉ์ปค๋์ฆ
HIL-SERL์ด 100% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ ์ด์ ๋ฅผ ์ดํดํ๊ธฐ ์ํด, RAM ์ฝ์ ์์ ์ ์ํ ๋ฐฉ๋ฌธ ๋ถํฌ๋ฅผ ๋ถ์ํด ๋ด ์๋ค.
flowchart TB
subgraph Early["์ด๊ธฐ ํ๋ จ"]
E1[๋๊ฒ ๋ถ์ฐ๋<br>์ํ ๋ฐฉ๋ฌธ]
E2[๋ถํ์คํ<br>๊ถค์ ]
end
subgraph Mid["์ค๊ฐ ํ๋ จ"]
M1[ํผ๋ ํํ<br>์ถํ]
M2[์ฑ๊ณต ์์ญ์ผ๋ก<br>์๋ ด ์์]
end
subgraph Late["ํ๊ธฐ ํ๋ จ"]
L1[๋ช
ํํ ํผ๋]
L2[๋์ Q-๊ฐ<br>์ง์ค ์์ญ]
end
Early --> Mid --> Late
style Early fill:#ffcdd2
style Mid fill:#fff9c4
style Late fill:#c8e6c9
ํต์ฌ ๊ด์ฐฐ:
- ํผ๋ ํํ: ์ด๊ธฐ ์ํ์์ ๋ชฉํ๊น์ง ์ฐ๊ฒฐํ๋ โ๊น๋๊ธฐโ ํ์ฑ
- Q-๊ฐ ์ง์ค: ํผ๋ ๋ด ์ํ๋ค์ด ๋์ Q-๊ฐ์ ๊ฐ์ง
- Q-๊ฐ ๋ถ์ฐ: ์ค์ํ ์ํ์์ Q-๊ฐ ๋ถ์ฐ์ด ํผ (ํ๋ ์ ํ์ด ์ค์ํจ์ ์๋ฏธ)
Q-๊ฐ ๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
\text{Var}[Q(\mathbf{s}, \mathbf{a})] = \mathbb{E}_{\epsilon \sim [-c, c]} \left[ (Q(\mathbf{s}, \mathbf{a} + \epsilon) - \mathbb{E}_{\epsilon}[Q(\mathbf{s}, \mathbf{a} + \epsilon)])^2 \right]
ํฐ ๋ถ์ฐ์ ํด๋น ์ํ๊ฐ โ์๊ณ ์ํ(critical state)โ์์ ์๋ฏธํฉ๋๋ค. ์๋ชป๋ ํ๋์ ํ๋ฉด Q-๊ฐ์ด ๊ธ๋ฝํ์ฃ .
RL vs DAgger: ํ์์ ์ฐจ์ด
HG-DAgger์ ์ํ ๋ฐฉ๋ฌธ ๋ถํฌ๋ ํจ์ฌ ํฌ๋ฐํ๊ณ ๊ท ์ผํฉ๋๋ค. ์์ผ๊น์?
- RL: ์์จ์ ์ผ๋ก ํ์ํ๊ณ , ๋์ ํ๋ก๊ทธ๋๋ฐ์ผ๋ก ๋ณด์ ๋ฐฉํฅ ์ต์ ํ
- DAgger: ํ์ฌ ์ ์ฑ ์ฃผ๋ณ์์๋ง ํ์, ์ธ๊ฐ ์์ฐ ๋ชจ๋ฐฉ์ ์ง์ค
๊ฒฐ๊ณผ์ ์ผ๋ก DAgger๊ฐ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ค๋ฉด ํจ์ฌ ๋ ๋ง์ ์์ฐ๊ณผ ์์ ์ด ํ์ํฉ๋๋ค.
๋ฐ์์ ์ ์ฑ vs ์์ธก์ ์ ์ฑ
HIL-SERL์ ์์ ํน์ฑ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ๋ค๋ฅธ ์ ํ์ ์ ์ฑ ์ ํ์ตํฉ๋๋ค:
๋ฐ์์ ์ ์ฑ (Reactive Policy)
RAM ์ฝ์ , ๋์๋ณด๋ ์กฐ๋ฆฝ ๋ฑ ์ ๋ฐ ์กฐ์ ์์ ์์ ๋ํ๋ฉ๋๋ค.
ํน์ง:
- ๋์ ์ด๊ธฐ ๋ถ์ฐ: ์ ๊ทผ ๋จ๊ณ์์ ๋ถํ์ค์ฑ
- ์ ์ง์ ๋ถ์ฐ ๊ฐ์: ๋ชฉํ์ ๊ฐ๊น์์ง์๋ก ์ ๋ฐํด์ง
- ํ์ ๋ฃจํ ํ๋: ์ง์์ ์ธ ๊ฐ๊ฐ ํผ๋๋ฐฑ ํ์ฉ
sequenceDiagram
participant S as Sensor
participant P as Policy
participant A as Actuator
participant E as Environment
loop ๋งค ํ์์คํ
E->>S: ๊ด์ธก
S->>P: ์๊ฐ+์ด๊ฐ ํผ๋๋ฐฑ
P->>P: ์ค๋ฅ ์ถ์
P->>A: ๋ณด์ ํ๋
A->>E: ์คํ
end
Note over P: ๋์ ฯ โ ๋ฎ์ ฯ<br>์ ๊ทผ โ ์ฝ์
์์ธก์ ์ ์ฑ (Predictive Policy)
์ ๊ฐ ํํ, ๋ฌผ์ฒด ๋ค์ง๊ธฐ ๋ฑ ๋์ ์กฐ์ ์์ ์์ ๋ํ๋ฉ๋๋ค.
ํน์ง:
- ์ผ๊ด๋๊ฒ ๋ฎ์ ๋ถ์ฐ: ์ฒ์๋ถํฐ ๋๊น์ง ํ์ ์๋ ํ๋
- ๊ฐ๋ฐฉ ๋ฃจํ ํ๋: ์คํ ์ค ํผ๋๋ฐฑ ๋ถ๊ฐ๋ฅํ ์๋
- ๋ฐ์ฌ(reflex) ๊ฐ์ ํ๋: ํ์ต๋ ์ง๊ด์ ๋ฌผ๋ฆฌ
sequenceDiagram
participant S as Sensor
participant P as Policy
participant A as Actuator
participant E as Environment
S->>P: ์ด๊ธฐ ๊ด์ธก
P->>P: ๊ฒฐ๊ณผ ์์ธก
P->>A: ๊ณํ๋ ๋ชจ์
์ํ์ค
rect rgb(255,245,238)
Note over A,E: ๊ณ ์ ์คํ (ํผ๋๋ฐฑ ์์)
A->>E: ์คํ
E->>E: ๊ฒฐ๊ณผ
end
Note over P: ฯ โ 0 (์ ๊ตฌ๊ฐ)
HIL-SERL์ ์์ ์ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ๋ช ์์ ์ผ๋ก ๋ถ์ํ์ง ์์ต๋๋ค. ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์๋์ผ๋ก ์ ์ ํ ์ ์ด ์ ๋ต์ ํ์ตํฉ๋๋ค. ์ด๊ฒ์ด ๋จ์ผ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ค์ํ ์์ ์ ํด๊ฒฐํ ์ ์๋ ๋น๊ฒฐ์ ๋๋ค.
์ ์ด ๋์ญํ์ ์๋ฌต์ ํ์ต
๋์๋ณด๋ ์กฐ๋ฆฝ ์์ ์์ ๊ด์ฐฐ๋ ํฅ๋ฏธ๋ก์ด ํ๋:
- ์ ์ด ์ํ์์ ๋งํ ๊ฐ์ง
- ๋น ๋ฅด๊ฒ ๋ ํ์ ๋ค์ด ์ ์ด ํด์
- ์ฌ์ ๊ทผํ์ฌ ๋ชฉํ์ ๋๋ฌ
- ์ฝ์ ์ฑ๊ณต
์ด โstuck โ lift โ re-approach โ insertโ ํจํด์ ๋ช ์์ ์ผ๋ก ํ๋ก๊ทธ๋๋ฐ๋์ง ์์์ต๋๋ค. ๊ธฐ์กด์ ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ํ๋์ ํผํฉ ์ ์ ํ๋ก๊ทธ๋๋ฐ(MIP)์ผ๋ก ๊ณต์ํํ์ง๋ง:
- ๊ณํ ์งํ์ด ๊ธธ์ด์ง๋ฉด ๊ณ์ฐ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ด๋ ค์
- ์ ํํ ์ํ ์ถ์ ๊ธฐ ํ์
HIL-SERL์ ์ด๋ฌํ ๋ณต์กํ ์ ์ด ๋์ญํ์ ๋ฌธ์ ์ ์ผ๋ถ๊ฐ ์๋ ํด์ ์ผ๋ถ๋ก ์ทจ๊ธํฉ๋๋ค.
Dexterous Hand๋ก์ ํ์ฅ: ๊ทธ๋ฆฌํผ๋ฅผ ๋์ด์
์ Dexterous Hand์ธ๊ฐ?
HIL-SERL์ ํํ ๊ทธ๋ฆฌํผ(parallel gripper)๋ฅผ end-effector๋ก ์ฌ์ฉํ์ต๋๋ค. ํ์ง๋ง Allegro Hand V4์ ๊ฐ์ ๋ค๊ด์ ๋ก๋ด ํธ๋(dexterous hand)๋ฅผ ์ฌ์ฉํ๋ฉด ์ด๋จ๊น์? ์ด๋ ๋จ์ํ ํ๋์จ์ด ๊ต์ฒด๊ฐ ์๋๋ผ, ์์ ํ ์๋ก์ด ์ฐจ์์ ์กฐ์ ๋ฅ๋ ฅ์ ์ด์ด์ค๋๋ค.
flowchart LR
subgraph Gripper["ํํ ๊ทธ๋ฆฌํผ"]
G1[1 DoF<br>์ด๊ธฐ/๋ซ๊ธฐ]
G2[์ด์ฐ ํ๋<br>3๊ฐ์ง]
G3[์ ํ๋<br>ํ์ง ํํ]
end
subgraph Hand["Dexterous Hand<br>(์: Allegro Hand V4)"]
H1[16 DoF<br>4ร4 ๊ด์ ]
H2[์ฐ์ ํ๋<br>๊ณ ์ฐจ์]
H3[๋ค์ํ<br>ํ์ง/์กฐ์]
end
Gripper --> |"ํ์ฅ"| Hand
style Gripper fill:#ffcdd2
style Hand fill:#c8e6c9
| ํน์ฑ | ํํ ๊ทธ๋ฆฌํผ | Allegro Hand V4 |
|---|---|---|
| ์์ ๋ (DoF) | 1 | 16 (4์๊ฐ๋ฝ ร 4๊ด์ ) |
| ํ๋ ๊ณต๊ฐ | ์ด์ฐ (open/close/stay) | ์ฐ์ (16D ๊ด์ ์์น/ํ ํฌ) |
| ํ์ง ์ ํ | Power grasp only | Precision, power, pinch, etc. |
| In-hand ์กฐ์ | ๋ถ๊ฐ๋ฅ | ๊ฐ๋ฅ |
| ์ด๊ฐ ์ผ์ฑ | ์ ํ์ | ํ๋ถํ ์ด๊ฐ ํผ๋๋ฐฑ ๊ฐ๋ฅ |
HIL-SERL์ Dexterous Hand์ ์ ์ฉํ๊ธฐ
๋์ ๊ณผ์ 1: ํญ๋ฐ์ ์ธ ํ๋ ๊ณต๊ฐ
Allegro Hand์ 16 DoF๋ ๊ทธ๋ฆฌํผ์ 1 DoF์ ๋นํด ๊ธฐํ๊ธ์์ ์ผ๋ก ํฐ ํ๋ ๊ณต๊ฐ์ ์๋ฏธํฉ๋๋ค.
ํด๊ฒฐ ์ ๋ต:
- ๊ณ์ธต์ ํ๋ ๊ณต๊ฐ (Hierarchical Action Space)
flowchart TB
subgraph High["์์ ์ ์ฑ
"]
ARM[Arm Policy<br>6D twist]
GRASP_TYPE[Grasp Type<br>Selector]
end
subgraph Low["ํ์ ์ ์ฑ
"]
FINGER[Finger Policy<br>16D joint]
SYNERGY[Synergy-based<br>Control]
end
ARM --> |"์์น ๋ชฉํ"| FINGER
GRASP_TYPE --> |"ํ์ง ์ ํ"| SYNERGY
SYNERGY --> |"๊ด์ ๋ช
๋ น"| FINGER
style High fill:#e3f2fd
style Low fill:#fff3e0
- ์๋์ง ๊ธฐ๋ฐ ์ฐจ์ ์ถ์ (Synergy-based Dimensionality Reduction)
์ธ๊ฐ ์์ ์์ง์์ ์ค์ ๋ก ๋ช ๊ฐ์ ์ฃผ์ ์๋์ง(synergy)๋ก ์ค๋ช ๋ฉ๋๋ค:
\mathbf{q}_{hand} = \mathbf{S} \cdot \mathbf{z} + \mathbf{q}_0
- \mathbf{q}_{hand} \in \mathbb{R}^{16}: ์ ์ฒด ๊ด์ ์์น
- \mathbf{S} \in \mathbb{R}^{16 \times k}: ์๋์ง ํ๋ ฌ (๋ณดํต k = 2 \sim 6)
- \mathbf{z} \in \mathbb{R}^k: ์ ์ฐจ์ ์๋์ง ์ขํ
- \mathbf{q}_0: ๊ธฐ๋ณธ ์์ธ
์ด๋ ๊ฒ ํ๋ฉด 16D ๋ฌธ์ ๊ฐ 2~6D ๋ฌธ์ ๋ก ์ถ์๋ฉ๋๋ค!
- HIL-SERL ์์ : ์ฐ์ ํ๋์ผ๋ก ํตํฉ
์๋ HIL-SERL: \mathcal{A} = \mathcal{A}_{arm} \times \mathcal{A}_{gripper}^{discrete}
Dexterous Hand ๋ฒ์ : \mathcal{A} = \mathcal{A}_{arm} \times \mathcal{A}_{hand}^{continuous}
๋๋ ์๋์ง ์ฌ์ฉ ์: \mathcal{A} = \mathcal{A}_{arm} \times \mathcal{A}_{synergy}^{continuous}
๋์ ๊ณผ์ 2: ์ธ๊ฐ ๊ฐ์ ์ ๋ณต์ก์ฑ
SpaceMouse๋ก 16 DoF๋ฅผ ์ง์ ์ ์ดํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
ํด๊ฒฐ ์ ๋ต:
- ํ ๋ ์คํผ๋ ์ด์ ์ธํฐํ์ด์ค ๊ณ ๋ํ
| ์ธํฐํ์ด์ค | ์ ํฉ์ฑ | ํน์ง |
|---|---|---|
| SpaceMouse | โ ๋ถ์ ํฉ | 6 DoF๋ง ์ง์ |
| Teleoperation Glove (์: MANUS) | โ ์ ํฉ | ์๊ฐ๋ฝ ์์ง์ ์ง์ ๋งคํ |
| VR Controller + Hand Tracking | โ ์ ํฉ | Quest 3 ๋ฑ ํ์ฉ ๊ฐ๋ฅ |
| Vision-based Retargeting | โ ์ ํฉ | ์นด๋ฉ๋ผ๋ก ์ ์ถ์ |
- ๊ฐ์ ๋ฐฉ์์ ์ฌ์ค๊ณ
flowchart TB
subgraph Traditional["๊ธฐ์กด HIL-SERL"]
T1[SpaceMouse] --> T2[6D + Gripper]
end
subgraph Dexterous["Dexterous Hand ๋ฒ์ "]
D1[Teleoperation Glove]
D2[Vision Retargeting]
D3[VR Hand Tracking]
D1 --> D4[Full Hand Pose]
D2 --> D4
D3 --> D4
D4 --> D5[Synergy Projection]
D5 --> D6[Low-dim Intervention]
end
style Traditional fill:#ffcdd2
style Dexterous fill:#c8e6c9
๋์ ๊ณผ์ 3: ์ด๊ฐ ์ผ์ฑ์ ํตํฉ
Dexterous hand์ ์ง์ ํ ํ์ ์ด๊ฐ ํผ๋๋ฐฑ์์ ๋์ต๋๋ค. Allegro Hand์ ์ด๊ฐ ์ผ์๋ฅผ ์ฅ์ฐฉํ๋ฉด:
์์ ๋ ๊ด์ธก ๊ณต๊ฐ: \mathcal{S} = \{\mathbf{I}_{wrist}, \mathbf{I}_{side}, \mathbf{q}_{arm}, \mathbf{q}_{hand}, \mathbf{\tau}_{tactile}\}
์ฌ๊ธฐ์ \mathbf{\tau}_{tactile}์ ์๊ฐ๋ฝ ๋์ ์ด๊ฐ ์ ๋ณด์ ๋๋ค.
์ ๊ฒฝ๋ง ์ํคํ ์ฒ ์์ :
flowchart LR
subgraph Input["์
๋ ฅ"]
IMG[RGB Images]
PROP[Proprioception<br>Arm + Hand]
TACT[Tactile<br>Fingertip sensors]
end
subgraph Encoders["์ธ์ฝ๋"]
VIS_ENC[Vision Encoder<br>ResNet-10]
PROP_ENC[Prop Encoder<br>MLP]
TACT_ENC[Tactile Encoder<br>1D CNN / MLP]
end
subgraph Fusion["์ตํฉ"]
CONCAT[Concatenate]
ATTN[Cross-Modal<br>Attention]
end
IMG --> VIS_ENC
PROP --> PROP_ENC
TACT --> TACT_ENC
VIS_ENC --> CONCAT
PROP_ENC --> CONCAT
TACT_ENC --> CONCAT
CONCAT --> ATTN
ATTN --> OUTPUT[Policy + Critic]
style Input fill:#e3f2fd
style Encoders fill:#f3e5f5
style Fusion fill:#e8f5e9
๊ตฌ์ฒด์ ์ ์ฉ ์๋๋ฆฌ์ค: Allegro Hand V4
์๋๋ฆฌ์ค 1: ์ ๋ฐ ์ฝ์ ์์ (RAM ์ฝ์ ์ ํ์ฅ)
Dexterous hand์ ์ฅ์ :
- ์ ์์ ํ์ง: RAM ์นด๋๊ฐ ๊ธฐ์ธ์ด์ ธ๋ ์๊ฐ๋ฝ์ผ๋ก ์ฌ์กฐ์ ๊ฐ๋ฅ
- ํ ๋ถ๋ฐฐ: ์ฌ๋ฌ ์๊ฐ๋ฝ์ผ๋ก ๊ท ์ผํ ํ ์ ์ฉ
- In-hand ์กฐ์: ํ์ง ์์ธ๋ฅผ ๋์ง ์๊ณ ์กฐ์
# ์์ฌ์ฝ๋: Dexterous Hand๋ฅผ ์ํ HIL-SERL
def dexterous_hil_serl():
# ํ๋ ๊ณต๊ฐ ์ ์
arm_action_dim = 6 # Cartesian twist
hand_action_dim = 6 # Synergy-based (์ถ์๋ ๊ณต๊ฐ)
# ๊ด์ธก ๊ณต๊ฐ
obs = {
'images': [wrist_cam, side_cam], # ์๊ฐ
'arm_proprio': arm_joint_states, # ํ ๊ณ ์ ์์ฉ
'hand_proprio': hand_joint_states, # ์ ๊ณ ์ ์์ฉ (16D)
'tactile': fingertip_forces # ์ด๊ฐ (์ ํ์ )
}
# ์ฐ์ ํ๋ ๊ณต๊ฐ์ผ๋ก ํตํฉ (DQN ์ ๊ฑฐ)
policy = ContinuousPolicy(
obs_dim=compute_obs_dim(obs),
action_dim=arm_action_dim + hand_action_dim
)
# ์ธ๊ฐ ๊ฐ์
: Teleoperation glove ์ฌ์ฉ
if human_intervenes():
glove_data = get_glove_data()
hand_action = project_to_synergy(glove_data)
arm_action = get_arm_action_from_glove()์๋๋ฆฌ์ค 2: In-hand ์ฌ์กฐ์ (๊ธฐ์กด HIL-SERL๋ก๋ ๋ถ๊ฐ๋ฅ)
flowchart LR
A[๋ฌผ์ฒด ํ์ง] --> B[ํ์ ํ์<br>๊ฐ์ง]
B --> C[์๊ฐ๋ฝ<br>์ฌ๋ฐฐ์น]
C --> D[๋ฌผ์ฒด ํ์ ]
D --> E[์ฝ์
์ํ]
style A fill:#e3f2fd
style B fill:#fff3e0
style C fill:#f3e5f5
style D fill:#fff3e0
style E fill:#c8e6c9
์ด ์์ ์ ๊ทธ๋ฆฌํผ๋ก๋ ์์ฒ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ์ง๋ง, Allegro Hand๋ก๋ ์์ฐ์ค๋ฝ๊ฒ ์ํํ ์ ์์ต๋๋ค.
์์๋๋ ๋์ ๊ณผ ํด๊ฒฐ์ฑ
| ๋์ | ์์ธ | ํด๊ฒฐ์ฑ |
|---|---|---|
| ๊ธด ํ๋ จ ์๊ฐ | ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ | ์๋์ง ๊ธฐ๋ฐ ์ฐจ์ ์ถ์ |
| ์ด๋ ค์ด ์ธ๊ฐ ๊ฐ์ | ๋ณต์กํ ํ ๋ ์คํผ๋ ์ด์ | Glove/VR ์ธํฐํ์ด์ค |
| ๋ถ์์ ํ ํ์ต | ์๊ฐ๋ฝ ๊ฐ ์ถฉ๋ | ์์ ํ ํ์ ์์ญ ์ ํ |
| ํ๋์จ์ด ์์ | ๊ณผ๋ํ ์ ์ด๋ ฅ | ์ํผ๋์ค ์ ์ด + ํ ์ ํ |
๊ถ์ฅ ์ฐ๊ตฌ ๋ก๋๋งต
flowchart TB
subgraph Phase1["1๋จ๊ณ: ๊ธฐ์ด"]
P1A[์๋์ง ๋ถ์<br>์ฐจ์ ์ถ์]
P1B[ํ
๋ ์คํผ๋ ์ด์
<br>์ธํฐํ์ด์ค ๊ตฌ์ถ]
P1C[์์ ์ ์ด๊ธฐ<br>๊ตฌํ]
end
subgraph Phase2["2๋จ๊ณ: ๋จ์ ์์
"]
P2A[๋จ์ ํ์ง<br>์์
]
P2B[๊ธฐ๋ณธ ์ฝ์
<br>์์
]
end
subgraph Phase3["3๋จ๊ณ: ๊ณ ๊ธ ์์
"]
P3A[In-hand<br>์ฌ์กฐ์]
P3B[๋ณต์กํ<br>์กฐ๋ฆฝ]
P3C[๋๊ตฌ ์ฌ์ฉ]
end
subgraph Phase4["4๋จ๊ณ: ํตํฉ"]
P4A[์ด๊ฐ ํตํฉ]
P4B[VLA ๋ชจ๋ธ<br>์ฐ๋]
end
Phase1 --> Phase2 --> Phase3 --> Phase4
style Phase1 fill:#e3f2fd
style Phase2 fill:#fff3e0
style Phase3 fill:#f3e5f5
style Phase4 fill:#c8e6c9
์คํ์ ์ ์: Allegro Hand V4 + HIL-SERL
์ด๊ธฐ ์คํ ์ค์
# ๊ถ์ฅ ์ด๊ธฐ ์ค์
hardware:
arm: Franka Emika Panda (๋๋ ์ ์ฌ 7DoF ์)
hand: Allegro Hand V4
cameras:
- wrist_mounted: Intel RealSense D435
- side_view: Intel RealSense D435
teleoperation: MANUS Prime 3 Glove
action_space:
arm: 6D Cartesian twist
hand: 4D synergy (์ฒซ 4๊ฐ ์ฃผ์ฑ๋ถ)
observation_space:
images: 2 ร 128ร128 RGB
arm_proprio: 7 joint positions + velocities
hand_proprio: 16 joint positions + velocities
training:
demo_collection: 30-50 demonstrations
intervention_device: MANUS Glove
expected_training_time: 2-4 hours (๊ทธ๋ฆฌํผ ๋๋น ์ฆ๊ฐ)๊ธฐ๋ ํจ๊ณผ
- ์๋ก์ด ์์ ๋ฒ์ฃผ: In-hand manipulation, ๋๊ตฌ ์ฌ์ฉ
- ๋ ๊ฒฌ๊ณ ํ ํ์ง: ๋ค์ํ ๋ฌผ์ฒด ํ์ ๋์
- ์ ์์ ์กฐ์: ์ค์๊ฐ ํ์ง ์์ธ ์กฐ์
- ์ธ๊ฐ ์์ค ์ ์ฐ์ฑ: ๋ณต์กํ ์กฐ๋ฆฝ ์์ ๊ฐ๋ฅ
HIL-SERL์ ํ๋ ์์ํฌ๋ Dexterous Hand๋ก ์์ฐ์ค๋ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅํฉ๋๋ค. ํต์ฌ์ (1) ํ๋ ๊ณต๊ฐ์ ํจ์จ์ ํํ, (2) ์ ์ ํ ์ธ๊ฐ ๊ฐ์ ์ธํฐํ์ด์ค, (3) ์ด๊ฐ ์ ๋ณด์ ํจ๊ณผ์ ํตํฉ์ ๋๋ค. Allegro Hand V4์ ๊ฐ์ ํ๋ซํผ์ ์ด ์ฐ๊ตฌ์ ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์
1. ์ค์ฉ์ ํ๋ จ ์๊ฐ
๋๋ถ๋ถ์ ์์ ์ด 1~2.5์๊ฐ ๋ด์ ์๋ฃ๋ฉ๋๋ค. ์ด๋ ๊ธฐ์กด RL ์ฐ๊ตฌ์์ โsimulation-to-realโ ๋๋ ์์ผ~์์ฃผ์ ์ค์ธ๊ณ ํ๋ จ์ด ํ์ํ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ ๋๋ค.
2. ๋ฒ์ฉ์ฑ
๋จ์ผ ํ๋ ์์ํฌ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ ์์ ๋ฒ์:
- ์ ๋ฐ ์กฐ๋ฆฝ (๋ง์ดํฌ๋ก๋ฏธํฐ ๋จ์)
- ๋์ ์กฐ์ (๋ฐ๋ฆฌ์ด ๋จ์)
- ์ํ ํ์กฐ (๋ณต์กํ ๋๊ธฐํ)
- ๋ณํ ๊ฐ๋ฅ ๋ฌผ์ฒด (์์ธก ๋ถ๊ฐ๋ฅํ ํํ ๋ณํ)
3. ์ธ๊ฐ ์ด์ ์ฑ๋ฅ
RL์ ํต์ฌ ์ฅ์ ์ด ์ ์ฆ๋จ:
- ์ฌ์ดํด ํ์: ์ธ๊ฐ ์์ฐ๋ณด๋ค 1.8๋ฐฐ ๋น ๋ฆ
- ์ผ๊ด์ฑ: 100% ์ฑ๊ณต๋ฅ (์ธ๊ฐ๋ ์ค์ํจ)
- ์ ์์ฑ: ์ธ๋ถ ๊ต๋์ ์๋ ๋์
4. ์์คํ ์์ค ํตํฉ
๊ฐ๋ณ ๊ธฐ์ ๋ณด๋ค ํตํฉ์ ํ์ ๋ณด์ฌ์ค:
- ์ฌ์ ํ๋ จ ๋น์ + ํจ์จ์ RL + ์ธ๊ฐ ๊ฐ์ + ์ ์ ํ ์ ์ด๊ธฐ
ํ๊ณ ๋ฐ ๊ฐ์ ๋ฐฉํฅ
1. ์ฅ๊ธฐ ์งํ ์์
ํ์ฌ ๊ฐ์ฅ ๊ธด ์์ (ํ์ด๋ฐ ๋ฒจํธ)๋ 6์๊ฐ์ด ์์๋ฉ๋๋ค. ๋ ๊ธด ์งํ์ ์์ ์์๋ ์ํ ๋ณต์ก๋๊ฐ ๊ธ์ฆํ ์ ์์ต๋๋ค.
์ ์ฌ์ ํด๊ฒฐ์ฑ :
- ์์ ์๋ ๋ถํ (VLM ํ์ฉ)
- ๊ณ์ธต์ RL
- ๊ฐ์น ํจ์ ์ฌ์ ํ๋ จ
2. ์ผ๋ฐํ ํ๊ณ
์คํ์์ ๊ด๋ฒ์ํ ๋๋คํ๋ ๋น๊ตฌ์กฐํ ํ๊ฒฝ ํ ์คํธ๊ฐ ์์์ต๋๋ค.
์ ์ฌ์ ํด๊ฒฐ์ฑ :
- ํ๋ จ ์๊ฐ ์ฐ์ฅ + ํ๊ฒฝ ๋๋คํ
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ ๋น์ ๊ธฐ๋ฐ ๋ชจ๋ธ ํ์ฉ
3. ์ค์ผ์ผ๋ง ๋ฌธ์
๊ฐ ์์ ๋ง๋ค ์ฒ์๋ถํฐ ํ๋ จํด์ผ ํฉ๋๋ค.
์ ์ฌ์ ํด๊ฒฐ์ฑ :
- ๋ฒ์ฉ ๊ฐ์น ํจ์ ์ฌ์ ํ๋ จ
- ๋ฉํฐํ์คํฌ RL
- ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๊ณผ์ ํตํฉ
4. ์ธ๊ฐ ๊ฐ์ ์ ํ์ง ์์กด์ฑ
์ธ๊ฐ ๊ฐ์ ์ ์ง์ด ํ์ต์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์ผ๊ด๋์ง ์์ ๊ฐ์ ์ ์คํ๋ ค ํด๊ฐ ๋ ์ ์์ต๋๋ค.
์ ์ฌ์ ํด๊ฒฐ์ฑ :
- ๊ฐ์ ํ์ง ํ๊ฐ ๋ฉ์ปค๋์ฆ
- ์๋ํ๋ ๊ฐ์ ํํฐ๋ง
- ์ ์์ ๊ฐ์ ํตํฉ ๊ฐ์ค์น
์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
- ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ํตํฉ: HIL-SERL๋ก ์์ฑํ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ๋ฒ์ฉ ๋ก๋ด ๋ชจ๋ธ ํ๋ จ
- ๊ฐ์น ํจ์ ์ ์ด: ์ฌ๋ฌ ์์ ์์ ๊ณต์ ๊ฐ๋ฅํ ์กฐ์ โํ๋ฆฌ๋ฏธํฐ๋ธโ ํ์ต
- ์์จ ์คํฌ ๋ฐ๊ฒฌ: VLM์ ํ์ฉํ ์๋ ์์ ๋ถํ ๋ฐ ๋ณด์ ์์ฑ
- ์ฐ์ ์ ์ฉ: HMLV(High-Mix Low-Volume) ์ ์กฐ ํ๊ฒฝ์์์ ๊ฒ์ฆ
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
์ค์ธ๊ณ RL ์๊ณ ๋ฆฌ์ฆ
| ๋ฐฉ๋ฒ | ์ํ ํจ์จ์ฑ | ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ | ์ฑ๋ฅ |
|---|---|---|---|
| QT-Opt | ์ค๊ฐ | ์์ | ์ค๊ฐ |
| SERL | ๋์ | ๋ฐ๋ชจ๋ง | ๋์ |
| HIL-SERL | ๋งค์ฐ ๋์ | ๋ฐ๋ชจ + ๊ฐ์ | ๋งค์ฐ ๋์ |
| Model-based RL | ๋์ | ์ ํ์ | ์ค๊ฐ~๋์ |
HIL-SERL๊ณผ SERL์ ํต์ฌ ์ฐจ์ด:
- SERL: ์คํ๋ผ์ธ ๋ฐ๋ชจ๋ง ํ์ฉ
- HIL-SERL: ์จ๋ผ์ธ ์ธ๊ฐ ๊ฐ์ ์ถ๊ฐ
์ด โ์์โ ์ฐจ์ด๊ฐ ๋ณต์กํ ์์ ์์ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ง๋ญ๋๋ค.
๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ๋ก
| ๋ฐฉ๋ฒ | ์๋ฆฌ | ํ๊ณ |
|---|---|---|
| Behavioral Cloning | ์ง์ ๋ชจ๋ฐฉ | ์ค๋ฅ ๋์ |
| DAgger | ๋ํํ ๋ชจ๋ฐฉ | ์ธ๊ฐ ์์ค ํ๊ณ |
| Diffusion Policy | ๋ค์ค ๋ชจ๋ฌ ๋ถํฌ ํ์ต | ๋ฐ์์ฑ ๋ถ์กฑ |
| HIL-SERL | RL + ์ธ๊ฐ ๊ฐ์ด๋ | ์ธ๊ฐ ์ด์ ๊ฐ๋ฅ |
๊ธฐ์กด ์กฐ์ ์ ๊ทผ๋ฒ
์ ๊ฐ ์์ ๋น๊ต:
| ์ฐ๊ตฌ | ์ ๊ทผ๋ฒ | ํ๊ณ |
|---|---|---|
| Fazeli et al. | ์ค๋์ (quasi-dynamic) ๋ฐ๊ธฐ | ์ ์, ๋ ๋์ ์ |
| HIL-SERL | ๋์ ํํ | ๊ณ ์, ์ง์ ํฝ์ ์ ๋ ฅ |
๋ฌผ์ฒด ๋ค์ง๊ธฐ ๋น๊ต:
| ์ฐ๊ตฌ | ์ ๊ทผ๋ฒ | ํ๊ณ |
|---|---|---|
| Kormushev et al. | ๋ชจ์ ์บก์ฒ + DMP | ํน์ ์ฅ๋น ํ์ |
| HIL-SERL | ํฝ์ ์ง์ ์ ๋ ฅ | ๋ฒ์ฉ ์นด๋ฉ๋ผ๋ง ํ์ |
์์ฝ ๋ฐ ๊ฒฐ๋ก
ํต์ฌ ๋ฉ์์ง
HIL-SERL์ ์ค์ธ๊ณ ๋ก๋ด ๊ฐํํ์ต์ ์ค์ฉ์ฑ์ ์ ์ฆํ์ต๋๋ค:
โ์ ์ ํ ์์คํ ์์ค ์ค๊ณ ์ ํ๊ณผ ํจ๊ป๋ผ๋ฉด, RL์ ์ค์ธ๊ณ์์ ๋ค์ํ๊ณ ๋ณต์กํ ๋น์ ๊ธฐ๋ฐ ์กฐ์ ์์ ์ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.โ
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
HIL-SERL ํต์ฌ ๊ธฐ์ฌ ์์ฝ
| ์ธก๋ฉด | ์ธ๋ถ ๋ด์ฉ |
|---|---|
| ์๊ฐ ํจ์จ์ฑ | 1-2.5์๊ฐ ํ๋ จ, ์ค์ฉ์ ๋ฐฐํฌ ๊ฐ๋ฅ |
| ์ฑ๋ฅ | 100% ์ฑ๊ณต๋ฅ , ์ธ๊ฐ ์ด์, 1.8x ๋น ๋ฅธ ์๋ |
| ๋ฒ์ฉ์ฑ | ๋์ ์กฐ์, ์ ๋ฐ ์กฐ๋ฆฝ, ์ํ ํ์กฐ, ๋ณํ ๋ฌผ์ฒด |
| ์์คํ ํตํฉ | ์ฌ์ ํ๋ จ ๋น์ , RLPD, ์ธ๊ฐ ๊ฐ์ , ์ํผ๋์ค ์ ์ด |
๋ก๋ด๊ณตํ์๋ฅผ ์ํ ์ค์ฒ์ ์กฐ์ธ
- ์์์ ๊ฐ๋จํ๊ฒ: ๋จ์ํ ์ด์ง ๋ณด์ ๋ถ๋ฅ๊ธฐ๋ก ์์ํ์ธ์. ๋ณต์กํ ๋ณด์ ํ์ฑ์ ๋๋ถ๋ถ ๋ถํ์ํฉ๋๋ค.
- ์ฌ์ ํ๋ จ ํ์ฉ: ImageNet ์ฌ์ ํ๋ จ๋ ๋ฐฑ๋ณธ์ โ๋ฌด๋ฃ ์ ์ฌโ์ ๋๋ค. ๊ผญ ํ์ฉํ์ธ์.
- ์ธ๊ฐ ๊ฐ์ ์ ๊ฐ์ด๋: ์์ฐ์ โ์ ๋ตโ์ผ๋ก ์ทจ๊ธํ์ง ๋ง๊ณ , RL์ด ๋ ๋์ ํด๋ฅผ ์ฐพ๋๋ก โํํธโ๋ก ํ์ฉํ์ธ์.
- ์ขํ๊ณ ์ค๊ณ ์ค์: ์๊ธฐ์ค์ฌ์ ํํ์ ๊ณต๊ฐ ์ผ๋ฐํ์ ํต์ฌ์ ๋๋ค.
- ์์ ์ ์ด๊ธฐ ํ์: ์ํผ๋์ค ์ ์ด์ ์ฐธ์กฐ ์ ํ์ ํ์ ์ค ์์ ์ ๋ณด์ฅํฉ๋๋ค.
๋ฏธ๋ ์ ๋ง
HIL-SERL์ ๋ก๋ด ์กฐ์ ์ฐ๊ตฌ์ ์๋ก์ด ์ฅ์ ์ด์์ต๋๋ค:
- ๋จ๊ธฐ: ์ฐ์ ํ์ฅ์์์ HMLV ์ ์กฐ ์ ์ฉ
- ์ค๊ธฐ: ๋ก๋ด ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ฑ ๋๊ตฌ
- ์ฅ๊ธฐ: ๋ฒ์ฉ ๋ก๋ด ์กฐ์์ ํฅํ ๋๋ค๋
ํ์ธ๋ง ๊ต์๋์ด๋ผ๋ฉด ์ด๋ ๊ฒ ๋ง๋ฌด๋ฆฌํ์ จ์ ๊ฒ ๊ฐ์ต๋๋ค:
โ๋ณต์กํด ๋ณด์ด๋ ๋ฌธ์ ๋ ์ฌ๋ฐ๋ฅธ ๊ด์ ์์ ๋ณด๋ฉด ๋จ์ํด์ง ์ ์๋ค. HIL-SERL์ ์ธ๊ฐ๊ณผ ๊ธฐ๊ณ์ ํ๋ ฅ์ด ์ด๋ป๊ฒ ๋ณต์กํ ์กฐ์ ๋ฌธ์ ๋ฅผ ๋จ์ํํ๋์ง ๋ณด์ฌ์ค๋ค. ์ฐ๋ฆฌ๋ ์์ง ์์์ ์ ์์ง๋ง, ๊ทธ ์์์ ์ด ์ผ๋ง๋ ํฅ๋ฏธ๋ก์ด์ง!โ
๋ถ๋ก: ๊ตฌํ ์ธ๋ถ์ฌํญ
A. ์์ฌ์ฝ๋ (Pseudocode)
# HIL-SERL ๋ฉ์ธ ํ๋ จ ๋ฃจํ
def hil_serl_training():
# ์ด๊ธฐํ
demo_buffer = load_demonstrations(n=20-30)
rl_buffer = ReplayBuffer()
policy = Policy(pretrained_resnet=True)
q_function = QFunction()
grasp_critic = GraspCritic() # DQN for gripper
for episode in range(max_episodes):
state = env.reset()
for step in range(max_steps):
# ์ธ๊ฐ ๊ฐ์
์ฒดํฌ
if human_wants_to_intervene():
action = get_human_action() # SpaceMouse
store_to_buffer(demo_buffer, (s, a, r, s'))
store_to_buffer(rl_buffer, (s, a, r, s'))
else:
# ์ ์ฑ
์์ ํ๋ ์ํ๋ง
continuous_action = policy.sample(state)
gripper_action = grasp_critic.argmax(state)
action = concat(continuous_action, gripper_action)
store_to_buffer(rl_buffer, (s, a, r, s'))
next_state, reward, done = env.step(action)
state = next_state
# ๋น๋๊ธฐ ํ์ต (Learner process)
if learner_ready():
# 50:50 ์ํ๋ง
demo_batch = demo_buffer.sample(batch_size // 2)
rl_batch = rl_buffer.sample(batch_size // 2)
batch = concat(demo_batch, rl_batch)
# RLPD ์
๋ฐ์ดํธ
update_q_function(q_function, batch)
update_policy(policy, batch, q_function)
# DQN ์
๋ฐ์ดํธ (๊ทธ๋ฆฌํผ)
update_grasp_critic(grasp_critic, batch)B. ํ์ดํผํ๋ผ๋ฏธํฐ
| ํ๋ผ๋ฏธํฐ | ๊ฐ | ์ค๋ช |
|---|---|---|
| Learning rate (actor) | 3e-4 | Adam optimizer |
| Learning rate (critic) | 3e-4 | Adam optimizer |
| Batch size | 256 | Demo + RL ๋ฒํผ์์ 128์ฉ |
| Discount factor (ฮณ) | 0.99 | ๋ฏธ๋ ๋ณด์ ๊ฐ์ค์น |
| Target network update (ฯ) | 0.005 | Polyak averaging |
| Image size | 128ร128 | ๋ชจ๋ ์นด๋ฉ๋ผ ๊ณตํต |
| Control frequency | 10 Hz | ์ ์ฑ ์คํ ๋น๋ |
| Demo buffer size | 20-30 episodes | ์์ ๋ณ ์กฐ์ |
C. ํ๋์จ์ด ๊ตฌ์ฑ
- ๋ก๋ด: Franka Emika Panda (๋จ์ผ/์ํ)
- ์นด๋ฉ๋ผ: Intel RealSense (์๋ชฉ + ์ธก๋ฉด)
- ์ ๋ ฅ ์ฅ์น: 3Dconnexion SpaceMouse
- ์ปดํจํ : NVIDIA RTX 4090 GPU
์ฃผ์ ์ฐธ๊ณ ๋ฌธํ:
- RLPD: Ball et al. (2023). โEfficient Online Reinforcement Learning with Offline Dataโ
- SERL: Luo et al. (2024). โSERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learningโ
- SAC: Haarnoja et al. (2018). โSoft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learningโ
- HG-DAgger: Kelly et al. (2018). โHG-DAgger: Interactive Imitation Learning with Human Expertsโ
- Diffusion Policy: Chi et al. (2024). โDiffusion Policy: Visuomotor Policy Learning via Action Diffusionโ
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ๋ฌธ์ ์ ์์ ๋ฐฐ๊ฒฝ
๋ก๋ด ์กฐ์(manipulation)์ ๋ก๋ด๊ณตํ์ ํต์ฌ ๊ณผ์ ์ค ํ๋๋ก, ์ธ๊ฐ ์์ค์ ์ ๋ฐํ๊ณ ์ญ๋์ ์ธ ์กฐ์ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ค๋ ๋์ ๊ณผ์ ์ ๋๋ค. ํนํ ๋ฌผ์ฒด๋ฅผ ์ ๊ตํ๊ฒ ๋ค๋ฃจ๊ฑฐ๋(dynamic & dexterous), ์๋ฅผ ๋ค์ด ๋ถํ์ ์กฐ๋ฆฝํ๊ฑฐ๋ ๋น ๋ฅธ ๋์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋์ง๊ณ ๋ฐ๋ ๋ฑ์ ์์ ์์, ๋ก๋ด์ด ์ค์ค๋ก ํ์ตํ์ฌ ์ธ๊ฐ ์ด์์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ์ด์์ ์ธ ๋ชฉํ์ ๋๋ค. ๊ฐํํ์ต(RL)์ ์ด๋ฌํ ๋ณต์กํ ์คํฌ์ ์์จ์ ์ผ๋ก ์๋์ ์คํจ๋ฅผ ๊ฑฐ์ณ ์ต๋ํ ์ ์๋ค๋ ์ ์์ ํฐ ์ ์ฌ๋ ฅ์ ์ง๋๋๋ค. ์๋ง ํ์ฉํ๋ฉด, RL๋ก ํ์ต๋ ์ ์ฑ (policy)์ ํด๋น ๋ฌผ๋ฆฌ์ ์์ ์ ์ต์ ํ๋์ด ์์์ ์ค๊ณํ ์ ์ด๊ธฐ๋ณด๋ค๋ ๋ฐ์ด๋ ์ฑ๋ฅ, ์ฌ์ง์ด ์ธ๊ฐ ์๊ฒฉ์กฐ์๋ณด๋ค๋ ๋์ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
ํ์ง๋ง ํ์ค ์ธ๊ณ์์ ์ด ์ฝ์์ ์คํํ๊ธฐ๋ ์ฝ์ง ์์์ต๋๋ค. ํ๋ณธ ํจ์จ์ฑ ๋ฌธ์ (sample complexity)์ ๋ณด์ ์ค๊ณ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ํ์ต์ ์์ ์ฑ ๋ฑ์ด ๋ฐ๋ชฉ์ ์ก์ ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์์๋ ๋ก๋ด์ ๊ณ ๋์ด๋ ์ด๋ ๊ธฐ์ ์ RL๋ก ํ์ต์ํจ ์ฑ๊ณต ์ฌ๋ก๋ค์ด ์์์ง๋ง, ์ค์ ๋ก๋ด์ ๋น์ ๊ธฐ๋ฐ RL์ ์ ์ฉํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ณต์กํ ์์ ์ ๋น ๋ฅด๊ฒ ํ์ต์ํค๋ ๊ฒ์ ์ค๋ซ๋์ โ๋นํจ์จ์ ์ด๊ณ ์ํํ๋คโ๋ ์ธ์์ด ์์์ต๋๋ค. ๋ํ ์ ํํ ๋ณด์ ํจ์๋ฅผ ์์ ์ค๊ณํด์ผ ํ๋ ์ ์ ๊ฐ ์๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋๋ฐ, ๋ณต์กํ ์กฐ๋ฆฝ ์์ ๋ฑ์์๋ ์ด๋ค ๋ถ๋ถ ์ฑ๊ณต์ ์ผ๋ง์ ๋ณด์์ ์ค์ง ๊ฒฐ์ ํ๊ธฐ ์ด๋ ค์ ์ฌ์ค์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ต๋๋ค.
์ด๋ฐ ๋ฐฐ๊ฒฝ์์ Berkeley ๋ํ Levine ๊ต์ ์ฐ๊ตฌํ์ โ์ค์๊ฐ ์ค์ ๋ก๋ด ์์์, ์๊ฐ ์ ๋ ฅ๋ง์ผ๋ก๋ 1~2์๊ฐ ๋ง์ ๊ณ ๋๋ ์์ ๋ค์ ๊ฑฐ์ ์๋ฒฝํ ๋ฐฐ์ฐ๊ฒ ํ ์๋ ์์๊น?โ๋ผ๋ ๋์ ์ ์ธ ๋ชฉํ๋ฅผ ์ธ์ ์ต๋๋ค. ๊ทธ ํด๋ต์ผ๋ก ์ ์๋ ๊ฒ์ด HIL-SERL(Human-in-the-Loop Sample Efficient Robotic Learning)์ ๋๋ค. ์ด ์์คํ ์ ํ๋ง๋๋ก โ์ฌ๋์ด ์ฐธ์ฌํ๋ ํ๋ณธ-ํจ์จ ๊ฐํํ์ตโ์ผ๋ก, ์ฌ๋ฌ ๊ตฌ์ฑ ์์๋ฅผ ์ ๊ตํ๊ฒ ๊ฒฐํฉํจ์ผ๋ก์จ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์งง์ ํ์ต์ผ๋ก๋ ๊ณ ์ฑ๋ฅ์ ๋น์ ๊ธฐ๋ฐ ์กฐ์ ์ ์ฑ ์ ์ป์ด๋์ต๋๋ค.
ํต์ฌ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ์ธ๊ฐ ์๋ฒ๊ณผ ์ค๊ฐ ๊ต์ ์ ํ์ฉํ ์คํํด๋ฆฌ์(off-policy) ๊ฐํํ์ต์ ๋๋ค. ์ฐ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ผ์ ๋์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ ์ด๊ธฐ ํ์ต์ ๋์ฐ๋ฉฐ, ํ์ต ์ค์ ๋ก๋ด์ด ์ค์๋ฅผ ํ ๋ ์ฌ๋์ด ๊ฐ์ (intervene)ํ์ฌ ๋ก๋ด์ ๋ค์ ์ฌ๋ฐ๋ฅธ ์ํ๋ก ์ ๋ํฉ๋๋ค. ์ด๋ฌํ ์ธ๊ฐ์ ์๋ฒ/๊ต์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณธ ํจ์จ์ด ๋์ RL ์๊ณ ๋ฆฌ์ฆ์ ํตํฉํด ํ์ตํจ์ผ๋ก์จ, 1~2.5์๊ฐ ๋ด์ ๊ฑฐ์ ๋ชจ๋ ์๋์์ ์ฑ๊ณตํ๊ณ ์ธ๊ฐ๋ณด๋ค ๋น ๋ฅธ ์์ ์ํ ์๊ฐ์ ๋ณด์ด๋ ์ ์ฑ ์ ์ป์์ต๋๋ค. ํนํ ์ด ์ ๊ทผ๋ฒ์ ๋์ ๋ฌผ์ฒด ๋ค๋ฃจ๊ธฐ(์: ํ๋ผ์ดํฌ์ผ๋ก ๋ฌผ์ฒด ๋ค์ง๊ธฐ), ์ ๋ฐ ์กฐ๋ฆฝ(์: ๋ถํ ๊ฝ๊ธฐ), ์ํ ํ์ (dual-arm coordination) ๋ฑ ๋ค์ํ ์ด๋ ค์ด ์์ ๋ค์ ์ผ๊ด๋๊ฒ ์ ์ฉ๋์ด, ๊ธฐ์กด ๋ชจ๋ฐฉํ์ต์ด๋ ์ด์ RL ๋ฐฉ์ ๋๋น ํ๊ท 2๋ฐฐ์ ์ฑ๊ณต๋ฅ ํฅ์, 1.8๋ฐฐ์ ์๋ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ฌํ ์ฑ๊ณผ๋ ๊ฐํํ์ต์ด ํ์ค์์ ๊ฐ๋ฅํ๋ฉฐ, ์ ์ ํ ์์คํ ์ค๊ณ ํ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ๋ ์๋ํ๋ โ์ํผํด๋จผโ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์๋ฏธ ์๋ ์ฌ๋ก์ ๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์์๋ HIL-SERL ๋ ผ๋ฌธ์ ํต์ฌ ๋ด์ฉ์ ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์ ๊ด์ ์์ ๊น์ด ์๊ฒ ๋ถ์ํ๊ฒ ์ต๋๋ค. ์๋ก ์์๋ ๋ฌธ์ ์ ๊ธฐ์ ์ ๊ทผ๋ฒ์ ํฐ ๊ทธ๋ฆผ์ ๋ค๋ค๊ณ , ์ดํ ๋ฐฉ๋ฒ๋ก ์น์ ์์ HIL-SERL์ ์์คํ ๊ตฌ์กฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์์ธํ ์ค๋ช ํฉ๋๋ค. ํนํ ๋ ผ๋ฌธ์ ์ ์๋ ์์๋ค์ ์ง๊ด์ ์ผ๋ก ํ์ด ์ค๋ช ํ๊ณ , ๋น์ ๋ฅผ ํตํด ์ดํด๋ฅผ ๋๊ฒ ์ต๋๋ค. ์คํ ์น์ ์์๋ ์ ์๋ค์ด ์ํํ ๋ค์ํ ์์ ๋ค, ๊ทธ ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ณ , ์ป์ด์ง ์ ์ฑ ์ ํน์ฑ๊ณผ ์ฑ๋ฅ์ ํด์ํฉ๋๋ค. ์ด์ด์ ๋นํ์ ๊ณ ์ฐฐ์์๋ HIL-SERL์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ํ๊ฐํ๊ณ , ํฅํ ๊ฐ์ ์ด๋ ์์ฉ์ ์ํ ๋ฏธ๋ ๋ฐฉํฅ์ ์ ์ธํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์์ฝ ๋ฐ ๊ฒฐ๋ก ์์ ํต์ฌ ํต์ฐฐ์ ์ ๋ฆฌํ๋ฉด์, ๋ ์์ธ ๋ก๋ด๊ณตํ์์๊ฒ ์ด ์ฐ๊ตฌ๊ฐ ์ฃผ๋ ์์ฌ์ ์ ์ง์ด๋ณด๊ฒ ์ต๋๋ค.
๋ฐฉ๋ฒ: HIL-SERL ์์คํ ์ ์ค๊ณ์ ์๊ณ ๋ฆฌ์ฆ ์์ธ๋ถ์
HIL-SERL์ ์ฌ๋ฌ ๊ตฌ์ฑ ์์์ ์ ๊ตํ ํตํฉ์ ํตํด ์ค์ ๋ก๋ด ๊ฐํํ์ต์ ๋์ ๋ค์ ํด๊ฒฐํฉ๋๋ค. ๋จผ์ ์ ์ฒด์ ์ธ ์์คํ ์ํคํ ์ฒ์ ํ์ต ํ๋ฆ์ ๊ฐ๊ดํ๊ณ , ๊ฐ ๊ตฌ์ฑ ์์ โ ์๊ฐ ์ ๋ ฅ ์ฒ๋ฆฌ, ๋ณด์ ์ค๊ณ, ๋ก๋ด ์ ์ด ์ฒด๊ณ, ๊ทธ๋ฆฌํผ(์) ์ ์ด, ์ธ๊ฐ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ โ ๋ฅผ ์ฐจ๋ก๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์์คํ ๊ฐ์์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ
HIL-SERL์ ๋น์ ๊ธฐ๋ฐ ์คํํด๋ฆฌ์ RL ๊ตฌ์กฐ๋ก, Actor-critic ๊ณ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. Actor(ํ๋์) ํ๋ก์ธ์ค๋ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์ ์ฑ ์ ์คํํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ , Learner(ํ์ต์) ํ๋ก์ธ์ค๋ ์ด ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ ์ฑ (๋ฐฐ์ฐ)๊ณผ ๊ฐ์นํจ์(ํ๊ฐ์) ์ ๊ฒฝ๋ง์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๋์ ๋น๋๊ธฐ(asynchronous) ๋ฐฉ์์ผ๋ก ๋ณ๋ ฌ ๋์ํ์ฌ ๋ฐ์ดํฐ ์์ง๊ณผ ํ๋ผ๋ฏธํฐ ํ์ต์ ํจ์จ์ ์ผ๋ก ๋ณํํฉ๋๋ค. ์์ง๋ ๋ฐ์ดํฐ๋ ์ฌํ ๋ฉ๋ชจ๋ฆฌ(replay buffer)์ ์ ์ฅ๋๊ณ , ํ์ต์๋ ์ด๋ฅผ ๋ฌด์์ ์ํ๋งํ์ฌ ์ ๊ฒฝ๋ง์ ํ๋ จ์ํต๋๋ค. HIL-SERL์์๋ ๋ ๊ฐ์ ๋ฒํผ๋ฅผ ๋ก๋๋ค: ํ๋๋ ์๋ฒ/๊ต์ ๋ฐ์ดํฐ ๋ฒํผ (๋ฐ๋ชจ ๋ฒํผ)์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ๋ก๋ด ์์ฒด ์๋ ๋ฐ์ดํฐ ๋ฒํผ (RL ๋ฒํผ)์ ๋๋ค. ํ์ต ์ ์ด ๋ ๋ฒํผ์์ ๋๋ฑํ ๋น์จ๋ก ์ํ๋งํ์ฌ ๋ฐฐ์น(batch)๋ฅผ ๊ตฌ์ฑํจ์ผ๋ก์จ, ์ฌ์ ๋ฐ์ดํฐ(์คํ๋ผ์ธ)์ ์จ๋ผ์ธ ๊ฒฝํ์ ๊ท ํ ์๊ฒ ํ์ฉํฉ๋๋ค. ์ด๋ฌํ ์คํ๋ผ์ธ-์จ๋ผ์ธ 50:50 ์ํ๋ง ์ ๋ต์ ์ ์๋ค์ด ์ฌ์ฉํ RLPD ์๊ณ ๋ฆฌ์ฆ์ ํต์ฌ์ผ๋ก, ์ด์ ๋ฐ์ดํฐ์ ์ง์์ ๋น ๋ฅด๊ฒ ํ์ฉํ๋ฉด์๋ ์๋ก์ด ํ์์ ์ํํ ํ์ง ์๊ฒ ํฉ๋๋ค.
ํํธ, ์ ์ฑ ์ ๊ฒฝ๋ง์ ์๊ฐ ์ ๋ ฅ๋ถ์๋ ์ฌ์ ํ์ต๋ ๋น์ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์์ต๋๋ค. ์์ปจ๋ ImageNet ๋ฑ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋ CNN ํน์ง์ถ์ถ๊ธฐ๋ฅผ ์ด๊ธฐ ๊ฐ์ค์น๋ก ์ผ์, ์ด๋ฐ ํ์ต ์์ ์ฑ์ ๋์์ต๋๋ค. ์ด๋ ๊ณ ์ฐจ์ ์ด๋ฏธ์ง ์ ๋ ฅ์ผ๋ก ์ธํ ์ต์ ํ ๋ถ์์ ๋ฌธ์ ๋ฅผ ์ํํ์ฌ, ์งง์ ์๊ฐ ๋ด ์๋ ด์ ๋๋ ์ฅ์น์ ๋๋ค.
๊ฐํํ์ต ๋ฌธ์ ์ ์๋ฅผ ๊ฐ๋ตํ ๊ธฐ์ ํ๋ฉด, MDP (\mathcal{S}, \mathcal{A}, P, R, \gamma)์์ ์ ์ฑ \pi_\theta(a\|s)๋ ๋์ ๊ธฐ๋๋ณด์ J(\pi)์ ์ต๋ํํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ฌ๊ธฐ์ \mathcal{S}๋ ์ํ๊ณต๊ฐ (์: ์นด๋ฉ๋ผ ์ด๋ฏธ์ง + ๋ก๋ด ๊ด์ /์๋์ดํํฐ ์ํ), \mathcal{A}๋ ํ๋๊ณต๊ฐ (์: ์๋์ดํํฐ์ ์๋/ํ ์ปค๋งจ๋, ๊ทธ๋ฆฌํผ ์ฌ๋ซ๊ธฐ ๋ฑ), P(s\'\|s,a)๋ ํ๊ฒฝ ๋์ญํ์ด๋ฉฐ R(s)๋ ๋ณด์ํจ์์ ๋๋ค. ์ต์ ์ ์ฑ ์ ๋ค์ ์์ ๋ง์กฑํ๋ \pi\^\*๋ก ์ ์๋ฉ๋๋ค:
\pi^{*} = \arg\max_{\pi}J(\pi),\quad\quad\text{where }J(\pi) = \mathbb{E}_{s_{0} \sim \rho_{0},a_{t} \sim \pi}\left\lbrack \sum_{t = 0}^{\infty}\gamma^{t}R\left( s_{t} \right) \right\rbrack.
์ฆ ํ ์ธ ์ธ์ \gamma \in \[0,1\] ํ์์ ๋ฏธ๋ ๋ณด์์ ๊ธฐ๋๊ฐ์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค. HIL-SERL์ ๊ฒฝ์ฐ, R(s)๋ ์์ ์ฑ๊ณต ์ฌ๋ถ๋ง ํ๋จํ๋ ํฌ์ ๋ณด์(sparse reward)์ด๋ฏ๋ก, J(\pi)๋ ๊ณง ์ํผ์๋ ์ฑ๊ณต ํ๋ฅ ์ ์ต๋ํํ๋ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. \gamma ๊ฐ์ 0.96~0.985 ์ฌ์ด๋ก ์์ ๋ณ๋ก ์ง์ ๋์๋๋ฐ (์: ๋๋ถ๋ถ 0.97, ์ผ๋ถ 0.98), \gamma \< 1๋ก ์ค์ ํ ๊ฒ์ โ๋นจ๋ฆฌ ์ฑ๊ณตํ ์๋ก ๋ ๋์ ๋ณด์โ์ด ๋๋๋ก ํ์ฌ, ์ ์ฑ ์ด ์์ ์ํ ์๊ฐ์ ๋จ์ถํ๋๋ก ์ ๋ํฉ๋๋ค. ์ค์ ๋ก ์ด๋ฌํ ์ค๊ณ ๋๋ถ์ ํ์ต๋ ์ ์ฑ ์ด ์ธ๊ฐ ์๋ฒ๋ณด๋ค ๋น ๋ฅธ ๊ฒฝ๋ก๋ฅผ ์ฐพ์๋ด๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค (์์ธํ ๋ด์ฉ์ ์คํ ๊ฒฐ๊ณผ์์ ๋ ผ์).
๊ฐํํ์ต ํ์ต ์๊ณ ๋ฆฌ์ฆ์ Off-policy Actor-Critic ๋ฐฉ์์ผ๋ก, ์ ์๋ค์ ์ด๋ฅผ RLPD (Ball et al., 2023) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ช ์ํ๊ณ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก RLPD๋ Soft Actor-Critic(SAC) ๊ณ์ด์ ๊ฐ๋๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. Critic(๊ฐ์น ํจ์) ๋คํธ์ํฌ Q_{\theta}(s,a) ๋ ๊ฐ๋ฅผ ์ด์ฉํ๋ฉฐ (๋๋ธ Q), ํ๊น ๋คํธ์ํฌ Q_{\theta\'}๋ฅผ ์ด์ฉํ TD(์๊ฐ์ฐจ) ์์ค์ผ๋ก ํ์ตํฉ๋๋ค. ์ด๋ฅผ ์์์ผ๋ก ํํํ๋ฉด, ์ฐ์ ํ๋๊ณต๊ฐ์ ๋ํ Q-ํจ์ ์ ๋ฐ์ดํธ ์์ค L_Q๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
L_{Q}(\theta) = \mathbb{E}_{(s,a,r,s\prime) \sim \mathcal{B}}\left\lbrack (Q_{\theta}(s,a) - \left( r + \gamma\, Q_{\theta\prime}\left( s\prime,\, a\prime = \pi_{\phi}(s\prime) \right) \right))^{2} \right\rbrack,
์ฌ๊ธฐ์ \mathcal{B}๋ ๋ฆฌํ๋ ์ด ๋ฒํผ์์ ์ํ๋ง๋ ๋ฐฐ์น์ด๊ณ , a\'=\pi_\phi(s\')๋ ํ์ฌ ์ ์ฑ (์กํฐ) \pi_\phi๊ฐ ๋ค์ ์ํ์์ ์ ํํ ํ๋์ ๋๋ค. \theta\'์ ํ๊น(target) ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๋ก, ํด๋ฆฌ์ก ํ๊ท (Polyak averaging) ๋ฐฉ์์ผ๋ก \theta๋ฅผ ์ง์ฐ ์ ๋ฐ์ดํธํ์ฌ ํ์ต ์์ ์ฑ์ ์ค๋๋ค. ์ (1)์ ๋ฒจ๋ง ๋ฐฉ์ ์ Q(s,a) = r + \gamma Q(s\', a\')์ ํ๊ท ์ ๊ณฑ์ค์ฐจ๋ก ๋ง์ถ๋ TD(0) ํ์ต์ด๋ฉฐ, ์ค์ ๊ตฌํ์์๋ ๋๋ธ Q ๋ฐ ํ๊น ๋คํธ์ํฌ๋ก ๊ณผ์ต์ ํ์ ๋ฐ์ฐ์ ๋ฐฉ์งํฉ๋๋ค.
๋ค์์ผ๋ก Actor(์ ์ฑ ) ๋คํธ์ํฌ \pi_\phi(a\|s)์ ํ์ต์, Maximum Entropy RL์ ์๋ฆฌ์ ๋ฐ๋ผ ์ํธ๋กํผ ๋ณด๋์ค๋ฅผ ํฌํจํ ์์ค๋ก ์ต์ ํ๋ฉ๋๋ค. ์ฝ๊ฒ ๋งํ๋ฉด, ์ ์ฑ ์ Q ๊ฐ์ด ๋์ ํ๋์ ์ ํธํ๋ฉด์๋ ํ๋ ๋ถํฌ์ ์ํธ๋กํผ๊ฐ ๋์์ง๋๋ก ํ์ต๋ฉ๋๋ค. ์ด๋ฌํ ์ํธ๋กํผ ์ ๊ทํ๋ ํ์์ ์ด์งํ๊ณ ์ต์ ํด๋ฅผ ์ฐพ๋ ๋ฐ ๋์์ ์ค๋๋ค. Actor์ ์์ค L_\pi๋ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์์ต๋๋ค:
L_{\pi}(\phi) = \mathbb{E}_{s \sim \mathcal{B}}\left\lbrack - Q_{\theta}\left( s,a = \pi_{\phi}(s) \right) + \alpha\,\mathcal{H}\left( \pi_{\phi}\left( \cdot |s \right) \right) \right\rbrack,
์ฌ๊ธฐ์ \mathcal{H}๋ ์ ์ฑ ์ ์ํธ๋กํผ์ด๋ฉฐ, \alpha๋ ์ํธ๋กํผ ๊ฐ์ค์น์ ๋๋ค. HIL-SERL์์๋ ์ด \alpha๋ฅผ ํ์ต ์ค ์๋ ์กฐ์ ํ๋ ์ํธ๋กํผ ํ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์๋ค๊ณ ์ธ๊ธํ๊ณ ์์ต๋๋ค. Actor ์ ๋ฐ์ดํธ๋ ์ ์ฑ ๊ทธ๋๋์ธํธ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ด ๋์ Q ๊ฐ๊ณผ ํ์์ฑ์ ๋์์ ์ถ๊ตฌํ๋๋ก ๋ง๋ญ๋๋ค.
์์ฝํ๋ฉด, HIL-SERL์ RL ์๊ณ ๋ฆฌ์ฆ์ SAC ๊ธฐ๋ฐ off-policy RL๋ก ๋ณผ ์ ์๊ณ , ์ด์ ์๋ฒ/๊ต์ ๋ฐ์ดํฐ์ ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๊ท ํ ์์ด ์ฐ๋ RLPD ์ ๋ต์ด ์ ์ฉ๋์์ต๋๋ค. ์ด๋ฌํ ๊ตฌ์ฑ ๋๋ถ์, ์ ์ ์คํ ๋ฐ์ดํฐ๋ก๋ ์์ ์ ์ด๊ณ ๋น ๋ฅด๊ฒ ํ์ต์ด ๊ฐ๋ฅํ์ต๋๋ค.
๋ณด์ ํจ์ ์ค๊ณ: ์ด์ง ์ฑ๊ณต ํ์
๋ณด์ ํจ์ R(s)๋ ๊ฐํํ์ต์ ๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ ํต์ฌ์ ๋๋ค. ์์ ์ธ๊ธํ๋ฏ, HIL-SERL์ ํฌ์ํ(binary) ๋ณด์ ์ฒด๊ณ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฐ ์์ ์ ๋ํด โ์ฑ๊ณต ์ +1, ๊ทธ ์ธ 0โ์ ๋ณด์์ ์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ๋จ์ํ์ง๋ง, ๋ณต์กํ ์์ ์์ ์์๋ก dense ๋ณด์์ ์ค๊ณํ๋ ๋์ ์ฑ๊ณต/์คํจ๋ง ๋ช ํํ ์ ์ํ์ฌ ๋ฌธ์ ๋ฅผ ๋จ์ํํ์ต๋๋ค. ๋ฌผ๋ก , ๋ก๋ด์ ์ด๋ป๊ฒ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์๊น์? ์ ์๋ค์ ์ด๋ฅผ ์ํด ์์ ๋ณ ์ด์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์์ผฐ์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ๊ณผ์ (task)์ ๋ํด ์ฌ๋์ด ๋ก๋ด์ ์๊ฒฉ ์กฐ์(tele-operation)ํ์ฌ ์ฑ๊ณต ์ํ์ ์์ ๋ฐ์ดํฐ ~200๊ฐ์ ์คํจ ์ํ์ ์์ ~1000๊ฐ๋ฅผ ๋ชจ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, RAM ์ฝ์ ์์ ์ด๋ผ๋ฉด ์ฑ๊ณต ์ํ๋ RAM์ด ์ฌ๋กฏ์ ์ ํํ ๊ฝํ์๋ ์ด๋ฏธ์ง๋ค์ด๊ณ , ์คํจ ์ํ๋ ์ฝ์ ์ด ์ ๋์๊ฑฐ๋ ์๋ชป๋ ์์น์ ์ด๋ฏธ์ง๋ค์ ๋๋ค. ์ด๋ ๊ฒ ์ฝ 10ํ ๊ฐ๋์ ์๋ฒ ์ํผ์๋(์ฑ๊ณต/์คํจ ๋ค์ํ)์์ ๋ฝ์ ์์ ํ๋ ์๋ค์ ๊ฐ์ง๊ณ ์ด์ง ๋ถ๋ฅ๊ธฐ C_\psi(s)๋ฅผ ํ๋ จํฉ๋๋ค. ์ด ๋ณด์ํ๋ณ๊ธฐ๋ ๋ก๋ด ํ์ ์๋ชฉ ์นด๋ฉ๋ผ(wrist camera) ๋๋ ์ธก๋ฉด ์นด๋ฉ๋ผ ์ด๋ฏธ์ง ์ ๋ ฅ์ ๋ฐ์ ํด๋น ์ํ๊ฐ ์ฑ๊ณต ์๋ฃ์ธ์ง ์๋์ง๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ๊ต์ฐจ ์ํธ๋กํผ ์์ค๋ก ํ์ต๋ ์ด ๋ถ๋ฅ๊ธฐ๋ 95% ์ด์์ ์ ํ๋๋ฅผ ๋ณด์๋ค๊ณ ํฉ๋๋ค.
ํ๋ จ๋ ๋ณด์ ๋ถ๋ฅ๊ธฐ๋ ๋งค ์๊ฐ ์คํ ๋ง๋ค ๋ก๋ด ์ํ๋ฅผ ๋ณด๊ณ , ์ฑ๊ณต ์ํ๋ก ํ์ ๋๋ ์๊ฐ์๋ง +1 ๋ณด์์ ์ฃผ๊ณ ์ํผ์๋๋ฅผ ์ข ๋ฃ์ํต๋๋ค. ๊ทธ ์ด์ ๊น์ง๋ ๋ณด์์ด 0์ด๋ฉฐ, ๋ง์ฝ ์ผ์ ์๊ฐ ๋ด ์ฑ๊ณต ๋ชป ํ๋ฉด ์คํจ๋ก ๊ฐ์ฃผํ๊ณ ์ํผ์๋ ์ข ๋ฃ(๋ณด์ 0) ์ฒ๋ฆฌํฉ๋๋ค. ์ฆ HIL-SERL์ ์ํผ์๋๋ โ์ฑ๊ณต=+1๋ก ์ข ๋ฃโ ์๋๋ฉด โํ์์์/์คํจ=0๋ก ์ข ๋ฃโ์ ๊ตฌ์กฐ์ธ ์ ์ ๋๋ค. ์ ์๋ค์ ์ฌ๋์ด ์ง์ shapingํ ๋ณต์กํ ๋ณด์ ์์ด๋, ์๋ฒ+๊ต์ ๋ฐ์ดํฐ๋ง ์๋ค๋ฉด ํฌ์๋ณด์์ผ๋ก ์ถฉ๋ถํ๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค. ์ค์ ๋ก โ๋ณต์กํ ์์ ์์๋ ์ฃ๋ถ๋ฆฌ ์กฐ๋ฐ ๋ณด์ ์ค๊ณํ๊ธฐ๋ณด๋ค, ์ด๋ ๊ฒ ๊ฐ๋จํ ์ฑ๊ณต/์คํจ๋ง ์ ์ํ๊ณ ๋๋จธ์ง๋ RL๊ณผ ์ฌ๋ ๋์์ ๋งก๊ธฐ๋ ํธ์ด ๋ซ๋คโ๋ ํต์ฐฐ์ ์ป์๋ค๊ณ ์์ ํฉ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด ๋ณด์ ์ฒด๊ณ๋ ํด๋ฆฌ์ดํ ๋ชฉํ๋ฅผ ์ ์ํฉ๋๋ค: ์ํผ์๋ ๋น ์ฑ๊ณต ํ๋ฅ ์ต๋ํ. ์ด๋ ์ฌ์ค์ ๊ฐํํ์ต์ ์ฑ๊ณต๋ฅ 100%๋ฅผ ํฅํด ์๋ ด์ํค๋ ๊ณผ์ ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค. ๋ํ, ์๊ฐ ํ ์ธ\ \gamma ๋๋ถ์ ์ ์ฑ ์ ๊ฐ๋ฅํ ๋นจ๋ฆฌ ์ฑ๊ณตํ๋ ค๋ ๊ฒฝํฅ์ ๋ณด์ด๊ฒ ๋๊ณ , ์ด๋ ์ธ๊ฐ ๋ฐ๋ชจ๋ณด๋ค ๋ ํจ์จ์ ์ธ ๊ฒฝ๋ก๋ฅผ ํ์ํ๋ ์๋๋ ฅ์ด ๋์์ต๋๋ค.
์์ฝํ๋ฉด, HIL-SERL์ ๋ณด์์ ์์ ์๋ฃ ์ฌ๋ถ ํ๋๋ก ๊ฒฐ์ ๋๋ฉฐ, ์ด๋ฅผ ์ํด ์ฌ์ ์์งํ ์ฑ๊ณต/์คํจ ์ฌ๋ก๋ก ํ๋ จ๋ ๋ถ๋ฅ๊ธฐ๊ฐ ํ์ฉ๋์์ต๋๋ค. ์ด๋ ๋ก๋ด์๊ฒ โ๋ฑ ๋ง์ท์ ๋๋ง ์นญ์ฐฌํด์ฃผ๋โ ๋ฐฉ์์ด๋ผ ์ฒ์์ ์ด๋ ค์ธ ์ ์์ง๋ง, ๊ณง ์๊ฐํ ์ธ๊ฐ ๊ฐ์ ๊ณผ ๋ฐ๋ชจ ๋์ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํ๊ฒฝ์ด ์กฐ์ฑ๋ฉ๋๋ค. ๋น์ ํ์๋ฉด, ์์ด์๊ฒ ์ ๋ต์ผ ๋๋ง ๋ณด์์ ์ฃผ๋ ์๊ฒฉํ ์ ์๋๊ณผ ๊ฐ์ง๋ง, ๋์ ์์์ ํ์ํ๋ฉด ์์ ์ก์ ์ด๋์ด์ฃผ๋ ๋ณด์กฐ ๊ต์ฌ๊ฐ ํจ๊ป ์๋ ์ ์ ๋๋ค.
๋ก๋ด ์์คํ ์ค๊ณ: ์ขํ๊ณ์ ์ปจํธ๋กค๋ฌ
HIL-SERL์ด ์ฑ๊ณตํ๋ ค๋ฉด, ์ํํธ์จ์ด๋ฟ ์๋๋ผ ๋ฌผ๋ฆฌ์ ์ธ ๋ก๋ด ์์คํ ์ค๊ณ๋ ์ค์ํฉ๋๋ค. ์ ์๋ค์ ๊ด์ฐฐ๊ณต๊ฐ๊ณผ ์ ์ด๊ธฐ์ ์ค๊ณ์ ๋ช ๊ฐ์ง ํต์ฌ์ ์ธ ๊ฒฐ์ ์ ๋ด๋ ธ์ต๋๋ค.
๋จผ์ ๊ด์ฐฐ(์ํ) ํํ์ผ๋ก, ๋ก๋ด ์์ ์ ๊ด์ /์๋์ดํํฐ ์ํ(proprioceptive state)๋ฅผ ์๋ ์ขํ๊ณ๋ก ๋ํ๋ด์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ์ํผ์๋ ์์ ์ ๋ก๋ด ์๋(End-effector)์ ์ด๊ธฐ ์์ธ๋ฅผ ์์ ์ผ๋ก ์ผ์, ๊ทธ ์ดํ์ ๋ชจ๋ ์์น/์์ธ ๋ณํ๋ฅผ ์๊ธฐ ์์ ์ ์ถ๋ฐ์ ๊ธฐ์ค์ผ๋ก ํํํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ ๋์์ ์์น๊ฐ ์กฐ๊ธ์ฉ ๋ฌ๋ผ์ ธ๋, ๋ก๋ด์ ํญ์ ์๊ธฐ ๊ธฐ์ค์ผ๋ก ๋ณด๋ ์ ์ด ๋์ด ๊ณต๊ฐ ์ผ๋ฐํ์ ์ ๋ฆฌํฉ๋๋ค. ๋ง์น ์ฌ๋์ด ๋์ ๊ฐ๊ณ ์์ ์์ง์ผ ๋, ์ฒ์ ์ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์๋์ ์ผ๋ก ๋ฐฉํฅ์ ์ก๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ด์ ํจ๊ป, ํ์ต ์ ์ํผ์๋๋ง๋ค ๋ก๋ด์ ์ด๊ธฐ ์์ธ๋ฅผ ๋ฌด์์๋ก ์ฝ๊ฐ ๋ณ๊ฒฝํ์ฌ ์์ํ๋๋ฐ, ์ด ์ญ์ ์ ์ฑ ์ด ๋ค์ํ ์ถ๋ฐ ์ฌ๊ฑด์์๋ ์ฑ๊ณตํ ์ ์๋๋ก ํด์ฃผ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์์ปจ๋ ๋ก๋ด์ โ๋ด ์์ด ์๋ ์ฌ๊ธฐ ์์ด์ผ ํ๋๋ฐ?โ๋ผ๋ ๊ณ ์ ๊ด๋ ์ ๋ฒ๋ฆฌ๊ณ , ์ด๋์ ์์ํ๋ ๋ชฉํ๋ฌผ๊ณผ ์๋์ ์ธ ์์ง์๋ง ๋ฐฐ์ฐ๋๋ก ํ ๊ฒ์ ๋๋ค. ๊ทธ ๋๋ถ์, ์คํ ์ค์ ์์ ๋์์ด ์ค๊ฐ์ ์์ง์ด๋ ๋ฐฉํด ์ํฉ์ด ์์ด๋ ์ ์ฑ ์ด ์ ๋์ฒํ ์ ์์๋ค๊ณ ํฉ๋๋ค (ํ์ ํ ์ ์/๊ฐ๊ฑด์ฑ ์คํ ๋ถ๋ถ์์ ์์).
๋ค์์ผ๋ก ๋ก๋ด ํ ์ ์ด๋ฅผ ์์ ํ๊ณ ํจ๊ณผ์ ์ผ๋ก ํ๊ธฐ ์ํด, ์ํผ๋์ค ์ ์ด๊ธฐ(impedance controller)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ํผ๋์ค ์ ์ด๋ ํ๊ฒฝ๊ณผ ์ ์ด์ด ํ์ํ ์์ ์์ ์ ์ฉํ ๋ฐฉ์์ผ๋ก, ๋ก๋ด์ ๋ง์น ์คํ๋ง-๋ํผ ์์คํ ์ฒ๋ผ ์ทจ๊ธํ์ฌ ํ ์กฐ์ ๊ณผ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค. HIL-SERL์์๋ ์๋ฅผ ๋ค์ด ๊ฝ๊ธฐ/์ฝ์ ์์ ์ฒ๋ผ ํ์ด ๊ฐํด์ง๋ ์์ ์ ์ด ์ํผ๋์ค ์ ์ด๋ฅผ ์ ์ฉํ๊ณ , ๊ฑฐ๊ธฐ์ ์ฐธ์กฐ ๊ถค์ ์ ํ(reference limiting) ๋ฑ์ ์ถ๊ฐํด ์ค์๊ฐ์ผ๋ก ๊ณผ๋ํ ํ์ด๋ ์๋๋ฅผ ์ ํํ์ต๋๋ค. ์ด๋ ๋ก๋ด ํ์ด ํ์ต ์ค ์๋ฑํ ํ์ ์ฃผ๊ฑฐ๋ ์ถฉ๋ํ ๋ ํ๋์จ์ด๋ฅผ ๋ณดํธํ๋ ์์ ์ฅ์น์ ๋๋ค. ์ด์ ์ ๊ฐ์ ์ฐ๊ตฌ์ง์ SERL ์์คํ ์์ ์ด๋ฌํ ์์ ํ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋์๊ณ , ์ด๋ฒ์๋ ๊ทธ๊ฒ์ ๊ณ์นํ๋ค๊ณ ํฉ๋๋ค. ์ฝ๊ฒ ๋งํด, ๋ก๋ด์ด ์๋ฌด๋ฆฌ ํ์ต ์ค ํญ์ฃผํ๋๋ผ๋ โ์์ ๋ชจ๋โ๊ฐ ํญ์ ์๋ํ๊ณ ์์ด ํฐ ์ฌ๊ณ ์์ด ์งํ๋ ์ ์์์ต๋๋ค.
๋ฐ๋๋ก, ๋งค์ฐ ์ญ๋์ ์ธ ์์ (์: ๊ณต์ค์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋์ง๊ฑฐ๋, ๋น ๋ฅด๊ฒ ์ฑ์ฐ์งํ๋ฏ ์์ง์ด๋ ๋์)์์๋ ์ด๋ฆฐ ๊ณ ๋ฆฌ(์คํ๋ฃจํ) ์ ์ด๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๋์ดํํฐ ์ขํ๊ณ์์ ์ง์ ํ/ํ ํฌ(wrench)๋ฅผ ๋ช ๋ นํ์ฌ ๋ก๋ด์ ๊ฐ์์์ผฐ์ต๋๋ค. ์ด๋ฌํ feedforward ํ ์ ์ด๋, ์์ปจ๋ ํ๋ผ์ดํฌ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ํ ๋ค์ง๋ ๋์์ด๋ ์ ๋ ๋ธ๋ก์ ์ฑ์ฐ์ผ๋ก ๋นผ๋ด๋ ๋์์์ ์์ฃผ ์งง์ ์๊ฐ์ ํฐ ๊ฐ์์ ์ฃผ๊ธฐ ์ํด ํ์ํ์ต๋๋ค. ํ๋ฃจํ ์ ์ด(ํผ๋๋ฐฑ ์ ์ด)๋ก๋ ์ผ์ ์ง์ฐ ๋๋ฌธ์ ๋ฐ๋ผ์ก๊ธฐ ํ๋ ์๊ฐ์ ํ์๋ฅผ ์คํ๋ฃจํ๋ก ์ค๋ฒ๋ฆฐ ๊ฒ์ ๋๋ค. ๋ฌผ๋ก ์ด๋ฐ ๋ฐฉ์์ ์ ๊ตํ ํผ๋๋ฐฑ์ ์์ง๋ง, ๋จ ๋ช๋ฐฑ ๋ฐ๋ฆฌ์ด์ ์ก์ ์ผ๋ก ๊ฒฐ์ ๋๋ ๊ณผ์ ์์๋ โ๊ทธ ์๊ฐ ์ ๋๋ก ํ์ ์คฌ์ผ๋ฉดโ ์ฑ๊ณตํ๋ฏ๋ก ์ถฉ๋ถํ์ต๋๋ค. ์๋ฅผ ๋ค์ด Jenga ๋ธ๋ก์ ์ฑ์ฐ์ผ๋ก ์ณ์ ๋นผ๋ผ ๋, ํ๋ฒ ํ๋๋ฅด๋ ๋์์ ๋ฏธ์ธ ์กฐ์ ์์ด๋ ์ฒ์ ๊ฐ๋/ํ์ด ์ ํํ๋ฉด ์ฑ๊ณตํฉ๋๋ค. HIL-SERL ์ ์ฑ ์ ๊ทธ ๊ฐ๋์ ํ์ ์ ์ ํ ์กฐํฉ์ ํ์ต์ผ๋ก ๋ฐ๊ฒฌํ๊ณ , ์คํ๋ฃจํ ์ ์ด๋ก ์ด๋ฅผ ์คํํ์ต๋๋ค.
์ ๋ฆฌํ๋ฉด, HIL-SERL์ ๋ก๋ด ์ ์ด ์ค๊ณ๋ ์์ ํน์ฑ์ ๋ง๊ฒ ๋ ๊ฐ์ง๋ก ์์ฝ๋ฉ๋๋ค: - ์ ์ /์ ๋ฐ ์์ ์๋ ์ํผ๋์ค ๊ธฐ๋ฐ ํผ๋๋ฐฑ ์ ์ด๋ก ์์ ํ๊ณ ์ฌ์ธํ๊ฒ ์ ๊ทผ, - ๋์ /์ ์ ์์ ์๋ ํผ๋ํฌ์๋ ํ ์ ์ด๋ก ํ์ํ ๋ชจ๋ฉํ ์ ์ฆ๊ฐ ๋ถ์ฌ.
์ด ๋ชจ๋๋ ์ค์ ๋ก๋ด ํ๋์จ์ด์์ 1~2์๊ฐ ๋์ ์์ฒ ๋ฒ ์๋ํด๋ ๊ธฐ๊ณ์ ๋ฌด๋ฆฌ๊ฐ ์๋๋ก ํ๋ฉด์, ๋์์ ํ์ต์ ์ถฉ๋ถํ ์์ ๋๋ฅผ ์ฃผ๊ธฐ ์ํ ์ค๊ณ์ ๋๋ค. IsaacSim๊ณผ ๊ฐ์ ๊ณ ์ฑ๋ฅ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ด๋ฌํ ๋ฌผ๋ฆฌ์ ์ํ์ ๊ฐ์ํํ ์ ์์ผ๋, ๋ณธ ๋ ผ๋ฌธ์์๋ ์ค ๋ก๋ด์ผ๋ก ์ง์ ํ์ตํ๋ ๊ฒ์ ํํ๊ธฐ์ ์ด๋ฌํ ์์ ์ฅ์น๋ค์ด ํ์์ ์ด์์ต๋๋ค. ๋ก๋ด๊ณตํ ์ค๋ฌด์ ์ ์ฅ์์ ๋ณผ ๋, ๋ง์ฝ IsaacSim์์ HIL-SERL์ ๊ตฌํํ๋ค๋ฉด ์ค์ ๋ฌผ๋ฆฌ ์ถฉ๋์ ์ํ ์์ด๋ ๋์ผ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ์ ์๊ฒ ์ง๋ง, ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์ ํ๋์ ๋๋ฉ์ธ ์ฐจ์ด ๋ฌธ์ ๊ฐ ๋ ์๊ธธ ์ ์์ต๋๋ค. HIL-SERL์ ์์ ์ฒ์๋ถํฐ ์ค์ ์์ ํด๋ฒ๋ฆผ์ผ๋ก์จ sim-to-real ๋ฌธ์ ๋ฅผ ํผํ๊ณ , ๊ทธ ๋์ ์ฌ๋์ ๊ฐ๋ ๊ณผ ์ปจํธ๋กค๋ฌ๋ก ์ํ์ ๊ด๋ฆฌํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ โ์ธ๊ฐ ์์ ๊ฐ๋ ๊ด์ด ์ง์ผ๋ณด๋ ๊ฐ์ด๋ฐ, ๋ก๋ด์ด ๋ฐฐ์ฐ๋๋ก ํ์ฅ ํฌ์ โํ ์ ์ด์ง์.
๊ทธ๋ฆฌํผ(์) ์ ์ด: ์ด์ฐ ํ๋์ ๋ถ๋ฆฌ
HIL-SERL์ด ํน๋ณํ ๋ ํ ๊ฐ์ง๋ ๊ทธ๋ฆฌํผ(open/close ์๋์) ์ ์ด๋ฅผ ๋ณธ์ฒด ํ์ ์ฐ์ ์ ์ด์ ๋ถ๋ฆฌํ๋ค๋ ์ ์ ๋๋ค. ๋ก๋ด ํ์ ์์ง์(6~7์ถ ์ฐ์ ์ ์ด)๊ณผ, ๋ฌผ์ฒด๋ฅผ ์ก๊ธฐ ์ํ ์์๊ท ๋์(์ด์ฐ 2๊ฐ: ์ด๊ธฐ/๋ซ๊ธฐ)์ ์ฑ๊ฒฉ์ด ๋ค๋ฆ ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ด๋ฅผ ํ๋์ ์ฐ์ ๊ณต๊ฐ์ ๋ฃ์ด ํ์ตํ๋ฉด, ์ ๋์์ ์ด์ฐ์ ํน์ฑ์ ๋คํธ์ํฌ๊ฐ ํํํ๊ธฐ ์ด๋ ค์ ํ์ต์ด ๋นํจ์จ์ ์ผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋์์ 0 ๋๋ 1์ ํ๋จ์ธ๋ฐ, ์ด๋ฅผ ํ๋์ ์ฐ์ ์ก์ ๊ฐ(์: -1~+1 ์ฌ์ด)์ผ๋ก ํด๋ดค์ ์ ๋๋ก ์ด๊ณ ๋ซ๋ ํ์ด๋ฐ์ ํํํ๊ธฐ ๊น๋ค๋กญ์ต๋๋ค.
๊ทธ๋์ HIL-SERL์์๋ ๋ ๊ฐ์ MDP๋ฅผ ๋ณํ ํด๊ฒฐํ๋ค๊ณ ๊ฐ๋ ํํ์ต๋๋ค. ํ๋๋ ์ฐ์ ํ๋๊ณต๊ฐ M_c๋ก ๋ก๋ด ํ์ 3D ์ด๋/ํ์ /ํ ์กฐ์ ๋ฑ์ ๋ด๋นํ๊ณ , ๋ค๋ฅธ ํ๋๋ ์ด์ฐ ํ๋๊ณต๊ฐ M_d๋ก ๊ทธ๋ฆฌํผ์ โ์ด๊ธฐ/๋ซ๊ธฐ/์ ์งโ๋ฅผ ๋ด๋นํฉ๋๋ค. ๋ MDP๋ ์ํ๊ณต๊ฐ S๋ ๊ณตํต (๋๊ฐ์ ํ๊ฒฝ ๊ด์ธก: ์นด๋ฉ๋ผ ์์, ๋ก๋ด ์ํ, ๊ทธ๋ฆฌํผ ์ํ ๋ฑ)์ด๊ณ ํ๋๊ณต๊ฐ๋ง ์ฐ์ vs ์ด์ฐ์ผ๋ก ๋ค๋ฆ ๋๋ค. ์ฝ๊ฒ ๋งํ๋ฉด, ํ๋๋ ํ ์์ง์ด๋ ๋, ํ๋๋ ์ ์์ง์ด๋ ๋๋ฅผ ๋ ์ ์ ๋๋ค.
์ด์ฐ ๊ทธ๋ฆฌํผ ๋์์ ํ์ต์ํค๊ธฐ ์ํด DQN ๋ฐฉ์์ ๋ณ๋ Critic ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ๊ทธ๋ฆฌํผ์ ํ๋๋ค์ ์๋ฅผ ๋ค๋ฉด {์ด๊ธฐ, ๋ซ๊ธฐ, ์ ์ง} 3๊ฐ์ง์ด๋ฉฐ (์ํ ๋ก๋ด์ด๋ฉด ๊ฐ ํ์ ์ด๊ธฐ/๋ซ๊ธฐ๋ฅผ ์กฐํฉํด ๋ ๋ง์์ง ์๋ ์์), ์ด๋ค์ ๋ํด Q๊ฐ์ ํ๊ฐํ๋ ๊ทธ๋ฆฌํผ Q-ํฌ๋ฆฌํฑ Q_d(s, a_d)๋ฅผ ํ๋ จํฉ๋๋ค. Critic ํ์ต์ ๊ณ ์ ์ ์ธ ๋ฒจ๋ง ์ดํ์ด์ ์ ๋ฐ์ดํธ๋ก, DQN ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋์ผํฉ๋๋ค. ์์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค (HIL-SERL ๋ณธ๋ฌธ Eq.(3)):
Q_{d}\left( s_{t},a_{t} \right) \leftarrow r_{t} + \gamma\max_{a\prime \in \mathcal{A}_{d}}{\widehat{Q}}_{d}\left( s_{t + 1},a\prime \right),
์ฌ๊ธฐ์ \hat{Q}*d๋ ํ๊น ๋คํธ์ํฌ๋ก์ ํ์ฌ Q_d์ ์ง์ฐ๋ ๋ณต์ฌ๋ณธ์ ๋๋ค. ์ด ์ ๋ฐ์ดํธ๋ฅผ ์์ค ํจ์ ๊ด์ ์์ ๋ณด๋ฉด, 2์ ๊ณฑ ์ค๋ฅ ์์ค L*_d(s\',a\')))\^2์ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก Q_d ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ ๋๋ค. ํ๊น ๋คํธ์ํฌ๋ Polyak ํ๊ท ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ํ๋ จ์ ์์ ํํฉ๋๋ค (DQN์์ ํํ ํ๋ ๊ธฐ๋ฒ). } = (Q_d(s,a) - (r + _{a'} \hat{Q
์ ์ฑ ์คํ ์๋ ์ด๋ป๊ฒ ๋์ ๊ฒฐํฉํ๋๋ ํ๋ฉด, ์ฐ์ ํ์ฌ ์ํ์์ ์ฐ์ ์ ์ฑ \pi_\phi๋ก ํ ์์ง์ ์ก์ a_c๋ฅผ ๋ฝ๊ณ , ๋์์ ์ด์ฐ Critic Q_d๋ก๋ถํฐ ์ต๋๊ฐ ํ๋ a_d๋ฅผ ๊ณ ๋ฆ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด (a_c, a_d) ์์ ํ๋์ ํตํฉ ์ก์ ์ผ๋ก ๋ก๋ด์ ์ ์ฉํฉ๋๋ค. ์์ปจ๋ ์ฝ์ ์์ ์์ ์ด๋ค ์์ ์ \pi_\phi๊ฐ โ์์ผ๋ก ์ ์งโ์ด๋ผ๋ ํ ์ด๋์ ๋๊ณ , Q_d๋ โ๊ทธ๋ฆฌํผ ๋ซ์๋ผโ๋ฅผ ์ต๋ Q๋ก ํ๋จํ๋ค๋ฉด, ๋ก๋ด์ ์์ผ๋ก ์ ์งํ๋ฉด์ ๋์์ ์ง๊ฒ ์๊ฐ๋ฝ์ ๋ซ์ต๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ, ์ ์ฑ ๋คํธ์ํฌ๋ ํ ์์ง์์ ์ง์คํ์ฌ ์ฐ์ ๊ณต๊ฐ์ ์ปค๋ฒํ๊ณ , ๊ทธ๋ฆฌํผ ๋์์ ํ์์ ์ ์ฑ (\arg\max Q_d)์ผ๋ก ์ทจํด์ง๋๋ค.
์ด ์ ๊ทผ์ ์ธ๋ป ๋ณต์กํด ๋ณด์ด์ง๋ง, ์ค์ ๋ก๋ ํ์ต์ ํฌ๊ฒ ์์ ์์ผฐ์ต๋๋ค. ๊ทธ๋ฆฌํผ ๋์์ ์ฌ๋ ์๋ฒ์ผ๋ก๋ ์ด๋ ํ์ด๋ฐ์ ๋ซ์์ผ ํ ์ง๊ฐ ๋ช ํํ ํ์๋๊ธฐ ๋๋ฌธ์ Q๋ฌ๋๊ฐ ๋น๊ต์ ์ฝ๊ฒ ํ์ตํ ์ ์๊ณ , ์ฐ์ ์ ์ฑ ์ ๊ทธ์ ๋ง์ถฐ ์์ด ๋ซํ ์ํฉ์ ๋ง๋ค๋๋ก ์กฐ์ ๋ฉ๋๋ค. ๋น์ ํ์๋ฉด, ์ด์ ํ ๋ ํ๋ฌ ์กฐ์(์ด์ฐ: ๋ธ๋ ์ดํฌ/์ก์ )๊ณผ ์คํฐ์ด๋ง(์ฐ์)์ ๋ฐ๋ก ๋ฐฐ์ฐ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ํจ๊ป ํ ๋คํธ์ํฌ๋ก ๋ฐฐ์ฐ๋ ค ํ๋ฉด ํท๊ฐ๋ฆฌ์ง๋ง, ๋์ ๋๋๋ฉด ๋ ๋นจ๋ฆฌ ์๋ฌ๋์ง์. ์ค์ ์ ์๋ค๋ โ์ฐ์ ๋ถํฌ๋ก ์ด์ฐ ๊ทธ๋ฆฝ ๋์๊น์ง ๊ทผ์ฌํ๋ ค๋ ์ด๋ ต๋๋ผ, ๊ทธ๋์ ์ฐจ๋ผ๋ฆฌ ๋ถ๋ฆฌํ๋๋ ์๋ฒ+๊ต์ ๊ณผ ๋ง๋ฌผ๋ ค ์ฑ๋ฅ์ด ์ข์๋คโ๋ผ๊ณ ๋ฐํ์ต๋๋ค.
์ธ๊ฐ-์ฐธ์ฌ ๊ฐํํ์ต ์ ์ฐจ: ์ธํฐ๋ฒค์ ๊ณผ ๋ฐ์ดํฐ ์์ง
์ด์ HIL-SERL์ ๊ฐ์ฅ ์ค์ํ ์ธ๊ฐ ๊ฐ์ (human-in-the-loop) ๋ถ๋ถ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ํ๋ณธ ํจ์จ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๋ ค๋ฉด, ํจ๊ณผ์ ์ธ ํ์์ด ํ์ํ๋ฐ ํ์ค ๋ก๋ด์์๋ ๋ฌด์์ ํ์ํ๋ค๊ฐ ์๊ฐ๋ ์ค๋ ๊ฑธ๋ฆฌ๊ณ ์ํํ ์ ์์ต๋๋ค. HIL-SERL์ ์ฌ๋์ ํผ๋๋ฐฑ์ ํตํด ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค. ํ๋ง๋๋ก โ๋ก๋ด์ด ์๋ชปํ ๋ ์์์ ์ง์ ํ๊ณ ๊ณ ์ณ์ค๋คโ๋ ๊ฒ์ ๋๋ค.
่จป: ์ด๋ฌํ ์ ๊ทผ์ DAgger(Dataset Aggregation) ๊ฐ์ ๋ชจ๋ฐฉํ์ต+์ธํฐ๋ฒค์ ๊ธฐ๋ฒ๊ณผ ์ ์ฌํ์ง๋ง, ๊ฒฐ์ ์ ์ผ๋ก ๋ชจ์ ๋ฐ์ดํฐ๋ก RL ์ ๋ฐ์ดํธ๋ฅผ ํ๋ค๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ฆ, HIL-SERL์ HG-DAgger(Kelly et al., 2018)์์ ์๊ฐ์ ๋ฐ๋, ์์ง ๋ฐ์ดํฐ๋ก ์ฆ๊ฐ ์ ์ฑ ์ ๊ฐํํ์ต ์ ๋ฐ์ดํธํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ์ป๋ ์ ์์ ์๋ก์ด ๋ฐฉํฅ์ ๋๋ค.
์ธํฐ๋ฒค์ ์ ์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ํ์ต ์ค ๋ก๋ด์ด ์ํผ์๋๋ฅผ ์ํํ๋ ๋์, ์ฌ๋์ด ๋ชจ๋ํฐ๋งํฉ๋๋ค. ์ฌ๋์ VR ์ฅ์น๋ SpaceMouse(3D ์กฐ์ด์คํฑ) ๋ฑ์ ํตํด ๋ก๋ด์ ์๊ฒฉ์กฐ์ํ ์ ์๋ ์ํ์ ๋๋ค. ์ํผ์๋์์ ๋งค ์๊ฐ ๋จ๊ณ t๋ง๋ค, ์ฌ๋์ ํ์ฌ ๋ก๋ด ์ํ s_t๋ฅผ ๋ณด๊ณ ๊ฐ์ ์ฌ๋ถ \mathbb{1}_{\text{intervene}}๋ฅผ ํ๋จํฉ๋๋ค. ๋ง์ฝ ๋ก๋ด์ด ํฐ ์ค์๋ฅผ ์ ์ง๋ฅด๊ฑฐ๋ ํ๋ณต ๋ถ๊ฐ๋ฅํ ๋์ ์ํ๋ก ๊ฐ ๊ฒ ๊ฐ์ผ๋ฉด, ๊ฐ์ ํ๋๊ทธ๋ฅผ ์ผญ๋๋ค (\mathbb{1}=1). ๊ทธ๋ฌ๋ฉด ๋ก๋ด ์ ์ด๊ถ์ด ์ฌ๋์๊ฒ ๋์ด๊ฐ๋ฉฐ, ์ฌ๋์ ์ต๋ H ์คํ ๊น์ง ์ฐ์์ผ๋ก ๋ก๋ด์ ์กฐ์ํด ์ฌ๋ฐ๋ฅธ ์ํ๋ก ๋ณต๊ท์ํค๊ฑฐ๋ ๊ณผ์ ๋ฅผ ๋์ ์ํํด์ค ์ ์์ต๋๋ค. ์ด๋ฌํ ์ฌ๋์ด ์กฐ์ข ํ ๊ตฌ๊ฐ์ ๋นจ๊ฐ ์ ์ผ๋ก ํ์ํ๋ฉด, ์๋ ์์๋์ฒ๋ผ ๋ํ๋ฉ๋๋ค:
flowchart LR
subgraph episode["ํ ์ํผ์๋"]
PolicyAction[๋ก๋ด ์ ์ฑ
์คํ] --> State1[์ํ]
State1 -->|์ ์ํ ์ค| NextAction[๋ค์ ํ๋ ๊ฒฐ์ ]
State1 -->|์ํ ์ํฉ ๋ฐ์| HumanIntervene[์ฌ๋ ๊ฐ์
]
HumanIntervene --> CorrectAct[์ฌ๋ ์กฐ์]
CorrectAct --> StateFix[์๋ก์ด ์ํ]
StateFix -->|๊ต์ ์๋ฃ| NextAction
StateFix -->|์ฌ์ ํ ์ํ| HumanIntervene
end
๊ทธ๋ฆผ: HIL-SERL์ ์ธ๊ฐ ๊ฐ์ ์ ์ฐจ. ๋ก๋ด์ด ์ํ ์ํฉ์ ๋น ์ง๋ฉด ์ฌ๋ ์ด์์๊ฐ SpaceMouse ๋ฑ์ ์ธํฐํ์ด์ค๋ก ์ผ์ ๊ตฌ๊ฐ ๋ก๋ด์ ์๊ฒฉ ์กฐ์ข ํ์ฌ ๋ฐ๋ก์ก๋๋ค. ๊ทธ๋ฐ ํ ๋ค์ ๋ก๋ด ์ ์ฑ ์ด ์คํ์ ์ด์ด๊ฐ๋ค. ํ ์ํผ์๋ ๋ด์ ์ฌ๋ฌ ๋ฒ ๊ฐ์ (red segments)์ด ๋ฐ์ํ ์ ์์ง๋ง, ์ ์ฑ ์ด ๊ฐ์ ๋จ์ ๋ฐ๋ผ ๊ฐ์ ๋น๋๋ ์ค์ด๋ ๋ค.
์ฌ๋ฌ ์ฐจ๋ก ๊ฐ์ ์ด ํ ์ํผ์๋์์ ์ด๋ฃจ์ด์ง ์๋ ์์ง๋ง, ์ ์ฑ ์ด ์ ์ ํ์ต๋๋ฉด ์๋ถ๋ถ์์๋ง ๊ฐ๋ ๊ฐ์ ํ๊ณ ์ดํ์๋ ๋ก๋ด์ด ์ค์ค๋ก ์ ์ํํ๋ ํํ๋ก ๋ณํฉ๋๋ค. ์ค์ ๋ก ์ฐ๊ตฌํ์ โ์ด๋ฐ ์ฝ 30% ๊ตฌ๊ฐ์ ์ผ์ข ์ ์ ์ ๋ณดํธ์์ฒ๋ผ ๋ฐ๋ผ๋ค๋๋ฉฐ ๊ฐ์ ํด์ค์ผ ํ์ง๋ง, ์ ์ฑ ์ด ํ์ตํ๋ฉด์ ์ฌ๋์ ์ ์ ์์ ๋ผ๊ณ ์ง์ผ๋ณด๊ธฐ๋ง ํด๋ ๋์๋คโ๊ณ ํ์ํฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ด๋ ๊ฒ ์ป์ด์ง ์ฌ๋ ๊ฐ์ ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ํ์ฉ๋ ๊น์? ํต์ฌ์ ์ด ๋ฐ์ดํฐ๋ ๊ณง๋ฐ๋ก ํ์ต์ ์ฐ์ธ๋ค๋ ์ ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฌ๋์ด ์กฐ์ข ํ ๊ตฌ๊ฐ์ ์ํ/ํ๋ ์ ์ด (s, a_{human}, s\')๋ค์ ๋ฐ๋ชจ ๋ฒํผ์ RL ๋ฒํผ ๋ชจ๋์ ์ ์ฅํฉ๋๋ค. ์ด๋ ์คํ๋ผ์ธ ์๋ฒ ๋ฐ์ดํฐ์ฒ๋ผ๋ ์ฐ์ด๊ณ , ๋์์ ์จ๋ผ์ธ ๊ฒฝํ์ผ๋ก๋ ์ทจ๊ธ๋๋ ์ด์ ์ด ์์ต๋๋ค. ํํธ, ์ฌ๋์ด ๊ฐ์ ํ์ง ์๊ณ ๋ก๋ด์ด ํ๋ ๊ตฌ๊ฐ๋ค์ ์ ์ด (s, a_{robot}, s\')๋ค์ RL ๋ฒํผ์๋ง ์ ์ฅํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๋์ ์ฌ๋ฐ๋ฅธ ์๋ฒ ๋ฐ์ดํฐ์ ๋ก๋ด์ ์คํจ/์ฑ๊ณต ๊ฒฝํ์ด ๋ถ๋ฆฌ๋์ด ๋ฒํผ ๋ ๊ฐ์ ๋ด๊ธฐ๊ฒ ๋ฉ๋๋ค. ์์ ์ธ๊ธํ RLPD ํ์ต์ ๋ ๋ฒํผ๋ก๋ถํฐ ์ ๋ฐ์ฉ ์ํ๋งํ๋ฏ๋ก, ์ฌ๋ ๊ต์ ๋ฐ์ดํฐ๋ ๋ฐ๋ณตํด์ ์ฌ์ฌ์ฉ๋๋ฉฐ, ๋ก๋ด ์์ฒด ํ์ ๋ฐ์ดํฐ์ ์์ฌ ์ ์ฑ ์ ํฅ์์ํค๊ฒ ๋ฉ๋๋ค.
์ ์ด๋ฌํ ์ ์ฅ ์ ๋ต์ด ์ค์ํ๊ฐ? ์ฌ๋ ๊ฐ์ ๋ฐ์ดํฐ๋ ๋์ฒด๋ก ์ฑ๊ณต์ ํฅํ ๋ฐ๋ฅธ ํ๋ ์ํ์ค์ ๋๋ค. ๋ก๋ด์ด ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ค๊ฐ ์ฌ๋์ด ๋๊ฒจ๋ฐ์ผ๋ฉด ๊ณง๋ฐ๋ก ๋ชฉํ ์ชฝ์ผ๋ก ์กฐ์ํ ๊ฒ์ด๋ฏ๋ก, ๊ทธ ๊ตฌ๊ฐ์ ๊ต์ ๋ ์ต์ ๊ฒฝ๋ก๋ผ ํ ์ ์์ง์. ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฐ๋ชจ ๋ฒํผ์ ๋ฃ์์ผ๋ก์จ, ๋ง์น ์ถ๊ฐ ์๋ฒ์ ์ป์ ํจ๊ณผ๋ฅผ ๋ ๋๋ค. ๊ทธ๋ฆฌ๊ณ RL ๋ฒํผ์๋ ๋ฃ๋ ์ด์ ๋, ๋ก๋ด ๊ด์ ์์๋ ์๊ธฐ ํ๋ ์ค๊ฐ์ ์ฌ๋์ด ๋ฐ๊ฟจ๋ ๊ฒฝํ๋ ํ๋์ โ์คํจ ํ ๊ต์ โ ๊ฒฝํ์ผ๋ก ์ธ์ง๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฌํ ์ ์ฅ ๋ฐฉ์์ ์ ์ฑ ํ์ต์ ํจ์จ์ ์ผ๋ก ๊ฐํํ๋ ๋ฐ ํจ๊ณผ์ ์ด์๋ค๊ณ ์ ์๋ค์ ๊ฐ์กฐํฉ๋๋ค.
์ธํฐ๋ฒค์ ์ ์ญํ ์ ์์ฝํ๋ฉด, ๋ก๋ด์ด ์ค์ค๋ก ํ์ํ๊ธฐ ์ด๋ ค์ด ์ํ ๊ณต๊ฐ ์์ญ์ ์ธ๊ฐ์ด ๋ฉ์์ฃผ๋ ๊ฒ์ ๋๋ค. ์ํ/ํ๋ ๊ณต๊ฐ์ด ํฌ๊ณ ๊ณผ์ ์งํ(horizon)์ด ๊ธธ์๋ก, ์ด๋ก ์ ์ผ๋ก ํ์ํ ์ํ ์๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋ RL์ด ํ๋ค์ด์ง๋๋ค. ํ์ง๋ง ์ฌ๋์ด ์ ์ ํ ๊ฐ์ ํ๋ฉด, ๋ก๋ด์ ํ์ํ ์ค์ํ ๊ฒฝํ์ ๋น ๋ฅด๊ฒ ์ต๋ํ๊ณ ์ธ๋ฐ์๋ ์คํจ๋ฅผ ์ค์ผ ์ ์์ต๋๋ค. ์ด๋ ๋ง์น ์์ ๊ฑฐ๋ฅผ ์ฒ์ ํ ๋ ์์์ ์ก์์ฃผ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ํผ์ ์์์ด ๋์ด์ง ๊ฒ์, ๋ช ๋ฒ ์ก์์ฃผ๊ณ ๋ฐฉํฅ ๊ต์ ํด์ฃผ๋ฉด ๊ธ์ธ ๊ท ํ ์ก๋ ๋ฒ์ ๋ฐฐ์ฐ๋ ์ด์น์ง์. HIL-SERL์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, ํนํ ๋ณต์กํ ๊ณผ์ ์ผ์๋ก ์ด๋ฌํ ์จ๋ผ์ธ ๊ต์ ์ด ์์ด๋ ํ์ต์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ๋งค์ฐ ๋๋ ธ์ง๋ง, ์ธ๊ฐ ๊ฐ์ ์ ํ์ฉํ์ ์งง์ ์๊ฐ์ 100% ์ฑ๊ณต๋ฅ ๊น์ง ์ฌ๋ผ๊ฐ ์ ์์์ต๋๋ค.
์ฃผ์ํ ์ ์, ์ฌ๋ ๊ฐ์ ๋ ๊ณผํ๋ฉด ์ ๋๋ค๋ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ โํ์ ์ด์์ผ๋ก ์ฌ๋์ด ๋ชจ๋ ๊ฑธ ํด์ค๋ฒ๋ฆฌ๋ฉด ๊ฐํํ์ต์ด Qํจ์๋ฅผ ์๋ชป ์ถ์ ํด์ ํ์ต์ด ๋ถ์์ ํด์ง ์ ์๋คโ๊ณ ์ง์ ํฉ๋๋ค. ์์ปจ๋ ์ ์ฑ ์ด ์๋ง์ด์ด๋ ์ฌ๋์ด ๋งค๋ฒ ๊ธด ๊ตฌ๊ฐ ๊ฐ์ ํด์ ์ฑ๊ณต์์ผ๋ฒ๋ฆฌ๋ฉด, ์๊ณ ๋ฆฌ์ฆ์ โ์ด? ํ๋๋ง ์ทจํ๋ฉด ์์์ ์ฑ๊ณต์ผ๋ก ์ฐ๊ฒฐ๋๋คโ๋ผ๊ณ ์คํํด๋ฒ๋ฆด ์ํ์ด ์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ๋ง๊ธฐ ์ํด ๊ฐ์ ์ ์งง๊ณ ๊ตญ์ง์ ์ผ๋ก, โํ์ํ ์ต์ํโ์ผ๋ก๋ง ํ๋ ๊ฒ์ด ์๋ น์ด๋ผ๊ณ ํฉ๋๋ค. ํ์ค์์ ์ฐ๊ตฌ์๋ ์ด๋ฅผ ์ฒด๋ํ์ฌ, ์ ์ specificํ ์๊ฐ์๋ง ๊ฐ์ ํ๊ณ ๊ทธ ์ธ์ ์คํจํ๊ฒ ๋๋ ์์ผ๋ก ํ๋ค๊ณ ํฉ๋๋ค. ์ด๋ฐ ๋ฏธ๋ฌํ ์กฐ์ ์ ๊ฒฐ๊ตญ ์ฌ๋ ๊ฒฝํ์ ์์กดํ์ง๋ง, ๋ก๋ด ์ ์ฑ ์ด ์ถฉ๋ถํ ์ค์ค๋ก ์คํจ๋ก๋ถํฐ๋ ๋ฐฐ์ฐ๋๋ก ์ฌ์ง๋ฅผ ์ฃผ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
์ ์ฒด ํ๋ จ ๊ณผ์ ์ ๋ฆฌ
์ด์์ผ๋ก ์ค๋ช ํ ๊ตฌ์ฑ์์๋ค์ ํ๋๋ก ๋ชจ์, HIL-SERL์ ํ์ต ํ์ดํ๋ผ์ธ์ ๋จ๊ณ๋ณ๋ก ์ ๋ฆฌํด๋ณด๊ฒ ์ต๋๋ค:
- ์นด๋ฉ๋ผ ๋ฐ ์ผ์ ์ค์ : ๊ณผ์ ์ ์ ํฉํ ์๊ฐ ๊ด์ธก์ ์ค๋นํฉ๋๋ค. ์๋ชฉ ์นด๋ฉ๋ผ๋ ๋ฌผ์ฒด๋ฅผ ๊ทผ์ ํ๊ณ ์๊ธฐ ์ค์ฌ ์์ผ๋ฅผ ์ฃผ๊ธฐ ๋๋ฌธ์ ์ ์ฉํ๋ฉฐ, ํ์ํ๋ฉด ์ฌ๋ฌ ๋์ ์ธก๋ฉด ์นด๋ฉ๋ผ๋ ๋ฐฐ์นํฉ๋๋ค. ๋ชจ๋ ์นด๋ฉ๋ผ ์์์ ๊ด์ฌ ์์ญ์ผ๋ก ํฌ๋กญ ๋ฐ 128ร128 ํด์๋๋ก ๋ฆฌ์ฌ์ด์ฆํ์ฌ ์ ๊ฒฝ๋ง ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด์ฒ๋ผ ์ ๋ ฅ์ ์ ์ ํจ์ผ๋ก์จ ์ ์ฑ ์ด ๊ผญ ํ์ํ ์ ๋ณด์๋ง ์ง์คํ๋๋ก ํฉ๋๋ค.
- ๋ณด์ ๋ถ๋ฅ๊ธฐ ํ๋ จ: ์ฌ๋ ์๊ฒฉ์กฐ์์ผ๋ก ์ฝ 10ํ์ ์ํผ์๋๋ฅผ ์ํํ๋ฉด์ ์ฑ๊ณต/์คํจ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ฅผ ๋ชจ์๋๋ค (์ฝ 5๋ถ ์์). ์์ง๋ ์ฝ 1200์ฅ ์ด๋ฏธ์ง(์ฑ๊ณต 200, ์คํจ 1000 ๋น์จ)๋ฅผ ๊ฐ์ง๊ณ ์ด์ง ๋ถ๋ฅ๊ธฐ C_\psi(s)๋ฅผ ํ๋ จํฉ๋๋ค. ํ์ต์ Adam ์ตํฐ๋ง์ด์ ๋ก ์งํํ๋ฉฐ, 100ํ ๋ฐ๋ณต์ผ๋ก ์๋ฃ๋ฉ๋๋ค. ์ ํ๋ 95% ์ด์์ ๋ถ๋ฅ๊ธฐ๊ฐ ์์ฑ๋๋ฉด, ์ด๋ฅผ ํ๊ฒฝ์ ๋ณด์ ํ์ ๋ชจ๋๋ก ํ์ฌํฉ๋๋ค.
- ์ธ๊ฐ ์๋ฒ ๋ฐ์ดํฐ ์์ง: ๊ฐ์ ํน์ ๋ค๋ฅธ ์ฌ๋ ์กฐ์์ผ๋ก 20~30ํ ์ฑ๊ณต ์๋ฒ ํธ๋ ์ด์ง๋ฅผ ๋ชจ์๋๋ค. ์ด๋ฅผ ๋ฐ๋ชจ ๋ฒํผ(B_demo)์ ์ ์ฅํฉ๋๋ค. ์ด๋ ํ๊ฒฝ ๋ฆฌ์ (reset)์ ์์ ๋ณ๋ก ๋ค๋ฅด๊ฒ ์ด๋ค์ง๋๋ฐ, ์ด๋ค ๊ณผ์ ๋ ์๋ ๋ฆฌ์ ์คํฌ๋ฆฝํธ๋ฅผ ์ง๋๊ณ , ์ด๋ค ๊ฒ์ ์ฌ๋์ด ์ง์ ์ธํ ์ ์ด๊ธฐํํ์ต๋๋ค. (์: USB ๊ฝ๊ธฐ ์์ ์ ์ฌ๋์ด ์์ผ๋ก ๊ฝํ USB๋ฅผ ๋นผ์ฃผ๋ ์์ผ๋ก ๋ฆฌ์ ํ๋ค๊ณ ํฉ๋๋ค.)
- ๊ฐํํ์ต ์์: ์ด์ ์ ์ฑ ๋คํธ์ํฌ \pi_\phi์ Q ๋คํธ์ํฌ Q_\theta๋ฅผ ์ด๊ธฐํํ๊ณ , ํ์ต์ ๊ฐ์ํฉ๋๋ค. ์ด๊ธฐ์๋ ์ ์ฑ ์ด ๋ฌด์์์ ๊ฐ๊น๊ธฐ ๋๋ฌธ์ ์ฌ๋์ด ์ฆ์ ๊ฐ์ ์ ํด์ค๋๋ค. ์ํผ์๋๋ง๋ค, ๋ก๋ด์ ํ์ฌ ์ ์ฑ ์ผ๋ก ์๋ํ๊ณ , ์ฌ๋์ ํ์ ์ ๊ฐ์ ํ์ฌ ๋ฐ๋ก ์ก์ต๋๋ค. ๋ชจ๋ ์ ์ด(๋ก๋ด ํ๋์ด๋ ์ธ๊ฐ ํ๋์ด๋ )์ด RL ๋ฒํผ(B_rl)์ ๊ธฐ๋ก๋๊ณ , ์ธ๊ฐ ํ๋ ์ ์ด๋ ๋ฐ๋ชจ ๋ฒํผ์๋ ์ค๋ณต ๊ธฐ๋ก๋ฉ๋๋ค.
- ์จ๋ผ์ธ RL ์ ๋ฐ์ดํธ: ๋งค ์๊ฐ ์คํ , ํน์ ์ฃผ๊ธฐ์ ์ผ๋ก, ํ์ต์(Learner) ํ๋ก์ธ์ค๊ฐ ๋์ํ์ฌ RL ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก B_demo์ B_rl์์ ์ ๋ฐ์ฉ ์์ ๋ฏธ๋๋ฐฐ์น๋ก (์ (1)) Q-ํจ์ ์์ค์ ๊ณ์ฐํด Critic ์ ๋ฐ์ดํธ๋ฅผ ํ๊ณ , (์ (2))์ ์ ์ฑ ์์ค๋ก Actor ์ ๋ฐ์ดํธ๋ฅผ ํฉ๋๋ค. ๋ํ ๊ทธ๋ฆฌํผ Critic Q_d๋ (์ (3))์ ๋ฐ๋ผ ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ํ๊น ๋คํธ์ํฌ๋ค์ ํด๋ฆฌ์ก ํ๊ท ์ผ๋ก ๊ฐฑ์ ๋ฉ๋๋ค. ์ด๋ฌํ ์ ๋ฐ์ดํธ๋ ์ถฉ๋ถํ ๋ง์ ๋น๋๋ก ๋์๊ฐ, ์ ์ฑ ์ด ์ค์๊ฐ์ผ๋ก ๊ฐ์ ๋๊ณ , ์ต์ ์ ์ฑ ํ๋ผ๋ฏธํฐ๋ Actor(๋ก๋ด) ํ๋ก์ธ์ค์ ๋น๋๊ธฐ๋ก ์ ๋ฌ๋ฉ๋๋ค.
- ํ๋ จ ์ง์ ๋ฐ ์ข ๋ฃ: ์ธ๊ฐ ๊ฐ์ ๋น๋๊ฐ ์ค๊ณ , ์ํผ์๋ ์ฑ๊ณต๋ฅ ์ด ๊ฑฐ์ 100%์ ๋๋ฌํ๋ฉด ํ์ต์ ์ข ๋ฃํฉ๋๋ค. ์คํ์ ๋๋ถ๋ถ ๊ณผ์ ๋ 1์๊ฐ ๋ด์ธ, ์ด๋ ค์ด ๊ฒ๋ค๋ 2~2.5์๊ฐ ๋ด์ ์๋ ดํ์ต๋๋ค. ํ๋ จ์ด ์งํ๋ ์๋ก ์ธ๊ฐ ๊ฐ์ ์ ์์ 0%๋ก ๊ฐ์ํ๊ณ , ์ฑ๊ณต๋ฅ 100%์ ๋น ๋ฅธ ์ํ ์๋๋ฅผ ์ ์ฑ ์ด ๋ฌ์ฑํ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฆผ 1: HIL-SERL ์์คํ ๊ฐ๊ด. (1) ์ฐ์ ์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ๊ฐ ์ฑ๊ณต/์คํจ ์ฌ๋ก๋ฅผ ๋ชจ์ ๋ณด์ ๋ถ๋ฅ๊ธฐ๋ฅผ ํ์ต์ํจ๋ค. (2) ์์์ ์ธ๊ฐ ์๋ฒ(๋ฐ๋ชจ)์ ๋ชจ์ ๋ฐ๋ชจ ๋ฒํผ๋ฅผ ์ด๊ธฐํํ๋ค. (3) ์ค์ ๋ก๋ด์ผ๋ก ํ์ต์ ์์ํ๋ฉฐ, ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ณด์ ๋ถ๋ฅ๊ธฐ๋ก๋ถํฐ ๋ฐ์ ํฌ์ ๋ณด์์ ์ต๋ํํ๋๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ค. ์ด ๊ณผ์ ์์ ์ฌ๋์ด ๊ฐ์ ํ์ฌ ์คํจ๋ฅผ ๊ต์ ํ๊ณ , ๊ทธ ๊ต์ ๋ฐ์ดํฐ ๋ํ ๋ฒํผ์ ์์ฌ ํ์ต์ ์ฌ์ฉ๋๋ค. ์๊ฐ์ด ์ง๋ ์๋ก ์ฑ๊ณต๋ฅ ์ ์ฌ๋ผ๊ฐ๊ณ ์ธ๊ฐ ๊ฐ์ ์ ์ค์ด๋ ๋ค.
์์ฝํ์๋ฉด, HIL-SERL์ ๋ฐฉ๋ฒ๋ก ์ โ์ข์ ๋ฐ์ดํฐ ํ๋ณด โ ๊ฐ๊ฑดํ RL ์ ๋ฐ์ดํธ โ ํ์์ ์ฌ๋ ๊ฐ์ โ์ ์ ์ํ ๋ฃจํ๋ฅผ ๊ตฌํํ ๊ฒ์ ๋๋ค. ๋ก๋ด๊ณตํ ๊ด์ ์์ ์ด๋ ๊ฐํํ์ต๊ณผ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์ง์์ ์ ๋ฌํ ์กฐํฉ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ฌ๋์ ์ด๊ธฐ ๊ฐ์ด๋์ ์์ ์ฅ์น ์ญํ ์ ํ๊ณ , ๊ฐํํ์ต์ ๊ฒฐ๊ตญ ์ฌ๋์ ํ๊ณ๋ฅผ ๋์ด์๋ ์ต์ ํ๋ฅผ ์ด๋ฃจ์ด๋ ๋๋ค. ๋ค์์ผ๋ก, ์ด๋ฌํ ๋ฐฉ๋ฒ์ด ์ค์ ๋ก ์ด๋ค ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์๋์ง ๋ค์ํ ์คํ์ ํตํด ์์๋ณด๊ฒ ์ต๋๋ค.
์คํ: ๋ค์ํ ์กฐ์ ๊ณผ์ ์์์ ์ฑ๋ฅ ๊ฒ์ฆ
HIL-SERL์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ ์๋ค์ 7๊ฐ์ง์ ์์ดํ ์์ (task)์ ์์คํ ์ ์ ์ฉํ์ต๋๋ค. ์ด ์์ ๋ค์ ๋์ด๋์ ์ฑ๊ฒฉ ๋ฉด์์ ์๋ก ํฌ๊ฒ ๋ฌ๋ผ, ์ ์๋ ๋ฐฉ๋ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ํตํ ์ ์๋์ง ๋ณด์ฌ์ค๋๋ค. ๊ฐ ๊ณผ์ ์ ํ๊ฒฝ ์ค์ , ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ๋ฅผ ํ๋์ฉ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์คํ ํ๊ฒฝ๊ณผ ๊ณผ์ ๊ฐ์
์คํ์ ์ฌ์ฉ๋ ๋ก๋ด์ 7์์ ๋ ๊ด์ ์ ๋ก๋ด ํ์ด๋ฉฐ, ๊ณผ์ ์ ๋ฐ๋ผ 1๋ ๋๋ 2๋์ ํ์ ์ฌ์ฉํ์ต๋๋ค. ๋ ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ธ ๋ก๋ด ๊ธฐ์ข ์ด ๋ช ์๋์ง ์์์ง๋ง, ์ฌ์ง๊ณผ ๋ฌธ๋งฅ์ Franka Emika Panda์ ๊ฐ์ ํ๋๋ก๋ด ํ์ ํ์ฉํ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค (ํฐ์๊ณผ ๊ฒ์ ์์ ํ์ด ๋ฑ์ฅ). ๊ทธ๋ฆฌํผ๋ 2ํ๊ฑฐ ๊ทธ๋ฆฌํผ๋ก ๋ณด์ด๋ฉฐ, ํ์ ์ ๋ ๋ก๋ด์ด ๊ฐ๊ฐ ๊ทธ๋ฆฌํผ๋ฅผ ์ฅ์ฐฉํ ์ํ ๊ตฌ์ฑ์ ์ทจํ์ต๋๋ค.
๊ฐ ๊ณผ์ ์๋ ์๊ฐ ๊ด์ธก์ผ๋ก ์๋ชฉ ์นด๋ฉ๋ผ ์์์ด ๊ธฐ๋ณธ์ผ๋ก ์ฐ์๊ณ , ์ธก๋ฉด ์นด๋ฉ๋ผ ์์๋ ๋ณด์กฐ์ ์ผ๋ก ์ ๊ณต๋์ต๋๋ค. ๋ํ ์๋์ดํํฐ ์์น, ์์ธ, ์๋(ํธ์์คํธ)์ ํ/ํ ํฌ ์ผ์ ๊ฐ, ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฆฌํผ ์ํ(์ด๋ฆผ/๋ซํ) ๋ฑ์ด ์ํ์ ํฌํจ๋์์ต๋๋ค. ํ๋์ ์์ ์ธ๊ธํ๋๋ก ์๋์ดํํฐ ๊ณต๊ฐ์ ์๋/ํ ๋ช ๋ น(์ฐ์)๊ณผ ๊ทธ๋ฆฌํผ ๊ฐํ(์ด์ฐ)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋ค์์ ์คํํ 7๊ฐ ๊ณผ์ ๋ฅผ ์์ฝํ ๊ฒ์ ๋๋ค:
- (A) SSD ์ค์น: ์ปดํจํฐ ๋ฉ์ธ๋ณด๋์ SSD๋ฅผ ์ ๋ฐํ๊ฒ ๋ผ์ฐ๋ ์์ ์ ๋๋ค. ์์ ์ฌ๋กฏ์ SSD ์ปค๋ฅํฐ๋ฅผ ์ฝ์ ํด์ผ ํ๋ฏ๋ก ์ ๋ฐ ์์น ์กฐ์ ์ด ์๊ตฌ๋ฉ๋๋ค. ํ ์์ผ๋ก SSD๋ฅผ ์ก๊ณ ๊ฐ๋๋ฅผ ๋ง์ถฐ ๋๋ฌ ๋ผ์ฐ๋ ์๋๋ฆฌ์ค์ ๋๋ค.
- (B) RAM ๊ฝ๊ธฐ: ๋ฉ์ธ๋ณด๋์ RAM ๋ชจ๋์ ์ฝ์ ํ๋ ๊ณผ์ ์ ๋๋ค. ์ฌ๋กฏ ์์น์ ๋ง์ถฐ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ์กฐ์ ํด ๋๊น์ง ๋๋ฌ์ผ ํฉ๋๋ค. SSD์ ์ ์ฌํ๊ฒ ๊ณ ์ ๋ฐ ์ฝ์ ์์ ์ ๋๋ค.
- (C) USB ๊ฝ๊ธฐ + ์ผ์ด๋ธ ํด๋ฆฝ: USB ์ปค๋ฅํฐ๋ฅผ ์ง์ด๋ค์ด ํฌํธ์ ๊ฝ๊ณ , ์ด์ด์ ์ผ์ด๋ธ์ ํด๋ฆฝ์ ๊ฑฐ๋ ์ฐ์ ์์ ์ ๋๋ค. ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง ๋ฉํฐ์คํ ์์ ์ด๊ณ , ํนํ ๋ ๋ฒ์งธ ๋จ๊ณ์ธ ์ผ์ด๋ธ ํด๋ฆฝ์ ๋ผ์ฐ๊ธฐ๋ ์ ์ฐํ ์ผ์ด๋ธ์ ๋ค๋ฃจ๋ ๊ณผ์ ์ ๋๋ค.
- (D) IKEA ์ ๋ฐ ์กฐ๋ฆฝ: IKEA ์ฑ ์ฅ์ ๋ ๊ฐ ์ธก๋ฉด ํ์ ๊ฒฐํฉํ๊ณ , ์ํ์ ์น์ด ์กฐ๋ฆฝํ๋ ์์ ์ ๋๋ค. ๋ค๋จ๊ณ ์กฐ๋ฆฝ์ผ๋ก, ๋ณผํธ ์์ด ๊ฒฐํฉ ๊ตฌ์กฐ๋ฅผ ๋ง์ถฐ ๋ผ์์ผ ํ๋ฏ๋ก ์ ๋ฐ๋์ ํ ์กฐ์ ์ด ํ์ํฉ๋๋ค. ์ํ์ด ํ๋ ฅํ์ฌ ๋ค๊ณ ๋ง์ถ๋ ์ฅ๋ฉด์ด ํฌํจ๋ฉ๋๋ค. (์คํ์์๋ ์ธกํ1, ์ธกํ2, ํํ 3๋จ๊ณ๋ก ๋๋ ์ธก์ ํจ.)
- (E) ์๋์ฐจ ๋์๋ณด๋ ์กฐ๋ฆฝ: ์๋์ฐจ ๋ด๋ถ ๋์๋ณด๋ ํจ๋์ ์ฐจ์ฒด ํ๋ ์์ ๋ผ์ ๋ง์ถ๋ ์์ ์ ๋๋ค. ์ํ์ด ๋ํ ํจ๋์ ํจ๊ป ๋ค๊ณ , ์ฌ๋ฌ ๊ฐ์ ์์น๋ฅผ ๋์์ ์ ๋ ฌํด์ผ ํ๋ ๋์ด๋๊ฐ ๋งค์ฐ ๋์ ์ ๋ฐ ์์ ์ ๋๋ค. ํ๊ณผ ์ฌ๋กฏ ์ฌ๋ฌ ๊ฐ๊ฐ ๋์์ ๋ง์์ผ ํ๋ ํผ์ฆ ๊ฐ์ ์ํฉ์ ๋๋ค.
- (F) ๋ฌผ์ฒด ํธ๋์ค๋ฒ: ๋ ๋ก๋ด ํ ์ฌ์ด์ ๋ฌผ์ฒด๋ฅผ ์ ๋ฌํ๋ ์์ ์ ๋๋ค. ํ ํ์ด ๋ฌผ์ฒด๋ฅผ ๋ค์ด ๋ค๋ฅธ ํ ์์ ๊ฑด๋ค์ฃผ๊ณ , ๊ฑด๋ค๋ฐ์ ํ์ด ๋ค์ ์ ์๋ฆฌ์ ๋ด๋ ค๋์ต๋๋ค. ์ํ ๊ฐ ๊ถค์ ์กฐํ์ ํ์ด๋ฐ์ด ์ค์ํ ์์ ์ ๋๋ค.
- (G) ํ์ด๋ฐ ๋ฒจํธ ์ฅ์ฐฉ: ํ์ฑ ์๋ ํ์ด๋ฐ ๋ฒจํธ๋ฅผ ๊ธฐ์ด/์ถ์ ๋ผ์ฐ๋ ์์ ์ ๋๋ค. ๋ฒจํธ๋ ๋์ด๋ ์๋, ๊ผฌ์ผ ์๋ ์๊ธฐ์ ์ ์ฐ์ฒด ์กฐ์์ ์ผ์ข ์ ๋๋ค. ์ํ์ด ๋ฒจํธ ์์ชฝ์ ์ก๊ณ ๋น๊ฒจ๊ฐ๋ฉฐ, ํฑ๋์ ๊ฑธ๋ฆฌ๋๋ก ๋ง์ถฐ์ผ ํฉ๋๋ค.
- (H) Jenga ๋ธ๋ก ์ฑ์ฐ์ง: ์ ๊ฐ ํ์์์ ํน์ ๋ธ๋ก์ ์ฑ์ฐ์ผ๋ก ์ณ์ ๋นผ๋ด๋ ๋งค์ฐ ๋ ํนํ ๊ณผ์ ์ ๋๋ค. ๋ก๋ด ํ์ ๊ฐ์ฃฝ ์ฑ์ฐ์ ์ฅ๊ณ , ์ ํํ ์๋์ ๊ฐ๋๋ก ํ๋๋ฌ ํด๋น ๋ธ๋ก๋ง ํ๊ฒจ๋ด์ผ ํฉ๋๋ค. ๋งค์ฐ ์ญ๋์ ์ด๊ณ ์คํ๋ฃจํ ์ฑ๊ฒฉ์ ์์ ์ผ๋ก, ์ธ๊ฐ๋ ์ฑ๊ณตํ๊ธฐ ์ด๋ ค์ด ๊ณ ๋๋ ๊ธฐ์ ์ ๋๋ค.
- (I) ํ๋ผ์ดํฌ ๋ค์ง๊ธฐ: ํ๋ผ์ดํฌ์ผ๋ก ํฌ์ผ์ดํฌ๋ ๋ฌ๊ฑ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๊ณต์ค์ผ๋ก ๋์ก๋ค ๋ฐ๋ ์์ ์ ๋๋ค. ๋ก๋ด์ด ํ๋ผ์ดํฌ์ ์ก๊ณ ์๊ฐ์ ์ผ๋ก ํ๊ฒจ์ฌ๋ ค ๋ฌผ์ฒด๋ฅผ 180๋ ๋ค์ง์ต๋๋ค. ๋์ ์กฐ์์ ์๋ก, ์ ํํ ํ๊ณผ ํ์ด๋ฐ์ด ํ์์ ๋๋ค.
์ด์์ ๊ณผ์ ๋ค์ ์ ์ vs ๋์ , ๋จ์ผ vs ๋ค๋จ๊ณ, ๋จ๋จํ ๋ฌผ์ฒด vs ์ ์ฐํ ๋ฌผ์ฒด, ๋จํ vs ์ํ ๋ฑ ๋ค์ํ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ด์ ์๋ ์ด๋ฌํ ์์ ๋ค ์ค ์ฌ๋ฟ์ด โ์ค์ธ๊ณ RL๋ก๋ ๋ถ๊ฐ๋ฅโํ๊ฑฐ๋ โ๋งค์ฐ ์ด๋ ค์ ๋ณ๋ ์ ์ฉ ๊ธฐ๋ฒ์ด ํ์โํ๋ค๊ณ ์ฌ๊ฒจ์ก์ต๋๋ค. ์์ปจ๋ ์ํ ์๊ฐ ๊ธฐ๋ฐ RL์ด๋, ํ์ด๋ฐ๋ฒจํธ ๊ฐ์ ๋ณํ์ฒด ์กฐ๋ฆฝ, ์ ๊ฐ ์ฑ์ฐ์ง ๋ฑ์ ์ ๋ก๊ฐ ๊ฑฐ์ ์๋ ๋์ ๊ณผ์ ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ์ต์ ์ ๋์ ๋ค์ ๊ณผ๊ฐํ ๋์ ํ์ฌ, HIL-SERL์ ์ผ๋ฐ์ฑ๊ณผ ํจ๊ณผ๋ฅผ ์ ์ฆํ๊ณ ์ ํ์ต๋๋ค.
์คํ ๊ณผ์ ์ ์์ ์ค๋ช ํ ์์คํ ์ผ๋ก ์งํ๋์์ต๋๋ค. ๊ฐ ์์ ๋ง๋ค 1~2.5์๊ฐ์ ํ์ต์ ์์ผฐ์ผ๋ฉฐ, ๋ชจ๋ ํ์ต์ ์ค์ ๋ก๋ด์ผ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค. ํ์ต์ด ์๋ฃ๋ ํ์๋ 100ํ์ฉ ์ํ ์๋๋ฅผ ํด๋ณด๋ฉฐ ์ฑ๊ณต๋ฅ ๊ณผ ์ํ ์๊ฐ์ ์ธก์ ํ์ต๋๋ค (IKEA ์ ์ฒด ์กฐ๋ฆฝ์ ๊ฒฝ์ฐ 10ํ์ ์ํ). ์ด๋ฌํ ์ฑ๋ฅ์ ์ฌ๋ฌ baseline ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ต๋๋ค. ๋น๊ต ๋์์ ํฌ๊ฒ ๋ ๊ทธ๋ฃน์ผ๋ก ๋๋ฉ๋๋ค: - ๋ชจ๋ฐฉํ์ต(IL) ๊ณ์ด: ๊ธฐ๋ณธ Behavior Cloning (BC), ๊ฐ์ ๋ HG-DAgger ๋ฑ ์ธ๊ฐ ๋ฐ๋ชจ/๊ต์ ์ผ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ๋ค. - ๊ฐํํ์ต/RL ๊ณ์ด: ์ ์๋ค์ด ๊ตฌํํ IBRL (Intervention-Based RL), Residual RL, DAPG (Demo Augmented Policy Gradient) ๋ฑ ๊ธฐ์กด ์ฐ๊ตฌ ๋๋ ๋ณํ ๊ธฐ๋ฒ๋ค.
๊ฐ baseline์ ๋ํด์๋ ๋ ผ์ ์น์ ์์ ๋ ์์ธํ ์ค๋ช ํ๊ฒ ์ง๋ง, ๊ฐ๋ตํ ๊ฐ๋ ๋ง ์ง๊ณ ๋์ด๊ฐ๊ฒ ์ต๋๋ค: - BC (Behavior Cloning): ์คํ๋ผ์ธ ์๋ฒ๋ง์ผ๋ก ํ์ต, ์ํผ์๋๊ฐ error accumulation ๋ฌธ์ ํผ. - HG-DAgger: DAgger ์๊ณ ๋ฆฌ์ฆ์ ๋ณํ์ผ๋ก, ์ ์ฑ ์ด ๋ถ์ํ ๋ ์ฌ๋์ด teleop์ผ๋ก ์ ๋ต์ ๋ณด์ฌ์ฃผ๋ IL. ์ธ๊ฐ ๊ต์ ๋ฐ์ดํฐ๋ฅผ supervised learning์ผ๋ก ํผํ . - IBRL: Luo et al. 2023 ๋ฑ์ RL ๋ฐฉ์์ผ๋ก, ์ฌ๋ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ RL์ ๋ฐ์ํ๋ ์๋๊ฐ ์์๋ ๊ฒ์ผ๋ก ๋ณด์ (HIL-SERL๊ณผ ์ ์ฌํ๋ ๊ตฌ์ฑ ์์ ์ผ๋ถ ๋ค๋ฆ). - Residual RL: ๊ธฐ์กด ํผ๋๋ฐฑ ์ปจํธ๋กค๋ฌ(์: ์ฝ์ heuristic)์ RL๋ก ๋ณด์ ๊ฐ์ ๋ํ๋ ๋ฐฉ๋ฒ. ์ธ๊ฐ ์ง์์ผ๋ก ๊ธฐ๋ณธ๊ธฐ ์ฑ์ฐ๊ณ RL์ด ์ธ๋ถ ํ๋. - DAPG: ์๋ฒ ๋ฐ์ดํฐ๋ก ์ด๊ธฐ ์ ์ฑ ์ ๋ง๋ ํ On-policy RL (TRPO/DDPG ๋ฑ)์ผ๋ก ํ์ธํ๋ํ๋ ๊ธฐ๋ฒ (Rajeswaran et al. 2018). ์ฃผ๋ก ๋ชจ์กฐํ ์ ์กฐ์ ๋ฑ์ ์ฐ์์. - Diffusion Policy (DP): ์ต๊ทผ ๊ด์ฌ๋ฐ๋ IL ๋ฐฉ๋ฒ์ผ๋ก, conditional diffusion model์ ์ฌ์ฉํด ์์ฐ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ํ์ตํ๊ณ ์ํ๋ง์ผ๋ก ํ๋ ์์ฑ. (Ma et al. 2023) - Ours (HIL-SERL): ๋ณธ ๋ ผ๋ฌธ ์ ์ ๋ฐฉ๋ฒ.
์ด์ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์ฑ๋ฅ ๊ฒฐ๊ณผ: ์ฑ๊ณต๋ฅ ๊ณผ ์๋
ํ 1: HIL-SERL (์ฐ๋ฆฌ ๊ธฐ๋ฒ)๊ณผ BC(HG-DAgger, ๋๋์ ์ธ๊ฐ๋ฐ์ดํฐ ์ฌ์ฉ) ์ฑ๋ฅ ๋น๊ต. ์ฑ๊ณต๋ฅ ์ 100ํ ์ค ์ฑ๊ณต ๋น์จ (IKEA ์ ์ฒด๋ 10ํ ์ค), ๊ดํธ๋ BC ๋๋น ์๋ ํฅ์๋ฅ . ์๊ฐ์ ํ ์ํผ์๋ ๋น ํ๊ท ์๋ฃ ์๊ฐ, ๊ดํธ๋ BC ๋๋น ์๋ ๋ฐฐ์จ. ๋ชจ๋ ๊ณผ์ ์์ ๊ฐํํ์ต ์ ์ฑ ์ด ์ธ๊ฐ ์๋ฒ ๊ธฐ๋ฐ ์ ์ฑ ๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ , ๋๋ถ๋ถ ๋ ๋น ๋ฅด๊ฒ ๊ณผ์ ๋ฅผ ์๋ฃํจ์ ์ ์ ์๋ค.
์ ํ๋ Behavior Cloning (BC)๊ณผ HIL-SERL ์ ์ฑ ์ ๋น๊ตํ ๊ฒฐ๊ณผ์ ๋๋ค. BC๋ HIL-SERL๊ณผ ๋์ผํ ์์ ์๋ฒ+๊ต์ ์ํผ์๋๋ฅผ ์ฌ์ฉํ์ฌ HG-DAgger๋ก ํ์ต์ํจ ๋ชจ๋ฐฉํ์ต ์ ์ฑ ์ ๋๋ค. ์ฆ, ์ธ๊ฐ์ด ์ ๊ณตํ ๋ฐ์ดํฐ๋์ ๊ฐ๊ฒ ๋ง์ถ๊ณ ๋ฐฉ๋ฒ๋ง RL vs IL๋ก ๋ฌ๋ฆฌํ ๋น๊ต์ ๋๋ค. ๊ฒฐ๊ณผ๋ HIL-SERL์ ์์น์ ๋๋ค: ๋ชจ๋ ๊ณผ์ ์์ HIL-SERL์ด 100% ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , BC๋ ๊ณผ์ ์ ๋ฐ๋ผ 2%~95% ์ฌ์ด๋ก ํธ์ฐจ๊ฐ ํฌ์ง๋ง ํ๊ท 49.7%์ ๋ถ๊ณผํ์ต๋๋ค. ํนํ ๋ณต์กํ ๊ณผ์ ์ผ์๋ก ๋ชจ๋ฐฉํ์ต์ ์ฑ๋ฅ์ด ์ ์กฐํ๋๋ฐ, ์๋ฅผ ๋ค์ด ํ์ด๋ฐ ๋ฒจํธ ์กฐ๋ฆฝ์ BC ์ฑ๊ณต๋ฅ ์ด 2%๋ก ๊ฑฐ์ ์คํจ๋ง ํ ๋ฐ๋ฉด HIL-SERL์ 100%๋ก ์๋ฒฝํ ์ฑ๊ณตํ์ต๋๋ค. ์๋์ฐจ ๋์๋ณด๋ ์กฐ๋ฆฝ๋ BC 41% vs RL 100%๋ก ํฐ ์ฐจ์ด๋ฅผ ๋ณด์์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ผ์ด๋ธ ํด๋ฆฝ์ด๋ ์ํ ํธ๋์ค๋ฒ ๊ฐ์ด ์ฌ๋ ์๋ฒ๋ง์ผ๋ก๋ ๊ทธ๋ญ์ ๋ญ ๋๋ ์ผ์ BC๋ 80~95%๋ฅผ ๋ณด์์ง๋ง, RL์ ์ด๊น์์ด 100%๋ก ๋ง๋ฌด๋ฆฌํ์ต๋๋ค.
๋ ํ๋ ์ฃผ๋ชฉํ ์ ์ ์์ ์ํ ์๊ฐ์ ๋๋ค. HIL-SERL ์ ์ฑ ์ ๋๋ถ๋ถ์ ๊ณผ์ ์์ BC ์ ์ฑ ๋ณด๋ค ๋น ๋ฅด๊ฒ ์์ ์ ์๋ฃํ์ต๋๋ค (ํ๊ท 1.8๋ฐฐ ๋น ๋ฆ). ์์ปจ๋ IKEA ํํ ์กฐ๋ฆฝ์ BC๊ฐ 8.9์ด ๊ฑธ๋ฆฌ๋ ๊ฒ์ RL์ 2.4์ด ๋ง์ ํด๋ด์ด 3.7๋ฐฐ ํจ์จ์ ์ด์์ต๋๋ค. ์ด๋ ์์ ๋ ผํ ํ ์ธ ๋ณด์ ์ค๊ณ ๋์ RL ์ ์ฑ ์ด ์ต๋จ ๊ฒฝ๋ก๋ฅผ ์ถ๊ตฌํ๊ฒ ๋ ๊ฒฐ๊ณผ์ ๋๋ค. ์ฌ๋ ์๋ฒ์ ๋๊ฐ ์์ ํ๊ฒ ์ฒ์ฒํ ํ๋ ๋ฐ๋ฉด, RL ์ ์ฑ ์ โ๋นจ๋ฆฌ ์ฑ๊ณตํ๋ฉด ์ด๋โ์ด๋ ๋ถํ์ํ ๋์์ ์ค์ด๊ณ ๋์๋ค๋ฐ๋ก ์งํํ์ฌ ์๋๋ฅผ ๋์ธ ๊ฒ์ ๋๋ค. ๋ค๋ง ๋์ ์์ ์ธ Jenga ์ฑ์ฐ์ด๋ ํฌ์ผ์ดํฌ ๋ค์ง๊ธฐ์ ๊ฒฝ์ฐ BC๋ ์ด๋ฏธ ์ฌ๋ ์์ค๋ณด๋ค ๋น ๋ฅด๊ณ (์ธ๊ฐ ํ ๋ ์คํผ๋ ์ดํฐ๊ฐ ํ ๊ฒ์ด๊ธด ํ๋) RL๊ณผ ๊ฑฐ์ ๋น์ทํ์ต๋๋ค โ ์ด๋ค์ ์๋ ์งง์ ์๊ฐ์ ๋๋๋ฏ๋ก ์๋ ํฅ์์ ์ฌ์ง๊ฐ ํฌ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ ์ ์ธ ๋ค๋จ๊ณ ์์ ์ผ์๋ก RL ์ ์ฑ ์ ๋ช ํํ ๋ณ๋ ฌํ๋ ์ง๋ฆ๊ธธ์ ์ฐพ์๋ ๋๋ค. ์๋ฅผ ๋ค์ด ์ํ ํธ๋์ค๋ฒ์ RL ์ ์ฑ ์ ๋ฌผ๊ฑด์ ๊ฑด๋ค๊ธฐ ์ง์ ๋ถํฐ ๋ฐ๋ํ์ด ์ด์ง ์์ง์ฌ ๋ฏธ๋ฆฌ ์ค๋นํ๋ ์์ผ๋ก ์๊ฐ์ ๋จ์ถํ์ต๋๋ค.
ํํธ, ๋ค๋ฅธ baseline๋ค๊ณผ์ ๋น๊ต๋ ์ด๋ฃจ์ด์ก์ต๋๋ค. ๋ ผ๋ฌธ์์๋ Table 1(b)๋ก ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ฑ๊ณต๋ฅ ์ ๋์ดํ๋๋ฐ, ๋ช ๊ฐ์ง ๋ํ๋ฅผ ๋ค๋ฉด:
- Diffusion Policy (DP): ์ผ๋ถ ๊ณผ์ ์์๋ 50~60%๋๋ก ์ ๋ฐฉํ์ผ๋, HIL-SERL์๋ ๋ฏธ์น์ง ๋ชปํ์ต๋๋ค. DP๋ ์คํ๋ผ์ธ IL์ด๋ผ ํ๊ณ๊ฐ ์์์ต๋๋ค.
- HG-DAgger: ์ BC์ ๋์ผํ ๊ฒ์ด๋ฉฐ ํ๊ท 49.7%์์ต๋๋ค.
- IBRL (Luo et al. 2023 ๋ฐฉ๋ฒ): RAM ์ฝ์ 75%, ๋์๋ณด๋ 0%, ํธ๋์ค๋ฒ 95% ๋ฑ ๊ณผ์ ๋ณ ํธ์ฐจ๊ฐ ์ปธ๊ณ , ์ด๋ ค์ด ๊ณผ์ ์์ ์์ ์คํจํ๊ธฐ๋ ํ์ต๋๋ค. ์ฌ๋ ๊ฐ์ ์ RL์ ์ฐ๋ HIL-SERL๋งํผ์ ์ฅ์น๋ฅผ ๊ฐ์ถ์ง ๋ชปํ ๊ฒฐ๊ณผ๋ก ๋ณด์ ๋๋ค.
- Residual RL: ๋์ฒด๋ก ๋ณต์ก ๊ณผ์ ๋ ์คํจ(0%), ๋จ์ ๊ณผ์ ๋ IL ์์ค(์: ๋ฌผ์ฒด ๋ค์ง๊ธฐ 97%). ๊ธฐ๋ณธ ์ ์ด๊ธฐ๋ก ํด๊ฒฐ๋ชปํ ๊ฑด RL๋ ๋ชป ๋ถ์ธ๋ค๋ ์๋ฏธ์ ๋๋ค.
- DAPG: ์คํํด๋ฆฌ์ RL๋ก ์๋ฒ์ ํ์ฉํ์ง๋ง, on-policy ์ฑ๊ฒฉ ํ์ ํ๋ณธ ํจ์จ์ด ๋ฎ์ ์ฑ๊ณต๋ฅ ์ด ์ ๋ฐ์ ์ผ๋ก ์ ์กฐํ์ต๋๋ค (๋ณด๋ ์ฝ์ 8%, ํธ๋์ค๋ฒ 72% ๋ฑ).
- HIL-SERL: ๋ชจ๋ 100%.
์์ฝํ๋ฉด, HIL-SERL์ ๊ฑฐ์ ๋ชจ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ์ต๋๋ค. ํนํ ๋ํดํ ์์ ๋ค(์ํ ์กฐ๋ฆฝ, ์ ์ฐ์ฒด, ๋งค์ฐ ์ญ๋์ ํ์ ๋ฑ)์์๋ ์ ์ผํ๊ฒ ์ฑ๊ณตํ ๋ฐฉ๋ฒ์ด์์ต๋๋ค.
์ด๋ฌํ ์ฑ๋ฅ ์ฐจ์ด๋ ํต๊ณ์ ์ผ๋ก๋ ์ ์๋ฏธํฉ๋๋ค. ๋ชจ๋ ๊ณผ์ ์์ HIL-SERL๊ณผ BC์ ์ฑ๊ณต๋ฅ ์ฐจ์ด๋ ์๋นํ๋ฉฐ, ํ๊ท ์ ์ผ๋ก 2๋ฐฐ ์ด์์ ๋๋ค. ์ฐ๊ตฌ์ง์ โ๊ฐํํ์ต์ด ๊ฐ์ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ๋ชจ๋ฐฉํ์ต๋ณด๋ค ํจ์ฌ ๋ซ๋คโ๋ ๊ฒ์ ๊ฐ๋ ฅํ ์ฃผ์ฅํ๊ณ ์์ต๋๋ค. ์ด๋ RL์ด ์ค์ค๋ก ์ค๋ฅ๋ฅผ ์์ ํ๊ณ ๋ ๋์ ์ํ ๋ถํฌ๋ฅผ ํ์ํ๋ค๋ ๊ทผ๋ณธ์ ์ด์ ์ ๋ฐ์ํ๋ค๊ณ ๋ถ์ํฉ๋๋ค. ๋ฐ๋ฉด IL(ํนํ DAgger)์ ์ฌ๋ ๋ฐ๋ชจ ์ฃผ๋ณ์์๋ง ํ์ตํ๋ฏ๋ก ํ๊ณ๊ฐ ์๋ค๋ ๊ฒ์ด์ง์.
ํ์ต ๊ณก์ ๊ณผ ์ ์ฑ ํน์ฑ
HIL-SERL์ ํ์ต ๊ณผ์ ์ ๋ค์ฌ๋ค๋ณด๋ฉด ํฅ๋ฏธ๋ก์ด ์ ์ฑ ์งํ ์์์ ๋ฐ๊ฒฌํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํ์ต ์ค ์ํผ์๋๋ค์ ์ฑ๊ณต๋ฅ , ์ํ์๊ฐ, ๊ฐ์ ๋ฅ ๋ณํ๋ฅผ ๊ณก์ ์ผ๋ก ๊ทธ๋ ค ๋น๊ตํ์ต๋๋ค. ๋ํ์ ์ผ๋ก RAM ์ฝ์ ์์ ์ ๋ํด HIL-SERL๊ณผ HG-DAgger์ ํ์ต ๊ณก์ ์ ๋น๊ตํ ๊ทธ๋ฆผ์ด ์์๋๋ฐ, HIL-SERL ์ชฝ์ ์ํผ์๋๊ฐ ์งํ๋ ์๋ก ์ฑ๊ณต๋ฅ ์ด ๋จ์กฐ ์ฆ๊ฐํ์ฌ ๋น ๋ฅด๊ฒ 100%์ ๋๋ฌํ๊ณ , ๊ฐ์ ๋ฅ ์ 0%๋ก ๋จ์ด์ง๋ฉฐ, ์ํ์๊ฐ๋ ์งง์์ง๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ๋ฐ๋ฉด HG-DAgger(IL)๋ ์ฑ๊ณต๋ฅ ์ด ๋ค์ญ๋ ์ญํ๊ณ ๋๋ด 50% ์ธ์ ๋ฆฌ์ ๋จธ๋ฌผ๋ ์ผ๋ฉฐ, ๊ฐ์ ์ ๊ณ์ ํ์ํ์ต๋๋ค. ์ด๋ RL์ด ์๊ธฐ ๋ถํฌ์์ ์คํจ๋ฅผ ๊ฒช๊ณ ๊ณ ์น๊ธฐ๋ฅผ ๋ฐ๋ณตํ๋ฉด์ ์์ ์ ์ผ๋ก ์๋ ดํ๋ ๋ฐ๋ฉด, IL์ ์ฌ๋ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ๋ค๋ณด๋ ์ผ๊ด๋์ง ๋ชปํ๊ณ ํ๊ณ์ ๋ถ๋ชํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
๋ํ ์ ์๋ค์ ํ์ต๋ ์ ์ฑ ์ ์ ๋ขฐ๋(reliability)์ ์ ๋ต์ ํน์ง์ ๋ถ์ํ์ต๋๋ค. ์ฐ์ , HIL-SERL ์ ์ฑ ์ 100% ์ฑ๊ณต์ ๋๋ฌํ ์ดํ์๋ ๋งค์ฐ ๊ฒฌ๊ณ ํ์ต๋๋ค. ๊ฐ์ ์์ ์ ๋ฐ๋ณต 100๋ฒ ํด๋ ํ ๋ฒ๋ ์คํจํ์ง ์์ผ๋ ๋ถ์ฐ์ด 0์ ๊ฐ๊น์ด ์ ๋ขฐ์ฑ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ โfunnel-shaped state distributionโ๋ก ์๊ฐํํ๋๋ฐ, ํ์ต ์ด๋ฐ์๋ ๋ก๋ด์ด ๋ฐฉํฉํ๋ ์ํ๊ณต๊ฐ์ด ์ ์ฐจ ๋ฐ๋ชจ+๊ต์ ์ํ ์ฃผ๋ณ์ผ๋ก funnel(๊น๋๊ธฐ)์ฒ๋ผ ์ง์ค๋์ด๊ฐ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ฆ ์ด๊ธฐ์๋ ์ํ์ฐฉ์ค๋ก ์ฌ๋ฌ ์ํ๋ฅผ ๊ฑฐ์น์ง๋ง, ์ต์ข ์ ์ฑ ์ ์ฑ๊ณต์ผ๋ก ์ด์ด์ง๋ ๊ฒฝ๋ก๋ง ์ฃผ๋ก ํ์ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฐํํ์ต์ ์๊ธฐ ์๋ ด ํน์ฑ ๋๋ถ์ ๋๋ค. IL ์ ์ฑ ์ ์ฌ๋์ด ๊ฐ๋ฅด์ณ์ค ๋๋ก ๋ฐ๋ผ๊ฐ๋ค ์๋ชป๋๋ฉด ์์๋ฌด์ฑ ์ด๋, RL ์ ์ฑ ์ ์ด์ง ๋น๋๊ฐ๋ ์ค์ค๋ก ๋ค์ ๊ฒฝ๋ก๋ฅผ ์์ ํ๋ฉฐ ๊ฒฐ๊ตญ ๋ชฉํ์ ๋๋ฌํ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ์ฝ๊ฒ ๋งํด, โ์คํจํด๋ ๊ณ์ ์๋ํด์ ๊ฒฐ๊ตญ ํด๋ธ๋คโ๋ ์ ๋ต์ด ๋ด์ฌ๋์๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋ฏ RL ์ ์ฑ ์ ์๊ธฐ-๋ณด์ (self-correcting) ๋ฅ๋ ฅ์ด ์์ด์, ์ด์ํผ๋งจ ์์ค์ ์ฑ๊ณต๋ฅ ์ ๊ตฌํํ๋ค๊ณ ์ ์๋ค์ ํ๊ฐํฉ๋๋ค.
๋ ํ๋ ํฅ๋ฏธ๋ก์ด ๋ถ์์ Reactive vs Predictive Control์ ๋๋ค. HIL-SERL์ด ๋ค๋ฃฌ ๊ณผ์ ๋ค์ ํฌ๊ฒ ๋ ์ ํ์ ์ ์ด๊ฐ ์์ฌ ์์ต๋๋ค: - Reactive(๋ฐ์์ ) ์ ์ด: ํผ๋๋ฐฑ์ ์์๋ก ํ์ฉํ์ฌ ๋ชฉํ๋ฅผ ํฅํด ์กฐ๊ธ์ฉ ์กฐ์ ํ๋ ๋ฐฉ์. ์ฃผ๋ก ์ ๋ฐ ์กฐ๋ฆฝ ๊ฐ์ ๊ณผ์ ์์ ๋ํ๋ฉ๋๋ค. - Predictive(์์ธก์ ) ์ ์ด: ํ๋ฒ ์ ํ ๊ถค์ ์ ๋น ๋ฅด๊ฒ ์คํํ์ฌ ์ฑํจ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ์. ๋์ ๋์ง๊ธฐ/์ฑ์ฐ์ง ๋ฑ์ ํ์ํฉ๋๋ค.
์ ํต์ ์ผ๋ก ๋ฐ์์ ์ ์ด๋ PID๋ ํฌ์ค์ปจํธ๋กค ๊ฐ์ด ๋ฏธ๋ฆฌ ๋ชจ๋ธ๋งํ๊ฑฐ๋ ๊ณ ์ ์ ๋ต์ผ๋ก ๊ตฌํ๋๊ณ , ์์ธก์ ์ ์ด๋ ๋ชจ์ ํ๋ฆฌ๋ฏธํฐ๋ธ๋ ์ต์ ์ ์ด ์๋ฃจ์ ์ผ๋ก ๋ฐ๋ก ์ ๊ทผํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋๋๊ฒ๋, HIL-SERL์ ๋จ์ผ RL ์ ์ฑ ์ ์ด ๋ ๊ฐ์ง ๊ทน๋จ์ ์ ๋ต์ ๋ชจ๋ ํ๋ํ์ต๋๋ค. ์์ปจ๋, SSD ์ฝ์ ์ ์ฑ ์ ์ฒ์ฒํ ์ ๊ทผํ๋ค ๋ฟ์ผ๋ฉด ํ์ ์กฐ์ ํด ๋ผ์๋ฃ๋ ์์ฃผ ์ฌ์ธํ ํผ๋๋ฐฑ ์ ๋ต์ ๊ตฌ์ฌํ์ต๋๋ค. ๋ฐ๋ฉด Jenga ์ฑ์ฐ ์ ์ฑ ์ ์ฌ์ ์ ํ์ํ ์์น์ ์๋๋ฅผ ์ ํํ ๋ง์ถฐ ํ๋ฒ์ ํ๋๋ฅด๋ ์์ธก ์ ๋ต์ ๋ณด์ฌ์ฃผ์์ฃ . ํ๋์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด๋ฌํ ๋ค์ํ ํ๋ ์์์ด ํ์ต๋ ๊ฒ์ RL์ ํฐ ๊ฐ์ ์ผ๋ก ๋ณด์ ๋๋ค. ์ด๋ ๋ณด์๋ง ๋ง๊ฒ ์ฃผ์ด์ง๋ฉด, ์ ๋ต์ ํํ๋ ํ๊ฒฝ์ ๋ง๊ฒ ์ค์ค๋ก ๋์ถ๋จ์ ์์ฌํฉ๋๋ค. ์ธ๊ฐ ์๋ฒ์ผ๋ก๋ ์ด๋ฐ ์ ๋ต์ ์ง์ ์ค๊ณํด์ค ์ ์์ง๋ง, RL์ ๊ฐ๋ฅํ์ต๋๋ค.
๋ ๋ค๋ฅธ ์คํ์ผ๋ก, ์ ์ฑ ์ ์ ์๋ ฅ์ ์ํํ์ต๋๋ค. ํ๋ จ ์ ๋ณด์ง ๋ชปํ ๋๋ฐ ์ํฉ์ ์ค๋ณธ ๊ฒ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ก๋ด์ด ๋ง๋๋ณด๋์ ๋ถํ ๊ฝ๋ ์ค๊ฐ์ ์ฌ๋์ด ์ฌ์ฉ ๋ง๋๋ณด๋๋ฅผ ์์ง์ฌ ์์น๋ฅผ ๋ฐ๊ฟ๋ด ๋๋ค. ๊ทธ๋ฌ๋๋ RL ์ ์ฑ ์ ์ฆ์ ์๋ก์ด ์์น์ ๋ง์ถฐ ํ์ ์กฐ์ ํ์ฌ ๊ณ์ ์ฝ์ ์ ์๋ํ๊ณ , ์ฑ๊ณตํ์ต๋๋ค. ๋ฐ๋ฉด ์ด๋ฐ ์ํฉ์ ์ฌ๋ ์๋ฒ์๋ ์๋ ๊ฑฐ๋ผ, IL ์ ์ฑ ์ด๋ผ๋ฉด ๋์ฒํ์ง ๋ชปํ์ ๊ฒ๋๋ค. ๋ ๋ฌผ์ฒด ์ ๋ฌ ๋์ค ์ผ๋ถ๋ฌ ๋ฌผ๊ฑด์ ๋จ์ด๋จ๋ฆฌ๊ฒ ํด๋ณด๊ธฐ๋ ํ๋๋ฐ, RL ์ ์ฑ ์ ๋จ์ด๋จ๋ฆฌ๋ฉด ์ฃผ์์ ๋ค์ ์๋ํ๋ ์์ผ๋ก ์คํจ๋ฅผ ๋งํํ์ต๋๋ค. ์ด๋ฐ ๋ชจ์ต์ ๋ณด๋ฉด, RL ์ ์ฑ ์ด ํ๊ฒฝ ๋ณํ๋ ์ค์์๋ ์ ์ฐํ๊ฒ ๋์ํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ฐ๊ฑด์ฑ์ ์ค์ ์ฐ์ ์์ฉ์์ ํนํ ์ค์ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ด ๊ฐ์กฐํ๋ฏ, ๋ก๋ด์ ์ผ๊ด์ฑ(consistency)๊ณผ ์ ๋ขฐ์ฑ์ ์์ฉํ์ ํ์ ์๊ฑด์ธ๋ฐ, HIL-SERL ์ ์ฑ ์ ์ด ๊ธฐ์ค์ ์ถฉ์กฑ์ํค๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ํ์ต ์๊ฐ์ ๋ํด ์ง๊ณ ๋์ด๊ฐ์ฃ . 7๊ฐ์ง ๊ณผ์ ๋ชจ๋, ํ๋ จ์ ๊ฑธ๋ฆฐ ์๊ฐ์ 1~2.5์๊ฐ์ด์์ต๋๋ค. ๊ฐ์ฅ ์ค๋ ๊ฑธ๋ฆฐ ๊ฒ์ ํ์ด๋ฐ ๋ฒจํธ (~2.5h)์ IKEA ์กฐ๋ฆฝ (~2h ๋จ์ง)์ด๊ณ , ๋๋จธ์ง๋ 1์๊ฐ ๋ด์ธ์์ต๋๋ค. ์ด ์๊ฐ์ ์ฝ ์๋ฐฑ ์ํผ์๋(์์ฒ~๋ง ๋ฒ์ ์คํ )๋ฅผ ์คํํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํนํ Jenga ์ฑ์ฐ์ 1.25์๊ฐ๋ง์ ์ ์ฑ ์ด ์์ฑ๋์๋๋ฐ, ์ด๋ ์ฐ๊ตฌ์๋ค๋ โ์ธ๊ฐ๋ ํ๋ ๊ฑธ ๋ก๋ด์ด ์ด๋ ๊ฒ ๋นจ๋ฆฌ ๋ฐฐ์์ ์ถฉ๊ฒฉโ์ด์๋ค๊ณ ํ์ํฉ๋๋ค. ์ด์ฒ๋ผ ํ๋ จ์๊ฐ์ด ์ค์ฉ์ ์์ค์ด๋ผ๋ ์ ์ HIL-SERL์ ํฐ ์ฑ๊ณผ์ ๋๋ค. ์ด์ ๊น์ง ์ค๋ก๋ด RL์ ๋ฉฐ์น , ์ฌ์ง์ด ๋ช ์ฃผ๋ฅผ ๋งํ๊ณค ํ๋๋ฐ, ์ด์ ๋ ์ ์ฌ์๊ฐ~๋ฐ๋์ ์์ ํ ๊ฐ์ง ๊ธฐ์ ์ ๋ง์คํฐํ๋ ๊ฒ ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค. ์ด ์ ๋๋ฉด, ์์ ๋จ์๋ก ๋ก๋ด์ ํ์ฅ์ ๊ฐ์ ธ๋ค ๋๊ณ ๋ฐ๋ก ํ์ต์์ผ ์ธ ์๋ ์๋ ์์ค์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ์ฅ์ , ํ๊ณ์ ํฅํ ๋ฐฉํฅ
HIL-SERL์ ํ์ ๊ณผ ์ฑ๊ณผ๋ฅผ ์ดํด๋ณด์์ผ๋, ์ด์ ์ด๋ฅผ ๋นํ์ ์ผ๋ก ํ๊ฐํด๋ณด๊ฒ ์ต๋๋ค. ์ฐ์ ๋ฐ์ด๋ ์ ๋ค์ ์ ๋ฆฌํ ํ, ์์ง ๋จ์ ํ๊ณ๋ ๊ฐ์ ์ฌ์ง๋ฅผ ์ง์ด๋ณด๊ฒ ์ต๋๋ค. ๋ํ ๊ด๋ จ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ฌ HIL-SERL์ ์์๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๋ ๋ ผ์ํฉ๋๋ค.
๊ฐ์ ๋ฐ ๊ธฐ์ฌ
1) ๋ฒ์ฉ์ฑ ์๋ ์ฑ๊ณผ: HIL-SERL์ ํน์ ์์ ํ๋ ๊ฐ๊ฐ ์๋, ์ข ๋ฅ๊ฐ ๋ค๋ฅธ ์ฌ๋ฌ ์์ ์ ํต์ผ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํด ์ฑ๊ณตํ์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ฑ์ฅํ ์ ๋ฐ ์กฐ๋ฆฝ, ์ ์ฐ๋ฌผ์ฒด, ๋์ ๋์ง๊ธฐ, ์ํ ํ๋ ๋ฑ์ ๊ฐ๊ฐ ๋ณ๊ฐ์ ๋์ ์ธ๋ฐ, ๋จ์ผ ์์คํ ์ผ๋ก ๋ชจ๋ ํด๊ฒฐํ ๊ฒ์ ์ ๋ก๋ฅผ ์ฐพ๊ธฐ ์ด๋ ต์ต๋๋ค. ํนํ ์ํ ์๊ฐ RL์ด๋ Jenga ์ฑ์ฐ์ง ๋ฑ์ ์ธ๊ณ ์ต์ด ์์ค์ ์์ฐ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ๊ฐํํ์ต+ํด๋จผ์ธ๋๋ฃจํ ํ๋ ์์ํฌ์ ๊ฐ๋ ฅํจ์ ์ ์ฆํ ๊ฒ์ผ๋ก, ํฅํ ๋ค์ํ ๋ก๋ด ์์ ์ ์ด ์ ๊ทผ์ ํ์ฉํ ์ ์์์ ์์ฌํฉ๋๋ค. ๋ง์น ๋ฒ์ฉ ํ์ต๊ธฐ์ฒ๋ผ, ๋ฐ์ดํฐ๋ง ์กฐ๊ธ ์ฃผ๋ฉด ์ด๋ค ์์ ์ด๋ ๊ฐ๋ฅํ ๋ก๋ด์ ๊ฐ๋ฅ์ฑ์ ์ฟ๋ณด์์ต๋๋ค.
2) ์ํ ํจ์จ์ฑ๊ณผ ์ค์๊ฐ ํ์ต: 1~2์๊ฐ ๋ด ํ์ต์ด๋ผ๋ ๊ฒ์ ํ๋ณธ ํจ์จ ์ธก๋ฉด์ ํฐ ๋์ฝ์ ๋๋ค. ์ด๋ RLPD ์๊ณ ๋ฆฌ์ฆ ์ฑํ, ์๋ฒ๊ณผ ๊ต์ ๋ฐ์ดํฐ ํ์ฉ, ์ฌ์ ํ์ต ๋น์ ๋ชจ๋ธ ์ฌ์ฉ ๋ฑ ์ฌ๋ฌ ์ต์ ํ์ ๊ฒฐ์ค์ ๋๋ค. ํนํ ์คํ๋ผ์ธ ๋ฐ์ดํฐ 50% ํผํฉ ํ๋ จ์ ์ต๊ทผ RL ์ฐ๊ตฌ์์ ์ค์ํ ์ฃผ์ ๋ก, ๋ณธ ์ฐ๊ตฌ๋ ๊ทธ ์คํจ์ฑ์ ์ค์ ๋ก ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋ํ ํ์ค์์ ์ฌ๋์ ๋์์ ๋ฐ์ผ๋ฉฐ ํ์ตํ๋ ์๋๋ฆฌ์ค ์์ฒด๊ฐ ์ค์ฉ์ ์ ๋๋ค. ์์ ์์จ ํ์ต์ ์๊ฐ๊ณผ ์ํ์ด ํฌ์ง๋ง, HIL-SERL์ฒ๋ผ ์ฌ๋๊ณผ ์ํธ์์ฉํ๋ฉด ํ์ต ๊ณผ์ ์ ํต์ ํ๊ณ ํ์ํ ๋ถ๋ถ๋ง ๋ฐ์ดํฐ ์ ๊ณตํ์ฌ ํจ์จ์ ๊ทน๋ํํ ์ ์์ต๋๋ค. ์ด์ฒ๋ผ ์ค์๊ฐ ๋ํํ ํ์ต(interactive learning)์ ์์ผ๋ก ๋ก๋ด ํ์ต์ ์ค์ํ ํจ๋ฌ๋ค์์ด ๋ ๊ฒ์ ๋๋ค.
3) ์ธ๊ฐ ์์ค์ ๋์ด์ ์ฑ๋ฅ: ์ฑ๋ฅ ๋ฉด์์, HIL-SERL ์ ์ฑ ๋ค์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ(ํ ๋ ์ต)๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ธ๊ฐ์ด ๋ช์ญ% ์ฑ๊ณตํ๋ Jenga ์ฑ์ฐ์ 100%๋ก ๋ง๋ค๊ณ , ์ธ๊ฐ์ด 8์ด ๊ฑธ๋ฆฌ๋ ์กฐ๋ฆฝ์ 3์ด๋ง์ ํด์น์ด ๊ฒ์ ๋งค์ฐ ๊ณ ๋ฌด์ ์ ๋๋ค. ์ด๋ ๊ฐํํ์ต์ ์ ์ฌ๋ ฅ์ ์ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก๋ก, ์ฌ๋์ด ๊ฐ๋ฅด์ณ์ค ์ ์๋ ์ต์ ํด๋ฅผ ํ์ํด๋๋ค๋ ์๋ฏธ์ ๋๋ค. ๊ธฐ์กด ๋ชจ๋ฐฉํ์ต์ผ๋ก๋ ์ธ๊ฐ ์ฑ๋ฅ์ด ์ํ์ด์๋๋ฐ, ์ด์ RL๋ก ์ด์ธ์ ๋ก๋ด ์์ ์๋ฅผ ๋ฐฐ์ถํ ์ ์๊ฒ ๋ ๊ฒ์ด์ฃ . ์ฐ์ ์ ๊ด์ ์์๋, ๋ ์ ํํ๊ณ ๋น ๋ฅธ ๋ก๋ด์ ๋น์ฐํ ๋งค๋ ฅ์ ์ธ ๋ชฉํ์ด๋ฏ๋ก, ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ RL๊ธฐ๋ฐ ์์คํ ์ ํ์ฅ์ ๋์ ํ๋ ค๋ ์์ง์์ ํ์ ์ค์ด์ค ๊ฒ์ ๋๋ค.
4) ์์คํ ์ค๊ณ ํต์ฐฐ: HIL-SERL์ โ๋์์ธ์ ์น๋ฆฌโ๋ผ๊ณ ๋ ๋ณผ ์ ์์ต๋๋ค. ์ธ๋ถ์ ์ผ๋ก, ์๋ ์ขํ ํ์ฉ, ์ํผ๋์ค/์คํ๋ฃจํ ์ ์ด ํผ์ฉ, ๊ทธ๋ฆฌํผ ์ด์ฐ ๋ถ๋ฆฌ ์ ์ด, ํฌ์ ๋ณด์ ๋ถ๋ฅ๊ธฐ ์ฌ์ฉ ๋ฑ ํ๋ ๋ฌธ์ฅ์ผ๋ก ์ค์ณ๊ฐ์ ๋ฒํ ์์ด๋์ด๋ค์ด ๋ชจ์ฌ ์ ์ฒด ์์คํ ์ ์ฑ๊ณต์ ๋ง๋ค์์ต๋๋ค. ์ด๋ฌํ ๊ณตํ์ ์ธ ํต์ฐฐ๋ค์ ์์ผ๋ก ์ ์ฌ ์ฐ๊ตฌ์ ๋ฒ ์คํธ ํ๋ํฐ์ค(best practice)๋ก ์๋ฆฌ์ก์ ๊ฒ์ ๋๋ค. ํนํ ์ฐ์+์ด์ฐ ์ก์ ๋ถ๋ฆฌ๋ ๋ค๋ฅธ ๋ก๋ด ์๋์ ํ์ต์๋ ์์ฉ๋ ์ ์๊ณ , ์ฑ๊ณต ํ์ ๋ถ๋ฅ๊ธฐ ์ ๊ทผ์ ๋ณด์ ์ค๊ณ๊ฐ ์ด๋ ค์ด ๋ง์ ๋ฌธ์ ์ ๋ฒ์ฉ ์๋ฃจ์ ์ด ๋ ์ ์์ต๋๋ค. ๋ํ ์ฌ๋ ๊ฐ์ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ ๋ฐฉ์(๋ฐ๋ชจ/RL ๋ฒํผ ์ด์ค ๋ฑ๋ก)์ ํฅํ ์ธ๊ฐ-๋ก๋ด ์ํธํ์ต์์ ์ฐธ๊ณ ํ ๊ท์คํ ๊ฒฝํ์ ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ
์๋ฌด๋ฆฌ ์ข์ ์ฐ๊ตฌ๋ ํ๊ณ๋ ์๊ธฐ ๋ง๋ จ์ ๋๋ค. HIL-SERL์ ์ ์ฝ์ด๋ ๊ฐ์ ํ ์ ์ ๊ผฝ์๋ณด๋ฉด:
1) ์ฌ๋ ์์กด๋: โHuman-in-the-loopโ๋ผ๋ ์ด๋ฆ ๊ทธ๋๋ก, ์ฌ๋์ ๊ฐ์ ์์ด๋ ์ฑ๋ฆฝ์ด ์ด๋ ต์ต๋๋ค. ์ฐ์ ์ด๊ธฐ ์๋ฒ๊ณผ ๋ณด์ ๋ถ๋ฅ๊ธฐ ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ํ์ต ์ค ์์ ๊ฐ์ ๊น์ง ์ฌ๋์ ๋ถ๋ด์ด ์๋นํฉ๋๋ค. ์๋ จ๋ ์กฐ์์๊ฐ ํ์ํ๋ฉฐ, ํนํ ๋ณต์ก ๊ณผ์ ์ผ์๋ก ์ด๋ฐ์ ์์ฃผ ๊ฐ์ ํด์ผ ํฉ๋๋ค. ๋ฌผ๋ก ๊ฐ์ ์ ์ ์ฐจ ์ค์ฌ ์์ ์๋ํ ์ ์ฑ ์ ์ป๋ ๊ฒ ๋ชฉํ์ง๋ง, ์ฌ๋ ๊ฐ์ ์์ด ์ฒ์๋ถํฐ ๋๊น์ง RL์ ํ๋ ์๋๋ฆฌ์ค์ ๋น๊ตํ๋ฉด ์ค๋น ๋ ธ๋ ฅ์ด ํฝ๋๋ค. ์ด๋ ์ด๋๊น์ง๋ โ์ค์ฉ์ฑ vs ์์จ์ฑโ ํธ๋ ์ด๋์คํ์ธ๋ฐ, ๋ณธ ์ฐ๊ตฌ๋ ์ค์ฉ์ฑ์ ์ทจํ ๊ฒ์ ๋๋ค. ํฅํ์๋ ์ฌ๋ ๊ฐ์ ์ ์ต์ํํ๊ฑฐ๋, ์๊ฒฉ์ ๋น์ ์ ๋ฌธ๊ฐ๊ฐ ์ฌ๋ฌ ๋ก๋ด์ ๋ชจ๋ํฐ๋งํด์ฃผ๋ฏ ์ธ๊ฐ ๋ ธ๋ ํจ์จํ๋ฅผ ๊ณ ๋ฏผํด์ผ ํ ๊ฒ์ ๋๋ค. ๋ํ ๊ฐ์ ์ ์ธ์ ์ด๋ป๊ฒ ํ ์ง๋ ์ ์ ์ผ๋ก ์ฌ๋์๊ฒ ๋ฌ๋ ธ๋๋ฐ, ์ด ์ ์ฑ ์ด ๋ฏธ์น๋ ์ํฅ์ ์ด๋ก ์ ์ผ๋ก ๋ถ์ํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ง์ฝ ์ฌ๋์ด ์ค์๋ก ์๋ชป ๊ฐ์ ํ๊ฑฐ๋, ๋๋ฌด ๊ฐ์ ์ ์ ํด์ ๋ก๋ด์ด ๋ง๊ฐ์ง๋ค๋ฉด ์ด๋ป๊ฒ ํ ์ง ๋ฑ ํด๋จผ-์ธ๋๋ฃจํ์ ์ ๋ต ์ต์ ํ ๋ฌธ์ ๊ฐ ๋จ์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ฐ์๋ ๊ฐ์ ํธ๋ฆฌ๊ฑฐ(์: ์ํ์ํฉ ์๋๊ฐ์ง)๋, ํ์ต ๋์ฐ๋ฏธ AI ๊ฐ์ ๊ฒ์ด ์ถ๊ฐ๋ ์ ์์ ๊ฒ์ ๋๋ค.
2) ๊ณผ์ ๋ฒ์ฉ์ฑ (์ผ๋ฐํ): HIL-SERL ์ ์ฑ ์ ๊ฐ ๊ณผ์ ๋ณ๋ก ๋ฐ๋ก ํ์ต๋ฉ๋๋ค. ํ๋์ ์ ์ฑ ์ด ์ฌ๋ฌ ์์ ์ ํ ์ ์๋ ๋ฉํฐํ์คํฌ ํ์ต์ ์๋๋์ง ์์์ต๋๋ค. ์ฆ ์์ ์ด ๋ฐ๋๋ฉด ๋ค์ 1-2์๊ฐ ํ์ต์ ํด์ผ ํฉ๋๋ค. ๋ฌผ๋ก 2์๊ฐ์ด๋ฉด ์ผ ๊ฒ์ด์ง๋ง, ์ฌ๋์ฒ๋ผ ๋ค์ํ ์ผ์ ๋ฐ๋ก ๋์ํ๋ ๊ฑด ์๋๋๋ค. ๋ฐ๋ผ์ ์ง๊ธ ๋น์ฅ์ ํน์ ์ ์กฐ๊ณต์ ๋ฑ ๊ณ ์ ๋ ์์ ์ ๋ก๋ด ํ๋ ํฌ์ ํด์ ํ์ต์ํค๋ ์ ๋์ ํ์ฉ๋ ๋ฏํฉ๋๋ค. IsaacSim ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ๋ฉด ํ ๋ฒ ํ์ต๋ ์ ์ฑ ์ ์ฌ๋ฌ ์ ์ฌ ์์ ์ผ๋ก ์ฎ๊ธฐ๋ ์ ์ดํ์ต์ด๋, ํ๊บผ๋ฒ์ ์ฌ๋ฌ ๋ณํ๋ ์ํฉ์ ํ์ต์ํค๋ ๊ฒ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๊ฑฐ๊ธฐ๊น์ง ๋ค๋ฃจ์ง ์์์ง๋ง, ํฅํ ๋ค์ค์์ /๋ค์คํ๊ฒฝ ์ผ๋ฐํ๋ ๋จ์ ์์ ์ ๋๋ค. ์ถ๊ฐ๋ก, ๋ณด์ ๋ถ๋ฅ๊ธฐ๋ ์์ ๋ง๋ค ๋ฐ๋ก ๋ง๋ค์ด์ผ ํ๋ฏ๋ก, ์์ ์ ์๊ฐ ์์ ์๋ก์ด ๊ฒฝ์ฐ์๋ ๊ทธ ์ ์ฐจ๋ฅผ ๋ฐ๋ณตํด์ผ ํฉ๋๋ค.
3) ์๋ ๋ฆฌ์ ๋ฐ ์ฐ์ ํ์ต: ์คํ์์๋ ์์ ๋ง๋ค ์ฌ๋์ด ํ๊ฒฝ ๋ฆฌ์ ์ ๋์์ฃผ๊ฑฐ๋ ์๋ ๋ฆฌ์ ์คํฌ๋ฆฝํธ๋ฅผ ์งฐ๋ค๊ณ ํ์ต๋๋ค. ํ์ค์์๋ ์ด๋ค ์์ ๋ค์ ์๋ ๋ฆฌ์ ์์ฒด๊ฐ ์ด๋ ค์ธ ์ ์๊ณ , ์ฌ๋ ๋ฆฌ์ ์ ๋ ๋ค๋ฅธ ๋น์ฉ์ ๋๋ค. reset-free RL์ ๊ดํ ์ ํ ์ฐ๊ตฌ๋ค๋ ์๋๋ฐ, HIL-SERL์์๋ reset ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์กฐํ์ง ์์์ต๋๋ค. ๊ทธ๋ฌ๋ ์์ ์์จ ๋ก๋ด ํ์ต์ ์ํด์ ์คํจ ํ ํ๊ฒฝ ๋ณต๊ตฌ๋ฅผ ๋ก๋ด์ด ์ค์ค๋ก ํ๊ฑฐ๋, ์คํจ ์์ฒด๊ฐ ๊ฑฐ์ ์๋๋ก ํ๋ ๊ฒ ์ค์ํฉ๋๋ค. HIL-SERL ์ ์ฑ ์ ๊ฒฐ๊ตญ ์คํจ๋ฅผ ์ ํ๊ฒ ๋์์ง๋ง ์ด๋ฐ์๋ ์คํจํ๋ฉด ์ฌ๋์ด ๋ฐ๋ก์ก์ ์ค ๊ฒ์ด๋, reset ๋ฌธ์ ๋ฅผ ์ฐํํ ์ ์ ๋๋ค. IsaacSim ๋ฑ ์๋ฎฌ๋ ์ดํฐ์์ ๋ฆฌ์ ์ด ๊ฐ๋จํ๋, ๊ทธ๋ฐ ํ๊ฒฝ์์ ๋ฏธ๋ฆฌ ํ์ต์์ผ ํ์ค๋ก ์ฎ๊ธฐ๋ฉด reset ๋ถ๋ด์ ์ค์ผ ์ ์์ ๊ฒ์ ๋๋ค (sim-to-real ์ ์ด์ ์ด๋ ค์์ ์์ง๋ง). ์ฅ๊ธฐ์ ์ผ๋ก, ๋ก๋ด์ด ๊ณ์ ๋ค์ํ ์์ ์ ๋ฐฐ์ฐ๋ ค๋ฉด ์ค๋จ ์์ด ์ฐ์ํ์ต(continuous learning) ํ ์ ์์ด์ผ ํ๊ณ , ๊ทธ ๊ณผ์ ์์ ํ๊ฒฝ ๋ฆฌ์ ์ด๋ ์ฌ๋ ๋์ ์์ด ์๊ธฐ ํ๋ณตํ๋ ๋ฅ๋ ฅ๋ ์ฐ๊ตฌ๋์ด์ผ ํ ๊ฒ์ ๋๋ค.
4) ํ๊ณ ์ํฉ: HIL-SERL์ด ๋ง๋ฅ์ ์๋๋ฏ๋ก, ์คํจํ๋ ๊ฒฝ์ฐ๋ ๋ถ๋ช ์กด์ฌํ ๊ฒ๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ฑฐ์ ๋ชจ๋ ์๋์ ์ฑ๊ณตํ๋ค๊ณ ํ์ง๋ง, ์ผ์ ์ค์๋์ด๋ ํ๊ฒฝ ๊ธ๋ณ ๋ฑ ์ฃ์ง ์ผ์ด์ค์์ ์ ์ฑ ์ด ๋ฌด๋ ฅํ ์ ์์ต๋๋ค. ๋ํ, ์ฌ๋ ๊ฐ์ ์์ด ๋์ํ๋ค ์ฌ๊ณ ๊ฐ ๋๋ฉด ์ด๋กํ ์ง ๋ฑ ์์ ๊ฒ์ฆ(formal safety verification) ์ธก๋ฉด์ ๋ค๋ฃจ์ง ์์์ต๋๋ค. ์ฐ์ ํ์ฅ์ ์ ์ฉํ๋ ค๋ฉด ์ด๋ฐ worst-case ๋์๊ณผ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ ์์ HIL-SERL์ ๋จ์ผ ๋ชฉํ ์์ ๋ง ๋ค๋ฃจ๊ณ ์์ด, ์์์ ๋ชฉํ๋ณ์๊ฐ ์ฃผ์ด์ง๋ ์์ (์: ์์ ์์น์ ๊ตฌ๋ฉ์ ๊ฝ๊ธฐ, ๋ค์ํ ๋ถํ ์กฐ๋ฆฝ ๋ฑ)์ผ๋ก ํ์ฅํ๋ ค๋ฉด ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์ด ๊ฒฝ์ฐ ๊ฐํํ์ต + ๊ณํ(Planning)์ ๊ฒฐํฉ์ด๋, ๋ชฉํ ์กฐ๊ฑด ์ ์ฑ (goal-conditioned policy) ๋ฑ์ด ํ์ํ๋ฐ, ์ฌ๋ ๊ฐ์ ์ ๊ทธ ๋งฅ๋ฝ์ ํตํฉํ๋ ๋ฌธ์ ๊ฐ ๋จ์ต๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ต
HIL-SERL์ ์์ ๋ง์ ์ฐ๊ตฌ๋ค์ ์ฑ๊ณผ ์์ ๊ตฌ์ถ๋์์ต๋๋ค. ๊ด๋ จ ๋ถ์ผ์ ๋น๊ตํด ํน์ง์ ์ ๋ฆฌํ๋ฉด:
- ๋ชจ๋ฐฉํ์ต vs ๊ฐํํ์ต: HIL-SERL์ ๋ชจ๋ฐฉํ์ต์ ๋จ์ ์ ๋ช ํํ ์ง๊ณ ํด๊ฒฐํ์ต๋๋ค. HG-DAgger ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ๋ ์ฌ๋ ๊ต์ ์ ๋ฐ์ง๋ง ์ํผ๋ฐ์ด์ฆ๋ ํ์ต์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ฏ๋ก, ๋ถํฌ ํ๊ณ์ ๋์ ์ค์ฐจ ๋ฌธ์ ๋ฅผ ์์ ํ ํด์ ๋ชป ํฉ๋๋ค. ๋ฐ๋ฉด HIL-SERL์ RL์ด๋ฏ๋ก ์ ์ฑ ์ด ์๊ธฐ ์๋์์ ์ป์ ๋ณด์์ ํตํด ์๊ธฐ ๋ถํฌ๋ฅผ ๊ฐ์ ํฉ๋๋ค. ์ด๋ IL ๋ฐฉ๋ฒ๋ค์ด ๊ฒช๋ ๋ฐ์ดํฐ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด์ฃผ๊ณ , ํํ์ ๊ฐ๋ฅ์ผ ํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ๊ฐ์ ๋ฐ์ดํฐ ์กฐ๊ฑด์์ RL์ด IL๋ณด๋ค ๋ซ๋ค๋ ๊ฒ์ ์ค์ฆํด ์ฃผ์์ต๋๋ค. ์ฌ์ค ์ด๋ ํ๊ณ์์๋ ํ๋ฐํ ๋ ผ์์ด์๋๋ฐ, ์ฌ๊ธฐ์๋ โRL > ILโ๋ก ๊ฒฐ๋ก ์ง์ ๋ชจ์์์ ๋๋ค. ๋ค๋ง, IL์ด ๋ฐ์ดํฐ ํจ์จ์ ๋ ์ข์ ์ ์์ด ๋งค์ฐ ์ ํ๋ ์๋ฒ๋ง ์๋ ๊ฒฝ์ฐ์ ์ฌ์ ํ ์ ์ฉํฉ๋๋ค. ํ์ง๋ง ๋ณธ ์ฐ๊ตฌ์ฒ๋ผ ์ธํฐ๋ฒค์ ์ผ๋ก ๋ฐ์ดํฐ๋์ ๋๋ฆด ์ ์๋ค๋ฉด, RL๋ก ์ ํํ๋ ๊ฒ ๊ถ๊ทน์ ์ผ๋ก ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ธธ์์ ๋ณด์ฌ์ค๋๋ค.
- ์คํ๋ผ์ธ+์จ๋ผ์ธ RL: ์ต๊ทผ offline-to-online RL ์ฐ๊ตฌ ํ๋ฆ์์, ๋จผ์ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์์ด(pretrain)ํ๊ณ ์จ๋ผ์ธ ํ๋ํ๋ ์ ๊ทผ์ด ๋ ์ฌ๋์ต๋๋ค. HIL-SERL์ RLPD ์๊ณ ๋ฆฌ์ฆ์ Off2On์ ์ผ์ข ์ผ๋ก, Ball et al.(2023)์ ICML ๋ ผ๋ฌธ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ค๊ณ ํฉ๋๋ค. HIL-SERL์ด ๋ณด์ฌ์ค ์ฑ๊ณผ๋, ์คํ๋ผ์ธ ๋ฐ์ดํฐ ํ์ฉ RL์ด ์ค์ ๋ก๋ด์๋ ํตํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํฉ๋๋ค. ๊ณผ๊ฑฐ QT-Opt(์นผ๋ผ์ฌ๋์ฝํ et al.) ๊ฐ์ ์ฌ๋ก๋ ์์ง๋ง, ๊ทธ๊ฒ์ ๊ฑฐ๋ ๋คํธ์ํฌ์ ์์ญ๋ง ๋ฐ์ดํฐ๋ก ์ฑ๊ณต๋ฅ 80% ์์ค์ด์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ํจ์ฌ ์ ์ ๋ฐ์ดํฐ์ ์๊ฐ์ผ๋ก 100%๋ฅผ ๋ฌ์ฑํ์ผ๋, sample-efficient RL์ ์ค์ ์ง๊ฐ๋ฅผ ๋ณด์ฌ์ค ์ ์ ๋๋ค. ๋ํ ์ธ๊ฐ ๊ต์ ๋ฐ์ดํฐ๋ฅผ RL์ ํ์ฉํ ๊ฒ์ Luo et al.(2023) ๋ฑ์ ์ ํ๊ณผ ์ ์ฌํ๋, HIL-SERL์ ๋ฐ๋ชจ+๊ต์ +์์ ์ฅ์น๋ฅผ ๋ชจ๋ ์์ฐ๋ฅด๋ ์์ฑํ ์์คํ ์ผ๋ก ํ ๋จ๊ณ ๋ฐ์ ์์ผฐ์ต๋๋ค.
- ์ฑ๊ณต ํ์ ๋ฐ ๋ณด์ ์ค๊ณ: ๋ก๋ด ํ์ต์์ ๋ณด์ ํจ์ ์ค๊ณ๋ ์์ํ ๊ณ ๋ฏผ์ ๋๋ค. ์ฌ๋ ์์คํจ์ ๋๊น์. ์ต๊ทผ ์์ฐ ์ธ์ด๋ ์์ AI๋ฅผ ์ด์ฉํ ๋ฆฌ์๋(์: CLIP ๊ธฐ๋ฐ ๋ณด์, ๋น๋์ค ๋น๊ต ๋ณด์ ๋ฑ) ์ฐ๊ตฌ๋ ๋ง์ต๋๋ค. HIL-SERL์ ๊ทธ ์ค ์ฑ๊ณต์ฌ๋ถ ๋ถ๋ฅ๊ธฐ๋ผ๋ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ ๋ฐฉ์์ ์ ํํ์ต๋๋ค. ์ด๊ฑด ์ฑ๊ณต์ ๋ช ํํ ์ ์ํ ์ ์์ ๋ ํตํฉ๋๋ค. ๋ง์ ์กฐ์ ์์ ์ ์ต์ข ๋ชฉํ๊ฐ ๋๋ ทํด์, ์ฑ๊ณต/์คํจ๋ง ๊ตฌ๋ถํ๊ธฐ ์ฝ์ต๋๋ค. ํ์ง๋ง ๋ ์ฃผ๊ด์ ์ด๊ฑฐ๋ ์ฐ์์ ์ธ ๋ชฉํ(์: โ์ ์์ง์ฌ๋ดโ)๋ผ๋ฉด ์ด ์ ๊ทผ์ ํ๋ค ์ ์์ฃ . ๊ทธ๋๋ ์ด ์ฐ๊ตฌ๋ ํ์ค์ ์ธ ์ฑ๊ณตํ์ ๊ธฐ ์ฌ์ฉ๋ฒ์ ์ ์ํ๊ณ , ์์ผ๋ก ์ด ๋ฐฉ์์ ๋ก๋ด ํ์ต ์ด๊ธฐ ์ธํ ์ ์ผ๋ถ๋ถ์ผ๋ก ์๋ฆฌ์ก์ ๊ฒ ๊ฐ์ต๋๋ค. ๋ํ, ํฌ์๋ณด์์ผ๋ก๋ ๋๋ค๋ ์ฃผ์ฅ์ ์์ฌํ๋ ๋ฐ๊ฐ ํฝ๋๋ค. ๊ตณ์ด ๋ณต์กํ shaping ์ ํด๋, ์ถฉ๋ถํ ์๋ฒ๊ณผ ๊ต์ ์ด ์์ผ๋ฉด sparse reward๋ก๋ ํ์ต์ด ๋นจ๋ฆฌ ๋๋ค๋, ์ด๋ ๋ณด์ ์ค๊ณ ๋ถ๋ด์ ๋์ด์ฃผ๋ ๊ฒฐ๊ณผ์ ๋๋ค. ์์ผ๋ก RL ์ฐ๊ตฌ์๋ค์ ์ฑ๊ธํ reward engineeringํ์ง ๋ง๊ณ , ๋ถ๋ฅ๊ธฐ ๊ธฐ๋ฐ sparse reward + ๋ฐ๋ชจ๋ฅผ ๋จผ์ ๊ณ ๋ คํด๋ณผ ๋ง ํฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์ vs ์ค์ธ๊ณ: ๋ง์ RL ๋ ผ๋ฌธ๋ค์ด ์๋ฎฌ๋ ์ดํฐ (์: MuJoCo, IsaacGym ๋ฑ)์์ ๋ฉ์ง ๊ฒฐ๊ณผ๋ฅผ ๋ด์ง๋ง, ํ์ค๋ก ์ค๋ฉด ์ฝ์ง ์๋ค๋ ๊ฒ์ ์ฐ๋ฆฌ๋ ์๊ณ ์์ต๋๋ค. ๋ฐ๋ฉด ์ด ์ฐ๊ตฌ๋ ์ฒ์๋ถํฐ ๋๊น์ง ์ค์ ๋ก๋ด ํ๋ก ํด๋์ต๋๋ค. ์ด๋ ์ผ์ ๋ ธ์ด์ฆ, ์์คํ ์ง์ฐ, ๋ฌผ๋ฆฌ ์ค์ฐจ ๋ฑ ํ์ค ๋ฌธ์ ๋ฅผ ์ ๋ฉด ๋ํํ๋ค๋ ๋ป์ ๋๋ค. IsaacSim ๋ฑ์ ์๋ฎฌ๋ ์ดํฐ๋ ๋งค์ฐ ์ ๊ตํ์ง๋ง, ๊ฒฐ๊ตญ sim-to-real ๋จ๊ณ์์ ํ๋์ด ํ์ํฉ๋๋ค. HIL-SERL์ ์ฌ๋ ๊ฐ์ ๊ณผ ์์ ์ปจํธ๋กค๋ฌ๋ก ํ์ต ์ํ์ ์ต์ ํ๋ฉด์, ์คํ๊ฒฝ ๋ณ์ด๋ ์ง์ ๊ฒช์ผ๋ฉฐ ํ์ตํ๊ฒ ํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก sim ์์ด๋ ์ถฉ๋ถํ ๋น ๋ฅด๊ฒ ํ์ต ๊ฐ๋ฅํ๋ค๋ ๊ฑธ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ โ๋ชจ๋ ๊ฑธ ์๋ฎฌ๋ ์ด์ ํ ํ์๋ ์๋คโ๋ ๋ฉ์์ง์ ๋๋ค. ๋ฌผ๋ก ์๋ฎฌ๋ ์ดํฐ ํ์ฉ๋ ๋ณํํ๋ฉด ๋ ๋ณต์กํ ํ๊ฒฝ์ด๋ ์ฅ์๊ฐ ํ์ต์ ๋ค๋ค๋ณผ ์ ์๊ฒ ์ง๋ง, ๋ณธ ์ฐ๊ตฌ๋ ์คํ๊ฒฝ ํ์ต์ ๋ชจ๋ฒ์ ์ ์ํ์ต๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ : HIL-SERL์ ์ ์ฑ ์ ์นด๋ฉ๋ผ ๋น์ ๊ณผ ๋ก๋ด ์ํ๋ฅผ ๋ชจ๋ ์ด์ฉํ์ต๋๋ค. ์ด๋ End-to-End ๋น์ ์ ์ด RL์ ์นดํ ๊ณ ๋ฆฌ์ ์ํฉ๋๋ค. ๋ช ๋ ์ ๋ง ํด๋ ๋น์ ์ ๋ ฅ์ผ๋ก ์ค์ ๋ก๋ด ํ์ตํ๋ ๊ฑด โํ๋ณธ ๋๋ฌด ๋ง์ด ํ์โ๋ผ๋ ์ธ์์ด ๊ฐํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ๊ทธ ์ฅ๋ฒฝ์ ํ๋ฌผ์์ต๋๋ค. ResNet ๋ฑ ์ฌ์ ๋น์ ์ ์ฐ๊ณ ๋ฐ์ดํฐ ์ ์ ํ ์ฃผ๋ฉด, ์๋ฎฌ ์์ด ์ค๋น์ 100% ์ฑ๊ณต ์ ์ฑ ๋ ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ์ด๋ถ๋ถ์ ์ด๊ฑฐ๋ ๋ชจํ์ด๋ ๋น ๋ฐ์ดํฐ ์์ด ์ ๊ตํ ์์คํ ํตํฉ์ผ๋ก ์ด๋ค๋๋ค๋ ์ ์์ ์๋ฏธ ์์ต๋๋ค. ์ต๊ทผ์์ผ โ๊ฑฐ๋ ๋น์ -๋ชจ๋ธ+RLโ ์กฐํฉ ์ด์ผ๊ธฐ๊ฐ ๋์ค์ง๋ง, ์ด ์ฐ๊ตฌ๋ ํจ์ฌ ํจ์จ์ ์ผ๋ก, ๊ผญ ๊ฑฐ๋ ๋ชจํ์ด ์๋๋ผ๋ ์ ์ง์ธ ํ์ดํ๋ผ์ธ์ด๋ฉด ์ถฉ๋ถํจ์ ์์ฌํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
HIL-SERL์ ์ฑ๊ณต์ ์๋ก์ด ์ง๋ฌธ๋ค์ ๋ณ์ต๋๋ค. ์์ผ๋ก ์ด ๋ถ์ผ์์ ํ๊ตฌ๋ ๋งํ ๋ฐฉํฅ์ ์ ๋ฆฌํ๋ฉด:
- ์ธ๊ฐ ๊ฐ์ ์ ์๋ํ ๋ฐ ์ต์ ํ: ํ์ฌ๋ ์ฌ๋์ด ์ฃผ๊ด์ ์ผ๋ก ํ๋จํด ๊ฐ์ ํ์ง๋ง, ์ด๋ฅผ AI๊ฐ ํ๋จํ๊ฑฐ๋ ํ์ ์์ ์์ธกํ๋ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง ์ ์์ต๋๋ค. ์์ปจ๋ ์ค๋ฅ ์์ธก ๋ชจ๋ธ์ ์ ์ฑ ๊ณผ ๋ณ๋ ฌ๋ก ๋์ด, ์ํ๋๊ฐ ๋์์ง๋ฉด ์๋ ค์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ๋ํ ๊ฐ์ ์ ์ด๋ป๊ฒ ์ ์ดํ๋ ๊ฒ ์ต์ ์ธ์ง (์: ์งง๊ฒ ์ฌ๋ฌ ๋ฒ vs ๊ธธ๊ฒ ํ ๋ฒ) ๋ฑ๋ ์ ๋์ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก ์ฌ๋์ด ์๋ ๋ก๋ด๋ผ๋ฆฌ ์๋ก ๋์ ํ์ตํ๋ ๋ชจ์ต๋ ์์ํด๋ณผ ์ ์์ต๋๋ค (ํ ๋ก๋ด์ด ์คํจํ๋ฉด ๋ ์ฑ์ํ ๋ค๋ฅธ ๋ก๋ด์ด ๋์์ค๋ค๋ ์ง).
- ๋ค์ค ๊ณผ์ ์ฐ์ ํ์ต: ํ๋ ๋ฐฐ์ด ๋ค์ ๋ค๋ฅธ ๊ณผ์ ๋ก ๋์ด๊ฐ๋ฉด์, ์ด์ ์ง์์ ์ด๋ฆฌ๋ continual learning ๋ฐฉํฅ์ ๋๋ค. HIL-SERL ๋ฐฉ์์ผ๋ก ๊ณผ์ ๋ฅผ ํ๋ ์ต๋ํ ๋ก๋ด์ด, ๊ทธ ์ ์ฑ ์ ์ ์ดํ์ฌ ๋ค์ ๊ณผ์ ํ์ต ์๊ฐ์ ์ค์ด๊ฑฐ๋, ๋์์ ์ฌ๋ฌ ๊ณผ์ ๋ฅผ ๋ฐฐ์ธ ์ ์๋์ง ์คํํด๋ณผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, RAM ๊ฝ๊ธฐ์ SSD ๊ฝ๊ธฐ๋ ์ ์ฌํ๋ ํ๊บผ๋ฒ์ ๋ฐฐ์ฐ๋ฉด ๋ ํจ์จ์ ์ผ์ง, ํน์ ๋ก๋ด์ด ์ฌ๋ฌ ์์ ์ ์์ด์ ํด๋ ํผ๋ ์์ด ํ์ตํ ์ง ๋ฑ์ ๋ฌธ์ ์ ๋๋ค. ์ด๋ ์ ์ฑ ํํ์ ๊ณต์ ๋ ์ํ์ ๋ชฉํ ์ธ์ฝ๋ฉ ์ถ๊ฐ ๋ฑ ๊ธฐ์ ์ ๋ณ๊ฒฝ์ด ํ์ํ์ง๋ง, ๋ฌ์ฑ๋๋ฉด ์ง์ง ๋ฒ์ฉ ์กฐ์๋ก๋ด์ ํ์ธต ๊ฐ๊น์์ง ๊ฒ์ ๋๋ค.
- ์๋ฎฌ๋ ์ดํฐ์์ ์กฐํ: ํ์ค ํ์ต์ ๋ฆฌ์คํฌ์ ๋น์ฉ์ ์ค์ด๊ธฐ ์ํด, ์๋ฎฌ๋ ์ด์ ์ฌ์ ํ์ต + ํ์ค ๋ฏธ์ธ์กฐ์ (fine-tuning)์ ๋ชจ์ํ ์ ์์ต๋๋ค. HIL-SERL์ ์ธ๊ฐ ๊ฐ์ ์ ์๋ฎฌ๋ ์ดํฐ๋ก ๋์ฒดํ๋ค๋ฉด, ์ฌ๋์ด ์ํ์ ๊ฐ์ ํ ์ผ ์์ด ๊ฐ์ํ๊ฒฝ์์ ๋ง ๊ตด๋ฆฌ๋ค๊ฐ ํ์ค์์ ์กฐ๊ธ๋ง ์กฐ์ ํ๋ฉด ๋ ์ง๋ ๋ชจ๋ฆ ๋๋ค. NVIDIA IsaacSim์ ๋ฌผ๋ฆฌ ์ ํ๋๊ฐ ๋์ ์ด ๊ฒฝ์ฐ ์ ๋งํฉ๋๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ดํฐ๋ก ์ฌ๋ ํ๋์ ์ด๋ป๊ฒ ๋ชจ๋ธ๋งํ ์ง, ํ์ค-๊ฐ์ ๊ฐ ๋ณด์ ๋ถ๋ฅ๊ธฐ ์ฐจ์ด๋ ์๋์ง ๋ฑ ํด๊ฒฐํ ๊ณผ์ ๋ค์ด ์์ต๋๋ค. ๋ฐ๋๋ก, ํ์ค ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ฎฌ๋ ์ดํฐ ๋ชจ๋ธ ๊ฐ์ ์ ํ์ฉํ๋ sim-to-real-to-sim ํผ๋๋ฐฑ ์ฐ๊ตฌ๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค.
- ์ด๋ก ์ ๋ถ์: HIL-SERL๊ฐ์ ์์คํ ์ ๊ตฌ์ฑ ์์๊ฐ ๋ง์ ์ด๋ก ๋ถ์์ด ์ฝ์ง ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ผ๋ถ ์์๋ณ๋ก ์๋ ด ๋ณด์ฅ์ด๋ ์ํ ๋ณต์ก๋๋ฅผ ๋ฐ์ ธ๋ณผ ์ ์์ ๊ฒ์ ๋๋ค. ์์ปจ๋, ์ธ๊ฐ ๊ฐ์ ์ผ๋ก ์ธํด MDP๊ฐ non-Markovianํด์ง๋ ๋ถ๋ถ์ ์๋์ง, ๋๋ off-policy + demonstration ํ์ต์ ์ค์ฐจ ๊ฒฝ๊ณ๋ ์ด๋ป๊ฒ ๋๋์ง ๋ฑ์ ๋๋ค. ์ด๋ฌํ ๋ถ์์ ํฅํ ์ ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์ค๊ณํ ๋ ์์น์ ์ธ ๊ฐ์ด๋๊ฐ ๋ ์ ์์ต๋๋ค.
- ๋ค๋ฅธ ํํ์ ์ธ๊ฐ ํผ๋๋ฐฑ: ๋ณธ ์ฐ๊ตฌ๋ ์๋ฒ(action-level ๊ฐ์ )์ ๋ค๋ค์ง๋ง, ์ฌ๋์ด ์ค ์ ์๋ ํผ๋๋ฐฑ์ ์ด์ธ์๋ ์ธ์ด ์ง์, ํ๊ฐ ์ ์, ๋์ง ๋ฑ ๋ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์ด โ๋ถ๋๋ฝ๊ฒ ํดโ๋ผ๊ณ ๋งํ๋ฉด ๋ก๋ด์ด ๋ณด์ ํจ์๋ฅผ ๋ฐ๊พธ๋ RLHF(์ธ๊ฐํผ๋๋ฐฑ ๊ฐํํ์ต) ์คํ์ผ๋ ์์ ์ ์๊ณ , ์ฌ๋์ด ์ฑ๊ณต/์คํจ๋ฅผ ๋ผ์ด๋ธ๋ก ๋ผ๋ฒจ๋งํด์ฃผ๋ ๋ฐฉ์๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ค์ฑ๋ก์ด ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ RL์ ํตํฉํ๋ ๊ฒ์ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด ๋ฏธ๋ ์ฐ๊ตฌ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
HIL-SERL ๋ ผ๋ฌธ์ ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ ์ ํ ์ถฉ๊ฒฉ์ ์ฃผ๋ ์์ ์ ๋๋ค. ์์ฝํ์๋ฉด: โ์ธ๊ฐ์ด ์ ์ฌ์ ์์ ๋์์ค๋ค๋ฉด, ๊ฐํํ์ต์ผ๋ก ์ค์ ๋ก๋ด์๊ฒ ๋ณต์กํ ์กฐ์ ๊ธฐ์ ์ ๋จ ๋ช ์๊ฐ๋ง์ ๊ฐ๋ฅด์น ์ ์๊ณ , ๊ทธ ์ฑ๋ฅ์ ์ธ๊ฐ์ ๋ฐ์ด๋๋๋ค.โ ์ด๋ ์ค๋ ๊ธฐ๊ฐ ๋์ ์๋ ์ค์ธ๊ณ ๋ก๋ด ๊ฐํํ์ต์ ๋ํ ํ๋์ ํด๋ต์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ๋ค์ ์ง์ผ๋ฉด: (1) ์ฌ๋์ ๋ฐ๋ชจ์ ์จ๋ผ์ธ ๊ฐ์ ์ RL์ ํตํฉํ ํจ์จ์ ํ์ต ๋ฃจํ๋ฅผ ์ค๊ณํ๊ณ , (2) ์ด๋ฅผ ํตํด ๋ค์ํ ๊ณ ๋๋ ์์ ์์ ๊ฑฐ์ ์๋ฒฝํ ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์ป์์ผ๋ฉฐ, (3) RL ์ ์ฑ ์ด ๋ชจ๋ฐฉํ์ต์ ํฌ๊ฒ ๋ฅ๊ฐํจ์ ์คํ์ผ๋ก ์ ์ฆํ์ต๋๋ค. ๋ํ (4) ํ์ค ๋ก๋ด์์์ ์ฌ๋ฌ ์์ง๋์ด๋ง ๋ฌธ์ ๋ฅผ ํตํฉ์ ์ผ๋ก ํด๊ฒฐํ์ฌ ์ค์ฉ์ ์ธ ์์คํ ์ ๊ตฌํํ์ต๋๋ค. Richard Feynman์ด โ๊ณผํ์ ์ค์ ๋ก ํด๋ณด๊ณ ๋ณด์ฌ์ค์ผ ํ๋คโ ํ๋ฏ์ด, ์ด ๋ ผ๋ฌธ์ ๋ณต์กํ ์์ด๋์ด๋ค์ ์ค์ ๋ก๋ด์ ๊ตฌํํด ์์ง์ด๋ ์ฆ๊ฑฐ๋ฅผ ๋ณด์ฌ์ค ์ ์ ๋๋ค.
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์ ์ ์ฅ์์, HIL-SERL์ โํ์ตํ๋ ๋ก๋ดโ์ ํ ๋ฐ์ง ๋ค๊ฐ์ ์ฌ๋ก๋ก ๋ณผ ์ ์์ต๋๋ค. ๊ณผ๊ฑฐ์๋ ๋ก๋ด์๊ฒ ์๋ก์ด ์์ ์ ๊ฐ๋ฅด์น๋ ค๋ฉด ์ผ์ผ์ด ํ๋ก๊ทธ๋๋ฐํ๊ฑฐ๋, ์๋๋ฉด ์์ญ๋ง๋ฒ์ ์๋๋ฅผ ์๋ฎฌ๋ ์ดํฐ๋ก ๋๋ ค์ผ ํ์ต๋๋ค. ์ด์ ๋ ์ฌ๋๊ณผ ํจ๊ป ๋ช ๋ฒ ์ฐ์ตํ๋ฉด ์ค์ค๋ก ๋ ์ํ๊ฒ ๋๋ ๋ก๋ด์ ๊ฟ๊ฟ๋ณผ ์ ์๊ฒ ๋์์ต๋๋ค. ๋ง์น ์๋ จ๊ณต์ด ์ ์ ์๊ฒ ์ผ ๊ฐ๋ฅด์น๋ฏ, ๋ก๋ด์๊ฒ๋ ์์ฐํ๊ณ ์ค์ํ๋ฉด ๋ฐ๋ก์ก์์ฃผ๋ฉด์ ํ๋ จํ ์ ์์ต๋๋ค. ๊ฒฐ๊ตญ ๋ก๋ด์ด ์ถฉ๋ถํ ๋๋ํด์ง๋ฉด ์ฌ๋ ๊ฐ๋ ์์ด๋ ์์์ ์ ํ๊ฒ ์ง๋ง, ๊ทธ ์ง์ ๊น์ง ์ธ๊ฐ์ ์ง์์ ๋น๋ ค์ฃผ๋ ๊ฒ์ด ํจ๊ณผ์ ์์ HIL-SERL์ด ๋ณด์ฌ์ค ๊ฒ์ ๋๋ค. ์ด๋ ๊ณต์ฅ ์๋ํ, ๋ฌผ๋ฅ, ์กฐ๋ฆฝ, ์๋น์ค ๋ก๋ด ๋ฑ ๋ค์ํ ๋ถ์ผ์ ํฐ ํ๊ธ์ ๋ฏธ์น ์ ์์ต๋๋ค. ํนํ ๋คํ์ข ์๋์์ฐ(high-mix low-volume) ํ๊ฒฝ์์๋ ์ผ์ผ์ด ๋ก๋ด ํ๋ก๊ทธ๋๋ฐํ ์ ์๋๋ฐ, HIL-SERL ๊ฐ์ ๊ธฐ๋ฒ์ด๋ผ๋ฉด ์์ ์ด ๋ฐ๋ ๋๋ง๋ค ๋ก๋ด์ ๋น ๋ฅด๊ฒ ์ฌํ๋ จํ์ฌ ๋์ํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ด ์ฐ๊ตฌ๋ ๋ก๋ดํ์ต์ ์๋ก์ด ํ์ค์ ์ ์ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ์์ผ๋ก ๋์ฌ ๋ ผ๋ฌธ๋ค์ ์๋ง โ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ HIL-SERL๋ณด๋ค ๋ฐ์ดํฐ ํจ์จ์ด 2๋ฐฐ ๋๋คโ ๋๋ โHIL-SERL ์์ด๋ ์ด๋งํผ ๋๋คโ ๋ฑ์ผ๋ก ๋น๊ตํ๊ฒ ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋งํผ ํ๋์ ๋ ํผ๋ฐ์ค ์ฑ๋ฅ๊ณผ ๋ฐฉ๋ฒ๋ก ์ด ์ธ์์ก๋ค๋ ๋ป์ด์ง์. ๋ฌผ๋ก ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค๋ ๋จ์์ง๋ง, HIL-SERL์ ์ฑ๊ณต์ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ก๋ด๊ธฐ์ ์ ํ์คํ๋ฅผ ํฌ๊ฒ ์๋น๊ธด ํ๊ธฐ์ ์ธ ๊ฑธ์์ผ๋ก ํ๊ฐํ ๋งํฉ๋๋ค.