๐Dex Imitation Learning ๋ฆฌ๋ทฐ
๋ฆฌ๋ทฐ ๋ ผ๋ฌธ์ ๊ผญ ํ๋ฒ ์ฝ์ด๋ณด๋ ๊ฒ์ ์ถ์ฒํฉ๋๋ค.
- โจ ๊ณ ์ฐจ์์ ๋ณต์ก์ฑ๊ณผ ์ญํ์ผ๋ก ์ธํด ์ ํต์ ์ธ ๋ฐฉ๋ฒ๊ณผ ๊ฐํ ํ์ต์ ๋ก๋ด์ ๋ฅ์ํ ์กฐ์(dexterous manipulation)์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค.
- ๐ค ๋ชจ๋ฐฉ ํ์ต(Imitation Learning, IL)์ ์ ๋ฌธ๊ฐ ์์ฐ์ ํตํด ๋ก๋ด์ด ๋ณต์กํ ์กฐ์ ๊ธฐ์ ์ ์ง์ ํ์ตํ ์ ์๋๋ก ํ๋ ์ ๋งํ ๋์์ ๋๋ค.
- ๐ ๋ณธ ์กฐ์ฌ๋ ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฅ์ํ ์กฐ์์ ์ต์ ๊ธฐ์ , ๋์ ๊ณผ์ ๋ฐ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํ ํฌ๊ด์ ์ธ ๊ฐ์๋ฅผ ์ ๊ณตํฉ๋๋ค.
1 Dexterous Manipulation through Imitation Learning
๋ณธ ๋ ผ๋ฌธ์ Imitation Learning (IL) ๊ธฐ๋ฐ์ Dexterous Manipulation(DM)์ ๋ํ ํฌ๊ด์ ์ธ ์๋ฒ ์ด ๋ ผ๋ฌธ์ ๋๋ค. DM์ ๋ก๋ด ์ ๋๋ ๋ค์ง(multi-fingered) End-effector๊ฐ ์ ๋ฐํ๊ฒ ์กฐ์จ๋ ์๊ฐ๋ฝ ์์ง์๊ณผ ์ ์์ ์ธ ํ ์กฐ์ ์ ํตํด ๊ฐ์ฒด๋ฅผ ๋ฅ์ํ๊ฒ ์ ์ด, ์ฌ๋ฐฐํฅ, ์กฐ์ํ๋ ๋ฅ๋ ฅ์ ์๋ฏธํ๋ฉฐ, ์ธ๊ฐ ์์ dexterity์ ์ ์ฌํ ๋ณต์กํ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ก๋ด ๊ณตํ ๋ฐ ๊ธฐ๊ณ ํ์ต์ ๋ฐ์ ๊ณผ ํจ๊ป ๋ณต์กํ๊ณ ๋น์ ํ์ ์ธ ํ๊ฒฝ์์ ์๋ํ๋ ์์คํ ์ ๋ํ ์์๊ฐ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค.
๊ธฐ์กด์ ๋ชจ๋ธ ๊ธฐ๋ฐ(model-based) ์ ๊ทผ ๋ฐฉ์์ DM์ ๋์ ์ฐจ์์ฑ(high dimensionality)๊ณผ ๋ณต์กํ ์ ์ด ๋์ญํ(contact dynamics)์ผ๋ก ์ธํด ์์ ๋ฐ ๊ฐ์ฒด ๋ณํ์ ๋ํ ์ผ๋ฐํ(generalize)์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. Reinforcement Learning (RL)๊ณผ ๊ฐ์ ๋ชจ๋ธ ํ๋ฆฌ(model-free) ๋ฐฉ์์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์์ ์ฑ๊ณผ ํจ๊ณผ์ฑ์ ์ํด ๊ด๋ฒ์ํ ํ๋ จ, ๋๊ท๋ชจ ์ํธ์์ฉ ๋ฐ์ดํฐ, ์ ์คํ๊ฒ ์ค๊ณ๋ ๋ณด์(reward)์ด ํ์ํฉ๋๋ค. IL์ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ(expert demonstrations)๋ก๋ถํฐ DM ๊ธฐ์ ์ ์ง์ ์ต๋ํ๊ฒ ํ์ฌ, ๋ช ์์ ์ธ ๋ชจ๋ธ๋ง์ด๋ ๋๊ท๋ชจ ์ํ์ฐฉ์ค ์์ด ๋ฏธ์ธํ ์กฐ์จ(fine-grained coordination) ๋ฐ ์ ์ด ๋์ญํ์ ํฌ์ฐฉํ ์ ์๋ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ณธ ์๋ฒ ์ด๋ IL์ ๊ธฐ๋ฐํ DM ๋ฐฉ๋ฒ์ ๊ฐ๊ดํ๊ณ , ์ต๊ทผ์ ๋ฐ์ ์ฌํญ์ ์์ธํ ์ค๋ช ํ๋ฉฐ, ์ด ๋ถ์ผ์ ์ฃผ์ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๋ํ, IL ๊ธฐ๋ฐ DM์ ํฅ์์ํค๊ธฐ ์ํ ์ ์ฌ์ ์ธ ์ฐ๊ตฌ ๋ฐฉํฅ์ ํ์ํฉ๋๋ค.
IL ๊ธฐ๋ฐ DM ์ ๊ทผ ๋ฐฉ์์ ํฌ๊ฒ 5 ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค:
- Behavioral Cloning (BC),
- Inverse Reinforcement Learning (IRL),
- Generative Adversarial Imitation Learning (GAIL), ๊ทธ๋ฆฌ๊ณ ํ์ฅ ํ๋ ์์ํฌ๋ก์
- Hierarchical Imitation Learning (HIL) ๋ฐ
- Continual Imitation Learning (CIL)์ ๋๋ค.
1.1 Behavioral Cloning (BC)
BC๋ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ์ state-action ์์ผ๋ก๋ถํฐ ์ง์ ํ์ตํ์ฌ ์ ๋ฌธ๊ฐ ํ๋์ ๋ณต์ ํ๋ ์ง๋ ํ์ต(supervised learning) ํจ๋ฌ๋ค์์ ๋๋ค. ๋ณด์ ์ ํธ๋ ํ์(exploration) ์์ด ์ํ์์ ํ๋์ผ๋ก์ ์ง์ ๋งคํ์ ํน์ง์ผ๋ก ํฉ๋๋ค. ๋ชฉํ ํจ์๋ ๋ฐ๋ชจ๋ ์ก์ ์ negative log-likelihood๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋๋ค:
L(\pi) = -E_{(s,a)\sim p_D}[\log \pi(a | s)]
์ฌ๊ธฐ์ D = \{\tau_1, \dots, \tau_n\}๋ n๊ฐ์ ๋ฐ๋ชจ ์งํฉ์ด๋ฉฐ, ๊ฐ ๋ฐ๋ชจ \tau_i๋ ๊ธธ์ด N_i์ state-action ์ ์ํ์ค \{(s_1, a_1), \dots, (s_{N_i}, a_{N_i})\}์ ๋๋ค. BC๋ ํธ์ฑ(pushing) ๋ฐ grasping๊ณผ ๊ฐ์ ๋น๊ต์ ๊ฐ๋จํ ์์ ์์ ํจ๊ณผ์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฌ๋ ํ๋ จ ์ค ๋ณด์ง ๋ชปํ ์ํ์ ์ง๋ฉดํ ๋ ์ ๋ฌธ๊ฐ ํ๋์์ ๋ฒ์ด๋๋ ์ก์ ์ ์์ฑํ ์ ์๋ distribution shift ๋ฐ sequential decision-making ๊ณผ์ ์์ ์ค๋ฅ๊ฐ ๋์ ๋๋ compounding error ๋ฌธ์ ์ ์ทจ์ฝํฉ๋๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด ๊ณ์ธต์ ํ๋ ์์ํฌ [29]๋ฅผ ์ฌ์ฉํ๊ฑฐ๋, ๋จ๊ณ๋ณ ์ก์ ๋์ ์ ์ฒด ์ก์ ์ํ์ค๋ฅผ ์์ธกํ์ฌ ์ ํจ ๊ฒฐ์ ์๊ฐ ๋ฒ์(effective decision horizon)๋ฅผ ์ค์ด๋ ์ ๊ทผ ๋ฐฉ์ [53]์ด ์ ์๋์์ต๋๋ค. ์ธ๊ฐ ๋ฐ๋ชจ์ ํํ multi-modal ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ์๋์ง ๊ธฐ๋ฐ ๋ชจ๋ธ๋ง [26], ๊ฐ์ฐ์์ ํผํฉ ๋ชจ๋ธ [58], ์์ฑ ๋ชจ๋ธ [59] ๋ฑ์ด ํ๊ตฌ๋์์ผ๋ฉฐ, ์ต๊ทผ Diffusion models [32, 60, 61, 62]์ด BC ๋ฐฉ๋ฒ์ ๊ฐ๊ฑด์ฑ ๋ฐ ์ผ๋ฐํ ํฅ์์ ํฐ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. BC ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ผ๋ฐํ ๋ฐ multi-modal ์ก์ ๋ถํฌ ๋ชจ๋ธ๋ง์ ์ด๋ ค์์ ๊ฒช์ง๋ง, Diffusion models๋ ์ง์ ์ก์ ์ํ์ค๋ฅผ ์์ฑํ๊ฑฐ๋ ๊ณ ์์ค ์ ๋ต์ ์๋ดํ๋ ๋ฐฉ์์ผ๋ก ์ ์ฐ์ฑ์ ํฅ์์ํค๊ณ ์์ต๋๋ค.
1.2 Inverse Reinforcement Learning (IRL)
IRL์ ์ฌ์ ์ ์๋ ๋ณด์ ํจ์๋ฅผ ์ต๋ํํ๊ธฐ ์ํด ์ ์ฑ ์ ํ์ตํ๋ ๊ธฐ์กด RL ํ๋ ์์ํฌ๋ฅผ ์ญ์ ์ํต๋๋ค. ๋์ , ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ ์งํฉ D๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ ๊ธฐ์ ์ ๋ณด์ ํจ์ R(s, a)๋ฅผ ์ถ๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ฐ๋ชจ๋ ์ต์ ๋๋ ๊ฑฐ์ ์ต์ ์ ์ ์ฑ ์ ๋ฐ๋ฅด๋ ์ ๋ฌธ๊ฐ์ ์ํด ์์ฑ๋์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
IRL ๋ฌธ์ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ ํ Markov Decision Process M = \langle S, A, T, R, \gamma \rangle ๋ด์์ ๊ณต์ํ๋๋ฉฐ, ์ฌ๊ธฐ์ S์ A๋ ์ํ ๋ฐ ์ก์ ๊ณต๊ฐ, T(s'|s, a)๋ ์ํ ์ ์ด ํ๋ฅ , R(s, a)๋ ๋ณด์ ํจ์, \gamma \in [0, 1]๋ ํ ์ธ์จ์ ๋๋ค. ๋ณด์ ํจ์๋ ์ข ์ข ํน์ง ํจ์ \phi(s, a)์ ์ ํ ์กฐํฉ R(s_t, a_t) = w^\top\phi(s_t, a_t)์ผ๋ก ํํ๋ฉ๋๋ค. ์ ์ฑ \pi ํ์์์ ๊ธฐ๋ ํน์ง ์นด์ดํธ๋ \mu_\phi(\pi) = \sum_{t=0}^\infty \gamma^t \psi_\pi(s_t)\phi(s_t, a_t)๋ก ์ ์๋ฉ๋๋ค. IRL์ ๋ณด์ ํจ์๋ฅผ ์๋์ผ๋ก ์ ์ํ๊ธฐ ์ด๋ ค์ด DM ์๋๋ฆฌ์ค์์ ํนํ ์ ๋ฆฌํฉ๋๋ค.
์ต๊ทผ ์ฐ๊ตฌ๋ค์ reward normalization, task-specific feature masking [63], adaptive sampling [64], ์ฌ์ฉ์ ํผ๋๋ฐฑ ํตํฉ [65], ๋น์ ํ ๋ฐ๋ชจ๋ก๋ถํฐ ๋ณด์ ํจ์ ํ์ต [67], Proximal Policy Optimization [45]๊ณผ์ ํตํฉ [68], ์๊ฐ ๊ธฐ๋ฐ ์ธ๊ฐ-๋ก๋ด ํ์ [69] ๋ฑ์ ํตํด IRL ํ๋ ์์ํฌ๋ฅผ ๋ฐ์ ์์ผฐ์ต๋๋ค. IRL์ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ๋ก๋ถํฐ ๊ธฐ์ ๋ณด์ ํจ์๋ฅผ ์ถ๋ก ํจ์ผ๋ก์จ ๋ณต์กํ ํ๋์ ์ผ๋ฐํํ๊ณ ๋ค์ํ ํ๊ฒฝ์ ์ ์ํ ์ ์๋๋ก ํ์ง๋ง, ๊ณ ์ฐจ์ ์ก์ ๊ณต๊ฐ์ด๋ ํฌ์ํ ํผ๋๋ฐฑ ์ ํธ์์ ์ ํํ ๋ณด์ ํจ์ ์ถ์ ๋ฐ ๋๋์ ๋ฐ๋ชจ ๋ฐ์ดํฐ ์๊ตฌ์ ๊ฐ์ ํ๊ณ์ ์ง๋ฉดํฉ๋๋ค.
1.3 Generative Adversarial Imitation Learning (GAIL)
GAIL์ GAN [102] ํ๋ ์์ํฌ๋ฅผ IL ์์ญ์ผ๋ก ํ์ฅํฉ๋๋ค. ๋ชจ๋ฐฉ ํ๋ก์ธ์ค๋ฅผ ์์ฑ์์ ํ๋ณ์ ์ฌ์ด์ 2์ธ ์ ๋์ ๊ฒ์์ผ๋ก ๊ณต์ํํฉ๋๋ค. ์์ฑ์๋ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ์ ์ ์ฌํ ํ๋์ ์์ฑํ๋ ค๋ ์ ์ฑ \pi์ ํด๋นํ๋ฉฐ, ํ๋ณ์ D(s, a)๋ state-action ์ (s, a)๊ฐ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ M์์ ์๋์ง ๋๋ \pi์ ์ํด ์์ฑ๋์๋์ง ํ๊ฐํฉ๋๋ค. GAIL์ ์ ๋ฌธ๊ฐ์ ์์ฑ์์ state-action ๋ถํฌ ์ฌ์ด์ Jensen-Shannon divergence๋ฅผ ์ต์ํํฉ๋๋ค.
ํ๋ณ์๋ ๋ค์ ๋ชฉํ๋ฅผ ์ต๋ํํ๋๋ก ํ๋ จ๋ฉ๋๋ค:
\arg \min_D -E_{d_M(s,a)}[\log D(s, a)] - E_{d_\pi(s,a)}[\log(1 - D(s, a))]
์์ฑ์์ ์ ์ฑ \pi๋ ํ๋ณ์์์ ํ์๋ ๋ณด์ r_t = -\log(1 - D(s_t, a_t))์ ์ฌ์ฉํ์ฌ RL๋ก ์ต์ ํ๋ฉ๋๋ค. ์ด ์ ๋์ ํ๋ จ ๊ณผ์ ์ ํตํด GAIL์ ๋ช ์์ ์ผ๋ก ๋ณด์ ํจ์๋ฅผ ๋ณต๊ตฌํ์ง ์๊ณ ๋ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ๋ก๋ถํฐ ๋ณต์กํ ํ๋์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํฉ๋๋ค.
GAIL์ DM์์ ๋๋ฆฌ ์ฑํ๋์์ง๋ง, ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ํ์ง ๋ฐ ๊ฐ์ฉ์ฑ, ๊ทธ๋ฆฌ๊ณ ํ๋ จ ๋ถ์์ ์ฑ(mode collapse, gradient vanishing) ๋ฌธ์ ์ ํฌ๊ฒ ์์กดํฉ๋๋ค. Hindsight Experience Replay [77], semi-supervised correction [76], Sim-to-real transfer [78] ๋ฑ์ด ๋ฐ์ดํฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ค ์๋ํ์ผ๋ฉฐ, Variational Autoencoders [79], Wasserstein GAN [80], self-organizing generative model [82] ๋ฑ์ ์ฌ์ฉํ์ฌ ํ๋ จ ์์ ์ฑ์ ๊ฐ์ ํ๊ณ Mode collapse๋ฅผ ์ํํ๋ ค๋ ๋ ธ๋ ฅ์ด ์์์ต๋๋ค. GAIL์ ์ ๋์ ํ๋ จ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์์๋ฐ์ ํ๋ จ ๋ถ์์ ์ฑ ๋ฐ ๊ณ ์ฐจ์ ์ก์ ๊ณต๊ฐ์ผ๋ก์ ํ์ฅ ์ด๋ ค์์ ์ง๋ฉดํฉ๋๋ค.
1.4 Hierarchical Imitation Learning (HIL)
HIL์ ๋ณต์กํ ์์ ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ๋ถํดํ์ฌ ํด๊ฒฐํ๋๋ก ์ค๊ณ๋ IL ํ๋ ์์ํฌ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก 2๋จ๊ณ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ฉฐ, ์์ ์์ค ์ ์ฑ ์ ํ์ฌ ์ํ ๋ฐ ์์ ์๊ตฌ ์ฌํญ์ ๋ฐ๋ผ ํ์ ์์ ๋๋ ์์(primitives) ์ํ์ค๋ฅผ ์์ฑํ๊ณ , ํ์ ์์ค ์ ์ฑ ์ ํ์ ์์ ์ ์คํํ์ฌ ์ ์ฒด ๋ชฉํ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์ด ๊ณ์ธต์ ๋ถํด๋ ์์ฌ ๊ฒฐ์ ๋ฐ ์ ์ด๋ฅผ ๋ถ๋ฆฌํ์ฌ ์ฅ๊ธฐ์ ์ธ ๋ณต์กํ ์์ ์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ํฉ๋๋ค.
์์ ์ ์ฑ \pi_h๋ ๋ฏธ๋ฆฌ ์ ์๋ ์์ ์งํฉ \{p_1, \dots, p_K\}์์ ์์ p_i๋ฅผ ์ ํํฉ๋๋ค: \pi_h(s_t) = p_i. ํด๋น ํ์ ์ ์ฑ \pi_{p_i}๋ ์ ํ๋ ์์๋ฅผ ์คํํ ์ก์ ์ ์์ฑํฉ๋๋ค: a_t = \pi_{p_i}(s_t). ์ ์ฒด ๋ชฉํ๋ ๋์ ์์ค ํจ์๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋๋ค:
L(\pi) = \sum_{t=1}^T E_{(s_t,a_t)\sim\pi}[\ell(s_t, a_t)]
HIL์ ์ฃผ์ ์ฅ์ ์ ์์ ์ ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ๋ถํดํ์ฌ ์ง์ ์ ์ธ ์ก์ ๊ณต๊ฐ ํ์์ ๋ณต์ก์ฑ์ ์ค์ด๋ ๊ฒ์ ๋๋ค.
CompILE [88], HDR-IL [89], ARCH [90], XSkill [91], LOTUS [92] ๋ฑ์ ์ฐ๊ตฌ๋ค์ด ์์ ๋ถํด, ๊ธฐ์ ์ผ๋ฐํ, ์ฅ๊ธฐ์ ์ธ ์์ ์ฒ๋ฆฌ์ ๊ธฐ์ฌํ์ต๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ Play data [93, 94]๋ฅผ ํ์ฉํ์ฌ ๋ ์์ค์ ์ ์ฑ ์ ํจ์จ์ ์ผ๋ก ํ๋ จํ๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํ์ต๋๋ค. HIL์ ์์ ๋ถํด ๋ฐ ๊ธฐ์ ์ผ๋ฐํ์์ ์๋นํ ์ด์ ์ ๋ณด์ฌ์ฃผ์ง๋ง, Cross-modal ๊ธฐ์ ์ผ๋ฐํ์์์ ์ ์์ฑ ๋ฐ ๋์ ํ๊ฒฝ์์์ ๋ชจ๋ธ ๊ฐ๊ฑด์ฑ ๋ฐ ์ฐ์์ฑ ํ๋ณด์ ์ด๋ ค์์ ๊ฒช๊ณ ์์ต๋๋ค.
1.5 Continual Imitation Learning (CIL)
CIL์ ์ง์ ํ์ต(continual learning)๊ณผ IL์ ํตํฉํ์ฌ ์์ด์ ํธ๊ฐ ๋์ ์ผ๋ก ๋ณํํ๋ ํ๊ฒฝ์์ ์ ๋ฌธ๊ฐ ํ๋์ ๋ชจ๋ฐฉํจ์ผ๋ก์จ ๊ธฐ์ ์ ์ง์์ ์ผ๋ก ์ต๋ํ๊ณ ์ ์ํ ์ ์๋๋ก ํฉ๋๋ค. ์์ด์ ํธ๋ ์ด๊ธฐ ๋จ๊ณ์์ ์ ๋ฌธ๊ฐ ๋ฐ๋ชจ๋ก๋ถํฐ ๊ธฐ๋ณธ ๊ธฐ์ ์ ํ์ตํ๊ณ , ์ดํ ๋จ๊ณ์์ ์ ์ง์ ์ผ๋ก ์ง์์ ์ถ์ ํ๊ณ ์๋ก์ด ์์ ์ด๋ ํ๊ฒฝ์ ์ ์ํ๋ฉฐ ์ด์ ์ ์ต๋ํ ๊ธฐ์ ์ ์์ด๋ฒ๋ฆด ์ํ์ ์ํํฉ๋๋ค.
CIL์์ ์ ์ฑ \pi๋ ์ด์ ์ ์ ํ ๋ชจ๋ ์์ ์ ๋ํ ๋์ ๋ชจ๋ฐฉ ์์ค์ ์ต์ํํ์ฌ ์ต์ ํ๋ฉ๋๋ค:
L(\pi) = -\sum_{i=1}^t \lambda^{(i)} E_{(s^{(i)},a^{(i)})\sim \rho^{(i)}_{exp}}[\log \pi(a^{(i)} | s^{(i)})]
์ฌ๊ธฐ์ \lambda^{(i)}๋ t๊ฐ์ ๊ฐ ์์ ์ ํ ๋น๋ ๊ฐ์ค์น์ด๊ณ \rho^{(i)}_{exp}๋ ์์ i์ ๋ํ ์ ๋ฌธ๊ฐ state-action ์์ ๋ถํฌ์ ๋๋ค.
์ด๊ธฐ ์ฐ๊ตฌ [95]๋ ์ด์ ์ ์ต๋ํ ๊ธฐ์ ์ ์์์ํค์ง ์๊ณ ์์ ๊ฐ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ์๋นํ ์ ์ฅ ๋ฐ ๊ณ์ฐ ๋ฆฌ์์ค๊ฐ ํ์ํ์ต๋๋ค. Task-specific adapter ๊ตฌ์กฐ [96], ๋น์ง๋ ๊ธฐ์ ๋ฐ๊ฒฌ [92], ํ๋ ์ฆ๋ฅ๋ฅผ ํตํ ํตํฉ ์ ์ฑ ํ์ต [97], Deep Generative Replay (DGR) [98], ์๊ธฐ ์ง๋ ํ์ต [99] ๋ฑ ๋ค์ํ ์ ๊ทผ ๋ฐฉ์์ด ์ ์๋์์ต๋๋ค. CIL์ ํจ๊ณผ์ ์ธ ๋ฉํฐํ์คํน ํ์ต, DGR ๊ธฐ์ ์ ์ฉ, ์๊ธฐ ์ง๋ ๊ธฐ์ ์ถ์ํ์ ์ค์ ์ ๋์ง๋ง, ์์ฑ๋ ๋ฐ์ดํฐ์ ํ์ง ๋ฐ ์ผ๊ด์ฑ, ๋ฆฌ์์ค ์๋น, ํ์ค ์ธ๊ณ ์์ฉ์ ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ์กฑ๊ณผ ๊ฐ์ ์ค์ง์ ์ธ ๋ฐฐํฌ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค.
2 End Effectors for Dexterous Manipulation
DM์ ์ํ End-effector๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๊ทธ๋ฆฌํผ(two-fingered grippers), ๋ค์ง ์ธ๊ฐํ ์(multi-fingered anthropomorphic hands), ์ธ ๊ฐ์ง ๋ก๋ด ํด๋ก(three-fingered robotic claws)๋ก ๋๋ฉ๋๋ค. ๋ ๊ฐ์ง ๊ทธ๋ฆฌํผ๋ ์ ๋ขฐ์ฑ, ๋จ์์ฑ, ์ ์ด ์ฉ์ด์ฑ์ผ๋ก ๋๋ฆฌ ์ฌ์ฉ๋์ง๋ง (์: Franka robot [104], ALOHA [53], Mobile ALOHA [112]), ์ ์์์์ ๊ฐ์ฒด ์ฌ๊ตฌ์ฑ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๊ณ ์ธ๊ฐ ์๊ณผ์ ํํํ์ ์ฐจ์ด๋ก ์ธํด ์ธ๊ฐ ๋ฐ๋ชจ๋ก๋ถํฐ ํ์ตํ๋ ๋ฐ ๋ฐฉํด๊ฐ ๋ฉ๋๋ค [115]. ๋ค์ง ์ธ๊ฐํ ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํํ๋ฅผ ๊ฐ์ง๋ฉฐ ์ธ๊ฐ์ด ์ฌ์ฉํ๋๋ก ์ค๊ณ๋ ๊ฐ์ฒด์์ ์ํธ์์ฉ์ ๋ ์ ํฉํฉ๋๋ค [116].
๊ตฌ๋ ๋ฉ์ปค๋์ฆ์ ๋ฐ๋ผ
- Tendon-driven (์: Shadow Dexterous Hand [130]),
- Linkage-driven (์: INSPIRE-ROBOTS RH56 [122]),
- Direct-driven (์: Allegro Hand [125]),
- Hybrid-transmission (์: DLR/HIT Hand II [179]) ๋ฐฉ์์ผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
Tendon-driven์ ๋์ DoF์ Dexterity๋ฅผ ์ ๊ณตํ์ง๋ง ๋ง์ฐฐ, ๋ง๋ชจ ๋ฑ์ ๋ฌธ์ ๊ฐ ์๊ณ , Linkage-driven์ ์ ๋ฐํ๊ณ ๊ฐ๊ฑดํ์ง๋ง DoF๊ฐ ์ ์ ๊ฒฝํฅ์ด ์์ต๋๋ค. Direct-driven์ ์ ์ด ์ ๋ฐ๋๊ฐ ๋์ง๋ง ์ง๋, ๊ด์ฑ ์ฆ๊ฐ์ ๋จ์ ์ด ์์ผ๋ฉฐ, Hybrid ๋ฐฉ์์ ์ฌ๋ฌ ๋ฐฉ์์ ์ฅ์ ์ ๊ฒฐํฉํฉ๋๋ค. ์ด๋ฌํ ์๋ค์ ๋์ Dexterity๋ฅผ ์ ๊ณตํ์ง๋ง ๋ณต์ก์ฑ, ๋น์ฉ, ๊ณ ์ฅ ์ทจ์ฝ์ฑ ๋ฑ์ ๊ณผ์ ๊ฐ ์์ต๋๋ค. ์ธ ๊ฐ์ง ๋ก๋ด ํด๋ก (์: DEX-EE [204], BarrettHand [208])๋ ๋ ๊ฐ์ง ๊ทธ๋ฆฌํผ์ ๋ค์ง ์ธ๊ฐํ ์ ์ฌ์ด์ ์ ์ถฉ์์ผ๋ก, ์ผ๋ฐ์ ์ธ grasping ์ ํ๊ณผ ์ ํ์ ์ธ in-hand manipulation์ ์ง์ํฉ๋๋ค.
3 Teleoperation Systems and Data Collection
Teleoperation ์์คํ ์ ์ธ๊ฐ-๋ก๋ด ํ์ ์ ์ํ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํ๋ฉฐ, ๋ก๋ด ํ๋์ด ์ธ๊ฐ ์์ค์ ์ง๋ฅ์ ๋ฐ๋ฅด๋๋ก ํฉ๋๋ค. ์ด๋ ์ธ๊ฐ์ ๊ด๋ฒ์ํ ์ง์๊ณผ ๊ฒฝํ์ ํ์ฉํ์ฌ ๋ณต์กํ ์ฅ๋ฉด์์ ๋ค์ํ ์์ ์ ํ๋จํ๊ณ ํผ๋๋ฐฑ์ ์ ์ํ๊ฒ ๋์ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ์ง๊ด์ ์ ๋๋ค. Teleoperation ์ค ๋ก๋ด ์ํ์ ํด๋น ์ก์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ end-to-end IL์ ์ํ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค. Teleoperation ์์คํ ์ ๋ก์ปฌ ์ฌ์ดํธ(์ธ๊ฐ ์กฐ์์, I/O ์ฅ์น)์ ์๊ฒฉ ์ฌ์ดํธ(๋ก๋ด, ์ผ์)๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. DM์ ์ํ I/O ์ฅ์น๋ก๋ ์นด๋ฉ๋ผ [17], mocap gloves [16], VR/AR controllers [14], exoskeletons ๋ฐ bilateral systems [53] ๋ฑ์ด ์ฌ์ฉ๋ฉ๋๋ค.
Vision-based systems๋ ์ปดํจํฐ ๋น์ ์ผ๋ก ์ ํฌ์ฆ๋ฅผ ์ถ์ ํ์ง๋ง, ๊ฐ๋ฆผ(occlusion), ์กฐ๋ช ๋ฑ์ ๋ฌธ์ ์ ์ทจ์ฝํฉ๋๋ค. TeachNet [222], Dexpilot [18], Robotic Telekinesis [17], AnyTeleop [19], ACE [221] ๋ฑ์ด ๊ฐ๋ฐ๋์์ต๋๋ค. ์ธ๊ฐ ์๊ณผ ๋ก๋ด ์์ ํํํ์ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฐ๊ตฌ [20]๋ ์์ต๋๋ค.
Mocap Gloves๋ ์ผ์๋ฅผ ํตํด ์ธ๊ฐ ์ ์์ง์์ ์ง์ ์ ๋ฐํ๊ฒ ์ถ์ ํฉ๋๋ค [16]. ๋น์ธ์ง๋ง ๋ฐ์ดํฐ ์์ง ํจ์จ์ ๋์ ๋๋ค.
VR/AR Controllers๋ ๋ชฐ์ ํ ํ๊ฒฝ์ ์ ๊ณตํ๋ฉฐ ์ ๋น์ฉ ์๋ฃจ์ ์ผ๋ก ํ๊ตฌ๋ฉ๋๋ค [14, 234]. ์๋ฎฌ๋ ์ด์ [245], ํผํฉ ํ์ค [234], haptic feedback ํตํฉ [235] ๋ฑ์ด ์๋๋์์ต๋๋ค.
Exoskeleton ๋ฐ Bilateral Systems๋ joint space ์ ์ด์ ์ค์ ์ ๋์ด inverse kinematics (IK) ๊ณ์ฐ ๋ฌธ์ ๋ฅผ ํํผํฉ๋๋ค [239, 240, 241]. ๋ฆฌ๋-ํ๋ก์ ๊ตฌ์กฐ๋ก ํ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค [53, 242, 243].
Retargeting [19, 221]์ ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ ์ ์๊ฒ ํฉ๋๋ค. ์ฃผ์ ๋ฐ์ดํฐ์ ์ผ๋ก๋ MIME [250], RH20T [251], BridgeData [252, 253], DROID [254] ๋ฑ์ด ์์ผ๋ฉฐ, ๋๊ท๋ชจ์ ๋ค์ํ ์์ ๋ฐ ํ๊ฒฝ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ฐ์ดํฐ ์ฆ๊ฐ [255, 256] ๋ฐ ๋ฐ๋ชจ ์์ฑ ์์คํ [257, 258, 259]์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ์ค์ด๊ณ ๋ฐ์ดํฐ ๋ค์์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค. ARCTIC [260], DexGraspNet [261], OAKINK2 [262] ๋ฑ์ ํนํ bimanual manipulation ๋ฐ ์-๊ฐ์ฒด ์ํธ์์ฉ์ ์ด์ ์ ๋ง์ถ ๋ฐ์ดํฐ์ ์ ๋๋ค.
4 Challenges and Future Directions
IL ๊ธฐ๋ฐ DM์ ๋ฐ์ดํฐ ์์ง ๋ฐ ์์ฑ, ๋ฒค์น๋งํน ๋ฐ ์ฌํ์ฑ, ์๋ก์ด ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ, ์ค์๊ฐ ์ ์ด, ์์ ์ฑ, ๊ฐ๊ฑด์ฑ ๋ฐ ์ฌํ์ ์ค์ ์ธก๋ฉด์์ ์ฌ๋ฌ ๋์ ๊ณผ์ ์ ์ง๋ฉดํด ์์ต๋๋ค.
- Data Collection and Generation: ์ด์ข ๋ฐ์ดํฐ ์ตํฉ(heterogeneous data fusion), ๋ฐ์ดํฐ ์, ํ์ง, ๋ค์์ฑ ํ๋ณด์ ์ด๋ ค์, ๊ณ ์ฐจ์ ๋ฐ์ดํฐ ํฌ์์ฑ, ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ๋ฌธ์ ์ ๋๋ค. ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ Multi-modal alignment ๊ธฐ์ , Cross-embodiment ํ์ต ํ๋ ์์ํฌ, ํฉ์ฑ ๋ฐ์ดํฐ ์ฆ๊ฐ, Domain randomization, ์์ฑ ๋ชจ๋ธ, Crowdsourced teleoperation, Self-supervised learning, ๋ฐ์ดํฐ ์์ง ํ๋กํ ์ฝ ํ์คํ, Sim-to-real fidelity ํฅ์, Differentiable physics engines, Adaptive parameter tuning, Self-supervised real-to-sim refinement ๋ฑ์ด ์์ต๋๋ค.
- Benchmarking and Reproducibility: ํ์ค ์ธ๊ณ ํ๋์จ์ด ์คํ์ ์์กด์ฑ ๋ฐ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ๊ฐ๋ณ์ฑ์ผ๋ก ์ธํด ๋ฒค์น๋งํน ๋ฐ ๊ฒฐ๊ณผ ์ฌํ์ด ์ด๋ ต์ต๋๋ค. ํ์คํ๋ ๋ฒค์น๋งํน ํ๋ ์์ํฌ ๋ฐ ์คํ ์์ค ๋ฐ์ดํฐ์ ๊ตฌ์ถ, ์๋ฎฌ๋ ์ด์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋ฐ ํ๊ฒฝ ํํ์ ์ผ๊ด์ฑ ํ๋ณด, ๋ค์ํ ๋ก๋ด ํํ์ ๊ฑธ์น Multi-modal ๋ฐ์ดํฐ ๊ธฐ๋ก, ํ์ค ํ๊ฐ ํ๋กํ ์ฝ ๋ง๋ จ์ด ํ์ํฉ๋๋ค.
- Generalization to Novel Setups: ์์ ๋ฐ ํ๊ฒฝ ๊ฐ๋ณ์ฑ, ์ ํต์ IL์ ์ ์ ํ์ต ํ๊ณ, Sim-to-real transfer ๋ฌธ์ , Cross-embodiment ์ ์์ฑ ๋ถ์กฑ์ด ๋ฌธ์ ์ ๋๋ค. ์ ์์ ๋ฐ ์ง์ ํ์ต ํ๋ ์์ํฌ (Meta-learning, RL fine-tuning), ๋ถํ์ค์ฑ ์ธ์ง ๋ชจ๋ธ, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ํ์ค์ฑ ํฅ์, Hybrid learning ์ ๊ทผ ๋ฐฉ์, Morphology-agnostic policy learning, ๊ทธ๋ํ ๊ธฐ๋ฐ ๋ฐ ์ ์ฌ ๊ณต๊ฐ ํํ ํ์ฉ, Modular policy architectures, Few-shot adaptation ๋ฑ์ด ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋๋ค.
- Real-Time Control: ๊ณ ์ฐจ์ ์ก์ ๊ณต๊ฐ ๋ฐ ๋ณต์กํ ๋์ญํ์ผ๋ก ์ธํ ๊ณ์ฐ ๋ณต์ก์ฑ์ด ๋ฌธ์ ์ ๋๋ค. Model-based (MPC)์ Model-free (RL) ๋ฐฉ๋ฒ์ ํจ์จ์ ์ธ ํ์ฉ, Hybrid control strategies, Accelerated learning ๊ธฐ์ , ๊ณ ์ฑ๋ฅ ์ปดํจํ ํ๋์จ์ด (GPUs, TPUs), Edge computing, Custom ASICs, Neuromorphic computing ๋ฑ ํ๋์จ์ด ์ํคํ ์ฒ ๊ฐ์ ์ด ํ์ํฉ๋๋ค.
- Safety, Robustness, and Social Compliance: ์ค๋ฅ ํ์ง ๋ฐ ๋ณต๊ตฌ, ์์ ์กฐ์น(์ถฉ๋ ํํผ, ํ ์กฐ์ ), ์ฌํ์ ๊ท๋ฒ ์ค์๊ฐ ์ค์ํฉ๋๋ค. ๋๊ท๋ชจ ์คํจ ๋ฐ์ดํฐ์ ๋ฐ ํ์คํ๋ ๋ฒค์น๋งํน, Self-supervised multi-modal anomaly detection, ๊ฐ๊ฑดํ ์ ์ฑ ํ๋ จ/๋ฒค์น๋งํน, ์ถฉ๋ ์ํ๋ฅผ ์ํ Compliant actuators ๋ฐ Soft robotic designs, ์ธ๊ฐ ์ค์ฌ ํ๊ฒฝ์ ํตํฉ๋๊ธฐ ์ํ ์ฌํ์ ์ค์ ํ์ต, Interactive learning paradigm, Multi-modal human-robot interaction datasets, ์ฌํ์ ์ค์ ๋ฒค์น๋งํฌ ํ์คํ ๋ฑ์ด ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก ์ ์๋ฉ๋๋ค.
5 Conclusion
IL์ ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ธฐ์ ๊ณผ ์ ๋ฐ๋๋ก DM ์์ ์ ์ํํ ์ ์๋๋ก ํ๋ ๋ฐ ์๋นํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ ์์ง, ์ผ๋ฐํ, ์ค์๊ฐ ์ ์ด, ์์ ์ฑ, Sim-to-real transfer์ ๊ด๋ จ๋ ๋ฌธ์ ๊ฐ ์ค์ง์ ์ธ ๋ฐฐํฌ๋ฅผ ๊ฐ๋ก๋ง๊ณ ์์ต๋๋ค. ์ด ๋ถ์ผ์ ๋ฐ์ ์ ์ํด์๋ ์ต์ ํ๋ IL ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ, ์ธ๊ฐ-๋ก๋ด ํ์ ๊ฐํ, ์ฒจ๋จ ์ผ์ ์์คํ ํตํฉ์ ์ด์ ์ ๋ง์ถ ๋ฏธ๋ ์ฐ๊ตฌ๊ฐ ํ์์ ์ ๋๋ค. DM์ ๋ฏธ๋๋ ์ฐ์ ์๋ํ๋ถํฐ ํฌ์ค์ผ์ด ๋ฐ ์๋น์ค ๋ก๋ด์ ์ด๋ฅด๊ธฐ๊น์ง ํฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, IL ๋ฐ ๋ก๋ด ์กฐ์์ ๊ฒฝ๊ณ๋ฅผ ๊ณ์ ํ์ฅํจ์ผ๋ก์จ ๋ ์ ๋ฅํ๊ณ ์ ์ ๊ฐ๋ฅํ๋ฉฐ ์ง๋ฅ์ ์ธ ๋ก๋ด ์์คํ ์ ๊ธธ์ ์ด ์ ์์ ๊ฒ์ ๋๋ค.