๐DextrAH-G ๋ฆฌ๋ทฐ
- ๐ค DextrAH-G๋ Reinforcement Learning(RL)๊ณผ geometric fabrics, teacher-student distillation์ ๊ฒฐํฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์๋ง ํ๋ จ๋, ๋์ค ์ด๋ฏธ์ง ๊ธฐ๋ฐ์ ์ ๊ตํ ๋ก๋ด ํ-์ ๊ทธ๋ฆฝ ์ ์ฑ ์ ๋๋ค.
- ๐ ๏ธ ์ด ์์คํ ์ ๊ณ ์ฐจ์ ๊ณต๊ฐ, sim2real gap, ์ถฉ๋ ํํผ ๋ฑ ์ฃผ์ ๋์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, geometric fabrics๋ก ํ๋์จ์ด ์์ ๊ณผ ํ๋ ์ ๋๋ฅผ ๋ณด์ฅํ๊ณ , ๊ต์ฌ-ํ์ ์ฆ๋ฅ(distillation)๋ฅผ ํตํด ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ ๋ก-์ท ์ ์ด(transfer)๋ฅผ ์ฑ๊ณต์์ผฐ์ต๋๋ค.
- ๐ DextrAH-G๋ ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ์ ๊ท ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํ์ง ๋ฐ ์ด๋ฐํ๋ฉฐ, 87%์ ์ฑ๊ณต๋ฅ ๊ณผ ๋ถ๋น 5.63ํ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ์์ฐํ๊ณ , ํ ์คํธ ์ค ํ๋์จ์ด ์์์ด ์ ํ ์์ด ๋์ ์์ ์ฑ์ ์ ์ฆํ์ต๋๋ค.

1 Brief Review
DextrAH-G๋ ๊ฐํ ํ์ต(RL), Geometric Fabrics, ๊ทธ๋ฆฌ๊ณ ๊ต์ฌ-ํ์ ์ฆ๋ฅ(teacher-student distillation)๋ฅผ ๊ฒฐํฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์๋ง ํ์ตํ๊ณ ์ค์ ์ธ๊ณ์ ์ ๋ก-์ท(zero-shot)์ผ๋ก ์ ์ด๋ ์ ์๋ ๊น์ด(depth) ๊ธฐ๋ฐ์ ๋ฅ์ํ ํ-์ ๋ก๋ด ์กฐ์(arm-hand grasping) ์ ์ฑ ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ณ ์ฐจ์ ๊ด์ธก ๋ฐ ํ๋ ๊ณต๊ฐ, sim2real gap, ์ถฉ๋ ํํผ, ํ๋์จ์ด ์ ์ฝ ๋ฑ ๊ด์ ํ ํ-์ ์ ์ฑ ํ์ต์ ์ฃผ์ ๋์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. DextrAH-G๋ 23๊ฐ์ ๋ชจํฐ๋ฅผ ๊ฐ์ง ๋ก๋ด์ด ์คํธ๋ฆฌ๋ฐ ๊น์ด ์ด๋ฏธ์ง(streaming depth images)๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๊ณ ์์ผ๋ก ์์ ํ๊ฒ ์ฐ์์ ์ผ๋ก ์ก๊ณ ์ด๋ฐํ ์ ์๊ฒ ํฉ๋๋ค.
์ด ์ฐ๊ตฌ์ ์ฃผ์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: 1. ์ ์ฑ ํ์ต์ ์ํ ๊ท๋ฉ์ ํธํฅ(inductive bias)์ ์์ฑํ๊ณ , ์ถฉ๋์ ํผํ๋ฉฐ, ๊ด์ ์ ์ฝ์ ์ ์งํ๊ณ , ํ๋์ ํ์ฑํ๋ ๋ฒกํฐํ๋ Geometric Fabric controller. 2. ๋ฒกํฐํ๋ Geometric Fabrics ์์์ ์ฌ๋ฌ ๋ค๋ฅธ ๋ฌผ์ฒด์ ๋ํ ๊ณ ์ฑ๋ฅ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ฎฌ๋ ์ด์ ์ ์ฉ RL ํ๋ จ์ privileged FGP(Fabric-Guided Policy). 3. ์๋ ํ๋์ ๋ณต์ ํ๊ณ ๋ฌผ์ฒด ์์น ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊น์ด(depth) ๊ธฐ๋ฐ, ๋ค์ค ๋ชจ๋ฌ(multi-modal) FGP์ privileged FGP ์ฆ๋ฅ(distillation). 4. ์ค์ ์ธ๊ณ์ ๋ค์ํ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ์ต์ ๋ฅ์ํ ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ DextrAH-G์ ์ ๋ก-์ท sim2real ์ ์ด(transfer).
1. Geometric Fabrics ๋ฐ Fabric-Guided Policies (FGPs)
Geometric Fabrics๋ ๊ณ ์ ์ญํ ์์คํ ์ ํ๋์ ์ผ๋ฐํํ์ฌ ์ค๊ณ ์ ์ฐ์ฑ, ์กฐํฉ์ฑ ๋ฐ ์์ ์ฑ์ ๊ฐ์ถ ์ ์ด๊ธฐ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์๊ฒ ํฉ๋๋ค. Geometric Fabric์ ๋ค์ ํํ์ ๋ฐฉ์ ์์ ๋ฐ๋ฆ ๋๋ค: M_f (q_f , \dot{q}_f )\ddot{q}_f + f_f (q_f , \dot{q}_f ) + f_\pi (a) = 0 ์ฌ๊ธฐ์ M_f \in \mathbb{R}^{n \times n}๋ ์์คํ ์ ์ฐ์ ์์๋ฅผ ํฌ์ฐฉํ๋ ์์ ์ ๋ถํธ ์์คํ ๋ฉํธ๋ฆญ(mass), f_f \in \mathbb{R}^n๋ ๋ช ๋ชฉ ๊ฒฝ๋ก ์์ฑ Geometric Force, f_\pi (a) \in \mathbb{R}^n๋ ํ๋ a \in \mathbb{R}^m์ ๋ํ ์ถ๊ฐ ๊ตฌ๋๋ ฅ์ ๋๋ค. q_f, \dot{q}_f, \ddot{q}_f \in \mathbb{R}^n๋ Fabric์ ์์น, ์๋, ๊ฐ์๋์ ๋๋ค. ์ด ๋ฐฉ์ ์์ Fabric ์ํ q_f์ \dot{q}_f๋ฅผ ์๊ฐ์ ๋ฐ๋ผ ์งํ์ํค๋ ๊ฐ์๋ \ddot{q}_f๋ฅผ ์์ฑํฉ๋๋ค. f_\pi๋ \ddot{q}_f์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก Fabric ์ํ์ ์ํฅ์ ์ค๋๋ค.
Geometric Fabric controller๋ ๋ค ๊ฐ์ง ์ฃผ์ ์ด์ ๋ก ์ฌ์ฉ๋ฉ๋๋ค:
- ์์น ์๋ ์ถฉ๋ ํํผ,
- ์ ์ฑ ํ์์ ๋์์ ์ ๋ํ๊ณ ์ ์ฒด ๋ก๋ด ์์ง์์ ์ ๋ฆฌํ๊ฒ ํ์ฑํ๋ ๋ ธ์ถ๋ ํ๋ ๊ณต๊ฐ์ ํตํ ๊ท๋ฉ์ ํธํฅ ์์ฑ,
- ๊ด์ ์ ์ฝ ์กฐ๊ฑด ์ค์,
- ์ด๋ํ์ ์กฐ์์ฑ์ ์ด์งํ๊ธฐ ์ํ ๋ก๋ด ์์ธ ์ ์ง.
์ถฉ๋ ํํผ(Collision Avoidance): ํ๊ฒฝ ๋ฐ ์์ฒด ์ถฉ๋ ํํผ๋ Geometric Fabric ํญ๊ณผ forcing Fabric ํญ์ ํตํด ์ฒ๋ฆฌ๋ฉ๋๋ค. ๋ก๋ด์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ ๊ตฌ(spheres)์ ์งํฉ์ผ๋ก ๋ชจ๋ธ๋ง๋ฉ๋๋ค. x = \phi_{fk}(q) \in \mathbb{R}^3๋ ๋ก๋ด ๊ตฌ์ฑ์์ ๊ฐ ๊ตฌ์ ์์ ์ผ๋ก์ ํฌ์๋ ์ด๋ํ ๋งคํ์ ๋๋ค. \hat{n}_i = \frac{r_i-x}{\|r_i-x\|} \in \mathbb{R}^3๋ ๊ตฌ ์ ์์ ์ถฉ๋ ๋ฌผ์ฒด i์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ r_i \in \mathbb{R}^3๊น์ง์ ๋ฐฉํฅ์ ๋๋ค. d_i = \max(d_{min}, d_i) \in \mathbb{R}^+๋ ํํ์ด ์๋ ๊ฑฐ๋ฆฌ์ ๋๋ค. Geometric ๊ฐ์๋๋ \ddot{x} = k_g \|\dot{x}\|^2 \hat{\ddot{x}}_b์ด๋ฉฐ, forcing ๊ฐ์๋๋ \ddot{x} = k_f \hat{\ddot{x}}_b - b \dot{x}์ ๋๋ค. ์ฌ๊ธฐ์ \ddot{x}_b = - \sum_i \frac{1}{d_i}\hat{n}_i๋ ์ถฉ๋์์ ๋ฉ์ด์ง๋ ๊ตฌ๋น ๊ธฐ๋ณธ ๊ฐ์๋ ๋ฐ์์ ๋๋ค. Fabric์ ๋ฉํธ๋ฆญ์ M = \beta e_d^2 \hat{M}_b๋ก ์ค๊ณ๋๋ฉฐ, ์ฌ๊ธฐ์ e_d = \min_i\{d_i\}์ ๋๋ค. M_b = \sum_i s_i d_i \hat{n}_i \otimes \hat{n}_i๋ ๊ตฌ๋น ๊ธฐ๋ณธ ๋ฉํธ๋ฆญ ๋ฐ์์ด๋ฉฐ, s_i = \frac{1}{2} \tanh(-\alpha_1(v_i - \alpha_2) + 1)๋ ๊ตฌ๊ฐ ์ถฉ๋ ๋ฌผ์ฒด i๋ก ํฅํ ๋ ํ์ฑํ๋๋ ์ค๋ฌด์ค ์๋ ๊ฒ์ดํธ์ ๋๋ค(v_i = - \dot{x} \cdot \hat{n}_i).
ํ๋ ๊ณต๊ฐ(Action Space): Allegro hand์ ๊ฒฝ์ฐ, ์ฌ๋์ ์กฐ์ ๋ฐ์ดํฐ(human grasping motion data)๋ฅผ Allegro hand์ ๋ฆฌํ๊ฒํ (retargeting)ํ๊ณ ์ฃผ์ฑ๋ถ ๋ถ์(PCA)์ ์ ์ฉํ์ฌ 5์ฐจ์ ํน์ฑ ์กฐ์(eigengrasp) ๋งค๋ํด๋๋ฅผ ์์ฑํฉ๋๋ค. PCA๋ฅผ ํตํด ์ป์ ์ฒ์ ๋ค์ฏ ๊ฐ์ ์ฃผ์ฑ๋ถ A \in \mathbb{R}^{5 \times 16}์ ์ฌ์ฉํ์ฌ e_A = [0, A] \in \mathbb{R}^{5 \times 23}๋ก ์ ์๋ ํ์คํฌ ๋งต(taskmap) x = e_A q \in \mathbb{R}^5๋ฅผ ๋ง๋ญ๋๋ค. ์ด ๊ณต๊ฐ์์ ์ธ๋ ฅ Fabric ํญ์ ์ ์ํ๋ฉฐ, ๋ฉํธ๋ฆญ M(x) = mI์ด๊ณ ๊ฐ์๋ \ddot{x} = -k_a \tanh(\alpha_a\|x-x_{pca,target}\|) \frac{x-x_{pca,target}}{\|x-x_{pca,target}\|} -b \dot{x}์ ๋๋ค. x_{pca,target}๋ 5์ฐจ์ ์ ํ๋ ๊ณต๊ฐ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ํ ์ ์ด๋ฅผ ์ํด ํ(palm)์ ๋ถ์ฐฉ๋ 7๊ฐ์ 3์ฐจ์ ์ ์ 21์ฐจ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ์๋ก์ด ํ์คํฌ ๋งต์ ์์ฑํฉ๋๋ค. ํ์ ์ํ 6์ฐจ์ ํ๋ ๊ณต๊ฐ์ ๋ชฉํ ํ ์์น x_{f,target} \in \mathbb{R}^3์ ๋ชฉํ ํ ์ค๋ฆฌ์ํ ์ด์ (Euler angles) r_{f,target} \in \mathbb{R}^3๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฒด ๋ก๋ด์ ๋ํ ํ๋ ๊ณต๊ฐ์ ์ด 11์ฐจ์์ ๋๋ค.
๊ด์ ์ ์ฝ ์กฐ๊ฑด(Joint Constraints): Fabric์ 2์ฐจ ์ ์ด๊ธฐ์ด๋ฏ๋ก, ๊ด์ ๊ฐ์๋ ๋ฐ ์ ํฌ(jerk) ์ ํ์ ํ์ํ์ผ๋ก ์ฒ๋ฆฌ๋ ์ ์์ต๋๋ค. ๋ค์ ์ด์ฐจ ๊ณํ(quadratic program)์ ํ์ด ์ฒ๋ฆฌํฉ๋๋ค: L = \frac{1}{2} (\ddot{q}_f - \ddot{q})^T M_f (\ddot{q}_f - \ddot{q}) + \alpha^2 \ddot{q}_f^T M_f \ddot{q}_f ์ฌ๊ธฐ์ \ddot{q}_f = -(M_f + \alpha I)^{-1}f_f์ด๋ฉฐ, \alpha \rightarrow \infty์ผ ๋ ||\ddot{q}_f|| \rightarrow 0์ ๋๋ค. ๋ํ, ๊ด์ ์์น ์ ํ์ Fabric์ ๊ด์ ๋ฐ๋ฐ ํญ์ ํตํด ์ ์ฉ๋ฉ๋๋ค.
์์ธ ์ ์ด(Posture Control): ๋ก๋ด์ ์ ์ด๋๋ ๊ด์ ๋ณด๋ค Fabric์ ๋ ธ์ถ๋ ํ๋ ๊ณต๊ฐ์ ์ฐจ์์ด ์ ๊ธฐ ๋๋ฌธ์ ์ค๋ณต์ฑ ๋ฌธ์ (redundancy issues)๋ฅผ ํด๊ฒฐํด์ผ ํฉ๋๋ค. ์ด๋ ๊ตฌ์ฑ ๊ณต๊ฐ(configuration space)์ ๊ธฐํํ์ ์ธ๋ ฅ(geometric attractor)์ ๋ฐ๋ฆ์ผ๋ก์จ ๋ฌ์ฑ๋ฉ๋๋ค. Fabric์ด ๋ก๋ด ์ ์ฒด ์์ง์์ ๊ตฌ์ฑ ๊ณต๊ฐ์ x_g๋ก ์๋ดํ๋, PCA ๋ฐ ํฌ์ฆ ํ์คํฌ ๋งต์์์ x_g๋ก์ ์๋ ด์ ๋ฐฉํดํ์ง ์์ต๋๋ค.
2. Teacher Privileged FGP ํ๋ จ (๊ฐํ ํ์ต)
๋ฅ์ํ ์กฐ์์ ๊ฐํ ํ์ต ๋ฌธ์ ๋ก ๊ฐ์ฃผ๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ privileged-state teacher policy๊ฐ 140๊ฐ์ง ๋ค๋ฅธ ๋ฌผ์ฒด๋ฅผ ๋ฅ์ํ๊ฒ ์กฐ์ํ๋๋ก ํ๋ จ๋ฉ๋๋ค. Geometric Fabric ํ๋ ๊ณต๊ฐ์ ๋ก๋ด์ด ์์ ํ๊ณ ์์ฐ์ค๋ฌ์ด ํ๋์ ์ํํ๋๋ก ๋ณด์ฅํ๋ฏ๋ก, ๋ณด์ ์ค๊ณ๋ ์ ์ ์ผ๋ก ์๊ฐ๋ฝ ๋-๋ฌผ์ฒด ์ ์ด ๋ฐ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ ์์น๋ก ๋ค์ด ์ฌ๋ฆฌ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
- ๋น๋์นญ ์กํฐ-ํฌ๋ฆฌํฑ(Asymmetric Actor Critic): ์ค์ ์ธ๊ณ์ ๋ฐฐํฌ๋ ๋ ์ ์ด ์ ์ฑ
์ privileged ์๋ฎฌ๋ ์ด์
์ํ ์ ๋ณด์ ์ ๊ทผํ ์ ์์ง๋ง, privileged ์ ๋ณด๋ ์๋ฎฌ๋ ์ด์
ํ๋ จ ์๋๋ฅผ ๋์ด๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ํฌ๋ฆฌํฑ V(s)๋ ๋ชจ๋ privileged ์ํ ์ ๋ณด s๋ฅผ ์ป๊ณ , teacher policy \pi_{privileged}(o_{privileged})๋ ์ด privileged ์ํ ์ ๋ณด์ ์ ํ๋ ๋ถ๋ถ์ธ ๊ด์ธก o_{privileged}๋ฅผ ์ป์ต๋๋ค.
- Teacher policy์ ๊ด์ธก o_{privileged}๋ ๋ก๋ด์ cspace ์์น q, cspace ์๋ \dot{q} (์ด 23๊ฐ), ํ์ ์ธ ์ง์ ์์น x_{palm}, x_{palm-x}, x_{palm-y}, 4๊ฐ ์๊ฐ๋ฝ ๋์ ์์น x_{fingertips}, Fabric ์ํ q_f, \dot{q}_f, \ddot{q}_f, ๋ชฉํ ๋ฌผ์ฒด ์์น x_{goal}, ๊ทธ๋ฆฌ๊ณ ๋ ธ์ด์ฆ๊ฐ ์๋ ๋ฌผ์ฒด ์์น ex_{obj} ๋ฐ ์ฟผํฐ๋์ธ eq_{obj}, ๋ฌผ์ฒด one-hot embedding e๋ฅผ ํฌํจํฉ๋๋ค.
- ํฌ๋ฆฌํฑ์ ์ ๋ ฅ ์ํ s๋ o_{privileged}์ ํจ๊ป ๋ก๋ด ๊ด์ ๋ ฅ f_{dof}, ์๊ฐ๋ฝ ๋ ์ ์ด๋ ฅ f_{fingers}, ์ค์ ๋ฌผ์ฒด ์์น x_{obj}, ์ค์ ๋ฌผ์ฒด ์ฟผํฐ๋์ธ q_{obj}, ์ค์ ๋ฌผ์ฒด ์๋ v_{obj}, ์ค์ ๊ฐ์๋ w_{obj}๋ฅผ ํฌํจํ๋ privileged ์ํ ์ ๋ณด s_{privileged}๋ฅผ ํฌํจํฉ๋๋ค.
- Teacher policy์ ํ๋ a๋ Underlying Geometric Fabric์ ๋ํ ์ ๋ ฅ์ผ๋ก, ๋ชฉํ ํ ์์น x_{f,target} \in \mathbb{R}^3, ๋ชฉํ ํ ์ค๋ฆฌ์ํ ์ด์ r_{f,target} \in \mathbb{R}^3, ์๊ฐ๋ฝ์ ๋ชฉํ PCA ์์น x_{pca,target} \in \mathbb{R}^5๋ก ๊ตฌ์ฑ๋ 11์ฐจ์ ๋ฒกํฐ์ ๋๋ค. Fabric์ 60Hz๋ก ํตํฉ๋๊ณ ์๋ฎฌ๋ ์ด์ ์ 60Hz๋ก ์งํ๋๋ฉฐ, Teacher policy๋ 15Hz๋ก ์คํ๋ฉ๋๋ค.
- ๊ฐ๊ฑดํ ์กฐ์์ ์ํ ํ๊ฒฝ ์์ (Environment Modifications for Robust Grasping):
- ๋๋ค ๋ ์น ๊ต๋(Random Wrench Perturbations): ๋ฌผ์ฒด๋ฅผ ์์ธก ๋ถ๊ฐ๋ฅํ๊ฒ ์์ง์ด๊ณ ํ์ ์ํค๋ ๋๋ค ๋ ์น๋ฅผ ์ ์ฉํฉ๋๋ค. f_{perturb} = f_{scale} m u_f ๋ฐ \tau_{perturb} = \tau_{scale} I u_\tau (ํ๋ฅ p=0.1๋ก).
- ํฌ์ฆ ๋ ธ์ด์ฆ(Pose Noise): ๋ฌผ์ฒด ํฌ์ฆ ๊ด์ธก์ ๋น์๊ด(uncorrelated) ๋ฐ ์๊ด(correlated) ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ์์น ๋ฐ ๊ธฐํํ์ ๋ถํ์ค์ฑ์ ์ค๋ช ํ๊ณ ์์ด ๋ฌผ์ฒด์ ์ ๊ทผํ ๋ ๋ ๋๊ฒ ์ด๋ฆฌ๋๋ก ์ ๋ํฉ๋๋ค.
- ๋ง์ฐฐ ๊ฐ์(Friction Reduction): ๋ฌผ์ฒด์ ๊ธฐ๋ณธ ๋ง์ฐฐ ๊ณ์๋ฅผ \mu = 0.7๋ก ์ค์ฌ ๋ง์ฐฐ์ ์ง๋์น๊ฒ ์์กดํ๋ ์กฐ์ ํ๋์ ์ํํฉ๋๋ค.
- ๋๋ฉ์ธ ๋ฌด์์ํ(Domain Randomization): ์๋ฎฌ๋ ์ด์ ๋งค๊ฐ๋ณ์์ ๋ํ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋์ ์คํํธ๋ผ์ ๊ฑธ์ณ ๊ฐ๊ฑดํ ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
- ๋ณด์ ํจ์(Reward Function): ๋ณด์์ ๊ฐ๋ณ ๋ณด์ ํญ r = \sum_i w_i r_i์ ๊ฐ์ค ํฉ์ผ๋ก ์ ์๋ฉ๋๋ค.
- r_{to-obj} = \text{minimize}(\|x_{fingertips} - x_{obj}\|)
- r_{lift} = \text{minimize}(z_{lifted} - z(x_{obj})) \times (1 - \text{lifted}(x_{obj}))
- r_{lifted} = \text{lifted}(x_{obj}) (์ฒซ ๋ฒ์งธ ํ์์คํ )
- r_{to-goal} = \text{minimize}(\|x_{goal} - x_{obj}\|) \times \text{lifted}(x_{obj})
- r_{reached} = \mathbb{1}(\|x_{goal} - x_{obj}\| < d_{success})
- r_{success} = \mathbb{1}(r_{reached} = 1 \text{ for } T_{success} \text{ consecutive timesteps}) \times (T_{max} - T) ์ฌ๊ธฐ์ \text{minimize}(e) ํจ์๋ ์ค์ฐจ e๊ฐ ํ์ฌ๊น์ง์ ์ต์ ์ค์ฐจ e_{smallest}๋ณด๋ค ์์์ง ๋๋ง ์์ ๋ณด์์ ์ ๊ณตํฉ๋๋ค. \mathbb{1}(c)๋ ์กฐ๊ฑด c๊ฐ ์ฐธ์ด๋ฉด 1, ์๋๋ฉด 0์ ๋๋ค. ํ๊ฒฝ์ ๋ฌผ์ฒด๊ฐ ํ ์ด๋ธ ์๋๋ก ๋จ์ด์ง๊ฑฐ๋, r_{success} ๋ณด์์ ๋ฐ๊ฑฐ๋, ์ํผ์๋ ์๊ฐ ์ ํ์ ๋๋ฌํ๋ฉด ๋ฆฌ์ ๋ฉ๋๋ค.
3. Student Depth FGP ํ๋ จ (์ ์ฑ ์ฆ๋ฅ)
๊ต์ฌ-ํ์ ํ๋ ์์ํฌ์ ์จ๋ผ์ธ DAgger[23]๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ฌธ๊ฐ ์ ์ฑ ์ ์ค์ ์ธ๊ณ์ ๋ฐฐํฌํ ์ ์๋ ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํฉ๋๋ค. ์ด ์ฆ๋ฅ๋ 15Hz๋ก ์ฐ์์ ์ธ ์ด๋ฏธ์ง ์ ๋ ฅ์ ์ฌ์ฉํ์ฌ ์ค์ ์ธ๊ณ์์ ๋ฐ์์ ์ด๊ณ ๋์ ์ธ ์กฐ์์ ์ํํ๋ pixels-to-action ์ ์ฑ ์ ๋ง๋ญ๋๋ค.
- ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ: ์ฆ๋ฅ ์ค ํ์ ์ ์ฑ \pi_{depth}(o_{depth})๋ ๋ก๋ด ์ํ o_{robot}, ๋ชฉํ ์์น x_{goal}, ๊ทธ๋ฆฌ๊ณ ์์ ๊น์ด ์ด๋ฏธ์ง I \in [0.5, 1.5]^{160 \times 120}m๋ฅผ ํฌํจํ๋ ๊ด์ธก o_{depth}๋ฅผ ๋ฐ์ต๋๋ค. ํ์์ ํ๋ \hat{a} \in \mathbb{R}^{11}๊ณผ ๋ฌผ์ฒด ์์น ์์ธก \hat{x}_{obj} \in \mathbb{R}^3์ ์ถ๋ ฅํฉ๋๋ค.
- ์์ค ํจ์(Loss Function): ํ์์ ๊ฐ๋ ์์ค L = L_{action} + \beta L_{pos}๋ก ํ๋ จ๋ฉ๋๋ค. ์ฌ๊ธฐ์ L_{action} = \|\hat{a} - a\|^2์ด๊ณ L_{pos} = \|\hat{x}_{obj} - x_{obj}\|^2์ ๋๋ค. a๋ teacher policy \pi_{privileged}๊ฐ ์์ธกํ ํ๋์ด๊ณ x_{obj}๋ ์๋ฎฌ๋ ์ดํฐ์ ground-truth ๋ฌผ์ฒด ์์น์ ๋๋ค.
- ๊น์ด ์ด๋ฏธ์ง ์ฆ๊ฐ(Depth Image Augmentations): ์๋ฎฌ๋ ์ด์ ์์ ๋ ๋๋ง๋ ๊น์ด ์ด๋ฏธ์ง์ ํฝ์ ๋๋กญ์์, ๋๋ค ๊ฐ ์ค์ , ์ ํ ์ธ๊ทธ๋จผํธ(robot wires mimic), ๋น์๊ด/์๊ด ๊น์ด ๋ ธ์ด์ฆ ๋ชจ๋ธ ๋ฑ ๋ค์ํ ์ฆ๊ฐ์ด ์ถ๊ฐ๋ฉ๋๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
- ์๋ฎฌ๋ ์ด์ : \pi_{depth}๋ 140๊ฐ์ ํ๋ จ ๋ฌผ์ฒด์ ๋ํด ํ๊ท 99%์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ฌ \pi_{privileged}์ ์ฑ๋ฅ๊ณผ ๊ฑฐ์ ์ผ์นํฉ๋๋ค. ๋ฌผ์ฒด๋น ํ๊ท 80%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ์ค์ ์ธ๊ณ(Real-World):
- ํ๋์จ์ด ์ค์ : Allegro Hand๊ฐ Kuka LBR iiwa arm์ ์ฅ์ฐฉ๋์ด ์๊ณ , Intel Realsense D415 ์นด๋ฉ๋ผ๊ฐ ํ ์ด๋ธ์ ๊ณ ์ ๋์ด ์์ต๋๋ค. ๋ก๋ด์ 23๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋ชจํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ๋จ์ผ ์นด๋ฉ๋ผ ์คํธ๋ฆผ์ ์ ์ฑ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๊ด์ PD ์ ์ด๊ธฐ๋ ํ์ ๋ํด 1kHz, ์์ ๋ํด 333Hz๋ก ์๋ํฉ๋๋ค. Geometric Fabric์ 60Hz๋ก, \pi_{depth}๋ 15Hz๋ก ์๋ํฉ๋๋ค.
- ๋จ์ผ ๋ฌผ์ฒด ์กฐ์ ํ๊ฐ(Single Object Grasping Assessment): 11๊ฐ์ ํ์ค ๋ฌผ์ฒด์ ๋ํด ์๋๋น 5๋ฒ์ ์กฐ์์ ์ํํ ๊ฒฐ๊ณผ, DextrAH-G๋ Table 1์ ๋ณด๊ณ ๋ ๋ฐ์ ๊ฐ์ด ์๋ก์ด ์ต์ฒจ๋จ ์กฐ์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, Pitcher๋ 80%, Pringles๋ 100%, Coffee Container๋ 100%, Cup์ 80% ๋ฑ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ๋น ํจํน ํ๊ฐ(Bin Packing Assessment): 30๊ฐ์ง ์ด์์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ฐ์์ ์ผ๋ก ์ก๊ณ ์์ ๋์ธ ๋น์ผ๋ก ์ด๋ฐํ๋ ํ
์คํธ์
๋๋ค.
- ์ฐ์ ์ฑ๊ณต(CS): DextrAH-G๋ 8๋ฒ์ ์๋์์ ํ๊ท 6.56 ยฑ 2.41๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ฐ์์ ์ผ๋ก ์ด๋ฐํ์ต๋๋ค.
- ์ฌ์ดํด ์๊ฐ(Cycle time): ํ๊ท 10.66 ยฑ 0.84์ด, ์ฆ ๋ถ๋น 5.63ํ ์ง๊ธฐ(PPM)์ ์๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- ์ฑ๊ณต๋ฅ : ์ด 256๋ฒ์ ์๋ ์ค 87%์ ์ฑ๊ณต๋ฅ ๋ก ๋ชจ๋ ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ก๊ณ ์ด๋ฐํ์ต๋๋ค.
DextrAH-G๋ ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋ฅ์ํ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ํฌ๊ฒ ๋ฐ์ ์์ผฐ์ผ๋ฉฐ, ์ค์ ์ธ๊ณ ์์ฉ์ ๋ ๊ฐ๊น์์ก์ต๋๋ค. ์๋ง์ ํ ์คํธ ์๊ฐ ๋์ ํ๋์จ์ด ์์์ ๋ฐ์ํ์ง ์์์ต๋๋ค.
5. ํ๊ณ(Limitations)
DextrAH-G์ ํ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- FGP๊ฐ ์๊ฐ๋ฝ ์ ์ด๋ฅผ ์ํด PCA ํ์คํฌ ๋งต์์ ๋ชฉํ๋ฅผ ๋ฐํํ๋ฏ๋ก ๋ก๋ด์ ์ด๋ํ์ ๋ฏผ์ฒฉ์ฑ์ ์ ํํฉ๋๋ค.
- ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋์ ๋ํ ์์กด๋๋ฅผ ์ค์ด๊ธฐ ์ํด ๊ฐ๊ฐ ์ ๋ ฅ ๊ธฐ๋ฐ์ ์ฅ์ ๋ฌผ ํํผ ํ๋์ด ํ์ต๋์ด์ผ ํฉ๋๋ค. Fabric์ ์ฅ์ ๋ฌผ ํํผ๋ ๋ก๋ด์ด ํ ์ด๋ธ๊ณผ ์ฌ๊ฐํ๊ฒ ์ถฉ๋ํ๋ ๊ฒ์ ๋ง์ง๋ง, ์ ์์ธ ๋ฌผ์ฒด์ ๋ํ ํจ๊ณผ์ ์ธ ํ์์ ์ด๋ ต๊ฒ ํ์ฌ ์ฑ๋ฅ์ ์ ํ์ํต๋๋ค.
- ์ฅ๋ฉด์์ ํ ๋ฒ์ ํ๋์ ๋ฌผ์ฒด๋ง ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋ ค๋ฉด ๋ถํ (segmentation)๊ณผ ๊ฐ์ ์ถ๊ฐ ๋ณ๊ฒฝ์ด ํ์ํ ์ ์์ต๋๋ค.
2 Detail Review
2.1 ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ์ ์์ฝ
์ด ๋ ผ๋ฌธ์์๋ DextrAH-G๋ผ๋ ์๋ก์ด dexterous ๋ก๋ด ํ์ง(grasping) ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์ด๋ 23์์ ๋ ๋ก๋ด ํ-์์ด depth ์นด๋ฉ๋ผ ์ ๋ ฅ๋ง์ผ๋ก ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๋น ๋ฅด๊ณ ์์ ํ๊ฒ ํ์งํ ์ ์๋ ํฝ์ -ํฌ-์ก์ ์ ์ฑ ์ด๋ค. ์ฃผ์ ๊ธฐ์ฌ์ฌํญ์ ๋ค์๊ณผ ๊ฐ๋ค:
- ๋ฒกํฐํ๋ ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ ๋์ : RL ์ ์ฑ ์ ํ๋ ๊ณต๊ฐ(action space)์ผ๋ก ๊ธฐํ ํจ๋ธ๋ฆญ(geometric fabric) ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ์๋ค. ์ด๋ฅผ ํตํด ์ ์ฑ ํ์ต์ ๊ฐ๋ ฅํ inductive bias์ ์ ๊ณตํ๊ณ , ๋ก๋ด์ ์ถฉ๋ ํํผ ๋ฐ ๊ด์ ํ๊ณ ์ค์๋ฅผ ๋ณด์ฅํจ์ผ๋ก์จ ๋ก๋ด ์์ง์์ ์์ ์ ์ด๊ณ ์์ฐ์ค๋ฝ๊ฒ ํ์ฑํ ์ ์์๋ค.
- ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๊ต์ฌ ์ ์ฑ ํ์ต: ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํ๋ ๊ต์ฌ FGP(fabric-guided policy)๋ฅผ ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฐํํ์ต์ผ๋ก ํ๋ จํ์๋ค. ์ด ๊ต์ฌ ์ ์ฑ ์ ์์ ์ธ๊ธํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ ์์์ ๋์ํ์ฌ, ๋ค์ํ ๋ฌผ์ฒด๋ค์ ๋ํ ๊ณ ์ฑ๋ฅ ํ์ง ๋์์ ํ์ตํ๋ ๋ฐ ์ฑ๊ณตํ์๋ค.
- ํ์ ์ ์ฑ ์ฆ๋ฅ(distillation): ์ฌ๋ ์นด๋ฉ๋ผ ๋ฑ์ ๋ฉํฐ๋ชจ๋ฌ ๊ด์ฐฐ์ ๊ธฐ๋ฐํ ํ์ FGP๋ฅผ ํ๋ จํ์ฌ, ๊ต์ฌ ์ ์ฑ ์ ํ๋์ ๋ชจ๋ฐฉํจ๊ณผ ๋์์ ๋ฌผ์ฒด์ ์์น๊น์ง ์ถ๋ก (predict)ํ๋๋ก ํ์๋ค. ์ด ์จ๋ผ์ธ ์ง์ ์ฆ๋ฅ ๊ณผ์ ์ ๊ฑฐ์น ํ์ ์ ์ฑ ์ ๊ต์ฌ์ ์๋ ์ฑ๋ฅ์ ์ฌํํ๋ฉด์๋ ์ค์ธ๊ณ ์ผ์ ์ ๋ ฅ์ผ๋ก ๋์ ๊ฐ๋ฅํ๊ฒ ๋๋ค.
- ์ ๋ก์ท ์คํ๊ฒฝ ์ ์ฉ: ํ์ต๋ ํ์ ์ ์ฑ ์ ํ์ค ๋ก๋ด์ ๋ณ๋์ ์ถ๊ฐ ํ๋ ์์ด ๋ฐ๋ก ์ ์ฉํจ์ผ๋ก์จ, ๋ค์ํ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ๋ํด ์ต๊ณ ์์ค(state-of-the-art)์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์๋ค. ์ด๋ ๋ณต์กํ ํํ์ ๋ฌผ์ฒด๋ ์ฌ๋์ฒ๋ผ ์ก์ ์ ์๋, ์ด๋ฅธ๋ฐ โ์ก์ ์ ์๋ ๊ฒ์ ๋ฌด์์ด๋ ์ก๋(grasp-anything)โ ๋ฅ๋ ฅ์ ํ ๊ฑธ์ ๋ค๊ฐ์ ์ฑ๊ณผ๋ก ํ๊ฐ๋๋ค.
2.2 ์ฌ์ฉ๋ ๊ธฐ์ /๋ชจ๋ธ ๋ฐ ์ํคํ ์ฒ ๋ถ์
DextrAH-G์ ํต์ฌ์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ๊ต์ฌ-ํ์ ํ์ต ํ๋ ์์ํฌ์, ์ด๋ฅผ ๋ท๋ฐ์นจํ๋ ๊ธฐํ ํจ๋ธ๋ฆญ ๊ธฐ๋ฐ ์ ์ด ์ํคํ ์ฒ์ด๋ค. ๋จผ์ , ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ ๋น์ ํ ๊ธฐํํ์ ๊ธฐ๋ฐํ 2์ฐจ ๋์ญํ ์ ์ด๊ธฐ๋ก์, ๋ก๋ด์ ์์ง์์ ์์ ์ฑ๊ณผ ์์ ์ฑ์ ๋ด์ฌํํ ๊ธฐ์ ์ด๋ค. ์ด ์ ์ด๊ธฐ๋ ๋ก๋ด ๊ด์ ์ ํ๊ณ๋ฅผ ์๋์ผ๋ก ๊ณ ๋ คํ๊ณ , ์๊ฐ ์ถฉ๋ ๋ฐ ํ๊ฒฝ ์ถฉ๋์ ํํผํ๋ฉฐ, ์ ์ญ์ ์ผ๋ก ์์ ์ ์ธ ๊ฒฝ๋ก๋ก ๋ก๋ด์ ์์ง์ด๊ฒ ํ๋ค. ๋ํ ๊ณ ์ฐจ์ ๊ด์ ๊ณ๋ฅผ ์ ์ฐจ์ ํ๋ ๊ณต๊ฐ์ผ๋ก ๋ ธ์ถ์์ผ ์ ์ด ๋ฌธ์ ๋ฅผ ๋จ์ํํ๊ณ , ๋ค์ค ๊ด์ ์ ์ฌ์ ์์ ๋(redundancy)๋ ํจ์จ์ ์ผ๋ก ํด์ํ๋ค. ์ด๋ฌํ ์์ฑ ๋๋ถ์, DextrAH-G์์๋ ํ์ต๋ RL ์ ์ฑ ์ ์ถ๋ ฅ์ ๊ณง๋ฐ๋ก ๋ก๋ด ๋ชจํฐ์ ๋ณด๋ด์ง ์๊ณ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ฅผ ์ค๊ฐ ๊ณ์ธต์ผ๋ก ์ฌ์ฉํ๋ค. ์ ์ฑ ์ ํจ๋ธ๋ฆญ ์์ ๋ชฉํ ๋์(์: ์๊ฐ๋ฝ ๋ ์์น๋ ํ)์ ์ถ๋ ฅํ๊ณ , ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ์ด๋ฅผ ๋ฐ์ ๋ก๋ด์๊ฒ ์์ ํ ์ค์ ๊ด์ ๋ช ๋ น์ผ๋ก ๋ณํํ๋ค. ์ด๋ ์ผ๋ฐ์ ์ธ ๊ฐํํ์ต ์ ์ฑ ์ด ์ข ์ข ๊ณผ๊ฒฉํ ์๋ ๋ช ๋ น์ด๋ ์ถฉ๋ ์ ๋ฐ ๋์์ ๋ด๋ ๋ฌธ์ ๋ฅผ ์ํํ๋ฉฐ, ํ๋์จ์ด ์ ์ฝ์ ๋ง์กฑ์ํค๋๋ก ๋ช ๋ น์ ๊ฐ๋ก์ฑ ๋ณํํ๋ ์ ์ด ๊ณ์ธต์ ๋๋ค๋ ๋ก๋ด RL์ ๋ชจ๋ฒ์ ์ธ ์ค๊ณ์ ์ผ์นํ๋ค. ํนํ NVIDIA ์ฐ๊ตฌ์ง์ ์ด๋ฌํ ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ฅผ ๋๊ท๋ชจ ๋ณ๋ ฌ RL ํ๋ จ์ ์ฌ์ฉ ๊ฐ๋ฅํ๋๋ก ๋ฒกํฐํ(vectorization)ํ์ฌ, ์๋ฎฌ๋ ์ด์ ํ๋ จ๋ถํฐ ์ค์ ๋ฐฐ์น๊น์ง ๋์ผํ ์ ์ด ๋ก์ง์ ์ผ๊ด๋๊ฒ ์ ์ฉํ ์ ์์์ ๋ณด์๋ค. ๊ทธ ๊ฒฐ๊ณผ RL ์ ์ฑ ์ด ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ์ ํจ๊ป ํ๋ จ๋๋ฏ๋ก, ํ์ต ๋จ๊ณ์์๋ถํฐ ์์ ํ ๋์๋ง ํ์ํ๊ฒ ๋๊ณ sim2real ์ฐจ์ด๋ ์ต์ํ๋๋ค.

DextrAH-G์ ํ์ต ๊ณผ์ ์ ๋ค์์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค:
๊ต์ฌ ์ ์ฑ ํ์ต (Privileged Teacher FGP): ์๋ฎฌ๋ ์ดํฐ ์์์ ๊ฐํํ์ต(RL)์ผ๋ก ๊ต์ฌ ์ ์ฑ ์ ํ๋ จํ๋ค. ์ด๋ ๋น๋์นญ Actor-Critic ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ, ํฌ๋ฆฌํฑ(๊ฐ์น๋ง)์๋ ๋ฌผ์ฒด์ ์ ํํ ์์น ๋ฑ ๋ชจ๋ ์ํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ ์กํฐ(์ ์ฑ )์๋ ๋ก๋ด์ ๊ด์ ์ํ๋ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์ผ์ ์ ๋ณด ๋ฑ ์ ํ๋ ๊ด์ฐฐ ์ ๋ณด๋ง์ ์ฃผ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ํจ๋ค. ์ด๋ฅผ ํตํด ๊ต์ฌ ์ ์ฑ ์ ํ์ค์์๋ ์ด์ฉ ๊ฐ๋ฅํ ์ ๋ ฅ๋ง์ผ๋ก ๋์ํ๋ฉด์๋, ์๋ฎฌ๋ ์ด์ ์์๋ ์ถฉ๋ถํ ์ ๋ณด๋ก ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค. ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ Proximal Policy Optimization(PPO) ๊ธฐ๋ฐ์ ๋๊ท๋ชจ ๋ณ๋ ฌ ํ์ต์ ํ์ฉํ์์ผ๋ฉฐ, LSTM ๊ธฐ๋ฐ์ ์ํ์ ๊ฒฝ๋ง ์ ์ฑ ์ ๊ตฌ์ฑํ์ฌ ๋ถ๋ถ ๊ด์ธก ์ํฉ์์๋ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ฉํด ์์ฌ๊ฒฐ์ ์ ํ ์ ์๊ฒ ํ๋ค. ํนํ LSTM ์ธต์๋ skip-connection์ ์ถ๊ฐํ์ฌ ์ถ๋ ฅ๊ฐ์ ์์ฐจ ํํ๋ก ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ํ์ ๊ฒฝ๋ง ํ์ต์ ์์ ์ฑ์ ๋์๋ค. ๋ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์๋ ํ์ค ์ ์๋ ฅ์ ๋์ด๊ธฐ ์ํด ๋ค์ํ ๋๋ฉ์ธ ๋๋คํ๊ฐ ์ ์ฉ๋์๋ค. ์๋ฅผ ๋ค์ด, ๋งค ํ์ต ์ํผ์๋๋ง๋ค ๋ฌผ์ฒด์ ์์์ ํ๊ณผ ํ ํฌ๋ฅผ ๊ฐํด ์์น๋ฅผ ํฉ๋จ๋ ค๋ณด๊ณ , ๋ฌผ์ฒด ์ํ์ ์ผ์ ๊ด์ธก์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ์ฌ ๋ถ๋ถ ๊ด์ธก ํ์์๋ ๊ฒฌ์คํ ํ์ง ๋์์ ํ์ตํ๋๋ก ํ๋ค. ๋ก๋ด์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ(์ง๋, ๋ง์ฐฐ๊ณ์ ๋ฑ) ์ญ์ ๋ฒ์๋ฅผ ๋๊ณ ๋ฌด์์๋ก ๋ณํ์์ผ์ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๊ฐ ์ฐจ์ด๋ฅผ ์ค์๋ค. ์ด๋ ๊ฒ ํ๋ จ๋ ๊ต์ฌ FGP ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ ๋ด์์ ๋ค์ํ ๋ฌผ์ฒด์ ๋ํด ๋์ ์ฑ๊ณต๋ฅ ๋ก ํ์ง ๋ฐ ์กฐ์์ ์ํํ ์ ์๊ฒ ๋๋ค.
ํ์ ์ ์ฑ ํ์ต (Depth Student FGP Distillation): ๋ ๋ฒ์งธ ๋จ๊ณ์์๋, ์์ ์ป์ ๊ต์ฌ ์ ์ฑ ์ ์์ฐ์(expert)๋ก ์ผ์ ํ์ ์ ์ฑ ์ ํ์ต์ํจ๋ค. ๊ต์ฌ ์ ์ฑ ๊ณผ ๋์ผํ ํ๊ฒฝ์์ ์จ๋ผ์ธ ์ฆ๋ฅ(distillation) ๋ฐฉ๋ฒ์ธ DAgger๋ฅผ ํ์ฉํ์ฌ, ๊ต์ฌ๊ฐ ์คํํ ํ๋์ ํ์์ด ๋ชจ๋ฐฉํ๋๋ก ํ์ต์ ์งํํ๋ค. ํ์ ์ ์ฑ ์ ์ฐ์์ ์ธ ์ฌ๋ ์์์ ์ฃผ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ฝ 15Hz ์ฃผ๊ธฐ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ฐ์๋ค์ฌ ๊ทธ๋๊ทธ๋ ์ํฉ์ ๋ฐ์ํ๋ ํ๋ฃจํ ์ ์ฑ ์ ํ์ตํ๋ค. ํ์ ์ ์ฑ ์ ๊ด์ธก์๋ ๋ก๋ด์ ๊ด์ ์ํ ๋ฑ์ proprioception๋ ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ฌ๋ ์์์ผ๋ก๋ถํฐ ๋ฌผ์ฒด์ ์์น๋ฅผ ์ถ์ ํ๋ ๋ณด์กฐ ์ถ๋ ฅ๋ ๋ด๋๋ก ๋ฉํฐํ์คํฌ ํ์ต์์ผฐ๋ค. ์ฆ ํ์ ์ ์ฑ ์ ๋งค ์๊ฐ ์ฌ๋ ์นด๋ฉ๋ผ ์์๊ณผ ์๊ธฐ์ผ์ ๊ฐ์ผ๋ก ํ์ฌ ์ํฉ์ ํ์ ํ๊ณ , ๋ค์ ์๊ฐ ๋ก๋ด ํ๊ณผ ์๊ฐ๋ฝ์ ์ค ๋ช ๋ น์ ์ถ๋ ฅํจ๊ณผ ๋์์ ํ์ฌ ๋ฌผ์ฒด์ ์์ ์์น๋ ์ถ๋ก ํ์ฌ ๋ณด๊ณ ํ๋ค. ์ด๋ฌํ ์ค์ ์ ์ค์ ํ๊ฒฝ์์ ๋ฌผ์ฒด๊ฐ ๋ณด์ด์ง ์๊ฒ ๋๋ ๊ฐ๋ฆผ(occlusion) ์ํฉ์์๋ proprioception๊ณผ ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ํ์ฉํด ๋ฌผ์ฒด ์์น๋ฅผ ๋๊น์ง ์ถ์ ํ ์ ์๋๋ก ํ๊ธฐ ์ํจ์ด๋ค. ํํธ ํ์ ์ ์ฑ ํ์ต์์๋ ์๋ฎฌ๋ ์ด์ ์ฌ๋ ์์์ ๋๋ค ๋ ธ์ด์ฆ, ์ก์ ๊ฐ์ฒด ๋ฑ์ ์ถ๊ฐํ์ฌ ํ์ค ์นด๋ฉ๋ผ ํ์ง๊ณผ ์ต๋ํ ์ ์ฌํ๊ฒ ๋ง์ถ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์๋ค. ์ด ๊ณผ์ ์ ํตํด ๊ฒฐ๊ณผ์ ์ผ๋ก ํ์ FGP๋ ๊ต์ฌ ์ ์ฑ ์ ํ์ ํ๋ ์ฑ๋ฅ์ ๊ฐ์ง๋ฉด์๋ ํฝ์ ๋จ์์ ์ผ์ ์ ๋ ฅ๋ง์ผ๋ก ๋์ํ๋ ์ ์ฑ ์ผ๋ก ๊ฑฐ๋ญ๋๋ค.
์ค์ธ๊ณ ๋ฐฐ์น (Zero-Shot Deployment): ๋ง์ง๋ง์ผ๋ก, ์ด๋ ๊ฒ ํ๋ํ ํ์ ์ ์ฑ ์ ํ์ค ๋ก๋ด์ ์ด์ํ๋ค. ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ๋ชจ๋ธ์ ๋ณ๋ ์ถ๊ฐ ํ์ต์ด๋ ๋ฏธ์ธ์กฐ์ ์์ด ๋ฐ๋ก ์ ๋ก์ท(sim2real)์ผ๋ก ์ ์ฉํ๋ ๊ฒ์ด ํน์ง์ด๋ฉฐ, ์ด๋ ์์ ์ฌ์ฉ๋ ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ ๋๋ถ์ ๊ฐ๋ฅํ๋ค. ์ค์ ๋ก๋ด ํ๋์จ์ด๋ KUKA LBR iiwa 7-์์ ๋ ๋ก๋ดํ์ Allegro ๋ค๊ด์ ๋ก๋ด ์(4 finger, 16 DOF)์ ์ฅ์ฐฉํ ๊ตฌ์ฑ์ผ๋ก, ์ด 23๊ฐ์ ๋ชจํฐ๋ฅผ ๊ฐ์ง ํ๋ซํผ์ด๋ค. ํ ์ด๋ธ ์์ Intel Realsense D415 ๊น์ด ์นด๋ฉ๋ผ ํ ๋๋ฅผ ๊ณ ์ ์ค์นํ์ฌ ์์ ๊ณต๊ฐ์ ๋ด๋ ค๋ค๋ณด๊ฒ ํ๊ณ , ์ด ๋จ์ผ ์นด๋ฉ๋ผ ์์ ์คํธ๋ฆผ์ด ์ ์ฑ ์ ์ฃผ๋ ์๊ฐ ์ ๋ ฅ์ด๋ค. ๋ก๋ด ์ ์ด๋ ROS 2 ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ๋์์ผ๋ฉฐ, ํ๊ณผ ์์ ๊ฐ๊ฐ 1kHz์ 333Hz ์ฃผ๊ธฐ์ ์ ์์ค PD ์ ์ด๊ธฐ๊ฐ ๋์ํ๊ณ ์๋ค. ํ์ต๋ FGP ์ ์ฑ ๋ชจ๋์ ๋ณ๋ ๋ ธ๋๋ก ์คํ๋์ด 15Hz ์ฃผ๊ธฐ๋ก ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์ ๋ก๋ด ์ํ๋ฅผ ๋ฐ์ ์ก์ ์ ์ถ๋ ฅํ๋ฉฐ, ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ ๋ ๋ค๋ฅธ ๋ ธ๋์์ 60Hz ์ฃผ๊ธฐ๋ก ์คํ๋์ด ์ ์ฑ ์ด ๋ณด๋ธ ์ก์ ๋ช ๋ น์ ์ค์ ๊ด์ ๋ช ๋ น์ผ๋ก ๋ณํํ๋ค. ์ด์ฒ๋ผ ์ ์ฑ ๊ณผ ํจ๋ธ๋ฆญ ์ ์ด๋ฅผ ๋ชจ๋ํํ์ฌ ๋ณ๋ ฌ ์คํํจ์ผ๋ก์จ, ์ค๋ น ์ ์ฑ ๋ชจ๋์ด ์ผ์์ ์ผ๋ก ์ง์ฐ๋๊ฑฐ๋ ๋น์ ์ ๋์ํ๋๋ผ๋ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ๋ก๋ด ์์ง์์ ์์ ์ฑ์ ์ง์์ ์ผ๋ก ๊ด๋ฆฌํ ์ ์๊ฒ ์ค๊ณ๋์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก DextrAH-G๋ ํ์ค ํ๊ฒฝ์์ ๊ต์ฌ ์ ์ฑ ์ ๋ชจ์ฌํ ํ์ ์ ์ฑ + ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ ์กฐํฉ์ผ๋ก ๊ตฌ๋๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ ๋ณด์ฌ์ค ๋์ ์ฑ๋ฅ์ ํ์ค์์๋ ์ด์ด๊ฐ ์ ์๊ฒ ๋๋ค.
2.3 ์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
DextrAH-G์ ์ฑ๋ฅ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์คํ๊ฒฝ ๋ชจ๋์์ ๋ฉด๋ฐํ ํ๊ฐ๋์๋ค. ๋จผ์ ์๋ฎฌ๋ ์ดํฐ์์์ ํ์ต๋ ๊ต์ฌ ์ ์ฑ ์ 140๊ฐ์ ํ๋ จ ๋ฌผ์ฒด๋ค์ ๋ํด ์ํผ์๋ ๊ธฐ์ค 99% ์ด์์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, ๊ฐ๋ณ ๋ฌผ์ฒด ๊ธฐ์ค์ผ๋ก๋ ํ๊ท 80% ์์ค์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค. ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํ ํ์๋ ์๋ฎฌ๋ ์ดํฐ์์ ๊ต์ฌ ๋๋น ๊ทผ์ํ ์ฑ๋ฅ ์ ํ๋ง ๋ํ๋ฌ์ ๋ฟ ๋์ฒด๋ก ์ ์ฌํ ํ์ง ์ฑ๊ณต๋ฅ ์ ์ ์งํ์ผ๋ฉฐ, ์ด๋ sim2real ์ด์ ๋จ๊ณ์์ ์ด๋ฏธ ์ ์ฑ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ํ๋ณด๋์์์ ์๋ฏธํ๋ค.
์ค์ธ๊ณ ํ๊ฐ๋ ๋ ๊ฐ์ง ํ๋กํ ์ฝ๋ก ์งํ๋์๋ค. ์ฒซ์งธ, ๋จ์ผ ๊ฐ์ฒด ํ์ง ํ๊ฐ(single object grasping)๋ก ํ์ค ๋ฒค์น๋งํฌ์ ์ค๊ฑฐํ ์คํ์ด๋ค. ์ฌ๋ฌ ๊ฐ์ง ๋ํ์ ์ธ ํํ์ ๋ฌผ์ฒด 11์ข ์ ์ ์ ํ ํ, ๊ฐ ๋ฌผ์ฒด๋ฅผ ํ ์ด๋ธ ์์ ๋ค์ฏ ๋ฒ์ฉ ์์์ ์์ธ๋ก ๋ฐฐ์นํ๊ณ ๋ก๋ด์ด ์ด๋ฅผ ์ง์ด ๋ค๊ฒ ํ์ฌ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ์๋ค. ๋ง์ฝ ์ฒซ ์๋์ ์คํจํด๋ ๋ก๋ด์ด ์ฐ์์ ์ผ๋ก ์ฌ์๋ํ๋๋ก ํ์ฌ, ์ ์ฑ ์ ์ง์์ ์ธ ์ ์ ๋ฅ๋ ฅ๋ ํ๊ฐํ๋ค. ๊ทธ ๊ฒฐ๊ณผ DextrAH-G๋ ๋๋ถ๋ถ์ ๋ฌผ์ฒด์์ 5ํ ์๋ ๋ด 100%์ ๊ฐ๊น์ด ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๋ฉฐ, ์๋ก์ด ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ฌผ์ฒด๋ณ ํ๊ท ์ฑ๊ณต๋ฅ ์ด 80%~100% ์ฌ์ด์๊ณ , ์๋ฅผ ๋ค์ด ๋จธ๊ทธ์ปต์ด๋ ๊ณผ์ ์์(์ง์ก๋ฉด์ฒด)์ ๊ฒฝ์ฐ ๊ธฐ์กด ๋ฐฉ๋ฒ(Matak ๋ฑ)์ 0% ์ฑ๊ณต์ ๊ทธ์ณค๋ ๋ฐ๋ฉด DextrAH-G๋ 100% ์ฑ๊ณต์ ๊ฑฐ๋์๋ค๋ ๋ณด๊ณ ๊ฐ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ DextrAH-G์ ๊ฒฌ๊ณ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ผ๋ก, ํ์ ๋ ํ๋ จ ์ธํธ๋ก ํ์ตํ์์๋ ๋ถ๊ตฌํ๊ณ ์ฒ์ ๋ณด๋ ํํ์ ๋ฌผ์ฒด๊น์ง ์ค์๊ฐ ํ์ง๊ฐ ๊ฐ๋ฅํจ์ ์ ์ฆํ๋ค. ๋ค๋ง ์ด ๋จ์ผ ๊ฐ์ฒด ํ๊ฐ๋ ์๋๋ ์ฐ์ ์์ ์ํฉ์ ๋ฐ์ํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์, ๋ ผ๋ฌธ ์ ์๋ค์ ์ถ๊ฐ๋ก ์ฐ์ ์์ ํ๊ฐ๋ฅผ ์ ์ํ์๋ค.
๋์งธ ํ๊ฐ๋ก ๋น(pack) ์ฑ์ฐ๊ธฐ ์ฐ์ ํ์ง ํ ์คํธ๋ฅผ ์ํํ์๋ค. ์ด๋ ๋ก๋ด์ด ๋ค์ํ ๋ฌผ์ฒด๋ค์ ์ฐ๋ฌ์ ์ง์ด์ ์ ์์์ ์ฎ๊ธฐ๋ ์์ ์ ์ง์์ ์ผ๋ก ์ํํ๋๋ก ํ๋ ์๋๋ฆฌ์ค๋ก, ์ค์ ์ฐ์ ์ฉ ํผํน ์์ ์ ๋ฐฉ๋ถ์ผ ํ๋ ์์ฉ ๋งฅ๋ฝ์ ์คํ์ ๋์ ํ ๊ฒ์ด๋ค. ๋ก๋ด ์ ํ ์ด๋ธ์ 30์ฌ ์ข ๋ฅ์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๋ฌด์์๋ก ๋๊ณ ํ ๋ฒ์ ํ๋์ฉ ์ง์ด ๋ค๊ฒ ํ ๋ค์, ์ก์ ๋ฌผ์ฒด๋ฅผ ์์ ๋น(bin) ์์์ ๋จ์ด๋จ๋ฆฌ๋ฉด ๋ค์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์ก๋ ์์ผ๋ก ์ค์๊ฐ ์ฐ์ ์์ ์ ์งํํ์๋ค. ์ด๋ฌํ ํ ์ฌ์ดํด(์ง๊ธฐ-์ด๋-๋๊ธฐ)์ ๊ฑธ๋ฆฌ๋ ํ๊ท ์๊ฐ(cycle time)๊ณผ ์ฐ์ ์ฑ๊ณต ํ์, ๊ทธ๋ฆฌ๊ณ ์ข ํฉ ์ฑ๊ณต๋ฅ ์ด ์ฑ๋ฅ ์งํ๋ก ์ฌ์ฉ๋์๋ค. ์ด 8ํ์ ๊ฑธ์น ์ฐ์ ํ ์คํธ ๊ฒฐ๊ณผ, DextrAH-G๋ ํ๊ท 6.56ํ ์ฐ์ ์ฑ๊ณต(ํ ๋ฒ ์คํจํ๊ธฐ ์ ๊น์ง ์ฐ์ ์ง์ด ์ฎ๊ธด ๋ฌผ์ฒด ์, 95% ์ ๋ขฐ๊ตฌ๊ฐ ยฑ2.41)์ผ๋ก ์ฌ๋ฌ ๋ฌผ์ฒด๋ฅผ ์ฐ์ ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์๋ค. ์ฌ์ดํด ํ์์ ํ ์ฌ์ดํด๋น ํ๊ท 10.66์ด(ํ์คํธ์ฐจ ยฑ0.84์ด)๋ก ์ธก์ ๋์๋๋ฐ, ์ด๋ ๋ถ๋น ์ฝ 5.63๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ฎ๊ธธ ์ ์๋ ์๋์ ํด๋นํ๋ค. ์ด 256๋ฒ์ ์ง๊ธฐ ์๋ ์ค 87%์์ ์ต์ข ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ฎ๊ธฐ๋ ๋ฐ์ ์ฑ๊ณตํ์ฌ, ์ข ํฉ ์ฑ๊ณต๋ฅ 87%๋ฅผ ๊ธฐ๋กํ์๋ค. DextrAH-G๋ ์ด์ฒ๋ผ ๋์ ์ ๋ขฐ๋(87% ์ฑ๊ณต)์ ๋น ๋ฅธ ๋์ ์๋(5.6 PPM)๋ฅผ ๋์์ ๋ฌ์ฑํจ์ผ๋ก์จ, ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๋ฑ์คํฐ๋ฌ์ค ๋ก๋ด ์ ํ์ง ์ฐ๊ตฌ ์ค ๊ฐ์ฅ ๋ฐ์ด๋ ์๋-์ ํ๋ ํธ๋ ์ด๋์คํ๋ฅผ ๋ฌ์ฑํ๋ค๋ ํ๊ฐ๋ฅผ ๋ฐ๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ์ ์์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ์กฐํฉ์ด ์ค์ ํ์ฉ์ ํ ๊ฑธ์ ๋ค๊ฐ์ ์ฑ๋ฅ ์งํ๋ผ๊ณ ๊ฐ์กฐํ๋ฉฐ, DextrAH-G์ ์ฐ์ ์์ ์ฌ์ดํด ํ์์ด ์ด๋ฏธ ์ค์ฉ์ ๊ธฐ์ค์ ๊ทผ์ ํ๋ค๊ณ ่ฟฐํ๊ณ ์๋ค. ์ฐธ๊ณ ๋ก ์ฐ์ ๊ณต์ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ์ธ๊ฐ ์์ ์์ ์ด์์ ์ธ ํผํน ์๋๋ ๋ถ๋น ์ฝ 16.5ํ ์ ๋๋ก ์ถ์ฐ๋๋๋ฐ, DextrAH-G๋ ํ์ฌ ๊ทธ๋ณด๋ค ์ฝ๊ฐ ๋๋ฆฌ์ง๋ง(โ5.6ํ/๋ถ) ๊ฐ์ ์ฌ์ง๋ฅผ ์ถฉ๋ถํ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ ๊ฐ๊น์ด ๋ฏธ๋์ ์๋๋ฅผ ๋์ฑ ๋์ผ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์๋ ์ฐ์ ๋์ ์ค์๋ ๋ก๋ด์ ์ด๋ค ์์๋ ๋ฐ์ํ์ง ์์์ผ๋ฉฐ, ์ ์๊ฐ ๋์ ์๋ฐฑ ํ์ ๊ฑธ์น ํ ์คํธ์๋ ํ๋์จ์ด ๊ณ ์ฅ์ด๋ ํ์ ์์ด ์ํํ๊ฒ ์๋ํ์์ ๋ณด๊ณ ํ๊ณ ์์ด, ์์ ์ฑ ์ธก๋ฉด์์๋ ๋ณธ ๊ธฐ๋ฒ์ ์ฐ์ํจ์ ๋ณด์ฌ์ฃผ์๋ค.
2.4 ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต ๋ฐ ์ฐจ๋ณ์
DextrAH-G๋ ๊ธฐ์กด์ ๋ฑ์คํฐ๋ฌ์ค ๊ทธ๋ฆฌํผ ์ฐ๊ตฌ๋ค๊ณผ ์ฌ๋ฌ ๋ฉด์์ ์ฐจ๋ณํ๋๋ค. ๋จผ์ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ฐจ์ด๊ฐ ๋๋๋ฌ์ง๋ค. ๊ณผ๊ฑฐ์ ์ ํต์ ์ธ ๋ก๋ด ํ์ง ๊ธฐ๋ฒ๋ค์ ์ฃผ๋ก ์๊ฐ์ ์ธ์์ ํตํ ๊ทธ๋ฆฝ ํฌ์ฆ ์ ์ ์ ์ง์คํ๊ณ , ์ ์ ๋ ์์ธ๋ก ๋ก๋ด์ ์์ง์ด๊ธฐ ์ํด ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)๋ ๊ฒฝ๋ก ๊ณํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ ๊ณ์ธต์ ์ ๊ทผ์ด ๋ง์๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๊ฐ๋ณ ๋์ ๋จ๊ณ(ํ์ง-์ ๊ทผ-ํ์ง)๋ก ๋ถ๋ฆฌ๋์ด ์์ด ์ด๋ ์ ๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ง๋ง, ์ค์๊ฐ์ผ๋ก ์ฐ์์ ์ผ๋ก ๋ฐ์ํ์ง ๋ชปํ๊ณ ์ผํ์ฑ ์คํ์ ๊ทธ์น๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์๋ค. ์๋ฅผ ๋ค์ด ํ์ ์ ์ฒด ๊ด์ ์์ ๋๋ฅผ ๋ชจ๋ ํ์ฉํ์ฌ ํ์ง ์ง์ ์ ํฅํด ์ ์ฐํ๊ฒ ์ ๊ทผํ๊ฑฐ๋, ํ์ง ํ์ ์๊ฐ๋ฝ๊ณผ ํ์ ์กฐํ๋กญ๊ฒ ์ฌ์กฐ์ ํ๋ ๋ฑ์ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค. ๋ฐ๋ฉด DextrAH-G๋ ํ ๋ฒ์ ๋๊น์ง ๊ณํ์ ์ธ์ฐ๋ ๋์ , ์ผ์ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ฌ ๋๋ง๋ค 15Hz๋ก ๊ณ์ ์ฌ๊ณํ ๋ฐ ์ ์ดํ๋ค๋ ์ ์์ ์ง์ ํ ์ค์๊ฐ ํ๋ฃจํ ์ ์ด๋ฅผ ๊ตฌํํ์๋ค. ์นด๋ฉ๋ผ ์์๊ณผ ๋ก๋ด ๊ด์ ์ผ์ ๋ฑ ๋ชจ๋ ์ ๋ณด์์ ํตํฉ(fuse)ํ์ฌ ๊ณ ์ฃผํ์ ์ ์ด ๋ช ๋ น์ ์์ฑํจ์ผ๋ก์จ, ๋ถ๋ถ ๊ด์ธก ํ๊ฒฝ์์ ๋ฐ์ํ๋ ๋ถํ์ค์ฑ์ ๋์ํ๊ณ ํ์ง ๋์์ ์ฑ๊ณต๋ฅ ์ ํฅ์์ํจ ๊ฒ์ด๋ค. ์ด๋ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ ํญ์ ์ฃผ๋ณ์ ๊ฐ์งํ๊ณ ์ฆ๊ฐ ํผ๋๋ฐฑ์ ๋ฐ์ํ๋ฏ๋ก, ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๊ฑฐ๋ ์์ง์ด๋๋ผ๋ ์ ์ํ ๋ณด์ ํ ์ ์๋ค๋ ๊ฐ์ ์ด ์๋ค.
ํ์ต ๊ธฐ๋ฐ ๊ธฐ๋ฒ๋ค์ ์ ๋ ฅ๊ณผ ๋ชจ๋ธ ์์กด์ฑ ์ธก๋ฉด์์๋ ์ค์ํ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค. ๊ธฐ์กด์ ๋ง์ ๋ฅ๋ฌ๋/๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฑ์คํฐ๋ฌ์ค ํ์ง ์ฐ๊ตฌ๋ค์ ์ฌ์ธต ์ผ์ ๋ฐ์ดํฐ์ ํ๊ณ ๋๋ ์ฌ์ ์ง์์ ๋ํ ์์กด์ ๊ฐ์ง๊ณ ์์๋ค. ์๋ฅผ ๋ค์ด, 3D ๋ฌผ์ฒด ๋ชจ๋ธ๋ก๋ถํฐ ์์ญ๋ง ๊ฑด์ ํฉ์ฑ ํ์ง ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ณ ํ์ตํ๊ฑฐ๋, ๋ฌผ์ฒด์ CAD ๋ชจ๋ธ์ ๋ฏธ๋ฆฌ ์๊ณ ์์ด์ผ๋ง ์ฌ์ฉํ ์ ์๋ ๋ถ์์ ์งํ(์: form closure, force closure ๋ฑ)๋ฅผ ํ์ฉํ๊ธฐ๋ ํ๋ค. ์ผ๋ถ ์ต์ ์ฐ๊ตฌ๋ค์ ์ ์ฒด ๋ฌผ์ฒด์ ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ์ง ํ๋ณด๋ฅผ ์์ฑํ๊ณ RL ์ ์ฑ ์ผ๋ก ์ง๋ ์๋๋ฅผ ํ์ผ๋, ์ค์ ์ ์ฉ ์์๋ ๋ฌผ์ฒด์ ์ ํํ 3D ๋ชจ๋ธ์ ์์์ผ ํ๊ฑฐ๋ ์ผ์ ์ ๊ตฌ๋ฆ๊ณผ ๊ทธ ๋ชจ๋ธ์ ์ ํฉ(registration)ํด์ผ ํ๋ ์ด๋ ค์์ด ์์ด ๋ฒ์ฉ์ฑ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์๋ค. ์๋ฅผ ๋ค์ด Liu ๋ฑ(2023)์ ์-๋ฌผ์ฒด ์ํธ์์ฉ์ ํํํ๋ ์๋ก์ด ํผ์ฒ๋ฅผ ์ ์ํ์ง๋ง, ์ค์ ๋ก๋ ๋ฌผ์ฒด์ CAD ๋ชจ๋ธ์ ์ผ์ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ ๋ ฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ ํ์ค์์๋ ์ ์ฉ์ด ์ ํ์ ์ด์๋ค๊ณ ๋ณด๊ณ ํ๋ค. ๊ทธ ์ธ์๋ Agarwal ๋ฑ(2023)์ ์ด๋ฏธ ํ์ต๋ ๋น์ ํธ๋์คํฌ๋จธ(DINO-ViT) ํน์ง์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฅํ์ฌ ์ฌ์ ์ ์๋ ์ ์์ธ(eigengrasp)๋ก ์ก๋ RL ์ ์ฑ ์ ์ ์ํ์ผ๋ฉฐ, Qin ๋ฑ(2022)์ ํน์ ๋ฒ์ฃผ(category)์ ๋ฌผ์ฒด๋ค์ ๋ํด์๋ง ๋์ํ๋ ํฌ์ธํธํด๋ผ์ฐ๋ ๊ธฐ๋ฐ RL ์ ์ฑ ์ ์ ๋ณด์๋ค. ์ด๋ค์ ๋ชจ๋ ํฅ๋ฏธ๋ก์ด ์ ๊ทผ์ด์ง๋ง, ํน์ ์ํฉ์ ํนํ๋์ด ์๊ฑฐ๋ ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค. DextrAH-G๋ ์ด๋ฌํ ์ ์ฝ์ ๋ํญ ์ํํ์ฌ, ๋จ ํ ๋์ ์ฌ๋ ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ๊น์ด ์์๊ณผ ๋ก๋ด์ ๊ด์ ๊ฐ ๋ฑ์ proprioception๋ง์ผ๋ก ํ๊ณผ ์์ ๋์์ ์ ์ดํ๋ ์ผ์ํ๋ ์ ์ฑ ์ ํ์ต์์ผฐ๋ค. ๋ฌผ์ฒด์ CAD ๋ชจ๋ธ์ด๋ ์ฌ์ ์ดฌ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์ด๋ ๋์ํ๋ฉฐ, ํ ๋ฒ ํ์ต๋๋ฉด ์นดํ ๊ณ ๋ฆฌ์ ์๊ด์์ด ์๋ก์ด ๋ฌผ์ฒด์๋ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํจ์ ์ค์ ๋ก ์์ฐํ ๊ฒ์ด ํฐ ์ฐจ๋ณ์ ์ด๋ค. ์์ฝํ๋ฉด, DextrAH-G๋ ์ผ์๋ฆฌ์ผ(sim-to-real) ๊ด์ ์์ ํจ์ฌ ๊ฐ๊ฒฐํ๊ณ ์ค์ฉ์ ์ธ ์ ๋ ฅ๋ง์ผ๋ก ํ๋ จ๋์์์๋ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค๋ณด๋ค ๋ฐ์ด๋ ๋ฒ์ฉ ํ์ง ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค.
์ ์ด ๋ฐ ์์ ์ฑ ์ธก๋ฉด์์๋ DextrAH-G๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ๋ค๋ฅธ ์ฒ ํ์ ์ทจํ๊ณ ์๋ค. ์ ํต์ ์ธ RL ๊ธฐ๋ฐ ๋ก๋ด ์ ์ฑ ์ ์ฃผ๋ก ์กฐ์ธํธ PD ์ ์ด๊ธฐ๋ OSC(์์ ๊ณต๊ฐ ์ ์ด) ๊ฐ์ ๋จ์ ์ ์ด๊ธฐ์ ๋ช ๋ น์ ๋ณด๋ด๋ ํํ๋ก ์๋ํ๋ค. ์ด๋ ๊ฒ ๋ฎ์ ์์ค์ ๋จ์ ์ ์ด๋ฅผ ์ฐ๋ฉด ๊ตฌํ์ ์ฝ์ง๋ง, ๋ก๋ด ํ๋์ ๋ชจ๋ ์ธ๋ถ๋ฅผ ํ์ต๋ ์ ์ฑ ์ด ๋ด๋นํด์ผ ํ๋ฏ๋ก ํ์ต ๋์ด๋๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ๊ณ , ์์นซ ์ถฉ๋ ํํผ๋ ๊ด์ ํ๊ณ ์ค์๊ฐ์ด ์ค์ํ ์์ ์์๋ค์ด ์ ์ฑ ์ ์ํด ์ ๋๋ก ํ์ต๋์ง ์์ ์ํ์ด ์๋ค. ์ค์ ๋ก ๊ณ ์ฐจ์ ํ๋ ์ฐ์ฃผ์์ ๋ณต์กํ ์ฐ์ ์์(๋ชฉํ ๋ฌ์ฑ, ํ๋์จ์ด ๋ณดํธ, ์์ฐ์ค๋ฌ์ด ์์ง์ ๋ฑ)๋ฅผ ์ ๊ฒฝ๋ง ํ๋๋ก ๋ชจ๋ ๋ฐ๊ฒฌํด๋ด๋ ๊ฒ์ ๊ทนํ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ์ ์ฑ ์ด ์ต์ ํ ๊ณผ์ ์์ ํธํํ ํด๋ฒ(local optima)์ ๋น ์ง๊ฑฐ๋ ์์์น ๋ชปํ ๋ถ์์ฐ์ค๋ฌ์ด ๋์์ ๋ง๋ค์ด๋ด๊ธฐ ์ฝ๋ค. DextrAH-G๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์ด๊ธฐ ์ชฝ์ ๋ง์ ์ง๋ฅ์ ๋ฏธ๋ฆฌ ๋ฃ์ด๋๋ ๋ฐฉ์์ ์ฑํํ๋ค. ์์ ์ค๋ช ํ ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ๋ฐ๋ก ๊ทธ๋ฐ ์ญํ ์ ํ๋ฉฐ, ์ด ๊ณ ๋ํ๋ ์ ์ด ๋ ์ด์ด๊ฐ ์์์ ์ถฉ๋์ ํผํ๊ณ ๊ด์ ์ ์ฝ์ ์งํค๋ฉฐ ์๊ฐ๋ฝ ๋ง๋จ์ ์์ง์์ ์๋ฏธ์๋ ๋ฐฉ์์ผ๋ก ์ ๋ํด์ค๋ค. ์ค์ Van Wyk ๋ฑ(2024)์ ์ ํ ์ฐ๊ตฌ์์๋ ์ด ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ฅผ ํ์ฉํด ์๊ฐ๋ฝ ๋์ด ๋ฌผ์ฒด๋ฅผ ํฅํ๋๋ก ์์ฐ์ค๋ฝ๊ฒ ๋์ด๋น๊ธฐ๋ ํ์ ์ ์ฉํ๊ณ ๊ด์ ๊ฐ ์ ํ์ ์๋ ์ฒ๋ฆฌํจ์ผ๋ก์จ, ๋ณต์กํ ๋ค๊ด์ ์ ๋ด ๋ฌผ์ฒด ์ฌ๋ฐฐ์ด ์์ ์์ ์๋ก์ด SOTA ์ฑ๋ฅ์ ๋ธ ๋ฐ ์๋ค. DextrAH-G ์ญ์ ์ด๋ฌํ ํจ๋ธ๋ฆญ ๊ฐ์ด๋ ์ ์ฑ (FGP) ์ ๊ทผ์ ๊ณ์นํ์ฌ, RL ์ ์ฑ ์ด ์ฃผ์ ๋ชฉํ ๋ฌ์ฑ์๋ง ์ง์คํด๋ ๋ ๋งํผ ๋ค๋ฅธ ๋ถ์์ ์ธ ํ๋๋ค์ ์ ์ด๊ธฐ๊ฐ ์ฑ ์์ง๋๋ก ๋ง๋ค์๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ณด์ ํจ์๋ฅผ ๋จ์ํํ ์ ์์๊ณ (์: ์ถฉ๋ ์ต์ํ ๋ฑ์ ๋ณด์กฐ ๋ณด์์ ํฌ๊ฒ ์ ๊ฒฝ์ฐ์ง ์์๋ ๋จ), ์ ์ฑ ์ต์ ํ๋ ์์ํด์ก๋ค. ๋ ์ค์ํ ์ ์, ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ์ ์ฑ ์ ๊ณผ๊ฒฉํ ์ถ๋ ฅ์ผ๋ก๋ถํฐ ๋ก๋ด์ ๋ณดํธํด์ฃผ๊ธฐ ๋๋ฌธ์ ํ๋ จ๋ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ ์ฉํ ๋ ์์ ์ฑ์ด ํ๋ณด๋๋ค๋ ๊ฒ์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ์ธ๋ RL ์ ์ฑ ๋ค์ ์คํ ์ค ๋ชจํฐ๊ฐ ๊ณผ์ด๋๊ณ ์ฐ๊ธฐ๊ฐ ๋๋ ๊ณ ์ฅ์ ๊ฒช๊ธฐ๋ ํ์ผ๋, DextrAH-G์์๋ ํจ๋ธ๋ฆญ ์ ์ด์ธต ๋๋ถ์ ๊ทธ๋ฐ ์ฌํ ์์ด ์์ ๋กญ๊ฒ ์คํ์ ๋ฐ๋ณตํ ์ ์์๋ค๊ณ ์ธ๊ธ๋๋ค. ์์ปจ๋, DextrAH-G๋ ํ์ต๊ณผ ์ ์ด์ ๊ธด๋ฐํ ํตํฉ์ ํตํด ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ด ์ง๋ฉดํ๋ ์์ -์ฑ๋ฅ ๋๋ ๋ง๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ ์ ์์ ์ฐจ๋ณํ๋๋ฉฐ, ์ด๋ฌํ ๋ชจ๋ธ ๊ธฐ๋ฐ + ํ์ต ํผํฉ ์ ๋ต์ ๋ณต์กํ ๋ก๋ด ๊ธฐ์ ํ์ต์ ์์ด ํ ๋ฐฉํฅ์ฑ์ ์ ็คบํ๊ณ ์๋ค.
์ฑ๋ฅ ๋น๊ต ์ธก๋ฉด์์๋ DextrAH-G์ ์ฐ์์ฑ์ ๋๋ณด์ธ๋ค. ๋จ์ผ ๊ฐ์ฒด ํ์ง ํ๊ฐ์์ ์ ์๋ ์ฑ๊ณต๋ฅ ์์น๋ง ๋ณด๋๋ผ๋, DextrAH-G๋ ๊ธฐ์กด์ ๊ฑฐ์ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. ์์ปจ๋, Dex-_diffuser ๊ธฐ๋ฐ ์์ฑ๋ชจ๋ธ ๋ฐฉ๋ฒ์ด๋ ISA-Grasp, Matak ๋ฑ์ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ด ๊ฐ๊ฐ ์ ํ๋ ๋ฌผ์ฒด๊ตฐ์์ 40~80% ์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด๊ณ ํ ๋ฐ ๋นํด, DextrAH-G๋ ๋ชจ๋ ํ๊ฐ ๋ฌผ์ฒด์ ๋ํด 80% ์ด์ (๋๋ถ๋ถ 100%)์ ์ฑ๊ณต๋ฅ ์ ์ํํ์๋ค. ์ฐ์ ํ์ง ์ํ์์๋ 87%์ ์ข ํฉ ์ฑ๊ณต๋ฅ ๊ณผ 5.6 PPM์ ์๋๋ก ๋ช ํํ ์ฐ์๋ฅผ ๋ณด์์ผ๋ฉฐ, ๋ ผ๋ฌธ ์ ์๋ค์ ์ด๋ฌํ ์ ๋ขฐ๋์ ์๋์ ์กฐํฉ์ด ํ ์์ ๋ฑ์คํฐ๋ฌ์ค ํ์ง์ ์๋ก์ด SOTA์์ ๊ฐ์กฐํ๊ณ ์๋ค. ์์ปจ๋, DextrAH-G๋ ํ์ต ๊ธฐ๋ฐ์ ๋ฒ์ฉ ํ์ง ์ ์ฑ ์์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์กด์ ํนํ๋ ๋ฐฉ๋ฒ๋ค(์: ํน์ ๋ฌผ์ฒด๊ตฐ ์ ์ฉ RL, ์ฌ์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณํ ๋ฑ)์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ๊ณผ ๋ฒ์ฉ์ฑ์ ๋์์ ๋ฌ์ฑํ์ฌ ๋๊ฐ์ ๋ํ๋ธ๋ค. ๋ํ sim-to-real ์ธก๋ฉด์์๋, ๋ค๋ฅธ ๋ง์ ์ฐ๊ตฌ๋ค์ด ํ์ค ์ ์ฉ์ ์ํด ์ถ๊ฐ ํ๋์ด๋ ๋๋ฉ์ธ ์ ์ ๋จ๊ณ๋ฅผ ํ์๋ก ํ ๋ฐ๋ฉด DextrAH-G๋ ํ ๋ฒ์ ์๋ฎฌ๋ ์ดํฐ ํ์ต์ผ๋ก ๊ณง์ฅ ํ์ค ๋ก๋ด์ ํฌ์ ํ์ฌ ์ฑ๊ณผ๋ฅผ ๋๋ค๋ ์ ์์ ์ค์ฉ์ ์ธ ์ฐ์์ฑ์ด ์๋ค. ์ด๋ฐ ์ฐจ๋ณ์ ๋ค ๋๋ถ์ DextrAH-G๋ โํฝ์คํ๋ ์ด(pick-and-play)โ์ ๊ฐ๊น์ด ๋ฒ์ฉ ๋ก๋ด ํ์ง ์์คํ ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก ํ๊ฐ๋๋ค.
2.5 ์ฅ์ ๊ณผ ํ๊ณ์
2.5.1 ์ฅ์
- ํ์ํ ์ฑ๋ฅ๊ณผ ๋ฒ์ฉ์ฑ: DextrAH-G๋ ๋ค์ํ ํํยทํฌ๊ธฐ์ ๋ฌผ์ฒด 30์ฌ ์ข ์ ๋ํด 87%์ ๋์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ, ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๋ฑ์คํฐ๋ฌ์ค ํ์ง ๊ธฐ์ ์ค ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ฌ๋ ์นด๋ฉ๋ผ ํ ๋๋ง์ผ๋ก ๋์ํ๋ฉด์๋ ์ด์ ๋ฐฉ๋ฒ๋ค์ด ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ ๋ ๋ถํน์ ๋ค์์ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ์ ์ฝ ์์ด ํ์งํด ๋ณด์์ผ๋ก์จ, ํฅํ ๋ฒ์ฉ ๋ก๋ด ํ์ง(grasp-anything)์ ํ ๋ฐ ๋ค๊ฐ์ ์ฑ๊ณผ๋ฅผ ์ด๋ค๋ค.
- ๋น ๋ฅธ ์์ ์๋: ๋ณธ ์์คํ ์ ํ ์ฌ์ดํด(์ง๊ธฐ-์ด๋ฐ-๋ณต๊ท)์ ํ๊ท 10.66์ด๋ฐ์ ๊ฑธ๋ฆฌ์ง ์์ ๋ถ๋น ์ฝ 5.6ํ์ ์ฐ์ ์ง๊ฒ ์์ ์ ์ํํ ์ ์์๋ค. ์ด๋ฌํ ์ฌ์ดํด ํ์ ๋จ์ถ์ ๋ค๊ด์ ๋ก๋ด ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ ํ์ง ์์ ์์๋ ๋งค์ฐ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ๋ก, ์ฐ์ ์ ํ์ฉ์๋ ๊ทผ์ ํ ์๋์ด๋ค. (์ธ๊ฐ ์์ ์์ ์ด์์ ํ์ง ์๋๊ฐ ์ฝ 16.5ํ/๋ถ์ผ๋ก ์ถ์ ๋๋ ๊ฒ์ ๋นํ๋ฉด ์ฝ 1/3 ์์ค์ด์ง๋ง, ํ์ฌ ๋ก๋ด ์์ผ๋ก ๋ฌ์ฑํ ์๋ ์ค์์๋ ์ต๊ณ ์์ค์ด๋ฉฐ ์ถ๊ฐ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.)
- ์์ ํ ์ฐ์ ๋์: DextrAH-G์ ์ ์ฑ ์ถ๋ ฅ์ ํญ์ ๊ธฐํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๋ฅผ ๊ฑฐ์ณ ๋ก๋ด์ ๊ตฌ๋ํ๋ฏ๋ก, ๋ก๋ด์ ๋ฌด๋ฆฌํ ๋์์ผ๋ก๋ถํฐ ๋ณดํธํ๋ ์ฅ์น๊ฐ ๋ด์ฌ๋์ด ์๋ค. ์ค์ ์ฌ๋ฌ ์๊ฐ์ ๊ฑธ์น ์๋ฐฑ ํ์ ์คํ ๋์ ๋ชจํฐ๊ณผ์ด์ด๋ ๊ธฐ๊ตฌ ์์ ์์ด ์์คํ ์ ์ด์ํ ์ ์์์ผ๋ฉฐ, ์คํ์๋ค์ด ๋ก๋ด ํ์์ ๋ํ ์ฐ๋ ค ์์ด ์ ์ฑ ์ ์์ ๋กญ๊ฒ ํ ์คํธํ ์ ์์๋ ์ ์ ํฐ ์ฅ์ ์ด๋ค. ์ด์ ์ธ๋์ RL ์ ์ฑ ๋ค์ด ์ข ์ข ๊ธ๊ฒฉํ ๊ด์ ์์ง์์ผ๋ก ํ๋์จ์ด์ ๋ถ๋ด์ ์ฃผ์๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, DextrAH-G๋ ์ฐ์์ ์ธ ๋ฐ์ ์๋๋ฅผ ์ ์งํ๋ฉด์๋ ์ถฉ๋ ํํผ์ ๊ด์ ์ ํ์ ์ค์ํ์ฌ ์์ ์ ์ธ ๋์์ ๋ณด์ฅํ๋ค.
- ํ์ต ํจ์จ์ฑ๊ณผ ํ์ค ์ ์ฉ ์ฉ์ด์ฑ: DextrAH-G๋ ์ ์ฒด ํ์ต์ ์๋ฎฌ๋ ์ด์ ์์ ์๋ฃํจ์ผ๋ก์จ, ๋น์ผ ํ์ค ๋ก๋ด์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์์ง ์์ด๋ ๊ณ ์ฑ๋ฅ ์ ์ฑ ์ ์ป์ด๋๋ค. ๋๋ฉ์ธ ๋๋คํ, ๊ต์ฌ-ํ์ ์ฆ๋ฅ ๊ฐ์ ๊ธฐ๋ฒ์ ํตํด sim2real ๊ฒฉ์ฐจ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ทน๋ณตํ ๋๋ถ์, ์ถ๊ฐ ์คํ๊ฒฝ ํ์ต ์์ด๋ ๋ฐ๋ก ํ์ค ํฌ์ ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ์ค์ฉ์ ์ธ ๋งค๋ ฅ์ด๋ค. ์ด๋ ํฅํ ์ ์ฌํ ๋ก๋ด ๊ณผ์ ๋ค์์๋ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋๋ ํ์ต โ ํ์ค ์ฆ์ ๋ฐฐ์น์ ์ํฌํ๋ก๋ฅผ ํ์ฉํ ์ ์๋ค๋ ํฌ๋ง์ ์ค๋ค. ๋ํ ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ ๋๋ถ์ ๋ณต์กํ ๋ณด์ ์ค๊ณ๋ ์ ์ฝ ์กฐ๊ฑด์ ์ผ์ผ์ด ๋ฒ์ ์ผ๋ก ํ์ต์ํค์ง ์์๋ ๋์ด RL ํ์ต ๋์ด๋ ์์ฒด๋ ์ํ๋ ์ธก๋ฉด์ด ์๋ค.
- ์์ฐ์ค๋ฝ๊ณ ์กฐํ๋ก์ด ๋์: ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ๋ก๋ด์ ์ด๋์ ๊ธ๋ก๋ฒํ๊ฒ ์ต์ ํ๋ ๊ฒฝ๋ก๋ก ์ ๋ํด์ฃผ๊ธฐ ๋๋ฌธ์, DextrAH-G์ ํ๊ณผ ์ ๋์์ ๋น๊ต์ ๋ถ๋๋ฝ๊ณ ์ผ๊ด๋ ๋ชจ์ ์ ๋ณด์ฌ์ค๋ค. ๊ธฐ์กด์ ์ผ๋ถ RL ์ ์ฑ ๋ค์ ๋ชฉํ ๋ฌ์ฑ์๋ ์ฑ๊ณตํด๋ ์ฌ๋์ด ๋ณด๊ธฐ์๋ ๋ถ์์ฐ์ค๋ฌ์ด ์์ธ๋ฅผ ์ทจํ๊ฑฐ๋ ๋ถ์์ ํ ๋์์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ์์๋๋ฐ, DextrAH-G๋ ์์ ์ ์ด๊ณ ์ฌ๋ ์๊ณผ ์ ์ฌํ ์์ง์ ํจํด์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์ฎ๊ฒจ ๋ก๋ด ๋์์ ํ์ง ์ธก๋ฉด์์๋ ์ง์ ์ ์ด๋ฃจ์๋ค. ์ด๋ ํจ๋ธ๋ฆญ ์ ์ด๋ฅผ ํตํด ์์ฐ์ค๋ฌ์ด ์๊ฐ๋ฝ ์ ์ด ๊ฒฝ๋ก๋ฅผ ํ์ฑํ๊ณ ๊ด์ ์์ง์์ ๋งค๋๋ฝ๊ฒ ๋ณด๊ฐํด์ค ๊ฒฐ๊ณผ๋ก ๋ณผ ์ ์๋ค.
2.5.2 ํ๊ณ์
- ์๊ฐ๋ฝ ์ด๋ ๋ฒ์์ ์ ํ: ํ์ฌ DextrAH-G์ ์์ FGP ์ ์ฑ ์ ์๊ฐ๋ฝ ๋์์ PCA(taskmap) ์ขํ๊ณ์ ์ฃผ์ ์ถ ๋ฐฉํฅ์ผ๋ก๋ง ๋ชฉํ์น๋ฅผ ๋ด๋๋ก ์ ํ๋์ด ์๋ค. ์ด๋ ํ์ง ํ๋ ํ์ต์ ์ง์คํ๊ธฐ ์ํ ์๋์ ์ค๊ณ์์ผ๋, ๊ทธ ๋๊ฐ๋ก ์๊ฐ๋ฝ์ ์ธ๋ฐํ ์กฐ์ ๋ฅ๋ ฅ(kinematic dexterity) ์ผ๋ถ๋ฅผ ํฌ๊ธฐํ ์ ์ด ๋๋ค. ๋ค์ ๋งํด ์๊ฐ๋ฝ์ด ๋ง๋ค์ด๋ผ ์ ์๋ ๋ค์ํ ๋ชจ์ ์ค ์ฃผ์ฑ๋ถ์ ์ธ ์ผ๋ถ๋ง ์ฌ์ฉํ๋ฏ๋ก, ์ ์ฌ์ ์ธ ๋ณต์กํ ์กฐ์(skill)์ ํํ๋ ฅ์ด ๋จ์ด์ง ์ ์๋ค. ํฅํ์๋ ์๊ฐ๋ฝ ์ด๋ ์์ ๋๋ฅผ ๋ ํ์ฉํ๋ฉด์๋ ํ์ต ํจ์จ์ ์ ์งํ ๋ฐฉ๋ฒ์ด ๊ณผ์ ๋ก ๋จ์ ์๋ค.
- ํ์ต ๊ธฐ๋ฐ ์ถฉ๋ ํํผ์ ๋ถ์ฌ: DextrAH-G๋ ๋ก๋ด-ํ๊ฒฝ ๊ฐ ์ถฉ๋ ํํผ๋ฅผ ์ฃผ๋ก ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ์ ๋ด์ฅ ๊ธฐ๋ฅ์ ์์กดํ๊ณ ์๋ค. ์ด์์ ์ผ๋ก๋ ์ ์ฑ ์์ฒด๊ฐ ์นด๋ฉ๋ผ ๋ฑ ์ผ์ ์ ๋ณด๋ฅผ ํตํด ์ฅ์ ๋ฌผ์ ์ธ์งํ๊ณ ํํผ ํ๋์ ํ์ตํ๋ ๊ฒ์ด ๋ฐ๋์งํ์ง๋ง, ํ์ฌ ์ ์ฑ ์ ์ด๋ฌํ ๋ฅ๋ ฅ์ด ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ์๋ฎฌ๋ ์ด์ ํ์ต ์์๋ ํ ์ด๋ธ ๋ฉด๊ณผ ๊ฐ๊น์ด ์์ญ ๋ฑ ๋์ ๋น์ฉ(risk)์ ์ํ๋ฅผ ์ ๊ทน์ ์ผ๋ก ํ์ํ์ง ๋ชปํ๊ณ ํผํด๊ฐ๋ ๊ฒฝํฅ์ด ์์๋ค. ์ค์ ๋ก ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ํ ์ด๋ธ๊ณผ์ ํฐ ์ถฉ๋์ ์๋ฐฉํด์ฃผ์ง๋ง, ๋๋ฌด ๋ณด์์ ์ผ๋ก ํํผํ๋ค ๋ณด๋ ํ ์ด๋ธ์ ๋ฉ์ํ๊ฒ ๋์ธ ๋ฎ์ ๋ฌผ์ฒด๋ฅผ ์ก์ ๋ ์ด๋ ค์์ ๊ฒช๋ ํ์์ด ๋ํ๋ฌ๋ค. ์ด ๋ถ๋ถ์ ๊ฐํํ์ต์ ํ์ ์ ๋ต ๊ฐ์ ์ด๋ ์ปค๋ฆฌํ๋ผ ํ์ต ๋ฑ์ ํตํด ์ ์ฑ ์ด ์ด๋ ์ ๋ ์ถฉ๋์ ๋ฌด๋ฆ ์ด ํ์๋ ํ ์ ์๊ฒ ์ ๋ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณด์์ด ํ์ํ๋ค.
- ํ์ ์๊ณ ๋ฆฌ์ฆ ๋ฐ RL ์์ ์ฑ: ์์ ๋ฌธ์ ์ ๊ด๋ จํ์ฌ, ํ ์ ์ฑ ์ RL ์๊ณ ๋ฆฌ์ฆ์ด ๊ณ ๋น์ฉ ์์ญ์ ํ์ํ๋ ๋ฐ ํ๊ณ๋ฅผ ๋ณด์ธ๋ค๋ ์ง์ ์ด ์๋ค. ํจ๋ธ๋ฆญ ์ ์ด๊ธฐ๊ฐ ์์๋ค๋ฉด ์๋ง ๋ก๋ด์ด ํ ์ด๋ธ์ ๋ถ๋ชํ๋ ๋ฑ์ ์๋๋ฅผ ํตํด ๋ฎ์ ๋ฌผ์ฒด ์ก๋ ๋ฒ์ ๋ฐฐ์ธ ์๋ ์์๊ฒ ์ง๋ง, ์ ์ด๊ธฐ์ ๋ณดํธ๋ง ๋๋ฌธ์ ์ ์ด์ ํด๋น ์์ญ์ ๊ฒฝํํ์ง ๋ชปํ ๊ฒ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด ๋ ๋๋ํ ํ์ ๊ธฐ๋ฒ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ (์: ์์ ํํ, ๋ณด์ ๋๋ฉ์ธ ๊ฐ์ ๋ฑ), ๋๋ ์ผ๋ถ๋ฌ ์ถฉ๋์ ๊ฐ๊น์ด ๊ฐ๋ณด๋๋ก ์ ๋ํ๋ ์ปค๋ฆฌํ๋ผ์ ๋์ ํ๋ ๋ฑ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
- ๋ณต์กํ ํ๊ฒฝ์์์ ํ์ฉ ํ๊ณ: ํ์ฌ DextrAH-G ์์คํ ์ ๋จ์ผ ๋ฌผ์ฒด ํ์ง์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด, ํ ์ฅ๋ฉด(scene)์ ์ฌ๋ฌ ๊ฐ์ ๋ฌผ์ฒด๊ฐ ์์ฌ ์๋ ๊ฒฝ์ฐ์๋ ๋์ฒํ๊ธฐ ์ด๋ ต๋ค. ์๋ฅผ ๋ค์ด ๋ฐ๋ฅ์ ํฉ์ด์ง ์ฌ๋ฌ ๋ฌผ๊ฑด ์ค ํ๋๋ฅผ ์ง์ผ๋ผ๊ณ ํ๋ฉด, ์ด๋ค ๋ฌผ์ฒด๋ฅผ ๋ชฉํ๋ก ํ ์ง ์ธ์ํ๋ ๋ฅ๋ ฅ์ด๋ ์ก๊ณ ์ ํ๋ ๋์ ์ด์ธ์ ๋ค๋ฅธ ๋ฌผ๊ฑด์ ๋ฌด์ํ๋ ์ฒ๋ฆฌ๊ฐ ํ์ํ๋ค. ๋ ผ๋ฌธ์์๋ โํ๋์ ์ฅ๋ฉด์ ํ ๋ฌผ์ฒด๋ง ์กด์ฌํ๋คโ๋ ๊ฐ์ ํ์ ์ ์ฑ ์ ๊ฐ๋ฐํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๋ค์ ๊ฐ์ฒด ๋์กํ ํ๊ฒฝ(clutter)์ผ๋ก ํ์ฅํ๋ ค๋ฉด ์๊ฐ์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋์ ๋ถ์ด๊ฑฐ๋ ์ ์ฑ ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑํ๋ ๋ฑ์ ์ถ๊ฐ ์ค๊ณ๊ฐ ํ์ํจ์ ์ธ๊ธํ๊ณ ์๋ค. ์ค์ ์์ฉ์ ์ํด์๋ ๋ก๋ด์ด ์ฅ๋ฉด ๋ด ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ์ค์ค๋ก ์๋ณํ๊ณ ๊ทธ ๋ฌผ์ฒด์๋ง ์ด์ ์ ๋ง์ถฐ ํ์งํ๋ ๊ธฐ์ ๊ณผ์ ํตํฉ์ด ๊ณผ์ ๋ก ๋จ๋๋ค.
์ด๋ฐ ํ๊ณ์๋ ๋ถ๊ตฌํ๊ณ , DextrAH-G๋ ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๊ฒฐ๊ณผ๋ง ๋๊ณ ๋ณด๋ฉด ๋ฑ์คํฐ๋ฌ์ค ๋ก๋ด ํ์ง ๋ถ์ผ์ ์๋นํ ์ง์ผ๋ณด๋ฅผ ์ด๋ค๋๋ค. ๊ณ ์ยท๊ณ ์ฑ๊ณต๋ฅ ์ ํ์ง, ์์ ํ ์คํ๊ฒฝ ๋์, ๊ทธ๋ฆฌ๊ณ ๋ฒ์ฉ์ ์ธ ๋ฌผ์ฒด ๋์๋ ฅ ๋ฑ์ ๋ชจ๋ ๊ฐ์ถ ์ฌ๋ก๋ก์, ํฅํ ์ด ๋ถ์ผ ์ฐ๊ตฌ์ ์ค์ ์ฐ์ ์ ์ฉ์ ๊ท์คํ ์ฐธ๊ณ ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ๋์๋ค๋ฐ์ ์ธ ์ฌ๋ฌ ์ฐ๊ตฌ์ ๋ฐ์ ์์์ DextrAH-G๊ฐ ๋ณด์ฌ์ค ๊ต์ฌ-ํ์ ํ์ต + ๊ธฐํํจ๋ธ๋ฆญ ์ ์ด์ ์กฐํฉ์, ํฅํ ๊ณ ์ฑ๋ฅ ๋ก๋ด ์คํฌ ํ์ต์ ์ํ ํ๋์ ์ ๋งํ ๋ฐฉํฅ์ผ๋ก ํ๊ฐํ ๋งํ๋ค. ์ด๋ฒ ์ฐ๊ตฌ๋ฅผ ๋ฐํ์ผ๋ก ๋จ์ ํ๊ณ์ ๋ค โ ์์ปจ๋ ๋ณต์กํ ์์ ๊ณต๊ฐ, ๋์ฑ ๋์ ์๋ ํฅ์, ์ฐ์ฑ ๋ฌผ์ฒด๋ ์ด๊ฐ ํ์ฉ ๋ฑ โ ์ ๋ํ ํ์ ์ฐ๊ตฌ๊ฐ ์ง์๋๋ค๋ฉด, โ๋ฌด์์ด๋ ์ ํํ ๋นจ๋ฆฌ ์ง์ด๋ด๋โ ๋ฒ์ฉ ๋ก๋ด ์์ ์คํ๋ ๋จธ์ง์์ ๋ณด์ธ๋ค.