flowchart LR
A["๐ง ์ฌ๋ ๋ชจ์
๋ฐ์ดํฐ<br>(MoCap / Video / VR)"] --> B["1๏ธโฃ ๊ธฐ๊ตฌํ ๋ฆฌํ๊ฒํ
<br>(Inverse Kinematics)"]
B --> C["2๏ธโฃ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํ๋ง<br>(Annealed Sampling<br>+ Contact Guidance)"]
C --> D["3๏ธโฃ ๊ถค์ ๊ฐ๊ฑดํ<br>(Robustification)"]
D --> E["4๏ธโฃ ๋ฐ์ดํฐ ์ฆ๊ฐ<br>(Physics-based<br>Augmentation)"]
E --> F["๐ค ๋ก๋ด ์คํ ๊ฐ๋ฅ ๊ถค์ <br>/ ์ ์ฑ
ํ์ต ๋ฐ์ดํฐ"]
style A fill:#e1f5fe
style F fill:#e8f5e9
style C fill:#fff3e0
๐SPIDER ๋ฆฌ๋ทฐ
- ๐ค ๋ก๋ด๋ณ ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ๊ณผ ๋ก๋ด-์ธ๊ฐ ๊ฐ์ ์ฒดํ ์ฐจ์ด(embodiment gap)๋ก ์ธํด ๋๊ท๋ชจ ์ธ๊ฐ ๋์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ๋์์ผ๋ก ์ง์ ๋ณํํ๋ ๋ฐ ์ด๋ ค์์ด ์์ต๋๋ค.
- โจ SPIDER๋ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํ๋ง๊ณผ ๊ฐ์ ์ ์ด ์๋ด(virtual contact guidance)๋ฅผ ํ์ฉํ์ฌ ์ด๋ํ์ ์ธ๊ฐ ์์ฐ(kinematic human demonstrations)์ ๋์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋๊ท๋ชจ๋ก ๋ณํํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ SPIDER๋ 9๊ฐ์ง์ ํด๋จธ๋ ธ์ด๋/์ ๊ตํ ์ ๋ก๋ด๊ณผ 6๊ฐ์ง ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ์ฑ๊ณต๋ฅ ์ 18% ํฅ์์ํค๊ณ ๊ธฐ์กด RL(๊ฐํ ํ์ต) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค 10๋ฐฐ ๋น ๋ฅด๊ฒ 240๋ง ํ๋ ์ ๊ท๋ชจ์ ๋ก๋ด ๋ฐ์ดํฐ์ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
SPIDER(Scalable Physics-Informed DExterous Retargeting)๋ ๋๊ท๋ชจ์ ์ธ๊ฐ ๋์ ์์ฐ(demonstration) ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด์ด ์คํ ๊ฐ๋ฅํ ๋์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ(dynamically feasible) ๊ถค์ ์ผ๋ก ๋ณํํ๊ณ ์ฆ๊ฐํ๊ธฐ ์ํ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฆฌํ๊ฒํ (retargeting) ํ๋ ์์ํฌ์ ๋๋ค. ๋ก๋ด-ํน์ (robot-specific) ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ๊ณผ ๋ฐฉ๋ํ ์ธ๊ฐ ๋ชจ์ ๋ฐ์ดํฐ์ ๊ฐ์ฉ์ฑ ์ฌ์ด์ ๊ฐ๊ทน์ ๋ฉ์ฐ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๋ฌธ์ ์ ์:
์๋ จ๋๊ณ ๋ฏผ์ฒฉํ(agile) ๋ก๋ด ์ ์ฑ ํ์ต์ ๋๊ท๋ชจ์ ๋ก๋ด ์์ฐ์ ํ์๋ก ํ์ง๋ง, ์ด๋ฅผ ์์งํ๋ ๊ฒ์ ๋งค์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. ๋ฐ๋ฉด, ๋ชจ์ ์บก์ฒ, ๋น๋์ค, ๊ฐ์ ํ์ค์์ ์ป์ ์ ์๋ ๋ฐฉ๋ํ ์ธ๊ฐ ๋ชจ์ ๋ฐ์ดํฐ๋ ํ๋ถํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ก๋ด๊ณผ ์ธ๊ฐ ๊ฐ์ ์ฒดํ(embodiment) ์ฐจ์ด(ํํํ, ๋์ญํ, ์ก์ธ์์ด์ ๋ถ์ผ์น)์ ํ(force) ๋ฐ ํ ํฌ(torque)์ ๊ฐ์ ๋์ ์ ๋ณด์ ๋ถ์กฑ์ผ๋ก ์ธํด ์ด๋ฌํ ์ธ๊ฐ ์์ฐ์ ๋ก๋ด์ ์ง์ ์คํ๋ ์ ์์ต๋๋ค. ์ด์ ๋ํ ํต์ฌ ์ง๋ฌธ์ โ์ด๋ป๊ฒ ํ๋ฉด ์ธ๊ฐ์ ์์ง์์ ๋์ญํ ๋ฐ ์ ์ด์ ๊ณ ๋ คํ ์คํ ๊ฐ๋ฅํ ๋ก๋ด ๊ถค์ ์ผ๋ก ํจ์จ์ ์ด๊ณ ์ ๋ขฐ์ฑ ์๊ฒ ๋ณํํ ์ ์๋๊ฐ?โ์ ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
SPIDER๋ ์ธ๊ฐ ์์ฐ์ด ๋์ ์์ค์ ๋ก๋ด ๋์ ๋ฐ ํ์คํฌ ๋ช ์ธ๋ฅผ ์ ๊ณตํ๊ณ , ์๋ฎฌ๋ ์ด์ ์์์ ๋๊ท๋ชจ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํ๋ง(sampling)์ด ๋์ ์คํ ๊ฐ๋ฅ์ฑ(dynamical feasibility)๊ณผ ์ ํํ ์ ์ด ์ํ์ค(contact sequence)๋ฅผ ๋ณด์ฅํ๋๋ก ๊ถค์ ์ ๋ค๋ฌ๋๋ค๋ ํต์ฌ ํต์ฐฐ๋ ฅ์ ๋ฐํ์ผ๋ก ํฉ๋๋ค.
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฆฌํ๊ฒํ ๋ฌธ์ ์ ์ํ (Physics-based Retargeting Problem Formulation): ๋ฆฌํ๊ฒํ ์ ์ ์ฝ์ด ์๋ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํ๋ฉ๋๋ค. ๋ก๋ด ์ ์ด ์ํ์ค u_{0:T-1}๋ ์ฐธ์กฐ ๊ถค์ x^{ref}_{0:T}์์ ๊ฑฐ๋ฆฌ์ ์ ์ด ๋ ธ๋ ฅ(control effort)์ ์ต์ํํ๋๋ก ์ต์ ํ๋ฉ๋๋ค. ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \min_{u_{0:T-1}} J(u_{0:T-1}) = \min_{u_{0:T-1}} \left\|x_T - x^{ref}_T\right\|^2_{Q_T} + \sum_{t=0}^{T-1} \left(\left\|x_{t+1} - x^{ref}_{t+1}\right\|^2_{Q_t} + \left\|u_t\right\|^2_{R_t}\right) ์ฌ๊ธฐ์ x^{ref}_t = \{q^{ref}_{robot_t}, q^{ref}_{object_t}\}๋ ์ฐธ์กฐ ์ํ(์์น q^{ref} ๋ฐ ์๋ \dot{q}^{ref})๋ฅผ ๋ํ๋ด๋ฉฐ, Q_t์ R_t๋ ์ํ ๋ฐ ์ ์ด ์ ๋ ฅ ๊ฐ์ค ํ๋ ฌ(weighting matrices)์ ๋๋ค. ์ ์ฝ ์กฐ๊ฑด์ x_{t+1} = f(x_t, u_t, t)๋ก, ์ํ ์ ์ด ํจ์(state transition function)๋ฅผ ๋ํ๋ ๋๋ค.
์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ (Sampling for Physics-based Retargeting): ์ ์ด์ด ๋ง์(contact-rich) ๋ฆฌํ๊ฒํ ๋ฌธ์ ์ ๋น๋ณผ๋ก์ฑ(non-convexity) ๋ฐ ๋น์ฐ์์ฑ(non-continuity)์ ๋ค๋ฃจ๊ธฐ ์ํด ์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋์ ์ ์ด ์ํ์ค๋ฅผ ์ง์ ์ต์ ํํ๋ค๋ ์ ์์ ๊ฐํ ํ์ต(RL)๊ณผ ์ ์ฌํฉ๋๋ค. Annealed sampling kernel์ ์ฌ์ฉํ์ฌ ํ์-ํ์ฉ(exploration-exploitation) ๊ท ํ์ ์กฐ์ ํฉ๋๋ค. ์๋ฃจ์ U^i๋ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฐ์ดํธ๋ฉ๋๋ค: U^{i+1} = U^i + \sum_{j=1}^{N_W} \frac{\exp\left(-\frac{J(U^i + [W]_j)}{\lambda}\right)}{\sum_{k=1}^{N_W} \exp\left(-\frac{J(U^i + [W]_k)}{\lambda}\right)} [W]_j ์ํ๋ง ๊ณต๋ถ์ฐ(covariance) \Sigma^i_h๋ ๋ค์๊ณผ ๊ฐ์ด ์กฐ์ ๋ฉ๋๋ค: \Sigma^i_h = \exp\left(-\frac{N-i}{\beta_1 N} - \frac{H-h}{\beta_2 H}\right) I ์ฌ๊ธฐ์ [W]_j \sim \mathcal{N}(0, \Sigma^i_{0:H-1})๋ ์ํ๋ง๋ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ(Gaussian noise)์ด๊ณ , \beta_1, \beta_2๋ Annealing ํ๋ผ๋ฏธํฐ์ ๋๋ค. ์ด๊ธฐ์๋ ๋์ ํ์์, ํ๋ฐ๋ถ์๋ ์ ๋งํ ๊ถค์ ์ฃผ๋ณ์ ์ ๊ตํ ํ์ฉ์ ์ํํฉ๋๋ค.
๊ฐ์ ์ ์ด ์๋ด (Virtual Contact Guidance): ํ์คํฌ๋ฅผ ์๋ฃํ๋ ์ฌ๋ฌ ์ ์ด ๋ชจ๋(contact modes)๊ฐ ์กด์ฌํ ์ ์๋ โ์๋ฃจ์ ๋ชจํธ์ฑ(solution ambiguity)โ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ ๋์์ต๋๋ค. ์ด๋ ๋ก๋ด๊ณผ ๊ฐ์ฒด ์ฌ์ด์ ์๋๋ ์ ์ด ์ง์ (intended contact points)์ ๊ฐ์ ํ(virtual force)์ ์ ์ฉํ์ฌ ์ํ๋ง์ ์ํ๋ ์ ์ด ๋ชจ๋๋ก ์ ๋ํฉ๋๋ค. ๊ฐ์ ์ ์ฝ(virtual constraint)์ ์ด๊ธฐ ๋จ๊ณ์์ ๊ฐ์ฒด๋ฅผ ๋ชฉํ ๊ตฌ์ฑ(target configuration)์ โ๊ณ ์ โ์ํค๊ณ , ์ต์ ํ๊ฐ ์งํ๋จ์ ๋ฐ๋ผ ์ ์ฐจ ์ด ์ ์ฝ์ ์ํํฉ๋๋ค. ์ด๋ ์ปค๋ฆฌํ๋ผ(curriculum) ๋ฐฉ์๊ณผ ์ ์ฌํฉ๋๋ค. ์ ์ฝ ์กฐ๊ฑด์ ์ ์ด ์(contact pair) ๊ฐ์ ์๋ ์์น๋ฅผ ์ ์งํ๋ ๊ฒ์ ๋๋ค: c_{k,t} \left\|^{\text{robot}}p_{object_{k,t}} - ^{\text{robot}}p_{object,ref_{k,t}}\right\|^2_2 \le \eta^i ์ฌ๊ธฐ์ c_{k,t}๋ ์ ์ด ์ง์์(contact indicator)์ด๋ฉฐ, \eta^i๋ i \to N์ผ ๋ \eta^i \to \infty๋ก ์ปค์ ธ ์ ์ฝ ๊ฐ๋(constraint strength)๊ฐ ์ํ๋ฉ๋๋ค. ๋ถ์์ ํ ์ฐธ์กฐ ์ ์ด(imperfect reference contact)์ ๋ํ ๊ฐ๊ฑด์ฑ(robustness)์ ์ํด ์ ์ด ํํฐ(contact filter)๊ฐ ๋ถ์์ ํ ์ํธ์์ฉ์ ๊ฐ์งํ์ฌ ํด๋น ๊ฐ์ ์ ์ฝ์ ๋นํ์ฑํํฉ๋๋ค.
๊ถค์ ๊ฐ๊ฑดํ (Trajectory Robustification): ์ฌ๊ตฌ์ฑ๋ ์์ฐ(reconstructed demonstrations)์์ ๋ฐ์ํ๋ ๋ ธ์ด์ฆ(noise)์ ๋ถํ์คํ ์ญํ(unknown dynamics) (์: ๋ง์ฐฐ, ์ ์ด ์ค์)์ ๋ํ ๊ถค์ ์ ๊ฐ๊ฑด์ฑ์ ๋์ ๋๋ค. ์ด๋ ๊ฒฝ๊ณ๊ฐ ์๋ ๋งค๊ฐ๋ณ์ ์งํฉ \mathcal{D} (์: ์ ์ด ์ฌ์ , ๋ง์ฐฐ ๊ณ์, ๊ฐ์ฒด ์ง๋)์ ๋ํ ๋น๊ด์ ์ธ(pessimistic) (min-max) ๋ชฉ์ ํจ์๋ก ์ ์ด ์ํ์ค๋ฅผ ์ต์ ํํฉ๋๋ค: J_{rob}(U) = \max_{d \in \mathcal{D}} J(U, d) ์ด๋ ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)์ ์ ์ฌํ๊ฒ ์๋ํ๋ฉฐ, GPU ๋ณ๋ ฌํ(parallelization)๋ฅผ ํตํด ๋ฐฐ์น ๋กค์์(batched rollouts)์ผ๋ก ํจ์จ์ ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ (Physics-based Data Augmentation): ๋จ์ผ ์ธ๊ฐ ์์ฐ์์ ์์ํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋ค์ํ ๋์์ ์์ฑํ์ฌ ๋ฆฌํ๊ฒํ ๋ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ฆ๊ฐํ ์ ์์ต๋๋ค. ์ด๋ ๊ธฐํํ์ ๋ณํ(geometric variations) (๊ฐ์ฒด ๋ฉ์ฌ ๊ต์ฒด, ํฌ๊ธฐ ๋ฐ ์์น ๋ณ๊ฒฝ, ์งํ ๋ณ๊ฒฝ) ๋ฐ ๋ฌผ๋ฆฌ์ ๋ณํ(physics variations) (๋ก๋ด์ ์ธ๋ ฅ ์ ์ฉ)์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค.
์ฑ๊ณผ ๋ฐ ํ์ฉ:
SPIDER๋ 6๊ฐ์ ๋ฐ์ดํฐ์ , 9๊ฐ์ ๋ก๋ด ํํ, ๋ ๊ฐ์ง ํ์คํฌ ๋๋ฉ์ธ(์๋ จ๋ ์ ๋ฐ ํด๋จธ๋ ธ์ด๋)์ ๊ฑธ์ณ ํ์ฅ ๊ฐ๋ฅํ ์ ์ฐํ๊ณ ์ผ๋ฐ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค. ํ์ค ์ํ๋ง์ ๋นํด ์ฑ๊ณต๋ฅ ์ 18% ํฅ์์ํค๊ณ , ๊ฐํ ํ์ต(RL) ๊ธฐ์ค์ ๋ณด๋ค 10๋ฐฐ ๋น ๋ฅด๊ฒ ๊ถค์ ์ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํตํด 2.4M ํ๋ ์์ ๋๊ท๋ชจ ๋์ ์คํ ๊ฐ๋ฅํ ๋ก๋ด ๋ฐ์ดํฐ์ ์ ์์ฑํ ์ ์์ต๋๋ค. ๋ฌผ๋ฆฌ์ ๋ก๋ด์ ์ง์ ๋ฐฐํฌ ๊ฐ๋ฅํ๋ฉฐ, RGB ์นด๋ฉ๋ผ ์์๊ณผ ๊ฐ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋ฐ์ดํฐ์๋ ๊ฐ๊ฑดํ๊ฒ ์๋ํฉ๋๋ค. ๋ํ, SPIDER์์ ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ RL ์ ์ฑ ํ์ต ํ๋ก์ธ์ค๋ฅผ ํฌ๊ฒ ๊ฐ์ํํ๊ณ , ๋ ๋์ ๊ฐ์ฒด ์ถ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ RL ์ ์ฑ ์ด SPIDER๊ฐ ์ ๊ณตํ๋ ๋ช ๋ชฉ ์ ์ด(nominal control)๋ก๋ถํฐ ์์ฐจ ํผ๋๋ฐฑ(residual feedback)๋ง ํ์ตํ๋ฉด ๋๊ธฐ ๋๋ฌธ์ ๋๋ค.
Allegro hand์ ๋ํ ํ๊ฐ๋ ์ ์ฒด์ ์ผ๋ก ๋น๊ต์ ์ํธํฉ๋๋ค. ์ธ๋ถ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ํยท๊ทธ๋ฆผ์ ๊ทผ๊ฑฐ๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ ๋์ ์ฑ๋ฅ
- Oakink ์ ์ฒด ๋ฐ์ดํฐ์์ SPIDER์ Allegro ์ฑ๊ณต๋ฅ ์ (45.9%)์
๋๋ค (Table 2).
- GigaHands ์ ์ฒด ๋ฐ์ดํฐ์์๋ Allegro ์ฑ๊ณต๋ฅ ์ด (81.0%)๋ก ํจ์ฌ ๋์ต๋๋ค (Table 2).
- ์์-์์ (ablations) ๊ฒฐ๊ณผ์์ Annealed sampling + virtual contact guidance(์์ ํ SPIDER ๊ตฌ์ฑ)๋ Oakink ์์ ์์ Allegro ์ฑ๊ณต๋ฅ ์ (85%)๊น์ง ๋์ด์ฌ๋ ธ๊ณ , GigaHands ์์ ์์๋ (100%) ์ฑ๊ณต์ ๋ณด์์ต๋๋ค (Table 1).
- Oakink ์ ์ฒด ๋ฐ์ดํฐ์์ SPIDER์ Allegro ์ฑ๊ณต๋ฅ ์ (45.9%)์
๋๋ค (Table 2).
- ๋น๊ตยทํด์
- ๋
ผ๋ฌธ์ DoF๊ฐ ๋ง๊ณ ๊ด์ ์์ ๋๊ฐ ๋์ ์๋ค(์: Inspire, Allegro)์ด ๋ฆฌํ๊ฒํ
์์ ๋ ์ ๋ฆฌํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. Allegro๋ ์ด ๋ฒ์ฃผ์ ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ ์ ๋ฐ์ ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ์ฐจ์ด๊ฐ ํฝ๋๋ค. GigaHands๋ ํฝยทํ๋ ์ด์ค ๊ณ์ด ์์ ์ด ๋ง์ retargeting์ ์ ๋ฆฌํ๊ณ , Oakink์ ์ฌ์ ๊ทธ๋ฆฝ(pre-grasp) ๋ฑ ์ ๋ฐํ ์ด๊ธฐ ์ ์ด์ ์๊ตฌํด ๋ ์ด๋ ค์ ์ต๋๋ค. Allegro๋ ๋ฐ์ดํฐ ๋์ด๋์ ๋ฐ๋ผ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ๋ฐ์ํ์ต๋๋ค.
- ๋
ผ๋ฌธ์ DoF๊ฐ ๋ง๊ณ ๊ด์ ์์ ๋๊ฐ ๋์ ์๋ค(์: Inspire, Allegro)์ด ๋ฆฌํ๊ฒํ
์์ ๋ ์ ๋ฆฌํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. Allegro๋ ์ด ๋ฒ์ฃผ์ ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ ์ ๋ฐ์ ์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ์ค๋ฌด/๋ฐฐํฌ ์ธก๋ฉด
- ๋ ผ๋ฌธ์ Allegro hand๋ฅผ Franka Emika Panda ํ๊ณผ ๊ฒฐํฉํ ์ค์ ์์คํ ์์ ๋ค ๊ฐ์ง ์ฌ์ธํ ์กฐ์(์ ๊ตฌ ํ์ , ์์ ์๊ฐ๋ฝ ์กฐ์, ๊ธฐํ ์ฐ์ฃผ, ์ถฉ์ ๊ธฐ ๋ถ๋ฆฌ)์ ์ง์ ์คํํด ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ณด๊ณ ํฉ๋๋ค(Deployment ์น์ , Figure 7). ์ด๋ ์๋ฎฌ๋ ์ด์ ์์ ์์ฑ๋ Allegro ๊ถค์ ์ด ํ์ค ํ๋์จ์ด๋ก๋ ์ด์ ๊ฐ๋ฅํจ์ ์์ฌํฉ๋๋ค.
- ์๋ยทํจ์จ
- ์ ์ฒด SPIDER ํ์ดํ๋ผ์ธ(๊ฐ์ ์ ์ด ์๋ด ํฌํจ)์ annealed-only๋ณด๋ค ๋ค์ ๋๋ฆฌ์ง๋ง(์: ์ ์ฒด ๋ฐฉ๋ฒ์ ๋ํ์ FPS๋ ๋ ผ๋ฌธ์์ 2.5Hz ๋ฑ์ผ๋ก ๋ณด๊ณ ๋จ), RL ๊ธฐ๋ฐ ๋์์ ๋นํด ํจ์ฌ ๋น ๋ฅด๊ฒ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ์ด ๊ฐ๋ฅํฉ๋๋ค. Allegro ์ ์ฉ FPS๋ ํ์ ์ง์ ์ ์๋์ง๋ ์์ง๋ง ์ ์ฒด ์๋ค ์ค์์๋ ์ค์ฉ์ ์์ฑ ์๋๋ฅผ ์ ์งํฉ๋๋ค.
๊ถ์ฅ๋๋ ํ์ ๋ถ์(์ฐ๊ตฌ/์คํ)
- Allegro์ ์คํจ ์ฌ๋ก ๋ถ์: Oakink์์ ์คํจ๊ฐ ์ง์ค๋๋ ํน์ ํ๋ฆฌ๊ทธ๋ฆฝ/์ด๊ธฐ ์ ์ด ํจํด์ ํ์
ํ๋ฉด virtual-contact ์กฐ๊ฑด์ด๋ ํํฐ๋ง(tc,min, dc,max)์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
- ์ผ์ ๋ณด๊ฐ ์คํ: Allegro์ ์ด๊ฐ(๋๋ ์์ธก๋ ์ ์ด ํ ํฌ) ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ฉด ์ ์ด ์์ ์ฑยท์ด์์ฑ์ด ๋ ์ข์์ง ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
- sim-to-real ์ฐจ์ด ์ ๋ํ: Allegro ์ค์ ๋ฐฐํฌ์์ ์คํจ ์์ธ์ ๋ง์ฐฐ๊ณ์ยท๋ฌด๊ฒ์ถ ์ค์ฐจยท๋ชจ๋ธ๋ง ํธ์ฐจ๋ณ๋ก ๋ถํดํด ๋ก๋ฒ์คํธํ ์งํฉ D๋ฅผ ์ฌ์ค๊ณํ๋ฉด ๋ฐฐํฌ ์ฑ๊ณต๋ฅ ์ ๋์ผ ์ ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์ฌ๋์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์์ โ๋๊ท๋ชจ ์ํ๋ง + ๊ฐ์ ์ ์ด ๊ฐ์ด๋โ๋ก ์ ์ ํ์ฌ, 9์ข ์ ๋ก๋ด ร 6๊ฐ ๋ฐ์ดํฐ์ ์ ๊ฑธ์ณ ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ถค์ ์ ์์ฑํ๋ ๋ฒ์ฉ ๋ฆฌํ๊ฒํ ํ๋ ์์ํฌ.
์๋ก : ์ ์ด ๋ฌธ์ ๊ฐ ์ค์ํ๊ฐ
๋ก๋ด ์์ผ๋ก ๋ฌผ๊ฑด์ ์ง๊ณ , ๋๋ฆฌ๊ณ , ์ฎ๊ธฐ๋ ์ผโ์ด๋ฅธ๋ฐ Dexterous Manipulationโ์ ํ์ต์ํค๋ ค๋ฉด ๋๊ท๋ชจ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ๋ก๋ด ํ๋์จ์ด๋ก ์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฑด ๋น์ฉ์ด ์ด๋ง์ด๋งํฉ๋๋ค. ๋ฐ๋ฉด ์ฌ๋์ ์ ๋์ ๋ฐ์ดํฐ๋ ๋ชจ์ ์บก์ฒ, ๋น๋์ค, VR ๋ฑ์ผ๋ก ์ด๋ฏธ ๋์ณ๋ฉ๋๋ค.
๋ฌธ์ ๋ ์ฒดํ ๊ฒฉ์ฐจ(Embodiment Gap)์ ๋๋ค. ์ฌ๋ ์์๋ 27๊ฐ์ ์์ ๋(DoF)๊ฐ ์์ง๋ง, Allegro Hand๋ 16๊ฐ, Schunk Hand๋ 7๊ฐ๋ฟ์ด์ฃ . ์๊ฐ๋ฝ ๊ธธ์ด๋, ๊ด์ ๋ฐฐ์น๋, ํ์ ๋ด๋ ๋ฐฉ์๋ ๋ค๋ฆ ๋๋ค. ๊ทธ๋์ ์ฌ๋์ด ์ปต์ ์ก๋ ๋์์ ๊ทธ๋๋ก ๋ก๋ด์ ๋ฃ์ผ๋ฉด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋์์ด ๋ฉ๋๋คโ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ๊ดํตํ๊ฑฐ๋, ์ ์ด์ด ํ์ฑ๋์ง ์๊ฑฐ๋, ๊ณต์ค์์ ๋ฌผ์ฒด๊ฐ ๋ ์๋ โ์ ๋ น ๊ทธ๋ฆฝโ ํ์์ด ์๊ธฐ์ฃ .
๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๊ณ๋ฅผ ์ ๋ฆฌํ๋ฉด ์ด๋ ์ต๋๋ค:
| ์ ๊ทผ๋ฒ | ์ฅ์ | ํ๊ณ |
|---|---|---|
| ์ญ๊ธฐ๊ตฌํ(IK) ๊ธฐ๋ฐ | ๋น ๋ฅด๊ณ ๊ฐ๋จ | ๋์ญํ ๋ฌด์, ์ ์ด ๋ถ์ ํ |
| ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ | ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ํ๋ณด | ๊ถค์ ๋ง๋ค ํ์ต ํ์, ๋๋ฆผ |
| ํ ๋ ์คํผ๋ ์ด์ | ์ค์๊ฐ, ๋์ญํ ๋ฐ์ | ๋ ธ๋์ง์ฝ์ , ์ฒดํ ์ข ์์ |
| ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ | ์ถ๋ก ๋น ๋ฆ | OOD ๋ชจ์ ์ ์ทจ์ฝ, ์ฌ์ ํ์ต ํ์ |
SPIDER๋ ์ด ์คํํธ๋ผ์์ RL์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํจ์จ์ฑ์ ๋์์ ์ก๊ฒ ๋ค๋ ์ผ์ฌ์ฐฌ ๋ชฉํ๋ฅผ ์ ์ํฉ๋๋ค. ํต์ฌ ํต์ฐฐ์ ๋จ์ํ๋ฉด์๋ ๊ฐ๋ ฅํฉ๋๋ค:
โ์ฌ๋ ๋ฐ์ดํฐ๋ ๋ฌด์์ ํ ์ง(task structure)๋ฅผ ์๋ ค์ฃผ๊ณ , ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์์์ ๋๊ท๋ชจ ์ํ๋ง์ด ์ด๋ป๊ฒ ํ ์ง(dynamical feasibility)๋ฅผ ์ฐพ์์ค๋ค.โ
๋ฐฉ๋ฒ๋ก : SPIDER์ ํต์ฌ ์์ด๋์ด
์ ์ฒด ํ์ดํ๋ผ์ธ ๊ฐ๊ด
SPIDER์ ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ๋ค ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฒด ํ๋ฆ์ ๋จผ์ ๋์์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ ผ๋ฌธ Figure 2 ์ค๋ช (Pipeline Overview): ๋ ผ๋ฌธ์ Figure 2๋ ์ด ํ์ดํ๋ผ์ธ์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ์ผ์ชฝ์์ ์ฌ๊ตฌ์ฑ๋ ๋ฌผ์ฒด ๋ฉ์์ ์ฐธ์กฐ ๋ก๋ด/๋ฌผ์ฒด ๋ชจ์ ์ด ์ ๋ ฅ๋๊ณ , ๊ฐ์ด๋ฐ์์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ์ํ๋ง๊ณผ ๊ฐ์ ์ ์ด ๊ฐ์ด๋๊ฐ ์ ์ฉ๋๋ฉฐ, ์ค๋ฅธ์ชฝ์์ ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ถค์ ์ด ์ถ๋ ฅ๋ฉ๋๋ค.
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฆฌํ๊ฒํ ๋ฌธ์ ์ ์
SPIDER๋ ๋ฆฌํ๊ฒํ ์ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ๊ณต์ํํฉ๋๋ค. ์ด ๊ณต์ํ๋ฅผ ์ง๊ด์ ์ผ๋ก ์ดํดํด ๋ด ์๋ค.
๋ก๋ด์ ์ ์ด ์ ๋ ฅ ์ํ์ค u_{0:T-1}์ ์ฐพ์์, ์ฐธ์กฐ ๊ถค์ x_{0:T}^{\text{ref}}๊ณผ์ ๊ฑฐ๋ฆฌ์ ์ ์ด ๋ ธ๋ ฅ์ ์ต์ํํฉ๋๋ค:
\min_{u_{0:T-1}} J(u_{0:T-1}) = \|x_T - x_T^{\text{ref}}\|_{Q_T}^2 + \sum_{t=0}^{T-1}\left(\|x_{t+1} - x_{t+1}^{\text{ref}}\|_{Q_t}^2 + \|u_t\|_{R_t}^2\right)
์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ์ ์ฝ ์กฐ๊ฑด์:
x_{t+1} = f(x_t, u_t, t) \quad \text{(๋ฌผ๋ฆฌ ๋ฒ์น์ ์ํ ์ํ ์ ์ด)}
์ด๊ฑธ ์ผ์ ๋น์ ๋ก ํ๋ฉด ์ด๋ ์ต๋๋ค. ์ฌ๋ฌ๋ถ์ด ์ถค ๋์์์ ๋ณด๊ณ ๋ฐ๋ผ ํ๋ ค ํ๋ค๊ณ ํฉ์๋ค. ๋์์ ์ ๋์(์ฌ๋ ๋ฐ์ดํฐ)์ ํฌ์ฆ๋ฅผ ์ต๋ํ ๋น์ทํ๊ฒ ๋ฐ๋ผ ํ๋(Q_t ํญ), ํ๋ค๊ฒ ์์ง์ด์ง ์์ผ๋ฉด์(R_t ํญ), ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ด๊ธฐ์ง ์๋ ๋์์ ์ฐพ์์ผ ํฉ๋๋ค. ๋ฒฝ์ ๊ดํตํ๊ฑฐ๋, ๊ณต์ค์ ๋ ์๋ ์ ๋์ฃ . ์ฌ๊ธฐ์ Q_t๋ โ์ผ๋ง๋ ์๋ณธ๊ณผ ๋น์ทํด์ผ ํ๋์งโ, R_t๋ โ์ผ๋ง๋ ๋ถ๋๋ฝ๊ฒ ์์ง์ฌ์ผ ํ๋์งโ๋ฅผ ์กฐ์ ํ๋ ๊ฐ์ค์น์ ๋๋ค.
์ํ x_t^{\text{ref}}๋ ๋ก๋ด์ ๊ด์ ์์น์ ๋ฌผ์ฒด์ SE(3) ํฌ์ฆ๋ฅผ ๋ชจ๋ ํฌํจํฉ๋๋ค. ์ด๊ฒ์ด ์ค์ํ ์ด์ ๋, SPIDER๊ฐ ๋ก๋ด ๋์๋ฟ ์๋๋ผ ๋ฌผ์ฒด์ ์์ง์๊น์ง ๋์์ ์ถ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ: ์ ์ํ๋ง์ธ๊ฐ?
์ ์ด์ด ํ๋ถํ(contact-rich) ๋ฌธ์ ์์ ๋น์ฉ ํจ์ J์ ์งํ์ ๋งค์ฐ ์ธํ๋ถํํฉ๋๋ค. ๋ฏธ๋ถ์ด ๋ถ์ฐ์์ด๊ณ , ์ ์ด ๋ชจ๋๊ฐ ๋ฐ๋๋ฉด ๋น์ฉ์ด ๊ฐ์๊ธฐ ์ ํํฉ๋๋ค. ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๊ฐ ์ ๋๋ก ์๋ํ๊ธฐ ์ด๋ ค์ด ํ๊ฒฝ์ด์ฃ .
SPIDER๋ Model Predictive Path Integral (MPPI) ๊ณ์ด์ ์ํ๋ง ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ ์ฑํํฉ๋๋ค. ์ง๊ด์ ์ผ๋ก ์ค๋ช ํ๋ฉด:
- ํ์ฌ ์ ์ด ์ํ์ค U^i์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ฅผ ๋ํด N_W๊ฐ์ ํ๋ณด ๊ถค์ ์ ๋ง๋ญ๋๋ค
- ๊ฐ ํ๋ณด๋ฅผ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ ๋ณ๋ ฌ ๋กค์์ํฉ๋๋ค
- ๋น์ฉ์ด ๋ฎ์ ํ๋ณด์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ค์ ์ ์ด ์ํ์ค๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค
U^{i+1} = U^i + \frac{\sum_{j=1}^{N_W} \exp\left(-\frac{J(U^i + [W]_j)}{\lambda}\right)[W]_j}{\sum_{j=1}^{N_W} \exp\left(-\frac{J(U^i + [W]_j)}{\lambda}\right)}
์ฌ๊ธฐ์ \lambda๋ ์จ๋ ํ๋ผ๋ฏธํฐ๋ก, ๋ฎ์์๋ก ์ต์ ๋น์ฉ ์ํ์ ์ง์คํฉ๋๋ค. ์ด๊ฑด RL๊ณผ ๋น์ทํ ์ ์ด ์์ต๋๋คโ๋ ๋ค ์๋ฎฌ๋ ์ด์ ์์ ์ํ๋งํ ๊ถค์ ์ผ๋ก ์์ฌ๊ฒฐ์ ์ ํฉ๋๋ค. ํ์ง๋ง ๊ฒฐ์ ์ ์ฐจ์ด๊ฐ ์์ต๋๋ค: RL์ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ์ ๋ฐ์ดํธํ๊ณ , SPIDER๋ ์ ์ด ์ํ์ค๋ฅผ ์ง์ ์ต์ ํํฉ๋๋ค. ๋คํธ์ํฌ ํ์ต์ด ํ์ ์์ผ๋ ํจ์ฌ ๋น ๋ฆ ๋๋ค.
์ด๋๋ง(Annealing) ์ ๋ต: ํ์์์ ์ฐฉ์ทจ๋ก
SPIDER์ ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋๋ ์ด๋๋ง ์ปค๋(Annealed Kernel)์ ๋๋ค. ์ํ๋ง ๋ ธ์ด์ฆ์ ๊ณต๋ถ์ฐ์ ์๊ฐ์ ๋ฐ๋ผ ์ค์ฌ๊ฐ๋ ์ ๋ต์ ๋๋ค:
\Sigma_h^i = \exp\left(-\frac{N-i}{\beta_1 N} - \frac{H-h}{\beta_2 H}\right) I
๋ ๊ฐ์ ์ถ์ผ๋ก ์ด๋๋งํฉ๋๋ค:
- \beta_1 (๋ฐ๋ณต ์ถ): ์ต์ ํ ๋ฐ๋ณต์ด ์งํ๋ ์๋ก ํ์ ๋ฐ๊ฒฝ์ ์ค์ ๋๋ค. ์ด๋ฐ์๋ ๋๊ฒ ํ์ํ๊ณ , ํ๋ฐ์๋ ์ข์ ํด ๊ทผ์ฒ๋ฅผ ์ธ๋ฐํ๊ฒ ๋ค๋ฌ์ต๋๋ค.
- \beta_2 (์๊ฐ ์ถ): ์์ธก ์๊ฐ ์ถ์ ๋ฐ๋ผ ๋ ธ์ด์ฆ๋ฅผ ์กฐ์ ํฉ๋๋ค. ๊ฐ๊น์ด ๋ฏธ๋๋ ์ ๋ฐํ๊ฒ, ๋จผ ๋ฏธ๋๋ ๋๊ฒ ํ์ํฉ๋๋ค.
์ด๊ฒ์ ๊ธ์์ ์ด๋๋ง(ํ๋ฆผ) ๊ณผ์ ๊ณผ ์ ํํ ๊ฐ์ ์๋ฆฌ์ ๋๋ค. ๋จ๊ฑฐ์ธ ๋(ํฐ ๋ ธ์ด์ฆ)๋ ์์๋ค์ด ์์ ๋กญ๊ฒ ์์ง์ด๋ฉฐ ์ ์ฒด ์๋์ง ์งํ์ ํ์ํ๊ณ , ์ฒ์ฒํ ์ํ๋ฉด(์์ ๋ ธ์ด์ฆ) ๊ฐ์ฅ ์์ ์ ์ธ ๊ฒฐ์ ๊ตฌ์กฐ์ ์๋ ดํฉ๋๋ค. ํ์ค MPPI๊ฐ ๊ณ ์ ๋ ์จ๋์์ ์ํ๋งํ๋ ๊ฒ๊ณผ ๋๋น๋ฉ๋๋ค.
graph TD
subgraph "ํ์ค MPPI"
A1["๊ณ ์ ํ์ ๋ฐ๊ฒฝ"] --> B1["๋์ ๋ถ์ฐ"]
B1 --> C1["์๋ ด ์คํจ ๊ฐ๋ฅ"]
end
subgraph "์ด๋๋ง ์ํ๋ง"
A2["ํฐ ๋ฐ๊ฒฝ์ผ๋ก ์์"] --> B2["์ ์ง์ ์ถ์"]
B2 --> C2["์ ๋ฐ ์๋ ด"]
end
subgraph "์ด๋๋ง + ์ ์ด ๊ฐ์ด๋ (SPIDER)"
A3["ํฐ ๋ฐ๊ฒฝ + ๊ฐ์ ํ"] --> B3["์คํ ๊ฐ๋ฅ ์์ญ ํ์ฅ"]
B3 --> C3["์ฌ๋ฐ๋ฅธ ์ ์ด ๋ชจ๋๋ก ์๋ ด"]
end
style C1 fill:#ffcdd2
style C2 fill:#fff9c4
style C3 fill:#c8e6c9
๊ฐ์ ์ ์ด ๊ฐ์ด๋: SPIDER์ ๋น๋ฐ ๋ฌด๊ธฐ
์ฌ๊ธฐ๊ฐ ์ด ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ์ฐฝ์์ ์ธ ๋ถ๋ถ์ ๋๋ค.
๋ฌธ์ : ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฐ์๋ ์ฌ๋ฌ ์ ์ด ๋ชจ๋(contact mode)๊ฐ ์กด์ฌํฉ๋๋ค. ๋ ผ๋ฌธ์ Figure 3์์ ๋ง๋๋ฅผ ์ก๋ ์์๋ฅผ ๋ณด๋ฉด, ์์ง-๊ฒ์ง ์ฌ์ด๋ก ์ก์ ์๋ ์๊ณ ๊ฒ์ง-์ค์ง ์ฌ์ด๋ก ์ก์ ์๋ ์์ต๋๋ค. ๋ ๋ค ๋ฌผ์ฒด๋ฅผ ์์ง์ด๋ ๋ฐ ์ฑ๊ณตํ์ง๋ง, ์ฌ๋์ ์๋ ์๋์ ๋ค๋ฅธ ์ ์ด ๋ชจ๋๋ก ์๋ ดํ๋ฉด ์์ฐ์ค๋ฝ์ง ์์ ๋์์ด ๋ฉ๋๋ค.
ํด๊ฒฐ: SPIDER๋ ๊ฐ์ ํ(virtual force)์ ๋์ ํฉ๋๋ค. ๋ก๋ด ์๊ฐ๋ฝ์ ์๋๋ ์ ์ด์ ๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ โ๋ณด์ด์ง ์๋ ์คํ๋งโ์ ๋ฌ์์, ์ด๊ธฐ์๋ ๋ฌผ์ฒด๋ฅผ ์ํ๋ ์ ์ด์ ์ โ๋ถ์ฌ๋๊ณ โ, ์ ์ฐจ ์ด ํ์ ํ์ด์ค๋๋ค.
์ํ์ ์ผ๋ก, k๋ฒ์งธ ์ ์ด ์์ ๋ํด:
c_{k,t} \cdot \|{}^{\text{robot}}p_{k,t}^{\text{object}} - {}^{\text{robot}}p_{k,t}^{\text{object,ref}}\|_2^2 \leq \eta_i
์ฌ๊ธฐ์:
- c_{k,t}๋ ์ ์ด ์ง์์ (์ฐธ์กฐ์์ ์ ์ด์ด ์ผ์ด๋๋ ์์ ์๋ง ํ์ฑํ)
- {}^{\text{robot}}p_{k,t}^{\text{object}}๋ ๋ก๋ด ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ ์๋ ์์น
- \eta_i \to \infty (i \to N)๋ ์ปค๋ฆฌํ๋ผ ์คํ์ผ๋ก ์ ์ฝ์ ์ํ
์ด๊ฑธ ๋น์ ํ์๋ฉด ์ด๋ ์ต๋๋ค. ์์ ๊ฑฐ๋ฅผ ์ฒ์ ๋ฐฐ์ธ ๋ ๋ณด์กฐ ๋ฐํด๋ฅผ ๋ฌ์๋๊ณ , ๊ท ํ ๊ฐ๊ฐ์ด ์๊ธฐ๋ฉด ๋ณด์กฐ ๋ฐํด๋ฅผ ๋ผ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ฒ์์๋ โ๋ฌผ์ฒด๊ฐ ์ด ์๊ฐ๋ฝ์ ๋ถ์ด์์ด์ผ ํดโ๋ผ๋ ๊ฐํ ์ ์ฝ์ ๊ฑธ๊ณ , ์ต์ ํ๊ฐ ์ฌ๋ฐ๋ฅธ ์ ์ด ๋ชจ๋ ๊ทผ์ฒ์ ๋๋ฌํ๋ฉด ์ ์ฝ์ ํ์ด์ ์์ฐ์ค๋ฌ์ด ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ์ด์ผ๋ก ์ ํํฉ๋๋ค.
๊ธฐ์กด์ ์ ์ด ๋น์ฉ(contact cost)๊ณผ์ ์ฐจ์ด๊ฐ ์ค์ํฉ๋๋ค. ๋จ์ํ ๋น์ฉ์ ์ ์ด ํ๋ํฐ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ์คํ ๊ฐ๋ฅ ์์ญ(feasible set)์ ๋ฐ๊พธ์ง ์์ต๋๋คโ๊ทธ์ ๋น์ฉ ์งํ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ฐ๊ฟ ๋ฟ์ด์ฃ . SPIDER์ ๊ฐ์ ์ ์ด ๊ฐ์ด๋๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅ ์์ญ ์์ฒด๋ฅผ ํ์ฅํฉ๋๋ค. ๊ฐ์ ํ์ด ๋ฌผ์ฒด๋ฅผ ์ํ๋ ์์น์ ์ก์๋๋ฏ๋ก, ์ฌ๋ฐ๋ฅธ ์ ์ด ๋ชจ๋์ โ์ ์ญ ๋ถ์ง(basin of attraction)โ๊ฐ ์ปค์ง๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
๋ถ์์ ํ ์ฐธ์กฐ์ ๋ํ ๊ฐ๊ฑด์ฑ: ํ์ค์ ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ต๋๋ค. ์ ์ด์ด ๋๋ฌด ์งง๊ฑฐ๋(< t_{c,\min}) ์ ์ด์ ์ด ํฌ๊ฒ ์ด๋ํ๋ ๊ฒฝ์ฐ(> d_{c,\max}) ๋ถ์์ ํ ์ ์ด์ผ๋ก ๋ถ๋ฅํ์ฌ ๊ฐ์ ์ ์ฝ์ ๋นํ์ฑํํฉ๋๋ค. ์ด๋ ๋ ธ์ด์ฆ๊ฐ ์ต์ ํ๋ฅผ ์ค์ผ์ํค๋ ๊ฒ์ ๋ฐฉ์งํ๋ ์์ ์ฅ์น์ ๋๋ค.
๊ถค์ ๊ฐ๊ฑดํ(Robustification)
์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ์ฌ์ด์ ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด, SPIDER๋ ๋น๊ด์ (pessimistic) ์ต์ ํ๋ฅผ ์ํํฉ๋๋ค:
J_{\text{rob}}(U) = \max_{d \in \mathcal{D}} J(U, d)
์ฌ๊ธฐ์ \mathcal{D}๋ ์ ์ด ๋ง์ง, ๋ง์ฐฐ ๊ณ์, ๋ฌผ์ฒด ์ง๋ ๋ฑ์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๋ณ๋ ๋ฒ์์ ๋๋ค. ์ผ๋ฐ์ ์ธ ๋๋ฉ์ธ ๋๋คํ(DR)๊ฐ ๊ธฐ๋๊ฐ์ ์ต์ํํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, SPIDER๋ ์ต์ ์ ๊ฒฝ์ฐ๋ฅผ ์ต์ํํฉ๋๋ค.
์ด๊ฒ์ ์ง๊ด์ ์ผ๋ก ์ดํดํ๋ฉด, ๋ณดํต์ DR์ด โํ๊ท ์ ์ผ๋ก ์ ๋๋ ์ ์ดโ๋ฅผ ์ฐพ๋๋ค๋ฉด, SPIDER์ ๊ฐ๊ฑดํ๋ โ์ด๋ค ์ํฉ์์๋ ์ต์ํ ์ด ์ ๋๋ ๋๋ ์ ์ดโ๋ฅผ ์ฐพ์ต๋๋ค. ๋ฏธ๋๋ฐฐ์น d_{1:K}์์ ๊ฐ์ฅ ๋์ ๋น์ฉ์ ์ฌ์ฉํ์ฌ ์ ๋ฐ์ดํธํ๋ฏ๋ก, ๊ฒฐ๊ณผ ๊ถค์ ์ด ๋ค์ํ ๋ฌผ๋ฆฌ ์กฐ๊ฑด์์๋ ์คํ ๊ฐ๋ฅํฉ๋๋ค.
๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ
SPIDER์ ๋ ๋ค๋ฅธ ์ฅ์ ์ ๋จ์ผ ์์ฐ์ผ๋ก๋ถํฐ ๋ค์ํ ๋ฌผ๋ฆฌ์ ๋ณํ์ ์์ฑํ ์ ์๋ค๋ ์ ์ ๋๋ค:
mindmap
root((๋ฐ์ดํฐ ์ฆ๊ฐ))
๊ธฐํํ์ ๋ณํ
๋ฌผ์ฒด ํฌ๊ธฐ ๋ณ๊ฒฝ
๋ฌผ์ฒด ๋ฉ์ ๊ต์ฒด
์ด๊ธฐ ํฌ์ฆ ๋ณ๋
์งํ ๋ณ๊ฒฝ: ํ์งโ๊ณ๋จ
๋ฌผ๋ฆฌ์ ๋ณํ
์ธ๋ ฅ ์ธ๊ฐ: 120N, 240N
๋ง์ฐฐ ๊ณ์ ๋ณ๊ฒฝ
๋ฌผ์ฒด ์ง๋ ๋ณ๊ฒฝ
ํนํ ์ธ์์ ์ธ ์์๋ ๋ฌผ์ฒด ๋ฉ์ ๊ต์ฒด์ ๋๋ค. ์ฝ๋ผ๋ณ์ ์ก๋ ๋์์ ๋ฌผ์ฒด๋ฅผ ๊ณ ์์ด ์ฅ๋๊ฐ์ผ๋ก ๋ฐ๊พธ๋ฉด, SPIDER๊ฐ ์๋์ผ๋ก ์๋ก์ด ๋ฌผ์ฒด์ ๋ง๋ ํ์ง ์ ๋ต์ ์ฐพ์๋ ๋๋ค. ๋ํ ํ์ง ๋ฌ๋ฆฌ๊ธฐ ๋์์ ๊ณ๋จ ์งํ์ ์ถ๊ฐํ๋ฉด, ์๋ก์ด ์ ์ด ํจํด์ด ํ์ํ ๊ณ๋จ ์ค๋ฅด๊ธฐ ๋์์ผ๋ก ๋ณํ๋ฉ๋๋คโ์ด๋ ์์ ๊ธฐ๊ตฌํ ๋ฆฌํ๊ฒํ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ์ผ์ ๋๋ค.
์คํ: ์ซ์๊ฐ ๋งํ๋ ๊ฒ๋ค
์คํ ์ค์
SPIDER์ ์คํ ๊ท๋ชจ๋ ์๋นํ ์ธ์์ ์ ๋๋ค:
| ๋ฒ์ฃผ | ๊ตฌ์ฑ |
|---|---|
| Dexterous Hand | Allegro, XHand, Inspire, Ability, Schunk (5์ข ) |
| Humanoid | Unitree G1, H1-2, Fourier N1, Booster T1 (4์ข ) |
| ์ ์กฐ์ ๋ฐ์ดํฐ์ | GigaHands, OakInk, ARCTIC |
| ํด๋จธ๋ ธ์ด๋ ๋ฐ์ดํฐ์ | LAFAN1, AMASS, OMOMO |
| ์ด ๋ฐ์ดํฐ ๊ท๋ชจ | 1,262 ์ํผ์๋, 2.4M ํ๋ ์, 103์ข ๋ฌผ์ฒด |
๋ ผ๋ฌธ Figure 5 ์ค๋ช : ํ๊ฐ์ ์ฌ์ฉ๋ 9์ข ๋ก๋ด์ ์ฌ์์ ๋ณด์ฌ์ค๋๋ค. Dexterous hand๋ DoF๊ฐ 7(Schunk)๋ถํฐ 16(Allegro)๊น์ง, ์๊ฐ๋ฝ ์๊ฐ 3๊ฐ(Schunk)๋ถํฐ 5๊ฐ(XHand)๊น์ง ๋ค์ํฉ๋๋ค. ์ด ํญ๋์ ๋ณ์ด๊ฐ SPIDER์ ๊ต์ฐจ-์ฒดํ(cross-embodiment) ์ผ๋ฐ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
ํ๊ฐ ์งํ:
- ๋ฌผ์ฒด ํ์ ์ค์ฐจ E_{\text{rot}}: ์คํ ๋ณ ํ๊ท ์ฟผํฐ๋์ธ ์ค์ฐจ
- ๋ฌผ์ฒด ์์น ์ค์ฐจ E_{\text{pos}}: ์คํ ๋ณ ํ๊ท ์์น ์ค์ฐจ
- ์ฑ๊ณต ๊ธฐ์ค: E_{\text{rot}} < 0.5 rad ๊ทธ๋ฆฌ๊ณ E_{\text{pos}} < 3 cm
- FPS (Frames Per Second): ๊ถค์ ์์ฑ ์๋
Ablation Study: ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ
๋ ผ๋ฌธ์ Table 1์ ๊ฐ ๊ธฐ๋ฒ์ ์ ์ง์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์๋๋ Allegro Hand์์์ ๊ฒฐ๊ณผ๋ฅผ ์์๋ก ์ ๋ฆฌํ ๊ฒ์ ๋๋ค:
| ๋ฐฉ๋ฒ | OakInk ์ฑ๊ณต๋ฅ | GigaHands ์ฑ๊ณต๋ฅ |
|---|---|---|
| ๊ธฐ๊ตฌํ ๋ฆฌํ๊ฒํ (IK๋ง) | 0.13 | 0.00 |
| ํ์ค ์ํ๋ง (MPPI) | 0.40 | 0.40 |
| ์ด๋๋ง ์ํ๋ง | 0.70 | 0.80 |
| ์ด๋๋ง + ์ ์ด ๊ฐ์ด๋ (SPIDER) | 1.00 | 1.00 |
์ด ๊ฒฐ๊ณผ์์ ์ฝ์ ์ ์๋ ํต์ฌ ๋ฉ์์ง๋ค:
IK๋ง์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. ํนํ GigaHands์์๋ ์ฑ๊ณต๋ฅ ์ด 0%์ ๋๋ค. ๊ธฐ๊ตฌํ์ ์ผ๋ก ๋งคํํ ๊ถค์ ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ ๋๋ค.
๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ด ํฐ ํญ์ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค. ํ์ค MPPI๋ง์ผ๋ก๋ IK ๋๋น ํฌ๊ฒ ํฅ์๋ฉ๋๋ค.
์ด๋๋ง์ด ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค. ๊ณ ์ ํ์ ๋ฐ๊ฒฝ ๋๋น, ์ด๋๋ง ์ ๋ต์ด ์ฝ 30%p์ ์ฑ๊ณต๋ฅ ํฅ์์ ๊ฐ์ ธ์ต๋๋ค.
์ ์ด ๊ฐ์ด๋๊ฐ ๋ง์ง๋ง ํผ์ฆ ์กฐ๊ฐ์ ๋๋ค. ์ด๋๋ง ๊ธฐ๋ฐ ๋๋น ํ๊ท ์ฝ 18%์ ์ถ๊ฐ ๊ฐ์ ์ ๋๋ค. ํนํ ์ ๋ฐํ ์ด๊ธฐ ์ ์ด์ด ํ์ํ OakInk ์์ ์์ ํจ๊ณผ๊ฐ ๋๋๋ฌ์ง๋๋ค.
์ ์ฒด ๋ฐ์ดํฐ์ ์ ๊ฑธ์น ํจํด์ ๋ณด๋ฉด, ์ ์ด ๊ฐ์ด๋์ ํจ๊ณผ๋ ๋ก๋ด๋ง๋ค ๋ค๋ฆ ๋๋ค. ์์ ๋๊ฐ ๋์ ์(Allegro, XHand)์์๋ ์ด๋๋ง๋ง์ผ๋ก๋ ์๋นํ ์ข์ ์ฑ๊ณผ๋ฅผ ๋ณด์ด์ง๋ง, ์์ ๋๊ฐ ๋ฎ์ ์(Ability)์์๋ ์ ์ด ๊ฐ์ด๋์ ์ถ๊ฐ ํจ๊ณผ๊ฐ ์๋์ ์ผ๋ก ์์ต๋๋ค. ์ด๋ ์์ ๋๊ฐ ์ ์์๋ก ์คํ ๊ฐ๋ฅํ ์ ์ด ๋ชจ๋ ์์ฒด๊ฐ ์ ํ์ ์ด๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋ฉ๋๋ค.
๋๊ท๋ชจ ๋ฆฌํ๊ฒํ ๊ฒฐ๊ณผ
์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ํ ์ฑ๊ณต๋ฅ (Table 2):
| ๋ฐ์ดํฐ์ | ๊ถค์ ์ | Ability | Allegro | Inspire | Schunk | XHand |
|---|---|---|---|---|---|---|
| OakInk | 1,022 | 0.413 | 0.459 | 0.479 | 0.431 | 0.422 |
| GigaHands | 756 | 0.741 | 0.810 | 0.879 | 0.706 | 0.812 |
๋ฐ์ดํฐ์ ๊ฐ ์ฐจ์ด ํด์: GigaHands๊ฐ OakInk๋ณด๋ค ์ฑ๊ณต๋ฅ ์ด ๋์ ์ด์ ๋ ์์ ํน์ฑ ์ฐจ์ด ๋๋ฌธ์ ๋๋ค. GigaHands๋ ์ง์ด-๋๊ธฐ(pick-and-place) ๋์์ด ์ฃผ๋ฅผ ์ด๋ฃจ์ด ๋ฆฌํ๊ฒํ ์ ์ ๋ฆฌํ ๋ฐ๋ฉด, OakInk์ ๋ฌผ์ฒด๊ฐ ์ด๋ฏธ ์กํ ์ํ(pre-grasped)์์ ์์ํ๋ฏ๋ก ์ ๋ฐํ ์ด๊ธฐ ์ ์ด ๊ตฌ์ฑ์ด ํ์์ ์ ๋๋ค.
๋ก๋ด ๊ฐ ์ฐจ์ด ํด์: Inspire Hand(12 DoF, 5์๊ฐ๋ฝ)๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ ๋๋ค. ์์ ๋๊ฐ ๋์์๋ก ๋ค์ํ ํ์ง ์ ๋ต์ ๊ตฌ์ฌํ ์ ์์ด ๋ฆฌํ๊ฒํ ์ด ์์ํฉ๋๋ค.
SOTA ๋น๊ต: ์๋์ ํ์ง์ ํธ๋ ์ด๋์คํ
Table 3์์ RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต๊ฐ ํฅ๋ฏธ๋กญ์ต๋๋ค:
| ๋ฐฉ๋ฒ | ๋ฐ์ดํฐ์ | ์ฑ๊ณต๋ฅ | FPS |
|---|---|---|---|
| SPIDER | OakInk | 47.9% | 2.5 |
| ManipTrans (RL) | OakInk | 39.5% | 0.1 |
| SPIDER | ARCTIC | 42.0% | 1.5 |
| DexMachina (RL) | ARCTIC | 67.1% | 0.05 |
์ด ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ์ฝ์ด์ผ ํ ๊น์?
- OakInk์์๋ SPIDER๊ฐ ๋ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ 25๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ManipTrans ๋๋น ์ฑ๊ณต๋ฅ +8.4%p, ์๋ 25ร.
- ARCTIC์์๋ DexMachina๊ฐ ์ฑ๊ณต๋ฅ ์ ๋ ๋์ง๋ง, SPIDER๊ฐ 30๋ฐฐ ๋น ๋ฆ ๋๋ค. ARCTIC์ ์์ ์กฐ์๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์ ํฌํจํ๋ฏ๋ก, RL์ ํ์ ๋ฅ๋ ฅ์ด ์ ๋ฆฌํฉ๋๋ค.
ํต์ฌ์ ์ธ ํต์ฐฐ์ ์ด๊ฒ์ ๋๋ค: SPIDER๋ โ๊ถค์ ๋ณ ํ์ตโ์ด ํ์ ์๋ ์ง์ ์ต์ ํ ๋ฐฉ์์ด๋ฏ๋ก, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ฒด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ RL ๋๋น 10๋ฐฐ ์ด์ ๋น ๋ฆ ๋๋ค. 1,022๊ฐ ๊ถค์ ์ ๋ํด SPIDER๋ ํฉ๋ฆฌ์ ์๊ฐ ์์ ์ ์ฒด ๋ฆฌํ๊ฒํ ์ด ๊ฐ๋ฅํ์ง๋ง, RL์ ๊ฐ ๊ถค์ ๋ง๋ค ์ ์ฑ ์ ํ์ตํด์ผ ํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํฉ๋๋ค.
์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฒฐ๊ณผ
๋ ผ๋ฌธ Figure 7 ์ค๋ช : Franka Emika Panda + Allegro Hand ์์คํ ์์์ ์คํ๋ฃจํ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ ๊ตฌ ๋๋ฆฌ๊ธฐ, ์๊ฐ๋ฝ ์ง๊ธฐ, ๊ธฐํ ์ฐ์ฃผ, ์ถฉ์ ๊ธฐ ๋ฝ๊ธฐ ๋ฑ ์ ๋ฐํ ์๊ฐ๋ฝ ํ์์ด ํ์ํ ์์ ์ ์ถ๊ฐ ์ ์ ์์ด ์ฑ๊ณต์ ์ผ๋ก ์ํํฉ๋๋ค.
์ด๋ ๊ฐ์ ์ ์ฝ์ผ๋ก ์๋ฎฌ๋ ์ด์ ์์ ์ต์ ํํ ๊ถค์ ์ด ๊ฐ๊ฑดํ(robustification) ๋จ๊ณ๋ง์ผ๋ก ์ค์ ํ๋์จ์ด์ ์ง์ ์ ์ด๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ๊ฒฐ๊ณผ์ ๋๋ค.
ํด๋จธ๋ ธ์ด๋ ๋ฆฌํ๊ฒํ ๊ฒฐ๊ณผ
SPIDER๋ Dexterous hand๋ฟ๋ง ์๋๋ผ ํด๋จธ๋ ธ์ด๋ ์ ์ ์ ์ด์๋ ์ ์ฉ๋ฉ๋๋ค:
| ๋ฐ์ดํฐ์ | ๋ฐฉ๋ฒ | ๊ด์ ์ค์ฐจ(ยฐ) | ์์น ์ค์ฐจ(cm) | ๋ฐฉํฅ ์ค์ฐจ(ยฐ) | FPS |
|---|---|---|---|---|---|
| LAFAN1 | GMR | 1.08 | 2.01 | 2.40 | 35.2 |
| LAFAN1 | SPIDER | 0.58 | 0.11 | 0.07 | 23.1 |
| AMASS | GMR | 6.2 | 4.1 | 18.7 | 37.2 |
| AMASS | SPIDER | 0.75 | 0.23 | 0.08 | 22.0 |
SPIDER๊ฐ ์ถ์ ์ค์ฐจ์์ ์๋์ ์ผ๋ก ์ฐ์ํฉ๋๋ค. ํนํ AMASS์์ ๋ฐฉํฅ ์ค์ฐจ๊ฐ 18.7ยฐ์์ 0.08ยฐ๋ก, 200๋ฐฐ ์ด์ ๊ฐ์ ๋ฉ๋๋ค. ์ด๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ด ๋ฐ ๋ฏธ๋๋ฌ์ง(foot sliding)์ด๋ ๋ฐ๋ฅ ๊ดํต(floor penetration) ๊ฐ์ ๊ธฐ๊ตฌํ์ ์ํฐํฉํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ค๋ง FPS์์๋ GMR์ด ๋ ๋น ๋ฆ ๋๋ค(35~37 vs 19~23). ์ด๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ์ต์ ํ์ ๋ณธ์ง์ ์ธ ๊ณ์ฐ ๋น์ฉ ๋๋ฌธ์ด์ง๋ง, SPIDER์ FPS๋ ์ฌ์ ํ ์ค์๊ฐ์ ๊ฐ๊น์ต๋๋ค.
RL ์ ์ฑ ํ์ต ๊ฐ์
๋ ผ๋ฌธ Figure 10 ์ค๋ช : OMOMO ๋ฐ์ดํฐ์ ์์ ํด๋จธ๋ ธ์ด๋๊ฐ ์์๋ฅผ ์ง์ด ๋ฐ๋ฅ์ ๋๋ ์์ ์ RL ํ์ต ๊ณก์ ์ ๋ณด์ฌ์ค๋๋ค.
SPIDER๊ฐ ์์ฑํ ๊ถค์ ์ผ๋ก RL์ ํ์ตํ ๋์ ํต์ฌ์ ์์ฐจ ํ์ต(residual learning)์ ๋๋ค:
u_t = u_t^{\text{SPIDER}} + \pi_\theta(o_t)
SPIDER๊ฐ ๋ช ๋ชฉ(nominal) ์ ์ด u_t^{\text{SPIDER}}๋ฅผ ์ ๊ณตํ๊ณ , RL ์ ์ฑ ์ ํธ์ฐจ๋ฅผ ๋ณด์ ํ๋ ์์ฐจ ํญ \pi_\theta(o_t)๋ง ํ์ตํ๋ฉด ๋ฉ๋๋ค. ์๋ณธ ์ฌ๋ ๋ชจ์ ์ผ๋ก ์ง์ ํ์ตํ๋ฉด ๋ก๋ด์ด ๋ฌผ์ฒด ์ ์ด์ ์คํจํ์ฌ body tracking๋ง ๋ฌ์ฑํ์ง๋ง, SPIDER ๊ถค์ ์ผ๋ก ํ์ตํ๋ฉด ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ ๋ฌผ์ฒด ์ถ์ ์ฑ๋ฅ๋ ์ฐ์ํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
1. ์ฒดํ ๋ถ๊ฐ์ง๋ก ์ ์ค๊ณ(Embodiment-Agnostic Design)
9์ข ์ ๋ก๋ด(5์ข ์ + 4์ข ํด๋จธ๋ ธ์ด๋)์ ๊ฑธ์ณ ๋์ผํ ํ๋ ์์ํฌ๊ฐ ์๋ํฉ๋๋ค. ๋ก๋ด๋ณ ๋ณด์ ํจ์ ์ค๊ณ๋ ์ปค๋ฆฌํ๋ผ ํ๋์ด ํ์ ์๋ค๋ ์ ์ ์ค๋ฌด์ ์ผ๋ก ํฐ ์ฅ์ ์ ๋๋ค. Allegro Hand๋ฅผ ์ฐ๋ค๊ฐ XHand๋ก ๋ฐ๊ฟ๋, SPIDER ํ์ดํ๋ผ์ธ ์์ฒด๋ฅผ ์์ ํ ํ์๊ฐ ์์ต๋๋ค.
2. ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ๊ท ํ
RL ๋๋น 10๋ฐฐ ๋น ๋ฅธ ๊ถค์ ์์ฑ ์๋๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ๋ฅผ ๊ฐ๋ฅ์ผ ํฉ๋๋ค. 2.4M ํ๋ ์ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์์ฑ์ RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก๋ ํ์ค์ ์ผ๋ก ์ด๋ ค์ ์ ๊ฒ์ ๋๋ค. MuJoCo Warp์ GPU ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ ์ ํ์ฉํ์ฌ 10-20๋ฐฐ ๊ฐ์์ ๋ฌ์ฑํ ์ ๋ ์ค์ฉ์ฑ์ ๋์ ๋๋ค.
3. ๊ฐ์ ์ ์ด ๊ฐ์ด๋์ ์ฐ์ํจ
์คํ ๊ฐ๋ฅ ์์ญ์ ํ์ฅํ๋ค๋ ์์ด๋์ด๋ ๋จ์ํ ๋น์ฉ์ ์ถ๊ฐํ๋ ๊ฒ๋ณด๋ค ๊ทผ๋ณธ์ ์ธ ํด๊ฒฐ์ฑ ์ ๋๋ค. ์ปค๋ฆฌํ๋ผ ๋ฐฉ์์ ์ ์ง์ ์ํ๋ ์ด๋ก ์ ์ผ๋ก๋ ๊น๋ํ๊ณ , ์คํ์ ์ผ๋ก๋ ํจ๊ณผ์ ์ ๋๋ค.
4. ์์ ํ ํ์ดํ๋ผ์ธ ์ ๊ณต
๋จ์ผ RGB ์นด๋ฉ๋ผ โ 3D ์ฌ๊ตฌ์ฑ โ ๋ฆฌํ๊ฒํ โ ์ค์ ๋ก๋ด ๋ฐฐํฌ๊น์ง์ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ๋ณด์ฌ์ค ์ , ๊ทธ๋ฆฌ๊ณ ์ฝ๋๋ฅผ ๊ณต๊ฐํ ์ ์ ์ฌํ์ฑ๊ณผ ์ค์ฉ์ฑ ๋ฉด์์ ๋์ด ํ๊ฐํ ๋งํฉ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ
1. ๋ณต์กํ ์์ ์กฐ์์์์ ์ฑ๋ฅ ๊ฒฉ์ฐจ
ARCTIC ๋ฐ์ดํฐ์ ์์ DexMachina ๋๋น 25%p ๋ฎ์ ์ฑ๊ณต๋ฅ (42% vs 67.1%)์ SPIDER์ ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์์ ํ์์ด ํ์ํ ๋ณต์กํ ์์ ์์๋ RL์ ํ์ ๋ฅ๋ ฅ์ด ์ฌ์ ํ ์ฐ์์ ๋๋ค. SPIDER์ ์ํ๋ง์ด ๊ตญ์ ์ต์ ์ ๋น ์ง๊ธฐ ์ฌ์ด ์ํฉ์ผ๋ก ํด์๋ฉ๋๋ค.
2. ์คํ๋ฃจํ ์คํ์ ๊ทผ๋ณธ์ ํ๊ณ
Dexterous hand์์์ ์ค๋ก๋ด ๊ฒฐ๊ณผ๊ฐ ์คํ๋ฃจํ๋ผ๋ ์ ์ ์ฃผ์๊ฐ ํ์ํฉ๋๋ค. ์ค์ ํ๊ฒฝ์์๋ ๋ฌผ์ฒด์ ๋ฏธ๋๋ฌ์ง, ์์์น ๋ชปํ ์ ์ด ๋ฑ์ ๋ํ ํผ๋๋ฐฑ์ด ํ์์ ์ ๋๋ค. ๋ ผ๋ฌธ๋ ์ด๋ฅผ ์ธ์งํ๊ณ RL ์์ฐจ ํ์ต์ ์ ์ํ์ง๋ง, ๊ทธ ๊ฒฐ๊ณผ๋ ํด๋จธ๋ ธ์ด๋์ ํ์ ๋์ด ์์ต๋๋ค. Dexterous hand์์์ ํด๋ก์ฆ๋ ๋ฃจํ ์ ์ฑ ํ์ต ๊ฒฐ๊ณผ๊ฐ ์๋ ์ ์ ์์ฝ์ต๋๋ค.
3. ์ ๋ ฅ ๋ฐ์ดํฐ ํ์ง ์์กด์ฑ
SPIDER์ ์ฑ๋ฅ์ 3D ์ฌ๊ตฌ์ฑ ํ์ง์ ์๋นํ ์์กดํฉ๋๋ค. ๋ ผ๋ฌธ ์ค์ค๋ก๋ ์ด๋ฅผ ์ธ์ ํ๊ณ ์์ต๋๋ค. ๋ ธ์ด์ฆ๊ฐ ์ฌํ ๋ฉ์๋ ๋ชจ์ ์ ์ต์ ํ๋ฅผ ์ค์ผ์ํฌ ์ ์์ผ๋ฉฐ, ์ ์ด ํํฐ๊ฐ ์ด๋ฅผ ์ํํ์ง๋ง ์์ ํ ํด๊ฒฐํ์ง๋ ๋ชปํฉ๋๋ค.
4. ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์ฌ
\beta_1, \beta_2, \lambda, \eta_i, \epsilon_{\text{contact}}, t_{c,\min}, d_{c,\max} ๋ฑ ๋ค์์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์กด์ฌํ์ง๋ง, ์ด๋ค์ ๋ฏผ๊ฐ๋ ๋ถ์์ด ์ถฉ๋ถํ์ง ์์ต๋๋ค. โ๋ก๋ด๋ณ ์ถ๊ฐ ํ๋ ์์ดโ ์๋ํ๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, ์ต์ ์ ํ๋ผ๋ฏธํฐ ์ค์ ์ด ๋ก๋ด/์์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋์ง ์ฌ๋ถ๊ฐ ๋ถ๋ถ๋ช ํฉ๋๋ค.
5. ์ฑ๊ณต๋ฅ ์ ์ ๋์ ์์ค
OakInk ์ ์ฒด ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์ฑ๊ณต๋ฅ ์ด 47.9%(Inspire)๋ผ๋ ์ ์, ์ค๋ฌด ์ ์ฉ ๊ด์ ์์ ์ ๋ฐ ์ด์์ ๊ถค์ ์ด ์คํจํ๋ค๋ ์๋ฏธ์ ๋๋ค. ๋ฌผ๋ก ์ด๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์์ ๊ฒฐ๊ณผ์ด๊ณ , ์คํจ ๊ถค์ ์ ํํฐ๋งํ์ฌ ์ฌ์ฉํ ์ ์์ง๋ง, ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ํฝ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
๋ฆฌํ๊ฒํ ๋ฐฉ๋ฒ๋ก ์คํํธ๋ผ์์์ ์์น
quadrantChart
title ๋ฆฌํ๊ฒํ
๋ฐฉ๋ฒ๋ก ๋น๊ต
x-axis "๋๋ฆผ" --> "๋น ๋ฆ"
y-axis "๋ฌผ๋ฆฌ์ ๋นํ๋น" --> "๋ฌผ๋ฆฌ์ ํ๋น"
quadrant-1 ๋น ๋ฅด๊ณ ๋ฌผ๋ฆฌ์ ํ๋น
quadrant-2 ๋๋ฆฌ์ง๋ง ๋ฌผ๋ฆฌ์ ํ๋น
quadrant-3 ๋๋ฆฌ๊ณ ๋ฌผ๋ฆฌ์ ๋นํ๋น
quadrant-4 ๋น ๋ฅด์ง๋ง ๋ฌผ๋ฆฌ์ ๋นํ๋น
IK ๊ธฐ๋ฐ: [0.85, 0.15]
์ ๊ฒฝ๋ง ๊ธฐ๋ฐ: [0.75, 0.35]
RL ๊ธฐ๋ฐ: [0.15, 0.80]
SPIDER: [0.65, 0.75]
ํต์ฌ ๋น๊ต ๋์
ManipTrans (Li et al., 2025): OakInk ๋ฐ์ดํฐ์ ์์ ์ง์ ๋น๊ต๋์์ผ๋ฉฐ, SPIDER๊ฐ ์ฑ๊ณต๋ฅ ๊ณผ ์๋ ๋ชจ๋์์ ์ฐ์ํฉ๋๋ค. ManipTrans๋ ๊ถค์ ๋ณ RL ์ ์ฑ ์ ํ์ตํ๋ฏ๋ก ํ์ฅ์ฑ์ด ์ ํ๋ฉ๋๋ค.
DexMachina (Mandi et al., 2025): ARCTIC์์ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด์ง๋ง, 30๋ฐฐ ๋๋ฆฝ๋๋ค. DexMachina์ virtual object constraint์ SPIDER์ virtual contact guidance๋ ์ ์ฌํ ์ฒ ํ์ ๊ณต์ ํ์ง๋ง, SPIDER๊ฐ ์๋ ์์น ๊ธฐ๋ฐ์ผ๋ก ๋ ์ผ๋ฐ์ ์ธ ๊ณต์ํ๋ฅผ ์ ๊ณตํฉ๋๋ค.
Dexplore (2025): ํฅ๋ฏธ๋ก์ด ๋์กฐ์ ์ ๋๋ค. Dexplore๋ ๋ฆฌํ๊ฒํ ๊ณผ ์ถ์ ์ ๋จ์ผ ๋ฃจํ๋ก ํตํฉํ์ฌ ์ฌ๋ ์์ฐ์ โsoft referenceโ๋ก ์ฌ์ฉํฉ๋๋ค. SPIDER์ ์ฒ ํ์ด ๋ค๋ฅธ๋ฐโSPIDER๋ ๋จผ์ ์ข์ ๊ถค์ ์ ๋ง๋ค๊ณ ๋์ค์ ์ ์ฑ ์ ํ์ตํ๋ 2๋จ๊ณ ์ ๊ทผ, Dexplore๋ ์ฒ์๋ถํฐ ์ ์ฑ ์ ํ์ตํ๋ 1๋จ๊ณ ์ ๊ทผ์ ๋๋ค. ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ด ์์ผ๋ฉฐ, ํฅํ ๋ ์ ๊ทผ์ ์ตํฉ๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ผ ๊ฒ์ ๋๋ค.
DIAL-MPC (Xue et al., 2025): SPIDER์ ์ด๋๋ง ์ปค๋์ DIAL-MPC์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค. DIAL-MPC๊ฐ ๋ณดํ ์ ์ด์ ์ด๋๋ง ์ํ๋ง์ ์ ์ฉํ ๊ฒ์ ๋ฆฌํ๊ฒํ ๋ฌธ์ ๋ก ํ์ฅํ๊ณ , ์ ์ด ๊ฐ์ด๋๋ฅผ ์ถ๊ฐํ ๊ฒ์ด SPIDER์ ๊ธฐ์ฌ์ ๋๋ค.
Allegro Hand ์ฐ๊ตฌ์๋ฅผ ์ํ ์์ฌ์
SPIDER๊ฐ Allegro Hand๋ฅผ ํฌํจํ 5์ข ์ ๋ก๋ด ์์์ ํ๊ฐ๋ฅผ ์ํํ ๋งํผ, ๋ช ๊ฐ์ง ์ค์ง์ ์์ฌ์ ์ ์ง์ด๋ณด๊ฒ ์ต๋๋ค:
๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ผ๋ก ํ์ฉ: Allegro Hand ์ฐ๊ตฌ์์ ํ์ต ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ๊ฒช๊ณ ์๋ค๋ฉด, SPIDER๋ฅผ ํตํด ๊ณต๊ฐ ์ฌ๋ ์ ๋ฐ์ดํฐ์ (OakInk, GigaHands)์ผ๋ก๋ถํฐ Allegro ์ ์ฉ ๊ถค์ ๋ฐ์ดํฐ๋ฅผ ๋๋ ์์ฑํ ์ ์์ต๋๋ค.
RL ํ์ต ๊ฐ์: SPIDER ๊ถค์ ์ ๋ช ๋ชฉ ์ ์ด๋ก ์ฌ์ฉํ ์์ฐจ RL ํ์ต์ ๋ณด์ ์ค๊ณ์ ์ปค๋ฆฌํ๋ผ ์ค๊ณ์ ๋ถ๋ด์ ํฌ๊ฒ ์ค์ฌ์ค๋๋ค.
Sim-to-Real ๊ฐ๋ฅ์ฑ: ๊ฐ๊ฑดํ ๋จ๊ณ๋ฅผ ๊ฑฐ์น ๊ถค์ ์ด ์ค์ ๋ก๋ด์์ ์คํ๋ฃจํ๋ก ์คํ ๊ฐ๋ฅํ๋ค๋ ๊ฒฐ๊ณผ๋, ์ค์ ๋ฐฐํฌ๋ฅผ ๊ณ ๋ คํ๋ ์ฐ๊ตฌ์์๊ฒ ์ ์ฉํ ๋ ํผ๋ฐ์ค์ ๋๋ค.
16 DoF์ ์ด์ : Allegro Hand๋ 16 DoF๋ก ํ๊ฐ๋ ์๋ค ์ค์์ ๋์ ์ถ์ ์ํ๋ฉฐ, ์ด์ ๋ฐ๋ผ ๋ฆฌํ๊ฒํ ์ฑ๊ณต๋ฅ ๋ ์ํธํฉ๋๋ค. ์์ ๋๊ฐ ์ ์ ์์์๋ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์์ ๊ฐ์ํด์ผ ํฉ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
SPIDER๋ โ์ฌ๋์ ์์ง์ ๋ก๋ด์ ์์ง์ผ๋ก ์ด๋ป๊ฒ ๋ฐ๊ฟ ๊ฒ์ธ๊ฐ?โ๋ผ๋ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ๋ํด, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๋๊ท๋ชจ ์ํ๋ง์ด๋ผ๋ ๊น๋ํ ๋ต์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ธ ๊ฐ์ง๋ก ์์ฝํ๋ฉด:
- ๊ฐ์ ์ ์ด ๊ฐ์ด๋: ์คํ ๊ฐ๋ฅ ์์ญ์ ํ์ฅํ์ฌ ์ฌ๋ฐ๋ฅธ ์ ์ด ๋ชจ๋๋ก์ ์๋ ด์ ์ ๋ํ๋ ์ปค๋ฆฌํ๋ผ ๊ธฐ๋ฒ. ์ฑ๊ณต๋ฅ 18% ํฅ์.
- ํ์ฅ์ฑ: 9์ข ๋ก๋ด ร 6๊ฐ ๋ฐ์ดํฐ์ ์ ๊ฑธ์น ๋ฒ์ฉ์ฑ. RL ๋๋น 10๋ฐฐ ๋น ๋ฅธ ๊ถค์ ์์ฑ. 2.4M ํ๋ ์ ๋ฐ์ดํฐ์ ์์ฑ.
- ์ค์ฉ์ฑ: ๋จ์ผ RGB ์นด๋ฉ๋ผ๋ถํฐ ์ค์ ๋ก๋ด ๋ฐฐํฌ๊น์ง์ ์์ ํ ํ์ดํ๋ผ์ธ. ์ฝ๋ ๊ณต๊ฐ.
์ด๋ฆฐ ์ง๋ฌธ๋ค๋ ๋จ์ ์์ต๋๋ค. ๋ณต์กํ ์์ ์กฐ์์์์ ์ฑ๋ฅ ๊ฐ์ , ํด๋ก์ฆ๋ ๋ฃจํ ์ ์ฑ ์ผ๋ก์ ํ์ฅ, ์ ๋ ฅ ๋ฐ์ดํฐ ํ์ง์ ๋ํ ๊ฐ๊ฑด์ฑ ํฅ์ ๋ฑ์ ํ์ ์ฐ๊ตฌ์ ๋ฐฉํฅ์ด ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ผ์๋ SPIDER๋ โ์ธํฐ๋ท ๊ท๋ชจ์ ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ์ต์ ํ์ฉํ๊ฒ ๋คโ๋ ๋น์ ์ ํ ๊ฑธ์ ๋ ๊ฐ๊น์ด ๋ค๊ฐ๊ฐ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ ๋๋ค.
์๋ฎฌ๋ ์ด์ ์์์ ์์ฒ ๋ฒ์ ์๋๋ฅผ ํตํด ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ง๋ ๋ต์ ์ฐพ์๊ฐ๋ SPIDER์ ์ ๊ทผ์, ๋ง์น ์์ฐ์ด ์งํ๋ฅผ ํตํด ์ต์ ์ ํด๋ฅผ ์ฐพ์๊ฐ๋ ๊ณผ์ ๊ณผ ๋ฎ์ ์์ต๋๋ค. ๋ค๋ง ์์ฐ๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ์.
์ฐธ๊ณ ์ ๋ณด
- ๋ ผ๋ฌธ: Chaoyi Pan, Changhao Wang, Haozhi Qi, Zixi Liu, Homanga Bharadhwaj, Akash Sharma, Tingfan Wu, Guanya Shi, Jitendra Malik, Francois Hogan. โSPIDER: Scalable Physics-Informed Dexterous Retargeting.โ arXiv:2511.09484, 2025.
- ์์: FAIR at Meta, Carnegie Mellon University
- ํ๋ก์ ํธ ํ์ด์ง: https://jc-bao.github.io/spider-project
- ์ฝ๋: https://github.com/facebookresearch/spider
- ์ง์ ์๋ฎฌ๋ ์ดํฐ: MuJoCo Warp (๊ธฐ๋ณธ), Genesis
- ๋ค์ด์คํธ๋ฆผ ํตํฉ: HDMI (ํด๋จธ๋ ธ์ด๋), DexMachina (Dexterous hand RL)