๐HandelBot ๋ฆฌ๋ทฐ
Amber Xie, Haozhi Qi, Dorsa Sadigh
- ๐น HandelBot์ sim-to-real gap์ผ๋ก ์ธํด ์ ๋ฐํ ์ค์ ํ๊ฒฝ dexterity๊ฐ ์ด๋ ค์ด bimanual piano playing์ ์ํ ์ต์ด์ ํ์ต ๊ธฐ๋ฐ ์์คํ ์ ๋๋ค.
- โจ ์ด ์์คํ ์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ๋ จ๋ ์ ์ฑ ์ real-world data๋ก ๋น ๋ฅด๊ฒ ์ ์์ํค๊ธฐ ์ํด, ๋จผ์ structured trajectory refinement๋ก ๊ณต๊ฐ ์ ๋ ฌ์ ์์ ํ๊ณ ์ด์ด์ residual reinforcement learning์ผ๋ก ๋ฏธ์ธํ corrective action์ ํ์ตํ๋ 2๋จ๊ณ ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํฉ๋๋ค.
- โ HandelBot์ 5๊ณก์ ๋ค์ํ ๊ณก์์ ์ฑ๊ณต์ ์ธ real-world execution์ ๋ฌ์ฑํ๋ฉฐ, ๋จ 30๋ถ ๋ฏธ๋ง์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ง์ ์ ์ธ ์๋ฎฌ๋ ์ด์ ๋ฐฐํฌ๋ณด๋ค 1.8๋ฐฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
HandelBot ๋ ผ๋ฌธ์ ๋ค์ง(multi-fingered) ๋ก๋ด ์์ ์ด์ฉํ ์ ๊ตํ ํ์ค ์ธ๊ณ ํผ์๋ ธ ์ฐ์ฃผ๋ผ๋ ๋์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ์์ ์ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ์ ์ฑ (\pi_{sim})์ด ๋ฐ๋ฆฌ๋ฏธํฐ ๊ท๋ชจ์ ์ ๋ฐ๋๋ฅผ ์๊ตฌํ๋ ํ์คํฌ์์ ํ์ค ์ธ๊ณ๋ก ์ง์ ๋ฐฐํฌ๋ ๋ ๋ฐ์ํ๋ ์ฌ-ํฌ-๋ฆฌ์ผ(sim-to-real) ๊ฐญ์ผ๋ก ์ธํ ์คํจ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
I. ์๋ก ๋ฐ ๋ฐฐ๊ฒฝ
๊ธฐ์กด์ ๋ก๋ด ํผ์๋ ธ ์ฐ์ฃผ ์์คํ ์ ์ ์ฉ ํ๋์จ์ด์ ์์์ ์ผ๋ก ์ ์ด๋๋ ์ปจํธ๋กค๋ฌ์ ์์กดํ์ต๋๋ค. ์ต๊ทผ์ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋ฒ์ฉ ๋ก๋ด ํ๋์จ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์ ์ธ์์ ์ธ dexterous ํผ์๋ ธ ์ฐ์ฃผ๋ฅผ ๋ฌ์ฑํ์ง๋ง, ํ์ค ์ธ๊ณ๋ก์ ์ฌ-ํฌ-๋ฆฌ์ผ ์ ์ก์ ์ฌ์ ํ ๋ฏธ๊ฐ์ฒ ๋ถ์ผ์์ต๋๋ค. HandelBot์ ์ด๋ฌํ ๊ฐ๊ทน์ ๋ฉ์ฐ๋ฉฐ, ํนํ ์์(bimanual) ํผ์๋ ธ ์ฐ์ฃผ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด ์์คํ ์ ์๋ฎฌ๋ ์ด์ ์์์ ๊ฐ๋ ฅํ ์ฌ์ ํ๋ จ(pretraining)๊ณผ ํ์ค ์ธ๊ณ์์์ residual reinforcement learning์ ๊ฒฐํฉํ์ฌ ๋ณต์กํ ์์ ํผ์๋ ธ ์ฐ์ฃผ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
II. HandelBot ํต์ฌ ๋ฐฉ๋ฒ๋ก
HandelBot์ ์๋ฎฌ๋ ์ด์ ํ๋ จ๋ ์ ์ฑ ์ ํ์ค ์ธ๊ณ ํผ์๋ ธ ์ฐ์ฃผ์ ์ ์ฉํ๊ธฐ ์ํด ๋ ๋จ๊ณ์ ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ฆ ๋๋ค.
A. ์๋ฎฌ๋ ์ด์ ์์์ ๊ฐํ ํ์ต (RL in Simulation)
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํต์ฌ ํผ์๋ ธ ์ฐ์ฃผ ๋์์ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
- ๋ณด์ ์ค๊ณ (Reward Design):
RoboPianist[1]์ ์ค๊ณ๋ฅผ ๋ฐ๋ฅด๋ฉฐ, ๋ชฉํ ๋ ธํธ๋ฅผ ์ฐ์ฃผํ๋ ๊ฒ์ ๋ํ key press reward, ์ฌ๋ฐ๋ฅธ ๊ฑด๋ฐ ๊ทผ์ฒ์ ์๋ ๊ฒ์ ๋ํ dense fingering reward, ๊ทธ๋ฆฌ๊ณ energy penalty๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Appendix์์๋Key Press reward๊ฐ 0.7 \cdot \left(\frac{1}{K}\sum_{i} g(||k^s_i - 1||^2)\right) + 0.3 \cdot (1 - \mathbf{1}_{\{\text{false positive}\}})์ ๊ฐ์ด ๋ณํ๋์ด, ์๋ชป๋ ํค๋ฅผ ๋๋ฅด๋ ๊ฒ์ด ๊ฑฐ์ ๋ถ๊ฐํผํ ํ์ค ํ๊ฒฝ์ ํน์ฑ์ ๋ฐ์ํ์ต๋๋ค. - ๊ด์ธก ๋ฐ ํ๋ ๊ณต๊ฐ (Observations and Actions): ๋ก๋ด ๊ณ ์ ์์ฉ์ฑ(proprioception), ํ์ฌ ํผ์๋ ธ ํ์ฑํ, ๋ชฉํ ํผ์๋ ธ ํ์ฑํ, ํ์ฑํ๋ ์๊ฐ๋ฝ ๋ฑ์ด ๊ด์ธก ๊ณต๊ฐ์ ํฌํจ๋ฉ๋๋ค. ํ๋ ๊ณต๊ฐ์ delta joint positions์ผ๋ก, ๋ก๋ด ์์ ์ ์์ค ์ ์ด ๋ช ๋ น์ ๋ํ๋ ๋๋ค. ํนํ Tesollo DG-5F ์์ ๊ฒฝ์ฐ, ๋ง์ง๋ง joint angle์ 1 ๋ผ๋์์ผ๋ก ๊ณ ์ ํ์ฌ action space๋ฅผ ์ค์ด๊ณ ์๊ฐ๋ฝ ๋์ผ๋ก ๊ฑด๋ฐ์ ๋๋ฅด๋๋ก ์ ๋ํฉ๋๋ค. ์๋ชฉ ๊ถค์ (wrist trajectory)์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์คํฌ๋ฆฝํธ๋๋ฉฐ, ์ฌ๋ฌ ๋ ธํธ๊ฐ ๋์์ ๋ฐ์ํ ๊ฒฝ์ฐ ํ๊ท Y ์์น์ ์ต์ X ์์น๋ฅผ ์ฌ์ฉํ์ฌ ์ง๊ณ๋ฉ๋๋ค.
- ์ ์ฑ ํ์ต: ๋น ๋ฅด๊ณ ๋ณ๋ ฌ์ ์ธ ๋กค์์๊ณผ dense reward ์ ํธ๋ฅผ ํ์ฉํ์ฌ PPO [68] ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ฑ \pi_{sim}์ ํ๋ จํฉ๋๋ค. ์ด \pi_{sim}์ ์๋ฎฌ๋ ์ด์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ํ์ค ์ธ๊ณ์์๋ ์ปจํธ๋กค๋ฌ ๋ฐ ํผ์๋ ธ ๊ฑด๋ฐ ๋๋ฅด๊ธฐ dynamics์ ๋ถ์ผ์น๋ก ์ธํด ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํฉ๋๋ค.
B. ์ ์ฑ ์ ์ (Policy Refinement)
Residual RL์ ์คํํ๊ธฐ ์ ์, ํ์ค ์ธ๊ณ์์ ๊ฒฝ๋ํ๋ ์ ์ฑ ์ ์ ์ ์ฐจ๋ฅผ ์ ์ฉํฉ๋๋ค. ์ด๋ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ \pi_{sim}์ผ๋ก๋ถํฐ ์ป์ ์ด๊ธฐ ๊ฐ๋ฐฉ ๋ฃจํ ๊ถค์ \tau^0 = (s^0_0, ..., s^0_T)๋ฅผ ์์ ํ์ฌ \tau^* = (s^*_0, ..., s^*_T)๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ์ธก๋ฉด ์กฐ์ธํธ ๋ณด์ (Lateral Joint Correction): ๋๋ฉ์ธ ์ง์(๊ฑด๋ฐ ๊ธฐํํ, ์์ kinematics)์ ํ์ฉํ์ฌ ์ผ๊ด๋ ์ธก๋ฉด ํธํฅ(lateral biases)๊ณผ ์ ์ด ์ค์ ๋ ฌ(contact misalignments)์ ์์ ํฉ๋๋ค.
- \pi_{sim}์ ํ์ค ๋ก๋ด์์ ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) ๋ฐฉ์์ผ๋ก ์คํํ๊ณ , ๊ฐ ์๊ฐ ๋จ๊ณ t์์ (i) ๋ชฉํ ๋ ธํธ ๋ฐ ํด๋น ์๊ฐ๋ฝ, (ii) ์ค์ ๋ก ๋๋ฆฐ ๊ฑด๋ฐ ์ธํธ K_{press_t}๋ฅผ ๊ธฐ๋กํฉ๋๋ค.
- ๊ฐ ์๊ฐ๋ฝ์ ๋ํด ๋ชฉํ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋๋ฆฐ ๊ฑด๋ฐ k_{press_t}๋ฅผ ์๋ณํฉ๋๋ค. ๋ง์ฝ k_{press_t}๊ฐ ๋ชฉํ k_{target_t}์ ๋ค๋ฅด๋ค๋ฉด, ๋ฐฉํฅ์ฑ ์ค์ฐจ(signed directional error)๋ฅผ ๊ณ์ฐํฉ๋๋ค: \Delta_t = \begin{cases} +\delta & \text{if } k_{press_t} < k_{target_t} \\ -\delta & \text{if } k_{press_t} > k_{target_t} \\ 0 & \text{otherwise} \end{cases} ์ฌ๊ธฐ์ \delta๋ ์ธก๋ฉด ์๊ฐ๋ฝ ์กฐ์ธํธ ์กฐ์ ๋์ ์ ์ดํ๋ step size์ ๋๋ค.
- ๋ฐ๋ณต์ ์ ๋ฐ์ดํธ (Iterative Updates): ์ด ๋ณด์ ์ ์ฐจ๋ ๊ถค์ ์คํ๊ณผ ์ ๋ฐ์ดํธ๋ฅผ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉ๋ฉ๋๋ค. \delta๋ ์ด๊ธฐ์๋ ํฐ ๊ฐ์ผ๋ก ์ค์ ํ๊ณ , ๋งค ๋ฐ๋ณต๋ง๋ค ์ ์ง์ ์ผ๋ก ๊ฐ์(annealing)์์ผ ์ง๋์ ํผํ๊ณ ๋ถ๋๋ฌ์ด ์๋ ด์ ๋์ต๋๋ค. ์ธ์ ์๊ฐ๋ฝ์ 0.3\Delta_t์ ๊ฐ์ ์์ ๋ณด์ ํญ์ ์ถ๊ฐํ์ฌ ๊ณต๊ฐ์ ๋ถ๋ฆฌ(spatial separation)๋ฅผ ์ฅ๋ คํฉ๋๋ค. ์ฌ๋ฌ ๊ฑด๋ฐ์ด ๋๋ฆด ๊ฒฝ์ฐ, ์ผ์ชฝ์ ํ์ฑ ์๊ฐ๋ฝ์ ๋ฎ์ ์์ ๊ฑด๋ฐ์ ๋๋ฅด๊ณ , ์ค๋ฅธ์ชฝ์ ํ์ฑ ์๊ฐ๋ฝ์ ๋์ ์์ ๊ฑด๋ฐ์ ๋๋ฅธ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
- ์ฒญํฌ ๋จ์ ์
๋ฐ์ดํธ (Chunked Updates): ์
๋ฐ์ดํธ๋ ๋งค ์๊ฐ ๋จ๊ณ๊ฐ ์๋, ๊ธธ์ด K์ temporal chunks ๋จ์๋ก ์ํ๋ฉ๋๋ค. ์ด๋ ๋์์ ๋ถ๋๋ฌ์์ ์ํด, ์๊ฐ๋ฝ ๋ ์ค์ฐจ๋ฅผ t+K+L๊น์ง ๊ณ ๋ คํ์ฌ anticipatory spatial adjustments๋ฅผ ์ด์งํฉ๋๋ค.
$\Delta_{chunk_t}$๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค: \Delta_{chunk_t} = \frac{1}{K+L} \sum_{j=t}^{t+K+L} \Delta_j ์ด ๋ฐ๋ณต ๊ณผ์ ์ ๋์์, ๊ฐ์ฅ ์ข์ F1 ์ ์๋ฅผ ๊ฐ์ง ๊ถค์ ์ ์ ์ ๋ ๊ถค์ (\tau^*)์ผ๋ก ์ ์ฅํฉ๋๋ค.
C. ํ์ค ์ธ๊ณ ์์ฐจ ๊ฐํ ํ์ต (Real-World Residual Reinforcement Learning)
์ ์ฑ ์ ์ ๋จ๊ณ์์ ์ป์ ๊ฐ๋ฐฉ ๋ฃจํ ๊ถค์ s^*_0, ..., s^*_T๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๊ธฐ ์ํด residual reinforcement learning ํ๋ ์์ํฌ๋ฅผ ์ฑํํฉ๋๋ค.
- ์์ฐจ ์ ์ฑ ๊ณต์ํ (Residual Policy Formulation): ์์ฐจ ์ ์ฑ \pi_{res}๋ ๊ธฐ๋ณธ ํ๋์ ๋ํ ๋ถ๊ฐ์ ์ธ ๋ณด์ (additive correction)์ ์ถ๋ ฅํฉ๋๋ค: \hat{s}_{t+1} = \pi_{res}(o_t) + s^*_{t+1} ์ฌ๊ธฐ์ o_t๋ ์๊ฐ t์ ํ์ค ์ธ๊ณ ๊ด์ธก๊ฐ์ด๊ณ , s^*_{t+1}์ ๊ฐ๋ฐฉ ๋ฃจํ ๊ถค์ ์ ๋ค์ ์ํ๋ฅผ ๋ํ๋ ๋๋ค. \pi_{res}์ ์ถ๋ ฅ์ ์์ ์ญ๋(perturbations)์ผ๋ก ์ ํ๋์ด ๋ ์์ ํ ํ์๊ณผ ๋น ๋ฅธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ์์ฐจ RL ๋ชฉํ (Residual RL Objective): ํ์ค ์ธ๊ณ์์๋ ํผ์๋ ธ์ MIDI ์ถ๋ ฅ์์ ํ์๋ key press reward ์ ํธ๋ง ์ฌ์ฉํฉ๋๋ค (์๋ฎฌ๋ ์ด์ ์์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๋์ผ). \pi_{res}๋ ํ์ค ์ธ๊ณ dynamics ํ์์ ๊ธฐ๋ ๋ณด์์ ์ต๋ํํ๋๋ก ๊ฐํ ํ์ต์ ํตํด ํ๋ จ๋ฉ๋๋ค.
- ์ ๋ ์ก์ (Guided Noise): TD3 [65] ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ฉฐ, ์ํ๋ง๋ ํ๋์ ์ก์ ํญ์ ์ถ๊ฐํฉ๋๋ค. ํนํ, ์ ์ฑ
์ ์ ์์ ์ฌ์ฉ๋ ์ธก๋ฉด ์กฐ์ ์ ๋ชจํฐ๋ธ๋ก, ์ก์
$\epsilon \sim \mathcal{N}(0,1)$์ ๋ฐฉํฅ์ ์ฌ๋ฐ๋ฅธ ์ธก๋ฉด ์์ง์์ ๋ฐฉํฅ์ผ๋ก ์ ๋ํฉ๋๋ค. ํ๋ฅ Pr(\text{guided noise}) = 0.5๋ก, ํด๋น ์ธก๋ฉด ์กฐ์ธํธ์ ์ก์ ๋ถํธ๊ฐ \Delta_t์ ๋์ผํ ๋ถํธ๊ฐ ๋๋๋ก ๋ณ๊ฒฝํ์ฌ$\hat{\epsilon}$์ ์์ฑํฉ๋๋ค. ์ต์ข ํ๋์ a = \mu_\theta(o) + \text{clip}(\hat{\epsilon}, -0.5, 0.5)๊ฐ ๋ฉ๋๋ค. ์ด๋ ํ์์ ์ฌ๋ฐ๋ฅธ ๊ฑด๋ฐ์ ๋๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ํ๋ ๊ฒฝ๋ ํด๋ฆฌ์คํฑ์ ๋๋ค.
III. ์คํ ๊ฒฐ๊ณผ
HandelBot์ 5๊ฐ์ ๋ค์ํ ๊ณก(Twinkle Twinkle, Ode to Joy, Hot Cross Buns, Fur Elise, Prelude in C)์ ๋ํด ์์ ๋ก๋ด ์์คํ ์ผ๋ก ํ๊ฐ๋์์ต๋๋ค.
- ํ๋์จ์ด ์ค์ : Tesollo DG-5F ์๊ณผ Franka Emika Panda ์ ๋ฐ FR3 ์์ ์ฌ์ฉํฉ๋๋ค. MIDI ํค๋ณด๋๋ฅผ ํตํด ์ด๋ค ๋ ธํธ๊ฐ ๋๋ ธ๋์ง ๊ฐ์งํ์ฌ ๋ณด์ ๊ณ์ฐ์ ํ์ฉํฉ๋๋ค.
- ์์ ๋ฐ ๋ฐฐํฌ: PyRoki [67]๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ๊ณ , ์ ์ฑ ํ๋์ 10Hz์์ ์์ฑ๋ ํ 80Hz๋ก ์ ํ ๋ณด๊ฐ๋ฉ๋๋ค. ์์ Polymetis ์ปจํธ๋กค๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ 100Hz๋ก ์ ์ด๋ฉ๋๋ค.
- ์ฃผ์ ๊ฒฐ๊ณผ (Fig. 4): HandelBot์ ๋ชจ๋ ํ๊ฐ๋ ์์
์์ ์ผ๊ด์ ์ผ๋ก ๊ฐ์ฅ ๋์ F1 ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ง ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ(์: \pi_{sim}(CL) ๋ฐ \pi_{sim})์ ์ฌ-ํฌ-๋ฆฌ์ผ ๊ฐญ์ผ๋ก ์ธํด ์ฑ๋ฅ์ด ํ์ ํ ๋ฎ์์ต๋๋ค.
policy refinement๋ ์๊ฐ๋ฝ ๋๋ฆ์ ์ฌ๋ฐ๋ฅธ ๋ชฉํ ํค์ ์ง์ ์ ๋ ฌํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ฉฐ,residual RL์ ์ค๋ฅ๋ฅผ ํด๊ฒฐํ๊ณ ๋ฌผ๋ฆฌ์ dynamics์ ์ ์ํ์ฌ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. - ์์ฐจ RL์ ์ค์์ฑ (Table I, II): ์ด๊ธฐํ๋ ๊ถค์ (refined trajectory > \pi_{sim} > no initialization) ์์ residual RL์ ํ์ตํ๋ ๊ฒ์ด ๋ ๋์ F1 ์ ์๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ ์ ๋ ์ ์ฑ
์ด ํ์ ๊ณต๊ฐ์ ์ค์ฌ ๋ ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ํ๋ จ์ผ๋ก ์ด์ด์ง๋ค๋ ๊ฐ์ค์ ๋ท๋ฐ์นจํฉ๋๋ค. RL discount factor \gamma๊ฐ ๋ฎ์ผ๋ฉด F1 ์ ์๊ฐ ๋ฎ์์ง๊ณ ์์ง์์ด ๋ถ๊ท์นํด์ง๋๋ค.
guided noise๋ default ์ค์ (Pr(\text{guided noise}) = 0.5)์ดPr(guided noise) = 0๊ณผ ์ ์ฌํ์ง๋ง, ํญ์guided noise๋ฅผ ์ํ๋งํ๋ ๊ฒ์ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ก๋๋ฐ, ์ด๋ ์๊ฐ๋ฝ ํ์์ด ํธํฅ๋์ด ์ต์ ์ด ์๋ ๋ฐ์ดํฐ๋ก๋ถํฐ์ ํ์ต์ ๋ฐฉํดํ๊ธฐ ๋๋ฌธ์ผ๋ก ์ถ์ ๋ฉ๋๋ค. - ํ์ ๋ฃจํ Sim-to-Real (Table I): ํ์ด๋ธ๋ฆฌ๋ ์คํ(hybrid execution)์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ํ์ค ํ๊ฒฝ๊ณผ ๋ณ๋ ฌ๋ก ์คํํ์ฌ ์๋ฎฌ๋ ์ด์ ๊ด์ธก์ ์ฌ์ฉํจ์ผ๋ก์จ ์ฌ-ํฌ-๋ฆฌ์ผ ๊ฐญ์ ์ํํ๋ ๋ฐฉ์์ ๋๋ค. ํ์ด๋ธ๋ฆฌ๋ ์คํ์ด ์ง์ ์ ์ก๋ณด๋ค ๊ฐ์ ์ ๋ณด์์ง๋ง, ํ์ค ์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ HandelBot ๋ฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ๋ ์ฌ์ ํ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์ปธ์ต๋๋ค.
IV. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
HandelBot์ ์๋ฎฌ๋ ์ด์ ์์์ ๊ฐํ ํ์ต, ์ ์ฑ ์ ์ , ๊ทธ๋ฆฌ๊ณ ์์ฐจ ๊ฐํ ํ์ต์ ํตํด ๋ก๋ด ํผ์๋ ธ ์ฐ์ฃผ์ ๊ทน๋์ ์ ๋ฐ๋ ์๊ตฌ ์ฌํญ์ ํด๊ฒฐํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ทจ์ฝํ๊ณ ๋ถ์์ ํ ์๋ฎฌ๋ ์ด์ ์ ์ฑ ์ ๋จ 30๋ถ์ด๋ผ๋ ์ ์ ์์ ํ์ค ์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํจ์ฌ ๊ฒฌ๊ณ ํ ํผ์๋ ธ ์ฐ์ฃผ ๋ก๋ด์ผ๋ก ๋ณํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
ํ๊ณ์ :
- HandelBot์ ์คํฌ๋ฆฝํธ๋ end-effector ์์ง์๊ณผ ๊ณ ์ ๋ orientation์ ์์กดํ์ฌ ๋งค๋ฒ ์๋ ํ๋์ด ํ์ํฉ๋๋ค. End-effector ์์ง์์ ๋ํ residual RL์ ์ด ๋ฌธ์ ๋ฅผ ์ค์ผ ์ ์์ ๊ฒ์ ๋๋ค.
- ์ด๋ฌํ ์ ์ฝ์ผ๋ก ์ธํด ์์ง์๊ฐ๋ฝ๊ณผ ์๋ผ์๊ฐ๋ฝ์ ์ฌ์ฉ์ด ์ด๋ ค์์ ธ ๋น๊ต์ ๊ฐ๋จํ ๊ณก์ผ๋ก๋ง ํ๊ฐ๊ฐ ์ด๋ฃจ์ด์ก์ต๋๋ค. ํฅํ ์์ ์์๋ ๋ ๋ณต์กํ ๊ณก์ ์ํด ํ์ ๋๋ ํ์ต๋ ์์ง์์ ํ์ํ ์ ์์ต๋๋ค.
- ์ ์ฑ ์ ์ ๋จ๊ณ๋ ์ธ๊ฐ์ด ๊ฐ์ด๋ํ๋ ํด๋ฆฌ์คํฑ์ ์์กดํฉ๋๋ค. ์ด๋ ํผ์๋ ธ ์ฐ์ฃผ์๋ ์ ํฉํ์ง๋ง, ๋ค๋ฅธ ํ์คํฌ์๋ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(vision-language models)๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํตํด ๋ค๋ฅธ ํ์คํฌ์์๋ ์ ์ฑ ์ ์ ๊ฐ ๊ฐ๋ฅํ ์ ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
- Structured refinement ๋จ๊ณ์์ ๋ฌผ๋ฆฌ์ rollout ๊ธฐ๋ฐ์ผ๋ก lateral finger joint๋ฅผ ์กฐ์ ํ์ฌ ๊ณต๊ฐ์ misalignment๋ฅผ ๋ณด์
- Residual RL๋ก fine-grained corrective action์ ์์จ์ ์ผ๋ก ํ์ต
- ๋ฐ๋ฆฌ๋ฏธํฐ ์์ค์ ์ ๋ฐ๋๊ฐ ์๊ตฌ๋๋ ์์(bimanual) ํผ์๋ ธ ์ฐ์ฃผ๋ฅผ 5๊ณก์ ๊ฑธ์ณ ์ฑ๊ณต์ ์ผ๋ก ์์ฐ
- Sim2Real ๊ฐญ์ ๋น ๋ฅธ ์ ์์ผ๋ก ๊ทน๋ณตํ๋ ์ค์ฉ์ ์ ๊ทผ๋ฒ ์ ์