๐RoTO ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ก ์ด ์ฐ๊ตฌ๋ ์๊ฐ ๋๋ ์ด์์ ์ธ ์ํ ์ ๋ณด์ ๋ํ ์์กด๋๋ฅผ ์ค์ด๊ธฐ ์ํด ๋ก๋ด ์ ์ด์์ ์ด๊ฐ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RL)์ ํจ์จ์ฑ์ ๋์ด๋ self-supervised learning(SSL) ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
- ๐ค Proprioception๊ณผ sparse binary contact์ ์ด์ ์ ๋ง์ถฐ, ์ด ๋ฐฉ๋ฒ๋ก ์ ๊ณ ์ ์์ฉ์ฑ ์ ์ด ์ค๋ฅ๊ฐ ๊ฐ์งํ์ง ๋ชปํ๋ ๋ก๋ด-๊ฐ์ฒด ๋ถ๋ฆฌ ์์ง์๊ณผ ๊ฐ์ ์ํฉ์์ ์ด๊ฐ ์ ํธ๊ฐ ์ ๊ตํ ์กฐ์(dexterity)์ ์ค์ํจ์ ์ ์ฆํ์ต๋๋ค.
- ๐ ํนํ Forward Dynamics(FD) SSL objective๋ฅผ ํตํด ์์ด์ ํธ๋ Robot Tactile Olympiad (RoTO) ๋ฒค์น๋งํฌ์ ๋ณต์กํ ์ ์ด ์์ ์์ ์ด์ธ์ ์ธ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, SSL ๋ฉ๋ชจ๋ฆฌ๋ฅผ on-policy ๋ฉ๋ชจ๋ฆฌ๋ก๋ถํฐ ๋ถ๋ฆฌํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ฌํจ์ ๋ณด์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ์ด๊ฐ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(RL)์ ์ฑ๋ฅ ํฅ์์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ์ ์๋ค์ ์๊ฐ ์ ๋ณด์ ์์กดํ๋ ๊ธฐ์กด ๋ก๋ด ์กฐ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์ค์ ํ๊ฒฝ์์์ ์์ ํ๊ณ ์ ๋ขฐ์ฑ ์๋ ๋ก๋ด ์กฐ์์ ์ํด ์ด๊ฐ ์ผ์ฑ์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ํนํ ์ด๊ฐ ์ผ์ฑ์ด RL์์ ์ผ๊ด๋์ง ์์ ํจ์ฉ์ฑ์ ๋ณด์ด๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๊ธฐ ์ง๋ ํ์ต(SSL) ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํ์ฌ ์ด๊ฐ ๊ด์ฐฐ์ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ proprioception๊ณผ sparse binary contact๋ผ๋ ํ์ฅ ๊ฐ๋ฅํ ์ผ์ ์ค์ ์ ์ฌ์ฉํ๋ฉฐ, ์ด๋ฌํ ์ด์ง ์ด๊ฐ ์ ํธ๊ฐ ํนํ ๋ก๋ด-๊ฐ์ฒด ๊ฐ์ ๋น๋๊ธฐ์ ์์ง์๊ณผ ๊ฐ์ด proprioceptive ์ ์ด ์ค๋ฅ๋ก๋ ๊ฐ์งํ๊ธฐ ์ด๋ ค์ด ์ํธ์์ฉ์์ ๋ก๋ด์ ์ ๊ตํจ์ ์ํด ํ์์ ์์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก
๋ณธ ์ฐ๊ตฌ๋ ๋ถ๋ถ ๊ด์ฐฐ ๊ฐ๋ฅ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (POMDP)์ ๋ฌธ์ ์ค์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ์์ด์ ํธ๋ ๊ด์ฐฐ o_t๋ฅผ ๋ฐ์ต๋๋ค. o_t๋ proprioceptive (๊ด์ ๊ฐ๋ \theta, ๊ด์ ์๋ \dot{\theta}, ์ด์ ํ๋ a_{t-1}, ๊ทธ๋ฆฌ๊ณ ํ์ํ ๊ฒฝ์ฐ ๋ง๋จ ์ฅ์น ์์ธ x_{EE}, q_{EE}) ๋ฐ ์ด๊ฐ (์ด์ง ์ ์ด b \in \{0, 1\}^{N_{sensors}}) ์์์ k-๋จ๊ณ ์ด๋ ฅ์ ์ฐ๊ฒฐํ ๊ฒ์ ๋๋ค. ์์ด์ ํธ๋ ๊ด์ฐฐ ์ธ์ฝ๋ e, ์ ์ฑ \pi, ๊ฐ์น ํจ์ v์ ์ธ ๊ฐ์ง MLP๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ด์ฐฐ ์ธ์ฝ๋๋ ๋ณตํฉ ๊ฐ๊ฐ ์ ๋ ฅ์ z_t๋ผ๋ ์์ถ๋ ํํ์ผ๋ก ๋ณํํ๋ฉฐ, ์ ์ฑ ๊ณผ ๊ฐ์น ํจ์๋ ์ด z_t์ ์กฐ๊ฑด์ ๋ถ์ฌํ์ฌ ๋์ํฉ๋๋ค. ํ์ต์ Proximal Policy Optimisation (PPO) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ฉฐ, ํํ ํ์ต์ ์ํ ์๊ธฐ ์ง๋ ๋ณด์กฐ ์์ค L_{aux}๊ฐ ์ถ๊ฐ๋ฉ๋๋ค.
์ด ์์ค ํจ์ L์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: L_{PPO}(\theta_e, \theta_\pi, \theta_v) = L_{CLIP}^\pi(\theta_e, \theta_\pi) - c_V L_V(\theta_e, \theta_v) + c_{ent}L_{entropy}(\theta_e, \theta_\pi) L = L_{PPO}(\theta_e, \theta_\pi, \theta_v) + c_{aux}L_{aux}(\theta_e, \theta_{aux}) ์ฌ๊ธฐ์ \theta_e, \theta_\pi, \theta_v๋ ๊ฐ๊ฐ ์ธ์ฝ๋, ์ ์ฑ , ๊ฐ์น ํจ์์ ํ๋ผ๋ฏธํฐ์ด๋ฉฐ, \theta_{aux}๋ ๋ณด์กฐ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ์ ๋๋ค.
์ ์๋ค์ ๋ค ๊ฐ์ง ์๊ธฐ ์ง๋ ํ์ต ๋ชฉ์ ํจ์ L_{aux}๋ฅผ ์ ์ํฉ๋๋ค:
์ด๊ฐ ์ฌ๊ตฌ์ฑ (Tactile Reconstruction, TR): ์์ ์ ์ธ proprioceptive ์ด๋ ฅ์ ํน์ง์ ์กฐ๊ธฐ์ ํธํฅ๋๋ ๊ฒฝํฅ์ ์ํํ๊ธฐ ์ํด, ํ์ต๋ ๋ค์ค ๋ชจ๋ ํํ z_t๋ก๋ถํฐ ์ด๊ฐ ๊ด์ฐฐ o_t^{tact}๋ง์ ๋ ์ ์ ์ผ๋ก ๋์ฝ๋ฉํ๋ ๋ชฉ์ ํจ์๋ฅผ ๋์ ํฉ๋๋ค. ์ด์ง ์ ๋ ฅ์ด๋ฏ๋ก ์ด์ง ๊ต์ฐจ ์ํธ๋กํผ(BCE) ์์ค์ ์ฌ์ฉํฉ๋๋ค. ์ ์ด ๋ฐ์ดํฐ์ ํฌ์์ฑ์ ๊ณ ๋ คํ์ฌ ์คํ(missed contacts)์ ๋ ํฐ ํจ๋ํฐ๋ฅผ ์ฃผ๊ธฐ ์ํด ์์ฑ ๊ฐ์ค์น p_c=10์ ์ ์ฉํฉ๋๋ค. L_{TR} = \text{BCE}(\hat{o}_t^{tact}, o_t^{tact}) = -(p_c \cdot o_t^{tact} \cdot \log(\hat{o}_t^{tact}) + (1 - o_t^{tact}) \cdot \log(1 - \hat{o}_t^{tact}))
์ ์ฒด ์ฌ๊ตฌ์ฑ (Full Reconstruction, FR): TR ์์ค๊ณผ ์ฐ์์ ์ธ proprioceptive ๊ด์ฐฐ o_t^{prop}์ ๋ํ ํ๊ท ์ ๊ณฑ ์ค์ฐจ(MSE) ์์ค์ ํฉ์ผ๋ก ์ด๊ฐ ๋ฐ proprioceptive ๊ด์ฐฐ์ ๋์์ ๋์ฝ๋ฉํ๋ ํ์ค ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฒ์ ๋๋ค. L_{FR} = L_{TR} + \text{MSE}(\hat{o}_t^{prop}, o_t^{prop})
์๋ฐฉํฅ ๋์ญํ (Forward Dynamics, FD): ๊ด์ฐฐ์ ์์ธก ๊ฐ๋ฅํ ํํ์ผ๋ก ์ถ์ถํ๋๋ก ์ฅ๋ คํ๊ธฐ ์ํด ๋ค๋จ๊ณ ์๋ฐฉํฅ ๋์ญํ์ ์ฌ์ฉํฉ๋๋ค. ํ์ฌ ์ ์ฌ ์ํ z_t์ ํ๋ a_t๊ฐ ์ฃผ์ด์ก์ ๋, ์๋ฐฉํฅ ๋ชจ๋ธ f๋ ๋ค์ ์ ์ฌ ์ํ \hat{z}_{t+1} = f(z_t, a_t)๋ฅผ ์์ธกํฉ๋๋ค. ์ด ์์ธก์ ์๊ธฐ ํ๊ท์ ์ผ๋ก ์ ์ฒด ์ํ์ค๋ฅผ ์์ธกํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์์ ์ ์ธ ํ์ต ์ ํธ๋ฅผ ์ํด, ์์ธก์ ์ค์ ์ธ์ฝ๋ e์ ์ง์ ์ด๋ ํ๊ท (EMA)์ผ๋ก ์ ์ง๋๋ ํ๊ฒ ์ธ์ฝ๋ e_T๋ก ์์ฑ๋ ํ๊ฒ ์ ์ฌ ์ํ z_{t+i}^T = e_T(o_{t+i})์ ๋น๊ต๋ฉ๋๋ค. L_{FD} = \sum_{i=1}^{n-1}\text{MSE}\left(p(\hat{z}_{t+i}), z_{t+i}^T\right)
์ด๊ฐ ์๋ฐฉํฅ ๋์ญํ (Tactile Forward Dynamics, TFD): ํ์ต๋ ๋์ญํ ์ ์ฌ ๊ณต๊ฐ์ด ์ด๊ฐ ๋์ญํ๋ ๋ชจ๋ธ๋งํ๋๋ก ๋ณด์ฅํ๊ธฐ ์ํด FD ์์ค์ ๋ฏธ๋ ์ด๊ฐ ๊ด์ฐฐ์ ์ฌ๊ตฌ์ฑํ๋ TR ์์ค์ ์ถ๊ฐํฉ๋๋ค. L_{TFD} = L_{FD} + \sum_{i=1}^{n-1}\text{BCE}(\hat{o}_{t+i}^{tact}, o_{t+i}^{tact})
๋ํ, ๋ณธ ๋ ผ๋ฌธ์ ์๊ธฐ ์ง๋ ํ์ต ๋ฉ๋ชจ๋ฆฌ๋ฅผ on-policy ๋ฉ๋ชจ๋ฆฌ๋ก๋ถํฐ ๋ถ๋ฆฌํ์ฌ ๋ณด์กฐ ์ ๋ฐ์ดํธ๋ฅผ ์์ ํํ๊ณ ๋ ๋์ ๋ฐ์ดํฐ ๋ถํฌ์์ ์ต์ ํํจ์ผ๋ก์จ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ํนํ ๋ณต์กํ Baoding ์์ ์์ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ๊ฐ์ ธ์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ฐ ๊ฒฐ๋ก
์คํ์ Isaac Lab์์ ๊ตฌํ๋ ์ธ ๊ฐ์ง ๋ง์ถคํ ๋ก๋ด ์กฐ์ ์์ (Find, Bounce, Baoding)์ผ๋ก ๊ตฌ์ฑ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ Robot Tactile Olympiad (RoTO)์์ ์ํ๋์์ต๋๋ค. ์ฃผ์ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: * ํฌ์ํ ์ด์ง ์ด๊ฐ ์ ํธ๊ฐ proprioceptive ์ด๋ ฅ๋ง์ผ๋ก๋ ๋ฌ์ฑํ ์ ์๋ ์ ๊ตํจ์ ์ ๊ณตํจ์ ์ ์ฆํ์ต๋๋ค. ํนํ, ๋ก๋ด๊ณผ ๊ฐ์ฒด ๊ฐ์ ๋น๋๊ธฐ์ ์์ง์, ๋ฎ์ ๊ด์ฑ ๊ฐ์ฒด, ์ ์ด ๊ณต๊ฐ ๋ชจํธ์ฑ, ๋ค์ค ์ ์ด ํด์๋์ ๊ฐ์ด proprioceptive ์ ์ด ์ค๋ฅ๋ก๋ ๋ชจ๋ ํ๊ฒฝ ๋์ญํ์ ์ ๋ขฐ์ฑ ์๊ฒ ๋ฑ๋กํ ์ ์๋ ์๋๋ฆฌ์ค์์ ์ด๊ฐ ์ ๋ณด์ ์ค์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. * ์ ํ๋ ๊ฐ๊ฐ ์ค์ (proprioception ๋ฐ 17๊ฐ์ ์ด์ง ์ ์ด)๋ง์ผ๋ก ๋ณต์กํ ์ ์ด ์์ ์์ ์ธ๊ฐ ์ด์์ ์ธ(superhuman) ์๋ฎฌ๋ ์ด์ ๋ ์ ๊ตํจ์ ๋ฌ์ฑํ์ต๋๋ค. * ์ ์๋ ๋ค ๊ฐ์ง SSL ๋ชฉ์ ํจ์ ์ค์์ ์๋ฐฉํฅ ๋์ญํ(FD)์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ฉฐ, ๊ฐ์ฒด ์์น์ ์๋๋ฅผ ์ธ์ฝ๋ฉํ๋ ํํ์ ์์ฑํจ์ ์ ์ฆํ์ต๋๋ค. * SSL ํ๋ จ ๋ฐ์ดํฐ๋ฅผ on-policy ๋ฉ๋ชจ๋ฆฌ๋ก๋ถํฐ ๋ถ๋ฆฌํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, off-policy ๊ฒฝํ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ด๊ฐ ๊ธฐ๋ฐ RL์ ์ผ๊ด๋์ง ์์ ํจ์ฉ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ์ค์ ๋ก๋ด ์กฐ์์ ์ด๊ฐ ์ผ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ธฐ ์ํ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๋ค์ด๊ฐ๋ฉฐ: ์ ์ด๊ฐ์ธ๊ฐ?
๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ๋ถ์ผ์์ ์ฐ๋ฆฌ๋ ์ค๋ซ๋์ โ๋น์ (vision)โ์ ์์กดํด์์ต๋๋ค. RGB ์นด๋ฉ๋ผ, ๋์ค ์ผ์, ํฌ์ธํธํด๋ผ์ฐ๋โฆ ์ด ๋ชจ๋ ์๊ฐ์ ์ ๋ณด๊ฐ ๋ก๋ด์ ๋์ด ๋์ด์์ฃ . ํ์ง๋ง ํ ๋ฒ ์๊ฐํด๋ณด์ธ์. ์ธ๊ฐ์ด ์ด๋์ด ๋ฐฉ์์ ์ด์ ๋ฅผ ์ฐพ๊ฑฐ๋, ์ฃผ๋จธ๋ ์์์ ๋์ ์ ๊ตฌ๋ณํ๊ฑฐ๋, ์ฐ์ฝํ ๊ณ๋์ ๊นจ์ง ์๊ณ ์ง์ ๋โ์ฐ๋ฆฌ๋ ๋์ด ์๋ ์๋์ ์ด๊ฐ์ ์์กดํฉ๋๋ค.
Edinburgh ๋ํ์ Elle Miller ์ฐ๊ตฌํ์ ์ด ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์์ ์ถ๋ฐํฉ๋๋ค: โ๋ก๋ด์ด ์ง์ ์ผ๋ก ์ธ๊ฐ์ฒ๋ผ ์ฌ์ธํ ์กฐ์์ ์ํํ๋ ค๋ฉด, ๋จ์ํ ๋ณด๋ ๊ฒ์ ๋์ด ๋๋ ์ ์์ด์ผ ํ์ง ์์๊น?โ
์ด ๋ ผ๋ฌธ์ ์ด๊ฐ ๊ธฐ๋ฐ ๊ฐํํ์ต(Tactile-based RL)์ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ์๊ธฐ์ง๋ํ์ต(Self-Supervised Learning, SSL) ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๊ณ , ๊ธฐ์กด ์ฐ๊ตฌ๋ค์์ ๋ณด๊ณ ๋ ์ด๊ฐ ์ผ์ฑ์ ๋ถ์ผ์นํ ํจ๊ณผ์ ๋ํ ๋ช ํํ ํด๋ต์ ์ ์ํฉ๋๋ค. ๋ ๋์๊ฐ, ๊ณต ๋ฐ์ด์ฑ๊ณผ Baoding ball ํ์ ์ด๋ผ๋ ๊ณ ๋๋ ์ ์ด ํ์คํฌ์์ ์ธ๊ฐ์ ์ด์ํ๋(superhuman) ์์ฌ์ฃผ๋ฅผ ์์ฐํ๋ฉฐ, ์ด๊ฐ ์กฐ์ ์ฐ๊ตฌ๋ฅผ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ Robot Tactile Olympiad (RoTO)๋ฅผ ๊ณต๊ฐํฉ๋๋ค.
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์ด๊ฐ RL์ ํ์ฃผ์์ ํด๊ฒฐ๋์ง ์์ ๋ฌธ์ ๋ค
1.1 ์ ์ด๊ฐ ๊ธฐ๋ฐ RL์ธ๊ฐ?
๋งค๋ํฐ๋ ์ด์ (manipulation)์ ์ ์ ์์ฒด๊ฐ โ์ ํ์ ์ ์ด์ ํตํ ์ ์ดโ์ ๋๋ค. ๋ฌผ์ฒด๋ฅผ ์ก๊ณ , ๋๊ณ , ๋๋ฆฌ๊ณ , ์กฐ์ํ๋ ๋ชจ๋ ๊ณผ์ ์ ์ ์ด์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ํ์ฌ ๋๋ถ๋ถ์ ์์ฌ์ฃผ ์๋(dexterous) ๋ก๋ด ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ ํ๊ณ์ ์ง๋ฉดํด ์์ต๋๋ค:
์ด์ํ๋ ์ํ ์ ๋ณด์ ๋ํ ์์กด: OpenAI์ ์ ๋ช ํ in-hand manipulation ์ฐ๊ตฌ๋ ๋ฌผ์ฒด์ ์๊ฐ๋ฝ ์์น ์ถ์ ์ ์ํด ๋ฌด๋ ค 19๋์ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ค์ ํ๊ฒฝ์์ ์ด๋ฐ ์ค์ ์ ๋นํ์ค์ ์ ๋๋ค.
Teacher-Student ๋คํธ์ํฌ์ ํ๊ณ: ๋ง์ ์ฐ๊ตฌ๋ค์ด ์๋ฎฌ๋ ์ด์ ์์ privileged information(ํน๊ถ ์ ๋ณด)์ผ๋ก teacher๋ฅผ ํ์ต์ํค๊ณ , ์ด๋ฅผ sensory-only student๋ก ์ฆ๋ฅ(distillation)ํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ์ด๋ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ถฉ๋ถํ ์ ์ด๊ฐ ๊ฐ๋ฅํ๋ค๋ ๊ฐ์ ์ ๊ฒ์ฆํ์ง ์์ต๋๋ค.
์ด๊ฐ ๋ฐ์ดํฐ์ ์์ง ์ด๋ ค์: ์์ฐ ๋ฐ์ดํฐ ์์ง ์ ์ด๊ฐ ์ ๋ณด๋ฅผ ํจ๊ป ๊ธฐ๋กํ๊ธฐ๊ฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์, ๊ฐํํ์ต์ด ์ด๊ฐ ๊ธฐ๋ฐ ๋งค๋ํฐ๋ ์ด์ ์ ์ฃผ์ ํ๋ณด๋ก ๋ ์ค๋ฆ ๋๋ค.
1.2 ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ชจ์๋ ๊ฒฐ๊ณผ๋ค
์ด๊ฐ ๊ธฐ๋ฐ RL์ ๋ํ 10๋ ์ด์์ ์ฐ๊ตฌ์๋ ๋ถ๊ตฌํ๊ณ , ๊ทธ ํจ๊ณผ์ ๋ํ ๋ฌธํ์ ์ฆ๊ฑฐ๋ ๋ชจ์์ ์ ๋๋ค:
- ๊ธ์ ์ ๊ฒฐ๊ณผ: ์ผ๋ถ ์ฐ๊ตฌ๋ค์ ์ด๊ฐ ์ ๋ณด ์ถ๊ฐ ์ ์ฑ๋ฅ ํฅ์์ ๋ณด๊ณ
- ๋ถ์ ์ /์ค๋ฆฝ์ ๊ฒฐ๊ณผ: ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ ์ด๊ฐ ์ถ๊ฐ๊ฐ ๋ณ๋ค๋ฅธ ์ด์ ์ด ์๊ฑฐ๋ ์ฌ์ง์ด ์ฑ๋ฅ์ ์ ํ์ํจ๋ค๊ณ ๋ณด๊ณ
- ๊ทน๋จ์ ์ฃผ์ฅ: Qi et al. (2023)์ binary contacts๊ฐ ์ด๋ฏธ proprioceptive history์ ์๋ฌต์ ์ผ๋ก ํฌํจ๋์ด ์๋ค๊ณ ์ฃผ์ฅํ๊ธฐ๋ ํ์ต๋๋ค
์ด๋ฐ ๋ชจ์์ ์์ธ์ ๋ฌด์์ผ๊น์?
1.3 ํต์ฌ ๊ฐ์ค: ์ด๊ฐ ๋ฐ์ดํฐ์ ๋ ํนํ ํน์ฑ
Miller ์ฐ๊ตฌํ์ ์ด ๋ชจ์์ ์์ธ์ด ์ด๊ฐ ํผ๋๋ฐฑ์ด deep RL์ ์ ์ํ๋ ๊ณ ์ ํ ๋ฐ์ดํฐ ํน์ฑ์ ์๋ค๊ณ ๊ฐ์ค์ ์ธ์๋๋ค:
- ํฌ์์ฑ(Sparsity): ์ด๊ฐ ์ธก์ ๊ฐ์ ์ ์ด ์์๋ง ์กด์ฌํ๊ณ , ๋๋ถ๋ถ์ ์๊ฐ์ 0์ ๋๋ค
- ๋น์ฐ์์ฑ(Non-smoothness): ์ ์ด/๋น์ ์ด์ ๊ธ๊ฒฉํ ์ ํ์ผ๋ก ์ธํ ๋ถ๊ท ํ ๋ฐ์ดํฐ์
- ํ์ต ๋ถ์์ ์ฑ: ์ฐ์์ ์ธ proprioceptive ์ ํธ์ ๋นํด ํ์ตํ๊ธฐ ์ด๋ ค์
๊ฒฐ๊ณผ์ ์ผ๋ก, deep RL ์์ด์ ํธ๊ฐ ์์ ์ด๊ฐ ๋ฐ์ดํฐ์์ ์ ์ฉํ ํํ์ ์ถ์ถํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์ด, ์ฐ์์ ์ธ proprioceptive ์ ํธ์๋ง ์์กดํ๋ ์ฐจ์ ์ ์ ์ฑ ์ผ๋ก ์กฐ๊ธฐ ์๋ ดํ๊ฒ ๋ฉ๋๋ค.
2. ์ ์ ๋ฐฉ๋ฒ๋ก : ์๊ธฐ์ง๋ํ์ต์ผ๋ก ์ด๊ฐ ํํ ๊ฐํํ๊ธฐ
2.1 ๋ฌธ์ ์ค์ : ๋ถ๋ถ ๊ด์ธก MDP
์ฐ๊ตฌํ์ ํน์ํ ํํ์ Partially-Observable MDP (POMDP)๋ฅผ ์ ์ํฉ๋๋ค:
- ๊ด์ธก(Observation): k-timestep ํ์คํ ๋ฆฌ์ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ ํ๋
๊ฐ
- Proprioceptive: ๊ด์ ๊ฐ๋(ฮธ), ๊ด์ ์๋(ฮธฬ), ์ด์ ํ๋(a_{t-1}), ์๋์ดํํฐ ํฌ์ฆ
- Tactile: Binary contacts b โ {0, 1}^{N_sensors}
ํต์ฌ์ ๋น์ ์ด๋ privileged information ์์ด, ์ค์ง ๊ณ ์ ์์ฉ๊ฐ๊ฐ(proprioception)๊ณผ sparse binary contacts๋ง ์ฌ์ฉํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ์๋์ ์ธ ์ค๊ณ ์ ํ์ธ๋ฐ:
- Sim-to-real ๊ฐญ ์ต์ํ: Binary contact๋ ์ฐ์ ์ธก์ ๊ฐ์ ์ผ์ ๋ ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ํํผ
- ํ์ฅ์ฑ: ๊ฐ์ฅ ๋จ์ํ๊ณ ์ ๋ ดํ ์ด๊ฐ ์ค์
- ์์ ์ด๊ฐ ํจ๊ณผ ๊ฒ์ฆ: ๋น์ ๋ฑ ๋ณด์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ฐ์ญ ๋ฐฐ์
2.2 ๋คํธ์ํฌ ์ํคํ ์ฒ
์์ด์ ํธ๋ ์ธ ๊ฐ์ MLP๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
Observation Encoder (e): o_t โ 1024 โ 512 โ 256 โ z_t Policy (ฯ): z_t โ 128 โ 64 โ a_t Value Function (v): z_t โ 128 โ 64 โ V(o_t)
PPO(Proximal Policy Optimization)์ ํด๋ฆฝ ๋ณํ์ ์ฌ์ฉํ๋ฉฐ, ์๊ธฐ์ง๋ ๋ณด์กฐ ์์ค(L_aux)๋ก ํํ ํ์ต์ ๊ฐํํฉ๋๋ค:
L = L_PPO(ฮธ_e, ฮธ_ฯ, ฮธ_v) + c_aux ยท L_aux(ฮธ_e, ฮธ_aux)
2.3 ๋ค ๊ฐ์ง ์๊ธฐ์ง๋ ๋ชฉ์ ํจ์
์ฐ๊ตฌํ์ ์ด๊ฐ ์์ด์ ํธ๋ฅผ ์ํ 4๊ฐ์ง SSL ๋ชฉ์ ํจ์๋ฅผ ์ ์ํ๊ณ ๋ถ์ํฉ๋๋ค:
2.3.1 Tactile Reconstruction (TR)
ํต์ฌ ์์ด๋์ด: Gradient ๊ธฐ๋ฐ ์ต์ ํ๊ฐ ์์ ์ ์ธ proprioceptive history์ ํน์ง์ ์ ํธํ์ฌ ๋ณต์กํ ์ด๊ฐ ์ ๋ ฅ์ ๋ฌด์ํ๋ ๊ฒฝํฅ์ ์ํ
๊ตฌํ: - ํ์ต๋ ๋ฉํฐ๋ชจ๋ฌ ํํ z_t์์ ์ด๊ฐ ๊ด์ธก o^{tact}_t๋ง์ ๋์ฝ๋ฉ - Binary ์ ๋ ฅ์ด๋ฏ๋ก Binary Cross-Entropy(BCE) ์์ค ์ฌ์ฉ - ์ค์: ํฌ์ํ binary contact ๋ฐ์ดํฐ์ ๋ถ๊ท ํ์ ํด์ํ๊ธฐ ์ํด positive weighting p_c = 10 ์ ์ฉ (false negative ํ๋ํฐ ๊ฐํ)
L_TR = BCE(รด^{tact}_t, o^{tact}_t) = -(p_c ยท o^{tact}_t ยท log(รด^{tact}_t) + (1 - o^{tact}_t) ยท log(1 - รด^{tact}_t))
2.3.2 Full Reconstruction (FR)
๋น๊ต ๊ธฐ์ค์ : ์ด๊ฐ๊ณผ proprioceptive ๊ด์ธก์ ๋์์ ๋์ฝ๋ฉ
L_FR = L_TR + MSE(รด^{prop}_t, o^{prop}_t)
2.3.3 Forward Dynamics (FD)
ํต์ฌ ์์ด๋์ด: ์ํ ์ ์ด์์ ๋ฌผ์ฒด ์๋๋ ๋ง์ฐฐ ๊ฐ์ ์ค์ํ ํน์ง์ ์ธ์ฝ๋ฉํ๋๋ก ์ ๋
๊ตฌํ: - ํ์ฌ ๊ด์ธก์์ ๋ฏธ๋ ์ฌ๋ฌ timestep์ ํํ์ ์์ธกํ๋๋ก ์ธ์ฝ๋ ํ์ต - ๋ฉ๋ชจ๋ฆฌ์์ ๊ธธ์ด n์ ์ํ์ค (o_t, a_t, โฆ, o_{t+n-1}, a_{t+n-1}) ์ํ๋ง - Forward model f๊ฐ ์๊ธฐํ๊ท์ ์ผ๋ก ๋ฏธ๋ latent state ์์ธก - Target encoder: ์ค์ ์ธ์ฝ๋์ EMA(Exponential Moving Average)๋ก ์์ ์ ํ์ต ์ ํธ ์ ๊ณต - Projector: ์์ธก ํ์ต๊ณผ ๋ค์ด๋๋ฏน์ค ํ์ต์ ๋ถ๋ฆฌํ๊ธฐ ์ํด ๋น์ ํ ํ๋ก์ ์ ์ ์ฉ
L_FD = ฮฃ_{i=1}^{n-1} MSE(p(แบ_{t+i}), z^T_{t+i})
2.3.4 Tactile Forward Dynamics (TFD)
ํต์ฌ ์์ด๋์ด: ํ์ต๋ dynamics latent space๊ฐ ์ด๊ฐ dynamics๋ ๋ชจ๋ธ๋งํ๋๋ก ๋ณด์ฅ
๊ตฌํ: Forward dynamics ์์ค์ ๋ฏธ๋ ์ด๊ฐ ์ํ ์ฌ๊ตฌ์ฑ ์์ค ์ถ๊ฐ
L_TD = L_FD + ฮฃ_{i=1}^{n-1} BCE(รด^{tact}_{t+i}, o^{tact}_{t+i})
2.4 ๋ถ๋ฆฌ๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ (Separated Auxiliary Memory)
On-policy RL๊ณผ ๋ณด์กฐ ๋ชฉ์ ํจ์๋ฅผ ๋์ผํ rollout ๋ฐ์ดํฐ์์ ๊ณต๋ ์ต์ ํํ ๋, ํ์ต ๋ฐ์ดํฐ์ ๊ธ๊ฒฉํ ๋ณํ๊ฐ ๋ณด์กฐ ์์ค์ ์์ ์คํ์ดํฌ๋ฅผ ์ ๋ฐํฉ๋๋ค.
์ ์ ํด๊ฒฐ์ฑ : - ๋ณด์กฐ ํ์คํฌ์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ ํฐ ๋ณ๋ ๋ฒํผ์ ์ ์ฅ - ๋ฒํผ ํฌ๊ธฐ: [N_rollouts, B, R, โฆ] (๊ธฐ์กด on-policy ๋ฉ๋ชจ๋ฆฌ์ N_rollouts ๋ฐฐ)
๊ธฐ๋ ํจ๊ณผ: 1. ๋ณด์กฐ ์ ๋ฐ์ดํธ ์์ ํ 2. ๋ ๋์ ๋ฐ์ดํฐ ๋ถํฌ์์ ์ต์ ํ
3. Robot Tactile Olympiad (RoTO) ๋ฒค์น๋งํฌ
3.1 ์ค๊ณ ์ฒ ํ
์ฐ๊ตฌํ์ ์ด๊ฐ ๊ธฐ๋ฐ ๋งค๋ํฐ๋ ์ด์ ์ฐ๊ตฌ๋ฅผ ์ํ ํ์คํ๋ ๋ฒค์น๋งํฌ RoTO๋ฅผ Isaac Lab์์ ๊ตฌํํ์ฌ ๊ณต๊ฐํฉ๋๋ค. ์ธ ๊ฐ์ง ํ์คํฌ๋ ๋ค์ํ ์ด๊ฐ ์ํธ์์ฉ ํจํด์ ํฌ๊ดํ๋๋ก ์ค๊ณ๋์์ต๋๋ค:
| ํ์คํฌ | ์ํธ์์ฉ ํจํด | ๋ก๋ด | ์ด๊ฐ ์ผ์ ์ |
|---|---|---|---|
| Find | Sparse (ํฌ์) | Franka | 2 |
| Bounce | Intermittent (๊ฐํ์ ) | Shadow Hand | 17 |
| Baoding | Sustained (์ง์์ ) | Shadow Hand | 17 |
3.2 Find ํ์คํฌ
๋ชฉํ: 20cm ร 20cm ์์ญ ๋ด์์ ๊ณ ์ ๋ ๊ตฌ์ฒด๋ฅผ ์ฐพ๊ธฐ (300 timesteps = 5์ด)
์ค์ : - Franka ๋ก๋ด ์ฌ์ฉ, ํ๋ ๊ณต๊ฐ a_t โ โ^9 - ์๊ฐ๋ฝ์ 2๊ฐ์ ์ด๊ฐ ์ผ์ ๋ถ์ฐฉ - ๊ด์ธก ํ์คํ ๋ฆฌ ๊ธธ์ด k = 16
๋ณด์: - r_dist: ๋ฌผ์ฒด์ ์๋์ดํํฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์์ง์๋ก ์ฆ๊ฐ
3.3 Bounce ํ์คํฌ
๋ชฉํ: 10์ด(600 timesteps) ๋์ ๊ณต์ ์ต๋ํ ๋ง์ด ๋ฐ์ด์ค
์ค์ : - Shadow Hand ์ฌ์ฉ, ํ๋ ๊ณต๊ฐ a_t โ โ^20 - ๊ฐ ๋งํฌ๊ฐ ์ด๊ฐ ์ผ์ ์ญํ (17๊ฐ) - ๊ด์ธก ํ์คํ ๋ฆฌ ๊ธธ์ด k = 4 - ๊ณต ํน์ฑ: 70mm ์ง๊ฒฝ, 30g (์ฌ๋ฌด์ฉ ์คํธ๋ ์ค๋ณผ ๊ธฐ์ค)
๋ฐ์ด์ค ์ ์: ์ต์ 5 timesteps(~83ms) ์ ์ด ์๋ ๊ธฐ๊ฐ ํ์ ์ ์ด ์ด๋ฒคํธ
๋ณด์: - r_air: ์ ์ด ์๋ ์๊ฐ์ ๋น๋ก - r_bounce: ์ฑ๊ณต์ ๋ฐ์ด์ค ์ ๋ณด๋์ค - r_fall: ๊ณต์ด 24cm ์ด์ ๋ฒ์ด๋๋ฉด ํ๋ํฐ
์ธ๊ฐ ๊ธฐ๋ก: ๊ธฐ๋ค์ค ์ธ๊ณ ๊ธฐ๋ก์ 60์ด์ 353ํ โ 10์ด์ ์ฝ 59ํ
3.4 Baoding ํ์คํฌ
๋ชฉํ: 10์ด(600 timesteps) ๋์ ๋ ๊ฐ์ Baoding ball์ ์ ์์์ ์ต๋ํ ๋ง์ด ํ์
์ค์ : - Shadow Hand ์ฌ์ฉ - ๋ณผ ํน์ฑ: 1.5์ธ์น ์ง๊ฒฝ, 55g
ํ์ ์ ์: ๊ฐ ๊ณต์ด ์ด๊ธฐ ์์น๋ก ๋์์ค๋ฉด 1ํ์ - ๊ฐ์ ํ๊ฒ ์ค์ : ๋ ๊ณต์ ์ค์ฌ์ด ํ๊ฒ ์ค์ฌ์์ 1.0cm ์ด๋ด๋ฉด ํ๊ฒ ์ ํ ๋ฐ ๋ณด๋์ค
๋ณด์: - r_dist1, r_dist2: ๊ฐ ๊ณต์ ํ๊ฒ ๊ฑฐ๋ฆฌ - r_rotation: ์ฑ๊ณต์ ํ์ ์ ๋ณด๋์ค - r_fall: ๊ณต ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ 15cm ์ด๊ณผ ์ ํ๋ํฐ
์ธ๊ฐ ๊ธฐ๋ก: ์จ๋ผ์ธ์์ ์ฐพ์ ์ ์๋ ๊ฐ์ฅ ๋น ๋ฅธ ์์ฐ์ 10์ด์ 13ํ์
4. ์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
4.1 ์คํ ์ค์
ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ: - ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ ํ๊ฒฝ-๋ฐฉ๋ฒ ์กฐํฉ์ ๋ํด ๊ฐ๋ณ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ํ - Optuna TPE sampler ์ฌ์ฉ, 20 trials per sweep - ์ค์ ํ๋ผ๋ฏธํฐ: PPO ๊ด๋ จ (lr, rollout length, minibatches, learning epochs, entropy scale), SSL ๊ด๋ จ (lr_aux, c_aux), dynamics sequence length n
์ปดํจํ : 8ร NVIDIA RTX A4500, ์ด ~1,260 ์๊ฐ
4.2 RL-only ๊ฒฐ๊ณผ: ์ด๊ฐ ์ ๋ณด๋ ์ธ์ ์ ์ฉํ๊ฐ?
์ฒซ ๋ฒ์งธ ์คํ์ ์ธ ๊ฐ์ง RL-only ์์ด์ ํธ๋ฅผ ๋น๊ตํฉ๋๋ค: 1. Proprioceptive-tactile 2. Proprioceptive-only 3. Proprioceptive-only (๋ง์ง๋ง ํ๋ a_{t-1} ์ ์ธ)
Find ํ์คํฌ
- Proprioceptive-tactile์ด ์ฝ๊ฐ์ ์ํ ํจ์จ์ฑ ํฅ์๋ง ์ ๊ณต
- ์ต์ข ์ฑ๋ฅ์ proprioceptive-only์ ๋๋ฑ
- ํต์ฌ ๋ฐ๊ฒฌ: Proprioceptive ์์ด์ ํธ์ ์ฑ๊ณต์ ๋ง์ง๋ง ํ๋(a_{t-1})์ ๊ฒฐ์ ์ ์ผ๋ก ์์กด
- ์ ์ด ์ค๋ฅ๋ฅผ ํตํ ์๋ฌต์ ๋ฌผ์ฒด ์ ์ด ์ถ๋ก ๊ฐ๋ฅ
- ์ ์ฑ ๊ฒ์ฌ ๊ฒฐ๊ณผ: ์ถฉ๋ ํ๋ฅ ์ ์ต๋ํํ๋ ์ ๋ต ์ฌ์ฉ
Bounce ํ์คํฌ
- ์ด๊ฐ ์ ๋ณด ์ถ๊ฐ ์ ๋์ ์ํ ํจ์จ์ฑ๊ณผ ์ฐ์ํ ๋ฆฌํด
- ํ์ง๋ง proprioceptive-only๋ ์์ ๋ป์ ์ํ๋ก ํดํ๋, ์ํ-๋ถ๊ฐ์ง๋ก ์ ๋ฐ์ด์ฑ ๋์์ผ๋ก ๋์ ๋ฆฌํด ๋ฌ์ฑ
Baoding ํ์คํฌ
- ์ด๊ฐ ์ ๋ณด์ ๊ฐ์ฅ ํฐ ์ ์ฉ์ฑ ์ ์ฆ
- Proprioceptive-only: ์์ ์คํจ
- Proprioceptive-tactile: ๊ธฐ๋ฅ์ ์ฑ๊ณต (๋น๋ก ๋์ ๋ถ์ฐ)
๊ฒฐ๋ก : ์ด๊ฐ ์ผ์ฑ์ ํ์คํฌ์ ๋ฐ๋ผ ์ ์ฉ์ฑ์ด ๋ค๋ฆ. ์ด๋ ์น์ 4.5์ โ์ ์ด๊ฐ์ธ๊ฐ?โ ๋ ผ์๋ก ์ด์ด์ง๋๋ค.
4.3 RL+SSL ๊ฒฐ๊ณผ: ์๊ธฐ์ง๋ํ์ต์ ํจ๊ณผ
๋ค ๊ฐ์ง SSL ๋ชฉ์ ํจ์(TR, FR, FD, TFD)๋ฅผ RL-only ๊ธฐ์ค์ ๊ณผ ๋น๊ต:
์ผ๊ด๋ ๊ฒฐ๊ณผ
- TR๊ณผ FD๊ฐ ๋ชจ๋ ํ๊ฒฝ์์ RL-only ๊ธฐ์ค์ ์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐ
ํ๊ฒฝ๋ณ ์ธ๋ถ ๊ฒฐ๊ณผ
- Find: FD > TR (proprioceptive ํ์คํ ๋ฆฌ ์์ถ์ด ๋ ์ค์)
- Bounce: FD โ TR (์ด๊ฐ ์ ํธ ์์ถ์ด ์ฃผ์ ์ด์ )
- TFD๋ ์ด ํ์คํฌ์์ ์ต์ ์ ์ฑ๋ฅ
- Baoding:
- TR์ด ๋ ๋์ ํ๊ท ๋ฆฌํด (๋ ์ข์ ์ฑ๋ฅ ๋ถํฌ ๋๋ถ)
- FD๊ฐ ๋ ๋์ ์ํ ๋๋ฌ
- FR์ด TR๋ณด๋ค ํ์ ํ ๋ฎ์: Proprioceptive ์ฌ๊ตฌ์ฑ๊ณผ ์ด๊ฐ ์ฌ๊ตฌ์ฑ์ ๊ฒฐํฉ์ด ๋ถ์ ์ ๊ฐ์ญ ์ ๋ฐ
- TR๋ง์ด ์คํจ ์๋ ์คํ ๋ฌ์ฑ
FR๊ณผ TFD์ ๋ถ์ผ์น
- FR, TFD์ ์ฑ๋ฅ์ ํ๊ฒฝ์ ๋ฐ๋ผ ๋ฏผ๊ฐํ๊ฒ ๋ณํ
- TFD: Find์์ ์ต๊ณ , Bounce์์ ์ต์
4.4 ๋ถ๋ฆฌ๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ์ ํจ๊ณผ
FD ์์ด์ ํธ์ ๋ถ๋ฆฌ๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์ฉํ ๊ฒฐ๊ณผ:
| ํ์คํฌ | ํจ๊ณผ |
|---|---|
| Find | ์ต์ |
| Bounce | ์ต์ |
| Baoding | ์๋นํ ๊ฐ์ |
ํด์: Baoding ํ์คํฌ๋ ๋ ๊ธด ์๊ฐ์ ํธ๋ผ์ด์ฆ์ dynamics์ ๋ํ ์ถ๋ก ์ด ํ์ํ๋ฉฐ, ๋ ๊ณต์ ํ์ ์ ๋ฐ์ด์ค๋ ์ ์ด ์ด๋ฒคํธ๋ณด๋ค ๋ ๋ง์ timesteps์ ๊ฑธ์ณ ์ผ์ด๋จ.
4.5 ๋ฌผ๋ฆฌ์ ์งํ๋ก ๋ณธ ์ฑ๋ฅ
์ต์ ํ๋ ์์ด์ ํธ์ ๋ฌผ๋ฆฌ์ ์ฑ๋ฅ:
| ํ์คํฌ | ์งํ | RL-only | ์ต๊ณ SSL | ์ธ๊ฐ ๊ธฐ๋ก |
|---|---|---|---|---|
| Find | ๋ฌผ์ฒด ๋ฐ๊ฒฌ ์๊ฐ | 1.9์ด | 1.4์ด (FD, 36%โ) | 2.1์ด |
| Bounce | 10์ด๋น ๋ฐ์ด์ค | 69ํ | 79ํ (FD, +10ํ) | 59ํ (๊ธฐ๋ค์ค) |
| Baoding | 10์ด๋น ํ์ | 5ํ | 17ํ (FD+Memory) | 13ํ |
Superhuman ์ฑ๋ฅ: - Bounce: ์ต๊ณ ์์ด์ ํธ 88ํ (๊ธฐ๋ค์ค ๊ธฐ๋ก์ ~1.5๋ฐฐ) - Baoding: ์ต๊ณ ์์ด์ ํธ 25ํ (์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ~2๋ฐฐ)
5. ์ฌ์ธต ๋ ผ์: ํต์ฌ ์ง๋ฌธ๋ค์ ๋ํ ๋ต๋ณ
5.1 Q1: Binary contacts๋ proprioceptive history๋ฅผ ๋์ด์๋ ์ด์ ์ ์ ๊ณตํ๋๊ฐ?
๋ต๋ณ: Yes, ํ์ง๋ง ํ์คํฌ์ ๋ฐ๋ผ ๋ค๋ฆ
์ฐ๊ตฌํ์ ๋ช ์์ ์ด๊ฐ ์ ๋ณด๊ฐ ์ ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํฉ๋๋ค:
1. ๋ถ๋ฆฌ๋ ๋ฌผ์ฒด-๋ก๋ด dynamics (Decoupled object-robot dynamics)
๋ฌผ์ฒด์ ์์ง์์ด ๊ด์ ๋ฐฉํฅ๊ณผ ์ง๊ตํ๋ ์ฑ๋ถ์ ๊ฐ์ง ๋, ์ ์ด์ด ๋ฐ์ํด๋ ๊ด์ ์ ์ด ์ค๋ฅ๊ฐ ๊ฑฐ์ ๋ณํํ์ง ์์ต๋๋ค.
์์: Baoding ํ์คํฌ์์ ๊ณต๋ค์ ์ฃผ๋ก ์์ ํ๋ฉด์ ๋ฐ๋ผ ์ํ์ผ๋ก ์ด๋ํ๋ฉฐ, ์ด๋ ์กฐ์์ ์ฌ์ฉ๋๋ ๊ด์ ์ด๋๊ณผ ๋ถ๋ฆฌ๋ฉ๋๋ค.
2. ์ ๊ด์ฑ ๋ฌผ์ฒด (Low-inertia objects)
๋งค์ฐ ๊ฐ๋ณ๊ฑฐ๋ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด(์: Bounce์ 30g ๊ณต, ์ข ์ด, ์คํ์ง)๋ ์ ์ด ์ ์ถฉ๋ถํ ๋ฐ๋ ฅ์ ์์ฑํ์ง ์์ต๋๋ค.
๊ฒฐ๊ณผ: ๋ก๋ด์ proprioceptive ์ผ์๊ฐ ์ ์๋ฏธํ ์ ํธ๋ฅผ ๋ฑ๋กํ์ง ๋ชปํด, ์ ๋ขฐํ ์ ์๋ ๊ฐ์ง๋ฅผ ์ํด ๋ช ์์ ์ด๊ฐ ์ผ์ฑ์ด ํ์ํฉ๋๋ค.
3. ์ ์ด ๊ณต๊ฐ์ ๋ชจํธ์ฑ (Contact spatial ambiguity)
์ ์ฑ ์ด ๋จ์ผ ๊ฐ์ฒด ๋งํฌ๋ฅผ ๋ฐ๋ผ ์ ์ด์ ํน์ ์์น๋ฅผ ์์์ผ ํ ๋.
๋ฌธ์ : ๊ด์ ์ ์ด ์ค๋ฅ๋ ๋ชจํฐ์ ๋ํ ์ ํ ๊ธฐ์ฌ๋ง ์ ๊ณตํ๋ฏ๋ก, ๊ด์ ์์ ํ๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ํ์ธํ๊ธฐ ์ด๋ ต์ต๋๋ค.
4. ๋ค์ค ์ ์ด ํด์๋ (Multi-contact resolution)
์ ์ฑ ์ด ์ด ํ ๊ธฐ์ฌ์ ์ถ์ฒ๋ฅผ ๊ตฌ๋ถํด์ผ ํ ๋ (ํ๋์ ๊ฐํ ์ ์ด vs ์ฌ๋ฌ ์ฝํ ๋์ ์ ์ด).
๋ฌธ์ : ์ ์ด ์ค๋ฅ๋ ์ ํ์ ์ด ํฌ๊ธฐ๋ง ์ ๊ณตํ์ฌ, ๋ค์ค ๋ฏธ์ธ ์ ์ด ์ด๋ฒคํธ ๊ฐ์ ๊ตฌ๋ถ์ ํ๋ฆฌ๊ฒ ํฉ๋๋ค.
5.2 Q2: ์๊ธฐ์ง๋ํ์ต์ด ์ ํํ ์ด๋ป๊ฒ ๋์์ด ๋๋๊ฐ?
๊ฐ์ค: SSL์ด ํ์คํฌ-ํต์ฌ ์ ๋ณด๋ฅผ ํ์ต๋ ํํ z_t์ ์์ถํ๋๋ก ๊ฐ์ ํจ์ผ๋ก์จ ๋์
๊ฒ์ฆ: ์ถ์๋ latent ํํ z_t์ ground-truth ์ํ ๋ณ์ ๋ฒกํฐ s_t ๊ฐ์ ์ํธ ์ ๋ณด I(z_t; s_t) ์ธก์
๋ฐฉ๋ฒ๋ก : - KSG(Kraskov-Stoegbauer-Grassberger) ์ถ์ ๊ธฐ ์ฌ์ฉ - 256์ฐจ์ z_t๋ฅผ PCA๋ก D=13 ์ฑ๋ถ์ผ๋ก ์ถ์ (๊ณ ์ฐจ์ ํธํฅ ๋์) - K=4 ์ต๊ทผ์ ์ด์ ์ฌ์ฉ
Bounce ๊ฒฐ๊ณผ
- ๊ธฐ๋ณธ PPO๊ฐ ๊ฐ์ฅ ๋์ I(z_t; s_t) โ ๋ฐ๋ณต์ , ์ ์ํธ๋กํผ ๋์(๊ณต์ ๊ฐ๋๋)์ผ๋ก ์ธํ ์ธ์์ MI ์ฆ๊ฐ
- ์ฌ๊ตฌ์ฑ ์์ด์ ํธ: MI โ 0
- dynamics ์์ด์ ํธ๋ง ๋น์ MI ๋ฑ๋ก
Marginal MI ๋ถ์: I(z_t; s_{t,j}) - FD ์์ด์ ํธ: ๊ณต์ ์์ง ์๋์ ์์น ์ ๋ณด(x, z ์ขํ)๋ฅผ ๊ณ ์ ํ๊ฒ ์ธ์ฝ๋ฉ - ๋ชจ๋ ์์ด์ ํธ: ์ ์ด ์๋ timesteps ์ ๋ณต์ - TR, TFD: ๊ณต์ ์์ง ์๋ ์ถ๊ฐ ๋ณต์
Baoding ๊ฒฐ๊ณผ
- MI ๋ถํฌ๊ฐ ์ฑ๋ฅ ๋ถํฌ์ ๋ ๋ฐ์ ํ๊ฒ ์ผ์น
- FD ์์ด์ ํธ๊ฐ PPO์ ๊ฑฐ์ 3๋ฐฐ MI ํฌ์ฐฉ
Marginal MI ๋ถ์: - FD๋ง ๋น์ marginals ๋ฌ์ฑ - ๊ณต ์์น ์ธ์ฝ๋ฉ ์ฐ์ ์์: x (์๊ณผ ํํ) > y (์์ ์์ง) > z
5.3 Q3: ์๊ธฐ์ง๋ํ์ต์ด proprioceptive, tactile, ๋๋ ๊ฒฐํฉ ํํ์ ๊ฐํํ๋๊ฐ?
์ฌ๊ตฌ์ฑ ๋ชฉ์ ํจ์
- Find: FR > TR โ proprioceptive ํ์คํ ๋ฆฌ ์์ถ์ด ๋ ์ ์ต (์ ์ด ์ค๋ฅ๋ก ๋ฌผ์ฒด ๊ฐ์ง์ ๋ ์์กด)
- Bounce: FR โ TR โ ์ด๊ฐ ์ ํธ ์์ถ์ด ์ฃผ์ ์ด์
- Baoding: TR >> FR โ proprioceptive + tactile ์ฌ๊ตฌ์ฑ ๊ฒฐํฉ์ด ๋ถ์ ์ ๊ฐ์ญ ์ ๋ฐ
- TR๋ง์ด ์คํจ ์๋ ์คํ ๋ฌ์ฑ
- ์์ด์ ํธ ์คํจ๊ฐ ์ด๊ฐ ์ ๋ณด์ ๊ฒฌ๊ณ ํ ํํ ๋ถ๋ฅ๊ณผ ์ง์ ์ฐ๊ฒฐ
Dynamics ๋ชฉ์ ํจ์
- TFD vs FD ๋น๊ต: ๊ฒฐํฉ ํํ์์ forward dynamics + ์์ธก latent state์ ์ด๊ฐ ์ฌ๊ตฌ์ฑ ์์ค
- Find: TFD ์ฝ๊ฐ ์ ์ต โ ์์ค ์กฐํฉ์ด ์ ์ฉํ ์ ์์
- Bounce, Baoding: TFD๊ฐ FD๋ณด๋ค ์ ์กฐ
ํด์: 1. FD๊ฐ ๊ฒฐํฉ ํํ์์ ํ์ํ ์ด๊ฐ ์ ๋ณด๋ฅผ ์๋ฌต์ ์ผ๋ก ํฌ์ฐฉํ ์ ๋๋ก ๊ฒฌ๊ณ 2. ๋ช ์์ ์ฌ๊ตฌ์ฑ ์์ค์ด ๋ฐ๋์งํ์ง ์์ ํ์ต ์ถฉ๋์ ์ ๋ฐ
5.4 Q4: Forward model์ ์ด๊ฐ ์ํธ์์ฉ์ dynamics๋ฅผ ์ผ๋ง๋ ์ ํ์ตํ๋๊ฐ?
๋ต๋ณ: ๋งค์ฐ ์ ํ์ตํจ
์ฐ๊ตฌํ์ ๋ฏธ๋ ์ต๋ 10 timesteps๊น์ง์ ์ด๊ฐ ์ํ ์์ธก์ ๋ํ ๋ถ๋ฅ ์งํ๋ฅผ ๋ถ์ํฉ๋๋ค:
ํต์ฌ ๋ฐ๊ฒฌ
- True positive rate: ~99% (Baoding), ~90-99% (Bounce)
- False negative rate < 1% (๋์ positive weighting ๋๋ถ)
- ๋ค์ ๊ณผ์์ธก ๊ฒฝํฅ (๊ณผ์์์ธก๋ณด๋ค)
ํฅ๋ฏธ๋ก์ด ๊ด์ฐฐ
- Bounce o_7: ์ ์ด ์๋ ๊ด์ธก์์ ๋์ฝ๋๊ฐ ๋ค์ ์ํ์ ์ ์ด์ ์ ํํ ์์ธก (์์น๋ ๋ค์ ๋ถ์ ํ)
- ์ด๋ ํํ์ด ๊ณต์ z ์์น์ ์๋ ์ฑ๋ถ์ ์ธ์ฝ๋ฉํ๊ณ ์์์ ์์ฌ
- Baoding: ์ผ๋ถ false positive ์์ธก์ด ๋จ์ง 1 timestep ๋น ๋ฆ (์ ํํ์ง๋ง ํ์ด๋ฐ๋ง ์ฐจ์ด)
5.5 Q5: On-policy ์์ด์ ํธ๊ฐ off-policy ๋ฐ์ดํฐ์์ ํํ์ ํ์ตํ๋ฉด ์ด์ ์ด ์๋๊ฐ?
๋ต๋ณ: Yes, ํจ๊ณผ๋ ํ์คํฌ์ ๋ฐ๋ผ ๋ค๋ฆ
- Find, Bounce: ์ต์ ํจ๊ณผ
- Baoding: ์๋นํ ๊ฐ์
ํด์: Baoding์ ํ์ ํ์คํฌ๊ฐ ๋ ๊ธด ์๊ฐ์ ํธ๋ผ์ด์ฆ์ ๊ฑธ์น ์ถ๋ก ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ
์ฐ๊ตฌ ๋ฐฉํฅ ์์ฌ์ : Off-policy ๋ฐ์ดํฐ๋ฅผ on-policy ํ์ต ํ์ดํ๋ผ์ธ์ ํตํฉํ๋ ๊ฒ์ด ์ ๋งํ ์ฐ๊ตฌ ๋ฐฉํฅ
6. ํํ ๋ถ์: Latent Trajectory ์๊ฐํ
์ฐ๊ตฌํ์ ๊ฐ ์์ด์ ํธ์ latent ํํ z_t๋ฅผ PCA๋ก 2D๋ก ์ถ์ํ์ฌ ๋จ์ผ ์ํผ์๋์ ๊ถค์ ์ ์๊ฐํํฉ๋๋ค.
Baoding
RL-only
- ๊ณ ๋ฆฌ ํํ ๊ถค์ : ๋ฐ๋ณต์ ๋์ ๋ฐ์
- ๋ฐํ์ ๊ฐ ์ ์ด ํ์ฑํ์ ๋์นญ์ฑ (๋ ์ด๊ฐ ํผํฌ)
TR (Tactile Reconstruction)
- ํํธ ํํ, ํ์ฐ๋ ๊ถค์ : ๊ฐ ํ์ ์ด ์ฝ๊ฐ์ฉ ๋ค๋ฆ
- ๋ฐํ์ ๊ฐ ์ ์ด ํ์ฑํ์ ๋น๋์นญ์ฑ
- ์ ์ฑ : FD์ฒ๋ผ ๋ถ๋๋ฝ์ง๋ง RL-only์ฒ๋ผ ๊ณต์ ๊ฐ๊น๊ฒ ์ ์ง
FD (Forward Dynamics)
- ๋ ํ์ดํธํ ๊ณ ๋ฆฌ ํํ: RL-only๋ณด๋ค ์ข์ ๊ฒฝ๊ณ
- ๋ฐํ์ ๊ฐ ์ ์ด ํ์ฑํ์ ๋น๋์นญ์ฑ
Bounce
RL-only
- ์์ฐจ์ latent ์ํ๊ฐ ๊ณ ๋๋ก ๋ถ์ฐ์์ ์ด๊ณ ๋ฉ๋ฆฌ ๋จ์ด์ง
- ์์ด์ ํธ๊ฐ ๋์ ์ ๋ฐ๋๋ก ๋์ผํ ๋์ ๋ฐ๋ณต
- ์ต๋ 6๊ฐ ํ์ฑํ์ ๋น์ ์ด๊ฐ ๊ด์ธก ์์ญ ๋ ๊ณณ (๊ฒ์ง์ ์์ง๋ก ๊ณต ์์ ํ)
SSL ์์ด์ ํธ
- ์์ ํ ๋ค๋ฅธ ๊ถค์ : 1-2๊ฐ ์ ์ด๋ง ์ฃผ๋ก ์ฌ์ฉํ๋ ๋ค๋ฅธ ๋ณดํ์ผ๋ก ์ ํ
- ์์ฐจ ์ํ๊ฐ ์ฌ์ ํ ๋ค์ํ ์์ญ์ ๋ถํฌํ์ง๋ง, ์์ญ์ด ํจ์ฌ ํ์ฐ๋จ
7. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
7.1 ์ฃผ์ ํ๊ณ
์ค์ ํ๋์จ์ด ๊ฒ์ฆ ๋ถ์ฌ
- ๋ชจ๋ ๊ฒฐ๊ณผ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ(Isaac Lab)์์ ๋์ถ
- ์ํ ์ ๋ต: Sparse binary contact ์ ํธ์ ์ง์คํ์ฌ ์ฐ์ ์ผ์ ๋ ธ์ด์ฆ์ ์ฃผ์ ๋ณต์ก์ฑ ํํผ
๊ณ์ฐ ์๊ฐ ์ฆ๊ฐ
- SSL ์์ด์ ํธ ํ์ต์ RL-only๋ณด๋ค ๋ ๋ง์ ๊ณ์ฐ ์๊ฐ ์์
- ์ฌ๊ตฌ์ฑ์ ์ํฅ์ด ์ ์ง๋ง, forward dynamics์ sequence length n์ด ๋์์๋ก ๊ทน์ ์ผ๋ก ์ฆ๊ฐ
์ถ๊ฐ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ
- ๋ถ๋ฆฌ๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ ํ์
7.2 Sim-to-Real ์ ์ด ๊ฐ๋ฅ์ฑ
์ฐ๊ตฌํ์ ํต์ฌ ๊ธฐ์ฌ๊ฐ ์ต์ ํ ์ ๋ต์ด๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค: - ์ฐ์ํ๊ณ ๊ตฌ๋ณ๋๋ ์ ์ฑ ์ ์ฐ์ถํ๋ ์ ๋ต - ์ด์ ์ ์ ์ด ๊ฐ๋ฅํด์ผ ํจ (RL-only ์์ด์ ํธ์ ์ต์ข sim-to-real ๊ฐญ์ด ์ฐ๊ฒฐ๋ ์ ์๋ค๋ฉด)
7.3 ์ผ๋ฐํ ๊ธฐ๋
- ๋ค๋ฅธ ํ๊ฒฝ ๋๋ฉ์ธ(์: locomotion)์ ์ ๊ทผ๋ฒ์ ์ ์ฉํด๋ ์ ์ฌํ ๊ฒฐ๊ณผ๊ฐ ์์๋จ
8. ์ค์ฉ์ ๊ถ์ฅ์ฌํญ
์ฐ๊ตฌํ์ ๋ฐ๊ฒฌ์ ๋ ๊ฐ์ง ๊ถ์ฅ์ฌํญ์ผ๋ก ์์ถํฉ๋๋ค:
๊ถ์ฅ์ฌํญ 1: SSL๊ณผ ๊ณต๋ ํ์ต
์ด๊ฐ ๊ธฐ๋ฐ RL ์์ด์ ํธ๋ฅผ tactile reconstruction ๋๋ forward dynamics์ ๋ถ๋ฆฌ๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ๋ก ๊ณต๋ ํ์ตํ์ธ์.
์ ์ฌํ ์ค์ ์์ ์์ ํ๊ณ ๋ ๋์ (๊ทธ๋ฆฌ๊ณ ์ ์ฌ์ ์ผ๋ก ๋ ์ ๋ขฐํ ์ ์๋) ๋ฆฌํด ๋ถํฌ๋ฅผ ์ํ๋ค๋ฉด.
๊ถ์ฅ์ฌํญ 2: ๋จ์ํ ์ด๊ฐ ํํ๋ถํฐ ์์
์ฒ์์๋ ๋ ๋จ์ํ ์ด๊ฐ ์ ๋ณด ํ์(binary, continuous, contact pose)์ ๊ตฌํํ๊ณ , ํ์ํ ๊ฒฝ์ฐ์๋ง ํฝ์ ๊ธฐ๋ฐ ์ด๊ฐ ํํ์ผ๋ก ์ ํํ์ธ์.
- ์ฆ๊ฐ๋ ๊ฐ๊ฐ ์ ๋ณด๊ฐ ์ด๋ก ์ ์ผ๋ก ์ ๋ฆฌํ์ง๋ง, ์๋นํ ๊ณ์ฐ ๋น์ฉ ์๋ฐ
- ํต๊ณ์ ์ผ๋ก ๋ ์ด๋ ค์: Z^{N_sensors} ๊ณต๊ฐ์ ํจ์๊ฐ {0,1}^{N_sensors}๋ณด๋ค ํจ์ฌ ํผ
- ํฝ์ ๊ธฐ๋ฐ ์ ํธ์ ๋์ญํญ์ด Isaac Lab ๋ฑ์์ ๋ณ๋ ฌ ํ๊ฒฝ ์๋ฅผ ์ง์ ์ ํ
- ๋ณธ ์ฐ๊ตฌ๊ฐ binary ์ด๊ฐ ๊ด์ธก์ ์์์น ๋ชปํ ํจ๋ฅ์ ๋ฐํ์ผ๋ฏ๋ก, ์ด๋ฅผ ์ฐ์ ํ์ฉ
9. ์ด ๋ ผ๋ฌธ์ ์์์ ๋ก๋ด๊ณตํ์ ๋ํ ์์ฌ์
9.1 ํ์ ์ ๊ธฐ์ฌ
์ด๊ฐ RL์ ๋ชจ์์ ๊ฒฐ๊ณผ์ ๋ํ ๋ช ํํ ์ค๋ช : ์ด๊ฐ ๋ฐ์ดํฐ์ ํฌ์์ฑ๊ณผ ๋น์ฐ์์ฑ์ด ํ์ต์ ์ด๋ ต๊ฒ ๋ง๋ค๋ฉฐ, SSL์ด ์ด๋ฅผ ์ํํ ์ ์์์ ์ค์ฆ
์ด๊ฐ ์ ์ฉ์ฑ์ ์กฐ๊ฑด ๊ท๋ช : ๋จ์ํ โ์ด๊ฐ์ด ์ข๋ค/๋์๋คโ๊ฐ ์๋๋ผ, ์ธ์ , ์ ์ ์ฉํ์ง๋ฅผ ๋ค ๊ฐ์ง ์กฐ๊ฑด์ผ๋ก ๋ช ํํ ์ ๋ฆฌ
์๋ก์ด ๋ฒค์น๋งํฌ ์ ๊ณต: RoTO๊ฐ ์ด๊ฐ ๊ธฐ๋ฐ ๋งค๋ํฐ๋ ์ด์ ์ฐ๊ตฌ์ ํ์คํ์ ์ฌํ์ฑ์ ์ด์งํ ๊ฒ์ผ๋ก ๊ธฐ๋
Off-policy ๋ฐ์ดํฐ ํ์ฉ ๊ฐ๋ฅ์ฑ: On-policy ํ์ต์์ off-policy ๋ฐ์ดํฐ๋ฅผ ํํ ํ์ต์ ํ์ฉํ๋ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
9.2 ์ค์ฉ์ ์์ฌ์
์ผ์ ์ค๊ณ ๊ด์
- ๊ณ ํด์๋ visuotactile ์ผ์๊ฐ ํญ์ ํ์ํ ๊ฒ์ ์๋
- Binary contact ์ผ์๋ง์ผ๋ก๋ superhuman ์์ฌ์ฃผ ๋ฌ์ฑ ๊ฐ๋ฅ
- ๋น์ฉ ํจ์จ์ ์ธ ์ด๊ฐ ์์คํ ์ค๊ณ์ ๊ฐ๋ฅ์ฑ
ํ์ต ์๊ณ ๋ฆฌ์ฆ ๊ด์
- End-to-end RL๋ง์ผ๋ก๋ ์ด๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์น๋ฅผ ์์ ํ ํ์ฉํ๊ธฐ ์ด๋ ค์
- ํํ ํ์ต ๋ณด์กฐ ๋ชฉ์ ํจ์๊ฐ ํ์์
- Forward dynamics๊ฐ ํนํ ํจ๊ณผ์
Sim-to-Real ๊ด์
- Binary contact์ ์ง์คํจ์ผ๋ก์จ sim-to-real ๊ฐญ์ ์ต์ํํ๋ ์ ๋ต ์ ์
- ์ฐ์ ์ผ์ ๋ ธ์ด์ฆ ๋ชจ๋ธ๋ง์ ๋ณต์ก์ฑ ํํผ
9.3 ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
์ค์ ๋ก๋ด ๊ฒ์ฆ: Shadow Hand ๋๋ ์ ์ฌํ dexterous hand์์์ sim-to-real ์ ์ด ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ ํตํฉ: ๋น์ ๊ณผ ์ด๊ฐ์ ํจ๊ป ์ฌ์ฉํ ๋์ SSL ์ ๋ต
์ฐ์ ์ด๊ฐ ์ ํธ: Binary๋ฅผ ๋์ด ์ฐ์์ ์ธ ์๋ ฅ/์ ๋จ๋ ฅ ์ ๋ณด ํ์ฉ ์์ SSL ์ ๊ทผ๋ฒ
๊ณ์ธต์ ํ์ต: ์ฅ๊ธฐ ์กฐ์ ํ์คํฌ์์ ์ด๊ฐ ๊ธฐ๋ฐ ์คํฌ ํ์ต๊ณผ ์กฐํฉ
10. ๋ง์น๋ฉฐ
Elle Miller ์ฐ๊ตฌํ์ ์ด ๋ ผ๋ฌธ์ ์ด๊ฐ ๊ธฐ๋ฐ ๊ฐํํ์ต ๋ถ์ผ์ ์ค์ํ ์ด์ ํ์ ๋๋ค. 10๋ ์ด์ ์ถ์ ๋ ๋ชจ์์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ค์ ๋ช ํํ ํด์์ ์ ๊ณตํ๊ณ , ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ์ํ์ต๋๋ค.
ํนํ ์ธ์์ ์ธ ๊ฒ์:
- ๋จ์ํจ์ ํ: ๋ณต์กํ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์๊ฐ ์๋ ๋จ์ํ binary contact๋ก superhuman ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ช ํํ ๋ถ์: ์ด๊ฐ์ด โ์โ ๊ทธ๋ฆฌ๊ณ โ์ธ์ โ ํ์ํ์ง์ ๋ํ ์ฒด๊ณ์ ๋ถ์
- ์ฌํ ๊ฐ๋ฅ์ฑ: RoTO ๋ฒค์น๋งํฌ์ ์ฝ๋ ๊ณต๊ฐ๋ก ํ์ ์ฐ๊ตฌ ์ด์ง
๋ก๋ด์ด ์ง์ ์ผ๋ก ์ธ๊ฐ์ฒ๋ผ ์ฌ์ธํ ์กฐ์์ ์ํํ๋ ค๋ฉด, ๋ณด๋ ๊ฒ์ ๋์ด ๋๋ผ๋ ๊ฒ์ด ํ์ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ์ค์ํ ํ ๊ฑธ์์ ๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ ์ฌ์ธํ ์กฐ์ ๋ฅ๋ ฅ์ ๋ฐํํ๋ ค๋ฉด ์๊ฐ์ ์์กดํ๋ ์์ค์ ๋์ด ํ๊ฒฝ์ โ๋๋โ ์ ์์ด์ผ ํ๋ค. ์๋ฅผ ๋ค์ด, ๊ฐํธ ๋ก๋ด์ด ํ์๋ฅผ ๋ถ๋๋ฝ๊ฒ ๋ถ์ถํ๊ฑฐ๋, ์ฅ์ ์ธ์ ๋๋ ๋ก๋ด ํ์ด ์นซ์์ง์ ๋์ธ ๋, ๋ก๋ด์ด ๋จ์ํ ์นด๋ฉ๋ผ ์์๋ง ๋ณด๋ ๊ฒ์ผ๋ก๋ ์์ ํ๊ณ ์ ๊ตํ ๋์์ ๋ณด์ฅํ๊ธฐ ์ด๋ ต๋ค. ์ด๋ฌํ ์ด๊ฐ ์ผ์ฑ(tactile sensing) ๋ฅ๋ ฅ์ ๋ก๋ด์ด ๋ฌผ์ฒด์ ์ ์ดํ๋ ๋ฏธ์ธํ ์ํธ์์ฉ์ ๊ฐ์งํ์ฌ ๋ณด๋ค ์ธ๊ฐ์ ๊ฐ๊น์ด ์ฌ์ธํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๊ทธ๋ฌ๋ ์ง๊ธ๊น์ง ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ด์์ ์ธ ์ํ ์ ๋ณด(์: ๋ฌผ์ฒด์ ์ ํํ ์์น๋ ์ ์ด ์ง์ ) ์์ด ์์ํ๊ฒ ์ผ์ ์ ๋ณด๋ง์ผ๋ก ๊ณ ๋๋ ์์ ์ ๋ฌ์ฑํ๋ ๊ฒ์ ํฐ ๋์ ์ด์๋ค. ๊ณผ๊ฑฐ ์ฐ๊ตฌ์์๋ ๋ฌผ์ฒด์ ์๊ฐ๋ฝ ์์น ์ถ์ ์ ์ํด 19๋์ ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ๋ ๊ทน๋จ์ ์ธ ์ฌ๋ก๋ ์์๋ค. ์ด๋ ํ์ค์ ์ผ๋ก ๋งค์ฐ ๋นํจ์จ์ ์ด๊ธฐ ๋๋ฌธ์, ๊ฐํํ์ต(Reinforcement Learning, RL)์ ํตํด ๋ก๋ด์ด ์ง์ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ๋๋ก ํ๋ ์ ๊ทผ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค.
๊ฐํํ์ต์ ์ต๊ทผ ๋ก๋ด ๋ณดํ ๋ฑ์์ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์์ง๋ง, ๋ก๋ด ์กฐ์(manipulation) ๋ถ์ผ์์๋ ์์ง ์๊ฐ ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ง์ด ์์กดํ๊ณ ์๋ค. ํนํ ๊ธฐ์กด์ ์กฐ์ ๊ฐํํ์ต ์ฐ๊ตฌ๋ค์ ์๋ฎฌ๋ ์ด์ ์ ํ๊ณ์ ๋ณต์กํ ๋ณด์ ์ค๊ณ ๋ฌธ์ , ๊ทธ๋ฆฌ๊ณ ๋ฌด์๋ณด๋ค ์ด์์ ์ธ ์ํ ์ ๋ณด์์ ๊ณผ๋ํ ์์กด ๋๋ฌธ์ ํ๊ณ๋ฅผ ๋ณด์๋ค. ๋ณธ ๋ฆฌ๋ทฐ์ ๋์์ธ Miller ๋ฑ(2025)์ ๋ ผ๋ฌธ โEnhancing Tactile-based Reinforcement Learning for Robotic Controlโ์์๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ์ด๊ฐ ๋ฐ์ดํฐ๋ก ๊ทน๋ณตํ๊ณ ์ ํ๋ค. ์ ์๋ค์ โ์กฐ์(manipulation)์ ๋ณธ์ง์ ์ผ๋ก ์ ํ์ ์ ์ด์ ํตํ ์ ์ดโ๋ผ๋ ๊ด์ ์์, ์ด๊ฐ ์ผ์ฑ๋ง์ผ๋ก๋ ๋ฌผ์ฒด์ ์์น์ ๋์์ ์ถฉ๋ถํ ํ์ ํ์ฌ ์กฐ์ํ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ๋ค์ ๋งํด, ๋ก๋ด์ ๊ด์ ์ผ์ ์ ๋ณด(๊ณ ์ ๊ฐ๊ฐ)์ ์ด์ง ์ ์ด ์ ํธ๋ง ๊ฐ์ง๊ณ ๋ ์๊ฐ์ด๋ ์ ํํ ์์น์ ๋ณด ์์ด ์์ ์ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ด๋ค.
์ง๋ 10์ฌ ๋ ๊ฐ ์ด๊ฐ ๊ธฐ๋ฐ RL์ ๋ํ ๊ด์ฌ์ด ๊พธ์คํ ์์์ผ๋, ๋๋ ทํ ๋ํ๊ตฌ๋ ๋ํ๋์ง ์์๋ค. ์ ํ ์ฐ๊ตฌ๋ค์ ๋ณด๋ฉด ์ผ๊ด๋์ง ์์ ๊ฒฐ๊ณผ๋ค์ด ๋ณด๊ณ ๋์๋๋ฐ, ์ด๋ค ์ฐ๊ตฌ๋ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ์ฝ๊ฐ ํฅ์๋๋ค๊ณ ํ ๋ฐ๋ฉด, ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ ๊ฑฐ์ ์ฐจ์ด๊ฐ ์๊ฑฐ๋ ์ด๊ฐ ์์ด๋ ์ถฉ๋ถํ๋ค๋ ์ฃผ์ฅ์ ๋ด๋์๋ค. ์๋ฅผ ๋ค์ด Melnik ๋ฑ(2021)๊ณผ Merzic ๋ฑ(2019)์ ์ด๊ฐ์ด ์ฝ๊ฐ์ ์ด๋์ ์ค๋ค๊ณ ๋ณด๊ณ ํ์ง๋ง, Vulin ๋ฑ(2021)์ด๋ Hansen ๋ฑ(2022)์ ์ด๊ฐ ์ถ๊ฐ์ ์ ์๋ฏธํ ์ด๋์ด ์์๋ค๊ณ ํ๋ค. ์ฌ์ง์ด Qi ๋ฑ(2023)์ โ๊ด์ ์์ง์ ๊ธฐ๋ก๋ง์ผ๋ก๋ ์ด๋ฏธ ์ด์ง ์ ์ด ์ ๋ณด๊ฐ ํจ์ถ๋์ด ์๋คโ๋ฉฐ ์ด๊ฐ ์ผ์์ ํ์์ฑ์ ๋ฎ๊ฒ ํ๊ฐํ๊ธฐ๋ ํ๋ค. ์ด๋ฌํ ์๊ฐ๋ฆฐ ๊ฒฐ๊ณผ์ ์์ธ์ผ๋ก, ์ ์๋ค์ ์ด๊ฐ ๋ฐ์ดํฐ์ ํน์ฑ์ ์ฃผ๋ชฉํ๋ค. ์ด๊ฐ ์ ํธ๋ ์คํ์ค(sparse)ํ๊ฒ ๋ฐ์ํ๊ณ ์ ์ด ์์๋ง ๋ถ์ฐ์์ ์ผ๋ก ํ์ด๋์ค๋ ๊ฒฝํฅ์ด ์์ด, ์ฐ์์ ์ผ๋ก ๋ณํ๋ ๊ด์ ์ ๋ณด์ ๋นํด ํ์ต์ด ์ด๋ ต๊ณ ๋ถ์์ ํ ์ ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ผ๋ฐ์ ์ธ ๋ฅ RL ์์ด์ ํธ๋ ์์ ์ด๊ฐ ์ ํธ๋ก๋ถํฐ ์๋ฏธ ์๋ ํํ์ ๋ฝ์๋ด์ง ๋ชปํ๊ณ , ์์ ์ ์ธ ๊ด์ ๊ฐ๊ฐ์๋ง ์์กดํ๋ ์๋ธ์ตํฐ๋ฉ ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์๋ ดํด๋ฒ๋ฆด ์ฐ๋ ค๊ฐ ์๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ ์ ์๋ค์ ์๊ธฐ ์ง๋ ํ์ต(Self-Supervised Learning, SSL)์ ๋์ ํ์ฌ ์์ด์ ํธ์ ๊ด์ฐฐ ์ธ์ฝ๋ฉ(Observation Representation) ํ์ต์ ๋์์ฃผ๊ณ ์ ํ๋ค. ์๊ธฐ ์ง๋ ํ์ต์ด๋ ์ถ๊ฐ์ ์ธ ์ธ๋ถ ๊ฐ๋ ์ ํธ ์์ด, ๋ฐ์ดํฐ ์์ฒด์์ ์ ์ํ ๋ณด์กฐ ๊ณผ์ (auxiliary task)๋ฅผ ํตํด ํํ ํ์ต์ ์ํํ๋ ๊ธฐ๋ฒ์ด๋ค. ๊ณผ๊ฑฐ์๋ ๋ช๋ช ์ฐ๊ตฌ์์ ์ด๊ฐ ์ ํธ์ ๋ํ SSL ์๋๋ฅผ ํ๊ธด ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์๊ฐ-์ด๊ฐ ๋ณตํฉ ์ ๋ ฅ์ ์ด๋ฏธ์ง ์ฆ๊ฐ์ ์ ์ฉํ๊ฑฐ๋, ๋ง์คํฌ ๋ณต์(masked reconstruction) ๋ฐฉ๋ฒ์ผ๋ก ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ์๋๋ฅผ ํ ๋ฐ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ํ ๋ณํ์ ํต์ฌ ํน์ง(์: ๋ฌผ์ฒด์ ์๋๋ ๋ง์ฐฐ ์ ๋ณด ๋ฑ)์ ์ ์ฌ ํํ์ ์ถฉ๋ถํ ๋ด์ง ๋ชปํ๊ณ , ๋ณต์กํ ์ ์ด์ ํ์ํ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ ๋ฐ ํ๊ณ๊ฐ ์์๋ค๊ณ ์ ์๋ค์ ์ง์ ํฉ๋๋ค.
์ด์ ๋ณธ ๋ ผ๋ฌธ์ ์ค์ฌ ๋ชฉํ๋ ๋ค์ํ ๋ก๋ด ์ ์ด ๊ณผ์ ์์ ์ด๊ฐ ๊ด์ฐฐ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋ ๋ฒ์ฉ์ ์ธ SSL ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด์์ต๋๋ค. ์ด๋ฅผ ์ํด ์๊ฐ ๋๋ ์ฌ๋ ์นด๋ฉ๋ผ ๋ฑ์ ๋ค๋ฅธ ๊ฐ๊ฐ์ ์์ ๋ฐฐ์ ํ๊ณ ์ด๊ฐ์๋ง ์ง์คํ์์ผ๋ฉฐ, ํ์ค ์ ์ฉ์ ์ผ๋์ ๋๊ณ ๊ฐ์ฅ ๋จ์ํ๊ณ ์ ๋ ดํ ํํ์ ์ด๊ฐ ์ผ์ ์ธํ ์ธ ์คํ์ค ์ด์ง ์ ์ด(binary contact) ์ ๋ณด์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ์ด์ง ์ ์ด ์ ํธ๋ ๋ง ๊ทธ๋๋ก ๊ฐ ์ด๊ฐ ์ผ์ ์ง์ ์์ ์ ์ด์ด ์์ผ๋ฉด 1, ์์ผ๋ฉด 0์ผ๋ก ํ์ํ๋ ํํ์ ๋๋ค. ์ด๋ฌํ ๋จ์ํ๋ ์ฐ์์ ์ธ ์ด๊ฐ ๊ฐ์ ๋นํด ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ์ฐจ์ด๋ฅผ ์ค์ฌ์ฃผ๊ณ , ๊ณ ๊ฐ์ ์ผ์ ์์ด๋ ๊ตฌํ ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๋ํ ์ ์๋ค์ ๊ต์ฌ-ํ์ ๋คํธ์ํฌ(privileged teacher-student imitation)์ฒ๋ผ ์ด์์ ์ธ ์ ๋ณด๋ฅผ ๋ชจ๋ฐฉํ๋ ๊ฐ์ ๋ฐฉ์ ๋์ , ์จ์ ํ ์ผ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง์ ์ ์ฑ ์ ํ์ตํ๋ ์ ๊ทผ์ ํํ์ต๋๋ค. ์์ปจ๋, ์ ์ ์ผ๋ก ๋ก๋ด์ โ๊ฐ๊ฐโ๋ง์ผ๋ก ํ์ตํ์ฌ ์ด์์ ์ธ ์ํ ์ ๋ณด ์์ด๋ ์ถฉ๋ถํ ์ ์ด ์ฑ๋ฅ์ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ๋ณธ ์ฐ๊ตฌ์ ํฐ ๊ทธ๋ฆผ์ ๋๋ค.
๋ฌธ์ ์ ์ ๋ฐ ๊ฐํํ์ต ์ค์
์ด ๋ ผ๋ฌธ์์ ๋ค๋ฃจ๋ ๋ฌธ์ ๋ ๋ถ๋ถ ๊ด์ธก ๋ง์ฝํ ๊ฒฐ์ ๊ณผ์ (Partially-Observable Markov Decision Process, POMDP)์ผ๋ก ๊ณต์ํ๋ฉ๋๋ค. ๋ก๋ด์ ํ๊ฒฝ์ ์์ ํ ์ํ๋ฅผ ์ง์ ๊ด์ธกํ ์ ์๊ณ , ๋์ ์ ํ๋ ์ผ์ ์ ๋ณด์ ์ด๋ ฅ๋ง์ ๊ด์ฐฐ๋ก ์ป์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๊ฐ์ ์ ์ธํ๊ณ ๋ก๋ด ๊ด์ ๋ฐ์ดํฐ(ํ๋ฆฌ์คํ๋ฆฌ์ ์ )์ ์ด๊ฐ ์ผ์ ๋ฐ์ดํฐ์ ์ต๊ทผ k ์คํ ํ์คํ ๋ฆฌ o_t = \[o_{t-k+1}, \..., o_t\]๋ฅผ ํ๋์ ๊ด์ฐฐ๋ก ๋ฐ์๋ค์ด๋ ๊ตฌ์กฐ์ ๋๋ค. ๊ด์ ๋ฐ์ดํฐ์๋ ๊ด์ ๊ฐ๋, ๊ด์ ์๋, ๊ทธ๋ฆฌ๊ณ ๋ฐ๋ก ์ด์ ํ์์คํ ์ ์คํ ์ก์ ๋ฑ์ด ํฌํจ๋๊ณ , ์ด๊ฐ ๋ฐ์ดํฐ๋ ๋ค์์ ์ ์ด ์ผ์๋ค์์ ๋ฐ์ํ ์ด์ง ์ ์ด ์ ํธ๋ค์ ๋๋ค. ์ด ๊ด์ฐฐ ํ์คํ ๋ฆฌ๋ฅผ ํตํด ํ์ฌ ์ํ์ ๋ํ ๋จ์๋ฅผ ์ป๊ณ , ์์ด์ ํธ(policy \pi_\theta)๋ ๊ทธ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ๋ a_t๋ฅผ ์ ํํ์ฌ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ๋ถ๋ถ ๊ด์ธก ํ๊ฒฝ์์ ๊ณผ๊ฑฐ ๋ช ์คํ ์ ๋ฐ์ดํฐ๋ฅผ ์์ ์ฐ๋ ๊ฒ์, ํ์ฌ ์๊ฐ์ ๊ฐ์ง๋์ง ์๋ ๋ฌผ์ฒด์ ์ด๋ ๋ฑ์ ์ด๋ ฅ ์ ๋ณด๋ก ๋ณด์ํ๊ธฐ ์ํจ์ ๋๋ค.
์คํ์์๋ ๋ํ์ ์ธ ๊ทผ์ ์ผ์/์ด๊ฐ ์ฅ์ฐฉ ๋ก๋ด์ผ๋ก์ ํ๋์นด(Franka) ์๊ณผ ์๋์ฐ ํธ๋(Shadow Hand)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ๋์นด ์์ 7์์ ๋ ๋ก๋ดํ๋ก, ์๊ฐ๋ฝ ๋ง๋จ์ ๊ฐ๋จํ ์ด๊ฐ ํจ๋(์ด์ง ์ ์ด ์ผ์) 2๊ฐ๋ฅผ ๋ถ์ฐฉํ ์ค์ ์ด๊ณ , ์๋์ฐ ํธ๋๋ ์ธ๊ฐ ์๊ณผ ์ ์ฌํ 20์์ ๋ ๋ก๋ด ์์ผ๋ก ์๊ฐ๋ฝ ๋ง๋ ๋ฐ ์๋ฐ๋ฅ ๋ฑ ์ด 17๊ณณ์ ์ ์ด ์ผ์๊ฐ ๋ถํฌ๋ ๊ฒ์ผ๋ก ๋ชจ๋ธ๋งํ์ต๋๋ค. ๊ด์ฐฐ ํ์คํ ๋ฆฌ ๊ธธ์ด k๋ ์คํ ๊ณผ์ ์ ๋ฐ๋ผ ์ ์ ํ ์ค์ ๋์ด, ํ์์ ๋ฐ๋ผ ์๋ฐฑ ๋ฐ๋ฆฌ์ด ์ด๋ด์ ์ต๊ทผ ์ผ์ ์ ๋ณด๋ฅผ ํตํฉํ๋๋ก ํ์ต๋๋ค. ์ด๋ฌํ ์ค์ ์์ ์ด์์ ์ธ ๋ฌผ์ฒด ์์น๋ ์๊ฐ ์ ๋ณด๋ ์ ํ ์ฌ์ฉ๋์ง ์์ผ๋ฉฐ, ์ค์ง ๋ก๋ด ์์ ์ ๊ด์ ๋ฐ ์ด๊ฐ ์ผ์ ์ ๋ณด๋ง์ผ๋ก ํ์ต์ด ์ด๋ค์ง๋๋ค.
ํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์๋ค์ PPO(Proximal Policy Optimization) ๊ธฐ๋ฐ์ on-policy ๊ฐํํ์ต์ ์ฌ์ฉํ์ต๋๋ค. ๋ค๋ง ๊ธฐ๋ณธ PPO ๊ตฌํ์ ๋ช ๊ฐ์ง ์ปค์คํฐ๋ง์ด์ฆ๋ฅผ ํ๋๋ฐ, ๋ฐ๋ก ๋ค์ค ํ๊ฒฝ ๋ณ๋ ฌ ํ์ต(์์ฒ ๊ฐ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๋ณ๋ ฌ ์คํ)๊ณผ ๊ด์ฐฐ ํ์คํ ๋ฆฌ ์คํํน, ๊ทธ๋ฆฌ๊ณ ๋ณธ ๋ ผ๋ฌธ์ ํต์ฌ์ธ ์๊ธฐ์ง๋ ๋ณด์กฐ ์์ค(SSL) ํตํฉ ๋ฑ์ด ์ ์ฉ๋์์ต๋๋ค. ํนํ 4096๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์์ ํ์ตํ๊ณ 100๊ฐ์ ํ๊ฒฝ์ผ๋ก ํ๊ฐํ๋ ๋ฑ ๋๊ท๋ชจ ๋ณ๋ ฌํ๋ฅผ ํตํด ์ํ ํจ์จ์ ๋์์ผ๋ฉฐ, ๊ฐ ๊ธฐ๋ฒ์ ํจ๊ณผ๋ฅผ ์ ๋๋ก ๋น๊ตํ๊ธฐ ์ํด ํ๊ฒฝ ๋ฐ ๊ธฐ๋ฒ๋ณ๋ก ์ธ๋ฐํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋(Optuna ๊ธฐ๋ฐ ๋๋ค ํ์ 20ํ)์ด ์ํ๋์์ต๋๋ค. ํ์ต์๋ 8๊ฐ์ GPU์ ์๋นํ ์๊ฐ(๊ฐ ์คํ ์ฝ 60์๊ฐ ร ์ฌ๋ฌ ์กฐ๊ฑด)์ด ํฌ์ ๋์๋๋ฐ, ์ด๋ ๋ณต์กํ ์ด๊ฐ ์๋ฎฌ๋ ์ด์ ๊ณผ ๋ค์ค ๋ณ๋ ฌ ํ๊ฒฝ์ผ๋ก ์ธํ ๋์ ์ฐ์ฐ ๋ถํ ๋๋ฌธ์ ๋๋ค.
๋ชจ๋ธ ๊ตฌ์ฑ ๋ฐ ์๊ธฐ ์ง๋ ํ์ต ๊ธฐ๋ฒ
๋ณธ ์ฐ๊ตฌ์ ์์ด์ ํธ ๊ตฌ์กฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ด์ฐฐ ์ธ์ฝ๋์ ์ ์ฑ ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋จผ์ ๋ก๋ด์ ๊ด์ ์ํ+์ด๊ฐ ํ์คํ ๋ฆฌ ๊ด์ฐฐ o_t๊ฐ ์ธ์ฝ๋ ๋คํธ์ํฌ f_\phi์ ์ ๋ ฅ๋์ด ์ ์ฌ ํํ z_t๋ก ๋ณํ๋ฉ๋๋ค. ์ด z_t๋ ์ ์ฐจ์ ์ํ ํํ์ผ๋ก, ์ดํ ์ ์ฑ ๋คํธ์ํฌ \pi_\theta(z_t)์ ๊ฐ์นํจ์ V_\psi(z_t)์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋์ด ํ๋์ ๊ฒฐ์ ํฉ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก \pi_\theta์ V_\psi๋ PPO๋ก ํ์ต๋๋ฉฐ, ์ด๋ ์ธ์ฝ๋ f_\phi๋ ์ ์ฑ ๊ทธ๋ผ๋์ธํธ์ ๊ฐ์น ์์ค์ ์ํด ๊ฐ์ด ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ์ฌ๊ธฐ์ ๋ํด, ์ ์๋ค์ ์ธ์ฝ๋ f_\phi๊ฐ ๋ณด๋ค ์ ์ฉํ ํน์ง์ ์ถ์ถํ๋๋ก ๋๊ธฐ ์ํด 4๊ฐ์ง ์๊ธฐ ์ง๋ ํ์ต(SSL) ๋ณด์กฐ ๊ณผ์ ๋ฅผ ์ถ๊ฐํ์ต๋๋ค. ์ด๋ฌํ ๋ณด์กฐ ๊ณผ์ ๋ค์ ์ธ์ฝ๋ ์ถ๋ ฅ z_t์ ๋ํด ๋ณ๋์ ๋ณด์กฐ ๋คํธ์ํฌ๋ค์ ์ด์ฉํด ์ ์๋๋ฉฐ, ์ธ์ฝ๋ ํ๋ผ๋ฏธํฐ \phi๋ ์ด ๋ณด์กฐ ๊ณผ์ ์์ค๋ ํจ๊ป ์ต์ํํ๋๋ก ํ์ต๋ฉ๋๋ค. ๋ณด์กฐ ๊ณผ์ ์์ ์ฌ์ฉํ๋ ๋ณด์กฐ ๋คํธ์ํฌ๋ค์ ํ์ต ํ ํ๊ธฐ๋๋ฉฐ ์ค์ ์ ์ฑ ์คํ ์์๋ ์ฌ์ฉ๋์ง ์์ต๋๋ค.
์ ์๋ ์๊ธฐ ์ง๋ ํ์ต ๋ชฉํ๋ค (SSL Objectives)
์ ์๋ค์ ์ด๊ฐ ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ์ํ ๋ค ๊ฐ์ง์ SSL ๋ณด์กฐ ๋ชฉํ๋ฅผ ์ ์ํ๊ณ ๋น๊ตํ์ต๋๋ค. ์๋๋ ๊ฐ ๋ชฉํ์ ๊ทธ ๋ชฉ์ ํจ์์ ๋ํ ์ค๋ช ์ ๋๋ค:
์ด๊ฐ ์ฌ๊ตฌ์ฑ (Tactile Reconstruction, TR): ์ธ์ฝ๋ f_\phi๊ฐ ์ถ๋ ฅํ ์ ์ฌ ํํ z_t์์ ํ์ฌ ์ด๊ฐ ๊ด์ฐฐ o_t^{tactile}์ ๋ณต์ํ๋๋ก ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก z_t๋ฅผ ์ ๋ ฅ์ผ๋ก ๋์ฝ๋ ๋คํธ์ํฌ g_{TR}๋ฅผ ํต๊ณผ์์ผ ์๋ ์ด๊ฐ ์ผ์๋ค์ ์ด์ง ์ ์ด ์ ํธ ๋ถํฌ \hat{o}_t^{tactile}๋ฅผ ์์ธกํ๊ณ , ์ค์ ์ ์ด ์ ํธ o_t^{tactile}์ ๋น๊ตํ์ฌ ์ด์ง ํฌ๋ก์ค์ํธ๋กํผ(Binary Cross-Entropy) ์์ค๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด๊ฐ ์ ํธ๋ ์ ์ด์ด ๋๋ฌธ๋๋ฌธ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ 0์ผ๋ก ์ฑ์์ง ํฌ์ ๋ฒกํฐ์ธ๋ฐ, ํ์ต ์ ๊ฑฐ์ง ์์ฑ(false negative), ์ฆ ์ค์ ์ ์ด์ ๋์น๋ ๊ฒฝ์ฐ๋ฅผ ํนํ ํฌ๊ฒ ํจ๋ํฐ ์ฃผ์ด์ผ ์๋ฏธ ์๋ ํํ์ด ํ์ต๋ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์์ฑ(์ ์ด) ์ฌ๋ก์ ๋ํ ๊ฐ์ค์น๋ฅผ ๋์ฌ ๋์นจ์ ์ต์ํํ๋๋ก ์ค๊ณํ์ต๋๋ค. ์ด ๋ชฉํ๋ฅผ ํตํด ์ธ์ฝ๋๊ฐ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋ฒ๋ฆฌ์ง ์๊ณ ์ ์ฌ ํํ์ ๋ณด์กดํ๋๋ก ์ ๋ํฉ๋๋ค.
์ ์ฒด ๊ด์ฐฐ ์ฌ๊ตฌ์ฑ (Full Reconstruction, FR): ์ด๊ฒ์ ์์ TR์ ํ์ฅํ์ฌ, ์ ์ฌ ํํ z_t๋ก๋ถํฐ ๋ก๋ด ๊ด์ (Proprioception)๊ณผ ์ด๊ฐ ๋ชจ๋๋ฅผ ๋ณต์ํ๋๋ก ํ๋ ๊ณผ์ ์ ๋๋ค. ๋ณ๋์ ๋์ฝ๋ g_{FR}๊ฐ z_t๋ก๋ถํฐ ๊ด์ ์ํ \hat{o}_t^{prop}์ ์ด๊ฐ \hat{o}_t^{tactile}๋ฅผ ๋์์ ์์ธกํ๊ฒ ํ๋ฉฐ, ์์ค ํจ์๋ ์ด๊ฐ ๋ถ๋ถ์ BCE ์์ค + ๊ด์ ์ฐ์๊ฐ์ ๋ํ ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE)์ ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ธ์ฝ๋์ ์ ์ฒด ๊ด์ฐฐ์ ์ ๋ณด ๋ณด์กด์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ํ๋ฉด์ ์ผ๋ก๋ ๊ฐ์ฅ ๋ง์ ์ ๋ณด๋ฅผ ์์ถํ๋ ๋ชฉํ์ ๋๋ค. ๋ค๋ง, ๋ชจ๋ ์ ๋ณด๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ค๋ค ๋ณด๋ฉด ์ ์ฑ ์ ๋ถํ์ํ ์ธ๋ถ์ฌํญ๊น์ง ํํ์ ๋จ์ ์์ ์ ์๋ค๋ ์ฐ๋ ค๋ ์์ต๋๋ค.
์ ๋ฐฉ ๋์ญํ ์์ธก (Forward Dynamics, FD): ์ธ์ฝ๋ ํํ์ด ๋ฏธ๋ ์ํ๋ฅผ ์์ธกํ ์ ์๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ๊ฐํํ์ต ์ฐ๊ตฌ์์ ์์ฃผ ์ฐ์ด๋ ๋ค์ค ์คํ forward model ์์ด๋์ด๋ฅผ ์ด๊ฐ ํ๊ฒฝ์ ์ ์ฉํ ๊ฒ์ผ๋ก, z_t์์ ์์ํ์ฌ ์์ผ๋ก n ์คํ ํ์ ์ ์ฌ ํํ๋ค์ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋๋ก ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ํ์ฌ ์ ์ฌ ์ํ z_t์ ์ก์ a_t๋ฅผ ์ ๋ ฅ์ผ๋ก 1-step ์์ธก ๋ชจ๋ธ h_{\theta}๊ฐ ๋ค์ ์ ์ฌ ์ํ \hat{z}*{t+1}์ ์์ธกํ๊ณ , ์ด๋ฅผ ๋ค์ ์ ๋ ฅ ์ผ์ a*}์ ํจ๊ป \hat{z*{t+2}๋ฅผ ์์ธกํ๋ ์์ผ๋ก ์คํ ๋ฆฌ๊ทธ๋ ์๋ธํ๊ฒ n๋จ๊ณ ๋ฏธ๋๊น์ง ์์ธกํฉ๋๋ค. ์์ธก์ ๋ชฉํ์น๋ ์ธ์ฝ๋์ ํ๊น ๋คํธ์ํฌ f*์ ๋๋ค. ์์ธก ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด, ์์ธก ์ถ๋ ฅ์ ํ ๋ฒ ๋ }}}$ (์ธ์ฝ๋์ ํ๋ผ๋ฏธํฐ EMA ๋ณต์ฌ๋ณธ)์ ์ํด ๊ณ์ฐ๋ ์ค์ ๋ฏธ๋ ์ ์ฌํํ $z_{t+k๋น์ ํ ํฌ์(projection) p(\cdot)์ ์ ์ฉํ ๋ค ์ด์ ํ๊น ํํ z_{t+k}^{tgt} ์ฌ์ด์ Mean Squared Error ์์ค์ ๋์ ํฉ์ฐํ์ฌ FD ์์ค๋ก ์ผ์ต๋๋ค. ๊ฐ๋จํ ๋งํด, ์ธ์ฝ๋ ํํ z_t๊ฐ ํฅํ ๋ช ์คํ ์ ๋์ ์ธ ๋ณํ๋ฅผ ์ค๋ช ํ ์ ์๋๋ก ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ๋ค๋จ๊ณ ๋์ญํ ์์ธก์ด ํนํ ์ด๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ ํ๊ฒฝ์์ ์ ์ฉํ ๊ฒ์ผ๋ก ๋ณด๊ณ , ํต์ฌ SSL ๊ธฐ๋ฒ์ผ๋ก ๊ฐ์กฐํ์ต๋๋ค.
์ด๊ฐ ์กฐ๊ฑด ์ ๋ฐฉ ์์ธก (Tactile Forward Dynamics, TFD): ์ด๊ฒ์ FD์ TR์ ๊ฒฐํฉํ ์๋ก์ด ์ ์์ ๋๋ค. FD์์๋ ์ ์ฌ ์ํ๋ง ์ ํํ ์์ธกํ๋ฉด ๋์ง๋ง, TFD์์๋ ์์ธกํ ์ ์ฌ ์ํ๋ก๋ถํฐ ๋ค์ ์ด๊ฐ ์ ํธ๋ฅผ ๋ณต์ํ๋ ๊ณผ์ ์ ์ถ๊ฐํฉ๋๋ค. ์ฆ ํ ์คํ ๋ฏธ๋๋ฅผ ์์ธกํ \hat{z}*{t+1}๋ฅผ ๋์ฝ๋๋ฅผ ํตํด \hat{o}*๊ณผ ๋น๊ตํ์ฌ }^{tactile}$๋ก ๋ณํํ๊ณ ์ค์ ์ ์ด ์ ํธ $o_{t+1}^{tactileBCE ์ฌ๊ตฌ์ฑ ์์ค์ ๊ณ์ฐํฉ๋๋ค. ์ด tactile ์ฌ๊ตฌ์ฑ ์์ค์ ๊ธฐ์กด FD ์์ค์ ๋ํ์ฌ TFD์ ์ต์ข ์์ค๋ก ๋ง๋ญ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ฏธ๋ ์์ธก๊ณผ ์ด๊ฐ ์ธ๋ถ์ ๋ณด ๋ณต์์ ๋์์ ๋ง์กฑํ๋ ํํ์ ํ์ต์ํค๋ฉฐ, ํนํ ๋ฏธ๋์ ์ ์ด ๋ฐ์ ์ฌ๋ถ๊น์ง ์ ์ฌ ํํ์ ๋ น์ฌ๋ด๋๋ก ์ ๋ํฉ๋๋ค. ์ ์๋ค์ด ๋ฐํ ๋ฐ์ ๋ฐ๋ฅด๋ฉด, TFD๋ ์ด๊ฐ ๋์ญํ๊น์ง ๋ชจ๋ธ๋งํ๋ ์๋ก์ด ๋ชฉํ๋ก์ ์ ์๋์์ง๋ง, ์ฑ๋ฅ ๋ฉด์์๋ ํ๊ฒฝ์ ๋ฐ๋ผ FD์ TR ์ฌ์ด์์ ๋ค์ ์์ดํ ์์์ ๋ณด์์ต๋๋ค (์์ธํ ๊ฒฐ๊ณผ๋ ๋ค์์ ์ธ๊ธ).
์ด์์ ๋ณด์กฐ ๋ชฉํ๋ค์ ๋ชจ๋ ์ ์ฑ ์ ์ฃผ ์์ค(PPO ์์ค)์ ๊ฐ์ค์น๋ก ๋ํด์ ธ ๋์์ ์ต์ ํ๋ฉ๋๋ค. ๋ณด์กฐ ์์ค๋ก ์ธ์ฝ๋๋ฅผ ํ๋ จํ ๋ ์ค์ํ ์ ์, ์ค์ ์ ์ฑ ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ๋๋์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก on-policy RL์์๋ ๋งค ์ํฌํฌ ์๋ก์ด ๋กค์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ณ ๋ฐ๋ก ํ์ต์ ์ฌ์ฉํ ๋ค ํ๊ธฐํ๋๋ฐ, ์ ์๋ค์ ์ด๋ฌํ ๋น ๋ฅด๊ฒ ๋ฐ๋๋ ๋ฐ์ดํฐ๋ก SSL์ ํ์ตํ๋ฉด ์์ค ์งํญ์ด ๋ถ์์ ํด์ง๋ ํ์์ ๊ด์ฐฐํ์ต๋๋ค. ์ด๋ ํนํ ์ํผ์๋๊ฐ ๋๋ ๋ ์ ์ด ์ ํธ๊ฐ ๊ฐ์๊ธฐ ์ฌ๋ผ์ง๋ ๋ฑ ๋ฐ์ดํฐ ๋ถํฌ์ ์ด์ฐ์ ๋ณํ๊ฐ ์์ธ์ธ ๊ฒ์ผ๋ก ํ์ ํ์ต๋๋ค.
๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ ๋ถ๋ฆฌ ๊ธฐ๋ฒ (Separated Auxiliary Memory)
๋ฐ์ดํฐ ๋ถ์์ ๋ฌธ์ ๋ฅผ ์ํํ๊ณ ๋ ํ๋ถํ ๊ฒฝํ์ ๊ธฐ๋ฐํ ๋ณด์กฐ ํ์ต์ ํ๊ธฐ ์ํด, ์ ์๋ค์ SSL ํ์ต์ ์ํ ๋ณ๋์ ๋ฉ๋ชจ๋ฆฌ ๋ฒํผ๋ฅผ ๋์ ํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, PPO์ on-policy ๋กค์์ ๋ฉ๋ชจ๋ฆฌ(์: N_{env} \times T steps)์ ๋ถ๋ฆฌ๋ ๋์ฉ๋ ๋ฒํผ๋ฅผ ๋ง๋ค์ด, ์ฌ๋ฌ ์ํผ์๋์ ๊ฑธ์น ๊ฒฝํ์ ๋์ ์ ์ฅํ ๋ค ์ด ๋ฐ์ดํฐ๋ก SSL ๋ณด์กฐ์์ค์ ๊ณ์ฐํ๋ ๋ฐฉ์์ ๋๋ค. ์์ปจ๋ PPO์ ํ ๋ฒ ๋กค์์์ผ๋ก 4096 \times 32 ์คํ ์ ๋ฐ์ดํฐ๊ฐ ์์ธ๋ค๋ฉด, SSL ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ๋ ๊ทธ ๋ช ๋ฐฐ(๋ ผ๋ฌธ์์๋ 4๋ฐฐ ๋ฑ ๊ฐ๋ณ์ ) ํฌ๊ธฐ๋ก ์ด์ํ๋ฉฐ ์ฌ๋ฌ ๋กค์์์ ๋ฐ์ดํฐ๋ฅผ ์ง์์ ์ผ๋ก ์ ์งํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ณด์กฐ ๊ณผ์ ํ์ต ์ ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๊ธ๋ณํ์ง ์์ ์์ ์ ์ธ ํ์ต ์ ํธ๋ฅผ ์ป์ ์ ์๊ณ , ๋ค์ํ ์ํฉ์ ์ ์ด ๋ฐ์ดํฐ๋ฅผ ํญ๋๊ฒ ํ์ฉํ ์ ์๋ค๋ ์ด์ ์ด ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๋ฐฉ๋ฒ์ on-policy ๊ฐํํ์ต์ off-policy ์คํ์ผ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ์๋ก์ด ์๋๋ผ ํ ์ ์์ผ๋ฉฐ, ์ด๋ ค์ด ๊ณผ์ ์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค (์คํ ๊ฒฐ๊ณผ ์น์ ์์ ์์ธํ ๋ ผ์).
๊ทธ๋ฆผ 1: ์ ์๋ ์ด๊ฐ ๊ธฐ๋ฐ RL+SSL ๊ตฌ์กฐ์ ์คํ ํ๊ฒฝ. ์๋จ์ Robot Tactile Olympiad (RoTO) ๋ฒค์น๋งํฌ์ ์ธ ๊ฐ์ง ๊ณผ์ (Find, Bounce, Baoding)๋ฅผ ๋ณด์ฌ์ค๋ค. ํ๋จ์ ์์ด์ ํธ์ ๋ฉํฐ๋ชจ๋ฌ ๊ด์ฐฐ(k ์คํ ์ ๊ด์ +์ด๊ฐ ํ์คํ ๋ฆฌ) ์ ๋ ฅ์ด ์ธ์ฝ๋๋ฅผ ๊ฑฐ์ณ ์ ์ฌ ํํ z_t๋ก ๋ณํ๋๊ณ , ์ด z_t๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ \pi๊ฐ ํ๋์ ์ ํํ๋ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค. ์๊ธฐ ์ง๋ ํ์ต ๋ชฉํ๋ค์ ์ธ์ฝ๋ f_\phi์ ํ์ต์ ๋์์ฃผ๋ฉฐ, ๊ทธ๋ฆผ์๋ ์ด๊ฐ ์ฌ๊ตฌ์ฑ(TR)๊ณผ ์ ๋ฐฉ ๋์ญํ ์์ธก(FD)์ ๊ฐ๋ ๋๊ฐ ์์๋ก ํ์๋์ด ์๋ค.
์คํ ํ๊ฒฝ: Robot Tactile Olympiad (RoTO) ๋ฒค์น๋งํฌ
๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋๋ Robot Tactile Olympiad (RoTO)๋ผ ๋ช ๋ช ๋ ํ์คํ๋ ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ ๊ฒ์ด๋ค. RoTO๋ ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ์ ์ด ํจํด์ ๊ณผ์ ๋ฅผ ํตํด ์ ์๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๋ค. ์ธ ๊ณผ์ ๋ชจ๋ NVIDIA Isaac Gym/Isaac Lab ์๋ฎฌ๋ ์ดํฐ ์์ ๊ตฌ์ถ๋์์ผ๋ฉฐ, 120Hz ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ๊ณผ 60Hz ์ ์ด ์ฃผ๊ธฐ๋ก ์คํ๋๋ค. ๊ฐ ๊ณผ์ ์ ๊ฐ์๋ ๋ค์๊ณผ ๊ฐ๋ค:
Find: ์ฑ ์ ์ 20cm ร 20cm ์์ญ ๋ด ๋ฌด์์ ์์น์ ๋์ธ ์์ ๊ตฌ์ฒด(์คํผ์ด)๋ฅผ ๋ก๋ดํ(Franka)์ด ์ ํ ์๊ฐ ๋ด ์ด๊ฐ์ผ๋ก ์ฐพ์๋ด๋ ๊ณผ์ ์ ๋๋ค. ์์ด์ ํธ๋ 5์ด (300 ์คํ ) ๋์ ์๊ฐ๋ฝ ๋์ ์ ์ด์ ํตํด ๊ณต์ ์ฐพ์ ์ ์ดํด์ผ ํฉ๋๋ค. ์ฑ๊ณต์ ์ํด์๋ ํ์ ๋์ ์ ๋ต๊ณผ ์ ๊ทน์ ์ด๊ฐ ํ์ง๊ฐ ์๊ตฌ๋ฉ๋๋ค. (ํ๋์นด ์๊ฐ๋ฝ์ 2๊ฐ์ ์ด๊ฐ ํจ๋ ํ์ฉ)
Bounce: ์ธ๊ฐ์ ์๋ฐ๋ฅ์ผ๋ก ๊ณต์ ํ๊ธฐ๋ ๋์์ ํด๋นํ๋ฉฐ, ์๋์ฐ ํธ๋๋ฅผ ์ด์ฉํด ๊ณ ๋ฌด๊ณต์ ๊ฐ๋ฅํ ๋ง์ด ๋ฐ๋ฅ์น๊ธฐ(์ฐ์์ ์ผ๋ก ํ๊ฒจ ์ฌ๋ฆฌ๊ธฐ) ํ๋ ๊ณผ์ ์ ๋๋ค. ์์ด์ ํธ๋ 10์ด (600 ์คํ ) ๋์ ๊ณต์ ๋์น์ง ์๊ณ ์ฌ๋ฌ ๋ฒ ํ๊ธฐ๋ ๊ฒ์ด ๋ชฉํ์ด๋ฉฐ, 5 ์คํ ์ด์ ์ฐ์ ๋น์ ์ด ์ํ ํ ๋ค์ ์ ์ด์ด ๋ฐ์ํ๋ฉด ์ด๋ฅผ ํ ๋ฒ์ ์ฑ๊ณต์ ์ธ ๋ฐ์ด์ค๋ก ์ ์ํฉ๋๋ค. ์ฌ์ฉ๋ ๊ณต์ ์ง๋ฆ 70mm, ๋ฌด๊ฒ 30g์ ๋ง๋ํ ๊ณต(์คํธ๋ ์ค ๋ณผ)๋ก ๋ชจ๋ธ๋ง๋์์ผ๋ฉฐ, 10์ด ๋์ ์ด๋ก ์ ์ผ๋ก ์ต๋ 100๋ฒ๊น์ง ํ๊ธธ ์ ์์ต๋๋ค. ์ฐธ๊ณ ๋ก ์ธ๊ฐ์ ๊ธฐ๋ค์ค ์ธ๊ณ ๊ธฐ๋ก์ 10์ด์ 59ํ ๋ฐ์ด์ค๋ผ๊ณ ์๋ ค์ ธ ์์ต๋๋ค. (์๋์ฐ ํธ๋์ ๋ชจ๋ ์๊ฐ๋ฝ ๋ง๋ ๋ฑ์ ์ด 17๊ฐ ์ด๊ฐ ์ผ์ ํ์ฉ)
Baoding: ์ ํต์ ์ธ ๋ฐ์ค๋ ๋ณผ(Baoding balls) ํ์ ๋ฌ๊ธฐ์์ ์ฐฉ์ํ ๊ณผ์ ๋ก, ์๋์ฐ ๋ก๋ด ์์ด ์๋ฐ๋ฅ ์์์ ๋ ๊ฐ์ ๊ธ์๊ตฌ๋ฅผ ์๋ก ๋๋ฌ๊ฐ๋ฉฐ ํ์ ์ํค๋ ์์ ์ ๋๋ค. ์์ด์ ํธ๋ 10์ด ๋์ ๋ ๊ณต์ ์ต๋ํ ๋ง์ด ํ์ ์์ผ์ผ ํ๋ฉฐ, ๊ณต๋ค์ ์ง๋ฆ ์ฝ 3.8cm, ๊ฐ๋น 55g์ผ๋ก ์ค์ ๋์์ต๋๋ค. ์ด ๊ณผ์ ๋ ์ง์์ ์ธ ๋ค์ค ์ ์ด์ ์๋ฐํ๋ฉฐ ๊ณ ๋๋์ ์์ฌ์ฃผ๋ฅผ ์ํฉ๋๋ค. ์ธ๊ฐ์ ๊ฒฝ์ฐ ์๋ จ์๋ 10์ด์ ์ฝ 13ํ ํ์ ์ด ์ต๋ ์์ค์ผ๋ก ๋ณด๊ณ ๋์ด ์์ต๋๋ค.
์ธ ๊ฐ์ง ๊ณผ์ ๋ ๊ฐ๊ฐ ๋๋ฌธ ์ ์ด(Find), ์ฃผ๊ธฐ์ /๊ฐํ์ ์ ์ด(Bounce), ์ง์ ๋ณต์ก ์ ์ด(Baoding) ์ํฉ์ ๋๋ณํ๋ฉฐ, ์ด๊ฐ ์ ๋ณด์ ์ ์ฉ์ฑ์ด ๋ค๋ฅด๊ฒ ๋ํ๋ ์ ์๋ ํญ๋์ ์๋๋ฆฌ์ค๋ฅผ ํฌ๊ดํฉ๋๋ค. ์ ์๋ค์ ์ด ํ๊ฒฝ๋ค๊ณผ ํ๋๋ ๋ฒ ์ด์ค๋ผ์ธ ๊ตฌํ์ ๊ณต๊ฐํ์ฌ, ์์ผ๋ก ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ๊ฐ ๊ณตํต๋ ํ๋ซํผ ์์์ ๋น๊ต๋๊ณ ๋ฐ์ ๋ ์ ์๋๋ก ์ฅ๋ คํ๊ณ ์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
์คํ ๊ฒฐ๊ณผ๋ ์ฃผ๋ก (1) ์ด๊ฐ ์ ๋ณด์ ํจ๊ณผ, (2) SSL ๋ณด์กฐ ํ์ต์ ํจ๊ณผ, (3) ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ ๋ถ๋ฆฌ์ ํจ๊ณผ์ ์ธ ๊ฐ๋๋ก ๋๋์ด ๋ถ์๋์์ต๋๋ค. ๊ฐ ๊ฒฐ๊ณผ๋ 5๊ฐ ์๋์ ๋ํ ํ๊ท ์ฑ๋ฅ๊ณก์ ๊ณผ ํ์คํธ์ฐจ๋ก ๋ณด๊ณ ๋์์ผ๋ฉฐ, ์ต์ข ์ฑ๋ฅ์ ๋ฌผ๋ฆฌ์ ์ธ ์ฑ๊ณต ํ์๋ ์๊ฐ ๋ฑ์ผ๋ก๋ ํด์๋์์ต๋๋ค.
1. ์ด๊ฐ ์ ๋ณด์ ํจ๊ณผ (RL-only ๋์กฐ๊ตฐ)
๋จผ์ ๊ฐํํ์ต๋ง์ผ๋ก ํ์ตํ ์ธ ๊ฐ์ง ์์ด์ ํธ๋ฅผ ๋น๊ตํ์ต๋๋ค: - Proprioceptive-only: ๊ด์ ์ํ ์ ๋ณด๋ง ์ฌ์ฉ (์ด๊ฐ ๋ฏธํฌํจ) - Proprioceptive + Tactile: ๊ด์ + ์ด๊ฐ ์ ๋ณด ๋ชจ๋ ์ฌ์ฉ - Proprioceptive (no last action): ์ฐธ๊ณ ๋ก ๊ด์ ์ ๋ณด ์ค ์ง๋ ์คํ ์ ์ก์ ํญ๋ชฉ์ ์ ์ธํ ๋ฒ์ (Find ๊ณผ์ ์์ ์ด ์์์ ์ํฅ ํ์ธ์ฉ)
์ด ๋น๊ต๋ฅผ ํตํด ์์ ์ด๊ฐ ์ ๋ณด์ ์ด๋์ ํ๊ฐํ๋๋ฐ, ๊ฒฐ๊ณผ๋ ๊ณผ์ ์ ๋ฐ๋ผ ์์ดํ์ต๋๋ค:
Find: ์ด๊ธฐ ํ์ต์์๋ ์ด๊ฐ ํฌํจ ์์ด์ ํธ๊ฐ ์ฝ๊ฐ ๋ ๋น ๋ฅด๊ฒ ๊ณต์ ์ฐพ์์ง๋ง, ์ต์ข ์ฑ๋ฅ์ ์ด๊ฐ์ ๋นผ๋ ๋์ผํ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ๊ด์ -only ์์ด์ ํธ์ ์ฑ๋ฅ์ ์ง๋ ์ก์ ์ ๋ณด์ ํฌํจ ์ฌ๋ถ์ ํฌ๊ฒ ์ข์ฐ๋์๋๋ฐ, ์ด๋ ๋ก๋ดํ์ด ์ด์ ์คํ ์ ์๊ฐ๋ฝ์ ๋ป์์ ๋ ์ ์ด ์ฌ๋ถ๋ฅผ ๊ด์ ์ ์ด ์ค์ฐจ๋ก ๊ฐ์ ์ถ๋ก ํ๋ ์ ๋ต์ ํ์ตํ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค. ์ค์ ๋ก ์ ์ฑ ์ ๋ค์ฌ๋ค๋ณด๋, ๋ก๋ดํ์ด ๋ฌด์์๋ก ์์ ๋ป์ด ์ถฉ๋ ๊ฐ๋ฅ์ฑ์ ์ต๋ํํ๋ ํ๋์ ์ทจํ๋ ๋ฑ ์ผ์ข ์ โ๋ชธ์ผ๋ก ๋์ฐ๋โ ํ์ ์ ๋ต์ ๊ตฌ์ฌํ์ต๋๋ค. ๊ฒฐ๊ตญ Find ๊ณผ์ ์์๋ ์ด๊ฐ ์ผ์๊ฐ ์์ด๋ ๊ด์ ๊ฐ๊ฐ๋ง์ผ๋ก๋ ๋ฌผ์ฒด๋ฅผ ์ฐพ์๋ด๋ ํธ๋ฒ์ด ๊ฐ๋ฅํ๋ ์ ์ ๋๋ค.
Bounce: ์ด๊ฐ ์ ๋ณด๋ฅผ ํฌํจํ ๊ฒฝ์ฐ ํ์ต์ด ๋ ๋นจ๋ฆฌ ์งํ๋๊ณ ์ต์ข ์ฑ๋ฅ๋ ๋ค์ ๋๊ฒ ๋ํ๋ฌ์ต๋๋ค. ์ด๊ฐ์ ์ด์ฉํ๋ฉด ๋งค ํ๊ธธ ๋ ๊ณต์ด ์์ ๋ฟ๋ ์ ํํ ์๊ฐ์ ๊ฐ์งํ์ฌ ์ ์ ํ ์๋๋ฅผ ์กฐ์ ํ๋ ๋ฑ ์กฐ๊ธ ๋ ์ ๊ตํ ์ ์ด๋ฅผ ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ฐ๋ฉด ์ด๊ฐ ์๋ ์์ด์ ํธ๋ ์์ธ๋ก ๋์ ์ ์๋ฅผ ๋ฌ์ฑํ๋๋ฐ, ์ด๋ ์๋ฐ๋ฅ์ ํธ ์ฑ ๊ณต์ ๊ท์น์ ์ผ๋ก ํ๊ธฐ๋ ์ํ-๋ฌด๊ดํ(degenerate) ์ ๋ต์ ์จ์ ๊ณต์ด ์ด ์ข๊ฒ๋ ๊ณ์ ์์์ ๋จธ๋ฌผ๋๋ก ๋ง๋ ๊ฒฐ๊ณผ์์ต๋๋ค. ์ฆ, ๋ก๋ด์ด ๊ณต์ โ์ก์ ๊ฐ๋๋ค์ํผ(trapping)โ ํ๋ฉด์ ํ๊ธฐ๋ ๋จ์กฐ๋ก์ด ๋์์ผ๋ก๋ ์ด๋ ์ ๋ ์ฑ๊ณต์ด ๊ฐ๋ฅํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ์ ๋ต์ ์ผ๋ฐ์ฑ์ด ๋จ์ด์ง์ง๋ง, ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ํน์์ฑ์ ํ๊ณ ๋ค์ด ์ด๊ฐ ์์ด๋ ์ฑ๊ณผ๋ฅผ ๋ธ ์๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
Baoding: ๋ ๊ฐ์ ๊ณต์ ๋๋ฆฌ๋ ์ด ๊ณผ์ ์์๋ ์ด๊ฐ์ ์ ๋ฌด๊ฐ ์ฑํจ๋ฅผ ๊ฐ๋ฅด๋ ๊ฒฐ์ ์ ์์์์ต๋๋ค. ์ด๊ฐ์ด ์๋ ์์ด์ ํธ๋ ๋๊น์ง ๊ณต ํ์ ์ ์ ํ ์ฑ๊ณตํ์ง ๋ชปํ๋ ์์ค์ด์์ง๋ง, ์ด๊ฐ ์ ๋ณด๋ฅผ ์ค ์์ด์ ํธ๋ ๋ช ๋ฒ์ด๋ผ๋ ํ์ ์ ์ด๋ค๋ด๋ฉฐ ํ์ต์ ์ฑ๊ณตํ์ต๋๋ค. ๋ค๋ง ์ฑ๋ฅ ๋ถ์ฐ์ด ์ปค์ ์๋์ ๋ฐ๋ผ ์ฑ๊ณต๋ฅ ํธ์ฐจ๊ฐ ์์๋๋ฐ, ์ด๋ ๊ณผ์ ์์ฒด์ ๋์ด๋๊ฐ ๋์ ๋ถ์์ ํ ํ์ต ์์์ ๋ณด์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์์ฝํ๋ฉด Baoding๊ณผ ๊ฐ์ ๋ณต์กํ ์ ์ด ๊ณผ์ ์์๋ ์ด๊ฐ ์์ด ํ์ต์ด ๋ถ๊ฐ๋ฅํ๊ณ , Bounce์ฒ๋ผ ๋น๊ต์ ๋จ์ํ ๋ฐ๋ณต ๋์์ ์ด๊ฐ ์์ด๋ ํธ๋ฒ์ผ๋ก ๊ฐ๋ฅํ๋ฉฐ, Find๋ ์ด๊ฐ์ด ์์ผ๋ฉด ๋์์ ๋์ง๋ง ๊ฒฐ์ ์ ์ด์ง๋ ์๋ค๋ ๊ฒฐ๋ก ์ ๋๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ ํตํด ์ ์๋ค์ โ์ด๊ฐ ์ผ์ฑ์ ์ ์ฉ์ฑ์ ๊ณผ์ ์ ๊ฐํ๊ฒ ์์กด์ โ์ด๋ฉฐ, ์ค์ง ํน์ ์๋๋ฆฌ์ค์์๋ง ๊ด์ ์ ๋ณด๋ก ํฌ์ฐฉ๋์ง ์๋ ๋์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ์ด๊ฐ์ ์ญํ ์ด๋ผ๋ ๊ฐ์ค์ ์ธ์ ์ต๋๋ค. ์ด ๊ฐ์ค์ ๋ท๋ฐ์นจํ๋ ๊ตฌ์ฒด์ ์ธ ์๋๋ฆฌ์ค ๋ถ์์ ์๋ ๋ ผ์์์ ๋ค๋ฃน๋๋ค.
2. ์๊ธฐ์ง๋ ํ์ต์ ํจ๊ณผ (RL+SSL)
๋ค์์ผ๋ก, ์ ์๋ 4๊ฐ์ง SSL ๋ณด์กฐ ๊ณผ์ (TR, FR, FD, TFD)๋ฅผ ๊ฐ๊ฐ ์ ์ฉํ์ ๋ ์ฑ๋ฅ ๋ณํ๋ฅผ ํ๊ฐํ์ต๋๋ค. ๋ชจ๋ ๊ฒฝ์ฐ ๊ด์ +์ด๊ฐ ์ ๋ ฅ์ ์ฌ์ฉํ๋ ์์ด์ ํธ์ ๋ํด ๋น๊ตํ์ต๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด:
TR (์ด๊ฐ ์ฌ๊ตฌ์ฑ) ๊ณผ FD (์ ๋ฐฉ ๋์ญํ): ์ด ๋ ๋ฐฉ๋ฒ์ด ๋ชจ๋ ํ๊ฒฝ์์ ์ผ๊ด๋๊ฒ RL-only ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ฆ, ๋จ์ํ ๊ฐํํ์ต๋ง ํ ๊ฒฝ์ฐ๋ณด๋ค ํญ์ ๋ ๋์ ๋ณด์ ๋๋ ์ฑ๊ณต ํ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ๋ ์ค์์๋ FD ์ ์ฉ ์์ด์ ํธ๊ฐ Find์ Bounce์์ ๋ค์ ๋ ๋์ ํ๊ท ์ฑ๋ฅ์ ๋ณด์๊ณ , Baoding์์๋ TR ์ ์ฉ ์์ด์ ํธ๊ฐ ํ๊ท ์ ์ผ๋ก ๋ ์์ ์ ์ด์์ต๋๋ค. Baoding์ ๊ฒฝ์ฐ FD๋ ์ต๊ณ ์ฑ๋ฅ์ ๋ ๋์์ง๋ง ์๋ ๊ฐ ๋ณ๋์ด ์ปค์, TR์ด ์กฐ๊ธ ๋ฎ์ง๋ง ์์ ์ ์ธ ์ฑ๋ฅ์ผ๋ก ํ๊ท ๊ฐ์ ๋๊ฒ ๋ํ๋ ๊ฒ์ ๋๋ค.
FR (์ ์ฒด ์ฌ๊ตฌ์ฑ) ๊ณผ TFD (์ด๊ฐ+๋์ญํ ๊ฒฐํฉ): ์ด ๋ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ ํ๊ฒฝ์ ๋ฐ๋ผ ๋ค์ฅ๋ ์ฅํ์ฌ ์ผ๊ด๋ ์ฐ์ด์ ๋ณด์ด์ง ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด TFD๋ Find์์ ๋ค ๋ฐฉ๋ฒ ์ค ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋์ง๋ง, Bounce์์๋ ์คํ๋ ค ๊ฐ์ฅ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. FR์ ์ด๋ค ๊ฒฝ์ฐ์ TR๋ณด๋ค ๋ชปํ๊ณ , ์ด๋ค ๊ฒฝ์ฐ์ ๋น์ทํ๊ฑฐ๋ ๋์ ๋ฑ ๋๋ ทํ ํจํด์ด ์์์ต๋๋ค. ์ด๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ณต์ํ๋ ค๋ FR์ด ๋ถํ์ํ ์ก์๊น์ง ํ์ตํ๊ฑฐ๋, TFD์ ๋ณตํฉ ๋ชฉํ๊ฐ ํ์ต์ ๊ณผ๋ณต์กํ๊ฒ ๋ง๋ค์ด ๊ณผ์ ๋ณ๋ก ์๋ฐ๋ ํจ๊ณผ๋ฅผ ๋ณ์์ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์์ ์ ์ด๊ณ ํจ๊ณผ์ ์ธ SSL ๋ณด์กฐ ๋ชฉํ๋ FD๋ก ํ๋จ๋๋ฉฐ, TR๋ ๋จ์ํ์ง๋ง ์ ์ฉํ ๋ณด์กฐ ๋ชฉํ๋ก ํ์ธ๋์์ต๋๋ค. ์ค์ ์ ์๋ค๋ โforward dynamics ๋ชฉํ๊ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ด๋ฉฐ, ๊ฐ์ฒด์ ์์น์ ์๋ ๋ฑ์ ์ ์ธ์ฝ๋ฉํ๋คโ๊ณ ์ธ๊ธํฉ๋๋ค.
๊ทธ๋ฆผ 2: ์๊ธฐ ์ง๋ ํ์ต ๋ณด์กฐ ๊ณผ์ ๋ค์ ๊ตฌ์กฐ. ์๋จ (๋นจ๊ฐ์)์ ์ฌ๊ตฌ์ฑ ๊ณ์ด ๋ชฉํ(TR, FR)๋ฅผ ๋ํ๋ด๋ฉฐ, ์ธ์ฝ๋ ์ถ๋ ฅ z_t์์ ๋์ฝ๋๋ฅผ ํตํด ์๋ ์ด๊ฐ ๊ด์ฐฐ \hat{o}*t^{tactile} (๋ฐ FR์ ๊ฒฝ์ฐ ๊ด์ ๊ด์ฐฐ๊น์ง)์ ๋ณต์ํ๋๋ก ํ๋ค. ํ๋จ (๋ น์)์ ์ ๋ฐฉ ๋์ญํ ๊ณ์ด ๋ชฉํ(FD, TFD)๋ฅผ ๋ณด์ฌ์ค๋ค. ์ธ์ฝ๋ f*\phi์ ์์ธก ๋ชจ๋ธ h_\theta๋ฅผ ์ฌ์ฉํด z_t๋ก๋ถํฐ ๋ค๊ฐ์ฌ ์ ์ฌ์ํ๋ค์ ์์ฐจ ์์ธกํ๋ฉฐ, EMA ํ๊น ์ธ์ฝ๋์ ์ถ๋ ฅ z_{t+k}^{tgt}์ ๋น๊ตํ์ฌ ์์ค์ ๊ณ์ฐํ๋ค. TFD์ ๊ฒฝ์ฐ ์์ธกํ ์ ์ฌ์ํ๋ก๋ถํฐ ๋ค์ ์ด๊ฐ ์ ํธ๋ฅผ ๋์ฝ๋๋ก ๋ณต์ํ๋๋ก ์๊ตฌํ์ฌ, ๋ฏธ๋ ์ ์ด๊น์ง ์์ธกํ๋๋ก ๋ง๋ ๋ค. ์ด๋ฌํ ๋ณด์กฐ ํ์ต์ ํตํด ์ธ์ฝ๋๋ ๋จ์ RL๋ก ํ์ตํ ๋๋ณด๋ค ๋ ํ๋ถํ ์ ๋ณด(์: ๋ฌผ์ฒด์ ์์น, ์ ์ด ์์ , ์๋ ๋ฑ)๋ฅผ ์ ์ฌ ํํ์ ํจ์ถํ๊ฒ ๋๋ค.
- ํ์ต ์์ ์ฑ ๋ฐ ํํ ๋ถ์: FD์ TR์ด ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ด์ ๋, ์ธ์ฝ๋๊ฐ ๊ณผ์ ์ ํ์ํ ํต์ฌ ์ ๋ณด์ ์ง์คํ๋๋ก ํด์ฃผ๊ธฐ ๋๋ฌธ์ผ๋ก ๋ณด์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ํ์ต๋ ์ ์ฌ ํํ z_t๊ฐ ์ค์ ํ๊ฒฝ์ ์จ๊ฒจ์ง ์ํ(์: ๊ณต์ ์ค์ ์์น/์๋ ๋ฑ)๋ฅผ ์ผ๋ง๋ ์ ํจ์ถํ๋์ง๋ฅผ Mutual Information(MI, ์ํธ์ ๋ณด๋)์ผ๋ก ์ธก์ ํ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, Bounce ๊ณผ์ ์์๋ ์ด๊ฐ์ด ์๋ PPO ์์ด์ ํธ๊ฐ ์คํ๋ ค ๊ฐ์ฅ ๋์ MI๋ฅผ ๋ณด์๋๋ฐ, ์ด๋ ์์ ๋งํ โ๊ณต ๊ฐ๋๊ธฐโ ์ ๋ต์ผ๋ก ํ๊ฒฝ ์ํ๊ฐ ๊ฑฐ์ ๋ณํํ์ง ์์ ๊ฒ๋ณด๊ธฐ MI๊ฐ ๋๊ฒ ๋์จ ๊ฒ์ด๋ผ๊ณ ํด์๋ฉ๋๋ค. Baoding ๊ณผ์ ์์๋ FD ์ ์ฉ ์์ด์ ํธ์ ์ ์ฌ ํํ์ด ๊ฐ์ฅ ๋์ MI๋ฅผ ๊ธฐ๋กํ์ผ๋ฉฐ (๊ธฐ๋ณธ PPO์ 3๋ฐฐ ์์ค), ํนํ ๊ฐ๋ณ ๋ณ์๋ณ MI๋ฅผ ๋ณด๋ฉด ๊ณต๋ค์ ์ขํ์ ์๋ ์ฑ๋ถ์ FD๋ง์ด ์ ์๋ฏธํ๊ฒ ์ธ์ฝ๋ฉํ๊ณ ์์์ ํ์ธํ์ต๋๋ค. ๋ฐ๋ฉด TR/FR์ฒ๋ผ ์ฌ๊ตฌ์ฑ ์์ฃผ์ ๋ชฉํ๋ ์คํ๋ ค ์ค์ํ ๋์ญํ ์ ๋ณด๋ฅผ ์ก์๋ด์ง ๋ชปํด MI๊ฐ 0์ ๊ฐ๊น๊ฒ ๋ํ๋ฌ์ต๋๋ค. ์ด๋ FD ๋ณด์กฐ ํ์ต์ด ํ๊ฒฝ ๋์ญํ ์์ธก์ ํ์์ ์ธ ์ ๋ณด(๊ณต ์์ง์)๋ฅผ ์ ์ฌ๊ณต๊ฐ์ ์๊ฒจ ๋ฃ์๋ค๋ ๊ฐ๋ ฅํ ์ฆ๊ฑฐ์ด๋ฉฐ, ์์ FD์ ๋์ ์ฑ๋ฅ๊ณผ๋ ๋งฅ๋ฝ์ด ๊ฐ์ต๋๋ค.
3. ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ ๋ถ๋ฆฌ์ ํจ๊ณผ (RL+SSL+Memory)
๋ง์ง๋ง์ผ๋ก, Separated Auxiliary Memory ๊ธฐ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด FD ์์ด์ ํธ์ ์ด ๊ธฐ๋ฒ์ ์ ์ฉํ ์คํ์ด ์ํ๋์์ต๋๋ค. (FD๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ฐ์ํ๊ธฐ์ FD ์ค์ ์ผ๋ก ์คํ) ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, Find์ Bounce์์๋ ๋ณ๋ค๋ฅธ ์ฑ๋ฅ ๋ณํ๊ฐ ์์์ผ๋ Baoding์์ ํฌ๊ฒ ํฅ์๋์์์ ์ ์ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก Baoding ๊ณผ์ ์์๋ ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋๋ฆฐ ๊ฒฝ์ฐ ํ์ต ์ด๊ธฐ๋ถํฐ ํจ์ฌ ์์ ์ ์ผ๋ก ํ์ ์ฑ๊ณต ํ์๊ฐ ์ฆ๊ฐํ๊ณ , ์ต์ข ์ ์ผ๋ก๋ ๊ธฐ์กด๋ณด๋ค ๋์ ํ๊ท ํ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ ์๋ค์ ๊ทธ ์ด์ ๋ฅผ Baoding ์์ ์ ๋ณต์ก์ฑ ๋ฐ ์ฅ๊ธฐ ์์กด์ฑ์์ ์ฐพ์์ต๋๋ค. ๋ ๊ณต์ ์์์์ ๋๋ฆฌ๋ ๋์์ ์๊ฐ์ ์ธ ์ ์ด ์ด๋ฒคํธ๋ณด๋ค๋ ์ผ์ ๊ธฐ๊ฐ์ ๊ฑธ์น ์ฐ์์ ์ธ ์์ง์์ ํ์๋ก ํ๋ฏ๋ก, ์งง์ ๋กค์์ ๋ฉ๋ชจ๋ฆฌ๋ง์ผ๋ก ํ์ตํ๊ธฐ์ ๋ฐ์ดํฐ๊ฐ ๋ถ์ถฉ๋ถํฉ๋๋ค. ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๋ ๋ง์ด ์ ์งํจ์ผ๋ก์จ ๋ ๊ธด ์๊ฐ ๋ฒ์์ ํจํด์ ํฌ์ฐฉํ ์ ์์๊ณ , ์ด๊ฒ์ด Baoding์์ ํฐ ํจ๊ณผ๋ฅผ ๋ณธ ๋ฐ๋ฉด, Find๋ Bounce์ฒ๋ผ ๋น๊ต์ ๋จ์ํ๊ฑฐ๋ ์งง์ ์ํธ์์ฉ์์๋ ์ํฅ์ด ๋ฏธ๋ฏธํ๋ ๊ฒ์ ๋๋ค.
๋ํ ์ด ๊ฒฐ๊ณผ๋ on-policy ํ๊ฒฝ์์๋ off-policy ๋ฐ์ดํฐ ํ์ฉ์ด ์ด์ ์ ์ค ์ ์์์ ์์ฌํฉ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ๊ฐ๋ฆฌ์ผ โon-policy ์์ด์ ํธ๋ off-policy ๋ฐ์ดํฐ๋ก ํํ ํ์ต์ ํ๋ฉด ์ด๋์ ๋ณผ ์ ์๋คโ๋ฉฐ, ํฅํ ๋ ํจ๋ฌ๋ค์์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ์ฐ๊ตฌ์ ๊ฐ๋ฅ์ฑ์ ์ธ๊ธํ์ต๋๋ค.
4. ์ฑ๋ฅ ์งํ ๋ฐ ์ธ๊ฐ ์์ค ๋น๊ต
ํ์ต ๊ณก์ ์ธ์๋, ๋ ผ๋ฌธ์ ์ต์ข ์ ์ฑ ๋ค์ ๋ฌผ๋ฆฌ์ ์ฑ๋ฅ ์งํ(์: 10์ด๋น ๋ฐ์ด์ค ํ์, ํ์ ํ์ ๋ฑ)๋ฅผ ์ธ๊ฐ์ด๋ ๊ธฐ์กด ์ฑ๊ณผ์ ๋น๊ตํ์ฌ ์ ์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋งค์ฐ ๋๋ผ์ด โ์ด์ธ์ (superhuman)โ ์ฑ๋ฅ์ด ๋ฌ์ฑ๋์์์ ํ์ธํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด Bounce ๊ณผ์ ์ ๊ฒฝ์ฐ ์ต๊ณ ์ ์์ด์ ํธ๊ฐ 10์ด์ 88๋ฒ ๊ณต์ ํ๊ฒจ, ์ธ๊ฐ ์ธ๊ณ๊ธฐ๋ก 59ํ๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. Baoding ๊ณผ์ ์์๋ ๊ธฐ์กด ๋ณด๊ณ ๋ ๋ก๋ด/์ธ๊ฐ ์ต๊ณ ๊ธฐ๋ก์ด 10์ด์ 3~13ํ ํ์ ์ ๋์ธ๋ฐ, ๋ณธ ์ฐ๊ตฌ์ SSL ์ ์ฉ ์์ด์ ํธ๋ ๋ฌด๋ ค 25ํ ํ์ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ฌ์ง์ด ๊ฐํํ์ต๋ง์ผ๋ก ํ์ตํ (SSL ๋ฏธ์ฌ์ฉ) ์ด๊ฐ ์์ด์ ํธ์กฐ์ฐจ 13ํ ํ์ ์ ๋๋ฌํ์ฌ ์๋ จ๋ ์ธ๊ฐ๊ณผ ๋น์ทํ ์์ค์ ๋ณด์๊ณ , ๊ฑฐ๊ธฐ์ SSL์ ๊ฒฐํฉํ์ ์ธ๊ฐ์ ์ฝ ๋ ๋ฐฐ์ ๋ฌํ๋ ๊ฒฝ์ง์ ์ด๋ฅธ ๊ฒ์ ๋๋ค. Find ๊ณผ์ ์ ๊ฒฝ์ฐ๋ ์ด๊ฐ+FD ์์ด์ ํธ๊ฐ ํ๊ท 1.4์ด ๋ง์ ๋ฌผ์ฒด๋ฅผ ์ฐพ์๋ด์ด ์์ PPO๋ณด๋ค 36% ๋น ๋ฅด๊ฒ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ๋ฌผ๋ก ์ด๋ฌํ ์์น๋ ๋ชจ๋ ์๋ฎฌ๋ ์ดํฐ ๋ด ์ฑ๊ณผ์ด๋ฏ๋ก ํ์ค์ ๋ฐ๋ก ์ ์ฉ๋๋ฆฌ๋ผ ์ฅ๋ดํ ์๋ ์์ต๋๋ค. ์ ์๋ค๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค์ ์ฐจ์ด๋ฅผ ์ธ์ ํ๋ฉด์, ๋ค๋ง โ๋ฐ๋ก ํ์ค์ ์ฐ์ด์ง๋ ๋ชปํ๊ฒ ์ง๋ง ์ฐ๊ตฌ์ ํฅ๋ฏธ๋ฅผ ์ํด ์๊ฐํ๋คโ๊ณ ์ธ๊ธํ์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋น์ ๋ ์์ด ์ค์ง ์ด๊ฐ์ผ๋ก ์ธ๊ฐ์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ๋๋ค๋ ์ ์ ๋ก๋ณดํฑ์ค ๋ถ์ผ์์ ์๋นํ ๊ณ ๋ฌด์ ์ธ ๊ฒฐ๊ณผ์ ๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต: ๋ฌด์์ด ์๋ก์์ก๋?
์ด๋ฒ ์ฐ๊ตฌ๋ ์ด๊ฐ ๊ธฐ๋ฐ ๊ฐํํ์ต ๋ถ์ผ์์ ์ฌ๋ฌ ๊ฐ์ง ์ธก๋ฉด์ ์ง์ ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด ๊ด๋ จ ์ ํ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ๋ฉฐ ํต์ฌ ๊ฐ์ ์ ๋ฐ ์ฐจ๋ณ์ ์ ์ ๋ฆฌํฉ๋๋ค.
1) ์ด์์ ์ ๋ณด๋ ์๊ฐ ์์ด โ๋งน๋ชฉ์ (Blind)โ ์กฐ์ ํ์ต: ๊ณผ๊ฑฐ์ ๋์ด๋ ๋์ ์ธํธ๋ ์กฐ์ ์ฐ๊ตฌ๋ค์ ๋ณด๋ฉด, ๋๋ถ๋ถ ์นด๋ฉ๋ผ ์์, ์ธ๋ถ ํธ๋ํน, ํน์ ์๋ฎฌ๋ ์ดํฐ ๋ด๋ถ ์ํ์ ์ ๊ทผํ๋ ํน๊ถ ์ ๋ณด์ ํฌ๊ฒ ์์กดํ์ต๋๋ค. ์์ปจ๋ OpenAI์ ์ ๋ช ํ ์๋ฐ๋ฅ ๋ด ํ๋ธ ๋๋ฆฌ๊ธฐ ์ฐ๊ตฌ(Andrychowicz et al., 2020)์์๋ ๋ค์์ ์นด๋ฉ๋ผ์ ๊ฐ์ฒด ์์น ์ถ์ ๊ธฐ๋ฅผ ์ฌ์ฉํ๊ณ , ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์์๋ RGB-D ์ผ์๋ ํฌ์ฆ ์ถ์ ๊ธฐ, ํน์ ๊ต์ฌ-ํ์ ๋ชจํ์ ํตํ ๋ชจ๋ฐฉ ํ์ต์ผ๋ก ์ด์์ ์ธ ์ ๋ณด๋ฅผ ํ์ฉํ๊ณค ํ์ต๋๋ค. Baoding ๊ณต ํ์ ์ ๊ฒฝ์ฐ๋ ์ด์ ์๋ ๊ณต์ ์์น๋ฅผ ์ถ์ ํ๊ธฐ ์ํด ์นด๋ฉ๋ผ๋ฅผ ์ฐ๊ฑฐ๋ ํฌ์ธํธํด๋ผ์ฐ๋ ๊ธฐ๋ฐ privileged distillation ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ์์ํ๊ฒ ๋ก๋ด ์์ฒด์ ๊ฐ๊ฐ๋ง์ผ๋ก ์กฐ์ํ ์ฌ๋ก๋ ๊ทนํ ๋๋ฌผ์๋๋ฐ, ๊ทธ๋๋ง Sievers ๋ฑ(2022)์ด๋ Yang ๋ฑ(2023)์ ์ผ๋ถ ์ฐ๊ตฌ์์ ์๋ฌด ์ผ์๋ ์ ๋ณด๊ณ (๋งน๋ชฉ์ ์ผ๋ก) ๋ฌผ์ฒด ํ์ ์ด๋ ๋จ์ Baoding ๋ฐํ์ ์ ๋๋ฅผ ๋ณด์ฌ์ค ๊ฒ์ด ๊ณ ์์ ๋๋ค. ๊ทธ ์ฑ๋ฅ๋ 10์ด์ ๋ช ๋ฐํด ๋๋ฆฌ์ง ๋ชปํ๋ ๊ธฐ๋ณธ์ ์ธ ์์ค(3ํ์ )์ด์์ฃ . ์ด๋ฒ ๋ ผ๋ฌธ์ ์ค์ง ๊ด์ +์ด๊ฐ ์ ๋ณด๋ง์ผ๋ก, ์ฆ โ๋งน๋ชฉ์ โ์ผ๋ก๋ ์ด๋ฌํ ๋ณต์กํ ์กฐ์์ ํจ์ฌ ๋์ ์์ค์ผ๋ก ๋ฌ์ฑํ์์ ์ฆ๋ช ํ์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ๊ตณ์ด ์นด๋ฉ๋ผ 10๋๋ฅผ ๋ฌ์ง ์๊ณ ๋, ์๊ธฐ ์๋์ ๊ฐ๊ฐ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๊ณ ๋๋ ์์ ์ ํด๋ผ ์ ์๋ค๋ ๊ฐ๋ฅ์ฑ์ ์ ์ํ ๊ฒ์ ๋๋ค. ํนํ 25ํ Baoding ํ์ ์ด๋ 88ํ ๊ณต ํ๊ธฐ๊ธฐ ๋ฑ์ ์ฑ๊ณผ๋ ๊ธฐ์กด ์์ ๊ณผ ๋น๊ตํด ์ง์ ์ผ๋ก ๋์ฝํ ์์ค์ด๋ฉฐ, ํฅํ ์ค์ธ๊ณ์์๋ ์ด๊ฐ ์ผ์ฑ์ ๊ฐ์น๋ฅผ ์ฌ์กฐ๋ช ํ๊ฒ ๋ง๋๋ ๊ฒฐ๊ณผ์ ๋๋ค.
2) ์ด๊ฐ ์ ๋ณด ํ์ฉ์ ๋ํ ๋ ผ์ ํด์: ์์ ์๊ฐํ๋ฏ ์ด๊ฐ ์ผ์์ ํ์์ฑ์ ๋ํด ํ๊ณ์ ์๊ฒฌ์ด ๋ถ๋ถํ๋๋ฐ, ์ด ์ฐ๊ตฌ๋ โ์ธ์ ์ด๊ฐ์ด ํ์์ ์ธ๊ฐโ์ ๋ํ ๋ถ๋ช ํ ๋ต์ ์ ์ํฉ๋๋ค. ์ ์๋ค์ ์ด๊ฐ์ด ์ ์ฉํ ๋ค ๊ฐ์ง ๋ํ ์ํฉ์ ์ ๋ฆฌํ๋๋ฐ, ์ด๋ฅผ ํตํด ์ด์ ์ฐ๊ตฌ๋ค์ ์๋ฐ๋ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ช ํฉ๋๋ค:
๋ฌผ์ฒด-๋ก๋ด ์ด๋์ ๋ถ๋ฆฌ: ๋ฌผ์ฒด์ ์์ง์์ด ๋ก๋ด ๊ด์ ์ ์์ง์๊ณผ ์ง๊ตํ๊ฑฐ๋ ๋ ๋ฆฝ์ ์ผ ๋, ์ ์ด์ด ๋ฐ์ํด๋ ๊ด์ ์ ์ด ์ค์ฐจ์ ๊ฑฐ์ ๋ํ๋์ง ์๊ธฐ ๋๋ฌธ์ ์ด๊ฐ์ด ์๋ค๋ฉด ๋ณํ๋ฅผ ๊ฐ์งํ ์ ์์ต๋๋ค. (Baoding ๊ณผ์ ์์ ๊ณต๋ค์ด ์๋ฐ๋ฅ ๋ฉด์ ๋ฐ๋ผ ์ํ์ผ๋ก ์์ง์ด๋ ๊ฒฝ์ฐ๊ฐ ์ด์ ํด๋น)
๊ทน๋๋ก ๊ฐ๋ฒผ์ด ๋ฌผ์ฒด: ๋งค์ฐ ๊ฐ๋ณ๊ฑฐ๋ ์ ์ฐํ ๋ฌผ์ฒด๋ ์ ์ด ์ ๋ก๋ด์ ํฐ ๋ฐ๋ ฅ ํผ๋๋ฐฑ์ ์ฃผ์ง ์์ ๊ด์ ํ ํฌ/์์น ๋ณํ๋ก ๊ฐ์งํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด๋๋ ์ ์ด ์ผ์๊ฐ ์์ด์ผ ๋ฌผ์ฒด์ ๋ฟ์๋์ง ํ์คํ ์ ์ ์์ต๋๋ค. (์: Bounce์ 30g ๊ฐ๋ฒผ์ด ๊ณต, ์ข ์ด, ์คํ์ง ๋ฑ)
์ ์ด ์์น์ ๋ชจํธ์ฑ: ํ๋์ ๋งํฌ(๊ด์ ๋ง๋) ์ ์ฌ๋ฌ ์ง์ ์ค ์ด๋์ ๋ฟ์๋์ง ์์์ผ ํ๋ ๊ฒฝ์ฐ์ ๋๋ค. ๊ด์ ์ผ์๋ ์ ์ด์ผ๋ก ์ธํ ์ด ํ๋ง ๋๋ ๋ฟ, ํ์ด ์์ฉํ ์ ํํ ์์น๊น์ง๋ ์ ์ ์์ผ๋ฏ๋ก ์ด๊ฐ ๋ฐฐ์ด ์ผ์๊ฐ ํ์ํฉ๋๋ค.
๋ค์ค ์ ์ด ์ํฉ: ๋์์ ์ฌ๋ฌ ๊ตฐ๋ฐ ์ ์ด์ด ๋ฐ์ํ์ฌ ์ ์ฒด ํ์ด ๋ถ์ฐ๋๋ ๊ฒฝ์ฐ์ ๋๋ค. ๊ด์ ์ ์ด ์ค์ฐจ๋ก๋ ํฉ๋ ฅ๋ง ๊ด์ฐฐ๋๋ฏ๋ก, **์ฌ๋ฌ ์ ์ด์ ํ๋์ ํฐ ์ ์ด๊ณผ ๊ตฌ๋ถํ์ง ๋ชปํ ์ ์์ต๋๋คใ. ์ด๊ฐ ์ผ์๋ ๊ฐ ์ง์ ๋ณ ์ ์ด์ ๋ฐ๋ก ๊ฐ์งํจ์ผ๋ก์จ ์ด๋ฐ ์ํฉ์ ํด์ํฉ๋๋ค.
์ด๋ฌํ ์ํฉ๋ค์์๋ ์ด๊ฐ ์ผ์ฑ์ด ๊ด์ ๊ณ ์ ๊ฐ๊ฐ์ด ๋์น๋ ์ ๋ณด๋ฅผ ์ฑ์์ฃผ์ด ํ์ต ์ฑ๋ฅ์ ๊ฒฐ์ ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค๋ ๊ฒ์ด ์ด๋ฒ ์ฐ๊ตฌ๋ก ์ค์ฆ๋์์ต๋๋ค. ๋ฐ๋ฉด ์ด์ ์ ์ด๊ฐ์ด ๋ณ ํจ๊ณผ๋ฅผ ๋ชป ๋ดค๋ ์ฐ๊ตฌ๋ค์, ์๋ง๋ ์คํ ๊ณผ์ ๊ฐ ์ด๋ฌํ ์กฐ๊ฑด์ ๋ถํฉํ์ง ์๊ฑฐ๋, ์ด๊ฐ ์ ํธ ์ฒ๋ฆฌ์ ๋ฏธํก์ผ๋ก ์ธํด ์ ์๋ฏธํ ์ ๋ณด ์ถ์ถ์ ์คํจํ๊ธฐ ๋๋ฌธ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค. Miller ๋ฑ์ ๊ฒฐ๊ณผ๋ โ์ด๊ฐ์ ์ธ๋ชจ์๋คโ๋ ์ผ๋ถ ๊ฒฌํด์ ๋ฐ๋ฐํ๋ฉฐ, ์กฐ๊ฑด๋ถ์ด์ง๋ง ๋ฐ๋์ ํ์ํ ์ญํ ์ด ์์์ ๋ถ๋ช ํ ํ๋ค๋ ์ ์์ ํฐ ์๋ฏธ๊ฐ ์์ต๋๋ค.
3) ํํ ํ์ต์ ํตํ ์ฑ๋ฅ ํฅ์: ๊ธฐ์กด ์ด๊ฐ RL ์ฐ๊ตฌ์์๋ ์ฃผ๋ก RL ๋ณธ์ฐ์ ํ์ต์ ์ง์คํ๊ณ , ํํ ํ์ต ์ธก๋ฉด์ ๊ฐ๊ณผ๋๊ธฐ ์ผ์ค์์ต๋๋ค. ์ผ๋ถ ์๋๋ค์ด ์์๋ ๊ฒ์ ์๋๋, ์๋ฅผ ๋ค์ด ๋ณ๋ถ ์คํ ์ธ์ฝ๋(VAE)๋ฅผ ํ์ฉํด ์์ ํ ๊ณผ์ ๋ฅผ ํ์ตํ๊ฑฐ๋, ํฝ์ ๊ธฐ๋ฐ์ ๋ง์คํฌ ๋ณต์์ด๋ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ ์ฉํด ๋ณธ ์ ๋์์ต๋๋ค. ๋ํ ์์+์ด๊ฐ ๋ฉํฐ๋ชจ๋ฌ ์ค์ ์์ ๋์กฐํ์ต(contrastive learning)์ผ๋ก ๋ ๊ฐ๊ฐ์ ์ ์ฌ ํํ์ ๋ง์ถ๋ ๋ฑ์ ์ฐ๊ตฌ๋ ์์์ง๋ง, ์ด๋ฌํ ์ ๊ทผ๋ค์ ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๋์ด์ฌ๋ฆฌ์ง๋ ๋ชปํ๋ค๊ณ ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ฉํฐ์คํ ๋ฏธ๋ ์์ธก์ด๋ผ๋ ๊ฐํํ์ต ํํ ํ์ต ๊ธฐ๋ฒ(FD)์ ์ด๊ฐ ๋๋ฉ์ธ์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋์ ํ์ฌ, ์ด๊ฐ ์ ๋ณด๊ฐ ์ค์ ๋ฌผ์ฒด ๋์ญํ์ ์์ธกํ๋ ๋ฐ ๊ธฐ์ฌํ๋๋ก ๋ง๋ ์ต์ด์ ์ฐ๊ตฌ์ ๋๋ค. ํนํ ์ด์ง ์ ์ด์ฒ๋ผ ๋จ์ํ ์ ํธ์กฐ์ฐจ๋ ์ฌ๋ฐ๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต์ํค๋ฉด ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ํ์ ์ ์ฌ ๋ฒกํฐ๋ก ๊ฑฐ๋ญ๋ ์ ์์์ ๋ณด์ฌ์ฃผ์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ต์ ํ์ ํจ์จ๊ณผ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์ด๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ด ๊ฐ๊ณผํ๋ ๋ถ๋ถ์ผ๋ก, ํฅํ ์ด๊ฐ ๋ฟ ์๋๋ผ ๋ค๋ฅธ ์ผ์(์: ๋น์ )์์ ํตํฉ ํํ ํ์ต ์ฐ๊ตฌ์๋ ์ฐธ๊ณ ๊ฐ ๋ ์ ์๋ ์ค์ํ ์ฑ๊ณผ์ ๋๋ค.
4) ์ด๊ฐ ํน์ฑ์ ๋ง์ถ RL ๋ฐฉ๋ฒ๋ก ๊ฐ์ : ์ด๊ฐ ์ํธ์์ฉ์ ๋น๋์ ํน์ฑ์ ๋ง๊ฒ RL ์๊ณ ๋ฆฌ์ฆ์ ์กฐ์ ํ๋ ค๋ ์๋๋ ๊ณผ๊ฑฐ์ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด Vulin ๋ฑ(2021)์ off-policy ์๊ณ ๋ฆฌ์ฆ์์ ์ ์ด์ด ์์๋ ์ํผ์๋ ์ํ์ ๋น์จ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ผ๊ณ , Hansen ๋ฑ(2022)์ ์ ์ด ๋ฐ์ ์์๋ง ์ธ์ฝ๋๋ฅผ ์ ๋ฐ์ดํธํ๋๋ก ํ๋ ๋ฑ ๋ณํ์ ์ฃผ์์ต๋๋ค. ๊ทธ๋ฌ๋ on-policy ํ๊ฒฝ์์๋ ์ด๋ฐ ์ ๊ทผ์ด ์ฝ์ง ์์ ๊ฑฐ์ ์๋๋์ง ์์์ต๋๋ค. Miller ๋ฑ์ ์ฐ๊ตฌ๋ on-policy PPO ์ค์ ์์ ์ต์ด๋ก ๋ณด์กฐ ์์ค ํ์ต์ฉ ๋ฐ์ดํฐ์ ์ ๋ณ๋๋ก ๊ด๋ฆฌํจ์ผ๋ก์จ, ๊ฒฐ๊ณผ์ ์ผ๋ก off-policy ๊ฒฝํ๋ ํ์ฉํ๋ ์๋ก์ด ๋ฐฉ์์ ์ ์ํ์ต๋๋ค. ์ด ์์ด๋์ด๋ ๋จ์ํด ๋ณด์ด์ง๋ง ์ด์ ์ ์๋๋์ง ์์๋ ๊ฒ์ผ๋ก, Baoding ๊ฐ์ ์ด๋ ค์ด ์์ ์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋์ต๋๋ค. ์ด๋ ๋ฐ์ดํฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ๊ฐํํ์ต ์ปค๋ฎค๋ํฐ์ ์์ฌ์ ์ ์ฃผ๋ฉฐ, ํฅํ on-policy/off-policy ๊ฒฝ๊ณ๋ฅผ ํ๋ฌผ๊ณ ์ ํ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์๊ฐ์ ์ค ์ ์์ต๋๋ค.
5) ๋ฒค์น๋งํฌ์ ์ฌํ์ฑ: ๋ง์ง๋ง์ผ๋ก, ์ ์๋ค์ ์ด๊ฐ RL ์ฐ๊ตฌ์ ์งํฅ์ ์ํด ๊ณต์ฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค๋ ์ ๋ ์ค์ํ ๊ธฐ์ฌ์ ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๊ฐ์ ๋ค๋ฅธ ํ๋์จ์ด(์ผ์ ์ข ๋ฅ, ๊ฐ์, ์์น)์ ๊ณผ์ ๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋์๊ธฐ ๋๋ฌธ์, ์๋ก ์ง์ ๋น๊ต๊ฐ ์ด๋ ต๊ณ ์ฒด๊ณ์ ์ธ ๋ฐ์ ์ด ๋๋ ์ธก๋ฉด์ด ์์์ต๋๋ค. RoTO ๋ฒค์น๋งํฌ๋ ํ์คํ๋ ํ๊ฒฝ๊ณผ ์ฑ๋ฅ์งํ, ๊ทธ๋ฆฌ๊ณ ์คํ์์ค ์ฝ๋/์๋ฎฌ๋ ์ด์ ์ ์ ์ํจ์ผ๋ก์จ, ์์ผ๋ก ๋์ฌ ์ฐ๊ตฌ๋ค์ด ๋์ผํ ๊ธฐ์ค์์ ๊ฐ์ ์ฌ๋ถ๋ฅผ ๊ฒ์ฆํ ์ ์๊ฒ ํด์ค๋๋ค. ์ด๋ ๋ง์น ๋น์ ๊ธฐ๋ฐ RL์์ Atari๋ DeepMind Control suite ๋ฑ์ด ๊ณต์ฉ ์ํ์ฅ ์ญํ ์ ํ ๊ฒ์ฒ๋ผ, ์ด๊ฐ RL ๋ถ์ผ์๋ ๊ณตํต ํ๊ฐ๋๊ฐ ์๊ธด ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ ธ๋ ฅ์ ์ฐ๊ตฌ์ ์ฌํ์ฑ(reproducibility)๊ณผ ๋น๊ต ๊ฐ๋ฅ์ฑ์ ๋์ฌ, ํฅํ ์ด๊ฐ ์ผ์ฑ์ ํตํ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ๊ฐ์์ ๊ธฐ๋ํ๊ฒ ํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ์ ๋ง
์ด๋ฒ ๋ฆฌ๋ทฐ์์ ์ดํด๋ณธ Miller ๋ฑ(2025)์ ์ฐ๊ตฌ๋, โ์ด๊ฐ์ ํ์ฉํ ๊ฐํํ์ต์ผ๋ก ๋ก๋ด์ ์ฌ์ธํ ์ ์ด ๋ฅ๋ ฅ์ ๋์ด์ฌ๋ฆด ์ ์๋คโ๋ ๊ฒ์ ๋ค์ํ ์คํ์ ํตํด ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด์ง ์ ์ด ์ผ์ ์ ํธ์กฐ์ฐจ๋ ์ ํ์ฉํ๋ฉด ๋ณต์กํ ๋ฌผ์ฒด ์กฐ์์ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฉฐ, ํนํ ๊ด์ ์ผ์๋ง์ผ๋ก๋ ์ธ์งํ์ง ๋ชปํ๋ ๋ฏธ์ธํ ์ํธ์์ฉ์ ํฌ์ฐฉํด๋์ผ๋ก์จ ํ์ต ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ ํฌ๊ฒ ๊ธฐ์ฌํจ์ ์ ์ฆํ์ต๋๋ค. ๋ํ ์๊ธฐ ์ง๋ ํ์ต ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๋จ์ RL๋ก๋ ์ป๊ธฐ ํ๋ ์ ์ฉํ ํํ์ ์ ์ฌ๊ณต๊ฐ์ ์ฌ์ด์ค์ผ๋ก์จ ์ ์ฑ ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ๋ณด์กฐํ ์ ์์์ ๋ณด์์ต๋๋ค. ์ฌ๋ฌ ๋ณด์กฐ ๊ณผ์ ์ค ๋ฏธ๋ ์ํ ์์ธก(FD) ๋ฐฉ์์ด ๊ฐ์ฅ ๋๊ฐ์ ๋ํ๋๋๋ฐ, ์ด๋ฅผ ํตํด ์์ด์ ํธ๋ ๋ฌผ์ฒด์ ์์ง์๊ณผ ๋์ญํ์ ํน์ฑ๊น์ง ๋ด์ฌํ๋ ํํ์ ํ์ตํ ์ ์์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ๋์ ๋ณด์๊ณผ ์ฑ๊ณต๋ฅ ๋ก ์ด์ด์ก์ต๋๋ค. ๋์๊ฐ, ๋ฐ์ดํฐ ํ์ฉ ์ธก๋ฉด์์๋ on-policy RL๊ณผ off-policy ํํ ํ์ต์ ๊ฒฐํฉ์ด ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์ด, ๋ณต์กํ ์ฅ๊ธฐ ์ ์ด ๊ณผ์ (Baoding)์์ ํฐ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์์ต๋๋ค.
๋ฌผ๋ก ์ด ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ์ด๋ผ๋ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ์ค์ ๋ก๋ด์ ์ ์ฉํ๊ธฐ ์ํด์๋ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ๊ณผ ์คํ์ด ํ์ํฉ๋๋ค. ๋ค๋ง ์ ์๋ค์ด ์ด์ง ์ ์ด์ฒ๋ผ ์ด์ํ๋ ๋จ์ ์ผ์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ด์ ๋, ํ์ค ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ๋งํ ๋ ๋ฐ์ํ๋ ๋ถํ์ค์ฑ๊ณผ ์ก์์ ํผํ๊ณ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฒฉ์ฐจ(sim-to-real gap)๋ฅผ ์ต์ํํ๋ ค๋ ์๋์์ต๋๋ค. ์ค์ ๋ก๋ด์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํ๋ค๋ฉด, ์ ์ ํ ์ ์ด ์ผ์์ ๋ฐฐ์น์ ๋ณด์ ๊ทธ๋ฆฌ๊ณ ํ๋ จ๋ ์ ์ฑ ์ ์ด์ ๋ฑ์ ๊ณผ์ ๊ฐ ๋จ์์์ต๋๋ค. ํ์ง๋ง ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ ํํ ํ์ต ์ ๋ต ๊ทธ ์์ฒด๋ ํ์ค์์๋ ๊ทธ๋๋ก ํ์ฉ๋ ์ ์์ผ๋ฆฌ๋ผ ๊ธฐ๋๋ฉ๋๋ค. ํนํ ์ด ์ฐ๊ตฌ์์ ๊ฐ๋ฐ๋ ํ์ต ์ ๋ต(SSL ๋ณด์กฐ ๋ชฉํ, ๋ณด์กฐ ๋ฉ๋ชจ๋ฆฌ ๋ฑ)๋ค์ ํน์ ํ๊ฒฝ์ ๊ตญํ๋์ง ์๊ณ ์ผ๋ฐ์ ์ธ ์๋ฆฌ์ด๋ฏ๋ก, ์ด๊ฐ ์ด์ธ์ ๋ค๋ฅธ ํํ ์ผ์๋ ๊ณผ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
์ข ํฉํ๋ฉด, โEnhancing Tactile-based RL for Robotic Controlโ ๋ ผ๋ฌธ์ ๋ก๋ด ์ด๊ฐ ๊ฐํํ์ต์ ๊ฐ๋ฅ์ฑ์ ํ ๋จ๊ณ ๋์ด์ฌ๋ฆฐ ์ฑ๊ณผ๋ก ํ๊ฐํ ์ ์์ต๋๋ค. ์๊ฐ ์ ๋ณด ์์ด๋ ์ด๊ฐ์ ํตํด ์ถฉ๋ถํ ํ๊ฒฝ ์ดํด์ ์ ์ด๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์๊ณ , ์ด๋ป๊ฒ ํ๋ฉด ์ด๋ฌํ ์ด๊ฐ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ ๋ น์ฌ๋ผ์ง์ ๋ํ ๊ตฌ์ฒด์ ํด๋ฒ(๋ฏธ๋์์ธก ๊ธฐ๋ฐ ํํ ํ์ต ๋ฑ)์ ์ ์ํ์์ต๋๋ค. ์ด๋ ํฅํ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ, ์์ ์ ์ด, ์ฌ์ธํ ์ ์กฐ ์์ ๋ฑ ๊ฐ๊ฐ ์ฃผ๋ํ ๋ก๋ด ๊ธฐ์ ์ ํญ๋๊ฒ ์์ฉ๋ ์ ์์ผ๋ฉฐ, ๊ถ๊ทน์ ์ผ๋ก๋ ๋ก๋ด์ด ์ฌ๋์ฒ๋ผ โ๋ณด๊ณ ๋๋ผ๋ฉฐโ ๋ฐฐ์ฐ๋ ์์จ์ฑ์ ํ ๊ฑธ์ ๋ค๊ฐ๊ฐ ์ฐ๊ตฌ๋ผ๊ณ ํ๊ฒ ์ต๋๋ค.