๐Sparsh-Skin ๋ฆฌ๋ทฐ
- ์์ฑ ์คํจ ์ผ์๊ฐ ์ฅ์ฐฉ๋ ๋ก๋ด ์์ ์ํ ์๊ธฐ ์ง๋ ํ์ต ๊ธฐ๋ฐ์ ๊ณ ์ฑ๋ฅ ์ด๊ฐ ํํ ๋ชจ๋ธ์ธ Sparsh-skin์ ์ ์ํฉ๋๋ค.
- Sparsh-skin์ ๋ผ๋ฒจ๋ง์ด ๋์ด ์์ง ์์ ๋ค์ํ ์ข ๋ฅ์ ๋ก๋ด ์-๊ฐ์ฒด ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ธฐ ์ฆ๋ฅ(self-distillation) ๋ฐฉ์์ผ๋ก ์ฌ์ ํ์ต๋์ด ์ผ๋ฐํ๋ ์ด๊ฐ ํน์ฑ์ ํ์ตํฉ๋๋ค.
- ํ ์ถ์ , ์กฐ์ด์คํฑ ์ํ ์ถ์ , ์์ธ ์ถ์ , ํ๋ฌ๊ทธ ์ฝ์ ๋ฑ์ ๋ค์ด์คํธ๋ฆผ ์์ ์์, Sparsh-skin ํํ์ ๊ธฐ์กด ์ฐ๊ตฌ ๋ฐ End-to-end ํ์ต ๋ฐฉ์ ๋๋น ์ฑ๋ฅ๊ณผ ์ํ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํด์ ์ ์ฆํ์ต๋๋ค.
๋น์ทํ ์ ์๋ค ๋ฆฌ์คํธ๋ก ์ด์ ์ ์์ฑํ ๋ ผ๋ฌธ์ธ Sparsh: Self-supervised touch representations for vision-based tactile sensing ๋ ผ๋ฌธ๊ณผ ํผ๋ํ์ง ์๋๋ก ์ฃผ์ํฉ๋๋ค. ํด๋น ๋ ผ๋ฌธ์ ๋ํ ํฌ์คํ ์ ๐Sparsh ๋ฆฌ๋ทฐ์ ์์ต๋๋ค.
Brief Review
๋ณธ ๋ ผ๋ฌธ์ ์๊ธฐ์ ํผ๋ถ ์ผ์๋ก ๋ฎ์ธ ๋ฏผ์ฒฉํ ๋ก๋ด ์์ ์ํ ์๊ธฐ ์ง๋ ๋ฐฉ์์ ์ธ์ง(Self-supervised perception) ์ ๊ทผ๋ฒ์ธ Sparsh-skin์ ์ ์ํฉ๋๋ค. ์๊ธฐ์ ์ด๊ฐ ํผ๋ถ ์ผ์๋ ์๊ฐ๋ฝ ๋์ ๊ตญํ๋๊ณ ๋์ญํญ์ ์ ์ฝ์ด ์๋ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ๋ฌ๋ฆฌ, ๋น ๋ฅธ ์๋ต ์๋์ ์ ์ฐํ ํผ ํฉํฐ๋ก ์ ์ ์ฒด๋ฅผ ์ปค๋ฒํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์ ์ ์ฒด์ ์ด๊ฐ ์ธ์ง๋ ๋ก๋ด์ ๋ฏผ์ฒฉ์ฑ์ ๋งค์ฐ ์ค์ํ์ง๋ง, ๋ฒ์ฉ ๋ชจ๋ธ์ ๋ถ์ฌ์ ์๊ธฐ ํ๋ญ์ค(magnetic flux) ์ ํธ์ ํด์ ๋ฐ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ์ด๋ ค์์ผ๋ก ์ธํด ์ด๋ฌํ ์ผ์์ ํ์ฉ์ด ์ ํ์ ์ด์์ต๋๋ค.
Sparsh-skin์ ๋ก๋ด ์์ ์ด๋ํ์ ์ ๋ณด์ ์ด๊ฐ ์ผ์ฑ ์ด๋ ฅ์ ์ ๋ ฅ๋ฐ์, ๋ชจ๋ downstream task์ ์ฌ์ฉ๋ ์ ์๋ ์ ์ฌ์ ์ด๊ฐ ์๋ฒ ๋ฉ(latent tactile embedding)์ ์ถ๋ ฅํ๋ ์ธ์ฝ๋์ ๋๋ค. ์ด ์ธ์ฝ๋๋ Allegro ์์ Xela uSkin ์ผ์๋ฅผ ์ฅ์ฐฉํ์ฌ ์์ง๋ ์ฝ 4์๊ฐ ๋ถ๋์ ๋ค์ํ ๋น๋ ์ด๋ธ ์-๋ฌผ์ฒด ์ํธ ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ Self-distillation ๋ฐฉ์์ ํตํด ์๊ธฐ ์ง๋ ํ์ต(SSL)์ผ๋ก ์ฌ์ ํ์ต๋ฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๋ค์ํ ๋ฒค์น๋งํฌ ์คํ(ํ ์ถ์ , ์กฐ์ด์คํฑ ์ํ ์ถ์ , ์์ธ ์ถ์ , ํ๋ฌ๊ทธ ์ฝ์ ์ ์ฑ ํ์ต ๋ฑ)์ ํตํด ์ฌ์ ํ์ต๋ Sparsh-skin ํํ์ด ๋ค์ด์คํธ๋ฆผ ์์ ์ ํ์ตํ๋ ๋ฐ ์์ด ์ํ ํจ์จ์ (sample efficient)์ผ ๋ฟ๋ง ์๋๋ผ, ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น 41% ์ด์, ์ข ๋จ ๊ฐ ํ์ต(end-to-end learning) ๋๋น 56% ์ด์ ์์ ์ฑ๋ฅ์ ํฅ์์ํด์ ๋ณด์ ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก
Sparsh-skin์ Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ํ์(student) ๋คํธ์ํฌ E_\theta์ ๊ต์ฌ(teacher) ๋คํธ์ํฌ E_{\hat{\theta}}๋ก ๊ตฌ์ฑ๋ ์๊ธฐ ์ฆ๋ฅ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ ๋ ฅ์ 100ms ๊ธธ์ด์ ์ด๊ฐ ์ธก์ ๊ฐ (\mathbf{x}_{1:10} \in \mathbb{R}^{10 \times 368 \times 3})๊ณผ ์ผ์ ์์น ์ ๋ณด (\mathbf{p}_{1:10} \in \mathbb{R}^{10 \times 368 \times 3})์ ์ด๋ ฅ์ ๋๋ค. ๊ฐ ์ผ์(์ด 368๊ฐ)์ ๋ฐ์ดํฐ๋ ์ ํ ํฌ์ f_{\text{linear}}์ ํตํด ํํ ์ฐจ์ d๋ก ํ ํฐํ๋ฉ๋๋ค: \mathbf{z}_i = f_{\text{linear}}(\mathbf{x}_{1:10} | \mathbf{p}_{1:10}) \in \mathbb{R}^{368 \times d} ๋ํ, ์๋ฐ๋ฅ, ์๊ฐ๋ฝ ๋ง๋, ์๊ฐ๋ฝ ๋ ๋ฑ Xela ์ผ์ ํจ๋์ ์ ํ์ ๋ฐ๋ผ ํ์ต ๊ฐ๋ฅํ ํ ํฐ(learnable token)์ด ๊ฐ ์ผ์์ ์ถ๊ฐ๋ฉ๋๋ค. ์์น ์๋ฒ ๋ฉ(positional embedding) ๋์ 3D ์ผ์ ์์น ์ ๋ณด๋ฅผ ํ์ฉํฉ๋๋ค.
๋ฐ์ดํฐ ์์(data corruption) ๊ธฐ๋ฒ์ผ๋ก๋ ์ด๋ฏธ์ง ๋๋ฉ์ธ์ ํฌ๋กญ/๋ฆฌ์ฌ์ด์ฆ๊ฐ ์๊ธฐ ํ๋ญ์ค ์ ํธ์ ์๋ฏธ๋ก ์ ๋ณํ๋ฅผ ์ ๋ฐํ ์ ์์ผ๋ฏ๋ก, ํ ํฐํ ์ดํ์ ๋ธ๋ก ๋ง์คํน(block masking)์ ์ ์ฉํฉ๋๋ค. ์ด๋ ์ธ์ ํ ์ผ์ ์์ผ๋๋(sensor island)๋ฅผ ํฌํจํ ์ฐ์์ ์ธ ์ผ์ ๋ธ๋ก์ ์ ๋ ฅ์์ ์ ๊ฑฐํ๋ ํฌ๋ก์ค-ํ์ (cross-taxel) ๋ฐฉ์์ ๋๋ค. ํ์ ๋คํธ์ํฌ๋ ์์๋ ์ ๋ ฅ \bar{\mathbf{z}}_i๋ฅผ ๋ฐ๊ณ , ๊ต์ฌ ๋คํธ์ํฌ๋ ๋ ์์๋ ์ ๋ ฅ \mathbf{z}^*_i๋ฅผ ๋ฐ์ต๋๋ค (ํ์์ ๋ฌด์์๋ก 10%~40%์ ๋ฐ์ดํฐ๋ฅผ ์ ์งํ k๊ฐ ๋ง์คํฌ๋ฅผ, ๊ต์ฌ๋ 40%~100%์ ๋ฐ์ดํฐ๋ฅผ ์ ์งํ 1-2๊ฐ ๋ง์คํฌ๋ฅผ ๋ฐ์ต๋๋ค).
์์ธก ์์ (prediction task)์ ๋ง์คํฌ๋ ์คํ ์ฌ๊ตฌ์ฑ(masked auto-reconstruction)๋ณด๋ค ์ผ์ ๋ ธ์ด์ฆ์ ๊ฐ๊ฑดํ ๋ถ๋ฅ(classification) ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ๋ณํ๋ ์ผ์ ํ ํฐ์ ๋ถ๋ฅ ํค๋ f_{\text{class}}๋ฅผ ํตํด ํ๋กํ ํ์ ๋ก์ง(prototype logit)์ผ๋ก ๋ณํ๋ฉ๋๋ค:
- ํ์์ \bar{\mathbf{p}}_i = f_{\text{class}}(E_\theta(\bar{\mathbf{z}}_i)),
- ๊ต์ฌ๋ \mathbf{p}^*_i = f_{\text{class}}(E_{\hat{\theta}}(\mathbf{z}^*_i)).
ํ์ ๋ฐ ๊ต์ฌ ๋ก์ง ์์ธก ๊ฐ์ ํจ์น ๋ ๋ฒจ ๊ต์ฐจ ์ํธ๋กํผ(patch level cross entropy) ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์ผ์ ํํ์์ ๊ตญ์-์ ์ญ(local-to-global) ๋์ ํ์ต์ ๊ฐํํฉ๋๋ค. ๊ต์ฌ ๋คํธ์ํฌ์ ๊ฐ์ค์น \hat{\theta}๋ ์ญ์ ํ(back-propagation)๊ฐ ์๋ ํ์ ๋คํธ์ํฌ ๊ฐ์ค์น \theta์ ์ง์ ์ด๋ ํ๊ท (EMA)์ผ๋ก๋ง ์ ๋ฐ์ดํธ๋ฉ๋๋ค: \hat{\theta} \triangleq \text{EMA}(\theta)
ํ๊ฐ ๊ฒฐ๊ณผ
์ฌ์ ํ์ต ์งํ ์ํฉ ๋ชจ๋ํฐ๋ง์ ์ํด ์จ๋ผ์ธ ํ๋ก๋ธ(online probe)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฌ๊ตฌ์ฑ(reconstruction) ๋ฐ ๋ฌผ์ฒด ์๋ณ ๋ฅ๋ ฅ(๋ถ๋ฅ ์ ํ๋)์ ํ๊ฐํ๋ฉฐ, Sparsh-skin์ MAE ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฌ๊ตฌ์ฑ ๋ฐ ๋ฌผ์ฒด ๋ถ๋ฅ ์ฑ๋ฅ(์ฝ 95% ์ ํ๋)์ ๋ณด์์ต๋๋ค.
ํ๊ฐ ํ๋กํ ์ฝ์์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฆ๊ฐ์ ์์ธก ์์ ๊ณผ ์๊ฐ์ ์ถ๋ก ์์ ์ผ๋ก ๋๋ฉ๋๋ค.
- ์ฆ๊ฐ์ ์์ (ํ ์ถ์ )์๋ ์ดํ ํฐ๋ธ ํ๋ง(attentive pooling)๊ณผ ์์ 2์ธต MLP๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- ์๊ฐ์ ์์ (์กฐ์ด์คํฑ, ์์ธ ์ถ์ )์๋ ์ดํ ํฐ๋ธ ํ๋ง ํ 1์ธต Transformer ๋ธ๋ก์ด ์ฌ์ฉ๋ฉ๋๋ค.
๋ชจ๋ธ ๋น๊ต์๋ BYOL* (๋ณธ ๋ ผ๋ฌธ์์ ์ฌํํ BYOL ๋ณํ), End-to-end, Sparsh-skin (frozen), Sparsh-skin (finetuned), Sparsh-skin (MAE)์ด ํฌํจ๋ฉ๋๋ค. ์ฑ๋ฅ์ RMSE (ํ, ์กฐ์ด์คํฑ, ์์ธ), ์์ธ ์ ํ๋ (์์ธ), ์ฑ๊ณต๋ฅ (ํ๋ฌ๊ทธ ์ฝ์ )๋ก ์ธก์ ๋๋ฉฐ, ์ํ ํจ์จ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ๋น์จ์ ๋ณํ์์ผฐ์ต๋๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํ ์ถ์ : End-to-end ๋ชจ๋ธ์ ํนํ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ์ฑ๋ฅ์ด ๋งค์ฐ ๋จ์ด์ง์ง๋ง, Sparsh-skin (frozen) ๋ฐ Sparsh-skin (finetuned)์ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค. Sparsh-skin (MAE)๋ ์๊ธฐ ํ๋ญ์ค ์ ํธ์ ๋ ธ์ด์ฆ ํน์ฑ์ผ๋ก ์ธํด ์ฑ๋ฅ์ด ์ข์ง ์์์ต๋๋ค.
- ์กฐ์ด์คํฑ ์ํ ์ถ์ : Sparsh-skin์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ ๋ ๊ธฐ์กด HiSS* ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, 3.3%์ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ์ ๋๋ ๋์ ์ํ ํจ์จ์ฑ์ ๋ณด์ด๋ฉฐ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์์ธ ์ถ์ : ์ฌ์ ํ์ต๋ Sparsh-skin ํํ์ ์ฌ์ฉํ ๋ชจ๋ ๋ชจ๋ธ์ด End-to-end ๋ชจ๋ธ๋ณด๋ค ๋ฎ์ RMSE์ ๋์ ์์ธ ์ ํ๋๋ฅผ ๋ณด์์ต๋๋ค. Sparsh-skin (finetuned)์ End-to-end ๋๋น ์ด๋์์ ์ฝ 10%, ํ์ ์์ ์ฝ 20% ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ ์ ์ฒด ์ผ์ฑ(palm sensing)์ด ์์ธ ์ถ์ ์ ์ค์ํจ์ด ํ์ธ๋์์ต๋๋ค.
- ์ ์ฑ ํ์ต (ํ๋ฌ๊ทธ ์ฝ์ ): ๋น์ ๊ณผ Sparsh-skin ์ด๊ฐ ํํ์ ํจ๊ป ์ฌ์ฉํ ์ ์ฑ ์ ๋น์ ๋จ๋ ์ ์ฑ (20% SR) ๋ฐ ์ข ๋จ ๊ฐ ์๊ฐ-์ด๊ฐ ์ ์ฑ (40% SR) ๋๋น ์ฐ์ํ ์ฑ๋ฅ (Sparsh-skin (frozen) 75% SR)์ ๋ณด์์ต๋๋ค. ์ด๊ฐ ์ ๋ณด๊ฐ ์ฝ์ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ๊ธฐ์ฌํจ์ ํ์ธํ์ต๋๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์๊ธฐ์ ํผ๋ถ ์ผ์๋ฅผ ์ํ ๊ณ ์ฑ๋ฅ ์ด๊ฐ ํํ ๋ชจ๋ธ์ธ Sparsh-skin์ ์ ์ํฉ๋๋ค. ๊ด๋ฒ์ํ ๋น๋ ์ด๋ธ ๋ฐ์ดํฐ์ ๋ํ ์๊ธฐ ์ง๋ ํ์ต์ ํตํด ํ๋๋ Sparsh-skin ํํ์ ๋ค์ํ ์ด๊ฐ ์ค์ฌ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ์ํ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ ์ ์ ์ฒด ์ด๊ฐ ํํ์ ์ํ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(foundation model)๋ก ๋์๊ฐ๋ ํ ๋จ๊ณ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
๋ ผ๋ฌธ์ ํ๊ณ์ ์ผ๋ก๋, ๋ฐ์ดํฐ ์์ ์ ๋ต์ด ์ฃผ๋ก ๊ณต๊ฐ์ ์ด๋ฉฐ ์๊ฐ์ ์๊ด ๊ด๊ณ ํ์ต์ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ์ง ์๋ ์ , ํ์ฌ ์์ธ ์ถ์ ์์ ์ ๊ณ ์ ๋ ์๊ณผ 2D ์์ธ์ ์ ํ์ ์ด๋ผ๋ ์ , ๊ทธ๋ฆฌ๊ณ ์๊ฐ-์ด๊ฐ ์ ์ฑ ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค๋ ์ ๋ฑ์ด ์ ์๋์์ต๋๋ค.
Detail Review
Self-supervised perception for tactile skin covered dexterous hands โ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
๋ฐฐ๊ฒฝ ๋ฐ ์ฐ๊ตฌ ๋๊ธฐ
๋ก๋ด ์์ ์ด๊ฐ ๊ฐ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๊ณ ์กฐ์๊ธฐ(dexterous manipulator)์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ํ์์ ์ธ ์ญํ ์ ํฉ๋๋ค. ํนํ ์๊ฐ๋ฝ ๋์ ๊ตญํ๋ ๊ธฐ์กด ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(์: GelSight ๊ณ์ด, DIGIT ๋ฑ)๋ ๊ณ ํด์๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง, ์ ์ ์ฒด๋ฅผ ๊ฐ์ธ๋ ํํ๋ก ์ ์ฉ๋๊ธฐ ์ด๋ ต๊ณ ๋์ญํญ ์ ์ฝ์ผ๋ก ๋น ๋ฅธ ์๋ต์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด์ ๋นํด ์๊ธฐ ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋ถ ์ผ์(magnetic tactile skin)๋ ์๊ณ ์ ์ฐํ๊ฒ ์๊ฐ๋ฝ ๋ง๋์ ์๋ฐ๋ฅ ์ ์ฒด์ ๋ถ์ฐฉํ ์ ์์ผ๋ฉฐ, ๋น ๋ฅธ ์๋ต ์๋๋ฅผ ๊ฐ์ถ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์๊ธฐ ์ด๊ฐ ์ผ์๋ค์ ์ผ์ ์ถ๋ ฅ(์๊ณ ํ๋ญ์ค)์ ํด์ํ๊ณ ๋ณด์ (calibration)ํ๋ ๋ฐ ์ด๋ ค์์ด ์๊ณ , ๊ฐ๊ธฐ ๋ค๋ฅธ ์ง์๊ธฐ ํ๊ฒฝ์์์ ๊ธฐ์ค์ ๋๋ฆฌํํธ ๋ฑ ๋ฌธ์ ๋ก ํ์คํ๋ ์ผ๋ฐ ๋ชจ๋ธ์ด ๋ถ์ฌํ์ฌ ๋๋ฆฌ ํ์ฉ๋์ง ๋ชปํ์ต๋๋ค. ๋ค์ ๋งํด, ๊ธฐ์กด์๋ ํน์ ์์ ์ด๋ ์ผ์์ ํนํ๋ ๊ท์น ๊ธฐ๋ฐ ๋๋ ๊ฐ๋ณ ํ์ต ๋ชจ๋ธ์ ์์กดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๊ณ , ์ ์ ์ฒด๋ฅผ ํฌ๊ดํ๋ ์ผ๊ด๋ ์ด๊ฐ ํํ ๋ฐฉ์์ด ๋ถ์กฑํ์ต๋๋ค.
์ด๋ฌํ ๋งฅ๋ฝ์์, Akash Sharma ๋ฑ ์ฐ๊ตฌ์ง์ โSelf-supervised perception for tactile skin covered dexterous handsโ ๋ ผ๋ฌธ์์ ์๊ฐ๋ฝ, ๋ง๋, ์๋ฐ๋ฅ์ ๋ชจ๋ ๋ฎ๋ ๋ค์์ ์ด๊ฐ ํผ๋ถ ์ผ์๋ก๋ถํฐ ์ป๋ ์ ํธ๋ฅผ ํจ์จ์ ์ผ๋ก ํตํฉํ์ฌ ํํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ํต์ฌ ์์ด๋์ด๋ ์๊ธฐ ์ง๋ ํ์ต(self-supervised learning)์ ํ์ฉํด ๋๋์ ๋น๋ผ๋ฒจ(unlabeled) ์ํธ์์ฉ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ผ๋ฐ์ ์ธ ์ด๊ฐ ํํ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด ์ ์ ์ฒด์ ์ด๊ฐ ์ ๋ณด๋ฅผ ํ๋์ ์ ์ฌ ๋ฒกํฐ ํํ(latent embedding)์ผ๋ก ์์ถํ์ฌ, ์ดํ ์ด๋ค ๋ค์ด์คํธ๋ฆผ ์์ (task)์๋ ํ์ฉํ ์ ์๋๋ก ํฉ๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์๊ฐ ์ธ์ ๋ถ์ผ์์ ์๊ธฐ ์ง๋ ํํ ํ์ต์ด ํฐ ์ฑ๊ณต์ ๊ฑฐ๋ ๊ฒ์ ์ด๊ฐ ์์ญ์ ์ ์ฉํ ๊ฒ์ผ๋ก, ๋ณต์กํ ๋ผ๋ฒจ๋ง ์์ด๋ ๋ชจ๋ธ์ด ์ด๊ฐ์ ํ๋ถํ ํน์ง๋ค์ ํ์ตํ๋๋ก ์ ๋ํฉ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด ์ฐ๊ตฌ์ ๋๊ธฐ๋ ์ ์ ์ฒด์ ๋ถํฌ๋ ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ป๋ ๋ฐฉ๋ํ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ํด์ํ๊ณ ๋ฒ์ฉ์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ํ ํํ ํ์ต ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ ๋ฐ ์์ต๋๋ค. ํนํ ๊ธฐ์กด ์ฐ๊ตฌ์ธ โSparsh: Self-supervised touch representations for vision-based tactile sensingโ์์ ์๋ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์ฑ์ ๋ํ ์๊ธฐ ์ง๋ ํ์ต ๊ธฐ๋ฒ์ด ์ ์๋์๋๋ฐ, ๋ณธ ๋ ผ๋ฌธ์ ๊ทธ ์ฒ ํ์ ์ด์ด๋ฐ์ ์ด๊ฐ ํผ๋ถ ์ผ์๋ผ๋ ์๋ก์ด ํ๋์จ์ด ํ๋ซํผ์ ์ ์ฉํ๊ณ ํ์ฅํ ์ฐ๊ตฌ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์๋์์๋ ๋ณธ ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ์ ๋ฐฉ๋ฒ๋ก , ์คํ ๊ฒฐ๊ณผ๋ฅผ ์์ธํ ์ดํด๋ณธ ํ, ์์ Sparsh ์ฐ๊ตฌ์์ ๊ธฐ์ ์ ์ฐ๊ด์ฑ๊ณผ ์ฐจ์ด์ ์ ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค.
์ฃผ์ ๊ธฐ์ฌ ๋ฐ ์ ๊ทผ ๋ฐฉ๋ฒ
Sparsh-skin์ด๋ผ ๋ช ๋ช ๋ ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์, ์๋ ๊ทธ๋ก(Allegro) ๋ก๋ด ์์ ์ฅ์ฐฉ๋ Xela uSkin ์๊ธฐ ์ด๊ฐ ์ผ์๋ค๋ก๋ถํฐ ์ ์ ์ฒด์ ์ด๊ฐ ์ํ๋ฅผ ํํํ๋ ์ฌ์ ํ์ต ์ธ์ฝ๋(pre-trained encoder)๋ฅผ ์ ์ํ ๊ฒ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๊ฐ๋ฝ ๋, ๋ง๋, ์๋ฐ๋ฅ ๋ฑ ์ฌ๋ฌ ๋ถ์์ ๋ถํฌ๋ ๋ค์์ uSkin ์ผ์๋ค๋ก๋ถํฐ ์ป๋ ์ ํธ๋ฅผ ํ๋ฐ ๋ชจ์ ํ-ํธ๋(full-hand) ์ด๊ฐ ์๋ฒ ๋ฉ์ ์์ฑํฉ๋๋ค. ์ด๋ ํ ์์ ์ ์ผ์ ๊ฐ๋ฟ ์๋๋ผ ์ต๊ทผ์ ์งง์ ์ด๋ ฅ๊น์ง ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ, ์๊ฐ์ ๋งฅ๋ฝ(์: ๋ฏธ๋๋ฌ์ง ๋ฐ์ ์ถ์ด ๋ฑ)์ ๋ฐ์ํ ํํ์ ํ์ตํฉ๋๋ค. ์ ๋ ฅ์๋ ๊ฐ ์ผ์์ 3์ฐจ์ ์์น ์ ๋ณด๊น์ง ํฌํจํ์ฌ, ๋ชจ๋ธ์ด ์ ์ด ์ ํธ์ ๊ณต๊ฐ์ ๋ถํฌ๋ฅผ ์ดํดํ ์ ์๋๋ก ํ์์ต๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ Sparsh-skin ์ธ์ฝ๋๋ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ํน์ ์์ ์ ํนํ๋ ์ถ๊ฐ ํ์ต ์์ด๋ ๋ฐ๋ก ์ฌ์ฉ๋๊ฑฐ๋, ์ต์ํ์ ๋ฏธ์ธ์กฐ์ (fine-tuning)๋ง์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๋ฒ์ฉ ํํ์ ์ ๊ณตํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ ์ ์ฒด๋ฅผ ๋ฎ๋ ์๊ธฐ ์ด๊ฐ ํผ๋ถ ์ผ์๋ฅผ ์ํ ์ต์ด์ ๋ฒ์ฉ ํํ ํ์ต ๋ชจ๋ธ ์ ์: ์๋ฐ๋ฅ๊น์ง ํฌํจํ ๋ค์ง์ ์ด๊ฐ์ ํตํฉ์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ํด, ์์ฒด ๊ฐ๋ฐํ Sparsh-skin ์ธ์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํตํด ํ-ํธ๋ ์ด๊ฐ ์๋ฒ ๋ฉ์ ๊ตฌํํ์ต๋๋ค. ์ด๋ ๊ธฐ์กด์ ์๋ ์์ฃผ์ ์ด๊ฐ์ผ์ ์ฐ๊ตฌ๋ฅผ ์ ์ ์ฒด๋ก ํ์ฅํ ๊ฒ์ผ๋ก, ๋ก๋ด ์์ ์ฌ์ธํ ์กฐ์(dexterity) ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํฉ๋๋ค.
๋๊ท๋ชจ ๋น๋ผ๋ฒจ ๋ฐ์ดํฐ์ ์์ง ๋ฐ ์๊ธฐ ์ง๋ ํ์ต ์ ์ฉ: ์ฐ๊ตฌ์ง์ VR ์๊ฒฉ์กฐ์์ ํตํด 14๊ฐ์ง ์ผ์ ๋ฌผ์ฒด(์ฅ๋๊ฐ, ๋๊ตฌ ๋ฑ)๋ฅผ ๋์์ผ๋ก ์ฅ๊ธฐ, ๋ฐ๊ธฐ, ๋น๋น๊ธฐ, ํ์ , ๋๋ฅด๊ธฐ, ๋ฌธ์ง๋ฅด๊ธฐ, ๊ด์ ์ด๋ ๋ฑ ๋ค์ํ ์์์ ์กฐ์ ํ๋์ ์ํํ์ฌ ์ฝ 4์๊ฐ ๋ถ๋์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ต๋๋ค. ์ด๋ฌํ ๋ค์ํ ์ ์ด ๊ฒฝํ์ ํ์ฉํด ๋ผ๋ฒจ์ด ์๋ ์ํ์์ ์๊ธฐ ์ง๋ ํ์ต(self-supervised learning)์ผ๋ก ์ธ์ฝ๋๋ฅผ ์ฌ์ ํ์ต์์ผฐ์ต๋๋ค. ํนํ ์๊ธฐ-์ฆ๋ฅ(self-distillation) ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๊ต์ฌ-ํ์ ๋คํธ์ํฌ ๊ฐ ํ๋ จ์ผ๋ก ๋ชจ๋ธ์ด ์์๋ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก๋ถํฐ๋ ์ผ๊ด๋ ํํ์ ์ถ์ถํ๋๋ก ์ ๋ํ์ต๋๋ค.
์ฌ๋ฌ ๋ฒค์น๋งํฌ ๊ณผ์ ๋ฅผ ํตํด ๋ฒ์ฉ์ฑ ๋ฐ ์ฑ๋ฅ ์ ์ฆ: ์ฌ์ ํ์ต๋ Sparsh-skin ํํ์ ํจ์ฉ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ํ ์ถ์ (state estimation)๋ถํฐ ์ ์ฑ ํ์ต(policy learning)์ ์ด๋ฅด๋ ์ฌ๋ฌ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์ ์ ์ฉํด ๋ณด์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 41% ์ด์์ ์ฑ๋ฅ ํฅ์, ์๋ํฌ์๋ ํ์ต ๋๋น 56% ์ด์์ ํฅ์์ ๋ฌ์ฑํ์๊ณ , ๋ฐ์ดํฐ ํจ์จ(sample efficiency)๋ ํฌ๊ฒ ๋์์ ธ ์ ์ ์์ ํ์ต๋ฐ์ดํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํจ์ ๋ณด์์ต๋๋ค. ์ด๋ Sparsh-skin ์๋ฒ ๋ฉ์ด ๋ค์ํ ์์ ์ ๊ฑธ์ณ ์ผ๋ฐ์ ์ด๊ณ ํ๋ถํ ์ด๊ฐ ํน์ฑ์ ํจ์ ํ๊ณ ์์์ ์๋ฏธํฉ๋๋ค.
์ด๋ฌํ ๊ธฐ์ฌ๋ฅผ ํตํด, ๋ณธ ์ฐ๊ตฌ๋ ๋ฒ์ฉ ๋ก๋ด ์ด๊ฐ ์ง๊ฐ์ ํฅํ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์์ต๋๋ค. ์ ์ ์ฒด์ ๋ถํฌ๋ ์ผ์๋ค์ ๊ณ ์ฐจ์ ์ ํธ๋ฅผ ์ ์ฐจ์ ๋ฒกํฐ๋ก ํจ์ถํจ์ผ๋ก์จ, ๋ณต์กํ ์ด๊ฐ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ๋ก๋ด์ ํ์ต ๋ฐ ์ ์ด์ ํ์ฉํ ์ ์๊ฒ ํ์์ต๋๋ค.
๐ก ๋ชจ๋ธ ๋ฐ ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ๋ก
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ Sparsh-skin ์ธ์ฝ๋์ ํ์ต ๋ฐฉ๋ฒ์ ์๊ธฐ ์ง๋ ํ์ต(SSL)์ ์ผ์ข ์ธ ์๊ธฐ-์ฆ๋ฅ(self-distillation)๋ฅผ ํ์ฉํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ์ด๋ฅผ ๊ตฌํํ๊ธฐ ์ํด ๊ต์ฌ(teacher) ๋คํธ์ํฌ์ ํ์(student) ๋คํธ์ํฌ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๋ ๋คํธ์ํฌ๋ ๋์ผํ ์ธ์ฝ๋ ์ํคํ ์ฒ๋ฅผ ๊ณต์ ํ์ง๋ง ๊ฐ์ค์น ์ ๋ฐ์ดํธ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ๋ก๋๋ค. ๊ต์ฌ ๋คํธ์ํฌ๋ ํ์ ๋คํธ์ํฌ์ ๊ณผ๊ฑฐ ๊ฐ์ค์น๋ฅผ ์ด์ฉํ๊ฑฐ๋ ์ง์ ์ด๋ ํ๊ท (EMA)์ผ๋ก ์ ๋ฐ์ดํธ๋์ด ๋ณด๋ค ์์ ๋ ์ถ๋ ฅ์ ์ ๊ณตํ๊ณ , ํ์ ๋คํธ์ํฌ๋ ์ค์ ํ์ต์ ํตํด ๊ฐ์ค์น๊ฐ ๊ฐฑ์ ๋ฉ๋๋ค.
ํ๋ จ ์๊ฐ๋ง๋ค ๋์ผํ ์ด๊ฐ ๋ฐ์ดํฐ์ ๋ํด ๊ต์ฌ์ ํ์์ ์๋ก ๋ค๋ฅธ ์ ๋ ฅ์ ์ ๊ณตํ๋๋ฐ, ๊ต์ฌ์๊ฒ๋ ์์ ํ ์๋ณธ ๋ฐ์ดํฐ x๋ฅผ ์ ๋ ฅํ๊ณ , ํ์์๊ฒ๋ ์ฌ๊ธฐ์ ์ก์ ๋๋ ๊ฒฐ์์ ๊ฐํ ๋ณํ ๋ฐ์ดํฐ \tilde{x}๋ฅผ ์ ๋ ฅํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ ์ ๋ ฅ \tilde{x}๋ ์ผ๋ถ ์ด๊ฐ ์ ํธ๋ฅผ ๋ง์คํน(masking)ํ๊ฑฐ๋ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๋ฑ์ ์ค์ผ๋(corrupted) ๋ฐ์ดํฐ๋ก ๋ง๋ค์ด, ํ์ ์ธ์ฝ๋๊ฐ ๋ถ์์ ํ ์ ๋ณด๋ก๋ถํฐ๋ ์๋ฏธ ์๋ ํํ์ ์ถ์ถํ๋๋ก ๋์ ํฉ๋๋ค. ํํธ ๊ต์ฌ ์ธ์ฝ๋๋ ์จ์ ํ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ธฐ์ค์ด ๋ ํํ E_{\hat{\theta}}(x)์ ์์ฑํด ๋์ต๋๋ค. ํ์ต ๋ชฉํ๋ ํ์ ์ธ์ฝ๋์ ์ถ๋ ฅ ํํ E_{\theta}(\tilde{x})๊ฐ ๊ต์ฌ์ ์ถ๋ ฅ E_{\hat{\theta}}(x)์ ๊ฐ๊น์์ง๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ๋ ์ถ๋ ฅ ์๋ฒ ๋ฉ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋ ์์ค ํจ์(์: ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ ํน์ L2 ๋ ธ๋ฆ)๋ฅผ ์ต์ํํ๋ฉฐ ํ์ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ์ ๋คํธ์ํฌ๋ ๋ถ๋ถ์ ์ธ ์ ๋ณด๋ง์ผ๋ก๋ ์ ์ฒด ์ ๋ณด๋ฅผ ์์ธกํ๋๋ก ํ๋ จ๋๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ฐ์ธํ๊ณ ํ๋ถํ ํํ์ ์ป๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฆผ 1: Sparsh-skin ์๊ธฐ ์ง๋ ํ์ต ๊ฐ์. ์๋ ๊ทธ๋ก ๋ก๋ด ์์ ์๊ธฐ ์ด๊ฐ ํผ๋ถ ์ผ์๋ฅผ ๋ถ์ฐฉํ์ฌ ์ ์ฒด ์๊ฐ๋ฝ๊ณผ ์๋ฐ๋ฅ์์ ์ด๊ฐ ์ ํธ๋ฅผ ์์งํ๋ค (์ผ์ชฝ). ๊ต์ฌ ๋คํธ์ํฌ๋ ์์ ํ ์ผ์ ์ ๋ ฅ x๋ฅผ ๋ฐ์ ์ ์ฌ ํํ E_{\hat{\theta}}(x)์ ์์ฑํ๊ณ , ํ์ ๋คํธ์ํฌ๋ ์ผ๋ถ ์ผ์ ์ ํธ๊ฐ ์ ๊ฑฐ๋๊ฑฐ๋ ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์ค์ผ๋ ์ ๋ ฅ \tilde{x}์ ๋ํด ํํ E_{\theta}(\tilde{x})์ ์ถ๋ ฅํ๋ค (์ค๋ฅธ์ชฝ). ํ์ ๋คํธ์ํฌ๋ ์์ ์ ์ถ๋ ฅ์ ๊ต์ฌ ์ถ๋ ฅ์ ๊ฐ๊น๊ฒ ์์ธกํ๋๋ก ํ์ต๋จ์ผ๋ก์จ, ๋ถ์์ ํ ์ ๋ ฅ์์๋ ์๋ฏธ ์๋ ์ ์ฒด ์ด๊ฐ ์ํ ํํ์ ์ป๋๋ก ํ๋ จ๋๋ค. ์๋ ์์ ์์ ๊ทธ๋ฆผ๋ค์ ์ด๋ ๊ฒ ํ์ต๋ Sparsh-skin ํํ์ ํ์ฉํ์ฌ ์ํํ ์ ์๋ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ๋ค์ ๋ณด์ฌ์ค๋ค. (์ด๋ฏธ์ง ์ ๊ณต: ๋ ผ๋ฌธ ์ ์)
Sparsh-skin ์ธ์ฝ๋์ ์ ๋ ฅ์ ๋ก๋ด ์์ ๊ฐ ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ต๊ทผ ์งง์ ์๊ฐ ๋์ ์์ง๋ ์ ํธ ์ํ์ค์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ฝ 0.1์ด ์ด๋ด์ ์งง์ ์๊ฐ ์ฐฝ(window) ๋์ ์ผ์๋ค์ด ์ถ๋ ฅํ ์ ๊ทํ๋ 3์ถ ํ ์ ํธ๋ค์ ๋ชจ์ ํ๋์ ์ ๋ ฅ์ผ๋ก ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ ์๊ฐ์ ์ธ ๊ฐ๋ณด๋ค ์ฝ๊ฐ์ ์๊ฐ์ ๋ณํ๊น์ง ๊ณ ๋ คํจ์ผ๋ก์จ, ์ ์ ์๋ ฅ ๋ถํฌ๋ฟ ์๋๋ผ ๋ง์ฐฐ๋ ฅ ๋ณํ, ๋ฏธ๋๋ฌ์ง ๋ฑ ๋์ ํน์ง๋ ํฌ์ฐฉํ๊ธฐ ์ํจ์ ๋๋ค. ์ด์ ์ Sparsh ์ฐ๊ตฌ์์๋ ์์ญ ๋ฐ๋ฆฌ์ด ๊ธธ์ด์ ์งง์ ํ๋ ์ ์ํ์ค(์: 80ms)๋ฅผ ํ ํฐํํ์ฌ ์ฌ์ฉํ๋ฉด ์ผ๋ฐํ์ ํํ๋ ฅ ํฅ์์ ์ค์ํ๋ค๋ ๊ฒฐ๊ณผ๊ฐ ์์๋๋ฐ, Sparsh-skin ์ญ์ ์ด๋ฌํ Temporal Tokenization ๊ฐ๋ ์ ์๊ธฐ ์ด๊ฐ ์ ํธ์ ์ ์ฉํ ๊ฒ์ ๋๋ค. ๋ํ Sparsh-skin์ ์ ๋ ฅ์๋ ๊ฐ ์ผ์์ ๊ณต๊ฐ์ ์์น ์ ๋ณด(์ ๊ตฌ์กฐ ๋ด 3D ์ขํ)๋ฅผ ํฌํจ์์ผ, ์ธ์ฝ๋๊ฐ ์ ๋ ฅ ์ ํธ์ ๊ณต๊ฐ์ ๋งฅ๋ฝ๊น์ง ๊ณ ๋ คํ๋๋ก ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ ํฌ๊ธฐ์ ํ์ด๋ผ๋ ์๋ฐ๋ฅ ์ค์์์ ๊ฐ์ง๋ ๊ฒ๊ณผ ์๊ฐ๋ฝ ๋์์ ๊ฐ์ง๋ ๊ฒ์ ๋ก๋ด์ด ์ทจํด์ผ ํ ๋์์ด ๋ค๋ฅผ ์ ์์ผ๋ฏ๋ก, ๋ชจ๋ธ์ด ์ผ์์ ์์น๋ฅผ ์ ์ ์๊ฒ ํ ๊ฒ์ ๋๋ค.
์ธ์ฝ๋ ๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด์ ๋ํด์๋ ๋ ผ๋ฌธ์์ ๊ตฌ์ฒด์ ์ธ ๊ตฌํ ๋ํ ์ผ์ ์ ๊ณตํ๊ณ ์๋๋ฐ, ๊ธฐ๋ณธ์ ์ผ๋ก ์์์ ์ค๋ช ํ ๊ต์ฌ/ํ์ ํ๋ ์์ํฌ๋ฅผ ๋ฐ๋ฅด๋ ์ ๊ฒฝ๋ง ์ธ์ฝ๋์ ๋๋ค. ๊ฐ ์ผ์๋ก๋ถํฐ ์ค๋ ์๊ฐ ์ด๋ ฅ ์ ํธ๋ ๊ฐ๋ณ์ ์ผ๋ก ์๋ฒ ๋ฉ๋ ํ ์ ์ ์ฒด ์์ค์์ ํตํฉ๋ฉ๋๋ค. ์ด๋ฅผ ๊ตฌํํ๋ ํ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์ถ์ธก๋๋ ๊ฒ์, ์๋ฅผ ๋ค์ด ๊ฐ ์ผ์ ์ ๋ณด๋ฅผ ํ๋์ ํ ํฐ์ผ๋ก ๋ณด๊ณ ํธ๋์คํฌ๋จธ(Transformer) ์ธ์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ํธ์์ฉ์ ํ์ต์ํค๋ ๊ฒ์ ๋๋ค. ์ค์ ๋ก ๋ชจ๋ธ์ ์ผ์-๋ ๋ฒจ์ ํํ(sensor-level representation)์ ํ์ตํ๋ค๊ณ ์ธ๊ธํ๊ณ ์์ผ๋ฉฐ, ์ด๋ ๊ฐ ์ผ์ ์ ํธ๋ฅผ ์ ์ฐจ์ ํน์ง์ผ๋ก ์๋ฒ ๋ฉํ ๋ค, ์ด๋ฌํ ์๋ฒ ๋ฉ๋ค์ ํตํฉํ์ฌ ์ ์ ์ฒด์ ํํ์ ๋ง๋ ๋ค๋ ์๋ฏธ๋ก ํด์๋ฉ๋๋ค. ํธ๋์คํฌ๋จธ๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง(GNN) ๊ฐ์ ์ํคํ ์ฒ๋ฅผ ํ์ฉํ๋ฉด ์์ฐ์ค๋ฝ๊ฒ ๊ฐ ์ผ์์ ์์น๋ ์ธ์ ํ ์ผ์ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ๋ค๋ง ๋ ผ๋ฌธ์ ๊ตฌ์ฒด์ ์ธ ์ํคํ ์ฒ๋ณด๋ค๋ ํ์ต ์ ๋ต(self-distillation)์ ์ค์ ์ ๋์ด ์์ ํ๊ณ ์์ผ๋ฏ๋ก, ์ฌ๊ธฐ์๋ ํต์ฌ ์์ด๋์ด ์์ค์์ ์ดํดํ๋ฉด ์ถฉ๋ถํฉ๋๋ค.
์ ๋ฆฌํ๋ฉด, Sparsh-skin์ ๋ฐฉ๋ฒ๋ก ์ (1) ์ ์ ์ฒด์์ ์ป์ ์งง์ ์๊ฐ ๊ตฌ๊ฐ์ ๋ค์ค ์ด๊ฐ ์ ํธ์ ์ผ์ ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๊ณ , (2) ์๊ธฐ-์ฆ๋ฅ ๋ฐฉ์์ ๋ฌด๋ผ๋ฒจ ์ฌ์ ํ์ต์ ํตํด ํ์ ๋คํธ์ํฌ๊ฐ ๋ถ๋ถ ๊ด์ฐฐ์์๋ ์ ์ฒด ์ด๊ฐ ์ํ๋ฅผ ํจ์ถํ๋ ํํ์ ๋ด๋๋ก ํ๋ จํ๋ฉฐ, (3) ์ด๋ ๊ฒ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ๊ณ ์ ๋๋ ๋ฏธ์ธ์กฐ์ ํ์ฌ ๋ค์ํ ํ์ ์์ ์ ํ์ฉํ๋ ๊ฒ์ ๋๋ค.
์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ
์ฐ๊ตฌ์ง์ ์ ์ํ Sparsh-skin ์ธ์ฝ๋์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ๋ค์ํ ๋ฒค์น๋งํฌ ์คํ์ ์ํํ์ต๋๋ค. ํฌ๊ฒ ๋๋์ด ๋ณด๋ฉด (a) ๋ฌผ๋ฆฌ์ ์์ ์ถ์ (์: ํ, ๋ฌผ์ฒด ์์น ๋ฑ)๊ณผ (b) ์กฐ์ ์ ์ฑ ํ์ต ๋ ๋ฒ์ฃผ๋ก ์คํ์ ๊ตฌ์ฑํ์ต๋๋ค. ์ฌ์ฉ๋ ๋ก๋ด ํ๋ซํผ์ Shadow Allegro Hand๋ก, ์ฌ๊ธฐ์ 16๊ฐ์ Xela uSkin ์ผ์ ํจ์น๋ฅผ ์ฅ์ฐฉํ์ฌ ์๊ฐ๋ฝ 4๊ฐ ์ ์ฒด์ ์๋ฐ๋ฅ ์ผ๋ถ๋ฅผ ์ปค๋ฒํ์์ต๋๋ค. ๊ฐ ์ผ์ ํจ์น๋ 3์ถ ํ์ ๊ฐ์งํ๋ฏ๋ก, ์ ์ ์ฒด์์ 3ร16=48์ฐจ์์ ์ด๊ฐ ๋ฐ์ดํฐ๊ฐ ์๊ฐ์ ์ผ๋ก๋ ์ผ์ข ์ ํ ๋ถํฌ ์ง๋์ฒ๋ผ ์ถ๋ ฅ๋ฉ๋๋ค. ์์ ์ธ๊ธํ ๋๋ก ์ฐ๊ตฌ์ง์ VR ๊ธฐ๊ธฐ๋ฅผ ์ด์ฉํด ์๊ฒฉ ์กฐ์์ผ๋ก ๋ฐ์ดํฐ ์์ง์ ์งํํ๋๋ฐ, ์ด 4์๊ฐ ๋ถ๋์ ์ด๊ฐ ๋ฐ์ดํฐ ๋์ 14๊ฐ์ ์๋ก ๋ค๋ฅธ ์ผ์ ๋ฌผ์ฒด ๋ฐ ์ฅ๋๊ฐ์ ๊ฐ์ง๊ณ ์ฌ๋ฌ ๊ฐ์ง ์ ์ด ๋์์ ์ํํ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ถ๋๋ฌ์ด ๊ณต์ ์ฅ์๋ค ๋๊ธฐ, ๋ธ๋ก์ ์๋ฐ๋ฅ์์ ๋ฏธ๋๋ฌ๋จ๋ฆฌ๊ธฐ, ๋ณ๋๊ป์ ๋นํ์ด ์ด๊ธฐ, ํค๋ณด๋๋ฅผ ๋๋ฅด๊ธฐ ๋ฑ์ ์์ด์ ๋์๋ค์ด ํฌํจ๋์์ต๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ๋ ์์ ํ ๋ผ๋ฒจ ์๋ ์ํ๋ก ์์ง๋์์ผ๋ฉฐ, Sparsh-skin ์ธ์ฝ๋์ ์ฌ์ ํ์ต์ ์ฌ์ฉ๋์์ต๋๋ค. ์ฌ์ ํ์ต ํ, ์ฐ๊ตฌ์ง์ ์๋์ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ๊ณผ์ ๋ค์์ Sparsh-skin์ ํํ์ ํ์ฉํ์ฌ ์ฑ๋ฅ์ ์ธก์ ํ์์ต๋๋ค:
ํ(์ ์ด ์ ํธ) ์ฌ๊ตฌ์ฑ ๋ฐ ์ถ์ : ์ฒซ ๋ฒ์งธ๋ก, ์ด๊ฐ ์ ํธ ์์ฒด๋ฅผ ๋ณต์ํ๋ ๊ณผ์ ๋ฅผ ํตํด ์ธ์ฝ๋๊ฐ ์ค์ ํ ์ ๋ณด๋ฅผ ์ผ๋ง๋ ๋ณด์กดํ๋์ง ํ์ธํ์ต๋๋ค. Sparsh-skin ์ธ์ฝ๋๋ก๋ถํฐ ๋์จ ์ ์ฌ ๋ฒกํฐ๋ฅผ ๋ค์ ์๋ ๊ฐ ์ผ์๋ค์ ์ ํธ๋ก ๋ณต์ํ๋๋ก ์คํ ์ธ์ฝ๋ ๋ฐ์ฝ๋๋ฅผ ํ๋ จํ์ฌ, ๋ณต์๋ ์ด๊ฐ ์ง๋๋ฅผ ์๊ฐํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ น์ ์์ผ๋ก ํ์๋ ์ผ์๋ณ ๋๋ฅด๋ ํ์ ํฌ๊ธฐ(์ ํฌ๊ธฐ์ ๋น๋ก)์ ๋นจ๊ฐ ํ์ดํ๋ก ํ์๋ ์ ๋จ(๋ง์ฐฐ) ๋ฐฉํฅ(์๋ ์ผ์ ์์น์์ ์ด๊ธ๋ ์ ๋์ ๋ฐฉํฅ์ผ๋ก ํํ)์ด ์ค์ ์ ์ด๊ณผ ์ ๋ถํฉํจ์ ๋ณด์์ต๋๋ค. ์ด๋ Sparsh-skin์ ์ ์ฌ ํํ์ด ์ผ์๋ณ ์ ์ด๋ ฅ (์ ๊ท๋ถ๋ ฅ + ์ ๋จ๋ ฅ) ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์์ถํ๊ณ ์์์ ์์ฌํฉ๋๋ค. ๋์๊ฐ, ๋ณ๋์ ์ ๋ ํ ๋ณด์ ๋ชจ๋ธ์ ์ฝ๊ฐ์ ์ง๋ํ์ต์ผ๋ก ํ์ตํ๋ฉด, Sparsh-skin ํํ์ผ๋ก๋ถํฐ ์ค์ ๋ดํด ๋จ์์ ํ ์ถ์ ๋ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ฌํ ํ ์ถ์ ๋ฅ๋ ฅ์ ์ถํ ๋ก๋ด์ด ์ ์ด๋ ฅ์ ์กฐ์ ํ๊ฑฐ๋, ๋ฏธ๋๋ฌ์ง์ ์๋ฐฉํ๊ธฐ ์ํด ํ ๋ณํ๋ฅผ ๊ฐ์งํ๋ ๋ฑ์ ํ์ฉ๋ ์ ์์ต๋๋ค.
์์ ์ฅ ๋ฌผ์ฒด์ ์์ธ(pose) ์ถ์ : ๋ ๋ฒ์งธ๋ก, ๋ก๋ด ์์ด ์ก๊ณ ์๋ ๋ฌผ์ฒด์ ์๋์ ์ธ ์์ธ๋ฅผ ์ด๊ฐ ์ ๋ณด๋ง์ผ๋ก ์ถ์ ํ๋ ๊ณผ์ ๋ฅผ ์คํํ์ต๋๋ค. ์์ปจ๋ ์๋ฐ๋ฅ ์์ ๋์ธ ์๊ธฐ๋ฅ ๋ฌผ์ฒด์ ํ์ ๊ฐ๋๋ ์์น ์ด๋์ Sparsh-skin ํํ์ผ๋ก๋ถํฐ ์์ธกํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ ํ๊ท-๋ถ๋ฅ ํผํฉ ๋ฐฉ์(regression-by-classification)์ ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, Sparsh-skin ํํ์ ์ ๋ ฅ ๋ฐ์ ๋ฌผ์ฒด์ SE(3) ์์ธ๋ฅผ ์ถ๋ก ํ์ต๋๋ค (Sparsh ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ 2D ํ๋ฉด ์์ SE(2) ๋ณํ์ ์ถ์ ํ๋ ์คํ์ด ์์๊ณ , ๋ณธ ์ฐ๊ตฌ์์๋ ์ ์ฌํ ์ ๊ทผ์ 3์ฐจ์์ผ๋ก ํ์ฅํ์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค). ๊ทธ ๊ฒฐ๊ณผ Sparsh-skin์ผ๋ก ํ์ตํ ํํ์ด ๋ฌผ์ฒด์ ํ์ ๋ฐ ์ด๋ ์ ๋ณด๋ฅผ ์๋น ๋ถ๋ถ ๋ดํฌํ๊ณ ์์์ ํ์ธํ ์ ์์์ต๋๋ค. ์ด๋ ์ด๊ฐ๋ง์ผ๋ก๋ ๋ฌผ์ฒด์ ์๋์ ์ธ ์์น ๋ณํ๋ฅผ ๊ฐ์งํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์๊ฐ ์ ๋ณด ์์ด๋ ์์๊ท ๋ด์ ๋ฌผ์ฒด ์ถ์ ์ด ๊ฐ๋ฅํ ์ ์ฌ๋ ฅ์ ์์ฌํฉ๋๋ค.
ํ๋ฌ๊ทธ ์ฝ์ (์ ๋ฐ ์กฐ์) ์ ์ฑ ํ์ต: ์ธ ๋ฒ์งธ๋ก, Sparsh-skin ํํ์ด ์ค์ ๋ค์ง ์ ์กฐ์ ๊ณผ์ ์์ ์ ์ฑ (policy) ํ์ต์ ์ผ๋ง๋ ๋์์ฃผ๋์ง ํ๊ฐํ์ต๋๋ค. ์คํ์ผ๋ก ์ ํ๋ ๊ณผ์ ๋ ํ๋ฌ๊ทธ ์ฝ์ ์ผ๋ก, ๋ก๋ด ์์ด ๋ฏธ๋ฆฌ ์ฅ๊ณ ์๋ ํ๋ฌ๊ทธ๋ฅผ ์์ ๋์ธ ๋ฉํฐํญ ์ฝ์ผํธ์ ์ฒซ ๋ฒ์งธ ์์ผ์ ์ ํํ ๊ฝ๋ ์์ ์ ๋๋ค. ์ด ๊ณผ์ ๋ ์๊ฐ๋ฝ๋ค๋ก ํ๋ฌ๊ทธ๋ฅผ ๋จ๋จํ ์ฅ ์ฑ, ์๋ชฉ๊ณผ ์๊ฐ๋ฝ์ ์ ์ ํ ์กฐํฉ ์์ง์์ผ๋ก ํ๋ฌ๊ทธ ํ์ ์์ผ ํ์ ๋ง์ถฐ ๋ฃ์ด์ผ ํ๋ฏ๋ก, ๋์ด๋๊ฐ ๋์ ์ ๋ฐ ์กฐ์์ ์ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ด ์์ ์ ๋ํด ์ธ๊ฐ ์๊ฒฉ์กฐ์ ๋ฐ๋ชจ ์ฌ๋ฌ ํ๋ฅผ ์์งํ ํ, ์ด๋ฅผ ์ด์ฉํด ํ์ฐ ์ ์ฑ (Diffusion Policy) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ชจ๋ธ ์์ธก ์ ์ด ์ ์ฑ ์ ํ์ต์์ผฐ์ต๋๋ค. ํ์ต๋ ์ ์ฑ ์ ๋ฉํฐ ๋ชจ๋ฌ ์ ๋ ฅ์ ์ฌ์ฉํ๋๋ฐ, 3๋์ ์ธ๋ถ ์นด๋ฉ๋ผ ์์๊ณผ ์๋ชฉ ์นด๋ฉ๋ผ ์์์ด ์๊ฐ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง๊ณ ์ฌ๊ธฐ์ Sparsh-skin ์ด๊ฐ ํํ์ด ๊ฒฐํฉ๋ ํํ์์ต๋๋ค. ๋น๊ต๊ตฐ์ผ๋ก๋ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์ค์ง ๋น์ (vision) ์ ๋ ฅ๋ง ์ฌ์ฉํ๋ ๊ฒฝ์ฐ์, ์ด๊ฐ์ ์ฌ์ฉํ๋ end-to-end๋ก ํ์ตํ๋ ๊ฒฝ์ฐ ๋ฑ์ ์ค์ ํ์ต๋๋ค. ํ๊ฐ ๊ฒฐ๊ณผ, Sparsh-skin ์ฌ์ ํ์ต ํํ์ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋ฉฐ, ๋์ผํ ์ด๊ฐ ์ ๋ณด๋ฅผ end-to-end๋ก ํ์ตํ ์ ์ฑ ์ด๋ ์ด๊ฐ์ ๋ฐฐ์ ํ ์ ์ฑ ์ ๋นํด ์์ ์ ์ด๊ณ ๋ฐ์ดํฐ ํจ์จ์ ์ผ๋ก ํ์ต๋จ์ ํ์ธํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ง์ง๋ง ๋จ๊ณ์์ Sparsh-skin ํํ์ ์ด ์ ์ฑ ์ ์๊ฐ ์ ๋ ฅ๋ง์ผ๋ก ํ์ตํ ์ ์ฑ ๋ณด๋ค ์ฑ๊ณต๋ฅ ์ด ์ ์๋ฏธํ๊ฒ ๋๊ณ (์ด๊ฐ ๋ฏธํ์ฉ ๋๋น), end-to-end ๋๋น ํ์ต ์์ ์ฑ ๋ฐ ์ฑ๊ณต๋ฅ ๋ชจ๋ ํฅ์๋์์์ ๋ณด๊ณ ํ์์ต๋๋ค. ์ด๋ ์ด๊ฐ ํํ์ด ์๊ฐ์ผ๋ก ๋ถ์กฑํ ๋ฏธ์ธ ์ ๋ ฌ ์ ๋ณด๋ฅผ ๋ณด์ํ๊ณ , ํ์ต ๊ณต๊ฐ์ ์ค์ฌ์ฃผ์ด ์ ์ฑ ํ์ต์ ์ฉ์ดํ๊ฒ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋ฉ๋๋ค.
ไปฅไธ ์ธ ๊ฐ์ง ๋ํ ์คํ์ ํตํด, Sparsh-skin์ผ๋ก ์ฌ์ ํ์ต๋ ์ด๊ฐ ์๋ฒ ๋ฉ์ด ์ฌ๋ฌ ํํ์ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ์ ์ฉํจ์ ์ ์ฆํ์ต๋๋ค. ์ ๋์ ์ธ ์ฑ๋ฅ์ ์์ฝํ๋ฉด, Sparsh-skin์ ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ธฐ์กด์ ์ต์ ์ ๋ฐฉ๋ฒ ๋๋น ํ๊ท 41% ์ด์ ์ฑ๋ฅ ํฅ์์ด ์์๊ณ , ํน์ ์์ ์์๋ ์ต๋ 56% ํฅ์์ด ๊ด์ฐฐ๋์์ต๋๋ค. ์์ปจ๋ ๋ฌผ์ฒด ์์ธ ์ถ์ ์ ํ๋๊ฐ ํฌ๊ฒ ๋์์ก์ผ๋ฉฐ, ํ๋ฌ๊ทธ ์ฝ์ ์ฑ๊ณต๋ฅ ๋ ์ด๊ฐ ๋ฏธ์ฌ์ฉ ๋๋น ์๋นํ ํฅ์๋์์ต๋๋ค. ๋ํ ํ์ต ๊ณก์ ์ ๋น๊ตํ๋ฉด, ์ฌ์ ํ์ต๋ ํํ์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ ์ ์์ ๋ฐ์ดํฐ๋ก๋ ๋ชฉํ ์ฑ๋ฅ์ ๋๋ฌํจ์ ๋ณด์ฌ ํ๋ณธ ํจ์จ์ฑ(sample efficiency) ์ญ์ ๊ฐ์ ๋์์์ ์ ์ ์์ต๋๋ค. ์ด๋ Sparsh-skin ์๋ฒ ๋ฉ์ด ๋ค์ํ ์ด๊ฐ ์ํฉ์ ๋ํด ์ผ๋ฐํ๋ ํน์ง ํํ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ก, ๊ฐ๊ฐ์ ๊ณผ์ ๋ง๋ค ์ด๋ฐ๋ถํฐ ์ ์ฉํ ํน์ฑ์ ์ถ์ถํ์ฌ ํ์ต์ ๋น ๋ฅด๊ฒ ์งํํ ์ ์์๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ๊ณผ์
๋ณธ ์ฐ๊ตฌ๋ ์ ์ ์ฒด ์ด๊ฐ ์ผ์๋ฅผ ํ์ฉํ ์๊ธฐ ์ง๋ ํํ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ฌ์ ํ ๋จ์์๋ ํ๊ณ์ ๊ณผ ํฅํ ๋ฐ์ ์ํฌ ๋ฐฉํฅ์ด ์กด์ฌํฉ๋๋ค:
์ ๋์ ํ/๋ฌผ๋ฆฌ๋์ ๋ํ ์ ๋ฐ ๋ณด์ : Sparsh-skin ํํ์ ๋ค์ํ ์ ์ด ํจํด์ ์๋์ ์ฐจ์ด๋ ์ ํ์ตํ์ง๋ง, ์ค์ ๋ดํด ๋จ์์ ์ ๋ ํ ์ถ์ ์ด๋ ์ ๋์ ์ธ ๋ง์ฐฐ ๊ณ์ ์ถ์ ๋ฑ์๋ ์ถ๊ฐ ๋ณด์ ์ด ํ์ํ ์ ์์ต๋๋ค. ์๊ธฐ ์ผ์ ์ถ๋ ฅ์ ํ๊ฒฝ ์๊ณ๋ ๊ฐ๋ณ ์ผ์ ํธ์ฐจ ๋ฑ์ผ๋ก drift๊ฐ ์์ ์ ์์ด, ์์ ํ ๋ณด์ ์๋ ์ํ๋ก๋ ์ ๋๊ฐ ์์ธก์ ํ๊ณ๊ฐ ์์ต๋๋ค. ํฅํ์๋ ์ฌ์ ํ์ต๋ ํํ์ ์๋์ ๋ผ๋ฒจ๋ ๋ฐ์ดํฐ(์: ํ ์ผ์ ๊ณ์ธก๊ฐ)๋ก ๋ฏธ์ธ ๋ณด์ ์ ๊ฐํ์ฌ, ์ ๋ ๋ฌผ๋ฆฌ๋๊น์ง ์ ๋ฐํ๊ฒ ์ถ์ ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์์ต๋๋ค.
๋ค์ํ ์ผ์ ๋ฐ ๋ชจ๋ฌ๋ฆฌํฐ์์ ํตํฉ: ๋ณธ ์ฐ๊ตฌ๋ Xela์ฌ์ uSkin์ด๋ผ๋ ํน์ ์๊ธฐ ์ด๊ฐ ์ผ์ ํ๋์จ์ด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ๋ค๋ฅธ ์ข ๋ฅ์ ์ด๊ฐ ์ผ์(์: ๊ดํ์ ์ ค ์ด๊ฐ์ผ์, ์์ ์ผ์ ๋ฑ)๋ ์จ๋/์ง๋๊ณผ ๊ฐ์ ๋ค๋ฅธ ์ ์ด ๊ฐ๊ฐ๊น์ง ํตํฉํ ํํ์ผ๋ก ํ์ฅํ๋ ๊ฒ๋ ๊ณผ์ ์ ๋๋ค. ์ฌ์ค Sparsh ๊ณ์ด์ ๋ค๋ฅธ ์ฐ๊ตฌ๋ก Sparsh-X๋ผ๋ ๋ค์ค๋ชจ๋ฌ(multisensory) ์ด๊ฐ ํํ์ ๊ฐ๋ฐํ ์๊ฐ ์๋๋ฐ, ์ฌ๊ธฐ์๋ ์ด๋ฏธ์ง, ํ, ์ง๋, ์ํฅ ๋ฑ์ ์ ํธ๋ฅผ ํจ๊ป ํ์ต์์ผ ์ฑ๋ฅ์ ๋์์ต๋๋ค. ํฅํ Sparsh-skin๋ ๋น์ ์นด๋ฉ๋ผ ์ ๋ณด๋ ์๋ฆฌ ์ผ์ ๋ฑ์ ๊ฒฐํฉํ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ผ๋ก ๋ฐ์ ์ํจ๋ค๋ฉด, ๋์ฑ ํ๋ถํ ์ด๊ฐ ์ง๊ฐ ๋ฅ๋ ฅ์ ์ป์ ์ ์์ ๊ฒ์ ๋๋ค.
์ผ๋ฐํ ๋ฐ ์ ์ด ํ์ต: Sparsh-skin ์ธ์ฝ๋๋ ํ ๊ฐ์ง ๋ก๋ด ์๊ณผ ์ผ์ ์ธํ ์ ๋ํด ํ์ต๋์์ต๋๋ค. ์ด๋ฅผ ๋ค๋ฅธ ๋ก๋ด ์(์: ํํ๊ฐ ๋ค๋ฅธ ๋ก๋ด ๊ทธ๋ฆฌํผ)์ด๋ ๋ค๋ฅธ ์ผ์ ๋ฐฐ์ด์๋ ์ ์ฉํ๋ ค๋ฉด ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์ ๊ตฌ์กฐ๋ ์ผ์ ๋ถํฌ๊ฐ ๋ฐ๋๋ฉด ์ผ์ ์์น ์๋ฒ ๋ฉ ๋ฑ ์ ๋ ฅ ํํ์ ์กฐ์ ํด์ผ ํ๋ฉฐ, ๊ฒฝ์ฐ์ ๋ฐ๋ผ ์ ์ด ํ์ต(transfer learning)์ด ํ์ํ ์ ์์ต๋๋ค. ๋ฏธ๋์๋ ์ฌ๋ฌ ํํ์ ์๊ณผ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ํ์ตํ๊ฑฐ๋, ํ์ต๋ ๋ชจ๋ธ์ ์๋ก์ด ํ๋์จ์ด์ ๋๋ฉ์ธ ์ ์์ํค๋ ์ฐ๊ตฌ๋ ์ด๋ฃจ์ด์ง ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ค์๊ฐ ์ ์ด์์ ์ ๋ชฉ: ํ์ฌ Sparsh-skin ํํ์ ์ฃผ๋ก ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํ์ต ๋ฐ ํ๊ฐ๋ก ๊ทธ์ณ ์์ต๋๋ค. ํฅํ์๋ ์ด ํํ์ ๋ก๋ด์ ์ค์๊ฐ ์ ์ด ๋ฃจํ์ ๋ฃ์ด, ํผ๋๋ฐฑ ์ ์ด๋ ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)์์ ๋ฐ๋ก ํ์ฉํ๋ ๋ฐฉ์๋ ๊ณ ๋ ค๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๊ฐ๋ฝ ๋ฏธ๋๋ฌ์ง ๊ฐ์ง ํ ์ฆ๊ฐ ๊ทธ๋ฆฝ ์กฐ์ ์ ํ๋ค๋ ๊ฐ, ํ ์ ์ด ๋ฃจํ์ Sparsh-skin ํผ์ฒ๋ฅผ ๋ฐ์ํ๋ ๋ฑ์ ์์ฉ์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด์๋ ์ธ์ฝ๋์ ์ถ๋ก ์๋ ์ต์ ํ์ ์ค์๊ฐ ์ ๋ขฐ๋ ํ๊ฐ ๋ฑ์ด ๋ท๋ฐ์นจ๋์ด์ผ ํฉ๋๋ค.
์์ฝํ๋ฉด, Sparsh-skin ์ฐ๊ตฌ๋ ์ด๊ฐ ํํ ํ์ต ๋ถ์ผ์ ์๋ก์ด ์ฅ์ ์ด์์ผ๋, ์ ๋์ ๋ฌผ๋ฆฌ๋ ์ถ์ , ๋ค์ํ ์ผ์ ํตํฉ, ์๋ก์ด ํํ๋ก์ ์ผ๋ฐํ, ์ค์๊ฐ ์์คํ ์ ์ฉ ๋ฑ ์์ผ๋ก ํ๊ตฌํด์ผ ํ ํฅ๋ฏธ๋ก์ด ์ฐ๊ตฌ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉํฅ์ผ๋ก ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ์ด๋ค์ง๋ค๋ฉด, ์ฅ์ฐจ ๋ก๋ด์ด ์ฌ๋ ์์ค์ผ๋ก ํ๋ถํ ์ด๊ฐ์ง๋ฅ์ ๊ฐ์ถ๋ ๋ฐ ํฌ๊ฒ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
๐ฅ Sparsh (์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ํํ ํ์ต) ์ฐ๊ตฌ์์ ์ฐ๊ด์ฑ
์์ ์ธ๊ธํ์๋ฏ์ด, ๋ณธ ๋ ผ๋ฌธ์ Sparsh-skin์ 2024๋ CoRL์ ๋ฐํ๋ Sparsh ์ฐ๊ตฌ์ ์ฐ์ฅ์ ์์ ์์ต๋๋ค. Sparsh๋ โSelf-supervised touch representations for vision-based tactile sensingโ๋ผ๋ ์ ๋ชฉ ๊ทธ๋๋ก, ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ์ด๊ฐ ์ผ์(์: GelSight, DIGIT์ ๊ฐ์ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ด๊ฐ์ผ์)๋ฅผ ์ํ ์๊ธฐ ์ง๋ ํํ ํ์ต ๊ธฐ๋ฒ์ ์ ์ํ ๋ฐ ์์ต๋๋ค. Sparsh ์ฐ๊ตฌ์ ๋ฐฐ๊ฒฝ์๋, ์ต๊ทผ ๋ฑ์ฅํ ๊ณ ํด์๋ ์ด๊ฐ ์นด๋ฉ๋ผ ์ผ์๋ค์ด ๋ก๋ด ์กฐ์์ ํฐ ๋์์ด ๋๊ณ ์์ง๋ง, ๊ฐ๊ธฐ ๋ค๋ฅธ ์ผ์๋ง๋ค ๋ผ์ดํ ์กฐ๋ช , ์ ค ํจํด, ์นด๋ฉ๋ผ ํน์ฑ ๋ฑ์ด ๋ฌ๋ผ ์ผ์๋ง๋ค ๋ณ๋์ ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋ ๋นํจ์จ์ด ์๋ค๋ ๋ฌธ์ ์์์ด ์์์ต๋๋ค. ๋ํ ๋ฏธ๋๋ฌ์ง(slip) ๊ฐ์ง๋ ์ ์ด๋ ฅ ์ถ์ ๋ฑ์ ๊ณผ์ ๋ฅผ ์ํ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ค์๋ ์กด์ฌํ์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ Sparsh์์๋ ๋ค์ํ ์ด๊ฐ ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ์ฝ 46๋ง ์ฅ ์ด์์ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ชจ์ ํฉ์ณ์ ํตํฉ๋ ์๊ธฐ ์ง๋ ํ์ต์ ์ํํ์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, Sparsh ์ฐ๊ตฌ์ง์ MAE(Masked Autoencoder), DINO(์๊ธฐ ์ฆ๋ฅ), JEPA(Joint Embedding Predictive Architecture) ๋ฑ ์ฌ๋ฌ ์๊ธฐ ์ง๋ ํ์ต ๊ธฐ๋ฒ์ ์คํ์ ์ผ๋ก ๋น๊ตํ์ฌ, ์ด๋ค ์ ๊ทผ์ด ์ด๊ฐ ์ด๋ฏธ์ง ํํ์ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง ๋ถ์ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ํฝ์ ๊ณต๊ฐ์์ ๋ณต์ํ๋ MAE๋ณด๋ค๋, ์ ์ฌ ํํ ๊ณต๊ฐ์์ ์์ธกํ๋๋ก ํ์ตํ๋ DINO๋ I-JEPA์ ๊ฐ์ ๊ธฐ๋ฒ์ด ๋ ์ฐ์ํ๋ค๋ ๊ฒฐ๋ก ์ ์ป์๊ณ , ์ต์ข ์ ์ผ๋ก Sparsh-DINO์ Sparsh-IJEPA ๋ชจ๋ธ์ด ๊ฐ์ฅ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ๊ฑฐ์น์ง ์์ end-to-end ํ์ต ๋๋น TacBench๋ก ๋ช ๋ช ๋ ์ด๊ฐ ๋ฒค์น๋งํฌ์์ ํ๊ท 95.1%๋ผ๋ ์๋์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋๋ฐ, ์ด๋ ์ฌ์ ํ์ต์ ํจ๊ณผ๊ฐ ๋งค์ฐ ํฌ๋ค๋ ๊ฒ์ ๋จ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. TacBench์๋ 6๊ฐ์ง์ ๋ค์ํ ์ด๊ฐ ๊ณผ์ (์: ์ ์ด๋ ฅ ๋งต ๋ณต์, ๋ฏธ๋๋ผ ์ฌ๋ถ ๋ถ๋ฅ, ๋ฌผ์ฒด ์๋ณ, ์กฐ์ ๊ณํ ๋ฑ)๊ฐ ํฌํจ๋๋๋ฐ, Sparsh ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ด๋ค ์ฌ๋ฌ ๊ณผ์ ์ ์๋ก ๋ค๋ฅธ ์ผ์๋ค์ ๋ํด ๋ชจ๋ ์ผ๊ด๋๊ฒ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ์์ต๋๋ค. ์์ปจ๋ Sparsh ์ฐ๊ตฌ๋ฅผ ํตํด, ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ์ผ์ ๋ถ์ผ์์๋ ๊ฑฐ๋ํ ๋ฐ์ดํฐ๋ก ๋ฒ์ฉ ์ด๊ฐ ํํ์ ํ์ตํ๋ฉด ๊ฐ๋ณ ๋ฌธ์ ์ ์ผ์ผ์ด ํ์ตํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ํจ๊ณผ์ ์์ด ์ ์ฆ๋ ๊ฒ์ ๋๋ค.
์ด๋ฌํ Sparsh์ ์ฒ ํ๊ณผ ์ฑ๊ณผ๋ Sparsh-skin์ผ๋ก ๊ณ ์ค๋ํ ์ด์ด์ก์ต๋๋ค. ๋ ์ฐ๊ตฌ์ ๊ธฐ์ ์ ์ฐ์์ฑ๊ณผ ์ฐจ๋ณ์ ์ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
ํ์ต ์ฒ ํ์ ์ฐ์์ฑ: ๋ ์ฐ๊ตฌ ๋ชจ๋ โ์ด๊ฐ ๋ฐ์ดํฐ์ ๋ฒ์ฉ ํํ(foundation representation)โ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋ผ๋ฒจ์ด ๋ถ์กฑํ ์ด๊ฐ ์์ญ์์ ์๊ธฐ ์ง๋ ํ์ต์ ๋์ ํ์ฌ ์ฌ์ ํ์ต๋ ์ธ์ฝ๋๋ฅผ ๋ง๋ค๊ณ , ์ด๋ฅผ ๋ค์ํ ์์ ์ ์ ์ฉํ๋ ํฐ ํ๋ฆ์ด Sparsh์์ Sparsh-skin์ผ๋ก ์ด์ด์ง๋๋ค. ์ฆ, ์๊ฐ ์ด๊ฐ์ด๋ฏธ์ง์์ ์๊ธฐ ์ด๊ฐํผ๋ถ ์ ํธ๋ก ์ ๋ ฅ modality๋ง ๋ฌ๋ผ์ก์ ๋ฟ, ๋น์ง๋ ์ฌ์ ํ์ต โ ๋ค์ด์คํธ๋ฆผ ์ ์ด์ ๊ตฌ์กฐ๋ ๋์ผํ ์ฒ ํ์ ๋๋ค.
์ผ์ ํํ์ ์ฐจ์ด: Sparsh๋ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(vision-based tactile) ์ฆ, ์ด๋ฏธ์ง ํํ์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ์์ต๋๋ค. ๋ฐ๋ฉด Sparsh-skin์ ์๊ธฐ์ฅ ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋ถ ์ผ์๋ก, ๋ฐ์ดํฐ๊ฐ ๋ค์ค ์ง์ ์ ์๋ ๋ก๊ทธ ์ ํธ ์ํ์ค ํํ์ ๋๋ค. Sparsh์์๋ ์ด๋ฏธ์ง ํจ์น๋ฅผ ๋ง์คํนํ๊ฑฐ๋ ํ๋ ์์ผ๋ก ์ด๋ฏธ์ง ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ด ํ์ฉ๋์๊ณ , Conv-NeXt๋ ViT์ ๊ฐ์ ๋น์ ์ ๊ฒฝ๋ง ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ต๋๋ค. Sparsh-skin์์๋ ์๊ณ์ด ์ผ์ ์ ํธ์ด๋ฏ๋ก, ์๊ฐ ์ฒ๋ฆฌ ๋ฐ ์ผ์ ์์น ์๋ฒ ๋ฉ ๋ฑ ์๊ณ์ด+๊ตฌ์กฐ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ด ํ์ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ ์ํคํ ์ฒ ๊ด์ ์์ Sparsh๋ CNN/Transformer ๋น์ ๋ฐฑ๋ณธ์ด๊ณ , Sparsh-skin์ ์๋ง๋ ์๊ณ์ด ์๋ฒ ๋ฉ + Transformer (ํน์ GNN) ๊ตฌ์กฐ๋ก ๊ตฌํ๋๋ ๋ฑ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๋ํ Sparsh๋ ํ ๋ฒ์ ํ๋์ ์ผ์ ์ด๋ฏธ์ง(์๊ฐ๋ฝ ํ ๊ฐ์ ์ด๊ฐ ์ด๋ฏธ์ง)์ ๋ํด ๋์ํ์ง๋ง, Sparsh-skin์ ์ ์ ์ฒด์ ์ฌ๋ฌ ์ผ์๋ฅผ ๋์์ ๋ค๋ฃน๋๋ค. ์ฆ Sparsh๋ ์ฌ๋ฌ ์ผ์ ์ข ๋ฅ์ ๋ํด ๊ฐ๊ฐ ์ ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ์ด์๋ค๋ฉด, Sparsh-skin์ ์ฌ๋ฌ ์ผ์๊ฐ ์ด๋ฃจ๋ ํ๋์ ์์คํ ์ ํ๊บผ๋ฒ์ ๋ชจ๋ธ๋งํ๋ค๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
ํ์ต ๋ฐ์ดํฐ์ ๋ฒ์: Sparsh๋ ์ฌ๋ฌ ์ฐ๊ตฌํ์ด ๊ณต๊ฐํ ์ฌ๋ฌ ์ด๊ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ํตํฉ ํ์ฉํ์ฌ ์ด 66๋ง์ฅ ๊ฐ๋์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ์์ต๋๋ค. ์ฌ๊ธฐ์๋ GelSight ์ผ์๋ก ๋๋ฅธ ๋ฌผ์ฒด ๋ฐ์ดํฐ, DIGIT ์ผ์๋ก ๋ฌธ์ง๋ฅธ ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ์ํฉ์ด ํฌํจ๋์ด, ํ ๊ฐ์ง ์๊ฐ๋ฝ ์ผ์ ์ด๋ฏธ์ง ๋ด์์์ ๋ฒ์ฉ์ฑ์ ํค์ ์ต๋๋ค. Sparsh-skin์ ์์ฒด ์์งํ 4์๊ฐ ๋ถ๋์ ๋ฉํฐ์ผ์ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์๊ณ , ์ด๋ ํ ์ ํ์ ์ผ์(uSkin)์ด์ง๋ง ์์ ์ฌ๋ฌ ์์น์ ๋ค์ํ ์กฐ์ ๋์์ ์์ฐ๋ฅด๋ ๋ฐ์ดํฐ๋ฅผ ๋ด์์ต๋๋ค. Sparsh๊ฐ ์ผ์ ๊ฐ ๋ฒ์ฉ์ฑ(๋ค๋ฅธ ์ด๊ฐ ์นด๋ฉ๋ผ๋ค ๋ชจ๋์ ํตํ๋ ๋ชจ๋ธ)์ ๋ฌ์ฑํ๋ ค ํ๋ค๋ฉด, Sparsh-skin์ ์ ๋ด์ ๊ณต๊ฐ์ ๋ฒ์ฉ์ฑ(์๊ฐ๋ฝ~์๋ฐ๋ฅ ์ด๋์์ ์ ์ด์ด ์ผ์ด๋๋ ์ผ๊ด๋ ํํ์ผ๋ก ํตํฉ)์ ๋ฌ์ฑํ๋ ค ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
์๊ธฐ ์ง๋ ๋ฐฉ์ ๋น๊ต: ๋ ์ฐ๊ตฌ ๋ชจ๋ self-supervised ๊ธฐ๋ฒ์ ์ผ์ง๋ง, ์ ๊ทผ๋ฒ์ ์ฝ๊ฐ ์ฐจ์ด๊ฐ ์์ต๋๋ค. Sparsh์์๋ ๋ง์คํน ํ ๋ณต์(MAE)๊ณผ ์๊ธฐ ์ฆ๋ฅ(DINO), ์์ธก ์ฝ๋ฉ(JEPA) ๋ฑ์ ํญ๋๊ฒ ์๋ํ๊ณ ๋น๊ต์คํ์ ํ์ต๋๋ค. Sparsh-skin์์๋ ๊ทธ ์ค ์๊ธฐ ์ฆ๋ฅ(self-distillation) ๋ฐฉ์์ ์ฑํํ์ฌ ๊ต์ฌ-ํ์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ก ํ์ต์ ์งํํ์ต๋๋ค. ์ด๋ Sparsh์์ ๋ฐ๊ฒฌ๋ โ์ ์ฌ ๊ณต๊ฐ์์์ ์๊ธฐ ์ง๋ ํ์ต์ด ํฝ์ ๋ณต์๋ณด๋ค ํจ๊ณผ์ โ์ด๋ผ๋ ๊ตํ์ ๋ฐํ์ผ๋ก, Sparsh-skin์์๋ latent representation์ ๋ง์ถ๋ ๋ฐฉํฅ์ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋ค๋ง Sparsh-skin์ ์ ๋ ฅ์ ์ผ๋ถ๋ฅผ ๋ง์คํนํ๊ณ ์์ ์ ๋ ฅ์ผ๋ก๋ถํฐ ํ์ตํ๋ ๊ตฌ์กฐ๋ก, MAE์ DINO ์์ด๋์ด๋ฅผ ์ ์ถฉํ ๋น๋์นญ ์๊ธฐ ์ฆ๋ฅ ํํ๋ผ๊ณ ํ ์ ์์ต๋๋ค. Sparsh์ DINO๋ ๋์ผํ ์ด๋ฏธ์ง๋ฅผ ๋ ๊ฐ์ง ์ฆ๊ฐํ์ฌ ๋ ๋ค ์ธ์ฝ๋์ ํต๊ณผ์์ผ ์๋ฒ ๋ฉ์ ๋ง์ถ๋ ๋์นญ์ ๊ตฌ์กฐ์ธ๋ฐ, Sparsh-skin์ ์์ vs ์์ ์ ๋ ฅ์ ๋น๋์นญ ๊ตฌ์กฐ๋ผ๋ ์ ์ด ์ฐจ๋ณํ๋ฉ๋๋ค.
๋ค์ด์คํธ๋ฆผ ๊ณผ์ ์ฐจ์ด: Sparsh์์๋ TacBench๋ผ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, ์ด๊ฐ ์ด๋ฏธ์ง๋ก ํ ์ ์๋ ๋ค์ํ ๊ณผ์ (์ ์/์ ๋จ๋ ฅ์ฅ ์ฌํ, ๋ฌผ์ฒด ์๋ณ, ์ ์ด ์ฌ๋ถ ํ๋ณ, ๋ฏธ๋๋ผ ์์ธก, ๋ฌผ์ฒด ํฌ์ฆ ์ถ์ , ์กฐ์ ๊ณํ)์ ํ๊ฐํ์ต๋๋ค. Sparsh-skin์์๋ ๋ก๋ด ์ ์กฐ์๊ณผ ๊ด๋ จ๋ ๊ณผ์ ๋ค (ํ ์ถ์ , ๋ฌผ์ฒด ์์ธ ์ถ์ , ํ๋ฌ๊ทธ ์ฝ์ ๋ฑ)์ ์ ์ ํ์ต๋๋ค. Sparsh์ ๊ณผ์ ๋ค์ด ์ฃผ๋ก ๋จ์ผ ์ด๊ฐ ์ผ์์ ๋ฒ์์์ ์ ์๋ ๊ฒ์ด๋ผ๋ฉด, Sparsh-skin์ ๊ณผ์ ๋ค์ ์ ์ ์ฒด ํ์์ด ํ์ํ ์ข ๋ ๋ณต์กํ ์กฐ์๊น์ง ๋ค๋ฃจ๊ณ ์์ต๋๋ค. ์ด๋ ์ผ์ ๋ฒ์ ํ์ฅ์ ๋ฐ๋ผ ํ๊ฐ ๋ฒ์๋ ํ์ฅ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
์ฑ๋ฅ ์งํ: ๋ ์ฐ๊ตฌ ๋ชจ๋ ์ฌ์ ํ์ต์ ์ด์ ์ผ๋ก ํฐ ์ฑ๋ฅ ํฅ์์ ์ป์์ง๋ง, Sparsh์์๋ 95%์ ๋ฌํ๋ ํฅ์์ ๋ณธ ๋ฐ๋ฉด Sparsh-skin์์๋ 40~56% ์ ๋์ ํฅ์์ ๋ณด๊ณ ํ์ต๋๋ค. ์ด ์ฐจ์ด๋ ์ฌ๋ฌ ๊ฐ์ง ์์ธ์ด ์์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด Sparsh์ TacBench๋ ๋น๊ต์ ๋จ์ํ ๋ถ๋ฅ/ํ๊ท ๊ณผ์ ๋ค์ด๊ณ end-to-end ํ์ต ์ฑ๋ฅ์ด ๋ฎ์๋ ๋ฐ๋ฉด, Sparsh-skin์ ๊ณผ์ ๋ค์ ์ด๋ฏธ ์ผ๋ถ vision ์ ๋ณด๋ ๋ณํฉ๋๋ ๋ฑ ๊ธฐ๋ณธ ์ฑ๋ฅ์ด ๋์ ํธ์ด๋ผ ๊ฐ์ ํญ์ด ์ ํ์ ์ผ ์ ์์ต๋๋ค. ๊ทธ๋ผ์๋ ์ฌ์ ํ ๋ ๊ฒฝ์ฐ ๋ชจ๋ ์ฌ์ ํ์ต ํํ์ ์ฐ์์ฑ์ ๋ช ํํ ์ ์ฆ๋์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, Sparsh์ Sparsh-skin์ โ์ด๊ฐ์ ๋ฒ์ฉ ํํ ํ์ตโ์ด๋ผ๋ ๊ณตํต๋ ๋น์ ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ ์๋ ์๊ฐ๋ฝ ์ด๊ฐ์นด๋ฉ๋ผ๋ก, ํ์๋ ์ ์ ์ฒด ์ด๊ฐํผ๋ถ๋ก ๊ฐ๊ฐ ๊ทธ ๋น์ ์ ์คํํ ์์ ์ ๋๋ค. Sparsh๋ฅผ ํตํด ์ฌ๋ฌ ์ด๊ฐ ์ด๋ฏธ์ง ์ผ์ ๊ฐ์ ํตํ๋ ํ์ค ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์๋ค๋ฉด, Sparsh-skin์ ์ ์ ์ฒด๋ฅผ ํ์ฉํ ์ด๊ฐ ์ง๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค. ๋ ์ฐ๊ตฌ ๋ชจ๋ ๋ก๋ด ์ด๊ฐ ๋ถ์ผ์์ ๋ฐ์ดํฐ ์ค์ฌ์ ํ์ต ์ ๊ทผ์ด ์ ํจํจ์ ๋ณด์ฌ์ฃผ์๊ณ , ๋์๊ฐ ์ด๋ฌํ ๊ธฐ๋ฒ์ด ๋ฉํฐ๋ชจ๋ฌ ํตํฉ์ด๋ ๋ ๋ณต์กํ ์กฐ์ ๊ธฐ์ ๋ก ํ์ฅ๋ ์ ์์์ ์์ฌํฉ๋๋ค. ์์ผ๋ก Sparsh ์๋ฆฌ์ฆ์ ์ถ์ ๋ ์ง์์ ๋ฐํ์ผ๋ก, ๋ก๋ด์ด ๋ ์๋ฆฌํ๊ณ ๋ฏผ์ฒฉํ๊ฒ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ์ ์๋ ์ด๊ฐ ์ง๋ฅ์ ๊ฐ์ถ๊ฒ ๋๊ธธ ๊ธฐ๋ํด ๋ด ๋๋ค.
์๋๋ โSelf-supervised perception for tactile skin covered dexterous handsโ (Sparsh-skin) ๋ ผ๋ฌธ๊ณผ โSparsh: Self-supervised touch representations for vision-based tactile sensingโ ๋ ผ๋ฌธ์ ์ฃผ์ ํญ๋ชฉ๋ณ ๋น๊ตํ์ ๋๋ค.
ํญ๋ชฉ | Sparsh (CoRL 2024) | Sparsh-skin (arXiv 2025) |
---|---|---|
๋ชฉํ | ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(GelSight, DIGIT ๋ฑ)์ ๋ฒ์ฉ ํํ ํ์ต | ์๊ธฐ ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋ถ ์ผ์(uSkin ๋ฑ)์ ์ ์ ์ฒด ํตํฉ ํํ ํ์ต |
์ผ์ ์ ํ | ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์ (์ด๋ฏธ์ง ํํ) | ์๊ธฐ์ฅ ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋ถ ์ผ์ (3์ถ ํ ๋ฒกํฐ, ๋ค์ง์ ) |
์ ๋ ฅ ๋ฐ์ดํฐ | ์ด๋ฏธ์ง (๋จ์ผ ์๋ ์ผ์) | ์๊ณ์ด ํ ์ ํธ + ์ผ์ ์์น ์ ๋ณด (์ ์ ์ฒด 16๊ฐ ์ผ์) |
ํ์ต ๋ฐฉ์ | ์๊ธฐ ์ง๋ ํ์ต: MAE, DINO, I-JEPA ๋น๊ต ์คํ | ์๊ธฐ ์ง๋ ํ์ต: ๋น๋์นญ self-distillation (๊ต์ฌ/ํ์ ๋คํธ์ํฌ) |
๋ชจ๋ธ ์ํคํ ์ฒ | ๋น์ ๋ฐฑ๋ณธ (CNN, Vision Transformer) | ์๊ณ์ด/๊ณต๊ฐ ์ ๋ณด ํตํฉ ์ธ์ฝ๋ (Transformer ๋๋ GNN ๊ธฐ๋ฐ ์ถ์ ) |
๋ฐ์ดํฐ ๊ท๋ชจ | ์ฝ 66๋ง ๊ฐ ์ด๋ฏธ์ง (์ฌ๋ฌ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ํ์ฉ) | ์ฝ 4์๊ฐ ๋ถ๋์ ๋ก๋ด ์ ๋ค์ค ์ผ์ ์ํ์ค (์์ฒด ์์ง) |
์ผ์ ๋ค์์ฑ | ๋ค์ํ ์ข ๋ฅ์ ์ด๊ฐ ์ด๋ฏธ์ง ์ผ์ ํตํฉ | ํ๋์ ์ผ์ ์ข ๋ฅ(uSkin), ์ ๋ด์ ๋ค์ํ ์์น ์ปค๋ฒ |
๊ณต๊ฐ ์ปค๋ฒ๋ฆฌ์ง | ์ฃผ๋ก ์๊ฐ๋ฝ ๋ ์ค์ฌ (์ผ์ 1~2๊ฐ) | ์๊ฐ๋ฝ, ๋ง๋, ์๋ฐ๋ฅ๊น์ง ์ ์ ์ฒด |
์ ๋ ฅ ๋ณํ ๊ธฐ๋ฒ | ์ด๋ฏธ์ง ์ฆ๊ฐ (ํ์ , ๋ง์คํน, ํฌ๋กญ ๋ฑ) | ์ผ์ ๋ง์คํน, ๋ ธ์ด์ฆ ์ฝ์ (์์๋ ์ ๋ ฅ ์์ฑ) |
๋ค์ด์คํธ๋ฆผ ๊ณผ์ | ์ ์ด๋ ฅ ์ถ์ , ๋ฏธ๋๋ผ ๊ฐ์ง, ๋ฌผ์ฒด ์๋ณ, ํฌ์ฆ ์ถ์ ๋ฑ (TacBench) | ํ ๋ณต์, ๋ฌผ์ฒด ์์ธ ์ถ์ , ์ ๋ฐ ์ฝ์ ์กฐ์ ์ ์ฑ ๋ฑ |
๋ํ ์คํ ์ฑ๋ฅ ํฅ์ | ๊ธฐ์กด ๋๋น ์ต๋ +95% ํฅ์ | ๊ธฐ์กด ๋๋น ํ๊ท +41% ํฅ์ (์ต๋ +56%) |
ํต์ฌ ๊ธฐ์ฌ ์์ฝ | ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ํํ์ ๋ฒ์ฉํ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ (TacBench) ์ ์ | ์ ์ ์ฒด ์ด๊ฐ ํํ ํ์ต๊ณผ ์๊ธฐ ์ง๋ ๊ธฐ๋ฐ ์กฐ์ ์์ฉ ๊ฐ๋ฅ์ฑ ์ ์ |
์ผ๋ฐํ ๋ฐฉํฅ | ์ผ์ ์ข ๋ฅ ๊ฐ์ ๋ฒ์ฉ ํํ | ์ผ์ ์์นยท์ ์ด ์ํฉ ๊ฐ์ ๋ฒ์ฉ ํํ |
์ฃผ์ ์ฐจ๋ณ์ | ๋ค์ํ ์ด๋ฏธ์ง ์ผ์๋ค์ ๋ํ Cross-sensor ํํ | ์ ์ ์ฒด์ ์๊ณต๊ฐ์ ์ผ์ ํตํฉ ํํ |
ํ์ฉ ์์ | ๋จ์ผ ์ผ์ ๊ธฐ๋ฐ ๋ถ๋ฅ/ํ๊ท ๊ณผ์ | ๋ฉํฐ์ผ์ ๊ธฐ๋ฐ ์กฐ์ ์ ์ฑ , ๋ฌผ์ฒด ์ถ์ ๋ฑ ์ ๋ฐ ์์ |
์์ฝํ์๋ฉด:
- Sparsh๋ โ์ผ์ ์ข ๋ฅ์ ๋ค์์ฑโ์ ์์ฐ๋ฅด๋ ๋ฒ์ฉ ์ด๊ฐ ํํ์ ์ด์ ์ ๋ง์ถ๊ณ ,
- Sparsh-skin์ โ์ ์ ์ฒด ์์น์ ๋ค์์ฑโ์ ๊ณ ๋ คํ ํตํฉ ์ด๊ฐ ์ง๊ฐ์ ์ถ๊ตฌํฉ๋๋ค.
๋ ๋ ผ๋ฌธ์ ์ ๋ ฅ modality์ ์ผ์ ํ๊ฒฝ์ด ๋ค๋ฅด์ง๋ง, ๋ชจ๋ ์ด๊ฐ ํํ์ self-supervised ๋ฐฉ์์ผ๋ก ํ์ตํ์ฌ ์ฌ๋ฌ ์์ ์ ์ ์ด์ํค๋ ๋ฐฉ์์ ๊ณตํต์ ์ผ๋ก ์ฑํํ๊ณ ์์ต๋๋ค.
์ฐธ๊ณ ๋ฌธํ:
- Akash Sharma et al., โSelf-supervised perception for tactile skin covered dexterous handsโ, arXiv preprint 2505.11420 (2025)
- Carolina Higuera et al., โSparsh: Self-supervised touch representations for vision-based tactile sensingโ, CoRL 2024 (arXiv:2410.24090)
- Akash Sharma et al., โTactile Beyond Pixels: Multisensory Touch Representations for Robot Manipulation (Sparsh-X)โ, arXiv preprint (2025) (๋ฉํฐ๋ชจ๋ฌ ์ด๊ฐ ํํ ํ์ฅ ์ฐ๊ตฌ)