๐Touch in the Wild ๋ฆฌ๋ทฐ
- ์ด ์ฐ๊ตฌ๋ ํด๋ ๊ฐ๋ฅํ๊ณ ๊ฐ๋ฒผ์ด ์ด๊ฐ ์ผ์๊ฐ ํตํฉ๋ ๊ทธ๋ฆฌํผ๋ฅผ ๊ฐ๋ฐํ์ฌ, ๋ค์ํ ์ค์ ํ๊ฒฝ์์ ์๊ฐ ๋ฐ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋๊ธฐํํ์ฌ ๋๊ท๋ชจ๋ก ์์งํ ์ ์๊ฒ ํ์ต๋๋ค.
- ์์ง๋ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก, ์๊ฐ ๋ฐ ์ด๊ฐ ์ ํธ์ ๊ณ ์ ํ ํน์ฑ์ ๋ณด์กดํ๋ฉด์ ์ด๋ค์ ํตํฉํ๋ ๊ต์ฐจ ๋ชจ๋ฌ ํํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ํธ์์ฉ ๊ด๋ จ ์ ์ด ์์ญ์ ์ง์คํ๋ ํด์ ๊ฐ๋ฅํ ํํ์ ํ์ตํฉ๋๋ค.
- ์ด ํํ์ ์ฌ์ธํ ์กฐ์ ์์ ์์ ๋ก๋ด ์ ์ฑ ํ์ต์ ํจ์จ์ฑ๊ณผ ์ ํ์ฑ์ ํฌ๊ฒ ํฅ์์์ผ, ์ธ๋ถ ๊ต๋์๋ ๊ฒฌ๊ณ ํ ์ ๋ฐ ์กฐ์(์: ์ํ๊ด ์ฝ์ , ํผํซ์ ์ด์ฉํ ์ ์ฒด ์ด๋)์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.


1 Brief Review
์ด ๋ ผ๋ฌธ์ ์ ๋ฐํ ๋ก๋ด ์กฐ์์ ํ์์ ์ธ ์ด๊ฐ ํผ๋๋ฐฑ์ ํตํฉํ๊ธฐ ์ํด ํด๋ ๊ฐ๋ฅํ๊ณ ๊ฐ๋ฒผ์ด ์ด๊ฐ-์๊ฐ ๊ทธ๋ฆฌํผ(visuo-tactile gripper)์ ์ด์ ๊ธฐ๋ฐํ ํฌ๋ก์ค-๋ชจ๋ฌ(cross-modal) ํํ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์ ํธ๋ํฌ๋ ๊ทธ๋ฆฌํผ๋ ์๊ฐ ์ ๋ณด์๋ง ์์กดํ์ฌ ์ค์ ํ๊ฒฝ(in-the-wild)์์์ ์ธ๋ฐํ ์ ์ด ๊ธฐ๋ฐ ์กฐ์์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ๊ณผ์ ๋ฅผ ์ ์ํฉ๋๋ค:
ํด๋ ๊ฐ๋ฅํ ๊ฒฌ๊ณ ํ ์ด๊ฐ ํ๋์จ์ด์ ๋ถ์ฌ,
์ด์ง์ ์ธ ์ด๊ฐ ๋ฐ ์๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ํจ๊ณผ์ ์ธ ํํ์ ํ์ตํ๋ ์ด๋ ค์.
ํ๋์จ์ด ์์คํ :
์ ์๋ ํด๋์ฉ ์ด๊ฐ-์๊ฐ ๊ทธ๋ฆฌํผ๋ ์ํํธํ๊ณ ํ ๋ชจ์์ ์๊ฐ๋ฝ์ ์ ์ฐํ ์์ ์ ํญ(piezoresistive) ์ด๊ฐ ์ผ์๋ฅผ ํตํฉํฉ๋๋ค. ์ด ์ผ์๋ 3D-ViTac์ 3์ค ๋ ์ด์ด ๋์์ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ ์ฌํญ์ ํฌํจํฉ๋๋ค:
- ๋์ ๊ณต๊ฐ ํด์๋: ๊ธฐ์กด ์คํ ์ธ๋ฆฌ์ค ์คํธ ์ ๊ทน ๋์ FPC(Flexible Printed Circuits) ์ ๊ทน์ ์ฌ์ฉํ์ฌ ํจ๋๋น 12 \times 32 ํ ์ (taxel)์ ํด์๋(๊ฐ ํ ์ 2 \times 2 \text{mm}^2 ์์ญ)๋ฅผ ๋ฌ์ฑํ์ฌ ๋ฏธ์ธํ๊ณ ๋์ ์ธ ์ ์ด ํจํด์ ํฌ์ฐฉํ ์ ์์ต๋๋ค.
- ๋น ๋ฅด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์ ์กฐ: FPC๋ฅผ ์ฌ์ฉํ์ฌ ๋๊ตฌ ์์ด 5๋ถ ์ด๋ด์ ๊ฐ ํจ๋๋ฅผ ์ ์ํ๊ณ ๊ทธ๋ฆฌํผ์ ๋ถ์ฐฉํ ์ ์์ด ๋๊ท๋ชจ ์ด๊ฐ ๋ฐ์ดํฐ ์์ง์ ์ฉ์ดํฉ๋๋ค. ์ด ๊ทธ๋ฆฌํผ๋ ๋ง์ถคํ Arduino ๊ธฐ๋ฐ PCB์ ํจ๊ป ์ฌ์ฉ๋๋ฉฐ, ๋ฐฐํฐ๋ฆฌ๋ฅผ ํฌํจํ์ฌ ์ฝ 962g์ผ๋ก ์ฅ์๊ฐ ์ฌ์ฉ์ ์ ํฉํฉ๋๋ค. ๋ฐ์ดํฐ ์์ง์ fisheye ์นด๋ฉ๋ผ์ ์๊ฐ ์ ๋ณด์ ์ด๊ฐ ์ผ์์ ๋ฐ์ดํฐ๋ฅผ 23Hz๋ก ๋๊ธฐํํ์ฌ ์ด๋ฃจ์ด์ง๋๋ค. ์๊ฐ-์ด๊ฐ ๋ฐ์ดํฐ์ ์ ๋ฐํ ์ ๋ ฌ์ ์ํด ํ๋์จ์ด ์์ด QR ์ฝ๋๋ฅผ ํตํ ํธ์คํธ ์๊ฐ ๋๊ธฐํ ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ๋น๋์ค ์คํธ๋ฆผ์ ๊ฐ ๋ฐ๋ชจ ์์ ์ ์ ํ์ฌ ํธ์คํธ ์๊ฐ์ ํ์ํ๋ QR ์ฝ๋๋ฅผ 30Hz๋ก ์นด๋ฉ๋ผ์ ๋ณด์ฌ์ฃผ๊ณ , ์ด๊ฐ ๋ฐ์ดํฐ๋ ROS2๋ฅผ ํตํด 23Hz๋ก ํธ์คํธ ํด๋ก ํ์์คํฌํ์ ํจ๊ป ๋ฐํ๋ฉ๋๋ค. ์คํ๋ผ์ธ ํ์ฒ๋ฆฌ์์ ์ด ๊ณต์ ํด๋ก ์ฐธ์กฐ๋ฅผ ํตํด ์๊ฐ ๋ฐ ์ด๊ฐ ๊ธฐ๋ก์ ์ ๋ ฌํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก :
์ด ๋ ผ๋ฌธ์ ๋ ๋จ๊ณ์ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
1๋จ๊ณ: ์ด๊ฐ-์๊ฐ ํํ ํ์ต (Visuo-Tactile Representation Learning)
์ด ๋จ๊ณ์ ๋ชฉํ๋ ์ด๊ฐ-์๊ฐ ์์ฝ๋ E_{\phi}๋ฅผ ํตํด ์๊ฐ I \in R^{3 \times 224 \times 224}์ ์ด๊ฐ T \in R^{1 \times 24 \times 32} ์ ๋ ฅ์ ๊ณต๋ ํํ z_{\text{fusion}} = E_{\phi}(I, T)๋ก ์ตํฉํ๋ ๊ฒ์ ๋๋ค. ์ด ๊ณผ์ ์ ๋ง์คํน๋ ์คํ ์ธ์ฝ๋ฉ(masked autoencoding) ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค. ์ด๋ ๋์กฐ ํ์ต(contrastive learning)์ด ์ด๊ฐ ์ผ์์ ๋ฏธ์ธํ ์ง์ค๋ฉํธ๋ฆฌ ๋ฏผ๊ฐ ์ ํธ๋ฅผ ์ต์ ํ ์ ์๋ค๋ ์ ์ ๊ณ ๋ คํ์ฌ, ๋ถ๋ถ์ ์ผ๋ก ๊ด์ธก๋ ์ด๊ฐ ์ ๋ ฅ๊ณผ ์๊ฐ์ ์ปจํ ์คํธ๋ก๋ถํฐ ์ ์ฒด ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๋ฐฉ์์ผ๋ก ์งํ๋ฉ๋๋ค. ์ต์ ํ ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: (\phi^*, \psi^*) = \text{arg min}_{\phi, \psi} E_{(I,T) \sim D_{\text{pretrain}}} ||T - D_{\psi}E_{\phi}(I, T)||_2^2 ์ฌ๊ธฐ์ E_{\phi}๋ ์ด๊ฐ-์๊ฐ ์์ฝ๋์ด๊ณ D_{\psi}๋ ์ด๊ฐ ์ฌ๊ตฌ์ฑ ๋์ฝ๋์ ๋๋ค.
- ์ด๊ฐ ์์ฝ๋:
- ๋ ๊ฐ์ ์๊ฐ๋ฝ ๋ ํจ๋๋ก๋ถํฐ์ ์ด๊ฐ ํ๋ ๊ฐ(๊ฐ 1 \times 12 \times 32)์ ์์ง์ผ๋ก ์์ 1 \times 24 \times 32 ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ํ์ฑํฉ๋๋ค.
- ๋จ์ผ ์ฑ๋ ๋งต์ ๊ณ ์ ๋ ์ปฌ๋ฌ๋งต(colormap)์ ํตํด 3์ฑ๋ RGB ์ด๊ฐ ์ด๋ฏธ์ง๋ก ๋ณํ๋ฉ๋๋ค.
- ์ด ์ด๋ฏธ์ง๋ 4 \times 4 ํจ์น๋ก ๋ถํ ๋์ด 6 \times 8 ํจ์น ๊ทธ๋ฆฌ๋๋ฅผ ์์ฑํฉ๋๋ค.
- ํ์ต ์ค์๋ 95%์ ์ํ์์ 60-80%์ ํจ์น๋ฅผ ํ์ต ๊ฐ๋ฅํ ํ ํฐ T_{\text{mask}}๋ก ๋ฌด์์ ๋ง์คํนํฉ๋๋ค.
- ๋ง์คํน๋ ์ด๊ฐ ์ ๋ ฅ T_{\text{visible}}์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: T_{\text{visible}} = M \odot T + (1 - M) \odot T_{\text{mask}} (M \in \{0, 1\}^{6 \times 8}์ ์ด์ง ํจ์น ๋ง์คํฌ).
- T_{\text{visible}}์ 3๊ณ์ธต CNN์ ํตํด 768์ฐจ์์ ์๋ฒ ๋ฉ z_{\text{tac}}๋ฅผ ์์ฑํฉ๋๋ค.
- ์๊ฐ ์์ฝ๋:
- RGB ์ด๋ฏธ์ง I๋ CLIP์ผ๋ก ์ด๊ธฐํ๋ ViT-B/16 ์์ฝ๋์ ์ํด ์ฒ๋ฆฌ๋ฉ๋๋ค.
- ๋ชจ๋ ๋ ์ด์ด๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ฉฐ, ์ต์ข [CLS] ํ ํฐ์ด 768์ฐจ์์ ์๊ฐ ์๋ฒ ๋ฉ z_{\text{img}}๋ก ์ถ์ถ๋ฉ๋๋ค.
- ํฌ๋ก์ค-๋ชจ๋ฌ ์ตํฉ:
- ์ด๊ฐ ๋ฐ ์๊ฐ ํน์ง์ ํตํฉํ๊ธฐ ์ํด ๋ ๋ผ์ด๋์ ๋ฉํฐ-ํค๋ ํฌ๋ก์ค-์ดํ ์ (Multi-Head Cross-Attention, MHAttn)์ ์ ์ฉํฉ๋๋ค.
- z'_{\text{tac}} = \text{MHAttn}(Q = z_{\text{tac}}, K = z_{\text{img}}, V = z_{\text{img}}) \xrightarrow{\text{LayerNorm}} z''_{\text{tac}}
- z'_{\text{img}} = \text{MHAttn}(Q = z_{\text{img}}, K = z''_{\text{tac}}, V = z''_{\text{tac}}) \xrightarrow{\text{LayerNorm}} z''_{\text{img}}
- ์ ๋ฐ์ดํธ๋ ์๋ฒ ๋ฉ์ ์ฐ๊ฒฐํ์ฌ ์ตํฉ๋ ํํ z_{\text{fusion}} = [z''_{\text{tac}}; z''_{\text{img}}] \in R^{2d}๋ฅผ ์ป์ต๋๋ค.
- ์ด๊ฐ ์ฌ๊ตฌ์ฑ ๋์ฝ๋:
- ์ตํฉ๋ ํน์ง z_{\text{fusion}}์ 2๊ณ์ธต MLP์ ์๊ทธ๋ชจ์ด๋ ํ์ฑํ ํจ์๋ฅผ ํต๊ณผํ์ฌ ์ฌ๊ตฌ์ฑ๋ ์ด๊ฐ ์ด๋ฏธ์ง \hat{T} \in R^{1 \times 24 \times 32}๋ฅผ ์์ฑํฉ๋๋ค.
- ์์ค ํจ์๋ ์ ์ฒด ์ด๋ฏธ์ง ์ฌ๊ตฌ์ฑ ์์ค L_{\text{stage1}}(\phi, \psi) = ||T - \hat{T}||_2^2์ ๋๋ค.
- EMA(Exponential Moving Average)๋ฅผ ํตํด ํ๊ฒ ์์ฝ๋๋ฅผ ์์ ํํฉ๋๋ค.
2๋จ๊ณ: ํ๋ ๋ณต์ (Behavior Cloning)๋ฅผ ํตํ ์ ์ฑ ํ์ต (Policy Learning)
์ฌ์ ํ์ต๋ ์ด๊ฐ-์๊ฐ ์์ฝ๋ E_{\phi}๋ ์กฐ๊ฑด๋ถ Diffusion Policy์ ํตํฉ๋ฉ๋๋ค.
- ๊ด์ธก ๊ณต๊ฐ: ๊ฐ ํ์์คํ t์์ ๋ก๋ด์ raw ์ผ์ ์ ๋ ฅ (I_t, T_t, p_t)๋ฅผ ๋ฐ์ต๋๋ค. I_t์ T_t๋ ์ฌ์ ํ์ต๋ ์์ฝ๋๋ฅผ ํตํด ์ด๊ฐ-์๊ฐ ์๋ฒ ๋ฉ z_t = E_{\phi}(I_t, T_t)๋ฅผ ์์ฑํ๊ณ , p_t๋ ๊ณ ์ ์์ฉ์ฑ ์ํ(end-effector pose, gripper width ๋ฑ)๋ฅผ ๋ํ๋ ๋๋ค. Diffusion Policy๋ o_t = (z_t, p_t)์ ๋ฐ๋ผ ์กฐ๊ฑดํ๋ฉ๋๋ค.
- Diffusion Policy: ์ก์ ์ ์ง์ ํ๊ทํ๋ ๋์ ๋ ธ์ด์ฆ ์์ธก๊ธฐ \hat{\epsilon}_t^k = \epsilon_{\theta}(a_t^k, o_t, k)๋ฅผ ํ์ตํฉ๋๋ค.
- ์์ค ํจ์: L_{\text{stage2}} = E_{t,k}[||\epsilon_t^k - \hat{\epsilon}_t^k||_2^2].
- ์ถ๋ก ์์๋ a_t^K \sim N(0, I)์์ ์์ํ์ฌ K ์คํ ๋์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํฉ๋๋ค: a_t^{k-1} = \alpha a_t^k - \gamma \epsilon_{\theta}(a_t^k, o_t, k) + N(0, \sigma^2I).
- ๋ชจ๋ ์์ฝ๋ ๊ตฌ์ฑ ์์(CLIP ๋ฐฑ๋ณธ, ์ด๊ฐ CNN, ํฌ๋ก์ค-์ดํ ์ ๋ ์ด์ด)๋ ์ด ๋จ๊ณ์์ ๋ฏธ์ธ ์กฐ์ ๋ฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ:
์ด ์์คํ ์ โtest tube insertionโ๊ณผ โpipette-based fluid transferโ์ ๊ฐ์ ๋ค ๊ฐ์ง ์ค์ ํ๊ฒฝ ๋ก๋ด ์กฐ์ ์์ ์์ ๊ฒ์ฆ๋์์ต๋๋ค.
- ๋๊ท๋ชจ ์ด๊ฐ-์๊ฐ ๋ฐ์ดํฐ์ : 12๊ฐ์ ์ค๋ด ๋ฐ ์ค์ธ ํ๊ฒฝ์์ ์์ง๋ 2700๊ฐ ์ด์์ ๋ฐ๋ชจ์ 260๋ง ๊ฐ ์ด์์ ์ด๊ฐ-์๊ฐ ์์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ํต์ฌ ์์ , ๊ธฐํ ์ค๋ด ์์ , ๊ทธ๋ฆฌ๊ณ 30๊ฐ ์ด์์ ์ผ์ธ(in-the-wild) ์์ ์ ํฌํจํฉ๋๋ค.
- ์ ์ฑ์ ๋ถ์: ์ฌ์ ํ์ต๋ ์์ฝ๋๋ ๋ถ๋ถ์ ์ผ๋ก ๋ง์คํน๋ ์ด๊ฐ ๋ฐ RGB ์ด๋ฏธ์ง๋ก๋ถํฐ ๋๋ฝ๋ ์ด๊ฐ ์ ๋ ฅ์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ๊ตฌ์ฑํฉ๋๋ค. ๋ํ, ViT์ self-attention ๋งต์ ๋ฐฐ๊ฒฝ์ด๋ ๊ฐ์ฒด์ ์ข ๋ฅ์ ๊ด๊ณ์์ด ๊ทธ๋ฆฌํผ ์ ์ด ์์ญ์ ์ผ๊ด๋๊ฒ ์ง์คํฉ๋๋ค. ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ์ฌ๊ตฌ์ฑ ์์ค์ด ๋ฎ์์ง๊ณ , ์ดํ ์ ๋งต์ด ๋ ์ ๋ช ํ๊ฒ ๊ทธ๋ฆฌํผ ์ ์ด ์์ญ์ ์ง์คํ๋ฉฐ, ์ฌ๊ตฌ์ฑ๋ ์ด๊ฐ ์ด๋ฏธ์ง๋ ๋ ธ์ด์ฆ๊ฐ ์ค๊ณ ๊ตฌ์กฐ๊ฐ ๋ช ํํด์ง๋๋ค.
- ์ ๋์ ํ๊ฐ: โVision-Onlyโ, โOurs w/o Cross Attentionโ, โOurs w/o Pretrainingโ ๋ฑ ์ฌ๋ฌ baseline๊ณผ ๋น๊ตํ์ต๋๋ค. ์ ์ํ๋ โOurs w/ Pretrainingโ ๋ฐฉ๋ฒ์ด ๋ชจ๋ ์ธ๋ถ ์์ ๋ฐ ์ ์ฒด ์์ ์์ ์ผ๊ด๋๊ฒ ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ํนํ, โTest Tube Collectionโ๊ณผ โFluid Transferโ ๊ฐ์ ๋ฏธ์ธ ์กฐ์ ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
- ๋ถ์:
- ์ด๊ฐ ํผ๋๋ฐฑ์ ๋ช ์์ ์ธ โin-handโ ์ํ ์ ๋ณด๋ฅผ ์ ๊ณต: ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ๊ฐ์ฒด ๊ฐ๋ ค์ง์ด๋ ๋ชจํธํ ์๊ฐ์ ๋จ์(์: ์ํ๊ด ์ฌ๋ฐฐ์น ์ค ์ฝ๋ฅดํฌ ์์ ๋ณํ)๋ก ์ธํด ์ค๋ฅ๊ฐ ๋ฐ์ํ๊ธฐ ์ฝ์ง๋ง, ์ด๊ฐ ์ ์ฑ ์ ์ด๋ฌํ ๋ณํ์ ์ํฅ์ ๋ฐ์ง ์์ต๋๋ค.
- ์ด๊ฐ ํผ๋๋ฐฑ์ ์ค์ํ ์ํ ์ ํ ๊ฐ์ง๋ฅผ ํฅ์: โFluid Transferโ์ ๊ฐ์ด ๋ฏธ์ธํ ํ ์ ์ด๊ฐ ํ์ํ ์์ ์์ ์๊ฐ ์ ์ฑ ์ ์๋ ฅ ๋ณํ๋ฅผ ๊ฐ์งํ๊ธฐ ์ด๋ ต์ง๋ง, ์ด๊ฐ ์ ์ฑ ์ ๋ฏธ๋ฌํ ํ ๋ณํ๋ฅผ ๊ฐ์งํ์ฌ ์ ํํ ๋จ๊ณ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๊ณต๋ ์ด๊ฐ-์๊ฐ ์์ฝ๋๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ์กฐํ๋ก์ด ์ฌ์ฉ ๊ฐ๋ฅ: ๋จ์ํ ํน์ง ์ฐ๊ฒฐ(ํฌ๋ก์ค-์ดํ ์ ์๋ ์ ์ฑ )์ ํ ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ณผ๋ํ๊ฒ ์์กดํ ์ ์์ง๋ง(์: ํ์ดํธ๋ณด๋ ์ง์ฐ๊ธฐ์์ ๊ณผ๋ํ ํ ์ ์ฉ), ๊ณต๋ ํ์ต๋ ์์ฝ๋๋ ์๊ฐ์ ๋งฅ๋ฝ๊ณผ ์ด๊ฐ ํผ๋๋ฐฑ์ ๋ฐ๋ผ ํ์ ์ ์ ํ ์กฐ์ ํฉ๋๋ค.
- ์ฌ์ ํ์ต ์ ๊ฑฐ ์ฐ๊ตฌ(Ablation Study): ๋ฎ์ ๋ฐ์ดํฐ ๋ฐ ๋ฎ์ ์ํฌํฌ ํ๊ฒฝ์์ ์ฌ์ ํ์ต์ด ์ ์ฑ ์ฑ๋ฅ์ ์๋นํ ์ด์ ์ ์ ๊ณตํจ์ด ํ์ธ๋์์ต๋๋ค. ์ฌ์ ํ์ต๋ ์ ์ฑ ์ ๋ ๋ถ๋๋ฌ์ด ๊ถค์ ์ ๋ฐ๋ฅด๋ฉฐ, ์ด๊ธฐ ํ๊ฒฝ ๊ตฌ์ฑ์ ๋ ๊ฒฌ๊ณ ํ์ต๋๋ค. ์ด๋ ์ฌ์ ํ์ต์ด ์ด๊ฐ-์๊ฐ ์๊ด๊ด๊ณ๋ฅผ ์กฐ๊ธฐ์ ํ์ตํ์ฌ, downstream ์ ์ฑ ์ด ํจ๊ณผ์ ์ธ ์ก์ ๊ถค์ ํ์ต์ ์ง์คํ ์ ์๊ฒ ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ดํ ์ ๋งต ๋ถ์ ๊ฒฐ๊ณผ, ์ฌ์ ํ์ต๋ ์ ์ฑ ์ ๊ทธ๋ฆฌํผ-๊ฐ์ฒด ์ ์ด ์์ญ์ ์ง์คํ๋ ๋ฐ๋ฉด, ์ฌ์ ํ์ต ์๋ ์ ์ฑ ์ ๊ด๋ จ ์๋ ๋ฐฐ๊ฒฝ ์์์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ด๋ ๊ฒฝํฅ์ด ์์ด ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ๊ธฐํฉ๋๋ค.
๊ฒฐ๋ก : ์ด ๋ ผ๋ฌธ์ ์ด๊ฐ ์ผ์๊ฐ ํตํฉ๋ ํธ๋ํฌ๋ ๊ทธ๋ฆฌํผ์ ์ด๋ฅผ ํตํด ์์ง๋ ๋๊ท๋ชจ ์ด๊ฐ-์๊ฐ ๋ฐ์ดํฐ์ ์ ์ ์ํฉ๋๋ค. ์ฌ์ ํ์ต๋ ์ด๊ฐ-์๊ฐ ๊ณต๋ ์์ฝ๋๊ฐ ๋จ์ผ ํ ๋ก๋ด์ ์ ๋ฐ ์กฐ์ ์์ ์์ ์ ์ฉํจ์ ์ ์ฆํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์ด๋ฅผ ๋ค์ง(multi-finger) ๋ฅ์ํ ์์ผ๋ก ํ์ฅํ์ฌ ๋์ฑ ํ๋ถํ๊ณ ๋ฅ์ํ ์กฐ์ ๊ธฐ์ ์ ๊ตฌํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
2 Detail Review
Touch in the Wild โ ํด๋ํ ์๊ฐ-์ด๊ฐ ๊ทธ๋ฆฌํผ๋ก ์ ๋ฐ ์กฐ์์ ํ์ตํ๋ค
2.1 1. ๊ฐ์ ๋ฐ ๊ธฐ์ ์ ๊ธฐ์ฌ
์ด ๋ ผ๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ์ธ ๊ฐ์ง ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ์ค์ฌ์ผ๋ก ์ ๊ฐ๋ฉ๋๋ค:
ํด๋ํ ์๊ฐ-์ด๊ฐ ๊ทธ๋ฆฌํผ ๊ฐ๋ฐ ๋ ผ๋ฌธ์์๋ 290g์ ๋ถ๊ณผํ ๊ฐ๋ณ๊ณ ๋ฐฐํฐ๋ฆฌ๋ก ๊ตฌ๋๋๋ ํด๋ํ ๊ทธ๋ฆฌํผ๋ฅผ ์ค๊ณํ์ต๋๋ค. ๋ ๊ฐ์ ์๊ฐ๋ฝ์ ์ด์ดํ ๋ถํฌ๋ ์ด๊ฐ ์ผ์(12ร32 ํ ์ )๋ฅผ ํฌํจํ๊ณ ์์ผ๋ฉฐ, ์๋จ์ fisheye RGB ์นด๋ฉ๋ผ๊ฐ ๋ถ์ฐฉ๋์ด ์์ด ์ด๊ฐ๊ณผ ์์ ์ ๋ณด๋ฅผ ๋์์ ์์งํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ์ค์ ํ๊ฒฝ(in-the-wild)์์ ์ฌ๋์ด ์ง์ ๋ค์ํ ์์ ์ ์์ฐํ๋ฉฐ ์๊ฐ-์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์๊ฒ ๋์์ต๋๋ค.
Cross-modal Masked Autoencoder ๊ธฐ๋ฐ Visuo-Tactile Representation Learning ํ๋ ์์ํฌ ์ ์ ํต์ฌ์ ์๊ฐ ์ ๋ณด์ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋จ์ํ ๊ฒฐํฉ(concatenation)ํ์ง ์๊ณ , ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ํน์ฑ์ ๋ณด์กดํ ์ฑ๋ก ๊ต์ฐจ ์ฃผ์ ๋ฉ์ปค๋์ฆ(cross-attention)์ ํตํด ํ์ตํ๋ ๊ฒ์ ๋๋ค. ํนํ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ฌด์์๋ก ๋ง์คํนํ ํ, ์ด๋ฅผ ์๊ฐ ์ ๋ณด๋ก ๋ณด์ํ์ฌ ๋ณต์ํ๋ ๋ฐฉ์์ผ๋ก, ๋ ์ผ์ ๊ฐ์ ์ํธ ๋ณด์ ๊ด๊ณ๋ฅผ ๊ฐ์ ๋ก ํ์ตํ๊ฒ ๋ฉ๋๋ค.
2.6M ํ๋ ์, 2700๊ฐ ์ด์์ ์์ฐ์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ Visuo-Tactile Dataset ๊ตฌ์ถ ๋ค์ํ ์ค๋ด/์ธ ํ๊ฒฝ(12๊ณณ)์์ 43๊ฐ ์์ ์ ๋ํ ์ดฌ์์ ํตํด ์ ๋ฐ ์กฐ์ ์์ ์ ํฌํจํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์์งํ์์ผ๋ฉฐ, ์ค์ ์ด๊ฐ/์์ ๋๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก QR์ฝ๋ ๊ธฐ๋ฐ ํ์์คํฌํ ์ ํฉ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ ๊ณ ๋น์ฉ ์ฅ๋น ์์ด๋ ์ ๋ฐํ ๋ฉํฐ๋ชจ๋ฌ ์์ง์ด ๊ฐ๋ฅํ์ต๋๋ค.
โ ์ ๋ฆฌํ์๋ฉด, ์ด ๋ ผ๋ฌธ์ ํ๋์จ์ด, ๋ฐ์ดํฐ์ , ํ์ต ๊ตฌ์กฐ๋ฅผ ๋ชจ๋ ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ ์กฐ์ ํ์ต์ end-to-end ์ ํ์ ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ๋ค๋ณด๋ค ํ ๋จ๊ณ ๋์ ํ์ค์ฑ, ํ์ฅ์ฑ, ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
2.2 2. Visuo-Tactile Fusion ๋ฐฉ์
2.2.1 ๐ ํต์ฌ ๊ตฌ์กฐ
์ ๋ ฅ ๋ถ๋ฆฌ ์ฒ๋ฆฌ
- ์๊ฐ: CLIP ViT-B/16 ๋ฐฑ๋ณธ์ ์ฌ์ฉํด 768์ฐจ์์ embedding ์ถ์ถ
- ์ด๊ฐ: 24ร32 ์๋ ฅ ํ๋ ฌ์ RGB ์ด๋ฏธ์ง๋ก ์ธ์ฝ๋ฉ ํ, ์์ CNN์ ํตํด 768์ฐจ์์ embedding ์์ฑ
Cross-modal Attention
- ์ด๊ฐ์ด ์๊ฐ์ ์ฟผ๋ฆฌํ์ฌ z_{\text{tac}} \rightarrow z'_{\text{tac}}๋ก ์ ๋ฐ์ดํธ
- ๋ค์ ์๊ฐ์ด ์ ๋ฐ์ดํธ๋ ์ด๊ฐ์ ์ฟผ๋ฆฌํ์ฌ z_{\text{img}} \rightarrow z'_{\text{img}} ์์ฑ
- ์๋ฐฉํฅ ๊ต์ฐจ ์ฃผ์๋ฅผ ํตํด ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ์ ๋ณด๋ฅผ ์๋ก ๋ณด์ํ๊ณ ์กฐ์จ
Masked Autoencoding ํ๋ จ ๋ฐฉ์
- ์ ๋ ฅ ์ด๊ฐ ์ด๋ฏธ์ง์ 60~80%๋ฅผ ๋ง์คํน ํ ์๊ฐ ์ ๋ณด๋ฅผ ์ด์ฉํด ์ ์ฒด๋ฅผ ๋ณต์
- reconstruction loss L_{\text{recon}} = |T - \hat{T}|^2์ ์ฌ์ฉ โ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ง์ ๋ณต์ํ๊ฒ ํ์ฌ ๋จ์ํ ํผ์ฒ ๋ณํฉ์ด ์๋ ์ง์ ํ ์๋ฏธ์ โ์ตํฉโ ํ์ต
2.2.2 ๐ง ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ฅ์
- ์๊ฐ์ ์ฃผ์ ๋งต์ ๋ณด๋ฉด ๋๋ถ๋ถ ์ ์ด ์์น๋ ๋ฌผ์ฒด์์ ์ธํฐํ์ด์ค ์์ญ์ ์ง์ค๋์ด ์์
- ์ด attention์ unseen ํ๊ฒฝ์์๋ ์ผ๊ด๋๊ฒ ๋ํ๋๋ฉฐ, ํ์ต๋ ์๊ฐ-์ด๊ฐ ํํ์ด ์ผ๋ฐํ๋จ์ ๋ณด์ฌ์ค
- ๋จ์ํ concat ๋ฐฉ์๋ณด๋ค ํจ์ฌ ๋ ์ ๋ฐํ ์ ์ด ์ธ์๊ณผ ์์น ์ถ๋ก ์ด ๊ฐ๋ฅ
๐ ํต์ฌ ์์ฝ: cross-attention ๊ตฌ์กฐ + reconstruction task์ ์กฐํฉ์, ๊ธฐ์กด์ ๋จ์ early-fusion ๊ธฐ๋ฒ๋ณด๋ค ํจ์ฌ ์ ๊ตํ๊ณ ํจ๊ณผ์ ์ธ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
2.3 3. ์กฐ์ ์ ์ฑ ๋ชจ๋ธ ๊ตฌ์กฐ
2.3.1 ๐ง 2๋จ๊ณ ๊ตฌ์กฐ
Visuo-Tactile Encoder E_\phi(I, T)
- ์์ ์ค๋ช ํ cross-modal encoder
- ์ฌ์ ํ์ต(pretraining) ํ, ์ ์ฑ ํ์ต ์์๋ fine-tuning ๊ฐ๋ฅ
Diffusion Policy
- ์กฐ๊ฑด๋ถ ํ๋ฅ ๊ธฐ๋ฐ ํ๋ ์์ฑ: p(a_t | z_t, p_t)
- ์ ๋ ฅ์ visuo-tactile embedding z_t์ proprioception p_t (gripper ์ํ ๋ฑ)
- ์ ์ ์ธ MLP ๋์ ํ๋ฅ ๊ธฐ๋ฐ U-Net ๋ชจ๋ธ๋ก, ๋ ์ ๊ตํ ๋ค์ค๋ชจ๋ ํ๋ ์์ฑ ๊ฐ๋ฅ
2.3.2 ๐ค ํ๋ ์์ฑ ๋ฐฉ์
- ํ๋ ์ํ์ค๋ฅผ ์ง์ ์์ธกํ๋ ๊ฒ์ด ์๋ noise โ action์ผ๋ก ๋ณํํ๋ ๋ฐฉ์
- ํ์ต ์ ํ๋์ noise๋ฅผ ์ถ๊ฐํ๊ณ , ์ด๋ฅผ ์ญ์ผ๋ก ์ ๊ฑฐํ๋ ๋ฐฉ์์ผ๋ก ํ์ต (Denoising Diffusion)
- ์ด๋ก ์ธํด ๋จ์ผ ํ๋ ์์ธก๋ณด๋ค ๋ ์ ๊ตํ๊ณ ๋ถ๋๋ฌ์ด ํ๋ ์ํ์ค ์์ฑ ๊ฐ๋ฅ
โ ์ด ๊ตฌ์กฐ ๋๋ถ์ ๋ณต์กํ ์กฐ์์์๋ ํ๋์ด ํ๊ฒฐ ์์ฐ์ค๋ฝ๊ณ ์ ๋ขฐ์ฑ ์๊ฒ ์์ฑ๋ฉ๋๋ค. ํนํ ์ ์ด์ด ์ค์ํ ์์ ์์ ์์ ๊ฐ๊ฐ ํผ๋๋ฐฑ ์ฐจ์ด๋ ๋ฐ์ํ ์ ์๋ค๋ ์ ์์ ํฐ ์ฅ์ ์ด ์์ต๋๋ค.
2.4 4. ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ํ์ง
2.4.1 ๐ ๊ตฌ์ฑ ๊ฐ์
์ด 2.6M ํ๋ ์, 2700๊ฐ ์ด์์ ์์ฐ, 43๊ฐ์ง ์์
๋ถ๋ฅ:
- Main indoor tasks (38%) โ ๋ ผ๋ฌธ ์คํ์ฉ ํต์ฌ ์์
- Other indoor tasks (37%) โ ๋ค์ํ ๋ณด์กฐ ์์
- Outdoor tasks (25%) โ ์์ฅ, ๊ฑฐ๋ฆฌ, ๊ณต์ ๋ฑ in-the-wild ํ๊ฒฝ์์ ์ํ
2.4.2 ๐ท ์์ง ๋ฐฉ์
GoPro ์นด๋ฉ๋ผ + ์ด๊ฐ ์ผ์ ๋๊ธฐํ
- QR์ฝ๋ ๊ธฐ๋ฐ ํ์์คํฌํ ์ ํฉ์ผ๋ก ์ ๋น์ฉ/๊ณ ์ ๋ฐ ๋๊ธฐํ ๊ตฌํ
์ฌ๋์ด ์์ผ๋ก ์กฐ์ํ๋ฉฐ ์์ง
- ๋์ฑ ์ฌ์ธํ๊ณ ์ ๊ตํ ์กฐ์ ํฌํจ ๊ฐ๋ฅ (ex. ํผํซ ์ก์ฒด ์ฎ๊ธฐ๊ธฐ, ์ฐํ ๊น๊ธฐ)
2.4.3 ๐ ํ๊ณ์
- ๋ณ๋ ฌ ์กฐ์์ด ์ด๋ ค์: 2์ง ๊ทธ๋ฆฌํผ ๊ธฐ์ค ์์ง๋์ด ๋ฉํฐ ํ๊ฑฐ ์กฐ์์๋ ์ ์ฝ
- ์ฌ๋์ด ์์งํ๊ณ ๋ก๋ด์ ํ์ตํ๋ ๊ตฌ์กฐ์ด๋ฏ๋ก domain gap ์กด์ฌ
- ์ด๊ฐ ์ผ์ ์ฃผํ์ ์ ํ (23Hz): ๊ณ ์ slip, texture ๋ถ๋ฅ ๋ฑ์ ์ด๋ ค์
๐ ํ์ง๋ง, ํด๋น ๋ฐ์ดํฐ์ ์ ์ด๊ฐ-์๊ฐ ํ์ต์ ์ํ ํ์ค์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ฉฐ, ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋ณด๊ธฐ ๋๋ฌธ ๊ฐ๋ ฅํ ์ฅ์ ์ ๋๋ค.
2.5 5. ์คํ ์ค๊ณ ๋ฐ ํ๊ณ
2.5.1 ๐งช ์ฃผ์ ์คํ ์์ (4๊ฐ)
- Test Tube Insertion: ์ง๊ธฐ โ ํ์ โ ์ฌ๋กฏ ์ฝ์
- Pencil Sharpening: ์ฐํ ํ์ ๋ฐ ์ ๋ ฌ ํ ๊ตฌ๋ฉ ์ฝ์
- Fluid Transfer: ํผํซ์ ์ก๊ณ , ๋ถ๋๋ฝ๊ฒ ์ง์ ์ก์ฒด ์ด๋
- Whiteboard Erasing: ์ผ์ ํ ํ์ผ๋ก ์น ํ ๋ฆ๊ธฐ
โ ๊ณตํต์ : ์ ๋ฐ ์ ์ด ๋ฐ ํ ์กฐ์ ์ด ํ์ํ ์์
2.5.2 ๐งช ์คํ ์ค๊ณ
- 20๋ฒ์ ๋ฐ๋ณต ์คํ per ์์
- ์ด๊ธฐ ์ํ ๋ฐ ๋ฐฐ๊ฒฝ ๋ณํ์ ํตํ ์ผ๋ถ generalization ํ ์คํธ
- ์ธ๋ถ ๋จ๊ณ๋ณ(์ง๊ธฐ, ํ์ , ์ฝ์ ๋ฑ) ์ฑ๊ณต๋ฅ ๋ ์ธก์ ํ์ฌ ๋ถ์์ ์ ๋ฐ๋๋ฅผ ๋์
2.5.3 ๐ ์ฑ๋ฅ ๋น๊ต
๋ฐฉ๋ฒ | Tactile ์ฌ์ฉ | Cross-attn | Pretrain | Test Tube ์ฝ์ ์ฑ๊ณต๋ฅ |
---|---|---|---|---|
Vision Only | โ | - | โ | 25% |
Vision + Tactile (no cross-attn) | โ | โ | โ | 50% |
Vision + Tactile (no pretrain) | โ | โ | โ | 70% |
Ours (full) | โ | โ | โ | 85% |
- Pretraining ๋ฐ Cross-attn์ด ์ ๋ฐ ์กฐ์ ์ฑ๊ณต๋ฅ ์ 2~3๋ฐฐ ํฅ์์ํด
- ํนํ Vision๋ง ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ํฌ๋ช ๋ฌผ์ฒด/๋ฏธ์ธ ์ ์ด์์ ์ํฉ ํ๋จ ์คํจ๊ฐ ์์ฃผ ๋ฐ์
2.5.4 ๐งฉ ํ๊ณ
- ์คํ์ ๋ชจ๋ ๋ก๋ด ํ ๊ธฐ๋ฐ ๊ณ ์ ๋ ์ค๋ด ํ๊ฒฝ์์ ์ํ โ โ์ง์ง in-the-wildโ ๋ฐฐ์น๋ ์๋
- ๋ฉํฐํ์คํฌ ํตํฉ ์ ์ฑ ์ ์์ผ๋ฉฐ, ๊ฐ ์์ ๋ณ ๊ฐ๋ณ ์ ์ฑ ํ์ต
- diffusion ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ณ์ฐ๋์ด ํฌ๋ฏ๋ก ์ค์๊ฐ ์ ์ด์ ํ๊ณ ๊ฐ๋ฅ์ฑ
โ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์คํ ์ค๊ณ๋ ๊ฐ ๊ตฌ์ฑ์์์ ๊ธฐ์ฌ๋๋ฅผ ์ ๋์ ์ผ๋ก ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด ๋ฐฉ์์ด ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์์ ์๋ฏธ ์๋ ์ฑ๋ฅ ๊ฐ์ ์ ์ ๊ณตํ๋ค๋ ์ ์ ์ค๋๋ ฅ ์๊ฒ ์ ์ฆํฉ๋๋ค.
2.6 โ๏ธ ๊ฒฐ๋ก ๋ฐ ๋ถ์ ์์ฝ
- ์๊ฐ-์ด๊ฐ ํตํฉ ์กฐ์ ํ์ต์ด๋ผ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ๋์จ์ดโ๋ฐ์ดํฐโํ์ต ๊ตฌ์กฐ ์ธก๋ฉด์์ ํ์ด๋ธ ํ๋ฅญํ ๋ ผ๋ฌธ
- ํนํ cross-modal fusion + reconstruction learning ๋ฐฉ์์ ๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ํ์ต์์ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ์ ์ ๋ณด ๊ตํ์ ๊ตฌ์กฐ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํ ํฐ ๊ธฐ์ฌ
- ์์ง๋ ๋ฐ์ดํฐ์ ๊ท๋ชจ, ๋ค์์ฑ, ํ์ง ๋ํ ํ ์ฐ๊ตฌ ๋๋น ๋งค์ฐ ์ฐ์
- ๋ค๋ง ์ค์ ๋ฐฐ์น ์ domain shift, ๊ณ์ฐ ๋น์ฉ, ๋ฉํฐํ๊ฑฐ ํ์ฅ์ฑ ๋ฑ์ ๊ณผ์ ๋ ๋จ์ ์์