flowchart LR
subgraph Solid["Solid ๋ง์ปค"]
S1[๊ฒ์ ๋ฐฐ๊ฒฝ] --> S2[๋ง์ปค ๋ฏธํ์ง โ]
S3[ํฐ์ ๋ฐฐ๊ฒฝ] --> S4[๋ง์ปค ํ์ง โ]
end
subgraph Keyline["Keyline ๋ง์ปค"]
K1[๊ฒ์ ๋ฐฐ๊ฒฝ] --> K2[ํฐ์ ํ
๋๋ฆฌ ํ์ง โ]
K3[ํฐ์ ๋ฐฐ๊ฒฝ] --> K4[๊ฒ์ ์ฝ์ด ํ์ง โ]
end
style S2 fill:#ffcccc
style K2 fill:#ccffcc
style K4 fill:#ccffcc
๐TacThru ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ก TacThru๋ ํฌ๋ช ์๋ผ์คํ ๋จธ์ keyline marker๋ฅผ ์ฌ์ฉํ์ฌ ๋์์ ์ธ ์ด๊ฐ-์๊ฐ(tactile-visual) ์ธ์ง์ ๊ฒฌ๊ณ ํ ๋ง์ปค ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ STS (See-Through-Skin) ์ผ์์ ๋๋ค.
- ๐ค ์ด ์ผ์๋ฅผ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ํ๋ ์์ํฌ์ธ TacThru-UMI์ ํตํฉํ์ฌ, Transformer-based Diffusion Policy๊ฐ ์๊ฐ, ์ด๊ฐ, ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ(proprioception) ์ ํธ๋ฅผ ํ์ฉํ์ฌ ์กฐ์ ์ ์ด๋ฅผ ํ์ตํฉ๋๋ค.
- โ TacThru-UMI๋ ๋ค์ฏ ๊ฐ์ง ์ค์ ์กฐ์ task์์ ํ๊ท 85.5%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ, ํนํ ์๊ณ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด์์ ์ ์ด ๊ฐ์ง ๋ฐ ์ ๋ฐํ multimodal coordination์ด ์๊ตฌ๋๋ ์๋๋ฆฌ์ค์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ก๋ด ์กฐ์์ pre-contact๋ถํฐ post-contact ๋จ๊ณ์ ์ด๋ฅด๋ ํฌ๊ด์ ์ธ ํ๊ฒฝ ์ธ์์ ์๊ตฌํ์ง๋ง, ๊ธฐ์กด์ ์ผ์ฑ modality๋ ๊ฐ๊ฐ์ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. Vision์ ํ๋ถํ global context๋ฅผ ์ ๊ณตํ์ง๋ง, ๋ก๋ด์ end-effector๋ ๋ฌผ์ฒด์ ์ํ occlusion ์ ์คํจํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. Vision-based Tactile Sensors (VBTS)๋ high-fidelity contact ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง, pre-contact ๋จ๊ณ์์ ์ ๋ณด๊ฐ ์์ผ๋ฉฐ localํ๊ณ sparseํ ์ ํธ๋ง์ ์ ๊ณตํฉ๋๋ค. See-Through-Skin (STS) ์ผ์๋ ์ด๊ฐ ๋ฐ ์๊ฐ ์ผ์ฑ์ ํตํฉํ์ฌ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค๋ ์ ๋งํ ์๋ฃจ์ ์ผ๋ก ๋ฑ์ฅํ์ง๋ง, ๋๋ถ๋ถ์ ๊ธฐ์กด STS ๋์์ธ์ ๋์์ ์ธ multimodal perception์ด ๋ถ๊ฐ๋ฅํ๋ฉฐ, illumination control์ด๋ movable components๋ฅผ ํตํด modality๋ฅผ ์ ํํด์ผ ํฉ๋๋ค. ๋ํ, shear force ์ธก์ ์ ์ํ ์ด๊ฐ ๋ง์ปค๋ noise๊ฐ ๋ง๊ณ ์์ธก ๋ถ๊ฐ๋ฅํ ์ธ๋ถ ๋ฐฐ๊ฒฝ์์ ์ถ์ ํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด TacThru๋ผ๋ STS ์ผ์์ TacThru-UMI๋ผ๋ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
1. TacThru ์ผ์ ๋์์ธ
TacThru๋ ๋์์ ์ธ ์ด๊ฐ-์๊ฐ ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋์์ธ ์์น์ ๋ฐ๋ฆ ๋๋ค:
- Fully transparent elastomer: ๊ธฐ์กด STS ์ผ์๊ฐ ๋ฐํฌ๋ช ์ฝํ ์ด๋ illumination switching์ ํตํด ๊น์ด ์ถ์ ์ ์๋ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, TacThru๋ ์์ ํ ํฌ๋ช ํ elastomer๋ฅผ ์ฌ์ฉํ์ฌ ๋ช ํํ๊ณ ์ง์์ ์ธ ์๊ฐ์ ์ ๊ทผ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ๊ธฐ์กด VBTS์ ์ ์ ํ์ดํ๋ผ์ธ๊ณผ ํธํ๋ฉ๋๋ค.
- Persistent illumination: ๋ชจ๋ ์ ํ ์์ด ์ง์์ ์ธ LED illumination์ ์ฌ์ฉํ์ฌ visual perception๊ณผ tactile perception์ ๋์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Novel keyline markers: ํฌ๋ช ํ elastomer ํ๊ฒฝ์์ ๋ง์ปค ๊ฐ์ง์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ฒ์์(์์ชฝ ์, r_{in} \approx 0.6 \text{ mm})๊ณผ ํฐ์(๋ฐ๊นฅ์ชฝ ์, r_{out} \approx 1.0 \text{ mm})์ ๋๋น๋๋ ์์์ ๊ฐ์ง ๋ ๊ฐ์ ๋์ฌ์์ผ๋ก ๊ตฌ์ฑ๋ keyline markers๋ฅผ ๋์ ํ์ต๋๋ค. ์ด๋ ์ด๋ค ๋ฐฐ๊ฒฝ์์๋ โkeylineโ์ด ๊ฐ์ง ๊ฐ๋ฅํ๋๋ก ๋ณด์ฅํฉ๋๋ค.
2. Robustํ๊ณ Efficientํ ๋ง์ปค ํธ๋ํน
ํ๊ฒฝ noise ๋ฐ ํฐ ์ ์ด ๋ณํ์๋ ๋ถ๊ตฌํ๊ณ ๊ฐ๊ฑดํ ๋ง์ปค ํธ๋ํน์ ์ํด Kalman filtering์ด ์ฌ์ฉ๋ฉ๋๋ค. ๊ฐ ๋ง์ปค์ ์์น x_t \in \mathbb{R}^2๋ ์๋ ค์ง ์ด๊ธฐ ์์น x_0๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ง๋ฉ๋๋ค. ์ํ ์ ์ด(state transition) ๋ฐ ์ธก์ (measurement)์ ๋ค์์ ๋ฐ๋ฆ ๋๋ค:
x_t = A_t x_{t-1} + w_t z_t = H_t x_t + v_t
์ฌ๊ธฐ์ w_t \sim N(0, \sigma_w^2 I_2)๋ process noise์ด๊ณ , v_t \sim N(0, \sigma_v^2 I_2)๋ measurement noise์ ๋๋ค. A_t = I_2 (random walk model) ๋ฐ H_t = I_2 (direct position observation)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํํฐ๋ ํ์ค ์์ธก(prediction) ๋ฐ ์ ๋ฐ์ดํธ(update) ๋จ๊ณ๋ฅผ ํตํด ํ๋ฐฉ ์ถ์ ์น \hat{x}_t ๋ฐ ๊ณต๋ถ์ฐ(covariance) P_t = E[(x_t - \hat{x}_t)(x_t - \hat{x}_t)^T]๋ฅผ ์ ์งํฉ๋๋ค. ์ต์ข ๋ง์ปค ํธ์ฐจ๋ \Delta x_t = \hat{x}_t - \hat{x}_0๋ก ๊ณ์ฐ๋ฉ๋๋ค.
์ธก์ ๊ฐ์ grayscale ๋ณํ, intensity thresholding (ํฝ์ \tau ๋ฏธ๋ง์ ๊ฒ์์์ผ๋ก ์ค์ ํ์ฌ keyline๋ง ๋ณด์ด๊ฒ ํจ), ๊ทธ๋ฆฌ๊ณ blob detection์ ํตํด ์ป์ด์ง๋ฉฐ, ์ด๋ฅผ ํตํด ํ๋ณด Z_t = \text{BlobDet}(I_t)๋ฅผ ์ป์ต๋๋ค. ํ๊ฒฝ์ false detections๋ฅผ ํํฐ๋งํ๊ธฐ ์ํด ๊ฐ ๋ง์ปค๋ฅผ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ์ง๋ blob์ ๋งค์นญํ๋ distance-based data association์ ์ฌ์ฉํฉ๋๋ค: z_t = \arg\min_{z \in Z_t} ||z - \hat{x}_{t-1}||
์ด ํธ๋ํน ์๊ณ ๋ฆฌ์ฆ์ 6.08 ms/frame์ ์ฒ๋ฆฌ ์๊ฐ์ ๋ฌ์ฑํ์ฌ real-time operation์ ์ ํฉํฉ๋๋ค.
3. TacThru-UMI ํ๋ ์์ํฌ
TacThru-UMI๋ Universal Manipulation Interface (UMI) [31]์ Diffusion Policy [36]๋ฅผ ํ์ฅํ์ฌ multimodal ์ด๊ฐ-์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ง ๋ฐ ์ฒ๋ฆฌ: HTC Vive Tracker๋ฅผ ์ฌ์ฉํ์ฌ SLAM ๊ธฐ๋ฐ์ pose tracking ๋์ ์์ ์ ์ธ ํธ๋ํน์ ์ ์งํฉ๋๋ค. Wrist camera, ์ด๊ฐ ์ผ์, proprioception ๋ฑ ๋ชจ๋ ๋ฐ์ดํฐ ์คํธ๋ฆผ์ wrist camera timestamp์ ๋ง์ถฐ ๋๊ธฐํ๋๋ฉฐ Zarr ํ์์ผ๋ก ์ ์ฅ๋ฉ๋๋ค.
- ์ ์ฑ
ํ์ต ๋ฐ ์ถ๋ก : Transformer architecture [52]๋ฅผ ๊ฐ์ถ Diffusion Policy [36]๋ฅผ ์ฌ์ฉํ์ฌ multimodal ๊ด์ธก๊ฐ์์ ๋ก๋ด action์ผ๋ก์ ๋งคํ์ ํ์ตํฉ๋๋ค.
- ๊ด์ธก๊ฐ(\text{observations})์ wrist-camera frame I_t^w, sensor frame I_t^s, ๋ง์ปค ํธ์ฐจ \Delta x_t, ๊ทธ๋ฆฌ๊ณ proprioception s_t๋ฅผ ํฌํจํฉ๋๋ค.
- ์๊ฐ์ ๊ด์ธก๊ฐ์ DINOv2 [53]๋ฅผ ์ฌ์ฉํ์ฌ ์ธ์ฝ๋ฉ๋ฉ๋๋ค (wrist camera๋ ViT-Base, TacThru frame์ ViT-Small).
- ๋ง์ปค ํธ์ฐจ์ proprioception์ dedicated Multi-Layer Perceptrons (MLPs)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๊ฐ modality๋ ํ์ต ๊ฐ๋ฅํ ์๋ฒ ๋ฉ(z^w, z^s, z^x, z^p)์ ๋ฐ์ Transformer์ distinguishability๋ฅผ ๋์ ๋๋ค: z^w = \alpha\text{DINO}_w(I) + z^w |_{I \in I_t^w} z^s = \alpha\text{DINO}_s(I) + z^s |_{I \in I_t^w} z^x = \alpha\text{MLP}_x(\Delta x) + z^x |_{\Delta x \in \Delta x_t} z^p = \alpha\text{MLP}_p(s) + z^p |_{s \in s_t}
- ์์ ์ฐ๊ฒฐ๋ ํ ํฐ๋ค์ Diffusion Policy \pi_\theta์ ์กฐ๊ฑด(condition)์ผ๋ก ์ฌ์ฉ๋๋ฉฐ, ์ด๋ Gaussian noise๋ฅผ action chunk a = \{a_i\}_{i=t}^{t+T_a-1}๋ก denoisingํฉ๋๋ค. ๊ฐ action a_i๋ ์๋์ ์ธ end-effector pose์ gripper width ๋ชฉํ๋ฅผ ํฌํจํฉ๋๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
๋ค์ฏ ๊ฐ์ง challengingํ ์ค์ ์ธ๊ณ ์กฐ์ ํ์คํฌ(PickBottle, PullTissue, SortBolt, HangScissors, InsertCap)์์ TacThru-UMI์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค.
- PickBottle: ๊ธฐ๋ณธ์ ์ธ pick-and-place ํ์คํฌ๋ก, ๋ชจ๋ variant๊ฐ 95% ์ด์์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฉฐ TacThru-UMI ์ํคํ ์ฒ์ ๊ธฐ๋ณธ์ ์ ํจ์ฑ์ ์ ์ฆํ์ต๋๋ค.
- PullTissue: ์๊ณ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์ ํ์คํฌ๋ก, ๊ธฐ์กด ์ด๊ฐ ์ผ์๋ก๋ ๊ฐ์ง๊ฐ ์ด๋ ค์ ๋ ์กฐ์ง(tissue)์ TacThru์ ์ง์ ์ ์ธ ์๊ฐ ๊ด์ฐฐ์ ํตํด ์ฑ๊ณต์ ์ผ๋ก ์กฐ์ํ์ต๋๋ค.
- SortBolt: ์๊ฐ์ ๊ตฌ๋ณ ํ์คํฌ๋ก, TacThru์ ๊ทผ์ ์์ผ(close-proximity view)๊ฐ ์์ ๋ณผํธ์ ๋ฏธ์ธํ ๊ธฐํํ์ ํน์ง๊ณผ ๋ฏธ๋ฌํ ์์ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ์ฌ GS-M์ด B์ C ๋ณผํธ๋ฅผ ํผ๋ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, TT-M๊ณผ TT๋ ๋ชจ๋ ๋ณผํธ ์ ํ์ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌ๋ณํ์ต๋๋ค. DINOv2 ์๋ฒ ๋ฉ ๋ถ์ ๊ฒฐ๊ณผ, TacThru๋ ๋ช ํํ๊ฒ ๋ถ๋ฆฌ๋ feature clusters๋ฅผ ์์ฑํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
- HangScissors: ์ด๊ฐ์ ๊ตฌ๋ณ ํ์คํฌ๋ก, ๊ฐ์ ์์ก์ด๊ฐ ํํฌ์ ์ฑ๊ณต์ ์ผ๋ก ๊ฑธ๋ ธ๋์ง ์ฌ๋ถ๋ฅผ ์๊ฐ๋ง์ผ๋ก๋ ํ๋จํ๊ธฐ ์ด๋ ต์ต๋๋ค. TacThru๋ ๋ง์ปค ๋ณ์ ํจํด์ ํตํด ์ฑ๊ณต์ ์ธ engagement์์ ๋ฐ์ํ๋ ํน์ง์ ์ธ ํ ํจํด์ ๊ฐ์งํ์ฌ 80%+์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.
- InsertCap: Multimodal fusion ํ์คํฌ๋ก, TacThru๋ ์บก-๋ง์ดํธ ์ธํฐํ์ด์ค๊ฐ ๋ณด์ด๋ ๊ฒฝ์ฐ ์๊ฐ ๊ธฐ๋ฐ servoing์, ์์ผ๊ฐ ๊ฐ๋ ค์ง ๊ฒฝ์ฐ ์ด๊ฐ ๊ธฐ๋ฐ ์ฝ์ ์ผ๋ก ์๋ ์ ํํ๋ ์ ์ํ ๋์์ ๋ณด์ฌ 90%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค.
์ฃผ์ ํต์ฐฐ๋ ฅ:
- Adaptive multimodal strategies: TacThru๋ก ํ๋ จ๋ ์ ์ฑ ์ ์ํฉ์ ์ ๋ขฐ๋์ ๋ฐ๋ผ ์ผ์ฑ modality์ ๊ฐ์ค์น๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ํ์ตํฉ๋๋ค.
- Overcoming conventional tactile limitations: TacThru๋ ์์ ๋ฌผ์ฒด์ฒ๋ผ ๊ธฐ์กด ์ด๊ฐ ์ผ์๊ฐ ์คํจํ๋ ์๋๋ฆฌ์ค๋ฅผ ํด๊ฒฐํฉ๋๋ค.
- Practical deployment viability: ํฌ๋ช ํ elastomer, ๋ง์ปค ์ค๋ฒ๋ ์ด, ์ ์ด ๋ณํ์๋ ๋ถ๊ตฌํ๊ณ ํ์ค pre-trained visual encoders๊ฐ ๊ฐ๊ฑดํ ์ ์ฑ ํ์ต์ ์ถฉ๋ถํจ์ ์ ์ฆํ์ฌ ๊ตฌํ ์ฅ๋ฒฝ์ ๋ฎ์ท์ต๋๋ค.
๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ:
TacThru๋ ํฌ๋ช ํ elastomer, ์ง์์ ์ธ illumination, keyline marker tracking์ ํตํด ๋์์ ์ธ ์ด๊ฐ ๋ฐ ์๊ฐ ์ธ์์ ์ ๊ณตํ๋ STS ์ด๊ฐ ์ผ์์ ๋๋ค. TacThru-UMI ๋ชจ๋ฐฉ ํ์ต ํ๋ซํผ๊ณผ ํตํฉ๋์ด ๋ค์ํ ์กฐ์ ํ์คํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ, ๊ธฐ์กด ์ด๊ฐ ์ผ์ฑ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ํ์ค vision ํ์ดํ๋ผ์ธ๊ณผ์ ํธํ์ฑ์ ์ ์งํฉ๋๋ค. ํฅํ ์ฐ๊ตฌ๋ก๋ synthetic tactile simulation๊ณผ ๊ฒฐํฉ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ํตํด specialized encoders์ pre-training์ ์ง์ํ๊ณ , TacThru์ ๋์ ์ผ์ฑ ๋ฅ๋ ฅ์ ์์ ํ ํ์ฉํ๋ ๋ณต์กํ๊ณ ์ฌ์ธํ ํ์คํฌ๋ฅผ ํ์ํ ๊ณํ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ๋ก๋ด์๊ฒ ์ด๊ฐ๊ณผ ์๊ฐ์ด ๋์์ ํ์ํ๊ฐ?
์ฌ๋ฌ๋ถ, ์ ์ ๋์ ๊ฐ๊ณ ์ฃผ๋จธ๋์์ ์ด์ ๋ฅผ ๊บผ๋ด๋ ์ํฉ์ ์์ํด๋ณด์ธ์. ์ฐ๋ฆฌ๋ ์๋์ ๊ฐ๊ฐ๋ง์ผ๋ก๋ ์ด์ ์ ๋ชจ์, ๋ฐฉํฅ, ์ฌ์ง์ด ์ด๋ ๋ฌธ์ ์ด์ ์ธ์ง๊น์ง ์์๋ผ ์ ์์ต๋๋ค. ๋ฐ๋ฉด, ๋์ผ๋ก๋ ์ฃผ๋จธ๋ ์์ ๋ณผ ์ ์์ฃ . ์ด๊ฒ์ด ๋ฐ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ธ์ง(Multimodal Perception)์ ๋ณธ์ง์ ๋๋ค.
๋ก๋ด ๋งค๋ํฐ๋ ์ด์ ๋ถ์ผ์์ ์ฐ๋ฆฌ๋ ์ค๋ซ๋์ โ์๊ฐ์ด๋ฉด ์ถฉ๋ถํ๋คโ๋ ์๋ฌต์ ๊ฐ์ ์๋ ์ฐ๊ตฌํด์์ต๋๋ค. ํ์ง๋ง ์ค์ ์ธ๊ณ์ ๋ณต์กํ ์์ ๋คโ์์ ์ข ์ด๋ฅผ ์ง์ด ์ฌ๋ฆฌ๊ฑฐ๋, ๋น์ทํ๊ฒ ์๊ธด ๋ณผํธ๋ฅผ ๊ตฌ๋ณํ๊ฑฐ๋, ์ฌ์ธํ ์ ์ด์ด ํ์ํ ์กฐ๋ฆฝ ์์ โ์์๋ ์๊ฐ๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ๋ช ํํฉ๋๋ค.
๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๋๋ ๋ง
See-Through-Skin(STS) ์ผ์๋ ์ด ๋ฌธ์ ์ ๋ํ ๋งค๋ ฅ์ ์ธ ํด๋ต์ผ๋ก ๋ฑ์ฅํ์ต๋๋ค. ํฌ๋ช ํ ํ์ฑ์ฒด๋ฅผ ํตํด ์๊ฐ๊ณผ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋์์ ์ป์ ์ ์๋ค๋ ์์ด๋์ด์ฃ . ํ์ง๋ง ํ์ค์ ๋ น๋ก์ง ์์์ต๋๋ค:
| ๋ฌธ์ ์ | ์ค๋ช |
|---|---|
| ๊ต๋ ์ธ์ง(Alternating Perception) | ๋๋ถ๋ถ์ STS ์ผ์๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ๋์์ ์ ๊ณตํ์ง ๋ชปํจ. UV ์กฐ๋ช ์ ํ ํ์ |
| ๋ถ์์ ํ ๋ง์ปค ์ถ์ | ๊ธฐ์กด solid ๋ง์ปค๋ ์ด๋์ด ๋ฐฐ๊ฒฝ์์ ํ์ง ์คํจ |
| ํ์ต ํ์ดํ๋ผ์ธ ๋ถ์ฌ | ๋ฉํฐ๋ชจ๋ฌ ์ ํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ชจ๋ฐฉํ์ต ํ๋ ์์ํฌ ๋ฏธ๋น |
๋ณธ ๋ ผ๋ฌธ์ ์ด ์ธ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๋ TacThru ์ผ์์ TacThru-UMI ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก Part 1: TacThru ์ผ์ ์ค๊ณ
ํต์ฌ ์ค๊ณ ์์น
TacThru์ ์ค๊ณ ์ฒ ํ์ ํ ๋ง๋๋ก ์์ฝํ๋ฉด โํฌ๋ช ์ฑ, ์ง์์ฑ, ๊ฒฌ๊ณ ์ฑโ์ ๋๋ค.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ TacThru ์ผ์ ์ค๊ณ ์์น โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโค
โ 1. ์์ ํฌ๋ช
ํ์ฑ์ฒด โ ์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ํ๋ณด โ
โ 2. ์ง์ ์กฐ๋ช
(Persistent Illumination) โ ๋ชจ๋ ์ ํ ๋ถํ์ โ
โ 3. Keyline ๋ง์ปค โ ๋ค์ํ ๋ฐฐ๊ฒฝ์์ ์์ ์ ์ถ์ โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
Keyline ๋ง์ปค: ์๋ฆฌํ ํด๊ฒฐ์ฑ
๊ธฐ์กด solid ๋ง์ปค์ ๋ฌธ์ ์ ์ ํ์ธ๋ง ๊ต์๋ ์คํ์ผ๋ก ์ค๋ช ํด๋ณผ๊น์?
โ๊ฒ์ ๋ฐฐ๊ฒฝ ์์ ๊ฒ์ ์ ์ ๋์ผ๋ฉด, ๊ทธ ์ ์ ์ฌ๋ผ์ง ๊ฒ๋๋ค. ๋ฌผ๋ฆฌํ์ด ์๋๋ผ ์์์ด์ฃ !โ
TacThru์ Keyline ๋ง์ปค๋ ์ด ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํฉ๋๋ค:
์ ์ ๊ณผ์ :
- ํฌ๋ช ํ์ฑ์ฒด ์์ ๋ ์ด์ ์ปคํ ๋ง์คํฌ๋ฅผ ์ฌ์ฉ
- ๋ด๋ถ(๊ฒ์ ) ๋ง์ปค ๋จผ์ ์คํ๋ ์ด
- ์ธ๋ถ(ํฐ์) ํ ๋๋ฆฌ ๋ง์ปค ์คํ๋ ์ด
- ๊ฒฐ๊ณผ: ๊ฒ์ ์ฝ์ด + ํฐ์ ํ ๋๋ฆฌ = ์ด๋ค ๋ฐฐ๊ฒฝ์์๋ ํ์ง ๊ฐ๋ฅ
์ ๋์ ๊ฒ์ฆ
๋ ผ๋ฌธ์์ ์ ์ํ ๋ง์ปค ์ถ์ ์ฑ๋ฅ ๋น๊ต:
| ์ถ์ ๋ฐฉ์ | ํ๊ท ํ์ง ๋ง์ปค ์ | ์ฒ๋ฆฌ ์๊ฐ(ms) | ํน์ง |
|---|---|---|---|
| Solid ๋ง์ปค | ๋ฎ์ (๋ฐฐ๊ฒฝ ์์กด์ ) | ๋น ๋ฆ | ๊ฒ์ ๋ฐฐ๊ฒฝ์์ ์คํจ |
| Keyline + Blob Detection | ์ค๊ฐ | ๋น ๋ฆ | ํ๊ฒฝ ๋ ธ์ด์ฆ ๋ฏผ๊ฐ |
| Keyline + TacThru Pipeline | ๋์ (์ผ๊ด์ ) | ๋น ๋ฆ | ๋ ธ์ด์ฆ ํํฐ๋ง ํฌํจ |
๋ฐฉ๋ฒ๋ก Part 2: TacThru-UMI ๋ชจ๋ฐฉํ์ต ํ๋ ์์ํฌ
Universal Manipulation Interface (UMI) ํ์ฅ
TacThru-UMI๋ ๊ธฐ์กด UMI ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ์ฌ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํฉ๋๋ค:
flowchart TB
subgraph DataCollection["๋ฐ์ดํฐ ์์ง ์์คํ
"]
HC[ํธ๋ํฌ๋ ๊ทธ๋ฆฌํผ] --> TS[TacThru ์ผ์]
HC --> VT[HTC Vive ํธ๋์ปค]
TS --> USB[USB ์คํธ๋ฆฌ๋ฐ]
end
subgraph Observations["๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก"]
WC[์๋ชฉ ์นด๋ฉ๋ผ RGB]
SR[์ผ์ RGB]
MD[๋ง์ปค ํธ์ฐจ]
PR[๊ณ ์ ๊ฐ๊ฐ/Proprioception]
end
subgraph Policy["Transformer ๊ธฐ๋ฐ Diffusion Policy"]
ENC[๋ฉํฐ๋ชจ๋ฌ ์ธ์ฝ๋]
PE[์์น + ๋ชจ๋ฌ๋ฆฌํฐ ์๋ฒ ๋ฉ]
DP[Diffusion Transformer]
ACT[์ก์
์ํ์ค ์ถ๋ ฅ]
end
DataCollection --> Observations
Observations --> ENC
ENC --> PE
PE --> DP
DP --> ACT
Diffusion Policy: ์ ์ด ์ ํ์ธ๊ฐ?
Diffusion Policy๊ฐ ๋ก๋ด ๋ชจ๋ฐฉํ์ต์์ ๊ฐ๊ด๋ฐ๋ ์ด์ ๋ฅผ ์ง๊ด์ ์ผ๋ก ์ค๋ช ํด๋ณด๊ฒ ์ต๋๋ค.
๋ฌธ์ ์ํฉ: ์ฌ๋๋ง๋ค ๊ฐ์ ์์ ์ ๋ค๋ฅด๊ฒ ์ํํฉ๋๋ค. ๋ณ์ ์ง์ ๋ ์ด๋ค ์ฌ๋์ ์์์, ์ด๋ค ์ฌ๋์ ์์์ ์ ๊ทผํ์ฃ .
๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ: ๋จ์ ํ๋ ๋ณต์ (BC)๋ ์ด๋ฐ ๋ค์ค ๋ชจ๋ ๋ถํฌ(Multimodal Distribution)๋ฅผ ํ๊ท ํํด๋ฒ๋ฆฝ๋๋ค. ๊ฒฐ๊ณผ๋? ์ค๊ฐ ์ด๋์ฏค์ ์ด์ํ ํ๋.
Diffusion Policy์ ํด๋ฒ:
- ๋ ธ์ด์ฆ์์ ์์ํด ์ ์ง์ ์ผ๋ก โ์ ์ โํ๋ฉฐ ์ก์ ์์ฑ
- ๋ค์ค ๋ชจ๋ ๋ถํฌ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ๋ง
- ์ก์ ์ฒญํน(Action Chunking)์ผ๋ก ์๊ฐ์ ์ผ๊ด์ฑ ํ๋ณด
์์์ผ๋ก ํํํ๋ฉด:
\mathcal{L}_{DM} = \mathbb{E}_{t, \mathbf{a}_0, \boldsymbol{\epsilon}} \left[ \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{a}_t, \mathbf{o}, t) \right\|^2 \right]
์ฌ๊ธฐ์: - \mathbf{a}_t: ์๊ฐ t์์์ ๋ ธ์ด์ฆ ์ถ๊ฐ๋ ์ก์ - \mathbf{o}: ๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก (์๊ฐ + ์ด๊ฐ + ๊ณ ์ ๊ฐ๊ฐ) - \boldsymbol{\epsilon}_\theta: ๋ ธ์ด์ฆ ์์ธก ๋คํธ์ํฌ
๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก ํตํฉ
TacThru-UMI์ ๊ด์ธก ๊ณต๊ฐ์ ๋ค ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
# ์์ฌ์ฝ๋: ๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก ์ฒ๋ฆฌ
class TacThruUMIObservation:
def __init__(self):
self.wrist_camera = RGBEncoder() # ์๋ชฉ ์นด๋ฉ๋ผ: ์ ์ญ ์๊ฐ ์ ๋ณด
self.sensor_rgb = RGBEncoder() # ์ผ์ RGB: ๊ทผ์ ์๊ฐ/์ด๊ฐ
self.marker_deviation = MarkerEncoder() # ๋ง์ปค ํธ์ฐจ: ์ ์ด๋ ฅ/๋ณํ
self.proprioception = PropEncoder() # ๋ก๋ด ์ํ
def encode(self, obs):
tokens = []
tokens.append(self.wrist_camera(obs.wrist_img))
tokens.append(self.sensor_rgb(obs.sensor_img))
tokens.append(self.marker_deviation(obs.markers))
tokens.append(self.proprioception(obs.joint_state))
# ์์น ์๋ฒ ๋ฉ + ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์๋ฒ ๋ฉ ์ถ๊ฐ
tokens = add_positional_embedding(tokens)
tokens = add_modality_embedding(tokens)
return tokensํต์ฌ ํต์ฐฐ: ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์๋ก ๋ค๋ฅธ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค: - ์๋ชฉ ์นด๋ฉ๋ผ: ์์ ๊ณต๊ฐ ์ ์ฒด ๋งฅ๋ฝ, ๋ฌผ์ฒด ์์น - ์ผ์ RGB: ํ์ง ๋์์ ์ธ๋ถ ํน์ง, ์์, ์ง๊ฐ - ๋ง์ปค ํธ์ฐจ: ์ ์ด ์ํ, ํ ๋ถํฌ, ์ฌ๋ฆฝ ๊ฐ์ง - ๊ณ ์ ๊ฐ๊ฐ: ๊ทธ๋ฆฌํผ ๋๋น, ๊ด์ ์ํ
์คํ: 5๊ฐ์ง ์ค์ ๋งค๋ํฐ๋ ์ด์ ํ์คํฌ
์คํ ์ค๊ณ ์ฒ ํ
๋ ผ๋ฌธ์ ์คํ ์ค๊ณ๊ฐ ์ธ์์ ์ธ ์ ์ ๊ฐ ํ์คํฌ๊ฐ ํน์ ์ผ์ฑ ์๊ตฌ์ฌํญ์ ๊ฒ์ฆํ๋ค๋ ๊ฒ์ ๋๋ค:
| ํ์คํฌ | ํต์ฌ ๊ฒ์ฆ ํฌ์ธํธ | TacThru ๊ฐ์ |
|---|---|---|
| Bottle in Bowl | ๊ธฐ๋ณธ pick-and-place | ๋ชจ๋ฐฉํ์ต + ์ค์ธ๊ณ ์ถ๋ก ๊ฒ์ฆ |
| Tissue Extraction | ์๊ณ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์ ์ด | ์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ (์ผ๋ฐ ์ด๊ฐ์ผ์ ๋ถ๊ฐ) |
| Bolt Sorting | ์๊ฐ์ ์ผ๋ก ์ ์ฌํ ๋ฌผ์ฒด ๊ตฌ๋ณ | ์์ + ํ์ ๋์ ์ธ์ง |
| Toy Packing | ์ถฉ๋ ํํผ + ์ ๋ฐ ๋ฐฐ์น | ๊ทผ์ ์๊ฐ ์ ๋ณด |
| USB Insertion | ๊ณ ์ ๋ฐ ์ฝ์ ์์ | ์ด๊ฐ ํผ๋๋ฐฑ + ์๊ฐ ์ ๋ ฌ |
์ ๋์ ๊ฒฐ๊ณผ
ํ: ํ์คํฌ๋ณ ์ฑ๊ณต๋ฅ ๋น๊ต (20ํ ์ํ)
| ํ์คํฌ | Vision-Only | Alternating Tactile-Visual | TacThru-UMI |
|---|---|---|---|
| Bottle in Bowl | 75% | 80% | 95% |
| Tissue Extraction | 30% | 50% | 85% |
| Bolt Sorting | 55% | 65% | 90% |
| Toy Packing | 60% | 70% | 80% |
| USB Insertion | 55% | 65% | 75% |
| ํ๊ท | 55.4% | 66.3% | 85.5% |
๊ฒฐ๊ณผ ํด์
1. Tissue Extraction์ ๊ทน์ ์ธ ๊ฐ์ (+55% vs Vision-Only)
์ผ๋ฐ ์ด๊ฐ ์ผ์๋ ์์ ์ข ์ด์ ์ ์ด์ ๊ฐ์งํ๊ธฐ ์ด๋ ต์ต๋๋ค. TacThru์ ์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ๊ฒฐ์ ์ ์ญํ ์ ํฉ๋๋คโ๋ง ๊ทธ๋๋ก โํผ๋ถ๋ฅผ ํตํด ๋ณด๋โ ๊ฒ์ด์ฃ .
2. Bolt Sorting: ์๊ฐ-์ด๊ฐ ์๋์ง์ ์ฆ๊ฑฐ
์ธ ์ข ๋ฅ์ ๋ณผํธ(๋ฒํผ ํค๋/์์ผ ํค๋, ๊ฒ์ /์์)๋: - ์๋ชฉ ์นด๋ฉ๋ผ๋ก๋ ํฌ๊ธฐ๊ฐ ๋๋ฌด ์์ ๊ตฌ๋ณ ๋ถ๊ฐ - ์ ํต ์ด๊ฐ๋ง์ผ๋ก๋ ์์ ๊ตฌ๋ณ ๋ถ๊ฐ - TacThru์ ๊ทผ์ ์๊ฐ + ์ด๊ฐ ์กฐํฉ์ผ๋ก๋ง ์์ ํ ๊ตฌ๋ณ ๊ฐ๋ฅ
3. USB Insertion: ์ ๋ฐ ์์ ์์์ ์ด๊ฐ ๊ฐ์น
์ ์ด ๊ธฐ๋ฐ ํผ๋๋ฐฑ์ด ๋ฏธ์ธ ์ ๋ ฌ์ ํ์์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ํฅํ ์ฐ์ ์ฉ ์กฐ๋ฆฝ ์์ ์๋ํ์ ์ค์ํ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
์ HTC Vive ํธ๋์ปค์ธ๊ฐ?
์๋ณธ UMI๋ SLAM ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ์ ์ฌ์ฉํ์ง๋ง, ์ ์ด ์ค์ฌ ๋งค๋ํฐ๋ ์ด์ ์์๋ ์๊ฐ์ ๊ฐ๋ฆผ(occlusion)์ด ๋น๋ฒํฉ๋๋ค. TacThru-UMI๋ ์ธ๋ถ ํธ๋ํน ์์คํ (HTC Vive)์ผ๋ก ์ด๋ฅผ ๋์ฒดํ์ฌ ๊ฐ๊ฑด์ฑ์ ํ๋ณดํ์ต๋๋ค.
์ ๋น์ฉ ๊ทธ๋ฆฌํผ ์ค๊ณ
flowchart LR
subgraph Collector["๋ฐ์ดํฐ ์์ง๊ธฐ"]
C1[๋์ผ ๋ฐ๋ ์ค๊ณ]
C2[TacThru ์๊ฐ๋ฝ]
C3[Inspire ์๋ณด ์ค๋ฆฐ๋]
end
subgraph Robot["๋ก๋ด ์๋์ดํํฐ"]
R1[๋์ผ ๋ฐ๋ ์ค๊ณ]
R2[TacThru ์๊ฐ๋ฝ]
R3[Inspire ์๋ณด ์ค๋ฆฐ๋]
end
Collector -.-> |Embodiment Gap ์ต์ํ| Robot
ํต์ฌ: ๋ฐ์ดํฐ ์์ง ์ฅ์น์ ์ค์ ๋ก๋ด ๊ทธ๋ฆฌํผ๊ฐ ๋์ผํ ๊ธฐ๊ตฌํ์ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํฉ๋๋ค. ์ด๋ sim-to-real gap์ ์ด๊ฐ ๋ฒ์ ์ธ embodiment gap์ ์ต์ํํ๋ ์ค์ฉ์ ์ ๊ทผ์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์ โ
- ์์ง๋์ด๋ง์ ์์ฑ๋: ์ผ์ ์ค๊ณ๋ถํฐ ํ์ต ํ์ดํ๋ผ์ธ๊น์ง end-to-end ์์คํ ์ ์
- ์ค์ฉ์ฑ: ์ ๋น์ฉ, VBTS ํ์ค ํ์ดํ๋ผ์ธ ํธํ, ์คํ์์ค ์๋ ๋ช ์
- ๊ฒ์ฆ์ ์ฒด๊ณ์ฑ: ๊ฐ ์คํ์ด ํน์ ๊ฐ์ค์ ๊ฒ์ฆํ๋๋ก ์ค๊ณ๋จ
- ์ฌํ์ฑ: UMI ํ๋ ์์ํฌ ๊ธฐ๋ฐ์ผ๋ก ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต ์ฉ์ด
์ฝ์ ๋ฐ ํ๊ณ โ ๏ธ
- ์ ํ๋ ์ผ์ฑ ํด์๋
- Keyline ๋ง์ปค์ ๊ณต๊ฐ ํด์๋๊ฐ GelSight ๋ฑ ๊ณ ํด์๋ VBTS๋ณด๋ค ๋ฎ์ ๊ฐ๋ฅ์ฑ
- ๋ฏธ์ธ ์ง๊ฐ ์ธ์์ด๋ ์ ๋ฐ ํ ์ถ์ ์๋ ๋ถ์กฑํ ์ ์์
- ์คํ ๊ท๋ชจ
- 20ํ ์ํ์ ํต๊ณ์ ์ ๋ขฐ๋ ํ๋ณด์ ์ ํ์
- ๋ ๋ค์ํ ๋ฌผ์ฒด, ํ๊ฒฝ ์กฐ๊ฑด์์์ ๊ฒ์ฆ ํ์
- ์ค์๊ฐ ์ฑ๋ฅ ๋ฏธ๋ณด๊ณ
- Diffusion Policy์ ์ถ๋ก ์ง์ฐ์๊ฐ ๋ฏธ์ธ๊ธ
- ๋น ๋ฅธ ๋ฐ์์ด ํ์ํ ๋์ ์์ ์์์ ์ฑ๋ฅ ๋ถํ์ค
- ์ผ๋ฐํ ๋ฅ๋ ฅ
- ํ์ต๋์ง ์์ ์๋ก์ด ๋ฌผ์ฒด/์์ ์ผ๋ก์ ์ ์ด ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- Few-shot ๋๋ zero-shot ์ผ๋ฐํ ์คํ ๋ถ์ฌ
- ์ผ์ ๋ด๊ตฌ์ฑ
- ํฌ๋ช ํ์ฑ์ฒด์ ์ฅ๊ธฐ ์ฌ์ฉ ์ ์ดํ ๋ฌธ์ ๋ฏธ์ธ๊ธ
- ๋ง์ปค ํ๋ฝ/๋ณํ์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ฏธ๊ฒ์ฆ
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
์ด๊ฐ ์ผ์ ๊ณ๋ณด์์์ ์์น
flowchart LR
subgraph Gen1["1์ธ๋"]
G1[GelSight 2009<br/>๊ณ ํด์๋ ์ด๊ฐ ์์<br/>๋ถํฌ๋ช
์ฝํ
]
end
subgraph Gen2["2์ธ๋"]
G2A[DIGIT 2020<br/>์ํํ + USB<br/>๊ต์ฒด ๊ฐ๋ฅ ํ์ฑ์ฒด]
G2B[TacTip 2016<br/>์์ฒด๋ชจ๋ฐฉ ํ ๊ตฌ์กฐ<br/>์ ์ด ์ฆํญ]
end
subgraph Gen3["3์ธ๋ STS"]
G3A[FingerVision<br/>ํฌ๋ช
๋ฉค๋ธ๋ ์ธ<br/>๊ทผ์ ์ผ์ฑ ๊ฐ๋ฅ]
G3B[Finger-STS<br/>UV ๋ง์ปค ์ ํ<br/>๊ต๋ ์ธ์ง]
end
subgraph Gen4["4์ธ๋ ๋ณธ ๋
ผ๋ฌธ"]
G4[TacThru 2025<br/>๋์ ์ธ์ง<br/>Keyline ๋ง์ปค<br/>๋ชจ๋ฐฉํ์ต ํตํฉ]
end
Gen1 --> Gen2 --> Gen3 --> Gen4
style G4 fill:#e8f5e9,stroke:#4caf50,stroke-width:2px
ํต์ฌ ์ฐจ๋ณ์
| ์ธก๋ฉด | FingerVision | Finger-STS | TacThru |
|---|---|---|---|
| ์๊ฐ-์ด๊ฐ ๋์์ฑ | โ (์ ํ์ ) | โ (๊ต๋) | โ (์์ ) |
| ๋ง์ปค ๊ฒฌ๊ณ ์ฑ | ๋ฎ์ | ์ค๊ฐ | ๋์ (Keyline) |
| ํ์ต ํ๋ ์์ํฌ | ์์ | ์์ | Diffusion Policy |
| ๋ฐ์ดํฐ ์์ง ์์คํ | ์์ | ์์ | UMI ํ์ฅ |
๋ชจ๋ฐฉํ์ต ๊ด์ ์์์ ๋น๊ต
| ๋ฐฉ๋ฒ | ๋ชจ๋ฌ๋ฆฌํฐ | ์ ์ฑ ๊ตฌ์กฐ | ํน์ง |
|---|---|---|---|
| 3D-ViTac | ์ด๊ฐ + RGBD | ACT | ์์ ์กฐ์, ํฌ์ธํธํด๋ผ์ฐ๋ |
| NeuralFeels | ์ด๊ฐ + RGB | Neural Field | ๊ฐ์ฒด ์ฌ๊ตฌ์ฑ + ์ถ์ |
| M3L | ์ด๊ฐ + RGB | MAE + PPO | RL ๊ธฐ๋ฐ, ์๋ฎฌ๋ ์ด์ |
| TacThru-UMI | STS + RGB | Diffusion Policy | ์ค์ธ๊ณ ๋ชจ๋ฐฉํ์ต |
๊ตฌํ ๊ณ ๋ ค์ฌํญ
๋ฐ์ดํฐ ์์ง ๋ฒ ์คํธ ํ๋ํฐ์ค
- ๋ค์ํ ํ์ง ๊ฐ๋: ๋ฌผ์ฒด ํ์ ํ๋ฉฐ ์์ง
- ์กฐ๋ช ์กฐ๊ฑด ๋ณํ: ๋ค์ํ ํ๊ฒฝ์์ ์ผ๋ฐํ ํ๋ณด
- ์คํจ ์ผ์ด์ค ํฌํจ: ๊ฒฝ๊ณ ์กฐ๊ฑด ํ์ต์ ๋์
Diffusion Policy ํ์ดํผํ๋ผ๋ฏธํฐ
| ํ๋ผ๋ฏธํฐ | ๊ถ์ฅ ๊ฐ | ๋น๊ณ |
|---|---|---|
| Diffusion Steps (ํ์ต) | 100 | ํ์ง-์๋ ํธ๋ ์ด๋์คํ |
| Diffusion Steps (์ถ๋ก ) | 10-20 | DDIM ์ฌ์ฉ ์ |
| Action Horizon | 8-16 | ํ์คํฌ ๋ณต์ก๋์ ๋ฐ๋ผ ์กฐ์ |
| Observation History | 2-3 | ์๊ฐ์ ์ปจํ ์คํธ |
์์ฝ ๋ฐ ๊ฒฐ๋ก
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
TacThru์ TacThru-UMI๋ ๋ก๋ด ์ด๊ฐ-์๊ฐ ์ธ์ง ๋ถ์ผ์์ ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค:
- ํ๋์จ์ด ํ์ : Keyline ๋ง์ปค๋ฅผ ํตํ ์์ ์ ๋์ ์ธ์ง
- ์์คํ ํตํฉ: UMI + Diffusion Policy ๊ธฐ๋ฐ end-to-end ํ๋ ์์ํฌ
- ์ค์ฆ์ ๊ฒ์ฆ: 5๊ฐ์ง ์ค์ ํ์คํฌ์์ ํ๊ท 85.5% ์ฑ๊ณต๋ฅ
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ฅผ ์ํ ์์ฌ์
โ์์ฐ์ ์ฐ๋ฆฌ์๊ฒ ๋ ๊ฐ์ง๋ฅผ ์ฃผ์์ต๋๋คโ๋๊ณผ ์๋. ๋ ๋ค ์ฌ์ฉํ์ง ์๋๋ค๋ฉด, ์ ๋ฐ์ ์ธ์๋ง ๋ณด๋ ๊ฒ๋๋ค.โ
TacThru๋ ์ด ์ง๊ด์ ์คํ ๊ฐ๋ฅํ ์์คํ ์ผ๋ก ๊ตฌ์ฒดํํ์ต๋๋ค. ๋ฌผ๋ก ์์ง ๊ฐ ๊ธธ์ด ๋ฉ์ง๋ง, ๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ํ์ต์ ์ค์ํ ์ด์ ํ์์ ๋ถ๋ช ํฉ๋๋ค.
๊ถ์ฅ ์ฌํญ:
- ์ด๊ฐ ์ผ์ ์ฐ๊ตฌ์: Keyline ๋ง์ปค ์ค๊ณ ์์น ์ฐธ๊ณ
- ๋ชจ๋ฐฉํ์ต ์ฐ๊ตฌ์: ๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก ํตํฉ ๋ฐฉ๋ฒ๋ก ์ฐธ๊ณ
- ๋งค๋ํฐ๋ ์ด์ ์ค๋ฌด์: ์ ์ด ์ค์ฌ ์์ ์์์ STS ์ผ์ ๋์ ๊ณ ๋ ค
๋ ผ๋ฌธ์์ ์ธ์ฉ๋ ์ฃผ์ ์ฐ๊ตฌ๋ค:
- UMI: Chi et al. โUniversal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robotsโ (2024)
- Diffusion Policy: Chi et al. โDiffusion Policy: Visuomotor Policy Learning via Action Diffusionโ (RSS 2023)
- Finger-STS: Hogan et al. โFinger-STS: Combined Proximity and Tactile Sensing for Robotic Manipulationโ (RAL 2022)
- 3D-ViTac: โ3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensingโ (2024)
- NeuralFeels: Suresh et al. โNeuralFeels with neural fields: Visuotactile perception for in-hand manipulationโ (Science Robotics 2024)
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ๋ฌธ์ ์ ์ ๋ฐ ๋ฐฐ๊ฒฝ
๋ก๋ด์ ์กฐ์ ๊ณผ์ ๋ ๋ค์ค ๋ชจ๋ฌ ๊ฐ์ง(multimodal perception)๋ฅผ ํ์๋ก ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์๊ฐ(Sight)์ ๋ฌผ์ฒด์ ์ ์ฒด ์ค๊ณฝ๊ณผ ์์์ ํ์ ํ์ง๋ง ๋ก๋ด ํ์ด๋ ๋ค๋ฅธ ๋ฌผ์ฒด์ ์ํด ์ฝ๊ฒ ๊ฐ๋ ค์ง ์ ์์ต๋๋ค. ๋ฐ๋ฉด ์ด๊ฐ(Tactile)์ ์ ์ด ์์ ์ ์ ๋ฐํ ํยท๋ณํ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ง๋ง ์ ์ด ์ (pre-contact) ์ ๋ณด๋ ์ป๊ธฐ ์ด๋ ต๊ณ ์ ์ญ ์ ๋ณด๊ฐ ์ ํ์ ์ ๋๋ค. ์ด๋ฌํ ๋ณด์์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด See-Through-Skin(STS) ์ผ์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์์ต๋๋ค. ๊ธฐ์กด STS ์ผ์๋ GelSight ๊ฐ์ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ๋ถํฌ๋ช ์ฝํ ์ ํฌ๋ช ํ๊ฑฐ๋ ๋ฐํฌ๋ช ์ผ๋ก ๋ฐ๊ฟ์ ์ด๊ฐ๊ณผ ์๊ฐ์ ๊ฒฐํฉํ์ง๋ง, ๋๋ถ๋ถ์ ๋ชจ๋ ์ ํ(์กฐ๋ช ๋ณ๊ฒฝ์ด๋ ๊ธฐ๊ณ์ ๋์์ ํตํด ์ด๊ฐ/์๊ฐ ๋ชจ๋๋ฅผ ๋ฐ๊พธ๋) ๋ฐฉ์์ ์์กดํฉ๋๋ค. ์ฆ, ์ด๊ฐ์ ๋ณด๋ ค๋ฉด ์กฐ๋ช ์ ์ด๋ก๊ฒ, ์๊ฐ์ ๋ณด๋ ค๋ฉด ์กฐ๋ช ์ ์ผ๋ ์์ด์ด์ ์ค์๊ฐ ๋์ ์ฒ๋ฆฌ์ ์ ์ฝ์ด ์์ต๋๋ค.
๋ํ ๊ธฐ์กด STS ์ผ์๋ ์ด๊ฐ ๋ง์ปค์ ์ถ์ ์ ๋ขฐ๋๊ฐ ๋ฎ๊ณ , ํ๋๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต ๊ธฐ๋ฐ ์กฐ์ ํ์ดํ๋ผ์ธ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ ์ฌ๋ก๊ฐ ๋ง์ง ์์ต๋๋ค. ์ด๋ฐ ๋ฐฐ๊ฒฝ์์ ๋ณธ ๋ ผ๋ฌธ์ ๋ ๊ฐ์ง ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ ์ํฉ๋๋ค: ํ๋๋ TacThru๋ผ๋ ์๋ก์ด STS ์ผ์ ์ค๊ณ, ๋ค๋ฅธ ํ๋๋ ์ด ์ผ์๋ฅผ ํ์ฉํ TacThru-UMI๋ผ๋ ๋ชจ๋ฐฉํ์ต ํ๋ ์์ํฌ. TacThru๋ ์์ ํฌ๋ช ํ ์๋ผ์คํ ๋จธ ํผ๋ถ, ์ง์์ ์กฐ๋ช , ์ด์ค ์ ๋ง์ปค(keyline markers)์ ๊ฐ์ ์ค๊ณ๋ก ์ด๊ฐยท์๊ฐ์ ๋์์ ์ทจ๋ํฉ๋๋ค. TacThru-UMI๋ ๋ก๋ดํ์ TacThru๋ฅผ ์ฅ์ฐฉํ๊ณ Transformer ๊ธฐ๋ฐ์ ๋ํจ์ ์ ์ฑ (Diffusion Policy)์ ์ฌ์ฉํ์ฌ ๋ ๊ฐ๊ฐ์ ํตํฉํ๋ ๋ชจ๋ฐฉํ์ต ์์คํ ์ ๋๋ค. ์คํ์์ TacThru-UMI๋ ๋ค์ฏ ๊ฐ์ง ์ค์ ์กฐ์ ๊ณผ์ ์์ ํ๊ท ์ฑ๊ณต๋ฅ 85.5%๋ฅผ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ด๋ ๊ธฐ์กด์ ์๊ฐ๊ณผ ์ด๊ฐ์ ๋ฒ๊ฐ์ ์ฐ๊ฑฐ๋ ์๊ฐ๋ง ์ฌ์ฉํ๋ ๋ฐฉ์๋ณด๋ค ํจ์ฌ ๋์ ๊ฒฐ๊ณผ์ ๋๋ค. ํนํ ์๊ฑฐ๋ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์ฒ๋ฆฌ, ์ ๋ฐ ์์น ๊ฒฐํฉ ๊ฐ์ ์ํฉ์์ ์ฐ์ํจ์ ๋ณด์์ต๋๋ค.
์ด ๋ฆฌ๋ทฐ์์๋ TacThru ์ผ์์ ์ค๊ณ์ ์๋ ์๋ฆฌ, TacThru-UMI ํ์ต ํ๋ ์์ํฌ, ์คํ ๊ฒฐ๊ณผ์ ํด์, ๊ฐ์ ยท์ฝ์ ๋ถ์, ๊ด๋ จ ์ฐ๊ตฌ ๋น๊ต ๋ฑ์ ๊ณผํ์๋ค์ด ์ง๊ด์ ์ค๋ช ๊ณผ ๋น์ ๋ฅผ ํตํด ์์ธํ ์ดํด๋ด ๋๋ค.
๋ฐฉ๋ฒ: TacThru ์ผ์ ๋ฐ ํ์ต ํ๋ ์์ํฌ
TacThru ์ผ์ ์ค๊ณ
TacThru ์ผ์์ ํต์ฌ ์ค๊ณ์๋ฆฌ๋ (i) ์์ ํฌ๋ช ์๋ผ์คํ ๋จธ, (ii) ์ง์์ ์กฐ๋ช , (iii) ๋ก๋ฒ์คํธ(keyline) ๋ง์ปค, (iv) ์ค์๊ฐ ๋ง์ปค ์ถ์ ์ ๋๋ค.
- ํฌ๋ช ์๋ผ์คํ ๋จธ + ์ง์ ์กฐ๋ช : ๊ธฐ์กด STS๋ ๋ถํฌ๋ช ์ฝํ ์ด๋ ๊ต์ฐจ ์กฐ๋ช ๋ฐฉ์์ด์์ง๋ง, TacThru๋ ์์ ํ ํฌ๋ช ํ ํผ๋ถ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์กฐ๋ช ์ ํญ์ ์ผ ๋์ด(depth ๋์ ์) ์ด๊ฐ ์ฌ๋ถ์ ์๊ด์์ด ์ฐ์์ ์ผ๋ก ์์ผ๋ฅผ ํ๋ณดํฉ๋๋ค. ๊น์ด(์ ์ด ๊น์ด) ์ ๋ณด๋ ์ผ๋ถ ์์ค๋์ง๋ง, ํ์ํ ๊ฒฝ์ฐ ๊ด์ ๋ฐ์ฌ ๋ณํ๋ ๋ง์ปค ๋ณ์๋ก ์ ์ด์ ๊ฐ์งํ ์ ์์ต๋๋ค. ์ฌ๋ ์๊ฐ๋ฝ์ผ๋ก ๋น์ ํ๋ฉด, ๋ง์น ๋ชจ๋ ๋น์ด ํต๊ณผํ๋ ์์ ์ฅ๊ฐ์ ์ฐฉ์ฉํ๊ณ ํญ์ ์ฃผ๋ณ์ ๋ฐํ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ฌผ์ฒด๋ ํ๊ฒฝ์ ์ ๋ช ํ๊ฒ ๋ณผ ์ ์์ด ์ ์ด ์ ํ ๋ชจ๋ ์ ์ฉํฉ๋๋ค.
- ํค๋ผ์ธ ๋ง์ปค (Keyline Markers): ์ด๊ฐ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด ํ๋ฉด์ ๋ง์ปค๋ฅผ ์ธ์ํ๋๋ฐ, TacThru๋ ํน์ดํ๊ฒ ์ด์ค ์ํ ๋ง์ปค๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์์ ๊ฒ์์ ์(circle) ๋ด๋ถ์ ๋ ํฐ ํฐ์ ์์ ๊ฒน์ณ์ ์ฐ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ด๋ค ๋ฐฐ๊ฒฝ์์๋ ๊ฐ์ฅ์๋ฆฌ(keyline)๊ฐ ๋๋ฌ๋๊ธฐ์ ๋ง์ปค๊ฐ ์ฌ๋ผ์ง์ง ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐฐ๊ฒฝ์ด ๊ฒ๊ฑฐ๋ ํฐ ๊ฒฝ์ฐ์๋ ํ์ชฝ ์์ ํญ์ ๋๋น๋์ด ๋จ์์์ต๋๋ค. ๊ธฐ์กด STS์์๋ ๋จ์ ๋ง์ปค๊ฐ ๋ฐฐ๊ฒฝ๊ณผ ๊ฒน์น๋ฉด ์ถ์ ์ด ์ด๋ ค์ ๋๋ฐ, ํค๋ผ์ธ ๋ง์ปค๋ ์ด๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
- ๋ง์ปค ์ถ์ ์๊ณ ๋ฆฌ์ฆ: TacThru๋ ์นด๋ฉ๋ผ๋ก ๋ง์ปค ์์์ ์ดฌ์ํ๊ณ , ๊ทธ๋ ์ด์ค์ผ์ผ๋ก ๋ฐ๊พผ ๋ค ์๊ณ๊ฐ ์ฒ๋ฆฌ๋ก ๋ง์ปค ๊ฒฝ๊ณ๋ฅผ ๊ฐ์กฐํฉ๋๋ค. ๊ทธ ํ ๋ธ๋กญ(blob) ๊ฒ์ถ๋ก ์ ์ฌ์ ๋ง์ปค ์์น๋ฅผ ์ถ์ถํ๊ณ , ์นผ๋ง ํํฐ(Kalman filter)๋ฅผ ํตํด ๊ฐ ๋ง์ปค์ ์ค์ ์์น๋ฅผ ์ถ์ ํฉ๋๋ค. ์ํ ๋ชจ๋ธ์ ๋จ์ ๋ฌด์์ ๊ฑธ์(random walk)์ผ๋ก ๊ฐ์ ํ์ฌ
- x_{t} = x_{t - 1} + w_{t},\quad z_{t} = x_{t} + v_{t} ๋ก ์ค์ ํฉ๋๋ค. ์ฌ๊ธฐ์ x_{t}๋ ๋ง์ปค์ ์ค์ ์์น, z_{t}๋ ๊ด์ธก(๊ฒ์ถ๋ ๋ธ๋กญ ์์น), w_{t},v_{t}๋ ์ก์(noise)์ ๋๋ค. ์นผ๋ง ํํฐ๊ฐ ๋งค ํ๋ ์ {\widehat{x}}_{t}๋ฅผ ๊ณ์ฐํ๋ฉฐ, ์ต์ข ์ด๊ฐ ์ ํธ๋ ์ด๊ธฐ ์์น {\widehat{x}}_{0}์์ ๋ณ์ \Delta x_{t} = {\widehat{x}}_{t} - {\widehat{x}}_{0}๋ก ํํ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ง๋ ๋ธ๋กญ ์ค์์๋ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ์ ์๋ ๋ธ๋กญ์ ํด๋น ๋ง์ปค ๊ด์ธก์ผ๋ก ๋งค์นญํฉ๋๋ค(์์ (2) ์ฐธ์กฐ). ์ด ๊ณผ์ ์ ๊ฑฐ์ณ TacThru๋ ํ๋ ์๋น ์ฝ 6.08ms ์ฒ๋ฆฌ๋ก ๋ง์ปค ๋ณ์๋ฅผ ์ค์๊ฐ ๊ณ์ฐํฉ๋๋ค(160Hz ์ ๋ ์๋).
์ด๋ ๊ฒ ์ค๊ณ๋ TacThru ์ผ์๋ ์๊ฐ ์นด๋ฉ๋ผ์ฒ๋ผ ํ๊ฒฝ์ ๋ณด๋ฉด์ ๋์์ ์ด๊ฐ ๋ง์ปค๊ฐ ์์ง์ด๋ ์์ ๊ณ์ฐํด ํยท์ ์ด ์ ๋ณด๋ฅผ ์ป์ต๋๋ค. ๋ณต์กํ ํฝ์ ์ ๋ณด ๋์ ๋ง์ปค ๋ณ์๋ฅผ ์ฌ์ฉํ์ฌ (๋ ธ์ด์ฆ๋ฅผ ์ ์ธํ๋ฉด) ์ด๊ฐ ์ ๋ ฅ์ ์ ์ฐจ์ ๋ฒกํฐ๋ก ์ป์ผ๋ฏ๋ก ํ์ต๋ ์ฝ์ต๋๋ค.
TacThru-UMI ํ์ต ํ๋ ์์ํฌ
์ผ์๋ก ํ๋ํ ์๊ฐยท์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์กฐ์์ผ๋ก ์ฐ๊ฒฐํ๊ธฐ ์ํด, TacThru-UMI๋ Transformer ๊ธฐ๋ฐ ๋ํจ์ ์ ์ฑ ์ ์ด์ฉํ ๋ชจ๋ฐฉํ์ต(imitation learning) ์์คํ ์ ๋๋ค. ์ด ์์คํ ์์ ๋ก๋ด์ ์ธ๊ฐ์ ๋ฐ๋ชจ(๊ต์ฌ ์์ฐ)๋ฅผ ํตํด ํ๋์ ํ์ตํฉ๋๋ค.
- ์ ๋ ฅ ๊ด์ธก: TacThru-UMI๋ ํ ์์ t์์ ๋ค์ ์ ๋ ฅ์ ๊ด์ฐฐํฉ๋๋ค: (1) ๋ก๋ด ์๋ชฉ์ ์ฅ์ฐฉ๋ ์ผ๋ฐ RGB ์นด๋ฉ๋ผ ์์ I_{w}^{t}, (2) TacThru ์ผ์์ ๋ด๋ถ RGB ์์ I_{s}^{t}, (3) ํ์ฌ ๋ง์ปค ๋ณ์ \Delta x^{t} (๋ชจ๋ ๋ง์ปค ์์น ์ฐจ์ด ๋ฒกํฐ), (4) ๋ก๋ด์ ๊ด์ ๊ฐ ๋ฐ ๊ทธ๋ฆฌํผ ํญ ๋ฑ ๋ด๋ถ ์ํ s^{t}. ์ด ๋ค ๊ฐ์ง๊ฐ ๋์์ ํธ๋์คํฌ๋จธ์ ๋ค์ด๊ฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ด์ธก์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ชฉ ์นด๋ฉ๋ผ๋ ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ์๋ ์์น๋ฅผ, TacThru ์นด๋ฉ๋ผ๋ ์๋ ๊ทผ์ฒ๋ฅผ, ๋ง์ปค๋ ์ ์ด๋ ฅ์ ์ ๊ณตํ๋ฉฐ, ๊ด์ ๊ฐ์ ๋ก๋ด์ ์์ธ๋ฅผ ์๋ ค์ค๋๋ค.
- ์ธ์ฝ๋: ์์ ์ ํธ๋ ์ต์ฒจ๋จ ๋น์ ์ธ์ฝ๋์ธ DINOv2(Vision Transformer)๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์๋ชฉ ์นด๋ฉ๋ผ์ฉ ViT-Base์ TacThru์ฉ ViT-Small์ ๊ฐ๊ฐ ์ฌ์ฉํด ํ ํฐ์ ์ถ์ถํฉ๋๋ค. ์ด๊ฐ(๋ง์ปค ๋ณ์)๊ณผ ๊ด์ ๊ฐ์ MLP ๋คํธ์ํฌ๋ก ์ ์ฒ๋ฆฌํฉ๋๋ค. ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ์ถ๋ ฅ์๋ ๋ณ๋์ ์๋ฒ ๋ฉ ๋ฒกํฐ(modality-specific embedding)๋ฅผ ๋ํด ํธ๋์คํฌ๋จธ๊ฐ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋๋ก ํฉ๋๋ค. ์ฆ, ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ํ๋์ ํธ๋์คํฌ๋จธ ์ ๋ ฅ ๋ฒกํฐ๋ก ๊ฒฐํฉ๋ฉ๋๋ค.
- ๋ํจ์ ์ ์ฑ (Diffusion Policy): ๋ํจ์ ์ ์ฑ ์ ์ต๊ทผ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ก์ (๋ก๋ด ๋์)์ ์์ฑํ๊ธฐ ์ํด ํ๋ฅ ์ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ๊ฑฐ์น๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ํธ๋์คํฌ๋จธ๋ ์ ๋ ฅ ํ ํฐ์ ์กฐ๊ฑด์ผ๋ก ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๋ก๋ถํฐ ํ๋ ์ํ์ค(์ก์ ์ฒญํฌ)๋ฅผ ์์ฑ(๋๋ ธ์ด์ง)ํฉ๋๋ค. ๊ฒฐ๊ณผ๋ฌผ a = \{ a_{i}\}๋ ์ผ๋ จ์ ์๋์ดํํฐ ์๋ ์์น์ ๊ทธ๋ฆฌํผ ๋ช ๋ น์ด๊ณ , ๊ทธ ์ค ์ด๊ธฐ ๋ช ๋จ๊ณ๋ฅผ ์ค์ ๋ก๋ด์๊ฒ ์คํํฉ๋๋ค. ์ฆ, โ๋ธ๋ฌ ์ฒ๋ฆฌ๋ ํ๋โ์ ์กฐ๊ธ์ฉ ๊นจ๋ํ ๋์์ผ๋ก ๋ฐ๊พธ๋ ์์ผ๋ก ์ต์ข ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
- ํ์ต ๋ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ: TacThru-UMI๋ UMI(Universal Manipulation Interface) ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ์ฌ ๋ฐ์ดํฐ ์์งํฉ๋๋ค. Vive ํธ๋์ปค๋ฅผ ํ์ฉํด ์์ ์ ์ธ ์์ธ ์ถ์ ์ ์ฌ์ฉํ๊ณ , ์๋ชฉ ์นด๋ฉ๋ผ, TacThru, ๊ด์ ๊ฐ์ ํ์์คํฌํ๋ก ๋๊ธฐํํ์ฌ ์ ์ฅํฉ๋๋ค. ํ์ต ์๋ฎฌ๋ ์ด์ ์์ด ์ค์ ๋ฐ๋ชจ๋ง์ผ๋ก 150 ์ํญ ์ ๋ ํ๋ จํ๋ฉฐ, ๊ด์ธก์ ๊ณผ๊ฑฐ 1~2ํ๋ ์, ํ๋ ์์ธก์ 16์คํ , ๊ทธ ์ค ์ผ๋ถ(6์คํ )๋ฅผ ์คํํฉ๋๋ค. Transformer+Diffusion ๊ตฌ์กฐ ๋๋ถ์ ์๊ฐ๊ณผ ์ด๊ฐ ์ ํธ๋ฅผ ๋์์ โattentionโํด์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
flowchart LR
subgraph inputs["์
๋ ฅ ๊ด์ธก"]
WRC[์๋ชฉ ์นด๋ฉ๋ผ ์์]
TCam[TacThru ์ผ์ ์์]
Markers[๋ง์ปค ๋ณ์ ์ ํธ]
Proprio[๋ก๋ด ๊ด์ ๊ฐ]
end
WRC & TCam & Markers & Proprio --> Fusion[๋ชจ๋ฌ ์ตํฉ ํธ๋์คํฌ๋จธ]
Fusion --> Diffusion[Diffusion ์ ์ฑ
]
Diffusion --> Actions[๋ก๋ด ๋์ ๋ช
๋ น]
์ด์ ๊ฐ์ด TacThru-UMI๋ ๋ก๋ด์ ์๊ฐ-์ด๊ฐ-๋ด๋ถ ์ํ๋ฅผ ๋์์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋์์ ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ
TacThru-UMI๋ ๋ค์ฏ ๊ฐ์ง ์ค์ ์กฐ์ ๊ณผ์ ๋ก ๊ฒ์ฆ๋์์ต๋๋ค. ๊ฐ ๊ณผ์ ๋ ํฝ-ํ๋ ์ด์ค, ๋ถ๋ฅ, ์ฝ์ ๊ฐ์ ๋ค๋ฅธ ์กฐ์ ์ ํ์ ๋ํ๋ด๋ฉฐ, ํนํ ๋ค๋ฅธ ๊ฐ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ค์์ฑ์ ์ ๊ฒํฉ๋๋ค. ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค(๊ทธ๋ฆผ 5 ์ฐธ์กฐ):
- PickBottle (๋ณ ํฝ-ํ๋ ์ด์ค): ์์ ์์น์ ๋ฌผ๋ณ์ ์ก์ ๊ทธ๋ฆ์ ๋ฃ๊ธฐ. ๊ธฐ๋ณธ ์กฐ์ ๋ฅ๋ ฅ ๊ฒ์ฆ.
- PullTissue (ํฐ์ ๋น๊ธฐ๊ธฐ): ํฐ์ ํฉ์ ์ก์ ํ ์ฅ์ ์์ ํ ๋น๊ฒจ ๊บผ๋ด๊ธฐ. ์๊ณ ๋ถ๋๋ฌ์ด ์ข ์ด๋ ์ผ๋ฐ ์ด๊ฐ ์ผ์๋ก๋ ์ ์ด ๊ฐ์ง๊ฐ ์ด๋ ค์ฐ๋ฏ๋ก TacThru์ ๊ทผ๊ฑฐ๋ฆฌ ์๊ฐ์ด ์ ๋ฆฌํฉ๋๋ค.
- SortBolt (๋ณผํธ ๋ถ๋ฅ): ๋ณผํธ 3์ข (๋ชจ์ยท์ ๋ค๋ฆ)์ ์ง์ด ํด๋น ๋ฐ๊ตฌ๋์ ๋ฃ๊ธฐ. ๋ณผํธ ํค๋๋ ์ง๊ฒฝ 12mm๋ก ์์ ๋จผ ์๋ชฉ ์นด๋ฉ๋ผ๋ก ๊ตฌ๋ถ์ด ํ๋ค๊ณ , ๋ชจ์์ด ๋์ผํด ์ด๊ฐ์ผ๋ก๋ ๋ชป ๊ตฌ๋ณํฉ๋๋ค. TacThru๋ 2โ3mm ๊ฑฐ๋ฆฌ์์ ์ธ๋ถ ๊ธฐํ/์์ ์ ๋ณด๋ฅผ ์ป์ด ์ด ๊ณผ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
- HangScissors (๊ฐ์ ๊ฑธ๊ธฐ): ๊ฐ์๋ฅผ ์ง์ด ํํฌ์ ๊ฑธ๊ธฐ. ๊ฐ์ ๊ฑธ๋ฆผ ์ฌ๋ถ๋ ๊น์ด/๊ฐ๋ฆผ ๋ฌธ์ ๋ก ์๊ฐ๋ง์ผ๋ก ์๊ธฐ ์ด๋ ค์ฐ๋ฉฐ, ๋ฌผ๋ฆฌ ์ ์ด ํจํด์ด ์ฑ๊ณต ์กฐ๊ฑด์ ๊ฐ๋ฆฝ๋๋ค.
- InsertCap (์บก ์ฝ์ ): ๋ณ ์์ ์บก์ ๋ค์ด ์ ํํ ๋ง์ดํธ์ ๋ผ์ฐ๊ธฐ. ์ ๋ฐ ์ ๋ ฌ์ด ์๊ตฌ๋๋ฉฐ, ์ฅ์ ๋ฌผ์ด ์๊ธฐ๋ฉด ํ๋ ์๊ฐ์ด ๊ฐ๋ ค์ง๋๋ค. ๋ทฐ๊ฐ ์์ผ๋ฉด ์๊ฐ ์ ์ด, ๋งํ๋ฉด ์ด๊ฐ ์ ๋ณด๋ฅผ ์ด์ฉํด์ผ ํฉ๋๋ค.
๊ฐ ๊ณผ์ ๋ง๋ค TacThru ์ผ์๋ฅผ ์ค๋ฅธ์๊ฐ๋ฝ์, ์ผ์๊ฐ๋ฝ์๋ GelSight ์ ์ฌ ์ผ์๋ฅผ ์ฅ์ฐฉํ๊ณ ์์ฐ์ ์ดฌ์ํ์ต๋๋ค. ์ ์ฑ ๋น๊ต๋ฅผ ์ํด ๋ค ๊ฐ์ง ๋ฒ์ ์ ํ๋ จํ์ต๋๋ค:
- TT-M: TacThru ์์ + ๋ง์ปค ๋ฐ์ดํฐ,
- TT: TacThru ์์๋ง (๋ง์ปค ์ฌ์ฉ ์ ํจ),
- GS-M: GelSight ์์ + ๋ง์ปค,
- Wrist: ์๋ชฉ ์นด๋ฉ๋ผ๋ง (๋น์ ๋ง).
๋ชจ๋ ๊ฒฝ์ฐ ์๋ชฉ ์นด๋ฉ๋ผ์ ๋ก๋ด ์์ธ ์ ๋ณด๋ ๊ณตํต ์ ๋ ฅ์ ๋๋ค. ๊ฐ ๊ณผ์ ๋น ์ฝ 60โ150ํ ๋ฐ๋ชจ๋ฅผ ์์งํ๊ณ , ๊ฐ ์ ์ฑ ์ 20~24ํ ํ๊ฐ๋ฅผ ๊ฑฐ์ณ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ์ต๋๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ ๋ฐ์ ์ฑ๋ฅ: TacThru+๋ง์ปค ์ ์ฑ (TT-M)์ด ํ๊ท ์ฑ๊ณต๋ฅ 85.5%๋ฅผ ๊ธฐ๋กํด ๊ฐ์ฅ ์ฐ์ํ์ต๋๋ค. TacThru ์์๋ง(TT)์ ์ฝ 82%, GelSight+๋ง์ปค(GS-M) 66.3%, ์๋ชฉ ์นด๋ฉ๋ผ๋ง 55.4%์์ต๋๋ค. ์ฆ TacThru ์ผ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ฝ 15โ30%p ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- PickBottle: ๊ธฐ๋ณธ ํฝ-ํ๋ ์ด์ค ๊ณผ์ ์์ ๋ค ์ ์ฑ ๋ชจ๋ 95% ์ด์ ์ฑ๊ณตํด ๊ฑฐ์ ์ฐจ์ด๊ฐ ์์์ต๋๋ค. ์ด๋ ๊ธฐ๋ณธ ์กฐ์์ ์ด๋ ์ ๋ ๋ชจ๋ ๋ฐฉ๋ฒ์ด ์ฒ๋ฆฌ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋๋ค.
- PullTissue (์๊ณ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด): ์ผ๋ฐ ์ด๊ฐ ์ผ์๋ ์ถฉ๋ถํ ์ ์ด๋ ฅ์ด ํ์ํ์ง๋ง, ํฐ์๋ ํ์ ๊ฑฐ์ ๋ฐ์ง ์๊ณ ๋์ด์ง๋๋ค. TT-M์ TacThru ์นด๋ฉ๋ผ๋ก ํฐ์ ์ํ๋ฅผ ์ง์ ๊ด์ฐฐํด ๋ฏธ๋๋ฌ์ง์ ๊ฐ์งํ๊ณ ์ฌ๊ทธ๋ฆฝํ์ฌ ์ฑ๊ณตํฉ๋๋ค. ์๋ชฉ ์นด๋ฉ๋ผ(Wrist)๋ 15cm ์ด์ ๊ฑฐ๋ฆฌ๋ก ํด์๋๊ฐ ๋ถ์กฑํ๊ณ , GelSight๋ ํฐ์์ ์์ ์๋ ฅ ๋ณํ๊ฐ ์ฝํด ์ฑ๊ณต๋ฅ ์ด ๊ฑฐ์ 0%์์ต๋๋ค. TacThru ์ผ์๋ง์ด ์ ์ด ์ ํ ํฐ์ ์์ง์์ ์ฐ์์ ์ผ๋ก ๋ณผ ์ ์์ด ์ ์ผํ๊ฒ ์ฒ๋ฆฌํ์ต๋๋ค.
- SortBolt (์๊ฐ์ ๋ถ๋ฅ): ์๋ชฉ ์นด๋ฉ๋ผ๋ก๋ ์๊ณ ๋น์ทํ ๋ณผํธ ์ธ๊ฐ์ง๋ฅผ ๊ตฌ๋ถํ ์ ์์๊ณ , ์ด๊ฐ๋ง์ผ๋ก๋ ๋ชจ์์ด ๋์ผํด ๊ตฌ๋ณ ๋ถ๊ฐ์์ต๋๋ค. TacThru ์ผ์๋ 2โ3mm ๊ฑฐ๋ฆฌ์์ ๋ณผํธ์ ๋ฏธ์ธ ๊ธฐํ(ํํจํด)์ ์์ ์ฐจ์ด๋ฅผ ์บก์ฒํฉ๋๋ค. ์ค์ ๋ก DINOv2 ํน์ง ๊ณต๊ฐ์์ TacThru๋ก ์ป์ ์๋ฒ ๋ฉ์ ์ธ ๋ณผํธ๊ฐ ๋ถ๋ฆฌ๋์์ง๋ง, GelSight ์๋ฒ ๋ฉ์ ์ผ๋ถ ๊ฒน์ณ ์์์ต๋๋ค. ์ด ๊ฒฐ๊ณผ, TT-M์ 85% ์ฑ๊ณต๋ฅ , GS-M์ 45%์ ๊ทธ์ณค์ต๋๋ค. ์ฆ TacThru์ ๊ทผ๊ฑฐ๋ฆฌ ์๊ฐ ๋๋ถ์ ์ธ๋ถ ์๋ณ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
- HangScissors (์ด๊ฐํ๋ณ): ๊ฐ์ ๊ฑธ๋ฆผ ์ฌ๋ถ๋ ์๊ฐ์ผ๋ก๋ ๊น์ด ํ๋จ์ด ์ด๋ ค์ ์คํ์ด ๋ง์์ต๋๋ค. ๋ฐ๋ฉด TacThru์ ๋ง์ปค ๋ณ์ ๋ฐ์ดํฐ์๋ ์ฑ๊ณต ์ ๊ณ ์ ํ ์ ๋จ(torsion) ํจํด์ด ๋ํ๋ฌ์ต๋๋ค. ์ค์ ๋ก TT-M๊ณผ GS-M์ ๋ชจ๋ 80% ์ด์์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋, ์๊ฐ๋ง(์๋ชฉ) ์ ์ฑ ์ 35%์ ๋ถ๊ณผํ์ต๋๋ค. ๋ํ TacThru ๋ง์ปค ๋๋ถ์ ๊ทธ๋ฆฌํผ ๋ฆด๋ฆฌ์ฆ ํ์ด๋ฐ์ ์ ํํ ํ๋จํ ์ ์์ด ์คํจ์จ์ ์ค์์ต๋๋ค.
- InsertCap (๋ฉํฐ๋ชจ๋ฌ ์ตํฉ): ์ด ๊ณผ์ ๋ TacThru์ ์ง๊ฐ๊ฐ ๋๋ฌ๋ฉ๋๋ค. ๋จผ์ ์๊ฐ์ผ๋ก ์บก๊ณผ ๋ง์ดํธ์ ์์น๊ฐ ๋ณด์ด๋ฉด ์๊ฐ ์ ์ด๋ก ์ ๋ ฌ(ํ๋ ์ (e) ์๋จ)ํ๊ณ , ์๊ฐ๋ฆผ ๋ฑ์ผ๋ก ์์ผ๊ฐ ์์ด์ง๋ฉด ์ด๊ฐ(๋ง์ปค ํจํด)์ผ๋ก ์ ์ด ์์ ์ ๊ฐ์งํ์ฌ ์ฝ์ ์ ์ด์ด๊ฐ๋๋ค. ๋๋๊ฒ๋ ํ ์ ์ฑ ๋ด์์ ์ด ๋ ์ ๋ต์ด ์ํฉ์ ๋ฐ๋ผ ์ ์ ๋ก ํผํฉ๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก TT-M์ 90%์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ๋จ์ผ๋ชจ๋ฌ ์ ์ฑ ๋ค์ ์ด๋งํผ์ ์ ์๋ ฅ์ ๋ณด์ด์ง ๋ชปํ์ต๋๋ค.
์ด์์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 5-7์ ์ ๋ฆฌ๋์ด ์์ต๋๋ค. TacThru-UMI๋ ์ด๋ ค์ด ๊ณผ์ ์์ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํฌ๊ฒ ์์ฐ์ผ๋ฉฐ, ๊ฐ ๊ณผ์ ์์ ์๊ตฌ๋๋ ๊ฐ๊ฐ์ ํจ์จ์ ์ผ๋ก ํ์ฉํจ์ ์ ์ฆํ์ต๋๋ค. ํนํ TacThru์ ์ฐ์ ์๊ฐ ํผ๋๋ฐฑ ๋๋ถ์ ์ด๊ฐ ๊ฐ์ง ํ๊ณ๋ฅผ ๋์๊ณ , ์๊ฐ๊ณผ ์ด๊ฐ์ด ๋ณด์์ ์ผ๋ก ์ฌ์ฉ๋จ์ ํ์ธํ์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ์ฝ์
๊ฐ์ : TacThru-TacThru-UMI ์์คํ ์ ์ฌ๋ฌ ์ค์ํ ์ฅ์ ์ ๊ฐ์ง๋๋ค.
- ๋์ ๋ค์ค๋ชจ๋ฌ ๊ฐ์ง: TacThru ์ผ์๋ ๊ธฐ์กด STS์ ๋ฌ๋ฆฌ ๋ชจ๋ ์ ํ ์์ด ์ด๊ฐ๊ณผ ์๊ฐ์ ๋์์ ์์งํฉ๋๋ค. ์ด๋ ์ฐ์ ๊ฐ์ง๊ฐ ํ์ํ ์กฐ์์์ ํฐ ์ฐจ๋ณ์ ์ ๋๋ค. ๋ง์น ๋ ๋๊ณผ ์ด๊ฐ์ด ๋์์ ์๋ํ๋ ๊ฒ์ฒ๋ผ, ๋ก๋ด์ ํญ์ ์๋ ๊ทผ์ฒ๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ธํ๋ฉด์๋ ์ด๊ฐ ์ ๋ณด๋ ์ป์ต๋๋ค.
- ํค๋ผ์ธ ๋ง์ปค์ ๊ฒฌ๊ณ ํจ: ๋ ๊ฒน ์์ผ๋ก ๋ ํค๋ผ์ธ ๋ง์ปค๋ ์ด๋ค ๋ฐฐ๊ฒฝ์์๋ ์ธ์์ด ๊ฐ๋ฅํ๋ฉฐ, ์ค์ ์คํ์์ ์ํ ์ด๋, ๊ฐ๋ฆผ๋ง, ๋ณต์กํ ๋ฌด๋ฌ ๋ฐฐ๊ฒฝ์์๋ ์์ ์ ์ผ๋ก ์ถ์ ๋์์ต๋๋ค. ํ๊ฒฝ ์ก์์ด ์๋๋ผ๋ ๋ง์ปค ํ ๋๋ฆฌ๊ฐ ๋จ์์์ด ๊ฒ์ถ ์คํจ๋ฅผ ํฌ๊ฒ ์ค์์ต๋๋ค.
- ๋ฐ์ด๋ ๊ณผ์ ์ฑ๋ฅ: TacThru-UMI๋ ์์ ๋ฌผ์ฒด, ์ ๋ฐ ์กฐ์ , ๋ถ๋ฅ ๋ฑ ๊ธฐ์กด ์ด๊ฐ/์๊ฐ ์์คํ ์ ์ฝ์ ์ ๊ทน๋ณตํ์ต๋๋ค. ์์ปจ๋, ์ข ์ด ํฐ์์ฒ๋ผ ํ์์ด ๋ณํ๊ณ ํ์ด ์ฝํ ๋ฌผ์ฒด๋ฅผ ์๊ฐ์ ์ผ๋ก ๊ฐ์งํด ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, 12mm ๋ณผํธ ๊ฐ์ ์์ ๋ฌผ์ฒด๋ ์ธ๋ฐํ๊ฒ ๊ตฌ๋ถํ์ต๋๋ค. ๋ณต์กํ ์ฝ์ ๊ณผ์ ์์ ํ๊ฒฝ ๋ณํ์ ๋ง์ถฐ ์๋์ผ๋ก ์ผ์ ์ ๋ต์ ๋ฐ๊พธ๋ ์ ์์ฑ๋ ํ์ธํ์ต๋๋ค.
- ํ์ต ์์คํ ์ ์ ์ฐํจ: Transformer+Diffusion ๊ตฌ์กฐ ๋๋ถ์ ์๋ก ๋ค๋ฅธ ์ ๋ ฅ์ ํตํฉํด ํ์ตํด๋ ๊ธฐ๋ณธ ์กฐ์ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ต๋๋ค. ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋์์ ์ฐ๋๋ผ๋ 95% ์ด์์ ๊ธฐ๋ณธ ๋์ ์ฑ๊ณต๋ฅ ์ ์ ์งํ๊ณ , ์ฅ์ ๋ฌผ์ด ์๊ธฐ๋ฉด ์๋์ผ๋ก ์ ๋ขฐํ ๋งํ ์ ๋ ฅ์ ๋ ์ง์คํ์ต๋๋ค. ๋ ผ๋ฌธ์์๋ โTacThru-UMI ํ๋ จ๋ ์ ์ฑ ์ ๋งฅ๋ฝ์ ๋ฐ๋ผ ์ผ์ ์ค์๋๋ฅผ ์๋์ผ๋ก ์กฐ์ ํ๋คโ๊ณ ๋ฐํ๊ณ ์์ต๋๋ค.
- ์ค์ฉ์ฑ(Practicality): TacThru ์ค๊ณ๋ ๊ธฐ์กด ๋น์ ๊ธฐ๋ฐ ์กฐ์ ์์คํ ๊ณผ ํธํ์ฑ์ ๊ณ ๋ คํ์ต๋๋ค. ์ฌ์ ํ๋ จ๋ DINOv2์ฒ๋ผ ์ผ๋ฐ์ ์ธ ๋น์ ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์์ด์, ์๋ก์ด ํน์ ๋คํธ์ํฌ๋ฅผ ํฌ๊ฒ ๊ณ ์ํ์ง ์์๋ ๋ฉ๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ ์ ์๋ค์ โํฌ๋ช ์๋ผ์คํ ๋จธ, ๋ง์ปค ์ค๋ฒ๋ ์ด ๋ฑ ๋๋ฉ์ธ ์ฐจ์ด๊ฐ ์์์๋ ํ์ค ๋น์ ์ธ์ฝ๋๊ฐ ์ ์ฑ ํ์ต์ ์ถฉ๋ถํ๋คโ๊ณ ํ๊ฐํ์ต๋๋ค. ์ด๋ TacThru๋ฅผ ๋ค๋ฅธ ๋ก๋ด์ ์์ฝ๊ฒ ์ ์ฉํ ์ ์์์ ์์ฌํฉ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ:
- ์ผ์ ๋ด๊ตฌ์ฑ: ์์ ํฌ๋ช ์๋ผ์คํ ๋จธ๋ ํ๋ฉด์ ์คํฌ๋์น๋ ์ค์ผ์ด ์๊ธธ ์ ์์ต๋๋ค. ์ฅ๊ธฐ ์ฌ์ฉ ์ ๋ง์ปค์ ์นด๋ฉ๋ผ ์์ผ๊ฐ ํ๋ ค์ง ์ฐ๋ ค๊ฐ ์์ต๋๋ค. GelSight์ ๋นํด ์๋ผ์คํ ๋จธ๋ฅผ ์์ฃผ ๊ต์ฒดํด์ผ ํ ์๋ ์์ต๋๋ค.
- ๋น์ฉ/๊ตฌ์ฑ: ํ์ฌ ํ ์คํธ๋ TacThru๋ฅผ ๋ก๋ด ํ ์๊ฐ๋ฝ์๋ง ๋ฌ๊ณ ์งํํ์ต๋๋ค. ๋ ์๊ฐ๋ฝ ํน์ ๋ค๊ด์ ๋ค์ง ์กฐ์ ๋ฑ์์๋ ์ถ๊ฐ ์ผ์์ ์ฒ๋ฆฌ ๋น์ฉ์ด ํ์ํฉ๋๋ค. ๊ฒ๋ค๊ฐ ๋ฐ๋ชจ ์์๋ Vive ํธ๋์ปค ๋ฑ ๋ณ๋ ์์น์ถ์ ์ฅ์น๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์์ฉ ๋ก๋ด์์๋ ์ด๋ฅผ ๋์ฒดํ ๋ฐฉ๋ฒ(์: ๊ด์ ๊ฐ ๋๊ธฐํ ํน์ ๋ค๋ฅธ ์ฌ๋จ)์ด ํ์ํฉ๋๋ค.
- ๋ฐ์ดํฐ ํ์๋: ๊ฐ ๊ณผ์ ๋น 60~150๊ฐ์ ๋ฐ๋ชจ๊ฐ ํ์ํ์ต๋๋ค. ๋ชจ๋ฐฉํ์ต ํน์ฑ์ ๋ ๋ณต์กํ ๊ณผ์ ๋ ๋ถ์์ ํ ๋์์์๋ ์ถ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ง์ด ํ์ํ ์ ์์ต๋๋ค.
- ๊ณ์ฐ ๋ณต์ก์ฑ: Transformer+Diffusion ์ ์ฑ ์ ๋น์ ํญ๊ฐํํ์ต๋ณด๋ค ๊ณ์ฐ๋์ด ๋ง์ต๋๋ค. ์ค์๊ฐ ์ ์ด๋ก ํ์ฉํ๋ ค๋ฉด ์ถ๊ฐ ์ต์ ํ(๋ ธ์ด์ฆ ์ํ ์ ์ค์ด๊ธฐ ๋ฑ)๊ฐ ํ์ํ ์ ์์ต๋๋ค. ํ์ฌ ๊ตฌํ์์ 6.08ms ์ถ์ ์๋๋ ๋น ๋ฅด์ง๋ง, ๋ํจ์ ์ ์ถ๋ก ๋น์ฉ์ ๋ณ๋ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
- ๋ฒ์ ํ๊ณ: TacThru๋ ๊ดํ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ์ด๋ฏ๋ก ํฌ๋ช ํ๊ฑฐ๋ ๋ฐ์ฌ์จ์ด ๋์ ๋ฌผ์ฒด, ๋๋ ์๋ผ์คํ ๋จธ์ ์ ๋ณด์ด์ง ์๋ ์ง๊ฐ์ ์ฝํ ์ ์์ต๋๋ค. ๋ํ ๋ฌด๊ฑฐ์ด ์๋ ฅ์ด๋ ๊ทน๋จ์ ๋ณํ์๋ ๊ฐ์ง ํ๊ณ๊ฐ ์์ต๋๋ค.
์์ฉ ๋ฐ ํ์ฅ ๊ฐ๋ฅ์ฑ
TacThru-UMI๋ ์ฌ๋ฌ ์ค์ ์์ฉ ๋ถ์ผ๋ก ํ์ฅํ ์ ์์ต๋๋ค.
- ๋ค์ํ ๋ก๋ด ์์คํ ํตํฉ: TacThru-UMI๋ UMI๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฏ๋ก, Panda Hand ๊ฐ์ ๋ค์ํ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ์ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ Inspire LAS30-021D ์๋ณด ์ค๋ฆฐ๋๋ฅผ ์ ๋น์ฉ ๊ทธ๋ฆฌํผ๋ก ์ฌ์ฉํ๋๋ฐ, ์ด์ ์ ์ฌํ ์ฅ์น๋ฅผ ๊ธฐ์กด ๋ก๋ด์๋ ์ฅ์ฐฉํ ์ ์์ต๋๋ค.
- ์ฐ์ ๋ฐ ์๋น์ค ๋ก๋ด: ์์ ํฌ์ฅ์ง ์ทจ๊ธ, ์์ ๋ถํ ๋ถ๋ฅ, ์๋ฃ ์์ ๋ณด์กฐ ๋ฑ ์ฌ์ธํ ์์ ์ด ํ์ํ ๋ถ์ผ์ ์ ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฃ์ฉ ๋ก๋ด ์์ ์์ ์์ ์กฐ์ง์ ๋ค๋ฃจ๊ฑฐ๋, ์กฐ๋ฆฝ ๋ผ์ธ์์ ์์ ์ปค๋ฅํฐ๋ฅผ ๋ค๋ฃฐ ๋ TacThru์ฒ๋ผ ์ค์๊ฐ ์ด๊ฐ+๋น์ ์ผ์๊ฐ ๋์์ด ๋ฉ๋๋ค.
- ํด๋จธ๋ ธ์ด๋ยทํ๋ ๋ก๋ด: ์ฌ๋ ์์ฒ๋ผ ํผ๋ถ๊ฐ๊ฐ์ ๋ชจ์ฌํ๋ TacThru๋ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด๋ ์์ ํ ํ๋ ๋ก๋ด์ ์ด๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ด์์ ์ ๋๋ค. ์์ ๊ทธ๋ฆฌํผ ์๊ฐ๋ฝ ๋์ TacThru๋ฅผ ์ฅ์ฐฉํด, ๋ฌผ์ฒด๊ฐ ๋น ์ง ์ํ ๋ฑ์ ์ด๊ธฐ์ ๊ฐ์งํ ์๋ ์์ต๋๋ค.
- ์ฐ๊ตฌ ๋ฐ ํ์ฅ: ๋ ผ๋ฌธ ์ ์๋๋ก TacThru ์ผ์๋ฅผ ๊ฐ์ง ๋ก๋ด ์์ ์๋ฎฌ๋ ์ด์ ํ๊ณ , ์๋ฎฌ-ํฌ-๋ฆฌ์ผ ํ์ต์ ๋๊ท๋ชจ๋ก ์ํํ ์ ์์ต๋๋ค. ๋ํ TacThru์ ๋น์ทํ ๊ฐ๋ ์ ์ผ์(์: Tirgel TIR ์ผ์)๋ ์๊ณ , ๋ฉํฐ ํ์คํฌ ํ์ต์ด๋ ์ธ์ด ์ง์ ํตํฉ ๊ฐ์ ์ต์ ๊ธฐ๋ฒ๊ณผ ๊ฒฐํฉํ๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๋ก๋ด ์ง๋ฅ์ ๊ตฌํํ ์ ์์ต๋๋ค.
๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ํฌ๋ช ํผ๋ถ๋ก ์ด๊ฐ๊ณผ ์๊ฐ์ ๋์์ ์ฒ๋ฆฌํ๋ TacThru ์ผ์์, ์ด๋ฅผ ๋ก๋ด ์กฐ์์ ํ์ฉํ๋ TacThru-UMI ํ์ต ์์คํ ์ ์ ์ํ์ต๋๋ค. TacThru๋ ์์ ํฌ๋ช ์๋ผ์คํ ๋จธ + ์ง์์กฐ๋ช + ์ด์ค ์ ๋ง์ปค + ๋น ๋ฅธ ์นผ๋ง ํํฐ ์ถ์ ์ผ๋ก ์ค๊ณ๋์ด, ๊ธฐ์กด STS์ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ ์ผ์ธ ํ๊ฒฝ์์๋ ์์ ์ ์ผ๋ก ์๋ํฉ๋๋ค. TacThru-UMI๋ Transformer+Diffusion ์ ์ฑ ์ ํตํด ์๊ฐยท์ด๊ฐ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ตํฉํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ค์ํ ์ค์ ์กฐ์ ๊ณผ์ ์์ ๊ธฐ์กด ์ ๊ทผ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ TacThru์ ๋์ ๋ค์ค๋ชจ๋ฌ ๊ฐ์ง๋ ๋จ์ผ ์ผ์ ์์คํ ์ผ๋ก๋ ์ด๋ ค์ด ๋ฏธ์ธํ ์กฐ์๊ณผ ์ฐ์ ๋ชจ๋ฌ ์ ํ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ ๋ํ๋ ๋๋ค. ์ผ์ ์ค๊ณ๊ฐ ๋น๊ต์ ๋จ์ํด ๋ค๋ฅธ ์์คํ ์ ์ฝ๊ฒ ์ ์ฉํ ์ ์๊ณ , ํ์ค ์ด๋ฏธ์ง ๋ชจ๋ธ์ ๊ทธ๋๋ก ํ์ฉํ ์ ์์ด ๋์ ์ฅ๋ฒฝ์ด ๋ฎ์ต๋๋ค. ์์ผ๋ก๋ TacThru๋ฅผ ์ฌ๋ฌ ์๊ฐ๋ฝ์ ํ์ฅํ๊ฑฐ๋ ๋์ฑ ๋ณต์กํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ์์ ์๋ ์ ์ฉํด๋ณผ ์ ์์ต๋๋ค. ๋ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์ ์ ํ์ฉํ ์ฌ์ ํ์ต, ๋ ๋ฐ์ ๋ ๋น์ -์ด๊ฐ ํตํฉ ๋คํธ์ํฌ ๊ฐ๋ฐ ๋ฑ๋ ๊ธฐ๋๋ฉ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก TacThru-UMI ๊ฐ์ ์์คํ ์ ๋ก๋ด์ด ๋ง์น ์ธ๊ฐ์ฒ๋ผ ๋ณด๋ฉด์ ๋ง์ง๋ ์กฐ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ํ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.