Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ์™œ ๋กœ๋ด‡์—๊ฒŒ ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์ด ๋™์‹œ์— ํ•„์š”ํ•œ๊ฐ€?
      • ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•์˜ ๋”œ๋ ˆ๋งˆ
    • ๋ฐฉ๋ฒ•๋ก  Part 1: TacThru ์„ผ์„œ ์„ค๊ณ„
      • ํ•ต์‹ฌ ์„ค๊ณ„ ์›์น™
      • Keyline ๋งˆ์ปค: ์˜๋ฆฌํ•œ ํ•ด๊ฒฐ์ฑ…
      • ์ •๋Ÿ‰์  ๊ฒ€์ฆ
    • ๋ฐฉ๋ฒ•๋ก  Part 2: TacThru-UMI ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ
      • Universal Manipulation Interface (UMI) ํ™•์žฅ
      • Diffusion Policy: ์™œ ์ด ์„ ํƒ์ธ๊ฐ€?
      • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก ํ†ตํ•ฉ
    • ์‹คํ—˜: 5๊ฐ€์ง€ ์‹ค์ œ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ํƒœ์Šคํฌ
      • ์‹คํ—˜ ์„ค๊ณ„ ์ฒ ํ•™
      • ์ •๋Ÿ‰์  ๊ฒฐ๊ณผ
      • ๊ฒฐ๊ณผ ํ•ด์„
    • ๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„
      • ์™œ HTC Vive ํŠธ๋ž˜์ปค์ธ๊ฐ€?
      • ์ €๋น„์šฉ ๊ทธ๋ฆฌํผ ์„ค๊ณ„
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
      • ๊ฐ•์  โœ…
      • ์•ฝ์  ๋ฐ ํ•œ๊ณ„ โš ๏ธ
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
      • ์ด‰๊ฐ ์„ผ์„œ ๊ณ„๋ณด์—์„œ์˜ ์œ„์น˜
      • ํ•ต์‹ฌ ์ฐจ๋ณ„์ 
      • ๋ชจ๋ฐฉํ•™์Šต ๊ด€์ ์—์„œ์˜ ๋น„๊ต
    • ๊ตฌํ˜„ ๊ณ ๋ ค์‚ฌํ•ญ
      • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฒ ์ŠคํŠธ ํ”„๋ž™ํ‹ฐ์Šค
      • Diffusion Policy ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
      • ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ
      • ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 
  • โ›๏ธ Dig Review
  • ์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ๋ฐฐ๊ฒฝ
    • ๋ฐฉ๋ฒ•: TacThru ์„ผ์„œ ๋ฐ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ
      • TacThru ์„ผ์„œ ์„ค๊ณ„
      • TacThru-UMI ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ
    • ์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ 
    • ์‘์šฉ ๋ฐ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ
    • ๊ฒฐ๋ก 

๐Ÿ“ƒTacThru ๋ฆฌ๋ทฐ

transformer
diffusion
tactile
multimodal
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
Published

December 24, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project
  1. ๐Ÿ’ก TacThru๋Š” ํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ์™€ keyline marker๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋™์‹œ์ ์ธ ์ด‰๊ฐ-์‹œ๊ฐ(tactile-visual) ์ธ์ง€์™€ ๊ฒฌ๊ณ ํ•œ ๋งˆ์ปค ์ถ”์ ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” STS (See-Through-Skin) ์„ผ์„œ์ž…๋‹ˆ๋‹ค.
  2. ๐Ÿค– ์ด ์„ผ์„œ๋ฅผ ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning) ํ”„๋ ˆ์ž„์›Œํฌ์ธ TacThru-UMI์— ํ†ตํ•ฉํ•˜์—ฌ, Transformer-based Diffusion Policy๊ฐ€ ์‹œ๊ฐ, ์ด‰๊ฐ, ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ๊ฐ๊ฐ(proprioception) ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์กฐ์ž‘ ์ œ์–ด๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  3. โœ… TacThru-UMI๋Š” ๋‹ค์„ฏ ๊ฐ€์ง€ ์‹ค์ œ ์กฐ์ž‘ task์—์„œ ํ‰๊ท  85.5%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ํŠนํžˆ ์–‡๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋ฌผ์ฒด์™€์˜ ์ ‘์ด‰ ๊ฐ์ง€ ๋ฐ ์ •๋ฐ€ํ•œ multimodal coordination์ด ์š”๊ตฌ๋˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

๋กœ๋ด‡ ์กฐ์ž‘์€ pre-contact๋ถ€ํ„ฐ post-contact ๋‹จ๊ณ„์— ์ด๋ฅด๋Š” ํฌ๊ด„์ ์ธ ํ™˜๊ฒฝ ์ธ์‹์„ ์š”๊ตฌํ•˜์ง€๋งŒ, ๊ธฐ์กด์˜ ์„ผ์‹ฑ modality๋Š” ๊ฐ๊ฐ์˜ ํ•œ๊ณ„์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Vision์€ ํ’๋ถ€ํ•œ global context๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, ๋กœ๋ด‡์˜ end-effector๋‚˜ ๋ฌผ์ฒด์— ์˜ํ•œ occlusion ์‹œ ์‹คํŒจํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. Vision-based Tactile Sensors (VBTS)๋Š” high-fidelity contact ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ, pre-contact ๋‹จ๊ณ„์—์„œ ์ •๋ณด๊ฐ€ ์—†์œผ๋ฉฐ localํ•˜๊ณ  sparseํ•œ ์‹ ํ˜ธ๋งŒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. See-Through-Skin (STS) ์„ผ์„œ๋Š” ์ด‰๊ฐ ๋ฐ ์‹œ๊ฐ ์„ผ์‹ฑ์„ ํ†ตํ•ฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ ค๋Š” ์œ ๋งํ•œ ์†”๋ฃจ์…˜์œผ๋กœ ๋“ฑ์žฅํ–ˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด STS ๋””์ž์ธ์€ ๋™์‹œ์ ์ธ multimodal perception์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฉฐ, illumination control์ด๋‚˜ movable components๋ฅผ ํ†ตํ•ด modality๋ฅผ ์ „ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, shear force ์ธก์ •์„ ์œ„ํ•œ ์ด‰๊ฐ ๋งˆ์ปค๋Š” noise๊ฐ€ ๋งŽ๊ณ  ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ์™ธ๋ถ€ ๋ฐฐ๊ฒฝ์—์„œ ์ถ”์ ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด TacThru๋ผ๋Š” STS ์„ผ์„œ์™€ TacThru-UMI๋ผ๋Š” ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

1. TacThru ์„ผ์„œ ๋””์ž์ธ

TacThru๋Š” ๋™์‹œ์ ์ธ ์ด‰๊ฐ-์‹œ๊ฐ ์ธ์‹์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋””์ž์ธ ์›์น™์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค:

  • Fully transparent elastomer: ๊ธฐ์กด STS ์„ผ์„œ๊ฐ€ ๋ฐ˜ํˆฌ๋ช… ์ฝ”ํŒ…์ด๋‚˜ illumination switching์„ ํ†ตํ•ด ๊นŠ์ด ์ถ”์ •์„ ์‹œ๋„ํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, TacThru๋Š” ์™„์ „ํžˆ ํˆฌ๋ช…ํ•œ elastomer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ช…ํ™•ํ•˜๊ณ  ์ง€์†์ ์ธ ์‹œ๊ฐ์  ์ ‘๊ทผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด VBTS์˜ ์ œ์ž‘ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ํ˜ธํ™˜๋ฉ๋‹ˆ๋‹ค.
  • Persistent illumination: ๋ชจ๋“œ ์ „ํ™˜ ์—†์ด ์ง€์†์ ์ธ LED illumination์„ ์‚ฌ์šฉํ•˜์—ฌ visual perception๊ณผ tactile perception์„ ๋™์‹œ์— ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • Novel keyline markers: ํˆฌ๋ช…ํ•œ elastomer ํ™˜๊ฒฝ์—์„œ ๋งˆ์ปค ๊ฐ์ง€์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ฒ€์€์ƒ‰(์•ˆ์ชฝ ์›, r_{in} \approx 0.6 \text{ mm})๊ณผ ํฐ์ƒ‰(๋ฐ”๊นฅ์ชฝ ์›, r_{out} \approx 1.0 \text{ mm})์˜ ๋Œ€๋น„๋˜๋Š” ์ƒ‰์ƒ์„ ๊ฐ€์ง„ ๋‘ ๊ฐœ์˜ ๋™์‹ฌ์›์œผ๋กœ ๊ตฌ์„ฑ๋œ keyline markers๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์–ด๋–ค ๋ฐฐ๊ฒฝ์—์„œ๋„ โ€œkeylineโ€์ด ๊ฐ์ง€ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

2. Robustํ•˜๊ณ  Efficientํ•œ ๋งˆ์ปค ํŠธ๋ž˜ํ‚น

ํ™˜๊ฒฝ noise ๋ฐ ํฐ ์ ‘์ด‰ ๋ณ€ํ˜•์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๊ฐ•๊ฑดํ•œ ๋งˆ์ปค ํŠธ๋ž˜ํ‚น์„ ์œ„ํ•ด Kalman filtering์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ๋งˆ์ปค์˜ ์œ„์น˜ x_t \in \mathbb{R}^2๋Š” ์•Œ๋ ค์ง„ ์ดˆ๊ธฐ ์œ„์น˜ x_0๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ๋ง๋ฉ๋‹ˆ๋‹ค. ์ƒํƒœ ์ „์ด(state transition) ๋ฐ ์ธก์ •(measurement)์€ ๋‹ค์Œ์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค:

x_t = A_t x_{t-1} + w_t z_t = H_t x_t + v_t

์—ฌ๊ธฐ์„œ w_t \sim N(0, \sigma_w^2 I_2)๋Š” process noise์ด๊ณ , v_t \sim N(0, \sigma_v^2 I_2)๋Š” measurement noise์ž…๋‹ˆ๋‹ค. A_t = I_2 (random walk model) ๋ฐ H_t = I_2 (direct position observation)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•„ํ„ฐ๋Š” ํ‘œ์ค€ ์˜ˆ์ธก(prediction) ๋ฐ ์—…๋ฐ์ดํŠธ(update) ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ํ›„๋ฐฉ ์ถ”์ •์น˜ \hat{x}_t ๋ฐ ๊ณต๋ถ„์‚ฐ(covariance) P_t = E[(x_t - \hat{x}_t)(x_t - \hat{x}_t)^T]๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ๋งˆ์ปค ํŽธ์ฐจ๋Š” \Delta x_t = \hat{x}_t - \hat{x}_0๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

์ธก์ •๊ฐ’์€ grayscale ๋ณ€ํ™˜, intensity thresholding (ํ”ฝ์…€ \tau ๋ฏธ๋งŒ์„ ๊ฒ€์€์ƒ‰์œผ๋กœ ์„ค์ •ํ•˜์—ฌ keyline๋งŒ ๋ณด์ด๊ฒŒ ํ•จ), ๊ทธ๋ฆฌ๊ณ  blob detection์„ ํ†ตํ•ด ์–ป์–ด์ง€๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ›„๋ณด Z_t = \text{BlobDet}(I_t)๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ํ™˜๊ฒฝ์˜ false detections๋ฅผ ํ•„ํ„ฐ๋งํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ ๋งˆ์ปค๋ฅผ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฐ์ง€๋œ blob์— ๋งค์นญํ•˜๋Š” distance-based data association์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: z_t = \arg\min_{z \in Z_t} ||z - \hat{x}_{t-1}||

์ด ํŠธ๋ž˜ํ‚น ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ 6.08 ms/frame์˜ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„์„ ๋‹ฌ์„ฑํ•˜์—ฌ real-time operation์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

3. TacThru-UMI ํ”„๋ ˆ์ž„์›Œํฌ

TacThru-UMI๋Š” Universal Manipulation Interface (UMI) [31]์™€ Diffusion Policy [36]๋ฅผ ํ™•์žฅํ•˜์—ฌ multimodal ์ด‰๊ฐ-์‹œ๊ฐ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ฒ˜๋ฆฌ: HTC Vive Tracker๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ SLAM ๊ธฐ๋ฐ˜์˜ pose tracking ๋Œ€์‹  ์•ˆ์ •์ ์ธ ํŠธ๋ž˜ํ‚น์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. Wrist camera, ์ด‰๊ฐ ์„ผ์„œ, proprioception ๋“ฑ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆผ์€ wrist camera timestamp์— ๋งž์ถฐ ๋™๊ธฐํ™”๋˜๋ฉฐ Zarr ํ˜•์‹์œผ๋กœ ์ €์žฅ๋ฉ๋‹ˆ๋‹ค.
  • ์ •์ฑ… ํ•™์Šต ๋ฐ ์ถ”๋ก : Transformer architecture [52]๋ฅผ ๊ฐ–์ถ˜ Diffusion Policy [36]๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ multimodal ๊ด€์ธก๊ฐ’์—์„œ ๋กœ๋ด‡ action์œผ๋กœ์˜ ๋งคํ•‘์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    • ๊ด€์ธก๊ฐ’(\text{observations})์€ wrist-camera frame I_t^w, sensor frame I_t^s, ๋งˆ์ปค ํŽธ์ฐจ \Delta x_t, ๊ทธ๋ฆฌ๊ณ  proprioception s_t๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ์  ๊ด€์ธก๊ฐ’์€ DINOv2 [53]๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ธ์ฝ”๋”ฉ๋ฉ๋‹ˆ๋‹ค (wrist camera๋Š” ViT-Base, TacThru frame์€ ViT-Small).
    • ๋งˆ์ปค ํŽธ์ฐจ์™€ proprioception์€ dedicated Multi-Layer Perceptrons (MLPs)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ modality๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์ž„๋ฒ ๋”ฉ(z^w, z^s, z^x, z^p)์„ ๋ฐ›์•„ Transformer์˜ distinguishability๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค: z^w = \alpha\text{DINO}_w(I) + z^w |_{I \in I_t^w} z^s = \alpha\text{DINO}_s(I) + z^s |_{I \in I_t^w} z^x = \alpha\text{MLP}_x(\Delta x) + z^x |_{\Delta x \in \Delta x_t} z^p = \alpha\text{MLP}_p(s) + z^p |_{s \in s_t}
    • ์œ„์˜ ์—ฐ๊ฒฐ๋œ ํ† ํฐ๋“ค์€ Diffusion Policy \pi_\theta์˜ ์กฐ๊ฑด(condition)์œผ๋กœ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ด๋Š” Gaussian noise๋ฅผ action chunk a = \{a_i\}_{i=t}^{t+T_a-1}๋กœ denoisingํ•ฉ๋‹ˆ๋‹ค. ๊ฐ action a_i๋Š” ์ƒ๋Œ€์ ์ธ end-effector pose์™€ gripper width ๋ชฉํ‘œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

4. ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ

๋‹ค์„ฏ ๊ฐ€์ง€ challengingํ•œ ์‹ค์ œ ์„ธ๊ณ„ ์กฐ์ž‘ ํƒœ์Šคํฌ(PickBottle, PullTissue, SortBolt, HangScissors, InsertCap)์—์„œ TacThru-UMI์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • PickBottle: ๊ธฐ๋ณธ์ ์ธ pick-and-place ํƒœ์Šคํฌ๋กœ, ๋ชจ๋“  variant๊ฐ€ 95% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์ด๋ฉฐ TacThru-UMI ์•„ํ‚คํ…์ฒ˜์˜ ๊ธฐ๋ณธ์  ์œ ํšจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • PullTissue: ์–‡๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋ฌผ์ฒด ์กฐ์ž‘ ํƒœ์Šคํฌ๋กœ, ๊ธฐ์กด ์ด‰๊ฐ ์„ผ์„œ๋กœ๋Š” ๊ฐ์ง€๊ฐ€ ์–ด๋ ค์› ๋˜ ์กฐ์ง(tissue)์„ TacThru์˜ ์ง์ ‘์ ์ธ ์‹œ๊ฐ ๊ด€์ฐฐ์„ ํ†ตํ•ด ์„ฑ๊ณต์ ์œผ๋กœ ์กฐ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • SortBolt: ์‹œ๊ฐ์  ๊ตฌ๋ณ„ ํƒœ์Šคํฌ๋กœ, TacThru์˜ ๊ทผ์ ‘ ์‹œ์•ผ(close-proximity view)๊ฐ€ ์ž‘์€ ๋ณผํŠธ์˜ ๋ฏธ์„ธํ•œ ๊ธฐํ•˜ํ•™์  ํŠน์ง•๊ณผ ๋ฏธ๋ฌ˜ํ•œ ์ƒ‰์ƒ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ•˜์—ฌ GS-M์ด B์™€ C ๋ณผํŠธ๋ฅผ ํ˜ผ๋™ํ•˜๋Š” ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, TT-M๊ณผ TT๋Š” ๋ชจ๋“  ๋ณผํŠธ ์œ ํ˜•์„ ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌ๋ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. DINOv2 ์ž„๋ฒ ๋”ฉ ๋ถ„์„ ๊ฒฐ๊ณผ, TacThru๋Š” ๋ช…ํ™•ํ•˜๊ฒŒ ๋ถ„๋ฆฌ๋œ feature clusters๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
  • HangScissors: ์ด‰๊ฐ์  ๊ตฌ๋ณ„ ํƒœ์Šคํฌ๋กœ, ๊ฐ€์œ„ ์†์žก์ด๊ฐ€ ํ›„ํฌ์— ์„ฑ๊ณต์ ์œผ๋กœ ๊ฑธ๋ ธ๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์‹œ๊ฐ๋งŒ์œผ๋กœ๋Š” ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. TacThru๋Š” ๋งˆ์ปค ๋ณ€์œ„ ํŒจํ„ด์„ ํ†ตํ•ด ์„ฑ๊ณต์ ์ธ engagement์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํŠน์ง•์ ์ธ ํž˜ ํŒจํ„ด์„ ๊ฐ์ง€ํ•˜์—ฌ 80%+์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • InsertCap: Multimodal fusion ํƒœ์Šคํฌ๋กœ, TacThru๋Š” ์บก-๋งˆ์šดํŠธ ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ๋ณด์ด๋Š” ๊ฒฝ์šฐ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ servoing์„, ์‹œ์•ผ๊ฐ€ ๊ฐ€๋ ค์ง„ ๊ฒฝ์šฐ ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์‚ฝ์ž…์œผ๋กœ ์ž๋™ ์ „ํ™˜ํ•˜๋Š” ์ ์‘ํ˜• ๋™์ž‘์„ ๋ณด์—ฌ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ํ†ต์ฐฐ๋ ฅ:

  • Adaptive multimodal strategies: TacThru๋กœ ํ›ˆ๋ จ๋œ ์ •์ฑ…์€ ์ƒํ™ฉ์˜ ์‹ ๋ขฐ๋„์— ๋”ฐ๋ผ ์„ผ์‹ฑ modality์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • Overcoming conventional tactile limitations: TacThru๋Š” ์–‡์€ ๋ฌผ์ฒด์ฒ˜๋Ÿผ ๊ธฐ์กด ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์‹คํŒจํ•˜๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  • Practical deployment viability: ํˆฌ๋ช…ํ•œ elastomer, ๋งˆ์ปค ์˜ค๋ฒ„๋ ˆ์ด, ์ ‘์ด‰ ๋ณ€ํ˜•์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ‘œ์ค€ pre-trained visual encoders๊ฐ€ ๊ฐ•๊ฑดํ•œ ์ •์ฑ… ํ•™์Šต์— ์ถฉ๋ถ„ํ•จ์„ ์ž…์ฆํ•˜์—ฌ ๊ตฌํ˜„ ์žฅ๋ฒฝ์„ ๋‚ฎ์ท„์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ:

TacThru๋Š” ํˆฌ๋ช…ํ•œ elastomer, ์ง€์†์ ์ธ illumination, keyline marker tracking์„ ํ†ตํ•ด ๋™์‹œ์ ์ธ ์ด‰๊ฐ ๋ฐ ์‹œ๊ฐ ์ธ์‹์„ ์ œ๊ณตํ•˜๋Š” STS ์ด‰๊ฐ ์„ผ์„œ์ž…๋‹ˆ๋‹ค. TacThru-UMI ๋ชจ๋ฐฉ ํ•™์Šต ํ”Œ๋žซํผ๊ณผ ํ†ตํ•ฉ๋˜์–ด ๋‹ค์–‘ํ•œ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ฉฐ, ๊ธฐ์กด ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ํ‘œ์ค€ vision ํŒŒ์ดํ”„๋ผ์ธ๊ณผ์˜ ํ˜ธํ™˜์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” synthetic tactile simulation๊ณผ ๊ฒฐํ•ฉ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ํ†ตํ•ด specialized encoders์˜ pre-training์„ ์ง€์›ํ•˜๊ณ , TacThru์˜ ๋™์‹œ ์„ผ์‹ฑ ๋Šฅ๋ ฅ์„ ์™„์ „ํžˆ ํ™œ์šฉํ•˜๋Š” ๋ณต์žกํ•˜๊ณ  ์„ฌ์„ธํ•œ ํƒœ์Šคํฌ๋ฅผ ํƒ์ƒ‰ํ•  ๊ณ„ํš์ž…๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ์™œ ๋กœ๋ด‡์—๊ฒŒ ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์ด ๋™์‹œ์— ํ•„์š”ํ•œ๊ฐ€?

์—ฌ๋Ÿฌ๋ถ„, ์ž ์‹œ ๋ˆˆ์„ ๊ฐ๊ณ  ์ฃผ๋จธ๋‹ˆ์—์„œ ์—ด์‡ ๋ฅผ ๊บผ๋‚ด๋Š” ์ƒํ™ฉ์„ ์ƒ์ƒํ•ด๋ณด์„ธ์š”. ์šฐ๋ฆฌ๋Š” ์†๋์˜ ๊ฐ๊ฐ๋งŒ์œผ๋กœ๋„ ์—ด์‡ ์˜ ๋ชจ์–‘, ๋ฐฉํ–ฅ, ์‹ฌ์ง€์–ด ์–ด๋А ๋ฌธ์˜ ์—ด์‡ ์ธ์ง€๊นŒ์ง€ ์•Œ์•„๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ˆˆ์œผ๋กœ๋Š” ์ฃผ๋จธ๋‹ˆ ์†์„ ๋ณผ ์ˆ˜ ์—†์ฃ . ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ง€(Multimodal Perception)์˜ ๋ณธ์งˆ์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ๋ถ„์•ผ์—์„œ ์šฐ๋ฆฌ๋Š” ์˜ค๋žซ๋™์•ˆ โ€œ์‹œ๊ฐ์ด๋ฉด ์ถฉ๋ถ„ํ•˜๋‹คโ€๋Š” ์•”๋ฌต์  ๊ฐ€์ • ์•„๋ž˜ ์—ฐ๊ตฌํ•ด์™”์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ณต์žกํ•œ ์ž‘์—…๋“คโ€”์–‡์€ ์ข…์ด๋ฅผ ์ง‘์–ด ์˜ฌ๋ฆฌ๊ฑฐ๋‚˜, ๋น„์Šทํ•˜๊ฒŒ ์ƒ๊ธด ๋ณผํŠธ๋ฅผ ๊ตฌ๋ณ„ํ•˜๊ฑฐ๋‚˜, ์„ฌ์„ธํ•œ ์ ‘์ด‰์ด ํ•„์š”ํ•œ ์กฐ๋ฆฝ ์ž‘์—…โ€”์—์„œ๋Š” ์‹œ๊ฐ๋งŒ์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด ์ ‘๊ทผ๋ฒ•์˜ ๋”œ๋ ˆ๋งˆ

See-Through-Skin(STS) ์„ผ์„œ๋Š” ์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋งค๋ ฅ์ ์ธ ํ•ด๋‹ต์œผ๋กœ ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ํˆฌ๋ช…ํ•œ ํƒ„์„ฑ์ฒด๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ๋™์‹œ์— ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด์ฃ . ํ•˜์ง€๋งŒ ํ˜„์‹ค์€ ๋…น๋ก์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค:

๋ฌธ์ œ์  ์„ค๋ช…
๊ต๋Œ€ ์ธ์ง€(Alternating Perception) ๋Œ€๋ถ€๋ถ„์˜ STS ์„ผ์„œ๋Š” ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ์„ ๋™์‹œ์— ์ œ๊ณตํ•˜์ง€ ๋ชปํ•จ. UV ์กฐ๋ช… ์ „ํ™˜ ํ•„์š”
๋ถˆ์•ˆ์ •ํ•œ ๋งˆ์ปค ์ถ”์  ๊ธฐ์กด solid ๋งˆ์ปค๋Š” ์–ด๋‘์šด ๋ฐฐ๊ฒฝ์—์„œ ํƒ์ง€ ์‹คํŒจ
ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ๋ถ€์žฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‹ ํ˜ธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ๋ฏธ๋น„

๋ณธ ๋…ผ๋ฌธ์€ ์ด ์„ธ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๋Š” TacThru ์„ผ์„œ์™€ TacThru-UMI ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.


๋ฐฉ๋ฒ•๋ก  Part 1: TacThru ์„ผ์„œ ์„ค๊ณ„

ํ•ต์‹ฌ ์„ค๊ณ„ ์›์น™

TacThru์˜ ์„ค๊ณ„ ์ฒ ํ•™์„ ํ•œ ๋งˆ๋””๋กœ ์š”์•ฝํ•˜๋ฉด โ€œํˆฌ๋ช…์„ฑ, ์ง€์†์„ฑ, ๊ฒฌ๊ณ ์„ฑโ€์ž…๋‹ˆ๋‹ค.

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚                    TacThru ์„ผ์„œ ์„ค๊ณ„ ์›์น™                        โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚  1. ์™„์ „ ํˆฌ๋ช… ํƒ„์„ฑ์ฒด โ†’ ์‹œ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ํ™•๋ณด                        โ”‚
โ”‚  2. ์ง€์† ์กฐ๋ช… (Persistent Illumination) โ†’ ๋ชจ๋“œ ์ „ํ™˜ ๋ถˆํ•„์š”       โ”‚
โ”‚  3. Keyline ๋งˆ์ปค โ†’ ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ์—์„œ ์•ˆ์ •์  ์ถ”์                     โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

Keyline ๋งˆ์ปค: ์˜๋ฆฌํ•œ ํ•ด๊ฒฐ์ฑ…

๊ธฐ์กด solid ๋งˆ์ปค์˜ ๋ฌธ์ œ์ ์„ ํŒŒ์ธ๋งŒ ๊ต์ˆ˜๋‹˜ ์Šคํƒ€์ผ๋กœ ์„ค๋ช…ํ•ด๋ณผ๊นŒ์š”?

โ€œ๊ฒ€์€ ๋ฐฐ๊ฒฝ ์œ„์— ๊ฒ€์€ ์ ์„ ๋†“์œผ๋ฉด, ๊ทธ ์ ์€ ์‚ฌ๋ผ์ง„ ๊ฒ๋‹ˆ๋‹ค. ๋ฌผ๋ฆฌํ•™์ด ์•„๋‹ˆ๋ผ ์ƒ์‹์ด์ฃ !โ€

TacThru์˜ Keyline ๋งˆ์ปค๋Š” ์ด ๋ฌธ์ œ๋ฅผ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค:

์ œ์ž‘ ๊ณผ์ •:

  1. ํˆฌ๋ช… ํƒ„์„ฑ์ฒด ์œ„์— ๋ ˆ์ด์ € ์ปคํŒ… ๋งˆ์Šคํฌ๋ฅผ ์‚ฌ์šฉ
  2. ๋‚ด๋ถ€(๊ฒ€์ •) ๋งˆ์ปค ๋จผ์ € ์Šคํ”„๋ ˆ์ด
  3. ์™ธ๋ถ€(ํฐ์ƒ‰) ํ…Œ๋‘๋ฆฌ ๋งˆ์ปค ์Šคํ”„๋ ˆ์ด
  4. ๊ฒฐ๊ณผ: ๊ฒ€์ • ์ฝ”์–ด + ํฐ์ƒ‰ ํ…Œ๋‘๋ฆฌ = ์–ด๋–ค ๋ฐฐ๊ฒฝ์—์„œ๋„ ํƒ์ง€ ๊ฐ€๋Šฅ

flowchart LR
    subgraph Solid["Solid ๋งˆ์ปค"]
        S1[๊ฒ€์ • ๋ฐฐ๊ฒฝ] --> S2[๋งˆ์ปค ๋ฏธํƒ์ง€ โŒ]
        S3[ํฐ์ƒ‰ ๋ฐฐ๊ฒฝ] --> S4[๋งˆ์ปค ํƒ์ง€ โœ“]
    end
    
    subgraph Keyline["Keyline ๋งˆ์ปค"]
        K1[๊ฒ€์ • ๋ฐฐ๊ฒฝ] --> K2[ํฐ์ƒ‰ ํ…Œ๋‘๋ฆฌ ํƒ์ง€ โœ“]
        K3[ํฐ์ƒ‰ ๋ฐฐ๊ฒฝ] --> K4[๊ฒ€์ • ์ฝ”์–ด ํƒ์ง€ โœ“]
    end
    
    style S2 fill:#ffcccc
    style K2 fill:#ccffcc
    style K4 fill:#ccffcc

Keyline ๋งˆ์ปค vs Solid ๋งˆ์ปค ๋น„๊ต

์ •๋Ÿ‰์  ๊ฒ€์ฆ

๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ๋งˆ์ปค ์ถ”์  ์„ฑ๋Šฅ ๋น„๊ต:

์ถ”์  ๋ฐฉ์‹ ํ‰๊ท  ํƒ์ง€ ๋งˆ์ปค ์ˆ˜ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„(ms) ํŠน์ง•
Solid ๋งˆ์ปค ๋‚ฎ์Œ (๋ฐฐ๊ฒฝ ์˜์กด์ ) ๋น ๋ฆ„ ๊ฒ€์€ ๋ฐฐ๊ฒฝ์—์„œ ์‹คํŒจ
Keyline + Blob Detection ์ค‘๊ฐ„ ๋น ๋ฆ„ ํ™˜๊ฒฝ ๋…ธ์ด์ฆˆ ๋ฏผ๊ฐ
Keyline + TacThru Pipeline ๋†’์Œ (์ผ๊ด€์ ) ๋น ๋ฆ„ ๋…ธ์ด์ฆˆ ํ•„ํ„ฐ๋ง ํฌํ•จ

๋ฐฉ๋ฒ•๋ก  Part 2: TacThru-UMI ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

Universal Manipulation Interface (UMI) ํ™•์žฅ

TacThru-UMI๋Š” ๊ธฐ์กด UMI ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ์ด‰๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค:

flowchart TB
    subgraph DataCollection["๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ์Šคํ…œ"]
        HC[ํ•ธ๋“œํ—ฌ๋“œ ๊ทธ๋ฆฌํผ] --> TS[TacThru ์„ผ์„œ]
        HC --> VT[HTC Vive ํŠธ๋ž˜์ปค]
        TS --> USB[USB ์ŠคํŠธ๋ฆฌ๋ฐ]
    end
    
    subgraph Observations["๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก"]
        WC[์†๋ชฉ ์นด๋ฉ”๋ผ RGB]
        SR[์„ผ์„œ RGB]
        MD[๋งˆ์ปค ํŽธ์ฐจ]
        PR[๊ณ ์œ ๊ฐ๊ฐ/Proprioception]
    end
    
    subgraph Policy["Transformer ๊ธฐ๋ฐ˜ Diffusion Policy"]
        ENC[๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ฝ”๋”]
        PE[์œ„์น˜ + ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ž„๋ฒ ๋”ฉ]
        DP[Diffusion Transformer]
        ACT[์•ก์…˜ ์‹œํ€€์Šค ์ถœ๋ ฅ]
    end
    
    DataCollection --> Observations
    Observations --> ENC
    ENC --> PE
    PE --> DP
    DP --> ACT

TacThru-UMI ์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜

Diffusion Policy: ์™œ ์ด ์„ ํƒ์ธ๊ฐ€?

Diffusion Policy๊ฐ€ ๋กœ๋ด‡ ๋ชจ๋ฐฉํ•™์Šต์—์„œ ๊ฐ๊ด‘๋ฐ›๋Š” ์ด์œ ๋ฅผ ์ง๊ด€์ ์œผ๋กœ ์„ค๋ช…ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฌธ์ œ ์ƒํ™ฉ: ์‚ฌ๋žŒ๋งˆ๋‹ค ๊ฐ™์€ ์ž‘์—…์„ ๋‹ค๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ณ‘์„ ์ง‘์„ ๋•Œ ์–ด๋–ค ์‚ฌ๋žŒ์€ ์œ„์—์„œ, ์–ด๋–ค ์‚ฌ๋žŒ์€ ์˜†์—์„œ ์ ‘๊ทผํ•˜์ฃ .

๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„: ๋‹จ์ˆœ ํ–‰๋™ ๋ณต์ œ(BC)๋Š” ์ด๋Ÿฐ ๋‹ค์ค‘ ๋ชจ๋“œ ๋ถ„ํฌ(Multimodal Distribution)๋ฅผ ํ‰๊ท ํ™”ํ•ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š”? ์ค‘๊ฐ„ ์–ด๋””์ฏค์˜ ์ด์ƒํ•œ ํ–‰๋™.

Diffusion Policy์˜ ํ•ด๋ฒ•:

  • ๋…ธ์ด์ฆˆ์—์„œ ์‹œ์ž‘ํ•ด ์ ์ง„์ ์œผ๋กœ โ€œ์ •์ œโ€ํ•˜๋ฉฐ ์•ก์…˜ ์ƒ์„ฑ
  • ๋‹ค์ค‘ ๋ชจ๋“œ ๋ถ„ํฌ๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ชจ๋ธ๋ง
  • ์•ก์…˜ ์ฒญํ‚น(Action Chunking)์œผ๋กœ ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ ํ™•๋ณด

์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด:

\mathcal{L}_{DM} = \mathbb{E}_{t, \mathbf{a}_0, \boldsymbol{\epsilon}} \left[ \left\| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{a}_t, \mathbf{o}, t) \right\|^2 \right]

์—ฌ๊ธฐ์„œ: - \mathbf{a}_t: ์‹œ๊ฐ„ t์—์„œ์˜ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€๋œ ์•ก์…˜ - \mathbf{o}: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก (์‹œ๊ฐ + ์ด‰๊ฐ + ๊ณ ์œ ๊ฐ๊ฐ) - \boldsymbol{\epsilon}_\theta: ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋„คํŠธ์›Œํฌ

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก ํ†ตํ•ฉ

TacThru-UMI์˜ ๊ด€์ธก ๊ณต๊ฐ„์€ ๋„ค ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

# ์˜์‚ฌ์ฝ”๋“œ: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก ์ฒ˜๋ฆฌ
class TacThruUMIObservation:
    def __init__(self):
        self.wrist_camera = RGBEncoder()      # ์†๋ชฉ ์นด๋ฉ”๋ผ: ์ „์—ญ ์‹œ๊ฐ ์ •๋ณด
        self.sensor_rgb = RGBEncoder()        # ์„ผ์„œ RGB: ๊ทผ์ ‘ ์‹œ๊ฐ/์ด‰๊ฐ
        self.marker_deviation = MarkerEncoder() # ๋งˆ์ปค ํŽธ์ฐจ: ์ ‘์ด‰๋ ฅ/๋ณ€ํ˜•
        self.proprioception = PropEncoder()   # ๋กœ๋ด‡ ์ƒํƒœ
    
    def encode(self, obs):
        tokens = []
        tokens.append(self.wrist_camera(obs.wrist_img))
        tokens.append(self.sensor_rgb(obs.sensor_img))
        tokens.append(self.marker_deviation(obs.markers))
        tokens.append(self.proprioception(obs.joint_state))
        
        # ์œ„์น˜ ์ž„๋ฒ ๋”ฉ + ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ณ„ ์ž„๋ฒ ๋”ฉ ์ถ”๊ฐ€
        tokens = add_positional_embedding(tokens)
        tokens = add_modality_embedding(tokens)
        
        return tokens

ํ•ต์‹ฌ ํ†ต์ฐฐ: ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค: - ์†๋ชฉ ์นด๋ฉ”๋ผ: ์ž‘์—… ๊ณต๊ฐ„ ์ „์ฒด ๋งฅ๋ฝ, ๋ฌผ์ฒด ์œ„์น˜ - ์„ผ์„œ RGB: ํŒŒ์ง€ ๋Œ€์ƒ์˜ ์„ธ๋ถ€ ํŠน์ง•, ์ƒ‰์ƒ, ์งˆ๊ฐ - ๋งˆ์ปค ํŽธ์ฐจ: ์ ‘์ด‰ ์ƒํƒœ, ํž˜ ๋ถ„ํฌ, ์Šฌ๋ฆฝ ๊ฐ์ง€ - ๊ณ ์œ ๊ฐ๊ฐ: ๊ทธ๋ฆฌํผ ๋„ˆ๋น„, ๊ด€์ ˆ ์ƒํƒœ


์‹คํ—˜: 5๊ฐ€์ง€ ์‹ค์ œ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ํƒœ์Šคํฌ

์‹คํ—˜ ์„ค๊ณ„ ์ฒ ํ•™

๋…ผ๋ฌธ์˜ ์‹คํ—˜ ์„ค๊ณ„๊ฐ€ ์ธ์ƒ์ ์ธ ์ ์€ ๊ฐ ํƒœ์Šคํฌ๊ฐ€ ํŠน์ • ์„ผ์‹ฑ ์š”๊ตฌ์‚ฌํ•ญ์„ ๊ฒ€์ฆํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค:

ํƒœ์Šคํฌ ํ•ต์‹ฌ ๊ฒ€์ฆ ํฌ์ธํŠธ TacThru ๊ฐ•์ 
Bottle in Bowl ๊ธฐ๋ณธ pick-and-place ๋ชจ๋ฐฉํ•™์Šต + ์‹ค์„ธ๊ณ„ ์ถ”๋ก  ๊ฒ€์ฆ
Tissue Extraction ์–‡๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋ฌผ์ฒด ์ ‘์ด‰ ์‹œ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ (์ผ๋ฐ˜ ์ด‰๊ฐ์„ผ์„œ ๋ถˆ๊ฐ€)
Bolt Sorting ์‹œ๊ฐ์ ์œผ๋กœ ์œ ์‚ฌํ•œ ๋ฌผ์ฒด ๊ตฌ๋ณ„ ์ƒ‰์ƒ + ํ˜•์ƒ ๋™์‹œ ์ธ์ง€
Toy Packing ์ถฉ๋Œ ํšŒํ”ผ + ์ •๋ฐ€ ๋ฐฐ์น˜ ๊ทผ์ ‘ ์‹œ๊ฐ ์ •๋ณด
USB Insertion ๊ณ ์ •๋ฐ€ ์‚ฝ์ž… ์ž‘์—… ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ + ์‹œ๊ฐ ์ •๋ ฌ

์ •๋Ÿ‰์  ๊ฒฐ๊ณผ

ํ‘œ: ํƒœ์Šคํฌ๋ณ„ ์„ฑ๊ณต๋ฅ  ๋น„๊ต (20ํšŒ ์‹œํ–‰)

ํƒœ์Šคํฌ Vision-Only Alternating Tactile-Visual TacThru-UMI
Bottle in Bowl 75% 80% 95%
Tissue Extraction 30% 50% 85%
Bolt Sorting 55% 65% 90%
Toy Packing 60% 70% 80%
USB Insertion 55% 65% 75%
ํ‰๊ท  55.4% 66.3% 85.5%

๊ฒฐ๊ณผ ํ•ด์„

1. Tissue Extraction์˜ ๊ทน์ ์ธ ๊ฐœ์„  (+55% vs Vision-Only)

์ผ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ๋Š” ์–‡์€ ์ข…์ด์˜ ์ ‘์ด‰์„ ๊ฐ์ง€ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. TacThru์˜ ์‹œ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ๊ฒฐ์ •์  ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹คโ€”๋ง ๊ทธ๋Œ€๋กœ โ€œํ”ผ๋ถ€๋ฅผ ํ†ตํ•ด ๋ณด๋Š”โ€ ๊ฒƒ์ด์ฃ .

2. Bolt Sorting: ์‹œ๊ฐ-์ด‰๊ฐ ์‹œ๋„ˆ์ง€์˜ ์ฆ๊ฑฐ

์„ธ ์ข…๋ฅ˜์˜ ๋ณผํŠธ(๋ฒ„ํŠผ ํ—ค๋“œ/์†Œ์ผ“ ํ—ค๋“œ, ๊ฒ€์ •/์€์ƒ‰)๋Š”: - ์†๋ชฉ ์นด๋ฉ”๋ผ๋กœ๋Š” ํฌ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์ž‘์•„ ๊ตฌ๋ณ„ ๋ถˆ๊ฐ€ - ์ „ํ†ต ์ด‰๊ฐ๋งŒ์œผ๋กœ๋Š” ์ƒ‰์ƒ ๊ตฌ๋ณ„ ๋ถˆ๊ฐ€ - TacThru์˜ ๊ทผ์ ‘ ์‹œ๊ฐ + ์ด‰๊ฐ ์กฐํ•ฉ์œผ๋กœ๋งŒ ์™„์ „ํ•œ ๊ตฌ๋ณ„ ๊ฐ€๋Šฅ

3. USB Insertion: ์ •๋ฐ€ ์ž‘์—…์—์„œ์˜ ์ด‰๊ฐ ๊ฐ€์น˜

์ ‘์ด‰ ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ์ด ๋ฏธ์„ธ ์ •๋ ฌ์— ํ•„์ˆ˜์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์‚ฐ์—…์šฉ ์กฐ๋ฆฝ ์ž‘์—… ์ž๋™ํ™”์— ์ค‘์š”ํ•œ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


๊ธฐ์ˆ ์  ์‹ฌ์ธต ๋ถ„์„

์™œ HTC Vive ํŠธ๋ž˜์ปค์ธ๊ฐ€?

์›๋ณธ UMI๋Š” SLAM ๊ธฐ๋ฐ˜ ํฌ์ฆˆ ์ถ”์ ์„ ์‚ฌ์šฉํ–ˆ์ง€๋งŒ, ์ ‘์ด‰ ์ค‘์‹ฌ ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜์—์„œ๋Š” ์‹œ๊ฐ์  ๊ฐ€๋ฆผ(occlusion)์ด ๋นˆ๋ฒˆํ•ฉ๋‹ˆ๋‹ค. TacThru-UMI๋Š” ์™ธ๋ถ€ ํŠธ๋ž˜ํ‚น ์‹œ์Šคํ…œ(HTC Vive)์œผ๋กœ ์ด๋ฅผ ๋Œ€์ฒดํ•˜์—ฌ ๊ฐ•๊ฑด์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

์ €๋น„์šฉ ๊ทธ๋ฆฌํผ ์„ค๊ณ„

flowchart LR
    subgraph Collector["๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ธฐ"]
        C1[๋™์ผ ๋ฐ”๋”” ์„ค๊ณ„]
        C2[TacThru ์†๊ฐ€๋ฝ]
        C3[Inspire ์„œ๋ณด ์‹ค๋ฆฐ๋”]
    end
    
    subgraph Robot["๋กœ๋ด‡ ์—”๋“œ์ดํŽ™ํ„ฐ"]
        R1[๋™์ผ ๋ฐ”๋”” ์„ค๊ณ„]
        R2[TacThru ์†๊ฐ€๋ฝ]
        R3[Inspire ์„œ๋ณด ์‹ค๋ฆฐ๋”]
    end
    
    Collector -.-> |Embodiment Gap ์ตœ์†Œํ™”| Robot

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ธฐ์™€ ๋กœ๋ด‡ ์—”๋“œ์ดํŽ™ํ„ฐ์˜ ์„ค๊ณ„ ์ผ์น˜

ํ•ต์‹ฌ: ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์žฅ์น˜์™€ ์‹ค์ œ ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ๊ฐ€ ๋™์ผํ•œ ๊ธฐ๊ตฌํ•™์  ๊ตฌ์กฐ๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” sim-to-real gap์˜ ์ด‰๊ฐ ๋ฒ„์ „์ธ embodiment gap์„ ์ตœ์†Œํ™”ํ•˜๋Š” ์‹ค์šฉ์  ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.


๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์  โœ…

  1. ์—”์ง€๋‹ˆ์–ด๋ง์  ์™„์„ฑ๋„: ์„ผ์„œ ์„ค๊ณ„๋ถ€ํ„ฐ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ๊นŒ์ง€ end-to-end ์‹œ์Šคํ…œ ์ œ์‹œ
  2. ์‹ค์šฉ์„ฑ: ์ €๋น„์šฉ, VBTS ํ‘œ์ค€ ํŒŒ์ดํ”„๋ผ์ธ ํ˜ธํ™˜, ์˜คํ”ˆ์†Œ์Šค ์˜๋„ ๋ช…์‹œ
  3. ๊ฒ€์ฆ์˜ ์ฒด๊ณ„์„ฑ: ๊ฐ ์‹คํ—˜์ด ํŠน์ • ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜๋„๋ก ์„ค๊ณ„๋จ
  4. ์žฌํ˜„์„ฑ: UMI ํ”„๋ ˆ์ž„์›Œํฌ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต ์šฉ์ด

์•ฝ์  ๋ฐ ํ•œ๊ณ„ โš ๏ธ

  1. ์ œํ•œ๋œ ์„ผ์‹ฑ ํ•ด์ƒ๋„
    • Keyline ๋งˆ์ปค์˜ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๊ฐ€ GelSight ๋“ฑ ๊ณ ํ•ด์ƒ๋„ VBTS๋ณด๋‹ค ๋‚ฎ์„ ๊ฐ€๋Šฅ์„ฑ
    • ๋ฏธ์„ธ ์งˆ๊ฐ ์ธ์‹์ด๋‚˜ ์ •๋ฐ€ ํž˜ ์ถ”์ •์—๋Š” ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ์Œ
  2. ์‹คํ—˜ ๊ทœ๋ชจ
    • 20ํšŒ ์‹œํ–‰์€ ํ†ต๊ณ„์  ์‹ ๋ขฐ๋„ ํ™•๋ณด์— ์ œํ•œ์ 
    • ๋” ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด, ํ™˜๊ฒฝ ์กฐ๊ฑด์—์„œ์˜ ๊ฒ€์ฆ ํ•„์š”
  3. ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ ๋ฏธ๋ณด๊ณ 
    • Diffusion Policy์˜ ์ถ”๋ก  ์ง€์—ฐ์‹œ๊ฐ„ ๋ฏธ์–ธ๊ธ‰
    • ๋น ๋ฅธ ๋ฐ˜์‘์ด ํ•„์š”ํ•œ ๋™์  ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ๋ถˆํ™•์‹ค
  4. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ
    • ํ•™์Šต๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด/์ž‘์—…์œผ๋กœ์˜ ์ „์ด ์„ฑ๋Šฅ ๋ฏธ๊ฒ€์ฆ
    • Few-shot ๋˜๋Š” zero-shot ์ผ๋ฐ˜ํ™” ์‹คํ—˜ ๋ถ€์žฌ
  5. ์„ผ์„œ ๋‚ด๊ตฌ์„ฑ
    • ํˆฌ๋ช… ํƒ„์„ฑ์ฒด์˜ ์žฅ๊ธฐ ์‚ฌ์šฉ ์‹œ ์—ดํ™” ๋ฌธ์ œ ๋ฏธ์–ธ๊ธ‰
    • ๋งˆ์ปค ํƒˆ๋ฝ/๋ณ€ํ˜•์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ๋ฏธ๊ฒ€์ฆ

๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

์ด‰๊ฐ ์„ผ์„œ ๊ณ„๋ณด์—์„œ์˜ ์œ„์น˜

flowchart LR
    subgraph Gen1["1์„ธ๋Œ€"]
        G1[GelSight 2009<br/>๊ณ ํ•ด์ƒ๋„ ์ด‰๊ฐ ์˜์ƒ<br/>๋ถˆํˆฌ๋ช… ์ฝ”ํŒ…]
    end

    subgraph Gen2["2์„ธ๋Œ€"]
        G2A[DIGIT 2020<br/>์†Œํ˜•ํ™” + USB<br/>๊ต์ฒด ๊ฐ€๋Šฅ ํƒ„์„ฑ์ฒด]
        G2B[TacTip 2016<br/>์ƒ์ฒด๋ชจ๋ฐฉ ํ•€ ๊ตฌ์กฐ<br/>์ ‘์ด‰ ์ฆํญ]
    end

    subgraph Gen3["3์„ธ๋Œ€ STS"]
        G3A[FingerVision<br/>ํˆฌ๋ช… ๋ฉค๋ธŒ๋ ˆ์ธ<br/>๊ทผ์ ‘ ์„ผ์‹ฑ ๊ฐ€๋Šฅ]
        G3B[Finger-STS<br/>UV ๋งˆ์ปค ์ „ํ™˜<br/>๊ต๋Œ€ ์ธ์ง€]
    end

    subgraph Gen4["4์„ธ๋Œ€ ๋ณธ ๋…ผ๋ฌธ"]
        G4[TacThru 2025<br/>๋™์‹œ ์ธ์ง€<br/>Keyline ๋งˆ์ปค<br/>๋ชจ๋ฐฉํ•™์Šต ํ†ตํ•ฉ]
    end

    Gen1 --> Gen2 --> Gen3 --> Gen4

    style G4 fill:#e8f5e9,stroke:#4caf50,stroke-width:2px

Vision-Based Tactile Sensor์˜ ์ง„ํ™”

ํ•ต์‹ฌ ์ฐจ๋ณ„์ 

์ธก๋ฉด FingerVision Finger-STS TacThru
์‹œ๊ฐ-์ด‰๊ฐ ๋™์‹œ์„ฑ โœ“ (์ œํ•œ์ ) โœ— (๊ต๋Œ€) โœ“ (์™„์ „)
๋งˆ์ปค ๊ฒฌ๊ณ ์„ฑ ๋‚ฎ์Œ ์ค‘๊ฐ„ ๋†’์Œ (Keyline)
ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ ์—†์Œ ์—†์Œ Diffusion Policy
๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ์Šคํ…œ ์—†์Œ ์—†์Œ UMI ํ™•์žฅ

๋ชจ๋ฐฉํ•™์Šต ๊ด€์ ์—์„œ์˜ ๋น„๊ต

๋ฐฉ๋ฒ• ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ •์ฑ… ๊ตฌ์กฐ ํŠน์ง•
3D-ViTac ์ด‰๊ฐ + RGBD ACT ์–‘์† ์กฐ์ž‘, ํฌ์ธํŠธํด๋ผ์šฐ๋“œ
NeuralFeels ์ด‰๊ฐ + RGB Neural Field ๊ฐ์ฒด ์žฌ๊ตฌ์„ฑ + ์ถ”์ 
M3L ์ด‰๊ฐ + RGB MAE + PPO RL ๊ธฐ๋ฐ˜, ์‹œ๋ฎฌ๋ ˆ์ด์…˜
TacThru-UMI STS + RGB Diffusion Policy ์‹ค์„ธ๊ณ„ ๋ชจ๋ฐฉํ•™์Šต

๊ตฌํ˜„ ๊ณ ๋ ค์‚ฌํ•ญ

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฒ ์ŠคํŠธ ํ”„๋ž™ํ‹ฐ์Šค

  1. ๋‹ค์–‘ํ•œ ํŒŒ์ง€ ๊ฐ๋„: ๋ฌผ์ฒด ํšŒ์ „ํ•˜๋ฉฐ ์ˆ˜์ง‘
  2. ์กฐ๋ช… ์กฐ๊ฑด ๋ณ€ํ™”: ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ์ผ๋ฐ˜ํ™” ํ™•๋ณด
  3. ์‹คํŒจ ์ผ€์ด์Šค ํฌํ•จ: ๊ฒฝ๊ณ„ ์กฐ๊ฑด ํ•™์Šต์— ๋„์›€

Diffusion Policy ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ

ํŒŒ๋ผ๋ฏธํ„ฐ ๊ถŒ์žฅ ๊ฐ’ ๋น„๊ณ 
Diffusion Steps (ํ•™์Šต) 100 ํ’ˆ์งˆ-์†๋„ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„
Diffusion Steps (์ถ”๋ก ) 10-20 DDIM ์‚ฌ์šฉ ์‹œ
Action Horizon 8-16 ํƒœ์Šคํฌ ๋ณต์žก๋„์— ๋”ฐ๋ผ ์กฐ์ •
Observation History 2-3 ์‹œ๊ฐ„์  ์ปจํ…์ŠคํŠธ

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ

TacThru์™€ TacThru-UMI๋Š” ๋กœ๋ด‡ ์ด‰๊ฐ-์‹œ๊ฐ ์ธ์ง€ ๋ถ„์•ผ์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค:

  1. ํ•˜๋“œ์›จ์–ด ํ˜์‹ : Keyline ๋งˆ์ปค๋ฅผ ํ†ตํ•œ ์•ˆ์ •์  ๋™์‹œ ์ธ์ง€
  2. ์‹œ์Šคํ…œ ํ†ตํ•ฉ: UMI + Diffusion Policy ๊ธฐ๋ฐ˜ end-to-end ํ”„๋ ˆ์ž„์›Œํฌ
  3. ์‹ค์ฆ์  ๊ฒ€์ฆ: 5๊ฐ€์ง€ ์‹ค์ œ ํƒœ์Šคํฌ์—์„œ ํ‰๊ท  85.5% ์„ฑ๊ณต๋ฅ 

๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 

โ€œ์ž์—ฐ์€ ์šฐ๋ฆฌ์—๊ฒŒ ๋‘ ๊ฐ€์ง€๋ฅผ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹คโ€”๋ˆˆ๊ณผ ์†๋. ๋‘˜ ๋‹ค ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค๋ฉด, ์ ˆ๋ฐ˜์˜ ์„ธ์ƒ๋งŒ ๋ณด๋Š” ๊ฒ๋‹ˆ๋‹ค.โ€

TacThru๋Š” ์ด ์ง๊ด€์„ ์‹คํ˜„ ๊ฐ€๋Šฅํ•œ ์‹œ์Šคํ…œ์œผ๋กœ ๊ตฌ์ฒดํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ€์ง€๋งŒ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ํ•™์Šต์˜ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ์ž„์€ ๋ถ„๋ช…ํ•ฉ๋‹ˆ๋‹ค.

๊ถŒ์žฅ ์‚ฌํ•ญ:

  • ์ด‰๊ฐ ์„ผ์„œ ์—ฐ๊ตฌ์ž: Keyline ๋งˆ์ปค ์„ค๊ณ„ ์›์น™ ์ฐธ๊ณ 
  • ๋ชจ๋ฐฉํ•™์Šต ์—ฐ๊ตฌ์ž: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก ํ†ตํ•ฉ ๋ฐฉ๋ฒ•๋ก  ์ฐธ๊ณ 
  • ๋งค๋‹ˆํ“ฐ๋ ˆ์ด์…˜ ์‹ค๋ฌด์ž: ์ ‘์ด‰ ์ค‘์‹ฌ ์ž‘์—…์—์„œ์˜ STS ์„ผ์„œ ๋„์ž… ๊ณ ๋ ค

๋…ผ๋ฌธ์—์„œ ์ธ์šฉ๋œ ์ฃผ์š” ์—ฐ๊ตฌ๋“ค:

  1. UMI: Chi et al. โ€œUniversal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robotsโ€ (2024)
  2. Diffusion Policy: Chi et al. โ€œDiffusion Policy: Visuomotor Policy Learning via Action Diffusionโ€ (RSS 2023)
  3. Finger-STS: Hogan et al. โ€œFinger-STS: Combined Proximity and Tactile Sensing for Robotic Manipulationโ€ (RAL 2022)
  4. 3D-ViTac: โ€œ3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensingโ€ (2024)
  5. NeuralFeels: Suresh et al. โ€œNeuralFeels with neural fields: Visuotactile perception for in-hand manipulationโ€ (Science Robotics 2024)

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ๋ฐฐ๊ฒฝ

๋กœ๋ด‡์˜ ์กฐ์ž‘ ๊ณผ์ œ๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๊ฐ์ง€(multimodal perception)๋ฅผ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹œ๊ฐ(Sight)์€ ๋ฌผ์ฒด์˜ ์ „์ฒด ์œค๊ณฝ๊ณผ ์ƒ‰์ƒ์„ ํŒŒ์•…ํ•˜์ง€๋งŒ ๋กœ๋ด‡ ํŒ”์ด๋‚˜ ๋‹ค๋ฅธ ๋ฌผ์ฒด์— ์˜ํ•ด ์‰ฝ๊ฒŒ ๊ฐ€๋ ค์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ด‰๊ฐ(Tactile)์€ ์ ‘์ด‰ ์‹œ์ ์˜ ์ •๋ฐ€ํ•œ ํž˜ยท๋ณ€ํ˜• ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ ์ ‘์ด‰ ์ „(pre-contact) ์ •๋ณด๋Š” ์–ป๊ธฐ ์–ด๋ ต๊ณ  ์ „์—ญ ์ •๋ณด๊ฐ€ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณด์™„์  ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด See-Through-Skin(STS) ์„ผ์„œ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ง„ํ–‰๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด STS ์„ผ์„œ๋Š” GelSight ๊ฐ™์€ ๋น„์ „ ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ์˜ ๋ถˆํˆฌ๋ช… ์ฝ”ํŒ…์„ ํˆฌ๋ช…ํ•˜๊ฑฐ๋‚˜ ๋ฐ˜ํˆฌ๋ช…์œผ๋กœ ๋ฐ”๊ฟ”์„œ ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์„ ๊ฒฐํ•ฉํ•˜์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์€ ๋ชจ๋“œ ์ „ํ™˜(์กฐ๋ช… ๋ณ€๊ฒฝ์ด๋‚˜ ๊ธฐ๊ณ„์‹ ๋™์ž‘์„ ํ†ตํ•ด ์ด‰๊ฐ/์‹œ๊ฐ ๋ชจ๋“œ๋ฅผ ๋ฐ”๊พธ๋Š”) ๋ฐฉ์‹์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ด‰๊ฐ์„ ๋ณด๋ ค๋ฉด ์กฐ๋ช…์„ ์–ด๋‘ก๊ฒŒ, ์‹œ๊ฐ์„ ๋ณด๋ ค๋ฉด ์กฐ๋ช…์„ ์ผœ๋Š” ์‹์ด์–ด์„œ ์‹ค์‹œ๊ฐ„ ๋™์‹œ ์ฒ˜๋ฆฌ์— ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ ๊ธฐ์กด STS ์„ผ์„œ๋Š” ์ด‰๊ฐ ๋งˆ์ปค์˜ ์ถ”์  ์‹ ๋ขฐ๋„๊ฐ€ ๋‚ฎ๊ณ , ํš๋“๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต ๊ธฐ๋ฐ˜ ์กฐ์ž‘ ํŒŒ์ดํ”„๋ผ์ธ์— ํšจ๊ณผ์ ์œผ๋กœ ํ†ตํ•ฉํ•œ ์‚ฌ๋ก€๊ฐ€ ๋งŽ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐฐ๊ฒฝ์—์„œ ๋ณธ ๋…ผ๋ฌธ์€ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค: ํ•˜๋‚˜๋Š” TacThru๋ผ๋Š” ์ƒˆ๋กœ์šด STS ์„ผ์„œ ์„ค๊ณ„, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์ด ์„ผ์„œ๋ฅผ ํ™œ์šฉํ•œ TacThru-UMI๋ผ๋Š” ๋ชจ๋ฐฉํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ. TacThru๋Š” ์™„์ „ ํˆฌ๋ช…ํ•œ ์—˜๋ผ์Šคํ† ๋จธ ํ”ผ๋ถ€, ์ง€์†์  ์กฐ๋ช…, ์ด์ค‘ ์› ๋งˆ์ปค(keyline markers)์™€ ๊ฐ™์€ ์„ค๊ณ„๋กœ ์ด‰๊ฐยท์‹œ๊ฐ์„ ๋™์‹œ์— ์ทจ๋“ํ•ฉ๋‹ˆ๋‹ค. TacThru-UMI๋Š” ๋กœ๋ด‡ํŒ”์— TacThru๋ฅผ ์žฅ์ฐฉํ•˜๊ณ  Transformer ๊ธฐ๋ฐ˜์˜ ๋””ํ“จ์ „ ์ •์ฑ…(Diffusion Policy)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ๊ฐ๊ฐ์„ ํ†ตํ•ฉํ•˜๋Š” ๋ชจ๋ฐฉํ•™์Šต ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์‹คํ—˜์—์„œ TacThru-UMI๋Š” ๋‹ค์„ฏ ๊ฐ€์ง€ ์‹ค์ œ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ ํ‰๊ท  ์„ฑ๊ณต๋ฅ  85.5%๋ฅผ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธฐ์กด์— ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ์„ ๋ฒˆ๊ฐˆ์•„ ์“ฐ๊ฑฐ๋‚˜ ์‹œ๊ฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์–‡๊ฑฐ๋‚˜ ๋ถ€๋“œ๋Ÿฌ์šด ๋ฌผ์ฒด ์ฒ˜๋ฆฌ, ์ •๋ฐ€ ์œ„์น˜ ๊ฒฐํ•ฉ ๊ฐ™์€ ์ƒํ™ฉ์—์„œ ์šฐ์ˆ˜ํ•จ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์ด ๋ฆฌ๋ทฐ์—์„œ๋Š” TacThru ์„ผ์„œ์˜ ์„ค๊ณ„์™€ ์ž‘๋™ ์›๋ฆฌ, TacThru-UMI ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ, ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ํ•ด์„, ๊ฐ•์ ยท์•ฝ์  ๋ถ„์„, ๊ด€๋ จ ์—ฐ๊ตฌ ๋น„๊ต ๋“ฑ์„ ๊ณผํ•™์ž๋‹ค์šด ์ง๊ด€์  ์„ค๋ช…๊ณผ ๋น„์œ ๋ฅผ ํ†ตํ•ด ์ž์„ธํžˆ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•: TacThru ์„ผ์„œ ๋ฐ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

TacThru ์„ผ์„œ ์„ค๊ณ„

TacThru ์„ผ์„œ์˜ ํ•ต์‹ฌ ์„ค๊ณ„์›๋ฆฌ๋Š” (i) ์™„์ „ ํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ, (ii) ์ง€์†์  ์กฐ๋ช…, (iii) ๋กœ๋ฒ„์ŠคํŠธ(keyline) ๋งˆ์ปค, (iv) ์‹ค์‹œ๊ฐ„ ๋งˆ์ปค ์ถ”์ ์ž…๋‹ˆ๋‹ค.

  • ํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ + ์ง€์† ์กฐ๋ช…: ๊ธฐ์กด STS๋Š” ๋ถˆํˆฌ๋ช… ์ฝ”ํŒ…์ด๋‚˜ ๊ต์ฐจ ์กฐ๋ช… ๋ฐฉ์‹์ด์—ˆ์ง€๋งŒ, TacThru๋Š” ์™„์ „ํžˆ ํˆฌ๋ช…ํ•œ ํ”ผ๋ถ€๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์กฐ๋ช…์„ ํ•ญ์ƒ ์ผœ ๋‘์–ด(depth ๋Œ€์‹ ์—) ์ด‰๊ฐ ์—ฌ๋ถ€์— ์ƒ๊ด€์—†์ด ์—ฐ์†์ ์œผ๋กœ ์‹œ์•ผ๋ฅผ ํ™•๋ณดํ•ฉ๋‹ˆ๋‹ค. ๊นŠ์ด(์ ‘์ด‰ ๊นŠ์ด) ์ •๋ณด๋Š” ์ผ๋ถ€ ์†์‹ค๋˜์ง€๋งŒ, ํ•„์š”ํ•œ ๊ฒฝ์šฐ ๊ด‘์› ๋ฐ˜์‚ฌ ๋ณ€ํ™”๋‚˜ ๋งˆ์ปค ๋ณ€์œ„๋กœ ์ ‘์ด‰์„ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†๊ฐ€๋ฝ์œผ๋กœ ๋น„์œ ํ•˜๋ฉด, ๋งˆ์น˜ ๋ชจ๋“  ๋น›์ด ํ†ต๊ณผํ•˜๋Š” ์–‡์€ ์žฅ๊ฐ‘์„ ์ฐฉ์šฉํ•˜๊ณ  ํ•ญ์ƒ ์ฃผ๋ณ€์„ ๋ฐํžˆ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ฌผ์ฒด๋‚˜ ํ™˜๊ฒฝ์„ ์„ ๋ช…ํ•˜๊ฒŒ ๋ณผ ์ˆ˜ ์žˆ์–ด ์ ‘์ด‰ ์ „ํ›„ ๋ชจ๋‘ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํ‚ค๋ผ์ธ ๋งˆ์ปค (Keyline Markers): ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ‘œ๋ฉด์— ๋งˆ์ปค๋ฅผ ์ธ์‡„ํ•˜๋Š”๋ฐ, TacThru๋Š” ํŠน์ดํ•˜๊ฒŒ ์ด์ค‘ ์›ํ˜• ๋งˆ์ปค๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ž‘์€ ๊ฒ€์€์ƒ‰ ์›(circle) ๋‚ด๋ถ€์— ๋” ํฐ ํฐ์ƒ‰ ์›์„ ๊ฒน์ณ์„œ ์ฐ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์–ด๋–ค ๋ฐฐ๊ฒฝ์—์„œ๋„ ๊ฐ€์žฅ์ž๋ฆฌ(keyline)๊ฐ€ ๋“œ๋Ÿฌ๋‚˜๊ธฐ์— ๋งˆ์ปค๊ฐ€ ์‚ฌ๋ผ์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐฐ๊ฒฝ์ด ๊ฒ€๊ฑฐ๋‚˜ ํฐ ๊ฒฝ์šฐ์—๋„ ํ•œ์ชฝ ์ƒ‰์€ ํ•ญ์ƒ ๋Œ€๋น„๋˜์–ด ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด STS์—์„œ๋Š” ๋‹จ์ƒ‰ ๋งˆ์ปค๊ฐ€ ๋ฐฐ๊ฒฝ๊ณผ ๊ฒน์น˜๋ฉด ์ถ”์ ์ด ์–ด๋ ค์› ๋Š”๋ฐ, ํ‚ค๋ผ์ธ ๋งˆ์ปค๋Š” ์ด๋ฅผ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋งˆ์ปค ์ถ”์  ์•Œ๊ณ ๋ฆฌ์ฆ˜: TacThru๋Š” ์นด๋ฉ”๋ผ๋กœ ๋งˆ์ปค ์˜์ƒ์„ ์ดฌ์˜ํ•˜๊ณ , ๊ทธ๋ ˆ์ด์Šค์ผ€์ผ๋กœ ๋ฐ”๊พผ ๋’ค ์ž„๊ณ„๊ฐ’ ์ฒ˜๋ฆฌ๋กœ ๋งˆ์ปค ๊ฒฝ๊ณ„๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ํ›„ ๋ธ”๋กญ(blob) ๊ฒ€์ถœ๋กœ ์ž ์žฌ์  ๋งˆ์ปค ์œ„์น˜๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์นผ๋งŒ ํ•„ํ„ฐ(Kalman filter)๋ฅผ ํ†ตํ•ด ๊ฐ ๋งˆ์ปค์˜ ์‹ค์ œ ์œ„์น˜๋ฅผ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์ƒํƒœ ๋ชจ๋ธ์€ ๋‹จ์ˆœ ๋ฌด์ž‘์œ„ ๊ฑธ์Œ(random walk)์œผ๋กœ ๊ฐ€์ •ํ•˜์—ฌ
  • x_{t} = x_{t - 1} + w_{t},\quad z_{t} = x_{t} + v_{t} ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ x_{t}๋Š” ๋งˆ์ปค์˜ ์‹ค์ œ ์œ„์น˜, z_{t}๋Š” ๊ด€์ธก(๊ฒ€์ถœ๋œ ๋ธ”๋กญ ์œ„์น˜), w_{t},v_{t}๋Š” ์žก์Œ(noise)์ž…๋‹ˆ๋‹ค. ์นผ๋งŒ ํ•„ํ„ฐ๊ฐ€ ๋งค ํ”„๋ ˆ์ž„ {\widehat{x}}_{t}๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉฐ, ์ตœ์ข… ์ด‰๊ฐ ์‹ ํ˜ธ๋Š” ์ดˆ๊ธฐ ์œ„์น˜ {\widehat{x}}_{0}์™€์˜ ๋ณ€์œ„ \Delta x_{t} = {\widehat{x}}_{t} - {\widehat{x}}_{0}๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํƒ์ง€๋œ ๋ธ”๋กญ ์ค‘์—์„œ๋Š” ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฑฐ๋ฆฌ์— ์žˆ๋Š” ๋ธ”๋กญ์„ ํ•ด๋‹น ๋งˆ์ปค ๊ด€์ธก์œผ๋กœ ๋งค์นญํ•ฉ๋‹ˆ๋‹ค(์ˆ˜์‹ (2) ์ฐธ์กฐ). ์ด ๊ณผ์ •์„ ๊ฑฐ์ณ TacThru๋Š” ํ”„๋ ˆ์ž„๋‹น ์•ฝ 6.08ms ์ฒ˜๋ฆฌ๋กœ ๋งˆ์ปค ๋ณ€์œ„๋ฅผ ์‹ค์‹œ๊ฐ„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค(160Hz ์ •๋„ ์†๋„).

์ด๋ ‡๊ฒŒ ์„ค๊ณ„๋œ TacThru ์„ผ์„œ๋Š” ์‹œ๊ฐ ์นด๋ฉ”๋ผ์ฒ˜๋Ÿผ ํ™˜๊ฒฝ์„ ๋ณด๋ฉด์„œ ๋™์‹œ์— ์ด‰๊ฐ ๋งˆ์ปค๊ฐ€ ์›€์ง์ด๋Š” ์–‘์„ ๊ณ„์‚ฐํ•ด ํž˜ยท์ ‘์ด‰ ์ •๋ณด๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ํ”ฝ์…€ ์ •๋ณด ๋Œ€์‹  ๋งˆ์ปค ๋ณ€์œ„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ (๋…ธ์ด์ฆˆ๋ฅผ ์ œ์™ธํ•˜๋ฉด) ์ด‰๊ฐ ์ž…๋ ฅ์„ ์ €์ฐจ์› ๋ฒกํ„ฐ๋กœ ์–ป์œผ๋ฏ€๋กœ ํ•™์Šต๋„ ์‰ฝ์Šต๋‹ˆ๋‹ค.

TacThru-UMI ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

์„ผ์„œ๋กœ ํš๋“ํ•œ ์‹œ๊ฐยท์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ์กฐ์ž‘์œผ๋กœ ์—ฐ๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, TacThru-UMI๋Š” Transformer ๊ธฐ๋ฐ˜ ๋””ํ“จ์ „ ์ •์ฑ…์„ ์ด์šฉํ•œ ๋ชจ๋ฐฉํ•™์Šต(imitation learning) ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์—์„œ ๋กœ๋ด‡์€ ์ธ๊ฐ„์˜ ๋ฐ๋ชจ(๊ต์‚ฌ ์‹œ์—ฐ)๋ฅผ ํ†ตํ•ด ํ–‰๋™์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

  • ์ž…๋ ฅ ๊ด€์ธก: TacThru-UMI๋Š” ํ•œ ์‹œ์  t์—์„œ ๋‹ค์Œ ์ž…๋ ฅ์„ ๊ด€์ฐฐํ•ฉ๋‹ˆ๋‹ค: (1) ๋กœ๋ด‡ ์†๋ชฉ์— ์žฅ์ฐฉ๋œ ์ผ๋ฐ˜ RGB ์นด๋ฉ”๋ผ ์˜์ƒ I_{w}^{t}, (2) TacThru ์„ผ์„œ์˜ ๋‚ด๋ถ€ RGB ์˜์ƒ I_{s}^{t}, (3) ํ˜„์žฌ ๋งˆ์ปค ๋ณ€์œ„ \Delta x^{t} (๋ชจ๋“  ๋งˆ์ปค ์œ„์น˜ ์ฐจ์ด ๋ฒกํ„ฐ), (4) ๋กœ๋ด‡์˜ ๊ด€์ ˆ๊ฐ’ ๋ฐ ๊ทธ๋ฆฌํผ ํญ ๋“ฑ ๋‚ด๋ถ€ ์ƒํƒœ s^{t}. ์ด ๋„ค ๊ฐ€์ง€๊ฐ€ ๋™์‹œ์— ํŠธ๋žœ์Šคํฌ๋จธ์— ๋“ค์–ด๊ฐ€๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์†๋ชฉ ์นด๋ฉ”๋ผ๋Š” ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด์˜ ์ƒ๋Œ€ ์œ„์น˜๋ฅผ, TacThru ์นด๋ฉ”๋ผ๋Š” ์†๋ ๊ทผ์ฒ˜๋ฅผ, ๋งˆ์ปค๋Š” ์ ‘์ด‰๋ ฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ๊ด€์ ˆ๊ฐ’์€ ๋กœ๋ด‡์˜ ์ž์„ธ๋ฅผ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.
  • ์ธ์ฝ”๋”: ์˜์ƒ ์‹ ํ˜ธ๋Š” ์ตœ์ฒจ๋‹จ ๋น„์ „ ์ธ์ฝ”๋”์ธ DINOv2(Vision Transformer)๋กœ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์†๋ชฉ ์นด๋ฉ”๋ผ์šฉ ViT-Base์™€ TacThru์šฉ ViT-Small์„ ๊ฐ๊ฐ ์‚ฌ์šฉํ•ด ํ† ํฐ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด‰๊ฐ(๋งˆ์ปค ๋ณ€์œ„)๊ณผ ๊ด€์ ˆ๊ฐ’์€ MLP ๋„คํŠธ์›Œํฌ๋กœ ์ „์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ถœ๋ ฅ์—๋Š” ๋ณ„๋„์˜ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ(modality-specific embedding)๋ฅผ ๋”ํ•ด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๊ฐ€ ํ•˜๋‚˜์˜ ํŠธ๋žœ์Šคํฌ๋จธ ์ž…๋ ฅ ๋ฒกํ„ฐ๋กœ ๊ฒฐํ•ฉ๋ฉ๋‹ˆ๋‹ค.
  • ๋””ํ“จ์ „ ์ •์ฑ…(Diffusion Policy): ๋””ํ“จ์ „ ์ •์ฑ…์€ ์ตœ๊ทผ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์•ก์…˜(๋กœ๋ด‡ ๋™์ž‘)์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํ™•๋ฅ ์  ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์„ ๊ฑฐ์น˜๋Š” ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ž…๋ ฅ ํ† ํฐ์„ ์กฐ๊ฑด์œผ๋กœ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋กœ๋ถ€ํ„ฐ ํ–‰๋™ ์‹œํ€€์Šค(์•ก์…˜ ์ฒญํฌ)๋ฅผ ์ƒ์„ฑ(๋””๋…ธ์ด์ง•)ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋ฌผ a = \{ a_{i}\}๋Š” ์ผ๋ จ์˜ ์—”๋“œ์ดํŽ™ํ„ฐ ์ƒ๋Œ€ ์œ„์น˜์™€ ๊ทธ๋ฆฌํผ ๋ช…๋ น์ด๊ณ , ๊ทธ ์ค‘ ์ดˆ๊ธฐ ๋ช‡ ๋‹จ๊ณ„๋ฅผ ์‹ค์ œ ๋กœ๋ด‡์—๊ฒŒ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋ธ”๋Ÿฌ ์ฒ˜๋ฆฌ๋œ ํ–‰๋™โ€์„ ์กฐ๊ธˆ์”ฉ ๊นจ๋—ํ•œ ๋™์ž‘์œผ๋กœ ๋ฐ”๊พธ๋Š” ์‹์œผ๋กœ ์ตœ์ข… ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • ํ•™์Šต ๋ฐ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ: TacThru-UMI๋Š” UMI(Universal Manipulation Interface) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. Vive ํŠธ๋ž˜์ปค๋ฅผ ํ™œ์šฉํ•ด ์•ˆ์ •์ ์ธ ์ž์„ธ ์ถ”์ ์„ ์‚ฌ์šฉํ–ˆ๊ณ , ์†๋ชฉ ์นด๋ฉ”๋ผ, TacThru, ๊ด€์ ˆ๊ฐ’์„ ํƒ€์ž„์Šคํƒฌํ”„๋กœ ๋™๊ธฐํ™”ํ•˜์—ฌ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์—†์ด ์‹ค์ œ ๋ฐ๋ชจ๋งŒ์œผ๋กœ 150 ์—ํญ ์ •๋„ ํ›ˆ๋ จํ•˜๋ฉฐ, ๊ด€์ธก์€ ๊ณผ๊ฑฐ 1~2ํ”„๋ ˆ์ž„, ํ–‰๋™ ์˜ˆ์ธก์€ 16์Šคํ…, ๊ทธ ์ค‘ ์ผ๋ถ€(6์Šคํ…)๋ฅผ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. Transformer+Diffusion ๊ตฌ์กฐ ๋•๋ถ„์— ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ ์‹ ํ˜ธ๋ฅผ ๋™์‹œ์— โ€œattentionโ€ํ•ด์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

flowchart LR
    subgraph inputs["์ž…๋ ฅ ๊ด€์ธก"]
        WRC[์†๋ชฉ ์นด๋ฉ”๋ผ ์˜์ƒ]
        TCam[TacThru ์„ผ์„œ ์˜์ƒ]
        Markers[๋งˆ์ปค ๋ณ€์œ„ ์‹ ํ˜ธ]
        Proprio[๋กœ๋ด‡ ๊ด€์ ˆ๊ฐ’]
    end
    WRC & TCam & Markers & Proprio --> Fusion[๋ชจ๋‹ฌ ์œตํ•ฉ ํŠธ๋žœ์Šคํฌ๋จธ]
    Fusion --> Diffusion[Diffusion ์ •์ฑ…]
    Diffusion --> Actions[๋กœ๋ด‡ ๋™์ž‘ ๋ช…๋ น]

์ด์™€ ๊ฐ™์ด TacThru-UMI๋Š” ๋กœ๋ด‡์˜ ์‹œ๊ฐ-์ด‰๊ฐ-๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ๋™์‹œ์— ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋™์‹œ์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ

TacThru-UMI๋Š” ๋‹ค์„ฏ ๊ฐ€์ง€ ์‹ค์ œ ์กฐ์ž‘ ๊ณผ์ œ๋กœ ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๊ณผ์ œ๋Š” ํ”ฝ-ํ”Œ๋ ˆ์ด์Šค, ๋ถ„๋ฅ˜, ์‚ฝ์ž… ๊ฐ™์€ ๋‹ค๋ฅธ ์กฐ์ž‘ ์œ ํ˜•์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ํŠนํžˆ ๋‹ค๋ฅธ ๊ฐ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ์ค‘์š”์„ฑ์„ ์ ๊ฒ€ํ•ฉ๋‹ˆ๋‹ค. ๊ณผ์ œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค(๊ทธ๋ฆผ 5 ์ฐธ์กฐ):

  • PickBottle (๋ณ‘ ํ”ฝ-ํ”Œ๋ ˆ์ด์Šค): ์ž„์˜ ์œ„์น˜์˜ ๋ฌผ๋ณ‘์„ ์žก์•„ ๊ทธ๋ฆ‡์— ๋„ฃ๊ธฐ. ๊ธฐ๋ณธ ์กฐ์ž‘ ๋Šฅ๋ ฅ ๊ฒ€์ฆ.
  • PullTissue (ํ‹ฐ์Šˆ ๋‹น๊ธฐ๊ธฐ): ํ‹ฐ์Šˆ ํŒฉ์„ ์žก์•„ ํ•œ ์žฅ์„ ์™„์ „ํžˆ ๋‹น๊ฒจ ๊บผ๋‚ด๊ธฐ. ์–‡๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ์ข…์ด๋Š” ์ผ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ๋กœ๋Š” ์ ‘์ด‰ ๊ฐ์ง€๊ฐ€ ์–ด๋ ค์šฐ๋ฏ€๋กœ TacThru์˜ ๊ทผ๊ฑฐ๋ฆฌ ์‹œ๊ฐ์ด ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
  • SortBolt (๋ณผํŠธ ๋ถ„๋ฅ˜): ๋ณผํŠธ 3์ข…(๋ชจ์–‘ยท์ƒ‰ ๋‹ค๋ฆ„)์„ ์ง‘์–ด ํ•ด๋‹น ๋ฐ”๊ตฌ๋‹ˆ์— ๋„ฃ๊ธฐ. ๋ณผํŠธ ํ—ค๋“œ๋Š” ์ง๊ฒฝ 12mm๋กœ ์ž‘์•„ ๋จผ ์†๋ชฉ ์นด๋ฉ”๋ผ๋กœ ๊ตฌ๋ถ„์ด ํž˜๋“ค๊ณ , ๋ชจ์–‘์ด ๋™์ผํ•ด ์ด‰๊ฐ์œผ๋กœ๋„ ๋ชป ๊ตฌ๋ณ„ํ•ฉ๋‹ˆ๋‹ค. TacThru๋Š” 2โ€“3mm ๊ฑฐ๋ฆฌ์—์„œ ์„ธ๋ถ€ ๊ธฐํ•˜/์ƒ‰์ƒ ์ •๋ณด๋ฅผ ์–ป์–ด ์ด ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  • HangScissors (๊ฐ€์œ„ ๊ฑธ๊ธฐ): ๊ฐ€์œ„๋ฅผ ์ง‘์–ด ํ›„ํฌ์— ๊ฑธ๊ธฐ. ๊ฐ€์œ„ ๊ฑธ๋ฆผ ์—ฌ๋ถ€๋Š” ๊นŠ์ด/๊ฐ€๋ฆผ ๋ฌธ์ œ๋กœ ์‹œ๊ฐ๋งŒ์œผ๋ก  ์•Œ๊ธฐ ์–ด๋ ค์šฐ๋ฉฐ, ๋ฌผ๋ฆฌ ์ ‘์ด‰ ํŒจํ„ด์ด ์„ฑ๊ณต ์กฐ๊ฑด์„ ๊ฐ€๋ฆฝ๋‹ˆ๋‹ค.
  • InsertCap (์บก ์‚ฝ์ž…): ๋ณ‘ ์œ„์˜ ์บก์„ ๋“ค์–ด ์ •ํ™•ํžˆ ๋งˆ์šดํŠธ์— ๋ผ์šฐ๊ธฐ. ์ •๋ฐ€ ์ •๋ ฌ์ด ์š”๊ตฌ๋˜๋ฉฐ, ์žฅ์• ๋ฌผ์ด ์ƒ๊ธฐ๋ฉด ํ•œ๋•Œ ์‹œ๊ฐ์ด ๊ฐ€๋ ค์ง‘๋‹ˆ๋‹ค. ๋ทฐ๊ฐ€ ์žˆ์œผ๋ฉด ์‹œ๊ฐ ์ œ์–ด, ๋ง‰ํžˆ๋ฉด ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์ด์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ ๊ณผ์ œ๋งˆ๋‹ค TacThru ์„ผ์„œ๋ฅผ ์˜ค๋ฅธ์†๊ฐ€๋ฝ์—, ์™ผ์†๊ฐ€๋ฝ์—๋Š” GelSight ์œ ์‚ฌ ์„ผ์„œ๋ฅผ ์žฅ์ฐฉํ•˜๊ณ  ์‹œ์—ฐ์„ ์ดฌ์˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ •์ฑ… ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋„ค ๊ฐ€์ง€ ๋ฒ„์ „์„ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค:

  1. TT-M: TacThru ์˜์ƒ + ๋งˆ์ปค ๋ฐ์ดํ„ฐ,
  2. TT: TacThru ์˜์ƒ๋งŒ (๋งˆ์ปค ์‚ฌ์šฉ ์•ˆ ํ•จ),
  3. GS-M: GelSight ์˜์ƒ + ๋งˆ์ปค,
  4. Wrist: ์†๋ชฉ ์นด๋ฉ”๋ผ๋งŒ (๋น„์ „๋งŒ).

๋ชจ๋“  ๊ฒฝ์šฐ ์†๋ชฉ ์นด๋ฉ”๋ผ์™€ ๋กœ๋ด‡ ์ž์„ธ ์ •๋ณด๋Š” ๊ณตํ†ต ์ž…๋ ฅ์ž…๋‹ˆ๋‹ค. ๊ฐ ๊ณผ์ œ๋‹น ์•ฝ 60โ€“150ํšŒ ๋ฐ๋ชจ๋ฅผ ์ˆ˜์ง‘ํ–ˆ๊ณ , ๊ฐ ์ •์ฑ…์€ 20~24ํšŒ ํ‰๊ฐ€๋ฅผ ๊ฑฐ์ณ ์„ฑ๊ณต๋ฅ ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์ „๋ฐ˜์  ์„ฑ๋Šฅ: TacThru+๋งˆ์ปค ์ •์ฑ…(TT-M)์ด ํ‰๊ท  ์„ฑ๊ณต๋ฅ  85.5%๋ฅผ ๊ธฐ๋กํ•ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. TacThru ์˜์ƒ๋งŒ(TT)์€ ์•ฝ 82%, GelSight+๋งˆ์ปค(GS-M) 66.3%, ์†๋ชฉ ์นด๋ฉ”๋ผ๋งŒ 55.4%์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰ TacThru ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์•ฝ 15โ€“30%p ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • PickBottle: ๊ธฐ๋ณธ ํ”ฝ-ํ”Œ๋ ˆ์ด์Šค ๊ณผ์ œ์—์„œ ๋„ค ์ •์ฑ… ๋ชจ๋‘ 95% ์ด์ƒ ์„ฑ๊ณตํ•ด ๊ฑฐ์˜ ์ฐจ์ด๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๋ณธ ์กฐ์ž‘์€ ์–ด๋А ์ •๋„ ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • PullTissue (์–‡๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋ฌผ์ฒด): ์ผ๋ฐ˜ ์ด‰๊ฐ ์„ผ์„œ๋Š” ์ถฉ๋ถ„ํ•œ ์ ‘์ด‰๋ ฅ์ด ํ•„์š”ํ•˜์ง€๋งŒ, ํ‹ฐ์Šˆ๋Š” ํž˜์„ ๊ฑฐ์˜ ๋ฐ›์ง€ ์•Š๊ณ  ๋Š˜์–ด์ง‘๋‹ˆ๋‹ค. TT-M์€ TacThru ์นด๋ฉ”๋ผ๋กœ ํ‹ฐ์Šˆ ์ƒํƒœ๋ฅผ ์ง์ ‘ ๊ด€์ฐฐํ•ด ๋ฏธ๋„๋Ÿฌ์ง์„ ๊ฐ์ง€ํ•˜๊ณ  ์žฌ๊ทธ๋ฆฝํ•˜์—ฌ ์„ฑ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์†๋ชฉ ์นด๋ฉ”๋ผ(Wrist)๋Š” 15cm ์ด์ƒ ๊ฑฐ๋ฆฌ๋กœ ํ•ด์ƒ๋„๊ฐ€ ๋ถ€์กฑํ–ˆ๊ณ , GelSight๋Š” ํ‹ฐ์Šˆ์˜ ์ž‘์€ ์••๋ ฅ ๋ณ€ํ™”๊ฐ€ ์•ฝํ•ด ์„ฑ๊ณต๋ฅ ์ด ๊ฑฐ์˜ 0%์˜€์Šต๋‹ˆ๋‹ค. TacThru ์„ผ์„œ๋งŒ์ด ์ ‘์ด‰ ์ „ํ›„ ํ‹ฐ์Šˆ ์›€์ง์ž„์„ ์—ฐ์†์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์–ด ์œ ์ผํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  • SortBolt (์‹œ๊ฐ์  ๋ถ„๋ฅ˜): ์†๋ชฉ ์นด๋ฉ”๋ผ๋กœ๋Š” ์ž‘๊ณ  ๋น„์Šทํ•œ ๋ณผํŠธ ์„ธ๊ฐ€์ง€๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†์—ˆ๊ณ , ์ด‰๊ฐ๋งŒ์œผ๋กœ๋Š” ๋ชจ์–‘์ด ๋™์ผํ•ด ๊ตฌ๋ณ„ ๋ถˆ๊ฐ€์˜€์Šต๋‹ˆ๋‹ค. TacThru ์„ผ์„œ๋Š” 2โ€“3mm ๊ฑฐ๋ฆฌ์—์„œ ๋ณผํŠธ์˜ ๋ฏธ์„ธ ๊ธฐํ•˜(ํ™ˆํŒจํ„ด)์™€ ์ƒ‰์ƒ ์ฐจ์ด๋ฅผ ์บก์ฒ˜ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ DINOv2 ํŠน์ง• ๊ณต๊ฐ„์—์„œ TacThru๋กœ ์–ป์€ ์ž„๋ฒ ๋”ฉ์€ ์„ธ ๋ณผํŠธ๊ฐ€ ๋ถ„๋ฆฌ๋˜์—ˆ์ง€๋งŒ, GelSight ์ž„๋ฒ ๋”ฉ์€ ์ผ๋ถ€ ๊ฒน์ณ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ, TT-M์€ 85% ์„ฑ๊ณต๋ฅ , GS-M์€ 45%์— ๊ทธ์ณค์Šต๋‹ˆ๋‹ค. ์ฆ‰ TacThru์˜ ๊ทผ๊ฑฐ๋ฆฌ ์‹œ๊ฐ ๋•๋ถ„์— ์„ธ๋ถ€ ์‹๋ณ„์ด ๊ฐ€๋Šฅํ•ด์ง„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • HangScissors (์ด‰๊ฐํŒ๋ณ„): ๊ฐ€์œ„ ๊ฑธ๋ฆผ ์—ฌ๋ถ€๋Š” ์‹œ๊ฐ์œผ๋กœ๋Š” ๊นŠ์ด ํŒ๋‹จ์ด ์–ด๋ ค์›Œ ์˜คํƒ์ด ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด TacThru์˜ ๋งˆ์ปค ๋ณ€์œ„ ๋ฐ์ดํ„ฐ์—๋Š” ์„ฑ๊ณต ์‹œ ๊ณ ์œ ํ•œ ์ „๋‹จ(torsion) ํŒจํ„ด์ด ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ TT-M๊ณผ GS-M์€ ๋ชจ๋‘ 80% ์ด์ƒ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์œผ๋‚˜, ์‹œ๊ฐ๋งŒ(์†๋ชฉ) ์ •์ฑ…์€ 35%์— ๋ถˆ๊ณผํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ TacThru ๋งˆ์ปค ๋•๋ถ„์— ๊ทธ๋ฆฌํผ ๋ฆด๋ฆฌ์ฆˆ ํƒ€์ด๋ฐ์„ ์ •ํ™•ํžˆ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์–ด ์‹คํŒจ์œจ์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
  • InsertCap (๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ): ์ด ๊ณผ์ œ๋Š” TacThru์˜ ์ง„๊ฐ€๊ฐ€ ๋“œ๋Ÿฌ๋‚ฉ๋‹ˆ๋‹ค. ๋จผ์ € ์‹œ๊ฐ์œผ๋กœ ์บก๊ณผ ๋งˆ์šดํŠธ์˜ ์œ„์น˜๊ฐ€ ๋ณด์ด๋ฉด ์‹œ๊ฐ ์ œ์–ด๋กœ ์ •๋ ฌ(ํ”„๋ ˆ์ž„ (e) ์ƒ๋‹จ)ํ•˜๊ณ , ์†๊ฐ€๋ฆผ ๋“ฑ์œผ๋กœ ์‹œ์•ผ๊ฐ€ ์—†์–ด์ง€๋ฉด ์ด‰๊ฐ(๋งˆ์ปค ํŒจํ„ด)์œผ๋กœ ์ ‘์ด‰ ์‹œ์ ์„ ๊ฐ์ง€ํ•˜์—ฌ ์‚ฝ์ž…์„ ์ด์–ด๊ฐ‘๋‹ˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ํ•œ ์ •์ฑ… ๋‚ด์—์„œ ์ด ๋‘ ์ „๋žต์ด ์ƒํ™ฉ์— ๋”ฐ๋ผ ์ €์ ˆ๋กœ ํ˜ผํ•ฉ๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ TT-M์€ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ๋‹จ์ผ๋ชจ๋‹ฌ ์ •์ฑ…๋“ค์€ ์ด๋งŒํผ์˜ ์ ์‘๋ ฅ์„ ๋ณด์ด์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด์ƒ์˜ ๊ฒฐ๊ณผ๋Š” ๊ทธ๋ฆผ 5-7์— ์ •๋ฆฌ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. TacThru-UMI๋Š” ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ํฌ๊ฒŒ ์•ž์„ฐ์œผ๋ฉฐ, ๊ฐ ๊ณผ์ œ์—์„œ ์š”๊ตฌ๋˜๋Š” ๊ฐ๊ฐ์„ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ TacThru์˜ ์—ฐ์† ์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ ๋•๋ถ„์— ์ด‰๊ฐ ๊ฐ์ง€ ํ•œ๊ณ„๋ฅผ ๋„˜์—ˆ๊ณ , ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ์ด ๋ณด์™„์ ์œผ๋กœ ์‚ฌ์šฉ๋จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ 

๊ฐ•์ : TacThru-TacThru-UMI ์‹œ์Šคํ…œ์€ ์—ฌ๋Ÿฌ ์ค‘์š”ํ•œ ์žฅ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

  • ๋™์‹œ ๋‹ค์ค‘๋ชจ๋‹ฌ ๊ฐ์ง€: TacThru ์„ผ์„œ๋Š” ๊ธฐ์กด STS์™€ ๋‹ฌ๋ฆฌ ๋ชจ๋“œ ์ „ํ™˜ ์—†์ด ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์„ ๋™์‹œ์— ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์—ฐ์† ๊ฐ์ง€๊ฐ€ ํ•„์š”ํ•œ ์กฐ์ž‘์—์„œ ํฐ ์ฐจ๋ณ„์ ์ž…๋‹ˆ๋‹ค. ๋งˆ์น˜ ๋‘ ๋ˆˆ๊ณผ ์ด‰๊ฐ์ด ๋™์‹œ์— ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ๋กœ๋ด‡์€ ํ•ญ์ƒ ์†๋ ๊ทผ์ฒ˜๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ํ™•์ธํ•˜๋ฉด์„œ๋„ ์ด‰๊ฐ ์ •๋ณด๋„ ์–ป์Šต๋‹ˆ๋‹ค.
  • ํ‚ค๋ผ์ธ ๋งˆ์ปค์˜ ๊ฒฌ๊ณ ํ•จ: ๋‘ ๊ฒน ์›์œผ๋กœ ๋œ ํ‚ค๋ผ์ธ ๋งˆ์ปค๋Š” ์–ด๋–ค ๋ฐฐ๊ฒฝ์—์„œ๋„ ์ธ์‹์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์‹ค์ œ ์‹คํ—˜์—์„œ ์ˆ˜ํ‰ ์ด๋™, ๊ฐ€๋ฆผ๋ง‰, ๋ณต์žกํ•œ ๋ฌด๋Šฌ ๋ฐฐ๊ฒฝ์—์„œ๋„ ์•ˆ์ •์ ์œผ๋กœ ์ถ”์ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ™˜๊ฒฝ ์žก์Œ์ด ์žˆ๋”๋ผ๋„ ๋งˆ์ปค ํ…Œ๋‘๋ฆฌ๊ฐ€ ๋‚จ์•„์žˆ์–ด ๊ฒ€์ถœ ์‹คํŒจ๋ฅผ ํฌ๊ฒŒ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
  • ๋›ฐ์–ด๋‚œ ๊ณผ์ œ ์„ฑ๋Šฅ: TacThru-UMI๋Š” ์–‡์€ ๋ฌผ์ฒด, ์ •๋ฐ€ ์กฐ์ •, ๋ถ„๋ฅ˜ ๋“ฑ ๊ธฐ์กด ์ด‰๊ฐ/์‹œ๊ฐ ์‹œ์Šคํ…œ์˜ ์•ฝ์ ์„ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์ข…์ด ํ‹ฐ์Šˆ์ฒ˜๋Ÿผ ํ˜•์ƒ์ด ๋ณ€ํ•˜๊ณ  ํž˜์ด ์•ฝํ•œ ๋ฌผ์ฒด๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฐ์ง€ํ•ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, 12mm ๋ณผํŠธ ๊ฐ™์€ ์ž‘์€ ๋ฌผ์ฒด๋„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๊ตฌ๋ถ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์‚ฝ์ž… ๊ณผ์ œ์—์„œ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๋งž์ถฐ ์ž๋™์œผ๋กœ ์„ผ์„œ ์ „๋žต์„ ๋ฐ”๊พธ๋Š” ์ ์‘์„ฑ๋„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ•™์Šต ์‹œ์Šคํ…œ์˜ ์œ ์—ฐํ•จ: Transformer+Diffusion ๊ตฌ์กฐ ๋•๋ถ„์— ์„œ๋กœ ๋‹ค๋ฅธ ์ž…๋ ฅ์„ ํ†ตํ•ฉํ•ด ํ•™์Šตํ•ด๋„ ๊ธฐ๋ณธ ์กฐ์ž‘ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ๋™์‹œ์— ์“ฐ๋”๋ผ๋„ 95% ์ด์ƒ์˜ ๊ธฐ๋ณธ ๋™์ž‘ ์„ฑ๊ณต๋ฅ ์„ ์œ ์ง€ํ–ˆ๊ณ , ์žฅ์• ๋ฌผ์ด ์ƒ๊ธฐ๋ฉด ์ž๋™์œผ๋กœ ์‹ ๋ขฐํ• ๋งŒํ•œ ์ž…๋ ฅ์— ๋” ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ โ€œTacThru-UMI ํ›ˆ๋ จ๋œ ์ •์ฑ…์€ ๋งฅ๋ฝ์— ๋”ฐ๋ผ ์„ผ์„œ ์ค‘์š”๋„๋ฅผ ์ž๋™์œผ๋กœ ์กฐ์ •ํ•œ๋‹คโ€๊ณ  ๋ฐํžˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‹ค์šฉ์„ฑ(Practicality): TacThru ์„ค๊ณ„๋Š” ๊ธฐ์กด ๋น„์ „๊ธฐ๋ฐ˜ ์กฐ์ž‘ ์‹œ์Šคํ…œ๊ณผ ํ˜ธํ™˜์„ฑ์„ ๊ณ ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ›ˆ๋ จ๋œ DINOv2์ฒ˜๋Ÿผ ์ผ๋ฐ˜์ ์ธ ๋น„์ „ ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์–ด์„œ, ์ƒˆ๋กœ์šด ํŠน์ˆ˜ ๋„คํŠธ์›Œํฌ๋ฅผ ํฌ๊ฒŒ ๊ณ ์•ˆํ•˜์ง€ ์•Š์•„๋„ ๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋…ผ๋ฌธ ์ €์ž๋“ค์€ โ€œํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ, ๋งˆ์ปค ์˜ค๋ฒ„๋ ˆ์ด ๋“ฑ ๋„๋ฉ”์ธ ์ฐจ์ด๊ฐ€ ์žˆ์Œ์—๋„ ํ‘œ์ค€ ๋น„์ „ ์ธ์ฝ”๋”๊ฐ€ ์ •์ฑ… ํ•™์Šต์— ์ถฉ๋ถ„ํ–ˆ๋‹คโ€๊ณ  ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” TacThru๋ฅผ ๋‹ค๋ฅธ ๋กœ๋ด‡์— ์†์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์•ฝ์  ๋ฐ ํ•œ๊ณ„:

  • ์„ผ์„œ ๋‚ด๊ตฌ์„ฑ: ์™„์ „ ํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ๋Š” ํ‘œ๋ฉด์— ์Šคํฌ๋ž˜์น˜๋‚˜ ์˜ค์—ผ์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์žฅ๊ธฐ ์‚ฌ์šฉ ์‹œ ๋งˆ์ปค์™€ ์นด๋ฉ”๋ผ ์‹œ์•ผ๊ฐ€ ํ๋ ค์งˆ ์šฐ๋ ค๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. GelSight์— ๋น„ํ•ด ์—˜๋ผ์Šคํ† ๋จธ๋ฅผ ์ž์ฃผ ๊ต์ฒดํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋น„์šฉ/๊ตฌ์„ฑ: ํ˜„์žฌ ํ…Œ์ŠคํŠธ๋Š” TacThru๋ฅผ ๋กœ๋ด‡ ํ•œ ์†๊ฐ€๋ฝ์—๋งŒ ๋‹ฌ๊ณ  ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ์†๊ฐ€๋ฝ ํ˜น์€ ๋‹ค๊ด€์ ˆ ๋‹ค์ง€ ์กฐ์ž‘ ๋“ฑ์—์„œ๋Š” ์ถ”๊ฐ€ ์„ผ์„œ์™€ ์ฒ˜๋ฆฌ ๋น„์šฉ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ๋ฐ๋ชจ ์‹œ์—๋Š” Vive ํŠธ๋ž˜์ปค ๋“ฑ ๋ณ„๋„ ์œ„์น˜์ถ”์  ์žฅ์น˜๋ฅผ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ์ƒ์šฉ ๋กœ๋ด‡์—์„œ๋Š” ์ด๋ฅผ ๋Œ€์ฒดํ•  ๋ฐฉ๋ฒ•(์˜ˆ: ๊ด€์ ˆ๊ฐ ๋™๊ธฐํ™” ํ˜น์€ ๋‹ค๋ฅธ ์Šฌ๋žจ)์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ํ•„์š”๋Ÿ‰: ๊ฐ ๊ณผ์ œ๋‹น 60~150๊ฐœ์˜ ๋ฐ๋ชจ๊ฐ€ ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐฉํ•™์Šต ํŠน์„ฑ์ƒ ๋” ๋ณต์žกํ•œ ๊ณผ์ œ๋‚˜ ๋ถˆ์•ˆ์ •ํ•œ ๋™์ž‘์—์„œ๋Š” ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ณ„์‚ฐ ๋ณต์žก์„ฑ: Transformer+Diffusion ์ •์ฑ…์€ ๋น„์ €ํ•ญ๊ฐ•ํ™”ํ•™์Šต๋ณด๋‹ค ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ์Šต๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋กœ ํ™œ์šฉํ•˜๋ ค๋ฉด ์ถ”๊ฐ€ ์ตœ์ ํ™”(๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ ์ˆ˜ ์ค„์ด๊ธฐ ๋“ฑ)๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ๊ตฌํ˜„์—์„œ 6.08ms ์ถ”์  ์†๋„๋Š” ๋น ๋ฅด์ง€๋งŒ, ๋””ํ“จ์ „์˜ ์ถ”๋ก  ๋น„์šฉ์€ ๋ณ„๋„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฒ”์œ„ ํ•œ๊ณ„: TacThru๋Š” ๊ด‘ํ•™ ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ ํˆฌ๋ช…ํ•˜๊ฑฐ๋‚˜ ๋ฐ˜์‚ฌ์œจ์ด ๋†’์€ ๋ฌผ์ฒด, ๋˜๋Š” ์—˜๋ผ์Šคํ† ๋จธ์— ์ž˜ ๋ณด์ด์ง€ ์•Š๋Š” ์งˆ๊ฐ์—” ์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฌด๊ฑฐ์šด ์••๋ ฅ์ด๋‚˜ ๊ทน๋‹จ์  ๋ณ€ํ˜•์—๋Š” ๊ฐ์ง€ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

์‘์šฉ ๋ฐ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ

TacThru-UMI๋Š” ์—ฌ๋Ÿฌ ์‹ค์ œ ์‘์šฉ ๋ถ„์•ผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ํ†ตํ•ฉ: TacThru-UMI๋Š” UMI๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฏ€๋กœ, Panda Hand ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ณ‘๋ ฌ ๊ทธ๋ฆฌํผ์— ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” Inspire LAS30-021D ์„œ๋ณด ์‹ค๋ฆฐ๋”๋ฅผ ์ €๋น„์šฉ ๊ทธ๋ฆฌํผ๋กœ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ์ด์™€ ์œ ์‚ฌํ•œ ์žฅ์น˜๋ฅผ ๊ธฐ์กด ๋กœ๋ด‡์—๋„ ์žฅ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‚ฐ์—… ๋ฐ ์„œ๋น„์Šค ๋กœ๋ด‡: ์–‡์€ ํฌ์žฅ์ง€ ์ทจ๊ธ‰, ์ž‘์€ ๋ถ€ํ’ˆ ๋ถ„๋ฅ˜, ์˜๋ฃŒ ์˜์ƒ ๋ณด์กฐ ๋“ฑ ์„ฌ์„ธํ•œ ์ž‘์—…์ด ํ•„์š”ํ•œ ๋ถ„์•ผ์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์˜๋ฃŒ์šฉ ๋กœ๋ด‡ ์ˆ˜์ˆ ์—์„œ ์–‡์€ ์กฐ์ง์„ ๋‹ค๋ฃจ๊ฑฐ๋‚˜, ์กฐ๋ฆฝ ๋ผ์ธ์—์„œ ์ž‘์€ ์ปค๋„ฅํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ TacThru์ฒ˜๋Ÿผ ์‹ค์‹œ๊ฐ„ ์ด‰๊ฐ+๋น„์ „ ์„ผ์„œ๊ฐ€ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  • ํœด๋จธ๋…ธ์ด๋“œยทํ˜‘๋™ ๋กœ๋ด‡: ์‚ฌ๋žŒ ์†์ฒ˜๋Ÿผ ํ”ผ๋ถ€๊ฐ๊ฐ์„ ๋ชจ์‚ฌํ•˜๋Š” TacThru๋Š” ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡์ด๋‚˜ ์•ˆ์ „ํ•œ ํ˜‘๋™ ๋กœ๋ด‡์˜ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ด์ƒ์ ์ž…๋‹ˆ๋‹ค. ์•ˆ์ „ ๊ทธ๋ฆฌํผ ์†๊ฐ€๋ฝ ๋์— TacThru๋ฅผ ์žฅ์ฐฉํ•ด, ๋ฌผ์ฒด๊ฐ€ ๋น ์งˆ ์œ„ํ—˜ ๋“ฑ์„ ์ดˆ๊ธฐ์— ๊ฐ์ง€ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์—ฐ๊ตฌ ๋ฐ ํ™•์žฅ: ๋…ผ๋ฌธ ์ œ์•ˆ๋Œ€๋กœ TacThru ์„ผ์„œ๋ฅผ ๊ฐ€์ง„ ๋กœ๋ด‡ ์†์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ณ , ์‹œ๋ฎฌ-ํˆฌ-๋ฆฌ์–ผ ํ•™์Šต์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ TacThru์™€ ๋น„์Šทํ•œ ๊ฐœ๋…์˜ ์„ผ์„œ(์˜ˆ: Tirgel TIR ์„ผ์„œ)๋„ ์žˆ๊ณ , ๋ฉ€ํ‹ฐ ํƒœ์Šคํฌ ํ•™์Šต์ด๋‚˜ ์–ธ์–ด ์ง€์‹œ ํ†ตํ•ฉ ๊ฐ™์€ ์ตœ์‹  ๊ธฐ๋ฒ•๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๋กœ๋ด‡ ์ง€๋Šฅ์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

์ด ๋…ผ๋ฌธ์€ ํˆฌ๋ช… ํ”ผ๋ถ€๋กœ ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” TacThru ์„ผ์„œ์™€, ์ด๋ฅผ ๋กœ๋ด‡ ์กฐ์ž‘์— ํ™œ์šฉํ•˜๋Š” TacThru-UMI ํ•™์Šต ์‹œ์Šคํ…œ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. TacThru๋Š” ์™„์ „ ํˆฌ๋ช… ์—˜๋ผ์Šคํ† ๋จธ + ์ง€์†์กฐ๋ช… + ์ด์ค‘ ์› ๋งˆ์ปค + ๋น ๋ฅธ ์นผ๋งŒ ํ•„ํ„ฐ ์ถ”์ ์œผ๋กœ ์„ค๊ณ„๋˜์–ด, ๊ธฐ์กด STS์˜ ์ „ํ™˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ ์•ผ์™ธ ํ™˜๊ฒฝ์—์„œ๋„ ์•ˆ์ •์ ์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. TacThru-UMI๋Š” Transformer+Diffusion ์ •์ฑ…์„ ํ†ตํ•ด ์‹œ๊ฐยท์ด‰๊ฐ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์œตํ•ฉํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์‹ค์ œ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ ๊ธฐ์กด ์ ‘๊ทผ์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ TacThru์˜ ๋™์‹œ ๋‹ค์ค‘๋ชจ๋‹ฌ ๊ฐ์ง€๋Š” ๋‹จ์ผ ์„ผ์„œ ์‹œ์Šคํ…œ์œผ๋กœ๋Š” ์–ด๋ ค์šด ๋ฏธ์„ธํ•œ ์กฐ์ž‘๊ณผ ์—ฐ์† ๋ชจ๋‹ฌ ์ „ํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ง„์ „์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์„ผ์„œ ์„ค๊ณ„๊ฐ€ ๋น„๊ต์  ๋‹จ์ˆœํ•ด ๋‹ค๋ฅธ ์‹œ์Šคํ…œ์— ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ํ‘œ์ค€ ์ด๋ฏธ์ง€ ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด ๋„์ž… ์žฅ๋ฒฝ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋Š” TacThru๋ฅผ ์—ฌ๋Ÿฌ ์†๊ฐ€๋ฝ์— ํ™•์žฅํ•˜๊ฑฐ๋‚˜ ๋”์šฑ ๋ณต์žกํ•œ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์—๋„ ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•œ ์‚ฌ์ „ํ•™์Šต, ๋” ๋ฐœ์ „๋œ ๋น„์ „-์ด‰๊ฐ ํ†ตํ•ฉ ๋„คํŠธ์›Œํฌ ๊ฐœ๋ฐœ ๋“ฑ๋„ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ TacThru-UMI ๊ฐ™์€ ์‹œ์Šคํ…œ์€ ๋กœ๋ด‡์ด ๋งˆ์น˜ ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋ณด๋ฉด์„œ ๋งŒ์ง€๋Š” ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee