Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 1. ๊ฐœ์š” ๋ฐ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ
    • 2.2 2. Visuo-Tactile Fusion ๋ฐฉ์‹
      • 2.2.1 ๐Ÿ“Œ ํ•ต์‹ฌ ๊ตฌ์กฐ
      • 2.2.2 ๐Ÿง  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์žฅ์ 
    • 2.3 3. ์กฐ์ž‘ ์ •์ฑ… ๋ชจ๋ธ ๊ตฌ์กฐ
      • 2.3.1 ๐Ÿ”ง 2๋‹จ๊ณ„ ๊ตฌ์กฐ
      • 2.3.2 ๐Ÿค– ํ–‰๋™ ์ƒ์„ฑ ๋ฐฉ์‹
    • 2.4 4. ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ํ’ˆ์งˆ
      • 2.4.1 ๐Ÿ“Š ๊ตฌ์„ฑ ๊ฐœ์š”
      • 2.4.2 ๐Ÿ“ท ์ˆ˜์ง‘ ๋ฐฉ์‹
      • 2.4.3 ๐Ÿ“‰ ํ•œ๊ณ„์ 
    • 2.5 5. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ํ•œ๊ณ„
      • 2.5.1 ๐Ÿงช ์ฃผ์š” ์‹คํ—˜ ์ž‘์—… (4๊ฐœ)
      • 2.5.2 ๐Ÿงช ์‹คํ—˜ ์„ค๊ณ„
      • 2.5.3 ๐Ÿ“Š ์„ฑ๋Šฅ ๋น„๊ต
      • 2.5.4 ๐Ÿงฉ ํ•œ๊ณ„
    • 2.6 โœ๏ธ ๊ฒฐ๋ก  ๋ฐ ๋ถ„์„ ์š”์•ฝ

๐Ÿ“ƒTouch in the Wild ๋ฆฌ๋ทฐ

touch
visuo-tactile
gripper
Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper
Published

July 18, 2025

  • Paper Link
  • Github Link
  • Project Link
  1. ์ด ์—ฐ๊ตฌ๋Š” ํœด๋Œ€ ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ€๋ฒผ์šด ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ํ†ตํ•ฉ๋œ ๊ทธ๋ฆฌํผ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‹œ๊ฐ ๋ฐ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋™๊ธฐํ™”ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  2. ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์‹œ๊ฐ ๋ฐ ์ด‰๊ฐ ์‹ ํ˜ธ์˜ ๊ณ ์œ ํ•œ ํŠน์„ฑ์„ ๋ณด์กดํ•˜๋ฉด์„œ ์ด๋“ค์„ ํ†ตํ•ฉํ•˜๋Š” ๊ต์ฐจ ๋ชจ๋‹ฌ ํ‘œํ˜„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ์ƒํ˜ธ์ž‘์šฉ ๊ด€๋ จ ์ ‘์ด‰ ์˜์—ญ์— ์ง‘์ค‘ํ•˜๋Š” ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  3. ์ด ํ‘œํ˜„์€ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผœ, ์™ธ๋ถ€ ๊ต๋ž€์—๋„ ๊ฒฌ๊ณ ํ•œ ์ •๋ฐ€ ์กฐ์ž‘(์˜ˆ: ์‹œํ—˜๊ด€ ์‚ฝ์ž…, ํ”ผํŽซ์„ ์ด์šฉํ•œ ์œ ์ฒด ์ด๋™)์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

1 Brief Review

์ด ๋…ผ๋ฌธ์€ ์ •๋ฐ€ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘์— ํ•„์ˆ˜์ ์ธ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ํœด๋Œ€ ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฐ€๋ฒผ์šด ์ด‰๊ฐ-์‹œ๊ฐ ๊ทธ๋ฆฌํผ(visuo-tactile gripper)์™€ ์ด์— ๊ธฐ๋ฐ˜ํ•œ ํฌ๋กœ์Šค-๋ชจ๋‹ฌ(cross-modal) ํ‘œํ˜„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํ•ธ๋“œํ—ฌ๋“œ ๊ทธ๋ฆฌํผ๋Š” ์‹œ๊ฐ ์ •๋ณด์—๋งŒ ์˜์กดํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ(in-the-wild)์—์„œ์˜ ์„ธ๋ฐ€ํ•œ ์ ‘์ด‰ ๊ธฐ๋ฐ˜ ์กฐ์ž‘์— ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค:

  1. ํœด๋Œ€ ๊ฐ€๋Šฅํ•œ ๊ฒฌ๊ณ ํ•œ ์ด‰๊ฐ ํ•˜๋“œ์›จ์–ด์˜ ๋ถ€์žฌ,

  2. ์ด์งˆ์ ์ธ ์ด‰๊ฐ ๋ฐ ์‹œ๊ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํšจ๊ณผ์ ์ธ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ์–ด๋ ค์›€.

ํ•˜๋“œ์›จ์–ด ์‹œ์Šคํ…œ:

์ œ์•ˆ๋œ ํœด๋Œ€์šฉ ์ด‰๊ฐ-์‹œ๊ฐ ๊ทธ๋ฆฌํผ๋Š” ์†Œํ”„ํŠธํ•˜๊ณ  ํ•€ ๋ชจ์–‘์˜ ์†๊ฐ€๋ฝ์— ์œ ์—ฐํ•œ ์••์ „์ €ํ•ญ(piezoresistive) ์ด‰๊ฐ ์„ผ์„œ๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ผ์„œ๋Š” 3D-ViTac์˜ 3์ค‘ ๋ ˆ์ด์–ด ๋””์ž์ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐœ์„  ์‚ฌํ•ญ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค:

  1. ๋†’์€ ๊ณต๊ฐ„ ํ•ด์ƒ๋„: ๊ธฐ์กด ์Šคํ…Œ์ธ๋ฆฌ์Šค ์Šคํ‹ธ ์ „๊ทน ๋Œ€์‹  FPC(Flexible Printed Circuits) ์ „๊ทน์„ ์‚ฌ์šฉํ•˜์—ฌ ํŒจ๋“œ๋‹น 12 \times 32 ํ…์…€(taxel)์˜ ํ•ด์ƒ๋„(๊ฐ ํ…์…€ 2 \times 2 \text{mm}^2 ์˜์—ญ)๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋ฏธ์„ธํ•˜๊ณ  ๋™์ ์ธ ์ ‘์ด‰ ํŒจํ„ด์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋น ๋ฅด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ์ œ์กฐ: FPC๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋„๊ตฌ ์—†์ด 5๋ถ„ ์ด๋‚ด์— ๊ฐ ํŒจ๋“œ๋ฅผ ์ œ์ž‘ํ•˜๊ณ  ๊ทธ๋ฆฌํผ์— ๋ถ€์ฐฉํ•  ์ˆ˜ ์žˆ์–ด ๋Œ€๊ทœ๋ชจ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์— ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ทธ๋ฆฌํผ๋Š” ๋งž์ถคํ˜• Arduino ๊ธฐ๋ฐ˜ PCB์™€ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋ฐฐํ„ฐ๋ฆฌ๋ฅผ ํฌํ•จํ•˜์—ฌ ์•ฝ 962g์œผ๋กœ ์žฅ์‹œ๊ฐ„ ์‚ฌ์šฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ fisheye ์นด๋ฉ”๋ผ์˜ ์‹œ๊ฐ ์ •๋ณด์™€ ์ด‰๊ฐ ์„ผ์„œ์˜ ๋ฐ์ดํ„ฐ๋ฅผ 23Hz๋กœ ๋™๊ธฐํ™”ํ•˜์—ฌ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ์‹œ๊ฐ-์ด‰๊ฐ ๋ฐ์ดํ„ฐ์˜ ์ •๋ฐ€ํ•œ ์ •๋ ฌ์„ ์œ„ํ•ด ํ•˜๋“œ์›จ์–ด ์—†์ด QR ์ฝ”๋“œ๋ฅผ ํ†ตํ•œ ํ˜ธ์ŠคํŠธ ์‹œ๊ฐ„ ๋™๊ธฐํ™” ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์ŠคํŠธ๋ฆผ์€ ๊ฐ ๋ฐ๋ชจ ์‹œ์ž‘ ์ „์— ํ˜„์žฌ ํ˜ธ์ŠคํŠธ ์‹œ๊ฐ„์„ ํ‘œ์‹œํ•˜๋Š” QR ์ฝ”๋“œ๋ฅผ 30Hz๋กœ ์นด๋ฉ”๋ผ์— ๋ณด์—ฌ์ฃผ๊ณ , ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋Š” ROS2๋ฅผ ํ†ตํ•ด 23Hz๋กœ ํ˜ธ์ŠคํŠธ ํด๋ก ํƒ€์ž„์Šคํƒฌํ”„์™€ ํ•จ๊ป˜ ๋ฐœํ–‰๋ฉ๋‹ˆ๋‹ค. ์˜คํ”„๋ผ์ธ ํ›„์ฒ˜๋ฆฌ์—์„œ ์ด ๊ณต์œ  ํด๋ก ์ฐธ์กฐ๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ ๋ฐ ์ด‰๊ฐ ๊ธฐ๋ก์„ ์ •๋ ฌํ•ฉ๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•๋ก :

์ด ๋…ผ๋ฌธ์€ ๋‘ ๋‹จ๊ณ„์˜ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

1๋‹จ๊ณ„: ์ด‰๊ฐ-์‹œ๊ฐ ํ‘œํ˜„ ํ•™์Šต (Visuo-Tactile Representation Learning)

์ด ๋‹จ๊ณ„์˜ ๋ชฉํ‘œ๋Š” ์ด‰๊ฐ-์‹œ๊ฐ ์—”์ฝ”๋” E_{\phi}๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ I \in R^{3 \times 224 \times 224}์™€ ์ด‰๊ฐ T \in R^{1 \times 24 \times 32} ์ž…๋ ฅ์„ ๊ณต๋™ ํ‘œํ˜„ z_{\text{fusion}} = E_{\phi}(I, T)๋กœ ์œตํ•ฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋งˆ์Šคํ‚น๋œ ์˜คํ† ์ธ์ฝ”๋”ฉ(masked autoencoding) ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€์กฐ ํ•™์Šต(contrastive learning)์ด ์ด‰๊ฐ ์„ผ์„œ์˜ ๋ฏธ์„ธํ•œ ์ง€์˜ค๋ฉ”ํŠธ๋ฆฌ ๋ฏผ๊ฐ ์‹ ํ˜ธ๋ฅผ ์–ต์ œํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•˜์—ฌ, ๋ถ€๋ถ„์ ์œผ๋กœ ๊ด€์ธก๋œ ์ด‰๊ฐ ์ž…๋ ฅ๊ณผ ์‹œ๊ฐ์  ์ปจํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ์ „์ฒด ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ตœ์ ํ™” ๋ชฉํ‘œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: (\phi^*, \psi^*) = \text{arg min}_{\phi, \psi} E_{(I,T) \sim D_{\text{pretrain}}} ||T - D_{\psi}E_{\phi}(I, T)||_2^2 ์—ฌ๊ธฐ์„œ E_{\phi}๋Š” ์ด‰๊ฐ-์‹œ๊ฐ ์—”์ฝ”๋”์ด๊ณ  D_{\psi}๋Š” ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ ๋””์ฝ”๋”์ž…๋‹ˆ๋‹ค.

  • ์ด‰๊ฐ ์—”์ฝ”๋”:
    • ๋‘ ๊ฐœ์˜ ์†๊ฐ€๋ฝ ๋ ํŒจ๋“œ๋กœ๋ถ€ํ„ฐ์˜ ์ด‰๊ฐ ํŒ๋…๊ฐ’(๊ฐ 1 \times 12 \times 32)์„ ์ˆ˜์ง์œผ๋กœ ์Œ“์•„ 1 \times 24 \times 32 ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ๋‹จ์ผ ์ฑ„๋„ ๋งต์€ ๊ณ ์ •๋œ ์ปฌ๋Ÿฌ๋งต(colormap)์„ ํ†ตํ•ด 3์ฑ„๋„ RGB ์ด‰๊ฐ ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
    • ์ด ์ด๋ฏธ์ง€๋Š” 4 \times 4 ํŒจ์น˜๋กœ ๋ถ„ํ• ๋˜์–ด 6 \times 8 ํŒจ์น˜ ๊ทธ๋ฆฌ๋“œ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ํ•™์Šต ์ค‘์—๋Š” 95%์˜ ์ƒ˜ํ”Œ์—์„œ 60-80%์˜ ํŒจ์น˜๋ฅผ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํ† ํฐ T_{\text{mask}}๋กœ ๋ฌด์ž‘์œ„ ๋งˆ์Šคํ‚นํ•ฉ๋‹ˆ๋‹ค.
    • ๋งˆ์Šคํ‚น๋œ ์ด‰๊ฐ ์ž…๋ ฅ T_{\text{visible}}์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: T_{\text{visible}} = M \odot T + (1 - M) \odot T_{\text{mask}} (M \in \{0, 1\}^{6 \times 8}์€ ์ด์ง„ ํŒจ์น˜ ๋งˆ์Šคํฌ).
    • T_{\text{visible}}์€ 3๊ณ„์ธต CNN์„ ํ†ตํ•ด 768์ฐจ์›์˜ ์ž„๋ฒ ๋”ฉ z_{\text{tac}}๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐ ์—”์ฝ”๋”:
    • RGB ์ด๋ฏธ์ง€ I๋Š” CLIP์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ ViT-B/16 ์—”์ฝ”๋”์— ์˜ํ•ด ์ฒ˜๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
    • ๋ชจ๋“  ๋ ˆ์ด์–ด๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋ฉฐ, ์ตœ์ข… [CLS] ํ† ํฐ์ด 768์ฐจ์›์˜ ์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ z_{\text{img}}๋กœ ์ถ”์ถœ๋ฉ๋‹ˆ๋‹ค.
  • ํฌ๋กœ์Šค-๋ชจ๋‹ฌ ์œตํ•ฉ:
    • ์ด‰๊ฐ ๋ฐ ์‹œ๊ฐ ํŠน์ง•์„ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋ผ์šด๋“œ์˜ ๋ฉ€ํ‹ฐ-ํ—ค๋“œ ํฌ๋กœ์Šค-์–ดํ…์…˜(Multi-Head Cross-Attention, MHAttn)์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • z'_{\text{tac}} = \text{MHAttn}(Q = z_{\text{tac}}, K = z_{\text{img}}, V = z_{\text{img}}) \xrightarrow{\text{LayerNorm}} z''_{\text{tac}}
    • z'_{\text{img}} = \text{MHAttn}(Q = z_{\text{img}}, K = z''_{\text{tac}}, V = z''_{\text{tac}}) \xrightarrow{\text{LayerNorm}} z''_{\text{img}}
    • ์—…๋ฐ์ดํŠธ๋œ ์ž„๋ฒ ๋”ฉ์„ ์—ฐ๊ฒฐํ•˜์—ฌ ์œตํ•ฉ๋œ ํ‘œํ˜„ z_{\text{fusion}} = [z''_{\text{tac}}; z''_{\text{img}}] \in R^{2d}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค.
  • ์ด‰๊ฐ ์žฌ๊ตฌ์„ฑ ๋””์ฝ”๋”:
    • ์œตํ•ฉ๋œ ํŠน์ง• z_{\text{fusion}}์€ 2๊ณ„์ธต MLP์™€ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผํ•˜์—ฌ ์žฌ๊ตฌ์„ฑ๋œ ์ด‰๊ฐ ์ด๋ฏธ์ง€ \hat{T} \in R^{1 \times 24 \times 32}๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์†์‹ค ํ•จ์ˆ˜๋Š” ์ „์ฒด ์ด๋ฏธ์ง€ ์žฌ๊ตฌ์„ฑ ์†์‹ค L_{\text{stage1}}(\phi, \psi) = ||T - \hat{T}||_2^2์ž…๋‹ˆ๋‹ค.
  • EMA(Exponential Moving Average)๋ฅผ ํ†ตํ•ด ํƒ€๊ฒŸ ์—”์ฝ”๋”๋ฅผ ์•ˆ์ •ํ™”ํ•ฉ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: ํ–‰๋™ ๋ณต์ œ(Behavior Cloning)๋ฅผ ํ†ตํ•œ ์ •์ฑ… ํ•™์Šต (Policy Learning)

์‚ฌ์ „ ํ•™์Šต๋œ ์ด‰๊ฐ-์‹œ๊ฐ ์—”์ฝ”๋” E_{\phi}๋Š” ์กฐ๊ฑด๋ถ€ Diffusion Policy์— ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค.

  • ๊ด€์ธก ๊ณต๊ฐ„: ๊ฐ ํƒ€์ž„์Šคํ… t์—์„œ ๋กœ๋ด‡์€ raw ์„ผ์„œ ์ž…๋ ฅ (I_t, T_t, p_t)๋ฅผ ๋ฐ›์Šต๋‹ˆ๋‹ค. I_t์™€ T_t๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์—”์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ด‰๊ฐ-์‹œ๊ฐ ์ž„๋ฒ ๋”ฉ z_t = E_{\phi}(I_t, T_t)๋ฅผ ์ƒ์„ฑํ•˜๊ณ , p_t๋Š” ๊ณ ์œ  ์ˆ˜์šฉ์„ฑ ์ƒํƒœ(end-effector pose, gripper width ๋“ฑ)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. Diffusion Policy๋Š” o_t = (z_t, p_t)์— ๋”ฐ๋ผ ์กฐ๊ฑดํ™”๋ฉ๋‹ˆ๋‹ค.
  • Diffusion Policy: ์•ก์…˜์„ ์ง์ ‘ ํšŒ๊ท€ํ•˜๋Š” ๋Œ€์‹  ๋…ธ์ด์ฆˆ ์˜ˆ์ธก๊ธฐ \hat{\epsilon}_t^k = \epsilon_{\theta}(a_t^k, o_t, k)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • ์†์‹ค ํ•จ์ˆ˜: L_{\text{stage2}} = E_{t,k}[||\epsilon_t^k - \hat{\epsilon}_t^k||_2^2].
  • ์ถ”๋ก  ์‹œ์—๋Š” a_t^K \sim N(0, I)์—์„œ ์‹œ์ž‘ํ•˜์—ฌ K ์Šคํ… ๋™์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค: a_t^{k-1} = \alpha a_t^k - \gamma \epsilon_{\theta}(a_t^k, o_t, k) + N(0, \sigma^2I).
  • ๋ชจ๋“  ์—”์ฝ”๋” ๊ตฌ์„ฑ ์š”์†Œ(CLIP ๋ฐฑ๋ณธ, ์ด‰๊ฐ CNN, ํฌ๋กœ์Šค-์–ดํ…์…˜ ๋ ˆ์ด์–ด)๋Š” ์ด ๋‹จ๊ณ„์—์„œ ๋ฏธ์„ธ ์กฐ์ •๋ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ:

์ด ์‹œ์Šคํ…œ์€ โ€œtest tube insertionโ€๊ณผ โ€œpipette-based fluid transferโ€์™€ ๊ฐ™์€ ๋„ค ๊ฐ€์ง€ ์‹ค์ œ ํ™˜๊ฒฝ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ์ด‰๊ฐ-์‹œ๊ฐ ๋ฐ์ดํ„ฐ์…‹: 12๊ฐœ์˜ ์‹ค๋‚ด ๋ฐ ์‹ค์™ธ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘๋œ 2700๊ฐœ ์ด์ƒ์˜ ๋ฐ๋ชจ์™€ 260๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ด‰๊ฐ-์‹œ๊ฐ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ํ•ต์‹ฌ ์ž‘์—…, ๊ธฐํƒ€ ์‹ค๋‚ด ์ž‘์—…, ๊ทธ๋ฆฌ๊ณ  30๊ฐœ ์ด์ƒ์˜ ์•ผ์™ธ(in-the-wild) ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
  • ์ •์„ฑ์  ๋ถ„์„: ์‚ฌ์ „ ํ•™์Šต๋œ ์—”์ฝ”๋”๋Š” ๋ถ€๋ถ„์ ์œผ๋กœ ๋งˆ์Šคํ‚น๋œ ์ด‰๊ฐ ๋ฐ RGB ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๋ˆ„๋ฝ๋œ ์ด‰๊ฐ ์ž…๋ ฅ์„ ์„ฑ๊ณต์ ์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ViT์˜ self-attention ๋งต์€ ๋ฐฐ๊ฒฝ์ด๋‚˜ ๊ฐ์ฒด์˜ ์ข…๋ฅ˜์— ๊ด€๊ณ„์—†์ด ๊ทธ๋ฆฌํผ ์ ‘์ด‰ ์˜์—ญ์— ์ผ๊ด€๋˜๊ฒŒ ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ์žฌ๊ตฌ์„ฑ ์†์‹ค์ด ๋‚ฎ์•„์ง€๊ณ , ์–ดํ…์…˜ ๋งต์ด ๋” ์„ ๋ช…ํ•˜๊ฒŒ ๊ทธ๋ฆฌํผ ์ ‘์ด‰ ์˜์—ญ์— ์ง‘์ค‘ํ•˜๋ฉฐ, ์žฌ๊ตฌ์„ฑ๋œ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ์ค„๊ณ  ๊ตฌ์กฐ๊ฐ€ ๋ช…ํ™•ํ•ด์ง‘๋‹ˆ๋‹ค.
  • ์ •๋Ÿ‰์  ํ‰๊ฐ€: โ€œVision-Onlyโ€, โ€œOurs w/o Cross Attentionโ€, โ€œOurs w/o Pretrainingโ€ ๋“ฑ ์—ฌ๋Ÿฌ baseline๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ œ์•ˆํ•˜๋Š” โ€œOurs w/ Pretrainingโ€ ๋ฐฉ๋ฒ•์ด ๋ชจ๋“  ์„ธ๋ถ€ ์ž‘์—… ๋ฐ ์ „์ฒด ์ž‘์—…์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, โ€œTest Tube Collectionโ€๊ณผ โ€œFluid Transferโ€ ๊ฐ™์€ ๋ฏธ์„ธ ์กฐ์ž‘ ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ถ„์„:
    1. ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์€ ๋ช…์‹œ์ ์ธ โ€œin-handโ€ ์ƒํƒœ ์ •๋ณด๋ฅผ ์ œ๊ณต: ์‹œ๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ๊ฐ์ฒด ๊ฐ€๋ ค์ง์ด๋‚˜ ๋ชจํ˜ธํ•œ ์‹œ๊ฐ์  ๋‹จ์„œ(์˜ˆ: ์‹œํ—˜๊ด€ ์žฌ๋ฐฐ์น˜ ์ค‘ ์ฝ”๋ฅดํฌ ์ƒ‰์ƒ ๋ณ€ํ™”)๋กœ ์ธํ•ด ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ์‰ฝ์ง€๋งŒ, ์ด‰๊ฐ ์ •์ฑ…์€ ์ด๋Ÿฌํ•œ ๋ณ€ํ™”์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    2. ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์€ ์ค‘์š”ํ•œ ์ƒํƒœ ์ „ํ™˜ ๊ฐ์ง€๋ฅผ ํ–ฅ์ƒ: โ€œFluid Transferโ€์™€ ๊ฐ™์ด ๋ฏธ์„ธํ•œ ํž˜ ์ œ์–ด๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์‹œ๊ฐ ์ •์ฑ…์€ ์••๋ ฅ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜๊ธฐ ์–ด๋ ต์ง€๋งŒ, ์ด‰๊ฐ ์ •์ฑ…์€ ๋ฏธ๋ฌ˜ํ•œ ํž˜ ๋ณ€ํ™”๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ •ํ™•ํ•œ ๋‹จ๊ณ„ ์ „ํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    3. ๊ณต๋™ ์ด‰๊ฐ-์‹œ๊ฐ ์—”์ฝ”๋”๋Š” ์‹œ๊ฐ๊ณผ ์ด‰๊ฐ์˜ ์กฐํ™”๋กœ์šด ์‚ฌ์šฉ ๊ฐ€๋Šฅ: ๋‹จ์ˆœํ•œ ํŠน์ง• ์—ฐ๊ฒฐ(ํฌ๋กœ์Šค-์–ดํ…์…˜ ์—†๋Š” ์ •์ฑ…)์€ ํ•œ ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•  ์ˆ˜ ์žˆ์ง€๋งŒ(์˜ˆ: ํ™”์ดํŠธ๋ณด๋“œ ์ง€์šฐ๊ธฐ์—์„œ ๊ณผ๋„ํ•œ ํž˜ ์ ์šฉ), ๊ณต๋™ ํ•™์Šต๋œ ์—”์ฝ”๋”๋Š” ์‹œ๊ฐ์  ๋งฅ๋ฝ๊ณผ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์— ๋”ฐ๋ผ ํž˜์„ ์ ์ ˆํžˆ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค.
  • ์‚ฌ์ „ ํ•™์Šต ์ œ๊ฑฐ ์—ฐ๊ตฌ(Ablation Study): ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ๋ฐ ๋‚ฎ์€ ์—ํฌํฌ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์ „ ํ•™์Šต์ด ์ •์ฑ… ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์ด์ ์„ ์ œ๊ณตํ•จ์ด ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ์ •์ฑ…์€ ๋” ๋ถ€๋“œ๋Ÿฌ์šด ๊ถค์ ์„ ๋”ฐ๋ฅด๋ฉฐ, ์ดˆ๊ธฐ ํ™˜๊ฒฝ ๊ตฌ์„ฑ์— ๋” ๊ฒฌ๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ์ „ ํ•™์Šต์ด ์ด‰๊ฐ-์‹œ๊ฐ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์กฐ๊ธฐ์— ํ•™์Šตํ•˜์—ฌ, downstream ์ •์ฑ…์ด ํšจ๊ณผ์ ์ธ ์•ก์…˜ ๊ถค์  ํ•™์Šต์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์–ดํ…์…˜ ๋งต ๋ถ„์„ ๊ฒฐ๊ณผ, ์‚ฌ์ „ ํ•™์Šต๋œ ์ •์ฑ…์€ ๊ทธ๋ฆฌํผ-๊ฐ์ฒด ์ ‘์ด‰ ์˜์—ญ์— ์ง‘์ค‘ํ•˜๋Š” ๋ฐ˜๋ฉด, ์‚ฌ์ „ ํ•™์Šต ์—†๋Š” ์ •์ฑ…์€ ๊ด€๋ จ ์—†๋Š” ๋ฐฐ๊ฒฝ ์š”์†Œ์— ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด ์„ฑ๋Šฅ ์ €ํ•˜๋ฅผ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก : ์ด ๋…ผ๋ฌธ์€ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ํ†ตํ•ฉ๋œ ํ•ธ๋“œํ—ฌ๋“œ ๊ทธ๋ฆฌํผ์™€ ์ด๋ฅผ ํ†ตํ•ด ์ˆ˜์ง‘๋œ ๋Œ€๊ทœ๋ชจ ์ด‰๊ฐ-์‹œ๊ฐ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ์ด‰๊ฐ-์‹œ๊ฐ ๊ณต๋™ ์—”์ฝ”๋”๊ฐ€ ๋‹จ์ผ ํŒ” ๋กœ๋ด‡์˜ ์ •๋ฐ€ ์กฐ์ž‘ ์ž‘์—…์—์„œ ์œ ์šฉํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋ฅผ ๋‹ค์ง€(multi-finger) ๋Šฅ์ˆ™ํ•œ ์†์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ๋”์šฑ ํ’๋ถ€ํ•˜๊ณ  ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.


2 Detail Review

Touch in the Wild โ€“ ํœด๋Œ€ํ˜• ์‹œ๊ฐ-์ด‰๊ฐ ๊ทธ๋ฆฌํผ๋กœ ์ •๋ฐ€ ์กฐ์ž‘์„ ํ•™์Šตํ•˜๋‹ค

2.1 1. ๊ฐœ์š” ๋ฐ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ

์ด ๋…ผ๋ฌธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ธ ๊ฐ€์ง€ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ „๊ฐœ๋ฉ๋‹ˆ๋‹ค:

  1. ํœด๋Œ€ํ˜• ์‹œ๊ฐ-์ด‰๊ฐ ๊ทธ๋ฆฌํผ ๊ฐœ๋ฐœ ๋…ผ๋ฌธ์—์„œ๋Š” 290g์— ๋ถˆ๊ณผํ•œ ๊ฐ€๋ณ๊ณ  ๋ฐฐํ„ฐ๋ฆฌ๋กœ ๊ตฌ๋™๋˜๋Š” ํœด๋Œ€ํ˜• ๊ทธ๋ฆฌํผ๋ฅผ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๊ฐœ์˜ ์†๊ฐ€๋ฝ์— ์ด˜์ด˜ํžˆ ๋ถ„ํฌ๋œ ์ด‰๊ฐ ์„ผ์„œ(12ร—32 ํ…์…€)๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ƒ๋‹จ์— fisheye RGB ์นด๋ฉ”๋ผ๊ฐ€ ๋ถ€์ฐฉ๋˜์–ด ์žˆ์–ด ์ด‰๊ฐ๊ณผ ์˜์ƒ ์ •๋ณด๋ฅผ ๋™์‹œ์— ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์‹ค์ œ ํ™˜๊ฒฝ(in-the-wild)์—์„œ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์‹œ์—ฐํ•˜๋ฉฐ ์‹œ๊ฐ-์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  2. Cross-modal Masked Autoencoder ๊ธฐ๋ฐ˜ Visuo-Tactile Representation Learning ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ ํ•ต์‹ฌ์€ ์‹œ๊ฐ ์ •๋ณด์™€ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ๋‹จ์ˆœํžˆ ๊ฒฐํ•ฉ(concatenation)ํ•˜์ง€ ์•Š๊ณ , ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์˜ ํŠน์„ฑ์„ ๋ณด์กดํ•œ ์ฑ„๋กœ ๊ต์ฐจ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(cross-attention)์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚นํ•œ ํ›„, ์ด๋ฅผ ์‹œ๊ฐ ์ •๋ณด๋กœ ๋ณด์™„ํ•˜์—ฌ ๋ณต์›ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋‘ ์„ผ์„œ ๊ฐ„์˜ ์ƒํ˜ธ ๋ณด์™„ ๊ด€๊ณ„๋ฅผ ๊ฐ•์ œ๋กœ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

  3. 2.6M ํ”„๋ ˆ์ž„, 2700๊ฐœ ์ด์ƒ์˜ ์‹œ์—ฐ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ Visuo-Tactile Dataset ๊ตฌ์ถ• ๋‹ค์–‘ํ•œ ์‹ค๋‚ด/์™ธ ํ™˜๊ฒฝ(12๊ณณ)์—์„œ 43๊ฐœ ์ž‘์—…์— ๋Œ€ํ•œ ์ดฌ์˜์„ ํ†ตํ•ด ์ •๋ฐ€ ์กฐ์ž‘ ์ž‘์—…์„ ํฌํ•จํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜์˜€์œผ๋ฉฐ, ์‹ค์ œ ์ด‰๊ฐ/์˜์ƒ ๋™๊ธฐํ™” ๋ฐฉ๋ฒ•์œผ๋กœ QR์ฝ”๋“œ ๊ธฐ๋ฐ˜ ํƒ€์ž„์Šคํƒฌํ”„ ์ •ํ•ฉ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ ๊ณ ๋น„์šฉ ์žฅ๋น„ ์—†์ด๋„ ์ •๋ฐ€ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ˆ˜์ง‘์ด ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค.

โœ… ์ •๋ฆฌํ•˜์ž๋ฉด, ์ด ๋…ผ๋ฌธ์€ ํ•˜๋“œ์›จ์–ด, ๋ฐ์ดํ„ฐ์…‹, ํ•™์Šต ๊ตฌ์กฐ๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์กฐ์ž‘ ํ•™์Šต์˜ end-to-end ์ „ํ™˜์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค๋ณด๋‹ค ํ•œ ๋‹จ๊ณ„ ๋†’์€ ํ˜„์‹ค์„ฑ, ํ™•์žฅ์„ฑ, ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

2.2 2. Visuo-Tactile Fusion ๋ฐฉ์‹

2.2.1 ๐Ÿ“Œ ํ•ต์‹ฌ ๊ตฌ์กฐ

  • ์ž…๋ ฅ ๋ถ„๋ฆฌ ์ฒ˜๋ฆฌ

    • ์‹œ๊ฐ: CLIP ViT-B/16 ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•ด 768์ฐจ์›์˜ embedding ์ถ”์ถœ
    • ์ด‰๊ฐ: 24ร—32 ์••๋ ฅ ํ–‰๋ ฌ์„ RGB ์ด๋ฏธ์ง€๋กœ ์ธ์ฝ”๋”ฉ ํ›„, ์ž‘์€ CNN์„ ํ†ตํ•ด 768์ฐจ์›์˜ embedding ์ƒ์„ฑ
  • Cross-modal Attention

    • ์ด‰๊ฐ์ด ์‹œ๊ฐ์„ ์ฟผ๋ฆฌํ•˜์—ฌ z_{\text{tac}} \rightarrow z'_{\text{tac}}๋กœ ์—…๋ฐ์ดํŠธ
    • ๋‹ค์‹œ ์‹œ๊ฐ์ด ์—…๋ฐ์ดํŠธ๋œ ์ด‰๊ฐ์„ ์ฟผ๋ฆฌํ•˜์—ฌ z_{\text{img}} \rightarrow z'_{\text{img}} ์ƒ์„ฑ
    • ์–‘๋ฐฉํ–ฅ ๊ต์ฐจ ์ฃผ์˜๋ฅผ ํ†ตํ•ด ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„ ์ •๋ณด๋ฅผ ์„œ๋กœ ๋ณด์™„ํ•˜๊ณ  ์กฐ์œจ
  • Masked Autoencoding ํ›ˆ๋ จ ๋ฐฉ์‹

    • ์ž…๋ ฅ ์ด‰๊ฐ ์ด๋ฏธ์ง€์˜ 60~80%๋ฅผ ๋งˆ์Šคํ‚น ํ›„ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ด์šฉํ•ด ์ „์ฒด๋ฅผ ๋ณต์›
    • reconstruction loss L_{\text{recon}} = |T - \hat{T}|^2์„ ์‚ฌ์šฉ โ†’ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์ง์ ‘ ๋ณต์›ํ•˜๊ฒŒ ํ•˜์—ฌ ๋‹จ์ˆœํ•œ ํ”ผ์ฒ˜ ๋ณ‘ํ•ฉ์ด ์•„๋‹Œ ์ง„์ •ํ•œ ์˜๋ฏธ์˜ โ€œ์œตํ•ฉโ€ ํ•™์Šต

2.2.2 ๐Ÿง  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์žฅ์ 

  • ์‹œ๊ฐ์  ์ฃผ์˜ ๋งต์„ ๋ณด๋ฉด ๋Œ€๋ถ€๋ถ„ ์ ‘์ด‰ ์œ„์น˜๋‚˜ ๋ฌผ์ฒด์™€์˜ ์ธํ„ฐํŽ˜์ด์Šค ์˜์—ญ์— ์ง‘์ค‘๋˜์–ด ์žˆ์Œ
  • ์ด attention์€ unseen ํ™˜๊ฒฝ์—์„œ๋„ ์ผ๊ด€๋˜๊ฒŒ ๋‚˜ํƒ€๋‚˜๋ฉฐ, ํ•™์Šต๋œ ์‹œ๊ฐ-์ด‰๊ฐ ํ‘œํ˜„์ด ์ผ๋ฐ˜ํ™”๋จ์„ ๋ณด์—ฌ์คŒ
  • ๋‹จ์ˆœํ•œ concat ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ •๋ฐ€ํ•œ ์ ‘์ด‰ ์ธ์‹๊ณผ ์œ„์น˜ ์ถ”๋ก ์ด ๊ฐ€๋Šฅ

๐Ÿ”Ž ํ•ต์‹ฌ ์š”์•ฝ: cross-attention ๊ตฌ์กฐ + reconstruction task์˜ ์กฐํ•ฉ์€, ๊ธฐ์กด์˜ ๋‹จ์ˆœ early-fusion ๊ธฐ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ์ •๊ตํ•˜๊ณ  ํšจ๊ณผ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

2.3 3. ์กฐ์ž‘ ์ •์ฑ… ๋ชจ๋ธ ๊ตฌ์กฐ

2.3.1 ๐Ÿ”ง 2๋‹จ๊ณ„ ๊ตฌ์กฐ

  1. Visuo-Tactile Encoder E_\phi(I, T)

    • ์•ž์„œ ์„ค๋ช…ํ•œ cross-modal encoder
    • ์‚ฌ์ „ํ•™์Šต(pretraining) ํ›„, ์ •์ฑ… ํ•™์Šต ์‹œ์—๋Š” fine-tuning ๊ฐ€๋Šฅ
  2. Diffusion Policy

    • ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ํ–‰๋™ ์ƒ์„ฑ: p(a_t | z_t, p_t)
    • ์ž…๋ ฅ์€ visuo-tactile embedding z_t์™€ proprioception p_t (gripper ์ƒํƒœ ๋“ฑ)
    • ์ •์ ์ธ MLP ๋Œ€์‹  ํ™•๋ฅ  ๊ธฐ๋ฐ˜ U-Net ๋ชจ๋ธ๋กœ, ๋” ์ •๊ตํ•œ ๋‹ค์ค‘๋ชจ๋“œ ํ–‰๋™ ์ƒ์„ฑ ๊ฐ€๋Šฅ

2.3.2 ๐Ÿค– ํ–‰๋™ ์ƒ์„ฑ ๋ฐฉ์‹

  • ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ noise โ†’ action์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ์‹
  • ํ•™์Šต ์‹œ ํ–‰๋™์— noise๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ , ์ด๋ฅผ ์—ญ์œผ๋กœ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต (Denoising Diffusion)
  • ์ด๋กœ ์ธํ•ด ๋‹จ์ผ ํ–‰๋™ ์˜ˆ์ธก๋ณด๋‹ค ๋” ์ •๊ตํ•˜๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ํ–‰๋™ ์‹œํ€€์Šค ์ƒ์„ฑ ๊ฐ€๋Šฅ

โœ… ์ด ๊ตฌ์กฐ ๋•๋ถ„์— ๋ณต์žกํ•œ ์กฐ์ž‘์—์„œ๋„ ํ–‰๋™์ด ํ•œ๊ฒฐ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ ‘์ด‰์ด ์ค‘์š”ํ•œ ์ž‘์—…์—์„œ ์ž‘์€ ๊ฐ๊ฐ ํ”ผ๋“œ๋ฐฑ ์ฐจ์ด๋„ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2.4 4. ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ํ’ˆ์งˆ

2.4.1 ๐Ÿ“Š ๊ตฌ์„ฑ ๊ฐœ์š”

  • ์ด 2.6M ํ”„๋ ˆ์ž„, 2700๊ฐœ ์ด์ƒ์˜ ์‹œ์—ฐ, 43๊ฐ€์ง€ ์ž‘์—…

  • ๋ถ„๋ฅ˜:

    • Main indoor tasks (38%) โ€“ ๋…ผ๋ฌธ ์‹คํ—˜์šฉ ํ•ต์‹ฌ ์ž‘์—…
    • Other indoor tasks (37%) โ€“ ๋‹ค์–‘ํ•œ ๋ณด์กฐ ์ž‘์—…
    • Outdoor tasks (25%) โ€“ ์‹œ์žฅ, ๊ฑฐ๋ฆฌ, ๊ณต์› ๋“ฑ in-the-wild ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰

2.4.2 ๐Ÿ“ท ์ˆ˜์ง‘ ๋ฐฉ์‹

  • GoPro ์นด๋ฉ”๋ผ + ์ด‰๊ฐ ์„ผ์„œ ๋™๊ธฐํ™”

    • QR์ฝ”๋“œ ๊ธฐ๋ฐ˜ ํƒ€์ž„์Šคํƒฌํ”„ ์ •ํ•ฉ์œผ๋กœ ์ €๋น„์šฉ/๊ณ ์ •๋ฐ€ ๋™๊ธฐํ™” ๊ตฌํ˜„
  • ์‚ฌ๋žŒ์ด ์†์œผ๋กœ ์กฐ์ž‘ํ•˜๋ฉฐ ์ˆ˜์ง‘

    • ๋”์šฑ ์„ฌ์„ธํ•˜๊ณ  ์ •๊ตํ•œ ์กฐ์ž‘ ํฌํ•จ ๊ฐ€๋Šฅ (ex. ํ”ผํŽซ ์•ก์ฒด ์˜ฎ๊ธฐ๊ธฐ, ์—ฐํ•„ ๊นŽ๊ธฐ)

2.4.3 ๐Ÿ“‰ ํ•œ๊ณ„์ 

  • ๋ณ‘๋ ฌ ์กฐ์ž‘์ด ์–ด๋ ค์›€: 2์ง€ ๊ทธ๋ฆฌํผ ๊ธฐ์ค€ ์ˆ˜์ง‘๋˜์–ด ๋ฉ€ํ‹ฐ ํ•‘๊ฑฐ ์กฐ์ž‘์—๋Š” ์ œ์•ฝ
  • ์‚ฌ๋žŒ์ด ์ˆ˜์ง‘ํ•˜๊ณ  ๋กœ๋ด‡์€ ํ•™์Šตํ•˜๋Š” ๊ตฌ์กฐ์ด๋ฏ€๋กœ domain gap ์กด์žฌ
  • ์ด‰๊ฐ ์„ผ์„œ ์ฃผํŒŒ์ˆ˜ ์ œํ•œ (23Hz): ๊ณ ์† slip, texture ๋ถ„๋ฅ˜ ๋“ฑ์€ ์–ด๋ ค์›€

๐ŸŒŸ ํ•˜์ง€๋งŒ, ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์€ ์ด‰๊ฐ-์‹œ๊ฐ ํ•™์Šต์„ ์œ„ํ•œ ํ˜„์‹ค์ ์ด๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋Š” ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ ๋ณด๊ธฐ ๋“œ๋ฌธ ๊ฐ•๋ ฅํ•œ ์žฅ์ ์ž…๋‹ˆ๋‹ค.

2.5 5. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ํ•œ๊ณ„

2.5.1 ๐Ÿงช ์ฃผ์š” ์‹คํ—˜ ์ž‘์—… (4๊ฐœ)

  1. Test Tube Insertion: ์ง‘๊ธฐ โ†’ ํšŒ์ „ โ†’ ์Šฌ๋กฏ ์‚ฝ์ž…
  2. Pencil Sharpening: ์—ฐํ•„ ํšŒ์ „ ๋ฐ ์ •๋ ฌ ํ›„ ๊ตฌ๋ฉ ์‚ฝ์ž…
  3. Fluid Transfer: ํ”ผํŽซ์„ ์žก๊ณ , ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์งœ์„œ ์•ก์ฒด ์ด๋™
  4. Whiteboard Erasing: ์ผ์ •ํ•œ ํž˜์œผ๋กœ ์น ํŒ ๋‹ฆ๊ธฐ

โ†’ ๊ณตํ†ต์ : ์ •๋ฐ€ ์ ‘์ด‰ ๋ฐ ํž˜ ์กฐ์ ˆ์ด ํ•„์š”ํ•œ ์ž‘์—…

2.5.2 ๐Ÿงช ์‹คํ—˜ ์„ค๊ณ„

  • 20๋ฒˆ์˜ ๋ฐ˜๋ณต ์‹คํ—˜ per ์ž‘์—…
  • ์ดˆ๊ธฐ ์ƒํƒœ ๋ฐ ๋ฐฐ๊ฒฝ ๋ณ€ํ˜•์„ ํ†ตํ•œ ์ผ๋ถ€ generalization ํ…Œ์ŠคํŠธ
  • ์„ธ๋ถ€ ๋‹จ๊ณ„๋ณ„(์ง‘๊ธฐ, ํšŒ์ „, ์‚ฝ์ž… ๋“ฑ) ์„ฑ๊ณต๋ฅ ๋„ ์ธก์ •ํ•˜์—ฌ ๋ถ„์„์˜ ์ •๋ฐ€๋„๋ฅผ ๋†’์ž„

2.5.3 ๐Ÿ“Š ์„ฑ๋Šฅ ๋น„๊ต

๋ฐฉ๋ฒ• Tactile ์‚ฌ์šฉ Cross-attn Pretrain Test Tube ์‚ฝ์ž… ์„ฑ๊ณต๋ฅ 
Vision Only โŒ - โœ… 25%
Vision + Tactile (no cross-attn) โœ… โŒ โœ… 50%
Vision + Tactile (no pretrain) โœ… โœ… โŒ 70%
Ours (full) โœ… โœ… โœ… 85%
  • Pretraining ๋ฐ Cross-attn์ด ์ •๋ฐ€ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ 2~3๋ฐฐ ํ–ฅ์ƒ์‹œํ‚ด
  • ํŠนํžˆ Vision๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ํˆฌ๋ช… ๋ฌผ์ฒด/๋ฏธ์„ธ ์ ‘์ด‰์—์„œ ์ƒํ™ฉ ํŒ๋‹จ ์‹คํŒจ๊ฐ€ ์ž์ฃผ ๋ฐœ์ƒ

2.5.4 ๐Ÿงฉ ํ•œ๊ณ„

  • ์‹คํ—˜์€ ๋ชจ๋‘ ๋กœ๋ด‡ ํŒ” ๊ธฐ๋ฐ˜ ๊ณ ์ •๋œ ์‹ค๋‚ด ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰ โ†’ โ€œ์ง„์งœ in-the-wildโ€ ๋ฐฐ์น˜๋Š” ์•„๋‹˜
  • ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ†ตํ•ฉ ์ •์ฑ…์€ ์—†์œผ๋ฉฐ, ๊ฐ ์ž‘์—…๋ณ„ ๊ฐœ๋ณ„ ์ •์ฑ… ํ•™์Šต
  • diffusion ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๊ณ„์‚ฐ๋Ÿ‰์ด ํฌ๋ฏ€๋กœ ์‹ค์‹œ๊ฐ„ ์ œ์–ด์— ํ•œ๊ณ„ ๊ฐ€๋Šฅ์„ฑ

โœ… ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์‹คํ—˜ ์„ค๊ณ„๋Š” ๊ฐ ๊ตฌ์„ฑ์š”์†Œ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ์ •๋Ÿ‰์ ์œผ๋กœ ์ž˜ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด ๋ฐฉ์‹์ด ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์กฐ์ž‘์— ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๋Šฅ ๊ฐœ์„ ์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ์ ์„ ์„ค๋“๋ ฅ ์žˆ๊ฒŒ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

2.6 โœ๏ธ ๊ฒฐ๋ก  ๋ฐ ๋ถ„์„ ์š”์•ฝ

  • ์‹œ๊ฐ-์ด‰๊ฐ ํ†ตํ•ฉ ์กฐ์ž‘ ํ•™์Šต์ด๋ผ๋Š” ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ•˜๋“œ์›จ์–ดโ€“๋ฐ์ดํ„ฐโ€“ํ•™์Šต ๊ตฌ์กฐ ์ธก๋ฉด์—์„œ ํ’€์–ด๋‚ธ ํ›Œ๋ฅญํ•œ ๋…ผ๋ฌธ
  • ํŠนํžˆ cross-modal fusion + reconstruction learning ๋ฐฉ์‹์€ ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต์—์„œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฐ„์˜ ์ •๋ณด ๊ตํ™˜์„ ๊ตฌ์กฐ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ ํฐ ๊ธฐ์—ฌ
  • ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ, ๋‹ค์–‘์„ฑ, ํ’ˆ์งˆ ๋˜ํ•œ ํƒ€ ์—ฐ๊ตฌ ๋Œ€๋น„ ๋งค์šฐ ์šฐ์ˆ˜
  • ๋‹ค๋งŒ ์‹ค์ œ ๋ฐฐ์น˜ ์‹œ domain shift, ๊ณ„์‚ฐ ๋น„์šฉ, ๋ฉ€ํ‹ฐํ•‘๊ฑฐ ํ™•์žฅ์„ฑ ๋“ฑ์˜ ๊ณผ์ œ๋Š” ๋‚จ์•„ ์žˆ์Œ

Copyright 2024, Jung Yeon Lee