Curieux.JY
  • JungYeon Lee
  • Post
  • ๐Ÿ•ธ๏ธ Graph
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด
    • ์„œ๋ก ๊ณผ ๋ฐฐ๊ฒฝ: ์ด‰๊ฐ ์œ„์น˜์ถ”์ •์€ ์™œ ์–ด๋ ค์šด๊ฐ€
    • ๋ฐฉ๋ฒ• ์ƒ์„ธ 1: ์ด‰๊ฐ์„ ๊ธฐํ•˜๋กœ, ๊ธฐํ•˜๋ฅผ ์ฝ”๋“œ๋กœ
    • ๋ฐฉ๋ฒ• ์ƒ์„ธ 2: codebook๊ณผ ์ž…์ž ํ•„ํ„ฐ ๋ฃจํ”„
    • YCB-Slide ๋ฐ์ดํ„ฐ์…‹
    • ์‹คํ—˜: ์ •ํ™•๋„์™€ ์ˆ˜๋ ด
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ 
    • ๊ด€๋ จ ์—ฐ๊ตฌ ์† ์ž๋ฆฌ๋งค๊น€
    • ์š”์•ฝ

๐Ÿ“ƒMidasTouch ๋ฆฌ๋ทฐ

tactile
localization
particle-filter
MidasTouch: Monte-Carlo inference over distributions across sliding touch
Published

June 22, 2026

  • Paper Link

  • Code Link

  • Dataset: YCB-Slide

  • Sudharshan Suresh, Zilin Si, Stuart Anderson, Michael Kaess, Mustafa Mukadam

  • Conference on Robot Learning (CoRL), 2022 (Oral)

  1. ๐Ÿ’ก MidasTouch๋Š” ์‹œ๊ฐ ์ •๋ณด ์—†์ด ์˜ค์ง ์ด‰๊ฐ๋งŒ์œผ๋กœ, ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๋ฌผ์ฒด ํ‘œ๋ฉด ์œ„์—์„œ vision-based tactile sensor(DIGIT)๊ฐ€ โ€œ์ง€๊ธˆ ์–ด๋””๋ฅผ ๋งŒ์ง€๊ณ  ์žˆ๋Š”๊ฐ€โ€๋ฅผ ์˜จ๋ผ์ธ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ์ „์—ญ ์ด‰๊ฐ ์œ„์น˜์ถ”์ •(global tactile localization) ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
  2. โš™๏ธ ํ•ต์‹ฌ์€ ๊ตญ์†Œ ํ‘œ๋ฉด ๊ธฐํ•˜๋ฅผ ์••์ถ• ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ฐ”๊พธ๋Š” tactile code network์™€, ๋ฌผ์ฒด๋ณ„๋กœ ๋ฏธ๋ฆฌ ๋งŒ๋“ค์–ด ๋‘” tactile codebook์„ ์ธก์ • ๋ชจ๋ธ๋กœ ํ™œ์šฉํ•ด SE(3) ํฌ์ฆˆ ๋ถ„ํฌ๋ฅผ ๊ฐฑ์‹ ํ•˜๋Š” Monte-Carlo ์ž…์ž ํ•„ํ„ฐ(particle filter)์˜ ๊ฒฐํ•ฉ์ž…๋‹ˆ๋‹ค.
  3. ๐ŸŽฏ ์ €์ž๋“ค์€ ๋‹จ์ผ ์ ‘์ด‰์˜ ๋ณธ์งˆ์  ๋ชจํ˜ธ์„ฑ์„ ์„ผ์„œ๋ฅผ โ€œ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฌ๋ฉฐ(sliding)โ€ ๋ˆ„์  ๊ด€์ธก์œผ๋กœ ํ•ด์†Œํ•˜๋Š” ์ ‘๊ทผ์„ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด 10๊ฐœ YCB ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์‹ค์ œยท์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šฌ๋ผ์ด๋”ฉ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ด์€ YCB-Slide ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

MidasTouch๋Š” vision-based tactile sensor๊ฐ€ ์•Œ๋ ค์ง„ ๋ฌผ์ฒด์˜ ํ‘œ๋ฉด ์œ„๋ฅผ ๋ฏธ๋„๋Ÿฌ์งˆ ๋•Œ, ๊ทธ ์„ผ์„œ๊ฐ€ ํ‘œ๋ฉด์˜ ์–ด๋А ์ง€์ ์— ์žˆ๋Š”์ง€๋ฅผ ์˜จ๋ผ์ธ์œผ๋กœ ์ถ”์ •ํ•˜๋Š” ์ด‰๊ฐ ์œ„์น˜์ถ”์ • ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์นด๋ฉ”๋ผ๋กœ ๋ฌผ์ฒด ์ „์ฒด๋ฅผ ๋ณด๋Š” visual localization๊ณผ ๋‹ฌ๋ฆฌ, ์—ฌ๊ธฐ์„œ๋Š” ์†๊ฐ€๋ฝ ๋์˜ ์ž‘์€ ์ด‰๊ฐ ํŒจ์น˜ ํ•˜๋‚˜๋งŒ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์ฃผ๋จธ๋‹ˆ ์†์—์„œ ์—ด์‡ ๋ฅผ ์ฐพ์„ ๋•Œ ๋ˆˆ์„ ๊ฐ๊ณ  ์†๋์˜ ๊ฐ์ด‰๋งŒ์œผ๋กœ ์œ„์น˜๋ฅผ ๋”๋“ฌ์–ด ๊ฐ€๋Š” ์ƒํ™ฉ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ์˜ ์ ‘์ด‰๋งŒ์œผ๋กœ๋Š” โ€œํ‘œ๋ฉด ์–ด๋”˜๊ฐ€์˜ ๋น„์Šทํ•˜๊ฒŒ ์ƒ๊ธด ์—ฌ๋Ÿฌ ํ›„๋ณดโ€ ๋•Œ๋ฌธ์— ์œ„์น˜๊ฐ€ ํ•˜๋‚˜๋กœ ์ •ํ•ด์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. MidasTouch๋Š” ์ด ๋ชจํ˜ธ์„ฑ์„ ์„ผ์„œ๋ฅผ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฌ๋ฉฐ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ด€์ธก์„ ๋ˆ„์ ํ•ด ์ ์ฐจ ์ขํ˜€ ๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ํ’€์–ด๋ƒ…๋‹ˆ๋‹ค.


MidasTouch ์ „์ฒด ๊ฐœ์š”(Fig. 1): ์†๊ฐ€๋ฝ-๋ฌผ์ฒด ์ ‘์ด‰์—์„œ ์ด‰๊ฐ ๊นŠ์ด/์ฝ”๋“œ๋ฅผ ์ถ”์ถœํ•˜๊ณ , ๋ฌผ์ฒด๋ณ„ codebook๊ณผ ๋น„๊ตํ•ด ์ž…์ž ํ•„ํ„ฐ๋กœ ํ‘œ๋ฉด ์œ„ SE(3) ํฌ์ฆˆ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ฐฑ์‹ ํ•œ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

MidasTouch๋Š” ๋‘ ์ถ•์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ํ‘œ๋ฉด ๊ธฐํ•˜ ๊ธฐ๋ฐ˜์˜ ์••์ถ• ํ‘œํ˜„์œผ๋กœ ๋ฐ”๊พธ๋Š” tactile code์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๊ทธ ์ฝ”๋“œ๋ฅผ ์ธก์ •๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” Monte-Carlo ์ž…์ž ํ•„ํ„ฐ์ž…๋‹ˆ๋‹ค.

  1. ์ด‰๊ฐ ๊นŠ์ด ์ถ”์ • + tactile code network (TCN): ๋จผ์ € DIGIT์˜ RGB ์ด‰๊ฐ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๊ตญ์†Œ ํ‘œ๋ฉด์˜ heightmap๊ณผ ์ ‘์ด‰ ๋งˆ์Šคํฌ๋ฅผ ์ถ”์ •ํ•ด ์ž‘์€ 3D ๊ธฐํ•˜ ํŒจ์น˜๋ฅผ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค. ์ด 3D ํŒจ์น˜๋ฅผ sparse 3D convolution ๊ธฐ๋ฐ˜ ๋„คํŠธ์›Œํฌ(MinkowskiNet ๊ณ„์—ด, feature pyramid + generalized-mean pooling)์— ํ†ต๊ณผ์‹œ์ผœ 256์ฐจ์› ์ž„๋ฒ ๋”ฉ(tactile code)์œผ๋กœ ์••์ถ•ํ•ฉ๋‹ˆ๋‹ค. LIDAR place recognition์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ ๊ตฌ์กฐ๋กœ, TACTO๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•œ ๋‹ค์ˆ˜์˜ YCB ๋ฌผ์ฒด(ํ…Œ์ŠคํŠธ์™€ ๋ถ„๋ฆฌ๋œ ํ•™์Šต์šฉ ์ง‘ํ•ฉ) ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด triplet loss๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋น„์Šทํ•œ ๊ธฐํ•˜๋Š” ๊ฐ€๊น๊ฒŒ, ๋‹ค๋ฅธ ๊ธฐํ•˜๋Š” ๋ฉ€๊ฒŒ ์ž„๋ฒ ๋”ฉ๋˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

  2. Tactile codebook (๋ฌผ์ฒด๋ณ„ ์‚ฌ์ „): ์œ„์น˜์ถ”์ • ๋Œ€์ƒ ๋ฌผ์ฒด๋งˆ๋‹ค, ๋ฉ”์‹œ ํ‘œ๋ฉด์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•œ ๋‹ค์ˆ˜(์ˆ˜๋งŒ ๊ฐœ ๊ทœ๋ชจ)์˜ ์„ผ์„œ ํฌ์ฆˆ์— ๋Œ€ํ•ด ๋ฏธ๋ฆฌ tactile code๋ฅผ ๊ณ„์‚ฐํ•ด codebook์œผ๋กœ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค. KD-tree๋กœ ์ธ๋ฑ์‹ฑํ•ด ๋‘๋ฉด, ๋Ÿฐํƒ€์ž„์— ์ž„์˜ ํ‘œ๋ฉด ํฌ์ฆˆ์— ํ•ด๋‹นํ•˜๋Š” ์ฝ”๋“œ๋ฅผ ๋น ๋ฅด๊ฒŒ ์กฐํšŒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. Monte-Carlo ์ž…์ž ํ•„ํ„ฐ: ํ‘œ๋ฉด ์œ„ SE(3) ํฌ์ฆˆ์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๋‹ค์ˆ˜์˜ ์ž…์ž(particle)๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

    • ์šด๋™ ๋ชจ๋ธ(motion model): ์—”๋“œ์ดํŽ™ํ„ฐ ์˜ค๋„๋ฉ”ํŠธ๋ฆฌ(์ƒ๋Œ€ ์ด๋™)์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ•ด ์ž…์ž๋ฅผ ์ „์ง„์‹œํ‚ต๋‹ˆ๋‹ค.
    • ์ธก์ • ๋ชจ๋ธ(measurement model): ํ˜„์žฌ ๊ด€์ธก ์ฝ”๋“œ์™€ codebook์—์„œ ์กฐํšŒํ•œ ๊ฐ ์ž…์ž ์œ„์น˜์˜ ์ฝ”๋“œ ์‚ฌ์ด ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ softmax๋กœ ๋ณ€ํ™˜ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฆฌ์ƒ˜ํ”Œ๋ง/ํด๋Ÿฌ์Šคํ„ฐ๋ง: low-variance ๋ฆฌ์ƒ˜ํ”Œ๋ง์œผ๋กœ ๊ฐ€์ค‘์น˜ ๋†’์€ ์ž…์ž๋ฅผ ์‚ด๋ฆฌ๊ณ , ๊ณต๊ฐ„์ƒ์—์„œ ๊ตฐ์ง‘(์˜ˆ: DBSCAN)์„ ๋ฌถ์–ด ์ด์‚ฐ์ ์ธ ํฌ์ฆˆ ๊ฐ€์„ค(hypotheses)์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์‹ค์ œ DIGIT ์ด‰๊ฐ ์ด๋ฏธ์ง€์—์„œ heightmap๊ณผ ์ ‘์ด‰ ๋งˆ์Šคํฌ๋ฅผ ์ถ”์ •ํ•˜๊ณ (Fig. 2 ๊ณ„์—ด), ์ด๋ฅผ ๊ตญ์†Œ 3D ๊ธฐํ•˜๋กœ ๋ณต์›ํ•˜๋Š” ๊ณผ์ •. ์ด 3D ํŒจ์น˜๊ฐ€ tactile code ์ž…๋ ฅ์ด ๋œ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ:

  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šฌ๋ผ์ด๋”ฉ ์‹คํ—˜(๋‹ค์ˆ˜ trial)์—์„œ ๋ง์น˜ยท๋“œ๋ฆดยท๊ฐ€์œ„์ฒ˜๋Ÿผ ๊ธฐํ•˜๊ฐ€ ๋šœ๋ ทํ•œ ๋„๊ตฌ๋ฅ˜๋Š” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•ด ์ž‘์€ ์ตœ์ข… ํฌ์ฆˆ ์˜ค์ฐจ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๊ณ , ์ปตยท์„คํƒ•์ƒ์žยท๋จธ์Šคํƒ€๋“œ๋ณ‘์ฒ˜๋Ÿผ ๋Œ€์นญ์ ์ด๊ฑฐ๋‚˜ ๋ฐ‹๋ฐ‹ํ•œ ๋ฌผ์ฒด์—์„œ๋Š” ์˜ค์ฐจ๊ฐ€ ๋” ์ปธ์Šต๋‹ˆ๋‹ค.
  • ์‹ค์ œ ํ™˜๊ฒฝ(handheld DIGIT, ๋ฌผ์ฒด ๊ณ ์ •, OptiTrack ๋ชจ์…˜์บก์ฒ˜)์—์„œ๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ํฐ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ ํƒ“์— ์˜ค์ฐจ๊ฐ€ ๋” ํฌ์ง€๋งŒ, ์—ฌ์ „ํžˆ ์˜๋ฏธ ์žˆ๋Š” ์ˆ˜๋ ด์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์•ผ๊ตฌ๊ณต์ฒ˜๋Ÿผ ํŠน์ง• ์—†๋Š” ๊ตฌ๋Š” ๋Œ€ํ‘œ์ ์ธ ์‹คํŒจ ์‚ฌ๋ก€์˜€์Šต๋‹ˆ๋‹ค.
  • tactile code๋Š” ์ผ๋ฐ˜์ ์ธ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ(์˜ˆ: ResNet ๊ธฐ๋ฐ˜ ํŠน์ง•)๋ณด๋‹ค ๋‹จ์ผ ์ ‘์ด‰ ๋งค์นญ์—์„œ ๋” ๋‚ฎ์€ ์˜ค์ฐจ๋ฅผ ๋ณด์˜€๊ณ , codebook ํฌ๊ธฐ๋„ ํ›จ์”ฌ ์ž‘์•˜์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก :

MidasTouch๋Š” โ€œ๋‹จ์ผ ์ด‰๊ฐ์€ ๋ชจํ˜ธํ•˜์ง€๋งŒ, ๋ฏธ๋„๋Ÿฌ์ง€๋ฉฐ ๋ˆ„์ ํ•˜๋ฉด ์ „์—ญ ์œ„์น˜์ถ”์ •์ด ๊ฐ€๋Šฅํ•˜๋‹คโ€๋Š” ๊ด€์ ์„ ์ž…์ž ํ•„ํ„ฐ์™€ ํ•™์Šต๋œ ์ด‰๊ฐ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•œ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์‹œ๊ฐ ์‚ฌ์ „์ •๋ณด ์—†์ด ์ด‰๊ฐ๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ํ›„์† ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•ด YCB-Slide ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

ํ•œ ์ค„๋กœ ์‹œ์ž‘ํ•˜๋ฉด

์ด‰๊ฐ ์œ„์น˜์ถ”์ •์˜ ๋ณธ์งˆ์  ์–ด๋ ค์›€์€ โ€œํ•œ ๋ฒˆ์˜ ์ ‘์ด‰์ด ๊ฑฐ์˜ ํ•ญ์ƒ ๋ชจํ˜ธํ•˜๋‹คโ€๋Š” ๋ฐ ์žˆ๋‹ค. MidasTouch๋Š” ์ด ๋ชจํ˜ธ์„ฑ์„ ์—†์• ๋ ค ์• ์“ฐ๋Š” ๋Œ€์‹ , ์ •๋ฉด์œผ๋กœ ๋ฐ›์•„๋“ค์ธ๋‹ค. ํ•œ ์ ์˜ ๊ด€์ธก์€ ๋ถˆํ™•์‹คํ•˜๋‹ˆ ๋ถ„ํฌ๋กœ ๋‹ค๋ฃจ๊ณ , ์„ผ์„œ๋ฅผ ํ‘œ๋ฉด ์œ„๋กœ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฌ๋ฉฐ ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๊ด€์ธก์„ ์Œ“์•„ ๋ถ„ํฌ๋ฅผ ์ขํžŒ๋‹ค. ๊ทธ ๋ถ„ํฌ ์ถ”๋ก ์˜ ์—”์ง„์ด Monte-Carlo ์ž…์ž ํ•„ํ„ฐ์ด๊ณ , ๊ฐ ๊ด€์ธก์„ โ€œํ‘œ๋ฉด ์–ด๋А ์ง€์ ๊ณผ ๋‹ฎ์•˜๋Š”๊ฐ€โ€๋กœ ํ™˜์›ํ•ด ์ฃผ๋Š” ๋„๊ตฌ๊ฐ€ ํ•™์Šต๋œ tactile code๋‹ค.

์„œ๋ก ๊ณผ ๋ฐฐ๊ฒฝ: ์ด‰๊ฐ ์œ„์น˜์ถ”์ •์€ ์™œ ์–ด๋ ค์šด๊ฐ€

๋จผ์ € ๋ฌธ์ œ ์„ค์ •์„ ๋ถ„๋ช…ํžˆ ํ•˜์ž. ๋ฌผ์ฒด์˜ 3D ๋ฉ”์‹œ๋Š” ์ด๋ฏธ ์•ˆ๋‹ค. ๊ทธ ํ‘œ๋ฉด ์œ„๋ฅผ DIGIT ๊ฐ™์€ vision-based tactile sensor๊ฐ€ ๋ˆ„๋ฅด๋ฉฐ ๋ฏธ๋„๋Ÿฌ์ง„๋‹ค. ๋ชฉํ‘œ๋Š” ๋งค ์ˆœ๊ฐ„ ์„ผ์„œ๊ฐ€ ํ‘œ๋ฉด์˜ ์–ด๋А SE(3) ํฌ์ฆˆ์— ์žˆ๋Š”์ง€๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์‹œ๊ฐ์€ ์“ฐ์ง€ ์•Š๋Š”๋‹ค.

์—ฌ๊ธฐ์„œ ๋‘ ๊ฐ€์ง€๊ฐ€ ๋™์‹œ์— ์–ด๋ ต๋‹ค.

์ฒซ์งธ, ๊ด€์ธก ์˜์—ญ์ด ๊ทนํžˆ ์ž‘๋‹ค. DIGIT์˜ ์ ค์ด ๋‹ฟ๋Š” ์˜์—ญ์€ ๋ช‡ mmยฒ ์ˆ˜์ค€์ด๋‹ค. ๊ทธ ์ž‘์€ ํŒจ์น˜์— ๋‹ด๊ธด ๊ตญ์†Œ ๊ธฐํ•˜(๊ณก๋ฅ , ๋ชจ์„œ๋ฆฌ, ํ‰๋ฉด ์—ฌ๋ถ€)๋งŒ์œผ๋กœ ์ „์ฒด ํ‘œ๋ฉด์—์„œ ์œ„์น˜๋ฅผ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ๋ฌผ์ฒด ์ „์ฒด๋ฅผ ๋ณด๋Š” ์นด๋ฉ”๋ผ์™€๋Š” ์ •๋ณด๋Ÿ‰์˜ ์ฐจ์›์ด ๋‹ค๋ฅด๋‹ค.

๋‘˜์งธ, ์ „์—ญ ๋ชจํ˜ธ์„ฑ(global ambiguity)์ด ๊ตฌ์กฐ์ ์ด๋‹ค. ๋งค๋ˆํ•œ ํ‰๋ฉด, ๋‹จ์ˆœํ•œ ๊ณก๋ฉด, ๋Œ€์นญ์ถ•์„ ๊ฐ€์ง„ ๋ฌผ์ฒด์—์„œ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์—ฌ๋Ÿฌ ์œ„์น˜๊ฐ€ ๊ฑฐ์˜ ๋˜‘๊ฐ™์€ ์ด‰๊ฐ์„ ๋งŒ๋“ ๋‹ค. ์ปต์˜ ์˜†๋ฉด ํ•œ ์ ์„ ๋งŒ์ง€๋ฉด ์˜†๋ฉด ์ „์ฒด๊ฐ€ ํ›„๋ณด๊ฐ€ ๋œ๋‹ค. ์ฆ‰ ๋‹จ์ผ ๊ด€์ธก์˜ posterior๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋‹ค๋ด‰(multimodal)์ด๋‹ค. ๋‹จ์ผ ์ถ”์ •์น˜(์  ์ถ”์ •)๋กœ ๋‹ตํ•˜๋ ค ํ•˜๋ฉด ๋ฐ˜๋“œ์‹œ ๊นจ์ง„๋‹ค.

MidasTouch์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ์ด ๋‘ ๋‚œ์ ์— ๋Œ€ํ•œ ๋‹ต์ด ๊ฐ™๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋ถ„ํฌ๋กœ ์ถ”๋ก ํ•˜๊ณ , ๋ฏธ๋„๋Ÿฌ์ง€๋ฉฐ ๋ˆ„์ ํ•˜๋ผ. ํ‰๋ฉด ์œ„๋ฅผ ๋ฏธ๋„๋Ÿฌ์ง€๋‹ค ๋ชจ์„œ๋ฆฌ๋‚˜ ๋Šฅ์„  ๊ฐ™์€ salient geometry๋ฅผ ๋งŒ๋‚˜๋Š” ์ˆœ๊ฐ„ ํ›„๋ณด๊ฐ€ ๊ธ‰๊ฒฉํžˆ ์ค„์–ด๋“ ๋‹ค. ์‚ฌ๋žŒ์ด ์ปต์„ ๋”๋“ฌ๋‹ค ์†์žก์ด์— ๋‹ฟ์œผ๋ฉด ๋‹จ์ˆจ์— ๋ฐฉํ–ฅ์„ ์žก๋Š” ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.

๋ฐฉ๋ฒ• ์ƒ์„ธ 1: ์ด‰๊ฐ์„ ๊ธฐํ•˜๋กœ, ๊ธฐํ•˜๋ฅผ ์ฝ”๋“œ๋กœ

MidasTouch์˜ ํŒŒ์ดํ”„๋ผ์ธ์€ ๊ด€์ธก์„ ๋‘ ๋‹จ๊ณ„๋กœ ์ถ”์ƒํ™”ํ•œ๋‹ค.

์ด‰๊ฐ ์ด๋ฏธ์ง€ โ†’ ๊ตญ์†Œ 3D ๊ธฐํ•˜. DIGIT์˜ RGB ์ถœ๋ ฅ์€ ์ ค์ด ๋ณ€ํ˜•๋˜๋ฉฐ ๋งŒ๋“ค์–ด์ง„ ์ผ์ข…์˜ ์Œ์˜ ์ด๋ฏธ์ง€๋‹ค. ๋จผ์ € ์ด๋กœ๋ถ€ํ„ฐ ํ‘œ๋ฉด heightmap๊ณผ ์ ‘์ด‰ ๋งˆ์Šคํฌ๋ฅผ ์ถ”์ •ํ•ด, ๋‹ฟ์€ ์˜์—ญ์˜ ์ž‘์€ 3D ๊ธฐํ•˜ ํŒจ์น˜๋ฅผ ๋ณต์›ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ RGB์—์„œ ๊ธฐํ•˜๋กœ ํ•œ ๋ฒˆ ํ™˜์›ํ•ด ๋‘๋ฉด ์„ผ์„œ ์ƒ‰๊ฐยท์กฐ๋ช… ๊ฐ™์€ ์™ธ๊ด€ ์ฐจ์ด์— ๋œ ๋ฏผ๊ฐํ•ด์ง„๋‹ค.

๊ตญ์†Œ 3D ๊ธฐํ•˜ โ†’ tactile code. ๋ณต์›ํ•œ 3D ํŒจ์น˜๋ฅผ sparse 3D convolution ๋„คํŠธ์›Œํฌ์— ๋„ฃ์–ด 256์ฐจ์› ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์••์ถ•ํ•œ๋‹ค. ์ด ๋ถ€๋ถ„์ด ๋…ผ๋ฌธ์˜ ์˜๋ฆฌํ•œ ์ง€์ ์ด๋‹ค. ์ €์ž๋“ค์€ LIDAR place recognition(์ž์œจ์ฃผํ–‰์—์„œ LIDAR ์Šค์บ”๋งŒ์œผ๋กœ โ€œ์—ฌ๊ธฐ๊ฐ€ ์–ด๋””์ธ์ง€โ€ ์ธ์‹ํ•˜๋Š” ๋ฌธ์ œ)์—์„œ ์“ฐ๋˜ ๊ตฌ์กฐ๋ฅผ ๊ฑฐ์˜ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์˜จ๋‹ค. point cloud๋ฅผ voxel๋กœ ์–‘์žํ™”ํ•˜๊ณ , feature pyramid๋กœ voxel๋ณ„ ํŠน์ง•์„ ๋ฝ‘์€ ๋’ค, generalized-mean pooling์œผ๋กœ ํ•˜๋‚˜์˜ ์ „์—ญ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ๋ชจ์€๋‹ค. ๋ฐฑ๋ณธ์€ LIDAR ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ•™์Šตํ•œ ๋’ค, TACTO ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ์ƒ์„ฑํ•œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์— triplet loss๋กœ fine-tuneํ•œ๋‹ค. ํ•™์Šต ๋ฌผ์ฒด์™€ ํ…Œ์ŠคํŠธ ๋ฌผ์ฒด๋Š” ๋ถ„๋ฆฌํ•ด, ์ƒˆ ๋ฌผ์ฒด์—๋„ ์ผ๋ฐ˜ํ™”๋˜๋Š” โ€œ๊ธฐํ•˜ ๋ฌ˜์‚ฌ ๋Šฅ๋ ฅโ€์„ ํ•™์Šตํ•˜๊ฒŒ ํ•œ๋‹ค.


๋ฌผ์ฒด ํ‘œ๋ฉด์„ tactile code ๊ณต๊ฐ„ ์ƒ์˜ ์œ ์‚ฌ๋„๋กœ ์ƒ‰์น ํ•œ ์‹œ๊ฐํ™”(Fig. 3 ๊ณ„์—ด). ๊ฐ™์€ ์ƒ‰(=๋น„์Šทํ•œ ์ฝ”๋“œ)์ด ํ‘œ๋ฉด ์—ฌ๋Ÿฌ ๊ณณ์— ํฉ์–ด์ ธ ์žˆ๋‹ค๋Š” ์ ์ด ๋‹จ์ผ ์ ‘์ด‰ ๋ชจํ˜ธ์„ฑ์˜ ์‹œ๊ฐ์  ๊ทผ๊ฑฐ์ด๋ฉฐ, ๋ชจ์„œ๋ฆฌยท์†์žก์ด ๊ฐ™์€ salient ์˜์—ญ์ด ๊ตฌ๋ถ„๋ ฅ์„ ๋งŒ๋“ ๋‹ค.

์—ฌ๊ธฐ์„œ ์™œ โ€œ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉโ€์ด ์•„๋‹ˆ๋ผ โ€œ๊ธฐํ•˜ ์ฝ”๋“œโ€์ธ์ง€๊ฐ€ ์ค‘์š”ํ•˜๋‹ค. RGB ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋Œ€๋กœ ResNet์— ๋„ฃ์–ด๋„ ์ž„๋ฒ ๋”ฉ์€ ์–ป์ง€๋งŒ, ๊ทธ ์ž„๋ฒ ๋”ฉ์€ ์„ผ์„œยท์กฐ๋ช… ๋„๋ฉ”์ธ์— ๋ฌถ์ธ๋‹ค. ๊ธฐํ•˜๋กœ ํ™˜์›ํ•œ ์ฝ”๋“œ๋Š” ๊ทธ ๋„๋ฉ”์ธ ๊ฒฉ์ฐจ๋ฅผ ํ•œ ๋ฒˆ ๊ฑท์–ด๋‚ธ ํ‘œํ˜„์ด๋ผ, sim์—์„œ ํ•™์Šตํ•ด real์— ์˜ฎ๊ธธ ๋•Œ ์œ ๋ฆฌํ•˜๋‹ค. ๋…ผ๋ฌธ๋„ ๋‹จ์ผ ์ ‘์ด‰ ๋งค์นญ์—์„œ tactile code๊ฐ€ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํŠน์ง•๋ณด๋‹ค ๋‚ฎ์€ ์˜ค์ฐจ์™€ ํ›จ์”ฌ ์ž‘์€ codebook ํฌ๊ธฐ๋ฅผ ๋ณด์ธ๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค.

๋ฐฉ๋ฒ• ์ƒ์„ธ 2: codebook๊ณผ ์ž…์ž ํ•„ํ„ฐ ๋ฃจํ”„

Codebook(๋ฌผ์ฒด๋ณ„ ์‚ฌ์ „). ์œ„์น˜์ถ”์ • ๋Œ€์ƒ ๋ฌผ์ฒด๋งˆ๋‹ค, ๋ฉ”์‹œ ํ‘œ๋ฉด์—์„œ ์ ‘์ด‰์ ยท๋ฒ•์„ ยท๋ฐฉํ–ฅยท์••์ž…(indentation)์„ ๋ฌด์ž‘์œ„๋กœ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ์ˆ˜๋งŒ ๊ฐœ ๊ทœ๋ชจ์˜ ๊ฐ€์ƒ ์ ‘์ด‰ ํฌ์ฆˆ๋ฅผ ๋งŒ๋“ค๊ณ , ๊ฐ๊ฐ์˜ tactile code๋ฅผ ๋ฏธ๋ฆฌ ๊ณ„์‚ฐํ•ด ์ €์žฅํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋งŒ๋“  codebook์„ KD-tree๋กœ ์ธ๋ฑ์‹ฑํ•˜๋ฉด, ๋Ÿฐํƒ€์ž„์— โ€œํ‘œ๋ฉด ์œ„ ์ž„์˜ ํฌ์ฆˆ โ†’ ํ•ด๋‹น ์ฝ”๋“œโ€๋ฅผ ๋น ๋ฅด๊ฒŒ ์กฐํšŒํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•ต์‹ฌ์€ ๋ฌด๊ฑฐ์šด ์ฝ”๋“œ ๊ณ„์‚ฐ์„ ์ „๋ถ€ ์˜คํ”„๋ผ์ธ์œผ๋กœ ๋ฐ€์–ด๋‘๊ณ , ์˜จ๋ผ์ธ์—์„œ๋Š” ๊ฐ€๋ฒผ์šด ๋น„๊ต๋งŒ ํ•œ๋‹ค๋Š” ์ ์ด๋‹ค.

ํ•„ํ„ฐ๋ง ๋ฃจํ”„. ๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค ๋‹ค์Œ์ด ๋ฐ˜๋ณต๋œ๋‹ค.

  1. ์˜ˆ์ธก(์šด๋™ ๋ชจ๋ธ): ์—”๋“œ์ดํŽ™ํ„ฐ ์˜ค๋„๋ฉ”ํŠธ๋ฆฌ(์„ผ์„œ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์›€์ง์˜€๋Š”์ง€)์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ•ด ๋ชจ๋“  ์ž…์ž๋ฅผ ํ‘œ๋ฉด์„ ๋”ฐ๋ผ ์ „์ง„์‹œํ‚จ๋‹ค. ๋ถˆํ™•์‹คํ•œ ์ด๋™์ด๋ฏ€๋กœ ์ž…์ž๊ฐ€ ์•ฝ๊ฐ„์”ฉ ํผ์ง„๋‹ค.
  2. ๊ฐฑ์‹ (์ธก์ • ๋ชจ๋ธ): ํ˜„์žฌ ๊ด€์ธก ์ฝ”๋“œ๋ฅผ, codebook์—์„œ ์กฐํšŒํ•œ ๊ฐ ์ž…์ž ์œ„์น˜์˜ ์ฝ”๋“œ์™€ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋กœ ๋น„๊ตํ•œ๋‹ค. ์œ ์‚ฌ๋„๋ฅผ softmax๋กœ ์ •๊ทœํ™”ํ•ด ์ž…์ž ๊ฐ€์ค‘์น˜๋ฅผ ๋งค๊ธด๋‹ค. ๊ด€์ธก๊ณผ ๋‹ฎ์€ ์œ„์น˜์˜ ์ž…์ž๊ฐ€ ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ฐ›๋Š”๋‹ค.
  3. ๋ฆฌ์ƒ˜ํ”Œ๋ง: low-variance ๋ฆฌ์ƒ˜ํ”Œ๋ง์œผ๋กœ ๊ฐ€์ค‘์น˜ ๋†’์€ ์ž…์ž๋ฅผ ๋ณต์ œํ•˜๊ณ  ๋‚ฎ์€ ์ž…์ž๋ฅผ ๋ฒ„๋ฆฐ๋‹ค.
  4. ๊ฐ€์„ค ์ถ”์ถœ: ์‚ด์•„๋‚จ์€ ์ž…์ž๋ฅผ ๊ณต๊ฐ„์ƒ์—์„œ DBSCAN ๋“ฑ์œผ๋กœ ๊ตฐ์ง‘ํ™”ํ•ด, โ€œ์œ ๋ ฅ ํ›„๋ณด ์œ„์น˜๋“คโ€์„ ์ด์‚ฐ์ ์ธ ๊ฐ€์„ค๋กœ ์ œ์‹œํ•œ๋‹ค.

์ด ๋ฃจํ”„์˜ ์•„๋ฆ„๋‹ค์›€์€ ๋‹ค๋ด‰์„ฑ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ‘œํ˜„ํ•œ๋‹ค๋Š” ๋ฐ ์žˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ์ž…์ž๊ฐ€ ํ‘œ๋ฉด ์ „์ฒด์— ํฉ๋ฟŒ๋ ค์ง„ ๋‹ค๋ด‰ ๋ถ„ํฌ๋‹ค. ํ‰๋ฉด์„ ๋ฏธ๋„๋Ÿฌ์ง€๋Š” ๋™์•ˆ์—๋Š” ์—ฌ๋Ÿฌ ๋ด‰์šฐ๋ฆฌ๊ฐ€ ๊ณต์กดํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‹ค ๋ชจ์„œ๋ฆฌ ๊ฐ™์€ ํŠน์ง•์„ ์ง€๋‚˜๋ฉด ํ•œ๋‘ ๋ด‰์šฐ๋ฆฌ๋งŒ ์‚ด์•„๋‚จ์œผ๋ฉฐ ๋ถ„ํฌ๊ฐ€ ์ˆ˜๋ ดํ•œ๋‹ค. ์นผ๋งŒ ํ•„ํ„ฐ ๋ฅ˜์˜ ๋‹จ๋ด‰ ๊ฐ€์ •์œผ๋กœ๋Š” ์žก์„ ์ˆ˜ ์—†๋Š” ๊ฑฐ๋™์ด๋‹ค.

YCB-Slide ๋ฐ์ดํ„ฐ์…‹

๋ฐฉ๋ฒ•๋งŒํผ์ด๋‚˜ ์ด ๋…ผ๋ฌธ์˜ ์‹ค์งˆ์  ๊ธฐ์—ฌ๋Š” ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ์ด‰๊ฐ ์Šฌ๋ผ์ด๋”ฉ ์œ„์น˜์ถ”์ •์„ ์—ฐ๊ตฌํ•˜๋ ค๋ฉด โ€œ์„ผ์„œ๊ฐ€ ๋ฌผ์ฒด ์œ„๋ฅผ ๋ฏธ๋„๋Ÿฌ์ง€๋Š” ๊ถค์  + ์ •ํ™•ํ•œ ground-truth ํฌ์ฆˆโ€๊ฐ€ ํ•„์š”ํ•œ๋ฐ, ๊ทธ๋Ÿฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์—ˆ๋‹ค.

  • ์‹ค์ œ ๋ฐ์ดํ„ฐ: 10๊ฐœ์˜ YCB ๋ฌผ์ฒด์— ๋Œ€ํ•ด, ๋ฌผ์ฒด๋ฅผ ๋ฐ”์ด์Šค๋กœ ๊ณ ์ •ํ•˜๊ณ  ์‚ฌ๋žŒ์ด DIGIT์„ ์†์— ๋“ค๊ณ  ํ‘œ๋ฉด์„ ๋ˆ„๋ฅด๋ฉฐ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฌ๋Š” ๊ถค์ ์„ ์ˆ˜์ง‘ํ•œ๋‹ค. OptiTrack ๋ฉ€ํ‹ฐ์นด๋ฉ”๋ผ ๋ชจ์…˜์บก์ฒ˜๋กœ ground-truth ํฌ์ฆˆ๋ฅผ ๊ธฐ๋กํ•œ๋‹ค. ๊ฐ ๋ฌผ์ฒด๋‹น ๋‹ค์ˆ˜์˜ ๊ถค์ ์ด ์žˆ๊ณ , ์ด‰๊ฐ ์ด๋ฏธ์ง€ยท์„ผ์„œ ํฌ์ฆˆยท๋ฌผ์ฒด ๋ฉ”์‹œยท์ ‘์ด‰ ๋งˆ์Šคํฌ๊ฐ€ ํ•จ๊ป˜ ์ œ๊ณต๋œ๋‹ค.
  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ: ๊ฐ™์€ ๋ฌผ์ฒด๋“ค์— ๋Œ€ํ•ด TACTO๋กœ ํ‘œ๋ฉด์„ ๋”ฐ๋ผ๊ฐ€๋Š” geodesic ์Šฌ๋ผ์ด๋”ฉ ๊ถค์ ์„ ์ƒ์„ฑํ•œ๋‹ค. ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฟ ์•„๋‹ˆ๋ผ ground-truth heightmap, ํฌ์ฆˆ๋ฅผ ๋ชจ๋‘ ์ œ๊ณตํ•˜๊ณ , ํ˜„์‹ค์„ฑ์„ ์œ„ํ•ด ํฌ์ฆˆ์— ์†Œ๋Ÿ‰์˜ ๋…ธ์ด์ฆˆ(์ˆ˜์‹ญ ๋ถ„์˜ 1 mmยท1ยฐ ์ˆ˜์ค€)๋ฅผ ์ฃผ์ž…ํ•œ๋‹ค.

์„คํƒ•์ƒ์žยท๋“œ๋ผ์ด๋ฒ„ยท๋“œ๋ฆดยท๋จธ๊ทธยท๊ฐ€์œ„ยท๋ง์น˜ยท์•ผ๊ตฌ๊ณต ๋“ฑ ํ‰๋ฉดยท๊ณก๋ฉดยท๋„๊ตฌยท๊ตฌ๊ฐ€ ๊ณจ๊ณ ๋ฃจ ์„ž์—ฌ, ๊ธฐํ•˜ ๊ตฌ๋ถ„๋ ฅ์ด ์œ„์น˜์ถ”์ • ๋‚œ์ด๋„์— ์–ด๋–ป๊ฒŒ ์ž‘์šฉํ•˜๋Š”์ง€ ์ฒด๊ณ„์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค.


์‹ค์ œ ์‹คํ—˜ ์…‹์—…(Fig. 5 ๊ณ„์—ด): ์„คํƒ•์ƒ์žยท์ „๋™๋“œ๋ฆด์„ ๋ฐ”์ด์Šค๋กœ ๊ณ ์ •ํ•˜๊ณ , OptiTrack ๋งˆ์ปค๊ฐ€ ๋ถ€์ฐฉ๋œ DIGIT์„ ์†์œผ๋กœ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฐ๋‹ค. ์ขŒ์ƒ๋‹จ์€ ๊ทธ ์ˆœ๊ฐ„์˜ ์‹ค์ œ ์ด‰๊ฐ ์ด๋ฏธ์ง€.

์‹คํ—˜: ์ •ํ™•๋„์™€ ์ˆ˜๋ ด

ํ‰๊ฐ€๋Š” ๋‘ ๊ฐˆ๋ž˜๋กœ ์ง„ํ–‰๋œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ๋ชจ๋‘์—์„œ ๋‹ค์ˆ˜์˜ trial๋กœ ์Šฌ๋ผ์ด๋”ฉ ๊ถค์ ์„ ๋Œ๋ฆฌ๊ณ , ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ํฌ์ฆˆ RMSE ์ˆ˜๋ ด๊ณผ ์ตœ์ข… ํฌ์ฆˆ ์˜ค์ฐจ(translation, rotation)๋ฅผ ๋ณธ๋‹ค.


๋Œ€ํ‘œ ๋ฌผ์ฒด๋“ค์˜ ์Šฌ๋ผ์ด๋”ฉ ์ง„ํ–‰์— ๋”ฐ๋ฅธ ์ˆ˜๋ ด(Fig. 7 ๊ณ„์—ด): ์ด‰๊ฐ ์ด๋ฏธ์ง€ยท๋ณต์› ๊ธฐํ•˜ยทํ‘œ๋ฉด likelihood ํžˆํŠธ๋งต๊ณผ ํ•จ๊ป˜, ์Šฌ๋ผ์ด๋”ฉ์ด ์ง„ํ–‰๋ ์ˆ˜๋ก ํฌ์ฆˆ RMSE๊ฐ€ ๋‚ด๋ ค๊ฐ€๋ฉฐ ๋ถ„ํฌ๊ฐ€ ๋ชจ์ด๋Š” ๊ณผ์ •์„ ๋ณด์—ฌ์ค€๋‹ค.

๊ด€์ฐฐ๋˜๋Š” ํŒจํ„ด์€ ์ง๊ด€๊ณผ ์ž˜ ๋งž๋Š”๋‹ค.

  • ๊ธฐํ•˜๊ฐ€ ๋šœ๋ ทํ•œ ๋ฌผ์ฒด์ผ์ˆ˜๋ก ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ˆ˜๋ ดํ•œ๋‹ค. ๋ง์น˜ยท๋“œ๋ฆดยท๊ฐ€์œ„์ฒ˜๋Ÿผ ๋ชจ์„œ๋ฆฌยท๋Œ์ถœ๋ถ€๊ฐ€ ํ’๋ถ€ํ•œ ๋ฌผ์ฒด๋Š” ์Šฌ๋ผ์ด๋”ฉ ์ค‘ salient feature๋ฅผ ์ž์ฃผ ๋งŒ๋‚˜ ํ›„๋ณด๊ฐ€ ๋น ๋ฅด๊ฒŒ ์ •๋ฆฌ๋œ๋‹ค.
  • ๋Œ€์นญยท๋ฐ‹๋ฐ‹ํ•œ ๋ฌผ์ฒด๋Š” ์–ด๋ ต๋‹ค. ์„คํƒ•์ƒ์ž(์ง์œก๋ฉด์ฒด), ๋จธ๊ทธ(ํšŒ์ „๋Œ€์นญ์— ๊ฐ€๊นŒ์šด ๊ณก๋ฉด), ๋จธ์Šคํƒ€๋“œ๋ณ‘์ฒ˜๋Ÿผ ํ‘œ๋ฉด ๋‹ค์ˆ˜๊ฐ€ ๋น„์Šทํ•œ ์ฝ”๋“œ๋ฅผ ๊ฐ–๋Š” ๋ฌผ์ฒด๋Š” ๋ชจํ˜ธ์„ฑ์ด ์˜ค๋ž˜ ๋‚จ์•„ ์ตœ์ข… ์˜ค์ฐจ๊ฐ€ ํฌ๋‹ค.
  • ํŠน์ง• ์—†๋Š” ๊ตฌ๋Š” ํ•œ๊ณ„ ์‚ฌ๋ก€๋‹ค. ์•ผ๊ตฌ๊ณต์€ ํ‘œ๋ฉด ์–ด๋””๋‚˜ ๋˜‘๊ฐ™์ด ๋‘ฅ๊ธ€์–ด ์Šฌ๋ผ์ด๋”ฉ์œผ๋กœ๋„ ๊ตฌ๋ถ„์ ์ด ์ƒ๊ธฐ์ง€ ์•Š๋Š”๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๋Œ€ํ‘œ์  ์‹คํŒจ๋กœ ๋ณด๊ณ ๋œ๋‹ค.

์‹ค์ œ ํ™˜๊ฒฝ์˜ ์˜ค์ฐจ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋ณด๋‹ค ํฌ๋‹ค. ์‹ค์ œ ์ด‰๊ฐ ์ด๋ฏธ์ง€์˜ ๋…ธ์ด์ฆˆ, heightmap ์ถ”์ • ์˜ค์ฐจ, sim-to-real ๋„๋ฉ”์ธ ๊ฒฉ์ฐจ๊ฐ€ ๋ˆ„์ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋„๊ตฌ๋ฅ˜์—์„œ๋Š” ๋ถ„ํฌ๊ฐ€ ์‹ค์ œ๋กœ ๋ชจ์ธ๋‹ค๋Š” ์ ์ด ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๋‹ค. ์ฒ˜๋ฆฌ ์†๋„๋„ ์˜จ๋ผ์ธ ์šด์šฉ์ด ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€(๋Œ€๋žต ์‹ค์‹œ๊ฐ„์— ๊ทผ์ ‘)์œผ๋กœ ๋ณด๊ณ ๋œ๋‹ค.


์‹ค์ œ ํ™˜๊ฒฝ 500 trial์— ๋Œ€ํ•œ ์ตœ์ข… ์˜ค์ฐจ ๋ถ„ํฌ(Fig. 9 ๊ณ„์—ด): ๋ฌผ์ฒด๋ณ„๋กœ ์ดˆ๊ธฐ ์˜ค์ฐจ(initial) ๋Œ€๋น„ ์ตœ์ข… ์˜ค์ฐจ(final)๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ค„์—ˆ๋Š”์ง€๋ฅผ boxplot์œผ๋กœ ๋น„๊ตํ•œ๋‹ค. ๋„๊ตฌ๋ฅ˜์—์„œ ๊ฐ์†Œ ํญ์ด ํฌ๊ณ , ๋Œ€์นญยท๊ตฌํ˜• ๋ฌผ์ฒด์—์„œ ์ž‘๋‹ค.

ablation์—์„œ๋Š” ์ดˆ๊ธฐ prior์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ์กฐ์ด๋ฉด(๋” ์ข์€ prior) outlier๊ฐ€ ์ค„๊ณ  ์ˆ˜๋ ด์ด ๊ฐœ์„ ๋˜๋Š” ๊ฒฝํ–ฅ์ด ํ™•์ธ๋œ๋‹ค. ์ฆ‰ ์•ฝ๊ฐ„์˜ ์‚ฌ์ „์ •๋ณด(๋Œ€๋žต์ ์ธ ์‹œ์ž‘ ์œ„์น˜)๋Š” ํฐ ๋„์›€์ด ๋˜์ง€๋งŒ, ์ „์—ญ ๋ชจ๋“œ์—์„œ๋„ ์‹œ์Šคํ…œ์€ ๋™์ž‘ํ•œ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ ๊ณผ ์•ฝ์ 

๊ฐ•์ .

  • ๋ฌธ์ œ๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ”„๋ ˆ์ด๋ฐํ–ˆ๋‹ค. ๋‹จ์ผ ์ถ”์ • ๋Œ€์‹  ๋ถ„ํฌ ์ถ”๋ก ์„ ํƒํ•œ ๊ฒƒ์€ ์ด‰๊ฐ ์œ„์น˜์ถ”์ •์˜ ๋ณธ์งˆ(๋‹ค๋ด‰์„ฑ)๊ณผ ์ •ํ™•ํžˆ ๋งž๋ฌผ๋ฆฐ๋‹ค. ์ž…์ž ํ•„ํ„ฐ๋Š” ์ด ๋‹ค๋ด‰์„ฑ์„ ํ‘œํ˜„ํ•˜๊ธฐ์— ๊ฐ€์žฅ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋„๊ตฌ๋‹ค.
  • ๋„๋ฉ”์ธ ๊ฒฉ์ฐจ๋ฅผ ํ•œ ๋‹จ๊ณ„ ๊ฑท์–ด๋‚ด๋Š” ํ‘œํ˜„. RGB๋ฅผ ๋ฐ”๋กœ ์ž„๋ฒ ๋”ฉํ•˜์ง€ ์•Š๊ณ  ๊ธฐํ•˜๋กœ ํ™˜์›ํ•œ ๋’ค ์ฝ”๋“œ๋ฅผ ๋ฝ‘๋Š” ์„ค๊ณ„๋Š” sim์—์„œ ํ•™์Šตํ•ด real๋กœ ์˜ฎ๊ธธ ๋•Œ์˜ ๊ฒฉ์ฐจ๋ฅผ ์ค„์ธ๋‹ค. LIDAR place recognition์„ ์ด‰๊ฐ์œผ๋กœ ์˜ฎ๊ธด ๋ฐœ์ƒ๋„ ์‹ ์„ ํ•˜๋‹ค.
  • ๊ณ„์‚ฐ์„ ์˜คํ”„๋ผ์ธ์œผ๋กœ ๋ฐ€์–ด๋‚ธ codebook. ๋ฌด๊ฑฐ์šด ์ฝ”๋“œ ๊ณ„์‚ฐ์„ ์‚ฌ์ „์— ๋๋‚ด๊ณ  ์˜จ๋ผ์ธ์€ KD-tree ์กฐํšŒ + ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋กœ ๊ฐ€๋ณ๊ฒŒ ์œ ์ง€ํ•ด, ์ž…์ž ์ˆ˜๋งŒ ๊ฐœ๋ฅผ ์‹ค์‹œ๊ฐ„ ๊ทผ์ฒ˜์—์„œ ๊ตด๋ฆฐ๋‹ค.
  • ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ. YCB-Slide๋Š” ์ด ํ•˜์œ„ ๋ถ„์•ผ์˜ ๊ณตํ†ต ๋ฒค์น˜๋งˆํฌ๋กœ ์“ฐ์ผ ํ† ๋Œ€๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค.

์•ฝ์ ๊ณผ ํ•œ๊ณ„.

  • ๋ฌผ์ฒด ๋ฉ”์‹œ๋ฅผ ์•ˆ๋‹ค๋Š” ๊ฐ•ํ•œ ๊ฐ€์ •. codebook์€ ์ •ํ™•ํ•œ 3D ๋ฉ”์‹œ๊ฐ€ ์žˆ์–ด์•ผ ๋งŒ๋“ค์–ด์ง„๋‹ค. ๋ฏธ์ง€์˜ ๋ฌผ์ฒด์—๋Š” ๊ทธ๋Œ€๋กœ ์“ธ ์ˆ˜ ์—†๊ณ , ํ˜•์ƒ ์ถ”์ •๊ณผ์˜ ๊ฒฐํ•ฉ(SLAM๋ฅ˜)์ด ๋ณ„๋„ ๊ณผ์ œ๋กœ ๋‚จ๋Š”๋‹ค.
  • ๋ฐ‹๋ฐ‹ยท๋Œ€์นญยท๊ตฌํ˜• ๋ฌผ์ฒด์˜ ํ•œ๊ณ„. ์•ผ๊ตฌ๊ณต์ฒ˜๋Ÿผ ํ‘œ๋ฉด ๊ตฌ๋ถ„๋ ฅ์ด ์—†์œผ๋ฉด ์Šฌ๋ผ์ด๋”ฉ์œผ๋กœ๋„ ํ’€๋ฆฌ์ง€ ์•Š๋Š”๋‹ค. ์ด๋Š” ๋ฐฉ๋ฒ•์˜ ๊ฒฐํ•จ์ด๋ผ๊ธฐ๋ณด๋‹ค ์ด‰๊ฐ ๋‹จ๋…์˜ ์ •๋ณด ํ•œ๊ณ„์ด์ง€๋งŒ, ์‹ค์šฉ์—์„œ๋Š” ๊ฒฐ์ •์  ์ œ์•ฝ์ด๋‹ค.
  • ์šด๋™ ๋ชจ๋ธ์˜ ๊ฐ€์ •. ์—”๋“œ์ดํŽ™ํ„ฐ ์˜ค๋„๋ฉ”ํŠธ๋ฆฌ๊ฐ€ ๋น„๊ต์  ์ •ํ™•ํ•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค. ๋ฏธ๋„๋Ÿฌ์ง(slip)์ด๋‚˜ ์˜ค๋„๋ฉ”ํŠธ๋ฆฌ ๋“œ๋ฆฌํ”„ํŠธ๊ฐ€ ํฌ๋ฉด ์šด๋™ ๋ชจ๋ธ์ด ํ”๋“ค๋ฆฐ๋‹ค.
  • heightmap ์ถ”์ •์— ๋Œ€ํ•œ ์˜์กด. ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์ด ์ด‰๊ฐโ†’๊ธฐํ•˜ ๋ณต์›์˜ ํ’ˆ์งˆ์— ๋ฌถ์—ฌ ์žˆ๋‹ค. ์ด ๋‹จ๊ณ„๊ฐ€ ๋ฌด๋„ˆ์ง€๋ฉด ์ฝ”๋“œ๋„ ๋ฌด๋„ˆ์ง„๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ ์˜ค์ฐจ์˜ ์ƒ๋‹น ๋ถ€๋ถ„์ด ์—ฌ๊ธฐ์„œ ์˜จ๋‹ค.
  • ๋‹จ์ผ ๋ฌผ์ฒดยท๋‹จ์ผ ์„ผ์„œ ์„ค์ •. ์†๊ฐ€๋ฝ ํ•˜๋‚˜๊ฐ€ ํ•œ ๋ฌผ์ฒด๋ฅผ ๋ฏธ๋„๋Ÿฌ์ง€๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค๋‹ค. ๋‹ค์†๊ฐ€๋ฝ ๋™์‹œ ์ ‘์ด‰, ๋ฌผ์ฒด๊ฐ€ ์›€์ง์ด๋Š” in-hand manipulation์œผ๋กœ์˜ ํ™•์žฅ์€ ํ›„์† ๊ณผ์ œ๋‹ค.

๊ด€๋ จ ์—ฐ๊ตฌ ์† ์ž๋ฆฌ๋งค๊น€

MidasTouch๋Š” ์ด‰๊ฐ SLAM/localization ๊ณ„์—ด(์˜ˆ: ๋™์ผ ์ €์ž๊ตฐ์˜ tactile SLAM ์—ฐ๊ตฌ)๊ณผ, ํ•™์Šต๋œ ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ธฐ๋ฐ˜ place recognition ๊ณ„์—ด์˜ ๊ต์ฐจ์ ์— ์žˆ๋‹ค. visual localization, LIDAR place recognition์—์„œ ๊ฒ€์ฆ๋œ โ€œ์••์ถ• ๋””์Šคํฌ๋ฆฝํ„ฐ + ๊ฒ€์ƒ‰โ€ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ด‰๊ฐ์œผ๋กœ ๊ฐ€์ ธ์˜จ ์ ์ด ํŠน์ง•์ด๋‹ค. ๋˜ํ•œ ์ด‰๊ฐ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ TACTO ์œ„์—์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ์ ์—์„œ sim ๊ธฐ๋ฐ˜ ์ด‰๊ฐ ํ•™์Šต ํ๋ฆ„๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋œ๋‹ค. tactile code๊ฐ€ ObjectFolder๋ฅ˜ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๋ณด๋‹ค ์œ„์น˜์ถ”์ •์— ์œ ๋ฆฌํ•˜๋‹ค๋Š” ๋น„๊ต๋Š”, โ€œ์ด‰๊ฐ์—์„œ ๋ฌด์—‡์„ ํ‘œํ˜„์œผ๋กœ ์‚ผ์•„์•ผ ํ•˜๋Š”๊ฐ€(์™ธ๊ด€ vs ๊ธฐํ•˜)โ€์— ๋Œ€ํ•œ ์˜๋ฏธ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์š”์•ฝ

MidasTouch์˜ ๊ธฐ์—ฌ๋Š” ํ•œ ๋ฌธ์žฅ์œผ๋กœ ๋ชจ์ธ๋‹ค. ์ด‰๊ฐ ์œ„์น˜์ถ”์ •์€ ์  ์ถ”์ • ๋ฌธ์ œ๊ฐ€ ์•„๋‹ˆ๋ผ ๋ถ„ํฌ ์ถ”๋ก  ๋ฌธ์ œ์ด๋ฉฐ, ๋‹จ์ผ ์ ‘์ด‰์˜ ๋ชจํ˜ธ์„ฑ์€ ๋ฏธ๋„๋Ÿฌ์ง€๋ฉฐ ๋ˆ„์ ํ•˜๋ฉด ํ’€๋ฆฐ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ด‰๊ฐ์„ ๊ตญ์†Œ ๊ธฐํ•˜๋กœ, ๊ธฐํ•˜๋ฅผ ์••์ถ• ์ฝ”๋“œ๋กœ ํ™˜์›ํ•˜๊ณ , ๋ฌผ์ฒด๋ณ„ codebook์„ ์ธก์ • ๋ชจ๋ธ๋กœ ์‚ผ๋Š” Monte-Carlo ์ž…์ž ํ•„ํ„ฐ๋ฅผ ๋Œ๋ฆฐ๋‹ค. ๊ธฐํ•˜๊ฐ€ ๋šœ๋ ทํ•œ ๋ฌผ์ฒด์—์„œ๋Š” ํ™•์‹คํžˆ ์ˆ˜๋ ดํ•˜๊ณ , ๋ฐ‹๋ฐ‹ยท๋Œ€์นญยท๊ตฌํ˜• ๋ฌผ์ฒด์—์„œ๋Š” ์ด‰๊ฐ ๋‹จ๋…์˜ ์ •๋ณด ํ•œ๊ณ„์— ๋ถ€๋”ชํžŒ๋‹ค. ์ •ํ™•ํ•œ ๋ฉ”์‹œ๋ฅผ ์•ˆ๋‹ค๋Š” ๊ฐ€์ •๊ณผ heightmap ์ถ”์ • ํ’ˆ์งˆ ์˜์กด์ด๋ผ๋Š” ์ œ์•ฝ์ด ๋‚จ์ง€๋งŒ, ๊ณต๊ฐœ๋œ YCB-Slide ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ•จ๊ป˜ ์ด‰๊ฐ ์œ„์น˜์ถ”์ •์„ ๋ณธ๊ฒฉ์ ์ธ ํ•™์Šตยท์ถ”๋ก  ๋ฌธ์ œ๋กœ ๋Œ์–ด์˜ฌ๋ฆฐ ์ž‘์—…์ด๋‹ค.

Copyright 2026, JungYeon Lee