Curieux.JY
  • JungYeon Lee
  • Post
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก 
      • ํ•œ๋ˆˆ์— ๋ณด๋Š” ํŒŒ์ดํ”„๋ผ์ธ
    • ๋ฐฉ๋ฒ•
      • 1) Neural Descriptor Fields(NDF): ์ ์— ์˜๋ฏธ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ์ขŒํ‘œ๊ณ„
      • 2) Coarse ๋‹จ๊ณ„: ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”๋กœ ์ดˆ๊ธฐ ์ž์„ธ ์ถ”์ •
      • 3) Fine ๋‹จ๊ณ„: ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์กฐ๊ฑดํ™”๋œ ์ด‰๊ฐ RL ์„œ๋ณด์ž‰
      • 4) ํ†ตํ•ฉ๋œ ์˜๋ฏธ์  ์žก๊ธฐ ์ž์„ธ: ํƒ์ƒ‰ ๊ณต๊ฐ„์„ ์ค„์ด๋Š” ๋ฌ˜์ˆ˜
      • 5) Sim-to-Real: ์ด‰๊ฐ ๋„๋ฉ”์ธ ๋ณ€ํ™˜
    • ์‹คํ—˜
      • ์„ค์ •
      • ๊ฒฐ๊ณผ
      • ์˜๋ฏธ ํ•ด์„
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒNeuralTouch

tactile
sim2real
neural
NeuralTouch: Leveraging Implicit Neural Descriptor for Precise Sim-to-Real Tactile Robot Control
Published

April 3, 2026

  • Paper Link
  • Poster Link

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก 

์‚ฌ๋žŒ์€ ๋ฌผ๊ฑด์„ ์ง‘์„ ๋•Œ ๋‘ ๋‹จ๊ณ„๋ฅผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ๋จผ์ € ๋ˆˆ์œผ๋กœ ๋Œ€์ƒ์„ ํ›‘์–ด๋ณด๊ณ  ์†์„ ๋Œ€๋žต์ ์ธ ์œ„์น˜๋กœ ๊ฐ€์ ธ๊ฐ„ ๋’ค, ์†๊ฐ€๋ฝ ๋์˜ ์ด‰๊ฐ์œผ๋กœ ๋ฏธ์„ธํ•˜๊ฒŒ ์œ„์น˜๋ฅผ ์กฐ์ •ํ•ด ์ปต์˜ ์†์žก์ด๋‚˜ ๋ณ‘์˜ ๋ชฉ์„ ์ •ํ™•ํžˆ ์žก์Šต๋‹ˆ๋‹ค. ์ฆ‰ ์‹œ๊ฐ์€ โ€œ์–ด๋””์ฏคโ€์„ ์•Œ๋ ค์ฃผ๊ณ , ์ด‰๊ฐ์€ โ€œ์ •ํ™•ํžˆ ๊ฑฐ๊ธฐโ€๋ฅผ ์™„์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์—๊ฒŒ ์ด ๋‘ ๊ฐ๊ฐ์„ ํ•จ๊ป˜ ์“ฐ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ด ๋…ผ๋ฌธ์˜ ์ถœ๋ฐœ์ ์ž…๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ๋‘ ๊ฐ๊ฐ์ด ๊ฐ๊ฐ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง„๋‹ค๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ(ํŠนํžˆ Neural Descriptor Fields, NDF): ์นด๋ฉ”๋ผ๋กœ ๋ณธ ์ ๊ตฐ(point cloud)์—์„œ ์žก๊ธฐ ์ž์„ธ(grasp pose)๋ฅผ ์ถ”์ •ํ•˜๋ฉด ์—ฌ๋Ÿฌ ๋ฌผ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์นด๋ฉ”๋ผ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ์˜ค์ฐจ, ๊ฐ€๋ ค์ง์œผ๋กœ ์ธํ•œ ๋ถˆ์™„์ „ํ•œ ์ ๊ตฐ, ๋ฌผ์ฒด ํ˜•์ƒ์˜ ๋‹ค์–‘์„ฑ ๋•Œ๋ฌธ์— ์ถ”์ •๋œ ์ž์„ธ๊ฐ€ ์ˆ˜ mm์—์„œ 1~2 cm์”ฉ ํ‹€์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ์ •๋ฐ€ ์กฐ๋ฆฝ์ด๋‚˜ ์‚ฝ์ž… ์ž‘์—…์—์„œ ์น˜๋ช…์ ์ž…๋‹ˆ๋‹ค.
  • ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ: ์†๋์˜ ์ ‘์ด‰ ์ •๋ณด๋ฅผ ์“ฐ๋ฉด ์ •๋ฐ€ํ•ด์ง€์ง€๋งŒ, ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ โ€œํ‰ํ‰ํ•œ ๋ฉด์— ์ˆ˜์ง์œผ๋กœ ์ ‘์ด‰โ€ ๊ฐ™์€ ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ์ ‘์ด‰ ํ˜•์ƒ(predefined contact geometry)์— ์ •์ฑ…(policy)์„ ํ•œ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋งŒ์œผ๋กœ๋Š” ์ปต์˜ ํ…Œ๋‘๋ฆฌ์™€ ์ปต์˜ ๋ฒฝ์ฒ˜๋Ÿผ ๋งŒ์ ธ์„œ๋Š” ๊ฑฐ์˜ ๋˜‘๊ฐ™์ด ๋А๊ปด์ง€๋Š” ํ˜•์ƒ๋“ค์„ ๊ตฌ๋ณ„ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ์ด๋ฅผ ํŠน์ง• ๋ชจํ˜ธ์„ฑ(feature ambiguity) ์ด๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

NeuralTouch์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์ด ๋‘˜์„ ํ•œ ์ค„๊ธฐ๋กœ ์—ฎ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹œ๊ฐ์œผ๋กœ ํ•™์Šตํ•œ ์•”๋ฌต์  ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ(implicit neural descriptor) ๋ฅผ โ€œ๋ชฉํ‘œ ์ ‘์ด‰ ํ˜•์ƒ์ด ๋ฌด์—‡์ธ์ง€โ€๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์กฐ๊ฑด(condition)์œผ๋กœ ์‚ผ์•„, ๊ฐ•ํ™”ํ•™์Šต(RL) ์ด‰๊ฐ ์ •์ฑ…์ด ๊ทธ ์กฐ๊ฑด์— ๋งž๊ฒŒ ์ ‘์ด‰์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋น„์œ ํ•˜์ž๋ฉด, ์ด‰๊ฐ ์ •์ฑ…์—๊ฒŒ ๋ˆˆ์„ ๊ฐ€๋ฆฐ ์ฑ„ ๋”๋“ฌ๊ฒŒ ํ•˜๋Š” ๋Œ€์‹  โ€œ์ง€๊ธˆ ๋„ค๊ฐ€ ๋”๋“ฌ๋Š” ๊ฑด ์ปต์˜ ํ…Œ๋‘๋ฆฌ์•ผโ€๋ผ๋Š” ๊ท“์†๋ง(๋””์Šคํฌ๋ฆฝํ„ฐ)์„ ๊ณ„์† ๋“ค๋ ค์ฃผ๋Š” ์…ˆ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์ •์ฑ…์€ ๋ชจํ˜ธํ•œ ์ด‰๊ฐ ์†์—์„œ๋„ ์ž์‹ ์ด ์–ด๋–ค ํ˜•์ƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š”์ง€ ์•Œ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ €์ž๋“ค์€ ์˜๊ตญ University of Bristol๊ณผ Bristol Robotics Laboratory ์†Œ์†์ด๋ฉฐ, TacTip ์ด‰๊ฐ ์„ผ์„œ์™€ Tactile Gym ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•œ๋ˆˆ์— ๋ณด๋Š” ํŒŒ์ดํ”„๋ผ์ธ

flowchart TD
    A[RGB-D Camera] --> B[Object Point Cloud P]
    B --> C[NDF Backbone f x given P]
    C --> D[Coarse Phase: NDF Pose Regression]
    D --> E[Initial Grasp Pose Tg]
    C --> F[Neural Pose Descriptor Z]
    E --> G[Move EE near target]
    G --> H[Fine Phase: Tactile RL Servoing]
    F --> H
    I[TacTip Tactile Image] --> J[pix2pix GAN real-to-sim]
    J --> H
    K[Proprioception e] --> H
    H --> L[7D EE Twist Action a]
    L --> M[Refined Precise Grasp]
    M --> N[Replay Downstream Task]

๋ฐฉ๋ฒ•

1) Neural Descriptor Fields(NDF): ์ ์— ์˜๋ฏธ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ์ขŒํ‘œ๊ณ„

NDF๋Š” ๋ฌผ์ฒด ํ‘œ๋ฉด ์œ„/์ฃผ๋ณ€์˜ ํ•œ ์ ์— โ€œ์ด ์ ์ด ํ˜•์ƒ์ ์œผ๋กœ ์–ด๋–ค ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”๊ฐ€โ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋””์Šคํฌ๋ฆฝํ„ฐ ๋ฒกํ„ฐ๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.

f(x \mid P): \mathbb{R}^3 \times \mathbb{R}^{3 \times n} \rightarrow \mathbb{R}^d

์—ฌ๊ธฐ์„œ x๋Š” ์งˆ์˜์ (query point)์˜ 3D ์ขŒํ‘œ, P๋Š” ๋ฌผ์ฒด ์ ๊ตฐ, ์ถœ๋ ฅ์€ d์ฐจ์› ๋””์Šคํฌ๋ฆฝํ„ฐ์ž…๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ, ์„œ๋กœ ๋‹ค๋ฅธ ๋จธ๊ทธ์ปต์ด๋ผ๋„ โ€œํ…Œ๋‘๋ฆฌ ์œ„์˜ ํ•œ ์ โ€์€ ๋น„์Šทํ•œ ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ฐ’์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. ์ฆ‰ ๋””์Šคํฌ๋ฆฝํ„ฐ๋Š” ์ธ์Šคํ„ด์Šค๊ฐ€ ๋‹ฌ๋ผ๋„ ์˜๋ฏธ๊ฐ€ ๊ฐ™์€ ๋ถ€์œ„๋ฅผ ๊ฐ™์€ ์ขŒํ‘œ๋กœ ๋งคํ•‘ํ•˜๋Š” ์ผ์ข…์˜ โ€œ์˜๋ฏธ ์ขŒํ‘œ๊ณ„โ€์ž…๋‹ˆ๋‹ค.

๋‘ ๊ฐ€์ง€ ์„ฑ์งˆ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

  • SE(3) ๋“ฑ๋ณ€์„ฑ(equivariance): ๋ฌผ์ฒด๋ฅผ ํšŒ์ „ยท์ด๋™์‹œํ‚ค๋ฉด ๋””์Šคํฌ๋ฆฝํ„ฐ๋„ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋”ฐ๋ผ ์›€์ง์ž…๋‹ˆ๋‹ค. f(x \mid P) \equiv f(Tx \mid TP) ๋•๋ถ„์— ๋ฌผ์ฒด๊ฐ€ ์–ด๋–ค ์ž์„ธ๋กœ ๋†“์—ฌ ์žˆ์–ด๋„ ๋™์ผํ•œ ๋ถ€์œ„๋Š” ๋™์ผํ•˜๊ฒŒ ์‹๋ณ„๋ฉ๋‹ˆ๋‹ค. ํšŒ์ „ ๋“ฑ๋ณ€ ์‹ ๊ฒฝ๋ง(rotation-equivariant network)์œผ๋กœ ์ด ์„ฑ์งˆ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
  • ๊ธฐํ•˜์  ๋Œ€์‘(geometric correspondence): ๋ฐฑ๋ณธ์„ ์นดํ…Œ๊ณ ๋ฆฌ ๋‹จ์œ„์˜ ํ˜•์ƒ ๋ณต์›(occupancy ์˜ˆ์ธก)์œผ๋กœ ์‚ฌ์ „ํ•™์Šตํ•˜๋ฉด, ์ธ์Šคํ„ด์Šค ๊ฐ„ ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ์ž์—ฐํžˆ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

6D ์ž์„ธ๋ฅผ ํ‘œํ˜„ํ•  ๋•Œ๋Š” ํ•œ ์ ๋งŒ์œผ๋กœ๋Š” ํšŒ์ „์„ ๋ชป ์žก์œผ๋ฏ€๋กœ, ์ผ์ง์„ ์ด ์•„๋‹Œ(non-collinear) ์—ฌ๋Ÿฌ ์งˆ์˜์ ์„ ๊ฐ•์ฒด ๋ฐฐ์น˜๋กœ ๋ฌถ์–ด ๋””์Šคํฌ๋ฆฝํ„ฐ๋ฅผ ์Œ“์Šต๋‹ˆ๋‹ค.

Z = F(T \mid P) = \bigoplus_i f(T x_i \mid P)

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์žก๊ธฐ ์ž์„ธ T ์ „์ฒด๋ฅผ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ Z๋กœ ๊ธฐ์ˆ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด Z๊ฐ€ ๋’ค์—์„œ RL ์ •์ฑ…์— ๋„˜๊ฒจ์ฃผ๋Š” โ€œ๊ท“์†๋งโ€์ž…๋‹ˆ๋‹ค.

2) Coarse ๋‹จ๊ณ„: ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”๋กœ ์ดˆ๊ธฐ ์ž์„ธ ์ถ”์ •

์‹œ์—ฐ(demonstration) ๋ฌผ์ฒด P_d์—์„œ ์‚ฌ๋žŒ์ด ์žก์€ ์ž์„ธ T_d์˜ ๋””์Šคํฌ๋ฆฝํ„ฐ F(T_d \mid P_d)๋ฅผ ๊ธฐ๋กํ•ด ๋‘ก๋‹ˆ๋‹ค. ์ƒˆ ๋ฌผ์ฒด P_u์— ๋Œ€ํ•ด, ๊ฐ™์€ ๋””์Šคํฌ๋ฆฝํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ์ž์„ธ๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.

T_g = \arg\min_{T} \; \big\| F(T \mid P_u) - F(T_d \mid P_d) \big\|

์ฆ‰ โ€œ์‹œ์—ฐ์—์„œ ์žก์•˜๋˜ ๋ถ€์œ„์™€ ์˜๋ฏธ์ ์œผ๋กœ ๊ฐ™์€ ๊ณณโ€์„ ์ƒˆ ๋ฌผ์ฒด์—์„œ ์ฐพ์•„ ์ดˆ๊ธฐ ์ž์„ธ T_g๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด ์ตœ์ ํ™”๋Š” GPU์—์„œ ์—ํ”ผ์†Œ๋“œ ๋ฆฌ์…‹๋‹น ์•ฝ 1์ดˆ ์ •๋„๋กœ ์˜คํ”„๋ผ์ธ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์•ž์„œ ๋งํ•œ ์ด์œ ๋“ค๋กœ T_g์—๋Š” ์˜ค์ฐจ๊ฐ€ ๋‚จ์Šต๋‹ˆ๋‹ค โ€” ๊ทธ๋ž˜์„œ ๋‹ค์Œ ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

3) Fine ๋‹จ๊ณ„: ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์กฐ๊ฑดํ™”๋œ ์ด‰๊ฐ RL ์„œ๋ณด์ž‰

๋ฏธ์„ธ ์กฐ์ • ์ •์ฑ…์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค.

a = \pi\big(i^c, \; e, \; Z^{G_\tau}\big)

  • i^c: ์ ‘์ด‰ ์‹œ ์–ป์€ ์ด‰๊ฐ ์ด๋ฏธ์ง€(TacTip)
  • e: ๊ณ ์œ ์ˆ˜์šฉ ๊ฐ๊ฐ(proprioception) โ€” ์—”๋“œ์ดํŽ™ํ„ฐ ์ž์„ธ, ๊ทธ๋ฆฌํผ ์†๊ฐ€๋ฝ ๊ฐ„ ๊ฑฐ๋ฆฌ
  • Z^{G_\tau}: ๋ชฉํ‘œ ํ˜•์ƒ G_\tau๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์‹ ๊ฒฝ ์ž์„ธ ๋””์Šคํฌ๋ฆฝํ„ฐ
  • a: 7์ฐจ์› ์—”๋“œ์ดํŽ™ํ„ฐ ํŠธ์œ„์ŠคํŠธ โ€” 3D ๋ณ‘์ง„ ์†๋„ + 3D ๊ฐ์†๋„ + ๊ทธ๋ฆฌํผ ์†๊ฐ€๋ฝ ๊ฑฐ๋ฆฌ

์—ฌ๊ธฐ์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์„ค๊ณ„๋Š” ์ •์ฑ…์„ โ€œ์ ‘์ด‰ ์ข…๋ฅ˜โ€๊ฐ€ ์•„๋‹ˆ๋ผ ๋””์Šคํฌ๋ฆฝํ„ฐ Z๋กœ ์กฐ๊ฑดํ™”ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ํ‰๋ฉด ์ ‘์ด‰, ๋ชจ์„œ๋ฆฌ ์ ‘์ด‰, ๊ณก๋ฉด ์ ‘์ด‰์„ ๊ฐ๊ฐ ๋ณ„๋„ ์ •์ฑ…์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , ํ•˜๋‚˜์˜ ์ •์ฑ…์ด ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜จ ๋””์Šคํฌ๋ฆฝํ„ฐ์— ๋”ฐ๋ผ ๋ชฉํ‘œ๋ฅผ ๋ฐ”๊ฟ” ํ–‰๋™ํ•ฉ๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธ ์ค‘์— ์กฐ๊ฑด ๋””์Šคํฌ๋ฆฝํ„ฐ๋งŒ ๋ฐ”๊ฟ”์ฃผ๋ฉด ์žฌํ•™์Šต ์—†์ด ๋ชฉํ‘œ ํ˜•์ƒ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ

Tactile image i_c  --> CNN encoder --------+
Proprioception e   --+                     |
Descriptor Z       --+--> MLP[512,256,128] --> concat --> MLP[256,128] --> action a (7D)
  • ๊ณ ์œ ์ˆ˜์šฉ ๊ฐ๊ฐ + ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ: 3-layer MLP(์€๋‹‰ ์ฐจ์› 512, 256, 128)
  • ์ด‰๊ฐ ์ด๋ฏธ์ง€: CNN ์ธ์ฝ”๋”(์„ ํ–‰ ์—ฐ๊ตฌ์™€ ๋™์ผ ๊ตฌ์กฐ)
  • ๋‘ ํŠน์ง•์„ ๊ฒฐํ•ฉ ํ›„ 2-layer MLP([256, 128])๋กœ ํ–‰๋™ ์ถœ๋ ฅ

๋ณด์ƒ ํ•จ์ˆ˜

R_t = w_1 \sum_{i=1}^{2} \big\| p^g_i - p^f_i \big\| \;+\; w_2 \, S(q^g_t, q^e_t) \;+\; r_{stable} + r_{act} + r_{term}

๊ฐ ํ•ญ์˜ ์ง๊ด€:

ํ•ญ ์˜๋ฏธ ๋ถ€ํ˜ธ
w_1 \sum \|p^g_i - p^f_i\| ์ขŒ/์šฐ ์†๊ฐ€๋ฝ์˜ ๋ชฉํ‘œ ๋Œ€๋น„ ์œ„์น˜ ์˜ค์ฐจ ์Œ(-)
w_2\,S(q^g_t,q^e_t) ์ฝ”์‚ฌ์ธ ๊ฑฐ๋ฆฌ๋กœ ์žฐ ๋ฐฉํ–ฅ(orientation) ์˜ค์ฐจ ์Œ(-)
r_{stable} ๋ชฉํ‘œ ์ง€์ ์—์„œ 50 ์Šคํ… ์ด์ƒ ๋จธ๋ฌผ๋ฉด ๋ถ€์—ฌํ•˜๋Š” ์•ˆ์ •์„ฑ ๋ณด์ƒ ์–‘(+)
r_{act} ํ–‰๋™ ํฌ๊ธฐ์— ๋Œ€ํ•œ ํŽ˜๋„ํ‹ฐ(๋ถ€๋“œ๋Ÿฝ๊ณ  ํšจ์œจ์ ์ธ ์›€์ง์ž„ ์œ ๋„) ์Œ(-)
r_{term} 100 ์Šคํ… ๋™์•ˆ ์ ‘์ด‰์ด ์—†์œผ๋ฉด ์กฐ๊ธฐ ์ข…๋ฃŒ ํŽ˜๋„ํ‹ฐ ์Œ(-)

์ฆ‰ โ€œ๋ชฉํ‘œ ๋ถ€์œ„์— ์†๊ฐ€๋ฝ์„ ์ •ํ™•ํžˆ, ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ, ์•ˆ์ •์ ์œผ๋กœ, ๋ถ€๋“œ๋Ÿฝ๊ฒŒโ€ ๊ฐ€์ ธ๋‹ค ๋Œ€๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

4) ํ†ตํ•ฉ๋œ ์˜๋ฏธ์  ์žก๊ธฐ ์ž์„ธ: ํƒ์ƒ‰ ๊ณต๊ฐ„์„ ์ค„์ด๋Š” ๋ฌ˜์ˆ˜

NDF ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ณต๊ฐ„ ์ „์ฒด๋ฅผ RL๋กœ ํƒ์ƒ‰ํ•˜๋ฉด ๋„ˆ๋ฌด ๋„“์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ๊ตญ์†Œ ํ‘œ๋ฉด์— ์ˆ˜์ง(perpendicular)์„ ์œ ์ง€ํ•œ๋‹ค๋Š” ๊ฐ€์ •์„ ๋‘ก๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ํ‰๋ฉด(์ž์œ ๋„ 3), ๋ชจ์„œ๋ฆฌ(์ž์œ ๋„ 5), ๊ณก๋ฉด(6D) ๊ฐ™์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ ‘์ด‰ ํŠน์ง•๋“ค์ด ์ด ์ˆ˜์ง ์ œ์•ฝ ์•„๋ž˜์—์„œ ํ•˜๋‚˜์˜ ํ˜•ํƒœ๋กœ ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค. ๋•๋ถ„์— ๋‹จ์ผ ์ •์ฑ…์ด ๋””์Šคํฌ๋ฆฝํ„ฐ๋งŒ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ๋‹ค์–‘ํ•œ ๋ชฉํ‘œ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5) Sim-to-Real: ์ด‰๊ฐ ๋„๋ฉ”์ธ ๋ณ€ํ™˜

์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์ด‰๊ฐ ์ด๋ฏธ์ง€์™€ ์‹ค์ œ TacTip ์ด๋ฏธ์ง€ ์‚ฌ์ด์˜ ๊ฐ„๊ทน์€ pix2pix GAN์œผ๋กœ ๋ฉ”์›๋‹ˆ๋‹ค(์‹ค์ œโ†’์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐฉํ–ฅ ๋ณ€ํ™˜). ์„ผ์„œ๋‹น ์‹œ๋ฎฌ/์‹ค์ œ ์Œ ์ด๋ฏธ์ง€ 5,000์žฅ์œผ๋กœ ํ•™์Šตํ•˜๋ฉฐ, ์‹ค๋ฆฐ๋” ํŠน์ง•์„ ๋‹ค์–‘ํ•œ ์ž์„ธ ๋ฒ”์œ„์—์„œ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ์ œ์–ด๋Š” ๋‹ค์Œ ๊ตฌ์กฐ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

  • NDF ์ตœ์ ํ™”: GPU์—์„œ ์˜คํ”„๋ผ์ธ(์—ํ”ผ์†Œ๋“œ ๋ฆฌ์…‹๋‹น ์•ฝ 1์ดˆ)
  • RL ์ •์ฑ… ์ถ”๋ก : ์Šคํ…๋‹น ์•ฝ 45 ms โ†’ 20 Hz ํ๋ฃจํ”„ ์ œ์–ด
  • ๋‘ ๋Œ€์˜ PC ์‚ฌ์šฉ(์ธ์ง€ยท์ตœ์ ํ™” / ์‹ค์‹œ๊ฐ„ ์ œ์–ด ๋ถ„๋ฆฌ)

์‹คํ—˜

์„ค์ •

  • ๋กœ๋ด‡: 7-DOF Franka Panda, ์†๋ชฉ์— Intel RealSense D435 ์žฅ์ฐฉ
  • ๊ทธ๋ฆฌํผ: ํ‰ํ–‰ ์กฐ(parallel jaw), ์–‘์ชฝ ์†๊ฐ€๋ฝ์— TacTip ์ด‰๊ฐ ์„ผ์„œ
  • ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ: PyBullet + Tactile Gym 2.0
  • RL ์•Œ๊ณ ๋ฆฌ์ฆ˜: PPO(Stable-Baselines3). NDF ๋ถ€์ •ํ™•์„ฑ์„ ๋ชจ์‚ฌํ•˜๋ ค๊ณ  ์ดˆ๊ธฐ ์žก๊ธฐ ์ž์„ธ๋ฅผ [\pm 20\,\text{mm}, \pm 20\,\text{mm}, \pm 20\,\text{mm}, \pm 20^\circ, \pm 20^\circ, \pm 20^\circ] ๋ฒ”์œ„์—์„œ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ํ•™์Šต
  • NDF ์‚ฌ์ „ํ•™์Šต: ShapeNet์˜ ๋ณ‘/๋จธ๊ทธ ๋ฉ”์‹œ + ๋ณผํŠธ์šฉ ์ปค์Šคํ…€ ๋ฉ”์‹œ๋กœ occupancy network ํ•™์Šต, ๋ชฉํ‘œ ํŠน์ง•๋‹น 12๊ฐœ ๋””์Šคํฌ๋ฆฝํ„ฐ ๋ฒกํ„ฐ ์ˆ˜์ง‘

๊ณผ์ œ

  • ์‹œ๋ฎฌ๋ ˆ์ด์…˜: (1) ํ”ฝ์•คํ”Œ๋ ˆ์ด์Šค(๋จธ๊ทธ๋ฅผ ํ…Œ๋‘๋ฆฌ/์†์žก์ด๋กœ, ๋ณ‘์„ ๋ชฉ์œผ๋กœ ์žก๊ธฐ), (2) ๋ณผํŠธ ๋นผ์„œ ๋‹ค๋ฅธ ๊ตฌ๋ฉ์— ๋„ฃ๊ธฐ
  • ์‹ค์„ธ๊ณ„: (1) ๋ณ‘๋šœ๊ป‘ ์—ด๊ธฐ(๋‹ค์–‘ํ•œ ๋šœ๊ป‘ ํ˜•์ƒยท์งˆ๊ฐ์œผ๋กœ ์ผ๋ฐ˜ํ™”), (2) ์ ์  ์ข์•„์ง€๋Š” ๊ณต์ฐจ์˜ ์‚ฝ์ž… โ€” ๋ณผํŠธ(2 mm), ํ”Œ๋Ÿฌ๊ทธ(1 mm), USB(0.5 mm)

๋ฒ ์ด์Šค๋ผ์ธ

  1. NDFs: ์ด‰๊ฐ ์—†๋Š” ์›๋ž˜ NDF
  2. NDFs+RL-Touch: NDF coarse + ๋””์Šคํฌ๋ฆฝํ„ฐ ์—†๋Š” ์ด‰๊ฐ RL ์ •์ฑ…
  3. C2FIL: ์‹œ์—ฐ ๊ธฐ๋ฐ˜ Coarse-to-Fine Imitation Learning
  4. C2FIL+RL-Touch: C2FIL์— ์ด‰๊ฐ ๋ฏธ์„ธ์กฐ์ • ์ถ”๊ฐ€

๊ฒฐ๊ณผ

(a) ์ •๋ฐ€๋„ โ€” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ ˆ์ œ ์‹คํ—˜

NeuralTouch๋Š” ์—ฌ์„ฏ ๊ฐ€์ง€ ๋ชฉํ‘œ ํŠน์ง•์—์„œ ์„œ๋ธŒ ๋ฐ€๋ฆฌ๋ฏธํ„ฐ๊ธ‰ ์ •๋ฐ€๋„(ํ‰๊ท  ์œ„์น˜ ์˜ค์ฐจ ์•ฝ 0.86 mm)๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

ํŠน์ง• NeuralTouch NDFs NDFs+T C2FIL C2FIL+T
๋จธ๊ทธ ํ…Œ๋‘๋ฆฌ 0.8 mm 13.6 mm 15.3 mm 17.3 mm 22.5 mm
๋ณ‘ ๋ชฉ 0.9 mm 9.0 mm 2.0 mm 20.2 mm 15.2 mm

ํŠนํžˆ ๋””์Šคํฌ๋ฆฝํ„ฐ ์กฐ๊ฑด์ด ์—†๋Š” NDFs+RL-Touch๋Š” ์˜คํžˆ๋ ค ๋” ๋‚˜๋น ์ง€๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ๋จธ๊ทธ ํ…Œ๋‘๋ฆฌ์™€ ๋จธ๊ทธ ๋ฒฝ์ฒ˜๋Ÿผ ์ด‰๊ฐ์ด ๋น„์Šทํ•œ ํ˜•์ƒ์—์„œ ์ •์ฑ…์ด ๋ชฉํ‘œ๋ฅผ ํ˜ผ๋™ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๋ณธ ๋…ผ๋ฌธ์ด ๊ฐ•์กฐํ•˜๋Š” โ€œํŠน์ง• ๋ชจํ˜ธ์„ฑโ€์ด๋ฉฐ, ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ๊ฐ€ ์ด๋ฅผ ํ•ด์†Œํ•˜๋Š” ํ•ต์‹ฌ ์žฅ์น˜์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

(b) ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ  โ€” ์‹œ๋ฎฌ๋ ˆ์ด์…˜

  • ๋จธ๊ทธ ์ˆ˜ํ‰ ์†์žก์ด: NeuralTouch 95.0% vs NDFs 40.0%, C2FIL 46.7%
  • ๋ณ‘๋šœ๊ป‘: NeuralTouch 93.3% vs NDFs 51.7%, C2FIL 43.3%
  • ๋ณผํŠธ ๋นผ์„œ ๋„ฃ๊ธฐ: NeuralTouch 86.7% vs C2FIL 71.7%

(c) ์‹ค์„ธ๊ณ„ โ€” ๋ณ‘๋šœ๊ป‘ ์—ด๊ธฐ

๋Œ€์ƒ NeuralTouch NDFs C2FIL
์‚ฌ๊ณผ์ฃผ์Šค 90% 40% 85%
์ผ€์ฒฉ 90% 45% 20%
์‹œ๋Ÿฝ 85% 30% 10%

C2FIL์€ ์‹œ์—ฐํ•œ ๋ฌผ์ฒด๋ฅผ ๋ฒ—์–ด๋‚˜๋ฉด ์„ฑ๋Šฅ์ด ์•ฝ 75%p ๊ธ‰๋ฝํ•˜๋Š” ๋ฐ˜๋ฉด, NeuralTouch๋Š” 15์ข…์˜ ๋‹ค์–‘ํ•œ ๋šœ๊ป‘์—์„œ ํ‰๊ท  81.0% ์„ฑ๊ณต๋ฅ ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์˜ ์ฐจ์ด๊ฐ€ ๋šœ๋ ทํ•ฉ๋‹ˆ๋‹ค.

(d) ์‹ค์„ธ๊ณ„ โ€” ์‚ฝ์ž…(๊ณต์ฐจ๊ฐ€ ์ข์•„์งˆ์ˆ˜๋ก)

  • ๋ณผํŠธ(2 mm): NeuralTouch 55% vs C2FIL 25%
  • ํ”Œ๋Ÿฌ๊ทธ(1 mm): NeuralTouch 25% vs ๋ฒ ์ด์Šค๋ผ์ธ 0~5%
  • USB(0.5 mm): NeuralTouch 15% vs ๋ฒ ์ด์Šค๋ผ์ธ 0%

์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ๊ด€์ฐฐ์€ sim-to-real ๊ฒฉ์ฐจ์ž…๋‹ˆ๋‹ค. ์‹œ๋ฎฌ์—์„œ 86.7%์˜€๋˜ ์„ฑ๊ณต๋ฅ ์ด ์‹ค์„ธ๊ณ„ ํ‰๊ท  31.7%๋กœ ๋–จ์–ด์กŒ๊ณ , ์ €์ž๋“ค์€ ์ฃผ์›์ธ์„ ์„ฌ์„ธํ•œ ์ ‘์ด‰์—์„œ์˜ ์ด‰๊ฐ real-to-sim ๋ณ€ํ™˜ ํ•œ๊ณ„๋กœ ๋ด…๋‹ˆ๋‹ค.

(e) ์˜จ๋ผ์ธ ์ ์‘์„ฑ

ํ…Œ์ŠคํŠธ ์ค‘ ์กฐ๊ฑด ๋””์Šคํฌ๋ฆฝํ„ฐ๋งŒ ๋ฐ”๊ฟ” ๋ชฉํ‘œ ํŠน์ง•์„ ๋™์ ์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์žฌํ•™์Šต์ด ํ•„์š” ์—†์œผ๋ฉฐ, ์ด๋Š” ๋””์Šคํฌ๋ฆฝํ„ฐ ์กฐ๊ฑด์ด ์—†๋Š” RL-Touch ๋ฒ ์ด์Šค๋ผ์ธ์€ ๋ชป ํ•˜๋Š” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค.

์˜๋ฏธ ํ•ด์„

๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•˜๋ฉด ์„ธ ๊ฐ€์ง€ ๋ฉ”์‹œ์ง€๊ฐ€ ์ฝํž™๋‹ˆ๋‹ค. ์ฒซ์งธ, ์‹œ๊ฐ(NDF ๊ธฐํ•˜ ์ดํ•ด)๊ณผ ์ด‰๊ฐ(์ ‘์ด‰ ํ”ผ๋“œ๋ฐฑ)์„ ๊ฒฐํ•ฉํ•˜๋ฉด ๋‹จ์ผ ๊ฐ๊ฐ๋ณด๋‹ค ํ™•์‹คํžˆ ๋‚ซ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋‹จ์ˆœํžˆ ๋‘˜์„ ๋ถ™์ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์‹œ๊ฐ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์ด‰๊ฐ ์ •์ฑ…์„ ์กฐ๊ฑดํ™”ํ•ด์•ผ ๋ชจํ˜ธ์„ฑ์ด ํ’€๋ฆฝ๋‹ˆ๋‹ค. ์…‹์งธ, ์˜๋ฏธ์  ๋Œ€์‘์„ ์“ฐ๋Š” NDF ๋•๋ถ„์— ์‹œ์—ฐ ๋ฌผ์ฒด๋ฅผ ๋ฒ—์–ด๋‚œ ์นดํ…Œ๊ณ ๋ฆฌ ์ผ๋ฐ˜ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด, ์‹œ์—ฐ์— ๊ณผ์ ํ•ฉ๋˜๋Š” ๋ชจ๋ฐฉํ•™์Šต(C2FIL)๋ณด๋‹ค ๊ฐ•๊ฑดํ•ฉ๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

  • ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์œตํ•ฉ ๋ฐฉ์‹์ด ์šฐ์•„ํ•จ: โ€œ์ด‰๊ฐ ์ •์ฑ…์„ ์‹œ๊ฐ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์กฐ๊ฑดํ™”โ€ํ•œ๋‹ค๋Š” ํ•œ ์ค„ ์•„์ด๋””์–ด๊ฐ€ ํŠน์ง• ๋ชจํ˜ธ์„ฑ์„ ์ง์ ‘ ๊ฒจ๋ƒฅํ•ฉ๋‹ˆ๋‹ค. ๋ณ„๋„ ์ •์ฑ…์„ ํ˜•์ƒ๋งˆ๋‹ค ๋งŒ๋“ค์ง€ ์•Š์•„๋„ ๋ฉ๋‹ˆ๋‹ค.
  • ์ผ๋ฐ˜ํ™”์™€ ์ •๋ฐ€๋„๋ฅผ ๋™์‹œ์—: NDF์˜ SE(3) ๋“ฑ๋ณ€์„ฑยท์˜๋ฏธ ๋Œ€์‘์ด ์นดํ…Œ๊ณ ๋ฆฌ ์ผ๋ฐ˜ํ™”๋ฅผ ์ฃผ๊ณ , RL ์ด‰๊ฐ ์„œ๋ณด์ž‰์ด ์„œ๋ธŒ ๋ฐ€๋ฆฌ๋ฏธํ„ฐ ์ •๋ฐ€๋„๋ฅผ ์ค๋‹ˆ๋‹ค. ๋ชจ๋ฐฉํ•™์Šต ๋Œ€๋น„ ๋ฏธ์ง€ ๋ฌผ์ฒด์—์„œ ๊ฐ•๊ฑดํ•ฉ๋‹ˆ๋‹ค.
  • ์žฌํ•™์Šต ์—†๋Š” ๋ชฉํ‘œ ์ „ํ™˜: ๋””์Šคํฌ๋ฆฝํ„ฐ๋งŒ ๊ต์ฒดํ•˜๋ฉด ๋ชฉํ‘œ ํ˜•์ƒ์„ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ์–ด ์‹ค์ „ ์œ ์—ฐ์„ฑ์ด ํฝ๋‹ˆ๋‹ค.
  • ํ˜„์‹ค์ ์ธ ํ•™์Šต ์„ค๊ณ„: ํ•™์Šต ์‹œ ์ดˆ๊ธฐ ์ž์„ธ๋ฅผ \pm 20 mm/\pm 20^\circ๋กœ ํ”๋“ค์–ด NDF ์˜ค์ฐจ๋ฅผ ๋ฏธ๋ฆฌ ๋ชจ์‚ฌํ•œ ์ ์ด zero-shot ์ „์ด๋ฅผ ๋„์™”์Šต๋‹ˆ๋‹ค.

์•ฝ์ ยทํ•œ๊ณ„

  • ์ด‰๊ฐ sim-to-real ๊ฒฉ์ฐจ๊ฐ€ ๊ฐ€์žฅ ํฐ ๋ณ‘๋ชฉ: ์ข์€ ๊ณต์ฐจ ์‚ฝ์ž…์—์„œ ์„ฑ๊ณต๋ฅ  ๊ธ‰๋ฝ(86.7%โ†’31.7%)์˜ ์ฃผ๋ฒ”์€ ๊ฐ€๋ฒผ์šด ์ ‘์ด‰์˜ GAN ๋ณ€ํ™˜ ํ’ˆ์งˆ์ž…๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ •๋ฐ€ํ•ด์•ผ ํ•  ์˜์—ญ์—์„œ ๊ฐ€์žฅ ์•ฝํ•ฉ๋‹ˆ๋‹ค.
  • ์„œ๋ธŒ ๋ฐ€๋ฆฌ๋ฏธํ„ฐ์˜ ์ฒœ์žฅ: ํ‰๊ท  ์ •๋ฐ€๋„๋Š” ์ข‹์ง€๋งŒ, ์‚ฐ์—… ์–‘์‚ฐ์—์„œ ์š”๊ตฌ๋˜๋Š” ์ผ๊ด€๋œ ์„œ๋ธŒ ๋ฐ€๋ฆฌ๋ฏธํ„ฐ ์ˆ˜์ค€์—๋Š” ์•„์ง ๋ชป ๋ฏธ์นœ๋‹ค๊ณ  ์ €์ž๋„ ์ธ์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์‹คํ–‰ ์‹œ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ๋ถ€์žฌ: ์ •๋ฐ€ ์žก๊ธฐ ์ดํ›„ ์‹ค์ œ ์กฐ์ž‘(์‚ฝ์ž…ยท์—ด๊ธฐ) ๋‹จ๊ณ„๋Š” โ€œ๋ฆฌํ”Œ๋ ˆ์ด(replay)โ€๋กœ ์ˆ˜ํ–‰๋˜์–ด ์‹ค์‹œ๊ฐ„ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์ด ์—†์Šต๋‹ˆ๋‹ค. ์™ธ๋ž€(disturbance) ๋ฐœ์ƒ ์‹œ ๋Œ€์‘ ๊ธฐํšŒ๋ฅผ ๋†“์นฉ๋‹ˆ๋‹ค. (์ถ”์ธก) ์ด ๋‹จ๊ณ„๊นŒ์ง€ ์ด‰๊ฐ ํ๋ฃจํ”„๋ฅผ ๋„ฃ์œผ๋ฉด ์ข์€ ๊ณต์ฐจ ์„ฑ๊ณต๋ฅ ์ด ๋” ์˜ค๋ฅผ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ์ „ํ•™์Šต ์˜์กด์„ฑ: NDF ๋ฐฑ๋ณธ์„ ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ๋ฉ”์‹œ(ShapeNet, ์ปค์Šคํ…€ ๋ณผํŠธ)๋กœ ์‚ฌ์ „ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฉ”์‹œ๊ฐ€ ์—†๋Š” ์™„์ „ ์‹ ๊ทœ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ์˜ ์ฆ‰์‹œ ํ™•์žฅ์„ฑ์€ (์ถ”์ธก) ์ œํ•œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‹œ์Šคํ…œ ๋ณต์žก์„ฑ: NDF ์ตœ์ ํ™”์šฉ/์‹ค์‹œ๊ฐ„ ์ œ์–ด์šฉ PC 2๋Œ€, pix2pix GAN, occupancy network, PPO ์ •์ฑ… ๋“ฑ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ๋งŽ์•„ ์žฌํ˜„ยท๋ฐฐํฌ ๋ถ€๋‹ด์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

NeuralTouch๋Š” โ€œ๋ˆˆ์œผ๋กœ ๋Œ€์ถฉ, ์†์œผ๋กœ ์ •ํ™•ํžˆโ€๋ผ๋Š” ์ธ๊ฐ„์˜ ์žก๊ธฐ ์ „๋žต์„ ๋กœ๋ด‡์— ์˜ฎ๊ธด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ ๋‹จ์ˆœํ•œ ์‹œ๊ฐ+์ด‰๊ฐ ๊ฒฐํ•ฉ์ด ์•„๋‹ˆ๋ผ, ์‹œ๊ฐ์œผ๋กœ ํ•™์Šตํ•œ ์•”๋ฌต์  ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ๋ฅผ ์ด‰๊ฐ ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์˜ ์กฐ๊ฑด(๋ชฉํ‘œ ์ง€์‹œ)์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ ์ด‰๊ฐ๋งŒ์œผ๋กœ๋Š” ๊ตฌ๋ณ„๋˜์ง€ ์•Š๋Š” ํ˜•์ƒ(ํŠน์ง• ๋ชจํ˜ธ์„ฑ)์„ ํ’€๊ณ , ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ ์ ‘์ด‰ ํ˜•์ƒ์— ์ •์ฑ…์„ ๊ฐ€๋‘์ง€ ์•Š์œผ๋ฉด์„œ๋„, ๋‹จ์ผ ์ •์ฑ…์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

Coarse ๋‹จ๊ณ„์—์„œ NDF ๋””์Šคํฌ๋ฆฝํ„ฐ ๊ฑฐ๋ฆฌ ์ตœ์†Œํ™”๋กœ ์ดˆ๊ธฐ ์ž์„ธ๋ฅผ ์–ป๊ณ , Fine ๋‹จ๊ณ„์—์„œ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์กฐ๊ฑดํ™”๋œ ์ด‰๊ฐ RL ์„œ๋ณด์ž‰์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ‰๊ท  0.86 mm์˜ ์ •๋ฐ€๋„, ์ถ”๊ฐ€ ๋ฏธ์„ธ์กฐ์ • ์—†๋Š” zero-shot ์‹ค์„ธ๊ณ„ ์ „์ด๋กœ ๋ณ‘๋šœ๊ป‘ ์—ด๊ธฐยท์‚ฝ์ž… ๊ฐ™์€ ๊ณผ์ œ์—์„œ ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌ๊ฒŒ ์•ž์„ฐ๊ณ , ํŠนํžˆ ๋ฏธ์ง€ ๋ฌผ์ฒด ์ผ๋ฐ˜ํ™”์—์„œ ๋ชจ๋ฐฉํ•™์Šต ๋Œ€๋น„ ๊ฐ•๊ฑดํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‚จ์€ ๊ณผ์ œ๋Š” ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€๋ฒผ์šด ์ ‘์ด‰์˜ ์ด‰๊ฐ sim-to-real ๋ณ€ํ™˜์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์ด ์ข์€ ๊ณต์ฐจ ์ž‘์—…์˜ ์„ฑํŒจ๋ฅผ ์ขŒ์šฐํ•˜๋ฉฐ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ์กฐ์ž‘ ๋‹จ๊ณ„๊นŒ์ง€ ์‹ค์‹œ๊ฐ„ ์ด‰๊ฐ ํ๋ฃจํ”„๋ฅผ ํ™•์žฅํ•˜๋ฉด ์™ธ๋ž€ ๋Œ€์‘๋ ฅ์ด ๋†’์•„์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ โ€œ์‹ ๊ฒฝ ๋””์Šคํฌ๋ฆฝํ„ฐ๋กœ ์ด‰๊ฐ ์ •์ฑ…์„ ์กฐ๊ฑดํ™”โ€ํ•œ๋‹ค๋Š” ์•„์ด๋””์–ด๋Š”, ์‹œ๊ฐ-์ด‰๊ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ฐ€ ์กฐ์ž‘ ์—ฐ๊ตฌ์— ๋‘๊ณ ๋‘๊ณ  ์šธ๋ฆฌ๋Š”(ring) ์„ค๊ณ„ ์›์น™์œผ๋กœ ๋‚จ์„ ๋งŒํ•ฉ๋‹ˆ๋‹ค.


์ฐธ๊ณ : ๋ณธ ๋ฆฌ๋ทฐ๋Š” arXiv ๊ณต๊ฐœ๋ณธ(arXiv:2510.20390, University of Bristol)์„ ๊ทผ๊ฑฐ๋กœ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์›Œํฌ์ˆ PDF ๋งํฌ(ViTac 2026)๊ฐ€ 404๋กœ ์ ‘๊ทผ๋˜์ง€ ์•Š์•„ ๋™์ผ ๋…ผ๋ฌธ์˜ arXiv ๋ฒ„์ „์„ ํ™•๋ณดํ•ด ์ •๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee