flowchart TD
A[RGB-D Camera] --> B[Object Point Cloud P]
B --> C[NDF Backbone f x given P]
C --> D[Coarse Phase: NDF Pose Regression]
D --> E[Initial Grasp Pose Tg]
C --> F[Neural Pose Descriptor Z]
E --> G[Move EE near target]
G --> H[Fine Phase: Tactile RL Servoing]
F --> H
I[TacTip Tactile Image] --> J[pix2pix GAN real-to-sim]
J --> H
K[Proprioception e] --> H
H --> L[7D EE Twist Action a]
L --> M[Refined Precise Grasp]
M --> N[Replay Downstream Task]
๐NeuralTouch
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
์ฌ๋์ ๋ฌผ๊ฑด์ ์ง์ ๋ ๋ ๋จ๊ณ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ๊ฑฐ์นฉ๋๋ค. ๋จผ์ ๋์ผ๋ก ๋์์ ํ์ด๋ณด๊ณ ์์ ๋๋ต์ ์ธ ์์น๋ก ๊ฐ์ ธ๊ฐ ๋ค, ์๊ฐ๋ฝ ๋์ ์ด๊ฐ์ผ๋ก ๋ฏธ์ธํ๊ฒ ์์น๋ฅผ ์กฐ์ ํด ์ปต์ ์์ก์ด๋ ๋ณ์ ๋ชฉ์ ์ ํํ ์ก์ต๋๋ค. ์ฆ ์๊ฐ์ โ์ด๋์ฏคโ์ ์๋ ค์ฃผ๊ณ , ์ด๊ฐ์ โ์ ํํ ๊ฑฐ๊ธฐโ๋ฅผ ์์ฑํฉ๋๋ค. ๋ก๋ด์๊ฒ ์ด ๋ ๊ฐ๊ฐ์ ํจ๊ป ์ฐ๊ฒ ๋ง๋๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ์ถ๋ฐ์ ์ ๋๋ค.
๋ฌธ์ ๋ ๋ ๊ฐ๊ฐ์ด ๊ฐ๊ฐ ํ๊ณ๋ฅผ ๊ฐ์ง๋ค๋ ๋ฐ ์์ต๋๋ค.
- ์๊ฐ ๊ธฐ๋ฐ ์ ๊ทผ(ํนํ Neural Descriptor Fields, NDF): ์นด๋ฉ๋ผ๋ก ๋ณธ ์ ๊ตฐ(point cloud)์์ ์ก๊ธฐ ์์ธ(grasp pose)๋ฅผ ์ถ์ ํ๋ฉด ์ฌ๋ฌ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ์ผ๋ฐํํ ์ ์์ต๋๋ค. ํ์ง๋ง ์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ค์ฐจ, ๊ฐ๋ ค์ง์ผ๋ก ์ธํ ๋ถ์์ ํ ์ ๊ตฐ, ๋ฌผ์ฒด ํ์์ ๋ค์์ฑ ๋๋ฌธ์ ์ถ์ ๋ ์์ธ๊ฐ ์ mm์์ 1~2 cm์ฉ ํ์ด์ง๋๋ค. ์ด๋ ์ ๋ฐ ์กฐ๋ฆฝ์ด๋ ์ฝ์ ์์ ์์ ์น๋ช ์ ์ ๋๋ค.
- ์ด๊ฐ ๊ธฐ๋ฐ ์ ๊ทผ: ์๋์ ์ ์ด ์ ๋ณด๋ฅผ ์ฐ๋ฉด ์ ๋ฐํด์ง์ง๋ง, ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ โํํํ ๋ฉด์ ์์ง์ผ๋ก ์ ์ดโ ๊ฐ์ ๋ฏธ๋ฆฌ ์ ํด์ง ์ ์ด ํ์(predefined contact geometry)์ ์ ์ฑ (policy)์ ํ์ ํฉ๋๋ค. ๋ํ ์ด๊ฐ ์ด๋ฏธ์ง๋ง์ผ๋ก๋ ์ปต์ ํ ๋๋ฆฌ์ ์ปต์ ๋ฒฝ์ฒ๋ผ ๋ง์ ธ์๋ ๊ฑฐ์ ๋๊ฐ์ด ๋๊ปด์ง๋ ํ์๋ค์ ๊ตฌ๋ณํ์ง ๋ชปํฉ๋๋ค. ๋ ผ๋ฌธ์ ์ด๋ฅผ ํน์ง ๋ชจํธ์ฑ(feature ambiguity) ์ด๋ผ ๋ถ๋ฆ ๋๋ค.
NeuralTouch์ ํต์ฌ ์์ด๋์ด๋ ์ด ๋์ ํ ์ค๊ธฐ๋ก ์ฎ๋ ๊ฒ์ ๋๋ค. ์๊ฐ์ผ๋ก ํ์ตํ ์๋ฌต์ ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ(implicit neural descriptor) ๋ฅผ โ๋ชฉํ ์ ์ด ํ์์ด ๋ฌด์์ธ์งโ๋ฅผ ์๋ ค์ฃผ๋ ์กฐ๊ฑด(condition)์ผ๋ก ์ผ์, ๊ฐํํ์ต(RL) ์ด๊ฐ ์ ์ฑ ์ด ๊ทธ ์กฐ๊ฑด์ ๋ง๊ฒ ์ ์ด์ ๋ฏธ์ธ ์กฐ์ ํ๋๋ก ํฉ๋๋ค. ๋น์ ํ์๋ฉด, ์ด๊ฐ ์ ์ฑ ์๊ฒ ๋์ ๊ฐ๋ฆฐ ์ฑ ๋๋ฌ๊ฒ ํ๋ ๋์ โ์ง๊ธ ๋ค๊ฐ ๋๋ฌ๋ ๊ฑด ์ปต์ ํ ๋๋ฆฌ์ผโ๋ผ๋ ๊ท์๋ง(๋์คํฌ๋ฆฝํฐ)์ ๊ณ์ ๋ค๋ ค์ฃผ๋ ์ ์ ๋๋ค. ๊ทธ๋ฌ๋ฉด ์ ์ฑ ์ ๋ชจํธํ ์ด๊ฐ ์์์๋ ์์ ์ด ์ด๋ค ํ์์ ๋ชฉํ๋ก ํ๋์ง ์๊ฒ ๋ฉ๋๋ค.
์ ์๋ค์ ์๊ตญ University of Bristol๊ณผ Bristol Robotics Laboratory ์์์ด๋ฉฐ, TacTip ์ด๊ฐ ์ผ์์ Tactile Gym ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ์ ํ์ฉํฉ๋๋ค.
ํ๋์ ๋ณด๋ ํ์ดํ๋ผ์ธ
๋ฐฉ๋ฒ
1) Neural Descriptor Fields(NDF): ์ ์ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๋ ์ขํ๊ณ
NDF๋ ๋ฌผ์ฒด ํ๋ฉด ์/์ฃผ๋ณ์ ํ ์ ์ โ์ด ์ ์ด ํ์์ ์ผ๋ก ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋๊ฐโ๋ฅผ ๋ํ๋ด๋ ๋์คํฌ๋ฆฝํฐ ๋ฒกํฐ๋ฅผ ๋ถ์ฌํ๋ ํจ์์ ๋๋ค.
f(x \mid P): \mathbb{R}^3 \times \mathbb{R}^{3 \times n} \rightarrow \mathbb{R}^d
์ฌ๊ธฐ์ x๋ ์ง์์ (query point)์ 3D ์ขํ, P๋ ๋ฌผ์ฒด ์ ๊ตฐ, ์ถ๋ ฅ์ d์ฐจ์ ๋์คํฌ๋ฆฝํฐ์ ๋๋ค. ์ง๊ด์ ์ผ๋ก, ์๋ก ๋ค๋ฅธ ๋จธ๊ทธ์ปต์ด๋ผ๋ โํ ๋๋ฆฌ ์์ ํ ์ โ์ ๋น์ทํ ๋์คํฌ๋ฆฝํฐ ๊ฐ์ ๊ฐ์ต๋๋ค. ์ฆ ๋์คํฌ๋ฆฝํฐ๋ ์ธ์คํด์ค๊ฐ ๋ฌ๋ผ๋ ์๋ฏธ๊ฐ ๊ฐ์ ๋ถ์๋ฅผ ๊ฐ์ ์ขํ๋ก ๋งคํํ๋ ์ผ์ข ์ โ์๋ฏธ ์ขํ๊ณโ์ ๋๋ค.
๋ ๊ฐ์ง ์ฑ์ง์ด ํต์ฌ์ ๋๋ค.
- SE(3) ๋ฑ๋ณ์ฑ(equivariance): ๋ฌผ์ฒด๋ฅผ ํ์ ยท์ด๋์ํค๋ฉด ๋์คํฌ๋ฆฝํฐ๋ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ฐ๋ผ ์์ง์ ๋๋ค. f(x \mid P) \equiv f(Tx \mid TP) ๋๋ถ์ ๋ฌผ์ฒด๊ฐ ์ด๋ค ์์ธ๋ก ๋์ฌ ์์ด๋ ๋์ผํ ๋ถ์๋ ๋์ผํ๊ฒ ์๋ณ๋ฉ๋๋ค. ํ์ ๋ฑ๋ณ ์ ๊ฒฝ๋ง(rotation-equivariant network)์ผ๋ก ์ด ์ฑ์ง์ ๋ณด์ฅํฉ๋๋ค.
- ๊ธฐํ์ ๋์(geometric correspondence): ๋ฐฑ๋ณธ์ ์นดํ ๊ณ ๋ฆฌ ๋จ์์ ํ์ ๋ณต์(occupancy ์์ธก)์ผ๋ก ์ฌ์ ํ์ตํ๋ฉด, ์ธ์คํด์ค ๊ฐ ์๋ฏธ์ ์ ์ฌ์ฑ์ ์์ฐํ ํ์ตํฉ๋๋ค.
6D ์์ธ๋ฅผ ํํํ ๋๋ ํ ์ ๋ง์ผ๋ก๋ ํ์ ์ ๋ชป ์ก์ผ๋ฏ๋ก, ์ผ์ง์ ์ด ์๋(non-collinear) ์ฌ๋ฌ ์ง์์ ์ ๊ฐ์ฒด ๋ฐฐ์น๋ก ๋ฌถ์ด ๋์คํฌ๋ฆฝํฐ๋ฅผ ์์ต๋๋ค.
Z = F(T \mid P) = \bigoplus_i f(T x_i \mid P)
์ด๋ ๊ฒ ํ๋ฉด ์ก๊ธฐ ์์ธ T ์ ์ฒด๋ฅผ ํ๋์ ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ Z๋ก ๊ธฐ์ ํ ์ ์์ต๋๋ค. ์ด Z๊ฐ ๋ค์์ RL ์ ์ฑ ์ ๋๊ฒจ์ฃผ๋ โ๊ท์๋งโ์ ๋๋ค.
2) Coarse ๋จ๊ณ: ๋์คํฌ๋ฆฝํฐ ๊ฑฐ๋ฆฌ ์ต์ํ๋ก ์ด๊ธฐ ์์ธ ์ถ์
์์ฐ(demonstration) ๋ฌผ์ฒด P_d์์ ์ฌ๋์ด ์ก์ ์์ธ T_d์ ๋์คํฌ๋ฆฝํฐ F(T_d \mid P_d)๋ฅผ ๊ธฐ๋กํด ๋ก๋๋ค. ์ ๋ฌผ์ฒด P_u์ ๋ํด, ๊ฐ์ ๋์คํฌ๋ฆฝํฐ๋ฅผ ๋ง๋๋ ์์ธ๋ฅผ ์ฐพ์ต๋๋ค.
T_g = \arg\min_{T} \; \big\| F(T \mid P_u) - F(T_d \mid P_d) \big\|
์ฆ โ์์ฐ์์ ์ก์๋ ๋ถ์์ ์๋ฏธ์ ์ผ๋ก ๊ฐ์ ๊ณณโ์ ์ ๋ฌผ์ฒด์์ ์ฐพ์ ์ด๊ธฐ ์์ธ T_g๋ฅผ ์ป์ต๋๋ค. ์ด ์ต์ ํ๋ GPU์์ ์ํผ์๋ ๋ฆฌ์ ๋น ์ฝ 1์ด ์ ๋๋ก ์คํ๋ผ์ธ ์ํ๋ฉ๋๋ค. ํ์ง๋ง ์์ ๋งํ ์ด์ ๋ค๋ก T_g์๋ ์ค์ฐจ๊ฐ ๋จ์ต๋๋ค โ ๊ทธ๋์ ๋ค์ ๋จ๊ณ๊ฐ ํ์ํฉ๋๋ค.
3) Fine ๋จ๊ณ: ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ๋ก ์กฐ๊ฑดํ๋ ์ด๊ฐ RL ์๋ณด์
๋ฏธ์ธ ์กฐ์ ์ ์ฑ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค.
a = \pi\big(i^c, \; e, \; Z^{G_\tau}\big)
- i^c: ์ ์ด ์ ์ป์ ์ด๊ฐ ์ด๋ฏธ์ง(TacTip)
- e: ๊ณ ์ ์์ฉ ๊ฐ๊ฐ(proprioception) โ ์๋์ดํํฐ ์์ธ, ๊ทธ๋ฆฌํผ ์๊ฐ๋ฝ ๊ฐ ๊ฑฐ๋ฆฌ
- Z^{G_\tau}: ๋ชฉํ ํ์ G_\tau๋ฅผ ๋ํ๋ด๋ ์ ๊ฒฝ ์์ธ ๋์คํฌ๋ฆฝํฐ
- a: 7์ฐจ์ ์๋์ดํํฐ ํธ์์คํธ โ 3D ๋ณ์ง ์๋ + 3D ๊ฐ์๋ + ๊ทธ๋ฆฌํผ ์๊ฐ๋ฝ ๊ฑฐ๋ฆฌ
์ฌ๊ธฐ์ ๊ฐ์ฅ ์ค์ํ ์ค๊ณ๋ ์ ์ฑ ์ โ์ ์ด ์ข ๋ฅโ๊ฐ ์๋๋ผ ๋์คํฌ๋ฆฝํฐ Z๋ก ์กฐ๊ฑดํํ๋ค๋ ์ ์ ๋๋ค. ํ๋ฉด ์ ์ด, ๋ชจ์๋ฆฌ ์ ์ด, ๊ณก๋ฉด ์ ์ด์ ๊ฐ๊ฐ ๋ณ๋ ์ ์ฑ ์ผ๋ก ํ์ตํ๋ ๋์ , ํ๋์ ์ ์ฑ ์ด ์ ๋ ฅ์ผ๋ก ๋ค์ด์จ ๋์คํฌ๋ฆฝํฐ์ ๋ฐ๋ผ ๋ชฉํ๋ฅผ ๋ฐ๊ฟ ํ๋ํฉ๋๋ค. ํ ์คํธ ์ค์ ์กฐ๊ฑด ๋์คํฌ๋ฆฝํฐ๋ง ๋ฐ๊ฟ์ฃผ๋ฉด ์ฌํ์ต ์์ด ๋ชฉํ ํ์์ ์ค์๊ฐ์ผ๋ก ์ ํํ ์ ์์ต๋๋ค.
๋คํธ์ํฌ ๊ตฌ์กฐ
Tactile image i_c --> CNN encoder --------+
Proprioception e --+ |
Descriptor Z --+--> MLP[512,256,128] --> concat --> MLP[256,128] --> action a (7D)
- ๊ณ ์ ์์ฉ ๊ฐ๊ฐ + ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ: 3-layer MLP(์๋ ์ฐจ์ 512, 256, 128)
- ์ด๊ฐ ์ด๋ฏธ์ง: CNN ์ธ์ฝ๋(์ ํ ์ฐ๊ตฌ์ ๋์ผ ๊ตฌ์กฐ)
- ๋ ํน์ง์ ๊ฒฐํฉ ํ 2-layer MLP([256, 128])๋ก ํ๋ ์ถ๋ ฅ
๋ณด์ ํจ์
R_t = w_1 \sum_{i=1}^{2} \big\| p^g_i - p^f_i \big\| \;+\; w_2 \, S(q^g_t, q^e_t) \;+\; r_{stable} + r_{act} + r_{term}
๊ฐ ํญ์ ์ง๊ด:
| ํญ | ์๋ฏธ | ๋ถํธ |
|---|---|---|
| w_1 \sum \|p^g_i - p^f_i\| | ์ข/์ฐ ์๊ฐ๋ฝ์ ๋ชฉํ ๋๋น ์์น ์ค์ฐจ | ์(-) |
| w_2\,S(q^g_t,q^e_t) | ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ก ์ฐ ๋ฐฉํฅ(orientation) ์ค์ฐจ | ์(-) |
| r_{stable} | ๋ชฉํ ์ง์ ์์ 50 ์คํ ์ด์ ๋จธ๋ฌผ๋ฉด ๋ถ์ฌํ๋ ์์ ์ฑ ๋ณด์ | ์(+) |
| r_{act} | ํ๋ ํฌ๊ธฐ์ ๋ํ ํ๋ํฐ(๋ถ๋๋ฝ๊ณ ํจ์จ์ ์ธ ์์ง์ ์ ๋) | ์(-) |
| r_{term} | 100 ์คํ ๋์ ์ ์ด์ด ์์ผ๋ฉด ์กฐ๊ธฐ ์ข ๋ฃ ํ๋ํฐ | ์(-) |
์ฆ โ๋ชฉํ ๋ถ์์ ์๊ฐ๋ฝ์ ์ ํํ, ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก, ์์ ์ ์ผ๋ก, ๋ถ๋๋ฝ๊ฒโ ๊ฐ์ ธ๋ค ๋๋๋ก ์ ๋ํฉ๋๋ค.
4) ํตํฉ๋ ์๋ฏธ์ ์ก๊ธฐ ์์ธ: ํ์ ๊ณต๊ฐ์ ์ค์ด๋ ๋ฌ์
NDF ๋์คํฌ๋ฆฝํฐ ๊ณต๊ฐ ์ ์ฒด๋ฅผ RL๋ก ํ์ํ๋ฉด ๋๋ฌด ๋์ต๋๋ค. ์ ์๋ค์ ์ด๊ฐ ์ผ์๊ฐ ๊ตญ์ ํ๋ฉด์ ์์ง(perpendicular)์ ์ ์งํ๋ค๋ ๊ฐ์ ์ ๋ก๋๋ค. ๊ทธ๋ฌ๋ฉด ํ๋ฉด(์์ ๋ 3), ๋ชจ์๋ฆฌ(์์ ๋ 5), ๊ณก๋ฉด(6D) ๊ฐ์ ์๋ก ๋ค๋ฅธ ์ ์ด ํน์ง๋ค์ด ์ด ์์ง ์ ์ฝ ์๋์์ ํ๋์ ํํ๋ก ํตํฉ๋ฉ๋๋ค. ๋๋ถ์ ๋จ์ผ ์ ์ฑ ์ด ๋์คํฌ๋ฆฝํฐ๋ง ๋ฐ๊ฟ๊ฐ๋ฉฐ ๋ค์ํ ๋ชฉํ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
5) Sim-to-Real: ์ด๊ฐ ๋๋ฉ์ธ ๋ณํ
์๋ฎฌ๋ ์ด์ ์ ์ด๊ฐ ์ด๋ฏธ์ง์ ์ค์ TacTip ์ด๋ฏธ์ง ์ฌ์ด์ ๊ฐ๊ทน์ pix2pix GAN์ผ๋ก ๋ฉ์๋๋ค(์ค์ โ์๋ฎฌ๋ ์ด์ ๋ฐฉํฅ ๋ณํ). ์ผ์๋น ์๋ฎฌ/์ค์ ์ ์ด๋ฏธ์ง 5,000์ฅ์ผ๋ก ํ์ตํ๋ฉฐ, ์ค๋ฆฐ๋ ํน์ง์ ๋ค์ํ ์์ธ ๋ฒ์์์ ์์งํ์ต๋๋ค. ์ค์๊ฐ ์ ์ด๋ ๋ค์ ๊ตฌ์กฐ๋ก ๋์ํฉ๋๋ค.
- NDF ์ต์ ํ: GPU์์ ์คํ๋ผ์ธ(์ํผ์๋ ๋ฆฌ์ ๋น ์ฝ 1์ด)
- RL ์ ์ฑ ์ถ๋ก : ์คํ ๋น ์ฝ 45 ms โ 20 Hz ํ๋ฃจํ ์ ์ด
- ๋ ๋์ PC ์ฌ์ฉ(์ธ์งยท์ต์ ํ / ์ค์๊ฐ ์ ์ด ๋ถ๋ฆฌ)
์คํ
์ค์
- ๋ก๋ด: 7-DOF Franka Panda, ์๋ชฉ์ Intel RealSense D435 ์ฅ์ฐฉ
- ๊ทธ๋ฆฌํผ: ํํ ์กฐ(parallel jaw), ์์ชฝ ์๊ฐ๋ฝ์ TacTip ์ด๊ฐ ์ผ์
- ์๋ฎฌ๋ ์ดํฐ: PyBullet + Tactile Gym 2.0
- RL ์๊ณ ๋ฆฌ์ฆ: PPO(Stable-Baselines3). NDF ๋ถ์ ํ์ฑ์ ๋ชจ์ฌํ๋ ค๊ณ ์ด๊ธฐ ์ก๊ธฐ ์์ธ๋ฅผ [\pm 20\,\text{mm}, \pm 20\,\text{mm}, \pm 20\,\text{mm}, \pm 20^\circ, \pm 20^\circ, \pm 20^\circ] ๋ฒ์์์ ์ํ๋งํ์ฌ ํ์ต
- NDF ์ฌ์ ํ์ต: ShapeNet์ ๋ณ/๋จธ๊ทธ ๋ฉ์ + ๋ณผํธ์ฉ ์ปค์คํ ๋ฉ์๋ก occupancy network ํ์ต, ๋ชฉํ ํน์ง๋น 12๊ฐ ๋์คํฌ๋ฆฝํฐ ๋ฒกํฐ ์์ง
๊ณผ์
- ์๋ฎฌ๋ ์ด์ : (1) ํฝ์คํ๋ ์ด์ค(๋จธ๊ทธ๋ฅผ ํ ๋๋ฆฌ/์์ก์ด๋ก, ๋ณ์ ๋ชฉ์ผ๋ก ์ก๊ธฐ), (2) ๋ณผํธ ๋นผ์ ๋ค๋ฅธ ๊ตฌ๋ฉ์ ๋ฃ๊ธฐ
- ์ค์ธ๊ณ: (1) ๋ณ๋๊ป ์ด๊ธฐ(๋ค์ํ ๋๊ป ํ์ยท์ง๊ฐ์ผ๋ก ์ผ๋ฐํ), (2) ์ ์ ์ข์์ง๋ ๊ณต์ฐจ์ ์ฝ์ โ ๋ณผํธ(2 mm), ํ๋ฌ๊ทธ(1 mm), USB(0.5 mm)
๋ฒ ์ด์ค๋ผ์ธ
- NDFs: ์ด๊ฐ ์๋ ์๋ NDF
- NDFs+RL-Touch: NDF coarse + ๋์คํฌ๋ฆฝํฐ ์๋ ์ด๊ฐ RL ์ ์ฑ
- C2FIL: ์์ฐ ๊ธฐ๋ฐ Coarse-to-Fine Imitation Learning
- C2FIL+RL-Touch: C2FIL์ ์ด๊ฐ ๋ฏธ์ธ์กฐ์ ์ถ๊ฐ
๊ฒฐ๊ณผ
(a) ์ ๋ฐ๋ โ ์๋ฎฌ๋ ์ด์ ์ ์ ์คํ
NeuralTouch๋ ์ฌ์ฏ ๊ฐ์ง ๋ชฉํ ํน์ง์์ ์๋ธ ๋ฐ๋ฆฌ๋ฏธํฐ๊ธ ์ ๋ฐ๋(ํ๊ท ์์น ์ค์ฐจ ์ฝ 0.86 mm)๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
| ํน์ง | NeuralTouch | NDFs | NDFs+T | C2FIL | C2FIL+T |
|---|---|---|---|---|---|
| ๋จธ๊ทธ ํ ๋๋ฆฌ | 0.8 mm | 13.6 mm | 15.3 mm | 17.3 mm | 22.5 mm |
| ๋ณ ๋ชฉ | 0.9 mm | 9.0 mm | 2.0 mm | 20.2 mm | 15.2 mm |
ํนํ ๋์คํฌ๋ฆฝํฐ ์กฐ๊ฑด์ด ์๋ NDFs+RL-Touch๋ ์คํ๋ ค ๋ ๋๋น ์ง๊ธฐ๋ ํฉ๋๋ค. ๋จธ๊ทธ ํ ๋๋ฆฌ์ ๋จธ๊ทธ ๋ฒฝ์ฒ๋ผ ์ด๊ฐ์ด ๋น์ทํ ํ์์์ ์ ์ฑ ์ด ๋ชฉํ๋ฅผ ํผ๋ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๊ฒ์ด ๋ณธ ๋ ผ๋ฌธ์ด ๊ฐ์กฐํ๋ โํน์ง ๋ชจํธ์ฑโ์ด๋ฉฐ, ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ๊ฐ ์ด๋ฅผ ํด์ํ๋ ํต์ฌ ์ฅ์น์์ ๋ณด์ฌ์ค๋๋ค.
(b) ์กฐ์ ์ฑ๊ณต๋ฅ โ ์๋ฎฌ๋ ์ด์
- ๋จธ๊ทธ ์ํ ์์ก์ด: NeuralTouch 95.0% vs NDFs 40.0%, C2FIL 46.7%
- ๋ณ๋๊ป: NeuralTouch 93.3% vs NDFs 51.7%, C2FIL 43.3%
- ๋ณผํธ ๋นผ์ ๋ฃ๊ธฐ: NeuralTouch 86.7% vs C2FIL 71.7%
(c) ์ค์ธ๊ณ โ ๋ณ๋๊ป ์ด๊ธฐ
| ๋์ | NeuralTouch | NDFs | C2FIL |
|---|---|---|---|
| ์ฌ๊ณผ์ฃผ์ค | 90% | 40% | 85% |
| ์ผ์ฒฉ | 90% | 45% | 20% |
| ์๋ฝ | 85% | 30% | 10% |
C2FIL์ ์์ฐํ ๋ฌผ์ฒด๋ฅผ ๋ฒ์ด๋๋ฉด ์ฑ๋ฅ์ด ์ฝ 75%p ๊ธ๋ฝํ๋ ๋ฐ๋ฉด, NeuralTouch๋ 15์ข ์ ๋ค์ํ ๋๊ป์์ ํ๊ท 81.0% ์ฑ๊ณต๋ฅ ์ ์ ์งํ์ต๋๋ค. ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ฐจ์ด๊ฐ ๋๋ ทํฉ๋๋ค.
(d) ์ค์ธ๊ณ โ ์ฝ์ (๊ณต์ฐจ๊ฐ ์ข์์ง์๋ก)
- ๋ณผํธ(2 mm): NeuralTouch 55% vs C2FIL 25%
- ํ๋ฌ๊ทธ(1 mm): NeuralTouch 25% vs ๋ฒ ์ด์ค๋ผ์ธ 0~5%
- USB(0.5 mm): NeuralTouch 15% vs ๋ฒ ์ด์ค๋ผ์ธ 0%
์ฌ๊ธฐ์ ์ค์ํ ๊ด์ฐฐ์ sim-to-real ๊ฒฉ์ฐจ์ ๋๋ค. ์๋ฎฌ์์ 86.7%์๋ ์ฑ๊ณต๋ฅ ์ด ์ค์ธ๊ณ ํ๊ท 31.7%๋ก ๋จ์ด์ก๊ณ , ์ ์๋ค์ ์ฃผ์์ธ์ ์ฌ์ธํ ์ ์ด์์์ ์ด๊ฐ real-to-sim ๋ณํ ํ๊ณ๋ก ๋ด ๋๋ค.
(e) ์จ๋ผ์ธ ์ ์์ฑ
ํ ์คํธ ์ค ์กฐ๊ฑด ๋์คํฌ๋ฆฝํฐ๋ง ๋ฐ๊ฟ ๋ชฉํ ํน์ง์ ๋์ ์ผ๋ก ์ ํํ ์ ์์ต๋๋ค. ์ฌํ์ต์ด ํ์ ์์ผ๋ฉฐ, ์ด๋ ๋์คํฌ๋ฆฝํฐ ์กฐ๊ฑด์ด ์๋ RL-Touch ๋ฒ ์ด์ค๋ผ์ธ์ ๋ชป ํ๋ ๋ฅ๋ ฅ์ ๋๋ค.
์๋ฏธ ํด์
๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ๋ฉด ์ธ ๊ฐ์ง ๋ฉ์์ง๊ฐ ์ฝํ๋๋ค. ์ฒซ์งธ, ์๊ฐ(NDF ๊ธฐํ ์ดํด)๊ณผ ์ด๊ฐ(์ ์ด ํผ๋๋ฐฑ)์ ๊ฒฐํฉํ๋ฉด ๋จ์ผ ๊ฐ๊ฐ๋ณด๋ค ํ์คํ ๋ซ์ต๋๋ค. ๋์งธ, ๋จ์ํ ๋์ ๋ถ์ด๋ ๊ฒ์ด ์๋๋ผ ์๊ฐ ๋์คํฌ๋ฆฝํฐ๋ก ์ด๊ฐ ์ ์ฑ ์ ์กฐ๊ฑดํํด์ผ ๋ชจํธ์ฑ์ด ํ๋ฆฝ๋๋ค. ์ ์งธ, ์๋ฏธ์ ๋์์ ์ฐ๋ NDF ๋๋ถ์ ์์ฐ ๋ฌผ์ฒด๋ฅผ ๋ฒ์ด๋ ์นดํ ๊ณ ๋ฆฌ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํด, ์์ฐ์ ๊ณผ์ ํฉ๋๋ ๋ชจ๋ฐฉํ์ต(C2FIL)๋ณด๋ค ๊ฐ๊ฑดํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ชจ๋ฌ๋ฆฌํฐ ์ตํฉ ๋ฐฉ์์ด ์ฐ์ํจ: โ์ด๊ฐ ์ ์ฑ ์ ์๊ฐ ๋์คํฌ๋ฆฝํฐ๋ก ์กฐ๊ฑดํโํ๋ค๋ ํ ์ค ์์ด๋์ด๊ฐ ํน์ง ๋ชจํธ์ฑ์ ์ง์ ๊ฒจ๋ฅํฉ๋๋ค. ๋ณ๋ ์ ์ฑ ์ ํ์๋ง๋ค ๋ง๋ค์ง ์์๋ ๋ฉ๋๋ค.
- ์ผ๋ฐํ์ ์ ๋ฐ๋๋ฅผ ๋์์: NDF์ SE(3) ๋ฑ๋ณ์ฑยท์๋ฏธ ๋์์ด ์นดํ ๊ณ ๋ฆฌ ์ผ๋ฐํ๋ฅผ ์ฃผ๊ณ , RL ์ด๊ฐ ์๋ณด์์ด ์๋ธ ๋ฐ๋ฆฌ๋ฏธํฐ ์ ๋ฐ๋๋ฅผ ์ค๋๋ค. ๋ชจ๋ฐฉํ์ต ๋๋น ๋ฏธ์ง ๋ฌผ์ฒด์์ ๊ฐ๊ฑดํฉ๋๋ค.
- ์ฌํ์ต ์๋ ๋ชฉํ ์ ํ: ๋์คํฌ๋ฆฝํฐ๋ง ๊ต์ฒดํ๋ฉด ๋ชฉํ ํ์์ ๋ฐ๊ฟ ์ ์์ด ์ค์ ์ ์ฐ์ฑ์ด ํฝ๋๋ค.
- ํ์ค์ ์ธ ํ์ต ์ค๊ณ: ํ์ต ์ ์ด๊ธฐ ์์ธ๋ฅผ \pm 20 mm/\pm 20^\circ๋ก ํ๋ค์ด NDF ์ค์ฐจ๋ฅผ ๋ฏธ๋ฆฌ ๋ชจ์ฌํ ์ ์ด zero-shot ์ ์ด๋ฅผ ๋์์ต๋๋ค.
์ฝ์ ยทํ๊ณ
- ์ด๊ฐ sim-to-real ๊ฒฉ์ฐจ๊ฐ ๊ฐ์ฅ ํฐ ๋ณ๋ชฉ: ์ข์ ๊ณต์ฐจ ์ฝ์ ์์ ์ฑ๊ณต๋ฅ ๊ธ๋ฝ(86.7%โ31.7%)์ ์ฃผ๋ฒ์ ๊ฐ๋ฒผ์ด ์ ์ด์ GAN ๋ณํ ํ์ง์ ๋๋ค. ๊ฐ์ฅ ์ ๋ฐํด์ผ ํ ์์ญ์์ ๊ฐ์ฅ ์ฝํฉ๋๋ค.
- ์๋ธ ๋ฐ๋ฆฌ๋ฏธํฐ์ ์ฒ์ฅ: ํ๊ท ์ ๋ฐ๋๋ ์ข์ง๋ง, ์ฐ์ ์์ฐ์์ ์๊ตฌ๋๋ ์ผ๊ด๋ ์๋ธ ๋ฐ๋ฆฌ๋ฏธํฐ ์์ค์๋ ์์ง ๋ชป ๋ฏธ์น๋ค๊ณ ์ ์๋ ์ธ์ ํฉ๋๋ค.
- ๋ค์ด์คํธ๋ฆผ ์คํ ์ ์ด๊ฐ ํผ๋๋ฐฑ ๋ถ์ฌ: ์ ๋ฐ ์ก๊ธฐ ์ดํ ์ค์ ์กฐ์(์ฝ์ ยท์ด๊ธฐ) ๋จ๊ณ๋ โ๋ฆฌํ๋ ์ด(replay)โ๋ก ์ํ๋์ด ์ค์๊ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ด ์์ต๋๋ค. ์ธ๋(disturbance) ๋ฐ์ ์ ๋์ ๊ธฐํ๋ฅผ ๋์นฉ๋๋ค. (์ถ์ธก) ์ด ๋จ๊ณ๊น์ง ์ด๊ฐ ํ๋ฃจํ๋ฅผ ๋ฃ์ผ๋ฉด ์ข์ ๊ณต์ฐจ ์ฑ๊ณต๋ฅ ์ด ๋ ์ค๋ฅผ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- ์ฌ์ ํ์ต ์์กด์ฑ: NDF ๋ฐฑ๋ณธ์ ์นดํ ๊ณ ๋ฆฌ๋ณ ๋ฉ์(ShapeNet, ์ปค์คํ ๋ณผํธ)๋ก ์ฌ์ ํ์ตํด์ผ ํฉ๋๋ค. ๋ฉ์๊ฐ ์๋ ์์ ์ ๊ท ์นดํ ๊ณ ๋ฆฌ๋ก์ ์ฆ์ ํ์ฅ์ฑ์ (์ถ์ธก) ์ ํ๋ ์ ์์ต๋๋ค.
- ์์คํ ๋ณต์ก์ฑ: NDF ์ต์ ํ์ฉ/์ค์๊ฐ ์ ์ด์ฉ PC 2๋, pix2pix GAN, occupancy network, PPO ์ ์ฑ ๋ฑ ๊ตฌ์ฑ ์์๊ฐ ๋ง์ ์ฌํยท๋ฐฐํฌ ๋ถ๋ด์ด ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
NeuralTouch๋ โ๋์ผ๋ก ๋์ถฉ, ์์ผ๋ก ์ ํํโ๋ผ๋ ์ธ๊ฐ์ ์ก๊ธฐ ์ ๋ต์ ๋ก๋ด์ ์ฎ๊ธด ํ๋ ์์ํฌ์ ๋๋ค. ํต์ฌ์ ๋จ์ํ ์๊ฐ+์ด๊ฐ ๊ฒฐํฉ์ด ์๋๋ผ, ์๊ฐ์ผ๋ก ํ์ตํ ์๋ฌต์ ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ๋ฅผ ์ด๊ฐ ๊ฐํํ์ต ์ ์ฑ ์ ์กฐ๊ฑด(๋ชฉํ ์ง์)์ผ๋ก ์ฌ์ฉํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ก์จ ์ด๊ฐ๋ง์ผ๋ก๋ ๊ตฌ๋ณ๋์ง ์๋ ํ์(ํน์ง ๋ชจํธ์ฑ)์ ํ๊ณ , ๋ฏธ๋ฆฌ ์ ํด์ง ์ ์ด ํ์์ ์ ์ฑ ์ ๊ฐ๋์ง ์์ผ๋ฉด์๋, ๋จ์ผ ์ ์ฑ ์ผ๋ก ๋ค์ํ ๋ชฉํ๋ฅผ ๋ค๋ฃน๋๋ค.
Coarse ๋จ๊ณ์์ NDF ๋์คํฌ๋ฆฝํฐ ๊ฑฐ๋ฆฌ ์ต์ํ๋ก ์ด๊ธฐ ์์ธ๋ฅผ ์ป๊ณ , Fine ๋จ๊ณ์์ ๋์คํฌ๋ฆฝํฐ๋ก ์กฐ๊ฑดํ๋ ์ด๊ฐ RL ์๋ณด์์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์ ํ๊ท 0.86 mm์ ์ ๋ฐ๋, ์ถ๊ฐ ๋ฏธ์ธ์กฐ์ ์๋ zero-shot ์ค์ธ๊ณ ์ ์ด๋ก ๋ณ๋๊ป ์ด๊ธฐยท์ฝ์ ๊ฐ์ ๊ณผ์ ์์ ๋ฒ ์ด์ค๋ผ์ธ์ ํฌ๊ฒ ์์ฐ๊ณ , ํนํ ๋ฏธ์ง ๋ฌผ์ฒด ์ผ๋ฐํ์์ ๋ชจ๋ฐฉํ์ต ๋๋น ๊ฐ๊ฑดํ์ต๋๋ค.
๋จ์ ๊ณผ์ ๋ ๋ช ํํฉ๋๋ค. ๊ฐ๋ฒผ์ด ์ ์ด์ ์ด๊ฐ sim-to-real ๋ณํ์ ๊ฐ์ ํ๋ ๊ฒ์ด ์ข์ ๊ณต์ฐจ ์์ ์ ์ฑํจ๋ฅผ ์ข์ฐํ๋ฉฐ, ๋ค์ด์คํธ๋ฆผ ์กฐ์ ๋จ๊ณ๊น์ง ์ค์๊ฐ ์ด๊ฐ ํ๋ฃจํ๋ฅผ ํ์ฅํ๋ฉด ์ธ๋ ๋์๋ ฅ์ด ๋์์ง ๊ฒ์ ๋๋ค. ๊ทธ๋ผ์๋ โ์ ๊ฒฝ ๋์คํฌ๋ฆฝํฐ๋ก ์ด๊ฐ ์ ์ฑ ์ ์กฐ๊ฑดํโํ๋ค๋ ์์ด๋์ด๋, ์๊ฐ-์ด๊ฐ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ฐ ์กฐ์ ์ฐ๊ตฌ์ ๋๊ณ ๋๊ณ ์ธ๋ฆฌ๋(ring) ์ค๊ณ ์์น์ผ๋ก ๋จ์ ๋งํฉ๋๋ค.
์ฐธ๊ณ : ๋ณธ ๋ฆฌ๋ทฐ๋ arXiv ๊ณต๊ฐ๋ณธ(arXiv:2510.20390, University of Bristol)์ ๊ทผ๊ฑฐ๋ก ์์ฑ๋์์ต๋๋ค. ์ํฌ์ PDF ๋งํฌ(ViTac 2026)๊ฐ 404๋ก ์ ๊ทผ๋์ง ์์ ๋์ผ ๋ ผ๋ฌธ์ arXiv ๋ฒ์ ์ ํ๋ณดํด ์ ๋ฆฌํ์ต๋๋ค.