flowchart LR
A["RGB ์ด๋ฏธ์ง"] --> B["PokePreNet\n(ํฌํน ์์น ์์ธก)"]
B --> C["ํฌํน ํฌ์ธํธ ์์ฑ"]
C --> D["๋ก๋ด ํ ์ด๋\n& GelSight ์ ์ด"]
D --> E["์ด๊ฐ ์ด๋ฏธ์ง\n(๋ก์ปฌ ํ์ ํ๋)"]
E --> F["Heuristic Grasp\n๊ณํ & ์คํ"]
๐PokePreNet ๋ฆฌ๋ทฐ
- ๐ค ๋ก๋ด์ ํฌ๋ช ๋ฌผ์ฒด ํ์ง๋ ์๊ฐ์ ํ๊ณ๋ก ์ธํด ๋์ ์ ์ธ ๊ณผ์ ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Vision-guided tactile poking์ด๋ผ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
- ๐ก ์ด ํ๋ ์์ํฌ๋ PokePreNet์ด๋ผ๋ segmentation network๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด์ ์ต์ โpoking regionsโ๋ฅผ ์์ธกํ ๋ค์, GelSight tactile sensor๋ก ์ ํํ ๊ตญ๋ถ ํ๋กํ์ผ์ ์ป์ด ํ์ง๋ฅผ ๊ณํํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ๋ฒ์ ํฌ๋ช ๋ฌผ์ฒด ํ์ง ์ฑ๊ณต๋ฅ ์ 38.9%์์ 85.2%๋ก ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ๋ค์ํ ๋์ ์ ์ธ ๋ฌผ์ฒด์๋ ์ ์ฉ ๊ฐ๋ฅํจ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ด ํฌ๋ช ํ ๋ฌผ์ฒด๋ฅผ ์ง๋ ๋ฐ ์์ด ํ์ฌ ์๊ฐ ์ผ์ ๊ธฐ๋ฐ grasping method์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํ ์๋ก์ด vision-guided tactile poking framework๋ฅผ ์ ์ํ๋ค. ํฌ๋ช ํ ๋ฌผ์ฒด๋ ๋น์ ๋ฐ์ฌ์ ๊ตด์ (reflection and refraction)๋ก ์ธํด depth sensor๊ฐ ์ ํํ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ด๋ ต๊ณ , ์ด๋ก ์ธํด ๋๋ถ๋ถ์ ๊ธฐ์กด grasping method๋ฅผ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค. ์ด์ ์ธ๊ฐ์ด ํฌ๋ช ํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉ์, ์ฆ ๋๋ต์ ์ธ ์ค๊ณฝ(coarse profile)์ ํ์ ํ ํ ๊ด์ฌ ์์ญ์ ์ฐ๋ฌ(poking) ๋ฏธ์ธํ ์ค๊ณฝ(fine profile)์ ์ป์ด graspingํ๋ ๋ฐฉ์์์ ์๊ฐ์ ๋ฐ์๋ค.
์ ์๋ framework๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค:
- Poking Region Segmentation: ๋จผ์ RGB ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ๋ฐ์ ํฌ๋ช ๋ฌผ์ฒด์ โpoking regionsโ์ ์์ธกํ๋ค. Poking regions๋ ๋ฌผ์ฒด์ ์ํ์ ์ต์ํ์ ๋ฐฉํด๋ฅผ ์ฃผ๋ฉด์ ์ข์ ์ด๊ฐ ์ ๋ณด(tactile reading)๋ฅผ ์ป์ ์ ์๋ ์ํ ์๋จ ์์ญ์ ์๋ฏธํ๋ค.
- Vision-guided Tactile Poking: ์์ธก๋ poking regions์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด ํ์ด GelSight tactile sensor๋ฅผ ์ด์ฉํด ๋ฌผ์ฒด๋ฅผ ์ฐ๋ฅธ๋ค. ์ด ์ ์ด์ ํตํด ๋ฌผ์ฒด์ ๊ตญ๋ถ์ ์ธ ํ๋กํ์ผ(local profiles) ์ ๋ณด๋ฅผ ์ป๋๋ค.
- Heuristic Grasp Planning: ์ด๊ฐ ์ ๋ณด๋ฅผ ํตํด ๊ฐ์ ๋ ๋ฌผ์ฒด์ ํ๋กํ์ผ์ ์ฌ์ฉํ์ฌ ํด๋ฆฌ์คํฑ ๊ธฐ๋ฐ์ grasping proposal์ ์์ฑํ๊ณ ๋ฌผ์ฒด๋ฅผ graspingํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
1. Poking Region Segmentation (PokePreNet)
Poking region segmentation์ instance segmentation ๋ฌธ์ ๋ก ๋ค๋ฃจ์ด์ง๋ค. ์ด๋ฅผ ์ํด Mask R-CNN์ ๊ธฐ๋ฐ์ผ๋ก ํ PokePreNet์ด๋ผ๋ ๋ฅ๋ฌ๋ ๋คํธ์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ๊ฐ์ ์ฌํญ์ ํฌํจํ๋ค:
Larger Output Feature Map: Mask R-CNN์ ํ์ค ๋ง์คํฌ ์ถ๋ ฅ ํฌ๊ธฐ์ธ 28x28์ ํ์ฅํ๊ธฐ ์ํด ๋ ๊ฐ์ ์ถ๊ฐ์ ์ธ deconvolutional layer๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์คํฌ ํฌ๊ธฐ๋ฅผ 112x112๋ก ๋๋ฆฐ๋ค. deconvolutional layer์ ํํฐ(S_f)๋ 2x2, ํจ๋ฉ(d)์ 0, ์คํธ๋ผ์ด๋(s)๋ 2๋ก ์ค์ ๋์ด feature map์ ํฌ๊ธฐ๋ฅผ ๋ ๋ฐฐ๋ก ๋ง๋ ๋ค. ์ถ๋ ฅ feature map์ ํฌ๊ธฐ(S_o)๋ ์ ๋ ฅ feature map์ ํฌ๊ธฐ(S_i)์ ๋ค์ ๊ด๊ณ๋ฅผ ๋ฐ๋ฅธ๋ค: S_o = s \times (S_i - 1) + S_f - 2 \times d
Pixel-level Positive-Negative-balanced Loss (LPN Loss): ์ผ๋ฐ์ ์ธ Mask R-CNN์์ ์ฌ์ฉํ๋ ํ๊ท ์ด์ง cross-entropy loss๋ poking regions์ด bounding box์ ์์ ๋ถ๋ถ๋ง์ ์ฐจ์งํ์ฌ positive/negative ํฝ์ ๋ถํฌ๊ฐ ์ฌํ๊ฒ ๋ถ๊ท ํํ ๋ฌธ์ (์: 5%๋ง poking region)๊ฐ ๋ฐ์ํ๋ค. ์ด๋ก ์ธํด poking region์ ๋ํ loss ๊ธฐ์ฌ๋๊ฐ ์์์ ธ ์ ๋ฐ๋๊ฐ ๋ฎ์์ง๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด
PokePreNet์ Positive-Negative-balanced loss (L_{mask})๋ฅผ ์ฌ์ฉํ๋ค: L_{mask}(X_i) = - \beta_i \sum_{j \in Y^+_i} \log Pr(y_j = 1 | X_i) - \sum_{j \in Y^-_i} \log Pr(y_j = 0 | X_i) ์ฌ๊ธฐ์ Y^+_i์ Y^-_i๋ ๊ฐ๊ฐ i-๋ฒ์งธ RoI (X_i)์ ๋ํ positive ๋ฐ negative ground truth label set์ ๋ํ๋ธ๋ค. \beta_i๋ positive/negative ํฝ์ ๊ฐ์ loss ๊ท ํ์ ๋ง์ถ๋ ๊ฐ์ค์น์ด๋ค. ์ด๊ธฐPN loss์์๋ \beta_i = |Y^-_i| / |Y^+_i|๋ก ์ค์ ๋์์ผ๋, ํฉ์ฑ ๋ฐ์ดํฐ์ ์์ ๊ทนํ ์์ poking region์ ๊ฒฝ์ฐ \beta_i๊ฐ ๋งค์ฐ ์ปค์ ธ false positive๊ฐ ์ฆ๊ฐํ๋ ๋ฌธ์ ๊ฐ ์์๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํดLog-Positive-Negative-balanced (LPN) loss๋ฅผ ๋์ ํ์ฌ \beta_i์ ๋ก๊ทธ ํจ์๋ฅผ ์ ์ฉํ์ฌ ๊ฐ์ ๋ฒ์๋ฅผ ์ ํํ๋ค: \beta_i = \begin{cases} \ln\left(\frac{|Y^-_i|}{|Y^+_i|}\right) & \text{if } |Y^+_i| > 0 \\ 1 & \text{if } |Y^+_i| = 0 \end{cases} ์ด ๋ฐฉ์์ hard example mining๊ณผ ์ ์ฌํ๋ฉฐ, ์์ poking region์ ๊ฐ์ง instance์ ํฝ์ (hard examples)์ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ฒ ํ๋ค.
2. Vision-guided Tactile Poking
PokePreNet์์ ๊ฐ์ง๋ poking region ๋ง์คํฌ (M_{poking})๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ํ๋ ์ ๋ด poking point (P_t = [x_t, y_t])๋ฅผ ์์ฑํ๋ค.
OpenCV์findContoursํจ์๋ก poking region ๋ง์คํฌ์ ์ธ๋ถ ์ค๊ณฝ(external contour)์ ์ฐพ๋๋ค.fitEllipseํจ์๋ก ์ค๊ณฝ์ ํ์์ ๋ง์ถฐ ์ค์ฌ์ (P_c)์ ์ป๋๋ค.- ๋ง์ฝ P_c๊ฐ poking region ๋ง์คํฌ ๋ด๋ถ์ ์์ผ๋ฉด (P_c \in M_{poking}), P_c๋ฅผ poking point P_t๋ก ์ค์ ํ๋ค. (์ด๋ ์ผ๋ฐ์ ์ผ๋ก ๋จ์ ์ฐ๊ฒฐ๋ ๋ง์คํฌ์ ํด๋นํ๋ฉฐ, ์ํตํ ๋ฌผ์ฒด์ ์ธก๋ฉด๊ณผ ๊ฐ์ด ์ค์ฌ์ด ๋ด๋ถ์ ์๋ ๊ฒฝ์ฐ).
- ๋ง์ฝ P_c๊ฐ poking region ๋ง์คํฌ ์ธ๋ถ์ ์์ผ๋ฉด (์: ๋ง ํํ ๋ง์คํฌ), P_c์์ ๊ฐ์ฅ ๊ฐ๊น์ด positive ํฝ์ ์ poking point P_t๋ก ์ค์ ํ๋ค. (GelSight sensor๊ฐ ๋ฌผ์ฒด ๋ด๋ถ๋ก ๋ค์ด๊ฐ์ง ์๋๋ก ๋ฐฉ์ง). ๋ก๋ด ํ์ ์ด poking point๋ก ์๋ด๋๋ฉฐ, GelSight sensor๊ฐ ๋ฌผ์ฒด์ ์ ์ดํ๋ฉด ๋ฉ์ถ๋ค. ์ ์ด ๊ฐ์ง๋ ๊ฐ๋จํ ์ด๋ฏธ์ง subtraction ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค. ๋ ํผ๋ฐ์ค ์ด๋ฏธ์ง์ ํ์ฌ ํ๋ ์ ๊ฐ์ ์์๋ณ ์ ๋ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๊ณ ์ด์ง ์๊ณ๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํํ๋ค. ์ฐจ์ด ํ๋ ์์์ positive ํฝ์ ์๊ฐ ๋ฏธ๋ฆฌ ์ ์๋ ์๊ณ๊ฐ์ ์ด๊ณผํ๋ฉด ์ ์ด์ผ๋ก ์ธ์ํ๋ค.
3. Heuristic Transparent Object Grasping
์์ธก๋ poking region๊ณผ ์ด๊ฐ poking์ ํตํด ์ป์ ๋ฌผ์ฒด์ ๊ตญ๋ถ ํ๋กํ์ผ(์ฆ, ์ ์ด ์์น)์ ๊ธฐ๋ฐ์ผ๋ก top-down parallel grasping์ ์ํ ํด๋ฆฌ์คํฑ grasp proposal (G_{hrst} = [x, y, z, w, \theta])์ ์์ฑํ๋ค. ์ฌ๊ธฐ์ [x, y, z]๋ ์ธ๊ณ ์ขํ๊ณ(world frame)์์์ grasp ์ค์ฌ, w๋ gripper ํญ, \theta๋ ์์ง ์ถ ์ฃผ์์ ๋ฐฉํฅ์ด๋ค.
- Case 1:
ellipse.centroid in Mpoking(์ค์ฌ ๊ธฐ๋ฐ grasp) Poking position P^W_t (์ธ๊ณ ์ขํ๊ณ)๋ P^W_c์ ๋์ผํ๊ฒ ์ค์ ๋๋ค. x, y, z \leftarrow P^W_t w \leftarrow \text{maximum gripper width} \theta \leftarrow \text{ellipse.rotation angle} (ํ์์ ์งง์ ์ถ์ ๋ฐ๋ผ grasping) - Case 2:
ellipse.centroid not in Mpoking(๊ฐ์ฅ์๋ฆฌ ๊ธฐ๋ฐ grasp ๋๋ ์ค์ฌ ๊ธฐ๋ฐ grasp) P^W_c (์ธ๊ณ ์ขํ๊ณ)๋ pin-hole camera model์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋๋ค. D \leftarrow \text{calculateDistance}(P^W_c, P^W_t) Angle \leftarrow \text{calculateAngle}(P^W_c, P^W_t) ๋ง์ฝ D๊ฐ gripper finger ํญ์ ์ ๋ฐ๋ณด๋ค ํฌ๋ฉด (gripper๊ฐ ๋ฌผ์ฒด์ ์ฝ์ ๋ ์ ์๋ ๊ฒฝ์ฐ), edge grasp๋ฅผ ์ฌ์ฉํ๋ค. x, y, z \leftarrow P^W_t w \leftarrow 2 \times D \theta \leftarrow Angle (๋ฒกํฐ <P^W_c, P^W_t>์ ํํ) ๊ทธ๋ ์ง ์์ผ๋ฉด (gripper๊ฐ ๋ฌผ์ฒด์ ์ฝ์ ๋์ง ์๋ ๊ฒฝ์ฐ), ์ค์ฌ ๊ธฐ๋ฐ grasp๋ฅผ ์ฌ์ฉํ๋ค. x, y, z \leftarrow P^W_c w \leftarrow \text{maximum gripper width} \theta \leftarrow \text{ellipse.rotation angle}
๋ฐ์ดํฐ์ ๋ฐ ์คํ
- ํฉ์ฑ ๋ฐ์ดํฐ์
:
Blender์ ๋ฌผ๋ฆฌ ์์ง๊ณผLuxCoreRender๋ ๋๋ง ์์ง์ ์ฌ์ฉํ์ฌ 9,000๊ฐ ์ด์์ ๋ทฐ๋ฅผ ๊ฐ์ง ๊ณ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ค. ์ด ๋ฐ์ดํฐ์ ์ ํฌ๋ช ๋ฌผ์ฒด์ specular highlights ๋ฐ caustics์ ๊ฐ์ ๋ฏธ๋ฌํ ํจ๊ณผ๋ฅผ ํฌํจํ์ฌ ํ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ฉฐ, RGB ์ด๋ฏธ์ง, depth ์ด๋ฏธ์ง, surface normals, instance masks, ๊ทธ๋ฆฌ๊ณ ํนํ poking regions์ ground truth๋ฅผ ์๋ ์์ฑํ๋ค. domain randomisation์ ํตํด ์๋ฎฌ๋ ์ด์ -์ค์ธ๊ณ ๊ฐ์ ๊ฐ๊ทน(sim2real gap)์ ์ค์๋ค. - ์ค์ธ๊ณ ๋ฐ์ดํฐ์
: 9๊ฐ์ง ํฌ๋ช
ํ๋ผ์คํฑ ๋ฐ ์ ๋ฆฌ ๋ฌผ์ฒด๋ฅผ ํฌํจํ๋ 180๊ฐ์ ์ค์ธ๊ณ ์ด๋ฏธ์ง๋ฅผ ์์งํ์ฌ
PokePreNet์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค. - ์คํ ๊ฒฐ๊ณผ:
PokePreNet์ real-world test benchmark์์ 0.360์ ๋์ mAP๋ฅผ ๋ฌ์ฑํ๋ค. vision-guided tactile poking์ bounding box๋ instance mask๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค poking ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ (89.8%), ์ต์ข ์ ์ผ๋ก ํฌ๋ช ๋ฌผ์ฒด grasping ์ฑ๊ณต๋ฅ ์ 38.9%์์ 85.2%๋ก ๋ํญ ํฅ์์์ผฐ๋ค. ์์ ๋ฌผ์ฒด(์: vial)์ ๋ํ tactile alignment ์คํ์์๋ ์-๋ ๋ฐ ์ผ์-๋ง๋จ ํจ๊ณผ๊ธฐ ๋ณด์ ์ค์ฐจ๋ฅผ ์ํํ์ฌ grasping ์ฑ๊ณต๋ฅ ์ 80%์์ 100%๋ก ๋์ผ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค.
์ด ์ฐ๊ตฌ๋ ํฌ๋ช ๋ฌผ์ฒด grasping ๋ฌธ์ ์ ์๊ฐ ๋ฐ ์ด๊ฐ ์ผ์๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํตํฉํ ์ต์ด์ ์ฌ๋ก์ด๋ฉฐ, ๊ทธ ๋จ์์ฑ ๋๋ถ์ ๋ค๋ฅธ force ๋๋ tactile sensors์๋ ์ ์ฉ ๊ฐ๋ฅํ๊ณ ๋ค๋ฅธ challenging objects์ grasping์๋ ํ์ฉ๋ ์ ์์์ ์์ฌํ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ๋ฌธ์ ์ ์: ์ ํฌ๋ช ๋ฌผ์ฒด๊ฐ ์ด๋ ค์ด๊ฐ?
๋ก๋ด ํ์ RGB-D ์นด๋ฉ๋ผ๋ฅผ ๋ฌ๊ณ ์ ๋ฆฌ์ปต์ ์ก์ผ๋ ค ํ๋ฉด ๋ฌด์จ ์ผ์ด ์๊ธธ๊น? ์นด๋ฉ๋ผ๋ ๋ฌผ์ฒด๋ฅผ ๊ฑฐ์ ๋ณด์ง ๋ชปํ๊ฑฐ๋, ๋ณด๋๋ผ๋ ๊น์ด ์ ๋ณด๊ฐ ์์ ํ ์ํฐ๋ฆฌ๋ก ๋์จ๋ค.
์ด ๋ฌธ์ ๋ ํฌ๋ช ์ฌ์ง์ ๋ ๊ฐ์ง ๊ดํ์ ํน์ฑ์์ ๋น๋กฏ๋๋ค.
โ ์์/ํ ์ค์ฒ ํน์ง์ ๋ถ์ฌ. ๋ถํฌ๋ช ๋ฌผ์ฒด๋ ๋ฌผ์ฒด ๊ณ ์ ์ ์๊ณผ ํ๋ฉด ์ง๊ฐ์ ๊ฐ์ง๋ง, ์ ๋ฆฌ๋ ํ๋ผ์คํฑ์ ๋ฐฐ๊ฒฝ์ ๊ทธ๋๋ก ํฌ๊ณผ์ํจ๋ค. CNN ๊ธฐ๋ฐ ํ์ง๊ธฐ๊ฐ ํ์ตํ ์๊ฐ์ ํน์ง์ด ์กด์ฌํ์ง ์๋ ๊ฒ์ด๋ค.
โก ๊ธฐํ๊ดํ ๊ฐ์ ์ ๋ถ๊ดด. Intel RealSense ๊ฐ์ structured light / ToF ๊น์ด ์ผ์๋ ๋น์ด ํ๋ฉด์์ ๋ฐ์ฌ๋๋ค๋ ๊ฐ์ ์์ ์ค๊ณ๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ฆฌ๋ ๊ตด์ ๊ณผ ๋ฐ์ฌ๋ฅผ ๋์์ ์ผ์ผ์ผ, ๊ฐ์ ํ๋ฉด์์ ์ผ์ ๊ด์ด ์ ๋ฉ๋๋ก ์ฐ๋๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๊น์ด ๋งต์ ๊ตฌ๋ฉ(hole)์ด ์๊ธฐ๊ฑฐ๋ ์์ ํ ์๋ชป๋ ๊ฐ์ด ๋์จ๋ค.
\underbrace{\text{ํฌ๋ช ๋ฌผ์ฒด}}_{\text{๊ตด์ ยท๋ฐ์ฌ}} \Rightarrow \underbrace{d_{\text{sensor}} \neq d_{\text{true}}}_{\text{๊น์ด ์ค๋ฅ}}
๊ธฐ์กด ์ฐ๊ตฌ๋ค(ClearGrasp, Dex-NeRF ๋ฑ)์ ์ด ๋ฌธ์ ๋ฅผ ๋น์ ๋ง์ผ๋ก ํ๋ ค ํ๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ๋ค๋ฅธ ์ง๋ฌธ์ ๋์ง๋ค.
โ์ธ๊ฐ์ ์ด๋ป๊ฒ ์ ๋ฆฌ์ปต์ ์ง๋๊ฐ?โ
์ธ๊ฐ์ ์ ๋ฆฌ์ปต์ ๋์ผ๋ก ๋๋ต ์์น๋ฅผ ํ์ ํ๊ณ , ์๊ฐ๋ฝ์ผ๋ก ์ด์ง ๊ฑด๋๋ ค์ ์ ํํ ํ์์ ํ์ธํ ๋ค ์ง๋๋ค. ์๊ฐ์ โ์ด๋์ฏค์ ์๋์งโ, ์ด๊ฐ์ โ์ ํํ ์ด๋ป๊ฒ ์๊ฒผ๋์งโ๋ฅผ ๋ด๋นํ๋ค. ์ด ๋ ผ๋ฌธ์ ์ด ๋ถ์ ๊ตฌ์กฐ๋ฅผ ๋ก๋ด์ ๊ทธ๋๋ก ๊ตฌํํ๋ค.
2. ํต์ฌ ์์ด๋์ด: Vision-Guided Tactile Poking
์ ์ฒด ํ์ดํ๋ผ์ธ์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค.
2.1 ํฌํน ์์ญ์ด๋ ๋ฌด์์ธ๊ฐ?
๋ ผ๋ฌธ์ ํต์ฌ ๊ฐ๋ ์ธ poking region์ ๋จ์ํ โ๋ฌผ์ฒด์ ์ด๋๊ฐโ๊ฐ ์๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ํ ์ด๋ธ ํ๋ฉด๊ณผ ๋ฒ์ ๋ฒกํฐ๊ฐ ๋น์ทํ ์ํ ์๋จ ์์ญ์ผ๋ก ์ ์๋๋ค. ์ด ์กฐ๊ฑด์ ๋ง์กฑํ๋ ์ด์ ๊ฐ ์ค์ํ๋ค.
- ์ข์ GelSight ์ฝ๊ธฐ๋ฅผ ์ป์ ์ ์๋ค: GelSight๋ ํ๋ฉด์ ์์ง์ผ๋ก ์ ์ดํ ๋ ๊ฐ์ฅ ์ ๋ช ํ ํ์์ ์บก์ฒํ๋ค. ์ํ ์๋จ๋ฉด์ ๋ก๋ด ํ์ด ์์์ ์์ง์ผ๋ก ๋ด๋ฆฌ๊ฝ๊ธฐ ๊ฐ์ฅ ์ข์ ์์ญ์ด๋ค.
- ๋ฌผ์ฒด ์ํ๋ฅผ ์ต์๋ก ๊ต๋ํ๋ค: ์ธก๋ฉด์ ๋ฐ๋ฉด ๋ฌผ์ฒด๊ฐ ๋์ด์ง๊ฑฐ๋ ์ด๋ํ ์ ์๋ค. ์๋จ์ ๊ฐ๋ณ๊ฒ ์ฐ์ผ๋ฉด ๋ฌผ์ฒด๋ ์ ์๋ฆฌ์ ์๋ค.
์ฆ ํฌํน ์์ญ์ โ์ ๋ณด๋์ด ๋์ผ๋ฉด์ ๋ฌผ์ฒด๋ฅผ ๋ ๋ฐฉํดํ๋โ ์ต์ ์ ์ ์ด ํ๋ณด๋ค. ์๋ฃ์ ๋ณ์ด๋ฉด ๋๊ป ๋ถ๋ถ, ์ ๋ฆฌ์ปต์ด๋ฉด ์ ๊ตฌ ํ ๋๋ฆฌ ๊ฐ์ ๊ณณ์ด๋ค.
2.2 PokePreNet: ํฌํน ์์ญ ์ธ๊ทธ๋ฉํ ์ด์
ํฌํน ์์ญ ์์ธก์ instance segmentation ๋ฌธ์ ๋ก ์ ์ํ๋๋ค. Mask R-CNN์ ๊ธฐ๋ฐ์ผ๋ก ํ๋, ๋ ๊ฐ์ง ํต์ฌ ์์ ์ด ๊ฐํด์ง๋ค.
๋ฌธ์ 1 โ ํฌํน ์์ญ์ ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ด์์ ๋งค์ฐ ์๋ค.
์ ๋ฆฌ๋ณ์ ๋ฐ์ด๋ฉ ๋ฐ์ค ๋๋น ์๋จ ์ํ๋ฉด์ ์ ์ฒด ๋ฉด์ ์ ์ฝ 5%๋ฐ์ ์ ๋๋ค. ํ์ค Mask R-CNN์ RoI ํฌ๊ธฐ์์๋ ์ด ์์ ์์ญ์ ์ ๋ฐํ๊ฒ ์์ธกํ๊ธฐ ์ด๋ ต๋ค.
โ ํด๊ฒฐ์ฑ : ๋ง์คํฌ ํค๋์ ๋์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํด ์ถ๋ ฅ ํน์ง ๋งต ํด์๋๋ฅผ ๋์ธ๋ค.
๋ฌธ์ 2 โ ํด๋์ค ๋ถ๊ท ํ.
positive(ํฌํน ์์ญ) ํฝ์ ์ด ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ด ์ ์ฒด ํฝ์ ์ 5%๋ผ๋ฉด, ํ์ค binary cross-entropy๋ negative ํฝ์ ์ ์ง๋ฐฐ๋นํด ํฌํน ์์ญ์ ๋ฌด์ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋๋ค.
โ ํด๊ฒฐ์ฑ : Positive-Negative balanced (PN) loss๋ฅผ ์ค๊ณํ๋ค.
\mathcal{L}_{\text{mask}}(X_i) = -\beta_i \sum_{j \in \mathcal{Y}^+_i} \log \Pr(y_j = 1 | X_i) - \sum_{j \in \mathcal{Y}^-_i} \log \Pr(y_j = 0 | X_i)
์ฌ๊ธฐ์ \beta_i = |\mathcal{Y}^-_i| / |\mathcal{Y}^+_i| ๋ก ์ธ์คํด์ค๋ณ positive:negative ํฝ์ ๋น์จ์ ์ญ์๋ฅผ ๊ฐ์ค์น๋ก ์ด๋ค. ํฌํน ์์ญ ํฝ์ ์ด ์ ์์๋ก ํด๋น ํฝ์ ์ loss ๊ธฐ์ฌ๊ฐ ์๋์ผ๋ก ์ปค์ง๋ค.
2.3 ํฌํน ํฌ์ธํธ ์์ฑ
์์ธก๋ ํฌํน ์์ญ ๋ง์คํฌ์์ ์ค์ ์ ์ด ํฌ์ธํธ P_t๋ฅผ ์ด๋ป๊ฒ ๊ณ์ฐํ ๊น?
๋จผ์ OpenCV findContours โ fitEllipse๋ก ๋ง์คํฌ์ ์ธ๊ณฝ์ ์ ํ์์ ํผํ
ํด ์ค์ฌ P_c๋ฅผ ๊ตฌํ๋ค. ๊ทธ ๋ค์ ๋ง์คํฌ ํํ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ์ผ์ด์ค๋ก ๋๋๋ค.
- ๋จ์ ์ฐ๊ฒฐ ์์ญ (์: ์ํ ๋๊ป): P_t = P_c (ํ์ ์ค์ฌ ๊ทธ๋๋ก)
- ๋ง ํํ ์์ญ (์: ์ปต ํ ๋๋ฆฌ): P_c์ ๊ฐ์ฅ ๊ฐ๊น์ด ํฌํน ์์ญ ์์ฑ ํฝ์ ๋ก ์ค์ . ์ค์ฌ์ ์ฐ์ผ๋ฉด GelSight๊ฐ ์ปต ์์ผ๋ก ๋ค์ด๊ฐ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ด๋ค.
2.4 Heuristic Grasp ์์ฑ
์ด๊ฐ์ผ๋ก ์ป์ ๋ก์ปฌ ํ์(์ ์ด ์์น P^W_t)๊ณผ ์์ธก๋ ํฌํน ์์ญ์ ๋ฐํ์ผ๋ก 5์ฐจ์ ๊ทธ๋์คํ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค.
G_{\text{hrst}} = [x,\; y,\; z,\; w,\; \theta]
[x, y, z]๋ ๊ทธ๋์คํ ์ค์ฌ, w๋ ๊ทธ๋ฆฌํผ ๋๋น, \theta๋ ๋ฐฉํฅ์ด๋ค. ์ฌ๊ธฐ์๋ ๋ ๊ฐ์ง ์ผ์ด์ค๊ฐ ์๋ค.
- P_c๊ฐ ํฌํน ์์ญ ๋ด๋ถ: ์ค์ฌ ๊ธฐ๋ฐ ํ์ง(centroid grasp) โ ์ํตํ์ด๋ ์ฌ๊ฐํ ๋ฌผ์ฒด์ ์ ํฉ
- P_c๊ฐ ํฌํน ์์ญ ๋ฐ: ๊ฑฐ๋ฆฌ D(P^W_c, P^W_t)๊ฐ ๊ทธ๋ฆฌํผ ์๊ฐ๋ฝ ๋๋น์ ์ ๋ฐ๋ณด๋ค ํฌ๋ฉด edge grasp ์ฌ์ฉ
์ด ํด๋ฆฌ์คํฑ์ ๋ณต์กํ ํ์ต ์์ด ๊ธฐํํ์ ์ถ๋ก ๋ง์ผ๋ก ๊ทธ๋์คํ๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด๊ฒ์ด ์ด ์์คํ ์ ๊ฐ์ ์ด์ ํ๊ณ๋ค.
3. ๋ฐ์ดํฐ์ : Sim-to-Real ํฉ์ฑ ๋ฐ์ดํฐ
์ค์ ํฌ๋ช ๋ฌผ์ฒด์ ๋ํด ํฌํน ์์ญ ๋ ์ด๋ธ์ ์ฌ๋์ด ์ง์ ๋ถ์ด๋ ๊ฒ์ ๋งค์ฐ ์ด๋ ต๊ณ ์ค๋ ๊ฑธ๋ฆฐ๋ค. ๋ ผ๋ฌธ์ ์ด ๋ฌธ์ ๋ฅผ Blender ๊ธฐ๋ฐ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ํด๊ฒฐํ๋ค.
๊ตฌ์ฑ: - 9,000์ฅ ์ด์์ RGB ์ด๋ฏธ์ง + ํฌํน ์์ญ ๋ง์คํฌ ์ด๋ ธํ ์ด์ - ๋ค์ํ HDRI ํ๊ฒฝ๋งต, ๋ฐฐ๊ฒฝ ํ ์ค์ฒ, ์นด๋ฉ๋ผ ๊ฐ๋๋ฅผ ๋ฌด์์ํ(domain randomization) - ์ ๋ฆฌ์ปต, ํ๋ผ์คํฑ ๋ณ, ๋น์ปค ๋ฑ ๋ค์ํ ํํ
์ฃผ๋ชฉํ ์ ์ ๋ชจ๋ธ์ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ค ์ค์ ํ๊ฒฝ์์ ์ง์ ํ ์คํธํ๋ค๋ ๊ฒ์ด๋ค. Sim-to-Real ๊ฐญ์ ์ค์ด๊ธฐ ์ํด ๋๋๋ง ํ์ง๊ณผ ํ๊ฒฝ ๋ค์์ฑ์ ๊ณต์ ๋ค์๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ ๋ ๋๋ง ์ฝ๋๋ ๋ณ๋ ๋ ํฌ(TransparentObjectRender)๋ก ๊ณต๊ฐ๋์ด ์๋ค.
4. ์คํ ๊ฒฐ๊ณผ
4.1 ํ๋์จ์ด ์ค์
| ์ปดํฌ๋ํธ | ์ฌ์ |
|---|---|
| ๋ก๋ด ํ | UR5 |
| ๊ทธ๋ฆฌํผ | Robotiq 2-finger |
| ์ด๊ฐ ์ผ์ | GelSight (๊ณ ํด์๋ ๊ดํ์) |
| ๊น์ด ์นด๋ฉ๋ผ | Intel RealSense D415/D435 |
| ๋ณด์ ๋ฐฉ๋ฒ | Tsai hand-eye calibration |
4.2 PokePreNet ํ๊ฐ
| ๋ฐฉ๋ฒ | mAP |
|---|---|
| ํ์ค Cross-Entropy Loss (Mask R-CNN) | 0.319 |
| PN Loss (PokePreNet) | 0.360 |
์ฝ 13% ํฅ์์ด๋ค. ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ์์๋ ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ๋๋ ๊ฒ์ ํ์ธํ๋ค.
4.3 ํฌํน ์ฑ๊ณต๋ฅ ๋น๊ต
| ํฌํน ์์น ๊ฐ์ด๋ ๋ฐฉ๋ฒ | ํฌํน ์ฑ๊ณต๋ฅ |
|---|---|
| ๋ฐ์ด๋ฉ ๋ฐ์ค ์ค์ฌ | 78.4% |
| ์ธ์คํด์ค ๋ง์คํฌ ์ค์ฌ | 84.3% |
| PokePreNet ํฌํน ์์ญ ์ค์ฌ (PN Loss) | 89.8% |
ํฌํน ์ฑ๊ณต๋ฅ ์ GelSight๊ฐ ๋ฌผ์ฒด์ ์ค์ ๋ก ์ฌ๋ฐ๋ฅด๊ฒ ์ ์ดํด ์ ํจํ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ป์๋์ง ์ฌ๋ถ๋ก ์ ์๋๋ค.
4.4 ์ต์ข ํ์ง ์ฑ๊ณต๋ฅ (ํต์ฌ ๊ฒฐ๊ณผ)
| ๋ฐฉ๋ฒ | ํ์ง ์ฑ๊ณต๋ฅ |
|---|---|
| ๋น์ ๊ธฐ๋ฐ ์ง์ ํ์ง (ClearGrasp ๋ฑ) | 38.9% |
| ๋น์ ๊ฐ์ด๋ ์ด๊ฐ ํฌํน (์ ์ ๋ฐฉ๋ฒ) | 85.2% |
+46.3%p์ ์ฑ๊ณต๋ฅ ํฅ์. ์ด๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์น๋ค. ๊ธฐ์กด ์์ ๋น์ ๋ฐฉ๋ฒ์ด 40%๋ ์ ๋๋ ์ฑ๊ณต๋ฅ ๋ก ๊ณ ์ ํ๋ ํฌ๋ช ๋ฌผ์ฒด ํ์ง๋ฅผ, ์ด๊ฐ ํฌํน ํ๋๋ก 85%๋ฅผ ๋๊ธด๋ค.
5. ๊ฐ์ ๋ถ์
โ ๋ฌธ์ ์ ์ํ์ ์ฐ์ํจ. โํฌํน ์์ญโ์ด๋ผ๋ ๊ฐ๋ ์์ฒด๊ฐ ์๋ฆฌํ๋ค. ๊ทธ๋ฅ โ์ด๋๋ ๊ฑด๋๋ ค๋ดโ๊ฐ ์๋๋ผ, ์ ๋ณด๋(์ข์ ์ด๊ฐ ์ฝ๊ธฐ)๊ณผ ๋ถ์์ฉ(๋ฌผ์ฒด ๊ต๋ ์ต์ํ)์ ๋์์ ์ต์ ํํ๋ ์์น๋ฅผ ๋น์ ์ผ๋ก ์์ธกํ๋ค๋ ์์ด๋์ด๊ฐ ์ง๊ด์ ์ด๋ฉด์๋ ์ค์ฉ์ ์ด๋ค.
โก ํฉ์ฑ ๋ฐ์ดํฐ๋ก Sim-to-Real ์ฑ๊ณต. ํฌ๋ช ๋ฌผ์ฒด์ ๋ํ ์ค๋ฐ์ดํฐ ๋ ์ด๋ธ๋ง์ ์ด๋ ค์์ ํฉ์ฑ ๋ฐ์ดํฐ๋ก ์ฐํํ๊ณ , domain randomization์ผ๋ก ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ค. ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊น์ง ์คํ์์ค๋ก ๊ณต๊ฐํ ์ ๋ ๊ฐ์ ์ด๋ค.
โข ๋ชจ๋์ฑ๊ณผ ํ์ฅ์ฑ. GelSight์ ํนํ๋ ๊ฒ์ด ์๋๋ผ GelTip, TacTip ๋ฑ ๋ค๋ฅธ ๊ดํ์ ์ด๊ฐ ์ผ์์๋ ์ ์ฉ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์๋ค. ํฌํน ์์ญ ์์ธก ๋ชจ๋๊ณผ ํ์ง ๊ณํ ๋ชจ๋์ด ๋ถ๋ฆฌ๋์ด ๊ฐ๊ฐ ๊ต์ฒด ๊ฐ๋ฅํ๋ค.
โฃ ์ฌํ ๊ฐ๋ฅ์ฑ. ์ฝ๋, ํฉ์ฑ ๋ฐ์ดํฐ ๋ ๋๋ฌ, ์ฌ์ ํ์ต๋ ๋ชจ๋ธ ๋ชจ๋ ๊ณต๊ฐ. T-Mech๊ธ ๋ ผ๋ฌธ์ผ๋ก๋ ๋๋ฌผ๊ฒ ์์ ํ ์ฌํ ํ๊ฒฝ์ ์ ๊ณตํ๋ค.
6. ํ๊ณ ๋ฐ ๋นํ์ ๋ถ์
โ Sequential ํ์ดํ๋ผ์ธ์ latency. ์๊ฐ ์์ธก โ ํฌํน ์ด๋ โ ์ด๊ฐ ํ๋ โ ํ์ง ๊ณํ์ ์์ฐจ์ ๊ตฌ์กฐ๋ ๊ฐ ๋จ๊ณ์ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค. ํนํ ํฌํน ๋์ ์์ฒด๊ฐ ๋ฌผ๋ฆฌ์ ์ด๋์ด๋ผ ์ค์๊ฐ ์์ฉ์์ ๋ณ๋ชฉ์ด ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด์ ๋ํ ์๊ฐ ์ธก์ ์น๊ฐ ์ ์๋์ง ์๋๋ค.
โก ํฌํน ์์ญ์ด ์๋ ๋ฌผ์ฒด. ํ๋ซํ ์ ๋ฆฌํ์ฒ๋ผ ์ํ ์๋จ๋ฉด์ด ์๊ฑฐ๋ ๋งค์ฐ ์์ ๋ฌผ์ฒด์๋ ํฌํน ์์ญ์ ์ ์ํ๊ธฐ ์ด๋ ต๋ค. ๋ ผ๋ฌธ์ ์คํ ๋์์ ๋ชจ๋ ์ปตยท๋ณยท๋น์ปค ๋ฑ ์๋จ๋ฉด์ด ๋ช ํํ ํํ๋ก ํ์ ๋๋ค.
โข Heuristic Grasp์ ๋จ์์ฑ. ํ์ง ๊ณํ์ด ๊ธฐํํ์ ํด๋ฆฌ์คํฑ์ ๊ธฐ๋ฐํ๋ค ๋ณด๋, ๋ณต์กํ ํํ(๋น๋์นญ, ์์ก์ด ์๋ ๋ฌผ์ฒด ๋ฑ)์์๋ ์ต์ ํ์ง ํฌ์ฆ๋ฅผ ์ฐพ์ง ๋ชปํ ์ ์๋ค. ํ์ต ๊ธฐ๋ฐ ํ์ง ๊ณํ๊ณผ ๊ฒฐํฉํ๋ฉด ๋ ๊ฐ๊ฑดํด์ง ๊ฒ์ด๋ค.
โฃ ๊ทธ๋ฆฌํผ ๊ธฐ๋ฐ ์คํ์ ํ๊ณ. ์คํ์ด UR5 + 2-finger ๊ทธ๋ฆฌํผ ์กฐํฉ์ ๊ตญํ๋๋ค. ๋ฉํฐํ๊ฑฐ ๋ฑ์คํฐ๋ฌ์ค ํธ๋๋ก ํ์ฅํ๋ฉด ํฌํน ์ดํ์ ์ธ๋ฐํ ํ์ง ์ ๋ต์ด ๋ ์ค์ํด์ง๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ฐฉํฅ์ ๋ค๋ฃจ์ง ์๋๋ค. ์ด๊ฒ์ด ํ์ฌ ๊ฐ์ฅ ํฐ ์ฐ๊ตฌ ๊ณต๋ฐฑ์ด์ ํ์ฅ ๊ธฐํ๋ค.
โค ๋จ์ผ ํฌํน. ๋ฌผ์ฒด ํ๋๋น ํฌํน ํ ๋ฒ์ผ๋ก ํ์ง ๊ฒฐ์ ์ ๋ด๋ฆฐ๋ค. ๋ณต์กํ ํํ์์๋ ์ฌ๋ฌ ๋ฒ์ ์ ๋ต์ ํฌํน์ด ๋ ๋์ ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์๋ค. TransTouch(IROS 2023)๊ฐ ์ด โ์ด๋๋ฅผ ๋ ๊ฑด๋๋ฆด์งโ ๋ฌธ์ ๋ฅผ utility function์ผ๋ก ์ต์ ํํ๋ค.
7. ํ์ ์ฐ๊ตฌ์์ ์ฐ๊ฒฐ
์ด ๋ ผ๋ฌธ์ โํฌ๋ช ๋ฌผ์ฒด + ์ด๊ฐโ ์ฐ๊ตฌ ํ๋ฆ์ ์ถ๋ฐ์ ์ด ๋๋ค. ์ดํ ์ฐ๊ตฌ๋ค์ด ๊ฐ๊ฐ ๋ค๋ฅธ ๋ฐฉํฅ์์ ํ๊ณ๋ฅผ ๋ณด์ํ๋ค.
flowchart TD
A["Where Shall I Touch?\n(T-Mech 2022)\nโข ํฌํน ์์น๋ฅผ ๋น์ ์ผ๋ก ์์ธก\nโข UR5 + 2-finger + GelSight"] --> B
A --> C
A --> D
B["TransTouch (IROS 2023)\nโข utility function์ผ๋ก\n ์ต์ ํฌํน ์์น ์ ํ\nโข ์คํ
๋ ์ค ๋คํธ์ํฌ ์์ฒด๋ฅผ\n ์ด๊ฐ์ผ๋ก ๊ต์ "]
C["Visual-Tactile Fusion\n(T-RO 2023)\nโข ๋ณต์กํ ๋ฐฐ๊ฒฝ, ์์ค ํ๊ฒฝ\nโข ๋น์ฃผ์ผ-ํํ์ผ ํจ์ ๋ถ๋ฅ\nโข TaTa ์ํํธ ๊ทธ๋ฆฌํผ"]
D["TEVG (IEEE 2025)\nโข ๋ฌด๊ฒยท๋์ ์ํ ๋ถํ์ค์ฑ\nโข ๋น์ ๋ฅ๋ ฅ์ ์ด๊ฐ์ผ๋ก ๊ฐํ"]
9. ์์ฝ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ํต์ฌ ๊ธฐ์ฌ | ํฌ๋ช ๋ฌผ์ฒด ํ์ง๋ฅผ ์ํ ๋น์ ๊ฐ์ด๋ ์ด๊ฐ ํฌํน ํ๋ ์์ํฌ |
| ๋ฐฉ๋ฒ๋ก | PokePreNet (PN Loss + ๊ณ ํด์๋ ๋ง์คํฌ) โ GelSight ํฌํน โ Heuristic Grasp |
| ๋ฐ์ดํฐ | Blender ํฉ์ฑ ๋ฐ์ดํฐ 9,000์ฅ+, Sim-to-Real |
| ํต์ฌ ๊ฒฐ๊ณผ | ํ์ง ์ฑ๊ณต๋ฅ 38.9% โ 85.2% (+46.3%p) |
| ๊ฐ์ | ์ฐ์ํ ๋ฌธ์ ์ ์ํ, ๋ชจ๋์ฑ, ์์ ์คํ์์ค |
| ํ๊ณ | Sequential latency, ๊ทธ๋ฆฌํผ ํ์ , ๋จ์ ํ์ง ๊ณํ |
| ์ฐ๊ตฌ ๊ฐญ | ๋ฉํฐํ๊ฑฐ ํธ๋๋ก์ ํ์ฅ ๋ฏธ๊ฐ์ฒ |