flowchart TD
A[Depth camera RGB-D] --> B[Sampling consensus SAC: fit cylinder/sphere primitive]
B --> P[Geometric prior: object class and radius]
C[6-DoF Inspire hand grasp] --> D[Tactile sensors: 5 fingers and palm]
D --> E[Forward kinematics FK]
E --> F[3D tactile point cloud: xyz + RGB + 12-bit intensity]
F --> G[PointNet++ regression: radius]
A --> H[RGB-touch image]
H --> I[VGG19 regression: radius]
P --> J[Fuse visual prior with tactile estimate]
G --> J
I --> J
C --> K[Proprioception: joint angles and contact forces]
K --> L[Cylindrical projection to 2D image]
L --> M[Deformable vs non-deformable classification]
J --> N[Reconstructed surface radius / deformation degree]
M --> N
๐3D Deformable Surface Reconstruction
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
ํ ๋ฌธ์ฅ ์์ฝ
์ด ๋ ผ๋ฌธ์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๋ ์๊ฐ, ๊น์ด ์นด๋ฉ๋ผ๊ฐ ์ค ๊ฑฐ์น ๊ธฐํํ์ ์ฌ์ ์ง์(geometric prior, ์: ์๊ธฐ๋ฅยท๊ตฌ ๊ฐ์ ์์ํ์) ๊ณผ ์๊ฐ๋ฝ ์ด๊ฐ ์ผ์๊ฐ ์ค ๊ตญ์ 3D ์ ๋ณด๋ฅผ ์ตํฉํ์ฌ, ๋จ๋จํ ๋ฌผ์ฒด(rigid)์ธ์ง ๋ฌด๋ฅธ ๋ฌผ์ฒด(deformable)์ธ์ง๋ฅผ ๊ตฌ๋ถํ๊ณ ๊ทธ ํ๋ฉด์ ๊ณก๋ฅ (๋ฐ์ง๋ฆ)์ mm ๋จ์๋ก ์ถ์ ํ๋ ์ค์ฉ์ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
์ ์๋ Ioan Laurentiu Popa(Analog Devices Inc., ๋ฃจ๋ง๋์ ํด๋ฃจ์ง๋ํฌ์นด)์ Tudor Brezae, Paul Sucala, Robert Konievic, Levente Tamas(Technical University of Cluj-Napoca, Automation Department)์ ๋๋ค. ICRA 2026 ViTac ์ํฌ์(2026๋ 6์ 1์ผ, ๋น์๋) ์ฑํ ๋ ผ๋ฌธ #14์ ๋๋ค.
์ ์ด ๋ฌธ์ ์ธ๊ฐ: ํด๋จธ๋ ธ์ด๋ ์๋์ ๊ทธ๋์คํ
๋ ผ๋ฌธ์ ๋์ ๋ถ์์ ์ ๋ ดํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ๋ณด๊ธ์ผ๋ก ๋ฌผ์ฒด ์ก๊ธฐ(grasping)๊ฐ ๋ค์ ํต์ฌ ์ฃผ์ ๊ฐ ๋์๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค. ๋ก๋ด ํ์ ๋ฌ๋ฆฐ ์ด๊ฐ ์ผ์๋ฟ ์๋๋ผ ์๊ฐ ๋ฐ์ดํฐ๊น์ง ํจ๊ป ์ฐ๋ ์๊ฐ-์ด๊ฐ ์ตํฉ(visual-tactile fusion) ์ด 3D ํ๋ฉด ์ถ์ ์ ์์ฐ์ค๋ฌ์ด ๋ฐฉํฅ์ด๋ผ๋ ๊ฒ์ ๋๋ค.
์ฌ๊ธฐ์ ํ ๊ฐ์ง ๊ฒฐ์ ์ ๋์ ๊ฐ ๋ฑ์ฅํฉ๋๋ค. ๋ฐ๋ก ๋ฌผ์ฒด๊ฐ ๋ฌด๋ฅผ ๋(deformable) ์ ๋๋ค.
- ๋จ๋จํ ๋ฌผ์ฒด(rigid): ์๊ฐ๋ฝ์ผ๋ก ๋๋ฌ๋ ๋ชจ์์ด ๋ณํ์ง ์์ผ๋ฏ๋ก, ์ ์ด์ ์์ ์ฝ์ ๊ณก๋ฅ ์ด ๊ณง ๋ฌผ์ฒด์ ์ง์ง ๊ณก๋ฅ ์ ๋๋ค.
- ๋ฌด๋ฅธ ๋ฌผ์ฒด(deformable): ์ฅ๋ ํ์ ๋๋ ค(compression) ๋ชจ์์ด ๋ณํฉ๋๋ค. ๊ทธ๋์ ์ด๊ฐ์ด ์ฝ์ โํ์ฌ ๊ณก๋ฅ โ์ ๋ฌผ์ฒด ๋ณธ์ฐ์ ๋ชจ์์ด ์๋๋ผ ๋๋ฆฐ ๊ฒฐ๊ณผ ์ ๋๋ค.
๋น์ ํ์๋ฉด, ์์ผ๋ก ์ฌ๊ณผ๋ฅผ ์ฅ ๋์ ๋ฌผํ์ ์ ์ฅ ๋ ์๋ฐ๋ฅ์ด ๋๋ผ๋ ๋ชจ์์ ์ ํ ๋ค๋ฆ ๋๋ค. ๊ฐ์ 30mm ๋ฐ์ง๋ฆ์ ๋ฌผ์ฒด๋ผ๋ ๋ฌด๋ฅธ ์ชฝ์ ์์ ๋๋ ค ๋ ํํํ๊ฒ(์ฆ ๋ ํฐ ๋ฐ์ง๋ฆ์ฒ๋ผ) ๋๊ปด์ง๋๋ค. ๋ ผ๋ฌธ์ ๋ชฉํ๋ ์ด โ๋๋ฆผ์ผ๋ก ์ธํ ๋ณํ์ ์ ๋โ ๋ฅผ ์๊ฐ prior๋ก ๋ณด์ ํ๋ฉด์ ํ๋ฉด์ ๋ณต์ํ๋ ๊ฒ์ ๋๋ค.
ํต์ฌ ์์ด๋์ด์ ๊ธฐ์ฌ
์ด ๋ ผ๋ฌธ์ด ๊ฐ์ฅ ๊ฐ๊น์ด ์ ํ ์ฐ๊ตฌ๋ก ๊ผฝ๋ ๊ฒ์ Smith ๋ฑ์ 3D Shape Reconstruction from Vision and Touch(NeurIPS 2020, ์ฐธ๊ณ ๋ฌธํ [14])์ ๋๋ค. ๊ทธ ์ฐ๊ตฌ๋ โ์๊ฐ=์ ์ญ ๋งฅ๋ฝ(global context), ์ด๊ฐ=๊ตญ์ ๊ตฌ์กฐ(local structure)โ๋ผ๋ ์ํธ ๋ณด์ ๊ตฌ๋๋ฅผ ์ ์ํ๋๋ฐ, ๋ณธ ๋ ผ๋ฌธ์ ์ฌ๊ธฐ์ ์๊ฐ ๋จ๊ณ์์ ๊ธฐํํ์ ์์ํ์(geometric primitive)์ ์ถ์ ํ๋ ๋จ๊ณ๋ฅผ ์ถ๊ฐํ์ฌ ํ์ฅํฉ๋๋ค.
๊ตฌ์ฒด์ ๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๊ธฐํํ์ prior ๊ธฐ๋ฐ ์ตํฉ ๊ทธ๋์คํ ํ์ดํ๋ผ์ธ: ๊น์ด ์นด๋ฉ๋ผ์์ ์ํ๋ง ์ปจ์ผ์์ค(sampling consensus, SAC/RANSAC ๊ณ์ด) ๋ก ์๊ธฐ๋ฅยท๊ตฌ ๊ฐ์ ์ฌ์ ์ ์๋ ๋ฌผ์ฒด ํด๋์ค(๋ณ, ๊ณต ๋ฑ)๋ฅผ ์ ํฉํด prior๋ฅผ ์ป๊ณ , ์ด๋ฅผ 6-DoF ์ ์ญ๊ธฐ๊ตฌํ(IK)ยท์๊ธฐ๊ตฌํ(FK) ๋ฐ ์ด๊ฐ ์ผ์ ์ ๋ณด์ ์ตํฉํฉ๋๋ค.
- ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค๋ก๋ด ์์ชฝ์์์ ๋ณํ ๋ชจ๋ธ๋ง: IsaacSim์ PhysX ์ ์ด ์ผ์๋ก ๊ฐ์ฒด์ ์ปดํ๋ผ์ด์ธํธ ์ ์ด(compliant contact) ์ ๋ถ์ฌํด ๋ณํ์ ํ๋ด ๋ด๊ณ , ์ค์ ๋ก๋ 5์ง(๋ค์ฏ ์๊ฐ๋ฝ)+์๋ฐ๋ฅ์ ์ด๊ฐ ์ผ์๊ฐ ๋ฐํ 6-DoF Inspire ์์ผ๋ก ์คํํฉ๋๋ค.
- 6,000+ ๋๊ธฐํ ๋ฉํฐ๋ชจ๋ฌ ๊ทธ๋์คํ ๋ฐ์ดํฐ์ : RGB ์์, ์ด๊ฐ ํํธ๋งต, ๊ฐ๋(intensity) ํฌํจ 3D ์ด๊ฐ ์ ๊ตฐ, ์ ์ก์ถ์์ดํฐ ์ํ, ๊ด์ ๊ฐ์ ๋๊ธฐํํ์ฌ ์์งํ๊ณ deformable/non-deformable๋ก ๋ถ๋ฅํฉ๋๋ค.
- ๋ ๊ฐ๋์ ์ถ์ ๊ธฐ: ์ด๊ฐ ์ ๊ตฐ์์ ๊ณก๋ฅ โ๋ฐ์ง๋ฆ์ ํ๊ทํ๋ PointNet++ ์, RGB-์ด๊ฐ ์์์์ ๋ฐ์ง๋ฆ์ ์ถ์ ํ๋ VGG19 ๋ฅผ ๋น๊ต ํ๊ฐํ๊ณ , ํ์ต์ด ํ์ ์๋ SAC ๊ธฐํ ์ ํฉ์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ๋ก๋๋ค.
ํต์ฌ ๋ฉ์์ง๋ โ๋จ๋จํ ๋ฌผ์ฒด๋ ์ด๋ค ๋ฐฉ๋ฒ์ผ๋ก๋ sub-mm ์ ํ๋๋ก ์ ๋ณต์๋์ง๋ง, ๋ฌด๋ฅธ ๋ฌผ์ฒด๋ ์ฅ๋ ์์ถ ๋๋ฌธ์ ์ค์ฐจ๊ฐ ํฌ๊ฒ ๋์ด๋๋คโ ๋ ์ ๋์ ๊ด์ฐฐ์ด๋ฉฐ, ์๊ฐ prior๊ฐ ์ด ๋ณํ ์ค์ฐจ๋ฅผ ๋ณด์ ํ๋ ๋จ์๋ฅผ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋๋ค.
๋ฐฉ๋ฒ
์ ์ฒด ํ์ดํ๋ผ์ธ ๊ฐ๊ด
์ ์ฒด ํ๋ฆ์ โ๊น์ด ์์์์ ๊ธฐํ prior ์ถ์ โ ์์ผ๋ก ์ฅ๋ฉฐ ์ด๊ฐ ์ ๊ตฐ ์์ง โ ๋ ์ ๋ณด๋ฅผ ์ตํฉํด ๋ฐ์ง๋ฆ/๋ณํ ์ถ์ โ deformable ์ฌ๋ถ ๋ถ๋ฅโ๋ก ์ดํดํ ์ ์์ต๋๋ค.
์ ๊ทธ๋ฆผ์ ํต์ฌ์ ์๊ฐ ๊ฒฝ๋ก(SAC ๊ธฐํ prior + VGG19) ์ ์ด๊ฐ ๊ฒฝ๋ก(FK ์ ๊ตฐ + PointNet++) ๊ฐ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ๋ฐ์ง๋ฆ์ ์ถ์ ํ ๋ค ์ตํฉ๋๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ ๋ณํ ์ฌ๋ถ ํ๋จ์ ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ(proprioception)+์ด๊ฐ๋ ฅ ์ 2D ์์์ผ๋ก ์ธ์ฝ๋ฉํด ๋ณ๋๋ก ๋ถ๋ฅํ๋ค๋ ์ ์ ๋๋ค.
๋จ๊ณ 1 โ ์๊ฐ ๊ธฐํ prior: ์ํ๋ง ์ปจ์ผ์์ค (Geometric prior via SAC)
๊น์ด ์นด๋ฉ๋ผ๊ฐ ๋ณธ ์ ๊ตฐ์ ๋ํด, ์ฌ์ ์ ์๋ ๋ฌผ์ฒด ํด๋์ค(์๊ธฐ๋ฅ, ๊ตฌ)์ ๋ชจ๋ธ์ ์ํ๋ง ์ปจ์ผ์์ค ๋ก ์ ํฉํฉ๋๋ค. ์ด๋ RANSAC ๊ณ์ด์ ๊ฐ๊ฑด ์ถ์ ์ผ๋ก, โ์ก์๊ณผ ๊ฐ๋ฆผ์ด ์์ธ ์ ๊ตฐ์์ ๋ค์์ ์ ์ด ๋์ํ๋(consensus) ๊ธฐํ ๋ชจ๋ธ์ ์ฐพ๋โ ๋ฐฉ์์ ๋๋ค.
์ง๊ด: ํฉ์ด์ง ์ ๋ค ์ฌ์ด์ ๊ฐ์ฅ ๋ง์ ์ ์ด ๋ค๋ฌ๋ถ๋ ์๊ธฐ๋ฅ/๊ตฌ๋ฅผ ๋ผ์ ๋ง์ถ๋ ๊ฒ์ ๋๋ค. ํ ์ด๋ธ ์ ๋ณ์ ๋ณด๋ฉด โ์ด๊ฑด ๋ฐ์ง๋ฆ 33mm์ง๋ฆฌ ์๊ธฐ๋ฅโ์ด๋ผ๋ ์์ผ๋ก, ํ์ต ์์ด๋ ์ฆ์ ๊ฑฐ์น ํ์๊ณผ ๋ฐ์ง๋ฆ์ ๋ฝ์๋ ๋๋ค. ์ด prior๊ฐ ์ดํ ์ด๊ฐ ์ถ์ ์ ๊ธฐ์ค์ (ํนํ ๋ณํ ๋ณด์ ์ ๋ป) ์ญํ ์ ํฉ๋๋ค.
๋จ๊ณ 2 โ ์ด๊ฐ ์ ๊ตฐ ์์ฑ๊ณผ PointNet++ ํ๊ท
์ค๋ก๋ด์์๋ 6-DoF Inspire ์์ด ROS2(Modbus TCP)๋ก ์ ์ด๋๋ฉฐ, ๋ชจํฐ ์ ๋ฅ ๊ธฐ๋ฐ ํ ํผ๋๋ฐฑ๊ณผ ๋ถ์ฐ ์ผ์ ์ด๋ ์ด์ ๊ณ ํด์๋ ์๋ ฅ๊ฐ์ ํจ๊ป ์ ๊ณตํฉ๋๋ค. ์ด ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ ์๊ธฐ๊ตฌํ(FK) ์ผ๋ก 3D ๊ณต๊ฐ์ ์ฌํฌ์ํ๋ฉด, ์ ๋ง๋ค 5๊ฐ ํ๋๋ฅผ ๊ฐ๋ ์ ๊ตฐ์ด ๋ฉ๋๋ค.
\text{point} = (\,x,\; y,\; z,\; \text{RGB},\; \text{intensity}_{12\text{-bit}}\,)
์ด ์ ๊ตฐ์์ ๊ณก๋ฅ โ๋ฐ์ง๋ฆ์ ํ๊ทํ๊ธฐ ์ํด PointNet++ ๋ฅผ ์๋๋ค. ์์กฐ PointNet์ด ์ ์ญ ํ๋ง(global pooling)์ผ๋ก ์ ๊ตฐ ์ ์ฒด๋ฅผ ํ๋๋ก ์์ฝํ๋ ๋ฐ๋ฉด, PointNet++๋ ์งํฉ ์ถ์ํ ๊ณ์ธต(set abstraction layers) ์ผ๋ก ๊ตญ์ ๊ธฐํ ๊ตฌ์กฐ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ํฌ์ฐฉํฉ๋๋ค.
์ง๊ด: PointNet์ด โ์ฌ์ง ์ ์ฒด๋ฅผ ํ ๋ฒ์ ํ๋ฆฟํ๊ฒ ๋ณด๋โ ๊ฒ์ด๋ผ๋ฉด, PointNet++๋ โ๊ฐ๊น์ด ์ ๋ค๋ผ๋ฆฌ ๋จผ์ ๋ฌถ์ด ๋๋ค ๋จ์๋ก ๋ณธ ๋ค ์ ์ ๋ํ ๋ณด๋โ ๊ฒ์ ๋๋ค. ๊ณก๋ฅ ์ฒ๋ผ ๊ตญ์์ ์ธ ํ๋ฉด ํน์ฑ์ ์ฝ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค. ํ๊ท ์ค๊ณ๋ 3D ์ ์์ธ ์ถ์ ์ PointNet์ ์ด ์ ํ ์ฐ๊ตฌ(์ฐธ๊ณ ๋ฌธํ [9])์์ ์๊ฐ์ ์ป์๊ณ , z์ถ ํ์ ๊ณผ ยฑ10% ์ค์ผ์ผ๋ง ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก ์ผ๋ฐํ๋ฅผ ๋์์ต๋๋ค.
๋จ๊ณ 3 โ ์๊ฐ ๋ฐ์ง๋ฆ ์ถ์ : VGG19
์๋ฎฌ๋ ์ด์ ์์๋ RGB-์ด๊ฐ ์์ ์ ๋ ฅ์ ๋ํด VGG19 ๋ก ๋ฐ์ง๋ฆ์ ์ถ์ ํ๋ ํ์ดํ๋ผ์ธ์ ํ๊ฐํฉ๋๋ค. ๋ชจ๋ ๊ฐ์ 0โ1๋ก ์ ๊ทํ๋๋ฉฐ, ๋ชจ๋ธ์ ์์ ํจํด์์ ๊ณก๋ฅ ์ ์ฝ์ด ๋ฐ์ง๋ฆ์ ์์ธกํฉ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ์ ์๋ค์ ์ ์ดํ์ต(transfer learning) ๋ ํ๊ตฌํ์ฌ, ์ผ์ ๋ฐ์ดํฐ๋ก ํ์ตํ VGG19๋ฅผ ์ค๋ฅธ์์ ์ ์์์ผ ๊ฒ์ฆํ์ต๋๋ค.
๋จ๊ณ 4 โ ๋ณํ ์ฌ๋ถ ๋ถ๋ฅ: ๊ณ ์ ์์ฉ์ฑ ๊ฐ๊ฐ์ 2D ์ธ์ฝ๋ฉ
deformable/non-deformable ํ๋จ์ ๊ด์ ๊ฐ(joint angles)๊ณผ ์ ์ด๋ ฅ(contact forces) ์ ์ํตํ ํฌ์(cylindrical projection) ์ผ๋ก 2D ์์์ ์ธ์ฝ๋ฉํ์ฌ ์ํํฉ๋๋ค.
์ง๊ด: ์๊ฐ๋ฝ ๊ด์ ์ด ์ผ๋ง๋ ๊ตฝ์๋์ง์ ๊ฐ ์ ์ ์์ ๋๋ ํ์ ํ ์ฅ์ ์ด๋ฏธ์ง๋ก ํผ์ณ ๋์ผ๋ฉด, โ๋จ๋จํ ๋ฌผ์ฒด๋ฅผ ์ฅ ๋์ ํจํดโ๊ณผ โ๋ฌด๋ฅธ ๋ฌผ์ฒด๊ฐ ๋๋ฆฌ๋ฉฐ ์๊ฐ๋ฝ์ด ๋ ๊น์ด ํ๊ณ ๋๋ ํจํดโ์ด ์๊ฐ์ ์ผ๋ก ๊ตฌ๋ถ๋ฉ๋๋ค. ๊ฐ์ ๋ฐ์ง๋ฆ์ด๋ผ๋ ๋ฌด๋ฅธ ๋ฌผ์ฒด๋ ๋ ํฐ ์์ถ ํ์ ์ ๋จ๊ธฐ๋ฏ๋ก, ์ด ์์์ผ๋ก ๋ณํ ์ฌ๋ถ๋ฅผ ๋ถ๋ฅํ ์ ์์ต๋๋ค.
์๋ฎฌ๋ ์ด์ ์์์ ๋ณํ ๋ชจ๋ธ๋ง
IsaacSim์ PhysX Contact Report API ๊ธฐ๋ฐ์ ๋ฌผ๋ฆฌ ์ ์ด ์ผ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ค๋ง IsaacSim์ ์ ์ฝ์ ์ ์ด ๋ฆฌํฌํ API๋ ๊ฐ์ฒด(rigid body)์๋ง ๋ถ์ผ ์ ์์ต๋๋ค(์ฐธ๊ณ ๋ฌธํ [4]). ๊ทธ๋์ ์ ์๋ค์ ๋ณํ์ฒด๋ฅผ ์ง์ FEA๋ก ์๋ฎฌ๋ ์ด์ ํ๋ ๋์ , ๊ฐ์ฒด ์๊ธฐ๋ฅ/๊ตฌ์ ์ปดํ๋ผ์ด์ธํธ ์ ์ด(compliant contact) ๋ฌผ์ฑ ์ ๋ถ์ฌํ๋ ๋ฐฉ์์ ํํ์ต๋๋ค. ์ฆ ๋ฌผ์ฑ ์ฌ์ง์ 0์ด ์๋ ์ปดํ๋ผ์ด์ธํธ ๊ฐ์ฑ(stiffness)๊ณผ ๊ฐ์ (damping) ๋ฅผ ์ค์ ํด ์ ํ๋ ์ํธ์นจํฌ(interpenetration)๋ฅผ ํ์ฉํจ์ผ๋ก์จ, ๊ฐ์ฒด๋ฅผ ์ ์งํ๋ฉด์๋ ๋ฌด๋ฅธ ์ํธ์์ฉ์ ํ๋ด ๋ ๋๋ค. ์ด๋ ํ๋ํฐ ๊ธฐ๋ฐ ์ํํธ ์ ์ด ์ ์ฝ์ ์ฐ๋ TacSL(์ฐธ๊ณ ๋ฌธํ [7])๊ณผ ๊ฐ์ ๊ฒฐ์ ๊ทผ์ฌ์ ๋๋ค.
์์ฌ์ฝ๋
Input: depth point cloud D, grasp trajectory for 6-DoF hand
# Visual branch
prim, r_visual <- sampling_consensus(D, classes={cylinder, sphere}) # SAC geometric prior
r_vgg <- VGG19(rgb_touch_image) # learned visual radius
# Tactile branch
grasp(object)
for each finger/palm sensor s:
p_s <- forward_kinematics(s) # reproject tactile reading to 3D
point = (x, y, z, RGB, intensity)
tactile_cloud.append(point)
r_tactile <- PointNet++(tactile_cloud) # regress radius from local curvature
# Deformation classification
img2d <- cylindrical_projection(joint_angles, contact_forces)
label <- classify(img2d) # deformable vs non-deformable
# Fusion
radius <- fuse(r_visual, r_vgg, r_tactile) # visual prior corrects tactile compression
return radius, label์คํ
์ค์
- ์๋ฎฌ๋ ์ด์ : IsaacSim์์ ๋์ผํ ๊น์ด ์นด๋ฉ๋ผ ๋ชจ๋ธ๊ณผ ๋ก๋ด ํ ๊ตฌ์ฑ์ผ๋ก ์๊ธฐ๋ฅยท๊ตฌ๋ฅผ ์ปดํ๋ผ์ด์ธํธ ์ ์ด์ผ๋ก ๋ชจ๋ธ๋ง.
- ์ค๋ก๋ด: 5์ง+์๋ฐ๋ฅ์ ์ด๊ฐ ์ผ์๊ฐ ๋ฐํ 6-DoF Inspire ํด๋จธ๋ ธ์ด๋ ์, ROS2/Modbus TCP ์ ์ด, ๋ชจํฐ ์ ๋ฅ ๊ธฐ๋ฐ ํ + ๋ถ์ฐ ์๋ ฅ ์ด๋ ์ด.
- ๋ฐ์ดํฐ์ : 6,000๊ฐ ์ด์์ ๋๊ธฐํ ๋ฉํฐ๋ชจ๋ฌ ์ํ(RGB, ์ด๊ฐ ํํธ๋งต, ๊ฐ๋ ํฌํจ 3D ์ด๊ฐ ์ ๊ตฐ, ์ก์ถ์์ดํฐ ์ํ, ๊ด์ ๊ฐ), deformable/non-deformable๋ก ๋ถ๋ฅ.
- ํ๊ฐ ๋์: ์๊ธฐ๋ฅ ๊ณ์ด(250ml, 330ml slim, 330ml, 500ml, 500ml bottle, 1L bottle, 1.5L bottle), ๊ตฌ ๊ณ์ด(ํ ๋์ค๊ณต, ํฐ ๊ณต, ์ฃผํฉ ๊ณต). ๊ฐ GT ๋ฐ์ง๋ฆ์ด ๋ช ์๋จ(์: 250ml=24.0mm, 330ml slim=29.0mm, 1.5L bottle=46.0mm, ํ ๋์ค๊ณต=32.0mm).
ํ๊ฐ์งํ
| ์งํ | ์๋ฏธ | ์ข์ ๋ฐฉํฅ |
|---|---|---|
| MAE (mm) | ์ถ์ ๋ฐ์ง๋ฆ๊ณผ GT ๋ฐ์ง๋ฆ์ ํ๊ท ์ ๋ ์ค์ฐจ | ์์์๋ก ์ข์ |
| Std (mm) | ์ค์ฐจ์ ํ์คํธ์ฐจ(์์ ์ฑ) | ์์์๋ก ์ข์ |
๋ฐ์ง๋ฆ์ ์ง์ ์ถ์ ํ๋ฏ๋ก ํ๊ฐ๊ฐ ์ง๊ด์ ์ ๋๋ค. โ์ถ์ ํ ๊ณก๋ฅ ๋ฐ์ง๋ฆ์ด ์ค์ ๋ฌผ์ฒด ๋ฐ์ง๋ฆ์์ ํ๊ท ๋ช mm ๋ฒ์ด๋ฌ๋๊ฐโ๊ฐ ๊ณง ์ฑ๋ฅ์ ๋๋ค.
๊ฒฐ๊ณผ (Table I ์ค์ ์์น)
๋ ผ๋ฌธ Table I์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ(PointNet, SAC)์ ๊ฐ๊ฐ rigid/deformable ๊ฐ์ ์ผ๋ก ํ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋ด์ต๋๋ค. ๋ํ ์์น๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
| ๋ฐฉ๋ฒ | ๋์ | MAE (mm) | ๋น๊ณ |
|---|---|---|---|
| PointNet (Rigid) | ๊ฐ์ฒด ์๊ธฐ๋ฅ ์ ๋ฐ | 0.7 | ํ์ค ์บ๋ฅ๋ 0.2mm ๋ฏธ๋ง, sub-mm ๋ฌ์ฑ |
| PointNet (Deform) | ๋ฌด๋ฅธ ์๊ธฐ๋ฅ ์ ๋ฐ | 6.6 | ์ฅ๋ ์์ถ์ผ๋ก ์ค์ฐจ ๊ธ์ฆ |
| PointNet (Rigid) | ํ ๋์ค๊ณต | 1.0 | ์๊ธฐ๋ฅ ํ์ต ๋ชจ๋ธ์ด ๊ณต์๋ ์ผ๋ฐํ |
| SAC (Rigid) | ๊ฐ์ฒด ์๊ธฐ๋ฅ ์ ๋ฐ | 5.4 | ํ์ต ๋ถํ์ํ๋ ์ค์ฐจ ํผ |
| SAC (Deform) | ๋ฌด๋ฅธ ์๊ธฐ๋ฅ ์ ๋ฐ | 8.1 | |
| VGG19 (sim) | ์๊ธฐ๋ฅ | 0.6 | RGB-์ด๊ฐ ์์ ๊ธฐ๋ฐ |
| VGG19 (sim) | ํ ๋์ค๊ณต(๊ตฌ) | 0.04 | |
| VGG19 (transfer) | ์๊ธฐ๋ฅ(์ขโ์ฐ์ ์ ์ด) | 0.02 | ์ ์ดํ์ต ํ ์ค์ธ๊ณ ๊ฒ์ฆ |
ํต์ฌ ๊ฒฝํฅ์ ๋งค์ฐ ๋ช ํํฉ๋๋ค.
- ๋จ๋จํ ๋ฌผ์ฒด๋ sub-mm๋ก ๊ฑฐ์ ์๋ฒฝํ๊ฒ ๋ณต์๋ฉ๋๋ค(PointNet 0.7mm, ํ์ค ์บ์ 0.2mm ๋ฏธ๋ง). ํ์ต ๋ชจ๋ธ์ด ํ๋ฉด ๊ณก๋ฅ โ๋ฐ์ง๋ฆ ๋งคํ์ ์ ๋๋ก ํ์ตํ์์ ๋ณด์ฌ์ค๋๋ค.
- ๋ฌด๋ฅธ ๋ฌผ์ฒด๋ ์ค์ฐจ๊ฐ ํ ์๋ฆฟ์ mm๋ก ํฌ๊ฒ ์ฆ๊ฐํฉ๋๋ค(PointNet deform 6.6mm). ์์ธ์ ๋ช ํํ ์ฅ๋ ๋์์ ์์ถ(compression) ์ผ๋ก ์ง๋ชฉ๋ฉ๋๋ค.
- VGG19(์๊ฐ) ๋ ์๋ฎฌ๋ ์ด์ ์์ ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ(์๊ธฐ๋ฅ 0.6mm, ๊ตฌ 0.04mm)๋ฅผ ๊ธฐ๋กํ๊ณ , ์ ์ดํ์ต ์ ์๊ธฐ๋ฅ์์ 0.02mm๊น์ง ๋ด๋ ค๊ฐ๋๋ค.
- SAC(๊ธฐํ ์ ํฉ) ๋ ํ์ต์ด ํ์ ์๋ค๋ ์ฅ์ ์ด ์์ผ๋, ํ์ต ๊ธฐ๋ฐ๋ณด๋ค ์ค์ฐจ๊ฐ ํฝ๋๋ค(5.4โ8.1mm).
์๋ฏธ: ์ด ๊ฒฐ๊ณผ๋ โ์ด๊ฐ๋ง์ผ๋ก ๋ฌด๋ฅธ ๋ฌผ์ฒด์ ์ง์ง ํ์์ ์๊ธฐ ์ด๋ ต๋คโ๋ ๋ณธ ๋ ผ๋ฌธ์ ๋๊ธฐ๋ฅผ ์ ๋์ ์ผ๋ก ์ ์ฆํฉ๋๋ค. ์ด๊ฐ์ด ์ฝ๋ ๊ฒ์ ๋๋ฆฐ ํ์ ๊ณก๋ฅ ์ด๋ฏ๋ก, ์์ถ์ ๊ฒช์ง ์๋ ์๊ฐ prior๊ฐ ๋ณํ ๋ณด์ ์ ๊ธฐ์ค ์ผ๋ก์ ๊ฐ์น๋ฅผ ๊ฐ์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ฌธ์ ์ ์๊ฐ ์ ์งํ๊ณ ์ ๋์ ์ ๋๋ค. โrigid๋ ์ ๋๊ณ deformable์ ์์ถ ๋๋ฌธ์ ์ค์ฐจ๊ฐ 6.6mm๋ก ์ปค์ง๋คโ๋ ๊ด์ฐฐ์ ํ๋ก ๋ถ๋ช ํ ์ ์ํฉ๋๋ค. ๋ณํ์ด๋ผ๋ ๋์ ๋ฅผ ๋ฏธํํ์ง ์๊ณ ์์น๋ก ๋๋ฌ๋ ๋๋ค.
- ๋ ๊ฐ๊ฐ์ ์ญํ ๋ถ๋ด์ด ๋ช ํํฉ๋๋ค. ์๊ฐ(SAC+VGG19)=์์ถ ์๋ ๊ธฐ์ค prior, ์ด๊ฐ(PointNet++ ์ ๊ตฐ)=๊ตญ์ ๊ณก๋ฅ ์ธก์ ์ด๋ผ๋ ๊ตฌ๋๊ฐ ํฉ๋ฆฌ์ ์ ๋๋ค.
- sim2real๊ณผ ์ ์ดํ์ต์ ํจ๊ป ๋ค๋ฃน๋๋ค. IsaacSim ์ปดํ๋ผ์ด์ธํธ ์ ์ด์ผ๋ก ๋ณํ์ ๊ทผ์ฌํ๊ณ , ์ขโ์ฐ์ ์ ์ดํ์ต์ผ๋ก ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ ๊ฐ ์ผ๋ฐํ๋ฅผ ๋ณด์์ต๋๋ค(์ ์ด ํ 0.02mm).
- ์ค์ฉ์ ๋ฐ์ดํฐ์ ์์ฐ: 6,000๊ฐ ์ด์์ ๋๊ธฐํ ๋ฉํฐ๋ชจ๋ฌ ์ํ์ ๊ทธ ์์ฒด๋ก ํ์ ์ฐ๊ตฌ์ ์ฌ์ฌ์ฉ ๊ฐ์น๊ฐ ํฝ๋๋ค.
์ฝ์ ยทํ๊ณ
- โํ๋ฉด ๋ณต์โ์ด๋ผ๊ธฐ๋ณด๋ค โ๋ฐ์ง๋ฆ/๊ณก๋ฅ ์ถ์ โ์ ๊ฐ๊น์ต๋๋ค. ์ ๋ชฉ์ deformable surface reconstruction์ ํ๋ฐฉํ์ง๋ง, ์ค์ ํ๊ฐ๋ ์๊ธฐ๋ฅ/๊ตฌ์ ๋จ์ผ ๋ฐ์ง๋ฆ ํ๊ท์ ์ง์ค๋์ด ์์ด, ์์ ์์์ ์์ ํ์ ํ๋ฉด์ ๋ณต์ํ๋ ๋จ๊ณ๊น์ง๋ ๋ณด์ด์ง ์์ต๋๋ค.
- ๊ธฐํ prior์ ํด๋์ค๊ฐ ํ์ํฉ๋๋ค. SAC๊ฐ ๋ค๋ฃจ๋ ์์ํ์์ด ์๊ธฐ๋ฅยท๊ตฌ๋ก ํ์ ๋์ด, ์์ก์ดยท๋ถ๊ธฐยท์ค๋ชฉ ๋ด๋ถ ๊ฐ์ ๋ณต์ก ์์์ ๋ฌผ์ฒด์๋ ๋ถ์ ํฉํฉ๋๋ค.
- ๋ณํ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ด ๊ทผ์ฌ์ ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์ ์ง์ง FEA ๋ณํ์ฒด ๋์ ๊ฐ์ฒด+์ปดํ๋ผ์ด์ธํธ ์ ์ด์ผ๋ก ๋์ฒดํ๋๋ฐ(IsaacSim ์ ์ด API์ ๊ฐ์ฒด ์ ์ฝ ๋๋ฌธ), ์ด๋ ํฐ ํ์ฑ ๋ณํ(์ฒ, ์คํ์ง)๊ณผ๋ ๊ฑฐ๋ฆฌ๊ฐ ์์ต๋๋ค.
- ์๊ฐ-์ด๊ฐ ์ตํฉ ๋ฐฉ์์ ๊ตฌ์ฒด์ฑ: ๋ ๊ฒฝ๋ก์ ๋ฐ์ง๋ฆ์ ์ด๋ป๊ฒ ๊ฒฐํฉํด ๋ณํ์ ์ ๋ ๋ณด์ ํ๋์ง(๊ฐ์คยทํํฐยทํ์ต ์ตํฉ ๋ฑ)์ ๊ตฌ์ฒด์ ์๊ณ ๋ฆฌ์ฆ์ ์ํฌ์ ๋ ผ๋ฌธ ๋ถ๋์ ์์ธํ ๊ธฐ์ ๋์ง ์์์ต๋๋ค. (์ถ์ธก) ์ตํฉ์ ์๊ฐ prior๋ฅผ ๊ธฐ์ค์ผ๋ก ์ด๊ฐ ์์ถ๋ถ์ ๋ณด์ ํ๋ ํํ๋ก ๋ณด์ ๋๋ค.
- ๋ฒ ์ด์ค๋ผ์ธ ํญ: ๋น๊ต๊ฐ ์ฃผ๋ก ์์ฒด ๋ฐฉ๋ฒ๋ค(PointNet vs SAC vs VGG) ์ฌ์ด์์ ์ด๋ค์ ธ, ์ต์ ํ์ต ๊ธฐ๋ฐ ํ์ ๋ณต์(์: Touch2Shape ๋ํจ์ [15], TAPCNet [10])๊ณผ์ ์ง์ ๋น๊ต๋ ์ ํ์ ์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ ๋น๊ต
| ์ ๊ทผ | ํ๋ฉด/ํ์ ํํ | ์๊ฐ ์ฌ์ฉ | ๋ณํ ์ฒ๋ฆฌ | ํน์ง |
|---|---|---|---|---|
| ๋ณธ ๋ ผ๋ฌธ (#14) | ์์ํ์(์๊ธฐ๋ฅ/๊ตฌ) ๋ฐ์ง๋ฆ + ์ด๊ฐ ์ ๊ตฐ | SAC ๊ธฐํ prior + VGG19 | rigid/deform ๋ถ๋ฅ, ์์ถ ์ธ์ง | 6-DoF Inspire ์, IsaacSim, ์ ์ดํ์ต |
| Smith et al. (NeurIPSโ20, [14]) | ๋ฉ์ | ์ ์ญ ๋งฅ๋ฝ | ๊ฐ์ฒด ์ค์ฌ | ๋ณธ ๋ ผ๋ฌธ์ด ์ง์ ํ์ฅํ ์ ํ(์๊ฐ ๋จ๊ณ์ ๊ธฐํ prior ์ถ๊ฐ) |
| Touch2Shape (CVPRโ25, [15]) | ์ํจ์/๋ํจ์ | ์กฐ๊ฑด๋ถ | ํ์ต ๊ธฐ๋ฐ ํ์ยท๋ณต์ | Touch-conditioned 3D diffusion |
| TAPCNet (IET CVโ25, [10]) | ์ ๊ตฐ ์์ฑ | ๋ณด์กฐ | ๋ฐ๋ณต ์ตํฉ | Tactile-assisted point cloud completion |
| TacSL (T-ROโ25, [7]) | โ (์ผ์ ์๋ฎฌ๋ ์ด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ) | ์๊ฐ์ด๊ฐ | ํ๋ํฐ ๊ธฐ๋ฐ ์ํํธ ์ ์ด | ๋ณธ ๋ ผ๋ฌธ์ IsaacSim ๋ณํ ๊ทผ์ฌ๊ฐ ์ฐจ์ฉํ ๊ฒฐ |
๋น๊ต ๊ด์ : ํ์ต ๊ธฐ๋ฐ ๋ํจ์ ยท์ ๊ตฐ ์์ฑ(Touch2Shape, TAPCNet)์ด ๋ฐ์ดํฐ์์ ํ์ prior๋ฅผ ํ์ต ํ๋ ๋ฐ๋ฉด, ๋ณธ ๋ ผ๋ฌธ์ SAC๋ผ๋ ํด์์ ยท๊ธฐํํ์ prior ๋ฅผ ์๊ฐ ๋จ๊ณ์ ๋ช ์์ ์ผ๋ก ๋ผ์ ๋ฃ์ต๋๋ค. ์ ์๋ ์์ ํ์ ์ผ๋ฐํ ์ ์ฌ๋ ฅ์ด ํฌ์ง๋ง ๋ฐ์ดํฐยท๋๋ฉ์ธ ๊ฐญ์ ์ทจ์ฝํ๊ณ , ํ์๋ ํ์ต ์์ด ์ฆ์ ๋์ํ๋ฉฐ ํด์์ด ์ฝ์ง๋ง ์์ํ์์ ํ์ ๋ฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ํ Smith et al.[14]์ โ์๊ฐ=์ ์ญ/์ด๊ฐ=๊ตญ์โ ๊ตฌ๋๋ฅผ ๊ณ์นํ๋, ์๊ฐ ๋จ๊ณ์ ๊ธฐํ ์ถ์ ์ ๋ํ ์ ์ด ์ฐจ๋ณ์ ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ํด๋จธ๋ ธ์ด๋ ์์ ๊ทธ๋์คํ ์ํฉ ์์, ๊น์ด ์นด๋ฉ๋ผ์ SAC ๊ธฐํ prior(์๊ธฐ๋ฅ/๊ตฌ)์ 5์ง+์๋ฐ๋ฅ ์ด๊ฐ ์ผ์์ 3D ์ ๊ตฐ์ ์ตํฉํด ๋ฌผ์ฒด์ ๋ฐ์ง๋ฆ์ ์ถ์ ํ๊ณ deformable ์ฌ๋ถ๋ฅผ ๋ถ๋ฅํ๋ ์ค์ฉ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค. PointNet++(์ด๊ฐ ์ ๊ตฐ)์ VGG19(RGB-์ด๊ฐ ์์)๋ฅผ ๋น๊ต ํ๊ฐํ๊ณ , SAC๋ฅผ ํ์ต ๋ถํ์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ๋์์ต๋๋ค.
ํต์ฌ ์ ๋ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋จ๋จํ ๋ฌผ์ฒด: PointNet 0.7mm MAE(ํ์ค ์บ 0.2mm ๋ฏธ๋ง)๋ก sub-mm ์ ํ๋.
- ๋ฌด๋ฅธ ๋ฌผ์ฒด: PointNet 6.6mm MAE ๋ก ์ค์ฐจ๊ฐ ํฌ๊ฒ ์ฆ๊ฐ(์ฅ๋ ์์ถ์ด ์์ธ).
- VGG19(์๊ฐ): ์๋ฎฌ์์ ์๊ธฐ๋ฅ 0.6mm, ๊ตฌ 0.04mm, ์ ์ดํ์ต ์ ์๊ธฐ๋ฅ 0.02mm.
- SAC: ํ์ต ๋ถํ์ํ๋ ์ค์ฐจ๊ฐ ํผ(5.4โ8.1mm).
๋ก๋ด๊ณตํ์๋ฅผ ์ํ ์์ฌ์ :
- ๋ฌด๋ฅธ ๋ฌผ์ฒด์ ํ๋ฉด์ ์ด๊ฐ๋ง์ผ๋ก ์ ํํ ์๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ์ด๊ฐ์ ๋๋ฆฐ ํ ์ ๊ณก๋ฅ ์ ์ฝ๊ธฐ ๋๋ฌธ์ด๋ฉฐ, ์์ถ์ ๊ฒช์ง ์๋ ์๊ฐ prior ๊ฐ ๋ณํ ๋ณด์ ์ ๊ธฐ์ค์ ์ผ๋ก ๊ฒฐ์ ์ ์ ๋๋ค.
- IsaacSim์์ ์ง์ง ๋ณํ์ฒด ์๋ฎฌ๋ ์ด์ ์ด ๊น๋ค๋ก์ธ ๋(์ ์ด API์ ๊ฐ์ฒด ์ ์ฝ), ๊ฐ์ฒด+์ปดํ๋ผ์ด์ธํธ ์ ์ด(๊ฐ์ฑยท๊ฐ์ ์ค์ ) ์ผ๋ก ๋ฌด๋ฅธ ์ํธ์์ฉ์ ๊ทผ์ฌํ๋ ์ค์ฉ์ ์ฐํ๋ก๊ฐ ์ ํจํฉ๋๋ค.
- ์ขโ์ฐ์ ์ ์ดํ์ต ์ผ๋ก ์ ๊ฐ ๋ฐ์ดํฐ ํจ์จ์ ๋์ด์ฌ๋ฆฐ ์ ์ ๋ค์ง(multi-finger) ํด๋จธ๋ ธ์ด๋ ์ ์์ฉ์ ์ด์ํ ๋งํ ํจํด์ ๋๋ค.
ํ๊ณ์ ํฅํ: ๊ธฐํ prior๊ฐ ์๊ธฐ๋ฅยท๊ตฌ๋ก ํ์ ๋๊ณ , ํ๊ฐ๊ฐ ๋จ์ผ ๋ฐ์ง๋ฆ ํ๊ท์ ๋จธ๋ฌผ๋ฉฐ, ๋ณํ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ด ๊ทผ์ฌ์ ์ด๋ผ๋ ์ ์ ๋จ์ ๊ณผ์ ์ ๋๋ค. ์์ ์์ ํ๋ฉด์ผ๋ก์ ํ์ฅ, ๋ช ์์ ํ์ฑ ๋ณํ ๋ชจ๋ธ๊ณผ์ ๊ฒฐํฉ, ํ์ต ๊ธฐ๋ฐ ํ์ ๋ณต์(๋ํจ์ ยท์ ๊ตฐ ์์ฑ)๊ณผ์ ์ง์ ๋น๊ต๊ฐ ์์ฐ์ค๋ฌ์ด ๋ค์ ๋จ๊ณ๋ก ๋ณด์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, ํ๋ คํ ์ ๊ท ๋ชจ๋ธ๋ณด๋ค ํด๋จธ๋ ธ์ด๋ ์์ ์ค์ธก ๋ฐ์ดํฐ(6,000+ ์ํ)์ ์๊ฐ ๊ธฐํ prior ๋ฅผ ๊ฒฐํฉํด โ๋จ๋จํจ์ ์ฝ๊ณ ๋ฌด๋ฆ์ ์ด๋ ต๋คโ๋ ์ฌ์ค์ ์ ๋์ ์ผ๋ก ๋ชป๋ฐ๊ณ , ๊ทธ ๋ณด์ ๋จ์๋ฅผ ์๊ฐ์์ ์ฐพ๋ ๊ฒฌ๊ณ ํ๊ณ ์ค๋ฌด ์นํ์ ์ธ ์ํฌ์ ์ฐ๊ตฌ์ ๋๋ค.