flowchart TB
subgraph Sensors["๐ค ์ผ์ ์
๋ ฅ"]
CAM[RGB-D ์นด๋ฉ๋ผ<br/>RealSense D435]
TAC[DIGIT ์ด๊ฐ ์ผ์<br/>x4 fingers]
PROP[๊ด์ ์ธ์ฝ๋<br/>16D joints]
end
subgraph Frontend["โ๏ธ ํ๋ก ํธ์๋ ์ฒ๋ฆฌ"]
SAM[SAM ์ธ๊ทธ๋ฉํ
์ด์
<br/>+ Embodied Prompts]
TT[Tactile Transformer<br/>ViT ๊ธฐ๋ฐ ๊น์ด ์์ธก]
FK[Forward Kinematics<br/>์ด๊ฐ ์ผ์ ์์น ๊ณ์ฐ]
end
subgraph Backend["๐ง ๋ฐฑ์๋ ์ต์ ํ"]
SDF[Neural SDF<br/>Instant-NGP]
PG[Pose Graph<br/>Sliding Window]
end
subgraph Output["๐ค ์ถ๋ ฅ"]
POSE[6-DoF ๋ฌผ์ฒด ์์ธ]
MESH[3D ๋ณต์ ๋ฉ์ฌ]
end
CAM --> SAM
TAC --> TT
PROP --> FK
SAM --> |์๊ฐ ๊น์ด| Backend
TT --> |์ด๊ฐ ๊น์ด| Backend
FK --> |์ผ์ ํฌ์ฆ| Backend
SDF <--> |๊ต๋ ์ต์ ํ| PG
Backend --> POSE
Backend --> MESH
style Frontend fill:#e1f5fe
style Backend fill:#fff3e0
style Sensors fill:#f3e5f5
style Output fill:#e8f5e9
๐Neural feels with neural fields ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๊ธฐ์กด ๋ก๋ด์ In-hand manipulation์ ์๊ฐ์๋ง ์์กดํ์ฌ ๊ฐ๋ ค์ง(occlusion)์ ์ทจ์ฝํ๋ฉฐ ์๋ก์ด ๊ฐ์ฒด(novel objects)์ ๋ํ ๊ณต๊ฐ ์ธ์์ด ๋ถ์กฑํ๋ฐ, NeuralFeels๋ ๋น์ (vision)๊ณผ ์ด๊ฐ(touch)์ ํตํฉํ์ฌ ์ด๋ฅผ ํด๊ฒฐํ๋ visuo-tactile perception ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ์จ๋ผ์ธ์์ ๋ด๋ด ํ๋(neural field)๋ฅผ ํ์ตํ๊ณ ์์ธ ๊ทธ๋ํ(pose graph) ์ต์ ํ๋ฅผ ํตํด ๊ฐ์ฒด๋ฅผ ์ถ์ ํ๋ฉฐ, ํนํ vision-based tactile sensors๋ฅผ ๊ตญ์์ ์ธ ๊น์ด ์ ๋ณด(local depth information) ์์ค๋ก ํ์ฉํฉ๋๋ค.
- NeuralFeels๋ novel objects์ ๋ํด 81%์ ๋์ F-score์ 4.7mm์ ํ๊ท ์์ธ ์ค์ฐจ๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์๊ฐ์ ๊ฐ๋ ค์ง(visual occlusion)์ด ์ฌํ ํ๊ฒฝ์์ vision-only ๋ฐฉ์๋ณด๋ค ์ต๋ 94% ํฅ์๋ ์ถ์ ์ฑ๋ฅ์ ๋ณด์ฌ ์ด๊ฐ์ ์ค์์ฑ์ ์ ์ฆํฉ๋๋ค.

1 ๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ โNeural feels with neural fields: Visuo-tactile perception for in-hand manipulationโ์ด๋ผ๋ ์ ๋ชฉ์ผ๋ก, ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ๋ก๋ด์ ์ ์ ์กฐ์(in-hand manipulation)์ ์ํ ์๊ฐ-์ด๊ฐ(visuo-tactile) ์ธ์์ ๋ค๋ฃจ๋ฉฐ, ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉ์ฑ(dexterity) ๋ฌ์ฑ์ ์ํ ๊ณต๊ฐ ์ธ์์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ธฐ์กด์ ์ ์ ์ธ์(in-hand perception) ์์คํ ์ด ์๊ฐ์๋ง ์์กดํ๊ณ ๊ธฐ์ง(a priori known) ๋ฌผ์ฒด ์ถ์ ์ ๊ตญํ๋๋ฉฐ, ์กฐ์ ์ค ์๊ฐ์ ๊ฐ๋ ค์ง(visual occlusion)์ ์ทจ์ฝํ๋ค๋ ๋ฌธ์ ์ ์ ์ ๊ธฐํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ โNeuralFeelsโ๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. NeuralFeels๋ ๋ค์ง(multi-fingered) ๋ก๋ด ์์ ์๊ฐ ์ผ์์ ์ด๊ฐ ์ผ์๋ฅผ ๊ฒฐํฉํ์ฌ ์กฐ์ ์ค ๋ฌผ์ฒด์ ์์ธ(pose)์ ํ์(shape)์ ์ถ์ ํฉ๋๋ค. ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์จ๋ผ์ธ ์ ๊ฒฝ์ฅ(Neural Field) ํ์ต: ๋ฌผ์ฒด์ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ์ ๊ฒฝ์ฅ์ผ๋ก ์จ๋ผ์ธ์์ ํ์ตํฉ๋๋ค. ์ ๊ฒฝ์ฅ(neural field)์ ๊ณต๊ฐ์์ 3D ์ขํ p \in \mathbb{R}^3๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ํด๋น ์ขํ์์ ๋ฌผ์ฒด ํ๋ฉด๊น์ง์ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ(signed distance)๋ฅผ ์ถ๋ ฅํ๋ ์ฐ์์ ์ธ ํจ์ F_{\theta, \mathbf{x}_t}(p): \mathbb{R}^3 \to \mathbb{R}๋ก ํํ๋ฉ๋๋ค. ์ฌ๊ธฐ์ \theta๋ ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น, \mathbf{x}_t๋ ํ์ฌ ์๊ฐ t์์์ ๋ฌผ์ฒด์ ์์ธ๋ฅผ ๋ํ๋ ๋๋ค. ์ด ์ ๊ฒฝ์ฅ์ โinstant-NGPโ [49]์ ๊ฐ์ด ๋ค์ค ํด์๋ ํด์ ํ ์ด๋ธ(multiresolution hash table)์ ๊ธฐ๋ฐ์ผ๋ก ๋น ๋ฅธ ํ์ต๊ณผ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์์ธ ๊ทธ๋ํ(Pose Graph) ์ต์ ํ: ํ์ต๋ ์ ๊ฒฝ์ฅ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด์ ์์ธ๋ฅผ ๋์์ ์ถ์ ํฉ๋๋ค. ์ด๋ SLAM(Simultaneous Localization and Mapping)์ ์๋ฆฌ์ ์ ์ฌํ๊ฒ ์ถ์ (tracking)๊ณผ ๋งคํ(mapping)์ ๋ฒ๊ฐ์ ์ํํ๋ ๋ฐฉ์์ ๋๋ค.
- ํ๋ฐํธ์๋(Frontend): ๋ก๋ด์ RGB-D ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ์๊ฐ ๋ฐ์ดํฐ์ DIGIT ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ป์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ฌ ์ฌ์ธต(depth) ์ธก์ ๊ฐ์ ์ถ์ถํฉ๋๋ค.
- ์๊ฐ ๊น์ด(Visual Depth) ๋ถํ : โSegment Anything Model (SAM)โ [36]๊ณผ ๋ก๋ด์ ์ด๋ํ์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๋ฌผ์ฒด ์ฌ์ธต ํฝ์ ์ ๊ฐ๊ฑดํ๊ฒ ๋ถํ ํฉ๋๋ค. grasp center์ robot kinematics๋ฅผ SAM์ ํ๋กฌํํธ(prompt)๋ก ์ฌ์ฉํ์ฌ, ๋ฌผ์ฒด๊ฐ ๋ก๋ด ์๊ฐ๋ฝ ์ฌ์ด์ ์กด์ฌํ๋ค๋ ๊ฐ์ ์ ํตํด occluded interaction์์๋ ์ ํํ ๋ถํ ์ ์ ๋ํฉ๋๋ค.
- ์ด๊ฐ ํธ๋์คํฌ๋จธ(Tactile Transformer): DIGIT ์ผ์์ RGB ์ด๋ฏธ์ง๋ก๋ถํฐ ์ ์ด ๊น์ด(contact depth)๋ฅผ ์์ธกํฉ๋๋ค. ์ด๋ TACTO [78] ์๋ฎฌ๋ ์ดํฐ์์ ๋๊ท๋ชจ ์ด๊ฐ ์ด๋ฏธ์ง ์ฝํผ์ค(corpus)๋ฅผ ์์ฑํ์ฌ ํ์ต๋ vision transformer [58] ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ค์ธ๊ณ์ ๋ค์ํ DIGIT ์ผ์์ ์ผ๋ฐํ๋๋ฉฐ, Sim-to-Real transfer๋ฅผ ์ํด ์ผ์์ LED ์กฐ๋ช , ์์ ๊น์ด, ํฝ์ ๋ ธ์ด์ฆ ๋ฑ์ ๋ํ ๋ฌด์์ํ(randomization)๋ฅผ ์ ์ฉํฉ๋๋ค.
- ๋ฐฑ์๋(Backend): ํ๋ฐํธ์๋์์ ์ป์ ์ฌ์ธต ์ธก์ ๊ฐ๊ณผ ์ผ์ ์์ธ๋ฅผ ์ด์ฉํ์ฌ ๋ฌผ์ฒด ๋ชจ๋ธ์ ์จ๋ผ์ธ์์ ๊ตฌ์ถํฉ๋๋ค.
- ํ์ ์ต์ ํ๊ธฐ(Shape Optimizer): ์ต์ ํ๋ online learning ์ ๊ทผ๋ฒ [69, 52]์ ๋ฐ๋ฅด๋ฉฐ, ํ์ฌ ์ ๊ฒฝ๋ง ๊ฐ์ค์น \bar{\theta}๋ฅผ ๊ณ ์ ํ๊ณ ์์ธ \bar{\mathbf{x}}_t๋ฅผ ์ด์ฉํ์ฌ ์ ๊ฒฝ์ฅ(neural field)์ ๊ฐ์ค์น \theta๋ฅผ ์ต์ ํํฉ๋๋ค. ์ด๋ ์ผ์ ๊ฐ๊ฒฉ๋ง๋ค ํต์ฌ ํ๋ ์(keyframes) K๋ฅผ ์ ํํ์ฌ ์ํ๋ฉ๋๋ค. SDF ์์ค ํจ์ L_{\text{shape}} = L_f + w_{\text{tr}}L_{\text{tr}}๋ ๋ฌผ์ฒด ํ๋ฉด ๊ทผ์ฒ์ ์ (surface pixels)๊ณผ ์์ ๊ณต๊ฐ(free-space pixels) ๋ชจ๋๋ฅผ ํ์ฉํ๋ฉฐ, ์ ๊ฒฝ๋ง ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. L_f๋ ์์ ๊ณต๊ฐ ํฝ์ ์ ๋ํ ์์ค์ด๊ณ , L_{\text{tr}}์ ์ ๋จ๋ SDF(truncated SDF) ์์ค์ ๋๋ค.
- ์์ธ ์ต์ ํ๊ธฐ(Pose Optimizer): ๊ณ ์ ๋ ์ ๊ฒฝ๋ง ๊ฐ์ค์น \bar{\theta}๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด์ ์์ธ \mathbf{x}_t๋ฅผ ๋ฏธ๋๋ฌ์ง๋ ์ฐฝ(sliding window) ํฌ๊ธฐ n์ ๊ฐ๋ ์์ธ ๊ทธ๋ํ(pose graph) [13]๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ํํฉ๋๋ค. ์ด๋ nonlinear least squares ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํ๋๋ฉฐ, Theus [55]์ LevenbergโMarquardt (LM) solver๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์์ค ํจ์๋ L_{\text{pose}} = w_{\text{sdf}}L_{\text{sdf}} + w_{\text{reg}}L_{\text{reg}} + w_{\text{icp}}L_{\text{icp}}๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- L_{\text{sdf}}: ๊ฐ ๊ด์ (ray)์ ํ๋ฉด์ ์ ๋ํ SDF ์์ค์ ๋๋ค.
- L_{\text{reg}}: ์ฐ์๋ ํต์ฌ ํ๋ ์ ์์ธ ์ฌ์ด์ ์ฝํ ์ ๊ทํ(regularizer) ํญ์ ๋๋ค.
- L_{\text{icp}}: ํ์ฌ ์๊ฐ-์ด๊ฐ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ์ด์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ฌ์ด์ Iterative Closest Point (ICP) ์์ค์ ๋๋ค.
- ํ๋ฐํธ์๋(Frontend): ๋ก๋ด์ RGB-D ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ์๊ฐ ๋ฐ์ดํฐ์ DIGIT ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ป์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ฌ ์ฌ์ธต(depth) ์ธก์ ๊ฐ์ ์ถ์ถํฉ๋๋ค.
๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ํ๊ฒฝ์์ ๋ค์ํ ๋ฌผ์ฒด์ ๋ํ ์ด 70๊ฐ์ง ์คํ์ ํตํด NeuralFeels์ ์ฑ๋ฅ์ ํ๊ฐํ์ต๋๋ค. ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- SLAM ์ฑ๋ฅ (Novel Objects): ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ์ต์ข ์ฌ๊ตฌ์ฑ F-score๋ ํ๊ท 81%๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ์์ธ ๋๋ฆฌํํธ(pose drift)๋ 4.7 mm๋ก ์์ ์ ์ธ ์ถ์ ์ ๋ณด์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์ ์ด๊ฐ ํตํฉ ์ ์ฌ๊ตฌ์ฑ ์ ํ๋๋ 15.3%, ์์ธ ์ถ์ ์ ํ๋๋ 21.3% ํฅ์๋์๊ณ , ์ค์ ํ๊ฒฝ์์๋ ๊ฐ๊ฐ 14.6%์ 26.6% ํฅ์๋์์ต๋๋ค. ํนํ ์๊ฐ ์ ์ฉ(vision-only) ๋ฐฉ์์ ๋นํด ์ถ์ ์คํจ์จ์ด ํฌ๊ฒ ๊ฐ์ํ์ต๋๋ค (์: ์๋ฎฌ๋ ์ด์ ์์ 153ํ ์คํจ, NeuralFeels๋ 5ํ ์คํจ).
- ์์ธ ์ถ์ ์ฑ๋ฅ (Known Objects): CAD ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ, ์ด๊ฐ ํตํฉ์ ์์ธ ์ถ์ ์น๋ฅผ ๋์ฑ ์ ์ ํ์ฌ ํ๊ท ์์ธ ์ค์ฐจ๋ฅผ 2.3 mm๊น์ง ์ค์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ 22.29%, ์ค์ ํ๊ฒฝ์์๋ 3.9%์ ํ๊ท ์์ธ ์ค์ฐจ ๊ฐ์๋ฅผ ๋ณด์์ต๋๋ค.
- ๊ฐ๋ ค์ง ๋ฐ ์ผ์ฑ ๋ ธ์ด์ฆ ํ์ ์ฑ๋ฅ: ์๊ฐ์ ๊ฐ๋ ค์ง์ด ์ฌํ ๊ฒฝ์ฐ ์ด๊ฐ์ ํตํฉ์ ์ถ์ ์ฑ๋ฅ์ ์ต๋ 94%๊น์ง ํฅ์์์ผฐ์ต๋๋ค. ๋ํ, ์๊ฐ ์ฌ์ธต(visual depth) ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๊ฐ ํด ๋๋ ์ด๊ฐ์ ์์ธ ์ถ์ ์ค์ฐจ๋ฅผ ํฌ๊ฒ ์ค์ด๋ ๋ฐ ๊ธฐ์ฌํ์ต๋๋ค.
NeuralFeels๋ ์ํธ์์ฉ์ ํตํด ๊ฒฌ๊ณ ํ ๋ฌผ์ฒด ์ค์ฌ SLAM์ ๋ฌ์ฑํ๋ฉฐ, ํ๋ถํ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์๊ฐ ์ ์ฉ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค. ์ด๊ฐ์ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ํ๋ฐํธ์๋ ์ถ์ ์น๋ฅผ ๋ช ํํ๊ฒ ํ๊ณ , ๊ฐ๋ ค์ง ์ํฉ์์ ์ค์ํ ์ ๋ณด๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ์ฌ๊ตฌ์ฑ ์์ฑ๋์ ์ ๋ฐ๋๋ฅผ ํฅ์์ํต๋๋ค. ์ด๋ ์๊ฐ๊ณผ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ์๋ณด์ (complementary) ํน์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ์จ๋ผ์ธ ํ์ต๊ณผ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ชจ๋์ ๊ฒฐํฉ์ด ์ ์ ํ๋ จ ๋ฐ์ดํฐ์๋ ๋ถ๊ตฌํ๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
2 ๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
2.1 ์๋ก : ์ ๋ก๋ด์ ์์ง๋ ๋ฌผ๊ฑด์ ์ ๋๋ก ๋ง์ง์ง ๋ชปํ ๊น?
2.1.1 ๋ฌธ์ ์ ๋ณธ์ง
์ฌ๋ฌ๋ถ, ์ ๊น ๋์ ๊ฐ๊ณ ์ฃผ๋จธ๋ ์ ์ด์ ๋ฅผ ๊บผ๋ด๋ณด์ธ์. ๋๋์ง ์๋์? ๋ณด์ง๋ ์๊ณ , ์์ญ ๊ฐ์ ๋ฌผ๊ฑด ์ค์์ ์ ํํ ์ด์ ๋ฅผ ์ฐพ์ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋๋ ค ๊บผ๋์ต๋๋ค. ์ด ๊ณผ์ ์์ ์ฐ๋ฆฌ ์๊ฐ๋ฝ์ ๋์์์ด ๋ฌผ์ฒด์ ํํ, ์์น, ๋ฐฉํฅ์ โ๋๋ผ๋ฉฐโ ํ์ ํฉ๋๋ค.
Richard Feynman์ด ๋ฌผ๋ฆฌํ์ ์ค๋ช ํ ๋ ์์ฃผ ํ๋ ์ง๋ฌธ์ ๋น๋ฆฌ์๋ฉด: โ๋ก๋ด์ ์ ์ด๊ฑธ ๋ชปํ ๊น?โ
๋ฌธ์ ์ ํต์ฌ์ ๋จ์ํฉ๋๋ค:
- ์๊ฐ์ ํ๊ณ: ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก์ผ๋ฉด, ์ ์ ์ค์ํ ๋ถ๋ถ(๋ฌผ์ฒด์ ์๊ฐ๋ฝ์ด ๋ง๋๋ ๊ณณ)์ด ์๊ฐ๋ฝ์ ๊ฐ๋ ค์ ๋ณด์ด์ง ์์ต๋๋ค.
- ์ฌ์ ์ง์์ ์๊ตฌ: ํ์ฌ ๋๋ถ๋ถ์ ์กฐ์ ์์คํ ์ ๋ฏธ๋ฆฌ ์๊ณ ์๋ ๋ฌผ์ฒด(CAD ๋ชจ๋ธ)๋ง ๋ค๋ฃฐ ์ ์์ต๋๋ค.
- ๋จ์ผ ๊ฐ๊ฐ ์์กด: ์๊ฐ OR ์ด๊ฐ, ๋ ์ค ํ๋๋ง ์ฌ์ฉํ๋ ์์คํ ์ด ๋๋ถ๋ถ์ ๋๋ค.
2.1.2 NeuralFeels์ ๋ฑ์ฅ
Meta AI(FAIR), CMU, UC Berkeley์ ์ฐ๊ตฌํ์ด ๋ฐํํ NeuralFeels๋ ์ด ๋ฌธ์ ์ ๋ํ ์ฐ์ํ ํด๋ต์ ์ ์ํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๋๋๋๋ก ์ง๊ด์ ์ ๋๋ค:
โ์ธ๊ฐ์ฒ๋ผ ์๊ฐ๊ณผ ์ด๊ฐ์ ๋์์ ์ฌ์ฉํ๊ณ , ๋ฏธ์ง์ ๋ฌผ์ฒด๋ ๋ง์ง๋ฉด์ ๋ฐฐ์ฐ์โ
์ด ๋ ผ๋ฌธ์ Science Robotics(2024)์ ๊ฒ์ฌ๋์์ผ๋ฉฐ, ๋ก๋ด ์์ด ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ํ์ ์ํค๋ฉด์ ๋์์ ๊ทธ ๋ฌผ์ฒด์:
- 6-DoF ์์ธ(Pose) ์ถ์
- 3D ํ์(Shape) ๋ณต์
์ ์ํํ๋ ์์คํ ์ ์ ์ํฉ๋๋ค. ๊ทธ๊ฒ๋ ์จ๋ผ์ธ, ์ค์๊ฐ์ผ๋ก ๋ง์ด์ฃ .
2.1.3 ํต์ฌ ๊ธฐ์ฌ ์์ฝ
| ๊ธฐ์ฌ ์์ญ | ๊ตฌ์ฒด์ ๋ด์ฉ |
|---|---|
| ์์คํ | ์๊ฐ-์ด๊ฐ-๊ณ ์ ์์ฉ๊ฐ๊ฐ์ ์ตํฉํ Object-centric SLAM |
| ํํ | Neural SDF๋ฅผ ์จ๋ผ์ธ์ผ๋ก ํ์ตํ์ฌ ๋ฌผ์ฒด ํ์ ์ธ์ฝ๋ฉ |
| ์๊ณ ๋ฆฌ์ฆ | Pose Graph ์ต์ ํ๋ฅผ ํตํ ๋์ ํ์-์์ธ ์ถ์ |
| ํ์ต | ์๋ฎฌ๋ ์ด์ ์ ์ฉ ํ์ต์ผ๋ก ์ค์ ์ผ์์ ์ผ๋ฐํ๋๋ Tactile Transformer |
| ๋ฐ์ดํฐ์ | 70๊ฐ ์คํ ์ํ์ค์ FeelSight ๋ฒค์น๋งํฌ ๊ณต๊ฐ |
2.2 ๋ฐฐ๊ฒฝ ์ด๋ก : Neural Field๋ ๋ฌด์์ธ๊ฐ?
NeuralFeels๋ฅผ ์ดํดํ๋ ค๋ฉด ๋จผ์ Neural Field(์ ๊ฒฝ์ฅ)๋ผ๋ ๊ฐ๋ ์ ์์์ผ ํฉ๋๋ค. ๊ฑฑ์ ๋ง์ธ์, ์๊ฐ๋ณด๋ค ์ง๊ด์ ์ ๋๋ค.
2.2.1 Signed Distance Function (SDF)์ ์ง๊ด
3D ๊ณต๊ฐ์ ์ด๋ค ์ \mathbf{x} = (x, y, z)๊ฐ ์ฃผ์ด์ก์ ๋, ๊ทธ ์ ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฌผ์ฒด ํ๋ฉด๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ฐํํ๋ ํจ์๋ฅผ ์๊ฐํด๋ด ์๋ค:
\text{SDF}(\mathbf{x}) = \begin{cases} d > 0 & \text{๋ฌผ์ฒด ๋ฐ๊นฅ (๊ฑฐ๋ฆฌ } d \text{)} \\ 0 & \text{๋ฌผ์ฒด ํ๋ฉด ์} \\ d < 0 & \text{๋ฌผ์ฒด ๋ด๋ถ (๊ฑฐ๋ฆฌ } -d \text{)} \end{cases}
๋ง์น ์งํ๋์์ ๋ฑ๊ณ ์ ์ ๋ณด๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. SDF ๊ฐ์ด 0์ธ ๋ฑ์๋ฉด(level set)์ด ๋ฐ๋ก ๋ฌผ์ฒด์ ํ๋ฉด์ ๋๋ค.
2.2.2 Neural SDF: MLP๋ก SDF ํ์ตํ๊ธฐ
์ ํต์ ์ผ๋ก SDF๋ Voxel Grid์ ์ ์ฅํ์ต๋๋ค. ํ์ง๋ง ํด์๋๋ฅผ ๋์ด๋ฉด ๋ฉ๋ชจ๋ฆฌ๊ฐ O(N^3)๋ก ํญ๋ฐํฉ๋๋ค.
Neural SDF๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ทจํฉ๋๋ค:
f_\theta : \mathbb{R}^3 \rightarrow \mathbb{R}
์์ ์ ๊ฒฝ๋ง f_\theta๊ฐ ์ขํ \mathbf{x}๋ฅผ ์ ๋ ฅ๋ฐ์ SDF ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค. ์ด ์ ๊ฒฝ๋ง์ ๊ฐ์ค์น \theta๊ฐ ๊ณง ๋ฌผ์ฒด์ ํ์์ ์ธ์ฝ๋ฉํฉ๋๋ค.
2.2.3 Instant-NGP: ์ ๋น ๋ฅธ๊ฐ?
NeuralFeels๊ฐ ์ค์๊ฐ์ผ๋ก ๋์ํ ์ ์๋ ํต์ฌ ๋น๋ฐ์ NVIDIA์ Instant-NGP ์ํคํ ์ฒ์ ๋๋ค.
2.2.3.1 Multi-Resolution Hash Encoding
์ผ๋ฐ MLP๋ ๊ณ ์ฃผํ ๋ํ ์ผ์ ํ์ตํ๊ธฐ ์ด๋ ต์ต๋๋ค. Positional Encoding(Fourier Features)์ ์ฐ๋ฉด ๋์ง๋ง, ํ์ต์ด ๋๋ฆฝ๋๋ค.
Instant-NGP์ ํด๋ฒ:
์
๋ ฅ ์ขํ x โ [ํด์ ํ
์ด๋ธ ์กฐํ] โ ๋คํด์๋ ํน์ง ๋ฒกํฐ โ ์์ MLP โ SDF ๊ฐ
์ ํต์ ์ธ MLP๊ฐ โ์ฑ ๋ด์ฉ์ ๋ชจ๋ ์๊ธฐํ๋ ๊ฒโ์ด๋ผ๋ฉด, Instant-NGP๋ โ์์ธํ(ํด์ ํ ์ด๋ธ)๋ฅผ ๋ง๋ค์ด ํ์ํ ํ์ด์ง๋ง ๋น ๋ฅด๊ฒ ์ฐพ๋ ๊ฒโ์ ๋๋ค.
๋คํด์๋ ๊ทธ๋ฆฌ๋๋ฅผ ํด์ ํ ์ด๋ธ์ ์ ์ฅํ๊ณ , ๊ฐ ํด์๋์์ ํน์ง ๋ฒกํฐ๋ฅผ ๋ณด๊ฐ(interpolate)ํ์ฌ ์ฐ๊ฒฐํฉ๋๋ค. ์ด๋ฅผ ํตํด:
- ํ์ต ์๋: ์์ญ ์ด ๋ง์ ๊ณ ํ์ง SDF ํ์ต
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ: ํด์ ์ถฉ๋์ ํ์ฉํ๋, ๋คํด์๋ ๊ตฌ์กฐ๊ฐ ๋ชจํธ์ฑ์ ํด์
- ์ฟผ๋ฆฌ ์๋: ์๋ฐฑ ms ๋ง์ ๋ฉ์ฌ ์ถ์ถ
2.3 ๋ฐฉ๋ฒ๋ก : NeuralFeels ํ์ดํ๋ผ์ธ ์์ธ ๋ถ์
2.3.1 ์ ์ฒด ์์คํ ์ํคํ ์ฒ
์์คํ ์ ํฌ๊ฒ ํ๋ก ํธ์๋์ ๋ฐฑ์๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ง์น ์ ํต์ ์ธ Visual SLAM ์์คํ ๊ณผ ์ ์ฌํ์ง๋ง, ์ด๊ฐ ์ ๋ณด๊ฐ ์ถ๊ฐ๋์์ต๋๋ค.
2.3.2 ํ๋ก ํธ์๋: ์ผ์ ๋ฐ์ดํฐ๋ฅผ ๊น์ด ๋งต์ผ๋ก
2.3.2.1 ์๊ฐ ์ฒ๋ฆฌ: SAM + Embodied Prompts
๋ฌผ์ฒด๊ฐ ์์ ๊ฐ๋ ค์ง ์ํฉ์์ ์ด๋ป๊ฒ ๋ฌผ์ฒด ์์ญ์ ์ธ๊ทธ๋ฉํ ์ด์ ํ ๊น์?
NeuralFeels๋ Segment Anything Model (SAM)์ ํ์ฉํ๋, โEmbodied Promptsโ๋ผ๋ ์๋ฆฌํ ํธ๋ฆญ์ ์๋๋ค:
- Forward Kinematics๋ก ๊ฐ ์๊ฐ๋ฝ ๋(์ด๊ฐ ์ผ์)์ 3D ์์น ๊ณ์ฐ
- ์ด ์์น๋ค์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์ ํฌ์
- ํฌ์๋ ์ ๋ค์ SAM์ ํฌ์ธํธ ํ๋กฌํํธ๋ก ์ฌ์ฉ
- ๊ทธ๋ฆฝ ์ค์ฌ๋ ์ถ๊ฐํ์ฌ โ์ด ์ ๋ค ์ฃผ๋ณ์ด ๋ฌผ์ฒด๋คโ๋ผ๊ณ ์๋ด
\mathbf{p}_i^{\text{2D}} = \mathbf{K} \cdot \mathbf{T}_{c \leftarrow h} \cdot \text{FK}(q_t, i)
์ฌ๊ธฐ์:
- \mathbf{K}: ์นด๋ฉ๋ผ ๋ด๋ถ ํ๋ผ๋ฏธํฐ
- \mathbf{T}_{c \leftarrow h}: ํธ๋โ์นด๋ฉ๋ผ ๋ณํ
- \text{FK}(q_t, i): i๋ฒ์งธ ์๊ฐ๋ฝ ๋์ 3D ์์น
2.3.2.2 ์ด๊ฐ ์ฒ๋ฆฌ: Tactile Transformer
DIGIT ์ผ์๋ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ๋๋ค. ํฌ๋ช ํ ์ ค ํจ๋ ๋ค์ ์นด๋ฉ๋ผ๊ฐ ์์ด์ ๋ณํ์ โ๋ณด๋โ ๋ฐฉ์์ ๋๋ค.
๋ฌธ์ ๋: ์ด RGB ์ด๋ฏธ์ง์์ ์ ์ด ๊น์ด๋ฅผ ์ด๋ป๊ฒ ์ถ์ ํ ๊ฒ์ธ๊ฐ?
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ Photometric Stereo๋ CNN์ ์ฌ์ฉํ์ต๋๋ค. NeuralFeels๋ Vision Transformer (ViT) ์ํคํ ์ฒ๋ฅผ ์ฑํํฉ๋๋ค:
flowchart LR
subgraph Input["์
๋ ฅ"]
IMG["DIGIT RGB ์ด๋ฏธ์ง<br/>(240ร320)"]
end
subgraph Encoder["ViT ์ธ์ฝ๋"]
PATCH["ํจ์น ์๋ฒ ๋ฉ<br/>16ร16 patches"]
TRANS["Transformer Blocks<br/>12 layers"]
end
subgraph Decoder["๋์ฝ๋"]
REASSEMBLE["Feature Reassembly"]
FUSION["Multi-scale Fusion"]
end
subgraph Output["์ถ๋ ฅ"]
DEPTH["์ ์ด ๊น์ด ๋งต"]
MASK["์ ์ด ๋ง์คํฌ"]
end
IMG --> PATCH --> TRANS --> REASSEMBLE --> FUSION --> DEPTH
FUSION --> MASK
style Encoder fill:#e3f2fd
style Decoder fill:#fce4ec
ํต์ฌ ์ค๊ณ ๊ฒฐ์ :
| ์์ | ์ ํ | ์ด์ |
|---|---|---|
| ์ํคํ ์ฒ | Dense ViT (DPT ๊ธฐ๋ฐ) | ๊ณ ํด์๋ ๊น์ด ์์ธก์ ์ฐ์ |
| ํ์ต ๋ฐ์ดํฐ | TACTO ์๋ฎฌ๋ ์ดํฐ | 40๊ฐ YCB ๋ฌผ์ฒด ร 10,000 ์ ์ด |
| ๋๋ฉ์ธ ์ ์ | ๋๋คํ (LED, ๊น์ด, ๋ ธ์ด์ฆ) | Sim-to-Real ์ ์ด |
| ํ๋ผ๋ฏธํฐ ์ | 21.7M | ๊ฒฝ๋ํ (CNN ๋๋น) |
์์ค ํจ์:
\mathcal{L}_{\text{tactile}} = \frac{1}{N} \sum_{i} \| \hat{D}_i - D_i^{\text{GT}} \|_2^2
2.3.3 ๋ฐฑ์๋: Neural SLAM
๋ฐฑ์๋๋ ๋ ๊ฐ์ง ์ต์ ํ๋ฅผ ๊ต๋๋ก ์ํํฉ๋๋ค:
- Map Optimizer: Neural SDF ๊ฐ์ค์น \theta ์ ๋ฐ์ดํธ
- Pose Optimizer: ๋ฌผ์ฒด ์์ธ \{x_t\} ์ ๋ฐ์ดํธ
์ด๋ EM ์๊ณ ๋ฆฌ์ฆ์ ์ ์ ๊ณผ ์ ์ฌํฉ๋๋ค: โํ์์ ์๋ฉด ์์ธ๋ฅผ ์ถ์ ํ๊ธฐ ์ฝ๊ณ , ์์ธ๋ฅผ ์๋ฉด ํ์์ ์ถ์ ํ๊ธฐ ์ฝ๋ค.โ
2.3.3.1 Map Optimizer: SDF ํ์ต
๊ฐ ํ๋ ์์์ ์๊ฐ+์ด๊ฐ ๊น์ด ๋งต์ด ๋ค์ด์ค๋ฉด:
- ๊น์ด ํฝ์ ์ 3D ํฌ์ธํธ๋ก ๋ฐฑํ๋ก์ ์
- ๋ฌผ์ฒด ์ขํ๊ณ๋ก ๋ณํ (ํ์ฌ ์์ธ ์ถ์ ์น \hat{x}_t ์ฌ์ฉ)
- ์นด๋ฉ๋ผ ๊ด์ ์ ๋ฐ๋ผ ์ํ๋ง
- Truncated SDF ์์ค๋ก Neural SDF ํ์ต
SDF ์์ค ํจ์:
๊ด์ \mathbf{r}(u) = \mathbf{o} + u \cdot \mathbf{d} ์์ ์ํ \mathbf{p}์ ๋ํด:
\mathcal{L}_{\text{SDF}}(\theta) = \begin{cases} |f_\theta(\mathbf{p}) - d_{\text{surf}}| & \text{if } |d_{\text{surf}}| < \tau \\ \text{free-space loss} & \text{otherwise} \end{cases}
์ฌ๊ธฐ์ d_{\text{surf}}๋ ํ๋ฉด๊น์ง์ ์ค์ ๊ฑฐ๋ฆฌ, \tau๋ truncation ๊ฑฐ๋ฆฌ์ ๋๋ค.
Keyframe ๊ธฐ๋ฐ ํ์ต:
๋ฉ๋ชจ๋ฆฌ ํจ์จ๊ณผ Catastrophic Forgetting ๋ฐฉ์ง๋ฅผ ์ํด:
- ์ต๊ทผ K๊ฐ์ ํคํ๋ ์ ์ ์ง
- ๊ฐ ์ต์ ํ ์คํ ์์ ํ์ฌ ํ๋ ์ + ๊ณผ๊ฑฐ ํคํ๋ ์ ๋ฆฌํ๋ ์ด
2.3.3.2 Pose Optimizer: Factor Graph
์์ธ ์ถ์ ์ ๋น์ ํ ์ต์์ ๊ณฑ ๋ฌธ์ ๋ก ์ ์ํ๋ฉ๋๋ค:
x_t^* = \arg\min_{x_t} \sum_k \mathcal{L}_k(x_t)
Factor๋ค:
graph LR
subgraph Factors["Factor Types"]
SDF_F["๐ต SDF Factor<br/>Point-to-SDF ์ ๋ ฌ"]
ICP_F["๐ข ICP Factor<br/>ํ๋ ์๊ฐ ์ ํฉ"]
REG_F["๐ก Regularization<br/>์์ธ ์์ ํ"]
end
subgraph Graph["Factor Graph"]
X1((xโ)) --- X2((xโ)) --- X3((xโ)) --- X4((xโ))
end
SDF_F --> Graph
ICP_F --> Graph
REG_F --> Graph
1. SDF Factor (Point-to-SDF):
\mathcal{L}_{\text{sdf}}(x_t) = \sum_{\mathbf{p} \in \mathcal{P}_t} \rho\left( f_\theta(x_t^{-1} \cdot \mathbf{p}) \right)
ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ํ์ฌ ์์ธ๋ก ๋ณํํ ๋ค, Neural SDF ๊ฐ์ด 0์ ๊ฐ๊น์์ผ ํฉ๋๋ค (ํ๋ฉด ์์ ์์ด์ผ ํจ).
2. ICP Factor (Frame-to-Frame):
\mathcal{L}_{\text{icp}}(x_t, x_{t-1}) = \| (x_{t-1}^{-1} \cdot x_t) \ominus \Delta T_{\text{ICP}} \|^2
์ธ์ ํ๋ ์ ๊ฐ์ ์๋ ๋ณํ์ด ICP๋ก ์ถ์ ํ ๋ณํ๊ณผ ์ผ์นํด์ผ ํฉ๋๋ค.
3. Regularization Factor:
\mathcal{L}_{\text{reg}}(x_t, x_{t-1}) = \| x_t \ominus x_{t-1} \|^2_\Sigma
๊ธ๊ฒฉํ ์์ธ ๋ณํ๋ฅผ ์ต์ ํฉ๋๋ค.
Sliding Window ์ต์ ํ:
์ ์ฒด ํธ๋์ ํ ๋ฆฌ๋ฅผ ์ต์ ํํ๋ฉด ๊ณ์ฐ๋์ด ์ ํ ์ฆ๊ฐํฉ๋๋ค. ๋์ :
- ์ต๊ทผ W๊ฐ ํ๋ ์๋ง ํ์ฑ ์๋์ฐ๋ก ์ ์ง
- Theseus (PyTorch ๊ธฐ๋ฐ ๋น์ ํ ์ต์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ) ์ฌ์ฉ
- ๋ฏธ๋ถ ๊ฐ๋ฅํ์ฌ End-to-End ํ์ต ๊ฐ๋ฅ (๋ฏธ๋ ์ฐ๊ตฌ)
2.4 ์คํ ์ค์ ๋ฐ ํ๋์จ์ด
2.4.1 ๋ก๋ด ํ๋ซํผ
| ๊ตฌ์ฑ์์ | ์ฌ์ |
|---|---|
| ๋งค๋ํฐ๋ ์ดํฐ | Franka Panda 7-DoF |
| ํธ๋ | Allegro Hand (16-DoF, 4์๊ฐ๋ฝ) |
| ์ด๊ฐ ์ผ์ | DIGIT ร 4 (๊ฐ ์๊ฐ๋ฝ ๋) |
| ์๊ฐ ์ผ์ | Intel RealSense D435 RGB-D |
| GPU | NVIDIA RTX 3090/4090 |
2.4.2 DIGIT ์ด๊ฐ ์ผ์
DIGIT์ Meta์์ ๊ฐ๋ฐํ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ๋๋ค:
- ํด์๋: 240 ร 320 RGB
- ํ๋ ์๋ ์ดํธ: 30 Hz
- ์๋ฆฌ: ์ ค ํจ๋ ๋ณํ์ ๋ด์ฅ ์นด๋ฉ๋ผ๋ก ์ดฌ์
- ์ฅ์ : ์ ๋ ด($50), ๊ณ ํด์๋, ๊ต์ฒด ๊ฐ๋ฅ
2.4.3 FeelSight ๋ฐ์ดํฐ์
์ฐ๊ตฌํ์ ๋ฒค์น๋งํน์ ์ํด FeelSight ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ต๋๋ค:
| ํญ๋ชฉ | ์๋ |
|---|---|
| ์ด ์ํ์ค | 70๊ฐ |
| ์๋ฎฌ๋ ์ด์ | 35๊ฐ (Isaac Gym + TACTO) |
| ์ค์ ํ๊ฒฝ | 35๊ฐ |
| ๋ฌผ์ฒด ์ข ๋ฅ | 14๊ฐ (YCB, ContactDB ๋ฑ) |
| ์ํ์ค ๊ธธ์ด | 30์ด/์ํ์ค |
| Ground Truth | ๋ค์ค ์นด๋ฉ๋ผ ์ถ์ |
2.4.4 ์กฐ์ ์ ์ฑ
๋ฌผ์ฒด ํ์ ์ ์ํด HORA (Haozhi Qi et al.) ์ ์ฑ ์ ์ฌ์ฉํฉ๋๋ค:
- ๊ณ ์ ์์ฉ๊ฐ๊ฐ(proprioception) ๊ธฐ๋ฐ
- Isaac Gym์์ ๊ฐํํ์ต์ผ๋ก ํ์ต
- Sim-to-Real ์ ์ด ์ฑ๊ณต
2.5 ์คํ ๊ฒฐ๊ณผ ๋ฐ ๋ถ์
2.5.1 ํ๊ฐ ์งํ
์์ธ ์ถ์ :
- ADD-S: Symmetric Average Distance (mm)
\text{ADD-S} = \frac{1}{|\mathcal{M}|} \sum_{\mathbf{p} \in \mathcal{M}} \min_{\mathbf{q} \in \mathcal{M}} \| (R\mathbf{p} + t) - \mathbf{q} \|
ํ์ ๋ณต์:
- F-Score: Precision๊ณผ Recall์ ์กฐํํ๊ท (threshold = 5mm)
\text{F-Score} = \frac{2 \cdot P \cdot R}{P + R}
2.5.2 ์ ๋์ ๊ฒฐ๊ณผ
2.5.2.1 ํ์ ๋ณต์ (SLAM ๋ชจ๋)
| ํ๊ฒฝ | Modality | F-Score (%) | ์ค์ ์ค์ฐจ (mm) |
|---|---|---|---|
| ์๋ฎฌ๋ ์ด์ | Vision Only | 73.2 | 2.8 |
| ์๋ฎฌ๋ ์ด์ | Vision+Tactile | 81.4 | 2.1 |
| ์ค์ | Vision Only | 62.1 | 4.2 |
| ์ค์ | Vision+Tactile | 74.8 | 3.9 |
์ด๊ฐ ์ถ๊ฐ ์ ์๋ฎฌ๋ ์ด์ ์์ 11%, ์ค์ ํ๊ฒฝ์์ 20% F-Score ๊ฐ์
2.5.2.2 ์์ธ ์ถ์ (Known Shape)
CAD ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ์ ์์ ์ถ์ ์ฑ๋ฅ:
| ํ๊ฒฝ | Modality | ADD-S (mm) | ๊ฐ์ ์จ |
|---|---|---|---|
| ์๋ฎฌ๋ ์ด์ | Vision Only | 3.2 | - |
| ์๋ฎฌ๋ ์ด์ | Vision+Tactile | 2.3 | 28% โ |
| ์ค์ | Vision Only | 5.8 | - |
| ์ค์ | Vision+Tactile | 4.7 | 19% โ |
2.5.2.3 ํ์(Occlusion) ๊ฐ๊ฑด์ฑ
๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒฐ๊ณผ์ ๋๋ค. ์นด๋ฉ๋ผ ์์ ์ ๊ตฌ๋ฉด(sphere) ์์์ ๋ณํ์ํค๋ฉฐ ํ์ ์ ๋์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ์ธก์ :
| ํ์ ์์ค | Vision Only | Vision+Tactile | ๊ฐ์ ์จ |
|---|---|---|---|
| ๊ฒฝ๋ฏธ (0-30%) | 4.1 mm | 3.8 mm | 7% |
| ์ค๊ฐ (30-60%) | 8.2 mm | 5.1 mm | 38% |
| ์ฌ๊ฐ (60-90%) | 22.4 mm | 6.2 mm | 72% |
| ๊ทน์ฌ (90%+) | ์คํจ | 12.1 mm | 94% |
โTouch, at the very least, refines and, at the very best, disambiguates visual estimates.โ
2.5.3 ์ ์ฑ์ ๋ถ์
2.5.3.1 ์๊ฐ vs ์ด๊ฐ์ ์๋ณด์ฑ
flowchart LR
subgraph Vision["๐๏ธ ์๊ฐ"]
V1["โ
์ ์ญ ํ์ ํ์
"]
V2["โ
๋จผ ๊ฑฐ๋ฆฌ์์๋ ๋์"]
V3["โ ํ์์ ์ทจ์ฝ"]
V4["โ ์ ์ด๋ฉด ์ ๋ณด ์์"]
end
subgraph Tactile["๐๏ธ ์ด๊ฐ"]
T1["โ
ํ์ ๋ฌด๊ด"]
T2["โ
๊ณ ํด์๋ ์ ์ด ์ง์ค๋ฉํธ๋ฆฌ"]
T3["โ ์ง์ญ์ ์ ๋ณด๋ง"]
T4["โ ์ ์ด ์์๋ง ๋์"]
end
subgraph Fusion["๐ ์ตํฉ ์๋์ง"]
F1["์ ์ญ + ์ง์ญ ์ ๋ณด"]
F2["ํ์ ๊ฐ๊ฑด์ฑ"]
F3["์ ๋ฐํ ์ ์ด๋ฉด ๋ชจ๋ธ๋ง"]
end
Vision --> Fusion
Tactile --> Fusion
2.5.3.2 ์คํจ ์ฌ๋ก ๋ถ์
์ฐ๊ตฌํ์ ์์งํ๊ฒ ํ๊ณ๋ฅผ ์ธ์ ํฉ๋๋ค:
- ์ด๊ธฐ ์๋ ด ์คํจ: ์ฒ์ ๋ช ์ด๊ฐ Neural SDF๊ฐ ๋ถ์์ ํ ๋ ์ถ์ ์คํจ ๊ฐ๋ฅ
- ๊ธ๊ฒฉํ ํ์ : ํ๋ ์ ๊ฐ ๋ณํ๊ฐ ๋๋ฌด ํฌ๋ฉด ICP ์คํจ
- ํฌ๋ช /๋ฐ์ฌ ๋ฌผ์ฒด: DIGIT ์ผ์์ ๊ดํ์ ํ๊ณ
- ๋งค์ฐ ์์ ๋ฌผ์ฒด: ์ด๊ฐ ํด์๋ ํ๊ณ
2.6 ๊ธฐ์ ์ ์ฌํ: ์ํ์ ๋ฐฐ๊ฒฝ
2.6.1 Lie Group SE(3)์์์ ์์ธ ํํ
๋ก๋ด ์์ธ๋ฅผ ๋ค๋ฃจ๋ ค๋ฉด SE(3) (Special Euclidean group)์ ์ดํดํด์ผ ํฉ๋๋ค.
\text{SE}(3) = \left\{ \begin{pmatrix} R & t \\ 0 & 1 \end{pmatrix} \mid R \in \text{SO}(3), t \in \mathbb{R}^3 \right\}
์ Lie Group์ธ๊ฐ?
- ํ์ ํ๋ ฌ์ ์ง์ ์ต์ ํ๋ ์ ์ฝ ์กฐ๊ฑด(์ ๊ท์ง๊ต์ฑ)์ด ๋ณต์ก
- Lie Algebra \mathfrak{se}(3)๋ก ๋งคํํ๋ฉด ๋ฌด์ ์ฝ ์ต์ ํ ๊ฐ๋ฅ
- ๋ฏธ๋ถ๊ณผ ๋ณด๊ฐ์ด ์์ฐ์ค๋ฌ์
Exponential/Logarithmic Map:
\exp: \mathfrak{se}(3) \rightarrow \text{SE}(3), \quad \log: \text{SE}(3) \rightarrow \mathfrak{se}(3)
NeuralFeels์ Pose Graph์์ x_t \ominus x_{t-1}๋ ๋ฐ๋ก ์ด Logarithmic map์ ์๋ฏธํฉ๋๋ค:
x_t \ominus x_{t-1} = \log(x_{t-1}^{-1} \cdot x_t)
2.6.2 Truncated SDF (TSDF) vs Neural SDF
TSDF (์ ํต์ ):
\text{TSDF}(\mathbf{x}) = \text{clamp}\left( \frac{d(\mathbf{x})}{\tau}, -1, 1 \right)
- Voxel Grid์ ์ ์ฅ
- O(N^3) ๋ฉ๋ชจ๋ฆฌ
- ํด์๋ ์ ํ
Neural SDF (NeuralFeels):
f_\theta(\mathbf{x}) \approx \text{SDF}(\mathbf{x})
- ์ ๊ฒฝ๋ง ๊ฐ์ค์น์ ์๋ฌต์ ์ ์ฅ
- ์ฐ์์ , ๋ฏธ๋ถ ๊ฐ๋ฅ
- ์ ์์ ํด์๋ (Instant-NGP)
2.6.3 Sim-to-Real Transfer์ ํต์ฌ
Tactile Transformer๊ฐ ์๋ฎฌ๋ ์ด์ ์์๋ง ํ์ตํ๋๋ฐ ์ค์ ์ผ์์์ ๋์ํ๋ ์ด์ :
Domain Randomization ์ ๋ต:
| ์์ | ๋๋คํ ๋ฒ์ |
|---|---|
| LED ์์จ๋ | ยฑ20% |
| ์ ค ํจ๋ ๊ตด์ ๋ฅ | ยฑ5% |
| ์ ์ด ๊น์ด | 0.5-3mm |
| ์นด๋ฉ๋ผ ๋ ธ์ด์ฆ | Gaussian + Salt&Pepper |
| ๋ฐฐ๊ฒฝ ํ ์ค์ฒ | ์ค์ DIGIT ๋น์ ์ด ์ด๋ฏธ์ง ํฉ์ฑ |
์ค์ DIGIT ์ผ์์ โ๋น์ ์ดโ ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง๋ฅผ ์๋ฎฌ๋ ์ด์ ์ ํฉ์ฑํ์ฌ ์ผ์๋ณ ๊ดํ ํน์ฑ ์ฐจ์ด๋ฅผ ํก์
2.7 ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
2.7.1 ์๊ฐ-์ด๊ฐ SLAM ๊ณ๋ณด
์๊ฐ-์ด๊ฐ ์ธ์ง ์ฐ๊ตฌ ๋ฐ์ ํ์๋ผ์ธ:
| ์ฐ๋ | ์ฐ๊ตฌ | ๋ด์ฉ |
|---|---|---|
| 2000s | Moll & Erdmann | ์๋ฐ๋ฅ ๊ตด๋ฆฌ๊ธฐ ํ์ ๋ณต์ |
| 2015 | GelSight ๋ฑ์ฅ | ๊ณ ํด์๋ ์ด๊ฐ ์ด๋ฏธ์ง |
| 2019 | DIGIT ์ผ์ | ์ ๊ฐ/์ํํ |
| 2020 | Bauza et al. | ์ด๊ฐ SLAM ๋ฐ๋ชจ |
| 2022 | iSDF | ์ค์๊ฐ Neural SDF |
| 2023 | FingerSLAM | ๋จ์ผ ์๊ฐ๋ฝ SLAM |
| 2024 | NeuralFeels | ๋ค์๊ฐ๋ฝ ์๊ฐ-์ด๊ฐ ์ตํฉ |
2.7.2 ์ฃผ์ ๋น๊ต ๋์
| ์ฐ๊ตฌ | ์๊ฐ | ์ด๊ฐ | ์จ๋ผ์ธ | Unknown Object | Multi-finger |
|---|---|---|---|---|---|
| FingerSLAM | โ | โ | โ | โ | โ |
| Bauza et al. | โ | โ | โ | โ | โ |
| BundleSDF | โ | โ | โ | โ | N/A |
| NeuralFeels | โ | โ | โ | โ | โ |
FingerSLAM๊ณผ์ ์ฐจ์ด์ :
- FingerSLAM: ๋จ์ผ ์ด๊ฐ ์ผ์, ๋ฌผ์ฒด๊ฐ ํญ์ ์ ์ด ์ ์ง
- NeuralFeels: 4๊ฐ ์๊ฐ๋ฝ, ๊ฐํ์ ์ ์ด, ๋ ํ์ค์ ์ธ ์กฐ์ ์๋๋ฆฌ์ค
2.8 ๋นํ์ ๊ณ ์ฐฐ
2.8.1 ๊ฐ์
- ์์ ํ ์์คํ : ์ผ์ โ ์ฒ๋ฆฌ โ ์ถ๋ ฅ๊น์ง End-to-End
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋ฏธ์ง์ ๋ฌผ์ฒด์์๋ ๋์
- ํด์ ๊ฐ๋ฅ์ฑ: Neural SDF๊ฐ ๋ช ์์ 3D ํํ ์ ๊ณต (vs ๋ธ๋๋ฐ์ค End-to-End)
- ์ฌํ ๊ฐ๋ฅ์ฑ: ์ฝ๋, ๋ฐ์ดํฐ์ , ๋ชจ๋ธ ๊ณต๊ฐ
- ์ค์ฉ์ ํ๋์จ์ด: ์์ฉ ์ผ์ ์ฌ์ฉ (DIGIT, RealSense)
2.8.2 ์ฝ์ ๋ฐ ํ๊ณ
2.8.2.1 ๊ธฐ์ ์ ํ๊ณ
- ์ฒ๋ฆฌ ์๋: 1-5 Hz (์ค์๊ฐ์ด๋ผ ํ๊ธฐ์ ๋๋ฆผ)
- ์ด๊ธฐ ์๋ ด ๋ฌธ์ : ์ฒ์ ๋ช ์ด๊ฐ ๋ถ์์
- ๋ฒ์ฉ์ฑ: ํ์ฌ in-hand rotation๋ง ๋ฐ๋ชจ (๋ค๋ฅธ ์กฐ์ ํ ์คํธ ๋ถ์กฑ)
- ์ผ์ ์์กด์ฑ: DIGIT ์ผ์ ํนํ (๋ค๋ฅธ ์ด๊ฐ ์ผ์ ๋ฏธ๊ฒ์ฆ)
2.8.2.2 ๋ฐฉ๋ฒ๋ก ์ ์ง๋ฌธ
- 3D Prior ๋ถ์ฌ: ๋งค๋ฒ ์ฒ์๋ถํฐ ํ์ ํ์ต (Category-level prior ๋ฏธํ์ฉ)
- ๋จ์ผ ๋ฌผ์ฒด ๊ฐ์ : ๋ค์ค ๋ฌผ์ฒด ์๋๋ฆฌ์ค ๋ฏธ๊ฒํ
- ๋์ ๋ฌผ์ฒด: ๋ณํ ๊ฐ๋ฅ ๋ฌผ์ฒด(soft object) ๋ฏธ์ง์
2.8.2.3 ์คํ ์ค๊ณ
- ๋ฌผ์ฒด ๋ค์์ฑ: 14๊ฐ ๋ฌผ์ฒด๋ง ํ ์คํธ (๋ ๋ค์ํ ํ์, ์ฌ์ง ํ์)
- ์คํจ ๋ชจ๋: ์ฒด๊ณ์ ์ธ ์คํจ ๋ถ์ ๋ถ์กฑ
- Baseline: ๋ ๋ค์ํ ๋น๊ต ๋์ ํ์ (End-to-End ๋ฐฉ๋ฒ ๋ฑ)
2.8.3 ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
2.8.3.1 ๋จ๊ธฐ (1-2๋ )
- ์๋ ์ต์ ํ: TensorRT ๋ฑ์ผ๋ก 10Hz ์ด์ ๋ฌ์ฑ
- ๋ค์ค ์ผ์ ์ผ๋ฐํ: GelSight, DIGIT-360 ๋ฑ ๋ค์ํ ์ผ์ ์ง์
- Sim-to-Real ๊ฐํ: Meta-learning ๊ธฐ๋ฐ ๋น ๋ฅธ ์ ์
2.8.3.2 ์ค๊ธฐ (2-5๋ )
- Category-level Prior: ์ฌ์ ํ์ต๋ ํ์ prior๋ก ์ด๊ธฐ ์๋ ด ๊ฐ์
- Closed-loop Control: ์ธ์ง ๊ฒฐ๊ณผ๋ฅผ ์กฐ์ ์ ์ฑ ์ ํผ๋๋ฐฑ
- ๋ณํ ๋ฌผ์ฒด: Neural Field + Physics ๊ฒฐํฉ (์: NeuralCloth)
2.8.3.3 ์ฅ๊ธฐ (5๋ +)
- Foundation Model: ๋ฒ์ฉ ์ด๊ฐ-์๊ฐ ํํ ํ์ต
- Whole-body Manipulation: ๋ก๋ด ์ ์ ์ ์ ์ด ์ธ์ง
- Human-Robot Handover: ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ผ๋ก ํ์ฅ
2.9 ์ค์ต ๊ฐ์ด๋: NeuralFeels ์ค์น ๋ฐ ์คํ
2.9.1 ํ๊ฒฝ ์ค์
2.9.2 ๋ฐ์ดํฐ์ ๋ค์ด๋ก๋
## FeelSight ๋ฐ์ดํฐ์
(Hugging Face)
cd data
git clone https://huggingface.co/datasets/suddhu/Feelsight
mv Feelsight/* . && rm -r Feelsight
find . -name "*.tar.gz" -exec tar -xzf {} \; -exec rm {} \;
cd ..
## Tactile Transformer ๋ชจ๋ธ
git clone https://huggingface.co/suddhu/tactile_transformer
## SAM ๊ฐ์ค์น
mkdir -p data/segment-anything && cd data/segment-anything
for model in sam_vit_h_4b8939.pth sam_vit_l_0b3195.pth sam_vit_b_01ec64.pth; do
wget https://dl.fbaipublicfiles.com/segment_anything/$model
done
cd ../..2.9.3 ์คํ ์์
2.9.4 ํ์ ํ๋์จ์ด
| ๊ตฌ์ฑ์์ | ์ต์ ์๊ตฌ | ๊ถ์ฅ |
|---|---|---|
| GPU | RTX 3080 (10GB) | RTX 4090 (24GB) |
| RAM | 32GB | 64GB |
| ์ ์ฅ๊ณต๊ฐ | 50GB SSD | 100GB NVMe |
2.10 ๊ฒฐ๋ก
2.10.1 ํต์ฌ ๋ฉ์์ง
NeuralFeels๋ ๋ก๋ด ์กฐ์ ์ธ์ง์์ ์ค์ํ ์ด์ ํ์ ๋๋ค:
- ์๊ฐ-์ด๊ฐ ์ตํฉ์ ์ ๋์ ํจ๊ณผ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ค
- Neural Field๋ผ๋ ํ๋์ ํํ์ ๋ก๋ด SLAM์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ
- ์จ๋ผ์ธ, ๋ฏธ์ง ๋ฌผ์ฒด ์๋๋ฆฌ์ค์์์ ๋์์ ์ ์ฆ
- ์ฌํ ๊ฐ๋ฅํ ๋ฒค์น๋งํฌ ์ ๊ณต์ผ๋ก ํ์ ์ฐ๊ตฌ ์ด์ง
2.10.2 Feynman์ ์์ฝ
โ๋ง์ฝ ๋ก๋ด ์์๊ฒ โ๋๋ผ๋ฉด์ ๋ฐฐ์ฐ๋ผโ๊ณ ํ ์ ์๋ค๋ฉด, ๋์ด ๊ฐ๋ ค์ ธ๋ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ์ ์๋ค. NeuralFeels๋ ๊ทธ โ๋๋ผ๋ฉด์ ๋ฐฐ์ฐ๊ธฐโ๋ฅผ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌํํ ๊ฒ์ด๋ค.โ
2.10.3 ์ฐ๊ตฌ์๋ฅผ ์ํ ์กฐ์ธ
์ด ์ฐ๊ตฌ๋ฅผ ํ์ฅํ๊ณ ์ถ๋ค๋ฉด:
- ๋ค๋ฅธ ์ด๊ฐ ์ผ์ ์ ์ฉ: GelSight, Soft Bubble ๋ฑ
- ๋ค๋ฅธ ์กฐ์ ์์ ์ ์ฉ: ์ฝ์ , ๋นํ์ง ์กฐ์, ์์ ์กฐ์
- Foundation Model ๊ฒฐํฉ: CLIP, SAM๊ณผ์ ๋ ๊น์ ํตํฉ
- Sim-to-Real ๊ฐ์ : Domain Adaptation, Meta-learning
2.11 ์ฐธ๊ณ ๋ฌธํ
์ฃผ์ ์ฐธ๊ณ ๋ ผ๋ฌธ:
- Suresh et al., โNeuralFeels with neural fields: Visuotactile perception for in-hand manipulation,โ Science Robotics, 2024.
- Mรผller et al., โInstant neural graphics primitives with a multiresolution hash encoding,โ ACM TOG, 2022.
- Ortiz et al., โiSDF: Real-time neural signed distance fields for robot perception,โ RSS, 2022.
- Qi et al., โIn-hand object rotation via rapid motor adaptation,โ ICRA, 2023.
- Lambeta et al., โDIGIT: A novel design for a low-cost compact high-resolution tactile sensor with application to in-hand manipulation,โ RA-L, 2020.
- Kirillov et al., โSegment anything,โ ICCV, 2023.
- Zhao et al., โFingerSLAM: Closed-loop unknown object localization and reconstruction from visuo-tactile feedback,โ arXiv, 2023.
- arXiv: https://arxiv.org/abs/2312.13469
- Science Robotics: https://www.science.org/doi/10.1126/scirobotics.adl0628
- GitHub: https://github.com/facebookresearch/neuralfeels
- ๋ฐ์ดํฐ์ : https://huggingface.co/datasets/suddhu/Feelsight
3 โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
3.1 ์๋ก : ์๊ฐ๊ณผ ์ด๊ฐ์ ๊ฒฐํฉ์ด ํ์ํ ์ด์
์ฌ๋์ ์ฌ๋ฌ ๊ฐ๊ฐ์ ์์ฐ์ค๋ฝ๊ฒ ํตํฉํ์ฌ ์ฃผ๋ณ์ ์ธ์งํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋์ด ์ฃผ๋จธ๋ ์์์ ์ด์ ๋ฅผ ์ฐพ๊ฑฐ๋, ๋ฐค์ค์ ๋ถ์ ์ผ์ง ์๊ณ ๋ ์ด์ ๋ฅผ ์๋ฌผ์ ์ ๋ง์ถฐ ๋ฃ์ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ์ ์๊ฐ์ด ์ ํ๋ ๋ ์ด๊ฐ์ ํตํด ๋ฌผ์ฒด์ ํํ์ ์์น๋ฅผ ํ์ ํ๊ณ , ๋ ๊ฐ๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํด ์ ํํ ์กฐ์์ ์ํํ์ฃ . ๊ทธ๋ฌ๋ ์ค๋๋ ๋ก๋ด์ ์ด๋ฌํ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ง๋ฅผ ๊ฑฐ์ ํ์ฉํ์ง ๋ชปํ๊ณ ์์ต๋๋ค. ํนํ ๋ค์ง ๋ก๋ด ์(์ฌ๋ฌ ์๊ฐ๋ฝ์ ๊ฐ์ง ๋ก๋ด ํธ๋)์ด ๋ฌผ์ฒด๋ฅผ ์ ์์์ ์ด๋ฆฌ์ ๋ฆฌ ๋๋ฆฌ๋ in-hand ์กฐ์ ์ํฉ์์๋, ๋ฌผ์ฒด๊ฐ ์์ด๋ ์๊ฐ๋ฝ์ ๊ฐ๋ ค ์์ผ๊ฐ ์ฐจ๋จ(occlusion)๋๋ ๊ฒฝ์ฐ๊ฐ ์ฆ์ต๋๋ค. ๊ธฐ์กด ๋ก๋ด ์ธํธ๋(in-hand) ์ธ์ง ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ์นด๋ฉ๋ผ ๋น์ ์ ์์กดํ์ฌ ๋ฏธ๋ฆฌ ๋ชจ๋ธ์ด ์๋ ค์ง ๋ฌผ์ฒด์ ์์ธ(pose)๋ฅผ ์ถ์ ํ๋ ๋ฐ ํ์ ๋์ด ์์๊ณ , ์์ผ ๊ฐ๋ฆผ์ด ์๋ ๊ฐ๋ฐฉ๋ ํ๊ฒฝ์์๋ง ๋์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋ํ ์ผ๋ถ ์ฐ๊ตฌ์์๋ ๋ฌผ์ฒด๋ ํ๊ฒฝ์ ๋ง์ปค(fiducial) ๋ถ์ฐฉ ๋ฑ ํธ๋ฒ์ผ๋ก ์ธ์ง ๋ฌธ์ ๋ฅผ ๋จ์ํํ๊ธฐ๋ ํ์ฃ . ํ์ง๋ง ๊ฐ์ ์ด๋ ๋น๊ตฌ์กฐํ๋ ํ๊ฒฝ์์ ์ผ๋ฐ์ ์ธ ๋ก๋ด ์์ฌ์ฃผ๋ฅผ ์คํํ๋ ค๋ฉด, ๊ฒฌ๊ณ ํ๊ณ ๋ฒ์ฉ์ ์ธ ๋ฌผ์ฒด ์ธ์ง๊ฐ ํ์์ ๋๋ค.
์ด๋ ์ด๊ฐ์ ๊ฐ๋ ฅํ ๋ณด์ ๊ฐ๊ฐ์ผ๋ก ๋ ์ค๋ฆ ๋๋ค. ๋ก๋ด ๋น์ ์ ์กฐ๋ช ์ด๋ ๋ฐ์ฌ, ํฌ๋ช ๋ ๋ฑ์ ํ์ค ๋ฌธ์ ๋ก ์ค์๋ํ๊ธฐ ์ฝ์ง๋ง, ์ด๊ฐ ์ผ์๋ ์ค์ ์ ์ด์ ํตํด ๋ฌผ์ฒด์ ๊ตญ์ง์ ์ธ ํ์๊ณผ ์๋ ์์น ์ ๋ณด๋ฅผ ์ง์ ์ ๊ณตํฉ๋๋ค. ์ฌ๋์ ์ธ์ง ์ฐ๊ตฌ์์๋ ์๊ฐ๊ณผ ์ด๊ฐ์ด ์๋ก ๋ณด์์ ์์ด ์๋ ค์ ธ ์์ต๋๋ค. ์ต๊ทผ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(์: GelSight, DIGIT ๋ฑ)๊ฐ ์ ๋ ดํด์ง๊ณ ์ํํ๋๋ฉด์ ๋ก๋ด ์๊ฐ๋ฝ์ ๋ด์ฅํ ์ ์๊ฒ ๋์๊ณ , ์ด๊ฐ ์ผ์์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๋ ๋ฐ์ ํ์ฌ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ํ์ฉํ๊ธฐ ์์ํด์ก์ต๋๋ค. ์ด์ ๋ก๋ด์ ์๊ฐ + ์ด๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ๋์์ ์ฌ์ฉํ ์ค๋น๊ฐ ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฃผ์ด์ง ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ํํํ๊ณ ํ์ฉํด์ผ ํ ๊น์? ์ต๊ทผ ์ ๊ฒฝ์ฅ(neural field) ๊ธฐ๋ฐ์ ์ฐ์์ 3์ฐจ์ ํํ์ด ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ๊ฐ๊ด๋ฐ๊ณ ์์ต๋๋ค. ์ ๊ฒฝ์ฅ์ ์ขํ๋ฅผ ์ ๋ ฅํ๋ฉด ๊ทธ ์ง์ ์ ํน์ฑ(์: ๋ฐ๋, ์๊น, ๊ฑฐ๋ฆฌ ๋ฑ)์ ์ถ๋ ฅํ๋ ์ ๊ฒฝ๋ง์ผ๋ก, NeRF์ ๊ฐ์ ๊ธฐ์ ์ ํตํด ๊ณ ํ์ง 3D ์ฌ๊ตฌ์ฑ์ด ๊ฐ๋ฅํจ์ด ์ ์ฆ๋์์ฃ . ์ ๊ฒฝ์ฅ์ ์ฐ์์ ์ด๊ณ ํด์๋ ์ ํ์ด ์๋ ํํ์ด๋ผ์, ํฌ์ธํธ ํด๋ผ์ฐ๋๋ ๊ฒฉ์(mesh)๋ณด๋ค ๋ฌผ์ฒด ํ์์ ์ ๊ตํ๊ฒ ๋ํ๋ผ ์ ์์ต๋๋ค. ๋ค๋ง ์ ํต์ ์ธ NeRF๋ ์คํ๋ผ์ธ ์ผ๊ด(batch) ์ต์ ํ์ ์น์ค๋์ด ์์ด, ๋ก๋ด์ ์ค์๊ฐ ์จ๋ผ์ธ ์ธ์ง์ ๋ฐ๋ก ์ฐ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋คํํ๋ ์ต๊ทผ์๋ ๊ฒฝ๋ํ๋ SDF ์ ๊ฒฝ์ฅ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ์ฌ ์จ๋ผ์ธ์ผ๋ก ํ๊ฒฝ ์ง๋๋ฅผ ํ์ตํ๊ฑฐ๋ ๋ฌผ์ฒด๋ฅผ ์ถ์ ํ๋ ์๋๊ฐ ์ด๋ค์ง๊ณ ์์ต๋๋ค. ์์ปจ๋ Ortiz ๋ฑ์ iSDF๋ฅผ ํตํด ์ค์๊ฐ์ผ๋ก ํ๊ฒฝ์ SDF ์ง๋๋ฅผ ๊ตฌ์ถํ์๊ณ , Lin ๋ฑ์ iNeRF๋ฅผ ํตํด ๋ฏธ๋ฆฌ ํ์ต๋ NeRF๋ฅผ ์ด์ฉํด ์นด๋ฉ๋ผ pose ์ถ์ ์ ์ญ์ผ๋ก ์ํํ๊ธฐ๋ ํ์ต๋๋ค. ์ ๊ฒฝ์ฅ ๊ธฐ๋ฒ์ ๋ก๋ด manipulation์ ์ ์ฉํ๋ ค๋ ์ฐ๊ตฌ๋ ์ ์ฐจ ๋ํ๋๊ณ ์์ง๋ง, ์๊ฐ-์ด๊ฐ ๊ฐ์ด ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๋ ์ต์ ํ ๋ฐฉ๋ฒ์ ์์ง ๊ฐ์ฒ ๋จ๊ณ์ ๋๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์, CMUยทMeta AIยทBerkeley ๋ฑ์ ํ์ ์ผ๋ก ๋ฐํ๋ NeuralFeels (Science Robotics, 2024) ์ฐ๊ตฌ๋ ๋ฉํฐ๋ชจ๋ฌ (์๊ฐ+์ด๊ฐ) SLAM ๋ฐฉ์์ ํตํด ์์์ ๋ฌผ์ฒด๋ฅผ ๋์์ ์ถ์ ํ๊ณ ๋ชจ๋ธ๋งํ๋ ์ ๋ขฐ์ฑ ๋์ ์ธ์ง ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ํ๋ง๋๋ก ์์ฝํ๋ฉด: โ๋ด๋ด ํ๋(์ ๊ฒฝ์ฅ)๋ก ๋ฌผ์ฒด์** ๋๋(feel)๊น์ง ํ์ตํ๋โ ๊ธฐ์ ์ ๋๋ค. ๋ก๋ด ์์ ์ฅ์ฐฉ๋ ์นด๋ฉ๋ผ์ ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ ๋ ฅ ์คํธ๋ฆผ์ ๋ฐ์, ๋ฌผ์ฒด์ ์์ธ(6-DoF ์์น/๋ฐฉํฅ)์ ํ์(3D ๋ชจ์)์ ์ค์๊ฐ ์ถ์ ํฉ๋๋ค. NeuralFeels๋ ๋ฌผ์ฒด์ ๋ํ ์ฌ์ ๋ชจ๋ธ ์์ด ์์ ํ ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ผ๋ ์ํธ์์ฉ์ ํตํด ๋ชจ์์ ๋ฐฐ์๊ฐ๋ฉฐ** ์ถ์ ํ ์ ์๊ณ , ์๊ฐ ์ ๋ณด๊ฐ ๋ถ์กฑํด๋ ์ด๊ฐ์ผ๋ก ๋ณด๊ฐํ์ฌ ์ถ์ ์ ํ๋๋ฅผ ๋์ ๋๋ค. ํนํ ์์ผ๊ฐ๋ฆผ์ด ์ฌํ ๊ฒฝ์ฐ ์ต๋ 94%๊น์ง ์ถ์ ์ ํ๋๊ฐ ํฅ์๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ํ์ ์ฌ๊ตฌ์ฑ F-์ค์ฝ์ด 81%์ ํ๊ท ์์ธ ์ค์ฐจ 4.7โฏmm ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. (F-์ค์ฝ์ด์ ์์ธ ์ค์ฐจ๋ ๋ค์์ ์์ธํ ์ค๋ช ํฉ๋๋ค.) ๋ํ ๋์ผ ๊ธฐ๋ฒ์ ๋ฌผ์ฒด CAD ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ์ ์ ์ฉํ๋ฉด, ํ๊ท 2.3โฏmm ์์ค๊น์ง ์ค์ฐจ๋ฅผ ์ค์ผ ์ ์์ด ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ ์ถ์ ๋ณด๋ค๋ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ์ ์๋ค์ ์ด ๋ฐฉ๋ฒ์ ๊ตฌํํ ์์ค ์ฝ๋์, ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด์ผ๋ก ์์งํ FeelSight ๋ฐ์ดํฐ์ (์ด 70ํ ์คํ ์ํ์ค)์ ๊ณต๊ฐํ์ฌ ํฅํ ์ฐ๊ตฌ๋ฅผ ๊ฐ์ํํ๊ณ ์ ํ์ต๋๋ค.
์ด ๊ธ์์๋ NeuralFeels ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด์ ๊ธฐ์ฌ, ์ฌ์ฉ๋ ๊ธฐ์ ์์์ ์๊ณ ๋ฆฌ์ฆ, ์ฃผ์ ์คํ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๊ณผ ํ๊ณ, ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ๋ฑ์ ๋ก๋ด๊ณตํ์์ ๊ด์ ์์ ์ฌ์ธต ๋ถ์ํฉ๋๋ค. ๋ฆฌ์ฒ๋ ํ์ธ๋ง์ ์ค๋ช ์ฒ๋ผ ์ต๋ํ ์ง๊ด์ ๋น์ ๋ฅผ ๋ค์ด ์ดํด๋ฅผ ๋๊ณ ์ ํ๋ฉฐ, ๋ณต์กํ ์์์ด๋ ๊ธฐ์ ์ ๊ฐ๋ ๋ ์ฌ์ด ์ธ์ด๋ก ํ์ด๋ณด๊ฒ ์ต๋๋ค.
3.2 ๋ฐฉ๋ฒ: NeuralFeels์ visuo-tactile SLAM ์๊ณ ๋ฆฌ์ฆ
NeuralFeels์ ๋ฐฉ๋ฒ๋ก ์ ํ ๋ง๋๋ก ํํํ๋ฉด โ๋ฉํฐ๋ชจ๋ฌ SLAMโ์ ๋๋ค. ์ฌ๊ธฐ์ SLAM์ด๋ ๋ก๋ด๊ณตํ์์ ํํ ๋งํ๋ ๋์์ ์์น์ถ์ ๋ฐ ์ง๋์์ฑ(Simultaneous Localization And Mapping)์ ๋ปํ๋๋ฐ์, ์ผ๋ฐ์ ์ธ SLAM์ ๋ก๋ด์ด ์์ ์ ์์น์ ์ฃผ๋ณ ์ง๋๋ฅผ ๋์์ ์์๋ด๋ ๊ณผ์ ์ ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, NeuralFeels์์๋ ๋ก๋ด์ด ์๋๋ผ ์์ ๋ ๋ฌผ์ฒด์ ์์ธ(์์น/์์ธ)์ ๋ชจ์(์ง๋์ ํด๋น)์ ๋์์ ์ถ์ ํ๊ธฐ ๋๋ฌธ์, ๋งฅ๋ฝ์ ๊ฐ์ง๋ง ๋์์ด โ๋ฌผ์ฒดโ๋ก ๋ฐ๋ SLAM์ด๋ผ ํ ์ ์์ต๋๋ค. ๋ก๋ด ์์ ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ๋ค์ํ ๋ฐฉํฅ์ผ๋ก ํ์ ์ํค๋ฉด์, RGB-D ์นด๋ฉ๋ผ(์๊ฐ)์ ์๊ฐ๋ฝ์ ์ด๊ฐ ์ผ์๋ก๋ถํฐ ์ฐ์์ ์ธ ๊ด์ธก ๋ฐ์ดํฐ ์คํธ๋ฆผ์ ๋ฐ์๋ค์ ๋๋ค. ์ด ์คํธ๋ฆผ์ ์ฒ๋ฆฌํ์ฌ ๋งค ์๊ฐ โ์ง๋โ(๋ฌผ์ฒด์ ์ ์ง์ ์ผ๋ก ์์ฑ๋๋ ๋ชจ์)์ โ์์นโ(๋ฌผ์ฒด์ ์์ธ)๋ฅผ ๊ฐฑ์ ํด๊ฐ๋ ๊ฒ์ด NeuralFeels์ ํต์ฌ ํ๋ฆ์ ๋๋ค. ์๋ ๊ทธ๋ฆผ์ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์์ฝํฉ๋๋ค.
flowchart LR
subgraph frontend["Frontend"]
Vision[RGB-D ์นด๋ฉ๋ผ] --> Seg[๋ถํ ]
Seg --> VDepth[๊ฐ์ฒด ๊น์ด ๋งต]
Tactile[์ด๊ฐ ์ด๋ฏธ์ง] --> TT[์ด๊ฐ ํธ๋์คํฌ๋จธ]
TT --> TDepth[์ ์ด ๊น์ด ๋งต]
end
subgraph backend["Backend"]
VDepth & TDepth --> SDF[์ ๊ฒฝ์ฅ SDF ๋ชจ๋ธ]
SDF --> PoseOpt[๋ฌผ์ฒด ์์ธ ์ต์ ํ]
PoseOpt --> SDF
end
PoseOpt --> PoseOut[์ถ์ ๋ฌผ์ฒด ์์ธ]
SDF --> ShapeOut[์ถ์ ๋ฌผ์ฒด ํ์]
์ ํ์ดํ๋ผ์ธ์ ํฌ๊ฒ ํ๋ก ํธ์๋(Frontend)์ ๋ฐฑ์๋(Backend) ๋ชจ๋๋ก ๋๋ฉ๋๋ค. ํ๋ก ํธ์๋๋ ์์ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ์ ์ฉํ ํํ์ ์ ๋ ฅ์ผ๋ก ๋ณํํด์ค๋๋ค. ๋ฐฑ์๋๋ ์ด ์ ๋ ฅ์ ํ ๋๋ก ์ ๊ฒฝ์ฅ(Neural Field) ํํ์ ๋ฌผ์ฒด ๋ชจ๋ธ(์ง๋)์ ์ค์๊ฐ ํ์ตํ๋ฉด์, ํํธ์ผ๋ก๋ ๋ฌผ์ฒด์ 6์์ ๋ ์์ธ๋ ์ถ์ ํฉ๋๋ค. ๋ ๋ถ๋ถ์ ์ฐจ๋ก๋ก ์์ธํ ์ดํด๋ณด์ฃ .
3.2.1 ํ๋ก ํธ์๋: ์๊ฐ-์ด๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ
ํ๋ก ํธ์๋์ ์ญํ ์ ๋ค์ํ ์ผ์ ์ถ๋ ฅ(์นด๋ฉ๋ผ ์์, ๊น์ด, ์ด๊ฐ ์ด๋ฏธ์ง ๋ฑ)์์ ๋ฌผ์ฒด์ ๋ํ ์ ์ฉํ ์ ๋ณด๋ง ์ถ์ถํ๋ ๊ฒ์ ๋๋ค. ๋ง์น ์ฌ๋์ผ๋ก ์น๋ฉด, ๋์ ๋ณด์ด๋ ๋ณต์กํ ์ฅ๋ฉด์์ ๊ด์ฌ ๋ฌผ์ฒด๋ง ์ธ์ํด๋ด๊ณ , ์๋์ ์ ํธ์์ ํ๋ฉด์ ๊ตด๊ณก๋ง ๋ฝ์๋ด๋ ๊ณผ์ ์ด๋ผ ํ ์ ์๊ฒ ์ต๋๋ค.
์๊ฐ ๋ถ: ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ์์ ๋ ์นด๋ฉ๋ผ๊ฐ ๋ณด๋ ์ฅ๋ฉด์ ๋ณต์กํฉ๋๋ค. ์๊ฐ๋ฝ, ๋ฌผ์ฒด, ๋ฐฐ๊ฒฝ์ด ์์ฌ ์๊ณ , ํนํ ๋ฌผ์ฒด ์ผ๋ถ๋ ์์ ๊ฐ๋ ค ๋ณด์ด์ง ์์ต๋๋ค. NeuralFeels๋ ๊ณ ์ ๋ RGB-D ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ฌ๊ธฐ์ ์ป์ ๊น์ด๋ฒํผ(depth)์์ ๋ฌผ์ฒด ๋ถ๋ถ๋ง ๋ถ๋ฆฌํด๋ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ต๋๋ค. ํต์ฌ์ Meta AI์์ ์ต๊ทผ ๊ณต๊ฐํ ์ธ๊ทธ๋จผํธ ์๋์ฑ ๋ชจ๋ธ(SAM) ๊ฐ์ ํ์ด๋ฐ์ด์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ ํ์ฉํ๋, ๋ก๋ด์ ๊ธฐ๊ตฌํ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ค๋ ์ ์ ๋๋ค. ๋ก๋ด ์์ ๊ด์ ๊ฐ๋(์์ธ)๋ ํญ์ ์๊ณ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ด์ฉํ๋ฉด ํ์ฌ ํ๋ ์์์ ์๊ฐ๋ฝ๊ณผ ์๋ฐ๋ฅ์ 3D ์์น๋ฅผ ์์ธกํ ์ ์์ต๋๋ค. ์ด ์์ญ์ ํ๋กฌํํธ(prompt)๋ก ์ฃผ์ด SAM์๊ฒ โ์ด ์์ญ์ ๋ก๋ด ์์ด๋ ๋ฐฐ์ ํ๊ณ , ๋๋จธ์ง ์ค ํน์ ๋ฌผ์ฒด์ ์ํ๋ ํฝ์ ์ ์ฐพ์๋ผโ๋ผ๊ณ ํ ์ ์๊ฒ ์ง์. ์ ์๋ค์ ์ด๋ ๊ฒ ๋ก๋ด ์ kinematics๋ก ์ ํ ์กฐ๊ฑด์ ์ค ์ธ๊ทธ๋ฉํ ์ด์ ์ ํตํด, ์๊ณผ ๋ฌผ์ฒด๊ฐ ๋ณต์กํ๊ฒ ๋ค์์ผ ์์ด๋ ๋ฌผ์ฒด์ ํฝ์ ๋ง ์ ๋ถ๋ฆฌํด๋์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ RGB-D ์นด๋ฉ๋ผ๋ก๋ถํฐ ๋ฐฐ๊ฒฝ๊ณผ ์์ด ์ ๊ฑฐ๋ ์ค๋ธ์ ํธ์ ๊น์ด๋งต D_{\text{vision}}์ ์ป๊ฒ ๋ฉ๋๋ค. ์ด ์๊ฐ ๊น์ด๋งต์๋ ๋ฌผ์ฒด ํ๋ฉด์ ์ผ๋ถ (์นด๋ฉ๋ผ์ ๋ณด์ด๋ ๋ถ๋ถ)์ ๋ํ ๊ฑฐ๋ฆฌ ์ ๋ณด๊ฐ ์ด์ดํ ๋ค์ด์์ต๋๋ค.
์ด๊ฐ ๋ถ: ์๊ฐ๋ฝ ๋์ ์ฅ์ฐฉ๋ DIGIT ์ด๊ฐ ์ผ์๋ค์ ๋ง์น ์์ ์นด๋ฉ๋ผ์ฒ๋ผ, ์๊ฐ๋ฝ ์ คํจ๋ ํ๋ฉด์ ๋ณํ์ ์ด๋ฏธ์ง๋ก ๋ณด์ฌ์ค๋๋ค. ์๋ฅผ ๋ค์ด ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ๋๋ฅด๋ฉด ๊ทธ ๋ถ๋ถ์ ์ ๋ช ํ ์ค๊ณฝ์ด ์ฐํ๋์ค์ฃ . ํ์ง๋ง ์ด ์ด๊ฐ ์ด๋ฏธ์ง๋ ์ฌ๋ ๋์๋ ํด์ํ๊ธฐ ์ฝ์ง ์๊ณ , ์ผ๋ฐ ์์ฐ์์๊ณผ๋ ์ ํ ๋ค๋ฅธ ๋ถํฌ(์กฐ๋ช ํจํด ๋ฑ)๋ฅผ ๊ฐ์ง๋๋ค. ๋ฐ๋ผ์ ์ด ์ด๋ฏธ์ง์์ ๋ฐ๋ก 3D ์ ๋ณด๋ฅผ ์ป๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ผ๋ก ์ฒ๋ฆฌํด ์ ์ด ์งํ์ ๊น์ด๋ฅผ ์ถ์ ํ๊ณค ํ๋๋ฐ, NeuralFeels๋ ํ ๋ฐ ๋ ๋์๊ฐ Vision Transformer(ViT) ๊ธฐ๋ฐ์ ์ด๊ฐ ํธ๋์คํฌ๋จธ ๋คํธ์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ViT๊ฐ ์์ฐ์์์ ๊น์ด ์ถ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ์ต๊ทผ ์ฐ๊ตฌ์ ์ฐฉ์ํ ๊ฒ์ธ๋ฐ์, ์ด๊ฐ ๋ฐ์ดํฐ์๋ ์๊ธฐ์ดํ ์ ๊ธฐ๋ฐ ์ ๊ทผ์ด ํจ๊ณผ์ ์ผ ๊ฒ์ด๋ผ ๋ณธ ๊ฒ์ ๋๋ค. ์ด ์ด๊ฐ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์ ์ ์ผ๋ก ์์จ ํ์ต๋์๋๋ฐ, Meta AI์ TACTO ํ๋ ์์ํฌ ๋ฑ์ ํ์ฉํด ๋ค์ํ ๊ฐ์์ ๋ฌผ์ฒด๋ฅผ DIGIT๋ก ๋๋ฅด๋ ์ํฉ์ ๋ง๋ค๊ณ , ๊ทธ๋์ ์ด๊ฐ ์ด๋ฏธ์ง์ ์ ํํ ์ ์ด ๊น์ด๋งต ์์ ๋๋์ผ๋ก ๋ชจ์์ต๋๋ค. ์ฌ๊ธฐ์ ์นด๋ฉ๋ผ ๋ ธ์ด์ฆ๋ ์ด๊ฐ์ผ์ ํธ์ฐจ ๋ฑ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก ์์ด ํ์ต์์ผ, ์ค์ ๋ค์ํ DIGIT ์ผ์์ ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๊ฒ ๋ง๋ค์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ์ด ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ด๊ฐ ์ด๋ฏธ์ง์์ ์ ์ด ํ๋ฉด์ ๊น์ด๋งต D_{\text{tactile}}์ ์ถ๋ ฅํฉ๋๋ค. ์ ์ดํ ๋ถ๋ถ์ ๊น์ด๊ฐ (์๊ฐ๋ฝ ํ๋ฉด์ผ๋ก๋ถํฐ์ ๊ตญ์ ๋ณ์)์ด ๋ํ๋๊ณ , ์ ์ด์ด ์๋ ๋ถ๋ถ์ ๋น ์์ญ์ผ๋ก ๋ง์คํนํ์ฌ ๋น์ ์ด ์์ญ์ ๋ฌด์ํ๋๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์ ์๋ค์ ๋ณด๊ณ ์ ๋ฐ๋ฅด๋ฉด ์ด ์ด๊ฐ ๊น์ด์ง๋ ์์ธก์ ์๋ฎฌ๋ ์ด์ ํ ์คํธ ์ธํธ ๊ธฐ์ค ํ๊ท ์ค๋ฅ๊ฐ ๋งค์ฐ ๋ฎ์ ์์ค์ด๋ฉฐ, ์ค์ ๋ฐ์ดํฐ์๋ ์ ๋ค์ด๋ง๋๋ค๊ณ ํฉ๋๋ค (Fig. 8(b)์์ ์๋ฎฌ๋ ์ด์ -์ค์ ๊ฐ ์์ธก์ ๊ฒ์ฆ).
ํ๋ก ํธ์๋์ ๊ฒฐ๊ณผ๋ก, ๋งค ์๊ฐ ํ๋ ์๋ง๋ค ๋ ๊ฐ์ง ๊น์ด ์ ๋ณด D_{\text{vision}} (์นด๋ฉ๋ผ ๊ธฐ๋ฐ)๊ณผ D_{\text{tactile}} (์ด๊ฐ ๊ธฐ๋ฐ)์ด ์ฐ์ถ๋ฉ๋๋ค. ๊ฐ๊ฐ ๋ฌผ์ฒด์ ๊ฒ๋ณด๊ธฐ ํ๋ฉด ์ผ๋ถ์ ์๊ฐ๋ฝ์ด ๋ฟ์ ๋ถ๋ถ์ ๊ตญ์ ํ๋ฉด์ ๋ํ๋ด์ฃ . ์ด์ฒ๋ผ ๋ฉํฐ๋ชจ๋ฌ๋ก ์ป์ "์ ๊ตฐ" ๋ฐ์ดํฐ๋ฅผ ๋ค์ ๋จ๊ณ์์๋ ์ผ๊ด๋ 3D ๋ชจ๋ธ๋ก ํตํฉํ๋ ์์ ์ด ํ์ํฉ๋๋ค.
3.2.2 ๋ฐฑ์๋: Neural Field ๊ธฐ๋ฐ ํํ ํ์ต๊ณผ ์์ธ ์ถ์
NeuralFeels ๋ฐฑ์๋๋ ๋ฌผ์ฒด์ ํ์์ ์ ๊ฒฝ์ฅ ๋ชจ๋ธ๋ก ํ์ต(mapping)ํ๊ณ , ๋์์ ๋ฌผ์ฒด ์์ธ๋ฅผ ์ถ์ (localization)ํ๋ ์ต์ ํ ์์ง์ ๋๋ค. ์ด๋ ๋ง์น ์ง๋ ์์ฑ์์ ์ธก๋์ฌ๊ฐ ํ ํ์ ์ด๋ค ๊ต๋๋ก ์ผํ๋ ๋ชจ์ต๊ณผ ๋น์ทํฉ๋๋ค. ์ง๋ ์์ฑ์๋ ํ์ฌ๊น์ง ๋ชจ์ธ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ง๋๋ฅผ ์กฐ๊ธ์ฉ ์์ ํ๊ณ , ์ธก๋์ฌ๋ ๊ทธ ์ง๋(๋ชจ๋ธ)๋ฅผ ์ฐธ๊ณ ํด ํ์ฌ ์์น(์์ธ)๋ฅผ ๋ฐ๋ก์ก๋ ์์ด์ฃ . NeuralFeels์์๋ ๋ ์์ ์ ๊ต์ฐจ ๋ฐ๋ณต(alternate)ํ์ฌ, ์๊ฐ์ด ์ง๋ ์๋ก ์ ํํ ํ์๊ณผ ์์ธ๋ฅผ ๋์์ ์ป์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ํ ๋ฃจํ(iteration)์์๋ ๋จผ์ ํฌ์ฆ ์ต์ ํ(Pose Optimization)๋ฅผ ์ํํ ํ, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ ๋๋ก ํ์ ์ต์ ํ(Shape Optimization)๋ฅผ ์ํํฉ๋๋ค. ์ด๋ ํ์ ์ต์ ํ ๋จ๊ณ์์ ์ ๊ฒฝ SDF(Signed Distance Function) ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ์ฌ ๋ฌผ์ฒด ํ์์ ํ์ตํ๊ณ , ํฌ์ฆ ์ต์ ํ ๋จ๊ณ์์๋ ํ์ฌ ์ ๊ฒฝ์ฅ ๋ชจ๋ธ์ ๊ณ ์ ํ ์ฑ ๋ฌผ์ฒด์ ์์ธ ๋ณ์๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋์ ์ต์ ํ์ ์ด๋ ค์์ ํผํ๋ฉด์๋, ๋น ๋ฅธ ๊ต๋ ๋ฐ๋ณต์ผ๋ก ๊ฒฐ๊ณผ์ ์ผ๋ก ๋์์ถ์ ์ ์๋ ดํ๋๋ก ํฉ๋๋ค. ๊ฐ๊ฐ์ ๋ด๋ถ ์๊ณ ๋ฆฌ์ฆ์ ์์ธํ ๋ค์ฌ๋ค๋ณด๊ฒ ์ต๋๋ค.
(a) ํ์ ํํ๊ณผ ์ต์ ํ โ NeuralFeels๋ ๋ฌผ์ฒด์ ํ์์ ์ ๊ฒฝ์ฅ(SDF)์ผ๋ก ํํํฉ๋๋ค. ์ด๋ 3D ๊ณต๊ฐ์ ์ขํ \mathbf{x}๋ฅผ ์ ๋ ฅํ๋ฉด ๊ทธ ์ ์ด ๋ฌผ์ฒด ํ๋ฉด์ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง(๋ถํธ์๋ ๊ฑฐ๋ฆฌ) ์ถ๋ ฅํ๋ ์ฐ์ ํจ์์ ๋๋ค. SDF ๊ฐ์ด 0์ธ ์ขํ๋ค์ ์งํฉ์ด ๋ฐ๋ก ๋ฌผ์ฒด์ ํ๋ฉด์ ์ด๋ฃจ์ฃ . ์ด SDF๋ฅผ ์์ ๋ค์ธตํผ์ ํธ๋ก (MLP)์ผ๋ก ํํํ๋, Instant-NGP ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๋ค์ค ํด์๋ ๊ฒฉ์ ์๋ฒ ๋ฉ์ผ๋ก ํ์ต์ ๊ฐ์ํํฉ๋๋ค. ์ฝ๊ฒ ๋งํด, iSDF ์คํ์ผ์ ๊ฒฝ๋ ๋คํธ์ํฌ๋ก ๋ฌผ์ฒด ๋ชจ์์ ์ ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค.
์ด ํ์ ๋คํธ์ํฌ(์ง๋)๋ ์ค์๊ฐ์ผ๋ก ์ ๋ฐ์ดํธ๋์ด์ผ ํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ ํ๋ ์ ๋ฐ์ดํฐ๋ฅผ ๋์ ํ์ฌ ํ๊บผ๋ฒ์ ํ์ต์ํค๋ ๊ฑด ๋นํ์ค์ ์ ๋๋ค. ๋์ ์ ์๋ค์ ํคํ๋ ์(keyframe) ๊ฐ๋ ์ ๋์ ํ์ต๋๋ค. ์ ๋ณด๋์ด ๋ง์ ํ๋ ์๋ง ์ ๋ณํ์ฌ ํคํ๋ ์์ผ๋ก ์ ์งํ๊ณ , ์๋ก์ด ๊ด์ธก์ด ๋ค์ด์ฌ ๋ ๊ธฐ์ฌ๋๊ฐ ํฐ ๊ฒฝ์ฐ์๋ง ํคํ๋ ์์ผ๋ก ์ฑํํฉ๋๋ค. ๋ํ ์ค๋๋ ์ ๋ณด๊ฐ ์์ ํ ์ํ์ง ์๋๋ก, ๊ณผ๊ฑฐ ํคํ๋ ์ ์ค์์๋ ์ค์ฐจ๊ฐ ์ปธ๋ ๊ฒ๋ค์ ํ๋ฅ ์ ์ผ๋ก ์ฌํํํ์ฌ ํ์ต์ ๋ฆฌํ๋ ์ดํฉ๋๋ค. ์ด๋ catastrophic forgetting(๊ณผ๊ฑฐ ์ ๋ณด ์์ค) ํ์์ ๋ง๊ธฐ ์ํ ์ฅ์น์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ต์ด ํ๋ ์์ ๋ฌด์กฐ๊ฑด ํคํ๋ ์์ผ๋ก ํํ๊ณ , ์ดํ์๋ โ๋ ๋๋ง ์์คโ์ด ์ผ์ ์๊ณ๊ฐ ์ด์ ์ฆ๊ฐํ ๊ฒฝ์ฐ ๊ทธ ํ๋ ์์ ํคํ๋ ์์ผ๋ก ์ถ๊ฐํ๋ฉฐ, ๋๋ฌด ์ค๋ซ๋์ ํคํ๋ ์์ด ์ถ๊ฐ๋์ง ์์ผ๋ฉด ์ฃผ๊ธฐ์ ์ผ๋ก ํ๋๋ฅผ ์ถ๊ฐํ๋๋ก ํ์ต๋๋ค.
ํ์ ์ต์ ํ์์๋, ์์งํ ๊น์ด๋งต๋ค(์๊ฐ ๋ฐ ์ด๊ฐ)๋ก๋ถํฐ ๋ฌผ์ฒด ํ๋ฉด๊ณผ ์ฃผ๋ณ ๊ณต๊ฐ์์ ์ํ ์ ๋ค์ ์ถ์ถํ์ฌ SDF ๋คํธ์ํฌ์ ์์ค(loss)์ ๊ณ์ฐํฉ๋๋ค. ํ๋ฉด์ ํด๋นํ๋ ํฝ์ (์: ๊น์ด๋งต์์ ๋ฌผ์ฒด๊ฐ ๊ด์ธก๋ ํฝ์ ๋ค)์ ๊ทธ ๊ด์ (ray)์ ๋ฐ๋ผ ํ๋ฉด ๋ถ๊ทผ์ 3D ์ ๋ค์ ๋ฝ์ SDF=0์ด ๋๋๋ก ํ์ต์ํต๋๋ค. ๋ฐ๋ฉด ๋ฌผ์ฒด๊ฐ ๋ณด์ด์ง ์์ ๋น ๊ณต๊ฐ์ ํฝ์ ์ ๊ทธ ์ ์์์ ๋ฌผ์ฒด๊ฐ ์์ด์ผ ํ๋ฏ๋ก, ํด๋น ๊ตฌ๊ฐ ์ ๋ค์ ์์ SDF(๊ฑฐ๋ฆฌ) ๊ฐ์ ๊ฐ๋๋ก ํ์ตํฉ๋๋ค. ํ ํ๋ ์์ ๊ด์ ๋น ํ๋ณธ ์ค์๋ ํ๋ฉด ๊ทผ์ฒ ์ ๋ค๊ณผ ๊ณต๊ฐ ์ ๋ค์ ํผํฉํ์ฌ ์ผ์ ์ ์ ํํฉ๋๋ค. ์นด๋ฉ๋ผ (vision)์ ๊ฒฝ์ฐ ๋ฌผ์ฒด ์ฃผ๋ณ ๋น ๊ณต๊ฐ๋ ์ค์ํ๋ฏ๋ก ํ๋ฉด:๊ณต๊ฐ ๋น์จ์ ์ ์ ํ ์๊ณ , ์ด๊ฐ (touch)์ ๊ฒฝ์ฐ ์ด๊ฐ์ผ์๋ ์ ์ด๋ ํ๋ฉด ์ฃผ๋ณ ์ ๋ณด๋ง ์์ผ๋ฏ๋ก ํ๋ฉด์ ์์ฃผ๋ก ์ํ๋งํฉ๋๋ค. ์ด๋ ๊ฒ ๋ชจ์ ์ํ๋ค \{\mathbf{x}_{i}\}์ ๋ํด SDF ๋คํธ์ํฌ์ ์์ธก f_{\Theta}\left( \mathbf{x}_{i} \right)๋ฅผ ๊ณ์ฐํ๊ณ , Truncated SDF Loss๋ฅผ ์ ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด Azinoviฤ ๋ฑ์ ๋ฐฉ์์ฒ๋ผ, ํ๋ฉด์ผ๋ก๋ถํฐ ์ผ์ ์๊ณ ๊ฑฐ๋ฆฌ \tau ์ด๋ด์ ์ ๋ค์ SDF ์์ธก๊ฐ d_{i}์ ๋ชฉํ๊ฐ(ํ๋ฉด์ ์ด๋ฉด 0, ๊ณต๊ฐ์ ์ด๋ฉด \tau ์ ๋์ ์์)์ ๋น๊ตํด ์ ๊ณฑ ์ค์ฐจ๋ฅผ ๊ณ์ฐํ๊ณ , \left| d_{i} \right|๊ฐ ๋๋ฌด ํฐ ์ ๋ค์ ์ด์์น๋ก ์ทจ๊ธํ์ฌ Loss์ ์์ ํ ๋ฐ์ํ์ง ์์ต๋๋ค (loss ๊ธฐ์ฌ๋ฅผ ์๋ผ๋). ์ด๋ ๊ฒ ํ๋ฉด SDF ํจ์๊ฐ ๋ฌผ์ฒด ํ๋ฉด ๊ทผ์ฒ์์๋ ์ ํํ 0์ ๋ง์ถ๊ณ , ๋จผ ๊ณต๊ฐ๊น์ง๋ ๊ตณ์ด ์ ํํ ์์ธกํ์ง ์์๋ ์์ ์ ์ผ๋ก ์๋ ดํฉ๋๋ค. ์์ปจ๋, ํ์ ์ต์ ํ๋ ํ์ฌ ์ถ์ ๋ ๋ฌผ์ฒด ์์ธ๋ค(ํฌ์ฆ)์ ๋ง์ถฐ, ์๊ฐ-์ด๊ฐ ๊ด์ธก๊ฐ์ ์ผ์นํ๋๋ก SDF ํ๋ผ๋ฏธํฐ \Theta๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋จ๊ณ์ ๋๋ค.
(b) ์์ธ ์ถ์ (ํฌ์ฆ) ์ต์ ํ โ ์์ ํ์ ํ์ต์์๋ ๋ฌผ์ฒด์ ์์ธ๊ฐ ์ด๋ฏธ ์ฃผ์ด์ง ๊ฒ์ฒ๋ผ ์งํํ์ง๋ง, ์ค์ ๋ก ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ฌผ์ฒด๊ฐ ์์์์ ์์ง์ด๊ณ ํ์ ํฉ๋๋ค. ํ๋ ์๋ง๋ค ๋ฌผ์ฒด ์์ธ T_{t} (์: ์๋ ์ขํ๊ณ์์ ๋ฌผ์ฒด ์ขํ๊ณ๋ก์ ๋ณํ)๋ ์ถ์ ํด์ผ ํ๋๋ฐ, ์ด๋ ์ฌ์ด ๋ฌธ์ ๊ฐ ์๋๋๋ค. NeuralFeels๋ ์ด๋ฅผ ํฌ์ฆ ๊ทธ๋ํ ์ต์ ํ ํํ๋ก ํด๊ฒฐํ์ต๋๋ค. ๊ฐ๋ ์ Visual SLAM์ BA(Bundle Adjustment)์ ๋น์ทํ๊ฒ, ์ต๊ทผ์ ์ฌ๋ฌ ํคํ๋ ์๋ค์ ๋ํ ๋ฌผ์ฒด ์์ธ๋ฅผ ๋ฌถ์ด์ ํ๊บผ๋ฒ์ ์ต์ ํํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ฅ ์ต๊ทผ N๊ฐ์ ํคํ๋ ์์ ํด๋นํ๋ ๋ฌผ์ฒด ์์ธ \{ T_{t - N + 1},...,T_{t}\}๋ฅผ ๋ณ์๋ก ๋๊ณ , ๊ฐ ํคํ๋ ์์ ๊ด์ธก๊ฐ๊ณผ ํ์ฌ ํ์ ๋ชจ๋ธ(๋๊ฒฐ๋ SDF)์ ์ผ์น์ํค๋ ๋ชฉ์ ์๋ค์ ์ค์ ํฉ๋๋ค. ์ด ๋ชฉ์ ์๋ค์ ๊ทธ๋ํ์์ Factor๋ก ๋ณผ ์ ์์ด์ Factor Graph ํน์ Pose Graph๋ผ ๋ถ๋ฆ ๋๋ค. ํ์ด์์ค(Theseus)๋ผ๋ PyTorch๊ธฐ๋ฐ ์ต์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ, ์ด ๊ทธ๋ํ๋ฅผ ๋น์ ํ ์ต์์ ๊ณฑ ๋ฌธ์ ๋ก ํ์์ต๋๋ค. ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ 2์ฐจ ๊ธฐ๋ฒ์ธ LevenbergโMarquardt (LM)๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๋๋ก ํ์ต๋๋ค (๊ธฐ์กด iNeRF ๋ฑ์ ๊ฒฝ์ฌํ๊ฐ(1์ฐจ)์ผ๋ก ํ๋ ๋ฐ ๋นํด ๊ฐ์ ).
ํฌ์ฆ ๊ทธ๋ํ์ Factor(์ฝ์คํธ ํญ)๋ค์ ํฌ๊ฒ ์ธ ์ข ๋ฅ๊ฐ ์์ต๋๋ค: 1. ์ ๊ฒฝ์ฅ ์ ํฉ ์ค์ฐจ(SDF alignment loss) โ ํ์ฌ ๊ณ ์ ๋ ์ ๊ฒฝ์ฅ SDF ๋ชจ๋ธ๊ณผ ๊ฐ ํคํ๋ ์์ ๊น์ด ๊ด์ธก(์๊ฐ/์ด๊ฐ)์ ์ผ์น์ํค๋ ํญ์ ๋๋ค. iNeRF์์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์กฐ์ ํ์ฌ ๋ ๋๋ง๋ ์์๊ณผ ์ค์ ์์์ ๋ง์ถ๋ ๊ฒ์ ์ฐ์ํ๋ฉด ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ํคํ๋ ์ k์ ๊น์ด๋งต ํฝ์ ๋ค์ ๊ด์ ์ผ๋ก ์ด์ ํ๋ฉด์ ๋ช ๊ฐ์ฉ ์ํ๋งํ ๋ค(์ค์ง ํ๋ฉด ๋ถ๊ทผ ์ ๋ค๋ง, ์๋ํ๋ฉด ํ๋ฉด์์ ๋ฉ๋ฆฌ ๋จ์ด์ง ์ ๋ค์ ์ค์ฐจ ์ ํธ๊ฐ ์ฝํ๋๊น์), ํ์ฌ ์ถ์ ๋ ๋ฌผ์ฒด ํฌ์ฆ T_{k}๋ก ์ด ์ ๋ค์ ๋ฌผ์ฒด ์ขํ๊ณ๋ก ๋ณํํฉ๋๋ค. ๊ทธ ์ ๋ค์ SDF ์์ธก๊ฐ์ ์ ๊ฒฝ์ฅ์ผ๋ก๋ถํฐ ๊ตฌํ๊ณ , ์ด๋ค์ด 0์ ๊ฐ๊น๋๋ก(ํ๋ฉด์ด์ด์ผ ํ๋ฏ๋ก) ์ค์ฐจ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ง๊ด์ ์ผ๋ก, โํ์ฌ ๋ฌผ์ฒด ํฌ์ฆ์์ ๋ณด๋ฉด ํคํ๋ ์ ๊น์ด ๋งต์ ์๋ ์ ๋ค์ด ์ ํํ SDF ๋ชจ๋ธ ํ๋ฉด์ ๋์ฌ์ผ ํ๋คโ๋ ์กฐ๊ฑด์ ๋๋ค. ์ด ์ค๋ฅ์ ์์ฝ๋น์(๊ธฐ์ธ๊ธฐ)๋ฅผ ๋ฌผ์ฒด ํฌ์ฆ ๋ณ์(๋ณํ ํ๋ ฌ์ Lie algebra ํํ)์ ๋ํด ํด์์ ์ผ๋ก ๊ณ์ฐํ์ฌ Theseus์ ์ ๋ฌํ๋ค๊ณ ํฉ๋๋ค. (PyTorch ์๋๋ฏธ๋ถ์ ์ฐ๋ฉด ๋๋ฌด ๋๋ฆฌ๊ธฐ ๋๋ฌธ์, ์ง์ ์ ๋ํ ์ปค์คํ Jacobian์ ๊ตฌํํ์ฌ 4๋ฐฐ ํจ์จ์ ๋์๋ค๊ณ ํฉ๋๋ค.) 2. ํฌ์ฆ ์ฐ์์ฑ ์ ๊ทํ(Pose regularizer) โ ์ฐ์๋ ๋ ํคํ๋ ์์ ๋ฌผ์ฒด ์์ธ ๋ณํ๊ฐ ๋๋ฌด ๋นํ์ค์ ์ผ๋ก ํฌ์ง ์๋๋ก ์ฝํ ์ ์ฝ์ ๊ฑฐ๋ ํญ์ ๋๋ค. ์ด๋ ์ฃผ๋ก ๊น์ด ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๊ฐ ์๊ฑฐ๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ด ์๋ชป๋์ด ๋ฐ์ํ ์ ์๋ ์ก์์ฑ ํ๋ ์ถ์ ์ ์ต์ ํ๋ ์ญํ ์ ๋๋ค. ์์์์ ๋๋ฆฌ๋ ๋์์ ์ฐ์๋ ํ๋ ์์์ ๊ทน๋จ์ ์ธ ์ด๋์ด ์์ผ๋ฏ๋ก, ์ด ์ ๊ทํ๋ก ์ถ์ ์ ์์ ์ฑ์ ๋์ ๋๋ค. 3. ICP ์ ํฉ ์ค์ฐจ(Iterative Closest Point loss) โ ๋ง์ง๋ง์ผ๋ก, ํ๋ ์ ๊ฐ ์ ๊ตฐ ์ ํฉ์ ๋๋ ํญ๋ชฉ์ ๋๋ค. ์ด๊ฒ์ ํ์ฌ ํคํ๋ ์๊ณผ ์ด์ ํคํ๋ ์ ์ฌ์ด์ ๊น์ด์ ๋ค์ ์ํธ ์ผ์น๋ฅผ ์ ๋ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํคํ๋ ์ k์ k - 1์์ ์ป์ ๋ฌผ์ฒด ํ๋ฉด์ ๊ตฌ๋ฆ๋ค์ด ์๋ก ์ ๊ฒน์น๋๋ก T_{k}์ T_{k - 1}๋ฅผ ์กฐ์ ํ๋ ์์ ๋๋ค. ์ ํต ICP ์๊ณ ๋ฆฌ์ฆ์ฒ๋ผ ์ต๊ทผ์ ์ ์์ ์ฐพ์ ์ค์ฐจ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ํญ์ ํ๋ ์-ํ๋ ์ ๊ฐ ์๋์ ์ธ ๊ด์ธก ์ ํฉ์ ์ฃผ์ด, ์์ ์ ๊ฒฝ์ฅ ์ ํฉ์ด ํ๋ ์-๋ชจ๋ธ ์ ์ญ ์ ํฉ์ธ ๊ฒ๊ณผ ์๋ณด์ ์ผ๋ก ์์ฉํฉ๋๋ค. ์ฆ, ํ๋ ์ ๋ ํ๋ ์+ํ๋ ์ ๋ ๋ชจ๋ธ ๋ ๋ฐฉํฅ์์ ์ต์ ํ๋ฅผ ๊ฑฐ๋ ๊ฒ์ด์ฃ .
์ด๋ฌํ Factor๋ค์ ๋ชจ๋ ํฉ์ณ ํฌ์ฆ ๊ทธ๋ํ์ ์ต์ํ ๋ฌธ์ ๋ฅผ ์ธ์ฐ๊ณ , LM ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํด๋ฅผ ๊ตฌํ๋ฉด N๊ฐ ํคํ๋ ์์ ๋ฌผ์ฒด ์์ธ๊ฐ ํ๊บผ๋ฒ์ ์กฐ์ ๋ฉ๋๋ค. ์ด ๊ฒฐ๊ณผ ์ค ๊ฐ์ฅ ์ต์ ํ๋ ์์ ์์ธ๊ฐ ๋ฐ๋ก ํ์ฌ ์๊ฐ์ ๋ฌผ์ฒด ์ถ์ ์์ธ T_{t}๊ฐ ๋๊ณ , ์ด์ ๊ฒ๋ค์ ๊ทธ๋ํ ๋ฉ๋ชจ๋ฆฌ์์ ๋ ์ด์ ์ฐ์ด์ง ์์ผ๋ฉด ํ๊ธฐ๋๊ฑฐ๋(์ฌ๋ผ์ด๋ฉ ์๋์ฐ) ํ์์ ์ ์ง๋ฉ๋๋ค.
์์ฝํ๋ฉด, ๋ฐฑ์๋๋ ๋งค ์ ๋ ฅ ์ํ์ค์ ๋ํด (ํฌ์ฆ ์ต์ ํ โ ํ์ ์ต์ ํ) ๋ฃจํ๋ฅผ ๋๋ฉด์, ์ ๊ฒฝ SDF ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ \Theta์ ๋ฌผ์ฒด ์์ธ T๋ฅผ ๊ต๋๋ก ๋ณด์ ํด ๋๊ฐ๋๋ค. ์ด๋ฅผ ํตํด ํ์ ์ง๋์ ์์น ์ถ์ ์ด ๋์์ ์ ๋ฐํด์ง๋๋ค. NeuralFeels์ ์ ๊ทผ๋ฒ์ ์์ ํ ์๋ํฌ์๋ ๋ฅ๋ฌ๋๊ณผ ๋ฌ๋ฆฌ, ์ด๋ ๊ฒ ๋ชจ๋ํ๋ ์ต์ ํ๋ก ์ด๋ฃจ์ด์ ธ ์์ด์ ๊ฒฐ๊ณผ๋ฌผ์ด ํด์ ๊ฐ๋ฅํ๊ณ ์ ๋ขฐ์ฑ์ด ๋์ต๋๋ค. (์๋ฅผ ๋ค์ด ์ต์ข ์ถ๋ ฅ์ธ SDF ๊ธฐ๋ฐ 3D ๋ชจ๋ธ๊ณผ ๋ฌผ์ฒด ์์ธ ๊ฒฝ๋ก๋ ์ฌ๋์ด ์ดํดํ๊ธฐ ์ฝ๊ณ , ๋ก๋ด์ ํ์ ์์ ์๋ ์ง์ ํ์ฉ ๊ฐ๋ฅํฉ๋๋ค.) ๋ํ ํ๋์จ์ด ์ธก๋ฉด์์๋ ํน์ํ ๋ฉํฐ์นด๋ฉ๋ผ ์ฅ์น๋ ๋น์ ๋ชจ์ ์บก์ฒ ์์ด ๊ฐ๋จํ ์ผ์ ๊ตฌ์ฑ(์นด๋ฉ๋ผ 1๋ + ์ด๊ฐ์ผ์ ๋ช ๊ฐ)์ผ๋ก ์ด ๋ฌธ์ ๋ฅผ ํ์๋ค๋ ์ ์ด ๋๋ณด์ ๋๋ค.
3.3 ์คํ: ์๋ฎฌ๋ ์ด์ ๋ฐ ์ค์ ๋ก๋ด ๊ฒ์ฆ
NeuralFeels์ ์ฐ๊ตฌ์ง์ ์ ๋ฐฉ๋ฒ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด ํ๋ซํผ ์์ชฝ์์ ๊ตฌํํ๊ณ ํ๊ฐํ์ต๋๋ค. ํ๋์จ์ด๋ ๋ค์ฏ ์๊ฐ๋ฝ์ ๊ฐ์ง ๋ก๋ด ์(์๋ง Shadow Hand๋ ๋น์ทํ ๋ค์ง ํธ๋๋ก ์ถ์ )์ด๋ฉฐ, ๊ฐ ์๊ฐ๋ฝ ๋์ DIGIT ์ด๊ฐ ์ผ์๊ฐ ์ฅ์ฐฉ๋์ด ์์ต๋๋ค. ์๋ชฉ์๋ ๊ด์ ๊ฐ๋ ์ผ์๋ก ์๊ฐ๋ฝ ์์น๋ฅผ ์ฝ๊ณ , ํ๊ฒฝ์๋ Realsense RGB-D ์นด๋ฉ๋ผ(๊ณ ์ )๊ฐ ์ค์น๋์์ต๋๋ค. ๋ฌผ์ฒด๋ ์ฌ๋ ์ฃผ๋จน ์ ๋ ํฌ๊ธฐ์ ์ผ์ ๋ฌผ๊ฑด๋ค๋ก, ์๋ฎฌ๋ ์ด์ ์์๋ ๋ฌผ์ฒด 3D ๋ชจ๋ธ(๋ฉ์)์ ์์๋ก ์ ํํด ๊ฐ์ ๋ฌผ๋ฆฌ์์ง(IsaacGym) ์์์ ์์ด ์ฅ๊ณ ๋๋ ธ์ต๋๋ค. ์ค์ ์คํ์์๋ ๋์ผํ๊ฑฐ๋ ์ ์ฌํ ๋ฌผ๊ฑด์ 3Dํ๋ฆฐํ ํ๊ฑฐ๋ ์ค๋นํ์ฌ ๋ก๋ด ์์ ์ฅ๊ฒ ํ์ต๋๋ค. ๋ฌผ์ฒด๋ก๋ ์ฅ๋๊ฐ ์ค๋ฆฌ, ์ฃผ์ฌ์ ๋ชจํ, ๋ฃจ๋น ์ค ํ๋ธ, ๋ธ๋ก ๋ฑ ๋ค์ํ ํํ์ ํ๋ฉดํน์ฑ์ ๊ฐ์ง ๊ฒ๋ค์ด ์ฌ์ฉ๋์์ต๋๋ค (์ผ๋ถ๋ YCB ๋ฒค์น๋งํฌ๋ ContactDB์์ ๋ชจ๋ธ์ ๊ฐ์ ธ์๋ค๊ณ ์ธ๊ธ๋ฉ๋๋ค).
In-hand ํ์ ์ ์ฑ : ์คํ์์ ๋ก๋ด ์์ ๋ฌผ์ฒด๋ฅผ ์๋ฐ๋ฅ ์์์ ์ง์ ์ํ๋ก ์์ํ์ฌ, ์์ ๋กญ๊ฒ ํ์ ์์ผฐ์ต๋๋ค. ์ด ๋์์ ์ํ ์ ์ฑ (policy)์ ์ด ์ฐ๊ตฌ์ ์ด์ ์ ์๋์ง๋ง, Haozhi Qi ๋ฑ์ด ๊ฐ๋ฐํ HORA(In-Hand Object Rotation via Rapid Motor Adaptation) ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ๋ค๊ณ ํฉ๋๋ค. ์ฝ๊ฒ ๋งํด, ๋ฌผ์ฒด๋ฅผ ๋์น์ง ์์ผ๋ฉด์ ์๊ฐ๋ฝ๋ค๋ง์ผ๋ก ์ฐ์ ํ์ ์ ์คํํ๋ ํ์ต๋ ์ ์ด๊ธฐ๋ฅผ ์ด ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ์ฝ ์ ์ด ๊ฐ ํ์ ์ํค๋ฉด, ๋ฌผ์ฒด์ ์ฌ๋ฌ ๋ฉด์ด ์๊ฐ๋ฝ์ ๋ฟ์๋ค ๋จ์ด์ง๋ฉฐ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ฃผ๊ณ , ์นด๋ฉ๋ผ ์์ ์์๋ ๋ค์ํ ๊ฐ๋๋ก ๋ฌผ์ฒด๋ฅผ ๋ณด๊ฒ ๋ฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์์ชฝ ๋ชจ๋ ๋ณดํต ํ ์ํ์ค ๊ธธ์ด๊ฐ ์๋ฐฑ ํ๋ ์(๋ช ์ด) ์ ๋๋ก ์งํ๋์์ต๋๋ค. FeelSight ๋ฐ์ดํฐ์ ์๋ ์ด๋ฌํ ํ์ ์ํ์ค๊ฐ ์ด 70๊ฐ ๋ด๊ฒจ ์์ผ๋ฉฐ (์๋ฎฌ๋ ์ด์ 40ํ, ์ค์ 30ํ), ๊ฐ ์ํ์ค๋ ๋ค๋ฅธ ๋ฌผ์ฒด์ ์ด๊ธฐ ๋ฐฐ์น๋ก 5ํ ๋ฐ๋ณต๋์ด ํต๊ณ์ ์ ํจ์ฑ์ ํ๋ณดํ์ต๋๋ค. ๋ฐ์ดํฐ์ ์ HuggingFace๋ฅผ ํตํด ๊ณต๊ฐ๋์ด ์์ด, ์๋ฎฌ๋ ์ด์ 25GB, ์ค์ 15GB, ์ถ๊ฐ๋ก ๊ฐ๋ ค์ง ์์ ์คํ 12GB ๋ฑ์ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค (๊น์ด ์์, ์ด๊ฐ ํ๋ ์, ๋ก๋ด ์ํ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์ ๊ฒฝ์ฐ ์ถ์ ๋ โ์ค-์ ๋ตโ ์์ธ ๋ฑ์ด ํฌํจ).
ํ๊ฐ์งํ: ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ํ์ ์ฌ๊ตฌ์ฑ ์ ํ๋์ ์์ธ ์ถ์ ์ ํ๋ ๋ ์ถ์ ์ธก์ ํ์ต๋๋ค. - ํ์ ์ ํ๋๋ F-Score๋ก ํํํ๋๋ฐ, ์ด๋ 3D ๋ชจ์ ๋น๊ต์ ์ ๋ฐ๋(precision)์ ์ฌํ์จ(recall)์ ์กฐํํ๊ท ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์คํ ์ข ๋ฃ ํ ์ป์ ์ ๊ฒฝ์ฅ SDF ๋ชจ๋ธ์ Marching Cubes๋ก ๋ฉ์ ์ถ์ถํ์ฌ ์ฌ๊ตฌ์ฑ๋ ๋ฌผ์ฒด ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ์ด๋ฅผ ๊ทธ๋ผ์ด๋ํธ๋ฃจ์ค ๋ฉ์ฌ(์๋ฎฌ๋ ์ด์ ์ ์๊ณ ์๊ณ , ์ค์ ๋ ์ฌ์ ์ค์บํ๊ฑฐ๋ CAD ๋ชจ๋ธ ์ฌ์ฉ)์ ๋น๊ตํฉ๋๋ค. ๋ ๋ฉ์ฌ๋ฅผ ์ ํฉํ์ฌ ์๋ก์ ์ ๋ค์ ์ผ์ ์๊ณ ๊ฑฐ๋ฆฌ(์: 5mm) ์ด๋ด์ ๊ฐ๋ ๋น์จ์ ๊ณ์ฐํฉ๋๋ค. ์ ๋ฐ๋๋ ์ฌ๊ตฌ์ฑ ๋ฉ์ฌ์ ์ ๋ค ์ค GT์ ๊ทผ์ ํ ๋น์จ, ์ฌํ์จ์ GT ์ ๋ค ์ค ์ฌ๊ตฌ์ฑ์ ์ํด ์ค๋ช ๋๋ ๋น์จ์ ๋๋ค. ๋ ๊ฐ์ ์กฐํํ๊ท ์ด F-Score๋ก, ๋์์๋ก GT์ ์ฌ๊ตฌ์ฑ์ด ์ ์ผ์นํ๋ค๋ ์๋ฏธ์ ๋๋ค. - ์์ธ ์ถ์ ์ค์ฐจ๋ ADD-S (Average Distance โ Symmetry) ์งํ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๋ฌผ์ฒด์ 3D ํ๋ฉด ํฌ์ธํธ ์งํฉ์ ์ผ์ ๊ฐ๊ฒฉ ์ํ๋งํ์ฌ, ์ถ์ ์์ธ๋ก ๋ณํํ ์ ๋ค๊ณผ GT ์์ธ์ ์ ๋ค ์ฌ์ด์ ์ต๊ทผ์ ๊ฑฐ๋ฆฌ ํ๊ท ์ ๊ตฌํ ๊ฒ์ ๋๋ค. ๋ฌผ์ฒด์ ๋์นญ ๊ตฌ์กฐ๊ฐ ์์ผ๋ฉด (์: ์ ์ก๋ฉด์ฒด ์ฃผ์ฌ์์ฒ๋ผ ํ์ ํด๋ ๋ชจ์ ๊ฐ์ ๊ตฌ๋ถ ์ ๋๋ ๊ฒฝ์ฐ), ์ต๊ทผ์ ๊ธฐ์ค์ผ๋ก ํ์ฌ ์ค์ฐจ๊ฐ ๊ณผ๋ํ๊ฐ๋์ง ์๋๋ก ํฉ๋๋ค. ADD-S ์ค์ฐจ๋ ๋ฎ์์๋ก (mm ๋จ์๋ก ํ๊ธฐ) ์ถ์ ์ด ์ ๋์๋ค๋ ๋ป์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ GT ์์ธ๋ฅผ ์๊ณ ์์ผ๋ฏ๋ก ์ง์ ๊ณ์ฐ ๊ฐ๋ฅํ์ง๋ง, ์ค์ ์คํ์์๋ GT ์์ธ๋ฅผ ์ป๊ธฐ ์ด๋ ค์์ โ์ค์ง๋โ ๋ฐฉ์์ ์ผ์ต๋๋ค. ๋ฐฉํด ์๋ ํ๊ฒฝ์์ ์นด๋ฉ๋ผ ์ฌ๋ฌ ๋๋ฅผ ๋์ํด ๋ฌผ์ฒด๋ฅผ ๊ด์ฐฐํ๊ณ , NeuralFeels ์๊ณ ๋ฆฌ์ฆ์ CAD ๋ชจ๋ธ์ด ์๋ ๋ชจ๋๋ก ๋๋ ค ์ป์ ์ต์์ ์ถ์ ๊ฒฐ๊ณผ๋ฅผ โGTโ์ฒ๋ผ ์ฌ์ฉํ ๊ฒ์ ๋๋ค. (๋ชจ์ ์บก์ฒ๋ ๋ง์ปค๊ฐ ๊ฐ์ญํ์ฌ ์ด๋ ค์ ๋ค๊ณ ํ๋ค์.)
๋น๊ต ๊ธฐ๋ฒ ๋ฐ ์คํ ์๋๋ฆฌ์ค: ์ ์๋ค์ NeuralFeels์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ๋น๊ต ๋ชจ๋๋ฅผ ์ค์ ํ์ต๋๋ค: 1. Vision-only vs Visuo-tactile: ๋ณธ ๋ ผ๋ฌธ์ ํต์ฌ์ ์ด๊ฐ์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ฐ์ ๋๋ ๋ถ๋ถ์ด๋ฏ๋ก, ์ด๊ฐ์ ๋ฐฐ์ ํ ๊ฒฝ์ฐ๋ฅผ ์ผ์ข ์ baseline์ผ๋ก ์ผ์์ต๋๋ค. ์ฆ ์๊ฐ ์ ์ฉ ๋ชจ๋์์๋ ์นด๋ฉ๋ผ ๊น์ด๋ก๋ง ๋์ผํ ํ์ดํ๋ผ์ธ์ ๋๋ฆฌ๊ณ , ์๊ฐ+์ด๊ฐ ๋ชจ๋์์๋ ์ ์ฒด ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ๋ค ํ์ฉํฉ๋๋ค. ๋ ๊ฒฝ์ฐ์ ํ์/์์ธ ์ฑ๋ฅ์ ๋น๊ตํ์ฌ, ํนํ ์์ผ๊ฐ๋ฆผ ์ ๋์ ๋ฐ๋ผ ์ด๋ค ์ฐจ์ด๊ฐ ๋๋์ง ๋ถ์ํ์ต๋๋ค. 2. Unknown Object SLAM vs Known Object Tracking: ๋ฏธ์ง ๊ฐ์ฒด SLAM ์๋๋ฆฌ์ค์์๋ ๋ฌผ์ฒด์ CAD ๋ชจ๋ธ์ด๋ ์ฌ์ ์ ๋ณด ์์ด Shape+Pose ๋์์ถ์ ์ ํ๋ ์์ ํ NeuralFeels๋ฅผ ํ๊ฐํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ด ์๋ ค์ง ๊ฐ์ฒด ์ถ์ ์๋๋ฆฌ์ค๋ ๋ฐ๋ก ๋์๋๋ฐ, ์ด๋๋ NeuralFeels์ ์ ๊ฒฝ์ฅ SDF ๋ชจ๋ธ์ ๋ฌผ์ฒด์ GT CAD๋ก ์ด๊ธฐํํ๊ฑฐ๋ ์์ ๊ณ ์ ํ ์ฑ, ํฌ์ฆ๋ง ์ถ์ ํ๋๋ก ํ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ ๋ฉํฐ๋ชจ๋ฌ ์ถ์ ๊ธฐ๋ก์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ํนํ ์ด ๊ฒฝ์ฐ ๋ฌผ์ฒด๊ฐ ๊ฑฐ์ ๋ณด์ด์ง ์์ ๋ (์: ์์ ํ ์์ ๊ฐ๋ ค์ง) ์ด๊ฐ๋ง์ผ๋ก ์ด๋ ์ ๋ ์ถ์ ์ด ๊ณ์๋๋์ง ํ์ธํ ์ ์์ต๋๋ค. ๋ํ ์๊ฐ์ ์ฉ ์ถ์ ๊ธฐ(CAD ์๊ณ ๋ฆฌ์ฆ + ICP ๋ฑ) ๋๋น ํฅ์์ ์ ๋ํํ์ต๋๋ค. 3. Occlusion & Noise Stress Test: ๋ง์ง๋ง์ผ๋ก ์๊ฐ์ผ์์ ์์ผ ๊ฐ๋ฆผ ์ ๋์ ๋ ธ์ด์ฆ ๋ณํ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ์คํํ์ต๋๋ค. ์์ผ ๊ฐ๋ฆผ์ ์นด๋ฉ๋ผ ์์น๋ฅผ ๋ฌ๋ฆฌํ์ฌ ๋ฌผ์ฒด๋ฅผ ๋ณด๋ ๊ฐ๋ ๋ฒ์๋ฅผ ๊ตฌ๋ถํ์ต๋๋ค. ์์ปจ๋ ์ด๋ค ๊ฐ๋์์๋ ๋ฌผ์ฒด๊ฐ ์์ผ๋ก ๊ฑฐ์ ๊ฐ๋ ค์ ธ ์๊ณ , ์ด๋ค ๊ฐ๋์์๋ ์ ๋ณด์ด๋ ์์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์นด๋ฉ๋ผ๋ฅผ ๊ตฌ ํํ๋ก ๋๋ฌ ๋ฐฐ์นํด๊ฐ๋ฉฐ ํฌ์ฆ ์ค์ฐจ ๋ณํ๋ฅผ ๋ถ์ํ์ต๋๋ค. ํํธ ๋ ธ์ด์ฆ ์คํ์์๋ RealSense ์นด๋ฉ๋ผ์ ๊น์ด ๋ ธ์ด์ฆ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ๊น์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ง์ ์ผ๋ก ๋ ๋ถ์ ํํ๊ฒ ๋ง๋ค๊ณ , ๊ทธ์ ๋ฐ๋ฅธ ์ถ์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์์ต๋๋ค. ์ด๋ ์กฐ๋ช ์ด๋ ๋ฌผ์ฒด ์ฌ์ง(์: ์ ๊ด ๋ฌผ์ฒด) ๋ฑ์ ๋ฐ๋ฅธ ์ค์ ์ผ์ ๋ถ์์ ์ํฉ์ ๋ชจ์ฌํ ๊ฒ์ ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ: - ๋ฏธ์ง ๋ฌผ์ฒด SLAM: NeuralFeels๋ ์๋ฌด ์ฌ์ ์ ๋ณด ์๋ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ๋์์ผ๋ก ์์ ์ ์ผ๋ก 3D ๋ชจ๋ธ์ ํ์ฑํ๊ณ ์ถ์ ํด๋์ต๋๋ค. ํ๊ท F-Score ์ฝ 81% ์์ค์ผ๋ก ํ์์ ๋ณต์ํ์ผ๋ฉฐ, ADD-S ์์ธ ์ค์ฐจ ํ๊ท 4.7โฏmm๋ก ์ด๊ธฐ ์์น์์ ํฌ๊ฒ ๋ฒ์ด๋์ง ์๊ณ ๋๊น์ง ์ถ์ ์ ์งํ์ต๋๋ค. ์ด ๊ฒฐ๊ณผ๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์์ ํฐ ์ฐจ์ด ์์ด ์ ์ฌํ ์ฑ๋ฅ์ด์์ผ๋ฉฐ, ์ด๋ ํ์ต๋ ์ด๊ฐ ํธ๋์คํฌ๋จธ์ ์๋ฎฌ๋ ์ด์ โ์ค์ ์ผ๋ฐํ๊ฐ ์ฑ๊ณต์ ์์ ๋ฐ์ฆํฉ๋๋ค. ๋น์ ์ ์ฉ ๋๋น ๋ฉํฐ๋ชจ๋ฌ์ ์ด์ ์ ํนํ ์ด๋ ค์ด ์ํฉ์์ ๋๋๋ฌ์ก์ต๋๋ค. ์ ์ฒด 70ํ ์คํ์ ํต๊ณ๋ผ ๋ ์๊ฐ+์ด๊ฐ ์ตํฉ์ด ๋ชจ๋ ์คํ์์ ํ์ F-์ค์ฝ์ด๋ฅผ ๋ ๋๊ฒ ๋ฌ์ฑํ๊ณ , ์์ธ ๋๋ฆฌํํธ๋ ์ค์ฌ์ฃผ์ด Vision-only๊ฐ ๊ฐํน ์ถ์ ์ ์คํจํ๋ ์ผ์ด์ค๋ค์ ํ์ ํ ์ค์์ต๋๋ค. ๋ ผ๋ฌธ Figure 3(c)์์๋ Vision-only์ ์ถ์ ์คํจ ํ์๊ฐ ๋ง์ง๋ง Visuo-tactile์ ์คํจ๋ ํจ์ฌ ์ ๋ค๋ ์ ์ ๋ณด์ฌ์ค๋๋ค. ์ ์ฑ์ ์ธ ์๋ก, Vision-only๋ ํฐ ์ฃผ์ฌ์์ ์จ์ ๋ฉด์ด๋ ๊ณ ๋ฌด ์ค๋ฆฌ์ ๋ฑ ๋ค์ฒ๋ผ ๋ณด์ด์ง ์๋ ๋ถ๋ถ์ ์ ๋๋ก ์ฌํ ๋ชปํ์ง๋ง, ์ด๊ฐ์ ์ด ๋ฐฉ๋ฒ์ ๊ทธ ๋ถ๋ถ๊น์ง ๋น๊ต์ ์์ฑ๋ ํํ๋ฅผ ์ป์์ต๋๋ค. ์ด๋ ์ด๊ฐ ์ ๋ณด๊ฐ ๋ณด์ด์ง ์๋ ํ๋ฉด์ ๋ฉ์์ฃผ์ด ๋ฌผ์ฒด ๋ชจ๋ธ์ ์์ฑ๋(completion)๋ฅผ ๋์ฌ์คฌ๊ธฐ ๋๋ฌธ์ ๋๋ค.
CAD ๋ชจ๋ธ ์ถ์ : ๋ฌผ์ฒด์ 3D ๋ชจ๋ธ์ด ๋ฏธ๋ฆฌ ์ฃผ์ด์ ธ ์๋ ๊ฒฝ์ฐ, NeuralFeels๋ ์ ๊ฒฝ์ฅ ํ์ต์ ์๋ตํ๊ณ ์์ธ ์ถ์ ์ ์ฉ ๋ชจ๋๋ก ๋์ํฉ๋๋ค. ์ด ๊ฒฝ์ฐ ์ด๊ธฐ ๋ช ํ๋ ์๋ง์ ๋ฌผ์ฒด ์์ธ๋ฅผ ์ ํํ ์ฐพ์๋ธ ๋ค, ์ดํ์๋ LM ์ต์ ํ + ์ด๊ฐ ๋ณด์กฐ๋ก ๋งค์ฐ ๋ฎ์ ๋๋ฆฌํํธ๋ฅผ ์ ์งํ์ต๋๋ค. ํ๊ท 2.3โฏmm ์ค์ฐจ ์์ค์, ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ ๊ธฐ๋ฐ 6-DoF ์ถ์ ๊ธฐ๋ค(์: ICP ๊ธฐ๋ฐ)๋ณด๋ค๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ์ ๋๋ค. ํนํ ์์ผ๊ฐ ๊ฐ๋ ค์ง์๋ก ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๊ทน๋ช ํด์ก๋๋ฐ, Vision-only ์ถ์ ์ ๊ฒฝ์ฐ ์๊ฐ๋ฆผ์ผ๋ก ํน์ง์ด ๋ถ์กฑํด์ง๋ฉด ๋จธ๋ญ๊ฑฐ๋ฆฌ๊ฑฐ๋ ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ํ๋ ๋ฐ๋ฉด, ์ด๊ฐ ์ตํฉ ์ถ์ ์ ์๋์์ ๋๋ ์์ง์์ ํฌ์ฐฉํ์ฌ ์ฐ์์ฑ ์๊ฒ ์ถ์ ํ์ต๋๋ค. ์ด์ ๋ฐ๋ผ ๊ฐํ occlusion ํ๊ฒฝ์์ ์ต๋ 94%๊น์ง ์ถ์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค๊ณ ๋ณด๊ณ ๋ฉ๋๋ค. Figure 4์ ํด๋นํ๋ ๊ฒฐ๊ณผ์์, ์๊ฐ์ด ๊ฑฐ์ ์ฐจ๋จ๋ ๊ทน๋จ์ ๊ฐ๋์์์กฐ์ฐจ ์ด๊ฐ์ด ๋ก์ปฌํ๊ฒ ๋ณด์ถฉ ์์ผ ์ญํ ์ ํ์ฌ ์ถ์ ์ ์ด์ด๊ฐ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ฐ๋๋ก ๋ฌผ์ฒด๊ฐ ์นด๋ฉ๋ผ์ ์ ๋ณด์ด๋ ๊ฒฝ์ฐ์๋ ์ด๊ฐ์ ์ํฅ์ด ์๋์ ์ผ๋ก ์ ์๋๋ฐ, ์ด๋๋ Vision-only๋ ์ถฉ๋ถํ ์ ์ถ์ ํ ์ ์์ผ๋ฏ๋ก ์ด๊ฐ์ ๋ฏธ์ธํ ๋ณด์ ์ ๋์ ์ญํ ์ ํฉ๋๋ค. ์ด ๊ด์ฐฐ์ โ์ด๊ฐ์ ์๊ฐ์ด ๋ชจํธํ ๋ ๊ฒฐ์ ์ ์ผ๋ก ๋์์ด ๋๊ณ , ์๊ฐ ์ ๋ณด๊ฐ ํ๋ถํ ๋๋ ์ธ๋ถ๋ฅผ ๋ค๋ฌ์ด์ฃผ๋ ์ญํ ์ ํ๋คโ๋ ์ฐ๊ตฌ์ง์ ๊ฒฐ๋ก ๊ณผ๋ ์ผ์นํฉ๋๋ค.
๋ ธ์ด์ฆ ๋ฏผ๊ฐ๋ ๋ถ์: ์๋ฎฌ๋ ์ด์ ์์ ์นด๋ฉ๋ผ ๊น์ด๋งต์ ์ ์ง์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํด๋ณธ ๊ฒฐ๊ณผ, Vision-only ๋ฐฉ์์ ๋ ธ์ด์ฆ๊ฐ ์ปค์ง๋ฉด ์ถ์ ์ค๋ฅ๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ ๋ฐ๋ฉด, ๋ฉํฐ๋ชจ๋ฌ ๋ฐฉ์์ ์๋์ ์ผ๋ก ์๋งํ๊ฒ ์ ํ๋์์ต๋๋ค. ์ด๋ ์ด๊ฐ ์ผ์๊ฐ ๋ ธ์ด์ฆ ์ํฅ์ ๋ฐ์ง ์์ผ๋ฏ๋ก (๋ฌผ๋ก ์ค์ ์ด๊ฐ์๋ ์ฝ๊ฐ์ ์ก์์ ์๊ฒ ์ง๋ง, ๊น์ด ์นด๋ฉ๋ผ๋งํผ ํฌ์ง ์์) ์ด๋ ์ ๋ ๊ฒฌ์ธ ์ญํ ์ ํด์ค ๋๋ถ์ ๋๋ค. RealSense ๋ฑ์ ์ค์ ๊น์ด์ผ์๋ ํ๊ฒฝ์ ๋ฐ๋ผ ๋์๋์ ์ ์ด ๋๋ฝ๋๊ฑฐ๋ ์๋ชป ์ธก์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ฐ, ์ด๋ฌํ ๊ฒฝ์ฐ์๋ ์ด๊ฐ์ด ๋ณด๊ฐ ์ ํธ๋ก ์์ฉํ๋ฉด ๋ ๊ฒฌ๊ณ ํ ์ถ์ ์ด ๊ฐ๋ฅํจ์ ์์ฌํฉ๋๋ค.
FeelSight ๋ฐ์ดํฐ์
: ์์ ์ธ๊ธํ 70๊ฐ ์คํ ์ํ์ค ๋ฌถ์์ธ FeelSight๋ ์ด ๋ถ์ผ์ ์ฒซ ๋ฒ์งธ ๊ณต๊ฐ ๋ฒค์น๋งํฌ๋ก ์๋ฏธ๊ฐ ํฝ๋๋ค. ์๋ฎฌ๋ ์ด์
40๊ฐ์ ์ค์ 30๊ฐ์ in-hand ํ์ ์๋๋ฆฌ์ค๊ฐ ๋์ผ ํฌ๋งท์ผ๋ก ์ ๊ณต๋์ด, ๋ชจ๋ธ ํ์ต์ด๋ ํ ์๊ณ ๋ฆฌ์ฆ ํ๊ฐ์ ํ์ฉํ ์ ์์ต๋๋ค. ํนํ ์ด๊ฐ๊ณผ ์๊ฐ์ ๋์์ ์ ๊ณตํ๋ ๋ฐ์ดํฐ๊ฐ ๋๋ฌผ๊ธฐ ๋๋ฌธ์, ํฅํ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ง ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐ ํ์ค์ผ๋ก ์๋ฆฌ์ก์ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ์
์๋ ๊ฐ๊ฐ์ ์ํ์ค์ ๋ํด ์ด๋น 1fps, 5fps ๋ฑ ์ฌ๋ฌ ๋ฒ์ ์ด ์๊ณ , Occlusion ์ ์ฉ ์คํ ์ธํธ๋ ๋ณ๋๋ก ํฌํจ๋์ด ์์ต๋๋ค. ๋ํ huggingface์ ๋ชจ๋ธ ์ ์ฅ์๋ฅผ ํตํด ํ์ต๋ ์ด๊ฐ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๊ณผ ์ธ๊ทธ๋จผํธ์๋์ฑ ๊ฐ์ค์น ๋ฑ๋ ์ ๊ณต๋์ด, ์ฐ๊ตฌ์๋ค์ด ๋ฐ๋ก ์ฌํ ์คํ์ ํด๋ณผ ์ ์๊ฒ ํ์ต๋๋ค. GitHub ์ฝ๋ ์์์ ./scripts/run ์คํฌ๋ฆฝํธ๋ฅผ ํธ์ถํ๋ฉด ๋ค์ํ ๋ชจ๋(vi: vision only, vitac: vision+tactile, tac: tactile only ๋ฑ)๋ก ๋ฐ์ดํฐ๋ฅผ ์ฌ์ํ๋ฉฐ ์๊ณ ๋ฆฌ์ฆ์ ์คํํด๋ณผ ์ ์๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค.
3.4 ๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ , ์ฝ์ ๊ณผ ๋ฏธ๋ ๋ฐฉํฅ
NeuralFeels๋ ๋ก๋ด ์๊ฐ-์ด๊ฐ ํตํฉ ์ธ์ง ๋ถ์ผ์์ ์ฌ๋ฌ ์ค์ํ ์ง์ ์ ์ด๋ค์ต๋๋ค. ์ฐ์ ํต์ฌ ๊ฐ์ ์ ์ ๋ฆฌํด๋ณด๋ฉด:
๋ฉํฐ๋ชจ๋ฌ ํตํฉ์ ํจ๊ณผ ์ ์ฆ: ์ด ์ฐ๊ตฌ๋ ์คํ์ ์ผ๋ก ์ด๊ฐ์ ๊ฐ์น๋ฅผ ๊ณ๋ํํ์ต๋๋ค. ํนํ ์์ผ๊ฐ๋ฆผ์ด๋ ์ผ์ ๋ ธ์ด์ฆ ๊ฐ์ ํ์ค์ ๋ฌธ์ ์์ ์ด๊ฐ์ด ์์ ๋์ ์์ ๋์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ช ํํ ๋ณด์ฌ์ค์ผ๋ก์จ, ํฅํ ๋ก๋ด ์์คํ ์ ์ด๊ฐ ์ผ์ ์ฑํ์ ์ ๋นํํ๋ ๊ทผ๊ฑฐ๋ฅผ ๋ง๋ จํ์ต๋๋ค. ๊ทธ๊ฐ ์ด๊ฐ ์ผ์๋ ๊ตฌํ ๋ณต์ก์ฑ๊ณผ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ด๋ ค์ ๋๋ฌธ์ ๋ถ์ฐจ์ ์ทจ๊ธ์ ๋ฐ๊ณค ํ์ง๋ง, ๋ณธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ โ์ด๊ฐ์ ์ฐ๋ฉด ์ด๋ ๊ฒ ์ข์์ง๋ค!โ๋ฅผ ์์น๋ก ์ ์ํ์ฌ ๋ก๋ด๊ณตํ์๋ค์๊ฒ ์์ฌํ๋ ๋ฐ๊ฐ ํฝ๋๋ค.
๋ฏธ์ง ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐ์ฑ: NeuralFeels๋ ๋ฌผ์ฒด ๋ฒ์ฃผ๋ ์ฌ์ ๋ชจ๋ธ ์ ํ ์์ด ๋์ํฉ๋๋ค. ์ด์ ์ ๋๋ถ๋ถ in-hand ์ถ์ ์ฐ๊ตฌ๋ค์ CAD ๋ชจ๋ธ์ด ์๋ ๋ฌผ์ฒด๋ง ๋ค๋ฃจ๊ฑฐ๋, ๋ฌผ์ฒด๋ฅผ ๋ง์ปค๋ก ํ๊น ํ๋ ๋ฐฉ์์ด ๋ง์์ต๋๋ค. ๋ฐ๋ฉด ๋ณธ ๊ธฐ๋ฒ์ ์์ ๋ชจ๋ธ ํ๋ฆฌ(model-free)์ด๋ฉฐ, ์ฌ์ง์ด ์นดํ ๊ณ ๋ฆฌ ์์ค ์ฌ์ ํ์ต์กฐ์ฐจ ์์ต๋๋ค. ๋งค ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์ ๋ก-์ท์ผ๋ก ๋ค๋ฃจ๋ฉด์๋ ํ๋ฅญํ ์ฌ๊ตฌ์ฑ ํ์ง์ ๋ณด์ธ ๊ฑด ๋๋ผ์ด ์ ์ ๋๋ค. ์ด๋ ๊ฐ์ ํ๊ฒฝ ๋ฑ ๋ฌด๊ถ๋ฌด์งํ ์ข ๋ฅ์ ๋ฌผ๊ฑด์ ๋ค๋ค์ผ ํ๋ ๋ก๋ด์๊ฒ ํ์์ ์ธ ๋ฅ๋ ฅ์ด์ฃ .
Neural SLAM ํ๋ ์์ํฌ์ ์ฑ๊ณต: ์ ๊ฒฝ implicit ๋ชจ๋ธ์ ์จ๋ผ์ธ์ผ๋ก ์ต์ ํํ๋ ์ ๊ทผ์ ์์ง ์์ํ๋ฐ, NeuralFeels๋ ์ด๋ฅผ SLAM์ ๊ด์ ์์ ์ ๊ตฌ์กฐํํ์ต๋๋ค. ํคํ๋ ์ ๊ด๋ฆฌ, ์ง๋-ํฌ์ฆ ๊ต์ฐจ ์ต์ ํ, factor graph ๋ฑ ๊ฒ์ฆ๋ ๊ธฐ๋ฒ๋ค์ ํ์ฉํ์ฌ ์์ ์ ์๋ ด์ ์ป์์ต๋๋ค. ํนํ Theseus ๊ธฐ๋ฐ์ LM ์๋ฒ + ์ปค์คํ ์ ์ด์ฝฅian์ผ๋ก ์ต์ ํ ์๋๋ฅผ ๋์ธ ๋ถ๋ถ, ๊ทธ๋ฆฌ๊ณ ICP ํฉํฐ ๋์ ์ผ๋ก ์ค์ฉ ์ ๋ขฐ์ฑ์ ๊ฐํํ ๋ถ๋ถ์ ์์ง๋์ด๋ง์ ์น๋ฆฌ๋ผ ํ ๋งํฉ๋๋ค. ๋๋ถ์ ํ๋ จ ์์ด ์ค์๊ฐ ๋์ ๊ฐ๋ฅํ ์จ๋ผ์ธ ์ต์ ํ์์ ์ ์ํ์๊ณ , ๊ฒฐ๊ณผ๋ ์ฌ๋์ด ์ดํดํ๊ธฐ ์ข์ ํํ(ํฌ์ธํธ๋งต์ด๋ ๋ฉ์, 6-์์ธ ์ํ์ค)๋ผ์ ํฌ๋ช ์ฑ๋ ํ๋ณดํ์ต๋๋ค.
์ต์ ๊ธฐ์ ์ข ํฉ ํ์ฉ: ๋ ผ๋ฌธ์ ์์ธํ ๋ค์ฌ๋ค๋ณด๋ฉด, ์ต๊ทผ 1-2๋ ๊ฐ ๋ฑ์ฅํ ์ต์ ๊ธฐ๋ฒ๋ค์ ์ ์ฌ์ ์์ ํ์ฉํ์์ ์ ์ ์์ต๋๋ค. Segment-Anything์ผ๋ก ๋ํ๋๋ ๋น์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๋ก๋ด ํ์ฉ, DIGIT & TACTO๋ก ์์ง๋๋ ์ด๊ฐ ์ผ์ ํ๋์จ์ดยท์๋ฎฌ ๋ ์ด์ , Instant-NGP์ iSDF๋ก ์ด์ด์ง๋ ์ ๊ฒฝ์ฅ ๊ฐ์ ๊ธฐ์ , Levenberg-Marquardt์ Theseus๋ก ๋ํ๋๋ differentiable ์ต์ ํ, ViT ๊ธฐ๋ฐ ํธ๋์คํฌ๋จธ์ ์์ฉ ๋ฑ, ํ๋ํ๋๊ฐ ๊ฐ ๋ถ์ผ์ ์ต์ฒจ๋จ ์์๋ค์ ๋๋ค. NeuralFeels๋ ์ด๋ค์ ํ ๋ฐ ํตํฉํ์ฌ ์ค์ ๋ก๋ด ์์คํ ์ผ๋ก ๊ตฌํํด ๋๋ค๋ ๋ฐ ํฐ ์์๊ฐ ์์ต๋๋ค. ์ด๋ ๊ณง ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ์ฐ๊ตฌ์ ์ข ํฉ ์์๋ฅผ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก, ์์ผ๋ก ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์ด ๊ตฌ์ฑ์์๋ค์ ํ์ฉํ๊ฑฐ๋ ๊ฐ์ ํด๋๊ฐ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ฌํ์ฑ๊ณผ ๊ฐ๋ฐฉ์ฑ: ํ์ด์ค๋ถ/Meta ์ฐ๊ตฌ์ง ๋ต๊ฒ, ๋ณธ ๊ฒฐ๊ณผ๋ฌผ์ ์คํ์์ค๋ก ์ ์ ๋ฆฌ๋์ด ์ ๊ณต๋ฉ๋๋ค. ๋ฐ์ดํฐ์ ๊ณผ ์ฝ๋, ์ฌ์ ํ์ต๋ชจ๋ธ๊น์ง ํ์ธํธ๋ก ๊ณต๊ฐํ์ฌ ์ฌํ ์ฐ๊ตฌ์ ๋ชจ๋ฒ ์ฌ๋ก๊ฐ ๋์์ต๋๋ค. ์ด๋ฐ ๊ฐ๋ฐฉ์ ํด๋น ๋ถ์ผ์ ํ์ค ํ๊ฐ ์ ๋ฐ ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ผ๋ก ์ด์ด์ง๊ณ , ๋ ๋์ ํ์ ์ฐ๊ตฌ๋ฅผ ๋์ด๋ด๋ ์ ์ํ์ด ๋ ๊ฒ์ ๋๋ค.
ํํธ, ์ ํ์ ๊ณผ ์ฝ์ ๋ ๋ถ๋ช ์กด์ฌํฉ๋๋ค. ๋ช ๊ฐ์ง๋ฅผ ์ง์ ํด๋ณด๋ฉด:
๋ณต์กํ ์์คํ ๊ณผ ๊ณ์ฐ๋น์ฉ: NeuralFeels ํ์ดํ๋ผ์ธ์ ํ๋ ๊ฐ ๋ชจ๋์ด ์๋๋ผ ์ฌ๋ฌ ๋จ๊ณ์ ์ ๊ฒฝ๋ง๊ณผ ์ต์ ํ๊ฐ ์ฝํ ์์ต๋๋ค. SAM ์ธ๊ทธ๋ฉํ ์ด์ , ViT ํธ๋์คํฌ๋จธ ์ถ๋ก , ์ ๊ฒฝ์ฅ ํ์ต, LM ์ต์ ํ ๋ฑ์ด ๋งค ํ๋ ์๋ง๋ค ๋์๊ฐ๋ ์ฐ์ฐ๋์ด ์๋นํฉ๋๋ค. ๋ ผ๋ฌธ์์ ์ค์๊ฐ์ฑ์ ๋ํด ๋ช ์์ ์ผ๋ก ์ธ๊ธํ์ง๋ ์์์ง๋ง, ์๋ง GPU ๊ฐ์ ์์ด๋ ํ๋ค๊ณ , GPU๋ฅผ ์จ๋ ํ๋ ์๋น ์๋ฐฑ ms ์ด์์ ์๊ฐ์ด ๊ฑธ๋ฆด ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ์์ฃผ ๋น ๋ฅด๊ฒ ๋ฌผ์ฒด๋ฅผ ๋๋ฆฌ๋ ๊ฒฝ์ฐ ์ถ์ ์ง์ฐ์ด ์๊ธธ ์ ์์์ ์๋ฏธํฉ๋๋ค. ๋ค๋ง Instant-NGP ๋๋ถ์ ์ ๊ฒฝ์ฅ ํ์ต์ ๊ฝค ๋น ๋ฅด๋ค๊ณ ์๋ ค์ ธ ์๊ณ , Theseus LM๋ ํจ์จ์ ์ด๋ผ ์ต์ ํ ๋ถ๋ถ๋ ๋ณ๋ ฌํ๊ฐ ์ ๋๋ค๋ฉด ๊ฐ๊น์ด ์ค์๊ฐ ์์ค์ ๋ ์๋ ์์ต๋๋ค. ์ต์ ํ ์ดํฐ๋ ์ด์ ํ์๋ ํคํ๋ ์ ์๋์ฐ ํฌ๊ธฐ์ ๋ฐ๋ผ ํธ๋ ์ด๋์คํ๊ฐ ์๊ฒ ์ง์. ํฅํ ๊ฒฝ๋ํ ๋ฐ ์ต์ ํ ์๋ ๊ฐ์ ์ด ์ค์ฉํ๋ฅผ ์ํด ํ์ํ ๊ฒ์ ๋๋ค.
์ด๊ธฐ ์ํ ์์กด์ฑ: ํ์ฌ ๋ฐฉ๋ฒ์ ๋ฌผ์ฒด๋ฅผ ์ก์ ์ด๊ธฐ ์ํ์์ ์์ํฉ๋๋ค. ๋ฌผ์ฒด๋ฅผ ๋์น๋ค๋ ๊ฐ, ์ฒ์์ ๋ฌผ์ฒด๊ฐ ์ด๋ ์ ๋ ๋ณด์ฌ์ผ ์ธ๊ทธ๋ฉํ ์ด์ ์ด ๋ ํ ๋ฐ ๋ง์ฝ ์์ ์์ ํ ํ๋ฌปํ ์์ผ๋ฉด ์์์ ๋ชป ํ๋ค๋ ๊ฐ ํ๋ ์ด๊ธฐ ์กฐ๊ฑด ๋ฌธ์ ๊ฐ ์์ ์ ์์ต๋๋ค. ์ค์ ์ธ๊ฐ์ด ์ฃผ๋จธ๋ ์์์ ์ด์ ์ฐพ์ ๋ ์๋ ๊ฐ๊ฐ๋ง์ผ๋ก ์์ํ์ง๋ง, NeuralFeels๋ ์ด๊ธฐ๋ ์๊ฐ์ ์กฐ๊ธ ์์กดํด์ผ ํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค (SAM์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถํ๋ ค๋ฉด ์ฝ๊ฐ์ด๋ผ๋ ๋ณด์ฌ์ผ ํ๋๊น์). ๋ฌผ๋ก ์๊ฐ๋ฝ์ ๋ฟ์ผ๋ฉด ์ด๊ฐ๋ ์์๋๋, ์ด๋ ํ์ชฝ๋ 0์ธ ์ํ๋ ์๊ฒ ์ง๋ง, ์ด๊ธฐ ํ์ ์ ๋ต์ด ์ฃผ์ด์ง์ง ์์ผ๋ฉด ๋ฌด์์ ์๊ฐ๋ฝ ๋น๋น๋ ์์ผ๋ก๋ ์ด๋ ต์ฃ . ๋ ผ๋ฌธ์์๋ proprioception-driven ์ ์ฑ ์ผ๋ก ์๊ฐ๋ฝ์ ์์ง์๋ค ํ์ง๋ง, ๋ง์ฝ ๋ฌผ์ฒด ์์น๋ฅผ ์ด๊ธฐ์ ๋ชจ๋ฅธ๋ค๋ฉด ์ก๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ์ฆ ๋ฌผ์ฒด ์ง๊ธฐ(grasp) ์ดํ์ ๋ฌธ์ ์ค์ ์ด๋ผ, ์ง๊ธฐ ์ด์ ์ ์ด๊ฐ์ ํ์ฉํ๋ ๊ฑด ๋ฒ์ ๋ฐ์ ๋๋ค. ๋ฏธ๋์๋ ์ง๋ ๋จ๊ณ๋ถํฐ ์ด๊ฐ-์๊ฐ ํ๋ฃจํ๋ฅผ ๊ตฌ์ฑํ๋ ์ฐ๊ตฌ๋ก ํ์ฅ๋ ์ ์๊ฒ ์ต๋๋ค.
๋ชจ๋ธ์ ํ๊ณ์ ํ์ฅ์ฑ: ์ ๊ฒฝ SDF ๋ชจ๋ธ์ ์ฐ์ ํํ์ผ๋ก ์ ๋ฐํ์ง๋ง, ๋ณต์กํ ๋ชจ์์ ํ์ตํ ๋ ๋ก์ปฌ ์ฌ์ธํจ์ด ๋ถ์กฑํ ์ ์์ต๋๋ค. Instant-NGP๊ฐ multi-level grid๋ฅผ ํตํด ๋ง์ ๋ถ๋ถ ์ํํ์ง๋ง, ์ฌ์ ํ ์์ ๊ตฌ์กฐ๋ ๊ณ ํด์๋ ํ ์ค์ฒ ๊ฐ์ ๊ฒ์ ํํ์์ ๋์น ์ ์์ต๋๋ค. ๋คํํ ์ด๋ฒ ์ฐ๊ตฌ๋ ๋ฌผ์ฒด ํ์๋ง ๋ค๋ฃจ๊ณ , ํ๋ฉด ์ฌ์ง์ด๋ ์์ ๋ฌด๊ดํ์ง๋ง, ๋์ค์ ์๋ณ์ ์ํด ํ ์ค์ฒ๊น์ง ๊ณ ๋ คํ๋ ค๋ฉด ๋ ๋ณต์กํ ์ ๊ฒฝ์ฅ (์: radiance field)์ผ๋ก ํ์ฅํด์ผ ํ ์๋ ์์ต๋๋ค. ๋ํ ๋ฌผ์ฒด๊ฐ ๋น(้)๊ฐ์ฒด๊ฑฐ๋ ๋ณํ๋๋ ๊ฒฝ์ฐ์๋ SDF ํ๋๋ก๋ ์ ๋๊ณ ๋ ๋ณต์กํ ๋ชจ๋ธ์ด ํ์ํฉ๋๋ค. ์ด๋ฒ์ ๊ฐ์ฒด๋ง ๋์์ผ๋ก ํ์ต๋๋ค.
์ด๊ฐ ์ ๋ณด์ ๋ฒ์: DIGIT ์ด๊ฐ ์ผ์๋ ์๊ฐ๋ฝ ๊ทนํ ์ผ๋ถ ๋ฉด์ ์ ์ ์ด๋ง ์ ์ ์์ต๋๋ค. ์ฌ๋ ์์ ์ด๊ฐ์ ๋นํ๋ฉด ๋ฒ์์ ์ข ๋ฅ๊ฐ ์ ํ๋์ง์. ๊ทธ๋์ ๋ฌผ์ฒด ๋๋ถ๋ถ ํ๋ฉด์ ์ฌ์ ํ ์๊ฐ์ ์์กดํ ์๋ฐ์ ์์ต๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ์ ์ด๊ฐ์ โ๊ตญ๋ถ์ ์ธ ์ค๊ณฝ ์ ๋ณด๋ฅผ ์ ๊ณตํด ์ฃผ๋ ๋ณด์กฐโ ์ญํ ์ธ๋ฐ, ํฅํ ์ด๊ฐ ๋ฒ์๋ฅผ ๋๋ฆฌ๋ ค๋ฉด ์ผ์ ์ฌ๋ฌ ๊ฐ๋ฅผ ์ ์ ์ฒด์ ๋ถ์ด๊ฑฐ๋, ํ/ํ ํฌ ์ผ์๊น์ง ํฌํจํด ๋ณด๋ค ํ๋ถํ ์ด๊ฐ ํผ๋๋ฐฑ์ ์์งํ๋ ๋ฐฉํฅ๋ ์๊ฐํด๋ณผ ๋งํฉ๋๋ค.
์ธ๊ทธ๋ฉํ ์ด์ ์ ๋ขฐ์ฑ: SAM์ ํ์ฉํ๋ค๊ณ ํ์ง๋ง, ์ฌ์ ํ ์๋ฒฝํ์ง ์์ ์ ์์ต๋๋ค. ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด์ ๊ฒฝ๊ณ๊ฐ ์ ๋งคํ๊ฑฐ๋, ์๊ฐ๋ฝ์ ๋ฌป์ ๋ฌผ์ฒด์, ํน์ ๋ฌผ์ฒด ํ๋ฉด์ ๋ฐ์ฌ๊ฐ ์์ด ๊น์ด ์ค์ ์ด ์๊ธฐ๋ ๊ฒฝ์ฐ ์ค๋ถ๋ฅ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ ์๋ค๋ ์๋ชป๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ ๋๋นํด ํฌ์ฆ ์ต์ ํ์์ Pose regularizer๋ก ์์ถฉ์ ๋ฃ์์ง๋ง, ์์ฃผ ํฐ ์ค๋ฅ๊ฐ ์์ผ๋ฉด ์ถ์ ์ด ๊ผฌ์ผ ์ ์์ต๋๋ค. ์ธ๊ทธ๋ฉํ ์ด์ ์ค๋ฅ๋ ๋ก๋ด์๊ฒ ์น๋ช ์ ์ผ ์ ์์ผ๋ฏ๋ก, ์ด ๋ถ๋ถ์ ์์ ํ๊ฐ ์ค์ํฉ๋๋ค. ์ถํ์ ์๊ฐ-์ด๊ฐ-๊ธฐ๊ตฌํ ์ ๋ณด๋ฅผ ํฉ์น ๋์ ์ธ๊ทธ๋ฉํ ์ด์ ๊ธฐ๋ฒ์ผ๋ก ๋ ๊ฒฌ๊ณ ํ๊ฒ ๊ฐ์ ํ ไฝๅฐ๊ฐ ์์ต๋๋ค.
์ผ๋ฐํ๋ ์ํธ์์ฉ ๋ถ์กฑ: ๋ณธ ์คํ ์๋๋ฆฌ์ค๋ ์ค๋ก์ง ๊ณต์ค์์ ํ์ ๋ง ๋ค๋ฃน๋๋ค. ์ด๋ ๋งค์ฐ ๊น๋ํ ์ํฉ์ธ๋ฐ, ์ค์ ๊ฐ์ ์ฉ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ์ง์ด ์ฎ๊ธฐ๊ณ , ๋๊ตฌ์ ๊ฝ๊ณ , ์ฑ ์์ ๋ด๋ ค๋๊ธฐ๋ ํฉ๋๋ค. ์ฆ ๋ฌผ์ฒด-๋ฌผ์ฒด ์ํธ์์ฉ์ด๋ ํ๊ฒฝ๊ณผ์ ์ ์ด๋ ๋ฐ์ํฉ๋๋ค. NeuralFeels๋ ํ์ฌ ์๊ณผ ๋ฌผ์ฒด์ ์ํธ์์ฉ๋ง ๋ชจ๋ธ๋งํ์ง๋ง, ๋ฏธ๋์๋ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฅธ ํ๋ฉด์ ๋ฌธ์ง๋ฅด๋ฉฐ ์ด๊ฐ์ ์ป๋๋ค๊ฑฐ๋ ํ๋ ๋ณด๋ค ์ผ๋ฐ์ ์ธ ์ํธ์์ฉ ์ธ์ง๋ก ๋์๊ฐ์ผ ํฉ๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ์ SLAM ๋ฒ์๋ ๋ ๋์ด์ ธ์ผ ํฉ๋๋ค (์: ์์ ๋ ๋ฌผ์ฒด์ ์ฃผ๋ณ ํ๊ฒฝ๊น์ง ๋์์ ๋ชจ๋ธ๋ง).
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , NeuralFeels์ ๊ธฐ์ฌ๋ ๋ก๋ด Dexterity์ ์๋ก์ด ์งํ์ ์ด์๋ค๊ณ ํ๊ฐํ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง๋ ๋ณธ ๊ธฐ๋ฒ์ โํฅํ ๋ก๋ด ์์ฌ์ฃผ ํฅ์์ ์ํ ์ธ์ง ๋ฐฑ๋ณธโ์ผ๋ก ํ์ฉํ ์ ์๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ช ๊ฐ์ง ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํด๋ณด์ฃ :
ํ์ต๊ณผ ์ฌ์ ์ง์์ ์ตํฉ: NeuralFeels๋ ์ ๋ก๋ถํฐ ๋ฐฐ์ฐ์ง๋ง, ๊ฒฝ์ฐ์ ๋ฐ๋ผ ์ฌ์ ํ์ต์ด๋ ์์ฑ ๋ชจ๋ธ์ ํ์ ๋น๋ฆด ์๋ ์์ต๋๋ค. ์์ปจ๋ Shape Completion ๋ถ์ผ์ ๋ฅ๋ฌ๋์ ์ ๋ชฉํ๋ฉด, ์งง์ ์ํธ์์ฉ์ผ๋ก ์ป์ ๋จํธ ์ ๋ณด๋ง์ผ๋ก๋ ๋ฌผ์ฒด ์ ๋ฉด์ ์ถ์ธกํ๊ฒ ํ ์ ์์ต๋๋ค. ์นดํ ๊ณ ๋ฆฌ ๋ณ ์ ๋๋ ์ดํฐ๋ฅผ ์ด์ฉํ๊ฑฐ๋, ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ์ ๊ฒฝ์ฅ์ผ๋ก ๋น ๋ฅด๊ฒ ์ด๊ธฐํํ๋ ๋ฐฉ์๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ์ด๋ ๋ง์น ์ฒ์ ๋ณธ ๋ฌผ์ฒด๋ผ๋ ์ฌ๋์ ์ ์ฌํ ๊ฑธ ๋ ์ฌ๋ ค ๋์ถฉ ์ง์ํ๋ฏ์ด, ๋ก๋ด๋ ๊ฒฝํ์ ์ด์ฉํด ๋ ๋น ๋ฅด๊ฒ ๋ชจ๋ธ๋งํ๋ ๋ฐฉํฅ์ ๋๋ค.
์ค์๊ฐ์ฑ๊ณผ ๊ฒฝ๋ํ: ์์ ์ง์ ํ ์๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด, ๋ณด๋ค ๊ฐ๊ฒฐํ ๋ชจ๋ธ์ด๋ ๋ณ๋ ฌ ์ต์ ํ ๊ธฐ๋ฒ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ์์ปจ๋ ํฌ์ฆ ์ถ์ ์ ์์ ํ end-to-end ํ์ต์์ผ ๋คํธ์ํฌ๋ก ๋์ฒดํ๋, ๊ทธ ์ถ๋ ฅ์ ์ ๊ฒฝ์ฅ ์ ๋ฐ์ดํธ์ ๋ฐ์ํ๋ ํ์ต+์ต์ ํ ํ์ด๋ธ๋ฆฌ๋๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ํน์ ํฌ์ฆ ์ต์ ํ ๋น๋๋ฅผ ๋ฎ์ถ๊ณ IMU ๋ฑ์ ์ถ๊ฐ ์ผ์๋ก ๋ณด์ํด๋ ๋ ๊ฒ์ ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก ๋ก๋ด ์ ์ด์ ๋ฃ์ผ๋ ค๋ฉด perception์ด ์ค์๊ฐ์ผ๋ก ๋์์ผ ํ๋, GPU ํ๋๋ก ์ฌ๋ฌ ๊ฐ์ฒด ์ฒ๋ฆฌ๋ ๊ณ ๋ คํด์ผ๊ฒ ์ง์.
๋ค์ํ ์ด๊ฐ ์ผ์์ ํตํฉ: DIGIT ์ธ์๋ ์๋ ฅ๋งคํธ๋ฆญ์ค, ์ปคํจ์ํฐ๋ธ ์ผ์, ํ ๋ฐฐ์ด ์ผ์ ๋ฑ ์ด๊ฐ ๋ฐฉ์์ด ๋ค์ํฉ๋๋ค. ๊ฐ๊ธฐ ๋ค๋ฅธ ์์ฑ (์: ํ-๋ณํ ๊ด๊ณ)๋ ์์ผ๋ฏ๋ก, ์ด๋ค์ ๊ฐ์ ํ๋ ์์ํฌ์ ํตํฉํ๋ฉด ๋ ํ๋ถํ ์ ๋ณด๋ก ์ ํ๋๋ฅผ ๋์ผ ์ ์์ต๋๋ค. ๋ํ ์ด๊ฐ-์๊ฐ ์ธ์ ์ฒญ๊ฐ(์: ๋ฌผ์ฒด๊ฐ ์์ง์ผ ๋ ๋๋ ์๋ฆฌ๋ก ์ฌ์ง ์ถ์ ) ๋ฑ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ ๊ณ ๋ ค ๊ฐ๋ฅํ์ฃ . ๋ฉํฐ๋ชจ๋ฌ sensor fusion์ ํ์ฅ์ฑ์ด ์ด๋ ค ์์ต๋๋ค.
์ํธ์์ฉ์ (next-best-sense) ์ธ์ง: ํ์ฌ๋ ์ ํด์ง ์ ์ฑ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋๋ ธ์ง๋ง, ํฅํ์๋ ์ธ์ง ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด ๋ก๋ด์ด ์ ๊ทน์ ์ผ๋ก ํ์ ํ๋์ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์ง ์ ๋ง์ ธ๋ณธ ๋ถ๋ถ์ ๋ง์ง๋ฌ ์์ง์ธ๋ค๊ฑฐ๋, ํน์ ๊ฐ๋๊ฐ ์ ๋ณด์์ผ๋ฉด ์๋ชฉ์ ๋๋ ค ๋ ์ ๋ณด์ด๊ฒ ํ๋ ์์ ๋๋ค. ์ด๋ฅผ Planning ๋ฌธ์ (๋ค์ ์ด๋๋ฅผ ๋ง์ง๊น?)๋ก ํ๋ฉด ์ต์ํ์ ๋์์ผ๋ก ์ต๋ ์ ๋ณด ํ๋ํ๋ ์ง๋ฅํ ์ธ์ง๊ฐ ๋ ๊ฒ์ ๋๋ค. NeuralFeels์ ๊ตฌ์ฑ์์๋ค์ ์ด๋ฌํ active perception ์ ๋ต๊ณผ๋ ๊ถํฉ์ด ์ข์ต๋๋ค. ์ ๊ฒฝ์ฅ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ๋ถ์ํ์ฌ, ๊ฐ์ฅ ๋ถํ์คํ ๋ถ๋ถ์ ์ ๋ณด๋ฅผ ์ป๋ ํ๋์ ์ ํํ๋๋ก ํ ์ ์์ ๊ฒ์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ต: ๋ง์ง๋ง์ผ๋ก, ๋ณธ ์ฐ๊ตฌ๋ฅผ ๊ธฐ์กด ์๊ฐ-์ด๊ฐ ์ธ์ง ์ฐ๊ตฌ๋ค๊ณผ ๋งฅ๋ฝ ์์์ ๋ณด๋ฉด, FingerSLAM (dense touch๋ก ๊ณ ์ ๋ฌผ์ฒด ๋ชจ๋ธ ์ฌ๊ตฌ์ฑ)์ด๋ Gelsight ๊ธฐ๋ฐ Pose Tracking ๋ฑ ์ ํ ์ฐ๊ตฌ๋ค์ด ์กด์ฌํฉ๋๋ค. FingerSLAM์ ํ ๊ฐ์ ์ด๊ฐ ์ผ์๋ก ์นด๋ฉ๋ผ ์ ๋ฉด ๊ฐ๋ฆผ ์๋ ์กฐ๊ฑด์ด๋ผ ๋จ์ํ์ง๋ง, NeuralFeels๋ ๋ค์ ์ด๊ฐ + ๊ฐ๋ฆผํ์ฉ ๋ค์ด๋ด๋ฏน์ผ๋ก ๋ฌธ์ ๋์ด๋๋ฅผ ๋์ธ ๊ฒ์ ๋๋ค. ๋ํ Rodriguez ๊ทธ๋ฃน์ TACTO-SLAM ๊ด๋ จ ์ฐ๊ตฌ๋, SIMPLE (sim-to-real visuotactile regrasp) ๋ฑ๋ ๋ฌผ์ฒด ์์น ์ถ์ ์ ์ด๊ฐ์ ํ์ฉํ์ง๋ง, ์ด๋ค์ ๋ฌผ์ฒด๊ฐ ํ ์ด๋ธ ์์ ๊ณ ์ ๋์๊ฑฐ๋ ๊ฐ๋จ ์ด๋๋ง ๊ณ ๋ คํ์ต๋๋ค. NeuralFeels๋ ๋ณต์กํ 6-DoF in-hand ์ด๋์ ์ปค๋ฒํ๋ฉฐ, shape๊น์ง ๋์์ถ์ ํ๋ ์ ์์ ์ฐจ๋ณํ๋ฉ๋๋ค. ํ๋ง๋๋ก ๋ก๋ด ์ด๊ฐ SLAM์ ์๋ก์ด ์ฑํฐ๋ฅผ ์ด์๋ค ํ๊ฐํ ์ ์๊ฒ ์ต๋๋ค.
3.5 ์์ฝ ๋ฐ ๊ฒฐ๋ก
NeuralFeels: Neural Fields + Feels(์ด๊ฐ)๋ผ๋ ์ฌ์น์๋ ์ ๋ชฉ์ ์ด ๋ ผ๋ฌธ์, ๋ก๋ด์ด ์๋์ ์ด๊ฐ๊น์ง ํ์ฉํ์ฌ ๋ฌผ์ฒด๋ฅผ ์ดํดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ์ธํธ๋ SLAM ํ์ดํ๋ผ์ธ์ ํตํด, ๋ก๋ด์ด ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ผ๋ ๋ค๊ณ ์์ง์ด๋ ์งง์ ์ํธ์์ฉ๋ง์ผ๋ก ๊ทธ 3D ํ์๊ณผ ์์ธ ์์ง์์ ๊ฑฐ์ ์ธ๊ฐ ์์ค ์ ํ๋๋ก ํ์ ํ ์ ์์์ ์์ฐํ์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ์ ๋นํด ํ๊ฒฉํ ๋ถ์กฑํ๋ ๋ถ๋ถ์ธ ์ด๊ฐ์ ํ์๊ณผ ์ธ์ง ์์ญ์์ ํฐ ์ง์ ์ ๋๋ค. ์ฌ๋์ผ๋ก ์น๋ฉด ๋์ ๊ฐ๊ณ ๋ ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋๋ฌ์ด ๊ทธ ๋ฌผ๊ฑด์ ์์ํด๋ด๋ ๋ฅ๋ ฅ์ ๊ธฐ๊ณ์ ๋ถ์ฌํ ์ ์ด์ฃ .
NeuralFeels์ ์ฑ๊ณต์ ์ฌ๋ฌ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค. ์ค์ฉ ๋ฉด์์, ์ด ๊ธฐ์ ์ด ๋ฐ์ ํ๋ฉด ๋ก๋ด์ ๋ถ์ ์๋ ์ ๋ฌผ๊ฑด ์ฐพ๊ธฐ, ๋น์ ํ ๋ฌผ์ฒด ์กฐ๋ฆฝ, ์ด๋์ด ๊ณณ์์์ ์กฐ์ ๋ฑ ์ง๊ธ๊น์ง ํ๋ค์๋ ์์ ๋ค์ ๋ ์ ํ ์ ์๊ฒ ๋ ๊ฒ์ ๋๋ค. ๋ํ ํ๋ณด๋ 3D ๋ชจ๋ธ๊ณผ ์์น ์ ๋ณด๋ ๋ก๋ด์ ๋ค๋ฅธ ์ง๋ฅ ๋ชจ๋(์: ๊ฒฝ๋ก๊ณํ, ๊ทธ๋ฆฝ ์กฐ์ , ๋ฌผ์ฒด ์๋ณ)์ ๋ฐ๋ก ํ์ฉ๋ ์ ์์ด, ์ข ํฉ์ ์ธ ๋ก๋ด ๊ธฐ์ ํฅ์์ผ๋ก ์ด์ด์ง๋๋ค. ํ์ ๋ฉด์์๋, ๋ณธ ์ฐ๊ตฌ๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ์ง์ ํ ์๋ฏธ์ ์ผ์ ์ตํฉ์ ๊ตฌํํ์ฌ ํฅํ multimodal SLAM์ด๋ interactive perception ๋ถ์ผ์ ๋ง์ ํ์ ์ฐ๊ตฌ๋ฅผ ์๊ทนํ ๊ฒ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก ์ ์๋ค์ โTo perceive deeply is to have sensed fullyโ๋ผ๋ ํต์ฐฐ๋ก ๋ ผ๋ฌธ์ ์์ํ์ต๋๋ค. ๊น์ด ์ธ์งํ๋ค๋ ๊ฒ์ ์ถฉ๋ถํ ๊ฐ์งํ ๊ฒ๊ณผ ๋ค๋ฆ์๋ค๋ ์๋ฏธ์ด์ง์. ๋ก๋ด์๊ฒ ์์ด ์ถฉ๋ถํ ๊ฐ์งํ๋ค๋ ๊ฒ์ ํ๋์ ์ผ์์ ์์กดํ์ง ์๊ณ , ์ด์ฉ ๊ฐ๋ฅํ ๋ชจ๋ ๊ฐ๊ฐ์ ์ด๋์ํ๋ ๊ฒ์ผ ๊ฒ๋๋ค. NeuralFeels๋ ๊ทธ๋ฌํ ๋ก๋ด ๊ฐ๊ฐ ํตํฉ์ ๊ฐ๋ฅ์ฑ์ ํ์ง ์ด์ด ๋ณด์ธ ํ๋ฅญํ ์์ด๋ฉฐ, ํฅํ ์ฐ๋ฆฌ ์ฃผ๋ณ์์ ๋์ฑ ๋๋ํ๊ณ ๋ฅ์ํ ๋ก๋ด ์๋ค์ ๋ง๋๊ฒ ๋ ์ ๋ง์ ํ์ธต ๋ฐ๊ฒ ํด์ฃผ๋ ์ฐ๊ตฌ๋ผ๊ณ ๊ฒฐ๋ก ์ง์ ์ ์๊ฒ ์ต๋๋ค.
๐งพ ์ฐธ๊ณ ์๋ฃ