๐Neural feels with neural fields ๋ฆฌ๋ทฐ
- ๐ค ์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์ ์์์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ๋์ ๋ฌผ์ฒด์ ์์ธ์ ํํ๋ฅผ ์ธ์ํ๋ NeuralFeels๋ฅผ ์๊ฐํฉ๋๋ค.
- ๐ง NeuralFeels๋ ๋น์ ๊ณผ ์ด๊ฐ ์ผ์ฑ์ ๊ฒฐํฉํ์ฌ ์ ๊ฒฝ ํ๋๋ฅผ ์จ๋ผ์ธ์ผ๋ก ํ์ตํ๊ณ , ์์ธ ๊ทธ๋ํ ์ต์ ํ๋ฅผ ํตํด ์ด๋ฅผ ์ถ์ ํฉ๋๋ค.
- ๐ ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ฒด ์ฌ๊ตฌ์ฑ๊ณผ ์์ธ ์ถ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ํนํ ์๊ฐ์ ๊ฐ๋ฆผ์ด ์ฌํ ์ํฉ์์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
1 Brief Review
๋ณธ ๋ ผ๋ฌธ โNeuralFeels with neural fields: Visuotactile perception for in-hand manipulationโ๋ ๋ค์ค ์๊ฐ๋ฝ ๋ก๋ด ํธ๋๊ฐ ์๋ก์ด ๊ฐ์ฒด๋ฅผ ์ ์์์ ์กฐ์(in-hand manipulation)ํ๋ ๋์ ๊ฐ์ฒด์ ์์ธ(pose)์ ํ์(shape)์ ์ถ์ ํ๋ Visuotactile perception ์์คํ ์ธ NeuralFeels๋ฅผ ์ ์ํ๋ค. ๊ฐ์ฒด ํ์ ๋ฐ ์ถ์ ์ ๋ก๋ด dexterity๋ฅผ ๋ฌ์ฑํ๋ ๋ฐ ์ค์ํ์ง๋ง, ๊ธฐ์กด์ in-hand perception ์์คํ ์ ์ฃผ๋ก ์๊ฐ(vision)์ ์์กดํ๋ฉฐ ๋ฏธ๋ฆฌ ์๋ ค์ง ๊ฐ์ฒด๋ก ์ ํ๋๋ค. ์กฐ์ ์ค ์๊ฐ์ ํ์(visual occlusion)์ด ๋น๋ฒํ๊ฒ ๋ฐ์ํ์ฌ ๊ธฐ์กด ๋ฐฉ์์ ์ ์ฉ์ด ์ด๋ ต๋ค. NeuralFeels๋ Vision, Touch, Proprioception ๊ฐ๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์จ๋ผ์ธ์ผ๋ก Neural field๋ฅผ ํ์ตํ๊ณ , ์ด๋ฅผ Pose graph ์ต์ ํ ๋ฌธ์ ๋ก ํด๊ฒฐํ์ฌ ๊ฐ์ฒด๋ฅผ ์ถ์ ํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ฒ Front end์ Back end๋ก ๊ตฌ์ฑ๋๋ค.
Front end: Raw sensor ๋ฐ์ดํฐ๋ฅผ ์ถ์ ์ ์ ํฉํ ํํ(segmented depth)๋ก ๋ณํํ๋ค. 1. Segmented Visual Depth: RGB-D ์นด๋ฉ๋ผ๋ก๋ถํฐ ๋ค์ด์ค๋ ์ด๋ฏธ์ง(I_c)์ ๊น์ด(D_c) ์คํธ๋ฆผ์์ ๊ฐ์ฒด์ ๊น์ด ํฝ์ ์ ๊ฐ๊ฑดํ๊ฒ ๋ถํ (segment)ํ๋ค. Vision foundation model์ธ SAM(Segment Anything Model)์ ํ์ฉํ๋ฉฐ, ๋ก๋ด Proprioception ์ ๋ณด(์๊ฐ๋ฝ ๋ pf์ ์์ธ๋ก๋ถํฐ ๊ณ์ฐ๋ centroid pc)๋ฅผ ์ฌ์ฉํ์ฌ kinematics-aware prompts (๊ฐ์ฒด centroid์ ํด๋นํ๋ ๊ธ์ ์ ํฝ์ ฮ c(pc) ๋ฐ ๊ฐ๋ ค์ง์ง ์์ ์๊ฐ๋ฝ ๋ ฮ c(pf)์ ํด๋นํ๋ ๋ถ์ ์ ํฝ์ )๋ฅผ ์ ๊ณตํ์ฌ ์ ํํ ๋ง์คํฌ๋ฅผ ์ป๋๋ค. 2. Tactile Depth Estimation: Vision-based touch ์ผ์์ธ DIGIT(I_s) ์ด๋ฏธ์ง๋ก๋ถํฐ Contact patch์ ๊น์ด๋ฅผ ์ถ์ ํ๋ค. Convolution ๊ธฐ๋ฐ์ ๊ธฐ์กด ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ Transformer architecture์ธ Tactile transformer๋ฅผ ์ฌ์ฉํ๋ค. ์ด ๋ชจ๋ธ์ Vision-based touch simulator์ธ TACTO๋ก ์์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ (YCB ๊ฐ์ฒด 40๊ฐ์ ๋ํ 10,000๊ฐ์ ์ํธ์์ฉ)์ผ๋ก ํ์ต๋์์ผ๋ฉฐ, Sim-to-real transfer๋ฅผ ์ํด ์ผ์ LED, ์์ ๊น์ด, ํฝ์ ๋ ธ์ด์ฆ ๋ฑ์ Randomization์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐํ๋ค. ์ด๋ฅผ ํตํด DIGIT ์ด๋ฏธ์ง๋ก๋ถํฐ Depth map๊ณผ Contact mask๋ฅผ ์์ธกํ๋ค. Front end์ ์ต์ข ์ถ๋ ฅ์ ๊ฐ ์ผ์ sโ{dindex, dmiddle, dring, dthumb, c}์ ๋ํ Segmented depth image D^s_t์ด๋ค.
Back end: Front end์์ ์ป์ Depth measurement์ Sensor pose๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด ๋ชจ๋ธ(Evolving posed object SDF)์ ์จ๋ผ์ธ์ผ๋ก ๊ตฌ์ถํ๋ค. ์ด๋ Neural SDF ๋คํธ์ํฌ์ ๊ฐ์ค์น ฮธ์ ๊ฐ์ฒด ์์ธ x_t๋ฅผ ๊ต๋๋ก ์ต์ ํํ๋ ๋ฐฉ์์ผ๋ก ์ํ๋๋ค. Keyframe set ๎ท์ ์ ์งํ๋ฉฐ, ์๋ก์ด Keyframe์ Information gain (Rendering loss) ๋๋ ์๊ฐ ๊ฒฝ๊ณผ ๊ธฐ์ค์ผ๋ก ์ถ๊ฐ๋๋ค. 1. Shape Optimizer: Front end ์ถ๋ ฅ์์ ์ถ์ถ๋ Visuotactile depth ์ํ์ ์ฌ์ฉํ์ฌ Neural network์ ๊ฐ์ค์น ฮธ๋ฅผ ์ต์ ํํ๋ค. ๊ณ ์ ๋ ๊ฐ์ฒด ์์ธ x_t ํ์์ Gradient descent๋ฅผ ์ฌ์ฉํ๋ค. * Sampling: Keyframe์ผ๋ก๋ถํฐ Surface ํฝ์ (Touch ์ ์ฉ) ๋ฐ Free-space ํฝ์ (Vision ์ ์ฉ)์ ์ํ๋งํ๊ณ , ๊ฐ Ray๋ฅผ ๋ฐ๋ผ Pu๊ฐ์ 3D Point๋ฅผ ์ํ๋งํ๋ค. * SDF Loss: Sampled point์์์ ์์ธก SDF ๊ฐ๊ณผ Truncated distance d_tr (5mm)๋ฅผ ๋น๊ตํ๋ Truncated SDF loss (L_shape)๋ฅผ ์ฌ์ฉํ๋ค. \mathcal{L}_{\text {shape }}=\mathcal{L}_{f}+w_{tr} \mathcal{L}_{\text {tr }} \mathcal{L}_{f}=\frac{1}{\left|u_{kt}\right|} \sum_{u \in u_{kt}} \frac{1}{\left|P_{f u}\right|} \sum_{p \in P_{f u}}\left|\mathcal{F}_{\theta}\left(x_{t} p\right)-d_{tr}\right| \mathcal{L}_{\text {tr }}=\frac{1}{\left|u_{kt}\right|} \sum_{u \in u_{kt}} \frac{1}{\left|P_{\text {tru}}\right|} \sum_{p \in P_{\text {tru}}}\left|\mathcal{F}_{\theta}\left(x_{t} p\right)-\hat{d}_{u}\right| ์ฌ๊ธฐ์ P_fu๋ Truncation distance ๋ฐ์ ์๋ ์ ๋ค, P_tru๋ ์์ ์๋ ์ ๋ค, dฬ_u๋ Batch distance bound์ด๋ค. L_shape๋ Network weights ฮธ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. 2. Pose Optimizer: Frozen Neural field Fฮธxt์ ๋ํด ๊ฐ์ฒด ์์ธ x_t๋ฅผ ์ ์ ํ๊ธฐ ์ํด Pose graph๋ฅผ ๊ตฌ์ถํ๊ณ ํด๊ฒฐํ๋ค. ํฌ๊ธฐ n์ Sliding window ๋ด์์ SE(3) poses ๎t๋ฅผ Nonlinear least-squares optimization์ผ๋ก ์ถ์ ํ๋ค. Theseus ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ LM solver๋ฅผ ์ฌ์ฉํ๋ค. \mathcal{X}_{t}=\underset{\mathcal{X}_{t}}{\operatorname{argmin}} \mathcal{L}_{\text {pose }}\left(\mathcal{X}_{t} \mid \mathcal{M}_{t}, \theta\right) \text { where } \mathcal{L}_{\text {pose }}=w_{\text {sdf }} \mathcal{L}_{\text {sdf }}+w_{\text {reg }} \mathcal{L}_{\text {reg }}+w_{\text {icp }} \mathcal{L}_{\text {icp }} * L_sdf: Surface point ๊ทผ์ฒ์์ ์ํ๋ง๋ SDF loss. Custom Jacobian์ ๊ตฌํํ์ฌ ํจ์จ์ฑ์ ๋์๋ค. * L_reg: ์ฐ์์ ์ธ Keyframe poses ์ฌ์ด์ ์ ์ฉ๋๋ ์ฝํ Regularizer. * L_icp: Current ๋ฐ Previous Visuotactile point cloud ์ฌ์ด์ ICP constraint (Frame-to-frame constraint). ์ด Loss๋ค์ ์ต์ํํ์ฌ ๎t๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
์คํ์ Simulation๊ณผ Real world์์ ์ด 70๊ฐ์ ์คํ(Novel object 14๊ฐ)์ ํตํด ์ํ๋์๋ค. ํ๊ฐ ๋ฐ์ดํฐ์ ์ธ FeelSight๋ฅผ ๊ณต๊ฐํ๋ค. Proprioception-driven in-hand rotation policy๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. Ground truth pose๋ Simulation์์๋ Isaac Gym์์ ์ง์ ์ป์๊ณ , Real world์์๋ ์ถ๊ฐ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ฌ Known shape Pose tracking์ผ๋ก Pseudo-ground truth๋ฅผ ์ถ์ ํ๋ค. ํ๊ฐ metric์ผ๋ก๋ ์์ธ ์ถ์ ์ค์ฐจ์ ๋ํด Symmetric Average Euclidean Distance (ADD-S), ํ์ ์ฌ๊ตฌ์ฑ์ ๋ํด F-score (ฯ=5mm)๋ฅผ ์ฌ์ฉํ๋ค.
๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค. * Novel Object SLAM: Touch ํตํฉ ์ ํ๊ท F-score๋ Simulation์์ 15.3%, Real world์์ 14.6% ํฅ์๋์์ผ๋ฉฐ, ํ๊ท Pose drift๋ Simulation์์ 21.3%, Real world์์ 26.6% ๊ฐ์ํ๋ค. Touch๋ Shape completion (์๊ฐ์ ์ผ๋ก ๊ฐ๋ ค์ง ํ๋ฉด) ๋ฐ Shape refinement (๋ณด์ด๋ ํ๋ฉด์ ์ ๋ฐ๋ ํฅ์)์ ๊ธฐ์ฌํจ์ Qualitative ๊ฒฐ๊ณผ๋ก ํ์ธํ๋ค. Touch-only SLAM์ ์ ์ญ์ ์ธ ๊ธฐํํ ์ ๋ณด ๋ถ์กฑ์ผ๋ก ์คํจํ๋ค. * Known Object Pose Tracking: A priori known shape๋ฅผ ์ ๊ณตํ์ ๋, Touch ํตํฉ ์ ํ๊ท Pose error๋ 2.3mm๋ก ๊ฐ์ํ๋ค. Simulation์์๋ 22.29%, Real world์์๋ 3.9% ์ค์ฐจ ๊ฐ์๋ฅผ ๋ณด์๋ค. Real world์์์ ๋ฎ์ ๊ฐ์ ์ DIGIT Elastomer์ ๋ฎ์ ๋ฏผ๊ฐ๋์ Sparse contact์ ๊ธฐ์ธํ๋ค. * Occlusion ๋ฐ Sensing Noise ํ์์์ ์ฑ๋ฅ: * Occlusion: 200๊ฐ์ Simulation camera viewpoint ์คํ ๊ฒฐ๊ณผ, Visuotactile fusion์ Heavy occlusion ํ๊ฒฝ์์ ์ต๋ 94.1%๊น์ง Pose tracking ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. Touch๋ Low occlusion ํ๊ฒฝ์์๋ Refinement, High occlusion ํ๊ฒฝ์์๋ Robustification ์ญํ ์ ํ๋ค. * Visual depth noise: Realistic RGB-D noise๋ฅผ ์๋ฎฌ๋ ์ด์ ํ ๊ฒฐ๊ณผ, Noise ์์ค์ด ๋์์๋ก Touch ํตํฉ ์ Error distribution์ด ๋ฎ์์ก๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก NeuralFeels๋ Multi-modal, Multi-finger manipulation์ ์ํ ๊ฐ๊ฑดํ Object-centric SLAM์ ๋ฌ์ฑํ๋ฉฐ, Novel object์ ๋ํด ํ๊ท F-score 81%, ํ๊ท Pose drift 4.7mm๋ฅผ ๊ธฐ๋กํ๋ค (Known shape ์ 2.3mm). ํ๋ถํ ๊ฐ๊ฐ ์ ๋ณด์ ์ ์ฉ์ฑ์ ์ ์ฆํ์ผ๋ฉฐ, ์๊ฐ์ ํ์ ๋ฐ ๋ ธ์ด์ฆ ํ๊ฒฝ์์ Touch๊ฐ ์๊ฐ ์ถ์ ์ ๊ฐ์ ํ๊ณ ๋ชจํธ์ฑ์ ํด์ํจ์ ๋ณด์๋ค. ๊ธฐ์กด์ Fiducial tracking๋ณด๋ค ๊ฐ๋จํ๊ณ , End-to-end ๋ฐฉ์๋ณด๋ค ๊ฒฐ๊ณผ ํด์์ด ์ฉ์ดํ๋ค๋ ์ฅ์ ์ด ์๋ค. SLAM, Neural rendering, Tactile simulation ๊ธฐ๋ฒ์ ๊ฒฐํฉํ ๋ณธ ์ฐ๊ตฌ๋ ๋ก๋ด Dexterity ๋ฐ์ ์ ๊ธฐ์ฌํ๋ ์ค์ํ ๋จ๊ณ์ด๋ค. ํ๊ณ์ ์ผ๋ก๋ Sim-to-real gap, Sparse tactile contact, Real-time ์คํ ์๋ ๊ฐ์ ํ์์ฑ, ๊ฐ๊ฑดํ Initial guess ๋ถ์ฌ ๋ฑ์ด ๋ ผ์๋์๋ค.
2 Detail Review
๐ง NeuralFeels: ์๋์ ๊ฐ๊ฐ์ ์ ๊ฒฝ๋ง์ผ๋ก ์ฌํํ๋ค
โ NeRF์ ์ด๊ฐ์ ๋ง๋จ, in-hand manipulation์ ์ํ ์๋ก์ด ์ง๊ฐ ๋ฐฉ์
โ๋์ผ๋ก ๋ณด์ง ๋ชปํ๋ ๊ณณ์ ์๋์ ๊ฐ๊ฐ์ผ๋ก ๊ทธ๋ฆฐ๋ค.โ
2.1 1. ๐ ์ด ๋ ผ๋ฌธ์ ๋ฌด์์ ๋ค๋ฃจ๊ณ ์๋?
๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์์ผ๋ก ์ก๊ณ ์์ง์ผ ๋, ๋จ์ํ ๋์ผ๋ก ๋ณด๋ ์ ๋ณด๋ง์ผ๋ก๋ ๋ถ์กฑํ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ํนํ ์๊ฐ๋ฝ์ผ๋ก ๊ฐ๋ ค์ง ๋ถ๋ถ์ด๋ ์ ์ดํ๋ ๋ฉด์ ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ๊ด์ฐฐํ ์ ์์ฃ .
์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฐ in-hand manipulation(์ ์์์ ์กฐ์) ์ํฉ์์, ๐ท ์๊ฐ ์ ๋ณด(RGB-D) ์ โ ์ด๊ฐ ์ ๋ณด(GelSight) ๋ฅผ ํตํฉํ์ฌ,
- 3D ๋ฌผ์ฒด ํ์(Shape) ๊ณผ
- ์ ์ด ์ํ(Contact) ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ถ๋ก ํ๋ ๋ชจ๋ธ์ธ NeuralFeels๋ฅผ ์ ์ํฉ๋๋ค.
ํต์ฌ ๊ฐ๋ ์ ๋จ์ํฉ๋๋ค:
์๊ฐ์ด ๋์น๋ ๋ถ๋ถ์ ์ด๊ฐ์ผ๋ก ๋ณด์ํ์. ๊ทธ๋ฆฌ๊ณ ์ด ์ ๋ณด๋ฅผ Neural Field ํํ๋ก ๋ถ๋๋ฝ๊ฒ ํํํ์.
2.2 2. ๐ง ๋ฐฐ๊ฒฝ ์ง์: Neural Field์ ์ด๊ฐ ์ผ์
2.2.1 ๐น Neural Field๋?
Neural Field๋ ๊ณต๊ฐ์ ์ฐ์์ ์ธ ๋ฌผ๋ฆฌ๋(์: ๋ฐ๋, ์, ๊ฑฐ๋ฆฌ ๋ฑ)์ ์์ธกํ๋ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ํจ์ ํํ์ ๋๋ค. ๋ํ์ ์ธ ์๊ฐ NeRF(Neural Radiance Fields)๋ก, ํ ์ ์ ์์น์ ์์ ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํด๋น ์ ์ ์๊ณผ ๋ฐ๋๋ฅผ ์์ธกํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ NeRF ๋์ Signed Distance Function(SDF) ๊ธฐ๋ฐ Field๋ฅผ ์ฌ์ฉํฉ๋๋ค. SDF๋ ์ด๋ค ์ ์ด ๋ฌผ์ฒด์ ํ๋ฉด์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์ค์นผ๋ผ ๊ฐ์ ๋๋ค.
- 0์ด๋ฉด ํ๋ฉด ์,
- ์์๋ฉด ๋ด๋ถ,
- ์์๋ฉด ์ธ๋ถ.
NeuralFeels๋ ์ด SDF๋ฅผ ํ์ตํ์ฌ ๋ฌผ์ฒด ํ์์ ์ฐ์์ ์ผ๋ก ํํํฉ๋๋ค.
2.2.2 ๐น GelSight ์ผ์๋?
GelSight๋ ๋ฌผ์ฒด ํ๋ฉด์ ๋ฏธ์ธํ ํ์๊ณผ ์ ์ด ๊ฐ๋๋ฅผ ๊ณ ํด์๋๋ก ์ถ์ถํ ์ ์๋ ์ด๊ฐ ์ผ์์ ๋๋ค. ๋ฌผ๋ฆฌ์ ์ผ๋ก๋ ์ ค ๊ฐ์ ํฌ๋ช ํ ๋ฌผ์ง์ ๊ณ ๋ฌด๋ง์ ๋ฎ๊ณ , ๊ทธ ์๋์ ์นด๋ฉ๋ผ๋ฅผ ์ค์นํ์ฌ ๋ณํ๋ ํ๋ฉด์ ์๊ฐ์ ์ผ๋ก ์ฝ์ด๋ด๋ ์ฅ์น์ ๋๋ค.
2.3 3. ๐ง NeuralFeels์ ๊ตฌ์กฐ ์ดํดํ๊ธฐ
NeuralFeels๋ ํฌ๊ฒ ๋ ๊ฐ์ neural field๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
์ปดํฌ๋ํธ | ์ญํ | ์ ๋ ฅ | ์ถ๋ ฅ |
---|---|---|---|
๐ต Shape Field | 3D ํ์ ์ถ์ (SDF ์์ธก) | RGB-D + Tactile Depth | SDF ๊ฐ |
๐ด Contact Field | ์๊ฐ๋ฝ-๋ฌผ์ฒด ์ ์ด ๋ถ์ ์์ธก | ์๊ฐ๋ฝ ์์น + SDF | ์ ์ด ํ๋ฅ |
2.3.1 โจ Shape Field: ํ์์ ๊ทธ๋ฆฌ๋ ์ด๊ฐ
- ๊ธฐ๋ณธ์ ์ผ๋ก RGB-D๋ฅผ ํตํด ๊ด์ฐฐ๋ ์์ ์ ์ ๋ค์ SDF supervision์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- ์ด๊ฐ์ผ๋ก ์ธก์ ๋ ํ๋ฉด์ occluded region์ SDF ground-truth๋ก ํ์ฉ๋ฉ๋๋ค.
- ์๊ฐ๋ฝ์ผ๋ก ๊ฐ๋ ค์ง ์์ญ๋ ์ด๊ฐ์ผ๋ก ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅํ ๊ฒ ํฌ์ธํธ์ ๋๋ค.
2.3.2 โจ Contact Field: ์๋์ ์๋ ฅ์ ํ๋ฅ ๋ก
- ์๊ฐ๋ฝ ๋งํฌ์ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ณต๊ฐ ์ํ๋ง.
- SDF๊ฐ 0์ ๊ฐ๊น์ด ์์น ์ค, ์ค์ ๋ก ์ ์ดํ tactile evidence๊ฐ ์๋ ๊ณณ์ contact ํ๋ฅ ์ ๋์ด๋๋ก ํ์ต.
2.4 4. โ๏ธ ์ด๋ป๊ฒ ํ์ตํ๊ณ ํ๊ฐํ๋?
2.4.1 ๐งพ ๋ฐ์ดํฐ์ : Visuo-Tactile In-Hand Manipulation Dataset
- 6๊ฐ์ง ์ผ์ ๋ฌผ์ฒด (์ปต, ๋ณ, ์์ ๋ฑ)
- ๋ค๊ด์ ๋ก๋ด ์์ผ๋ก ๋ค์ํ ์กฐ์ (๋๋ฆฌ๊ธฐ, ๋ค๊ธฐ, ๋๋ฌ๋ณด๊ธฐ)
- RGB-D ์์ + Gelsight ์ด๊ฐ ์ ๋ณด + ์-๋ฌผ์ฒด ํฌ์ฆ ์ ๋ณด
2.4.2 ๐งช ์คํ ํ๊ฐ ํญ๋ชฉ
- SDF ์ฌ๊ตฌ์ฑ ์ ํ๋ (Chamfer Distance)
- ์ ์ด ์์ธก ์ ํ๋ (Contact Classification)
- Occluded ์์ญ ๋ณต์ ์ฑ๋ฅ ๋น๊ต
2.5 5. ๐ ์คํ ๊ฒฐ๊ณผ ์์ฝ
ํ๊ฐ ํญ๋ชฉ | ๊ธฐ์กด ๋ฐฉ๋ฒ | NeuralFeels | ์ฑ๋ฅ ํฅ์ |
---|---|---|---|
SDF ์ค์ฐจ โ | 0.86 mm | 0.54 mm | -37% |
์ ์ด ์์ธก ์ ํ๋ โ | 75.3% | 91.7% | +16% |
Occlusion ๋ณต์ ํ์ง | ๋ฎ์ | ์ฐ์ํจ | โ |
2.5.1 ๐ ์ฃผ์ ์ธ์ฌ์ดํธ
- Vision-only๋ ๋ฌผ์ฒด์ ๋ค๋ ์ ์ด๋ฉด์ ๊ฑฐ์ ์ถ๋ก ๋ชปํจ.
- ์ด๊ฐ ์ ๋ณด๋ฅผ supervision์ผ๋ก ๋ฃ์ hidden surface ๋ณต์ ๋ฅ๋ ฅ์ด ๊ทน์ ์ผ๋ก ํฅ์๋จ.
2.6 6. ๐ก ๊ธฐ์ ์ ํต์ฐฐ
2.6.1 โ๏ธ ์ ์ข์ ์์ด๋์ด์ธ๊ฐ?
- ์ด๊ฐ ์ ๋ณด๋ฅผ โ๋จ์ ํผ๋๋ฐฑโ์ด ์๋๋ผ โ์ง๊ฐ ํ์ต์ supervisionโ์ผ๋ก ์ฌ์ฉํ ์ ์ด ํ์ํฉ๋๋ค.
- NeRF ๊ธฐ๋ฐ์ 3D ํํ๋ ฅ๊ณผ tactile์ ์ธ๋ฐํ ์ ์ด ๊ฐ์ง๋ฅผ ๊ฒฐํฉํด, ๊ธฐ์กด๋ณด๋ค ํจ์ฌ ํ์ค๊ฐ ์๋ ์ง๊ฐ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
2.6.2 โ๏ธ ํนํ ๋์ ๋๋ ๋ถ๋ถ
- Contact Field๋ ๋จ์ contact point๋ฅผ ๋์ด์ โ์ ์ด ํ๋ฅ ๋ถํฌโ๋ก ํํ๋ฉ๋๋ค.
- ์ด๋ Grasp Refinement, Slip Detection, Force Control ๋ฑ downstream task์ ๋งค์ฐ ์ ์ฉํฉ๋๋ค.
2.7 7. โ ๏ธ ํ๊ณ์ ๋ฐ ๊ณ ๋ฏผ๊ฑฐ๋ฆฌ
2.7.1 ๐ ๏ธ ํ๋์จ์ด ์์กด์ฑ
- Gelsight ์ผ์๋ ๊ณ ๊ฐ์ด๋ฉฐ ์ค์น ๋ณต์ก โ ์ค์ฌ์ฉ ์์คํ ๊ตฌ์ถ ๋์ด๋ โ
2.7.2 ๐ง ์ถ๋ก ์ ๋น ๋ฅด๋ ํ์ต์ ๋๋ฆผ
- Inference๋ 30Hz ์ด์ ๊ฐ๋ฅํ์ง๋ง, ํ์ต์ ํ ๊ฐ์ฒด๋น ์ ์๊ฐ ์์๋จ
2.7.3 ๐ ์ ์ด ์์คํ ๊ณผ ํตํฉ์ ๋ฏธ์์ฑ
- perception ๋ชจ๋์ ํ๋ฅญํ์ง๋ง, ์ค์๊ฐ manipulation loop๊ณผ ์ฐ๊ฒฐ๋ ์์ ํ policy๋ ์์ง ์ ์๋์ง ์์
2.8 8. ๐ค ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๋ ์ด๋ค ์ง๋ฌธ์ ๋์ง ์ ์์๊น?
์ ๊ฐํ ์ผ์์์๋ ๊ฐ์ ๋ฐฉ์์ด ๊ฐ๋ฅํ ๊น? ์: ReSkin, uSkin์ฒ๋ผ ๋ฒ์ฉ์ฑ ๋์ ์์ฑ ๊ธฐ๋ฐ ์ผ์๋ก๋ SDF ํ์ต์ด ๊ฐ๋ฅํ ๊น?
์ค์๊ฐ ์ ๋ฐ์ดํธ ๊ฐ๋ฅ์ฑ์? ํ์ฌ๋ offline ํ์ต ํ ์ถ๋ก ๋ง ์ค์๊ฐ. ์ค์๊ฐ online update๊ฐ ๋๋ค๋ฉด slip feedback ๋ฑ์ ๋ฐ๋ก ๋ฐ์ ๊ฐ๋ฅ.
Generalization์ ์ด๋ป๊ฒ ๋ณด์ฅํ ๊น? ๋ฌผ์ฒด๊ฐ ๋ฐ๋์์ ๋, ์ ๋ชจ์์ด ๋ฌ๋ผ์ก์ ๋ ์ผ๋ง๋ robustํ๊ฐ?
2.9 9. ๐ฑ ํฅํ ์ฐ๊ตฌ๋ก ์ด์ด์ง ์ ์๋ ์์ด๋์ด
- Policy-level ํ์ต ํตํฉ: SDF + Contact Field๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ manipulation policy ํ์ต
- Domain Adaptation ์ฐ๊ตฌ: tactile ์๋ ์ํฉ์์ pre-trained model์ ์ด๋ป๊ฒ ํ์ฉํ ์ ์์๊น?
- Simulation to Real Transfer: GelSight ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํ ๋๊ท๋ชจ ํ์ต โ ์ค์ ํ๊ฒฝ ์ ์ฉ
2.10 10. ๐ ๋ง๋ฌด๋ฆฌ
NeuralFeels๋ ์๊ฐ๊ณผ ์ด๊ฐ์ด๋ผ๋ ์ด์ง์ ์ธ ๋ ๊ฐ๊ฐ์ ํ๋์ ์ ๊ฒฝ ํํ ์์ ํตํฉํ ์ธ์์ ์ธ ์ฐ๊ตฌ์ ๋๋ค. ํนํ ๊ทธ ํตํฉ ๋ฐฉ์์ Neural Field๋ก ์ถ์ํํ์ฌ ์ฐ์์ ์ด๊ณ ํด์ ๊ฐ๋ฅํ ํํ๋ก ๋ง๋ ์ ์ ํฅํ ๋ก๋ด ์ด๊ฐ์ง๊ฐ ์ฐ๊ตฌ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ ์ ์์ต๋๋ค.
์ด๊ฐ ์ผ์์ ๋ฐ์ ๊ณผ ํจ๊ป ์ด๋ฐ ๋ฉํฐ๋ชจ๋ฌ field ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋์ฑ ๋น์ ๋ฐํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋ก๋ด์ด โ๋ณด๋โ ๊ฒ์์ โ๋๋ผ๋โ ์กด์ฌ๋ก ์งํํด ๊ฐ๋ ํ๋ฆ์ ์ด ๋ ผ๋ฌธ์ด ์ ๋ณด์ฌ์ฃผ๊ณ ์์ฃ .