flowchart LR
subgraph T["1 ๊ต์ฌ RL"]
PRIV["ํน๊ถ ๊ด์ธก<br/>(GT ํฌ์ฆยท์๋ยท์ ์ด๋ ฅ)"]
PPO["PPO<br/>24,576 ๋ณ๋ ฌ env"]
PRIV --> PPO
end
subgraph S["2 ํ์ distillation"]
BELIEF["belief encoder-decoder<br/>(LSTM)"]
DAG["์จ๋ผ์ธ DAgger<br/>BC + ์ฌ๊ตฌ์ฑ ์์ค"]
BELIEF --- DAG
end
subgraph V["3 ์๊ฐ ํฌ์ฆ ์ถ์ "]
GS["3DGS ๋ ๋ + SH augmentation<br/>(๊ณต๊ฐ/์/์ ์ญ ํด๋ฌ์คํฐ)"]
RES["ResNet-34<br/>9 ํคํฌ์ธํธ 2.5D"]
GS --> RES
end
PPO --> BELIEF
RES --> DEPLOY["์ค๋ก๋ด ๋ฐฐํฌ<br/>Allegro + RealSense<br/>๋จ์ RGB"]
BELIEF --> DEPLOY
๐ViserDex
- Paper Link (arXiv:2604.11138)
- Project Page
- Video
- ์ ์: Arjun Bhardwaj, Maximum Wilder-Smith, Mayank Mittal, Vaishakh Patil, Marco Hutter (ETH Zรผrich, NVIDIA) โ RSS 2026
๐ ViserDex๋ 3D Gaussian Splatting(3DGS)์ ํํ๋ ฅ์ ํ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๋ด์์ ๋ณต์กํ ๊ฐ์ฒด์ ์๊ฐ์ ๋ค์์ฑ์ ํ๋ณดํ๊ณ , ์ด๋ฅผ ํตํด ๋ชจ๋ ธํ๋ฌ RGB ์นด๋ฉ๋ผ๋ง์ผ๋ก๋ ๊ฐ๊ฑดํ sim-to-real ์ ์ด๊ฐ ๊ฐ๋ฅํ dexterous in-hand manipulation ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๐ก ์ฐ๊ตฌํ์ ๊ฐ์ฐ์์ ํํ ๊ณต๊ฐ์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์ ์ฒ๋ฆฌ ์ฆ๊ฐ(pre-rasterization augmentations) ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ์ฌ, ์กฐ๋ช ๋ณํ๋ ๊ฐ๋ ค์ง์ด ์ฌํ adversarial ํ๊ฒฝ์์๋ ์ ํํ ๊ฐ์ฒด ์์ธ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
๐ค ์ค์ 16-DoF Allegro Hand๋ฅผ ์ด์ฉํ ์คํ ๊ฒฐ๊ณผ, ๋ณธ ์์คํ ์ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํจ์ฌ ์ ์ ์ปดํจํ ์์์ผ๋ก๋ ๋ค์ํ ๊ฐ์ฒด๋ค์ ๋ํด ํ๊ท 25ํ ์ด์์ ์ฐ์์ ์ธ ์ฑ๊ณต์ ์ธ ์ฌ๋ฐฐํฅ(reorientation)์ ๋ฌ์ฑํ๋ฉฐ ๋์ ๋ฒ์ฉ์ฑ๊ณผ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋จ์ผ Monocular RGB ์นด๋ฉ๋ผ๋ง์ ์ฌ์ฉํ์ฌ ๋ก๋ด์ Dexterous In-hand Manipulation(์ ์์ ๋ฌผ์ฒด ์ฌ๋ฐฐ์น)์ ์ํํ๊ธฐ ์ํ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ Sim-to-Real ํ๋ ์์ํฌ์ธ ViserDex๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๋ณต์กํ ๊ฐ์ฒด๋ ์กฐ๋ช ํ๊ฒฝ์์ ์ด๋ ค์์ ๊ฒช๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, 3D Gaussian Splatting(3DGS)์ ์๋ฎฌ๋ ์ด์ ๋ฃจํ์ ํตํฉํ์ฌ ๊ณ ๋์ ์๊ฐ์ ํ์ค๊ฐ๊ณผ ํ๋ จ ํจ์จ์ฑ์ ๋ฌ์ฑํ์ต๋๋ค.

Figure 1 โ ViserDex ๊ฐ์: ๋จ์ RGB๋ง์ผ๋ก ์์ ์ฌ๋ฐฐํฅ์ ์ํํ๋ ์๊ฐ sim-to-real ํ์ดํ๋ผ์ธ
ํต์ฌ ๋ฐฉ๋ฒ๋ก
1. 3D Gaussian Splatting ๊ธฐ๋ฐ์ ์๊ฐ์ ์๋ฎฌ๋ ์ด์
๊ธฐ์กด์ ๋ฉ์ฌ ๊ธฐ๋ฐ ๋ ๋๋ง ๋์ 3D Gaussian Splatting(3DGS)์ ๋์ ํ์ฌ ์ค์๊ฐ์ผ๋ก ๊ณ ํ์ง์ ์๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค.
- Pre-rasterization Augmentation: ๋ ๋๋ง ์ ๋จ๊ณ์์ ๊ฐ์ฐ์์์ Spherical Harmonics(SH) ๊ณ์๋ฅผ ์ง์ ์กฐ์ํฉ๋๋ค.
- ํด๋ฌ์คํฐ ๊ธฐ๋ฐ ์ญ๋: ๊ณต๊ฐ์ ์์น, photometric ์๊ด๊ด๊ณ, ๋๋ ์ ์ฒด ์ฌ ๋จ์๋ก ํด๋ฌ์คํฐ๋ฅผ ๋๋์ด ์์(SH_0) ๋ฐ ๋ฐ์ฌ(SH_{N}) ํน์ฑ์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ์ ํฉ๋๋ค.
- ์์: ๊ด์ธก ๋ฐฉํฅ d์ ๋ฐ๋ฅธ ์์ c(d)๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค. c(d) = \text{Sigmoid}\left(\sum_{\ell=0}^{L} \sum_{m=-\ell}^{\ell} k_{\ell}^{m} Y_{\ell}^{m}(d)\right)
- ์ด ๋ฐฉ์์ ํตํด ๋ ์ด ํธ๋ ์ด์ฑ ์์ด๋ ์ฌ์ค์ ์ธ ์กฐ๋ช ๋ณํ์ ์ฌ์ง ๋ณํ๋ฅผ ๊ตฌํํ์ฌ ์๊ฐ์ Domain Randomization์ ํจ๊ณผ๋ฅผ ๊ทน๋ํํฉ๋๋ค.
2. ๋ชจ๋ํ๋ ํ์ต ํ์ดํ๋ผ์ธ
ํ์ต์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ๋ถํดํ์ฌ ์ํํ๋ฉฐ, ๊ฐ ๋จ๊ณ๋ ์๋น์์ฉ GPU์์๋ ํ๋ จ์ด ๊ฐ๋ฅํ ๋งํผ ํจ์จ์ ์ ๋๋ค.
- Privileged Teacher Training: ์๋ฎฌ๋ ์ด์ ์์ ์์ ํ ์ํ ์ ๋ณด(๋ฌผ์ฒด ์๋, ์ ์ด๋ ฅ ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ PPO(Proximal Policy Optimization) ๊ธฐ๋ฐ์ ๊ต์ฌ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ด๋ ์ฑ๋ฅ ๊ธฐ๋ฐ์ Curriculum Learning์ ์ ์ฉํ์ฌ ๋์ด๋๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์กฐ์ ํฉ๋๋ค.
- Student Distillation: ๊ต์ฌ ์ ์ฑ ์ ์ฌ๊ท์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ํ์ ์ ์ฑ ์ผ๋ก ์ฆ๋ฅํฉ๋๋ค. Belief Encoder๋ฅผ ํตํด ๋ ธ์ด์ฆ๊ฐ ์์ธ ๊ด์ธก์น๋ก๋ถํฐ ์์คํ ์ํ๋ฅผ ์ถ๋ก ํ๋ฉฐ, Online DAgger ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๋ฐฐํฌ ํ๊ฒฝ์ Covariate Shift์ ๋์ํฉ๋๋ค.
- Visual Pose Estimator Training: 3DGS๋ก ๋ ๋๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ RGB ์ด๋ฏธ์ง์์ 9๊ฐ์ ํต์ฌ ํฌ์ธํธ(Keypoints)๋ฅผ ์ถ๋ก ํ๋ ResNet-34 ๊ธฐ๋ฐ์ ํฌ์ฆ ์ถ์ ๊ธฐ๋ฅผ ํ์ตํฉ๋๋ค. ์ถ์ ๋ ํคํฌ์ธํธ๋ Rigid Procrustes ์๊ณ ๋ฆฌ์ฆ์ ํตํด 6D ํฌ์ฆ๋ก ๋ณํ๋ฉ๋๋ค.
๊ธฐ์ ์ ์ฑ๊ณผ
- ๊ฐ๊ฑด์ฑ(Robustness): Adversarial ์กฐ๋ช ์กฐ๊ฑด(๋ฎ์ ๋๋น, ์์ ์๊ณก ๋ฑ)์์๋ ์์ ์ ์ธ ๊ฐ์ฒด ์ฌ๋ฐฐ์น๋ฅผ ์ํํฉ๋๋ค.
- ํจ์จ์ฑ: ๊ธฐ์กด์ ๋ณต์กํ ์๋ฎฌ๋ ์ด์ ๋ฐฉ์ ๋๋น VRAM ์ฌ์ฉ๋์ ํฌ๊ฒ ์ค์์ผ๋ฉฐ, 3DGS๋ฅผ ํตํด ๋ ๋๋ง ์ฒ๋ฆฌ๋์ ์ฝ 1.6๋ฐฐ ํฅ์ํ์ต๋๋ค.
- ์ฑ๋ฅ: 16-DoF Allegro Hand๋ฅผ ์ฌ์ฉํ์ฌ 5๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฌผ์ฒด์ ๋ํด ํ๊ท 25ํ ์ด์์ ์ฐ์ ์ฌ๋ฐฐ์น ์ฑ๊ณต์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ, 3DGS ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ์ด ๊ธฐ์กด์ ๋ ๋๋ง ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ณด๋ค ํฌ์ฆ ์ถ์ ์ค์ฐจ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ViserDex๋ ์๊ฐ์ ์ธ์ง ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ 3DGS๋ฅผ ํ์ฉํ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ์ ๋ต์ผ๋ก ๊ทน๋ณตํจ์ผ๋ก์จ, ๋ณต์กํ ์ค์ธ๊ณ ํ๊ฒฝ์์๋ ๋จ์ผ RGB ์นด๋ฉ๋ผ๋ง์ผ๋ก ๊ณ ๋์ ๋ก๋ด ์์ฌ์ฃผ๋ฅผ ๊ตฌํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
์์ ์ฌ๋ฐฐํฅ(in-hand reorientation)์ ๋ฅ์ ์กฐ์(dexterous manipulation)์ ์์ง์ ๋์ ์ ๋๋ค. ์๊ฐ๋ฝ๋ง์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๊ตด๋ ค ๋ชฉํ ์์ธ๋ก ๋ง์ถ๋ ค๋ฉด ์ ๋ฐํ ๋ฌผ์ฒด ํฌ์ฆ ์ถ์ ์ด ํ์์ธ๋ฐ, ์ฌ๊ธฐ์ ๋ ๊ฐ์ง ํฐ ๋ฒฝ์ด ์์ต๋๋ค.
- ๋น ๋ฅธ ๋์ + ์ฌํ ์๊ธฐ ๊ฐ๋ฆผ(self-occlusion). ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด๋ฅผ ๋์์์ด ๊ฐ๋ฆฌ๋ ์ํฉ์์ ๋จ์ RGB๋ก 6D ํฌ์ฆ๋ฅผ ์์ ์ ์ผ๋ก ์ถ์ ํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค.
- ์๊ฐ sim-to-real ๊ฒฉ์ฐจ. ์๋ฎฌ๋ ์ดํฐ์ ๋ ๋๋ง๊ณผ ์ค์ ์นด๋ฉ๋ผ ์์์ ์กฐ๋ช ยท์ฌ์งยท๋ฐ์ฌ ์ธก๋ฉด์์ ๋ฌ๋ผ, ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ํฌ์ฆ ์ถ์ ๊ธฐ๊ฐ ์ค์ธ๊ณ์์ ๋ฌด๋์ง๊ธฐ ์ฝ์ต๋๋ค.
๊ธฐ์กด ํด๋ฒ์ (1) ๋ค์ค ์นด๋ฉ๋ผ ๋ฆฌ๊ทธ, (2) ์ฐ์ฐ์ด ๋น์ผ ray tracing ๋ ๋๋ง, ๋๋ (3) ๋น์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ(์ด๊ฐ ๋ฑ) ์ ์์กดํ์ต๋๋ค. ์ ๋ค ๋น์ฉยท๋ณต์ก๋ยทํ์ฅ์ฑ ์ธก๋ฉด์์ ๋ถ๋ด์ด ํฝ๋๋ค.
์ ์๋ค์ ์ง๋ฌธ์ ๋ช ํํฉ๋๋ค. โ์นด๋ฉ๋ผ ํ ๋(๋จ์ RGB)์ ์๋น์๊ธ GPU๋ง์ผ๋ก, ๊ทนํ ์กฐ๋ช ์์๋ ๊ฒฌ๋๋ ๊ฐ๊ฑดํ ์์ ์ฌ๋ฐฐํฅ์ด ๊ฐ๋ฅํ๊ฐ?โ
์ด ๋ ผ๋ฌธ์ ํ ์ค ์์ฝ: 3D Gaussian Splatting์ ์๋ฎฌ๋ ์ด์ ์ ํตํฉํ๊ณ , ๋์คํฐํ ์ด์ SH ๊ณ์์ ๋๋ฉ์ธ ๋๋คํ ๋ฅผ ๊ฐํด ๊ดํ์ค์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์ฑํ๋ค โ ๊ทธ ๊ฒฐ๊ณผ ๋จ์ RGB๋ง์ผ๋ก, ์๋น์๊ธ GPU ํ์ต์ผ๋ก, ๊ทนํ ์กฐ๋ช ์์๋ ๊ฐ๊ฑดํ ์์ ์ฌ๋ฐฐํฅ์ ๋ฌ์ฑํ๋ค.
๋ฐฉ๋ฒ
์ ์ฒด ์์คํ ์ ๊ต์ฌ RL โ ํ์ distillation โ ์๊ฐ ํฌ์ฆ ์ถ์ ์ 3๋จ๊ณ ๋ชจ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฑ ํ์ต(์ํ ๊ธฐ๋ฐ)๊ณผ ์ง๊ฐ(์๊ฐ ๊ธฐ๋ฐ)์ ๋ถ๋ฆฌํด ๊ฐ๊ฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ต์ ํํ๋ ๊ตฌ์กฐ์ ๋๋ค.

Figure 2 โ 3๋จ๊ณ ๊ตฌ์กฐ: (1) ํน๊ถ ์ํ ๊ธฐ๋ฐ RL ๊ต์ฌ ํ์ต โ (2) ๋ ธ์ด์ฆ ๊ด์ธก ํ์ distillation โ (3) 3DGS ๋ฐ์ดํฐ๋ก ํ์ตํ RGB ํฌ์ฆ ์ถ์ ๊ธฐ
1๋จ๊ณ: ๊ต์ฌ RL ํ์ต
ํน๊ถ(privileged) ๊ด์ธก์ ์์ ์ ๊ทผํ๋ ๊ต์ฌ ์ ์ฑ ์ PPO๋ก ํ์ตํฉ๋๋ค.
- ํ๋ ๊ณต๊ฐ: 16๊ฐ ๊ด์ ์์น ๋ชฉํ(Allegro ์).
- ๋ณด์: ์ญ(inverse) ๋ฐฉํฅ ์ค์ฐจ ๊ธฐ๋ฐ dense reward + ์ฑ๊ณต ๋ณด๋์ค, ๊ทธ๋ฆฌ๊ณ ํ๋ ํํ์ฑยท๊ด์ ์๋ยท์๋์ง ์๋น์ ๋ํ ์ ๊ทํ ํ๋ํฐ.
- ๊ด์ธก: proprioceptive(๊ด์ ์์นยทํ๋ ์ด๋ ฅยท๋ชฉํ), exteroceptive(๋ฌผ์ฒด ํฌ์ฆยท๋ชฉํ ์ฐจ์ด), privileged(์๋ยทํยท๋๋คํ๋ ๋ฌผ๋ฆฌ ์์ฑ).
- ์ํคํ ์ฒ: proprio/extero/privileged๋ฅผ ๊ฐ๊ฐ MLP๋ก ์ธ์ฝ๋ฉ ํ ๋ฐฑ๋ณธ [1024,1024,1024,512]์ ์ฐ๊ฒฐ. ฮณ=0.998, ฮป=0.95, ํ๊ฒฝ๋น 24 ์คํ . 24,576๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ.
2๋จ๊ณ: ํ์ distillation
์ค์ธ๊ณ์์๋ ํน๊ถ ์ ๋ณด๊ฐ ์์ผ๋ฏ๋ก, ๋ ธ์ด์ฆ ๊ด์ธก๋ง์ผ๋ก ๋์ํ๋ ํ์ ์ ์ฑ ์ distillํฉ๋๋ค.
- belief encoder-decoder ์ํ๋ง(์๋ [256,256], 2์ธต LSTM)์ด ๋ ธ์ด์ฆ ๊ด์ธก์์ ์ ์ฌ ์ํ๋ฅผ ์ถ์ ํฉ๋๋ค.
- ํฉ์ฑ ์์ค L = L_{BC} + 0.2 \cdot L_{recon} (ํ๋ ๋ณต์ + ์ํ ์ฌ๊ตฌ์ฑ)์ผ๋ก, ์จ๋ผ์ธ DAgger ๋ฅผ ํตํด ํ์ตํฉ๋๋ค.
- ์ด belief ๊ตฌ์กฐ ๋๋ถ์ ํ์์ ์ผ์์ ํฌ์ฆ ์ถ์ ์คํจ(์: 180ยฐ ํ๋ฆฝ)๋ฅผ ์๊ฐ์ ์ผ๋ก ํํฐ๋งํ ์ ์์ต๋๋ค.
3๋จ๊ณ: ์๊ฐ ํฌ์ฆ ์ถ์ โ 3DGS ๋๋ฉ์ธ ๋๋คํ (ํต์ฌ)
๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ 3D Gaussian Splatting์ ์๋ฎฌ๋ ์ด์ ๋ ๋๋ฌ๋ก ํตํฉํ๊ณ , ๋๋ฉ์ธ ๋๋คํ๋ฅผ Gaussian ํํ ๊ณต๊ฐ์์ ์ํ ํ ์ ์ ๋๋ค.
์๋ฎฌ๋ ์ด์ ํตํฉ. ๋ฌผ์ฒด๊ฐ ์์ง์ด๊ณ ์นด๋ฉ๋ผ๋ ๊ณ ์ ์ธ ์ํฉ์, Gaussian์ ์ญ๋ณํ์ ์ ์ฉํด โ์ ์ ์ฅ๋ฉดโ ๊ฐ์ ์ ์ ์งํ๋ ๋ฐฉ์์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ์์ ์ํ ๊ฐ๋ฆผ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๊น์ด ๋ง์คํน(์ ๊น์ด์ Gaussian ๊น์ด ๋น๊ต)์ผ๋ก ๋ณต์ํฉ๋๋ค.
์ฌ์ ๋์คํฐํ augmentation. ๋ ๋๋ง ์ ๋จ๊ณ์์ SH ๊ณ์์ ์ง์ ์ญ๋์ ๊ฐํฉ๋๋ค โ ray tracing์ด ํ์ ์์ด ๋งค์ฐ ๋น ๋ฆ ๋๋ค.
- Random Noise: ๋ ๋ฆฝ ๊ฐ์ฐ์์ ์ญ๋(๋น๊ตฌ์กฐ์ ๋ ธ์ด์ฆ).
- Spatial Cluster: ์์น ๊ธฐ์ค 64๊ฐ k-means ํด๋ฌ์คํฐ ๋จ์ ์ญ๋ โ ๊ตญ์ ๊ทธ๋ฆผ์/์์ ๋ชจ์ฌ.
- Color Cluster: SHโ ๊ณ์ ๊ธฐ์ค 32๊ฐ ํด๋ฌ์คํฐ ๋จ์ ์ญ๋ โ ์ฌ์ง๋ณ ๋ฐ์ฌ์จ ๋ณํ.
- Global Shift: ์ฅ๋ฉด ์ ์ฒด ๊ท ์ผ ์ญ๋ โ ํ๊ฒฝ ๋ฐ๊ธฐ/์์จ๋ ๋ณํ.
ํต์ฌ์ ํด๋ฌ์คํฐ๋ฅผ ์์ ๋จ์ ๋ก ์ญ๋ํด ๊ด๋ ์ผ๊ด์ฑ ์ ์ ์งํ๋ค๋ ์ ์ ๋๋ค. ๋ฌด์์ ํฝ์ ๋ ธ์ด์ฆ์ ๋ฌ๋ฆฌ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ ์ธํ ๋ณํ๋ฅผ ๋ง๋ญ๋๋ค.

Figure 3 โ ์ฌ์ ๋์คํฐํ augmentation: ํด๋ฌ์คํฐ๋ง๋ Gaussian์ SH ๊ณ์๋ฅผ ์ญ๋ํด ์/๋ฐ์ฌ/๊ณต๊ฐ ์ธํ ๋ณํ๋ฅผ ray tracing ์์ด ์์ฑ
ํฌ์ฆ ์ถ์ ๊ธฐ. ResNet-34 ๋ฐฑ๋ณธ์ด 9๊ฐ ํคํฌ์ธํธ(๋ฌผ์ฒด๋ณ 8 + centroid)๋ฅผ 2.5D ์ขํ๋ก ํ๊ทํฉ๋๋ค.
์ฑ๋ฅ ๊ธฐ๋ฐ ์ปค๋ฆฌํ๋ผ RL
๊ฐ๋น์ผ ADR(Automatic Domain Randomization)์ ๊ฒฝ๋ ์ปค๋ฆฌํ๋ผ์ผ๋ก ๋์ฒดํฉ๋๋ค.
- ์ ๊ทํ ํ๋ํฐ ์ ์ง ์ฆ๊ฐ: ์ด๊ธฐ์ ๊ณผ์ ์ฑ๊ณต์ ์ง์ค, ์ดํ ํํ์ฑ ๊ฐํ.
- ํ๋ ์ง์ฐ ์ ์ง ์ถ๊ฐ: ์ค์ธ๊ณ ๋น๋๊ธฐ์ฑ ๋๋น.
- ์ฑ๊ณต ์๊ฐ ์ฐฝ ์ ์ง ์ถ์: ์ ์ ๋น ๋ฅธ ์ฌ๋ฐฐํฅ ์๊ตฌ.
์ธ ์์ ๋ชจ๋ ์ฐ์ ์ฑ๊ณต ์ด๋ํ๊ท ์ ์ฐ๋๋์ด, ๋ฌผ์ฒด๋ณ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด ์๋ ์ค์ผ์ผ๋ฉ๋๋ค.

Figure 5 โ ์ปค๋ฆฌํ๋ผ ํ์ต ํจ์จ ๋น๊ต: ์ ์ฒด ์ปค๋ฆฌํ๋ผ์ด ๊ฐ์ฅ ๋น ๋ฅธ ์๋ ด๊ณผ ์ต๋ค ์ฐ์ ์ฑ๊ณต์ ๋ฌ์ฑ
์์คํ ์ค์
- ํ๋์จ์ด: 16-DoF Allegro ์ + ์๋ชฉ ์ฅ์ฐฉ Intel RealSense D435i.
- ์ ์ด: ์ถ๋ก 30Hz, ๊ด์ ์ ์ด 300Hz.
- ๋ ๋๋ง ํจ์จ: Isaac Lab tiled ๋ ๋๋ฌ ๋๋น 1.6๋ฐฐ ๋น ๋ฆ, 1,024 ํ๊ฒฝ์์ VRAM 12GB(vs 34GB), augmentation ์ค๋ฒํค๋๋ ํ๋ ์๋น <22ms(~4%).
์คํ

Figure 4 โ ์คํ ์ ์ (RGB ์นด๋ฉ๋ผ + Allegro ์ + ๋ค์ ๊ด์)๊ณผ ๊ณต์นญ/์ ๋์ ์กฐ๋ช ํ์ 5์ข ํ ์คํธ ๋ฌผ์ฒด
ํฌ์ฆ ์ถ์ (Table II)
์ฑ๋ฅ ์งํ๋ ADD(mm)์ ์ ํ๋(<10mm, <10ยฐ)์ ๋๋ค.
| ์กฐ๋ช | ๋ฐฉ๋ฒ | ADD (mm) | ์ ํ๋ |
|---|---|---|---|
| ๊ณต์นญ | ViserDex (Ours) | 10.2ยฑ0.66 | 65.4% |
| ๊ณต์นญ | DR Tiled | 12.2ยฑ0.67 | 55.6% |
| ๊ณต์นญ | Naive GS (augmentation ์์) | 14.4ยฑ0.93 | 38.4% |
| ์ ๋์ | ViserDex (Ours) | 12.9ยฑ0.69 | 56.3% |
| ์ ๋์ | DR Tiled | 14.0ยฑ0.96 | 47.2% |
| ์ ๋์ | Naive GS | 18.6ยฑ1.17 | 36.5% |
์ ๋์ ์กฐ๋ช (์ ์กฐ๋ยท๋์ ์ ๋ณํ)์์ DR Tiled ๋๋น ํ๊ท +9.1%p ํฅ์. augmentation ์๋ Naive GS๋ ํฌ๊ฒ ๋ฌด๋์ ธ, 3DGS ์์ฒด๊ฐ ์๋๋ผ SH ๋๋ฉ์ธ ๋๋คํ๊ฐ ํต์ฌ ์์ ๋ณด์ฌ์ค๋๋ค.
Augmentation Ablation (Table III)
| ์ ๊ฑฐ ์์ | ๊ณต์นญ ์ ํ๋ | ์ ๋์ ์ ํ๋ |
|---|---|---|
| ์ ์ฒด (์์ ์ ๊ฑฐ) | 65.4% | โ |
| Global Shift ์ ๊ฑฐ | 51.2% | 23.6% (๋ถ๊ดด) |
| Random Noise ์ ๊ฑฐ | 58.6% | โ |
| Spatial Cluster ์ ๊ฑฐ | โ | 42.5% |
| Color Cluster ์ ๊ฑฐ | โ | 44.7% |
ํนํ Global Shift ์ ๊ฑฐ ์ ์ ๋์ ์กฐ๋ช ์์ ์ ํ๋๊ฐ 23.6%๋ก ๋ถ๊ดดํด, ์ ์ญ ๋ฐ๊ธฐ/์์จ๋ ๋ณํ ๋ชจ๋ธ๋ง์ด ๊ทนํ ์กฐ๋ช ๊ฐ๊ฑด์ฑ์ ํต์ฌ์์ ์ ์ฆํฉ๋๋ค. ์๊ด๋(ํด๋ฌ์คํฐ ๋จ์) ์ญ๋์ด ๋น๊ตฌ์กฐ์ ๋ ธ์ด์ฆ๋ณด๋ค ๋ณธ์ง์ ์ผ๋ก ์ค์ํจ๋ ํ์ธ๋ฉ๋๋ค.
์ค๋ก๋ด ๋ฐฐํฌ (Table IV)
์ฑ๋ฅ ์งํ๋ ํ๊ท ์ฐ์ ์ฑ๊ณต ํ์ ์ ๋๋ค.
| ๋ฌผ์ฒด | ๊ณต์นญ ์กฐ๋ช |
|---|---|
| Cube | 35.4ยฑ13.8 (DeXtreme 27.8ยฑ19.0) |
| 3D Printed Toy | 28.2ยฑ12.6 |
| Rubber Duck | 24.2ยฑ15.3 |
| Tablet Bottle | 12.6ยฑ8.8 (๋ฏธ๋ชจ๋ธ๋ง ์ ๋ง์ฐฐ๋ก ์ ํ) |
| Globe | 87.6ยฑ41.4 |
| ํ๊ท | 37.6ยฑ21.8 |
์ ๋์ ์กฐ๋ช ์์๋ ํ๊ท 25.4ยฑ30.1ํ ์ฐ์ ์ฑ๊ณต ์ ๊ธฐ๋กํ๋ฉฐ, ์ ์๋ค์ ์ด๋ฅผ ๊ทนํ ์๊ฐ ์ญ๋ ํ ์ง์์ ๋ฅ์ ์กฐ์์ ์ฒซ ์ค์ฆ ์ผ๋ก ์ ์ํฉ๋๋ค.
ํ์ต ํจ์จ
- ๊ต์ฌ ํ์ต: Cube ๊ธฐ์ค 26์๊ฐ(๋จ์ผ RTX 4090), ๋ณต์ก ๋ฌผ์ฒด๋ 90์๊ฐ(๋์ผ GPU).
- ํ์ distillation: 16์๊ฐ(๋จ์ผ RTX 4090, 4,096 ํ๊ฒฝ).
- DeXtreme(8ร A40, 60์๊ฐ) ๋๋น ํ ์๋ฆฟ์ ๊ท๋ชจ ํจ์จ ๊ฐ์ .
belief decoder์ ๊ฒฌ๊ณ ์ฑ (Figure 7)
์ธ์์ ๋ ธ์ด์ฆ ์ฃผ์ ๊ตฌ๊ฐ์์, belief decoder๋ ์์๋ ์ ๋ ฅ์ ๋ฅ๊ฐํ๋ฉฐ ๋ฎ์ ์ค์ฐจ๋ฅผ ์ ์งํ๊ณ , 180ยฐ ํ๋ฆฝ ๊ฐ์ ์น๋ช ์ ์ถ์ ์คํจ๋ฅผ ํํฐ๋ง ํ์ต๋๋ค. ์๊ฐ์ belief ์ถ์ ์ด ์ผ์์ ์ง๊ฐ ์คํจ์ ๋ํ ์์ ์ฅ์น ์ญํ ์ ํจ์ ๋ณด์ฌ์ค๋๋ค.

Figure 6 โ ์ค๋ก๋ด ๋กค์์ ๋ฐ belief decoder์ 180ยฐ ์ถ์ ์คํจ ํํฐ๋ง ํจ๊ณผ
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ์๊ฐ sim-to-real์ ์ ๋ฉด ๊ณต๋ต. ๋ฅ์ ์กฐ์์ ํต์ฌ ๋ณ๋ชฉ์ธ ๋จ์ ์๊ฐ ํฌ์ฆ ์ถ์ ์, 3DGS ํํ ๊ณต๊ฐ ๋๋ฉ์ธ ๋๋คํ๋ผ๋ ์ ๊ฐ๋๋ก ํ์์ต๋๋ค. ablation์์ Naive GS๊ฐ ๋ฌด๋์ง๋ ๊ฒ์ ๋ณด์ฌ, ๊ธฐ์ฌ์ ์์ฒ์ด โ3DGS ์ฌ์ฉโ์ด ์๋๋ผ โSH ์ฌ์ ๋์คํฐํ augmentationโ์์ ๋ช ํํ ๋ถ๋ฆฌํ ์ ์ด ์ค๋๋ ฅ ์์ต๋๋ค.
- ์ ๊ทผ์ฑ/ํจ์จ. ์นด๋ฉ๋ผ ํ ๋ + ์๋น์๊ธ GPU๋ก ํ์ตยท๋ฐฐํฌ๊ฐ ๊ฐ๋ฅํด, 8ร A40 ๊ฐ์ ๋๊ท๋ชจ ํด๋ฌ์คํฐ๋ฅผ ์๊ตฌํ๋ ์ ํ ์ฐ๊ตฌ์ ์ง์ ์ฅ๋ฒฝ์ ํฌ๊ฒ ๋ฎ์ท์ต๋๋ค. ๋ ๋๋ง 1.6๋ฐฐ ๊ฐ์, VRAM 1/3 ์ ๊ฐ๋ ์ค์ฉ์ ์ ๋๋ค.
- ๊ทนํ ์กฐ๋ช ๊ฐ๊ฑด์ฑ์ ์ค์ฆ. ์ ๋์ ์กฐ๋ช (์ ์กฐ๋ยท๋์ ์)์์ ํ๊ท 25.4ํ ์ฐ์ ์ฑ๊ณต์, ์๊ฐ ๊ธฐ๋ฐ ์์ ์ฌ๋ฐฐํฅ์์ ๋ณด๊ธฐ ๋๋ฌธ ๊ฐ๊ฑด์ฑ ์์ค์ ๋๋ค.
- ๊ฒฝ๋ ์ปค๋ฆฌํ๋ผ. ADR์ ์ฐ์ ์ฑ๊ณต ๊ธฐ๋ฐ ์๋ ์ค์ผ์ผ ์ปค๋ฆฌํ๋ผ์ผ๋ก ๋์ฒดํด, ๋ฌผ์ฒด๋ณ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ๋ถ๋ด์ ์์ค ์ ์ด ๊น๋ํฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง ์์กด. Tablet Bottle์ด 12.6ํ๋ก ์ ํ๋ ์์ธ์ด โ๋ฏธ๋ชจ๋ธ๋ง ์ ๋ง์ฐฐโ์ด๋ผ๋ ์ ์, ์๊ฐ์ ๊ฐ๊ฑดํด์ก์ผ๋ ๋์ญํ ์ ํ๋๊ฐ ์ฌ์ ํ ์ฑ๋ฅ ์ํ์ ์ข์ฐ ํจ์ ์์ฌํฉ๋๋ค(์ถ์ธก).
- ๋ฌผ์ฒด๋ณ ํคํฌ์ธํธ. ํฌ์ฆ ์ถ์ ๊ธฐ๊ฐ ๋ฌผ์ฒด๋ณ 8๊ฐ ํคํฌ์ธํธ๋ฅผ ์ฐ๋ฏ๋ก, ์์ ํ ์๋ก์ด ๋ฌผ์ฒด๋ก์ ์ฆ์ ์ผ๋ฐํ(category-level/novel object)๋ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค(์ถ์ธก).
- ์ฌ๊ตฌ์ฑ ์ ์ฒ๋ฆฌ ๋น์ฉ. ๊ฐ ๋ฌผ์ฒด์ 3DGS ์์ฐ์ ์ฌ์ ์ ์ฌ๊ตฌ์ฑํด์ผ ํ๋ฏ๋ก, ๋๊ท๋ชจ ๋ฌผ์ฒด๊ตฐ์ผ๋ก ํ์ฅ ์ ์์ฐ ์ค๋น ํ์ดํ๋ผ์ธ์ ๋น์ฉ์ด ๋ณ์์ ๋๋ค.
- ๊ฐ์ฒด ๊ฐ์ . ๋ณํ์ฒดยท๊ด์ ๋ฌผ์ฒด๋ก์ ํ์ฅ์ ๋ณธ ํ์์ ์ง์ ๋ค๋ค์ง์ง ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
ViserDex๋ ๋จ์ RGB ๊ธฐ๋ฐ ์์ ์ฌ๋ฐฐํฅ์ ์๊ฐ sim-to-real ๊ฒฉ์ฐจ ๋ฅผ, 3D Gaussian Splatting ํํ ๊ณต๊ฐ์์์ ๋๋ฉ์ธ ๋๋คํ ๋ก ํด์ํฉ๋๋ค. ๋์คํฐํ ์ด์ SH ๊ณ์์ ๊ฐํ๋ ๊ณต๊ฐ/์/์ ์ญ ํด๋ฌ์คํฐ augmentation ์ผ๋ก ๊ดํ์ค์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ray tracing ์์ด ํจ์จ์ ์ผ๋ก ๋ง๋ค๊ณ , ๊ต์ฌ-ํ์ distillation + ์ฑ๋ฅ ๊ธฐ๋ฐ ์ปค๋ฆฌํ๋ผ RL ๋ก ๊ฐ๊ฑดํ ์ ์ฑ ์ ํ์ตํฉ๋๋ค.
ํต์ฌ ์์น๋ก ์ ๋ฆฌํ๋ฉด, ํฌ์ฆ ์ถ์ ์ ๊ณต์นญ/์ ๋์ ์กฐ๋ช ์์ ๊ฐ๊ฐ 65.4%/56.3% ์ ํ๋(DR Tiled ๋๋น ์ฐ์), ์ค๋ก๋ด ๋ฐฐํฌ๋ ๊ณต์นญ ์กฐ๋ช ํ๊ท 37.6ํ, ์ ๋์ ์กฐ๋ช ํ๊ท 25.4ํ ์ฐ์ ์ฑ๊ณต ์ ๋ฌ์ฑํ๊ณ , ํ์ต์ ์๋น์๊ธ RTX 4090์ผ๋ก ๊ฐ๋ฅํด DeXtreme ๋๋น ํ ์๋ฆฟ์ ํจ์จ ๊ฐ์ ์ ์ด๋ค์ต๋๋ค.
์ค๋ฌด ๊ด์ ์ ๊ฐ์น๋ โ์นด๋ฉ๋ผ ํ ๋์ ์๋น์๊ธ GPU๋ง์ผ๋ก, ๊ทนํ ์กฐ๋ช ์์๋ ๊ฒฌ๋๋ ๋ฅ์ ์กฐ์โ ์ ์ค์ฆํ๋ค๋ ๋ฐ ์์ต๋๋ค. ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง ์์กด์ฑ๊ณผ ๋ฌผ์ฒด๋ณ ์์ฐ ์ค๋น๋ผ๋ ํ๊ณ๋ ๋จ์ง๋ง, 3DGS ํํ ๊ณต๊ฐ ๋๋ฉ์ธ ๋๋คํ ๋ผ๋ ์์ด๋์ด๋ ์๊ฐ ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์์ sim-to-real ์ ์ด์์ ๊ฐ๋ ฅํ ์ ํ์ค์ ์ด ๋ ์ ์ฌ๋ ฅ์ด ํฝ๋๋ค.