flowchart TD
A["Raw DIGIT Images\n(left + right finger, 640x480)"] --> B["Keypoint Encoder\n(ResNet-18 mini)"]
B --> C["K=8 Feature Maps\n-> Active Keypoint k=[x,y,i]"]
C --> D["State: s = [k_L, k_R, j]\n(14-dimensional)"]
D --> E["Neural Network\nDynamics Model\nf(s,a) -> s'"]
E --> F["MPC + CEM Optimizer\n250 particles, horizon T=10\n~120 iterations per step"]
F --> G["Optimal Action a*_t"]
G --> H["Allegro Hand\n(8 DOF: 4 joints ร 2 fingers)"]
H --> A
style A fill:#2d6a9f,color:#fff
style D fill:#1a6b3a,color:#fff
style E fill:#7b3291,color:#fff
style F fill:#c0392b,color:#fff
๐XL-VLA ๋ฆฌ๋ทฐ
- ๐ก XL-VLA๋ ๋ค์ํ dexterous hand๋ค ๊ฐ์ ๊ณต์ ๋๋ ํต์ผ๋ latent action space๋ฅผ ํ์ฉํ์ฌ scalableํ cross-embodiment dexterous manipulation์ ๊ฐ๋ฅํ๊ฒ ํ๋ Vision-Language-Action (VLA) ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ ๏ธ ์ด embodiment-invariant latent space๋ unsupervised autoencoder๋ฅผ ํตํด ์ฌ์ ํ์ต๋๋ฉฐ, reconstruction, retargeting, ๊ทธ๋ฆฌ๊ณ latent regularization ์์ค์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ ๊ธฐ๊ตฌํ์ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฆฌ ๋์ต๋๋ค.
- ๐ ์ค์ ๋ก๋ด ์คํ์์ XL-VLA๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์๋ก์ด hand-task ์กฐํฉ์ ๋ํ zero-shot generalization ๋ฅ๋ ฅ์ ์ ์ฆํ์ฌ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์ฌํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
XL-VLA ๋ ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ํ Cross-Hand Latent Representation์ ์ ์ํ์ฌ, ๋ค์ํ ํํ์ Dexterous Hand์ ๊ฑธ์ณ ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ด ์กฐ์(Manipulation)์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ๋ก๋ด์ Morphology์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ํ๋ ๊ณต๊ฐ(Action Space) ๋๋ฌธ์ ์๋ก์ด ๋ก๋ด์ด ๋ฑ์ฅํ ๋๋ง๋ค ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ฌํ์ตํด์ผ ํ๋ ๋นํจ์จ์ฑ์ ๊ฐ์ง๋๋ค. ํนํ Dexterous Hand์ ๊ฒฝ์ฐ, ๊ด์ ์์น(Joint Position) ํ๋ผ๋ฏธํฐํ๊ฐ embodiment๋ง๋ค ํฌ๊ฒ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ค์ํ Dexterous Hand์ ๊ฑธ์ณ ๊ณต์ ๋๋ ํตํฉ๋ Latent Action Space๋ฅผ ๋์ ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
XL-VLA์ ํต์ฌ์ ๋ค์ ๋ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค: (1) ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ(Vision V, Language T)์ ์ธ์ฝ๋ฉํ๋ VLA Backbone, (2) Cross-Embodiment Transfer๋ฅผ ์ํด ๋ฏธ๋ฆฌ ํ์ต๋(pretrained) Latent Encoder ๋ฐ Decoder ์ธํธ.
๋ฌธ์ ์ ์ (Problem Formulation): ๊ฐ Dexterous Hand h \in H๋ d_h๊ฐ์ actuated joints๋ฅผ ๊ฐ์ง๋ฉฐ, ์ ๋ ๊ด์ ํ์ (Absolute Joint Rotations) q^{(h)} \in \mathbb{R}^{d_h}๋ฅผ ์ ์ดํฉ๋๋ค. ์ ์ฑ ์ Action Chunk ๋จ์๋ก ์๋ํ๋ฉฐ, ๊ฐ Action q^{(h)}_t \in \mathbb{R}^{64 \times d_h}๋ 20Hz๋ก ์ํ๋ง๋ 64๊ฐ์ ๊ด์ ์์น ๋ช ๋ น์ด ์ํ์ค(3.2์ด์ ๋์)์ ๋๋ค. ์ ์ฑ ์ ํ์ฌ ๋จ๊ณ t์์ ์ด์ ๊ด์ ์ํ, ์ด์ ์ ์คํ๋ Action Chunk q^{(h)}_t, ํ์ฌ ์ด๋ฏธ์ง V, ์ธ์ด ์ง์ T๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ Chunk q^{(h)}_{t+1}๋ฅผ ์์ธกํฉ๋๋ค: q^{(h)}_{t+1} = F(q^{(h)}_t, V, T) ์ฌ๊ธฐ์ F๋ Hand-Agnostic ๋ชจ๋ธ์ด๋ฉฐ, Hand ID h๋ ์ ์ ํ Encoder/Decoder๋ฅผ ์ ํํ๋ ๋ฐ๋ง ์ฌ์ฉ๋ฉ๋๋ค.
XL-VLA ํ์ดํ๋ผ์ธ: XL-VLA๋ \pi_0 [6]์ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๊ธฐ์กด \pi_0๊ฐ proprioceptive history๋ฅผ state token ์คํ์ผ๋ก ์ ๊ณตํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, XL-VLA์์๋ latent action token์ ์ฌ์ฉํฉ๋๋ค. ๊ฐ Hand h์ ๋ํด, Hand-specific Encoder E_h๋ ์ด์ ์ ๋ ๊ด์ ์์น Action Chunk q^{(h)}_t๋ฅผ ์์ถ๋ Latent Vector z_t = E_h(q^{(h)}_t)๋ก ๋งคํํฉ๋๋ค. VLA ๋ชจ๋ธ์ ์ด๋ฌํ Latent Token๋ค์ ์งง์ History์ Vision ๋ฐ Language Token์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ Latent Chunk \hat{z}_{t+1}์ ์์ธกํฉ๋๋ค. ์ด Latent Vector๋ Embodiment-specific Decoder D_h์ ์ํด ๋ค์ ๊ด์ ๋ช ๋ น Chunk \hat{q}^{(h)}_{t+1} = D_h(\hat{z}_{t+1})๋ก ๋์ฝ๋ฉ๋ฉ๋๋ค. VLA Fine-tuning ์ค์๋ ๋ชจ๋ Latent Encoder์ Decoder๋ Frozen ์ํ๋ฅผ ์ ์งํฉ๋๋ค.
Latent Space ํ์ต (Latent Space Learning): Latent Space๋ ๋ฉํฐ ํค๋ VAE(Variational Autoencoder) ์คํ์ผ์ Autoencoder๋ฅผ ํตํด VLA ๋ชจ๋ธ๊ณผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฌ์ ํ์ต๋ฉ๋๋ค. ๊ฐ Hand Type h \in H์ ๋ํด Hand-specific Encoder E_h์ Decoder D_h๊ฐ ์ ์๋ฉ๋๋ค. Input q^{(h)}๋ Encoder MLP๋ฅผ ํตํด ๊ณตํต Latent Space๋ก ํฌ์๋๊ณ , Decoder MLP๋ Latent Embedding์ Hand์ ์๋ ๊ด์ ๊ตฌ์ฑ์ผ๋ก ์ฌํฌ์ํฉ๋๋ค.
์๋ฏธ ์๋ Cross-Embodiment Latent Space๋ฅผ ํ์ฑํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ํ๋ จ ์ ์ฝ ์กฐ๊ฑด์ด ๋ถ๊ณผ๋ฉ๋๋ค:
- ์ฌ๊ตฌ์ฑ ์์ค (L_1, Reconstruction Loss): Encoder-Decoder ์์ด ํด๋น Hand์ ๋ํ Autoencoder๋ก ์๋ํ๋๋ก ๋ณด์ฅํฉ๋๋ค. L_1 = L_{rec} = \frac{1}{|H|} \sum_{h \in H} \text{MSE}(\hat{q}^{(h)}, q^{(h)}) ์ด๋ Latent Space๊ฐ Hand-specific kinematics๋ฅผ ๋ณด์กดํ๋๋ก ํฉ๋๋ค.
- ๋ฆฌํ๊ฒํ ์์ค (L_2, Retargeting Loss): ๋ค๋ฅธ Dexterous Hand ๋ก๋ด ๊ฐ์ Fingertip Geometry๋ฅผ ์ ๋ ฌํฉ๋๋ค. ๊ฐ Hand h์ ๋ํด ๋ฏธ๋ถ ๊ฐ๋ฅํ Forward Kinematics (FK)๋ฅผ ์ฌ์ฉํ์ฌ ๊ด์ ์ Fingertip Position p^{(h)}_i์ ๋งคํํ๊ณ , Fingertip Displacement \delta^{(h)}_{ij} = p^{(h)}_i - p^{(h)}_j๋ฅผ ์ ์ํฉ๋๋ค. L_2 = \frac{1}{|H|(|H|-1)|P|} \sum_{s \neq t} \sum_{(i,j) \in P} w^{(s)}_{ij} \left[ \lambda_{dis} \| \delta^{(s)}_{ij} \|^2 - \| \hat{\delta}^{(t)}_{ij} \|^2 \right]^2 + \lambda_{dir}(1 - c^{(s,t)}_{ij}) ์ฌ๊ธฐ์ \hat{\delta}^{(t)}_{ij}๋ Hand t์ ๋์ฝ๋ฉ๋ ๊ตฌ์ฑ์์ ๊ณ์ฐ๋๋ฉฐ, c^{(s,t)}_{ij}๋ Pinch Directions \delta^{(s)}_{ij}์ \hat{\delta}^{(t)}_{ij} ์ฌ์ด์ ๊ฐ๋ ์ฝ์ฌ์ธ ๊ฐ์ ๋๋ค. w^{(s)}_{ij} = \exp(-\lambda_{exp} \| \delta^{(s)}_{ij} \|^2)๋ ๊ฐํ Pinch์ ๊ฐ์ค์น๋ฅผ ๋ก๋๋ค. ์ด ์์ค์ ๋์ผํ Latent Code๊ฐ ๋ค์ํ Hand์์ ๊ธฐํํ์ ์ผ๋ก ์ผ๊ด๋ Pinch Behavior๋ฅผ ์์ฑํ๋๋ก ํฉ๋๋ค.
- Latent ์์ค (L_3, Latent Loss): Dexterous Hand Latent Space๋ฅผ ๋ถ๋๋ฝ๊ณ ์ ์๋ํ๋๋ก ์ ๊ทํํ๊ธฐ ์ํด Latent ๋ณ์์ ํ์ค ๊ฐ์ฐ์์ ์ฌ์ (Standard Gaussian Prior)์ ๋ถ๊ณผํฉ๋๋ค. L_3 = L_{KL} = \mathbb{E}_q[ \text{KL}(q(z | q) \| \mathcal{N}(0, I)) ] ์ด๋ ๊ณต์ Latent Space๊ฐ \mathcal{N}(0, I) ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ๊ถ์ฅํ๋ฉฐ, Sampling ๋ฐ Interpolation์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
์ด Latent ๋ชฉ์ ํจ์ (Total Latent Objective)๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: L_{latent} = L_1 + L_2 + \beta L_3 ์ฌ๊ธฐ์ \beta = 10^{-5}, \lambda_{dis} = 2000.0, \lambda_{dir} = 5.0, \lambda_{exp} = 12.0๋ก ๊ณ ์ ๋ฉ๋๋ค.
์ด Latent Autoencoder๋ ์ด๋ ํ Demonstration์ด๋ Inverse Kinematics (IK)๋ก ์์ฑ๋ Trajectory ์์ด ํ๋ จ๋ฉ๋๋ค. ๋์ , ๊ฐ Hand s \in H์ ๋ํด ํ๋์จ์ด ๊ด์ ํ๊ณ ๋ด์์ ๋ฌด์์๋ก ๊ด์ ๊ตฌ์ฑ q^{(s)}๋ฅผ ์ํ๋งํฉ๋๋ค. Latent ๊ณต๊ฐ์ ์ ๋ ฌ์ ์์ ํ Self-supervised ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, Cross-Hand Trajectory ์์ด ํ์ํ์ง ์์ต๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ (Experiments and Results)
๋ณธ ์ฐ๊ตฌ๋ 10๊ฐ์ง ๋ค์ํ ์กฐ์ Task์ Ability, Paxini DexH13, X-Hand1, Inspire ๋ฑ 4๊ฐ์ง Dexterous Hand๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ Teleoperation Dataset์ ๊ตฌ์ถํ์ต๋๋ค (์ด 2M State-Action Pair). ์คํ์ xArm๊ณผ Unitree G1 ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์์ ์ํ๋์์ต๋๋ค.
- VLA + Latent ํตํฉ์ ํจ๊ณผ (Effectiveness of VLA + Latent Integration):
- Cross-Hand ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: XL-VLA๋ \pi_0 baseline ๋๋น ๋ชจ๋ Hand ๋ฐ Task์์ ์ผ๊ด๋๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค (Table 2). \pi_0์ ํ๊ท ์ฑ๊ณต๋ฅ ์ 0.32์ ๋ถ๊ณผํ์ง๋ง, XL-VLA๋ 0.72๋ฅผ ๊ธฐ๋กํ์ฌ 40% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ ์ ๊ตํ ์กฐ์ Task์์ ๋๋๋ฌ์ง ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
- Cross-Robot ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: Tabletop xArm๊ณผ ํด๋จธ๋ ธ์ด๋ G1์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ต์์ผฐ์ ๋, XL-VLA๋ G1์์ \pi_0 ๋๋น 57% ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค (XL-VLA: 0.825, \pi_0: 0.525) (Figure 5, Table 6). ์ด๋ ํต์ผ๋ Latent Space๊ฐ ์ด์ข ๋ก๋ด ์์คํ ๊ฐ์๋ ์ ์ตํจ์ ๋ณด์ฌ์ค๋๋ค.
- Zero-Shot Task ์ผ๋ฐํ: XL-VLA๋ Hold-out๋ Task์ ๋ํด Zero-Shot์ผ๋ก ์ผ๋ฐํํ๋ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค (Figure 4). ํ์ค Kinematic Retargeting ๊ธฐ๋ฐ์ \pi_0+RT baseline๊ณผ ๋น๊ตํ์ ๋, XL-VLA๋ ๋ชจ๋ Embodiment์ Task์์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ ๋ฏธ์ธํ Dexterous Task์์ ๊ทธ ์ด์ ์ด ๋์ฑ ๋ช ํํ์ต๋๋ค.
- Latent Action Space์ ํจ๊ณผ (Effectiveness of the Latent Action Space):
- Latent Replay ๋น๊ต: Latent Action Diffusion (LAD) [2]์ ๊ฐ์ Supervised Latent Space Retargeting ๋ฐฉ๋ฒ๊ณผ ๋น๊ตํ์ ๋, XL-VLA์ Latent Space๋ ํจ์ฌ ๋ฐ์ด๋ Replay ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค (Table 4). LAD๊ฐ 0.60, 0.61์ ๊ทธ์น ๋ฐ๋ฉด, XL-VLA๋ 0.82, 0.81์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ XL-VLA์ Latent Space๊ฐ Unsupervised ๋ฐฉ์์ผ๋ก๋ Embodiment-invariant ๊ตฌ์กฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํจ์ ์์ฌํฉ๋๋ค.
- ์ค๊ณ ์ ํ ๋น๊ต (Design Choice Comparison): Ablation Study๋ฅผ ํตํด Latent Space์ ์ํคํ ์ฒ ๋ฐ ์์ค ํจ์ ์ค๊ณ๊ฐ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์ต๋๋ค (Table 5). ์ต์ข ๊ตฌ์ฑ (Hidden Size H128->64, Latent Dimension 32)์ ์ฌ๊ตฌ์ฑ ์ ํ๋(Reconstruction Accuracy), Cross-Embodiment Retargeting, Latent Continuity, Interpolation Smoothness ๋ฑ ๋ค์ํ Metric์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ ๊ท ํ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์ฌ๊ตฌ์ฑ ์์ค(L_1)๊ณผ ๋ฆฌํ๊ฒํ ์์ค(L_2) ๋ชจ๋ Cross-Embodiment ์ฑ๋ฅ์ ํ์์ ์์ด ๋ฐํ์ก์ต๋๋ค. Latent Dimension์ด ๋๋ฌด ์ปค์ง๋ฉด(์: L128) Embodiment-invariant ๊ตฌ์กฐ๋ฅผ ๋ฐฉํดํ ์ ์์์ ํ์ธํ์ต๋๋ค.
๊ฒฐ๋ก (Conclusion)
XL-VLA๋ ํตํฉ๋ Latent Action Space๋ฅผ ํตํด Vision-Language-Action ๋ชจ๋ธ์ Dexterous Manipulation์ ์ ์ฉํ๋ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๋ณธ ์ ๊ทผ ๋ฐฉ์์ ๋ค์ํ ๋ก๋ด ํธ๋์ ๊ฑธ์ณ ์ํํ ํ๋ จ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ์๋ก์ด Hand-Task ์กฐํฉ์ ๋ํ Zero-Shot ์ผ๋ฐํ๋ฅผ ์ง์ํฉ๋๋ค. ๊ด๋ฒ์ํ ์ค์ ์คํ์ ํตํด XL-VLA๋ ํ์ค VLA ๋ชจ๋ธ ๋ฐ Retargeting ๊ธฐ๋ฐ Baseline์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ Latent Action Space๊ฐ ์ผ๋ฐํ ๊ฐ๋ฅํ๊ณ ๋ฐ์ดํฐ ํจ์จ์ ์ธ Dexterous Manipulation ์์คํ ์ ๊ตฌ์ถํ๊ธฐ ์ํ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ์ด ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ๋ก๋ด์ ์์ง๋ ์์ ๋ชป ์ฐ๋๊ฐ?
์ ๊น ์๊ฐํด๋ณด์. ๋น์ ์ด ์ฑ ์ ์์ ๋์ธ ์ ๋ฆฌ ๊ตฌ์ฌ์ ์ง์ด ์๊ฐ๋ฝ ์ฌ์ด์์ ๊ตด๋ฆฐ๋ค๊ณ ํด๋ณด์. ์ด ๋์์ด ์ผ๋ง๋ ๋ณต์กํ์ง๋ฅผ. ์๊ฐ๋ฝ์ด ๊ตฌ์ฌ ์๋ฅผ ๋ฏธ๋๋ฌ์ง์ง ์๊ฒ ์ ๋นํ ํ์ ์ฃผ๋ฉด์๋, ๋๋ฌด ์ธ๊ฒ ์ก์ ๊ตฌ์ฌ์ด ํ์ด๋๊ฐ์ง ์๊ฒ ํด์ผ ํ๋ค. ๊ตฌ์ฌ์ด ์ด๋์ ์๋์ง, ์ผ๋ง๋ ๋๋ ธ๋์ง, ๋ฏธ๋๋ฌ์ง๋ ค ํ๋์งโ์ด ๋ชจ๋ ์ ๋ณด๋ฅผ ๋น์ ์ ์๋ ์ ๊ฒฝ์ด ์ค์๊ฐ์ผ๋ก ๋์ ์ ๋ฌํ๊ณ ์๋ค.
๋ก๋ด์ด ์ด๊ฑธ ๋ชป ํ๋ ์ด์ ๊ฐ ๋ญ๊น? ๋ฌผ๋ก ์ฌ๋ฌ ์ด์ ๊ฐ ์์ง๋ง, ์ด๊ฐ ์ผ์์ ๋ถ์ฌ๊ฐ ํต์ฌ ๋ณ๋ชฉ ์ค ํ๋๋ค. ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ก์ ๋ ๋ฌด์จ ์ผ์ด ๋ฒ์ด์ง๋์ง โ๋๋โ ์ ์๋ค๋ฉด, ์ ๊ตํ ์กฐ์์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ค. ์นด๋ฉ๋ผ๋ก ์์ ๋ฐ๊นฅ์ ๋ณด๋ ๊ฑด ์๊ฐ๋ฝ ๋ด๋ถ์ ์ ์ด ์ํฉ์ ์๋ ค์ฃผ์ง ๋ชปํ๋ค.
์ด ๋ ผ๋ฌธ์ด ๋ฑ์ฅํ ๋ฐฐ๊ฒฝ์ด ๋ฐ๋ก ์ฌ๊ธฐ์ ์๋ค. DIGIT๋ Facebook AI Research(FAIR) ํ์ด ๊ฐ๋ฐํ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์๋ก, ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๊ณ ์ ํ๋ค.
๋ฌธ์ 1: ๊ธฐ์กด ์ด๊ฐ ์ผ์๋ค์ ์ ์ ์ฐ์ด๋?
๊ธฐ์กด ๊ณ ํด์๋ ์ด๊ฐ ์ผ์(GelSight ๋ฑ)๋ ์ฑ๋ฅ์ ์ข์ง๋ง ๋ถํผ๊ฐ ๋๋ฌด ํฌ๊ณ , ์ ์กฐ ์ฌํ์ฑ์ด ๋ฎ์ผ๋ฉฐ, ๋น์๋ค. ๋ฐ๋ฉด ์ ๋ ดํ ์๋ ฅ ์ผ์๋ค์ ๊ณต๊ฐ ํด์๋๊ฐ ๋ฎ์ ์ฌ์ธํ ์กฐ์์ ์ฐ๊ธฐ ์ด๋ ค์ ๋ค. โ์ฑ๋ฅ vs. ์ค์ฉ์ฑโ์ ํธ๋ ์ด๋์คํ๊ฐ ์ค๋ซ๋์ ์ฐ๊ตฌ์๋ค์ ๊ดด๋กญํ ์๋ค.
๋ฌธ์ 2: ๊ณ ํด์๋ ์ด๊ฐ์ผ๋ก ์ค์ ์กฐ์์ ์ด๋ป๊ฒ ํ๋?
์ค๋ น ์ข์ ์ผ์๊ฐ ์๋๋ผ๋, 640ร480 ํฝ์ ์ง๋ฆฌ ์ด๋ฏธ์ง๊ฐ 60fps๋ก ์์์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ ์ ์ด์ ์ฐ๊ธฐ๋ ๊ณ์ฐ์ ์ผ๋ก ๋ถ๋ด์ค๋ฝ๋ค. ์ฌ๋ฌ ์๊ฐ๋ฝ์์ ๋์์ ๋ค์ด์ค๋ ์ด๊ฐ ์คํธ๋ฆผ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํด์ผ ํ๋๊ฐ?
DIGIT๋ ์ด ๋ ๋ฌธ์ ์ ๋ํ ๊ณตํ์ ยท์๊ณ ๋ฆฌ์ฆ์ ํด๋ต์ ๋์์ ์ ์ํ๋ค.
๋ฐฉ๋ฒ I: DIGIT ์ผ์ ์ค๊ณ
๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ์๋ฆฌ
๋จผ์ ์ด ๊ณ์ด ์ผ์๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง๋ถํฐ ์ดํดํ์. ์๋ฆฌ ์์ฒด๋ ์๋ฆ๋ต๋๋ก ๋จ์ํ๋ค.
[Object] --presses--> [Soft Elastomer Gel]
[Deformed surface reflects light differently]
[RGB Camera inside sensor] --captures--> [Deformation image]
์๋ผ์คํ ๋จธ(ํ์ฑ ๊ณ ๋ถ์)๋ก ๋ง๋ ๋ถ๋๋ฌ์ด ์ ค์ด ์ผ์ ํ๋ฉด์ ๋ฎ๊ณ ์๋ค. ๋ฌผ์ฒด๊ฐ ์ด ์ ค์ ์ ์ดํ๋ฉด ์ ค ํ๋ฉด์ด ๋ณํ๋๊ณ , ๋ด๋ถ LED ์กฐ๋ช ์ด ์ด ๋ณํ๋ ํ๋ฉด์ ๋น์ถ๋ค. ๋ด๋ถ ์นด๋ฉ๋ผ๋ ์ด ๋น์ ๋ณํ๋ฅผ ์ด๋ฏธ์ง๋ก ํฌ์ฐฉํ๋ค. ๋ณํ = ์ด๋ฏธ์ง ๋ณํ = ์ ์ด ์ ๋ณด. ์ด๊ฒ์ด GelSight ๊ณ์ด ์ผ์๋ค์ ๊ทผ๋ณธ ์๋ฆฌ๋ค.
์ด ๋ฐฉ์์ ์ฅ์ ์ ๊ณต๊ฐ ํด์๋๊ฐ ์นด๋ฉ๋ผ ํด์๋์ ์ํด์๋ง ์ ํ๋๋ค๋ ๊ฒ์ด๋ค. ์นด๋ฉ๋ผ ํฝ์ ์ด ์ถฉ๋ถํ ์์ผ๋ฉด ์์ญ ๋ง์ดํฌ๋ก๋ฏธํฐ ์์ค์ ํ๋ฉด ๊ตฌ์กฐ๋ ๊ฐ์งํ ์ ์๋ค โ ๋ ผ๋ฌธ์ Fig. 3์ด ๋ณด์ฌ์ฃผ๋ฏ, DIGIT๋ ์๋ธ๋ฐ๋ฆฌ๋ฏธํฐ ๊ตฌ์กฐ๋ฅผ ์ ๋ช ํ๊ฒ ํฌ์ฐฉํ๋ค.
๊ธฐ๊ณ์ ์ค๊ณ: ์๊ฐ๋ฝ ๋์ ๋ค์ด๊ฐ๋ ์นด๋ฉ๋ผ
DIGIT๊ฐ ๊ธฐ์กด GelSight ๋๋น ๊ฐ์ฅ ๊ทน์ ์ผ๋ก ๊ฐ์ ํ ๋ถ๋ถ์ ํผํฉํฐ๋ค.
| ์ผ์ | ํฌ๊ธฐ (mm) | ๋ฌด๊ฒ (g) | ์ผ์ฑ ๋ฉด์ (mm) | ํด์๋ | FPS | ๋ถํ ๋น์ฉ |
|---|---|---|---|---|---|---|
| DIGIT (Ours) | 20ร27ร18 | 20 | 19ร16 | 640ร480 | 60 | $15* |
| Fingertip GelSight [11] | 35ร60ร35 | NA | 18ร14 | 1920ร1080 | 30 | ~$30 |
| GelSlim [12] | 50ร205ร20 | NA | 30ร40 | 640ร480 | 60 | NA |
1,000๊ฐ ๋จ์ ์์ฐ ๊ธฐ์ค
GelSight์ ๊ธด ์ถ์ด 205mm์ธ ๋ฐ๋ฉด, DIGIT๋ 27mm๋ค. ์ด ์ฐจ์ด๊ฐ ๊ฒฐ์ ์ ์ด๋ค. GelSight๋ Allegro Hand ๊ฐ์ ๋ฉํฐํ๊ฑฐ ๋ก๋ด ์์ ์ฅ์ฐฉ ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅํ๋ค. DIGIT๋ ์ฒ์๋ถํฐ Allegro Hand์ ๊ฐ ์๊ฐ๋ฝ ๋์ ์ฅ์ฐฉ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์๋ค(Fig. 1 ์ฐธ์กฐ).
๊ตฌ์กฐ๋ 7๊ฐ ๋ถํ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค:
A) Elastomer (contact surface)
B) Acrylic window
C) Snap-fit holder
D) Lighting PCB (RGB LEDs)
E) Plastic housing
F) Camera PCB (OVM7692)
G) Back housing
ํต์ฌ ์ค๊ณ ์ฒ ํ์ ๋ชจ๋์ฑ๊ณผ press-fit ์กฐ๋ฆฝ์ด๋ค. ๋์ฌ๋ฅผ ํ๋๋ง ํ๋ฉด ์ ค์ ๊ต์ฒดํ ์ ์๊ณ , ํ์์ ๋ฐ๋ผ ๋ค๋ฅธ ์ข ๋ฅ์ ์๋ผ์คํ ๋จธ๋ฅผ ๋ผ์ธ ์ ์๋ค:
- ๋ถํฌ๋ช ๋ฐ์ฌํ: ํ๋ฉด ํ ์ค์ฒยทํ์ ์ธก์ (๊ธฐ๋ณธ๊ฐ)
- ๋ง์ปค ์๋ ๋ฐ์ฌํ: ๊ดํ ํ๋ฆ(optical flow) ๊ณ์ฐ
- ๋ง์ปค ์๋ ํฌ๋ช ํ: ํ์ง ์ค ์๊ฐ๋ฝ ์์น ํ์ธ (FingerVision ์คํ์ผ)
ํ๋์ ํ๋์จ์ด๋ก ์ธ ๊ฐ์ง ์ด์ฉ ๋ชจ๋๋ฅผ ์ง์ํ๋ค๋ ์ ์ ์ฐ๊ตฌ ํ๋ซํผ์ผ๋ก์ ๋งค๋ ฅ์ ์ด๋ค.
์ ์ ์ค๊ณ: 7cmยฒ์ ๋ด์ ์นด๋ฉ๋ผ ์์คํ
DIGIT๋ ๊ธฐ์ฑํ ์นด๋ฉ๋ผ ๋ชจ๋ ๋์ ์ปค์คํ PCB๋ฅผ ์ค๊ณํ๋ค. ์นด๋ฉ๋ผ๋ก๋ Omnivision OVM7692๋ฅผ ์ฑํํ๋๋ฐ, ์ด ์นฉ์ ์ด์ ๊ฑฐ๋ฆฌ 1.15mm, ์ฌ๋ 30cm์ ๋ง์ดํฌ๋ก๋ ์ฆ ์ด๋ ์ด๋ฅผ ๋ด์ฅํด ๋๋จํ ์งง์ ๊ฑฐ๋ฆฌ์์๋ ์ ๋ช ํ ์ด๋ฏธ์ง๋ฅผ ์ป๋๋ค. ์ ์ฒด ์ ์๋ถํ์ด ์ฐจ์งํ๋ ๋ฉด์ ์ 7cmยฒ โ ์ธ๊ฐ ์๊ฐ๋ฝ ๋๋ณด๋ค ์กฐ๊ธ ํด ๋ฟ์ด๋ค.
์กฐ๋ช ์ ์ธ ๊ฐ์ RGB LED๋ก ๊ตฌ์ฑ๋์ด ์๋ผ์คํ ๋จธ ํ๋ฉด์ ์ต๋ 4๋ฃจ๋ฉ์ ๊ณต๊ธํ๋ค. ์ฌ๋ฌ DIGIT๋ฅผ ํ๋์ USB ํฌํธ์ ์ฐ๊ฒฐํ ์ ์๋๋ก SuperSpeed USB 3.0 ํ๋ธ๋ฅผ PCB์ ํตํฉํ๋ค. ์ด๋ ๋ฉํฐํ๊ฑฐ ํธ๋ ์ด์ฉ์์ ์ค์ํ ์ค์ฉ์ ๊ณ ๋ ค์ฌํญ์ด๋ค.
์๋ผ์คํ ๋จธ ์ค๊ณ: ๋ด๊ตฌ์ฑ์ ํ์
๊ธฐ์กด GelSight ๊ณ์ด ์ผ์์ ๊ฐ์ฅ ํฐ ์ฝ์ ์ ์ ค์ ๋ง๋ชจ์๋ค. ์ ค ํ๋ฉด์ ๋ถํฌ๋ช ์ด๋ฏธ์ง ์ ์ฌ ๋ ์ด์ด๊ฐ ๋ฐ๋ณต ์ ์ด์ผ๋ก ์์๋๋ฉด ์ผ์ ํน์ฑ์ด ๋ฌ๋ผ์ง๊ณ , ์ ์ ค๋ก ๊ต์ฒดํ๋ฉด ์ฌํ๋ จ์ด ํ์ํ ์ ์์๋ค.
DIGIT์ ์ ค ์ ์กฐ ๊ณต์ ์ 3๋จ๊ณ๋ค:
Step 1: Airbrush silicone-based white pigment into mold
+ chemical kicker -> uniform image transfer layer
Step 2: Apply base layer silicone to finger-shaped mold, cure
Step 3: Remove from mold, glue onto acrylic window
using Smooth-On Sil-Poxy (optically clear adhesive)
-> Acrylic-gel unit press-fit into DIGIT body
์์ฌ๋ก๋ ํ์๊ด ํจ๋ ์ฝํ ์ ์ฐ์ด๋ Smooth-On Solaris ์ค๋ฆฌ์ฝ์ ์ฌ์ฉํ๋ค. ์ด ์์ฌ ์ ํ๊ณผ ์ ์กฐ ๊ณต์ ์ด ๋ด๊ตฌ์ฑ์ ๊ฒฐ์ ์ ์ธ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค.
์ ๋์ ๊ฒ์ฆ ๊ฒฐ๊ณผ๊ฐ ์ธ์์ ์ด๋ค. ์ ๊ณ ํ์ค ์ ํ ๋ง๋ชจ ์ฅ์น(1.7N, H-18 Calibrade ์ค๊ฐ ๋ง๋ชจ ํ)๋ก 5ํ ํจ์ค์ฉ ์ฌ์ดํด์ ์งํํ๋ฉด์ ๊ดํฌ๊ณผ์จ ๋ณํ(%)๋ก ๋ง๋ชจ๋๋ฅผ ์ธก์ ํ๋ค:
| ์ ค / ๋ง๋ชจ ์ฌ์ดํด | 5ํ | 10ํ | 15ํ |
|---|---|---|---|
| DIGIT (Ours) | 0% | 0.3% | 0.3% |
| Yuan et al. [11] ์ ค | 276% | 482% | 805% |
| GelSight Inc. ์ ค | 475% | 662% | 918% |
๋จ 5๋ฒ์ ํจ์ค ๋ง์ ๊ธฐ์กด ์ ค๋ค์ ์ฐข์ด์ง๊ฑฐ๋ ํ๋ฉด ์์ฌ๊ฐ ํ๋ฝํด ์ฌ์ฉ ๋ถ๊ฐ ์ํ๊ฐ ๋ ๋ฐ๋ฉด, DIGIT ์ ค์ 15๋ฒ ์ฌ์ดํด ํ์๋ 0.3% ๋ณํ์ ๊ทธ์ณค๋ค. 1,000๋ฐฐ ์ด์์ ๋ด๊ตฌ์ฑ ์ฐจ์ด๋ค.
ํ ๊ฐ์ง trade-off๋ฅผ ์ง์ ํด๋์ด์ผ ํ๋ค: DIGIT ์ ค์ ๊ธฐ์กด ์ ค ๋๋น ํฌ๊ณผ์จ์ด ๋๋ค(676 Lux vs. 17~16 Lux). ์ ค์ด ์ฝ๊ฐ ๋ ๋ฐํฌ๋ช ํ๋ค๋ ์๋ฏธ์ธ๋ฐ, ์ ์๋ค์ ์ด๊ฒ์ด ์ด๊ฐ ์ผ์ฑ ์ฑ๋ฅ์ ๋ถ์ ์ ์ํฅ์ ์ฃผ์ง ์์์ ์คํ์ผ๋ก ๋ณด์๋ค.
๋ฐฉ๋ฒ II: ์ด๊ฐ ๊ธฐ๋ฐ ์ธ-ํธ๋ ์กฐ์ ํ์ต
DIGIT ์ผ์ ์์ฒด์ ์ค๊ณ๊ฐ ๋ ผ๋ฌธ์ ์ ๋ฐ์ด๋ผ๋ฉด, ๋๋จธ์ง ์ ๋ฐ์ ์ด ์ผ์๋ฅผ ์ฌ์ฉํด ์ด๋ป๊ฒ ์กฐ์ ๋ฅ๋ ฅ์ ํ์ตํ๋๊ฐ๋ค. ์ ๋ฆฌ ๊ตฌ์ฌ์ ๋ ์๊ฐ๋ฝ ์ฌ์ด์์ ์ํ๋ ์์น๋ก ๊ตด๋ฆฌ๋ ๊ฒ์ด ๋ชฉํ ํ์คํฌ๋ค. ์ด ํ์คํฌ๊ฐ ์ผ๋ง๋ ์ด๋ ค์ด์ง ์๊ฐํด๋ณด๋ผ: ๊ตฌ์ฌ์ ์๊ณ ๋งค๋๋ฝ๊ณ , ์ ์ด๋ฉด์ ๊ณก๋ฉด์ด๊ณ ๋ณํ๋๋ฉฐ, ๋๋ฌด ์ธ๊ฒ ์ก์ผ๋ฉด ํ์ด๋๊ฐ๊ณ ๋๋ฌด ์ฝํ๋ฉด ๋จ์ด์ง๋ค.
์์คํ ํ์ดํ๋ผ์ธ ๊ฐ์
์๊ธฐ์ง๋ ๋ฐ์ดํฐ ์์ง
4,800๋ฒ์ ์ํ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค. ๊ฐ ์ํ์์:
- ๊ธ์ ๋ฐ์นจ๋๊ฐ ๊ตฌ์ฌ์ ๋ค์ด์ฌ๋ฆฐ๋ค
- Sawyer ๋ก๋ด ์์ด ์ฌ์ ํ๋ก๊ทธ๋๋ฐ๋ ๋์์ผ๋ก ๊ตฌ์ฌ์ ์ง๋๋ค
- 4๊ฐ ์๋ณด ร 2์๊ฐ๋ฝ = 8์ฐจ์ ํ๋ ๊ณต๊ฐ์์ ๋๋ค ๊ฐ๋ ๋ณ์ ๋ช ๋ น 20ํ ๋ฐํ (~10์ด)
- ๊ตฌ์ฌ์ด ๋จ์ด์ง๋ฉด ๊ทธ๋ฆ์ ๋ด๊ธฐ๊ณ ๋ฐ์นจ๋๊ฐ ๋ค์ ๋ค์ด์ฌ๋ฆฐ๋ค
์ ์ฒด ๋ฆฌ์ ์ฌ์ดํด์ด ์๋ํ๋์ด ์์ด ์ธ๊ฐ ๊ฐ์ ์์ด ์์ฒ ํ ์์จ ๋ฐ์ดํฐ ์์ง์ด ๊ฐ๋ฅํ๋ค. 950๊ฐ ์ํ์ ๊ฒ์ฆ ์ธํธ๋ก ๋ถ๋ฆฌํ๋ค.
ํคํฌ์ธํธ ์คํ ์ธ์ฝ๋: ์ด๋ฏธ์ง๋ฅผ 14์ฐจ์์ผ๋ก ์์ถํ๊ธฐ
์ด ๋ถ๋ถ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ๊ฐ์ฅ ํต์ฌ์ ์ธ ์์ด๋์ด๋ค. 640ร480 ์ด๋ฏธ์ง๋ฅผ ์ง์ ๋ค๋ฃจ๋ฉด์ ์์ญ๋ง ๋ฒ์ ์์ธก์ ์ค์๊ฐ์ ๋๋ฆฌ๋ ๊ฑด ๋ถ๊ฐ๋ฅํ๋ค. ์ด๋ป๊ฒ ํ ๊น?
ํต์ฌ ํต์ฐฐ: ๊ตฌ์ฌ ์กฐ์ ํ์คํฌ์์ ์ค์ ๋ก ์ค์ํ ์ ๋ณด๋ ๊ตฌ์ฌ์ด ์ด๋์ ์๋๊ฐ ์ ์ผ๋ง๋ ๋๋ ธ๋๊ฐ ๋ฟ์ด๋ค. ๋๋จธ์ง ํฝ์ ์ ๋ณด๋ ์ ์ด ๋ชฉ์ ์ ์ก์์ด๋ค.
๊ตฌ์กฐ์ ์คํ ์ธ์ฝ๋(Structural VRNN [31] ๊ธฐ๋ฐ)๊ฐ ์ด ์์ถ์ ํ์ตํ๋ค:
์ธ์ฝ๋ ๊ฒฝ๋ก:
\text{Encoder}(I) \rightarrow \{f_1, f_2, \ldots, f_K\} \quad (K \text{ feature maps})
๊ฐ ํผ์ฒ๋งต f_k์์ ํคํฌ์ธํธ๋ฅผ ์ถ์ถํ๋ค:
k_k = [x_k, y_k, i_k]
- (x_k, y_k): ํผ์ฒ๋งต์์ ํ์ฑํ๊ฐ ์ต๋์ธ 2D ์์น
- i_k: ํด๋น ํผ์ฒ๋งต์ ํ๊ท ํ์ฑํ ํฌ๊ธฐ (๊ตฌ์ฌ์ด ์ผ๋ง๋ ๋๋ ธ๋์ง)
๋์ฝ๋ ๊ฒฝ๋ก:
๊ฐ ํคํฌ์ธํธ (x_k, y_k)์ ๋ํด ๋น ํผ์ฒ๋งต์ ๊ฐ์ฐ์์ ๋ธ๋กญ์ ๊ทธ๋ฆฐ๋ค. ์ด K๊ฐ์ ํผ์ฒ๋งต์ ๋์ฝ๋์ ์ ๋ ฅํด ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ์ฌ๊ตฌ์ฑํ๋ค.
์์ค ํจ์๋ L2 ์ด๋ฏธ์ง ์ฌ๊ตฌ์ฑ ์ค์ฐจ + ํคํฌ์ธํธ ํฌ์์ฑยท๋น์ค๋ณต์ฑ์ ๊ฐ์ ํ๋ ๋ณด์กฐ ์์ค์ ํฉ์ด๋ค:
\mathcal{L} = \mathcal{L}_{\text{reconstruction}} + \lambda \mathcal{L}_{\text{sparsity}} + \mu \mathcal{L}_{\text{separation}}
์คํ ๊ฒฐ๊ณผ K=8๋ก ์ค์ ํ์ ๋ 8๊ฐ ํคํฌ์ธํธ ์ค 7๊ฐ๋ ๋นํ์ฑํ๋๊ณ , ํ๋์ ํ์ฑ ํคํฌ์ธํธ๋ง์ด ๊ตฌ์ฌ์ ์์น๋ฅผ ์ ํํ ์ถ์ ํ๋ค. ๊ฐ๋ i๋ ๊ตฌ์ฌ์ด ๊น๊ฒ ๋๋ฆด์๋ก ์ฆ๊ฐํ๋ค. ์ด ์๊ธฐ์ง๋ ํ์ต์ด ํ์คํฌ ๊ด๋ จ ํํ์ ์๋์ผ๋ก ๋ฐ๊ฒฌํ ๊ฒ์ด๋ค.
์ต์ข ์ํ ํํ:
s = [k_L, k_R, j] \in \mathbb{R}^{14}
- k_L = [x_L, y_L, i_L]: ์ผ์ชฝ(์์ง) DIGIT ํคํฌ์ธํธ
- k_R = [x_R, y_R, i_R]: ์ค๋ฅธ์ชฝ(์ค์ง) DIGIT ํคํฌ์ธํธ
- j \in \mathbb{R}^8: 8๊ฐ ์๋ณด์ ๊ด์ ๊ฐ๋
64ร64 ์ด๋ฏธ์ง ๋ ์ฅ(= 8,192์ฐจ์)์ด 14์ฐจ์์ผ๋ก ์์ถ๋๋ค. 585๋ฐฐ ์ฐจ์ ๊ฐ์๋ค.
๋์ญํ ๋ชจ๋ธ: Struct-NN
์์ถ๋ ์ํ ๊ณต๊ฐ์์ ๋์ญํ์ ํ์ตํ๋ค:
s' = f_\theta(s, a)
14์ฐจ์ ์ํ s์ 8์ฐจ์ ํ๋ a๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ ์ํ s'๋ฅผ ์์ธกํ๋ MLP๋ค. ํ๊ฒฝ์ด ์์ ๊ด์ธก ๊ฐ๋ฅํ๋ฏ๋ก(ํคํฌ์ธํธ๊ฐ ๊ตฌ์ฌ ์์น๋ฅผ ์์ ํ ๊ธฐ์ ), ๋ณต์กํ VRNN ๋์ ๊ฐ๋จํ MLP๋ก ์ถฉ๋ถํ๋ค.
ํ๋ จ ์ ๋ ๊ฐ์ง ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ ์ฉํ๋ค:
- Zero-action ํํ ์ฝ์ : (s, 0, s) ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์ ์ฝ์ ํ์ฌ ๋ชจ๋ธ์ด โ์๋ฌด๊ฒ๋ ์ ํ๋ฉด ์ํ๊ฐ ๋ณํ์ง ์๋๋คโ๋ ๋ฌผ๋ฆฌ์ ์์์ ํ์ตํ๊ฒ ํจ
- RGB ๊ฐยท๊ฐ๋ง ๊ต๋: ์กฐ๋ช ๋ณํ์ ๋ํ ๊ฐ์ธ์ฑ ํ๋ณด
| ๋ชจ๋ธ | 1 forward-backward | 1 forward | MPC 1 step | ํ๋ผ๋ฏธํฐ ์ |
|---|---|---|---|---|
| Struct-NN (Ours) | 4.3 ms | 1.6 ms | 1.4 s | 1.2M |
| CDNA [35] | 6.8 ms | 2.3 ms | 69 s | 4M |
MPC 1์คํ ์์ 50๋ฐฐ ์๋ ์ฐจ์ด๊ฐ ํต์ฌ์ด๋ค. CDNA๋ 69์ด๊ฐ ๊ฑธ๋ ค ์ค์๊ฐ ์ ์ด์ ์ฌ์ฉ ๋ถ๊ฐ๋ฅํ๋ค.
๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด: MPC + CEM
ํ์ต๋ ๋์ญํ ๋ชจ๋ธ๋ก ๋ชจ๋ธ ์์ธก ์ ์ด(MPC)๋ฅผ ์ํํ๋ค. ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ๊ต์ฐจ ์ํธ๋กํผ ๋ฐฉ๋ฒ(CEM)์ ์ฌ์ฉํ๋ค.
MPC with CEM (one control step):
Input: current state s_t, goal keypoint (x_g, y_g, i_g)
Parameters: 250 particles, horizon T=10, ~120 CEM iterations
for each CEM iteration:
sample 250 action sequences {a_t:t+T-1} from current distribution
for each sequence:
rollout: s_t+1 = f(s_t, a_t), ..., s_t+T = f(s_t+T-1, a_t+T-1)
cost = sum_{tau=t}^{t+T} ||[x_tau, y_tau, i_tau] - [x_g, y_g, i_g]||_2
update distribution from top-K lowest-cost sequences
Apply a*_t (first action of best sequence) to Allegro Hand
๋น์ฉ ํจ์๋ ํคํฌ์ธํธ ๊ณต๊ฐ์์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ํฉ์ฐ์ด๋ค. (x, y) ํญ์ ๊ตฌ์ฌ์ ๋ชฉํ ์์น๋ก ์ด๋์ํค๊ณ , i ํญ์ ๊ตฌ์ฌ์ ๋จ์ด๋จ๋ฆฌ๊ฑฐ๋(๋ฎ์ i) ๋๋ฌด ์ธ๊ฒ ๋๋ฅด๋(๋์ i) ํ๋์ ์ต์ ํ๋ค. ์ฐ์ํ๊ฒ ๋จ์ํ ๋น์ฉ ์ค๊ณ๋ค.
Struct-NN ๋๋ถ์ ์ธ์ฝ๋๋ ์ค์ ์ด๋ฏธ์ง์ ๋ํด MPC 1์คํ ๋น ๋จ 1๋ฒ๋ง ํธ์ถ๋๊ณ , ์ดํ ์์ญ๋ง ๋ฒ์ ์์ธก์ 14์ฐจ์ MLP๋ง์ผ๋ก ์ํ๋๋ค. ๊ณ์ฐ ๋ณ๋ชฉ์ ์ธ์ฝ๋ฉ์์ ๊ณํ(planning)์ผ๋ก ์ด๋์ํจ ์ค๊ณ๋ค.
์คํ: ๊ฒฐ๊ณผ์ ํด์
๋์์ ์์ธก ๋ชจ๋ธ ์ฑ๋ฅ
๋จผ์ ๋์ญํ ๋ชจ๋ธ ์์ฒด๋ฅผ ๋ฒค์น๋งํนํ๋ค. BAIR ๋ก๋ด ํธ์ฑ ๋ฐ์ดํฐ์ ๊ณผ ์์ฒด ๊ตฌ์ฌ ์กฐ์ ๋ฐ์ดํฐ์ ๋ชจ๋์์ CDNA์ ๋น๊ตํ๋ค.
| ๋ฐ์ดํฐ์ | Struct-NN RMSE | CDNA RMSE |
|---|---|---|
| BAIR ํธ์ฑ | 0.06023 | 0.01082 |
| ๊ตฌ์ฌ ์กฐ์ | 0.00657 | 0.00028 |
ํฅ๋ฏธ๋ก์ด ํจํด์ด ๋ณด์ธ๋ค. RMSE๋ CDNA๊ฐ ๋ซ์ง๋ง, MPC ์ค์ ์ฑ๋ฅ์์๋ Struct-NN์ด ์ฐ์ธํ๋ค. ์? ์ด๋ฏธ์ง ์ฌ๊ตฌ์ฑ ์ค์ฐจ๊ฐ ์ ์ด ์ฑ๋ฅ๊ณผ ์ง๊ฒฐ๋์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. Struct-NN์ด ํฌ์ฐฉํ๋ ํคํฌ์ธํธ ํํ์ด ์ ์ด์ ์ถฉ๋ถํ ์ข์ ํํ์์ ์์ฌํ๋ค.
๊ตฌ์ฌ ์กฐ์ ์คํ
๊ฐ ์คํ์ 50ํ ๋ฐ๋ณต์ด๋ฉฐ, ๋ชฉํ ์์น๋ ํ์ฌ ์์น์์ ์ต์ 16ํฝ์ ๋จ์ด์ง ๊ณณ์ผ๋ก ๋๋ค ์ํ๋ง๋๋ค.
๋น๊ต ๋์: ์๋ ํ๋ํ ์ ํ ๋น๋ก(P) ์ ์ด๊ธฐ
P ์ ์ด๊ธฐ์ ์ด๋ ํ๋ ฌ์ P \in \mathbb{R}^{3 \times 8}์ผ๋ก, 3์ฐจ์ ๋ณ์ ๋ฒกํฐ(ํคํฌ์ธํธ ์ค์ฐจ)๋ฅผ 8์ฐจ์ ํ๋์ผ๋ก ๋งคํํ๋ค. ์ด ํ๋ ฌ์ ์์์ ์ผ๋ก ํ๋ํ๋ ๊ฒ์ด ์ผ๋ง๋ ์ด๋ ค์ด๊ฐ๋ฅผ ์๊ฐํด๋ณด๋ผ โ 24๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ญํ์ด ๋น์ ํ์ธ ์์คํ ์์ ์์ผ๋ก ๋ง์ถฐ์ผ ํ๋ค.
๊ฒฐ๊ณผ (Fig. 8 ์ฐธ์กฐ):
- Struct-NN MPC: ํ๋ ์๊ฐ ๋์ด๋ ์๋ก ๋ชฉํ๊น์ง์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊พธ์คํ ๊ฐ์
- P ์ ์ด๊ธฐ: ๊ฑฐ๋ฆฌ๊ฐ ์คํ๋ ค ์ฆ๊ฐ (ํ๊ท )
- ๊ตฌ์ฌ ๋ํ์จ: ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์๊ฐ์ด ์ง๋ ์๋ก ๋ํ ์ฆ๊ฐ, Struct-NN์ด ์ ๋ฐ์ ์ผ๋ก ๋ฎ์
- ์ฝ 25%์ ์ํ์์ ๊ตฌ์ฌ์ด ๋ชฉํ ๋๋ฌ ์ ๋ํ
25% ๋ํ์จ์ด ๋์ ๋ณด์ผ ์ ์์ง๋ง, ์ด ํ์คํฌ์ ๋์ด๋๋ฅผ ๊ฐ์ํด์ผ ํ๋ค: 20g์ ์ ๋ฆฌ ๊ตฌ์ฌ์ 6mm ์ง๊ฒฝ ๊ณก๋ฉด ํ์ฑ ์ ค ๋ ๊ฐ ์ฌ์ด์์ ์ ๋ฐ ์ ์ดํ๋ ๊ฒ์ ์ธ๊ฐ๋ ์ฐ์ต์ด ํ์ํ ๋์์ด๋ค. ์ ์๋ค์ ๋ฎ์ ์์ค ์ปจํธ๋กค๋ฌ ๊ฐ์ ๊ณผ ์ถ๊ฐ ๋ฐ์ดํฐ ์์ง์ผ๋ก ๋ํ์จ์ ๋ฎ์ถ ์ ์๋ค๊ณ ์ง์ ํ๋ค.
P ์ ์ด๊ธฐ ์คํจ์ ๊ทผ๋ณธ ์์ธ์ ๋์ญํ์ ๋น์ ํ์ฑ์ด๋ค. ์๊ฐ๋ฝ ์๋ณด ๋ช ๋ น์์ DIGIT ํ๋ฉด์ ์ ์ ๋ฐฉํฅ๊น์ง์ ๋งคํ์ ์ผ๊ฐํจ์๋ก ์ด๋ฃจ์ด์ง ๋ณต์กํ ๋ณํ์ด๋ฉฐ, ๊ฒ๋ค๊ฐ DIGIT ํ๋ฉด ์์ฒด๊ฐ ๊ณก๋ฉด์ด๊ณ ๋ณํ๋๋ค. ๋จ์ผ ์ ํ ํ๋ ฌ๋ก ๋ชจ๋ ๊ตฌ์ฑ ๊ณต๊ฐ์์ ์ต์ ์ด๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ ๊ฒ์ ๋ฌด๋ฆฌ๋ค.
์ ์ฒด ์์คํ ํ๋ฆ๋
flowchart LR
subgraph Hardware["Hardware Platform"]
A1["Sawyer Arm"]
A2["Allegro Hand\n(4-finger)"]
A3["DIGIT x2\n(Thumb + Middle)"]
A1 --> A2 --> A3
end
subgraph DataCollection["Self-supervised Data Collection"]
B1["Random Action\nExploration\n4,800 trials"]
B2["Auto-reset\nMechanism\n(bowl + platform)"]
B1 <--> B2
end
subgraph Learning["Learning Pipeline"]
C1["Keypoint\nAutoencoder\n(ResNet-18 mini)"]
C2["State Compression\n640x480 img x2\n-> 14D vector"]
C3["MLP Dynamics\nModel f(s,a)->s'"]
C1 --> C2 --> C3
end
subgraph Control["Model Predictive Control"]
D1["CEM Optimizer\n250 particles\nHorizon T=10"]
D2["Cost:\nL2 distance\nin keypoint space"]
D1 --> D2
end
Hardware --> DataCollection
DataCollection --> Learning
Learning --> Control
Control --> Hardware
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ํ๊ณ
๊ฐ์
1. ๊ณตํ์ ์์ฑ๋์ ์คํ์์ค ๊ณต๊ฐ
๋ ผ๋ฌธ์ด ๋จ์ํ ํ๋กํ ํ์ ๋ณด๊ณ ์ ๊ทธ์น์ง ์๊ณ , ๋๋ ์์ฐ์ ๊ณ ๋ คํ ์ค๊ณ ๊ฒฐ์ (injection molding, press-fit, ํ์ค ๋ถํ)๊น์ง ์์ธํ ๊ธฐ์ ํ๋ค. ์ค๊ณ๋ฅผ www.digit.ml์ ์คํ์์ค๋ก ๊ณต๊ฐํ ๊ฒ์ ์ปค๋ฎค๋ํฐ์ ๋ํ ์ค์ง์ ๊ธฐ์ฌ๋ค. ์ค์ ๋ก DIGIT๋ ์ด ๋ ผ๋ฌธ ์ดํ ์ด๊ฐ ์ผ์ฑ ์ฐ๊ตฌ์ ์ฌ์ค์์ ํ์ค ํ๋ซํผ ์ค ํ๋๊ฐ ๋์๋ค.
2. ๋ด๊ตฌ์ฑ ๊ฐ์ ์ ์ ๋์ ๊ฒ์ฆ
๋ง๋ชจ ํ ์คํธ๋ฅผ ์ ๋์ ์ผ๋ก ์ํํ๊ณ ๋น๊ตํ ๊ฒ์ ๋ ผ๋ฌธ์ ์ ๋ขฐ๋๋ฅผ ๋์ธ๋ค. โ๋ ํผํผํ๋คโ๋ ์ฃผ์ฅ์ ์์น๋ก ๋ท๋ฐ์นจํ๋ค.
3. ์๊ณ ๋ฆฌ์ฆ์ ํ์ฅ์ฑ
Struct-NN์ ํต์ฌ ๊ธฐ์ฌ๋ ํคํฌ์ธํธ ์ถ์ํ๋ก ์ด๊ฐ MPC๋ฅผ ๋จ์ผ ์ผ์์์ ๋ฉํฐํ๊ฑฐ ์ค์ ์ผ๋ก ํ์ฅํ ๊ฒ์ด๋ค. CDNA ๋๋น 50ร ์๋ ํฅ์์ ์ค์ฉ์ฑ์ ์ํ ํ์์ ๊ฐ์ ์ด์๋ค.
4. ์๊ธฐ์ง๋ ํํ ํ์ต์ ํต์ฐฐ
K=8 ํคํฌ์ธํธ ์ค 7๊ฐ๊ฐ ๋นํ์ฑํ๋๊ณ 1๊ฐ๊ฐ ๊ตฌ์ฌ ์์น๋ฅผ ์ ํํ ์ถ์ ํ๋ค๋ ๊ฒฐ๊ณผ๋, ์คํ ์ธ์ฝ๋๊ฐ ํ์คํฌ ๊ด๋ จ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ค์ค๋ก ๋ฐ๊ฒฌํ์์ ๋ณด์ฌ์ค๋ค. ์ด๋ ์ด๊ฐ ๋ฐ์ดํฐ์์์ ๋น์ง๋ ํํ ํ์ต ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ ํฅ๋ฏธ๋ก์ด ๊ด์ฐฐ์ด๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. ํ์คํฌ์ ์ ํ์ ๋ฒ์
์ ๋ฆฌ ๊ตฌ์ฌ ํ๋๋ฅผ ๋ ์๊ฐ๋ฝ ์ฌ์ด์์ ๊ตด๋ฆฌ๋ ๊ฒ์ ์ธ-ํธ๋ ์กฐ์์ ๊ทนํ ์ผ๋ถ๋ค. ๋ค์ํ ๋ฌผ์ฒด, ๋ค์ํ ๊ทธ๋ฆฝ, ๋ค์ํ ๋์์ ๋ํ ์ผ๋ฐํ๋ ๊ฒ์ฆ๋์ง ์์๋ค. ๊ตฌ์ฌ์ด๋ผ๋ ํ์คํฌ๊ฐ ํคํฌ์ธํธ ํํ์ ํนํ ์ ๋ฆฌํ๊ฒ ์์ฉํ์ ๊ฐ๋ฅ์ฑ์ด ์๋ค(๊ตฌํ์ด๋ผ ํ๋์ (x,y,i)๋ก ์์ ํ ๊ธฐ์ ๊ฐ๋ฅ).
2. 25% ๋ํ์จ
ํ์คํฌ์ ๋์ด๋๋ฅผ ๊ฐ์ํ๋๋ผ๋, 4๋ฒ ์ค 1๋ฒ ์คํจ๋ ์ค์ฉ์ ๋ฐฐ์น์๋ ๋ถ์กฑํ๋ค. ์ ์๋ค ์ค์ค๋ก ์ด๋ฅผ ์ธ์ ํ๊ณ ํฅํ ๊ณผ์ ๋ก ๋จ๊ฒจ๋์์ง๋ง, ํ ์์คํ ์ ์์ฑ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ์งํ์ด๊ธฐ๋ ํ๋ค.
3. ์ด๊ฐ ์ด๋ฏธ์ง ํด์์ ๊น์ด ๋ถ์ฌ
๋ ผ๋ฌธ์ ์์ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ง์ ํด์ํ๋ ๊ฒ๋ณด๋ค๋ ํคํฌ์ธํธ๋ก ์์ถํด ์ฌ์ฉํ๋ค. ์ด๋ ๊ณ์ฐ ํจ์จ์ ์ํ ํฉ๋ฆฌ์ ์ ํ์ด์ง๋ง, ์ผ์ ์์ฒด๊ฐ ์ ๊ณตํ๋ ํ๋ถํ ์ ๋ณด(ํ๋ฉด ํ ์ค์ฒ, ํ ๋ถํฌ, ๋ณํ ํจํด)๋ฅผ ๋๋ถ๋ถ ๋ฒ๋ฆฌ๋ ๊ฒ์ด๊ธฐ๋ ํ๋ค.
4. ๋จ์ผ ํ์คํฌ์ ํนํ๋ ํ์ดํ๋ผ์ธ
ํคํฌ์ธํธ ์คํ ์ธ์ฝ๋์ MPC ๋น์ฉ ํจ์๋ ๊ตฌ์ฌ ์์น ์ถ์ ์ ํนํ๋์ด ์๋ค. ์๋ก์ด ํ์คํฌ์ ์ ์ฉํ๋ ค๋ฉด ํ์ดํ๋ผ์ธ ์ ์ฒด๋ฅผ ์ฌ์ค๊ณํด์ผ ํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ํ์คํฌ-๋ ๋ฆฝ์ ์ด๊ฐ ํํ์ ์ํ ๋ณด๋ค ๋ฒ์ฉ์ ์ธ ์ ๊ทผ์ด ํ์ํ๋ค.
5. ์ผ์ ๊ฐ ์ฌํ์ฑ ๋ฏธ๊ฒ์ฆ
์ ์๋ค์ ๋๋ ์์ฐ ์ฌํ์ฑ์ ๊ฐ์กฐํ์ง๋ง, ์ค์ ๋ก ์ฌ๋ฌ DIGIT ์ ๋ ๊ฐ์ ๊ต์ฒด ๊ฐ๋ฅ์ฑ(Sensor-to-sensor consistency)์ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ์ง๋ ์์๋ค. ์ด๊ฐ ์ผ์์์ ๊ฐ๋ณ ์ ค์ ํน์ฑ ํธ์ฐจ๋ ์ค์ฉ์ ์ผ๋ก ์ค์ํ ๋ฌธ์ ๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
graph TD
A["Vision-based Tactile Sensors"] --> B["TacTip Family\n[13,14]\nMarker pins, low resolution"]
A --> C["FingerVision [10]\nTransparent gel, dual-use\nbut lower tactile resolution"]
A --> D["GelSight [11]\nHigh res, bulky\n35x60x35mm"]
A --> E["GelSlim [12]\nSlimmer but 50x205mm\nAlegro-incompatible"]
A --> F["DIGIT (This work)\n20x27x18mm\nAllegro-compatible\n$15/unit"]
G["Tactile Control Methods"] --> H["tactile-MPC [17]\nSingle sensor, 3-DOF\nCDNA-based, slow"]
G --> I["DIGIT + Struct-NN\nDual sensor, 8-DOF\n50x faster MPC"]
G --> J["OpenAI Dexterous\nManipulation [26]\nNo tactile, many cameras"]
style F fill:#2196F3,color:#fff
style I fill:#2196F3,color:#fff
DIGIT์ ์ง์ ์ ์ ์กฐ๋ GelSight[11]์ GelSlim[12]์ด๋ค. GelSight๋ ์ฑ๋ฅ์ ๋ฐ์ด๋์ง๋ง ๋ฉํฐํ๊ฑฐ ํธ๋ ์ฅ์ฐฉ์ด ๋ถ๊ฐ๋ฅํ๋ค. GelSlim์ ๋ ๋ฉ์ํ์ง๋ง ๊ธธ์ด๊ฐ 205mm๋ก ์๊ฐ๋ฝ ๋์๋ ๋ง์ง ์๋๋ค. DIGIT๋ ์ด ๋ ์ผ์๊ฐ ์ด์ง ๋ชปํ ๋ฉํฐํ๊ฑฐ ๊ณ ํด์๋ ์ด๊ฐ ์กฐ์์ ๋ฌธ์ ์ฒ์ ์ด์๋ค.
์ ์ด ์๊ณ ๋ฆฌ์ฆ ์ธก๋ฉด์์ tactile-MPC[17]๋ ์ง์ ์ ์ ์ ์ด๋ค. DIGIT ๋ ผ๋ฌธ์ ์ด๋ฅผ ๋จ์ผ ์ผ์ 3-DOF ์ค์ ์์ ์ด์ค ์ผ์ 8-DOF ์ค์ ์ผ๋ก ํ์ฅํ๋ ๊ฒ์ด ์ ์ด๋ ค์ด์ง(๊ณ์ฐ ๋น์ฉ), ๊ทธ๋ฆฌ๊ณ Struct-NN์ด ์ด๋ป๊ฒ ์ด๋ฅผ ํด๊ฒฐํ๋์ง๋ฅผ ์ค๋ช ํ๋ค.
OpenAI์ Dexterous In-Hand Manipulation[26]๊ณผ ๋น๊ตํ๋ฉด ํฅ๋ฏธ๋กญ๋ค. OpenAI๋ ์ด๊ฐ ์์ด ์์ญ ๋์ ์ถ์ ์นด๋ฉ๋ผ๋ก ์๊ฐ๋ฝ ์ํ๋ฅผ ์ถ์ ํ๋ ์ ๊ทผ์ ํํ๋ค. DIGIT๋ ๋ฐ๋๋ก ์ด๊ฐ์์ ์ง์ ์ํ๋ฅผ ์ป์ด ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์ถ์ ์ ์์กด์ฑ์ ์ค์ธ๋ค. ๋ ์ ๊ทผ ๋ชจ๋ ๊ฐ์์ ์ฅ๋จ์ ์ด ์๋ค.
Allegro Hand ์ฐ๊ตฌ์๋ฅผ ์ํ ์์ฌ์
๋ ผ๋ฌธ์ Fig. 1์ DIGIT๊ฐ Allegro Hand์ ์ฅ์ฐฉ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. Allegro Hand๋ฅผ ํ๋ซํผ์ผ๋ก ์ฌ์ฉํ๋ ์ฐ๊ตฌ์์๊ฒ DIGIT๋ ๋ช ๊ฐ์ง ๊ตฌ์ฒด์ ์ธ ํจ์๋ฅผ ๊ฐ๋๋ค.
๊ธ์ ์ ์ธก๋ฉด:
- Allegro Hand์ ์๊ฐ๋ฝ ๋ ์น์(~20mm ํญ)์ DIGIT๊ฐ ์ ํํ ๋ง๋๋ก ์ค๊ณ๋์๋ค
- USB 3.0 ํ๋ธ ํตํฉ์ผ๋ก 4๊ฐ ์๊ฐ๋ฝ ๋ชจ๋์ DIGIT๋ฅผ ์ฅ์ฐฉํด๋ ์ผ์ด๋ธ ๊ด๋ฆฌ๊ฐ ๋จ์ํ๋ค
- $15/์ ๋์ ๊ฐ๊ฒฉ์ Allegro Hand ์ฌ์ฉ์๊ฐ ์ฌ๋ฌ ๊ฐ ๊ตฌ๋นํ๋ ๊ฒ์ ์ค์ฉ์ ์ผ๋ก ๋ง๋ ๋ค
- ์ ค ๊ต์ฒด ์ฉ์ด์ฑ โ ์คํ ์ค ์ ค ์์ ์ ๋น ๋ฅธ ๋ณต๊ตฌ ๊ฐ๋ฅ
๊ณ ๋ ค์ฌํญ:
- ๊ด์ ์ปจํธ๋กค๋ฌ ๋ ธ์ด์ฆ(์ ์๋ค์ด 25% ๋ํ์จ ์์ธ ์ค ํ๋๋ก ์ง๋ชฉ)๋ Allegro Hand์ ๊ณ ์ง์ ๋ฌธ์ ๋ค. ์ด๊ฐ ์ ์ด๊ฐ Allegro Hand์ ๋ฎ์ ์ปจํธ๋กค ์ ๋ฐ๋์ ์ํธ์์ฉํ๋ ๋ฐฉ์์ ์ฃผ์ํด์ผ ํ๋ค
- ๋ฉํฐํ๊ฑฐ ๋์ ์ด๊ฐ ๋ฐ์ดํฐ ์คํธ๋ฆผ ์ฒ๋ฆฌ โ USB ๋์ญํญ๊ณผ ํธ์คํธ CPU ๋ถํ๋ฅผ ์ฌ์ ์ ๊ฒํ ํ ๊ฒ
- DIGIT๋ ํ๋ฉด ์ ์ด๋ฉด์ ๊ฐ์ ํ๋ ๊ฒฝํฅ์ด ์๋๋ฐ, Allegro Hand์ ์๊ฐ๋ฝ ๋์ ๊ณก๋ฉด์ด๋ฏ๋ก ์ฅ์ฐฉ ์ธํฐํ์ด์ค ์ค๊ณ๊ฐ ํ์ํ๋ค
์์ฝ ๋ฐ ๊ฒฐ๋ก
DIGIT๋ ๋ ๊ฐ์ง๋ฅผ ๋์์ ํด๋๋ค๋ ์ ์์ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ๊ฐ์น ์๋ ๊ธฐ์ฌ๋ค.
ํ๋์จ์ด ์ธก๋ฉด: ๊ณ ํด์๋ ์ด๊ฐ ์ผ์ฑ์ ๋ฉํฐํ๊ฑฐ ํธ๋์์ ์ค์ฉ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋ง๋ ํผํฉํฐ์ ์ํํ. ์ ์กฐ ๋น์ฉ($15)๊ณผ ๋ด๊ตฌ์ฑ(๊ธฐ์กด ๋๋น 1,000ร+) ๊ฐ์ ์ ์คํ์ค ํ๋กํ ํ์ ์ ๋์ด ์ฐ๊ตฌ ํ๋ซํผ์ผ๋ก์์ ์ง์ ๊ฐ๋ฅ์ฑ์ ์๋ฏธํ๋ค.
์๊ณ ๋ฆฌ์ฆ ์ธก๋ฉด: ํคํฌ์ธํธ ์คํ ์ธ์ฝ๋๋ฅผ ํตํ ๊ณ ์ฐจ์ ์ด๊ฐ ์ด๋ฏธ์ง์ ํ์คํฌ-๊ด๋ จ ์ ์ฐจ์ ํํ ์์ถ, ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ํตํ ๋ฉํฐํ๊ฑฐ ์ด๊ฐ MPC์ ์ค์ฉ์ ๊ตฌํ. 50ร ์๋ ํฅ์์ด ๋จ์ํ ์์ง๋์ด๋ง ํธ๋ฆญ์ด ์๋๋ผ ์์คํ ์ ์ค์๊ฐ ์ ์ด ๊ฐ๋ฅ/๋ถ๊ฐ๋ฅ์ผ๋ก ๊ฐ๋ฅด๋ ์ง์ ์ฐจ์ด๋ฅผ ๋ง๋ ๋ค.
ํ๊ณ๋ ๋ช ํํ๋ค: ๋จ์ผ ํ์คํฌ ๊ฒ์ฆ, 25% ๋ํ์จ, ๋ฒ์ฉ ์ด๊ฐ ํํ ๋ถ์ฌ. ๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์ด ์ด์ด๋์ ๋ฐฉํฅโ๊ณ ํด์๋ ์ด๊ฐ + ๋ฉํฐํ๊ฑฐ + ํ์ต ๊ธฐ๋ฐ ์ ์ดโ์ ์ดํ ๋ง์ ์ฐ๊ตฌ๊ฐ ๋ฐ๋ผ๊ฐ๊ฒ ๋ ๊ธธ์ด๋ค.
์ด๊ฐ ์ผ์ฑ์ด ๋ก๋ด ์กฐ์์ ๋ณด์กฐ ์๋จ์ด ์๋ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์๋ฆฌ ์ก๊ธฐ ์ํ ํ ๋ ์์ ์ผ๋ก์, DIGIT๋ ์๊ธฐ์ ์ ํ๊ณ ์ ์คํ๋ ์ฐ๊ตฌ๋ค.
์ฐธ๊ณ ๋ฌธํ (์ฃผ์)
- [11] Yuan et al., โGelSight: High-Resolution Robot Tactile Sensors for Estimating Geometry and Force,โ Sensors, 2017
- [12] Donlon et al., โGelSlim: A High-Resolution, Compact, Robust, and Calibrated Tactile-Sensing Finger,โ IROS, 2018
- [17] Tian et al., โManipulation by Feel: Touch-Based Control with Deep Predictive Models,โ ICRA, 2019
- [31] Minderer et al., โUnsupervised Learning of Object Structure and Dynamics from Videos,โ NeurIPS, 2019
- [35] Finn et al., โUnsupervised Learning for Physical Interaction through Video Prediction,โ NeurIPS, 2016