๐DIGIT ๋ฆฌ๋ทฐ
- ๐ค DIGIT์ ๊ธฐ์กด vision-based tactile sensor์ ์ ์ฝ์ ๊ฐ์ ํ์ฌ ์ํํ, ๋ด๊ตฌ์ฑ ๊ฐํ, ์ ๋น์ฉ ๋๋ ์์ฐ์ ๊ฐ๋ฅํ๊ฒ ํ ์๋ก์ด ๊ณ ํด์๋ ์ด๊ฐ ์ผ์์ ๋๋ค.
- ๐ฆพ ์ด ๋ ผ๋ฌธ์ DIGIT ์ผ์๋ฅผ Allegro hand์ ์ฅ์ฐฉํ์ฌ ๋ณต์กํ in-hand marble manipulation ์์ ์ ์ํํ๋ฉฐ, tactile-MPC์ ํจ์จ์ ์ธ Struct-NN ๊ธฐ๋ฐ์ ๋์ญํ ๋ชจ๋ธ ํ์ต์ ํตํด ์ด๋ฅผ ์ ์ดํฉ๋๋ค.
- ๐ ํ์ต๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ์๋์ผ๋ก ํ๋๋ ์ปจํธ๋กค๋ฌ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, DIGIT์ ์คํ ์์ค ๋์์ธ์ ๋ก๋ด ์ปค๋ฎค๋ํฐ์์ ์ด๊ฐ ์ผ์์ ๊ด๋ฒ์ํ ์ฑํ์ ์ด์งํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ๊ณตํ์์ In-Hand Manipulation์ ์ค๋ ๋์ ์ค ํ๋์ธ ์ ๋ฐํ ์ ์ด๋ ฅ ๊ฐ์ง๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ๋น์ฉ, ์ํ, ๊ณ ํด์๋ ์ด๊ฐ ์ผ์์ธ DIGIT๋ฅผ ์ ์ํฉ๋๋ค. DIGIT๋ ๊ธฐ์กด vision-based tactile sensor์ ์ฅ์ ์ ์ ์งํ๋ฉด์ ์ํํ, ์ ์กฐ ๊ณต์ ๊ฐ์ํ, ์ ๋ขฐ์ฑ ํฅ์์ ํตํด ๋จ์ ์ ๊ฐ์ ํ์ต๋๋ค.
I. DIGIT ์ผ์ ๋์์ธ
DIGIT๋ 20mm x 27mm x 18mm ํฌ๊ธฐ์ ์ฝ 20g์ ๋ฌด๊ฒ๋ฅผ ๊ฐ์ง ์ํ ์ผ์๋ก, ๋ค์งํ ๋ก๋ด ํธ๋(์: Allegro hand)์ ์ฅ์ฐฉํ๊ธฐ ์ ํฉํฉ๋๋ค. ์ฃผ์ ๊ฐ์ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ํํ ๋ฐ ๋ชจ๋ํ: ๊ธฐ์กด GelSight ์ผ์์ ๋นํด ํฌ๊ธฐ๊ฐ ๋ํญ ์ค์์ผ๋ฉฐ, โpress fitโ ์ฐ๊ฒฐ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ elastomer, housing, camera ๋ฑ ๊ฐ๋ณ ๊ตฌ์ฑ ์์๋ฅผ ์ฝ๊ฒ ๊ต์ฒดํ ์ ์๋ modular ๋์์ธ์ ์ฑํํ์ต๋๋ค. ์ด๋ ์์๋ ๋ถํ ๊ต์ฒด ๋ฐ ๋ค์ํ task-specific elastomer ์ฌ์ฉ์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
- ์ ๋น์ฉ ๋ฐ ์ ์กฐ ์ฉ์ด์ฑ: 3D ํ๋ฆฐํ ๋๋ injection mold์ ์ ํฉํ ํ๋ผ์คํฑ multi-body housing ๋์์ธ์ ์ฌ์ฉํ๋ฉฐ, ์์ ์ฉ ๋ถํ(commercial off-the-shelf components)์ ์ ๊ทน ํ์ฉํ์ฌ ๋๋ ์์ฐ ์ ๊ฐ๋น ์ฝ $15์ ๋ฎ์ ์ ์กฐ ๋น์ฉ์ ๋ฌ์ฑํ์ต๋๋ค.
- ํฅ์๋ ๊ธฐ๊ณ์ ์ ๋ขฐ์ฑ ๋ฐ ๋ด๊ตฌ์ฑ: ์ ์ด๋ฉด์ ์ฌ์ฉ๋๋ elastomer์ ๋ด๊ตฌ์ฑ์ ๊ฐ์ ํ์ต๋๋ค. ์๋ก์ด ์ ์กฐ ๊ณต์ ๊ณผ Smooth-On Solaris ์ค๋ฆฌ์ฝ์ ์ฌ์ฉํ์ฌ image transfer layer์ ๋ง๋ชจ๋ฅผ ์ค์์ต๋๋ค. abrasion test ๊ฒฐ๊ณผ, DIGIT์ elastomer๋ ๋ค๋ฅธ GelSight ๊ณ์ด elastomer์ ๋นํด ํจ์ฌ ๋ฎ์ ๋ง๋ชจ๋๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์ผ์์ ์๋ช ๊ณผ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
- ๋ง์ถคํ ์ ์ ํ๋ก: ์นด๋ฉ๋ผ ํน์ฑ, ์กฐ๋ช ๋ฐ ๋น๋์ค ์บก์ฒ๋ฅผ ์ ์ดํ๊ธฐ ์ํด custom-designed electronics๋ฅผ ์ฌ์ฉํ์ต๋๋ค. Omnivision OVM7692 CMOS ์นด๋ฉ๋ผ(60fps)์ SuperSpeed USB 3.0 ํ๋ธ๋ฅผ ์ฐ๊ฒฐํ๋ custom PCB๋ฅผ ํฌํจํ๋ฉฐ, RGB LEDs๋ฅผ ํตํด ์กฐ๋ช ๊ฐ๋๋ฅผ ์กฐ์ ํ ์ ์์ต๋๋ค.
II. In-Hand Manipulation ์์ฉ ๋ฐ ํ์ต ๋ฐฉ๋ฒ๋ก
DIGIT ์ผ์์ ์ฑ๋ฅ์ ์ ์ฆํ๊ธฐ ์ํด Allegro hand์ DIGIT๋ฅผ ์ฅ์ฐฉํ์ฌ ์ ๋ฆฌ ๊ตฌ์ฌ(marble)์ ์ ๋ฐํ๊ฒ in-hand manipulationํ๋ ์์ ์ ์ํํ์ต๋๋ค. ์ด๋ ๊ตฌ์ฌ์ ๋ฏธ๋๋ฌ์ง(slipping)๊ณผ ํ์ (rolling) ์ญํ์ ์ฌ์ธํ๊ฒ ์ ์ดํด์ผ ํ๋ ๊ณ ๋์ด๋ task์ ๋๋ค.
- ์์จ ํ์ต ๋ฐ์ดํฐ ์์ง: Allegro hand๊ฐ ๊ตฌ์ฌ์ ์ง์ ํ, ์๊ฐ๋ฝ์ ๋ฌด์์๋ก ์์ง์ฌ ์ฝ 10์ด ๋์ 4800๊ฐ์ trial ๋ฐ์ดํฐ๋ฅผ ์์จ์ ์ผ๋ก ์์งํ์ต๋๋ค. ์ด ๊ณผ์ ์์ ๋ DIGIT ์ผ์์ ๋น๋์ค, 8๊ฐ์ joint servo์ ๊ฐ๋ ์์น (j), ๊ทธ๋ฆฌ๊ณ joint angular displacement command (a)๊ฐ ๊ธฐ๋ก๋์์ต๋๋ค.
- Tactile Predictive Model (์ด๊ฐ ์์ธก ๋ชจ๋ธ): ๊ณ ํด์๋ ์ด๊ฐ ์ด๋ฏธ์ง๋ผ๋ ๊ณ ์ฐจ์ ์
๋ ฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Structural VRNN ์ํคํ
์ฒ์์ ์๊ฐ์ ๋ฐ์ compactํ๊ณ ์ ์ฐจ์์ ์ธ โkeypointโ ํํ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค.
- Keypoint Autoencoder: ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ (x, y, i) ํํ์ keypoint๋ก ์ธ์ฝ๋ฉํ๊ณ ์ด๋ฅผ ๋ค์ ์ด๋ฏธ์ง๋ก ์ฌ๊ตฌ์ฑํ๋ autoencoder๋ฅผ ํ๋ จ์์ผฐ์ต๋๋ค. ์ฌ๊ธฐ์ (x, y)๋ ๊ตฌ์ฌ์ 2D ์์น๋ฅผ ๋ํ๋ด๊ณ , (i)๋ ๊ตฌ์ฌ์ด elastomer์ ๋๋ฆฌ๋ ๊น์ด, ์ฆ ์๋ ฅ์ ๋ํ๋ ๋๋ค. ์ด autoencoder๋ ResNet-18์ backbone network๋ก ์ฌ์ฉํ๋ฉฐ L2 image reconstruction error๋ฅผ ํตํด self-supervised ๋ฐฉ์์ผ๋ก ํ์ต๋ฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด 64x64 raw image๋ฅผ 14์ฐจ์์ compactํ ์ํ ํํ s = [k_l, k_r, j] (์ข์ฐ DIGIT์ keypoint ๋ฐ joint ๊ฐ๋)๋ก ์ค์ผ ์ ์์ต๋๋ค.
- Dynamics Model: ํ์ต๋ keypoint ํํ์ ์ฌ์ฉํ์ฌ ๋ค์ ์ํ๋ฅผ ์์ธกํ๋ ์ ๊ฒฝ๋ง ๋์ญํ ๋ชจ๋ธ s' = f(s, a)๋ฅผ ํ๋ จ์์ผฐ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๊ฐ๋จํ Multi-Layer Perceptron (MLP)์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
- Model Predictive Control (MPC): ํ์ต๋ ๋์ญํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก Cross-Entropy Method (CEM)๋ฅผ ์ฌ์ฉํ์ฌ MPC๋ฅผ ์ํํ์ต๋๋ค.
- ๊ณ์ฐ ํจ์จ์ฑ ์ต์ ํ: ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ, ๊ณํ(planning)์ ์ด๋ฏธ์ง ๊ณต๊ฐ์ด ์๋ 14์ฐจ์์ keypoint ๊ณต๊ฐ์์ ์ง์ ์ํํฉ๋๋ค. ์์ฝ๋ ๋คํธ์ํฌ(๋ชจ๋ธ์์ ๊ฐ์ฅ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ถ๋ถ)๋ MPC ๋จ๊ณ ์์ ์ ํ ๋ฒ๋ง ํธ์ถ๋๋ฏ๋ก, ํ MPC ๋จ๊ณ๋น ๊ณ์ฐ ์๊ฐ์ 1.4์ด๋ก ๋จ์ถํ์ฌ ์ค์๊ฐ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค (CDNA ๋ชจ๋ธ์ 69์ด ์์).
- Cost function: ๊ณํ ๊ณผ์ ์์ ๊ฐ action sequence์ ๋น์ฉ์ ํ์ฌ keypoint ์์น์ ๋ชฉํ keypoint ์์น ๊ฐ์ Euclidean distance๋ก ์ ์๋ฉ๋๋ค. ์ด๋ ๊ตฌ์ฌ์ ์ํ๋ (x, y) ์์น๋ก ์ด๋์ํค๊ณ , ๋๋ฌด ์ธ๊ฒ ๋๋ฅด๊ฑฐ๋ ๋จ์ด๋จ๋ฆฌ๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค.
III. ์คํ ๊ฒฐ๊ณผ
- Video Predictive Model ํ๊ฐ: Struct-NN ๋ชจ๋ธ์ ์ ์ฑ์ ์ผ๋ก ์ข์ ์์ธก ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ (Fig. 7), CDNA ๋ชจ๋ธ์ ๋นํด RMSE๋ ์ฝ๊ฐ ๋์ง๋ง (Table III), ํจ์ฌ ์ ์ ํ๋ผ๋ฏธํฐ ์์ ์๋์ ์ผ๋ก ๋น ๋ฅธ inference ๋ฐ MPC ๊ณ์ฐ ์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ MPC ๋จ๊ณ์์ ์๋ ์ฐจ์ด๋ ์ฝ 50๋ฐฐ ์ด์์ผ๋ก, ์ค์๊ฐ ๋ค์งํ ์ ์ด์ Struct-NN์ ํจ์จ์ฑ์ด ํ์์ ์์ ์ ์ฆํ์ต๋๋ค.
- Marble Manipulation ๊ฒฐ๊ณผ: ํ์ต๋ ๋์ญํ ๋ชจ๋ธ์ ์ฌ์ฉํ MPC ์ปจํธ๋กค๋ฌ๋ ์๋์ผ๋ก ํ๋๋ ์ ํ P controller์ ๋นํด ๋ชฉํ ์์น๊น์ง์ Euclidean distance๋ฅผ ์ง์์ ์ผ๋ก ๊ฐ์์์ผ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค (Fig. 8 ์๋จ). ์ด๋ learned model์ด complexํ๊ณ non-linearํ ๊ตฌ์ฌ์ ๋์ญํ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ดํจ์ ๋ํ๋ ๋๋ค. ๋น๋ก ์ฝ 25%์ trial์์ ๊ตฌ์ฌ์ด ๋จ์ด์ง๋ ํ๊ณ๊ฐ ์์์ผ๋ (Fig. 8 ํ๋จ), ์ด๋ task์ ๋์ด๋์ actuation noise ๋ฐ ๊ณํ์ ๋ถ์ ํ์ฑ ๋๋ฌธ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
๊ฒฐ๋ก : DIGIT๋ ๊ณ ํด์๋ ์ด๊ฐ ๊ฐ์ง๋ฅผ ์ ๊ณตํ๋ฉด์ ์ํํ, ๋ด๊ตฌ์ฑ, ์ ๋น์ฉ์ ๋ชจ๋ ๋ง์กฑํ๋ ํ์ ์ ์ธ tactile sensor์ ๋๋ค. ์ด ์ผ์๋ฅผ ํ์ฉํ์ฌ deep model predictive control ๊ธฐ๋ฐ์ผ๋ก ๋ณต์กํ in-hand marble manipulation ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ๋ ผ๋ฌธ ์ ์๋ค์ DIGIT์ ๋์์ธ๊ณผ ์ ์กฐ ๊ณต์ ์ www.digit.ml์ open-sourceํํ์ฌ ๋ก๋ด ๊ณตํ ์ปค๋ฎค๋ํฐ์ ๊ด๋ฒ์ํ ์ฑํ์ ์ฅ๋ คํ๊ณ ์์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ ์ผ์์ ์ถ๊ฐ์ ์ธ ์ํํ ๋ฐ curved, omni-directional sensing field๋ฅผ ๊ฐ์ง ์ผ์ ๋์์ธ์ ์ด์ ์ ๋ง์ถ ๊ฒ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.