๐RotateIt ๋ฆฌ๋ทฐ
Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik
UC Berkeley, Meta AI, CMU, TU Dresden
Conference on Robot Learning (CoRL), 2023
- ๐ ๋ณธ ์ฐ๊ตฌ๋ multimodal sensory input(์๊ฐ, ์ด๊ฐ, proprioception)์ ํ์ฉํ์ฌ ์๊ฐ๋ฝ ๋์ผ๋ก ๋ค์ํ ์ถ์์ ๋ฌผ์ฒด๋ฅผ ํ์ ์ํค๋ ์์คํ ์ธ RotateIt์ ์ ์ํฉ๋๋ค.
- ๐ก RotateIt์ ์๋ฎฌ๋ ์ด์ ์์ privileged information์ ํ์ฉํ oracle policy๋ฅผ ํ๋ จํ ํ, visuotactile transformer๋ฅผ ํตํด ํ์ค์ ์ธ ์ผ์ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ด ์ ๋ณด๋ฅผ ์ถ๋ก ํ์ฌ visuotactile policy๋ฅผ ํ์ตํ๋ ์ด์ค ๋จ๊ณ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
- โ Vision ๋ฐ tactile sensing์ด ์กฐ์ ์ฑ๋ฅ๊ณผ OOD(Out-of-Distribution) generalization์ ์ค์ํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ์ ์ฑ ์ด ์ค์ ์ธ๊ณ์ ๋ค์ํ ๋ฌผ์ฒด์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
Haozhi Qi ์ธ ์ฐ๊ตฌ์ง์ โGeneral In-Hand Object Rotation with Vision and Touchโ ๋ ผ๋ฌธ์์ ์๊ฐ ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ ํตํฉํ์ฌ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ์ ์์์ ๋ค์ถ ํ์ ์ํค๋ ์์คํ ์ธ RotateIt์ ์๊ฐํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ธฐ์กด์ ์กฐ์ ๊ธฐ์ ์ด ์ง๋ฉดํ๋ ์ผ๋ฐํ ๋ฐ ์์ ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ํนํ ๋ค์ํ ํํ์ ๊ฐ์ฒด์ ๋ํ ์์ ์ ์ธ ํ ํ์(force closure) ์ ์ง์ ์ด๋ ค์์ ๊ทน๋ณตํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
RotateIt์ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋๊ณ ์ค์ ์ธ๊ณ์ ์ง์ ๋ฐฐํฌ๋๋ sim-to-real ์ ๊ทผ ๋ฐฉ์์ ๋ฐ๋ฆ ๋๋ค. ํ๋ จ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Oracle Policy ํ๋ จ (Oracle Policy Training):
- ํน๊ถ ์ ๋ณด (Privileged Information): ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ฐ์ฒด์ ์ ํํ ๋ฌผ๋ฆฌ์ ํน์ฑ๊ณผ ํ์ ์ ๋ณด(ground-truth physical properties and shapes)๋ฅผ โํน๊ถ ์ ๋ณด(extrinsics)โ z_t ๋ก ํ์ฉํฉ๋๋ค. ์ด ์ ๋ณด๋ ์ ์ฑ ์ด ๊ฐ์ฒด์ ํน์ฑ์ ์๋ฒฝํ๊ฒ ์๋ ์ํ๋ฅผ ๋ชจ๋ฐฉํฉ๋๋ค.
- ํ์ ์ ๋ณด (Shape Information): ๊ฐ์ฒด์ 3D ๋ฉ์์์ N_p๊ฐ์ ํฌ์ธํธ(point)๋ฅผ ์ํ๋งํ ํ, PointNet [72]์ ์ฌ์ฉํ์ฌ c_p์ฐจ์์ ํน์ง ๋ฒกํฐ z_{shape_t}๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ์ด์ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ ๊ฐ์ฒด์ ๋ช ์์ ์ธ ํ์ ์ ๋ณด๋ฅผ ์ ์ฑ ์ ์ฃผ์ ํ๋ ๊ฒ์ด ๋ณต์กํ ๊ฐ์ฒด ์กฐ์์ ์ค์ํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
- ๋ฌผ๋ฆฌ์ ์์ฑ ๋ฐ ์์ธ (Physical Property and Pose): ๊ฐ์ฒด์ ์ง๋(mass), ๋ฌด๊ฒ ์ค์ฌ(center of mass), ๋ง์ฐฐ ๊ณ์(coefficient of friction), ์ค์ผ์ผ(scale), ๋ฐ๋ฐ ๊ณ์(restitution)๋ฅผ ํฌํจํ๋ 7์ฐจ์ ๋ฌผ๋ฆฌ์ ์์ฑ ๋ฒกํฐ์ ๊ฐ์ฒด์ ์์น, ์์ธ(orientation, ์ฟผํฐ๋์ธ), ๊ฐ์๋(angular velocity)๋ฅผ ํฌํจํ๋ 10์ฐจ์ ์์ธ ๋ฒกํฐ๋ฅผ ๊ฒฐํฉํ์ฌ 8์ฐจ์ ์ธ์ฝ๋ฉ z_{phys_t}๋ก ๋ณํํฉ๋๋ค. ์ต์ข ํน๊ถ ์ธ์ฝ๋ฉ z_t๋ z_{phys_t}์ z_{shape_t}๋ฅผ ๊ฒฐํฉํ ๊ฒ์ ๋๋ค: z_t = [z_{phys_t}, z_{shape_t}].
- ๊ด์ธก ๋ฐ ์ถ๋ ฅ (Observations and Outputs): Oracle policy \pi๋ ๋ก๋ด์ ๊ณ ์ ์์ฉ๊ฐ๊ฐ(proprioception) p_t์ ์ธ์ฝ๋ฉ๋ ํน๊ถ ์ ๋ณด z_t๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค. p_t๋ ์กฐ์ธํธ ์์น ๋ฐ ์ด์ ์ก์ ์ ์งง์ ์๊ฐ ์๋์ฐ(temporal window)๋ฅผ ํฌํจํฉ๋๋ค. ์ ์ฑ ์ 16๊ฐ ๊ด์ ์ ๋ํ PD Controller์ ๋ชฉํ๊ฐ์ธ ์ก์ a_t๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ฆ, a_t = \pi(p_t, z_t)์ ๋๋ค.
- ๋ณด์ ํจ์ (Reward Function): ๊ฐ์ฒด ํ์ ๋ณด์ r_{rotr} = \max(\min(\omega \cdot k, r_{max}), r_{min})์ ๊ฐ์ฒด์ ๊ฐ์๋ \omega๊ฐ ๋ชฉํ ํ์ ์ถ k์ ์ผ์นํ๋๋ก ์ฅ๋ คํฉ๋๋ค. ์๋ํ์ง ์์ ํ์ (ํนํ x, y์ถ)์ ๋ฐฉ์งํ๊ธฐ ์ํด r_{rotp} = -\|\omega \times k\|_1 ํํ์ ํ๋ํฐ๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด์ธ์๋ ์ ์์ธ ์ดํ, ํ ํฌ, ์๋์ง ์๋ชจ, ๊ฐ์ฒด ์ ํ ์๋์ ๋ํ ํ๋ํฐ ํญ์ ํฌํจํ์ฌ ์์ ์ ์ด๊ณ ํจ์จ์ ์ธ ๋์์ ์ ๋ํฉ๋๋ค.
- ์ ์ฑ ์ต์ ํ (Policy Optimization): PPO [75]๋ฅผ ์ฌ์ฉํ์ฌ Oracle policy๋ฅผ ์ต์ ํํ๋ฉฐ, ํ๋ จ ์ค ๋ค์ํ ๊ฐ์ฒด์ ๋ฌด์์ํ๋ ๋ฌผ๋ฆฌ์ ํน์ฑ ๋ฐ ์ด๊ธฐ ๊ทธ๋ฆฝ์ ์ฌ์ฉํฉ๋๋ค.
- Visuotactile Policy ํ๋ จ (Visuotactile Policy Training):
- ๋๊ธฐ (Motivation): ์ค์ ์ธ๊ณ์์๋ ํน๊ถ ์ ๋ณด z_t์ ์ ๊ทผํ ์ ์์ผ๋ฏ๋ก, ๋ก๋ด์ ์ค์ ๊ด์ธก(์๊ฐ, ์ด๊ฐ, ๊ณ ์ ์์ฉ๊ฐ๊ฐ)์ ํตํด z_t์ ํํ \hat{z}_t๋ฅผ ์ถ๋ก ํด์ผ ํฉ๋๋ค.
- ์ด๊ฐ ์ผ์ฑ (Touch Sensing - Figure 4):
- ์๋ฎฌ๋ ์ด์ ์์๋ ์๋ฎฌ๋ ์ดํฐ๊ฐ ์ ๊ณตํ๋ 2D ํ๋ฉด์์ ์ด์ฐํ๋ ์ ์ด ์์น(discretized contact location)๋ฅผ ์ด๊ฐ ์ ๋ณด์ ๋์ฉ์ผ๋ก ์ฌ์ฉํฉ๋๋ค (8๊ฐ ์์น). ์ ์ด ๊ด์ธก o_{touch_t}๋ ์ ์ด ๊ฐ์ N_c์ 9์ฐจ์ ๋ฐฐ์ด(8์ฐจ์ ์ ์ด ์์น + 1์ฐจ์ ์๊ฐ๋ฝ ์ธ๋ฑ์ค)์ ๋๋ค. MLP๋ฅผ ํตํด ๊ฐ ์ ์ด ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ํ ํ๊ท ํ๋ง(average pooling)์ผ๋ก ํตํฉํฉ๋๋ค.
- ์ค์ ์ธ๊ณ์์๋ ์๊ฐ๋ฝ ๋์ ์ฅ์ฐฉ๋ 4๊ฐ์ ์ ๋ฐฉํฅ(omnidirectional) ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(vision-based touch sensor)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ฐ ์ผ์์์ ๊ฐ์ฅ ๊ฐํ ํฝ์ ์ ๋ณํ(deformation)์ ์ถ์ ํ์ฌ ์ ์ด ์์น์ ๋์ฉ์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ์ด 2D ํคํฌ์ธํธ(keypoint)๋ฅผ ์ง์ ์ ์ฑ ์ ์ ๋ ฅํฉ๋๋ค.
- ์๊ฐ ์ผ์ฑ (Vision Sensing - Figure 5):
- ๊ฐ์ฒด ๊น์ด ์ ๋ณด(object depth)๋ฅผ ์๊ฐ ํํ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ค์ ์ธ๊ณ์์ ์ฌ๋์ ๋ผ๋ฒจ๋ง์ด ํ์ ์๊ณ , RGB ์ด๋ฏธ์ง์ ์ฌ์ค์ ์ธ ์๋ฎฌ๋ ์ด์ ์ด ์ด๋ ค์ด ๋ฐ๋ฉด ๊น์ด ์ ๋ณด๋ ๊ฐ์ฒด ํ์์ ์ ์ถ์ํํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์ค์ ๋ฐฐํฌ ์์๋ Segment Anything [12, 13]์ ์ฌ์ฉํ์ฌ ์์ ๊น์ด ์ด๋ฏธ์ง(raw depth)์์ ๊ฐ์ฒด ์ ๊ฒฝ(foreground)์ ๋ถํ ํ์ฌ sim-to-real gap์ ์ค์ ๋๋ค.
- ๊ฐ์ฒด ๊น์ด ์ด๋ฏธ์ง o_{depth_t}๋ 3-layer ConvNet์ ๊ฑฐ์ณ ํน์ง ๋ฒกํฐ f_{depth_t}๋ก ์ธ์ฝ๋ฉ๋ฉ๋๋ค. ํ๋ จ ์ค์๋ ์นด๋ฉ๋ผ ์์น์ ๋ฐฉํฅ์ ๋ฌด์์ํํ์ฌ ์ ์ฑ ์ ๊ฐ๊ฑด์ฑ์ ๋์ ๋๋ค.
- Visuotactile Transformer (Figure 2):
- ์ด ํธ๋์คํฌ๋จธ \phi๋ ๋ฉํฐ๋ชจ๋ฌ(multimodal) ์ผ์ ์คํธ๋ฆผ์ ๋ชจ๋ธ๋งํ์ฌ ํน๊ถ ์ ๋ณด์ ํ์ต๋ ํํ \hat{z}_t๋ฅผ ์ ํํ๊ฒ ์ถ๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ์ธ์ฝ๋ฉ๋ ๊น์ด ์ด๋ฏธ์ง f_{depth_t}, ์ธ์ฝ๋ฉ๋ ์ด๊ฐ ์ ์ด ํฌ์ธํธ f_{touch_t}, ์กฐ์ธํธ ์์น q_t, ์ด์ ํ์์คํ ์ ์ก์ a_{t-1}์ ์ฐ๊ฒฐํ์ฌ ํน์ง ๋ฒกํฐ f_t๋ฅผ ํ์ฑํฉ๋๋ค.
- ํธ๋์คํฌ๋จธ๋ ํน์ง๋ค์ ์ํ์ค f_T = \{f_{t-k}, ..., f_{t-1}, f_t\}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์์ธก๋ ์ธ์ ๋ฒกํฐ \hat{z}_t๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
- ํ๋ จ (Training): Oracle policy๋ฅผ ๋กค์์(rollout)ํ๋ฉด์ ์์ธก๋ ์ธ์ ๋ฒกํฐ \hat{z}_t๋ฅผ ์ฌ์ฉํ์ฌ ์ก์ a_t = \pi(p_t, \hat{z}_t)๋ฅผ ์์ฑํฉ๋๋ค. ๋์์ ์ค์ ํน๊ถ ์ ๋ณด z_t๋ฅผ ์ ์ฅํ์ฌ ํ๋ จ ๋ฐ์ดํฐ์ B = \{(f_T^{(i)}, z_t^{(i)}, \hat{z}_t^{(i)})\}_{i=1}^N์ ๊ตฌ์ฑํฉ๋๋ค. ํธ๋์คํฌ๋จธ \phi๋ z_t์ \hat{z}_t ๊ฐ์ l_2 ๊ฑฐ๋ฆฌ ๋ฐ a_t์ \hat{a}_t ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋๋ก Adam [78]์ ์ฌ์ฉํ์ฌ ์ต์ ํ๋ฉ๋๋ค.
ํ๊ฐ ์ค์ (Evaluation Setup)
- ํ๋์จ์ด (Hardware): AllegroHand (16๊ฐ ๊ด์ ), Intel RealSense D435 ๊น์ด ์นด๋ฉ๋ผ, ์๊ฐ๋ฝ ๋์ ์ ๋ฐฉํฅ ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์.
- ์๋ฎฌ๋ ์ด์ (Simulation): IsaacGym [79] ๊ธฐ๋ฐ. ์นด๋ฉ๋ผ-๋ก๋ด ์ธ์ (extrinsics)์ ArUco tag [80]๋ก ๋ณด์ ๋๋ฉฐ, ์๋ฎฌ๋ ์ด์ ์ด๋ฏธ์ง์ ๋ฌด์์ ์์ธ ๋ ธ์ด์ฆ์ ์ฌ์ค์ ์ธ ๊น์ด ๋ ธ์ด์ฆ [81]๋ฅผ ์ ์ฉํฉ๋๋ค.
- ๊ฐ์ฒด ์ธํธ (Object Set): EGAD [30], Google Scanned Objects [31], YCB [32], ContactDB [33]์์ ์์ ๋ ๋ค์ํ ๊ฐ์ฒด๋ค์ ์ฌ์ฉํ๋ฉฐ, width/depth/height (w/d/h) ๋น์จ์ด 2.0 ๋ฏธ๋ง์ธ ๊ฐ์ฒด๋ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ํ๊ฐ ์งํ (Evaluation Metrics):
- Time-to-Fall (TTF): ๊ฐ์ฒด๊ฐ ์์์ ๋จ์ด์ง๊ธฐ ์ ๊น์ง์ ํ๊ท ์ํผ์๋ ๊ธธ์ด (๋์์๋ก ์ข์).
- Rotation Reward (RotR): ์ํผ์๋ ๋น ํ๊ท \omega \cdot k ๊ฐ (๋์์๋ก ์ข์).
- Rotation Penalty (RotP): ํ์์คํ ๋น ํ๊ท \|\omega \times k\| ๊ฐ (๋ฎ์์๋ก ์ข์, ํนํ x, y์ถ ํ์ ์์ ์ค์).
- Radians Rotated (Rotations): ์ค์ ์ธ๊ณ ์คํ์์ ๋ฌ์ฑ๋ ์ด ํ์ ๊ฐ๋.
๊ฒฐ๊ณผ ๋ฐ ๋ถ์ (Results and Analysis)
- ๊ฐ์ฒด ํ์์ ์ค์์ฑ (Object Shape Importance): Table 1๊ณผ Figure 7, Figure 8์ Oracle policy ํ๋ จ์์ PointNet์ ํตํด ๊ฐ์ฒด ํ์ ์ ๋ณด๋ฅผ ๋ช ์์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ํนํ ๋ถ๊ท์นํ๊ฑฐ๋ w/d/h ๋น์จ์ด ๊ท ์ผํ์ง ์์ ๊ฐ์ฒด์ ๋ํด ๋ ํฐ ์ด์ ์ ์ ๊ณตํจ์ ๋ณด์ฌ์ค๋๋ค. ํ์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉด ์ ์ฑ ์ด ๊ฐ์ฒด๋ฅผ ๊ตฌํ ๋๋ ์ง์ก๋ฉด์ฒด๋ก ๊ฐ์ฃผํ๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, ์ด๋ OOD(out-of-distribution) ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ํ์ํต๋๋ค.
- Visuotactile Transformer์ ์ค์์ฑ (Importance of Visuotactile Transformer): Figure 6, Figure 7, Figure 8, Table 4๋ ์๊ฐ ๋๋ ์ด๊ฐ ์ค ํ๋๋ง ์ฌ์ฉํด๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ(proprioception)๋ง์ ์ฌ์ฉํ baseline๋ณด๋ค ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ฉฐ, ์ด ๋์ ๊ฒฐํฉํ๋ฉด ์ฑ๋ฅ์ด ๋์ฑ ๊ฐ์ ๋์ด Oracle policy ์์ค์ ๊ทผ์ ํจ์ ์ ์ฆํฉ๋๋ค. ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ ์ด์ ์์ ์ Temporal Convolution๋ณด๋ค ์ํ์ค ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ฉ๋๋ค (Table 4). OOD ์ผ๋ฐํ์๋ Visuotactile ์ ๋ณด๊ฐ ํ์์ ์ ๋๋ค.
- ์ธ๋ถํ๋ ์ด๊ฐ ์ผ์ฑ (Finer Tactile Sensing): Table 2๋ ์ด์ง(binary) ์ ์ด ์ ๋ณด(์ ์ด ์ ๋ฌด)๊ฐ ์ถ๊ฐ์ ์ธ ์ด์ ์ ์ ๊ณตํ์ง ์๋ ๋ฐ๋ฉด, ์ด์ฐํ๋ ์ ์ด ์์น(discretized contact location) ์ ๋ณด๋ ์ฑ๋ฅ ํฅ์์ ๋งค์ฐ ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ ๋ฐ ์ก์ ์ด๋ ฅ์ ํจ๊ป ์ฌ์ฉํ๋ RotateIt์ ํน์ฑ ๋๋ฌธ์ผ ์ ์์ต๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ์์ ํ์ต๋ ํํ (Representation Learned in the Latent Space): Figure 9๋ ํ์ต๋ z_t ๋ฐ \hat{z}_t ์ธ์ฝ๋ฉ์ด ๊ฐ์ฒด์ 3D ํ์ ์ ๋ณด๋ฅผ ์ ๋ณด์กดํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํน๊ถ ์ ๋ณด์ ํ์์ด ํฌํจ๋๋ฉด ์ ์ฑ ์ ๊ฐ์ฒด์ ์ค์ ํ์์ ๋ ์ ํํ๊ฒ ์ดํดํ๊ณ , Visuotactile ์ผ์๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ๋ง์ผ๋ก๋ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ด ๋ถ๊ท์นํ ๊ฐ์ฒด์ ํ์ ์ดํด๋ฅผ ๋์ต๋๋ค.
- ์ค์ ์ธ๊ณ ํ๊ฐ (Real-world Evaluations): Figure 10์ RotateIt์ด Hora [7]์ ๋ฌ๋ฆฌ ์ค์ ์ธ๊ณ์์ ๋ค์ํ ๊ธฐํํ์ ํํ์ ๊ฐ์ฒด๋ค์ x์ถ์ ๋ฐ๋ผ ์ฑ๊ณต์ ์ผ๋ก ํ์ ์ํค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. RotateIt์ ํ๋ จ ์ธํธ์ ์๋ ๊ฐ์ฒด๋ค๊ณผ ์ค์ ์ธ๊ณ์ ๋ฌผ๋ฆฌ์ ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ ๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์ฆํฉ๋๋ค. ์ผ๋ถ ์ด๊ฐ ์ผ์๊ฐ ๋นํ์ฑํ๋ ์ํ์์๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๊ฑด์ฑ์ ์ ์ฆํ์ต๋๋ค.
- ๋ค์ถ ํ๋ จ (Multi-axis Training): Table 3์ ๋จ์ผ ๋คํธ์ํฌ๊ฐ ์ฌ๋ฌ ํ์ ์ถ์ ๋ํ ๊ฐ์ฒด ํ์ ์ ์ํํ๋๋ก ํ๋ จํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ํ๋ ํ์ ์ถ k๋ฅผ ๊ด์ธก ๊ณต๊ฐ์ ์ถ๊ฐํ๊ณ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ๋ชฉํ์ ํจ๊ป ํ๋ จํ๋ฉด, ์ฆ๋ฅ๋ ๋ค์ถ ์ ์ฑ (distilled multi-axis policy)์ด ๋จ์ผ ์ถ Oracle ์ ์ฑ ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ (Limitations and Future Work)
๋ณธ ์ฐ๊ตฌ์ ํ๊ณ์ ์ผ๋ก๋ ๊ฐ์ฒด๊ฐ ๋ก๋ด ํ์ ๊ธฐ๊ณ์ ํ๊ณ ๋ด์ ์์ด์ผ ํ๋ฉฐ ๋๋ฌด ๊ธธ์ง ์์์ผ ํ๋ค๋ ์ ์ด ์์ต๋๋ค. ๋ํ, ํ๋ จ ํ ์ ์ฑ ์ด ๊ณ ์ (frozen)๋์ด ๋ฐฐํฌ ์ค ์ค์ ๊ฒฝํ์ ํ์ฉํ์ง ๋ชปํ๋ค๋ ์ ๋ ํ๊ณ์ ๋๋ค. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ๊ต์ฐจ ๋ชจ๋ฌ(cross-modal) ๊ฐ๋ ์ ํตํ ์ค์ ์ธ๊ณ์์์ ํ์ ํ์ต(lifelong learning), ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ์ ์ฒด ์ ๋ณด ํ์ฉ, ์๊ฐ ์์คํ ๊ฐ์ (์: ์๊ฐ ์ฌ์ ํ๋ จ) ๋ฑ์ ์ ์ํฉ๋๋ค.
RotateIt์ ์ด๊ฐ ๋ฐ ์๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๋ก๋ด์ด ๋ค์ํ ๊ฐ์ฒด๋ฅผ ์ ์์์ ๋ค์ถ์ผ๋ก ์กฐ์ํ ์ ์๊ฒ ํจ์ผ๋ก์จ, ์ผ๋ฐ์ ์ธ ๋ฑ์คํฐ๋ฌ์ค(dexterous) ์ ์กฐ์์ ํฅํ ์ค์ํ ๋ฐ๊ฑธ์์ ๋ด๋์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
- ๋น์ +์ด๊ฐ ์ผ์ฑ๊ณผ ํ์ต์ ๊ฒฐํฉํ์ฌ ์ผ๋ฐ์ ์ธ in-hand object rotation์ ๋ฌ์ฑํ ์ต์ด์ ์ฐ๊ตฌ
- ์ผ๋ฐ ๋ฌผ์ฒด์์ 40% ์ด์, ๋น์ ํ ๋ฌผ์ฒด์์๋ ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑ
- Visuotactile ์ ๊ทผ๋ฒ์ proprioception๋ง ์ฌ์ฉํ ๋ ๋๋น OOD generalization ์ฑ๋ฅ ์ ํ๋ฅผ 41%์์ 8%๋ก ํฌ๊ฒ ์ค์
- Sim2Real ์ ๋ต: ๋น์ ์ depth map์ผ๋ก sim/real ๊ฐ ๋๋ฉ์ธ ๊ฐญ์ ์ต์ํํ๊ณ , ์ด๊ฐ์ discrete contact location์ผ๋ก ๊ทผ์ฌ + ํ๋์จ์ด์์ color tracking์ผ๋ก pixel displacement ์ธก์
- Segment-Anything๋ฅผ ํ์ฉํ depth camera ๋น์ ํ์ดํ๋ผ์ธ ํตํฉ