๐DexArt ๋ฆฌ๋ทฐ
- ๐น๏ธ ์ด ๋ ผ๋ฌธ์ ๋ค์ง(multi-finger) ๋ก๋ด ์์ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ค๊ด์ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋ ๋ฅ๋ ฅ์ ๋ฒค์น๋งํนํ๋ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ฐ ํ์คํฌ ์ค์ํธ์ธ DexArt๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ค DexArt ๋ฒค์น๋งํฌ๋ 3D Point Cloud ๊ด์ธก๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก RL(Reinforcement Learning) ์ ์ฑ ์ ํ์ตํ๋ฉฐ, ํนํ ํ์ต๋์ง ์์ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ์๊ฐ์ ํํ ํ์ต์ ์ํฅ์ ํ๊ฐํฉ๋๋ค.
- ๐ก ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ๋ ๋ง์ ๊ฐ์ฒด๋ก ํ๋ จํ ์๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ด ํฅ์๋๊ณ , ๋ ์์ PointNet ์ธ์ฝ๋๊ฐ ํจ์จ์ ์ด๋ฉฐ, ๊ฐ์ฒด ๋ถ๋ถ ๋ถํ (part segmentation) ์ฌ์ ํ์ต์ด ์กฐ์ ์ฑ๋ฅ ๋ฐ ์นด๋ฉ๋ผ ์์ ๋ณํ์ ๋ํ ๊ฐ๊ฑด์ฑ์ ํฌ๊ฒ ๊ฐ์ ํจ์ ๋ฐํ๋์ต๋๋ค.
Brief Review
์ด ๋ ผ๋ฌธ์ ๋ก๋ด์ด ์ผ์์ํ์์ ์ธ๊ฐ์ฒ๋ผ ๋ค์ํ ๊ฐ๋ํ(articulated) ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ ์ ์๋๋ก ํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ DexArt๋ฅผ ์ ์ํฉ๋๋ค. ํ์ฌ ๋ก๋ด ์กฐ์์ ์ฃผ๋ก ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ์ ์์กดํ๊ณ ์์ด ์ ํ๋ ๋ฌผ์ฒด์๋ง ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ๋ฐ๋ฉด, ๋ค์ค ์๊ฐ๋ฝ ๋ก๋ด ์(multi-finger robot hand)์ ์ธ๊ฐ์ ํ๋์ ๋ ๊ฐ๊น๊ฒ ๋ชจ๋ฐฉํ๊ณ ๋ค์ํ ๊ฐ๋ํ ๋ฌผ์ฒด ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ณธ ๋ฒค์น๋งํฌ๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ ๊ฐ๋ํ ๋ฌผ์ฒด๋ฅผ ์ด์ฉํ ์ ๊ตํ(dexterous) ์กฐ์์ ๋ค๋ฃจ๋ฉฐ, ์ฌ๋ฌ ๋ณต์กํ ์กฐ์ ์์ ์ ์ ์ํ๊ณ ๊ฐ ์์ ๋ด์์ ๋ค์ํ ๊ฐ๋ํ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํด์ผ ํฉ๋๋ค. ์ฃผ์ ๋ชฉํ๋ ํ์ต๋ ์ ์ฑ ์ ๋ฏธ๋ฑ๋ก(unseen) ๊ฐ๋ํ ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ(generalizability)์ ํ๊ฐํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋ก๋ด ์๊ณผ ๋ฌผ์ฒด ๋ชจ๋์ ๋์ ์์ ๋(Degrees of Freedom, DoF) ๋๋ฌธ์ ๋งค์ฐ ์ด๋ ค์ด ๋ฌธ์ ์ ๋๋ค.
์ด ์ฐ๊ตฌ๋ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด 3D ํํ ํ์ต(3D representation learning)๊ณผ Reinforcement Learning (RL)์ ํตํฉํฉ๋๋ค. 3D ์ ๊ตฐ(point cloud)์ ๊ด์ธก์ผ๋ก ์ฌ์ฉํ๊ณ PointNet ์ธ์ฝ๋๋ฅผ ํตํด ์๊ฐ์ ํํ์ ์ถ์ถํ์ฌ ์์ฌ ๊ฒฐ์ ์ ์ํํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ ๊ด๋ฒ์ํ ์คํ์ ํตํด 3D ํํ ํ์ต์ด 3D ์ ๊ตฐ ์ ๋ ฅ์ ์ฌ์ฉํ๋ RL์ ์์ฌ ๊ฒฐ์ ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง์ ๋ํ ์๋ก์ด ํต์ฐฐ๋ ฅ์ ์ ๊ณตํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
- DexArt ๋ฒค์น๋งํฌ ๊ตฌ์ฑ:
- ์์ (Task) ์ ์: Faucet (์๋๊ผญ์ง ๋๋ฆฌ๊ธฐ), Bucket (์๋์ด ๋ค๊ธฐ), Laptop (๋ ธํธ๋ถ ์ด๊ธฐ), Toilet (๋ณ๊ธฐ ๋๊ป ์ด๊ธฐ)์ ๋ค ๊ฐ์ง ์์ ์ ์ ์ํฉ๋๋ค. ๊ฐ ์์ ์ ๋ก๋ด ์์ด ๋ฌผ์ฒด์ ํน์ ๊ฐ๋ ๋ถ๋ถ๊ณผ ์ํธ์์ฉํ๋๋ก ์๊ตฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, Faucet ์์ ์ ์๋๊ผญ์ง ์์ก์ด๋ฅผ ์ก๊ณ ์ฝ 90๋ ํ์ ์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ฉฐ, ์ด๋ ๋ค์ค ์๊ฐ๋ฝ ์์ ๋ฏธ์ธํ ์กฐ์ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. Bucket ์์ ์ ์๋์ด ์์ก์ด ์๋๋ก ์์ ๋ฃ์ด ์์ ์ ์ธ ํํ ํ์(form closure)๋ฅผ ๊ตฌ์ฑํ์ฌ ๋ค์ด ์ฌ๋ฆฌ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
- ํ๊ฒฝ ์ค์ : SAPIEN ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ 6์์ ๋(DoF) XArm6 ๋ก๋ด ํ๊ณผ 16์์ ๋ Allegro Hand๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๊ด์ธก ๊ณต๊ฐ(Observation Space): ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๊ณ ์ ์์ฉ ๋ฐ์ดํฐ(Proprioceptive Data) S_r: ๋ก๋ด ์ ์ฒด์ ํ์ฌ ๊ด์ ์์น, ์ ํ ๋ฐ ๊ฐ์๋, ๊ทธ๋ฆฌ๊ณ ๋ง๋จ ์์ ๊ธฐ(end-effector) ์๋ฐ๋ฅ์ ์์น ๋ฐ ์์ธ๋ฅผ ํฌํจํฉ๋๋ค.
- ๋ถ๋ถ ์ ๊ตฐ(Partial Point Cloud) P_o: ๊น์ด ์นด๋ฉ๋ผ๋ก ์ดฌ์๋ ๊ฐ๋ํ ๋ฌผ์ฒด์ ๋ก๋ด์ ์ ๊ตฐ์ ํฌํจํฉ๋๋ค. ์ด ์ ๊ตฐ์ ๋ก๋ด ์์ ๊ณต๊ฐ ๋ด์์ ์๋ฆฌ๊ณ ๊ท ์ผํ๊ฒ ๋ค์ด์ํ๋ง๋ฉ๋๋ค. ๋ํ, ๋ก๋ด ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ฑ๋ ๊ฐ์ ๋ก๋ด ์ ๊ตฐ(imagined robot point cloud) P_i๋ฅผ P_o์ ์ฐ๊ฒฐํ์ฌ ์๊ฐ๋ฝ๊ณผ ๊ฐ์ ๋ก๋ด์ ์ธ๋ถ ์ ๋ณด๋ฅผ ๋ณด์ํฉ๋๋ค.
- ํ๋ ๊ณต๊ฐ(Action Space): 22์ฐจ์ ๋ฒกํฐ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ก๋ด ํ์๋ ๋ชฉํ ์ ํ ๋ฐ ๊ฐ์๋์ ๋ํ 6์์ ๋ ์๋ ๊ณต๊ฐ ์ ์ด(operational space control)๋ฅผ ์ฌ์ฉํ๊ณ , Allegro Hand์๋ 16๊ฐ ๊ด์ ์ ๋ชฉํ ์์น๋ฅผ ์ ์ดํ๋ ๊ด์ ์์น ์ ์ด๊ธฐ(PD control)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ๊ด์ธก ๊ณต๊ฐ(Observation Space): ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๋ณด์ ์ค๊ณ(Reward Design): ์ธ ๊ฐ์ง ์์น์ ๋ฐ๋ฆ
๋๋ค: (i) ํฉ๋ฆฌ์ ์ธ ์๊ฐ ๋ด ํด๊ฒฐ์ ์ํ ๋ฐ์ง ๋ณด์(dense reward), (ii) ์์ฐ์ค๋ฝ๊ณ ์์ ํ ํ๋ ์ ๋, (iii) ์ผ๋ฐ์ ์ด๊ณ ํ์คํ๋ ๊ตฌ์กฐ. ์์
์ ๊ธฐ๋ฅ์ ๋ถ๋ถ์ ๋๋ฌ, ์๊ณผ ๋ฌผ์ฒด ๊ฐ ์ ์ด ํ์ฑ, ์์
๋ณ ํ๋ ์คํ์ ์ธ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค.
- ๋๋ฌ ๋ฐ ์ก๊ธฐ ๋จ๊ณ:
- ๋๋ฌ ๋ณด์: r_{\text{reach}} = \mathbf{1}(\text{stage} == 1) \min(-\|x_{\text{palm}} - x_{\text{object}}\|, \lambda) ์ฌ๊ธฐ์ \mathbf{1}()๋ ์ง์ ํจ์(indicator function), x_{\text{palm}}๊ณผ x_{\text{object}}๋ ์๋ฐ๋ฅ๊ณผ ๋ฌผ์ฒด์ 3D ์์น, \lambda๋ ๋ณด์ ๊ธ์ฆ ๋ฐฉ์ง๋ฅผ ์ํ ์ ๊ทํ ํญ์ ๋๋ค.
- ์ ์ด ๋ณด์: r_{\text{contact}} = \mathbf{1}(\text{stage} \geq 2) \text{IsContact}(\text{palm, object}) \land \left(\sum_{\text{finger}} \text{IsContact}(\text{finger, object}) \geq 2\right) ์ฌ๊ธฐ์ \text{IsContact}๋ ์ถฉ๋ ๊ฐ์ง ๋ถ์ธ ํจ์์ ๋๋ค. ์๋ฐ๋ฅ๊ณผ ์ต์ ๋ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์ ์ ์ดํ ๋ ์ข์ ์ ์ด์ด ํ์ฑ๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผํฉ๋๋ค.
- ๋ถ๋ถ ์กฐ์ ๋จ๊ณ:
- ์งํ ๋ณด์: r_{\text{progress}} = \mathbf{1}(\text{stage} == 3)\text{Progress}(\text{task}) \text{Progress}๋ ์์ ์งํ๋๋ฅผ ๋ํ๋ด๋ ์์ ๋ณ ํ๊ฐ ํจ์์ ๋๋ค.
- ํจ๋ํฐ: ๋ก๋ด ์์ง์์ ๋ถ์์ ์ฑ์ ์ค์ด๊ธฐ ์ํด ํ๋์ L_2 norm๊ณผ ์์ ๋ณ ํญ์ ํฌํจํ๋ ํจ๋ํฐ r_{\text{penalty}}๋ฅผ ์ถ๊ฐํฉ๋๋ค. ์ด ๋ณด์์ ์ด ๋ค ๊ฐ์ง ๋ณด์ ํญ์ ๊ฐ์ค ํฉ์ ๋๋ค.
- ๋๋ฌ ๋ฐ ์ก๊ธฐ ๋จ๊ณ:
- ์์ฐ ์ ํ ๋ฐ ์ฃผ์: PartNet-Mobility ๋ฐ์ดํฐ์ ์ ๊ฐ๋ํ ๋ฌผ์ฒด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ, ๊ฐ ์์ ์ ์ ํฉํ๋๋ก ์๋์ผ๋ก ์ ํํ๊ณ , ์ค์ผ์ผ ๋ฐ ์ด๊ธฐ ์์น๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํฉ๋๋ค. ๋ก๋ด๊ณผ์ ์ด๊ธฐ ๊ต์ฐจ๋ฅผ ๋ฐฉ์งํ๊ณ ๋ชฉํ ๋ฌ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฌด์์์ฑ์ ์ ์ฉํฉ๋๋ค.
- ์ ์ฑ
ํ์ต ์ํคํ
์ฒ ๋ฐ ์๊ฐ์ ์ฌ์ ํ์ต(Visual Pre-training):
- ์ ์ฑ ํ์ต: ์นดํ ๊ณ ๋ฆฌ ์์ค์ ์ผ๋ฐํ๋ฅผ ์ํด 3D ์ ๊ตฐ์ ๊ด์ธก์ผ๋ก ์ฌ์ฉํ๊ณ PPO (Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ RL ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฑํํฉ๋๋ค. PointNet์ ์ ๊ตฐ ํน์ง ์ถ์ถ๊ธฐ(feature extractor)๋ก ์ฌ์ฉํ๋ฉฐ, ์ด ํน์ง์ ๋ก๋ด ๊ณ ์ ์์ฉ ๋ฒกํฐ S_r์์ ์ถ์ถ๋ ํน์ง๊ณผ ๊ฒฐํฉ๋์ด ๊ฐ์น๋ง(value network)๊ณผ ์ ์ฑ ๋ง(policy network)์ผ๋ก ์ ๋ฌ๋ฉ๋๋ค.
- ์ ๊ตฐ ์์(Point Cloud Imagination): ๋ก๋ด-๋ฌผ์ฒด ์ํธ์์ฉ ์ ๋ฐ์ํ๋ ํ์(occlusion)๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก ์ธํ ์ ํด์๋ ์ ๊ตฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋ฐฉํฅ ์ด๋ํ(forward kinematics)์ ํตํด ๋ก๋ด ์๊ฐ๋ฝ์ ๊ธฐํํ์ ํํ๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ์ ์ ๊ตฐ P_i๋ฅผ ์ํ๋งํ๊ณ ๊ด์ธก ์ ๊ตฐ P_o์ ํจ๊ป PointNet ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ค์ ๋ก๋ด ํ๊ฒฝ์์๋ ์ ๊ทผ ๊ฐ๋ฅํ ์ ๋ณด์ ๋๋ค.
- ์ฌ์ ํ์ต ๋ฐ์ดํฐ์
:
- DexArt Manipulation Dataset (DAM): ์กฐ์ ์์ ๊ณผ ๋์ผํ ์ค์ ์ผ๋ก ๋ ๋๋ง๋ ์ ๊ตฐ ๊ด์ธก ๋ฐ์ดํฐ๋ฅผ ํฌํจํฉ๋๋ค. ๋ก๋ด๊ณผ ๊ฐ๋ํ ๋ฌผ์ฒด์ ์ํ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ์ฌ ๊ด์ธก ๋ฐ ๊ฐ์ ์ ๊ตฐ์ ์์ฑํฉ๋๋ค. ๋ถํ (segmentation) ์ฌ์ ํ์ต์ ์ํด ์ ๊ตฐ์ ๊ธฐ๋ฅ ๋ถ๋ถ, ๋๋จธ์ง ๋ฌผ์ฒด, ๋ก๋ด ์, ๋ก๋ด ํ์ 4๊ฐ ๊ทธ๋ฃน์ผ๋ก ๋ ์ด๋ธ๋งํฉ๋๋ค.
- PartNet-Mobility Manipulation Dataset (PMM): PartNet-Mobility์์ ์ง์ ๋ ๋๋ง๋๋ฉฐ, 46๊ฐ์ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ์ ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋น 1,000๊ฐ์ ์ ๊ตฐ์ ํฌํจํฉ๋๋ค. ๋ฌผ์ฒด ์ํ์ ์นด๋ฉ๋ผ ์์ ์ ๋ฌด์์๋ก ์ํ๋ง๋ฉ๋๋ค. ๋ถ๋ฅ(classification)๋ฅผ ์ํด ๊ฐ ๋ฌผ์ฒด๋ ๋์ผํ ์นดํ ๊ณ ๋ฆฌ ๋ ์ด๋ธ์ ๊ณต์ ํ๋ฉฐ, ๋ถํ ์ ์ํด ๊ฐ๋ํ ๋ฌผ์ฒด์ ๊ธฐ๋ฅ ๋ถ๋ถ์ ๋ํ ์ ๋ต ๋ถํ ๋ง์คํฌ๋ฅผ ์์ฑํฉ๋๋ค.
- ์ฌ์ ํ์ต ๋ฐฉ๋ฒ: ์๊ฐ์ ํน์ง ์ถ์ถ๊ธฐ(PointNet)์ ์ด๊ธฐํ๋ฅผ ์ํด ๋ค์ํ 3D ํํ ํ์ต ๋ฐฉ๋ฒ์ ๋ฒค์น๋งํนํฉ๋๋ค.
- ์ง๋ ํ์ต(Supervised Pre-training):
- ์๋ฏธ ๋ถํ (Semantic Segmentation): DAM ๋ฐ PMM ๋ฐ์ดํฐ์ ์์ PointNet์ ํ์ต์์ผ ์ ๊ตฐ์ ๊ธฐ๋ฅ ๋ถ๋ถ, ๋๋จธ์ง ๋ฌผ์ฒด, ๋ก๋ด ์, ๋ก๋ด ํ ๋ฑ์ผ๋ก ๋ถํ ํฉ๋๋ค.
- ๋ถ๋ฅ(Classification): PMM ๋ฐ์ดํฐ์ ์์ PointNet์ ํ์ต์์ผ 46๊ฐ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ ์ค ํ๋๋ก ๋ถ๋ฅํฉ๋๋ค.
- ์๊ธฐ ์ง๋ ํ์ต(Self-supervised Pre-training):
- ์ ๊ตฐ ์ฌ๊ตฌ์ฑ(Point Cloud Reconstruction): OcCo ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ DAM ๋ฐ์ดํฐ์ ์์ ์ธ์ฝ๋-๋์ฝ๋(PointNet ์ธ์ฝ๋ + PCN ๋์ฝ๋) ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ณธ ์ ๊ตฐ์ ์ฌ๊ตฌ์ฑํฉ๋๋ค. ์ฌ๊ตฌ์ฑ ์์ค๋ก๋ Chamfer loss๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- SimSiam: DAM ๋ฐ์ดํฐ์ ์์ PointNet์ ์ฌ์ฉํ์ฌ siamese ๋คํธ์ํฌ๋ฅผ ์ค๊ณํฉ๋๋ค. ๋์ผํ ์ ๊ตฐ์ ๋ ๊ฐ์ง ์ฆ๊ฐ๋ ๋ทฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ PointNet ์ธ์ฝ๋๋ฅผ ํต๊ณผ์ํจ ํ, ํ์ชฝ์์ ์ ์ฌ์ฑ์ ์์ธกํ๊ณ ๋ค๋ฅธ ์ชฝ์์๋ ๊ธฐ์ธ๊ธฐ ์ ํ๋ฅผ ์ค๋จํ์ฌ ์์ชฝ์ ์ ์ฌ์ฑ์ ์ต๋ํํ๋๋ก ํ์ตํฉ๋๋ค.
- ์ง๋ ํ์ต(Supervised Pre-training):
์คํ ๊ฒฐ๊ณผ ๋ฐ ์ฃผ์ ๊ด์ฐฐ (Experiments and Key Observations)
- ์ฃผ์ ๊ฒฐ๊ณผ: ์ ์ ํ ์๊ฐ์ ์ฌ์ ํ์ต์ด ์ ์ฑ ํ์ต์ ์ด์ ์ ์ ๊ณตํ๋ฉฐ, ํนํ โ๋ถ๋ถ ๋ถํ (part segmentation)โ ์ฌ์ ํ์ต์ ๋ชจ๋ ์์ ์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ PointNet์ด ๊ธฐ๋ฅ์ ๋ถ๋ถ์ ๋ ์ ๊ตฌ๋ณํ๊ณ ์์น๋ฅผ ํ์ ํ๊ฒ ํ์ฌ, ์ฌ์ธํ ์กฐ์ ์์ ์ ํ์์ ์์ ์์ฌํฉ๋๋ค.
- ์ด๋ธ๋ ์ด์
์ฐ๊ตฌ(Ablation Study):
- ํ๋ จ์ ์ฌ์ฉ๋ ๋ฌผ์ฒด ์: ๋ ๋ง์ ๋ฏธ๋ฑ๋ก ๋ฌผ์ฒด๋ฅผ ์ฌ์ฉํ ํ๋ จ์ด ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ค์ํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. 50%์ ๋ฑ๋ก๋ ๋ฌผ์ฒด๋ก ํ๋ จํ ๊ฒฝ์ฐ๋ณด๋ค 100%๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ๊ฐ ๋ฏธ๋ฑ๋ก ๋ฌผ์ฒด์ ๋ํด ์ผ๊ด๋๊ฒ ๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ์๊ฐ ํน์ง ์ถ์ถ๊ธฐ ํฌ๊ธฐ: ๊ฐ์ฅ ์์ PointNet(์๋ ๊ณ์ธต์ด ํ๋)์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ ์ํ ํจ์จ์ฑ๋ ๋ฐ์ด๋ฌ์ต๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ์๊ฐ ๋ถ์ผ์์ ๋ ํฐ ๋คํธ์ํฌ๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ๊ณผ ์๋ฐ๋๋ ๊ฒฐ๊ณผ๋ก, RL ์ต์ ํ์์ ํฐ ์ธ์ฝ๋๊ฐ ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์์์ ์์ฌํฉ๋๋ค.
- ๋น-3D ํํ(Non-3D Representation): R3M์ ResNet-18๊ณผ ๊ฐ์ 2D ๊ธฐ๋ฐ ์ฌ์ ํ์ต ํํ๊ณผ ๋น๊ตํ์ ๋, PointNet์ ์ฌ์ฉํ 3D ์๊ฐ ํํ ํ์ต์ด ๋ฑ๋ก ๋ฐ ๋ฏธ๋ฑ๋ก ๋ฌผ์ฒด ๋ชจ๋์์ ๋ ๋์ ์กฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์์ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ(Robustness to Viewpoint Change): PointNet ๊ธฐ๋ฐ ์ ์ฑ ์ ์นด๋ฉ๋ผ ์์ ๋ณํ์ ๋ํด ๋ฐ์ด๋ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์์ต๋๋ค. ํ๋ จ ์์ ๊ณผ ํฌ๊ฒ ๋ค๋ฅธ ์์ ์์๋ ์ฑ๊ณต๋ฅ ์ด ์ผ๊ด๋๊ฒ ์ ์ง๋์์ต๋๋ค. ์ด๋ PointNet ์ํคํ ์ฒ์ ์ ๊ตฐ ํํ ํ์ต์์ ๋น๋กฏ๋ ๊ฒ์ผ๋ก ๋ถ์๋ฉ๋๋ค.
๊ฒฐ๋ก (Conclusion)
์ด ์ฐ๊ตฌ๋ ๊ฐ๋ํ ๋ฌผ์ฒด์ ๋ํ ์ ๊ตํ ์กฐ์์ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ DexArt๋ฅผ ์ ์ํ๊ณ , RL ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ฐ๊ตฌํ์ต๋๋ค. ์ฃผ์ ํต์ฐฐ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ ๋ค์ํ ๋ฌผ์ฒด๋ก RL์ ํ๋ จํ๋ฉด ๋ ๋์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ป์ ์ ์์ต๋๋ค.
- RL ํ๋ จ์๋ ํฐ ์ธ์ฝ๋๊ฐ ํญ์ ํ์ํ ๊ฒ์ ์๋๋ฉฐ, ๊ฐ์ฅ ๋จ์ํ PointNet์ด ๊ฐ์ฅ ์ข์ ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ต๋๋ค.
- 3D ์๊ฐ ์ดํด, ํนํ ๋ถ๋ถ ๋ถํ ์ฌ์ ํ์ต์ ๋ฏธ์ธํ ๊ธฐ๋ฅ ๋ถ๋ถ ์กฐ์์ ๋์์ด ๋๋ฉฐ, ๋ชจ๋ ์๊ฐ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ ํฐ ๊ธฐ๋ฅ ๋ถ๋ถ ์กฐ์์ ๋์์ด ๋ฉ๋๋ค.
- PointNet ํน์ง ์ถ์ถ๊ธฐ๋ฅผ ์ฌ์ฉํ ๊ธฐํํ์ ํํ ํ์ต์ ์นด๋ฉ๋ผ ์์ ๋ณํ์ ๋ํ ์ ์ฑ ์ ๊ฐ๋ ฅํ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํฉ๋๋ค. DexArt๊ฐ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ ๊ตํ ์กฐ์ ๊ธฐ์ ๋ฐ ์ธ์ง(perception)์ ์์ฌ ๊ฒฐ์ ๊ฐ์ ๊ณต๋ ๋ฐ์ ์ ์ฐ๊ตฌํ๋ ํ๋ซํผ ์ญํ ์ ํ ์ ์๊ธฐ๋ฅผ ๊ธฐ๋ํฉ๋๋ค.
Detail Review
DexArt: ๊ด์ ํ ๊ฐ์ฒด ์ฌ์ธ ์กฐ์์ ์ํ ๋ฒ์ฉ ๋ฒค์น๋งํฌ
๋ฐฐ๊ฒฝ: ๋ก๋ด ์ฌ์ธ ์กฐ์๊ณผ ๊ด์ ๊ฐ์ฒด์ ๋์
๊ฐ์ ์์ ์ธ๊ฐ์ด ๋ค๋ฃจ๋ ์ผ์ ๋ฌผ์ฒด๋ค์ ์๋น์๋ ๊ด์ ํ ๊ฐ์ฒด(articulated objects)์ ๋๋ค. ๋ฌธ์์ก์ด, ์๋ฉ์ฅ ๋์ด, ์๋๊ผญ์ง, ๋๊ป ๋ฑ์ ๋ชจ๋ ํ๋ ์ด์์ ํ์ ๋๋ ์ฌ๋ผ์ด๋ฉ ๊ด์ ์ ์ง๋๊ณ ์์ด, ๋ฌผ์ฒด ์ผ๋ถ๋ฅผ ์์ง์ฌ์ผ ์ ์ฒด ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฌผ์ฒด๋ฅผ ์ฌ๋์ฒ๋ผ ๋ฅ์ํ๊ฒ ๋ค๋ฃจ๋ ๋ฅ๋ ฅ์ ๋ฒ์ฉ ๊ฐ์ ์ฉ ๋ก๋ด์๊ฒ ํ์์ ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ก๋ด์๊ฒ ์ธ๊ฐ ์์ค์ ์ฌ์ธ ์กฐ์(dexterous manipulation) ๊ธฐ์ ์ ํ์ต์ํค๋ ์ผ์ ์ฝ์ง ์์ต๋๋ค. ๊ธฐ์กด ๋ก๋ด ํ์ ์ฃผ๋ก ๋ ์๊ฐ๋ฝ ์ง๊ฒ ํํ์ ํจ๋ฌ๋ด ๊ทธ๋ฆฌํผ(parallel gripper)๋ฅผ ์ฌ์ฉํด์๋๋ฐ, ์ด๋ ๊ตฌ์กฐ๊ฐ ๋จ์ํ ๋์ ์ทจ๊ธํ ์ ์๋ ๋ฌผ์ฒด ํํ์ ์ ์ฝ์ด ํฌ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ง๊ฒํ ๊ทธ๋ฆฌํผ๋ก๋ ์๋์ด์ ์์ก์ด๋ฅผ ๋ค์ด์ฌ๋ฆฌ๊ฑฐ๋ ๋ถ๊ท์นํ ๋ชจ์์ ๋๊ป์ ์ฌ๋ ๋ฑ ๋ณต์กํ ํ์์ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด ๋ค์ฏ ์๊ฐ๋ฝ์ ๊ฐ์ถ ์ธ๊ฐํ ๋ก๋ด ์์ ์ฌ์ฉํ๋ฉด ์ธ๊ฐ์ ์ ๋์์ ๋ณด๋ค ๊ฐ๊น๊ฒ ๋ชจ๋ฐฉํ ์ ์์ด ํจ์ฌ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋ฌผ๋ก ๋ค๊ด์ ๋ก๋ด ์ ์์ฒด๊ฐ ๊ฐ๋ ๋์ ์์ ๋(DoF) ๋๋ฌธ์ ์ ์ด๊ฐ ๋ณต์กํด์ง๋ฉฐ, ๊ฑฐ๊ธฐ์ ๋ํด ๊ด์ ๋ก ์ฐ๊ฒฐ๋ ๋ฌผ์ฒด์ ๋์ ์ธ ์์ง์๊น์ง ๋ค๋ค์ผ ํ๋ฏ๋ก ์ํ๊ณต๊ฐ๊ณผ ํ๋๊ณต๊ฐ์ด ํญ๋ฐ์ ์ผ๋ก ๋์ด๋ ํ์ต์ด ๋งค์ฐ ์ด๋ ค์ด ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. ์ฌ์ค ์ต๊ทผ๊น์ง๋ ๊ฐํํ์ต ๋ฑ์ ํตํด ๋ก๋ด ์์ ์ฌ์ธ ์กฐ์์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ๊ณต ํ๋๋ฅผ ์ฅ๊ณ ํ๋ค๊ธฐ, ์๋ฐ๋ฅ ์์์ ๋ฌผ์ฒด ๋๋ฆฌ๊ธฐ ๋ฑ์ ๋จ์ผ ๊ฐ์ฒด ๋ฌผ์ฒด์ ๊ตญํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋ค์ํ ๊ด์ ํ ๋๊ตฌ๋ค์ ๋ค๋ฃจ๋ ๋ฒ์ฉ ์คํฌ๋ก ํ์ฅํ๋ ค๋ฉด, ์๊ฐ์ ์ธ ์ธ์๊ณผ ๋ณต์กํ ์ ์ด ์ฌ์ด์ ํตํฉ์ ์ ๊ทผ์ด ํ์ํ๋ฉฐ ์ด์ ๋ฐ๋ฅธ ์๋ก์ด ์ฐ๊ตฌ ๋์ ๊ฐ ์ ๊ธฐ๋ฉ๋๋ค.
๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ
๊ฐํํ์ต ๋ฐ ๋ก๋ด ์ ์ด ์ฐ๊ตฌ์ ๋ฐ์ ์ ์ํด ์ฌ๋ฌ ๋ก๋ด ์กฐ์ ๋ฒค์น๋งํฌ๊ฐ ์ ์๋์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, MetaWorld ๋ฒค์น๋งํฌ๋ 50๊ฐ๊ฐ ๋๋ ๋ค์ํ ์์ (task) ํ๊ฒฝ์ ์ ๊ณตํ์ฌ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ ์ ์๋๋ก ํฉ๋๋ค. ๊ทธ๋ฌ๋ MetaWorld์ ๊ฐ ์์ ์ ํ๋์ ํน์ ๋ฌผ์ฒด๋ง์ ๋์์ผ๋ก ์ค๊ณ๋์ด ์์ด, ๋์ผ ์์ ์์ ์๋ก์ด ๋ฌผ์ฒด๋ก์ ์ผ๋ฐํ(generalization)๋ฅผ ์ธก์ ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ค๋ฃจ๊ธฐ ์ํด ๋์จ ManiSkill ๋ฒค์น๋งํฌ๋ ์ฌ๋ฌ ์ ํ์ ์กฐ์ ๊ณผ์ ์ ํจ๊ป ๊ณผ์ ๋น ๋ค์์ ๊ฐ์ฒด ๋ชจ๋ธ์ ํฌํจ์์ผ, ํ ์ ์ฑ ์ด ์ฌ๋ฌ ๊ฐ์ฒด ์ธ์คํด์ค์ ๊ฑธ์ณ ์๋ํ๋๋ก ํ๊ฐํฉ๋๋ค. ์ด๋ ๋ก๋ด์ ๋ฒ์ฉ์ฑ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ณ ๋ฌด์ ์ด์์ง๋ง, ManiSkill์ด ์ทจํ ํจ๋ฌ๋ด ๊ทธ๋ฆฌํผ ์ฌ์ฉ์ด๋ผ๋ ์ ์ ์๋ ๊ทผ๋ณธ์ ์ธ ์ ์ฝ์ด ์์ต๋๋ค. ๋ ์๊ฐ๋ฝ ๊ทธ๋ฆฌํผ๋ง์ผ๋ก๋ ๋ก๋ด์ด ํ ์ ์๋ ์กฐ์์ ์ข ๋ฅ์ ๋ฐฉ์์ด ์ ํ๋๊ธฐ ๋๋ฌธ์, ์๋์ด ์์ก์ด๋ฅผ ๋๋ ๋ฑ ๋ฉํฐํ๊ฑฐ ์์ด ์๊ตฌ๋๋ ์ฌ์ธ ์์ ์ ๋ค๋ฃจ์ง ๋ชปํฉ๋๋ค. ์์ปจ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ์ถฉ๋ถํ ๊ณ ๋ คํ์ง ์๊ฑฐ๋, ๋ก๋ด ์์ ๋ฅ๋ ฅ์ด ์ ํ๋์ด ์ค์ ์ธ๊ฐ ์์ค์ ๋ค์ํ ์์ ์ ํฌ๊ดํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ก ์ธํด ๊ด์ ํ ๊ฐ์ฒด๋ฅผ ์ฌ๋์ฒ๋ผ ์์ ๋กญ๊ฒ ๋ค๋ฃจ๋ ๋ฒ์ฉ์ ์ด๊ณ ์ฌ์ธํ ์กฐ์ ๊ธฐ์ ์ ํ๊ฐํ๊ณ ํฅ์์ํค๋ ๋ฐ์๋ ์ฌ์ ํ ์ ์ ํ ํ๊ฐ ํ๊ฒฝ์ด ๋ถ์กฑํ์ต๋๋ค.
DexArt ๋ฒค์น๋งํฌ: ๊ตฌ์ฑ๊ณผ ํน์ง
์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ณ ์ 2023๋ CVPR์์ ๋ฐํ๋ DexArt ๋ฒค์น๋งํฌ๋, ๋ค๊ด์ ๋ก๋ด ์์ ์ด์ฉํด ๋ค์ํ ๊ด์ ํ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์๋ก์ด ํ๊ฐ ํ์ค์ ์ ์ํ์ต๋๋ค. DexArt๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์์ ์ ์๋ ์ฌ๋ฌ ๊ฐ์ ์กฐ์ ๊ณผ์ (task)๋ค๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ๊ฐ ๊ณผ์ ๋ง๋ค ํ๋ จ์ฉ์ผ๋ก ๋ฏธ๋ฆฌ ๋ณธ ๊ฐ์ฒด(seen)์ ํ ์คํธ์ฉ์ผ๋ก ์ฒ์ ๋ณด๋ ๊ฐ์ฒด(unseen)์ ๊ตฌ๋ถ์ ํตํด ์ ์ฑ ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์๋ฐํ ํ๊ฐํ ์ ์๊ฒ ํฉ๋๋ค. ์ด๋ฒ ๋ฒค์น๋งํฌ์์๋ ๋ํ์ ์ธ 4๊ฐ์ง ์กฐ์ ๊ณผ์ ๊ฐ ์ ์ ๋์๋๋ฐ, ๊ตฌ์ฒด์ ์ธ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์๋๊ผญ์ง ๋๋ฆฌ๊ธฐ (Faucet): ๋ก๋ด ์์ผ๋ก ์๋๊ผญ์ง์ ์์ก์ด๋ฅผ ์ก๊ณ ์ฝ 90๋ ์ ๋ ํ์ ์์ผ ๋ฌผ์ ํธ๋ ๋์์ ๋๋ค. ์ด ์์ ์์๋ ๋ก๋ด ํ์ ์์ง์๊ณผ ๋ค๊ด์ ์๊ฐ๋ฝ์ ํ์์ด ๋ชจ๋ ํ์ํ๋ฉฐ, ์ฑ๊ณต ์ฌ๋ถ๋ ์๋๊ผญ์ง ์์ก์ด๋ฅผ ๋๋ฆฐ ๊ฐ๋๋ก ํ๊ฐํฉ๋๋ค. (์ด ๊ณผ์ ์๋ 18๊ฐ์ ์๋๊ผญ์ง ๋ชจ๋ธ ์ค 11๊ฐ๋ฅผ ํ๋ จ์ ์ฌ์ฉํ๊ณ 7๊ฐ๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค.)
- ์๋์ด ๋ค๊ธฐ (Bucket): ๋ก๋ด ์์ ์๋์ด์ ์ข์ ์์ก์ด ๋ฐ์ผ๋ก ์ง์ด๋ฃ์ด ์์ก์ด๋ฅผ ์๋์์ ๋ค์ด์ฌ๋ ค ๋๋ ์์ ์ ๋๋ค. ๋ก๋ด ์๊ฐ๋ฝ์ ํผ์ณ ์์ก์ด๋ฅผ ์๋์์ ๋ฐ์น๊ณ ์ฅ๋ ํ์ ํ์(form closure)๋ฅผ ๊ตฌํํด์ผ ์์ ์ ์ผ๋ก ๋ค ์ ์์ผ๋ฉฐ, ์ถฉ๋ถํ ๋ง์ฐฐ ์์ด๋ ์ด ์์ ์ด ์ด๋ ต์ต๋๋ค. ํ๊ฐ ๊ธฐ์ค์ ์๋์ด๋ฅผ ์ผ์ ๋์ด ์ด์ ๋ค์ด์ฌ๋ ธ๋์ง๋ก ์ ์๋ฉ๋๋ค. (์ด ์์ ์๋ ์ด 19๊ฐ ์๋์ด ๋ชจ๋ธ ์ค 11๊ฐ๋ฅผ ํ๋ จ์, 8๊ฐ๋ฅผ ํ ์คํธ์ ์ฌ์ฉํฉ๋๋ค.)
- ๋ ธํธ๋ถ ์ด๊ธฐ (Laptop): ๋ซํ ๋ ธํธ๋ถ์ ํ๋ฉด์ ์ค๊ฐ ๋ถ๋ถ์์ ์๊ฐ๋ฝ๋ค๋ก ์ง์ด๋ค์ด ๋ ธํธ๋ถ์ ์ฌ๋ ์์ ์ ๋๋ค. ๋ก๋ด ์๊ฐ๋ฝ์ผ๋ก ํ๋ฉด ํ์ ์ก๊ณ ์ ํ ์ฌ๋ฆฌ๋ ๋์์ผ๋ก, ํํ ๊ทธ๋ฆฌํผ๋ก๋ ์๋ํ ์๋ ์์ผ๋ ๋งค์ฐ ์ ํํ ์์น๋ก ํ์ง๋ฅผ ํด์ผ ํ๊ณ ํฐ ์์ ๊ณต๊ฐ์ด ํ์ํด ์ด๋ ต์ต๋๋ค. ๋ค๊ด์ ์์ ํ์ฉํ๋ฉด ๋ณด๋ค ์ ์ฐํ๊ฒ ํ๋ฉด์ ํ์งํ๊ณ ์ ํ ์ ์์ผ๋ฉฐ, ์ด๋ฆผ ๊ฐ๋์ ๋ณํ๋ฅผ ๊ฐ์ง๊ณ ์ฑ๊ณต์ ์ธก์ ํฉ๋๋ค. (๋ ธํธ๋ถ ๊ณผ์ ์๋ 17๊ฐ ๋ชจ๋ธ ์ค 11๊ฐ ํ๋ จ, 6๊ฐ ํ ์คํธ๋ก ์ฌ์ฉ๋ฉ๋๋ค.)
- ๋ณ๊ธฐ ๋๊ป ์ด๊ธฐ (Toilet): ๋ ธํธ๋ถ ์ด๊ธฐ์ ์ ์ฌํ๊ฒ, ๋ซํ ์๋ณ๊ธฐ ๋๊ป์ ๋ค์ด์ฌ๋ ค ์ฌ๋ ์์ ์ ๋๋ค. ๋ณ๊ธฐ ๋๊ป์ ๋ชจ์์ด ํฌ๊ณ ๋ถ๊ท์นํ์ฌ ํ๋ฉด์ด ํํํ ๋ ธํธ๋ถ๋ณด๋ค ํ์ง๊ฐ ๊น๋ค๋กญ๊ณ ๋ฌด๊ฑฐ์ด ๊ฒฝ์ฐ๊ฐ ๋ง์ ์์ ๋์ด๋๊ฐ ๋์ต๋๋ค. ๋ก๋ด์ด ๋๊ป์ ์ผ์ ๊ฐ๋ ์ด์ ์ด๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผํ๋ฉฐ, ์ด ์์ ์ ํตํด ๋ณด๋ค ๋ณต์กํ ํ์์ ๊ด์ ๋ฌผ์ฒด ์กฐ์์ ๋ํ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. (๋ณ๊ธฐ ๋๊ป์ 28๊ฐ ๋ชจ๋ธ ์ค 17๊ฐ ํ๋ จ, 11๊ฐ๊ฐ ํ ์คํธ์ ์ฌ์ฉ๋ฉ๋๋ค.)
๊ฐ ๊ณผ์ ๋ง๋ค 17~28๊ฐ์ ๋ค์ํ ๊ฐ์ฒด ๋ชจ๋ธ์ด ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ด ์ค ์ฝ 60%๋ ํ๋ จ์ ์ฌ์ฉ๋๊ณ 40%๋ ํ ๋ฒ๋ ๋ณธ ์ ์๋ ์๋ก์ด ๊ฐ์ฒด๋ก ๋ถ๋ฆฌ๋์ด ์ฑ๋ฅ ํ๊ฐ์ ํ์ฉ๋ฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์ฑ์ผ๋ก, ์๋ฅผ ๋ค์ด ๋ก๋ด์ด ์๋๊ผญ์ง ๊ณผ์ ์์ 11๊ฐ์ ์๋๊ผญ์ง ๋ชจ๋ธ์ ๋ณด๊ณ ํ์ตํ ํ ์ฒ์ ๋ณด๋ 7๊ฐ์ง ์๋ก์ด ๋์์ธ์ ์๋๊ผญ์ง๋ฅผ ์ผ๋ง๋ ์ฑ๊ณต์ ์ผ๋ก ํ ์ ์๋์ง๋ฅผ ์ํํจ์ผ๋ก์จ, ๋ฒ์ฃผ ์์ค(category-level)์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ๊ด์ ์ผ๋ก ์ธก์ ํ ์ ์์ต๋๋ค.
DexArt์ ๋ชจ๋ ์์ ํ๊ฒฝ์ SAPIEN ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์ ๊ตฌํ๋์๊ณ , ๋ก๋ด ํ๋ซํผ์ผ๋ก๋ 6์์ ๋ ์ฐ์ ์ฉ ๋ก๋ดํ XArm6 ๋์ ์ธ๊ฐ ์๊ณผ ๋น์ทํ 4์๊ฐ๋ฝ ์๋ ๊ทธ๋ก ๋ก๋ด ์(Allegro Hand)(16์์ ๋ ์๊ฐ๋ฝ ๊ด์ )์ ์ฅ์ฐฉํ ํํ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ก๋ด์ด ๋ฐ๋ ๊ด์ธก(observation) ์ ๋ณด๋ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋๋ฐ, ์ฒซ์งธ๋ ๋ก๋ด ์์ฒด์ ๊ด์ ๊ฐ๋, ์๋, ํ ๋๋จ(์๋ฐ๋ฅ)์ ์์น์ ์์ธ ๋ฑ์ ํ๋ฆฌ์คํ๋ฆฌ์ ์ (proprioception)์ด๊ณ , ๋์งธ๋ ์ฅ๋ฉด์ ๋ณด๋ ๊น์ด ์นด๋ฉ๋ผ๋ก๋ถํฐ ํ๋ํ ๋ถ๋ถ์ ์ธ ํฌ์ธํธํด๋ผ์ฐ๋์ ๋๋ค. ์ด 3์ฐจ์ ์ ๊ตฐ์ ๋ก๋ด ํ๊ณผ ๋ฌผ์ฒด๊ฐ ๋์ธ ์์ ๊ณต๊ฐ ์ฃผ์๋ก ํ์ ํ๊ณ ๋ค์ด์ํ๋งํ์ฌ ์ฌ์ฉํ๋ฉฐ, ๊ฑฐ๊ธฐ์ ๋ก๋ด ์์ ์ ๋ชจ๋ธ์์ ์์ฑํ ์ ๊ตฐ๋ ํฉ์ณ ์ ๋ ฅ์ผ๋ก ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ 3D ์๊ฐ ์ ๋ณด๋ PointNet ์ ๊ฒฝ๋ง์ผ๋ก ์ฒ๋ฆฌ๋์ด ์ค์ํ ๋ฌผ์ฒด์ ํํ์ ๋ถ์ ํน์ฑ์ ์ธ์ฝ๋ฉํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ ์ด ์์ฌ๊ฒฐ์ ์ ํ๊ฒ ๋ฉ๋๋ค. ํํธ ํ๋(action) ๊ณต๊ฐ์ ๋ก๋ด ํ์ 6-DoF ์๋ ์ ์ด ์ง๋ น๊ณผ ์๊ฐ๋ฝ 16๊ฐ ๊ด์ ์ ๋ชฉํ ์์น๋ก ์ด๋ฃจ์ด์ง 22์ฐจ์ ์ฐ์ ๋ฒกํฐ๋ก ์ ์๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ํ์ Operational Space Control ๋ฐฉ์์ผ๋ก ์๋ฐ๋ฅ์ ์ ์๋ ๋ฐ ๊ฐ์๋๋ฅผ ๋ช ๋ นํ๊ณ , ์๊ฐ๋ฝ์ ๊ฐ ๊ด์ ์ ๋ชฉํ ๊ฐ๋(position control)๋ฅผ PD ์ ์ด๋ก ์ํํ๋ ํํ์ ๋๋ค. ์ด๋ฌํ ์ ์๋ฅผ ํตํด ๋ก๋ด์ ์์ ๋กญ๊ฒ ํ์ ์์ง์ฌ ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ํ์ ์ค ์ ์์ผ๋ฉฐ, ๋ค์ํ ์ ๋ชจ์์ ๋ง๋ค์ด๋ผ ์ ์์ต๋๋ค.
ํ์ต์ ์ํํ๊ฒ ํ๊ธฐ ์ํด ๋ณด์ ์ค๊ณ์๋ ์ ๊ฒฝ์ ์ผ์ต๋๋ค. DexArt์ ๋ชจ๋ ๊ณผ์ ๋ ๊ณตํต์ ์ผ๋ก 3๋จ๊ณ์ ์ธ๋ถํ๋ ๋ณด์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ฐ, ์ด๋ฅผ ํตํด ์์ด์ ํธ๊ฐ ์ ๊ทผ โ ํ์ง(grasp) โ ์กฐ์ ์ํ์ ์์ฐจ ๋จ๊ณ๋ฅผ ๋ฐ๋๋ก ์ ๋ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋ก๋ด ์๋ฐ๋ฅ์ด ํด๋น ๋ฌผ์ฒด์ ๊ธฐ๋ฅ์ ๋ถ์(์๋ฅผ ๋ค์ด ์๋๊ผญ์ง ์์ก์ด)์ ์ถฉ๋ถํ ๊ฐ๊น์ด ์ ๊ทผํ๋ฉด ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ ๋ณด์์ ์ค๋๋ค. ๋์งธ ๋จ๊ณ์์๋ ์๋ฐ๋ฅ๊ณผ ์ฌ๋ฌ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์ ์ ์ดํ์ฌ ์์ ์ ์ธ ํ์ง๋ฅผ ํ์ฑํ๋ฉด ์ถ๊ฐ ๋ณด์์ ์ง๊ธํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์๋ฐ๋ฅ(palm)๊ณผ ์ต์ ๋ ๊ฐ ์ด์์ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์ ์ ์ดํ ์ํ๋ฅผ ๋ง์กฑ๋ ๋์ ํ์ง๋ก ๊ฐ์ฃผํ์ฌ ๋ณด์ํ๋๋ก ๊ตฌํํ์ต๋๋ค. ๋ง์ง๋ง ๋จ๊ณ์์๋ ๋ฌผ์ฒด์ ๊ด์ ์ ๋ชฉํ์น๊น์ง ์ค์ ๋ก ์์ง์ฌ ๊ณผ์ ๋ฅผ ์์ํ ์ ๋(์งํ์จ)์ ๋ฐ๋ผ ๋ณด์์ ๋ถ์ฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์๋๊ผญ์ง๋ผ๋ฉด ํ์ฌ ๋ฐธ๋ธ ์์ก์ด๋ฅผ ์ผ๋ง๋ ๋๋ ธ๋์ง ๊ฐ๋ ๋ณํ๋์ ๊ณ์ฐํ์ฌ, 90๋์ ๊ฐ๊น์์ง์๋ก ๋์ ๋ณด์์ ์ฃผ๋ ์์ ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก, ๋ถํ์ํ๊ฒ ๊ณผ๊ฒฉํ๊ฑฐ๋ ๋ถ์์ ํ ์์ง์์ ํผํ๋๋ก ํจ๋ํฐ ํญ๋ ํฌํจ๋์๋๋ฐ, ์ด๋ ํ๋ ๋ฒกํฐ์ ํฌ๊ธฐ์ ๋ํ L2 ๋ ธ๋ฆ ์ ์ฌ์ ๊ณผ์ ๋ณ๋ก ์ ์๋ ์ฝ๊ฐ์ ๋ฒ์ ํญ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฒด ๋ณด์์ ์ด ์ธ ๋จ๊ณ ๋ณด์๊ณผ ํจ๋ํฐ๋ฅผ ๊ฐ์คํฉํ์ฌ ๊ณ์ฐ๋๋ฉฐ, ๊ฐ ์์ ์ ๊ฑฐ์ ๋์ผํ ๊ตฌ์กฐ๋ฅผ ์ ์ฉํจ์ผ๋ก์จ ํ์ต ๋์ด๋์ ๋ณด์์ ์ผ๊ด์ฑ์ ์ ์งํ์ต๋๋ค. ์์ฝํ๋ฉด, DexArt๋ ๋ค์ํ ๊ด์ ํ ๋ฌผ์ฒด ๋ชจ๋ธ๋ค์ ํ์ฉํ ๋ค ๊ฐ์ง ๊ณผ์ ์ธํธ์, ๋ค๊ด์ ๋ก๋ด ์์ ํ์ฉํ ํ์คํ๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ณ ๋ คํ ํ๊ฐ ํ๋กํ ์ฝ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๊ฐ์ฒด ๋ชจ๋ธ๋ค์ PartNet-Mobility ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์ ๋ณ๋์์ผ๋ฉฐ, ์ผ๊ด๋ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ ์ํด ๋ถ์ ์ ํ ๋ชจ๋ธ์ ์ ์ธํ๊ณ ํฌ๊ธฐ๋ ์ด๊ธฐ ์์น ๋ฑ์ ์ฌ๋์ด ์ง์ ์กฐ์ ํ์ต๋๋ค. ํ๋ จ ์ค์๋ ์ํผ์๋๋ง๋ค ๊ฐ์ฒด์ ์ด๊ธฐ ๋ฐฐ์น ๊ฐ๋๋ ์์น๋ฅผ ์ฝ๊ฐ์ฉ ๋๋คํ๊ฒ ๋ณํ์์ผ, ์ ์ฑ ์ด ๋ณด๋ค ๋ค์ํ ์ํฉ์ ๋ ธ์ถ๋๋๋ก ์ฒ๋ฆฌํ์ต๋๋ค. ์ด๋ฌํ ์ธ์ฌํ ํ๊ฒฝ ๊ตฌ์ถ์ผ๋ก, DexArt๋ ๊ธฐ์กด์ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ ๋ ๋ฒ์ฉ ์ฌ์ธ ์กฐ์์ ํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ตฌํ ์ ์๋ ์ฅ์ ์ ๊ณตํฉ๋๋ค.
์ฑ๋ฅ ํ๊ฐ์ ์คํ ์ค์
DexArt์์๋ ํ์ต๋ ์ ์ฑ ์ ์ฑ๋ฅ์ ํ๋จํ๊ธฐ ์ํด ๊ฐ ์ํผ์๋๊ฐ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃ๋์๋์ง์ ๋น์จ์ธ ์ฑ๊ณต๋ฅ (success rate)์ ์ฃผ๋ ์งํ๋ก ์ฌ์ฉํฉ๋๋ค. ์ฑ๊ณต ๊ธฐ์ค์ ๊ณผ์ ์ ๋ฐ๋ผ ์์ ์ธ๊ธํ ๊ด์ ์ด๋์ด ์ผ์ ์๊ณ์น ์ด์ ๋ฌ์ฑ๋์๋์ง๋ก ์ ์๋๋ฉฐ, ์๋ฅผ ๋ค์ด ์๋๊ผญ์ง์ ๊ฒฝ์ฐ ์ ํ ์๊ฐ ๋ด์ ๋ฐธ๋ธ๋ฅผ 90๋ ๊ฐ๊น์ด ๋๋ ธ๋ค๋ฉด ์ฑ๊ณต์ผ๋ก ๊ธฐ๋กํฉ๋๋ค. ํนํ ์ค์ํ ๊ฒ์ ์ผ๋ฐํ ํ๊ฐ๋ก์, ํ๋ จ์ ์ฌ์ฉ๋ ๋ฌผ์ฒด๋ค(Seen)์์์ ์ฑ๊ณต๋ฅ ๋ฟ ์๋๋ผ ์ฒ์ ์ ํ๋ ์ ๋ฌผ์ฒด(Unseen)๋ค์์์ ์ฑ๊ณต๋ฅ ์ ๋ณ๋๋ก ์ธก์ ํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ ์ฑ ์ด ํ๋ จ ๋ ๋ณธ ์ ์๋ ๋ชจ์์ ๊ฐ์ฒด์๋ ์ผ๋ง๋ ์ ๋์ํ๋์ง๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ํ์ธํ ์ ์์ต๋๋ค. ๊ทธ ์ธ ๋ณด์กฐ ์งํ๋ก ์ํผ์๋๋น ๋์ ๋ณด์(return)์ ํ๊ท ๋ ๋ณด๊ณ ํ๋ฉฐ, ํ์ต ์ํ ํจ์จ์ฑ์ ๋น๊ตํ๊ธฐ ์ํด ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ ์ฑ๊ณต๋ฅ ์ด ์์นํ๋ ๊ณก์ ์ ๊ธฐ์ธ๊ธฐ ๋ฑ์ ํจ๊ป ๋ถ์ํฉ๋๋ค. ๋ชจ๋ ์คํ์ ๋์ผํ PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ๋ผ๋ฏธํฐ ์ธํ ํ์ ๊ณผ์ ๋ณ๋ก 3๊ฐ์ ์๋ก ๋ค๋ฅธ ์๋๋ฅผ ์ฌ์ฉํด ๋ฐ๋ณต ํ์ตํ์ฌ ๊ฒฐ๊ณผ์ ์ ๋ขฐ๋๋ฅผ ๋์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๊ฐ์ง ํ์ต ์ค์ ์ ๋น๊ต ํ๊ฐํ์ฌ DexArt ๊ณผ์ ์์์ ์ฑ๋ฅ ๋ณํ๋ฅผ ์์ธํ ๋ถ์ํ์์ต๋๋ค. ๋จผ์ , ์๊ฐ ์ธ์ฝ๋ ์ ๊ฒฝ๋ง(PointNet)์ ๋ํด ์๋ก ๋ค๋ฅธ ์ฌ์ ํ์ต(pre-training) ๋ฐฉ๋ฒ๋ค์ ์ ์ฉํ ํ ๊ฐํํ์ต์ ์งํํ ๊ฒฝ์ฐ๋ค์ ๋น๊ตํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, PointNet์ ์ง๋ํ์ต ๋ฐฉ์์ผ๋ก ๊ฐ์ฒด ๋ถ๋ฅ(46๊ฐ ๋ฒ์ฃผ์ ๊ฐ์ฒด ๋ถ๋ฅ) ๋๋ ๋ถ๋ถ ๋ถํ (segmentation) ๊ณผ์ ๋ฅผ ์ํํ๋๋ก ๋ฏธ๋ฆฌ ํ์ต์ํค๊ฑฐ๋, ์๊ธฐ์ง๋ํ์ต ๋ฐฉ์์ผ๋ก ํฌ์ธํธํด๋ผ์ฐ๋ ๋ณต์(reconstruction)์ด๋ SimSiam ๋ฐฉ์์ผ๋ก ์ฌ์ ํ์ต์ํจ ํ, ์ด๋ ๊ฒ ์ป์ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํ๊ฐ์ผ๋ก ์จ์ RL์ ์งํํ๋ ์คํ๋ค์ด ์ํ๋์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ค๊ณผ ์๋ฌด ์ฌ์ ํ์ต ์์ด ์ฒ์๋ถํฐ ํ์ตํ ๊ฒฝ์ฐ๋ฅผ ๋๋นํ์ฌ, ์๊ฐ ํํ ํ์ต์ ํจ๊ณผ๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ์ต๋๋ค. ๋ค์์ผ๋ก, ํ๋ จ์ ์ฌ์ฉ๋ ๊ฐ์ฒด์ ์๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์์ ๋์ ๋ชจ๋ ์ฌ์ฉํ์ ๋๋ฅผ ๋น๊ตํ์ฌ, ์ฃผ์ด์ง ํ๋ จ ๋ฐ์ดํฐ์ ๋ค์์ฑ์ด ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๋๊ผญ์ง ์์ ์์ ์๋ 11๊ฐ์ ํ๋ จ ๊ฐ์ฒด ์ค 5~6๊ฐ๋ง ๊ฐ์ง๊ณ ํ์ต์ํจ ์ ์ฑ ๊ณผ 11๊ฐ ๋ชจ๋ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ๋ ์์ ๋๋ค. ์ธ ๋ฒ์งธ๋ก, PointNet ์๊ฐ ์ธ์ฝ๋์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์๊ฒ/์ค๊ฐ/ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ๋ณ๊ฒฝํ์ฌ, ์ ๊ฒฝ๋ง ์ฉ๋์ ๋ฐ๋ฅธ ํ์ต ์๋์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์ดํด๋ณด์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ํ์ต๋ ์ ์ฑ ์ ์นด๋ฉ๋ผ ์์ ๋ณํ์ ๋ํ ๊ฐ์ธ์ฑ์ ํ๊ฐํ์ต๋๋ค. ์ด๋ ํ์ต ๋น์ ๊ณ ์ ๋ ์์ ์ด ์๋๋ผ, ์์์ ์๋ก์ด ๊ฐ๋์์ ์ดฌ์๋ ๊น์ด ์ด๋ฏธ์ง๋ก๋ถํฐ ์ป์ ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ์ ๋ ฅํ์ ๋๋ ์ ์ฑ ์ด ์ ๋์ํ๋์ง๋ฅผ ๋ณด๋ ์คํ์ ๋๋ค. ํนํ ์ด ์คํ์์๋ 3D ํฌ์ธํธ๋ท ๊ธฐ๋ฐ ์ ์ฑ ๊ณผ, ๋๋น๊ตฐ์ผ๋ก 2D ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ์ฑ ์ ํจ๊ป ์ํํ์์ต๋๋ค. 2D ์ ์ฑ ์ RGB ์นด๋ฉ๋ผ ์์์ ์ ๋ ฅ์ผ๋ก ํ๊ณ ResNet-18 ์ ๊ฒฝ๋ง์ ์๊ฐ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ๋๋ฐ, ์ฌ์ ํ์ต์ผ๋ก R3M (๋๊ท๋ชจ ์ธ๊ฐ ๋์ ์์์ผ๋ก ํ์ต๋ ํํ) ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํํ ํ DexArt ๊ณผ์ ๋ฅผ ํ์ต์ํจ ๊ฒ์ ๋๋ค. ๋ ์ ์ฑ ์ ๋ชจ๋ ๋ค์ํ ์์ ์ ์ ๋ ฅ์ ๋์๋ณด๋ฉฐ, 3D ๋ 2D ์๊ฐ ํํ์ ๊ฒฌ๊ณ ์ฑ ์ฐจ์ด๋ ๋ถ์ํ์ต๋๋ค. ์ด๋ฌํ ๋ค์ํ ์คํ ์ค์ ์ DexArt ๋ฒค์น๋งํฌ์ ํฌ๊ด์ฑ์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ฐ๊ฐ ์ ์ฑ ์ ํํ ํ์ต, ํ๋ จ ๋ฐ์ดํฐ ๊ตฌ์ฑ, ๋ชจ๋ธ ์ค๊ณ, ์ผ๋ฐํ ๋ฐ ๊ฐ์ธ์ฑ ์ธก๋ฉด์ ๋ํ ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ์ ํต์ฐฐ
์์ ๊ฐ์ ๋ฒค์น๋งํฌ ์คํ์ ํตํด ์ฌ๋ฌ ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ๊ฐ ๋์ถ๋์์ผ๋ฉฐ, ํนํ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ํต์ฐฐ์ ์ป์ ์ ์์์ต๋๋ค:
ํ๋ จ ๋ฐ์ดํฐ ๋ค์์ฑ์ ์ค์์ฑ: ํ ์์ ์ ๋ํด ํ๋ จ์ ์ฌ์ฉํ ๊ฐ์ฒด ์ข ๋ฅ๊ฐ ๋ง์์๋ก ์๋ก์ด ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋์์ต๋๋ค. ๊ฐ ๊ณผ์ ์์ ํ๋ จ์ ํฌ์ ๋ ๊ฐ์ฒด ์๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์ธ ๊ฒฝ์ฐ์ 100% ๋ชจ๋ ์ฌ์ฉํ ๊ฒฝ์ฐ๋ฅผ ๋น๊ตํ๋ฉด, ํ์๊ฐ ํ๋ จ ์ค ๋ด๋ด ํ ์คํธ ๊ฐ์ฒด์ ๋ํ ์ฑ๊ณต๋ฅ ์ด ๋ ๋๊ฒ ์ ์ง๋๋ ์์์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ค์ํ ํํ์ ๋ฌผ์ฒด๋ค์ ๋๋ฃจ ๊ฒฝํํ๋ฉฐ ํ์ตํ๋ ๊ฒ์ด ๋ ๋ฒ์ฉ์ ์ธ ์๊ฐ ํํ์ ์ตํ๊ฒ ํจ์ ์๋ฏธํฉ๋๋ค. ๋ค๋ง ๊ฐ์ฒด ์ข ๋ฅ๊ฐ ๋์ด๋๋ฉด ํ๊บผ๋ฒ์ ํ์ตํด์ผ ํ ๋ณ์๊ฐ ๋ง์์ ธ ํ์ต ์๋๋ ์คํ๋ ค ๋๋ ค์ง ์๋ ์๋ค๋ ๊ด์ฐฐ๋ ์์๋๋ฐ, ์ค์ ์คํ์์ ํ๋ จ ์ด๊ธฐ ์๋ ด ์๋๋ ์ ์ ๊ฐ์ฒด๋ก ํ์ตํ ์ชฝ์ด ๋น ๋ฅด์ง๋ง ์ต์ข ์ฑ๋ฅ์ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ์ฌ์ฉํ ์ชฝ์ด ๋์์ต๋๋ค. ๊ฒฐ๊ตญ ์ถฉ๋ถํ ํ๋ จ ๋ฐ์ดํฐ ๋ค์์ฑ์ด ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ด๋ ์ด์ ์์ ํ์ธํ ๊ฒ์ ๋๋ค.
ํฐ ์ ๊ฒฝ๋ง์ด ํญ์ ์ ๋ฆฌํ ๊ฒ์ ์๋: ์๊ฐ ํน์ฑ์ ๋ฝ๋ PointNet์ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋ฌ๋ฆฌํ ์คํ์์ ์์ธ์ ๊ฒฐ๊ณผ๊ฐ ๋์์ต๋๋ค. ๋ณต์กํ ๊ตฌ์กฐ์ ๋ํ ๋ชจ๋ธ๋ณด๋ค ๊ฐ๊ฒฐํ ์ํ ๋ชจ๋ธ์ด ์ผ๊ด๋๊ฒ ๋ ๋์ ํ์ต ์ฑ๋ฅ์ ๋ณด์ธ ๊ฒ์ ๋๋ค. ๊ฐ์ฅ ์์ PointNet์ด ๋ชจ๋ ํ๊ฒฝ์์ ์ํผ์๋ ์ฑ๊ณต๋ฅ ๊ณผ ๋ฐํ๊ฐ ์ธก๋ฉด ๋ชจ๋ ์ต๊ณ ์ฑ๊ณผ๋ฅผ ๋๊ณ , ํ์ต๋ ๊ฐ์ฅ ํจ์จ์ ์ด์์ต๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ธ ์ปดํจํฐ ๋น์ ๊ด์ ์์ ์๊ฐํ๋ฉด ๋ค์ ๋๋ผ์ด ๊ฒฐ๊ณผ์ธ๋ฐ, ๋ ผ๋ฌธ ์ ์๋ค์ ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์ ๊ฐํํ์ต์์ ์ต์ ํ๊ฐ ์ด๋ ค์์ง๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ ์ด์ ์ฐ๊ตฌ๋ค์์๋ ์ ์ฌํ ๋ณด๊ณ ๊ฐ ์์๋ค๊ณ ์ธ๊ธํฉ๋๋ค. ์ด๋ฒ ๊ฒฐ๊ณผ๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ฌ ๋ชจ๋ธ์ ๋จ์ํํ๋ ๊ฒ์ด ์คํ๋ ค ํ์์ ์ฉ์ดํ๊ฒ ํ๊ณ ๊ณผ์ ํฉ์ ์ค์ฌ, ์ํ ํจ์จ์ ๋์ด๋ ํจ๊ณผ๊ฐ ์์ ์ ์์์ ์์ฌํฉ๋๋ค.
๊ฐ์ฒด ๋ถ์ ์ธ์์ ์ค์์ฑ: ๋ฉํฐํ๊ฑฐ ๋ก๋ด ์์ผ๋ก ๋ฌผ์ฒด์ ์ผ๋ถ๋ถ(๊ธฐ๋ฅ์ ๋ถ์)์ ์กฐ์ํด์ผ ํ๋ ๊ณผ์ ์ ํน์ฑ์, ์ ์ฑ ์ด ๊ทธ ๋ฌผ์ฒด์ ๋ถ์๋ฅผ ์๋ณํ๊ณ ํ์ ํ๋ ๋ฅ๋ ฅ์ด ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์คํ์์ ๋ถ์ ๋ถํ (segmentation) ๊ณผ์ ๋ก PointNet์ ์ฌ์ ํ์ตํ ๊ฒฝ์ฐ, ๋ค ๊ฐ์ง ๋ชจ๋ ์์ ์์ ๊ฐ์ฅ ๋์ ์ต์ข ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ๊ณ ํ์ต ์ด๊ธฐ์ ํฅ์ ์๋๋ ๋นจ๋์ต๋๋ค. ๋ค๋ฅธ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ๋ค๋ ๋ ธํธ๋ถ ์ด๊ธฐ ๋ฑ์ ์ผ๋ถ ๊ณผ์ ์์๋ ์ฑ๋ฅ ํฅ์์ ๋์์ ์ฃผ์์ง๋ง, ์์ ์์ก์ด์ ๊ฐ์ ์ฌ์ธํ ๋ถ์๊ฐ ์ค์ํ ์์ ๋ค์์ ๋ถํ ์ฌ์ ํ์ต์ ์ด์ ์ด ํนํ ๋๋๋ฌ์ก์ต๋๋ค. ์ฐ๊ตฌ์ง์ด ์๊ฐํํ ๋ฐ์ ๋ฐ๋ฅด๋ฉด, ๋ถํ ํ์ต์ ๊ฑฐ์น ๋ชจ๋ธ์ ์๋๊ผญ์ง์ ์์ ์์ก์ด ๋ถ๋ถ์ ํฌ์ธํธํด๋ผ์ฐ๋ ์์์ ์ ํํ ๊ตฌ๋ณํด๋ด์ง๋ง, ์ฌ๊ตฌ์ฑ ์์ฃผ๋ก ํ์ตํ ๋ชจ๋ธ์ ๋ฌผ์ฒด์ ์ ์ฒด ํํ๋ง ํ์ ํ ๋ฟ ์ธ๋ฐํ ๋ถ๋ถ์ ๋์น๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค. ๊ฒฐ๊ตญ ๋ถ์ ์ธ์ง ๋ฅ๋ ฅ์ ๊ธฐ๋ฅด๋ ์ฌ์ ํ์ต(์: ๊ธฐ๋ฅ์ฑ ๋ถ์์ ๋ผ๋ฒจ์ ์ค 3D ๋ถํ ๋ฐ์ดํฐ๋ก์ ํ์ต)์ด ๊ด์ ๊ฐ์ฒด ์กฐ์์ ํนํ๋ ์๊ฐ ํํ์ ํ์ฑํ์ฌ ์ ์ฑ ํ์ต์ ํฌ๊ฒ ๋์์ค๋ค๋ ๊ฒฐ๋ก ์ ์ป์ ์ ์์ต๋๋ค.
3D ํํ ํ์ต์ ๊ฐ์ธ์ฑ: ํฌ์ธํธํด๋ผ์ฐ๋ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ์นด๋ฉ๋ผ ์์ ์ด ๋ฌ๋ผ์ ธ๋ ์ฑ๋ฅ์ด ์์ ์ ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ํ ๊ฐ๋์์ ํ์ตํ ์ ์ฑ ์ ์ ํ ๋ค๋ฅธ ๋ฐฉํฅ์์ ๋ณธ ์ ๋ ฅ์ผ๋ก ์คํํด๋ ์ฑ๊ณต๋ฅ ์ ํ๊ฐ ๋ฏธ๋ฏธํ๊ณ , ์๋นํ ์์ ๋ณํ์๋ ์ ํ๋๊ฐ ์ ์ง๋์์ต๋๋ค. ๋ฐ๋ฉด ๋์ผํ ์์ ์ 2D ์นด๋ฉ๋ผ ์์์ผ๋ก ํ์ตํ ResNet-18 ๊ธฐ๋ฐ ์ ์ฑ ์, ํ๋ จ ๋์ ๋ค๋ฅธ ๋ทฐํฌ์ธํธ์ ์ ๋ ฅ์ ๋ํด์ ์ฑ๊ณต๋ฅ ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ํ์์ ๋ณด์์ต๋๋ค. ์ด๋ 3์ฐจ์ ํฌ์ธํธํด๋ผ์ฐ๋๋ก ํ์ต๋ ํํ์ด ์๊ฐ์ ๊ด์ ๋ณํ์ ๋ณธ์ง์ ์ผ๋ก ๋ถ๋ณ(invariant)ํ ์ฑ์ง์ ๊ฐ์ง๊ณ ์๋ ๋ฐ๋ฉด, ํ๋ฉด ์์ ๊ธฐ๋ฐ ํํ์ ์นด๋ฉ๋ผ ๊ฐ๋์ ๋ณํ์ ๋ฏผ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค. DexArt ๊ฒฐ๊ณผ๋ ์ด๋ฌํ 3D ํํ ํ์ต์ ์ด์ ์ ์ ๋์ ์ผ๋ก ์ฆ๋ช ํด์ฃผ์๊ณ , ํนํ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๋ก๋ด ๊ฐ ์นด๋ฉ๋ผ ์์น ๋ถ์ผ์น ๋ฌธ์ ๋ฑ์์ 3D ๊ธฐ๋ฐ ์ ๊ทผ์ด ์ผ๋ง๋ ์ ์ฉํ์ง ๊ฐ์กฐํ๊ณ ์์ต๋๋ค. ์ค์ ๋ก๋ด์ ์ ์ฑ ์ ์ด์ํ ๋ ์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ด๋ ์์ ๋ณํ๋ก ์ธํ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ ์ ์๋ค๋ ์ ์์, ๊ธฐํํ์ 3D ํํ์ ํ์ฉ์ ํฐ ๊ฐ์ ์ผ๋ก ์์ฉํ ๊ฒ์ ๋๋ค.
์ด ์ธ์๋ ์คํ์์ 2D ๋ 3D ์ ๋ ฅ์ ์ ๋ ์ฑ๋ฅ ๋น๊ต๋ฅผ ๋ณด๋ฉด, ๋์ผํ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋น์ทํ ์ฌ์ ํ์ต์ ํ์ ๋ PointNet(3D) ๊ธฐ๋ฐ ์ ์ฑ ์ด ResNet-18(2D) ๊ธฐ๋ฐ ์ ์ฑ ๋ณด๋ค ํ๋ จ์ด ์ ๋๊ณ ์ต์ข ์ฑ๊ณต๋ฅ ๋ ๋์์ต๋๋ค. ์ด๋ ๊ด์ ์กฐ์๊ณผ ๊ฐ์ด ์ ํํ ํ์ ํ์ ์ด ํ์ํ ์์ ์๋ 3D ์ ๋ณด๊ฐ ํจ์ฌ ์ ๋ฆฌํจ์ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ์ ๋๋ค. ์ ๋ฐ์ ์ผ๋ก DexArt๋ฅผ ํตํด ์ป์ ํต์ฐฐ๋ค์ ํฅํ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์์ ๋ฐ์ดํฐ ๋ค์์ฑ, ํํ ํ์ต ๊ธฐ๋ฒ, ๋ชจ๋ธ ๊ตฌ์กฐ ์ ํ, ์ ๋ ฅ ํํ ๊ฒฐ์ ๋ฑ์ ์ค์ํ ์ง์นจ์ ์ ์ํฉ๋๋ค.
ํ๊ณ์ ๋ฐ ํฅํ ๊ณผ์
DexArt ๋ฒค์น๋งํฌ์ ์ฐ๊ตฌ๋ ๋ฒ์ฉ ๋ก๋ด ์ฌ์ธ ์กฐ์์ ํฅํด ๋์๊ฐ๋ ์๋ฏธ์๋ ์ง์ ์ ์ด๋ฃจ์์ง๋ง, ๋์์ ๋ช ๊ฐ์ง ์ ์ฝ๊ณผ ํฅํ ๊ณผ์ ๋ฅผ ๋จ๊ฒจ๋๊ณ ์์ต๋๋ค. ์ฒซ์งธ, ๋ณธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ค์ ๋ชจ๋ ์๋ฎฌ๋ ์ดํฐ ํ๊ฒฝ์์ ์ป์ด์ง ๊ฒ์ด๋ฏ๋ก, ์ด๋ฅผ ์ค์ ๋ก๋ด์ ์ ์ฉํ๊ธฐ ์ํด ๋์ด์ผ ํ ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๊ฒฉ์ฐจ(sim-to-real gap)๊ฐ ์กด์ฌํฉ๋๋ค. ํ์ค์์๋ ์ผ์ ์ก์, ์ ํํ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ ์ฐจ์ด, ๋ง์ฐฐ ๋ฑ ์ฌ๋ฌ ๋ถํ์ค์ฑ์ด ์ถ๊ฐ๋๋ฉฐ, ์๋ฎฌ๋ ์ดํฐ์์์ฒ๋ผ ์นด๋ฉ๋ผ ์์ ์ ์ด์์ ์ผ๋ก ๋ง์ถ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ํ์ต๋ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ด์ํ์ฌ ์คํํ๊ณ , ํ์ํ ๋๋ฉ์ธ ์ ์์ด๋ ๋ณด์ ๊ธฐ๋ฒ์ ์ฐ๊ตฌํ๋ ๊ฒ์ด ๋ค์ ๋จ๊ณ๋ก ํ์ํฉ๋๋ค. ๋์งธ, DexArt์์ ๋ค๋ฃฌ ์์ ์ ํ์ด ์์ง์ ์ ํ์ ์ ๋๋ค. ์ฃผ๋ก ํ์ ๊ด์ (ํ์ง ํํ)์ ์์ง์์ ๋ค๋ฃจ๋ ๊ณผ์ ๋ค๋ก ๊ตฌ์ฑ๋์ด ์๋๋ฐ, ์๋์ ์ฌ๋ ์ฌ๋ผ์ด๋ฉ ๊ด์ ์กฐ์์ด๋ ๊ฐ์ ์ฌ์ฉ์ฒ๋ผ ๋ณตํฉ์ ์ธ ๋ค๋จ๊ณ ์์ ๋ฑ์ ํฌํจ๋์ง ์์์ต๋๋ค. ํฅํ ๋ฒค์น๋งํฌ๋ฅผ ํ์ฅํ๋ฉด์ ์ด๋ฌํ ๋ค์ํ ํํ์ ์ผ์ ์กฐ์ ์๋๋ฆฌ์ค๋ฅผ ์ถ๊ฐํ๋ค๋ฉด, ๋ก๋ด์ ๋ฒ์ฉ ๋ฅ๋ ฅ์ ๋์ฑ ํญ๋๊ฒ ํ๊ฐํ๊ณ ํฅ์์ํฌ ์ ์์ ๊ฒ์ ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ฐ ๊ณผ์ ๋ง๋ค ๋ณ๋์ ์ ์ฑ ์ ํ์ต์์ผฐ์ง๋ง, ์ค์ ๋ก๋ ํ ๋ก๋ด์ด ์ฌ๋ฌ ์์ ์ ์ํํ ์ ์์ด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ฉํฐํ์คํฌ ํ์ต์ผ๋ก ์ฌ๋ฌ ์ข ๋ฅ์ ์กฐ์ ๊ธฐ์ ์ ๋จ์ผ ์ ์ฑ ์ ํตํฉํ๊ฑฐ๋, ํน์ ์ฌ๋์ ์๋ฒ ์์ด ์ค์ค๋ก ํ์ตํ๋๋ก ํ๋ ์์จํ์ต ๊ธฐ์ ๋ฑ์ผ๋ก ๋ฐ์ ์ํฌ ํ์๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ณด์ ์ค๊ณ์ ๋ถ๋ด์ ์ค์ด๊ณ ๋์ฑ ์ผ๋ฐ์ ์ธ ํ์ต ํ๋ ์์ํฌ๋ก ๋์๊ฐ๋ ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. DexArt๊ฐ ์ ์ํ ํ๊ฒฝ๊ณผ ํ๊ฐ ์ฒด๊ณ๋ ์ด๋ฌํ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ด์งํ๋ ๋ฐํ์ด ๋ ๊ฒ์ด๋ฉฐ, ๊ถ๊ทน์ ์ผ๋ก ๊ฐ์ ์ฉ ๋ก๋ด์ด ์ฌ๋์ฒ๋ผ ๋ค์ํ ๋ฌผ๊ฑด์ ๋ฅ์ํ๊ฒ ๋ค๋ฃจ๋ ๋ ์ ์๋น๊ธฐ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.