๐Robot Synesthesia ๋ฆฌ๋ทฐ
NeurIPS 2023 Workshop on Touch Processing: a new Sensing Modality for AI
- ๐ค ์ด ๋ ผ๋ฌธ์์๋ ์๊ฐ ๋ฐ ์ด๊ฐ ์ ๋ ฅ์ ํ์ฉํ์ฌ ๋ก๋ด์ด ๋ฅ์ํ ์ ์์์์ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ์์คํ ์ธ Robot Synesthesia๋ฅผ ์๊ฐํฉ๋๋ค.
- ๐จ ์ธ๊ฐ์ ์ด๊ฐ-์๊ฐ ๊ณต๊ฐ๊ฐ์์ ์๊ฐ์ ๋ฐ์, Force-Sensing Resistor (FSR)์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์นด๋ฉ๋ผ์ ํฌ์ธํธ ํด๋ผ์ฐ๋์ ๊ฒฐํฉํ์ฌ ํตํฉ๋ 3D ๊ณต๊ฐ์ ํํํ๋ ์๋ก์ด ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ์ด๊ฐ ํํ์ ์ ์ํฉ๋๋ค.
- ๐ฆพ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ต๋ ์ ์ฑ ์ด ์ค์ ๋ก๋ด ์์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ๋ฌ๋์ด ๋ณต์กํ ๋ ๊ฐ์ ๊ณต ํ์ ๊ณผ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๋ฐ ํ๋ จ ํ์ดํ๋ผ์ธ์ ๋ํ ์ฝ๋ ๊ณต๊ฐ๋ก ์ด์ด์ง ๊ฒ์ ๋๋ค.
1 Brief Review
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ์์ ์ ๊ตํ ์กฐ์์ ์ํด ์๊ฐ ๋ฐ ์ด๊ฐ ์ผ์ ์ ๋ณด๋ฅผ ์ตํฉํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ธ โRobot Synesthesiaโ๋ฅผ ์ ์ํฉ๋๋ค. ์ธ๊ฐ์ ๊ณต๊ฐ๊ฐ์์ ์๊ฐ์ ๋ฐ์, ์๊ฐ๊ณผ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ํตํฉ๋ 3D ๊ณต๊ฐ์ ํํํ์ฌ ๋ก๋ด์ด ์ด๊ฐ์ ์ํธ ์์ฉ์ โ๋ณผโ ์ ์๋๋ก ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
์ด๊ฐ-์๊ฐ ๊ณต๊ฐ๊ฐ (Tactile-Visual Synesthesia):
- ๊ธฐ์กด์ ๋ฐฉ์์ฒ๋ผ ์๊ฐ๊ณผ ์ด๊ฐ ์ ๋ณด๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ํน์ง์ ์ถ์ถํ ํ ๊ฒฐํฉํ๋ ๋์ , FSR(Force-Sensing Resistor) ์ผ์์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์นด๋ฉ๋ผ์ point cloud์ ๊ฒฐํฉํ์ฌ 3D ๊ณต๊ฐ์ ํํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด ๋งํฌ, FSR ์ผ์, ์กฐ์ ๋์ ๊ฐ์ฒด ๊ฐ์ ๊ณต๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์งํฉ๋๋ค.
- ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ์ด๊ฐ ์ผ์์์ ์ ํธ(o_{t,i} = 1)๊ฐ ๊ฐ์ง๋๋ฉด ์ผ์ mesh์์ ์ ๋ค์ ์ํ๋งํ์ฌ ์ด๊ฐ point cloud P_{touch}^t ๋ฅผ ์์ฑํฉ๋๋ค. ์ด point cloud๋ ์นด๋ฉ๋ผ point cloud P_c^t ๋ฐ ๋ก๋ด์ ์๊ธฐ ์์ฉ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์์ฑ๋ augmented point cloud P_a^t์ ๊ฒฐํฉ๋ฉ๋๋ค.
- ๊ฐ point cloud์ ์ ํ์ ๊ตฌ๋ณํ๊ธฐ ์ํด one-hot vector๊ฐ ๊ฐ ์ ์ ์ถ๊ฐ๋ฉ๋๋ค. point cloud์ ํฌ๊ธฐ๋ N_c = 512, N_a = 8n_{link}, N_t = 8n_{touch}๋ก ์ค์ ๋ฉ๋๋ค (n_{link}: ๋ก๋ด ๋งํฌ ์, n_{touch}: ํ์ฑํ๋ ์ด๊ฐ ์ผ์ ์).
- ๋ชจ๋ point cloud๋ ๋ก๋ด ์๋ฐ๋ฅ frame์ผ๋ก ๋ณํ๋์ด ์ ๊ฒฝ๋ง์ ์ ๋ ฅ๋ฉ๋๋ค.
๊ต์ฌ-ํ์ (Teacher-Student) ํ์ต ํ์ดํ๋ผ์ธ:
- ๊ณ ์ฐจ์ ์ ๋ ฅ (point cloud)์ ์ฌ์ฉํ๋ ๊ฐํ ํ์ต (RL)์ ๋ฐ์ดํฐ ๋นํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ต์ฌ-ํ์ ํ์ต ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
- ๊ต์ฌ ์ ์ฑ (Teacher Policy): ๋ฎ์ ์ฐจ์์ ์ํ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ PPO (Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต๋ฉ๋๋ค. ์ ๋ ฅ์ ๋ก๋ด joint ์์น q_t, ์ด์ง ์ด๊ฐ ์ ํธ o_t, ํ์ ์ถ k, ์ด์ ๋ชฉํ ์์น \hat{q}_t, ๊ฐ์ฒด์ ์์น x_t, ์๋ v_t, ๊ฐ์๋ w_t, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ฒด ๋ชจ์ ํน์ง ์๋ฒ ๋ฉ f์ ๋๋ค.
- ํ์ ์ ์ฑ (Student Policy): ๊ต์ฌ ์ ์ฑ ์ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ ๋ ฅ์ ๋ก๋ด joint ์์น q_t, ์ด์ง ์ด๊ฐ ์ ํธ o_t, ํ์ ์ถ k, ์ด์ ๋ชฉํ ์์น \hat{q}_t, ์นด๋ฉ๋ผ point cloud P_c^t, augmented point cloud P_a^t, ๊ทธ๋ฆฌ๊ณ ์ ์๋ ์ด๊ฐ point cloud P_{touch}^t ์ ๋๋ค. PointNet [3]์ ์ฌ์ฉํ์ฌ point cloud๋ฅผ ์ธ์ฝ๋ฉํ๊ณ , latent vector๋ฅผ ๋ค๋ฅธ ์ ๋ ฅ๊ณผ ํจ๊ป MLP์ ๊ณต๊ธํฉ๋๋ค.
- 2๋จ๊ณ distillation ํ์ดํ๋ผ์ธ์ ์ฌ์ฉํฉ๋๋ค. ๋จผ์ ๊ต์ฌ ๋ฐ์ดํฐ์ D๋ฅผ ์์งํ๊ณ BC (Behavior Cloning)๋ฅผ ์ฌ์ฉํ์ฌ ํ์ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ์ฌ์ ํ์ตํฉ๋๋ค. ๊ทธ ํ DAgger (Dataset Aggregation)๋ฅผ ์ฌ์ฉํ์ฌ ๋คํธ์ํฌ๋ฅผ fine-tuningํฉ๋๋ค.
๋ณด์ ํจ์ (Reward Function):
- ๊ฒฌ๊ณ ํ๊ณ ์ ์ด ๊ฐ๋ฅํ in-hand ํ์ ์ ์ํด ์ฌ๋ฌ ์์์ ๊ฐ์ค ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋ ๋ณด์ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- r_t = c_1r_{rot} + c_2r_{vel} + c_3r_{dist} + c_4r_{torq} + c_5r_{work} + c_6r_{ctrl}
- r_{rot}: ๊ฐ์ฒด์ ํ์ ๊ฐ๋๋ฅผ ๋ณด์ํฉ๋๋ค.
- r_{vel}: ๊ฐ์ฒด์ ์ ํ ์๋๋ฅผ penalizeํ์ฌ ๊ฐ์ฒด๋ฅผ ์ด๋์ํค๋ ์์ง์์ ์ต์ ํฉ๋๋ค.
- r_{dist}: ๊ฐ์ฒด์ ์๊ฐ๋ฝ ๋ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ๋ํ ๊ฐ์ ํจ์์ ๋๋ค.
- r_{torq}: ํฐ torque๋ฅผ penalizeํฉ๋๋ค.
- r_{work}: ์ปจํธ๋กค๋ฌ์ work๋ฅผ penalizeํฉ๋๋ค.
- r_{ctrl}: ๋ช ๋ น ๋ชฉํ์ ์ค์ ๋ก๋ด ๋ชจ์ ๊ฐ์ ์ ์ด ์ค๋ฅ๋ฅผ penalizeํฉ๋๋ค.
- ๊ฐ์ฒด๊ฐ ์์์ ๋จ์ด์ง ๊ฒฝ์ฐ ํฐ penalty๋ฅผ ๋ถ์ฌํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค์ํ ์คํ์ ํตํด Robot Synesthesia์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ณ , ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ด ์ค์ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ด๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ, ๋ณต์กํ double-ball ํ์ ์์ ๊ณผ ์๋ก์ด ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. ๋ํ, PointNet์ ์ค๊ฐ ๋ ์ด์ด๋ฅผ ์๊ฐํํ์ฌ ์ ์๋ ์ด๊ฐ ํํ์ด PointNet์ด action ์์ธก์ ์ค์ํ fingertip, ๊ฐ์ฒด ํ๋ฉด, ์ด๊ฐ ์ ๊ณผ ๊ฐ์ ์ค์ ์ง์ ์ ์๋ณํ๋ ๋ฐ ๋์์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
2 Detail Review
3 [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing
3.1 ์๊ฐ ๋ฐ ๋ฐฐ๊ฒฝ
ํ๋ ๋ก๋ด ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์๋ด ์กฐ์(in-hand manipulation) ๊ณผ์ ์์๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ๊ฒฐํฉ์ด ํ์์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์ด ๋ฐ๋์ ์ค์ ๋ผ์ธ ๋, ๋จผ์ ์๊ฐ ์ ๋ณด๋ก ๋ฐ๋ ๊ตฌ๋ฉ ์์น๋ฅผ ์ฐพ๊ณ ์ค์ ๋ฐฉํฅ์ ๋ง์ถ์ง๋ง, ๋ง์ ์ค์ ๋ผ์ฐ๋ ์๊ฐ์๋ ์ด๊ฐ ์ ๋ณด๋ก ๋ณด์ด์ง ์๋ ์ค ๋ ์์น๋ฅผ ๊ฐ์งํ์ฌ ์๋ดํฉ๋๋ค. ์ด์ฒ๋ผ ์ฌ๋์ ์๊ฐ๊ณผ ์ด๊ฐ์ ์์ฐ์ค๋ฝ๊ฒ ํตํฉํ์ฌ ๋ณต์กํ ์์ ์ ์ํํ์ง๋ง, ๋ก๋ด์๊ฒ ๋์ผํ ์์ค์ ์๋์ง(synergy)๋ฅผ ๊ตฌํํ๋ ๊ฒ์ ํฐ ๋์ ์ ๋๋ค. ๊ธฐ์กด ๋ก๋ด ์ฐ๊ตฌ์์๋ ์๊ฐ ์ผ์(์: ์นด๋ฉ๋ผ)์ ์ด๊ฐ ์ผ์(์: ์๋ ฅ ์ผ์)์ ๋ฐ์ดํฐ ํํ ์ฐจ์ด ๋๋ฌธ์ ๋ ๊ฐ๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์๊ฐ ๋ฐ์ดํฐ๋ ๊ณ ํด์๋์ ํ๋ถํ ํ๊ฒฝ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ๋ฐ๋ฉด, ์ด๊ฐ ๋ฐ์ดํฐ๋ ๊ตญ์ ๋ถ์์ ํฌ์ํ ์ ์ด์ ๋ณด๋ง์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ํ๋์ neural network์ ๋ ์ข ๋ฅ์ ์ ๋ ฅ์ ํจ๊ป ํ์ต์ํค๊ธฐ๊ฐ ๋งค์ฐ ๊น๋ค๋กญ์ต๋๋ค. ๋ํ ๋ณต์กํ ์๋ด ์กฐ์ ์ ์ฑ ์ ํ์ตํ๋ ค๋ฉด ๋ฐฉ๋ํ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฐ, ์ด๋ฅผ ์๋ฎฌ๋ ์ด์ ์ผ๋ก๋ถํฐ ์ป์ด ํ์ตํ ํ ์ค์ ๋ก๋ด์ ์ด์(sim-to-real) ํ๋ ๊ณผ์ ์์๋ ์๊ฐ๊ณผ ์ด๊ฐ ๊ฐ๊ฐ์ ๋๋ฉ์ธ ์ฐจ์ด(domain gap)๋ฅผ ๋์์ ๊ทน๋ณตํด์ผ ํ๋ ์ด๋ ค์์ด ์กด์ฌํฉ๋๋ค. ์ด๋ฌํ ์ด์ ๋ก ๊ณผ๊ฑฐ์๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ๋ฐ๋ก ์ฒ๋ฆฌํ ํ ๋์ค์ ๊ฒฐํฉํ๊ฑฐ๋, ์์ ํ ๊ฐ์ง ๊ฐ๊ฐ์ ์์กดํ๋ ๋ฑ ์ ํ์ ์ธ ์ ๊ทผ์ด ๋ง์์ต๋๋ค.
์ด ๋ ผ๋ฌธ โRobot Synesthesia: In-Hand Manipulation with Visuotactile Sensingโ์ ์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ ์ ์๋ ์ฐ๊ตฌ๋ก, ์๊ฐ-์ด๊ฐ ๋์ ํตํฉ์ ํตํด ๋ก๋ด ์๋ด ์กฐ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ์ ํฉ๋๋ค. ํนํ ์ธ๊ฐ์ ๊ณต๊ฐ๊ฐ(synesthesia) ๊ฐ๋ ์ ์ฐฉ์ํ์ฌ, ์ด๊ฐ ์ ํธ๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ง์น ํ๋์ ๊ฐ๊ฐ์ฒ๋ผ ํํํ๋ ์๋ก์ด ํํ ๋ฐฉ๋ฒ์ ์ ๋ณด์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ๋ก๋ด ๊ณต๊ฐ๊ฐ(Robot Synesthesia)์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ๋ก๋ด์ด ์์ ์ ์ด๊ฐ์ ๋์ผ๋ก ๋ณด๋ฏ์ด ์ธ์ํ๊ฒ ๋ง๋๋ ๊ฒ์ด ํต์ฌ ์์ด๋์ด์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํตํด ์ด๊ฐ๊ณผ ์๊ฐ ์ ๋ณด๋ฅผ ๋ณธ์ง์ ์ผ๋ก ํ๋์ ํตํฉ๋ ํํ๋ก ์ทจ๊ธํจ์ผ๋ก์จ, ๋ ๊ฐ๊ฐ ๊ฐ์ ๊ด๊ณ ํ์ต์ ์ฉ์ดํ๊ฒ ํ๊ณ ์๋ฎฌ๋ ์ด์ ์์ ์ค์ ๋ก ์ง์ ์ด์ ์ ๋ฐ์ํ๋ ์ค๋ฅ๋ฅผ ์ค์ด๋ ํจ๊ณผ๋ฅผ ์ป์ต๋๋ค. ๋ํ ๋ณ๋์ ์ค์ ๋ฐ์ดํฐ ์์ง ์์ด ์๋ฎฌ๋ ์ด์ ํ์ต๋ง์ผ๋ก ์ค์ ๋ก๋ด ์๋ด ์กฐ์์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ค๋ ์ ์์ ์ค์ฉ์ ์ธ ์์๋ ์์ต๋๋ค. ๋ณธ ํฌ์คํธ์์๋ ํด๋น ๋ ผ๋ฌธ์ ๋๊ธฐ์ ๋ฐฐ๊ฒฝ, ์ ์๋ ๋ฐฉ๋ฒ๋ก , ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ๊ทธ์ ๋ํ ๋ ผ์ ๋ฐ ์์ฌ์ ์ ์์ฌ ์์ค์ ๊ธฐ์ ์ ๊น์ด๋ก ์ ๋ฆฌํฉ๋๋ค.
Figure 1: Robot Synesthesia ๊ฐ๋ ๋ฐ๋ชจ. (์ข) ์๋ฎฌ๋ ์ด์ ํ์ต ๋จ๊ณ: Allegro ๋ก๋ด ์์ด ์ธ๊ณต ๋ฌผ์ฒด๋ค์ ๋ค์ํ ์ถ์ผ๋ก ํ์ ์ํค๋ฉฐ ํ๋ จ๋๊ณ ์์ผ๋ฉฐ, ๋ถ์ ์ ์ผ๋ก ์ด๊ฐ ์ผ์ ์ ์ด ์ง์ ์ ๋ํ๋ธ๋ค. (์ฐ) ํ์ต๋ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ ์ฉํ ๊ฒฐ๊ณผ: ํ -๋ ์น(์ ์ด), ๋์ผํ ๋ ๊ณต(๊ฐ์ด๋ฐ ์ด), ๋ณต์กํ ํ์์ ๋ฌผ์ฒด๋ค(์๋ ์ด)์ ์ ๋ด์์ ํ์ ์ํค๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค. ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด ์์ ๋ณ๋ ์ถ๊ฐํ์ต ์์ด ์ด์ํ์์ ๊ฐ์กฐํ๋ค.
3.2 ๋ฐฉ๋ฒ๋ก (Methodology)
3.2.1 1. ์๊ฐ-์ด๊ฐ ๊ณต๊ฐ๊ฐ ํํ โ Visuotactile Synesthesia Representation
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ ์ค ํ๋๋ ์๊ฐ๊ณผ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๊ณตํต ํํ(common representation)์ผ๋ก ํฉ์น๋ Visuotactile Synesthesia ๊ธฐ๋ฒ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ก๋ด์ ์ด๊ฐ ์ผ์๋ ์ฌ๋ฌ ์ง์ ์ ๋ถ์ฐฉ๋์ด ๊ฐ ์ง์ ์ ์ด์ง ์ ์ด ์ฌ๋ถ ๋๋ ์๋ ฅ์ ์ถ๋ ฅํฉ๋๋ค. ์ ์๋ค์ ์ด๋ฌํ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋ก๋ด ์์ 3์ฐจ์ ๊ณต๊ฐ ์์ ์ ๊ตฐ(point cloud)์ผ๋ก ํฌ์ํจ์ผ๋ก์จ ๋ง์น ์๊ฐ์ ์ธ ํํ๋ก ํํํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ก๋ด ์๋ฐ๋ฅ๊ณผ ์๊ฐ๋ฝ ๋ง๋ ๋ฑ์ ์ฅ์ฐฉ๋ FSR(Force Sensing Resistor) ์๋ ฅ ์ผ์ 16๊ฐ๋ก๋ถํฐ ์ ์ด์ ์ธก์ ํ๊ณ , ์ ์ด์ด ๋ฐ์ํ ์ผ์ ์์น์ ๋ก๋ด ์ ๋ฉ์ฌ ํ๋ฉด ์์ ์ ๋ค์ ์ํ๋งํ์ฌ ์ด๊ฐ ์ ๊ตฐ์ ์์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ์ด๊ฐ ์ ๊ตฐ์ ํด๋น ์๊ฐ ๋ก๋ด ์์ด ์ด๋์ ๋ฌผ์ฒด๋ฅผ ๋ง์ง๊ณ ์๋์ง 3D ์ขํ์์ ํ์ํด์ฃผ๋ ์ญํ ์ ํฉ๋๋ค. ๋์์ ๋ก๋ด ์ ์์ ์ค์น๋ ๊น์ด ์นด๋ฉ๋ผ(depth camera) (Microsoft Azure Kinect)๋ฅผ ํตํด ๋ฌผ์ฒด์ ์ ์ฃผ๋ณ์ ํ๊ฒฝ ์ ๊ตฐ์ ์ป์ต๋๋ค. ์ด ์นด๋ฉ๋ผ๋ก๋ถํฐ ์ป์ ์๊ฐ ์ ๊ตฐ์ ๋ฌผ์ฒด์ ๊ฒ๋ชจ์ต๊ณผ ์์น๋ฅผ ์๋ ค์ฃผ๋ฉฐ, ์ถ๊ฐ๋ก ๋ก๋ด์ ํ์ฌ ๊ด์ ๊ฐ ๋ฑ ์๊ธฐ์ผ์(proprioception) ์ ๋ณด๋ฅผ ์ด์ฉํด ๋ก๋ด ์ ์์ฒด์ 3D ๋ฉ์ฌ ํ๋ฉด์์๋ ์ผ๋ถ ์ ๋ค์ ์ํ๋งํ ์ฆ๊ฐ ์ ๊ตฐ(augmented point cloud)๋ ์์ฑํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ก๋ด ์์ ํ์ฌ ํํ์ ๋ฌผ์ฒด์ ์๋์ ์์น ๊ด๊ณ๊น์ง ๊ณต๊ฐ์ ์ผ๋ก ํํํ ์ ์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ์นด๋ฉ๋ผ ์ ๊ตฐ, ๋ก๋ด ์ ์ฆ๊ฐ ์ ๊ตฐ, ์ด๊ฐ ์ ๊ตฐ์ ๋ชจ๋ ํ๋์ ํฉ์ณ์ง ์ ๊ตฐ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋คํธ์ํฌ์ ์ ๋ ฅํฉ๋๋ค. ์ด๋ ๊ฐ ์ ์ด ์ด๋ค ์ถ์ฒ(์นด๋ฉ๋ผ, ๋ก๋ด, ์ด๊ฐ)์์ ์จ ๊ฒ์ธ์ง ๊ตฌ๋ถํ ์ ์๋๋ก ์ ๋ง๋ค ์-ํซ(one-hot) ๋ฒกํฐ ํน์ง์ ์ถ๊ฐํ์ฌ ๊ตฌ๋ณ๋๊ฒ ํ์ํฉ๋๋ค. ์ด๋ฌํ 3์ฐจ์ ๊ณต๊ฐ ํตํฉ ํํ ๋๋ถ์, ๋ก๋ด์ ๋ง์น ์์ ์ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋์ผ๋ก ๋ณด๋ฏ์ด ์ ์ฒด์ ์ธ ์ํ๋ฅผ ์ธ์ํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ ์๋ค์ ์ด์ฒ๋ผ ์ด๊ฐ์ ์๊ฐํํ๋ ํตํฉ ๊ฐ๊ฐ ๋ฐฉ์์ โ๋ก๋ด ๊ณต๊ฐ๊ฐ(Robot Synesthesia)โ์ด๋ผ๊ณ ๋ช ๋ช ํ์์ต๋๋ค.
์ด ์ ๊ทผ๋ฒ์ ์ฅ์ ์ ๋ ๊ฐ์ง์ ๋๋ค. ์ฒซ์งธ, ์ด๊ธฐ์ ๋ ๊ฐ๊ฐ์ ์์ฐ์ค๋ฝ๊ฒ ์ตํฉ๋ ํํ๋ก ์ ๋ ฅ๋ฐ๊ธฐ ๋๋ฌธ์, ๋ณ๋์ late-fusion (๋์ค ๋จ๊ณ์์ ํน์ง ๊ฒฐํฉ) ์์ด ํ์ต ๋จ๊ณ๋ถํฐ ๋คํธ์ํฌ๊ฐ ์๊ฐ-์ด๊ฐ ๊ฐ ์ํธ๊ด๊ณ๋ฅผ ์ฝ๊ฒ ํ์ตํฉ๋๋ค. ์ด๋ ๋จ์ํ โ์ด๋ฏธ์ง ํน์ง + ์ด๊ฐ ๊ฐโ ์์ผ๋ก ๋ฒกํฐ๋ฅผ ์ด์ ๋ ๋ฐ์ํ๋ ํ์ต์์ ๋ชจํธ์ฑ์ ์ค์ฌ ์ค๋๋ค. ๋์งธ, ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ๋ชจ๋ธ์ ์ค์ ๋ก ์ฎ๊ธธ ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ๋๋ฉ์ธ ์ฐจ์ด๊ฐ ๋์ ๋์ด ์ค๋ฅ๊ฐ ์ปค์ง๋ ๋ฌธ์ ๋ฅผ ์ํํฉ๋๋ค. ์ฆ, ์ด๊ฐ๊ณผ ์๊ฐ์ ๋ณ๊ฐ๋ก ๋ค๋ฃจ๋ฉด ์๋ฎฌ๋ ์ดํฐ์ ์ด๊ฐ ๋ชจ๋ธ ์ค์ฐจ์ ์๋ฎฌ๋ ์ดํฐ์ ๋ ๋๋ง ์ค์ฐจ๊ฐ ๊ฐ๊ฐ ์กด์ฌํ์ฌ ์ค์ ์ ๊ดด๋ฆฌ๊ฐ ์๊ธฐ๋๋ฐ, ๋ ๊ฐ๊ฐ์ ํ๋๋ก ์ผ์ฒดํ๋ ํํ๋ก ๋ค๋ฃจ๋ฉด ์ด๋ฌํ ์ค์ฐจ๋ค์ด ์ด๋ ์ ๋ ์์๋์ด sim-to-real ๊ฐ๊ฒฉ์ด ์ค์ด๋๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ RGB ์นด๋ฉ๋ผ ์์ ๋์ ๊น์ด ์นด๋ฉ๋ผ์ ์ ๊ตฐ ๋ฐ์ดํฐ๋ฅผ ์๊ฐ ์ ๋ ฅ์ผ๋ก ์ ํํ๋๋ฐ, ์ด๋ ์๋ฎฌ๋ ์ด์ ์์์ ์ ๊ตฐ๊ณผ ์ค์ ์์์ ์ ๊ตฐ ๋ชจ์์ด ๋งค์ฐ ์ ์ฌํ์ฌ ๋๋ฉ์ธ ๊ฐญ์ด ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ์๋ฎฌ๋ ์ดํฐ ์์ ๋ก๋ด-๋ฌผ์ฒด ์ฅ๋ฉด์ ๊น์ด ์นด๋ฉ๋ผ๋ก ์ฐ์ด ์ป์ ์ ๊ตฐ๊ณผ ์ค์ ๋ก๋ด์์ ๋์ผํ ๋์์ ํ์ ๋ ์ป์ ์ ๊ตฐ์ ํํ์ ์ผ๋ก ๊ฑฐ์ ์ผ์นํ์ง๋ง, RGB ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์๋ฎฌ๋ ์ดํฐ์ ์ค์ ๊ฐ ๊ฒฉ์ฐจ๊ฐ ํฝ๋๋ค. ์ด๋ฌํ ์ด์ ๋ก point cloud ๊ธฐ๋ฐ ์๊ฐ ์ ๋ณด๋ฅผ ์ ํํจ์ผ๋ก์จ ๋์ฑ ์ํํ ์ง์ ์ด์ ์ ๋๋ชจํ์ต๋๋ค.
Figure 2: ์๋ฎฌ๋ ์ด์ vs ์ค์ ์ ๊ด์ธก ๋น๊ต. (์ข) ์๋ฎฌ๋ ์ดํฐ ๋ด๋ถ์์ ๋ณธ ์ฅ๋ฉด(RGB ์์)๊ณผ ๊ทธ๋ก๋ถํฐ ์ป์ ๋ฌผ์ฒด+์ ์ ๊ตฐ. (์ฐ) ์ค์ ๋ก๋ด์์ ๋์ผํ ๋์์ ์คํํ ๋์ RGB ์นด๋ฉ๋ผ ์์๊ณผ ๊น์ด ์นด๋ฉ๋ผ ์ ๊ตฐ. RGB ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์๋ฎฌ๋ ์ดํฐ(์ผ์ชฝ ์ฌ์ง)์ ์ค์ (์ค๋ฅธ์ชฝ ์ฌ์ง) ๋ฐฐ๊ฒฝ ๋ฑ์ด ํ์ฐํ ๋ค๋ฅด์ง๋ง, ์ ๊ตฐ ํํ๋ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๊ฐ ๊ฑฐ์ ์ผ์นํจ์ ์ ์ ์๋ค. ์ ๊ตฐ ๊ธฐ๋ฐ ๊ด์ธก์ ํ์ฉํ๋ฉด ์๋ฎฌ๋ ์ด์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ์ค์ ์ ์ฎ๊ธธ ๋ ์ด๋ฌํ ์ฐจ์ด๋ฅผ ์ต์ํํ ์ ์๋ค.
3.2.2 2. ํ์ต ๊ตฌ์กฐ ๋ฐ ๋คํธ์ํฌ ๊ตฌ์ฑ
๋ก๋ด ๊ณต๊ฐ๊ฐ ํํ์ ํตํด ์๊ฐ-์ด๊ฐ ํตํฉ ๋ฐ์ดํฐ๋ฅผ ์ป์๋ค๋ฉด, ์ด๋ฅผ ํ์ฉํด ๊ฐํํ์ต(Reinforcement Learning, RL)์ผ๋ก ์๋ด ์กฐ์ ์ ์ฑ ์ ํ์ตํด์ผ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ ๊ตฐ ํํ์ ๊ณ ์ฐจ์ ๊ด์ธก์ ์ง์ ์ฌ์ฉํ์ฌ RL์ ์ํํ๋ฉด ํ์ต์ด ๋งค์ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ค์ ๊ต์ฌ-ํ์ ํ์ต(teacher-student training) ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ต๋๋ค. ์ด๋ โํฌ๋ก์ค ์ฐ๋ฐ๋๋จผํธ ํ๋ฆฌํธ๋ ์ด๋(Cross-Embodiment Pretraining)โ์ ์ผ์ข ์ผ๋ก ๋ณผ ์ ์๋๋ฐ, ์ด๊ธฐ์๋ ๊ต์ฌ ์ ์ฑ (teacher policy)์ด ๋ณด๋ค ์ฌ์ด ํํ ๊ณต๊ฐ(easier embodiment)์์ ํ์ต๋๊ณ , ์ดํ ์ด๋ฅผ ํ์ ์ ์ฑ (student policy)์ด ์ค์ ์ฌ์ฉํ ์ผ์ ๊ตฌ์ฑ(actual embodiment)์ผ๋ก ๋ชจ์ฌํ๋๋ก ํจ์ผ๋ก์จ ๋ ๋ค๋ฅธ ํ๊ฒฝ ๊ฐ ์ง์์ ์ด์ ํฉ๋๋ค.
๋จผ์ ๊ต์ฌ ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ๋น๊ต์ ์ ๊ทผํ๊ธฐ ์ฌ์ด ์ํ ํํ์ ์ฌ์ฉํ์ฌ ํ์ต๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๊ต์ฌ ์ ์ฑ ์ ๋ก๋ด์ ๊ด์ ์ํ(proprioception), ๊ฐ FSR ์ด๊ฐ ์ผ์์ ์ด์ง ์ ์ด ์ฌ๋ถ, ๋ฌผ์ฒด์ ์ ํํ ํฌ์ฆ(pose)์ ํ์ ์๋ฒ ๋ฉ(shape feature) ์ ๋ณด๋ฅผ ๋ชจ๋ ๊ด์ธก์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ์ฆ, ์๋ฎฌ๋ ์ดํฐ์ด๊ธฐ์ ๊ฐ๋ฅํ ๋ฌผ์ฒด์ ์์น์ ๋ชจ์์ ๋ํ ์์ ํ ์ ๋ณด๊น์ง ํฌํจํ์ฌ RL๋ก ์ต์ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋์ ์ฐจ์์ ์ด๋ฏธ์ง๋ ์ ๊ตฐ์ ์ง์ ๋ค๋ฃจ์ง ์์๋ ๋๋ฏ๋ก ํ์ต ๋์ด๋๊ฐ ๋ฎ์์ง๊ณ , ๋น๊ต์ ์ ์ ์ํ๋ก๋ ์ข์ ์ ์ฑ ์ ์ป์ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ต์ฌ ์ ์ฑ ์ PPO ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํ๋ จํ์๊ณ , actor-critic ๊ตฌ์กฐ์ MLP (Multi-Layer Perceptron) ๋คํธ์ํฌ๋ก ์ ์ฑ ํจ์๋ฅผ ํํํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ต์ฌ ์ ์ฑ ์ ์ฃผ์ด์ง ์์ ๋ค์ ๋ํด ์์ ์ ์ธ ์ฑ๋ฅ์ ์ป์์ผ๋ฉฐ, ์ด ๊ต์ฌ๊ฐ ์์ฑํ๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ๋จ๊ณ์ ํ์ฉํฉ๋๋ค.
Figure 3: ๊ต์ฌ-ํ์ ์ ์ฑ ํ์ต ํ์ดํ๋ผ์ธ. (์๋จ) ๊ต์ฌ(Teacher) ์ ์ฑ ์ ๋ก๋ด์ ๊ด์ ์ํ, ์ด์ง ์ด๊ฐ ์ ํธ, ๋ฌผ์ฒด์ ํฌ์ฆ์ ์ฌ์ ์ถ์ถํ ํ์ ํน์ง ๋ฑ์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋ actor-critic ์ ๊ฒฝ๋ง์ด๋ค. ๊ต์ฌ ์ ์ฑ ์ ์๋ฎฌ๋ ์ดํฐ์์ ๊ฐํํ์ต(PPO)์ผ๋ก ํ๋ จ๋๋ฉฐ, ๋น๊ต์ ์ฌ์ด ์ ๋ ฅ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ์ต์ด ์ฉ์ดํ๋ค. (ํ๋จ) ํ๋ จ๋ ๊ต์ฌ ์ ์ฑ ์ผ๋ก๋ถํฐ ํ์(Student) ์ ์ฑ ์ ํ์ต์ํจ๋ค. ํ์ ์ ์ฑ ์ ์ค์ ์ ๋์ผํ ์ผ์ ์ ๋ ฅ(ํ๋กํ๋ฆฌ์ค์ ์ , ์ด์ง ์ด๊ฐ, ์นด๋ฉ๋ผ ์ ๊ตฐ+์ฆ๊ฐ ์ ๊ตฐ+์ด๊ฐ ์ ๊ตฐ ํตํฉ)์ ์ฌ์ฉํ๋ฉฐ, ํตํฉ ์ ๊ตฐ ์ ๋ ฅ์ PointNet ๊ธฐ๋ฐ encoder๋ก ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ถ์ถํ ํ ๋ค๋ฅธ ์ํ ์ ๋ ฅ๊ณผ ๊ฒฐํฉํ์ฌ actor MLP์ ์ ๋ฌ๋๋ค. ๊ต์ฌ ์ ์ฑ ์ ํ๋์ ๋ชจ๋ฐฉํ์ต์ผ๋ก ์ ๋ฌ๋ฐ์ ์ด๊ธฐ ํ์ต์ ํ๊ณ , ์ดํ DAgger ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ง์์ ์ผ๋ก ๊ต์ ํ๋ค. ๋ถ์ ์ ์ค์ ํ์ดํ๋ ๊ต์ฌ ์ ์ฑ ์ ๊ฒฐ์ (action)์ ํ์์ด ๋ชจ์ฌํ๋ ๊ณผ์ ์ ๋ํ๋ธ๋ค.
๋ค์์ผ๋ก ํ์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ด ์ฌ์ฉํ ์๊ฐ-์ด๊ฐ ์ ๊ตฐ ๊ด์ธก์ ์ ๋ ฅ์ผ๋ก ํ์ฌ ํ์ต๋ฉ๋๋ค. ํ์ ์ ์ฑ ์ ์ ๋ ฅ์ ์์์ ์ค๋ช ํ ๋ก๋ด ๊ณต๊ฐ๊ฐ ์ ๊ตฐ(์๊ฐ+์ด๊ฐ ํตํฉ)๊ณผ ๋ก๋ด ๊ด์ ์ํ, ์ด์ ์คํ ์ ๋ช ๋ น ๋ฑ์ ์ ๋ณด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ์ ์ ์ฑ ๋คํธ์ํฌ๋ PointNet ๊ธฐ๋ฐ์ ์ ๊ตฐ encoder๋ฅผ ์ฌ์ฉํ์ฌ ์์ฒ ๊ฐ์ ์ ๋ค์ ์ ์ฐจ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํํ๊ณ , ์ฌ๊ธฐ์ ๋ก๋ด์ ๊ด์ ๊ฐ, ์ ์ด ์ผ์ ์ด์ง๊ฐ ๋ฑ์ ์ถ๊ฐ ์ํ๋ฅผ concatenateํ์ฌ Actor MLP์ ์ ๋ ฅํฉ๋๋ค. (ํ์ ์ ์ฑ ๋จ๊ณ์์๋ ์์ํ RL๋ก ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ, ์ด๋ฏธ ํ์ต๋ ๊ต์ฌ ์ ์ฑ ์ ๋ชจ๋ฐฉํ์ฌ ํ์ตํ๋ฏ๋ก ๋ณ๋์ critic ๋คํธ์ํฌ๋ ๋์ง ์์์ต๋๋ค.)
ํ์ ์ ์ฑ ์ ํ์ต์ ๋ชจ๋ฐฉ ํ์ต(Imitation Learning) ๊ธฐ๋ฒ์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค. ๋จผ์ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ต๋ ๊ต์ฌ ์ ์ฑ ์ ์ด์ฉํ์ฌ ๋๋์ ์ํ-ํ๋ ๋ฐ์ดํฐ์ D๋ฅผ ์์งํฉ๋๋ค (๋ ผ๋ฌธ์์๋ ์ด 512๋ง transition์ ๊ต์ฌ๋ก๋ถํฐ ๋ชจ์์ต๋๋ค). ๊ทธ๋ฐ ๋ค์ ์ด ๋ฐ์ดํฐ๋ก ํ์ ์ ์ฑ ์ Behavior Cloning (BC), ์ฆ ํ๋ ๋ณต์ ํ์ต์ผ๋ก ์ฌ์ ํ์ต์ํต๋๋ค. ์ด๋ ๊ฒ 1๋จ๊ณ๋ก ์ด๊ธฐ ํ์ ์ ์ฑ ์ ์ป์ ํ, 2๋จ๊ณ๋ก๋ DAgger (Dataset Aggregation) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ํ์ ์ ์ฑ ์ ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค. DAgger ๋จ๊ณ์์๋ ํ์ฌ ํ์ ์ ์ฑ ์ด ์ํํ๋ค๊ฐ ์คํจํ ๋ ๊ต์ฌ ์ ์ฑ ์ผ๋ก๋ถํฐ ์ ๋ต ํ๋์ ๋ค์ ๋ฐ์์ ๋ฐ์ดํฐ์ ์ถ๊ฐํ๊ณ ํ์์ ์ ๋ฐ์ดํธํจ์ผ๋ก์จ, ํ์ ์ ์ฑ ์ด ์์ ์ ์ค์์ ๋ํด ๊ต์ ํ์ต์ ํ ์ ์๊ฒ ํฉ๋๋ค. ์ด๋ฌํ 2๋จ๊ณ distillation(์ง์ ์ฆ๋ฅ) ๊ณผ์ ์ผ๋ก ์ต์ข ์๊ฐ-์ด๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ด ์์ฑ๋ฉ๋๋ค. ์ ๋ฆฌํ๋ฉด, ๊ต์ฌ-ํ์ ํ์ดํ๋ผ์ธ์ ํตํด ๊ณ ์ฐจ์ visuotactile ์ ๋ ฅ ๊ณต๊ฐ์์์ ํ์ต์ ๊ฐ์ ์ ์ผ๋ก ์ํํจ์ผ๋ก์จ ํ์ต ํจ์จ๊ณผ ์ฑ๋ฅ์ ๋์ธ ๊ฒ์ ๋๋ค. ์ด ๋ฐฉ์์ ์๋ก ๋ค๋ฅธ ์ผ์ ๊ตฌ์ฑ(embodiment)์ ์ฐ๊ฒฐํ๋ ์ผ์ข ์ ๊ต์ฐจ ๋ชธ์ฒด ์ฌ์ ํ์ต(cross-embodiment pretraining)์ด๋ผ๊ณ ๋ณผ ์ ์์ผ๋ฉฐ, ์ค์ ๋ก๋ด์์ ํ์ํ ์๊ฐ+์ด๊ฐ ์ ์ฑ ์ ํจ๊ณผ์ ์ผ๋ก ์ป๋ ํต์ฌ ๊ธฐ์ ์ ๋๋ค.
3.3 ๋คํธ์ํฌ ์ ์ถ๋ ฅ ๊ตฌ์กฐ ์์ธ ๋ถ์
์ด ๋ ผ๋ฌธ์์๋ ๊ฐํํ์ต(RL)์ ํตํด ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ ์์์ ์กฐ์ํ๋ ์์ (in-hand manipulation)์ ์ํํฉ๋๋ค. RL์์๋ ์ ๋ ฅ ๊ด์ธก ์ ๋ณด(observation)์ ์ถ๋ ฅ ํ๋(action)์ ์ฐจ์์ ์ ํํ๊ฒ ์ค๊ณํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
3.4 1. Observation์ ๊ตฌ์ฑ ๋ฐ ์ฐจ์ (์ ๋ ฅ)
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ก๋ด ์ ์ฑ ์ observation์ ํฌ๊ฒ ๋ค์์ 4๊ฐ์ง๋ก ๊ตฌ์ฑ๋ฉ๋๋ค :
3.4.1 (1) ์๊ฐ ์ ๊ตฐ (Visual Point Cloud)
- ์ผ์: Azure Kinect RGB-D ์นด๋ฉ๋ผ์ ๊น์ด ๋ฐ์ดํฐ๋ก๋ถํฐ ์ถ์ถ๋ ์ ๊ตฐ.
- ๋ฐ์ดํฐ ํํ: ํ๊ฒฝ(๋ฌผ์ฒด+๋ฐฐ๊ฒฝ)์ ๋ํ๋ด๋ 3D ์ ๊ตฐ ๋ฐ์ดํฐ.
- ์ฐจ์: ์๊ฐ ์ ๊ตฐ์ ๊ฒฝ์ฐ ์ผ๋ฐ์ ์ผ๋ก ์ฝ 300๊ฐ์ ์ ๋ค๋ก ์ํ๋ง๋์ด ์ฌ์ฉ๋ฉ๋๋ค .
- ๊ฐ ์ ์ ํน์ง ๋ฒกํฐ๋ ์ด 6์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- 3D ์ขํ๊ฐ: (x, y, z)
- ์ํซ ์ธ์ฝ๋ฉ (์ถ์ฒ๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด):
[1, 0, 0]
โ ์๊ฐ ์นด๋ฉ๋ผ ์ ๊ตฐ์์ ๋ํ๋.
๋ฐ๋ผ์ ์๊ฐ ์ ๊ตฐ ๋ฐ์ดํฐ์ ์ ์ฒด ์ฐจ์์ ์ฝ (300, 6) ์ ๋๋ก ํํ๋ฉ๋๋ค.
3.4.2 (2) ์ด๊ฐ ์ ๊ตฐ (Tactile Point Cloud)
- ์ผ์: Allegro ๋ก๋ด ํธ๋์ 16๊ฐ์ FSR (Force Sensitive Resistor) ์ด๊ฐ ์ผ์.
- ๋ฐ์ดํฐ ํํ: ์ด์ง ์ด๊ฐ ๊ฐ (์ ์ด ์ฌ๋ถ)์์ ์์ฑํ 3D ์ ๊ตฐ.
๋ก๋ด ์ ๋ฉ์ฌ ํ๋ฉด์์ ์ ์ด์ด ๋ฐ์ํ ์ผ์ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๋ค์ ์ํ๋งํ์ฌ ์์ฑํฉ๋๋ค. - ์ฐจ์: ์ด๊ฐ ์ ๊ตฐ์ ๋ณดํต ์ฝ 80๊ฐ์ ์ ๋ค๋ก ์ํ๋ง๋ฉ๋๋ค .
- ๊ฐ ์ ์ ํน์ง ๋ฒกํฐ ์ญ์ 6์ฐจ์:
- 3D ์ขํ๊ฐ: (x, y, z)
- ์ํซ ์ธ์ฝ๋ฉ:
[0, 1, 0]
โ ์ด๊ฐ ์ ๊ตฐ์์ ๋ํ๋.
๋ฐ๋ผ์ ์ด๊ฐ ์ ๊ตฐ์ ์ ์ฒด ์ฐจ์์ ์ฝ (80, 6)์ด ๋ฉ๋๋ค.
3.4.3 (3) ๋ก๋ด ์ ์ฆ๊ฐ ์ ๊ตฐ (Augmented Robot Hand Point Cloud)
- ์ผ์: ๋ก๋ด์ ํ์ฌ ๊ด์ ์ํ๋ก๋ถํฐ ์์ฑ๋ ๋ก๋ด ์์ ์์ฒด ํํ๋ฅผ ๋ํ๋ด๋ ์ ๊ตฐ.
- ๋ฐ์ดํฐ ํํ: ๋ก๋ด ์ ์์ฒด์ ๋ฉ์ฌ ๋ชจ๋ธ์์ ์ํ๋ง๋ ์ ๊ตฐ.
- ์ฐจ์: ์ด ์ญ์ ์ฝ 80๊ฐ์ ์ ๋ค๋ก ์ํ๋ง .
- ๊ฐ ์ ์ ํน์ง ๋ฒกํฐ๋ ์ญ์ 6์ฐจ์์ผ๋ก ๊ตฌ์ฑ:
- 3D ์ขํ๊ฐ: (x, y, z)
- ์ํซ ์ธ์ฝ๋ฉ:
[0, 0, 1]
โ ๋ก๋ด ์ ์ ๊ตฐ์์ ๋ํ๋.
๋ฐ๋ผ์ ๋ก๋ด ์ ์ฆ๊ฐ ์ ๊ตฐ์ ์ ์ฒด ์ฐจ์์ (80, 6)์ ๋๋ค.
3.4.4 (4) ์ถ๊ฐ ์ํ ์ ๋ณด (Additional State Vector)
์ ๊ตฐ ์ธ์ ๋ณ๋๋ก ์ ๊ณต๋๋ ๋ก๋ด ๊ด์ ๊ณผ ์ด์ ์ก์ ์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ ์ถ๊ฐ ์ํ ๋ฒกํฐ:
- Proprioception (๋ก๋ด ์๊ธฐ ๊ฐ๊ฐ):
- ๋ก๋ด ์์ ๊ด์ ๊ฐ: Allegro ํธ๋๋ 16๊ฐ์ ์์ ๋๋ฅผ ๊ฐ์ง๋๋ค. ๊ฐ ๊ด์ ์ ์์น๋ฅผ ๋ํ๋ด๋ 16์ฐจ์ ๋ฒกํฐ ์ฌ์ฉ .
- ์์ ๊ด์ ๊ฐ์๋๋ ํฌํจ๋์ง ์๊ณ ์์น๋ง ํฌํจ๋์์ต๋๋ค .
- Binary Tactile Vector:
- 16๊ฐ์ ์ด๊ฐ ์ผ์์์ ์ค๋ ์ด์ง ์ ์ด ์ฌ๋ถ: 16์ฐจ์ ๋ฒกํฐ .
- ์ด์ ํ๋(previous action):
- ์ด์ ํ๋ ์ ๋ณด๋ฅผ ๋คํธ์ํฌ๊ฐ ์ฐธ์กฐํ ์ ์๋๋ก ์ ๊ณต๋๋ฉฐ, ์ด๋ ์ญ์ Allegro ํธ๋์ 16๊ฐ ๊ด์ ๊ฐ๋์ ๋ชฉํ ์์น๋ก ํํ๋ 16์ฐจ์ ๋ฒกํฐ .
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ถ๊ฐ ์ํ ์ ๋ณด๋:
- ๊ด์ ์์น (16) + ์ด์ง ์ด๊ฐ ์ ํธ (16) + ์ด์ ํ๋ (16)
โ ์ด 48์ฐจ์์ ๋ฒกํฐ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
3.4.5 Observation ์ต์ข ์ ๋ฆฌ:
์ข ํฉํ๋ฉด, ๋คํธ์ํฌ์ ์ ๋ ฅ๋๋ Observation์ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ์ต์ข ์ ๋ฆฌ๋ฉ๋๋ค:
์ ๋ ฅ ์ ๋ณด (Observation) | ์ ๊ฐ์ | ๊ฐ ์ ์ ํน์ง | ์ ์ฒด ์ฐจ์ |
---|---|---|---|
์๊ฐ ์ ๊ตฐ (Visual) | 300 | 6์ฐจ์ | (300, 6) |
์ด๊ฐ ์ ๊ตฐ (Tactile) | 80 | 6์ฐจ์ | (80, 6) |
๋ก๋ด ์ ์ฆ๊ฐ ์ ๊ตฐ (Robot Augmented) | 80 | 6์ฐจ์ | (80, 6) |
์ถ๊ฐ ์ํ ์ ๋ณด (Additional state) | - | - | (48,) |
์ต์ข
Observation Dimension: (460๊ฐ์ ์ , ๊ฐ 6์ฐจ์) + 48์ฐจ์ ์ํ ๋ฒกํฐ
3.5 2. Action์ ๊ตฌ์ฑ ๋ฐ ์ฐจ์ (์ถ๋ ฅ)
๋ณธ ๋ ผ๋ฌธ์ ํ๋(action)์ Allegro ๋ก๋ด ํธ๋์ 16๊ฐ ๊ด์ ์ ๋ชฉํ ๊ฐ๋์ ๋๋ค .
- ์ฐจ์: ํ๋์ ์ฐจ์์ ์ ํํ 16์ฐจ์์ ๋๋ค.
- ๊ฐ ์ก์ ๊ฐ์ ๋ค์ ์คํ ์์ ๋ก๋ด์ ๊ฐ ๊ด์ ์ด ์ด๋ํด์ผ ํ ๋ชฉํ ๊ด์ ๊ฐ๋๋ฅผ ์ง์ ํฉ๋๋ค.
- ์ค์ ๋ก๋ด์์๋ ๋ชฉํ ๊ด์ ๊ฐ๋๋ก ์ด๋ํ๋ ๋ฐฉ์์ผ๋ก ๋ชจํฐ ์ปจํธ๋กค์ด ์ด๋ฃจ์ด์ง๋ฉฐ, ๋งค step๋ง๋ค ์ฝ 10Hz๋ก ์๋ก์ด ์ก์ ์ ์ถ๋ ฅํฉ๋๋ค .
3.5.1 Action ์ต์ข ์ ๋ฆฌ:
์ถ๋ ฅ ํ๋ (Action) | ์ฐจ์ | ๊ฐ์ ์๋ฏธ |
---|---|---|
๋ก๋ด ๊ด์ ๋ชฉํ ๊ฐ๋ | 16 | ๋ก๋ด ํธ๋์ ๊ฐ ๊ด์ ์ ๋ชฉํ ์์น |
3.6 ์์ฝ ์ ๋ฆฌ โ
- Observation:
- ์ ๊ตฐ ์ ๋ ฅ: (์ด 460์ , ๊ฐ 6์ฐจ์)
- ์ถ๊ฐ ์ํ ์ ๋ ฅ: 48์ฐจ์ ๋ฒกํฐ
- ์ ๊ตฐ์ PointNet ๊ธฐ๋ฐ Encoder๋ฅผ ๊ฑฐ์ณ ํ๋์ ์ ์ฐจ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํ๋ ํ, ์ํ ๋ฒกํฐ์ ๊ฒฐํฉ๋ฉ๋๋ค.
- Action:
- 16์ฐจ์ ๋ฒกํฐ: ๊ฐ ๊ฐ์ ๋ก๋ด์ 16๊ฐ ๊ด์ ๋ชฉํ ์์น๋ฅผ ์๋ฏธ.
์์ ๊ฐ์ ์ ํํ Observation ๋ฐ Action ์ฐจ์์ ์ด์ฉํด, ๋คํธ์ํฌ๋ ๋ณต์กํ in-hand manipulation ์์ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋์ Sim-to-Real ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ์ ๋๋ค.
3.7 ์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ
3.7.1 1. ์คํ ํ๊ฒฝ ๋ฐ ์์ ๊ตฌ์ฑ
ํ๊ฒฝ: ์คํ์๋ ์ ๋๋ฒ์ค๋ก๋ด XArm6 ๋ก๋ด ํ ๋์ ์ฅ์ฐฉ๋ ์๋ ๊ทธ๋ก(Allegro) ๋ก๋ด ํธ๋(4๊ฐ์ ์๊ฐ๋ฝ, 16์์ ๋)๊ฐ ์ฌ์ฉ๋์์ต๋๋ค. ๋ก๋ด ์๋ฐ๋ฅ๊ณผ ๋ง๋๋ง๋์๋ 16๊ฐ์ FSR ์ด๊ฐ ์ผ์๊ฐ ๋ถ์ฐฉ๋์ด ์์ผ๋ฉฐ, ์ด๋ ์ ์ด์ ์๋ ๋ก๊ทธ ์๋ ฅ ๊ฐ์ ๋ด์ง๋ง ์ผ์ ์๊ณ๊ฐ ์ด์์ด๋ฉด ์ด์ง ์ ์ด์ผ๋ก ๊ฐ์ฃผํฉ๋๋ค. ์๊ฐ ์ผ์๋ ๋ก๋ด ์ ์์ ํฅํ๋๋ก ๋ฐฐ์น๋ Azure Kinect ๊น์ด ์นด๋ฉ๋ผ๋ก, RGB-D ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ์๊ณ ๋ฆฌ์ฆ์๋ Depth๋ก ์ป์ ์ ๊ตฐ๋ง ์ฌ์ฉํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ NVIDIA IsaacGym์ผ๋ก ๊ตฌํ๋์ด ์ค์ ์ ๋์ผํ ๋ก๋ด ๋ชจ๋ธ๊ณผ ๋ฌผ์ฒด ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ๊น์ด ์นด๋ฉ๋ผ/์ด๊ฐ ์ผ์๋ฅผ ๊ฐ์ถฅ๋๋ค. ์๋ฎฌ๋ ์ดํฐ์์ ์ ์ด ์ผ์๋ ์ค์ ์ ๋์ผํ๊ฒ ๋์ํ๋๋ก ์ด์ง ์ ํธ๋ก ๋ชจ์ฌ๋๋ฉฐ, ์ ์ด ์ฃผ๊ธฐ๋ ์ค์ ์ ๋์ผํ๊ฒ 10 Hz๋ก ์ค์ ๋์์ต๋๋ค. ํ์ต๋ ์ ์ฑ ์ ์ถ๊ฐ ํ์ธํ๋ ์์ด ๊ทธ๋๋ก ์ค์ ๋ก๋ด์ ์ด์ํ์ฌ ๊ฒ์ฆ๋์์ต๋๋ค.
์์ (Task): ๋ ผ๋ฌธ์์๋ ์๋ด ๋ฌผ์ฒด ํ์ ๊ณผ ๊ด๋ จ๋ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ ์์ ์ ์ด์ ์ ๋ง์ถฅ๋๋ค:
(i) Wheel-Wrench Rotation โ ์ญ์ ๋ ์น ํ์ : ์๋์ฐจ ๋ฐํด ๋ ์น์ฒ๋ผ ์ญ์ํ์ผ๋ก ๊ต์ฐจ๋ ๋ง๋๋ฅผ ์์ผ๋ก ์ฅ๊ณ , ํ์ชฝ ๋์ ๋ค ๋๋ฆฌ๋ฉด ๋ค์ ์์ก์ด๋ก ์ฌํ์ง(re-grasp)ํ์ฌ ์ฐ์ ํ์ ํ๋ ๊ณผ์ ์ ๋๋ค. ๋ก๋ด์ ํ์ฌ ์ก์ ์์ก์ด๋ฅผ ๋ค ๋๋ ธ๋ค๋ฉด ์๊ฐ์ ์ผ๋ก ์ ์์ก์ด ์์น๋ฅผ ์ฐพ์ ์ฎ๊ฒจ ์ก์์ผ ํ๋ฉฐ, ๋์์ ์ด๊ฐ์ผ๋ก ๋์น์ง ์๊ณ ํ์ ํ์ ๊ฐํด์ผ ํฉ๋๋ค (). ์ด ์์ ์ ํ ์์ผ๋ก ์ฐ์ ํ์ ํ๊ธฐ์ ๋์ด๋๊ฐ ๋์ผ๋ฉฐ, ์๊ฐ๊ณผ ์ด๊ฐ ๋ ๋ค๊ฐ ํ์์ ์ผ๋ก ์๊ตฌ๋ฉ๋๋ค.
(ii) Double-Ball Rotation โ ์ด์ค ๊ณต ํ์ : ๋์ผํ ํฌ๊ธฐ์ ๊ณต ๋ ๊ฐ๋ฅผ ์์ผ๋ก ๋์์ ์ก๊ณ ์๋ก์ ์ฃผ์๋ฅผ ๋๋๋ก ํ์ ์ํค๋ ์์ ์ ๋๋ค. ๋ ๊ณต์ ๋๊ฐ์ด ์๊ฒผ์ผ๋ฏ๋ก ์๊ฐ์ ์ผ๋ก ๊ตฌ๋ถ์ด ์ด๋ ค์ธ ์ ์์ง๋ง, ์ด๊ฐ๋ง์ผ๋ก๋ ์ด๋ ๊ณต์ด ์ด๋์ ์๋์ง ์๋ณ ๋ถ๊ฐํฉ๋๋ค. ๋ฐ๋ผ์ ๋ ๊ณต์ ์๋์ ์์น๋ฅผ ํ์ ํ๋ ์๊ฐ์ ๋ณด์ ๋ฏธ๋๋ฌ์ง์ง ์๊ฒ ์ก๋ ์ด๊ฐ์ ๋ณด์ ๊ฒฐํฉ์ด ํต์ฌ์ ๋๋ค. ์ด ์์ ์ ์์ผ๋ก ๋ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ํ๊บผ๋ฒ์ ๋ค๋ฃจ์ด์ผ ํ๋ฏ๋ก ๋์ด๋๊ฐ ๋งค์ฐ ๋์ต๋๋ค (๋ก๋ด ์๊ฐ๋ฝ์ ์์ ์์ง์์ผ๋ก๋ ๋ ๊ณต์ ํ์ ์ํค๊ธฐ์ ๋ถ์กฑํ๊ณ , ํฌ๊ฒ ์์ง์ด๋ฉด ๊ณต์ ๋จ์ด๋จ๋ฆด ์ํ์ด ์์ต๋๋ค).
(iii) Three-Axis Rotation โ 3์ถ ํ์ : ๋ฌผ์ฒด๋ฅผ z์ถ๋ฟ ์๋๋ผ ๊ณ ์ ๋ x์ถ ๋๋ y์ถ์ ์ค์ฌ์ผ๋ก๋ ํ์ ์ํค๋ ์ผ๋ฐ์ ์ธ ํ์ ์กฐ์ ์์ ์ ๋๋ค. ์ด ์์ ์ ํตํด ๋ก๋ด ์์ด ํน์ ์ถ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋๋ฆฌ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ํนํ ํ์ต ๋จ๊ณ์์ ๋ณด์ง ๋ชปํ ๋ค์ํ ๋ชจ์์ ๋ฌผ์ฒด๋ค์ ๋ํด์๋ ์ผ๋ฐํํ ์ ์๋์ง ํ ์คํธํฉ๋๋ค. ํ์ต ์์๋ ๋จ์ ๊ธฐํํ ํํ์ ๋ฌผ์ฒด๋ค์ ์ฌ์ฉํ๊ณ , ํ ์คํธ ์์๋ ์ค์ ์ผ์ ๋ฌผ์ฒด๋ค(์: ๋ง์ปคํ, ํ ๋งํ ๋ฑ)์ ์ค์ ์ผ๋ง๋ ๋ชจ์ ๋ณํ์ ๊ฒฌ๊ณ ํ์ง ํ์ธํ์ต๋๋ค.
๊ฐ ์์ ์ ๋ํด ์๋ฎฌ๋ ์ดํฐ์์ ๊ต์ฌ ์ ์ฑ ์ผ๋ก ์ถฉ๋ถํ ํ์ตํ ํ, ์์ ์ค๋ช ํ ๋ชจ๋ฐฉ ํ์ต์ ๊ฑฐ์ณ ํ์ ์ ์ฑ ์ ์ป์์ต๋๋ค. ์ต์ข ์ ์ฑ ๋ค์ ์๋ฌด ์์ ์์ด ์ค์ ๋ก๋ด์ ์ด์ํ์ฌ ํ๊ฐ๋ฅผ ์งํํ์ผ๋ฉฐ, ์ฑ๊ณต์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ํ์ ์ํค๋ ์๊ฐ(Time-to-Fall, TTF)๊ณผ ๋์ ํ์ ๊ฐ๋ ๋๋ ํ์ ํ์(Cumulative Rotation) ๋ฑ์ ์ฃผ์ ์ฑ๋ฅ ์งํ๋ก ์ฌ์ฉํ์ต๋๋ค.
3.7.2 2. ์ฃผ์ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ ๋น๊ต
์๋ฎฌ๋ ์ด์ ๋จ๊ณ ์ฑ๋ฅ: ๋จผ์ ์๋ฎฌ๋ ์ดํฐ ์์์ ๊ต์ฌ/ํ์ ์ ์ฑ ๋ค์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ, ์ ์๋ ์๊ฐ-์ด๊ฐ ๊ณต๊ฐ๊ฐ ์ ์ฑ ์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค ๋๋น ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ์ต ๊ณก์ ์ ๋ณด๋ฉด, Ours (์ ์ ๋ฐฉ์)๊ฐ ๊ฐ์ ์๊ฐ ๋ด Visual RL(์๊ฐ์ ๊ตฐ+์ด๊ฐ์ ์ง์ RL๋ก ํ์ต)๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ๋์ ๋ณด์์ ๋๋ฌํ๊ณ , PS (Partial State)๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ด์ ์ํ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค๋ ์ต์ข ์ฑ๋ฅ์ด ๋์์ต๋๋ค. ์ด๋ ๋ฌผ์ฒด์ ์ ๋ฐํ ์กฐ์์๋ ์ ํํ ๋ฌผ์ฒด ์ํ ์ ๋ณด(๊ต์ฌ๊ฐ ๊ฐ์ง ์์น/๋ชจ์ ์ ๋ณด์ ๋์)๊ฐ ๋งค์ฐ ์ค์ํ๋ฉฐ, ์ฐ๋ฆฌ ๋ฐฉ๋ฒ์ด ๋น๋ก ์ง์ ๋ฌผ์ฒด pose๋ฅผ ์์ง๋ ๋ชปํ์ง๋ง ๊ณต๊ฐ๊ฐ ์ ๊ตฐ์ ํตํด ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ถ๋ก ํ๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์๋ฉ๋๋ค. ๋ํ ๋์ผํ ์กฐ๊ฑด์์ ๋จ์ผ ๋จ๊ณ๋ก RL์ ํ ๊ฒฝ์ฐ(Visual RL ๋ฑ)๋ณด๋ค ๊ต์ฌ-ํ์ 2๋จ๊ณ ํ์ต์ด ํํ ํ์ต ๋ฐ ํ์ ์ธก๋ฉด์์ ์ ๋ฆฌํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ค์ ๋ก๋ด ํ๊ฐ: ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ๊ฒฐ๊ณผ๋ ํ๋ฒ๋ ์ค์ ๋ฐ์ดํฐ๋ก ํ์ตํ์ง ์์ ์ ์ฑ ์ ์ค์ ๋ก๋ด์์ ๋ฐ๋ก ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ์ ์ ๋๋ค. Table 3์ ์์ฝ๋ ์ค์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๋ฉด, ์ ์๋ Touch+Cam+Aug+Syn (์๊ฐ+์ด๊ฐ ๊ณต๊ฐ๊ฐ) ์ ์ฑ ์ด ๋ชจ๋ ์์ ์์ ๋ค๋ฅธ ๋์กฐ๊ตฐ๋ค์ ๋ฅ๊ฐํ์ต๋๋ค. ๋ฐ๋ฉด ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ง ์๋ Non-visual RL์ด๋ Touch-only์ ๊ฐ์ ๋ฐฉ์์ ์ผ๋ถ ๊ฐ๋จํ ๊ฒฝ์ฐ ์ธ์๋ ์ ๋๋ก ๋ฌผ์ฒด๋ฅผ ํ์ ์ํค์ง ๋ชปํ์ต๋๋ค. ๋ํ์ ์ผ๋ก, ํ -๋ ์น ํ์ ์์ ์ ๊ฒฝ์ฐ ๊ณต๊ฐ๊ฐ ์ ์ฑ ์ ํ๊ท 1.54ํ์ ์ ์ํํ ๋ฐ๋ฉด, ์๊ฐ์ ์ฌ์ฉํ์ง ์๋ ์ ์ฑ ๋ค์ 0.25ํ์ ์ ๊ทธ์ณค์ต๋๋ค. ์ด์ค ๊ณต ํ์ ์์๋ ๊ณต๊ฐ๊ฐ ์ ์ฑ ์ด ์ฝ 11.9ํ์ ์ ์ฑ๊ณต์์ผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค(78ํ์ )์ ๋นํด ํ์ฐํ ๋ ๋ง์ด ํ์ ์์ผฐ์ผ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ๋์น๊ธฐ๊น์ง ๋ฒํด ์๊ฐ๋ ์ฝ 17์ด๋ก ํ ๋ฐฉ๋ฒ๋ค(10~11์ด)์ ๋นํด ๊ธธ์์ต๋๋ค. 3์ถ ํ์ ์์ ์ ๊ฒฝ์ฐ์๋ z์ถ ๊ธฐ์ค ํ์ ์์ ๊ณต๊ฐ๊ฐ ์ ์ฑ ์ด ํ๊ท 10.2ํ์ ์ ๋ฌ์ฑํด ๊ฐ์ฅ ์ฐ์ํ์ต๋๋ค. ์ผ๋ถ x์ถ, y์ถ ๊ฒฐ๊ณผ์์๋ ์๊ฐ์ด ์๋ ๋ฐฉ๋ฒ๋ค์ด ๋ฌผ์ฒด๋ฅผ ๊ฑฐ์ ๋๋ฆฌ์ง ๋ชปํ์ง๋ง ์ค๋ ๋ถ์ก๊ณ ์๋ ๋ฐ๋ฉด(๊ฑฐ์ ์์ง์ด์ง ์์ผ๋ฏ๋ก ๋จ์ด๋จ๋ฆด ์ํ๋ ๋ฎ์), ์๊ฐ์ด ์๋ ์ ์ฑ ๋ค์ ๋ฅ๋์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ํ์ ์ํค๋ ค๋ค ๋ณด๋ ๋๋๋ก ๋ ๋นจ๋ฆฌ ๋์น๋ ๊ฒฝ์ฐ๋ ์์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ์ ๋ฐ์ ์ผ๋ก ์๊ฐ+์ด๊ฐ ๊ฒฐํฉ ์ ์ฑ ์ด ํ์ ๊ฐ๋๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์์ ๊ทธ ์ฐ์์ฑ์ด ๋์ฑ ๋๋๋ฌ์ก๋ค๋ ๊ฒ์ด ์ ์๋ค์ ๋ถ์์ ๋๋ค.
ํนํ ์ฌ๋ฏธ์๋ ๊ด์ฐฐ์, ์๊ฐ ์ ๋ณด๊ฐ ์๋ ์ ์ฑ ์ ์คํ ์ค์ ๋ฌผ์ฒด๊ฐ ์ ๋ฐ๋ฅ ์ค์ฌ์์ ๋ฒ์ด๋๋ฉด ์ด๋ฅผ ๊ฐ์งํ๊ณ ๊ต์ ๋์์ ์ทจํ๋ ๋ฐ๋ฉด, ์๊ฐ์ด ์๋ ์ ์ฑ ์ ๋ฌผ์ฒด๊ฐ ์ด๋๋ก ๊ฐ๋์ง ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ํ์ต๋ ๋ฐ๋ณต ํจํด๋๋ก๋ง ์์ง์ฌ๋ฒ๋ ค ๋ฌผ์ฒด๊ฐ ์ด์ํ ์์น์ ๊ฑธ๋ ค๋ ์์ ํ์ง ๋ชปํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ์ฐจ์ด๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ํตํฉ์ด ์ ์ค์ํ์ง๋ฅผ ๋จ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ์๊ฐ์ด ์์ผ๋ฉด ๋ก๋ด์ ๋งค ์๊ฐ ๋ฌผ์ฒด์ ๊ธ๋ก๋ฒ ์์น๋ฅผ ํ์ ํ์ฌ ์ ๋ต์ ๋ฏธ์ธํ๊ฒ ์กฐ์ ํ ์ ์๊ณ , ์ด๊ฐ์ด ์์ผ๋ฉด ๋ก์ปฌ ์ ์ด ์ํ๋ฅผ ๋๋ผ๋ฉด์ ํ ์กฐ์ ์ ํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ ๊ฐ๊ฐ์ ๋ชจ๋ ๊ฐ์ง ์ ์ฑ ์ด ํจ์ฌ ์ ์ฐํ๊ณ ๊ฒฌ๊ณ ํ๊ฒ ๋์ํฉ๋๋ค.
๋ํ No-Synesthesia ๋์กฐ๊ตฐ๊ณผ์ ๋น๊ต๋ฅผ ํตํด, ์ ์๋ ๊ณต๊ฐ๊ฐ ์ ๊ตฐ ํํ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ์ต๋๋ค. No-Synesthesia ์ ์ฑ ์ ์๊ฐ ์ ๊ตฐ๊ณผ ๋ก๋ด ์ฆ๊ฐ ์ ๊ตฐ์ ์ฌ์ฉํ๋ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋จ์ ์ด์ง๊ฐ์ผ๋ก๋ง ์ ๋ ฅํ ๊ฒฝ์ฐ์ธ๋ฐ, ์ด ๊ฒฝ์ฐ ๊ณต๊ฐ๊ฐ ์ ์ฑ ๋๋น ์ฑ๋ฅ์ด ๋จ์ด์ก์ต๋๋ค. ์ด๋ ์ด๊ฐ์ ๊ณต๊ฐ์ ์ผ๋ก ํ์ํ ์ ๊ตฐ ํํ(Synesthesia)์ด ๋จ์ํ ์ด๊ฐ ์ ํธ์ Concatenation๋ณด๋ค ์ค์ ์กฐ์์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํจ์ ์์ฌํฉ๋๋ค. ์์ปจ๋, ์ฐ๋ฆฌ ์ ์ฑ (Ours)์ ๋ชจ๋ ์์ ์์ ๋ค๋ฅธ ๋ฐฉ์์ ๋ฅ๊ฐํ๊ณ , ํนํ ์๋ฎฌ๋ ์ด์ ์์ ๋ฌด๋ฆฌ ์์ด ๋์ํ๋ ์๊ฐ ์ ์ฉ ์ ์ฑ ์ด ์ค์ ๋ก ์ค๋ฉด ์ฑ๋ฅ์ด ์ ํ๋๋ ๋ฐ๋ฉด, ๊ณต๊ฐ๊ฐ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๊ฐ ๊ฒฉ์ฐจ๊ฐ ๋งค์ฐ ์์ ์ค์ ์์๋ ์ฑ๋ฅ์ ์ ์งํ๊ฑฐ๋ ์คํ๋ ค ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ณธ ๋ ผ๋ฌธ์ ๋ชฉํ์๋ ์๊ฐ-์ด๊ฐ ์ตํฉ์ ํตํ ๊ฐ์ธํ Sim2Real ์ฑ๋ฅ์ด ์ ์ฆ๋ ๊ฒฐ๊ณผ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
3.8 ๋ ผ์ ๋ฐ ๋ถ์
์์: Robot Synesthesia๋ ๋ก๋ด์ด ๋ณต์กํ ์ ์ด-rich ์์ ์์ ์๊ฐ๊ณผ ์ด๊ฐ์ ์์ฐ์ค๋ฝ๊ฒ ํตํฉํ ์ ์๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ต๋๋ค. ๊ธฐ์กด์๋ ๋ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ ํํ ์ฐจ์ด๋ก ์ธํด ๋ณํฉ์ด ์ฝ์ง ์์๋ ๋ฌธ์ ๋ฅผ, ์ ๊ตฐ์ด๋ผ๋ ๊ณตํต ํฌ๋งท์ผ๋ก ๋ณํํจ์ผ๋ก์จ ํด๊ฒฐํ ์ ์ด ํนํ ๋๋ณด์ ๋๋ค. ์ด๋ฅผ ํตํด ํ์ต ํจ์จ๊ณผ ์ฑ๋ฅ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก์๋๋ฐ, ๊ต์ฌ-ํ์ ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์ ์ถฉ๋ถํ ํ์ตํ ํ ์ค์ ๋ก ํฌ์ ํจ์ผ๋ก์จ ์ค์ ๋ฐ์ดํฐ ์์ด๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํฅํ ๋ค์ํ ๋ก๋ด manipulation ๋ถ์ผ์ ์์ฉ๋ ์ ์๋ ํฌ๊ด์ ์ธ ์์ด๋์ด๋ก์, ์๋ฅผ ๋ค์ด ๋ค๋ฅธ ํํ์ ์ด๊ฐ ์ผ์๋ ๋ก๋ด ํ๋ซํผ์๋ ์ ์ฉํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ ํ์ต์ ์ฝ๊ฒ ํ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
๊ฐ์ธ์ฑ: ๋ณธ ์ฐ๊ตฌ์ ์ ์ฑ ์ ํ๋ จ์ ์ฌ์ฉํ์ง ์์ ์๋ก์ด ๋ฌผ์ฒด๋ค์๋ ์ด๋ ์ ๋ ์ผ๋ฐํํ์ฌ ๋์ํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ค์ ์คํ์์ ๋๊ทธ๋ ๊ณต์ผ๋ก ํ์ตํ ์ ์ฑ ์ด ํ ๋งํ ๋ ๊ฐ์ ๊ฐ์ ์ ํ ๋ค๋ฅธ ๋ฌผ์ฒด ์์๋ ์ ์ฉ๋์ด ํ์ ์ ์๋ํ๋ ๋ฑ, ๋ชจ์ ๋ณํ์ ๋ํ ๊ฐ์ธ์ฑ์ ํ์ธํ์ต๋๋ค. ์ด๋ ์ ๊ตฐ ํํ ๋๋ถ์ ๋ฌผ์ฒด์ ํํ์ ์ฐจ์ด๋ฅผ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ํ์ตํ๋๋ก ํ ํจ๊ณผ๋ก ํด์๋ฉ๋๋ค. ๋ํ ์๊ฐ ์ ๋ณด์ ๋์ ์ผ๋ก ์ ์ฑ ์ด ๋ณด๋ค ์ํฉ ์ ์์ ์ผ๋ก ๋ณํด, ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง ๋ ์ฌ์กฐ์ ํ๋ ๋ฑ์ ํ๋์ด ๊ด์ฐฐ๋ ์ ๋ ์ ์๋ฏธํฉ๋๋ค. ๋ค๋ง ์ผ๋ถ ๊ฒฝ์ฐ์ ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ด ์ง๋์น๊ฒ ์ ๊ทน์ ์ผ๋ก ์์ง์ด๋ค ๋ณด๋ ๋ฌผ์ฒด๋ฅผ ๋นจ๋ฆฌ ๋จ์ด๋จ๋ฆฌ๋ ํ์๋ ์์๋๋ฐ, ์ด๋ ์์ ์ฑ vs. ๋ฏผ์ฒฉ์ฑ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ค์ ์์ฉ์์๋ ์์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ์๊ฐ/์ด๊ฐ ์ ํธ์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฑ์ด ํ์ํ ์ ์์ต๋๋ค.
ํ๊ณ: ํ์ฌ ์ฌ์ฉ๋ ์ด๊ฐ ์ผ์๋ 16๊ฐ์ FSR๋ก, ์ ์ด ์์น๋ฅผ ์ด์ง์ ์ผ๋ก ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ์ด๊ฐ ํด์๋๊ฐ ๋์ง ์์ต๋๋ค. ๋ณต์กํ ๋ฌผ์ฒด์ ๋ฏธ์ธํ ํ๋ฉด ์ง๊ฐ์ด๋ ๋ฏธ๋๋ฌ์ง ๋ฐฉํฅ๊น์ง ์ธ์งํ๋ ค๋ฉด ์ด๋ณด๋ค ํ๋ถํ ์ด๊ฐ ์ ๋ณด๊ฐ ํ์ํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํ์ ์์ ์ผ๋ก ๊ดํ์ ์ด๊ฐ ์ผ์(optical tactile sensors) ํตํฉ์ ์ ์ํ๊ณ ์๋๋ฐ, ์๋ฅผ ๋ค์ด GelSight์ ๊ฐ์ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ์ผ์๋ฅผ ์ฌ์ฉํ๋ฉด ๊ณ ํด์๋ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ ๊ตฐ ๋ฑ๊ณผ ํจ๊ป ํ์ฉํ๋ ๋ฐฉํฅ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ฐ์ ํ์ ์์ ์ ์ง์คํ์๋๋ฐ, ํฅํ์๋ ํน์ ๋ชฉํ ๊ฐ๋๋ก ๋๋ฆฌ๋ goal-conditioned ํ์ ์ด๋, ํ์ ์ด์ธ์ ์ด๋/์ ๋ ฌ ๋ฑ์ ๋ณตํฉ ์กฐ์์ผ๋ก ํ์ฅํด ๋ณผ ์ฌ์ง๋ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์๊ฐ-์ด๊ฐ ์ด์ธ์ ๋ชจ๋ฌ๋ฆฌํฐ(์: ํ-ํ ํฌ ์ผ์๋ ์ํฅ ์ผ์ ๋ฑ)๋ ํจ๊ป ์ตํฉํ๋ค๋ฉด ๋ก๋ด์ ํ๊ฒฝ์ ๋ํ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๋ฅผ ํ์ธต ๋์ผ ์ ์์ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก : Robot Synesthesia๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ๊ฒฝ๊ณ๋ฅผ ํ๋ฌผ์ด ๋ก๋ด์ด ๋ง์น โ๋ง์ ธ์ ๋ณด๋โ ์๋ก์ด ๋ฐฉ์์ผ๋ก ์ธ์์ ์ธ์ํ๊ฒ ํจ์ผ๋ก์จ, ๋์ด๋ ๋์ ์๋ด ๋ฌผ์ฒด ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ ํฅ๋ฏธ๋ก์ด ์ฐ๊ตฌ์ ๋๋ค. ์ฌ๋์ ๊ฐ๊ฐ ํตํฉ์์ ์๊ฐ์ ์ป์ ์์ด๋์ด๋ฅผ ๊ณตํ์ ์ผ๋ก ๊ตฌํํ์ฌ ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ๋ค๋ ์ ์์ ์์๊ฐ ํฝ๋๋ค. ์๊ฐ-์ด๊ฐ ํตํฉ์ ํฅํ ์ธ๊ฐ๊ณผ ์ํธ์์ฉํ๋ ๋ก๋ด, ์๋น์ค ๋ก๋ด ๋ฑ์์ ํ์์ ์ธ ๋ฅ๋ ฅ์ด ๋ ๊ฒ์ด๋ฏ๋ก, ๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ๋ฒ์ ๊ทธ ์ค์ํ ํ ๊ฑธ์์ ๋ด๋์ ๊ฒ์ผ๋ก ํ๊ฐ๋ฉ๋๋ค. ์์ผ๋ก ๋ ๋ค์ํ ํ๊ฒฝ๊ณผ ๊ณผ์ ์ ์ด ๊ธฐ๋ฒ์ด ์ ์ฉ๋๊ณ ๋ฐ์ ๋์ด, ๋ก๋ด์ด ๋์ฑ ์ฌ๋์ฒ๋ผ ๋ค์ํ ๊ฐ๊ฐ์ ์์ ์์ฌ๋ก ํ์ฉํ๋ ๋ฏธ๋๋ฅผ ๊ธฐ๋ํด ๋ด ๋๋ค.