๐FISH ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- โ FISH๋ 1๋ถ ๋ฏธ๋ง์ ์์ฐ์ผ๋ก ๋ก๋ด์ด ๋ค์ํ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ์๊ฐ์ ๊ธฐ์ ์ ๋น ๋ฅด๊ฒ ๋ชจ๋ฐฉํ๋๋ก ๋๋ ์๋ก์ด Imitation Learning ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
- ๐ค ์ด ๋ฐฉ๋ฒ์ ์คํ๋ผ์ธ์์ ์ฝํ base policy๋ฅผ ํ์ตํ ํ, Optimal Transport (OT) ๊ธฐ๋ฐ์ ์๊ฐ์ ๋งค์นญ ์ ์๋ฅผ ๋ณด์์ผ๋ก ์ฌ์ฉํ์ฌ online residual policy๋ฅผ ํ๋ จํฉ๋๋ค.
- โจ FISH๋ 3๊ฐ์ง ๋ก๋ด ํ๋ซํผ์์ 9๊ฐ์ง ํ์คํฌ๋ฅผ ํตํด ํ๊ท 93%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ ๊ธฐ์กด ์ต์ฒจ๋จ ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๊ณ ์๋ก์ด ๋ฌผ์ฒด ๊ตฌ์ฑ์๋ ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ๋ฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
โTeach a Robot to FISH: Versatile Imitation from One Minute of Demonstrationsโ ๋ ผ๋ฌธ์ ์ ํ๋ ์์ ์์ฐ(์ต์ 1๋ถ ๋ถ๋, 1~3๊ฐ ๊ถค์ )๋ง์ผ๋ก ๋ก๋ด์ด ๋ค์ํ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ์๊ฐ ๊ธฐ๋ฐ ๊ธฐ์ ์ ํ์ตํ ์ ์๋ FISH(Fast Imitation of Skills from Humans)๋ผ๋ ์๋ก์ด ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋ชจ๋ฐฉ ํ์ต(IL)์ ๋ฐฉ๋ํ ์์ ์์ฐ ๋ฐ์ดํฐ๋ ์์์ ์ผ๋ก ์ ์๋ ๋ณด์ ํจ์์ ์์กดํ์ฌ ํ์ฅ์ฑ์ด ๋ถ์กฑํ์ต๋๋ค. FISH๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์จ๋ผ์ธ ์ํธ์์ฉ ํ์ต์ ํตํด ์๋ก์ด ๊ฐ์ฒด ๋ฐฐ์น์๋ ์ ์ํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
FISH๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Phase 1: ๋น๋ชจ์์ ๋ฒ ์ด์ค ์ ์ฑ
(\pi_b) ํ์ต (Non-parametric base policy) ์ด ๋จ๊ณ์์๋ ์์์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ถ์์ ํ ๋ฒ ์ด์ค ์ ์ฑ
\pi_b๋ฅผ ํ์ตํฉ๋๋ค. ์ ์๋ค์ ๋ฐ์ดํฐ๊ฐ ์ ์ ํ๊ฒฝ์์ ๋ฐ์ด๋ ๊ฐ๊ฑด์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋น๋ชจ์์ (non-parametric) ๋ฒ ์ด์ค ์ ์ฑ
์ ์ฌ์ฉํ๋๋ฐ, ์ฌ๊ธฐ์๋ ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) ์ ์ฑ
๊ณผ VINN(Visual Imitation through Nearest Neighbors) [43]์ด ํฌํจ๋ฉ๋๋ค.
- ์๊ฐ์ ํํ ํ์ต (Visual representation learning): ์๊ฐ์ ๊ด์ธก๊ฐ(o)์ ์ ์ฐจ์ ํํ(z)์ผ๋ก ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ํ๋ ๋ณต์ (Behavior Cloning, BC) ์ ์ฑ ์ด ์ ๋ฌธ๊ฐ ์์ฐ์ ํตํด ํ์ต๋๋ฉฐ, ์ด BC ์ ์ฑ ์ ์ธ์ฝ๋(f_{enc})๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ์ธ์ฝ๋ฉ๋ ํํ z๋ ๋ฒ ์ด์ค ์ ์ฑ \pi_b์ ์์ฌ ์ ์ฑ \pi_r ๋ชจ๋์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- Phase 2: ์์ฌ ์คํ์
ํ์ต๊ณผ ์ต์ ์์ก(Optimal Transport, OT) ๊ธฐ๋ฐ ๋ณด์ (Online offset learning with IRL) ๋ฒ ์ด์ค ์ ์ฑ
\pi_b๊ฐ ์ฃผ์ด์ง ์ํ์์, ํ๊ฒฝ ์ํธ์์ฉ์ ํตํด ์์ฌ ์ ์ฑ
\pi_r์ ํ์ตํฉ๋๋ค. ์ด ๋จ๊ณ์ ํต์ฌ์ ๋ช
์์ ์ธ ์์
๋ณด์ ํจ์ ์์ด OT ๊ธฐ๋ฐ ๊ถค์ ๋งค์นญ์ ํตํด ๋ณด์์ ํ๋ํ๋ ๊ฒ์
๋๋ค.
- ์์ฌ ํ์ต (Residual learning): ์ต์ข ์ ์ฑ \pi_{FISH}์ ํ๋ a๋ ๋ฒ ์ด์ค ์ ์ฑ ์ ํ๋ a_b \sim \pi_b(z)์ ์์ฌ ์ ์ฑ ์ ์คํ์ a_r \sim \pi_r(z, a_b)์ ํฉ์ผ๋ก ๊ฒฐ์ ๋ฉ๋๋ค (a = a_b + a_r). ์์ฌ ์ ์ฑ \pi_r์ ์จ๋ผ์ธ ํ์ต ์ค์๋ง ์ ๋ฐ์ดํธ๋๋ฉฐ, ๋ฒ ์ด์ค ์ ์ฑ ์ ๊ณ ์ ๋ ์ํ๋ก ์ฟผ๋ฆฌ๋ฉ๋๋ค.
- OT ๊ธฐ๋ฐ ๋ณด์ ์ต๋ํ (OT-based reward maximization): ๋ก๋ด์ ๊ถค์ (T^b = \{o^b_1, ..., o^b_n\})๊ณผ ์ ๋ฌธ๊ฐ ์์ฐ ๊ถค์ (T^e = \{o^e_1, ..., o^e_n\}) ๊ฐ์ ์๊ฐ์ ์ผ์น๋๋ฅผ ์ธก์ ํ์ฌ ๋ณด์์ ๊ณ์ฐํฉ๋๋ค. ์ด ๋งค์นญ ์ ์๋ OT๋ฅผ ํตํด ์ป์ด์ง๋ฉฐ, ์ด๋ RL ์๊ณ ๋ฆฌ์ฆ์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ต์ ์์ก์ ํ ๋ถํฌ๋ฅผ ๋ค๋ฅธ ๋ถํฌ๋ก ๋ณํํ๋ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ์ฐพ์ผ๋ฉฐ, ์ฌ๊ธฐ์๋ ์ธ์ฝ๋ฉ๋ ์๊ฐ์ ํํ๋ค ์ฌ์ด์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ๋น์ฉ ํจ์๋ก ์ฌ์ฉํฉ๋๋ค. OT๋ ๋ ๊ถค์ ๊ฐ์ ์ต์ ์ ์ ์ก ๊ณํ(\mu^*)์ ๊ณ์ฐํ๋ฉฐ, ์ด๋ฅผ ํตํด ์์ ๋ณ(per-timestep) ๋ณด์์ด ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: r_{OT}(o^b_t) = -\sum_{t'=1}^T C_{t,t'} \mu^*_{t,t'} ์ฌ๊ธฐ์ C_{t,t'}๋ ๋ก๋ด ๊ถค์ ์ t๋ฒ์งธ ๊ด์ธก๊ฐ o^b_t์ ์ ๋ฌธ๊ฐ ๊ถค์ ์ t'๋ฒ์งธ ๊ด์ธก๊ฐ o^e_{t'}์ ์ธ์ฝ๋ฉ๋ ํํ ๊ฐ์ ๋น์ฉ(์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ)์ด๋ฉฐ, \mu^*_{t,t'}๋ ์ต์ ์ ์ ์ก ๊ณํ์ ์์์ ๋๋ค. ์ด ๋ณด์์ ์ต๋ํํ๋ ๊ฒ์ ๋ชจ๋ฐฉ ์์ด์ ํธ๊ฐ ์์ฐ ๊ถค์ ๊ณผ ๋ ์ ์ฌํ ๊ถค์ ์ ์์ฑํ๋๋ก ์ ๋ํฉ๋๋ค.
- ์์ ์ ์ธ OT ๋ณด์์ ์ํ ํํ ํ์ต (Stabilizing OT with representation learning): ํ์ต ์ค ์ธ์ฝ๋๊ฐ ๋ณ๊ฒฝ๋๋ฉด ๋ณด์์ด ๋น์ ์์ ์ผ๋ก ๋ณํ์ฌ ํ์ต์ด ๋ถ์์ ํด์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด, BC ์ฌ์ ํ์ต ๋จ๊ณ์์ ์ป์ ์ธ์ฝ๋๋ ์จ๋ผ์ธ ํ์ต ์ค ๊ณ ์ ๋ฉ๋๋ค.
- ์์ฌ ์ ์ฑ ์ ์ํ ์ ๋๋ ํ์ (Guided exploration for residual policy): ์์ฌ ์ ์ฑ ์ ํ๋ ๊ณต๊ฐ์ ํน์ ๋ถ๋ถ์งํฉ์ ๋ํด์๋ง ์คํ์ ์ ํ์ตํ๋๋ก ์ ํ๋ ์ ์์ต๋๋ค. ์ด๋ ํจ์จ์ ์ธ ์ํ๋ง๊ณผ ๋๋ถ์ด ๋ก๋ด์ด ์์น ์๋ ์ํํ ์์ธ๋ก ์ด๋ํ๋ ๊ฒ์ ๋ฐฉ์งํ์ฌ ์์ ํ ํ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
FISH๋ xArm, Allegro Hand, Hello Robot Stretch ๋ฑ ์ธ ๊ฐ์ง ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์์ 9๊ฐ์ง ๋ค์ํ ํ์คํฌ์ ๋ํด ํ๊ฐ๋์์ผ๋ฉฐ, ํ๊ท ์ฑ๊ณต๋ฅ 93%๋ฅผ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด SOTA ๋ฐฉ๋ฒ๋ก ์ธ ROT ๋ฐ RDAC๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. ํนํ, FISH๋ ์จ๋ผ์ธ ํ์ต์ 20๋ถ ๋ฏธ๋ง์ ์ํธ์์ฉ๋ง์ผ๋ก ์์ฐ์์ ๋ณด์ง ๋ชปํ ๊ฐ์ฒด ๊ตฌ์ฑ์๋ ์ผ๋ฐํ๋๊ณ ์ ์ํ๋ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. ๋ํ, ์์ธํ ์ด๋ธ๋ ์ด์ ์ฐ๊ตฌ๋ฅผ ํตํด ๊ณ ์ ๋ ์ธ์ฝ๋์ ์ค์์ฑ, ์์ฌ ์ ์ฑ ์ ์ ๋๋ ํ์์ ์ด์ , ๊ทธ๋ฆฌ๊ณ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๋น๋ชจ์์ ๋ฒ ์ด์ค ์ ์ฑ ์ ์ฐ์์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
๐ FISH: 1๋ถ์ ์์ฐ๋ง์ผ๋ก ๋ก๋ด์๊ฒ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๋ค RSS 2023 Best Student Paper Award ์์์ ์ฌ์ธต ๋ถ์
์๋ก : ๋ก๋ด ํ์ต์ ๊ทผ๋ณธ์ ๋๋ ๋ง
๋ก๋ด๊ณตํ์์ ๋ชจ๋ฐฉ ํ์ต(Imitation Learning)์ ๋ณต์กํ ๊ธฐ์ ์ ๋ก๋ด์๊ฒ ์ ์ํ๋ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋๊ตฌ ์ค ํ๋๋ก ์๋ฆฌ์ก์์ต๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ์ ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฒ๋ค์ ํ๋์ ๊ทผ๋ณธ์ ์ธ ๋๋ ๋ง์ ์ง๋ฉดํด ์์ต๋๋ค. ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ์ ์ฑ (robust policy)์ ํ์ตํ๋ ค๋ฉด ์๋ฐฑ ๊ฐ์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ฑฐ๋, ์ ๊ตํ๊ฒ ์ค๊ณ๋ ๋ณด์ ํจ์๊ฐ ํ์ํ๋ค๋ ์ ์ ๋๋ค.
MIME์ ํ์คํฌ๋น 400๊ฐ์ ์์ฐ์, robomimic์ 200๊ฐ์ ์์ฐ์ ํ์๋ก ํฉ๋๋ค. ์ด๋ฌํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ํ์ค์ ์ผ๋ก ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ํ ๋ ์คํผ๋ ์ด์ ํ๋ ์์ํฌ์ ํน์ฑ์ ์ธ๊ฐ ์์ฐ์์๊ฒ ์ ์ฒด์ , ์ธ์ง์ ๋ถ๋ด์ด ํฌ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ๊ณผ์ฐ ์๋์ ์์ฐ๋ง์ผ๋ก๋ ํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ๋ก๋ด ๊ธฐ์ ์ ํ์ต์ํฌ ์ ์์๊น์?
๋ณธ ๋ ผ๋ฌธ์์ NYU์ ์ฐ๊ตฌํ์ ์ด ์ง๋ฌธ์ ๋ํ ํ๊ธฐ์ ์ธ ํด๋ต์ ์ ์ํฉ๋๋ค. FISH(Fast Imitation of Skills from Humans)๋ ๋จ 1๋ถ ์ด๋ด์ ์์ฐ(1~3๊ฐ ๊ถค์ )๋ง์ผ๋ก ์๊ฐ ๊ธฐ๋ฐ ๊ธฐ์ ์ ํ์ตํ๊ณ , ์์ฐ์์ ๋ณด์ง ๋ชปํ ์๋ก์ด ๊ฐ์ฒด ๊ตฌ์ฑ์๋ ์ผ๋ฐํํ ์ ์๋ ํ์ ์ ์ธ ๋ชจ๋ฐฉ ํ์ต ํ๋ ์์ํฌ์ ๋๋ค.
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋๊ฐ?
์คํ๋ผ์ธ ๋ชจ๋ฐฉ ํ์ต์ ํ๊ณ
๊ธฐ์กด ๋ชจ๋ฐฉ ํ์ต์ ๋ํ์ ์ธ ํจ๋ฌ๋ค์์ธ ์คํ๋ผ์ธ ๋ชจ๋ฐฉ(Offline Imitation)์ ์ดํด๋ด ์๋ค. Behavior Cloning(BC)์ด๋ Nearest Neighbor(NN) ๊ฒ์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ ์ง๋ ํ์ต ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฃผ์ด์ง ๊ด์ธก์์ ์์ฐ๋ ํ๋์ ์ฐ๋๋ฅผ ์ต๋ํํฉ๋๋ค.
๋ฌธ์ ๋ ๋ฐฐํฌ ์ ๋ค์ํ ํ๊ฒฝ ์์ธ(๊ฐ์ฒด ์์น ๋ฑ)์ ๋ํด ์ ์ฑ ์ด ์ผ๋ฐํ๋๋ ค๋ฉด, ํ์ต์ ์ฌ์ฉ๋ ์์ฐ ๋ฐ์ดํฐ์ ์ด ์ด๋ฌํ ๋ณ๋ ์์ธ๋ค์ ์ถฉ๋ถํ ํฌ๊ดํด์ผ ํ๋ค๋ ์ ์ ๋๋ค. ์ถฉ๋ถํ ์ปค๋ฒ๋ฆฌ์ง ์์ด ํ์ต๋ ์ ์ฑ ์ ๋ฐฐํฌ ์ ๋ถํฌ ์ด๋(distribution shift) ๋ฌธ์ ๋ฅผ ๊ฒช๊ฒ ๋ฉ๋๋ค. ๋ก๋ด์ด ํ์ต ๋ฐ์ดํฐ์์ ๋ณธ ์ ์๋ ์ํฉ์ ์ฒํ๋ฉด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋๋ ๊ฒ์ ๋๋ค.
์จ๋ผ์ธ ๊ฐํํ์ต์ ๋๋ ๋ง
์คํ๋ผ์ธ ๋ชจ๋ฐฉ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์๊ตฌ๋์ ํด๊ฒฐํ๊ธฐ ์ํ ์ ๋งํ ๋ฐฉํฅ์ ์คํ๋ผ์ธ์ผ๋ก ํ์ต๋ ์ ์ฑ ์ ์จ๋ผ์ธ ๊ฐํํ์ต(RL)์ผ๋ก ์ ์์ํค๋ ๊ฒ์ ๋๋ค. ์๋์ ์์ฐ์ผ๋ก ํ์ต๋ ์คํ๋ผ์ธ ์ ์ฑ ์ด ๋ฐฐํฌ ์ ์คํจํ๋๋ผ๋, ์จ๋ผ์ธ RL์ ํตํด ์ ์ฑ ์ ๊ฐ์ ํ๊ณ ๋ฐฐํฌ ์๋๋ฆฌ์ค์ ์ ์์ํฌ ์ ์๋ค๋ ์์ด๋์ด์ ๋๋ค.
๊ทธ๋ฌ๋ ์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ์ง๋ฌธ์ด ๋ฑ์ฅํฉ๋๋ค. ์ ์์ ํ์ํ ๋ณด์์ ์ด๋ป๊ฒ ์ป์ ๊ฒ์ธ๊ฐ?
ํ์คํฌ๋ณ ๋ณด์ ํจ์๋ฅผ ๊ตฌ์ฑํ๋ ๊ฒ์ด ํ๋์ ๊ฐ๋ฅ์ฑ์ด์ง๋ง, ์ด๋ ์ค์ ํ๊ฒฝ์์ ๊ฐ์ฒด ์ํ ์ถ์ ์ด ์ด๋ ต๊ฑฐ๋ ๋ณด์ ํจ์ ์ค๊ณ ์์ฒด๊ฐ ๋ํดํ ๊ฒฝ์ฐ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ฒฐ๊ตญ ํ์ฅ ๊ฐ๋ฅํ๊ณ ๋ฒ์ฉ์ ์ธ ํด๊ฒฐ์ฑ ์ด ํ์ํฉ๋๋ค.
FISH์ ํต์ฌ ์์ด๋์ด: 2๋จ๊ณ ํ์ต ํ๋ ์์ํฌ
FISH๋ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ์ฐ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
Phase 1: ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ (Non-parametric Base Policy) ํ์ต
์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ์๋์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฝํ(weak) ๊ธฐ๋ฐ ์ ์ฑ ์ ์คํ๋ผ์ธ์ผ๋ก ํ์ตํฉ๋๋ค. ์ด ๊ธฐ๋ฐ ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ ์ ์์ง๋ง, ์ดํ ์ ์์ ์ํ ์ ์ฉํ ์ฌ์ ์ง์(prior)์ผ๋ก ์์ฉํฉ๋๋ค.
์ ์๋ค์ด ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ ํํ ์ด์ ๋ ๋ช ํํฉ๋๋ค. ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ด BC์ ๊ฐ์ ๋ชจ์์ ๋์๋ณด๋ค ๋ ๊ฐ๊ฑดํ๋ค๋ ๊ฒ์ด ์ ํ ์ฐ๊ตฌ๋ค์์ ์ ์ฆ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ง ๋ณํ์ ์ฌ์ฉํฉ๋๋ค.
Open-loop Policy: ์์ฐ์ด ํ๋์ผ ๋ ์ฌ์ฉ๋๋ฉฐ, ์ ๋ฌธ๊ฐ๊ฐ ๊ฐ ์๊ฐ ๋จ๊ณ์์ ์ํํ ํ๋์ ๊ทธ๋๋ก ๋ณต์ฌํฉ๋๋ค. ๊ฐ์ฒด์ ๋ก๋ด์ ์์น๊ฐ ์์ฐ๊ณผ ์ ํํ ์ผ์นํ ๋๋ ๊ฐ๊ฑดํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋ณ๋์ด ์์ผ๋ฉด ์ฑ๋ฅ์ด ์ ํ๋ฉ๋๋ค.
VINN (Visual Imitation through Nearest Neighbors): ์์ฐ์ ๊ฐ ์๊ฐ ๊ด์ธก์ ํํ(representation)์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ๋กค์์ ์ k-์ต๊ทผ์ ์ด์(kNN) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ๊ฐ๊น์ด k๊ฐ์ ๊ด์ธก๊ณผ ๋งค์นญํ๊ณ , Locally Weighted Regression(LWR)์ ์ฌ์ฉํ์ฌ ๋งค์นญ๋ ๊ด์ธก๋ค์ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก ํ๋์ ๊ณ์ฐํฉ๋๋ค.
Phase 2: ์์ฐจ ์ ์ฑ (Residual Policy)์ ํตํ ์จ๋ผ์ธ ์คํ์ ํ์ต
๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ๊ธฐ๋ฐ ์ ์ฑ ์์ ์์ฐจ ์ ์ฑ ์ ํ์ตํ์ฌ ๊ต์ ์คํ์ (corrective offsets)์ ์์ฑํฉ๋๋ค. ์จ๋ผ์ธ ์ํ์ฐฉ์ค ํ์ต ๋์ ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ธ๋๋ฐ์ค ๋ชจ๋ธ๋ก ์กฐํ๋๊ณ , ์ค์ง ์์ฐจ ์ ์ฑ ๋ง ์ ๋ฐ์ดํธ๋ฉ๋๋ค.
์ด ์ค๊ณ์ ํต์ฌ์ ์ด์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฒซ์งธ, ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ํ์ฉ ๊ฐ๋ฅ: ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ณ ์ ํ๊ณ ์์ฐจ๋ง ํ์ตํจ์ผ๋ก์จ, ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ์ฐ์ํ๊ณ ๊ฐ๊ฑดํ ๋น๋ชจ์์ ์ ์ฑ ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
๋์งธ, ์์ ์ ์ธ ํ์ต: ๊ธฐ๋ฐ ์ ์ฑ ์์ฒด๋ฅผ ํ์ธํ๋ํ๋ฉด โ๋ง๊ฐ ๋ฌธ์ (forgetting problem)โ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ์์ฐจ ํ์ต์ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ง์์ ๋ณด์กดํ๋ฉด์ ์ ์ํฉ๋๋ค.
์ ์งธ, ์ ๋๋ ํ์(Guided Exploration): ์ ์ฒด ํ๋ ๊ณต๊ฐ ๋์ ํ์ํ ๋ถ๋ถ ๊ณต๊ฐ์์๋ง ์์ฐจ๋ฅผ ํ์ตํ๋๋ก ์ ํํ ์ ์์ด, ํ์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ด ํฅ์๋ฉ๋๋ค.
์ต์ ์ด์ก(Optimal Transport) ๊ธฐ๋ฐ ๋ณด์ ๊ณ์ฐ
FISH์ ๋ ๋ค๋ฅธ ํต์ฌ ํ์ ์ ํ์คํฌ๋ณ ๋ณด์ ํจ์ ์์ด ์๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ณด์์ ์ถ๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ฅผ ์ํด ์ต์ ์ด์ก(Optimal Transport, OT) ๊ธฐ๋ฐ ๊ถค์ ๋งค์นญ์ ์ฌ์ฉํฉ๋๋ค.
์ต์ ์ด์ก์ ์ง๊ด์ ์ดํด
์ต์ ์ด์ก์ ํ๋์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ค๋ฅธ ๋ถํฌ๋ก ๋ณํํ๋ ์ต์ ์ ๋ฐฉ๋ฒ์ ์ฐพ๋ ์ํ์ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ๋งฅ๋ฝ์์๋ ์ ๋ฌธ๊ฐ ๊ถค์ T^e = \{o^e_1, ..., o^e_n\}๊ณผ ๋ก๋ด ๋กค์์ ๊ถค์ T^b = \{o^b_1, ..., o^b_n\} ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๊ฐ ์๊ฐ ๊ด์ธก o^j_i๋ ์ธ์ฝ๋๋ฅผ ํตํด ์ ์ฐจ์ ํํ z^j_i๋ก ๋ณํ๋ฉ๋๋ค. ๋น์ฉ ํจ์๋ ๋ ๊ถค์ ์ ํํ๋ค ์ฌ์ด์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ก ๊ณ์ฐ๋๋ฉฐ, ๋น์ฉ ํ๋ ฌ C๋ ์๋ก ๋ค๋ฅธ ํํ ์๋ค์ ๋ํ ๋น์ฉ์ ํฌํจํฉ๋๋ค.
์ด์ก ๊ณํ๊ณผ ๋ณด์ ๊ณ์ฐ
OT๋ T^e์ T^b ์ฌ์ด์ ์ต์ ๋งค์นญ์ ์ฐพ๋ ์ด์ก ๊ณํ \mu^*๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ฌ๊ธฐ์ \mu^*_{i,j}๋ ์ ๋ฌธ๊ฐ ๊ถค์ ์ i๋ฒ์งธ ํํ๊ณผ ๋กค์์ ๊ถค์ ์ j๋ฒ์งธ ํํ ์ฌ์ด์ ๋งค์นญ ๊ฐ๋๋ฅผ ๋ํ๋ ๋๋ค.
๋ณด์์ ๋ค์ ๋ฐฉ์ ์์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค:
r_{OT}(T^b) = -\sum_{t,t'=1}^{T} C_{t,t'} \mu^*_{t,t'}
์ง๊ด์ ์ผ๋ก, ์ด ๋ณด์์ ์ต๋ํํ๋ฉด ๋ชจ๋ฐฉ ์์ด์ ํธ๊ฐ ์์ฐ๋ ๊ถค์ ์ ๋ ๊ฐ๊น์ด ๊ถค์ ์ ์์ฑํ๋๋ก ์ ๋๋ฉ๋๋ค. ์ค์ ๊ณ์ฐ์์๋ ํจ์จ์ฑ์ ์ํด Sinkhorn ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ๊ทผ์ฌ ํด๋ฅผ ๊ตฌํฉ๋๋ค.
ํํ ํ์ต์ ํตํ OT ์์ ํ
OT ๋ณด์์ ์ธ์ฝ๋ฉ๋ ํํ์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋๋ฏ๋ก, ํ์ต ์ค ์ธ์ฝ๋๊ฐ ๋ณํ๋ฉด ๋ณด์์ด ๋น์ ์์ (non-stationary)์ด ๋์ด ํ์ต ๋ถ์์ ์ฑ์ ์ด๋ํฉ๋๋ค. FISH๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ BC ์ธ์ฝ๋๋ฅผ ๊ณ ์ ํ๊ณ , ์ด ๊ณ ์ ๋ ์ธ์ฝ๋์ ํํ์ ์ฌ์ฉํ์ฌ OT ๋ณด์์ ๊ณ์ฐํฉ๋๋ค.
์ ๋๋ ํ์: ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์์์ ํจ์จ์ ํ์ต
FISH์ ๋ ๋ค๋ฅธ ์ค์ํ ๊ธฐ์ฌ๋ ์ ๋๋ ํ์(Guided Exploration) ๊ฐ๋ ์ ๋๋ค. ๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ธํ๋ํ๋ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ์์ฐจ ์ ์ฑ ์ ํตํ ์คํ์ ์ ์ฉ์ ํ์ ๊ณผ์ ์ ๋๋ฉ์ธ ์ง์์ ์ฃผ์ ํ ์ ์๊ฒ ํฉ๋๋ค.
์๋ฅผ ๋ค์ด, Allegro Hand์ ๊ฐ์ 16์ฐจ์ ๊ด์ ๊ณต๊ฐ์ ๊ฐ์ง ๋ค์ง ๋ก๋ด ํธ๋์์ ๋ชจ๋ ์ฐจ์์ ๋ํด ํ์ํ๋ฉด ์จ๋ผ์ธ ํ์ต์ด ๋นํจ์จ์ ์ด ๋ฉ๋๋ค. FISH๋ ๊ธฐ๋ฐ ์ ์ฑ ์ฑ๋ฅ์ ๋ฐ๋ผ ์ผ๋ถ ์ฐจ์์์๋ง ์์ฐจ๋ฅผ ์ ์ฉํ๊ณ ๋๋จธ์ง ์ฐจ์์์๋ ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ทธ๋๋ก ์ ์งํ ์ ์์ต๋๋ค.
์ ์๋ค์ ์ธ ๊ฐ์ง ์์ค์ ์ ๋๋ฅผ ์คํํ์ต๋๋ค.
Guided: ์ค์ง Z์ถ์ ๋ฐ๋ผ์๋ง ํ์
Semi-guided: XYZ ์ธ ์ถ์ ๋ฐ๋ผ ํ์
Unguided: XYZ ์ถ๊ณผ roll-pitch-yaw ๋ชจ๋์์ ํ์
์คํ ๊ฒฐ๊ณผ, ์ ๋๋ ํ์์ด ์ ์ฝ ์๋ ๋์๋ณด๋ค ํจ์ฌ ๋ ๋น ๋ฅด๊ฒ ์๋ ดํ๊ณ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ ์ฑ๋ฅ ํฅ์๋ฟ ์๋๋ผ, ์์ฐจ๋ฅผ ์ ํํจ์ผ๋ก์จ ๋ก๋ด์ด ๋ฐ๋์งํ์ง ์์ ์์น๋ก ๊ฐ๋ ๊ฒ์ ๋ฐฉ์งํ์ฌ ์จ๋ผ์ธ ํ์ต ์ค ๋ ์์ ํ ํ์์ด ๊ฐ๋ฅํด์ง๋๋ค.
๋ค์ํ ๋ก๋ด ํ๋ซํผ์์์ ์คํ ๊ฒ์ฆ
FISH์ ๋ฒ์ฉ์ฑ์ ์ ์ฆํ๊ธฐ ์ํด ์ ์๋ค์ ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ๋ก๋ด ํํ(morphology), ์นด๋ฉ๋ผ ๊ตฌ์ฑ, ๊ทธ๋ฆฌํผ ์ ํ์ ๊ฑธ์ณ 9๊ฐ์ ํ์คํฌ์์ ๊ด๋ฒ์ํ ์คํ์ ์ํํ์ต๋๋ค.
์คํ ํ๋ซํผ
Ufactory xArm 7: ๋ ์๊ฐ๋ฝ ๊ทธ๋ฆฌํผ๋ฅผ ์ฅ์ฐฉํ 7์์ ๋ ๋ก๋ด ํ. ๊ณ ์ ๋ ์ธ๋ถ ์นด๋ฉ๋ผ์์ RGB ์ด๋ฏธ์ง๋ฅผ ๊ด์ธก์ผ๋ก ์ฌ์ฉ. VINN์ ๊ธฐ๋ฐ ์ ์ฑ ์ผ๋ก ์ฌ์ฉ.
์ํ ํ์คํฌ: - Key Insertion (์ด์ ์ฝ์
): 1๊ฐ ์์ฐ - Bagel Flipping (๋ฒ ์ด๊ธ ๋ค์ง๊ธฐ): 2๊ฐ ์์ฐ
- Peg in a Cup (์ปต์ ๋ง๋ ์ฝ์
): 3๊ฐ ์์ฐ
Allegro Hand: 16์ฐจ์ ๊ด์ ๊ณต๊ฐ์ ๊ฐ์ง 4์๊ฐ๋ฝ ๋ก๋ด ํธ๋. ๊ณ ์ ๋ ์ธ๋ถ ์นด๋ฉ๋ผ ์ฌ์ฉ. VR ํ๋ ์์ํฌ๋ก ์์ฐ ์์ง. Open-loop ์ ์ฑ ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉ.
์ํ ํ์คํฌ: - Cube Flipping (ํ๋ธ ๋ค์ง๊ธฐ): 1๊ฐ ์์ฐ - Bottle Cap Spinning (๋ณ๋๊ป ๋๋ฆฌ๊ธฐ): 1๊ฐ ์์ฐ - Dollar Bill Picking (์งํ ์ง๊ธฐ): 1๊ฐ ์์ฐ
Hello Robot Stretch: ์ด๋ํ ๋ชจ๋ฐ์ผ ๋ก๋ด. ๋ก๋ด ๊ทธ๋ฆฌํผ์ ๋ถ์ฐฉ๋ ์๊ธฐ์ค์ฌ์ (egocentric) ์นด๋ฉ๋ผ ์ฌ์ฉ (๋ก๋ด ์ด๋์ ๋ฐ๋ผ ์์ ๋ณํ). Open-loop ์ ์ฑ ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉ.
์ํ ํ์คํฌ: - Door Opening (๋ฌธ ์ด๊ธฐ): 1๊ฐ ์์ฐ - Drawer Opening (์๋ ์ด๊ธฐ): 1๊ฐ ์์ฐ - Light Switching (์กฐ๋ช ์ค์์น): 1๊ฐ ์์ฐ
๋น๊ต ์๊ณ ๋ฆฌ์ฆ
์ ์๋ค์ FISH๋ฅผ ๋ค์ ๊ธฐ์ค์ ๋ค๊ณผ ๋น๊ตํ์ต๋๋ค.
์คํ๋ผ์ธ ๋ฐฉ๋ฒ๋ค: - Open-loop: ์ ๋ฌธ๊ฐ ํ๋์ ์ง์ ๋ณต์ฌ - BC: Behavior Cloning์ผ๋ก ํ์ต๋ ์ ์ฑ - VINN: k-NN ๊ธฐ๋ฐ ์๊ฐ ๋ชจ๋ฐฉ
์จ๋ผ์ธ ๋ฐฉ๋ฒ๋ค: - ROT: BC ์ฌ์ ํ์ต ์ ์ฑ ์ OT ๊ธฐ๋ฐ ์จ๋ผ์ธ ํ์ต์ผ๋ก ํ์ธํ๋ - RDAC: ์ ๋์ ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ๋ฒ์ธ DAC์ ROT ์คํ์ผ ์ ๊ทํ ์ ์ฉ
์ฃผ์ ๊ฒฐ๊ณผ
FISH๋ ๋ชจ๋ 9๊ฐ ํ์คํฌ์์ 93%์ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ, ๊ธฐ์กด ์ต์ ๋ฐฉ๋ฒ๋ค ๋๋น 3.8๋ฐฐ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
| ๋ฐฉ๋ฒ | Door | Drawer | Light | Cube | Cap | Bill | Peg | Bagel | Key | ํ๊ท |
|---|---|---|---|---|---|---|---|---|---|---|
| Open-loop | 0.2 | 0.2 | 0.2 | 0.1 | 0.0 | 0.2 | 0.1 | 0.1 | 0.3 | 0.16 |
| VINN BC | 0.2 | 0.2 | 0.2 | 0.1 | 0.0 | 0.1 | 0.3 | 0.3 | 0.3 | 0.19 |
| BC | 0.2 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.5 | 0.3 | 0.3 | 0.14 |
| ROT | 0.0 | 0.0 | 0.6 | 0.0 | 0.0 | 0.0 | 0.5 | 0.5 | 0.6 | 0.24 |
| RDAC | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.4 | 0.0 | 0.0 | 0.04 |
| FISH | 1.0 | 1.0 | 1.0 | 1.0 | 1.0 | 0.8 | 0.9 | 0.9 | 0.8 | 0.93 |
ํนํ ์ฃผ๋ชฉํ ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฒซ์งธ, BC์ ์ ๋ฐ์ดํฐ ํ๊ฒฝ ์ทจ์ฝ์ฑ: Allegro Hand์์ BC๊ฐ ์์ ํ ์คํจ(0%)ํ ๊ฒ์ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ๊ณผ ์ ํ๋ ์์ฐ์ ์กฐํฉ์ด ๋ชจ์์ ๋ฐฉ๋ฒ์ ์น๋ช ์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ์ฌ์ฉ์ ์ ๋น์ฑ์ ๋ท๋ฐ์นจํฉ๋๋ค.
๋์งธ, ROT ๋๋น ์ฐ์์ฑ: FISH๋ BC ์ ์ฑ ์ ํ์ธํ๋ํ๋ ROT๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. ์ด๋ ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ณ ์ ํ๋ ๊ฒ์ด ์จ๋ผ์ธ ํ์ธํ๋ ์ค ์์ ํ๋ ๊ฒ๋ณด๋ค ์ฐ์ํจ์ ์์ฌํฉ๋๋ค. BC ์ฑ๋ฅ ์ ํ๊ฐ ROT์๋ ์ํฅ์ ๋ฏธ์น๋ ๋ฐ๋ฉด, FISH๋ ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํํผํฉ๋๋ค.
์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ์
์๋ก์ด ๊ฐ์ฒด ๊ตฌ์ฑ์ ๋ํ ์ผ๋ฐํ
FISH์ ํต์ฌ ๊ฐ์ ์ค ํ๋๋ ์์ฐ์์ ๋ณด์ง ๋ชปํ ๊ฐ์ฒด ์์น์ ๋ก๋ด ์ด๊ธฐํ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋๋ค. ์ ์๋ค์ ๊ฐ ํ์คํฌ์์ ์์ฐ์ด ์์ง๋ ์์น(ร๋ก ํ์)์ FISH๊ฐ ์ฑ๊ณต(๋ น์) ๋๋ ์คํจ(๋นจ๊ฐ์)ํ ์์น๋ฅผ ์๊ฐํํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ FISH๊ฐ ์์ฐ ์์น๋ฅผ ๋์ด ์๋นํ ๋์ ์์ญ์์ ์ฑ๊ณต์ ์ผ๋ก ์๋ํจ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๋จ์ํ ์์ฐ์ ์๊ธฐํ๋ ๊ฒ์ด ์๋๋ผ, OT ๊ธฐ๋ฐ ๋งค์นญ์ด ์๋ฏธ ์๋ ํ๋ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํจ์ ์๋ฏธํฉ๋๋ค.
์๋ก์ด ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ
๋ ๋๋ผ์ด ๊ฒ์ FISH๊ฐ ์๊ฐ์ , ๋์ ์์ฑ์ด ๋ค๋ฅธ ์๋ก์ด ๊ฐ์ฒด์๋ ์ผ๋ฐํ๋๋ค๋ ์ ์ ๋๋ค.
Bagel Flipping ํ์คํฌ: ๋ฒ ์ด๊ธ๋ก ์์ฐํ์ง๋ง, ๋ค๋ฅธ ์ข ๋ฅ์ ๋นต(plain bagel, everything bagel, croissant ๋ฑ)์์๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฌ๋ flatbread์ฒ๋ผ ๋ฒ ์ด๊ธ๋ณด๋ค ํจ์ฌ ๋ถ๋๋ฌ์ ๋ค๋ฅธ ๋ค์ง๊ธฐ ์ ๋ต์ด ํ์ํ ๊ฒฝ์ฐ์๋ ์คํจํ์ต๋๋ค.
Dollar Bill Picking ํ์คํฌ: 1๋ฌ๋ฌ ์งํ๋ก ์์ฐํ์ง๋ง, ๋ค๋ฅธ ํํ(5๋ฌ๋ฌ, 10๋ฌ๋ฌ)์ ์นด๋(์ ์ฉ์นด๋, ํ์์ฆ)์์๋ ์๋ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ง๊ฐ์ฒ๋ผ ๋ ๋๊ป๊ณ ๋ถ๊ท ์ผํ ๊ฐ์ฒด์์๋ ์คํจํ์ต๋๋ค.
์ด๋ฌํ ๊ฒฐ๊ณผ๋ FISH๊ฐ ์๊ฐ์ ๋งค์นญ์ ํตํด ์ด๋ ์ ๋์ ๊ฐ์ฒด ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ ์์ง๋ง, ๋ฌผ๋ฆฌ์ ์์ฑ์ ๊ทน๋จ์ ๋ณํ์๋ ํ๊ณ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ฌ์ธต ์ด๋ธ๋ ์ด์ ์ฐ๊ตฌ
์ ์๋ค์ FISH์ ๊ฐ ์ค๊ณ ๊ฒฐ์ ์ ์ค์์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ์ด๋ธ๋ ์ด์ ์ ์ํํ์ต๋๋ค.
๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ ์ํฅ
| ๋ฐฉ๋ฒ | Bagel Flipping | Dollar Bill Picking |
|---|---|---|
| IRL Scratch (๊ธฐ๋ฐ ์ ์ฑ ์์) | 0.0 | 0.0 |
| Open-loop | 0.1 | 0.8 |
| BC | 0.7 | 0.0 |
| VINN (ImageNet) | 0.0 | 0.0 |
| VINN (BYOL) | 0.0 | 0.0 |
| VINN (BC Encoder) | 0.9 | - |
์ด ๊ฒฐ๊ณผ์์ ๋ช ๊ฐ์ง ์ค์ํ ํต์ฐฐ์ ์ป์ ์ ์์ต๋๋ค.
์ฒซ์งธ, ์ฌ์ ํ์ต ์๋ OT ๊ธฐ๋ฐ IRL์ ์๋ํ์ง ์์ต๋๋ค. ์ ํ๋ ํ๊ฒฝ ์ํธ์์ฉ์ผ๋ก๋ ์ฒ์๋ถํฐ ํ์ต์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค.
๋์งธ, ์๊ธฐ์ง๋ ํ์ต(SSL) ๋ฐฉ๋ฒ์ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ด์ง ์์ต๋๋ค. BYOL๋ก ํ์ธํ๋๋ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ VINN์ ์คํจํ์ต๋๋ค.
์ ์งธ, ์ ์ ํ BC ์ ์ฑ ์ด ์์ ๋ FISH๊ฐ ์๋นํ ๊ฐ์ ์ ๊ฐ์ ธ์ต๋๋ค. ๊ทธ๋ฌ๋ VINN๊ณผ ๊ฐ์ ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ์ด ๋ชจ์์ ๋์๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ฌ์ ํ์ต ์ธ์ฝ๋์ ์ํฅ
| ์ธ์ฝ๋ | Bagel Flipping | Dollar Bill Picking |
|---|---|---|
| ImageNet | 0.0 | 0.0 |
| R3M | 0.0 | 0.1 |
| MVP | 0.3 | 0.0 |
| BC | 0.9 | 0.8 |
๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ์ธ์ฝ๋๋ค(ImageNet, R3M, MVP)์ด ์ด ํ๊ฒฝ์์ ์ ์๋ํ์ง ์๋๋ค๋ ์ ์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ธํฐ๋ท ๋ฐ์ดํฐ๋ก ํ์ต๋ ํํ์ด ํน์ ๋ก๋ด ํ์คํฌ์ ์ ์ ์ด๋์ง ์์ ์ ์์ผ๋ฉฐ, ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์๋ ๋๋ฉ์ธ ๋ด(in-domain) ๋ฐ์ดํฐ๋ก ํ์ต๋ ํํ์ด ๋๋์ ๋๋ฉ์ธ ์ธ(out-of-domain) ๋ฐ์ดํฐ๋ณด๋ค ๋์ ์ ์์์ ์์ฌํฉ๋๋ค.
๊ตฌํ ์ธ๋ถ์ฌํญ์ ์ํฅ
| ์ธ์ฝ๋ ๊ณ ์ | ๊ธฐ๋ฐ ํ๋ ์กฐ๊ฑดํ | Bagel Flipping | Dollar Bill Picking |
|---|---|---|---|
| โ | ร | 0.6 | 0.1 |
| ร | โ | 0.9 | 0.0 |
| โ | โ | 0.9 | 0.8 |
๋ ๊ฐ์ง ๊ธฐ๋ฒ ๋ชจ๋ ํ์ํฉ๋๋ค. ์ธ์ฝ๋๋ฅผ ๊ณ ์ ํ๋ฉด OT ๋ณด์์ด ์์ ํ๋๊ณ , ๊ธฐ๋ฐ ํ๋์ ์กฐ๊ฑดํํ๋ฉด ์์ฐจ ์ ์ฑ ์ด ๊ธฐ๋ฐ ์ ์ฑ ๊ณผ ํจ๊ณผ์ ์ผ๋ก ํ๋ ฅํ ์ ์์ต๋๋ค.
์ ์์ ์ ๊ทํ์ (๋ถ์ ์ ) ์ํฅ
ROT์์ ์๊ฐ์ ๋ฐ์ ์ ์๋ค์ ์์ฐจ๊ฐ 0์ ๊ฐ๊น๊ฒ ์ ์ง๋๋๋ก ์ ์์ ์ผ๋ก ์ ๊ทํํ๋ ๊ฒ์ ์๋ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์คํ๋ ค ์ฑ๋ฅ์ ์ ํ์์ผฐ์ต๋๋ค(0.9 โ 0.4). ์ด๋ฌํ ์ ๊ทํ๊ฐ ์์ฐจ๋ฅผ ๋๋ฌด ์์ ๊ฐ์ผ๋ก ๋ง๋ค์ด ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ํ ์๋ฏธ ์๋ ๊ฐ์ ์ ์์ฑํ์ง ๋ชปํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ธฐ์ ์ ์ธ๋ถ์ฌํญ
๋คํธ์ํฌ ์ํคํ ์ฒ
์ธ์ฝ๋: 84ร84 ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ๋ฐ์ 512์ฐจ์ ์ถ๋ ฅ ์์ฑ. 4๊ฐ์ ํฉ์ฑ๊ณฑ ๋ ์ด์ด์ 1๊ฐ์ ์ ํ ๋ ์ด์ด๋ก ๊ตฌ์ฑ.
์กํฐ: ์ธ์ฝ๋ฉ๋ ํํ๊ณผ ๊ธฐ๋ฐ ์ ์ฑ ์ ํ๋์ ์ ๋ ฅ๋ฐ์ 3๊ฐ์ ์ ํ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ ํ๋ ์ถ๋ ฅ.
ํฌ๋ฆฌํฑ: ์ธ์ฝ๋ฉ๋ ํํ, ๊ธฐ๋ฐ ์ ์ฑ ํ๋, ์์ฐจ ํ๋์ ์ ๋ ฅ๋ฐ์ 3๊ฐ์ ์ ํ ๋ ์ด์ด๋ฅผ ๊ฑฐ์ณ Q-๊ฐ ์ถ๋ ฅ.
๊ฐํํ์ต ๋ฐฑ๋ณธ
์ ์๋ค์ n-step DDPG๋ฅผ RL ์ต์ ํ๊ธฐ๋ก ์ฌ์ฉํ์ต๋๋ค. ๊ฒฐ์ ์ ์กํฐ๋ Deterministic Policy Gradients(DPG)๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋๊ณ , ํฌ๋ฆฌํฑ์ ํ๊น ๊ฐ์ ๊ณผ๋์ถ์ ํธํฅ์ ์ค์ด๊ธฐ ์ํด clipped double Q-learning์ ์ฌ์ฉํฉ๋๋ค.
์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ
- ๋ฆฌํ๋ ์ด ๋ฒํผ ํฌ๊ธฐ: 5000
- ํ์ต๋ฅ : 1e-4
- ํ ์ธ ๊ณ์ ฮณ: 0.99
- n-step returns: 3
- ๋ฏธ๋๋ฐฐ์น ํฌ๊ธฐ: 256
- ์์ด์ ํธ ์ ๋ฐ์ดํธ ๋น๋: 2
- ์๋ ํ๋ ์: 260 (xArm, Stretch), 200 (Allegro Hand)
- ๋ณด์ ์ค์ผ์ผ ํฉํฐ: 10
ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ FISH์ ๋ช ๊ฐ์ง ํ๊ณ๋ฅผ ์์งํ๊ฒ ์ธ์ ํฉ๋๋ค.
์ฒซ์งธ, ์ ๋ฌธ๊ฐ ์์กด์ฑ: OT ๊ธฐ๋ฐ ๋ณด์์ด ์์ด์ ํธ๋ฅผ ์์ฐ๊ณผ ์ ๋ ฌ์ํค๋ฏ๋ก, ์์ฐ์๊ฐ โ์ ๋ฌธ๊ฐโ์ฌ์ผ ํฉ๋๋ค. ๋น์ ๋ฌธ๊ฐ ์์ฐ์ด๋ ์ฐจ์ ์ ์์ฐ์์๋ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
๋์งธ, ์๊ฐ ์ ํธ ์์กด์ฑ: ์์ํ๊ฒ ์๊ฐ ๋๋ฉ์ธ์์ ์๋ํ๋ฏ๋ก, ์๊ฐ ์ ํธ๊ฐ ๋๋๋ฌ์ง์ง ์์ ์ ๋ฐํ ํ์คํฌ(์: ์ด๋ฏธ์ง์ ์์ ๋ถ๋ถ์ ์ฐจ์งํ๋ ์ด์ ๊ตฌ๋ฉ)์์๋ ์ด๋ ค์์ด ์์ต๋๋ค. ์ด๊ฐ ์ผ์ฑ๊ณผ ๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํ๋ฉด ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์์ ๊ฒ์ ๋๋ค.
์ ์งธ, ์์ฐจ ์ ์ฑ ์ด๊ธฐํ: ํ์ฌ ์์ฐจ ์ ์ฑ ์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ฉ๋๋ค. ์์ฐจ ์ ์ฑ ์ ์ฌ์ ํ์ตํ๋ฉด ๋ ์ ๋ฐํ ์ ์ด๊ฐ ํ์ํ ์ด๋ ค์ด ํ์คํฌ๋ก ํ์ฅํ๋ ๋ฐ ๋์์ด ๋ ์ ์์ต๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์ฐจ๋ณ์
๋ชจ๋ฐฉ ํ์ต ๋ถ์ผ์์์ ์์น
FISH๋ ์คํ๋ผ์ธ ๋ชจ๋ฐฉ๊ณผ ์จ๋ผ์ธ ์ ์์ ์ฅ์ ์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ ๋๋ค. ์์ BC๋ ๋ถํฌ ์ธ ์ํ์์ ์ทจ์ฝํ์ฌ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์ ๋ถ์ ํฉํ๊ณ , ์์ IRL์ ์ํ ํจ์จ์ฑ์ด ๋ฎ์ต๋๋ค. FISH๋ ๋น๋ชจ์์ ์คํ๋ผ์ธ ๋ชจ๋ฐฉ์ผ๋ก ๊ฐ๊ฑดํ ์์์ ์ ์ ๊ณตํ๊ณ , OT ๊ธฐ๋ฐ ์จ๋ผ์ธ ํ์ต์ผ๋ก ์ ์ํฉ๋๋ค.
์ต์ ์ด์ก ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต
OT ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ค(SIL, PWIL, GDTW-IL, GWIL)์ด ์กด์ฌํ์ง๋ง, FISH๋ ์ด๋ฅผ ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ๋ฐ ์์ฐจ ํ์ต๊ณผ ๊ฒฐํฉํ์ฌ ์ ๋ฐ์ดํฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ํจ๊ณผ์ฑ์ ์ต์ด๋ก ์ ์ฆํ์ต๋๋ค.
์์ฐจ ๊ฐํํ์ต
๊ธฐ์กด ์์ฐจ RL ์ฐ๊ตฌ๋ค์ ์์ผ๋ก ์ค๊ณ๋ ์ปจํธ๋กค๋ฌ๋ ์์ฐ์์ ํ์ต๋ ์ ์ฑ ์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉํ์ผ๋ฉฐ, ํ์คํฌ๋ณ ๋ณด์์ด ํ์ํ์ต๋๋ค. FISH๋ OT ๋งค์นญ์ ํตํด ์์ฐ์ผ๋ก๋ถํฐ ๋ณด์์ ์ถ๋ก ํ์ฌ ์ด ์๊ตฌ์ฌํญ์ ์ ๊ฑฐํฉ๋๋ค.
๋ก๋ด๊ณตํ์ ํจ์์ ์ค์ฉ์ ๊ณ ๋ ค์ฌํญ
์ค์ ๋ฐฐํฌ ๊ด์
FISH์ ๊ฐ์ฅ ๋งค๋ ฅ์ ์ธ ์ธก๋ฉด์ ์ค์ฉ์ฑ์ ๋๋ค. 1๋ถ์ ์์ฐ๊ณผ 20๋ถ์ ์จ๋ผ์ธ ํ์ต์ผ๋ก ์๋ก์ด ๊ธฐ์ ์ ๊ฐ๋ฅด์น ์ ์๋ค๋ ๊ฒ์ ์ฐ์ ํ์ฅ์์์ ๋น ๋ฅธ ์ฌ๋ฐฐ์น์ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์์ ์ฑ ๊ณ ๋ ค
์ ๋๋ ํ์ ๋ฉ์ปค๋์ฆ์ ๋จ์ํ ์ฑ๋ฅ ํฅ์์ ๋์ด ์์ ์ฑ ์ธก๋ฉด์์๋ ์ค์ํฉ๋๋ค. ๋ ผ๋ฌธ์ ๋ถ๋ก์์ ์ ์๋ค์ ROT๋ฅผ ์ฌ์ฉํ Allegro Hand ํ์ต ์ค ๋ชจ๋ ์ฐจ์์์ ํ์ํ ๋ ์๊ฐ๋ฝ ์ถฉ๋๊ณผ ๋ถ์์ฐ์ค๋ฌ์ด ์์ธ๊ฐ ๋ฐ์ํจ์ ๋ณด์ฌ์ค๋๋ค. ์ ๋๋ ํ์์ ์ด๋ฌํ ์ํ์ ์ํํฉ๋๋ค.
ํ๋์จ์ด ๋ค์์ฑ
์ธ ๊ฐ์ง ๋งค์ฐ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(๊ณ ์ ํ, ๋ค์ง ์, ์ด๋ ๋ก๋ด)๊ณผ ์นด๋ฉ๋ผ ๊ตฌ์ฑ(third-person, eye-in-hand)์์์ ์ฑ๊ณต์ FISH๊ฐ ํน์ ํ๋์จ์ด ์ค์ ์ ๊ตญํ๋์ง ์์์ ๋ณด์ฌ์ค๋๋ค.
๊ฒฐ๋ก : ๋ก๋ด ๊ธฐ์ ํ์ต์ ์๋ก์ด ํจ๋ฌ๋ค์
FISH๋ ๋ก๋ด ๋ชจ๋ฐฉ ํ์ต ๋ถ์ผ์์ ์ค์ํ ์ด์ ํ๋ฅผ ์ธ์ ์ต๋๋ค. โ๋ก๋ด์๊ฒ ๋ฌผ๊ณ ๊ธฐ ์ก๋ ๋ฒ์ ๊ฐ๋ฅด์น๋ฉด ํ์์ ๋จน์ฌ ์ด๋ฆด ์ ์๋คโ๋ ์๋ด์ ํ์คํํ ์ด ์ฐ๊ตฌ๋, ์๋์ ์์ฐ์ผ๋ก ๊ฐ๊ฑดํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ธฐ์ ์ ํ์ตํ ์ ์์์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ฃผ์์ต๋๋ค.
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฒซ์งธ, ๋น๋ชจ์์ ๊ธฐ๋ฐ ์ ์ฑ ๊ณผ ์์ฐจ ํ์ต์ ๊ฒฐํฉ: ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ ๊ฐ๊ฑด์ฑ๊ณผ ์จ๋ผ์ธ RL์ ์ ์๋ ฅ์ ๋์์ ํ์ฉ.
๋์งธ, OT ๊ธฐ๋ฐ ๋ณด์ ์ถ๋ก : ํ์คํฌ๋ณ ๋ณด์ ํจ์ ์ค๊ณ ์์ด ์๊ฐ ๊ถค์ ๋งค์นญ์ผ๋ก ์๋ฏธ ์๋ ํ์ต ์ ํธ ์์ฑ.
์ ์งธ, ์ ๋๋ ํ์: ๋๋ฉ์ธ ์ง์์ ํ์ฉํ ํจ์จ์ ์ด๊ณ ์์ ํ ํ์.
๋ท์งธ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ: ๋ฒ์ฉ์ฑ๊ณผ ์ค์ฉ์ฑ ์ ์ฆ.
FISH๋ RSS 2023 Best Student Paper Award๋ฅผ ์์ํ๋ฉฐ ๊ทธ ๊ฐ์น๋ฅผ ์ธ์ ๋ฐ์์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ ๋ก๋ด์ด ๋น ๋ฅด๊ฒ ์๋ก์ด ๊ธฐ์ ์ ์ต๋ํ๊ณ ๋ณํํ๋ ํ๊ฒฝ์ ์ ์ํด์ผ ํ๋ ๋ฏธ๋๋ฅผ ํฅํ ์ค์ํ ๋ฐ๊ฑธ์์ ๋๋ค. ๋ฌผ๋ก ํ๊ณ์ ์ด ์กด์ฌํ์ง๋ง, ์ ์๋ค์ด ์ ์ํ ํ๋ ์์ํฌ์ ํต์ฐฐ์ ํ์ ์ฐ๊ตฌ๋ฅผ ์ํ ๊ฒฌ๊ณ ํ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
์์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ์ผ์ฑ ํตํฉ, ์์ฐจ ์ ์ฑ ์ฌ์ ํ์ต, ๋น์ ๋ฌธ๊ฐ ์์ฐ ์ฒ๋ฆฌ ๋ฑ์ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๊ฐ ๋ฐ์ ํ๋ค๋ฉด, ์ฐ๋ฆฌ๋ ์ง์ ์ผ๋ก โ๋น ๋ฅด๊ฒ ํ์ตํ๋โ ๋ก๋ด์ ์๋์ ํ ๊ฑธ์ ๋ ๋ค๊ฐ๊ฐ ์ ์์ ๊ฒ์ ๋๋ค.