๐MT3 ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ํ์ฌ ๋ก๋ด ๋ชจ๋ฐฉ ํ์ต์ ๋ฎ์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ฐ์ ํ๊ณ ์, ๋ณธ ์ฐ๊ตฌ๋ ์กฐ์ ๊ถค์ ์ ์ ๋ ฌ(alignment) ๋ฐ ์ํธ์์ฉ(interaction) ๋จ๊ณ๋ก ๋ถํดํ๊ณ ๊ฒ์ ๊ธฐ๋ฐ ์ผ๋ฐํ(retrieval-based generalization)๋ฅผ ์ฌ์ฉํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ํ๊ตฌํฉ๋๋ค.
- ๐ ์ด๋ฌํ ๋ถํด ๋ฐ ๊ฒ์ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ธ Multi-Task Trajectory Transfer (MT3)๋ ์์ ๋น ๋จ ํ๋์ ์์ฐ๋ง์ผ๋ก 1,000๊ฐ์ง ์ผ์ ์์ ์ 24์๊ฐ ๋ด์ ํ์ตํ ์ ์์์ ์ ์ฆํ๋ฉฐ, ๊ธฐ์กด ๋จ์ผ ์ ์ฑ (monolithic policy) ๋ฐฉ์๋ณด๋ค ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค.
- ๐ ๏ธ ๊ด๋ฒ์ํ ์ค์ ์๋๋ฆฌ์ค ํ๊ฐ๋ฅผ ํตํด MT3๊ฐ ์ ์ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ๊ณ ์ ๋ฐ ์์ ์ด๋ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด ์กฐ์ ์ ๊ฐ๋ฐฉ ๋ฃจํ(open-loop) ์ํธ์์ฉ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ์ ์ ๋๋ฌ๋์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ์กฐ์์ ์ํ ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ์ ํ ์ง์(prior)์ ํ๊ตฌํฉ๋๋ค: ์กฐ์ ๊ถค์ ์ ์์ฐจ์ ์ธ ์ ๋ ฌ(alignment) ๋ฐ ์ํธ์์ฉ(interaction) ๋จ๊ณ๋ก ๋ถํดํ๋ ๊ฒ๊ณผ ๊ฒ์ ๊ธฐ๋ฐ(retrieval-based) ์ผ๋ฐํ์ ๋๋ค. ์ฐ๊ตฌ์๋ค์ 3,450ํ์ ์ค์ ๋กค์์(rollout)์ ํตํด ์ด๋ฌํ ๋ถํด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ตฌํ๊ณ , ์ ๋ ฌ ๋ฐ ์ํธ์์ฉ ๋จ๊ณ์ ๋ํ ๋ค์ํ ์ค๊ณ ์ ํ์ ๋น๊ตํ๋ฉฐ, ํ์ฌ ์ง๋ฐฐ์ ์ธ ํจ๋ฌ๋ค์์ธ ๋จ์ผ ๋จ๊ณ(single-phase)์ ํตํฉ(monolithic) ์ ์ฑ ์ ์ฌ์ฉํ ํ๋ ๋ณต์ (Behavioral Cloning, BC)์ ๋น๊ตํ์ฌ ์ผ๋ฐํ ๋ฐ ์ค์ผ์ผ๋ง ๊ฒฝํฅ์ ๋ถ์ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
์ด ์ฐ๊ตฌ๋ ๋ก๋ด ์กฐ์ ๊ถค์ ์ alignment์ interaction์ ๋ ๋จ๊ณ๋ก ๋ถํดํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค. 1. Alignment Phase: ๋ก๋ด์ ์๋ ์ดํํฐ(end-effector) ๋๋ ์ก๊ณ ์๋ ๊ฐ์ฒด๋ฅผ ๋ชฉํ ๊ฐ์ฒด์ ์๋์ ์ผ๋ก ๋ฐฐ์นํ๋ ๋จ๊ณ์
๋๋ค. ์ด ๋จ๊ณ์์๋ ์ต์ข
์์น๊ฐ ์ค์ํ๋ฉฐ, ํน์ ๊ฒฝ๋ก๋ ๋ ์ค์ํฉ๋๋ค. 2. Interaction Phase: ์ค์ ๊ฐ์ฒด ์กฐ์์ ์ํํ๋ ๋จ๊ณ๋ก, ์ ๋ฐํ ๊ถค์ ์คํ์ด ํ์ํฉ๋๋ค.
๊ฐ ๋จ๊ณ์ ๋ํด ์ฐ๊ตฌ์๋ค์ Behavioral Cloning (BC)๊ณผ retrieval-based methods์ ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ํ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค ๊ฐ์ง ์กฐํฉ์ ๋ถํด ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค: * BC-BC: ์ ๋ ฌ๊ณผ ์ํธ์์ฉ ๋ชจ๋์ BC๋ฅผ ์ฌ์ฉํฉ๋๋ค. * BC-Ret: BC ์ ๋ ฌ๊ณผ ๊ฒ์ ๊ธฐ๋ฐ ์ํธ์์ฉ์ ๊ฒฐํฉํฉ๋๋ค. * Ret-BC: ๊ฒ์ ๊ธฐ๋ฐ ์ ๋ ฌ๊ณผ BC ์ํธ์์ฉ์ ์ฌ์ฉํฉ๋๋ค. * Ret-Ret (MT3 - Multi-Task Trajectory Transfer): ์ ๋ ฌ๊ณผ ์ํธ์์ฉ ๋ชจ๋์ ๊ฒ์ ๊ธฐ๋ฐ ์ ์ฑ
์ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด Trajectory Transfer [21, 35]์ ๋ค์ค ์์
ํ์ต ์ค์ ํ์ฅ์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
์ด๋ฌํ ๋ถํด ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ ์ฒด ๊ถค์ ์ ํ์ตํ๋ ํตํฉ BC(monolithic BC) ๋ฐฉ๋ฒ์ธ MT-ACT+์ ๋น๊ต๋ฉ๋๋ค.
์ ์ฑ ์ค๊ณ ๋ฐ ๊ตฌํ (Policy Design and Implementation)
- Behavioral Cloning (BC) ๊ตฌํ:
- ์ํคํ ์ฒ: MT-ACT [15] ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณํ๋ Transformer ๊ธฐ๋ฐ ๋ฐฑ๋ณธ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ ๋ ฅ๊ณผ ์ธ์ด ์ค๋ช ์ ์ฒ๋ฆฌํ๊ณ , variational inference [33, 34]๋ฅผ ์ฌ์ฉํ์ฌ ์กฐ์ ์์ฐ์ ๋ค์ค ๋ชจ๋(multi-modal) ํน์ฑ์ ๋ชจ๋ธ๋งํฉ๋๋ค. ์ ๋ ฅ์ผ๋ก๋ segmented point cloud์ task description์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ์์ค ํจ์: ์์ฐ ํ๋ ์ฒญํฌ(action chunks)์ ๋ก๊ทธ-์ฐ๋(log-likelihood)๋ฅผ ์ต๋ํํ๋ VAE(Variational Autoencoder) ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์ฌ๊ตฌ์ฑ ์์ค(reconstruction loss)๊ณผ ๊ฐ์ฐ์์ ์ฌ์ (Gaussian prior)์ ๋ํ ์ธ์ฝ๋ ์ ๊ทํ ํญ
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ๋ฃจ๋ง์ ์ฒ ๊ฐ์ง ์์ ํ์ตํ๊ธฐ: MT3์ ํ์ ์ ์ ๊ทผ
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ค์๊ฒ imitation learning์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ์ค๋ซ๋์ ํ๋ฆฌ์ง ์๋ ๋์ ์์ต๋๋ค. ํ์ฌ์ ์ต์ฒจ๋จ ์์คํ ๋ค์ ํ๋์ ์์ ์ ํ์ตํ๊ธฐ ์ํด ์๋ฐฑ์์ ์์ฒ ๊ฐ์ demonstration์ด ํ์ํฉ๋๋ค. ์ด๋ ์ค์ฉ์ ์ธ ๋ฒ์ฉ ๋ก๋ด ์์คํ ์ ๊ตฌ์ถํ๋ ๋ฐ ์์ฒญ๋ ์ฅ๋ฒฝ์ด ๋ฉ๋๋ค.
Imperial College London์ Robot Learning Lab์์ ๋ฐํํ โLearning a Thousand Tasks in a Dayโ ๋ ผ๋ฌธ(Science Robotics, 2025)์ ์ด๋ฌํ ํจ๋ฌ๋ค์์ ์์ ํ ๋ค์ง๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ์ฐ๊ตฌํ์ ๋จ ํ๋์ demonstration๋ง์ผ๋ก๋ ์์ ์ ํ์ตํ ์ ์๋ Multi-Task Trajectory Transfer (MT3) ์์คํ ์ ๊ฐ๋ฐํ์ฌ, 24์๊ฐ ์ด๋ด์ 1,000๊ฐ์ ์๋ก ๋ค๋ฅธ manipulation ์์ ์ ํ์ตํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์์๋ ์ด ์ฐ๊ตฌ๊ฐ ์ด๋ป๊ฒ ๊ธฐ์กด ํจ๋ฌ๋ค์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋์ง, ๊ทธ ํต์ฌ ์์ด๋์ด์ ์คํ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํด ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ๊ฒ ์ต๋๋ค.
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ์ค์ํ๊ฐ?
1.1 ํ์ฌ Imitation Learning์ ํ๊ณ
์ต๊ทผ ๋ช ๋ ๊ฐ robotics ๋ถ์ผ์์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํ์ฉํ behavioral cloning (BC) ์ ๊ทผ๋ฒ์ด ์ฃผ๋ฅ๋ฅผ ์ด๋ฃจ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๋ฐ์ดํฐ ์๊ตฌ๋์ ์ค์ฉ์ฑ์ ์ฌ๊ฐํ ์ ์ฝ์ ๊ฐํฉ๋๋ค:
- BC-Z: 100๊ฐ ์์ ์ ๋ํด ์ฝ 26,000๊ฐ์ demonstration (์์ ๋น ~250๊ฐ)
- RT-1: 744๊ฐ ์์ ์ ๋ํด 17๊ฐ์๊ฐ ์ฝ 130,000๊ฐ์ demonstration ์์ง (์์ ๋น ~175๊ฐ)
- MT-ACT: 38๊ฐ ์์ ์ ๋ํด 2๊ฐ์๊ฐ 7,500๊ฐ์ demonstration (์์ ๋น ~200๊ฐ)
- ALOHA Unleashed: ๋ณต์กํ ์์ ์ ๊ฒฝ์ฐ ์์ ๋น ์ต๋ 8,000๊ฐ์ demonstration ํ์
์ด๋ฌํ ๋ฐ์ดํฐ ์๊ตฌ๋์ ์์ฒ ๊ฐ์ ์์ ์ ๋ค๋ฃฐ ์ ์๋ ๋ฒ์ฉ ๋ก๋ด ์์คํ ์ ๊ตฌ์ถํ๋ ค๋ฉด ์ฒ๋ฌธํ์ ์ธ ์๊ฐ๊ณผ ๋น์ฉ์ด ์์๋จ์ ์๋ฏธํฉ๋๋ค.
1.2 ์ธ๊ฐ๊ณผ ๋๋ฌผ์ ํ์ต ํจ์จ์ฑ
ํฅ๋ฏธ๋กญ๊ฒ๋, ์ธ๊ฐ๊ณผ ๋๋ฌผ์ ํจ์ฌ ๋ ํจ์จ์ ์ผ๋ก ํ์ตํฉ๋๋ค:
- ์์๋ค์ ์ ๋ฌธ๊ฐ์ demonstration์ด ์์ ๋ unguided exploration๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ manipulation ๊ธฐ์ ์ ์ต๋ํฉ๋๋ค
- ์์ฅ๋ฅ๋ 5ํ ๋ฏธ๋ง์ demonstration์ผ๋ก manipulation ์์ ์ ํ์ตํ ์ ์์ต๋๋ค
- ์ค์น๋ฅ๋ 10ํ ๋ฏธ๋ง์ demonstration์ผ๋ก ํ๋ ๋ฐ ๋ด๋น๊ฒ์ด์ ๊ธฐ์ ์ ์ต๋ํฉ๋๋ค
์ด๋ฌํ ์๋ฌผํ์ ํ์ต ํจ์จ์ฑ๊ณผ ํ์ฌ ๋ก๋ด ์์คํ ๊ฐ์ ๊ฒฉ์ฐจ๋ ๊ทผ๋ณธ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ฌ๊ณ ๊ฐ ํ์ํจ์ ์์ฌํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด: Trajectory Decomposition
2.1 Alignment์ Interaction์ ๋ถ๋ฆฌ
MT3์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ํต์ฐฐ๋ ฅ์ manipulation trajectory๋ฅผ ๋ ๊ฐ์ ์์ฐจ์ ๋จ๊ณ๋ก ๋ถํดํ๋ ๊ฒ์ ๋๋ค:
Alignment Phase (์ ๋ ฌ ๋จ๊ณ)
- ๋ชฉํ: end-effector๋ฅผ ๋ชฉํ ๋ฌผ์ฒด์ ๋ํด ์ ์ ํ ์๋ pose๋ก ์ด๋
- ํน์ง: ์ ํํ ๊ฒฝ๋ก๋ ์ค์ํ์ง ์์. ์ต์ข pose๋ง ์ค์
- ์์: ํ๋ฌ๊ทธ ์ฝ์ ์์ ์์ ํ๋ฌ๊ทธ๋ฅผ ์์ผ ์์ ์์น์ํค๋ ๊ณผ์
- ์ ์ฐ์ฑ: ๋ค์ํ ๊ถค์ ์ด ์ฑ๊ณต์ ์ผ๋ก ์ ๋ ฌ์ ๋ฌ์ฑํ ์ ์์
Interaction Phase (์ํธ์์ฉ ๋จ๊ณ)
- ๋ชฉํ: ์ค์ manipulation ์ํ
- ํน์ง: ์ ๋ฐํ ์คํ์ด ํ์์ . ์ ํํ ๊ถค์ ์ด ์ฑ๊ณต์ ํต์ฌ
- ์์: ํ๋ฌ๊ทธ๋ฅผ ์ค์ ๋ก ์์ผ์ ์ฝ์ ํ๋ ๊ณผ์
- ์ ๋ฐ์ฑ: ์์ ํธ์ฐจ๋ ์์ ์คํจ๋ก ์ด์ด์ง ์ ์์
2.2 ์ Decomposition์ด ํจ๊ณผ์ ์ธ๊ฐ?
์ด ๋ถํด๋ ๊ฐ ๋จ๊ณ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ํน์ฑ์ ๋ฐ์ํฉ๋๋ค:
- ์๋ก ๋ค๋ฅธ ์ ๋ฐ๋ ์๊ตฌ์ฌํญ: alignment๋ ์๋์ ์ผ๋ก ๊ด๋ํ์ง๋ง, interaction์ ๋งค์ฐ ์ ๋ฐํด์ผ ํฉ๋๋ค
- ํ์ต ๋์ด๋์ ์ฐจ์ด: ๊ฐ ๋จ๊ณ์ ํนํ๋ policy๋ ์ ์ฒด ๊ถค์ ์ ํ ๋ฒ์ ํ์ตํ๋ ค๋ monolithic policy๋ณด๋ค ๋ ์ฝ๊ฒ ํ์ตํ ์ ์์ต๋๋ค
- ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ: alignment ์ ๋ต์ ๋น์ทํ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ ๋ด์์ ๋ ์ฝ๊ฒ ์ ์ด๋ ์ ์์ต๋๋ค
์คํ ๊ฒฐ๊ณผ, decomposition ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ monolithic BC๋ณด๋ค ํ ์๋ฆฟ์(order of magnitude) ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ์ต๋๋ค.
3. MT3 ์์คํ ์ํคํ ์ฒ
3.1 ์์คํ ๊ฐ์
MT3๋ ๋ค์๊ณผ ๊ฐ์ ์ ๋ ฅ์ ๋ฐ์ต๋๋ค: - Segmented point cloud: ๋ชฉํ ๋ฌผ์ฒด์ 3D ํ์ ์ ๋ณด - Language description: ์์ ์ ๋ํ ์์ฐ์ด ์ค๋ช (์: โ๋ฌผ๋ณ ์ด๊ธฐโ)
๊ทธ๋ฆฌ๊ณ ๋ค์์ ์ถ๋ ฅํฉ๋๋ค: - Robot actions: end-effector์ ์์ง์๊ณผ gripper ์ํ
3.2 Retrieval-Based ์ ๊ทผ๋ฒ
MT3์ ๊ฐ์ฅ ๋ ํนํ ํน์ง์ ์์ ํ retrieval-based ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค. Behavioral cloning์ฒ๋ผ demonstration์ network weight์ ์ธ์ฝ๋ฉํ๋ ๋์ , demonstration์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ๊ณ inference ์์ ์ ๊ฐ์ฅ ์ ํฉํ demonstration์ ๊ฒ์ํฉ๋๋ค.
Hierarchical Retrieval Pipeline
MT3๋ 2๋จ๊ณ retrieval ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํฉ๋๋ค:
Stage 1: Language-Based Retrieval - task description์์ micro skill name ์ถ์ถ (์: โ๋ฌผ๋ณ ์ด๊ธฐโ) - ๋์ผํ micro skill์ ์ํํ๋ ๋ชจ๋ demonstration ํํฐ๋ง
Stage 2: Geometry-Based Retrieval - ๋ฌผ์ฒด์ ํ์๊ณผ pose ์ ์ฌ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ์ demonstration ์ ํ - PointNet++ ๊ธฐ๋ฐ encoder๋ฅผ ์ฌ์ฉํ์ฌ object embedding ์์ฑ - Cosine similarity๋ฅผ ํตํด ๊ฐ์ฅ ์ ์ฌํ demonstration ๊ฒ์
Point Cloud Encoder์ ํน์ง
์ฐ๊ตฌํ์ด ์ฌ์ฉํ point cloud encoder๋ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด ํน์ฑ์ ๋ณด์ ๋๋ค:
- ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง: t-SNE ์๊ฐํ ๊ฒฐ๊ณผ, object category๋ณ๋ก clustering๋๋ฉฐ, ๊ฐ category ๋ด์์ ๋ค์ instance๋ณ๋ก sub-clustering๋จ
- Pose ๋ฏผ๊ฐ์ฑ: ์ ์ฌํ pose์ ๋ฌผ์ฒด๋ค์ด embedding space์์ ๋ ๊ฐ๊น์ด ์์น
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ์๋ก์ด ๋ฌผ์ฒด instance์ ๋ํด์๋ ๋น์ทํ ํ์์ ๊ฐ์ง demonstration์ ํจ๊ณผ์ ์ผ๋ก ๊ฒ์
3.3 Alignment์ Interaction์ ์คํ
Retrieval-Based Alignment
- Pose Estimation: Trajectory Transfer ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ test scene์ ํ์ํ end-effector pose ๊ณ์ฐ
- Demonstration๊ณผ test scene ๊ฐ์ ์๋์ ๋ฌผ์ฒด pose (T_ฮด) ์ถ์
- Generalized ICP๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ฐ๋ ํฅ์
- Motion Planning: ๊ณ์ฐ๋ target pose๋ก ์ด๋ํ๋ collision-free ๊ถค์ ์์ฑ
์ํ์ ์ผ๋ก, test scene์์์ end-effector pose๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
T^Test_WE = T_ฮด ยท T^Demo_WE
์ฌ๊ธฐ์: - T^Test_WE: test scene์์์ end-effector pose - T^Demo_WE: demonstration์์์ end-effector pose - T_ฮด: demonstration๊ณผ test scene ๊ฐ์ ์๋์ ๋ณํ
Retrieval-Based Interaction
๊ฒ์๋ demonstration์ interaction trajectory๋ฅผ end-effector frame์์ ๊ทธ๋๋ก ์ฌํํฉ๋๋ค. ์ด๋ ๋๋๋๋ก ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ์ ๊ทผ๋ฒ์ ๋๋ค:
- demonstration์์ ๊ธฐ๋ก๋ end-effector velocity๋ฅผ end-effector frame ๊ธฐ์ค์ผ๋ก ์คํ
- ์ ํํ motion pattern์ ๋ณด์กด
- ์๋ก์ด ๋ฌผ์ฒด instance์ ๋ํด์๋ ๋์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
3.4 ์ Retrieval์ด ์๋ํ๋๊ฐ?
Retrieval-based interaction์ด ์ฑ๊ณต์ ์ธ ์ด์ ๋ ๋ ๊ฐ์ง ํต์ฌ ํต์ฐฐ์ ๊ธฐ๋ฐํฉ๋๋ค:
๊ถค์ ์ ๊ตฌ์กฐ์ ์ ์ฌ์ฑ: ๋์ผํ ๋ฌผ์ฒด ์นดํ ๊ณ ๋ฆฌ ๋ด์์ ์ต์ ์ interaction trajectory๋ ๋ฌผ์ฒด ํ์์ด ์๋นํ ๋ฌ๋ผ๋ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ์ ์งํฉ๋๋ค
Task Tolerance: ๋ง์ manipulation ์์ ๋ค์ด ๋ฌผ์ฒด ํ์์ ๋ณํ์ ๋ํด ์์ฐ์ค๋ฌ์ด ํ์ฉ ๋ฒ์๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค
- ์: ์๋ก ๋ค๋ฅธ ๋จธ๊ทธ์ปต์ ์ก์ ๋, ํฌ๊ธฐ์ ์์ก์ด ๋ชจ์์ ๋ค๋ฅผ ์ ์์ง๋ง ํต์ฌ ์ ๊ทผ ๋ฐฉ์๊ณผ grasping motion์ ์ผ๊ด๋ฉ๋๋ค
4. ๋น๊ต ์คํ: Decomposition์ ํจ๊ณผ ๊ฒ์ฆ
์ฐ๊ตฌํ์ decomposition์ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ฆํ๊ธฐ ์ํด 5๊ฐ์ง ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋น๊ตํ์ต๋๋ค:
4.1 ๋น๊ต ๋์ ๋ฐฉ๋ฒ๋ค
- MT-ACT+ (Monolithic BC): ์ ์ฒด trajectory๋ฅผ ๋จ์ผ policy๋ก ํ์ตํ๋ baseline
- BC-BC: Alignment์ Interaction ๋ชจ๋ BC๋ก ํ์ต
- BC-Ret: Alignment๋ BC, Interaction์ Retrieval
- Ret-BC: Alignment๋ Retrieval, Interaction์ BC
- Ret-Ret (MT3): Alignment์ Interaction ๋ชจ๋ Retrieval
4.2 ์คํ ์ค๊ณ
์ฐ๊ตฌํ์ ๋ ๊ฐ์ง ์ํธ๋ณด์์ ์ธ ์คํ์ ์ค๊ณํ์ต๋๋ค:
์คํ 1: Demonstrations per Task ํ์ฅ
- ๊ณ ์ : 4๊ฐ์ micro skill, 12๊ฐ์ seen tasks, 8๊ฐ์ unseen tasks
- ๋ณ์: demonstration ์ (1๊ฐ โ 50๊ฐ)
- ๋ชฉํ: ์ถ๊ฐ demonstration์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์
์ ํ๋ micro skill: - Insert book in backpack (๊ด์ ํ ๋ฌผ์ฒด ์กฐ์) - Insert bread in toaster (์ฝ์ ์์ ) - Open box (๊ด์ ํ ๋ฌผ์ฒด ์กฐ์) - Scoop pancake from pan (scooping ์์ )
์คํ 2: Task ์ ํ์ฅ
- ๊ณ ์ : ์ด 150๊ฐ์ demonstration
- ๋ณ์: Task ์์ ๋ถํฌ
- 10 tasks ร 15 demos
- 30 tasks ร 5 demos
- 50 tasks ร 3 demos
- ๋ชฉํ: task diversity๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์
4.3 ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ ์ฒด ์ฑ๋ฅ ๋น๊ต
์คํ ๊ฒฐ๊ณผ๋ ๋ช ํํ ์ฑ๋ฅ ๊ณ์ธต์ ๋ณด์ฌ์ค๋๋ค:
- MT3 (Ret-Ret)๊ฐ ์๋์ ์ฐ์:
- ๋ชจ๋ data regime์์ ์ผ๊ด๋๊ฒ ์ต๊ณ ์ฑ๋ฅ
- 3 demos/task๋ก๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ 50 demos/task ์ฑ๋ฅ์ ๋ฅ๊ฐ
- Seen tasks์ unseen tasks ๋ชจ๋์์ ์ฐ์ํ ์ฑ๋ฅ
- Decomposition์ ์ผ๊ด๋ ์ด์ :
- ๋ชจ๋ decomposition ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ด monolithic baseline(MT-ACT+) ๋ฅ๊ฐ
- ํนํ limited demonstration regime(<10 demos/task)์์ ํฐ ๊ฒฉ์ฐจ
Decomposition vs. Monolithic: ์ฌ์ธต ๋ถ์
Dataset Size์ ๋ฐ๋ฅธ ํ์ต ์ญํ:
- Decomposition ๋ฐฉ๋ฒ๋ค:
- 1-10 demos/task ๊ตฌ๊ฐ์์ ๊ธ๊ฒฉํ ์ฑ๋ฅ ํฅ์
- 1 demo/task๋ง์ผ๋ก๋ MT-ACT+์ 10 demos/task ์ฑ๋ฅ ์ด๊ณผ
- 50 demos/task์์ ์ฑ๋ฅ ํฌํ ๊ฒฝํฅ
- Monolithic (MT-ACT+):
- ์ด๊ธฐ ์ง์ ์ด ๋๋ฆผ
- 10โ50 demos/task์์ ํฐ ์ฑ๋ฅ ํฅ์
- Decomposition๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ์ง๋ง ์ฌ์ ํ ๋ฎ์ ์ ๋ ์ฑ๋ฅ
์ด๋ decomposition์ด task ๊ตฌ์กฐ๋ฅผ ๋ณธ์ง์ ์ผ๋ก ํ์ฉํ๋ ๋ฐ๋ฉด, monolithic ์ ๊ทผ๋ฒ์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ด ๊ตฌ์กฐ๋ฅผ ํ์ตํด์ผ ํจ์ ์์ฌํฉ๋๋ค.
Task Diversity ํจ๊ณผ:
- Decomposition ๋ฐฉ๋ฒ๋ค:
- Seen tasks: task diversity ์ฆ๊ฐ ์ ์ฑ๋ฅ ๊ฐ์ (demonstration์ด ๋ ๋ถ์ฐ๋๋ฏ๋ก)
- Unseen tasks: task diversity ์ฆ๊ฐ ์ ์ฑ๋ฅ ํฅ์ (๋ ๋ค์ํ ๋ฌผ์ฒด instance ๊ฒฝํ)
- Monolithic (MT-ACT+):
- Seen/unseen tasks ๋ชจ๋์์ task diversity ์ฆ๊ฐ ์ ์ฑ๋ฅ ํฅ์
- ์๋ก ๋ค๋ฅธ ๋ฌผ์ฒด instance์ manipulation์์ ํจํด์ ์ฐพ๋ ๋ฅ๋ ฅ ํฅ์
- ํ์ง๋ง ์ฌ์ ํ decomposition ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ฎ์ ์ ๋ ์ฑ๋ฅ
ํต๊ณ์ ์ ์์ฑ
๋ชจ๋ ์คํ ์กฐ๊ฑด์์ decomposition ๋ฐฉ๋ฒ๋ค๊ณผ MT-ACT+ ๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด๋ two-proportion Z-test๋ก ํต๊ณ์ ์ผ๋ก ์ ์ํจ์ ํ์ธํ์ต๋๋ค.
4.4 Retrieval vs. Behavioral Cloning
๊ฐ phase(alignment, interaction)์ ๋ํด retrieval๊ณผ BC๋ฅผ ๋น๊ตํ ๊ฒฐ๊ณผ:
Alignment Phase
- Retrieval-based (Ret-Ret + Ret-BC) > BC-based (BC-Ret + BC-BC)
- ๋ชจ๋ data regime์์ ์ผ๊ด๋ ์ฐ์
- ํนํ limited demonstration ํ๊ฒฝ์์ ํฐ ๊ฒฉ์ฐจ
Interaction Phase
- Retrieval-based (Ret-Ret + BC-Ret) > BC-based (Ret-BC + BC-BC)
- Unseen tasks์์๋ ๋์ ์ฑ๋ฅ ์ ์ง
- ๋จ์ํ demonstration์ replayํ๋ ๋ฐฉ์์์๋ ํจ๊ณผ์
๋๋ผ์ด ๋ฐ๊ฒฌ: Retrieval-Based Interaction์ ํจ๊ณผ
Retrieval-based interaction์ด ์๋ก์ด ๋ฌผ์ฒด instance์ ๋ํด์๋ ์ ์๋ํ๋ ์ด์ :
- ๊ถค์ ๊ตฌ์กฐ์ ์์ ์ฑ: ๋์ผ ์นดํ ๊ณ ๋ฆฌ ๋ด ๋ฌผ์ฒด๋ค์ ํ์์ด ๋ค์ํด๋ ์ ์ฌํ ์ต์ interaction trajectory๋ฅผ ๊ฐ์ง
- ์์ฐ์ค๋ฌ์ด ํ์ฉ ๋ฒ์: ๋ง์ manipulation task๊ฐ ํ์ ๋ณํ์ ๋ํ tolerance๋ฅผ ๊ฐ์ง
- BC๋ ๋์ผํ ์ด์ : BC ์ ๊ทผ๋ฒ๋ ์ด๋ฌํ ํน์ฑ์ผ๋ก๋ถํฐ ์ด๋์ ์ป์ง๋ง, retrieval์ด ๋ ์ง์ ์ ์ผ๋ก ํ์ฉ
5. ์ฒ ๊ฐ ์์ ํ์ต: ์ ๋ก ์๋ ๊ท๋ชจ์ ์คํ
5.1 ์คํ ๊ท๋ชจ์ ๋์ ๊ณผ์
์ฐ๊ตฌํ์ MT3์ ์ค์ฉ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋จ์ผ demonstration per task๋ก 1,000๊ฐ์ manipulation ์์ ์ ํ์ตํ๋ ์ ๋ก ์๋ ๊ท๋ชจ์ ์คํ์ ์ํํ์ต๋๋ค.
์์ ์ ๋ค์์ฑ
- 31๊ฐ์ macro skills: pour, insert, fold, grasp, swipe, twist, zip, dust ๋ฑ
- 534๊ฐ์ micro skills: ์์
- โpour wine from wine bottle into wine glassโ
- โpour milk from carton into bowlโ
- โinsert plate into plate rackโ
- โinsert plug into socketโ
- โfold towelโ, โfold t-shirtโ
- 402๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฌผ์ฒด: ์ผ์์ ์ธ ๊ฐ์ ์ฉํ๋ค
๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต
| ์ฐ๊ตฌ | Tasks | Objects | Demos/Task | ์์ง ๊ธฐ๊ฐ |
|---|---|---|---|---|
| BC-Z | 100 | ~12-70 | ~250 | 125 hours |
| RT-1 | 744 | ~12-70 | ~175 | 17 months |
| MT-ACT | 38 | ~12-70 | ~200 | 2 months |
| MT3 | 1,000 | 402 | 1 | <24 hours |
MT3๋ ์์ ๋ค์์ฑ์์๋ ์ฝ 10๋ฐฐ, ๋ฌผ์ฒด ๋ค์์ฑ์์๋ ์ฝ 6๋ฐฐ, ๋ฐ์ดํฐ ํจ์จ์ฑ์์๋ 175๋ฐฐ ์ด์์ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.
5.2 ์คํ ์กฐ๊ฑด์ ๋์ด๋
์ฐ๊ตฌํ์ MT3์ ๋ฅ๋ ฅ์ ์ฒ ์ ํ ๊ฒ์ฆํ๊ธฐ ์ํด ์๋์ ์ผ๋ก ์ด๋ ค์ด ์กฐ๊ฑด์ ์ค์ ํ์ต๋๋ค:
๋ฌผ์ฒด ๋ค์์ฑ
- ํฌ๋ช /๋ฐํฌ๋ช ๋ฌผ์ฒด: ํ๋ผ์คํฑ ์ฉ๊ธฐ, ์ ๋ฆฌ์ปต (depth sensor์ ์ด๋ ค์)
- ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด: ์ท๊ฐ์ง
- ๋ฐ์ฌ์ฑ ๋ฌผ์ฒด: ๊ธ์ ํ ์คํฐ
- ๊ด์ ํ ๋ฌผ์ฒด: ์๋์ฅ, ์์
ํ๊ฒฝ์ ๋ณํ
- Distractor objects: ๊ฐ ํ๊ฐ๋ง๋ค 5-20๊ฐ์ ๋ฐฉํด ๋ฌผ์ฒด ๋ฐฐ์น
- ์กฐ๋ช ๋ณํ: LED ์กฐ๋ช ์ ์์๊ณผ ๊ฐ๋๋ฅผ ๋ฅ๋์ ์ผ๋ก ๋ณ๊ฒฝ
- ๋ฌผ์ฒด ์์น ๋ฌด์์ํ: workspace ๋ด ์ด๋๋ ๋ฐฐ์น, ์ต๋ 45๋ ํ์
- ํ๋ฉด ์์ ๋ณ๊ฒฝ: demonstration๊ณผ testing ๊ฐ ์๋์ ์ผ๋ก ๋ค๋ฅธ ์์ ์ฌ์ฉ
5.3 ์ฑ๋ฅ ๊ฒฐ๊ณผ
์ ์ฒด ์ฑ๊ณต๋ฅ
- Seen tasks: 78.25% (1,000 tasks, 2 trials each)
- Unseen tasks: 65.66% (100 tasks, 2 trials each)
์ด๋ ๋จ์ผ demonstration๋ง์ผ๋ก ํ์ตํ๊ณ , ์ ๋ก ์๋ ์์ ๋ค์์ฑ๊ณผ challenging ์ค์ธ๊ณ ์กฐ๊ฑด์ ๊ณ ๋ คํ ๋ ๋งค์ฐ ์ธ์์ ์ธ ๊ฒฐ๊ณผ์ ๋๋ค.
Macro Skill๋ณ ์ฑ๋ฅ ๋ถ์
์ฑ๋ฅ์ ์์ ์ ์ ๋ฐ๋ ์๊ตฌ์ฌํญ๊ณผ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ ๋๋ค:
๊ณ ์ฑ๊ณต๋ฅ ์์ (80-90%+):
- Stacking: ๋ฌผ์ฒด๋ฅผ ์๋ ์์
- Dusting: ๋จผ์ง ๋ฆ๊ธฐ
- Grasping: ๋ฌผ์ฒด ์ก๊ธฐ
- ํน์ง: ์คํ์ ๋ถ์์ ํจ์ ๋ํ ๋์ tolerance
์ค๊ฐ ์ฑ๊ณต๋ฅ ์์ (60-80%):
- Pouring: ๋ฌผ์ฒด ๋ฐ๋ฅด๊ธฐ
- Scooping: ๋ ๋ด๊ธฐ
- Opening/Closing: ์ด๊ธฐ/๋ซ๊ธฐ
์ ์ฑ๊ณต๋ฅ ์์ (40-60%):
- Insertion: ์ฝ์ ์์
- Hanging: ๊ฑธ๊ธฐ
- ํน์ง: ๋งค์ฐ ์ ๋ฐํ ์คํ์ด ์๊ตฌ๋จ, ๋ฎ์ ์ค๋ฅ ํ์ฉ ๋ฒ์
5.4 ์คํจ ์ฌ๋ก ๋ถ์
์ฐ๊ตฌํ์ seen tasks์ ๋ํ ์ฒด๊ณ์ ์ธ failure mode analysis๋ฅผ ์ํํ์ต๋๋ค:
์คํจ ์์ธ ๋ถํฌ
- Pose Estimation ์คํจ (23.9%):
- demonstration ๋๋น ๊ธ๊ฒฉํ pose ๋ณํ
- ๋น๋์นญ ํ์์ผ๋ก ์ธํ ๋ถ๋ถ point cloud์ ํฐ ์ฐจ์ด
- ์๊ทผ ๋ณํ๋ก ์ธํ ๋ฌธ์
- ํด๊ฒฐ์ฑ : ๋ค์ค ์นด๋ฉ๋ผ ์์คํ ์ผ๋ก ๋ ์์ ํ ๊ธฐํํ์ ์ ๋ณด ์ ๊ณต
- Retrieval ์คํจ (22.3%):
- ๋ถ๋ถ์ ์ผ๋ก ๊ฐ๋ ค์ง ๋ฌผ์ฒด
- ์์ ๋ฌผ์ฒด ๋ถ๋ถ์ ๊ด๋ จ ๋ณํ๋ฅผ ์๋ณํ๊ธฐ ์ด๋ ค์
- ํด๊ฒฐ์ฑ : ๋ค์ค ์นด๋ฉ๋ผ๋ก ๋ ์์ ํ ๋ฌผ์ฒด ๊ด์ฐฐ, ๊ด๋ จ ๋ฌผ์ฒด ๋ถ๋ถ ๋ถ๋ฆฌ ๊ธฐ๋ฒ ๊ฐ์
- Segmentation ์คํจ (19.5%):
- ํฌ๋ช ๋ฌผ์ฒด
- ๋น์ทํ๊ฒ ์๊ธด ๋ฌผ์ฒด๋ค์ด ์๋ cluttered scene
- ์ ๋ง: Segmentation ๋ชจ๋ธ์ ์ง์์ ์ธ ๋ฐ์ ์ผ๋ก ๊ฐ์ ์์
- Grasped Object ๊ด๋ จ ๋ฌธ์ (20.2%):
- Demonstration๊ณผ deployment ๊ฐ ์ผ๊ด๋์ง ์์ ๋ฌผ์ฒด ๋ฐฐ์น
- ์ฝ์ ์ด๋ scooping ๊ฐ์ ์์ ์์ ์ฃผ๋ก ๋ฐ์
- ํด๊ฒฐ์ฑ : Papagiannis et al. (2024)์ ๋ฐฉ๋ฒ์ ํตํด ๋ค์ํ grasp์ ๋ํ ์ผ๋ฐํ
- Motion Planning/Kinematics (5.3%):
- ๋น๊ต์ ๋๋ฌผ๊ฒ ๋ฐ์
- ์์ํ planning ๋ฌธ์ ๋ ์ฃผ์ bottleneck์ด ์๋
- ๊ธฐํ (9.0%):
- Calibration drift
- ๋ฏธ์ธํ misalignment ์ค๋ฅ
ํต์ฌ ํต์ฐฐ
- Perception์ด ์ฃผ์ ๋ณ๋ชฉ: Segmentation, retrieval, pose estimation์ด ์ ์ฒด ์คํจ์ ์ฝ 66% ์ฐจ์ง
- Motion execution์ robust: ์์ํ motion ๋ฌธ์ ๋ 5.3%์ ๋ถ๊ณผ
- ๊ฐ์ ๋ฐฉํฅ์ด ๋ช ํ: ๋ค์ค ์นด๋ฉ๋ผ ์์คํ ๊ณผ ๋ ๋์ perception ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋๋ถ๋ถ์ ๋ฌธ์ ํด๊ฒฐ ๊ฐ๋ฅ
6. ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ
6.1 ํ๋์จ์ด ๊ตฌ์ฑ
- ๋ก๋ด ํ๋ซํผ: Sawyer robot arm
- End-effector: 2F-85 Robotiq gripper
- Sensing: RealSense D415 RGB-D camera (head-mounted)
- ์์ ๊ณต๊ฐ: 80 ร 45 cm
์ด๋ minimal hardware setup์ผ๋ก, ๋น์ฉ ํจ์จ์ฑ์ ๊ณ ๋ คํ ์ ํ์ ๋๋ค.
6.2 Demonstration ์์ง ๋ฐ ์ฒ๋ฆฌ
Demonstration ํํ
Demonstration ฯ๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค:
ฯ = {o_i, e_i}^N_{i=1}
์ฌ๊ธฐ์: - o_i: RGB-D ์ด๋ฏธ์ง ๊ด์ฐฐ - e_i: End-effector ์ํ (6D pose + gripper state) - N: ์ํ์ค ๊ธธ์ด - ์ํ๋ง ๋ ์ดํธ: 30 Hz
๊ฐ demonstration์ language description l๊ณผ ํจ๊ป ์ ์ฅ๋ฉ๋๋ค.
์์ง ์ ๋ต
Interaction Phase๋ง ๊ธฐ๋ก: - Alignment phase๋ ์ต์ข pose๋ง ์ค์ํ๋ฏ๋ก ์ค์ ๊ถค์ ๊ธฐ๋ก ๋ถํ์ - ํฉ์ฑ alignment trajectory ์์ฑ ๊ฐ๋ฅ
์ฅ์ : 1. ์์ง ์๊ฐ ๋จ์ถ 2. Demonstration ๋ถํด๊ฐ ์์ฐ์ค๋ฌ์ 3. Synthetic data augmentation ์ฉ์ด
Point Cloud ์์ฑ Pipeline
- Segmentation:
- ์ฒซ ํ๋ ์: Grounding DINO๋ก ๋ชฉํ ๋ฌผ์ฒด segmentation
- ํ์ ํ๋ ์: XMem์ผ๋ก segmentation ์ ํ (occlusion ์ฒ๋ฆฌ ๊ฐ๋ฅ)
- Point Cloud ๋ณํ:
- RGB-D + segmentation mask โ target object point cloud
- Retrieval: robot frame ๊ธฐ์ค
- BC training: end-effector frame ๊ธฐ์ค (spatial generalization ํฅ์)
6.3 Behavioral Cloning ๊ตฌํ
์ฐ๊ตฌํ์ด decomposition๊ณผ monolithic์ ๊ณต์ ํ๊ฒ ๋น๊ตํ๊ธฐ ์ํด ๊ตฌํํ BC ์์คํ ์ ์ธ๋ถ์ฌํญ:
Network Architecture: MT-ACT+
์ ๋ ฅ ์ฒ๋ฆฌ: - Point Cloud Encoder: PointNet++ (clustering + per-cluster embedding) - Task Conditioning: FiLM (Feature-wise Linear Modulation) - CLIP embedding of task description - Point cloud features๋ฅผ task-specificํ๊ฒ ์กฐ์ - Multi-modal Modeling: Variational Inference - Valid action์ multi-modal distribution ๋ชจ๋ธ๋ง - Diffusion model ๋๋น ๊ณ์ฐ ํจ์จ์
์ถ๊ฐ ์ ๋ ฅ: - Action history (task progress ์ถ๋ก ์ฉ) - Terminal action output (๋ช ์์ ์๋ฃ ์ ํธ)
MT-ACT์์ ์ฐจ์ด์ : - Point cloud input ์ง์ - Proprioception ์ ๊ฑฐ (spatial generalization ํฅ์) - Action history ํฌํจ - ๊ฐ data regime๋ณ ์ต์ ํ๋ parameter ์
Loss Function
VAE objective ์ฌ์ฉ:
min_ฮธ ฮฃ_{o_i,a_i,l~D} ฯ_ฮธ(a_{i:i+k} | o_i, l)
๊ตฌ์ฑ: - Reconstruction loss - KL divergence term (Gaussian prior์ ๋ํ regularization) - Learned weighting with homoscedastic uncertainty (Kendall & Cipolla, 2017)
Action Representation
- Action chunking: k-step future actions ์์ธก
- Relative poses: ํ์ฌ end-effector pose ๋๋น ์๋์ pose
- Orientation: Angle-axis representation
- Spatial resolution: 1cm ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก waypoint ์ํ๋ง
Data Augmentation
๊ณตํต Augmentation: 1. Point cloud masking: - Furthest point sampling โ 10 clusters - Random 4 clusters masking (partial occlusion robustness)
- Noise injection:
- Point cloud์ Gaussian noise
- Action history label์ Gaussian noise
Interaction-specific Augmentation: - End-effector pose perturbation: - ์์น: ยฑ0.9 cm - ๋ฐฉํฅ: ยฑ5 degrees - State, action label, history label ์ ๋ฐ์ดํธ - Covariate shift์ ๋ํ robustness ํฅ์
Synthetic Alignment Trajectories
BC alignment policy์ MT-ACT+ baseline์ ์ํด ํฉ์ฑ ๊ถค์ ์์ฑ:
- ์์ pose ์ํ๋ง: 30ร80ร80 cm cuboid ๋ด
- Linear trajectory: ์์ โ demonstration ์ฒซ pose
- Demonstration๋น 1,000๊ฐ trajectory ์์ฑ
- ์ถ๊ฐ perturbation: ์ต์ข alignment pose ๊ทผ์ฒ (1mm-1cm, 0.5-5 degrees)
6.4 Retrieval System ์ธ๋ถ์ฌํญ
Object Embedding Network
์ํคํ ์ฒ: - Encoder: PointNet++ ๊ธฐ๋ฐ - Training: Auto-encoder framework - Point cloud โ embedding โ occupancy grid - Loss: Binary cross-entropy - Dataset: Object-centric dataset (Vitiello et al., 2023)
Embedding Space ํน์ฑ: - Category-level clustering: ๋์ผ category์ ๋ฌผ์ฒด๋ค์ด clustering - Instance-level sub-clustering: ๊ฐ category ๋ด์์ instance๋ณ ๊ตฌ๋ถ - Pose sensitivity: ์ ์ฌํ pose๊ฐ ๊ฐ๊น์ด embedding
Retrieval ํ๋ก์ธ์ค
- Language matching: Task description โ micro skill name ์ถ์ถ
- Geometry matching:
- Test object point cloud โ embedding (PointNet++)
- Cosine similarity ๊ณ์ฐ
- ์ต๊ณ similarity demonstration ์ ํ
Pose Estimation: Trajectory Transfer
ํต์ฌ ์์ด๋์ด:
T^Test_WE = T_ฮด ยท T^Demo_WE
T_ฮด ์ถ์ : 1. Initial estimate: Regression method (Vitiello et al., 2023) 2. Refinement: Generalized ICP (Open3D implementation) - Point cloud alignment - Iterative closest point with generalization
7. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
7.1 Trajectory Decomposition
์ ์ฌ ์ ๊ทผ๋ฒ: - Perceiver-Actor (Shridhar et al., 2022): Waypoint decomposition - ChainedDiffuser (Xian et al., 2023): Keypose prediction - Coarse-to-Fine Imitation Learning (Johns, 2021): Single demonstration learning - DOME (Valassakis et al., 2022): One-shot visual servoing
MT3์ ์ฐจ๋ณ์ : - ๋ ๋์ ๋ฒ์์ ํ์ต ์ ๋ต ํ์ - Systematic evaluation of design choices - Unprecedented scale (1,000 tasks)
7.2 Retrieval for Imitation Learning
๊ธฐ์กด ์ฐ๊ตฌ: - VINN (Pari et al., 2022): Nearest-neighbor retrieval - Frame-by-frame k-NN - Action averaging - ํ๊ณ: ๋จ์ผ phase, ์ ํ๋ ์ผ๋ฐํ
- DINOBot (Di Palo & Johns, 2024): DINO-ViT features
- Image-level retrieval + pixel-level alignment
- Foundation model ํ์ฉ
- ํ๊ณ: RGB๋ง ์ฌ์ฉ, task description ๋ฏธํ์ฉ
MT3์ ๊ฐ์ ์ : - Hierarchical retrieval: Language + geometry - Task description ํ์ฉ: Micro skill filtering - Object geometry: 3D point cloud embedding - Systematic evaluation: Scaling๊ณผ diversity ํจ๊ณผ ๋ถ์
7.3 Large-Scale Robot Learning
Foundation Model ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ: - RT-1, RT-2 (Brohan et al., 2023; Zitkovich et al., 2023) - RoboCat (Bousmalis et al., 2024) - Octo (Octo Model Team et al., 2024) - ฯ0 (Black et al., 2024)
์ฐจ์ด์ :
| ํน์ฑ | Foundation Models | MT3 |
|---|---|---|
| Approach | End-to-end learning | Structural decomposition |
| Data requirement | ์๋ฐฑ demos/task | 1 demo/task |
| Generalization | Internet-scale pre-training | Retrieval + geometric reasoning |
| Interpretability | Black-box | Explicit phases |
| Scalability | ๋ง๋ํ ์ปดํจํ ํ์ | ํจ์จ์ |
๋ณด์์ ๊ด๊ณ: - Foundation models: Broad world knowledge, semantic understanding - MT3: Data efficiency, explicit reasoning, interpretability
8. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
8.1 ํ์ฌ ํ๊ณ์
1. Task ์ ์์ ์ ์ฝ
- Single interaction tasks: ํ๋์ ๋ฌผ์ฒด์ ๋จ์ผ ์ํธ์์ฉ๋ง ๋ค๋ฃธ
- Multi-step behaviors: Pick-and-place ๊ฐ์ ๋ณตํฉ ์์ ์ chaining ํ์
- ํฅํ: High-level planner์์ ํตํฉ (๋ ผ๋ฌธ ์น์ฌ์ดํธ์ ์์ ์์)
2. Grasped Object Assumption
- ๊ฐ์ : Demonstration๊ณผ testing์์ gripper ๋ด ๋ฌผ์ฒด pose ๋์ผ
- ๋ฌธ์ : Insertion, scooping ๊ฐ์ ์์ ์์ 20.2% ์คํจ ์์ธ
- ํด๊ฒฐ์ฑ : Papagiannis et al. (2024) ๋ฐฉ๋ฒ ์ ์ฉ ๊ฐ๋ฅ
3. Perception ์์กด์ฑ
- ์ฃผ์ ์คํจ ์์ธ: Segmentation (19.5%), Retrieval (22.3%), Pose estimation (23.9%)
- ํนํ ์ด๋ ค์ด ๊ฒฝ์ฐ:
- ํฌ๋ช /๋ฐํฌ๋ช ๋ฌผ์ฒด
- Cluttered scenes
- Occluded objects
- Drastic pose changes
4. Single Camera ํ๊ณ
- ๋ฌธ์ : Incomplete object observation, perspective-dependent challenges
- ์ํฅ: Retrieval ๋ฐ pose estimation ์ ํ๋ ์ ํ
- ํด๊ฒฐ์ฑ : Multi-camera setup์ผ๋ก ๋๋ถ๋ถ ํด๊ฒฐ ๊ฐ๋ฅ
8.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
1. Perception ๊ฐ์
Multi-Camera System: - ๋ ์์ ํ object observation - Perspective variation ๊ฐ์ - Occlusion handling ๊ฐ์ - ์์ ํจ๊ณผ: ์คํจ์จ์ ์ฝ 66% ๊ฐ์ ๊ฐ๋ฅ
Advanced Segmentation: - Transparent object handling - Cluttered scene robustness - Foundation model ๊ธฐ๋ฐ segmentation (SAM ๋ฑ)
Robust Pose Estimation: - Learning-based registration - Multi-view consistency - Symmetry handling
2. Retrieval System ๊ณ ๋ํ
๋ sophisticated matching: - Part-level similarity - Task-relevant feature emphasis - Context-aware retrieval
Active learning: - Uncertainty-aware demonstration selection - Optimal demonstration set curation
3. ์ผ๋ฐํ ๋ฅ๋ ฅ ํ์ฅ
Cross-Category Transfer: - ํ์ฌ: Same category์ novel instances - ๋ชฉํ: Similar manipulation์ ์๊ตฌํ๋ different categories
Few-Shot Adaptation: - ๋ช ๊ฐ์ ์ถ๊ฐ demonstration์ผ๋ก ์๋ก์ด task category ํ์ต - Meta-learning๊ณผ์ ๊ฒฐํฉ
4. ๋ณต์กํ ์์ ์ผ๋ก ํ์ฅ
Multi-Object Manipulation: - ์ฌ๋ฌ ๋ฌผ์ฒด์์ ๋์ ์ํธ์์ฉ - Object rearrangement
Long-Horizon Tasks: - Hierarchical planning๊ณผ์ ํตํฉ - Task decomposition at multiple levels
Bimanual Manipulation: - ์์ ํ์ - ๋ ๋ณต์กํ ์กฐ์ ๊ฐ๋ฅ
5. Safety์ Robustness
Failure Detection and Recovery: - Online monitoring - Automatic retry with alternative demonstrations
Safe Exploration: - Constraint-aware execution - Collision avoidance in cluttered environments
6. Foundation Model๊ณผ์ ํตํฉ
Vision-Language Models: - Better task understanding - Natural language interaction - Scene understanding
Hybrid Approach: - Foundation model์ semantic knowledge - MT3์ data efficiency์ geometric reasoning - ์ต๊ณ ์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ์ฑ
ํต์ฌ ๊ธฐ์ฌ ์์ฝ
- Decomposition Prior์ ์ฒด๊ณ์ ๊ฒ์ฆ:
- Alignment-interaction ๋ถํด๊ฐ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํ ์๋ฆฟ์ ๊ฐ์
- Limited demonstration regime(<10 demos/task)์์ ํนํ ํจ๊ณผ์
- 3,450 real-world rollouts๋ก ์ฒ ์ ํ ๊ฒ์ฆ
- Retrieval-Based Learning์ ์ฌ๋ฐ๊ฒฌ:
- BC ๋๋น superior performance in low-data regime
- ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ์ ๊ทผ๋ฒ
- Seen๊ณผ unseen tasks ๋ชจ๋์์ ๊ฐ๋ ฅํ ์ผ๋ฐํ
- ์ ๋ก ์๋ ๊ท๋ชจ์ ์ค์ฆ:
- 1,000 tasks, 402 objects, 31 macro skills
- ๋จ์ผ demonstration per task
- 24์๊ฐ ์ด๋ด ์์ง
- ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น 2-3 orders of magnitude ๊ฐ์
- ์คํจ ๋ชจ๋์ ์ฒด๊ณ์ ๋ถ์:
- Perception์ด ์ฃผ์ ๋ณ๋ชฉ (66% ์คํจ ์์ธ)
- Motion execution์ robust (5.3% ์คํจ)
- ๋ช ํํ ๊ฐ์ ๋ฐฉํฅ ์ ์
์คํ ์ค๊ณ:
- Controlled experiments๋ก ๊ฐ component์ ํจ๊ณผ ๋ถ๋ฆฌ
- Multiple data regimes ํ๊ฐ
- Statistical significance ๊ฒ์ฆ
- Fair comparison์ ์ํ ์ธ์ฌํ ๊ตฌํ
Evaluation Rigor:
- Challenging real-world conditions
- Diverse object types and environments
- Systematic failure analysis
- Transparent reporting
์ด๋ก ์ ํต์ฐฐ
Why Decomposition Works:
- Alignment๊ณผ interaction์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ํน์ฑ ํ์ฉ
- ๊ฐ phase์ ํนํ๋ policy์ ํ์ต ์ฉ์ด์ฑ
- Tolerance์ precision requirements์ ์ ์ ํ ๋งค์นญ
Why Retrieval Works:
- Optimal trajectory์ ๊ตฌ์กฐ์ ์ ์ฌ์ฑ
- Task tolerance์ ํจ๊ณผ์ ํ์ฉ
- Geometric reasoning์ ์ง์ ์ฑ๊ณผ ํจ์จ์ฑ
ํ์ฌ ํ๊ณ:
- Perception ์์กด์ฑ (ํนํ transparent objects, occlusion)
- Single interaction tasks๋ก ์ ํ
- Grasped object pose consistency ๊ฐ์
๊ฐ์ ๊ฒฝ๋ก:
- Multi-camera perception
- Hierarchical planning ํตํฉ
- Advanced grasp adaptation
- Foundation model integration
MT3๋ โscaling lawsโ์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ์ ๊ธฐํฉ๋๋ค.
- ๋ ๋ง์ ๋ฐ์ดํฐ์ ๋ ํฐ ๋ชจ๋ธ์ด ํญ์ ๋ต์ธ๊ฐ?
- Structural priors์ domain knowledge๋ ์ด๋ป๊ฒ ํ์ฉํด์ผ ํ๋๊ฐ?
- Data efficiency์ generalization์ ์ต์ balance๋?
์ด ์ฐ๊ตฌ๋ โBetter architecture beats bigger dataโ๋ผ๋ ๋ช ์ ๋ฅผ ๊ฐ๋ ฅํ ์ง์งํ๋ฉฐ, ์์ผ๋ก์ ๋ก๋ด ํ์ต ์ฐ๊ตฌ๊ฐ ๋ ๋ฐฉํฅ์ ๋ชจ๋ ์ถ๊ตฌํด์ผ ํจ์ ์์ฌํฉ๋๋ค:
- Efficiency-Focused Approach (MT3 style):
- Structural priors ํ์ฉ
- Explicit reasoning
- Data efficiency ์ฐ์
- Scale-Focused Approach (Foundation Models):
- Large-scale pre-training
- Emergent capabilities
- Broad generalization
์ฐ๊ตฌ์ ๊ฐ์
1. ๋ช ํํ ๋๊ธฐ์ ๋ฌธ์ ์ ์: - ํ์ฌ ์์คํ ์ ๋นํ์ค์ ์ธ ๋ฐ์ดํฐ ์๊ตฌ๋์ ์ ํํ ์ง์ - ์๋ฌผํ์ ํ์ต๊ณผ์ ๋น๊ต๋ก ๊ฐ์ ์ฌ์ง ๋ช ํํ
2. ์ฒด๊ณ์ ์ธ ์คํ ์ค๊ณ: - Controlled experiments๋ก ๊ฐ design choice์ ํจ๊ณผ ๋ถ๋ฆฌ - Multiple perspectives (dataset size, diversity) ํ๊ฐ - Statistical rigor
3. ์ ๋ก ์๋ ๊ท๋ชจ์ ์ค์ฆ: - Talk is cheap, show me the code/results - 1,000 tasks๋ ๋จ์ํ ์ซ์ ์ด์์ ์๋ฏธ - ์ค์ธ๊ณ challenging conditions
4. ํฌ๋ช ํ ๋ถ์: - ์คํจ ์ฌ๋ก์ ์์งํ ๋ณด๊ณ - ๊ฐ component์ ํ๊ณ ๋ช ์ - Future work ๋ฐฉํฅ ์ ์
๊ฐ์ ๊ฐ๋ฅํ ์
1. BC Baseline์ ๊ณต์ ์ฑ: - MT-ACT+ ๊ตฌํ์ด ์๋ณธ MT-ACT์ ๋์ผํ์ง ๋ถ๋ช ํ - ๋ ๊ฐ๋ ฅํ BC baseline (e.g., diffusion models) ๋น๊ต ํ์ - Point cloud input์ผ๋ก์ ๋ณํ์ด ๋ถ๋ฆฌํ๊ฒ ์์ฉํ์ ๊ฐ๋ฅ์ฑ
2. Generalization ํ๊ฐ์ ์ ํ: - Unseen tasks๊ฐ ๊ฐ์ macro skill ๋ด์๋ง ๊ตญํ - Cross-category transfer ํ๊ฐ ๋ถ์กฑ - Novel manipulation types์ ๋ํ zero-shot ๋ฅ๋ ฅ ๋ฏธํ์ธ
3. Multi-Step Tasks์ ๋ถ์ฌ: - Single interaction ํ๊ณ - Long-horizon tasks์์์ ์ฑ๋ฅ ๋ถ๋ช ํ - High-level planning๊ณผ์ ํตํฉ ์ค์ฆ ๋ถ์กฑ
4. Comparison์ ๋ฒ์: - Recent foundation models (Octo, ฯ0)์ ์ง์ ๋น๊ต ๋ถ์ฌ - ๊ฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํ SOTA methods ๋น๊ต ํ์
ํฅํ ์ฐ๊ตฌ ์ ์
1. Adaptive Decomposition:
- Task์ ๋ฐ๋ผ dynamicํ๊ฒ decomposition strategy ์ ํ
- Learning when to decompose
2. Hierarchical Retrieval:
- Multi-level similarity (category โ instance โ pose)
- Context-aware demonstration selection
3. Active Demonstration Collection:
- Uncertainty-guided demonstration request
- Minimal demonstration set for maximum coverage
4. Foundation Model Integration:
- VLM for better task understanding
- Semantic guidance for retrieval
- Hybrid reasoning (explicit + implicit)
๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ๋์ง๋ ์ง๋ฌธ
- ๋ฐ์ดํฐ vs. ๊ตฌ์กฐ: Scaling laws์ ํ๊ณ๋ ์ด๋์ธ๊ฐ?
- Explicit vs. Implicit: ์ด๋ ์ ๋์ inductive bias๊ฐ ์ ์ ํ๊ฐ?
- Generalization์ ๋ณธ์ง: Interpolation์ธ๊ฐ retrieval์ธ๊ฐ?
- Practical Deployment: Lab-to-field gap์ ์ด๋ป๊ฒ ๋ฉ์ธ ๊ฒ์ธ๊ฐ?
๋ง์น๋ฉฐ
โLearning a Thousand Tasks in a Dayโ๋ ๋ก๋ด ํ์ต์ ํจ๋ฌ๋ค์์ ์ฌ์ ๋ฆฝํ๋ ์ค์ํ ์ฐ๊ตฌ์ ๋๋ค. ๋จ์ํ โ๋ ๋ง์ ๋ฐ์ดํฐโ๋ฅผ ์์งํ๋ ๊ฒ์ด ์๋๋ผ, task์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ํ์ฉํจ์ผ๋ก์จ ํ๊ธฐ์ ์ธ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ์ต๋๋ค.
ํต์ฌ ๋ฉ์์ง
- Decomposition matters: Alignment์ interaction์ ๋ถ๋ฆฌ๋ ํ ์๋ฆฟ์์ ํจ์จ์ฑ ๊ฐ์ ์ ๊ฐ์ ธ์ด
- Retrieval works: ๋จ์ํ์ง๋ง ํจ๊ณผ์ . ํนํ limited data regime์์
- Scale is achievable: ์ ์ ํ ์ ๊ทผ๋ฒ์ผ๋ก 1,000 tasks๋ฅผ ํ๋ฃจ ๋ง์ ํ์ต ๊ฐ๋ฅ
- Perception is key: ๊ฐ์ ์ ์ฌ์ง๊ฐ ๊ฐ์ฅ ํฐ ๋ถ๋ถ
์ด ์ฐ๊ตฌ๋ ๋ค์์ ์๊ธฐ์ํต๋๋ค:
- First principles thinking์ ์ค์์ฑ: ๋ฌธ์ ์ ๋ณธ์ง์ ๊ตฌ์กฐ ์ดํด
- Simplicity์ ํ: ๋ณต์กํ end-to-end๋ณด๋ค ๋จ์ํ๊ณ interpretableํ ์ ๊ทผ์ด ๋๋ก๋ ๋ ํจ๊ณผ์
- Systematic evaluation์ ๊ฐ์น: Rigorous experiments๊ฐ ์ง์ ํ ํต์ฐฐ์ ์ ๊ณต
MT3๋ ์์์ ์ ๋๋ค. Foundation models, multi-modal learning, hierarchical planning ๋ฑ๊ณผ์ ํตํฉ์ ํตํด ๋์ฑ ๊ฐ๋ ฅํ๊ณ ๋ฒ์ฉ์ ์ธ ๋ก๋ด ์์คํ ์ผ๋ก ๋ฐ์ ํ ๊ฒ์ ๋๋ค.
๊ฐ์ฅ ์ค์ํ ๊ฒ์, ์ด ์ฐ๊ตฌ๊ฐ ๋ณด์ฌ์ค ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ํ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ๋๋ค. ์ด์ ์ฐ๋ฆฌ๋ ์์ฒ ๊ฐ์ ์์ ์ ๋ค๋ฃจ๋ ๋ฒ์ฉ ๋ก๋ด์ด ๊ทธ๋ฆฌ ๋จผ ๋ฏธ๋๊ฐ ์๋ ์ ์๋ค๋ ํฌ๋ง์ ๊ฐ์ง ์ ์์ต๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
๊ฐ์: ํ๋ฃจ, 1,000๊ฐ์ ๋ก๋ด ์์ ํ์ต
ํ๋ฃจ๋ ์ ๋๋ ์๊ฐ์ ๋ก๋ด์๊ฒ 1,000๊ฐ์ง๋ ๋๋ ์กฐ์ ๊ณผ์ ์ ๊ฐ๋ฅด์น ์ ์๋ค๋ฉด ์ด๋จ๊น์? ๊ธฐ์กด ๋ก๋ด ๋ชจ๋ฐฉ ํ์ต์์๋ ๊ณผ์ ํ๋๋น ์๋ฐฑ~์์ฒ ํ์ ์์ฐ์ ํ์๋ก ํ๊ณค ํ์ง๋ง, ์ต๊ทผ Science Robotics์ ๋ฐํ๋ โLearning a Thousand Tasks in a Dayโ ์ฐ๊ตฌ๋ ๋จ ํ ๋ฒ์ ์์ฐ๋ง์ผ๋ก๋ ๋ค์ํ ๋ฌผ์ฒด ์กฐ์ ๊ณผ์ ๋ค์ ํ์ตํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. ์ด ๊ธ์์๋ ํด๋น ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก , ์์์ ์ธ๋ถ์ฌํญ, ์คํ ๊ฒฐ๊ณผ์ ๊ธฐ์ฌ์ ์ ๋ก๋ด๊ณตํ์์ ์๊ฐ์์ ๊น์ด ์๊ฒ ๋ถ์ํฉ๋๋ค. ํนํ ์กฐ์ ๋์์ โ์ ๋ ฌ-์ํธ์์ฉโ 2๋จ๊ณ ๋ถํ ๊ณผ ๋ฐ๋ชจ ๊ฒ์(retrieval) ๊ธฐ๋ฐ ์ผ๋ฐํ๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ์์ด๋์ด์ ์ฃผ๋ชฉํ์ฌ, ์ด๋ป๊ฒ ์ด๋ฌํ ์ ๊ทผ๋ฒ์ด ๋ฐ์ดํฐ ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๋์ฌ ํ๋ฃจ ๋ง์ ์ฒ ๊ฐ์ ์์ ์ ํ์ตํ๊ฒ ํ๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๋ํ ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๋์ ์ ์ฑ ํ์ต์ ์ํ์ ์ ์, ๋ถ์ฐ ํ์ต ๊ตฌ์กฐ, ๋ชจ๋ฐฉํ์ต๊ณผ ๊ฐํํ์ต์ ์ญํ , ๊ทธ๋ฆฌ๊ณ ํฅํ ๋ก๋ด ํ์ต์ ์ฃผ๋ ์์ฌ์ ์ ๋ ผ์ํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก : ๋ค์ค ์์ ํ์ต ํ๋ ์์ํฌ ๋ถ์
1. ๋ ๋จ๊ณ๋ก ๋๋๋ ์กฐ์ ์ ์ฑ โ ์ ๋ ฌ ๋จ๊ณ์ ์ํธ์์ฉ ๋จ๊ณ
๋ณธ ์ฐ๊ตฌ์ ์ฒซ ๋ฒ์งธ ํต์ฌ์ ์กฐ์ ๋์์ ๋ ๋จ๊ณ๋ก ๋ถํดํ๋ ๊ตฌ์กฐ์ ์ฌ์ (prior)์ ๋๋ค. ํ๋์ ์์ ์ํ์ โ์ ๋ ฌ(Alignment) ๋จ๊ณโ์ โ์ํธ์์ฉ(Interaction) ๋จ๊ณโ๋ก ๊ตฌ๋ถํ์ฌ, ๊ฐ ๋จ๊ณ์ ํนํ๋ ์ ์ฑ ์ ๋ฐ๋ก ํ์ตํฉ๋๋ค. ์ ๋ ฌ ๋จ๊ณ์์๋ ๋ก๋ด์ ๋ง๋จ์ฅ์น(End-effector)๋ฅผ ๋์ ๋ฌผ์ฒด์ ๋ํด ์ ์ ํ ์ด๊ธฐ ์์ธ๋ก ์์น์ํด์ผ๋ก์จ, ํ์ ์กฐ์์ ์ํ ์ค๋น๋ฅผ ํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ๋ชฉํ ์ต์ข ์์น๋ง ์ค์ํ ๋ฟ, ๊ฑฐ๊ธฐ๊น์ง ์ด๋ค ๊ฒฝ๋ก๋ก ์ด๋ํ๋์ง๋ ํฌ๊ฒ ์๊ด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ ์ ํ๋ฌ๊ทธ๋ฅผ ์ฝ์ผํธ ์๊น์ง ๊ฐ์ ธ๋ค ๋๋ ์ ๋ ฌ ๋จ๊ณ์์๋, ์ฌ๋ฌ ๊ฒฝ๋ก ์ค ์ด๋ค ๊ฒฝ๋ก๋ฅผ ํํ๋ ํ๋ฌ๊ทธ๋ฅผ ์์ผ ์์ ๊ฐ์ ธ๋ค๋๊ธฐ๋ง ํ๋ฉด ์ฑ๊ณต์ ๋๋ค. ์ํธ์์ฉ ๋จ๊ณ์์๋ ์ค์ ๋ฌผ์ฒด ์กฐ์์ ์ํํฉ๋๋ค. ์ด ๋๋ ์ธ๋ฐํ๊ณ ์ ํํ ๊ถค์ ์ ์ด๊ฐ ํ์์ ์ด๋ฉฐ, ์คํ๋ ๊ฒฝ๋ก ์์ฒด๊ฐ ๊ณผ์ ์ฑ๊ณต์ ๊ฒฐ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฌ์ ๋ง์น ํ๋ฌ๊ทธ๋ฅผ ์์ผ์ ๊ฝ๋ ์ํธ์์ฉ ๋จ๊ณ์์๋, ์์ ์ค์ฐจ๋ ํ์ฉ๋์ง ์์ ์ ๋๋ก ์ ๊ตํ ์ฝ์ ๋์์ด ํ์ํฉ๋๋ค. ๋ ๋จ๊ณ๋ฅผ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๊ฐ ๋จ๊ณ์ ์ ์ฑ ์ ํด๋น ์ญํ ์ ๋ง๊ฒ ์ต์ ํํ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์ ๋จ์ผ ํตํฉ ์ ์ฑ (๋ชจ๋๋ฆฌ์)์ผ๋ก ์ ์ฒด ๋์์ ํ๊บผ๋ฒ์ ํ์ตํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋นํด, ๋ ๋จ๊ณ ๋ถํ ์ ์ฑ ์ด ์ ์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ ํจ์จ์ ์ผ๋ก ํ์ต๋จ์ ๋ณด์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ํ๋์ ๋ชจ๋๋ฆฌ์ ์ ์ฑ ์ผ๋ก ํ์ตํ๋ ๊ธฐ์กด BC(Behavioral Cloning, ํ๋ ํด๋ก๋)๋ณด๋ค, ์ ๋ ฌ/์ํธ์์ฉ ๊ฐ๊ฐ์ ํนํ๋ ๋ ์ ์ฑ ์ ์์ฐจ์ ์ผ๋ก ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐ ํจ์จ์ด 10๋ฐฐ ์ด์ ํฅ์๋๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ฌํ ํนํ ๋๋ถ์ ์๋(์: ๊ณผ์ ๋ณ 10๊ฐ ๋ฏธ๋ง)์ ์์ฐ์ผ๋ก๋ ํ์ต์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
2. ํ๋ ํด๋ก๋(BC) ๋ Retrieval(๋ฐ๋ชจ ๊ฒ์) ๊ธฐ๋ฐ ์ ์ฑ
๋ ๋ฒ์งธ ํต์ฌ ์์ด๋์ด๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ ๋๋ค. ํํ ์ฌ์ฉํ๋ ํ๋ ๋ชจ๋ฐฉ ํ์ต(Behavioural Cloning, BC)์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ ๊ฒฝ๋ง ์ ์ฑ ์ ํ๋ จ์ํจ ํ, ์ถ๋ก ์์๋ ์ค๋ก์ง ํ์ต๋ ๋คํธ์ํฌ๋ก ํ๋์ ์์ธกํฉ๋๋ค. ๋ฐ๋ฉด ๋ณธ ์ฐ๊ตฌ์์๋ โRetrieval(๊ฒ์) ๊ธฐ๋ฐโ ์ ์ฑ ์ ๋์ ํ๋๋ฐ, ์ด๋ ํ๋ จ ๋จ๊ณ์์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๋์ ์ถ๋ก ์์ ์ง์ ์ฐธ๊ณ ํ๋ค๋ ์ ์์ BC์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฆ ๋๋ค. ๋ค์ ๋งํด, BC๋ ์์ฐ์ ๋ด๋ด ๋คํธ์ํฌ ๊ฐ์ค์น์ ๋ด์ฌํ์ํค๋ ๋ฐ๋ฉด, Retrieval ๋ฐฉ๋ฒ์ ์คํ ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ๋ ์์ฐ์ ๋ถ๋ฌ์ ๊ทธ๋๋ก ์ด์ฉํ๋ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ Multi-Task Trajectory Transfer (MT3)๊ฐ ๋ฐ๋ก Retrieval ๊ธฐ๋ฐ ์ ๋ ฌ+์ํธ์์ฉ ์ ์ฑ ์ ์กฐํฉ์ผ๋ก ์ด๋ฃจ์ด์ง ์๋ก์ด ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ์ ๋๋ค. MT3 ์ ์ฑ ์คํ์ ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋ฉ๋๋ค:
**MT3 ์ ์ฑ
์คํ ํ๋ก์ธ์ค**
์
๋ ฅ: ์์
์ ๋ํ ์ธ์ด ์ค๋ช
$T$, ํ์ฌ ํ๊ฒฝ์ ๋์ ๋ฌผ์ฒด ํฌ์ธํธ ํด๋ผ์ฐ๋ $O$
1. **๋ฐ๋ชจ ๊ฒ์**: ์ฌ์ ์ ์ ์ฅ๋ ๋ชจ๋ ์์ฐ๋ค $D$์ ๋ํ์ฌ, ์์
์ค๋ช
์ ์ฌ๋ ๋ฐ ๊ธฐํํ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐ. ๊ฐ์ฅ ์ ์ฌํ ์์ฐ $d^*$์ ์ ํ.
- *์ธ์ด ์ ์ฌ๋*๋ $T$์ ์์ฐ์ ์ค๋ช
$T_i$ ๊ฐ ์๋ฏธ ์ ์ฌ์ฑ์ ํ๊ฐํ๊ณ , *๊ธฐํํ ์ ์ฌ๋*๋ ํ์ฌ ๊ด์ธก $O$์ ์์ฐ์ ๋ฌผ์ฒด ํฌ์ธํธํด๋ผ์ฐ๋ $O_i$ ๊ฐ์ ํํ ๋ฐ pose ์ ์ฌ์ฑ์ **ํ์ต๋ ์ ์ฌ ๊ณต๊ฐ**์์ ๊ณ์ฐํฉ๋๋ค.
2. **์ ๋ ฌ ๋จ๊ณ ์คํ**: ์ ํ๋ ์์ฐ $d^*$์์ **์ ๋ ฌ ์๋ฃ ์์ ๋ก๋ด ๋ง๋จ ์์ธ**๋ฅผ ๋ถ๋ฌ์จ ํ, **๋ฌผ์ฒด ์์ธ ์ถ์ **์ ํตํด ํ์ฌ ์ฅ๋ฉด์ ๋์ ๋ฌผ์ฒด ์ขํ๊ณ๋ก ๋ณํํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์, ๊ทธ ๋ชฉํ ์์ธ๋ก ๋ก๋ด์ ์ด๋์ํค๋ **๋ชจ์
ํ๋๋**์ ์ํํ์ฌ ์ ๋ ฌ์ ์๋ฃํฉ๋๋ค.
3. **์ํธ์์ฉ ๋จ๊ณ ์คํ**: ์์ฐ $d^*$์ **์ํธ์์ฉ ๋จ๊ณ ๋์ ๋ก๋ด ๋ง๋จ์ ์๋ ์ํ์ค**๋ฅผ ๊ทธ๋๋ก ์ฌ์(open-loop)ํฉ๋๋ค. ์ด ๋ ์ฌ์์ **๋ก๋ด ๋ง๋จ ์ขํ๊ณ ๊ธฐ์ค**์ผ๋ก ์ด๋ฃจ์ด์ง๋ฉฐ, ์ ๋ ฌ ๋จ๊ณ์์ ๋ง์ถฐ์ง ๋ฌผ์ฒด ์๋ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ฐ ๊ถค์ ์ ์ถ์ข
ํฉ๋๋ค.์ ๊ณผ์ ์์ ์ฃผ๋ชฉํ ์ ์, Retrieval ๊ธฐ๋ฐ ์ ์ฑ ์ ์์ฐ ๋ฐ์ดํฐ์ ๋ํ ์ฌ์ ํ์ต์ด ์ ํ ์์ด๋ ์๋ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ ํ์ฉํด ์์ ํ ์คํธ ์ค๋ช ๊ฐ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ณ , RGB-D ์นด๋ฉ๋ผ๋ก ์ป์ ๋ฌผ์ฒด 3D ํ์์ ์ ์ฌ ๋ฒกํฐ๋ฅผ ๋น๊ตํ์ฌ ๊ฐ์ฅ ์๋ง์ ์์ฐ์ ์ ํํ์ต๋๋ค. ์ ํ๋ ์์ฐ์ ํ์ฉํ ๋๋, ์ ๋ ฌ ๋จ๊ณ์์๋ ์์ฐ์ ์ต์ข ์์ธ๋ฅผ ํ์ฌ ๋ฌผ์ฒด์ ์์ธ๋ก ๋งตํํ๊ธฐ ์ํด 6-์์ ๋ ๋ฌผ์ฒด ์์ธ ์ถ์ ๊ธฐ์ ์ ์ฌ์ฉํ๊ณ , ์ํธ์์ฉ ๋จ๊ณ์์๋ ์์ฐ์ ๋์์ ๊ทธ๋๋ก โopen-loopโ๋ก ์ฌํํ์์ต๋๋ค. ์ด๋ฌํ Retrieval+์คํ๋ฃจํ ์ ๊ทผ์ ๊ณผ๊ฑฐ ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ก ๊ฐํํ์ต์ ํตํด ์ํธ์์ฉ ์ ์ฑ ์ ๋ฏธ์ธ์กฐ์ ํ๊ฑฐ๋, ํน์ ํ์ต๋ ํผ๋๋ฐฑ ์ ์ด๊ธฐ๋ฅผ ์ฐ๊ณค ํ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต์ ์ฌ์ฉํ์ง ์๊ณ ๋ ์์ฐ ์ฌ์๋ง์ผ๋ก ์ถฉ๋ถํ ์ฑ๋ฅ์ ์ป์ ์ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์์ผ๋ฉฐ, ์ด๋ ๋ชจ๋ฐฉํ์ต๊ณผ ๊ธฐ์กด ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค.
์ฐธ๊ณ : Retrieval ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ณผ์ ์คํ ์ค ํญ์ ์ๆผ ๋ฐ์ดํฐ๋ฅผ ์ฐธ์กฐํ๊ธฐ ๋๋ฌธ์, ํํ โ๋นํ์ต(non-parametric) ์ ์ฑ โ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ํ๋ จ์ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํด๋ ๋ฌธ์ ์์ง๋ง, ๋จ์ ์ ์คํ ์ค ํผ๋๋ฐฑ์ผ๋ก ์ค๋ฅ๋ฅผ ๊ต์ ํ์ง ๋ชปํ๋ค๋ ์ ์ ๋๋ค. ํ์ ํ ์คํ ๊ฒฐ๊ณผ์์๋ ์ด๋ฌํ ์คํ ๋ฃจํ(open-loop) ๋ฐฉ์์ ํ๊ณ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
3. ํ์ต ์ํคํ ์ฒ์ ๋ถ์ฐ ์์คํ
๋ชจ๋ ๋น๊ต ๋ฐฉ๋ฒ๋ค์ด ๋์ผํ ์ ๋ ฅ-์ถ๋ ฅ ์ํคํ ์ฒ ํ ๋ด์์ ๊ตฌํ๋์๋ค๋ ๊ฒ๋ ์ฃผ๋ชฉํ ๋ถ๋ถ์ ๋๋ค. ๋ก๋ด์ ์นด๋ฉ๋ผ ๊ธฐ๋ฐ ์๊ฐ ์ ๋ณด์ ๊ณผ์ ์ ๋ํ ํ ์คํธ ์ค๋ช ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์๋ค์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Intel RealSense D415 RGB-D ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ ์ฅ๋ฉด์์ ๋์ ๋ฌผ์ฒด์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๋ถํ (์ธ๊ทธ๋ฉํ ์ด์ )ํ์ฌ ์ป๊ณ , ํด๋น ๊ณผ์ ์ ์ค๋ช ํ๋ ๋ฌธ์ฅ์ ํจ๊ป ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ ๋ฐ์ ๋ค์ค ์์ ์ ์ฑ ์ด ์ถ๋ ฅํด์ผ ํ๋ ๊ฒ์ ๋ก๋ด์ ํ๋ ์ ์ด ๋ช ๋ น์ ๋๋ค (์: ๊ด์ ์๋ ๋๋ ๋ง๋จ ์์น ๋ณํ ๋ฑ). BC ๋ฐฉ์์ ๊ฒฝ์ฐ ์ด ์ ์ฑ ์ด ๊ณง ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด๋ฉฐ, Retrieval ๋ฐฉ์์ ๊ฒฝ์ฐ๋ ์์ ์ค๋ช ํ ๊ฒ์-์ฌ์ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฑ ์ญํ ์ ํฉ๋๋ค. ์ ์๋ค์ ๋ชจ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋์ผํ ํ๋์จ์ด ํ๋ซํผ(Sawyer 7-์์ ๋ ๋ก๋ดํ + Robotiq 2F-85 ๊ทธ๋ฆฌํผ)์ ์ฌ์ฉํ๊ณ , ๋์ผํ ํํ์ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณํจ์ผ๋ก์จ ๊ฒฐ๊ณผ ๋น๊ต์ ๊ณต์ ์ฑ์ ๋ด๋ณดํ์ต๋๋ค. ์์ปจ๋, ๋ชจ๋๋ฆฌ์ BC ์ ์ฑ ์ด๋ ๋ถํ ๋ BC+Retrieval ์ ์ฑ ์ด๋ ๋๊ฐ์ด ์ ๊ตฐ+์ธ์ด ์ ๋ ฅ์ ๋ฐ์ ๋์์ ์ฐ์ถํ๋๋ก ํต์ผํ์ต๋๋ค.
ํ๋ จ์ ์คํ๋ผ์ธ์ผ๋ก ์ด๋ค์ง๋ฉฐ, ๋ถ์ฐ ํ์ต ์ธํ๋ผ์ ๋ํ ์ธ๊ธ์ ๋ ผ๋ฌธ์ ์ง์ ์ ์ด์ง ์์ง๋ง, ์คํ ๊ท๋ชจ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ GPU ๊ฐ์์ด ํ์ฉ๋์์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. 1000๊ฐ ๊ณผ์ ์ ์์ฐ ๋ฐ์ดํฐ ์์ฒด๋ ๊ณผ์ ๋ณ 1๊ฐ๋ก ๋งค์ฐ ์ ์ง๋ง, ์ ์ฑ ์ ๊ฒฝ๋ง์ ๋ณต์ก๋ (์: Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ ์ฌ์ฉ)์ ๋ค์ค ๊ณผ์ ์ ๋ํ ํ๋ จ์ ๊ณ ๋ คํ๋ฉด, ์ ์ด๋ ์ฌ๋ฌ GPU๋ฅผ ์ด์ฉํ ๋ณ๋ ฌ ํ์ต์ด๋ ๋๋์ ๋ชจ์ ํ๋๋ ์ฐ์ฐ ๋ถ์ฐ ์ฒ๋ฆฌ ๋ฑ์ด ํ์ํ์ ๊ฒ์ ๋๋ค. ์ค์ ๊ตฌํ์ ๊ณต๊ฐ๋ ์ฝ๋ ๋ ํฌ์งํ ๋ฆฌ์์ ํ์ธํ ์ ์๋๋ฐ, ํ์ต ์คํฌ๋ฆฝํธ์ ๋ชจ๋ธ ์ํคํ ์ฒ๊ฐ ํฌํจ๋์ด ์์ด ์ฌํ์ ์ํ ๊ธฐ์ ์ ๊ธฐ๋ฐ๋ ๋ง๋ จ๋์ด ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ฐํํ์ต๊ณผ ๋ชจ๋ฐฉํ์ต์ ๊ฒฐํฉ ์ธก๋ฉด์์ ์ด ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ผ๋ณด๋ฉด ํฅ๋ฏธ๋ก์ด ์์ฌ์ ์ด ์์ต๋๋ค. ์ ์๋ค์ ๊ฐํํ์ต(RL) ์๊ณ ๋ฆฌ์ฆ์ ์ง์ ์ฌ์ฉํ์ง๋ ์์์ง๋ง, ๊ธฐ์กด RL ์ฐ๊ตฌ๋ค์ ์ฑ๊ณผ์ธ ์ ์ฑ ๋ถํ (์: ๋จผ์ ์ ๋ ฌ ํ ๋ฏธ์ธ์กฐ์ )์ด๋ ์คํ๋ฃจํ ๋ฐ๋ณต ์คํ ์์ด๋์ด๋ฅผ ๋ฐ์๋ค์์ต๋๋ค. ์ฆ, ๋ชจ๋ฐฉํ์ต(IL)์ ๋ฐ์ดํฐ ํจ์จ๊ณผ ์ ํต์ ์ ์ด/RL์ ์์ ์ ์คํ ์ ๋ต์ ์กฐํฉํ ํํ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํฅํ ํ์ํ ๊ฒฝ์ฐ RL๋ก ๋ฏธ์ธ ์กฐ์ ํ๊ฑฐ๋ ์จ๋ผ์ธ ๋ณด์ ํ๋ ํ์ด๋ธ๋ฆฌ๋๋ก ํ์ฅ๋ ์ ์์ผ๋ฉฐ, ๋๊ท๋ชจ ๋ค์ค ๊ณผ์ ํ์ต์ ์๋ก์ด ์ค๊ณ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
์ํ์ ์ธ๋ถ์ฌํญ: ์ ์ฑ ํ์ต, ์์ค ํจ์์ ์์ ์ฑ
์ด ์ ์์๋ ๋ ผ๋ฌธ์ ๋ฑ์ฅํ๋ ์ ์ฑ ํ์ต์ ์ํ์ ์ ์, ๋ฉํฐํ์คํน ํ์ต ๋ฐฉ์, ์์ค ํจ์ ์ค๊ณ ๋ฐ ํ์ต ์์ ํ ๊ธฐ๋ฒ ๋ฑ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ํนํ BC ์ ์ฑ ์ ํ์ต ๋ชฉํ์ Retrieval ์ ์ฑ ์ ์ผ๋ฐํ ์๋ฆฌ๋ฅผ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ ์ธก๋ฉด์์ ์ค๋ช ํฉ๋๋ค.
1. ํ๋ํด๋ก๋(BC) ์ ์ฑ ํ์ต โ ๋ค์ค ๊ณผ์ ํ๋ฅ ๋ชจ๋ธ
BC ๊ธฐ๋ฐ ์ ์ฑ ์ ์ฃผ์ด์ง ๊ด์ธก o (์: ์นด๋ฉ๋ผ์์ ์ป์ ์ ๊ตฐ + ๊ณผ์ ์ค๋ช ) ์ํ์์ ๋ก๋ด ํ๋ a๋ฅผ ์ถ๋ ฅํ๋ ํ๋ฅ ์ ์ฑ \pi_\theta(a|o)๋ก ํํ๋ฉ๋๋ค. ์ด ์ ์ฑ ์ ์์ฐ ๋ฐ์ดํฐ์ D={(o_i, a_i)}๋ฅผ ์ด์ฉํด ์์ฐ ํ๋์ ํ๋ฅ ์ ์ต๋ํํ๋๋ก ํ์ต๋ฉ๋๋ค. ํ์ต ๋ชฉํ๋ ๋ค์๊ณผ ๊ฐ์ด ์์์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. \max_{\theta} \; \frac{1}{|D|}\sum_{(o,a)\in D} \log \pi_{\theta}(a\,|\,o) \;,
์ฆ ๋ฐ๋ชจ ํ๋์ด ์ ์ฑ ์ ์ํด ๋์ฌ ํ๋ฅ ์ ๋ก๊ทธํฉ์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ์์ ๋ก๊ทธ-์ฐ๋ ์์ค(NLL ์์ค)์ ์ต์ํํ๋ ๊ฒ๊ณผ ๋์น์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ํนํ ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ์ ํํ๋ก ์ ์ฑ ์ ํ์ตํ๋๋ฐ, ๋ณ๋ถ ์คํ ์ธ์ฝ๋(VAE) ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ ์ ์ฌ ๋ณ์ z๋ฅผ ํตํด ์ ์ฑ ์ ๋ค์์ฑ์ ํํํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก MT-ACT๋ผ ๋ถ๋ฆฌ๋ Transformer ๊ธฐ๋ฐ ์ ์ฑ ๋คํธ์ํฌ๋ฅผ ๋ณํํ์ฌ, ์ธ์ฝ๋ q_\phi(z|o,a)์ ๋์ฝ๋ p_\theta(a|o,z)๋ฅผ ํจ๊ป ํ์ตํ์์ต๋๋ค. ์ด ๊ฒฝ์ฐ ํ์ต ์์ค์ ์ฌ๊ตฌ์ฑ ์์ค(์์ฐ ํ๋ a์ ๋์ฝ๋ ์ถ๋ ฅ ๊ฐ ์ฐจ์ด)๊ณผ ์ ๊ทํ ์์ค(์ธ์ฝ๋๊ฐ ์ถ๋ ฅํ๋ ์ ์ฌ๋ถํฌ q_\phi(z|o,a)์ ์ฌ์ ๋ถํฌ p(z) ๊ฐ KL ๋ฐ์ฐ)์ ํฉ์น ํํ๊ฐ ๋ฉ๋๋ค. ๊ณต์์ ์ผ๋ก๋ VAE ๋ชฉ์ ํจ์: L_{\text{VAE}}(\theta,\phi) \;=\; \mathbb{E}{q\phi(z|o,a)}[-\log p_\theta(a|o,z)] \;+\; \beta\, D_{\mathrm{KL}}(q_\phi(z|o,a) \parallel p(z)) \,,
๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ฌ๊ธฐ์ \beta๋ KLํญ ๊ฐ์ค์น์ ๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, MT-ACT ๋ชจ๋ธ์ ์ด๋ฌํ VAE ๊ธฐ๋ฐ ํ์ต์ ํตํด ์์ฐ ๋ฐ์ดํฐ์ ๊ณต๊ฐ์ ๊ตฌ์ฑ๊ณผ ๊ธฐํํ์ ์ ์ฌ์ฑ์ ๋ฐ์ํ๋ ํํ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋ค๊ณ ํฉ๋๋ค. ๋ํ ์ฌ๊ตฌ์ฑ ์์ค ํญ๋ชฉ์ ๋ก๋ด ์กฐ์ ํ๋์ ์ฌ๋ฌ ์์๋ก ๊ตฌ์ฑ๋๋๋ฐ (์: ํฌ์ง์ , ์ค๋ฆฌ์ํ ์ด์ , ๊ทธ๋ฆฌํผ ์ํ ๋ฑ), ๊ฐ ๊ตฌ์ฑ ์์์ ์ค์ฐจ๋ฅผ ๋์ผ ์ ์์์ ํฉ์ฐํ๊ธฐ ์ํด ๋ถํ์ค์ฑ ๊ธฐ๋ฐ ๊ฐ์ค์น ์กฐ์ ๊ธฐ๋ฒ์ด ํ์ฉ๋์์ต๋๋ค. Kendall ๋ฑ(2017)์ ๋ฐฉ๋ฒ์ ์ฐธ๊ณ ํ์ฌ, ํ์ต ์ค์ ์์ค ๊ตฌ์ฑ๋ณ ๊ฐ์ค์น๋ฅผ ์๋์ผ๋ก ์กฐ์ ํจ์ผ๋ก์จ, ์ฌ๋์ด ์ง์ ๊ฐ์ค์น๋ฅผ ํ๋ํ์ง ์์๋ ์์ ์ ์ธ ํ์ต์ด ์ด๋ฃจ์ด์ง๋๋ก ํ์ต๋๋ค. ์ด๋ ํ์ต ์์ ์ฑ์ ๋์ด๋ ์ค์ํ ๊ธฐ๋ฒ์ผ๋ก, ์ฌ๋ฌ ์ข ๋ฅ์ ์ค๋ฅ ํญ์ด ๊ณต์กดํ ๋ ํน์ ํญ๋ชฉ์ ์ค์ผ์ผ์ด๋ ๋จ์ ์ฐจ์ด๋ก ์ธํด ํ์ต์ด ๋ถ์์ ํด์ง๋ ๋ฌธ์ ๋ฅผ ์ํํ์ต๋๋ค.
2. ๋ฉํฐํ์คํน๊ณผ ์ผ๋ฐํ โ ์๋ฒ ๋ฉ ๋ฐ Retrieval ์๊ณ ๋ฆฌ์ฆ
๋ค์ค ๊ณผ์ ํ์ต(multi-task learning) ๋งฅ๋ฝ์์, BC ์ ์ฑ ์ ์ฌ๋ฌ ๊ณผ์ ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ๊บผ๋ฒ์ ํ์ตํด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ณธ ์ฐ๊ตฌ์์๋ ๊ณผ์ ์ ๋ํ๋ด๋ ์ถ๊ฐ ์ ๋ ฅ์ ์ ์ฑ ์ ์ ๊ณตํ์ต๋๋ค. ์์ ์ธ๊ธํ ์ธ์ด ์ค๋ช ์ด ๋ฐ๋ก ๊ฐ ๊ณผ์ ์ ๋ชฉ์ ์ ๋ช ์ํ๋ ์ญํ ์ ํ๋ฉฐ, ์ด ํ ์คํธ ์๋ฒ ๋ฉ์ ํตํด ์ ์ฑ ๋คํธ์ํฌ๊ฐ ํ์ฌ ์ํํด์ผ ํ ๊ณผ์ ์ ์ธ์งํ๋๋ก ํฉ๋๋ค. ๊ฐ๋ น โ๋ถํ์ ์๊ฐ๋ฐฉ์ ์งํผ ์ด๊ธฐโ๋ผ๋ ๊ณผ์ ์ค๋ช ์ ์ ๋ ฅ๋ฐ์ผ๋ฉด, ๋คํธ์ํฌ๋ ์ด ์๋ฒ ๋ฉ๊ณผ ์๊ฐ ์ ๋ณด(๋ถํ ๋ ์๊ฐ๋ฐฉ 3D ๋ฐ์ดํฐ)๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ์ฌ ํด๋น ์์ ์ ๋ง๋ ํ๋ ์ถ๋ ฅ์ ๋ด๋ณด๋ด๋๋ก ํ๋ จ๋ฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋จ์ผ ๋คํธ์ํฌ๊ฐ ์๋ฐฑ ๊ฐ์ ๋ฌํ๋ ๋ค์ํ ์์ ๋ค์ ๊ตฌ๋ณํ์ฌ ํ์ตํ ์ ์์๊ณ , ๊ทธ ๊ฒฐ๊ณผ 534๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ฏธ์์ ๊ธฐ์ (micro skills)์ ํ๊บผ๋ฒ์ ํ์ตํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
Retrieval ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ฒฝ์ฐ ํ์ต ๊ณผ์ ์ด ๋ณ๋๋ก ์กด์ฌํ์ง ์์ง๋ง, ์ผ๋ฐํ๋ฅผ ์ํด ์๋ฒ ๋ฉ ๊ณต๊ฐ์์์ ์ ์ฌ๋ ์ธก์ ์ ์ฌ์ฉํ๋ค๋ ์ ์ด ์ํ์ ์ผ๋ก ์ค์ํฉ๋๋ค. ์ ์๋ค์ ํ ์คํธ ์ค๋ช ์ ์๋ฒ ๋ฉ (์์ฐ์ด ๋ชจ๋ธ ํ์ฉ)๊ณผ ๋ฌผ์ฒด ํํ์ ์๋ฒ ๋ฉ (RGB-D๋ก๋ถํฐ ์ถ์ถํ ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ์ธ์ฝ๋ฉํ ์ ์ฌ ๋ฒกํฐ)์ ๊ฒฐํฉํ์ฌ ์ข ํฉ ์ ์ฌ๋ ํจ์ S(i,*)๋ฅผ ์ ์ํ์ต๋๋ค. ์๋ก์ด ํ ์คํธ ๊ณผ์ ์ ๋ํด ์ด ํจ์๊ฐ ๋ฉ๋ชจ๋ฆฌ ๋ด ์์ฐ i์์ ์ ์ฌ๋๋ฅผ ํ๊ฐํ๊ณ , ์ด ์ค ์ต๋์ธ ์์ฐ d^*๋ฅผ ์ ํํ๋ ๊ฒ์:
d^* \;=\; \arg\max_{i \in D}\Big[ \text{Sim}{\text{lang}}(T, T_i)\;+\;\text{Sim}(O, O_i)\Big] \,,
์ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ \text{Sim}{\text{lang}}๋ ๊ณผ์ ์ค๋ช ๋ฌธ์ฅ ๊ฐ ์ ์ฌ๋ (์: ๋ฌธ์ฅ ์๋ฒ ๋ฉ ์ฝ์ฌ์ธ ์ ์ฌ๋), \text{Sim}์ ๋ฌผ์ฒด ํฌ์ธํธํด๋ผ์ฐ๋ ๊ฐ ์ ์ฌ๋๋ฅผ ๋ปํฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ํ์๋ฅผ ํ์ต๋ ์ ์ฌ ๊ณต๊ฐ์์์ ๊ฑฐ๋ฆฌ๋ก ์ ์ํ๋๋ฐ, ์ด๋ ์ฌ์ ์ ํ์ต๋ ๋ฌผ์ฒด ์ธ์ฝ๋ ๋คํธ์ํฌ(์์ธํ ๊ตฌ์กฐ๋ ๋ถ๋ก ๊ธฐ์ )๋ฅผ ํตํด ์ถ์ถ๋ ๋ฒกํฐ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ด๋ฌํ ์ ์ฌ๋ ๊ณ์ฐ์ ํจ์จ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด ๋ชจ๋ ์์ฐ์ ์๋ฒ ๋ฉ์ ๋ฏธ๋ฆฌ ์ ์ฅํด ๋๊ณ , ํ ์คํธ ์ ์ผ์ข ์ ์ต๊ทผ์ ์ด์ ๊ฒ์์ ์ํํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค (ํ์์ FAISS์ ๊ฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ ๊ฐ๋ฅ). Retrieval ์ ์ฑ ์ ์ผ๋ฐํ ์๋ฆฌ๋ ๊ฐ๋จํ ๋งํด โ๋น์ทํ ๋ฌผ์ฒด-๋น์ทํ ์์ ์ ๊ฐ์ ๊ถค์ ์ด๋ฉด ๋๋คโ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์๋ก์ด ๋จธ๊ทธ์์ ์ง๋ ๊ณผ์ ๊ฐ ์ฃผ์ด์ง๋ฉด, ์ ์ฅ๋ ์์ฐ ์ค ๋ค๋ฅธ ๋จธ๊ทธ์์ ์ก์ ์์ฐ์ ์ฐพ์ ๊ทธ๋๋ก ํ๋ด๋ด๋ ์์ ๋๋ค. ์ํ์ ์ผ๋ก ์ด๋ ๋์ผํ ๋งคํฌ๋ก ์คํฌ ๋ฒ์ฃผ ๋ด์์๋ ์ต์ ๊ถค์ ๊ตฌ์กฐ๊ฐ ๊ณต์ ๋๋ค๋ ๊ฐ์ ์ ๋ฐ์ํฉ๋๋ค. ์ผ์ ๋ฒ์์ ๋ชจ์ ์ฐจ์ด, ํฌ๊ธฐ ์ฐจ์ด๋ ์์ฐ ๊ถค์ ์ ๋ฏธ์ธํ ๋ณํ์ผ๋ก๋ ์ถฉ๋ถํ ์ ์๋ ์ ์๊ณ , ์ด๋ ๋ณํ์ ์ฃผ๋ก ์ ๋ ฌ ๋จ๊ณ์์์ ์ขํ ๋ง์ถค(transform)์ผ๋ก ํด๊ฒฐ๋ฉ๋๋ค. ์ค์ ๋ก ์ ์๋ค์ โ๋จธ๊ทธ์ ์ก๊ธฐโ ๋์์ ์๋ก ๋ค์ด ์ค๋ช ํ๋๋ฐ, ๋จธ๊ทธ์๋ง๋ค ์์ก์ด ๋ชจ์์ด๋ ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ๋ ํต์ฌ ์ก๊ธฐ ๋์(grasp motion)์ ๊ตฌ์กฐ๋ ์ ์ฌํ๋ฏ๋ก ํ ์์ฐ์ผ๋ก ๋ค๋ฅธ ๋จธ๊ทธ์๋ ์ฑ๊ณต์ ์ผ๋ก ์ก์ ์ ์๋ค๊ณ ์ธ๊ธํฉ๋๋ค. ๋ค๋ง, Retrieval ๋ฐฉ์์ ์ฐ์์ ์ธ ์ผ๋ฐํ(๋ณด๊ฐ)์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์๊ตฌ๋๋ ํด๊ฒฐ์ฑ ์ด ๋ ๊ฐ์ ์์ฐ ์ฌ์ด ์ด๋๊ฐ์ ์์ ๊ฒฝ์ฐ, ์ด ๋ฐฉ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ํ์ชฝ ์์ฐ์ ํํ ๋ฟ ์ค๊ฐ ํด๋ฒ์ ์์ฑํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด ์ ์๋ค์ ์ง์ ์ ๋๋ค. ์ด๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋น๊ฐ์ญ ๋ณด๊ฐ์ ๋ชปํ๋ non-parametric ๋ฐฉ์์ ํ๊ณ๋ก, ํ์ ์ฐ๊ตฌ์์ ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ฌ๋ฌ ์์ฐ์ ์กฐํฉ์ด๋ ์์ฑ ๋ชจ๋ธ์ ํ์ฉํ ์๋ก์ด trajectory ์์ฑ ๋ฑ์ด ํ์ํ ๋ถ๋ถ์ ๋๋ค.
3. ํ์ต ์์ ํ ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ
์์์ ๋ฐ๋ชจ๋ก๋ ํ์ต์ ์ํํ ํ๊ธฐ ์ํด, ์ ์๋ค์ ํ์ต ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฒ๋ ํ์ฉํ์ต๋๋ค. ํนํ ์ ๋ ฌ ๋จ๊ณ์ ๊ฒฝ์ฐ, ๋จ์ผ ์์ฐ์์๋ ๋ชฉํ ๋ฌผ์ฒด์ ์ ๊ทผํ๋ ๊ฒฝ๋ก๊ฐ ํ๋๋ง ์ฃผ์ด์ง๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๊ฐ ๊ฒฝ๋ก ๋ค์์ฑ์ ๋๊ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ ์์ฐ์ ์ ๋ ฌ ์ต์ข ์์ธ๋ง ์ ์งํ๊ณ ๋ค์ํ ๊ฒฝ๋ก๋ก ์ ๊ทผํ๋ ์ถ๊ฐ ๋ชจ์ ๋ค์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์์ฑํ์ฌ BC-์ ๋ ฌ ์ ์ฑ ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ ธ์ต๋๋ค (๋ ผ๋ฌธ Methods 4.3.4 ํญ๋ชฉ). ์๋ฅผ ๋ค์ด ํ๋ฌ๊ทธ๋ฅผ ์์ผ ์์ผ๋ก ๊ฐ์ ธ๊ฐ๋ ๋์์์, ์ง์ ๊ฒฝ๋ก๋ฟ ์๋๋ผ ๊ณก์ ์ด๋ ๋ค์ํ ๊ฐ๋์ ๊ฒฝ๋ก๋ค์ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ๋ง๋ค์ด ์ค์ผ๋ก์จ, ์ ๋ ฌ ์ ์ฑ ์ด ๊ฒฝ๋ก์ ๋ชจ์์ ๋ฏผ๊ฐํ์ง ์๊ณ ๋ ๋ชฉํ ์์ธ์ ๋๋ฌํ ์ ์๋๋ก ํ์ต์์ผฐ์ต๋๋ค. ์ด๋ฌํ ๊ฐํ๋ ๋ฐ์ดํฐ ๋ค์์ฑ์ ์ ์ฑ ์ ๊ฒฌ๊ณ ์ฑ์ ๋์ฌ, ์ ๋ ฌ ์ ์ฑ ์ด ํ๋ จ ๋ ๋ณด์ง ๋ชปํ ์๋ก์ด ์์น์์๋ ์ฑ๊ณตํ๋ฅ ์ ๋์ด๋๋ก ๋์์ค๋๋ค. ๋ํ ๋ฐ๋ชจ ์ฆ๊ฐ ์ธก๋ฉด์์, ๋ฌผ์ฒด์ ์ด๊ธฐ ๋ฐฐ์น๋ ์นด๋ฉ๋ผ ๊ฐ๋ ๋ณํ๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ๋ณํํ๋ ๊ธฐ๋ฒ๋ ํ์ฉ๋์์ต๋๋ค. ์คํ์์๋ ํ๊ฐ ์ ๋ฌผ์ฒด์ ์์น๋ฅผ ์ต๋ 20cm ๋ฒ์์์ ๋ฌด์์ ๋ณ์ํ๊ณ , ๋ฐฉํฅ์ ์์ง์ถ ๊ธฐ์ค ์ผ์ ๊ฐ๋(random orientation) ํ์ ์์ผฐ๋๋ฐ, ํ์ต ์ค์๋ ์ด๋ฌํ ๋ณํ๋ฅผ ๊ฒฌ๋ ์ ์๋๋ก ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์ฐ ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ์ฝ๊ฐ ํ์ /์ด๋์ํค๊ฑฐ๋, ์ก์์ด๋ ๋ถ๋ถ ํ์์ ์ถ๊ฐํ๋ ๋ฑ์ ๊ธฐ๋ฒ์ด ์ ์ฉ๋์์ต๋๋ค (๋ถ๋ก 4.3.3 ์ฐธ๊ณ ).
์์ฝํ๋ฉด, ์์ค ํจ์ ์ค๊ณ์ ์ธ์ฌํจ(VAE + ๋ถํ์ค์ฑ ๊ฐ์ค), ์ถฉ๋ถํ ์๋ฒ ๋ฉ ํ์ต์ ํตํ ์ผ๋ฐํ, ์์ฐ ๊ฒฝ๋ก ์ฆ๊ฐ ๋ฑ์ด ์ด์ฐ๋ฌ์ ธ ํ์ต ์์ ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ด ํ๋ณด๋์์ต๋๋ค. ์ด๋ฌํ ์ํ์ ยท์๊ณ ๋ฆฌ์ฆ์ ํ ๋ ์์์, MT3์ ๋ค๋ฅธ ์ ์ฑ ๋ค์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์ด๋ป๊ฒ ๋ํ๋๋์ง ๋ค์์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์คํ: ํ๊ฒฝ, ํ์คํฌ ๋ค์์ฑ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
๋ณธ ์ฐ๊ตฌ๋ ์๊ท๋ชจ ์ ์ด ์คํ๊ณผ ๋๊ท๋ชจ 1000๊ณผ์ ์คํ์ ๋ ๋จ๊ณ๋ก ๋๋์ด ์งํ๋์์ต๋๋ค. ์ด ์ ์์๋ ์คํ ํ๊ฒฝ ์ธํ , ํ์คํฌ ๊ตฌ์ฑ๊ณผ ๋ฐ์ดํฐ ์์ง ์๋, ๋น๊ต ๋์๊ณผ ํ๊ฐ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ํต์ฌ ๊ฒฐ๊ณผ๋ฅผ ์ ๋์ /์ ์ฑ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค.
1. ์คํ ํ๊ฒฝ๊ณผ ํ์คํฌ ๊ตฌ์ฑ
๋ก๋ด ํ๋ซํผ: ๋ชจ๋ ์คํ์ ์ค์ ๋ก๋ด์ผ๋ก ์ํ๋์์ต๋๋ค. ์ฌ์ฉ๋ ํ๋์จ์ด๋ Sawyer 7-DOF ๋ก๋ดํ (Rethink Robotics)๊ณผ Robotiq 2F-85 ์ ๋ ๊ทธ๋ฆฌํผ๋ก, ์ฌ๋ ํ๊ณผ ์ ์ฌํ ์์ ๊ณต๊ฐ์ ์ง๋ ์ฐ๊ตฌ์ฉ ๋ก๋ด์ ๋๋ค. ๋ก๋ด์ ๋จธ๋ฆฌ ๋ถ๋ถ์๋ Intel RealSense D415 RGB-D ์นด๋ฉ๋ผ๊ฐ ์ฅ์ฐฉ๋์ด, ์์ ๊ณต๊ฐ์ ๋ด๋ ค๋ค๋ณด๋ ์์ ์์ ์ปฌ๋ฌ ์์๊ณผ ๊น์ด ์ ๋ณด๋ฅผ ํ๋ํ์ต๋๋ค. ๋ฐ๋ผ์ ๋ก๋ด์ ์์ฒด ์๊ฐ์ผ์๋ฅผ ํตํด ๋ฌผ์ฒด๋ฅผ ์ธ์ํ๊ณ ์กฐ์ํ ์ ์๋ ์ ์ ๋๋ค. ๊ณผ์ (Task)์ ์ ์: ์ ์๋ค์ ๋ก๋ด ์กฐ์ ๊ณผ์ ์ ๋งคํฌ๋ก ์คํฌ(macro skill), ๋ง์ดํฌ๋ก ์คํฌ(micro skill), ํ์คํฌ(task)์ ๊ณ์ธต์ผ๋ก ๊ฐ๋ ํํ์ต๋๋ค. - ๋งคํฌ๋ก ์คํฌ์ โ์ด๊ธฐโ, โ๊ฝ๊ธฐโ, โ์ ๊ธฐโ ๋ฑ ์ํธ์์ฉ์ ์ ํ์ผ๋ก ๊ตฌ๋ถ๋๋ ์์ ๊ฐ๋ ์ ๊ธฐ์ ์ ๋๋ค. ์ด 31๊ฐ์ ๋งคํฌ๋ก ์คํฌ ๋ฒ์ฃผ๊ฐ ์คํ์ ํฌํจ๋์์ต๋๋ค. - ๋ง์ดํฌ๋ก ์คํฌ์ ํน์ ๋ฌผ์ฒด ์ข ๋ฅ์ ์ ์ฉ๋ ๋งคํฌ๋ก ์คํฌ๋ก์, ๋ฌผ์ฒด ํน์ฑ์ ๋ง๊ฒ ์ธ๋ถ ๋์์ด ์กฐ์ ๋ ๊ธฐ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด โ์ค๋ธ๋ฌธ ์ด๊ธฐ(์ธก๋ฉด์ผ๋ก ์ฌ๋ ํํ)โ vs โ์ค๋ธ๋ฌธ ์ด๊ธฐ(์๋๋ก ์ฌ๋ ํํ)โ๋ ๊ฐ์ ๋งคํฌ๋ก ์คํฌ(์ด๊ธฐ)์ด์ง๋ง ๋ฌผ์ฒด ๊ตฌ์กฐ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ชจ์ ํ๋กํ์ ๊ฐ์ง๋ฏ๋ก ๋ณ๊ฐ์ ๋ง์ดํฌ๋ก ์คํฌ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. - ํ์คํฌ(task)๋ ๊ตฌ์ฒด์ ์ธ ๊ฐ๋ณ ๊ณผ์ ์ผ๋ก, ํ๋์ ๋ง์ดํฌ๋ก ์คํฌ์ด ํน์ ํ ๋จ์ผ ๋ฌผ์ฒด ์ธ์คํด์ค์ ์ ์ฉ๋ ๊ฒฝ์ฐ๋ฅผ ๋งํฉ๋๋ค. ์์ปจ๋ โ๋ถํ์ ๋ฅ๊ทผ ์๊ฐ๋ฐฉ์ ์งํผ๋ฅผ ์ด๊ธฐโ๋ ํน์ ์๊ฐ๋ฐฉ(๊ฐ์ฒด ์ธ์คํด์ค)์ ๋ํด โ์งํผ ์ด๊ธฐโ๋ผ๋ ๋ง์ดํฌ๋ก ์คํฌ์ ์ํํ๋ ํ ํ์คํฌ์ ๋๋ค.
๋ ผ๋ฌธ์์ 1000๊ฐ์ ํ์คํฌ๋ ๊ถ๊ทน์ ์ผ๋ก 534๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ง์ดํฌ๋ก ์คํฌ์ ์ํ๋ ๊ตฌ์ฒด์ ๊ฐ์ฒด-๋์ ์กฐํฉ 1000๊ฐ๋ฅผ ๊ฐ๋ฆฌํต๋๋ค. ์ด๋ค ํ์คํฌ๋ ๋ค์ 31๊ฐ์ ๋งคํฌ๋ก ์คํฌ ๋ฒ์ฃผ๋ก ๋ฌถ์ด๋๋ฐ, ์ํ ์ ๋ค์ํ ์กฐ์์ ํฌ๊ดํ๋๋ก ์ ์ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌธ ์ด๊ธฐ, ์๋ ๋ซ๊ธฐ, ์นซ์ ๋ฃ๊ธฐ, USB ๊ฝ๊ธฐ, ์ ์ ์๊ธฐ, ์ท๊ฑธ์ด์ ์ท๊ฑธ๊ธฐ, ์๊ฑด ์ง๊ธฐ ๋ฑ ๋งค์ฐ ํญ๋์ ์กฐ์๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. ์ฌ์ฉ๋ ๋ฌผ์ฒด๋ง ํด๋ 402์ข ์ ์ด๋ฅด๋ ๋ค์ํ ๊ฐ์ฒด๋ก ๊ตฌ์ฑ๋์ด, ๊ฐ์ ์ฉํ, ๊ณต๊ตฌ, ์ฃผ๋ฐฉ์ฉํ, ์ฅ๋๊ฐ ๋ฑ ์ผ์ ์ํ ๋ฌผ์ฒด ์ ๋ฐ์ ๋ค๋ฃน๋๋ค.
๋ฐ๋ชฌ์คํธ๋ ์ด์ ์์ง: ๋ชจ๋ ์์ฐ์ ์ฌ๋ ์กฐ์์๊ฐ ๋์ผํ ๋ก๋ด ํ๋๋ฅผ ์ด์ฉํด ์์ฐจ์ ์ผ๋ก ์ํํ์์ต๋๋ค. 1000๊ฐ ์์ ์ ๋ํด ๊ฐ๊ฐ 1ํ์ฉ ์์ฐ์ ๋ชจ์๊ณ , ์ด ์์ ์๊ฐ์ ์ฝ 17์๊ฐ(์ฐ์ ์๋ ์ ํ๋ฃจ ๋ฏธ๋ง)์ผ๋ก ๋ณด๊ณ ๋์์ต๋๋ค. ์ด๋ ํ๊ท ํ ๊ณผ์ ๋น 1๋ถ๋ ์ฑ ๊ฑธ๋ฆฌ์ง ์๋ ์๋๋ก ์์ฐ์ด ์งํ๋์์์ ์๋ฏธํฉ๋๋ค. ์ด๋ ๊ฒ ๋น ๋ฅธ ์์ฐ ์์ง์ด ๊ฐ๋ฅํ๋ ์ด์ ๋, ๋๋ถ๋ถ์ ํ์คํฌ๊ฐ ๋จ์ผ ๋จ๊ณ (pick ๋๋ place ๋ฑ ํ ๋์)์ผ๋ก ์๋ฃ๋๋ ๋น๊ต์ ์งง์ ์์ ์ด์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ง์ฝ ๋ฉํฐ ์คํ ์์ (์: ์ง์ด์ ์ฎ๊ฒจ๋๊ธฐ ๋ฑ์ pick-and-place)์ธ ๊ฒฝ์ฐ์๋, ์ ์๋ค์ ์ด๋ฅผ ๋ณ๊ฐ์ ์ฐ์ ํ์คํฌ๋ก ๋ถํ ํ์ฌ ๊ฐ๊ฐ ์์ฐ์ ์์งํ๊ณ , ๋์ค์ ๊ณ ์์ค ํ๋๋๋ฅผ ํตํด ์ฐ๊ฒฐ์์ผฐ์ต๋๋ค. ๋ฐ๋ผ์ ์์ฐ ๋ฐ์ดํฐ์ ์ 1,000๊ฐ์ ๋จ์ผ ๋จ๊ณ ์์ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ด๋ ๊ธฐ์กด ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์ (์๋ง ํ ์์ฐ)๊ณผ๋ ์ฐจ์์ ๋ฌ๋ฆฌํ๋ ์ด์๋ ๋ฐ์ดํฐ ํ์ต์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
2. ๋น๊ต ๋ฐฉ๋ฒ ๋ฐ ํ๊ฐ ๋ฐฉ์
๋น๊ต ์ ์ฑ : ์์ ์ค๋ช ํ ๋ค ๊ฐ์ง ์ ์ฑ ์กฐํฉ๊ณผ ๋ชจ๋๋ฆฌ์ BC๊ฐ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ ๊ตฌํ๋์์ต๋๋ค. ์ด๋ฅผ ์ ๋ฆฌํ๋ฉด: - BC-BC: ์ ๋ ฌ ๋จ๊ณ์ ์ํธ์์ฉ ๋จ๊ณ ๋ชจ๋ BC ์ ์ฑ ์ฌ์ฉ. (๋ ๊ฐ์ ๋ณ๋ ์ ๊ฒฝ๋ง ์ ์ฑ )
- BC-Ret: BC ์ ๋ ฌ ์ ์ฑ ์ผ๋ก ๋ชฉํ ์์ธ์ ๋ก๋ด์ ๋๊ณ , Retrieval ์ํธ์์ฉ(์คํ๋ฃจํ ๋ฐ๋ชจ ์ฌ์)์ผ๋ก ์กฐ์ ์ํ.
- Ret-BC: Retrieval ์ ๋ ฌ(ํฌ์ฆ ์ถ์ + ๋ชจ์ ํ๋)๋ก ๋ก๋ด์ ์์น์ํจ ๋ค, BC ์ํธ์์ฉ ์ ์ฑ ์ผ๋ก ์กฐ์ ๋ง๋ฌด๋ฆฌ.
- Ret-Ret (MT3): ์ ๋ ฌ๊ณผ ์ํธ์์ฉ ๋ชจ๋ Retrieval ๊ธฐ๋ฐ์ผ๋ก ์ํ. ์ฆ, MT3๋ ํฌ์ฆ ์ถ์ + ๊ถค์ ์ฌ์์ ์์๋ก ์์ ํ ์คํ๋ฃจํ ์คํ์ ํ๋ ์ ์ฑ ์ ๋๋ค.
- Monolithic BC (MT-ACT+): ํ๋์ ํตํฉ BC ์ ์ฑ ์ด ์ฒ์๋ถํฐ ๋๊น์ง ์ ์ฒด ๋์์ ์ํ. ์ด๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ํ ๊ฒฉ์ผ๋ก, ๋ ผ๋ฌธ์์๋ Google์ MT-ACT ๋ชจ๋ธ์ ๋ณํํ ๊ฒ์ ์ฌ์ฉํ๊ธฐ์ MT-ACT+๋ผ ๋ช ๋ช ํ์ต๋๋ค. ๋ชจ๋ BC ๊ณ์ด ์ ์ฑ ์ ๋์ผํ Transformer ๊ธฐ๋ฐ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋, ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ ๋ฒ์๋ง ๋ฌ๋์ต๋๋ค. ์๋ฅผ ๋ค์ด BC-์ ๋ ฌ ์ ์ฑ ๊ณผ BC-์ํธ์์ฉ ์ ์ฑ ์ ๊ฐ๊ธฐ ์ ๋ ฌ ๋จ๊ณ ์์ฐ๋ง, ์ํธ์์ฉ ๋จ๊ณ ์์ฐ๋ง์ผ๋ก ๋ฐ๋ก ํ๋ จ๋์๊ณ , Monolithic BC๋ ์ ์ฒด ๊ถค์ ์์ฐ์ผ๋ก ํ ๋ฒ์ ํ๋ จ๋์์ต๋๋ค. Retrieval ๊ณ์ด ์ ์ฑ ์ ํ์ต์ด ํ์ ์์ผ๋ฏ๋ก ํน๋ณํ ํ๋ผ๋ฏธํฐ๋ ์์ง๋ง, ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ์ด๋ค๋ ๋์ผํ ์ ๋ ฅ (์ ๊ตฐ+์ธ์ด)์ ๋ฐ๋ ํฌ๋งท์ผ๋ก ๊ตฌํ๋์์ต๋๋ค. (์ฆ, ์ธ์ด ์ค๋ช ์ ํ์ฉํด ๊ฐ์ ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ๋ชจ๋ฅผ ์ฐพ๋๋ก ํจ) ํ๊ฐ ํ๋กํ ์ฝ: ์ฑ๋ฅ ํ๊ฐ๋ ์ฑ๊ณต/์คํจ ์ธก์ ์ผ๋ก ์ด๋ฃจ์ด์ก์ต๋๋ค. ๊ฐ ํ์คํฌ์ ๋ํด ์ฌ๋ฌ ๋ฒ(์ฃผ๋ก 2~3ํ) ์คํํ์ฌ ํ๊ท ์ฑ๊ณต๋ฅ ์ ๊ณ์ฐํ์๊ณ , 95% ์์จ ์ ๋ขฐ๊ตฌ๊ฐ์ ์ค๋ฅ ๋ฐ ํํ๋ก ์ ์ํ์ต๋๋ค. โ์ฑ๊ณตโ์ ์ ์๋ ์์ ์ ๋ฐ๋ผ ๊ตฌ์ฒด์ ์ผ๋ก ์ ํด์ก๋๋ฐ, ์๋ฅผ ๋ค์ด ์ฝ์ ๊ณผ์ ์ ์ ์๋ฆฌ์ ๋๊น์ง ์ฝ์ ๋๋ฉด ์ฑ๊ณต, ์ก๊ธฐ ๊ณผ์ ์ ๋์ ๋ฌผ์ฒด๋ฅผ ๋ค์ด์ฌ๋ ธ์ ๋ ์ฑ๊ณต ๋ฑ์ผ๋ก ํ์ฅ ํ๊ฐ์๊ฐ ํ์ ํ์ต๋๋ค. ํนํ 1000๊ฐ ๊ณผ์ ํ๊ฐ์์๋ ๊ฐ ๊ณผ์ ๋น 2ํ์ฉ (์ฑ๊ณต ๋๋ ์คํจ) ์๋๋ฅผ ์งํํ์ฌ ์ด 2200ํ์ ๋กค์์์ ์ํํ์ต๋๋ค. ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด๊ธฐ ์ํด ๋ฏธ๋ฑ๋ก(์ฒ์ ๋ณด๋) ๊ฐ์ฒด์ ๋ํ ๊ณผ์ 100๊ฐ๋ ์ถ๊ฐ๋ก ํ๊ฐ๋์์ต๋๋ค. ์ด๋๋ ํ๋ จ์ ์ฌ์ฉ๋์ง ์์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ๋์ผ ๋งคํฌ๋ก/๋ง์ดํฌ๋ก ์คํฌ๋ก ์กฐ์ํ๋๋ก ํ ์คํธํ์ฌ, ์นดํ ๊ณ ๋ฆฌ ์์ค์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ธก์ ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ๋ จ ์ โ๋จธ๊ทธ์A ์ก๊ธฐโ๋ฅผ ๋ฐฐ์ ๋ค๋ฉด, ํ ์คํธ์์ โ๋จธ๊ทธ์B ์ก๊ธฐโ๋ฅผ ์๋ํ๋ ์์ ๋๋ค. ์ด๋ฌํ seen vs unseen ๊ณผ์ ์ฑ๊ณต๋ฅ ์ ๋น๊ตํจ์ผ๋ก์จ, ์ ์ฑ ์ด ์๋ก์ด ์ธ์คํด์ค์ ์ผ๋ง๋ ์ ๋์ํ๋์ง ํ์ ํ ์ ์์์ต๋๋ค. ๋ํ ํ๊ฒฝ์ ์ค์ํ์ ๊ฐ๊น๊ฒ ๋ง๋ค๊ธฐ ์ํด, ํ๊ฐ ์ ๋์ด๋ ์์๋ฅผ ์ถ๊ฐํ์ต๋๋ค: - ์์ ๊ณต๊ฐ์ 5~20๊ฐ์ ์ฃผ๋ณ ๋ฐฉํด ๋ฌผ์ฒด(๋์คํธ๋ํฐ)๋ฅผ ๋ฌด์์๋ก ๋์๋์ด, ๋ก๋ด์ด ์๋ชป๋ ๋ฌผ์ฒด๋ฅผ ์ง๊ฑฐ๋ ๊ฒฝ๋ก๊ฐ ๋ฐฉํด๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๋์์ต๋๋ค. - ์กฐ๋ช ์กฐ๊ฑด๋ ๋ค์ํ๊ฒ ๋ณํ์์ผ, ์นด๋ฉ๋ผ ์์์ ๋ฐ๊ธฐ/์์์ด ๋ฌ๋ผ์ง๋๋ก ํ์ต๋๋ค. - ์์ ์ธ๊ธํ ๋๋ก ๋ฌผ์ฒด์ ์ด๊ธฐ ๋ฐฐ์น ์์น์ ๋ฐฉํฅ๋ ๋ฌด์์๋ก ๋ฐ๊พธ์ด, ํ๋ จ ๋์ ๋ค๋ฅธ ์ํฉ์ ์ฐ์ถํ์ต๋๋ค. ์ด ๋ชจ๋ ์ค์ ์ MT3์ ๊ฐ๊ฑด์ฑ ํ๊ณ๋ฅผ ์ํํ๊ธฐ ์ํจ์ผ๋ก, ์ ์๋ค์ ์ผ๋ถ๋ฌ ์ด๋ ค์ด ์กฐ๊ฑด๋ค์ ๋ถ์ฌํ๋ค๊ณ ๋ฐํ๊ณ ์์ต๋๋ค.
3. ์ฃผ์ ์คํ ๊ฒฐ๊ณผ: ์๊ท๋ชจ ๋ถ์
์ฒซ ๋ฒ์งธ๋ก, ๋ฐ์ดํฐ ์ ๋ฐ ๊ณผ์ ๋ค์์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ์๊ท๋ชจ๋ก ๋ถ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์ ์๋ค์ 70์ฌ ๊ฐ ๋ฌผ์ฒด์ ๋ํด ๋ ๊ฐ์ง ์คํ์ ์ค๊ณํ๋๋ฐ, (a) ๊ณผ์ ์ ๊ณ ์ ํ ๊ณผ์ ๋น ์์ฐ ๊ฐ์ ์ฆ๊ฐ ์คํ๊ณผ (b) ์ด ์์ฐ ํ์ ๊ณ ์ ํ ๊ณผ์ ๋ค์์ฑ ์ฆ๊ฐ ์คํ์ ๋๋ค.
- ๋ฐ์ดํฐ์ ํฌ๊ธฐ ์คํ: 4๊ฐ์ ๋ํ ๋ง์ดํฌ๋ก ์คํฌ์ ์ ์ ํ๊ณ (์: ๋ฌธ ์ด๊ธฐ, ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ๋ค๋ฃจ๊ธฐ, ๊ตญ์ ๋จ๊ธฐ, ์ฝ์ ํ๊ธฐ ๋ฑ ๊ฐ๊ธฐ ๋ค๋ฅธ ์ ํ), ์ด์ ํด๋นํ๋ 12๊ฐ ๊ณผ์ (๊ฐ๊ฐ 3๊ฐ ๋ฌผ์ฒด) + 8๊ฐ ์ ๊ท ๋ฌผ์ฒด ๊ณผ์ ์ผ๋ก ์ด 20๊ฐ ํ์คํฌ๋ฅผ ์ค๋นํ์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ๊ฐ ๊ณผ์ ๋น ์์ฐ ์๋ฅผ 1๊ฐ์์ 50๊ฐ๊น์ง ๋จ๊ณ์ ์ผ๋ก ๋๋ ค๊ฐ๋ฉฐ ๋ค์ฏ ๊ฐ์ง ์ ์ฑ ์ ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค. ์ฌ๊ธฐ์ 50๊ฐ๋ ๋ณต์กํ ๊ถค์ ํ์ต์ ์ถฉ๋ถํ ์ํ์ ์ผ๋ก ๊ฐ์ฃผ๋์์ต๋๋ค. ๊ฒฐ๊ณผ๋ ์์ฐ ์๊ฐ ๋์ด๋ ์๋ก ๋ชจ๋ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, Retrieval ๊ธฐ๋ฐ MT3์ ๊ฒฝ์ฐ ๋จ 3๊ฐ์ ๋ฐ๋ชจ๋ก๋ ํ ๋ฐฉ๋ฒ์ 50๊ฐ ๋ฐ๋ชจ ์ฑ๋ฅ์ ์์ง๋ ๋ค๋ ์ ์ด ๋๋๋ฌ์ก์ต๋๋ค. ํนํ MT3 (Ret-Ret)๋ ์๋์ ๋ฐ๋ชจ๋ก๋ ์ผ๊ด๋๊ฒ ์ต๊ณ ์ฑ๋ฅ์ ๋ด๋ฉฐ, ๋ณธ ์คํ ๋ฒ์ ๋ด๋ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ์ฐ์๋ฅผ ์ ์งํ์ต๋๋ค. ์ด๋ ๋ณด์ง ๋ชปํ ๋ฌผ์ฒด(unseen)์ ๋ํด์๋ ์ ์ฌํ๊ฒ ๋ํ๋ฌ๋๋ฐ, MT3์ ๋์ ์ผ๋ฐํ ์ฑ๋ฅ ๋์ ์๋ก์ด ๊ฐ์ฒด์์๋ ์ข์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค.
- ๊ณผ์ ๋ค์์ฑ ์คํ: ์ด ์์ฐ ํ์๋ฅผ 150์ผ๋ก ๊ณ ์ ํ ์ํ์์, ์ด๋ฅผ 10๊ฐ ๊ณผ์ (๊ฐ 15๊ฐ), 30๊ฐ ๊ณผ์ (๊ฐ 5๊ฐ), 50๊ฐ ๊ณผ์ (๊ฐ 3๊ฐ)๋ก ๋ถ๋ฐฐํ๋ ์คํ์ ์ํํ์ต๋๋ค. ์ด๋ ํฌํจ๋ ๋ง์ดํฌ๋ก ์คํฌ์ 10๊ฐ์ง๋ก ํ๋ํ์ฌ, ์์ (a) ์คํ๋ณด๋ค ๋ค์ํ ๊ธฐ์ ๋ค์ด ์์ด๋๋ก ํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ๊ณผ์ ์ข ๋ฅ๊ฐ ๋์ด๋ ์๋ก (๊ณผ์ ๋น ๋ฐ๋ชจ๊ฐ ์ค์ด๋ค์๋ก) ์ ์ฒด์ ์ธ ์ฑ๊ณต๋ฅ ์ ๋ชจ๋ ๋ฐฉ๋ฒ์์ ๊ฐ์ํ์ง๋ง, MT3๋ ๊ฐ์ฅ ์๋งํ๊ฒ ์ ํ๋๋ฉฐ ์ฌ์ ํ ์ต์์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํํธ BC ๋ชจ๋๋ฆฌ์(MT-ACT+)์ ๊ณผ์ ์ด ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ๋ ๊ธ๊ฒฉํ ๋จ์ด์ก๋๋ฐ, ์ด๋ ํ์ ๋ ๋ฐ๋ชจ๋ฅผ ๋๋ฌด ๋ง์ ๊ณผ์ ์ ๋ถ์ฐํ๋ฉด ํ์ต ํจ์จ์ด ๋จ์ด์ง๋ ํ์์ ๋ณด์ฌ์ค๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ๋ ผ๋ฌธ์์ โ๊ณผ์ ๋น ๋ฐ๋ชจ๊ฐ ์ถฉ๋ถํ ๋ง๊ฑฐ๋, ๊ณผ์ ๋ค์์ฑ์ด ๋งค์ฐ ํด ๊ฒฝ์ฐ์๋ ๋ชจ๋๋ฆฌ์ BC๊ฐ ์คํ๋ ค ์ข์ ์ค์ผ์ผ๋ง ์ถ์ธ๋ฅผ ๋ณด์ธ๋คโ๊ณ ์ธ๊ธ๋ ๋๋ชฉ์ ๋๋ค. ์ฆ, ๋ฐ์ดํฐ๊ฐ ํ๋ถํ ์์ญ์์๋ ๊ฑฐ๋ํ ์ ๊ฒฝ๋ง ์ ์ฑ ์ด ํ์ ๋ฐํํ์ง๋ง, ์ด ์ฐ๊ตฌ์ ๊ด์ฌ ์์ญ์ธ ์ ๋ฐ์ดํฐ(regime)์์๋ ํนํ+๊ฒ์ ์ ๋ต์ด ์๋์ ์ด๋ผ๋ ๊ฒฐ๋ก ์ ๋๋ค.
์ ์ฒด์ ์ผ๋ก ์๊ท๋ชจ ์คํ๋ค๋ก๋ถํฐ ๋์ถ๋ ํต์ฌ ์ธ์ฌ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
Retrieval ๊ธฐ๋ฐ (MT3)์ด ํญ์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ๋ฐ๋ชจ ์๊ฐ ์ ์ ๋ ๊ฒฉ์ฐจ๊ฐ ํฌ๋ค. ์ด๋ ์์ฐ ์์ฒด๋ฅผ ํ์ฉํ์ฌ ์ผ๋ฐํํ๋ ์ ๊ทผ์ ์ฅ์ ์ ์ ์ฆํฉ๋๋ค. Trajectory ๋ถํ ์ ํจ๊ณผ๋ก, ์ด๋ค ๋ฐฉ์์ด๋ 2๋จ๊ณ ๋ฐฉ๋ฒ(BC-BC, BC-Ret, Ret-BC, Ret-Ret)์ด ์ผ๋จ๊ณ ๋ชจ๋๋ฆฌ์ ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ ์ฐ์์ ์์ต๋๋ค. ์ฌ์ง์ด BC-BC vs Monolithic๋ง ๋น๊ตํด๋, ๊ฐ์ BC ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ฉด ๋ถํ ์ด ์ด๋์์ ํ์ธํ์ต๋๋ค. ์ ๋ ฌ ๋จ๊ณ์ Retrieval vs BC, ์ํธ์์ฉ ๋จ๊ณ์ Retrieval vs BC ๊ฐ๊ฐ์ ๋น๊ตํด๋, Retrieval์ด ๋ ๋์ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ์ ๋ ฌ ๋จ๊ณ๋ ํฌ์ฆ ์ถ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด, ์ํธ์์ฉ ๋จ๊ณ๋ ์คํ๋ฃจํ ์ฌ์์ด, ๋์ผ ์กฐ๊ฑด์ BC๋ณด๋ค ๋์ ์ฑ๊ณต๋ฅ ์ ๋ํ๋์ต๋๋ค. ๋ค๋ง, ์ด ๋ถ๋ถ์ ์์ ์ข ๋ฅ์ ๋ฐ๋ผ ์กฐ๊ธ์ฉ ํธ์ฐจ๊ฐ ์์ด Discussion์์ ์ถ๊ฐ ๋ ผ์๋ฉ๋๋ค.
4. 1000๊ฐ ๊ณผ์ ๋๊ท๋ชจ ํ๊ฐ ๊ฒฐ๊ณผ
๋ ๋ฒ์งธ๋ก, ๋ ผ๋ฌธ์ ํ์ด๋ผ์ดํธ์ธ 1,000๊ฐ ๊ณผ์ ํ์ต ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์ฌ๊ธฐ์๋ ์์ ์ ์ ํ MT3 (Ret-Ret) ์ ์ฑ ์ ์ฌ์ฉํ์ฌ, 1000๊ฐ์ ํ์ต ํ์คํฌ(์์ฐ์ ๋ณธ ๊ณผ์ )์ 100๊ฐ์ ์ ๊ท ํ์คํฌ(์์ฐ์ ๋ณด์ง ์์ ๊ณผ์ )์ ๋ํด ์ฑ๋ฅ์ ์ธก์ ํ์ต๋๋ค. ์ ์ฒด ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ ์ฒด ์ฑ๊ณต๋ฅ : ํ์ต๋ 1000๊ฐ ๊ณผ์ ์ ๋ํ ํ๊ท ์ฑ๊ณต๋ฅ ์ ์ฝ 78.3%, ์ฒ์ ๋ณด๋ 100๊ฐ ๊ณผ์ ์ ๋ํ ์ฑ๊ณต๋ฅ ์ ์ฝ 68.0%๋ก ๋ณด๊ณ ๋์์ต๋๋ค. ๋ฌด์์์ ๊ฐ๊น์ด ์ด๊ธฐํ ์ํ์์ ํ ๋ฒ์ ์ธ๊ฐ ์๋ฒ๋ง์ผ๋ก 4๋ฒ ์ค 3๋ฒ ์ด์์ ์ฑ๊ณตํ๊ฒ ๋ง๋ ์ ์ด๋ฉฐ, ์ผ๋ถ ๋ฒ์ฃผ์ ์์ ์์๋ 80~90%๋ฅผ ๋๋ ์ฑ๊ณต๋ฅ ๋ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ํ์ฌ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์์ ์ ๋ก์์ด ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์์น์ ๋๋ค.
๋งคํฌ๋ก ์คํฌ๋ณ ์ฑ๋ฅ ํธ์ฐจ: 31๊ฐ ์์ ๊ธฐ์ ๋ฒ์ฃผ๋ณ๋ก ์ฑ๋ฅ์ ์ง๊ณํ ๊ฒฐ๊ณผ, ์์ ์ข ๋ฅ์ ๋ฐ๋ผ ์ฑ๊ณต๋ฅ ํธ์ฐจ๊ฐ ๋๋ ทํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, โ๋ฆ๊ธฐโ๋ โ๋ด๊ธฐโ ๊ฐ์ ๋์์ 80% ์ด์์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๋ฐ๋ฉด, โ์ ๋ฐ ์ฝ์ โ์ด๋ โ๋ณํ์ฒด ๋ค๋ฃจ๊ธฐโ ๊ฐ์ ๋์์ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ์์ ์ด ์๊ตฌํ๋ ์ ํ๋์ ํผ๋๋ฐฑ ํ์์ฑ์ ๋ฐ๋ผ MT3์ ์ฑ๋ฅ ํ๊ณ๊ฐ ๋๋ฌ๋๋ ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค.
๊ณต๊ฐ์ ์ค์ฐจ ํ์ฉ๋๊ฐ ํฐ ์์ : ์ ์ด ์์น๋ ๊ฐ๋์ ์ฝ๊ฐ์ ์ฌ์ ๊ฐ ์๋ ์์ ๋ค(์: ๋ฆ๊ธฐ, ํ์ ๊ธฐ, ๋๊ธฐ, ์ผ๋ฐ์ ์ธ ์ก๊ธฐ ๋ฑ)์ ๊ฑฐ์ ๋ฌธ์ ์์ด ๋์ ์ฑ๊ณต๋ฅ (80~90%๋)์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ์์ ๋ค์ ์ํธ์์ฉ ์ ์ฝ๊ฐ ์ด๊ธ๋๋ ๊ฒฐ๊ณผ์ ํฐ ์ง์ฅ์ด ์๊ธฐ ๋๋ฌธ์, ์คํ๋ฃจํ ์ฌ์์ด ์ถฉ๋ถํ ํต์ฉ๋์์ต๋๋ค.
์ ๋ฐ ์กฐ์ค์ด ํ์ํ ์์ : ๋ฐ๋ฉด, ์์ฃผ ์์ ๊ธฐํ ์์์ ์ ๋ ฌ์ด ํ์ํ ์์ (์: ํ๋ฌ๊ทธ๋ฅผ ์ฝ์ผํธ์ ๊ฝ๊ธฐ, ์ ๊ธํต ์ฌ๋กฏ์ ๋์ ๋ฃ๊ธฐ, ์ด์ ๊ฑธ๊ธฐ ๋ฑ)์ ์คํจ์จ์ด ์๋์ ์ผ๋ก ๋์์ต๋๋ค. ์ด๋ ๋ฐ๋ฆฌ๋ฏธํฐ ๋จ์์ ์ค์ฐจ๋ ํ์ฉ๋์ง ์๋ ์์ ์์๋ ํฌ์ฆ ์ถ์ ์ ์ฝ๊ฐ์ ์ค๋ฅ๋ ์น๋ช ์ ์ด๋ฉฐ, ์ด๋ฆฐ ๊ณ ๋ฆฌ ์คํ์ผ๋ก๋ ์ค์๊ฐ ๋ณด์ ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด ํ๋ฌ๊ทธ-์์ผ ์์ ์ ์ ๋ ฌ ๋จ๊ณ์์ ์กฐ๊ธ๋ง ๊ฐ๋๊ฐ ํ๋ ค๋ ์ฝ์ ์ด ๋๋ด ์คํจํ๊ณ , ํ ๋ฒ ์คํจํ๋ฉด ์ฌ์๋ ์์ด ์ข ๋ฃ๋๋ฏ๋ก ์ฑ๊ณต๋ฅ ์ ์ง์ ์ ์ธ ์ํฅ์ด ์์์ต๋๋ค.
๋น๋์นญ ๋ฌผ์ฒด์ ์ฒ๋ฆฌ: MT3๊ฐ ์ ์ฒด ๋ฌผ์ฒด ํ์์ ๋ง์ถฐ ์ ๋ ฌํ๋๋ก ์ค๊ณ๋ ๋ฐ๋ฉด, ๋ฌผ์ฒด์ ์์ง๋ง ์ค์ํ ๋น๋์นญ ๋ถ์๊ฐ ์์ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ต๋๋ค. ์์ปจ๋, ์ฃผ์ ์์ ์์ก์ด๋ ์ฃผ๋ฅ์ด์ฒ๋ผ ์ ์ฒด ๋ถํผ์ ๋นํด ์์ ๋ถ๋ถ์ด ๊ฒฐ์ ์ ์ญํ ์ ํ๋ ์์ ์์, ๊ธ๋ก๋ฒ ํฌ์ฆ ๋งค์นญ์ด ๊ทธ ์ธ๋ถ๋ฅผ ๋์ณ ์๋ชป๋ ์์ธ๋ก ์ ๋ ฌํ๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค. ์ ์คํ์์๋ ์ฃผ์ ์๋ฅผ ํน์ ๋ฐฉํฅ์ผ๋ก ๋ฐ๋ฅด๋ ์์ ์์ ์ฃผ๋ฅ์ด ๋ฐฉํฅ์ ์๋ชป ๋ง์ถฐ ์คํจํ๋ ์ฌ๋ก๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. ์นดํ ๊ณ ๋ฆฌ ์์ค ์ผ๋ฐํ: ์ตํ ๊ณผ์ ๊ณผ ๊ฐ์ ๋งคํฌ๋ก/๋ง์ดํฌ๋ก ์คํฌ ๋ฒ์ฃผ ๋ด์ ์๋ก์ด ๋ฌผ์ฒด๋ค์ ๋ํด์๋ ๋์ฒด๋ก ์ํธํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋ฌ ๋ค๋ฅธ ํ์๋ ๋ฐ๋ฅ์์ ๋ฆ๊ธฐ ์์ ์ ํ ๋๋, ํ๋ฉด ์ฌ์ง์ด๋ ์์ด ๋ฌ๋ผ๋ ์ ์ฌํ ๋ฆ๋ ๊ถค์ ์ ๊ทธ๋๋ก ํ์ฉํ ์ ์์ด ์ฑ๊ณตํ์ต๋๋ค. ๋จธ๊ทธ์ ์ก๊ธฐ ์ญ์ ์์ก์ด ์์น๊ฐ ๋๋์์ดํ์ฌ ๋๋ถ๋ถ์ ์๋ก์ด ๋จธ๊ทธ์์ ๋ฌธ์ ์์ด ์ก์์ต๋๋ค. ๊ทธ๋ฌ๋, ๊ฐ์ฒด ๋ชจ์ ์ฐจ์ด๋ก ์ํธ์์ฉ ๊ถค์ ์์ฒด๊ฐ ๋ฌ๋ผ์ ธ์ผ ํ๋ ๊ฒฝ์ฐ์๋ ์คํจ๊ฐ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฃผ์ ์ ๋ถ๊ธฐ ์์ ์ ๋ฐ๋ ์ฉ๊ธฐ์ ํํ๊ฐ ๋ฐ๋๋ฉด ๋ถ์ ๊ฐ๋๋ ๋์์ด ๋ฌ๋ผ์ ธ์ผ ํ๋๋ฐ, MT3๋ ๊ธฐ์กด ์์ฐ์ ๊ฐ๋๋ก๋ง ๋ถ์ด์ ์คํจํ์ต๋๋ค. ๋น์ทํ๊ฒ ์ ์ฉ์นด๋ ๋ฆฌ๋์ ์นด๋ ๊ธ๊ธฐ ์์ ๋ ๋ฆฌ๋ ๊ธฐ๊ณ์ ์ฌ๋กฏ ์์น ์ฐจ์ด์ ์ ์ํ์ง ๋ชปํด ์คํจํ๋ค๊ณ ํฉ๋๋ค.
Retrieval์ ํ๊ณ โ ๋ณด๊ฐ ๋ถ๊ฐ: ์์ ์ํ์ ์ค๋ช ์์ ์ง์ ํ๋ฏ, MT3๋ ๋ ์ด์์ ์์ฐ์ ์กฐํฉํด ์๋ก์ด ๋์์ ๋ง๋ค์ด๋ด์ง ๋ชปํ๋ค๋ ๊ทผ๋ณธ์ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด๋ฒ ์คํ์์๋ ํ์ํ ๋์์ด ์ ์ฅ๋ ์์ฐ๋ค ์ฌ์ด ์ด๋๊ฐ์ ์๋ ๊ฒฝ์ฐ, MT3๋ ๊ฐ๊น์ด ์์ฐ ํ๋๋ฅผ ํํ ๋ฟ ๋ฏธ์ธํ ์กฐ์ ๋์์ ์์ฑํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ฌํ ์ด๋ถ๋ฒ์ ์ ํ์ผ๋ก ์ธํด, ์ฝ๊ฐ ์๋ก์ด ์ํฉ์ ๋ํ ์ ์๋ ฅ์ด ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค. ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด: ์ฒ์ด๋ ๋์ฒ๋ผ ๋ณํ์ฒด(deformable)๋ฅผ ๋ค๋ฃจ๋ ์์ ์ MT3์๊ฒ ํนํ ์ด๋ ค์ด ์์ญ์ผ๋ก ๋จ์์ต๋๋ค. ๋ณํ์ฒด๋ ๊ฒ๋ชจ์ต๋ง์ผ๋ก ๋ฌผ๋ฆฌ์ ํน์ฑ์ ์ ์ ์๊ณ , ๊ฐ์ ๋ชจ์์ด๋ผ๋ ๊ฐ์ฑ, ๋ง์ฐฐ ๋ฑ ๋ด๋ถ ํน์ฑ์ด ๋ค๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์คํ ์ค โ์ฑ ์ ๋ค์ํ ๊ฐ๋ฐฉ์ ๋ฃ๊ธฐโ ์์ ์์, ๊ฐ๋ฐฉ์ ๋๊ป์ด๋ ์ฃผ๋จธ๋ ํํ๊ฐ ์กฐ๊ธ์ฉ ๋ฌ๋ผ ๋ค์ด์ฌ๋ฆฌ๋ ํ ์กฐ์ ์ด ๋ฐ๋์ด์ผ ํ์ง๋ง, MT3๋ ์ด๋ฅผ ์์ฐ ๊ธฐ๋ฐ์ผ๋ก๋ ์์ธกํ ์ ์์ด ์คํจํ๋ค๊ณ ํฉ๋๋ค. ์ด์ฒ๋ผ ๋ณํ์ฒด ์์ ์ ์ธํ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ด๋ ค์, ์ถ๊ฐ ์ผ์ฑ์ด๋ ์จ๋ผ์ธ ํ์ต ์์ด๋ ํ๊ณ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค. ์คํ๋ฃจํ ์ํธ์์ฉ์ ๊ทผ๋ณธ์ ํ๊ณ: ์ ๋ฐ์ ์ธ ์คํ์ ํตํด ๋๋ฌ๋ MT3์ ๊ฐ์ฅ ํฐ ์ฝ์ ์ โํ๋ฒ ์ฌ์์ ์์ํ๋ฉด ์ค๊ฐ์ ์์ ํ ๋๋ฆฌ๊ฐ ์๋คโ๋ ์ ์ด์์ต๋๋ค. ๋ง์ ์คํจ ์ฌ๋ก์์, ๋ง์ผ ์ค์๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ฝ๊ฐ๋ง ๋ณด์ ํ๋๋ผ๋ฉด ํด๊ฒฐ๋ ์ํฉ๋ค์ด ์์์ง๋ง, MT3๋ trajectory๋ฅผ ์์ํ๋ฉด ๋๊น์ง ๊ทธ๋๋ก ์คํํ๊ธฐ ๋๋ฌธ์ ์คํจ๋ฅผ ๋ชจ๋ฉดํ์ง ๋ชปํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๊ฑด ๊ฐ๊ธฐ๋ ์ฒ ์ ๊ธฐ ์์ ์์๋ ์ฒ์ ์์ง์์ ๋ฐ๋ผ ๋งค ์๊ฐ ํ์ ์กฐ์ ํด์ผ ํ๋๋ฐ, ์คํ๋ฃจํ ์ฌ์์ผ๋ก๋ ์ด๋ฌํ ๋์์ด ๋ถ๊ฐ๋ฅํ์ต๋๋ค. ๋ ๋ฌผ์ฒด๋ฅผ ๋ฐ๋ฉด์ ๋ฐฉํฅ์ ๋ฐ๊พธ๋ ์์ ๋ฑ์ ๋ณธ์ง์ ์ผ๋ก ํ์๋ฃจํ ์ ์ด๊ฐ ํ์ํ๋ฐ, MT3๋ ๊ตฌ์กฐ์ ์ผ๋ก ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ์คํจ ํ ์ฌ์๋ํ๋ ์์ ๋ณด์๋ ๊ณ ๋ คํ ์ ์์ผ๋, ํ๊ฒฝ์ด ์ด๋ฏธ ์ด๊ธ๋ ๋ค๋ผ ์์ ์ด ์ด๋ ต๊ณ ํจ์จ๋ ๋จ์ด์ง๋๋ค. ์์ปจ๋, MT3๋ โํ๋ฒ์ ๊ธฐํโ์ ๋ชจ๋ ๊ฒ์ ๊ฑฐ๋ ์ ์ฑ ์ด๋ฏ๋ก, ํ๊ฒฝ ๋ณํ์ ์ฆ๊ฐ ๋์ํ๊ฑฐ๋ ์ค์ฐจ๋ฅผ ๋์ ๋ณด์ ํ๋ ๋ฅ๋ ฅ์ ์๋ค๋ ํ๊ณ๊ฐ ํ์ธ๋์์ต๋๋ค. ์คํจ ์์ธ ๋ถ์: ์ ์๋ค์ 1000๊ฐ ๊ณผ์ ํ๊ฐ์์ ์คํจํ ์ผ์ด์ค๋ค์ ์ผ์ผ์ด ๋ถ์ํ์ฌ, ๊ฐ์ฅ ๋น๋ฒํ ์คํจ ์์ธ๋ค์ ๋ถ๋ฅํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ: ๊ฐ์ฅ ๋ง์ ๋ถ๋ถ์ ์ฐจ์งํ ๊ฒ์ ๋ฐ๋ชจ Retrieval ๋จ๊ณ์ ์ค๋ฅ (~22%)๋ก, ๋ฌผ์ฒด๊ฐ ๋ถ๋ถ ๊ฐ๋ ค์ ธ ์๊ฑฐ๋(global shape๋ง์ผ๋ก ์์ ์ฐจ์ด๋ฅผ ๊ตฌ๋ถ ๋ชปํ๊ฑฐ๋) ํ ๋ ์๋ชป๋ ์์ฐ์ ์ ํํ๋ ๊ฒฝ์ฐ์์ต๋๋ค. ๋ ๋ฒ์งธ๋ ํฌ์ธํธํด๋ผ์ฐ๋ ๋ถํ ๋ฐ ์ธ์ ๋ฌธ์ (~19.5%)๋ก, ํนํ ํฌ๋ช ํ ๋ฌผ์ฒด๋ ๋ณต์กํ ๋ฐฐ๊ฒฝ ์ ๋ฌผ์ฒด์์ ์ธ๊ทธ๋ฉํ ์ด์ ์ด ์คํจํ์ฌ ์ ์ด์ ์๋ชป๋ ๋์์ด ์ ํ๋๋ ๊ฒฝ์ฐ์์ต๋๋ค. ์ธ ๋ฒ์งธ๋ ํฌ์ฆ ์ถ์ ์ ์คํจ (~23.9%)๋ก, ๋ฌผ์ฒด์ ๋์นญ์ฑ์ด๋ ์์ผ๊ฐ ๋ณํ๋ก ์ธํด ์์ธ๋ฅผ ์๋ชป ๋ง์ถ๋ ์ผ์ด ์์ธ์ด์์ต๋๋ค. ํนํ ๋ฌผ์ฒด๊ฐ ์์ฐ ๋์ ์ ํ ๋ค๋ฅธ ๊ฐ๋๋ก ๋์ด๋ฉด, ๋ถ๋ถ ์ ๊ตฐ๋ค์ ๋ชจ์์ด ๋ฌ๋ผ์ ธ ์ถ์ ์ด ๋ถ์์ ํด์ง๋๋ค. ๋๋จธ์ง ์ฝ 30% ์ ๋๋ ์ํธ์์ฉ ์คํ ๋จ๊ณ์ ๋ฌธ์ ์๋๋ฐ, ์ฃผ๋ก ๋ก๋ด์ด ์ฅ๊ณ ์๋ ๋ฌผ์ฒด์ ์ด๊ธฐ ์ก๋ ์์น๊ฐ ์์ฐ๊ณผ ๋ฌ๋ผ ๋์ ๊ฐ์ ์๋๊ฐ๊ฑฐ๋ (20.2%), ํน์ ์์ ๋งํ ์คํ๋ฃจํ ๋ณด์ ๋ถ๊ฐ๋ก ์ธํ ์คํจ๋ค์ด์์ต๋๋ค. ํนํ ๋ก๋ด์ด ๋ค๊ณ ํ๋ ์์ (์: ์ง๊ฒ๋ก ๋ฌผ์ฒด ์ฅ ์ฑ ๋ค๋ฅธ ๋์)์์, ์ด๊ธฐ ํ์ง(grasp) ์์น๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ๋ ์ดํ ๊ถค์ ์ด ์ด๊ธ๋๋๋ฐ ์ด๋ฅผ MT3๋ ์์ ํ์ง ๋ชปํ์ต๋๋ค. ์ด๋ฌํ ๋ถ์์ ํตํด, MT3์ ์ฑ๋ฅ ๋ณ๋ชฉ์ ๋๋ถ๋ถ ์ธ์(vision) ๋จ๊ณ์ ์์์ ์ ์ ์์ต๋๋ค. ์๊ฐ์ ์ฒ๋ฆฌ(์ธ๊ทธ๋ฉํ ์ด์ , ํฌ์ฆ์ถ์ )์ ๋ฐ๋ชจ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ์ด ๊ณง๋ฐ๋ก ์ฑ๊ณต๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๋ฐ๋ฉด, ์ ์ฑ ์์ฒด์ ํ๊ณ(์คํ๋ฃจํ)์ ๊ธฐ์ธํ ์คํจ๋ ๋ฌด์ํ ์ ์๊ธฐ์, ์ด๋ ๊ตฌ์กฐ์ ์ธ ๊ฐ์ ์ด ํ์ํจ์ ์์ฌํฉ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์ฐจ๋ณ์ ์์ฝ
์ด ์ฐ๊ตฌ์ ๊ธฐ์ฌ์ ์ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ์ ๋ฆฌ๋ฉ๋๋ค:
์ ๋ฐ์ดํฐ ๋ค์ค๊ณผ์ ํ์ต์ ๋ํ ์ฒด๊ณ์ ํ๊ฐ: ๊ธฐ์กด ๋ก๋ด ํ์ต ์ฐ๊ตฌ๋ค์ ํ์คํฌ๋ณ ์๋ฐฑ ๊ฐ์ ์์ฐ์ด ์ ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ณผ์ ๋น ์์ฐ ๊ฐ์๊ฐ 1~10๊ฐ ์์ค์ธ ๊ทนํ ์ํฉ์์ ๋ค์ค ๊ณผ์ ํ์ต์ ์ฑ๋ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ์๊ณ , ์ด๋ฅผ ํตํด ํ์ฌ ๋ฌธํ์ ๊ณต๋ฐฑ์ ๋ฉ์ฐ๋ ์ค์ฆ์ ํต์ฐฐ์ ์ ๊ณตํ์ต๋๋ค. ๋ช ๊ฐ์ง ์ค๊ณ ์กฐํฉ(๋ถํ vs ๋น๋ถํ , BC vs Retrieval)์ ์ ๋์ ์ผ๋ก ๋น๊ตํจ์ผ๋ก์จ, ๋ฐ์ดํฐ ํจ์จ ๊ด์ ์์ ์ด๋ค ์ ๊ทผ์ด ์ ๋ฆฌํ์ง ๊ทผ๊ฑฐ๋ฅผ ๋ง๋ จํด ์ฃผ์์ต๋๋ค.
์๋ก์ด ํ์ต ํจ๋ฌ๋ค์ MT3์ ์ ์: ์ ์๋ค์ Multi-Task Trajectory Transfer (MT3)๋ผ๋ Retrieval ๊ธฐ๋ฐ ๋ถํ ์ ์ฑ ์ ๊ณ ์ํ๊ณ , ์ด๊ฒ์ด ์์ฐ ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ผ ๋ ๋ชจ๋๋ฆฌ์ BC๋ณด๋ค ์ ๋งํ ๋์์์ ์ฆ๋ช ํ์ต๋๋ค. ์ด๋ ๋จ์ํ ์ฑ๋ฅ ํฅ์์ ๋์ด, โ๋ฐ๋ชจ๋ฅผ ํ๋ จ์ด ์๋๋ผ ์คํ์ ํ์ฉํ๋คโ๋ ๋ฐ์์ ์ ํ์ ์ ์ํฉ๋๋ค. ํนํ ๋ณต์กํ ์ ๊ฒฝ๋ง ์์ด๋ ๊ด๋ฒ์ํ ์์ ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค์ผ๋ก์จ, ๋๊ท๋ชจ ๋ก๋ด ํ์ต์๋ ๊ฑฐ๋ ๋ชจ๋ธ์ด ํ์๋ผ๋ ๊ธฐ์กด ๊ฐ์ ์ ๋์ ํ์ต๋๋ค. ์ค์ ๋ก 1000๊ฐ ์์ ์ ๋จ ํ๋ฃจ๋ง์ ๋ฐฐ์๋ธ ๊ฒ์, ๋ชจ๋๋ฆฌ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ก๋ ์คํํ๊ธฐ ์ด๋ ค์ ์ ์ฑ๊ณผ์ ๋๋ค.
1,000๊ฐ ์ค์ ์์ ํ์ต์ ์คํ ๋ฐ ํ๊ณ ๋ถ์: ๋ณธ ์ฐ๊ตฌ๋ ๋ณต์กํ๊ณ ๋ค์ํ 1000๊ฐ ์์ ์ ์ค์ ๋ก๋ด์ผ๋ก ํ์ต์์ผ๋ณธ ์ต์ด์ ์ฌ๋ก๋ก์, ํ์ค ์ธ๊ณ ๋ก๋ด ํ์ต์ ์ค์ผ์ผ ์ ๊ฐ๋ฅ์ฑ์ ์์ฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ํ์ต์ ์๋ก์ด ์งํ์ ์ด์์ ๋ฟ ์๋๋ผ, ๋์์ MT3 ์ ๊ทผ๋ฒ์ ํ๊ณ์ ์คํจ ๋ชจ๋๋ฅผ ๋ฉด๋ฐํ ๋ถ์ํ์ฌ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ์ต๋๋ค. ํนํ ์ธ์ ์ค์ฐจ, ์คํ๋ฃจํ ์ ์ด์ ์ทจ์ฝ์ , ๋ฒ์ฉ์ ํผ๋๋ฐฑ์ ๋ถ์ฌ ๋ฑ์ ๋ฌธ์ ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋๋ฌ๋ด์ด, ๋ค์ ๋จ๊ณ ์ฐ๊ตฌ๋ค์ด ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ฅผ ๋ช ํํ ํ์์ต๋๋ค.
์ด์ ์ฐ๊ตฌ์์ ์ฐจ๋ณ์ฑ๋ ๋ถ๋ช ํฉ๋๋ค. Behavior Transformer (BC-Z)๋ Robotics Transformer (RT-1) ๋ฑ์ ์ ํ ์ฐ๊ตฌ๋ค์ ๊ฑฐ๋ ๋ฉํฐํ์คํฌ ๋ชจ๋ธ์ ์์กดํ๋ฉฐ ๊ณผ์ ๋น ํ๊ท 200ํ ์ด์์ ์์ฐ์ ํฌ์ ํ์ง๋ง, ๋ณธ ์ฐ๊ตฌ๋ ์ด์๋ ๋ฐ์ดํฐ๋ก๋ ์๋ํ๋ ์ค๊ณ์ ์ง์คํ์ฌ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํ ์ฐจ์ ๋์์ต๋๋ค. ๋ํ ๊ณผ๊ฑฐ ์ผ๋ถ ์ฐ๊ตฌ๋ค์ด ํฌ์ฆ ์ถ์ + RL ํน์ ๋น์ ์๋ณด์์ผ๋ก ํน์ ๋จ์ผ ์์ ์ ์ฑ๊ณต์ํจ ๋ฐ ์์ผ๋, ๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ์ค๊ณ ์กฐํฉ์ ๋์ผ ํ๋ซํผ์์ ๋น๊ตํ๋ค๋ ์ ์์ ์ผ๋ฐํ๋ ๊ฒฐ๋ก ์ ๋์ถํ ์ ์์์ต๋๋ค. FlowRetrieval์ด๋ SAILOR ๋ฑ ์ต๊ทผ ์ ์๋ Retrieval ๋ฐฉ๋ฒ๋ค์ด ์ฃผ๋ก ์ ์ฑ ํ์ต ์ ์ ๋ฐ์ดํฐ ์ ๋ณ์ ์ฐ์ธ ๋ฐ๋ฉด, MT3๋ ์คํ ์ ๋ฐ๋ชจ๋ฅผ ๊ฒ์ํ๋ค๋ ์ฐจ์ด๋ ์์ต๋๋ค. ์ด๋ฌํ ์ค์๊ฐ ๋ฐ๋ชจ ํ์ฉ์ VINN ๋ฑ ์ผ๋ถ ์ฌ๋ก๊ฐ ์์์ผ๋, ์์ฐ์ด+๊ธฐํ ์ ๋ณด๋ก ์ ์ฒด ๊ถค์ ์ ๊ฒ์ํ๋ ๋ฐฉ์์ ๋ณธ ์ฐ๊ตฌ์ ์๋ก์ด ๊ณตํ์ ๋๋ค. ์์ฝํ๋ฉด, โํ๋ฃจ์ ์ฒ ์์ ํ์ตโ ์ฐ๊ตฌ๋ ์ด๋ก ์ ์ผ๋ก ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ ์์ด๋์ด(๋จ๊ณ ๋ถํ + ๋ฐ๋ชจ๊ฒ์)๋ฅผ ๋๊ท๋ชจ ์คํ์ผ๋ก ์ ์ฆํด ๋ณด์์ผ๋ก์จ, ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ฉ์ฑ๊ณผ ํ์ฅ์ฑ ๋ฉด์์ ํฐ ํ์ ๊ทธ์ ์ฐ๊ตฌ๋ผ ํ๊ฐํ ์ ์์ต๋๋ค.
๋ก๋ด๊ณตํ์ ์์ ๋ฐ ํ์ฉ ๊ฐ๋ฅ์ฑ
ํ์ค ์ธ๊ณ ๋ก๋ด ํ์ต ๊ด์ ์์, ์ด ์ฐ๊ตฌ๊ฐ ์ฃผ๋ ์๋ฏธ์ ํฅํ ๊ณผ์ ๋ฅผ ์ ๋ฆฌํฉ๋๋ค. ์ด์๋ ๋ฐ์ดํฐ๋ก ํ์ต ๊ฐ๋ฅํ ๋ก๋ด: ์ฌ๋์ ์๋ก์ด ์์ ์ ๋ฐฐ์ฐ๋๋ฐ ๋ช ๋ฒ์ ์๋ฒ์ผ๋ก ์ถฉ๋ถํ์ง๋ง, ๋ก๋ด์ ๊ทธ๋ ์ง ๋ชปํ๋ค๋ ๊ฒ์ด ์ ์ค์ด์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ 1ํ ์๋ฒ์ด๋ผ๋ ์ธ์์ ์ธ ์์น๋ก ๋ก๋ด์ ํ์ต ํจ์จ์ ์ธ๊ฐ ์์ค์ ๊ฐ๊น๊ฒ ๋์ด์ฌ๋ ธ์ต๋๋ค. ์ด๋ ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด์ด๋ ์ฐ์ ์ฉ ํ๋ ๋ก๋ด์ ๋ฐ๋ก ์์ฉ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค. ์์ปจ๋ ์ฌ์ฉ์๊ฐ ๋ก๋ด์๊ฒ ์๋ก์ด ์์ ์ ๊ฐ๋ฅด์น ๋ ์ผ์ผ์ด ๋ง์ ์์ ๋ฅผ ์ค ํ์ ์์ด, ํ ๋ฒ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ ํ์ต์ด ๊ฐ๋ฅํด์ง ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด ๋ณด๊ธ์ ํฐ ์ฅ์ ์๋ ๋ฐ์ดํฐ ์ค๋น ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์๋ ๋ฐฉํฅ์ ๋๋ค. ๋ชจ๋ฐฉํ์ต๊ณผ ๊ณ ์ ์ ์ด์ ์ตํฉ: MT3์ ์ฑ๊ณต์ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ์ ํต์ ๋ก๋ด๊ธฐ์ ์ ์ฅ์ ์ ๊ฒฐํฉํ ๊ฒฐ๊ณผ๋ก ๋ณผ ์ ์์ต๋๋ค. ํฌ์ฆ ์ถ์ , ๋ชจ์ ํ๋๋, ๊ถค์ ์ฌ์ ๋ฑ ๋ก๋ด๊ณตํ์์ ์ค๋ ์ฐ๊ตฌ๋ ๊ธฐ๋ฒ๋ค์ ํ์ต ํ๋ ์์ํฌ ๋ด์ ํตํฉํ ๋๋ถ์, ์ ๊ฒฝ๋ง ๋จ๋ ์ผ๋ก ํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ฐํํ ์ ์์์ต๋๋ค. ์ด๋ ํฅํ ๋ก๋ด ํ์ต ์์คํ ์ค๊ณ์ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ ์ค์์ฑ์ ์์ฌํฉ๋๋ค. ์์ ํ ์๋ํฌ์๋ ํ์ต ๋์ , ๋ฌธ์ ์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ฌํ๊ณ ๊ฒ์ฆ๋ ์๋ธ๋ฃจํด์ ํ์ฉํ๋ฉด ํจ์ฌ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
ํ์ฅ์ฑ: 1000๊ฐ ๊ณผ์ ์ ์์ฐํ๊ณ ํ์ตํ ๊ฒ์ ์์์ ๋ถ๊ณผํฉ๋๋ค. ๊ณผ์ ์ ๋ณต์ก๋๋ฅผ ๋์ด๊ฑฐ๋ ์ฐ์ ๋์(๋ฉํฐ์คํ )์ ๋๋ฆฌ๋ ๋ฐฉํฅ์ผ๋ก ํ์ฅํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ณธ ์ฐ๊ตฌ์์๋ pick-and-place๋ฅผ ๋๋ก ์ชผ๊ฐ์ผ ํ์ง๋ง, ๋ฏธ๋์๋ MT3 ๋ฐฉ์์ผ๋ก pickโplace ๋ ๋จ๊ณ๋ฅผ ์ฐ์ ๊ฒ์/์คํํ๋๋ก ๋ฐ์ ์ํฌ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ ๋ค์ ๋ก๋ด์ ํ์ฉํ ๋ณ๋ ฌ ์์ฐ ์์ง์ผ๋ก ์๊ฐ์ ๋ ๋จ์ถํ๊ฑฐ๋, ์๋ ์์ฐ ์์ฑ(์: ์๋ฎฌ๋ ์ดํฐ ์ด์ฉ)์ผ๋ก ๋ฐ๋ชจ ์๋ฅผ ํ๋ํ๋ ๊ฒ๋ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ํ์ต๋ 1000๊ฐ ์คํฌ์ ์กฐํฉํด์ ๋ณตํฉ ๊ณผ์ ๋ฅผ ์ํํ๋ ๊ณ ์์ค ํ๋๋์์ ์ฐ๊ณ๋ ์ค์ฉ์ ์ธ ๋ค์ ๋จ๊ณ์ ๋๋ค.
๊ณผ์ : ์ด ์ฐ๊ตฌ๋ ๋์์ ๋ช ๊ฐ์ง ํ๊ณ๋ฅผ ๋๋ฌ๋๊ณ , ์ด๋ ๊ทธ๋๋ก ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ์ด์ด์ง๋๋ค. ์ค์๊ฐ ํผ๋๋ฐฑ ํตํฉ: ์คํ๋ฃจํ ์ ์ฑ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค๋ฉด, ํ์๋ฃจํ ์ ์ด ๋๋ ๊ฐํํ์ต์ ํตํ ๋ฏธ์ธ ์กฐ์ ์ด ํ์ํฉ๋๋ค. ์์ปจ๋ MT3์ ์ํธ์์ฉ ๋จ๊ณ์ ๋น์ ํผ๋๋ฐฑ์ ์ถ๊ฐํ์ฌ visual servoing์ฒ๋ผ ์คํ ์ค ๊ถค์ ์ ์กฐ์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ ์ ์์ ๊ฒ์ ๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ํผ๋๋ฐฑ ๋ถ์ฌ๋ฅผ ์ฃผ์ ํ๊ณ๋ก ๊ผฝ๊ณ ์์ผ๋ฉฐ, ์ด๋ฅผ ๋ณด์ํ๋ฉด ๋ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์์ ์ฑ์ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ํฅ์๋ ์ธ์ ๊ธฐ์ : ์คํจ ์์ธ์ ์๋น ๋ถ๋ถ์ด ๋ฌผ์ฒด ์ธ์๊ณผ ์์ธ ์ถ์ ์ ์ค๋ฅ์์ ๋น๋กฏ๋ ๋งํผ, ๋ ๊ฐ์ธํ ์ธ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋ท๋ฐ์นจ๋๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๊ฐ์ ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ด๋ ๋น์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ 6-DoF ํฌ์ฆ ์ถ์ ์ ์ฌ์ฉํ๋ฉด, ํฌ๋ช ์ฒด๋ ๋ถ๋ถ ๊ฐ๋ฆผ ์ํฉ๋ ๋ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ๋ํ ์ํ ๋ถ์ ์ธ์์ ์ํด ๋ฉํฐ์นด๋ฉ๋ผ๋ ๊ณ ํด์๋ ์ผ์์ ๋์ ๋ ๊ณ ๋ คํด๋ณผ ์ ์์ต๋๋ค. Retrieval ๊ณ ๋ํ: ํ์ฌ๋ language+geometry ๋จ์ ํฉ์ผ๋ก ๋ฐ๋ชจ๋ฅผ ๊ณจ๋๋ค๋ฉด, ๋ฏธ๋์๋ ๊ณผ์ ์ํ ์ฑ๊ณต๋ฅ ์ ์์ธกํ๋ ๋ฌ๋ ํฌ ๋ญํฌ(learning-to-rank) ๊ธฐ๋ฒ์ด๋, ์ฌ๋ฌ ๋ฐ๋ชจ๋ฅผ ๋์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ณ ๋ํํ ์ ์์ต๋๋ค. ํ๋์ ์๋ก, ๋ ๊ฐ ์ด์์ ์ ์ฌ ๋ฐ๋ชจ ๊ถค์ ์ ํฉ์ฑํ๊ฑฐ๋ ๋ณด๊ฐํ๋ ๋ชจ๋ธ์ ํ์ต์์ผ, ์์ ํ ๋์ผํ ๋ฐ๋ชจ๊ฐ ์์ด๋ ์ ์ฌํ ์๋ก์ด ํ๋์ ์์ฑํด๋ผ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ ์์ฑ ๋ชจ๋ธ(์: Diffusion Policy ๋ฑ)์ ํ์ฉํด Retrieval+Generation ํผํฉ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๋ค. ๋ณํ์ฒด ๋ฐ ๋ณต์กํ ์ํธ์์ฉ: ์ท ๊ฐ๊ธฐ, ๋ฐง์ค ๋ฌถ๊ธฐ ๋ฑ ๋ณํ์ฒด ์์ ์ด๋, ๋ฏธ๋๋ฌ์ง๋ ์ ์ด์ ํ์ฉํ ๋์ ๋ฑ์ ์ฌ์ ํ ๋์ ์ ๋๋ค. ์ด๋ฌํ ๊ณผ์ ์๋ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ํ์ต์ ํ์ฉํ๊ฑฐ๋, ์จ๋ผ์ธ์ผ๋ก ๋ชจ๋ธ ์ ๋ฐ์ดํธ(์: ๋ฉํ๋ฌ๋)ํ๋ ์ ๊ทผ์ด ํ์ํ ์ ์์ต๋๋ค. ๋ํ ๋ณํ์ฒด์ ๊ฒฝ์ฐ Force/Torque ์ผ์ ํผ๋๋ฐฑ ๋ฑ ๋น์ ์ด์ธ์ ๊ฐ๊ฐ์ ํตํฉํ๋ ๊ฒ๋ ํ ๋ฐฉํฅ์ ๋๋ค. ์ค์ฉํ ์ ๋ง: 1000๊ฐ์ง ์์ ์ ์ตํ ๋ก๋ด์ ๋ ์ด์ ๊ณต์๋ง์ ์๋๋๋ค. ์์ปจ๋ ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด์ด MT3 ๊ธฐ์ ์ ํ์ฌํ๋ค๋ฉด, ์ ์กฐ์ฌ๊ฐ ๋ฏธ๋ฆฌ ํ์ต์ํจ ์๋ฐฑ ๊ฐ์ง ๊ฐ์ฌ๋์์ ์ํํ๋ฉด์, ์ฌ์ฉ์๋ก๋ถํฐ ๋ช ๊ฐ์ง ์๋ก์ด ์ง์์ผ ์คํฌ์ ๊ฐ๋จํ ๋ฐฐ์ ์ถ๊ฐํ ์๋ ์์ต๋๋ค. ์ฐ์ ํ์ฅ์์๋ ๋คํ์ข ์๋ ์์ฐ์ ๋ก๋ด์ ์ ์ฉํ๋ ค๋ฉด ์ฆ์ ์์ ์ ํ์ด ํ์ํ๋ฐ, ์ด๋ฐ ์ํฉ์์ ํ๋ฒ ๋ณด์ฌ์ฃผ๊ณ ๋ฐ๋ก ๋ฐฐ์ฐ๋ ๋ก๋ด์ ํ์ ์ ์ผ ๊ฒ์ ๋๋ค. ๋ฌด์๋ณด๋ค ์ด ์ฐ๊ตฌ๋ โ๋ผ์คํธ ๋ฏธํฐ(last-meter) ํ์ตโ์ ์ค์์ฑ์ ๋ถ๊ฐํฉ๋๋ค โ ๊ฑฐ์ฐฝํ ์ผ๋ฐ์ง๋ฅ์ด ์๋๋๋ผ๋, ํ์ฅ์์ ์ฌ๋์ ๊ฐ๋จํ ๋ฐ๋ชจ๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ก๋ด์ด ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋ฐํํ ๊ฒ์ด๋ผ๋ ์ ์ ๋๋ค. ์์ฝํ๋ฉด, Learning a Thousand Tasks in a Day๋ ๊ทนํ์ ๋ฐ์ดํฐ ํจ์จ๋ก ๋๊ท๋ชจ ์์ ํ์ต์ ๋ฌ์ฑํ ๊ธฐ๋ ๋น์ ์ธ ์ฐ๊ตฌ์ ๋๋ค. ๋ก๋ด๊ณตํ์ ์ผ๋ก ์ด๋ ํ์ต๊ณผ ์ ์ด์ ์ ๋ชฉ์ ํตํ ์ฑ๋ฅ ํฅ์๊ณผ ํ์ค์ ์ธ ๋ฒ์ฉ ๋ก๋ด์ ํ ๊ฑธ์ ๋ค๊ฐ์ฐ์์ ์๋ฏธํฉ๋๋ค. ๋ฌผ๋ก ํด๊ฒฐํด์ผ ํ ๋ฌธ์ ๋ค๋ ๋จ์ ์์ง๋ง, ์ด๋ฌํ ํจ๋ฌ๋ค์ ์ ํ์ ์ ๊ทผ์ ํตํด ๊ถ๊ทน์ ์ผ๋ก๋ โ์ฌ๋์ฒ๋ผ ํ๋ฒ ๋ณด๊ณ ๋ฐฐ์ฐ๋โ ๋ฒ์ฉ ๋ก๋ด์ ์คํํ๋ ๊ธธ์ด ์ด๋ฆฌ๊ณ ์์ต๋๋ค.