flowchart LR
subgraph S1["Stage 1 ยท Taxonomy ์ ํ"]
IMG["์ฅ๋ฉด ์ด๋ฏธ์ง<br/>+ ์์
๋งฅ๋ฝ"]
AXIS["3D ์ขํ์ถ ์ค๋ฒ๋ ์ด<br/>(๋ชฉํ ๋ฐฉํฅ)"]
VLM["VLM (Gemini 3)<br/>zero-shot ์ ํ"]
IMG --> VLM
AXIS --> VLM
VLM --> TAU["๊ทธ๋ฆฝ ํ
ํ๋ฆฟ ฯ<br/>{qฬ, bฬ, pฬ, รฑ}<br/>(30 ์ ํ ์ค 1)"]
end
subgraph S2["Stage 2 ยท Taxonomy-์กฐ๊ฑด๋ถ RL"]
OBS["๊ด์ธก<br/>proprio + ๋ถ๋ถ ์ ๊ตฐ<br/>+ BPS ๊ธฐํ + ์๋ชฉ-๋ฌผ์ฒด"]
POL["RL ์ ์ฑ
<br/>(teacherโstudent distill)"]
ACT["ํ๋ ฮq, ฮw<br/>์ฐ์ ๋ค์ง ๋ชจ์
"]
OBS --> POL --> ACT
end
TAU --> POL
ACT --> ROB["ํด๋จธ๋
ธ์ด๋ ์ Allex<br/>๊ธฐํ/์์
๋ณ ํ์ง"]
๐GRIT
- ๐ค GRIT์ ์ฌ์ ์ ์๋ grasp taxonomy๋ฅผ ํ์ฉํ์ฌ ๊ณ ์์ค์ ํ์ ์๋์ ์ ์์ค์ ์ ๋ฐํ ์๊ฐ๋ฝ ์ ์ด๋ฅผ ์ฐ๊ฒฐํ๋ 2๋จ๊ณ dexterous manipulation ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ก Vision-Language Model์ ํตํด ์ฅ๋ฉด๊ณผ ์์ ๋งฅ๋ฝ์ ์ต์ ํ๋ taxonomy๋ฅผ ์ ํํ๊ณ , multiplicative reward ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ ์๋ํ ํ์ ํํ๋ฅผ ์ถฉ์คํ ์ ์งํ๋ฉฐ ์์ ์ ์ผ๋ก ๊ฐ์ฒด๋ฅผ ์กฐ์ํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, GRIT์ ์๋ก์ด ๊ฐ์ฒด์ ๋ํด 87.9%์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ค์ธ๊ณ ์คํ์ ํตํด ์์ ๋ชฉ์ ๊ณผ ๊ฐ์ฒด ํ์์ ๋ฐ๋ผ ์ ์ฐํ๊ฒ ํ์ ์ ๋ต์ ์กฐ์ ํ๋ ์ ์ด ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ณต์กํ Dexterous manipulation(์ ๊ตํ ์กฐ์)์ ์ํํ๊ธฐ ์ํด ๊ณ ์ฐจ์์ ์ธ Grasp taxonomy(ํ์ง ๋ถ๋ฅ)์ ์ ์์ค์ ์ ์ด ์ ์ฑ ์ ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ์ธ GRIT(Grasp Reinforcement with Intended Taxonomies)์ ์ ์ํฉ๋๋ค.
1. ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ ์ ๊ธฐ
๊ธฐ์กด์ Dexterous manipulation ์ฐ๊ตฌ๋ ์ ๊ตํ ์ ์ด์ ์ด๋ ์ฐ์์ ์ธ ๋์ ๊ถค์ ์ ์ง์ ํ์ตํด์ผ ํ๋ ์ด๋ ค์์ด ์์์ผ๋ฉฐ, ๊ฐํํ์ต์ ํตํ ์ข ๋จ๊ฐ(End-to-end) ํ์ต์ ์ ์ด๊ฐ ์ด๋ ต๊ณ ์ฌ์ฉ์ ๊ฐ์ ์ด ๋ถ๊ฐ๋ฅํ๋ค๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ผ๋ฌธ์ ์ธ๊ฐ์ ํ์ง ์ ํ ๋ถ๋ฅ ์ฒด๊ณ(Feix et al. [4])๋ฅผ ํ์ฉํ์ฌ, ๊ณ ์์ค์ โํ์ง ์๋โ๋ฅผ ์ ๊ณตํ๊ณ ์ ์์ค์ โ์๊ฐ๋ฝ ๋์โ์ ์์ฑํ๋ 2๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ์ต๋๋ค.
2. ํต์ฌ ๋ฐฉ๋ฒ๋ก
GRIT์ ํฌ๊ฒ ํ์ง ๊ณํ(Grasp Planning) ๋จ๊ณ์ ์กฐ๊ฑด๋ถ ์ ์ด(Taxonomy-conditioned Control) ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ํ์ง ๋ถ๋ฅ ๋ฐ ๊ณํ: Feix์ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 30๊ฐ์ ํ์ง ํ ํ๋ฆฟ(\tau)์ ๊ตฌ์ถํฉ๋๋ค. ๊ฐ ํ ํ๋ฆฟ์ ๊ธฐ์ค ๊ด์ ๊ตฌ์ฑ(\tilde{q}), ํ์ฑ ๋งํฌ ๋ง์คํฌ(\tilde{b}), ์ ์ด ์์น ๋ฐ ๋ฒ์ (\tilde{p}, \tilde{n})์ผ๋ก ์ ์๋ฉ๋๋ค. ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)์ ์ฌ์ฉํ์ฌ ์ฅ๋ฉด ์ด๋ฏธ์ง(I)์ ์์ ์ค๋ช (T)์ผ๋ก๋ถํฐ ์ต์ ์ ํ์ง ์ค์ (g = (\tau, \bar{w}_w))์ ์ถ๋ก ํฉ๋๋ค.
- Taxonomy-conditioned Control: ํ์ต ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค. J(\pi) = E_{\pi} \left[ \sum_{t=0}^{T} \gamma^t r_t(s_t, g) \right] ์ ์ด ์ ์ฑ ์ ํ์ฌ ์ํ์ ์ ํ๋ ํ์ง ๋ช ์ธ(g)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์ฐ์์ ์ธ ์๊ฐ๋ฝ ์ ์ด ๋์์ ์ถ๋ ฅํฉ๋๋ค.
- ๋ค์ค ๋ณตํฉ ๋ณด์ ๊ตฌ์กฐ(Multiplicative Composite Reward): ํ์ง ์ค์์ ์์ ์ฑ๊ณต์ ํจ๊ณผ์ ์ผ๋ก ์กฐ์จํ๊ธฐ ์ํด ๋ณด์ ์์ ๋ค์๊ณผ ๊ฐ์ด ์ค๊ณํ์ต๋๋ค. r = r_h \cdot \alpha_h + r_o \cdot \alpha_o - r_{pen} ์ฌ๊ธฐ์ \alpha_h์ \alpha_o๋ ๊ฐ๊ฐ ์ ๊ทผ ๋จ๊ณ์ ํ์ง ๋จ๊ณ์์ ํ๋์ ์์ ์ฑ์ ๊ฐ์ ํ๋ ๊ณฑ์ ๊ณ์(Multiplicative constraint coefficient)๋ก ์์ฉํฉ๋๋ค. ํนํ, ํ์ง ์ค์ ์ ๋๋ฅผ ๋ํ๋ด๋ \alpha_{mimic} ํญ์ ๋ ํผ๋ฐ์ค ํ์ง ์ค์ ์ผ๋ก๋ถํฐ์ ์ค์ฐจ๋ฅผ ํ๋ํฐ๋ก ๋ถ์ฌํ์ฌ, ์ฌ์ฉ์์ ์๋๋ฅผ ์๊ฒฉํ๊ฒ ๋ฐ์ํฉ๋๋ค. L_{mimic} = \frac{1}{N_{act}} \sum_{i=1}^{L} (\max(|q_i - q_{ref,i}| - \tau_{act}, 0))^2 + \dots
- Distillation: ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํน๊ถ ์ ๋ณด(Privileged information)๋ฅผ ์ฌ์ฉํ๋ ๊ต์ฌ ์ ์ฑ (Teacher policy)์ ํ์ต์ํจ ํ, ๋ถ๋ถ์ ์ธ ๊ด์ธก ์ ๋ณด(Point cloud)๋ง์ ์ฌ์ฉํ๋ ํ์ ์ ์ฑ (Student policy)์ผ๋ก ์ฆ๋ฅํ์ฌ ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ ์ ์๋๋ก ์ค๊ณํ์ต๋๋ค.
3. ์ฃผ์ ์ฑ๊ณผ ๋ฐ ์คํ ๊ฒฐ๊ณผ
- ์ผ๋ฐํ ์ฑ๋ฅ: Objaverse ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํ์์, GRIT์ ๊ธฐ์กด์ RDG๋ GraspXL ๋๋น ๋ ๋์ ์ฑ๊ณต๋ฅ (87.9%)์ ๊ธฐ๋กํ์ต๋๋ค.
- ์ ์ด ๊ฐ๋ฅ์ฑ: ๋์ผํ ๋ฌผ์ฒด๋ผ๋ ์์ ์๋(โ์ก๊ธฐโ vs โ์ง๊ธฐโ)์ ๋ฐ๋ผ ๋ค๋ฅธ ํ์ง ์ ํ(Precision grasp vs Power grasp)์ ์ ํํ๋๋ก ์ ์ดํ ์ ์์์ ์ฆ๋ช ํ์ต๋๋ค.
- ํจ์จ์ฑ: ๊ณฑ์ ํํ์ ๋ณด์ ๊ตฌ์กฐ ๋๋ถ์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ์์ด๋ ํ์ง ์ ํ๋์ ์์ ์ฑ๊ณต๋ฅ ์ฌ์ด์ ์์ ์ ์ธ ๊ท ํ์ ์ ์งํ์ต๋๋ค.
- ์ค์ ๋ก๋ด ์คํ: ๋ค์ํ ๊ธฐํํ์ ํํ์ ๋ฌผ์ฒด์ ๋ํด ํ์ง ํ ํ๋ฆฟ์ ์ ํ์ ์ผ๋ก ์ ์ฉํจ์ผ๋ก์จ, ๋ณต์กํ ํ๊ฒฝ์์๋ ์ ๊ตํ ์กฐ์์ด ๊ฐ๋ฅํจ์ ํ์ธํ์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, GRIT์ ๊ณ ์์ค์ โ์๋โ์ ์ ์์ค์ โ์คํโ์ ๋ถ๋ฆฌํจ์ผ๋ก์จ ์ ๊ตํ ์กฐ์ ์์ ์ ์ ์ด ๊ฐ๋ฅ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์์ ํ๋ณดํ ํจ์จ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ฅ์ํ ๋ค์ง ํ์ง(dexterous grasping)์์ ๊ฐ์ฅ ์ค๋๋ ๊ธด์ฅ์ โ๋ฌด์์ ์ง์ ํ๊ณ ๋ฌด์์ ํ์ต์ ๋งก๊ธธ ๊ฒ์ธ๊ฐโ ์ ๋๋ค.
- ์กฐ๋ฐํ ๋ช ์ธ(dense specification) โ ์๊ฐ๋ฝ ๊ด์ ๊ถค์ , ์ ์ด์ , ์ ์ด๋ ฅ์ ๋ฌผ์ฒดยท์์ ๋ง๋ค ์ฌ๋์ด ์ง์ ์ง์ ํ๋ฉด ์ ์ด๋ ์ ํํด์ง์ง๋ง, ์ ๋ฌผ์ฒดยท์ ์์ ์ด ์๊ธธ ๋๋ง๋ค ๋นํ์ค์ ์ธ ์ฃผ์ ๋น์ฉ์ด ๋ญ๋๋ค. ์ผ๋ฐํ๋ ์ฌ์ค์ ์ฌ๋์ด ๋ง๋ ๋ฐ์ดํฐ์ ๋ฒ์์ ๊ฐํ๋๋ค.
- ๋ช ์ธ ์๋ ์์ RL โ ๋ณด์๋ง ์ฃผ๊ณ ์์์ ๋ฐฐ์ฐ๊ฒ ํ๋ฉด ์์จ์ฑ์ ๋์ง๋ง, ํ์์ด ๋นํจ์จ์ ์ด๋ผ ํน์ ์ ์์ธ๋ก ํธํฅ ๋๊ธฐ ์ฝ์ต๋๋ค. ๋ชจ๋ ๋ฌผ์ฒด๋ฅผ ๋น์ทํ ๋ฐฉ์์ผ๋ก ์์ผ์ฅ๋ ๋จ์กฐ๋ก์ด ์ ์ฑ ์ผ๋ก ์๋ ดํ๊ณ , ์ฌ์ฉ์๊ฐ โ์ด๊ฑด ์ ๋ฐํ๊ฒ ์ง์ด์คโ ๊ฐ์ ์๋๋ฅผ ์ฃผ์ ํ ํต๋ก๊ฐ ์์ต๋๋ค.
์ ์๋ค์ด ๋์ง๋ ์ง๋ฌธ์ ๋ถ๋ช ํฉ๋๋ค. โ์ฌ๋์ด ์๊ฐ๋ฝ ํ๋ํ๋๋ฅผ ์ง์ ํ์ง ์์ผ๋ฉด์๋, ์ด๋ค ์์ผ๋ก ์ก์์ง์ ๋ํ ์๋๋ ์ฃผ์ ํ ์ ์๋ ์ต์ํ์(sparse) ์ธํฐํ์ด์ค๋ ๋ฌด์์ธ๊ฐ?โ
๋ต์ ์ธ๊ฐ ๊ทธ๋ฆฝ ๋ถ๋ฅํ(grasp taxonomy) ์ ๋๋ค. ์ฌ๋์ ์๋ง์ ํ์ง๋ฅผ ์์์ ์ ํ(power/precision, ๊ฐ์ธ๊ธฐ/์ง๊ธฐ ๋ฑ) ์ผ๋ก ๋ฒ์ฃผํํด ์์ต๋๋ค. GRIT์ ํต์ฐฐ์ ์ด ์ถ์์ ์ ํ์ด ๋ฌผ์ฒด ๊ธฐํ์ ๊ฐํ๊ฒ ์ฐ๊ด ๋๋ค๋ ์ ์ ๋๋ค โ ๋ง๋ํ์ ์ ๋ฐ ์ง๊ธฐ๊ฐ, ๋ฅ๊ทผ ๋ฌผ์ฒด์ ๊ฐ์ธ๊ธฐ๊ฐ ๋ ์ ๋ง์ต๋๋ค. ๋ฐ๋ผ์ ์ ํ ํ๋๋ง ๊ณ ๋ฅด๋ ๊ฒ ๋ง์ผ๋ก ์ถฉ๋ถํ ๊ฐ์ด๋๊ฐ ๋๋ฉฐ, ๊ตฌ์ฒด ์ ์ด๋ ๋ฌผ์ฒด์ ๋ง์ถฐ ์ ์ฑ ์ด ์ฑ์ฐ๋ฉด ๋ฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ ์ค ์์ฝ: Feix ๋ถ๋ฅํ์ 30๊ฐ ๊ทธ๋ฆฝ ์ ํ ์ ํฌ์ ๊ฐ์ด๋๋ก ์ผ์, 1๋จ๊ณ์์ ์ฅ๋ฉดยท์์ ์ผ๋ก๋ถํฐ ์ ํ์ ๊ณ ๋ฅด๊ณ (VLM zero-shot), 2๋จ๊ณ์์ ๊ทธ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๋ taxonomy-์กฐ๊ฑด๋ถ RL ์ ์ฑ ์ผ๋ก ๋ฌผ์ฒด ๊ธฐํ์ ์ ์ํ๋ ์ฐ์ ๋ค์ง ๋ชจ์ ์ ์์ฑํ๋ค โ ์กฐ๋ฐํ ์ฃผ์ ์์ด๋ ์ ์ด ๊ฐ๋ฅ์ฑ๊ณผ ์ผ๋ฐํ๋ฅผ ๋์์.
๋ฐฉ๋ฒ
GRIT๋ ํฌ์ ๊ฐ์ด๋ โ ์ฐ์ ์ ์ด ์ 2๋จ๊ณ ์์ ์ญ๋๋ค. ํต์ฌ ์ฒ ํ์ โ์ฌ์ฉ์๋ ์ถ์์ ๊ทธ๋ฆฝ ์ ํ๋ง ๊ณ ๋ฅด๊ณ , ์ ์ฑ ์ ๊ทธ ๊ตฌ์กฐ์ ์๋๋ฅผ ๋ณด์กดํ ์ฑ ๋ฌผ์ฒด์ ๋ง์ถฐ ์ฑ์ด๋คโ์ ๋๋ค.
๊ทธ๋ฆฝ ๋ถ๋ฅํ(Taxonomy) ํํ
Feix et al. ์ธ๊ฐ ๊ทธ๋ฆฝ ๋ถ๋ฅํ ์์ ์ง๋์น๊ฒ ๋ฌผ์ฒด-ํนํ๋ 3๊ฐ๋ฅผ ๋นผ 30๊ฐ ์ ํ ์ ์๋๋ค. ๊ฐ ์ ํ์ ํ ํ๋ฆฟ \tau_i = \{\tilde{q}, \tilde{b}, \tilde{p}, \tilde{n}\} ์ผ๋ก ํํ๋ฉ๋๋ค.
- \tilde{q} : ์ฐธ์กฐ ๊ด์ ๊ตฌ์ฑ(reference joint configuration)
- \tilde{b} : ์/์๋ฐ๋ฅ ๋งํฌ๊ฐ ์ ์ด์ ๊ด์ฌํ๋์ง์ ๋ํ ์ด์ง ๊ฒฐํฉ ๋ง์คํฌ
- \tilde{p} : ๋ก์ปฌ ์ ์ขํ๊ณ ๊ธฐ์ค ์ฐธ์กฐ ์ ์ด ์์น
- \tilde{n} : ํด๋น ์ ์ด์ ํ๋ฉด ๋ฒ์
์ด ํํ์ โ์ด๋ ์๊ฐ๋ฝยท์๋ฐ๋ฅ์ด ์ด๋ค ์์ธ๋ก ์ด๋์ ๋ฟ์์ผ ํ๋๊ฐโ๋ผ๋ ๊ตฌ์กฐ ๋ง ๋ด์ ๋ฟ, ์ ๋์ ๊ด์ ๊ฐ์ด๋ ๋ฌผ์ฒด ์ ์ ํํ ์ ์ด์ ์ ๊ณ ์ ํ์ง ์์ต๋๋ค. ๊ทธ ๊ตฌ์ฒดํ๋ 2๋จ๊ณ ์ ์ฑ ์ด ๋ฌผ์ฒด ๊ธฐํ๋ฅผ ๋ณด๊ณ ์ํํฉ๋๋ค.
Stage 1: Taxonomy ์ ํ
๋ชฉํ๋ โ์ด ์ฅ๋ฉดยท์ด ์์ ์์ ์ด๋ค ๊ทธ๋ฆฝ ์ ํ์ ์ธ ๊ฒ์ธ๊ฐโ์ ๋๋ค.
- ํ์ต ์: taxonomy์ ์๋ชฉ ๋ฐฉํฅ(wrist orientation)์ ๊ท ์ผ ์ํ๋ง ํด, ์ ์ฑ ์ด ๋ค์ํ ์ ํ ์ ๋ฐ์ ๊ฑธ์ณ ๊ฒฌ๊ณ ํ๊ฒ ํ์ต๋๋๋ก ํฉ๋๋ค(ํน์ ์ ํ ํธํฅ ๋ฐฉ์ง).
- ์ถ๋ก ์: VLM(Gemini 3) ์ด zero-shot์ผ๋ก ์ ํ์ ๊ณ ๋ฆ ๋๋ค. ์ด๋ ํต์ฌ ํธ๋ฆญ์ ์ฅ๋ฉด ์ด๋ฏธ์ง ์์ 3D ์ขํ์ถ์ ์ง์ ์ค๋ฒ๋ ์ด ํด ์ ์ฌ์ ๋ชฉํ ์ ๊ทผ ๋ฐฉํฅ์ ์๊ฐ์ ์ผ๋ก ํํํ๋ ๊ฒ์ ๋๋ค. VLM์ด 2D ์ด๋ฏธ์ง๋ง ๋ณผ ๋ ์ฝํ ๊ณต๊ฐ ์ถ๋ก ์, ์ด ์ค๋ฒ๋ ์ด๊ฐ ๋ณด๊ฐํฉ๋๋ค.
Stage 2: Taxonomy-์กฐ๊ฑด๋ถ RL ์ ์ฑ
์ ํ๋ ํ ํ๋ฆฟ \tau ๋ฅผ ์กฐ๊ฑด์ผ๋ก, ๋ฌผ์ฒด ๊ธฐํ์ ์ ์ํ๋ ์ฐ์ ๋ค์ง ๋ชจ์ ์ ์์ฑํฉ๋๋ค.
- ๊ด์ธก(observation): ์ ์๊ธฐ์์ฉ ์ํ(๊ด์ ๊ฐ, ์ ์ด indicator, ์ ์ด๋ ฅ) + ๋ฌผ์ฒด ์ํ(RGB-D ๋จ์ผ ์์ ๋ถ๋ถ ์ ๊ตฐ) + ์๋ชฉ-๋ฌผ์ฒด ์๋ ๋ณ์ + ๊ฑฐ๋ฆฌ ํน์ง + BPS(Basis Point Set) ๋ก ์ธ์ฝ๋ฉํ ๋ก์ปฌ ๊ธฐํ.
- ํ๋(action): ๊ด์ ๋ณ์ \Delta q_t \in \mathbb{R}^D, ๋ธํ ์๋ชฉ ํฌ์ฆ \Delta w_t \in \mathbb{R}^7(์ง๊ต + ์ฟผํฐ๋์ธ).
๊ณฑ์ ํ ๋ณตํฉ ๋ณด์(ํต์ฌ ์ค๊ณ). ๋ณด์์ ๋ ์ถ์ ๊ณฑ์ ์ผ๋ก ๊ฒ์ดํ ํฉ๋๋ค.
r_t = \alpha_h \cdot r^{\text{hand}}_t + \alpha_o \cdot r^{\text{obj}}_t - r^{\text{penalty}}_t
- r^{\text{hand}} : ์ ๊ทผ ๋จ๊ณ ์ ์ ์ค์ฌ ๋ณด์(ํ ํ๋ฆฟ ์์ธยท์ ์ด ๊ตฌ์กฐ๋ก์ ์ ๋ ฌ).
- r^{\text{obj}} : ์์ ํ์ง ๋จ๊ณ์ ๋ฌผ์ฒด ์ค์ฌ ๋ณด์(๋ค์ด์ฌ๋ฆผยท์์ ์ฑ).
- \alpha_h, \alpha_o : ์์ ์ฑยทtaxonomy ์ค์๋ ์ ๋ฐ๋ผ ๋ณด์์ ์ผ๊ณ ๋๋ ๊ณฑ์ ํ ์ ์ฝ ๊ณ์.
- r^{\text{penalty}} : ์๋ํ์ง ์์ ์ ์ด์ ์ต์ .
๊ณฑ์ ํ์ด ์ค์ํ ์ด์ ๋, โ์ฌ๋ฐ๋ฅธ ๊ตฌ์กฐ๋ก ์ก์์ ๋๋งโ ๋ฌผ์ฒด ๋ณด์์ด ํ์ฑํ๋์ด ์ ์ฑ ์ด ๋จ์ํ ๋ฌผ์ฒด๋ฅผ ์์ผ์ฅ๋ ์ง๋ฆ๊ธธ์ ๋ง๊ณ ์ ํ ์ถฉ์ค๋(adherence) ๋ฅผ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ค์ ๋ก ๋ํ๊ธฐ(additive) ๋๋น ์ ์ด ์ ๋ฐ๋ 28.57% ํฅ์, ๊ด์ ์ค์ฐจ๋ ํฌ๊ฒ ๊ฐ์ํ์ต๋๋ค.
TeacherโStudent Distillation
- Teacher: ์ ์ฒด(full) ์ ๊ตฐ๊ณผ ground-truth ์ ์ด ๋ฑ ํน๊ถ ์ ๋ณด ๋ก ํ์ต.
- Student: ๋จ์ผ ์์ ๋ถ๋ถ ๊ด์ธก ๋ง ๋ฐ๊ณ , LSTM ์ผ๋ก ์ ์ด ์ ํธ๋ฅผ ๋ณต์ํด ์ค์ธ๊ณ ๋ฐฐํฌ ๊ฐ๋ฅ ํํ๋ก ๋ง๋ญ๋๋ค.
ํ์ต ํ๊ฒฝ์ MuJoCo-Warp + 30๊ฐ YCB ๋ฌผ์ฒด ์ ๋๋ค.
์คํ
์๋ก์ด ๋ฌผ์ฒด ์ผ๋ฐํ
ํ์ต์ ์๋ Objaverse RoboCasa ์๋ธ์ (373๊ฐ ๋ฌผ์ฒด) ์์ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํฉ๋๋ค.
| ๋ฐฉ๋ฒ | ์ฑ๊ณต๋ฅ | ๊ฐ์ด๋ ๋ฐฉ์ |
|---|---|---|
| RDG | 81.9% | ๋ช ์์ ๊ทธ๋ฆฝ ์กฐ๊ฑด ์์(๊ธฐํ/์ ์ด ์ ํธ) |
| GraspXL | 85.9% | graspable/non-graspable ํ๋ฉด ์ฃผ์(๊ฐ์ ) |
| GRIT | 87.9% | taxonomy ํฌ์ ๊ฐ์ด๋ |
GRIT๋ RDG ๋๋น +6.0%p, GraspXL ๋๋น +1.9%p ์ฐ์์ ๋๋ค. ๋ช ์์ ๊ทธ๋ฆฝ ์กฐ๊ฑด์ด ์๋ RDG๋ ์ ์์ธ ํธํฅ์ ์ทจ์ฝํ๊ณ , GraspXL์ ๊ฐ์ ํ๋ฉด ์ฃผ์๋ณด๋ค taxonomy ์กฐ๊ฑด์ด ๋ ํจ๊ณผ์ ์์ ๋ณด์ ๋๋ค.
๋ฌผ์ฒดโTaxonomy ์ ๋ ฌ(ํต์ฌ ํต์ฐฐ ๊ฒ์ฆ)
โํน์ taxonomy๊ฐ ํน์ ๋ฌผ์ฒด ๊ธฐํ์ ๋ ํจ๊ณผ์ โ์ด๋ผ๋ ๊ฐ์ค์ ์ ๋ ๊ฒ์ฆํฉ๋๋ค.
- ๊ณผ์ผ/์ฑ์: taxonomy ๊ฐ ์ฑ๋ฅ ํธ์ฐจ 25.07% โ ์ ํ ์ ํ์ด ์ฑํจ๋ฅผ ํฌ๊ฒ ๊ฐ๋ฆ.
- ํฌ์ฅ ์ ํ(packed goods): ํธ์ฐจ 14.85% โ ์๋์ ์ผ๋ก ๋ ๋ฏผ๊ฐ.
์ฆ ๊ทธ๋ฆฝ ์ ํ์ ํจ๊ณผ๊ฐ ๋ฌผ์ฒด ๊ธฐํ์ ๊ฐํ๊ฒ ์์กด ํ๋ฉฐ, ๋ฐ๋ผ์ โ์ ํ์ ์ ๊ณ ๋ฅด๋ ๊ฒโ์ด ์ผ๋ฐํ์ ํต์ฌ ๋ ๋ฒ์์ ํ์ธํฉ๋๋ค.
Ablation
- BPS ํน์ง ์ ๊ฑฐ: ๋ชจ๋ ์งํ์์ ์ฑ๋ฅ ํ๋ฝ โ ๋ก์ปฌ ๊ธฐํ ์ธ์ฝ๋ฉ์ด ์ ์์ ํ์ง์ ํ์.
- ๋ณด์ ํํ: ๋ํ๊ธฐ(additive) ํํ๋ ์ฑ๊ณต๋ฅ ์์ฒด๋ ๋น์ทํ์ง๋ง, ๊ณฑ์ ํ์ด ์ ์ด ์ ๋ฐ๋ +28.57%, ๊ด์ ์ค์ฐจ ์ธก๋ฉด์์๋ ํฐ ๊ฐ์ (naive additive ๋๋น 57.83% ๋ฎ์ ๊ด์ ์ค์ฐจ)์ ๋ณด์ฌ ์ ํ ์ถฉ์ค๋ ๊ฐ ํจ์ฌ ์ฐ์.
์ค์ธ๊ณ(Allex) ๋ฐฐํฌ
์์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ๋ฐฐํฌํด ๋ ๊ฐ์ง๋ฅผ ์์ฐํฉ๋๋ค.
- ๊ธฐํ ์์กด์ ์ ์: ๋ง๋ํ(rod-like) ๋ฌผ์ฒด์ ์ ๋ฐ 4์ง ๊ทธ๋ฆฝ์ด, ์คํํ(spool-like) ๋ฌผ์ฒด์ ์ค๊ฐ ์ง๊ฒฝ ๊ทธ๋ฆฝ์ด ์ฑ๊ณต.
- ์์ ๋ณ ์ ํ: ์คํ์ง ์ง๊ธฐ(squeeze) ์ ํ์ ๊ทธ๋ฆฝ, ์ด๋ฐ(transport) ์ ์ ๋ฐ ๊ทธ๋ฆฝ์ ์ ํ โ ๊ฐ์ ๋ฌผ์ฒด๋ผ๋ ์์ ์๋์ ๋ฐ๋ผ ๋ค๋ฅธ ์ ํ์ ๊ณ ๋ฆ.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ํฌ์ ๊ฐ์ด๋๋ผ๋ ๊น๋ํ ์ธํฐํ์ด์ค. โ์ ํ ํ๋๋ง ๊ณ ๋ฅธ๋คโ๋ ์ถ์ํ๊ฐ ์กฐ๋ฐํ ์ฃผ์ ๋น์ฉ๊ณผ ์์ RL์ ์ ์์ธ ํธํฅ์ ๋์์ ํํผํฉ๋๋ค. ์ฌ์ฉ์๊ฐ ์๊ฐ๋ฝ์ ์ง์ ํ์ง ์์ผ๋ฉด์๋ ์๋๋ฅผ ์ฃผ์ ํ๋ ํต๋ก๋ฅผ ์ ๊ณตํ ์ ์ด ํต์ฌ ๊ธฐ์ฌ์ ๋๋ค.
- ๊ฒ์ฆ๋ ํต์ฌ ๊ฐ์ค. โtaxonomy ํจ๊ณผ๋ ๋ฌผ์ฒด ๊ธฐํ์ ์์กดํ๋คโ๋ฅผ ๊ณผ์ผ/์ฑ์ 25.07% vs ํฌ์ฅ ์ ํ 14.85% ๊ฐ์ ์ ๋ ํธ์ฐจ๋ก ๋ท๋ฐ์นจํด, ์ค๊ณ ๋๊ธฐ๋ฅผ ๋ฐ์ดํฐ๋ก ์ ์ฆํ์ต๋๋ค.
- ๊ณฑ์ ํ ๋ณด์์ ๋ช ๋ฃํ ํจ๊ณผ. ๋ํ๊ธฐ ๋๋น ์ ์ด ์ ๋ฐ๋ยท๊ด์ ์ค์ฐจ์์ ๋ถ๋ฆฌ๋ ์ด๋์ ablation์ผ๋ก ๋ณด์ฌ, ์ ํ ์ถฉ์ค๋๊ฐ ๋จ์ ์ฑ๊ณต๋ฅ ๋๋จธ์ ํ์ง์์ ๋๋ฌ๋ ๋๋ค.
- VLM + ์ขํ์ถ ์ค๋ฒ๋ ์ด. zero-shot์ผ๋ก ์ ํ์ ๊ณ ๋ฅด๋ 3D ์ถ ์ค๋ฒ๋ ์ด๋ก ๊ณต๊ฐ ์ถ๋ก ์ ๋ณด๊ฐํ ์ค์ฉ์ ์ค๊ณ๋ก, ํ์ต ์์ด ์ถ๋ก ์ ์ธ๊ฐ ์๋/๋งฅ๋ฝ์ ๋ฐ์ํฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- VLM ์ ํ์ ์ ๋ขฐ์ฑ ๋ฏธ๊ฒ์ฆ. Stage 1์ด VLM zero-shot์ ์์กดํ์ง๋ง, ์๋ชป๋ ์ ํ์ ๊ณจ๋์ ๋ ์ ์ฒด ์ฑ๋ฅ์ด ์ผ๋ง๋ ๋ฌด๋์ง๋์ง(์ค์ ํ robustness)์ ๋ํ ์ ๋ ๋ถ์์ ์ ํ์ ์ ๋๋ค(์ถ์ธก).
- ๋จ์ผ ์/๋ฌผ์ฒด ํ์ง์ ํ์ . ์์ ํ์์ด๋ in-hand manipulation, ๋์ ์กฐ์์ ๋ค๋ฃจ์ง ์๊ณ ์ ์ ํ์ง์ ์ง์ค๋ฉ๋๋ค.
- ์ค์ธ๊ณ ํ๊ฐ์ ์ ๋์ฑ. Allex ๊ฒฐ๊ณผ๋ ๋ค์ํ ํ์ง ์์ธ์ ์ ์ฑ ์์ฐ ์ค์ฌ์ด๊ณ , ์ค๋ก๋ด ์ฑ๊ณต๋ฅ ยท์คํจ ๋ชจ๋์ ์ฒด๊ณ์ ์ ๋ ๋น๊ต๋ ๋ ํ์ํด ๋ณด์ ๋๋ค(์ถ์ธก).
- 30๊ฐ ์ ํ์ ํํ๋ ฅ. Feix ๋ถ๋ฅํ์์ 3๊ฐ๋ฅผ ๋บ 30๊ฐ๋ก ์ถฉ๋ถํ์ง, ๋ถ๋ฅํ์ ์๋ ๋น์ ํ ํ์ง(์: ๋๊ตฌ๋ฅผ ๋ผ์ฐ๋ ํน์ ๊ทธ๋ฆฝ)์๋ ์ด๋ป๊ฒ ๋์ํ๋์ง๋ ์ด๋ฆฐ ์ง๋ฌธ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
GRIT๋ ๋ฅ์ํ ๋ค์ง ํ์ง์ ์ค๋ ๋๋ ๋ง โ ์กฐ๋ฐํ ๋ช ์ธ์ ๋นํ์ค์ฑ vs ์์ RL์ ์ ์์ธ ํธํฅ โ ์ ํฌ์ํ ๊ทธ๋ฆฝ ๋ถ๋ฅ(taxonomy) ๊ฐ์ด๋ ๋ก ๊ณต๋ตํฉ๋๋ค. Feix ๋ถ๋ฅํ์ 30๊ฐ ์ ํ ์ ์ถ์ ์ธํฐํ์ด์ค๋ก ์ผ์, 1๋จ๊ณ์์ ์ฅ๋ฉดยท์์ ์ผ๋ก๋ถํฐ ์ ํ์ ๊ณ ๋ฅด๊ณ (VLM zero-shot + 3D ์ถ ์ค๋ฒ๋ ์ด), 2๋จ๊ณ์์ ๊ณฑ์ ํ ๋ณด์์ taxonomy-์กฐ๊ฑด๋ถ RL ์ ์ฑ ์ผ๋ก ๋ฌผ์ฒด ๊ธฐํ์ ์ ์ํ๋ ์ฐ์ ๋ค์ง ๋ชจ์ ์ ์์ฑํฉ๋๋ค.
ํต์ฌ ์์น๋ก ์ ๋ฆฌํ๋ฉด, ์๋ก์ด ๋ฌผ์ฒด 373๊ฐ์์ 87.9% ์ฑ๊ณต๋ฅ ๋ก RDG(81.9%)ยทGraspXL(85.9%)์ ๋ฅ๊ฐํ๊ณ , ๊ณฑ์ ํ ๋ณด์์ผ๋ก ์ ์ด ์ ๋ฐ๋๋ฅผ +28.57% ๋์ด์ฌ๋ ธ์ผ๋ฉฐ, ๊ณผ์ผ/์ฑ์ 25.07% vs ํฌ์ฅ ์ ํ 14.85%์ ํธ์ฐจ๋ก โ์ ํ ํจ๊ณผ๋ ๋ฌผ์ฒด ๊ธฐํ์ ์์กดํ๋คโ๋ ๊ฐ์ค์ ์ ์ฆํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํด๋จธ๋ ธ์ด๋ Allex์์ ๊ธฐํยท์์ ์ ๋ฐ๋ผ ๊ทธ๋ฆฝ ์ ํ์ ๋ฐ๊พธ๋ ์ ์์ ํ์ง๋ฅผ ์ค์ ๋ก ์์ฐํ์ต๋๋ค.
์ค๋ฌด ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โ์๊ฐ๋ฝ์ ์ผ์ผ์ด ์ง์ ํ์ง ์๊ณ ์ถ์์ ๊ทธ๋ฆฝ ์ ํ ํ๋๋ง ๊ณ ๋ฅด๊ฒ ํจ์ผ๋ก์จ, ์ ์ด ๊ฐ๋ฅ์ฑ๊ณผ ์ ๋ฌผ์ฒด ์ผ๋ฐํ๋ฅผ ๋์์ ์ป๋ ์ต์ ์ธํฐํ์ด์คโ ๋ฅผ ์ ์ํ ๋ฐ ์์ต๋๋ค. VLM ์ ํ์ robustness์ ์ค์ธ๊ณ ์ ๋ ํ๊ฐ๋ผ๋ ํ๊ณ๋ ๋ถ๋ช ํ์ง๋ง, taxonomy ํฌ์ ๊ฐ์ด๋ + ๊ณฑ์ ํ ์กฐ๊ฑด๋ถ RL ์ด๋ผ๋ ํ์ ํฅํ ์ฌ๋-์๋ ์ฃผ์ ํ ๋ฅ์ ์กฐ์ ์ฐ๊ตฌ์ ์ ๋ ฅํ ์ถ๋ฐ์ ์ด ๋ ๊ฒ์ ๋๋ค.