flowchart TB
subgraph GENERATION["1๏ธโฃ ๋ค์ํ Neural Trajectory ์์ฑ"]
A[์ค์ ๋ฐ์ดํฐ ์ด๊ธฐ ํ๋ ์] --> B["I2I ํธ์ง<br/>(์ฅ๋ฉด ๋ค์์ฑ)"]
B --> C[๋ค์ํ ์ด๊ธฐ ํ๋ ์๋ค]
C --> D["I2V ๋น๋์ค ์์ฑ"]
D --> E[์์ฑ๋ ๋ก๋ด ๋น๋์ค]
E --> F["V2V ์ ํ<br/>(์ธํ ๋ค์์ฑ)"]
F --> G[์๊ฐ์ ์ผ๋ก ๋ค์ํ ๋น๋์ค]
G --> H["IDM ์ก์
์ถ์ถ"]
H --> I["Neural Trajectory<br/>(๋น๋์ค + ์ก์
)"]
end
subgraph FILTERING["2๏ธโฃ ์๋ฎฌ๋ ์ดํฐ-๋ฆฌํ๋ ์ด ์ผ์น์ฑ ํํฐ๋ง"]
I --> J["์๋ฎฌ๋ ์ดํฐ์์<br/>์ก์
๋ฆฌํ๋ ์ด"]
J --> K[์๋ฎฌ๋ ์ดํฐ ๋กค์์ ๋น๋์ค]
K --> L{"Attentive Probe<br/>๋ชจ์
์ผ์น ํ์ "}
G --> L
L -->|์ผ์น| M["โ
๊ณ ํ์ง ๋ฐ์ดํฐ"]
L -->|๋ถ์ผ์น| N["โ ์ ํ์ง ๋ฐ์ดํฐ ์ ๊ฑฐ"]
end
subgraph BESTOFN["3๏ธโฃ Best-of-N ์ํ๋ง"]
O["N๊ฐ ๋น๋์ค ํ๋ณด ์์ฑ"] --> P["๊ฐ๊ฐ ํํฐ๋ง ์ ์ ๊ณ์ฐ"]
P --> Q["์ต๊ณ ์ ์ ์ ํ"]
end
M --> R["VLA ์ ์ฑ
ํ์ต<br/>(GR00T N1.5)"]
Q --> R
style GENERATION fill:#E8F4FD,stroke:#2196F3
style FILTERING fill:#FFF3E0,stroke:#FF9800
style BESTOFN fill:#E8F5E9,stroke:#4CAF50
๐RoboCurate ๋ฆฌ๋ทฐ
Allex Platform์์์ ์คํ์ ํฌํจ
- ๐ค RoboCurate๋ ๋ก๋ด ํ์ต์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ก, ์๋ฎฌ๋ ์ด์ ๋ฆฌํ๋ ์ด์์ ๋์ ์ผ๊ด์ฑ ๊ฒ์ฆ์ ํตํด ์์ฑ๋ ํ๋์ ํ์ง์ ํํฐ๋งํฉ๋๋ค.
- ๐ ์ด ํ๋ ์์ํฌ๋ ์ด๋ฏธ์ง-ํฌ-์ด๋ฏธ์ง(I2I) ํธ์ง์ผ๋ก ์ฅ๋ฉด ๋ค์์ฑ์, ๋น๋์ค-ํฌ-๋น๋์ค(V2V) ์ ์ก์ผ๋ก ์ธ๊ด ๋ค์์ฑ์ ํ๋ณดํ์ฌ ๊ด์ฐฐ ๋ค์์ฑ์ ํฌ๊ฒ ํ์ฅํฉ๋๋ค.
- ๐ RoboCurate๋ GR-1 Tabletop ๋ฐ DexMimicGen๊ณผ ๊ฐ์ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ALLEX ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ค์ ํ๊ฒฝ์์๋ ๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ํ์ต์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ์ธ RoboCurate๋ฅผ ์ ์ํฉ๋๋ค. ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ํตํด ์์ฑ๋ ํฉ์ฑ ๋ฐ์ดํฐ(neural trajectory)๋ ๋ก๋ด ํ์ต์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ผ๋ก ์ ๋งํ์ง๋ง, ์์ฑ๋ ๋น๋์ค์ ํ์ง์ด ๋ถ์์ ํ์ฌ ์ผ๊ด์ฑ ์๋ ์ก์ ํ์ง ๋ฌธ์ ๋ฅผ ๊ฒช์ต๋๋ค. ๊ธฐ์กด์ VLM(Vision-Language Models) ๊ธฐ๋ฐ ๊ฒ์ฆ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํํ ๋น๋์ค๋ฅผ ๊ตฌ๋ณํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ์์ฑ๋ ์ก์ ์์ฒด๋ฅผ ์ง์ ํ๊ฐํ ์ ์์ต๋๋ค.
RoboCurate๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ๋์ ํฉ๋๋ค. ์ฒซ์งธ, controllable visual diversification pipeline์ ํตํด ์ฅ๋ฉด ๋ฐ ์ธํ์ ๋ค์์ฑ์ ํ์ฅํฉ๋๋ค. ๋์งธ, simulator-replay consistency๋ฅผ ํตํด annotated action์ ํ์ง์ ํ๊ฐํ๊ณ ํํฐ๋งํฉ๋๋ค.
1. Plausible Manipulation Scenarios ์์ฑ (Diversity)
RoboCurate๋ video generative model์ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ก๋ด ํฉ์ฑ ๋น๋์ค๋ฅผ ์์ฑํ๊ธฐ ์ํด ์ฅ๋ฉด ๋น์ฃผ์ผ๊ณผ task instruction ๋ ๊ฐ์ง ์์๋ฅผ ์ ์ดํฉ๋๋ค.
- Visual Diversity ํ์ฅ:
- I2I (Image-to-Image) editing: ์ด๊ธฐ ์ด๋ฏธ์ง์ ๋ํ I2I ํธ์ง์ ์ ์ฉํ์ฌ scene-level variation์ ํฌ๊ฒ ์ฆ๊ฐ์ํต๋๋ค. ํธ์ง๋ ์ด๋ฏธ์ง๊ฐ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ ํจํ ์์ ์ํ๋ฅผ ์ ์งํ๋๋ก Canny edge map์ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ ์๋ณธ scene structure๋ฅผ ๋ณด์กดํฉ๋๋ค. ํ ์ด๋ธ ์ธํ, ํ๊ฒ ๊ฐ์ฒด ์ ์ฒด์ฑ ๋ฐ ์ธํ, ์กฐ๋ช , ๋ฐฐ๊ฒฝ์ ๋ค ๊ฐ์ง ์ถ์ ๋ฐ๋ผ ์ฒด๊ณ์ ์ธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ด๋ ์๊ฐ์ ๋ณํ์ ์ ๋ํฉ๋๋ค.
- V2V (Video-to-Video) transfer: ์ฑ๊ณต์ ์ธ ํฉ์ฑ ๋น๋์ค์ V2V ์ ์ก์ ์ ์ฉํ์ฌ ๋ชจ์ ์ญํ์ ๋ณด์กดํ๋ฉด์ ์ธํ์ ๋ค์ํํฉ๋๋ค. ์ ์ก๋ ๋น๋์ค๋ ์ผ๋ฐ์ ์ผ๋ก ๋ก๋ด ๋ชจ์ ์ ์ ์งํ๋ฏ๋ก IDM(Inverse Dynamics Models)์ด ๋ ์ด๋ธ๋งํ ์ก์ ์ฃผ์์ ์ฌ์ฌ์ฉํฉ๋๋ค. ์๋ณธ ๋น๋์ค ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด Canny edge video์ V2V ์ ์ก์ ์กฐ๊ฑดํํ๊ณ , I2I ํธ์ง ํ์ดํ๋ผ์ธ๊ณผ ์ ์ฌํ ์์คํ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋์ผํ ๋ค ๊ฐ์ง ์ถ์ ๋ฐ๋ผ ์ธํ์ ๋ณ๊ฒฝํฉ๋๋ค. ์ก์ ์ฌ์ฌ์ฉ์ ์ ํจ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด ๊ฐ์ฒด ์ ์ฒด์ฑ๊ณผ ํํ๋ ๋ณ๊ฒฝํ์ง ์๊ณ ํ ์ค์ฒ์ ์์๋ง ์์ ํฉ๋๋ค.
- Task Instructions ํ์ฅ:
- ์ด๊ธฐ ํ๋ ์๊ณผ ์ธ์ด ์ง์นจ์ ์กฐ๊ฑด์ผ๋ก ํฉ์ฑ ๋ก๋ด ๋น๋์ค๋ฅผ ์์ฑํฉ๋๋ค. ์๋ฏธ ์๋ ๋ก๋ด-๊ฐ์ฒด ์ํธ์์ฉ์ด ํฌํจ๋ ๋น๋์ค๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ ์ VLM์ ์ฌ์ฉํ์ฌ ์ด๊ธฐ ํ๋ ์์ ๊ธฐ๋ฐ์ผ๋ก plausible task instruction์ ์์ฑํฉ๋๋ค. naiveํ VLM ์ฟผ๋ฆฌ๊ฐ ์๋ชป๋ instruction template์ด๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋ก๋ด ์ก์ ์ ์์ฑํ ์ ์์ผ๋ฏ๋ก, ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์์๋ฅผ ํฌํจํ few-shot prompting์ ์ฌ์ฉํ์ฌ ์ผ๊ด์ฑ์ ํ๋ณดํฉ๋๋ค. ํ๋, ํ๊ฒ ๊ฐ์ฒด, ๋ฐฐ์น, ๋ก๋ด ์ ์ ํ์ ๋ค ๊ฐ์ง ์ถ์ ๋ฐ๋ผ ์๋ก์ด task instruction์ ์ค๊ณํฉ๋๋ค.
2. Action-level Filtering of Neural Trajectory (Quality Verification)
์์ฑ๋ neural trajectory๋ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ก์ ๋ ์ด๋ธ์ ํฌํจํ ์ ์์ต๋๋ค. ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋น๋์ค ๋ชจ์ ์ด๋ IDM ์์ธก ์ค๋ฅ๋ก ์ธํด ์์ธก๋ ์ก์ ์ด ๋น๋์ค์ ์ผ์นํ์ง ์์ ์ ์์ต๋๋ค. RoboCurate๋ (w_{\text{gen}}, a_{\text{IDM}}) ํํ์ ๊ฐ neural trajectory ์ํ(์์ฑ๋ ๋น๋์ค, IDM ์์ธก ์ก์ )์ ๋ํด ์ก์ ์ ํ์ง์ ๊ฒ์ฆํ๊ธฐ ์ํด a_{\text{IDM}}์ ์๋ฎฌ๋ ์ดํฐ์์ ์ฌ์ํ์ฌ ํด๋น rollout ๋น๋์ค w_{\text{sim}}(a_{\text{IDM}})์ ๋ ๋๋งํฉ๋๋ค. ์ด w_{\text{sim}}(a_{\text{IDM}})์ a_{\text{IDM}}๊ณผ ์ผ๊ด๋ ๋ก๋ด ๋ชจ์ ์ ๊ฐ์ง๋๋ค. ์ด๋ฅผ ํตํด ์ก์ ๊ฒ์ฆ ๋ฌธ์ ๋ฅผ ๋ ๋น๋์ค, ์ฆ (w_{\text{gen}}, w_{\text{sim}}(a_{\text{IDM}})) ๊ฐ์ ๋ชจ์ ์ผ๊ด์ฑ ๋น๊ต ๋ฌธ์ ๋ก ์ ํํฉ๋๋ค.
- Attentive Probe:
- ์ด ๋ชจ์ ์ผ๊ด์ฑ ๋น๊ต๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋๊ฒฐ๋ pre-trained video encoder ์์ lightweight attentive probe๋ฅผ ํ๋ จ์ํต๋๋ค.
- ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ: ๋
ธ์ด์ฆ๊ฐ ์๋ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ probe๋ฅผ ํ๋ จ์ํค์ง ์๊ธฐ ์ํด ์ค์ ์ธ๊ณ ๋ฐ๋ชจ \mathcal{T} = \{(w_{\text{real}}, a_{\text{real}})\}์์ ๊ธ์ (aligned) ๋ฐ ๋ถ์ ์์ ์ ์คํ๊ฒ ๊ตฌ์ฑํฉ๋๋ค.
- ๊ธ์ ์ (\mathcal{P}^+): ๊ฐ ์ค์ ์ก์ a_{\text{real}}์ ๋ํด ์๋ฎฌ๋ ์ดํฐ rollout ๋น๋์ค w_{\text{sim}}(a_{\text{real}})์ ๋ ๋๋งํ๊ณ ์ผ์นํ๋ ์๊ฐ ๊ตฌ๊ฐ์ผ๋ก ์์ ๋ง๋ญ๋๋ค: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a_{\text{real}})_{t:t+H}) \right\}.
- ๋ถ์ ์ (\mathcal{P}^-): ๋ ๊ฐ์ง ์ ํ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- Temporally shifted negatives: ๋์ผํ ์ํผ์๋ ๋ด์์ ์๊ฐ์ ๊ณ ์์ ์ผ๋ก ๋ถ์ผ์น์ํต๋๋ค: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a_{\text{real}})_{t':t'+H}) \mid t' \neq t \right\}.
- Cross-episode negatives: ์ค์ ํด๋ฆฝ๊ณผ ๋ค๋ฅธ ์ํผ์๋์์ ์จ ์๋ฎฌ๋ ์ดํฐ rollout์ ์์ผ๋ก ๋ง๋ญ๋๋ค: \left\{ (w_{\text{real}, t:t+H}, w_{\text{sim}}(a'_{\text{real}})_{t:t+H}) \mid a'_{\text{real}} \neq a_{\text{real}} \right\}.
- ํ๋ จ: ์ํ๋ง๋ ์ (w_1, w_2) \sim \mathcal{P}์ ๋ํด pre-trained video encoder f_\phi๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ํด๋ฆฝ์ ์ธ์ฝ๋ฉํฉ๋๋ค: z_1 = f_\phi(w_1), z_2 = f_\phi(w_2). ๋ค์์ผ๋ก, ์๋ฒ ๋ฉ์ ์ฐ๊ฒฐํ๊ณ ์ด๋ฅผ attention-based probe g_\theta(\cdot)์ ์ ๋ ฅํ์ฌ ์ผ๊ด์ฑ ๋ก์ง \ell = g_\theta([z_1, z_2])์ ์์ธกํฉ๋๋ค. ์ต์ข ์ ์ผ๋ก ์ด์ง ๊ต์ฐจ ์ํธ๋กํผ ์์ค๋ก g_\theta๋ฅผ ํ๋ จ์ํต๋๋ค: \mathcal{L}(\theta; \mathcal{P}) = E_{((w_1,w_2),y)\sim\mathcal{P}}[-y \log p - (1-y) \log(1-p)] (์ฌ๊ธฐ์ p = \sigma(\ell)).
- ์ถ๋ก : (w_{\text{gen}}, a_{\text{IDM}}) ์ํ์ด ์ฃผ์ด์ง๋ฉด ๋น๋์ค ์ (w_{\text{gen}}, w_{\text{sim}}(a_{\text{IDM}}))์ ๊ตฌ์ฑํ๊ณ ํ๋ จ๋ attentive probe g_\theta์ ์ ๋ ฅํฉ๋๋ค. ์ผ๊ด์ฑ ํ๋ฅ p๊ฐ ์๊ณ๊ฐ c๋ฅผ ์ด๊ณผํ๋ ๊ฒฝ์ฐ์๋ง ์ํ์ ์ ์งํฉ๋๋ค.
3. Improve Neural Trajectory via Best-of-N Sampling
ํํฐ๋ง ๋ฐฉ๋ฒ์ ์ ์ตํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ ๋ฐ๋ฟ๋ง ์๋๋ผ ์ถ๋ก ์ video generative model์ critic์ผ๋ก ์์ฉํ์ฌ neural trajectory๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. N๊ฐ์ ํ๋ณด ๋น๋์ค์ ํด๋น IDM ์์ธก ์ก์ ์ ์ํ๋งํ ๋ค์, ๊ฐ์ฅ ๋์ critic score(attentive probe์ ์ผ๊ด์ฑ ํ๋ฅ p)๋ฅผ ๊ฐ์ง ๋น๋์ค-์ก์ ์์ ์ ํํฉ๋๋ค. ์ด ์ ๋ต์ ์ก์ ์ด ๊ฒ์ฆ๋ ํ๋ณด๋ฅผ ์ ํํจ์ผ๋ก์จ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ํ๊ฒฝ์์ neural trajectory generation framework์ ํจ์จ์ ์ธ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
RoboCurate๋ GR-1 Tabletop ๋ฐ DexMimicGen ๋ฒค์น๋งํฌ์์์ pre-training ์ค์ ๊ณผ ALLEX humanoid์์์ co-finetuning ์ค์ ์ ๋ฐ์ ๊ฑธ์ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ์ต๋๋ค.
- Pre-training: Real data only baseline ๋๋น GR-1 Tabletop์์ +70.1%, DexMimicGen์์ +16.1%์ ์๋นํ ์๋์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. ๊ธฐ์กด DreamGen(Jang et al., 2025) ํ์ดํ๋ผ์ธ์ ๋์ผํ baseline ๋๋น ๊ฐ๊ฐ +26.6%, +4.0%์ ๋ฏธ๋ฏธํ ๊ฐ์ ์ ๋ณด์์ต๋๋ค.
- Co-finetuning (ALLEX humanoid): RoboCurate๋ +179.9%์ ์๋์ ์ฑ๊ณต๋ฅ ํฅ์์ ๋ณด์์ผ๋ฉฐ, ๊ธฐ์กด DreamGen์ +100.0%์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ํนํ, challengingํ ์ค์ ALLEX humanoid dexterous manipulation ํ๊ฒฝ์์ OOD(out-of-distribution) ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ฌ novel object pick-and-place task์์ +162.3%์ ์๋์ ๊ฐ์ ์, novel action task์์๋ 0.0%์์ 25.0%๋ก emergent success๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
- Ablation Study:
- ์๊ฐ์ ๋ค์์ฑ ์ฆ๊ฐ(I2I, V2V) ์์ฒด๊ฐ downstream task ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ์ ์๋ action-level filtering์ VLA ์ฑ๋ฅ์ ๋์ฑ ํฅ์์์ผฐ์ต๋๋ค.
- RoboCurate์ filtering ์ ๋ต์ VLM ๊ธฐ๋ฐ์ ๋น๋์ค ์์ค ๋ฌผ๋ฆฌ์ ๊ทธ๋ด๋ฏํจ ํ๊ฐ ๋ฐฉ๋ฒ(DreamGenBench, VideoCon-Physics)๋ณด๋ค ์ฐ์ํ์ต๋๋ค.
- Attentive probe๋ฅผ ์ํ ํ๋ จ ์ ๋ต(์ค์ ๋ฐ์ดํฐ์์ ์๋ ๊ตฌ์ฑ๋ ๊ธ์ /๋ถ์ ์)์ด ์ค์ํ๋ฉฐ, ์ธ๊ฐ ๋ ์ด๋ธ๋ง์ด๋ ๋จ์ํ ์๋ฒ ๋ฉ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ด์ฉํ ํํฐ๋ง๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ฏธ๋ฌํ ๋ชจ์ ๋ถ์ผ์น์ ๋ํ ๋ฏธ์ธํ ์ฐจ์ด๋ฅผ ๊ฐ์งํ๋ ๋ฐ ํจ๊ณผ์ ์ธ ์ผ๊ด๋ supervision์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก RoboCurate๋ simulator-replay consistency๋ฅผ ํตํด IDM ์์ธก ์ก์ ์ ๊ฒ์ฆํ๊ณ I2I ํธ์ง ๋ฐ action-preserving V2V ์ ์ก์ ํตํด ๊ด์ฐฐ ๋ค์์ฑ์ ํ์ฅํจ์ผ๋ก์จ neural trajectory๋ฅผ ๊ฐ์ ํ๋ ํจ๊ณผ์ ์ธ ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : โ๊ฐ์ง ๋ฐ์ดํฐโ์ ์๋, ์ง์ง ๋ฌธ์ ๋ ๋ฌด์์ธ๊ฐ?
๋ก๋ด๊ณตํ์์ ๋ฐ์ดํฐ๋ ๋ ๋ถ์กฑํฉ๋๋ค. ์์จ์ฃผํ ๋ถ์ผ์์ ์๋ฐฑ๋ง ๋ง์ผ์ ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์ถ์ ํ๋ฏ, ๋ก๋ด ์กฐ์(manipulation) ๋ถ์ผ์์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ๋ก๋ด์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ ๋๋ฆฌ๊ณ , ๋น์ธ๊ณ , ์ํํฉ๋๋ค. ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก 1์๊ฐ ๋ถ๋์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๋ฐ ํ๋ฃจ๊ฐ ๊ฑธ๋ฆด ์๋ ์์ฃ .
๊ทธ๋์ ์ต๊ทผ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ๋ ํ ๊ฐ์ง ๋งค๋ ฅ์ ์ธ ์์ด๋์ด์ ์ฃผ๋ชฉํ๊ณ ์์ต๋๋ค: ๋น๋์ค ์์ฑ ๋ชจ๋ธ(Video Generative Model)๋ก ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์. NVIDIA์ DreamGen์ด ์ด ์ ๊ทผ๋ฒ์ ๋์คํํ๊ณ , GR00T N1 ๊ฐ์ ๋ํ VLA(Vision-Language-Action) ๋ชจ๋ธ๋ค์ด ์ด๋ ๊ฒ ๋ง๋ โNeural Trajectoryโ๋ฅผ ํ์ต์ ํ์ฉํ๋ฉฐ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋๊ณ ์์ต๋๋ค.
ํ์ง๋ง ์ฌ๊ธฐ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๊ฐ ์จ์ด ์์ต๋๋ค.
๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ๋ง๋ ์์์ โ๊ทธ๋ด๋ฏํด ๋ณด์ผโ ์ ์์ง๋ง, ๊ฑฐ๊ธฐ์ ์ถ์ถํ ์ก์ ์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํํ์ง ๋ณด์ฅํ ์ ์์ต๋๋ค.
๋น์ ํ์๋ฉด ์ด๋ ์ต๋๋ค. ์ํ ์ดฌ์ ํ์ฅ์์ ๋ฐฐ์ฐ๊ฐ ์ปต์ ์ง๋ ์ฐ๊ธฐ๋ฅผ ํฉ๋๋ค. ์นด๋ฉ๋ผ๋ก ์ฐ์ผ๋ฉด ์๋ฒฝํด ๋ณด์ด์ฃ . ํ์ง๋ง ์ค์ ๋ก๋ด์๊ฒ โ์ ๋์ ๊ทธ๋๋ก ํด๋ดโ๋ผ๊ณ ํ๋ฉด? ๊ทธ ์์์์ ์ถ์ถํ ๊ด์ ๊ฐ๋๋ ์๋์ดํํฐ ๊ถค์ ์ ์ํฐ๋ฆฌ์ผ ์ ์์ต๋๋ค. ์์์ ์๊ฐ์ ์ผ๋ก๋ ์๋ฒฝํ์ง๋ง, ๋ฌผ๋ฆฌ์ ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ๋์์ ๋ด๊ณ ์์ ์ ์๊ฑฐ๋ ์.
RoboCurate๋ ๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃน๋๋ค. 2026๋ 2์ Seungku Kim ๋ฑ 6๋ช ์ ์ฐ๊ตฌ์๊ฐ ๋ฐํํ ์ด ๋ ผ๋ฌธ์, ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ์ โํ์ง ๊ด๋ฆฌ(Quality Curation)โ ๋ฌธ์ ์ ๋ํ ์ฒด๊ณ์ ์ด๊ณ ์ค์ฉ์ ์ธ ํด๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ์ง๋ฌธ์ ๋จ์ํฉ๋๋ค:
โ์ด ํฉ์ฑ ๋ฐ์ดํฐ์ ์ก์ ๋ผ๋ฒจ์ด ์ง์ง ๋ง๋ ๊ฑด๊ฐ?โ
์ด ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด RoboCurate๋ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌํ๊ด์ผ๋ก ํ์ฉํฉ๋๋ค. ์์ฑ๋ ์ก์ ์ ์๋ฎฌ๋ ์ดํฐ์์ ๋ฆฌํ๋ ์ดํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ์์์ด ์๋ ์์ฑ ์์๊ณผ ๋ชจ์ ์ด ์ผ์นํ๋์ง ๋น๊ตํ๋ ๊ฒ์ด์ฃ . ์ฌ๊ธฐ์ ๋ํด, ๋ฐ์ดํฐ์ ์๊ฐ์ ๋ค์์ฑ์ ๊ทน๋ํํ๋ I2I/V2V ํ์ดํ๋ผ์ธ๊น์ง ๊ฐ์ถค์ผ๋ก์จ, ๋ค์์ฑ๊ณผ ์ ํ์ฑ์ด๋ผ๋ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ๋์์ ์ก์ต๋๋ค.
๋ฐฐ๊ฒฝ: Neural Trajectory๋ ๋ฌด์์ธ๊ฐ?
๋ณธ๊ฒฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ด๊ฐ๊ธฐ ์ ์, ํต์ฌ ๊ฐ๋ ์ ๋จผ์ ์ ๋ฆฌํ๊ฒ ์ต๋๋ค.
Neural Trajectory์ ์ ์
Neural Trajectory๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ(์: Cosmos, Wan ๋ฑ)์ด ๋ง๋ ํฉ์ฑ ๋ก๋ด ๋น๋์ค์, ๊ฑฐ๊ธฐ์ ์ถ์ถํ ์์ฌ-์ก์ (pseudo-action)์ ์์ ์๋ฏธํฉ๋๋ค. ๊ธฐ์กด์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ๋ฌ๋ฆฌ, ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ ์์ด ์์ํ๊ฒ ์ ๊ฒฝ๋ง์ด โ์์โํ ๋ก๋ด ๊ถค์ ์ด๋ผ๊ณ ๋ณด๋ฉด ๋ฉ๋๋ค.
| ๊ตฌ๋ถ | ์ค์ ๋ฐ์ดํฐ | ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ | Neural Trajectory |
|---|---|---|---|
| ๋ฐ์ดํฐ ์ถ์ฒ | ํ ๋ ์คํผ๋ ์ด์ | ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ | ๋น๋์ค ์์ฑ ๋ชจ๋ธ |
| ์๊ฐ์ ํ์ค๊ฐ | ์ต๊ณ | ์ค๊ฐ (sim-to-real gap) | ๋์ |
| ์ก์ ์ ํ๋ | ์ ํ | ์ ํ | โ ๏ธ ๋ถํ์ค |
| ํ์ฅ์ฑ | ๋ฎ์ | ์ค๊ฐ | ๋งค์ฐ ๋์ |
| ๋ค์์ฑ | ์์ง ํ๊ฒฝ์ ์ ํ | ์์ ์ ์ ํ | ๋์ (์์ฑ ๋ชจ๋ธ ํ์ฉ) |
๊ธฐ์กด ํ์ดํ๋ผ์ธ์ ํ๊ณ
NVIDIA์ DreamGen์ด ๋ํ์ ์ธ Neural Trajectory ์์ฑ ํ์ดํ๋ผ์ธ์ ๋๋ค. ๊ธฐ๋ณธ ํ๋ฆ์ ์ด๋ ์ต๋๋ค:
- ์ด๊ธฐ ํ๋ ์ + ์ธ์ด ์ง์๋ฌธ โ Image-to-Video(I2V) ๋ชจ๋ธ๋ก ๋ก๋ด ๋น๋์ค ์์ฑ
- ์์ฑ๋ ๋น๋์ค์์ IDM(Inverse Dynamics Model)์ผ๋ก ์ก์ ์ถ์ถ
- (๋น๋์ค, ์ก์ ) ์์ VLA ์ ์ฑ ํ์ต์ ํ์ฉ
๋ฌธ์ ๋ ๋ ๊ฐ์ง์ ๋๋ค:
์ฒซ์งธ, ์๊ฐ์ ๋ค์์ฑ ๋ถ์กฑ. I2V ๋ชจ๋ธ์ ๋ฃ๋ ์ด๊ธฐ ํ๋ ์์ด ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์ ๊ฐ์ ธ์ค๋ฏ๋ก, ์์ฑ ๋น๋์ค์ ์ฅ๋ฉด ๋ค์์ฑ์ด ์ ํ๋ฉ๋๋ค.
๋์งธ, ์ก์ ํ์ง ๊ฒ์ฆ ๋ถ์ฌ. IDM์ด ์์ธกํ ์ก์ ์ด ์ค์ ๋ก ๋น๋์ค์ ๋ชจ์ ๊ณผ ์ผ์นํ๋์ง ํ์ธํ ๋ฐฉ๋ฒ์ด ๋ง๋ ์น ์์ต๋๋ค. ๊ธฐ์กด์๋ VLM(Vision-Language Model)์ ํ์ฉํด โ์ด ๋น๋์ค๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฐ?โ ์ ๋๋ง ํ๋จํ๋๋ฐ, VLM์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ ๋ฐํ๊ฒ ์ดํดํ์ง ๋ชปํ๋ฉฐ, ๋ฌด์๋ณด๋ค ์ก์ ์์ฒด์ ์ ํ์ฑ์ ํ๊ฐํ์ง ๋ชปํฉ๋๋ค.
๋ฐฉ๋ฒ๋ก : RoboCurate์ ๊ตฌ์กฐ
RoboCurate์ ํ๋ ์์ํฌ๋ ํฌ๊ฒ ์ธ ๊ฐ์ง ์ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
ํ๋์ฉ ๋ฏ์ด๋ณด๊ฒ ์ต๋๋ค.
3.1 ๋ค์ํ Neural Trajectory ์์ฑ
RoboCurate๋ ์๊ฐ์ ๋ค์์ฑ์ ๋ ๊ฐ์ง ์ฐจ์์์ ์ฆํญํฉ๋๋ค.
Image-to-Image (I2I) ํธ์ง: ์ฅ๋ฉด ์์ค ๋ณํ
๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ์ด๊ธฐ ํ๋ ์์ ๊ฐ์ ธ์์, ํ์ฐ(diffusion) ๊ธฐ๋ฐ I2I ๋ชจ๋ธ๋ก ์ฅ๋ฉด์ ํธ์งํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ์ฃผ๋ฐฉ ๋ฐฐ๊ฒฝ์ ๋ฐ๊ฟ๋ผโ, โ์กฐ๋ช ์ ๋ณ๊ฒฝํ๋ผโ, โํ ์ด๋ธ ์ ๋ฌผ์ฒด ๋ฐฐ์น๋ฅผ ๋ฌ๋ฆฌํ๋ผโ ๋ฑ์ ๋ณํ์ ๊ฐํ๋ ๊ฒ์ด์ฃ .
์ด๋ ๊ฒ ํ๋ฉด ํ๋์ ์๋ณธ ํ๋ ์์์ ์์ญ ๊ฐ์ ๋ค์ํ ์ด๊ธฐ ํ๋ ์์ ๋ง๋ค ์ ์๊ณ , ๊ฐ๊ฐ์์ I2V ๋ชจ๋ธ๋ก ๋น๋์ค๋ฅผ ์์ฑํ๋ฉด ์ฅ๋ฉด ๋ค์์ฑ(scene diversity)์ด ํฌ๊ฒ ์ฆ๊ฐํฉ๋๋ค.
Video-to-Video (V2V) ์ ํ: ์ธํ ๋ณํ
์์ฑ๋ ๋น๋์ค ์ ์ฒด์ V2V ์คํ์ผ ์ ํ์ ์ ์ฉํฉ๋๋ค. ํต์ฌ์ ๋ชจ์ ์ ๋ณด์กดํ๋ฉด์ ์ธํ๋ง ๋ณ๊ฒฝํ๋ ๊ฒ์ ๋๋ค. ๋ก๋ด ํ์ ์์ง์ ๊ถค์ ์ ๊ทธ๋๋ก ๋๊ณ , ๋ก๋ด์ ์์, ์ง๊ฐ, ๋ฐฐ๊ฒฝ์ ์๊ฐ์ ์คํ์ผ๋ง ๋ฐ๊พธ๋ ๊ฑฐ์ฃ .
์ด๊ฒ์ด ์ค์ํ ์ด์ ๊ฐ ์์ต๋๋ค. V2V๋ ์๋ณธ ๋น๋์ค์ ๋ชจ์ ๊ตฌ์กฐ๋ฅผ ์ฐธ์กฐํ๋ฏ๋ก, I2V๋ก ์ฒ์๋ถํฐ ์๋ก ์์ฑํ๋ ๊ฒ๋ณด๋ค ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ด ๋์ ๋น๋์ค๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ๋์์ ์๊ฐ์ ์ธํ์ ์์ ํ ๋ฌ๋ผ์ง๋ฏ๋ก, ์ ์ฑ ๋ชจ๋ธ์ด ํน์ ์๊ฐ์ ํจํด์ ๊ณผ์ ํฉ(overfit)ํ๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค.
VLM์ ํ์ฉํ ํ์คํฌ ์ง์๋ฌธ ์์ฑ
๋ค์์ฑ์ ๋ ๋ค๋ฅธ ์ถ์ ํ์คํฌ ๋ค์์ฑ์ ๋๋ค. RoboCurate๋ VLM(์: GPT-4 ์คํ์ผ ๋ชจ๋ธ)์ ์ด๊ธฐ ํ๋ ์์ ๋ณด์ฌ์ฃผ๊ณ , ํด๋น ์ฅ๋ฉด์์ ๊ฐ๋ฅํ ์กฐ์ ํ์คํฌ ์ง์๋ฌธ์ ๋ค์ํ๊ฒ ์์ฑํ๋๋ก ํฉ๋๋ค. โ์ปต์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ฎ๊ฒจ๋ผโ, โ์๋์ ์ด์ด๋ผโ, โ๊ทธ๋ฆ์ ์ธ์๋ผโ ๋ฑ ์คํฌ, ๋์ ๋ฌผ์ฒด, ๋ฐฐ์น ์กฐ๊ฑด, ํธ๋ ํ์ ์ ์กฐํฉ์ ์ฒด๊ณ์ ์ผ๋ก ์ค๊ณํฉ๋๋ค.
3.2 ์๋ฎฌ๋ ์ดํฐ-๋ฆฌํ๋ ์ด ์ผ์น์ฑ ํํฐ๋ง
์ด๊ฒ์ด RoboCurate์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๊ธฐ์ฌ์ ๋๋ค.
ํต์ฌ ์์ด๋์ด
์๊ฐํด๋ณด๋ฉด ๊ฝค ์ง๊ด์ ์ ๋๋ค:
- ์์ฑ๋ ๋น๋์ค์์ IDM์ด ์ก์ ์ํ์ค \hat{a}_{1:T}๋ฅผ ์์ธกํฉ๋๋ค.
- ์ด ์ก์ ์ํ์ค๋ฅผ ์๋ฎฌ๋ ์ดํฐ์์ ๊ทธ๋๋ก ๋ฆฌํ๋ ์ดํฉ๋๋ค.
- ์๋ฎฌ๋ ์ดํฐ๋ ํด๋น ์ก์ ์ ๋ํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํํ ๋กค์์ ๋น๋์ค๋ฅผ ๋ ๋๋งํฉ๋๋ค.
- ์์ฑ ๋น๋์ค์ ์๋ฎฌ๋ ์ดํฐ ๋กค์์ ๋น๋์ค์ ๋ชจ์ ํจํด์ ๋น๊ตํฉ๋๋ค.
๋ง์ฝ IDM์ด ์์ธกํ ์ก์ ์ด ์ ํํ๋ค๋ฉด, ์๋ฎฌ๋ ์ดํฐ์์ ๋ฆฌํ๋ ์ดํ ๋น๋์ค์ ์๋ ์์ฑ ๋น๋์ค์ ๋ก๋ด ์์ง์์ด ์ ์ฌํด์ผ ํฉ๋๋ค. ๋ฐ๋๋ก, ์ก์ ์ด ๋ถ์ ํํ๋ค๋ฉด ๋ ๋น๋์ค์ ๋ชจ์ ์ ํฌ๊ฒ ๋ค๋ฅผ ๊ฒ์ ๋๋ค.
๋น์ ํ์๋ฉด, ๋ฌด์ฉ ๊ณต์ฐ ์์์ ๋ณด๊ณ ๋๊ตฐ๊ฐ ์๋ฌด ์ ๋ณด๋ฅผ ์ ์๋ค๊ณ ํฉ์๋ค. ๊ทธ ์๋ฌด ์ ๋ณด๊ฐ ๋ง๋์ง ํ์ธํ๋ ค๋ฉด? ๋ค๋ฅธ ๋์์๊ฒ ๊ทธ ์ ๋ณด๋๋ก ์ถฐ๋ณด๋ผ๊ณ ํ๊ณ , ์๋ณธ ์์๊ณผ ๋น๊ตํ๋ฉด ๋ฉ๋๋ค. RoboCurate๊ฐ ํ๋ ์ผ์ด ์ ํํ ์ด๊ฒ์ ๋๋ค โ ์๋ฎฌ๋ ์ดํฐ๊ฐ โ๋ค๋ฅธ ๋์โ ์ญํ ์ ํ๋ ๊ฑฐ์ฃ .
Attentive Probe: ๋ชจ์ ์ผ์น ํ์ ๊ธฐ
๋ ๋น๋์ค์ ๋ชจ์ ์ด ์ผ์นํ๋์ง ์ด๋ป๊ฒ ํ๋จํ ๊น์? ํฝ์ ๋จ์ ๋น๊ต๋ ์๋ฏธ๊ฐ ์์ต๋๋ค โ ์๋ฎฌ๋ ์ดํฐ ๋ ๋๋ง๊ณผ ์์ฑ ๋น๋์ค์ ์๊ฐ์ ์ธํ์ ์์ ํ ๋ค๋ฅด๋๊น์.
RoboCurate๋ ์ฌ์ ํ์ต๋ ๋น๋์ค ์ธ์ฝ๋ ์์ ๊ฒฝ๋ Attentive Probe๋ฅผ ํ์ตํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก:
- ์์ฑ ๋น๋์ค์ ์๋ฎฌ๋ ์ดํฐ ๋กค์์ ๋น๋์ค๋ฅผ ๊ฐ๊ฐ ๋น๋์ค ์ธ์ฝ๋์ ํต๊ณผ์์ผ ํน์ง(feature)์ ์ถ์ถํฉ๋๋ค.
- Attentive Probe๊ฐ ๋ ํน์ง ๋ฒกํฐ์ ๋ชจ์ ํจํด๊ณผ ๋ก๋ด ๊ธฐํํ์ ๊ตฌ์กฐ์ ์ผ์น ์ฌ๋ถ๋ฅผ ์ด์ง ๋ถ๋ฅํฉ๋๋ค.
\text{score}(v_{\text{gen}}, v_{\text{sim}}) = f_{\text{probe}}\big(\phi(v_{\text{gen}}), \phi(v_{\text{sim}})\big) \in [0, 1]
์ฌ๊ธฐ์ \phi๋ ์ฌ์ ํ์ต๋ ๋น๋์ค ์ธ์ฝ๋, f_{\text{probe}}๋ ์ดํ ์ ๊ธฐ๋ฐ ๊ฒฝ๋ ๋ถ๋ฅ๊ธฐ์ ๋๋ค.
์ด ์ ์๊ฐ ๋์ผ๋ฉด โ IDM ์ก์ ์ด ์ ํํ ๊ฐ๋ฅ์ฑ์ด ๋์ โ ๋ฐ์ดํฐ ๋ณด์กด ์ด ์ ์๊ฐ ๋ฎ์ผ๋ฉด โ IDM ์ก์ ์ด ๋ถ์ ํํ ๊ฐ๋ฅ์ฑ์ด ๋์ โ ๋ฐ์ดํฐ ์ ๊ฑฐ
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
Attentive Probe์ ํ์ต ๋ฐ์ดํฐ๋ ์๋ฎฌ๋ ์ดํฐ์์ ์ฝ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค:
- ์์ฑ ์ํ (Positive): ์๋ฎฌ๋ ์ดํฐ์์ ์คํํ ์ค์ ๊ถค์ ์ ๋น๋์ค + ๋์ผ ์ก์ ๋ฆฌํ๋ ์ด ๋น๋์ค โ ๋ชจ์ ์ผ์น
- ์์ฑ ์ํ (Negative): ์๋ฎฌ๋ ์ดํฐ ๋น๋์ค + ๋ค๋ฅธ ์ก์ ์ผ๋ก ๋ฆฌํ๋ ์ดํ ๋น๋์ค โ ๋ชจ์ ๋ถ์ผ์น
์ด๋ ๊ฒ ํ๋ฉด ๋ณ๋์ ์ธ๊ฐ ๋ผ๋ฒจ๋ง ์์ด, ์๋ฎฌ๋ ์ดํฐ๋ง์ผ๋ก ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ ๊ตฌ์ฑํ ์ ์์ต๋๋ค.
3.3 Best-of-N ์ํ๋ง
ํํฐ๋ง ์ ๋ต์ ํ์ฅ์ผ๋ก, RoboCurate๋ ์์ฑ ๋จ๊ณ์์๋ ์ผ์น์ฑ ์ ์๋ฅผ ํ์ฉํฉ๋๋ค. ํ๋์ ์ด๊ธฐ ํ๋ ์๊ณผ ์ง์๋ฌธ์ ๋ํด N๊ฐ์ ๋น๋์ค ํ๋ณด๋ฅผ ์๋ก ๋ค๋ฅธ ๋๋ค ์๋๋ก ์์ฑํ๊ณ , ๊ฐ๊ฐ์ ์ผ์น์ฑ ์ ์๋ฅผ ๊ณ์ฐํ ๋ค ๊ฐ์ฅ ๋์ ์ ์์ ๋น๋์ค๋ง ์ ํํฉ๋๋ค.
v^* = \arg\max_{v_i \in \{v_1, \ldots, v_N\}} \text{score}(v_i, \text{SimReplay}(\text{IDM}(v_i)))
์ด๊ฒ์ RLHF์์ ํํ ์ฌ์ฉํ๋ Best-of-N ์ํ๋ง๊ณผ ๋์ผํ ์๋ฆฌ์ ๋๋ค. ๋ณด์ ๋ชจ๋ธ(์ฌ๊ธฐ์๋ ์ผ์น์ฑ ์ ์) ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฅ ์ข์ ํ๋ณด๋ฅผ ์ ํํ๋ ๊ฒ์ด์ฃ . ์์ฑ ๋ชจ๋ธ ์์ฒด๋ฅผ ์ฌํ์ตํ์ง ์์๋ ์ถ๋ ฅ ํ์ง์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ๋๋ค.
์คํ: ์ด๋ค ์ฆ๊ฑฐ๊ฐ ์๋๊ฐ?
์คํ ์ค์
ํ๊ฐ ํ๊ฒฝ
RoboCurate๋ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋ฉ๋๋ค:
| ๋ฒค์น๋งํฌ | ์ค๋ช | ํ์คํฌ ์ | ํน์ง |
|---|---|---|---|
| GR-1 Tabletop | RoboCasa ๊ธฐ๋ฐ ํ ์ด๋ธํ ์กฐ์ | ๋ค์ | ๊ธฐ๋ณธ VLA ๋ฒค์น๋งํฌ |
| DexMimicGen | ์์ ์กฐ์(bimanual) ์๋ฎฌ๋ ์ด์ | ๋ค์ | ์ ๊ตํ ์ ์กฐ์ |
| ALLEX Humanoid | ์ค์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด | ๋ค์ | ์ค์ธ๊ณ(Real-world) |
๊ธฐ๋ณธ ์ ์ฑ ๋ชจ๋ธ
NVIDIA์ GR00T N1.5๋ฅผ ๊ธฐ๋ณธ ์ ์ฑ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค. GR00T N1.5๋ VLM(System 2) + Diffusion Transformer(System 1)์ ์ด์ค ์์คํ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ง VLA ๋ชจ๋ธ๋ก, ํ์ฌ ์คํ์์ค VLA ์ค ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ชจ๋ธ ์ค ํ๋์ ๋๋ค.
ํ์ต ์ค์ : 2๋จ๊ณ ๊ตฌ์กฐ
์คํ์ ๋ ๊ฐ์ง ์ค์ ์ผ๋ก ์งํ๋ฉ๋๋ค:
์ฌ์ ํ์ต(Pre-training) ์ค์ :
- ActionNet(Fourier ๋ก๋ณดํฑ์ค์ ์ค์ ๋ฐ์ดํฐ) + Neural Trajectory๋ฅผ 1:1 ๋น์จ๋ก ํผํฉ
- 60K ๊ทธ๋๋์ธํธ ์คํ ํ์ต
- ํต์ฌ ํธ๋ฆญ: ์ฒ์ 50K ์คํ ์ ๋ชจ๋ Neural Trajectory ์ฌ์ฉ, ๋ง์ง๋ง 10K ์คํ ์ RoboCurate๋ก ํํฐ๋ง๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ง ์ฌ์ฉ
๊ณต๋ ํ์ธํ๋(Co-finetuning) ์ค์ :
- ์ฌ์ ํ์ต๋ GR00T N1.5 ์์ ํ์คํฌ๋ณ ํ์ธํ๋
- Best-of-N ์ํ๋ง๋ Neural Trajectory + ์ค์ ๋ฐ์ดํฐ
์ฃผ์ ๊ฒฐ๊ณผ
ํค๋๋ผ์ธ ์์น
RoboCurate์ ์ฑ๋ฅ ํฅ์์ ์ธ์์ ์ ๋๋ค:
| ๋ฒค์น๋งํฌ | ์ค์ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ ๋๋น ์๋์ ์ฑ๊ณต๋ฅ ํฅ์ |
|---|---|
| GR-1 Tabletop (300 demos) | +70.1% |
| DexMimicGen (์ฌ์ ํ์ต) | +16.1% |
| ALLEX Humanoid (์ค์ธ๊ณ) | +179.9% |
ํนํ ์ค์ธ๊ณ ALLEX ํด๋จธ๋ ธ์ด๋์์ +179.9%๋ผ๋ ์์น๊ฐ ๋๊ธธ์ ๋๋๋ค. ์ด๋ ์ค์ ๋ก๋ด์์์ ์ฑ๊ณต๋ฅ ์ด ๊ฑฐ์ 3๋ฐฐ ๊ฐ๊น์ด ํฅ์๋์์์ ์๋ฏธํฉ๋๋ค.
ํํฐ๋ง ์ ๋ต ๋น๊ต
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต์์, RoboCurate์ ์ก์ ์์ค ํํฐ๋ง์ด ๋น๋์ค ์์ค ํ์ง ํ๊ฐ๋ณด๋ค ์ฐ์ํฉ๋๋ค:
| ํํฐ๋ง ๋ฐฉ๋ฒ | ์ ๊ทผ ๋ฐฉ์ | ํ๊ณ |
|---|---|---|
| DreamGenBench (VLM ๊ธฐ๋ฐ) | VLM์ โ์ด ๋น๋์ค๊ฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ฐ?โ ์ง์ | ๋ฌผ๋ฆฌ ๋ฒ์น ์ดํด ๋ถ์กฑ, ์ก์ ํ๊ฐ ๋ถ๊ฐ |
| ์์ ํ์ง ๋ฉํธ๋ฆญ | FVD, SSIM ๋ฑ ๋น๋์ค ํ์ง ์ธก์ | ์๊ฐ์ ํ์ง โ ์ก์ ์ ํ๋ |
| RoboCurate (๋ณธ ๋ ผ๋ฌธ) | ์๋ฎฌ๋ ์ดํฐ ๋ฆฌํ๋ ์ด + ๋ชจ์ ์ผ์น ๋ถ๋ฅ | โ ์ก์ ์์ฒด๋ฅผ ์ง์ ๊ฒ์ฆ |
ํต์ฌ ์ธ์ฌ์ดํธ๋ ๋ช ํํฉ๋๋ค: ๋น๋์ค๊ฐ โ๋ณด๊ธฐ ์ข์์งโ์ โ์ก์ ์ด ๋ง๋์งโ๋ ๋ค๋ฅธ ๋ฌธ์ ์ด๋ฉฐ, ํ์๋ฅผ ๊ฒ์ฆํ๋ ค๋ฉด ์๋ฎฌ๋ ์ดํฐ๋ผ๋ โ๋ฌผ๋ฆฌ์ ์ง์ค(ground truth)โ์ด ํ์ํฉ๋๋ค.
๋ค์์ฑ์ ํจ๊ณผ
xychart-beta
title "ํ์คํฌ ๋ค์์ฑ๊ณผ ์๊ฐ์ ๋ค์์ฑ์ ํจ๊ณผ"
x-axis ["๋ฎ์ ํ์คํฌ ๋ค์์ฑ", "์ค๊ฐ ํ์คํฌ ๋ค์์ฑ", "๋์ ํ์คํฌ ๋ค์์ฑ"]
y-axis "์ฑ๊ณต๋ฅ (%)" 0 --> 80
bar [35, 52, 65]
bar [42, 60, 73]
์ ์ฐจํธ์์ ์ฒซ ๋ฒ์งธ ๋ง๋๋ ํ์คํฌ ๋ค์์ฑ๋ง ์ ์ฉํ ๊ฒฝ์ฐ, ๋ ๋ฒ์งธ ๋ง๋๋ ํ์คํฌ ๋ค์์ฑ + I2I/V2V ์๊ฐ์ ๋ค์์ฑ์ ๋ชจ๋ ์ ์ฉํ ๊ฒฝ์ฐ์ ๋๋ค.
๋ ผ๋ฌธ์ Table 5์์ ๋ฐํ ํต์ฌ ๋ฐ๊ฒฌ:
- ํ์คํฌ ๋ค์์ฑ ์ฆ๊ฐ โ ์ฑ๋ฅ ๋จ์กฐ ์ฆ๊ฐ: ๊ณ ์ ๋ 10K Neural Trajectory ๋ฐ์ดํฐ์ ์์, ๊ณ ์ ํ์คํฌ ์๋ฅผ ๋๋ฆด์๋ก VLA ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋ฉ๋๋ค.
- ์๊ฐ์ ๋ค์์ฑ์ ์ถ๊ฐ ํจ๊ณผ: ๊ฐ์ ํ์คํฌ ๋ค์์ฑ ์์ค์์๋ I2I/V2V ํ์ดํ๋ผ์ธ์ ์ ์ฉํ๋ฉด ์ฑ๋ฅ์ด ์ถ๊ฐ๋ก ์์นํฉ๋๋ค.
- I2I + V2V > ์์ I2V: ๊ธฐ์กด I2V ํ์ดํ๋ผ์ธ(DreamGen ๋ฐฉ์)๋ณด๋ค, I2I ํธ์ง ํ V2V ์ ํ์ ๊ฑฐ์น๋ ๋ฐฉ์์ด ๋ ํจ๊ณผ์ ์ ๋๋ค.
๋ง์ง๋ง ๋ฐ๊ฒฌ์ด ํนํ ํฅ๋ฏธ๋กญ์ต๋๋ค. ์ฒ์๋ถํฐ ์๋ก ์์ฑ(I2V)ํ๋ ๊ฒ๋ณด๋ค, ๊ธฐ์กด ๋น๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ณํ(I2I+V2V)ํ๋ ๊ฒ์ด ๋ซ๋ค๋ ๊ฒ์, ์์ฑ ๋ชจ๋ธ์ด ์์ง ๋ฌผ๋ฆฌ์ ์ผ๋ก ์๋ฒฝํ ๋ก๋ด ๋น๋์ค๋ฅผ ๋ง๋ค์ง ๋ชปํ๋ค๋ ํ์ค์ ๋ฐ์ํฉ๋๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ์ โ๊ธฐ๋์ดโ ๋ค์์ฑ์ ํ๋ณดํ๋ ๊ฒ์ด ๋ ์์ ํ ์ ๋ต์ธ ์ ์ด์ฃ .
๊ธฐ์ ์ ์ฌ์ธต ๋ถ์
IDM(Inverse Dynamics Model)์ ์ญํ ๊ณผ ํ๊ณ
Neural Trajectory ํ์ดํ๋ผ์ธ์์ IDM์ ํต์ฌ์ ์ธ ๋ณ๋ชฉ(bottleneck)์ ๋๋ค. IDM์ ์ฐ์๋ ๋น๋์ค ํ๋ ์ (o_t, o_{t+1})๋ก๋ถํฐ ๊ทธ ์ฌ์ด์ ์ก์ \hat{a}_t๋ฅผ ์์ธกํฉ๋๋ค:
\hat{a}_t = \text{IDM}(o_t, o_{t+1})
๋ฌธ์ ๋ IDM์ด ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ก ํ์ต๋๋ฏ๋ก, ์์ฑ ๋ชจ๋ธ์ด ๋ง๋ ๋น๋์ค์์๋ ์ ํ๋๊ฐ ๋จ์ด์ง ์ ์๋ค๋ ์ ์ ๋๋ค. ์์ฑ ๋น๋์ค์ ๋ฏธ๋ฌํ ์ํฐํฉํธ, ๋นํ์ค์ ์ธ ๋ชจ์ ๋ธ๋ฌ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋ฌผ์ฒด ๋ณํ ๋ฑ์ด IDM์ ์์ธก์ ํผ๋์ํต๋๋ค.
RoboCurate์ ์๋ฎฌ๋ ์ดํฐ-๋ฆฌํ๋ ์ด ํํฐ๋ง์ ์ ํํ ์ด ๋ฌธ์ ๋ฅผ ํ๊ฒํฉ๋๋ค. IDM์ด ํ๋ ธ๋์ง ์๋์ง๋ฅผ, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ๊ฐ์ ์ ์ผ๋ก ๊ฒ์ฆํ๋ ๊ฒ์ด์ฃ .
ํํฐ๋ง ํ๋ก๋ธ์ ์ค๊ณ ์ฒ ํ
Attentive Probe ์ค๊ณ์์ ์ฃผ๋ชฉํ ์ ์ ๋น๋์ค ์ธ์ฝ๋๋ฅผ ๊ณ ์ (freeze)ํ๊ณ ๊ฒฝ๋ ํ๋ก๋ธ๋ง ํ์ตํ๋ค๋ ๊ฒ์ ๋๋ค. ์ ์ฒด ๋น๋์ค ์ธ์ฝ๋๋ฅผ ํ์ธํ๋ํ๋ ๊ฒ์ด ์๋๋ผ, ์ด๋ฏธ ํ์ต๋ ์๊ฐ์ ํํ ์์ ์์ ๋ถ๋ฅ ๋ ์ด์ด๋ง ์น๋ ๋ฐฉ์์ ๋๋ค.
์ด๋ฐ ์ค๊ณ๊ฐ ํฉ๋ฆฌ์ ์ธ ์ด์ ๋:
- ํจ์จ์ฑ: ๋น๋์ค ์ธ์ฝ๋ ํ์ธํ๋์ ๊ณ์ฐ ๋น์ฉ์ด ํฝ๋๋ค.
- ์ผ๋ฐํ: ๊ณ ์ ๋ ์ธ์ฝ๋์ ๋ฒ์ฉ ํํ์ด ๋ค์ํ ์ฅ๋ฉด์์ ๋ ์ ์๋ํฉ๋๋ค.
- ํด์ ๊ฐ๋ฅ์ฑ: ์ดํ ์ ๊ฐ์ค์น๋ฅผ ํตํด โ์ด๋๋ฅผ ๋ณด๊ณ ํ๋จํ๋์งโ ๋ถ์ํ ์ ์์ต๋๋ค.
๋ณ๋์ Embodiment Tag ์ ๋ต
ํ์ต ์ ํฅ๋ฏธ๋ก์ด ํธ๋ฆญ์ด ์์ต๋๋ค. ์ค์ ๋ฐ์ดํฐ(ActionNet)์ Neural Trajectory๊ฐ ๊ฐ์ GR-1 ๋ก๋ด ๋ฐ์ดํฐ์์๋, ์๋ก ๋ค๋ฅธ embodiment tag๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ด์ ๋ IDM์ด ์์ธกํ ์ก์ ์ ํต๊ณ์ ๋ถํฌ๊ฐ ์ค์ ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ์ ๋ถํฌ์ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ด๊ฒ์ ์ค๋ฌด์ ์ผ๋ก ๋งค์ฐ ์ค์ํ ํฌ์ธํธ์ ๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ์์ผ๋ฉด ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๋๋ฐ, ๋ณ๋์ embodiment tag๋ก ๋ถ๋ฆฌํ๋ฉด ๋ชจ๋ธ์ด ๊ฐ ๋ฐ์ดํฐ ์์ค์ ํน์ฑ์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
ํ์ต ์ค์ผ์ค๋ง: Curriculum Learning์ ์ ๊ทผ
์ฒ์ 50K ์คํ ์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๊ณ , ๋ง์ง๋ง 10K ์คํ ์์๋ง ํํฐ๋ง๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ์ ๋ต๋ ๋์ฌ๊ฒจ๋ณผ ๋งํฉ๋๋ค. ์ด๋ ์ผ์ข ์ ์ปค๋ฆฌํ๋ผ ๋ฌ๋์ผ๋ก ํด์ํ ์ ์์ต๋๋ค:
- ์ด๊ธฐ ํ์ต: ์์ ๋ง์ง๋ง ํ์ง์ด ํผ์ฌ๋ ๋ฐ์ดํฐ๋ก ์ผ๋ฐ์ ์ธ ํํ ํ์ต
- ํ๊ธฐ ํ์ต: ์ ์ ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ์ ๋ฐํ ์ก์ ์์ฑ ๋ฅ๋ ฅ ์ฐ๋ง
๋ชจ๋ธ์ด ์ด๋ฏธ ์ถฉ๋ถํ ์๊ฐ์ /์ธ์ด์ ์ดํด๋ฅผ ๊ฐ์ถ ํ์, ์ ํํ ์ก์ ์ ์ง์คํ๋๋ก ํ๋ ๊ฒ์ด ๋ ผ๋ฌธ์ ๊ฐ์ค์ด๋ฉฐ, ์คํ์ด ์ด๋ฅผ ๋ท๋ฐ์นจํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
graph LR
A["์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ<br/>(MimicGen, DexMimicGen)"] --> D["ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ"]
B["๋น๋์ค ์์ฑ ๊ธฐ๋ฐ<br/>(DreamGen, ROSIE)"] --> D
C["Real-to-Sim-to-Real<br/>(ReBot, RialTo)"] --> D
D --> E["VLA ์ ์ฑ
ํ์ต"]
F["RoboCurate"] --> D
F -.->|"ํํฐ๋ง ์ถ๊ฐ"| B
F -.->|"์๋ฎฌ๋ ์ดํฐ ํ์ฉ"| A
style F fill:#FF9800,stroke:#E65100,color:#fff
style D fill:#E3F2FD,stroke:#1976D2
DreamGen (NVIDIA, 2025)
RoboCurate์ ๊ฐ์ฅ ์ง์ ์ ์ธ ์ ํ ์ฐ๊ตฌ์ ๋๋ค. DreamGen์ ๋น๋์ค ์๋ ๋ชจ๋ธ์ ํ์ธํ๋ํ์ฌ Neural Trajectory๋ฅผ ์์ฑํ๊ณ , IDM ๋๋ LAPA(Latent Action Model)๋ก ์ก์ ์ ์ถ์ถํฉ๋๋ค. GR-1 ํด๋จธ๋ ธ์ด๋์์ 22๊ฐ์ ์๋ก์ด ํ๋์ ์ํํ๋ ๋ฑ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์คฌ์ต๋๋ค.
RoboCurate์์ ์ฐจ์ด์ :
- DreamGen์ ํ์ง ํํฐ๋ง ์์ด ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๊ฑฐ๋, VLM ๊ธฐ๋ฐ์ ๊ฐ๋จํ ์ฒดํฌ๋ง ํฉ๋๋ค.
- RoboCurate๋ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ์ก์ ๊ฒ์ฆ์ด๋ผ๋ ๋ณด๋ค ์๊ฒฉํ ํํฐ๋ง์ ๋์ ํฉ๋๋ค.
- DreamGen์ ์๊ฐ์ ๋ค์์ฑ์ ์ด๊ธฐ ํ๋ ์ ์์ค์ ์ ํ๋์ง๋ง, RoboCurate๋ I2I + V2V๋ก ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ReBot (2025)
ReBot์ Real-to-Sim-to-Real ์ ๊ทผ๋ฒ์ ์ทจํฉ๋๋ค. ์ค์ ๊ถค์ ์ ์๋ฎฌ๋ ์ดํฐ์์ ๋ฆฌํ๋ ์ดํ๊ณ , ์๋ฎฌ๋ ์ด์ ๋ ๋๋ง์ ์ค์ธ๊ณ ๋ฐฐ๊ฒฝ์ ์ธํ์ธํ ํ์ฌ ํฉ์ฑ ๋น๋์ค๋ฅผ ๋ง๋ญ๋๋ค. ๋ฌผ๋ฆฌ์ ์ ํ์ฑ์ ๋ณด์ฅ๋์ง๋ง, ์ค์ ๊ถค์ ์ ์ข ์๋๋ฏ๋ก ์๋ก์ด ํ๋ ์์ฑ์ด ์ ํ๋ฉ๋๋ค.
RoboCurate๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์์ฑ์ ์์ ๋๋ฅผ ํ์ฉํ๋ฉด์๋, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ฒ์ฆ ๋๊ตฌ๋ก ํ์ฉํ์ฌ ๋ ์ ๊ทผ๋ฒ์ ์ฅ์ ์ ๊ฒฐํฉํฉ๋๋ค.
Cosmos Policy (NVIDIA, 2025-2026)
NVIDIA์ Cosmos World Foundation Model ๊ธฐ๋ฐ ์ ์ฑ ํ์ต ํ๋ ์์ํฌ์ ๋๋ค. ์ก์ ์กฐ๊ฑด๋ถ(action-conditioned) ๋น๋์ค ์์ฑ๊ณผ ์ฆ๋ฅ(distillation)๋ฅผ ํ์ฉํฉ๋๋ค. RoboCurate๋ Cosmos ์ํ๊ณ์ ์ํธ๋ณด์์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค โ Cosmos๋ก ์์ฑํ Neural Trajectory๋ฅผ RoboCurate๋ก ํํฐ๋งํ๋ ํ์ดํ๋ผ์ธ์ด ์์ฐ์ค๋ฝ๊ฒ ๊ฐ๋ฅํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
โ ๋ช ํํ๊ณ ์ค์ฉ์ ์ธ ๋ฌธ์ ์ ์
โํฉ์ฑ ๋ฐ์ดํฐ์ ์ก์ ์ด ์ ํํ๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ Neural Trajectory๋ฅผ ํ์ฉํ๋ ๋ชจ๋ ์ฐ๊ตฌ์์๊ฒ ์ ์คํ ๋ฌธ์ ์ ๋๋ค. ์ด๋ฅผ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃฌ ์ ์ด ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ์ ๋๋ค.
โ ์๋ฎฌ๋ ์ดํฐ์ ์ฐฝ์์ ์ฌํ์ฉ
์๋ฎฌ๋ ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ์์ฑ์ด ์๋ ๋ฐ์ดํฐ ๊ฒ์ฆ์ ํ์ฉํ๋ค๋ ๋ฐ์์ ์ ํ์ด ์ ์ ํฉ๋๋ค. sim-to-real gap ๋๋ฌธ์ ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ฐ๊ธฐ ์ด๋ ค์ด ์ํฉ์์, โ์ฌํ๊ดโ์ผ๋ก์์ ์๋ก์ด ์ญํ ์ ๋ถ์ฌํ ๊ฒ์ด์ฃ .
โ ์ค์ธ๊ณ ๊ฒ์ฆ
ALLEX ํด๋จธ๋ ธ์ด๋์์์ ์ค์ธ๊ณ ์คํ์ ์ด ์ ๊ทผ๋ฒ์ด ์๋ฎฌ๋ ์ด์ ์๋ง ๋จธ๋ฌด๋ฅด์ง ์์์ ๋ณด์ฌ์ค๋๋ค. +179.9%๋ผ๋ ํฅ์์, ์ ํ์ง ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ์ค์ธ๊ณ ์ฑ๋ฅ์ ํด์น ์ ์์ผ๋ฉฐ, ์ ์ ํ ํ๋ ์ด์ ์ด ์ด๋ฅผ ๋ฐ์ ์ํฌ ์ ์์์ ์ฆ๋ช ํฉ๋๋ค.
โ ๋ชจ๋๋ฌ ์ค๊ณ
I2I, V2V, ํํฐ๋ง, Best-of-N์ด ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ฏธ DreamGen ํ์ดํ๋ผ์ธ์ ์ฐ๊ณ ์๋ ์ฐ๊ตฌ์๋ผ๋ฉด, ํํฐ๋ง ๋ชจ๋๋ง ์ถ๊ฐ๋ก ๋ถ์ด๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
โ ๏ธ ์๋ฎฌ๋ ์ดํฐ ์์กด์ฑ
๊ฐ์ฅ ๋ณธ์ง์ ์ธ ํ๊ณ์ ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๊ฐ ํ์ํ๋ค๋ ๊ฒ์, Neural Trajectory์ ํต์ฌ ์ฅ์ ์ธ ์๋ฎฌ๋ ์ดํฐ ์์ด๋ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค ์ ์๋ค๋ ๊ฐ์ ์ ๋ถ๋ถ์ ์ผ๋ก ์์ํฉ๋๋ค. ๋ฌผ๋ก ์๋ฎฌ๋ ์ดํฐ๋ฅผ โ์์ฑโ์ด ์๋ โ๊ฒ์ฆโ์๋ง ์ฐ๋ฏ๋ก ๋ถ๋ด์ ์ค์ง๋ง, ์๋ฎฌ๋ ์ดํฐ ์ ์ ์ด ๋ถ๊ฐ๋ฅํ ํ๊ฒฝ์์๋ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.
โ ๏ธ ์๋ฎฌ๋ ์ดํฐ-์ค์ธ๊ณ ๊ฐ๊ทน
์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์์ง์ด ์ค์ธ๊ณ๋ฅผ ์๋ฒฝํ ๋ชจ์ฌํ์ง ๋ชปํ๋ค๋ฉด, โ์๋ฎฌ๋ ์ดํฐ์์ ์ ๋ฆฌํ๋ ์ด๋๋ ์ก์ โ์ด โ์ค์ธ๊ณ์์๋ ์ข์ ์ก์ โ์ด๋ผ๋ ๋ณด์ฅ์ด ์ฝํด์ง๋๋ค. ํนํ ๋ณํ์ฒด(deformable objects), ์ ์ฒด, ์ ์ด ์ญํ์ด ๋ณต์กํ ํ์คํฌ์์๋ ์ด ๊ฐ๊ทน์ด ๋ฌธ์ ๋ ์ ์์ต๋๋ค.
โ ๏ธ ์ด์ง ๋ถ๋ฅ์ ํ๊ณ
Attentive Probe๊ฐ โ์ผ์น/๋ถ์ผ์นโ๋ฅผ ์ด์ง ๋ถ๋ฅํ๋ค๋ ๊ฒ์, ๋ฏธ์ธํ ํ์ง ์ฐจ์ด๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ธ ์ ์์์ ์๋ฏธํฉ๋๋ค. ์ฐ์์ ์ธ ํ์ง ์ ์(regression)๋ก ํ์ฅํ๋ฉด ๋ ์ธ๋ฐํ ํํฐ๋ง์ด ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
โ ๏ธ GR00T ์ํ๊ณ์ ๋ํ ์์กด
์คํ์ด ์ฃผ๋ก GR00T N1.5 + GR-1/ALLEX ์กฐํฉ์์ ์ํ๋์์ต๋๋ค. ๋ค๋ฅธ VLA ์ํคํ ์ฒ(ฯ0, OpenVLA ๋ฑ)๋ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
โ ๏ธ ๊ณ์ฐ ๋น์ฉ
Best-of-N ์ํ๋ง์ N๋ฐฐ์ ๋น๋์ค ์์ฑ + N๋ฐฐ์ ์๋ฎฌ๋ ์ดํฐ ๋ฆฌํ๋ ์ด + N๋ฐฐ์ ํ๋ก๋ธ ์ถ๋ก ์ ์๊ตฌํฉ๋๋ค. N=5๋ผ๋ฉด 5๋ฐฐ์ ๋น์ฉ์ด ๋๋ ์ ์ด์ฃ . ๋๊ท๋ชจ๋ก ์ ์ฉํ ๋์ ํจ์จ์ฑ ๋ถ์์ด ๋ ํ์ํฉ๋๋ค.
์์ฌ์ ๊ณผ ๋ฏธ๋ ๋ฐฉํฅ
์ค๋ฌด์๋ฅผ ์ํ ํต์ฌ ๊ตํ
ํฉ์ฑ ๋ฐ์ดํฐ๋ โ์โ๋งํผ โ์งโ์ด ์ค์ํฉ๋๋ค. ๋ฌด์กฐ๊ฑด ๋ง์ด ๋ง๋๋ ๊ฒ๋ณด๋ค, ์ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ๋ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
์๊ฐ์ ๋ค์์ฑ์ ๊ณต์ง ์ ์ฌ์ ๊ฐ๊น์ต๋๋ค. I2I/V2V ๊ฐ์ ๋น๊ต์ ๊ฐ๋จํ ๊ธฐ๋ฒ์ผ๋ก๋ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์ต๋๋ค. ํนํ VLA ๋ชจ๋ธ์ ์๊ฐ์ ์ผ๋ฐํ(visual generalization) ๋ฅ๋ ฅ์ ํค์ฐ๋ ๋ฐ ํจ๊ณผ์ ์ ๋๋ค.
์๋ฎฌ๋ ์ดํฐ๊ฐ ์๋ค๋ฉด ํ์ฉํ์ธ์. ๋ฐ์ดํฐ ์์ฑ์ฉ์ด ์๋๋๋ผ๋, ๋ฐ์ดํฐ ๊ฒ์ฆ์ฉ์ผ๋ก์์ ๊ฐ์น๊ฐ ํฝ๋๋ค.
ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ ๋ฐ์ดํฐ๋ ๋ณ๋์ embodiment tag๋ก ๋ถ๋ฆฌํ์ธ์. ๊ฐ์ ๋ก๋ด์ด๋ผ๋ ๋ฐ์ดํฐ ์์ค์ ๋ฐ๋ฅธ ๋ถํฌ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
์ด๋ฆฐ ์ฐ๊ตฌ ์ง๋ฌธ๋ค
- ์๋ฎฌ๋ ์ดํฐ ์์ด๋ ์ก์ ํ์ง์ ๊ฒ์ฆํ ์ ์์๊น? ์๋ฅผ ๋ค์ด ํ์ต๋ ์๋ ๋ชจ๋ธ(learned world model)์ ์๋ฎฌ๋ ์ดํฐ ๋์ ์ฌ์ฉํ ์ ์์๊น์?
- ํํฐ๋ง ๋์ ์์ฑ ์์ฒด๋ฅผ ๊ฐ์ ํ ์๋ ์์๊น? ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํํ ๋น๋์ค๋ฅผ ์ฒ์๋ถํฐ ๋ง๋ค ์ ์๋ ์์ฑ ๋ชจ๋ธ์ด ๊ฐ๋ฅํ๋ค๋ฉด, ํํฐ๋ง์ ๋ถํ์ํด์ง ๊ฒ์ ๋๋ค.
- ์ค์ผ์ผ๋ง ๋ฒ์น์? Neural Trajectory์ ์๊ณผ ํ์ง์ด ํ๋ฅ ์ ์ฑ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ค์ผ์ผ๋ง ๋ฒ์น(scaling law)์ ์์ง ์์ ํ ๊ท๋ช ๋์ง ์์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
RoboCurate๋ ํฉ์ฑ ๋ก๋ด ๋ฐ์ดํฐ์ ํ์ง ๊ด๋ฆฌ(curation)๋ผ๋, ์ค์ํ์ง๋ง ์๋์ ์ผ๋ก ๊ฐ๊ณผ๋์ด์จ ๋ฌธ์ ์ ๋ํ ์ฒด๊ณ์ ์ธ ํด๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ํ ์ค๋ก ์์ฝํ๋ฉด:
โ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌํ๊ด์ผ๋ก ํ์ฉํ์ฌ, ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ๋ง๋ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ก์ ์ ํ์ฑ์ ๊ฒ์ฆํ๊ณ , ๋์์ I2I/V2V ํ์ดํ๋ผ์ธ์ผ๋ก ์๊ฐ์ ๋ค์์ฑ์ ๊ทน๋ํํ๋ค.โ
์ด ์ ๊ทผ๋ฒ์ ์ธ ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ์ค์ธ๊ณ ํด๋จธ๋ ธ์ด๋ ์คํ์์์ ๋ํญ์ ์ธ ๊ฐ์ (+179.9%)์ ์ด ์ฐ๊ตฌ์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์ ๋ณด์ฌ์ค๋๋ค.
Neural Trajectory๊ฐ ๋ก๋ด ํ์ต ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ํต์ฌ ์ถ์ผ๋ก ์๋ฆฌ์ก๊ณ ์๋ ์ง๊ธ, RoboCurate๊ฐ ์ ์ํ โ์์ฑ ํ ๊ฒ์ฆ(generate-then-verify)โ ํจ๋ฌ๋ค์์ ์์ผ๋ก์ ํฉ์ฑ ๋ฐ์ดํฐ ์ฐ๊ตฌ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ ๊ฒ์ ๋๋ค.
๋ ผ๋ฌธ์ด ๋จ๊ธฐ๋ ๊ฐ์ฅ ์ค์ํ ๋ฉ์์ง๋ ์ด๊ฒ์ ๋๋ค: ์ข์ ๋ฐ์ดํฐ๋ ์ข์ ํํฐ์์ ๋์จ๋ค.
๋ ผ๋ฌธ ์ ๋ณด
- ์ ๋ชฉ: RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning
- ์ ์: Seungku Kim ์ธ 5์ธ (๊ต์ ์ ์: Suhyeok Jang)
- ๋ฐํ: arXiv:2602.18742, 2026๋ 2์ 21์ผ
- ๋งํฌ: https://arxiv.org/abs/2602.18742