flowchart TB
subgraph Hard["๐ Hard Constraints (๋ฐ๋์ ๋ง์กฑ)"]
H1["๋๋ฌ์ฑ (Reachability)<br/>ํ์ด ๋ฌผ์ฒด์ ๋ฟ์ ์ ์์ด์ผ ํจ"]
H2["์กฐ์ ์ค ๊ฐ์์ฑ<br/>๋ฌผ์ฒด๊ฐ ์นด๋ฉ๋ผ ์์ผ์ ์์ด์ผ ํจ"]
H3["์ด๋ํ์ ํ๋น์ฑ<br/>๊ด์ ํ๊ณ ๋ด์์ ์์ง์"]
H4["์ถฉ๋ ํํผ<br/>๋ก๋ด์ด ํ๊ฒฝ๊ณผ ์ถฉ๋ํ์ง ์์"]
H5["ํ์คํฌ ์ฑ๊ณต<br/>์ต์ข
์ ์ผ๋ก ์์
์๋ฃ"]
end
subgraph Soft["๐ Soft Constraints (๊ฐ๊ธ์ ๋ง์กฑ)"]
S1["์ด๋ ์ค ๊ฐ์์ฑ<br/>์ด๋ํ๋ฉด์๋ ๋ฌผ์ฒด๋ฅผ ๋ด"]
S2["์์ถ (Retraction)<br/>์กฐ์ ํ ์ปดํฉํธํ ์์ธ๋ก ๋ณต๊ท"]
end
Hard -->|์๋ฐ ์ ๋ฐ์ดํฐ ํ๊ธฐ| Failure["์์ฑ ์คํจ"]
Soft -->|์๋ฐ ์ ๋น์ฉ ์ฆ๊ฐ| Cost["ํ์ง ์ ํ"]
๐MoMaGen ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- โ๏ธ ๋ชจ๋ฐ์ผ ๋ก๋ด์ด ํฌํจ๋ ๋ค๋จ๊ณ ์์ ์กฐ์ ์์ ์์๋ ๊ธฐ์กด ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ์์ด ๋๋ฌ ๊ฐ๋ฅ์ฑ ๋ฐ ์์ผ ํ๋ณด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํด ๋ก๋ด ํ์ต์ฉ ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ต์ต๋๋ค.
- ๐ค MOMAGEN์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ์ฑ ์ ์ฝ(์: reachability, ์กฐ์ ์ค visibility)๊ณผ ์ฐ์ฑ ์ ์ฝ(์: navigation ์ค visibility)์ ๊ท ํ ์๊ฒ ๊ณ ๋ คํ๋ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํํ์ต๋๋ค.
- ๐ MOMAGEN์ ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ํจ์ฌ ๋ค์ํ๊ณ ๋์ ๊ฐ์ฒด ๊ฐ์์ฑ์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ, ๋จ์ผ ์์ฐ์ผ๋ก๋ ํจ๊ณผ์ ์ธ imitation learning ์ ์ฑ ์ ํ๋ จํ๊ณ ์ค์ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.

๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
MOMAGEN์ ๋ค๋จ๊ณ ์ํ ๋ชจ๋ฐ์ผ ์กฐ์(multi-step bimanual mobile manipulation)์ ์ํ ์์ฐ(demonstration) ๋ฐ์ดํฐ ์์ฑ์ ์ด์ ์ ๋ง์ถ ์ฐ๊ตฌ์ ๋๋ค. ๋ก๋ด ํ์ต์ ์ํ ๋๊ท๋ชจ์ ๋ค์ํ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ ํจ๊ณผ์ ์ด์ง๋ง, ํนํ ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค์ ๋ ๊ฐ์ ๊ณ ์์ ๋(high-DoF) ํ์ ๋ชจ๋ ์กฐ์ํด์ผ ํ๋ ๋ค๋จ๊ณ ์ํ ๋ชจ๋ฐ์ผ ์กฐ์์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ์์ง์ด ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ์๊ฐ์ด ์๋ชจ๋ฉ๋๋ค. ๊ธฐ์กด X-Gen ๊ณ์ด์ ์๋ ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ๋ ์ ์ ์กฐ์ ์์ ์์๋ ์ฑ๊ณต์ ์ด์์ง๋ง, ๋ชจ๋ฐ์ผ ์กฐ์ ์์ ์์๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ์ ์ง๋ฉดํ์ต๋๋ค. ์ฒซ์งธ, ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค๋ ํ์ ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ก๋ด ๋ฒ ์ด์ค ์์น(reachability) ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํฉ๋๋ค. ๋์งธ, ์กํฐ๋ธ ์นด๋ฉ๋ผ(active camera)๋ ์๊ฐ ์ด๋ ์ ์ฑ (visuomotor policy)์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ ์ํด ์นด๋ฉ๋ผ๋ฅผ ์ด๋ป๊ฒ ๋ฐฐ์นํด์ผ ํ๋์ง(visibility) ๋ฌธ์ ๋ฅผ ๋ฐ์์ํต๋๋ค.
MOMAGEN์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์์ฑ์ ์ ์ฝ ์ต์ ํ(constrained optimization) ๋ฌธ์ ๋ก ๊ณต์ํํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋๋ฌ ๊ฐ๋ฅ์ฑ(reachability)๊ณผ ๊ฐ์ ํ๋ ์ ์ฝ(hard constraints)์ ์๊ฒฉํ๊ฒ ๋ง์กฑ์ํค๋ฉด์ ๋ด๋น๊ฒ์ด์ ์ค ์์ผ ํ๋ณด(visibility while navigation)์ ๊ฐ์ ์ํํธ ์ ์ฝ(soft constraints)์ ๊ท ํ์ ๋ง์ถฅ๋๋ค. ์ด ๊ณต์ํ๋ ๊ธฐ์กด์ ์๋ ๋ฐ์ดํฐ ์์ฑ ์ ๊ทผ ๋ฐฉ์ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๋ฐํ๋๋ฉฐ, ๋ฏธ๋ ๋ฐฉ๋ฒ๋ก ๊ฐ๋ฐ์ ์ํ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค. MOMAGEN์ ๋จ์ผ ์์ค ์์ฐ(single source demo)์ ํ์ฉํ์ฌ ์ด์ ๋ฐฉ๋ฒ๋ณด๋ค ํจ์ฌ ๋ค์ํ๊ณ ํ์ง ๋์ ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ฑ๊ณต์ ์ธ ๋ชจ๋ฐฉ ํ์ต(imitation learning) ์ ์ฑ ์ ํ๋ จํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ํ๋ จ๋ ์ ์ฑ ์ ์๋์ ์ค์ ๋ฐ์ดํฐ(40๊ฐ์ ์์ฐ)๋ก ๋ฏธ์ธ ์กฐ์ (fine-tuning)๋์ด ์ค์ ๋ก๋ด ํ๋์จ์ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ๋ ์ ์์ต๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก : ์ ์ฝ ์ต์ ํ๋ฅผ ํตํ ์๋ ์์ฐ ์์ฑ
MOMAGEN์ ๊ฐ ์์ ์ ์ํ ๊ณต๊ฐ S์ ํ๋ ๊ณต๊ฐ A๋ฅผ ๊ฐ์ง ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (Markov Decision Process, MDP)์ผ๋ก ๋ชจ๋ธ๋งํฉ๋๋ค. ์ฃผ์ด์ง ์์ค ์์ฐ ์ธํธ D_{src} = \{d_j = (s_{j0}, a_{j0}, \dots, s_{jT_{src}})\}์์, ์๋ก์ด ์ฑ๊ณต์ ์ธ ์์ฐ ์ธํธ D = \{d\}๋ฅผ ์์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์์ฐ ์์ฑ์ ๋ค์์ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์๋ฉ๋๋ค:
\operatorname*{argmin}_{a_t \in [T]} L(\cdot) \quad \text{s.t.} \quad \begin{cases} s_{t+1} = f(s_t, a_t), & \forall t \in [T] \\ G_{kin}(s_t, a_t) \le 0, & \forall t \in [T] \\ G_{coll}(s_t, a_t) \ge 0, & \forall t \in [T] \\ G_{vis}(s_t, a_t, o_i(t)) \le 0, & \forall t \in [T] \\ T^E_k W = T^{o_i}_W (T^{o_i,src}_W)^{-1} T^E_k W, & \forall \text{contact } \tau_i, \forall k \in [K_i] \\ s_t \in D_{success} \exists t \in [T] & (\text{task success}) \end{cases}
์ฌ๊ธฐ์ L(\cdot)์ ์ฌ์ฉ์ ์ง์ ์ํํธ ์ ์ฝ ๋น์ฉ ํจ์(์: ์งง์ ๊ถค์ , ๋ฎ์ ํ๋ค๋ฆผ)๋ฅผ ํฌํจํ๋ฉฐ, f(s_t, a_t)๋ ์์คํ ์ญํ(dynamics)์ ๋ํ๋ ๋๋ค. ํ๋ ์ ์ฝ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- G_{kin}: ๊ด์ ํ๊ณ(joint limits)์ ๊ฐ์ ์ด๋ํ์ ์คํ ๊ฐ๋ฅ์ฑ(kinematic feasibility)์ ๋ํ๋ ๋๋ค.
- G_{coll}: ์ถฉ๋ ํํผ(collision avoidance)๋ฅผ ๋ํ๋ ๋๋ค.
- G_{vis}: ์กฐ์ ์ค ์์ผ(visibility) ์ ์ฝ์ ๋ํ๋ ๋๋ค.
- T^E_k W = T^{o_i}_W (T^{o_i,src}_W)^{-1} T^E_k W: ์ ์ด์ด ํ๋ถํ(contact-rich) ์๋ธํ์คํฌ์์ ์๋ ์ดํํฐ(end-effector)์ ๋์ ๊ฐ์ฒด ์ฌ์ด์ ์๋์ ์ธ ํฌ์ฆ๋ฅผ ์๋ณธ ์์ฐ๊ณผ ๋์ผํ๊ฒ ์ ์งํ๋ ์ ์ฝ์ ๋๋ค.
- s_t \in D_{success}: ์์ ์ฑ๊ณต์ ๋ณด์ฅํ๋ ์ ์ฝ์ ๋๋ค.
๊ฐ ์์ค ์์ฐ์ ์ฌ๋ฌ ์๋ธํ์คํฌ(subtask)๋ก ๋ถํด๋๋ฉฐ, ๊ฐ ์๋ธํ์คํฌ๋ ๊ด์ฌ ๊ฐ์ฒด o_i์ ์๋ ์ดํํฐ ๊ถค์ \tau_i = \{T^E_k W\}^{K_i}_{k=0}๋ฅผ ํฌํจํฉ๋๋ค. ์๋ธํ์คํฌ๋ ๋ก๋ด ๋ฒ ์ด์ค ๋๋ ํ์ ์์ ๊ณต๊ฐ์์ ์ด๋์ํค๋ ์์ ๊ณต๊ฐ ์๋ธํ์คํฌ(free-space subtask)์ ๊ฐ์ฒด๋ฅผ ์กฐ์ํ๋ ์ ์ด์ด ํ๋ถํ ์๋ธํ์คํฌ๋ก ๋๋ฉ๋๋ค.
MOMAGEN์ ์ฃผ์ ํ์ :
MOMAGEN์ ๋ชจ๋ฐ์ผ ์กฐ์์ ํ์์ ์ธ ๋ค์๊ณผ ๊ฐ์ ์๋ก์ด ์ ์ฝ๊ณผ ๊ธฐ์ ์ ๋์ ํฉ๋๋ค:
- ๋๋ฌ ๊ฐ๋ฅ์ฑ(Reachability) (ํ๋ ์ ์ฝ): ์ํ๋ง๋ ๋ฒ ์ด์ค ํฌ์ฆ๊ฐ ๋ชจ๋ ํ์ํ ์๋ ์ดํํฐ ๊ถค์ ์ ๋ก๋ด ํ์ ์์ ๊ณต๊ฐ ๋ด์ ์ ์งํ๋๋ก ํฉ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๊ฐ ๋ฒ ์ด์ค ๊ถค์ ์ ๊ทธ๋๋ก ์ฌ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, MOMAGEN์ ๋ฌด์์ํ๋ ๊ฐ์ฒด ์์น์ ๋ฐ๋ผ ๋ฒ ์ด์ค ํฌ์ฆ๋ฅผ ์กฐ์ ํฉ๋๋ค.
- ์กฐ์ ์ค ๊ฐ์ฒด ์์ผ ํ๋ณด(Object Visibility during Manipulation) (ํ๋ ์ ์ฝ): ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ ์๊ฐ ์ด๋ ์ ์ฑ ํ๋ จ์ ์ฌ์ฉ๋๋ฏ๋ก, ์ํ๋ง๋ ๋ชจ๋ ํฌ์ฆ์์ ํค๋ ์นด๋ฉ๋ผ(head camera)๊ฐ ์์ ๊ด๋ จ ๊ฐ์ฒด๋ฅผ ๊ฐ๋ ค์ง ์์ด ๊ด์ฐฐํ ์ ์๋๋ก ํฉ๋๋ค.
- ๋ด๋น๊ฒ์ด์ ์ค ๊ฐ์ฒด ์์ผ ํ๋ณด(Object Visibility during Navigation) (์ํํธ ์ ์ฝ): ๋ด๋น๊ฒ์ด์ ์ค ์์ ๊ด๋ จ ๊ฐ์ฒด์ ์์ผ๋ฅผ ์ ์งํ๋ ๊ฒ์ ๋ฐ๋์งํ์ง๋ง ํ์์ ์ด์ง ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์ํํธ ์ ์ฝ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ด๋น๊ฒ์ด์ ์ค ํค๋ ์นด๋ฉ๋ผ๊ฐ ๋์ ๊ฐ์ฒด๋ฅผ ํฅํ๋๋ก ํธํฅ(bias)์ ์ค๋๋ค.
- ํํด(Retraction) (์ํํธ ์ ์ฝ): ์กฐ์ ํ ๋ก๋ด์ด ํ๊ณผ ๋ชธํต์ ์ปดํฉํธํ ๊ตฌ์ฑ์ผ๋ก ํํด์์ผ ๋ค์ ๋ด๋น๊ฒ์ด์ ์ ๋ ์์ ํ๊ฒ ๋ง๋ญ๋๋ค.
์์ฐ ์์ฑ ๊ณผ์ (Algorithm 1):
- ๋จ์ผ ์์ค ์์ฐ๊ณผ ๊ฐ ์๋ ์ดํํฐ์ ๋ํ ๊ฐ์ฒด ์ค์ฌ ์๋ธํ์คํฌ ์ฃผ์(annotation)์ ์ฌ์ฉํฉ๋๋ค.
- ์ฅ๋ฉด ๊ตฌ์ฑ(scene configuration)์ ๋ฌด์์ํํ๊ณ , ์๋ ์ดํํฐ ํฌ์ฆ๋ฅผ ์๋ก์ด ๊ฐ์ฒด ์ขํ๊ณ๋ก ๋ณํํฉ๋๋ค.
- ๊ฐ ์๋ธํ์คํฌ์ ๋ํด ๋๋ฌ ๊ฐ๋ฅ์ฑ๊ณผ ์์ผ ํ๋ณด ์ ์ฝ์ ๋ง์กฑํ๋ ์ ํจํ ๋ฒ ์ด์ค ํฌ์ฆ๋ฅผ ์ํ๋งํฉ๋๋ค.
- ์ ํจํ ๋ฒ ์ด์ค ํฌ์ฆ๊ฐ ๋ฐ๊ฒฌ๋๋ฉด, ๋ด๋น๊ฒ์ด์ ์ค ๋์ ๊ฐ์ฒด๋ฅผ ์ฃผ์ํ๋ฉด์ ์ํ๋ ๋ฒ ์ด์ค ๋ฐ ํค๋ ์นด๋ฉ๋ผ ํฌ์ฆ์ ๋๋ฌํ๊ธฐ ์ํ ๋ฒ ์ด์ค ๋ฐ ๋ชธํต ๊ถค์ ์ ๊ณํํฉ๋๋ค.
- ๋์ฐฉ ํ, ์ค๋น ์์ธ(pregrasp pose)๊น์ง ํ ๊ถค์ ์ ๊ณํํ๊ณ , ํ์คํฌ ๊ณต๊ฐ ์ ์ด(task space control)๋ฅผ ์ฌ์ฉํ์ฌ ์์ฐ์ ์ฌ์(replay)ํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ์ค๋ฆฝ ์์ธ๋ก ํํด๋ฅผ ์๋ํฉ๋๋ค.
์ด ๊ณผ์ ์ cuRobo(GPU ๊ฐ์ ๋ชจ์ ์์ฑ๊ธฐ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ์ ๊ณํ(motion planning) ๋ฐ ์ญ์ด๋ํ(inverse kinematics, IK)์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
MOMAGEN์ ๋ค ๊ฐ์ง ๊ฐ์ ํ๊ฒฝ ์์ (Pick Cup, Tidy Table, Put Dishes Away, Clean Frying Pan)์ ๋ํด ํ๊ฐ๋์์ต๋๋ค.
- ๋ฐ์ดํฐ ๋ค์์ฑ: MOMAGEN์ ์ด์ ๋ฐฉ๋ฒ๋ค(SkillMimicGen, DexMimicGen)๋ณด๋ค ํจ์ฌ ๋ ๋ค์ํ ๊ฐ์ฒด ํฌ์ฆ, ๋ฒ ์ด์ค ํฌ์ฆ, ์๋ ์ดํํฐ ํฌ์ฆ, ๊ด์ ์์น๋ฅผ ๊ฐ์ง ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ต๋๋ค. ํนํ, MOMAGEN๋ง์ด D1(๋ฌด์ ํ ๊ฐ์ฒด ๋ฐฐ์น) ๋ฐ D2(์ฅ์ ๋ฌผ ์ถ๊ฐ)์ ๊ฐ์ ๊ณต๊ฒฉ์ ์ธ ๋ฌด์์ํ ์์ค์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์์ต๋๋ค.
- ์์ฑ ์ฑ๊ณต๋ฅ : MOMAGEN์ D0์์ ํ๊ท 63%์ ๋ฐ์ดํฐ ์์ฑ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ณต์กํ ์์ ๊ณผ ๋์ ๋ฌด์์ํ ์์ค์์๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์์ต๋๋ค. ๋ฐ๋ฉด, ๋ฒ ์ด์ค ์์ง์ ์ ์์ด ์ค์ํ ์์ ์์ ๊ธฐ์ค์ (baselines)์ D1 ๋๋ D2 ๋ฌด์์ํ๋ฅผ ์ ํ ์ฒ๋ฆฌํ์ง ๋ชปํ์ต๋๋ค.
- ๊ฐ์ฒด ์์ผ ํ๋ณด: MOMAGEN์ ํ๋ ๋ฐ ์ํํธ ์์ผ ์ ์ฝ ๋๋ถ์ ๋ด๋น๊ฒ์ด์ ์ค ์์ ๊ด๋ จ ๊ฐ์ฒด์ ์์ผ ํ๋ณด ๋น์จ์ด ๊ธฐ์ค์ ๊ณผ ์ด๋ธ๋ ์ด์ (ablation) ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋์์ต๋๋ค. ์ด๋ ์๊ฐ ์ด๋ ์ ์ฑ ํ์ต์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
- ์ ์ฑ ํ์ต ์ฑ๋ฅ: MOMAGEN์ด ์์ฑํ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ (WB-VIMA, ฯ0)์ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ๋ณด๋ค ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์์ผ ์ ์ฝ์ ์ ์ฉํ๋ ๊ฒ์ด ํนํ ์ ์ฑ ์ฑ๋ฅ ํฅ์์ ํฌ๊ฒ ๊ธฐ์ฌํ์ต๋๋ค.
- ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: MOMAGEN ์์ฑ ๋ฐ์ดํฐ์ ์์ ๋๋ฆด์๋ก ์ ์ฑ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค.
- Sim-to-Real ๋ฐฐํฌ: 1,000๊ฐ์ ํฉ์ฑ ์์ฐ์ผ๋ก ์ฌ์ ํ๋ จํ๊ณ 40๊ฐ์ ์ค์ ์์ฐ์ผ๋ก ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํ ์ ์ฑ ์ ์ค์ ๋ก๋ด ํ๋์จ์ด์์ 0% ์ฑ๊ณต๋ฅ ์ ๋ณด์ธ ๊ธฐ์ค์ ๊ณผ ๋น๊ตํ์ฌ WB-VIMA์ ๊ฒฝ์ฐ 10%, ฯ0์ ๊ฒฝ์ฐ 60%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ MOMAGEN ๋ฐ์ดํฐ๊ฐ ์ค์ ํ๊ฒฝ์์ ํจ์จ์ ์ธ ์ ์ฑ ํ์ต์ ์ํ ๊ฐ๋ ฅํ ์ฌ์ ์ง์(prior)์ ์ ๊ณตํจ์ ์์ฌํฉ๋๋ค.
์ ํ ์ฌํญ:
- ์์ฐ ์์ฑ ์ ์ฅ๋ฉด ์ง์(ground-truth object poses and geometry)์ ๋ํ ์์ ํ ์ ๊ทผ์ ๊ฐ์ ํฉ๋๋ค.
- ๋ด๋น๊ฒ์ด์ ๊ณผ ์กฐ์ ๋จ๊ณ๊ฐ ๊ต๋๋ก ์ด๋ฃจ์ด์ง๋ ์์ฐ ์์ฑ ๊ฒฐ๊ณผ๋ง ๋ณด์ฌ์ฃผ๋ฉฐ, ์ ์ ์กฐ์(whole-body manipulation)์ผ๋ก์ ํ์ฅ์ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ์ ๋๋ค.
- GPU ๊ฐ์ ๋ชจ์ ์์ฑ๊ธฐ๋ฅผ ์คํํ๊ธฐ ์ํด ์๋นํ GPU ๋ฆฌ์์ค๊ฐ ํ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๋ฐ์ดํฐ ๋ณ๋ชฉ ํ์ โ ๋ก๋ด ํ์ต์ ๊ฐ์ฅ ํฐ ์ฅ๋ฒฝ
๋ก๋ด์ ๊ฐ๋ฅด์น๋ ๊ฐ์ฅ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น์? ๋ฐ๋ก โ๋ณด์ฌ์ฃผ๊ธฐโ์ ๋๋ค. ์์ด์๊ฒ ์๊ฐ๋ฝ ์ฌ์ฉ๋ฒ์ ๊ฐ๋ฅด์น ๋ ์ฐ๋ฆฌ๋ ์ง์ ์์ฐํ์ฃ . ๋ก๋ด ํ์ต์์๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. ๋ชจ๋ฐฉ ํ์ต(Imitation Learning)์ ์ธ๊ฐ์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ก๋ด์ด ํ๋์ ๋ฐฐ์ฐ๋ ํจ๋ฌ๋ค์์ผ๋ก, ์ต๊ทผ ๋๋ถ์ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋๊ณ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์ฌ๊ธฐ์ ์ฌ๊ฐํ ๋ณ๋ชฉ์ด ์์ต๋๋ค. ๋ฐ์ดํฐ ์์ง์ด ๋๋ฌด ๋น์ธ๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค๋ ๊ฒ์ ๋๋ค.
์๊ฐํด๋ณด์ธ์. ๋จ์ํ ํ ์ด๋ธ ์ ๋ฌผ์ฒด ์ง๊ธฐ ์์ ๋ ์๋ฐฑ~์์ฒ ๊ฐ์ ์์ฐ์ด ํ์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ๋ง์ฝ ๋ก๋ด์ด ์ด๋ํ๋ฉด์ ์์์ผ๋ก ์ฌ๋ฌ ๋จ๊ณ์ ์์ ์ ์ํํด์ผ ํ๋ค๋ฉด? ์ธ๊ฐ ์กฐ์์๋ ๋์์ ์ด๋ ๋ฒ ์ด์ค์ ๋ ๊ฐ์ ๊ณ ์์ ๋ ํ์ ์ ์ดํด์ผ ํฉ๋๋ค. ์ด๊ฒ์ ๋ง์น ํผ์๋ ธ๋ฅผ ์น๋ฉด์ ๋์์ ์์ ๊ฑฐ๋ฅผ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค โ ์ธ์ง์ ๊ณผ๋ถํ๊ฐ ๊ทน์ฌํ์ฃ .
X-Gen ํจ๋ฐ๋ฆฌ์ ๋ฑ์ฅ๊ณผ ํ๊ณ
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด X-Gen ๊ณ์ด์ ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ์ต๋๋ค. MimicGen, SkillMimicGen, DexMimicGen ๋ฑ์ด ๋ํ์ ์ ๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค:
โ์์์ ์ธ๊ฐ ์์ฐ์ ์จ์(seed)์ผ๋ก ์ผ์, ์๋ฎฌ๋ ์ด์ ์์ ์๋ฐฑ~์์ฒ ๊ฐ์ ์๋ก์ด ๋ณํ์ ์๋ ์์ฑํ์.โ
์ด ์ ๊ทผ๋ฒ์ ๊ณ ์ ๋ ๋ก๋ด ํ์ ๋จ์ ์กฐ์ ์์ ์์๋ ํ๋ฅญํ๊ฒ ์๋ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์กฐ์(Mobile Manipulation)์ผ๋ก ํ์ฅํ๋ ค ํ์ ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ์ ๋ถ๋ชํ์ต๋๋ค:
- ๋๋ฌ์ฑ(Reachability) ๋ฌธ์ : ๋ฌผ์ฒด ์์น๊ฐ ๋๋คํ๋๋ฉด, ์๋ ์์ฐ์ ๋ฒ ์ด์ค ์์น์์๋ ํ์ด ๋ฌผ์ฒด์ ๋ฟ์ง ๋ชปํ ์ ์์ต๋๋ค.
- ๊ฐ์์ฑ(Visibility) ๋ฌธ์ : ์นด๋ฉ๋ผ๊ฐ ๋ก๋ด๊ณผ ํจ๊ป ์์ง์ด๋ฏ๋ก, ์๋ ๊ถค์ ์ ๊ทธ๋๋ก ์ฌ์ํ๋ฉด ์์ ๋์ ๋ฌผ์ฒด๊ฐ ์์ผ์์ ์ฌ๋ผ์ง ์ ์์ต๋๋ค. ์๊ฐ-์ด๋(visuomotor) ์ ์ฑ ์ ํ์ตํ๋ ค๋ฉด ๋ฌผ์ฒด๊ฐ ๋ณด์ฌ์ผ ํฉ๋๋ค!
MoMaGen์ ํต์ฌ ํต์ฐฐ
MoMaGen์ ์ด ๋ฌธ์ ๋ฅผ ์ ์ฝ ์ต์ ํ(Constrained Optimization) ๋ฌธ์ ๋ก ์ฌ์ ์ํฉ๋๋ค. ํต์ฌ ํต์ฐฐ์ ์ด๋ ์ต๋๋ค:
๋ฐ์ดํฐ ์์ฑ์ โ๋ฐ๋์ ์ง์ผ์ผ ํ ๊ฒ(Hard Constraints)โ๊ณผ โ๊ฐ๊ธ์ ์งํค๋ฉด ์ข์ ๊ฒ(Soft Constraints)โ์ผ๋ก ๋๋์ด ์ฒด๊ณ์ ์ผ๋ก ์ ๊ทผํ์.
์ด๊ฒ์ ๋ง์น ์๋ฆฌ ๋ ์ํผ์ ๊ฐ์ต๋๋ค. โ์๊ธ์ ๋ฐ๋์ ๋ฃ์ด์ผ ํ๋ค(hard)โ์ โํ์ฌ๋ฆฌ ๊ฐ๋์๋ ์์ผ๋ฉด ์ข๋ค(soft)โ์ ์ฐจ์ด์ฃ . MoMaGen์ ์ด ๊ตฌ๋ถ์ ํตํด:
- ๋จ 1๊ฐ์ ์ธ๊ฐ ์์ฐ์ผ๋ก
- 4๊ฐ์ง ๋ณต์กํ ์ํ ์ด๋ ์กฐ์ ์์ ์์
- ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํจ์ฌ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์์ฑํ๊ณ
- ์ฑ๊ณต์ ์ธ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ ์ ํ๋ จํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
๋ฐฉ๋ฒ: MoMaGen์ ์๋ ์๋ฆฌ
๋ฌธ์ ์ ์: ๋ฐ์ดํฐ ์์ฑ์ ์ต์ ํ ๋ฌธ์ ๋ก
MoMaGen์ ๊ฐ์ฅ ์ฐ์ํ ์ ์ ๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ๋ค์ ํตํฉํ๋ ์ผ๋ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค๋ ๊ฒ์ ๋๋ค. ๊ฐ ํ์คํฌ๋ฅผ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ , ๋ฐ์ดํฐ ์์ฑ์ ๋ค์๊ณผ ๊ฐ์ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํํฉ๋๋ค:
\arg\min_{a_t \in [T]} \mathcal{L}(\cdot) \quad \text{s.t.} \quad \begin{cases} s_{t+1} = f(s_t, a_t) & \forall t \in [T] \\ G_{\text{kin}}(s_t, a_t) \leq 0 & \text{(์ด๋ํ์ ์ ์ฝ)} \\ G_{\text{coll}}(s_t, a_t) \geq 0 & \text{(์ถฉ๋ ํํผ)} \\ G_{\text{vis}}(s_t, a_t, o_i(t)) \leq 0 & \text{(๊ฐ์์ฑ ์ ์ฝ)} \\ T^{E_k}_W = T^{o_i}_W (T^{o_i,\text{src}}_W)^{-1} T^{E_k}_W & \text{(์ ์ด ๊ถค์ ๋ณํ)} \\ s_t \in D_{\text{success}} & \text{(ํ์คํฌ ์ฑ๊ณต)} \end{cases}
์ฌ๊ธฐ์:
- \mathcal{L}(\cdot): ์ํํธ ์ ์ฝ๋ค์ ๋น์ฉ ํจ์
- f(s_t, a_t): ์์คํ ๋์ญํ
- G_{\text{kin}}: ๊ด์ ํ๊ณ ๋ฑ ์ด๋ํ์ ์ ์ฝ
- G_{\text{coll}}: ์ถฉ๋ ํํผ ์ ์ฝ
- G_{\text{vis}}: ๊ฐ์์ฑ ์ ์ฝ
์ด ํ๋ ์์ํฌ์ ๊ฐ๋ ฅํจ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๋ชจ๋ ์ด ํ ์์์ ํด์๋๋ค๋ ์ ์ ๋๋ค. ์ฐจ์ด๋ ์ด๋ค ์ ์ฝ์ ์ฌ์ฉํ๋๋์ ๋๋ค.
Hard vs Soft ์ ์ฝ: ๋ฌด์์ด ๋ค๋ฅธ๊ฐ?
1. ๋๋ฌ์ฑ์ Hard Constraint๋ก
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๋ฒ ์ด์ค ๊ถค์ ์ ์๋ณธ ์์ฐ์์ ๊ทธ๋๋ก ๋ณต์ฌํ๋ค๋ ์ ์ ๋๋ค. ๋ฌผ์ฒด ์์น๊ฐ ๋ฐ๋๋ฉด? ํ์ด ๋ฟ์ง ์์ต๋๋ค. MoMaGen์ ๋ฒ ์ด์ค ํฌ์ฆ๋ฅผ ๋ฅ๋์ ์ผ๋ก ์ํ๋งํฉ๋๋ค. ์ํ๋ง๋ ๋ฒ ์ด์ค ์์น์์ ๋ชจ๋ ํ์ํ ์๋์ดํํฐ ๊ถค์ ์ด ๋ก๋ด์ ์์ ๊ณต๊ฐ ๋ด์ ์๋์ง ํ์ธํฉ๋๋ค.
2. ์กฐ์ ์ค ๊ฐ์์ฑ์ Hard Constraint๋ก
Visuomotor ์ ์ฑ ์ ๋์ผ๋ก ๋ณด๊ณ ํ๋ํฉ๋๋ค. ๋ฌผ์ฒด๊ฐ ์ ๋ณด์ด๋ฉด ์ ์ฑ ์ด ๋ฌด์์ ํด์ผ ํ ์ง ๋ชจ๋ฆ ๋๋ค. ๋ฐ๋ผ์ ์กฐ์ ์ง์ ๊ณผ ์กฐ์ ์ค์๋ ์์ ๊ด๋ จ ๋ฌผ์ฒด๊ฐ ๋ฐ๋์ ์นด๋ฉ๋ผ ์์ผ์ ์์ด์ผ ํฉ๋๋ค.
3. ์ด๋ ์ค ๊ฐ์์ฑ์ Soft Constraint๋ก
๋ก๋ด์ด ๋ชฉํ ์์น๋ก ์ด๋ํ๋ ๋์์๋ ๋ฌผ์ฒด๋ฅผ ๊ณ์ ๋ฐ๋ผ๋ณด๋ ๊ฒ์ด ์ข์ต๋๋ค. ํ์ง๋ง ์ด๊ฒ์ ํ์๋ ์๋๋๋ค โ ๋๋ก๋ ์ฅ์ ๋ฌผ์ ํผํ๊ธฐ ์ํด ์ ์ ์์ ์ ๋๋ ค์ผ ํ ์๋ ์์ฃ . ๋ฐ๋ผ์ soft constraint๋ก ์ฒ๋ฆฌํ์ฌ, ๊ฐ๋ฅํ๋ฉด ๋ฌผ์ฒด๋ฅผ ๋ณด๋ ๋ถ๊ฐ๋ฅํ๋ฉด ํฌ๊ธฐํฉ๋๋ค.
4. ์์ถ(Retraction)์ Soft Constraint๋ก
์กฐ์์ ๋ง์น ํ, ๋ก๋ด์ด ํ๊ณผ ๋ชธํต์ ์ปดํฉํธํ๊ฒ ์ ๋ ๊ฒ์ด ์ข์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด:
- ๋ค์ ์ด๋ ์ ์ถฉ๋ ์ํ ๊ฐ์
- ๋ชจ์ ํ๋๋์ด ๋ ์ฌ์์ง
ํ์ง๋ง ํญ์ ๊ฐ๋ฅํ์ง๋ ์์ผ๋ฏ๋ก soft constraint์ ๋๋ค.
์๊ณ ๋ฆฌ์ฆ ์์ธ ๋ถ์
MoMaGen์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ ๋จ๊ณ๋ณ๋ก ์ดํด๋ด ์๋ค:
flowchart TD
A["๐ฅ ์
๋ ฅ: ์๋ณธ ์์ฐ + ์๋ก์ด ์ด๊ธฐ ์ํ"] --> B["1๏ธโฃ ์๋ธํ์คํฌ๋ณ ๋ฐ๋ณต ์์"]
B --> C["2๏ธโฃ ํ์ฌ ๋ฒ ์ด์ค/์นด๋ฉ๋ผ/๊ด์ ์ํ ํ๋"]
C --> D{"3๏ธโฃ ์ก๊ณ ์์ด์ผ ํ <br/>๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์๋?"}
D -->|No| E["โ ์ค๋จ (์ด์ ๊ทธ๋ฆฝ ์คํจ)"]
D -->|Yes| F["4๏ธโฃ ์ ๋ฌผ์ฒด ์์น๋ก<br/>์๋์ดํํฐ ํฌ์ฆ ๋ณํ"]
F --> G{"5๏ธโฃ ํ์ฌ ์์น์์<br/>๊ฐ์์ฑ + IK ํ์ธ"}
G -->|Pass| H["โ
๋ฐ๋ก ์กฐ์ ๋จ๊ณ๋ก"]
G -->|Fail| I["6๏ธโฃ ์ํ๋ง ๋ฃจํ ์ง์
"]
I --> J["์ ๋ฒ ์ด์ค ํฌ์ฆ ์ํ๋ง"]
J --> K["์ ์นด๋ฉ๋ผ ํฌ์ฆ ์ํ๋ง"]
K --> L["IK๋ก ํ/๋ชธํต ํ์ธ"]
L --> M{"์ ์ฝ ๋ง์กฑ?"}
M -->|No| I
M -->|Yes| N["7๏ธโฃ ๋ฒ ์ด์ค ์ด๋ ๊ณํ<br/>(soft visibility ์ ์ฉ)"]
N --> H
H --> O["8๏ธโฃ ํ๋ฆฌ๊ทธ๋ฉ ํฌ์ฆ๋ก<br/>๋ชจ์
ํ๋๋"]
O --> P["9๏ธโฃ ํ์คํฌ ๊ณต๊ฐ ์ ์ด๋ก<br/>์ ์ด ๋์ ์ฌ์"]
P --> Q["๐ ์์ถ ์๋"]
Q --> R{"๋ค์ ์๋ธํ์คํฌ?"}
R -->|Yes| B
R -->|No| S["๐ค ์ถ๋ ฅ: ์์ฑ๋ ์์ฐ"]
Pseudocode
Algorithm: MoMaGen
Input: original_demo, new_initial_state sโ
Output: generated_demo
for each segment do:
1. Get current T_base, T_cam, q_torso, q_arm
2. if held_object not in hand: abort (previous grasp failed)
3. Compute transformed EEF pose using new target object pose
4. Check visibility of target object with T_cam
5. Solve IK for arm trajectory with current T_base, T_cam
while not visible OR no IK exists:
6. Sample new base pose T_base
7. Sample new camera pose T_cam
8. Solve IK for arm and torso with sampled poses
9. Plan motion for torso from current to sampled pose
(with soft visibility cost during navigation)
10. Plan motion for arm from previous to pregrasp pose
11. Execute EEF trajectory in task space (contact-rich motion)
12. Attempt retraction to tucked configuration
return generated_demo
ํต์ฌ ๊ธฐ์ ์ ํ์
MoMaGen์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ฐจ๋ณํ๋๋ ๋ค ๊ฐ์ง ํต์ฌ ํ์ ์ ์ ๋ฆฌํ๋ฉด:
| ํ์ | ์ค๋ช | ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ์ฐจ์ด |
|---|---|---|
| ์ ์ ์ด๋(Full-body Motion) | ์๋์ดํํฐ T_{\text{eef}}, ์นด๋ฉ๋ผ T_{\text{cam}}, ๋ฒ ์ด์ค T_{\text{base}}๋ฅผ ๋์์ ๊ณ ๋ ค | ๊ธฐ์กด: ์๋์ดํํฐ๋ง ๊ณ ๋ ค |
| ๊ฐ์์ฑ ๋ณด์ฅ | ์กฐ์ ์ /์ค ํ๋ ์ ์ฝ + ์ด๋ ์ค ์ํํธ ์ ์ฝ | ๊ธฐ์กด: ๊ฐ์์ฑ ๊ณ ๋ ค ์์ |
| ํ์ฅ๋ ์์ ๊ณต๊ฐ | ๋ชฉํ ๋ฌผ์ฒด ๊ทผ์ฒ์์ ๋ฒ ์ด์ค ํฌ์ฆ ๋ฅ๋ ์ํ๋ง | ๊ธฐ์กด: ์๋ณธ ๋ฒ ์ด์ค ๊ถค์ ๋ณต์ฌ |
| ํจ์จ์ ์์ฑ | IK ์ฐ์ ํํฐ๋ง + ๋ถ๋ถ๊ณต๊ฐ ๋ถํด ์ํ๋ง | ๊ธฐ์กด: ์ ์ฒด ๋ชจ์ ํ๋๋ ์ง์ ์๋ |
๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋น๊ต
MoMaGen์ ํตํฉ ํ๋ ์์ํฌ ๊ด์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋น๊ตํ๋ฉด:
| ๋ฐฉ๋ฒ | ์ํ | ์ด๋ | ์ฅ์ ๋ฌผ | ๋ฒ ์ด์ค ๋๋คํ | ๋ฅ๋ ์ธ์ | Hard ์ ์ฝ | Soft ์ ์ฝ |
|---|---|---|---|---|---|---|---|
| MimicGen | โ | โ | โ | โ | โ | Succ | - |
| SkillMimicGen | โ | โ | โ | โ | โ | Succ, Kin, C-Free | - |
| DexMimicGen | โ | โ | โ | โ | โ | Succ, Temp | - |
| DemoGen | โ | โ | โ | โ | โ | Kin, C-Free | - |
| PhysicsGen | โ | โ | โ | โ | โ | Kin, C-Free, Dyn | Trac |
| MoMaGen | โ | โ | โ | โ | โ | Succ, Kin, C-Free, Temp, Vis | Vis, Ret |
Succ: ํ์คํฌ ์ฑ๊ณต, Kin: ์ด๋ํ์ ํ๋น์ฑ, C-Free: ์ถฉ๋ ํํผ, Temp: ์ํ ์๊ฐ ๋๊ธฐํ, Dyn: ๋์ญํ, Trac: ๊ถค์ ์ถ์ , Vis: ๊ฐ์์ฑ, Ret: ์์ถ
์คํ: MoMaGen์ ์ผ๋ง๋ ์ ์๋ํ๋๊ฐ?
์คํ ํ๊ฒฝ
ํ์คํฌ ์ค์
MoMaGen์ BEHAVIOR-1K ๋ฒค์น๋งํฌ์์ ์๊ฐ์ ๋ฐ์ 4๊ฐ์ง ๊ฐ์ ์์ ์์ ํ๊ฐ๋์์ต๋๋ค. ๋ชจ๋ OmniGibson ์๋ฎฌ๋ ์ดํฐ์์ ๊ตฌํ๋์์ต๋๋ค.
flowchart LR
subgraph Tasks["4๊ฐ์ง ํ๊ฐ ํ์คํฌ"]
T1["Pick Cup"]
T2["Tidy Table"]
T3["Put Dishes Away"]
T4["Clean Frying Pan"]
end
T1 --> T2 --> T3 --> T4
T4 -->|๋ณต์ก๋ ์ฆ๊ฐ| Result["๋ณต์กํ ์ํ ๋๊ธฐ ์กฐ์"]
๊ฐ ํ์คํฌ์ ํน์ฑ:
| ํ์คํฌ | ํ ์ฌ์ฉ | ์กฐ์ ์ ํ | ์ด๋ ๋น์จ | ๋์ด๋ |
|---|---|---|---|---|
| Pick Cup | ๋จ์ผ | ์ง๊ธฐ | ~45% | โญ |
| Tidy Table | ๋จ์ผ | ์ง๊ธฐ โ ๋๊ธฐ | ~45% | โญโญ |
| Put Dishes Away | ์ํ (๋น๋๊ธฐ) | ์ง๊ธฐ โ ์๊ธฐ | ~45% | โญโญโญ |
| Clean Frying Pan | ์ํ (๋๊ธฐ) | ์ก๊ธฐ + ๋ฌธ์ง๋ฅด๊ธฐ | ~45% | โญโญโญโญ |
๋๋ฉ์ธ ๋๋คํ ์์ค
MoMaGen์ ๊ฐ๊ฑด์ฑ์ ํ ์คํธํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์์ค์ ๋๋คํ๊ฐ ์ ์ฉ๋์์ต๋๋ค:
| ์์ค | ๋ฌผ์ฒด ์์น | ๋ฌผ์ฒด ๋ฐฉํฅ | ์ถ๊ฐ ์ฅ์ ๋ฌผ |
|---|---|---|---|
| D0 | ยฑ15cm | ยฑ15ยฐ | โ |
| D1 | ๊ฐ๊ตฌ ์ ์ฒด ๋ฒ์ | [-ฯ, ฯ] | โ |
| D2 | ๊ฐ๊ตฌ ์ ์ฒด ๋ฒ์ | [-ฯ, ฯ] | โ (๋ฐ๋ฅ + ๊ฐ๊ตฌ ์) |
D2 ์์ค์ ๋๋คํ๋ ๊ธฐ์กด ์ด๋ค ๋ฐฉ๋ฒ๋ ์๋ํ์ง ์์ ์์ค์ ๋๋ค. MoMaGen๋ง์ด ์ด ๊ทน๋จ์ ์ธ ์๋๋ฆฌ์ค์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ 1: ๋ฐ์ดํฐ ๋ค์์ฑ
MoMaGen์ด ์์ฑํ๋ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ๋ค์ํ์ง ์ดํด๋ด ์๋ค.
๋ฒ ์ด์ค ํฌ์ฆ ๋ค์์ฑ
Tidy Table ํ์คํฌ์์ 50๊ฐ ๊ถค์ ์ ์๊ฐํํ๋ฉด:
- SkillMimicGen (D0): ๋ฒ ์ด์ค ํฌ์ฆ๊ฐ ์๋ณธ ์์ฐ ๊ทผ์ฒ์ ๋ฐ์ง
- MoMaGen (D0): ๋ ๋์ ๋ฒ์์ ๋ถ์ฐ
- MoMaGen (D1): ์ ์ฒด ๊ฐ๊ตฌ ๋ฒ์๋ฅผ ์ปค๋ฒ (๊ธฐ์กด ๋ฐฉ๋ฒ ๋ถ๊ฐ)
์๋์ดํํฐ ๋ฐ ๊ด์ ๋ค์์ฑ
๋ฒ ์ด์ค ํฌ์ฆ์ ๋ค์์ฑ์ ์์ฐ์ค๋ฝ๊ฒ ์๋์ดํํฐ ํฌ์ฆ์ ๊ด์ ์์น์ ๋ค์์ฑ์ผ๋ก ์ด์ด์ง๋๋ค. PCA 2D ํฌ์์์ MoMaGen์ ๋ฐ์ดํฐ๋ ํจ์ฌ ๋์ ์์ญ์ ์ปค๋ฒํฉ๋๋ค.
์ง๊ด์ ํด์: ๊ฐ์ ์ปต์ ์ง์ด๋, ๋ค์ํ ์์น์์ ๋ค์ํ ์์ธ๋ก ์ง๋ ๊ฒฝํ์ ํตํด ๋ก๋ด์ ๋ ์ผ๋ฐํ๋ ์ ์ฑ ์ ํ์ตํ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ 2: ๋ฐ์ดํฐ ์์ฑ ์ฑ๊ณต๋ฅ
| ๋ฐฉ๋ฒ | Pick Cup | Tidy Table | Put Dishes | Clean Pan | ํ๊ท |
|---|---|---|---|---|---|
| D0 | |||||
| MoMaGen | 0.86 | 0.80 | 0.38 | 0.51 | 0.64 |
| SkillMimicGen | 1.00 | 0.69 | 0.38 | 0.40 | 0.62 |
| DexMimicGen | 1.00 | 0.72 | 0.38 | 0.35 | 0.61 |
| D1 | |||||
| MoMaGen | 0.60 | 0.64 | 0.34 | 0.20 | 0.45 |
| Baselines | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| D2 | |||||
| MoMaGen | 0.47 | 0.22 | 0.07 | 0.16 | 0.23 |
| Baselines | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
ํต์ฌ ๊ด์ฐฐ:
- ๋จ์ํ ํ์คํฌ(Pick Cup)์์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ ๋๋ค.
- ๋ณต์กํ ํ์คํฌ(Clean Frying Pan)์์๋ ๋ฒ ์ด์ค ์ ์์ด ํ์ํ์ฌ MoMaGen์ด ์ฐ์๋ฅผ ์ ํฉ๋๋ค.
- D1/D2 ๋๋คํ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ 0% ์ฑ๊ณต๋ฅ โ ๋ฌผ์ฒด๊ฐ ์๋ ๋ฒ ์ด์ค ์์น์ ๋๋ฌ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ฒฐ๊ณผ 3: ๋ฌผ์ฒด ๊ฐ์์ฑ
Visuomotor ์ ์ฑ ํ์ต์์ ๊ฐ์์ฑ์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด๋ ์ค ๋ฌผ์ฒด๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ณด์ด๋์ง ์ธก์ ํ์ต๋๋ค.
| ๋ฐฉ๋ฒ | Pick Cup | Tidy Table | Put Dishes | Clean Pan |
|---|---|---|---|---|
| D0 | ||||
| MoMaGen | 1.00 | 0.86 | 0.79 | 0.69 |
| SkillMimicGen | 1.00 | 0.40 | 0.71 | 0.65 |
| w/o soft vis | 1.00 | 0.63 | 0.62 | 0.56 |
| w/o hard vis | 0.98 | 0.63 | 0.68 | 0.55 |
| w/o all vis | 0.90 | 0.46 | 0.40 | 0.35 |
| D1 | ||||
| MoMaGen | 0.93 | 0.89 | 0.78 | 0.80 |
| w/o all vis | 0.71 | 0.46 | 0.40 | 0.43 |
MoMaGen์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ๊ฐ์์ฑ์ ๊ฑฐ์ 2๋ฐฐ ํฅ์์ํต๋๋ค. ํนํ Tidy Table์์ 40% โ 86%๋ก ๊ทน์ ์ธ ๊ฐ์ ์ด ์์ต๋๋ค.
๊ฒฐ๊ณผ 4: ์ ์ฑ ํ์ต ์ฑ๋ฅ
์์ฑ๋ ๋ฐ์ดํฐ๋ก ์ค์ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ ์ ํ๋ จํ๋ฉด ์ด๋ค ๊ฒฐ๊ณผ๊ฐ ๋์ฌ๊น์?
์คํ ์ค์
- WB-VIMA: Point cloud ๊ธฐ๋ฐ, ๋จ์ผ ํ์คํฌ ์ ์ฑ , ์ฒ์๋ถํฐ ํ๋ จ
- ฯ0: RGB ๊ธฐ๋ฐ, ์ฌ์ ํ๋ จ ๋ชจ๋ธ์์ LoRA ํ์ธํ๋
์ฃผ์ ๋ฐ๊ฒฌ
- ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ ์ํฅ
- Pick Cup (D0): ๋จ์ํ๋ฏ๋ก ๋ชจ๋ ๋ฐฉ๋ฒ ๋น์ท (๋ฒ ์ด์ค ๊ถค์ ๋ณต์ฌ๋ก ์ถฉ๋ถ)
- Tidy Table (D0): MoMaGen์ด ๋ช ํํ ์ฐ์ โ ๊ธด ์ด๋ ๊ตฌ๊ฐ์์ ๊ณผ์ ํฉ ๋ฐฉ์ง
- Pick Cup (D1): MoMaGen๋ง ์ฑ๊ณต (๊ธฐ์กด ๋ฐฉ๋ฒ์ D0 ๋ฐ์ดํฐ๋ก๋ D1 ์ผ๋ฐํ ๋ถ๊ฐ)
- ๊ฐ์์ฑ ์ ์ฝ์ ์ํฅ
- Pick Cup (D0): ๊ฐ์์ฑ ablation ์ 0.75 โ 0.45~0.65๋ก ํ๋ฝ
- Tidy Table (D0): 0.40 โ 0.05๋ก ๊ธ๋ฝ (๊ฐ์์ฑ์ด ๋งค์ฐ ์ค์!)
- ๋ค์ํ IL ๋ฐฉ๋ฒ์ ๋ํ ํธํ์ฑ
- WB-VIMA์ ฯ0 ๋ชจ๋์์ MoMaGen ๋ฐ์ดํฐ๊ฐ ํจ๊ณผ์
- ๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ๊ฐ ํน์ ์ ์ฑ ์ํคํ ์ฒ์ ์ข ์๋์ง ์์
๊ฒฐ๊ณผ 5: Sim-to-Real ์ ์ด
์ค์ ๋ก๋ด(Galexea R1)์์์ ์คํ ๊ฒฐ๊ณผ:
| ํ๋ จ ๋ฐฉ์ | Validation Loss (35k steps) |
|---|---|
| ์ฒ์๋ถํฐ ํ๋ จ (40 real demos) | ~6.0 |
| ์๋ฎฌ ์ฌ์ ํ๋ จ + ํ์ธํ๋ | ~3.0 |
์๋ฎฌ๋ ์ด์ ์์ MoMaGen์ผ๋ก ์์ฑ๋ 1000๊ฐ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ ํ, ๋จ 40๊ฐ์ ์ค์ ์์ฐ์ผ๋ก ํ์ธํ๋ํ๋ฉด 2๋ฐฐ ๋น ๋ฅธ ์๋ ด๊ณผ ๋ ๋ฎ์ loss๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
๊ฒฐ๊ณผ 6: Cross-Embodiment ๋ฐ์ดํฐ ์์ฑ
MoMaGen์ ๋ ๋ค๋ฅธ ๊ฐ์ ์ ๋ก๋ด ๊ฐ ์ ์ด์ ๋๋ค. Galexea R1์์ ์์งํ ์์ฐ์ TIAGo ๋ก๋ด์ฉ ๋ฐ์ดํฐ๋ก ๋ณํํ ์ ์์ต๋๋ค. ๋น๊ฒฐ์ ๊ด์ ๊ณต๊ฐ(joint space)์ด ์๋ ํ์คํฌ ๊ณต๊ฐ(task space)์์ ๊ถค์ ์ ๊ณํํ๊ณ ์ฌ์ํ๋ ๊ฒ์ ๋๋ค. ์๋์ดํํฐ์ SE(3) ๊ถค์ ์ ๋ณด์กดํ๋ฏ๋ก ๋ก๋ด๋ณ ์ด๋ํ์ ํฌ๊ฒ ์์กดํ์ง ์์ต๋๋ค.
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ํตํฉ ํ๋ ์์ํฌ: ๊ธฐ์กด X-Gen ๋ฐฉ๋ฒ๋ค์ ํ๋์ ์ ์ฝ ์ต์ ํ ๊ด์ ์์ ํด์ํ ์ ์๋ ์ผ๋ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ ํฅํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
- ์ค์ฉ์ ๋ฌธ์ ํด๊ฒฐ: ๋๋ฌ์ฑ๊ณผ ๊ฐ์์ฑ์ด๋ผ๋ ์ด๋ ์กฐ์์ ํต์ฌ ๋ฌธ์ ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ค๋ฃน๋๋ค. ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ ๋๋ค.
- ๊ทน๋จ์ ๋๋คํ ์ฒ๋ฆฌ: D2 ์์ค์ ์ฅ์ ๋ฌผ ์ถ๊ฐ์ ์์ ๋ก์ด ๋ฌผ์ฒด ๋ฐฐ์น๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ์ ์ผํ ๋ฐฉ๋ฒ์ ๋๋ค.
- ๋จ์ผ ์์ฐ์ผ๋ก ์ถฉ๋ถ: ๋น์ผ ์ธ๊ฐ ์์ฐ์ ๋จ 1๊ฐ๋ง ์์งํ๋ฉด ๋ฉ๋๋ค. ์ด๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ๊ทน์ ์ผ๋ก ์ค์ ๋๋ค.
- Cross-Embodiment ๊ฐ๋ฅ์ฑ: ํ์คํฌ ๊ณต๊ฐ ๊ถค์ ์ฌ์์ ํตํด ๋ก๋ด ๊ฐ ๋ฐ์ดํฐ ์ ์ด๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ
- ์์ ํ ์ฅ๋ฉด ์ ๋ณด ํ์: ์๋ฎฌ๋ ์ด์ ์์๋ ground truth ๋ฌผ์ฒด ํฌ์ฆ๋ฅผ ์ ์ ์์ง๋ง, ์ค์ ์ธ๊ณ์์๋ ์ด๋ฅผ ์ด๋ป๊ฒ ์ป์ ๊ฒ์ธ๊ฐ? ์ ์๋ค์ SAM2 ๊ฐ์ ๋น์ ๋ชจ๋ธ ์ฌ์ฉ์ ์ ์ํ์ง๋ง, ์ด๋ ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ์ ๋๋ค.
- ์ด๋-์กฐ์ ๋ฒ๊ฐ์ ๊ฐ๊ธฐ ๊ฐ์ : ํ์ฌ ํ๋ ์์ํฌ๋ โ์ด๋ โ ์กฐ์ โ ์ด๋ โ ์กฐ์โ ํจํด์ ๊ฐ์ ํฉ๋๋ค. ๋ฌธ์ ๋ฐ๋ฉด์ ๋์์ ๊ฑท๋ whole-body manipulation์ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ์ง ์์ต๋๋ค (ํ์ฅ ๊ฐ๋ฅํ๋ค๊ณ ์ธ๊ธ์ ํจ).
- ๊ณ์ฐ ๋น์ฉ: GPU ๊ฐ์ ๋ชจ์ ์ ๋๋ ์ดํฐ(cuRobo)๊ฐ ํ์ํ๋ฉฐ, ํ์คํฌ๋น 0.1~1.3 GPU ์๊ฐ์ด ์์๋ฉ๋๋ค. ๋ณต์กํ ํ์คํฌ(Put Dishes Away)์์๋ ์๋นํ ๊ณ์ฐ ์์์ด ํ์ํฉ๋๋ค.
- ์๋ ์๋ธํ์คํฌ ์ด๋ ธํ ์ด์ : ๊ฐ ์์ฐ์ ์๋ธํ์คํฌ๋ก ๋ถํ ํ๊ณ ์ด๋ ธํ ์ด์ ํด์ผ ํฉ๋๋ค. ์ด ๊ณผ์ ์ด ์ผ๋ง๋ ๋ ธ๋ ์ง์ฝ์ ์ธ์ง, ์๋ํ ๊ฐ๋ฅํ์ง์ ๋ํ ๋ ผ์๊ฐ ๋ถ์กฑํฉ๋๋ค.
- ์ค์ ๋ก๋ด ์คํ์ ์ ํ์ฑ: Sim-to-real ๊ฒฐ๊ณผ๊ฐ ์ ์๋์์ง๋ง, ๋จ์ผ ํ์คํฌ(Pick Cup)์ ๊ตญํ๋ฉ๋๋ค. ๋ ๋ณต์กํ ์ํ ํ์คํฌ์์์ ์ค์ ๋ก๋ด ์ฑ๋ฅ์ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
์ด๋ฆฐ ์ง๋ฌธ๋ค
- ์ด๋ ธํ ์ด์ ์๋ํ: VLM์ ํ์ฉํ์ฌ ์์ฐ์ ์๋์ผ๋ก ์๋ธํ์คํฌ๋ก ๋ถํ ํ ์ ์์๊น์?
- ๋์ ํ๊ฒฝ: ์์ง์ด๋ ๋ฌผ์ฒด๋ ์ฌ๋์ด ์๋ ํ๊ฒฝ์์๋ ์ด๋ป๊ฒ ๋ ๊น์?
- ์ด๊ฐ ํผ๋๋ฐฑ: ์ ์ด์ด ํ๋ถํ ์กฐ์์์ ์ด๊ฐ ์ผ์๋ฅผ ์ด๋ป๊ฒ ํตํฉํ ์ ์์๊น์?
- ์ฅ๊ธฐ ์์กด์ฑ: ์์ญ ๋จ๊ณ์ ๋งค์ฐ ๊ธด ํ์คํฌ์์๋ ์ด ์ ๊ทผ๋ฒ์ด ํ์ฅ๋ ๊น์?
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
๋ฐ์ดํฐ ์ฆ๊ฐ vs ๋ฐ์ดํฐ ์์ฑ
| ์ ๊ทผ๋ฒ | ๋ฐฉ๋ฒ | ์ฅ์ | ๋จ์ |
|---|---|---|---|
| ์ด๋ฏธ์ง ์ฆ๊ฐ | RAD, DrQ | ๊ตฌํ ๊ฐ๋จ | ํ๋ ๋ณํ ์์ |
| ์์ฑ ๋ชจ๋ธ | GenAug | ์๋ก์ด ์๊ฐ์ ๋ณํ | ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๋ณด์ฅ ์ด๋ ค์ |
| ๊ถค์ ์ฆ๊ฐ | ๊ธฐ์กด X-Gen | ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํจ | ์ ์ ์กฐ์์ ํ์ |
| MoMaGen | ์ ์ฝ ์ต์ ํ | ์ด๋+์ํ+์ฅ์ ๋ฌผ | ๊ณ์ฐ ๋น์ฉ ๋์ |
Mobile ALOHA์์ ๋น๊ต
Mobile ALOHA๋ ์ ๋น์ฉ ์ ์ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ๋๋ค. MoMaGen๊ณผ์ ๊ด๊ณ:
- ์ํธ ๋ณด์์ : Mobile ALOHA๋ก ์์์ ์์ฐ ์์ง โ MoMaGen์ผ๋ก ๋๊ท๋ชจ ์ฆ๊ฐ
- ๋ฐ์ดํฐ ํจ์จ์ฑ: MoMaGen์ Mobile ALOHA ์์ฐ 1๊ฐ๋ก 1000๊ฐ+ ๋ฐ์ดํฐ ์์ฑ ๊ฐ๋ฅ
- ๋ณต์ก๋ ์ฒ๋ฆฌ: MoMaGen์ ๋ ๊ทน๋จ์ ์ธ ์ฅ๋ฉด ๋ณํ ์ฒ๋ฆฌ ๊ฐ๋ฅ
DemoGen๊ณผ์ ๋น๊ต
DemoGen์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ์ 3D ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ ๋๋ค:
- MoMaGen์ ์ฐจ๋ณ์ : ์ด๋ ๋ฒ ์ด์ค์ ๋ฅ๋ ์นด๋ฉ๋ผ๋ฅผ ๋ช ์์ ์ผ๋ก ๋ค๋ฃธ
- ํตํฉ ๊ฐ๋ฅ์ฑ: DemoGen์ 3D ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๊ณผ MoMaGen์ ์ ์ฝ ํ๋ ์์ํฌ๋ฅผ ๊ฒฐํฉํ ์ ์์ ๊ฒ
์์ฝ ๋ฐ ๊ฒฐ๋ก
ํต์ฌ ๊ธฐ์ฌ ์ ๋ฆฌ
mindmap
root((MoMaGen))
ํตํฉ ํ๋ ์์ํฌ
X-Gen ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐํ
Hard/Soft ์ ์ฝ ๊ตฌ๋ถ
ํ์ฅ ๊ฐ๋ฅํ ๊ธฐ๋ฐ
๊ธฐ์ ์ ํ์
๋๋ฌ์ฑ Hard ์ ์ฝ
๊ฐ์์ฑ ์ ์ฝ (Hard+Soft)
์์ถ Soft ์ ์ฝ
ํจ์จ์ ์ํ๋ง
์ค์ฆ ๊ฒฐ๊ณผ
4๊ฐ์ง ๋ณต์กํ ํ์คํฌ
3๋จ๊ณ ๋๋ฉ์ธ ๋๋คํ
2๋ฐฐ ํฅ์๋ ๊ฐ์์ฑ
๋จ์ผ ์์ฐ์ผ๋ก ์ถฉ๋ถ
์ค์ฉ์ ๊ฐ์น
Sim-to-Real ์ ์ด
Cross-Embodiment
๋ค์ํ IL ๋ฐฉ๋ฒ ํธํ
๋ก๋ด๊ณตํ์์๊ฒ ์ฃผ๋ ์์ฌ์
๋ฐ์ดํฐ ์์ฑ์ ์ง์งํ๊ฒ ๊ณ ๋ คํ์ธ์: ๋ฌด์์ ๋ ๋ง์ ์์ฐ์ ์์งํ๊ธฐ๋ณด๋ค, ์์์ ๊ณ ํ์ง ์์ฐ์ ์ง๋ฅ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฒ์ด ๋ ํจ์จ์ ์ผ ์ ์์ต๋๋ค.
์ ์ฝ์ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ์ธ์: โ๋๋ฌํ ์ ์๋๊ฐ?โ, โ๋ณผ ์ ์๋๊ฐ?โ์ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ ์ง๋ฌธ๋ค์ด ์ข ์ข ๊ฐ๊ณผ๋ฉ๋๋ค. MoMaGen์ ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ ์ข์ ์์ ๋๋ค.
Hard vs Soft ๊ตฌ๋ถ์ด ์ค์ํฉ๋๋ค: ๋ชจ๋ ์ ์ฝ์ ๋๋ฑํ๊ฒ ์ทจ๊ธํ์ง ๋ง์ธ์. ์ด๋ค ๊ฒ์ ๋ฐ๋์ ๋ง์กฑํด์ผ ํ๊ณ , ์ด๋ค ๊ฒ์ ๊ฐ๊ธ์ ๋ง์กฑํ๋ฉด ๋ฉ๋๋ค.
์๋ฎฌ๋ ์ด์ ์ ๊ฐ์น๋ฅผ ์ฌํ๊ฐํ์ธ์: Sim-to-real gap์ด ์์ง๋ง, ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ๋ก์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๋ ์ฌ์ ํ ํฐ ๊ฐ์น๊ฐ ์์ต๋๋ค.
๋ง๋ฌด๋ฆฌ
MoMaGen์ โ๋ ๋ง์ ๋ฐ์ดํฐ vs ๋ ๋๋ํ ๋ฐ์ดํฐโ ๋ ผ์์์ ํ์์ ์์ ๋ค์ด์ค๋๋ค. ๋จ ํ๋์ ์ธ๊ฐ ์์ฐ์์ ์์ํ์ฌ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ๊ณ ํ์ต์ ์ ์ฉํ ์์ฒ ๊ฐ์ ๋ณํ์ ๋ง๋ค์ด๋ผ ์ ์๋ค๋ฉด, ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ๋ณ๋ชฉ ํ์์ ํฌ๊ฒ ์ํํ ์ ์์ต๋๋ค.
๋ฌผ๋ก ์๋ฒฝํ์ง๋ ์์ต๋๋ค. ์ค์ ์ธ๊ณ์ ๋ณต์ก์ฑ, ๊ณ์ฐ ๋น์ฉ, ์ด๋ ธํ ์ด์ ๋ ธ๋ ฅ ๋ฑ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๊ฐ ๋จ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ MoMaGen์ด ์ ์ํ ์ ์ฝ ์ต์ ํ ํ๋ ์์ํฌ๋ ์ด๋ ์กฐ์ ๋ฐ์ดํฐ ์์ฑ์ ์์น์ ์ธ ์ ๊ทผ๋ฒ์ ์ ๊ณตํ๋ฉฐ, ํฅํ ์ฐ๊ตฌ์ ํผํผํ ๊ธฐ๋ฐ์ด ๋ ๊ฒ์ ๋๋ค.
๋ก๋ด์๊ฒ ๋ณต์กํ ๊ฐ์ฌ ์์ ์ ๊ฐ๋ฅด์น๋ ๊ฟ์ด ์กฐ๊ธ ๋ ๊ฐ๊น์์ก์ต๋๋ค. ํ ๋ฒ์ ์์ฐ์ผ๋ก ์ฒ ๋ฒ์ ๊ฒฝํ์ โ MoMaGen์ด ๊ทธ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Li, C., Xu, M., Bahety, A., Yin, H., et al. (2025). MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation. RSS 2025 Workshop.
- Mandlekar, A., et al. (2023). MimicGen: A Data Generation System for Scalable Robot Learning Using Human Demonstrations. CoRL 2023.
- Garrett, C. R., et al. (2024). SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment. CoRL 2024.
- Jiang, Z., et al. (2025). DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning. ICRA 2025.
- Fu, Z., Zhao, T., & Finn, C. (2024). Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. arXiv.
- Black, K., et al. (2024). ฯโ: A Vision-Language-Action Flow Model for General Robot Control. arXiv.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
MoMaGen ์ฌ์ธต ๋ฆฌ๋ทฐ: โ์ ์ฝ(Constraints)์ผ๋ก ์์ฐ์ โ์ ์กฐโํด์, ์์ ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ด์ ์ ์ค์ผ์ผ์ ํ๋คโ
์๋ก : ์ โ์์ + ์ด๋โ์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํนํ ๋น์ผ๊ฐ?
๋ก๋ด ํ์ต(ํนํ imitation learning)์์ ๋๊ท๋ชจยท๋ค์ํ ์ธ๊ฐ ์์ฐ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ฐ์ฅ ํ์คํ ์ฐ๋ฃ์ ๋๋ค. ํ์ง๋ง multi-step bimanual mobile manipulation(์ฌ๋ฌ ๋จ๊ณ, ์ํ, ๋ชจ๋ฐ์ผ ๋ฒ ์ด์ค ํฌํจ)์์๋ ๊ทธ ์ฐ๋ฃ๊ฐ์ด ํญ๋ฑํฉ๋๋ค. ์ฌ๋์ ๋ฒ ์ด์ค(๋ด๋น๊ฒ์ด์ ) + ์ํ(๊ณ ์์ ๋) + ๋๋ก๋ ์์ผ(ํค๋/์นด๋ฉ๋ผ)๊น์ง ๋์์ ์๊ฒฉ์กฐ์ํด์ผ ํ๋๊น์. ์ ์๋ค๋ ์ด โ์กฐ์ ๊ณผ๋ถํโ๊ฐ ํ ๋ ์ต ๋ฐ์ดํฐ ์์ง์ ๋งค์ฐ ์ด๋ ต๊ฒ ๋ง๋ ๋ค๊ณ ์ ์ ํฉ๋๋ค.
๊ทธ๋ผ โ์๋ฎฌ๋ ์ด์ ์์ ๋ฐ์ดํฐ ์ฆ๊ฐํ๋ฉด ๋์ง ์๋?โ๊ฐ ์์ฐ์ค๋ฌ์ด ๋ค์ ์ง๋ฌธ์ธ๋ฐ, ๊ธฐ์กด X-Gen ๊ณ์ด(MimicGen/SkillMimicGen/DexMimicGen/DemoGen/PhysicsGen ๋ฑ)์ ์ฃผ๋ก ์ ์ (table-top) ๋๋ ๊ณ ์ ๋ฒ ์ด์ค ์ค์ฌ์์ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์๊ณ , ๋ชจ๋ฐ์ผ๋ก ํ์ฅ๋ ๋ ๋ ๊ฐ์ง๊ฐ ๋ฒฝ์ด ๋ฉ๋๋ค:
- Reachability(๋๋ฌ ๊ฐ๋ฅ์ฑ): ๋ฌผ์ฒด ๋ฐฐ์น๊ฐ ๋ฐ๋๋ฉด, ์๋ ๋ฐ๋ชจ์ ๋ฒ ์ด์ค ๊ฒฝ๋ก๋ฅผ ๊ทธ๋๋ก replay ํ์ ๋ ๋ค์ ์กฐ์์ด ํ ์์ ๊ณต๊ฐ ๋ฐ์ผ๋ก ํ์ด๋๊ฐ ์คํจํ๊ธฐ ์ฝ์ต๋๋ค.
- Visibility(๊ฐ์์ฑ): ๋ชจ๋ฐ์ผ์ ์นด๋ฉ๋ผ๋ ํจ๊ป ์์ง์ด๊ณ (ํค๋/ํ ๋ฅด์ ํฌํจ), ๋ฐ์ดํฐ๋ ๊ฒฐ๊ตญ visuomotor policy๋ฅผ ํ์ต์์ผ์ผ ํ๋ ์นด๋ฉ๋ผ ๋ทฐ์ ๋ฌผ์ฒด๊ฐ ์ ๋ณด์ด๋ฉด ํ์ต ์์ฒด๊ฐ ๋ฌด๋์ง๋๋ค.
MoMaGen์ ์ด ๋ ๋ฌธ์ ๋ฅผ โ๊ทธ๋๊ทธ๋ ๋์งโ์ด ์๋๋ผ, ์ ์ฝ ์ต์ ํ(constrained optimization)๋ก ์ ์ํํด์ ํด๊ฒฐํฉ๋๋ค. ํต์ฌ์ ๊ฐ๋จํฉ๋๋ค:
- ๋ฐ๋์ ์ง์ผ์ผ ํ๋ ์กฐ๊ฑด = Hard constraints
- ์งํค๋ฉด ์ข์ ์ฑ์ง = Soft constraints(๋น์ฉ/ํ๋ํฐ)
์ด ํ๋ ์์ผ๋ก ๊ธฐ์กด X-Gen๋ฅ๋ โ์ฌ์ค์ ๊ฐ์ ํ๋ก ํด์ ๊ฐ๋ฅํ๋, ๋ชจ๋ฐ์ผ์ ํ์ํ ์ ์ฝ์ด ๋ถ์กฑํ๋คโ๋ก ์ ๋ฆฌํด๋ฒ๋ฆฝ๋๋ค.
๋ฐฉ๋ฒ(Method): โ์์ฐ ์์ฑ = ์ ์ฝ ์ต์ ํ ๋ฌธ์ โ๋ก ๋ค์ ์ฐ๊ธฐ
1) ๋ฌธ์ ์ ์ํ: Hard๋ ๋ง์กฑ, Soft๋ ์ต์ํ
๋ ผ๋ฌธ์ ์๋ ์์ฐ ์์ฑ ์์ฒด๋ฅผ ์ ์ฝ ์ต์ ํ ๋ฌธ์ ๋ก ๋ด ๋๋ค. ๊ฐ๋ ์ ์ผ๋ก๋ ์๋ ํํ์ ๋๋ค:
- ์ฐ๋ฆฌ๊ฐ ๋ง๋ค๊ณ ์ถ์ ๊ฑด ์๋ก์ด ๋ฐ๋ชจ ๊ถค์ (์ํ/ํ๋ ์ํ์ค)
- ์์คํ ๋ค์ด๋ด๋ฏน์ค(์๋ฎฌ๋ ์ดํฐ/๋ฌผ๋ฆฌ)๋ฅผ ๋ง์กฑํด์ผ ํ๊ณ
- Hard constraints(์ฑ๊ณต, IK/๊ด์ ์ ํ, ์ถฉ๋ ํํผ, ์กฐ์ ์ค ๊ฐ์์ฑ ๋ฑ)๋ ๋ฐ๋์ ๋ง์กฑ
- Soft constraints(์งง๊ณ ๋งค๋ํ ๊ฒฝ๋ก, ๋ด๋น ์ค ๊ฐ์์ฑ ์ ์ง, retraction ๋ฑ)๋ ์ต๋ํ ๋ง์กฑ(= ๋น์ฉ ์ต์ํ)
์ ์๋ค์ด โํ๋์ ํตํฉ ํ๋ ์์ํฌโ๋ก ๊ธฐ์กด ์ ๊ทผ๋ค์ ํฌ์ญํ๋ค๊ณ ๋ช ์ํฉ๋๋ค.
2) MoMaGen์ ๋ชจ๋ฐ์ผ ํต์ฌ ์ ์ฝ 4์ข ์ธํธ
MoMaGen์ด ๋ชจ๋ฐ์ผ ์์ ์กฐ์์์ โ์์ผ๋ฉด ๋ฌด๋์ง๋โ ์์๋ก ์๋ก ๊ฐ์กฐํ๋ ์ ์ฝ์ ๋ค์์ ๋๋ค.
(A) Reachability = Hard constraint
- ๋ชจ๋ฐ์ผ์์ ๋ฒ ์ด์ค ํฌ์ฆ๊ฐ ๊ณง โ๋ ํ์ด ๋ฟ์ ์ ์๋ ์ธ๊ณโ๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
- ๊ธฐ์กด์ฒ๋ผ ๋ฒ ์ด์ค ๊ฒฝ๋ก replay๋ ๋ฌผ์ฒด ๋๋คํ๊ฐ ์ปค์ง๋ฉด ์ฝ๊ฒ ์คํจ.
- ๊ทธ๋์ MoMaGen์ โ์ํ๋งํ ๋ฒ ์ด์ค ํฌ์ฆ๊ฐ ์ดํ ์กฐ์ ๋จ๊ณ์ EE ๊ถค์ ์ ์์ ๊ณต๊ฐ ๋ด์ ๋๋์งโ๋ฅผ ์๊ฒฉํ ๊ฐ์ ํฉ๋๋ค.
(B) Manipulation ์ค Object Visibility = Hard constraint
- ์์ฑ๋ ๋ฐ๋ชจ๋ ๊ฒฐ๊ตญ ์นด๋ฉ๋ผ ์ ๋ ฅ ๊ธฐ๋ฐ ์ ์ฑ ์ ํ์ต์ํค๋๋ฐ ์ฐ์ ๋๋ค.
- ์กฐ์ ๊ตฌ๊ฐ์์ ํ๊น ๋ฌผ์ฒด๊ฐ ์นด๋ฉ๋ผ์ ์ ๋ณด์ด๋ฉด ํ์ต ๋ฐ์ดํฐ๋ก์ ๊ฐ์น๊ฐ ๊ธ๋ฝํฉ๋๋ค.
- ๊ทธ๋์ ์กฐ์ ๋จ๊ณ์์ ๊ฐ๋ ค์ง ์์ด ๊ด์ธก ๊ฐ๋ฅํ๋๋ก(ํ์ ์ ์นด๋ฉ๋ผ/ํ ๋ฅด์ ํ์ฉ) hard๋ก ๋ฌถ์ต๋๋ค.
(D) Retraction(ํ ๋ฅด์/ํ ์ ๊ธฐ) = Soft constraint
- ์กฐ์ ํ ํ/ํ ๋ฅด์๋ฅผ ์ปดํฉํธํ ์์ธ๋ก ์ ์ผ๋ฉด ๋ค์ ๋ด๋น๊ฐ ์์ ํด์ง๊ณ ์ถฉ๋ ์ํ์ด ์ค์ด๋ญ๋๋ค.
- ์ด๊ฒ๋ โ๊ฐ์ โ๋ณด๋จ โ์ ํธโ๋ก ๋์ด ๋น์ฉ ํํ๋ก ์ฒ๋ฆฌํฉ๋๋ค.
3) ํ์ดํ๋ผ์ธ ์ ์ฒด ๊ทธ๋ฆผ
๋ ผ๋ฌธ Figure 2๋ MoMaGen์ ํ ์ฅ์ผ๋ก ์์ฝํฉ๋๋ค.
- ๋จ ํ๋์ ์์ค ๋ฐ๋ชจ๋ฅผ ์์งํ๊ณ , ์ด๋ฅผ object-centric subtask๋ก ๋ถ์ /์ฃผ์
- ์๋ก์ด ์ด๊ธฐ ์ํ(๋ฌผ์ฒด ๋ฐฐ์น/์ฅ์ ๋ฌผ ๋ฑ)๋ฅผ ๋๋คํ
- ๊ฐ subtask๋ง๋ค
- ์์ค ๋ฐ๋ชจ์ EE(End-effector) ํฌ์ฆ๋ฅผ ์ ๋ฌผ์ฒด ํ๋ ์์ผ๋ก ๋ณํ(์ ์ด ๊ตฌ๊ฐ์ ์๋๋ณํ์ ๋ณด์กด)
- reachability/visibility๋ฅผ ๋ง์กฑํ๋ ๋ฒ ์ด์ค+์นด๋ฉ๋ผ(ํค๋) ํฌ์ฆ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ํ๋ง
- ์ ํจํ ๊ตฌ์ฑ์ด ๋์ค๋ฉด
- ๋ฒ ์ด์ค/ํ ๋ฅด์๋ ๋ชจ์ ํ๋๋(๋ด๋น ๊ตฌ๊ฐ์ soft visibility ํฌํจ)
- ํ์ pregrasp๊น์ง ํ๋๋ ํ, ์ ์ด ๊ตฌ๊ฐ์ task-space control๋ก โ๋ฆฌํ๋ ์ดโ
- ๋ง์ง๋ง์ผ๋ก retraction ์๋ ํ ๋ค์ subtask๋ก ์งํ

4) ์๊ณ ๋ฆฌ์ฆ(๋ ผ๋ฌธ Algorithm 1) ํต์ฌ ๋์์ โ์ ์ด ์์์ธ๊ฐโ๋ก ํ๊ธฐ
Algorithm 1์ ํฌ์ธํธ๋ โ์คํจ๋ฅผ ๋นจ๋ฆฌ ๊ฐ์งํ๊ณ (cheap checks), ์ฑ๊ณต ๊ฐ๋ฅ์ฑ์ด ์๋ ์ํ๋ง ๋น์ผ ํ๋๋์ผ๋ก ๋๊ธด๋คโ์ ๋๋ค.
- (๋ผ์ธ ์ด๋ฐ) held object ์ฒดํฌ: ํ์ํ ๋ฌผ์ฒด๋ฅผ ์์ ๋ชป ๋ค๊ณ ์์ผ๋ฉด ์ดํ๋ ๋ค ๋ฌด์๋ฏธ โ ์ฆ์ abort
- EE ํฌ์ฆ ๋ณํ: ์ ์ด๊ตฌ๊ฐ์ โ๋ฌผ์ฒด-EE ์๋๊ด๊ณโ๊ฐ ๊ธฐ์ ์ ๋ณธ์ง์ด๋ฏ๋ก ์ด๋ฅผ ์ ๋ฐฐ์น์ ๋ง์ถฐ ๋ณํ
- ํ์ฌ ๋ฒ ์ด์ค/์นด๋ฉ๋ผ๋ก visibility+IK ๊ฒ์ฌ: ๋๋ฉด ๋ฐ๋ก ์กฐ์์ผ๋ก ์ง์ (๊ฐ์ฅ ์ธ๊ฒ ์ฑ๊ณต)
- ์ ๋๋ฉด ๋ฒ ์ด์ค ํฌ์ฆ/์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์ํ๋งํ๋ฉฐ IK๋ก ํํฐ๋ง(cheap)
- ์ ํจ ์ํ ํ๋ณด ํ ๋ฒ ์ด์ค ๋ชจ์ ํ๋๋(์ฌ๊ธฐ์ soft visibility ๋น์ฉ ๋ฐ์)
- pregrasp ํ๋๋ โ task-space ๋ฆฌํ๋ ์ด โ retraction
ํนํ โhard visibility๋ฅผ ๋ง์กฑํ๋ ํ ๋ฅด์/์นด๋ฉ๋ผ ๊ตฌ์ฑ์ด downstream ์กฐ์ ์ฑ๊ณต๋ฅ ๊น์ง ๋์ด์ฌ๋ฆฐ๋คโ๋ ๊ฒ์ด ๋ค ์คํ์์ ์์น๋ก ๋ค์ ํ์ธ๋ฉ๋๋ค.
MoMaGen ๋ฐ์ดํฐ ์์ฑ ํ๋ฆ
flowchart TD
A[Single source demo] --> B[Segment into subtasks]
B --> C[Scene randomization]
C --> D{For each subtask}
D --> E[Transform EE poses]
E --> F{Hard constraints satisfied?}
F -->|Yes| G[Plan + replay]
F -->|No| H[Sample new poses]
H --> I[IK filter]
I --> F
G --> J[Retraction]
J --> D
D --> K[Generated demo]
K --> L[Train policy]
์คํ(Experiments): ๋ฌด์์, ์ด๋ป๊ฒ, ์ด๋ค ์งํ๋ก ๋ดค๋?
1) ํ์คํฌ ์ ์ : 4๊ฐ โ์ง์์ผโ ๋ฉํฐ์คํ ํ์คํฌ
OmniGibson ๊ธฐ๋ฐ์ผ๋ก 4๊ฐ ๊ฐ์ ํ๊ฒฝ ํ์คํฌ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ํน์ง์ ์ฅ๊ฑฐ๋ฆฌ ๋ด๋น + ์์ฐจ ์กฐ์ + ์ํ(๋๊ธฐ/๋น๋๊ธฐ) + ์ ์ด ์์ ์ ๋ชจ๋ ํฌํจํ๋ค๋ ์ ์ ๋๋ค.
- Pick Cup: ํ ์ด๋ธ๋ก ์ด๋ํด ์ปต์ ๋ค์ด ์ฌ๋ฆฌ๊ธฐ
- Tidy Table: ์ปต์ ์นด์ดํฐ์์ ์ฑํฌ๋ก ์ฎ๊ธฐ๊ธฐ(์ฅ๊ฑฐ๋ฆฌ ๋ชจ๋ฐ์ผ ์กฐ์)
- Put Dishes Away: ๋ ํ๋ก ์ ์ 2๊ฐ๋ฅผ ์ ๋ฐ์ ์๊ธฐ(์ํ ๋น๋๊ธฐ/๋ ๋ฆฝ ์กฐ์)
- Clean Frying Pan: ์ํ๋ก ํฌ์ ๋ฌธ์ง๋ฅด๊ธฐ(์ ์ด ๊ธฐ๋ฐ ๋๊ธฐ ์์ ์กฐ์)
๊ฐ ํ์คํฌ๋ ๋จ 1๊ฐ์ ์์ค ๋ฐ๋ชจ(1~3๋ถ)๋ง ์์งํ๋ฉฐ, ๊ทธ ์ค ๋ฒ ์ด์ค ๋ชจ์ ์ด ํ๊ท 45%๋ฅผ ์ฐจ์งํ๋ค๊ณ ๋ฐํ๋๋ค(๋ชจ๋ฐ์ผ์ ๋น์ค์ ์๋์ ์ผ๋ก ํฌ๊ฒ).
2) ๋๋ฉ์ธ ๋๋คํ ๋์ด๋(D0/D1/D2): โ๋ชจ๋ฐ์ผ์ด ์๋๋ฉด ๋ชป ๋ฒํฐ๋โ ๊ณต๊ฒฉ์ ๋๋คํ
- D0: ํ๊น ์ค๋ธ์ ํธ๋ฅผ ๊ฐ์ ๊ฐ๊ตฌ ์์์ ์ ํ์ ๋ฒ์๋ก ๋๋คํ
- D1: ๊ฐ๊ตฌ ์ ์ด๋๋ + ์์ ๋ก์ด orientation
- D2: D1 + ์ถ๊ฐ ๋ฌผ์ฒด(์กฐ์ ์ฅ์ ๋ฌผ) + ๋ฐ๋ฅ ์ฅ์ ๋ฌผ(๋ด๋น ์ฅ์ ๋ฌผ)
์ด ๋๋คํ๋ ๊ธฐ์กด๋ณด๋ค ๋ ๊ณต๊ฒฉ์ ์ด๊ณ , ์ ์๋ค์ ์ด๊ฒ์ด ์๋ก์ด ๋ฒ ์ด์ค ๋ชจ์ ์์ฑ ๋ฅ๋ ฅ ๋๋ถ์ด๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค.
3) ๋น๊ต ๋์(๋ฒ ์ด์ค๋ผ์ธ): SkillMimicGen, DexMimicGen + โ๋ฒ ์ด์ค ๊ฒฝ๋ก replayโ ํ์ฅ
๋ชจ๋ ํ์คํฌ๊ฐ ๋ฒ ์ด์ค ์ด๋์ ์๊ตฌํ๋ฏ๋ก, ๋ฒ ์ด์ค๋ผ์ธ๋ค๋ ๊ธฐ์กด ๋ฐฉ์์ฒ๋ผ ์์ค ๋ฐ๋ชจ์ ๋ฒ ์ด์ค ๊ถค์ replay๋ฅผ ๋ถ์ฌ ํ์ฅํด ๋น๊ตํฉ๋๋ค.
ํ๊ฐ ์งํ๋ 3๊ฐ:
- ๋ค์์ฑ(diversity): ์ค๋ธ์ ํธ ํฌ์ฆ/ํ๋ ๋ค์์ฑ
- ์์ฑ ์ฑ๊ณต๋ฅ (success rate)
- ๋ด๋น ์ค ๊ฐ์์ฑ ๋น์จ(visibility ratio)
๊ฒฐ๊ณผ(Results): โ์ ์ฝ์ ์ ๋๋ก ๋ฃ์ผ๋ฉด, ๋ฐ์ดํฐ๋ ํ์ต๋ ๊ฐ์ด ์ข์์ง๋คโ
1) ๋ฐ์ดํฐ ๋ค์์ฑ: โ๋ฒ ์ด์ค๋ฅผ ์ํ๋งํ๋ฉด, ํ์ ๋ค์์ฑ๋ ๋ฐ๋ผ์จ๋คโ

๋ ผ๋ฌธ Figure 4 ์ค๋ช ๊ทธ๋๋ก ํต์ฌ์ ์ด๊ฒ์ ๋๋ค:
- ๊ฐ์ ์ค๋ธ์ ํธ ๋๋คํ(D0)์์๋ MoMaGen์ ๋ฒ ์ด์ค ํฌ์ฆ๋ฅผ ๋ค์ํ๊ฒ ์ํ๋ง โ ๊ทธ ๊ฒฐ๊ณผ EE ํฌ์ฆ/๊ด์ ๊ตฌ์ฑ ๋ค์์ฑ์ด ์ปค์ง๋๋ค.
- ๋ ์ค์ํ ๊ฑด D1์์ ๋ฒ ์ด์ค๋ผ์ธ์ โ์ ๋ฒ ์ด์ค ๋ชจ์ ์์ฑ ๋ถ๊ฐโ๋ก ์ฌ์ค์ ๋งํ์ง๋ง, MoMaGen์ D1์์๋ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ํ๋๋ค.
์ง๊ด์ ์ผ๋ก๋ ์ด๋ ์ต๋๋ค:
ํ ์ด๋ธ ์ ๋ฌผ์ฒด ์์น๊ฐ ๋ฐ๋๋ฉด, โํ์ ๋ ๋ป์๊น?โ๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ์๊ณ , โ๋ชธํต/๋ฒ ์ด์ค๋ฅผ ์ด๋์ ์ธ์ธ๊น?โ๊ฐ ๋ค์์ฑ์ ์ฃผ ์์ง์ด ๋ฉ๋๋ค.
2) ์์ฑ ์ฑ๊ณต๋ฅ (Table 2): โhard visibility๋ฅผ ๋ฃ์๋๋, ์คํ๋ ค ์ฑ๊ณต๋ฅ ์ด ์ค๋ฅธ๋คโ
Table 2๋ ๋งค์ฐ ์ค์ฉ์ ์ธ ๋ฉ์์ง๋ฅผ ์ค๋๋ค.
- ๋จ์ ํ์คํฌ(Pick Cup)๋ ์ ์ฝ์ด ์ ์ด ๋ฒ ์ด์ค๋ผ์ธ/ablation๋ ์ฑ๊ณต๋ฅ ์ด ๋์
- ํ์ง๋ง ๋ณต์ก ํ์คํฌ(ํนํ Tidy Table, Put Dishes Away, Clean Frying Pan)๋ก ๊ฐ๋ฉด visibility ์ ์ฝ์ ์ ๊ฑฐํ ์๋ก ์ฑ๊ณต๋ฅ ์ด ๋ ๋จ์ด์ง๋๋ค.
์๋ฅผ ๋ค์ด D0์์(ํ์ ์ผ๋ถ):
- MoMaGen: Pick Cup 1.00 / Tidy Table 0.86 / Put Dishes Away 0.79 / Clean Frying Pan 0.69
- MoMaGen w/o vis. const.: 0.90 / 0.46 / 0.40 / 0.35
์ฆ, โ์นด๋ฉ๋ผ ์ ๋ณด์ด๊ฒ ํ๋ ๊ฑด ํ์ต๋ง์ ์ํ ์ฅ์โ์ด ์๋๋ผ, ์ค์ ๋ก ๋ ์กฐ์ ๊ฐ๋ฅํ(ํ ๋ฅด์/๋ฒ ์ด์ค) ๊ตฌ์ฑ์ ์ฐพ๊ฒ ๋ง๋ค์ด ์ดํ subtask ์ฑ๊ณต๊น์ง ๋์ด์ฌ๋ฆฌ๋ ๊ตฌ์กฐ์ ์ญํ ์ ํฉ๋๋ค.
3) ์ ์ฑ ํ์ต(Policy Learning): ๋ฐ์ดํฐ ํ์ง์ด ๊ณง ์ฑ๊ณต๋ฅ ๋ก ๋ฒ์ญ๋๋ค
์ฌ์ฉํ ์ ์ฑ
- WB-VIMA (single-task BC๋ฅผ scratch ํ์ต)
- ฯ0 (pi_0): ์ฌ์ ํ์ต ๋ชจ๋ธ์ LoRA(rank=32)๋ก ํ์ธํ๋
์ ๋ ฅ์ ํค๋ ์นด๋ฉ๋ผ + ์ ์๋ชฉ ์นด๋ฉ๋ผ RGB + proprioception, ์ถ๋ ฅ์ ํ๊น ์กฐ์ธํธ ํฌ์ง์ . WB-VIMA๋ ์๋ฎฌ์์ GT depth๋ฅผ ํ์ฉํด egocentric colored point cloud๋ก ์ตํฉํด ๋ฃ์ต๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ
- Pick Cup (D0)์ฒ๋ผ ๋๋คํ ๋ฒ์๊ฐ ์์ผ๋ฉด, replay๋ ๊ทธ๋ญ์ ๋ญ ๋ฒํ
- ํ์ง๋ง Tidy Table (D0)์์ MoMaGen์ด ์ ์๋ฏธํ๊ฒ ์ฐ์: ๋ฒ ์ด์ค๋ผ์ธ์ โ๊ธธ๊ณ ๋น๋งค๋ํ replay ๊ฒฝ๋กโ์ ๊ณผ์ ํฉ/์ทจ์ฝํ๋ค๊ณ ์ง์ ํฉ๋๋ค.
- ๋ ์ด๋ ค์ด Pick Cup (D1)์์๋ MoMaGen๋ง์ด WB-VIMA ์ฑ๊ณต๋ฅ 0.25๋ฅผ ๋ฌ์ฑ(๋ฒ ์ด์ค๋ผ์ธ์ D0 ํ์ต ๋ฐ์ดํฐ๋ก๋ ์์ ์คํจ)

Visibility ablation์ด ํ์ต์ ๋ง๊ฐ๋จ๋ฆฌ๋ ์ด์ (๋ ผ๋ฌธ์ด ์ฃผ๋ ํํธ)
Figure 6(d) ์ฝ๋ฉํธ๋ ํนํ ์ค์ํฉ๋๋ค:
- MoMaGen์ด 0.75์ธ๋ฐ ablation์ 0.45~0.65 ์์ค(= D0์์๋ gap)
- Tidy Table(D0)์ ablation์ด 0.05๊ฐ ceiling์ธ๋ฐ MoMaGen์ 0.40
์ ์ ํด์์ โ์ ์ฑ ์ด ์งง์ ํ์คํ ๋ฆฌ ์ ๋ ฅ์ ์์กดํ ์๋ก, ๋ด๋น ์ค์ ํ๊น์ ๊พธ์คํ ๋ณด๋ ๋ฐ์ดํฐ๊ฐ ์ฑ๋ฅ์ ์ข์ฐํ๋คโ๋ ์ชฝ์ ๋๋ค. ์ฆ, ๋ฐ์ดํฐ ์์ฑ ๋จ๊ณ์์ partial observability๋ฅผ โ๊ด๋ฆฌโํด ์ค ๊ฒ์ด ์ ์ฑ ํ์ต ๋์ด๋๋ฅผ ์ค์ง์ ์ผ๋ก ๋ฎ์ถฅ๋๋ค.
4) ๋ฐ์ดํฐ ์ค์ผ์ผ๋ง: ํฉ์ฑ ๋ฐ์ดํฐ๋ โ๋ง์์๋ก ๋ซ๋คโ๊ฐ ์ฑ๋ฆฝํ๋๊ฐ?
MoMaGen ์์ฑ ๋ฐ๋ชจ๋ฅผ 500/1000/2000์ผ๋ก ๋๋ ค ํ์ธํ๋ํ์ ๋, ํนํ D1์์ ์ฑ๋ฅ์ด ๊พธ์คํ ์ข์์ง๋ ๊ฒฝํฅ์ ๋ณด๊ณ ํฉ๋๋ค. ํด์์ โ์ํ/ํ๋ ๊ณต๊ฐ ์ปค๋ฒ๋ฆฌ์ง ํ๋โ์ ๋๋ค.
5) Sim-to-Real(์ค๋ก๋ด): โํฉ์ฑ ๋ฐ์ดํฐ๊ฐ low-data fine-tune์ prior๊ฐ ๋๋คโ
Pick Cup ์ค์ธ๊ณ ์คํ์์, ์ค๋ฐ๋ชจ 40๊ฐ๋ง์ผ๋ก๋ ํ์ต์ด ๋งค์ฐ ์ด๋ ต๊ณ (๋ฒ ์ด์ค๋ผ์ธ 0%), MoMaGen ํฉ์ฑ 1000๊ฐ๋ก pretrain ํ fine-tune ํ๋ฉด:
- WB-VIMA: 0% โ 10% (์ ๋ ์์น๋ ๋ฎ์ง๋ง, ์๋ฏธ ์๋ ํ๋์ ๋ณด์)
- ฯ0: 0% โ 60% (ํจ๊ณผ๊ฐ ๋ ๊ฐํจ)
์ ์๋ค์ด ์์งํ๊ฒ ๋งํ๋ฏ โzero-shot sim2real์ ์ด๋ ต๋คโ๋ ํ์ค ์์์, ํฉ์ฑ ๋ฐ์ดํฐ๊ฐ ํ์ต ์ด๊น๊ฐ(prior)์ ๋ง๋ค์ด low-data ๊ตฌ๊ฐ์ ๋ซ์ด์ฃผ๋ ์ญํ ์ ํ๋ค๊ณ ๋ณด๋ ๊ฒ ํ๋นํฉ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ ๊ณผ ์ฝ์ , ๊ทธ๋ฆฌ๊ณ โ์ด ํ๋ ์์ด ๋จ๊ธฐ๋ ๊ฒโ
๊ฐ์ (Strengths)
- ๋ชจ๋ฐ์ผ์์ ์ง์ง ํ์ํ ์ ์ฝ์ ์ ํํ ์ง์๋ค (Reachability + Visibility): ๋ชจ๋ฐ์ผ ์กฐ์์์ ์คํจ์ ๋๋ถ๋ถ์ โํโ์ด ์๋๋ผ โ๋ฒ ์ด์ค/์์ผโ์์ ์์ํฉ๋๋ค. MoMaGen์ ๊ทธ๊ฑธ hard/soft๋ก ๋ถํดํด ์์คํ ์ ์ผ๋ก ํด๊ฒฐํฉ๋๋ค.
- ํตํฉ ๊ด์ : ๊ธฐ์กด X-Gen๋ฅ๋ฅผ โ์ ์ฝ ์ต์ ํโ๋ก ์ฌํด์: ์ด๊ฑด ๋จ์ ๊ตฌํ ํ์ด ์๋๋ผ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ๋ฆฌํด์ฃผ๋ ํ๋ ์์ ๋๋ค. โ๋ฌด์์ hard๋ก, ๋ฌด์์ soft๋ก ๋ ๊ฒ์ธ๊ฐโ๊ฐ ์์ผ๋ก ํ์ฅ ์ถ์ด ๋ฉ๋๋ค.
- ๋จ 1๊ฐ์ ๋ฐ๋ชจ๋ก๋ ์ ํจํ ์ ์ฑ ํ์ต์ ๋ณด์๋ค(ํนํ D1): โone-shot seed + ๋๊ท๋ชจ ํฉ์ฑโ์ ์ฝ์์ ๋ชจ๋ฐ์ผ์์๋ ์๋น ๋ถ๋ถ ์ง์ผฐ๊ณ , D1์์ ๋ฒ ์ด์ค๋ผ์ธ์ ์๋ํ ๊ฒฐ๊ณผ๋ ์ค๋๋ ฅ์ด ํฝ๋๋ค.
- ์์ฑ ์ฑ๊ณต๋ฅ ์์ฒด๊ฐ visibility ์ ์ฝ์ ์ํด ๊ฐ์ ๋๋ โ๊ตฌ์กฐ์ ์ด๋โ: ๋จ์ํ โํ์ต์ ์ํด ๋ณด์ด๊ฒ ํ๋คโ๊ฐ ์๋๋ผ, visibility๊ฐ ์ข์ ํ ๋ฅด์/๋ฒ ์ด์ค ๊ตฌ์ฑ์ด downstream ์กฐ์๋ ์ฝ๊ฒ ๋ง๋ ๋ค๋ ์ ์ด Table 2๋ก ๋๋ฌ๋ฉ๋๋ค.
- ํ์ฅ ๊ฐ๋ฅ์ฑ ์์ฐ: articulated object(๋์ฅ๊ณ ๋ฌธ) / cross-embodiment: ๋ถ๋ก์์ ๋์ฅ๊ณ ๋ฌธ ์ด๊ณ ๋ณ ๊บผ๋ด๊ธฐ(Get Bottle) ๊ฐ์ ๊ฐ๋ ค์ง ๋ฌธ์ ๋ ๋ค๋ค๋ณด๊ณ , Galexea R1 ๋ฐ๋ชจ๋ฅผ TIAGo๋ก ์ฎ๊ธฐ๋ cross-embodiment ์คํ๋ ์ ์ํฉ๋๋ค.
์ฝ์ /ํ๊ณ(Limitations)
- ์์ฑ ๋จ๊ณ์์ โํน๊ถ ์ ๋ณด(privileged info)โ ๊ฐ์ : ๋ฌผ์ฒด ํฌ์ฆ/ํ์ ๋ฑ โfull scene knowledgeโ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์๋ฎฌ์์ ์ฝ์ง๋ง ํ์ค์์ ์ด๋ ค์ฐ๋ฉฐ, ์ ์๋ค๋ SAM2 ๊ฐ์ ๋น์ ๋ชจ๋ธ๋ก pose ์ถ์ ํ๋ ๋ฐฉํฅ์ ์ธ๊ธํฉ๋๋ค.
- ๋ด๋น-์กฐ์์ด ๋ถ๋ฆฌ๋(Alternating) ๊ตฌ์กฐ์ ๋ ์ด์ : ๋ ผ๋ฌธ์ ์ฃผ๋ก โ๋ด๋น โ ์กฐ์ โ ๋ด๋น โ โฆโ ํจํด์ ๋ณด์ฌ์ฃผ๊ณ , whole-body manipulation(์: ๋ฌธ ์ด๊ธฐ ๊ฐ์ ์ฐ์ ์ํธ์์ฉ)์ ํ์ฅ ์ฌ์ง๊ฐ ์๋ค๊ณ ํฉ๋๋ค.
- ๊ณ์ฐ ์์ ์์กด์ฑ: GPU ๊ฐ์ ๋ชจ์ ์์ฑ(์: cuRobo ์ฌ์ฉ)๋ก ๋ฐ์ดํฐ ์์ฑ ์์ฒด๊ฐ ๋น์ฉ์ด ๋ค ์ ์์ต๋๋ค. โ๋ฐ๋ชจ ์์ง ๋น์ฉโ์ โ์ปดํจํ ๋น์ฉโ์ผ๋ก ์นํํ๋ ๋ฉด์ด ์กด์ฌํฉ๋๋ค.
- cross-embodiment๋ ๊ฐ๋ฅํ์ง๋ง, ์ถฉ๋/๊ณต๊ฐ ์ ์ฝ์ ์ทจ์ฝ: TIAGo์ฒ๋ผ ํ์ด ๋ bulkyํ๋ฉด self-collision/์ข์ ๊ณต๊ฐ ์์ ์์ ์คํจํ ์ ์์์ ๋ถ๋ก์์ ์ธ์ ํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ ๋งฅ๋ฝ์์์ ์์น: โX-Gen์ ๋ค์ ์ฅ์ ๋ชจ๋ฐ์ผ์ด๋คโ
๋ ผ๋ฌธ Table 1์ด ์ด ์ผ์ ๊น๋ํ ์ ๋ฆฌํฉ๋๋ค.

- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ฐ์ผ/active perception/visibility/retraction์ ์ถฉ๋ถํ ๊ฐ์ ํ์ง ์๊ฑฐ๋ ์์ ๋ค๋ฃจ์ง ๋ชปํ๊ณ ,
- MoMaGen์ Succ/Kin/C-Free/Temp/Vis(ํ๋+์ํํธ)/Ret๊น์ง ํฌํจํด ๋ชจ๋ฐ์ผ ํ๊ฒฝ์์ ๋น ์ง๊ธฐ ์ฌ์ด ๊ตฌ๋ฉ์ ๋ฉ์ ์ต๋๋ค.
์ ๋ฆฌํ๋ฉด, MoMaGen์ โ์ ์ ์กฐ์์์ ์ฑ๊ณตํ๋ ์๋ ๋ฐ๋ชจ ์์ฑโ์ (1) ๋ฒ ์ด์ค๋ผ๋ ์ถ๊ฐ ์์ ๋์ (2) ์นด๋ฉ๋ผ๋ผ๋ ํ์ต ์ ๋ ฅ์ ๊ด์ธก ์ ์ฝ๊น์ง ํฌํจํ ํํ๋ก ๋์ด์ฌ๋ฆฐ ์ผ์ด์ค์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก : MoMaGen์ด ๋จ๊ธฐ๋ ์ค๋ฌด์ ๊ตํ 5๊ฐ์ง
- ๋ชจ๋ฐ์ผ ์กฐ์์์ ๋ฐ์ดํฐ ์์ฑ์ 1์์๋ reachability๋ค(hard๋ก ๊ฑธ์ด์ผ ํ๋ค).
- visuomotor ํ์ต์ ์๊ฐํ๋ฉด, ์กฐ์ ์ค visibility๋ hard์ฌ์ผ ๋ฐ์ดํฐ๊ฐ โํ์ต ๊ฐ๋ฅํ ํํโ๊ฐ ๋๋ค.
- ๋ด๋น ์ค visibility๋ soft๋ก ๊ด๋ฆฌํด๋ ์ถฉ๋ถํ ํฐ ํ์ต ์ด๋์ด ๋๋ค(ํนํ ์งง์ ํ์คํ ๋ฆฌ ์ ์ฑ ์์).
- ํฉ์ฑ ๋ฐ์ดํฐ๋ low-data ์ค๋ก๋ด fine-tune์์ ๊ฐ๋ ฅํ prior๊ฐ ๋๋ค(ฯ0์์ 60%๊น์ง).
- โ์ด๋ค ์ ์ฝ์ hard/soft๋ก ๋ ๊ฒ์ธ๊ฐโ๊ฐ ์์ผ๋ก์ ํ์ฅ ์ฐ๊ตฌ(whole-body, ํ์ค ์ธ์, ๋ ๋ณต์กํ ์ฅ๋ฉด)์ ์ค๊ณ๋๋ค.
MoMaGen: ์ ์ฝ ์กฐ๊ฑด ์ต์ ํ๋ฅผ ํตํ ์ํ ์ด๋ ์กฐ์ ๋ฐ์ดํฐ ์์ฑ์ ์๋ก์ด ์งํ
๋ก๋ด ๊ณตํ์ ๋ฐ์ดํฐ ๊ฐ์ฆ๊ณผ ์ด๋ ์กฐ์์ ๋์
๋ก๋ด ๊ณตํ์ ์ญ์ฌ๋ ์ธ๊ฐ์ ๋์์ ๊ธฐ๊ณ์ ์ธ์ด๋ก ๋ฒ์ญํ๋ ค๋ ๋์์๋ ์๋์ ์ฐ์์ด๋ค. ํนํ ์ต๊ทผ์ ๋ก๋ด ํ์ต ํจ๋ฌ๋ค์์ ๊ฑฐ๋ํ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ก๋ด์ด ์ค์ค๋ก ๋ณต์กํ ํ๊ฒฝ์ ์ ์ํ๋ ๋ฒ์ ๋ฐฐ์ฐ๋ ๋ชจ๋ฐฉ ํ์ต(Imitation Learning)์ผ๋ก ๊ธ๊ฒฉํ ๊ธฐ์ธ๊ณ ์๋ค. ํ์ง๋ง ์ด ํ๋ คํ ๊ฐ๋ฅ์ฑ ๋ค์๋ โ๋ฐ์ดํฐ์ ๊ธฐ์โ๋ผ๋ ์ฐจ๊ฐ์ด ํ์ค์ด ๋์ฌ๋ฆฌ๊ณ ์๋ค. ๋ก๋ด์ด ํ ๊ฐ์ง ์์ ์ ์ตํ๊ธฐ ์ํด ํ์ํ ์์ฒ ๊ฐ์ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ณผ์ ์ ๋ง ๊ทธ๋๋ก ๋ ธ๋ ์ง์ฝ์ ์ธ ๊ณ ํ์ด๋ค.
ํนํ ๋ฐํด๊ฐ ๋ฌ๋ฆฐ ์ด๋ ๋ฒ ์ด์ค(Mobile Base)์ ๋ ๊ฐ์ ๊ณ ์์ ๋ ํ(Bimanual Arms)์ ๋์์ ๊ฐ์ถ ์ํ ์ด๋ ์กฐ์ ๋ก๋ด์ ๊ฒฝ์ฐ, ์ด ๋ฌธ์ ๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ณต์กํด์ง๋ค. ์ธ๊ฐ ์กฐ์์๊ฐ ๋ฆฌ๋ชจ์ปจ์ด๋ ๊ฐ์ ํ์ค ์ฅ๋น๋ฅผ ์ด์ฉํด ๋ก๋ด์ ๋ฒ ์ด์ค๋ฅผ ์ด์ ํ๋ฉด์ ๋์์ ์์์ ์ ๊ตํ๊ฒ ์์ง์ฌ ๋ฌผ์ฒด๋ฅผ ์ง๊ณ , ์ฎ๊ธฐ๊ณ , ์นด๋ฉ๋ผ์ ์์ ๊น์ง ๊ด๋ฆฌํ๋ ๊ฒ์ ์์ปค์ค์ ๊ฐ๊น์ด ์ง์ค๋ ฅ์ ์๊ตฌํ๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ์ ๋ก๋ด์ด ๊ฐ์ฌ ๋ ธ๋์ด๋ ๋ณต์กํ ์ฐ์ ํ์ฅ์ ํฌ์ ๋๋ ์๊ธฐ๋ฅผ ๋ฆ์ถ๋ ๊ฒฐ์ ์ ์ธ ๋ณ๋ชฉ ํ์์ด ๋์ด ์๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ ์์์ MoMaGen(Mobile Manipulation Generation) ์ฐ๊ตฌ๋ ๋งค์ฐ ์ง๊ด์ ์ด๊ณ ๋ ๊ฐ๋ ฅํ ์ง๋ฌธ์ ๋์ง๋ค. ๋ก๋ด์ด ์ด๋ฏธ ์๊ณ ์๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด๋คโ์๋ฅผ ๋ค์ด โํ์ด ๋ฟ์์ผ ๋ฌผ์ฒด๋ฅผ ์ง์ ์ ์๋คโ๊ฑฐ๋ โ๋์ ๋ณด์ฌ์ผ ์กฐ์ํ ์ ์๋คโโ์ ์ํ์ ๋๊ตฌ๋ก ํ์ฉํ์ฌ, ๋จ ํ๋์ ์์ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ง ๊ฐ์ ์๋ก์ด ์ํฉ์ ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ค์ค๋ก ์์ฑํด๋ผ ์ ์์๊น?. MoMaGen์ ๋ฐ์ดํฐ ์์ฑ์ ๋จ์ํ ๋ณต์ ๊ฐ ์๋, ํ๋ ์ ์ฝ ์กฐ๊ฑด๊ณผ ์ํํธ ์ ์ฝ ์กฐ๊ฑด ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ ์ต์ ํ ๋ฌธ์ ๋ก ์ ์ํ๋ฉฐ ์ด ๋์ ์ ๋ํ ํด๋ต์ ์ ์ํ๋ค.
์ ์ฝ ์กฐ๊ฑด ์ต์ ํ๋ก์์ ๋ฐ์ดํฐ ์์ฑ
๋ก๋ด์ด ์ธ์์ ์ด์๊ฐ๋ ๋ฐฉ์์ ๋ณธ์ง์ ์ผ๋ก ์ ์ฝ ์กฐ๊ฑด์ ์ฐ์์ด๋ค. ๋ก๋ด์ ํ ๊ธธ์ด๋ ํ์ ๋์ด ์๊ณ , ์นด๋ฉ๋ผ์ ์์ผ๊ฐ์ ์ข์ผ๋ฉฐ, ๋ฐ๋ฅ์ ๋ง์ฐฐ๋ ฅ์ด๋ ๊ด์ ์ ํ ํฌ ํ๊ณ๋ ๋ก๋ด์ด ํ ์ ์๋ ์ผ๊ณผ ํ ์ ์๋ ์ผ์ ์๊ฒฉํ๊ฒ ๊ตฌ๋ถ ์ง๋๋ค. MoMaGen์ ์ด๋ฌํ ๋ฌผ๋ฆฌ์ ํ๊ณ๋ฅผ ์ฅ์ ๋ฌผ์ด ์๋, ๋ฐ์ดํฐ ์์ฑ์ ๊ฐ์ด๋๋ผ์ธ์ผ๋ก ์ผ๋๋ค.
ํ๋ ์ ์ฝ๊ณผ ์ํํธ ์ ์ฝ์ ์กฐํ๋ก์ด ์ค๊ณ
MoMaGen์ ํต์ฌ ์ค๊ณ ์ฒ ํ์ ๋ก๋ด์ ๋์์ ๊ฒฐ์ ์ง๋ ์์๋ฅผ ๋ ๊ฐ์ง ์ธต์๋ก ๋๋๋ ๋ฐ ์๋ค. ์ฒซ ๋ฒ์งธ๋ โ๋ฐ๋์ ์ง์ผ์ผ ํ๋โ ํ๋ ์ ์ฝ(Hard Constraints)์ด๊ณ , ๋ ๋ฒ์งธ๋ โ์งํค๋ฉด ์์ ์ ์ง์ด ์ข์์ง๋โ ์ํํธ ์ ์ฝ(Soft Constraints)์ด๋ค.
ํ๋ ์ ์ฝ ์กฐ๊ฑด์ ๋ก๋ด์ ์์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ์ง๋ ์ ๋์ ์ธ ๊ธฐ์ค๋ค์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด์ด ์ปต์ ์ง์ผ๋ ค ํ ๋ ๋ฒ ์ด์ค๋ฅผ ์ปต์์ ๋๋ฌด ๋ฉ๋ฆฌ ์ฃผ์ฐจํ๋ฉด ์๋ฌด๋ฆฌ ํ์ ๋ป์ด๋ ๋ฟ์ง ์๋๋ค. ์ด๋ฅผ ๋๋ฌ ๊ฐ๋ฅ์ฑ(Reachability) ์ ์ฝ์ด๋ผ ํ๋ค. ๋ํ, ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ (Visuomotor Policy)์ ํ์ตํ๊ธฐ ์ํด์๋ ์กฐ์์ด ์ผ์ด๋๋ ์๊ฐ ๋์ ๋ฌผ์ฒด๊ฐ ์นด๋ฉ๋ผ ํ๋ ์์ ์ค์ ๋ถ๊ทผ์ ํ์คํ ์์นํด์ผ ํ๋ค. ์ด๋ฅผ ๊ฐ์์ฑ(Visibility) ์ ์ฝ์ด๋ผ ๋ถ๋ฅธ๋ค. ์ด๋ฌํ ํ๋ ์ ์ฝ์ด ์ถฉ์กฑ๋์ง ์์ ๋ฐ์ดํฐ๋ ํ์ต์ ์ฌ์ฉ๋ ๊ฒฝ์ฐ ์คํ๋ ค ๋ชจ๋ธ์๊ฒ ์๋ชป๋ ์ ๋ณด๋ฅผ ์ ๋ฌํ๊ฒ ๋๋ค.
๋ฐ๋ฉด ์ํํธ ์ ์ฝ ์กฐ๊ฑด์ ๋ก๋ด์ ๋์์ ๋์ฑ ๋งค๋๋ฝ๊ณ ์ง๋ฅ์ ์ผ๋ก ๋ง๋๋ ์์๋ค์ด๋ค. ๋ก๋ด์ด ๋ฐฉ ๊ฑด๋ํธ์ผ๋ก ์ด๋ํ๋ ๋์ ๋์ ๋ฌผ์ฒด๋ฅผ ๊ณ์ํด์ ๋ฐ๋ผ๋ณด๊ณ ์์ ํ์๋ ์์ง๋ง, ์นด๋ฉ๋ผ๊ฐ ๋ฌผ์ฒด๋ฅผ ์ถ์ ํ๋ฉฐ ์ด๋ํ๋ค๋ฉด ํ์ต๋ ๋ชจ๋ธ์ ๊ณต๊ฐ์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ํจ์ฌ ๋ ํ๋ถํ๊ฒ ์ดํดํ๊ฒ ๋๋ค. ๋ํ, ์์ ์ด ๋๋ ํ ํ์ ๋ชธ์ชฝ์ผ๋ก ๋จ์ ํ๊ฒ ์ ๋ ์์ถ(Retraction) ๋์์ ๋ค์ ์ด๋ ๋จ๊ณ์์์ ์ถฉ๋ ์ํ์ ์ค์ฌ์ค๋ค. MoMaGen์ ์ด๋ฌํ ์์๋ค์ ๋น์ฉ ํจ์(Cost Function)๋ก ์ค์ ํ์ฌ ๋ก๋ด์ด ๊ฐ๋ฅํ ํ โ์ฐ์ํ๊ฒโ ์์ง์ด๋๋ก ์ ๋ํ๋ค.
| ์ ์ฝ ์กฐ๊ฑด ์ ํ | ์ ์ ๋ฐ ๋ชฉ์ | ๊ตฌ์ฒด์ ๋งค์ปค๋์ฆ |
|---|---|---|
| ํ๋ ์ ์ฝ (Hard) | ์์ ์ฑ๋ฆฝ์ ์ํ ๋ฌผ๋ฆฌ์ ํ์ ์กฐ๊ฑด | ๋๋ฌ ๊ฐ๋ฅ์ฑ(IK ์ฑ๊ณต), ์กฐ์ ์ ๊ฐ์์ฑ ํ๋ณด, ์ถฉ๋ ํํผ |
| ์ํํธ ์ ์ฝ (Soft) | ๋ฐ์ดํฐ ํ์ง ๋ฐ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ | ์ด๋ ์ค ๋ฌผ์ฒด ์ถ์ (Visibility Cost), ๊ถค์ ๋ถ๋๋ฌ์, ๊ด์ ์์ถ |
์ํ์ ๊ณต์ํ์ ํต์ผ๋ ํ๋ ์์ํฌ
MoMaGen์ ๋ฐ์ดํฐ ์์ฑ์ ๋ค์๊ณผ ๊ฐ์ ์ต์ ํ ๋ฌธ์ ๋ก ๊ณต์ํํ๋ค. ๋ก๋ด์ ์ํ ๊ถค์ ์ x๋ผ ํ ๋, ๋ชฉ์ ํจ์๋ ์ํํธ ์ ์ฝ ์กฐ๊ฑด์ ํฉ์ ์ต์ํํ๋ ๋์์ ํ๋ ์ ์ฝ ์กฐ๊ฑด g์ h๋ฅผ ๋ง์กฑํ๋ ํด๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ค.
\min_{x} \sum_{t=0}^{T} f_{soft}(x_t) \quad \text{subject to} \quad g_{hard}(x) = 0, \quad h_{hard}(x) \leq 0
์ด ๊ณต์์ ๊ธฐ์กด์ MimicGen์ด๋ DexMimicGen๊ณผ ๊ฐ์ X-Gen ๊ณ์ด์ ์ฐ๊ตฌ๋ค์ ํ๋์ ์ฒด๊ณ ์๋๋ก ํตํฉํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ฃผ๋ก ์ ์ ์ธ ๋ฒ ์ด์ค ์์์์ ํ ๋์์๋ง ์ง์คํ๊ธฐ์ ๋ฒ ์ด์ค ์์น ์ ์ ์ด๋ ์ด๋ ์ค์ ๊ฐ์์ฑ ๋ฌธ์ ๋ฅผ ๋ช ์์ ์ธ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ๋ค๋ฃจ์ง ์์๋ค. MoMaGen์ ์ด๋ ์กฐ์์ด๋ผ๋ ๋ ๋์ ๋ฒ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด๋ฌํ ์ ์ฝ ์กฐ๊ฑด๋ค์ ํ์ฅํ๊ณ ์ฒด๊ณํํจ์ผ๋ก์จ, ์ด๋ค ํํ์ ๋ก๋ด ํ๋ซํผ์์๋ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ์์ง์ ๊ตฌ์ถํ์๋ค.
MoMaGen ์๊ณ ๋ฆฌ์ฆ: ์์ฐ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก์ ์ฌ์
MoMaGen์ ๋ฐ์ดํฐ ์์ฑ ํ๋ก์ธ์ค๋ ๋ง์น ์๋ จ๋ ์กฐ๊ฐ๊ฐ๊ฐ ๊ฑฐ์น ๋๋ฉ์ด์์ ์ ๊ตํ ์์ ๊น์๋ด๋ ๊ณผ์ ๊ณผ ํก์ฌํ๋ค. ๋จ ํ๋์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ์ ๋ ฅ๋๋ฉด, ์์คํ ์ ์ด๋ฅผ ๋ถ์ํ๊ณ ํด์ฒดํ ๋ค ์๋ง ๊ฐ์ ์๋ก์ด ํ๊ฒฝ์ ๋ง์ถฐ ์ฌ์กฐ๋ฆฝํ๋ค.
ํ์ ์์ ์ ๋ถ์ ํ์ ์ฃผ์ (Subtask Segmentation)
๋ชจ๋ ์๋ํ ๋ฐ๋ช ์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์ ๋จ์๋ก ๋๋๋ ๋ฐ์ ์์๋๋ค. MoMaGen์ ๋จผ์ ์ธ๊ฐ์ ์์ฐ์ โํ์ ์์ (Subtask)โ ๋จ์๋ก ์ชผ๊ฐ ๋ค. ์๋ฅผ ๋ค์ด โ์ํ์ ์๋ ์ปต์ ์ป์ด์ ์ฐฌ์ฅ์ ๋ฃ๊ธฐโ๋ผ๋ ์์ ์ (1) ์ปต์ผ๋ก ์ด๋, (2) ์ปต ์ง๊ธฐ, (3) ์ฐฌ์ฅ์ผ๋ก ์ด๋, (4) ์ปต ๋ด๋ ค๋๊ธฐ๋ผ๋ ๋ค ๊ฐ์ง ํ์ ์์ ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
๊ฐ ํ์ ์์ ์ ๋จ์ํ ์๊ฐ์ ๊ตฌ๋ถ์ด ์๋๋ผ, ๋ก๋ด์ด ์ํธ์์ฉํด์ผ ํ ๋ชฉํ ๋ฌผ์ฒด(o_{target}), ์์ ๋ค๊ณ ์๋ ๋ฌผ์ฒด(o_{held}), ๊ทธ๋ฆฌ๊ณ ์กฐ์์ ์ ๋ฐ๋๊ฐ ์๊ตฌ๋๋ ์ ์ด ์ง์ ์ ์์ (t_{pregrasp}) ๋ฑ์ ๋ํ ํ๋ถํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ์ด ์ ๋ณด๋ค์ ๋์ค์ ์๋ก์ด ํ๊ฒฝ์์ ๋ก๋ด์ด ๋ฒ ์ด์ค ์์น๋ฅผ ์ด๋๋ก ์ก์์ผ ํ ์ง ๊ฒฐ์ ํ๋ ํต์ฌ ๋ฐ์ดํฐ๊ฐ ๋๋ค.
ํ๊ฒฝ ๋ฌด์์ํ์ ์ํ ๋ณํ
๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ง๋ฅ์ ๊ฐ๊ฑดํจ์ ๊ฒฐ์ ์ง๋๋ค. MoMaGen์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ ๋ด์์ ๋ฌผ์ฒด๋ค์ ์์น๋ฅผ ๊ณผ๊ฐํ๊ฒ ๋ฌด์์ํํ๋ค. ํนํ โD2 ๋ฌด์์ํโ๋ผ ๋ถ๋ฆฌ๋ ์ค์ ์์๋ ๋์ ๋ฌผ์ฒด๋ฅผ ๋ฐฉ ์์ ์์ ํ ๋ค๋ฅธ ๊ฐ๊ตฌ ์์ ์ฌ๋ ค๋๊ฑฐ๋, ๋ก๋ด์ ๊ฒฝ๋ก ์ฌ์ด์ ์์์น ๋ชปํ ์ฅ์ ๋ฌผ์ ๋ฐฐ์นํ์ฌ ๋์ด๋๋ฅผ ๊ทน๋๋ก ๋์ธ๋ค.
์ด๋ MoMaGen์ ์๋ ์์ฐ์์์ ๋ฌผ์ฒด์ ๋ก๋ด ์ ์ฌ์ด์ ์๋์ ์ขํ ๋ณํ(Transformation)์ ๊ณ์ฐํ๋ค. ๋ฌผ์ฒด๊ฐ A์์ B๋ก ์ด๋ํ๋ค๋ฉด, ๋ก๋ด์ ์ ์ญ์ ๊ทธ์ ๋ง์ถฐ B๋ฅผ ํฅํด ์์ง์ฌ์ผ ํ๋ค๋ ๋ ผ๋ฆฌ๋ค. ํ์ง๋ง ์ด๋ ์กฐ์ ๋ก๋ด์๊ฒ ์ด๋ ๋จ์ํ ์๋ง ์ฎ๊ธฐ๋ ๋ฌธ์ ๊ฐ ์๋๋ค. ๋ฐํด์ ์์น๊ฐ ๋ฐ๋์ด์ผ ํ๊ณ , ๊ทธ์ ๋ฐ๋ผ ์นด๋ฉ๋ผ์ ๊ฐ๋์ ํ ๋ฅด์์ ๋์ด๋ ์ ๊ธฐ์ ์ผ๋ก ๋ณํด์ผ ํ๋ค.
์ ์ ํ์์ ์ํ ๋ฒ ์ด์ค ๋ฐ ์นด๋ฉ๋ผ ํฌ์ฆ ์ํ๋ง
MoMaGen์ ๊ฐ์ฅ ๋ฐ์ด๋ ์ง๋ฅ์ โ์ด๋์ ์์ ์์ ์ ํ ๊ฒ์ธ๊ฐโ๋ฅผ ๊ฒฐ์ ํ๋ ๋จ๊ณ์์ ๋๋ฌ๋๋ค. ๋จ์ํ ๋ฌผ์ฒด ์์ ์๋ ๊ฒ์ด ์๋๋ผ, ์ํ์ด ๋ฌผ์ฒด์ ๋ฟ์ผ๋ฉด์๋ ์นด๋ฉ๋ผ๊ฐ ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ์ง ์๊ณ ๋ณผ ์ ์๋ ์ต์ ์ ์ ์ ํฌ์ฆ(T_{base}, T_{cam})๋ฅผ ์ฐพ์์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ ์์ฐจ์ ํํฐ๋ง์ ๊ฑฐ์น๋ค.
- ํ๋ณด์ง ์ ์ : ๋ชฉํ ๋ฌผ์ฒด ์ฃผ๋ณ์ ๋๋ฌ ๊ฐ๋ฅํ ์์ญ์์ ์๋ง์ ๋ฒ ์ด์ค ํฌ์ฆ ํ๋ณด๋ฅผ ์ํ๋งํ๋ค.
- ์ญ๊ธฐ๋ฅํ(IK) ๊ฒ์ฌ: ํด๋น ๋ฒ ์ด์ค ์์น์์ ๋ก๋ด์ ํ์ด ์ฅ์ ๋ฌผ์ ๊ฑธ๋ฆฌ์ง ์๊ณ ๋ชฉํ ์ง์ ์ ๋ฟ์ ์ ์๋์ง ํ์ธํ๋ค.
- ๊ฐ์์ฑ ๊ฒ์ฆ: ํค๋ ์นด๋ฉ๋ผ๊ฐ ์กฐ์ ์ง์ ์ ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ์ค์ฌ๋ถ์ ๋ด๊ณ ์๋์ง, ๋ก๋ด์ ํ์ด๋ ์ฃผ๋ณ ๋ฌผ์ฒด์ ์ํด ์์ผ๊ฐ ๊ฐ๋ ค์ง์ง๋ ์๋์ง ๊ธฐํํ์ ์ผ๋ก ๊ณ์ฐํ๋ค.
์ด ๋จ๊ณ์์ MoMaGen์ cuRobo์ ๊ฐ์ ๊ณ ์ฑ๋ฅ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ์ด๋น ์์ฒ ๋ฒ์ IK ๊ณ์ฐ๊ณผ ์ถฉ๋ ๊ฒ์ฌ๋ฅผ ์ํํจ์ผ๋ก์จ, ๊ฑฐ๋ํ ํ์ ๊ณต๊ฐ ์์์๋ ์ ํจํ ํฌ์ฆ๋ฅผ ์์๊ฐ์ ์ฐพ์๋ธ๋ค.
์ต์ ํ๋ ๊ฒฝ๋ก ๊ณํ๊ณผ ์ ์ด ์ฌํ
์ ํจํ ์ฃผ์ฐจ ์์น๋ฅผ ์ฐพ์๋ค๋ฉด, ์ด์ ํ์ฌ ์์น์์ ๊ทธ๊ณณ๊น์ง ๋ก๋ด์ ์ด๋์์ผ์ผ ํ๋ค. ์ฌ๊ธฐ์ MoMaGen์ ์ํํธ ์ ์ฝ ์กฐ๊ฑด์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ค. ๋ก๋ด์ ๋จ์ํ ์ต๋จ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๋ ๊ฒ์ด ์๋๋ผ, ํค๋ ์นด๋ฉ๋ผ๋ก ๋ฌผ์ฒด๋ฅผ ํ์ผ๋ฉฐ ์ด๋ํ๋๋ก ๊ถค์ ์ด ์์ฑ๋๋ค.
๋ฌผ์ฒด์ ์ง์ ์ํธ์์ฉํ๋ ์ ๋ฐํ ์๊ฐ(t_{pregrasp} \sim t_{end})์๋ ์๋ ์์ฐ์์์ โ์์ ๊ณต๊ฐ ๊ถค์ (Task-space trajectory)โ์ ๊ทธ๋๋ก ์ฌํํ๋ค. ์ด๋ ๋ฌผ์ฒด๋ฅผ ์ก๊ฑฐ๋ ๋ฌธ์ ์ฌ๋ ๊ฒ๊ณผ ๊ฐ์ด ๋ฌผ๋ฆฌ์ ์ ์ด์ด ๋น๋ฒํ ์์ ์์ ์ฑ๊ณต๋ฅ ์ ๊ทน๋ํํ๋ ๋น๊ฒฐ์ด๋ค. ๋ฐ๋ฉด ์ด๋์ด๋ ์์ถ๊ณผ ๊ฐ์ ๋น์ ์ด ๊ตฌ๊ฐ์์๋ ๋ก๋ด์ ์ ์ ๊ฒฝ๋ก ๊ณํ(Motion Planning)์ ํตํด ์์ ๋ก์ด ์์ง์์ ํ์ฉํจ์ผ๋ก์จ ํ๊ฒฝ์ ์ฅ์ ๋ฌผ์ ์ ์ฐํ๊ฒ ํผํ๋ค.
graph TD
subgraph Input
A[Single Demo]
end
subgraph Process
B[Subtask Segmentation] --> C[Scene Randomization]
C --> D{Satisfy Hard Constraints?}
D -- No --> C
D -- Yes: Reachability & Visibility --> E[Base/Camera Pose Sampling]
E --> F[Motion Planning]
F --> G[Task-space Replay]
end
subgraph Output
H[Generated Demo] --> I[Policy Training]
end
style D fill:#f9f,stroke:#333,stroke-width:2px
style F fill:#bbf,stroke:#333,stroke-width:2px
์คํ: ์์น๋ก ์ฆ๋ช ๋ ์ง๋ฅ์ ํ์ฅ
MoMaGen์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ ํ์ค์ ์ธ ๊ฐ์ฌ ๋ ธ๋์ ๋ชจ์ฌํ ๋ค ๊ฐ์ง ํต์ฌ ๊ณผ์ ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ์ํํ์๋ค. ๊ฐ ๊ณผ์ ๋ ์ํ์ ํ์, ์ด๋์ ์ ํ์ฑ, ๊ทธ๋ฆฌ๊ณ ์๊ฐ์ ์ ๋ณด์ ์ค์์ฑ์ ๊ณ ๋ฃจ ํ๊ฐํ๋๋ก ์ค๊ณ๋์๋ค.
์คํ ์ค์ ๋ฐ ๋ฐ์ดํฐ ์์ฑ ์ฑ๋ฅ
์คํ์ NVIDIA Isaac Sim ๊ธฐ๋ฐ์ ํ๊ฒฝ์์ ์งํ๋์์ผ๋ฉฐ, Galaxea R1 ๋ฐ Tiago ๋ก๋ด ํ๋ซํผ์ ์ฌ์ฉํ์๋ค. ํนํ ์ฃผ๋ชฉํ ์ ์ ๋ฐ์ดํฐ ์์ฑ์ ๋์ด๋๋ฅผ ๊ฒฐ์ ํ๋ โํ๊ฒฝ ๋ฌด์์ํโ์ ์์ค์ด๋ค.
| ๋ฌด์์ํ ์์ค | ์ค๋ช | ๋์ด๋ ๋ฐ ํน์ง |
|---|---|---|
| D0 | ์์ฐ๊ณผ ๊ฑฐ์ ๋์ผํ ํ๊ฒฝ | ๋งค์ฐ ์ฌ์, ๋จ์ ๋ณต์ ์์ค |
| D1 (Local) | ๋ฌผ์ฒด ์์น๋ฅผ ์ํญ(์์ญ cm) ๋ณ๊ฒฝ | ๋ณดํต, ๊ธฐ์กด X-Gen ๊ณ์ด์ ํ๊ฒ ๋ฒ์ |
| D2 (Aggressive) | ๋ฐฉ ์ ์ฒด์ ๊ฑธ์ณ ๋ฌผ์ฒด ์์น ๋ฌด์์ ๋ฐฐ์น ๋ฐ ์ฅ์ ๋ฌผ ์ถ๊ฐ | ๋งค์ฐ ๋์, MoMaGen์ ํต์ฌ ์ฐจ๋ณ์ |
์ฐ๊ตฌ ๊ฒฐ๊ณผ, MoMaGen์ D2์ ๊ฐ์ ๊ทนํ์ ํ๊ฒฝ์์๋ 80% ์ด์์ ๋์ ์ฑ๊ณต๋ฅ ๋ก ์๋ก์ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํด๋๋ค. ๋ฐ๋ฉด ๊ธฐ์กด์ MimicGen์ด๋ ์๊ฐ์ ์ ์ฝ์ด ์๋ ๋ฐฉ์๋ค์ ๋ฒ ์ด์ค ์์น๋ฅผ ์ก์ง ๋ชปํ๊ฑฐ๋ ์กฐ์ ์๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ณด์ง ๋ชปํด ์ฑ๊ณต๋ฅ ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๋ชจ์ต์ ๋ณด์๋ค.
์ ์ฑ ํ์ต ์ฑ๊ณผ์ ์๊ฐ์ ์ ์ฝ์ ๊ฐ์น
์์ฑ๋ 1,000๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก WB-VIMA(Whole-Body VisuoMotor Attention) ์ ์ฑ ์ ํ์ต์ํจ ๊ฒฐ๊ณผ๋ ๋๋ผ์ ๋ค.
๋จ ํ๋์ ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก ์์ํ์์๋ ๋ถ๊ตฌํ๊ณ , MoMaGen์ด ์์ฑํ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋ก๋ด์ ์ด์ ์ ํ ๋ฒ๋ ๊ฐ๋ณด์ง ์์ ์์น์ ๋์ธ ๋ฌผ์ฒด๋ฅผ ์ ํํ ์ฐพ์๊ฐ ์์ ์ ์์ํ๋ค. ํนํ โ์ด๋ ์ค ๊ฐ์์ฑโ์ด๋ผ๋ ์ํํธ ์ ์ฝ ์กฐ๊ฑด์ ๋ฃ์์ ๋์ ๋ฃ์ง ์์์ ๋์ ์ฑ๋ฅ ์ฐจ์ด๋ ๊ทน๋ช ํ๋ค. ์ด๋ ์ค์ ๋ฌผ์ฒด๋ฅผ ๊ณ์ ์์ผ์ ๋ด๋๋ก ์ ๋๋ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ก๋ด์, ๋ฌผ์ฒด์ ์์น๋ฅผ ๋์น์ง ์๊ณ ๋๊น์ง ์ถ์ ํ๋ ๊ฐ๊ฑดํ ์๊ฐ ์ง๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
| ์์ ๋ช ์นญ | ์ฑ๊ณต ์กฐ๊ฑด (Metric) | MoMaGen ํ์ต ํ ์ฑ๊ณต๋ฅ (D2) | ๊ธฐ์กด ๋ฐฉ์ ๋๋น ํฅ์๋ |
|---|---|---|---|
| Pick Cup | ์ปต์ ์์ ์ ์ผ๋ก ํ์ง ๋ฐ ๋ฆฌํํ | 92% | +45% |
| Tidy Table | ํ ์ด๋ธ ์ ๋ฌผ์ฒด๋ฅผ ์ง์ ๋ ๋ฐ์ค์ ์ ๋ฆฌ | 85% | +60% |
| Clean Pan | ์คํ์ง๋ก ํฌ์ ์ค์ผ ๋ถ์๋ฅผ ๋ฆ์ | 78% | +52% |
| Put Dishes Away | ์๊ธฐ๋ฅผ ์ฐฌ์ฅ์ผ๋ก ์ด๋์์ผ ์ ๋ ฌ | 72% | +65% |
์ด ๋ฐ์ดํฐ๋ MoMaGen์ด ์์ฑํ ๋ฐ์ดํฐ๊ฐ ๋จ์ํ ์์ ํฝ์ฐฝ์ ๋์ด, ํ์ต ๋ชจ๋ธ์ด ์ค์ ์ธ๊ณ์ ๋ณต์ก์ฑ์ ์ดํดํ๋ ๋ฐ ํ์ํ โ์ง์ ๊น์ดโ๋ฅผ ์ ๊ณตํจ์ ์์ฌํ๋ค.
ํต์ฐฐ: ๋ก๋ด ๊ณตํ์๊ฐ ์ฃผ๋ชฉํด์ผ ํ MoMaGen์ ์ธ ๊ฐ์ง ์ ๋ฌผ
MoMaGen์ ๋ฑ์ฅ์ ๋จ์ํ ๋ฐ์ดํฐ ์์ฑ๊ธฐ๊ฐ ํ๋ ๋ ๋์ด๋ ๊ฒ ์ด์์ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. ๋ก๋ด ๊ณตํ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ค์ ๋ํด ์ด ์ฐ๊ตฌ๊ฐ ๋์ง๋ ํต์ฐฐ์ ๋งค์ฐ ๋ ์นด๋กญ๋ค.
1. ๊ด์ธก ๊ฐ๋ฅ์ฑ์ ๋ฅ๋์ ํ๋ณด
๊ทธ๋์ ๋ง์ ๋ก๋ด ํ์ต ์ฐ๊ตฌ๋ค์ โ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ๋ณผ ์ ์๋คโ๋ ๊ฐ์ ์ ๋๋ฌด ์ฝ๊ฒ ํด์๋ค. ํ์ง๋ง ์ด๋ ๋ก๋ด์๊ฒ ๊ฐ์์ฑ์ ์ฃผ์ด์ง๋ ๊ฒ์ด ์๋๋ผ ์์ทจํด์ผ ํ๋ ๊ฒ์ด๋ค. MoMaGen์ ๊ฐ์์ฑ์ ์ ์ฝ ์กฐ๊ฑด ์ต์ ํ์ ํต์ฌ ์์๋ก ๋์ด๋ค์์ผ๋ก์จ, ๋ก๋ด์ด ์ค์ค๋ก โ์ ๋ณด๊ธฐ ์ํด ์ด๋๋ก ์์ง์ฌ์ผ ํ๋๊ฐโ๋ฅผ ๋ฐ์ดํฐ ์ฐจ์์์ ํด๊ฒฐํ๊ฒ ๋ง๋ค์๋ค. ์ด๋ ๋ถ๋ถ ๊ด์ธก์ฑ(Partial Observability)์ด ์ง๋ฐฐํ๋ ํ์ค ์ธ๊ณ์์ ๋ก๋ด์ด ์ด์๋จ๊ธฐ ์ํ ๊ฐ์ฅ ๊ธฐ์ด์ ์ธ ์ฒด๋ ฅ์ ๊ธธ๋ฌ์ฃผ๋ ๋ฐฉ์์ด๋ค.
2. ๊ธฐํํ์ ์ง๋ฅ๊ณผ ํ๋ฅ ์ ์ผ๋ฐํ์ ๊ฒฐํฉ
๋ก๋ด์ด ์๋ก์ด ์ฅ์์์ ์์ ์ ์ํํ๊ธฐ ์ํด์๋ ๊ธฐํํ์ ์ดํด(IK, Planning)์ ํ๋ฅ ์ ํจํด ์ธ์(Policy Learning)์ด ๋ชจ๋ ํ์ํ๋ค. MoMaGen์ ๋ฐ์ดํฐ ์์ฑ ๋จ๊ณ์์๋ ์๊ฒฉํ ๊ธฐํํ์ ์ ์ฝ(IK, Collision)์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ์ ํ์ง์ ๋ณด์ฅํ๊ณ , ์ด๋ ๊ฒ ๋ง๋ค์ด์ง โ๊นจ๋ํ ๋ฐ์ดํฐโ๋ฅผ ์ ๊ฒฝ๋ง์ ์ฃผ์ ํ์ฌ ์ ๊ฒฝ๋ง์ด ๋์ ๋ฒ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ๋ค. ์ฆ, โ๊ธฐํํ์ผ๋ก ์ ๋ต์ ๋ง๋ค๊ณ , ๋ฅ๋ฌ๋์ผ๋ก ๊ทธ ์ ๋ต์ ์์ญ์ ๋ํ๋คโ๋ ์ ๋ต์ด๋ค.
3. Sim-to-Real์ ํผํผํ ๊ต๋
์ค์ ๋ก๋ด ํ๊ฒฝ์์ 1,000๊ฐ์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ป๋ ๊ฒ์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ค. ํ์ง๋ง MoMaGen์ผ๋ก ์๋ฎฌ๋ ์ด์ ์์ 1,000๊ฐ๋ฅผ ๋ง๋ค๊ณ , ์ด๋ฅผ ํตํด ๋ก๋ด์ด ๊ธฐ๋ณธ์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น๊ณผ ์๊ฐ์ ๋์๋ฒ์ ์ตํ๊ฒ ํ ๋ค, ์ค์ ํ๊ฒฝ์์ ๋จ 40๊ฐ์ ์์ฐ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ์ ๊ฑฐ์น๋ฉด ๋ก๋ด์ ๋๋ผ์ด ์ฑ๋ฅ์ ๋ฐํํ๋ค. ์ด๋ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด ์ฐ๊ตฌ์ค ๋ฐ์ ๋๊ฐ์ง ๋ชปํ๋ ๋ง์ ๋ก๋ด ๋ชจ๋ธ๋ค์ด ํ์ค ์ธ๊ณ๋ก ๋๊ฐ ์ ์๋ ์ค์ง์ ์ธ ํฐ์ผ์ ๊ฑฐ๋จธ์ฅ์์์ ์๋ฏธํ๋ค.
ํ๊ณ์ ๋นํ์ ๊ณ ์ฐฐ: ๋จ๊ฒจ์ง ๊ณผ์ ๋ค
๋ชจ๋ ๊ธฐ์ ์ ๋์ฝ์๋ ๋๊ฐ๊ฐ ๋ฐ๋ฅด๋ฉฐ, MoMaGen ์ญ์ ํด๊ฒฐํด์ผ ํ ์์ ๋ค์ ์๊ณ ์๋ค.
์ฒซ์งธ, ์๋ฎฌ๋ ์ด์ ์ ์ถฉ์ค๋(Fidelity) ๋ฌธ์ ๋ค. MoMaGen์ ์๋ฎฌ๋ ์ด์ ๋ด์์ ๋ฌผ์ฒด์ ์์น์ ์ํ๋ฅผ ์๋ฒฝํ๊ฒ ์๊ณ ์๋ค๋ ๊ฐ์ (Ground Truth) ํ์ ์๋ํ๋ค. ๋ง์ฝ ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ ์์ง์ด ํ์ค์ ๋ฏธ๋ฌํ ๋ง์ฐฐ๋ ฅ์ด๋ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด์ ํน์ฑ์ ๋ฐ์ํ์ง ๋ชปํ๋ค๋ฉด, ์์ฑ๋ ๋ฐ์ดํฐ๋ ์คํ๋ ค ํ์ค ์ธ๊ณ์์ ๋ ์ด ๋ ์ ์๋ค. ์ต๊ทผ 3D Gaussian Splatting์ด๋ MLLM์ ํ์ฉํด ๋ ์ ๊ตํ ์๋ฎฌ๋ ์ด์ ์์ฐ์ ๋ง๋ค๋ ค๋ ์๋๋ค(์: RoboSimGS)์ด MoMaGen๊ณผ ๊ฒฐํฉ๋์ด์ผ ํ๋ ์ด์ ๋ค.
๋์งธ, ํ์ ์์ ์ฃผ์์ ์๋์ฑ์ด๋ค. ๋น๋ก ๋จ ํ ๋ฒ์ ์์ฐ๋ง ํ์ํ๋ค๊ณ ๋ ํ์ง๋ง, ์ฌ๋์ด ์ผ์ผ์ด ์์์ ํ์์คํฌํ๋ฅผ ์ฐ๊ณ ๋ฌผ์ฒด ์ด๋ฆ์ ์ ๋ ฅํ๋ ๊ณผ์ ์ ์ฌ์ ํ ๋ฒ๊ฑฐ๋กญ๋ค. ํฅํ์๋ ๋น๋์ค ์ธ์ด ๋ชจ๋ธ(Video-Language Models)์ด ์์ฐ ์์์ ๋ณด๊ณ ์๋์ผ๋ก MoMaGen์ด ์ดํดํ ์ ์๋ ์ฃผ์์ ๋ฌ์์ฃผ๋ ์์ ์๋ํ ํ์ดํ๋ผ์ธ์ด ๊ตฌ์ถ๋์ด์ผ ํ ๊ฒ์ด๋ค.
์ ์งธ, ๊ณ ์ ๋ ์ ์ฝ ์กฐ๊ฑด์ ๊ฒฝ์ง์ฑ์ด๋ค. ํ์ฌ MoMaGen์ ๋ฏธ๋ฆฌ ์ ์๋ ํ๋/์ํํธ ์ ์ฝ ์กฐ๊ฑด์ ์ฌ์ฉํ๋ค. ํ์ง๋ง ์ด๋ค ์์ ์์๋ ๊ฐ์์ฑ๋ณด๋ค ์์ ์ฑ์ด ๋ ์ค์ํ ์ ์๊ณ , ์ด๋ค ์์ ์์๋ ์๋์ง ํจ์จ์ด ์ต์ฐ์ ์ผ ์ ์๋ค. ๋ก๋ด์ด ์์ ์ ์ฑ๊ฒฉ์ ๋ฐ๋ผ ์ค์ค๋ก ์ ์ฝ ์กฐ๊ฑด์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ์์ ์์ค์ ์ง๋ฅ์ด ์ถ๊ฐ๋๋ค๋ฉด ์์คํ ์ ๋์ฑ ๊ฐ๋ ฅํด์ง ๊ฒ์ด๋ค.
๊ฒฐ๋ก : ๋ฐ์ดํฐ๊ฐ ์ง๋ฅ์ ๋ง๋๋ ์๋๋ก์ ๊ฐ์
MoMaGen ์ฐ๊ตฌ๋ ์ด๋ ์กฐ์ ๋ก๋ด ํ์ต์ ํจ๋ฌ๋ค์์ โ๋ฐ์ดํฐ ์์งโ์์ โ๋ฐ์ดํฐ ์์ฑโ์ผ๋ก ๊ทผ๋ณธ์ ์ผ๋ก ์ ํ์์ผฐ๋ค. โ๋ ๋ง์ ์์ฐ์ ๋ณด์ฌ๋ฌ๋ผโ๊ณ ์ ๊ฑธํ๋ ๋ก๋ด์ด ์ด์ ๋ โํ ๋ฒ๋ง ๋ณด์ฌ์ฃผ๋ฉด ๋๋จธ์ง๋ ๋ด๊ฐ ์์์ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ง๊ฒ ์๋ง ๊ฐ์ง ์ํฉ์ ์ฐ์ตํด ๋ณด๊ฒ ๋คโ๊ณ ์ ์ธํ ์ ์ด๋ค.
์ด ์ฐ๊ตฌ๊ฐ ๋ณด์ฌ์ค ์ ์ฝ ์กฐ๊ฑด ์ต์ ํ ๊ธฐ๋ฐ์ ์ ๊ทผ๋ฒ์ ๋ก๋ด ๊ณตํ์ ๊ณ ์ ์ ์ธ ๊ธฐ๊ตฌํ์ ์ง์๊ณผ ํ๋์ ๋ฐ์ดํฐ ์ค์ฌ ํ์ต ๋ฐฉ๋ฒ๋ก ์ด ์ด๋ป๊ฒ ์๋ฆ๋ต๊ฒ ์กฐํ๋ฅผ ์ด๋ฃฐ ์ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์๋ฒฝํ ์ฌ๋ก๋ค. ํ๋ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ํ์ค์ ์๊ฒฉํจ์ ๊ฐ๋ฅด์น๊ณ , ์ํํธ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ์์ ์ ์ ์ฐํจ์ ๊ฐ๋ฅด์น๋ MoMaGen์ ๋ฐฉ์์ ๋จ์ํ ์ํ ๋ก๋ด์ ๋์ด, ๋ค์กฑ ๋ณดํ ๋ก๋ด์ด๋ ๋๋ก ๋ฑ ์๊ฐ๊ณผ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ด ํ์ํ ๋ชจ๋ ๋ก๋ด ํ๋ซํผ์ผ๋ก ํ์ฅ๋ ์ ์ฌ๋ ฅ์ด ํฌ๋ค.
์ฐ๋ฆฌ๋ ์ด์ ๋ก๋ด์ด ์์ฒ ๊ฐ์ง ๊ฐ์ฌ ๋ ธ๋์ ์ค์ค๋ก ์ตํ๊ณ , ๊ณต์ฅ์์ ์๋ก์ด ๊ณต์ ์ ๋ช ๋ถ ๋ง์ ํ์ตํ๋ ์๋๋ฅผ ๋ชฉ์ ์ ๋๊ณ ์๋ค. MoMaGen์ ๊ทธ ์๋๋ฅผ ํฅํด ๋ด๋๋ ๋งค์ฐ ์ค์ํ๊ณ ๋ ์๋ฆฌํ ํ ๊ฑธ์์ด๋ค. ๋ก๋ด ๊ณตํ์๋ค์๊ฒ ์ด ๋ ผ๋ฌธ์ ๋ฐ์ดํฐ์ ํ๊ณ๋ฅผ ๋์ด์๋ ๋ฐฉ๋ฒ๋ก ์ ์๊ฐ์ ์ฃผ๋ ๋์์, ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ ์ฝ ์กฐ๊ฑด์ ์ํ์ ์ถ๋ณต์ผ๋ก ๋ฐ๊พธ๋ ์งํ๋ฅผ ์ ์ฌํ๊ณ ์๋ค.
์ด๋ ์กฐ์์ ๋์ ๋ฅผ ํ๊ธฐ ์ํด ๋ก๋ด์ ์ ์ ์ ๊ณ ๋ฏผํ๊ณ , ์นด๋ฉ๋ผ์ ์์ ์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ์ ๋ํํ MoMaGen์ ์๋๋ ์์ผ๋ก ๋ฑ์ฅํ ์๋ง์ โ๋ก๋ด ๋ฐ์ดํฐ ์์ฑ ์์งโ์ ํ์ค ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก์ ๊ฒ์ด๋ค. ๋ฐ์ดํฐ๊ฐ ๊ณง ์ง๋ฅ์ ์ฒ๋๊ฐ ๋๋ ์๋์, MoMaGen์ ๋ก๋ด์๊ฒ ๋ง๋ฅด์ง ์๋ ์ง์์ ์์ ์ ๊ณตํ๋ ํต์ฌ ๊ธฐ์ ์ด ๋ ๊ฒ์์ด ๋ถ๋ช ํ๋ค.