flowchart LR
A["Raw Image"] --> B["VLM: Object ID<br/>+ Bounding Box"]
B --> C["SAM: Mask<br/>Generation"]
C --> D["Cutie: Video<br/>Mask Tracking"]
D --> E["DINOv2: Visual<br/>Feature Extraction"]
E --> F["Domain-Invariant<br/>Representation"]
style A fill:#ffecb3
style F fill:#c8e6c9
๐DexGraspVLA(AAAI 2026) ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค ์ด ๋ ผ๋ฌธ์ ์ธ์ด ๊ธฐ๋ฐ์ ์ผ๋ฐ์ ์ธ Dexterous Grasping์ ์ํ ๊ณ์ธต์ Vision-Language-Action (VLA) ํ๋ ์์ํฌ์ธ DexGraspVLA๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ก DexGraspVLA๋ pre-trained VLM์ ๊ณ ์์ค ํ๋๋๋ก, Diffusion-based low-level Action controller์์ foundation model์ ํ์ฉํ์ฌ ๋ค์ํ ์ ๋ ฅ์ผ๋ก๋ถํฐ domain-invariant representation์ ์ถ์ถ, Imitation Learning์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ์ฌ ๋ฐ์ด๋ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
- ๐ DexGraspVLA๋ ์์ฒ ๊ฐ์ ๋ณด์ง ๋ชปํ cluttered scene์์ 90% ์ด์์ grasping ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ผ๋ฉฐ, long-horizon task ๋ฐ nonprehensile grasping ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ๊ฒฌ๊ณ ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ๊ณตํ ๋ถ์ผ์ ๊ทผ๋ณธ์ ์ด๋ฉด์๋ ์ด๋ ค์ด ๋ฌธ์ ์ธ ์ผ๋ฐ์ ์ธ dexterous grasping(๋ฅ์ํ ์ก๊ธฐ)์ ๋ชฉํ๋ก ํ๋ ๊ณ์ธต์ VLA(Vision-Language-Action) ํ๋ ์์ํฌ์ธ DexGraspVLA๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋จ์ผ ๊ฐ์ฒด ์ค์ ์ด๋ ์ ํ๋ ํ๊ฒฝ๊ณผ ๊ฐ์ ์ ์ฝ์ ์ธ ๊ฐ์ ์ ์์กดํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ผ๋ ํ๊ณ๊ฐ ์์ต๋๋ค. DexGraspVLA๋ ๋ค์ํ ์ธ์ด ๋ฐ ์๊ฐ์ ์ ๋ ฅ๋ค์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(foundation model)์ ํตํด ๋๋ฉ์ธ ๋ถ๋ณ(domain-invariant) ํํ์ผ๋ก ๋ฐ๋ณต์ ์ผ๋ก ๋ณํํ๊ณ , ์ด ํํ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ์ฌ ๋๋ฉ์ธ ์ด๋(domain shift) ๋ฌธ์ ๋ฅผ ์ํํจ์ผ๋ก์จ ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
DexGraspVLA๋ ๊ณ ์์ค ๊ณํ๊ธฐ(high-level planner)์ ์ ์์ค ์ ์ด๊ธฐ(low-level controller)๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ์ด๊ณ ๋ชจ๋ํ๋ ์ํคํ ์ฒ๋ฅผ ์ฑํํฉ๋๋ค.
- ๊ณ ์์ค ๊ณํ๊ธฐ (High-level Planner):
- ์ฌ์ ํ์ต๋ Qwen VLM(Vision-Language Model)์ ํ์ฉํ์ฌ ์ฌ์ฉ์ ํ๋กฌํํธ p (์: โ์ํ์ ์น์๋ผโ)๋ฅผ ์ดํดํ๊ณ , ๊ฐ๋ณ ๊ฐ์ฒด ์์ค์ ์ก๊ธฐ ์ง์ l (์: โ์ฟ ํค๋ฅผ ์ก์๋ผโ)๋ก ๋ถํดํฉ๋๋ค.
- ์ด ๊ณผ์ ์์ VLM์ ํ์ฌ ์ฅ๋ฉด์ ์ด๋ฏธ์ง(I_h^t)๋ฅผ ๋ถ์ํ์ฌ ํ๊ฒ ๊ฐ์ฒด์ ๋ฐ์ด๋ฉ ๋ฐ์ค (x_1, y_1, x_2, y_2)๋ฅผ ํ์คํฌ ์ดํฌ๋์ค(task affordance) ์ ํธ๋ก ์ ๊ณตํฉ๋๋ค. ๋ค์ํ ์ธ์ด์ ์๊ฐ์ ์ ๋ ฅ์ ๋๋ฉ์ธ ๊ฐ๋ณ์ (domain-variant)์ผ ์ ์์ง๋ง, ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๊ฐ์ฒด ์์น ํ์ ์ ์์ด ๋๋ฉ์ธ ๋ถ๋ณ์ ์ธ ์ผ๊ด๋ ํ์์ผ๋ก, ์ ์์ค ์ ์ด๊ธฐ์ ํ์ต ๋์ด๋๋ฅผ ๊ฒฝ๊ฐ์ํต๋๋ค.
- ๊ณํ๊ธฐ๋ ์ ์ด๊ธฐ์ ์คํ์ ๋ชจ๋ํฐ๋งํ๊ณ , ๊ฐ ์ก๊ธฐ ์๋ ํ ๋ก๋ด์ ์ด๊ธฐ ์ํ๋ก ์ฌ์ค์ ํ๋ฉฐ, ํ๋กฌํํธ p๊ฐ ์์ ํ ์๋ฃ๋ ๋๊น์ง ์ ๋ฐ์ดํธ๋ ์ง์ l์ ๊ณ์ ์ ์ํฉ๋๋ค.
- ์ ์์ค ์ ์ด๊ธฐ (Low-level Controller):
- ๊ณํ๊ธฐ๊ฐ ์ ๊ณตํ ๋ฐ์ด๋ฉ ๋ฐ์ค (x_1, y_1, x_2, y_2)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
- ๋ง์คํฌ ์ถ์ (Mask Tracking): ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ SAM (Segment Anything Model)์ ์ ๋ ฅํ์ฌ ํ๊ฒ ๊ฐ์ฒด์ ์ด๊ธฐ ์ด์ง ๋ง์คํฌ m_0 \in \{0,1\}^{H \times W \times 1}๋ฅผ ์ป์ต๋๋ค. ์ดํ Cutie ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋งค ํ์์คํ t๋ง๋ค ๋ง์คํฌ m_t๋ฅผ ์ง์์ ์ผ๋ก ์ถ์ ํ์ฌ ๋ณต์กํ ์ฅ๋ฉด์์๋ ์ ํํ ๊ฐ์ฒด ์๋ณ์ ๋ณด์ฅํฉ๋๋ค.
- ๋๋ฉ์ธ ๋ถ๋ณ ํน์ง ์ถ์ถ (Domain-Invariant Feature Extraction): raw visual input I_w^t, I_h^t์ ๋์ ๊ฐ๋ณ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด, ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ธ DINOv2 (ViT-B/14 for head camera, ViT-L/14 for wrist camera)๋ฅผ ํน์ง ์ถ์ถ๊ธฐ \phi๋ก ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด head camera ์ด๋ฏธ์ง ํน์ง z_h^t = \phi_h(I_h^t) \in \mathbb{R}^{L_h \times D_h} ์ wrist camera ์ด๋ฏธ์ง ํน์ง z_w^t = \phi_w(I_w^t) \in \mathbb{R}^{L_w \times D_w}๋ฅผ ์ป์ต๋๋ค. ์ด ์ถ์ถ๋ ํน์ง๋ค์ ๊ต๋์ ์ธ ์๊ฐ์ ์์์ ๋น๊ต์ ๋ถ๋ณ์ฑ์ ์ ์งํฉ๋๋ค.
- ํน์ง ์ตํฉ ๋ฐ ์๋ฒ ๋ฉ (Feature Fusion and Embedding): ๋ง์คํฌ m_t๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋ ViT๋ฅผ ํตํด head ์ด๋ฏธ์ง ํน์ง ๊ณต๊ฐ์ผ๋ก ํฌ์๋์ด z_m^t \in \mathbb{R}^{L_h \times D_h}๋ฅผ ์์ฑํฉ๋๋ค. z_h^t์ z_m^t๋ฅผ ํจ์น ๋จ์๋ก ์ฐ๊ฒฐํ์ฌ \bar{z}_h^t \in \mathbb{R}^{L_h \times 2D_h}๋ฅผ ์ป์ต๋๋ค. ์ด์ด์ \bar{z}_h^t, wrist-camera ํน์ง z_w^t, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด ๊ณ ์ ์์ฉ๊ฐ๊ฐ(proprioception) s_t๋ฅผ ๊ฐ๊ฐ ๋ณ๋์ MLP๋ฅผ ์ฌ์ฉํ์ฌ ๊ณตํต ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ํฌ์ํ์ฌ \tilde{z}_h^t, \tilde{z}_w^t, \tilde{z}_s^t๋ฅผ ์์ฑํฉ๋๋ค. ์ด ์๋ฒ ๋ฉ๋ค์ ์ฐ๊ฒฐํ์ฌ ์ ์ฒด ๊ด์ธก ํน์ง ์ํ์ค \tilde{z}_{obs}^t \in \mathbb{R}^{(1+L_h+L_w) \times D}๋ฅผ ํ์ฑํฉ๋๋ค.
- ์ก์
์์ธก (Action Prediction): DiT (Diffusion Transformer) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ค์ H๊ฐ ์ก์
์ ํฌํจํ๋ ์ก์
๋ฉ์ด๋ฆฌ(action chunk) A_t = a_{t:t+H}๋ฅผ ์์ธกํฉ๋๋ค.
- ํ์ต ์: ์์์ ํ์ฐ ์คํ (diffusion step) k๊ฐ ์ํ๋ง๋๊ณ , A_t์ ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ \epsilon์ด ์ถ๊ฐ๋์ด ๋ ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ ์ก์ ํ ํฐ x_k = \alpha_k A_t + \sigma_k \epsilon๊ฐ ์์ฑ๋ฉ๋๋ค. ์ฌ๊ธฐ์ \alpha_k์ \sigma_k๋ DDPM (Denoising Diffusion Probabilistic Models) ๊ณ์์ ๋๋ค.
- x_k๋ ๊ด์ธก ํน์ง ์ํ์ค \tilde{z}_{obs}^t์ ํจ๊ป DiT์ ์ ๋ ฅ๋ฉ๋๋ค. ๊ฐ DiT ๋ ์ด์ด๋ ์ก์ ํ ํฐ์ ๋ํ ์๋ฐฉํฅ ์ ํ-์ดํ ์ , \tilde{z}_{obs}^t์ ๋ํ ํฌ๋ก์ค-์ดํ ์ , ๊ทธ๋ฆฌ๊ณ MLP ๋ณํ์ ์ํํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์๋ ๋ ธ์ด์ฆ \epsilon์ ์์ธกํฉ๋๋ค. ๋ ธ์ด์ฆ ์์ธก ์ค์ฐจ๋ฅผ ์ต์ํํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ค์ ์ก์ ๋ฉ์ด๋ฆฌ A_t๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ํ์ตํฉ๋๋ค.
- ์ถ๋ก ์: ๋ฐ๋ณต์ ์ธ denoising ์คํ ์ ํตํด ํ์ต๋ ๋ถํฌ๋ก๋ถํฐ ์๋๋ ๋ค๋จ๊ณ ์ก์ ์ํ์ค๋ฅผ ๋ณต๊ตฌํฉ๋๋ค. Receding horizon control ์ ๋ต์ ์ฌ์ฉํ์ฌ ์์ธก๋ ์ก์ ๋ฉ์ด๋ฆฌ ์ค ์ฒซ H_a๊ฐ์ ์ก์ ๋ง ์คํํ ํ ์๋ก์ด ์ก์ ๋ฉ์ด๋ฆฌ ์์ธก์ ์์ฑํ์ฌ ๋ฐ์์ฑ์ ํฅ์์ํต๋๋ค.
DexGraspVLA๋ 2,094๊ฐ์ ์ฑ๊ณต์ ์ธ ๋ฐ๋ชจ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ (36๊ฐ ๊ฐ์ ์ฉ ๊ฐ์ฒด, ๋ณต์กํ ์ฅ๋ฉด)์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ๊ฐ ์ํผ์๋๋ ์๋ณธ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง, ๋ก๋ด ๊ณ ์ ์์ฉ๊ฐ๊ฐ, ๊ฐ์ฒด ๋ง์คํฌ, ์ก์ ์ ๊ธฐ๋กํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ:
- ๋๊ท๋ชจ ์ผ๋ฐํ: ์์ฒ ๊ฐ์ ๋ณด์ง ๋ชปํ(unseen) ๋ฌผ์ฒด, ์กฐ๋ช , ๋ฐฐ๊ฒฝ ์กฐํฉ์ ํผ์กํ ์ฅ๋ฉด์์ 90.8%์ ๋ฐ์ด๋ ์ก๊ธฐ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ โzero-shotโ ํ๊ฒฝ์์ ๋ฌ์ฑ๋์์ผ๋ฉฐ, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค.
- ๊ฐ๋ ฅํ ๋ด์ฑ: ์ ๋์ ๊ฐ์ฒด(adversarial objects), ์ธ๊ฐ์ ๋ฐฉํด, ์คํจ ๋ณต๊ตฌ์ ๋ํ ๊ฐ๋ ฅํ ๋ด์ฑ์ ๋ณด์ฌ์ค๋๋ค.
- ๋ด๋ถ ๋ชจ๋ธ ๋์ ๋ถ์: ํ๊ฒฝ ๋ณํ์๋ ๋ถ๊ตฌํ๊ณ DINOv2 ํน์ง๊ณผ DiT ์ดํ ์ ๋งต์ด ์ผ๊ด์ฑ์ ์ ์งํจ์ ์๊ฐ์ ์ผ๋ก ์ ์ฆํ์ฌ, ๋๋ฉ์ธ ๋ถ๋ณ ํํ์ด ์ผ๋ฐํ์ ๊ธฐ์ฌํจ์ ํ์ธํ์ต๋๋ค.
- ์ฅ๊ธฐ ์ํ์ค ํ์คํฌ: โํ ์ด๋ธ ์น์ฐ๊ธฐโ์ ๊ฐ์ ์์ ํ์์ ์ฅ๊ธฐ ์ํ์ค ์ง์๋ฅผ 89.6%์ ์ฑ๊ณต๋ฅ ๋ก ์ํํ๋ฉฐ, ๊ณํ๊ธฐ์ ์ ์ด๊ธฐ ๋ชจ๋ ๊ฐ์ ์๋์ง๋ฅผ ์ ์ฆํ์ต๋๋ค.
- ๋นํ์งํ ์ก๊ธฐ(Nonprehensile Grasping) ํ์ฅ: ๋ฅ์ํ ์กฐ์์ด ํ์ํ ๋นํ์งํ ์ก๊ธฐ ํ์คํฌ์๋ ์ํคํ ์ฒ ๋ณ๊ฒฝ ์์ด ์ฑ๊ณต์ ์ผ๋ก ํ์ฅ๋์ด, 84.7%์ ์ง๊ณ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
์ด ์ฐ๊ตฌ๋ DexGraspVLA๊ฐ ์ ํ๋ ๋ฐ๋ชจ๋ก๋ถํฐ ํ์ตํ์ฌ ์ค์ ํ๊ฒฝ์์ ์ ๋ขฐํ ์ ์๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ, ์ง์ ๊ธฐ๋ฐ ํ๋ ์์ํฌ์์ ์ ์ฆํ๋ฉฐ, ์ผ๋ฐ์ ์ธ ๋ฅ์ํ ์ก๊ธฐ ๋ฐ ๊ทธ ์ด์์ ๋ก๋ด ์กฐ์์ ํฅํ ์ ๋งํ ์ง์ ์ ๋ณด์ฌ์ค๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ๊ธฐ๋ฅ์ ์ก๊ธฐ ๋ฐ ํ์ ์กฐ์, ์ด๊ฐ ์ผ์ฑ ํตํฉ์ผ๋ก ํ์ฅํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
DexGraspVLA๋ผ๋ ์ด๋ฆ์ ์ด ํ๋ ์์ํฌ๋ 2025๋ AAAI์์ Oral ๋ฐํ๋ก ์ ์ ๋ ๋ ผ๋ฌธ์ธ๋ฐ์, ์์งํ ๋งํด์ ์ด ๋ถ์ผ์์ ์ผํ๋ ์ฐ๋ฆฌ ๋ชจ๋๊ฐ ์ค๋ซ๋์ ๊ฟ๊ฟ์๋ ๊ฒ์ ์คํํ๋ค๊ณ ๋ด๋ ๋ฌด๋ฐฉํฉ๋๋ค.
์, ๋ฌธ์ ๋ฅผ ํ๋ฒ ์ ์ํด ๋ด ์๋ค. ๋ก๋ด์ด ๋ฌผ๊ฑด์ ์ง๋ ๊ฒ. ์ผ๋ง๋ ๊ฐ๋จํด ๋ณด์ ๋๊น? ์ฌ๋ฌ๋ถ์ ์ง๊ธ ์ปคํผ์์ ์ง๊ธฐ ์ํด ๋ช ์ด์ ๊ณ ๋ฏผ์ ํฉ๋๊น? ๊ฑฐ์ 0์ด์ ๊ฐ๊น์ฃ . ํ์ง๋ง ๋ก๋ด์๊ฒ ์ด๊ฑด ์์ ํ ๋ค๋ฅธ ์ด์ผ๊ธฐ์ ๋๋ค.
๊ธฐ์กด ๋ฑ์คํฐ๋ฌ์ค ๊ทธ๋์คํ ์ฐ๊ตฌ๋ค์ ๋ฌธ์ ์ ์ ํ๋ฒ ์ง์ด๋ด ์๋ค:
- ๋จ์ผ ๊ฐ์ฒด ํ๊ฒฝ์์๋ง ์๋ (ํ์ค ์ธ๊ณ๋ ์ด์ง๋ฝ์ต๋๋ค!)
- ํน์ ์กฐ๋ช ์กฐ๊ฑด์์๋ง ์๋ (์คํ์ค ๋ฐ์ผ๋ก ๋๊ฐ๋ฉด ๋งํฉ๋๋ค)
- ํ์ตํ ๊ฐ์ฒด๋ง ์ก์ ์ ์์ (์๋ก์ด ๋ฌผ๊ฑด? ์๋ ํ ๊ฐ์ธ์)
- ์บ๋ฆฌ๋ธ๋ ์ด์ ์ค์ฐจ์ ์ทจ์ฝ (์๋ฒฝํ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ํ์์ ๋๋ค)
DexGraspVLA๋ ์ด ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํ๋์ ์ฐ์ํ ํต์ฐฐ๋ก ํด๊ฒฐํฉ๋๋ค: โFoundation Model์ ์ฌ์ฉํด์ ๋ค์ํ ์ ๋ ฅ์ ๋๋ฉ์ธ ๋ถ๋ณ(domain-invariant) ํํ์ผ๋ก ๋ณํํ๋ฉด, ๋ชจ๋ฐฉ ํ์ต์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋ค.โ
1. ํต์ฌ ํต์ฐฐ: ์ Domain-Invariant Representation์ธ๊ฐ?
1.1 ์ผ๋ฐํ์ ์ : ๋๋ฉ์ธ ์ํํธ
์, ์ฌ๋ฌ๋ถ์ด ๋ก๋ด์๊ฒ ์ฌ๊ณผ๋ฅผ ์ง๋ ๋ฒ์ ๊ฐ๋ฅด์ณค๋ค๊ณ ํฉ์๋ค. ๋นจ๊ฐ ์ฌ๊ณผ๋ฅผ ํฐ์ ํ ์ด๋ธ ์์์, ํ๊ด๋ฑ ์๋์ ์ง๋ ๋ฒ์์. ๊ทธ๋ฐ๋ฐ ๊ฐ์๊ธฐ ์ด๋ก ์ฌ๊ณผ๊ฐ ๋ํ๋ฉ๋๋ค. ๋๋ฌด ํ ์ด๋ธ ์์. ์ฐฝ๋ฌธ์ผ๋ก ๋ค์ด์ค๋ ์์ฐ๊ด ์๋์. ๋ก๋ด์ ์์ ํ ํผ๋์ ๋น ์ง๋๋ค.
์์ผ๊น์? ๋ก๋ด์ด ํ์ตํ ๊ฒ์ โ์ฌ๊ณผ๋ฅผ ์ง๋ ๋ฒโ์ด ์๋๋ผ โ๋นจ๊ฐ ์ + ํฐ ํ ์ด๋ธ + ํ๊ด๋ฑ = ์ด๋ ๊ฒ ์์ ์์ง์ฌ๋ผโ๋ฅผ ํ์ตํ ๊ฒ๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก ๋๋ฉ์ธ ์ํํธ(domain shift) ๋ฌธ์ ์ ๋๋ค.
DexGraspVLA์ ์ ์๋ค์ ์ฌ๊ธฐ์ ์ ๋ง ์๋ฆฌํ ์ง๋ฌธ์ ๋์ง๋๋ค:
โ๋ง์ฝ ๋ก๋ด์ด ๋ณด๋ ๋ชจ๋ ์ฅ๋ฉด์ ๋์ผํ โ์ธ์ดโ๋ก ๋ฒ์ญํ ์ ์๋ค๋ฉด ์ด๋จ๊น?โ
1.2 Foundation Model: ๋ฒ์ฉ ๋ฒ์ญ๊ธฐ
์ฌ๊ธฐ์ Foundation Model์ด ๋ฑ์ฅํฉ๋๋ค. DINOv2, SAM, VLM ๊ฐ์ ๋ชจ๋ธ๋ค์ ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฐ์ดํฐ์์ ํ์ต๋์์ต๋๋ค. ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ดค์ฃ . ์ด ๋ชจ๋ธ๋ค์ โ์ฌ๊ณผโ๊ฐ ๋นจ๊ฐ์์ด๋ ์ด๋ก์์ด๋ , ํ๋น ์๋๋ ํ๊ด๋ฑ ์๋๋ , โ๊ทธ๊ฒ์ด ์ฌ๊ณผ์โ์ ์์๋ด ๋๋ค.
๋น์ ๋ฅผ ๋ค์ด๋ณด์ฃ . ์ฌ๋ฌ๋ถ์ด ํ๋์ค์ด, ๋ ์ผ์ด, ์ผ๋ณธ์ด๋ก โ์๋ ํ์ธ์โ๋ฅผ ๋ฃ๋๋ค๊ณ ํฉ์๋ค:
- โBonjourโ
- โGuten Tagโ
- โใใใซใกใฏโ
ํ๋ฉด์ ์ผ๋ก๋ ์์ ํ ๋ค๋ฅด์ง๋ง, ๋ฒ์ญ๊ธฐ๋ฅผ ํต๊ณผํ๋ฉด ๋ชจ๋ ๋์ผํ ์๋ฏธ โ โ์ธ์ฌโ๋ก ๋ณํ๋ฉ๋๋ค. Foundation Model์ด ํ๋ ์ผ์ด ๋ฐ๋ก ์ด๊ฒ๋๋ค. ์๊ฐ์ ์ผ๋ก ์์ ํ ๋ค๋ฅธ ์ฅ๋ฉด๋ค์ ๋์ผํ ์๋ฏธ๋ก ์ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๋ ๊ฒ์ด์ฃ .
1.3 ๋ฐ๋ณต์ ๋ณํ(Iterative Transformation)์ ํ
DexGraspVLA์ ๋ ๋ค๋ฅธ ํต์ฌ์ ์ด ๋ณํ์ ํ ๋ฒ์ด ์๋๋ผ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ค๋ ๊ฒ์ ๋๋ค:
๊ฐ ๋จ๊ณ์์ ๋๋ฉ์ธ ํน์ ์ ์ธ ์ ๋ณด(์กฐ๋ช , ๋ฐฐ๊ฒฝ ์์, ํ ์ค์ฒ)๋ ๊ฑธ๋ฌ์ง๊ณ , ๋ณธ์ง์ ์ธ ์ ๋ณด(๊ฐ์ฒด ์์น, ํํ, ์๊ณผ์ ์๋์ ๊ด๊ณ)๋ง ๋จ์ต๋๋ค.
์ด๊ฒ์ด ๋ฐ๋ก โ1,287๊ฐ์ ๋ณด์ง ๋ชปํ ๊ฐ์ฒด, ์กฐ๋ช , ๋ฐฐ๊ฒฝ ์กฐํฉ์์ 90.8% ์ฑ๊ณต๋ฅ โ์ ๊ฐ๋ฅํ๊ฒ ํ ๋น๋ฐ์ ๋๋ค.
2. ์ํคํ ์ฒ ์ฌ์ธต ๋ถ์
2.1 ๊ณ์ธต์ ๊ตฌ์กฐ: High-Level Planner + Low-Level Controller
DexGraspVLA๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฑํํฉ๋๋ค. ์ด๊ฑด ์ฐ์ฐ์ด ์๋๋๋ค. ์ธ๊ฐ์ ์ด๋ ์ ์ด ์์คํ ๊ณผ ๋๋ผ์ธ ์ ๋๋ก ์ ์ฌํ์ฃ .
์ฌ๋ฌ๋ถ์ด ์ฑ ์ ์์ ์ปต์ ์ง์ผ๋ ค ํ ๋ ๋์์ ์ผ์ด๋๋ ์ผ์ ์๊ฐํด ๋ด ์๋ค:
- ์ ๋์ฝ(High-Level): โ์ ํ๋ ์ปต์ ์ง์ด์ผ์งโ๋ผ๊ณ ๊ณํ
- ์ด๋ ํผ์ง(Low-Level): ์๊ฐ๋ฝ ๊ฐ๋, ํ ๊ถค์ , ํ ์กฐ์ ์คํ
DexGraspVLA๋ ์ ํํ ์ด ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ ๋๋ค:
High-Level Planner (VLM ๊ธฐ๋ฐ)
flowchart LR
subgraph Input["Input"]
I1["Scene Image"]
I2["User Command:<br/>'Clear the table'"]
end
subgraph VLM["VLM Planner"]
P["Qwen2.5-VL-72B"]
end
subgraph Output["Output"]
O1["Grasp Commands:<br/>['Pick cookie',<br/>'Pick milk',<br/>'Pick pen']"]
O2["Target Bounding<br/>Boxes"]
end
Input --> VLM --> Output
style VLM fill:#e8eaf6
์ฌ๊ธฐ์ ์ฌ์ฉ๋ VLM์ Qwen2.5-VL-72B-Instruct์ ๋๋ค. 720์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๊ฑฐ๋ํ ๋ชจ๋ธ์ด์ฃ . ํ์ง๋ง ์ค์ํ ๊ฑด ํ๋ผ๋ฏธํฐ ์๊ฐ ์๋๋๋ค. ์ด ๋ชจ๋ธ์ด โํ ์ด๋ธ์ ์น์ด๋คโ๋ผ๋ ์ถ์์ ๋ช ๋ น์ โ๊ตฌ์ฒด์ ์ธ ๊ฐ๋ณ ๊ฐ์ฒด ์ง๊ธฐ ์ํ์คโ๋ก ๋ถํดํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
๋ ์ธ์์ ์ธ ๊ฒ์ ์ด Planner๊ฐ ์คํ ๋ชจ๋ํฐ๋ง๊น์ง ๋ด๋นํ๋ค๋ ์ ์ ๋๋ค:
- ๊ทธ๋์คํ ์ฑ๊ณต ํ๋จ
- ์คํจ ์ ์ฌ์๋ ํธ๋ฆฌ๊ฑฐ
- ์ ์ฒด ์์ ์๋ฃ ํ์ธ
Low-Level Controller (Diffusion ๊ธฐ๋ฐ)
์ด์ ์ง์ง ์ฌ๋ฏธ์๋ ๋ถ๋ถ์ ๋๋ค. Low-Level Controller์ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ด ์๋ค:
flowchart TB
subgraph Controller["Low-Level Controller"]
direction TB
subgraph Input["Input Modules"]
direction LR
SEG["Segmentation Models<br/>โข SAM: Initial Mask<br/>โข Cutie: Mask Tracking"]
VIS["Vision Encoder (ร3)<br/>โข DINOv2 (frozen): Head cam<br/>โข DINOv2 (frozen): Wrist cam<br/>โข ViT (trainable): Mask"]
PROJ["Projector (MLP ร3)<br/>โข Visual โ Feature<br/>โข State โ Feature"]
end
Input --> FUSE["Feature Fusion"]
FUSE --> DIT["DiT Action Head<br/>(Diffusion Transformer)<br/>Action Chunk Prediction<br/>a_t โ a_{t+H-1}"]
end
style SEG fill:#e3f2fd
style VIS fill:#e3f2fd
style PROJ fill:#e3f2fd
style DIT fill:#fff3e0
2.2 ๊ฐ ์ปดํฌ๋ํธ ์์ธ ๋ถ์
(1) ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋: SAM + Cutie
์ ๋ ๊ฐ์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ด ํ์ํ ๊น์?
SAM (Segment Anything Model)์ ์ ์ ์ด๋ฏธ์ง์์ ๋ฐ์ด๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ฐ์ด๋ฉ ๋ฐ์ค๋ง ์ฃผ๋ฉด ๊ฑฐ์ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ฒ ๋ถ๋ฆฌํด๋ ๋๋ค. ํ์ง๋ง SAM์ ํ๋ ์ ๊ฐ ์ผ๊ด์ฑ์ ๋ณด์ฅํ์ง ์์ต๋๋ค.
Cutie๋ ๋น๋์ค ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ ๋๋ค. ์ฒซ ํ๋ ์์ ๋ง์คํฌ๋ฅผ ๋ฐ์์ ์ดํ ํ๋ ์์์ ๋์ผํ ๊ฐ์ฒด๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๊ฒ์ด ์ ์ค์ํ ๊น์?
๊ทธ๋์คํ ๊ณผ์ ์์ ์์ด ๊ฐ์ฒด์ ์ ๊ทผํ๋ฉด์ ๊ฐ์ฒด๋ ๊ฐ๋ ค์ง๊ณ , ์กฐ๋ช ์ด ๋ฐ๋๊ณ , ๊ฐ๋๊ฐ ๋ณํฉ๋๋ค. Cutie๋ ์ด ๋ชจ๋ ๋ณํ ์์์๋ โ์ง๊ธ ์ถ์ ํ๋ ๊ฒ์ด ์ฒ์์ ์ง์ ํ ๋ฐ๋ก ๊ทธ ๊ฐ์ฒดโ์์ ๋ณด์ฅํฉ๋๋ค.
flowchart LR
subgraph t0["t=0"]
SAM["SAM(image, bbox)"] --> M0["initial_mask"]
end
subgraph t1["t=1"]
M0 --> C1["Cutie(image_t1)"] --> M1["tracked_mask_t1"]
end
subgraph t2["t=2"]
M1 --> C2["Cutie(image_t2)"] --> M2["tracked_mask_t2"]
end
M2 -.->|"..."| MORE["Continue tracking"]
style M0 fill:#bbdefb
style M1 fill:#bbdefb
style M2 fill:#bbdefb
(2) Vision Encoder: DINOv2 + Trainable ViT
DINOv2๋ Meta AI์ ์๊ธฐ์ง๋ ํ์ต(Self-Supervised Learning) ๋ชจ๋ธ์ ๋๋ค. ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง์์ ๋ ์ด๋ธ ์์ด ํ์ตํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ์ป์ ๊ฒ์ ๋ฒ์ฉ ์๊ฐ์ ํํ์ ๋๋ค.
์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ์ค๊ณ ๊ฒฐ์ ์ด ์์ต๋๋ค:
- DINOv2: Frozen (ํ์ต X) โ Foundation Model์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์กด
- Mask ViT: Trainable (ํ์ต O) โ ๋ง์คํฌ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋๋ก ๋ฏธ์ธ ์กฐ์
์ ์ด๋ ๊ฒ ํ์๊น์? DINOv2๋ฅผ ํ์ต์ํค๋ฉด ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ(overfit)๋ ์ํ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ฉด โ์๋ก์ด ํ๊ฒฝ์์๋ ์๋ํ๋ ๋ฒ์ฉ ํํโ์ด๋ผ๋ ์ฅ์ ์ ์์ด๋ฒ๋ฆฌ์ฃ . ๋ฐ๋ฉด ๋ง์คํฌ ์ธ์ฝ๋๋ ๋ก๋ด ํนํ ์ ๋ณด(์ด๋ค ๊ฐ์ฒด๋ฅผ ์ก์ ๊ฒ์ธ๊ฐ)๋ฅผ ํ์ตํด์ผ ํ๋ฏ๋ก ํ์ต ๊ฐ๋ฅํ๊ฒ ๋ก๋๋ค.
๋ ๊ฐ์ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค:
- Head Camera (3์ธ์นญ ์์ ): ์ ์ฒด ์ฅ๋ฉด ํ์ , ๊ฐ์ฒด ์์น ์ถ์
- Wrist Camera (1์ธ์นญ ์์ ): ์ ๋ฐํ ์-๊ฐ์ฒด ์ํธ์์ฉ, ์ธ๋ฐํ ์กฐ์
์ด๊ฒ๋ ์ธ๊ฐ๊ณผ ์ ์ฌํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฉ๋ฆฌ์ ๋์์ ๋ณด๊ณ ์์ ๋ป๋ค๊ฐ, ์์ด ๊ฐ๊น์์ง๋ฉด ์ ์ฃผ๋ณ์ ์ง์คํด์ ๋ด ๋๋ค.
(3) DiT Action Head: Diffusion Transformer
์ฌ๊ธฐ๊ฐ โ๋ง๋ฒโ์ด ์ผ์ด๋๋ ๊ณณ์ ๋๋ค. DiT (Diffusion Transformer)๋ ์ก์ ์ฒญํฌ(action chunk)๋ฅผ ์์ธกํฉ๋๋ค.
๋จผ์ Diffusion Model์ ๋ํด ๊ฐ๋จํ ์ค๋ช ํ๊ฒ ์ต๋๋ค. Diffusion์ ๋ณธ์ง์ ์ผ๋ก ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ๋๋ค:
flowchart LR
subgraph Forward["Forward (Training)"]
direction LR
A1["Clean Action"] --> A2["Add Noise"] --> A3["Pure Noise"]
end
subgraph Reverse["Reverse (Inference)"]
direction LR
B1["Pure Noise"] --> B2["Denoise"] --> B3["Clean Action"]
end
style A1 fill:#c8e6c9
style A3 fill:#ffcdd2
style B1 fill:#ffcdd2
style B3 fill:#c8e6c9
์ Diffusion์ ์ผ์๊น์? ๋ก๋ด ์กฐ์์์ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ(Multi-Modality) ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ปต์ ์ง๋ ๋ฐฉ๋ฒ์ด ํ ๊ฐ์ง๋ง ์์๊น์? ์๋๋๋ค. ์์ก์ด๋ฅผ ์ก์ ์๋ ์๊ณ , ์๋ฉด์ ๊ฐ์ ์๋ ์๊ณ , ์์์ ์ง์ ์๋ ์์ต๋๋ค. ์ ํต์ ์ธ ํ๊ท(regression) ๋ฐฉ์์ ์ด ๋ชจ๋ ๋ฐฉ๋ฒ์ ํ๊ท ์ ์ถ๋ ฅํฉ๋๋ค โ ์ด๋ ๊ฒ๋ ์๋, ์ด์ํ ๋์์ด ๋์ค์ฃ .
Diffusion Model์ ์ด ๋ถํฌ์์ ํ๋์ ์ ํจํ ๋ชจ๋(mode)๋ฅผ ์ํ๋งํ ์ ์์ต๋๋ค. ์ด๊ฒ์ด ์์ฐ์ค๋ฝ๊ณ ๋ค์ํ ๊ทธ๋์คํ ํ๋์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Action Chunk์ด๋ ๋ฌด์์ผ๊น์? ๋จ์ผ ์์ ์ ์ก์ ์ด ์๋๋ผ H ์คํ ์ ์ก์ ์ํ์ค๋ฅผ ํ ๋ฒ์ ์์ธกํ๋ ๊ฒ์ ๋๋ค:
Prediction: [a_t, a_{t+1}, a_{t+2}, ..., a_{t+H-1}]
์ด๊ฒ์ ์ฅ์ : 1. ์๊ฐ์ ์ผ๊ด์ฑ: ๋จ๋ฆผ ์๋ ๋ถ๋๋ฌ์ด ๋์ 2. ๊ณํ ๋ฅ๋ ฅ: ๋ฏธ๋ ๋์์ ๊ณ ๋ คํ ํ์ฌ ๊ฒฐ์ 3. ์ถ๋ก ํจ์จ์ฑ: ๋งค ํ๋ ์ ์ถ๋ก ๋ถํ์
3. ํ์ต ํ์ดํ๋ผ์ธ: ๋จ 2์๊ฐ์ ๋ฐ๋ชจ๋ก?
์ฌ๊ธฐ์ ์ ๊ฐ ์ ๋ง ๋๋ ๋ถ๋ถ์ ๋๋ค. ์ด ๋ชจ๋ ๋ณต์กํ ์์คํ ์ด ์ฝ 2์๊ฐ ๋ถ๋์ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต๋์์ต๋๋ค.
3.1 ๋ฐ์ดํฐ ์์ง ์์ธ
| Item | Value |
|---|---|
| Total Episodes | 2,094 |
| Avg. Episode Duration | ~3.5 sec |
| Total Duration | ~2 hours |
| Environment | Complex cluttered scenes (multiple mixed objects) |
์๊ฐํด ๋ณด์ธ์. ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์๋ฐฑ๋ง ์ํผ์๋์ ์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ต๋๋ค. End-to-End VLA ๋ชจ๋ธ๋ค์ ์๋ง ์๊ฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
2,094๊ฐ ์ํผ์๋๋ผ๋์. ์ด๊ฒ ์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น์?
3.2 ๋น๋ฐ: Foundation Model์ด ์ด๋ฏธ ํ์ตํด ๋ ๊ฒ
๋ต์ ๊ฐ๋จํฉ๋๋ค. ๋ก๋ด์ โ๋ณด๋ ๋ฒโ์ ์ฒ์๋ถํฐ ๋ฐฐ์ธ ํ์๊ฐ ์์ต๋๋ค.
DINOv2๋ ์ด๋ฏธ ์์ญ์ต ๊ฐ์ ์ด๋ฏธ์ง์์ โ๋ฌผ์ฒด๋ ๋ฌด์์ธ๊ฐโ, โ์์ด๋ ๋ฌด์์ธ๊ฐโ, โ๊ณต๊ฐ ๊ด๊ณโ๋ฅผ ํ์ตํด ๋์์ต๋๋ค. ๋ก๋ด์ด ๋ฐฐ์์ผ ํ๋ ๊ฒ์ โ์ด ๋๋ฉ์ธ ๋ถ๋ณ ํํ์์ ์ด๋ป๊ฒ ์์ ์์ง์ผ ๊ฒ์ธ๊ฐโ๋ฟ์ ๋๋ค.
์ด๊ฒ์ ๋ง์น ์ฌ๋ฌ๋ถ์ด ์๋ก์ด ์ธ์ด๋ฅผ ๋ฐฐ์ธ ๋, โ์ธ์ด๊ฐ ๋ฌด์์ธ์งโ, โ์์ฌ์ํต์ด ๋ฌด์์ธ์งโ๋ฅผ ๋ฐฐ์ฐ์ง ์์๋ ๋๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ฏธ ๋ชจ๊ตญ์ด๋ก ๊ทธ ๊ฐ๋ ๋ค์ ์๊ณ ์์ผ๋๊น์.
3.3 ํ์ต ์ค์
์ฃผ๋ชฉํ ์ ์ ๋ฉํฐ-GPU ํ์ต๊ณผ BF16 ํผํฉ ์ ๋ฐ๋๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค. Diffusion ๋ชจ๋ธ์ ๋ฐ๋ณต์ denoising์ ๊ณ์ฐ๋์ด ๋ง๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ์ต์ ํ๊ฐ ํ์์ ์ ๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ: ์ซ์๊ฐ ๋งํด์ฃผ๋ ๊ฒ
4.1 ๋๊ท๋ชจ ์ผ๋ฐํ ํ๊ฐ
์ด ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒ์ ์คํ์ ๊ท๋ชจ์ ์๊ฒฉํจ์ ๋๋ค.
Test Conditions:
| Category | Details |
|---|---|
| Objects | Hundreds of unseen objects |
| Lighting | Various conditions (natural, fluorescent, dim) |
| Background | Various table colors and textures |
| Total Combinations | 1,287 |
Results:
| Attempts | Success Rate |
|---|---|
| Single try | 90.8% |
| Up to 2 tries | ~95% |
| Up to 3 tries | ~97% |
Zero-Shot ํ๊ฒฝ์ด๋ผ๋ ์ ์ ๊ธฐ์ตํ์ธ์. ํ ์คํธ ํ๊ฒฝ์ ํ์ต ํ๊ฒฝ๊ณผ ์์ ํ ๋ค๋ฆ ๋๋ค. ๊ฐ์ ์กฐ๋ช ๋, ๊ฐ์ ํ ์ด๋ธ๋, ๊ฐ์ ๊ฐ์ฒด๋ ์์ต๋๋ค.
4.2 ๋ฒ ์ด์ค๋ผ์ธ ๋น๊ต
๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ตํฉ๋๋ค:
| ๋ฐฉ๋ฒ | ์ฑ๊ณต๋ฅ | ํน์ง |
|---|---|---|
| DexGraspVLA (Ours) | 90.8% | Full pipeline |
| w/o DINOv2 | 72.3% | CNN encoder ์ฌ์ฉ |
| w/o Mask Tracking | 68.5% | SAM๋ง ์ฌ์ฉ |
| w/o VLM Planner | 81.2% | ์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค |
| End-to-End VLA | ~75% | ๋จ์ผ ๋ชจ๋ธ |
4.3 Ablation Study: ๋ฌด์์ด ์ค์ํ๊ฐ?
Ablation ๊ฒฐ๊ณผ๊ฐ ๋งค์ฐ ๊ตํ์ ์ ๋๋ค:
(1) DINOv2 vs CNN Encoder
- DINOv2 ์ ๊ฑฐ ์ 18.5% ์ฑ๋ฅ ํ๋ฝ
- Foundation Model์ ๋๋ฉ์ธ ๋ถ๋ณ ํํ์ด ํต์ฌ์์ ์ฆ๋ช
(2) ๋ง์คํฌ ์ถ์ (Cutie) ์ ๊ฑฐ
- 22.3% ์ฑ๋ฅ ํ๋ฝ
- ๋์ ์ถ์ ์์ด๋ ์์ด ์ ๊ทผํ ๋ ํ๊ฒ์ ๋์นจ
(3) ๋์ผ ์นด๋ฉ๋ผ vs ๋จ์ผ ์นด๋ฉ๋ผ
- Wrist ์นด๋ฉ๋ผ๋ง: 66.2%
- Head ์นด๋ฉ๋ผ๋ง: 71.8%
- ๋ ๋ค: 90.8%
- ๋ ์์ ์ ์ํธ ๋ณด์์ฑ ํ์ธ
4.4 ๋ฉ์ปค๋์ฆ ๋ถ์: Attention Map ์๊ฐํ
๋ ผ๋ฌธ์ ๊ฐ์ฅ ์๋ฆ๋ค์ด ๋ถ๋ถ ์ค ํ๋์ ๋๋ค. ์ ์๋ค์ DiT์ Cross-Attention ๋งต์ ์๊ฐํํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ๋๋ผ์ ์ต๋๋ค:
- ๋ค๋ฅธ ์กฐ๋ช ์กฐ๊ฑด์์๋ Attention ํจํด์ด ๋์ผ
- ๋ค๋ฅธ ๋ฐฐ๊ฒฝ์์๋ ํ๊ฒ ๊ฐ์ฒด์ ์ ํํ ์ง์ค
- ๋ค๋ฅธ ๊ฐ์ฒด ๋ฐฐ์น์์๋ ์ผ๊ด๋ ํ๋
์ด๊ฒ์ด โDomain-Invariant Representationโ์ ์ฆ๊ฑฐ์ ๋๋ค. ์๊ฐ์ ์ ๋ ฅ์ ์์ ํ ๋ค๋ฅด์ง๋ง, ๋ด๋ถ ํํ์ ๋์ผํ๊ฒ ์๋ํฉ๋๋ค.
flowchart TB
subgraph Pipeline["Visualization Pipeline"]
direction TB
S1["1. Collect Cross-Attention<br/>from all DiT layers"]
S2["2. Average & Normalize<br/>Attention for head image"]
S3["3. Overlay on<br/>original image"]
S1 --> S2 --> S3
end
subgraph Observations["Key Observations"]
direction TB
O1["Background change โ Attention pattern invariant"]
O2["Lighting change โ Attention pattern invariant"]
O3["Object change โ Target accurately captured"]
end
Pipeline --> Observations
style Observations fill:#e8f5e9
5. ํ์ฅ ๋ฅ๋ ฅ: ๊ทธ๋์คํ์ ๋์ด์
5.1 ๋น-ํ๋ฆฌํจ์ค(Nonprehensile) ๊ทธ๋์คํ
DexGraspVLA์ ์ง์ ํ ํ์ ์ํคํ ์ฒ ๋ณ๊ฒฝ ์์ด ์๋ก์ด ์์ ์ผ๋ก ํ์ฅ๋๋ค๋ ๊ฒ์ ๋๋ค.
๋น-ํ๋ฆฌํจ์ค ๊ทธ๋์คํ์ด๋ ๋ฌด์์ผ๊น์? ์ด๋ค ๋ฌผ์ฒด๋ค์ ํ ์ด๋ธ ์์ ํํํ๊ฒ ๋์ฌ ์์ด์ ์ง์ ์ง์ ์ ์์ต๋๋ค. ์์ ์ฑ , ๋์ ์ ์, ๋ฉ์ํ ํฌ์ฅ์ง ๊ฐ์ ๊ฒ๋ค์ด์ฃ .
ํด๊ฒฐ์ฑ :
- ๋ฌผ์ฒด๋ฅผ ํ ์ด๋ธ ๊ฐ์ฅ์๋ฆฌ๋ก ๋ฐ๊ธฐ
- ๊ฐ์ฅ์๋ฆฌ์์ ๋์ถ๋ ๋ถ๋ถ ์ก๊ธฐ
DexGraspVLA๋ 1,029๊ฐ์ ์ถ๊ฐ ์์ฐ๋ง์ผ๋ก ์ด ์์ ์ ํ์ตํ์ต๋๋ค:
- ์ฑ๊ณต๋ฅ : 84.7%
- ๋ค์ํ ๊ฐ์ฒด์์ ๊ฐ๊ฑดํจ ํ์ธ (์ฑ , ์ ์, ์ ๊ฐ๋ฝ ๋ฑ)
์ด๊ฒ์ด ์ ์ธ์์ ์ผ๊น์? ๊ฐ์ ํ๋ ์์ํฌ, ๊ฐ์ ์ํคํ ์ฒ์ ๋๋ค. High-Level Planner๋ โ์ด ๊ฐ์ฒด๋ ์ง์ ์ง์ ์ ์์ผ๋ ๋ฐ์ด์ ์ง์ด์ผ ํจโ์ ์ดํดํ๊ณ , Low-Level Controller๋ ๋ฐ๊ธฐ + ์ง๊ธฐ ๋์์ ์คํํฉ๋๋ค.
5.2 Long-Horizon ์์
โํ ์ด๋ธ์ ์น์์คโ๋ผ๋ ๋ช ๋ น์ ๋จ์ผ ๊ทธ๋์คํ์ด ์๋๋๋ค. ์์ญ ๊ฐ์ ๊ฐ์ฒด๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํด์ผ ํฉ๋๋ค.
DexGraspVLA์ Long-Horizon ๋ฅ๋ ฅ:
- ์์ ํ์ ํ๋กฌํํธ ์ดํด: โ์๋ฃ์๋ง ์น์์คโ, โ์ฑ ์ ๋๋๊ณ ๋๋จธ์ง ์น์์คโ
- ์คํจ ๋ณต๊ตฌ: ํ ๋ฒ ์คํจํ๋ฉด ๋ค์ ์๋
- ๋์ ์ฌ๊ณํ: ํ๊ฒฝ ๋ณํ์ ์ ์
VLM Planner๊ฐ ์ง์์ ์ผ๋ก ์ฅ๋ฉด์ ๋ชจ๋ํฐ๋งํ๋ฉด์ ๋ค์ ํ๋์ ๊ฒฐ์ ํฉ๋๋ค. ์ด๊ฒ์ ์ ํต์ ์ธ Task and Motion Planning (TAMP)๊ณผ๋ ์์ ํ ๋ค๋ฅธ ์ ๊ทผ์ ๋๋ค. TAMP๋ ์ฌ์ ์ ์ ์ฒด ๊ณํ์ ์ธ์ฐ๊ณ ์คํํ์ง๋ง, DexGraspVLA๋ ๋ฐ์์ (reactive)์ด๊ณ ์ ์์ (adaptive)์ ๋๋ค.
5.3 ์ ๋์ ์ํฉ ๋ฐ ์ธ๊ฐ ๋ฐฉํด
๋ ผ๋ฌธ์์ ์ธ์์ ์ธ ๋ฐ๋ชจ:
- ์ ๋์ ๊ฐ์ฒด: ๋ฏธ๋๋ฌ์ด ํ๋ฉด, ๋น์ ์์ ๋ฌด๊ฒ ๋ถํฌ
- ์ธ๊ฐ ๋ฐฉํด: ์ฌ๋์ด ๋ฌผ๊ฑด์ ์น์ฐ๊ฑฐ๋ ์ด๋์ํด
DexGraspVLA๋ ์ด๋ฐ ์ํฉ์์๋ robustness๋ฅผ ๋ณด์ฌ์ค๋๋ค. VLM์ด โ๋ฌผ์ฒด๊ฐ ์ด๋ํ์โ์ ๊ฐ์งํ๊ณ , Controller๊ฐ ์๋ก์ด ์์น์ ์ ์ํฉ๋๋ค.
6. ํ๋์จ์ด ์ ์ : ์ค์ ์์คํ
6.1 ๋ก๋ด ํ๋ซํผ
Configuration:
| Component | Specification |
|---|---|
| Robot Arm | 7 DoF Manipulator |
| Dexterous Hand | 6 DoF (5-finger hand) |
| Total Control DoF | 13 (Arm 7 + Hand 6) |
Cameras:
| Camera | Position | Purpose |
|---|---|---|
| Head Camera | Fixed position | Full scene observation |
| Wrist Camera | Wrist-mounted | Precise manipulation observation |
6.2 Compute ์๊ตฌ์ฌํญ
Inference:
| Resource | Specification |
|---|---|
| GPU | RTX 4090 or equivalent (Controller) |
| VLM Server | 8 ร A800 (Qwen2.5-VL-72B) |
| Acceleration | Speculative Decoding (Qwen2.5-VL-7B) |
Training:
| Resource | Specification |
|---|---|
| GPUs | 8 ร A800 class |
| Precision | BF16 Mixed Precision |
| Framework | accelerate |
VLM ์ถ๋ก ์ด ๊ฐ์ฅ ํฐ ๋ณ๋ชฉ์ ๋๋ค. 72B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์ค์๊ฐ์ผ๋ก ์ฟผ๋ฆฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ด์ฃ . ์ ์๋ค์ Speculative Decoding์ ์ฌ์ฉํด์ ์ด๋ฅผ ์ํํ์ต๋๋ค. ์์ ๋ชจ๋ธ(7B)์ด ๋จผ์ ํ ํฐ์ ์์ธกํ๊ณ , ํฐ ๋ชจ๋ธ(72B)์ด ๊ฒ์ฆํ๋ ๋ฐฉ์์ ๋๋ค.
7. ๋นํ์ ๋ถ์: ํ๊ณ์ ๋ฏธ๋ ๋ฐฉํฅ
7.1 ํ์ฌ ํ๊ณ์
์์งํ๊ฒ ์ด์ผ๊ธฐํด๋ด ์๋ค. DexGraspVLA๋ ์๋ฒฝํ์ง ์์ต๋๋ค:
(1) Compute ๋น์ฉ
- 72B VLM์ ์ค์๊ฐ์ผ๋ก ์ด์ํ๋ ค๋ฉด ๋ง๋ํ GPU ์์ ํ์
- ์์ง ๋๋ฐ์ด์ค ๋ฐฐํฌ๋ ์์ง ์ด๋ ค์
- ํด๊ฒฐ ๋ฐฉํฅ: ๋ชจ๋ธ ๊ฒฝ๋ํ, ์ง์ ์ฆ๋ฅ, on-device ์ต์ ํ
(2) ์กฐ์ ์๋
- ์ธ๊ฐ ์๋๋ก ๋ฐ๋ชจ ์์ง (~3.5์ด/์ํผ์๋)
- ์ฐ์ ์์ฉ์์๋ ๋ ๋น ๋ฅธ ์๋ ์๊ตฌ๋ ์ ์์
- ํด๊ฒฐ ๋ฐฉํฅ: ๊ฐ์ํ๋ ์์ฐ, ๋ฐ์ดํฐ ์ฆ๊ฐ
(3) ํ ์ ์ด ๋ถ์ฌ
- ์์ ์์น/์๋ ์ ์ด
- ์ฌ์ธํ ๋ฌผ์ฒด(๊ณผ์ผ, ์ ๋ฆฌ) ์กฐ์ ์ ํ๊ณ
- ํด๊ฒฐ ๋ฐฉํฅ: ์ด๊ฐ ํผ๋๋ฐฑ ํตํฉ, ํ-ํ ํฌ ์ ์ด
(4) ์์ ์กฐ์
- ํ์ฌ ๋จ์ผ ํ-ํธ๋ ์์คํ
- ๋ณต์กํ ์์ (์์ ์ด๊ธฐ + ๋ฌผ๊ฑด ๊บผ๋ด๊ธฐ)์ ์ด๋ ค์
- ํด๊ฒฐ ๋ฐฉํฅ: ์์ ํ์ฅ, ๊ณ์ธต์ ์กฐ์
7.2 ์ง๋ฌธ๋ค
๋ช ๊ฐ์ง ์ด๋ฆฐ ์ง๋ฌธ๋ค:
- ๋ค๋ฅธ Foundation Model๋ ์๋ํ ๊น?
- CLIP ๋์ SigLIP?
- DINOv2 ๋์ SAM2์ ์ธ์ฝ๋?
- ๋ ์์ VLM(7B)์ผ๋ก ์ถฉ๋ถํ ๊น?
- ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ ํจ๊ณผ์ ์ผ๊น?
- ํ์ฌ๋ ์์ ์ค์ ๋ฐ์ดํฐ
- Sim-to-Real ํ์ดํ๋ผ์ธ๊ณผ ๊ฒฐํฉํ๋ฉด?
- Domain Randomization + Foundation Model = ?
- ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ผ๋ก ์ ์ด ๊ฐ๋ฅํ ๊น?
- ํธ๋ ํํ๊ฐ ๋ค๋ฅด๋ฉด?
- ์ DOF๊ฐ ๋ค๋ฅด๋ฉด?
- Cross-Embodiment ํ์ต ๊ฐ๋ฅ์ฑ?
7.3 ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ
(1) ๋ฉํฐ๋ชจ๋ฌ Foundation Model ํตํฉ
- ํ์ฌ: Vision + Language
- ๋ฏธ๋: Vision + Language + Tactile + Audio
(2) ์๊ธฐ๊ฐ์ ํ์ต
- ์ฑ๊ณต/์คํจ์์ ์๋ ํ์ต
- Human-in-the-loop ์ต์ํ
(3) ๋ฒ์ฉ ์กฐ์ ํ์ฅ
- ๊ทธ๋์คํ์ ๋์ด ์ฝ์ , ํ์ , ๋์ง๊ธฐ
- Tool Use๊น์ง ํ์ฅ
8. ์ค๋ฌด ๊ด์ : ์ด ์ฐ๊ตฌ๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ ๊ฒ์ธ๊ฐ?
8.1 ์ฝ๋ ์์ํ๊ธฐ
GitHub ์ ์ฅ์๊ฐ ๊ณต๊ฐ๋์ด ์์ต๋๋ค:
์ถ๊ฐ๋ก SAM๊ณผ Cutie๋ฅผ ์ค์นํด์ผ ํฉ๋๋ค.
8.2 ํต์ฌ ์ฝ๋ ๊ตฌ์กฐ
DexGraspVLA/
โโโ controller/ # Low-level Diffusion Controller
โ โโโ config/ # Training configuration
โ โโโ ...
โโโ planner/ # High-level VLM Planner
โโโ inference_utils/ # Deployment utilities
โโโ train.py # Training script
โโโ inference.py # Inference script
โโโ attention_map_visualizer.py # Analysis tools8.3 ์์ ์ ๋ก๋ด์ ์ ์ฉํ๊ธฐ
๋ค๋ฅธ ํ๋์จ์ด๋ฅผ ์ฌ์ฉํ๋ค๋ฉด:
- ๋ฐ์ดํฐ ํฌ๋งท ๋ง์ถ๊ธฐ: Zarr ํ์์ผ๋ก action, state, image ์ ์ฅ
- DoF ์์ : Controller ์ค์ ์์ ์ก์ ์ฐจ์ ๋ณ๊ฒฝ
- ์นด๋ฉ๋ผ ์ค์ : Head/Wrist ์นด๋ฉ๋ผ ์์น ์กฐ์
- VLM ํ๋กฌํํธ ์์ : ๋ก๋ด ํน์ฑ์ ๋ง๊ฒ ์ง์์ด ์กฐ์
8.4 ๋น์ฉ ์ถ์
์๊ท๋ชจ ์ฐ๊ตฌ ํ๊ฒฝ:
- ํ์ต: 8 ร RTX 4090, ~24์๊ฐ
- ์ถ๋ก : 1 ร RTX 4090 (Controller) + API ๋น์ฉ (VLM)
๋๊ท๋ชจ ๋ฐฐํฌ:
- VLM ์๋ฒ: 4-8 ร A100/H100
- Controller: GPU per robot
- ์ ๋น์ฉ: ์์ฒ~์๋ง ๋ฌ๋ฌ (๊ท๋ชจ์ ๋ฐ๋ผ)
9. ๊ฒฐ๋ก : ์ฐ๋ฆฌ๋ ์ด๋๋ก ๊ฐ๊ณ ์๋๊ฐ?
DexGraspVLA๋ฅผ ํ๋ง๋๋ก ์์ฝํ๋ฉด: โFoundation Model์ ํ์ ๋น๋ ค ์ต์ํ์ ์ค์ ๋ฐ์ดํฐ๋ก ์ต๋ํ์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ๋ฑ์คํฐ๋ฌ์ค ๊ทธ๋์คํ ์์คํ โ์ ๋๋ค.
์ด ์ฐ๊ตฌ๊ฐ ๋ณด์ฌ์ฃผ๋ ๋ ํฐ ๊ทธ๋ฆผ์ด ์์ต๋๋ค. ์ฐ๋ฆฌ๋ โ์คํฌ๋์น์์ ํ์ตโ ํจ๋ฌ๋ค์์์ โFoundation Model ํ์ฉโ ํจ๋ฌ๋ค์์ผ๋ก ์ด๋ํ๊ณ ์์ต๋๋ค.
์๊ฐํด ๋ณด์ธ์:
- 2020๋ : ์๋ฐฑ๋ง ์ํผ์๋์ ์๋ฎฌ๋ ์ด์ ํ์
- 2023๋ : ์๋ง ์๊ฐ์ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ํ์
- 2025๋ : 2์๊ฐ์ ์์ฐ์ผ๋ก 90%+ ์ฑ๊ณต๋ฅ
์ด ์ถ์ธ๊ฐ ๊ณ์๋๋ค๋ฉด, ์ฐ๋ฆฌ๋ ๊ณง ๊ฑฐ์ ์ ๋ก์ท์ผ๋ก ์๋ก์ด ์กฐ์ ์์ ์ ์ํํ๋ ๋ก๋ด์ ๋ณด๊ฒ ๋ ๊ฒ์ ๋๋ค.
๋ฌผ๋ก ์์ง ๊ฐ ๊ธธ์ด ๋ฉ๋๋ค. ์๋ฒฝํ ๋ฒ์ฉ ์กฐ์์ ์ฌ์ ํ โ์ด๋ฆฐ ๋ฌธ์ โ์ ๋๋ค. ํ์ง๋ง DexGraspVLA๋ ํ์คํ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๋ ์ค์ํ ์ด์ ํ์ ๋๋ค.
ํ์ธ๋ง์ด ๋งํ๋ฏ์ด, โ์์ฐ์ ๋จ์ํฉ๋๋ค. ๋จ์ง ์ฐ๋ฆฌ๊ฐ ๋ณต์กํ๊ฒ ๋ง๋ค ๋ฟ์ ๋๋ค.โ DexGraspVLA์ ํต์ฌ ์์ด๋์ด โ Domain-Invariant Representation โ ๋ ๋๋ผ์ธ ์ ๋๋ก ๋จ์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๊ฒ์ด ๋ฐ๋ก ๊ทธ ํ์ ์์ฒ์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ ๋ฐ ๊ด๋ จ ์๋ฃ
ํต์ฌ ์ฐธ๊ณ ์๋ฃ
- ๋ ผ๋ฌธ: arXiv:2502.20900
- ํ๋ก์ ํธ ์น์ฌ์ดํธ: https://dexgraspvla.github.io/
- GitHub ์ฝ๋: https://github.com/Psi-Robot/DexGraspVLA
- ์์ ๋ฐ๋ชจ: YouTube
๊ด๋ จ Foundation Model
- DINOv2: Meta AI์ ์๊ธฐ์ง๋ ํ์ต Vision Transformer
- SAM (Segment Anything Model): Meta AI์ ๋ฒ์ฉ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ
- Cutie: ๋น๋์ค ์ธ๊ทธ๋ฉํ ์ด์ /์ถ์ ๋ชจ๋ธ
- Qwen2.5-VL: Alibaba์ Vision-Language Model
๊ด๋ จ ๋ก๋ด ํ์ต ์ฐ๊ตฌ
- Diffusion Policy: Stanford์ Diffusion ๊ธฐ๋ฐ ๋ก๋ด ์ ์ฑ ํ์ต
- DiT (Diffusion Transformer): Facebook์ ์ด๋ฏธ์ง ์์ฑ Transformer
- RDT (Robotics Diffusion Transformer): Tsinghua์ ๋ก๋ด Diffusion ๋ชจ๋ธ
- ฯโ (Pi-Zero): Physical Intelligence์ VLA ๋ชจ๋ธ
๋ถ๋ก: ์ฉ์ด ์ ๋ฆฌ
| ์ฉ์ด | ์ค๋ช |
|---|---|
| Domain-Invariant Representation | ์ ๋ ฅ์ ํ๋ฉด์ ์ฐจ์ด(์กฐ๋ช , ๋ฐฐ๊ฒฝ)์ ๊ด๊ณ์์ด ๋์ผํ๊ฒ ์ ์ง๋๋ ๋ด๋ถ ํํ |
| Diffusion Model | ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์์ฑ ๋ชจ๋ธ |
| DiT (Diffusion Transformer) | Transformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ Diffusion ๋ชจ๋ธ |
| Action Chunk | ๋จ์ผ ์์ ์ด ์๋ ์ฌ๋ฌ ์์ ์ ์ก์ ์ ํ ๋ฒ์ ์์ธก |
| VLM (Vision-Language Model) | ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ดํดํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ |
| Zero-Shot | ํ์ต ์ ๋ณด์ง ๋ชปํ ์ํฉ์์ ๋ฐ๋ก ํ ์คํธ |
| Nonprehensile Grasping | ์ง์ ์ก์ง ์๊ณ ๋ฐ๊ฑฐ๋ ๊ธฐ์ธ์ฌ์ ์ก๋ ๋ฐฉ์ |
| Speculative Decoding | ์์ ๋ชจ๋ธ๋ก ์์ธกํ๊ณ ํฐ ๋ชจ๋ธ๋ก ๊ฒ์ฆํ๋ ์ถ๋ก ๊ฐ์ ๊ธฐ๋ฒ |
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
DexGraspVLA: ๋น์ -์ธ์ด-์ก์ ํตํฉ์ผ๋ก ๋ฒ์ฉ ์ฌ์ธํ ํ์ง ๋ฌ์ฑํ๊ธฐ
์๊ฐ: ๋ฒ์ฉ ์ฌ์ธํ ํ์ง์ ๋์ ๊ณผ ํ์์ฑ
๋ก๋ด๊ณตํ์์ ์ฌ์ธํ ํ์ง(dexterous grasping)๋ ์ฌ์ ํ ํ๊ธฐ ์ด๋ ค์ด ๊ทผ๋ณธ ๊ณผ์ ์ ๋๋ค. ์ฌ๋ ์์ฒ๋ผ ์ฌ๋ฌ ๊ด์ ๋ก ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ก๋ ์ผ์, ๊ฐ์ ์ด๋ ๊ณต์ฅ์ฒ๋ผ ์์ธก ๋ถ๊ฐ๋ฅํ ํ๊ฒฝ์์ ํนํ ๊น๋ค๋กญ์ต๋๋ค. ๊ธฐ์กด์ ๋ง์ ์ฐ๊ตฌ๋ค์ ์คํ ์กฐ๊ฑด์ ๋จ์ํํ๊ณค ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ ๋ฒ์ ํ๋์ ๋ฌผ์ฒด๋ง ๋ค๋ฃจ๊ฑฐ๋, ์กฐ๋ช ์ด ์ผ์ ํ ์ ํ๋ ํ๊ฒฝ์ ๊ฐ์ ํ๋ ๋ฑ ์ ์ฝ๋ ์กฐ๊ฑด์์๋ง ์ฑ๋ฅ์ ๋ณด์ฅํ์ต๋๋ค. ์ด๋ฐ ์ ํ๋ ๊ฐ์ ๋ค์ ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ์ ํ๊ณ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ก๋ด์ด ์๋ง์ ๋ชจ์๊ณผ ์ฌ์ง์ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ, ์๋ง์ผ๋ก ์์ฌ ์๋ ์ํฉ์์, ์ฌ๋ ๋ฐฉํด๋ ์๊ธฐ์น ๋ชปํ ๋ณ์์๋ ๊ตดํ์ง ์๊ณ ์ก์๋ผ ์ ์์ผ๋ ค๋ฉด ๋ฌด์์ด ํ์ํ ๊น์?
ํํธ, ์ต๊ทผ ๊ฐํํ์ต๊ณผ ๋ชจ๋ฐฉํ์ต์ผ๋ก ๋ค๊ด์ ์ ์กฐ์ ๊ธฐ์ ์ด ๋ฐ์ ํ์ง๋ง, ํ๋ จ ๋ฐ์ดํฐ ๋ถํฌ์ ๊ณผ์ ํฉ๋์ด ๋ค๋ฅธ ์ํฉ์ผ๋ก ๋์ด๊ฐ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์ฃผ ๋๋ฌ๋ฌ์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์ ์๋ฐฑ๋ง ๋ฒ ํ์ต์์ผ ํ์ค์ ์ฎ๊ธฐ๋ ์๋ฎฌ๋ ์ด์ -ํ์ค ์ ์ด(sim-to-real) ๊ธฐ๋ฒ๋ ์๋๋์์ง๋ง, ์ฌ์ ํ ํ์ค ์ธ๊ณ์ ๋ณต์ก์ฑ์ ์๋ฒฝํ ๋์ํ๊ธด ์ด๋ ต์ต๋๋ค. ์์ปจ๋ OpenAI์ Dactyl ํ๋ก์ ํธ๋ ๋ค๊ด์ ์์ ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ ์ฅ์ด์ฃผ๋ ์ด๋ ค์ด ์์ ์ ์์ ํ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ํ์ตํด ํ์์ง๋ง, ์ด๋ฅผ ์ํด ๋๋ฉ์ธ ๋๋คํ(Domain Randomization)๋ผ ๋ถ๋ฆฌ๋ ๊ธฐ๋ฒ์ผ๋ก ์๋ง์ ๊ฐ์ํ๊ฒฝ ๋ณ์๋ฅผ ๋ฌด์์๋ก ๋ฐ๊พธ๋ฉฐ ํ๋ จํด์ผ ํ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ์ค์ ๋ณด๋ค ํผํผํ ์ ์ฑ ์ ์ป์ ์ ์์ง๋ง, ์์ฒญ๋ ์ฐ์ฐ๊ณผ ์๊ฐ์ด ๋ค๊ณ ์ฃผ์ด์ง ๊ณผ์ ์ด์ธ์ ์ผ๋ฐํ์๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ํ ์๋ก์ด ์ํฉ๋ง๋ค ์ผ์ผ์ด ๊ฑฐ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ํ์ต์ํค๋ ๊ฒ์ ์ค์ฉ์ ์ด์ง ์์ต๋๋ค.
DexGraspVLA๋ ์ด๋ฌํ ๋์ ๋ค์ ์ ๋ฉด์ผ๋ก ๋์ ํ๋ ์ ์ ์ฐ๊ตฌ์ ๋๋ค. 2025๋ AAAI์์ ๋ฐํ๋ ์ด ๋ฐฉ๋ฒ์, ๋ง์น ๋ฆฌ์ฒ๋ ํ์ธ๋ง์ ์ค๋ช ์ฒ๋ผ, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋๋๋๋ก ๋๋ํ ๋ฐฉ์์ผ๋ก ๊ฐ๊ฒฐํ๊ฒ ํ์ด๋์ต๋๋ค. ์ด ๊ธ์์๋ DexGraspVLA์ ๊ธฐ์ ์ ๊ตฌ์ฑ๊ณผ ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ฐฌ์ฐฌํ ํ์ด๋ณด๊ณ , ์ด์ ์ ์ ๊ทผ๋ค๊ณผ ๋ฌด์์ด ๋ค๋ฅด๊ณ ์ ํน๋ณํ์ง ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค. ๋ก๋ด๊ณตํ์์ ์๊ฐ์์, ๊ทธ๋ฆฌ๊ณ ์ฝ๊ฐ์ ์น๊ทผํ ๋น์ ๋ฅผ ๊ณ๋ค์ฌ, ๋ฒ์ฉ ๋ค๊ด์ ๋ก๋ด ์ ํ์ง๋ฅผ ํฅํ ์ด ํ์ ์ ์ธ ๋ฐ๊ฑธ์์ ์ดํดํด ๋ณด๊ฒ ์ต๋๋ค.
DexGraspVLA๋ ๋ฌด์์ธ๊ฐ? โ ๋น์ -์ธ์ด-์ก์ ์ ๊ณ์ธต์ ํ์
DexGraspVLA ํ๋ ์์ํฌ์ ๊ฐ๋ต๋. ๊ณ ์์ค ๋น์ -์ธ์ด ๋ชจ๋ธ์ด โ์ฑ ์์ ์น์๋ผ (clear the table)โ ๊ฐ์ ์ฌ์ฉ์์ ์์ฐ์ด ์ง์๋ฅผ ํด์ํ๊ณ ์ฌ๋ฌ ๊ฐ๋ณ ํ์ง ๋จ๊ณ๋ก ๋ถํ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ์ฟ ํค๋ฅผ ์ง์ด๋ผโ์ฒ๋ผ ๋ค์์ ์ก์ ๋ฌผ์ฒด๋ฅผ ์ ํด ์์ฐจ์ ์ธ ์ง์๋ฅผ ์์ฑํ๊ณ , ํด๋น ๋ฌผ์ฒด์ ์์น๋ฅผ ์นด๋ฉ๋ผ ์์์์ 2D ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ํ์ํด์ค๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ ์์ค ์ก์ ์ ์ด๊ธฐ๊ฐ ์ด ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ํ์ฉํด ๋ชฉํ ๋ฌผ์ฒด์ ๋ง์คํฌ๋ฅผ ์ป๊ณ , ๋ก๋ด ์๊ฐ๋ฝ์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง์ ์ํ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ํ์ฐ ๋ชจ๋ธ(DiT)์ด ํฅํ ์คํํ ๋์ ์ํ์ค๋ฅผ ์์ธกํฉ๋๋ค. ๊ณํ-์คํ์ด ๋ฐ๋ณต๋๋ฉฐ, ํ ๋ฌผ์ฒด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ง์ด๋ด๋ฉด ๋ค์ ์ง์๋ก ๋์ด๊ฐ ์ฌ์ฉ์์ ์ต์ข ์ง์(ํ ์ด๋ธ ์น์ฐ๊ธฐ)๋ฅผ ์์ํฉ๋๋ค.
DexGraspVLA์ ํต์ฌ ์์ด๋์ด๋ โ๋๋ ์ ์ ๋ณตโํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ์ ์์ต๋๋ค. ๋ง์น ์ธ๊ฐ์ด ๋ณต์กํ ์์ ์ ํ ๋ ๋จธ๋ฆฌ๋ก ํฐ ๊ณํ์ ์ธ์ฐ๊ณ ์์ผ๋ก ์ฌ์ธํ ๋์์ ์ํํ๋ ๊ฒ์ฒ๋ผ, ์ด ์์คํ ๋ ๋ ๊ฐ์ ๋๋๋ฅผ ๊ฐ์ง๋๋ค. ์ฒซ ๋ฒ์งธ ๋๋๋ ๊ณ ์์ค ํ๋๋, ๋ ๋ฒ์งธ ๋๋๋ ์ ์์ค ์ ์ด๊ธฐ์ ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ฒซ ๋ฒ์งธ ๋๋๋ ์ธ๊ฐ์ด ๋ง๋ ๊ฑฐ๋ํ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ๋น๋ ค ์๋๋ค.
๊ณ ์์ค ํ๋๋ (Vision-Language Planner): ๋ฏธ๋ฆฌ ํ์ต๋ ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ์ฐ๊ตฌ์์๋ Qwen-VL-Chat์ด๋ผ๋ ์ต์ ๋ชจ๋ธ์ ํ์ฉํ๋๋ฐ, ์ด๋ฅผ ํตํด ๋ก๋ด์ ์นด๋ฉ๋ผ ์์์ ๋ณด๊ณ ์ฌ์ฉ์์ ์์ฐ์ด ์ง์๋ฅผ ์ดํดํฉ๋๋ค. ์ฝ๊ฒ ๋งํด, ๋ก๋ด์๊ฒ โ์ฅ๋๊ฐ ์๋์ฐจ๋ฅผ ์ง์ด์ ์์์ ๋ฃ์ดโ๋ผ๊ณ ํ๋ฉด, ํ๋๋๋ ๋ฌธ์ฅ์ ์ดํดํ๊ณ ํ์ฌ ์์ผ์ ์๋ ์ฌ๋ฌ ๋ฌผ์ฒด๋ค ์ค์์ ์ฅ๋๊ฐ ์๋์ฐจ๊ฐ ์ด๋์ ์๋์ง ์ฐพ์๋ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋ฌผ์ฒด์ ๋ค๋ชจ ๋ฐ์ค(๋ฐ์ด๋ฉ ๋ฐ์ค)๋ฅผ ๊ทธ๋ ค ํ์ํ์ฃ . ์ด ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๋๋ฉ์ธ-๋ถ๋ณ ํํ์ ์์์ ์ธ๋ฐ, ์ด๋ค ๋ฐฐ๊ฒฝ์ด๋ ์กฐ๋ช ์ด๋ ๊ฐ์ โ์ด ์๋ฆฌ์ ์ด ๋ฌผ์ฒดโ๋ผ๋ ๊ณตํต๋ ํ์๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ์ดํ ๋จ๊ณ์ ํ๊ฒฝ ๋ณํ๊ฐ ์์ด๋ ์ํฅ์ ๋ ๋ฐ์ต๋๋ค. ํ๋๋๋ ๋ํ ๊ธด ์์ ์ ์ฌ๋ฌ ๋จ๊ณ๋ก ์ชผ๊ฐ๋ ์ญํ ๋ ํฉ๋๋ค. โ์ฑ ์์ ์น์๋ผโ ๊ฐ์ ๊ธด ์์ฒญ์ ๋ฐ์ผ๋ฉด, ์ฌ๋์ด ๊ทธ๋ ๋ฏ์ด โ๋จผ์ ์ฟ ํค ํต์ ์น์ฐ๊ณ , ๊ทธ ๋ค์ ์ปต์ ์น์ฐ์โ ์์ผ๋ก ํ ๋ฒ์ ํ๋์ฉ ์์๋ฅผ ์ ํด์ฃผ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๋ฌด์๋ถํฐ ์ง๋ ๊ฒ ์ข์์ง ์ฃผ๋ณ ๋ฌผ๊ฑด ๋ฐฐ์น๋ ์ ๊ทผ ์ฉ์ด์ฑ์ ๋ฐ์ ธ ๊ฒฐ์ ํ๋ ์ ๋ ํฅ๋ฏธ๋ก์ด๋ฐ, ์ด๋ ๋ง์น ์ด์์ ํ ์ฑ ์์ ์น์ธ ๋ ์ฐ๋ฆฌ ๋จธ๋ฆฌ๊ฐ ํ๋จํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํฉ๋๋ค.
์ ์์ค ์ก์ ์ ์ด๊ธฐ (Action Controller): ๋ ๋ฒ์งธ ๋๋๋ ์ค์ ๋ก๋ด ํ๊ณผ ์๊ฐ๋ฝ์ ์์ง์ด๋ ์๋ จ๋ ์ ์ญํ ์ ๋๋ค. ์ด ์ ์ด๊ธฐ๋ ํ๋๋๊ฐ ์ค ๋ฐ์ด๋ฉ ๋ฐ์ค, ์ฆ ๋ชฉํ ๋ฌผ์ฒด์ ๋๋ต์ ์์น ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋์์ ๋ง๋ค์ด๋ ๋๋ค. ์ฐ์ Segmentation ๋ชจ๋์ด ๋ฑ์ฅํฉ๋๋ค. SAM(Segment Anything Model)์ด๋ผ๋ ๊ฐ๋ ฅํ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ ์ด์ฉํด, ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ ๋ชฉํ ๋ฌผ์ฒด์ ํฝ์ ์์ญ(๋ง์คํฌ)์ ์ป์ด๋ ๋๋ค. ํ ๋ฒ ์ง๊ธฐ ์์ํ๋ฉด ๋ฌผ์ฒด๊ฐ ์์ง์ด๊ฑฐ๋ ์์ด๋ ๋ค๋ฅธ ๋ฌผ์ฒด์ ๊ฐ๋ ค์ง ์ ์๋๋ฐ, ์ด๋ฅผ ์ํด Cutie๋ผ๋ ๋น๋์ค ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ด ๋ง์คํฌ๋ฅผ ๊ณ์ ์ถ์ ํ์ฌ ๋ฌผ์ฒด๋ฅผ ๋์น์ง ์๊ณ ๋ฐ๋ผ๊ฐ๋ ์ญํ ์ ํฉ๋๋ค. ๋์์ ๋ก๋ด์๋ ๋ ๊ฐ์ ์นด๋ฉ๋ผ๊ฐ ์์ต๋๋ค. ํ๋๋ ๋ก๋ด์ ๋จธ๋ฆฌ ๊ฒฉ์ธ ๋์ ์์น(third-view ์นด๋ฉ๋ผ), ๋ค๋ฅธ ํ๋๋ ์๋ชฉ์ ๊ฐ๊น์ด ๋ฌ๋ฆฐ ์ผ์ธ์นญ ์นด๋ฉ๋ผ์ ๋๋ค. ์ ์ด๊ธฐ๋ ์ด ๋ ์์ ์ ์์๊ณผ, ์ถ์ ํ ๋ฌผ์ฒด ๋ง์คํฌ, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด ์์ ๊ด์ ๊ฐ๋ ๋ฑ ์ํ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
์ฌ๊ธฐ์ ํต์ฌ ํธ๋ฆญ์ด ํ๋ ๋ ๋ฑ์ฅํฉ๋๋ค. ์ ์ด๊ธฐ๋ ์ด๋ฌํ ๋ค์ํ ์ ๋ ฅ์ ๋ฐ๋ก ์ฌ์ฉํ์ง ์๊ณ , ๋ฏธ๋ฆฌ ํ์ต๋ ๋น์ ๋ชจ๋ธ๋ค์ ์ด์ฉํด ๊ฐ๊ฐ ์๋ฏธ ์๋ ํผ์ฒ(ํน์ง)๋ก ๋ณํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, DINOv2๋ผ๋ ๊ฐ๋ ฅํ ์๊ฐ ์ธ์ฝ๋๋ฅผ ๋ ๊ฐ ์ฌ์ฉํ์ฌ ๋จธ๋ฆฌ ์นด๋ฉ๋ผ ์์๊ณผ ์๋ชฉ ์นด๋ฉ๋ผ ์์์์ ๊ฐ๊ฐ ํน์ง ๋ฒกํฐ๋ค์ ๋ฝ์๋ ๋๋ค. DINOv2๋ ๊ฑฐ๋ํ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋๋ถ์ ์กฐ๋ช ์ด๋ ๋ฐฐ๊ฒฝ์ด ๋ฌ๋ผ์ ธ๋ ๋ฌผ์ฒด์ ๋ณธ์ง์ ์ธ ๋ชจ์ต(๋ชจ์, ์ง๊ฐ ๋ฑ)์ ์ ํํํด์ฃผ๋ ํน์ง์ ๋ด๋์ต๋๋ค. ์ฆ, ์์ ํฝ์ ๋์ ์ถ์ํ๋ ์๊ฐ ์ ๋ณด๋ก ๋ณํํ์ฌ ํ๊ฒฝ ์ฐจ์ด์ ๊ฐ์ธํด์ง๋๋ก ํ ๊ฒ์ด์ฃ . ํํธ, ๋ฌผ์ฒด ๋ง์คํฌ๋ ๋ณ๋์ Vision Transformer(ViT)๋ก ์ฒ๋ฆฌํ์ฌ ๋ฌผ์ฒด์ ํํ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , ๋ก๋ด ๊ด์ ์ํ๋ ๊ฐ๋จํ ๋ค์ธตํผ์ ํธ๋ก (MLP)์ผ๋ก ์๋ฒ ๋ฉํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์ด ๋ชจ๋ ์ ๋ณด๋ ๊ณต์ ๋ ํํ ๊ณต๊ฐ์์ ํ๋์ ํผ์ฒ ์ํ์ค๋ก ํตํฉ๋ฉ๋๋ค.
Diffusion ์ก์ ์์ฑ๊ธฐ: ์ ์ด๊ธฐ์ ํ์ด๋ผ์ดํธ๋ ๋ฐ๋ก ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋์ ์์ฑ์ ๋๋ค. ํตํฉ๋ ํผ์ฒ ์ํ์ค๋ฅผ ์ ๋ ฅ์ผ๋ก, DiT(Diffusion Transformer)๋ผ๊ณ ๋ถ๋ฆฌ๋ ๋ชจ๋ธ์ด ๋ฏธ๋์ ์ผ๋ จ์ ํ๋ ์ํ์ค๋ฅผ ์์ธกํฉ๋๋ค. ํ์ฐ ๋ชจ๋ธ์ ์๋ ์ด๋ฏธ์ง ์์ฑ ๋ฑ์์ ์ก์(noise)์ ์ ์ฐจ ์ ๊ฑฐํ๋ฉฐ ์ํ๋ ์ถ๋ ฅ์ ์ป๋ ๋ฐฉ์์ ์ฐ๋๋ฐ, ์ฌ๊ธฐ์๋ ๋น์ทํ๊ฒ ๋ฌด์์ํ ์ด๊ธฐ ๋์ ์ถ์ธก์ ์ ์ง์ ์ผ๋ก ์ธ๋ จ๋ ๋ก๋ด ๋์ ๊ณํ์ผ๋ก ๋ค๋ฌ๋ ์ญํ ์ ํฉ๋๋ค. ์ด๋ ๋ง์น ์กฐ๊ฐ๊ฐ๊ฐ ์ฒ์์๋ ๋๋ฆฌ์์ ๋์ถฉ ๊น์ ํํ๋ฅผ ๋ง๋ค๊ณ , ๋ฐ๋ณตํด์ ์ฌ์ธํ๊ฒ ๋ค๋ฌ์ด ์ต์ข ์ํ์ ๋ง๋ค์ด๋ด๋ ๊ณผ์ ๊ณผ ์ ์ฌํฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ณต์กํ๊ณ ๋ค๋ดModalํ(multi-modal) ๋์ ๋ถํฌ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์๋ค๊ณ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํ ๋ฌผ์ฒด๋ฅผ ์ง๋ ๋์๋ ์ฌ๋ฌ ๊ฒฝ๋ก์ ์๊ฐ๋ฝ ์์ง์์ด ์์ ์ ์๋๋ฐ, ํ์ฐ ์ ์ฑ ์ ์ด๋ฐ ๋ค์ํ ๊ฐ๋ฅ์ฑ์ ํ๋ฅ ์ ์ผ๋ก ํฌ์ฉํ๋ฉฐ ํ์ตํฉ๋๋ค.
์ ๋ฆฌํ์๋ฉด, DexGraspVLA๋ โ๋๋ํ ๋๊ณผ ๋จธ๋ฆฌโ + โ๋ ธ๋ จํ ์โ์ ์ด์ํ๋ ๊ตฌ์กฐ์ ๋๋ค. ๊ณ ์์ค ํ๋๋๋ ์๊ฐ๊ณผ ์ธ์ด์ ํ์ ๋น๋ ค ๋ฌด์์ ์ด๋ป๊ฒ ์ก์์ง ์ ๋ต์ ์ธ์ฐ๊ณ , ์ ์์ค ์ ์ด๊ธฐ๋ ํ๋ถํ ์ผ์ ์ ๋ณด๋ฅผ ํ์ฉํด ๊ทธ ์ ๋ต์ ์คํํฉ๋๋ค. ์ด ๋์ ๋์์์ด ์ํธ์์ฉํ๋ฉฐ ํ์ ๋ฃจํ ์ ์ด๋ฅผ ์ด๋ฃน๋๋ค. ํ๋๋๋ ์ ์ด๊ธฐ๊ฐ ๋์์ ์ํํ๋ ๋์๋ ๋ชจ๋ํฐ๋ง์ ๊ณ์ํฉ๋๋ค. ์ค๊ฐ์ ์ ๋๋ก ์ง์๋์ง ํ๋จํ๊ณ ์คํจํ๋ฉด ๋ฐ๋ก ์ฌ์๋ ์ง์๋ฅผ ๋ด๋ฆฝ๋๋ค. ํ๋์ ๋ฌผ์ฒด ์น์ฐ๊ธฐ๊ฐ ๋๋๋ฉด ๋ก๋ด์ ์์์น๋ก ๋ฆฌ์ ํ๊ณ ๋ค์ ๋ฌผ์ฒด ์ง์๋ก ๋์ด๊ฐ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์ฌ์ฉ์์ ๋์ ์์ค ๋ชฉํ(์: ํ ์ด๋ธ ์น์ฐ๊ธฐ)๊ฐ ๋ฌ์ฑ๋ ๋๊น์ง ์ด ๊ณผ์ ์ด ์ด์ด์ง๋๋ค. ์ด๋ฌํ ๊ณ์ธต์ ๋ถ๋ฆฌ ๋๋ถ์, ๋ก๋ด์ ๋์ ์์ค ์ดํด๋ ฅ๊ณผ ๋ฎ์ ์์ค ์กฐ์ ๊ธฐ์ ์ ๋์์ ๊ฐ์ ธ๊ฐ๋ฉด์๋ ๊ฐ๊ฐ์ ์ ๋ฌธํํ์ฌ ์์ ์ฑ์ ๋์์ต๋๋ค. ๋ฐ๋ก ์ด๊ฒ์ด DexGraspVLA์ ๋ผ๋์ ๋๋ค.
DexGraspVLA์ ๊ธฐ์ ์ ๊ธฐ์ฌ์ ํ์ ํฌ์ธํธ
์ด์ ์ด ํ๋ ์์ํฌ๊ฐ ๊ธฐ์ ์ ์ผ๋ก ๋ฌด์์ ์๋กญ๊ฒ ์๋ํ๊ณ , ์ ์ค์ํ์ง ํ๋์ฉ ์ง์ด๋ณด๊ฒ ์ต๋๋ค. DexGraspVLA๋ ๋จ์ํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์กฐํฉํ ๊ฒ์ ๊ทธ์น์ง ์๊ณ , ์ฌ๋ฌ ํ์ ์ ์์ด๋์ด๋ฅผ ํตํด ๋ฒ์ฉ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์์ต๋๋ค. ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- 1. ๋น์ -์ธ์ด-์ก์ ํตํฉ์ ํตํ ๊ณ์ธต์ ํ์ต: DexGraspVLA๋ ์ฒ์์ผ๋ก ๊ณ ์์ค ๋น์ -์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์์ค ๋ก๋ด ์ ์ด๊ธฐ๋ฅผ ํ ํ ์์์ ๊ณ์ธต์ ์ผ๋ก ํตํฉํ ํ์ง ํ๋ ์์ํฌ์ ๋๋ค. ์ด์ ๊น์ง ๋ค๊ด์ ์ ํ์ง ์ฐ๊ตฌ์์๋ ๋๊ฐ ์๊ฐ ์ธ์๊ณผ ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋๋ผ๋, ์ธ์ด๋ก๋ถํฐ ์ผ๋ฐ์ ์ธ ๋ชฉํ๋ฅผ ์ดํดํ๋ ์์ค๊น์ง ํตํฉํ ์๋ ์์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฌ์ฉ์๊ฐ ์์ ๋กญ๊ฒ ์์ ํ ํ๋ฆฌํผ ์์ฐ์ด ์ง์๋ฅผ ์ง์ ๋ฐ์๋ค์ฌ ์คํ๊น์ง ์ฎ๊ธธ ์ ์๊ฒ ๋์์ต๋๋ค. ์์ปจ๋ โ์ด ๋ถ๊ท์นํ ๋ชจ์์ ํ๋ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์์์ ๋ฃ์ด์คโ๋ผ๊ณ ๋งํด๋, ๋ก๋ด์ ๊ทธ ๋ฌผ์ฒด๊ฐ ๋ฌด์์ธ์ง ํ์ ํ๊ณ ์ก๋ ์ผ๋ จ์ ํ๋์ ์ค์ค๋ก ๊ณํํฉ๋๋ค. ๊ธฐ์กด์๋ ์ ํด์ง ๊ฐ์ฒด ๋ฒ์ฃผ๋ ์ฌ์ ์ ํ๋ก๊ทธ๋จ๋ ๋์ ์ํ์ค์ ์์กดํ๋ค๋ฉด, DexGraspVLA๋ ํ์ธต ์ฌ๋๊ณผ ์ํตํ๋ฏ ์ ์ฐํ ๊ณผ์ ์ํ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
- 2. ์ฌ์ ํ์ต ๊ฑฐ๋ ๋ชจ๋ธ๋ก๋ถํฐ ์ป์ ๋๋ฉ์ธ-๋ถ๋ณ ํํ ํ์ฉ: DexGraspVLA์ ํต์ฌ ํ์ ์ค ํ๋๋, ๋ค์ํ ์ธ์ด ์ ๋ ฅ๊ณผ ์๊ฐ ์ ๋ ฅ์ ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ํตํด ์ผ๊ด๋ ํํ ๊ณต๊ฐ์ผ๋ก ๋ณํํ๋ ์ ์ ๋๋ค. โfoundation modelโ์ด๋ผ ๋ถ๋ฆฌ๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ด ๋ด๊ณ ์๋ ๊ด๋ฒ์ํ ์ธ๊ณ ์ง์๊ณผ ์๊ฐ์ ํน์ฑ์ ๋ก๋ด์ด ์ ๊ทน ํ์ฉํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Qwen-VL-Chat, DINOv2, SAM ๋ฑ์ ๊ฐ๋ ฅํ ๋ชจ๋ธ๋ค์ freeze(๋๊ฒฐ)๋ ์ฑ๋ก ์ฌ์ฉํ์ฌ, ๋ก๋ด์ด ๋ณด๊ฑฐ๋ ๋ฃ๋ ์ ๋ณด์ ๋ ธ์ด์ฆ๋ฅผ ๊ฑธ๋ฌ๋ด๊ณ ๋ณธ์ง๋ง ์ถ์ถํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์กฐ๋ช ์ด ์ด๋ก๋ ๋ฒฝ์ง๊ฐ ์๋ก๋ฌ๋กํ๋ ์๊ด์์ด ๋ก๋ด ๋ด๋ถ์์๋ ํญ์ ๋น์ทํ ํํ์ ํน์ง ๋ฒกํฐ๋ก ์ํฉ์ด ํํ๋ฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์คํ์ ๋ณด๋ฉด, ๊ฐ์ ๋ฌผ์ฒด ๋๋ฏธ๋ฅผ ํฐ ํ์ ์, ์ฒด์ปค๋ณด๋ ๋ฌด๋ฌ ์ฒ ์, ๋์ค์ฝ ์กฐ๋ช ์ด ๋ฐ์ง์ด๋ ํ๊ฒฝ ๋ฑ์ผ๋ก ๋ฐ๊ฟ๊ฐ๋ฉฐ ๋ณด์ฌ์ค๋, DINOv2๋ก ์ถ์ถํ ํน์ง๋ค์ ๊ฑฐ์ ๋ณํจ์์ด ์ผ๊ด๋ ๊ฒ์ ํ์ธํ์ต๋๋ค. ์๋ ๋จ๊ณ์ ์ ์ฑ ๋ง(DiT) ์ญ์ ์ด๋ฐ ์์ ๋ ํผ์ฒ ์์์ ์ฃผ๋ก ํ์ตํ๋, ํ๋ จ ๋ ๋ณด์ง ๋ชปํ ์๋ก์ด ํ๊ฒฝ์ด๋ ๋ฌผ์ฒด์กฐํฉ์์๋ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง์ง ์๊ณ ์ ์ง๋ ์ ์์์ต๋๋ค. ์ด๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ฐจ๋ณ๋๋ ์ค์ํ ์ฑ์ง๋ก, ๋ชจ๋ธ ๋ด๋ถ ๋์์ ์ผ๊ด์ฑ์ด ๋์ ๋ฒ์ฉ์ฑ์ ๋ท๋ฐ์นจํ๋ค๋ ์ฌ์ค๊น์ง ์คํ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค. ์ ๋ฆฌํ๋ฉด, DexGraspVLA๋ ๊ฑฐ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ ์ง๋ฅํ ํน์ฑ ์ถ์ถ๊ธฐ์ ํ๋๋๋ก ํ์ฉํจ์ผ๋ก์จ, ์ ์ ๋ก๋ด ๊ฒฝํ ๋ฐ์ดํฐ๋ก๋ ๋ง์ ์ํฉ์ ์ ์ฉ๊ฐ๋ฅํ ์ง๋ฅํ ๋ก๋ด์ ๋ง๋ ์ ์ ๋๋ค.
- 3. ํ์ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ํตํ ๋ณต์กํ ๋ค๊ด์ ๋์ ํ์ต: ์ ์์ค ์ ์ด๊ธฐ์ ๋์ ๋ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ฑ (DiT)๋ ์ค์ํ ๊ธฐ์ ์ ๊ธฐ์ฌ์ ๋๋ค. ์ ํต์ ์ผ๋ก ๋ก๋ด์ ๋์ ์ ์ฑ ์ ์ง๋ํ์ต์ด๋ผ๋ฉด ์ฆ์ ์ถ๋ ฅ ๋ด๋ด๋ท์ด๋, ๊ฐํํ์ต์ด๋ผ๋ฉด ํ๋ฅ ์ ์ ์ฑ ๋ง์ ํตํด ํ ์คํ ์ฉ ์ก์ ์ ์ํ๋งํ๋ ๋ฐฉ์์ด ์ฃผ๋ก ์ฌ์ฉ๋์์ต๋๋ค. ์ด์ ๋นํด ํ์ฐ ๋ชจ๋ธ์ ์ผ์ ์๊ฐ H ๋จ๊ณ์ ํ๋ ์ํ์ค ์ ์ฒด๋ฅผ ํ๊บผ๋ฒ์ ์์ธกํ๋ฉฐ, ์ด๋ฅผ ๋ ธ์ด์ฆ ์ ๊ฑฐ ๊ณผ์ ์ ํตํด ์ป์ต๋๋ค. ์ด๊ฒ์ ์ฅ์ ์ ๋ค๊ด์ ์์ฒ๋ผ ๊ณ ์ฐจ์ ์ฐ์ ์ ์ด์์ ๋ํ๋๋ ๋ค์ํ ํด๋ฒ๋ค์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๋๋ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ์ปต์ ์ก๋ ๋์๋ ์๊ฐ๋ฝ์ ์ฝ๊ฐ ๋ค๋ฅด๊ฒ ์์ง์ฌ ์ฌ๋ฌ ๊ฒฝ๋ก๋ก ์ฑ๊ณตํ ์ ์๋๋ฐ, ํ์ฐ ๋ชจ๋ธ์ ์ด๋ฐ ์ฌ๋ฌ ๊ฐ๋ฅ์ฑ์ ๋ถํฌ๋ฅผ ํ๋ถํ๊ฒ ํํํ๋ฉด์ ํ์ตํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก DexGraspVLA์ ์ ์ด๊ธฐ๋ ๋จ 2์๊ฐ ๋จ์ง (2094 ์ํผ์๋)์ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ก ํ๋ จ๋์์์๋, ๋งค์ฐ ์์ ์ ์ด๊ณ ๋ถ๋๋ฌ์ด ๋ค๊ด์ ๋์์ ์ตํ ์ ์์์ต๋๋ค. ์ด๋ฐ ๋ฐ์ดํฐ ํจ์จ ๋ํ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ต์ ์ด์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
- 4. 90%+ ์ฑ๊ณต๋ฅ ๊ณผ ์ต์ด์ ๋ค์ค๋ฅ๋ ฅ ์ํ: ์์ ์ ์์๋ค์ ๊ฒฐํฉํ DexGraspVLA๋ ์คํ์ ์ผ๋ก ๋์ ๋๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ต๋๋ค. ๋ฌด์๋ณด๋ค ํน็ญํ ์ ์, ์์ ํ ์๋ก์ด ๋ฌผ์ฒด์ ํ๊ฒฝ ์กฐํฉ ์์ฒ ๊ฐ๋ก ์ํํ๋๋ฐ๋ 90% ์ด์์ ํ์ง ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค๋ ๊ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ฑ๊ณต์ด๋ ๋จ์ํ ๋ค์ด์ฌ๋ ธ๋ค ๋ด๋ ค๋๋ ์์ค์ด ์๋๋ผ, ์ง์ ๋ฌผ์ฒด๋ฅผ ํ ์ด๋ธ ์ 10cm ๋์ด๋ก 20์ด๊ฐ ๋ค๊ณ ์๊ธฐ๊น์ง ํฌํจํ๋ ์๊ฒฉํ ๊ธฐ์ค์ด์์ต๋๋ค. ์ผ๋ฐ์ ์ธ ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ๋ค์ ํ๋ จ ํ๊ฒฝ์ ์กฐ๊ธ๋ง ๋ฒ์ด๋๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง์ง๋ง, DexGraspVLA๋ ์ถ๊ฐ ํ๋ ์์ด๋ ์๋ก์ด ์กฐ๋ช , ์๋ก์ด ๋ฐฐ๊ฒฝ, ์ฒ์ ๋ณด๋ 360๊ฐ์ ๋ฌผ์ฒด๋ค ์กฐํฉ์์๋ ๊ฑฐ์ ๋์ผํ ์ฑ๊ณต๋ฅ ์ ๋์ต๋๋ค. ์ด๋ ๋ชจ๋ฐฉํ์ต ๊ธฐ๋ฐ ๋ก๋ด์ผ๋ก์๋ ์ ๋ก ์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด๋ผ ํ ์ ์์ต๋๋ค. ๊ฒ๋ค๊ฐ ํ ๋ฒ ์๋ํด์ ์คํจํ ๊ฒฝ์ฐ ์๋์ผ๋ก ์ฌ์๋ํ๊ฒ ํ๋๋ ์ต๋ ์ธ ๋ฒ ์๋ ๋ด ์ฑ๊ณต๋ฅ ์ด 96.9%๊น์ง ์ฌ๋ผ๊ฐ๋ ๋ฑ, ์คํจ ๋ณต๊ตฌ ๋ฅ๋ ฅ๋ ๋ฐ์ด๋ฌ์ต๋๋ค. ๋จ์ผ ๋ฌผ์ฒด๋ฅผ ์ง๋ ์ฌ์ด ์ํฉ์์๋ ์ฑ๊ณต๋ฅ ์ด 98.6%์ ๋ฌํ๋๋ฐ, ์ด๋ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ์ต์ 48% ์ด์ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ์์ต๋๋ค. ์์ปจ๋ ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ ์ธก๋ฉด์์๋ ํฌ๊ฒ ์ง์ผ๋ณดํ ์ ์ ๋๋ค.
๋ DexGraspVLA๋ ๋ค์ํ ๊ณ ๋๋ ์ํฉ์ ๋ํ ๋์์ ํ ํ๋ ์์ํฌ ์์ ์ฒ์์ผ๋ก ๋ชจ๋ ๊ตฌํํด ๋ณด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์ฒ๋ผ ๊ธด ์ฐ์ ์์ ์ ์ธ์ด๋ก ์ง์ํ๊ณ ์ํํ๋ ๋ชจ์ต(์: โ๋ฐฉ์ ์น์โ๋ผ ํ๋ฉด ์ผ์ผ์ด ์์์ ์ฌ๋ฌ ๋ฌผ๊ฑด๋ค์ ์์ฐจ๋ก ์น์), ๋ฐฉํด๋ฌผ์ด๋ ๊ต๋์ ๋ํ ๊ฒฌ๊ณ ํจ(๋ก๋ด์ด ์ง์ผ๋ ค๋ ์๊ฐ ์ผ๋ถ๋ฌ ๋ฌผ์ฒด๋ฅผ ์น๊ฑฐ๋ ํ๋ค์ด๋ ๋ค์ ์ก๋๋ก ์กฐ์ ํจ), ์ฌ์ง์ด ๋ก๋ด ์์ผ๋ก ์ฌ๋๊ณผ ์ ์๋ฅผ ํ๋ ์์ฐ๊น์ง ๋์ผํ ์ ์ด๊ธฐ๋ก ํ์ฅํด ๋ณด์์ต๋๋ค. ๋นํ์ง(non-prehensile) ์กฐ์์ ํ์ฅ๋ ํฅ๋ฏธ๋ก์ด๋ฐ, ์ง์ ์ ์๋ ํฐ ๋ฌผ์ฒด๋ ํ๊ตฌ์ฑ๋ก ๊ณต ์ณ์ ๋ชจ์๋ฆฌ๋ก ๋จ์ด๋จ๋ฆฌ๋ฏ ์ด์ง ๋ฐ์ด ๊ฐ์ฅ์๋ฆฌ์์ ์ง๋ ์ ๋ต์ ๋์ผ ํ๋ ์์ํฌ๋ก ํ์ต์์ผ ์ฑ๊ณตํ์ต๋๋ค. ์์ปจ๋ DexGraspVLA๋ โ์ฌ์ธํ ํ์ง์ ๊ทธ ๋๋จธโ๋ฅผ ๊ฒจ๋ฅํด, ํ๋์ ์ฒด๊ณ๋ก ๋ค๋ฐฉ๋ฉด์ ๋ฅ๋ ฅ์ ์ ๋ณด์ธ ์ต์ด์ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค.
์ด์ ์ ๊ทผ๋ฒ๋ค๊ณผ์ ๋น๊ต: ๋ฌด์์ด ์ด๋ป๊ฒ ๋ค๋ฅผ๊น?
DexGraspVLA์ ๊ฐ์น๊ฐ ๋์ฑ ๋๋๋ฌ์ง๋ ๋ถ๋ถ์, ๊ธฐ์กด์ ์ฌ์ธํ ํ์ง ์ฐ๊ตฌ๋ค๊ณผ ์ผ๋ง๋ ๋ค๋ฅธ ๊ธธ์ ๊ฑธ์๋๊ฐ์ ๋๋ค. ์ด์ ๊น์ง ๋ก๋ด ๋ค๊ด์ ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ ์ ๊ทผ๋ค์ ๋๋ต ๋ช ๊ฐ๋๋ก ๋๋์์ต๋๋ค:
- (A) ๋ถ์์ /์ ํต์ ๊ธฐ๋ฒ: ์ด๊ธฐ ๋ก๋ด ํ์ง ์ฐ๊ตฌ๋ค์ ๋ฌผ์ฒด์ 3D ๋ชจ๋ธ์ด๋ ์์น๋ฅผ ์๊ณ ์๋ค๋ ์ ์ ํ์, ๋ฌผ๋ฆฌ์ ๋ถ์์ผ๋ก ์๊ฐ๋ฝ์ ์ ์ด์ ์ ์ฐพ๊ณ ์ ์ดํ๋ ๋ฐฉ์์ ์ทจํ๊ณค ํ์ต๋๋ค. ํ์ง๋ง ์ด๋ฐ ๊ณํ ๊ธฐ๋ฐ ์ ๊ทผ์ ์๋ก์ด ๋ฌผ์ฒด ๋ชจ๋ธ์ด ๋์ค๋ฉด ์ฒ์๋ถํฐ ์ค์ ํด์ผ ํ๊ณ , ํ๊ฒฝ ๋ณํ์ ์ค์๊ฐ ๋์ฒํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด๋ฅผ ๊ณต์ค์์ ํ ๋ฐํด ๋๋ ค๊ฐ๋ฉฐ ์ค์บํด์ผ ์ ์ด๊ฐ ๊ฐ๋ฅํ ๊ฒฝ์ฐ๋ ์์๋๋ฐ, ์ด๋ ํ์ค์์ ์ผ์ผ์ด ๊ทธ๋ฐ ์ ๋ณด๋ฅผ ์ป๊ธฐ ํ๋ค์ฃ . ๋ํ ๋ฌผ์ฒด๊ฐ ์ด์ง ์์ง์ด๊ฑฐ๋ ์ฌ๋ ์์ด ๋ฐฉํดํ๋ฉด ๊ฑฐ์ ๋์์ด ๋ถ๊ฐ๋ฅํ์ต๋๋ค. DexGraspVLA๋ ์ด๋ฐ ๋ฐฉ์๊ณผ ๋์ฒ์ ์ ์์ต๋๋ค. ๋ฏธ๋ฆฌ ๋ฌผ์ฒด๋ฅผ ์๋ ค์ฃผ์ง ์์๋ ์๊ฐ์ ์ผ๋ก ์ธ์ํ๊ณ , ํ์ต๋ ์ ์ฑ ์ด ์ฐ์์ ์ธ ์ผ์ ํผ๋๋ฐฑ์ ํ์ฉํด ์ก๋ ์ค๊ฐ์๋ ์ค์๊ฐ ์ ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฒ๋ค๊ฐ ์ฌ๋์ ์ธ์ด ์ง์๋ฅผ ์ดํดํด ๋ชฉํ๋ฅผ ์ ํ๋ ๋ฑ, ์ ํต ๊ธฐ๋ฒ์ผ๋ก๋ ์์ํ๊ธฐ ์ด๋ ค์ด ์ ์ฐํ ๋์ฒ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- (B) ๋ชจ๋ฐฉํ์ต ๊ธฐ๋ฐ ์ ๊ทผ: ์ธ๊ฐ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ด ๋ง๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ก๋ด ํ์ง ์ ์ฑ ์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์๋ Behavior Cloning, DAGGER ๋ฑ ์ง๋ํ์ต ๋ฐฉ์์ด๋, ์ดฌ์๋ ๋์์์ ๋ชจ๋ฐฉํ๋ ๋ฐฉ๋ฒ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ๋น๊ต์ ํ์ค ํ๊ฒฝ์์ ๋ฐ์ดํฐ ์์ง์ด ์ฉ์ดํ๊ณ ์์ ํ๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ํ๋ จ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ฒ์ด๋๋ฉด ์ฑ๋ฅ์ด ๊ธ๋ฝํ๋ ์ฝ์ ์ด ์์ต๋๋ค. ํนํ ๋ค๊ด์ ์์ฒ๋ผ ๋ณต์กํ ๊ฒฝ์ฐ, ์ถฉ๋ถํ ๋ค์ํ ์ํฉ์ ์์ฐ์ผ๋ก ๋ชจ๋ ํฌ๊ดํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ผ๋ฐํ ํ๊ณ๊ฐ ์์์ฃ . ์๋ฅผ ๋ค์ด ์ฌ๋ ์์ฐ์ ๋ฐฐ์ด ์ด๋ ์ ์ฑ ์ด ํน์ ๋ฐ๊ธฐ์ ์กฐ๋ช , ํน์ ํ์ ์์์๋ง ์ ๋์ํ๊ณ , ์กฐ๋ช ์ด ๋ฐ๋๋ฉด ์คํจํ๋ค๋ฉด ์ธ๋ชจ๊ฐ ์ ํ๋ฉ๋๋ค. DexGraspVLA๋ ๋ชจ๋ฐฉํ์ต์ ๊ธฐ๋ณธ ํ์ ์ ์งํ๋, ๊ฑฐ๋ ๋ชจ๋ธ์ ํ์ผ๋ก ์ด ๋ฌธ์ ๋ฅผ ๋ํํ์ต๋๋ค. ์์ ์ค๋ช ํ๋ฏ, DINOv2 ๊ฐ์ ๋ชจ๋ธ์ด ์กฐ๋ช /๋ฐฐ๊ฒฝ ๋ณํ์ ๋๊ฐํ ํน์ง์ ์ฃผ๋, ์์ฐ ๋ฐ์ดํฐ 2์๊ฐ์น๋ก๋ ์๋ง์ ์๋ก์ด ์ํฉ์ ์ปค๋ฒํ ์ ์๊ฒ ๋์์ต๋๋ค. ์ค์ ๋ก DexGraspVLA๋ ํ๋ จ์ ์ฐ์ง ์์ ํ๊ฒฝ์์ ์ ํ ์ฑ๋ฅ ์ ํ ์์ด ๋์ํจ์ผ๋ก์จ, โ๋ชจ๋ฐฉํ์ต์ ๋ฒ์ฉ์ฑ์ด ๋จ์ด์ง๋คโ๋ ํต๋ ์ ๊นฌ ์ ์ ๋๋ค. ๋ํ ๋ชจ๋ฐฉํ์ต ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ํ ๋ฒ์ ์์ฐ๋๋ก๋ง ํ๋ํด์ ์คํจ ์ ๋ณต๊ตฌ๊ฐ ์ด๋ ค์ด๋ฐ, DexGraspVLA๋ ํ๋๋-์ปจํธ๋กค๋ฌ ๊ตฌ์กฐ ๋์ ์๋ชป ์ก์์ผ๋ฉด ๋๊ณ ๋ค์ ์๋ํ๋ ์ฌ๊ท์ ์ ๋ต๊น์ง ํฌํจํฉ๋๋ค. ์ด๋ ๋จ์ ๋ชจ๋ฐฉํ์ตํ ์ ์ฑ ์ด ๊ฐ๊ธฐ ํ๋ ์ ์ฐ์ฑ์ ๋๋ค.
- (C) ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ๊ทผ: ๊ฐ๋ ฅํ ์ปดํจํ ์ ํ์ฉํด ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ก๋ด ์์ ์์ญ์ต ๋ฒ ์์ง์ด๋ฉฐ ์ต์ ์ ์ ์ฑ ์ ์ฐพ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค. OpenAI์ Dactyl์ฒ๋ผ ๋๋ฉ์ธ ๋๋คํ ๊ธฐ๋ฒ์ ์ฐ๋ฉด ํ์ค๋ก๋ ์ด๋ ์ ๋ ์ผ๋ฐํ๋ ์ ์ฑ ์ ์ป์ ์ ์์๊ณ , ๋ ๋ค๋ฅธ ์ต์ ์ฐ๊ตฌ๋ค์ ์๋ฎฌ๋ ์ด์ ์์ 247,786๊ฐ์ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ํ์ต์์ผ 512๊ฐ์ ์ค์ ์ ๋ฌผ์ฒด๋ 94.6% ์ฑ๊ณต๋ฅ ๋ก ์ก์๋ด๋ ์ฌ๋ก๋ ์์์ต๋๋ค. ์ด๋ฌํ RL ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ฐ์ดํฐ ๋ค์์ฑ๊ณผ ์ ์๋ ฅ ์ธก๋ฉด์ ๊ฐ์ ์ด ์์ง๋ง, ํ์ค ์ ์ฉ๊น์ง ๊ณผ์ ์ด ๋งค์ฐ ๋ณต์กํ๊ณ ๋น์ฉ์ด ํฝ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ ๋ง๋ค์ด์ผ ํ๊ณ , ํ์ต์๋ ์์ฒญ๋ ์๊ฐ๊ณผ ํ๋์ด ํ์ํ๋ฉฐ, ์ฌ์ ํ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์์ ํ ๊ทน๋ณตํ์ง๋ ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๋ํ ์ง๊ธ๊น์ง์ ๊ฐํํ์ต ์ฐ๊ตฌ๋ค์ ๋๊ฐ ๋จ์ผ ๊ณผ์ ์ ์ด์ ์ ๋ง์ถฐ์์ต๋๋ค. ํน์ ๋ชจ์ ๋ฌผ์ฒด๋ฅผ ์ก๋ ์ ์ฑ ์ ์ป์ผ๋ฉด ๊ทธ๊ฑฐ ํ๋๋ ์ํ์ง๋ง, ์๋ก์ด ๋ชฉํ(์: ๋ค๋ฅธ ๋ชจ์ ๋ฌผ์ฒด ๋๋ ์ฌ๋ฌ ๊ฐ ์์ฐจ ์ง๊ธฐ ๋ฑ)์๋ ๋ค์ ํ๋ จํด์ผ ํ์ต๋๋ค. ๋ฐ๋ฉด DexGraspVLA๋ ์ ์ด์ ํ์ค ์ธ๊ณ ๋ฐ์ดํฐ(์ธ๊ฐ ๋ฐ๋ชจ)๋ก ํ์ต๋์๊ณ , ์๋ฎฌ๋ ์ด์ ์ ์ด๋ฅผ ํ์ง ์์๋ ๋ฐ๋ก ์ค์ ๋ก๋ด์ ์ ์ฉ๋์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋์ ์ ์ฑ /๊ตฌ์กฐ๋ก ์ฌ๋ฌ ๊ฐ์ง ์์ ์ ์ํํ ์ ์๊ฒ ๋์์ธ๋์์ต๋๋ค. ์์ปจ๋ ์ด์ ๊น์ง๋ โ๊ณต์ ์ง์ด ์์์ ๋ฃ๊ธฐโ๋ฅผ ํ๊ณ ๋๋ฉด โ์ปต์ ์ง์ด ์๋ฐ์ ์ฌ๋ฆฌ๊ธฐโ๋ ๋ณ๊ฐ์ ํ์ต์ ์ํ๋ ์์ด์์ง๋ง, DexGraspVLA๋ ์ธ์ด ์ง์๋ง ๋ค๋ฅด๊ฒ ์ฃผ๋ฉด ๋น์ทํ ์๋ฆฌ๋ก ์คํํด๋ ๋๋ค. ์ด๊ฒ์ ๊ฐํํ์ต ์ ๊ทผ๊ณผ ๋๋น๋๋ ๋ฒ์ฉ์ฑ์ ํ๋์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
- (D) ๋น์ ๊ธฐ๋ฐ ํ์ง ํ์ดํ๋ผ์ธ: ํํธ ํ๊ณ์ ์ฐ์ ๊ณ์์๋ ํ์ต๋ณด๋ค๋ ๊ฒ์ถ + ๊ณํ ์กฐํฉ์ผ๋ก ํ์ง๋ฅผ ๊ตฌํํ๋ ์ค์ฉ์ ํ์ดํ๋ผ์ธ๋ ๋ง์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด ์ธ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ชฉํ ๋ฌผ์ฒด๋ฅผ ์ฐพ์๋ด๊ณ , ๊ฒฝ๋ก ๊ณํ์ผ๋ก ๋ก๋ด ํ์ ์์ง์ฌ ์ฌ์ ์ ์๋ ๊ทธ๋ฆฝ ํฌ์ฆ๋ก ์ก๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ฐ ๋ฐฉ์์ ์ฐ์ ์ฉ ๋ก๋ด์ ํํ ์ฐ์ด๋๋ฐ, ๋ค๋ง ์ฌ์ ์ ๋ชจ๋ธ๋ง๋ ๋ฌผ์ฒด๋ ์ ํด์ง ๊ทธ๋ฆฝ ๋ฐฉ์์ ์์กดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ์๋ก์ด ๋ฌผ์ฒด๋ ๋ณต์กํ ์์ฌ์ฃผ์๋ ์ ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ ๋ค๊ด์ ์์ฒ๋ผ ๋ณต์กํ ๊ทธ๋ฆฝ์๋ ๋จ์ ๊ฒฝ๋ก๊ณํ์ผ๋ก๋ ํ๊ณ๊ฐ ์์ต๋๋ค. DexGraspVLA๋ ๊ฒ๋ณด๊ธฐ์ โ๋ฌผ์ฒด ํ์ง + ์ก๊ธฐโ๋ก ๋ณด์ผ ์ ์์ง๋ง, ์ฐจ์ด๋ ํ์ง๋ถํฐ ์ ์ด๊น์ง ๋ชจ๋ ํ์ต๋ ๋ชจ๋๋ก ์ด๋ค์ก๋ค๋ ๊ฒ์ ๋๋ค. ํนํ ์คํ-์ ๋ฌผ์ฒด ์ธ์์ ๋น์ -์ธ์ด ๋ชจ๋ธ๋ก ๊ตฌํํ ์ ์ด ๋ค๋ฆ ๋๋ค. ๊ธฐ์กด ํ์ดํ๋ผ์ธ์ ์ธ์ํ ๋ฌผ์ฒด ์ข ๋ฅ๋ฅผ ๋ฏธ๋ฆฌ ์ ํด์ผ ํ๋ค๋ฉด, DexGraspVLA๋ ์ด๋ค ๋ฌผ์ฒด๋ ์ฌ์ฉ์ ์ง์์ ๋์จ ๋จ์ด๋ก ์ฐพ์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด โ์ฟ ํค ํต์ ์ก์โ๋ผ๊ณ ํ๋ฉด ์ฟ ํค ๊ทธ๋ฆผ์ด ์๋ ์ํตํ ์์๋ฅผ, โ์ฑ ์ ์ง์ดโ๋ผ๋ฉด ์ฌ๊ฐํ ์ฑ ์ ์ธ์ํ๋ ์์ ๋๋ค. ์ด๋ ๋ฒ์ฉ ๋ฌผ์ฒด ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋น์ -์ธ์ด ๋ชจ๋ธ ๋๋ถ์ด๋ฉฐ, ์ ํต์ ๋ฐฉ๋ฒ๊ณผ ํฐ ์ฐจ๋ณ์ ์ ๋๋ค.
์์ ๋น๊ต๋ฅผ ์์ฝํ๋ฉด, DexGraspVLA = (๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ํ์ง ๋ชปํ ์ผ๋ฐํ ๋ฌธ์ ) โ ํนํ ๋ค์ํ ๋ฌผ์ฒดยทํ๊ฒฝ + ์์ฐ์ด ์ง์ + ๋ค๋จ๊ณ ์์ โ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฑฐ๋ ์ฌ์ ์ง์ ๋ชจ๋ธ + ๊ณ์ธต์ ํ์ต ๊ตฌ์กฐ๋ผ๋ ์๋ก์ด ์กฐํฉ์ ์ ๋ณด์ธ ๊ฒ์ ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋งค์ฐ ์ธ์์ ์ ๋๋ค. ์์ฒ ๊ฐ์ง์ ์๋ก์ด ์ํฉ์ ๋ํ ์ ๋ก์ท ์ผ๋ฐํ, ํ์๋ฆฌ ์ ์๊ฐ์ ์์ฐ ๋ฐ์ดํฐ๋ก ๋ฌ์ฑํ ๊ณ ์ฑ๋ฅ, ๊ทธ๋ฆฌ๊ณ ์ด์ง์ ์ธ ๊ธฐ๋ฅ๋ค์ ํ๋์ ์์คํ ์ผ๋ก ํตํฉํ ์ตํฉ์ฑ์ด์ฃ . ํนํ ๋ก๋ด๊ณตํ ์์ง๋์ด์ ๊ด์ ์์, DexGraspVLA๋ โ๋ํ์ต๋ AI ๋ชจ๋ธ์ ์ง์์ ์ค์ ๋ก๋ด ๊ธฐ์ ์ ํฌ์ ํ๋ฉด ์ด๋ค ์ผ์ด ๋ฒ์ด์ง๋๊ฐโ์ ๋ํ ํ๋์ ํด๋ต์ ์ ์ํฉ๋๋ค. ์ด ์ ๊ทผ์ ๋จ์ํ ์ฑ๋ฅ ์ซ์๋ฅผ ๋์ธ ๊ฒ์ด ์๋๋ผ, ๋ก๋ด์๊ฒ ํ์ํ ์ง๋ฅ์ ๊ตฌ์กฐ๋ฅผ ์ฌ๊ณ ํ๊ฒ ํฉ๋๋ค. ๊ณ ์์ค์ ์ธ์ง์ ๊ณํ์ ์ธ๊ฐ์ด ๋ง๋ AI๋ชจ๋ธ์๊ฒ partly ๋งก๊ธฐ๊ณ , ๋ก๋ด์ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์กฑํ ๋ถ๋ถ๋ง ํ์ตํ๋ฉด ๋๋ ์์ ๋๋ค. ์ด๋ ๋ง์น ์ ์ ์์ง๋์ด๊ฐ ๋ฐฉ๋ํ ๋ฐฑ๊ณผ์ฌ์ ๊ณผ ์ ๋ฐฐ๋ค์ ํ์ ์ฐธ๊ณ ํ์ฌ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ๊ณผ๋ ๊ฐ์ต๋๋ค. ๋๋ถ์ ์ ์ ๊ฒฝํ์ผ๋ก๋ ํ๋ถํ ๋ฌธ์ ๋ฅผ ํ ์ ์๊ฒ ๋ ๊ฒ์ด์ฃ .
๊ฒฐ๋ก : ์ฌ์ธํ ๊ทธ๋ฆฝ์ ๋ฏธ๋๋ฅผ ํฅํ์ฌ
DexGraspVLA๋ ๋ฒ์ฉ ๋ก๋ด ํ์ง๋ฅผ ํฅํ ์ฌ์ ์์ ์๋ฏธ์ฌ์ฅํ ์ด์ ํ๋ฅผ ์ธ์ ์ต๋๋ค. ์์ฝํ์๋ฉด, ์ด ํ๋ ์์ํฌ๋ ๊ณ์ธต์ ๋น์ -์ธ์ด-์ก์ ์ค๊ณ, ๊ฑฐ๋ ๋ชจ๋ธ ํ์ฉ์ ํตํ ์ผ๋ฐํ, ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ์ ์ ๊ตํ ์ ์ด, ๊ทธ๋ฆฌ๊ณ ์ข ํฉ์ ์ธ ๊ฒฌ๊ณ ์ฑ ์ค์ฆ์ ํตํด ํ์ฌ๊น์ง ๋ณด๊ณ ๋ ๊ฒ ์ค ๊ฐ์ฅ ์ข ํฉ์ ์ผ๋ก ๊ฐ์ธํ ๋ค๊ด์ ํ์ง ์์คํ ์ ๊ตฌํํ์ต๋๋ค. ํ์ธ๋ง์ด ๊ทธ๋ฌ๋ฏ ๋ณต์กํ ๊ฐ๋ ๋ ์ฝ๊ฒ ํ์ด ๋งํด๋ณธ๋ค๋ฉด, DexGraspVLA๋ โ๋ก๋ด์๊ฒ ๋๊ณผ ๊ท(๋น์ -์ธ์ด ๋ชจ๋ธ)๋ฅผ ๋ฌ์์ฃผ๊ณ , ๊ทธ ๋๊ณผ ๊ท๋ก๋ถํฐ ์งํ๋ฅผ ์ป์ด ์๊ฐ๋ฝ์ ๋๋ฆฌ๋ ๋ฐฉ๋ฒโ์ ํฐ๋ํ๊ฒ ํ ์ ์ ๋๋ค.
๋ฌผ๋ก ์ด ์ฐ๊ตฌ๊ฐ ๋์ ์๋๋๋ค. ์์ผ๋ก ๋จ์ ๋์ ๋ค๋ ์์ต๋๋ค. ์์ปจ๋ ์ค์๊ฐ ๋ํ ์ํธ์์ฉ์ ํตํด ์ฌ๋๊ณผ ํ์ ํ๋ฉด์ ๋ฌผ์ฒด๋ฅผ ์ฃผ๊ณ ๋ฐ๋๋ค๊ฑฐ๋, ๋์ฑ ๋ค์ํ ๋น์ ํ ์กฐ์(๋นํ๊ธฐ, ๋๊ตฌ ์ฌ์ฉ ๋ฑ)์ผ๋ก ํ์ฅํ๋ ๊ณผ์ ๋ฑ์ด ์๊ฒ ์ง์. ํ์ง๋ง DexGraspVLA๊ฐ ๋ณด์ฌ์ค 90%๋์ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ๊ณผ ์ ์ฐํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์, ๋ก๋ด๊ณตํ์๋ค์๊ฒ ์๋ก์ด ์๊ฐ์ ์ค๋๋ค. ์ด์ ์ฐ๋ฆฌ๋ โ๊ฑฐ๋ AI์ ๋ก๋ด์ ๋ง๋จโ์ด ์ผ๋ง๋ ๊ฐ๋ ฅํ ์๋์ง๋ฅผ ๋ผ ์ ์๋์ง ๋ชฉ๊ฒฉํ์ต๋๋ค. ์ด ๊ธ์ ์ฝ๋ ๋ ์ ์ฌ๋ฌ๋ถ๋, ์๋ง ๊ฐ๊น์ด ๋ฏธ๋์ ์ด๋ฐ ์๋ฆฌ๊ฐ ์ ์ฉ๋ ๋ก๋ด ์์ด ์ผ์ ์์์ ๋ฅ์ํ๊ฒ ๋ฌผ๊ฑด์ ์ง๊ณ ๋ค๋ฃจ๋ ๋ชจ์ต์ ๋ณด๊ฒ ๋ ๊ฒ์ ๋๋ค. ๋ณต์กํ ๊ฒ์ ๋จ์ํ๊ณ ๋ช ์พํ๊ฒ ํ์ด๋ด๋ ์งํ, ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฅผ ํตํ ๊ธฐ์ ์ ๋์ฝ โ DexGraspVLA๊ฐ ๋ฐ๋ก ๊ทธ๋ฐ Feynman-esque ํ์ ์ ํ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค. ์์ผ๋ก์ ์ฐ๊ตฌ๋ค์ด ์ด ๋ฐฉํฅ์ผ๋ก ๊ณ์ ๋ฐ์ ํด, ๋์ฑ ๋๋ํ๊ณ ๋ฏฟ์์งํ ๋ก๋ด ์์ด ํ์ํ๊ธธ ๊ธฐ๋ํด๋ด ๋๋ค.