Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?
    • 1. ํ•ต์‹ฌ ํ†ต์ฐฐ: ์™œ Domain-Invariant Representation์ธ๊ฐ€?
      • 1.1 ์ผ๋ฐ˜ํ™”์˜ ์ : ๋„๋ฉ”์ธ ์‹œํ”„ํŠธ
      • 1.2 Foundation Model: ๋ฒ”์šฉ ๋ฒˆ์—ญ๊ธฐ
      • 1.3 ๋ฐ˜๋ณต์  ๋ณ€ํ™˜(Iterative Transformation)์˜ ํž˜
    • 2. ์•„ํ‚คํ…์ฒ˜ ์‹ฌ์ธต ๋ถ„์„
      • 2.1 ๊ณ„์ธต์  ๊ตฌ์กฐ: High-Level Planner + Low-Level Controller
      • 2.2 ๊ฐ ์ปดํฌ๋„ŒํŠธ ์ƒ์„ธ ๋ถ„์„
    • 3. ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ: ๋‹จ 2์‹œ๊ฐ„์˜ ๋ฐ๋ชจ๋กœ?
      • 3.1 ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ƒ์„ธ
      • 3.2 ๋น„๋ฐ€: Foundation Model์ด ์ด๋ฏธ ํ•™์Šตํ•ด ๋‘” ๊ฒƒ
      • 3.3 ํ•™์Šต ์„ค์ •
    • 4. ์‹คํ—˜ ๊ฒฐ๊ณผ: ์ˆซ์ž๊ฐ€ ๋งํ•ด์ฃผ๋Š” ๊ฒƒ
      • 4.1 ๋Œ€๊ทœ๋ชจ ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€
      • 4.2 ๋ฒ ์ด์Šค๋ผ์ธ ๋น„๊ต
      • 4.3 Ablation Study: ๋ฌด์—‡์ด ์ค‘์š”ํ•œ๊ฐ€?
      • 4.4 ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„: Attention Map ์‹œ๊ฐํ™”
    • 5. ํ™•์žฅ ๋Šฅ๋ ฅ: ๊ทธ๋ž˜์Šคํ•‘์„ ๋„˜์–ด์„œ
      • 5.1 ๋น„-ํ”„๋ฆฌํ—จ์‹ค(Nonprehensile) ๊ทธ๋ž˜์Šคํ•‘
      • 5.2 Long-Horizon ์ž‘์—…
      • 5.3 ์ ๋Œ€์  ์ƒํ™ฉ ๋ฐ ์ธ๊ฐ„ ๋ฐฉํ•ด
    • 6. ํ•˜๋“œ์›จ์–ด ์…‹์—…: ์‹ค์ œ ์‹œ์Šคํ…œ
      • 6.1 ๋กœ๋ด‡ ํ”Œ๋žซํผ
      • 6.2 Compute ์š”๊ตฌ์‚ฌํ•ญ
    • 7. ๋น„ํŒ์  ๋ถ„์„: ํ•œ๊ณ„์™€ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ
      • 7.1 ํ˜„์žฌ ํ•œ๊ณ„์ 
      • 7.2 ์งˆ๋ฌธ๋“ค
      • 7.3 ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 8. ์‹ค๋ฌด ๊ด€์ : ์ด ์—ฐ๊ตฌ๋ฅผ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ๊ฒƒ์ธ๊ฐ€?
      • 8.1 ์ฝ”๋“œ ์‹œ์ž‘ํ•˜๊ธฐ
      • 8.2 ํ•ต์‹ฌ ์ฝ”๋“œ ๊ตฌ์กฐ
      • 8.3 ์ž์‹ ์˜ ๋กœ๋ด‡์— ์ ์šฉํ•˜๊ธฐ
      • 8.4 ๋น„์šฉ ์ถ”์ •
    • 9. ๊ฒฐ๋ก : ์šฐ๋ฆฌ๋Š” ์–ด๋””๋กœ ๊ฐ€๊ณ  ์žˆ๋Š”๊ฐ€?
    • ๋ถ€๋ก: ์šฉ์–ด ์ •๋ฆฌ
  • โ›๏ธ Dig Review
  • DexGraspVLA: ๋น„์ „-์–ธ์–ด-์•ก์…˜ ํ†ตํ•ฉ์œผ๋กœ ๋ฒ”์šฉ ์„ฌ์„ธํ•œ ํŒŒ์ง€ ๋‹ฌ์„ฑํ•˜๊ธฐ
    • ์†Œ๊ฐœ: ๋ฒ”์šฉ ์„ฌ์„ธํ•œ ํŒŒ์ง€์˜ ๋„์ „๊ณผ ํ•„์š”์„ฑ
    • DexGraspVLA๋ž€ ๋ฌด์—‡์ธ๊ฐ€? โ€“ ๋น„์ „-์–ธ์–ด-์•ก์…˜์˜ ๊ณ„์ธต์  ํ˜‘์—…
    • DexGraspVLA์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ์™€ ํ˜์‹  ํฌ์ธํŠธ
    • ์ด์ „ ์ ‘๊ทผ๋ฒ•๋“ค๊ณผ์˜ ๋น„๊ต: ๋ฌด์—‡์ด ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅผ๊นŒ?
    • ๊ฒฐ๋ก : ์„ฌ์„ธํ•œ ๊ทธ๋ฆฝ์˜ ๋ฏธ๋ž˜๋ฅผ ํ–ฅํ•˜์—ฌ

๐Ÿ“ƒDexGraspVLA(AAAI 2026) ๋ฆฌ๋ทฐ

grasp
vla
dexterity
A Vision-Language-Action Framework Towards General Dexterous Grasping
Published

December 19, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project
  • Code
  1. ๐Ÿค– ์ด ๋…ผ๋ฌธ์€ ์–ธ์–ด ๊ธฐ๋ฐ˜์˜ ์ผ๋ฐ˜์ ์ธ Dexterous Grasping์„ ์œ„ํ•œ ๊ณ„์ธต์  Vision-Language-Action (VLA) ํ”„๋ ˆ์ž„์›Œํฌ์ธ DexGraspVLA๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿ’ก DexGraspVLA๋Š” pre-trained VLM์„ ๊ณ ์ˆ˜์ค€ ํ”Œ๋ž˜๋„ˆ๋กœ, Diffusion-based low-level Action controller์—์„œ foundation model์„ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ domain-invariant representation์„ ์ถ”์ถœ, Imitation Learning์„ ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ๋›ฐ์–ด๋‚œ ์ผ๋ฐ˜ํ™”๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿš€ DexGraspVLA๋Š” ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณด์ง€ ๋ชปํ•œ cluttered scene์—์„œ 90% ์ด์ƒ์˜ grasping ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, long-horizon task ๋ฐ nonprehensile grasping ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๊ฒฌ๊ณ ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ๊ณตํ•™ ๋ถ„์•ผ์˜ ๊ทผ๋ณธ์ ์ด๋ฉด์„œ๋„ ์–ด๋ ค์šด ๋ฌธ์ œ์ธ ์ผ๋ฐ˜์ ์ธ dexterous grasping(๋Šฅ์ˆ™ํ•œ ์žก๊ธฐ)์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ณ„์ธต์  VLA(Vision-Language-Action) ํ”„๋ ˆ์ž„์›Œํฌ์ธ DexGraspVLA๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ๋‹จ์ผ ๊ฐ์ฒด ์„ค์ •์ด๋‚˜ ์ œํ•œ๋œ ํ™˜๊ฒฝ๊ณผ ๊ฐ™์€ ์ œ์•ฝ์ ์ธ ๊ฐ€์ •์— ์˜์กดํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ์ œํ•œ์ ์ด๋ผ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. DexGraspVLA๋Š” ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฐ ์‹œ๊ฐ์  ์ž…๋ ฅ๋“ค์„ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(foundation model)์„ ํ†ตํ•ด ๋„๋ฉ”์ธ ๋ถˆ๋ณ€(domain-invariant) ํ‘œํ˜„์œผ๋กœ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ด ํ‘œํ˜„๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ฐฉ ํ•™์Šต(imitation learning)์„ ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ๋„๋ฉ”์ธ ์ด๋™(domain shift) ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•จ์œผ๋กœ์จ ๊ฐ•๋ ฅํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก  (Core Methodology)

DexGraspVLA๋Š” ๊ณ ์ˆ˜์ค€ ๊ณ„ํš๊ธฐ(high-level planner)์™€ ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ(low-level controller)๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„์ธต์ ์ด๊ณ  ๋ชจ๋“ˆํ™”๋œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.

  1. ๊ณ ์ˆ˜์ค€ ๊ณ„ํš๊ธฐ (High-level Planner):
    • ์‚ฌ์ „ ํ•™์Šต๋œ Qwen VLM(Vision-Language Model)์„ ํ™œ์šฉํ•˜์—ฌ ์‚ฌ์šฉ์ž ํ”„๋กฌํ”„ํŠธ p (์˜ˆ: โ€œ์‹ํƒ์„ ์น˜์›Œ๋ผโ€)๋ฅผ ์ดํ•ดํ•˜๊ณ , ๊ฐœ๋ณ„ ๊ฐ์ฒด ์ˆ˜์ค€์˜ ์žก๊ธฐ ์ง€์‹œ l (์˜ˆ: โ€œ์ฟ ํ‚ค๋ฅผ ์žก์•„๋ผโ€)๋กœ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์—์„œ VLM์€ ํ˜„์žฌ ์žฅ๋ฉด์˜ ์ด๋ฏธ์ง€(I_h^t)๋ฅผ ๋ถ„์„ํ•˜์—ฌ ํƒ€๊ฒŸ ๊ฐ์ฒด์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค (x_1, y_1, x_2, y_2)๋ฅผ ํƒœ์Šคํฌ ์–ดํฌ๋˜์Šค(task affordance) ์‹ ํ˜ธ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์–ธ์–ด์™€ ์‹œ๊ฐ์  ์ž…๋ ฅ์€ ๋„๋ฉ”์ธ ๊ฐ€๋ณ€์ (domain-variant)์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ๊ฐ์ฒด ์œ„์น˜ ํŒŒ์•…์— ์žˆ์–ด ๋„๋ฉ”์ธ ๋ถˆ๋ณ€์ ์ธ ์ผ๊ด€๋œ ํ˜•์‹์œผ๋กœ, ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ์˜ ํ•™์Šต ๋‚œ์ด๋„๋ฅผ ๊ฒฝ๊ฐ์‹œํ‚ต๋‹ˆ๋‹ค.
    • ๊ณ„ํš๊ธฐ๋Š” ์ œ์–ด๊ธฐ์˜ ์‹คํ–‰์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ , ๊ฐ ์žก๊ธฐ ์‹œ๋„ ํ›„ ๋กœ๋ด‡์„ ์ดˆ๊ธฐ ์ƒํƒœ๋กœ ์žฌ์„ค์ •ํ•˜๋ฉฐ, ํ”„๋กฌํ”„ํŠธ p๊ฐ€ ์™„์ „ํžˆ ์™„๋ฃŒ๋  ๋•Œ๊นŒ์ง€ ์—…๋ฐ์ดํŠธ๋œ ์ง€์‹œ l์„ ๊ณ„์† ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ (Low-level Controller):
    • ๊ณ„ํš๊ธฐ๊ฐ€ ์ œ๊ณตํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค (x_1, y_1, x_2, y_2)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค.
    • ๋งˆ์Šคํฌ ์ถ”์  (Mask Tracking): ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ SAM (Segment Anything Model)์— ์ž…๋ ฅํ•˜์—ฌ ํƒ€๊ฒŸ ๊ฐ์ฒด์˜ ์ดˆ๊ธฐ ์ด์ง„ ๋งˆ์Šคํฌ m_0 \in \{0,1\}^{H \times W \times 1}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ดํ›„ Cutie ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค ํƒ€์ž„์Šคํ… t๋งˆ๋‹ค ๋งˆ์Šคํฌ m_t๋ฅผ ์ง€์†์ ์œผ๋กœ ์ถ”์ ํ•˜์—ฌ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ๋„ ์ •ํ™•ํ•œ ๊ฐ์ฒด ์‹๋ณ„์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.
    • ๋„๋ฉ”์ธ ๋ถˆ๋ณ€ ํŠน์ง• ์ถ”์ถœ (Domain-Invariant Feature Extraction): raw visual input I_w^t, I_h^t์˜ ๋†’์€ ๊ฐ€๋ณ€์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ธ DINOv2 (ViT-B/14 for head camera, ViT-L/14 for wrist camera)๋ฅผ ํŠน์ง• ์ถ”์ถœ๊ธฐ \phi๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด head camera ์ด๋ฏธ์ง€ ํŠน์ง• z_h^t = \phi_h(I_h^t) \in \mathbb{R}^{L_h \times D_h} ์™€ wrist camera ์ด๋ฏธ์ง€ ํŠน์ง• z_w^t = \phi_w(I_w^t) \in \mathbb{R}^{L_w \times D_w}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด ์ถ”์ถœ๋œ ํŠน์ง•๋“ค์€ ๊ต๋ž€์ ์ธ ์‹œ๊ฐ์  ์š”์†Œ์— ๋น„๊ต์  ๋ถˆ๋ณ€์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
    • ํŠน์ง• ์œตํ•ฉ ๋ฐ ์ž„๋ฒ ๋”ฉ (Feature Fusion and Embedding): ๋งˆ์Šคํฌ m_t๋Š” ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ViT๋ฅผ ํ†ตํ•ด head ์ด๋ฏธ์ง€ ํŠน์ง• ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜๋˜์–ด z_m^t \in \mathbb{R}^{L_h \times D_h}๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. z_h^t์™€ z_m^t๋ฅผ ํŒจ์น˜ ๋‹จ์œ„๋กœ ์—ฐ๊ฒฐํ•˜์—ฌ \bar{z}_h^t \in \mathbb{R}^{L_h \times 2D_h}๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ด์–ด์„œ \bar{z}_h^t, wrist-camera ํŠน์ง• z_w^t, ๊ทธ๋ฆฌ๊ณ  ๋กœ๋ด‡ ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ(proprioception) s_t๋ฅผ ๊ฐ๊ฐ ๋ณ„๋„์˜ MLP๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณตํ†ต ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ํ•˜์—ฌ \tilde{z}_h^t, \tilde{z}_w^t, \tilde{z}_s^t๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ์ž„๋ฒ ๋”ฉ๋“ค์„ ์—ฐ๊ฒฐํ•˜์—ฌ ์ „์ฒด ๊ด€์ธก ํŠน์ง• ์‹œํ€€์Šค \tilde{z}_{obs}^t \in \mathbb{R}^{(1+L_h+L_w) \times D}๋ฅผ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์•ก์…˜ ์˜ˆ์ธก (Action Prediction): DiT (Diffusion Transformer) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ H๊ฐœ ์•ก์…˜์„ ํฌํ•จํ•˜๋Š” ์•ก์…˜ ๋ฉ์–ด๋ฆฌ(action chunk) A_t = a_{t:t+H}๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
      • ํ•™์Šต ์‹œ: ์ž„์˜์˜ ํ™•์‚ฐ ์Šคํ…(diffusion step) k๊ฐ€ ์ƒ˜ํ”Œ๋ง๋˜๊ณ , A_t์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ \epsilon์ด ์ถ”๊ฐ€๋˜์–ด ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ์•ก์…˜ ํ† ํฐ x_k = \alpha_k A_t + \sigma_k \epsilon๊ฐ€ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ \alpha_k์™€ \sigma_k๋Š” DDPM (Denoising Diffusion Probabilistic Models) ๊ณ„์ˆ˜์ž…๋‹ˆ๋‹ค.
      • x_k๋Š” ๊ด€์ธก ํŠน์ง• ์‹œํ€€์Šค \tilde{z}_{obs}^t์™€ ํ•จ๊ป˜ DiT์— ์ž…๋ ฅ๋ฉ๋‹ˆ๋‹ค. ๊ฐ DiT ๋ ˆ์ด์–ด๋Š” ์•ก์…˜ ํ† ํฐ์— ๋Œ€ํ•œ ์–‘๋ฐฉํ–ฅ ์…€ํ”„-์–ดํ…์…˜, \tilde{z}_{obs}^t์— ๋Œ€ํ•œ ํฌ๋กœ์Šค-์–ดํ…์…˜, ๊ทธ๋ฆฌ๊ณ  MLP ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ์›๋ž˜ ๋…ธ์ด์ฆˆ \epsilon์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์€ ์‹ค์ œ ์•ก์…˜ ๋ฉ์–ด๋ฆฌ A_t๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
      • ์ถ”๋ก  ์‹œ: ๋ฐ˜๋ณต์ ์ธ denoising ์Šคํ…์„ ํ†ตํ•ด ํ•™์Šต๋œ ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ์˜๋„๋œ ๋‹ค๋‹จ๊ณ„ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ๋ณต๊ตฌํ•ฉ๋‹ˆ๋‹ค. Receding horizon control ์ „๋žต์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก๋œ ์•ก์…˜ ๋ฉ์–ด๋ฆฌ ์ค‘ ์ฒซ H_a๊ฐœ์˜ ์•ก์…˜๋งŒ ์‹คํ–‰ํ•œ ํ›„ ์ƒˆ๋กœ์šด ์•ก์…˜ ๋ฉ์–ด๋ฆฌ ์˜ˆ์ธก์„ ์ƒ์„ฑํ•˜์—ฌ ๋ฐ˜์‘์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

DexGraspVLA๋Š” 2,094๊ฐœ์˜ ์„ฑ๊ณต์ ์ธ ๋ฐ๋ชจ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹(36๊ฐœ ๊ฐ€์ •์šฉ ๊ฐ์ฒด, ๋ณต์žกํ•œ ์žฅ๋ฉด)์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ ์—ํ”ผ์†Œ๋“œ๋Š” ์›๋ณธ ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€, ๋กœ๋ด‡ ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ, ๊ฐ์ฒด ๋งˆ์Šคํฌ, ์•ก์…˜์„ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ:

  • ๋Œ€๊ทœ๋ชจ ์ผ๋ฐ˜ํ™”: ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ณด์ง€ ๋ชปํ•œ(unseen) ๋ฌผ์ฒด, ์กฐ๋ช…, ๋ฐฐ๊ฒฝ ์กฐํ•ฉ์˜ ํ˜ผ์žกํ•œ ์žฅ๋ฉด์—์„œ 90.8%์˜ ๋›ฐ์–ด๋‚œ ์žก๊ธฐ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” โ€œzero-shotโ€ ํ™˜๊ฒฝ์—์„œ ๋‹ฌ์„ฑ๋˜์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด VLA ๋ชจ๋ธ๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ•๋ ฅํ•œ ๋‚ด์„ฑ: ์ ๋Œ€์  ๊ฐ์ฒด(adversarial objects), ์ธ๊ฐ„์˜ ๋ฐฉํ•ด, ์‹คํŒจ ๋ณต๊ตฌ์— ๋Œ€ํ•œ ๊ฐ•๋ ฅํ•œ ๋‚ด์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • ๋‚ด๋ถ€ ๋ชจ๋ธ ๋™์ž‘ ๋ถ„์„: ํ™˜๊ฒฝ ๋ณ€ํ™”์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  DINOv2 ํŠน์ง•๊ณผ DiT ์–ดํ…์…˜ ๋งต์ด ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•จ์„ ์‹œ๊ฐ์ ์œผ๋กœ ์ž…์ฆํ•˜์—ฌ, ๋„๋ฉ”์ธ ๋ถˆ๋ณ€ ํ‘œํ˜„์ด ์ผ๋ฐ˜ํ™”์— ๊ธฐ์—ฌํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์žฅ๊ธฐ ์‹œํ€€์Šค ํƒœ์Šคํฌ: โ€œํ…Œ์ด๋ธ” ์น˜์šฐ๊ธฐโ€์™€ ๊ฐ™์€ ์ž์œ  ํ˜•์‹์˜ ์žฅ๊ธฐ ์‹œํ€€์Šค ์ง€์‹œ๋ฅผ 89.6%์˜ ์„ฑ๊ณต๋ฅ ๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๊ณ„ํš๊ธฐ์™€ ์ œ์–ด๊ธฐ ๋ชจ๋“ˆ ๊ฐ„์˜ ์‹œ๋„ˆ์ง€๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋น„ํŒŒ์ง€ํ˜• ์žก๊ธฐ(Nonprehensile Grasping) ํ™•์žฅ: ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘์ด ํ•„์š”ํ•œ ๋น„ํŒŒ์ง€ํ˜• ์žก๊ธฐ ํƒœ์Šคํฌ์—๋„ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์—†์ด ์„ฑ๊ณต์ ์œผ๋กœ ํ™•์žฅ๋˜์–ด, 84.7%์˜ ์ง‘๊ณ„๋œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” DexGraspVLA๊ฐ€ ์ œํ•œ๋œ ๋ฐ๋ชจ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜์—ฌ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜, ์ง€์‹œ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์ž„์„ ์ž…์ฆํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์ธ ๋Šฅ์ˆ™ํ•œ ์žก๊ธฐ ๋ฐ ๊ทธ ์ด์ƒ์˜ ๋กœ๋ด‡ ์กฐ์ž‘์„ ํ–ฅํ•œ ์œ ๋งํ•œ ์ง„์ „์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๊ธฐ๋Šฅ์  ์žก๊ธฐ ๋ฐ ํ›„์† ์กฐ์ž‘, ์ด‰๊ฐ ์„ผ์‹ฑ ํ†ตํ•ฉ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก : ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

DexGraspVLA๋ผ๋Š” ์ด๋ฆ„์˜ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 2025๋…„ AAAI์—์„œ Oral ๋ฐœํ‘œ๋กœ ์„ ์ •๋œ ๋…ผ๋ฌธ์ธ๋ฐ์š”, ์†”์งํžˆ ๋งํ•ด์„œ ์ด ๋ถ„์•ผ์—์„œ ์ผํ•˜๋Š” ์šฐ๋ฆฌ ๋ชจ๋‘๊ฐ€ ์˜ค๋žซ๋™์•ˆ ๊ฟˆ๊ฟ”์™”๋˜ ๊ฒƒ์„ ์‹คํ˜„ํ–ˆ๋‹ค๊ณ  ๋ด๋„ ๋ฌด๋ฐฉํ•ฉ๋‹ˆ๋‹ค.

์ž, ๋ฌธ์ œ๋ฅผ ํ•œ๋ฒˆ ์ •์˜ํ•ด ๋ด…์‹œ๋‹ค. ๋กœ๋ด‡์ด ๋ฌผ๊ฑด์„ ์ง‘๋Š” ๊ฒƒ. ์–ผ๋งˆ๋‚˜ ๊ฐ„๋‹จํ•ด ๋ณด์ž…๋‹ˆ๊นŒ? ์—ฌ๋Ÿฌ๋ถ„์€ ์ง€๊ธˆ ์ปคํ”ผ์ž”์„ ์ง‘๊ธฐ ์œ„ํ•ด ๋ช‡ ์ดˆ์˜ ๊ณ ๋ฏผ์„ ํ•ฉ๋‹ˆ๊นŒ? ๊ฑฐ์˜ 0์ดˆ์— ๊ฐ€๊น์ฃ . ํ•˜์ง€๋งŒ ๋กœ๋ด‡์—๊ฒŒ ์ด๊ฑด ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ด์•ผ๊ธฐ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฑ์Šคํ„ฐ๋Ÿฌ์Šค ๊ทธ๋ž˜์Šคํ•‘ ์—ฐ๊ตฌ๋“ค์˜ ๋ฌธ์ œ์ ์„ ํ•œ๋ฒˆ ์งš์–ด๋ด…์‹œ๋‹ค:

  • ๋‹จ์ผ ๊ฐ์ฒด ํ™˜๊ฒฝ์—์„œ๋งŒ ์ž‘๋™ (ํ˜„์‹ค ์„ธ๊ณ„๋Š” ์–ด์ง€๋Ÿฝ์Šต๋‹ˆ๋‹ค!)
  • ํŠน์ • ์กฐ๋ช… ์กฐ๊ฑด์—์„œ๋งŒ ์ž‘๋™ (์‹คํ—˜์‹ค ๋ฐ–์œผ๋กœ ๋‚˜๊ฐ€๋ฉด ๋งํ•ฉ๋‹ˆ๋‹ค)
  • ํ•™์Šตํ•œ ๊ฐ์ฒด๋งŒ ์žก์„ ์ˆ˜ ์žˆ์Œ (์ƒˆ๋กœ์šด ๋ฌผ๊ฑด? ์•ˆ๋…•ํžˆ ๊ฐ€์„ธ์š”)
  • ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜ ์˜ค์ฐจ์— ์ทจ์•ฝ (์™„๋ฒฝํ•œ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜์€ ํ™˜์ƒ์ž…๋‹ˆ๋‹ค)

DexGraspVLA๋Š” ์ด ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ํ•˜๋‚˜์˜ ์šฐ์•„ํ•œ ํ†ต์ฐฐ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค: โ€œFoundation Model์„ ์‚ฌ์šฉํ•ด์„œ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ๋„๋ฉ”์ธ ๋ถˆ๋ณ€(domain-invariant) ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด, ๋ชจ๋ฐฉ ํ•™์Šต์ด ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•œ๋‹ค.โ€


1. ํ•ต์‹ฌ ํ†ต์ฐฐ: ์™œ Domain-Invariant Representation์ธ๊ฐ€?

1.1 ์ผ๋ฐ˜ํ™”์˜ ์ : ๋„๋ฉ”์ธ ์‹œํ”„ํŠธ

์ž, ์—ฌ๋Ÿฌ๋ถ„์ด ๋กœ๋ด‡์—๊ฒŒ ์‚ฌ๊ณผ๋ฅผ ์ง‘๋Š” ๋ฒ•์„ ๊ฐ€๋ฅด์ณค๋‹ค๊ณ  ํ•ฉ์‹œ๋‹ค. ๋นจ๊ฐ„ ์‚ฌ๊ณผ๋ฅผ ํฐ์ƒ‰ ํ…Œ์ด๋ธ” ์œ„์—์„œ, ํ˜•๊ด‘๋“ฑ ์•„๋ž˜์„œ ์ง‘๋Š” ๋ฒ•์„์š”. ๊ทธ๋Ÿฐ๋ฐ ๊ฐ‘์ž๊ธฐ ์ดˆ๋ก ์‚ฌ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. ๋‚˜๋ฌด ํ…Œ์ด๋ธ” ์œ„์—. ์ฐฝ๋ฌธ์œผ๋กœ ๋“ค์–ด์˜ค๋Š” ์ž์—ฐ๊ด‘ ์•„๋ž˜์„œ. ๋กœ๋ด‡์€ ์™„์ „ํžˆ ํ˜ผ๋ž€์— ๋น ์ง‘๋‹ˆ๋‹ค.

์™œ์ผ๊นŒ์š”? ๋กœ๋ด‡์ด ํ•™์Šตํ•œ ๊ฒƒ์€ โ€œ์‚ฌ๊ณผ๋ฅผ ์ง‘๋Š” ๋ฒ•โ€์ด ์•„๋‹ˆ๋ผ โ€œ๋นจ๊ฐ„ ์ƒ‰ + ํฐ ํ…Œ์ด๋ธ” + ํ˜•๊ด‘๋“ฑ = ์ด๋ ‡๊ฒŒ ์†์„ ์›€์ง์—ฌ๋ผโ€๋ฅผ ํ•™์Šตํ•œ ๊ฒ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๋ฐ”๋กœ ๋„๋ฉ”์ธ ์‹œํ”„ํŠธ(domain shift) ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

DexGraspVLA์˜ ์ €์ž๋“ค์€ ์—ฌ๊ธฐ์„œ ์ •๋ง ์˜๋ฆฌํ•œ ์งˆ๋ฌธ์„ ๋˜์ง‘๋‹ˆ๋‹ค:

โ€œ๋งŒ์•ฝ ๋กœ๋ด‡์ด ๋ณด๋Š” ๋ชจ๋“  ์žฅ๋ฉด์„ ๋™์ผํ•œ โ€™์–ธ์–ดโ€™๋กœ ๋ฒˆ์—ญํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์–ด๋–จ๊นŒ?โ€

1.2 Foundation Model: ๋ฒ”์šฉ ๋ฒˆ์—ญ๊ธฐ

์—ฌ๊ธฐ์„œ Foundation Model์ด ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. DINOv2, SAM, VLM ๊ฐ™์€ ๋ชจ๋ธ๋“ค์€ ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ดค์ฃ . ์ด ๋ชจ๋ธ๋“ค์€ โ€œ์‚ฌ๊ณผโ€๊ฐ€ ๋นจ๊ฐ„์ƒ‰์ด๋“  ์ดˆ๋ก์ƒ‰์ด๋“ , ํ–‡๋น› ์•„๋ž˜๋“  ํ˜•๊ด‘๋“ฑ ์•„๋ž˜๋“ , โ€œ๊ทธ๊ฒƒ์ด ์‚ฌ๊ณผ์ž„โ€์„ ์•Œ์•„๋ด…๋‹ˆ๋‹ค.

๋น„์œ ๋ฅผ ๋“ค์–ด๋ณด์ฃ . ์—ฌ๋Ÿฌ๋ถ„์ด ํ”„๋ž‘์Šค์–ด, ๋…์ผ์–ด, ์ผ๋ณธ์–ด๋กœ โ€œ์•ˆ๋…•ํ•˜์„ธ์š”โ€๋ฅผ ๋“ฃ๋Š”๋‹ค๊ณ  ํ•ฉ์‹œ๋‹ค:

  • โ€œBonjourโ€
  • โ€œGuten Tagโ€
  • โ€œใ“ใ‚“ใซใกใฏโ€

ํ‘œ๋ฉด์ ์œผ๋กœ๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅด์ง€๋งŒ, ๋ฒˆ์—ญ๊ธฐ๋ฅผ ํ†ต๊ณผํ•˜๋ฉด ๋ชจ๋‘ ๋™์ผํ•œ ์˜๋ฏธ โ€” โ€œ์ธ์‚ฌโ€๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. Foundation Model์ด ํ•˜๋Š” ์ผ์ด ๋ฐ”๋กœ ์ด๊ฒ๋‹ˆ๋‹ค. ์‹œ๊ฐ์ ์œผ๋กœ ์™„์ „ํžˆ ๋‹ค๋ฅธ ์žฅ๋ฉด๋“ค์„ ๋™์ผํ•œ ์˜๋ฏธ๋ก ์  ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜๋Š” ๊ฒƒ์ด์ฃ .

1.3 ๋ฐ˜๋ณต์  ๋ณ€ํ™˜(Iterative Transformation)์˜ ํž˜

DexGraspVLA์˜ ๋˜ ๋‹ค๋ฅธ ํ•ต์‹ฌ์€ ์ด ๋ณ€ํ™˜์„ ํ•œ ๋ฒˆ์ด ์•„๋‹ˆ๋ผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค:

flowchart LR
    A["Raw Image"] --> B["VLM: Object ID<br/>+ Bounding Box"]
    B --> C["SAM: Mask<br/>Generation"]
    C --> D["Cutie: Video<br/>Mask Tracking"]
    D --> E["DINOv2: Visual<br/>Feature Extraction"]
    E --> F["Domain-Invariant<br/>Representation"]

    style A fill:#ffecb3
    style F fill:#c8e6c9

๊ฐ ๋‹จ๊ณ„์—์„œ ๋„๋ฉ”์ธ ํŠน์ •์ ์ธ ์ •๋ณด(์กฐ๋ช…, ๋ฐฐ๊ฒฝ ์ƒ‰์ƒ, ํ…์Šค์ฒ˜)๋Š” ๊ฑธ๋Ÿฌ์ง€๊ณ , ๋ณธ์งˆ์ ์ธ ์ •๋ณด(๊ฐ์ฒด ์œ„์น˜, ํ˜•ํƒœ, ์†๊ณผ์˜ ์ƒ๋Œ€์  ๊ด€๊ณ„)๋งŒ ๋‚จ์Šต๋‹ˆ๋‹ค.

์ด๊ฒƒ์ด ๋ฐ”๋กœ โ€œ1,287๊ฐœ์˜ ๋ณด์ง€ ๋ชปํ•œ ๊ฐ์ฒด, ์กฐ๋ช…, ๋ฐฐ๊ฒฝ ์กฐํ•ฉ์—์„œ 90.8% ์„ฑ๊ณต๋ฅ โ€์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ๋น„๋ฐ€์ž…๋‹ˆ๋‹ค.


2. ์•„ํ‚คํ…์ฒ˜ ์‹ฌ์ธต ๋ถ„์„

2.1 ๊ณ„์ธต์  ๊ตฌ์กฐ: High-Level Planner + Low-Level Controller

DexGraspVLA๋Š” ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฑด ์šฐ์—ฐ์ด ์•„๋‹™๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ์šด๋™ ์ œ์–ด ์‹œ์Šคํ…œ๊ณผ ๋†€๋ผ์šธ ์ •๋„๋กœ ์œ ์‚ฌํ•˜์ฃ .

์—ฌ๋Ÿฌ๋ถ„์ด ์ฑ…์ƒ ์œ„์˜ ์ปต์„ ์ง‘์œผ๋ ค ํ•  ๋•Œ ๋‡Œ์—์„œ ์ผ์–ด๋‚˜๋Š” ์ผ์„ ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค:

  1. ์ „๋‘์—ฝ(High-Level): โ€œ์ € ํŒŒ๋ž€ ์ปต์„ ์ง‘์–ด์•ผ์ง€โ€๋ผ๊ณ  ๊ณ„ํš
  2. ์šด๋™ ํ”ผ์งˆ(Low-Level): ์†๊ฐ€๋ฝ ๊ฐ๋„, ํŒ” ๊ถค์ , ํž˜ ์กฐ์ ˆ ์‹คํ–‰

DexGraspVLA๋„ ์ •ํ™•ํžˆ ์ด ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค:

High-Level Planner (VLM ๊ธฐ๋ฐ˜)

flowchart LR
    subgraph Input["Input"]
        I1["Scene Image"]
        I2["User Command:<br/>'Clear the table'"]
    end

    subgraph VLM["VLM Planner"]
        P["Qwen2.5-VL-72B"]
    end

    subgraph Output["Output"]
        O1["Grasp Commands:<br/>['Pick cookie',<br/>'Pick milk',<br/>'Pick pen']"]
        O2["Target Bounding<br/>Boxes"]
    end

    Input --> VLM --> Output

    style VLM fill:#e8eaf6

์—ฌ๊ธฐ์„œ ์‚ฌ์šฉ๋œ VLM์€ Qwen2.5-VL-72B-Instruct์ž…๋‹ˆ๋‹ค. 720์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ์ด์ฃ . ํ•˜์ง€๋งŒ ์ค‘์š”ํ•œ ๊ฑด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์ด โ€œํ…Œ์ด๋ธ”์„ ์น˜์šด๋‹คโ€๋ผ๋Š” ์ถ”์ƒ์  ๋ช…๋ น์„ โ€œ๊ตฌ์ฒด์ ์ธ ๊ฐœ๋ณ„ ๊ฐ์ฒด ์ง‘๊ธฐ ์‹œํ€€์Šคโ€๋กœ ๋ถ„ํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋” ์ธ์ƒ์ ์ธ ๊ฒƒ์€ ์ด Planner๊ฐ€ ์‹คํ–‰ ๋ชจ๋‹ˆํ„ฐ๋ง๊นŒ์ง€ ๋‹ด๋‹นํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค:

  • ๊ทธ๋ž˜์Šคํ•‘ ์„ฑ๊ณต ํŒ๋‹จ
  • ์‹คํŒจ ์‹œ ์žฌ์‹œ๋„ ํŠธ๋ฆฌ๊ฑฐ
  • ์ „์ฒด ์ž‘์—… ์™„๋ฃŒ ํ™•์ธ

Low-Level Controller (Diffusion ๊ธฐ๋ฐ˜)

์ด์ œ ์ง„์งœ ์žฌ๋ฏธ์žˆ๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. Low-Level Controller์˜ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ด…์‹œ๋‹ค:

flowchart TB
    subgraph Controller["Low-Level Controller"]
        direction TB

        subgraph Input["Input Modules"]
            direction LR
            SEG["Segmentation Models<br/>โ€ข SAM: Initial Mask<br/>โ€ข Cutie: Mask Tracking"]
            VIS["Vision Encoder (ร—3)<br/>โ€ข DINOv2 (frozen): Head cam<br/>โ€ข DINOv2 (frozen): Wrist cam<br/>โ€ข ViT (trainable): Mask"]
            PROJ["Projector (MLP ร—3)<br/>โ€ข Visual โ†’ Feature<br/>โ€ข State โ†’ Feature"]
        end

        Input --> FUSE["Feature Fusion"]
        FUSE --> DIT["DiT Action Head<br/>(Diffusion Transformer)<br/>Action Chunk Prediction<br/>a_t โ†’ a_{t+H-1}"]
    end

    style SEG fill:#e3f2fd
    style VIS fill:#e3f2fd
    style PROJ fill:#e3f2fd
    style DIT fill:#fff3e0

2.2 ๊ฐ ์ปดํฌ๋„ŒํŠธ ์ƒ์„ธ ๋ถ„์„

(1) ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋“ˆ: SAM + Cutie

์™œ ๋‘ ๊ฐœ์˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ์ด ํ•„์š”ํ• ๊นŒ์š”?

SAM (Segment Anything Model)์€ ์ •์  ์ด๋ฏธ์ง€์—์„œ ๋›ฐ์–ด๋‚œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋งŒ ์ฃผ๋ฉด ๊ฑฐ์˜ ๋ชจ๋“  ๊ฐ์ฒด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•ด๋ƒ…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ SAM์€ ํ”„๋ ˆ์ž„ ๊ฐ„ ์ผ๊ด€์„ฑ์„ ๋ณด์žฅํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

Cutie๋Š” ๋น„๋””์˜ค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ฒซ ํ”„๋ ˆ์ž„์˜ ๋งˆ์Šคํฌ๋ฅผ ๋ฐ›์•„์„œ ์ดํ›„ ํ”„๋ ˆ์ž„์—์„œ ๋™์ผํ•œ ๊ฐ์ฒด๋ฅผ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ์™œ ์ค‘์š”ํ• ๊นŒ์š”?

๊ทธ๋ž˜์Šคํ•‘ ๊ณผ์ •์—์„œ ์†์ด ๊ฐ์ฒด์— ์ ‘๊ทผํ•˜๋ฉด์„œ ๊ฐ์ฒด๋Š” ๊ฐ€๋ ค์ง€๊ณ , ์กฐ๋ช…์ด ๋ฐ”๋€Œ๊ณ , ๊ฐ๋„๊ฐ€ ๋ณ€ํ•ฉ๋‹ˆ๋‹ค. Cutie๋Š” ์ด ๋ชจ๋“  ๋ณ€ํ™” ์†์—์„œ๋„ โ€œ์ง€๊ธˆ ์ถ”์ ํ•˜๋Š” ๊ฒƒ์ด ์ฒ˜์Œ์— ์ง€์ •ํ•œ ๋ฐ”๋กœ ๊ทธ ๊ฐ์ฒดโ€์ž„์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

flowchart LR
    subgraph t0["t=0"]
        SAM["SAM(image, bbox)"] --> M0["initial_mask"]
    end

    subgraph t1["t=1"]
        M0 --> C1["Cutie(image_t1)"] --> M1["tracked_mask_t1"]
    end

    subgraph t2["t=2"]
        M1 --> C2["Cutie(image_t2)"] --> M2["tracked_mask_t2"]
    end

    M2 -.->|"..."| MORE["Continue tracking"]

    style M0 fill:#bbdefb
    style M1 fill:#bbdefb
    style M2 fill:#bbdefb

(2) Vision Encoder: DINOv2 + Trainable ViT

DINOv2๋Š” Meta AI์˜ ์ž๊ธฐ์ง€๋„ ํ•™์Šต(Self-Supervised Learning) ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€์—์„œ ๋ ˆ์ด๋ธ” ์—†์ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋กœ ์–ป์€ ๊ฒƒ์€ ๋ฒ”์šฉ ์‹œ๊ฐ์  ํ‘œํ˜„์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์ ์ธ ์„ค๊ณ„ ๊ฒฐ์ •์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  • DINOv2: Frozen (ํ•™์Šต X) โ€” Foundation Model์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋ณด์กด
  • Mask ViT: Trainable (ํ•™์Šต O) โ€” ๋งˆ์Šคํฌ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋„๋ก ๋ฏธ์„ธ ์กฐ์ •

์™œ ์ด๋ ‡๊ฒŒ ํ–ˆ์„๊นŒ์š”? DINOv2๋ฅผ ํ•™์Šต์‹œํ‚ค๋ฉด ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ์— ๊ณผ์ ํ•ฉ(overfit)๋  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด โ€œ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์—์„œ๋„ ์ž‘๋™ํ•˜๋Š” ๋ฒ”์šฉ ํ‘œํ˜„โ€์ด๋ผ๋Š” ์žฅ์ ์„ ์žƒ์–ด๋ฒ„๋ฆฌ์ฃ . ๋ฐ˜๋ฉด ๋งˆ์Šคํฌ ์ธ์ฝ”๋”๋Š” ๋กœ๋ด‡ ํŠนํ™” ์ •๋ณด(์–ด๋–ค ๊ฐ์ฒด๋ฅผ ์žก์„ ๊ฒƒ์ธ๊ฐ€)๋ฅผ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋‘ก๋‹ˆ๋‹ค.

๋‘ ๊ฐœ์˜ ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋„ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค:

  • Head Camera (3์ธ์นญ ์‹œ์ ): ์ „์ฒด ์žฅ๋ฉด ํŒŒ์•…, ๊ฐ์ฒด ์œ„์น˜ ์ถ”์ •
  • Wrist Camera (1์ธ์นญ ์‹œ์ ): ์ •๋ฐ€ํ•œ ์†-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ, ์„ธ๋ฐ€ํ•œ ์กฐ์ž‘

์ด๊ฒƒ๋„ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ฉ€๋ฆฌ์„œ ๋Œ€์ƒ์„ ๋ณด๊ณ  ์†์„ ๋ป—๋‹ค๊ฐ€, ์†์ด ๊ฐ€๊นŒ์›Œ์ง€๋ฉด ์† ์ฃผ๋ณ€์„ ์ง‘์ค‘ํ•ด์„œ ๋ด…๋‹ˆ๋‹ค.

(3) DiT Action Head: Diffusion Transformer

์—ฌ๊ธฐ๊ฐ€ โ€œ๋งˆ๋ฒ•โ€์ด ์ผ์–ด๋‚˜๋Š” ๊ณณ์ž…๋‹ˆ๋‹ค. DiT (Diffusion Transformer)๋Š” ์•ก์…˜ ์ฒญํฌ(action chunk)๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ € Diffusion Model์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. Diffusion์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์ž…๋‹ˆ๋‹ค:

flowchart LR
    subgraph Forward["Forward (Training)"]
        direction LR
        A1["Clean Action"] --> A2["Add Noise"] --> A3["Pure Noise"]
    end

    subgraph Reverse["Reverse (Inference)"]
        direction LR
        B1["Pure Noise"] --> B2["Denoise"] --> B3["Clean Action"]
    end

    style A1 fill:#c8e6c9
    style A3 fill:#ffcdd2
    style B1 fill:#ffcdd2
    style B3 fill:#c8e6c9

์™œ Diffusion์„ ์ผ์„๊นŒ์š”? ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(Multi-Modality) ๋ฌธ์ œ๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์ปต์„ ์ง‘๋Š” ๋ฐฉ๋ฒ•์ด ํ•œ ๊ฐ€์ง€๋งŒ ์žˆ์„๊นŒ์š”? ์•„๋‹™๋‹ˆ๋‹ค. ์†์žก์ด๋ฅผ ์žก์„ ์ˆ˜๋„ ์žˆ๊ณ , ์˜†๋ฉด์„ ๊ฐ์Œ€ ์ˆ˜๋„ ์žˆ๊ณ , ์œ„์—์„œ ์ง‘์„ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ „ํ†ต์ ์ธ ํšŒ๊ท€(regression) ๋ฐฉ์‹์€ ์ด ๋ชจ๋“  ๋ฐฉ๋ฒ•์˜ ํ‰๊ท ์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค โ€” ์–ด๋А ๊ฒƒ๋„ ์•„๋‹Œ, ์ด์ƒํ•œ ๋™์ž‘์ด ๋‚˜์˜ค์ฃ .

Diffusion Model์€ ์ด ๋ถ„ํฌ์—์„œ ํ•˜๋‚˜์˜ ์œ ํšจํ•œ ๋ชจ๋“œ(mode)๋ฅผ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๋‹ค์–‘ํ•œ ๊ทธ๋ž˜์Šคํ•‘ ํ–‰๋™์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

Action Chunk์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ์š”? ๋‹จ์ผ ์‹œ์ ์˜ ์•ก์…˜์ด ์•„๋‹ˆ๋ผ H ์Šคํ…์˜ ์•ก์…˜ ์‹œํ€€์Šค๋ฅผ ํ•œ ๋ฒˆ์— ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค:

Prediction: [a_t, a_{t+1}, a_{t+2}, ..., a_{t+H-1}]

์ด๊ฒƒ์˜ ์žฅ์ : 1. ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ: ๋–จ๋ฆผ ์—†๋Š” ๋ถ€๋“œ๋Ÿฌ์šด ๋™์ž‘ 2. ๊ณ„ํš ๋Šฅ๋ ฅ: ๋ฏธ๋ž˜ ๋™์ž‘์„ ๊ณ ๋ คํ•œ ํ˜„์žฌ ๊ฒฐ์ • 3. ์ถ”๋ก  ํšจ์œจ์„ฑ: ๋งค ํ”„๋ ˆ์ž„ ์ถ”๋ก  ๋ถˆํ•„์š”


3. ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ: ๋‹จ 2์‹œ๊ฐ„์˜ ๋ฐ๋ชจ๋กœ?

์—ฌ๊ธฐ์„œ ์ œ๊ฐ€ ์ •๋ง ๋†€๋ž€ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ๋ณต์žกํ•œ ์‹œ์Šคํ…œ์ด ์•ฝ 2์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

3.1 ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ƒ์„ธ

Item Value
Total Episodes 2,094
Avg. Episode Duration ~3.5 sec
Total Duration ~2 hours
Environment Complex cluttered scenes (multiple mixed objects)

์ƒ๊ฐํ•ด ๋ณด์„ธ์š”. ๊ธฐ์กด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค์€ ์ˆ˜๋ฐฑ๋งŒ ์—ํ”ผ์†Œ๋“œ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. End-to-End VLA ๋ชจ๋ธ๋“ค์€ ์ˆ˜๋งŒ ์‹œ๊ฐ„์˜ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

2,094๊ฐœ ์—ํ”ผ์†Œ๋“œ๋ผ๋‹ˆ์š”. ์ด๊ฒŒ ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ• ๊นŒ์š”?

3.2 ๋น„๋ฐ€: Foundation Model์ด ์ด๋ฏธ ํ•™์Šตํ•ด ๋‘” ๊ฒƒ

๋‹ต์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ โ€œ๋ณด๋Š” ๋ฒ•โ€์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ฐฐ์šธ ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.

DINOv2๋Š” ์ด๋ฏธ ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ์ด๋ฏธ์ง€์—์„œ โ€œ๋ฌผ์ฒด๋ž€ ๋ฌด์—‡์ธ๊ฐ€โ€, โ€œ์†์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€โ€, โ€œ๊ณต๊ฐ„ ๊ด€๊ณ„โ€๋ฅผ ํ•™์Šตํ•ด ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ๋ฐฐ์›Œ์•ผ ํ•˜๋Š” ๊ฒƒ์€ โ€œ์ด ๋„๋ฉ”์ธ ๋ถˆ๋ณ€ ํ‘œํ˜„์—์„œ ์–ด๋–ป๊ฒŒ ์†์„ ์›€์ง์ผ ๊ฒƒ์ธ๊ฐ€โ€๋ฟ์ž…๋‹ˆ๋‹ค.

์ด๊ฒƒ์€ ๋งˆ์น˜ ์—ฌ๋Ÿฌ๋ถ„์ด ์ƒˆ๋กœ์šด ์–ธ์–ด๋ฅผ ๋ฐฐ์šธ ๋•Œ, โ€œ์–ธ์–ด๊ฐ€ ๋ฌด์—‡์ธ์ง€โ€, โ€œ์˜์‚ฌ์†Œํ†ต์ด ๋ฌด์—‡์ธ์ง€โ€๋ฅผ ๋ฐฐ์šฐ์ง€ ์•Š์•„๋„ ๋˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ ๋ชจ๊ตญ์–ด๋กœ ๊ทธ ๊ฐœ๋…๋“ค์„ ์•Œ๊ณ  ์žˆ์œผ๋‹ˆ๊นŒ์š”.

3.3 ํ•™์Šต ์„ค์ •

# ํ•™์Šต ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ (์ถ”์ •)
optimizer: AdamW
learning_rate: 1e-4 (with cosine annealing)
batch_size: varies by GPU count
mixed_precision: BF16
multi_gpu: 8 ร— A800 (planner deployment)
training_framework: accelerate + Diffusion Policy codebase

์ฃผ๋ชฉํ•  ์ ์€ ๋ฉ€ํ‹ฐ-GPU ํ•™์Šต๊ณผ BF16 ํ˜ผํ•ฉ ์ •๋ฐ€๋„๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Diffusion ๋ชจ๋ธ์˜ ๋ฐ˜๋ณต์  denoising์€ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฐ ์ตœ์ ํ™”๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.


4. ์‹คํ—˜ ๊ฒฐ๊ณผ: ์ˆซ์ž๊ฐ€ ๋งํ•ด์ฃผ๋Š” ๊ฒƒ

4.1 ๋Œ€๊ทœ๋ชจ ์ผ๋ฐ˜ํ™” ํ‰๊ฐ€

์ด ๋…ผ๋ฌธ์—์„œ ๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๊ฒƒ์€ ์‹คํ—˜์˜ ๊ทœ๋ชจ์™€ ์—„๊ฒฉํ•จ์ž…๋‹ˆ๋‹ค.

Test Conditions:

Category Details
Objects Hundreds of unseen objects
Lighting Various conditions (natural, fluorescent, dim)
Background Various table colors and textures
Total Combinations 1,287

Results:

Attempts Success Rate
Single try 90.8%
Up to 2 tries ~95%
Up to 3 tries ~97%

Zero-Shot ํ™˜๊ฒฝ์ด๋ผ๋Š” ์ ์„ ๊ธฐ์–ตํ•˜์„ธ์š”. ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์€ ํ•™์Šต ํ™˜๊ฒฝ๊ณผ ์™„์ „ํžˆ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๊ฐ™์€ ์กฐ๋ช…๋„, ๊ฐ™์€ ํ…Œ์ด๋ธ”๋„, ๊ฐ™์€ ๊ฐ์ฒด๋„ ์—†์Šต๋‹ˆ๋‹ค.

4.2 ๋ฒ ์ด์Šค๋ผ์ธ ๋น„๊ต

๋…ผ๋ฌธ์—์„œ๋Š” ์—ฌ๋Ÿฌ ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค:

๋ฐฉ๋ฒ• ์„ฑ๊ณต๋ฅ  ํŠน์ง•
DexGraspVLA (Ours) 90.8% Full pipeline
w/o DINOv2 72.3% CNN encoder ์‚ฌ์šฉ
w/o Mask Tracking 68.5% SAM๋งŒ ์‚ฌ์šฉ
w/o VLM Planner 81.2% ์ˆ˜๋™ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค
End-to-End VLA ~75% ๋‹จ์ผ ๋ชจ๋ธ

4.3 Ablation Study: ๋ฌด์—‡์ด ์ค‘์š”ํ•œ๊ฐ€?

Ablation ๊ฒฐ๊ณผ๊ฐ€ ๋งค์šฐ ๊ตํ›ˆ์ ์ž…๋‹ˆ๋‹ค:

(1) DINOv2 vs CNN Encoder

  • DINOv2 ์ œ๊ฑฐ ์‹œ 18.5% ์„ฑ๋Šฅ ํ•˜๋ฝ
  • Foundation Model์˜ ๋„๋ฉ”์ธ ๋ถˆ๋ณ€ ํ‘œํ˜„์ด ํ•ต์‹ฌ์ž„์„ ์ฆ๋ช…

(2) ๋งˆ์Šคํฌ ์ถ”์  (Cutie) ์ œ๊ฑฐ

  • 22.3% ์„ฑ๋Šฅ ํ•˜๋ฝ
  • ๋™์  ์ถ”์  ์—†์ด๋Š” ์†์ด ์ ‘๊ทผํ•  ๋•Œ ํƒ€๊ฒŸ์„ ๋†“์นจ

(3) ๋“€์–ผ ์นด๋ฉ”๋ผ vs ๋‹จ์ผ ์นด๋ฉ”๋ผ

  • Wrist ์นด๋ฉ”๋ผ๋งŒ: 66.2%
  • Head ์นด๋ฉ”๋ผ๋งŒ: 71.8%
  • ๋‘˜ ๋‹ค: 90.8%
  • ๋‘ ์‹œ์ ์˜ ์ƒํ˜ธ ๋ณด์™„์„ฑ ํ™•์ธ

4.4 ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„: Attention Map ์‹œ๊ฐํ™”

๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ์•„๋ฆ„๋‹ค์šด ๋ถ€๋ถ„ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ DiT์˜ Cross-Attention ๋งต์„ ์‹œ๊ฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ๋†€๋ผ์› ์Šต๋‹ˆ๋‹ค:

  • ๋‹ค๋ฅธ ์กฐ๋ช… ์กฐ๊ฑด์—์„œ๋„ Attention ํŒจํ„ด์ด ๋™์ผ
  • ๋‹ค๋ฅธ ๋ฐฐ๊ฒฝ์—์„œ๋„ ํƒ€๊ฒŸ ๊ฐ์ฒด์— ์ •ํ™•ํžˆ ์ง‘์ค‘
  • ๋‹ค๋ฅธ ๊ฐ์ฒด ๋ฐฐ์น˜์—์„œ๋„ ์ผ๊ด€๋œ ํ–‰๋™

์ด๊ฒƒ์ด โ€œDomain-Invariant Representationโ€์˜ ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค. ์‹œ๊ฐ์  ์ž…๋ ฅ์€ ์™„์ „ํžˆ ๋‹ค๋ฅด์ง€๋งŒ, ๋‚ด๋ถ€ ํ‘œํ˜„์€ ๋™์ผํ•˜๊ฒŒ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

flowchart TB
    subgraph Pipeline["Visualization Pipeline"]
        direction TB
        S1["1. Collect Cross-Attention<br/>from all DiT layers"]
        S2["2. Average & Normalize<br/>Attention for head image"]
        S3["3. Overlay on<br/>original image"]
        S1 --> S2 --> S3
    end

    subgraph Observations["Key Observations"]
        direction TB
        O1["Background change โ†’ Attention pattern invariant"]
        O2["Lighting change โ†’ Attention pattern invariant"]
        O3["Object change โ†’ Target accurately captured"]
    end

    Pipeline --> Observations

    style Observations fill:#e8f5e9


5. ํ™•์žฅ ๋Šฅ๋ ฅ: ๊ทธ๋ž˜์Šคํ•‘์„ ๋„˜์–ด์„œ

5.1 ๋น„-ํ”„๋ฆฌํ—จ์‹ค(Nonprehensile) ๊ทธ๋ž˜์Šคํ•‘

DexGraspVLA์˜ ์ง„์ •ํ•œ ํž˜์€ ์•„ํ‚คํ…์ฒ˜ ๋ณ€๊ฒฝ ์—†์ด ์ƒˆ๋กœ์šด ์ž‘์—…์œผ๋กœ ํ™•์žฅ๋œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋น„-ํ”„๋ฆฌํ—จ์‹ค ๊ทธ๋ž˜์Šคํ•‘์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ์š”? ์–ด๋–ค ๋ฌผ์ฒด๋“ค์€ ํ…Œ์ด๋ธ” ์œ„์— ํ‰ํ‰ํ•˜๊ฒŒ ๋†“์—ฌ ์žˆ์–ด์„œ ์ง์ ‘ ์ง‘์„ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์–‡์€ ์ฑ…, ๋„“์€ ์ ‘์‹œ, ๋‚ฉ์ž‘ํ•œ ํฌ์žฅ์ง€ ๊ฐ™์€ ๊ฒƒ๋“ค์ด์ฃ .

ํ•ด๊ฒฐ์ฑ…:

  1. ๋ฌผ์ฒด๋ฅผ ํ…Œ์ด๋ธ” ๊ฐ€์žฅ์ž๋ฆฌ๋กœ ๋ฐ€๊ธฐ
  2. ๊ฐ€์žฅ์ž๋ฆฌ์—์„œ ๋Œ์ถœ๋œ ๋ถ€๋ถ„ ์žก๊ธฐ

DexGraspVLA๋Š” 1,029๊ฐœ์˜ ์ถ”๊ฐ€ ์‹œ์—ฐ๋งŒ์œผ๋กœ ์ด ์ž‘์—…์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค:

  • ์„ฑ๊ณต๋ฅ : 84.7%
  • ๋‹ค์–‘ํ•œ ๊ฐ์ฒด์—์„œ ๊ฐ•๊ฑดํ•จ ํ™•์ธ (์ฑ…, ์ ‘์‹œ, ์ “๊ฐ€๋ฝ ๋“ฑ)

์ด๊ฒƒ์ด ์™œ ์ธ์ƒ์ ์ผ๊นŒ์š”? ๊ฐ™์€ ํ”„๋ ˆ์ž„์›Œํฌ, ๊ฐ™์€ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค. High-Level Planner๋Š” โ€œ์ด ๊ฐ์ฒด๋Š” ์ง์ ‘ ์ง‘์„ ์ˆ˜ ์—†์œผ๋‹ˆ ๋ฐ€์–ด์„œ ์ง‘์–ด์•ผ ํ•จโ€์„ ์ดํ•ดํ•˜๊ณ , Low-Level Controller๋Š” ๋ฐ€๊ธฐ + ์ง‘๊ธฐ ๋™์ž‘์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.

5.2 Long-Horizon ์ž‘์—…

โ€œํ…Œ์ด๋ธ”์„ ์น˜์›Œ์ค˜โ€๋ผ๋Š” ๋ช…๋ น์€ ๋‹จ์ผ ๊ทธ๋ž˜์Šคํ•‘์ด ์•„๋‹™๋‹ˆ๋‹ค. ์ˆ˜์‹ญ ๊ฐœ์˜ ๊ฐ์ฒด๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

DexGraspVLA์˜ Long-Horizon ๋Šฅ๋ ฅ:

  • ์ž์œ  ํ˜•์‹ ํ”„๋กฌํ”„ํŠธ ์ดํ•ด: โ€œ์Œ๋ฃŒ์ˆ˜๋งŒ ์น˜์›Œ์ค˜โ€, โ€œ์ฑ…์€ ๋†”๋‘๊ณ  ๋‚˜๋จธ์ง€ ์น˜์›Œ์ค˜โ€
  • ์‹คํŒจ ๋ณต๊ตฌ: ํ•œ ๋ฒˆ ์‹คํŒจํ•˜๋ฉด ๋‹ค์‹œ ์‹œ๋„
  • ๋™์  ์žฌ๊ณ„ํš: ํ™˜๊ฒฝ ๋ณ€ํ™”์— ์ ์‘

VLM Planner๊ฐ€ ์ง€์†์ ์œผ๋กœ ์žฅ๋ฉด์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋ฉด์„œ ๋‹ค์Œ ํ–‰๋™์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์ „ํ†ต์ ์ธ Task and Motion Planning (TAMP)๊ณผ๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค. TAMP๋Š” ์‚ฌ์ „์— ์ „์ฒด ๊ณ„ํš์„ ์„ธ์šฐ๊ณ  ์‹คํ–‰ํ•˜์ง€๋งŒ, DexGraspVLA๋Š” ๋ฐ˜์‘์ (reactive)์ด๊ณ  ์ ์‘์ (adaptive)์ž…๋‹ˆ๋‹ค.

5.3 ์ ๋Œ€์  ์ƒํ™ฉ ๋ฐ ์ธ๊ฐ„ ๋ฐฉํ•ด

๋…ผ๋ฌธ์—์„œ ์ธ์ƒ์ ์ธ ๋ฐ๋ชจ:

  • ์ ๋Œ€์  ๊ฐ์ฒด: ๋ฏธ๋„๋Ÿฌ์šด ํ‘œ๋ฉด, ๋น„์ •์ƒ์  ๋ฌด๊ฒŒ ๋ถ„ํฌ
  • ์ธ๊ฐ„ ๋ฐฉํ•ด: ์‚ฌ๋žŒ์ด ๋ฌผ๊ฑด์„ ์น˜์šฐ๊ฑฐ๋‚˜ ์ด๋™์‹œํ‚ด

DexGraspVLA๋Š” ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ๋„ robustness๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. VLM์ด โ€œ๋ฌผ์ฒด๊ฐ€ ์ด๋™ํ–ˆ์Œโ€์„ ๊ฐ์ง€ํ•˜๊ณ , Controller๊ฐ€ ์ƒˆ๋กœ์šด ์œ„์น˜์— ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.


6. ํ•˜๋“œ์›จ์–ด ์…‹์—…: ์‹ค์ œ ์‹œ์Šคํ…œ

6.1 ๋กœ๋ด‡ ํ”Œ๋žซํผ

Configuration:

Component Specification
Robot Arm 7 DoF Manipulator
Dexterous Hand 6 DoF (5-finger hand)
Total Control DoF 13 (Arm 7 + Hand 6)

Cameras:

Camera Position Purpose
Head Camera Fixed position Full scene observation
Wrist Camera Wrist-mounted Precise manipulation observation

6.2 Compute ์š”๊ตฌ์‚ฌํ•ญ

Inference:

Resource Specification
GPU RTX 4090 or equivalent (Controller)
VLM Server 8 ร— A800 (Qwen2.5-VL-72B)
Acceleration Speculative Decoding (Qwen2.5-VL-7B)

Training:

Resource Specification
GPUs 8 ร— A800 class
Precision BF16 Mixed Precision
Framework accelerate

VLM ์ถ”๋ก ์ด ๊ฐ€์žฅ ํฐ ๋ณ‘๋ชฉ์ž…๋‹ˆ๋‹ค. 72B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฟผ๋ฆฌํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด์ฃ . ์ €์ž๋“ค์€ Speculative Decoding์„ ์‚ฌ์šฉํ•ด์„œ ์ด๋ฅผ ์™„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ž‘์€ ๋ชจ๋ธ(7B)์ด ๋จผ์ € ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๊ณ , ํฐ ๋ชจ๋ธ(72B)์ด ๊ฒ€์ฆํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.


7. ๋น„ํŒ์  ๋ถ„์„: ํ•œ๊ณ„์™€ ๋ฏธ๋ž˜ ๋ฐฉํ–ฅ

7.1 ํ˜„์žฌ ํ•œ๊ณ„์ 

์†”์งํ•˜๊ฒŒ ์ด์•ผ๊ธฐํ•ด๋ด…์‹œ๋‹ค. DexGraspVLA๋„ ์™„๋ฒฝํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค:

(1) Compute ๋น„์šฉ

  • 72B VLM์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์šด์˜ํ•˜๋ ค๋ฉด ๋ง‰๋Œ€ํ•œ GPU ์ž์› ํ•„์š”
  • ์—์ง€ ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ๋Š” ์•„์ง ์–ด๋ ค์›€
  • ํ•ด๊ฒฐ ๋ฐฉํ–ฅ: ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™”, ์ง€์‹ ์ฆ๋ฅ˜, on-device ์ตœ์ ํ™”

(2) ์กฐ์ž‘ ์†๋„

  • ์ธ๊ฐ„ ์†๋„๋กœ ๋ฐ๋ชจ ์ˆ˜์ง‘ (~3.5์ดˆ/์—ํ”ผ์†Œ๋“œ)
  • ์‚ฐ์—… ์‘์šฉ์—์„œ๋Š” ๋” ๋น ๋ฅธ ์†๋„ ์š”๊ตฌ๋  ์ˆ˜ ์žˆ์Œ
  • ํ•ด๊ฒฐ ๋ฐฉํ–ฅ: ๊ฐ€์†ํ™”๋œ ์‹œ์—ฐ, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•

(3) ํž˜ ์ œ์–ด ๋ถ€์žฌ

  • ์ˆœ์ˆ˜ ์œ„์น˜/์†๋„ ์ œ์–ด
  • ์„ฌ์„ธํ•œ ๋ฌผ์ฒด(๊ณผ์ผ, ์œ ๋ฆฌ) ์กฐ์ž‘ ์‹œ ํ•œ๊ณ„
  • ํ•ด๊ฒฐ ๋ฐฉํ–ฅ: ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ, ํž˜-ํ† ํฌ ์ œ์–ด

(4) ์–‘์† ์กฐ์ž‘

  • ํ˜„์žฌ ๋‹จ์ผ ํŒ”-ํ•ธ๋“œ ์‹œ์Šคํ…œ
  • ๋ณต์žกํ•œ ์ž‘์—…(์ƒ์ž ์—ด๊ธฐ + ๋ฌผ๊ฑด ๊บผ๋‚ด๊ธฐ)์€ ์–ด๋ ค์›€
  • ํ•ด๊ฒฐ ๋ฐฉํ–ฅ: ์–‘์† ํ™•์žฅ, ๊ณ„์ธต์  ์กฐ์ •

7.2 ์งˆ๋ฌธ๋“ค

๋ช‡ ๊ฐ€์ง€ ์—ด๋ฆฐ ์งˆ๋ฌธ๋“ค:

  1. ๋‹ค๋ฅธ Foundation Model๋„ ์ž‘๋™ํ• ๊นŒ?
    • CLIP ๋Œ€์‹  SigLIP?
    • DINOv2 ๋Œ€์‹  SAM2์˜ ์ธ์ฝ”๋”?
    • ๋” ์ž‘์€ VLM(7B)์œผ๋กœ ์ถฉ๋ถ„ํ• ๊นŒ?
  2. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋Š” ํšจ๊ณผ์ ์ผ๊นŒ?
    • ํ˜„์žฌ๋Š” ์ˆœ์ˆ˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ
    • Sim-to-Real ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด?
    • Domain Randomization + Foundation Model = ?
  3. ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ”Œ๋žซํผ์œผ๋กœ ์ „์ด ๊ฐ€๋Šฅํ• ๊นŒ?
    • ํ•ธ๋“œ ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅด๋ฉด?
    • ์•” DOF๊ฐ€ ๋‹ค๋ฅด๋ฉด?
    • Cross-Embodiment ํ•™์Šต ๊ฐ€๋Šฅ์„ฑ?

7.3 ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

(1) ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ Foundation Model ํ†ตํ•ฉ

  • ํ˜„์žฌ: Vision + Language
  • ๋ฏธ๋ž˜: Vision + Language + Tactile + Audio

(2) ์ž๊ธฐ๊ฐœ์„  ํ•™์Šต

  • ์„ฑ๊ณต/์‹คํŒจ์—์„œ ์ž๋™ ํ•™์Šต
  • Human-in-the-loop ์ตœ์†Œํ™”

(3) ๋ฒ”์šฉ ์กฐ์ž‘ ํ™•์žฅ

  • ๊ทธ๋ž˜์Šคํ•‘์„ ๋„˜์–ด ์‚ฝ์ž…, ํšŒ์ „, ๋˜์ง€๊ธฐ
  • Tool Use๊นŒ์ง€ ํ™•์žฅ

8. ์‹ค๋ฌด ๊ด€์ : ์ด ์—ฐ๊ตฌ๋ฅผ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ๊ฒƒ์ธ๊ฐ€?

8.1 ์ฝ”๋“œ ์‹œ์ž‘ํ•˜๊ธฐ

GitHub ์ €์žฅ์†Œ๊ฐ€ ๊ณต๊ฐœ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค:

conda create -n dexgraspvla python=3.9
conda activate dexgraspvla
git clone https://github.com/Psi-Robot/DexGraspVLA.git
cd DexGraspVLA
pip install -r requirements.txt

์ถ”๊ฐ€๋กœ SAM๊ณผ Cutie๋ฅผ ์„ค์น˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

8.2 ํ•ต์‹ฌ ์ฝ”๋“œ ๊ตฌ์กฐ

DexGraspVLA/
โ”œโ”€โ”€ controller/          # Low-level Diffusion Controller
โ”‚   โ”œโ”€โ”€ config/          # Training configuration
โ”‚   โ””โ”€โ”€ ...
โ”œโ”€โ”€ planner/             # High-level VLM Planner
โ”œโ”€โ”€ inference_utils/     # Deployment utilities
โ”œโ”€โ”€ train.py             # Training script
โ”œโ”€โ”€ inference.py         # Inference script
โ””โ”€โ”€ attention_map_visualizer.py  # Analysis tools

8.3 ์ž์‹ ์˜ ๋กœ๋ด‡์— ์ ์šฉํ•˜๊ธฐ

๋‹ค๋ฅธ ํ•˜๋“œ์›จ์–ด๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋ฉด:

  1. ๋ฐ์ดํ„ฐ ํฌ๋งท ๋งž์ถ”๊ธฐ: Zarr ํ˜•์‹์œผ๋กœ action, state, image ์ €์žฅ
  2. DoF ์ˆ˜์ •: Controller ์„ค์ •์—์„œ ์•ก์…˜ ์ฐจ์› ๋ณ€๊ฒฝ
  3. ์นด๋ฉ”๋ผ ์„ค์ •: Head/Wrist ์นด๋ฉ”๋ผ ์œ„์น˜ ์กฐ์ •
  4. VLM ํ”„๋กฌํ”„ํŠธ ์ˆ˜์ •: ๋กœ๋ด‡ ํŠน์„ฑ์— ๋งž๊ฒŒ ์ง€์‹œ์–ด ์กฐ์ •

8.4 ๋น„์šฉ ์ถ”์ •

์†Œ๊ทœ๋ชจ ์—ฐ๊ตฌ ํ™˜๊ฒฝ:

  • ํ•™์Šต: 8 ร— RTX 4090, ~24์‹œ๊ฐ„
  • ์ถ”๋ก : 1 ร— RTX 4090 (Controller) + API ๋น„์šฉ (VLM)

๋Œ€๊ทœ๋ชจ ๋ฐฐํฌ:

  • VLM ์„œ๋ฒ„: 4-8 ร— A100/H100
  • Controller: GPU per robot
  • ์›” ๋น„์šฉ: ์ˆ˜์ฒœ~์ˆ˜๋งŒ ๋‹ฌ๋Ÿฌ (๊ทœ๋ชจ์— ๋”ฐ๋ผ)

9. ๊ฒฐ๋ก : ์šฐ๋ฆฌ๋Š” ์–ด๋””๋กœ ๊ฐ€๊ณ  ์žˆ๋Š”๊ฐ€?

DexGraspVLA๋ฅผ ํ•œ๋งˆ๋””๋กœ ์š”์•ฝํ•˜๋ฉด: โ€œFoundation Model์˜ ํž˜์„ ๋นŒ๋ ค ์ตœ์†Œํ•œ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ์ตœ๋Œ€ํ•œ์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ๋‹ฌ์„ฑํ•œ ๋ฑ์Šคํ„ฐ๋Ÿฌ์Šค ๊ทธ๋ž˜์Šคํ•‘ ์‹œ์Šคํ…œโ€์ž…๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๊ฐ€ ๋ณด์—ฌ์ฃผ๋Š” ๋” ํฐ ๊ทธ๋ฆผ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” โ€œ์Šคํฌ๋ž˜์น˜์—์„œ ํ•™์Šตโ€ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ โ€œFoundation Model ํ™œ์šฉโ€ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ์ด๋™ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ƒ๊ฐํ•ด ๋ณด์„ธ์š”:

  • 2020๋…„: ์ˆ˜๋ฐฑ๋งŒ ์—ํ”ผ์†Œ๋“œ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•„์š”
  • 2023๋…„: ์ˆ˜๋งŒ ์‹œ๊ฐ„์˜ ์‹ค์ œ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ํ•„์š”
  • 2025๋…„: 2์‹œ๊ฐ„์˜ ์‹œ์—ฐ์œผ๋กœ 90%+ ์„ฑ๊ณต๋ฅ 

์ด ์ถ”์„ธ๊ฐ€ ๊ณ„์†๋œ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ๊ณง ๊ฑฐ์˜ ์ œ๋กœ์ƒท์œผ๋กœ ์ƒˆ๋กœ์šด ์กฐ์ž‘ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋กœ๋ด‡์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์•„์ง ๊ฐˆ ๊ธธ์ด ๋ฉ‰๋‹ˆ๋‹ค. ์™„๋ฒฝํ•œ ๋ฒ”์šฉ ์กฐ์ž‘์€ ์—ฌ์ „ํžˆ โ€œ์—ด๋ฆฐ ๋ฌธ์ œโ€์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ DexGraspVLA๋Š” ํ™•์‹คํžˆ ๊ทธ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๋Š” ์ค‘์š”ํ•œ ์ด์ •ํ‘œ์ž…๋‹ˆ๋‹ค.

ํŒŒ์ธ๋งŒ์ด ๋งํ–ˆ๋“ฏ์ด, โ€œ์ž์—ฐ์€ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ง€ ์šฐ๋ฆฌ๊ฐ€ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค ๋ฟ์ž…๋‹ˆ๋‹ค.โ€ DexGraspVLA์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด โ€” Domain-Invariant Representation โ€” ๋Š” ๋†€๋ผ์šธ ์ •๋„๋กœ ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ๊ฒƒ์ด ๋ฐ”๋กœ ๊ทธ ํž˜์˜ ์›์ฒœ์ž…๋‹ˆ๋‹ค.

์ฐธ๊ณ  ๋ฌธํ—Œ ๋ฐ ๊ด€๋ จ ์ž๋ฃŒ

ํ•ต์‹ฌ ์ฐธ๊ณ  ์ž๋ฃŒ

  • ๋…ผ๋ฌธ: arXiv:2502.20900
  • ํ”„๋กœ์ ํŠธ ์›น์‚ฌ์ดํŠธ: https://dexgraspvla.github.io/
  • GitHub ์ฝ”๋“œ: https://github.com/Psi-Robot/DexGraspVLA
  • ์˜์ƒ ๋ฐ๋ชจ: YouTube

๊ด€๋ จ Foundation Model

  • DINOv2: Meta AI์˜ ์ž๊ธฐ์ง€๋„ ํ•™์Šต Vision Transformer
  • SAM (Segment Anything Model): Meta AI์˜ ๋ฒ”์šฉ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ
  • Cutie: ๋น„๋””์˜ค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜/์ถ”์  ๋ชจ๋ธ
  • Qwen2.5-VL: Alibaba์˜ Vision-Language Model

๊ด€๋ จ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ

  • Diffusion Policy: Stanford์˜ Diffusion ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์ •์ฑ… ํ•™์Šต
  • DiT (Diffusion Transformer): Facebook์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ Transformer
  • RDT (Robotics Diffusion Transformer): Tsinghua์˜ ๋กœ๋ด‡ Diffusion ๋ชจ๋ธ
  • ฯ€โ‚€ (Pi-Zero): Physical Intelligence์˜ VLA ๋ชจ๋ธ

๋ถ€๋ก: ์šฉ์–ด ์ •๋ฆฌ

์šฉ์–ด ์„ค๋ช…
Domain-Invariant Representation ์ž…๋ ฅ์˜ ํ‘œ๋ฉด์  ์ฐจ์ด(์กฐ๋ช…, ๋ฐฐ๊ฒฝ)์— ๊ด€๊ณ„์—†์ด ๋™์ผํ•˜๊ฒŒ ์œ ์ง€๋˜๋Š” ๋‚ด๋ถ€ ํ‘œํ˜„
Diffusion Model ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ
DiT (Diffusion Transformer) Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ Diffusion ๋ชจ๋ธ
Action Chunk ๋‹จ์ผ ์‹œ์ ์ด ์•„๋‹Œ ์—ฌ๋Ÿฌ ์‹œ์ ์˜ ์•ก์…˜์„ ํ•œ ๋ฒˆ์— ์˜ˆ์ธก
VLM (Vision-Language Model) ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ
Zero-Shot ํ•™์Šต ์‹œ ๋ณด์ง€ ๋ชปํ•œ ์ƒํ™ฉ์—์„œ ๋ฐ”๋กœ ํ…Œ์ŠคํŠธ
Nonprehensile Grasping ์ง์ ‘ ์žก์ง€ ์•Š๊ณ  ๋ฐ€๊ฑฐ๋‚˜ ๊ธฐ์šธ์—ฌ์„œ ์žก๋Š” ๋ฐฉ์‹
Speculative Decoding ์ž‘์€ ๋ชจ๋ธ๋กœ ์˜ˆ์ธกํ•˜๊ณ  ํฐ ๋ชจ๋ธ๋กœ ๊ฒ€์ฆํ•˜๋Š” ์ถ”๋ก  ๊ฐ€์† ๊ธฐ๋ฒ•

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

DexGraspVLA: ๋น„์ „-์–ธ์–ด-์•ก์…˜ ํ†ตํ•ฉ์œผ๋กœ ๋ฒ”์šฉ ์„ฌ์„ธํ•œ ํŒŒ์ง€ ๋‹ฌ์„ฑํ•˜๊ธฐ

์†Œ๊ฐœ: ๋ฒ”์šฉ ์„ฌ์„ธํ•œ ํŒŒ์ง€์˜ ๋„์ „๊ณผ ํ•„์š”์„ฑ

๋กœ๋ด‡๊ณตํ•™์—์„œ ์„ฌ์„ธํ•œ ํŒŒ์ง€(dexterous grasping)๋Š” ์—ฌ์ „ํžˆ ํ’€๊ธฐ ์–ด๋ ค์šด ๊ทผ๋ณธ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์ฒ˜๋Ÿผ ์—ฌ๋Ÿฌ ๊ด€์ ˆ๋กœ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ผ์€, ๊ฐ€์ •์ด๋‚˜ ๊ณต์žฅ์ฒ˜๋Ÿผ ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ํ™˜๊ฒฝ์—์„œ ํŠนํžˆ ๊นŒ๋‹ค๋กญ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์€ ์‹คํ—˜ ์กฐ๊ฑด์„ ๋‹จ์ˆœํ™”ํ•˜๊ณค ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ ๋ฌผ์ฒด๋งŒ ๋‹ค๋ฃจ๊ฑฐ๋‚˜, ์กฐ๋ช…์ด ์ผ์ •ํ•œ ์ œํ•œ๋œ ํ™˜๊ฒฝ์„ ๊ฐ€์ •ํ•˜๋Š” ๋“ฑ ์ œ์•ฝ๋œ ์กฐ๊ฑด์—์„œ๋งŒ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์ œํ•œ๋œ ๊ฐ€์ •๋“ค์€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ผ๋ฐ˜ํ™”์˜ ํ•œ๊ณ„๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์ˆ˜๋งŽ์€ ๋ชจ์–‘๊ณผ ์žฌ์งˆ์˜ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋ฅผ, ์—‰๋ง์œผ๋กœ ์„ž์—ฌ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ, ์‚ฌ๋žŒ ๋ฐฉํ•ด๋‚˜ ์˜ˆ๊ธฐ์น˜ ๋ชปํ•œ ๋ณ€์ˆ˜์—๋„ ๊ตดํ•˜์ง€ ์•Š๊ณ  ์žก์•„๋‚ผ ์ˆ˜ ์žˆ์œผ๋ ค๋ฉด ๋ฌด์—‡์ด ํ•„์š”ํ• ๊นŒ์š”?

ํ•œํŽธ, ์ตœ๊ทผ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋ชจ๋ฐฉํ•™์Šต์œผ๋กœ ๋‹ค๊ด€์ ˆ ์† ์กฐ์ž‘ ๊ธฐ์ˆ ์ด ๋ฐœ์ „ํ–ˆ์ง€๋งŒ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๊ณผ์ ํ•ฉ๋˜์–ด ๋‹ค๋ฅธ ์ƒํ™ฉ์œผ๋กœ ๋„˜์–ด๊ฐ€๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์ž์ฃผ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ˆ˜๋ฐฑ๋งŒ ๋ฒˆ ํ•™์Šต์‹œ์ผœ ํ˜„์‹ค์— ์˜ฎ๊ธฐ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ์ „์ด(sim-to-real) ๊ธฐ๋ฒ•๋„ ์‹œ๋„๋˜์—ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ณต์žก์„ฑ์„ ์™„๋ฒฝํžˆ ๋Œ€์‘ํ•˜๊ธด ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ OpenAI์˜ Dactyl ํ”„๋กœ์ ํŠธ๋Š” ๋‹ค๊ด€์ ˆ ์†์— ๋ฃจ๋น…์Šค ํ๋ธŒ๋ฅผ ์ฅ์–ด์ฃผ๋Š” ์–ด๋ ค์šด ์ž‘์—…์„ ์ˆœ์ „ํžˆ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ํ•™์Šตํ•ด ํ’€์—ˆ์ง€๋งŒ, ์ด๋ฅผ ์œ„ํ•ด ๋„๋ฉ”์ธ ๋žœ๋คํ™”(Domain Randomization)๋ผ ๋ถˆ๋ฆฌ๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ์ˆ˜๋งŽ์€ ๊ฐ€์ƒํ™˜๊ฒฝ ๋ณ€์ˆ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋ฐ”๊พธ๋ฉฐ ํ›ˆ๋ จํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํ˜„์‹ค์— ๋ณด๋‹ค ํŠผํŠผํ•œ ์ •์ฑ…์„ ์–ป์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์—„์ฒญ๋‚œ ์—ฐ์‚ฐ๊ณผ ์‹œ๊ฐ„์ด ๋“ค๊ณ  ์ฃผ์–ด์ง„ ๊ณผ์ œ ์ด์™ธ์˜ ์ผ๋ฐ˜ํ™”์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ƒˆ๋กœ์šด ์ƒํ™ฉ๋งˆ๋‹ค ์ผ์ผ์ด ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์•„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ์‹ค์šฉ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

DexGraspVLA๋Š” ์ด๋Ÿฌํ•œ ๋‚œ์ œ๋“ค์— ์ •๋ฉด์œผ๋กœ ๋„์ „ํ•˜๋Š” ์‹ ์ž‘ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. 2025๋…„ AAAI์—์„œ ๋ฐœํ‘œ๋œ ์ด ๋ฐฉ๋ฒ•์€, ๋งˆ์น˜ ๋ฆฌ์ฒ˜๋“œ ํŒŒ์ธ๋งŒ์˜ ์„ค๋ช…์ฒ˜๋Ÿผ, ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ๋†€๋ž๋„๋ก ๋˜‘๋˜‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ฐ„๊ฒฐํ•˜๊ฒŒ ํ’€์–ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธ€์—์„œ๋Š” DexGraspVLA์˜ ๊ธฐ์ˆ ์  ๊ตฌ์„ฑ๊ณผ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์ฐฌ์ฐฌํžˆ ํ’€์–ด๋ณด๊ณ , ์ด์ „์˜ ์ ‘๊ทผ๋“ค๊ณผ ๋ฌด์—‡์ด ๋‹ค๋ฅด๊ณ  ์™œ ํŠน๋ณ„ํ•œ์ง€ ๋น„๊ตํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณตํ•™์ž์˜ ์‹œ๊ฐ์—์„œ, ๊ทธ๋ฆฌ๊ณ  ์•ฝ๊ฐ„์€ ์นœ๊ทผํ•œ ๋น„์œ ๋ฅผ ๊ณ๋“ค์—ฌ, ๋ฒ”์šฉ ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡ ์† ํŒŒ์ง€๋ฅผ ํ–ฅํ•œ ์ด ํ˜์‹ ์ ์ธ ๋ฐœ๊ฑธ์Œ์„ ์ดํ•ดํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

DexGraspVLA๋ž€ ๋ฌด์—‡์ธ๊ฐ€? โ€“ ๋น„์ „-์–ธ์–ด-์•ก์…˜์˜ ๊ณ„์ธต์  ํ˜‘์—…

DexGraspVLA ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐœ๋žต๋„. ๊ณ ์ˆ˜์ค€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์ด โ€œ์ฑ…์ƒ์„ ์น˜์›Œ๋ผ (clear the table)โ€ ๊ฐ™์€ ์‚ฌ์šฉ์ž์˜ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ํ•ด์„ํ•˜๊ณ  ์—ฌ๋Ÿฌ ๊ฐœ๋ณ„ ํŒŒ์ง€ ๋‹จ๊ณ„๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์ฟ ํ‚ค๋ฅผ ์ง‘์–ด๋ผโ€์ฒ˜๋Ÿผ ๋‹ค์Œ์— ์žก์„ ๋ฌผ์ฒด๋ฅผ ์ •ํ•ด ์ˆœ์ฐจ์ ์ธ ์ง€์‹œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ํ•ด๋‹น ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ์นด๋ฉ”๋ผ ์˜์ƒ์—์„œ 2D ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋กœ ํ‘œ์‹œํ•ด์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ์ €์ˆ˜์ค€ ์•ก์…˜ ์ œ์–ด๊ธฐ๊ฐ€ ์ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ํ™œ์šฉํ•ด ๋ชฉํ‘œ ๋ฌผ์ฒด์˜ ๋งˆ์Šคํฌ๋ฅผ ์–ป๊ณ , ๋กœ๋ด‡ ์†๊ฐ€๋ฝ์˜ ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€์™€ ์ƒํƒœ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ™•์‚ฐ ๋ชจ๋ธ(DiT)์ด ํ–ฅํ›„ ์‹คํ–‰ํ•  ๋™์ž‘ ์‹œํ€€์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ณ„ํš-์‹คํ–‰์ด ๋ฐ˜๋ณต๋˜๋ฉฐ, ํ•œ ๋ฌผ์ฒด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ง‘์–ด๋‚ด๋ฉด ๋‹ค์Œ ์ง€์‹œ๋กœ ๋„˜์–ด๊ฐ€ ์‚ฌ์šฉ์ž์˜ ์ตœ์ข… ์ง€์‹œ(ํ…Œ์ด๋ธ” ์น˜์šฐ๊ธฐ)๋ฅผ ์™„์ˆ˜ํ•ฉ๋‹ˆ๋‹ค.

DexGraspVLA์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” โ€œ๋‚˜๋ˆ ์„œ ์ •๋ณตโ€ํ•˜๋Š” ๊ณ„์ธต์  ๊ตฌ์กฐ์— ์žˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์น˜ ์ธ๊ฐ„์ด ๋ณต์žกํ•œ ์ž‘์—…์„ ํ•  ๋•Œ ๋จธ๋ฆฌ๋กœ ํฐ ๊ณ„ํš์„ ์„ธ์šฐ๊ณ  ์†์œผ๋กœ ์„ฌ์„ธํ•œ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ์ด ์‹œ์Šคํ…œ๋„ ๋‘ ๊ฐœ์˜ ๋‘๋‡Œ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‘๋‡Œ๋Š” ๊ณ ์ˆ˜์ค€ ํ”Œ๋ž˜๋„ˆ, ๋‘ ๋ฒˆ์งธ ๋‘๋‡Œ๋Š” ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ์ž…๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ์ฒซ ๋ฒˆ์งธ ๋‘๋‡Œ๋Š” ์ธ๊ฐ„์ด ๋งŒ๋“  ๊ฑฐ๋Œ€ํ•œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์„ ๋นŒ๋ ค ์”๋‹ˆ๋‹ค.

  • ๊ณ ์ˆ˜์ค€ ํ”Œ๋ž˜๋„ˆ (Vision-Language Planner): ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ๊ฑฐ๋Œ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์—์„œ๋Š” Qwen-VL-Chat์ด๋ผ๋Š” ์ตœ์‹  ๋ชจ๋ธ์„ ํ™œ์šฉํ–ˆ๋Š”๋ฐ, ์ด๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡์€ ์นด๋ฉ”๋ผ ์˜์ƒ์„ ๋ณด๊ณ  ์‚ฌ์šฉ์ž์˜ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, ๋กœ๋ด‡์—๊ฒŒ โ€œ์žฅ๋‚œ๊ฐ ์ž๋™์ฐจ๋ฅผ ์ง‘์–ด์„œ ์ƒ์ž์— ๋„ฃ์–ดโ€๋ผ๊ณ  ํ•˜๋ฉด, ํ”Œ๋ž˜๋„ˆ๋Š” ๋ฌธ์žฅ์„ ์ดํ•ดํ•˜๊ณ  ํ˜„์žฌ ์‹œ์•ผ์— ์žˆ๋Š” ์—ฌ๋Ÿฌ ๋ฌผ์ฒด๋“ค ์ค‘์—์„œ ์žฅ๋‚œ๊ฐ ์ž๋™์ฐจ๊ฐ€ ์–ด๋””์— ์žˆ๋Š”์ง€ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๋ฌผ์ฒด์— ๋„ค๋ชจ ๋ฐ•์Šค(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค)๋ฅผ ๊ทธ๋ ค ํ‘œ์‹œํ•˜์ฃ . ์ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ๋„๋ฉ”์ธ-๋ถˆ๋ณ€ ํ‘œํ˜„์˜ ์‹œ์ž‘์ ์ธ๋ฐ, ์–ด๋–ค ๋ฐฐ๊ฒฝ์ด๋“  ์กฐ๋ช…์ด๋“  ๊ฐ„์— โ€œ์ด ์ž๋ฆฌ์˜ ์ด ๋ฌผ์ฒดโ€๋ผ๋Š” ๊ณตํ†ต๋œ ํ‘œ์‹œ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ, ์ดํ›„ ๋‹จ๊ณ„์— ํ™˜๊ฒฝ ๋ณ€ํ™”๊ฐ€ ์žˆ์–ด๋„ ์˜ํ–ฅ์„ ๋œ ๋ฐ›์Šต๋‹ˆ๋‹ค. ํ”Œ๋ž˜๋„ˆ๋Š” ๋˜ํ•œ ๊ธด ์ž‘์—…์„ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋กœ ์ชผ๊ฐœ๋Š” ์—ญํ• ๋„ ํ•ฉ๋‹ˆ๋‹ค. โ€œ์ฑ…์ƒ์„ ์น˜์›Œ๋ผโ€ ๊ฐ™์€ ๊ธด ์š”์ฒญ์„ ๋ฐ›์œผ๋ฉด, ์‚ฌ๋žŒ์ด ๊ทธ๋ ‡๋“ฏ์ด โ€œ๋จผ์ € ์ฟ ํ‚ค ํ†ต์„ ์น˜์šฐ๊ณ , ๊ทธ ๋‹ค์Œ ์ปต์„ ์น˜์šฐ์žโ€ ์‹์œผ๋กœ ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ์ˆœ์„œ๋ฅผ ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ๋ฌด์—‡๋ถ€ํ„ฐ ์ง‘๋Š” ๊ฒŒ ์ข‹์„์ง€ ์ฃผ๋ณ€ ๋ฌผ๊ฑด ๋ฐฐ์น˜๋‚˜ ์ ‘๊ทผ ์šฉ์ด์„ฑ์„ ๋”ฐ์ ธ ๊ฒฐ์ •ํ•˜๋Š” ์ ๋„ ํฅ๋ฏธ๋กœ์šด๋ฐ, ์ด๋Š” ๋งˆ์น˜ ์–ด์ˆ˜์„ ํ•œ ์ฑ…์ƒ์„ ์น˜์šธ ๋•Œ ์šฐ๋ฆฌ ๋จธ๋ฆฌ๊ฐ€ ํŒ๋‹จํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

  • ์ €์ˆ˜์ค€ ์•ก์…˜ ์ œ์–ด๊ธฐ (Action Controller): ๋‘ ๋ฒˆ์งธ ๋‘๋‡Œ๋Š” ์‹ค์ œ ๋กœ๋ด‡ ํŒ”๊ณผ ์†๊ฐ€๋ฝ์„ ์›€์ง์ด๋Š” ์ˆ™๋ จ๋œ ์† ์—ญํ• ์ž…๋‹ˆ๋‹ค. ์ด ์ œ์–ด๊ธฐ๋Š” ํ”Œ๋ž˜๋„ˆ๊ฐ€ ์ค€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค, ์ฆ‰ ๋ชฉํ‘œ ๋ฌผ์ฒด์˜ ๋Œ€๋žต์  ์œ„์น˜ ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋™์ž‘์„ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. ์šฐ์„  Segmentation ๋ชจ๋“ˆ์ด ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. SAM(Segment Anything Model)์ด๋ผ๋Š” ๊ฐ•๋ ฅํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ์„ ์ด์šฉํ•ด, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์•ˆ์˜ ๋ชฉํ‘œ ๋ฌผ์ฒด์˜ ํ”ฝ์…€ ์˜์—ญ(๋งˆ์Šคํฌ)์„ ์–ป์–ด๋ƒ…๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ ์ง‘๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ๋ฌผ์ฒด๊ฐ€ ์›€์ง์ด๊ฑฐ๋‚˜ ์†์ด๋‚˜ ๋‹ค๋ฅธ ๋ฌผ์ฒด์— ๊ฐ€๋ ค์งˆ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ์œ„ํ•ด Cutie๋ผ๋Š” ๋น„๋””์˜ค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ์ด ๋งˆ์Šคํฌ๋ฅผ ๊ณ„์† ์ถ”์ ํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ๋”ฐ๋ผ๊ฐ€๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋™์‹œ์— ๋กœ๋ด‡์—๋Š” ๋‘ ๊ฐœ์˜ ์นด๋ฉ”๋ผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ๋กœ๋ด‡์˜ ๋จธ๋ฆฌ ๊ฒฉ์ธ ๋†’์€ ์œ„์น˜(third-view ์นด๋ฉ”๋ผ), ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ์†๋ชฉ์— ๊ฐ€๊นŒ์ด ๋‹ฌ๋ฆฐ ์ผ์ธ์นญ ์นด๋ฉ”๋ผ์ž…๋‹ˆ๋‹ค. ์ œ์–ด๊ธฐ๋Š” ์ด ๋‘ ์‹œ์ ์˜ ์˜์ƒ๊ณผ, ์ถ”์ ํ•œ ๋ฌผ์ฒด ๋งˆ์Šคํฌ, ๊ทธ๋ฆฌ๊ณ  ๋กœ๋ด‡ ์†์˜ ๊ด€์ ˆ ๊ฐ๋„ ๋“ฑ ์ƒํƒœ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค.

  • ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ ํŠธ๋ฆญ์ด ํ•˜๋‚˜ ๋” ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ œ์–ด๊ธฐ๋Š” ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ๋ฐ”๋กœ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ๋ฏธ๋ฆฌ ํ•™์Šต๋œ ๋น„์ „ ๋ชจ๋ธ๋“ค์„ ์ด์šฉํ•ด ๊ฐ๊ฐ ์˜๋ฏธ ์žˆ๋Š” ํ”ผ์ฒ˜(ํŠน์ง•)๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, DINOv2๋ผ๋Š” ๊ฐ•๋ ฅํ•œ ์‹œ๊ฐ ์ธ์ฝ”๋”๋ฅผ ๋‘ ๊ฐœ ์‚ฌ์šฉํ•˜์—ฌ ๋จธ๋ฆฌ ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ ์†๋ชฉ ์นด๋ฉ”๋ผ ์˜์ƒ์—์„œ ๊ฐ๊ฐ ํŠน์ง• ๋ฒกํ„ฐ๋“ค์„ ๋ฝ‘์•„๋ƒ…๋‹ˆ๋‹ค. DINOv2๋Š” ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ๋•๋ถ„์— ์กฐ๋ช…์ด๋‚˜ ๋ฐฐ๊ฒฝ์ด ๋‹ฌ๋ผ์ ธ๋„ ๋ฌผ์ฒด์˜ ๋ณธ์งˆ์ ์ธ ๋ชจ์Šต(๋ชจ์–‘, ์งˆ๊ฐ ๋“ฑ)์„ ์ž˜ ํ‘œํ˜„ํ•ด์ฃผ๋Š” ํŠน์ง•์„ ๋‚ด๋†“์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์›์‹œ ํ”ฝ์…€ ๋Œ€์‹  ์ถ”์ƒํ™”๋œ ์‹œ๊ฐ ์ •๋ณด๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ํ™˜๊ฒฝ ์ฐจ์ด์— ๊ฐ•์ธํ•ด์ง€๋„๋ก ํ•œ ๊ฒƒ์ด์ฃ . ํ•œํŽธ, ๋ฌผ์ฒด ๋งˆ์Šคํฌ๋Š” ๋ณ„๋„์˜ Vision Transformer(ViT)๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ฌผ์ฒด์˜ ํ˜•ํƒœ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ , ๋กœ๋ด‡ ๊ด€์ ˆ ์ƒํƒœ๋Š” ๊ฐ„๋‹จํ•œ ๋‹ค์ธตํผ์…‰ํŠธ๋ก (MLP)์œผ๋กœ ์ž„๋ฒ ๋”ฉํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ด ๋ชจ๋“  ์ •๋ณด๋Š” ๊ณต์œ ๋œ ํ‘œํ˜„ ๊ณต๊ฐ„์—์„œ ํ•˜๋‚˜์˜ ํ”ผ์ฒ˜ ์‹œํ€€์Šค๋กœ ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค.

  • Diffusion ์•ก์…˜ ์ƒ์„ฑ๊ธฐ: ์ œ์–ด๊ธฐ์˜ ํ•˜์ด๋ผ์ดํŠธ๋Š” ๋ฐ”๋กœ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋™์ž‘ ์ƒ์„ฑ์ž…๋‹ˆ๋‹ค. ํ†ตํ•ฉ๋œ ํ”ผ์ฒ˜ ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅ์œผ๋กœ, DiT(Diffusion Transformer)๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ๋ชจ๋ธ์ด ๋ฏธ๋ž˜์˜ ์ผ๋ จ์˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ™•์‚ฐ ๋ชจ๋ธ์€ ์›๋ž˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋“ฑ์—์„œ ์žก์Œ(noise)์„ ์ ์ฐจ ์ œ๊ฑฐํ•˜๋ฉฐ ์›ํ•˜๋Š” ์ถœ๋ ฅ์„ ์–ป๋Š” ๋ฐฉ์‹์„ ์“ฐ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ๋Š” ๋น„์Šทํ•˜๊ฒŒ ๋ฌด์ž‘์œ„ํ•œ ์ดˆ๊ธฐ ๋™์ž‘ ์ถ”์ธก์„ ์ ์ง„์ ์œผ๋กœ ์„ธ๋ จ๋œ ๋กœ๋ด‡ ๋™์ž‘ ๊ณ„ํš์œผ๋กœ ๋‹ค๋“ฌ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ์กฐ๊ฐ๊ฐ€๊ฐ€ ์ฒ˜์Œ์—๋Š” ๋Œ€๋ฆฌ์„์„ ๋Œ€์ถฉ ๊นŽ์•„ ํ˜•ํƒœ๋ฅผ ๋งŒ๋“ค๊ณ , ๋ฐ˜๋ณตํ•ด์„œ ์„ฌ์„ธํ•˜๊ฒŒ ๋‹ค๋“ฌ์–ด ์ตœ์ข… ์ž‘ํ’ˆ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ณผ์ •๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ณต์žกํ•˜๊ณ  ๋‹ค๋ด‰Modalํ•œ(multi-modal) ๋™์ž‘ ๋ถ„ํฌ๋„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ ๋ฌผ์ฒด๋ฅผ ์ง‘๋Š” ๋™์ž‘๋„ ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ์™€ ์†๊ฐ€๋ฝ ์›€์ง์ž„์ด ์žˆ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ํ™•์‚ฐ ์ •์ฑ…์€ ์ด๋Ÿฐ ๋‹ค์–‘ํ•œ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•๋ฅ ์ ์œผ๋กœ ํฌ์šฉํ•˜๋ฉฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜์ž๋ฉด, DexGraspVLA๋Š” โ€œ๋˜‘๋˜‘ํ•œ ๋ˆˆ๊ณผ ๋จธ๋ฆฌโ€ + โ€œ๋…ธ๋ จํ•œ ์†โ€์˜ ์ด์›ํ™”๋œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๊ณ ์ˆ˜์ค€ ํ”Œ๋ž˜๋„ˆ๋Š” ์‹œ๊ฐ๊ณผ ์–ธ์–ด์˜ ํž˜์„ ๋นŒ๋ ค ๋ฌด์—‡์„ ์–ด๋–ป๊ฒŒ ์žก์„์ง€ ์ „๋žต์„ ์„ธ์šฐ๊ณ , ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ๋Š” ํ’๋ถ€ํ•œ ์„ผ์„œ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•ด ๊ทธ ์ „๋žต์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‘˜์€ ๋Š์ž„์—†์ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํ์‡„ ๋ฃจํ”„ ์ œ์–ด๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค. ํ”Œ๋ž˜๋„ˆ๋Š” ์ œ์–ด๊ธฐ๊ฐ€ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋™์•ˆ๋„ ๋ชจ๋‹ˆํ„ฐ๋ง์„ ๊ณ„์†ํ•ฉ๋‹ˆ๋‹ค. ์ค‘๊ฐ„์— ์ œ๋Œ€๋กœ ์ง‘์—ˆ๋Š”์ง€ ํŒ๋‹จํ•˜๊ณ  ์‹คํŒจํ•˜๋ฉด ๋ฐ”๋กœ ์žฌ์‹œ๋„ ์ง€์‹œ๋ฅผ ๋‚ด๋ฆฝ๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๋ฌผ์ฒด ์น˜์šฐ๊ธฐ๊ฐ€ ๋๋‚˜๋ฉด ๋กœ๋ด‡์„ ์›์œ„์น˜๋กœ ๋ฆฌ์…‹ํ•˜๊ณ  ๋‹ค์Œ ๋ฌผ์ฒด ์ง€์‹œ๋กœ ๋„˜์–ด๊ฐ€๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ์‚ฌ์šฉ์ž์˜ ๋†’์€ ์ˆ˜์ค€ ๋ชฉํ‘œ(์˜ˆ: ํ…Œ์ด๋ธ” ์น˜์šฐ๊ธฐ)๊ฐ€ ๋‹ฌ์„ฑ๋  ๋•Œ๊นŒ์ง€ ์ด ๊ณผ์ •์ด ์ด์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณ„์ธต์  ๋ถ„๋ฆฌ ๋•๋ถ„์—, ๋กœ๋ด‡์€ ๋†’์€ ์ˆ˜์ค€ ์ดํ•ด๋ ฅ๊ณผ ๋‚ฎ์€ ์ˆ˜์ค€ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๋™์‹œ์— ๊ฐ€์ ธ๊ฐ€๋ฉด์„œ๋„ ๊ฐ๊ฐ์„ ์ „๋ฌธํ™”ํ•˜์—ฌ ์•ˆ์ •์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ด๊ฒƒ์ด DexGraspVLA์˜ ๋ผˆ๋Œ€์ž…๋‹ˆ๋‹ค.

DexGraspVLA์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ์™€ ํ˜์‹  ํฌ์ธํŠธ

์ด์ œ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ธฐ์ˆ ์ ์œผ๋กœ ๋ฌด์—‡์„ ์ƒˆ๋กญ๊ฒŒ ์‹œ๋„ํ–ˆ๊ณ , ์™œ ์ค‘์š”ํ•œ์ง€ ํ•˜๋‚˜์”ฉ ์งš์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. DexGraspVLA๋Š” ๋‹จ์ˆœํžˆ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์„ ์กฐํ•ฉํ•œ ๊ฒƒ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , ์—ฌ๋Ÿฌ ํ˜์‹ ์  ์•„์ด๋””์–ด๋ฅผ ํ†ตํ•ด ๋ฒ”์šฉ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • 1. ๋น„์ „-์–ธ์–ด-์•ก์…˜ ํ†ตํ•ฉ์„ ํ†ตํ•œ ๊ณ„์ธต์  ํ•™์Šต: DexGraspVLA๋Š” ์ฒ˜์Œ์œผ๋กœ ๊ณ ์ˆ˜์ค€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๊ณผ ์ €์ˆ˜์ค€ ๋กœ๋ด‡ ์ œ์–ด๊ธฐ๋ฅผ ํ•œ ํ‹€ ์•ˆ์—์„œ ๊ณ„์ธต์ ์œผ๋กœ ํ†ตํ•ฉํ•œ ํŒŒ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ด์ „๊นŒ์ง€ ๋‹ค๊ด€์ ˆ ์† ํŒŒ์ง€ ์—ฐ๊ตฌ์—์„œ๋Š” ๋Œ€๊ฐœ ์‹œ๊ฐ ์ธ์‹๊ณผ ์ œ์–ด๋ฅผ ๋ถ„๋ฆฌํ•˜๋”๋ผ๋„, ์–ธ์–ด๋กœ๋ถ€ํ„ฐ ์ผ๋ฐ˜์ ์ธ ๋ชฉํ‘œ๋ฅผ ์ดํ•ดํ•˜๋Š” ์ˆ˜์ค€๊นŒ์ง€ ํ†ตํ•ฉํ•œ ์˜ˆ๋Š” ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๊ฐ€ ์ž์œ ๋กญ๊ฒŒ ์„œ์ˆ ํ•œ ํ”„๋ฆฌํผ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ ์ง์ ‘ ๋ฐ›์•„๋“ค์—ฌ ์‹คํ–‰๊นŒ์ง€ ์˜ฎ๊ธธ ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ โ€œ์ด ๋ถˆ๊ทœ์น™ํ•œ ๋ชจ์–‘์˜ ํŒŒ๋ž€ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ์ƒ์ž์— ๋„ฃ์–ด์ค˜โ€๋ผ๊ณ  ๋งํ•ด๋„, ๋กœ๋ด‡์€ ๊ทธ ๋ฌผ์ฒด๊ฐ€ ๋ฌด์—‡์ธ์ง€ ํŒŒ์•…ํ•˜๊ณ  ์žก๋Š” ์ผ๋ จ์˜ ํ–‰๋™์„ ์Šค์Šค๋กœ ๊ณ„ํšํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์ •ํ•ด์ง„ ๊ฐ์ฒด ๋ฒ”์ฃผ๋‚˜ ์‚ฌ์ „์— ํ”„๋กœ๊ทธ๋žจ๋œ ๋™์ž‘ ์‹œํ€€์Šค์— ์˜์กดํ–ˆ๋‹ค๋ฉด, DexGraspVLA๋Š” ํ•œ์ธต ์‚ฌ๋žŒ๊ณผ ์†Œํ†ตํ•˜๋“ฏ ์œ ์—ฐํ•œ ๊ณผ์ œ ์ˆ˜ํ–‰์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
  • 2. ์‚ฌ์ „ํ•™์Šต ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋„๋ฉ”์ธ-๋ถˆ๋ณ€ ํ‘œํ˜„ ํ™œ์šฉ: DexGraspVLA์˜ ํ•ต์‹ฌ ํ˜์‹  ์ค‘ ํ•˜๋‚˜๋Š”, ๋‹ค์–‘ํ•œ ์–ธ์–ด ์ž…๋ ฅ๊ณผ ์‹œ๊ฐ ์ž…๋ ฅ์„ ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์„ ํ†ตํ•ด ์ผ๊ด€๋œ ํ‘œํ˜„ ๊ณต๊ฐ„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ ์ž…๋‹ˆ๋‹ค. โ€œfoundation modelโ€์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋“ค์ด ๋‹ด๊ณ  ์žˆ๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์„ธ๊ณ„ ์ง€์‹๊ณผ ์‹œ๊ฐ์  ํŠน์„ฑ์„ ๋กœ๋ด‡์ด ์ ๊ทน ํ™œ์šฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, Qwen-VL-Chat, DINOv2, SAM ๋“ฑ์˜ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ๋“ค์„ freeze(๋™๊ฒฐ)๋œ ์ฑ„๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ๋กœ๋ด‡์ด ๋ณด๊ฑฐ๋‚˜ ๋“ฃ๋Š” ์ •๋ณด์˜ ๋…ธ์ด์ฆˆ๋ฅผ ๊ฑธ๋Ÿฌ๋‚ด๊ณ  ๋ณธ์งˆ๋งŒ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ์กฐ๋ช…์ด ์–ด๋‘ก๋“  ๋ฒฝ์ง€๊ฐ€ ์•Œ๋ก๋‹ฌ๋กํ•˜๋“  ์ƒ๊ด€์—†์ด ๋กœ๋ด‡ ๋‚ด๋ถ€์—์„œ๋Š” ํ•ญ์ƒ ๋น„์Šทํ•œ ํ˜•ํƒœ์˜ ํŠน์ง• ๋ฒกํ„ฐ๋กœ ์ƒํ™ฉ์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์˜ ์‹คํ—˜์„ ๋ณด๋ฉด, ๊ฐ™์€ ๋ฌผ์ฒด ๋”๋ฏธ๋ฅผ ํฐ ํƒ์ž ์œ„, ์ฒด์ปค๋ณด๋“œ ๋ฌด๋Šฌ ์ฒœ ์œ„, ๋””์Šค์ฝ” ์กฐ๋ช…์ด ๋ฐ˜์ง์ด๋Š” ํ™˜๊ฒฝ ๋“ฑ์œผ๋กœ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ๋ณด์—ฌ์ค˜๋„, DINOv2๋กœ ์ถ”์ถœํ•œ ํŠน์ง•๋“ค์€ ๊ฑฐ์˜ ๋ณ€ํ•จ์—†์ด ์ผ๊ด€๋œ ๊ฒƒ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๋‹จ๊ณ„์˜ ์ •์ฑ…๋ง(DiT) ์—ญ์‹œ ์ด๋Ÿฐ ์•ˆ์ •๋œ ํ”ผ์ฒ˜ ์œ„์—์„œ ์ฃผ๋กœ ํ•™์Šตํ•˜๋‹ˆ, ํ›ˆ๋ จ ๋•Œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์ด๋‚˜ ๋ฌผ์ฒด์กฐํ•ฉ์—์„œ๋„ ์„ฑ๋Šฅ์ด ๋š ๋–จ์–ด์ง€์ง€ ์•Š๊ณ  ์œ ์ง€๋  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค๊ณผ ์ฐจ๋ณ„๋˜๋Š” ์ค‘์š”ํ•œ ์„ฑ์งˆ๋กœ, ๋ชจ๋ธ ๋‚ด๋ถ€ ๋™์ž‘์˜ ์ผ๊ด€์„ฑ์ด ๋†’์€ ๋ฒ”์šฉ์„ฑ์„ ๋’ท๋ฐ›์นจํ•œ๋‹ค๋Š” ์‚ฌ์‹ค๊นŒ์ง€ ์‹คํ—˜์œผ๋กœ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ •๋ฆฌํ•˜๋ฉด, DexGraspVLA๋Š” ๊ฑฐ๋Œ€ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋“ค์„ ์ง€๋Šฅํ˜• ํŠน์„ฑ ์ถ”์ถœ๊ธฐ์™€ ํ”Œ๋ž˜๋„ˆ๋กœ ํ™œ์šฉํ•จ์œผ๋กœ์จ, ์ ์€ ๋กœ๋ด‡ ๊ฒฝํ—˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋งŽ์€ ์ƒํ™ฉ์— ์ ์šฉ๊ฐ€๋Šฅํ•œ ์ง€๋Šฅํ˜• ๋กœ๋ด‡์„ ๋งŒ๋“  ์…ˆ์ž…๋‹ˆ๋‹ค.
  • 3. ํ™•์‚ฐ ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ํ†ตํ•œ ๋ณต์žกํ•œ ๋‹ค๊ด€์ ˆ ๋™์ž‘ ํ•™์Šต: ์ €์ˆ˜์ค€ ์ œ์–ด๊ธฐ์— ๋„์ž…๋œ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ •์ฑ…(DiT)๋„ ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ ๋กœ๋ด‡์˜ ๋™์ž‘ ์ •์ฑ…์€ ์ง€๋„ํ•™์Šต์ด๋ผ๋ฉด ์ฆ‰์‹œ ์ถœ๋ ฅ ๋‰ด๋Ÿด๋„ท์ด๋‚˜, ๊ฐ•ํ™”ํ•™์Šต์ด๋ผ๋ฉด ํ™•๋ฅ ์  ์ •์ฑ… ๋ง์„ ํ†ตํ•ด ํ•œ ์Šคํ…์”ฉ ์•ก์…˜์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹์ด ์ฃผ๋กœ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋น„ํ•ด ํ™•์‚ฐ ๋ชจ๋ธ์€ ์ผ์ • ์‹œ๊ฐ„ H ๋‹จ๊ณ„์˜ ํ–‰๋™ ์‹œํ€€์Šค ์ „์ฒด๋ฅผ ํ•œ๊บผ๋ฒˆ์— ์˜ˆ์ธกํ•˜๋ฉฐ, ์ด๋ฅผ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •์„ ํ†ตํ•ด ์–ป์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์˜ ์žฅ์ ์€ ๋‹ค๊ด€์ ˆ ์†์ฒ˜๋Ÿผ ๊ณ ์ฐจ์› ์—ฐ์† ์ œ์–ด์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ๋‹ค์–‘ํ•œ ํ•ด๋ฒ•๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š”๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ์ปต์„ ์žก๋Š” ๋™์ž‘๋„ ์†๊ฐ€๋ฝ์„ ์•ฝ๊ฐ„ ๋‹ค๋ฅด๊ฒŒ ์›€์ง์—ฌ ์—ฌ๋Ÿฌ ๊ฒฝ๋กœ๋กœ ์„ฑ๊ณตํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ํ™•์‚ฐ ๋ชจ๋ธ์€ ์ด๋Ÿฐ ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅ์„ฑ์˜ ๋ถ„ํฌ๋ฅผ ํ’๋ถ€ํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋ฉด์„œ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ DexGraspVLA์˜ ์ œ์–ด๊ธฐ๋Š” ๋‹จ 2์‹œ๊ฐ„ ๋‚จ์ง“ (2094 ์—ํ”ผ์†Œ๋“œ)์˜ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Œ์—๋„, ๋งค์šฐ ์•ˆ์ •์ ์ด๊ณ  ๋ถ€๋“œ๋Ÿฌ์šด ๋‹ค๊ด€์ ˆ ๋™์ž‘์„ ์ตํž ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐ์ดํ„ฐ ํšจ์œจ ๋˜ํ•œ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ•™์Šต์˜ ์ด์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • 4. 90%+ ์„ฑ๊ณต๋ฅ ๊ณผ ์ตœ์ดˆ์˜ ๋‹ค์ค‘๋Šฅ๋ ฅ ์‹œํ˜„: ์œ„์˜ ์ƒˆ ์š”์†Œ๋“ค์„ ๊ฒฐํ•ฉํ•œ DexGraspVLA๋Š” ์‹คํ—˜์ ์œผ๋กœ ๋ˆˆ์— ๋„๋Š” ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฌด์—‡๋ณด๋‹ค ํŠน็ญ†ํ•  ์ ์€, ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด์™€ ํ™˜๊ฒฝ ์กฐํ•ฉ ์ˆ˜์ฒœ ๊ฐœ๋กœ ์‹œํ—˜ํ–ˆ๋Š”๋ฐ๋„ 90% ์ด์ƒ์˜ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์„ฑ๊ณต์ด๋ž€ ๋‹จ์ˆœํžˆ ๋“ค์–ด์˜ฌ๋ ธ๋‹ค ๋‚ด๋ ค๋†“๋Š” ์ˆ˜์ค€์ด ์•„๋‹ˆ๋ผ, ์ง‘์€ ๋ฌผ์ฒด๋ฅผ ํ…Œ์ด๋ธ” ์œ„ 10cm ๋†’์ด๋กœ 20์ดˆ๊ฐ„ ๋“ค๊ณ  ์žˆ๊ธฐ๊นŒ์ง€ ํฌํ•จํ•˜๋Š” ์—„๊ฒฉํ•œ ๊ธฐ์ค€์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋ชจ๋ฐฉํ•™์Šต ๋ฐฉ๋ฒ•๋“ค์€ ํ›ˆ๋ จ ํ™˜๊ฒฝ์„ ์กฐ๊ธˆ๋งŒ ๋ฒ—์–ด๋‚˜๋„ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€์ง€๋งŒ, DexGraspVLA๋Š” ์ถ”๊ฐ€ ํŠœ๋‹ ์—†์ด๋„ ์ƒˆ๋กœ์šด ์กฐ๋ช…, ์ƒˆ๋กœ์šด ๋ฐฐ๊ฒฝ, ์ฒ˜์Œ ๋ณด๋Š” 360๊ฐœ์˜ ๋ฌผ์ฒด๋“ค ์กฐํ•ฉ์—์„œ๋„ ๊ฑฐ์˜ ๋™์ผํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ฐฉํ•™์Šต ๊ธฐ๋ฐ˜ ๋กœ๋ด‡์œผ๋กœ์„œ๋Š” ์ „๋ก€ ์—†๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ํ•œ ๋ฒˆ ์‹œ๋„ํ•ด์„œ ์‹คํŒจํ•œ ๊ฒฝ์šฐ ์ž๋™์œผ๋กœ ์žฌ์‹œ๋„ํ•˜๊ฒŒ ํ–ˆ๋”๋‹ˆ ์ตœ๋Œ€ ์„ธ ๋ฒˆ ์‹œ๋„ ๋‚ด ์„ฑ๊ณต๋ฅ ์ด 96.9%๊นŒ์ง€ ์˜ฌ๋ผ๊ฐ€๋Š” ๋“ฑ, ์‹คํŒจ ๋ณต๊ตฌ ๋Šฅ๋ ฅ๋„ ๋›ฐ์–ด๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ ๋ฌผ์ฒด๋ฅผ ์ง‘๋Š” ์‰ฌ์šด ์ƒํ™ฉ์—์„œ๋Š” ์„ฑ๊ณต๋ฅ ์ด 98.6%์— ๋‹ฌํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค์„ ์ตœ์†Œ 48% ์ด์ƒ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ์˜€์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ ์•ˆ์ •์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ ์ธก๋ฉด์—์„œ๋„ ํฌ๊ฒŒ ์ง„์ผ๋ณดํ•œ ์…ˆ์ž…๋‹ˆ๋‹ค.

๋˜ DexGraspVLA๋Š” ๋‹ค์–‘ํ•œ ๊ณ ๋‚œ๋„ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๋Œ€์‘์„ ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ ์•ˆ์— ์ฒ˜์Œ์œผ๋กœ ๋ชจ๋‘ ๊ตฌํ˜„ํ•ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ๊ธด ์—ฐ์† ์ž‘์—…์„ ์–ธ์–ด๋กœ ์ง€์‹œํ•˜๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ์Šต(์˜ˆ: โ€œ๋ฐฉ์„ ์น˜์›Œโ€๋ผ ํ•˜๋ฉด ์ผ์ผ์ด ์•Œ์•„์„œ ์—ฌ๋Ÿฌ ๋ฌผ๊ฑด๋“ค์„ ์ˆœ์ฐจ๋กœ ์น˜์›€), ๋ฐฉํ•ด๋ฌผ์ด๋‚˜ ๊ต๋ž€์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ํ•จ(๋กœ๋ด‡์ด ์ง‘์œผ๋ ค๋Š” ์ˆœ๊ฐ„ ์ผ๋ถ€๋Ÿฌ ๋ฌผ์ฒด๋ฅผ ์น˜๊ฑฐ๋‚˜ ํ”๋“ค์–ด๋„ ๋‹ค์‹œ ์žก๋„๋ก ์กฐ์ •ํ•จ), ์‹ฌ์ง€์–ด ๋กœ๋ด‡ ์†์œผ๋กœ ์‚ฌ๋žŒ๊ณผ ์•…์ˆ˜๋ฅผ ํ•˜๋Š” ์‹œ์—ฐ๊นŒ์ง€ ๋™์ผํ•œ ์ œ์–ด๊ธฐ๋กœ ํ™•์žฅํ•ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋น„ํŒŒ์ง€(non-prehensile) ์กฐ์ž‘์˜ ํ™•์žฅ๋„ ํฅ๋ฏธ๋กœ์šด๋ฐ, ์ง‘์„ ์ˆ˜ ์—†๋Š” ํฐ ๋ฌผ์ฒด๋Š” ํƒ๊ตฌ์ฑ„๋กœ ๊ณต ์ณ์„œ ๋ชจ์„œ๋ฆฌ๋กœ ๋–จ์–ด๋œจ๋ฆฌ๋“ฏ ์‚ด์ง ๋ฐ€์–ด ๊ฐ€์žฅ์ž๋ฆฌ์—์„œ ์ง‘๋Š” ์ „๋žต์„ ๋™์ผ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ•™์Šต์‹œ์ผœ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ DexGraspVLA๋Š” โ€œ์„ฌ์„ธํ•œ ํŒŒ์ง€์™€ ๊ทธ ๋„ˆ๋จธโ€๋ฅผ ๊ฒจ๋ƒฅํ•ด, ํ•˜๋‚˜์˜ ์ฒด๊ณ„๋กœ ๋‹ค๋ฐฉ๋ฉด์˜ ๋Šฅ๋ ฅ์„ ์„ ๋ณด์ธ ์ตœ์ดˆ์˜ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์ „ ์ ‘๊ทผ๋ฒ•๋“ค๊ณผ์˜ ๋น„๊ต: ๋ฌด์—‡์ด ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅผ๊นŒ?

DexGraspVLA์˜ ๊ฐ€์น˜๊ฐ€ ๋”์šฑ ๋‘๋“œ๋Ÿฌ์ง€๋Š” ๋ถ€๋ถ„์€, ๊ธฐ์กด์˜ ์„ฌ์„ธํ•œ ํŒŒ์ง€ ์—ฐ๊ตฌ๋“ค๊ณผ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ ๊ธธ์„ ๊ฑธ์—ˆ๋Š”๊ฐ€์ž…๋‹ˆ๋‹ค. ์ด์ œ๊นŒ์ง€ ๋กœ๋ด‡ ๋‹ค๊ด€์ ˆ ์†์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ ์ ‘๊ทผ๋“ค์€ ๋Œ€๋žต ๋ช‡ ๊ฐˆ๋ž˜๋กœ ๋‚˜๋‰˜์—ˆ์Šต๋‹ˆ๋‹ค:

  • (A) ๋ถ„์„์ /์ „ํ†ต์  ๊ธฐ๋ฒ•: ์ดˆ๊ธฐ ๋กœ๋ด‡ ํŒŒ์ง€ ์—ฐ๊ตฌ๋“ค์€ ๋ฌผ์ฒด์˜ 3D ๋ชจ๋ธ์ด๋‚˜ ์œ„์น˜๋ฅผ ์•Œ๊ณ  ์žˆ๋‹ค๋Š” ์ „์ œ ํ•˜์—, ๋ฌผ๋ฆฌ์  ๋ถ„์„์œผ๋กœ ์†๊ฐ€๋ฝ์˜ ์ ‘์ด‰์ ์„ ์ฐพ๊ณ  ์ œ์–ดํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ•˜๊ณค ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฐ ๊ณ„ํš ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ๋ชจ๋ธ์ด ๋‚˜์˜ค๋ฉด ์ฒ˜์Œ๋ถ€ํ„ฐ ์„ค์ •ํ•ด์•ผ ํ•˜๊ณ , ํ™˜๊ฒฝ ๋ณ€ํ™”์— ์‹ค์‹œ๊ฐ„ ๋Œ€์ฒ˜ํ•˜๊ธฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌผ์ฒด๋ฅผ ๊ณต์ค‘์—์„œ ํ•œ ๋ฐ”ํ€ด ๋Œ๋ ค๊ฐ€๋ฉฐ ์Šค์บ”ํ•ด์•ผ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๋„ ์žˆ์—ˆ๋Š”๋ฐ, ์ด๋Š” ํ˜„์‹ค์—์„œ ์ผ์ผ์ด ๊ทธ๋Ÿฐ ์ •๋ณด๋ฅผ ์–ป๊ธฐ ํž˜๋“ค์ฃ . ๋˜ํ•œ ๋ฌผ์ฒด๊ฐ€ ์‚ด์ง ์›€์ง์ด๊ฑฐ๋‚˜ ์‚ฌ๋žŒ ์†์ด ๋ฐฉํ•ดํ•˜๋ฉด ๊ฑฐ์˜ ๋Œ€์‘์ด ๋ถˆ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. DexGraspVLA๋Š” ์ด๋Ÿฐ ๋ฐฉ์‹๊ณผ ๋Œ€์ฒ™์ ์— ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋ฆฌ ๋ฌผ์ฒด๋ฅผ ์•Œ๋ ค์ฃผ์ง€ ์•Š์•„๋„ ์‹œ๊ฐ์ ์œผ๋กœ ์ธ์‹ํ•˜๊ณ , ํ•™์Šต๋œ ์ •์ฑ…์ด ์—ฐ์†์ ์ธ ์„ผ์„œ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•ด ์žก๋Š” ์ค‘๊ฐ„์—๋„ ์‹ค์‹œ๊ฐ„ ์ ์‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ์‚ฌ๋žŒ์˜ ์–ธ์–ด ์ง€์‹œ๋ฅผ ์ดํ•ดํ•ด ๋ชฉํ‘œ๋ฅผ ์ •ํ•˜๋Š” ๋“ฑ, ์ „ํ†ต ๊ธฐ๋ฒ•์œผ๋กœ๋Š” ์ƒ์ƒํ•˜๊ธฐ ์–ด๋ ค์šด ์œ ์—ฐํ•œ ๋Œ€์ฒ˜๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
  • (B) ๋ชจ๋ฐฉํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ: ์ธ๊ฐ„์ด๋‚˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋งŒ๋“  ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋กœ๋ด‡ ํŒŒ์ง€ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” Behavior Cloning, DAGGER ๋“ฑ ์ง€๋„ํ•™์Šต ๋ฐฉ์‹์ด๋‚˜, ์ดฌ์˜๋œ ๋™์˜์ƒ์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐฉ๋ฒ• ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ๋น„๊ต์  ํ˜„์‹ค ํ™˜๊ฒฝ์—์„œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ์šฉ์ดํ•˜๊ณ  ์•ˆ์ „ํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋ฒ—์–ด๋‚˜๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๋ฝํ•˜๋Š” ์•ฝ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค๊ด€์ ˆ ์†์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๊ฒฝ์šฐ, ์ถฉ๋ถ„ํžˆ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ์‹œ์—ฐ์œผ๋กœ ๋ชจ๋‘ ํฌ๊ด„ํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์ฃ . ์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๋žŒ ์‹œ์—ฐ์„ ๋ฐฐ์šด ์–ด๋А ์ •์ฑ…์ด ํŠน์ • ๋ฐ๊ธฐ์˜ ์กฐ๋ช…, ํŠน์ • ํƒ์ž ์œ„์—์„œ๋งŒ ์ž˜ ๋™์ž‘ํ•˜๊ณ , ์กฐ๋ช…์ด ๋ฐ”๋€Œ๋ฉด ์‹คํŒจํ•œ๋‹ค๋ฉด ์“ธ๋ชจ๊ฐ€ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. DexGraspVLA๋Š” ๋ชจ๋ฐฉํ•™์Šต์˜ ๊ธฐ๋ณธ ํ‹€์€ ์œ ์ง€ํ•˜๋˜, ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ํž˜์œผ๋กœ ์ด ๋ฌธ์ œ๋ฅผ ๋ŒํŒŒํ–ˆ์Šต๋‹ˆ๋‹ค. ์•ž์„œ ์„ค๋ช…ํ–ˆ๋“ฏ, DINOv2 ๊ฐ™์€ ๋ชจ๋ธ์ด ์กฐ๋ช…/๋ฐฐ๊ฒฝ ๋ณ€ํ™”์— ๋‘”๊ฐํ•œ ํŠน์ง•์„ ์ฃผ๋‹ˆ, ์‹œ์—ฐ ๋ฐ์ดํ„ฐ 2์‹œ๊ฐ„์น˜๋กœ๋„ ์ˆ˜๋งŽ์€ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์„ ์ปค๋ฒ„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ DexGraspVLA๋Š” ํ›ˆ๋ จ์— ์“ฐ์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ ์ „ํ˜€ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋™์ž‘ํ•จ์œผ๋กœ์จ, โ€œ๋ชจ๋ฐฉํ•™์Šต์€ ๋ฒ”์šฉ์„ฑ์ด ๋–จ์–ด์ง„๋‹คโ€๋Š” ํ†ต๋…์„ ๊นฌ ์…ˆ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ชจ๋ฐฉํ•™์Šต ๋ฐฉ๋ฒ•๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•œ ๋ฒˆ์˜ ์‹œ์—ฐ๋Œ€๋กœ๋งŒ ํ–‰๋™ํ•ด์„œ ์‹คํŒจ ์‹œ ๋ณต๊ตฌ๊ฐ€ ์–ด๋ ค์šด๋ฐ, DexGraspVLA๋Š” ํ”Œ๋ž˜๋„ˆ-์ปจํŠธ๋กค๋Ÿฌ ๊ตฌ์กฐ ๋•์— ์ž˜๋ชป ์žก์•˜์œผ๋ฉด ๋†“๊ณ  ๋‹ค์‹œ ์‹œ๋„ํ•˜๋Š” ์žฌ๊ท€์  ์ „๋žต๊นŒ์ง€ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœ ๋ชจ๋ฐฉํ•™์Šตํ˜• ์ •์ฑ…์ด ๊ฐ–๊ธฐ ํž˜๋“  ์œ ์—ฐ์„ฑ์ž…๋‹ˆ๋‹ค.
  • (C) ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ: ๊ฐ•๋ ฅํ•œ ์ปดํ“จํŒ…์„ ํ™œ์šฉํ•ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์•ˆ์—์„œ ๋กœ๋ด‡ ์†์„ ์ˆ˜์‹ญ์–ต ๋ฒˆ ์›€์ง์ด๋ฉฐ ์ตœ์ ์˜ ์ •์ฑ…์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค. OpenAI์˜ Dactyl์ฒ˜๋Ÿผ ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ•์„ ์“ฐ๋ฉด ํ˜„์‹ค๋กœ๋„ ์–ด๋А ์ •๋„ ์ผ๋ฐ˜ํ™”๋œ ์ •์ฑ…์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๊ณ , ๋˜ ๋‹ค๋ฅธ ์ตœ์‹  ์—ฐ๊ตฌ๋“ค์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ 247,786๊ฐœ์˜ ๊ฐ€์ƒ ๋ฌผ์ฒด๋ฅผ ํ•™์Šต์‹œ์ผœ 512๊ฐœ์˜ ์‹ค์ œ ์ƒˆ ๋ฌผ์ฒด๋„ 94.6% ์„ฑ๊ณต๋ฅ ๋กœ ์žก์•„๋‚ด๋Š” ์‚ฌ๋ก€๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ RL ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์€ ๋ฐ์ดํ„ฐ ๋‹ค์–‘์„ฑ๊ณผ ์ ์‘๋ ฅ ์ธก๋ฉด์— ๊ฐ•์ ์ด ์žˆ์ง€๋งŒ, ํ˜„์‹ค ์ ์šฉ๊นŒ์ง€ ๊ณผ์ •์ด ๋งค์šฐ ๋ณต์žกํ•˜๊ณ  ๋น„์šฉ์ด ํฝ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ์ž˜ ๋งŒ๋“ค์–ด์•ผ ํ•˜๊ณ , ํ•™์Šต์—๋„ ์—„์ฒญ๋‚œ ์‹œ๊ฐ„๊ณผ ํŠœ๋‹์ด ํ•„์š”ํ•˜๋ฉฐ, ์—ฌ์ „ํžˆ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ํ˜„์‹ค์˜ ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๋ฅผ ์™„์ „ํžˆ ๊ทน๋ณตํ•˜์ง€๋Š” ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ง€๊ธˆ๊นŒ์ง€์˜ ๊ฐ•ํ™”ํ•™์Šต ์—ฐ๊ตฌ๋“ค์€ ๋Œ€๊ฐœ ๋‹จ์ผ ๊ณผ์ œ์— ์ดˆ์ ์„ ๋งž์ถฐ์™”์Šต๋‹ˆ๋‹ค. ํŠน์ • ๋ชจ์–‘ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ •์ฑ…์„ ์–ป์œผ๋ฉด ๊ทธ๊ฑฐ ํ•˜๋‚˜๋Š” ์ž˜ํ•˜์ง€๋งŒ, ์ƒˆ๋กœ์šด ๋ชฉํ‘œ(์˜ˆ: ๋‹ค๋ฅธ ๋ชจ์–‘ ๋ฌผ์ฒด ๋˜๋Š” ์—ฌ๋Ÿฌ ๊ฐœ ์ˆœ์ฐจ ์ง‘๊ธฐ ๋“ฑ)์—๋Š” ๋‹ค์‹œ ํ›ˆ๋ จํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด DexGraspVLA๋Š” ์• ์ดˆ์— ํ˜„์‹ค ์„ธ๊ณ„ ๋ฐ์ดํ„ฐ(์ธ๊ฐ„ ๋ฐ๋ชจ)๋กœ ํ•™์Šต๋˜์—ˆ๊ณ , ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ „์ด๋ฅผ ํ•˜์ง€ ์•Š์•„๋„ ๋ฐ”๋กœ ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•˜๋‚˜์˜ ์ •์ฑ…/๊ตฌ์กฐ๋กœ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋””์ž์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์ด์ „๊นŒ์ง€๋Š” โ€œ๊ณต์„ ์ง‘์–ด ์ƒ์ž์— ๋„ฃ๊ธฐโ€๋ฅผ ํ’€๊ณ  ๋‚˜๋ฉด โ€œ์ปต์„ ์ง‘์–ด ์Ÿ๋ฐ˜์— ์˜ฌ๋ฆฌ๊ธฐโ€๋Š” ๋ณ„๊ฐœ์˜ ํ•™์Šต์„ ์š”ํ•˜๋Š” ์‹์ด์—ˆ์ง€๋งŒ, DexGraspVLA๋Š” ์–ธ์–ด ์ง€์‹œ๋งŒ ๋‹ค๋ฅด๊ฒŒ ์ฃผ๋ฉด ๋น„์Šทํ•œ ์›๋ฆฌ๋กœ ์‹คํ–‰ํ•ด๋ƒ…๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๊ฐ•ํ™”ํ•™์Šต ์ ‘๊ทผ๊ณผ ๋Œ€๋น„๋˜๋Š” ๋ฒ”์šฉ์„ฑ์˜ ํš๋“์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • (D) ๋น„์ „ ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ํŒŒ์ดํ”„๋ผ์ธ: ํ•œํŽธ ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์—์„œ๋Š” ํ•™์Šต๋ณด๋‹ค๋Š” ๊ฒ€์ถœ + ๊ณ„ํš ์กฐํ•ฉ์œผ๋กœ ํŒŒ์ง€๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ์‹ค์šฉ์  ํŒŒ์ดํ”„๋ผ์ธ๋„ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌผ์ฒด ์ธ์‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋ชฉํ‘œ ๋ฌผ์ฒด๋ฅผ ์ฐพ์•„๋‚ด๊ณ , ๊ฒฝ๋กœ ๊ณ„ํš์œผ๋กœ ๋กœ๋ด‡ ํŒ”์„ ์›€์ง์—ฌ ์‚ฌ์ „ ์ •์˜๋œ ๊ทธ๋ฆฝ ํฌ์ฆˆ๋กœ ์žก๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐฉ์‹์€ ์‚ฐ์—…์šฉ ๋กœ๋ด‡์— ํ”ํžˆ ์“ฐ์ด๋Š”๋ฐ, ๋‹ค๋งŒ ์‚ฌ์ „์— ๋ชจ๋ธ๋ง๋œ ๋ฌผ์ฒด๋‚˜ ์ •ํ•ด์ง„ ๊ทธ๋ฆฝ ๋ฐฉ์‹์— ์˜์กดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋‚˜ ๋ณต์žกํ•œ ์†์žฌ์ฃผ์—๋Š” ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋˜ ๋‹ค๊ด€์ ˆ ์†์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๊ทธ๋ฆฝ์—๋Š” ๋‹จ์ˆœ ๊ฒฝ๋กœ๊ณ„ํš์œผ๋กœ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. DexGraspVLA๋Š” ๊ฒ‰๋ณด๊ธฐ์— โ€œ๋ฌผ์ฒด ํƒ์ง€ + ์žก๊ธฐโ€๋กœ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ฐจ์ด๋Š” ํƒ์ง€๋ถ€ํ„ฐ ์ œ์–ด๊นŒ์ง€ ๋ชจ๋‘ ํ•™์Šต๋œ ๋ชจ๋“ˆ๋กœ ์ด๋ค„์กŒ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์˜คํ”ˆ-์…‹ ๋ฌผ์ฒด ์ธ์‹์„ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ๋กœ ๊ตฌํ˜„ํ•œ ์ ์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๊ธฐ์กด ํŒŒ์ดํ”„๋ผ์ธ์€ ์ธ์‹ํ•  ๋ฌผ์ฒด ์ข…๋ฅ˜๋ฅผ ๋ฏธ๋ฆฌ ์ •ํ•ด์•ผ ํ–ˆ๋‹ค๋ฉด, DexGraspVLA๋Š” ์–ด๋–ค ๋ฌผ์ฒด๋“  ์‚ฌ์šฉ์ž ์ง€์‹œ์— ๋‚˜์˜จ ๋‹จ์–ด๋กœ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์ฟ ํ‚ค ํ†ต์„ ์žก์•„โ€๋ผ๊ณ  ํ•˜๋ฉด ์ฟ ํ‚ค ๊ทธ๋ฆผ์ด ์žˆ๋Š” ์›ํ†ตํ˜• ์ƒ์ž๋ฅผ, โ€œ์ฑ…์„ ์ง‘์–ดโ€๋ผ๋ฉด ์‚ฌ๊ฐํ˜• ์ฑ…์„ ์ธ์‹ํ•˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ฒ”์šฉ ๋ฌผ์ฒด ์ธ์‹ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ ๋•๋ถ„์ด๋ฉฐ, ์ „ํ†ต์  ๋ฐฉ๋ฒ•๊ณผ ํฐ ์ฐจ๋ณ„์ ์ž…๋‹ˆ๋‹ค.

์œ„์˜ ๋น„๊ต๋ฅผ ์š”์•ฝํ•˜๋ฉด, DexGraspVLA = (๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ํ’€์ง€ ๋ชปํ•œ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ) โ€“ ํŠนํžˆ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒดยทํ™˜๊ฒฝ + ์ž์—ฐ์–ด ์ง€์‹œ + ๋‹ค๋‹จ๊ณ„ ์ž‘์—… โ€“๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฑฐ๋Œ€ ์‚ฌ์ „์ง€์‹ ๋ชจ๋ธ + ๊ณ„์ธต์  ํ•™์Šต ๊ตฌ์กฐ๋ผ๋Š” ์ƒˆ๋กœ์šด ์กฐํ•ฉ์„ ์„ ๋ณด์ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋Š” ๋งค์šฐ ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค. ์ˆ˜์ฒœ ๊ฐ€์ง€์˜ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”, ํ•œ์ž๋ฆฌ ์ˆ˜ ์‹œ๊ฐ„์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ๋‹ฌ์„ฑํ•œ ๊ณ ์„ฑ๋Šฅ, ๊ทธ๋ฆฌ๊ณ  ์ด์งˆ์ ์ธ ๊ธฐ๋Šฅ๋“ค์„ ํ•˜๋‚˜์˜ ์‹œ์Šคํ…œ์œผ๋กœ ํ†ตํ•ฉํ•œ ์œตํ•ฉ์„ฑ์ด์ฃ . ํŠนํžˆ ๋กœ๋ด‡๊ณตํ•™ ์—”์ง€๋‹ˆ์–ด์˜ ๊ด€์ ์—์„œ, DexGraspVLA๋Š” โ€œ๋Œ€ํ•™์Šต๋œ AI ๋ชจ๋ธ์˜ ์ง€์‹์„ ์‹ค์ œ ๋กœ๋ด‡ ๊ธฐ์ˆ ์— ํˆฌ์ž…ํ•˜๋ฉด ์–ด๋–ค ์ผ์ด ๋ฒŒ์–ด์ง€๋Š”๊ฐ€โ€์— ๋Œ€ํ•œ ํ•˜๋‚˜์˜ ํ•ด๋‹ต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ์€ ๋‹จ์ˆœํžˆ ์„ฑ๋Šฅ ์ˆซ์ž๋ฅผ ๋†’์ธ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋กœ๋ด‡์—๊ฒŒ ํ•„์š”ํ•œ ์ง€๋Šฅ์˜ ๊ตฌ์กฐ๋ฅผ ์žฌ๊ณ ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์ˆ˜์ค€์˜ ์ธ์ง€์™€ ๊ณ„ํš์€ ์ธ๊ฐ„์ด ๋งŒ๋“  AI๋ชจ๋ธ์—๊ฒŒ partly ๋งก๊ธฐ๊ณ , ๋กœ๋ด‡์€ ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ€์กฑํ•œ ๋ถ€๋ถ„๋งŒ ํ•™์Šตํ•˜๋ฉด ๋˜๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋งˆ์น˜ ์‹ ์ž… ์—”์ง€๋‹ˆ์–ด๊ฐ€ ๋ฐฉ๋Œ€ํ•œ ๋ฐฑ๊ณผ์‚ฌ์ „๊ณผ ์„ ๋ฐฐ๋“ค์˜ ํŒ์„ ์ฐธ๊ณ ํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ๊ณผ๋„ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋•๋ถ„์— ์ ์€ ๊ฒฝํ—˜์œผ๋กœ๋„ ํ’๋ถ€ํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๊ฒƒ์ด์ฃ .

๊ฒฐ๋ก : ์„ฌ์„ธํ•œ ๊ทธ๋ฆฝ์˜ ๋ฏธ๋ž˜๋ฅผ ํ–ฅํ•˜์—ฌ

DexGraspVLA๋Š” ๋ฒ”์šฉ ๋กœ๋ด‡ ํŒŒ์ง€๋ฅผ ํ–ฅํ•œ ์—ฌ์ •์—์„œ ์˜๋ฏธ์‹ฌ์žฅํ•œ ์ด์ •ํ‘œ๋ฅผ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜์ž๋ฉด, ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ณ„์ธต์  ๋น„์ „-์–ธ์–ด-์•ก์…˜ ์„ค๊ณ„, ๊ฑฐ๋Œ€ ๋ชจ๋ธ ํ™œ์šฉ์„ ํ†ตํ•œ ์ผ๋ฐ˜ํ™”, ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜์˜ ์ •๊ตํ•œ ์ œ์–ด, ๊ทธ๋ฆฌ๊ณ  ์ข…ํ•ฉ์ ์ธ ๊ฒฌ๊ณ ์„ฑ ์‹ค์ฆ์„ ํ†ตํ•ด ํ˜„์žฌ๊นŒ์ง€ ๋ณด๊ณ ๋œ ๊ฒƒ ์ค‘ ๊ฐ€์žฅ ์ข…ํ•ฉ์ ์œผ๋กœ ๊ฐ•์ธํ•œ ๋‹ค๊ด€์ ˆ ํŒŒ์ง€ ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŒŒ์ธ๋งŒ์ด ๊ทธ๋žฌ๋“ฏ ๋ณต์žกํ•œ ๊ฐœ๋…๋„ ์‰ฝ๊ฒŒ ํ’€์–ด ๋งํ•ด๋ณธ๋‹ค๋ฉด, DexGraspVLA๋Š” โ€œ๋กœ๋ด‡์—๊ฒŒ ๋ˆˆ๊ณผ ๊ท€(๋น„์ „-์–ธ์–ด ๋ชจ๋ธ)๋ฅผ ๋‹ฌ์•„์ฃผ๊ณ , ๊ทธ ๋ˆˆ๊ณผ ๊ท€๋กœ๋ถ€ํ„ฐ ์ง€ํ˜œ๋ฅผ ์–ป์–ด ์†๊ฐ€๋ฝ์„ ๋†€๋ฆฌ๋Š” ๋ฐฉ๋ฒ•โ€์„ ํ„ฐ๋“ํ•˜๊ฒŒ ํ•œ ์…ˆ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  ์ด ์—ฐ๊ตฌ๊ฐ€ ๋์€ ์•„๋‹™๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ๋‚จ์€ ๋„์ „๋“ค๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‹ค์‹œ๊ฐ„ ๋Œ€ํ™” ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์‚ฌ๋žŒ๊ณผ ํ˜‘์—…ํ•˜๋ฉด์„œ ๋ฌผ์ฒด๋ฅผ ์ฃผ๊ณ ๋ฐ›๋Š”๋‹ค๊ฑฐ๋‚˜, ๋”์šฑ ๋‹ค์–‘ํ•œ ๋น„์ •ํ˜• ์กฐ์ž‘(๋น„ํ‹€๊ธฐ, ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ)์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ณผ์ œ ๋“ฑ์ด ์žˆ๊ฒ ์ง€์š”. ํ•˜์ง€๋งŒ DexGraspVLA๊ฐ€ ๋ณด์—ฌ์ค€ 90%๋Œ€์˜ ๊ฒฌ๊ณ ํ•œ ์„ฑ๋Šฅ๊ณผ ์œ ์—ฐํ•œ ๋ฌธ์ œํ•ด๊ฒฐ ๋Šฅ๋ ฅ์€, ๋กœ๋ด‡๊ณตํ•™์ž๋“ค์—๊ฒŒ ์ƒˆ๋กœ์šด ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค. ์ด์ œ ์šฐ๋ฆฌ๋Š” โ€œ๊ฑฐ๋Œ€ AI์™€ ๋กœ๋ด‡์˜ ๋งŒ๋‚จโ€์ด ์–ผ๋งˆ๋‚˜ ๊ฐ•๋ ฅํ•œ ์‹œ๋„ˆ์ง€๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋Š”์ง€ ๋ชฉ๊ฒฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธ€์„ ์ฝ๋Š” ๋…์ž ์—ฌ๋Ÿฌ๋ถ„๋„, ์•„๋งˆ ๊ฐ€๊นŒ์šด ๋ฏธ๋ž˜์—” ์ด๋Ÿฐ ์›๋ฆฌ๊ฐ€ ์ ์šฉ๋œ ๋กœ๋ด‡ ์†์ด ์ผ์ƒ ์†์—์„œ ๋Šฅ์ˆ™ํ•˜๊ฒŒ ๋ฌผ๊ฑด์„ ์ง‘๊ณ  ๋‹ค๋ฃจ๋Š” ๋ชจ์Šต์„ ๋ณด๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๊ฒƒ์„ ๋‹จ์ˆœํ•˜๊ณ  ๋ช…์พŒํ•˜๊ฒŒ ํ’€์–ด๋‚ด๋Š” ์ง€ํ˜œ, ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋ฅผ ํ†ตํ•œ ๊ธฐ์ˆ ์˜ ๋„์•ฝ โ€“ DexGraspVLA๊ฐ€ ๋ฐ”๋กœ ๊ทธ๋Ÿฐ Feynman-esque ํ˜์‹ ์˜ ํ•œ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ๋“ค์ด ์ด ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์† ๋ฐœ์ „ํ•ด, ๋”์šฑ ๋˜‘๋˜‘ํ•˜๊ณ  ๋ฏฟ์Œ์งํ•œ ๋กœ๋ด‡ ์†์ด ํƒ„์ƒํ•˜๊ธธ ๊ธฐ๋Œ€ํ•ด๋ด…๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee