Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • 1. ์„œ๋ก : ์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?
    • 2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ œ ์ •์˜
      • 2.1 ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„
      • 2.2 ํ•ต์‹ฌ ํ†ต์ฐฐ: ํŒ”๊ณผ ์†์˜ ๊ทผ๋ณธ์  ์ฐจ์ด
    • 3. ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก : Shared Autonomy ํ”„๋ ˆ์ž„์›Œํฌ
      • 3.1 ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”
      • 3.2 DexGrasp-VLA: ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์ž์œจ ํŒŒ์ง€ ์ •์ฑ…
      • 3.3 Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘
      • 3.4 End-to-End ํŒ”-์† VLA ์ •์ฑ… ํ•™์Šต
      • 3.5 Corrective Human-in-the-Loop Teleoperation
    • 4. ์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„
      • 4.1 ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ
      • 4.2 ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ
      • 4.3 ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ
      • 4.4 Ablation Study ๊ฒฐ๊ณผ
    • 5. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ˜์‹ ์  ๋ถ„์„
      • 5.1 ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ
      • 5.2 ์„ค๊ณ„ ์ฒ ํ•™ ๊ด€์ ์—์„œ์˜ ๋ถ„์„
      • 5.3 ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ๊ณ ์ฐฐ
    • 6. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
      • 6.1 ํ˜„์žฌ ํ•œ๊ณ„
      • 6.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 7. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต ๋ถ„์„
      • 7.1 ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ์˜ ์ฐจ๋ณ„์ 
      • 7.2 ์ด‰๊ฐ VLA ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 
    • 8. ๊ฒฐ๋ก 
  • โ›๏ธ Dig Review
    • 1. ๊ธฐ์ˆ  ๋ฐฐ๊ฒฝ
      • 1.1 VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜
      • 1.2 Vision-Language-Action (VLA) ์ •์ฑ…
      • 1.3 Shared Autonomy (๊ณต์œ  ์ž์œจ์ œ์–ด)
    • 2. ๋…ผ๋ฌธ ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก 
      • 2.1 ์ „์ฒด ์‹œ์Šคํ…œ ๊ฐœ์š”
      • 2.2 DexGrasp-VLA: ์ž์œจ ์† ๋™์ž‘ AI ์ฝ”ํŒŒ์ผ๋Ÿฟ
      • 2.3 VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ (Shared Autonomy)
      • 2.4 Arm-Hand Feature Enhancement ๋ชจ๋“ˆ๊ณผ End-to-End VLA ํ•™์Šต
      • 2.5 ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ์ •์ฑ… ๊ฐœ์„ 
    • 3. ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„
      • 3.1 ์‹คํ—˜ ํ™˜๊ฒฝ ๋ฐ ์„ค์ •
      • 3.2 ์ข…ํ•ฉ ์„ฑ๋Šฅ ํ‰๊ฐ€ (์„ฑ๊ณต๋ฅ  ๋ฐ ์ผ๋ฐ˜ํ™”)
      • 3.3 ์ •์„ฑ์  ๊ฒฐ๊ณผ: ์˜ˆ์‹œ์™€ ์‹œ๊ฐํ™”
      • 3.4 ์š”์ธ ๋ถ„์„: Ablation ์‹คํ—˜
    • 4. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ

๐Ÿ“ƒDexGrasp-VLA ๋ฆฌ๋ทฐ

teleop
vla
dexterity
End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy - VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection
Published

December 18, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link + Supplementary
  • Project
  1. ๐Ÿค– ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„์ด ํŒ”์„ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์กฐ์ž‘ํ•˜๊ณ  ์ž์œจ์ ์ธ DexGrasp-VLA ์ •์ฑ…์ด ์†์„ ์ œ์–ดํ•˜๋Š” Shared Autonomy ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ํšจ์œจ์ ์ธ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  2. ๐Ÿฆพ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ์ œ์•ˆ๋œ Arm-Hand Feature Enhancement module์€ ํŒ”๊ณผ ์†์˜ ์›€์ง์ž„์— ๋Œ€ํ•œ ๊ณ ์œ ํ•œ ํŠน์ง•๊ณผ ๊ณต์œ ๋œ ํ‘œํ˜„์„ ๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ๋” ๋ถ€๋“œ๋Ÿฝ๊ณ  ๊ฒฌ๊ณ ํ•œ ์•”-ํ•ธ๋“œ ์กฐ์ •์„ ์ œ๊ณตํ•˜๋Š” VLA ์ •์ฑ…์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
  3. โ™ป๏ธ ๋˜ํ•œ, Corrective Teleoperation ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์ธ๊ฐ„์˜ ๊ฐœ์ž…์œผ๋กœ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ๋ณต๊ตฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ฐ•ํ•˜์—ฌ ์ •์ฑ…์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ 50๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด์— ๋Œ€ํ•ด ์•ฝ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ๋…ผ๋ฌธ์€ ์ผ๋ฐ˜์ ์ธ ๋กœ๋ด‡์˜ dexterous manipulation (์ •๊ตํ•œ ์กฐ์ž‘)์ด ์—ฌ์ „ํžˆ ์–ด๋ ค์šด ๊ณผ์ œ์ž„์„ ์ง€์ ํ•˜๋ฉฐ, ํŠนํžˆ ๋กœ๋ด‡ ํŒ”๊ณผ ์†์˜ seamlessํ•œ coordination (์›ํ™œํ•œ ์กฐ์œจ) ํ•™์Šต์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด VLA (Vision-Language-Action) ๋ชจ๋ธ์ด ์œ ๋งํ•˜์ง€๋งŒ, ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์ด ํ™•์žฅ์„ฑ์„ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์™„์ „ ์ˆ˜๋™ teleoperation์€ ์ธ๊ฐ„ ์ž‘์—…์ž์—๊ฒŒ ๊ณผ๋„ํ•œ ์ธ์ง€ ๋ถ€ํ•˜๋ฅผ ์ฃผ์–ด ์„ธ์…˜ ์ง€์† ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•˜๊ณ , ์ž๋™ํ™”๋œ planning์€ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ์›€์ง์ž„์„ ์ƒ์„ฑํ•˜๊ณ  ๊ธฐ์ˆ ์ ์ธ ์กฐ์ž‘ ํ•™์Šต์— suboptimalํ•œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ๋…ผ๋ฌธ์€ Shared Autonomy framework๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” macro motion (๋กœ๋ด‡ ํŒ”)๊ณผ micro motion (๋กœ๋ด‡ ์†) ์˜์—ญ์— ๋”ฐ๋ผ ์ œ์–ด ๊ถŒํ•œ์„ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์ž‘์—…์ž๋Š” VR (Virtual Reality) teleoperation์„ ํ†ตํ•ด ๋กœ๋ด‡ end-effector (๋ง๋‹จ ์žฅ์น˜)์˜ ์›€์ง์ž„์„ ์ง๊ด€์ ์œผ๋กœ ์•ˆ๋‚ดํ•˜๊ณ , ์ž์œจ์ ์ธ DexGrasp-VLA ์ •์ฑ…์€ ์‹ค์‹œ๊ฐ„ ์ด‰๊ฐ ๋ฐ ๋กœ์ปฌ ์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์‚ฌ์šฉํ•˜์—ฌ fine-grained (๋ฏธ์„ธํ•˜๊ณ  ์ •๊ตํ•œ)ํ•˜๊ณ  force-adaptive (ํž˜ ์กฐ์ ˆ์ด ๊ฐ€๋Šฅํ•œ) ์† ์ œ์–ด๋ฅผ Copilot์œผ๋กœ์„œ ๋ณด์กฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ญํ•  ๋ถ„๋‹ด์€ ์ธ๊ฐ„์˜ ์ธ์ง€ ๋ถ€ํ•˜๋ฅผ ํฌ๊ฒŒ ์ค„์ด๊ณ , ์ •์‹ ์  ํ”ผ๋กœ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ๊ณ ํ’ˆ์งˆ์˜ coordinated arm-hand demonstration (์กฐ์œจ๋œ ํŒ”-์† ์‹œ์—ฐ) ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์ˆ˜์ง‘๋œ demonstration ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋ณธ ๋…ผ๋ฌธ์€ Arm-Hand Feature Enhancement module๋กœ ๊ฐ•ํ™”๋œ end-to-end VLA ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜๋Š” macro (ํŒ”) ๋ฐ micro (์†) ์›€์ง์ž„์˜ ๋šœ๋ ทํ•œ ์ž ์žฌ ํŠน์ง•๊ณผ ๊ณต์œ ๋œ ํ‘œํ˜„์„ ๋ช…์‹œ์ ์œผ๋กœ ํฌ์ฐฉํ•˜์—ฌ, ๋”์šฑ ๋ถ€๋“œ๋Ÿฝ๊ณ  ๊ฒฌ๊ณ ํ•œ ํŒ”-์† ์กฐ์œจ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, Corrective Teleoperation system์€ human-in-the-loop (์ธ๊ฐ„ ๊ฐœ์ž…ํ˜•) ์‹คํŒจ ๋ณต๊ตฌ ๋ฐ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ํ†ตํ•ด ์ง€์†์ ์ธ ์ •์ฑ… ๊ฐœ์„ ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. DexGrasp-VLA: Autonomous Dexterous Grasping Policy (์ž์œจ์ ์ธ ์ •๊ตํ•œ ์žก๊ธฐ ์ •์ฑ…)
    • Force-Adaptive Grasping Policy Learned by LSTM: ๋จผ์ € โ€œblindโ€ (์‹œ๊ฐ ์ •๋ณด ์—†์ด) LSTM ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ํ•™์Šต์‹œ์ผœ ์ด‰๊ฐ ๋ฐ ๊ณ ์œ  ์ˆ˜์šฉ์„ฑ ํ”ผ๋“œ๋ฐฑ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฌ๊ณ ํ•œ ํž˜ ์กฐ์ ˆ ์žก๊ธฐ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
      • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ๋‘ ๊ฐ€์ง€ ๋ณด์™„์ ์ธ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค:
        • Force-Adaptive Position Control: ํŒŒ๋ผ๋ฏธํ„ฐ ๊ธฐ๋ฐ˜์˜ rule-based ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 50Hz๋กœ compliant grasping (์ˆœ์‘์ ์ธ ์žก๊ธฐ)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋‹จ๊ณ„ i์—์„œ ๋ช…๋ น์–ด q_c(i)๋Š” q_c(i) = q_m(i) + q(0) \cdot e^{-k \cdot f_z(i)}๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ q_m(i)๋Š” ์ธก์ •๋œ joint position, q(0)๋Š” ์ดˆ๊ธฐ position, k๋Š” ์žก๋Š” ํž˜์„ ์กฐ์ ˆํ•˜๋Š” gain, f_z(i)๋Š” fingertip์˜ resultant normal force (ํ•ฉ๋ ฅ ์ˆ˜์ง๋ ฅ)์ž…๋‹ˆ๋‹ค.
        • Human Teleoperation via Retargeting: Leap Motion ์„ผ์„œ๋กœ ์ธ๊ฐ„ ์† ์›€์ง์ž„์„ ์บก์ฒ˜ํ•˜์—ฌ 12-DoF Xhand์— retargetingํ•˜์—ฌ ์ „์ฒด ์žก๊ธฐ ์‹œํ€€์Šค๋ฅผ 50Hz๋กœ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค.
      • LSTM ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ•™์Šต: Behavior Cloning์„ ํ†ตํ•ด LSTM ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ž…๋ ฅ์€ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„ t์—์„œ x_t = [s_{hand}^t, f_{hand}^t] \in R^{39}์ด๋ฉฐ, s_t = [q_{hand}^t, \tau_{hand}^t] \in R^{24}๋Š” ๊ณ ์œ  ์ˆ˜์šฉ์„ฑ ์ƒํƒœ, f_{hand}^t \in R^{15}๋Š” fingertip tactile array์—์„œ ์ธก์ •๋œ ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค. ๊ธธ์ด T์˜ sliding window๊ฐ€ ์‹œํ€€์Šค ์ž…๋ ฅ X = [x_{t-T+1}, \dots, x_t] \in R^{T \times 39}๋ฅผ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋Š” ์˜ˆ์ธก๋œ ํ–‰๋™๊ณผ ์‹œ์—ฐ๋œ ํ–‰๋™ ๊ฐ„์˜ MSE (Mean Squared Error)์™€ L2 regularization์˜ ํ•ฉ์ž…๋‹ˆ๋‹ค: L = \frac{1}{N} \sum_{i=1}^N \left\| a_t^{(i)} - \hat{a}_t^{(i)} \right\|_2^2 + \lambda \left\| \Theta \right\|_2^2.
    • Tactile-based DexGrasp-VLA \pi_{hand}: LSTM ์ •์ฑ…์˜ ์‹œ๊ฐ ์ธ์‹ ๋ถ€์กฑ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด, LSTM ์ •์ฑ…์ด ์ž์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ๊ฐ ๋ฐ ์ด‰๊ฐ ์„ผ์‹ฑ์„ ํ†ตํ•ฉํ•˜๋Š” multimodal VLA ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.
      • Tactile Feature Extraction: raw tactile reading์ธ F_{raw} \in R^{10 \times 12 \times 3} (fingertip๋‹น)๋ฅผ ์ง์ ‘ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€์‹ , ๋‘ ๊ฐ€์ง€ ๋ณด์™„์ ์ธ ์ด‰๊ฐ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค:
        • Resultant force vector (f_{tac-ft} \in R^{5 \times 3}): ๊ฐ fingertip ์„ผ์„œ ๋ฐฐ์—ด์˜ ํž˜ ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ํ•ฉ์‚ฐํ•˜์—ฌ ์–ป์Šต๋‹ˆ๋‹ค.
        • Spatial tactile embedding (f_{tac-st} \in R^{5 \times 128}): Convolutional Autoencoder (CAE)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ fingertip์˜ ๊ณต๊ฐ„-ํž˜ ๊ด€๊ณ„๋ฅผ ์••์ถ•๋œ ์ž ์žฌ ํ‘œํ˜„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค. CAE๋Š” ์žฌ๊ตฌ์„ฑ ์†์‹ค L_{recon} = \frac{1}{3HW} \sum_{c \in \{x,y,z\}} \sum_{i=1}^H \sum_{j=1}^W \left( F_{c,ij} - \hat{F}_{c,ij} \right)^2์„ ์ตœ์†Œํ™”ํ•˜๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.
      • Grasping VLA Policy Learning: ์ถ”์ถœ๋œ ์ด‰๊ฐ ํŠน์ง•์„ VLA ํ”„๋ ˆ์ž„์›Œํฌ์— ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. f_{tac-ft}์™€ f_{tac-st}๋ฅผ MLP๋ฅผ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ z_{tac-ft}์™€ z_{tac-st}๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ์€ in-hand ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€ I_{hand}^t, ์–ธ์–ด ๋ช…๋ น l^t, ๊ณ ์œ  ์ˆ˜์šฉ์„ฑ ์† ์ƒํƒœ q_{hand}^t๋ฅผ ํฌํ•จํ•œ ๋‹ค๋ฅธ ๊ฐ๊ฐ ์–‘์‹์˜ ์ž„๋ฒ ๋”ฉ๊ณผ ์œตํ•ฉ๋ฉ๋‹ˆ๋‹ค. ์ „์ฒด ๊ด€์ธก ๊ณต๊ฐ„์€ o_{hand}^t = \langle I_{hand}^t, l^t, q_{hand}^t, z_{tac-ft}, z_{tac-st} \rangle๋กœ ์ •์‹ํ™”๋ฉ๋‹ˆ๋‹ค. ์ •์ฑ… \pi_{hand}(A_{hand}^t | o_{hand}^t)๋Š” ์ด๋Ÿฌํ•œ multimodal ๊ด€์ธก์„ ์‚ฌ์šฉํ•˜์—ฌ ์† ๋™์ž‘ ์‹œํ€€์Šค A_{hand}^t๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
  2. Shared Autonomy for Data Collection (๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์œ„ํ•œ ๊ณต์œ  ์ž์œจ์„ฑ)
    • ์ธ๊ฐ„ ์ž‘์—…์ž๋Š” VR ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด ๋กœ๋ด‡ ํŒ”์˜ end-effector๋ฅผ teleoperateํ•˜์—ฌ obstacle-avoidant (์žฅ์• ๋ฌผ ํšŒํ”ผ) ๋„๋‹ฌ ๋ฐ ํฌ์ง€์…”๋‹์„ ๋‹ด๋‹นํ•˜๊ณ , ์‚ฌ์ „ ํ•™์Šต๋œ DexGrasp-VLA ์ •์ฑ…์€ ์ž์œจ์ ์œผ๋กœ dexterous hand๋ฅผ ์ œ์–ดํ•˜์—ฌ ๋ฏธ์„ธํ•œ ์žก๊ธฐ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • VR-Based Arm Teleoperation System: XRoboToolkit ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ relative motion mapping (์ƒ๋Œ€ ์šด๋™ ๋งคํ•‘) ์ œ์–ด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํŒ”์˜ end-effector ์ถ”์ ์€ VR ์ปจํŠธ๋กค๋Ÿฌ์˜ grip button์œผ๋กœ ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์˜ ํƒ€๊ฒŸ ํฌ์ฆˆ๋Š” T_{robot,t} = T_{robot,0} \cdot (T_{VR,0}^{-1} \cdot T_{VR,t})๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค. Inverse Kinematics (IK) solver (์†๋„ ์ˆ˜์ค€ Quadratic Program (QP)์œผ๋กœ ์ •์‹ํ™”)๋Š” ์ด ํƒ€๊ฒŸ ํฌ์ฆˆ๋กœ๋ถ€ํ„ฐ ํƒ€๊ฒŸ joint angle์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. joint velocity \dot{q}๋ฅผ ์ตœ์ ํ™” ๋ณ€์ˆ˜๋กœ ์‚ฌ์šฉํ•˜์—ฌ \min_{\dot{q}} \sum_{i=1}^N w_i \|J_i(q)\dot{q} + e_i(q)\|_2๋ฅผ ๋งŒ์กฑํ•˜๋Š” ํ•ด๋ฅผ ์ฐพ์Šต๋‹ˆ๋‹ค.
    • Coordinated Arm-Hand Data Collection: ์ธ๊ฐ„ teleoperation (90Hz)๊ณผ ์ž์œจ ์ •์ฑ… ์‹คํ–‰ (30Hz)์„ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉํ•˜๋Š” multi-thread ์ œ์–ด ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ์…‹ D_{uni} = \{ (o_{uni}^t, a_{arm}^t, a_{hand}^t) \}_{t=1}^T๋Š” ์‹œ๊ฐ„ ๋™๊ธฐํ™”๋œ ๊ด€์ธก ๋ฐ ํ–‰๋™์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ o_{uni}^t = [I^t, l^t, q_{arm}^t, q_{hand}^t]์ž…๋‹ˆ๋‹ค.
  3. Learning End-to-End Arm-Hand VLA Policy \pi_{uni} (End-to-End ํŒ”-์† VLA ์ •์ฑ… ํ•™์Šต)
    • Shared Autonomy๋ฅผ ํ†ตํ•ด ์ˆ˜์ง‘๋œ arm-hand demonstration ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์‚ฌ์ „ ํ•™์Šต๋œ VLA ๋ชจ๋ธ์˜ SFT (Supervised Fine-Tuning)๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ arm-hand coordinated (ํŒ”-์† ์กฐ์œจ๋œ) dexterous grasping ์ •์ฑ… \pi_{uni}(A_{uni}^t | o_{uni}^t)๋ฅผ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.
    • Arm-Hand Feature Enhancement: ๊ธฐ์กด \pi_0 ๋ชจ๋ธ์€ multi-modal ๊ด€์ธก์„ ๊ณต์œ ๋œ ์ž‘์—… ํ‘œํ˜„ z_{share}^t \in R^{d_s}๋กœ ์ธ์ฝ”๋”ฉํ•˜์ง€๋งŒ, ํŒ”๊ณผ ์† ์›€์ง์ž„์˜ ๋šœ๋ ทํ•œ ์šด๋™ํ•™ ๋ฐ ๋™์—ญํ•™์„ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด z_{share}^t๋ฅผ ๋‘ ๊ฐœ์˜ ์ „์šฉ MLP (E_{arm} ๋ฐ E_{hand})๋ฅผ ํ†ตํ•ด limb-specific (์‚ฌ์ง€๋ณ„) ์ž ์žฌ ํŠน์ง• z_{arm}^t \in R^{d_a} ๋ฐ z_{hand}^t \in R^{d_h}๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋ณด์กฐ ์˜ˆ์ธก ํ—ค๋“œ (H_{arm} ๋ฐ H_{hand})๋Š” ํ•ด๋‹น ํŠน์ง•์œผ๋กœ๋ถ€ํ„ฐ sub-action \hat{A}_{arm}^t ๋ฐ \hat{A}_{hand}^t๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ํ–‰๋™ ์˜ˆ์ธก์„ ์œ„ํ•ด, ์ฃผ ํ–‰๋™ ํ—ค๋“œ H_{main}๋Š” ์œตํ•ฉ๋œ ํ‘œํ˜„ z_{fused}^t = [z_{share}^t, z_{arm}^t, z_{hand}^t]๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ†ตํ•ฉ๋œ ํ–‰๋™ \hat{A}_{uni} = [\hat{A}_{arm}^t, \hat{A}_{hand}^t]์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.
    • Learning Objective: ์ฃผ ์กฐ์œจ ์†์‹ค๊ณผ ๋‘ ๊ฐœ์˜ ๋ณด์กฐ ์†์‹ค์„ ๊ฒฐํ•ฉํ•œ ๋ณตํ•ฉ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
      • Main Loss: ์กฐ๊ฑด๋ถ€ flow matching์—์„œ ํŒŒ์ƒ๋˜๋ฉฐ, ์ „์ฒด ํ–‰๋™ ์‹œํ€€์Šค A_{uni} = (A_{arm}^t, A_{hand}^t)์— ์ ์šฉ๋ฉ๋‹ˆ๋‹ค: L_{\tau}^{main}(\theta) = E \left[ \left\| H_{main}(z_{fused}^t) - u(A_{\tau,uni} | A_{uni}) \right\|^2 \right].
      • Auxiliary Expert Losses: ํŒ”๊ณผ ์†์˜ disentanglement (๋ถ„๋ฆฌ) ๋ฐ specialization (ํŠนํ™”)๋ฅผ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค: L_{\tau}^{hand}(\theta) = E \left[ \left\| H_{hand}(z_{hand}^t) - u_{hand}(A_{\tau,hand}^t | A_{hand}^t) \right\|^2 \right] ๋ฐ L_{\tau}^{arm}(\theta) = E \left[ \left\| H_{arm}(z_{arm}^t) - u_{arm}(A_{\tau,arm}^t | A_{arm}^t) \right\|^2 \right].
      • Total Loss: ์ „์ฒด ํ•™์Šต ๋ชฉํ‘œ๋Š” ๊ฐ€์ค‘ํ•ฉ์ž…๋‹ˆ๋‹ค: L_{total} = L_{main} + \lambda (L_{hand} + L_{arm}).
  4. Corrective Human-in-the-Loop Teleoperation System (๊ต์ •์  ์ธ๊ฐ„ ๊ฐœ์ž…ํ˜• Teleoperation ์‹œ์Šคํ…œ)
    • ๋ฐฐํฌ ์ค‘ \pi_{uni}๊ฐ€ ์‹คํŒจํ•  ๊ฒฝ์šฐ, ์‹œ์Šคํ…œ์€ ๊ณต์œ  ์ž์œจ์„ฑ ๋ชจ๋“œ๋กœ ์ „ํ™˜๋˜์–ด ์ธ๊ฐ„ ์ž‘์—…์ž๊ฐ€ teleoperation์„ ํ†ตํ•ด ๊ฐœ์ž…ํ•˜์—ฌ ์‹คํŒจ๋ฅผ ๋ณต๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๊ณต์ ์ธ ๊ถค์ ์€ ๊ธ์ •์ ์ธ ์‹œ์—ฐ์œผ๋กœ ๊ธฐ๋ก๋˜๊ณ , ์‹คํŒจ ์—ํ”ผ์†Œ๋“œ ๋ฐ ๋ณต๊ตฌ ๊ถค์ ์€ ๊ต์ • ์‹œ์—ฐ์œผ๋กœ ํ๋ ˆ์ด์…˜๋ฉ๋‹ˆ๋‹ค.
    • ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ D^{(k)}๋Š” ์„ฑ๊ณต์ ์ธ ์ž์œจ ์ •์ฑ… ์‹คํ–‰ ๋ฐ์ดํ„ฐ D_{success}^{(k)}์™€ ์ธ๊ฐ„ ์•ˆ๋‚ด ์‹คํŒจ ๋ณต๊ตฌ ๋ฐ์ดํ„ฐ D_{corrective}^{(k)}๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค: D^{(k)} = \{ (o_t, a_t) \}_{D_{success}^{(k)}} \cup \{ \langle o_{(fail)}^t, a_{(fail)}^t, o_{(rec)}^t, a_{(rec)}^t \rangle \}_{D_{corrective}^{(k)}}.
    • ์ •์ฑ…์€ ์ด ์ฆ๊ฐ•๋œ ๋ฐ์ดํ„ฐ์…‹ D_{uni} \cup D^{(k)}๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ง€์†์ ์œผ๋กœ ์žฌํ•™์Šต๋ฉ๋‹ˆ๋‹ค: \pi_{uni}^{(k+1)} = \text{SFT}(\pi_0; D_{uni} \cup D^{(k)}). ์ด ๋ฐ˜๋ณต์ ์ธ ๊ณผ์ •์€ ์ •์ฑ…์ด ์ ์ง„์ ์œผ๋กœ ๋”์šฑ ๋„์ „์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” self-improving cycle์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ณ ํ’ˆ์งˆ์˜ arm-hand demonstration ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ, ์ด๋Š” 50๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด(๋ฏธํ™•์ธ ์ธ์Šคํ„ด์Šค ํฌํ•จ)์— ๋Œ€ํ•ด ์•ฝ 90%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋Š” end-to-end VLA ์ •์ฑ… ํ•™์Šต์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค. DexGrasp-VLA ๋ชจ๋ธ, Arm-Hand Feature Enhancement module, Corrective Teleoperation system์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์ด ๋ชจ๋‘ ํ•„์ˆ˜์ ์ด๋ฉฐ ์ •์ฑ… ์„ฑ๋Šฅ, ์„ฑ๊ณต๋ฅ  ๋ฐ ๊ฒฌ๊ณ ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ข…ํ•ฉ์ ์ธ ablation study (์ ˆ์ œ ์—ฐ๊ตฌ)๋ฅผ ํ†ตํ•ด ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋” ํฐ ๋ชจ๋ธ๋กœ ํ™•์žฅํ•˜๊ธฐ ์ „์— ๊ด‘๋ฒ”์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ „๋žต์„ ํƒ์ƒ‰ํ•˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜์ ์ธ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” dexterous manipulation์— ์ดˆ์ ์„ ๋งž์ถ˜ embodied intelligence (์ฒดํ™”๋œ ์ง€๋Šฅ)๋ฅผ ์œ„ํ•œ ๊ฒฌ๊ณ ํ•œ foundation model ๊ฐœ๋ฐœ์ด๋ผ๋Š” ๋” ๋„“์€ ๊ณผ์ œ ๋‚ด์—์„œ ์ „๋žต์ ์œผ๋กœ ์œ„์น˜ํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ํšจ๊ณผ์ ์ธ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต์˜ ํ•„์ˆ˜์ ์ธ ์ „์ œ๋Š” motion trajectories, visual streams ๋ฐ high-frequency tactile-force signals๊ณผ ๊ฐ™์€ ์ด์งˆ์ ์ธ sensorimotor pathways (๊ฐ๊ฐ์šด๋™ ๊ฒฝ๋กœ)๋ฅผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ดํ•ด๋ผ๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค. SFT๋ฅผ ํ†ตํ•ด, ์—ฐ๊ตฌ์ž๋“ค์€ Arm-Hand Feature Enhancement module ๋ฐ ํšจ๊ณผ์ ์ธ ์ด‰๊ฐ ํ†ตํ•ฉ ์ „๋žต๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ ์‹ ์†ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•˜๊ณ  ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

1. ์„œ๋ก : ์™œ ์ด ์—ฐ๊ตฌ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€?

๋กœ๋ด‡ ๊ณตํ•™์˜ ๊ถ๊ทน์  ๋ชฉํ‘œ ์ค‘ ํ•˜๋‚˜๋Š” ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ๋ฏผ์ฒฉํ•œ ์กฐ์ž‘(dexterous manipulation) ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋ฒ”์šฉ ๋กœ๋ด‡์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ Vision-Language-Action(VLA) ๋ชจ๋ธ์ด ๋กœ๋ด‡ ์ œ์–ด ๋ถ„์•ผ์—์„œ ๊ด„๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์ง€(multi-finger) ๋ฏผ์ฒฉ ์†์„ ํฌํ•จํ•œ ๊ณ ์ž์œ ๋„(high-DoF) ์‹œ์Šคํ…œ์˜ ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ์‹ฌ๊ฐํ•œ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

ByteDance Seed ์—ฐ๊ตฌํŒ€์ด 2025๋…„ 10์›”์— ๋ฐœํ‘œํ•œ ์ด ๋…ผ๋ฌธ์€ ๋ฐ”๋กœ ์ด ํ•ต์‹ฌ์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ˜์‹ ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ Shared Autonomy(๊ณต์œ  ์ž์œจ์„ฑ) ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ†ตํ•ด ์ธ๊ฐ„ ์กฐ์ž‘์ž์™€ AI ์ •์ฑ… ๊ฐ„์˜ ์—ญํ•  ๋ถ„๋‹ด์„ ๊ตฌํ˜„ํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ์˜ ํŒ”-์† ํ˜‘์‘ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


2. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ œ ์ •์˜

2.1 ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„

ํ˜„์žฌ ๋ฏผ์ฒฉ ์กฐ์ž‘์„ ์œ„ํ•œ VLA ํ•™์Šต์—์„œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค:

์ฒซ์งธ, ์™„์ „ ์ˆ˜๋™ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(Full Manual Teleoperation)

๊ธฐ์กด์˜ leader-follower ์„ค์ •์ด๋‚˜ VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ์กฐ์ž‘์ž๊ฐ€ ๋กœ๋ด‡ ํŒ”์˜ 6 ์ž์œ ๋„์™€ ๋ฏผ์ฒฉ ์†์˜ 12~21 ์ž์œ ๋„๋ฅผ ๋™์‹œ์— ์ œ์–ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์˜ ์‹ค์ œ ๊ฒฝํ—˜์— ๋”ฐ๋ฅด๋ฉด:

  • ์ˆ™๋ จ๋œ ์กฐ์ž‘์ž๋„ ์ •์‹ ์  ํ”ผ๋กœ ์—†์ด ์—ฐ์† ์ž‘์—…ํ•  ์ˆ˜ ์žˆ๋Š” ์‹œ๊ฐ„์€ ์•ฝ 30๋ถ„์— ๋ถˆ๊ณผ
  • ๋น„์ˆ™๋ จ์ž์˜ ๊ฒฝ์šฐ 20๋ถ„์˜ ์—ฐ์† ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๋„ ์ƒ๋‹นํ•œ ํ”ผ๋กœ๋ฅผ ์œ ๋ฐœ
  • ๋†’์€ ์ธ์ง€ ๋ถ€ํ•˜๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ์ €ํ•˜ ๋ฐ ํ™•์žฅ์„ฑ ์ œํ•œ

๋‘˜์งธ, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ž์œจ ํ•™์Šต

๋กœ๋ด‡์ด ์Šค์Šค๋กœ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜์ง€๋งŒ:

  • ๋‹ค์ง€ ๋ฏผ์ฒฉ ์ž‘์—…์„ ์œ„ํ•œ ์ข‹์€ ์ปจํŠธ๋กค๋Ÿฌ ์„ค๊ณ„๊ฐ€ ๋น„์ž๋ช…(non-trivial)
  • ํ•™์Šต๋œ ์ •์ฑ…์ด ์ข…์ข… ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ํŒŒ์ง€(grasping) ์ž์„ธ๋ฅผ ์ƒ์„ฑ

์…‹์งธ, ๋ชจ์…˜ ํ”Œ๋ž˜๋‹ ๊ธฐ๋ฐ˜ ์ž๋™ํ™”

CuRobo ๋“ฑ์˜ ๊ถค์  ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์€ ์ฒด๊ณ„์ ์ธ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๋‘ ๊ฐ€์ง€ ์น˜๋ช…์  ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  1. ๋™์ž‘์˜ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์›€: ์ƒ์„ฑ๋œ ๋กœ๋ด‡ ๊ถค์ ์ด ๋ปฃ๋ปฃํ•˜๊ณ  ์†๋„ ๋ฉด์—์„œ ๋น„ํšจ์œจ์ 
  2. ๋ถ„ํฌ ๋ถˆ์ผ์น˜(Distribution Mismatch): ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊ฐ€ ํŠน์ • ์ž‘์—…์— ํ•„์š”ํ•œ ๋ชฉํ‘œ ๋ถ„ํฌ์™€ ์งˆ์ ์œผ๋กœ ๋ถˆ์ผ์น˜ํ•˜๋ฉฐ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๊ฐ€ ํ‰์ƒ์— ๊ฑธ์ณ ํ•™์Šตํ•œ ๋ฏธ๋ฌ˜ํ•œ ์ž‘์—… ๊ด€๋ จ โ€œํŠธ๋ฆญโ€์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•จ

2.2 ํ•ต์‹ฌ ํ†ต์ฐฐ: ํŒ”๊ณผ ์†์˜ ๊ทผ๋ณธ์  ์ฐจ์ด

์ €์ž๋“ค์€ ํŒ”-์† ์‹œ์Šคํ…œ ์ œ์–ด์˜ ์ œ1์›๋ฆฌ(First Principle)์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค:

๊ตฌ๋ถ„ ํŒ”(Arm) ์†(Hand)
์—ญํ•  ๋งคํฌ๋กœ ๋™์ž‘ (Macro-movement) ๋งˆ์ดํฌ๋กœ ์กฐ์ž‘ (Micro-manipulation)
ํŠน์„ฑ ์žฅ๊ฑฐ๋ฆฌ ํฌ์ง€์…”๋‹, ๋ถ€๋“œ๋Ÿฌ์šด ์žฅ๊ธฐ ์ œ์–ด ์„ธ๋ฐ€ํ•˜๊ณ  ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ ๋‹ค์ง€ ์ƒํ˜ธ์ž‘์šฉ
์ œ์–ด ๋ชฉํ‘œ End-effector ์ž์„ธ์˜ ๋ถ€๋“œ๋Ÿฌ์šด ์ œ์–ด ์ปดํ”Œ๋ผ์ด์–ธํŠธํ•˜๊ณ  ์ ‘์ด‰์ด ๋งŽ์€ ์†-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ
์ธ์ง€ ๋ถ€ํ•˜ ๊ณต๊ฐ„ ์ถ”๋ก , ์‹œ๋งจํ‹ฑ ์ดํ•ด, ์–ดํฌ๋˜์Šค ๊ณ ์ฐจ์› ๊ด€์ ˆ ํ˜‘์‘, ํž˜ ์กฐ์ ˆ

์ด๋Ÿฌํ•œ ๊ทผ๋ณธ์  ์ฐจ์ด๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ํŒ”-์†์„ ๋‹จ์ผ ๋ชจ๋†€๋ฆฌ์‹ ์ปจํŠธ๋กค๋Ÿฌ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉด: 1. ํŒ”๊ณผ ์† ๊ฐ๊ฐ์˜ ๊ณ ์œ ํ•œ ์šด๋™ํ•™์ /๋™์—ญํ•™์  ํŠน์„ฑ์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•จ 2. ํ˜‘์‘ ๋ฐ ๊ฐ•๊ฑด์„ฑ์ด ์ œํ•œ๋จ 3. ์‹œ๊ฐ์  ๋ฐฉํ•ด(์นด๋ฉ”๋ผ ๊ฐ€๋ฆผ ๋“ฑ)์— ์ทจ์•ฝ


3. ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก : Shared Autonomy ํ”„๋ ˆ์ž„์›Œํฌ

3.1 ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”

์ €์ž๋“ค์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 4๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

flowchart TD
    subgraph Pipeline["Training Pipeline"]
        S1["Stage 1: DexGrasp-VLA ํ•™์Šต<br/>(์ž์œจ ํŒŒ์ง€๋ฅผ ์œ„ํ•œ ์† ์ „์šฉ VLA Copilot)"]
        S2["Stage 2: Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘<br/>(์ธ๊ฐ„: ํŒ” VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ + AI: ์† ์ž์œจ ์ œ์–ด)"]
        S3["Stage 3: End-to-End VLA ํ•™์Šต<br/>(Arm-Hand Feature Enhancement ๋ชจ๋“ˆ ํฌํ•จ)"]
        S4["Stage 4: Corrective Teleoperation<br/>(Human-in-the-loop ์ง€์†์  ๊ฐœ์„ )"]

        S1 --> S2
        S2 --> S3
        S3 --> S4
    end

    style S1 fill:#e1f5fe
    style S2 fill:#f3e5f5
    style S3 fill:#e8f5e9
    style S4 fill:#fff3e0

3.2 DexGrasp-VLA: ์ด‰๊ฐ ๊ธฐ๋ฐ˜ ์ž์œจ ํŒŒ์ง€ ์ •์ฑ…

DexGrasp-VLA๋Š” ์ด ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ, ๋‘ ๋‹จ๊ณ„๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค:

3.2.1 1๋‹จ๊ณ„: LSTM ๊ธฐ๋ฐ˜ ํž˜-์ ์‘ํ˜• ํŒŒ์ง€ ์ •์ฑ… (Blind Policy)

์‹œ๊ฐ ์ •๋ณด ์—†์ด ์ด‰๊ฐ๊ณผ ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ๋งŒ์œผ๋กœ ํŒŒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” โ€œ๋ธ”๋ผ์ธ๋“œโ€ ์ •์ฑ…์„ ๋จผ์ € ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•:

(1) ํž˜-์ ์‘ํ˜• ์œ„์น˜ ์ œ์–ด (68๊ฐœ ์‹œ์—ฐ)

50Hz๋กœ ์ž‘๋™ํ•˜๋Š” ๊ทœ์น™ ๊ธฐ๋ฐ˜ ์ปจํŠธ๋กค๋Ÿฌ๊ฐ€ ์ปดํ”Œ๋ผ์ด์–ธํŠธ ํŒŒ์ง€๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค:

q_c(i) = q_m(i) + q(0) \cdot e^{-k \cdot f_z(i)}

์—ฌ๊ธฐ์„œ:

  • q_m(i): ์ธก์ •๋œ ๊ด€์ ˆ ์œ„์น˜
  • q(0): ์ดˆ๊ธฐ ์œ„์น˜
  • k: ํŒŒ์ง€๋ ฅ ์กฐ์ ˆ ๊ฒŒ์ธ
  • f_z(i): ์†๊ฐ€๋ฝ ๋ ๋ฒ•์„  ๋ฐฉํ–ฅ ํ•ฉ๋ ฅ

์ด ์ œ์–ด ๋ฒ•์น™์˜ ๋ฌผ๋ฆฌ์  ์˜๋ฏธ:

  • ์ ‘์ด‰์ด ๊ฐ์ง€๋˜์ง€ ์•Š์œผ๋ฉด ์†์„ ๋น ๋ฅด๊ฒŒ ๋‹ซ์Œ
  • ์ ‘์ด‰ ์‹œ ์ ์ง„์ ์œผ๋กœ ํŒŒ์ง€๋ ฅ์„ ์ฆ๊ฐ€์‹œ์ผœ ์•ˆ์ •์  ํŒŒ์ง€ ๋‹ฌ์„ฑ
  • ์–ด๋“œ๋ฏธํ„ด์Šค ์ œ์–ด ๋ฐฉ์‹์œผ๋กœ ์•”๋ฌต์  ํž˜ ์กฐ์ ˆ ํ•™์Šต

(2) ์ธ๊ฐ„ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ (150๊ฐœ ์‹œ์—ฐ)

Leap Motion ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•ด ์ธ๊ฐ„ ์† ๋™์ž‘์„ 12-DoF Xhand๋กœ ๋ฆฌํƒ€๊ฒŸํŒ…ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์‹œ์—ฐ์€ ์† ์—ด๋ฆผ๋ถ€ํ„ฐ ์•ˆ์ •์  ํŒŒ์ง€๊นŒ์ง€ ์ „์ฒด ์‹œํ€€์Šค๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

LSTM ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ:

flowchart TD
    subgraph Input["์ž…๋ ฅ"]
        X["x_t = [s_t^hand, f_t^hand] โˆˆ โ„ยณโน"]
        S["s_t = [q_t^hand, ฯ„_t^hand] โˆˆ โ„ยฒโด<br/>(๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ)"]
        F["f_t^hand โˆˆ โ„ยนโต<br/>(์ด‰๊ฐ ์‹ ํ˜ธ)"]
    end

    SW["์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ<br/>X = [x_{t-T+1}, ..., x_t] โˆˆ โ„^{Tร—39}"]

    subgraph Encoders["๋ณ‘๋ ฌ ์ธ์ฝ”๋”"]
        MLP1["MLP (3์ธต)<br/>ReLU + BatchNorm<br/>(๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ)"]
        MLP2["MLP (3์ธต)<br/>ReLU + BatchNorm<br/>(์ด‰๊ฐ)"]
    end

    CONCAT["Concatenate<br/>H โˆˆ โ„^{Tร—256}"]
    LSTM["LSTM<br/>(hidden=256)"]
    FC["FC Layer"]
    OUT["์ถœ๋ ฅ: a_t โˆˆ โ„ยนยฒ<br/>(์† ๋™์ž‘)"]

    X --> SW
    S --> MLP1
    F --> MLP2
    MLP1 --> CONCAT
    MLP2 --> CONCAT
    CONCAT --> LSTM
    LSTM --> FC
    FC --> OUT

    style Input fill:#e3f2fd
    style Encoders fill:#f1f8e9
    style LSTM fill:#fff9c4
    style OUT fill:#ffccbc

ํ•™์Šต ๋ชฉํ‘œ: \mathcal{L} = \frac{1}{N}\sum_{i=1}^{N}\|a_t^{(i)} - \hat{a}_t^{(i)}\|_2^2 + \lambda\|\Theta\|_2^2

์ด LSTM ์ •์ฑ…์˜ ํ•ต์‹ฌ ๊ฐ€์น˜: 1. ์‹ค์‹œ๊ฐ„ ์˜จ๋ณด๋“œ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ 2. ์ด‰๊ฐ-๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ ์ด๋ ฅ์˜ ์‹œ๊ฐ„์  ์˜์กด์„ฑ ํฌ์ฐฉ์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด ๋ฐ ์ ‘์ด‰ ์กฐ๊ฑด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” 3. ์ง€์†์ ์ธ ์ธ๊ฐ„ ๊ฐ๋… ์—†์ด ๋Œ€๊ทœ๋ชจ ์ž์œจ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ฐ€๋Šฅ

3.2.2 2๋‹จ๊ณ„: ์ด‰๊ฐ ๊ธฐ๋ฐ˜ DexGrasp-VLA

LSTM ์ •์ฑ…์€ ๊ฐ•๊ฑดํ•œ ์ €์ˆ˜์ค€ ํž˜ ์ ์‘์„ ์ œ๊ณตํ•˜์ง€๋งŒ ์‹œ๊ฐ์  ์ธ์ง€์™€ ์žฅ๋ฉด ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด LSTM ์ •์ฑ…์œผ๋กœ ์ž์œจ ์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ VLA ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

์ด‰๊ฐ ํŠน์ง• ์ถ”์ถœ:

์›์‹œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ F_{raw} \in \mathbb{R}^{10 \times 12 \times 3}์—์„œ ๋‘ ๊ฐ€์ง€ ์ƒ๋ณด์  ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค:

flowchart TD
    RAW["์›์‹œ ์ด‰๊ฐ ๋ฐ์ดํ„ฐ<br/>F_raw โˆˆ โ„^{10ร—12ร—3}<br/>(์†๊ฐ€๋ฝ ๋ ๋‹น)"]

    subgraph Path1["๊ฒฝ๋กœ 1: ํ•ฉ๋ ฅ ๋ฒกํ„ฐ"]
        SUM["์„ผ์„œ ์–ด๋ ˆ์ด<br/>ํž˜ ์„ฑ๋ถ„ ํ•ฉ์‚ฐ"]
        FORCE["f_t^tac-f โˆˆ โ„^{5ร—3}<br/>์ˆœ ์ ‘์ด‰๋ ฅ (ํฌ๊ธฐ+๋ฐฉํ–ฅ)"]
    end

    subgraph Path2["๊ฒฝ๋กœ 2: ๊ณต๊ฐ„ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ"]
        CAE["์ปจ๋ณผ๋ฃจ์…˜<br/>์˜คํ† ์ธ์ฝ”๋”"]
        SPATIAL["f_t^tac-s โˆˆ โ„^{5ร—128}<br/>๊ณต๊ฐ„ ์ ‘์ด‰ ํŒจํ„ด"]
    end

    RAW --> SUM --> FORCE
    RAW --> CAE --> SPATIAL

    style RAW fill:#ffecb3
    style Path1 fill:#e3f2fd
    style Path2 fill:#f3e5f5

(1) ํ•ฉ๋ ฅ ๋ฒกํ„ฐ (Resultant Force Vector)

f_t^{tac-f} \in \mathbb{R}^{5 \times 3}

๊ฐ ์†๊ฐ€๋ฝ ๋ ์„ผ์„œ ์–ด๋ ˆ์ด์—์„œ ํž˜ ์„ฑ๋ถ„์„ ํ•ฉ์‚ฐํ•˜์—ฌ ์–ป์€ ์ˆœ ์ ‘์ด‰๋ ฅ์˜ ํฌ๊ธฐ์™€ ๋ฐฉํ–ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

(2) ๊ณต๊ฐ„ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ (Spatial Tactile Embedding)

f_t^{tac-s} \in \mathbb{R}^{5 \times 128}

์ปจ๋ณผ๋ฃจ์…˜ ์˜คํ† ์ธ์ฝ”๋”(CAE)๋ฅผ ์‚ฌ์šฉํ•ด ๊ณต๊ฐ„-ํž˜ ๊ด€๊ณ„๋ฅผ ์••์ถ•๋œ ์ž ์žฌ ํ‘œํ˜„์œผ๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค:

flowchart LR
    RAW["์›์‹œ ์ด‰๊ฐ<br/>F_raw"]
    NORM["์ •๊ทœํ™” &<br/>์ œ๋กœํŒจ๋”ฉ"]
    IMG["16ร—16ร—3<br/>์ด‰๊ฐ ์ด๋ฏธ์ง€"]

    subgraph Encoder["์ธ์ฝ”๋”"]
        CONV["Conv(3ร—3, stride=2) ร— 3<br/>[32 โ†’ 64 โ†’ 128 ํ•„ํ„ฐ]<br/>BatchNorm + ReLU"]
    end

    FEAT["2ร—2ร—128<br/>ํŠน์ง• ๋งต"]
    LATENT["128์ฐจ์›<br/>์ž ์žฌ ๋ฒกํ„ฐ"]

    RAW --> NORM --> IMG --> CONV --> FEAT --> LATENT

    style RAW fill:#ffecb3
    style Encoder fill:#e8eaf6
    style LATENT fill:#c8e6c9

์žฌ๊ตฌ์„ฑ ์†์‹ค๋กœ ํ•™์Šต: \mathcal{L}_{recon} = \frac{1}{3HW}\sum_{c \in \{x,y,z\}}\sum_{i=1}^{H}\sum_{j=1}^{W}(F_{c,ij} - \hat{F}_{c,ij})^2

VLA ์ •์ฑ… ๊ด€์ธก ๊ณต๊ฐ„:

flowchart LR
    subgraph Inputs["์ž…๋ ฅ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ"]
        IMG["I_t^hand<br/>Eye-in-hand ์ด๋ฏธ์ง€"]
        LANG["l_t<br/>์–ธ์–ด ๋ช…๋ น"]
        PROP["q_t^hand<br/>์† ๊ด€์ ˆ ์ƒํƒœ"]
        TACF["z_t^tac-f<br/>ํ•ฉ๋ ฅ ์ž„๋ฒ ๋”ฉ"]
        TACS["z_t^tac-s<br/>๊ณต๊ฐ„ ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ"]
    end

    subgraph VLA["DexGrasp-VLA"]
        FUSION["๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ<br/>์œตํ•ฉ"]
        ACTION["๋™์ž‘ ์ „๋ฌธ๊ฐ€"]
    end

    OUTPUT["A_t^hand<br/>์† ๋™์ž‘ ์‹œํ€€์Šค"]

    IMG --> FUSION
    LANG --> FUSION
    PROP --> FUSION
    TACF --> FUSION
    TACS --> FUSION

    FUSION --> ACTION --> OUTPUT

    style Inputs fill:#e8eaf6
    style VLA fill:#fff9c4
    style OUTPUT fill:#c8e6c9

o_t^{hand} = [I_t^{hand}, l_t, q_t^{hand}, z_t^{tac-f}, z_t^{tac-s}]

  • I_t^{hand}: Eye-in-hand ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€
  • l_t: ์–ธ์–ด ๋ช…๋ น
  • q_t^{hand}: ์† ๊ด€์ ˆ ์ƒํƒœ
  • z_t^{tac-f}, z_t^{tac-s}: ์ด‰๊ฐ ์ž„๋ฒ ๋”ฉ

๊ฒฐ๊ณผ ์ •์ฑ…: \pi_{hand}(A_t^{hand} | o_t^{hand})

3.3 Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

Shared Autonomy์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ๋‹ค์ด์–ด๊ทธ๋žจ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

flowchart TB
    subgraph Human["๐Ÿ‘ค ์ธ๊ฐ„ ์กฐ์ž‘์ž"]
        VR["VR ์ธํ„ฐํŽ˜์ด์Šค"]
        COGNITION["๊ณ ์ˆ˜์ค€ ์ธ์ง€<br/>โ€ข ๊ณต๊ฐ„ ์ถ”๋ก <br/>โ€ข ์‹œ๋งจํ‹ฑ ์ดํ•ด<br/>โ€ข ์–ดํฌ๋˜์Šค"]
    end

    subgraph Robot["๐Ÿค– ๋กœ๋ด‡ ์‹œ์Šคํ…œ"]
        ARM["ํŒ” (6-DoF)<br/>๋งคํฌ๋กœ ๋™์ž‘"]
        HAND["์† (12-DoF)<br/>๋งˆ์ดํฌ๋กœ ์กฐ์ž‘"]
    end

    subgraph AI["๐Ÿง  DexGrasp-VLA Copilot"]
        TACTILE["์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ"]
        VISION["Eye-in-hand ๋น„์ „"]
        POLICY["์ž์œจ ํŒŒ์ง€ ์ •์ฑ…"]
    end

    VR -->|"End-effector<br/>์ž์„ธ ์ œ์–ด"| ARM
    COGNITION --> VR

    TACTILE --> POLICY
    VISION --> POLICY
    POLICY -->|"๊ด€์ ˆ ๋ช…๋ น"| HAND

    ARM <-->|"ํ˜‘์‘"| HAND

    style Human fill:#e3f2fd
    style Robot fill:#fff3e0
    style AI fill:#e8f5e9

3.3.1 VR ๊ธฐ๋ฐ˜ ํŒ” ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ

XRoboToolkit ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒ๋Œ€ ์šด๋™ ๋งคํ•‘ ์ œ์–ด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค:

ํด๋Ÿฌ์น˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜: 1. ์กฐ์ž‘์ž๊ฐ€ ์ปจํŠธ๋กค๋Ÿฌ์˜ ๊ทธ๋ฆฝ ๋ฒ„ํŠผ์„ ๋ˆŒ๋Ÿฌ ์ถ”์  ์‹œ์ž‘ 2. VR ์ปจํŠธ๋กค๋Ÿฌ์™€ ๋กœ๋ด‡ ํŒ” end-effector์˜ ์ดˆ๊ธฐ ์ž์„ธ ๋™์‹œ ๊ธฐ๋ก 3. VR ์ปจํŠธ๋กค๋Ÿฌ์˜ ๋ธํƒ€ ๋ณ€ํ™˜์„ ๋กœ๋ด‡ ํŒ”์˜ ๋ชฉํ‘œ ์ž์„ธ๋กœ ๋ณ€ํ™˜:

T_{robot,t} = T_{robot,0} \cdot (T_{VR,0}^{-1} \cdot T_{VR,t})

์—ญ์šด๋™ํ•™ ํ•ด์„:

QP(Quadratic Program)๋กœ ์ •์‹ํ™”๋œ ์†๋„ ์ˆ˜์ค€ ์—ญ์šด๋™ํ•™์„ PlaCo ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ํ•ด๊ฒฐ:

\min_{\dot{q}} \sum_{i=1}^{N} w_i \|J_i(q)\dot{q} + e_i(q)\|^2 \text{s.t.} \quad l \leq C(q)\dot{q} \leq u

๊ด€์ ˆ ๊ตฌ์„ฑ ์—…๋ฐ์ดํŠธ: q_{t+1} = q_t + \dot{q}^* \Delta t

์‹œ์Šคํ…œ ์‚ฌ์–‘:

  • OpenXR ์ง€์›: 90fps, <100ms ์ง€์—ฐ์‹œ๊ฐ„
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ฃผํŒŒ์ˆ˜: 30Hz

3.3.2 ํ˜‘์‘ ํŒ”-์† ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

๋ฉ€ํ‹ฐ์Šค๋ ˆ๋“œ ์ œ์–ด ์•„ํ‚คํ…์ฒ˜๋กœ ์ธ๊ฐ„ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(90Hz)๊ณผ ์ž์œจ ์ •์ฑ… ์‹คํ–‰(30Hz), ์‹œ๊ฐ„ ๋™๊ธฐํ™”๋œ ๋ฐ์ดํ„ฐ ์ €์žฅ(30Hz)์„ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ์…‹ ํ˜•์‹: \mathcal{D}_{uni} = \{(o_t^{uni}, a_t^{arm}, a_t^{hand})\}_{t=1}^{T}

์—ฌ๊ธฐ์„œ:

  • a_t^{arm} \sim p_{teleop} (์ธ๊ฐ„ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜)
  • a_t^{hand} \sim \pi_{hand}(\cdot | o_t^{hand}) (DexGrasp-VLA)
  • o_t^{uni} = [I_t, l_t, q_t^{arm}, q_t^{hand}]

์ด ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ์˜ ํ•ต์‹ฌ ์žฅ์ : 1. ์ธ๊ฐ„ ์‹œ์—ฐ์—์„œ ํŠน์ง•์ ์ธ ์ž์—ฐ์Šค๋Ÿฌ์šด ํŒ”-์† ํ˜‘์‘ ์‹œ๋„ˆ์ง€ ์œ ์ง€ 2. ์‹œ์—ฐ๋œ ๊ถค์ ์—์„œ ์•”๋ฌต์  ํ˜‘์‘ ์ „๋žต ๋ฐœ๊ฒฌ ๊ฐ€๋Šฅ 3. ํ’๋ถ€ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก์œผ๋กœ ๊ฐ•๊ฑดํ•œ ์‹œ๊ฐ์šด๋™ ์ •์ฑ… ํ•™์Šต ์ง€์›

3.4 End-to-End ํŒ”-์† VLA ์ •์ฑ… ํ•™์Šต

3.4.1 Arm-Hand Feature Enhancement ๋ชจ๋“ˆ

๊ธฐ์กด VLA ๋ชจ๋ธ(ฯ€โ‚€ ๋“ฑ)์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ด€์ธก์„ ๊ณต์œ  ์ž‘์—… ํ‘œํ˜„ z_t^{share} \in \mathbb{R}^{d_s}๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ณต์œ  ํ‘œํ˜„๋งŒ์œผ๋กœ๋Š” ํŒ”๊ณผ ์†์˜ ๊ตฌ๋ณ„๋˜๋Š” ์šด๋™ํ•™ ๋ฐ ๋™์—ญํ•™์„ ์„ค๋ช…ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

์ œ์•ˆ ์•„ํ‚คํ…์ฒ˜:

flowchart TD
    subgraph Input["์ž…๋ ฅ ๊ด€์ธก"]
        RGB["RGB ์ด๋ฏธ์ง€"]
        LANG["์–ธ์–ด ๋ช…๋ น"]
        PROP["๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ ์ƒํƒœ"]
    end

    VLM["PaliGemma + Gemma<br/>Expert Encoder"]

    ZSHARE["z_t^share โˆˆ โ„^{d_s}<br/>(๊ณต์œ  ํ‘œํ˜„)"]

    subgraph Branches["ํŠน์ง• ๋ถ„๊ธฐ"]
        direction LR
        EARM["E_arm<br/>(MLP)"]
        KEEP["์œ ์ง€"]
        EHAND["E_hand<br/>(MLP)"]
    end

    subgraph Features["ํŠนํ™” ํŠน์ง•"]
        direction LR
        ZARM["z_t^arm<br/>โˆˆ โ„^{d_a}"]
        ZSHARE2["z_t^share<br/>โˆˆ โ„^{d_s}"]
        ZHAND["z_t^hand<br/>โˆˆ โ„^{d_h}"]
    end

    subgraph AuxHeads["๋ณด์กฐ ํ—ค๋“œ"]
        direction LR
        HARM["H_arm<br/>(๋ณด์กฐํ—ค๋“œ)"]
        HHAND["H_hand<br/>(๋ณด์กฐํ—ค๋“œ)"]
    end

    subgraph AuxPred["๋ณด์กฐ ์˜ˆ์ธก"]
        direction LR
        AARM["ร‚_t^arm"]
        AHAND["ร‚_t^hand"]
    end

    FUSED["z_t^fused = [z_t^share, z_t^arm, z_t^hand]"]
    HMAIN["H_main<br/>(๋ฉ”์ธ ํ—ค๋“œ)"]
    OUTPUT["ร‚_t^uni = [ร‚_t^arm, ร‚_t^hand]<br/>(ํ†ตํ•ฉ ๋™์ž‘ ์˜ˆ์ธก)"]

    RGB --> VLM
    LANG --> VLM
    PROP --> VLM
    VLM --> ZSHARE

    ZSHARE --> EARM
    ZSHARE --> KEEP
    ZSHARE --> EHAND

    EARM --> ZARM
    KEEP --> ZSHARE2
    EHAND --> ZHAND

    ZARM --> HARM --> AARM
    ZHAND --> HHAND --> AHAND

    ZARM --> FUSED
    ZSHARE2 --> FUSED
    ZHAND --> FUSED

    FUSED --> HMAIN --> OUTPUT

    style Input fill:#e3f2fd
    style VLM fill:#f3e5f5
    style ZSHARE fill:#fff9c4
    style Branches fill:#e8f5e9
    style Features fill:#ffe0b2
    style AuxHeads fill:#f5f5f5
    style HMAIN fill:#ffccbc
    style OUTPUT fill:#c8e6c9

์ด ์„ค๊ณ„์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ:

  • z_t^{share}: ์ „์—ญ ์ž‘์—… ์ปจํ…์ŠคํŠธ ๋ณด์กด
  • z_t^{arm}: ์žฅ๊ธฐ ๋„๋‹ฌ ๊ถค์  ๋“ฑ ํŒ” ํŠนํ™” ์—ญํ•™
  • z_t^{hand}: ์ ‘์ด‰์ด ํ’๋ถ€ํ•˜๊ณ  ์ปดํ”Œ๋ผ์ด์–ธํŠธํ•œ ์† ํŠนํ™” ๋™์ž‘

๋ณด์กฐ ์˜ˆ์ธก ํ—ค๋“œ H_{arm}๊ณผ H_{hand}๋Š” ๊ฐ ํŠน์ง•์ด ํ•ด๋‹น ์‚ฌ์ง€์˜ ๊ด€๋ จ ๊ธฐ์ € ์—ญํ•™์„ ํฌ์ฐฉํ•˜๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

3.4.2 ํ•™์Šต ๋ชฉํ‘œ

๋ฉ”์ธ ์†์‹ค (Conditional Flow Matching):

\mathcal{L}_{main}^{\tau}(\theta) = \mathbb{E}\left[\|\mathcal{H}_{main}(z_t^{fused}) - u(\mathcal{A}_t^{\tau,uni} | \mathcal{A}_t^{uni})\|^2\right]

  • \mathcal{A}_t^{\tau} = \tau \mathcal{A}_t + (1-\tau)\epsilon: ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋œ ๋™์ž‘ ์ฒญํฌ
  • u(\mathcal{A}_t^{\tau} | \mathcal{A}_t) = \epsilon - \mathcal{A}_t: ๋ชฉํ‘œ ๋ฒกํ„ฐ ํ•„๋“œ

๋ณด์กฐ ์†์‹ค (Auxiliary Expert Losses):

์† ์ „์šฉ: \mathcal{L}_{hand}^{\tau}(\theta) = \mathbb{E}\left[\|\mathcal{H}_{hand}(z_t^{hand}) - u_{hand}(\mathcal{A}_t^{\tau,hand} | \mathcal{A}_t^{hand})\|^2\right]

ํŒ” ์ „์šฉ: \mathcal{L}_{arm}^{\tau}(\theta) = \mathbb{E}\left[\|\mathcal{H}_{arm}(z_t^{arm}) - u_{arm}(\mathcal{A}_t^{\tau,arm} | \mathcal{A}_t^{arm})\|^2\right]

์ด ์†์‹ค: \mathcal{L}_{total} = \mathcal{L}_{main} + \lambda(\mathcal{L}_{hand} + \mathcal{L}_{arm})

\lambda๋Š” ์ „์—ญ ํ˜‘์‘๊ณผ ์‚ฌ์ง€ ํŠนํ™” ์ „๋ฌธํ™” ๊ฐ„์˜ ๊ท ํ˜•์„ ์กฐ์ ˆํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.

3.5 Corrective Human-in-the-Loop Teleoperation

๋ฐฐํฌ ๋‹จ๊ณ„์—์„œ ๋ถ„ํฌ ์ด๋™๊ณผ ๋กฑํ…Œ์ผ ์‹œ๋‚˜๋ฆฌ์˜ค์— ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•œ ์ง€์†์  ์ •์ฑ… ๊ฐœ์„  ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.

flowchart TD
    subgraph Deployment["๋ฐฐํฌ ๋‹จ๊ณ„"]
        POLICY["ฯ€_uni ์ž์œจ ์‹คํ–‰"]

        SUCCESS["โœ… ์„ฑ๊ณต"]
        FAIL["โŒ ์‹คํŒจ"]

        POLICY --> SUCCESS
        POLICY --> FAIL
    end

    subgraph DataCollection["๋ฐ์ดํ„ฐ ์ˆ˜์ง‘"]
        D_SUCCESS["D_success<br/>์„ฑ๊ณต ๊ถค์ "]
        D_CORRECTIVE["D_corrective<br/>๊ต์ • ์‹œ์—ฐ"]
    end

    subgraph Intervention["์ธ๊ฐ„ ๊ฐœ์ž…"]
        TAKEOVER["Shared Autonomy<br/>๋ชจ๋“œ ์ „ํ™˜"]
        RECOVER["์‹คํŒจ ๋ณต๊ตฌ<br/>์ž‘์—… ์™„๋ฃŒ"]
    end

    subgraph Retraining["์žฌํ•™์Šต"]
        AGGREGATE["๋ฐ์ดํ„ฐ ํ†ตํ•ฉ<br/>D_uni โˆช D^(k)"]
        SFT["SFT(ฯ€โ‚€)"]
        NEWPOLICY["ฯ€_uni^(k+1)<br/>๊ฐœ์„ ๋œ ์ •์ฑ…"]
    end

    SUCCESS --> D_SUCCESS
    FAIL --> TAKEOVER --> RECOVER --> D_CORRECTIVE

    D_SUCCESS --> AGGREGATE
    D_CORRECTIVE --> AGGREGATE
    AGGREGATE --> SFT --> NEWPOLICY
    NEWPOLICY -.->|"๋ฐ˜๋ณต"| POLICY

    style SUCCESS fill:#c8e6c9
    style FAIL fill:#ffcdd2
    style NEWPOLICY fill:#bbdefb

์ž‘๋™ ๋ฐฉ์‹:

  1. ์ž์œจ ์‹คํ–‰ ๋‹จ๊ณ„: ํ†ตํ•ฉ ์ •์ฑ… \pi_{uni}๊ฐ€ ์ž์œจ์ ์œผ๋กœ ์ž‘๋™
  2. ์„ฑ๊ณต ๊ถค์ : ๊ธ์ •์  ์‹œ์—ฐ์œผ๋กœ ์ž๋™ ๊ธฐ๋ก
  3. ์‹คํŒจ ๋ฐœ์ƒ ์‹œ: Shared Autonomy ๋ชจ๋“œ๋กœ ์ „ํ™˜, ์ธ๊ฐ„์ด ๊ฐœ์ž…ํ•˜์—ฌ ์‹คํŒจ ๋ณต๊ตฌ
  4. ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ: ์‹คํŒจ ์—ํ”ผ์†Œ๋“œ์™€ ๋ณต๊ตฌ ๊ถค์ ์„ ๊ต์ • ์‹œ์—ฐ์œผ๋กœ ์ˆ˜์ง‘

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ:

๊ฐ ๋ฐ˜๋ณต k์—์„œ: \mathcal{D}^{(k)} = \underbrace{\{(o_t, a_t)\}}_{\mathcal{D}_{success}^{(k)}} \cup \underbrace{\{(o_t^{(fail)}, a_t^{(fail)}, o_t^{(rec)}, a_t^{(rec)})\}}_{\mathcal{D}_{corrective}^{(k)}}

์ •์ฑ… ์—…๋ฐ์ดํŠธ: \pi_{uni}^{(k+1)} = \text{SFT}(\pi_0; \mathcal{D}_{uni} \cup \mathcal{D}^{(k)})

ํ•ต์‹ฌ: ์ƒˆ ๋ชจ๋ธ์€ ํ•ญ์ƒ ์›๋ณธ ๊ธฐ์ดˆ ๋ชจ๋ธ \pi_0์—์„œ ์ง์ ‘ ํŒŒ์ƒ๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ์…‹์ด \mathcal{D}_{uni} \cup \mathcal{D}^{(k)}๋กœ ์ง€์†์ ์œผ๋กœ ํ๋ ˆ์ด์…˜๋ฉ๋‹ˆ๋‹ค.

์ด ์ ‘๊ทผ๋ฒ•์˜ ํ•ต์‹ฌ ์žฅ์ :

  • ์‹คํŒจ ์ผ€์ด์Šค์—๋งŒ ์ธ๊ฐ„ ๊ฐœ์ž…์„ ์ง‘์ค‘ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”
  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ๋Œ€ํ•œ ์ •์ฑ… ์ปค๋ฒ„๋ฆฌ์ง€ ๋ณด์žฅ
  • ์ž๊ธฐ ๊ฐœ์„  ์‚ฌ์ดํด ํ˜•์„ฑ

4. ์‹คํ—˜ ์„ค์ • ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„

4.1 ํ•˜๋“œ์›จ์–ด ํ”Œ๋žซํผ

๋กœ๋ด‡ ์‹œ์Šคํ…œ:

  • UR3e ํ˜‘๋™ ๋กœ๋ด‡ ํŒ” (6-DoF)
  • Xhand 5์ง€ ์† (12-DoF)
  • ๊ฐ ์†๊ฐ€๋ฝ ๋์— 120๊ฐœ์˜ 3์ถ• ํž˜ ์„ผ์„œ ์–ด๋ ˆ์ด

์ธ์ง€ ์‹œ์Šคํ…œ:

  • Intel RealSense D435i ร— 2 (๊ณ ์ •, ์ „์—ญ ๊ด€์ธก)
  • Intel RealSense D405 ร— 1 (์†๋ชฉ ์žฅ์ฐฉ, Eye-in-hand)

4.2 ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ

๋ฐ์ดํ„ฐ์…‹ ๋ชฉ์  ๊ทœ๋ชจ ํŠน์ง•
LSTM ์‚ฌ์ „ํ•™์Šต Blind grasping policy ํ•™์Šต 218๊ฐœ ์‹œ์—ฐ 150 ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ + 68 ์ž๋™ ์ƒ์„ฑ
\mathcal{D}_{hand} DexGrasp-VLA ํ•™์Šต 180๊ฐœ ๊ถค์  60๊ฐœ ๊ฐ์ฒด, ํ˜ผ์žก ์žฅ๋ฉด
\mathcal{D}_{uni} End-to-end VLA ํ•™์Šต 100๊ฐœ ์‹œ์—ฐ 20๊ฐœ ๊ฐ€์ •์šฉ ๊ฐ์ฒด
\mathcal{D}_{orient} ๋ฐฉํ–ฅ ํŠนํ™” ์‹คํŒจ ๋ณต๊ตฌ 50๊ฐœ ๊ถค์  ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜
\mathcal{D}_{corner} ์ฝ”๋„ˆ ์ผ€์ด์Šค ๋Œ€์‘ 50๊ฐœ ๊ถค์  ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜

4.3 ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ

4.3.1 DexGrasp-VLA ์† ์ •์ฑ… (\pi_{hand}) ์„ฑ๋Šฅ

ํ•ธ๋“œํ—ฌ๋“œ ์„ค์ •์—์„œ ํ˜ผ์žกํ•œ ํƒ์ƒ ์‹œ๋‚˜๋ฆฌ์˜ค ํ‰๊ฐ€:

  • ํ…Œ์ŠคํŠธ ์กฐ๊ฑด: 5๊ฐœ ์žฅ๋ฉด, 50๊ฐœ ์ด์ƒ ๊ฐ์ฒด (๋‹ค์–‘ํ•œ ํฌ๊ธฐ, ์ƒ‰์ƒ, ํ˜•ํƒœ, ์žฌ์งˆ)
  • ์„ฑ๊ณต๋ฅ : 95.5%

์ด ๊ฒฐ๊ณผ๋Š” ์† ์ˆ˜์ค€ VLA ์ •์ฑ…์ด ํ˜ผ์žก ํ™˜๊ฒฝ์„ ๊ฐ•๊ฑดํ•˜๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๊ฐ์ฒด ์†์„ฑ์— ์ผ๋ฐ˜ํ™”๋จ์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

4.3.2 End-to-End ํŒ”-์† VLA ์ •์ฑ… (\pi_{uni}) ์„ฑ๋Šฅ

๊ฐ์ฒด ์œ ํ˜• ์„ฑ๊ณต๋ฅ 
๋ณธ ๊ฐ์ฒด (20๊ฐœ) 91.7%
๋ฏธ๋ณธ ๊ฐ์ฒด (30+๊ฐœ) 85.6%
ํ‰๊ท  88.7%

ํ…Œ์ŠคํŠธ ์กฐ๊ฑด:

  • ๊ฐ ๊ฐ์ฒด๋‹น 3ํšŒ ์‹œํ–‰
  • 40cm ร— 40cm ์ž‘์—… ๊ณต๊ฐ„ ๋‚ด ๋ฌด์ž‘์œ„ ์œ„์น˜/๋ฐฉํ–ฅ
  • ํŒŒ์ง€ ํ›„ ๋ชฉํ‘œ ๋ฐ”๊ตฌ๋‹ˆ์— ๋ฐฐ์น˜

4.4 Ablation Study ๊ฒฐ๊ณผ

4.4.1 ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ํšจ๊ณผ (\pi_{hand}์—์„œ)

ํ…Œ์ŠคํŠธ ํ”„๋กœํ† ์ฝœ:

  • Phase 1: ์„ฑ๊ณต์  ํŒŒ์ง€ ํ›„ 3์ดˆ๊ฐ„ ์™„์ „ ์‹œ๊ฐ ์œ ์ง€
  • Phase 2: 10์ดˆ๊ฐ„ ์™„์ „ ์‹œ๊ฐ ์ฐจ๋‹จ ์ƒํƒœ์—์„œ ๋ฌผ์ฒด ์œ ์ง€
  • ์„ฑ๊ณต ์กฐ๊ฑด: ๋‘ ๋‹จ๊ณ„ ๋ชจ๋‘ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜์ง€ ์•Š์•„์•ผ ํ•จ
์ด‰๊ฐ ๊ตฌ์„ฑ ํ‰๊ท  ์„ฑ๊ณต๋ฅ 
์ด‰๊ฐ ์—†์Œ (\pi_{hand-origin}) 21%
ํ•ฉ๋ ฅ๋งŒ (\pi_{hand-tacf}) 70%
ํ•ฉ๋ ฅ + ๊ณต๊ฐ„ ์ž„๋ฒ ๋”ฉ (\pi_{hand-tacf-tacs}) 90%

ํ•ต์‹ฌ ๋ฐœ๊ฒฌ:

  • ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ์—†์ด๋Š” ์‹œ๊ฐ ์ฐจ๋‹จ ์‹œ ๊ธ‰๊ฒฉํ•œ ์„ฑ๋Šฅ ์ €ํ•˜
  • ํ•ฉ๋ ฅ ํŠน์ง•๋งŒ์œผ๋กœ๋„ ์ƒ๋‹นํ•œ ๊ฐœ์„  (21% โ†’ 70%)
  • ๊ณต๊ฐ„ ์ด‰๊ฐ ํŠน์ง• ์ถ”๊ฐ€ ์‹œ ์ถ”๊ฐ€ 20%p ๊ฐœ์„ 
  • ๊ณต๊ฐ„ ์ด‰๊ฐ ํŠน์ง•์ด ๊ตญ์†Œ ์ ‘์ด‰ ๋ฏธ๋„๋Ÿฌ์ง ๊ฐ์ง€ ๋ฐ ๋ณด์ƒ ๊ฐ€๋Šฅ

๋ฌผ๋ฆฌ์  ํ•ด์„:

  • ๊ณต๊ฐ„ ์ด‰๊ฐ ํŠน์ง•: ์ ‘์ด‰ ๋ฏธ๋„๋Ÿฌ์ง๊ณผ ์ด๋™ ๊ฐ์ง€/๋ณด์ƒ
  • ํž˜ ํฌ๊ธฐ ํŠน์ง•: ์ ์ ˆํ•œ ํŒŒ์ง€๋ ฅ ์œ ์ง€

4.4.2 Arm-Hand Feature Enhancement์˜ ํšจ๊ณผ

์ œํ•œ๋œ ์ธ์ง€ ์กฐ๊ฑด(์นด๋ฉ”๋ผ ํ•˜๋‚˜ ์ฐจ๋‹จ)์—์„œ ํ…Œ์ŠคํŠธ:

flowchart LR
    subgraph Baseline["Feature Enhancement ์—†์ด<br/>(Baseline VLA)"]
        B1["๋‹จ์ผ undifferentiated ํ‘œํ˜„"]
        B2["์‹œ๊ฐ ๋ฐฉํ•ด์— ์ทจ์•ฝ"]
        B3["ํŒ”-์† ํ˜‘์‘ ๋ถˆ์•ˆ์ •"]
        B1 --> B2 --> B3
    end

    subgraph Enhanced["Feature Enhancement ์ ์šฉ"]
        E1["ํŒ”: ๋„๋‹ฌ ํŠนํ™” ํ‘œํ˜„<br/>์†: ํŒŒ์ง€ ํŠนํ™” ํ‘œํ˜„"]
        E2["๋” ์•ˆ์ •์ ์ธ ์‹คํ–‰"]
        E3["๋†’์€ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ "]
        E1 --> E2 --> E3
    end

    Baseline -.->|"๊ฐœ์„ "| Enhanced

    style Baseline fill:#ffcdd2
    style Enhanced fill:#c8e6c9

4.4.3 Corrective Teleoperation์˜ ํšจ๊ณผ

๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฒค์น˜๋งˆํฌ:

์ •์ฑ… ๋ฒ„์ „ ๋ฐฉํ–ฅ ์‹คํŒจ ์ฝ”๋„ˆ ์ผ€์ด์Šค ์ „์ฒด ์„ฑ๊ณต๋ฅ 
\pi_{uni-enhance} (์ดˆ๊ธฐ) ๋‹ค์ˆ˜ ๋‹ค์ˆ˜ ๋‚ฎ์Œ
\pi_{uni-orient} (๋ฐฉํ–ฅ ํŠœ๋‹) ๊ฐ์†Œ ์ผ๋ถ€ ๊ฐœ์„ 
\pi_{uni-final} (์ตœ์ข…) ์ตœ์†Œ ์ตœ์†Œ ~90%

5. ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ ๋ฐ ํ˜์‹ ์  ๋ถ„์„

5.1 ํ•ต์‹ฌ ๊ธฐ์—ฌ ์š”์•ฝ

1. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ VLA Copilot for Dexterous Grasping

DexGrasp-VLA๋Š” ์‹œ๊ฐ, ์ด‰๊ฐ, ์–ธ์–ด, ๊ณ ์œ ์ˆ˜์šฉ๊ฐ๊ฐ์„ ๊ฐ•๊ฑดํ•˜๊ฒŒ ์œตํ•ฉํ•˜๋Š” ์ตœ์ดˆ์˜ VLA Copilot์ž…๋‹ˆ๋‹ค. ๋ฐ˜์‘์ ์ด๊ณ  ์ปดํ”Œ๋ผ์ด์–ธํŠธํ•œ ์„ธ๋ฐ€ ํŒŒ์ง€ ๋Šฅ๋ ฅ์€ ์ ‘์ด‰ ์ฒ˜๋ฆฌ์™€ ํž˜ ์ ์‘์„ฑ์ด ๋ถ€์กฑํ–ˆ๋˜ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ ‘๊ทผ๋ฒ• ๋Œ€๋น„ ์ฃผ์š” ์ง„์ „์ž…๋‹ˆ๋‹ค.

2. Shared Autonomy for Efficient Data Collection

์ธ๊ฐ„ ์กฐ์ž‘์ž์™€ VLA Copilot ๊ฐ„์˜ ์ œ์–ด๋ฅผ ์ „๋žต์ ์œผ๋กœ ๋ถ„ํ• ํ•˜์—ฌ ๋ฏผ์ฒฉ ์กฐ์ž‘์˜ ๋ฐ์ดํ„ฐ ๋ณ‘๋ชฉ์„ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค:

  • ์ง๊ด€์ ์ธ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜: ๊ณ ์ˆ˜์ค€ ํŒ” ์•ˆ๋‚ด
  • ์ด‰๊ฐ ๊ฐ•ํ™” DexGrasp-VLA: ์ž์œจ ์„ธ๋ฐ€ ํŒŒ์ง€

์ด๋ฅผ ํ†ตํ•ด ์กฐ์ž‘์ž ์ธ์ง€ ๋ถ€ํ•˜๋ฅผ ๋Œ€ํญ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์˜ ํšจ์œจ์  ์ˆ˜์ง‘์„ ๊ฐ€๋Šฅ์ผ€ ํ•ฉ๋‹ˆ๋‹ค.

3. End-to-End VLA with Arm-Hand Feature Enhancement

๋งคํฌ๋กœ(ํŒ”)์™€ ๋งˆ์ดํฌ๋กœ(์†) ๋™์ž‘์˜ ์ œ์–ด๋ฅผ ์ „์šฉ ํŠน์ง• ๊ฒฝ๋กœ๋ฅผ ํ†ตํ•ด ๋ช…์‹œ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•˜๋ฉด์„œ ๊ณต์œ  ์ „์—ญ ์ž‘์—… ํ‘œํ˜„์„ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. ์ด ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ ์€ ํŒ”๊ณผ ์†์˜ ๊ตฌ๋ณ„๋˜๋Š” ์šด๋™ํ•™/๋™์—ญํ•™์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ชจ๋†€๋ฆฌ์‹ ์ปจํŠธ๋กค๋Ÿฌ ๋ฌธ์ œ๋ฅผ ์ง์ ‘ ํ•ด๊ฒฐํ•˜์—ฌ:

  • ์ƒ๋‹นํžˆ ๋” ๊ฐ•๊ฑดํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ํŒ”-์† ํ˜‘์‘
  • ์‹œ๊ฐ์  ์ฐจ๋‹จ์— ๋Œ€ํ•œ ํ–ฅ์ƒ๋œ ํšŒ๋ณต๋ ฅ

4. Corrective Human-in-the-Loop Teleoperation

๋ฐฐํฌ๋œ ์ •์ฑ… ์‹คํ–‰์„ ์ค‘๋‹จํ•˜์ง€ ์•Š๊ณ  ์ž‘๋™ํ•˜๋Š” ๊ต์ • ์ธ๊ฐ„ ๊ฐœ์ž…์„ ๋„์ž…ํ•˜์—ฌ, ์‹ค์ œ ๋ฐฐํฌ ์ค‘ ๋กฑํ…Œ์ผ ์‹คํŒจ ์ผ€์ด์Šค๋กœ๋ถ€ํ„ฐ ์˜๋„์  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ๊ฐ€๋Šฅ์ผ€ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€:

  • ์‚ฌ์ „ ์Šคํฌ๋ฆฝํŠธ ์‹œ์—ฐ๊ณผ ํ˜„์žฅ ๋ฐฐํฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ
  • ์‚ฌ์ „์— ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ค์šด ์ฝ”๋„ˆ ์ผ€์ด์Šค์˜ ํƒ€๊ฒŸ ์ปค๋ฒ„๋ฆฌ์ง€ ์ œ๊ณต
  • ์ž๊ธฐ ๊ฐœ์„  ๋ฐ์ดํ„ฐ ํ”Œ๋ผ์ดํœ  ๊ตฌ์ถ•

5.2 ์„ค๊ณ„ ์ฒ ํ•™ ๊ด€์ ์—์„œ์˜ ๋ถ„์„

์ €์ž๋“ค์˜ ์„ค๊ณ„ ์ฒ ํ•™์€ ํ˜‘๋ ฅ์  ์ธ๊ฐ„-AI ํ”„๋ ˆ์ž„์›Œํฌ ์›์น™์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๊ด€์ง€ ์ด๋ฌผ์งˆ ์ œ๊ฑฐ๋ฅผ ์œ„ํ•œ AI-Copilot ๋กœ๋ด‡ ์—ฐ๊ตฌ์™€ ์œ ์‚ฌํ•œ ์‹œ๋„ˆ์ง€๋ฅผ ์ถ”๊ตฌํ•ฉ๋‹ˆ๋‹ค:

  • AI๊ฐ€ ๋‹จ์ˆœํ•œ ํƒ์ƒ‰ ์ž‘์—… ์ˆ˜ํ–‰ โ†’ ํšจ์œจ์  ํƒ์ƒ‰
  • ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๊ฐ€ ์„ฌ์„ธํ•œ ์ œ๊ฑฐ ์ˆ˜ํ–‰ โ†’ ์ •๋ฐ€์„ฑ๊ณผ ์•ˆ์ „์„ฑ ํ–ฅ์ƒ

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํŒŒ์ง€ ์ž‘์—…์—์„œ:

  • ์‹œ๊ฐ-์ด‰๊ฐ ๊ธฐ๋ฐ˜ ํŒŒ์ง€๋Š” VLA ๊ธฐ๋ฐ˜ ์† ์ œ์–ด๋กœ ์ž์œจ ์‹คํ–‰
  • ์ธ๊ฐ„์€ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ ํŒŒ์ง€ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ํฌ์ง€์…”๋‹ ์•ˆ๋‚ด ์ˆ˜ํ–‰

5.3 ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ๊ณ ์ฐฐ

์ €์ž๋“ค์€ ์ด ์—ฐ๊ตฌ๋ฅผ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต์˜ ํ•„์ˆ˜ ์ „์ œ์กฐ๊ฑด์œผ๋กœ ์œ„์น˜์‹œํ‚ต๋‹ˆ๋‹ค:

โ€œ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต์˜ ํšจ๊ณผ์  ์ „์ œ๋Š” ์ด๋Ÿฌํ•œ ๊ตฌ๋ณ„๋˜๋Š” ๊ฐ๊ฐ์šด๋™ ๊ฒฝ๋กœ๋ฅผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ†ตํ•ฉํ• ์ง€์— ๋Œ€ํ•œ ๊ทผ๋ณธ์  ์ดํ•ด์ž…๋‹ˆ๋‹ค.โ€

SFT๋ฅผ ํ™œ์šฉํ•œ ๋ฏผ์ฒฉํ•œ ์—ฐ๊ตฌ ๋ฐ˜๋ณต์˜ ์žฅ์ : 1. ํ•ต์‹ฌ ๊ตฌ์„ฑ์š”์†Œ(Feature Enhancement, ์ด‰๊ฐ ํ†ตํ•ฉ ๋“ฑ)๋ฅผ ํ†ต์ œ๋œ ํ™˜๊ฒฝ์—์„œ ์‹ ์†ํžˆ ๊ฒฉ๋ฆฌ ๋ฐ ๊ฒ€์ฆ 2. ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์˜ ์‹œ๋งจํ‹ฑ ๋ฐ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ํšจ์œจ์  ํ™œ์šฉ 3. ์œ ์šฉํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ์˜ ๊ทผ๋ณธ์  ๋ฌผ๋ฆฌ ์›๋ฆฌ์— ์ง‘์ค‘

์†Œ๊ทœ๋ชจ์—์„œ ๊ฐœ๋ฐœ๋˜๊ณ  ๊ฒ€์ฆ๋œ ํšจ๊ณผ์  ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด:

  • ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘์„ ์œ„ํ•œ ์ฒญ์‚ฌ์ง„ ์ œ๊ณต
  • ์ง„์ •ํ•œ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋ฌผ๋ฆฌ์  ์ง€๋Šฅ์„ ๊ฐ–์ถ˜ ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ๊ธฐ์ดˆ ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต์˜ ์„ฑ๊ณต ๊ฐ€๋Šฅ์„ฑ ๊ฐ•ํ™”

6. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

6.1 ํ˜„์žฌ ํ•œ๊ณ„

1. ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ

์ดˆ๊ธฐ ๊ฐœ๋… ์ฆ๋ช… ๋‹จ๊ณ„๋กœ:

  • End-to-end VLA: 100๊ฐœ ์‹œ์—ฐ
  • ๊ต์ • ๋ฐ์ดํ„ฐ์…‹: ๊ฐ 50๊ฐœ ๊ถค์ 

๋” ๋‹ค์–‘ํ•œ ์ž‘์—…๊ณผ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ํ™•์žฅ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ์ž‘์—… ๋ฒ”์œ„

ํ˜„์žฌ ์ฃผ๋กœ pick-and-place ํŒŒ์ง€ ์ž‘์—…์— ์ดˆ์ :

  • ๋„๊ตฌ ์‚ฌ์šฉ
  • ์–‘์† ์กฐ์ž‘
  • ์žฅ๊ธฐ ์ž‘์—…

๋“ฑ์œผ๋กœ์˜ ํ™•์žฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

3. ํ•˜๋“œ์›จ์–ด ์˜์กด์„ฑ

ํŠน์ • ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ(UR3e + Xhand)์— ์ตœ์ ํ™”:

  • ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ”Œ๋žซํผ์œผ๋กœ์˜ ์ „์ด ๊ฒ€์ฆ ํ•„์š”
  • ๋‹ค์–‘ํ•œ ์ด‰๊ฐ ์„ผ์„œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๋Œ€ํ•œ ์ ์‘

4. ํž˜ ์ œ์–ด์˜ ์•”๋ฌต์  ํ•™์Šต

ํ˜„์žฌ ํž˜ ์ œ์–ด๊ฐ€ ์–ด๋“œ๋ฏธํ„ด์Šค ๋ฐฉ์‹์˜ ํ–‰๋™ ๋ณต์ œ๋กœ ์•”๋ฌต์  ํ•™์Šต: > โ€œ๊ณ ๊ธ‰ ํž˜ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•œ ๋ฏธ๋ž˜ ๋ฏผ์ฒฉ ์†์€ ๋‹ค๋ฅธ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ฐธ์กฐ ์ ‘์ด‰๋ ฅ์„ ์ง์ ‘ ์ œ์–ดํ•˜์—ฌ ๋” ๋†’์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅโ€

6.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

1. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์‚ฌ์ „ํ•™์Šต

Shared Autonomy ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ:

  • ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•
  • ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ๊ธฐ์ดˆ ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต

2. ํƒœ์Šคํฌ ์ผ๋ฐ˜ํ™” ํ™•์žฅ

  • ๋” ๋ณต์žกํ•œ ์กฐ์ž‘ ์ž‘์—…์œผ๋กœ ํ™•์žฅ
  • ์–‘์† ํ˜‘์‘ ์กฐ์ž‘
  • ๋„๊ตฌ ํ™œ์šฉ ์ž‘์—…

3. Sim-to-Real Transfer ํ†ตํ•ฉ

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ์™€ ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๊ณต๋™ ํ•™์Šต: > โ€œ์‹œ๋ฎฌ๋ ˆ์ด์…˜์ด ๊ธฐ์ดˆ ๋ชจ๋ธ ์‚ฌ์ „ํ•™์Šต์„ ์œ„ํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋Œ€์•ˆ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ์‹ค์ œ ๋ฐ์ดํ„ฐ๋Š” sim-to-real ์ „์ด, ๋ฏธ์„ธ ์กฐ์ •, ๊ณต๋™ ํ•™์Šต์— ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.โ€

4. ์‚ฐ์—… ์ ์šฉ

์ €์ž๋“ค์˜ ์˜ˆ์ธก: > โ€œํ•˜๋“œ์›จ์–ด์™€ ์†Œํ”„ํŠธ์›จ์–ด ์ตœ์ ํ™”์— ๋” ๋งŽ์€ ํˆฌ์ž๋ฅผ ํ•˜๋ฉด ์‹œ์Šคํ…œ ์ˆ˜์ค€ ์„ฑ๋Šฅ์ด 95% ์ด์ƒ ์„ฑ๊ณต๋ฅ ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์‚ฐ์—… ํ‘œ์ค€ ์šด์˜ ์ ˆ์ฐจ(SOP)์—์„œ ์ฑ„ํƒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.โ€


7. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต ๋ถ„์„

7.1 ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ์˜ ์ฐจ๋ณ„์ 

์ธก๋ฉด ๊ธฐ์กด VLA ๋ณธ ์—ฐ๊ตฌ
End-effector ์ฃผ๋กœ 2ํ•‘๊ฑฐ ๊ทธ๋ฆฌํผ 12-DoF 5์ง€ ๋ฏผ์ฒฉ ์†
ํŒ”-์† ์ฒ˜๋ฆฌ ๋ชจ๋†€๋ฆฌ์‹ ์ปจํŠธ๋กค๋Ÿฌ ๋ช…์‹œ์  ํŠน์ง• ๋ถ„๋ฆฌ
์ด‰๊ฐ ํ†ตํ•ฉ ์ „์ฒด ์žฌํ•™์Šต ๋˜๋Š” ๋ณต์žกํ•œ ๊ตฌ์กฐ ๋ชจ๋“ˆ์‹, ๋™์ž‘ ์ „๋ฌธ๊ฐ€์—๋งŒ ์ฃผ์ž…
๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์™„์ „ ์ˆ˜๋™ ๋˜๋Š” ์™„์ „ ์ž๋™ Shared Autonomy

7.2 ์ด‰๊ฐ VLA ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 

VLA-Touch: ์‚ฌ์ „ํ•™์Šต๋œ ์ด‰๊ฐ-์–ธ์–ด ๋ชจ๋ธ + ํ™•์‚ฐ ์ปจํŠธ๋กค๋Ÿฌ Tactile-VLA: ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์œ„์น˜-ํž˜ ์ œ์–ด + ์ƒ์‹ ์ถ”๋ก  OmniVTLA: ๋Œ€๊ทœ๋ชจ 3๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹ + ์‹œ๋งจํ‹ฑ ์ •๋ ฌ

๋ณธ ์—ฐ๊ตฌ์˜ ์ฐจ๋ณ„์ :

  • ๋ชจ๋“ˆ์‹ ์„ค๊ณ„: ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ๋™์ž‘ ์ „๋ฌธ๊ฐ€์—๋งŒ ๊ตญ์†Œ ์ฃผ์ž…
  • Vision-language ๋ฐฑ๋ณธ ์™„์ „ ๋ณด์กด
  • ์ „์ฒด ์žฌํ•™์Šต ์—†์ด ํšจ์œจ์  ํ•™์Šต ๋ฐ ๋ฐฐํฌ
  • ์‹คํ–‰ ์ค‘ ์œ ์šฉํ•œ ์ด‰๊ฐ ์ ‘์ง€ ์œ ์ง€

8. ๊ฒฐ๋ก 

์ด ๋…ผ๋ฌธ์€ ๋ฏผ์ฒฉ ์กฐ์ž‘์„ ์œ„ํ•œ VLA ํ•™์Šต์˜ ํ•ต์‹ฌ ๋ณ‘๋ชฉ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ฒด๊ณ„์ ์ด๊ณ  ์‹ค์šฉ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€:

  1. ์ œ1์›๋ฆฌ์—์„œ ์ถœ๋ฐœ: ํŒ”๊ณผ ์†์˜ ๊ทผ๋ณธ์  ์šด๋™ํ•™/๋™์—ญํ•™ ์ฐจ์ด๋ฅผ ์ธ์ •ํ•˜๊ณ  ์ด๋ฅผ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ํ”„๋กœ์„ธ์Šค์— ๋ช…์‹œ์ ์œผ๋กœ ๋ฐ˜์˜

  2. ์ธ๊ฐ„-AI ์‹œ๋„ˆ์ง€: ์ธ๊ฐ„์˜ ๊ณ ์ˆ˜์ค€ ์ธ์ง€ ๋Šฅ๋ ฅ(๊ณต๊ฐ„ ์ถ”๋ก , ์‹œ๋งจํ‹ฑ ์ดํ•ด)๊ณผ AI์˜ ์„ธ๋ฐ€ํ•œ ๋ฐ˜์‘์  ์ œ์–ด๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋‘ ๊ฐ€์ง€ ์žฅ์ ์„ ๋ชจ๋‘ ํ™œ์šฉ

  3. ์‹ค์šฉ์  ์‹œ์Šคํ…œ ๊ด€์ : ์ด๋ก ์  ์šฐ์•„ํ•จ๋ณด๋‹ค ์‹ค์ œ ๋ฐฐํฌ ๊ฐ€๋Šฅ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์„ค๊ณ„ ์ฒ ํ•™

  4. ๋ฐ˜๋ณต์  ๊ฐœ์„ : ์ •์ ์ธ ๋‹จ์ผ ํ•™์Šต์ด ์•„๋‹Œ ์ง€์†์ ์ธ human-in-the-loop ๊ฐœ์„ ์„ ํ†ตํ•œ ๋กฑํ…Œ์ผ ๋ฌธ์ œ ํ•ด๊ฒฐ

๋กœ๋ด‡๊ณตํ•™์ž์—๊ฒŒ ์ฃผ๋Š” ์‹œ์‚ฌ์ :

  • VLA ๋ชจ๋ธ์˜ ํ™•์žฅ์„ฑ์€ ๋‹จ์ˆœํžˆ ๋ชจ๋ธ ํฌ๊ธฐ๋‚˜ ๋ฐ์ดํ„ฐ ์–‘์ด ์•„๋‹Œ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ๋ถ„ํฌ์— ํฌ๊ฒŒ ์˜์กด
  • ๊ณ ์ž์œ ๋„ ์‹œ์Šคํ…œ์˜ ๊ฒฝ์šฐ ๋ชจ๋†€๋ฆฌ์‹ ์ ‘๊ทผ๋ณด๋‹ค ๊ธฐ๋Šฅ์  ๋ถ„ํ•ด๊ฐ€ ๋” ํšจ๊ณผ์ 
  • ์ด‰๊ฐ ์„ผ์‹ฑ์€ ์‹œ๊ฐ์˜ ๋ณด์กฐ๊ฐ€ ์•„๋‹Œ ํ•„์ˆ˜์  ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋กœ ์ธ์‹ํ•ด์•ผ ํ•จ
  • ์‹ค์ œ ๋ฐฐํฌ์—์„œ๋Š” ์™„๋ฒฝํ•œ ์ •์ฑ…๋ณด๋‹ค ์ง€์†์  ๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์‹œ์Šคํ…œ์ด ๋” ์ค‘์š”

์ด ์—ฐ๊ตฌ๋Š” ๋ฏผ์ฒฉ ์กฐ์ž‘์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ๊ธฐ์ดˆ ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ์ค‘์š”ํ•œ ๋””๋”ค๋Œ์„ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ํšจ๊ณผ์ ์ธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ณผ์ œ์— ๋Œ€ํ•œ ์‹ค์šฉ์  ํ•ด๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์š”์•ฝ: ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์† ์žฌ์ฃผ(dexterity)๋ฅผ ๋กœ๋ด‡์— ๋ถ€์—ฌํ•˜๋Š” ๊ฒƒ์€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋‚œ์ œ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ Vision-Language-Action (VLA) ๋ชจ๋ธ ๋“ฑ์˜ ๋ฐœ์ „์œผ๋กœ ์‹œ๊ฐ, ์–ธ์–ด, ๋™์ž‘์„ ํ†ตํ•ฉํ•œ ์ •์ฑ… ํ•™์Šต์ด ์ฃผ๋ชฉ๋ฐ›์ง€๋งŒ, ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์ด ๊ฑธ๋ฆผ๋Œ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ๋ฆฌ๋ทฐ์—์„œ๋Š” 2025๋…„ 12์›” ๊ณต๊ฐœ๋œ ๋…ผ๋ฌธ โ€œEnd-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collectionโ€์˜ ๋‚ด์šฉ์„ ์‹ฌ์ธต ํ•ด์„คํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๊ณผ ๊ณต์œ  ์ž์œจ์ œ์–ด(Shared Autonomy)๋ฅผ ์ ‘๋ชฉํ•˜์—ฌ ์‚ฌ๋žŒ ํŒ”(Arm) ์›€์ง์ž„์€ ์‚ฌ๋žŒ์ด ์ œ์–ดํ•˜๊ณ , ์„ฌ์„ธํ•œ ์†(Hand) ๋™์ž‘์€ AI ์ •์ฑ…์ด ๋ณด์กฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ๋žŒ์˜ ์ธ์ง€ ๋ถ€ํ•˜๋ฅผ ์ค„์ด๊ณ  ์งง์€ ์‹œ๊ฐ„์— ํšจ๊ณผ์ ์œผ๋กœ ๋กœ๋ด‡ ํŒ”-์† ํ˜‘์กฐ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋ฉฐ, ์ด๋ ‡๊ฒŒ ๋ชจ์€ ๋ฐ์ดํ„ฐ๋กœ Arm-Hand ํŠน์ง• ๊ฐ•ํ™” ๋ชจ๋“ˆ์„ ๊ฐ–์ถ˜ End-to-End VLA ์ •์ฑ…์„ ํ•™์Šตํ•ด ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์— 90%์˜ ๋†’์€ ์กฐ์ž‘ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(Corrective Teleoperation)์„ ๋„์ž…ํ•˜์—ฌ, ๋ฐฐ์น˜ ํ™˜๊ฒฝ์—์„œ ์‚ฌ๋žŒ์ด ์‹คํŒจ ์ƒํ™ฉ์„ ์‹ค์‹œ๊ฐ„ ๊ฐœ์ž…ยท์ˆ˜์ •ํ•˜๋ฉฐ ์ •์ฑ…์„ ๊ณ„์† ๊ฐœ์„ ํ•˜๋Š” ํœด๋จผ ์ธ ๋” ๋ฃจํ”„ ํ•™์Šต ์ „๋žต์„ ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋ณธ๋ฌธ์—์„œ๋Š” VR ํ…”๋ ˆ์˜ต ์ œ์–ด์™€ VLA ๋ชจ๋ธ, Shared Autonomy ๊ฐœ๋…์„ ๋จผ์ € ์„ค๋ช…ํ•˜๊ณ , ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•๋ก (๋ชจ๋“ˆ ๊ตฌ์„ฑ, ํ•™์Šต ์ ˆ์ฐจ, ๊ณต์œ ์ž์œจ ๊ตฌ์กฐ)์„ ์ƒ์„ธํžˆ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ๊ฒฐ๊ณผ (์ •๋Ÿ‰์  ์„ฑ๋Šฅ, ์งˆ์  ์‚ฌ๋ก€, ablation ์‹คํ—˜)๋ฅผ ์‚ดํŽด๋ณด๊ณ , ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ์ฃผ์š” ๊ทธ๋ฆผ๊ณผ ํ‘œ๋ฅผ ์ธ์šฉํ•˜์—ฌ ๊ฐ๊ฐ์˜ ์˜๋ฏธ๋ฅผ ์ž์„ธํžˆ ํ•ด์„คํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1. ๊ธฐ์ˆ  ๋ฐฐ๊ฒฝ

์„ฌ์„ธํ•œ ๋ฌผ์ฒด ์กฐ์ž‘ ๋Šฅ๋ ฅ์„ ์ง€๋‹Œ ๋งŒ๋Šฅ ๋กœ๋ด‡์€ ์˜ค๋žœ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ์ธ๊ฐ„์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๋„๊ตฌ์™€ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋ ค๋ฉด ์‚ฌ๋žŒ์˜ ํŒ”๊ณผ ์†์ด ์ด๋ฃจ๋Š” ๋ณต์žกํ•œ ํ˜‘์กฐ ์šด๋™์„ ๋กœ๋ด‡์ด ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ์ธ๊ณต์ง€๋Šฅ ํ•™์Šต ๊ธฐ๋ฒ•์œผ๋กœ ์ด๋Ÿฌํ•œ ๊ณ ์ฐจ์› ์ œ์–ด๋ฅผ ์ตํžˆ๋ ค๋Š” ์ ‘๊ทผ์ด ํ™œ๋ฐœํ•œ๋ฐ, ํŠนํžˆ Vision-Language-Action (VLA) ๋ชจ๋ธ ๋“ฑ์˜ ๋‹ค์ค‘๋ชจ๋‹ฌ ์ •์ฑ… ํ•™์Šต์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ์—๋Š” ๋Œ€๋Ÿ‰์˜ ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ, ํ˜„์žฌ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ์–ด๋ ค์›€์ด ํฐ ์ œ์•ฝ์ž…๋‹ˆ๋‹ค. ๋ณธ ์ ˆ์—์„œ๋Š” ๋ณธ ๋…ผ๋ฌธ์ด ๋‹ค๋ฃจ๋Š” ํ•ต์‹ฌ ๋ฐฐ๊ฒฝ ๊ธฐ์ˆ ์ธ VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜, VLA ์ •์ฑ…, Shared Autonomy ๊ฐœ๋…์„ ํ•˜๋‚˜์”ฉ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

1.1 VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜

ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(Teleoperation)์€ ์›๊ฒฉ ์กฐ์ž‘์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋กœ๋ด‡๊ณตํ•™์—์„œ๋Š” ์‚ฌ๋žŒ์ด ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋กœ๋ด‡์„ ์ง์ ‘ ์กฐ์ข…ํ•˜๋Š” ๊ฒƒ์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค. ํŠนํžˆ VR(Virtual Reality, ๊ฐ€์ƒํ˜„์‹ค) ๊ธฐ์ˆ ์˜ ๋ฐœ๋‹ฌ๋กœ, ์‚ฌ๋žŒ์€ VR ํ—ค๋“œ์…‹๊ณผ ๋ชจ์…˜ ์ปจํŠธ๋กค๋Ÿฌ ๋“ฑ์˜ ์ž…์ถœ๋ ฅ ์žฅ์น˜๋ฅผ ํ†ตํ•ด ๋งˆ์น˜ ๋กœ๋ด‡์˜ ๋ˆˆ๊ณผ ์†์ด ๋œ ๊ฒƒ์ฒ˜๋Ÿผ ๋ชฐ์ž…๊ฐ ์žˆ๊ฒŒ ๋กœ๋ด‡์„ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ VR ์žฅ๋น„๋ฅผ ์ฐฉ์šฉํ•˜๋ฉด ๋กœ๋ด‡์˜ ์‹œ์  ์นด๋ฉ”๋ผ ์˜์ƒ์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ VR ํ™”๋ฉด์— ๋‚˜ํƒ€๋‚˜๊ณ , ์‚ฌ์šฉ์ž์˜ ์† ๋™์ž‘์ด๋‚˜ ์ปจํŠธ๋กค๋Ÿฌ ์›€์ง์ž„์ด ๋กœ๋ด‡ ํŒ”๊ณผ ์†์˜ ์›€์ง์ž„์œผ๋กœ ๋งคํ•‘๋˜์–ด ์ง๊ด€์ ์ธ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ๊ธฐ์กด์˜ ํ‚ค๋ณด๋“œ/๋งˆ์šฐ์Šค ๋˜๋Š” ํŒฌ๋˜ํŠธ ์กฐ์ž‘๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฌ์šด ์‚ฌ๋žŒ-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ 6์ž์œ ๋„ ๋กœ๋ด‡ ํŒ”์˜ ์œ„์น˜/์ž์„ธ ์ œ์–ด๋„ ์‚ฌ์šฉ์ž๊ฐ€ ์†์„ ๋ป—๋Š” ๋™์ž‘์œผ๋กœ ์‰ฝ๊ฒŒ ์ž…๋ ฅํ•  ์ˆ˜ ์žˆ๊ณ , ์—ฌ๋Ÿฌ ์นด๋ฉ”๋ผ ๋ทฐ๋ฅผ VR๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์›๊ฒฉ ํ˜„์žฅ๊ฐ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ–…ํ‹ฑ ํ”ผ๋“œ๋ฐฑ ์žฅ์น˜๊ฐ€ ์žˆ๋‹ค๋ฉด ์›๊ฒฉ ํ™˜๊ฒฝ์˜ ์ด‰๊ฐ์ด๋‚˜ ํž˜ ๋А๋‚Œ๊นŒ์ง€ ์ „๋‹ฌ๋˜์–ด, ์‚ฌ๋žŒ์ด ์„ฌ์„ธํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์žฅ์  ๋•์— VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ์šฐ์ฃผ ๋กœ๋ด‡, ์›์ž๋ ฅ ํ”Œ๋žœํŠธ, ์˜๋ฃŒ ์ˆ˜์ˆ  ๋กœ๋ด‡ ๋“ฑ ์œ„ํ—˜ํ•˜๊ฑฐ๋‚˜ ์ธ๊ฐ„์ด ์ง์ ‘ ์ ‘๊ทผํ•˜๊ธฐ ์–ด๋ ค์šด ๋ถ„์•ผ์—์„œ ์›๊ฒฉ ์กฐ์ž‘ ์†”๋ฃจ์…˜์œผ๋กœ ์—ฐ๊ตฌ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์—๋„ ํ•œ๊ณ„์™€ ๋ถ€๋‹ด์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๊ณ ์ž์œ ๋„ ๋กœ๋ด‡(์˜ˆ: 6-DoF ํŒ” + ๋‹ค(๋‹ค)์ž์œ ๋„ ์†)์„ ์˜จ์ „ํžˆ ์ธ๊ฐ„์ด ์ œ์–ดํ•˜๋ ค๋ฉด ์‚ฌ๋žŒ์€ ๋™์‹œ์— ๋งค์šฐ ๋งŽ์€ ๊ด€์ ˆ์„ ๋‹ค๋ค„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋กœ๋ด‡์˜ ํŒ” ๊ด€์ ˆ 6๊ฐœ, ์†๊ฐ€๋ฝ ๊ด€์ ˆ 10์—ฌ ๊ฐœ๋ฅผ ํ•œ ์‚ฌ๋žŒ์ด ํ•œ๊บผ๋ฒˆ์— ์‹ค์‹œ๊ฐ„ ์กฐ์ข…ํ•˜๋Š” ๊ฒƒ์€ ์ธ์ง€ ๋ถ€ํ•˜(cognitive load)๊ฐ€ ๋ง‰๋Œ€ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋…ผ๋ฌธ ์ €์ž๋“ค์€ ์™„์ „ ์ˆ˜๋™์œผ๋กœ ํŒ”-์† ๋ชจ๋“  ๊ด€์ ˆ์„ ์กฐ์ž‘ํ•  ๊ฒฝ์šฐ, ํ›ˆ๋ จ๋œ ์‚ฌ๋žŒ๋„ 20~30๋ถ„ ์ •๋„๊ฐ€ ์ง€๋‚˜๋ฉด ์‹ฌ๊ฐํ•œ ํ”ผ๋กœ๋ฅผ ๋А๋ผ๊ณ  ์ง€์† ์กฐ์ž‘์ด ์–ด๋ ต๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ํ•œ๊ณ„ ์ด์ƒ์˜ ๋‡Œ์˜ ์ •๋ณด ์ฒ˜๋ฆฌ์™€ ์‹ ์ฒด ํ”ผ๋กœ๋ฅผ ์œ ๋ฐœํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์žฅ์‹œ๊ฐ„, ๋Œ€๊ทœ๋ชจ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐ ์™„์ „ VR ์ˆ˜๋™ ์กฐ์ž‘์€ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ์‚ฌ๋žŒ์˜ ์ˆ™๋ จ๋„์— ์„ฑ๋Šฅ์ด ์ขŒ์šฐ๋˜๊ณ , ์ผ๊ด€์„ฑ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ํ™•๋ณด๋„ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ์‹œ๊ฐ„์ด ์ง€๋‚ ์ˆ˜๋ก ์ง‘์ค‘๋ ฅ์ด ๋–จ์–ด์ง€๊ณ , ์ฃผ๊ด€์  ์ „๋žต ์ฐจ์ด๋กœ ํŽธ์ฐจ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ํ•™์Šต์šฉ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์—๋„ ์˜ํ–ฅ์„ ์ฃผ์ฃ . ์ด๋Ÿฌํ•œ ์ด์œ ๋กœ ์™„์ „ ์ˆ˜๋™ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜๋งŒ์œผ๋กœ ๋ฐฉ๋Œ€ํ•œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ธฐ์—” ํ˜„์‹ค์ ์ธ ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, VR ๊ธฐ๋ฐ˜ ์›๊ฒฉ์กฐ์ž‘์€ ์ธ๊ฐ„์˜ ์ง๊ด€๊ณผ ํŒ๋‹จ๋ ฅ์„ ํ™œ์šฉํ•ด ๋กœ๋ด‡์„ ์ •๊ตํ•˜๊ฒŒ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ์ˆ˜๋‹จ์ด์ง€๋งŒ, ์‚ฌ๋žŒ์˜ ๊ณผ๋ถ€ํ•˜์™€ ํ”ผ๋กœ๋กœ ์ง€์†์„ฑ์ด ๋–จ์–ด์ง€๋ฉฐ ๋ชจ๋“  ์ž์œ ๋„๋ฅผ ๋™์‹œ์— ์ œ์–ดํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ถ€๋ถ„์„ AI์˜ ๋ณด์กฐ ์ œ์–ด๋กœ ์™„ํ™”ํ•˜๋Š” ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

1.2 Vision-Language-Action (VLA) ์ •์ฑ…

Vision-Language-Action(VLA) ๋ชจ๋ธ์€ ์ตœ๊ทผ ๊ฐ๊ด‘๋ฐ›๋Š” ๋กœ๋ด‡ ์ œ์–ด ์ธ๊ณต์ง€๋Šฅ ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ, ์‹œ๊ฐ, ์–ธ์–ด, ํ–‰๋™ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์ผ๋ฐ˜์ ์ด๊ณ  ์œ ์—ฐํ•œ ๋กœ๋ด‡ ์ œ์–ด๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, VLA ๋ชจ๋ธ์€ ์นด๋ฉ”๋ผ ์˜์ƒ(vision)๊ณผ ์–ธ์–ด ๋ช…๋ น ๋˜๋Š” ์„ค๋ช…(language)์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ๋กœ๋ด‡์˜ ํ–‰๋™(action) ์ถœ๋ ฅ์„ ์‚ฐ์ถœํ•˜๋Š” ์ข…๋‹จ๊ฐ„(end-to-end) ์ •์ฑ…์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์‚ฌ๋žŒ์˜ ์ธ์ง€์™€ ์œ ์‚ฌํ•˜๊ฒŒ, ๋กœ๋ด‡์ด ์‹œ๊ฐ์ ์œผ๋กœ ์ฃผ๋ณ€ ํ™˜๊ฒฝ์„ ์ดํ•ดํ•˜๊ณ  ์–ธ์–ด์  ์ง€์‹œ๋‚˜ ์ž„๋ฌด ์„ค๋ช…์„ ํ•ด์„ํ•˜์—ฌ ์•Œ๋งž์€ ๋ฌผ๋ฆฌ์  ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

VLA ์ ‘๊ทผ์€ ๊ฑฐ๋Œ€ ์‚ฌ์ „ํ•™์Šต๋œ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ํ‘œํ˜„๋ ฅ๊ณผ ์ถ”๋ก ๋ ฅ์„ ๋กœ๋ด‡ ์ œ์–ด์— ํ™œ์šฉํ•œ๋‹ค๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฑฐ๋Œ€ํ•œ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ CLIP, ViLD, PaLM-E ๋“ฑ์˜ ๋ชจ๋ธ์„ ๋กœ๋ด‡์˜ โ€œ๋‡Œโ€๋กœ ์‚ฌ์šฉํ•˜๊ณ , ์ถ”๊ฐ€๋กœ ๊ฐ€๋ฒผ์šด ํ–‰๋™ ๊ฒฐ์ • ๋ชจ๋“ˆ(action head)์„ ๋ถ™์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ์„ธ์กฐ์ •(fine-tuning)ํ•˜๋ฉด, ๋กœ๋ด‡์ด ๋ณต์žกํ•œ ์‹œ๊ฐ ํ™˜๊ฒฝ๊ณผ ๋‹ค์–‘ํ•œ ์–ธ์–ด ์ง€์‹œ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋™์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค. ๊ตฌ๊ธ€์˜ SayCan, RT-2, BEHAVIOR, PaLM-E, Stanford์˜ VIMA ๋“ฑ ์—ฌ๋Ÿฌ VLA ๊ธฐ๋ฐ˜ ์‹œ๋„๊ฐ€ ์ตœ๊ทผ ๋ณด๊ณ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋Œ€๋ถ€๋ถ„์€ ํ”ฝ์•คํ”Œ๋ ˆ์ด์Šค์ฒ˜๋Ÿผ ์งง์€ ๊ณผ์ œ๋‚˜ ๊ฐ„๋‹จํ•œ ๊ทธ๋ฆฌํผ๋ฅผ ์‚ฌ์šฉํ•œ ์‚ฌ๋ก€๊ฐ€ ๋งŽ์•˜์ง€๋งŒ, ๋ฒ”์šฉ ๋กœ๋ด‡์„ ์ง€ํ–ฅํ•ด ๋‹ค์ž์œ ๋„ ์†์œผ๋กœ ํ™•์žฅํ•˜๋ ค๋Š” ์—ฐ๊ตฌ๋„ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ VLA๋ผ๋Š” ์šฉ์–ด๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ํŠนํžˆ DexGrasp-VLA๋ผ ๋ช…๋ช…ํ•œ ์ •์ฑ…๊ณผ arm-hand VLA ์ •์ฑ…์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ํ˜ผ๋™ ์ฃผ์˜: ์—ฌ๊ธฐ์„œ VLA๋Š” โ€™Virtual Lagrangian Augmentationโ€™์ด ์•„๋‹Œ Vision-Language-Action์˜ ์•ฝ์ž์ž…๋‹ˆ๋‹ค. ์ฆ‰ ์‹œ๊ฐ+์–ธ์–ด+ํ–‰๋™ ์ •์ฑ…์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ๊ณต์ง€๋Šฅ ์ •์ฑ…์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ VLA ์ •์ฑ…์ด๋ผ ํ•˜๋ฉด, ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์ด ์‹œ๊ฐ ์ž…๋ ฅ(์นด๋ฉ”๋ผ ์˜์ƒ), ์–ธ์–ด ์ž…๋ ฅ(๋ช…๋ น), ์ƒํƒœ ์ž…๋ ฅ(๋กœ๋ด‡ ๊ด€์ ˆ ๋“ฑ)์„ ๋ฐ›์•„ ๋กœ๋ด‡์˜ ๋ชจ๋“  ๊ด€์ ˆ ๋ช…๋ น์„ ์ถœ๋ ฅํ•˜๋Š” ์ข…๋‹จ๊ฐ„ ์ •์ฑ…์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ์‚ฌ๋žŒ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋˜๋ฉฐ, ํ•™์Šต ํ›„์—๋Š” ์–ธ์–ด๋กœ ํŠน์ • ๋™์ž‘์„ ์ง€์‹œํ•˜๊ฑฐ๋‚˜ ์‹œ๊ฐ์— ๋”ฐ๋ผ ์ ์ ˆํžˆ ๋Œ€์ฒ˜ํ•˜๋Š” ์ผ๋ฐ˜ํ™”๋œ ๋กœ๋ด‡ ์ปจํŠธ๋กค๋Ÿฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ VLA ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ํฌ๊ฒŒ ์ขŒ์šฐ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์ž์œ ๋„ ์† ์กฐ์ž‘์˜ ๊ฒฝ์šฐ, ์‚ฌ๋žŒ์˜ ๋ฏธ์„ธํ•œ ์†๋™์ž‘ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ์ธ๊ฐ„ ์˜์ƒ์—์„œ ๋ชจ์…˜ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜, ๋ถ„๋ฆฌ๋œ ๊ณ„ํš๊ธฐ+์‹คํ–‰๊ธฐ ๊ตฌ์กฐ๋กœ ์ ‘๊ทผํ•˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฌ์ „ํžˆ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•˜๋Š” ๋ฐฉ๋ฒ•์€ Shared Autonomy๋กœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํšจ์œจ์„ ๋†’์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ’€๊ณ , ๋™์‹œ์— ์†-ํŒ” ํ˜‘์กฐ ํŠน์ง•์„ ์ž˜ ํ•™์Šตํ•˜๋„๋ก ํŠน๋ณ„ํ•œ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ(Arm-Hand Feature Enhancement)๋ฅผ ๋„์ž…ํ•œ ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, VLA ์ •์ฑ…์€ ์‹œ๊ฐ๊ณผ ์–ธ์–ด์˜ ํ’๋ถ€ํ•œ ํ‘œํ˜„๋ ฅ์„ ํ™œ์šฉํ•ด ๋กœ๋ด‡ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ๋ฒ•์ด๋ฉฐ, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด ๊ฐœ๋…์„ ์„ฌ์„ธํ•œ ์†-ํŒ” ์กฐ์ž‘์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ธฐ๋ฒ•๊ณผ ์ „์šฉ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฐœ๋ฐœํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

1.3 Shared Autonomy (๊ณต์œ  ์ž์œจ์ œ์–ด)

Shared Autonomy(๊ณต์œ  ์ž์œจ์ œ์–ด)๋Š” ์ธ๊ฐ„ ์กฐ์ž‘๊ณผ ๋กœ๋ด‡ ์ž์œจ์ œ์–ด๋ฅผ ๋™์‹œ์— ํ™œ์šฉํ•˜์—ฌ ์‹œ์Šคํ…œ์„ ์šด์šฉํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๋ง ๊ทธ๋Œ€๋กœ ์ž์œจ์„ฑ(autonomy)์„ ๊ณต์œ ํ•œ๋‹ค๋Š” ๋œป์œผ๋กœ, ์‚ฌ๋žŒ๊ณผ AI/๋กœ๋ด‡์ด ๊ฐ๊ฐ ์ž˜ํ•˜๋Š” ๋ถ€๋ถ„์„ ๋งก์•„ ํ˜‘๋ ฅ์ ์œผ๋กœ ํ•˜๋‚˜์˜ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

์ด ์•„์ด๋””์–ด๋Š” ํŠนํžˆ ์›๊ฒฉ ๋กœ๋ด‡ ์ œ์–ด๋‚˜ ๋ณด์กฐ๊ณตํ•™(assistive tech) ๋ถ„์•ผ์—์„œ ๋ฐœ์ „ํ•ด์™”์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ „๋™ ํœ ์ฒด์–ด๋‚˜ ๋กœ๋ด‡ํŒ”์„ ์‚ฌ์šฉ์ž๊ฐ€ ์กฐ์ข…ํ•  ๋•Œ Shared Control ๊ธฐ๋ฒ•์œผ๋กœ ์‚ฌ์šฉ์ž์˜ ์˜๋„๋งŒ ์ž…๋ ฅํ•˜๋ฉด ์„ธ๋ถ€ ๊ฒฝ๋กœ๋‚˜ ์•ˆ์ „ ์ถฉ๋ŒํšŒํ”ผ ๋“ฑ์€ ๋กœ๋ด‡์ด ์ž๋™ ๋ณด์กฐํ•˜์—ฌ ํŽธ์˜์™€ ์•ˆ์ „์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๋“ค์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ˆ˜์ˆ  ๋กœ๋ด‡์—์„œ๋Š” ์˜์‚ฌ๊ฐ€ ํฐ ์›€์ง์ž„์„ ์กฐ์ข…ํ•˜๊ณ  ์„ธ๋ฐ€ํ•œ ๋–จ๋ฆผ ๋ณด์ •์ด๋‚˜ ์•ˆ์ „์ œ์–ด๋Š” ๋กœ๋ด‡์ด ๋ณด์ •ํ•˜๋Š” ์‹์œผ๋กœ ํ˜‘๋ ฅ ์ œ์–ด๊ฐ€ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ์˜ Shared Autonomy๋Š”, โ€œํฐ ๋™์ž‘(macro)โ€๊ณผ โ€œ๋ฏธ์„ธ ๋™์ž‘(micro)โ€์„ ์ธ๊ฐ„๊ณผ AI๊ฐ€ ๋ถ„๋‹ดํ•˜๋Š” ํ˜•ํƒœ๋กœ ๊ตฌํ˜„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ ์‚ฌ๋žŒ์€ ๋กœ๋ด‡์˜ ํŒ” ๋(end-effector) ์œ„์น˜/์ž์„ธ ๊ฐ™์€ ๊ณ ์ˆ˜์ค€ ๊ณต๊ฐ„ ์กฐ์ž‘์„ VR๋กœ ์ง๊ด€์ ์œผ๋กœ ์ œ์–ดํ•˜๊ณ , AI ์ฝ”ํŒŒ์ผ๋Ÿฟ์€ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ๋“ค์˜ ์„ธ๋ฐ€ํ•œ ์›€์ง์ž„์„ ์‹ค์‹œ๊ฐ„ ์ž์œจ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ์ „์ฒด ์žฅ๋ฉด์— ๋Œ€ํ•œ ์ดํ•ด์™€ ์˜์‚ฌ๊ฒฐ์ •, ๊ณต๊ฐ„์  ์‚ฌ๊ณ ์— ๊ฐ•ํ•˜๋ฏ€๋กœ ์–ด๋–ค ๋ฌผ์ฒด๋ฅผ ์–ด๋–ป๊ฒŒ ์žก์„์ง€ ํŒ”์„ ์›€์ง์—ฌ ์ ์ ˆํ•œ ์œ„์น˜๊นŒ์ง€ ๊ฐ€์ ธ์˜ค๋Š” ๊ฒƒ์„ ๋งก์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด AI๋Š” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์„ผ์„œ ์ฒ˜๋ฆฌ์™€ ๋ฐ˜์‚ฌ์  ์ œ์–ด์— ์œ ๋ฆฌํ•˜๋ฏ€๋กœ, ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ˆœ๊ฐ„์˜ ์†๊ฐ€๋ฝ ํž˜ ์กฐ์ ˆ, ๋ฏธ๋„๋Ÿผ ๋ฐฉ์ง€ ๋“ฑ์„ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ๋žŒ์€ ํŒ” ์›€์ง์ž„์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์–ด ์ธ์ง€ ๋ถ€๋‹ด์ด ํฌ๊ฒŒ ์ค„๊ณ , ์† ๋™์ž‘์€ AI๊ฐ€ ๋„์™€์ฃผ๋ฏ€๋กœ ๋” ์•ˆ์ •์ ์ด๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ํ˜‘์กฐ๊ฐ€ ์ด๋ค„์ง‘๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์ ์€ ํ”ผ๋กœ๋กœ ๋” ๋งŽ์€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์„ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Shared Autonomy์˜ ํ•ต์‹ฌ์€ ์—ญํ•  ๋ถ„๋‹ด์˜ ์ตœ์ ํ™”์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ ๋›ฐ์–ด๋‚œ ์ง๊ด€์  ํŒ๋‹จ๋ ฅ vs. ๊ธฐ๊ณ„์˜ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ๋ฐ˜์‘์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ๊ฐœ๋ณ„๋กœ ํ•  ๋•Œ๋ณด๋‹ค ํšจ์œจ์  ์‹œ๋„ˆ์ง€๋ฅผ ๋‚ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” โ€œํŒ”์€ ์‚ฌ๋žŒ, ์†์€ AIโ€๋ผ๋Š” ๋ถ„์—…์œผ๋กœ ์ด ์›์น™์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. Fig. 1์€ ์ด ์ฐจ์ด๋ฅผ ๊ฐœ๋…์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Figure 1: ์™„์ „ ์ˆ˜๋™ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(์™ผ์ชฝ)๊ณผ ๊ณต์œ  ์ž์œจ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(์˜ค๋ฅธ์ชฝ)์˜ ๊ฐœ๋… ๋น„๊ต ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์—์„œ๋Š” ์‚ฌ๋žŒ์ด VR ์ธํ„ฐํŽ˜์ด์Šค์™€ ๊ฐ์ข… ์žฅ์น˜๋ฅผ ์‚ฌ์šฉํ•ด ํŒ”์˜ ์›€์ง์ž„๊ณผ ์†๊ฐ€๋ฝ ๋™์ž‘ ๋ชจ๋‘๋ฅผ ์›๊ฒฉ ์กฐ์ž‘ํ•ฉ๋‹ˆ๋‹ค (โ€œReach & Graspโ€) . ๋ฐ˜๋ฉด ๋ณธ ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•œ Shared Autonomy ์ฒด๊ณ„์—์„œ๋Š” ์‚ฌ๋žŒ์ด VR๋กœ ํŒ” ์›€์ง์ž„(Reach)๋งŒ ์กฐ์ข…ํ•˜๊ณ , ์† ๋™์ž‘(Grasp)์€ AI ์ฝ”ํŒŒ์ผ๋Ÿฟ์ด ์ž์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ธ๊ฐ„ ์šด์˜์ž์™€ AI ๋ณด์กฐ๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋ชฉํ‘œ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ž‘์—…์„ ๋ถ„๋‹ดํ•˜๋ฉด, ์‚ฌ๋žŒ์€ ๊ณ ์ˆ˜์ค€ ์ „๋žต์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๊ณ  AI๋Š” ์ €์ˆ˜์ค€ ๋ฌผ๋ฆฌ ์ œ์–ด๋ฅผ ๋‹ด๋‹นํ•˜์—ฌ ํšจ์œจ์ ์ธ ์กฐ์ž‘์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

Shared Autonomy๋Š” ๋˜ํ•œ ๋‹จ์ˆœ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ๋„˜์–ด ์‹ค์‹œ๊ฐ„ ์šด์˜์—์„œ๋„ ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋กœ๋ด‡์ด ์ž์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋‹ค ์–ด๋ ค์šด ์ƒํ™ฉ์ด ์˜ค๋ฉด ์‚ฌ๋žŒ์ด ๋Œ€์‹  ์กฐ์ž‘ํ•˜๊ฑฐ๋‚˜, ์‚ฌ๋žŒ์˜ ๋ช…๋ น์ด ๋ชจํ˜ธํ•˜๋ฉด ๋กœ๋ด‡์ด ์ œ์–ด๊ถŒ์„ ์ฅ๊ณ  ์กฐ์ •ํ•˜๋Š” ๋“ฑ ์œ ๋™์  ์ œ์–ด ๊ถŒํ•œ ๊ณต์œ ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ ํ•™์Šต๋œ ์ •์ฑ…์„ ๋กœ๋ด‡์ด ์‹คํ–‰ํ•˜๋‹ค๊ฐ€ ์‹คํŒจ ์‹œ ์ฆ‰๊ฐ ์‚ฌ๋žŒ์ด ๊ฐœ์ž…ํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ๋ฐ”๋กœ์žก๋Š” ๊ต์ • ๋ชจ๋“œ๋ฅผ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ด๊ฒƒ๋„ ์ผ์ข…์˜ Shared Autonomy ์—ฐ์žฅ์„ ์ž…๋‹ˆ๋‹ค.

์ •๋ฆฌ: Shared Autonomy๋Š” ์‚ฌ๋žŒ๊ณผ AI์˜ ํ˜‘๋ ฅ ์ œ์–ด๋กœ, ๊ฐ์ž ์ž˜ํ•˜๋Š” ๋ถ€๋ถ„์„ ๋งก๊ฒจ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด ์›๋ฆฌ๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋‹จ๊ณ„์—์„œ ์‚ฌ๋žŒ์˜ ๋ถ€๋‹ด์„ ๋œ๊ณ  ์งˆ ์ข‹์€ ์‹œ์—ฐ์„ ์–ป๋Š” ๊ฒƒ์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

2. ๋…ผ๋ฌธ ์ œ์•ˆ ๋ฐฉ๋ฒ•๋ก 

์ด์ œ ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ End-to-End ์†-ํŒ” VLA ์ •์ฑ… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•๋ก ์€ ํฌ๊ฒŒ ๋„ค ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ Fig. 2์— ์ „์ฒด ํ๋ฆ„์ด ์š”์•ฝ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค:

Figure 2: ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ์š”. ๊ฐ ๋‹จ๊ณ„๋Š” (a)-(d)๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค: (a) ๋จผ์ € DexGrasp AI ์ฝ”ํŒŒ์ผ๋Ÿฟ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” LSTM ๊ธฐ๋ฐ˜์˜ ํž˜-์ ์‘ ๊ทธ๋ฆฝ (force-adaptive grasping) ์ •์ฑ…์„ ์‹œ์ž‘์œผ๋กœ, ์ด‰๊ฐ+์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ์„ ์‚ฌ์šฉํ•˜๋Š” ์ž์œจ ์† ์ œ์–ด ์ •์ฑ…์„ ์™„์„ฑํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ DexGrasp-VLA ์ •์ฑ…์ด ์ดํ›„ Shared Autonomy์—์„œ ๋กœ๋ด‡ ์†์„ ์ž๋™ ์ œ์–ดํ•˜๋Š” ๋ชจ๋“ˆ์ด ๋ฉ๋‹ˆ๋‹ค. (b) ํ›ˆ๋ จ๋œ DexGrasp-VLA๋ฅผ ํ™œ์šฉํ•˜์—ฌ Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ์šด์˜์ž๋Š” VR๋กœ ํŒ”์„ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ํ•˜๊ณ , ์†์€ AI ์ฝ”ํŒŒ์ผ๋Ÿฟ์ด ์žก๋„๋ก ํ•˜์—ฌ, ํŒ”-์† ๋™์ž‘์ด ๋™๊ธฐํ™”๋œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ชจ์๋‹ˆ๋‹ค. (c) ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด Arm-Hand Feature Enhancement ๋ชจ๋“ˆ์ด ํฌํ•จ๋œ End-to-End VLA ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ์‹œ๊ฐ/์–ธ์–ด/์ƒํƒœ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ํŒ”๊ณผ ์†์˜ ๋ชจ๋“  ๊ด€์ ˆ ๋ช…๋ น์„ ํ•œ๊บผ๋ฒˆ์— ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ด๋ฉฐ, ๋ณ„๋„์˜ ํŒ”/์† ํŠน์ง• ๊ฒฝ๋กœ๋ฅผ ๋‘์–ด ๋งคํฌ๋กœ-๋งˆ์ดํฌ๋กœ ํ˜‘์กฐ๋ฅผ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. (d) ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋ฐฐ์น˜ ์‹œ ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์„ ๊ฐ€๋™ํ•˜์—ฌ ์ง€์†์ ์œผ๋กœ ์ •์ฑ…์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต๋œ ์ •์ฑ…์ด ์ž์œจ ์‹คํ–‰๋˜๋‹ค๊ฐ€ ์‹คํŒจํ•˜๋ฉด ์‚ฌ๋žŒ์ด ๊ฐœ์ž…ํ•ด ์ˆ˜์ •ํ•˜๊ณ , ๊ทธ ๊ต์ • ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์‹œ ์ •์ฑ…์— ๋ฐ˜์˜(fine-tuning)ํ•˜์—ฌ ๊ฐ•๊ฑด์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

์ด ์ „์ฒด ์‹œ์Šคํ…œ์˜ ๋ชฉํ‘œ๋Š” ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ์ง€์†์  ํ•™์Šต ๊ณ ๋„ํ™”๋ฅผ ํ†ตํ•ด, ๋กœ๋ด‡์ด ์‚ฌ๋žŒ ์ˆ˜์ค€์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ์ตํžˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ œ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ์™€ ๋‹จ๊ณ„๋ฅผ ์„ธ๋ถ€์ ์œผ๋กœ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

2.1 ์ „์ฒด ์‹œ์Šคํ…œ ๊ฐœ์š”

๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์š”์•ฝํ•˜๋ฉด: โ€œ์‚ฌ๋žŒ-๋กœ๋ด‡ ํ˜‘์—…์„ ํ†ตํ•ด ์„ฌ์„ธํ•œ ์†-ํŒ” ์‹œ์—ฐ์„ ๋น ๋ฅด๊ฒŒ ๋ชจ์œผ๊ณ , ์ด๋ฅผ ๋‹ค์ค‘๋ชจ๋‹ฌ ์ •์ฑ…์œผ๋กœ ํ•™์Šตํ•˜์—ฌ, ํ•„์š” ์‹œ ์‚ฌ๋žŒ ๊ฐœ์ž…์œผ๋กœ ๊ณ„์† ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.โ€ ์ž…๋‹ˆ๋‹ค.

๋ณด๋‹ค ๊ณต์‹์ ์œผ๋กœ ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•˜๋ฉด, ๋กœ๋ด‡์ด ์‹œ๊ฐ ๊ด€์ฐฐ I, ์–ธ์–ด ๋ช…๋ น L, ๊ทธ๋ฆฌ๊ณ  ๋กœ๋ด‡์˜ ์ž๊ธฐ ์ƒํƒœ S๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ์ผ๋ จ์˜ ๋ฏธ๋ž˜ ํ–‰๋™ \hat{A}_{0:T}์„ ์˜ˆ์ธกํ•˜๋Š” ์ •์ฑ… \pi(\hat{A}_{0:T} \mid I, L, S)๋ฅผ ํ•™์Šตํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ํŒ”์˜ ๊ด€์ ˆ๊ณผ ์†๊ฐ€๋ฝ ๊ด€์ ˆ ๋ชจ๋‘๋ฅผ ํฌํ•จํ•œ ์ „์ฒด ๋™์ž‘ ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ํŒ”-์†์˜ ํ˜‘์กฐ ์ œ์–ด๋ฅผ ๋‹จ์ผ ๋„คํŠธ์›Œํฌ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๋„์ „์ด ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์‚ฌ๋žŒ์˜ ๋„์›€๊ณผ ํŠนํ™”๋œ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋‘ ๊ฐ€์ง€๋ฅผ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๋จผ์ € ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋‹จ๊ณ„์—์„œ, Shared Autonomy ๊ฐœ๋…์„ ํ™œ์šฉํ•ด ์‚ฌ๋žŒ๊ณผ AI ์ฝ”ํŒŒ์ผ๋Ÿฟ์ด ํ˜‘๋ ฅํ•˜์—ฌ ์‹œ์—ฐ์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ VR๋กœ ๋กœ๋ด‡ ํŒ”์„ ์›€์ง์—ฌ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์ „๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•˜๋˜, ์žก๋Š” ์ˆœ๊ฐ„์˜ ์† ๋™์ž‘์€ AI๊ฐ€ ์ž๋™์œผ๋กœ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ๋žŒ์€ ๋กœ๋ด‡ ํŒ” ๋์— ๋‹ฌ๋ฆฐ ์นด๋ฉ”๋ผ ์˜์ƒ์„ ๋ณด๋ฉฐ ๋ฌผ์ฒด์— ์†์ด ๋‹ฟ๋„๋ก ์œ„์น˜๋ฅผ ์žก๊ณ  โ€œ์žก๊ธฐโ€ ํ–‰๋™์„ ํŠธ๋ฆฌ๊ฑฐํ•˜๋ฉด, ๋กœ๋ด‡ ์†์€ ๋ฐ”๋กœ DexGrasp-VLA ์ •์ฑ…์— ์˜ํ•ด ์Šค์Šค๋กœ ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ  ํž˜์„ ์กฐ์ ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ๋žŒ์€ ๋ฌผ์ฒด๊นŒ์ง€ ํŒ”์„ ๊ฐ€์ ธ๊ฐ€๋Š” ๋ฐ ์ง‘์ค‘ํ•˜๊ณ , ์†๊ฐ€๋ฝ ์„ธ๋ถ€ ์กฐ์ž‘์€ ์‹ ๊ฒฝ ์“ฐ์ง€ ์•Š์•„๋„ ๋˜๋ฏ€๋กœ ํ›จ์”ฌ ์ˆ˜์›”ํ•˜๊ฒŒ ์‹œ์—ฐ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ „๋ณด๋‹ค ๋” ๋งŽ์€ ์‹œ์—ฐ์„ ๋” ๋น ๋ฅด๊ฒŒ ๋ชจ์„ ์ˆ˜ ์žˆ๊ณ , ํŒ” ๋™์ž‘๊ณผ ์† ๋™์ž‘์ด ์ž˜ ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ํ™•๋ณด๋ฉ๋‹ˆ๋‹ค.

์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ํฌ๊ฒŒ ๋‘ ์ข…๋ฅ˜๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(1) ํŒ”-์† ๋™์‹œ ์ œ์–ด ์‹œ์—ฐ ๋ฐ์ดํ„ฐ: Shared Autonomy๋กœ ์–ป์€ ๋กœ๋ด‡ ํŒ”+์†์˜ ์ „์ฒด ์‹œํ€€์Šค ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ VR ์กฐ์ž‘ ๊ถค์ (ํŒ” ์›€์ง์ž„)๊ณผ DexGrasp-VLA์˜ ์† ์›€์ง์ž„์ด ์‹œ๊ฐ„์ ์œผ๋กœ ๋™๊ธฐํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ, ์‹œ๊ฐ/์ด‰๊ฐ ์„ผ์„œ ์ •๋ณด์™€ ์–ธ์–ด ์ง€์‹œ๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

(2) ์ˆœ์ˆ˜ ์† ์กฐ์ž‘ ๋ฐ์ดํ„ฐ: DexGrasp-VLA ์ •์ฑ… ์ž์ฒด๋ฅผ ํ›ˆ๋ จํ•  ๋•Œ ์‚ฌ์šฉ๋œ ๋‹ค์–‘ํ•œ ๊ทธ๋ฆฝ ๋™์ž‘ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด์—๋Š” ์ž๋™ ์ œ์–ด๊ธฐ๋กœ ์ƒ์„ฑํ•œ ํž˜์ œ์–ด ์‹œ์—ฐ๊ณผ ์‚ฌ๋žŒ์ด ์†๋งŒ ์ง์ ‘ ์กฐ์ข…ํ•˜์—ฌ ๋ชจ์€ ์‹œ์—ฐ์ด ๋ชจ๋‘ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

(2)์— ํ•ด๋‹นํ•˜๋Š” ๋ฐ์ดํ„ฐ๋Š” DexGrasp-VLA๋ผ๋Š” ํ•˜์œ„ ์ •์ฑ…์„ ํ˜•์„ฑํ•˜๊ณ , (1)์˜ ๋ฐ์ดํ„ฐ๋Š” ์ตœ์ข… end-to-end ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

2.2 DexGrasp-VLA: ์ž์œจ ์† ๋™์ž‘ AI ์ฝ”ํŒŒ์ผ๋Ÿฟ

DexGrasp-VLA๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๋ชจ๋“ˆ ์ค‘ ํ•˜๋‚˜๋กœ, Shared Autonomy ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๋กœ๋ด‡ ์†์˜ ์ž์œจ ์ œ์–ด๋ฅผ ๋‹ด๋‹นํ•˜๋Š” AI ์ฝ”ํŒŒ์ผ๋Ÿฟ(AI Copilot)์ž…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด โ€œ์žก๋Š” ํ–‰์œ„(grasp)โ€๋ฅผ ์‚ฌ๋žŒ ๋Œ€์‹  ์ˆ˜ํ–‰ํ•ด์ฃผ๋Š” ๋˜‘๋˜‘ํ•œ ๋กœ๋ด‡ ์† ์ •์ฑ…์ž…๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์ด ์—†๋‹ค๋ฉด Shared Autonomy์—์„œ ์‚ฌ๋žŒ์ด ์†๊ฐ€๋ฝ๊นŒ์ง€ ๋ชจ๋‘ ์กฐ์ž‘ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, DexGrasp-VLA๋Š” ์‚ฌ๋žŒ์˜ ๋ถ€๋‹ด์„ ์ค„์ด๊ณ ์ž ์„ค๊ณ„๋œ ์ž๋™ ๊ทธ๋ฆฌํผ ์ปจํŠธ๋กค๋Ÿฌ๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

DexGrasp-VLA์˜ ํŠน์ง•์€ ํ’๋ถ€ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ผ์‹ฑ์„ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์‹ค์‹œ๊ฐ„ ์ด‰๊ฐ(tactile) ์„ผ์„œ์™€ ์‹œ๊ฐ(์นด๋ฉ”๋ผ) ํ”ผ๋“œ๋ฐฑ์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์ ์‘์ (force-adaptive)์œผ๋กœ ํ™•์‹คํžˆ ์ฅ˜ ์ˆ˜ ์žˆ๋Š” ์ •์ฑ…์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ DexGrasp-VLA๋Š” ๋‚ด์žฅ ์นด๋ฉ”๋ผ ์˜์ƒ, ์†๊ฐ€๋ฝ ๊ฐ๋„ ๋“ฑ ์† ๊ด€์ ˆ ์ƒํƒœ(proprioception), ๊ทธ๋ฆฌ๊ณ  ๋‘ ๊ฐ€์ง€ ํ˜•ํƒœ์˜ ์ด‰๊ฐ ํ”ผ์ฒ˜๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค:

  • ํ”ผ์ฒ˜1: ํ•ฉ๋ ฅ ๋ฒกํ„ฐ (resultant force vector) : ๊ฐ ์†๊ฐ€๋ฝ์˜ ๋์— ๋‹ฌ๋ฆฐ ํž˜์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์ ‘์ด‰ ํž˜์˜ ํฌ๊ธฐ์™€ ๋ฐฉํ–ฅ์„ ์ถ”์ถœํ•œ ๊ฐ’๋“ค์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์†๊ฐ€๋ฝ๋งˆ๋‹ค ๋ฌผ์ฒด๋ฅผ ๋ˆ„๋ฅด๋Š” ์ˆœ์ˆ˜ ํž˜์„ ๋‚˜ํƒ€๋‚ด, ์ „์ฒด ๊ทธ๋ฆฝ ๊ฐ•๋„๋ฅผ ํŒŒ์•…ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. (๋ฒกํ„ฐ ํฌ๊ธฐ๋กœ ํž˜์˜ ์„ธ๊ธฐ, ๋ฐฉํ–ฅ์œผ๋กœ ํž˜์˜ ํ–ฅํ•˜๋Š” ๋ฐฉํ–ฅ)
  • ํ”ผ์ฒ˜2: ์ด‰๊ฐ ๋ถ„ํฌ ์ž„๋ฒ ๋”ฉ (spatial tactile embedding) : ์†๊ฐ€๋ฝ ํ‘œ๋ฉด์˜ ์ด‰์ง€ ๋ถ„ํฌ ์ง€๋„๋ฅผ CNN์œผ๋กœ ์ž„๋ฒ ๋”ฉํ•œ ๊ณต๊ฐ„ ํŒจํ„ด ํ‘œํ˜„์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ฌผ์ฒด๊ฐ€ ์†๊ฐ€๋ฝ ์–ด๋””์— ์–ด๋–ป๊ฒŒ ๋‹ฟ์•˜๋Š”์ง€, ์ฆ‰ ์ ‘์ด‰ ๋ฉด์ ๊ณผ ๋ถ„ํฌ๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์ •๋ณด์ž…๋‹ˆ๋‹ค.

์ด ๋‘ ์ด‰๊ฐ ํ”ผ๋“œ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด, ์–ผ๋งˆ๋‚˜ ์„ธ๊ฒŒ ์ฅ๊ณ  ์žˆ๋Š”์ง€์™€ ์–ด๋””์„œ ์ ‘์ด‰ํ•˜๊ณ  ๋ฏธ๋„๋Ÿฌ์ง์ด ์žˆ๋Š”์ง€๋ฅผ ์ •ํ™•ํžˆ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋•๋ถ„์— DexGrasp-VLA๋Š” ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์ด์ง€ ์•Š๊ฑฐ๋‚˜ ๋ฌผ์ฒด๊ฐ€ ๋ฏธ๋„๋Ÿฌ์ง€๋ ค๋Š” ์ˆœ๊ฐ„์—๋„ ์ฆ‰๊ฐ์ ์œผ๋กœ ์† ํž˜์„ ์กฐ์ ˆํ•˜์—ฌ ์•ˆ์ •์ ์ธ ํŒŒ์ง€๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, โ€œ๋ˆˆ+์ด‰๊ฐ์œผ๋กœ ๋А๋ผ๋ฉฐ ์žก๋Š”โ€ ๋˜‘๋˜‘ํ•œ ์†์ธ ์…ˆ์ž…๋‹ˆ๋‹ค.

ํ•™์Šต ๋ฐฉ์‹: DexGrasp-VLA ์ •์ฑ…์€ ํ•œ ๋ฒˆ์— ์™„์„ฑ๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋‘ ๋‹จ๊ณ„ ํ•™์Šต์„ ํ†ตํ•ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. (1) ์šฐ์„  ์‹œ๊ฐ์— ์˜์กดํ•˜์ง€ ์•Š๋Š” LSTM ๊ธฐ๋ฐ˜ ๊ทธ๋ฆฝ ์ •์ฑ…์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” โ€œ๋ˆˆ๋จผ(blind) ์ •์ฑ…โ€์œผ๋กœ ๋ถˆ๋ฆฌ๋Š”๋ฐ, ์†์˜ ๊ด€์ ˆ ์ƒํƒœ์™€ ์ด‰๊ฐ ์ •๋ณด๋งŒ ๊ฐ€์ง€๊ณ  ๊ทธ๋ฆฝ ๋™์ž‘์„ ์ตํžˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋Š” ์ด์œ ๋Š” ์‹œ๊ฐ์ธ์‹์˜ ๋ณต์žก์„ฑ์„ ๋ฐฐ์ œํ•˜๊ณ  ์šฐ์„  ์ˆœ์ˆ˜ ์ด‰๊ฐ ๊ธฐ๋ฐ˜์˜ ๊ฒฌ๊ณ ํ•œ ๊ทธ๋ฆฝ ๋™์ž‘์„ ์–ป๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ์ด LSTM ์ •์ฑ…์€ ๊ณผ๊ฑฐ ์ผ์ • ์‹œ๊ฐ„์˜ ์ด‰๊ฐ/๊ด€์ ˆ ํ”ผ๋“œ๋ฐฑ ์‹œํ€€์Šค๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋‹ค์Œ ์†๊ฐ€๋ฝ ๋™์ž‘์„ ๋‚ด๋ณด๋‚ด๋Š” ๋ฐฉ์‹์œผ๋กœ, ์—ฐ์†์ ์ธ ํž˜ ์กฐ์ ˆ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ๋Š” ๋‘ ์ข…๋ฅ˜ ์‹œ์—ฐ์„ ํ˜ผํ•ฉ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ:

  • ์ž๋™ ํž˜์ œ์–ด ์‹œ์—ฐ(68๊ฐœ): ์ €์ž๋“ค์ด ์„ค๊ณ„ํ•œ force-control์„ ํ†ตํ•ด ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ„๋‹จํžˆ ๋งํ•ด, โ€œ์„ผ์„œ ํž˜์ด ์—†์œผ๋ฉด ๋นจ๋ฆฌ ์ฅ๊ณ , ๋‹ฟ๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ํž˜์„ ์ ์ง„์ ์œผ๋กœ ๋†’์—ฌ ๋ฉˆ์ถ˜๋‹คโ€๋Š” ๊ทœ์น™์œผ๋กœ ์›€์ง์ด๋Š” ํฌ์Šค-์ปจํŠธ๋กค๋Ÿฌ์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์œผ๋กœ 50Hz ์ œ์–ด๋กœ ์†์„ ์ฅ๊ฒŒ ํ•˜๋ฉด, ์ดˆ๋ฐ˜์—” ๋น ๋ฅด๊ฒŒ ๋‹ซ๋‹ค๊ฐ€ ์ ‘์ด‰๋˜๋ฉด ์„œ์„œํžˆ ์กฐ์ด๋Š” ์‚ฌ๋žŒ ๊ฐ™์€ ๊ทธ๋ฆฝ์ด ์—ฐ์ถœ๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํž˜-์ ์‘ ์ œ์–ด์˜ ๊ฐ๊ฐ์„ ์ •์ฑ…์— ์ฃผ์ž…ํ•˜๊ธฐ ์œ„ํ•ด ํ™œ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ธ๊ฐ„ ํ…”๋ ˆ์˜ต ์‹œ์—ฐ(150๊ฐœ): ์‚ฌ๋žŒ์—๊ฒŒ Leap Motion ๋“ฑ ์žฅ์น˜๋ฅผ ์จ์„œ ์† ๋™์ž‘์„ ์บก์ฒ˜ํ•˜๊ณ  ๋กœ๋ด‡ ์† (XHand, 12์ž์œ ๋„)์— ๊ธฐ์ˆ (tracking)ํ•˜์—ฌ ์žฌํ˜„ํ•˜๋„๋ก ํ•œ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์‹ค์ œ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ์† ๋™์ž‘์„ ๋กœ๋ด‡ ์†์œผ๋กœ ๋”ฐ๋ผํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฌ์šด ์†๊ฐ€๋ฝ ํ˜‘์‘๊ณผ ํ˜•ํƒœ ํŒŒ์ง€ ์ „๋žต ๋“ฑ์ด ํฌํ•จ๋œ ์‹œ์—ฐ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋‘ ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ๋ฅผ LSTM ์ •์ฑ…์— Behavior Cloning (๋ชจ๋ฐฉํ•™์Šต)์œผ๋กœ ํ•™์Šต์‹œ์ผœ, ์ด‰๊ฐ์— ๋ฐ˜์‘ํ•˜์—ฌ ํž˜์„ ์กฐ์ ˆํ•˜๋Š” ๊ธฐ๋ณธ ์ •์ฑ…์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ •์ฑ…์€ ์•„์ง ์นด๋ฉ”๋ผ ์ž…๋ ฅ์ด ์—†์ง€๋งŒ, ์ ‘์ด‰ ๊ฐ์ง€ ํ›„ ๊ฝ‰ ์ฅ๊ธฐ๊นŒ์ง€์˜ ํž˜ ์กฐ์ ˆ ๋“ฑ ํ•ต์‹ฌ ๊ทธ๋ฆฝ ๋ฐ˜์‘์„ ์ตํ˜”๊ธฐ ๋•Œ๋ฌธ์—, ์‹ค์ œ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ๋น ๋ฅด๊ฒŒ ์ฅ๊ณ  ์•ˆ์ •ํ™”ํ•˜๋Š” ๋™์ž‘์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Fig. 3์€ ์ด LSTM ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐ ์ •์ฑ… ํ•™์Šต ๊ณผ์ •์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

์ดํ›„ (2) ๋‹จ๊ณ„๋กœ, ์œ„์—์„œ ์–ป์€ LSTM ์ •์ฑ…์„ ํฌํ•จํ•˜์—ฌ ์‹œ๊ฐ๊นŒ์ง€ ํ†ตํ•ฉํ•œ VLA ์† ์ •์ฑ…์„ ์™„์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, LSTM ์ •์ฑ…์„ ํ•˜์œ„ ์ œ์–ด๊ธฐ ๋˜๋Š” ์ดˆ๊ธฐํ™”๋กœ ์‚ผ๊ณ , ์นด๋ฉ”๋ผ ๋น„์ „์„ ์ถ”๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์–ด ๊ฐ•ํ™”๋œ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ์†์ด ๋ฌผ์ฒด์˜ ๋ชจ์–‘๊ณผ ์œ„์น˜๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ํŒŒ์•…ํ•˜๋ฉด์„œ, ์—ฌ์ „ํžˆ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์ ๊ทน ํ™œ์šฉํ•ด ์ปจํ…์ŠคํŠธ-์„ผ์‹œํ‹ฐ๋ธŒํ•œ(grasping that is context-aware) ์ž์œจ ๊ทธ๋ฆฝ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. ์ตœ์ข… DexGrasp-VLA๋Š” ์‹œ๊ฐ+์ด‰๊ฐ ๊ธฐ๋ฐ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •์ฑ…์œผ๋กœ์„œ, ์–ธ์–ด ๋ช…๋ น๋„ ์ผ๋ถ€ ํ†ตํ•ฉ๋˜์–ด ํ–ฅํ›„ ์–ธ์–ด๋กœ "์ด ๋ฌผ์ฒด ์ง‘์–ด" ๊ฐ™์€ ์ง€์‹œ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. (๋‹ค๋งŒ ๋ณธ ์—ฐ๊ตฌ์˜ ์‹คํ—˜์—์„œ ์–ธ์–ด ๋ช…๋ น์€ ์ฃผ๋กœ pick-and-place ๊ธฐ๋ณธ ์ง€์‹œ๋กœ ๋™์ผํ•˜์—ฌ ํฐ ๊ตฌ๋ถ„์ด ์—†์—ˆ์Šต๋‹ˆ๋‹ค.)

์ •๋ฆฌํ•˜๋ฉด, DexGrasp-VLA๋Š” ๋กœ๋ด‡ ์†์„ ์œ„ํ•œ ๊ณ ์„ฑ๋Šฅ ์ž๋™ ๊ทธ๋ฆฝ ์ปจํŠธ๋กค๋Ÿฌ๋กœ, ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ์„ผ์„œ๋ฅผ ํ™œ์šฉํ•ด ์‚ฌ๋žŒ ์—†์ด๋„ ์„ฌ์„ธํ•œ ๊ทธ๋ฆฝ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. Shared Autonomy ๋‹จ๊ณ„์—์„œ ์ด ๋ชจ๋“ˆ์ด ์‚ฌ๋žŒ์„ ๋„์™€ ์†๊ฐ€๋ฝ ์ž๋™ ์ œ์–ด๋ฅผ ๋งก์œผ๋ฉฐ, ๋‚˜์•„๊ฐ€ ์ตœ์ข… end-to-end ์ •์ฑ… ํ•™์Šต ์‹œ ์ผ๋ถ€ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์—๋„ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

2.3 VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ (Shared Autonomy)

์œ„์—์„œ ์„ค๋ช…ํ•œ DexGrasp-VLA ์ฝ”ํŒŒ์ผ๋Ÿฟ์ด ์ค€๋น„๋˜๋ฉด, ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ณธ๊ฒฉ์ ์ธ ํŒ”-์† ์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์„ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์ด ๋ฐ”๋กœ Shared Autonomy์˜ ๊ตฌํ˜„์ด๋ฉฐ, ๋…ผ๋ฌธ์—์„œ โ€œsemi-autonomous teleoperation (๋ฐ˜์ž์œจ ํ…”๋ ˆ์กฐ์ž‘)โ€์ด๋ผ๊ณ ๋„ ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ VR ์ธํ„ฐํŽ˜์ด์Šค๋กœ ๋กœ๋ด‡ ํŒ”์„ ์กฐ์ข…ํ•˜๊ณ , ์†๊ฐ€๋ฝ์€ AI๊ฐ€ ์ž๋™์œผ๋กœ ์ œ์–ดํ•˜๋Š” ๋ฐฉ์‹์ด์ฃ . ์ด ์ ˆ์—์„œ๋Š” ๊ตฌ์ฒด์ ์œผ๋กœ VR ์กฐ์ž‘ ์‹œ์Šคํ…œ๊ณผ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

VR ์กฐ์ž‘ ์‹œ์Šคํ…œ: ์‚ฌ๋žŒ ์šด์˜์ž๋Š” HTC Vive์™€ ๊ฐ™์€ VR ํ—ค๋“œ์…‹์„ ์ฐฉ์šฉํ•˜๊ณ , ์–‘์† ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ํŒ”์„ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค.

๋…ผ๋ฌธ Fig. 5์— ํ•ด๋‹น ์‹œ์Šคํ…œ์ด ๋ฌ˜์‚ฌ๋˜์–ด ์žˆ๋Š”๋ฐ, ์ƒ๋Œ€์  ์›€์ง์ž„ ๋งคํ•‘(relative motion mapping) ์ „๋žต์„ ํ™œ์šฉํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ์•„๋งˆ๋„ ์‚ฌ์šฉ์ž์˜ ์† ์›€์ง์ž„ ๋ณ€ํ™”๋Ÿ‰์„ ๋กœ๋ด‡ ํŒ”์˜ ์†๋„ ๋ช…๋ น์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ฑฐ๋‚˜, ๊ธฐ์ค€์  ๋Œ€๋น„ ์ƒ๋Œ€ ์ด๋™์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ ์ž‘์—… ์˜์—ญ ๋‚ด์—์„œ ์œ ์—ฐํ•˜๊ฒŒ ํŒ”์„ ์›€์ง์ด๊ฒŒ ํ•œ ๊ฒƒ์œผ๋กœ ์ถ”์ธก๋ฉ๋‹ˆ๋‹ค (์ผ๋ฐ˜์ ์œผ๋กœ VR teleop์—์„œ absolute mapping์€ ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ, ๊ธฐ์ค€์ ์„ ๊ฐฑ์‹ ํ•˜๋ฉฐ ์ƒ๋Œ€์ ์œผ๋กœ ์›€์ง์ด๋Š” ๊ธฐ๋ฒ•์ด ์“ฐ์ž…๋‹ˆ๋‹ค). ๋˜ํ•œ VR ํ™˜๊ฒฝ์—๋Š” ๋กœ๋ด‡์˜ ์นด๋ฉ”๋ผ ์‹œ์  ์˜์ƒ๊ณผ ๊ฐ€์ƒ ๋ชจ๋ธ ๋“ฑ์ด ๋‚˜ํƒ€๋‚˜์„œ, ์‚ฌ์šฉ์ž๊ฐ€ ๋งˆ์น˜ ๋กœ๋ด‡ ์•ž์— ์žˆ๋Š”๋“ฏ ์ƒํ™ฉ์„ ๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์†๊ฐ€๋ฝ ์ œ์–ด ์ž…๋ ฅ์€ ์‚ฌ๋žŒ์ด ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ, ๊ตณ์ด ๋ฐ์ดํ„ฐ๊ธ€๋Ÿฌ๋ธŒ๋ฅผ ๋ผ์ง€ ์•Š์•„๋„ ๋˜๋ฉฐ, ์ปจํŠธ๋กค๋Ÿฌ ๋ฒ„ํŠผ์œผ๋กœ โ€œ์žก๊ธฐ/๋†“๊ธฐโ€ ํŠธ๋ฆฌ๊ฑฐ ์ •๋„๋งŒ ๋ˆ„๋ฅด๋ฉด DexGrasp-VLA๊ฐ€ ๋™์ž‘ํ•˜๋„๋ก ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ๋งŒ๋“ค์–ด์กŒ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ ˆ์ฐจ: ์šด์˜์ž๋Š” VR๋กœ ์ž„๋ฌด ํ™˜๊ฒฝ์„ ๊ด€์ฐฐํ•˜๋ฉฐ, ์˜ˆ์ปจ๋Œ€ ํ…Œ์ด๋ธ” ์œ„์˜ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ์˜ฎ๊ธฐ๋Š” ์ž‘์—…์„ ์‹œ์—ฐํ•ฉ๋‹ˆ๋‹ค. ์ž„๋ฌด์˜ ์–ธ์–ด ์ง€์‹œ(L)๋Š” ์‚ฌ์ „์— "์ด ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ๋ฐ”๊ตฌ๋‹ˆ์— ๋„ฃ์–ด" ๋“ฑ์œผ๋กœ ์ฃผ์–ด์ง€๋ฉฐ, ๋กœ๋ด‡์€ ๊ทธ ๋ช…๋ น๊ณผ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์•Œ๊ณ  ์žˆ๋Š” ์ƒํƒœ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ์šฐ์„  ๋กœ๋ด‡ ํŒ”์„ ๋ป—์–ด ๋ฌผ์ฒด ์ชฝ์œผ๋กœ ๋‹ค๊ฐ€๊ฐ€ ์—”๋“œ์ดํŽ™ํ„ฐ(์†)๋ฅผ ์ ์ ˆํ•œ ์ž์„ธ๋กœ ์œ„์น˜์‹œํ‚ต๋‹ˆ๋‹ค (ํ•„์š”ํ•˜๋‹ค๋ฉด ์ฑ…์ƒ ํ‘œ๋ฉด์„ ์“ธ์–ด ๋ฌผ์ฒด๋ฅผ ์žก๊ธฐ ์‰ฝ๊ฒŒ ํ•˜๋Š” ๋“ฑ์˜ ์‚ฌ์ „ ๋™์ž‘(pre-grasp interactions)๋„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค โ€“ Shared Autonomy์ด๊ธฐ์— ์‚ฌ๋žŒ์€ ๊ทธ๋Ÿฐ ๊ณ ์ˆ˜์ค€ ์ „๋žต์„ ์ˆ˜๋™์œผ๋กœ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ). ๋ฌผ์ฒด๋ฅผ ์žก์„ ์ค€๋น„๊ฐ€ ๋˜๋ฉด, ์‚ฌ๋žŒ์ด ๊ทธ๋ฆฝ์„ ์ง€์‹œํ•˜๋Š” ์ž…๋ ฅ(๋ฒ„ํŠผ)์„ ์ฃผ๊ณ  DexGrasp-VLA ์ •์ฑ…์ด ํ™œ์„ฑํ™”๋˜์–ด ๋กœ๋ด‡ ์†๊ฐ€๋ฝ์ด ๋‹ซํžˆ๊ธฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ DexGrasp-VLA๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ๋Œ€๋กœ ์ด‰๊ฐ๊ณผ ๋น„์ „์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ํŒŒ์•…ํ•˜๋ฉด์„œ ์•Œ๋งž์€ ํž˜์œผ๋กœ ๊ฝ‰ ์ฅ๊ณ  ๋ฏธ๋„๋Ÿผ ์—†๋„๋ก ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ์†์ด ์ž˜ ์žก์•˜๋Š”์ง€ ํ™•์ธํ•œ ํ›„, ๋กœ๋ด‡ ํŒ”์„ ๋“ค์–ด์˜ฌ๋ ค ๋ชฉํ‘œ ์ง€์ (์˜ˆ: ๋ฐ”๊ตฌ๋‹ˆ)์œผ๋กœ ๊ฐ€์ ธ๊ฐ‘๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ๋†“๊ธฐ(release) ๋ช…๋ น์„ ํŠธ๋ฆฌ๊ฑฐํ•˜๋ฉด ์†๊ฐ€๋ฝ์ด ์—ด๋ฆฌ๊ณ  ๋ฌผ์ฒด๋ฅผ ๋‚ด๋ ค๋†“์Šต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ Pick & Place ์‹œ์—ฐ ํ•˜๋‚˜๊ฐ€ ์™„๋ฃŒ๋ฉ๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ ์‚ฌ๋žŒ๊ณผ AI์˜ ํ˜‘์—… ๋•๋ถ„์— ์–ป๋Š” ์ด์ ์€ ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค:

  • ์‚ฌ๋žŒ์€ ํŒ” ์ด๋™ ๊ถค์ ๊ณผ ๋ฌผ์ฒด/ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์— ์ง‘์ค‘ํ•˜๋ฏ€๋กœ, ๋ณด๋‹ค ๋‹ค์–‘ํ•˜๊ณ  ์ฐฝ์˜์ ์ธ ์‹œ์—ฐ ์ „๋žต์„ ๊ตฌ์‚ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ๋ฌผ์ฒด๋Š” ๋ฐ€์–ด์„œ ์žก๊ณ , ์–ด๋–ค ๊ฒƒ์€ ๋Œ๋ ค ์žก๋Š” ๋“ฑ ์‚ฌ์ „ ๋™์ž‘์ด ํ•„์š”ํ•œ๋ฐ, ๊ทธ๋Ÿฐ ๋ถ€๋ถ„์„ ์‚ฌ๋žŒ์˜ ํŒ๋‹จ์œผ๋กœ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ. ๋ฐ˜๋ฉด ๊ธฐ์กด ์™„์ „ ์ž๋™ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ์€ ์ด๋Ÿฐ ๋‹ค์–‘์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • DexGrasp-VLA๊ฐ€ ์†์„ ์ž˜ ์ œ์–ดํ•ด์ฃผ๋‹ˆ, ๋งค ์‹œ์—ฐ๋งˆ๋‹ค ์†๊ฐ€๋ฝ ์‹ค์ˆ˜๋กœ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜๊ฑฐ๋‚˜ ์ด์ƒํ•œ ์ž์„ธ๋กœ ์žกํžˆ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค. ์‹ค์ œ ํ”Œ๋ž˜๋„ˆ๋กœ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋ถ€์ž์—ฐ์Šค๋Ÿฐ ๊ทธ๋ฆฝ ์ž์„ธ๊ฐ€ ํ”ํ–ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์„  ์‚ฌ๋žŒ์˜ ์ง€์‹๊ณผ AI์˜ ์ด‰๊ฐ์ œ์–ด ๊ฒฐํ•ฉ์œผ๋กœ ์•ˆ์ •์  ํŒŒ์ง€๊ฐ€ ๋ณด์žฅ๋ฉ๋‹ˆ๋‹ค.
  • ์ „๋ฐ˜์ ์œผ๋กœ ์‚ฌ๋žŒ์€ ์ „๋‘์—ฝ(๊ณ„ํš) ์—ญํ• , AI๋Š” ์†Œ๋‡Œ(๋ฐ˜์‚ฌ) ์—ญํ• ์„ ํ•˜๋ฉฐ, ์ธ์ง€ ํ”ผ๋กœ๊ฐ€ ๋‚ฎ์•„ ์‚ฌ๋žŒ ์กฐ์ž‘ ์„ธ์…˜์„ ๊ธธ๊ฒŒ ๊ฐ€์ ธ๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์„œ ๋งํ–ˆ๋“ฏ 20๋ถ„์ด ํ•œ๊ณ„์˜€๋‹ค๋ฉด, ์ด์ œ๋Š” ๊ฐ™์€ ์‚ฌ๋žŒ์ด ํ›จ์”ฌ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด์ฃ .

๋…ผ๋ฌธ์—์„œ๋Š” ์ด Shared Autonomy ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์œผ๋กœ ๋†’์€ ์„ฑ๊ณต๋ฅ ์˜ ์‹œ์—ฐ๋“ค์„ ์ตœ์†Œ ์ธ๋ ฅ์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ DexGrasp-VLA์˜ 95% ์ด์ƒ ๊ทธ๋ฆฝ ์„ฑ๊ณต๋ฅ  ๋•๋ถ„์—, ์‚ฌ๋žŒ์€ ์‹คํŒจ ๋ณต๊ตฌ์— ์‹œ๊ฐ„ ๋บ๊ธฐ์ง€ ์•Š๊ณ  ์—ฐ์†์ ์œผ๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ ์ €์ž๋“ค์€ 50๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ „์‹ (ํŒ”+์†) ์กฐ์ž‘ ์‹œ์—ฐ์„ ํ™•๋ณดํ•˜์˜€๊ณ , ๊ฐ ๋ฌผ์ฒด๋งˆ๋‹ค ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ฐ˜๋ณต์„ ํ†ตํ•ด ์•ฝ ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋ฐ๋ชจ๋ฅผ ์–ป์€ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์—๋Š” ์‚ฌ๋žŒ์˜ ํŒ” ์šด๋™๊ณผ AI์˜ ์† ์šด๋™์ด ๊ฒฐํ•ฉ๋œ ๋…ํŠนํ•œ ๋ชจ์…˜๋“ค์ด ๋‹ด๊ฒจ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ดํ›„ ํ•™์Šต์— ๊ท€์ค‘ํ•œ ์ž์‚ฐ์ด ๋ฉ๋‹ˆ๋‹ค.

2.4 Arm-Hand Feature Enhancement ๋ชจ๋“ˆ๊ณผ End-to-End VLA ํ•™์Šต

Shared Autonomy๋กœ ๋ชจ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ์ด์ œ ํŒ”-์† ์ข…๋‹จ๊ฐ„ ์ •์ฑ…์„ ํ•™์Šตํ•  ์ฐจ๋ก€์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š”, ์ด๋Ÿฌํ•œ End-to-End VLA ์ •์ฑ…์— Arm-Hand Feature Enhancement๋ผ๋Š” ์ƒˆ๋กœ์šด ์‹ ๊ฒฝ๋ง ๋ชจ๋“ˆ์„ ๋„์ž…ํ•œ ์ ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋“ˆ์€ ํŒ”(Arm)๊ณผ ์†(Hand) ๋™์ž‘์˜ ํŠน์ง• ํ‘œํ˜„(feature representation)์„ ๋ถ„๋ฆฌํ•˜๋ฉด์„œ๋„ ๊ณต์œ ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด, ๋” ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ๊ฐ•์ธํ•œ ํ˜‘์กฐ ์ œ์–ด๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ•ฉ๋‹ˆ๋‹ค.

์™œ ํ•„์š”ํ•œ๊ฐ€? ์ผ๋ฐ˜์ ์ธ End-to-End ์ •์ฑ…(์˜ˆ: ํ•˜๋‚˜์˜ ๊ฑฐ๋Œ€ํ•œ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์นด๋ฉ”๋ผ ์˜์ƒ๊ณผ ์–ธ์–ด๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ๋ชจ๋“  ๊ด€์ ˆ๊ฐ’์„ ์ถœ๋ ฅ)์€ ํŒ”๊ณผ ์†์˜ ์—ญํ•  ์ฐจ์ด๋ฅผ ๊ตฌ๋ถ„ ์—†์ด ๋‹ค๋ฃจ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํŒ” ๋™์ž‘๊ณผ ์† ๋™์ž‘์€ ์šด๋™ํ•™์ /๊ธฐ๋Šฅ์ ์œผ๋กœ ๋งค์šฐ ๋‹ค๋ฅด๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค: - ํŒ”์€ ๋ฌผ์ฒด๊นŒ์ง€ ์ด๋™(reaching)ํ•˜๋Š” ๊ฑฐ์‹œ์ (macro) ์›€์ง์ž„์ด๊ณ , ๊ฒฝ๋กœ ์ตœ์ ํ™”์™€ ์žฅ์• ๋ฌผ ํšŒํ”ผ, ์ข…๋‹จ ์œ„์น˜ ์ •ํ™•๋„ ๋“ฑ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. - ์†์€ ๋ฌผ์ฒด๋ฅผ ์žก๋Š”(grasping) ๋ฏธ์‹œ์ (micro) ์›€์ง์ž„์ด๋ฉฐ, ๊ตญ์ง€์ ์ธ ์ ‘์ด‰๋ ฅ ์กฐ์ ˆ, ์†๊ฐ€๋ฝ ๊ฐ„ ํ˜‘์‘, ๋ฌผ์ฒด ํ˜•ํƒœ ์ ์‘ ๋“ฑ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

์ฆ‰, ํ•„์š”ํ•œ ์ •๋ณด์™€ ์ œ์–ด ํŒจํ„ด์ด ๋‹ค๋ฅด์ฃ . ํŒ” ์›€์ง์ž„์€ ์‹œ๊ฐ์ ์œผ๋กœ ๋ฌผ์ฒด์™€ ๊ณต๊ฐ„์„ ํŒŒ์•…ํ•ด ๋ถ€๋“œ๋Ÿฌ์šด ๊ฒฝ๋กœ๋ฅผ ๊ทธ๋ฆฌ๋Š” ๊ฒŒ ์ค‘์š”ํ•˜๊ณ , ์† ์›€์ง์ž„์€ ์ด‰๊ฐ/๊ทผ์ ‘์‹œ๊ฐ์œผ๋กœ ์ ‘์ด‰ ์ด๋ฒคํŠธ์— ๋ฐ˜์‘ํ•˜๋Š” ๊ฒŒ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ ๋„คํŠธ์›Œํฌ๋Š” ์ด ๋‘ ์š”๊ตฌ์‚ฌํ•ญ์„ ๋’ค์„ž์–ด ํ‘œํ˜„ํ•˜๋‹ค ๋ณด๋‹ˆ, ํŠน์ • ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์ •๋ณด(์˜ˆ: ์‹œ๊ฐ)๊ฐ€ ์ง€๋ฐฐ์ ์ด ๋˜์–ด ๊ท ํ˜• ์žกํžŒ ์ œ์–ด ์ „๋žต์„ ํ•™์Šตํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์ด ์‹คํ—˜ํ•œ ๋ฐ”์— ๋”ฐ๋ฅด๋ฉด, ๋‹จ์ผ ํ‘œํ˜„์— ๋ชจ๋“  ์ •๋ณด๋ฅผ ๋„ฃ์€ ๋ฒ ์ด์Šค๋ผ์ธ์€ ์นด๋ฉ”๋ผ ์‹œ์•ผ๊ฐ€ ๊ฐ€๋ ค์ง€๋Š” ์ƒํ™ฉ ๋“ฑ์—์„œ ์†-ํŒ” ํ˜‘์‘์ด ๋ง๊ฐ€์ ธ ์„ฑ๋Šฅ์ด ๊ธ‰๋ฝํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

Arm-Hand Feature Enhancement ๋ชจ๋“ˆ ์„ค๊ณ„: ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์ •์ฑ… ๋„คํŠธ์›Œํฌ ๋‚ด๋ถ€๋ฅผ ๊ณต์œ +๋ถ„๊ธฐ ๊ตฌ์กฐ๋กœ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ์„  ๊ธฐ๋ณธ VLA ๋ชจ๋ธ (์‚ฌ์ „ํ•™์Šต VLM + ์•ก์…˜ ํ—ค๋“œ)์€ ๊ทธ๋Œ€๋กœ ์“ฐ๋˜, ์ถ”๊ฐ€๋กœ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๊ฒฝ๋กœ๋ฅผ ๋ณ‘๋ ฌ๋กœ ๋‘ก๋‹ˆ๋‹ค:

  1. Arm ์ „์šฉ ๊ฒฝ๋กœ : ํŒ” ๋™์ž‘์— ํŠนํ™”๋œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ถ€๋ถ„
  2. Hand ์ „์šฉ ๊ฒฝ๋กœ : ์† ๋™์ž‘์— ํŠนํ™”๋œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” ๋ถ€๋ถ„

๊ตฌ์ฒด์ ์œผ๋กœ, Fig. 6์— ์ด ๊ตฌ์กฐ๊ฐ€ ๋‚˜ํƒ€๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Figure 3: Arm-Hand Feature Enhancement ๋ชจ๋“ˆ์˜ ๊ฐœ๋žต๋„. ์ƒ๋‹จ์˜ ํŒŒ๋ž€์ƒ‰ ๋ธ”๋ก์€ ๊ธฐ์กด ์‚ฌ์ „ํ•™์Šต๋œ VLM(์‹œ๊ฐ-์–ธ์–ด ๋ฐฑ๋ณธ)์—์„œ ๋‚˜์˜จ ๊ณต์œ  ์ž„๋ฒ ๋”ฉ z_t^{share}์ด๋ฉฐ, ์ด๋Š” ๋น„์ „, ์–ธ์–ด, ๋กœ๋ด‡ ์ƒํƒœ๋ฅผ ํ†ตํ•ฉํ•œ ์ „์—ญ(task-level) ํ‘œํ˜„์ž…๋‹ˆ๋‹ค. ์ด shared ํ‘œํ˜„์€ ๋กœ๋ด‡์ด ๋ฌด์—‡์„ ํ•ด์•ผ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ „์ฒด ๋งฅ๋ฝ์„ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์™ผ์ชฝ ์ดˆ๋ก ๊ฒฝ๋กœ E_{arm}์€ ํŒ” ์›€์ง์ž„์— ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” Arm ์ธ์ฝ”๋”์ด๊ณ , ์˜ค๋ฅธ์ชฝ ์ดˆ๋ก ๊ฒฝ๋กœ E_{hand}๋Š” ์†์— ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๋Š” Hand ์ธ์ฝ”๋”์ž…๋‹ˆ๋‹ค. ๋‘ ๊ฒฝ๋กœ ๋ชจ๋‘ shared ์ž„๋ฒ ๋”ฉ z_t^{share}๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ฑฐ๋‚˜, ํ˜น์€ ๋ณ„๋„๋กœ ์นด๋ฉ”๋ผ/์ด‰๊ฐ ๋“ฑ์˜ ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ํ•ด๋‹น ๊ฒฝ๋กœ์— ์ถ”๊ฐ€ ํˆฌ์ž…ํ•  ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค (๋…ผ๋ฌธ ์–ธ๊ธ‰์œผ๋กœ๋Š” โ€œ๊ฐ ๊ฒฝ๋กœ์— ๋ณด์กฐ ์ž…๋ ฅ์„ ๋„ฃ๊ณ , ๋ณด์กฐ loss๋กœ ์ตœ์ ํ™”โ€ํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค).

Arm ์ธ์ฝ”๋” E_{arm}์€ ํŒ”์˜ ์œ„์น˜/๊ฒฝ๋กœ์— ๋ฏผ๊ฐํ•œ ํŠน์ง• z_t^{arm}์„ ๋ฝ‘๊ณ , Hand ์ธ์ฝ”๋” E_{hand}๋Š” ์†์˜ ์ ‘์ด‰/๊ทธ๋ฆฝ์— ๋ฏผ๊ฐํ•œ ํŠน์ง• z_t^{hand}์„ ๋ฝ‘์Šต๋‹ˆ๋‹ค. ๊ฐ ๊ฒฝ๋กœ ๋์—๋Š” ์ฃผํ™ฉ์ƒ‰ ๋ธ”๋ก H_{arm}, H_{hand}๋กœ ํ‘œ์‹œ๋œ ๋ชจ๋“ˆ์ด ์žˆ๋Š”๋ฐ, ์ด๋Š” ์•„๋งˆ ํŒ”/์† ๋ณ„๋กœ ์ •์˜ํ•œ ๋ณด์กฐ ํ•™์Šต ํ—ค๋“œ๋กœ ์ถ”์ธก๋ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ H_{arm}์€ ํŒ” ๊ด€๋ จ ์˜ˆ์ธก (ํŒ”๋งŒ์˜ ๋ฏธ๋ž˜ ๊ถค์  ๋“ฑ)์„ ํ•˜๊ณ , H_{hand}๋Š” ์† ๊ด€๋ จ ์˜ˆ์ธก (์†๊ฐ€๋ฝ ํž˜ ํŒจํ„ด ๋“ฑ)์„ ํ•ด์„œ auxiliary loss๋ฅผ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ, ๊ฐ๊ฐ์˜ ์ธ์ฝ”๋”๊ฐ€ ์ „๋ฌธํ™”๋˜๋„๋ก ์œ ๋„ํ–ˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰ E_{arm}์€ reach ๋™์ž‘์— ์ตœ์ ํ™”, E_{hand}๋Š” grasp ๋™์ž‘์— ์ตœ์ ํ™”๋˜๋„๋ก ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฐ ๋‹ค์Œ, ์ตœ์ข…์ ์œผ๋กœ ์ด ๋‘˜๊ณผ ์›๋ž˜ ๊ณต์œ  ํ‘œํ˜„์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. Fig. 6 ํ•˜๋‹จ์— ํŒŒ๋ž€ ์ ์„ ์œผ๋กœ [z_t^{arm}, z_t^{share}, z_t^{hand}] ์„ธ ๋ฒกํ„ฐ๋ฅผ ๋ถ™์—ฌ ๋งŒ๋“  ์ „์ฒด ํ‘œํ˜„ H_{full}์ด ๋ณด์ž…๋‹ˆ๋‹ค. ์ด H_{full}์ด์•ผ๋ง๋กœ ํŒ”๊ณผ ์†์˜ ๋ถ„๋ฆฌ๋œ ์ •๋ณด๊ฐ€ ๋‹ค์‹œ ํ•ฉ์ณ์ง„ ํ†ตํ•ฉ ํ‘œํ˜„์ด๋ฉฐ, ์—ฌ๊ธฐ์—๋Š” ๊ธ€๋กœ๋ฒŒ ๋งฅ๋ฝ(z^{share})๊ณผ ํŒ” ํŠน์œ ์˜ ์ƒํƒœ(z^{arm}), ์† ํŠน์œ ์˜ ์ƒํƒœ(z^{hand})๊ฐ€ ๋ชจ๋‘ ๋“ค์–ด์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ์ด H_{full}์„ ์ฃผํ™ฉ์ƒ‰ ํ†ตํ•ฉ ํ—ค๋“œ์— ๋„ฃ์–ด \hat{A}_{t}^{uni}, ์ฆ‰ ๋ชจ๋“  ๊ด€์ ˆ ๋ช…๋ น ์ถœ๋ ฅ์„ ์–ป์Šต๋‹ˆ๋‹ค. \hat{A}_{t}^{arm}, \hat{A}_{t}^{hand}๋Š” ์•„๋งˆ ๋ณด์กฐ ํ—ค๋“œ์˜ ์ถœ๋ ฅ์„ ์˜๋ฏธํ•˜๊ณ , ์ตœ์ข… ์ •์ฑ…์€ \hat{A}_{t}^{uni}

ํ•ต์‹ฌ์€, shared ํ‘œํ˜„์€ ๊ทธ๋Œ€๋กœ ํ™œ์šฉํ•˜๋ฉด์„œ๋„ arm/hand ๊ฐœ๋ณ„ ํ‘œํ˜„์„ ์–น์–ด ๊ท ํ˜• ์žกํžŒ ์ถœ๋ ฅ์„ ๋งŒ๋“ ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์นด๋ฉ”๋ผ ์‹œ๊ฐ ์ •๋ณด ๋“ฑ์ด ์ „์ฒด ๊ณต์œ  ํ‘œํ˜„์— ๊ฐ•ํ•˜๊ฒŒ ์˜ํ–ฅ์„ ์ฃผ๋”๋ผ๋„, arm/hand ๊ฒฝ๋กœ๊ฐ€ ๊ณ ์œ  ์ •๋ณด๋ฅผ ์ถ”๊ฐ€๋กœ ๋ณด๊ฐ•ํ•ด ์ค๋‹ˆ๋‹ค. ํŠนํžˆ ํŒ” ์›€์ง์ž„์€ ์‹œ๊ฐ์ด ์ข€ ๊ฐ€๋ ค์ ธ๋„ ๊ณ ์œ ์˜ ํŒ” kinematics ์ •๋ณด(ํŒ” ๊ด€์ ˆ๊ฐ ๋ณ€ํ™”๋ฅผ ํ†ตํ•ด ์ถ”์ •๋œ ์ง„ํ–‰ ๋ฐฉํ–ฅ ๋“ฑ)๋กœ ๋ณด์™„๋˜๊ณ , ์† ์›€์ง์ž„์€ ์ด‰๊ฐ ์ •๋ณด ์œ„์ฃผ๋กœ ํ‘œํ˜„์ด ๋‚จ์•„ ์žˆ์–ด, ์‹œ๊ฐ ์˜์กด๋„๊ฐ€ ๋‚ฎ์•„์ง‘๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด ๊ตฌ์กฐ ๋•๋ถ„์— ๋ถ€๋ถ„์ ์ธ ์นด๋ฉ”๋ผ ์ฐจ๋‹จ ์ƒํ™ฉ์—์„œ๋„ ์ •์ฑ…์ด ์•ˆ์ •์ ์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋“ฑ ๊ฐ•์ธํ•จ์ด ํฌ๊ฒŒ ๋Š˜์—ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ arm/hand ๋ถ„๋ฆฌ ํ‘œํ˜„์€ ํ•™์Šต ํšจ์œจ๋„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๋ชจ๋…ธ๋ฆฌํ‹ฑํ•œ ํ‘œํ˜„์œผ๋กœ ๋ชจ๋“  ๊ฒƒ์„ ํ•™์Šตํ•˜๋ฉด ํŒ”-์† ๊ฐ„ ๊ฐ„์„ญ์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ๋Š”๋ฐ, ๋ถ„๋ฆฌํ•˜์—ฌ ์ „๋ฌธํ™” + ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ์‹์€ ํ˜‘์‘ ํŒจํ„ด์„ ๋” ๋นจ๋ฆฌ ํ•™์Šตํ•˜๊ฒŒ ํ•ด์ฃผ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ํ˜‘์‘ ๋™์ž‘๋„ ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ํŒ”์„ ์›€์ง์ด๋ฉฐ ์†์ด ๋ฏธ๋ฆฌ ์ ์ ˆํžˆ ์—ด๊ณ  ๋‹ซ๋Š” ์‚ฌ๋žŒ์Šค๋Ÿฌ์šด ํ–‰๋™์ด ๊ด€์ฐฐ๋˜์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค (monolithic ๋ชจ๋ธ์€ ์ด๋Ÿฐ ๋ถ€๋ถ„์ด ๋ฏธํกํ–ˆ๋‹ค๊ณ  ํ•จ).

ํ•™์Šต ๊ณผ์ •: Arm-Hand Feature Enhancement ๋ชจ๋“ˆ์„ ์žฅ์ฐฉํ•œ ์ตœ์ข… VLA ์ •์ฑ…์€, Shared Autonomy๋กœ ์ˆ˜์ง‘ํ•œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ Supervised Fine-Tuning (SFT)์„ ํ†ตํ•ด ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ OpenAI ๋“ฑ์—์„œ ๊ณต๊ฐœํ•œ LeRobot ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์‚ฌ์ „ํ•™์Šต VLM ๊ธฐ๋ฐ˜์˜ VLA ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹ํ–ˆ๋‹ค๊ณ  ๋ฐํž™๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์‚ฌ์ „ํ•™์Šต VLM์€ ์•„๋งˆ ๊ฑฐ๋Œ€ ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ (์˜ˆ: CLIP ๊ธฐ๋ฐ˜)์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. ๊ทธ ์œ„์— ์•ก์…˜ ์˜ˆ์ธก ํ—ค๋“œ๋ฅผ ๋ถ™์—ฌ ๋ฒ ์ด์Šค๋ผ์ธ ์ •์ฑ… \pi_{uni}๋ฅผ ๋งŒ๋“ค๊ณ , ์ด๊ฑธ ๋ณธ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋กœ fine-tuneํ•˜์—ฌ \pi_{uni-enhance} (feature enhancement ์ ์šฉ ์ •์ฑ…)์„ ์–ป๋Š” ๊ตฌ์กฐ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

Loss ๊ตฌ์„ฑ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ imitation learning (behavior cloning) ์†์‹ค๋กœ, ์‹œ์—ฐ์˜ ๋‹ค์Œ ํ–‰๋™์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•œ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— arm, hand ๋ณด์กฐ loss๊ฐ€ ์ถ”๊ฐ€๋˜์–ด joint training์„ ํ–ˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” ์‹œ์—ฐ์ด ๋ช‡๋ฐฑ ๊ฐœ์ง€๋งŒ, ์‹œ๊ฐ/์–ธ์–ด ๋ฐฑ๋ณธ์ด ์‚ฌ์ „ํ•™์Šต ๋•์— ๊ฐ•๋ ฅํ•ด์„œ ๊ธˆ๋ฐฉ ์ˆ˜๋ ดํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์ตœ์ข… ์–ป์€ End-to-End ์ •์ฑ…์€ ํ•˜๋‚˜์˜ ๋„คํŠธ์›Œํฌ๋กœ ํ†ตํ•ฉ๋˜์–ด, ์‹œ๊ฐ+์–ธ์–ด ์ž…๋ ฅ๋งŒ ์ฃผ๋ฉด ๋ฐ”๋กœ ํŒ”๊ณผ ์† ์›€์ง์ž„ ์ผ๋ จ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์˜ ์‹ค์‹œ๊ฐ„ ์ œ์–ด์— ์‚ฌ์šฉ๋˜๋ฉฐ, ๋…ผ๋ฌธ ์‹คํ—˜์—์„œ 90%์— ์œก๋ฐ•ํ•˜๋Š” ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํ•ด๋‹น ์„ฑ๋Šฅ ๋ถ„์„์€ ๋’ค์˜ ์‹คํ—˜์žฅ์—์„œ ์ž์„ธํžˆ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

2.5 ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ์ •์ฑ… ๊ฐœ์„ 

ํ•™์Šต๋œ ์ •์ฑ…์„ ๋ฐ”๋กœ ํ˜„์žฅ์— ํˆฌ์ž…ํ•˜๋ฉด ๋์ผ๊นŒ์š”? ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์•„๋ฌด๋ฆฌ ๋งŽ์€ ์‹œ์—ฐ์„ ๋ชจ์•˜์–ด๋„, ์‹ค์ œ ๋ฐฐ์น˜ ํ™˜๊ฒฝ์—์„œ๋Š” ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์ƒํ™ฉ์ด๋‚˜ ์ฝ”๋„ˆ ์ผ€์ด์Šค๊ฐ€ ๋‚˜์˜ค๊ธฐ ๋งˆ๋ จ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ €์ž๋“ค์€ ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(Corrective Teleoperation)์ด๋ผ๋Š” ํœด๋จผ ์ธ ๋” ๋ฃจํ”„ ๊ฐœ์„  ์ „๋žต์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ๋…: ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์€ ๋ง ๊ทธ๋Œ€๋กœ ์ •์ฑ… ์‹คํ–‰ ์ค‘ ์‚ฌ๋žŒ์ด ๊ต์ •์— ๊ฐœ์ž…ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ•™์Šต๋œ ์ •์ฑ… \pi๊ฐ€ ๋กœ๋ด‡์„ ์ œ์–ดํ•˜๋‹ค๊ฐ€ ์‹คํŒจ ์กฐ์ง ๋˜๋Š” ์‹คํŒจ ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•˜๋ฉด, ์ฆ‰์‹œ ์‚ฌ๋žŒ ์šด์˜์ž์—๊ฒŒ ์ œ์–ด๊ถŒ์„ ๋„˜๊ฒจ ๊ทธ ์ƒํ™ฉ์„ ์ˆ˜์Šตํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. Shared Autonomy ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ๊ทธ๋Œ€๋กœ ํ™œ์šฉ๋˜์–ด, ์‚ฌ๋žŒ์ด VR๋กœ ๋กœ๋ด‡์„ ์กฐ์ข…ํ•ด ์‹คํŒจํ•œ ์ž‘์—…์„ ๋งˆ๋ฌด๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋กœ๋ด‡์ด ์–ด๋–ค ์ƒˆ๋กœ์šด ๋ชจ์–‘์˜ ๋ฌผ์ฒด๋ฅผ ์žก๋‹ค ๋†“์ณค๋‹ค๋ฉด, ์‚ฌ๋žŒ์ด ๋ฐ”๋กœ ๊ฐœ์ž…ํ•ด ๊ทธ ๋ฌผ์ฒด๋ฅผ ์ฃผ์›Œ ๋‹ด๊ฑฐ๋‚˜, ์œ„์น˜๋ฅผ ์กฐ์ •ํ•ด ๋‹ค์‹œ ์‹œ๋„ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์‚ฌ๋žŒ์ด ํ•œ ๋ฒˆ ๋„์™€์„œ ์ž‘์—…์„ ์™„์ˆ˜ํ•˜๋ฉด, ๊ทธ ๊ต์ • ๊ณผ์ •์˜ ๋ฐ์ดํ„ฐ (์ƒํƒœ-์„ผ์„œ-ํ–‰๋™ ์‹œํ€€์Šค)๋„ ๊ธฐ๋กํ•ด ๋‚จ๊น๋‹ˆ๋‹ค.

์ง€์† ํ•™์Šต: ์ค‘์š”ํ•œ ์ ์€, ์ด๋ ‡๊ฒŒ ์–ป์€ ์„ฑ๊ณต+๊ต์ • ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ์ •์ฑ…์„ ์žฌํ•™์Šต(fine-tuning)ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฒ˜์Œ ํ•™์Šต ์‹œ์—๋Š” ์—†์—ˆ๋˜ ์ƒํ™ฉ๋“ค์— ๋Œ€ํ•œ ์‹œ์—ฐ์ด ์ถ”๊ฐ€๋˜๋ฏ€๋กœ, ๋ชจ๋ธ์ด ๊ทธ ๋ถ€๋ถ„์„ ๋ฐฐ์›Œ ๋‹ค์Œ๋ฒˆ์—” ์Šค์Šค๋กœ ์ž˜ ์ฒ˜๋ฆฌํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐ˜๋ณตํ•˜๋ฉด ์ •์ฑ…์ด ์ ์  ํ˜„์žฅ ์ƒํ™ฉ์„ ์ปค๋ฒ„ํ•˜๋ฉด์„œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ๋ฐฐํฌ(deployment) ๋‹จ๊ณ„์—์„œ ๋Š์ž„์—†์ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ & ํ•™์Šต์„ ์ด์–ด๊ฐ€๋Š” ๋ผ์ดํ”„์‚ฌ์ดํด์„ ๊ตฌ์„ฑํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฅผ incremental SFT (์ ์ง„์  ์ง€๋„ ๋ฏธ์„ธ์กฐ์ •) ํ”„๋ ˆ์ž„์›Œํฌ๋ผ๊ณ ๋„ ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

๊ต์ • ์ „๋žต์˜ ํšจ๊ณผ: ์ €์ž๋“ค์€ ๊ฐ„๋‹จํ•œ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ๋ฅผ ์„ค๊ณ„ํ•ด ์ด ๊ณผ์ •์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. 40ร—40cm ์˜์—ญ์— 3ร—3 ๊ฒฉ์ž๋กœ ๋ฌผ์ฒด๋ฅผ ๋†“๊ณ  (์ผ๋ถ€๋Š” ๋’ค์ง‘ํžŒ ์ƒํƒœ ๋“ฑ ์–ด๋ ค์šด ์กฐ๊ฑด), ์ดˆ๊ธฐ ์ •์ฑ…์„ ์‹œํ—˜ํ•œ ๊ฒฐ๊ณผ ํŠน์ • ๋ฐฉํ–ฅ์˜ ๋ฌผ์ฒด๋‚˜ ๊ตฌ์„์— ์žˆ๋Š” ๋ฌผ์ฒด์—์„œ ์‹คํŒจํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด์— ๋Œ€ํ•ด ์‚ฌ๋žŒ ๊ฐœ์ž… ์‹œ์—ฐ 50๊ฐœ๋ฅผ ๋ชจ์•„ orientation ์‹คํŒจ๋ฅผ ๊ฐœ์„ ํ•˜๋„๋ก 1์ฐจ ๋ฏธ์„ธ์กฐ์ •ํ•œ ์ •์ฑ…(ฯ€_uni-orient)์„ ๋งŒ๋“ค์—ˆ๋”๋‹ˆ, ๋ฐฉํ–ฅ ๋ณ€ํ™”์—๋Š” ์ž˜ ๋Œ€์‘ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ ์ฝ”๋„ˆ ์ผ€์ด์Šค (์™„์ „ํžˆ ์ƒˆ๋กœ์šด ์œ„์น˜ ๋“ฑ)๋Š” ์‹คํŒจํ•˜์—ฌ, ์ถ”๊ฐ€๋กœ ๊ทธ ๋ถ€๋ถ„ ๊ต์ • ์‹œ์—ฐ 50๊ฐœ๋ฅผ ๋ชจ์•„ 2์ฐจ ๋ฏธ์„ธ์กฐ์ •ํ•œ ์ตœ์ข… ์ •์ฑ…(ฯ€_uni-final)์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ๋ชจ๋“  ํ…Œ์ŠคํŠธ ์กฐ๊ฑด์„ ์„ฑ๊ณต์ ์œผ๋กœ ๋‹ค๋ฃจ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ์ž‘์€ ํ…Œ์ŠคํŠธ์—์„œ ์„ฑ๊ณต๋ฅ ์„ 40%๋Œ€์—์„œ 80~90%๋Œ€๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

Fig. 15๋Š” ์ด๋Ÿฌํ•œ ์ •์ฑ… ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ์ฒด๋ณ„ ์„ฑ๊ณต๋ฅ ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Figure 4: ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์œผ๋กœ ์ •์ฑ…์„ ๊ฐœ์„ ํ•œ ๊ฒฐ๊ณผ. ์˜ˆ์‹œ๋กœ 5๊ฐ€์ง€ ๋ฌผ์ฒด(Bottle, Apple, Nail(๋ชป), Chips, Bowl)์— ๋Œ€ํ•ด ์ดˆ๊ธฐ ์ •์ฑ…(ํšŒ์ƒ‰)์€ ์ผ๋ถ€ 30~60% ์„ฑ๊ณต๋ฅ ์— ๊ทธ์ณค์œผ๋‚˜, 1์ฐจ ๊ฐœ์„ (ํ•˜๋Š˜์ƒ‰) ํ›„ ๋ฐฉํ–ฅ-๊ด€๋ จ ์‹คํŒจ๊ฐ€ ์ค„์–ด ์„ฑ๋Šฅ์ด ์ƒ์Šนํ•˜๊ณ , 2์ฐจ ์ตœ์ข… ๊ฐœ์„ (ํŒŒ๋ž€์ƒ‰) ํ›„์—๋Š” ๋Œ€๋ถ€๋ถ„ 90%๊นŒ์ง€ ์„ฑ๊ณต๋ฅ ์ด ๋†’์•„์ง„ ๋ชจ์Šต์ž…๋‹ˆ๋‹ค (์˜ค๋ฅธ์ชฝ Average ๋ง‰๋Œ€๋„ 40%์—์„œ 88%๋กœ ํ–ฅ์ƒ). ์ด๋Ÿฐ 2๋‹จ๊ณ„ ๊ฐœ์„ ์œผ๋กœ ๋ชจ๋“  ์ผ€์ด์Šค๊ฐ€ ์–‘ํ˜ธํ•œ ์„ฑ๊ณต๋ฅ ์— ๋„๋‹ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ž‘์€ ๊ทœ๋ชจ ์‹คํ—˜์ด์ง€๋งŒ, ์„ฑ๊ณต๋ฅ  ์•ฝ 20%โ†’50%p ํ–ฅ์ƒ์ด๋ผ๋Š” ๋šœ๋ ทํ•œ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€, ์ด ๊ต์ • ๋ฐ์ดํ„ฐ๋Š” ๊ตณ์ด ์‚ฌ๋žŒ์ผ ํ•„์š”๋„ ์—†๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ๋Œ€์‹  ์ „ํ†ต์  ๋ชจ์…˜ ํ”Œ๋ž˜๋„ˆ๊ฐ€ ์‹คํŒจ ์ƒํ™ฉ์„ ํ•ด์†Œํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์ค˜๋„ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ , ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋กœ๋ด‡ (์˜ˆ: 2ํ•‘๊ฑฐ ๊ทธ๋ฆฌํผ) ์‹œ์—ฐ์„ ์ถ”๊ฐ€ํ•ด๋„ ์ •์ฑ…์— ํ†ตํ•ฉ ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ƒ๋‹นํžˆ ์ผ๋ฐ˜์ ์œผ๋กœ ์‘์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ๋ชฉํ‘œ๋Š” ์ตœ์ข… ์‚ฌ์šฉ์ž ํ˜„์žฅ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์˜จ๊ฐ– ์˜ˆ์™ธ ์ƒํ™ฉ์— ๋Œ€ํ•ด, ์‚ฌ๋žŒ์ด ์กฐ๊ธˆ์”ฉ ๊ฐœ์ž…ํ•ด ๋„์™€์ฃผ๋ฉด ๋กœ๋ด‡์ด ์ ์ฐจ ๋ฐฐ์›Œ๋‚˜๊ฐ€ ์™„์ „ํžˆ ์ž์œจ์ ์œผ๋กœ ์ง„ํ™”ํ•ด๊ฐ€๋Š” ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„

์ด์ œ ๋…ผ๋ฌธ์˜ ์‹คํ—˜ ์„ค์ •๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜์€ ์ฃผ๋กœ ๋กœ๋ด‡ ์‹คํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ˆ˜ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ์ œ์•ˆํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํšจ์œจ์„ฑ(๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๋Ÿ‰), ์„ฑ๋Šฅ(์„ฑ๊ณต๋ฅ ), ์ผ๋ฐ˜ํ™”(์ƒˆ๋กœ์šด ๋ฌผ์ฒด/์ƒํ™ฉ ๋Œ€์‘)๋ฅผ ์ž…์ฆํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ablation(์š”์ธ ๋ถ„์„) ์‹คํ—˜๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

3.1 ์‹คํ—˜ ํ™˜๊ฒฝ ๋ฐ ์„ค์ •

๋กœ๋ด‡ ํ”Œ๋žซํผ: ์‹คํ—˜์—๋Š” 6์ž์œ ๋„(6-DoF) UR3e ๋กœ๋ด‡ ํŒ”์— 5-์†๊ฐ€๋ฝ 12-DoF XHand๋ฅผ ๊ฒฐํ•ฉํ•œ ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ดํ„ฐ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•˜๋“œ์›จ์–ด ๋ชจ์Šต์ด ๋‚˜์™€ ์žˆ๋Š”๋ฐ, (1)์ด๋ผ๊ณ  ํ‘œ์‹œ๋œ ๋ถ€๋ถ„์ด UR3e+XHand ์กฐํ•ฉ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ (2)๋ผ๊ณ  ํ‘œ์‹œ๋œ ์ธ์ง€ ์„ผ์„œ ๋ชจ๋“ˆ๋กœ, 3๋Œ€์˜ RGB-D ์นด๋ฉ”๋ผ๊ฐ€ ํ™˜๊ฒฝ์„ ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ์ดฌ์˜ํ•ด ๋กœ๋ด‡์—๊ฒŒ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘ 2๋Œ€๋Š” ์ •์  ์„ค์น˜, 1๋Œ€๋Š” ์†๋ชฉ(wrist)์— ์žฅ์ฐฉ๋˜์–ด, ์ „์—ญ ์‹œ์•ผ์™€ ์ ‘๊ทผ ์‹œ์•ผ๋ฅผ ๋ชจ๋‘ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

XHand๋Š” ์‚ฌ๋žŒ์ด ์“ฐ๋Š” ์žฅ๊ฐ‘ ์ •๋„ ํฌ๊ธฐ์˜ ์†Œํ˜• ๋‹ค์ง€ ๋กœ๋ด‡ ์†์œผ๋กœ, ๊ฐ ์†๊ฐ€๋ฝ์— ์ด‰๊ฐ ์„ผ์„œ๊ฐ€ ์žฅ์ฐฉ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์ž‘์—…(Task) ํ™˜๊ฒฝ: ๊ธฐ๋ณธ ๊ณผ์ œ๋Š” ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์˜ ํ”ผํ‚น ๋ฐ ๋ฐฐ์น˜์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ผ์ƒ ๋ฌผ์ฒด 50๊ฐ€์ง€๋ฅผ ์ค€๋น„ํ•˜์—ฌ, ๊ทธ ์ค‘ 20๊ฐ€์ง€๋Š” ํ•™์Šต(์‹œ์—ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘)์— ์‚ฌ์šฉํ•˜๊ณ , ๋‚˜๋จธ์ง€ 30+๋Š” ํ•œ ๋ฒˆ๋„ ๋ณธ ์  ์—†๋Š”(unseen) ๋ฌผ์ฒด๋กœ ํ…Œ์ŠคํŠธ์— ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ์ฒด ์ข…๋ฅ˜๋Š” ์žฅ๋‚œ๊ฐ, ์Œ๋ฃŒ์ˆ˜ ์บ”, ๊ณต, ์ปต, ๊ณผ์ผ ๋ชจํ˜• ๋“ฑ ํฌ๊ธฐ, ๋ชจ์–‘, ์žฌ์งˆ์ด ๋‹ค์–‘ํ•œ ๊ฒƒ์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

Pick-and-place ์ž‘์—…์˜ ์กฐ๊ฑด์€: ๊ฐ ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๋ฌผ์ฒด ํ•˜๋‚˜๊ฐ€ ๋ฌด์ž‘์œ„ ์œ„์น˜์™€ ๋ฐฉํ–ฅ์œผ๋กœ 40ร—40cm ์ž‘์—… ๊ตฌ์—ญ์— ๋†“์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ๊ทธ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ์ธ๊ทผ ๋ฐ”๊ตฌ๋‹ˆ์— ๋†“๋Š” ๊ฒƒ์„ ์‹œ๋„ํ•˜๋ฉฐ, ์ด๋ฅผ 3ํšŒ ๋ฐ˜๋ณตํ•˜์—ฌ ์„ฑ๊ณต๋ฅ ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๊ณต ๊ธฐ์ค€์€ ๋ฌผ์ฒด๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ์ •ํ™•ํžˆ ๋ฐ”๊ตฌ๋‹ˆ์— ๋„ฃ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ค‘๊ฐ„์— ๋ฌผ์ฒด๋ฅผ ๋–จ์–ด๋œจ๋ฆฌ๊ฑฐ๋‚˜ ๋ฐ”๊ตฌ๋‹ˆ ๋ฐ–์— ๋–จ์–ด๋œจ๋ฆฌ๋ฉด ์‹คํŒจ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: Shared Autonomy ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์šฉ ์‹œ์—ฐ์„ ์–ผ๋งˆ๋‚˜ ๋ชจ์•˜๋Š”์ง€ ๊ตฌ์ฒด์  ์ˆ˜์น˜๋Š” ์–ธ๊ธ‰๋˜์ง€ ์•Š์•˜์ง€๋งŒ, ์‚ฌ๋žŒ 1์ธ์ด ํฐ ํ”ผ๋กœ ์—†์ด ์—ฌ๋Ÿฌ ์„ธ์…˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. DexGrasp-VLA ์† ์ •์ฑ… ํ•™์Šต์—๋Š” ์•ž์„œ ๋งํ•œ 68+150 = 218๊ฐœ์˜ ์† ์‹œ์—ฐ์ด ์‚ฌ์šฉ๋˜์—ˆ๊ณ , end-to-end ์ •์ฑ… ํ•™์Šต์—๋Š” 50๊ฐœ ๋ฌผ์ฒด ร— NํšŒ ์‹œ์—ฐ (N์€ ๋ฌผ์ฒด๋งˆ๋‹ค ๋ช‡ ์ฐจ๋ก€์”ฉ ํ–ˆ์„ ํ…Œ๋‹ˆ ์ˆ˜๋ฐฑ ๊ฐœ) ์ •๋„๋กœ ์ถ”์ •๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์—๋Š” 50+50 = 100๊ฐœ์˜ ์ถ”๊ฐ€ ๊ต์ • ์‹œ์—ฐ์ด ํ™œ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ์ˆ˜๋ฐฑ ๊ฐœ ์ˆ˜์ค€์˜ ์‹œ์—ฐ์œผ๋กœ ๋‹ฌ์„ฑํ•œ ์„ฑ๋Šฅ์ด ์–ด๋– ํ•œ์ง€ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

3.2 ์ข…ํ•ฉ ์„ฑ๋Šฅ ํ‰๊ฐ€ (์„ฑ๊ณต๋ฅ  ๋ฐ ์ผ๋ฐ˜ํ™”)

๋จผ์ € ์ตœ์ข… ํ•™์Šต๋œ End-to-End VLA ์ •์ฑ…์˜ ์„ฑ๋Šฅ์ž…๋‹ˆ๋‹ค. Table 1์€ 50๊ฐœ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ข…ํ•ฉ ์„ฑ๊ณต๋ฅ ์„ ์š”์•ฝํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค:

Table 1. End-to-End Arm-Hand VLA ์ •์ฑ…์˜ ๋ฌผ์ฒด ์žก๊ธฐ ์„ฑ๊ณต๋ฅ 

๋ฐ์ดํ„ฐ์…‹ ์„ฑ๊ณต๋ฅ  (์žก์•„ ๋ฐ”๊ตฌ๋‹ˆ์— ๋†“๊ธฐ)
ํ•™์Šต์— ์‚ฌ์šฉํ•œ Seen 20๊ฐœ ๋ฌผ์ฒด 91.7%
์ƒˆ๋กœ ๋ณธ Unseen 30์—ฌ ๊ฐœ ๋ฌผ์ฒด 85.6%
์ „์ฒด 50๊ฐœ ํ‰๊ท  88.7%

ํ•ด์„ค: ์ œ์•ˆํ•œ ์ •์ฑ… \pi_{uni-enhance}๋Š” ํ›ˆ๋ จ์— ์“ฐ์ธ ๋ฌผ์ฒด๋“ค์€ ๋Œ€๋ถ€๋ถ„ ์•ˆ์ •์ ์œผ๋กœ ๋‹ค๋ฃจ์—ˆ๊ณ (91.7%), ์ฒ˜์Œ ๋ณด๋Š” ๋ฌผ์ฒด๋“ค๋„ 85.6%์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ „์ฒด ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์€ 88.7%๋กœ, 10๋ฒˆ ์ค‘ ๊ฑฐ์˜ 9๋ฒˆ ์„ฑ๊ณตํ•˜๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ์ €์ž๋“ค์€ ํŠน๋ณ„ํ•œ ํ•˜๋“œ์›จ์–ด ํŠœ๋‹ ์—†์ด ์ดˆ๊ธฐ ๋ฒ„์ „์œผ๋กœ ๋‹ฌ์„ฑํ•œ ๊ฒฐ๊ณผ๋ผ๋ฉฐ, ์ถ”๊ฐ€ ๊ฐœ์„ ์„ ํ†ตํ•ด 95% ์ด์ƒ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋ผ๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ณธ ๊ธฐ๋ฒ•์ด ์‹ค์ œ ์‘์šฉ์— ์ถฉ๋ถ„ํžˆ ํ˜„์‹ค์ ์ธ ์‹ ๋ขฐ๋„๋ฅผ ๊ฐ–์ถœ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ฐธ๊ณ ๋กœ, ์ด ์ž‘์—…์€ ์‚ฌ๋žŒ์—๊ฒŒ๋„ ์‰ฌ์šด ํŽธ์€ ์•„๋‹ˆ๋ฉฐ (์ผ๋ถ€ ๋ฌผ์ฒด๋Š” ๋ฏธ๋„๋Ÿฝ๊ฑฐ๋‚˜ ํŠน์ดํ•œ ํ˜•์ƒ), ๋”์šฑ์ด ๋กœ๋ด‡ ํŒ”+๋‹ค์ง€ ์†์˜ ์ œ์–ด ๋‚œ์ด๋„๋ฅผ ๊ณ ๋ คํ•˜๋ฉด 90% ๊ทผ์ ‘ ์„ฑ๋Šฅ์€ ์ƒ๋‹นํžˆ ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ์ด ์ •์ฑ…์€ ์ƒํ™ฉ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ ์‘๋ ฅ๋„ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Fig. 11์— ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์žก์•„ ์˜ฎ๊ธฐ๋Š” ์‹œ์—ฐ ์‚ฌ์ง„๋“ค์ด ๋‚˜์™€ ์žˆ๋Š”๋ฐ, ๊ธด ๋ง‰๋Œ€๋‚˜ ์ž‘์€ ๊ณต ๊ฐ™์€ ๊ทน๋‹จ์ ์ธ ๋ชจ์–‘๋„ ๋ชจ๋‘ ์ผ๊ด€๋˜๊ฒŒ ์„ฑ๊ณตํ•˜๋Š” ๋ชจ์Šต์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ๋ณธ๋ฌธ์—์„œ๋„ ๋ฌผ์ฒด์˜ ํฌ๊ธฐ, ํ˜•ํƒœ, ๋ฌด๊ฒŒ๊ฐ€ ๋‹ฌ๋ผ๋„ ์•ˆ์ •์ ์œผ๋กœ ํŒŒ์ง€ํ•˜๊ณ  ๋†“๋Š”๋‹ค๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธฐ์กด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์—†๋˜ ์ƒˆ๋กœ์šด ๊ฐ์ฒด๋ผ๋„, VLA ๋ชจ๋ธ์˜ ์‹œ๊ฐ-์–ธ์–ด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ๋•๋ถ„์— ๋กœ๋ด‡์ด ๋Œ€์‘ ์ „๋žต์„ ๋‚ด์žฌํ™”ํ•œ ๊ฒƒ์œผ๋กœ ํ’€์ด๋ฉ๋‹ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, ํšจ์œจ์ ์œผ๋กœ ๋ชจ์€ ๋ฐ์ดํ„ฐ์™€ ๋›ฐ์–ด๋‚œ ์ •์ฑ… ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” ๋†’์€ ์„ฑ๊ณต๋ฅ ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ๋กœ๋ด‡์˜ ๋ฒ”์šฉ์„ฑ ํ™•๋ณด์— ์ค‘์š”ํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

3.3 ์ •์„ฑ์  ๊ฒฐ๊ณผ: ์˜ˆ์‹œ์™€ ์‹œ๊ฐํ™”

์ •๋Ÿ‰์  ์ˆ˜์น˜ ์™ธ์—, ๋…ผ๋ฌธ์—๋Š” ์—ฌ๋Ÿฌ ์ •์„ฑ์  ์‹คํ—˜ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ์‹œ๊ฐํ™” ๊ฒฐ๊ณผ๊ฐ€ ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:

  • ํƒ์ž ์œ„ ๋ฌผ์ฒด ์น˜์šฐ๊ธฐ(Table bussing) ์ž‘์—…: DexGrasp-VLA ์† ์ •์ฑ…์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์–ด์ˆ˜์„ ํ•œ ํ…Œ์ด๋ธ”์—์„œ ๋ฌผ์ฒด๋“ค์„ ํ•˜๋‚˜์”ฉ ์ง‘์–ด ๋ฐ”๊ตฌ๋‹ˆ์— ์˜ฎ๊ธฐ๋Š” ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ๋กœ๋ด‡ ํŒ”์€ ์‚ฌ๋žŒ์ด ์•„๋‹Œ ์‚ฌ๋žŒ ์†์ด ๋“ค๊ณ  ์žˆ๋Š” ํ˜•ํƒœ๋กœ ์„ค์ •ํ•˜๊ณ  (์ฆ‰ ์†๋งŒ ๋กœ๋ด‡, ํŒ”์€ ์ธ๊ฐ„์ด ๋“ค๊ณ  ๋‹ค๋‹˜), ์ˆœ์ „ํžˆ ์† ์ •์ฑ…์˜ ์ž์œจ ๊ทธ๋ฆฝ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ DexGrasp-VLA๋Š” 95.5%์˜ ๋†’์€ ์„ฑ๊ณต๋ฅ ๋กœ ํ…Œ์ด๋ธ” ์œ„ ์ˆ˜์‹ญ ๊ฐœ ๋ฌผ๊ฑด์„ ๋ชจ๋‘ ์น˜์› ๊ณ , ์žฅ์• ๋ฌผ๋กœ ์ผ๋ถ€ ๋ฌผ์ฒด๊ฐ€ ๊ฐ€๋ ค์ ธ ์‹œ์•ผ๊ฐ€ ์•ˆ ๋ณด์—ฌ๋„ ์ด‰๊ฐ์œผ๋กœ ์ฐพ์•„ ์ง‘๋Š” ํ–‰๋™์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์† ์ •์ฑ…์ด ๋ณต์žกํ•œ ์žก๋™์‚ฌ๋‹ˆ(clutter) ํ™˜๊ฒฝ์—์„œ๋„ ๊ฐ•์ธํ•จ์„ ์ž…์ฆํ•œ ์˜ˆ์ž…๋‹ˆ๋‹ค.
  • ์ด‰๊ฐ ์ ‘์ด‰ ๋ถ„ํฌ ์‹œ๊ฐํ™”: Fig. 13์—๋Š” ๋‘ฅ๊ทผ ๊ณต๊ณผ ์›ํ†ตํ˜• ๋ฌผ์ฒด๋ฅผ ์žก์„ ๋•Œ ์†๊ฐ€๋ฝ๋“ค์— ๋ถ„ํฌํ•œ ์ด‰๊ฐ ์„ผ์„œ ์ ‘์ด‰ํŒจํ„ด์„ ์ปฌ๋Ÿฌ๋กœ ํ‘œ์‹œํ•œ ๊ทธ๋ฆผ์ด ๋‚˜์˜ต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ •์ฑ…์ด ์–ด๋–ค ์†๊ฐ€๋ฝ์œผ๋กœ ์–ด๋А ๋ถ€์œ„๋ฅผ ๋ˆŒ๋Ÿฌ ์žก์•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š”๋ฐ, ์˜ˆ์ปจ๋Œ€ ๊ณต์„ ์žก์„ ๋•Œ๋Š” ๊ฑฐ์˜ ๋ชจ๋“  ์†๊ฐ€๋ฝ ๋์— ๊ณ ๋ฅด๊ฒŒ ์ ‘์ด‰๋˜์ง€๋งŒ, ์›ํ†ต์„ ์žก์„ ๋•Œ๋Š” ์–‘์ชฝ ๋‘ ์†๊ฐ€๋ฝ์— ์ฃผ๋กœ ํž˜์ด ์‹ค๋ฆฌ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘์ด‰ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋ฉด, ๋กœ๋ด‡์ด ์ธ๊ฐ„๊ณผ ๋น„์Šทํ•˜๊ฒŒ ๋ฌผ์ฒด ํ˜•ํƒœ์— ๋”ฐ๋ผ ์ ‘์ด‰ ์ „๋žต์„ ์กฐ์ ˆํ•˜๊ณ  ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธด ์‹œํ€€์Šค ์ž‘์—…: ๋ถ€๋ก์—๋Š” Fig. 20~22๋กœ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ์กฐ์ž‘ ์ž‘์—… ์‹œ์—ฐ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋จผ ๊ณณ์— ๋†“์ธ ํŽœ์„ ์ง‘๊ธฐ ์œ„ํ•ด ๋จผ์ € ์ฑ…์ƒ์„ ๊ธฐ์šธ์—ฌ ํŽœ์„ ๊ตด๋ฆฐ ๋’ค ์žก๋Š” 2๋‹จ๊ณ„ ์ž‘์—…, ๋ด‰ํˆฌ์— ๋ฌผ๊ฑด ๋„ฃ๊ณ  ๋ด‰ํˆฌ๋ฅผ ๋‹ซ์•„ ์šด๋ฐ˜ํ•˜๋Š” ์ž‘์—…, ๋ฐ”๋‹ฅ์— ๋ˆ•ํžŒ ๋ณ‘์„ ๋šœ๊ป‘ ์žก์•„ ์„ธ์šด ํ›„ ๋“ค์–ด์˜ฌ๋ ค ์ƒ์ž์— ๋„ฃ๋Š” ์ž‘์—… ๋“ฑ์ด ์‹œ์—ฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ธด ์ž‘์—…์€ ์›๋ž˜ RL๋กœ ์ผ์ผ์ด ์„ค๊ณ„ํ•ด์•ผ ํ–ˆ๋˜ ๊ฒƒ๋“ค์ธ๋ฐ, ๋ณธ ๋…ผ๋ฌธ์˜ VLA ํ•™์Šต ์ ‘๊ทผ์œผ๋กœ๋„ ๋ฐ๋ชจ๋งŒ ์žˆ์œผ๋ฉด ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์žฅ๊ธฐ์  ์—ฐ์† ์กฐ์ž‘์—๋„ ๋ณธ ๊ธฐ๋ฒ•์ด ํ†ตํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • Peg-in-hole ์กฐ๋ฆฝ ์ž‘์—…: Fig. 23-24์—๋Š” ์‚ฐ์—…์šฉ ๋ผ์›Œ๋งž์ถ”๊ธฐ(peg-in-hole) ์ž‘์—… ์‚ฌ๋ก€๊ฐ€ ๋ณด์ž…๋‹ˆ๋‹ค. mm ๋‹จ์œ„์˜ ์ •๋ฐ€๋„๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์œผ๋กœ, 4๊ฐ€์ง€ ์ดˆ๊ธฐ ์ž์„ธ์— ๋Œ€ํ•ด ๋กœ๋ด‡์ด ๋ถ€ํ’ˆ์„ ์ง‘์–ด ๊ตฌ๋ฉ์— ๋ผ์šฐ๋Š” ์ „ ๊ณผ์ •์„ ์‹œ์—ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€๋Ÿฌ ์˜ค์ฐจ๊ฐ€ ๋‚˜๊ฒŒ ํ•ด์„œ ์‚๋—ํ•œ ๊ฒฝ์šฐ (misalignment) ์‚ฌ๋žŒ ๊ฐœ์ž…์œผ๋กœ ์ˆ˜์ •ํ•˜๋Š” ์žฅ๋ฉด๋„ ๋‹ด์•˜์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋ณธ ๊ต์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ •๋ฐ€ ์ œ์กฐ ์‹œ๋‚˜๋ฆฌ์˜ค์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ๋ชจ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ์ •์„ฑ์  ๊ฒฐ๊ณผ๋“ค์€ ์ œ์•ˆํ•œ ์ •์ฑ…์˜ ์œ ์—ฐ์„ฑ๊ณผ ์ ์‘์„ฑ์„ ์ž˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ฃผ๋ณ€ ์ƒํ™ฉ์— ๋Œ€์‘ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ์กฐ์ž‘๋„ ๋‹จ๊ณ„๋ณ„ ์‹œ์—ฐ์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๊ณ , ์ด‰๊ฐ์œผ๋กœ ์„ฌ์„ธํ•˜๊ฒŒ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์Œ์„ ์‚ฌ๋ก€๋กœ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค.

3.4 ์š”์ธ ๋ถ„์„: Ablation ์‹คํ—˜

๋งˆ์ง€๋ง‰์œผ๋กœ, ๋…ผ๋ฌธ์€ ์ œ์•ˆํ•œ ์‹œ์Šคํ…œ์˜ ํ•ต์‹ฌ ์š”์†Œ๋“ค์ด ๊ฐ๊ฐ ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ–ˆ๋Š”์ง€๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ablation study(์š”์ธ ์ œ๊ฑฐ ์‹คํ—˜)๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ (1) ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ์œ ๋ฌด, (2) Arm-Hand Feature Enhancement ๋ชจ๋“ˆ์˜ ์œ ๋ฌด, (3) ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ํ™œ์šฉ ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.4.1 ์ด‰๊ฐ ์„ผ์‹ฑ์˜ ํšจ๊ณผ

๋จผ์ € DexGrasp-VLA ์† ์ •์ฑ…์—์„œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ๋นผ๊ฑฐ๋‚˜ ์ผ๋ถ€๋งŒ ๋„ฃ์—ˆ์„ ๋•Œ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ณด์•˜์Šต๋‹ˆ๋‹ค. Table 2๋Š” 10๊ฐ€์ง€ ์ผ์ƒ ๋ฌผ๊ฑด์„ ๋Œ€์ƒ์œผ๋กœ, ์„ธ ๊ฐ€์ง€ ๊ฒฝ์šฐ์˜ ์„ฑ๊ณต๋ฅ ์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค:

์กฐ๊ฑด ์„ค๋ช… ์„ฑ๊ณต๋ฅ 
No Tactile (์‹œ๊ฐ Only) ์ด‰๊ฐ ์ž…๋ ฅ ์—†์Œ, ์นด๋ฉ”๋ผ/๊ด€์ ˆ ์ •๋ณด๋งŒ์œผ๋กœ ๊ทธ๋ฆฝ 21%
Force-Only Tactile ํ•ฉ๋ ฅ ๋ฒกํ„ฐ๋งŒ ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ์‚ฌ์šฉ 70%
Force + Spatial Tactile ํ•ฉ๋ ฅ + ๋ถ„ํฌ ์ž„๋ฒ ๋”ฉ ๋ชจ๋‘ ์‚ฌ์šฉ (๋ณธ ๋…ผ๋ฌธ ๋ฐฉ์‹) 90%

์ด ๊ฒฐ๊ณผ๋Š” ์ด‰๊ฐ์ด ํ•„์ˆ˜์ ์ž„์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์นด๋ฉ”๋ผ์— ์˜์กดํ•˜๋ฉด ์กฐ๊ธˆ๋งŒ ๊ฐ€๋ ค์ ธ๋„ ๊ธˆ๋ฐฉ ๋ฌผ์ฒด๋ฅผ ๋†“์ณ ์‹คํŒจํ•˜์ง€๋งŒ, ์ด‰๊ฐ์„ผ์„œ๋กœ ํž˜์„ ๋А๋ผ๋ฉด 70%๊นŒ์ง€ ์˜ฌ๋ผ๊ฐ€๊ณ , ์—ฌ๊ธฐ์— ์ ‘์ด‰ ๋ถ„ํฌ๊นŒ์ง€ ์•Œ๋ฉด 90%๋กœ ํฌ๊ฒŒ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. Fig. 13์— ๊ทธ ๋น„๊ต ์žฅ๋ฉด์ด ์žˆ๋Š”๋ฐ, (a) ์นด๋ฉ”๋ผ๋งŒ์œผ๋กœ ์žก์€ ๊ฒฝ์šฐ ์‹œ์•ผ๋ฅผ ๊ฐ€๋ฆฌ์ž ๋ฌผ์ฒด๊ฐ€ ๋ฏธ๋„๋Ÿฌ์ ธ ๋–จ์–ด์ง€๋Š” ๋ฐ˜๋ฉด, (b) ์ด‰๊ฐ์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์‹œ์•ผ๊ฐ€ ๊ฐ€๋ ค์ ธ๋„ ๊ฝ‰ ์žก๊ณ  ์œ ์ง€ํ•˜๊ณ , ์‹ฌ์ง€์–ด ํƒ์ž์— ์น˜๊ฑฐ๋‚˜ ํ”๋“ค์–ด๋„ ์•ˆ ๋†“์น˜๋Š” ๋ชจ์Šต์ž…๋‹ˆ๋‹ค.

์ด๋Š” ์‹œ๊ฐ ์ •๋ณด์— ์žกํžˆ์ง€ ์•Š๋Š” ๋ฏธ์„ธ ์›€์ง์ž„์ด๋‚˜ ๋ฏธ๋„๋Ÿฌ์ง๋„ ์ด‰๊ฐ์ด ๊ฐ์ง€ํ•ด ๋ณด์™„ํ•ด์ค€๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ค์ง€ ๋กœ๋ด‡ ์†์˜ ์•ˆ์ •์  ์กฐ์ž‘์—๋Š” ์ด‰๊ฐ ํ”ผ๋“œ๋ฐฑ ํ†ตํ•ฉ์ด ๊ฑฐ์˜ ํ•„์ˆ˜์ž„์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

3.4.2 Arm-Hand ํŠน์ง• ๋ถ„๋ฆฌ ๋ชจ๋“ˆ์˜ ํšจ๊ณผ

๋‹ค์Œ์œผ๋กœ, Arm-Hand Feature Enhancement ๋ชจ๋“ˆ์ด ์ •๋ง ํšจ์šฉ์ด ์žˆ๋Š”์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. Table 3์€ ๋ชจ๋“ˆ ์ ์šฉ ์ „ํ›„์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค:

์กฐ๊ฑด Baseline (๋ชจ๋“ˆ ์—†์Œ) Enhanced (๋ชจ๋“ˆ ์ ์šฉ)
XHand ๋กœ๋ด‡์† (์ฃผ ํ™˜๊ฒฝ) 88% 95%
RY-H2 ๋กœ๋ด‡์† (ํƒ€ ๊ธฐ์ข…) 71% 81%
XHand + ์นด๋ฉ”๋ผ ์ฐจ๋‹จ 19% 58%

ํ•ด์„ค: ๊ธฐ๋ณธ XHand ํ”Œ๋žซํผ์—์„œ ๋ชจ๋“ˆ ์ ์šฉ์‹œ ์„ฑ๊ณต๋ฅ ์ด 88โ†’95%๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ, ๊ฑฐ์˜ ๋ชจ๋“  ๋ฌผ์ฒด๋ฅผ ํ™•์‹คํžˆ ๋‹ค๋ฃจ๋Š” ์ˆ˜์ค€์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๋กœ๋ด‡์†(RY-H2)์œผ๋กœ ์ •์ฑ…์„ ์ด์‹ํ•  ๊ฒฝ์šฐ์—๋„, ๋ชจ๋“ˆ ์ ์šฉ์ด 71โ†’81%๋กœ +10%p ํ–ฅ์ƒ๋˜์–ด ๊ธฐ์ข… ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ ์‘๋ ฅ๋„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๊ทน์ ์ธ ์ฐจ์ด๋Š” ์นด๋ฉ”๋ผ ํ•œ ๋Œ€๋ฅผ ๊ฐ€๋ ค ์‹œ๊ฐ ์ •๋ณด๋ฅผ ์ œํ•œํ•œ ์‹œํ—˜์—์„œ ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ๋ชจ๋“ˆ ๋ฏธ์ ์šฉ ์‹œ์—” 19%๋กœ ๊ฑฐ์˜ ์‹คํŒจํ–ˆ์ง€๋งŒ, ๋ชจ๋“ˆ ์ ์šฉ ์ •์ฑ…์€ 58%๋ฅผ ์œ ์ง€ํ•ด ์•ฝ 3๋ฐฐ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์™„๋ฒฝํ•˜์ง„ ์•Š์•„๋„ ์ ˆ๋ฐ˜ ์ด์ƒ์€ ์„ฑ๊ณตํ•œ ๊ฒƒ์ด์ฃ . ์ด๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ, ํŒ”-์† ๋ถ„๋ฆฌ ํ‘œํ˜„์ด ์‹œ๊ฐ ์˜์กด๋„๋ฅผ ๋‚ฎ์ถฐ ๋ถ€๋ถ„์ ์œผ๋กœ ๋ณด์ด์ง€ ์•Š์•„๋„ proprioception๊ณผ ์ด‰๊ฐ์œผ๋กœ ๋Œ€์‘ํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

์ด ์‹คํ—˜์€ ํ•ด๋‹น ๋ชจ๋“ˆ์ด ๋งคํฌ๋กœ-๋งˆ์ดํฌ๋กœ ํ˜‘์‘ ํ•™์Šต์— ์‹ค์งˆ์ ์ธ ์ด๋“์„ ์ค€๋‹ค๋Š” ๊ฒƒ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ƒˆ ํ•˜๋“œ์›จ์–ด์—์˜ ์ผ๋ฐ˜ํ™”์™€ ์„ผ์„œ ์ด์ƒ ์ƒํ™ฉ์— ๋Œ€ํ•œ ๊ฐ•์ธํ•จ๋„ ๊ฐœ์„ ๋˜๋Š” ๋ถ€๊ฐ€ ํšจ๊ณผ๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ์ด ๋ชจ๋“ˆ์€ ๋‹จ์ˆœ ์„ฑ๋Šฅ ์ˆ˜์น˜๋ฟ ์•„๋‹ˆ๋ผ ๋กœ๋ด‡ ์šด์˜์ƒ์˜ ์•ˆ์ •์„ฑ ์ธก๋ฉด์—์„œ๋„ ํฐ ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

3.4.3 ๊ต์ • ํ…”๋ ˆ์˜ต ๊ฐœ์ž…์˜ ํšจ๊ณผ

๋งˆ์ง€๋ง‰์œผ๋กœ ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ์ •๋Ÿ‰ํ™”ํ•œ ๊ฒฐ๊ณผ๋Š” ์•ž์„œ Fig. 4์—์„œ ์„ค๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ๋ชจ๋ธ ๋Œ€๋น„ ์ตœ์ข… ๋ชจ๋ธ์˜ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์ด ์•ฝ 2๋ฐฐ ์ด์ƒ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ํŠนํžˆ ์ดˆ๊ธฐ ๋ชจ๋ธ์ด ์ „ํ˜€ ๋ชปํ•˜๋˜ ์ผ€์ด์Šค (0~40% ์„ฑ๊ณต)๋“ค์„ ์ตœ์ข… ๋ชจ๋ธ์€ ๊ฑฐ์˜ ๋Œ€๋ถ€๋ถ„ ํ•ด๊ฒฐ (80~90%)ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค . ์ด๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ์•ฝ์ ์„ ๋ฉ”์šฐ๋Š” ๋ฐ ํ™•์‹คํžˆ ๊ธฐ์—ฌํ–ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด ๊ณผ์ •์—์„œ ๋‚˜ํƒ€๋‚œ ์ค‘๊ฐ„ ๋ชจ๋ธ(orient ์ „์šฉ ๊ฐœ์„ )์ด ํŠน์ • ๋ฌธ์ œ๋งŒ ๋ถ€๋ถ„ ํ•ด๊ฒฐํ•œ ๊ฒƒ๋„ ๊ด€์ฐฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ์–ด๋–ค ๋ฐ์ดํ„ฐ๋กœ ์–ด๋–ป๊ฒŒ ๊ฐœ์„ ๋˜์—ˆ๋Š”์ง€๋ฅผ ๋ถ„์„ํ•˜๋Š” ์žฌ๋ฏธ์žˆ๋Š” ํฌ์ธํŠธ์ž…๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์ด ๋ณด์—ฌ์ค€ ์ง€์† ํ•™์Šต ๋ฃจํ”„๋Š” ์‹ค์ œ ์‘์šฉ์—์„œ ์œ ์šฉํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ด๋ฉฐ, ์‚ฌ์šฉ์ž๊ฐ€ ์กฐ๊ธˆ์”ฉ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ์–ด ๋กœ๋ด‡์„ ๋งž์ถคํ˜•์œผ๋กœ ์ง„ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ทธ๋ฆผ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ๊ฒฐ๋ก  ๋ฐ ํ–ฅํ›„ ๊ณผ์ œ

์š”์•ฝ: ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” Shared Autonomy ๊ฐœ๋…์„ ํ™œ์šฉํ•œ VR ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ + ์ž์œจ ๋ณด์กฐ์ œ์–ด ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋‹ค์ž์œ ๋„ ๋กœ๋ด‡ ํŒ”-์† ์กฐ์ž‘ ์ •์ฑ…์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•œ ๋…ผ๋ฌธ์„ ์‚ดํŽด๋ดค์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ VR๋กœ ํŒ” ๋™์ž‘์„, AI๋Š” ์†๊ฐ€๋ฝ ๋™์ž‘์„ ๋งก์•„ ํ˜‘๋ ฅํ•จ์œผ๋กœ์จ ๊ณ ํ’ˆ์งˆ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ ์†ํžˆ ์ˆ˜์ง‘ํ•˜์˜€๊ณ , ์ด๋ฅผ ํ† ๋Œ€๋กœ Vision-Language-Action(VLA) ๊ธฐ๋ฐ˜์˜ end-to-end ์ •์ฑ…์„ ํ•™์Šตํ•˜์—ฌ 90% ์„ฑ๊ณต๋ฅ ์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ์‹คํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Arm-Hand Feature Enhancement๋ผ๋Š” ๋…์ฐฝ์  ๋ชจ๋ธ๋กœ ํŒ”/์† ํ˜‘์กฐ๋ฅผ ํ–ฅ์ƒ์‹œ์ผœ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ชจ์…˜๊ณผ ๊ฐ•์ธํ•œ ์„ฑ๋Šฅ์„ ์–ป์—ˆ์œผ๋ฉฐ, ๊ต์ • ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์„ ํ†ตํ•ด ํ˜„์žฅ ๋ฐฐ์น˜ ํ›„์—๋„ ์ง€์†์ ์œผ๋กœ ํ•™์Šต ๊ฐœ์„ ์ด ๊ฐ€๋Šฅํ•œ ํ‹€์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์ธ ์‹คํ—˜ ๊ฒฐ๊ณผ, ์‚ฌ๋žŒ ๊ฐœ์ž… ์ตœ์†Œํ™”๋กœ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ ๋†’์ด๊ณ , ํ•™์Šต๋œ ์ •์ฑ…์€ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์™€ ์ƒํ™ฉ์— ์ผ๋ฐ˜ํ™”๋จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

์˜์˜: ์ด ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡๊ณตํ•™์ž์™€ AI ์—ฐ๊ตฌ์ž ๋ชจ๋‘์—๊ฒŒ ์˜๋ฏธ ์žˆ๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ์ค๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์ธก๋ฉด์—์„œ, โ€œ์ธ๊ฐ„๊ณผ AI์˜ ํ˜‘์—…โ€์ด ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šต์šฉ ๋ฐ์ดํ„ฐ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์™„์ „ ์ž์œจ ์ˆ˜์ง‘์€ ํ’ˆ์งˆ ๋ฌธ์ œ, ์™„์ „ ์ˆ˜๋™ ์ˆ˜์ง‘์€ ์–‘์  ๋ฌธ์ œ๋ฅผ ๊ฐ€์กŒ์ง€๋งŒ, ๊ทธ ์ค‘๊ฐ„ ์ง€๋Œ€๋ฅผ ๊ฐœ์ฒ™ํ•จ์œผ๋กœ์จ ์–‘์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์šฉ์ ์œผ๋กœ ํ™•๋ณดํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ VLA์™€ ๊ฐ™์€ ๊ฑฐ๋Œ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์„ฌ์„ธํ•œ ์ œ์–ด์— ์ ์šฉํ•˜๋ฉด์„œ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ ๊ตฌ์กฐ์ƒ์˜ ๋ฌธ์ œ (ํŒ”๊ณผ ์†์˜ ์—ญํ•  ๋ถ„๋ฆฌ ๋“ฑ)๋ฅผ ๋‚ ์นด๋กญ๊ฒŒ ์งš๊ณ  ํ•ด๊ฒฐ์ฑ…์„ ๋‚ด๋†“์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ๊ณ ์ฐจ์› ๋กœ๋ด‡ ์ œ์–ด ํ•™์Šต ์—ฐ๊ตฌ์— ์ฐธ๊ณ ๊ฐ€ ๋  ๋งŒํ•œ ์ „๋žต์ž…๋‹ˆ๋‹ค.

ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ: ๋…ผ๋ฌธ์—์„œ๋„ ํ•œ๊ณ„๋ฅผ ์ผ๋ถ€ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ํ˜„์žฌ ์‹œ์Šคํ…œ์€ ์ฃผ๋กœ ๋‹จ์ผ ๋‹จ๊ณ„ grasping ์ž‘์—…์— ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„์ง ๋„๊ตฌ ํ™œ์šฉ, ์† ๋‚ด์—์„œ์˜ ์žฌ๋ฐฐ์—ด(in-hand manipulation) ๋“ฑ ๋ณต์žกํ•œ ์žฅ๊ธฐ ํ–‰๋™์€ ๋‹ค๋ฃจ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด‰๊ฐ ์„ผ์‹ฑ ํ†ตํ•ฉ์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํฐ ๋„์›€์ด ๋˜์—ˆ์ง€๋งŒ, ์žก๊ธฐ ์ง์ „ ํŒ”์„ ์›€์ง์ผ ๋•Œ๋Š” ์ด‰๊ฐ ์ •๋ณด๊ฐ€ ์—†์œผ๋ฏ€๋กœ ์•ฝ๊ฐ„์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ถˆ์ผ์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ ํ–ฅํ›„ ์ด‰๊ฐ๊ณผ ์‹œ๊ฐ ์ •๋ณด์˜ alignment ๋ฌธ์ œ๋‚˜ ์žก๊ธฐ ์ „ ํƒ์ƒ‰ ๋™์ž‘ ๋“ฑ์˜ ์—ฐ๊ตฌ๋กœ ๊ฐœ์„ ๋  ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ต์ • ํ•™์Šต๋„ ์ธ๊ฐ„ ๊ฐœ์ž…์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ์‹คํŒจ๋ฅผ ์ž๋™์œผ๋กœ ํƒ์ง€/๊ต์ •ํ•˜๊ฑฐ๋‚˜ ์•„์˜ˆ ์ดˆ๊ธฐ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋” ํฌ๊ด„์ ์œผ๋กœ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉํ–ฅ๋„ ๊ณ ๋ฏผ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋ณธ ์—ฐ๊ตฌ๊ฐ€ ๋ณด์—ฌ์ค€ ์ธ๊ฐ„-๋กœ๋ด‡ ํ˜‘๋ ฅ ํ•™์Šต๊ณผ ๋ชจ๋“ˆ์‹ ์ •์ฑ… ์„ค๊ณ„๋Š” ํ–ฅํ›„ ๋ฒ”์šฉ ๋กœ๋ด‡๋น„์„œ๋‚˜ ์‚ฐ์—…์šฉ ๋‹ค๊ธฐ๋Šฅ ๋กœ๋ด‡ ๊ฐœ๋ฐœ์— ์ค‘์š”ํ•œ ํ•œ ๊ฑธ์Œ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณตํ•™์˜ ๊ถ๊ทน์ ์ธ ๋ชฉํ‘œ์ธ โ€œ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์œ ์—ฐํ•˜๊ณ  ๋˜‘๋˜‘ํ•œ ๋กœ๋ด‡โ€์„ ์‹คํ˜„ํ•˜๊ธฐ ์œ„ํ•ด, ํšจ๊ณผ์ ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ํ•™์Šต๋ฒ•์ด ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€ ๋‹ค์‹œ๊ธˆ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์ด ๋ฐฉํ–ฅ์˜ ์—ฐ๊ตฌ๊ฐ€ ๋”์šฑ ๋ฐœ์ „ํ•˜์—ฌ, ์‚ฌ๋žŒ๊ณผ ๋กœ๋ด‡์ด ํ•จ๊ป˜ ๋ฐฐ์šฐ๊ณ  ์„ฑ์žฅํ•˜๋Š” ํŒŒํŠธ๋„ˆ๋กœ์„œ ๋ณต์žกํ•œ ์„ธ์ƒ์—์„œ ํ˜‘๋ ฅํ•ด๋‚˜๊ฐ€๊ธธ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee