Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • 1 Brief Review
  • 2 Detail Review
    • 2.1 ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์š”์•ฝ
    • 2.2 ์—ฐ๊ตฌ์˜ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ
    • 2.3 ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ๊ธฐ์ˆ ์  ์ ‘๊ทผ
      • 2.3.1 ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ๋™์ž‘ ๊ณต๊ฐ„
      • 2.3.2 ๊ต์‚ฌ ์ •์ฑ…: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐ•ํ™”ํ•™์Šต
      • 2.3.3 ํ•™์ƒ ์ •์ฑ…: RGB ๋ชจ๋ฐฉํ•™์Šต
    • 2.4 ์ฃผ์š” ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„
    • 2.5 ์žฅ๋‹จ์  ํ‰๊ฐ€

๐Ÿ“ƒDextrAH-RGB ๋ฆฌ๋ทฐ

fabric-guided
rgb
dextrah
Visuomotor Policies to Grasp Anything with Dexterous Hands
Published

September 10, 2025

  • Paper Link
  • Homepage
  1. RGB ์ด๋ฏธ์ง€ ์ž…๋ ฅ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์ •๊ตํ•˜๊ฒŒ ํŒŒ์ง€ํ•˜๋Š” ๋กœ๋ด‡ ์‹œ์Šคํ…œ์ธ DextrAH-RGB๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฐ•ํ™” ํ•™์Šต์„ ํ†ตํ•ด Teacher policy๋ฅผ ํ›ˆ๋ จํ•œ ํ›„ ์ด๋ฅผ RGB ๊ธฐ๋ฐ˜ Student policy๋กœ ์ฆ๋ฅ˜(distill)ํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  2. DextrAH-RGB๋Š” ๊ธฐํ•˜ํ•™์  ํŒจ๋ธŒ๋ฆญ ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์•ˆ์ „ํ•˜๊ณ  ๋ฐ˜์‘์ ์ธ ๋™์ž‘์„ ๋ณด์žฅํ•˜๋ฉฐ, ํฌํ† ๋ฆฌ์–ผ๋ฆฌ์Šคํ‹ฑ ๋ Œ๋”๋ง ๋ฐ ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ›ˆ๋ จ๋œ ์ •์ฑ…์ด ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ์ „์ด๋  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
  3. DextrAH-RGB๋Š” ๊นŠ์ด ๊ธฐ๋ฐ˜ ํŒŒ์ง€ ์ •์ฑ…๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์‹ค์ œ ์„ธ๊ณ„์—์„œ ์ด์ „์— ๋ณด์ง€ ๋ชปํ•œ ๊ฐ์ฒด ํ˜•์ƒ, ์งˆ๊ฐ, ์กฐ๋ช… ์กฐ๊ฑด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ•˜์—ฌ RGB ๊ธฐ๋ฐ˜ ์—”๋“œํˆฌ์—”๋“œ ๋ฑ์Šคํ„ฐ๋Ÿฌ์Šค ํŒŒ์ง€ ๋ถ„์•ผ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

1 Brief Review

์ด ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•˜๊ณ  ๋ณต์žกํ•œ ๋ฌผ์ฒด์— ๋Œ€ํ•ด ๋ฏผ์ฒฉํ•œ ๋กœ๋ด‡ ํ•ธ๋“œ๊ฐ€ ์‹ ์†ํ•˜๊ณ  ์ผ๋ฐ˜์ ์ธ ํŒŒ์ง€(grasping)๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” Visuomotor Policy์ธ DextrAH-RGB๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ์†๋„, ์ผ๋ฐ˜์„ฑ, ํ˜น์€ Depth Map ๋ฐ Object Pose์— ์˜์กดํ•œ๋‹ค๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, ๋ณธ ์—ฐ๊ตฌ๋Š” RGB ์ด๋ฏธ์ง€ ์ž…๋ ฅ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ End-to-End ๋ฏผ์ฒฉํ•œ ์•”-ํ•ธ๋“œ(Arm-Hand) ํŒŒ์ง€ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DextrAH-RGB๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ Privileged Fabric-Guided Policy(FGP)๋ฅผ ํ•™์Šต์‹œํ‚จ ํ›„, ์ด๋ฅผ Photorealistic Tiled Rendering์„ ์‚ฌ์šฉํ•˜์—ฌ RGB ๊ธฐ๋ฐ˜ FGP๋กœ Distillationํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ณต์žกํ•˜๊ณ  ์ ‘์ด‰์ด ๋งŽ์€ ์ž‘์—…์ธ ๋ฏผ์ฒฉํ•œ ํŒŒ์ง€๋ฅผ ์œ„ํ•œ End-to-End RGB ๊ธฐ๋ฐ˜ Policy์˜ Sim2Real Transfer๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์‹œ์—ฐํ•œ ์ตœ์ดˆ์˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

  1. Teacher FGP ํ›ˆ๋ จ:
    • ์•ˆ์ „ํ•˜๊ณ  ๋ฐ˜์‘์„ฑ์ด ๋›ฐ์–ด๋‚˜๋ฉฐ ๋ฏผ์ฒฉํ•œ ํŒŒ์ง€์— ์ ํ•ฉํ•œ ์•ก์…˜ ๊ณต๊ฐ„(6-DoF Palm Pose์™€ 5์ฐจ์› PCA Hand ์•ก์…˜ ๊ณต๊ฐ„)์„ ์ œ๊ณตํ•˜๋Š” Geometric Fabric Controller๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ PPO(Proximal Policy Optimization)๋ฅผ ํ†ตํ•ด ์ƒํƒœ ๊ธฐ๋ฐ˜(State-based) Teacher FGP๋ฅผ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
    • Actor-Critic ํ”„๋ ˆ์ž„์›Œํฌ๋Š” Asymmetricํ•˜๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด, Actor๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ํฌํ•จ๋œ ์ƒํƒœ ๊ด€์ธก(Noisy State Observation)์„ ๋ฐ›๊ณ  Critic์€ ๋ชจ๋“  Privileged Observation์„ ๋ฐ›์•„, ์ •์ฑ…์ด ์ •ํ™•ํ•œ ์ƒํƒœ ์ถ”์ •์น˜์— ๊ณผ๋„ํ•˜๊ฒŒ ์˜์กดํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.
    • ์ •์ฑ… ๋„คํŠธ์›Œํฌ๋Š” 512๊ฐœ ์œ ๋‹›์˜ LSTM ๋ ˆ์ด์–ด์™€ ๋‘ ๊ฐœ์˜ 512๊ฐœ ์œ ๋‹› MLP ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, Critic์€ 2048๊ฐœ ์œ ๋‹› LSTM๊ณผ [1024, 512] ์œ ๋‹› MLP๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด LSTM ์ฃผ๋ณ€์— Dense Skip Connection์„ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ๋ฌผ์ฒด์— ์†์„ ๊ฐ€๊นŒ์ด ๊ฐ€์ ธ๊ฐ€๋Š” ๋ณด์ƒ (r_{hand\_obj} = \exp(-10 d_{hand\_obj})), ๋ฌผ์ฒด๋ฅผ ๋ชฉํ‘œ ์œ„์น˜๋กœ ์ด๋™์‹œํ‚ค๋Š” ๋ณด์ƒ (r_{obj\_goal} = \exp(-\beta_{obj\_goal} \|x_{obj} - x_{goal}\|)), ๋ฌผ์ฒด๋ฅผ ํ…Œ์ด๋ธ”์—์„œ ๋“ค์–ด ์˜ฌ๋ฆฌ๋Š” ๋ณด์ƒ (r_{lift} = \exp(-\beta_{lift} (x_{obj_z} - x_{goal_z})^2)), ๊ทธ๋ฆฌ๊ณ  ์†๊ฐ€๋ฝ์ด ๋„ˆ๋ฌด ๋งŽ์ด ๋ง๋ฆฌ์ง€ ์•Š๋„๋ก ํ•˜๋Š” ์ •๊ทœํ™” ํŽ˜๋„ํ‹ฐ (r_{curl} = -\beta_{curl} \|q_{hand} - q_{curl}\|^2)์˜ ๊ฐ€์ค‘ ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
    • ADR(Automatic Domain Randomization)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌผ๋ฆฌํ•™ ๋งค๊ฐœ๋ณ€์ˆ˜(๋งˆ์ฐฐ, ๋ฐ˜๋ฐœ ๊ณ„์ˆ˜, ์งˆ๋Ÿ‰ ๋“ฑ)์™€ ์„ผ์„œ ๋…ธ์ด์ฆˆ ๋ฐ ๋ฐ”์ด์–ด์Šค, ๋ณด์ƒ ๊ฐ€์ค‘์น˜, ํŒจ๋ธŒ๋ฆญ ๋Œํ•‘(Fabric Damping) ๋“ฑ ๋‹ค์–‘ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ฒ”์œ„๋ฅผ ์ ์ง„์ ์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ์ •์ฑ…์˜ ๊ฐ•๊ฑด์„ฑ(Robustness)์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
    • ํ›ˆ๋ จ ์‹œ PD Controller์˜ ์†๋„ ๋ชฉํ‘œ(Velocity Target)์™€ FGP์˜ ์†๋„ ๋ฐ ๊ฐ€์†๋„ ์ž…๋ ฅ(Velocity and Acceleration Input)์„ 0์œผ๋กœ ์Šค์ผ€์ผ๋งํ•˜๊ณ , ๋” ๋น ๋ฅธ ์›€์ง์ž„์„ ์œ„ํ•ด ํŒจ๋ธŒ๋ฆญ ๋ฏธ๋ถ„ ๋ฐฉ์ •์‹(Fabric Differential Equation)์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์Šคํ… ๋‹น ๋‘ ํƒ€์ž„ ์Šคํ…์”ฉ ํ†ตํ•ฉํ•˜๋ฉฐ, ๋ฌผ์ฒด ๊ต๋ž€ ํ† ํฌ(Disturbance Wrench) ํ™œ์„ฑํ™” ์กฐ๊ฑด์„ ๋ณ€๊ฒฝํ•˜์—ฌ ๋”์šฑ ๋ฐ˜์‘์ ์ธ ์ •์ฑ…์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.
  2. RGB Student FGP Distillation:
    • Online DAgger๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋œ Teacher FGP๋ฅผ RGB ๊ธฐ๋ฐ˜ Student FGP๋กœ Distillationํ•ฉ๋‹ˆ๋‹ค.
    • Student๋Š” ๋กœ๋ด‡์˜ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ(Proprioceptive) ๋ฐ์ดํ„ฐ์™€ ์Šคํ…Œ๋ ˆ์˜ค ์นด๋ฉ”๋ผ์—์„œ ์ดฌ์˜๋œ ๋‘ ์žฅ์˜ RGB ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค.
    • Isaac Lab์˜ Ray-Traced Tiled Rendering ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅด๊ณ  ์‚ฌ์‹ค์ ์ธ ๋ Œ๋”๋ง์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค. HDRI ๋ฐฐ๊ฒฝ, ๋กœ๋ด‡, ํ…Œ์ด๋ธ”, ๋ฌผ์ฒด์˜ ์žฌ์งˆ(์•Œ๋ฒ ๋„, ๊ฑฐ์น ๊ธฐ, ๊ธˆ์†์„ฑ, ๋ฐ˜์‚ฌ๋„) ๋ฐ ํ…์Šค์ฒ˜๋ฅผ ๋ฌด์ž‘์œ„ํ™”ํ•˜๊ณ , Random Background, Color Jitter, Motion Blur์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(Data Augmentation)์„ ์ ์šฉํ•˜์—ฌ ํ˜„์‹ค์ ์ธ ์žฅ๋ฉด์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
    • Student ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜๋Š” Fig. 7a์— ์ž์„ธํžˆ ์„ค๋ช…๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘ ์žฅ์˜ RGB ์ด๋ฏธ์ง€๋Š” ResNet-18 Encoder (์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํ›„ ๋งˆ์ง€๋ง‰ ๋‘ ๋ ˆ์ด์–ด ์ œ๊ฑฐ)๋ฅผ ํ†ตํ•ด Siamese ๋ฐฉ์‹์œผ๋กœ Feature Vector๋กœ ์ธ์ฝ”๋”ฉ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฒกํ„ฐ๋Š” MLP๋ฅผ ๊ฑฐ์ณ ๊ฐ๊ฐ 128๊ฐœ์˜ 128์ฐจ์› ํ† ํฐ(Token)์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ์ด ํ† ํฐ๋“ค์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ [embed] ํ† ํฐ๊ณผ ํ•จ๊ป˜ Transformer๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค. Transformer๋Š” Cross-Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•œ ์ด๋ฏธ์ง€์˜ ํ† ํฐ์ด ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์˜ ํ† ํฐ ๋˜๋Š” [embed] ํ† ํฐ์—๋งŒ Attendingํ•˜๋„๋ก ํ•˜์—ฌ, ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์•”๋ฌต์ ์ธ ์Šคํ…Œ๋ ˆ์˜ค ๋งค์นญ(Implicit Stereo Matching)์„ ํ†ตํ•ด Depth ์ •๋ณด๋ฅผ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. [embed] ํ† ํฐ์˜ ์ถœ๋ ฅ์€ MLP๋ฅผ ํ†ตํ•ด 64์ฐจ์› Stereo Embedding Vector๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
    • ์ด Stereo Embedding Vector๋Š” ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์ž…๋ ฅ๊ณผ ์—ฐ๊ฒฐ๋˜์–ด 512๊ฐœ ์œ ๋‹›์˜ LSTM์— ์ž…๋ ฅ๋˜๊ณ , ๊ทธ ์ถœ๋ ฅ์€ ๋‹ค์‹œ ์ž…๋ ฅ๊ณผ ์—ฐ๊ฒฐ๋˜์–ด [512, 512, 256] ์œ ๋‹›์˜ MLP๋ฅผ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ณด์กฐ ์†์‹ค(Auxiliary Loss)์„ ์œ„ํ•ด ๋ฌผ์ฒด์˜ 3D ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ—ค๋“œ๊ฐ€ ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.
    • ์†์‹ค ํ•จ์ˆ˜๋Š” ๋ชจ๋ฐฉ ์†์‹ค(Imitation Loss)๊ณผ ๋ณด์กฐ ์†์‹ค(L = L_{action} + L_{aux})์˜ ํ•ฉ์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. L_{action} = D_{KL}(\pi_{student}\|\pi_{teacher})์ด๋ฉฐ, L_{aux} = \|\hat{x}_{obj} - x_{obj}\|^2์ž…๋‹ˆ๋‹ค. KL divergence๋Š” L2 Loss๋ณด๋‹ค ๋ถ„์‚ฐ์ด ๋‚ฎ์€ ์ฐจ์›์—์„œ ์˜ค์ฐจ๋ฅผ 0์œผ๋กœ ๋งŒ๋“œ๋Š”๋ฐ ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋‘์–ด ๋” ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
    • ResNet Encoder์˜ Finetuning์ด ์ •์ฑ… ์„ฑ๋Šฅ์— ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ๋ชจ๋“  ResNet ๊ฐ€์ค‘์น˜๋Š” bf16์œผ๋กœ ์บ์ŠคํŒ…๋ฉ๋‹ˆ๋‹ค.
    • Student ํ›ˆ๋ จ ์‹œ, ๋ฌผ์ฒด๊ฐ€ 2์ดˆ ๋™์•ˆ ๊ณต์ค‘์— ๋“ค๋ ค ์žˆ์œผ๋ฉด ์—ํ”ผ์†Œ๋“œ๋ฅผ ์กฐ๊ธฐ์— ์ข…๋ฃŒ์‹œ์ผœ ์ดˆ๊ธฐ ํŒŒ์ง€ ์‹œ๋„์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ, DextrAH-RGB๋Š” Sim2Real Transfer์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ƒˆ๋กœ์šด ๋ฌผ์ฒด, ๋ณด์ง€ ๋ชปํ•œ ํ˜•์ƒ, ํ…์Šค์ฒ˜, ์กฐ๋ช… ์กฐ๊ฑด(HDR ํฌํ•จ)์—์„œ๋„ ์ผ๋ฐ˜ํ™”๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์Šคํ…Œ๋ ˆ์˜ค RGB ์„ค์ •์€ ๋‹จ์•ˆ(Monocular) RGB๋ณด๋‹ค ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ  (์œ„์น˜ ์˜ค์ฐจ ์•ฝ 1cm ๊ฐ์†Œ), Transformer ๋ชจ๋“ˆ์˜ ์ถ”๊ฐ€๋Š” ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜์—์„œ DextrAH-RGB (์Šคํ…Œ๋ ˆ์˜ค)๋Š” DextrAH-G (Depth ๊ธฐ๋ฐ˜)์™€ ๋น„๊ตํ•˜์—ฌ Cycle Time์ด 1~2์ดˆ ๋” ๋นจ๋ผ ์ธ๊ฐ„ ํŒŒ์ง€ ์‹œ๊ฐ„(3.63์ดˆ)์— ๊ทผ์ ‘ํ•˜๋Š” ๋น ๋ฅธ ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ์—ฐ์† ์„ฑ๊ณต๋ฅ (CS)๊ณผ ์„ฑ๊ณต๋ฅ (SR)์€ ๋‹ค์†Œ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ HDR ์กฐ๊ฑด์—์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ํฌ์ง€ ์•Š์•„ ์กฐ๋ช… ์กฐ๊ฑด์— ๊ฐ•๊ฑดํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ DextrAH-RGB๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ›ˆ๋ จ๋œ End-to-End RGB ๊ธฐ๋ฐ˜ ๋ฏผ์ฒฉํ•œ ํŒŒ์ง€ ์ •์ฑ…์˜ ์‹ค์ œ ์„ธ๊ณ„ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํ–ฅํ›„ ๋” ๋ณต์žกํ•œ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ ๋ฐ ๋Œ€๊ทœ๋ชจ ํ”ฝ์…€-์•ก์…˜(Pixels-to-Action) ๊ธฐ์ดˆ ์ •์ฑ…(Foundational Policies)์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋กœ ํ™œ์šฉ๋  ์ž ์žฌ๋ ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ํ•œ๊ณ„์ ์œผ๋กœ๋Š” PCA ์•ก์…˜ ๊ณต๊ฐ„์œผ๋กœ ์ธํ•œ ๋ฏผ์ฒฉ์„ฑ ์ œํ•œ, ํ…Œ์ด๋ธ”๊ณผ์˜ ์ถฉ๋Œ ํšŒํ”ผ ๋™์ž‘์˜ ์ •์ฑ… ํ•™์Šต ๋ถˆ๊ฐ€๋Šฅ, ๋‘ ๋‹จ๊ณ„ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋ณต์žก์„ฑ, ๊ธฐ๋Šฅ์ ์ด์ง€ ์•Š์€ ํŒŒ์ง€(Non-functional Grasping), ๊ทธ๋ฆฌ๊ณ  ๋‹จ์ผ ๋ฌผ์ฒด ์‹œ๋‚˜๋ฆฌ์˜ค์— ํ•œ์ •๋œ๋‹ค๋Š” ์  ๋“ฑ์ด ์–ธ๊ธ‰๋ฉ๋‹ˆ๋‹ค.


2 Detail Review

DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands (๋…ผ๋ฌธ ๋ฆฌ๋ทฐ)

2.1 ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์š”์•ฝ

DextrAH-RGB๋Š” ๋‹ค์ง€(ๅคšๆŒ‡) ๋กœ๋ด‡ ์†์„ ์ด์šฉํ•ด ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์žก๋Š”(dexterous grasping) ๋ฌธ์ œ๋ฅผ ์˜ค๋กœ์ง€ RGB ์นด๋ฉ”๋ผ ์˜์ƒ๋งŒ์œผ๋กœ ํ•ด๊ฒฐํ•œ ์ตœ์‹  ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์Šคํ…Œ๋ ˆ์˜ค ์นด๋ฉ”๋ผ๋กœ๋ถ€ํ„ฐ ์–ป์€ ๋‘ ์žฅ์˜ RGB ์˜์ƒ ์ž…๋ ฅ๋งŒ์œผ๋กœ ๋กœ๋ด‡ ํŒ”-์† ์‹œ์Šคํ…œ(7์ž์œ ๋„ ๋กœ๋ด‡ ํŒ” + 16์ž์œ ๋„ ๋‹ค์ง€ ๋กœ๋ด‡ ์†)์„ ์—”๋“œํˆฌ์—”๋“œ(end-to-end)๋กœ ์ œ์–ดํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•™์Šต๋œ ๊ต์‚ฌ(teacher) ์ •์ฑ…์„ ํ™œ์šฉํ•ด, ์นด๋ฉ”๋ผ ์ž…๋ ฅ ๊ธฐ๋ฐ˜์˜ ํ•™์ƒ(student) ์ •์ฑ…์„ ๋ชจ๋ฐฉ ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ์ด๋‹จ๊ณ„ ํ•™์Šต ์ ˆ์ฐจ์ž…๋‹ˆ๋‹ค. ๋จผ์ € ๋ฌผ์ฒด์˜ ์ƒํƒœ์ •๋ณด ๋“ฑ์„ ์ง์ ‘ ๊ด€์ธกํ•  ์ˆ˜ ์žˆ๋Š” ๊ต์‚ฌ ์ •์ฑ…์„ ์•ˆ์ „ํ•œ ๋™์ž‘ ๊ณต๊ฐ„์—์„œ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จํ•˜๊ณ , ์ดํ›„ ์ด ๊ต์‚ฌ ์ •์ฑ…์„ ํ†ตํ•ด RGB ์˜์ƒ๋งŒ ๋ณด๋Š” ํ•™์ƒ ์ •์ฑ…์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ DAgger ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ์ตœ์ข… ์‹œ๊ฐ-์šด๋™ ์ •์ฑ…(visual-motor policy)์€ ๋ณต์žกํ•˜๊ณ  ๋™์ ์ธ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์ž‘์—…์„ RGB ์ž…๋ ฅ๋งŒ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ๊ทธ๋Œ€๋กœ ์ œ๋กœ์ƒท์œผ๋กœ ์‹ค์ œ ๋กœ๋ด‡์— ์ด์‹(sim-to-real)๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์˜ ์ฃผ์žฅ์— ๋”ฐ๋ฅด๋ฉด, DextrAH-RGB๋Š” ์„ธ๊ณ„ ์ตœ์ดˆ๋กœ ์ˆœ์ˆ˜ RGB ์นด๋ฉ”๋ผ ์ž…๋ ฅ ๊ธฐ๋ฐ˜ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์ •์ฑ…์˜ ๊ฒฌ๊ณ ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ์ „์ด๋ฅผ ๋‹ฌ์„ฑํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด ์ •์ฑ…์€ ํ›ˆ๋ จ ์ค‘ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ํ˜•ํƒœ์˜ ๋ฌผ์ฒด๋‚˜ ๋‹ค์–‘ํ•œ ์žฌ์งˆยทํ…์Šค์ฒ˜, ์กฐ๋ช… ์กฐ๊ฑด ๋ณ€ํ™”์—๋„ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ๋†’์€ ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค๊ณ  ๋ณด๊ณ ๋ฉ๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, ์ด ๋…ผ๋ฌธ์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋งŒ์œผ๋กœ ํ•™์Šต๋œ RGB ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜์—ฌ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ํŒŒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์ด๋‚˜ ๊ฑฐ์‹œ์ ์ธ ํ”ฝ์…€-ํˆฌ-์•ก์…˜(pixels-to-action) ๋ชจ๋ธ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ๋ชจ๋“ˆ์ด์ž ๋ฐ์ดํ„ฐ ์†Œ์Šค๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2.2 ์—ฐ๊ตฌ์˜ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ

๋กœ๋ด‡ ๋ถ„์•ผ์—์„œ ์‚ฌ๋žŒ ์†์ฒ˜๋Ÿผ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์ฅ๋Š” ๋Šฅ๋ ฅ์€ ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋ฉด์„œ๋„ ์˜ค๋žซ๋™์•ˆ ํ•ด๊ฒฐ์ด ์–ด๋ ค์› ๋˜ ๋„์ „ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋‹ค์ง€ ๋กœ๋ด‡ ์†์˜ ์ž ์žฌ๋ ฅ์„ ์ถฉ๋ถ„ํžˆ ํ™œ์šฉํ•˜๋ ค๋ฉด, ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด์—๋„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๊ณ  ์ฃผ๋ณ€ ํ™˜๊ฒฝ ๋ณ€ํ™”์—๋„ ๊ฐ•์ธํ•˜๋ฉฐ, ๊ฐ€์ •์ด๋‚˜ ์ž‘์—…์žฅ์—์„œ ๋งˆ์ฃผ์น˜๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ๋ฌผ์ฒด๋“ค์— ๋ชจ๋‘ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์„ผ์„œ๋กœ ๋™์ž‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ์™€ ์†”๋ฃจ์…˜์ด ์ œ์‹œ๋˜์—ˆ์ง€๋งŒ, ์•„์ง๊นŒ์ง€ ์ผ๋ฐ˜์ ์ธ ํ•ด๋ฒ•์„ ๋งŒ๋“ค๊ธฐ๋Š” ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ ์ตœ๊ทผ์—๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ์˜ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋„๋ฉ”์ธ ๋žœ๋คํ™”(domain randomization) ๊ธฐ๋ฒ• ๋“ฑ์˜ ๋ฐœ์ „์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ํ˜„์‹ค ๋กœ๋ด‡์— ์„ฑ๊ณต์ ์œผ๋กœ ์ด์ „(simtoreal)ํ•˜๋Š” ์‚ฌ๋ก€๋“ค์ด ๋Š˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ™œ์šฉํ•˜๋ฉด ๋Œ€๋Ÿ‰์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์•ˆ์ „ํ•˜๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ณ , ์‹œ๊ฐ ์„ผ์„œ์™€ ๋กœ๋ด‡ ์ž์ฒด์„ผ์„œ(proprioception) ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ๋ฐ˜์‘์  ์ •์ฑ… ํ›ˆ๋ จ์ด ์šฉ์ดํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•œ ํ˜„์žฌ์˜ ์ ‘๊ทผ๋ฒ•๋“ค์—๋„ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๊ธฐ์กด ์‹œ์Šคํ…œ์€ ์‹œ๊ฐ ์ž…๋ ฅ๋ถ€ํ„ฐ ์ œ์–ด๊นŒ์ง€ ์ง์ ‘ ์—ฐ๊ฒฐํ•˜๋Š” ์—”๋“œํˆฌ์—”๋“œ ์ •์ฑ… ํ•™์Šต์„ ํ”ผํ•˜๊ณ , ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋กœ ๋ถ„๋ฆฌ(factorize)ํ•˜๋Š” ๋ฐฉ์‹์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ณต์žกํ•œ ํŒŒ์ง€ ๋ฌธ์ œ๋ฅผ ์ •์ ์ธ ํŒŒ์ง€ ์ž์„ธ๋ฅผ ์ฐพ๋Š” ํ‚ค๋„ค๋งˆํ‹ฑ ๋ฌธ์ œ๋กœ ํ™˜์›ํ•˜์—ฌ ์ ‘๊ทผํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณ„ํš ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค์€ ํ‰๊ท ์ ์ธ ๋ฌผ์ฒด์—๋Š” ํšจ๊ณผ์ ์ด์ง€๋งŒ, ์‹ค์‹œ๊ฐ„์œผ๋กœ ์—ฐ์†์  ๋Œ€์‘์ด ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์˜ˆ๊ธฐ์น˜ ์•Š์€ ์™ธ๋ž€์ด๋‚˜ ์ฒ˜์Œ ๋ณด๋Š” ํŠน์ดํ•œ ํ˜•์ƒ์˜ ๋ฌผ์ฒด์—๋Š” ๋Œ€์‘ํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•œํŽธ, ์—ฐ์†์ ์ธ ์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜์˜ ํŒŒ์ง€ ์ œ์–ด ์—ฐ๊ตฌ๋“ค๋„ ์กด์žฌํ•˜์ง€๋งŒ, ๊ณ ํ™”์งˆ RGB ์˜์ƒ์„ ๋Œ€๋Ÿ‰์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ธฐ์—” ์ œ์•ฝ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ฃผ๋กœ ๊นŠ์ด(depth) ์„ผ์„œ๋‚˜ ์ ๊ตฐ(point cloud) ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ์™”์Šต๋‹ˆ๋‹ค. ๊นŠ์ด์ง€๋„(depth map)๋Š” ๋ฌผ์ฒด์˜ ๊ธฐํ•˜ํ•™์  ํ˜•ํƒœ ํŒŒ์•…์— ์œ ๋ฆฌํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ๋„ ๋น„๊ต์  ๊ตฌํ˜„์ด ์‰ฌ์›Œ ๋งŽ์ด ์‚ฌ์šฉ๋˜์—ˆ์ง€๋งŒ, ๋ฐ˜ํˆฌ๋ช…ํ•˜๊ฑฐ๋‚˜ ํˆฌ๋ช…ํ•œ ๋ฌผ์ฒด์—๋Š” ์ทจ์•ฝํ•˜๊ณ  ์‹ค์ œ IR ๊ธฐ๋ฐ˜ ๊นŠ์ด์นด๋ฉ”๋ผ์˜ ๋…ธ์ด์ฆˆ ๋ฌธ์ œ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ์†๋„๋‚˜ ๋‹ค์ง€ ์†์˜ ์„ฌ์„ธํ•จ, ํ˜น์€ ๊นŠ์ด์ง€๋„ ์˜์กด์„ฑ ๋“ฑ์—์„œ ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์™”์œผ๋ฉฐ, ์™„์ „ํžˆ RGB ์นด๋ฉ”๋ผ๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜๋Š” ๋ฒ”์šฉ์ ์ธ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์ •์ฑ…์€ ๊ฐœ๋ฐœ๋˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋นˆํ‹ˆ์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” RGB ๊ธฐ๋ฐ˜์˜ ์—ฐ์†์ ์ด๊ณ  ๋ฐ˜์‘์ ์ธ ํŒŒ์ง€ ์ •์ฑ…์„ ์ œ์•ˆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค์„ ์‚ดํŽด๋ณด๋ฉด, ์ „ํ†ต์ ์ธ ๋ฐฉ๋ฒ•๋“ค์€ ๋ฌผ์ฒด-์† ๊ฐ„ ์ ‘์ด‰ ์•ˆ์ •์„ฑ ๋ถ„์„ ๋“ฑ์„ ํ†ตํ•œ ๊ทธ๋ฆฝ ํ’ˆ์งˆ ์ง€ํ‘œ๋ฅผ ์ตœ์ ํ™”ํ•˜์˜€์œผ๋‚˜ ์ •๋ฐ€ํ•œ ์ง‘๊ฒŒ์งˆ(pinch grip) ๋“ฑ์— ๊ตญํ•œ๋˜๊ฑฐ๋‚˜ ์ •ํ™•ํ•œ ๋ฌผ์ฒด 3D ๋ชจ๋ธ์ด ํ•„์š”ํ•˜๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์œผ๋กœ ๋ฐฉ๋Œ€ํ•œ ๊ทธ๋ฆฝ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ํ•™์Šต๋„ ์‹œ๋„๋˜์—ˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„ ๊นŠ์ด/์ ๊ตฐ ์ •๋ณด์— ์˜์กดํ•˜์—ฌ ํ•™์Šตํ•˜๊ฑฐ๋‚˜ ๊ฒฐ๊ณผ ๊ฒ€์ฆ๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‚ด์— ๋จธ๋ฌด๋ฅด๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ๋ช‡๋ช‡ ์ตœ์‹  ์—ฐ๊ตฌ์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ •์ฑ…์˜ ์‹ค์ œ ์ด์ „์„ ๋ณด๊ณ ํ•˜๊ธฐ๋„ ํ–ˆ์ง€๋งŒ, ๋ฌผ์ฒด CAD ๋ชจ๋ธ์„ ์ด์šฉํ•œ ํฌ์ฆˆ ์ถ”์ •์„ ์ „์ œํ•œ๋‹ค๋“ ์ง€, ์†๊ฐ€๋ฝ์˜ ๊ฐ€๋ ค์ง์œผ๋กœ ์ธํ•œ ์ ๊ตฐ ๊ฒฐ์†์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด ๋กœ๋ด‡ ๋ชจ๋ธ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ํŠน์ˆ˜ ๊ธฐ๋ฒ•์„ ์“ฐ๋Š” ๋“ฑ ๋ฒ”์šฉ์„ฑ์ด ์ œํ•œ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์„ ํ–‰์—ฐ๊ตฌ๋กœ ์–ธ๊ธ‰๋œ DextrAH-G๋Š” ๋ณธ ๋…ผ๋ฌธ์˜ ์ง์ „ ๋ฒ„์ „ ๊ฒฉ์œผ๋กœ, ์ธ๊ฐ„ ๊ทธ๋ฆฝ ๋™์ž‘์„ PCA๋กœ ์ €์ฐจ์›ํ™”ํ•œ ์†๋™์ž‘ ๊ณต๊ฐ„๊ณผ ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ(geometric fabric) ๊ธฐ๋ฐ˜ ์•ˆ์ „ ์ œ์–ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ต์‚ฌ-ํ•™์ƒ ๊ตฌ์กฐ๋กœ ํ•™์Šตํ•œ ๋’ค ๊นŠ์ด ์นด๋ฉ”๋ผ ๊ธฐ๋ฐ˜ ํ•™์ƒ ์ •์ฑ…์„ ์‹œํ˜„ํ•œ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค. DextrAH-G๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ๊นŠ์ด ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์‹ค์ œ๋กœ๋„ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ์ด์ „ํ•˜์—ฌ ํ›ˆ๋ จ์— ์“ฐ์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋“ค๋„ ์žก์•„๋‚ด๋Š” ๋†€๋ผ์šด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ, ์—ฌ์ „ํžˆ ๊นŠ์ด ์„ผ์„œ์— ์˜์กดํ•˜๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. DextrAH-RGB๋Š” ๋ฐ”๋กœ ์ด ์ง€์ ์„ ๋ฐœ์ „์‹œ์ผœ, ๊นŠ์ด ๋Œ€์‹  ์นด๋ฉ”๋ผ RGB ์ •๋ณด๋งŒ์œผ๋กœ ๋™์ž‘ํ•˜๋Š” ์ •์ฑ…์„ ์ œ์‹œํ•จ์œผ๋กœ์จ ๋”์šฑ ๊ด‘๋ฒ”์œ„ํ•œ ๋ฌผ์ฒด์™€ ํ™˜๊ฒฝ์—์„œ๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ฐ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.3 ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ๊ธฐ์ˆ ์  ์ ‘๊ทผ

DextrAH-RGB์˜ ํ•™์Šต์€ ํฌ๊ฒŒ ๊ต์‚ฌ(policy)์™€ ํ•™์ƒ(policy)์˜ ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ๋จผ์ € ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์—์„œ ์ƒํƒœ ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ๊ต์‚ฌ ์ •์ฑ…์„ ๊ฐ•ํ™”ํ•™์Šต(PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜)์œผ๋กœ ํ•™์Šต์‹œํ‚ค๊ณ , ์ดํ›„ ํ•ด๋‹น ์ •์ฑ…์„ DAgger ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ฐฉํ•™์Šต์œผ๋กœ ํ•™์ƒ ์ •์ฑ…์— ์ฆ๋ฅ˜(distillation)ํ•ฉ๋‹ˆ๋‹ค. ํ•™์ƒ ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต๋˜๋ฉฐ, ๋‘ ๋Œ€์˜ RGB ์นด๋ฉ”๋ผ ์˜์ƒ๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋™์ž‘ํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ์ด ํ•™์ƒ ์ •์ฑ…์ด ์‹ค์ œ ๋กœ๋ด‡์— ์ด์‹๋˜์–ด ๋™์ž‘ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

2.3.1 ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ๋™์ž‘ ๊ณต๊ฐ„

๋ณธ ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๊ธฐ์ˆ  ์š”์†Œ ์ค‘ ํ•˜๋‚˜๋Š” ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ(geometric fabric)์ด๋ผ ๋ถˆ๋ฆฌ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ํŒจ๋ธŒ๋ฆญ ์œ ๋„ ์ •์ฑ…(Fabric-Guided Policy, FGP)์ž…๋‹ˆ๋‹ค. ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ์€ ๊ณ ์ „ ์—ญํ•™ ์‹œ์Šคํ…œ์„ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์•ˆ์ „ํ•˜๋ฉด์„œ๋„ ๋ฐ˜์‘์ ์ธ ์ •์ฑ…์„ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ์‹์œผ๋กœ, ๋กœ๋ด‡์˜ ๋™์ž‘์„ 2์ฐจ ๋™์—ญํ•™ ์‹œ์Šคํ…œ ํ˜•ํƒœ๋กœ ์ •์˜ํ•œ ๋’ค ํ† ํฌ ์ œ์–ด ๋“ฑ์„ ํ†ตํ•ด ์‹ค์ œ ๋กœ๋ด‡์— ๊ตฌํ˜„ํ•˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ์ •์ฑ…์˜ ์›ํ•˜๋Š” ๊ฑฐ๋™(ํ–‰๋™ ์–‘์ƒ)์„ ๊ธฐํ•˜ํ•™์  ํ•ญ(geometric term)๊ณผ ๊ฐ•์ œ ํ•ญ(forcing term)์˜ ์กฐํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š”๋ฐ, ๊ธฐํ•˜ํ•™์  ํ•ญ์€ ๋กœ๋ด‡์ด ์†๋„์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ๋™์ผํ•œ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ๊ฐ€๊ฒŒ ํ•จ์œผ๋กœ์จ ๊ธฐ๋ณธ ์›€์ง์ž„ ๊ถค์ ์„ ๊ฒฐ์ •ํ•˜๊ณ , ๊ฐ•์ œ ํ•ญ์€ ํ•„์š”์— ๋”ฐ๋ผ ๋กœ๋ด‡์˜ ๊ถค์ ์„ ๊ต๋ž€ํ•˜์—ฌ ์•ˆ์ „ ํ™•๋ณด(์˜ˆ: ๊ด€์ ˆ ํ•œ๊ณ„ ํšŒํ”ผ) ๋˜๋Š” ๊ณผ์ œ ์ˆ˜ํ–‰ ๋ณด์กฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๊ฐ•์ œ ํ•ญ์ด ๋™์‹œ์— ์ž‘์šฉํ•˜๋ฉด ์ƒ์ถฉ๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๊ฐ€๋Šฅํ•œ ํ•œ ์ •์ฑ…์˜ ๋ชฉํ‘œ ๋™์ž‘์„ ๊ธฐํ•˜ํ•™์  ํ•ญ์œผ๋กœ ๋…น์—ฌ๋‚ด๊ณ  ๊ฐ•์ œ ํ•ญ์€ ์•ˆ์ „ ๋“ฑ ๋ณด์กฐ์  ์—ญํ• ๋งŒ ํ•˜๋„๋ก ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. DextrAH-RGB์—์„œ๋Š” ์ด์ „ ์—ฐ๊ตฌ์ธ DextrAH-G์™€ ๋™์ผํ•œ ํŒจ๋ธŒ๋ฆญ ๋ฐ ๋™์ž‘ ๊ณต๊ฐ„ ์„ค๊ณ„๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ๊ทธ ์ฃผ์š” ๋‚ด์šฉ์„ ์š”์•ฝํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณผ ์ฃผ๋ณ€ ๋ฌผ์ฒด ๊ฐ„ ์ถฉ๋Œ ํšŒํ”ผ ํ–‰๋™์€ ์ €์ฐจ์› ๊ธฐํ•˜ํ•™์  ํ•ญ์— ๋‚ด์žฌํ™”ํ•˜์—ฌ ๋กœ๋ด‡์ด ๊ธฐ๋ณธ์ ์œผ๋กœ ์žฅ์• ๋ฌผ๊ณผ ์•ˆ์ „๊ฑฐ๋ฆฌ๋ฅผ ์œ ์ง€ํ•˜๋„๋ก ํ•˜๋˜, ๊ทผ์ ‘ ์‹œ์—๋งŒ ๊ฐ•์ œ ํ•ญ์œผ๋กœ ๋ฐ€์–ด๋‚ด๋Š” ๋ณด์กฐ ์ œ์–ด๋ฅผ ๋„ฃ์—ˆ์Šต๋‹ˆ๋‹ค. 7์ž์œ ๋„ ํŒ”์˜ ๊ด€์ ˆ ์—ฌ์œ ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ํŒ”๊ฟˆ์น˜๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐ”๊นฅ์œผ๋กœ ๋น ์ง€๊ณ  ์†๊ฐ€๋ฝ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์˜ค๋ฏ€๋ฆฐ ์ž์„ธ๋ฅผ ์ทจํ•˜๋„๋ก ๋Œ์–ด๋‹น๊ธฐ๋Š” ํž˜์„ ๊ธฐํ•˜ํ•™์  ํ•ญ์œผ๋กœ ์ถ”๊ฐ€ํ•˜์—ฌ, RL ์ •์ฑ…์˜ ์ถœ๋ ฅ์ด ์ด ๊ธฐ๋ณธ ์ž์„ธ์™€ ์ถฉ๋Œํ•˜์ง€ ์•Š๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ฐ๋„ ํ•œ๊ณ„๋ฅผ ๋„˜์ง€ ์•Š๋„๋ก ๊ฐ•์ œ ํ•ญ์„ ๋ถ€์—ฌํ•˜์—ฌ ์•ˆ์ „์„ฑ์„ ๋ณด์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์˜ ์•ก์…˜ ๊ณต๊ฐ„์€ ์ด๋Ÿฌํ•œ ํŒจ๋ธŒ๋ฆญ ์ƒ์—์„œ ์ •์˜๋˜๋Š”๋ฐ, ๋กœ๋ด‡ ์†๋ฐ”๋‹ฅ(palm)์˜ 6์ž์œ ๋„ ์ž์„ธ(3์ฐจ์› ์œ„์น˜ + 3์ž์œ ๋„ ํšŒ์ „)์™€ ์†๊ฐ€๋ฝ ๋™์ž‘์˜ PCA ๊ธฐ๋ฐ˜ 5์ฐจ์› ์ขŒํ‘œ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, 16์ž์œ ๋„์˜ ์†๊ฐ€๋ฝ ์›€์ง์ž„์„ ์‚ฌ์ „์— ์ธ๊ฐ„ ํŒŒ์ง€ ๋™์ž‘๋“ค์„ PCA๋กœ ๋ถ„์„ํ•ด ์ถ”์ถœํ•œ 5๊ฐœ์˜ ์ฃผ์„ฑ๋ถ„(eigengrasp) ์ถ•์œผ๋กœ ํ‘œํ˜„ํ•จ์œผ๋กœ์จ, ๊ทธ๋ฆฝ ๋™์ž‘์— ์ ํ•ฉํ•˜๋ฉด์„œ๋„ ์ฐจ์›์ด ๊ฐ์†Œ๋œ ์† ๋™์ž‘ ๊ณต๊ฐ„์„ ์‚ฌ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด 6+5์ฐจ์›์˜ ๊ณต๊ฐ„์—์„œ ๋ชฉํ‘œ ๊ฐ€์†๋„ ๋ช…๋ น์„ ์ถœ๋ ฅํ•˜๊ณ , ์‹ค์‹œ๊ฐ„ ์ œ์–ด ๋‹จ๊ณ„์—์„œ๋Š” ์ด ๊ฐ€์ƒ ํŒจ๋ธŒ๋ฆญ ๋™์—ญํ•™์˜ ๊ฐ€์†๋„์— ๋กœ๋ด‡์˜ ์‹ค์ œ ๊ฐ€์†๋„๋ฅผ ์ตœ๋Œ€ํ•œ ๋งž์ถ”๋„๋ก 2์ฐจ ์ œ์–ด(Quadratic Program)๋ฅผ ํ’€์–ด ํ† ํฌ ์ œ์–ด๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํŒจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์•ก์…˜ ๊ณต๊ฐ„์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡์ด ๋™์ž‘ ์†๋„์™€ ๊ด€๊ณ„์—†์ด ์•ˆ์ •์ ์ธ ๊ถค์ ์„ ๋”ฐ๋ฅด๊ณ  ์•ˆ์ „ ์ œ์•ฝ์„ ์ง€ํ‚ค๋ฉด์„œ๋„, ๋‹ค์ง€ ์† ํŒŒ์ง€์— ์œ ๋ฆฌํ•œ ์œ ๋„ ํŽธํ–ฅ(inductive bias)์„ ์ •์ฑ…์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

2.3.2 ๊ต์‚ฌ ์ •์ฑ…: ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐ•ํ™”ํ•™์Šต

๊ต์‚ฌ ์ •์ฑ…(Teacher FGP)์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ฐ•ํ™”ํ•™์Šต(PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜)์„ ํ†ตํ•ด ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. NVIDIA Isaac Lab ํ”Œ๋žซํผ์„ ์ด์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋“ค์„ ๋Œ€์ƒ์œผ๋กœ ํ•™์Šตํ•จ์œผ๋กœ์จ, ์ƒ˜ํ”Œ ํšจ์œจ์ด ๋‚ฎ์€ ๊ฐ•ํ™”ํ•™์Šต ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ต์‚ฌ ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๋‚ด๋ถ€ ์ƒํƒœ์ •๋ณด๋ฅผ ์™„์ „ํžˆ ํ™œ์šฉํ•˜๋Š” ์ „๋žต์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‹ ๊ฒฝ๋ง ์ •์ฑ…์˜ ์ž…๋ ฅ์œผ๋กœ ๋กœ๋ด‡ ๊ฐ ๊ด€์ ˆ์˜ ์œ„์น˜ยท์†๋„, ์†๊ฐ€๋ฝ ๋๊ณผ ์†๋ฐ”๋‹ฅ์˜ ์œ„์น˜/์†๋„, ๋ฌผ์ฒด์˜ 6DoF ์ž์„ธ(pose), ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋ฌผ์ฒด ์œ„์น˜(์˜ˆ: ๋“ค์–ด์˜ฌ๋ฆด ๋ชฉํ‘œ ๋†’์ด), ๊ทธ๋ฆฌ๊ณ  ์–ด๋–ค ์ข…๋ฅ˜์˜ ๋ฌผ์ฒด์ธ์ง€์— ๋Œ€ํ•œ ์›-ํ•ซ(one-hot) ๋ฒกํ„ฐ, ์ง์ „ ์‹œ๊ฐ„์˜ ํŒจ๋ธŒ๋ฆญ-์•ก์…˜, ๊ทธ๋ฆฌ๊ณ  ํŒจ๋ธŒ๋ฆญ ๋™์—ญํ•™์˜ ํ˜„์žฌ ์ƒํƒœ(์œ„์น˜, ์†๋„, ๊ฐ€์†๋„)๊นŒ์ง€ ๋ชจ๋‘ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ”„๋ฆฌ๋นŒ๋ฆฌ์ง€๋“œ(privileged) ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•ด, ๊ต์‚ฌ ์ •์ฑ…์€ ํ•™์ƒ ์ •์ฑ…๋ณด๋‹ค ํ›จ์”ฌ ํ’๋ถ€ํ•œ ํ™˜๊ฒฝ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋™์ž‘ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ต์‚ฌ ์ •์ฑ…์˜ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋Š” ์ด์ „ ์—ฐ๊ตฌ์ธ DextrAH-G์™€ ์œ ์‚ฌํ•˜๊ฒŒ 2๊ฐœ์˜ 512์ฐจ์› ์™„์ „์—ฐ๊ฒฐ์ธต + 512์ฐจ์› LSTM ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, LSTM ์ฃผ๋ณ€์— skip-connection์„ ์ถ”๊ฐ€ํ•ด ์žฅ๊ธฐ ์˜์กด์„ฑ ํ•™์Šต์„ ๋„์™”์Šต๋‹ˆ๋‹ค.

๋ณด์ƒ ํ•จ์ˆ˜(reward)๋Š” DextrAH-G์—์„œ ์‚ฌ์šฉํ•œ ๊ฒƒ๋ณด๋‹ค ๋‹จ์ˆœํ™”ํ•˜์—ฌ ๋„ค ๊ฐ€์ง€ ํ•ญ์œผ๋กœ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค: (1) ์ ‘๊ทผ ๋ณด์ƒ โ€“ ๋กœ๋ด‡ ์†๊ฐ€๋ฝ ๋ฐ ์†๋ฐ”๋‹ฅ ์ง€์ ๋“ค์ด ๋ฌผ์ฒด์— ์ตœ๋Œ€ํ•œ ๊ฐ€๊น๊ฒŒ ์ ‘๊ทผํ•˜๋„๋ก ์žฅ๋ ค, (2) ์ด๋™ ๋ณด์ƒ โ€“ ์ง‘์€ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ‘œ ์œ„์น˜(๊ณต์ค‘์˜ ์ผ์ • ๋†’์ด ๋“ฑ)๊นŒ์ง€ ์ด๋™์‹œํ‚ค๋„๋ก ์žฅ๋ ค, (3) ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ ๋ณด์ƒ โ€“ ๋ฌผ์ฒด๋ฅผ ํ…Œ์ด๋ธ”์—์„œ ๋–ผ์–ด ๋“ค์–ด์˜ฌ๋ฆฐ ๊ฒฝ์šฐ์˜ ๋ณด์ƒ, (4) ์†๊ฐ€๋ฝ ํŽผ์นจ ๊ทœ์ œ โ€“ ํ‰์†Œ์— ์†๊ฐ€๋ฝ์„ ์ง€๋‚˜์น˜๊ฒŒ ์˜ค๋ฏ€๋ฆฌ์ง€ ์•Š๋„๋ก ๋ฒŒ์ . ์ด ๋„ค ๊ฐ€์ง€ ์š”์†Œ๋ฅผ ๊ฐ€์ค‘ํ•ฉํ•˜์—ฌ ์ตœ์ข… ๋ณด์ƒ์œผ๋กœ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, ๋ฌผ์ฒด์— ์†์„ ๋ป—์–ด ์ง‘๊ณ  ๋“ค์–ด์˜ฌ๋ ค ์•ˆ์ •์ ์œผ๋กœ ๋“ค๊ณ  ์žˆ๊ฒŒ ํ•˜๋Š” ํ–‰๋™์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ดˆ๋ฐ˜์—๋Š” ๊ณผ์ œ๋ฅผ ์‰ฝ๊ฒŒ ํ•˜๊ณ , ์ ์ฐจ ์–ด๋ ค์›Œ์ง€๋„๋ก ์ž๋™ ๋„๋ฉ”์ธ ๋žœ๋คํ™”(Automatic Domain Randomization, ADR) ๊ธฐ๋ฒ•์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌผ์ฒด์˜ ์ดˆ๊ธฐ ๋ฐฐ์น˜๋‚˜ ๋ฌผ์ฒด/๋กœ๋ด‡ ๋ฌผ๋ฆฌ ์†์„ฑ, ๋งˆ์ฐฐ๊ณ„์ˆ˜, ์กฐ๋ช… ๋“ฑ ์—ฌ๋Ÿฌ ํ™˜๊ฒฝ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์˜ ๋ฒ”์œ„๋ฅผ ์ดˆ๊ธฐ์—๋Š” ์ข๊ฒŒ ์„ค์ •ํ•˜์—ฌ ์‹œ์ž‘ํ•˜๊ณ , ์ •์ฑ… ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์— ๋”ฐ๋ผ ์ด ๋ฒ”์œ„๋“ค์„ ์„ ํ˜•์ ์œผ๋กœ ์ตœ๋Œ€์น˜๊นŒ์ง€ ๋„“ํ˜€๊ฐ‘๋‹ˆ๋‹ค. ๋ชจ๋“  ๋žœ๋คํ™” ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์ •ํ•ด์ง„ ์ตœ๋Œ€ ๋‚œ์ด๋„๊นŒ์ง€ ๋™์‹œ์— ์กฐ๊ธˆ์”ฉ ๋†’์—ฌ๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ์ปค๋ฆฌํ˜๋Ÿผ์„ ํ˜•์„ฑํ•˜์—ฌ, ์ตœ์ข…์ ์œผ๋กœ๋Š” ์ƒ๋‹นํžˆ ์–ด๋ ค์šด ์กฐ๊ฑด์—์„œ๋„ ๋™์ž‘ ๊ฐ€๋Šฅํ•œ ์ •์ฑ…์„ ์–ป๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค (์ž์„ธํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ฒ”์œ„๋Š” ๋…ผ๋ฌธ Table II์— ๋ช…์‹œ).

2.3.3 ํ•™์ƒ ์ •์ฑ…: RGB ๋ชจ๋ฐฉํ•™์Šต

๊ต์‚ฌ ์ •์ฑ…์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์•ˆ์ •์ ์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์ง‘์„ ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด, ์ด์ œ ํ•™์ƒ ์ •์ฑ…(Student FGP)์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ํ•™์ƒ ์ •์ฑ…์€ ์นด๋ฉ”๋ผ ์˜์ƒ๋งŒ์œผ๋กœ ๋™์ž‘ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ต์‚ฌ-ํ•™์ƒ ์ •์ฑ… ์‚ฌ์ด์— ๊ด€์ฐฐ๊ณต๊ฐ„ ์ฐจ์ด(reality gap)๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ์˜จ๋ผ์ธ DAgger ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ฐฉ ํ•™์Šต(distillation)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ต์‚ฌ ์ •์ฑ…์„ ์‹คํ–‰ํ•˜๋ฉด์„œ ๋™์‹œ์— ํ•™์ƒ ์ •์ฑ…์ด ๊ฐ™์€ ์ƒํ™ฉ์„ ๊ด€์ฐฐํ•˜๊ฒŒ ํ•˜๊ณ , ๊ต์‚ฌ์˜ ํ–‰๋™์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ํ•™์ƒ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ํ•™์ƒ์€ ํ•™์Šต ๊ณผ์ • ๋™์•ˆ์—๋„ ์ ์ง„์ ์œผ๋กœ ์ž๊ธฐ ์ •์ฑ…์— ๋”ฐ๋ผ ํ–‰๋™ํ•ด ๋ณด๋ฉด์„œ (๊ต์‚ฌ ์ •์ฑ…์œผ๋กœ๋ถ€ํ„ฐ ๋ฒ—์–ด๋‚˜๋Š” ์‹œ๋„๊ฐ€ ๋ฐœ์ƒํ•˜๊ณ ) ๊ทธ๋•Œ๋งˆ๋‹ค ๊ต์‚ฌ ์ •์ฑ…์˜ ์กฐ์–ธ์„ ๋ฐ›์•„ ์ž˜๋ชป๋œ ์ƒํƒœ ๋ถ„ํฌ๋ฅผ ๊ต์ •ํ•˜๋Š” DAgger ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•™์ƒ ์ •์ฑ…์˜ ์ž…๋ ฅ์€ ๋กœ๋ด‡ ๊ด€์ ˆ ์ƒํƒœ(๊ฐ๋„ ๋ฐ ์†๋„)์™€ ์ขŒ์šฐ ๋‘ ๋Œ€์˜ RGB ์นด๋ฉ”๋ผ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค. ์Šคํ…Œ๋ ˆ์˜ค ์นด๋ฉ”๋ผ ๊ตฌ์„ฑ์„ ์‚ฌ์šฉํ•œ ์ด์œ ๋Š” ๋“€์–ผ ์นด๋ฉ”๋ผ๋กœ๋ถ€ํ„ฐ ๊นŠ์ด ์ •๋ณด๋ฅผ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊นŠ์ด ์„ผ์„œ๋ฅผ ์“ฐ์ง€ ์•Š๊ณ  RGB๋งŒ ์“ฐ๋ฉด์„œ๋„, ๋‘ ์‹œ์  ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด ๋ฌผ์ฒด๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋‚˜ ์ž…์ฒด๊ฐ์„ ์–ด๋А ์ •๋„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์–ด ์ •์ฑ… ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค (์‹คํ—˜์ ์œผ๋กœ ๋‹จ์•ˆ ์นด๋ฉ”๋ผ๋ณด๋‹ค๋Š” ์Šคํ…Œ๋ ˆ์˜ค ์ž…๋ ฅ์ด ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ–ˆ์Œ).

์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์ƒ ์ •์ฑ… ํ•™์Šต์„ ์œ„ํ•ด ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋ฐ ์ฆ๊ฐ•์„ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. NVIDIA์˜ Isaac Lab ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๊ด‘์„ ์ถ”์  ๊ธฐ๋ฐ˜ ํƒ€์ผ๋“œ ๋ Œ๋”๋ง ๊ธฐ๋Šฅ์„ ์ด์šฉํ•˜์—ฌ, ํ˜„์‹ค๊ฐ ๋†’๊ณ  ํ•ด์ƒ๋„ ์ข‹์€ ์˜์ƒ์„ ๋น ๋ฅด๊ฒŒ ๋‹ค๋Ÿ‰ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ค‘ ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ์ฃผ๋ณ€ ํ™˜๊ฒฝ์„ ๋ฌด์ž‘์œ„๋กœ ๋ณ€ํ™”์‹œ์ผฐ๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐฐ๊ฒฝ ์กฐ๋ช…์œผ๋กœ HDRI ํ™˜๊ฒฝ๋งต์„ 30% ํ™•๋ฅ ๋กœ ๋žœ๋ค ๊ต์ฒดํ•˜๊ณ , ๋งค ์—ํ”ผ์†Œ๋“œ ์‹œ์ž‘ ์‹œ ๋กœ๋ด‡, ํ…Œ์ด๋ธ”, ๋ฌผ์ฒด์˜ ์žฌ์งˆ ์†์„ฑ(์ƒ‰์กฐ, ๋ฐ˜์‚ฌ์œจ, ๊ฑฐ์น ๊ธฐ ๋“ฑ)์„ ์ž„์˜๋กœ ๋ณ€๊ฒฝํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฌผ์ฒด 3D ๋ชจ๋ธ๋“ค์ด ์›๋ž˜ ํ…์Šค์ฒ˜๊ฐ€ ์—†๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„, Omniverse ์ž์‚ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ผ์ƒ ์‚ฌ๋ฌผ ํ…์Šค์ฒ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ž…ํ˜€ ์‹œ๊ฐ์  ๋‹ค์–‘์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ๋น„๋ก ์ž„์˜๋กœ ์ž…ํžŒ ํ…์Šค์ฒ˜๊ฐ€ ๋ฌผ์ฒด ํ˜•์ƒ์— ์–ด์šธ๋ฆฌ์ง€ ์•Š๋”๋ผ๋„(UV ๋งคํ•‘ ๋ถˆ์ผ์น˜๋กœ ์—‰๋šฑํ•˜๊ฒŒ ๋ฐœ๋ผ์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ), ์‹œ๊ฐ์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋ฐ์— ์˜์˜๋ฅผ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ์กฐ๋ช…, ์žฌ์งˆ, ๋ฐฐ๊ฒฝ์„ ๊ณ„์† ๋ฐ”๊พธ๋Š” ๋žœ๋คํ™” ์™ธ์—๋„, ์ตœ์ข… ํ•™์ƒ ์ •์ฑ…์— ์ž…๋ ฅ๋˜๊ธฐ ์ „ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(data augmentation)๋„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐฐ๊ฒฝ์„ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋กœ ์น˜ํ™˜ํ•˜๊ฑฐ๋‚˜, ์ปฌ๋Ÿฌ ์ง€ํ„ฐ(color jitter)๋กœ ์ƒ‰๊ฐ์„ ํ”๋“ค๊ณ , ์›€์ง์ž„ ๋ชจ์…˜ ๋ธ”๋Ÿฌ ํšจ๊ณผ๋ฅผ ๊ฐ€ํ•˜๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ ์ฆ๊ฐ•์„ ํ†ตํ•ด ์นด๋ฉ”๋ผ ์˜์ƒ์˜ ๋ถ„ํฌ ํญ์„ ๋„“ํ˜”์Šต๋‹ˆ๋‹ค. (๋…ผ๋ฌธ Fig. 2์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋žœ๋คํ™”๋œ ํ™˜๊ฒฝ์—์„œ ์–ป์€ ์›๋ณธ ์นด๋ฉ”๋ผ ์˜์ƒ๋“ค(์œ„์ชฝ)๊ณผ ์—ฌ๊ธฐ์— ์ฆ๊ฐ•์„ ์ ์šฉํ•œ ์ตœ์ข… ํ•™์Šต ์ž…๋ ฅ ์˜์ƒ๋“ค(์•„๋ž˜์ชฝ)์„ ๋น„๊ตํ•˜์—ฌ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.) ํ•™์ƒ ์ •์ฑ… ํ•™์Šต ์‹œ์—๋Š” ์ด๋ฏธ ๊ต์‚ฌ ์ •์ฑ…์ด ์ถฉ๋ถ„ํžˆ ํ•™์Šต๋œ ์ƒํƒœ์ด๋ฏ€๋กœ, ADR ๋‚œ์ด๋„๋ฅผ ๊ณง๋ฐ”๋กœ ์ตœ๋Œ€์น˜๋กœ ์„ค์ •ํ•˜์—ฌ ๊ฐ€์žฅ ์–ด๋ ค์šด ์กฐ๊ฑด๋“ค์—์„œ๋„ ํ•™์ƒ์ด ํ•™์Šต๋˜๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์ƒ์ด ํ˜„์‹ค ํ™˜๊ฒฝ๊ณผ ์œ ์‚ฌํ•œ ์กฐ๊ฑด์„ ํญ๋„“๊ฒŒ ์ ‘ํ•˜๋„๋ก ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋ ค๋Š” ์ „๋žต์ž…๋‹ˆ๋‹ค.

ํ•™์ƒ ์ •์ฑ…์˜ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ์ปค์Šคํ…€ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด ์ž‘์€ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN) ์ธ์ฝ”๋” ๋‘ ๊ฐœ(์ขŒ/์šฐ ์นด๋ฉ”๋ผ๋ณ„๋กœ)๋กœ ์‹œ์ž‘ํ•˜๋Š”๋ฐ, ๊ฐ CNN์€ ์ถœ๋ ฅ ์ฑ„๋„ ์ˆ˜๊ฐ€ [16, 32, 64, 128]์ธ ์ปจ๋ณผ๋ฃจ์…˜ ๊ณ„์ธต๋“ค์„ ๊ฑฐ์น˜๋ฉฐ ํ™œ์„ฑํ•จ์ˆ˜๋กœ ReLU๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ํ•ด์ƒ๋„๋Š” ๋น„๊ต์  ๋‚ฎ์€ ํŽธ์ธ 320ร—240์ด๋ฉฐ, CNN ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ์€ ํ‰๊ท  ํ’€๋ง์„ ๊ฑฐ์ณ ํ‰ํƒ„ํ™”๋œ ํ›„ 32์ฐจ์› ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ์••์ถ•๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ์ขŒ์šฐ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ(๊ฐ 32์ฐจ์›)์„ ๋กœ๋ด‡ ์ž์ฒด ์ƒํƒœ(proprioception) ๋ฒกํ„ฐ์™€ ๊ฒฐํ•ฉํ•˜์—ฌ ํ•˜๋‚˜์˜ ์ƒํƒœ ํ‘œํ˜„์œผ๋กœ ๋งŒ๋“  ๋’ค, 512์ฐจ์›์˜ LSTM ์ธต์— ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. LSTM์˜ ์ถœ๋ ฅ์„ ๋‹ค์‹œ ์ž…๋ ฅ๊ณผ ์—ฐ๊ฒฐ(skip connection)ํ•˜์—ฌ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก (MLP)์— ํ†ต๊ณผ์‹œํ‚ค๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์‹œ LSTM ์ถœ๋ ฅ ๋“ฑ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณด์กฐ ์ถœ๋ ฅ ํ—ค๋“œ์— ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ DenseNet ์Šคํƒ€์ผ์˜ ๋ฐ€์ง‘ ์—ฐ๊ฒฐ ๊ตฌ์กฐ๋ฅผ ์ทจํ•จ์œผ๋กœ์จ, ๋‹จ์ˆœ ์ˆœ์ฐจํ˜•๋ณด๋‹ค ์ •์ฑ… ํ•™์Šต ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ์ฐธ๊ณ  ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ํ™•์ธํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ํ•™์ƒ ์ •์ฑ… ์‹ ๊ฒฝ๋ง์€ ์ฃผ ์ถœ๋ ฅ์œผ๋กœ ๊ต์‚ฌ์™€ ๋™์ผํ•œ ํ˜•ํƒœ์˜ ํ–‰๋™ ๊ฐ’์„ ๋‚ด๊ณ , ์ถ”๊ฐ€๋กœ ๋ณด์กฐ ์ถœ๋ ฅ์œผ๋กœ ํ˜„์žฌ ๋ฌผ์ฒด์˜ ์˜ˆ์ƒ ์œ„์น˜๋ฅผ ํšŒ๊ท€ ์˜ˆ์ธกํ•˜๋„๋ก ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ณ„์ธต์˜ ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ๋Š” ELU๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•œํŽธ, ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋กœ ์š”์ฆ˜ ๊ฐ๊ด‘๋ฐ›๋Š” ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ํ•™์Šต ๋น„์ „ ๋ชจ๋ธ(์˜ˆ: ResNet-18, ViT ๋“ฑ)์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์ง์ ‘ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•œ ์ด์œ ๋Š”, ๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ํ•™์Šต ์‹œ ๋™๊ฒฐ๋œ ํŠน์„ฑ ์ถ”์ถœ๊ธฐ๋กœ ์“ฐ๋ฉด ๊ณผ์ œ ํŠนํ™” ํ‘œํ˜„ ํ•™์Šต์ด ์–ด๋ ค์›Œ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ณ , ๋ฐ˜๋Œ€๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜๋ ค๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„ ๋ณ‘๋ ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ๊ฐœ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์—ฌ์•ผ ํ•˜๋ฏ€๋กœ ํ•™์Šต ํšจ์œจ์ด ์ €ํ•˜๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋‹ค์ˆ˜์˜ ํ™˜๊ฒฝ์—์„œ ๋ณ‘๋ ฌ๋กœ ํ•™์ƒ ์ •์ฑ…์„ ํ›ˆ๋ จํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์„ ๋๊นŒ์ง€ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ํŽธ์ด ์ „์ฒด ์„ฑ๋Šฅ ๋ฐ ํšจ์œจ์— ์œ ๋ฆฌํ•˜๋‹ค๊ณ  ํŒ๋‹จํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ•™์ƒ ์ •์ฑ… ํ•™์Šต์—์„œ๋Š” ์†์‹ค ํ•จ์ˆ˜๋กœ ๋ชจ๋ฐฉ ์†์‹ค + ๋ณด์กฐ(๋ฌผ์ฒด ์œ„์น˜) ์†์‹ค์„ ํ•จ๊ป˜ ์ตœ์ ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ฐฉ ์†์‹ค์€ ๊ต์‚ฌ ์ •์ฑ…๊ณผ ํ•™์ƒ ์ •์ฑ…์ด ์ถœ๋ ฅํ•˜๋Š” ํ–‰๋™ ํ™•๋ฅ ๋ถ„ํฌ ๊ฐ„์˜ KL ๋ฐœ์‚ฐ(Kullback-Leibler divergence)์œผ๋กœ ์ •์˜ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ต์‚ฌ-ํ•™์ƒ ์ •์ฑ… ๋ชจ๋‘ ๊ฐ€์šฐ์‹œ์•ˆ ์ถœ๋ ฅ ๋ถ„ํฌ(ํ‰๊ท  ๋ฐ ๋ถ„์‚ฐ)๋กœ ํ–‰๋™์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š”๋ฐ, ๋ถ„์‚ฐ ํ•ญ์€ ๊ณ ์ •ํ•˜๊ณ  ํ•™์Šตํ•˜์ง€ ์•Š๋„๋ก ์„ค์ •ํ•˜์—ฌ KL ์†์‹ค์ด ์‚ฌ์‹ค์ƒ ํ‰๊ท ๊ฐ’ ์ฐจ์ด๋ฅผ ์ค„์ด๋Š” ์—ญํ• ์„ ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœ ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ ์†์‹ค๋ณด๋‹ค ์•ˆ์ •์ ์ด์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๊ต์‚ฌ ์ •์ฑ…์ด ํ™•์‹ (confident)ํ•˜๋Š” ์ฐจ์›(๋ถ„์‚ฐ์ด ์ž‘์€ ์ฐจ์›)์—์„œ ์˜ค๋ฅ˜๋ฅผ ๋” ๊ฐ•ํ•˜๊ฒŒ ์ค„์—ฌ์ฃผ๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์–ด, ๋ชจ๋“  ์ฐจ์›์„ ๊ท ์ผํ•˜๊ฒŒ ํ•™์Šตํ•˜๋Š” L2 ์†์‹ค ๋Œ€๋น„ ํ•™์Šต์ด ์ž˜ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณด์กฐ ์†์‹ค์€ ํ•™์ƒ ์‹ ๊ฒฝ๋ง์˜ ๋ฌผ์ฒด ์œ„์น˜ ์˜ˆ์ธก๊ณผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ ์‹ค์ œ ๋ฌผ์ฒด ์œ„์น˜์™€์˜ L2 ์˜ค์ฐจ๋กœ ๊ณ„์‚ฐํ•˜์—ฌ, ํ•™์ƒ ์ •์ฑ…์ด ์‹œ๊ฐ์  ํ”ผ์ณ๋กœ๋ถ€ํ„ฐ ๋ฌผ์ฒด์˜ ๊ณต๊ฐ„์  ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ๊ต์‚ฌ ์ •์ฑ…๊ณผ ํ•™์ƒ ์ •์ฑ… ๊ฐ„ ์—ํ”ผ์†Œ๋“œ ์‹œ๊ฐ„ ๊ตฌ์„ฑ์„ ๋‹ค๋ฅด๊ฒŒ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ต์‚ฌ ์ •์ฑ…์€ ํ•˜๋‚˜์˜ ์—ํ”ผ์†Œ๋“œ๊ฐ€ ์ตœ๋Œ€ 10์ดˆ๊ฐ„ ์ง€์†๋˜๋„๋ก ํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ฆฐ ํ›„์—๋„ ์ถฉ๋ถ„ํžˆ ์œ ์ง€ํ•˜์—ฌ ์•ˆ์ •์ ์œผ๋กœ ํŒŒ์ง€ํ•˜๋„๋ก ํƒ์ƒ‰ํ•˜๋Š” ์‹œ๊ฐ„์„ ์ฃผ๊ธฐ ์œ„ํ•จ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ•™์ƒ ์ •์ฑ…๊นŒ์ง€ ๋™์ผํ•˜๊ฒŒ ๊ธด ์—ํ”ผ์†Œ๋“œ๋กœ ํ•™์Šต์‹œํ‚ค๋ฉด, ์ด๋ฏธ ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ๋‚œ ํ›„ ๊ณต์ค‘์— ๋“ค๊ณ  ์žˆ๋Š” ์ง€๋ฃจํ•œ ๊ตฌ๊ฐ„์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋งŽ์ด ํฌํ•จ๋˜์–ด ์ดˆ๋ฐ˜ ํŒŒ์ง€ ๋™์ž‘ ํ•™์Šต ๋น„์ค‘์ด ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์•„์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์ƒ ์ •์ฑ…์ด ๊ต์‚ฌ๋ฅผ ๋ฒ—์–ด๋‚˜ ์˜ค์ฐจ๊ฐ€ ๋ˆ„์ ๋˜๋Š” ๋ถ€๋ถ„์€ ์ฃผ๋กœ ์ดˆ๋ฐ˜ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋‹จ๊ณ„์ด๋ฏ€๋กœ, ์ด ๊ตฌ๊ฐ„์˜ ํ•™์Šต์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์—ํ”ผ์†Œ๋“œ๋ฅผ ์กฐ๊ธฐ ์ข…๋ฃŒํ•˜๋Š” ๊ธฐ์ค€์„ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ํ•™์ƒ ์ •์ฑ… ํ•™์Šต ์‹œ์—๋Š” ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ ค 2์ดˆ๊ฐ„ ์„ฑ๊ณต์ ์œผ๋กœ ๋“ค๊ณ  ์žˆ์œผ๋ฉด ๋ฐ”๋กœ ์—ํ”ผ์†Œ๋“œ๋ฅผ ๋๋‚ด๊ณ  ๋‹ค์Œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์—ํ”ผ์†Œ๋“œ๋กœ ๋„˜์–ด๊ฐ€๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋„ˆ๋ฌด ์งง๊ฒŒ ์ž๋ฅด๋ฉด ์ฒซ ์‹œ๋„ ์‹คํŒจ ํ›„ ์žฌ์‹œ๋„ ํ•™์Šต์ด ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, 2์ดˆ ์ •๋„ ์œ ์˜ˆ๋ฅผ ๋‘์–ด ํ•œ๋ฒˆ ๋†“์ณค์„ ๋•Œ ๋‹ค์‹œ ์ฅ๋Š” ํšŒ๋ณต ๋™์ž‘๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ท ํ˜•์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

2.4 ์ฃผ์š” ์‹คํ—˜ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„

ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ: ํ•™์Šต๋œ DextrAH-RGB ํ•™์ƒ ์ •์ฑ…์€ ์‹ค์ œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์— ์ด์‹๋˜์–ด ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ 7์ž์œ ๋„ KUKA LBR iiwa ์‚ฐ์—…์šฉ ํŒ”์— 16์ž์œ ๋„ Allegro ๋‹ค์ง€ ๋กœ๋ด‡ ์†์ด ๊ฒฐํ•ฉ๋œ ํ˜•ํƒœ์ด๋ฉฐ, ํ…Œ์ด๋ธ” ์œ„์— ๋‘ ๋Œ€์˜ Intel RealSense D415 ์นด๋ฉ”๋ผ๋ฅผ ์ขŒ์šฐ ์Šคํ…Œ๋ ˆ์˜ค๋กœ ๊ณ ์ • ๋ฐฐ์น˜ํ•˜์—ฌ RGB ์˜์ƒ์„ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค. (D415๋Š” RGB-D ์นด๋ฉ”๋ผ์ด์ง€๋งŒ, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๊นŠ์ด ์ •๋ณด๋Š” ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  RGB ์ฑ„๋„๋งŒ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.) ๋กœ๋ด‡ ์ œ์–ด๊ธฐ๋Š” KUKA ํŒ” ๊ด€์ ˆ ์ œ์–ด์— 1kHz, Allegro ์†๊ฐ€๋ฝ ์ œ์–ด์— 333Hz์˜ ๋‚ด๋ถ€ ์ œ์–ด ์ฃผ๊ธฐ๋กœ ๋™์ž‘ํ•˜๋ฉฐ, ์นด๋ฉ”๋ผ๋Š” 60Hz๋กœ ์˜์ƒ์„ ์†ก์‹ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต๋œ ์ •์ฑ…์˜ ์ถ”๋ก  ์†๋„๋„ ์‹ค์‹œ๊ฐ„์„ฑ์„ ์ถฉ์กฑํ•ด์•ผ ํ•˜๋ฏ€๋กœ, Jetson Orin ์žฅ์น˜ ์ƒ์—์„œ ์ „์ฒด ์ •์ฑ… ์‹ ๊ฒฝ๋ง์„ 60Hz๋กœ ์‹คํ–‰ํ–ˆ๊ณ , NVIDIA CUDA ๊ทธ๋ž˜ํ”„ ์บก์ฒ˜ ๊ธฐ์ˆ  ๋“ฑ์„ ํ™œ์šฉํ•ด ์ง€์—ฐ์„ ์ตœ์†Œํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ์ •์ฑ… ์ฃผ๊ธฐ๋ฅผ 30Hz์—์„œ 60Hz๋กœ ๋†’์˜€์„ ๋•Œ ๋กœ๋ด‡์˜ ํŒŒ์ง€ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ๊ณ ์†์˜ ๋ฐ˜๋ณต ์ œ์–ด๊ฐ€ ์‹ค์„ธ๊ณ„ ์ƒํ˜ธ์ž‘์šฉ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•: ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์ง€ ์† ํŒŒ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ผ ๋ฌผ์ฒด ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ  ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ํ•œ ๊ฐ€์ง€ ๋ฌผ์ฒด๋ฅผ ๋“ค์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ์‹œ๋„ํ•ด๋ณด๊ณ  ๊ทธ ์„ฑ๊ณต ํ™•๋ฅ ์„ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์•ผ์ผ/CMU/๋ฒ„ํด๋ฆฌ(YCB) ๋“ฑ ๊ณต๊ฐœ ๋ฌผ์ฒด ๋ฐ์ดํ„ฐ์…‹์— ์†ํ•˜๋Š” 11๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์„ ์ •ํ•˜์—ฌ ๊ฐ๊ฐ์— ๋Œ€ํ•ด ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ปต, ์Œ๋ฃŒ์ˆ˜ ์บ”, ๊ณผ์ž ์ƒ์ž, ์„ธ์ œ ๋ณ‘, ๋ฒฝ๋Œ, ์ŠคํŒธ ํ†ต์กฐ๋ฆผ, ๋ƒ„๋น„, ์žฅ๋‚œ๊ฐ ๋น„ํ–‰๊ธฐ ๋“ฑ ํ˜•ํƒœ์™€ ํฌ๊ธฐ๊ฐ€ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋“ค์ด ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋ฌผ์ฒด๋งˆ๋‹ค 5๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์ดˆ๊ธฐ ์ž์„ธ(๋ฐฉํ–ฅ ๋ฐ ์œ„์น˜)๋กœ ํ…Œ์ด๋ธ” ์œ„์— ๋†“๊ณ , ๋กœ๋ด‡์ด ํ•ด๋‹น ๋ฌผ์ฒด๋ฅผ ์ง‘์–ด ๋“ค์–ด์˜ฌ๋ฆฌ๋„๋ก ์ •์ฑ…์„ ๊ตฌ๋™ํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ์˜ ์‹œ๋„์—์„œ ์„ฑ๊ณต ์—ฌ๋ถ€๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ๊ฐ ๋ฌผ์ฒด๋‹น 5ํšŒ์”ฉ ์‹œ๋„ํ•ด 5ํšŒ ์ค‘ ์„ฑ๊ณต ํšŸ์ˆ˜์˜ ๋น„์œจ์„ ๊ทธ ๋ฌผ์ฒด์˜ ์„ฑ๊ณต๋ฅ ๋กœ ์ •์˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋กœ๋ด‡์ด ์ฒซ ์‹œ๋„์— ๋ฌผ์ฒด๋ฅผ ์ œ๋Œ€๋กœ ์žก์ง€ ๋ชปํ•˜๋”๋ผ๋„, ๋ฌผ์ฒด๊ฐ€ ์™„์ „ํžˆ ๋„˜์–ด์ ธ ์ง‘๊ธฐ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ƒํƒœ๊ฐ€ ๋˜์ง€ ์•Š๋Š” ํ•œ ์ •์ฑ…์ด ์—ฐ์†์ ์œผ๋กœ ์žฌ์‹œ๋„ํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ๋Œ€๋กœ DextrAH-RGB ์ •์ฑ…์ด ์ˆœ์ฐจ์ ์ธ ๋‹จ์ผ ์Šคํ… ์ œ์–ด๊ฐ€ ์•„๋‹Œ ์—ฐ์†์ ์ธ ์„ผ์„œํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋Šฅํ•œ ์ผ๋กœ, ํ•œ ์—ํ”ผ์†Œ๋“œ ๋‚ด์—์„œ๋„ ์‹คํŒจ๋ฅผ ๊ฐ์ง€ํ•˜๋ฉด ์ž์„ธ๋ฅผ ๊ณ ์ณ ์žฌ๋„์ „ํ•˜๋Š” ๋™์ž‘์ด ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ์† ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ๊ณผ LSTM ๊ธฐ๋ฐ˜์˜ ์ ์‘๋ ฅ์€ ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์žก์„ ๋•Œ ์ž‘์€ ๋ฏธ๋„๋Ÿฌ์ง์ด๋‚˜ ์˜ค์ฐจ๊ฐ€ ๋ฐœ์ƒํ•ด๋„ ๊ณง๋ฐ”๋กœ ๊ต์ •ํ•˜์—ฌ ๊ฒฐ๊ตญ ์„ฑ๊ณต์œผ๋กœ ์ด์–ด์งˆ ํ™•๋ฅ ์„ ๋†’์—ฌ์ค๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ: DextrAH-RGB์˜ ์„ฑ๋Šฅ์„ ์ด์ „ ์—ฐ๊ตฌ๋“ค์˜ ๊ฒฐ๊ณผ์™€ ์ •๋Ÿ‰์ ์œผ๋กœ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด, ์—ฌ๋Ÿฌ ๊ธฐ์ค€ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์„ฑ๊ณต๋ฅ ์„ Table I์— ์š”์•ฝํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๋น„๊ต ๋Œ€์ƒ์€ ์•ž์„œ ์–ธ๊ธ‰๋œ DextrAH-G (๊นŠ์ด ์„ผ์„œ ๊ธฐ๋ฐ˜ ๊ต์‚ฌ-ํ•™์ƒ ์ •์ฑ…)๊ณผ, DexDiffuser, ISAGrasp, Matak ๋“ฑ์˜ ์ตœ์‹  ๋ฐฉ๋ฒ•๋“ค์ž…๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ DextrAH-RGB๋Š” ์—ฌ๋Ÿฌ ๋ฌผ์ฒด์—์„œ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ๊นŠ์ด ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ ๋„ ๊ฒฌ์ค„๋งŒํ•œ ํŒŒ์ง€ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Pringles ํ†ต, ์ปต, ๋ฒฝ๋Œ ๋“ฑ์˜ ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„œ๋Š” 100%์— ๊ฐ€๊นŒ์šด ์„ฑ๊ณต๋ฅ ์„ ๊ธฐ๋กํ•˜์—ฌ, Depth ๊ธฐ๋ฐ˜์ธ DextrAH-G์™€ ๋™๋“ฑํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ถ€ ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„œ๋Š” ๊นŠ์ด ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์„ฑ๊ณต๋ฅ ์ด ๋‹ค์†Œ ๋‚ฎ์•˜๋Š”๋ฐ, ์˜ˆ์ปจ๋Œ€ ์ฃผ์ „์ž(Pitcher)์˜ ๊ฒฝ์šฐ DextrAH-RGB๋Š” 5ํšŒ ์ค‘ 1ํšŒ(20%) ์„ฑ๊ณตํ•œ ๋ฐ˜๋ฉด DextrAH-G๋Š” 80%๋ฅผ ๋‹ฌ์„ฑํ–ˆ๊ณ , ์žฅ๋‚œ๊ฐ ๋น„ํ–‰๊ธฐ๋Š” DextrAH-RGB๊ฐ€ ํ•œ ๋ฒˆ๋„ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ•œ ๋ฐ ๋ฐ˜ํ•ด DextrAH-G๋Š” 60% ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ ๊นŠ์ด ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” RGB ๊ธฐ๋ฐ˜์ด๋ผ๋Š” ๋„์ „์ ์ธ ์„ค์ • ๋•Œ๋ฌธ์— ์™„๋ฒฝํžˆ ๋™์ผํ•œ ์„ฑ๋Šฅ์„ ๋‚ด๊ธด ์–ด๋ ต์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ๋ฌผ์ฒด์—์„œ ๊นŠ์ด ๊ธฐ๋ฐ˜ ๋Œ€๋น„ ํฐ ์†์‹ค ์—†์ด ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์ด ๊ณ ๋ฌด์ ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ํˆฌ๋ช…ํ•œ ์œ ๋ฆฌ์ž”์ด๋‚˜ ๊ด‘ํƒ์ด ์žˆ๋Š” ๊ธˆ์† ๋ฌผ์ฒด ๋“ฑ ๊นŠ์ด ์นด๋ฉ”๋ผ๋กœ๋Š” ์ทจ์•ฝํ•œ ๋Œ€์ƒ์— ๋Œ€ํ•ด์„œ๋„ RGB ์ •์ฑ…์ด ์ œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ๋ณด์—ฌ, RGB ์ž…๋ ฅ์˜ ์‹ค์šฉ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค (ํ•ด๋‹น ์‚ฌ๋ก€์— ๋Œ€ํ•œ ๊ตฌ์ฒด์  ์ˆ˜์น˜๋Š” ๋…ผ๋ฌธ์—์„œ ์ง์ ‘ ์–ธ๊ธ‰๋˜์ง€ ์•Š์•˜์œผ๋‚˜, ๊นŠ์ด ์„ผ์„œ์˜ ์•ฝ์ ์„ ๊ณ ๋ คํ•œ ์ €์ž๋“ค์˜ ์ฃผ์žฅ์ž…๋‹ˆ๋‹ค). ๋˜ํ•œ DextrAH-RGB๋Š” ํ›ˆ๋ จ ์‹œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋“ค์— ๋Œ€ํ•ด์„œ๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‚˜ํƒ€๋ƒˆ๋Š”๋ฐ, ์ด๋Š” ์•ž์„œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‹จ๊ณ„์—์„œ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”์™€ ์‹œ๊ฐ์  ๋ณ€์ด๋ฅผ ํ•™์Šตํ•œ ๋•๋ถ„์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, ์ด ์—ฐ๊ตฌ๋Š” ๊นŠ์ด ์„ผ์„œ ์—†์ด๋„ ๋‹ค์ง€ ๋กœ๋ด‡ ์†์˜ ํŒŒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์ถฉ๋ถ„ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ›ˆ๋ จ๊ณผ ์ ์ ˆํ•œ ์ •์ฑ… ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์‹ค์„ธ๊ณ„์—์„œ๋„ ๊ฑฐ์˜ ์ฆ‰์‹œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ ์ˆ˜์ค€์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

2.5 ์žฅ๋‹จ์  ํ‰๊ฐ€

์žฅ์ : DextrAH-RGB์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ๋Š” ์„ธ๊ณ„ ์ตœ์ดˆ๋กœ RGB ์นด๋ฉ”๋ผ๋งŒ์„ ์ด์šฉํ•œ ์—”๋“œํˆฌ์—”๋“œ ๋‹ค์ง€ ์† ํŒŒ์ง€ ์ •์ฑ…์„ ํ˜„์‹ค์— ๊ตฌํ˜„ํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊นŠ์ด ์„ผ์„œ๋ฅผ ๋ฐฐ์ œํ•จ์œผ๋กœ์จ, IR ๊ธฐ๋ฐ˜ ๊นŠ์ด ์นด๋ฉ”๋ผ์˜ ํ•œ๊ณ„(ํˆฌ๋ช…์ฒด ์ธ์‹ ๋ถˆ๊ฐ€ ๋“ฑ)๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ์ผ๋ฐ˜ ์นด๋ฉ”๋ผ๋กœ ์–ป๋Š” ํ’๋ถ€ํ•œ ์‹œ๊ฐ ์ •๋ณด๋งŒ์œผ๋กœ๋„ ๋กœ๋ด‡ ํŒŒ์ง€๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ต์‚ฌ-ํ•™์ƒ ๋ชจ๋ฐฉํ•™์Šต ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์ „์ ์œผ๋กœ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šต์„ ์™„๋ฃŒํ•˜๊ณ ๋„ ํ˜„์‹ค ๋กœ๋ด‡์—์„œ ์ œ๋กœ์ƒท ๋™์ž‘์„ ์ด๋Œ์–ด๋ƒˆ๋‹ค๋Š” ์ ์—์„œ ์‹ค์šฉ์„ฑ์ด ํฝ๋‹ˆ๋‹ค. ์ด๋Š” ์œ„ํ—˜ํ•˜๊ณ  ๋น„์šฉ์ด ํฐ ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜ ์—†์ด๋„ ๋ณต์žกํ•œ ์กฐ์ž‘ ์ •์ฑ…์„ ๋ฐฐ์–‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ด๋ฏ€๋กœ, ํ–ฅํ›„ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋“ค์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์  ์—ฐ๊ตฌ ๊ฐœ๋ฐœ ํ”„๋กœ์„ธ์Šค๋ฅผ ์ œ์‹œํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •์ฑ…์ด ์—ฐ์†์ ์ธ LSTM ๊ธฐ๋ฐ˜ ์ œ์–ด๋ฅผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์‹ค์‹œ๊ฐ„ ๋ฐ˜์‘์„ฑ๊ณผ ์ ์‘์„ฑ์ด ๋›ฐ์–ด๋‚œ ๊ฒƒ๋„ ์žฅ์ ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋‹จ๋ฐœ์ (grasp pose) ๊ณ„ํš์— ์˜์กดํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ, DextrAH-RGB๋Š” ์‹คํ–‰ ์ค‘์— ์ƒˆ๋กœ์šด ์„ผ์„œ ์ •๋ณด์— ๋”ฐ๋ผ ์ฆ‰๊ฐ์ ์œผ๋กœ ๊ฒฝ๋กœ๋ฅผ ์ˆ˜์ •ํ•˜๋ฉฐ ์‹คํŒจ ์‹œ ์žฌ์‹œ๋„๋„ ๊ฐ€๋Šฅํ•œ ๋กœ๋ฒ„์ŠคํŠธ ์ œ์–ด๋ฅผ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„์šธ๋Ÿฌ ์ง€์˜ค๋ฉ”ํŠธ๋ฆญ ํŒจ๋ธŒ๋ฆญ์„ ํ™œ์šฉํ•œ ๋•๋ถ„์— ๋กœ๋ด‡์˜ ์ถฉ๋Œ ํšŒํ”ผ๋‚˜ ๊ด€์ ˆ ํ•œ๊ณ„ ์ค€์ˆ˜ ๋“ฑ์˜ ์•ˆ์ „์„ฑ์ด ์ •์ฑ… ์ˆ˜์ค€์—์„œ ๋ณด์žฅ๋˜์—ˆ๊ณ , ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์šด์šฉ์—์„œ ๋Œ€๋‹จํžˆ ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์•ˆ์ „ ์ œ์•ฝ์ด ์žˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ •์ฑ…์ด ๋ฌผ์ฒด๋ฅผ ์ž˜ ์žก์„ ์ˆ˜ ์žˆ์—ˆ๋˜ ๊ฒƒ์€, ํŒจ๋ธŒ๋ฆญ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์•ˆ์ „๊ณผ ์„ฑ๋Šฅ์„ ์–‘๋ฆฝํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡ ๊ตฌํ˜„ ์ธก๋ฉด์—์„œ๋„, Jetson Orin ์ƒ์—์„œ 60Hz๋กœ ๊ตฌ๋™๋˜๋ฉฐ ๋‹จ์ผ ๋ณด๋“œ๋กœ ์ „์ฒด ์ œ์–ด๋ฅผ ์ˆ˜ํ–‰ํ•ด ์‹œ์Šคํ…œ ๊ตฌ์„ฑ์˜ ๋‹จ์ˆœ์„ฑ๊ณผ ์‹ค์‹œ๊ฐ„์„ฑ์„ ๋ชจ๋‘ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ €์ž๋“ค์€ ๋ณธ ๋ฐฉ๋ฒ•๋ก ์ด ํ–ฅํ›„ ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์˜ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ํ™œ์šฉ๋˜๊ฑฐ๋‚˜, ๋Œ€๊ทœ๋ชจ ๋กœ๋ด‡ ํ–‰๋™ ๋ชจ๋ธ(์ผ์ข…์˜ Foundational policy) ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ชจ๋“ˆ๋กœ๋„ ์ด์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์–ธ๊ธ‰ํ•˜๋ฉฐ ๋ณธ ์—ฐ๊ตฌ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” DextrAH-RGB๊ฐ€ ๋‹จ์ผ ๋…ผ๋ฌธ ๊ฒฐ๊ณผ์— ๊ทธ์น˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋กœ๋ด‡ ํŒŒ์ง€ ๋ฌธ์ œ ์ „๋ฐ˜์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์„ฑ์„ ์ง€๋‹Œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

๋‹จ์ : ํ•œํŽธ, ์ œํ•œ์‚ฌํ•ญ๋„ ๋ถ„๋ช…ํžˆ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋จผ์ €, ์†๊ฐ€๋ฝ ์ œ์–ด๋ฅผ PCA ๊ธฐ๋ฐ˜ ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ˆ˜ํ–‰ํ•œ ๊ฒƒ์€ ํŒŒ์ง€ ๋™์ž‘์— ์ง‘์ค‘ํ•˜๊ธฐ ์œ„ํ•œ ์„ค๊ณ„์˜€์ง€๋งŒ, ๊ทธ๋งŒํผ ์†์˜ ์„ฌ์„ธํ•œ ์กฐ์ž‘ ๋ฒ”์œ„๊ฐ€ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์ฃผ์„ฑ๋ถ„ ์†๋™์ž‘ ๊ณต๊ฐ„์€ ์ธ๊ฐ„์˜ ๊ทธ๋ฆฝ ๋™์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜์˜ํ•˜์ง€๋งŒ, ์ด๋Ÿฌํ•œ ์ด์  ๊ทธ๋ฆฝ(eigengrasp) ๋ฐฉ์‹์€ ๋ฌผ์ฒด๋ฅผ ์ฅ๋Š” ๋™์ž‘ ์ด์™ธ์˜ ๋ณต์žกํ•œ ์†๋™์ž‘ (์˜ˆ๋ฅผ ๋“ค๋ฉด ๋„๊ตฌ ์‚ฌ์šฉ์ด๋‚˜ ์†๊ฐ€๋ฝ ๊ฐœ๋ณ„์  ์›€์ง์ž„์„ ์š”๊ตฌํ•˜๋Š” ์ž‘์—…)์—๋Š” ๋ถ€์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ํŒŒ์ง€ ์„ฑ๊ณต๋ฅ ์€ ๋†’์˜€์ง€๋งŒ, ์†์˜ ์™„์ „ํ•œ ๋‹ค์šฉ๋„์„ฑ์€ ํฌ์ƒํ•œ ์ธก๋ฉด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์•ˆ์ „์„ ์œ„ํ•ด ํŒจ๋ธŒ๋ฆญ์— ํฌํ•จ์‹œํ‚จ ํ…Œ์ด๋ธ” ์ถฉ๋ŒํšŒํ”ผ ๋™์ž‘์€ ์ž‘์€ ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๊ฒฝ์šฐ ์˜คํžˆ๋ ค ๋ฐฉํ•ด๊ฐ€ ๋˜๋Š” ๊ฒƒ์œผ๋กœ ์ง€์ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํ…Œ์ด๋ธ” ํ‘œ๋ฉด๊ณผ ๊ฐ€๊นŒ์šด ๋‚ฎ์€ ๋ฌผ์ฒด๋ฅผ ์ง‘์œผ๋ ค ํ•  ๋•Œ ๋กœ๋ด‡์ด ์ถฉ๋Œ์„ ๋‘๋ ค์›Œํ•ด ์ถฉ๋ถ„ํžˆ ์†์„ ๋‚ด๋ ค๋ณด๋‚ด์ง€ ๋ชปํ•˜๋Š” ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ ํ•ด๋‹น ํšŒํ”ผ ๋กœ์ง์ด ์ •์ฑ…์ด ์•„๋‹Œ ๊ณ ์ •๋œ ์ œ์•ฝ์œผ๋กœ ์ ์šฉ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋ฉฐ, ํ–ฅํ›„์—๋Š” ์ด๋ฅผ ์„ผ์„œ ์ž…๋ ฅ์„ ํ†ตํ•ด ํ•™์Šต๋œ ์ •์ฑ…์ด ํŒ๋‹จํ•˜๋„๋ก ๊ฐœ์„ ํ•˜๋Š” ํŽธ์ด ๋” ์œ ์—ฐํ•  ๊ฒƒ์ด๋ผ๊ณ  ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•™์Šต ๋ฉด์—์„œ, ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด์ง„ ๊ต์‚ฌ-ํ•™์ƒ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์€ ๊ตฌํ˜„๊ณผ ํŠœ๋‹์ด ๋‹ค์†Œ ๋ณต์žกํ•˜๊ณ  ๋งŽ์€ ์‹œ๊ฐ„๊ณผ ์ž์›์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ต์‚ฌ ์ •์ฑ…์„ ์ถฉ๋ถ„ํžˆ ํ•™์Šต์‹œํ‚จ ํ›„ ๋‹ค์‹œ ํ•™์ƒ ์ •์ฑ…์„ ํ•™์Šตํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๋‹จ์ผ ๋‹จ๊ณ„๋กœ ๋๋‚˜๋Š” ๊ฐ•ํ™”ํ•™์Šต์— ๋น„ํ•ด ์ ˆ์ฐจ๊ฐ€ ๋ฒˆ๊ฑฐ๋กญ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค ์—ญ์‹œ ์ด๋ฅผ ์ธ์ •ํ•˜๋ฉฐ, ํ–ฅํ›„ ๋” ํšจ์œจ์ ์ธ ํƒ์ƒ‰ ์ „๋žต์ด ๊ฐœ๋ฐœ๋˜๋ฉด ๋‹จ์ผ ๋‹จ๊ณ„์˜ end-to-end RL๋กœ๋„ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ์ „๋งํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ ์ธก๋ฉด์—์„œ๋„ ํ•œ๊ณ„๋ฅผ ๊ผฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŒŒ์ง€์˜ ๊ธฐ๋Šฅ์  ์˜๋ฏธ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์—, ์žก๊ธฐ๋งŒ ํ•˜๋ฉด ๋˜๋Š” ํ‰๊ฐ€์—์„œ๋Š” ์„ฑ๊ณต์ด์ง€๋งŒ ์ผ์ƒ์ ์ธ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์ ์ ˆ์น˜ ์•Š์€ ํŒŒ์ง€ ์‚ฌ๋ก€๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ƒ„๋น„๋ฅผ ๋“ค ๋•Œ ์†์žก์ด๊ฐ€ ์•„๋‹Œ ๋ƒ„๋น„ ๋ณธ์ฒด๋ฅผ ํ†ต์งธ๋กœ ์›€์ผœ์ฅ๋Š” ์‹์˜ ๊ทธ๋ฆฝ์ด ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ, ์ธ๊ฐ„์ด๋ผ๋ฉด ์†์žก์ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด๋ผ๋Š” ์ ์—์„œ ๋น„๊ธฐ๋Šฅ์ (non-functional) ํŒŒ์ง€๋ผ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ๋กœ๋ด‡์—๊ฒŒ ๋ฌผ์ฒด์˜ ์“ฐ์ž„์ƒˆ๊นŒ์ง€ ์ดํ•ด์‹œ์ผœ ์žก๋„๋ก ํ•˜๋Š” ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ˜„์žฌ ์ •์ฑ…์€ ๋‹จ์ผ ๋ฌผ์ฒด ํŒŒ์ง€์—๋งŒ ์ดˆ์ ์„ ๋‘๊ณ  ์žˆ์–ด, ๋ณต์žกํ•œ ํ™˜๊ฒฝ์ด๋‚˜ ๋‹ค์ค‘ ๋ฌผ์ฒด๊ฐ€ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ๋Š” ์ ์šฉ๋˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ž‘์—… ๊ณต๊ฐ„์— ์—ฌ๋Ÿฌ ๋ฌผ๊ฑด์ด ์žˆ๊ฑฐ๋‚˜ ์žก๊ณ ์ž ํ•˜๋Š” ๋ฌผ์ฒด ์ฃผ์œ„์— ์žฅ์• ๋ฌผ์ด ๋งŽ์€ ์žก๋™์‚ฌ๋‹ˆ(clutter) ํ™˜๊ฒฝ์—์„œ๋Š” ์ธ์‹๊ณผ ๊ณ„ํš์ด ํ›จ์”ฌ ์–ด๋ ค์šด๋ฐ, DextrAH-RGB๋Š” ์ด๋Ÿฐ ์ƒํ™ฉ์„ ๋‹ค๋ฃจ์ง€ ๋ชปํ•˜๋ฏ€๋กœ ์‹ค์šฉํ™”๋ฅผ ์œ„ํ•ด์„œ๋Š” ํ•ด๋‹น ํ•œ๊ณ„๋ฅผ ๋„˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๊นŠ์ด ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์— ๋น„ํ•ด ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ์ผ๋ถ€ ์กด์žฌํ•œ๋‹ค๋Š” ์ ๋„ ๋‹จ์ ์ž…๋‹ˆ๋‹ค. ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ ๋ช‡๋ช‡ ๋ฌผ์ฒด์—์„œ๋Š” ์„ฑ๊ณต๋ฅ ์ด ๋‚ฎ์•˜๊ณ , ์ด๋Š” RGB ์˜์ƒ๋งŒ์œผ๋กœ 3D ์ •๋ณด๋ฅผ ์™„๋ฒฝํžˆ ์–ป๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. stereo ์„ค์ •์œผ๋กœ ๋ณด์™„ํ–ˆ์ง€๋งŒ ์ •ํ™•ํ•œ ๊ฑฐ๋ฆฌ ์ถ”์ •์ด๋‚˜ ๋ฏธ์„ธํ•œ ๋ฌผ์ฒด ํ˜•์ƒ ํŒŒ์•…์—๋Š” ์—ฌ์ „ํžˆ ๊นŠ์ด์„ผ์„œ๋ณด๋‹ค ๋ถˆ๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์™„์ „ํ•œ ๋ฒ”์šฉ ๋กœ๋ด‡ ํŒŒ์ง€ ์‹œ์Šคํ…œ์œผ๋กœ ๋ฐœ์ „ํ•˜๋ ค๋ฉด, RGB ๊ธฐ๋ฐ˜์˜ ํ•œ๊ณ„๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€ ๊ธฐ๋ฒ•(์˜ˆ: ๋” ๋‚˜์€ ์‹ฌ์ธต ํ•™์Šต ๋ชจ๋ธ, ๋ฉ€ํ‹ฐ๋ทฐ ์นด๋ฉ”๋ผ ํ™•์ถฉ, ์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ์˜ 3D ๋ณต์› ๋“ฑ)์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฐ–์—๋„ ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฃจ์ง€ ์•Š์•˜์ง€๋งŒ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต์— ๋“œ๋Š” ๋ง‰๋Œ€ํ•œ ๊ณ„์‚ฐ ์ž์› ์—ญ์‹œ ํ˜„์‹ค์ ์ธ ์ œํ•œ์ž…๋‹ˆ๋‹ค. ๊ด‘ํ•™์  ๋ Œ๋”๋ง์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์—์„œ ๊ต์‚ฌ-ํ•™์ƒ์„ ํ•™์Šตํ•˜๋ ค๋ฉด ์ƒ๋‹นํ•œ GPU ์ž์›๊ณผ ์‹œ๊ฐ„์ด ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ์ผ๋ฐ˜ ์—ฐ๊ตฌ์ž๊ฐ€ ๋ชจ๋ฐฉํ•˜๊ธฐ์— ์ง„์ž…์žฅ๋ฒฝ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ •์ฑ…์„ ์ƒˆ๋กœ์šด ๋กœ๋ด‡์ด๋‚˜ ํ™˜๊ฒฝ์— ์ ์šฉํ•˜๋ ค๋ฉด ๋‹ค์‹œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ•™์Šต์„ ๊ฑฐ์ณ์•ผ ํ•˜๋Š”๋ฐ, ์ด ๊ณผ์ •์˜ ์žฌํ˜„ ๋น„์šฉ๋„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , DextrAH-RGB๋Š” ๋กœ๋ด‡ ๋‹ค์ง€ ์† ํŒŒ์ง€ ๋ถ„์•ผ์˜ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์–ด๋‚ธ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. RGB ์นด๋ฉ”๋ผ ์ž…๋ ฅ๋งŒ์œผ๋กœ๋„ ํ˜„์‹ค์—์„œ ๋ณต์žกํ•œ ๋‹ค์ง€ ์กฐ์ž‘์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฒ˜์Œ์œผ๋กœ ์ฆ๋ช…ํ–ˆ๊ณ , ์—ฌ๋Ÿฌ ๊ธฐ์ˆ ์  ํ†ต์ฐฐ(๊ต์‚ฌ-ํ•™์ƒ ํ•™์Šต, ํŒจ๋ธŒ๋ฆญ ๊ธฐ๋ฐ˜ ์ œ์–ด, ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๋“ฑ)์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ํ–ฅํ›„ ๋ณธ ์—ฐ๊ตฌ๋ฅผ ๋ฐœ์ „์‹œ์ผœ ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒํ•˜๊ณ , ๋นˆ ํŒจํ‚น(bin-packing)๊ณผ ๊ฐ™์ด ๋‹ค์ˆ˜ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์œผ๋กœ ํ™•์žฅํ•  ๊ณ„ํš์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋œ๋‹ค๋ฉด, DextrAH-RGB์˜ ๋‹จ์ ์œผ๋กœ ์ง€์ ๋œ ๋ถ€๋ถ„๋“ค๋„ ์ ์ฐจ ํ•ด๊ฒฐ๋˜๋ฉฐ ๋ณด๋‹ค ๋ฒ”์šฉ์ ์ด๊ณ  ์‹ค์šฉ์ ์ธ ๋กœ๋ด‡ ํŒŒ์ง€ ์‹œ์Šคํ…œ์— ๊ฐ€๊นŒ์›Œ์งˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

Reference

  • DextrAH-G ๋ฆฌ๋ทฐ(CoRL2024)

Copyright 2024, Jung Yeon Lee