Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • Brief Review
  • Detail Review
    • ์„œ๋ก 
    • ์‹œ์Šคํ…œ ๊ตฌ์„ฑ ๋ฐ ๊ธฐ์ˆ  ๊ฐœ์š”
      • ๊ธฐ์—ฌ ์š”์•ฝ
    • ๋ฐฉ๋ฒ•๋ก  ๋ถ„์„
      • ๊ฐ•ํ™”ํ•™์Šต ์„ค์ •
      • ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„
      • ์ธ์ง€ ๋ฐ ๋„๋ฉ”์ธ ๋žœ๋คํ™”
    • ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜
    • ์‹ค์ œ ์‹คํ—˜ ๋ฐ ํ‰๊ฐ€
      • ์‹คํ—˜ ํ™˜๊ฒฝ
    • ์‹คํ—˜ ๊ฒฐ๊ณผ
      • ์ผ๋ฐ˜ํ™” ๋ฐ ๊ฐ•์ธ์„ฑ
      • ํ•œ๊ณ„ ๋ฐ ๋น„ํŒ์  ๊ณ ์ฐฐ
    • ๊ฒฐ๋ก 

๐Ÿ“ƒTwisting Lids Off๋ฆฌ๋ทฐ

bimanual
twist
Manipulating objects with two multi-fingered hands
Published

September 26, 2025

  • Paper Link
  • Homepage
  1. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์‹ฌ์ธต ๊ฐ•ํ™” ํ•™์Šต(RL)์œผ๋กœ ํ›ˆ๋ จ๋œ ์ •์ฑ…์„ ํ†ตํ•ด ๋กœ๋ด‡์ด ๋‘ ๊ฐœ์˜ ๋‹ค์ง€ํ˜• ์†์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์˜ ๋šœ๊ป‘์„ ๋Œ๋ ค ์—ฌ๋Š”(lid-twisting) ์ž‘์—…์„ ์‹ค์ œ ์„ธ๊ณ„์—์„œ ์ œ๋กœ-์ƒท(zero-shot)์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  2. ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ๋Š” ์‹ค์ œ ์—ญํ•™์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋ธŒ๋ ˆ์ดํฌ ๊ธฐ๋ฐ˜(brake-based) ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง, ํšจ์œจ์ ์ธ ์‹ค์‹œ๊ฐ„ ์ธ์‹์„ ์œ„ํ•œ ํฌ์†Œ ๊ฐ์ฒด ํ‘œํ˜„(sparse object representation), ๊ทธ๋ฆฌ๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๋™์ž‘์„ ์œ ๋„ํ•˜๋Š” ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜(keypoint-based) ์ ‘์ด‰ ๋ณด์ƒ(contact reward)์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ์ œ์•ˆ๋œ ์‹œ์Šคํ…œ์€ ๋‹ค์–‘ํ•œ ๋ชจ์–‘, ํฌ๊ธฐ ๋ฐ ์žฌ์งˆ์˜ ๊ฐ€์ •์šฉ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ๋†’์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์™ธ๋ถ€ ๊ต๋ž€์— ๋Œ€ํ•œ ๊ฐ•๊ฑดํ•จ์„ ์ž…์ฆํ–ˆ์œผ๋ฉฐ, ์‹ฌ์ง€์–ด ๋šœ๊ป‘์„ ์™„์ „ํžˆ ์ œ๊ฑฐํ•˜๋Š”(lid-removal) ์ƒˆ๋กœ์šด ์ž‘์—…๊นŒ์ง€ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

Brief Review

๋ณธ ๋…ผ๋ฌธ์€ ๋‘ ๊ฐœ์˜ ๋‹ค์ง€(multi-fingered) ๋กœ๋ด‡ ์†์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์˜ ๋šœ๊ป‘์„ ๋Œ๋ฆฌ๊ฑฐ๋‚˜ ์ œ๊ฑฐํ•˜๋Š” ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์‹ฌ-ํˆฌ-๋ฆฌ์–ผ(sim-to-real) ๊ฐ•ํ™” ํ•™์Šต(RL) ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ›ˆ๋ จ๋œ ๋‹จ์ผ ์ •์ฑ…์ด ์‹ค์ œ ํ™˜๊ฒฝ์˜ ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ(๋ชจ์–‘, ํฌ๊ธฐ, ์งˆ๋Ÿ‰, ์ƒ‰์ƒ, ์žฌ๋ฃŒ ๋“ฑ)์„ ๊ฐ€์ง„ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋กœ ์ œ๋กœ์ƒท(zero-shot) ์ „์ด๋˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” ๋‹ค์ง€ ์–‘์† ์‹œ์Šคํ…œ์—์„œ๋Š” ์ „๋ก€ ์—†๋Š” ์„ฑ๊ณผ์ด๋‹ค.

๋ณธ ์—ฐ๊ตฌ๋Š” ์–‘์† ์กฐ์ž‘์˜ ๋†’์€ ์ฐจ์›์„ฑ๊ณผ ์ ‘์ด‰์ด ๋นˆ๋ฒˆํ•œ ์ž‘์—…์˜ ๋ณธ์งˆ์  ๋ณต์žก์„ฑ์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ๊ธฐ์กด์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ํ†ต์ฐฐ๋ ฅ์„ ์ œ์‹œํ•œ๋‹ค.

  1. ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง: ๋šœ๊ป‘๊ณผ ๋ชธ์ฒด ์‚ฌ์ด์˜ ์ •์  ๋งˆ์ฐฐ์„ ์ •ํ™•ํ•˜๊ฒŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค๋Š” ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ์€ โ€˜๋ธŒ๋ ˆ์ดํฌ ๋งํฌ(Brake Link)โ€™ ๊ธฐ๋ฐ˜์˜ ๊ฐ์ฒด ๋ชจ๋ธ์„ ๋„์ž…ํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ฆฌ๋ณผ๋ฃจํŠธ ์กฐ์ธํŠธ(revolute joint)์™€ ๋‚˜์‚ฌ์‚ฐ ๊ตฌ์กฐ๋กœ ์—ฐ๊ฒฐ๋œ ๋‘ ๊ฐœ์˜ ๊ฐ•์ฒด(๋ชธ์ฒด์™€ ๋šœ๊ป‘) ์‚ฌ์ด์— ํ”„๋ฆฌ์ฆ˜ํ˜• ์กฐ์ธํŠธ(prismatic joint)๋ฅผ ํ†ตํ•ด ์ง€์†์ ์œผ๋กœ ์••๋ ฅ์„ ๊ฐ€ํ•˜๋Š” ํŠน๋ณ„ํ•œ โ€™๋ธŒ๋ ˆ์ดํฌ ๋งํฌโ€™๋ฅผ ํฌํ•จํ•œ๋‹ค. ์ด๋Š” ๋šœ๊ป‘์ด ๋‚˜์‚ฌ๋กœ ์กฐ์—ฌ์ง„ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ธ๊ณต์ ์œผ๋กœ ๋งˆ์ฐฐ๋ ฅ์„ ์ƒ์„ฑํ•˜์—ฌ, ๋šœ๊ป‘๊ณผ ๋ชธ์ฒด ์‚ฌ์ด์˜ ์ƒ๋Œ€์ ์ธ ํšŒ์ „์„ ๋ฐฉ์ง€ํ•œ๋‹ค. ์ด ์„ค๊ณ„๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์‹ค์ œ ๋ฌผ๋ฆฌ ์—ญํ•™์— ๋Œ€ํ•œ ๋†’์€ ์ถฉ์‹ค๋„๋ฅผ ์ œ๊ณตํ•˜์—ฌ ํšจ์œจ์ ์ธ ์ •์ฑ… ํ•™์Šต๊ณผ ์„ฑ๊ณต์ ์ธ ์‹ฌ-ํˆฌ-๋ฆฌ์–ผ ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

  2. ์ธ์ง€(Perception): ๋ฏธ์„ธํ•œ ์ ‘์ด‰ ์กฐ์ž‘์— ์ •๋ฐ€ํ•œ ์ง€๊ฐ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ์ด๋ผ๋Š” ์ดˆ๊ธฐ ๊ฐ€์„ค๊ณผ ๋‹ฌ๋ฆฌ, ๋ณธ ์—ฐ๊ตฌ๋Š” โ€˜์˜ค๋ธŒ์ ํŠธ ๋ถ„ํ• (object segmentation)โ€™ ๋ฐ โ€˜ํŠธ๋ž˜ํ‚น(tracking)โ€™ ๋„๊ตฌ(Segment Anything Model (SAM) ๋ฐ XMem)์—์„œ ์ถ”์ถœํ•œ โ€˜๋‘ ์ ์˜ ํฌ์†Œ(sparse) ๊ฐ์ฒด ํ‘œํ˜„โ€™๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ RGBD ์นด๋ฉ”๋ผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌผ์ฒด ๋งˆ์Šคํฌ์˜ ์ค‘์‹ฌ์„ ์ด๋ฏธ์ง€ ํ‰๋ฉด์—์„œ ์–ป๊ณ , ๋…ธ์ด์ฆˆ ์žˆ๋Š” ๊นŠ์ด ์ •๋ณด๋ฅผ ํ†ตํ•ด 3D ๊ฐ์ฒด ํ‚คํฌ์ธํŠธ(keypoint)๋ฅผ ์ถ”์ •ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ตœ์†Œํ•œ์˜ ์ง€๊ฐ ์ •๋ณด์™€ โ€™๋„๋ฉ”์ธ ๋ฌด์ž‘์œ„ํ™”(domain randomization)โ€™ ๊ธฐ๋ฒ•์€ ํ์ƒ‰(occlusion) ๋ฐ ์นด๋ฉ”๋ผ ๋…ธ์ด์ฆˆ์— ๊ฐ•์ธํ•œ ์ •์ฑ… ํ›ˆ๋ จ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ํŠนํžˆ, ๋ฌผ์ฒด ์œ„์น˜ ๊ด€์ธก ๋…ธ์ด์ฆˆ, ๊ด€์ ˆ ๊ด€์ธก ๋…ธ์ด์ฆˆ, ์•ก์…˜ ๋…ธ์ด์ฆˆ๊ฐ€ Sim-to-Real ์ „์ด์— ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹ค๊ณ  ์–ธ๊ธ‰๋œ๋‹ค.

  3. ๋ณด์ƒ ์„ค๊ณ„: ๋‹จ์ผ ๋ถ€ํ’ˆ์˜ ๊ฐ•์ฒด ์กฐ์ž‘์— ์‚ฌ์šฉ๋˜๋˜ ๊ธฐ์กด ๋ณด์ƒ ์„ค๊ณ„๋Š” ๋‹ค์ค‘ ๋ถ€ํ’ˆ ์กฐ์ž‘์—๋Š” ์ง์ ‘ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ์— ๋Œ€์‘ํ•˜์—ฌ, ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฐ„๋‹จํ•œ โ€™ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์ ‘์ด‰ ๋ณด์ƒ(keypoint-based contact reward)โ€™์„ ํฌํ•จํ•˜๋Š” ๋‹ค์ค‘ ๋ณด์ƒ ํ•ญ์„ ์ œ์•ˆํ•œ๋‹ค.

    • ๋น„ํ‹€๊ธฐ ๋ณด์ƒ (Twisting Reward): ๋šœ๊ป‘์˜ ํšŒ์ „ ๊ฐ๋„(\Delta\theta)์— ๋น„๋ก€ํ•˜์—ฌ ๋ณด์ƒ์„ ์ค€๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. r_{twisting} = \Delta\theta = q^{bottle}_{t+1} - q^{bottle}_t
    • ์†๊ฐ€๋ฝ ์ ‘์ด‰ ๋ณด์ƒ (Finger Contact Reward): ์†๊ฐ€๋ฝ ๋์ด ๋ณ‘์˜ ๋ชธ์ฒด(X_L`)์™€ ๋šœ๊ป‘(X_R)์— ๋ถ€์ฐฉ๋œ ์ฐธ์กฐ ์ ‘์ด‰ ์ง€์ ์— ์ตœ๋Œ€ํ•œ ๊ฐ€๊น๊ฒŒ ์œ ์ง€๋˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. ์ด๋Š” ์†๊ฐ€๋ฝ ๋ ์œ„์น˜(F^L_i, F^R_i)์™€ ์ฐธ์กฐ ์ง€์  ๊ฐ„์˜ ๊ฑฐ๋ฆฌ์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ํ˜•ํƒœ๋กœ ์ •์˜๋œ๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. r_{contact} = \sum_i \left( \frac{1}{1+\alpha d(X_L, F^L_i)} + \frac{1}{1+\alpha d(X_R, F^R_i)} \right) ์—ฌ๊ธฐ์„œ \alpha๋Š” ์Šค์ผ€์ผ๋ง ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด๊ณ , d(A, x) = \min_i \|A_i - x\|_2๋Š” ์  x์™€ ์  ์„ธํŠธ A ์‚ฌ์ด์˜ ์ตœ์†Œ ๊ฑฐ๋ฆฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ด ๋ณด์ƒ์€ ๋ฐ”๋žŒ์งํ•œ ํ–‰๋™๊ณผ ์ž‘์—… ์„ฑ๊ณต์— ํ•„์ˆ˜์ ์ธ ๊ฒƒ์œผ๋กœ ํ™•์ธ๋˜์—ˆ๋‹ค.
    • ์ž์„ธ ๋ณด์ƒ (Pose Reward): ๋ณ‘์˜ ์ฃผ์ถ•(x_{axis})์ด ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋ฐฉํ–ฅ(v)๊ณผ ์ •๋ ฌ๋˜๋„๋ก ์žฅ๋ คํ•œ๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. r_{pose} = - \arccos(\langle x_{axis}, v \rangle)
    • ์ด ์™ธ์—๋„ ์ž‘์—… ํŒจ๋„ํ‹ฐ(work penalty) ๋ฐ ์•ก์…˜ ํŒจ๋„ํ‹ฐ(action penalty)์™€ ๊ฐ™์€ ์ •๊ทœํ™” ํ•ญ์ด ํฌํ•จ๋œ๋‹ค.

์ •์ฑ… ํ•™์Šต์€ PPO(Proximal Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋น„๋Œ€์นญ ๋น„ํ‰๊ฐ€ ๊ด€์ธก(asymmetric critic observation)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ˆ˜ํ–‰๋œ๋‹ค. ๊ด€์ธก ๊ณต๊ฐ„์—๋Š” ๋กœ๋ด‡์˜ ๊ณ ์œ ์ˆ˜์šฉ์„ฑ ์† ๊ด€์ ˆ ์œ„์น˜, ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘์˜ ์ถ”์ •๋œ 3D ์งˆ๋Ÿ‰ ์ค‘์‹ฌ ์œ„์น˜, ์ด์ „์— ๋ช…๋ น๋œ ๋ชฉํ‘œ ๊ด€์ ˆ ์œ„์น˜๊ฐ€ ํฌํ•จ๋œ๋‹ค. ์•ก์…˜ ๊ณต๊ฐ„์€ PD ์ปจํŠธ๋กค๋Ÿฌ๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ์ƒ๋Œ€์ ์ธ ๋ชฉํ‘œ ๊ด€์ ˆ ์œ„์น˜๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋ถ€๋“œ๋Ÿฌ์šด ์›€์ง์ž„์„ ์œ„ํ•ด EMA(Exponential Moving Average)๊ฐ€ ์ ์šฉ๋œ๋‹ค. \tilde{q}_{t+1} = \tilde{q}_t + \eta EMA(a_t)

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜์„ ํ†ตํ•ด ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์ ‘์ด‰ ๋ณด์ƒ๊ณผ ์‹œ๊ฐ ์ •๋ณด๊ฐ€ ์ •์ฑ… ํ•™์Šต ๋ฐ ์„ฑ๋Šฅ์— ํ•„์ˆ˜์ ์ž„์„ ๊ฒ€์ฆํ–ˆ๋‹ค. ๋˜ํ•œ, ๋‹จ์ผ ๋ฌผ์ฒด ํ›ˆ๋ จ๋ณด๋‹ค ๋‹ค์ค‘ ๋ฌผ์ฒด ํ›ˆ๋ จ์ด ์•ฝ๊ฐ„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ํ›ˆ๋ จ ์ค‘ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ์ธ์Šคํ„ด์Šค๋ฅผ ํ†ตํ•ด ํƒ์ƒ‰ ๊ณผ์ •์„ ์šฉ์ดํ•˜๊ฒŒ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ถ„์„๋œ๋‹ค.

์‹ค์ œ ํ™˜๊ฒฝ ์‹คํ—˜์—์„œ๋Š” ์ œ์•ˆํ•˜๋Š” ์ •์ฑ…์ด ๋ชจ๋“  ๊ธฐ์ค€์„ (์˜คํ”ˆ ๋ฃจํ”„ ๋ฆฌํ”Œ๋ ˆ์ด, ๋น„์ „ ์—†์Œ, ๋น„๋Œ€์นญ ํ›ˆ๋ จ ์—†์Œ, ๋Œ€ํ˜• ์ •์ฑ… ๋„คํŠธ์›Œํฌ)์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์•ˆ์ •์ ์ธ ํŒŒ์ง€์™€ ํšจ๊ณผ์ ์ธ ๋šœ๊ป‘ ๋น„ํ‹€๊ธฐ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ํŠนํžˆ, ์˜คํ”ˆ ๋ฃจํ”„ ์ •์ฑ…์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ์€ ์ด ๊ณผ์ œ๊ฐ€ ๋ฌผ์ฒด ์ƒํƒœ์— ๋”ฐ๋ผ ๋งค์šฐ ์ •๋ฐ€ํ•œ ์•ก์…˜์„ ์š”๊ตฌํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋Œ€ํ˜• ์ •์ฑ…์ด ์‹ค์ œ ํ™˜๊ฒฝ์œผ๋กœ ์ „์ด๋˜์ง€ ๋ชปํ•œ ๊ฒƒ์€ ๊ณผ์ ํ•ฉ(overfitting) ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ ‘์ด‰์ด ๋นˆ๋ฒˆํ•œ ์ž‘์—…์˜ ์‹ฌ-ํˆฌ-๋ฆฌ์–ผ ์ „์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์ •์ฑ… ๋„คํŠธ์›Œํฌ ํฌ๊ธฐ ์ œ์–ด๊ฐ€ ์ค‘์š”ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋˜ํ•œ, ์ •์ฑ…์€ ์™ธ๋ถ€ ํž˜์— ๋Œ€ํ•œ ๊ฐ•์ธ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํ›ˆ๋ จ๋˜์ง€ ์•Š์€ โ€˜๋šœ๊ป‘ ์ œ๊ฑฐ(lid-removal)โ€™ ์ž‘์—…์— ๋Œ€ํ•ด์„œ๋„ ์ƒˆ๋กœ์šด ๊ฐ€์ •์šฉ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ๋ณธ ์—ฐ๊ตฌ๋Š” ์–‘์† ๋กœ๋ด‡์˜ ๋ณต์žกํ•œ ์กฐ์ž‘ ๋Šฅ๋ ฅ ๊ฐœ๋ฐœ์— ์žˆ์–ด ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ค์ œ ์„ธ๊ณ„์˜ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.


Detail Review

์„œ๋ก 

๋”ฅ ๋Ÿฌ๋‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‘ ์†์„ ์ด์šฉํ•œ ์ด์ค‘ ์†๊ฐ€๋ฝ ๋กœ๋ด‡์ด ๋ณ‘๋šœ๊ป‘์„ ๋Œ๋ ค ์—ฌ๋Š” ๊ฒƒ์€ ๋งค์šฐ ๋‚œํ•ดํ•œ ๋ฌธ์ œ๋กœ ๊ฐ„์ฃผ๋˜์–ด ์™”๋‹ค. ๋ณต์žกํ•œ ์ ‘์ด‰ ๋™์—ญํ•™๊ณผ ๋†’์€ ์ž์œ ๋„์˜ ์กฐ์ •์ด ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. Lin ๋“ฑ์€ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์„ธ๊ณ„์— ๋ฐ”๋กœ ์ ์šฉํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ๋ณ‘ ๋ชจ์–‘์—์„œ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ‘๋šœ๊ป‘ ๋น„ํ‹€๊ธฐ ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋“ค์€ ๊ธฐ์กด์— ์—†๋˜ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง, ์‹ค์‹œ๊ฐ„ ์ธ์ง€, ๋ณด์ƒ ์„ค๊ณ„ ๊ธฐ๋ฒ•์„ ๋„์ž…ํ•˜์—ฌ, ์ด์ค‘ ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡ ์†์— ๋Œ€ํ•œ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜์˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-์‹ค์„ธ๊ณ„ ์ด์ „(sim-to-real)์ด ๊ฐ€๋Šฅํ•จ์„ ์ฆ๋ช…ํ–ˆ๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” ์ด ๋…ผ๋ฌธ์ด ์ œ์•ˆํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ๋ฒ•๊ณผ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์‹ฌ์ธต ๋ถ„์„ํ•˜๊ณ , ํ•œ๊ณ„์  ๋ฐ ์˜์˜๋„ ํ•จ๊ป˜ ๋…ผ์˜ํ•œ๋‹ค.

์‹œ์Šคํ…œ ๊ตฌ์„ฑ ๋ฐ ๊ธฐ์ˆ  ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋‘ ๊ฐœ์˜ 16-์ž์œ ๋„(DoF) Allegro ๋กœ๋ด‡ ์†์„ ์‚ฌ์šฉํ•œ๋‹ค. ๊ฐ ์†์€ UR5e ๋กœ๋ด‡ ์•”์— ๊ณ ์ •๋˜์–ด ์žˆ์œผ๋ฉฐ, Intel RealSense D435๋ฅผ ํ†ตํ•ด ๋ฌผ์ฒด ์ƒํƒœ๋ฅผ ์ธ์‹ํ•œ๋‹ค. ์ œ์–ด ์ฃผ๊ธฐ๋Š” ์•ฝ 30Hz ์ •๋„๋กœ ์„ค์ •๋˜์—ˆ์œผ๋ฉฐ, ๋กœ๋ด‡์—๋Š” ๊ด€์ ˆ๋ณ„ ์ž„ํ”ผ๋˜์Šค PD ์ œ์–ด๊ธฐ๊ฐ€ ์ ์šฉ๋œ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต ์—์ด์ „ํŠธ์˜ ๊ด€์ธก(observation)์œผ๋กœ๋Š” ๊ฐ ์†์˜ ๊ด€์ ˆ ๊ฐ๋„, ๋ณ‘ ๋ณธ์ฒด์™€ ๋šœ๊ป‘์˜ 3D ์ค‘์‹ฌ ์œ„์น˜, ์ด์ „์— ๋ช…๋ น๋œ ๊ด€์ ˆ ์œ„์น˜ ๋“ฑ์ด ์‚ฌ์šฉ๋œ๋‹ค. ํ–‰๋™(action)์€ ๊ฐ ๊ด€์ ˆ์˜ ๋ชฉํ‘œ ์œ„์น˜ ๋ณ€์œ„๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ์ด๋ฅผ PD ์ œ์–ด๊ธฐ์— ์ž…๋ ฅํ•ด ํ† ํฌ ๋ช…๋ น์„ ์ƒ์„ฑํ•œ๋‹ค. ์—์ด์ „ํŠธ ๋„คํŠธ์›Œํฌ๋Š” 3-์ธต MLP(256-256-128)๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ–‰๋™์˜ ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

๋‘ ๊ฐœ์˜ Allegro ํ•ธ๋“œ๋กœ ๊ตฌ์„ฑ๋œ ์‹คํ—˜ ์‹œ์Šคํ…œ. ์ƒ๋‹จ: UR5e ์•”์— ์žฅ์ฐฉ๋œ ๋กœ๋ด‡ ์†๋“ค์ด ๋ณ‘๋šœ๊ป‘์„ ์กฐ์ž‘ํ•˜๋Š” ๋ชจ์Šต. ํ•˜๋‹จ: RGB ์นด๋ฉ”๋ผ ์˜์ƒ์—์„œ ๋ณ‘ ๋ชธ์ฒด(๋ถ‰์€ ์ƒ‰)์™€ ๋šœ๊ป‘(์ดˆ๋ก์ƒ‰)์˜ ๋งˆ์Šคํฌ๋ฅผ ์ถ”์ •ํ•˜๊ณ , ๊นŠ์ด ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•ด ๊ฐ ์ค‘์‹ฌ์ ์„ 3D๋กœ ๊ณ„์‚ฐํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” RGBD ์นด๋ฉ”๋ผ์—์„œ ์–ป์€ ๋ณ‘์˜ ๋ถ„ํ• (segmentation) ๋งˆ์Šคํฌ ์ค‘์‹ฌ๊ณผ ๊นŠ์ด ์ •๋ณด๋งŒ์œผ๋กœ ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘์˜ 3D ์œ„์น˜๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ด€์ธก ์ •๋ณด๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ๋ณ‘๊ณผ ๋šœ๊ป‘์„ ๊ฐ๊ฐ ๊ฐ•์ฒด ๋‘ ๊ฐœ๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ด ๋‘˜์„ ๋‚˜์‚ฌ์‚ฐ์ด ๋‹ฌ๋ฆฐ ๊ด€์ ˆ๋กœ ์—ฐ๊ฒฐํ•œ๋‹ค. ํ•ต์‹ฌ ๊ณตํ•™์  ๊ธฐ์—ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ธŒ๋ ˆ์ดํฌ ๋งํฌ(brake link)๋ฅผ ๋„์ž…ํ•œ ๋ฌผ๋ฆฌ ๋ชจ๋ธ์ด๋‹ค. ์ด๋Š” ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘ ์‚ฌ์ด์— ๊ฐ€์••(prismatic joint)๋˜๋Š” ์ถ”๊ฐ€ ๋งํฌ๋กœ, ๋šœ๊ป‘๊ณผ ๋ชธ์ฒด ์‚ฌ์ด์— ๋งˆ์ฐฐ๋ ฅ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•œ๋‹ค. ์ด ๋ธŒ๋ ˆ์ดํฌ ๋งํฌ๊ฐ€ ์—†์œผ๋ฉด ๋šœ๊ป‘์ด ์†๊ฐ€๋ฝ๊ณผ ์ ‘์ด‰ํ•˜์ง€ ์•Š์•„๋„ ์‰ฝ๊ฒŒ ํšŒ์ „ํ•˜๊ธฐ์—, ๋งˆ์น˜ ์‹ค์ œ๋กœ ๋‚˜์‚ฌ์‚ฐ์ด ๊ฑธ๋ฆฐ ๋“ฏํ•œ ๋ฌผ๋ฆฌ์  ์ €ํ•ญ์„ ๊ตฌํ˜„ํ•ด ์ค€๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์†๋„๋ฅผ ํฌ๊ฒŒ ํฌ์ƒํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๋™์—ญํ•™์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์‹ค์ œ ์‹คํ—˜์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ๋ชจ์–‘๊ณผ ํฌ๊ธฐ์˜ 3D ํ”„๋ฆฐํŒ… ๋ณ‘ ๊ฐ์ฒด๋„ ์ œ์ž‘ํ•˜์˜€์œผ๋ฉฐ, ์ผ๋ถ€๋Š” ๋šœ๊ป‘์ด ๋ฌดํ•œํžˆ ํšŒ์ „ํ•˜๋Š” ๊ด€์ ˆ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„๋‹ค.

๊ธฐ์—ฌ ์š”์•ฝ

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค:

  • ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง: ๋‘ ํŒŒํŠธ(๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘)๋กœ ๊ตฌ์„ฑ๋œ ๊ด€์ ˆ ๊ฐ์ฒด๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๊ธฐ ์œ„ํ•ด ๋ธŒ๋ ˆ์ดํฌ ๋งํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ, ๋šœ๊ป‘๊ณผ ๋ชธ์ฒด ์‚ฌ์ด์˜ ๋งˆ์ฐฐ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ๋ง.
  • ์ธ์ง€(Perception) ๊ธฐ๋ฒ•: ๋ณ‘์ฒด์™€ ๋šœ๊ป‘์„ ๊ตฌ๋ถ„ํ•œ ๋ถ„ํ• (segmentation) ๋งˆ์Šคํฌ์˜ ์ค‘์‹ฌ์  ๋‘ ๊ฐœ๋งŒ์„ ์ด์šฉํ•˜๋Š” ๊ทนํžˆ ํฌ์†Œํ•œ ๊ฐ์ฒด ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์˜ค์ฐจ ๋‚ด์„ฑ ์žˆ๋Š” ํ•™์Šต์„ ์œ„ํ•ด ๋„๋ฉ”์ธ ๋žœ๋คํ™” ๊ธฐ๋ฒ•์„ ์ ์šฉ.
  • ๋ณด์ƒ ์„ค๊ณ„: ๋‘ ์†๊ฐ€๋ฝ ๊ฐ๊ฐ์ด ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘์˜ ํŠน์ • ํ‚คํฌ์ธํŠธ์— ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ์œ ๋„ํ•˜๋Š” โ€™ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์ ‘์ด‰ ๋ณด์ƒโ€™์„ ๋„์ž…ํ•˜์—ฌ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ทธ๋ฆฝ ๋ฐ ๋น„ํ‹€๋ฆผ ๋™์ž‘์„ ์œ ๋„. ํšŒ์ „ ๋ณด์ƒ๊ณผ ๋ณ‘ ์ถ• ์ •๋ ฌ ๋ณด์ƒ์„ ์ถ”๊ฐ€๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์„ธ๋ถ„ํ™”๋œ ํ–‰๋™ ์ง€์‹œ๋ฅผ ๊ตฌํ˜„ํ–ˆ๋‹ค.
  • RL ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-์‹ค์„ธ๊ณ„ ์ „์ด: ๋”ฅ RL(PPO)์„ ์ด์šฉํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์„ธ๊ณ„ ์ด์ค‘ ์† ์กฐ์ž‘์— ์ง์ ‘ ์ „์ดํ•˜๋Š” ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•œ ์ฒซ ์‚ฌ๋ก€๋กœ, ๋‹ค์–‘ํ•œ ์•Œ ์ˆ˜ ์—†๋Š” ๋ณ‘ ๊ฐ์ฒด์— ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๋™์ ์ด๊ณ  ์„ฌ์„ธํ•œ ํ–‰๋™์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

๋ฐฉ๋ฒ•๋ก  ๋ถ„์„

๊ฐ•ํ™”ํ•™์Šต ์„ค์ •

๋ฌธ์ œ๋Š” ๋ถ€๋ถ„ ๊ด€์ธก ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(POMDP)์œผ๋กœ ์„ค์ •๋˜์—ˆ๋‹ค. ์ƒํƒœ(state)๋Š” ๋กœ๋ด‡ ๊ด€์ ˆ ๊ฐ๋„, ๋ณ‘์ฒด์™€ ๋šœ๊ป‘์˜ 3D ์œ„์น˜ ๋“ฑ์˜ ๊ด€์ธก(observation)์„ ํฌํ•จํ•œ๋‹ค. ํ–‰๋™(action)์€ ๋กœ๋ด‡ ๊ด€์ ˆ ๊ฐ๋„ ๋ชฉํ‘œ ๊ฐ’์˜ ์ƒ๋Œ€์  ๋ณ€์œ„๋กœ ํ‘œํ˜„๋œ๋‹ค. ํ–‰๋™ ์ถœ๋ ฅ์„ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ง€์ˆ˜ ๊ฐ€์ค‘ ์ด๋™ ํ‰๊ท (EMA)์œผ๋กœ ๋ณด์ •ํ•˜๋ฉฐ, PD ์ œ์–ด๊ธฐ๋ฅผ ํ†ตํ•ด ํ† ํฌ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. PPO(Adam ์ตœ์ ํ™” ํฌํ•จ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ฉฐ, ์ •์ฑ… ๋„คํŠธ์›Œํฌ๋Š” 3์ธต MLP(256-256-128), ์ƒํƒœ-๋…๋ฆฝ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ, ๊ฐ’ ํ•จ์ˆ˜ ๋„คํŠธ์›Œํฌ๋Š” 3์ธต MLP(512-512-512) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋˜ํ•œ ๊ฐ€์น˜ํ•จ์ˆ˜ ํ•™์Šต ์‹œ์—๋งŒ ๋ฌผ๋ฆฌ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋“ฑ์˜ ํŠน๊ถŒ์ •๋ณด(privileged observations)๋ฅผ ์ถ”๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋น„๋Œ€์นญ ํ•™์Šต(asymmetric PPO)์„ ํ†ตํ•ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-์‹ค์„ธ๊ณ„ ์ด์ „ ์„ฑ๋Šฅ์„ ๋†’์˜€๋‹ค.

๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„

๊ณผ์ œ ์ˆ˜ํ–‰์„ ๊ตฌ์ฒดํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ณด์ƒ ํ•ญ(term)์„ ์„ค๊ณ„ํ–ˆ๋‹ค.

์ฒซ์งธ, ํšŒ์ „ ๋ณด์ƒ(Twisting Reward)์€ ๋šœ๊ป‘์ด ํ•œ ํƒ€์ž„์Šคํ… ๋™์•ˆ ํšŒ์ „ํ•œ ๊ฐ๋„ ฮ”ฮธ ๋ฅผ ๋ณด์ƒ์œผ๋กœ ํ•œ๋‹ค :

r_{\text {twist }}=\Delta \theta

๋‘˜์งธ, ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์†๊ฐ€๋ฝ ์ ‘์ด‰ ๋ณด์ƒ(Finger Contact Reward)์ด๋‹ค. ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘์— ๊ฐ๊ฐ ์‚ฌ์ „์— ์ •์˜๋œ ํ‚คํฌ์ธํŠธ ์ง‘ํ•ฉ์„ ๋†“๊ณ , ์™ผ์†๊ณผ ์˜ค๋ฅธ์†์˜ ํŠน์ • ์†๊ฐ€๋ฝ ๋(์˜ˆ: ์—„์ง€ ๋“ฑ) ์œ„์น˜๊ฐ€ ํ•ด๋‹น ํ‚คํฌ์ธํŠธ์— ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ๊ฑฐ๋ฆฌ์— ๋ฐ˜๋น„๋ก€ํ•˜๋Š” ๋ณด์ƒ์„ ์ค€๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋‘ ์†๊ฐ€๋ฝ ๋ ์œ„์น˜ \mathbf{p}_L, \mathbf{p}_R ์— ๋Œ€ํ•ด ๋ณ‘์ฒด์™€ ๋šœ๊ป‘ ์œ„์˜ ๋„ค ๊ฐœ์˜ ํ‚คํฌ์ธํŠธ \left\{\mathbf{k}_i\right\} ์™€ \left\{\mathbf{k}_j\right\} ์ค‘ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฒƒ๊ณผ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜์—ฌ ๋ณด์ƒ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด ๋ณด์ƒ์ด ํด์ˆ˜๋ก ์†๊ฐ€๋ฝ์ด ๋ณ‘๋šœ๊ป‘์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์›€์ผœ์ฅ˜ ์ˆ˜ ์žˆ๋‹ค.

์…‹์งธ, ์ž์„ธ ๋ณด์ƒ(Pose Reward)์€ ๋ณ‘์˜ ์ฃผ์š” ์ถ•์ด ํŠน์ • ๋ฐฉํ–ฅ(์˜ˆ: ์ˆ˜์ง)์— ์ •๋ ฌ๋˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. ์ถ”๊ฐ€๋กœ, ๋ถˆํ•„์š”ํ•œ ํฐ ํ–‰๋™์„ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•ด ์ž‘์—…(work)๊ณผ ํ–‰๋™(action) ํฌ๊ธฐ ํŒจ๋„ํ‹ฐ๋ฅผ ๋„์ž…ํ–ˆ๋‹ค. ์ด๋“ค์„ ๊ฐ€์ค‘ํ•ฉํ•˜์—ฌ ์ „์ฒด ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ๊ตฌ์„ฑ๋œ๋‹ค. ์‹คํ—˜์—์„œ ํ‚คํฌ์ธํŠธ ์ ‘์ด‰ ๋ณด์ƒ์ด ์ œ๊ฑฐ๋˜๊ฑฐ๋‚˜ ์•ฝํ™”๋˜๋ฉด ํ•™์Šต ํšจ์œจ๊ณผ ์ตœ์ข… ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋Š”๋ฐ , ์ด๋Š” ์ด ๋ณด์ƒ์ด ๋ณต์žกํ•œ ๋‘ ์† ์กฐ์ž‘ ๋™์ž‘์—์„œ ์›ํ•˜๋Š” ์ž์„ธ ํƒ์ƒ‰์„ ๊ฐ•๋ ฅํžˆ ์œ ๋„ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.

์„œ๋กœ ๋‹ค๋ฅธ ๋ณด์ƒ ์„ค๊ณ„์— ๋”ฐ๋ฅธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ–‰๋™ ์˜ˆ์‹œ. ์ฒซ์งธ ์ค„(โ€œOurs 100% Contact Rewardโ€)์€ ํ‚คํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์ ‘์ด‰ ๋ณด์ƒ์ด ์ถฉ๋ถ„ํžˆ ์ฃผ์–ด์กŒ์„ ๋•Œ์˜ ์•ˆ์ •์ ์ด๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ทธ๋ฆฝ๊ณผ ๋น„ํ‹€๊ธฐ ๋ชจ์Šต์ด๋‹ค. ๋‘˜์งธ ์ค„(โ€œGait Constraint Rewardโ€)์€ ๊ธฐ์กด ์†๊ฐ€๋ฝ ๋ณดํ–‰ ํŒจํ„ด ์ œ์•ฝ๋งŒ์„ ์“ด ๊ฒฝ์šฐ๋กœ ์†๋™์ž‘์ด ๋ถˆ์•ˆ์ •ํ•˜๋ฉฐ ๋น„ํ‹€๋ฆผ์ด ์ œ๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค. ์…‹์งธ ์ค„(โ€œ50% Contact Rewardโ€)์€ ์ ‘์ด‰ ๋ณด์ƒ์ด ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์–ด๋“  ๊ฒฝ์šฐ๋กœ, ์žก๊ธฐ๋Š” ๋‹ค์†Œ ํ—๊ฒ๊ณ  ๋™์ž‘์ด ๋œ ๋งค๋„๋Ÿฝ๋‹ค. ์ด ์˜ˆ์‹œ๋Š” ํ‚คํฌ์ธํŠธ ๋ณด์ƒ์ด ๋‘ ์† ์กฐ์ž‘ ๋™์ž‘ ํƒ์ƒ‰์—์„œ ํ•„์ˆ˜์ ์ธ ์—ญํ• ์„ ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

์ธ์ง€ ๋ฐ ๋„๋ฉ”์ธ ๋žœ๋คํ™”

์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋Š” ์†๊ฐ€๋ฝ์ด ๋ณ‘์„ ๊ฐ€๋ฆฐ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ๋„ ๋ฌผ์ฒด ์œ„์น˜๋ฅผ ์ถ”์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ฒซ ํ”„๋ ˆ์ž„์—์„œ Segment Anything ๋ชจ๋ธ๋กœ ๋ณ‘ ๋ชธ์ฒด์™€ ๋šœ๊ป‘์˜ RGB ๋งˆ์Šคํฌ๋ฅผ ์–ป๊ณ , XMem ํŠธ๋ž˜์ปค๋กœ ์ดํ›„ ํ”„๋ ˆ์ž„์„ ์ถ”์ ํ•œ๋‹ค. ๋งˆ์Šคํฌ ์ค‘์‹ฌ์ ์˜ 2D ์ขŒํ‘œ์™€ ๊นŠ์ด(Depth) ์ธก์ •๊ฐ’์„ ๊ฒฐํ•ฉํ•ด 3D ์œ„์น˜๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ์ด ๊ทนํžˆ ํฌ์†Œํ•œ ํ‘œํ˜„(๋‘ ์  ์œ„์น˜)๋งŒ์œผ๋กœ๋„ ๋ณต์žกํ•œ ์ž‘์—…์ด ๊ฐ€๋Šฅํ•จ์„ ์‹คํ—˜์ ์œผ๋กœ ํ™•์ธํ–ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜๊ณผ ์‹ค์ œ ํ™˜๊ฒฝ ์ฐจ์ด๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ ๋žœ๋คํ™”๋ฅผ ์ ์šฉํ–ˆ๋‹ค. ๋ณ‘ ์งˆ๋Ÿ‰, ๋งˆ์ฐฐ ๊ณ„์ˆ˜, ํฌ๊ธฐ, ๋ชจ์–‘, ์ดˆ๊ธฐ ์œ„์น˜/์ž์„ธ, ๋กœ๋ด‡ ๊ด€์ ˆ ๋งˆ์ฐฐ, PD ์ด๋“, ๊ด€์ธก ๋…ธ์ด์ฆˆ, ํ”„๋ ˆ์ž„/์•ก์…˜ ์ง€์—ฐ ๋“ฑ ์—ฌ๋Ÿฌ ๋ฌผ๋ฆฌ์ ยท๋น„๋ฌผ๋ฆฌ์  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ๋ณ€ํ™”์‹œ์ผฐ๋‹ค. ๋˜ํ•œ, ๋žœ๋ค ์™ธ๋ถ€ ํž˜์„ ์ฃผ๊ธฐ์ ์œผ๋กœ ๊ฐ์ฒด์— ๊ฐ€ํ•ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์— ์—†๋Š” ๋™์ž‘์„ ๋ชจ๋ธ๋งํ–ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋žœ๋คํ™”๋Š” ์ œ๋กœ์ƒท ์ „์ด ์„ฑ๊ณต์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ๋‹ค.

์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‹คํ—˜

์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ณ‘ ๋ชจ์–‘(์ฃผ๋กœ ์‹ค๋ฆฐ๋”)์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋‘ ๊ฐ€์ง€ ์‹คํ—˜ ๊ตฌ์„ฑ์„ ๋‘์—ˆ๋‹ค: โ‘ ๋‹จ์ผ ๊ฐ์ฒด ํ•™์Šต(single-object, ์ค‘๊ฐ„ ํฌ๊ธฐ)๊ณผ โ‘ก ๋‹ค์ค‘ ๊ฐ์ฒด ํ•™์Šต(multi-object, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ).

์„ฑ๋Šฅ ํ‰๊ฐ€์ง€ํ‘œ๋กœ๋Š” ๊ฐ๋„ ๋ณ€์œ„(Angular Displacement, AD)์™€ ์‹คํŒจ ์‹œ๊ฐ„(Time-to-Fail, TTF)์„ ์‚ฌ์šฉํ–ˆ๋‹ค. AD๋Š” ํ•œ ์‹คํ—˜ ๋™์•ˆ ๋šœ๊ป‘์ด ํšŒ์ „ํ•œ ์ด๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , TTF๋Š” ๋ณ‘์ด ๋–จ์–ด์ง€๊ธฐ ์ „๊นŒ์ง€ ์ง€์†๋œ ์‹œ๊ฐ„์„ ์ธก์ •ํ•œ๋‹ค.

  • ์ฒซ์งธ, ๋ณด์ƒ ์„ค๊ณ„์˜ ์˜ํ–ฅ์„ ๋ถ„์„ํ–ˆ๋‹ค. ํ‚คํฌ์ธํŠธ ์ ‘์ด‰ ๋ณด์ƒ์„ ์ค„์ธ ์ •์ฑ…(โ€œReduced Contact Rewardโ€)์€ ๋น„ํ‹€๊ธฐ ๋Šฅ๋ ฅ์„ ์ „ํ˜€ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๊ณ  ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์—ˆ๋‹ค. ๋ณด์ƒ ๊ฐ•๋„์™€ ํ•™์Šต ํšจ์œจ ๋ฐ ์ตœ์ข… AD ์ ์ˆ˜๋Š” ์–‘์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์—ˆ์œผ๋ฉฐ, ์ ‘์ด‰ ๋ณด์ƒ์ด ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์œผ๋ฉด RL์˜ ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ์ง€๋‚˜์น˜๊ฒŒ ์ปค์ ธ ํ•™์Šต์ด ์‹คํŒจํ•œ๋‹ค.
  • ๋‘˜์งธ, ์‹œ๊ฐ ์ •๋ณด์˜ ์œ ๋ฌด๋ฅผ ๋น„๊ตํ–ˆ๋‹ค. ์‹œ๊ฐ ์ž…๋ ฅ ์—†์ด(๋‹จ์ง€ ๊ด€์ ˆ ์ •๋ณด๋งŒ์œผ๋กœ) ํ•™์Šตํ•œ ์ •์ฑ…(No-Vis baseline)์€, ๋‹จ์ผ/๋‹ค์ค‘ ๊ฐ์ฒด ๋ชจ๋‘์—์„œ ์šฐ๋ฆฌ ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋‚ฎ์€ AD๋ฅผ ๋ณด์˜€๋‹ค. ์ด๋Š” ๋ณ‘์˜ ์œ„์น˜ ์ •๋ณด๋ฅผ ๊ฐ„์ ‘์ ์œผ๋กœ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ด€์ ˆ๋งŒ ๋ณด๋Š” ๊ฒƒ์œผ๋ก  ์ด ๋ณต์žกํ•œ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋ฐ˜๋ฉด ๋ณธ ์ •์ฑ…์€ 3D ์œ„์น˜๋ฅผ ๊ด€์ธก์— ํฌํ•จ์‹œ์ผœ ์•ˆ์ •์  ๋น„ํ‹€๊ธฐ ๋™์ž‘์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.
  • ์…‹์งธ, ๋‹จ์ผ vs ๋‹ค์ค‘ ๊ฐ์ฒด ํ•™์Šต ๊ฒฐ๊ณผ๋ฅผ ์‚ดํˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ์ผ ๊ฐ์ฒด ํ•™์Šต์€ ํŠน์ • ๋ฌผ์ฒด์— ํŠนํ™”๋˜๋‚˜ ์ผ๋ฐ˜ํ™”๊ฐ€ ์–ด๋ ต๊ณ , ๋‹ค์ค‘ ๊ฐ์ฒด ํ•™์Šต์€ ์ผ๋ฐ˜ํ™”์— ์œ ๋ฆฌํ•˜๋‹ค๊ณ  ์•Œ๋ ค์ ธ ์žˆ๋‹ค. ๋†€๋ž๊ฒŒ๋„ ๋‘ ์„ค์ •์—์„œ ๋‹ค์ค‘ ๊ฐ์ฒด ํ•™์Šต์ด ๋‹จ์ผ ๊ฐ์ฒด ํ•™์Šต๋ณด๋‹ค AD๊ฐ€ ์•ฝ๊ฐ„ ๋” ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์ด๋Š” ๋‹ค์ค‘ ๊ฐ์ฒด ํ•™์Šต์ด ๋‚œ์ด๋„์— ๋”ฐ๋ฅธ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ปค๋ฆฌํ˜๋Ÿผ ํšจ๊ณผ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ํƒ์ƒ‰์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ผ ๊ฒƒ์œผ๋กœ ์ €์ž๋“ค์€ ์ถ”์ •ํ–ˆ๋‹ค.

์‹ค์ œ ์‹คํ—˜ ๋ฐ ํ‰๊ฐ€

์‹คํ—˜ ํ™˜๊ฒฝ

์‹คํ—˜์€ ๋‘ ๋Œ€์˜ Allegro ์†๊ณผ UR5e ํŒ”, ์‹ฑ๊ธ€ RealSense D435 ์นด๋ฉ”๋ผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ํ•™์Šต๋œ ์ •์ฑ…์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ œ๋กœ์ƒท์œผ๋กœ ๋ฐ”๋กœ ์ „์ด๋œ๋‹ค(์ถ”๊ฐ€์  ํ•™์Šต ์—†์Œ). ํ‰๊ฐ€ ๋Œ€์ƒ ๊ฐ์ฒด๋Š” ์ด ๋‹ค์„ฏ ์ข…์˜ ์‹คํ—˜์šฉ ๋ณ‘์œผ๋กœ, ์ด ์ค‘ ๋„ค ๊ฐœ๋Š” ํ›ˆ๋ จ ๋ถ„ํฌ์™€ ์œ ์‚ฌํ•œ ์›ํ˜• ๋ชธ์ฒด, ํ•˜๋‚˜๋Š” ๋„ค๋ชจ ๋ชธ์ฒด๋ฅผ ๊ฐ€์ง„ ๋ถ„ํฌ ์™ธ ๊ฐ์ฒด์ด๋‹ค. ๊ฐ ์ •์ฑ…๋งˆ๋‹ค 30์ดˆ์”ฉ 20ํšŒ ๋ฐ˜๋ณต ์‹คํ—˜ํ•˜์—ฌ AD์™€ TTF๋ฅผ ์ธก์ •ํ–ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ 10๊ฐœ์˜ ๋ฌด์ž‘์œ„ ์‹œ๋“œ๋กœ ํ•™์Šตํ•œ ์ •์ฑ… ์ค‘ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์ƒ์œ„ 3๊ฐœ๋ฅผ ์‚ฌ์šฉํ•ด ํ‰๊ท ์„ ๊ณ„์‚ฐํ–ˆ๋‹ค.

๋น„๊ต๊ตฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

  1. ์˜คํ”ˆ๋ฃจํ”„ ์žฌ์ƒ ์ •์ฑ…(Replay): ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์„ฑ๊ณต ๊ถค์ ์„ ๋…นํ™”ํ•ด ๊ทธ๋Œ€๋กœ ์žฌ์ƒ.
  2. ์‹œ๊ฐ ์ •๋ณด ์ œ๊ฑฐ(No-Vis): ๊ธฐ์กด ์ •์ฑ…์—์„œ ๋ณ‘ ์ •๋ณด ์ž…๋ ฅ๋งŒ ์ œ๊ฑฐ.
  3. ๋น„๋Œ€์นญํ•™์Šต ์ œ๊ฑฐ(No-Asym): ๊ฐ€์น˜ํ•จ์ˆ˜์— ํŠน๊ถŒ์ •๋ณด๋ฅผ ์ œ๊ณต ํ•˜์ง€ ์•Š๊ณ  ํ•™์Šต.
  4. ๋Œ€ํ˜• ์‹ ๊ฒฝ๋ง(Large): ๋„คํŠธ์›Œํฌ ํฌ๊ธฐ ์ฆ๊ฐ€(๊ณผ์ ํ•ฉ ๊ฒ€์ฆ์šฉ).

์‹คํ—˜ ๊ฒฐ๊ณผ

๋ณธ ์ •์ฑ…์€ ๋ชจ๋“  ์ธก์ • ์ง€ํ‘œ์—์„œ ๋‹ค๋ฅธ ๋น„๊ต๊ตฐ์„ ์••๋„์ ์œผ๋กœ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํŒŒ๋ž€ ๋ณ‘(BlueBottle)์—์„œ ๋ณธ ์ •์ฑ…์€ ํ‰๊ท  ์•ฝ 946ยฐ(โ‰ˆ2.6๋ฐ”ํ€ด)์˜ ํšŒ์ „์„ ์ˆ˜ํ–‰ํ•œ ๋ฐ˜๋ฉด, ๋‚˜๋จธ์ง€ ์ •์ฑ…์€ ๊ฑฐ์˜ 30ยฐ ์ดํ•˜์˜ ํšŒ์ „์„ ๊ธฐ๋กํ–ˆ๋‹ค. ๋˜ํ•œ TTF(ํŒŒ๋ž€๋ณ‘ ๊ธฐ์ค€)์—์„œ ๋ณธ ์ •์ฑ…์€ ์•ฝ 23.7์ดˆ ๋™์•ˆ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜์—ˆ์œผ๋‚˜, ๋‹ค๋ฅธ ์ •์ฑ…์€ ๋Œ€๋ถ€๋ถ„ 7์ดˆ ์ดํ•˜์—์„œ ๋ณ‘์ด ๋–จ์–ด์กŒ๋‹ค. ์˜คํ”ˆ๋ฃจํ”„ ์žฌ์ƒ ์ •์ฑ…์€ ๊ฑฐ์˜ ๋ณ‘์„ ๋–จ์–ดํŠธ๋ฆฌ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋Š”๋ฐ, ์ด๋Š” ๋ฏธ์„ธํ•œ ์ ‘์ด‰ ์‹œ์ ์—์„œ ์ •์ฑ…์˜ ์ •๋ฐ€์„ฑ์ด ์—†์œผ๋ฉด ๋ณ‘์ด ์†๊ฐ€๋ฝ์„ ๊ตด๋Ÿฌ๋–จ์–ด์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. ํŠนํžˆ, ๋Œ€ํ˜• ๋„คํŠธ์›Œํฌ(Large)๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ๋Š” ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ ์‹ค์„ธ๊ณ„์—์„  ์‹คํŒจํ•ด, ๊ณผ์ ํ•ฉ์˜ ์œ„ํ—˜์„ฑ์„ ์‹œ์‚ฌํ–ˆ๋‹ค.

์ผ๋ฐ˜ํ™” ๋ฐ ๊ฐ•์ธ์„ฑ

์ถ”๊ฐ€๋กœ ์ €์ž๋“ค์€ ์‹ค์ œ ์ƒํ™œ์šฉ ๋ณ‘(์ฃผ๋ฅ˜๋ณ‘, ๋•…์ฝฉ๋ฒ„ํ„ฐ ๋“ฑ) 10๊ฐœ๋ฅผ ํ…Œ์ŠคํŠธํ•ด ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™”๋ ฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. ์ด๋“ค ๋ฌผ์ฒด๋Š” ๋ชจ์–‘ยทํฌ๊ธฐยท์žฌ์งˆยท์งˆ๋Ÿ‰์ด ๋ชจ๋‘ ๋‹ฌ๋ž๊ณ , ์‹ค์ œ๋กœ ๋Œ€๋ถ€๋ถ„์€ ๋šœ๊ป‘์ด ๋‚˜์‚ฌ์ฒ˜๋Ÿผ ์ž ๊ธฐ์ง€ ์•Š๋Š” ๊ตฌ์กฐ์˜€๋‹ค. ์„ฑ๊ณต ๊ธฐ์ค€์„ โ€™๋šœ๊ป‘์ด ์™„์ „ํžˆ ๋ถ„๋ฆฌ๋˜๋Š” ๊ฒƒโ€™์œผ๋กœ ์‚ผ์•˜์„ ๋•Œ, ๋ณธ ์ •์ฑ…์€ ์•ฝ 30% ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๋ณธ ์ •์ฑ…์ด ํ›ˆ๋ จ ํ™˜๊ฒฝ๊ณผ ๊ฝค ๋‹ค๋ฅธ ์ƒํ™ฉ์—์„œ๋„ ์ œํ•œ์ ์œผ๋กœ ๋น„ํ‹€๊ธฐ ๊ธฐ์ˆ ์„ ์ „์ดํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋˜ํ•œ ์ •์ฑ…์˜ ์™ธ๋ž€ ๊ฐ•์ธ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด, ์‹คํ—˜ ์ค‘ ์ž„์˜ ์‹œ๊ฐ„์— ์ง‘๊ฒŒ๋กœ ๋ฌผ์ฒด๋ฅผ ๋ฐ€๊ฑฐ๋‚˜ ๊ฑด๋“œ๋ ค ํž˜์„ ๊ฐ€ํ–ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ์ •์ฑ…์€ ๋ณ‘์„ ์žฌ์ค‘์‹ฌ์œผ๋กœ ์ด๋™์‹œํ‚ค๊ณ  ๋น„ํ‹€๊ธฐ๋ฅผ ๊ณ„์†ํ•˜์—ฌ ์™ธ๋ž€์— ๋Œ€ํ•œ ์ ์‘๋ ฅ์„ ํ™•์ธํ–ˆ๋‹ค. ์ด ์‹คํ—˜์—์„œ๋Š” ๋งˆ์ปค ๊ธฐ๋ฐ˜ ๊ฐ์ฒด ์ถ”์ (์ฐฉ์šฉ ๋งˆ์ปค)์ด ์‚ฌ์šฉ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” ์‹œ๊ฐ์  ๋งˆ์Šคํฌ ์ถ”์ข…๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•จ์ด๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์€ ์™ธ๋ถ€ ํž˜์„ ๊ฐ€ํ•˜๋Š” ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

ํ•™์Šต๋œ ์ •์ฑ…์ด ์™ธ๋ถ€ ํž˜์— ์˜ํ•ด ๋ณ‘์ด ํ”๋“ค๋ฆด ๋•Œ์˜ ๋ชจ์Šต. ์ƒ๋‹จ ์™ผ์ชฝ๋ถ€ํ„ฐ ์‹œ๊ณ„๋ฐฉํ–ฅ์œผ๋กœ, ์ง‘๊ฒŒ๋ฅผ ์ด์šฉํ•ด ๋‹ค์–‘ํ•œ ๋ฐฉํ–ฅ์—์„œ ํž˜์„ ๊ฐ€ํ–ˆ๋‹ค. ์ •์ฑ…์€ ํž˜์„ ๋ฐ›์€ ๋’ค์—๋„ ์†๊ฐ€๋ฝ์˜ ๊ทธ๋ฆฝ๊ณผ ์ž์„ธ๋ฅผ ์กฐ์ ˆํ•˜์—ฌ ๋ณ‘์„ ๋‹ค์‹œ ์ค‘์‹ฌ์œผ๋กœ ์žก์•„์˜ฌ๋ ธ์œผ๋ฉฐ, ๋น„ํ‹€๊ธฐ๋ฅผ ์ง€์†ํ–ˆ๋‹ค. ์ด๋Š” ํ•™์Šต๋œ ์ •์ฑ…์ด ์˜ˆ๊ธฐ์น˜ ์•Š์€ ์™ธ๋ž€์—๋„ ์ผ๋ถ€๋ถ„ ์ ์‘ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

ํ•œ๊ณ„ ๋ฐ ๋น„ํŒ์  ๊ณ ์ฐฐ

์ด ์‹œ์Šคํ…œ์€ ๋ณต์žกํ•œ ์ƒ์ž๋‚˜ ๋‚ฎ์€ ์ •ํ™•๋„์˜ ๊ฐ์ฒด ์ธ์‹์ด ํ•„์š”ํ•œ ์ƒํ™ฉ์—๋Š” ์•„์ง ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค. ๋จผ์ €, ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์„ค๊ณ„ํ•ด์•ผ ํ–ˆ๋Š”๋ฐ, ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์ถ”๊ฐ€์ ์ธ ๋ฌด์ž‘์œ„์„ฑ์ด๋‚˜ ์˜ˆ์™ธ ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•˜๋ฉด ์ •์ฑ…์˜ ๋™์ž‘์ด ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ๊ฐ์ฒด ๋ถ„ํ• ๊ณผ ์ถ”์ ์„ ์œ„ํ•ด ํ•™์Šต๋œ ๋ชจ๋ธ(SAM, XMem)์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋‚˜, ์ด๋“ค์€ ๋šœ๊ป‘ ๋ถ„๋ฆฌ ์‹œ ์ถ”์  ๋ชฉํ‘œ๊ฐ€ ๋ณ€๊ฒฝ๋˜๋Š” ๋“ฑ ์ œํ•œ๋œ ๊ฒฝ์šฐ์˜ ์ˆ˜์— ์˜์กดํ•œ๋‹ค. ํ•™์Šต์— ์†Œ์š”๋œ ๊ณ„์‚ฐ๋Ÿ‰๊ณผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ-์‹ค์‹œ๊ฐ„ ๊ฐ„ ๋„๋ฉ”์ธ ๊ฐญ๋„ ์—ฌ์ „ํžˆ ๊ณ ๋ ค ์‚ฌํ•ญ์ด๋‹ค. ๊ทธ๋Ÿผ์—๋„ ์ด ์—ฐ๊ตฌ๋Š” ์ด์ค‘ ๋‹ค๊ด€์ ˆ ์†์„ ์‚ฌ์šฉํ•œ ๋ณต์žกํ•œ ์กฐ์ž‘ ๋™์ž‘์„ RL๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€ ์ฒซ ์‚ฌ๋ก€๋ผ๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ํฌ๋‹ค. ๊ธฐ์กด์˜ ๋กœ๋ด‡ ํŒ” 2๊ฐœ๋ฅผ ์ด์šฉํ•œ ์ž‘์—…์—์„œ ๊ฐ„๋‹จํ•œ ๊ทธ๋ฆฌํผ๋ฅผ ์“ด ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ด๋“ค์€ ๊ณ ์ฐจ์› ์†๊ฐ€๋ฝ ์ œ์–ด ๊ณต๊ฐ„์—์„œ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋ฏธ๋ฌ˜ํ•œ ๋™์ž‘ ํŒจํ„ด์„ ํ•™์Šตํ–ˆ๋‹ค๋Š” ์ ์—์„œ ํฐ ์ง„์ „์ด๋‹ค. ํŠนํžˆ, ํŠน์ • ๊ฐ์ฒด ๋ชจ๋ธ์„ ์•Œ ํ•„์š” ์—†์ด ๋‹ค์–‘ํ•œ ๋ณ‘์— ์ผ๋ฐ˜ํ™”๋œ ์ •์ฑ…์„ ์–ป์—ˆ๋‹ค๋Š” ์ ์€ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์—ฌ์ค€๋‹ค.

๊ฒฐ๋ก 

Lin ๋“ฑ์€ ๋‘ ์†์„ ์‚ฌ์šฉํ•˜๋Š” ๋ณ‘๋šœ๊ป‘ ๋น„ํ‹€๊ธฐ ์ž‘์—…์— ๋Œ€ํ•˜์—ฌ, ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง(๋ธŒ๋ ˆ์ดํฌ ๋งํฌ), ํฌ์†Œํ•œ ์ธ์ง€ ์ž…๋ ฅ(๋ถ„ํ•  ๋งˆ์Šคํฌ ์ค‘์‹ฌ) ๋ฐ ์ •๊ตํ•œ ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ๊ฒฐํ•ฉํ•œ ๋”ฅ RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ๋‹ค. ์ด๋กœ์จ ๋ณต์žกํ•œ ์ด์ค‘ ์† ์กฐ์ž‘ ๊ณผ์ œ๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•ด ์‹ค์„ธ๊ณ„๋กœ ์ด์ „ํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆํ•˜์˜€์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ํ…Œ์ŠคํŠธ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ๊ณผ ๊ฐ•์ธ์„ฑ์„ ๋ณด์˜€๋‹ค. ์•ž์œผ๋กœ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ์€ ๋” ๋งŽ์€ ๋ณต์žก ์กฐ์ž‘ ๊ณผ์ œ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ฉฐ, ์ธ๊ฐ„ ์ˆ˜์ž‘์—… ์‹œ์—ฐ ์—†์ด๋„ ๋‹ค๊ด€์ ˆ ๋กœ๋ด‡์ด ์ฐฝ์˜์  ์กฐ์ž‘์„ ํ„ฐ๋“ํ•˜๋Š” ๊ธธ์„ ์—ด์–ด์ค„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

Copyright 2024, Jung Yeon Lee