Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก : ๋กœ๋ด‡ ํ•™์Šต์˜ ๊ทผ๋ณธ์  ๋”œ๋ ˆ๋งˆ
    • ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์™œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š”๊ฐ€?
      • ์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ ํ•™์Šต์˜ ํ•œ๊ณ„
      • ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋”œ๋ ˆ๋งˆ
    • FISH์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด: 2๋‹จ๊ณ„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ
      • Phase 1: ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…(Non-parametric Base Policy) ํ•™์Šต
      • Phase 2: ์ž”์ฐจ ์ •์ฑ…(Residual Policy)์„ ํ†ตํ•œ ์˜จ๋ผ์ธ ์˜คํ”„์…‹ ํ•™์Šต
    • ์ตœ์  ์šด์†ก(Optimal Transport) ๊ธฐ๋ฐ˜ ๋ณด์ƒ ๊ณ„์‚ฐ
      • ์ตœ์  ์šด์†ก์˜ ์ง๊ด€์  ์ดํ•ด
      • ์šด์†ก ๊ณ„ํš๊ณผ ๋ณด์ƒ ๊ณ„์‚ฐ
      • ํ‘œํ˜„ ํ•™์Šต์„ ํ†ตํ•œ OT ์•ˆ์ •ํ™”
    • ์œ ๋„๋œ ํƒ์ƒ‰: ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ์˜ ํšจ์œจ์  ํ•™์Šต
    • ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ์˜ ์‹คํ—˜ ๊ฒ€์ฆ
      • ์‹คํ—˜ ํ”Œ๋žซํผ
      • ๋น„๊ต ์•Œ๊ณ ๋ฆฌ์ฆ˜
      • ์ฃผ์š” ๊ฒฐ๊ณผ
    • ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ถ„์„
      • ์ƒˆ๋กœ์šด ๊ฐ์ฒด ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”
      • ์ƒˆ๋กœ์šด ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”
    • ์‹ฌ์ธต ์–ด๋ธ”๋ ˆ์ด์…˜ ์—ฐ๊ตฌ
      • ๊ธฐ๋ฐ˜ ์ •์ฑ… ์„ ํƒ์˜ ์˜ํ–ฅ
      • ์‚ฌ์ „ํ•™์Šต ์ธ์ฝ”๋”์˜ ์˜ํ–ฅ
      • ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ์˜ ์˜ํ–ฅ
      • ์ ์‘์  ์ •๊ทœํ™”์˜ (๋ถ€์ •์ ) ์˜ํ–ฅ
    • ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ
      • ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜
      • ๊ฐ•ํ™”ํ•™์Šต ๋ฐฑ๋ณธ
      • ์ฃผ์š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ
    • ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 
      • ๋ชจ๋ฐฉ ํ•™์Šต ๋ถ„์•ผ์—์„œ์˜ ์œ„์น˜
      • ์ตœ์  ์šด์†ก ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉ ํ•™์Šต
      • ์ž”์ฐจ ๊ฐ•ํ™”ํ•™์Šต
    • ๋กœ๋ด‡๊ณตํ•™์  ํ•จ์˜์™€ ์‹ค์šฉ์  ๊ณ ๋ ค์‚ฌํ•ญ
      • ์‹ค์ œ ๋ฐฐํฌ ๊ด€์ 
      • ์•ˆ์ „์„ฑ ๊ณ ๋ ค
      • ํ•˜๋“œ์›จ์–ด ๋‹ค์–‘์„ฑ
    • ๊ฒฐ๋ก : ๋กœ๋ด‡ ๊ธฐ์ˆ  ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„

๐Ÿ“ƒFISH ๋ฆฌ๋ทฐ

il
rl
dexterity
Teach a Robot to FISH - Versatile Imitation from One Minute of Demonstrations
Published

December 15, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Code
  • Project
  1. โ“ FISH๋Š” 1๋ถ„ ๋ฏธ๋งŒ์˜ ์‹œ์—ฐ์œผ๋กœ ๋กœ๋ด‡์ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ๋ณ€ํ˜•์— ๊ฐ•๊ฑดํ•œ ์‹œ๊ฐ์  ๊ธฐ์ˆ ์„ ๋น ๋ฅด๊ฒŒ ๋ชจ๋ฐฉํ•˜๋„๋ก ๋•๋Š” ์ƒˆ๋กœ์šด Imitation Learning ๋ฐฉ๋ฒ•๋ก ์ž…๋‹ˆ๋‹ค.
  2. ๐Ÿค– ์ด ๋ฐฉ๋ฒ•์€ ์˜คํ”„๋ผ์ธ์—์„œ ์•ฝํ•œ base policy๋ฅผ ํ•™์Šตํ•œ ํ›„, Optimal Transport (OT) ๊ธฐ๋ฐ˜์˜ ์‹œ๊ฐ์  ๋งค์นญ ์ ์ˆ˜๋ฅผ ๋ณด์ƒ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ online residual policy๋ฅผ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.
  3. โœจ FISH๋Š” 3๊ฐ€์ง€ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ 9๊ฐ€์ง€ ํƒœ์Šคํฌ๋ฅผ ํ†ตํ•ด ํ‰๊ท  93%์˜ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ๋ฐฉ๋ฒ•๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๊ณ  ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ๊ตฌ์„ฑ์—๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ผ๋ฐ˜ํ™”๋ฉ๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

โ€œTeach a Robot to FISH: Versatile Imitation from One Minute of Demonstrationsโ€ ๋…ผ๋ฌธ์€ ์ œํ•œ๋œ ์ˆ˜์˜ ์‹œ์—ฐ(์ตœ์†Œ 1๋ถ„ ๋ถ„๋Ÿ‰, 1~3๊ฐœ ๊ถค์ )๋งŒ์œผ๋กœ ๋กœ๋ด‡์ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•œ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” FISH(Fast Imitation of Skills from Humans)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ฐฉ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ฐฉ ํ•™์Šต(IL)์€ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋‚˜ ์ˆ˜์ž‘์—…์œผ๋กœ ์ •์˜๋œ ๋ณด์ƒ ํ•จ์ˆ˜์— ์˜์กดํ•˜์—ฌ ํ™•์žฅ์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. FISH๋Š” ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ์˜จ๋ผ์ธ ์ƒํ˜ธ์ž‘์šฉ ํ•™์Šต์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๊ฐ์ฒด ๋ฐฐ์น˜์—๋„ ์ ์‘ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

FISH๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. Phase 1: ๋น„๋ชจ์ˆ˜์  ๋ฒ ์ด์Šค ์ •์ฑ…(\pi_b) ํ•™์Šต (Non-parametric base policy) ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์†Œ์ˆ˜์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ถˆ์™„์ „ํ•œ ๋ฒ ์ด์Šค ์ •์ฑ… \pi_b๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ํ™˜๊ฒฝ์—์„œ ๋›ฐ์–ด๋‚œ ๊ฐ•๊ฑด์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋น„๋ชจ์ˆ˜์ (non-parametric) ๋ฒ ์ด์Šค ์ •์ฑ…์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์—ฌ๊ธฐ์—๋Š” ๊ฐœ๋ฐฉ ๋ฃจํ”„(open-loop) ์ •์ฑ…๊ณผ VINN(Visual Imitation through Nearest Neighbors) [43]์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
    • ์‹œ๊ฐ์  ํ‘œํ˜„ ํ•™์Šต (Visual representation learning): ์‹œ๊ฐ์  ๊ด€์ธก๊ฐ’(o)์„ ์ €์ฐจ์› ํ‘œํ˜„(z)์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๊ธฐ ์œ„ํ•ด ํ–‰๋™ ๋ณต์ œ(Behavior Cloning, BC) ์ •์ฑ…์ด ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์„ ํ†ตํ•ด ํ•™์Šต๋˜๋ฉฐ, ์ด BC ์ •์ฑ…์˜ ์ธ์ฝ”๋”(f_{enc})๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„ z๋Š” ๋ฒ ์ด์Šค ์ •์ฑ… \pi_b์™€ ์ž”์—ฌ ์ •์ฑ… \pi_r ๋ชจ๋‘์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  2. Phase 2: ์ž”์—ฌ ์˜คํ”„์…‹ ํ•™์Šต๊ณผ ์ตœ์  ์ˆ˜์†ก(Optimal Transport, OT) ๊ธฐ๋ฐ˜ ๋ณด์ƒ (Online offset learning with IRL) ๋ฒ ์ด์Šค ์ •์ฑ… \pi_b๊ฐ€ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ, ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์ž”์—ฌ ์ •์ฑ… \pi_r์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์˜ ํ•ต์‹ฌ์€ ๋ช…์‹œ์ ์ธ ์ž‘์—… ๋ณด์ƒ ํ•จ์ˆ˜ ์—†์ด OT ๊ธฐ๋ฐ˜ ๊ถค์  ๋งค์นญ์„ ํ†ตํ•ด ๋ณด์ƒ์„ ํš๋“ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์ž”์—ฌ ํ•™์Šต (Residual learning): ์ตœ์ข… ์ •์ฑ… \pi_{FISH}์˜ ํ–‰๋™ a๋Š” ๋ฒ ์ด์Šค ์ •์ฑ…์˜ ํ–‰๋™ a_b \sim \pi_b(z)์™€ ์ž”์—ฌ ์ •์ฑ…์˜ ์˜คํ”„์…‹ a_r \sim \pi_r(z, a_b)์˜ ํ•ฉ์œผ๋กœ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค (a = a_b + a_r). ์ž”์—ฌ ์ •์ฑ… \pi_r์€ ์˜จ๋ผ์ธ ํ•™์Šต ์ค‘์—๋งŒ ์—…๋ฐ์ดํŠธ๋˜๋ฉฐ, ๋ฒ ์ด์Šค ์ •์ฑ…์€ ๊ณ ์ •๋œ ์ƒํƒœ๋กœ ์ฟผ๋ฆฌ๋ฉ๋‹ˆ๋‹ค.
    • OT ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์ตœ๋Œ€ํ™” (OT-based reward maximization): ๋กœ๋ด‡์˜ ๊ถค์ (T^b = \{o^b_1, ..., o^b_n\})๊ณผ ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ ๊ถค์ (T^e = \{o^e_1, ..., o^e_n\}) ๊ฐ„์˜ ์‹œ๊ฐ์  ์ผ์น˜๋„๋ฅผ ์ธก์ •ํ•˜์—ฌ ๋ณด์ƒ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๋งค์นญ ์ ์ˆ˜๋Š” OT๋ฅผ ํ†ตํ•ด ์–ป์–ด์ง€๋ฉฐ, ์ด๋Š” RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ตœ์  ์ˆ˜์†ก์€ ํ•œ ๋ถ„ํฌ๋ฅผ ๋‹ค๋ฅธ ๋ถ„ํฌ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ฐพ์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ๋Š” ์ธ์ฝ”๋”ฉ๋œ ์‹œ๊ฐ์  ํ‘œํ˜„๋“ค ์‚ฌ์ด์˜ ์ฝ”์‚ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ๋น„์šฉ ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. OT๋Š” ๋‘ ๊ถค์  ๊ฐ„์˜ ์ตœ์ ์˜ ์ „์†ก ๊ณ„ํš(\mu^*)์„ ๊ณ„์‚ฐํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œ์ ๋ณ„(per-timestep) ๋ณด์ƒ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜๋ฉ๋‹ˆ๋‹ค: r_{OT}(o^b_t) = -\sum_{t'=1}^T C_{t,t'} \mu^*_{t,t'} ์—ฌ๊ธฐ์„œ C_{t,t'}๋Š” ๋กœ๋ด‡ ๊ถค์ ์˜ t๋ฒˆ์งธ ๊ด€์ธก๊ฐ’ o^b_t์™€ ์ „๋ฌธ๊ฐ€ ๊ถค์ ์˜ t'๋ฒˆ์งธ ๊ด€์ธก๊ฐ’ o^e_{t'}์˜ ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„ ๊ฐ„์˜ ๋น„์šฉ(์ฝ”์‚ฌ์ธ ๊ฑฐ๋ฆฌ)์ด๋ฉฐ, \mu^*_{t,t'}๋Š” ์ตœ์ ์˜ ์ „์†ก ๊ณ„ํš์˜ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ์ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์€ ๋ชจ๋ฐฉ ์—์ด์ „ํŠธ๊ฐ€ ์‹œ์—ฐ ๊ถค์ ๊ณผ ๋” ์œ ์‚ฌํ•œ ๊ถค์ ์„ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.
    • ์•ˆ์ •์ ์ธ OT ๋ณด์ƒ์„ ์œ„ํ•œ ํ‘œํ˜„ ํ•™์Šต (Stabilizing OT with representation learning): ํ•™์Šต ์ค‘ ์ธ์ฝ”๋”๊ฐ€ ๋ณ€๊ฒฝ๋˜๋ฉด ๋ณด์ƒ์ด ๋น„์ •์ƒ์ ์œผ๋กœ ๋ณ€ํ•˜์—ฌ ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, BC ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„์—์„œ ์–ป์€ ์ธ์ฝ”๋”๋Š” ์˜จ๋ผ์ธ ํ•™์Šต ์ค‘ ๊ณ ์ •๋ฉ๋‹ˆ๋‹ค.
    • ์ž”์—ฌ ์ •์ฑ…์„ ์œ„ํ•œ ์œ ๋„๋œ ํƒ์ƒ‰ (Guided exploration for residual policy): ์ž”์—ฌ ์ •์ฑ…์€ ํ–‰๋™ ๊ณต๊ฐ„์˜ ํŠน์ • ๋ถ€๋ถ„์ง‘ํ•ฉ์— ๋Œ€ํ•ด์„œ๋งŒ ์˜คํ”„์…‹์„ ํ•™์Šตํ•˜๋„๋ก ์ œํ•œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํšจ์œจ์ ์ธ ์ƒ˜ํ”Œ๋ง๊ณผ ๋”๋ถˆ์–ด ๋กœ๋ด‡์ด ์›์น˜ ์•Š๋Š” ์œ„ํ—˜ํ•œ ์ž์„ธ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜์—ฌ ์•ˆ์ „ํ•œ ํƒ์ƒ‰์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

FISH๋Š” xArm, Allegro Hand, Hello Robot Stretch ๋“ฑ ์„ธ ๊ฐ€์ง€ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ 9๊ฐ€์ง€ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์— ๋Œ€ํ•ด ํ‰๊ฐ€๋˜์—ˆ์œผ๋ฉฐ, ํ‰๊ท  ์„ฑ๊ณต๋ฅ  93%๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ธฐ์กด SOTA ๋ฐฉ๋ฒ•๋ก ์ธ ROT ๋ฐ RDAC๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, FISH๋Š” ์˜จ๋ผ์ธ ํ•™์Šต์— 20๋ถ„ ๋ฏธ๋งŒ์˜ ์ƒํ˜ธ์ž‘์šฉ๋งŒ์œผ๋กœ ์‹œ์—ฐ์—์„œ ๋ณด์ง€ ๋ชปํ•œ ๊ฐ์ฒด ๊ตฌ์„ฑ์—๋„ ์ผ๋ฐ˜ํ™”๋˜๊ณ  ์ ์‘ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ž์„ธํ•œ ์–ด๋ธ”๋ ˆ์ด์…˜ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ๊ณ ์ •๋œ ์ธ์ฝ”๋”์˜ ์ค‘์š”์„ฑ, ์ž”์—ฌ ์ •์ฑ…์˜ ์œ ๋„๋œ ํƒ์ƒ‰์˜ ์ด์ , ๊ทธ๋ฆฌ๊ณ  ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ๋น„๋ชจ์ˆ˜์  ๋ฒ ์ด์Šค ์ •์ฑ…์˜ ์šฐ์ˆ˜์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

๐ŸŸ FISH: 1๋ถ„์˜ ์‹œ์—ฐ๋งŒ์œผ๋กœ ๋กœ๋ด‡์—๊ฒŒ ๊ธฐ์ˆ ์„ ๊ฐ€๋ฅด์น˜๋‹ค RSS 2023 Best Student Paper Award ์ˆ˜์ƒ์ž‘ ์‹ฌ์ธต ๋ถ„์„

์„œ๋ก : ๋กœ๋ด‡ ํ•™์Šต์˜ ๊ทผ๋ณธ์  ๋”œ๋ ˆ๋งˆ

๋กœ๋ด‡๊ณตํ•™์—์„œ ๋ชจ๋ฐฉ ํ•™์Šต(Imitation Learning)์€ ๋ณต์žกํ•œ ๊ธฐ์ˆ ์„ ๋กœ๋ด‡์—๊ฒŒ ์ „์ˆ˜ํ•˜๋Š” ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ๋„๊ตฌ ์ค‘ ํ•˜๋‚˜๋กœ ์ž๋ฆฌ์žก์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜„์žฌ์˜ ๋ชจ๋ฐฉ ํ•™์Šต ๊ธฐ๋ฒ•๋“ค์€ ํ•˜๋‚˜์˜ ๊ทผ๋ณธ์ ์ธ ๋”œ๋ ˆ๋งˆ์— ์ง๋ฉดํ•ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•œ ์ •์ฑ…(robust policy)์„ ํ•™์Šตํ•˜๋ ค๋ฉด ์ˆ˜๋ฐฑ ๊ฐœ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๊ฑฐ๋‚˜, ์ •๊ตํ•˜๊ฒŒ ์„ค๊ณ„๋œ ๋ณด์ƒ ํ•จ์ˆ˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

MIME์€ ํƒœ์Šคํฌ๋‹น 400๊ฐœ์˜ ์‹œ์—ฐ์„, robomimic์€ 200๊ฐœ์˜ ์‹œ์—ฐ์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ํ˜„์‹ค์ ์œผ๋กœ ๋งค์šฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํŠน์„ฑ์ƒ ์ธ๊ฐ„ ์‹œ์—ฐ์ž์—๊ฒŒ ์‹ ์ฒด์ , ์ธ์ง€์  ๋ถ€๋‹ด์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๊ณผ์—ฐ ์†Œ๋Ÿ‰์˜ ์‹œ์—ฐ๋งŒ์œผ๋กœ๋„ ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๊ฐ•๊ฑดํ•œ ๋กœ๋ด‡ ๊ธฐ์ˆ ์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์„๊นŒ์š”?

๋ณธ ๋…ผ๋ฌธ์—์„œ NYU์˜ ์—ฐ๊ตฌํŒ€์€ ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ํš๊ธฐ์ ์ธ ํ•ด๋‹ต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. FISH(Fast Imitation of Skills from Humans)๋Š” ๋‹จ 1๋ถ„ ์ด๋‚ด์˜ ์‹œ์—ฐ(1~3๊ฐœ ๊ถค์ )๋งŒ์œผ๋กœ ์‹œ๊ฐ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๊ณ , ์‹œ์—ฐ์—์„œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๊ฐ์ฒด ๊ตฌ์„ฑ์—๋„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜์‹ ์ ์ธ ๋ชจ๋ฐฉ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.


์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ: ์™œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š”๊ฐ€?

์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ ํ•™์Šต์˜ ํ•œ๊ณ„

๊ธฐ์กด ๋ชจ๋ฐฉ ํ•™์Šต์˜ ๋Œ€ํ‘œ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์ธ ์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ(Offline Imitation)์„ ์‚ดํŽด๋ด…์‹œ๋‹ค. Behavior Cloning(BC)์ด๋‚˜ Nearest Neighbor(NN) ๊ฒ€์ƒ‰๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•๋“ค์€ ์ง€๋„ ํ•™์Šต ๋ชฉ์ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๊ด€์ธก์—์„œ ์‹œ์—ฐ๋œ ํ–‰๋™์˜ ์šฐ๋„๋ฅผ ์ตœ๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ๋ฐฐํฌ ์‹œ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ์š”์ธ(๊ฐ์ฒด ์œ„์น˜ ๋“ฑ)์— ๋Œ€ํ•ด ์ •์ฑ…์ด ์ผ๋ฐ˜ํ™”๋˜๋ ค๋ฉด, ํ•™์Šต์— ์‚ฌ์šฉ๋œ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์…‹์ด ์ด๋Ÿฌํ•œ ๋ณ€๋™ ์š”์ธ๋“ค์„ ์ถฉ๋ถ„ํžˆ ํฌ๊ด„ํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ถฉ๋ถ„ํ•œ ์ปค๋ฒ„๋ฆฌ์ง€ ์—†์ด ํ•™์Šต๋œ ์ •์ฑ…์€ ๋ฐฐํฌ ์‹œ ๋ถ„ํฌ ์ด๋™(distribution shift) ๋ฌธ์ œ๋ฅผ ๊ฒช๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ๋ณธ ์  ์—†๋Š” ์ƒํ™ฉ์— ์ฒ˜ํ•˜๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋”œ๋ ˆ๋งˆ

์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์š”๊ตฌ๋Ÿ‰์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์œ ๋งํ•œ ๋ฐฉํ–ฅ์€ ์˜คํ”„๋ผ์ธ์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ…์„ ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(RL)์œผ๋กœ ์ ์‘์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์†Œ๋Ÿ‰์˜ ์‹œ์—ฐ์œผ๋กœ ํ•™์Šต๋œ ์˜คํ”„๋ผ์ธ ์ •์ฑ…์ด ๋ฐฐํฌ ์‹œ ์‹คํŒจํ•˜๋”๋ผ๋„, ์˜จ๋ผ์ธ RL์„ ํ†ตํ•ด ์ •์ฑ…์„ ๊ฐœ์„ ํ•˜๊ณ  ๋ฐฐํฌ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ ์‘์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์ ์ธ ์งˆ๋ฌธ์ด ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ ์‘์— ํ•„์š”ํ•œ ๋ณด์ƒ์„ ์–ด๋–ป๊ฒŒ ์–ป์„ ๊ฒƒ์ธ๊ฐ€?

ํƒœ์Šคํฌ๋ณ„ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด ํ•˜๋‚˜์˜ ๊ฐ€๋Šฅ์„ฑ์ด์ง€๋งŒ, ์ด๋Š” ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ๊ฐ์ฒด ์ƒํƒœ ์ถ”์ •์ด ์–ด๋ ต๊ฑฐ๋‚˜ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„ ์ž์ฒด๊ฐ€ ๋‚œํ•ดํ•œ ๊ฒฝ์šฐ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ณ  ๋ฒ”์šฉ์ ์ธ ํ•ด๊ฒฐ์ฑ…์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.


FISH์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด: 2๋‹จ๊ณ„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ

FISH๋Š” ๋‘ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ์šฐ์•„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

Phase 1: ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…(Non-parametric Base Policy) ํ•™์Šต

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์†Œ๋Ÿ‰์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•ฝํ•œ(weak) ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์˜คํ”„๋ผ์ธ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ดํ›„ ์ ์‘์„ ์œ„ํ•œ ์œ ์šฉํ•œ ์‚ฌ์ „ ์ง€์‹(prior)์œผ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค.

์ €์ž๋“ค์ด ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์„ ํƒํ•œ ์ด์œ ๋Š” ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค. ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์ด BC์™€ ๊ฐ™์€ ๋ชจ์ˆ˜์  ๋Œ€์•ˆ๋ณด๋‹ค ๋” ๊ฐ•๊ฑดํ•˜๋‹ค๋Š” ๊ฒƒ์ด ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค์—์„œ ์ž…์ฆ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋‘ ๊ฐ€์ง€ ๋ณ€ํ˜•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Open-loop Policy: ์‹œ์—ฐ์ด ํ•˜๋‚˜์ผ ๋•Œ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ „๋ฌธ๊ฐ€๊ฐ€ ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์ˆ˜ํ–‰ํ•œ ํ–‰๋™์„ ๊ทธ๋Œ€๋กœ ๋ณต์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ฐ์ฒด์™€ ๋กœ๋ด‡์˜ ์œ„์น˜๊ฐ€ ์‹œ์—ฐ๊ณผ ์ •ํ™•ํžˆ ์ผ์น˜ํ•  ๋•Œ๋Š” ๊ฐ•๊ฑดํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๋ณ€๋™์ด ์žˆ์œผ๋ฉด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋ฉ๋‹ˆ๋‹ค.

VINN (Visual Imitation through Nearest Neighbors): ์‹œ์—ฐ์˜ ๊ฐ ์‹œ๊ฐ ๊ด€์ธก์„ ํ‘œํ˜„(representation)์œผ๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค. ๋กค์•„์›ƒ ์‹œ k-์ตœ๊ทผ์ ‘ ์ด์›ƒ(kNN) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด k๊ฐœ์˜ ๊ด€์ธก๊ณผ ๋งค์นญํ•˜๊ณ , Locally Weighted Regression(LWR)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค์นญ๋œ ๊ด€์ธก๋“ค์˜ ํ–‰๋™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ–‰๋™์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

Phase 2: ์ž”์ฐจ ์ •์ฑ…(Residual Policy)์„ ํ†ตํ•œ ์˜จ๋ผ์ธ ์˜คํ”„์…‹ ํ•™์Šต

๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๊ธฐ๋ฐ˜ ์ •์ฑ… ์œ„์— ์ž”์ฐจ ์ •์ฑ…์„ ํ•™์Šตํ•˜์—ฌ ๊ต์ • ์˜คํ”„์…‹(corrective offsets)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜จ๋ผ์ธ ์‹œํ–‰์ฐฉ์˜ค ํ•™์Šต ๋™์•ˆ ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๋ธ”๋ž™๋ฐ•์Šค ๋ชจ๋ธ๋กœ ์กฐํšŒ๋˜๊ณ , ์˜ค์ง ์ž”์ฐจ ์ •์ฑ…๋งŒ ์—…๋ฐ์ดํŠธ๋ฉ๋‹ˆ๋‹ค.

์ด ์„ค๊ณ„์˜ ํ•ต์‹ฌ์  ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ™œ์šฉ ๊ฐ€๋Šฅ: ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ๊ณ ์ •ํ•˜๊ณ  ์ž”์ฐจ๋งŒ ํ•™์Šตํ•จ์œผ๋กœ์จ, ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ์šฐ์ˆ˜ํ•˜๊ณ  ๊ฐ•๊ฑดํ•œ ๋น„๋ชจ์ˆ˜์  ์ •์ฑ…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ์•ˆ์ •์ ์ธ ํ•™์Šต: ๊ธฐ๋ฐ˜ ์ •์ฑ… ์ž์ฒด๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด โ€œ๋ง๊ฐ ๋ฌธ์ œ(forgetting problem)โ€๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž”์ฐจ ํ•™์Šต์€ ๊ธฐ๋ฐ˜ ์ •์ฑ…์˜ ์ง€์‹์„ ๋ณด์กดํ•˜๋ฉด์„œ ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.

์…‹์งธ, ์œ ๋„๋œ ํƒ์ƒ‰(Guided Exploration): ์ „์ฒด ํ–‰๋™ ๊ณต๊ฐ„ ๋Œ€์‹  ํ•„์š”ํ•œ ๋ถ€๋ถ„ ๊ณต๊ฐ„์—์„œ๋งŒ ์ž”์ฐจ๋ฅผ ํ•™์Šตํ•˜๋„๋ก ์ œํ•œํ•  ์ˆ˜ ์žˆ์–ด, ํƒ์ƒ‰ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.


์ตœ์  ์šด์†ก(Optimal Transport) ๊ธฐ๋ฐ˜ ๋ณด์ƒ ๊ณ„์‚ฐ

FISH์˜ ๋˜ ๋‹ค๋ฅธ ํ•ต์‹ฌ ํ˜์‹ ์€ ํƒœ์Šคํฌ๋ณ„ ๋ณด์ƒ ํ•จ์ˆ˜ ์—†์ด ์‹œ๊ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ณด์ƒ์„ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ตœ์  ์šด์†ก(Optimal Transport, OT) ๊ธฐ๋ฐ˜ ๊ถค์  ๋งค์นญ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ตœ์  ์šด์†ก์˜ ์ง๊ด€์  ์ดํ•ด

์ตœ์  ์šด์†ก์€ ํ•˜๋‚˜์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‹ค๋ฅธ ๋ถ„ํฌ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ตœ์ ์˜ ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ์ˆ˜ํ•™์  ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ์ด ๋งฅ๋ฝ์—์„œ๋Š” ์ „๋ฌธ๊ฐ€ ๊ถค์  T^e = \{o^e_1, ..., o^e_n\}๊ณผ ๋กœ๋ด‡ ๋กค์•„์›ƒ ๊ถค์  T^b = \{o^b_1, ..., o^b_n\} ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๊ฐ ์‹œ๊ฐ ๊ด€์ธก o^j_i๋Š” ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ €์ฐจ์› ํ‘œํ˜„ z^j_i๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค. ๋น„์šฉ ํ•จ์ˆ˜๋Š” ๋‘ ๊ถค์ ์˜ ํ‘œํ˜„๋“ค ์‚ฌ์ด์˜ ์ฝ”์‚ฌ์ธ ๊ฑฐ๋ฆฌ๋กœ ๊ณ„์‚ฐ๋˜๋ฉฐ, ๋น„์šฉ ํ–‰๋ ฌ C๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ‘œํ˜„ ์Œ๋“ค์— ๋Œ€ํ•œ ๋น„์šฉ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

์šด์†ก ๊ณ„ํš๊ณผ ๋ณด์ƒ ๊ณ„์‚ฐ

OT๋Š” T^e์™€ T^b ์‚ฌ์ด์˜ ์ตœ์  ๋งค์นญ์„ ์ฐพ๋Š” ์šด์†ก ๊ณ„ํš \mu^*๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ \mu^*_{i,j}๋Š” ์ „๋ฌธ๊ฐ€ ๊ถค์ ์˜ i๋ฒˆ์งธ ํ‘œํ˜„๊ณผ ๋กค์•„์›ƒ ๊ถค์ ์˜ j๋ฒˆ์งธ ํ‘œํ˜„ ์‚ฌ์ด์˜ ๋งค์นญ ๊ฐ•๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

๋ณด์ƒ์€ ๋‹ค์Œ ๋ฐฉ์ •์‹์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค:

r_{OT}(T^b) = -\sum_{t,t'=1}^{T} C_{t,t'} \mu^*_{t,t'}

์ง๊ด€์ ์œผ๋กœ, ์ด ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด ๋ชจ๋ฐฉ ์—์ด์ „ํŠธ๊ฐ€ ์‹œ์—ฐ๋œ ๊ถค์ ์— ๋” ๊ฐ€๊นŒ์šด ๊ถค์ ์„ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ ๊ณ„์‚ฐ์—์„œ๋Š” ํšจ์œจ์„ฑ์„ ์œ„ํ•ด Sinkhorn ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•œ ๊ทผ์‚ฌ ํ•ด๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

ํ‘œํ˜„ ํ•™์Šต์„ ํ†ตํ•œ OT ์•ˆ์ •ํ™”

OT ๋ณด์ƒ์€ ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋˜๋ฏ€๋กœ, ํ•™์Šต ์ค‘ ์ธ์ฝ”๋”๊ฐ€ ๋ณ€ํ•˜๋ฉด ๋ณด์ƒ์ด ๋น„์ •์ƒ์ (non-stationary)์ด ๋˜์–ด ํ•™์Šต ๋ถˆ์•ˆ์ •์„ฑ์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. FISH๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ BC ์ธ์ฝ”๋”๋ฅผ ๊ณ ์ •ํ•˜๊ณ , ์ด ๊ณ ์ •๋œ ์ธ์ฝ”๋”์˜ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ OT ๋ณด์ƒ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.


์œ ๋„๋œ ํƒ์ƒ‰: ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ์˜ ํšจ์œจ์  ํ•™์Šต

FISH์˜ ๋˜ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋Š” ์œ ๋„๋œ ํƒ์ƒ‰(Guided Exploration) ๊ฐœ๋…์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, ์ž”์ฐจ ์ •์ฑ…์„ ํ†ตํ•œ ์˜คํ”„์…‹ ์ ์šฉ์€ ํƒ์ƒ‰ ๊ณผ์ •์— ๋„๋ฉ”์ธ ์ง€์‹์„ ์ฃผ์ž…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, Allegro Hand์™€ ๊ฐ™์€ 16์ฐจ์› ๊ด€์ ˆ ๊ณต๊ฐ„์„ ๊ฐ€์ง„ ๋‹ค์ง€ ๋กœ๋ด‡ ํ•ธ๋“œ์—์„œ ๋ชจ๋“  ์ฐจ์›์— ๋Œ€ํ•ด ํƒ์ƒ‰ํ•˜๋ฉด ์˜จ๋ผ์ธ ํ•™์Šต์ด ๋น„ํšจ์œจ์ ์ด ๋ฉ๋‹ˆ๋‹ค. FISH๋Š” ๊ธฐ๋ฐ˜ ์ •์ฑ… ์„ฑ๋Šฅ์— ๋”ฐ๋ผ ์ผ๋ถ€ ์ฐจ์›์—์„œ๋งŒ ์ž”์ฐจ๋ฅผ ์ ์šฉํ•˜๊ณ  ๋‚˜๋จธ์ง€ ์ฐจ์›์—์„œ๋Š” ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ €์ž๋“ค์€ ์„ธ ๊ฐ€์ง€ ์ˆ˜์ค€์˜ ์œ ๋„๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

Guided: ์˜ค์ง Z์ถ•์„ ๋”ฐ๋ผ์„œ๋งŒ ํƒ์ƒ‰
Semi-guided: XYZ ์„ธ ์ถ•์„ ๋”ฐ๋ผ ํƒ์ƒ‰
Unguided: XYZ ์ถ•๊ณผ roll-pitch-yaw ๋ชจ๋‘์—์„œ ํƒ์ƒ‰

์‹คํ—˜ ๊ฒฐ๊ณผ, ์œ ๋„๋œ ํƒ์ƒ‰์ด ์ œ์•ฝ ์—†๋Š” ๋Œ€์•ˆ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๊ณ  ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ๋ฟ ์•„๋‹ˆ๋ผ, ์ž”์ฐจ๋ฅผ ์ œํ•œํ•จ์œผ๋กœ์จ ๋กœ๋ด‡์ด ๋ฐ”๋žŒ์งํ•˜์ง€ ์•Š์€ ์œ„์น˜๋กœ ๊ฐ€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜์—ฌ ์˜จ๋ผ์ธ ํ•™์Šต ์ค‘ ๋” ์•ˆ์ „ํ•œ ํƒ์ƒ‰์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.


๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ์˜ ์‹คํ—˜ ๊ฒ€์ฆ

FISH์˜ ๋ฒ”์šฉ์„ฑ์„ ์ž…์ฆํ•˜๊ธฐ ์œ„ํ•ด ์ €์ž๋“ค์€ ์„ธ ๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ˜•ํƒœ(morphology), ์นด๋ฉ”๋ผ ๊ตฌ์„ฑ, ๊ทธ๋ฆฌํผ ์œ ํ˜•์— ๊ฑธ์ณ 9๊ฐœ์˜ ํƒœ์Šคํฌ์—์„œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ํ”Œ๋žซํผ

Ufactory xArm 7: ๋‘ ์†๊ฐ€๋ฝ ๊ทธ๋ฆฌํผ๋ฅผ ์žฅ์ฐฉํ•œ 7์ž์œ ๋„ ๋กœ๋ด‡ ํŒ”. ๊ณ ์ •๋œ ์™ธ๋ถ€ ์นด๋ฉ”๋ผ์—์„œ RGB ์ด๋ฏธ์ง€๋ฅผ ๊ด€์ธก์œผ๋กœ ์‚ฌ์šฉ. VINN์„ ๊ธฐ๋ฐ˜ ์ •์ฑ…์œผ๋กœ ์‚ฌ์šฉ.

์ˆ˜ํ–‰ ํƒœ์Šคํฌ: - Key Insertion (์—ด์‡  ์‚ฝ์ž…): 1๊ฐœ ์‹œ์—ฐ - Bagel Flipping (๋ฒ ์ด๊ธ€ ๋’ค์ง‘๊ธฐ): 2๊ฐœ ์‹œ์—ฐ
- Peg in a Cup (์ปต์— ๋ง‰๋Œ€ ์‚ฝ์ž…): 3๊ฐœ ์‹œ์—ฐ

Allegro Hand: 16์ฐจ์› ๊ด€์ ˆ ๊ณต๊ฐ„์„ ๊ฐ€์ง„ 4์†๊ฐ€๋ฝ ๋กœ๋ด‡ ํ•ธ๋“œ. ๊ณ ์ •๋œ ์™ธ๋ถ€ ์นด๋ฉ”๋ผ ์‚ฌ์šฉ. VR ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์‹œ์—ฐ ์ˆ˜์ง‘. Open-loop ์ •์ฑ…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉ.

์ˆ˜ํ–‰ ํƒœ์Šคํฌ: - Cube Flipping (ํ๋ธŒ ๋’ค์ง‘๊ธฐ): 1๊ฐœ ์‹œ์—ฐ - Bottle Cap Spinning (๋ณ‘๋šœ๊ป‘ ๋Œ๋ฆฌ๊ธฐ): 1๊ฐœ ์‹œ์—ฐ - Dollar Bill Picking (์ง€ํ ์ง‘๊ธฐ): 1๊ฐœ ์‹œ์—ฐ

Hello Robot Stretch: ์ด๋™ํ˜• ๋ชจ๋ฐ”์ผ ๋กœ๋ด‡. ๋กœ๋ด‡ ๊ทธ๋ฆฌํผ์— ๋ถ€์ฐฉ๋œ ์ž๊ธฐ์ค‘์‹ฌ์ (egocentric) ์นด๋ฉ”๋ผ ์‚ฌ์šฉ (๋กœ๋ด‡ ์ด๋™์— ๋”ฐ๋ผ ์‹œ์  ๋ณ€ํ™”). Open-loop ์ •์ฑ…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉ.

์ˆ˜ํ–‰ ํƒœ์Šคํฌ: - Door Opening (๋ฌธ ์—ด๊ธฐ): 1๊ฐœ ์‹œ์—ฐ - Drawer Opening (์„œ๋ž ์—ด๊ธฐ): 1๊ฐœ ์‹œ์—ฐ - Light Switching (์กฐ๋ช… ์Šค์œ„์น˜): 1๊ฐœ ์‹œ์—ฐ

๋น„๊ต ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ €์ž๋“ค์€ FISH๋ฅผ ๋‹ค์Œ ๊ธฐ์ค€์„ ๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

์˜คํ”„๋ผ์ธ ๋ฐฉ๋ฒ•๋“ค: - Open-loop: ์ „๋ฌธ๊ฐ€ ํ–‰๋™์„ ์ง์ ‘ ๋ณต์‚ฌ - BC: Behavior Cloning์œผ๋กœ ํ•™์Šต๋œ ์ •์ฑ… - VINN: k-NN ๊ธฐ๋ฐ˜ ์‹œ๊ฐ ๋ชจ๋ฐฉ

์˜จ๋ผ์ธ ๋ฐฉ๋ฒ•๋“ค: - ROT: BC ์‚ฌ์ „ํ•™์Šต ์ •์ฑ…์„ OT ๊ธฐ๋ฐ˜ ์˜จ๋ผ์ธ ํ•™์Šต์œผ๋กœ ํŒŒ์ธํŠœ๋‹ - RDAC: ์ ๋Œ€์  ๋ชจ๋ฐฉ ํ•™์Šต ๋ฐฉ๋ฒ•์ธ DAC์— ROT ์Šคํƒ€์ผ ์ •๊ทœํ™” ์ ์šฉ

์ฃผ์š” ๊ฒฐ๊ณผ

FISH๋Š” ๋ชจ๋“  9๊ฐœ ํƒœ์Šคํฌ์—์„œ 93%์˜ ํ‰๊ท  ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ๊ธฐ์กด ์ตœ์‹  ๋ฐฉ๋ฒ•๋“ค ๋Œ€๋น„ 3.8๋ฐฐ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ• Door Drawer Light Cube Cap Bill Peg Bagel Key ํ‰๊ท 
Open-loop 0.2 0.2 0.2 0.1 0.0 0.2 0.1 0.1 0.3 0.16
VINN BC 0.2 0.2 0.2 0.1 0.0 0.1 0.3 0.3 0.3 0.19
BC 0.2 0.0 0.0 0.0 0.0 0.0 0.5 0.3 0.3 0.14
ROT 0.0 0.0 0.6 0.0 0.0 0.0 0.5 0.5 0.6 0.24
RDAC 0.0 0.0 0.0 0.0 0.0 0.0 0.4 0.0 0.0 0.04
FISH 1.0 1.0 1.0 1.0 1.0 0.8 0.9 0.9 0.8 0.93

ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, BC์˜ ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ ์ทจ์•ฝ์„ฑ: Allegro Hand์—์„œ BC๊ฐ€ ์™„์ „ํžˆ ์‹คํŒจ(0%)ํ•œ ๊ฒƒ์€ ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„๊ณผ ์ œํ•œ๋œ ์‹œ์—ฐ์˜ ์กฐํ•ฉ์ด ๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์— ์น˜๋ช…์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ… ์‚ฌ์šฉ์˜ ์ •๋‹น์„ฑ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

๋‘˜์งธ, ROT ๋Œ€๋น„ ์šฐ์ˆ˜์„ฑ: FISH๋Š” BC ์ •์ฑ…์„ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ROT๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ๊ณ ์ •ํ•˜๋Š” ๊ฒƒ์ด ์˜จ๋ผ์ธ ํŒŒ์ธํŠœ๋‹ ์ค‘ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์šฐ์›”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. BC ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ROT์—๋„ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๋ฐ˜๋ฉด, FISH๋Š” ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ํ™œ์šฉํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํšŒํ”ผํ•ฉ๋‹ˆ๋‹ค.


์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ถ„์„

์ƒˆ๋กœ์šด ๊ฐ์ฒด ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”

FISH์˜ ํ•ต์‹ฌ ๊ฐ•์  ์ค‘ ํ•˜๋‚˜๋Š” ์‹œ์—ฐ์—์„œ ๋ณด์ง€ ๋ชปํ•œ ๊ฐ์ฒด ์œ„์น˜์™€ ๋กœ๋ด‡ ์ดˆ๊ธฐํ™”์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ๊ฐ ํƒœ์Šคํฌ์—์„œ ์‹œ์—ฐ์ด ์ˆ˜์ง‘๋œ ์œ„์น˜(ร—๋กœ ํ‘œ์‹œ)์™€ FISH๊ฐ€ ์„ฑ๊ณต(๋…น์ƒ‰) ๋˜๋Š” ์‹คํŒจ(๋นจ๊ฐ„์ƒ‰)ํ•œ ์œ„์น˜๋ฅผ ์‹œ๊ฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” FISH๊ฐ€ ์‹œ์—ฐ ์œ„์น˜๋ฅผ ๋„˜์–ด ์ƒ๋‹นํžˆ ๋„“์€ ์˜์—ญ์—์„œ ์„ฑ๊ณต์ ์œผ๋กœ ์ž‘๋™ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ์‹œ์—ฐ์„ ์•”๊ธฐํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, OT ๊ธฐ๋ฐ˜ ๋งค์นญ์ด ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™ ์ ์‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ƒˆ๋กœ์šด ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”

๋” ๋†€๋ผ์šด ๊ฒƒ์€ FISH๊ฐ€ ์‹œ๊ฐ์ , ๋™์  ์†์„ฑ์ด ๋‹ค๋ฅธ ์ƒˆ๋กœ์šด ๊ฐ์ฒด์—๋„ ์ผ๋ฐ˜ํ™”๋œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

Bagel Flipping ํƒœ์Šคํฌ: ๋ฒ ์ด๊ธ€๋กœ ์‹œ์—ฐํ–ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ๋นต(plain bagel, everything bagel, croissant ๋“ฑ)์—์„œ๋„ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ flatbread์ฒ˜๋Ÿผ ๋ฒ ์ด๊ธ€๋ณด๋‹ค ํ›จ์”ฌ ๋ถ€๋“œ๋Ÿฌ์›Œ ๋‹ค๋ฅธ ๋’ค์ง‘๊ธฐ ์ „๋žต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ์—๋Š” ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค.

Dollar Bill Picking ํƒœ์Šคํฌ: 1๋‹ฌ๋Ÿฌ ์ง€ํ๋กœ ์‹œ์—ฐํ–ˆ์ง€๋งŒ, ๋‹ค๋ฅธ ํ™”ํ(5๋‹ฌ๋Ÿฌ, 10๋‹ฌ๋Ÿฌ)์™€ ์นด๋“œ(์‹ ์šฉ์นด๋“œ, ํ•™์ƒ์ฆ)์—์„œ๋„ ์ž‘๋™ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ง€๊ฐ‘์ฒ˜๋Ÿผ ๋” ๋‘๊ป๊ณ  ๋ถˆ๊ท ์ผํ•œ ๊ฐ์ฒด์—์„œ๋Š” ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” FISH๊ฐ€ ์‹œ๊ฐ์  ๋งค์นญ์„ ํ†ตํ•ด ์–ด๋А ์ •๋„์˜ ๊ฐ์ฒด ์ผ๋ฐ˜ํ™”๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฌผ๋ฆฌ์  ์†์„ฑ์˜ ๊ทน๋‹จ์  ๋ณ€ํ™”์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


์‹ฌ์ธต ์–ด๋ธ”๋ ˆ์ด์…˜ ์—ฐ๊ตฌ

์ €์ž๋“ค์€ FISH์˜ ๊ฐ ์„ค๊ณ„ ๊ฒฐ์ •์˜ ์ค‘์š”์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์–ด๋ธ”๋ ˆ์ด์…˜์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ๋ฐ˜ ์ •์ฑ… ์„ ํƒ์˜ ์˜ํ–ฅ

๋ฐฉ๋ฒ• Bagel Flipping Dollar Bill Picking
IRL Scratch (๊ธฐ๋ฐ˜ ์ •์ฑ… ์—†์Œ) 0.0 0.0
Open-loop 0.1 0.8
BC 0.7 0.0
VINN (ImageNet) 0.0 0.0
VINN (BYOL) 0.0 0.0
VINN (BC Encoder) 0.9 -

์ด ๊ฒฐ๊ณผ์—์„œ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ํ†ต์ฐฐ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ์‚ฌ์ „ํ•™์Šต ์—†๋Š” OT ๊ธฐ๋ฐ˜ IRL์€ ์ž‘๋™ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ œํ•œ๋œ ํ™˜๊ฒฝ ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•™์Šต์ด ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

๋‘˜์งธ, ์ž๊ธฐ์ง€๋„ ํ•™์Šต(SSL) ๋ฐฉ๋ฒ•์€ ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ํšจ๊ณผ์ ์ด์ง€ ์•Š์Šต๋‹ˆ๋‹ค. BYOL๋กœ ํŒŒ์ธํŠœ๋‹๋œ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•œ VINN์€ ์‹คํŒจํ–ˆ์Šต๋‹ˆ๋‹ค.

์…‹์งธ, ์ ์ ˆํ•œ BC ์ •์ฑ…์ด ์žˆ์„ ๋•Œ FISH๊ฐ€ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ VINN๊ณผ ๊ฐ™์€ ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด ๋ชจ์ˆ˜์  ๋Œ€์•ˆ๋ณด๋‹ค ์ „๋ฐ˜์ ์œผ๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์‚ฌ์ „ํ•™์Šต ์ธ์ฝ”๋”์˜ ์˜ํ–ฅ

์ธ์ฝ”๋” Bagel Flipping Dollar Bill Picking
ImageNet 0.0 0.0
R3M 0.0 0.1
MVP 0.3 0.0
BC 0.9 0.8

๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ์ธ์ฝ”๋”๋“ค(ImageNet, R3M, MVP)์ด ์ด ํ™˜๊ฒฝ์—์„œ ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์€ ์ฃผ๋ชฉํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค. ์ธํ„ฐ๋„ท ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ํ‘œํ˜„์ด ํŠน์ • ๋กœ๋ด‡ ํƒœ์Šคํฌ์— ์ž˜ ์ „์ด๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ๋„ ๋„๋ฉ”์ธ ๋‚ด(in-domain) ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ํ‘œํ˜„์ด ๋Œ€๋Ÿ‰์˜ ๋„๋ฉ”์ธ ์™ธ(out-of-domain) ๋ฐ์ดํ„ฐ๋ณด๋‹ค ๋‚˜์„ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ์˜ ์˜ํ–ฅ

์ธ์ฝ”๋” ๊ณ ์ • ๊ธฐ๋ฐ˜ ํ–‰๋™ ์กฐ๊ฑดํ™” Bagel Flipping Dollar Bill Picking
โœ“ ร— 0.6 0.1
ร— โœ“ 0.9 0.0
โœ“ โœ“ 0.9 0.8

๋‘ ๊ฐ€์ง€ ๊ธฐ๋ฒ• ๋ชจ๋‘ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ธ์ฝ”๋”๋ฅผ ๊ณ ์ •ํ•˜๋ฉด OT ๋ณด์ƒ์ด ์•ˆ์ •ํ™”๋˜๊ณ , ๊ธฐ๋ฐ˜ ํ–‰๋™์— ์กฐ๊ฑดํ™”ํ•˜๋ฉด ์ž”์ฐจ ์ •์ฑ…์ด ๊ธฐ๋ฐ˜ ์ •์ฑ…๊ณผ ํšจ๊ณผ์ ์œผ๋กœ ํ˜‘๋ ฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ ์‘์  ์ •๊ทœํ™”์˜ (๋ถ€์ •์ ) ์˜ํ–ฅ

ROT์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„ ์ €์ž๋“ค์€ ์ž”์ฐจ๊ฐ€ 0์— ๊ฐ€๊น๊ฒŒ ์œ ์ง€๋˜๋„๋ก ์ ์‘์ ์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋Š” ๊ฒƒ์„ ์‹œ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œ์ผฐ์Šต๋‹ˆ๋‹ค(0.9 โ†’ 0.4). ์ด๋Ÿฌํ•œ ์ •๊ทœํ™”๊ฐ€ ์ž”์ฐจ๋ฅผ ๋„ˆ๋ฌด ์ž‘์€ ๊ฐ’์œผ๋กœ ๋งŒ๋“ค์–ด ๊ธฐ๋ฐ˜ ์ •์ฑ…์— ๋Œ€ํ•œ ์˜๋ฏธ ์žˆ๋Š” ๊ฐœ์„ ์„ ์ƒ์„ฑํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.


๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ

๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜

์ธ์ฝ”๋”: 84ร—84 ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ 512์ฐจ์› ์ถœ๋ ฅ ์ƒ์„ฑ. 4๊ฐœ์˜ ํ•ฉ์„ฑ๊ณฑ ๋ ˆ์ด์–ด์™€ 1๊ฐœ์˜ ์„ ํ˜• ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ.

์•กํ„ฐ: ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„๊ณผ ๊ธฐ๋ฐ˜ ์ •์ฑ…์˜ ํ–‰๋™์„ ์ž…๋ ฅ๋ฐ›์•„ 3๊ฐœ์˜ ์„ ํ˜• ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ ํ–‰๋™ ์ถœ๋ ฅ.

ํฌ๋ฆฌํ‹ฑ: ์ธ์ฝ”๋”ฉ๋œ ํ‘œํ˜„, ๊ธฐ๋ฐ˜ ์ •์ฑ… ํ–‰๋™, ์ž”์ฐจ ํ–‰๋™์„ ์ž…๋ ฅ๋ฐ›์•„ 3๊ฐœ์˜ ์„ ํ˜• ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์ณ Q-๊ฐ’ ์ถœ๋ ฅ.

๊ฐ•ํ™”ํ•™์Šต ๋ฐฑ๋ณธ

์ €์ž๋“ค์€ n-step DDPG๋ฅผ RL ์ตœ์ ํ™”๊ธฐ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ์ •์  ์•กํ„ฐ๋Š” Deterministic Policy Gradients(DPG)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋˜๊ณ , ํฌ๋ฆฌํ‹ฑ์€ ํƒ€๊นƒ ๊ฐ’์˜ ๊ณผ๋Œ€์ถ”์ • ํŽธํ–ฅ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด clipped double Q-learning์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ

  • ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ ํฌ๊ธฐ: 5000
  • ํ•™์Šต๋ฅ : 1e-4
  • ํ• ์ธ ๊ณ„์ˆ˜ ฮณ: 0.99
  • n-step returns: 3
  • ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ํฌ๊ธฐ: 256
  • ์—์ด์ „ํŠธ ์—…๋ฐ์ดํŠธ ๋นˆ๋„: 2
  • ์‹œ๋“œ ํ”„๋ ˆ์ž„: 260 (xArm, Stretch), 200 (Allegro Hand)
  • ๋ณด์ƒ ์Šค์ผ€์ผ ํŒฉํ„ฐ: 10

ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ FISH์˜ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„๋ฅผ ์†”์งํ•˜๊ฒŒ ์ธ์ •ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ์ „๋ฌธ๊ฐ€ ์˜์กด์„ฑ: OT ๊ธฐ๋ฐ˜ ๋ณด์ƒ์ด ์—์ด์ „ํŠธ๋ฅผ ์‹œ์—ฐ๊ณผ ์ •๋ ฌ์‹œํ‚ค๋ฏ€๋กœ, ์‹œ์—ฐ์ž๊ฐ€ โ€™์ „๋ฌธ๊ฐ€โ€™์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋น„์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์ด๋‚˜ ์ฐจ์„ ์˜ ์‹œ์—ฐ์—์„œ๋Š” ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ์‹œ๊ฐ ์‹ ํ˜ธ ์˜์กด์„ฑ: ์ˆœ์ˆ˜ํ•˜๊ฒŒ ์‹œ๊ฐ ๋„๋ฉ”์ธ์—์„œ ์ž‘๋™ํ•˜๋ฏ€๋กœ, ์‹œ๊ฐ ์‹ ํ˜ธ๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง€์ง€ ์•Š์€ ์ •๋ฐ€ํ•œ ํƒœ์Šคํฌ(์˜ˆ: ์ด๋ฏธ์ง€์˜ ์ž‘์€ ๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•˜๋Š” ์—ด์‡  ๊ตฌ๋ฉ)์—์„œ๋Š” ์–ด๋ ค์›€์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด‰๊ฐ ์„ผ์‹ฑ๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ํ†ตํ•ฉํ•˜๋ฉด ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์…‹์งธ, ์ž”์ฐจ ์ •์ฑ… ์ดˆ๊ธฐํ™”: ํ˜„์žฌ ์ž”์ฐจ ์ •์ฑ…์€ ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋ฉ๋‹ˆ๋‹ค. ์ž”์ฐจ ์ •์ฑ…์„ ์‚ฌ์ „ํ•™์Šตํ•˜๋ฉด ๋” ์ •๋ฐ€ํ•œ ์ œ์–ด๊ฐ€ ํ•„์š”ํ•œ ์–ด๋ ค์šด ํƒœ์Šคํฌ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ์ฐจ๋ณ„์ 

๋ชจ๋ฐฉ ํ•™์Šต ๋ถ„์•ผ์—์„œ์˜ ์œ„์น˜

FISH๋Š” ์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ๊ณผ ์˜จ๋ผ์ธ ์ ์‘์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ˆœ์ˆ˜ BC๋Š” ๋ถ„ํฌ ์™ธ ์ƒ˜ํ”Œ์—์„œ ์ทจ์•ฝํ•˜์—ฌ ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์— ๋ถ€์ ํ•ฉํ•˜๊ณ , ์ˆœ์ˆ˜ IRL์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค. FISH๋Š” ๋น„๋ชจ์ˆ˜์  ์˜คํ”„๋ผ์ธ ๋ชจ๋ฐฉ์œผ๋กœ ๊ฐ•๊ฑดํ•œ ์‹œ์ž‘์ ์„ ์ œ๊ณตํ•˜๊ณ , OT ๊ธฐ๋ฐ˜ ์˜จ๋ผ์ธ ํ•™์Šต์œผ๋กœ ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.

์ตœ์  ์šด์†ก ๊ธฐ๋ฐ˜ ๋ชจ๋ฐฉ ํ•™์Šต

OT ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•๋“ค(SIL, PWIL, GDTW-IL, GWIL)์ด ์กด์žฌํ•˜์ง€๋งŒ, FISH๋Š” ์ด๋ฅผ ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ… ๋ฐ ์ž”์ฐจ ํ•™์Šต๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ €๋ฐ์ดํ„ฐ ์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ์˜ ํšจ๊ณผ์„ฑ์„ ์ตœ์ดˆ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ž”์ฐจ ๊ฐ•ํ™”ํ•™์Šต

๊ธฐ์กด ์ž”์ฐจ RL ์—ฐ๊ตฌ๋“ค์€ ์†์œผ๋กœ ์„ค๊ณ„๋œ ์ปจํŠธ๋กค๋Ÿฌ๋‚˜ ์‹œ์—ฐ์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ํƒœ์Šคํฌ๋ณ„ ๋ณด์ƒ์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค. FISH๋Š” OT ๋งค์นญ์„ ํ†ตํ•ด ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ๋ณด์ƒ์„ ์ถ”๋ก ํ•˜์—ฌ ์ด ์š”๊ตฌ์‚ฌํ•ญ์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค.


๋กœ๋ด‡๊ณตํ•™์  ํ•จ์˜์™€ ์‹ค์šฉ์  ๊ณ ๋ ค์‚ฌํ•ญ

์‹ค์ œ ๋ฐฐํฌ ๊ด€์ 

FISH์˜ ๊ฐ€์žฅ ๋งค๋ ฅ์ ์ธ ์ธก๋ฉด์€ ์‹ค์šฉ์„ฑ์ž…๋‹ˆ๋‹ค. 1๋ถ„์˜ ์‹œ์—ฐ๊ณผ 20๋ถ„์˜ ์˜จ๋ผ์ธ ํ•™์Šต์œผ๋กœ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ๊ฐ€๋ฅด์น  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ์‚ฐ์—… ํ˜„์žฅ์—์„œ์˜ ๋น ๋ฅธ ์žฌ๋ฐฐ์น˜์™€ ์ ์‘์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์•ˆ์ „์„ฑ ๊ณ ๋ ค

์œ ๋„๋œ ํƒ์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋‹จ์ˆœํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„˜์–ด ์•ˆ์ „์„ฑ ์ธก๋ฉด์—์„œ๋„ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์˜ ๋ถ€๋ก์—์„œ ์ €์ž๋“ค์€ ROT๋ฅผ ์‚ฌ์šฉํ•œ Allegro Hand ํ•™์Šต ์ค‘ ๋ชจ๋“  ์ฐจ์›์—์„œ ํƒ์ƒ‰ํ•  ๋•Œ ์†๊ฐ€๋ฝ ์ถฉ๋Œ๊ณผ ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ์ž์„ธ๊ฐ€ ๋ฐœ์ƒํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์œ ๋„๋œ ํƒ์ƒ‰์€ ์ด๋Ÿฌํ•œ ์œ„ํ—˜์„ ์™„ํ™”ํ•ฉ๋‹ˆ๋‹ค.

ํ•˜๋“œ์›จ์–ด ๋‹ค์–‘์„ฑ

์„ธ ๊ฐ€์ง€ ๋งค์šฐ ๋‹ค๋ฅธ ๋กœ๋ด‡ ํ”Œ๋žซํผ(๊ณ ์ • ํŒ”, ๋‹ค์ง€ ์†, ์ด๋™ ๋กœ๋ด‡)๊ณผ ์นด๋ฉ”๋ผ ๊ตฌ์„ฑ(third-person, eye-in-hand)์—์„œ์˜ ์„ฑ๊ณต์€ FISH๊ฐ€ ํŠน์ • ํ•˜๋“œ์›จ์–ด ์„ค์ •์— ๊ตญํ•œ๋˜์ง€ ์•Š์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


๊ฒฐ๋ก : ๋กœ๋ด‡ ๊ธฐ์ˆ  ํ•™์Šต์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„

FISH๋Š” ๋กœ๋ด‡ ๋ชจ๋ฐฉ ํ•™์Šต ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๋ฅผ ์„ธ์› ์Šต๋‹ˆ๋‹ค. โ€œ๋กœ๋ด‡์—๊ฒŒ ๋ฌผ๊ณ ๊ธฐ ์žก๋Š” ๋ฒ•์„ ๊ฐ€๋ฅด์น˜๋ฉด ํ‰์ƒ์„ ๋จน์—ฌ ์‚ด๋ฆด ์ˆ˜ ์žˆ๋‹คโ€๋Š” ์†๋‹ด์„ ํ˜„์‹คํ™”ํ•œ ์ด ์—ฐ๊ตฌ๋Š”, ์†Œ๋Ÿ‰์˜ ์‹œ์—ฐ์œผ๋กœ ๊ฐ•๊ฑดํ•˜๊ณ  ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ๊ธฐ์ˆ ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ๋ฅผ ์š”์•ฝํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ๋น„๋ชจ์ˆ˜์  ๊ธฐ๋ฐ˜ ์ •์ฑ…๊ณผ ์ž”์ฐจ ํ•™์Šต์˜ ๊ฒฐํ•ฉ: ์ €๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์˜ ๊ฐ•๊ฑด์„ฑ๊ณผ ์˜จ๋ผ์ธ RL์˜ ์ ์‘๋ ฅ์„ ๋™์‹œ์— ํ™œ์šฉ.

๋‘˜์งธ, OT ๊ธฐ๋ฐ˜ ๋ณด์ƒ ์ถ”๋ก : ํƒœ์Šคํฌ๋ณ„ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„ ์—†์ด ์‹œ๊ฐ ๊ถค์  ๋งค์นญ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ํ•™์Šต ์‹ ํ˜ธ ์ƒ์„ฑ.

์…‹์งธ, ์œ ๋„๋œ ํƒ์ƒ‰: ๋„๋ฉ”์ธ ์ง€์‹์„ ํ™œ์šฉํ•œ ํšจ์œจ์ ์ด๊ณ  ์•ˆ์ „ํ•œ ํƒ์ƒ‰.

๋„ท์งธ, ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ”Œ๋žซํผ์—์„œ์˜ ๊ฒ€์ฆ: ๋ฒ”์šฉ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ ์ž…์ฆ.

FISH๋Š” RSS 2023 Best Student Paper Award๋ฅผ ์ˆ˜์ƒํ•˜๋ฉฐ ๊ทธ ๊ฐ€์น˜๋ฅผ ์ธ์ •๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ๋กœ๋ด‡์ด ๋น ๋ฅด๊ฒŒ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ์Šต๋“ํ•˜๊ณ  ๋ณ€ํ™”ํ•˜๋Š” ํ™˜๊ฒฝ์— ์ ์‘ํ•ด์•ผ ํ•˜๋Š” ๋ฏธ๋ž˜๋ฅผ ํ–ฅํ•œ ์ค‘์š”ํ•œ ๋ฐœ๊ฑธ์Œ์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ก  ํ•œ๊ณ„์ ์ด ์กด์žฌํ•˜์ง€๋งŒ, ์ €์ž๋“ค์ด ์ œ์‹œํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ํ†ต์ฐฐ์€ ํ›„์† ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ๊ฒฌ๊ณ ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์•ž์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์„ผ์‹ฑ ํ†ตํ•ฉ, ์ž”์ฐจ ์ •์ฑ… ์‚ฌ์ „ํ•™์Šต, ๋น„์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ ์ฒ˜๋ฆฌ ๋“ฑ์˜ ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ๋ฐœ์ „ํ•œ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ์ง„์ •์œผ๋กœ โ€œ๋น ๋ฅด๊ฒŒ ํ•™์Šตํ•˜๋Š”โ€ ๋กœ๋ด‡์˜ ์‹œ๋Œ€์— ํ•œ ๊ฑธ์Œ ๋” ๋‹ค๊ฐ€๊ฐˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee