Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
  • SAM 3: Segment Anything with Concepts
    • ๋กœ๋ด‡๊ณตํ•™์ž๋ฅผ ์œ„ํ•œ ์‹ฌ์ธต ๊ธฐ์ˆ  ๋ฆฌ๋ทฐ
    • 1. ์„œ๋ก : ์™œ SAM 3์ธ๊ฐ€?
    • 2. SAM ์‹œ๋ฆฌ์ฆˆ์˜ ์ง„ํ™”: SAM โ†’ SAM 2 โ†’ SAM 3
      • 2.1 SAM (2023): ํ”„๋กฌํ”„ํ„ฐ๋ธ” ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์‹œ์ž‘
      • 2.2 SAM 2 (2024): ๋น„๋””์˜ค๋กœ์˜ ํ™•์žฅ
      • 2.3 SAM 3 (2025): ๊ฐœ๋… ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์™„์„ฑ
    • 3. Promptable Concept Segmentation (PCS) ํƒœ์Šคํฌ ์ •์˜
      • 3.1 ํ”„๋กฌํ”„ํŠธ ์œ ํ˜•
      • 3.2 ๋ชจํ˜ธ์„ฑ(Ambiguity) ๋ฌธ์ œ
    • 4. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: ํƒ์ง€๊ธฐ์™€ ์ถ”์ ๊ธฐ์˜ ํ†ตํ•ฉ
      • 4.1 Perception Encoder (PE) ๋ฐฑ๋ณธ
      • 4.2 Detector ์•„ํ‚คํ…์ฒ˜
      • 4.3 Presence Token: ์ธ์‹๊ณผ ์œ„์น˜ํ™”์˜ ๋ถ„๋ฆฌ
      • 4.4 Tracker์™€ ๋น„๋””์˜ค ์•„ํ‚คํ…์ฒ˜
    • 5. Data Engine: ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ์–ด๋…ธํ…Œ์ด์…˜ ์‹œ์Šคํ…œ
      • 5.1 ๊ธฐ์กด ์ ‘๊ทผ๋ฒ• ๋Œ€๋น„ ํ˜์‹ ์ 
      • 5.2 ๋ฐ์ดํ„ฐ ์—”์ง„ ๊ตฌ์„ฑ์š”์†Œ
      • 5.3 4๋‹จ๊ณ„ ๊ฐœ๋ฐœ ๊ณผ์ •
      • 5.4 ์ตœ์ข… ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ
    • 6. SA-Co ๋ฒค์น˜๋งˆํฌ: ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๊ธฐ์ค€
      • 6.1 ๋ฒค์น˜๋งˆํฌ ๋ถ„ํ• 
      • 6.2 ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ
    • 7. ์‹คํ—˜ ๊ฒฐ๊ณผ: ๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ
      • 7.1 ์ด๋ฏธ์ง€ PCS (ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ)
      • 7.2 Few-Shot ์ ์‘
      • 7.3 ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ
      • 7.4 ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ PCS
      • 7.5 ๊ฐ์ฒด ์นด์šดํŒ…
      • 7.6 ๋น„๋””์˜ค PCS
      • 7.7 Promptable Visual Segmentation (PVS)
      • 7.8 SAM 3 Agent
    • 8. Ablation Study: ํ•ต์‹ฌ ์„ค๊ณ„ ๊ฒฐ์ •์˜ ์˜ํ–ฅ
      • 8.1 Presence Token ํšจ๊ณผ
      • 8.2 Hard Negative ํšจ๊ณผ
      • 8.3 ๋ฐ์ดํ„ฐ ์œ ํ˜•๋ณ„ ํšจ๊ณผ
      • 8.4 AI ๊ฒ€์ฆ๊ธฐ ํšจ๊ณผ
      • 8.5 ๋„๋ฉ”์ธ ์ ์‘
    • 9. ๋กœ๋ด‡๊ณตํ•™์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ
      • 9.1 ๋กœ๋ด‡ Manipulation์—์„œ์˜ ํ™œ์šฉ
      • 9.2 ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์—์„œ์˜ ํ™œ์šฉ
      • 9.3 ์ž์œจ ์ด๋™ ๋กœ๋ด‡์—์„œ์˜ ํ™œ์šฉ
      • 9.4 ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์–ด๋…ธํ…Œ์ด์…˜
      • 9.5 SAM 3 Agent์™€ LLM ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์‹œ์Šคํ…œ
    • 10. ์ถ”๋ก  ์„ฑ๋Šฅ ๋ฐ ํšจ์œจ์„ฑ
    • 11. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
      • 11.1 ํ˜„์žฌ ํ•œ๊ณ„์ 
      • 11.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ
    • 12. ๊ฒฐ๋ก 
  • โ›๏ธ Dig Review
  • SAM3: Segment Anything with Concepts ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ
    • ์„œ๋ก  (Introduction)
    • ๋ณธ๋ก  (Main Body)
      • SAM ์‹œ๋ฆฌ์ฆˆ์˜ ๋ฐœ์ „: SAM๋ถ€ํ„ฐ SAM3๊นŒ์ง€
      • SAM3์˜ ์•„ํ‚คํ…์ฒ˜ ๋ถ„์„ (Architecture of SAM3)
      • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์—”์ง„๊ณผ SA-Co ๋ฐ์ดํ„ฐ์…‹
      • ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ์„ฑ๋Šฅ ๋น„๊ต (Results and Performance)
      • ๋กœ๋ด‡๊ณตํ•™ ๋ถ„์•ผ์—์„œ์˜ ์‘์šฉ ๋ฐ ์˜ํ–ฅ
    • ๊ฒฐ๋ก  (Conclusion)

๐Ÿ“ƒSAM 3 ๋ฆฌ๋ทฐ

sam3
segment-anything
Segment Anything with Concepts
Published

November 21, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Homepage
  • Code
  1. ๐Ÿ’ก SAM 3์€ ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ์™€ ๊ฐ™์€ ๊ฐœ๋… ํ”„๋กฌํ”„ํŠธ(concept prompts)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค์—์„œ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€, ๋ถ„ํ•  ๋ฐ ์ถ”์ ํ•˜๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ์„ ์ œ์‹œํ•˜๋ฉฐ, ์ด๋Š” ๊ธฐ์กด SAM ์‹œ๋ฆฌ์ฆˆ์˜ PVS(Promptable Visual Segmentation)์—์„œ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ๋ถ„ํ• ํ•˜๋Š” PCS(Promptable Concept Segmentation)๋กœ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
  2. โš™๏ธ ์ด๋ฅผ ์œ„ํ•ด, SAM 3์€ ์ด๋ฏธ์ง€ detector์™€ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ๋น„๋””์˜ค tracker๊ฐ€ ๋‹จ์ผ ๋ฐฑ๋ณธ์„ ๊ณต์œ ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ์ธ์‹๊ณผ ์œ„์น˜ ํŒŒ์•…์„ ๋ถ„๋ฆฌํ•˜๋Š” presence head๋ฅผ ๋„์ž…ํ–ˆ์œผ๋ฉฐ, AI annotator์™€ AI verifier๋ฅผ ํ™œ์šฉํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์—”์ง„์œผ๋กœ 4๋ฐฑ๋งŒ ๊ฐœ์˜ ๊ณ ์œ  ๊ฐœ๋… ๋ ˆ์ด๋ธ”์„ ์ƒ์„ฑํ•˜์—ฌ ๋ชจ๋ธ ํ•™์Šต์— ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  3. ๐Ÿš€ ๊ฒฐ๊ณผ์ ์œผ๋กœ SAM 3๋Š” ์ƒˆ๋กœ์šด SA-Co ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค PCS ์ •ํ™•๋„๋ฅผ ๋‘ ๋ฐฐ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , PVS ๊ธฐ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ์–ธ์–ด ์ฟผ๋ฆฌ๋ฅผ ์œ„ํ•ด MLLM๊ณผ ๊ฒฐํ•ฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

SAM 3๋Š” ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค์—์„œ Promptable Concept Segmentation (PCS)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋ฅผ ๋„์ž…ํ•˜๋ฉฐ ๊ฐ์ฒด ๊ฐ์ง€, ๋ถ„ํ•  ๋ฐ ์ถ”์ ์„ ํ†ตํ•ฉํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. PCS๋Š” โ€œyellow school busโ€์™€ ๊ฐ™์€ ์งง์€ ๋ช…์‚ฌ๊ตฌ, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ, ๋˜๋Š” ์ด ๋‘˜์˜ ์กฐํ•ฉ์œผ๋กœ ๊ฐœ๋… ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ฐ›์•„ ํ•ด๋‹น ๊ฐœ๋…๊ณผ ์ผ์น˜ํ•˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด ์ธ์Šคํ„ด์Šค์— ๋Œ€ํ•œ ๋ถ„ํ•  ๋งˆ์Šคํฌ์™€ ๊ณ ์œ  ID๋ฅผ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ SAM ๋ฐ SAM 2์˜ Promptable Visual Segmentation (PVS)์ด ์ , ๋ฐ•์Šค ๋˜๋Š” ๋งˆ์Šคํฌ๋ฅผ ํ†ตํ•ด ๋‹จ์ผ ๊ฐ์ฒด๋ฅผ ๋ถ„ํ• ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์ฃผ์–ด์ง„ ๊ฐœ๋…์˜ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ์ฐพ๊ณ  ๋ถ„ํ• ํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ํƒœ์Šคํฌ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.

1. Promptable Concept Segmentation (PCS) ํƒœ์Šคํฌ ์ •์˜:

PCS ํƒœ์Šคํฌ๋Š” ์ด๋ฏธ์ง€ ๋˜๋Š” ์งง์€ ๋น„๋””์˜ค(30์ดˆ ์ดํ•˜)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์งง์€ ํ…์ŠคํŠธ ๊ตฌ๋ฌธ, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ๋˜๋Š” ์ด ๋‘˜์˜ ์กฐํ•ฉ์œผ๋กœ ์ง€์ •๋œ ์‹œ๊ฐ์  ๊ฐœ๋…์˜ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ๊ฐ์ง€, ๋ถ„ํ•  ๋ฐ ์ถ”์ ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋Š” ๋ช…์‚ฌ์™€ ์„ ํƒ์  ์ˆ˜์‹์–ด๋กœ ๊ตฌ์„ฑ๋œ ๋‹จ์ˆœํ•œ ๋ช…์‚ฌ๊ตฌ๋กœ ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋Š” ๊ฐœ๋ณ„ ํ”„๋ ˆ์ž„์— ๊ธ์ • ๋˜๋Š” ๋ถ€์ • ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋กœ ์ œ๊ณต๋˜์–ด ๋Œ€์ƒ ๋งˆ์Šคํฌ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ํƒœ์Šคํฌ๋Š” ๋‹ค์˜์–ด(โ€œmouseโ€), ์ฃผ๊ด€์  ์„ค๋ช…(โ€œcozyโ€), ๋ชจํ˜ธํ•˜๊ฑฐ๋‚˜ ๋ฌธ๋งฅ ์˜์กด์ ์ธ ๊ตฌ๋ฌธ, ๊ฒฝ๊ณ„ ๋ชจํ˜ธ์„ฑ ๋“ฑ ๋ณธ์งˆ์ ์ธ ๋ชจํ˜ธ์„ฑ์„ ๋‚ดํฌํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, SAM 3๋Š” ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ „๋žต์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

2. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜:

SAM 3๋Š” SAM 2์˜ ์ผ๋ฐ˜ํ™”๋œ ํ˜•ํƒœ๋กœ, ์ƒˆ๋กœ์šด PCS ํƒœ์Šคํฌ์™€ ๊ธฐ์กด PVS ํƒœ์Šคํฌ๋ฅผ ๋ชจ๋‘ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๊ณต์œ  ๋น„์ „ ์ธ์ฝ”๋”(Perception Encoder, PE)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒ€์ถœ๊ธฐ(detector)์™€ ์ถ”์ ๊ธฐ(tracker)์ž…๋‹ˆ๋‹ค.

  • ๊ฒ€์ถœ๊ธฐ (Detector) ์•„ํ‚คํ…์ฒ˜:
    • ์ž…๋ ฅ ์ธ์ฝ”๋”ฉ: ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋Š” PE์— ์˜ํ•ด ์ธ์ฝ”๋”ฉ๋˜๋ฉฐ, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ๋ณ„๋„์˜ ์˜ˆ์‹œ ์ธ์ฝ”๋”(exemplar encoder)๊ฐ€ ์ด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋“ค์„ ํ†ตํ‹€์–ด โ€œํ”„๋กฌํ”„ํŠธ ํ† ํฐ(prompt tokens)โ€์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
    • ํ“จ์ „ ์ธ์ฝ”๋” (Fusion Encoder): ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ ๋‚˜์˜จ ์กฐ๊ฑดํ™”๋˜์ง€ ์•Š์€ ์ž„๋ฒ ๋”ฉ์„ ๋ฐ›์•„ ํ”„๋กฌํ”„ํŠธ ํ† ํฐ์— ๋Œ€ํ•œ ๊ต์ฐจ ์–ดํ…์…˜์„ ํ†ตํ•ด ์กฐ๊ฑดํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋””์ฝ”๋” (Decoder): DETR(DEtection TRansformer)๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋กœ, ํ•™์Šต๋œ ๊ฐ์ฒด ์ฟผ๋ฆฌ(object queries)๊ฐ€ ํ“จ์ „ ์ธ์ฝ”๋”์˜ ์กฐ๊ฑดํ™”๋œ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ต์ฐจ ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋””์ฝ”๋” ๊ณ„์ธต์€ ๊ฐ์ฒด ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ๋กœ์ง“(ํ”„๋กฌํ”„ํŠธ์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ์ฒด์ธ์ง€ ์—ฌ๋ถ€์˜ ์ด์ง„ ๋ ˆ์ด๋ธ”)๊ณผ ์ด์ „ ๊ณ„์ธต์—์„œ ์˜ˆ์ธก๋œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์— ๋Œ€ํ•œ ๋ธํƒ€๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    • Presence Token: ์ธ์‹(recognition)๊ณผ ์œ„์น˜ ํŠน์ •(localization)์„ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต๋œ ์ „์—ญ presence token์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ† ํฐ์€ ๋ช…์‚ฌ๊ตฌ(NP) ํ˜•ํƒœ์˜ ํƒ€๊ฒŸ ๊ฐœ๋…์ด ์ด๋ฏธ์ง€/ํ”„๋ ˆ์ž„์— ์กด์žฌํ•˜๋Š”์ง€ ์—ฌ๋ถ€ p(\text{NP is present in input})๋งŒ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ q_i๋Š” p(q_i \text{ is a match } | \text{NP is present in input})๋ผ๋Š” ์œ„์น˜ ํŠน์ • ๋ฌธ์ œ๋งŒ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ์ œ์•ˆ ์ฟผ๋ฆฌ ์ ์ˆ˜๋Š” ์ž์ฒด ์ ์ˆ˜์™€ presence score์˜ ๊ณฑ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํŠนํžˆ ์–ด๋ ค์šด ๋„ค๊ฑฐํ‹ฐ๋ธŒ ๊ตฌ๋ฌธ์œผ๋กœ ํ›ˆ๋ จํ•  ๋•Œ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
    • ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ๋ฐ ์ƒํ˜ธ์ž‘์šฉ (Image Exemplars and Interactivity): SAM 3๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ์—ฐ๊ด€๋œ ์ด์ง„ ๋ ˆ์ด๋ธ”(๊ธ์ • ๋˜๋Š” ๋ถ€์ •)๋กœ ์ฃผ์–ด์ง€๋Š” ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ์ด๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ณด์™„ํ•˜๊ฑฐ๋‚˜ ๋‹จ๋…์œผ๋กœ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋งˆ์Šคํฌ ํ—ค๋“œ (Mask Head): MaskFormer์—์„œ ์ฐจ์šฉ๋˜์—ˆ์œผ๋ฉฐ, semantic segmentation head๋„ ํ•จ๊ป˜ ํฌํ•จํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ํ”ฝ์…€์— ๋Œ€ํ•ด ํ”„๋กฌํ”„ํŠธ์— ํ•ด๋‹นํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์ด์ง„ ๋ ˆ์ด๋ธ”๋กœ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    • ๋ชจํ˜ธ์„ฑ ์ฒ˜๋ฆฌ ํ—ค๋“œ (Ambiguity Head): K๊ฐœ์˜ ์ „๋ฌธ๊ฐ€(experts)๋ฅผ ๋ณ‘๋ ฌ๋กœ ํ›ˆ๋ จํ•˜๊ณ  ๊ฐ€์žฅ ๋‚ฎ์€ ์†์‹ค์„ ๊ฐ€์ง„ ์ „๋ฌธ๊ฐ€๋งŒ ๊ฐ๋…ํ•˜๋Š” winner-takes-all ๋ฐฉ์‹์œผ๋กœ ๋ชจํ˜ธํ•œ ํ•ด์„์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ์ „๋ฌธ๊ฐ€๋Š” ํŠน์ • ์ข…๋ฅ˜์˜ ํ•ด์„์— ํŠนํ™”๋ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ์‹œ์—๋Š” ์–ด๋–ค ์ „๋ฌธ๊ฐ€๊ฐ€ ๊ฐ€์žฅ ์ •ํ™•ํ•  ํ™•๋ฅ ์ด ๋†’์€์ง€ ์˜ˆ์ธกํ•˜๋Š” ๋ถ„๋ฅ˜ ํ—ค๋“œ๋ฅผ ํ›ˆ๋ จํ•˜์—ฌ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  • ์ถ”์ ๊ธฐ (Tracker) ๋ฐ ๋น„๋””์˜ค ์•„ํ‚คํ…์ฒ˜:
    • ๊ฐ์ฒด ์ถ”์ : ๊ฐ ํ”„๋ ˆ์ž„์—์„œ ๊ฒ€์ถœ๊ธฐ๋Š” ์ƒˆ๋กœ์šด ๊ฐ์ฒด O_t๋ฅผ ์ฐพ๊ณ , ์ถ”์ ๊ธฐ๋Š” ์ด์ „ ํ”„๋ ˆ์ž„ t-1์˜ ๋งˆ์Šคํฌ๋ ›(masklets) M_{t-1}์„ ํ˜„์žฌ ํ”„๋ ˆ์ž„ t์˜ ์ƒˆ๋กœ์šด ์œ„์น˜ \hat{M}_t๋กœ ์ „ํŒŒํ•ฉ๋‹ˆ๋‹ค. ์ „ํŒŒ๋œ ๋งˆ์Šคํฌ๋ › \hat{M}_t๊ณผ ํ˜„์žฌ ํ”„๋ ˆ์ž„์—์„œ ์ƒˆ๋กœ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฐ์ฒด ๋งˆ์Šคํฌ O_t๋ฅผ ๋งค์นญ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค: \hat{M}_t = \text{propagate}(M_{t-1}) O_t = \text{detect}(I_t, P) M_t = \text{match\_and\_update}(\hat{M}_t, O_t)
    • SAM 2 ์Šคํƒ€์ผ ์ „ํŒŒ: ์ฒซ ํ”„๋ ˆ์ž„์—์„œ ๊ฐ์ง€๋œ ๋ชจ๋“  ๊ฐ์ฒด์— ๋Œ€ํ•ด ๋งˆ์Šคํฌ๋ ›์ด ์ดˆ๊ธฐํ™”๋˜๋ฉฐ, ์ดํ›„ ํ”„๋ ˆ์ž„์—์„œ๋Š” ์ถ”์ ๊ธฐ ๋ชจ๋“ˆ์ด ์ด์ „ ์œ„์น˜ M_{t-1}๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ๋งˆ์Šคํฌ๋ › ์œ„์น˜ \hat{M}_t๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
    • Temporal Disambiguation Strategies: ๋น„๋””์˜ค ์ถ”์ ์˜ ๋ชจํ˜ธ์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Track Confirmation Delay, Removal of Unconfirmed/Duplicate Masklets, Masklet Suppression, Periodic Re-Prompting, Detection-Guided Re-Prompting ๋“ฑ์˜ ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐœ๋ณ„ ๋งˆ์Šคํฌ ๊ฐœ์„ : ์ดˆ๊ธฐ ๋งˆ์Šคํฌ ์„ธํŠธ(๋˜๋Š” ๋งˆ์Šคํฌ๋ ›)๋ฅผ ์–ป์€ ํ›„, ๊ธ์ • ๋ฐ ๋ถ€์ • ํด๋ฆญ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐœ๋ณ„ ๋งˆ์Šคํฌ(๋ ›)๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ๋ฐ์ดํ„ฐ ์—”์ง„:

SAM 3๋Š” ์‚ฌ๋žŒ๊ณผ ๋ชจ๋ธ์˜ ํ˜‘์—…์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋Š” ๋ฐ์ดํ„ฐ ์—”์ง„์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ์˜ ๋‹ค์–‘ํ•˜๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด ์—”์ง„์€ SAM 3, ์‚ฌ๋žŒ ์ฃผ์„๊ฐ€, AI ์ฃผ์„๊ฐ€์˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ์ž‘๋™ํ•˜๋ฉฐ, ํ˜„์žฌ SAM 3๊ฐ€ ์‹คํŒจํ•˜๋Š” ๋ฏธ๋””์–ด-๊ตฌ๋ฌธ ์Œ์„ ์ ๊ทน์ ์œผ๋กœ ์ฑ„๊ตดํ•˜์—ฌ ๋ชจ๋ธ ๊ฐœ์„ ์„ ์œ„ํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  • ์ฃผ์š” ํ˜์‹ :
    1. ๋ฏธ๋””์–ด ํ๋ ˆ์ด์…˜: ๋™์งˆ์ ์ธ ์›น ์†Œ์Šค์— ์˜์กดํ•˜๋Š” ์ด์ „ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, ๋” ๋‹ค์–‘ํ•œ ๋ฏธ๋””์–ด ๋„๋ฉ”์ธ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค.
    2. ๋ ˆ์ด๋ธ” ํ๋ ˆ์ด์…˜: ์˜จํ†จ๋กœ์ง€์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ โ€œAI ์ฃผ์„๊ฐ€โ€๋กœ ํ™œ์šฉํ•˜์—ฌ ๋ช…์‚ฌ๊ตฌ์™€ ์–ด๋ ค์šด ๋„ค๊ฑฐํ‹ฐ๋ธŒ(hard negatives)๋ฅผ ์ƒ์„ฑํ•จ์œผ๋กœ์จ ๋ ˆ์ด๋ธ” ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ž…๋‹ˆ๋‹ค.
    3. ๋ ˆ์ด๋ธ” ๊ฒ€์ฆ: MLLM์„ โ€œAI ๊ฒ€์ฆ์žโ€๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ์‚ฌ๋žŒ๊ณผ ๊ฑฐ์˜ ์œ ์‚ฌํ•œ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•จ์œผ๋กœ์จ ์ฃผ์„ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋‘ ๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค.
  • ๋‹จ๊ณ„๋ณ„ ๋ฐ์ดํ„ฐ ์—”์ง„:
    • Phase 1 (Human Verification): ๊ฐ„๋‹จํ•œ ์บก์…”๋„ˆ์™€ ํŒŒ์„œ๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€์™€ NP ์ œ์•ˆ์„ ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , SAM 2์™€ open-vocabulary detector๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋งˆ์Šคํฌ๋ฅผ ์ œ์•ˆํ•œ ํ›„ ์‚ฌ๋žŒ์ด ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
    • Phase 2 (Human + AI Verification): Phase 1์—์„œ ์ˆ˜์ง‘๋œ ์‚ฌ๋žŒ์˜ ๊ฒ€์ฆ ๋ ˆ์ด๋ธ”๋กœ Llama 3.2๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ MV(Mask Verification) ๋ฐ EV(Exhaustivity Verification) ํƒœ์Šคํฌ๋ฅผ ์ž๋™ ์ˆ˜ํ–‰ํ•˜๋Š” โ€œAI ๊ฒ€์ฆ์žโ€๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ Llama ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์–ด๋ ค์šด ๋„ค๊ฑฐํ‹ฐ๋ธŒ NP๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
    • Phase 3 (Scaling and Domain Expansion): AI ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ์  ๋” ์–ด๋ ค์šด ์‚ฌ๋ก€๋ฅผ ์ฑ„๊ตดํ•˜๊ณ  15๊ฐœ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋„๋ฉ”์ธ ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ์˜จํ†จ๋กœ์ง€์—์„œ ๊ฐœ๋…์„ ์ฑ„๊ตดํ•˜์—ฌ long-tail, fine-grained ๊ฐœ๋… ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
    • Phase 4 (Video Annotation): ์ด๋ฏธ์ง€ SAM 3๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค๋ณ„ ๋ฌธ์ œ๋ฅผ ํฌ์ฐฉํ•˜๋Š” ํ’ˆ์งˆ ์ฃผ์„์„ ์ˆ˜์ง‘ํ•˜๋„๋ก ๋ฐ์ดํ„ฐ ์—”์ง„์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.

4. SA-Co (Segment Anything with Concepts) ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ฒค์น˜๋งˆํฌ:

  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ: SA-Co/HQ (๋ฐ์ดํ„ฐ ์—”์ง„์—์„œ ์ˆ˜์ง‘ํ•œ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€), SA-Co/SYN (AI ๋ชจ๋ธ๋งŒ์œผ๋กœ ๋ผ๋ฒจ๋ง๋œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ), SA-Co/EXT (์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹). SA-Co/HQ๋Š” 5.2M ์ด๋ฏธ์ง€, 4M ๊ณ ์œ  NP๋กœ ๊ตฌ์„ฑ๋œ ์ตœ๋Œ€ ๊ทœ๋ชจ์˜ ๊ณ ํ’ˆ์งˆ open-vocab segmentation ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์ธ SA-Co/VIDEO๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.
  • ๋ฒค์น˜๋งˆํฌ: SA-Co ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋Š” 207K ๊ณ ์œ  ๊ตฌ๋ฌธ, 121K ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค, 3M ์ด์ƒ์˜ ๋ฏธ๋””์–ด-๊ตฌ๋ฌธ ์Œ์„ ํฌํ•จํ•˜๋ฉฐ, ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋ณด๋‹ค 50๋ฐฐ ์ด์ƒ ๋งŽ์€ ๊ฐœ๋…์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
  • ํ‰๊ฐ€ ์ง€ํ‘œ:
    • cgF1 (classification-gated F1): PCS์˜ ์ฃผ์š” ์ง€ํ‘œ๋กœ, ์ด๋ฏธ์ง€ ๋ ˆ๋ฒจ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” IL_MCC(Image-level Matthews Correlation Coefficient)์™€ ๊ฐ์ฒด ์œ„์น˜ ํŠน์ • ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” pmF1(positive micro F1)์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค. cgF1 = 100 \times pmF1 \times IL\_MCC

5. ์‹คํ—˜ ๊ฒฐ๊ณผ:

SAM 3๋Š” ์ด๋ฏธ์ง€ ๋ฐ ๋น„๋””์˜ค PCS ํƒœ์Šคํฌ์—์„œ ๊ธฐ์กด ์‹œ์Šคํ…œ์˜ ์ •ํ™•๋„๋ฅผ ๋‘ ๋ฐฐ ์ด์ƒ ํ–ฅ์ƒ์‹œํ‚ค๊ณ , PVS ํƒœ์Šคํฌ์—์„œ SAM 2์˜ ์„ฑ๋Šฅ์„ ๋›ฐ์–ด๋„˜์Šต๋‹ˆ๋‹ค.

  • ์ด๋ฏธ์ง€ PCS (ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ): LVIS์—์„œ zero-shot ๋งˆ์Šคํฌ AP 48.8์„ ๋‹ฌ์„ฑํ•˜์—ฌ ๊ธฐ์กด ์ตœ๊ณ (38.5)๋ฅผ ๋›ฐ์–ด๋„˜์—ˆ์œผ๋ฉฐ, SA-Co/Gold ๋ฒค์น˜๋งˆํฌ์—์„œ OWLv2โ‹†๋ณด๋‹ค ๋‘ ๋ฐฐ ์ด์ƒ์˜ cgF1 ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • PCS (์ด๋ฏธ์ง€ ์˜ˆ์‹œ): COCO, LVIS, ODinW์—์„œ T-Rex2๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ƒํ˜ธ์ž‘์šฉ ์„ค์ •์—์„œ 3ํด๋ฆญ ํ›„ ํ…์ŠคํŠธ ์ „์šฉ PCS๋ณด๋‹ค +21.6 cgF1 ํฌ์ธํŠธ, PVS ๊ฐœ์„ ๋ณด๋‹ค +2.0 ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.
  • ๊ฐ์ฒด ์นด์šดํŒ…: CountBench ๋ฐ PixMo-Count ๋ฒค์น˜๋งˆํฌ์—์„œ MLLM ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋น„๋””์˜ค PCS (ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ): SA-Co/VEval ๋ฒค์น˜๋งˆํฌ ๋ฐ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ GLEE, LLMDet ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • PVS: MOSEv2 ๋ฐ์ดํ„ฐ์…‹์—์„œ SAM 2๋ณด๋‹ค 6.5 ํฌ์ธํŠธ ๋†’์€ 60.3 J&F๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ VOS ํƒœ์Šคํฌ์—์„œ ์ƒ๋‹นํ•œ ๊ฐœ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. SA-37 ๋ฒค์น˜๋งˆํฌ์—์„œ ์ƒํ˜ธ์ž‘์šฉ ์ด๋ฏธ์ง€ ๋ถ„ํ•  ์„ฑ๋Šฅ๋„ SAM 2๋ฅผ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • SAM 3 Agent: MLLM๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ SAM 3๋ฅผ ๋„๊ตฌ๋กœ ์‚ฌ์šฉํ•˜๋ฉด ReasonSeg ๋ฐ OmniLabel๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ํ…์ŠคํŠธ ์ฟผ๋ฆฌ์—์„œ๋„ zero-shot์œผ๋กœ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋Šฅ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

6. ๊ฒฐ๋ก :

SAM 3๋Š” PCS ํƒœ์Šคํฌ๋ฅผ ๋„์ž…ํ•˜๊ณ  SA-Co ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ ์˜คํ”ˆ-์–ดํœ˜ ํ…์ŠคํŠธ ๋ฐ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•œ ์ƒํ˜ธ์ž‘์šฉ ๋ถ„ํ• ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ์‹, ์œ„์น˜ ํŠน์ • ๋ฐ ์ถ”์ ์„ ๋ถ„๋ฆฌํ•˜๊ณ  SAM 2๋ฅผ ํ™•์žฅํ•˜์—ฌ ๊ฐœ๋… ๋ถ„ํ• ์„ ํ•ด๊ฒฐํ•˜๋ฉด์„œ๋„ ์‹œ๊ฐ ๋ถ„ํ•  ๊ธฐ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜, ๊ทธ๋ฆฌ๊ณ  ์ธ๊ฐ„๊ณผ AI ์ฃผ์„๊ฐ€์˜ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ๊ฐ•์ ์„ ํ™œ์šฉํ•˜๋Š” ๊ณ ํ’ˆ์งˆ์˜ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์—”์ง„์ด ์ฃผ์š” ๊ธฐ์—ฌ์ ์ž…๋‹ˆ๋‹ค. SAM 3๋Š” PCS ๋ถ„์•ผ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ปดํ“จํ„ฐ ๋น„์ „ ์—ฐ๊ตฌ ๋ฐ ์‘์šฉ ๋ถ„์•ผ์˜ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

SAM 3: Segment Anything with Concepts

๋กœ๋ด‡๊ณตํ•™์ž๋ฅผ ์œ„ํ•œ ์‹ฌ์ธต ๊ธฐ์ˆ  ๋ฆฌ๋ทฐ

Meta Superintelligence Labs | arXiv:2511.16719 | 2025๋…„ 11์›”


1. ์„œ๋ก : ์™œ SAM 3์ธ๊ฐ€?

์ปดํ“จํ„ฐ ๋น„์ „์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” โ€œ๋ฌด์—‡์ด๋“  ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜โ€ํ•˜๋Š” ๋Šฅ๋ ฅ์€ ๋กœ๋ด‡๊ณตํ•™, ์ฝ˜ํ…์ธ  ์ œ์ž‘, ์ฆ๊ฐ•ํ˜„์‹ค, ๋ฐ์ดํ„ฐ ์–ด๋…ธํ…Œ์ด์…˜ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI ์‘์šฉ์—์„œ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. 2023๋…„ Meta๊ฐ€ ๋ฐœํ‘œํ•œ SAM(Segment Anything Model)์€ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์ด๋ผ๋Š” ํ˜์‹ ์ ์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜๋ฉฐ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์— ํฐ ํŒŒ์žฅ์„ ์ผ์œผ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด์–ด์„œ 2024๋…„์—๋Š” SAM 2๊ฐ€ ๋น„๋””์˜ค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์˜์—ญ์œผ๋กœ ํ™•์žฅ๋˜๋ฉฐ ์‹œ๊ณต๊ฐ„์  ์ถ”์  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด SAM ์‹œ๋ฆฌ์ฆˆ์—๋Š” ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํฌ์ธํŠธ, ๋ฐ•์Šค, ๋งˆ์Šคํฌ์™€ ๊ฐ™์€ ์‹œ๊ฐ์  ํ”„๋กฌํ”„ํŠธ๋กœ๋Š” ๋‹จ์ผ ๊ฐ์ฒด๋งŒ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , โ€œ์ด ์ด๋ฏธ์ง€/๋น„๋””์˜ค์—์„œ ๋ชจ๋“  ๊ณ ์–‘์ด๋ฅผ ์ฐพ์•„๋ผโ€์™€ ๊ฐ™์€ ๊ฐœ๋… ๊ธฐ๋ฐ˜์˜ ํฌ๊ด„์  ํƒ์ง€๋Š” ๋ถˆ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณตํ•™ ๊ด€์ ์—์„œ ๋ณด๋ฉด, ์ด๋Š” ๋งค์šฐ ์น˜๋ช…์ ์ธ ์ œ์•ฝ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ํ™˜๊ฒฝ์„ ์ธ์‹ํ•˜๊ณ  ์กฐ์ž‘ํ•ด์•ผ ํ•  ๋•Œ, ํŠน์ • ๊ฐœ๋…(์˜ˆ: โ€œ๋นจ๊ฐ„ ์‚ฌ๊ณผโ€, โ€œ๊ธˆ์† ๋ถ€ํ’ˆโ€, โ€œ์‚ฌ๋žŒ์˜ ์†โ€)์— ํ•ด๋‹นํ•˜๋Š” ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ๋™์‹œ์— ์ธ์‹ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋นˆ๋ฒˆํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

2025๋…„ 11์›”, Meta Superintelligence Labs๋Š” ์ด๋Ÿฌํ•œ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๊ธฐ ์œ„ํ•ด SAM 3: Segment Anything with Concepts๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. SAM 3๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(์˜ˆ: โ€œyellow school busโ€)๋‚˜ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ(exemplars), ๋˜๋Š” ๋‘˜์˜ ์กฐํ•ฉ์„ ํ†ตํ•ด ์ด๋ฏธ์ง€์™€ ๋น„๋””์˜ค์—์„œ ํ•ด๋‹น ๊ฐœ๋…์— ๋งค์นญ๋˜๋Š” ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ํƒ์ง€, ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ์ถ”์ ํ•  ์ˆ˜ ์žˆ๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ Promptable Concept Segmentation (PCS) ํƒœ์Šคํฌ๋กœ ์ •์˜ํ•˜๋ฉฐ, ๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.


2. SAM ์‹œ๋ฆฌ์ฆˆ์˜ ์ง„ํ™”: SAM โ†’ SAM 2 โ†’ SAM 3

2.1 SAM (2023): ํ”„๋กฌํ”„ํ„ฐ๋ธ” ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์‹œ์ž‘

์ตœ์ดˆ์˜ SAM์€ โ€œํ”„๋กฌํ”„ํ„ฐ๋ธ”(promptable)โ€ ์ด๋ฏธ์ง€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฐœ๋…์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ํฌ์ธํŠธ, ๋ฐ•์Šค, ๋˜๋Š” ๋งˆ์Šคํฌ๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์ œ๊ณตํ•˜๋ฉด ๋ชจ๋ธ์ด ํ•ด๋‹น ์œ„์น˜์˜ ๊ฐ์ฒด๋ฅผ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค. 11M ์ด๋ฏธ์ง€์™€ 10์–ต ๊ฐœ ์ด์ƒ์˜ ๋งˆ์Šคํฌ๋กœ ๊ตฌ์„ฑ๋œ SA-1B ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋˜์—ˆ์œผ๋ฉฐ, ์ œ๋กœ์ƒท(zero-shot) ์ „์ด ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚ฌ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋Šฅ์€ ์™„์ „ํžˆ ๊ฐœ๋ฐœ๋˜์ง€ ์•Š์•˜๊ณ , ํ”„๋กฌํ”„ํŠธ๋‹น ๋‹จ์ผ ๊ฐ์ฒด๋งŒ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

2.2 SAM 2 (2024): ๋น„๋””์˜ค๋กœ์˜ ํ™•์žฅ

SAM 2๋Š” ํ”„๋กฌํ”„ํ„ฐ๋ธ” ์‹œ๊ฐ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜(Promptable Visual Segmentation, PVS) ํƒœ์Šคํฌ๋ฅผ ๋น„๋””์˜ค๋กœ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ ๋ฑ…ํฌ์™€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•˜์—ฌ ์‹œ๊ฐ„์— ๊ฑธ์นœ ๊ฐ์ฒด ์ถ”์ ์ด ๊ฐ€๋Šฅํ•ด์กŒ๊ณ , ์‚ฌ์šฉ์ž๋Š” ๋น„๋””์˜ค์˜ ์–ด๋А ํ”„๋ ˆ์ž„์—์„œ๋“  ๋ฆฌํŒŒ์ธ๋จผํŠธ ํฌ์ธํŠธ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฌ์ „ํžˆ โ€œ๊ฐœ๋…โ€์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํƒ์ง€๋Š” ์ง€์›ํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

2.3 SAM 3 (2025): ๊ฐœ๋… ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์™„์„ฑ

SAM 3๋Š” SAM 2์˜ ๋ชจ๋“  ๊ธฐ๋Šฅ์„ ํฌํ•จํ•˜๋ฉด์„œ Promptable Concept Segmentation (PCS)๋ผ๋Š” ์ƒˆ๋กœ์šด ํƒœ์Šคํฌ๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ์ ์ธ ์ฐจ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ: โ€œred appleโ€, โ€œstriped catโ€๊ณผ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ๋ช…์‚ฌ๊ตฌ(noun phrase)๋กœ ๊ฐœ๋… ์ง€์ •
  • ์ด๋ฏธ์ง€ ์˜ˆ์‹œ(Exemplar): ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ์–‘/์Œ ๋ ˆ์ด๋ธ”๋กœ ํƒ€๊ฒŸ ๊ฐœ๋… ์‹œ๊ฐ์  ์ •์˜
  • ๋ชจ๋“  ์ธ์Šคํ„ด์Šค ํƒ์ง€: ์ด๋ฏธ์ง€/๋น„๋””์˜ค ์ „์ฒด์—์„œ ํ•ด๋‹น ๊ฐœ๋…์— ๋งค์นญ๋˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜
  • ๋น„๋””์˜ค ID ๋ณด์กด: ํ”„๋ ˆ์ž„ ๊ฐ„ ๊ฐ์ฒด ์•„์ด๋ดํ‹ฐํ‹ฐ ์œ ์ง€
  • ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋ฆฌํŒŒ์ธ๋จผํŠธ: ์ถ”๊ฐ€ ํ”„๋กฌํ”„ํŠธ๋กœ false positive/negative ์ˆ˜์ • ๊ฐ€๋Šฅ

3. Promptable Concept Segmentation (PCS) ํƒœ์Šคํฌ ์ •์˜

PCS ํƒœ์Šคํฌ๋ฅผ ๊ณต์‹์ ์œผ๋กœ ์ •์˜ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: ์ด๋ฏธ์ง€ ๋˜๋Š” ์งง์€ ๋น„๋””์˜ค(30์ดˆ ์ด๋‚ด)๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ์งง์€ ํ…์ŠคํŠธ ๊ตฌ๋ฌธ, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ, ๋˜๋Š” ๋‘˜์˜ ์กฐํ•ฉ์œผ๋กœ ์ง€์ •๋œ ์‹œ๊ฐ์  ๊ฐœ๋…์˜ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ํƒ์ง€, ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค.

3.1 ํ”„๋กฌํ”„ํŠธ ์œ ํ˜•

๋ช…์‚ฌ๊ตฌ(Noun Phrase) ํ”„๋กฌํ”„ํŠธ: SAM 3๋Š” โ€œ๊ฐœ๋…โ€์„ ๋ช…์‚ฌ์™€ ์„ ํƒ์  ์ˆ˜์‹์–ด๋กœ ๊ตฌ์„ฑ๋œ ๊ฐ„๋‹จํ•œ ๋ช…์‚ฌ๊ตฌ๋กœ ์ œํ•œํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œdogโ€, โ€œred appleโ€, โ€œperson wearing a hatโ€ ๋“ฑ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ธด ์ฐธ์กฐ ํ‘œํ˜„(long referring expressions)์ด๋‚˜ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ฟผ๋ฆฌ๋Š” SAM 3์˜ ์ง์ ‘์ ์ธ ๋ฒ”์œ„๊ฐ€ ์•„๋‹ˆ์ง€๋งŒ, MLLM(Multimodal Large Language Model)๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ์˜ˆ์‹œ(Image Exemplar) ํ”„๋กฌํ”„ํŠธ: ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ์ด์ง„ ๋ ˆ์ด๋ธ”(์–‘์„ฑ/์Œ์„ฑ) ์Œ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ๋…๋ฆฝ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ๋ณด์™„์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐ•์•„์ง€ ํ•œ ๋งˆ๋ฆฌ๋ฅผ ์–‘์„ฑ ์˜ˆ์‹œ๋กœ ์ฃผ๋ฉด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€ ๋‚ด ๋ชจ๋“  ๊ฐ•์•„์ง€๋ฅผ ํƒ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” SAM 1/2์˜ PVS์™€ ๋‹ค๋ฅด๊ฒŒ, ๋‹จ์ผ ์ธ์Šคํ„ด์Šค๊ฐ€ ์•„๋‹Œ ๋™์ผ ๊ฐœ๋…์˜ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๋ฆฌํŒŒ์ธ๋จผํŠธ: ์ดˆ๊ธฐ ์˜ˆ์ธก์ด ๋ถ€์ •ํ™•ํ•  ๊ฒฝ์šฐ, ์‚ฌ์šฉ์ž๋Š” ์ถ”๊ฐ€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋†“์นœ ground truth๋Š” ์–‘์„ฑ ํ”„๋กฌํ”„ํŠธ ํ›„๋ณด๊ฐ€ ๋˜๊ณ , false positive ํƒ์ง€๋Š” ์Œ์„ฑ ํ”„๋กฌํ”„ํŠธ ํ›„๋ณด๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

3.2 ๋ชจํ˜ธ์„ฑ(Ambiguity) ๋ฌธ์ œ

์˜คํ”ˆ ๋ณด์บ๋ทธ๋Ÿฌ๋ฆฌ ํŠน์„ฑ์ƒ PCS ํƒœ์Šคํฌ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ๋ชจํ˜ธํ•ฉ๋‹ˆ๋‹ค. โ€œmouseโ€๊ฐ€ ๋™๋ฌผ์ธ์ง€ ๊ธฐ๊ธฐ์ธ์ง€, โ€œlargeโ€์˜ ๊ธฐ์ค€์€ ๋ฌด์—‡์ธ์ง€, โ€œmirrorโ€๊ฐ€ ํ”„๋ ˆ์ž„์„ ํฌํ•จํ•˜๋Š”์ง€ ๋“ฑ ๋‹ค์–‘ํ•œ ํ•ด์„์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. SAM 3๋Š” ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ „๋ฌธ๊ฐ€๋กœ๋ถ€ํ„ฐ ํ…Œ์ŠคํŠธ ์–ด๋…ธํ…Œ์ด์…˜์„ ์ˆ˜์ง‘ํ•˜๊ณ , ๋ณต์ˆ˜์˜ ์œ ํšจํ•œ ํ•ด์„์„ ํ—ˆ์šฉํ•˜๋Š” ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์„ ์ฑ„ํƒํ–ˆ์œผ๋ฉฐ, ๋ชจ๋ธ์— ๋ชจํ˜ธ์„ฑ ๋ชจ๋“ˆ์„ ํฌํ•จ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.


4. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: ํƒ์ง€๊ธฐ์™€ ์ถ”์ ๊ธฐ์˜ ํ†ตํ•ฉ

SAM 3๋Š” ์•ฝ 8.48์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ํ†ตํ•ฉ ๋ชจ๋ธ๋กœ, ํฌ๊ฒŒ Detector(ํƒ์ง€๊ธฐ)์™€ Tracker(์ถ”์ ๊ธฐ)๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋‘˜์€ ๋‹จ์ผ Vision Encoder(Perception Encoder, PE)๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ค๊ณ„๋Š” ํƒ์ง€์™€ ์ถ”์  ๊ฐ„์˜ ํƒœ์Šคํฌ ์ถฉ๋Œ์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ํšจ์œจ์ ์ธ ๊ณต์œ  ํ‘œํ˜„์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

4.1 Perception Encoder (PE) ๋ฐฑ๋ณธ

SAM 3์˜ ๋น„์ „ ๋ฐฑ๋ณธ์€ Perception Encoder (PE)๋กœ, ๋น„์ „-์–ธ์–ด ์ •๋ ฌ๋œ ์ธ์ฝ”๋”์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฑ๋ณธ์€ ํƒ์ง€๊ธฐ์™€ ์ถ”์ ๊ธฐ ๋ชจ๋‘์—์„œ ์ด๋ฏธ์ง€/ํ”„๋ ˆ์ž„ ์ธ์ฝ”๋”ฉ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. PE๋Š” ๋ณ„๋„๋กœ ์‚ฌ์ „ํ•™์Šต๋˜๋ฉฐ, ํƒ์ง€๊ธฐ ํ•™์Šต ํ›„์—๋Š” ๋™๊ฒฐ(freeze)๋ฉ๋‹ˆ๋‹ค.

4.2 Detector ์•„ํ‚คํ…์ฒ˜

Detector๋Š” DETR ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋”ฐ๋ฅด๋ฉฐ, ํ…์ŠคํŠธ, ๊ธฐํ•˜ํ•™์  ์ •๋ณด, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋กœ ์ปจ๋””์…”๋‹๋ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ๊ตฌ์„ฑ์š”์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. Image/Text Encoder: PE๊ฐ€ ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ณ , ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๊ฐ€ ์žˆ์œผ๋ฉด ๋ณ„๋„์˜ Exemplar Encoder๊ฐ€ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค.

  2. Fusion Encoder: ๋ฌด์กฐ๊ฑด์ (unconditioned) ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์ด ํ”„๋กฌํ”„ํŠธ ํ† ํฐ์— cross-attentionํ•˜์—ฌ ์ปจ๋””์…”๋‹๋ฉ๋‹ˆ๋‹ค.

  3. DETR-like Decoder: ํ•™์Šต๋œ object query๋“ค์ด ์ปจ๋””์…”๋‹๋œ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์— cross-attentionํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋””์ฝ”๋” ๋ ˆ์ด์–ด๋Š” ๊ฐ object query์— ๋Œ€ํ•ด ๋ถ„๋ฅ˜ ๋กœ์ง“(๊ฐ์ฒด๊ฐ€ ํ”„๋กฌํ”„ํŠธ์— ํ•ด๋‹นํ•˜๋Š”์ง€์˜ ์ด์ง„ ๋ ˆ์ด๋ธ”)๊ณผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๋ธํƒ€๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

  4. Mask Head: MaskFormer์—์„œ ์ ์‘๋œ ๋งˆ์Šคํฌ ํ—ค๋“œ๊ฐ€ ํ”ฝ์…€ ์ˆ˜์ค€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  5. Semantic Segmentation Head: ์ด๋ฏธ์ง€์˜ ๋ชจ๋“  ํ”ฝ์…€์— ๋Œ€ํ•ด ํ”„๋กฌํ”„ํŠธ์— ํ•ด๋‹นํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

4.3 Presence Token: ์ธ์‹๊ณผ ์œ„์น˜ํ™”์˜ ๋ถ„๋ฆฌ

SAM 3์˜ ํ•ต์‹ฌ ํ˜์‹  ์ค‘ ํ•˜๋‚˜๋Š” Presence Token์˜ ๋„์ž…์ž…๋‹ˆ๋‹ค. ์˜คํ”ˆ ๋ณด์บ๋ทธ๋Ÿฌ๋ฆฌ ๊ฐœ๋… ํƒ์ง€์—์„œ ๊ฐ proposal query๊ฐ€ ์ธ์‹(what)๊ณผ ์œ„์น˜ํ™”(where)๋ฅผ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ธ์‹์„ ์œ„ํ•ด์„œ๋Š” ์ „์ฒด ์ด๋ฏธ์ง€์˜ ๋งฅ๋ฝ์  ๋‹จ์„œ๊ฐ€ ์ค‘์š”ํ•˜์ง€๋งŒ, ์ด๋ฅผ proposal query์— ๊ฐ•์ œํ•˜๋ฉด ๋ณธ์งˆ์ ์œผ๋กœ ์ง€์—ญ์ ์ธ ์œ„์น˜ํ™” ๋ชฉํ‘œ์™€ ์ถฉ๋Œํ•ฉ๋‹ˆ๋‹ค.

Presence Token์€ ํ•™์Šต๋œ ์ „์—ญ ํ† ํฐ์œผ๋กœ, ํƒ€๊ฒŸ ๊ฐœ๋…(๋ช…์‚ฌ๊ตฌ)์ด ์ด๋ฏธ์ง€/ํ”„๋ ˆ์ž„์— ์กด์žฌํ•˜๋Š”์ง€ ์—ฌ๋ถ€(P(concept present | image))๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ๋งŒ ๋‹ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ๊ฐ proposal query๋Š” ์œ„์น˜ํ™” ๋ฌธ์ œ(P(is match | proposal, concept present))๋งŒ ํ•ด๊ฒฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ์ ์ˆ˜๋Š” presence score์™€ proposal score์˜ ๊ณฑ์ž…๋‹ˆ๋‹ค.

์ด ์„ค๊ณ„๋Š” ํŠนํžˆ hard negative ํ•™์Šต์—์„œ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋นจ๊ฐ„ ์œ ๋‹ˆํผ์˜ ์„ ์ˆ˜โ€์™€ โ€œํฐ ์œ ๋‹ˆํผ์˜ ์„ ์ˆ˜โ€๋ฅผ ๊ตฌ๋ถ„ํ•ด์•ผ ํ•  ๋•Œ, ์ „์—ญ์  ๋งฅ๋ฝ์—์„œ ์–ด๋–ค ๊ฐœ๋…์ด ์‹ค์ œ๋กœ ์กด์žฌํ•˜๋Š”์ง€ ๋จผ์ € ํŒ๋‹จํ•œ ํ›„, ๊ฐœ๋ณ„ proposal์ด ํ•ด๋‹น ๊ฐœ๋…์— ๋งค์นญ๋˜๋Š”์ง€ ํŒ๋‹จํ•˜๋Š” 2๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. Ablation ์‹คํ—˜์—์„œ Presence Token์€ cgF1์„ +1.5, IL_MCC(์ด๋ฏธ์ง€ ์ˆ˜์ค€ ์ƒ๊ด€๊ณ„์ˆ˜)๋ฅผ +0.05 ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

4.4 Tracker์™€ ๋น„๋””์˜ค ์•„ํ‚คํ…์ฒ˜

๋น„๋””์˜ค ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•ด SAM 3๋Š” ๊ฐ ํ”„๋ ˆ์ž„์—์„œ Detector๊ฐ€ ์ƒˆ ๊ฐ์ฒด๋ฅผ ์ฐพ๊ณ , Tracker๊ฐ€ ๊ธฐ์กด masklet(์‹œ๊ณต๊ฐ„ ๋งˆ์Šคํฌ)์„ ๋‹ค์Œ ํ”„๋ ˆ์ž„ ์œ„์น˜๋กœ ์ „ํŒŒํ•ฉ๋‹ˆ๋‹ค. Tracker๋Š” SAM 2์˜ transformer encoder-decoder ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ƒ์†๋ฐ›์•„, prompt encoder, mask decoder, memory encoder, memory bank๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

๋งค์นญ ๋ฐ ์—…๋ฐ์ดํŠธ: ์ถ”์ ๋œ ๋งˆ์Šคํฌ์™€ ํ˜„์žฌ ํ”„๋ ˆ์ž„ ํƒ์ง€ ๊ฒฐ๊ณผ๋Š” IoU ๊ธฐ๋ฐ˜ ๋งค์นญ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ๋งค์นญ๋˜์ง€ ์•Š์€ ์ƒˆ ํƒ์ง€๋Š” ์ƒˆ๋กœ์šด masklet์œผ๋กœ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค.

์‹œ๊ฐ„์  ๋ชจํ˜ธ์„ฑ ํ•ด์†Œ: 1. masklet detection score๋กœ ์‹œ๊ฐ„ ์ฐฝ ๋‚ด์—์„œ ์ผ๊ด€๋˜์ง€ ์•Š์€ masklet์„ ์–ต์ œ 2. ์ฃผ๊ธฐ์ ์œผ๋กœ ๊ณ ์‹ ๋ขฐ ํƒ์ง€ ๋งˆ์Šคํฌ๋กœ tracker ์˜ˆ์ธก์„ ๋Œ€์ฒดํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ๋ฑ…ํฌ์˜ ์‹ ๋ขฐ์„ฑ์„ ์œ ์ง€

ํƒ์ง€-์ถ”์  ๋ถ„๋ฆฌ์˜ ์ด์ : ๊ธฐ์กด end-to-end ์ถ”์  ๋ชจ๋ธ(TrackFormer, MOTR ๋“ฑ)์€ ํƒ์ง€(์˜๋ฏธ๋ก  ์ง‘์ค‘)์™€ ์ถ”์ (์•„์ด๋ดํ‹ฐํ‹ฐ ๋ถ„๋ฆฌ ์ง‘์ค‘) ๊ฐ„์˜ ์ถฉ๋Œ์ด ์žˆ์Šต๋‹ˆ๋‹ค. SAM 3๋Š” ๊ฐ•๋ ฅํ•œ ์ด๋ฏธ์ง€ ํƒ์ง€๊ธฐ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ํ†ตํ•ฉ๋œ ์ถ”์ ๊ธฐ๋กœ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.


5. Data Engine: ์ธ๊ฐ„-AI ํ˜‘๋ ฅ ์–ด๋…ธํ…Œ์ด์…˜ ์‹œ์Šคํ…œ

SAM 3์˜ ์„ฑ๋Šฅ ๋„์•ฝ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ํ•ต์‹ฌ ๋™๋ ฅ์€ ํ˜์‹ ์ ์ธ Data Engine์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹๋ณด๋‹ค ํ›จ์”ฌ ํฌ๊ณ  ๋‹ค์–‘ํ•œ ๊ฐœ๋… ์ง‘ํ•ฉ๊ณผ ์‹œ๊ฐ์  ๋„๋ฉ”์ธ์„ ์•„์šฐ๋ฅด๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ–ˆ๊ณ , SAM 3 ํŒ€์€ ์ธ๊ฐ„ ์–ด๋…ธํ…Œ์ดํ„ฐ์™€ AI ๋ชจ๋ธ์˜ ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ํ™œ์šฉํ•˜๋Š” ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์—”์ง„์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

5.1 ๊ธฐ์กด ์ ‘๊ทผ๋ฒ• ๋Œ€๋น„ ํ˜์‹ ์ 

  1. ๋ฏธ๋””์–ด ํ๋ ˆ์ด์…˜: ๋™์งˆ์ ์ธ ์›น ์†Œ์Šค์— ์˜์กดํ•˜๋˜ ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•๊ณผ ๋‹ฌ๋ฆฌ, ๋” ๋‹ค์–‘ํ•œ ๋ฏธ๋””์–ด ๋„๋ฉ”์ธ์„ ํ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค.

  2. ๋ ˆ์ด๋ธ” ํ๋ ˆ์ด์…˜: ์˜จํ†จ๋กœ์ง€์™€ MLLM โ€œAI ์–ด๋…ธํ…Œ์ดํ„ฐโ€๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ช…์‚ฌ๊ตฌ์™€ hard negative๋ฅผ ์ƒ์„ฑ, ๋ ˆ์ด๋ธ” ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ž…๋‹ˆ๋‹ค.

  3. ๋ ˆ์ด๋ธ” ๊ฒ€์ฆ: MLLM์„ โ€œAI ๊ฒ€์ฆ๊ธฐโ€๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ๊ฑฐ์˜ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋กœ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰, ์–ด๋…ธํ…Œ์ด์…˜ ์ฒ˜๋ฆฌ๋Ÿ‰์„ 2๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค.

5.2 ๋ฐ์ดํ„ฐ ์—”์ง„ ๊ตฌ์„ฑ์š”์†Œ

๋ฐ์ดํ„ฐ ์—”์ง„์˜ ํŒŒ์ดํ”„๋ผ์ธ์€ ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  • ๋ฏธ๋””์–ด ๋งˆ์ด๋‹: ํ๋ ˆ์ด์…˜๋œ ์˜จํ†จ๋กœ์ง€์˜ ๋„์›€์œผ๋กœ ๋Œ€๊ทœ๋ชจ ํ’€์—์„œ ์ด๋ฏธ์ง€/๋น„๋””์˜ค ์ƒ˜ํ”Œ๋ง
  • NP ์ œ์•ˆ: AI ๋ชจ๋ธ์ด ์‹œ๊ฐ์  ๊ฐœ๋…์„ ์„ค๋ช…ํ•˜๋Š” ๋ช…์‚ฌ๊ตฌ(NP)๋ฅผ ์ œ์•ˆ
  • ๋งˆ์Šคํฌ ์ƒ์„ฑ: SAM 3(๋˜๋Š” ์ด์ „ ๋ฒ„์ „)๊ฐ€ ๊ฐ ์ œ์•ˆ๋œ NP์— ๋Œ€ํ•œ ํ›„๋ณด ์ธ์Šคํ„ด์Šค ๋งˆ์Šคํฌ ์ƒ์„ฑ
  • ๋งˆ์Šคํฌ ๊ฒ€์ฆ(MV): ๋งˆ์Šคํฌ์˜ ํ’ˆ์งˆ๊ณผ NP ๊ด€๋ จ์„ฑ ํ‰๊ฐ€
  • ์™„์ „์„ฑ ๊ฒ€์ฆ(EV): NP์˜ ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๊ฐ€ ๋งˆ์Šคํ‚น๋˜์—ˆ๋Š”์ง€ ํ™•์ธ
  • ์ˆ˜๋™ ์ˆ˜์ •: ๊ฒ€์ฆ์„ ํ†ต๊ณผํ•˜์ง€ ๋ชปํ•œ ๋ฏธ๋””์–ด-NP ์Œ์— ๋Œ€ํ•ด ์ธ๊ฐ„์ด ๋งˆ์Šคํฌ ์ถ”๊ฐ€/์ œ๊ฑฐ/์ˆ˜์ •

5.3 4๋‹จ๊ณ„ ๊ฐœ๋ฐœ ๊ณผ์ •

Phase 1 (์ธ๊ฐ„ ๊ฒ€์ฆ): ๋žœ๋ค ์ƒ˜ํ”Œ๋ง๋œ ์ด๋ฏธ์ง€์™€ ๊ฐ„๋‹จํ•œ captioner๋กœ NP ์ œ์•ˆ. SAM 2 + OVD๋กœ ์ดˆ๊ธฐ ๋งˆ์Šคํฌ ์ƒ์„ฑ, ์ธ๊ฐ„ ๊ฒ€์ฆ๊ธฐ๋กœ MV/EV ์ˆ˜ํ–‰. 4.3M ์ด๋ฏธ์ง€-NP ์Œ์˜ ์ดˆ๊ธฐ SA-Co/HQ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•.

Phase 2 (์ธ๊ฐ„+AI ๊ฒ€์ฆ): Phase 1์˜ ์ธ๊ฐ„ accept/reject ๋ ˆ์ด๋ธ”๋กœ Llama 3.2๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ AI ๊ฒ€์ฆ๊ธฐ ์ƒ์„ฑ. MV/EV ํƒœ์Šคํฌ๋ฅผ ์ž๋™ํ™”ํ•˜์—ฌ ์ธ๊ฐ„ ๋…ธ๋ ฅ์„ ๊ฐ€์žฅ ์–ด๋ ค์šด ์ผ€์ด์Šค์— ์ง‘์ค‘. NP ์ œ์•ˆ ๋‹จ๊ณ„๋„ Llama ๊ธฐ๋ฐ˜ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์—…๊ทธ๋ ˆ์ด๋“œํ•˜์—ฌ SAM 3์— adversarialํ•œ hard negative NP ์ œ์•ˆ. 122M ์ด๋ฏธ์ง€-NP ์Œ ์ถ”๊ฐ€.

Phase 3 (์Šค์ผ€์ผ๋ง ๋ฐ ๋„๋ฉ”์ธ ํ™•์žฅ): AI ๋ชจ๋ธ๋กœ ๋” ์–ด๋ ค์šด ์ผ€์ด์Šค๋ฅผ ๋งˆ์ด๋‹ํ•˜๊ณ  SA-Co/HQ๋ฅผ 15๊ฐœ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ™•์žฅ. ์ด๋ฏธ์ง€ alt-text์—์„œ NP ์ถ”์ถœํ•˜๊ณ  22.4M ๋…ธ๋“œ SA-Co ์˜จํ†จ๋กœ์ง€(Wikidata ๊ธฐ๋ฐ˜, 17๊ฐœ ์ƒ์œ„ ์นดํ…Œ๊ณ ๋ฆฌ, 72๊ฐœ ํ•˜์œ„ ์นดํ…Œ๊ณ ๋ฆฌ)์—์„œ ๊ฐœ๋… ๋งˆ์ด๋‹. SAM 3 7ํšŒ, AI ๊ฒ€์ฆ๊ธฐ 3ํšŒ ๋ฐ˜๋ณต ํ•™์Šต. 19.5M ์ด๋ฏธ์ง€-NP ์Œ ์ถ”๊ฐ€.

Phase 4 (๋น„๋””์˜ค ์–ด๋…ธํ…Œ์ด์…˜): ๋ฐ์ดํ„ฐ ์—”์ง„์„ ๋น„๋””์˜ค๋กœ ํ™•์žฅ. ์„ฑ์ˆ™ํ•œ ์ด๋ฏธ์ง€ SAM 3๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น„๋””์˜ค ํŠนํ™” ์ฑŒ๋ฆฐ์ง€๋ฅผ ํฌ์ฐฉํ•˜๋Š” ํƒ€๊ฒŸ ํ’ˆ์งˆ ์–ด๋…ธํ…Œ์ด์…˜ ์ˆ˜์ง‘. ์”ฌ/๋ชจ์…˜ ํ•„ํ„ฐ, ์ฝ˜ํ…์ธ  ๋ฐธ๋Ÿฐ์‹ฑ, ๋žญํ‚น, ํƒ€๊ฒŸ ๊ฒ€์ƒ‰์œผ๋กœ ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹. 52.5K ๋น„๋””์˜ค, 467K masklet์˜ SA-Co/VIDEO ๊ตฌ์ถ•.

5.4 ์ตœ์ข… ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ

์ตœ์ข…์ ์œผ๋กœ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ์••๋„์ ์ž…๋‹ˆ๋‹ค:

  • SA-Co/HQ (๊ณ ํ’ˆ์งˆ): 5.2M ์ด๋ฏธ์ง€, 4M ๊ณ ์œ  NP, 52M ๋งˆ์Šคํฌ - ๊ฐ€์žฅ ํฐ ๊ณ ํ’ˆ์งˆ OV ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ฐ์ดํ„ฐ์…‹
  • SA-Co/SYN (ํ•ฉ์„ฑ): ์ธ๊ฐ„ ๊ฐœ์ž… ์—†์ด AI๋งŒ์œผ๋กœ ๋ ˆ์ด๋ธ”๋ง - 38M ๊ตฌ๋ฌธ, 1.4B ๋งˆ์Šคํฌ
  • SA-Co/EXT (์™ธ๋ถ€): 15๊ฐœ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์— hard negative ์ถ”๊ฐ€
  • SA-Co/VIDEO: 52.5K ๋น„๋””์˜ค, 24.8K ๊ณ ์œ  NP, 134K ๋น„๋””์˜ค-NP ์Œ (ํ‰๊ท  84.1 ํ”„๋ ˆ์ž„ @ 6fps)

6. SA-Co ๋ฒค์น˜๋งˆํฌ: ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๊ธฐ์ค€

๊ธฐ์กด OV ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ฒค์น˜๋งˆํฌ์˜ ๊ฐœ๋… ๋‹ค์–‘์„ฑ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, SAM 3 ํŒ€์€ Segment Anything with Concepts (SA-Co) ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ƒˆ๋กญ๊ฒŒ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SA-Co๋Š” 207K ๊ณ ์œ  ๊ตฌ๋ฌธ, 121K ์ด๋ฏธ์ง€/๋น„๋””์˜ค, 3M+ ๋ฏธ๋””์–ด-๊ตฌ๋ฌธ ์Œ๊ณผ hard negative ๋ ˆ์ด๋ธ”์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

6.1 ๋ฒค์น˜๋งˆํฌ ๋ถ„ํ• 

  • SA-Co/Gold: 7๊ฐœ ๋„๋ฉ”์ธ, ๊ฐ ์ด๋ฏธ์ง€-NP ์Œ์— 3๋ช…์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์–ด๋…ธํ…Œ์ดํ„ฐ (์ธ๊ฐ„ ์„ฑ๋Šฅ ์ธก์ •์šฉ)
  • SA-Co/Silver: 10๊ฐœ ๋„๋ฉ”์ธ, ์ด๋ฏธ์ง€-NP ์Œ๋‹น 1๋ช…์˜ ์ธ๊ฐ„ ์–ด๋…ธํ…Œ์ด์…˜
  • SA-Co/Bronze: 9๊ฐœ ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹์˜ ๋งˆ์Šคํฌ ์–ด๋…ธํ…Œ์ด์…˜ ํ™œ์šฉ
  • SA-Co/Bio: ์ƒ๋ฌผํ•™ ๋„๋ฉ”์ธ ํŠนํ™”
  • SA-Co/VEval: 3๊ฐœ ๋„๋ฉ”์ธ์˜ ๋น„๋””์˜ค ๋ฒค์น˜๋งˆํฌ

6.2 ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ

SAM 3๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์‘์šฉ์—์„œ์˜ ์œ ์šฉ์„ฑ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๋ฉ”ํŠธ๋ฆญ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด Average Precision(AP)์€ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์•„ ์‹ค์ œ ์‚ฌ์šฉ์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค. SAM 3๋Š” ์‹ ๋ขฐ๋„ 0.5 ์ด์ƒ์˜ ์˜ˆ์ธก๋งŒ ํ‰๊ฐ€ํ•˜์—ฌ ์ข‹์€ ์บ˜๋ฆฌ๋ธŒ๋ ˆ์ด์…˜์„ ๊ฐ•์ œํ•ฉ๋‹ˆ๋‹ค.

  • pmF1 (positive micro F1): ์ตœ์†Œ 1๊ฐœ ground-truth ๋งˆ์Šคํฌ๊ฐ€ ์žˆ๋Š” ์–‘์„ฑ ๋ฏธ๋””์–ด-๊ตฌ๋ฌธ ์Œ์—์„œ์˜ ์œ„์น˜ํ™” ์„ฑ๋Šฅ
  • IL_MCC (Image-Level Matthews Correlation Coefficient): [-1, 1] ๋ฒ”์œ„์˜ ์ด๋ฏธ์ง€ ์ˆ˜์ค€ ์ด์ง„ ์˜ˆ์ธก ํ‰๊ฐ€ (โ€œ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•˜๋Š”๊ฐ€?โ€) - ๋งˆ์Šคํฌ ํ’ˆ์งˆ ๋ฌด๊ด€
  • cgF1 (classification-gated F1): ์ฃผ์š” ๋ฉ”ํŠธ๋ฆญ, IL_MCC ร— pmF1๋กœ ์œ„์น˜ํ™”์™€ ๋ถ„๋ฅ˜ ๊ฒฐํ•ฉ

7. ์‹คํ—˜ ๊ฒฐ๊ณผ: ๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ

7.1 ์ด๋ฏธ์ง€ PCS (ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ)

SAM 3๋Š” ์ธ์Šคํ„ด์Šค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ๋ฐ•์Šค ํƒ์ง€, ์˜๋ฏธ๋ก ์  ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์—์„œ ์ƒˆ๋กœ์šด SOTA๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ๋ฉ”ํŠธ๋ฆญ SAM 3 ์ด์ „ SOTA ํ–ฅ์ƒ
LVIS Mask AP 48.8 38.5 +10.3
SA-Co/Gold cgF1 54.1 24.6 (OWLv2*) +29.5 (2.2๋ฐฐ)
Human Performance cgF1 72.8 - SAM 3๊ฐ€ 74% ๋‹ฌ์„ฑ

๋น„๊ต ๋Œ€์ƒ ๋ฒ ์ด์Šค๋ผ์ธ์œผ๋กœ๋Š” OWLv2, GroundingDino, LLMDet(๋ฐ•์Šค ํƒ์ง€ ํ›„ SAM 1์œผ๋กœ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜), APE, DINO-X, Gemini 2.5 Flash๊ฐ€ ํฌํ•จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SA-Co์˜ ๋‹ค๋ฅธ ๋ถ„ํ• (Silver, Bronze, Bio)์—์„œ๋„ ๊ฐœ์„ ํญ์ด ๋” ํฝ๋‹ˆ๋‹ค. ์˜คํ”ˆ ๋ณด์บ๋ทธ๋Ÿฌ๋ฆฌ ์˜๋ฏธ๋ก ์  ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์—์„œ๋„ ADE-847, PascalConcept-59, Cityscapes์—์„œ ๊ฐ•๋ ฅํ•œ ์ „๋ฌธ ๋ฒ ์ด์Šค๋ผ์ธ APE๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

7.2 Few-Shot ์ ์‘

ODinW13๊ณผ RF100-VL ๋ฒค์น˜๋งˆํฌ์—์„œ ํ”„๋กฌํ”„ํŠธ ํŠœ๋‹ ์—†์ด ์ œ๋กœ์ƒท ๋ฐ few-shot ์ „์ด๋ฅผ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. SAM 3๋Š” SOTA 10-shot ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, Gemini์˜ in-context ํ”„๋กฌํ”„ํŒ…๊ณผ ๊ฐ์ฒด ํƒ์ง€ ์ „๋ฌธ๊ฐ€(GroundingDino)๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. RF100-VL์˜ ํŠน์ˆ˜ ๋„๋ฉ”์ธ์—์„œ๋„ ๋ฒ ์ด์Šค๋ผ์ธ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ์ ์‘ํ•ฉ๋‹ˆ๋‹ค.

7.3 ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ

1๊ฐœ์˜ ์˜ˆ์‹œ ๋ฐ•์Šค๋งŒ์œผ๋กœ SAM 3๋Š” T-Rex2๋ฅผ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค:

๋ฒค์น˜๋งˆํฌ SAM 3 T-Rex2 ์ฐจ์ด
COCO +18.3 AP - -
LVIS +10.3 AP - -
ODinW +20.5 AP - -

ํ…์ŠคํŠธ(T) + ์ด๋ฏธ์ง€ ์˜ˆ์‹œ(I) ์กฐํ•ฉ(T+I) ์‹œ ์„ฑ๋Šฅ์ด ๋”์šฑ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

7.4 ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ PCS

์ธ๊ฐ„ ์–ด๋…ธํ…Œ์ดํ„ฐ์™€์˜ ํ˜‘์—…์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•œ ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์‹คํ—˜์—์„œ, ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ์‹œ์ž‘ ํ›„ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ฐ˜๋ณต ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. SAM 3์˜ PCS๋Š” ์˜ˆ์‹œ๋กœ๋ถ€ํ„ฐ ์ผ๋ฐ˜ํ™”(์œ ์‚ฌ ๊ฐ์ฒด ํƒ์ง€/์–ต์ œ)ํ•˜์—ฌ cgF1์„ ๋น ๋ฅด๊ฒŒ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • 3ํด๋ฆญ ํ›„: ํ…์ŠคํŠธ ์ „์šฉ ๋Œ€๋น„ +21.6 cgF1, PVS ๋ฆฌํŒŒ์ธ๋จผํŠธ ๋Œ€๋น„ +2.0
  • 4ํด๋ฆญ ํ›„ ์„ฑ๋Šฅ์ด ์ •์ฒด๋˜๋ฉด PVS๋กœ ์ „ํ™˜ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์ด ๋” ํšจ๊ณผ์ 

7.5 ๊ฐ์ฒด ์นด์šดํŒ…

CountBench์™€ PixMo-Count์—์„œ SAM 3๋Š” Qwen2-VL-72B, Molmo-72B, Gemini 2.5 Pro ๋“ฑ MLLM๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. SAM 3๋Š” ์ข‹์€ ์นด์šดํŒ… ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ๋Œ€๋ถ€๋ถ„์˜ MLLM์ด ์ œ๊ณตํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฐ์ฒด ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜๊นŒ์ง€ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

7.6 ๋น„๋””์˜ค PCS

SA-Co/VEval๊ณผ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋น„๋””์˜ค ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฒ ์ด์Šค๋ผ์ธ์œผ๋กœ GLEE, โ€œLLMDet + SAM 3 Trackerโ€, โ€œSAM 3 Detector + T-by-Dโ€๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. SAM 3๋Š” ํŠนํžˆ ๋งค์šฐ ๋งŽ์€ ๋ช…์‚ฌ๊ตฌ๊ฐ€ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, SA-Co/VEval์—์„œ ์ธ๊ฐ„ pHOTA์˜ 80% ์ด์ƒ์— ๋„๋‹ฌํ•ฉ๋‹ˆ๋‹ค.

7.7 Promptable Visual Segmentation (PVS)

SAM 3๋Š” SAM 2์˜ PVS ๊ธฐ๋Šฅ๋„ ์œ ์ง€ํ•˜๋ฉฐ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. VOS(Video Object Segmentation) ํƒœ์Šคํฌ์—์„œ MOSEv2 ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด์ „ SOTA ๋Œ€๋น„ +6.5 ํฌ์ธํŠธ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์ด๋ฏธ์ง€ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์—์„œ๋„ SAM 2์˜ 37๊ฐœ ๋ฐ์ดํ„ฐ์…‹ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท ์ ์œผ๋กœ SAM 2๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

7.8 SAM 3 Agent

๋” ๋ณต์žกํ•œ ํ…์ŠคํŠธ ์ฟผ๋ฆฌ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด SAM 3๋ฅผ ๋„๊ตฌ๋กœ ์‚ฌ์šฉํ•˜๋Š” MLLM ์—์ด์ „ํŠธ๋ฅผ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. MLLM์ด SAM 3์— ๋ช…์‚ฌ๊ตฌ ์ฟผ๋ฆฌ๋ฅผ ์ œ์•ˆํ•˜๊ณ  ๋ฐ˜ํ™˜๋œ ๋งˆ์Šคํฌ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

ReasonSeg์™€ OmniLabel์—์„œ ์ œ๋กœ์ƒท ํ‰๊ฐ€ ์‹œ, SAM 3 Agent๋Š” ์ฐธ์กฐ ํ‘œํ˜„ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์ด๋‚˜ ์ถ”๋ก  ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ ๋„ ์ด์ „ ์ž‘์—…๋“ค์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ MLLM(Qwen2.5-VL 7B/72B, Llama4 Maverick, Gemini 2.5 Pro)๊ณผ ๋™์ผํ•œ ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ๋กœ ๊ฒฐํ•ฉ ๊ฐ€๋Šฅํ•˜์—ฌ SAM 3์˜ ๊ฒฌ๊ณ ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.


8. Ablation Study: ํ•ต์‹ฌ ์„ค๊ณ„ ๊ฒฐ์ •์˜ ์˜ํ–ฅ

8.1 Presence Token ํšจ๊ณผ

Presence Token์€ cgF1์„ +1.5 ํ–ฅ์ƒ์‹œํ‚ค๊ณ , ์ด๋ฏธ์ง€ ์ˆ˜์ค€ ์ธ์‹(IL_MCC)์„ +0.05 ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ, ๊ฐœ๋…์ด ์ด๋ฏธ์ง€์— ์—†์„ ๋•Œ ๊ฐœ๋ณ„ object score์— ์Œ์„ฑ supervision์„ ์ฃผ์ง€ ์•Š๋Š” ์„ค์ •์ด ์ตœ์ ์ž…๋‹ˆ๋‹ค(์ธ์‹-์œ„์น˜ํ™” ๋ถ„๋ฆฌ ์„ค๊ณ„์™€ ์ผ๊ด€).

8.2 Hard Negative ํšจ๊ณผ

Hard negative ์ถ”๊ฐ€๋Š” ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค:

Hard Negatives/img cgF1 IL_MCC pmF1
0 28.3 0.44 62.4
5 39.4 0.62 62.9
15 41.8 0.67 62.4
30 43.0 0.68 62.8

pmF1์€ ๊ฑฐ์˜ ๋ณ€ํ•˜์ง€ ์•Š์•„, hard negative๊ฐ€ ์œ„์น˜ํ™”๋ณด๋‹ค ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์นจ์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

8.3 ๋ฐ์ดํ„ฐ ์œ ํ˜•๋ณ„ ํšจ๊ณผ

๋ฐ์ดํ„ฐ ์กฐํ•ฉ cgF1 ์ฆ๋ถ„
EXT only 23.7 -
EXT + SYN 32.8 +9.1
EXT + HQ 45.5 +21.8
EXT + SYN + HQ 47.4 +23.7

๊ณ ํ’ˆ์งˆ ์ธ๊ฐ„+AI ์–ด๋…ธํ…Œ์ด์…˜์˜ ์ค‘์š”์„ฑ์ด ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ฉ๋‹ˆ๋‹ค.

8.4 AI ๊ฒ€์ฆ๊ธฐ ํšจ๊ณผ

SAM 3์˜ presence score ๋Œ€์‹  ์™„์ „์„ฑ ๊ฒ€์ฆ(EV) AI ๊ฒ€์ฆ๊ธฐ์˜ ์ ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด cgF1์ด +7.2 ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ๋งˆ์Šคํฌ ๊ฒ€์ฆ(MV) AI ๊ฒ€์ฆ๊ธฐ๋กœ ์ €ํ’ˆ์งˆ ๋งˆ์Šคํฌ๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด ์ถ”๊ฐ€ +1.1์ž…๋‹ˆ๋‹ค. ์ „์ฒด์ ์œผ๋กœ AI ๊ฒ€์ฆ๊ธฐ๋Š” SAM 3์™€ ์ธ๊ฐ„ ์„ฑ๋Šฅ ์‚ฌ์ด์˜ ๊ฒฉ์ฐจ๋ฅผ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์ž…๋‹ˆ๋‹ค.

8.5 ๋„๋ฉ”์ธ ์ ์‘

โ€œFood&drinkโ€ ๋„๋ฉ”์ธ์„ ํ•™์Šต์—์„œ ์ œ์™ธํ•œ ํ›„, ๋„๋ฉ”์ธ๋ณ„ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ(SYN-Food)๋งŒ์œผ๋กœ๋„ ๊ณ ํ’ˆ์งˆ ์ธ๊ฐ„+AI ์–ด๋…ธํ…Œ์ด์…˜(HQ-Food)๊ณผ ์œ ์‚ฌํ•œ ์Šค์ผ€์ผ๋ง ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ธ๊ฐ„ ์–ด๋…ธํ…Œ์ด์…˜ ๋น„์šฉ ์—†์ด ์ƒˆ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


9. ๋กœ๋ด‡๊ณตํ•™์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

SAM 3์˜ ๊ธฐ๋Šฅ์€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ํ˜์‹ ์ ์ธ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋กœ๋ด‡ manipulation, ์ž์œจ ์ฃผํ–‰, human-robot interaction ๋ถ„์•ผ์—์„œ ๊ทธ ์ž ์žฌ๋ ฅ์ด ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค.

9.1 ๋กœ๋ด‡ Manipulation์—์„œ์˜ ํ™œ์šฉ

์–ธ์–ด ๊ธฐ๋ฐ˜ Grasping: โ€œ๋นจ๊ฐ„ ๋จธ๊ทธ์ปต์„ ์ง‘์–ด๋ผโ€์™€ ๊ฐ™์€ ์ž์—ฐ์–ด ๋ช…๋ น์„ ๋ฐ›์•˜์„ ๋•Œ, SAM 3๋Š” ์”ฌ ๋‚ด์˜ ๋ชจ๋“  โ€œ๋นจ๊ฐ„ ๋จธ๊ทธ์ปตโ€ ์ธ์Šคํ„ด์Šค๋ฅผ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ํ•˜์—ฌ grasping ํ›„๋ณด๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์€ OVD๋กœ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์–ป์€ ํ›„ ๋ณ„๋„ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์ด ํ•„์š”ํ–ˆ์ง€๋งŒ, SAM 3๋Š” ์ด๋ฅผ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์ธ์Šคํ„ด์Šค ์ธ์‹ ์กฐ์ž‘: ํ…Œ์ด๋ธ” ์œ„์˜ ๋™์ผ ์ข…๋ฅ˜ ๊ฐ์ฒด๋“ค(์˜ˆ: ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋‚˜์‚ฌ) ์ค‘ ํŠน์ • ์ธ์Šคํ„ด์Šค๋ฅผ ์กฐ์ž‘ํ•ด์•ผ ํ•  ๋•Œ, ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ๋กœ ํƒ€๊ฒŸ์„ ์ง€์ •ํ•˜๊ณ  ์œ ์‚ฌ ๊ฐ์ฒด๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Sim-to-Real Transfer: ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šต๋œ ์ •์ฑ…์„ ์‹ค์ œ ํ™˜๊ฒฝ์— ์ „์ดํ•  ๋•Œ, SAM 3์˜ ๊ฐ•๋ ฅํ•œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์€ ๋„๋ฉ”์ธ ๊ฐญ์„ ์ค„์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ์†์  ์กฐ์ž‘ ์ถ”์ : ๋น„๋””์˜ค PCS ๊ธฐ๋Šฅ์œผ๋กœ manipulation ๊ณผ์ •์—์„œ ๊ฐ์ฒด์˜ ์ƒํƒœ ๋ณ€ํ™”๋ฅผ ์ถ”์ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์กฐ๋ฆฝ ์ž‘์—…์—์„œ ๋ถ€ํ’ˆ๋“ค์˜ ์œ„์น˜์™€ ์ƒํƒœ๋ฅผ ํ”„๋ ˆ์ž„ ๊ฐ„ ์ผ๊ด€๋˜๊ฒŒ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค.

9.2 ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ์—์„œ์˜ ํ™œ์šฉ

์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๊ฐ์ฒด ์„ ํƒ: VR ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์—์„œ ์˜คํผ๋ ˆ์ดํ„ฐ๊ฐ€ ์Œ์„ฑ์œผ๋กœ โ€œ๋ชจ๋“  ๋ณผํŠธ๋ฅผ ํ‘œ์‹œํ•ด์ค˜โ€๋ผ๊ณ  ํ•˜๋ฉด SAM 3๊ฐ€ ๊ด€๋ จ ๊ฐ์ฒด๋“ค์„ ํ•˜์ด๋ผ์ดํŠธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถ”๊ฐ€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ๋กœ ํƒ€๊ฒŸ์„ ์ขํ˜€๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฆ๊ฐ• ํ˜„์‹ค ์˜ค๋ฒ„๋ ˆ์ด: ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์ธํ„ฐํŽ˜์ด์Šค์— SAM 3์˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ค๋ฒ„๋ ˆ์ดํ•˜์—ฌ ์˜คํผ๋ ˆ์ดํ„ฐ์˜ ์ƒํ™ฉ ์ธ์‹์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠน์ • ๊ฐœ๋…์˜ ๊ฐ์ฒด๋“ค์ด ์ƒ‰์ƒ ์ฝ”๋”ฉ๋˜์–ด ํ‘œ์‹œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

9.3 ์ž์œจ ์ด๋™ ๋กœ๋ด‡์—์„œ์˜ ํ™œ์šฉ

์‹œ๋งจํ‹ฑ ๋‚ด๋น„๊ฒŒ์ด์…˜: โ€œ์ฑ…์ƒโ€์ด๋‚˜ โ€œ์˜์žโ€์™€ ๊ฐ™์€ ๊ฐœ๋…์„ ์ธ์‹ํ•˜์—ฌ ์‹œ๋งจํ‹ฑ ๋งต์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜๋ฏธ๋ก ์  ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์„ฑ๋Šฅ์ด ADE-847์—์„œ 13.8 mIoU๋กœ, ๋‹ค์–‘ํ•œ ์‹ค๋‚ด ๊ฐ์ฒด ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์ธ์‹ํ•ฉ๋‹ˆ๋‹ค.

๋™์  ์žฅ์• ๋ฌผ ์ถ”์ : ๋น„๋””์˜ค PCS๋กœ ์ด๋™ ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ โ€œ์‚ฌ๋žŒโ€์ด๋‚˜ โ€œ๋‹ค๋ฅธ ๋กœ๋ด‡โ€์„ ์ง€์†์ ์œผ๋กœ ์ถ”์ ํ•˜์—ฌ ๊ฒฝ๋กœ ๊ณ„ํš์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

9.4 ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์–ด๋…ธํ…Œ์ด์…˜

๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์—์„œ ๋ฐ์ดํ„ฐ ์–ด๋…ธํ…Œ์ด์…˜์€ ํฐ ๋น„์šฉ์ž…๋‹ˆ๋‹ค. SAM 3์˜ Data Engine ์ ‘๊ทผ๋ฒ•์€ ์ธ๊ฐ„-AI ํ˜‘๋ ฅ์œผ๋กœ ์–ด๋…ธํ…Œ์ด์…˜ ํšจ์œจ์„ 2๋ฐฐ ์ด์ƒ ๋†’์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ์‹œ ์œ ์‚ฌํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ SAM 3 ์ž์ฒด๋ฅผ pseudo-label ์ƒ์„ฑ๊ธฐ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋กœ๋ด‡ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™ ์–ด๋…ธํ…Œ์ด์…˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

9.5 SAM 3 Agent์™€ LLM ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์‹œ์Šคํ…œ

์ตœ๊ทผ LLM/VLM ๊ธฐ๋ฐ˜ ๋กœ๋ด‡ ์ œ์–ด ์‹œ์Šคํ…œ(์˜ˆ: RT-2, PaLM-E, Code as Policies)์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. SAM 3 Agent์˜ ํŒจํ„ดโ€”MLLM์ด SAM 3๋ฅผ ๋„๊ตฌ๋กœ ์‚ฌ์šฉโ€”์€ ์ด๋Ÿฌํ•œ ์‹œ์Šคํ…œ๊ณผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ†ตํ•ฉ๋ฉ๋‹ˆ๋‹ค. MLLM์ด ๊ณ ์ˆ˜์ค€ ์ถ”๋ก (โ€œ์„ ๋ฐ˜์—์„œ ๊ฐ€์žฅ ํฐ ๋ฌผ์ฒด๋ฅผ ์ง‘์–ดโ€)์„ ์ˆ˜ํ–‰ํ•˜๊ณ , SAM 3๊ฐ€ ์ €์ˆ˜์ค€ ์ง€๊ฐ(ํ•ด๋‹น ๋ฌผ์ฒด ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜)์„ ๋‹ด๋‹นํ•˜๋Š” ๊ณ„์ธต์  ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.


10. ์ถ”๋ก  ์„ฑ๋Šฅ ๋ฐ ํšจ์œจ์„ฑ

๋กœ๋ด‡๊ณตํ•™ ์‘์šฉ์—์„œ ์‹ค์‹œ๊ฐ„ ๋˜๋Š” ์ค€์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. SAM 3์˜ ์ถ”๋ก  ์„ฑ๋Šฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

ํ™˜๊ฒฝ ์„ฑ๋Šฅ
H200 GPU, ๋‹จ์ผ ์ด๋ฏธ์ง€ 30ms (100+ ๊ฐ์ฒด ํƒ์ง€)
๋น„๋””์˜ค ๊ฐ์ฒด ์ˆ˜์— ๋”ฐ๋ผ ์Šค์ผ€์ผ, ์ ์€ ๊ฐ์ฒด ์‹œ ์ค€์‹ค์‹œ๊ฐ„

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” 8.48์–ต ๊ฐœ๋กœ, ์ตœ์‹  ๋น„์ „ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์ค‘ ํ•ฉ๋ฆฌ์ ์ธ ํฌ๊ธฐ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์‹œ์Šคํ…œ์— ํƒ‘์žฌ๋œ GPU(์˜ˆ: NVIDIA Jetson ์‹œ๋ฆฌ์ฆˆ)์—์„œ์˜ ์ตœ์ ํ™”๋œ ์ถ”๋ก ์ด๋‚˜ EfficientSAM3์™€ ๊ฐ™์€ ๊ฒฝ๋Ÿ‰ํ™” ๋ฒ„์ „์˜ ๊ฐœ๋ฐœ์ด ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.


11. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

11.1 ํ˜„์žฌ ํ•œ๊ณ„์ 

  • ๋„๋ฉ”์ธ ์™ธ ์šฉ์–ด ์ผ๋ฐ˜ํ™” ํ•œ๊ณ„: ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜์ง€ ์•Š์€ ํŠน์ˆ˜ ๋„๋ฉ”์ธ ์šฉ์–ด(์˜ˆ: ํŠน์ • ์‚ฐ์—… ๋ถ€ํ’ˆ ๋ช…์นญ)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๊ฐ€ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค. ์ž๋™ ๋„๋ฉ”์ธ ํ™•์žฅ์œผ๋กœ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์ถ”๊ฐ€ ํ•™์Šต์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  • ๊ฐ„๋‹จํ•œ ๋ช…์‚ฌ๊ตฌ๋กœ ์ œํ•œ: โ€œํ…Œ์ด๋ธ” ์™ผ์ชฝ์˜ ๋นจ๊ฐ„ ๋ฌผ์ฒดโ€์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ๊ณต๊ฐ„์  ๊ด€๊ณ„๋‚˜ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ฟผ๋ฆฌ๋Š” ์ง์ ‘ ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. MLLM๊ณผ์˜ ๊ฒฐํ•ฉ์œผ๋กœ ์šฐํšŒ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ์ถ”๊ฐ€ ๋ณต์žก์„ฑ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

  • ๊ธด ๋น„๋””์˜ค ์ฒ˜๋ฆฌ: 30์ดˆ๋กœ ์ œํ•œ๋œ ๋น„๋””์˜ค ๊ธธ์ด๋Š” ์žฅ์‹œ๊ฐ„ ๋กœ๋ด‡ ์ž‘์—…์—์„œ ์ œ์•ฝ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ: 8.48์–ต ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์€ ๋ฆฌ์†Œ์Šค ์ œํ•œ ํ™˜๊ฒฝ์—์„œ ์ง์ ‘ ์‚ฌ์šฉํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

11.2 ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๊ฒฝ๋Ÿ‰ํ™” ์—ฐ๊ตฌ: EfficientSAM3์ฒ˜๋Ÿผ Progressive Hierarchical Distillation์„ ํ†ตํ•œ ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ ๊ฐœ๋ฐœ์ด ์ง„ํ–‰ ์ค‘์ž…๋‹ˆ๋‹ค. RepViT, TinyViT, EfficientViT ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•œ ์˜จ๋””๋ฐ”์ด์Šค ๋ฐฐํฌ๊ฐ€ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

  • 3D ์ธ์‹ ํ†ตํ•ฉ: ๊ฐ™์€ ์‹œ๊ธฐ์— ๋ฐœํ‘œ๋œ SAM 3D์™€์˜ ํ†ตํ•ฉ์œผ๋กœ RGB-D ์ž…๋ ฅ ์ฒ˜๋ฆฌ, 3D ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๋กœ๋ด‡ ํŠนํ™” ํŒŒ์ธํŠœ๋‹: ๊ณต์žฅ ์ž๋™ํ™”, ๋†์—… ๋กœ๋ด‡, ์„œ๋น„์Šค ๋กœ๋ด‡ ๋“ฑ ํŠน์ • ์‘์šฉ์— ๋งž๋Š” ๋„๋ฉ”์ธ ์ ์‘ ํ•™์Šต

  • Embodied AI ์‹œ์Šคํ…œ ํ†ตํ•ฉ: ๋กœ๋ด‡ ์ œ์–ด ์ •์ฑ…๊ณผ SAM 3์˜ end-to-end ํ•™์Šต ๋˜๋Š” ๋” ๋ฐ€์ ‘ํ•œ ํ†ตํ•ฉ ์—ฐ๊ตฌ


12. ๊ฒฐ๋ก 

SAM 3: Segment Anything with Concepts๋Š” ํ”„๋กฌํ”„ํ„ฐ๋ธ” ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์ƒˆ๋กœ์šด ์žฅ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•œ ๊ฐœ๋… ๊ธฐ๋ฐ˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜, ์ธ์‹-์œ„์น˜ํ™” ๋ถ„๋ฆฌ๋ฅผ ํ†ตํ•œ ์•„ํ‚คํ…์ฒ˜ ํ˜์‹ , ์ธ๊ฐ„-AI ํ˜‘๋ ฅ Data Engine์„ ํ†ตํ•œ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์€ ๋ชจ๋‘ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ธฐ์—ฌ์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณตํ•™ ๊ด€์ ์—์„œ SAM 3๋Š” ์–ธ์–ด ๊ธฐ๋ฐ˜ manipulation, ์‹œ๋งจํ‹ฑ ๋‚ด๋น„๊ฒŒ์ด์…˜, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜, ์ž๋™ ๋ฐ์ดํ„ฐ ์–ด๋…ธํ…Œ์ด์…˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ MLLM๊ณผ์˜ ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๋” ๋ณต์žกํ•œ ๋กœ๋ด‡ ์ง€๊ฐ ํƒœ์Šคํฌ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์ด ์—ด๋ ธ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ์ธ๊ฐ„ ์„ฑ๋Šฅ์˜ 74%์— ๋‹ฌํ•˜๋Š” ์ •ํ™•๋„๋Š” SAM 3๊ฐ€ ๋‹จ์ˆœํ•œ ์ ์ง„์  ๊ฐœ์„ ์ด ์•„๋‹Œ ์งˆ์  ๋„์•ฝ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋œ ๋ชจ๋ธ, ์ฝ”๋“œ, ๋ฒค์น˜๋งˆํฌ๋Š” ๋กœ๋ด‡๊ณตํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ํ›„์† ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก  ๋„๋ฉ”์ธ ์™ธ ์ผ๋ฐ˜ํ™”, ๋ณต์žกํ•œ ์ถ”๋ก  ์ฟผ๋ฆฌ ์ฒ˜๋ฆฌ, ์—ฃ์ง€ ๋ฐฐํฌ ๋“ฑ์˜ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„ ์žˆ์ง€๋งŒ, ์ด๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๋Š” ๋ถ„์•ผ์—์„œ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ›„์† ์—ฐ๊ตฌ ์ฃผ์ œ์ž…๋‹ˆ๋‹ค. SAM 3์™€ SA-Co ๋ฒค์น˜๋งˆํฌ๋Š” ์ปดํ“จํ„ฐ ๋น„์ „๊ณผ ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ

  • ๋…ผ๋ฌธ: arXiv:2511.16719
  • GitHub: facebookresearch/sam3
  • ๋ฐ๋ชจ: segment-anything.com
  • ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€: ai.meta.com/sam3
  • SA-Co ๋ฒค์น˜๋งˆํฌ: HuggingFace - SA-Co/Gold, SA-Co/Silver, SA-Co/VEval

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

SAM3: Segment Anything with Concepts ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

์„œ๋ก  (Introduction)

์ปดํ“จํ„ฐ ๋น„์ „์—์„œ ์–ด๋–ค ์žฅ๋ฉด์—์„œ๋„ ๋ชจ๋“  ๊ฐ์ฒด๋ฅผ ๋ถ„ํ• (segmentation)ํ•ด๋‚ด๋Š” ๋Šฅ๋ ฅ์€ ๋‹ค์–‘ํ•œ ์‘์šฉ์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡์—๊ฒŒ ์‹œ๊ฐ์  ์ธ์ง€๋Šฅ๋ ฅ์„ ๋ถ€์—ฌํ•˜๊ฑฐ๋‚˜, ์ฆ๊ฐ•ํ˜„์‹ค(AR)์—์„œ ์žฅ๋ฉด ์† ๊ฐ์ฒด๋ฅผ ๊ฐ•์กฐ ํ‘œ์‹œํ•˜๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ์ด๋Ÿฌํ•œ ๋ฒ”์šฉ ์‹œ๊ฐ ์„ธ๋ถ„ํ™” ๋Šฅ๋ ฅ์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค. Meta AI๊ฐ€ 2023๋…„ ๊ณต๊ฐœํ•œ Segment Anything Model (SAM)์€ ์‚ฌ์šฉ์ž์˜ ํ”„๋กฌํ”„ํŠธ(prompt)๋งŒ ์žˆ์œผ๋ฉด ์ด๋ฏธ์ง€ ๋‚ด ์ž„์˜์˜ ๊ฐ์ฒด๋ฅผ ์ฆ‰์„์—์„œ ๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ดˆ ๋ชจ๋ธ(foundation model)๋กœ ํฐ ์ฃผ๋ชฉ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. SAM์€ ์ ์ด๋‚˜ ๋ฐ•์Šค ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์ž…๋ ฅ๋งŒ์œผ๋กœ ํ•ด๋‹น ์œ„์น˜์˜ ๊ฐ์ฒด ๋งˆ์Šคํฌ๋ฅผ ์‚ฐ์ถœํ•˜์—ฌ, ์ผ์ผ์ด ๊ฐ์ฒด๋งˆ๋‹ค ์ˆ˜๋™ ๋ถ„ํ• ์„ ํ•ด์•ผ ํ–ˆ๋˜ ๊ธฐ์กด ๋ฐฉ์‹์„ ํ˜์‹ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์–ด์„œ 2024๋…„ ๋ฐœํ‘œ๋œ SAM2 (Segment Anything Model 2)๋Š” ์ด ๊ฐœ๋…์„ ๋น„๋””์˜ค๋กœ ํ™•์žฅํ•˜์—ฌ, ๋™์˜์ƒ ๋‚ด์—์„œ๋„ ํ•œ ๋ฒˆ ํด๋ฆญ์œผ๋กœ ์ง€์ •ํ•œ ๊ฐ์ฒด๋ฅผ ๋ชจ๋“  ํ”„๋ ˆ์ž„์— ๊ฑธ์ณ ์ถ”์ ยท๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฐœ์ „์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. SAM2๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋“ค์€ ๋น„๋””์˜ค ์–ด๋А ํ”„๋ ˆ์ž„์—์„œ๋“  ๊ฐ์ฒด๋ฅผ ์„ ํƒํ•˜๊ณ  ์ถ”์  ๊ฒฐ๊ณผ๋ฅผ ๋Œ€ํ™”์‹์œผ๋กœ ๊ฐœ์„ (์ •๊ตํ™”)ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๊ณ , ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋™์˜์ƒ์—์„œ๋„ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์„ธ๋ถ„ํ™”(Promptable Visual Segmentation, PVS)์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ SAM๊ณผ SAM2 ๋ชจ๋‘ ์–ด๋–ค โ€œ๊ฐœ๋…โ€์„ ์ž๋™์œผ๋กœ ์ฐพ์•„์ฃผ๋Š” ๋Šฅ๋ ฅ์€ ๋ถ€์žฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์‚ฌ์šฉ์ž๊ฐ€ ์ผ์ผ์ด ๊ฐ€๋ฆฌํ‚จ ๊ฐ์ฒด๋งŒ ๋ถ„ํ• ํ•  ๋ฟ, ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์˜์ƒ์— ์žˆ๋Š” ๋ชจ๋“  ๊ณ ์–‘์ด๋ฅผ ์ฐพ์•„์ค˜โ€์™€ ๊ฐ™์€ ์š”์ฒญ์— ๋‹ตํ•˜์ง€๋Š” ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ์ฃผ์–ด์ง„ ๊ฐœ๋…์— ํ•ด๋‹นํ•˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด๋ฅผ ํ•œ๊บผ๋ฒˆ์— ์ฐพ์•„ ์„ธ๋ถ„ํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋‹ค์Œ ๊ณผ์ œ๋กœ ๋ถ€์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. 2025๋…„ Meta AI๊ฐ€ ๊ณต๊ฐœํ•œ SAM3: Segment Anything with Concepts๋Š” ๋ฐ”๋กœ ์ด ๋ฌธ์ œ๋ฅผ ์ •๋ฉด์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. SAM3๋Š” ํ…์ŠคํŠธ ๋˜๋Š” ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋กœ ๊ฐœ๋…์„ ์ œ์‹œํ•˜๋ฉด, ์ด๋ฏธ์ง€๋‚˜ ์˜์ƒ ์ „๋ฐ˜์— ๊ฑธ์ณ ๊ทธ ๊ฐœ๋…์— ํ•ด๋‹นํ•˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด ์ธ์Šคํ„ด์Šค๋ฅผ ํƒ์ง€, ๋ถ„ํ• ํ•˜๊ณ  ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋…ธ๋ž€์ƒ‰ ํ•™๊ต ๋ฒ„์Šคโ€๋ผ๋Š” ์งง์€ ๋ช…์‚ฌ๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์ฃผ๋ฉด ํ™”๋ฉด ์† ๋ชจ๋“  ๋…ธ๋ž€ ํ•™๊ต ๋ฒ„์Šค๋ฅผ ์ฐพ์•„ ๊ฐ์ž๋ฅผ ๋ถ„ํ• ํ•˜๋ฉฐ, ํ•œ ํ”„๋ ˆ์ž„์ด ์•„๋‹ˆ๋ผ ์˜์ƒ ์ „์ฒด์—์„œ ๋™์ผ ๊ฐ์ฒด๋ฅผ ์ถ”์ ํ•˜์—ฌ ์ผ๊ด€๋œ ID๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ๊ฐœ๋… ์„ธ๋ถ„ํ™”(Promptable Concept Segmentation, PCS) ๋Šฅ๋ ฅ์€ ์ด์ „ SAM ์‹œ๋ฆฌ์ฆˆ์—๋Š” ์—†๋˜ ์ƒˆ๋กœ์šด ์ฐจ์›์œผ๋กœ, ์‹œ๊ฐ ์„ธ๋ถ„ํ™” ๋ถ„์•ผ์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์„ธ์› ๋‹ค๊ณ  ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ SAM3๋Š” ํ…์ŠคํŠธ ์งง์€ ๊ตฌ๋‚˜ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„๋“ค์—ฌ ์‹œ๋งจํ‹ฑํ•œ ๊ฐœ๋… ์ดํ•ด๋ฅผ ํ†ตํ•ฉํ•˜์˜€๊ณ , ์ด๋ฏธ์ง€-๋น„๋””์˜ค๋ฅผ ์•„์šฐ๋ฅด๋Š” ํ†ตํ•ฉ ๋ชจ๋ธ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Meta์— ๋”ฐ๋ฅด๋ฉด SAM3๋Š” ์ด์ „ ์‹œ์Šคํ…œ ๋Œ€๋น„ 2๋ฐฐ์— ๋‹ฌํ•˜๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ค„ ํ˜„์‹œ์  ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜ ์„ธ๋ถ„ํ™” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์œผ๋ฉฐ, ๊ธฐ์กด SAM/SAM2๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋˜ ๋Œ€ํ™”์‹ ์„ธ๋ถ„ํ™” ๊ณผ์ œ์˜ ์ •ํ™•๋„๋„ ํ•œ์ธต ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ๋Š” SAM3 ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๊ธฐ์—ฌ์ ๊ณผ ํ˜์‹ ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•˜๊ณ , ๊ธฐ์กด SAM ๊ณ„์—ด ๋ชจ๋ธ(SAM, SAM2)๊ณผ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ ํ˜•ํƒœ, ์„ธ๋ถ„ํ™” ์„ฑ๋Šฅ, ์˜๋ฏธ ์ดํ•ด ์ธก๋ฉด์˜ ๋ฐœ์ „์„ ๋…ผ์˜ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์•„์šธ๋Ÿฌ ๋กœ๋ด‡๊ณตํ•™ ๋ถ„์•ผ์˜ ๋Œ€ํ•™์›์ƒ ๋…์ž๋ฅผ ์—ผ๋‘์— ๋‘๊ณ , SAM3๊ฐ€ ๋กœ๋ด‡ ์ง€๊ฐ, ํ™˜๊ฒฝ์˜ ์‹œ๋งจํ‹ฑ ๋งตํ•‘, ๊ฐ์ฒด ์ดํ•ด, ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ ๋“ฑ์— ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ์  ์‘์šฉ๊ณผ ์˜ํ–ฅ์„ ๊ณ ์ฐฐํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ณธ๋ก  (Main Body)

SAM ์‹œ๋ฆฌ์ฆˆ์˜ ๋ฐœ์ „: SAM๋ถ€ํ„ฐ SAM3๊นŒ์ง€

SAM1 (Segment Anything Model)์€ ์‚ฌ์šฉ์ž ํ”„๋กฌํ”„ํŠธ๋กœ ์ง€์ •ํ•œ ๋‹จ์ผ ๊ฐ์ฒด๋ฅผ ์ด๋ฏธ์ง€์—์„œ ๋ถ„ํ• ํ•˜๋Š” ๋Œ€ํ™”์‹ ๋ถ„ํ•  ๋ชจ๋ธ๋กœ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž ์ž…๋ ฅ์œผ๋กœ ์  ํ•˜๋‚˜๋‚˜ ๋ฐ•์Šค ์˜์—ญ์„ ์ฃผ๋ฉด, SAM์€ ๊ฑฐ๋Œ€ํ•œ ์‚ฌ์ „ ํ•™์Šต ๋•๋ถ„์— ํ•ด๋‹น ์œ„์น˜์˜ ๊ฐ์ฒด ๊ฒฝ๊ณ„๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜์—ฌ ๋งˆ์Šคํฌ๋ฅผ ์ถœ๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค. SAM1์˜ ํŠน์ง•์€ ํด๋ž˜์Šค ๋ถˆ๋ฌธ ์–ด๋–ค ๊ฐ์ฒด๋“  ๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์„ฑ์œผ๋กœ, ์‹œ๋งจํ‹ฑ ๋ ˆ์ด๋ธ” ์—†์ด๋„ ๋งˆ์Šคํฌ๋ฅผ ์ถ”๋ก ํ•œ๋‹ค๋Š” ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ ๋™์‹œ์— ํ•˜๋‚˜์˜ ํ”„๋กฌํ”„ํŠธ๋กœ ํ•˜๋‚˜์˜ ๊ฐ์ฒด๋งŒ ์„ธ๋ถ„ํ™”ํ–ˆ๊ธฐ์—, ๋‹ค์ˆ˜ ๊ฐ์ฒด๋ฅผ ๋ชจ๋‘ ์ฐพ์•„๋‚ด๋ ค๋ฉด ๊ทธ๋งŒํผ ์—ฌ๋Ÿฌ ๋ฒˆ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž…๋ ฅํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

SAM2๋Š” ์ด๋ฅผ ๋ฐœ์ „์‹œ์ผœ ๋™์˜์ƒ(Video)์— ์ ์šฉํ•œ ๋ฒ„์ „์œผ๋กœ, ํ”„๋ ˆ์ž„ ๊ฐ„ ๊ฐ์ฒด ์ถ”์  ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์˜์ƒ ์ฒซ ํ”„๋ ˆ์ž„์—์„œ ์‚ฌ๋žŒ์„ ํด๋ฆญํ•˜๋ฉด ์ดํ›„ ๋ชจ๋“  ํ”„๋ ˆ์ž„์—์„œ ๊ทธ ์‚ฌ๋žŒ์ด ์–ด๋”จ๋Š”์ง€ ์ž๋™์œผ๋กœ ์ถ”์ ํ•˜๋ฉด์„œ ๋งˆ์Šคํฌ๋ฅผ ์ „ ํ”„๋ ˆ์ž„์— ์ƒ์„ฑํ•ด์ค๋‹ˆ๋‹ค. ๋˜ํ•œ SAM2๋Š” ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๋ฅผ ๋ชฉํ‘œ๋กœ ์ตœ์ ํ™”๋˜์–ด, ์›๋ณธ SAM๋ณด๋‹ค ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ์†๋„ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ์ถ”์  ๋„์ค‘ ์ž˜๋ชป๋œ ๋งˆ์Šคํฌ์— ์ˆ˜์ • ํด๋ฆญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜๋„ ์žˆ์–ด, ๊ธด ์˜์ƒ์—์„œ๋„ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•œ ๋ฐ˜๋ณต ์ •๋ฐ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ SAM2๊นŒ์ง€๋„ ํ…์ŠคํŠธ๋‚˜ ๋ฒ”์ฃผ ์ด๋ฆ„์œผ๋กœ ๊ฐ์ฒด๋ฅผ ์ฐพ๋Š” ๊ธฐ๋Šฅ์€ ์—†์—ˆ๊ณ , ์–ด๋””๊นŒ์ง€๋‚˜ ์‚ฌ์šฉ์ž๊ฐ€ ํŠน์ • ์œ„์น˜๋ฅผ ์ง‘์–ด์„œ ์•Œ๋ ค์ฃผ์–ด์•ผ๋งŒ ๋™์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ SAM/SAM2๋Š” ์‹œ๋งจํ‹ฑํ•œ ์ดํ•ด ์—†์ด ํ”ฝ์…€ ๋‹จ์œ„ ๋ถ„ํ• ์— ์ดˆ์ ์„ ๋งž์ถ˜ ํด๋ž˜์Šค ๋ถˆ๊ฐ€์ง€๋ก ์  ๋ชจ๋ธ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

SAM3๋Š” ์ด๋Ÿฌํ•œ ๋งฅ๋ฝ์—์„œ ๋ชจ๋“  ๊ฒƒ์„ ์„ธ๋ถ„ํ™”ํ•œ๋‹ค๋Š” SAM์˜ ๋น„์ „์„ ํ•œ ๋‹จ๊ณ„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ํฐ ๋ณ€ํ™”๋Š” ์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ์˜ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์ž…๋‹ˆ๋‹ค. ์ด์ œ ์‚ฌ์šฉ์ž๋Š” ํ…์ŠคํŠธ๋กœ ๊ฐœ๋…์„ ์ž…๋ ฅํ•˜๊ฑฐ๋‚˜ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ, โ€œ์–ด๋–ค ๊ฒƒโ€์„ ์ฐพ์„์ง€ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. SAM3๋Š” ๊ทธ ๊ฐœ๋…์— ๋งž๋Š” ๋ชจ๋“  ๊ฐ์ฒด๋“ค์„ ํ•œ๊บผ๋ฒˆ์— ํƒ์ง€ ๋ฐ ๋ถ„ํ• ํ•˜๋ฉฐ, ์˜์ƒ์˜ ๊ฒฝ์šฐ ๊ฐ ๊ฐ์ฒด๋ฅผ ๋๊นŒ์ง€ ์ถ”์ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ โ€œ๊ณ ์–‘์ดโ€๋ผ๊ณ  ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ๋ฉด ํ™”๋ฉด ์† ๋ชจ๋“  ๊ณ ์–‘์ด๋ฅผ ๋งˆ์Šคํฌ๋กœ ๋ถ„ํ• ํ•˜๊ณ , ๊ฐ๊ฐ์„ ID์™€ ํ•จ๊ป˜ ํ‘œ์‹œํ•ด์ฃผ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฐœ๋… ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์„ธ๋ถ„ํ™”๋Š” ๊ธฐ์กด SAM2์™€ ๋Œ€๋น„๋˜๋Š” ๊ทผ๋ณธ์  ์ฐจ์ด๋กœ์„œ, ์–ด๋””(์œ„์น˜)๋ฅผ ์ง€์ •ํ•˜๋˜ ์ด์ „ ๋ฒ„์ „๋“ค๊ณผ ๋‹ฌ๋ฆฌ ๋ฌด์—‡(๊ฐœ๋…)์„ ์ง€์ •ํ•˜๋ฉด ๋œ๋‹ค๋Š” ์ ์—์„œ ์‚ฌ์šฉ์ž ์ž…์žฅ์—์„œ ํ›จ์”ฌ ๋†’์€ ์ˆ˜์ค€์˜ ํŽธ์˜์„ฑ๊ณผ ์˜๋ฏธ ์ดํ•ด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋‚˜์•„๊ฐ€ SAM3๋Š” ์—ฌ๋Ÿฌ ๊ฐ์ฒด ์ธ์Šคํ„ด์Šค๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ธฐ์—, ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ ์‚ฌ์šฉ์ž ๋ถ€๋‹ด์„ ํฌ๊ฒŒ ์ค„์ด๊ณ  ํฌ๊ด„์ ์ธ ์žฅ๋ฉด ์ดํ•ด๋ฅผ ๊ฐ€๋Šฅ์ผ€ ํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ, SAM3๋„ SAM2๊ฐ€ ์ง€์›ํ•˜๋˜ ์ /๋ฐ•์Šค ํ”„๋กฌํ”„ํŠธ๋‚˜ ๋Œ€ํ™”์‹ ํด๋ฆญ ์ •๊ตํ™” ๊ธฐ๋Šฅ์„ ๋ชจ๋‘ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด, ๊ธฐ์กด PVS ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์„ฑ๋Šฅ ์—ญ์‹œ ํ–ฅ์ƒ๋œ ์ฑ„๋กœ ์œ ์ง€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ SAMโ†’SAM2โ†’SAM3๋กœ์˜ ์ง„ํ™”๋Š” ์ด๋ฏธ์ง€ ๋‹จ์ผ ๊ฐ์ฒด ์„ธ๋ถ„ํ™”์—์„œ ์˜์ƒ ๋‹ค์ค‘ ๊ฐ์ฒด ์„ธ๋ถ„ํ™”, ๊ทธ๋ฆฌ๊ณ  ์‹œ๋งจํ‹ฑ ๊ฐœ๋… ์„ธ๋ถ„ํ™”๋กœ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ๊ธฐ๋Šฅ์˜ ํ™•์žฅ**์„ ๊ฑฐ๋“ญํ•ด์˜จ ๊ฒƒ์œผ๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SAM3์˜ ์•„ํ‚คํ…์ฒ˜ ๋ถ„์„ (Architecture of SAM3)

๊ทธ๋ฆผ 1: SAM3 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š”๋„. DETR ์Šคํƒ€์ผ์˜ ๊ฒ€์ถœ๊ธฐ(๋…ธ๋ž‘)์™€ SAM2 ๊ธฐ๋ฐ˜์˜ ์ถ”์ ๊ธฐ(ํŒŒ๋ž‘)๊ฐ€ ๋‹จ์ผ ๋น„์ „ ๋ฐฑ๋ณธ(PE)(๋…น์ƒ‰)์„ ๊ณต์œ ํ•˜๋Š” ์ด์ค‘ ์ธ์ฝ”๋”-๋””์ฝ”๋” ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ์ด๋‹ค. ํ…์ŠคํŠธ/์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ๋กœ ์ธ์‹ ๊ฐœ๋…์„ ์ง€์ •ํ•˜๊ณ , ๊ฒ€์ถœ๊ธฐ๋Š” ํ•ด๋‹น ๊ฐœ๋…์˜ ๊ฐ์ฒด๋“ค์„ ์ฐพ๊ณ  ๋ถ„ํ•  ๋งˆ์Šคํฌ๋ฅผ ์˜ˆ์ธกํ•˜๋ฉฐ, ์ถ”์ ๊ธฐ๋Š” ์—ฐ์† ํ”„๋ ˆ์ž„์—์„œ ๊ฐ์ฒด๋“ค์„ ์—ฐ๊ฒฐํ•˜์—ฌ ๋™์ผ ๊ฐ์ฒด ID๋ฅผ ์œ ์ง€ํ•œ๋‹ค.

SAM3์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ๋Š” ๊ธฐ์กด SAM ๋ฐ DETR ๊ณ„์—ด ๋ชจ๋ธ์˜ ์•„์ด๋””์–ด๋ฅผ ํ†ตํ•ฉํ•˜๋ฉด์„œ๋„, ๊ฐœ๋… ์ธ์‹์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ์ถ”๊ฐ€ํ•œ ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. ์ „์ฒด์ ์œผ๋กœ๋Š” dual encoder-decoder ํ˜•ํƒœ์˜ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋กœ, ์ด๋ฏธ์ง€+ํ…์ŠคํŠธ ์œตํ•ฉ ์ธ์ฝ”๋”์™€ DETR ์Šคํƒ€์ผ ๊ฒ€์ถœ๊ธฐ ๋””์ฝ”๋”, ๊ทธ๋ฆฌ๊ณ  SAM2 ์Šคํƒ€์ผ์˜ ์ถ”์ ๊ธฐ ๋””์ฝ”๋”๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ํ†ตํ•ฉ ๋น„์ „ ๋ฐฑ๋ณธ์ธ Perception Encoder (PE)๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ์‹œ๊ฐ ํŠน์ง•์ด ํ…์ŠคํŠธ/์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ณต๋™์˜ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ์ •๋ ฌ๋ฉ๋‹ˆ๋‹ค.

๊ฒ€์ถœ๊ธฐ(Detector)๋Š” Meta๊ฐ€ ์ด์ „์— ๊ฐœ๋ฐœํ•œ DETR ๋ชจ๋ธ์ฒ˜๋Ÿผ ๊ฐ์ฒด ์งˆ์˜(object query)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋‚ด ๊ฐ์ฒด๋“ค์„ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ผ๋ฐ˜ DETR๊ณผ ๋‹ฌ๋ฆฌ, SAM3์˜ ๊ฒ€์ถœ๊ธฐ๋Š” ํ…์ŠคํŠธ ๋ฐ ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ์— ์กฐ๊ฑดํ™”(condition)}๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํŠน์ง•๋งต๊ณผ ํ…์ŠคํŠธ ํ† ํฐ(๊ฐœ๋… ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ) ๋ฐ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ํ† ํฐ(์„ ํƒ์ )์„ ํ•จ๊ป˜ ํŠธ๋žœ์Šคํฌ๋จธ ์ธ์ฝ”๋”์— ๋„ฃ์–ด ํ”„๋กฌํ”„ํŠธ๋กœ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์œตํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ DETR ๋ฐฉ์‹์˜ ๋””์ฝ”๋”๊ฐ€ ํ•™์Šต๋œ N๊ฐœ์˜ ๊ฐ์ฒด ์งˆ์˜๋ฅผ ํ†ตํ•ด ์ด ์œตํ•ฉ๋œ ํŠน์ง•์— ์–ดํ…์…˜์„ ์ˆ˜ํ–‰, ํ”„๋กฌํ”„ํŠธ์— ๋ถ€ํ•ฉํ•˜๋Š” ๊ฐ์ฒด๋“ค๋งŒ์„ ์ฐพ์•„๋‚ด๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ์งˆ์˜ ํ† ํฐ์€ ์ž์‹ ์ด ๋งก์€ ํ›„๋ณด ์˜์—ญ์— ๋Œ€ํ•ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ์ด ๊ฐ์ฒด๊ฐ€ ํ”„๋กฌํ”„ํŠธ ๊ฐœ๋…์— ํ•ด๋‹นํ•˜๋Š”์ง€ ์—ฌ๋ถ€(์ด์ง„ ๋ถ„๋ฅ˜)๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๊ฒ€์ถœ ๋””์ฝ”๋”๋Š” ๊ณง๋ฐ”๋กœ ๋งˆ์Šคํฌ ์˜ˆ์ธก ํ—ค๋“œ๋„ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์–ด, MaskFormer ๋ฐฉ์‹์œผ๋กœ ๊ฐ ์งˆ์˜๋ณ„ ์ •๋ฐ€ ๋ถ„ํ•  ๋งˆ์Šคํฌ๋ฅผ ์‚ฐ์ถœํ•ฉ๋‹ˆ๋‹ค. ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ™”๋ฉด ์ „์ฒด ํ”ฝ์…€์— ๋Œ€ํ•ด ํ•ด๋‹น ๊ฐœ๋… ์—ฌ๋ถ€๋ฅผ ํ‘œ์‹œํ•˜๋Š” ์‹œ๋งจํ‹ฑ ๋ถ„ํ•  ๋งต๋„ ๋ณ„๋„๋กœ ์˜ˆ์ธกํ•˜์—ฌ, ๊ฐœ๋… ๊ด€๋ จ ํ”ฝ์…€์˜ ์ด์ง„ ๋งˆ์Šคํฌ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์ด ์ธ์Šคํ„ด์Šค+์‹œ๋งจํ‹ฑ ๊ฒฐํ•ฉ ์ถœ๋ ฅ์€ ๋ชจ๋ธ์ด ๊ฐœ๋…๊ณผ ๋ฐฐ๊ฒฝ์„ ์ „๋ฐ˜์ ์œผ๋กœ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ฃผ์–ด, ๋ˆ„๋ฝ ์—†์ด ๋ชจ๋“  ๊ฐ์ฒด๋ฅผ ์ฐพ๋Š” ๊ฒƒ์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

SAM3 ๊ฒ€์ถœ๊ธฐ์—์„œ ๊ฐ€์žฅ ๋ˆˆ์— ๋„๋Š” ํ˜์‹ ์€ Presence Token (ํ”„๋ ˆ์ฆŒ์Šค ํ† ํฐ)์˜ ๋„์ž…์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•˜๋‚˜์˜ ํŠน๋ณ„ํ•œ ๋””์ฝ”๋” ํ† ํฐ์œผ๋กœ์จ, ๊ฐœ๋ณ„ ๊ฐ์ฒด ๋Œ€์‹  ์ด๋ฏธ์ง€ ์ „์ฒด ๋งฅ๋ฝ์—์„œ ํ”„๋กฌํ”„ํŠธ ๊ฐœ๋…์˜ ์กด์žฌ ์œ ๋ฌด๋ฅผ ํŒ๋‹จํ•˜๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ „์—ญ ๋ฌธ๋งฅ์„ ์‚ดํŽด โ€œ์ด ์ด๋ฏธ์ง€์— ํ•ด๋‹น ๊ฐœ๋…์ด ์กด์žฌํ•˜๋Š”๊ฐ€?โ€๋ฅผ ๋ณ„๋„๋กœ ์˜ˆ์ธกํ•˜๋Š” ํ† ํฐ์ธ ์…ˆ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ธ์‹(what)๊ณผ ์œ„์น˜ ํƒ์ƒ‰(where) ๊ธฐ๋Šฅ์„ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ, ๊ฐ ๊ฐ์ฒด ์งˆ์˜๊ฐ€ ๊ตญ์†Œ ์˜์—ญ์— ์ง‘์ค‘ํ•˜์—ฌ ์ •๊ตํ•œ ์œ„์น˜์™€ ๋งˆ์Šคํฌ๋ฅผ ์ฐพ๋Š” ๋™์•ˆ, ์ „์—ญ ํ”„๋ ˆ์ฆŒ์Šค ํ† ํฐ์ด ์žฅ๋ฉด ๋‹จ์œ„๋กœ ๊ฐœ๋…์„ ์ธ์ง€ํ•˜๋Š” ๋ถ€๋‹ด์„ ๋œ์–ด์ค๋‹ˆ๋‹ค. ์ตœ์ข…์ ์œผ๋กœ ๊ฐ ๊ฐ์ฒด ์งˆ์˜์˜ ์‹ ๋ขฐ๋„ ์Šค์ฝ”์–ด๋Š” ํ”„๋ ˆ์ฆŒ์Šค ํ† ํฐ์ด ์˜ˆ์ธกํ•œ ๊ฐœ๋… ์กด์žฌ ํ™•๋ฅ ๊ณผ ๊ณฑํ•ด์ ธ ์‚ฐ์ถœ๋˜๋ฏ€๋กœ, ์ด๋ฏธ์ง€์— ๊ฐœ๋…์ด ์•„์˜ˆ ์—†์œผ๋ฉด ๋ชจ๋“  ๊ฐ์ฒด ์˜ˆ์ธก์ด ๋‚ฎ์€ ์ ์ˆ˜๋กœ ์–ต์ œ๋˜๊ณ , ๋ฐ˜๋Œ€๋กœ ์žˆ์„ ๋•Œ๋Š” ๊ฒ€์ถœ ์‹ ๋ขฐ๋„๊ฐ€ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ์ธ์‹(what)๊ณผ ์œ„์น˜๊ฒฐ์ •(where)์˜ ๋””์ปคํ”Œ๋ง์ด๋ผ๋Š” ์ด๋Ÿฌํ•œ ์„ค๊ณ„๋Š”, ๋ณด์ด์ง€ ์•Š๋˜ ์ƒˆ๋กœ์šด ๊ฐœ๋…์ด๋‚˜ ๋ถ€์ • ํ”„๋กฌํ”„ํŠธ(negative prompt) ์ƒํ™ฉ์—์„œ ์˜ค๊ฒ€์ถœ์„ ํฌ๊ฒŒ ์ค„์—ฌ์ฃผ๋Š” ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•˜์—ฌ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋…ผ๋ฌธ์—์„œ๋„ Presence Head ์ถ”๊ฐ€๋กœ ์ด๋ฏธ์ง€ ๋ ˆ๋ฒจ ์ธ์‹ ์ •ํ™•๋„(IL_MCC)๊ฐ€ ํฌ๊ฒŒ ๊ฐœ์„ ๋˜์–ด, ์–ด๋ ค์šด ๋ถ€์ • ํ”„๋ ˆ์ด์ฆˆ ํ•™์Šต์‹œ ์œ ๋ฆฌํ•จ์„ ์‹คํ—˜์œผ๋กœ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด๋ฉด, SAM3๋Š” ํ…์ŠคํŠธ ์™ธ์—๋„ ์‚ฌ์šฉ์ž๊ฐ€ ์ง€์ •ํ•œ ์ด๋ฏธ์ง€ ์˜์—ญ ์˜ˆ์‹œ๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ํ•œ ๊ฐ•์•„์ง€์— ์–‘์„ฑ ์˜ˆ์‹œ ์ƒ์ž๋ฅผ ์ฃผ๋ฉด, ๊ทธ ์ƒ์ž ์† ์‹œ๊ฐ ํŠน์ง•์„ ๋ฐ”ํƒ•์œผ๋กœ ์ด๋ฏธ์ง€ ๋‚ด ๋ชจ๋“  ๊ฐ•์•„์ง€๋ฅผ ๊ฒ€์ถœํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” SAM1/2์—์„œ ์ ์„ ์ฐ์œผ๋ฉด ๊ทธ ์ ์— ํ•ด๋‹นํ•˜๋Š” ํ•œ ๊ฐ์ฒด๋งŒ ๋ถ„ํ• ํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, ์˜ˆ์‹œ ํ•˜๋‚˜๋กœ ๋‹ค์ˆ˜ ๊ฐ์ฒด๋ฅผ ํผ๋œจ๋ ค ์ฐพ๋Š” ์‹ ๊ธฐ๋Šฅ์ž…๋‹ˆ๋‹ค. ๊ธฐ์ˆ ์ ์œผ๋กœ, ์˜ˆ์‹œ ํ”„๋กฌํ”„ํŠธ๋Š” (๊ฒฝ๊ณ„์ƒ์ž ์ขŒํ‘œ + ์–‘์„ฑ/์Œ์„ฑ ๋ผ๋ฒจ + ROI ํ’€๋ง๋œ ์‹œ๊ฐํ”ผ์ฒ˜)๋ฅผ ํ•˜๋‚˜์˜ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋งŒ๋“ค์–ด, ํ…์ŠคํŠธ ํ† ํฐ๋“ค๊ณผ ํ•จ๊ป˜ ํ”„๋กฌํ”„ํŠธ ํ† ํฐ ์‹œํ€€์Šค์— ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค. ๋‚ด๋ถ€์ ์œผ๋กœ๋Š” ์ž‘์€ ํŠธ๋žœ์Šคํฌ๋จธ ์ธ์ฝ”๋”๋ฅผ ๊ฑฐ์ณ ์ด๋Ÿฌํ•œ ์˜ˆ์‹œ ์ž„๋ฒ ๋”ฉ๋“ค์ด ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๊ณผ ๋™์ผํ•œ ๊ณต๊ฐ„์œผ๋กœ ์ •๋ ฌ๋˜๊ณ , ๊ฒฐ๊ตญ ํ…์ŠคํŠธ+์˜ˆ์‹œ๊ฐ€ ํ•ฉ์ณ์ง„ ์กฐ๊ฑด์œผ๋กœ ๊ฒ€์ถœ๊ธฐ๊ฐ€ ์ž‘๋™ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋Š” ์–‘์„ฑ ์˜ˆ์‹œ ์™ธ์—๋„ ์Œ์„ฑ ์˜ˆ์‹œ(negative exemplar)๋ฅผ ์ค˜์„œ ํŠน์ • ๊ฐ์ฒด๋ฅผ ์ œ์™ธ์‹œํ‚ค๊ฑฐ๋‚˜, ๋ˆ„๋ฝ๋œ ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ํ•ด๋‹น ๊ฐ์ฒด๋ฅผ ์ƒˆ๋กœ ์ง€์ •ํ•ด ํƒ์ƒ‰์„ ๋ณด์™„ํ•˜๋Š” ๋“ฑ ์ƒํ˜ธ์ž‘์šฉ์  ์ˆ˜์ •์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๋Š” ์‹ค์‚ฌ์šฉ ์‹œ ์œ ์—ฐ์„ฑ์„ ๋†’์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ํฌ๊ท€ํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ๊ฐœ๋…์˜ ๊ฒฝ์šฐ ํ…์ŠคํŠธ๋งŒ์œผ๋กœ๋Š” ์–ด๋ ค์šด ์‹๋ณ„์„ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋กœ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

์ถ”์ ๊ธฐ(Tracker) ๋ถ€๋ถ„์€ SAM2์—์„œ ์‚ฌ์šฉ๋œ ๋น„๋””์˜ค object segmentation ๋ชจ๋“ˆ์„ ์ƒ๋‹น ๋ถ€๋ถ„ ๊ณ„์Šนํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ถ”์ ๊ธฐ๋Š” ๊ฒ€์ถœ๊ธฐ์™€ ๋™์ผํ•œ PE ๋ฐฑ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ํŠน์ง•์„ ๊ณต์œ ๋ฐ›์œผ๋ฉฐ, ๊ฒ€์ถœ๊ธฐ๊ฐ€ ์ƒ์„ฑํ•œ ์ดˆ๊ธฐ ๋งˆ์Šคํฌ๋“ค์„ ์ฒซ ํ”„๋ ˆ์ž„์—์„œ ์ดˆ๊ธฐํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ดํ›„ ๊ฐ ํ”„๋ ˆ์ž„๋งˆ๋‹ค SAM2์™€ ์œ ์‚ฌํ•œ 1ํ”„๋ ˆ์ž„ ์ „๋ฐฉํ–ฅ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์ด์ „ ํ”„๋ ˆ์ž„๊นŒ์ง€ ์ถ”์ ๋œ ๊ฐ ๊ฐ์ฒด(masklet์ด๋ผ ์ง€์นญ)์˜ ๋‹ค์Œ ์œ„์น˜ ๋งˆ์Šคํฌ๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค. SAM2์—์„œ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ถ”์ ๊ธฐ ๋ชจ๋“ˆ์€ ํ”„๋ ˆ์ž„ ๊ฐ„ ๋ฉ”๋ชจ๋ฆฌ ์€๋‹‰์ƒํƒœ(memory bank)๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ, ๊ฐ ๊ฐ์ฒด์˜ ๊ณผ๊ฑฐappearance ์ •๋ณด๋ฅผ ์ €์žฅํ•ด ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ถ”์ ๊ธฐ ๋‚ด๋ถ€์—๋Š” ํ”„๋กฌํ”„ํŠธ ์ธ์ฝ”๋”(์—ฌ๊ธฐ์„œ๋Š” ์ถ”์  ๋Œ€์ƒ ๊ฐ์ฒด์˜ ๋งˆ์Šคํฌ๊ฐ€ ํ”„๋กฌํ”„ํŠธ ์—ญํ• )์™€ ๋งˆ์Šคํฌ ๋””์ฝ”๋”, ๊ทธ๋ฆฌ๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์ธ์ฝ”๋”(ํŠธ๋žœ์Šคํฌ๋จธ)๊ฐ€ ์žˆ์–ด์„œ, ํ˜„์žฌ ํ”„๋ ˆ์ž„์˜ ํŠน์ง•๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๋ฑ…ํฌ ์† ๊ณผ๊ฑฐ ํ”„๋ ˆ์ž„ ํŠน์ง•๋“ค์„ ๊ต์ฐจ ์–ดํ…์…˜์œผ๋กœ ์กฐํ•ฉํ•ด ํ˜„์žฌ ํ”„๋ ˆ์ž„์—์„œ ๊ฐ์ฒด ๋งˆ์Šคํฌ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์˜ˆ์ธก๋œ ๊ฐ ๊ฐ์ฒด์˜ ๋งˆ์Šคํฌ๋“ค์„ masklet**์ด๋ผ ํ•˜๋ฉฐ, ๋งค ํ”„๋ ˆ์ž„ ๋ชจ๋“  masklet์ด ์—…๋ฐ์ดํŠธ๋˜์–ด ์ถ”์ ์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ SAM3์—์„œ๋Š” ์ถ”์ ๊ธฐ๋งŒ์œผ๋กœ๋Š” ๋†“์น  ์ˆ˜ ์žˆ๋Š” ๊ฐ์ฒด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๊ฒ€์ถœ๊ธฐ์™€ ์ถ”์ ๊ธฐ๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๋…ผ๋ฆฌ๊ฐ€ ์ถ”๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐ ํ”„๋ ˆ์ž„์—์„œ ๊ฒ€์ถœ๊ธฐ๊ฐ€ ์ƒˆ๋กœ ๋ฐœ๊ฒฌํ•œ ๊ฐ์ฒด๋“ค๊ณผ ์ถ”์ ๊ธฐ๊ฐ€ ์ด์–ด์„œ ์ถ”์ ํ•œ ๊ธฐ์กด ๊ฐ์ฒด๋“ค์„ ์ผ์น˜(match)์‹œ์ผœ ๋ณ‘ํ•ฉํ•˜๋Š” ์ ˆ์ฐจ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ƒˆ ํ”„๋ ˆ์ž„์—์„œ ๊ฒ€์ถœ๋œ ๋งˆ์Šคํฌ๊ฐ€ ์ด๋ฏธ ์ถ”์  ์ค‘์ธ masklet๊ณผ IoU ๊ธฐ์ค€ ์ผ์ • ์ด์ƒ ๊ฒน์น˜๋ฉด ๋™์ผ ๊ฐ์ฒด๋กœ ๊ฐ„์ฃผํ•˜๊ณ  ํ•˜๋‚˜๋กœ ํ•ฉ์นฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๊ฒ€์ถœ์— ์žกํžˆ์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๊ฐ์ฒด๊ฐ€ ์žˆ์œผ๋ฉด ์ƒˆ masklet์„ ์ƒ์„ฑํ•˜์—ฌ ์ถ”์  ํ’€์— ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณ‘ํ•ฉ ๋‹จ๊ณ„์—์„œ๋Š” ํŠนํžˆ ํ˜ผ์žกํ•œ ์žฅ๋ฉด์—์„œ ID ํ˜ผ๋™์ด ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ์–ต์ œํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ๋ณด์กฐ์žฅ์น˜๋ฅผ ๋‘ก๋‹ˆ๋‹ค. ์ฒซ์งธ, Temporal consistency ๊ฒ€์‚ฌ๋กœ, ๋งค masklet์ด ์ตœ๊ทผ ์—ฐ์†๋œ ํ”„๋ ˆ์ž„๋“ค์—์„œ ๊ฒ€์ถœ๊ณผ ๊พธ์ค€ํžˆ ๋งค์นญ๋˜์—ˆ๋Š”์ง€๋ฅผ ์ ์ˆ˜ํ™”ํ•˜์—ฌ, ์ผ์ • ๊ธฐ๊ฐ„ ๊ฒ€์ถœ ๋ˆ„๋ฝ ์ƒํƒœ๊ฐ€ ์ง€์†๋˜๋ฉด ํ•ด๋‹น masklet์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ์ฃผ๊ธฐ์  ์žฌ๊ฒ€์ถœ ์žฌ์„ค์ •์œผ๋กœ, ์ถ”์  ๋„์ค‘ ๊ฐ€๋ฆผ(occlusion)์ด๋‚˜ ์œ ์‚ฌ ๊ฐ์ฒด ๊ฐ„ ๊ต๋ž€์œผ๋กœ ์ž˜๋ชป ์ถ”์ ๋  ์œ„ํ—˜์ด ์žˆ๋Š” ๊ฒฝ์šฐ ๊ฒ€์ถœ๊ธฐ๊ฐ€ ๋†’์€ ์‹ ๋ขฐ๋„๋กœ ํฌ์ฐฉํ•œ ๋งˆ์Šคํฌ๋กœ ์ถ”์ ์„ ๋ฎ์–ด์”Œ์›Œ ์žฌ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์–ด๋–ค ๊ฐ์ฒด๊ฐ€ ํ•œ๋™์•ˆ ๊ฐ€๋ ค์กŒ๋‹ค ๋‹ค์‹œ ๋‚˜ํƒ€๋‚ฌ์„ ๋•Œ ์ถ”์ ๊ธฐ๊ฐ€ ๋†“์น  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋•Œ ๊ฒ€์ถœ๊ธฐ๊ฐ€ ์ƒˆ๋กœ ์žก์•„๋‚ธ ๋งˆ์Šคํฌ๋ฅผ ์‚ฌ์šฉํ•ด ์ถ”์ ๊ธฐ์˜ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ตœ์‹  ์ƒํƒœ๋กœ ๊ต์ •ํ•ด์ฃผ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒ€์ถœ-์ถ”์  ํ†ตํ•ฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋•๋ถ„์— SAM3๋Š” ์ถ”์ ๊ธฐ ์ž์ฒด์˜ ํ•œ๊ณ„ (์˜ค๋ฅ˜ ๋ˆ„์  ๋“ฑ)์„ ๊ทน๋ณตํ•˜๊ณ , ์˜์ƒ ์ „์ฒด์—์„œ ๊ฒฌ๊ณ ํ•œ ๋‹ค์ค‘ ๊ฐ์ฒด ์ถ”์ ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, SAM3๋Š” ์ด์ „ ๋ฒ„์ „๋“ค๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์™„์ „ ๋Œ€ํ™”์‹(interactive)์œผ๋กœ ์„ค๊ณ„๋˜์–ด ์žˆ์–ด, ์‚ฌ์šฉ์ž ์ˆ˜์ • ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฅผ ์„ธ๋ฐ€ํžˆ ๋‹ค๋“ฌ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ๋ถ„ํ•  ๋งˆ์Šคํฌ๊ฐ€ ๊ณผํ•˜๊ฒŒ ๋‚˜์™”๋‹ค๋ฉด ๊ทธ ๋ถ€๋ถ„์— ์Œ์„ฑ ํด๋ฆญ(negative point)์„ ์ฐ์–ด ํ•ด๋‹น ๋งˆ์Šคํฌ๋ฅผ ์ถ•์†Œํ•˜๊ฑฐ๋‚˜, ๋ˆ„๋ฝ๋œ ๊ฐ์ฒด์— ์–‘์„ฑ ํด๋ฆญ์„ ์ฐ์–ด ์ƒˆ๋กœ์šด ๋งˆ์Šคํฌ๋ฅผ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ˆ˜์ •์€ ํ•œ ํ”„๋ ˆ์ž„์— ์ ์šฉ๋˜๋ฉด ์˜์ƒ์„ ํ†ตํ‹€์–ด ํ•ด๋‹น ๊ฐ์ฒด์˜ masklet ์ „์ฒด์— ๋ฐ˜์˜๋˜๋ฏ€๋กœ, ์ฒซ ํ”„๋ ˆ์ž„์—์„œ ๋Œ€๋žต ์ง€์ •ํ•œ ํ›„ ์ค‘๊ฐ„์— ๋ช‡ ๋ฒˆ ์ˆ˜์ •๋งŒ์œผ๋กœ๋„ ์˜์ƒ ์ „์ฒด ๊ฒฐ๊ณผ๋ฅผ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, SAM3์˜ ์•„ํ‚คํ…์ฒ˜๋Š” (1) ํ…์ŠคํŠธ/์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ์™€ ์‹œ๊ฐ ํŠน์ง•์˜ ์œตํ•ฉ ์ธ์ฝ”๋”, (2) DETR ๊ธฐ๋ฐ˜ ๊ฐœ๋… ๊ฒ€์ถœ๊ธฐ (Presence Token์œผ๋กœ ์ธ์‹/์œ„์น˜ ๋ถ„๋ฆฌ), (3) SAM2 ๊ธฐ๋ฐ˜ ๋ฉ”๋ชจ๋ฆฌ ์ถ”์ ๊ธฐ (masklet ์ƒ์„ฑ ๋ฐ ๊ด€๋ฆฌ)์˜ ์„ธ ๋ถ€๋ถ„์ด ํ•˜๋‚˜์˜ ๋ฐฑ๋ณธ์—์„œ ํ†ตํ•ฉ๋œ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. ๊ฒ€์ถœ๊ธฐ์™€ ์ถ”์ ๊ธฐ์˜ ๋ถ„๋ฆฌ๋Š” ๊ฐ์ž ID์— ์ƒ๊ด€์—†์ด ๊ฐ์ฒด ์ฐพ๊ธฐ์™€ ๋™์ผ ๊ฐ์ฒด ID ์œ ์ง€ ์ถ”์ ์ด๋ผ๋Š” ์ƒ์ถฉ๋˜๋Š” ๋ชฉ์ ์„ ์ถฉ์‹คํžˆ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ•ด์ฃผ๋ฉฐ, Presence ํ—ค๋“œ๋กœ ๋Œ€ํ‘œ๋˜๋Š” ์ƒˆ๋กœ์šด ์„ค๊ณ„๋“ค์€ ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜ ์ธ์Šคํ„ด์Šค ์„ธ๋ถ„ํ™”๋ผ๋Š” ๋„์ „์„ ์„ฑ๋Šฅ ๋ฉด์—์„œ ๊ทน๋ณตํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ”„๋กฌํ”„ํŠธ ์ฒ˜๋ฆฌ์™€ ๊ฐ•ํ™”๋œ ์ƒํ˜ธ์ž‘์šฉ์„ฑ์€ ์‚ฌ์šฉ์ž ํŽธ์˜์™€ ์ •ํ™•๋„๋ฅผ ํ•จ๊ป˜ ๋†’์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์—”์ง„๊ณผ SA-Co ๋ฐ์ดํ„ฐ์…‹

๊ฐœ๋… ์ธ์ง€๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๋Š” SAM3 ๊ฐ™์€ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋ ค๋ฉด, ๋‹จ์ˆœํ•œ ๋งˆ์Šคํฌ ์œ„์ฃผ์˜ ํ•™์Šต๋งŒ์œผ๋กœ๋Š” ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์–ด๋–ค ์‹œ๋งจํ‹ฑ ๊ฐœ๋…(๋ช…์‚ฌ๊ตฌ)์— ์–ด๋–ค ํ”ฝ์…€๋“ค์ด ํ•ด๋‹นํ•˜๋Š”์ง€ ํ•™์Šตํ•˜๋ ค๋ฉด, ํ…์ŠคํŠธ ๋ผ๋ฒจ์ด ๋‹ฌ๋ฆฐ ๋ถ„ํ•  ๋ฐ์ดํ„ฐ๊ฐ€ ๋Œ€๋Ÿ‰์œผ๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ Segment Anything with Concepts (SA-Co)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. SA-Co ๋ฐ์ดํ„ฐ์…‹์€ 4๋ฐฑ๋งŒ ๊ฐœ ์ด์ƒ์˜ ๊ณ ์œ ํ•œ ๊ฐœ๋… ๋ช…์นญ(noun phrase)๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ์•ฝ 52๋งŒ ๊ฐœ์˜ ์ด๋ฏธ์ง€+๋น„๋””์˜ค์— ๊ฑธ์ณ 14์–ต ๊ฐœ ์ด์ƒ์˜ ๊ฐ์ฒด ๋งˆ์Šคํฌ๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด, ํ˜„์žฌ๊นŒ์ง€ ์ตœ๋Œ€ ๊ทœ๋ชจ์˜ ๊ฐœ๋… ์„ธ๋ถ„ํ™” ์ฝ”ํผ์Šค๋กœ ๊ผฝํž™๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ฐฉ๋Œ€ํ•œ ์ฃผ์„์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ์ €์ž๋“ค์€ ์ธ๊ฐ„๊ณผ AI๊ฐ€ ํ˜‘๋ ฅํ•˜๋Š” 4๋‹จ๊ณ„์˜ ๋ฐ์ดํ„ฐ ์—”์ง„ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ณ ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 2: SAM3 ๋ฐ์ดํ„ฐ ์—”์ง„์˜ ๊ฐœ์š”. 1๋‹จ๊ณ„์—์„œ ์‚ฌ๋žŒ ์ฃผ์„์ž๊ฐ€ ์ดˆ๊ธฐ ์ด๋ฏธ์ง€-๋ช…์‚ฌ์Œ์„ ๊ฒ€์ฆํ•˜๋ฉฐ HQ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ•์ ํ•˜๊ณ , 2-3๋‹จ๊ณ„์—์„œ AI ํ”„๋กฌํ”„ํŠธ ์ƒ์„ฑ๊ธฐ์™€ ๊ฒ€์ฆ๊ธฐ๋ฅผ ํ™œ์šฉํ•ด ์–ดํœ˜ ๋‹ค์–‘์„ฑ๊ณผ ๋‚œ์ด๋„๋ฅผ ๋†’์ธ ์ฃผ์„์„ ์ž๋™ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ˆ˜ํ•œ๋‹ค. 4๋‹จ๊ณ„์—์„œ๋Š” ๋™์˜์ƒ์œผ๋กœ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•œ๋‹ค. AI ๊ฒ€์ฆ๊ธฐ๋ฅผ ๋„์ž…ํ•จ์œผ๋กœ์จ ํœด๋จผ ๋‹จ๋… ๋Œ€๋น„ 2๋ฐฐ ์ด์ƒ์˜ ์ฃผ์„ ์ฒ˜๋ฆฌ๋Ÿ‰ ํ–ฅ์ƒ์ด ์ด๋ฃจ์–ด์กŒ๋‹ค.

1๋‹จ๊ณ„ (Human Verification): ์šฐ์„  ์™ธ๋ถ€ ์†Œ์Šค์—์„œ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€/์˜์ƒ์„ ์ˆ˜์ง‘ํ•˜๊ณ , ๊ทธ์— ๋Œ€ํ•œ ํ›„๋ณด ๋ช…์‚ฌ๊ตฌ ํ”„๋กฌํ”„ํŠธ์™€ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ๋งˆ์Šคํฌ ์ƒ์„ฑ์—๋Š” SAM2์™€ ์˜คํ”ˆ์–ดํœ˜ ๊ฒ€์ถœ ๋ชจ๋ธ์„ ์กฐํ•ฉํ•˜์—ฌ ์ž๋™์œผ๋กœ โ€œ์ด๋ฏธ์ง€-๊ฐœ๋…-๋งˆ์Šคํฌโ€ ์ œ์•ˆ์„ ๋งŒ๋“ค๊ณ , ์ด๋ฅผ ์ธ๊ฐ„ ์ฃผ์„์ž๊ฐ€ ๊ฒ€์ฆํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์œผ๋กœ ์šฐ์„  ์•ฝ 430๋งŒ ์Œ์˜ ์ด๋ฏธ์ง€-๋ช…์‚ฌ๊ตฌ์™€ ์ •ํ™•ํ•œ ๋งˆ์Šคํฌ๋“ค(SA-Co/HQ๋ผ๊ณ  ๋ช…๋ช…)์ด ํ™•๋ณด๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด 1๋‹จ๊ณ„ ๋ฐ์ดํ„ฐ๋กœ SAM3 ์ดˆ๊ธฐ ๋ฒ„์ „์„ ํ•™์Šต์‹œ์ผœ, ์ดํ›„ ๋‹จ๊ณ„์˜ AI ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ํ™œ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

2๋‹จ๊ณ„ (Human + AI Verification): 2๋‹จ๊ณ„๋ถ€ํ„ฐ๋Š” AI ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•ด ์ฃผ์„ ํšจ์œจ์„ ๋†’์ž…๋‹ˆ๋‹ค. ์šฐ์„  Ontology(์˜จํ†จ๋กœ์ง€)์™€ ๋‹ค์ค‘๋ชจ๋‹ฌ LLM์„ ์‚ฌ์šฉํ•ด, ๊ฐ ์ด๋ฏธ์ง€/์˜์ƒ์— ๋Œ€ํ•ด ๋” ๋‹ค์–‘ํ•œ ํ‘œํ˜„์˜ ๋ช…์‚ฌ๊ตฌ ํ›„๋ณด์™€ ์–ด๋ ค์šด ๋ถ€์ • ์‚ฌ๋ก€(hard negatives)๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋™์ผํ•œ ๊ฐœ๋…์„ ๊ฐ€๋ฆฌํ‚ค๋Š” ์—ฌ๋Ÿฌ ํ‘œํ˜„์„ ๋งŒ๋“ค๊ฑฐ๋‚˜, ํ—ท๊ฐˆ๋ฆด๋งŒํ•œ ์œ ์‚ฌ ๊ฐœ๋…์„ ์Œ์„ฑ ํ”„๋กฌํ”„ํŠธ๋กœ ์ œ์‹œํ•˜์—ฌ ๋ชจ๋ธ์ด ๊ตฌ๋ถ„ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ๋ผ๋ฒจ๋“ค์„ ๊ฐ€์ง€๊ณ  SAM3 ๋ชจ๋ธ์ด ๋งˆ์Šคํฌ๋ฅผ ์˜ˆ์ธกํ•˜๋ฉด, AI ๊ฒ€์ฆ๊ธฐ(Verifiers)๊ฐ€ ๊ทธ ํ’ˆ์งˆ์„ 1์ฐจ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. AI ๊ฒ€์ฆ๊ธฐ๋Š” ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ๋ฏธ์„ธ์กฐ์ •ํ•˜์—ฌ ๋งˆ์Šคํฌ์˜ ์ •ํ™•๋„์™€ ์™„์ „์„ฑ์„ ํŒ๋ณ„ํ•˜๋„๋ก ํ•œ ๋ชจ๋ธ๋กœ, ์‚ฌ๋žŒ ์ˆ˜์ค€์˜ ํŒ๋‹จ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. AI ๊ฒ€์ฆ ๊ฒฐ๊ณผ ์‹ ๋ขฐ๋„ ๋†’์€ ์‚ฌ๋ก€๋Š” ํ†ต๊ณผ์‹œํ‚ค๊ณ , ์˜์‹ฌ๊ฐ€๋Š” ๋งˆ์Šคํฌ๋“ค๋งŒ ์ธ๊ฐ„์ด ์ตœ์ข… ํ™•์ธ ๋ฐ ์ˆ˜์ •ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ํ•œ์ •๋œ ์ธ๋ ฅ์œผ๋กœ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, ์ด๋Ÿฌํ•œ AI ๊ฒ€์ฆ๊ธฐ ๋„์ž…์œผ๋กœ ์ฃผ์„ ์ƒ์‚ฐ์„ฑ์ด 2๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€ํ•˜์—ฌ ์ธ๊ฐ„ ๋‹จ๋… ๋Œ€๋น„ 2๋ฐฐ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์†๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

3๋‹จ๊ณ„ (Scaling & Domain Expansion): 3๋‹จ๊ณ„์—์„œ๋Š” ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ์™€ ๋„๋ฉ”์ธ ๋‹ค์–‘์„ฑ ํ™•์žฅ์— ์ฃผ๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์›น์—์„œ ๊ฐ€์ ธ์˜จ ์ด๋ฏธ์ง€๋ฟ ์•„๋‹ˆ๋ผ ์ดฌ์˜ ์กฐ๊ฑด, ๋ถ„์•ผ๊ฐ€ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค๋“ค์„ ์ƒˆ๋กญ๊ฒŒ ์ถ”๊ฐ€ํ•ด ๋ถ„ํฌ์˜ ํญ์„ ๋„“ํ˜”์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€, ์‹ค๋‚ด/์‹ค์™ธ, ์˜ˆ์ˆ ์ž‘ํ’ˆ, ์˜๋ฃŒ์˜์ƒ, ๋กœ๋ด‡์ด ์ดฌ์˜ํ•œ ์‹œ์  ์˜์ƒ ๋“ฑ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์„ ํฌํ•จ์‹œ์ผœ ์‹œ๊ฐ์  ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” AI ์ฃผ์„ ์ž๋™ํ™” ๋น„์ค‘์„ ๋”์šฑ ๋†’์—ฌ, ์ธ๊ฐ„ ๊ฒ€์ˆ˜๋Š” ์น˜๋ช…์  ์˜ค๋ฅ˜ ์ˆ˜์ • ์œ„์ฃผ๋กœ ์ค„์ด๊ณ  MLLM ๊ธฐ๋ฐ˜ ๋ ˆ์ด๋ธ” ์ƒ์„ฑ๊ณผ SAM3 ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋งˆ์Šคํฌ ์ƒ์„ฑ์„ ๋ฐ˜๋ณตํ•˜๋Š” ๋ฃจํ”„๋กœ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋„ ํ™œ์šฉํ•˜์—ฌ, SAM3์ด ๋ณด์ง€ ๋ชปํ•œ ํŠน์ดํ•œ ์‚ฌ๋ก€๊นŒ์ง€ ํ•™์Šตํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ SAM3+LLM ์กฐํ•ฉ(๊ต์‚ฌ ๋ชจ๋ธ)์œผ๋กœ 38๋งŒ ๊ฐœ์˜ ํ•ฉ์„ฑ ์ด๋ฏธ์ง€์™€ 14์–ต ๊ฐœ์˜ ๋งˆ์Šคํฌ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ์ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ๋„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ํ™•์žฅ ์ถ”์„ธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.

4๋‹จ๊ณ„ (Video Annotation): ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋™์˜์ƒ์— ๋Œ€ํ•œ ๊ฐœ๋… ์ฃผ์„ ์ˆ˜์ง‘ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์•ž์„  ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋กœ ์ถฉ๋ถ„ํžˆ ํ•™์Šต๋œ SAM3 ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ, ๋™์˜์ƒ ๋‚ด ํŠน์ • ํ”„๋ ˆ์ž„์—์„œ ๊ฐœ๋…์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ์ฒด๋“ค์„ ์ฐพ๊ณ  ์ด๋ฅผ ์ „ ํ”„๋ ˆ์ž„์— ๊ฑธ์ณ ์ถ”์ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž๋™ ์ฃผ์„์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋„ AI ๊ฒ€์ฆ๊ธฐ๋“ค์ด ์ผ๊ด€์„ฑ ์žˆ๊ฒŒ ์ถ”์ ๋˜์—ˆ๋Š”์ง€ ๋“ฑ์„ ํ™•์ธํ•˜๊ณ , ์‚ฌ๋žŒ์€ ์–ด๋ ค์šด ๊ฒฝ์šฐ๋งŒ ๊ฐœ์ž…ํ•˜์—ฌ ์˜ค๋ฅ˜๋ฅผ ๋ฐ”๋กœ์žก์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ SA-Co/VEVal์ด๋ผ ๋ช…๋ช…๋œ, 1700์—ฌ ๊ฐœ์˜ ๋™์˜์ƒ์— ๋Œ€ํ•ด ๊ฐœ๋…๋ณ„ ํ”„๋ ˆ์ž„ ๋งˆ์Šคํฌ ์ฃผ์„์ด ์™„๋น„๋œ ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์œ„์™€ ๊ฐ™์€ 4๋‹จ๊ณ„ ์—”์ง„์„ ํ†ตํ•ด ์™„์„ฑ๋œ SA-Co ๋ฐ์ดํ„ฐ์…‹์€ ํฌ๊ฒŒ ํ•™์Šต์šฉ ์ „์ฒด ์„ธํŠธ์™€, ํ‰๊ฐ€์šฉ ๋‘ ๊ฐ€์ง€ ์Šคํ”Œ๋ฆฟ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์šฐ์„  ํ•™์Šต์šฉ SA-Co ์ „์ฒด ์„ธํŠธ๋Š” ์•ž์„œ ์–ธ๊ธ‰ํ•œ ์•ฝ 520๋งŒ ์ด๋ฏธ์ง€์™€ 5.25๋งŒ ๋น„๋””์˜ค, 4๋ฐฑ๋งŒ ๊ฐœ ์ด์ƒ์˜ ๋ช…์‚ฌ๊ตฌ, 14์–ต ๊ฐœ ๋งˆ์Šคํฌ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ฑฐ๋Œ€ ์ฝ”ํผ์Šค์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  SA-Co/Gold๋ผ๋Š” ํ‰๊ฐ€๋Š” ์—„์„ ๋œ ์ด๋ฏธ์ง€๋“ค์— ๋Œ€ํ•ด 3์ธ์˜ ์ธ๊ฐ„ ๊ฒ€์ˆ˜๋ฅผ ๋ชจ๋‘ ๊ฑฐ์นœ ์ •๋ฐ€ ์ฃผ์„์„ ๊ฐ–์ถ˜ ์„ธํŠธ์ด๊ณ , SA-Co/Silver ํ‰๊ฐ€๋Š” ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ์ด๋ฏธ์ง€๋“ค(์˜ˆ: ์Œ์‹, ์˜ˆ์ˆ , ๋กœ๋ด‡๊ณตํ•™, ์ž์œจ์ฃผํ–‰ ๋“ฑ)์„ ํฌํ•จํ•˜๋˜ ํ•œ ๋ช…์˜ ์ฃผ์„์ž ๊ฒ€ํ† ๋งŒ ๊ฑฐ์นœ ์„ธํŠธ์ž…๋‹ˆ๋‹ค. Silver ์„ธํŠธ๋Š” ์™„๋ฒฝ์„ฑ์€ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋‚˜ ํ˜„์‹ค ์„ธ๊ณ„ ๋‹ค์–‘ํ•œ ๋ถ„ํฌ์—์„œ ๋ชจ๋ธ์„ ์‹œํ—˜ํ•˜๋Š” ์šฉ๋„๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ SA-Co/VEVal์€ ์•ž์„œ ์„ค๋ช…ํ•œ ๋น„๋””์˜ค ํ‰๊ฐ€ ์„ธํŠธ๋กœ, SAM3์˜ ์˜์ƒ ์ถ”์  ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๋“ฏ SA-Co ๋ฐ์ดํ„ฐ์…‹์€ ๊ทœ๋ชจ ๋ฉด์—์„œ๋„, ํฌํ•จ๋œ ๊ฐœ๋…์˜ ํญ ๋ฉด์—์„œ๋„ ๊ณผ๊ฑฐ์— ์—†๋˜ ์••๋„์ ์ธ ์ž์›์œผ๋กœ, SAM3 ๋ชจ๋ธ์ด ๊ฐœ๋…์  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ ๋ฐ ์„ฑ๋Šฅ ๋น„๊ต (Results and Performance)

๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๊ณผ์ œ์— ๋Œ€ํ•œ SAM3์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๊ธฐ์กด ์ตœ์‹  ๊ธฐ๋ฒ•๋“ค๊ณผ์˜ ๋น„๊ต์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ๊ฐœ๋… ์„ธ๋ถ„ํ™”(PCS) ๋ถ„์•ผ์—์„œ SAM3๋Š” ์‚ฌ์‹ค์ƒ ์ƒˆ๋กœ์šด SOTA(State-of-the-Art)๋ฅผ ์ˆ˜๋ฆฝํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์ด ์ƒˆ๋กœ ์ •์˜ํ•œ PCS ๋ฒค์น˜๋งˆํฌ์ธ SA-Co ํ‰๊ฐ€์„ธํŠธ์—์„œ, SAM3๋Š” ์ด์ „ ์ตœ์‹  ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ์„ ์ตœ์†Œ ๋‘ ๋ฐฐ ์ด์ƒ ๊ฒฉ์ฐจ๋กœ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜คํ”ˆ-์–ดํœ˜ ์ธ์Šคํ„ด์Šค ์„ธ๋ถ„ํ™”์˜ ๋Œ€ํ‘œ์  ๋ฒค์น˜๋งˆํฌ์ธ LVIS ๋ฐ์ดํ„ฐ์…‹์—์„œ SAM3๋Š” ๋งˆ์Šคํฌ AP 48.8%๋ฅผ ์ œ๋กœ์ƒท(Zero-shot)์œผ๋กœ ๊ธฐ๋กํ•˜์—ฌ, ์ด์ „ ์ตœ๊ณ  ๋ชจ๋ธ์˜ 38.5%๋ฅผ ํฌ๊ฒŒ ์ƒํšŒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” 10ํฌ์ธํŠธ ์ด์ƒ์˜ ๋Œ€ํญ ํ–ฅ์ƒ์œผ๋กœ, ๋ฒ”์šฉ ๋ถ„ํ•  ๋ชจ๋ธ์ด ๋ผ๋ฒจ ์ง‘ํ•ฉ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๊ณ ๋„ ๋†’์€ ์ •ํ™•๋„๋กœ ๊ฐ์ฒด๋ฅผ ์‹๋ณ„ยท๋ถ„ํ• ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ Figure 2์— ์ œ์‹œ๋œ ์˜ˆ์‹œ๋ฅผ ๋ณด๋ฉด, ๊ธฐ์กด OWLv2๊ฐ™์€ ๊ณต๊ฐœ ์–ดํœ˜ ๋ชจ๋ธ์ด ๋†“์นœ ๋ฏธ์„ธํ•œ ๊ฐœ๋… ๊ตฌ๋ถ„๋„ SAM3๋Š” ์„ฑ๊ณต์ ์œผ๋กœ ํ•ด๋‚ด๋Š” ๋“ฑ, ์ •์„ฑ์  ๊ฒฐ๊ณผ์—์„œ๋„ ๋”์šฑ ์ •ํ™•ํ•˜๊ณ  ์™„์ „ํ•œ ์„ธ๋ถ„ํ™”๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜์ƒ(Video) ์˜์—ญ์—์„œ๋„ SAM3์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค. ๋‹ค์ค‘ ๊ฐ์ฒด ์˜์ƒ ๋ถ„ํ•  ํ‰๊ฐ€์ธ MOSEv2์—์„œ SAM3๋Š” SAM2 ๋Œ€๋น„ 6.5 ํฌ์ธํŠธ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ, ์˜์ƒ ์„ธ๋ถ„ํ™” ๋ถ„์•ผ ์ƒˆ๋กœ์šด ์ตœ๊ณ ์น˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. DAVIS, YTVOS ๋“ฑ์˜ ํ‘œ์ค€ VOS ๋ฒค์น˜๋งˆํฌ๋“ค์—์„œ๋„ SAM3๋Š” SAM2๋ฅผ ๋Œ€๋ถ€๋ถ„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ์ ์„ ๊ฑฐ๋‘์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ID ์ผ๊ด€์„ฑ์ด ์ค‘์š”ํ•œ ๋ถ€๋ถ„์—์„œ ํ–ฅ์ƒ๋œ ์ ์ˆ˜๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ–ฅ์ƒ์€ ์•ž์„œ ์–ธ๊ธ‰ํ•œ ๊ฒ€์ถœ-์ถ”์  ํ†ตํ•ฉ ์„ค๊ณ„์™€ Presence ํ† ํฐ์„ ํ†ตํ•œ ์˜ค๊ฒ€์ถœ ๊ฐ์†Œ ๋“ฑ์ด ์ฃผํšจํ•˜์—ฌ, ์˜์ƒ ๋‚ด์—์„œ๋„ ๋ˆ„๋ฝ ์—†์ด ์ •ํ™•ํ•œ ๋‹ค์ค‘ ๊ฐ์ฒด ์ถ”์  ์„ธ๋ถ„ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์กŒ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

ํฅ๋ฏธ๋กญ๊ฒŒ๋„, ๋Œ€ํ™”์‹ ์ด๋ฏธ์ง€ ๋ถ„ํ•  ๋ถ„์•ผ์—์„œ๋„ SAM3๋Š” ๊ธฐ์กด SAM์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ ํ˜น์€ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. 37๊ฐœ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•œ ์  ํด๋ฆญ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ๋†’์€ IoU์˜ ๋งˆ์Šคํฌ๋ฅผ ์–ป๋Š”์ง€ ํ‰๊ฐ€ํ•œ SA-37 ๋ฒค์น˜๋งˆํฌ์—์„œ, SAM3๋Š” 1-click ํ‰๊ท  mIoU 66.1%๋กœ SAM2 (66.4%)์™€ ๋Œ€๋“ฑํ•˜๋ฉฐ, 3-click์—์„œ๋Š” SAM3๊ฐ€ 81.3%๋กœ SAM2(80.3%)๋ฅผ ์›ƒ๋Œ์•˜์Šต๋‹ˆ๋‹ค. 5-click ์„ฑ๋Šฅ๋„ ์†Œํญ ํ–ฅ์ƒ๋˜์–ด, ์ถ”๊ฐ€ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ฐ˜์‘๋„๊ฐ€ ๊ฐœ์„ ๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๋ก SAM3๊ฐ€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ†ตํ•ฉ์œผ๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ๋‹ค์†Œ ๋ณต์žกํ•ด์ง€๋ฉด์„œ ์ถ”๋ก  ์†๋„ FPS๋Š” SAM2๋ณด๋‹ค ๋‚ฎ์•„์ง„ ์ธก๋ฉด๋„ ์žˆ์ง€๋งŒ (Table 6 ๊ธฐ์ค€, SAM3 ~43 FPS vs SAM2 ~93 FPS), ์—ฌ์ „ํžˆ ์‹ค์‹œ๊ฐ„์— ๊ฐ€๊นŒ์šด ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๊ธฐ๋Šฅ ํ™•์žฅ์„ ๊ณ ๋ คํ•˜๋ฉด ์ˆ˜์šฉํ•  ๋งŒํ•œ ํฌ์ƒ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์€ H200 GPU ์ƒ์—์„œ ์ด๋ฏธ์ง€ 1์žฅ๋‹น 30ms์— 100๊ฐœ ์ด์ƒ์˜ ๊ฐ์ฒด๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ณ , ์˜์ƒ์˜ ๊ฒฝ์šฐ๋„ ๊ฐ์ฒด ์ˆ˜์— ์„ ํ˜• ๋น„๋ก€ํ•˜์—ฌ ์‹ค์‹œ๊ฐ„์— ๊ทผ์ ‘ํ•œ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ณง ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ์ตœ์ ํ™” ๋“ฑ์„ ํ†ตํ•ด ์ถ”ํ›„ ์†๋„ ๊ฐœ์„  ์—ฌ์ง€๋„ ์ถฉ๋ถ„ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ถ”๊ฐ€๋กœ, ์—ฐ๊ตฌํŒ€์€ SAM3๋ฅผ ๋ณตํ•ฉ ์งˆ์˜์— ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ(MLLM)๊ณผ ์—ฐ๊ณ„ํ•˜๋Š” ์‹คํ—˜(SAM3 Agent๋ผ ๋ช…๋ช…)๋„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. SAM3 Agent๋Š” LLM์ด ๋ณต์žกํ•œ ๋ฌธ์žฅ์„ ์—ฌ๋Ÿฌ ๊ฐ„๋‹จํ•œ ๋ช…์‚ฌ๊ตฌ ์งˆ์˜๋กœ ์ชผ๊ฐœ์–ด SAM3์— ์งˆ์˜ํ•˜๊ณ , ๋ฐ˜ํ™˜๋œ ๋งˆ์Šคํฌ๋“ค์„ LLM์ด ํŒ๋‹จยท๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ข… ์‘๋‹ต์„ ๋งŒ๋“œ๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ โ€œ์™ผ์ชฝ์— ์žˆ๋Š” ํ…Œ์ด๋ธ” ์œ„์˜ ๋นจ๊ฐ„ ๋ฌผ์ฒด๋ฅผ ์ฐพ์•„์ค˜โ€ ๊ฐ™์€ ๋ฌธ์žฅ์€ LLM์ด โ€œํ…Œ์ด๋ธ”โ€, โ€œ๋นจ๊ฐ„ ๋ฌผ์ฒดโ€ ๋“ฑ์œผ๋กœ ๋‚˜๋ˆ  ์ˆœ์ฐจ์ ์œผ๋กœ SAM3๋ฅผ ํ˜ธ์ถœํ•ด ์ฒ˜๋ฆฌ๋ฅผ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—์ด์ „ํŠธ ๋ฐฉ์‹์€ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ๊ธฐ์กด RefCOCO+ ๋“ฑ ๋ณต์žก ์ฐธ์กฐ ํ‘œํ˜„ ๋ถ„ํ•  ๊ณผ์ œ์—์„œ ์ตœ์‹  ๊ฒฐ๊ณผ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋‚ด์—ˆ๊ณ , SAM3 ์ž์ฒด์˜ ํ•œ๊ณ„๋ฅผ ์™ธ๋ถ€ LLM์œผ๋กœ ๋ณด์™„ํ•˜๋Š” ๋ชจ๋“ˆํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์žฅ์ฐจ ๋กœ๋ด‡ ์‹œ์Šคํ…œ์—์„œ LLM ๊ธฐ๋ฐ˜ ์ง€๋Šฅ๊ณผ ์‹œ๊ฐ๋ชจ๋ธ์„ ์—ฐ๊ฒฐํ•ด ์‚ฌ์šฉ์ž ์š”์ฒญ์„ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ๋„ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋Š” ํฅ๋ฏธ๋กœ์šด ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ ์š”์•ฝ๋œ ์„ฑ๋Šฅ ์ง€ํ‘œ๋“ค์„ ๋ณด๋ฉด, SAM3์˜ ๋“ฑ์žฅ์€ ์‹œ๋งจํ‹ฑ ์ธ์Šคํ„ด์Šค ๋ถ„ํ• ๊ณผ ๋Œ€ํ™”์‹/์˜์ƒ ๋ถ„ํ•  ๋‘ ์ธก๋ฉด ๋ชจ๋‘์— ์žˆ์–ด ํ•™๊ณ„ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์ „๋ฐ˜์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. Meta๋Š” SAM3์˜ ์ถœ์‹œ์™€ ํ•จ๊ป˜ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜์™€ ์ถ”๋ก  ์ฝ”๋“œ, SA-Co ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•˜์—ฌ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ์‰ฝ๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด SAM3๋ฅผ ์ž์‹ ๋“ค์˜ ๋ฐ์ดํ„ฐ์— ํŒŒ์ธํŠœ๋‹ํ•˜๊ฑฐ๋‚˜, SAM3๋กœ ์ƒ์„ฑํ•œ ๋งˆ์Šคํฌ๋“ค์„ ํ™œ์šฉํ•ด ์†Œํ˜• ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋“ฑ 2์ฐจ์ ์ธ ์‘์šฉ ์—ฐ๊ตฌ๋„ ํ™œ๋ฐœํžˆ ๊ฐ€๋Šฅํ•  ์ „๋ง์ž…๋‹ˆ๋‹ค. ์ข…ํ•ฉํ•˜๋ฉด, SAM3๋Š” ๋ฒ”์šฉ ์‹œ๊ฐ ์„ธ๋ถ„ํ™”์— ํ•œ ๊ฑธ์Œ ๋” ๋‹ค๊ฐ€์„  ๋ชจ๋ธ๋กœ์„œ, ์„ฑ๋Šฅ๊ณผ ๋ฒ”์šฉ์„ฑ ๋ฉด์—์„œ ํฌ๊ฒŒ ์ง„๋ณดํ•œ ๊ฒฐ๊ณผ๋ฌผ์ž„์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณตํ•™ ๋ถ„์•ผ์—์„œ์˜ ์‘์šฉ ๋ฐ ์˜ํ–ฅ

SAM3์˜ ๋“ฑ์žฅ์€ ๋กœ๋ด‡๊ณตํ•™ ๋ถ„์•ผ์—๋„ ์ƒ๋‹นํ•œ ํŒŒ์žฅ์„ ์ผ์œผํ‚ฌ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” SAM3๊ฐ€ ์ž์—ฐ์–ด ๊ฐœ๋…์„ ๋ฐ”๋กœ ์‹œ๊ฐ์  ์ธ์ง€์™€ ์—ฐ๊ฒฐํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡์ด ์ฃผ๋ณ€ ํ™˜๊ฒฝ์„ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ดํ•ดํ•˜๋„๋ก ๋•๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, SAM3๊ฐ€ ์—ด์–ด์ฃผ๋Š” ๋กœ๋ณดํ‹ฑ์Šค ์‘์šฉ์˜ ๊ฐ€๋Šฅ์„ฑ๋“ค์„ ๋ช‡ ๊ฐ€์ง€ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค:

  • ๋กœ๋ด‡์˜ ์‹œ๊ฐ ์ธ์ง€ (Robot Perception): ์ด์ œ ๋กœ๋ด‡์—๊ฒŒ โ€œ์ฃผ๋ณ€์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์˜์ž๋ฅผ ์ฐพ์•„โ€์™€ ๊ฐ™์ด ์Œ์„ฑ์ด๋‚˜ ํ…์ŠคํŠธ๋กœ ์ง€์‹œํ•˜๋ฉด, SAM3๊ฐ€ ๋กœ๋ด‡ ์นด๋ฉ”๋ผ ์˜์ƒ์—์„œ ์˜์ž์— ํ•ด๋‹นํ•˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด๋ฅผ ๋ถ„ํ•  ๋ฐ ์‹๋ณ„ํ•ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” ์‚ฌ์ „์— ํ•™์Šต๋œ ๊ฐ์ฒด ํƒ์ง€๊ธฐ๋‚˜ ์„ธ๋ถ„ํ™” ๋ชจ๋ธ์— ํ•œ์ •๋œ ๋ฒ”์ฃผ๋งŒ ์ธ์‹ ๊ฐ€๋Šฅํ–ˆ์ง€๋งŒ, SAM3๋Š” 4๋ฐฑ๋งŒ ๊ฐœ์— ๋‹ฌํ•˜๋Š” ๊ฐœ๋… ์–ดํœ˜๋ฅผ ํ•™์Šตํ–ˆ์œผ๋ฏ€๋กœ ์ผ๋ฐ˜ ์‚ฌ๋ฌผ๋ถ€ํ„ฐ ํฌ๊ท€ํ•œ ๊ฐ์ฒด๊นŒ์ง€ ํญ๋„“๊ฒŒ ์ธ์‹ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์ด ํ™˜๊ฒฝ์„ ์˜คํ”ˆ์›”๋“œ(Open-world)์—์„œ ํ›จ์”ฌ ์œ ์—ฐํ•˜๊ฒŒ ์ดํ•ดํ•˜๊ณ  ๋Œ€์ฒ˜ํ•˜๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๊ฐ€์ •์šฉ ๋กœ๋ด‡์ด โ€œ๊ณผ์ผ์„ ๋ชจ๋‘ ์ฐพ์•„ ๋ฐ”๊ตฌ๋‹ˆ์— ๋‹ด์•„โ€๋ผ๋Š” ์ง€์‹œ๋ฅผ ๋ฐ›์œผ๋ฉด, SAM3๋ฅผ ํ†ตํ•ด ์‚ฌ๊ณผ, ๋ฐ”๋‚˜๋‚˜ ๋“ฑ ๊ณผ์ผ์ด๋ผ๋Š” ๊ฐœ๋…์— ์†ํ•˜๋Š” ๋ชจ๋“  ์•„์ดํ…œ์„ ์•Œ์•„๋ณด๊ณ  ์ •ํ™•ํ•œ ํ”ฝ์…€ ๋‹จ์œ„ ์œ„์น˜๋ฅผ ์–ป์–ด, ๋กœ๋ด‡ ๋งค๋‹ˆํ“ฐ๋ ˆ์ดํ„ฐ๊ฐ€ ์ด๋ฅผ ํ•˜๋‚˜์”ฉ ์ง‘์–ด๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์‹œ๋งจํ‹ฑ ์ง€๋„ ์ž‘์„ฑ (Semantic Mapping): ์ž์œจ์ฃผํ–‰ ๋กœ๋ด‡์ด๋‚˜ ๋“œ๋ก , ์‹ค๋‚ด ์•ˆ๋‚ด ๋กœ๋ด‡ ๋“ฑ์€ ์ฃผํ–‰ ํ™˜๊ฒฝ์˜ ์ง€๋„๋ฅผ ๋งŒ๋“ค ๋•Œ ํ™˜๊ฒฝ ์š”์†Œ๋“ค์— ๋Œ€ํ•œ ์‹œ๋งจํ‹ฑ ์ •๋ณด๋ฅผ ๋ถ€์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. SAM3๋ฅผ ํ™œ์šฉํ•˜๋ฉด, ๋ผ์ด๋‹ค๋‚˜ ์นด๋ฉ”๋ผ๋กœ ์ˆ˜์ง‘ํ•œ ์žฅ๋ฉด์—์„œ โ€œ๋ฒฝโ€, โ€œ๋ฌธโ€, โ€œ๊ณ„๋‹จโ€, โ€œ์‚ฌ๋žŒโ€ ๋“ฑ ๊ด€์‹ฌ ๊ฐ์ฒด๋“ค์„ ํ•œ ๋ฒˆ์— ๋ถ„ํ• ํ•˜์—ฌ ๋งต์— ํƒœ๊ทธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ SAM3๋Š” ์žฅ๋ฉด ๋‚ด ๋ชจ๋“  ์ธ์Šคํ„ด์Šค๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ํฌ์ฐฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ง€๋„์— ์กด์žฌํ•˜๋Š” ๋ชจ๋“  ๊ฐ์ฒด์˜ ์œ„์น˜์™€ ๊ฒฝ๊ณ„๋ฅผ ํ‘œ์‹œํ•ด์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡์˜ ์ƒํ™ฉ ์ธ์‹ ๋Šฅ๋ ฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๊ณ , ์‚ฌ๋žŒ๊ณผ ์ž‘์—…๊ณต๊ฐ„์„ ๊ณต์œ ํ•˜๋Š” ๋กœ๋ด‡์ด๋ผ๋ฉด ์•ˆ์ „ํ•œ ๊ฒฝ๋กœ ๊ณ„ํš์ด๋‚˜ ์ž‘์—… ์˜์—ญ ์„ค์ •์—๋„ ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๋ฌผ์ฒด ์กฐ์ž‘ ๋ฐ ์ดํ•ด (Object Manipulation & Understanding): ๋กœ๋ด‡ ํŒ”์ด ๋ฌผ์ฒด๋ฅผ ์ง‘๊ฑฐ๋‚˜ ์กฐ๋ฆฝํ•  ๋•Œ, ๋Œ€์ƒ ๋ฌผ์ฒด์˜ ์ •ํ™•ํ•œ ํ˜•ํƒœ์™€ ๊ฒฝ๊ณ„๋ฅผ ์•„๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. SAM3๋Š” ๋ฌผ์ฒด์˜ 2D ๋งˆ์Šคํฌ๋ฅผ ์ •๋ฐ€ํžˆ ์ œ๊ณตํ•˜๋ฏ€๋กœ, 3D ์ธ์‹ ๋ชจ๋“ˆ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ฌผ์ฒด์˜ ์ž์„ธ(pose)๋‚˜ ๊ทธ๋ฆฝ ์ง€์  ๊ฒฐ์ • ๋“ฑ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๊ฐ€ ๋“ฑ์žฅํ•ด๋„ SAM3๋Š” ํ…์ŠคํŠธ ํ•œ ์ค„๋กœ ์„ธ๋ถ„ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ, ๋กœ๋ด‡์ด ์ž‘์—… ๋„์ค‘ ์ฒ˜์Œ ๋ณด๋Š” ๋„๊ตฌ๋‚˜ ๋ถ€ํ’ˆ์ด ๋‚˜์™€๋„ ๋ฐ”๋กœ ์ธ์‹ํ•˜์—ฌ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ƒ์‚ฐ/๋ฌผ๋ฅ˜ ์ž๋™ํ™” ํ˜„์žฅ์—์„œ ์œ ์—ฐ ์ƒ์‚ฐ์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ์š”์†Œ ๊ธฐ์ˆ ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ธ๊ฐ„-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ (HRI): SAM3์™€ ๊ฐ™์€ ๋ชจ๋ธ์€ ์‚ฌ๋žŒ์˜ ์˜๋„ ํŒŒ์•…๊ณผ ๋กœ๋ด‡์˜ ์‹œ๊ฐ ์‘๋‹ต์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐ์‹œ์ผœ์ค๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ ๋กœ๋ด‡์—๊ฒŒ ์ผ์ผ์ด ์ขŒํ‘œ๋ฅผ ์ง€์ •ํ•ด์ค„ ํ•„์š” ์—†์ด, ์ž์—ฐ์–ด๋กœ ์ง€์‹œํ•˜๊ฑฐ๋‚˜ ๊ฐ€๋ฆฌํ‚ค๊ธฐ๋งŒ ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. SAM3๋Š” ์‚ฌ๋žŒ์˜ ์–ธ์–ด๋‚˜ ์ œ์Šค์ฒ˜(๋ ˆ์ด์ € ํฌ์ธํ„ฐ ๋“ฑ์œผ๋กœ ํ•˜์ด๋ผ์ดํŠธํ•œ ์˜์—ญ์„ ์˜ˆ์‹œ๋กœ ์ž…๋ ฅ ๊ฐ€๋Šฅ)๋ฅผ ๋ฐ›์•„๋“ค์—ฌ, ๋กœ๋ด‡์ด ๋ณด์ด๋Š” ์‹œ์•ผ ์˜์ƒ์—์„œ ํ•ด๋‹น ๋Œ€์ƒ์„ ์‹๋ณ„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด โ€œ์ €๊ธฐ ๋ฐ”๋‹ฅ์— ๋–จ์–ด์ง„ ๋‚˜์‚ฌ ์ข€ ์ฃผ์›Œ์ค„๋ž˜?โ€ ๊ฐ™์€ ์š”์ฒญ์—๋„ ๋กœ๋ด‡์ด ์ •ํ™•ํžˆ ์–ด๋–ค ๋ฌผ์ฒด๋ฅผ ๊ฐ€๋ฆฌํ‚ค๋Š”์ง€ ์ดํ•ดํ•˜๊ณ  ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, SAM3์˜ ์ถœ๋ ฅ ๋งˆ์Šคํฌ๋ฅผ ๋กœ๋ด‡์˜ ์ฆ๊ฐ•ํ˜„์‹ค ๋””์Šคํ”Œ๋ ˆ์ด๋‚˜ ํ”„๋กœ์ ํ„ฐ๋ฅผ ํ†ตํ•ด ์‹œ๊ฐ์ ์œผ๋กœ ํ”ผ๋“œ๋ฐฑํ•˜๋ฉด, ๋กœ๋ด‡์ด ์ธ์‹ํ•œ ๋Œ€์ƒ์„ ์‚ฌ๋žŒ์—๊ฒŒ ๋ณด์—ฌ์ฃผ์–ด ์ƒ์˜ํ•˜๊ฑฐ๋‚˜ ํ™•์ธ๋ฐ›๋Š” ์ƒํ˜ธ์ž‘์šฉ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๊ฐ•ํ™”ํ•™์Šต ๋ฐ ํ–‰๋™ ๊ณ„ํš: ๋กœ๋ด‡ ํ•™์Šต์—์„œ๋„ SAM3์˜ ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์—์„œ SAM3๋กœ ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋“ค์„ ์ž๋™ ๋ถ„ํ• /๋ ˆ์ด๋ธ”๋งํ•˜๋ฉด, ๊ฐ•ํ™”ํ•™์Šต ์—์ด์ „ํŠธ์˜ ์‹œ๊ฐ ์ž…๋ ฅ์„ ํ’๋ถ€ํ•˜๊ฒŒ ํ•ด์ฃผ์–ด ์ •์ฑ… ํ•™์Šต์„ ๋น ๋ฅด๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋กœ๋ด‡์˜ ์นด๋ฉ”๋ผ ์˜์ƒ์„ SAM3๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์žฅ๋ฉด์˜ ๊ฐ์ฒด ๋ชฉ๋ก๊ณผ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋ฉด, ์ด๋ฅผ ๊ณ ์ฐจ์› ํ”Œ๋ž˜๋„ˆ๋‚˜ ์–ธ์–ด๊ธฐ๋ฐ˜ ์ •์ฑ…์ด ํ™œ์šฉํ•˜์—ฌ ์ถ”๋ก  ๊ฐ€๋Šฅํ•œ ์ƒํƒœ ํ‘œํ˜„์œผ๋กœ ์‚ผ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ SAM3๋Š” ๋กœ๋ด‡์—๊ฒŒ โ€œ๋ฌด์—‡์ด ์–ด๋””์— ์žˆ๋Š”๊ฐ€โ€๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์ผ๋ฐ˜ ์‹œ๊ฐ ํ”ผ๋“œ๋ฐฑ ๋ชจ๋“ˆ๋กœ ์ž‘์šฉํ•˜์—ฌ, ์—ฌ๋Ÿฌ ๋กœ๋ด‡ ๊ธฐ์ˆ  ์Šคํƒ์— ๊ฑธ์ณ ๋ณดํŽธ์ ์ธ ์ธ์ง€ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, SAM3๋Š” ๋กœ๋ด‡์ด ์‚ฌ๋žŒ๊ณผ ๋™์ผํ•œ ์–ธ์–ด๋กœ ์ฃผ๋ณ€์„ ํ•ด์„ํ•˜๊ฒŒ๋” ๋•๋Š” ๋ณ€ํ˜์ ์ธ ๋น„์ „ ๋ชจ๋ธ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜๋ ค๋ฉด 3D ์ขŒํ‘œ ๋ณ€ํ™˜, ๋ฉ€ํ‹ฐ ์นด๋ฉ”๋ผ ์œตํ•ฉ ๋“ฑ ์ถ”๊ฐ€ ๊ณ ๋ ค์‚ฌํ•ญ์ด ์žˆ์ง€๋งŒ, SAM3์˜ ๋›ฐ์–ด๋‚œ ๋ฒ”์šฉ ๋ถ„ํ•  ๋Šฅ๋ ฅ์€ ์ด๋ฏธ ๊ทธ ์ž์ฒด๋กœ ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด Meta์˜ ๊ณต๊ฐœํ•œ SA-Co ๋ฐ์ดํ„ฐ์— ๋กœ๋ด‡ ๋„๋ฉ”์ธ ์˜์ƒ๋„ ํฌํ•จ๋˜์–ด ์žˆ์–ด, ๋กœ๋ด‡ ์—ฐ๊ตฌ์ž๋“ค์ด ์ž์‹ ์˜ ํ™˜๊ฒฝ์— ๋งž๊ฒŒ SAM3๋ฅผ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ํŠนํ™” ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ๋กœ๋ด‡ ๋น„์ „ ๋ถ„์•ผ์—์„œ SAM3๋ฅผ ํ™œ์šฉํ•œ ํ™˜๊ฒฝ ์ดํ•ด, ๊ณผ์ œ ์ง€์‹œ, ์ž์œจํ•™์Šต ๋“ฑ์˜ ์—ฐ๊ตฌ๊ฐ€ ํ™œ๋ฐœํžˆ ์ „๊ฐœ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก  (Conclusion)

SAM3: Segment Anything with Concepts๋Š” ์‹œ๊ฐ ์„ธ๋ถ„ํ™” ๋ถ„์•ผ์˜ ์ƒˆ๋กœ์šด ์ด์ •ํ‘œ๋ผ ๋ถ€๋ฅผ ๋งŒํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด SAM ๊ณ„์—ด์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ถ„ํ•  ๋Šฅ๋ ฅ์„ ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜ ์ธ์‹์œผ๋กœ ํ™•์žฅํ•จ์œผ๋กœ์จ, ๋ฌดํ•œ์— ๊ฐ€๊นŒ์šด ๋ฒ”์ฃผ์˜ ๊ฐ์ฒด๋“ค์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ์˜ˆ์‹œ๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ํ™œ์šฉํ•˜๋Š” ํ˜์‹ ์ ์ธ ์•„ํ‚คํ…์ฒ˜, ์ธ์‹๊ณผ ํƒ์ง€๋ฅผ ๋ถ„๋ฆฌํ•œ Presence ํ—ค๋“œ ๋“ฑ์˜ ๊ธฐ์ˆ ์  ๊ธฐ์—ฌ๋Š” ๋‹จ์ˆœํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋„˜์–ด ๋ชจ๋ธ ๋””์ž์ธ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์ง„์ „์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋˜ํ•œ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ๊ฐœ๋… ์ฃผ์„์„ ์ธ๊ฐ„+AI ํ˜‘์—…์œผ๋กœ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•ด๋‚ธ SA-Co ๋ฐ์ดํ„ฐ ์—”์ง„์€ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์˜ ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ ์ œ์‹œํ•˜๋ฉฐ, ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์˜๊ฐ์„ ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ SAM3๋Š” ์ด๋ฏธ์ง€/์˜์ƒ ์„ธ๋ถ„ํ™” ๋ชจ๋“  ์ธก๋ฉด์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๊ณ , ํŠนํžˆ ์ œ๋กœ์ƒท ๊ฐœ๋… ์ธ์‹ ์„ธ๋ถ„ํ™” ๋Šฅ๋ ฅ์€ ๋กœ๋ด‡๊ณตํ•™์„ ๋น„๋กฏํ•œ ์—ฌ๋Ÿฌ ์‘์šฉ ๋ถ„์•ผ์—์„œ ์ฆ‰๊ฐ์ ์ธ ํ™œ์šฉ ๊ฐ€์น˜๋ฅผ ์ง€๋‹™๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณตํ•™ ๊ด€์ ์—์„œ SAM3์˜ ์˜์˜๋Š”, ๋กœ๋ด‡์ด ์‚ฌ๋žŒ์˜ ์–ธ์–ด๋กœ ์‹œ๊ฐ ์„ธ๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ•œ ๊ฑธ์Œ ๋” ๋‹ค๊ฐ€์„ฐ๋‹ค๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์„ ํ†ตํ•ด ๋กœ๋ด‡์€ ์‚ฌ์ „์— ํ”„๋กœ๊ทธ๋žจ๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด๋„ ํ•„์š”ํ•œ ์ˆœ๊ฐ„์— ์ฐพ์•„๋‚ด๊ณ  ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์–ป์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ๋งํ•˜๊ฑฐ๋‚˜ ๊ฐ€๋ฆฌํ‚ค๋Š” ๋Œ€๋กœ ์žฅ๋ฉด์„ ๋ถ„ํ•ดํ•ด ์ธ์‹ํ•˜๋Š” ๋Šฅ๋ ฅ์€ ์ž์œจ ๋กœ๋ด‡์˜ ์ƒ์‹(common sense)๊ณผ ์ธ๊ฐ„-๋กœ๋ด‡ ๊ฐ„ ์†Œํ†ต์„ ๊ฐ•ํ™”ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ๋”๋ถˆ์–ด SAM3๊ฐ€ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœ๋˜์—ˆ๊ธฐ์—, ์—ฐ๊ตฌ์ž๋“ค์€ ์ด๋ฅผ ์‰ฝ๊ฒŒ ํ™œ์šฉํ•ด ์ž๊ธฐ ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ฑฐ๋‚˜, SAM3๋ฅผ ๋‹ค๋ฅธ AI ์‹œ์Šคํ…œ๊ณผ ํ†ตํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ธ์–ด๋ชจ๋ธ๊ณผ ๊ฒฐํ•ฉํ•œ SAM3 Agent ์‹คํ—˜์€ ๋ณต์žกํ•œ ์งˆ์˜๋„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๊ณ , ์ด๋Ÿฌํ•œ ๋ชจ๋“ˆ ํ†ตํ•ฉ ์ ‘๊ทผ์€ ๋กœ๋ด‡์—๊ฒŒ ๊ณ ๋„์˜ ์ถ”๋ก ๊ณผ ์ •ํ™•ํ•œ ์‹คํ–‰์„ ๋ชจ๋‘ ๊ฐ€์ ธ๋‹ค์ค„ ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฌผ๋ก  SAM3์—๋„ ์ œํ•œ ์‚ฌํ•ญ์€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋Š” ํ˜„์žฌ ๋‹จ์ˆœ ๋ช…์‚ฌ๊ตฌ๋งŒ ๋‹ค๋ฃจ๋ฉฐ, ๋ฌธ๋งฅ์  ์˜๋ฏธ๋‚˜ ๋ณต์žกํ•œ ์ง€์‹œ๋Š” ๋ณ„๋„์˜ LLM ํ•ด์„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ 3D ์ •๋ณด ๋ถ€์žฌ๋กœ ์ธํ•œ ๊ฐ€๋ฆผ ํ˜„์ƒ ์˜ค์ธ์€ ์—ฌ์ „ํžˆ ๋กœ๋ด‡ ์ ์šฉ ์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•  ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  SAM3๋Š” โ€œ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ๋ฒ”์šฉ AIโ€๋ผ๋Š” ๋น„์ „์— ํ•œ์ธต ๋‹ค๊ฐ€์„  ์—ญ์ž‘์œผ๋กœ์„œ, ๋กœ๋ด‡๊ณตํ•™์„ ํฌํ•จํ•œ ์‹œ๊ฐ ์ง€๋Šฅ ๋ถ„์•ผ์— ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ๋ฐฉํ–ฅ๊ณผ ์‘์šฉ ๊ธฐํšŒ๋ฅผ ์—ด์–ด์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ SAM3๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์‘์šฉ ์—ฐ๊ตฌ๊ฐ€ ๋‹ค์–‘ํ•˜๊ฒŒ ์ „๊ฐœ๋˜๊ณ , ์ถ”ํ›„์—๋Š” SAM4์™€ ๊ฐ™์ด ๋” ๋ฐœ์ „๋œ ํ›„์† ๋ชจ๋ธ๋“ค์ด ๋“ฑ์žฅํ•จ์œผ๋กœ์จ, ๋กœ๋ด‡์ด ์„ธ์ƒ์„ ๋ณด๋Š” ๋ฐฉ์‹์ด ๋”์šฑ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•ด์ง€๊ธธ ๊ธฐ๋Œ€ํ•ด๋ด…๋‹ˆ๋‹ค. SAM3๊ฐ€ ๋ณด์—ฌ์ค€ ๊ฐœ๋…-์‹œ๊ฐ ํ†ตํ•ฉ ๋Šฅ๋ ฅ์€ ๊ถ๊ทน์ ์œผ๋กœ ๋กœ๋ด‡์—๊ฒŒ โ€œ๋ฌด์—‡์ด ์–ด๋””์— ์žˆ๋Š”์ง€โ€ ๊ฐ€๋ฅด์ณ์ฃผ๋Š” ๋ณดํŽธ์ ์ธ ์ง€์‹์œผ๋กœ ์ž๋ฆฌ๋งค๊น€ํ•  ๊ฒƒ์ด๋ฉฐ, ์ด๋Š” ์ง€๋Šฅํ˜• ๋กœ๋ด‡์˜ ์ž์œจ์„ฑ๊ณผ ํ™œ์šฉ๋„๋ฅผ ๋น„์•ฝ์ ์œผ๋กœ ๋†’์ด๋Š” ๋ฐ‘๊ฑฐ๋ฆ„์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฐธ๊ณ ๋ฌธํ—Œ: SAM3 ๋…ผ๋ฌธ ๋ฐ ๊ด€๋ จ ์ž๋ฃŒ ์ผ์ฒด.

Copyright 2026, JungYeon Lee