๐SAM 3 ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ก SAM 3์ ํ ์คํธ๋ ์ด๋ฏธ์ง ์์์ ๊ฐ์ ๊ฐ๋ ํ๋กฌํํธ(concept prompts)๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ๋น๋์ค์์ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง, ๋ถํ ๋ฐ ์ถ์ ํ๋ ํตํฉ ๋ชจ๋ธ์ ์ ์ํ๋ฉฐ, ์ด๋ ๊ธฐ์กด SAM ์๋ฆฌ์ฆ์ PVS(Promptable Visual Segmentation)์์ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๋ถํ ํ๋ PCS(Promptable Concept Segmentation)๋ก ๋ฅ๋ ฅ์ ํ์ฅํฉ๋๋ค.
- โ๏ธ ์ด๋ฅผ ์ํด, SAM 3์ ์ด๋ฏธ์ง detector์ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ๋น๋์ค tracker๊ฐ ๋จ์ผ ๋ฐฑ๋ณธ์ ๊ณต์ ํ๋ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๊ณ , ์ธ์๊ณผ ์์น ํ์ ์ ๋ถ๋ฆฌํ๋ presence head๋ฅผ ๋์ ํ์ผ๋ฉฐ, AI annotator์ AI verifier๋ฅผ ํ์ฉํ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง์ผ๋ก 4๋ฐฑ๋ง ๊ฐ์ ๊ณ ์ ๊ฐ๋ ๋ ์ด๋ธ์ ์์ฑํ์ฌ ๋ชจ๋ธ ํ์ต์ ๊ธฐ์ฌํ์ต๋๋ค.
- ๐ ๊ฒฐ๊ณผ์ ์ผ๋ก SAM 3๋ ์๋ก์ด SA-Co ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์์คํ ๋๋น ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค PCS ์ ํ๋๋ฅผ ๋ ๋ฐฐ ํฅ์์ํค๊ณ , PVS ๊ธฐ๋ฅ์ ๊ฐ์ ํ๋ฉฐ, ๋ณต์กํ ์ธ์ด ์ฟผ๋ฆฌ๋ฅผ ์ํด MLLM๊ณผ ๊ฒฐํฉ๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
SAM 3๋ ์ด๋ฏธ์ง์ ๋น๋์ค์์ Promptable Concept Segmentation (PCS)์ด๋ผ๋ ์๋ก์ด ํ์คํฌ๋ฅผ ๋์ ํ๋ฉฐ ๊ฐ์ฒด ๊ฐ์ง, ๋ถํ ๋ฐ ์ถ์ ์ ํตํฉํ ๋ชจ๋ธ์ ๋๋ค. PCS๋ โyellow school busโ์ ๊ฐ์ ์งง์ ๋ช ์ฌ๊ตฌ, ์ด๋ฏธ์ง ์์, ๋๋ ์ด ๋์ ์กฐํฉ์ผ๋ก ๊ฐ๋ ํ๋กฌํํธ๋ฅผ ๋ฐ์ ํด๋น ๊ฐ๋ ๊ณผ ์ผ์นํ๋ ๋ชจ๋ ๊ฐ์ฒด ์ธ์คํด์ค์ ๋ํ ๋ถํ ๋ง์คํฌ์ ๊ณ ์ ID๋ฅผ ๋ฐํํฉ๋๋ค. ์ด ๋ชจ๋ธ์ SAM ๋ฐ SAM 2์ Promptable Visual Segmentation (PVS)์ด ์ , ๋ฐ์ค ๋๋ ๋ง์คํฌ๋ฅผ ํตํด ๋จ์ผ ๊ฐ์ฒด๋ฅผ ๋ถํ ํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ฃผ์ด์ง ๊ฐ๋ ์ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ์ฐพ๊ณ ๋ถํ ํ๋ ์ผ๋ฐ์ ์ธ ํ์คํฌ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
1. Promptable Concept Segmentation (PCS) ํ์คํฌ ์ ์:
PCS ํ์คํฌ๋ ์ด๋ฏธ์ง ๋๋ ์งง์ ๋น๋์ค(30์ด ์ดํ)๊ฐ ์ฃผ์ด์ก์ ๋, ์งง์ ํ ์คํธ ๊ตฌ๋ฌธ, ์ด๋ฏธ์ง ์์ ๋๋ ์ด ๋์ ์กฐํฉ์ผ๋ก ์ง์ ๋ ์๊ฐ์ ๊ฐ๋ ์ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๊ฐ์ง, ๋ถํ ๋ฐ ์ถ์ ํ๋ ๊ฒ์ผ๋ก ์ ์๋ฉ๋๋ค. ํ ์คํธ ํ๋กฌํํธ๋ ๋ช ์ฌ์ ์ ํ์ ์์์ด๋ก ๊ตฌ์ฑ๋ ๋จ์ํ ๋ช ์ฌ๊ตฌ๋ก ์ ํ๋ฉ๋๋ค. ์ด๋ฏธ์ง ์์๋ ๊ฐ๋ณ ํ๋ ์์ ๊ธ์ ๋๋ ๋ถ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ์ ๊ณต๋์ด ๋์ ๋ง์คํฌ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์ด ํ์คํฌ๋ ๋ค์์ด(โmouseโ), ์ฃผ๊ด์ ์ค๋ช (โcozyโ), ๋ชจํธํ๊ฑฐ๋ ๋ฌธ๋งฅ ์์กด์ ์ธ ๊ตฌ๋ฌธ, ๊ฒฝ๊ณ ๋ชจํธ์ฑ ๋ฑ ๋ณธ์ง์ ์ธ ๋ชจํธ์ฑ์ ๋ดํฌํ๊ณ ์์ผ๋ฉฐ, SAM 3๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ ๋ต์ ํฌํจํฉ๋๋ค.
2. ๋ชจ๋ธ ์ํคํ ์ฒ:
SAM 3๋ SAM 2์ ์ผ๋ฐํ๋ ํํ๋ก, ์๋ก์ด PCS ํ์คํฌ์ ๊ธฐ์กด PVS ํ์คํฌ๋ฅผ ๋ชจ๋ ์ง์ํฉ๋๋ค. ์ฃผ์ ๊ตฌ์ฑ ์์๋ ๊ณต์ ๋น์ ์ธ์ฝ๋(Perception Encoder, PE)๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ถ๊ธฐ(detector)์ ์ถ์ ๊ธฐ(tracker)์ ๋๋ค.
- ๊ฒ์ถ๊ธฐ (Detector) ์ํคํ
์ฒ:
- ์ ๋ ฅ ์ธ์ฝ๋ฉ: ์ด๋ฏธ์ง์ ํ ์คํธ ํ๋กฌํํธ๋ PE์ ์ํด ์ธ์ฝ๋ฉ๋๋ฉฐ, ์ด๋ฏธ์ง ์์๊ฐ ์์ ๊ฒฝ์ฐ ๋ณ๋์ ์์ ์ธ์ฝ๋(exemplar encoder)๊ฐ ์ด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ค์ ํตํ์ด โํ๋กฌํํธ ํ ํฐ(prompt tokens)โ์ด๋ผ๊ณ ํฉ๋๋ค.
- ํจ์ ์ธ์ฝ๋ (Fusion Encoder): ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ๋์จ ์กฐ๊ฑดํ๋์ง ์์ ์๋ฒ ๋ฉ์ ๋ฐ์ ํ๋กฌํํธ ํ ํฐ์ ๋ํ ๊ต์ฐจ ์ดํ ์ ์ ํตํด ์กฐ๊ฑดํํฉ๋๋ค.
- ๋์ฝ๋ (Decoder): DETR(DEtection TRansformer)๊ณผ ์ ์ฌํ ๊ตฌ์กฐ๋ก, ํ์ต๋ ๊ฐ์ฒด ์ฟผ๋ฆฌ(object queries)๊ฐ ํจ์ ์ธ์ฝ๋์ ์กฐ๊ฑดํ๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ๊ต์ฐจ ์ดํ ์ ์ ์ํํฉ๋๋ค. ๊ฐ ๋์ฝ๋ ๊ณ์ธต์ ๊ฐ์ฒด ์ฟผ๋ฆฌ์ ๋ํ ๋ถ๋ฅ ๋ก์ง(ํ๋กฌํํธ์ ํด๋นํ๋ ๊ฐ์ฒด์ธ์ง ์ฌ๋ถ์ ์ด์ง ๋ ์ด๋ธ)๊ณผ ์ด์ ๊ณ์ธต์์ ์์ธก๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋ํ ๋ธํ๋ฅผ ์์ธกํฉ๋๋ค.
- Presence Token: ์ธ์(recognition)๊ณผ ์์น ํน์ (localization)์ ๋ถ๋ฆฌํ๊ธฐ ์ํด ํ์ต๋ ์ ์ญ
presence token์ ๋์ ํฉ๋๋ค. ์ด ํ ํฐ์ ๋ช ์ฌ๊ตฌ(NP) ํํ์ ํ๊ฒ ๊ฐ๋ ์ด ์ด๋ฏธ์ง/ํ๋ ์์ ์กด์ฌํ๋์ง ์ฌ๋ถ p(\text{NP is present in input})๋ง์ ์์ธกํฉ๋๋ค. ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ q_i๋ p(q_i \text{ is a match } | \text{NP is present in input})๋ผ๋ ์์น ํน์ ๋ฌธ์ ๋ง ํด๊ฒฐํฉ๋๋ค. ์ต์ข ์ ์ ์ฟผ๋ฆฌ ์ ์๋ ์์ฒด ์ ์์presence score์ ๊ณฑ์ ๋๋ค. ์ด๋ ํนํ ์ด๋ ค์ด ๋ค๊ฑฐํฐ๋ธ ๊ตฌ๋ฌธ์ผ๋ก ํ๋ จํ ๋ ํจ๊ณผ์ ์ ๋๋ค. - ์ด๋ฏธ์ง ์์ ๋ฐ ์ํธ์์ฉ (Image Exemplars and Interactivity): SAM 3๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ฐ๊ด๋ ์ด์ง ๋ ์ด๋ธ(๊ธ์ ๋๋ ๋ถ์ )๋ก ์ฃผ์ด์ง๋ ์ด๋ฏธ์ง ์์๋ฅผ ์ง์ํ๋ฉฐ, ์ด๋ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ๋ณด์ํ๊ฑฐ๋ ๋จ๋ ์ผ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- ๋ง์คํฌ ํค๋ (Mask Head): MaskFormer์์ ์ฐจ์ฉ๋์์ผ๋ฉฐ, semantic segmentation head๋ ํจ๊ป ํฌํจํ์ฌ ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ ๋ํด ํ๋กฌํํธ์ ํด๋นํ๋์ง ์ฌ๋ถ๋ฅผ ์ด์ง ๋ ์ด๋ธ๋ก ์์ธกํฉ๋๋ค.
- ๋ชจํธ์ฑ ์ฒ๋ฆฌ ํค๋ (Ambiguity Head): K๊ฐ์ ์ ๋ฌธ๊ฐ(experts)๋ฅผ ๋ณ๋ ฌ๋ก ํ๋ จํ๊ณ ๊ฐ์ฅ ๋ฎ์ ์์ค์ ๊ฐ์ง ์ ๋ฌธ๊ฐ๋ง ๊ฐ๋ ํ๋ winner-takes-all ๋ฐฉ์์ผ๋ก ๋ชจํธํ ํด์์ ์ฒ๋ฆฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ์ ๋ฌธ๊ฐ๋ ํน์ ์ข ๋ฅ์ ํด์์ ํนํ๋ฉ๋๋ค. ์ถ๋ก ์์๋ ์ด๋ค ์ ๋ฌธ๊ฐ๊ฐ ๊ฐ์ฅ ์ ํํ ํ๋ฅ ์ด ๋์์ง ์์ธกํ๋ ๋ถ๋ฅ ํค๋๋ฅผ ํ๋ จํ์ฌ ํด๊ฒฐํฉ๋๋ค.
- ์ถ์ ๊ธฐ (Tracker) ๋ฐ ๋น๋์ค ์ํคํ
์ฒ:
- ๊ฐ์ฒด ์ถ์ : ๊ฐ ํ๋ ์์์ ๊ฒ์ถ๊ธฐ๋ ์๋ก์ด ๊ฐ์ฒด O_t๋ฅผ ์ฐพ๊ณ , ์ถ์ ๊ธฐ๋ ์ด์ ํ๋ ์ t-1์ ๋ง์คํฌ๋ (masklets) M_{t-1}์ ํ์ฌ ํ๋ ์ t์ ์๋ก์ด ์์น \hat{M}_t๋ก ์ ํํฉ๋๋ค. ์ ํ๋ ๋ง์คํฌ๋ \hat{M}_t๊ณผ ํ์ฌ ํ๋ ์์์ ์๋ก ๋ํ๋๋ ๊ฐ์ฒด ๋ง์คํฌ O_t๋ฅผ ๋งค์นญ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ๊ฒฐํฉ๋๋ค: \hat{M}_t = \text{propagate}(M_{t-1}) O_t = \text{detect}(I_t, P) M_t = \text{match\_and\_update}(\hat{M}_t, O_t)
- SAM 2 ์คํ์ผ ์ ํ: ์ฒซ ํ๋ ์์์ ๊ฐ์ง๋ ๋ชจ๋ ๊ฐ์ฒด์ ๋ํด ๋ง์คํฌ๋ ์ด ์ด๊ธฐํ๋๋ฉฐ, ์ดํ ํ๋ ์์์๋ ์ถ์ ๊ธฐ ๋ชจ๋์ด ์ด์ ์์น M_{t-1}๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ๋ง์คํฌ๋ ์์น \hat{M}_t๋ฅผ ์์ธกํฉ๋๋ค.
- Temporal Disambiguation Strategies: ๋น๋์ค ์ถ์ ์ ๋ชจํธ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด
Track Confirmation Delay,Removal of Unconfirmed/Duplicate Masklets,Masklet Suppression,Periodic Re-Prompting,Detection-Guided Re-Prompting๋ฑ์ ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. - ๊ฐ๋ณ ๋ง์คํฌ ๊ฐ์ : ์ด๊ธฐ ๋ง์คํฌ ์ธํธ(๋๋ ๋ง์คํฌ๋ )๋ฅผ ์ป์ ํ, ๊ธ์ ๋ฐ ๋ถ์ ํด๋ฆญ์ ์ฌ์ฉํ์ฌ ๊ฐ๋ณ ๋ง์คํฌ(๋ )๋ฅผ ๊ฐ์ ํ ์ ์์ต๋๋ค.
3. ๋ฐ์ดํฐ ์์ง:
SAM 3๋ ์ฌ๋๊ณผ ๋ชจ๋ธ์ ํ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ๋ฐ์ดํฐ ์์ง์ ๊ตฌ์ถํ์ฌ ๋๊ท๋ชจ์ ๋ค์ํ๊ณ ๊ณ ํ์ง์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์ด ์์ง์ SAM 3, ์ฌ๋ ์ฃผ์๊ฐ, AI ์ฃผ์๊ฐ์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํตํด ์๋ํ๋ฉฐ, ํ์ฌ SAM 3๊ฐ ์คํจํ๋ ๋ฏธ๋์ด-๊ตฌ๋ฌธ ์์ ์ ๊ทน์ ์ผ๋ก ์ฑ๊ตดํ์ฌ ๋ชจ๋ธ ๊ฐ์ ์ ์ํ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฐํฉ๋๋ค.
- ์ฃผ์ ํ์ :
- ๋ฏธ๋์ด ํ๋ ์ด์ : ๋์ง์ ์ธ ์น ์์ค์ ์์กดํ๋ ์ด์ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๋ ๋ค์ํ ๋ฏธ๋์ด ๋๋ฉ์ธ์์ ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ด์ ํฉ๋๋ค.
- ๋ ์ด๋ธ ํ๋ ์ด์ : ์จํจ๋ก์ง์ ๋ฉํฐ๋ชจ๋ฌ LLM์ โAI ์ฃผ์๊ฐโ๋ก ํ์ฉํ์ฌ ๋ช ์ฌ๊ตฌ์ ์ด๋ ค์ด ๋ค๊ฑฐํฐ๋ธ(hard negatives)๋ฅผ ์์ฑํจ์ผ๋ก์จ ๋ ์ด๋ธ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ํฌ๊ฒ ๋์ ๋๋ค.
- ๋ ์ด๋ธ ๊ฒ์ฆ: MLLM์ โAI ๊ฒ์ฆ์โ๋ก ๋ฏธ์ธ ์กฐ์ ํ์ฌ ์ฌ๋๊ณผ ๊ฑฐ์ ์ ์ฌํ ์ ํ๋๋ฅผ ๋ฌ์ฑํจ์ผ๋ก์จ ์ฃผ์ ์ฒ๋ฆฌ๋์ ๋ ๋ฐฐ ์ด์ ์ฆ๊ฐ์ํต๋๋ค.
- ๋จ๊ณ๋ณ ๋ฐ์ดํฐ ์์ง:
- Phase 1 (Human Verification): ๊ฐ๋จํ ์บก์ ๋์ ํ์๋ฅผ ํตํด ์ด๋ฏธ์ง์ NP ์ ์์ ๋ฌด์์ ์ํ๋งํ๊ณ , SAM 2์ open-vocabulary detector๋ฅผ ์ฌ์ฉํ์ฌ ๋ง์คํฌ๋ฅผ ์ ์ํ ํ ์ฌ๋์ด ๊ฒ์ฆํฉ๋๋ค.
- Phase 2 (Human + AI Verification): Phase 1์์ ์์ง๋ ์ฌ๋์ ๊ฒ์ฆ ๋ ์ด๋ธ๋ก Llama 3.2๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ฌ MV(Mask Verification) ๋ฐ EV(Exhaustivity Verification) ํ์คํฌ๋ฅผ ์๋ ์ํํ๋ โAI ๊ฒ์ฆ์โ๋ฅผ ์์ฑํฉ๋๋ค. ๋ํ Llama ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ผ๋ก ์ด๋ ค์ด ๋ค๊ฑฐํฐ๋ธ NP๋ฅผ ์ ์ํฉ๋๋ค.
- Phase 3 (Scaling and Domain Expansion): AI ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ ์ ๋ ์ด๋ ค์ด ์ฌ๋ก๋ฅผ ์ฑ๊ตดํ๊ณ 15๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ํ์ฅํฉ๋๋ค. ์จํจ๋ก์ง์์ ๊ฐ๋ ์ ์ฑ๊ตดํ์ฌ long-tail, fine-grained ๊ฐ๋ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ํ์ฅํฉ๋๋ค.
- Phase 4 (Video Annotation): ์ด๋ฏธ์ง SAM 3๋ฅผ ์ฌ์ฉํ์ฌ ๋น๋์ค๋ณ ๋ฌธ์ ๋ฅผ ํฌ์ฐฉํ๋ ํ์ง ์ฃผ์์ ์์งํ๋๋ก ๋ฐ์ดํฐ ์์ง์ ํ์ฅํฉ๋๋ค.
4. SA-Co (Segment Anything with Concepts) ๋ฐ์ดํฐ์ ๋ฐ ๋ฒค์น๋งํฌ:
- ํ๋ จ ๋ฐ์ดํฐ: SA-Co/HQ (๋ฐ์ดํฐ ์์ง์์ ์์งํ ๊ณ ํ์ง ์ด๋ฏธ์ง), SA-Co/SYN (AI ๋ชจ๋ธ๋ง์ผ๋ก ๋ผ๋ฒจ๋ง๋ ํฉ์ฑ ๋ฐ์ดํฐ), SA-Co/EXT (์ธ๋ถ ๋ฐ์ดํฐ์ ). SA-Co/HQ๋ 5.2M ์ด๋ฏธ์ง, 4M ๊ณ ์ NP๋ก ๊ตฌ์ฑ๋ ์ต๋ ๊ท๋ชจ์ ๊ณ ํ์ง open-vocab segmentation ๋ฐ์ดํฐ์ ์ ๋๋ค. ๋น๋์ค ๋ฐ์ดํฐ์ ์ธ SA-Co/VIDEO๋ ํฌํจ๋ฉ๋๋ค.
- ๋ฒค์น๋งํฌ: SA-Co ํ๊ฐ ๋ฒค์น๋งํฌ๋ 207K ๊ณ ์ ๊ตฌ๋ฌธ, 121K ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค, 3M ์ด์์ ๋ฏธ๋์ด-๊ตฌ๋ฌธ ์์ ํฌํจํ๋ฉฐ, ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ณด๋ค 50๋ฐฐ ์ด์ ๋ง์ ๊ฐ๋ ์ ๋ค๋ฃน๋๋ค.
- ํ๊ฐ ์งํ:
- cgF1 (classification-gated F1): PCS์ ์ฃผ์ ์งํ๋ก, ์ด๋ฏธ์ง ๋ ๋ฒจ ๋ถ๋ฅ ์ ํ๋๋ฅผ ์ธก์ ํ๋ IL_MCC(Image-level Matthews Correlation Coefficient)์ ๊ฐ์ฒด ์์น ํน์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ pmF1(positive micro F1)์ ๊ฒฐํฉํฉ๋๋ค. cgF1 = 100 \times pmF1 \times IL\_MCC
5. ์คํ ๊ฒฐ๊ณผ:
SAM 3๋ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค PCS ํ์คํฌ์์ ๊ธฐ์กด ์์คํ ์ ์ ํ๋๋ฅผ ๋ ๋ฐฐ ์ด์ ํฅ์์ํค๊ณ , PVS ํ์คํฌ์์ SAM 2์ ์ฑ๋ฅ์ ๋ฐ์ด๋์ต๋๋ค.
- ์ด๋ฏธ์ง PCS (ํ ์คํธ ํ๋กฌํํธ): LVIS์์ zero-shot ๋ง์คํฌ AP 48.8์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด ์ต๊ณ (38.5)๋ฅผ ๋ฐ์ด๋์์ผ๋ฉฐ, SA-Co/Gold ๋ฒค์น๋งํฌ์์ OWLv2โ๋ณด๋ค ๋ ๋ฐฐ ์ด์์ cgF1 ์ ์๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
- PCS (์ด๋ฏธ์ง ์์): COCO, LVIS, ODinW์์ T-Rex2๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํ์ต๋๋ค. ์ํธ์์ฉ ์ค์ ์์ 3ํด๋ฆญ ํ ํ ์คํธ ์ ์ฉ PCS๋ณด๋ค +21.6 cgF1 ํฌ์ธํธ, PVS ๊ฐ์ ๋ณด๋ค +2.0 ํฅ์๋ฉ๋๋ค.
- ๊ฐ์ฒด ์นด์ดํ : CountBench ๋ฐ PixMo-Count ๋ฒค์น๋งํฌ์์ MLLM ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ ํ๋๋ฅผ ๋ณด์์ต๋๋ค.
- ๋น๋์ค PCS (ํ ์คํธ ํ๋กฌํํธ): SA-Co/VEval ๋ฒค์น๋งํฌ ๋ฐ ๊ณต๊ฐ ๋ฒค์น๋งํฌ์์ GLEE, LLMDet ๊ธฐ๋ฐ ์์คํ ์ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค.
- PVS: MOSEv2 ๋ฐ์ดํฐ์ ์์ SAM 2๋ณด๋ค 6.5 ํฌ์ธํธ ๋์ 60.3 J&F๋ฅผ ๊ธฐ๋กํ๋ฉฐ VOS ํ์คํฌ์์ ์๋นํ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. SA-37 ๋ฒค์น๋งํฌ์์ ์ํธ์์ฉ ์ด๋ฏธ์ง ๋ถํ ์ฑ๋ฅ๋ SAM 2๋ฅผ ๋ฅ๊ฐํ์ต๋๋ค.
- SAM 3 Agent: MLLM๊ณผ ๊ฒฐํฉํ์ฌ SAM 3๋ฅผ ๋๊ตฌ๋ก ์ฌ์ฉํ๋ฉด ReasonSeg ๋ฐ OmniLabel๊ณผ ๊ฐ์ ๋ณต์กํ ํ ์คํธ ์ฟผ๋ฆฌ์์๋ zero-shot์ผ๋ก ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ์ ๋ฅ๊ฐํ์ต๋๋ค.
6. ๊ฒฐ๋ก :
SAM 3๋ PCS ํ์คํฌ๋ฅผ ๋์ ํ๊ณ SA-Co ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํจ์ผ๋ก์จ ์คํ-์ดํ ํ ์คํธ ๋ฐ ์ด๋ฏธ์ง ์์๋ฅผ ํตํ ์ํธ์์ฉ ๋ถํ ์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ์ธ์, ์์น ํน์ ๋ฐ ์ถ์ ์ ๋ถ๋ฆฌํ๊ณ SAM 2๋ฅผ ํ์ฅํ์ฌ ๊ฐ๋ ๋ถํ ์ ํด๊ฒฐํ๋ฉด์๋ ์๊ฐ ๋ถํ ๊ธฐ๋ฅ์ ์ ์งํ๋ ์ํคํ ์ฒ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ๊ณผ AI ์ฃผ์๊ฐ์ ์ํธ ๋ณด์์ ์ธ ๊ฐ์ ์ ํ์ฉํ๋ ๊ณ ํ์ง์ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง์ด ์ฃผ์ ๊ธฐ์ฌ์ ์ ๋๋ค. SAM 3๋ PCS ๋ถ์ผ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ ์ปดํจํฐ ๋น์ ์ฐ๊ตฌ ๋ฐ ์์ฉ ๋ถ์ผ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
SAM 3: Segment Anything with Concepts
๋ก๋ด๊ณตํ์๋ฅผ ์ํ ์ฌ์ธต ๊ธฐ์ ๋ฆฌ๋ทฐ
Meta Superintelligence Labs | arXiv:2511.16719 | 2025๋ 11์
1. ์๋ก : ์ SAM 3์ธ๊ฐ?
์ปดํจํฐ ๋น์ ์ ๊ทผ๊ฐ์ด ๋๋ โ๋ฌด์์ด๋ ์ธ๊ทธ๋ฉํ ์ด์ โํ๋ ๋ฅ๋ ฅ์ ๋ก๋ด๊ณตํ, ์ฝํ ์ธ ์ ์, ์ฆ๊ฐํ์ค, ๋ฐ์ดํฐ ์ด๋ ธํ ์ด์ ๋ฑ ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ AI ์์ฉ์์ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค. 2023๋ Meta๊ฐ ๋ฐํํ SAM(Segment Anything Model)์ ํ๋กฌํํธ ๊ธฐ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ ์ด๋ผ๋ ํ์ ์ ์ธ ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ํฐ ํ์ฅ์ ์ผ์ผ์ผฐ์ต๋๋ค. ์ด์ด์ 2024๋ ์๋ SAM 2๊ฐ ๋น๋์ค ์ธ๊ทธ๋ฉํ ์ด์ ์์ญ์ผ๋ก ํ์ฅ๋๋ฉฐ ์๊ณต๊ฐ์ ์ถ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋์์ต๋๋ค.
๊ทธ๋ฌ๋ ๊ธฐ์กด SAM ์๋ฆฌ์ฆ์๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์กด์ฌํ์ต๋๋ค. ํฌ์ธํธ, ๋ฐ์ค, ๋ง์คํฌ์ ๊ฐ์ ์๊ฐ์ ํ๋กฌํํธ๋ก๋ ๋จ์ผ ๊ฐ์ฒด๋ง ์ธ๊ทธ๋ฉํ ์ด์ ํ ์ ์์๊ณ , โ์ด ์ด๋ฏธ์ง/๋น๋์ค์์ ๋ชจ๋ ๊ณ ์์ด๋ฅผ ์ฐพ์๋ผโ์ ๊ฐ์ ๊ฐ๋ ๊ธฐ๋ฐ์ ํฌ๊ด์ ํ์ง๋ ๋ถ๊ฐ๋ฅํ์ต๋๋ค. ๋ก๋ด๊ณตํ ๊ด์ ์์ ๋ณด๋ฉด, ์ด๋ ๋งค์ฐ ์น๋ช ์ ์ธ ์ ์ฝ์ ๋๋ค. ๋ก๋ด์ด ํ๊ฒฝ์ ์ธ์ํ๊ณ ์กฐ์ํด์ผ ํ ๋, ํน์ ๊ฐ๋ (์: โ๋นจ๊ฐ ์ฌ๊ณผโ, โ๊ธ์ ๋ถํโ, โ์ฌ๋์ ์โ)์ ํด๋นํ๋ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๋์์ ์ธ์ํด์ผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋น๋ฒํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
2025๋ 11์, Meta Superintelligence Labs๋ ์ด๋ฌํ ๊ฐ๊ทน์ ๋ฉ์ฐ๊ธฐ ์ํด SAM 3: Segment Anything with Concepts๋ฅผ ๋ฐํํ์ต๋๋ค. SAM 3๋ ํ ์คํธ ํ๋กฌํํธ(์: โyellow school busโ)๋ ์ด๋ฏธ์ง ์์(exemplars), ๋๋ ๋์ ์กฐํฉ์ ํตํด ์ด๋ฏธ์ง์ ๋น๋์ค์์ ํด๋น ๊ฐ๋ ์ ๋งค์นญ๋๋ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ํ์ง, ์ธ๊ทธ๋ฉํ ์ด์ , ์ถ์ ํ ์ ์๋ ํตํฉ ๋ชจ๋ธ์ ๋๋ค. ์ด๋ฅผ Promptable Concept Segmentation (PCS) ํ์คํฌ๋ก ์ ์ํ๋ฉฐ, ๊ธฐ์กด ์์คํ ๋๋น 2๋ฐฐ์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
2. SAM ์๋ฆฌ์ฆ์ ์งํ: SAM โ SAM 2 โ SAM 3
2.1 SAM (2023): ํ๋กฌํํฐ๋ธ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์์
์ต์ด์ SAM์ โํ๋กฌํํฐ๋ธ(promptable)โ ์ด๋ฏธ์ง ์ธ๊ทธ๋ฉํ ์ด์ ๊ฐ๋ ์ ๋์ ํ์ต๋๋ค. ์ฌ์ฉ์๊ฐ ํฌ์ธํธ, ๋ฐ์ค, ๋๋ ๋ง์คํฌ๋ฅผ ํ๋กฌํํธ๋ก ์ ๊ณตํ๋ฉด ๋ชจ๋ธ์ด ํด๋น ์์น์ ๊ฐ์ฒด๋ฅผ ์ธ๊ทธ๋ฉํ ์ด์ ํฉ๋๋ค. 11M ์ด๋ฏธ์ง์ 10์ต ๊ฐ ์ด์์ ๋ง์คํฌ๋ก ๊ตฌ์ฑ๋ SA-1B ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์์ผ๋ฉฐ, ์ ๋ก์ท(zero-shot) ์ ์ด ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ฌ์ต๋๋ค. ๊ทธ๋ฌ๋ ํ ์คํธ ํ๋กฌํํธ ๊ธฐ๋ฅ์ ์์ ํ ๊ฐ๋ฐ๋์ง ์์๊ณ , ํ๋กฌํํธ๋น ๋จ์ผ ๊ฐ์ฒด๋ง ์ถ๋ ฅํ ์ ์์์ต๋๋ค.
2.2 SAM 2 (2024): ๋น๋์ค๋ก์ ํ์ฅ
SAM 2๋ ํ๋กฌํํฐ๋ธ ์๊ฐ ์ธ๊ทธ๋ฉํ ์ด์ (Promptable Visual Segmentation, PVS) ํ์คํฌ๋ฅผ ๋น๋์ค๋ก ํ์ฅํ์ต๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ฌ ์๊ฐ์ ๊ฑธ์น ๊ฐ์ฒด ์ถ์ ์ด ๊ฐ๋ฅํด์ก๊ณ , ์ฌ์ฉ์๋ ๋น๋์ค์ ์ด๋ ํ๋ ์์์๋ ๋ฆฌํ์ธ๋จผํธ ํฌ์ธํธ๋ฅผ ์ถ๊ฐํ์ฌ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์กฐ์ ํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ โ๊ฐ๋ โ์ ๊ธฐ๋ฐ์ผ๋ก ํ ํ์ง๋ ์ง์ํ์ง ์์์ต๋๋ค.
2.3 SAM 3 (2025): ๊ฐ๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์์ฑ
SAM 3๋ SAM 2์ ๋ชจ๋ ๊ธฐ๋ฅ์ ํฌํจํ๋ฉด์ Promptable Concept Segmentation (PCS)๋ผ๋ ์๋ก์ด ํ์คํฌ๋ฅผ ์ถ๊ฐํฉ๋๋ค. ํต์ฌ์ ์ธ ์ฐจ์ด์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํ ์คํธ ํ๋กฌํํธ: โred appleโ, โstriped catโ๊ณผ ๊ฐ์ ๊ฐ๋จํ ๋ช ์ฌ๊ตฌ(noun phrase)๋ก ๊ฐ๋ ์ง์
- ์ด๋ฏธ์ง ์์(Exemplar): ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์/์ ๋ ์ด๋ธ๋ก ํ๊ฒ ๊ฐ๋ ์๊ฐ์ ์ ์
- ๋ชจ๋ ์ธ์คํด์ค ํ์ง: ์ด๋ฏธ์ง/๋น๋์ค ์ ์ฒด์์ ํด๋น ๊ฐ๋ ์ ๋งค์นญ๋๋ ๋ชจ๋ ๊ฐ์ฒด ์ธ๊ทธ๋ฉํ ์ด์
- ๋น๋์ค ID ๋ณด์กด: ํ๋ ์ ๊ฐ ๊ฐ์ฒด ์์ด๋ดํฐํฐ ์ ์ง
- ์ธํฐ๋ํฐ๋ธ ๋ฆฌํ์ธ๋จผํธ: ์ถ๊ฐ ํ๋กฌํํธ๋ก false positive/negative ์์ ๊ฐ๋ฅ
3. Promptable Concept Segmentation (PCS) ํ์คํฌ ์ ์
PCS ํ์คํฌ๋ฅผ ๊ณต์์ ์ผ๋ก ์ ์ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค: ์ด๋ฏธ์ง ๋๋ ์งง์ ๋น๋์ค(30์ด ์ด๋ด)๊ฐ ์ฃผ์ด์ก์ ๋, ์งง์ ํ ์คํธ ๊ตฌ๋ฌธ, ์ด๋ฏธ์ง ์์, ๋๋ ๋์ ์กฐํฉ์ผ๋ก ์ง์ ๋ ์๊ฐ์ ๊ฐ๋ ์ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ํ์ง, ์ธ๊ทธ๋ฉํ ์ด์ , ์ถ์ ํฉ๋๋ค.
3.1 ํ๋กฌํํธ ์ ํ
๋ช ์ฌ๊ตฌ(Noun Phrase) ํ๋กฌํํธ: SAM 3๋ โ๊ฐ๋ โ์ ๋ช ์ฌ์ ์ ํ์ ์์์ด๋ก ๊ตฌ์ฑ๋ ๊ฐ๋จํ ๋ช ์ฌ๊ตฌ๋ก ์ ํํฉ๋๋ค. ์๋ฅผ ๋ค์ด โdogโ, โred appleโ, โperson wearing a hatโ ๋ฑ์ด ๊ฐ๋ฅํฉ๋๋ค. ๊ธด ์ฐธ์กฐ ํํ(long referring expressions)์ด๋ ์ถ๋ก ์ด ํ์ํ ์ฟผ๋ฆฌ๋ SAM 3์ ์ง์ ์ ์ธ ๋ฒ์๊ฐ ์๋์ง๋ง, MLLM(Multimodal Large Language Model)๊ณผ ๊ฒฐํฉํ์ฌ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
์ด๋ฏธ์ง ์์(Image Exemplar) ํ๋กฌํํธ: ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ด์ง ๋ ์ด๋ธ(์์ฑ/์์ฑ) ์์ผ๋ก ์ ๊ณต๋ฉ๋๋ค. ํ ์คํธ ํ๋กฌํํธ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ฌ์ฉํ๊ฑฐ๋ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์์ง ํ ๋ง๋ฆฌ๋ฅผ ์์ฑ ์์๋ก ์ฃผ๋ฉด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ๋ด ๋ชจ๋ ๊ฐ์์ง๋ฅผ ํ์งํฉ๋๋ค. ์ด๋ SAM 1/2์ PVS์ ๋ค๋ฅด๊ฒ, ๋จ์ผ ์ธ์คํด์ค๊ฐ ์๋ ๋์ผ ๊ฐ๋ ์ ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๋ฐํํฉ๋๋ค.
์ธํฐ๋ํฐ๋ธ ๋ฆฌํ์ธ๋จผํธ: ์ด๊ธฐ ์์ธก์ด ๋ถ์ ํํ ๊ฒฝ์ฐ, ์ฌ์ฉ์๋ ์ถ๊ฐ ์์ ํ๋กฌํํธ๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ํ ์ ์์ต๋๋ค. ๋์น ground truth๋ ์์ฑ ํ๋กฌํํธ ํ๋ณด๊ฐ ๋๊ณ , false positive ํ์ง๋ ์์ฑ ํ๋กฌํํธ ํ๋ณด๊ฐ ๋ฉ๋๋ค.
3.2 ๋ชจํธ์ฑ(Ambiguity) ๋ฌธ์
์คํ ๋ณด์บ๋ทธ๋ฌ๋ฆฌ ํน์ฑ์ PCS ํ์คํฌ๋ ๋ณธ์ง์ ์ผ๋ก ๋ชจํธํฉ๋๋ค. โmouseโ๊ฐ ๋๋ฌผ์ธ์ง ๊ธฐ๊ธฐ์ธ์ง, โlargeโ์ ๊ธฐ์ค์ ๋ฌด์์ธ์ง, โmirrorโ๊ฐ ํ๋ ์์ ํฌํจํ๋์ง ๋ฑ ๋ค์ํ ํด์์ด ๊ฐ๋ฅํฉ๋๋ค. SAM 3๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ ๋ฌธ๊ฐ๋ก๋ถํฐ ํ ์คํธ ์ด๋ ธํ ์ด์ ์ ์์งํ๊ณ , ๋ณต์์ ์ ํจํ ํด์์ ํ์ฉํ๋ ํ๊ฐ ํ๋กํ ์ฝ์ ์ฑํํ์ผ๋ฉฐ, ๋ชจ๋ธ์ ๋ชจํธ์ฑ ๋ชจ๋์ ํฌํจ์์ผฐ์ต๋๋ค.
4. ๋ชจ๋ธ ์ํคํ ์ฒ: ํ์ง๊ธฐ์ ์ถ์ ๊ธฐ์ ํตํฉ
SAM 3๋ ์ฝ 8.48์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ํตํฉ ๋ชจ๋ธ๋ก, ํฌ๊ฒ Detector(ํ์ง๊ธฐ)์ Tracker(์ถ์ ๊ธฐ)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋์ ๋จ์ผ Vision Encoder(Perception Encoder, PE)๋ฅผ ๊ณต์ ํฉ๋๋ค. ์ด ์ค๊ณ๋ ํ์ง์ ์ถ์ ๊ฐ์ ํ์คํฌ ์ถฉ๋์ ์ต์ํํ๋ฉด์ ํจ์จ์ ์ธ ๊ณต์ ํํ์ ํ์ฉํฉ๋๋ค.
4.1 Perception Encoder (PE) ๋ฐฑ๋ณธ
SAM 3์ ๋น์ ๋ฐฑ๋ณธ์ Perception Encoder (PE)๋ก, ๋น์ -์ธ์ด ์ ๋ ฌ๋ ์ธ์ฝ๋์ ๋๋ค. ์ด ๋ฐฑ๋ณธ์ ํ์ง๊ธฐ์ ์ถ์ ๊ธฐ ๋ชจ๋์์ ์ด๋ฏธ์ง/ํ๋ ์ ์ธ์ฝ๋ฉ์ ์ฌ์ฉ๋ฉ๋๋ค. PE๋ ๋ณ๋๋ก ์ฌ์ ํ์ต๋๋ฉฐ, ํ์ง๊ธฐ ํ์ต ํ์๋ ๋๊ฒฐ(freeze)๋ฉ๋๋ค.
4.2 Detector ์ํคํ ์ฒ
Detector๋ DETR ํจ๋ฌ๋ค์์ ๋ฐ๋ฅด๋ฉฐ, ํ ์คํธ, ๊ธฐํํ์ ์ ๋ณด, ์ด๋ฏธ์ง ์์๋ก ์ปจ๋์ ๋๋ฉ๋๋ค. ์ฃผ์ ๊ตฌ์ฑ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
Image/Text Encoder: PE๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ธ์ฝ๋ฉํ๊ณ , ์ด๋ฏธ์ง ์์๊ฐ ์์ผ๋ฉด ๋ณ๋์ Exemplar Encoder๊ฐ ์ธ์ฝ๋ฉํฉ๋๋ค.
Fusion Encoder: ๋ฌด์กฐ๊ฑด์ (unconditioned) ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ด ํ๋กฌํํธ ํ ํฐ์ cross-attentionํ์ฌ ์ปจ๋์ ๋๋ฉ๋๋ค.
DETR-like Decoder: ํ์ต๋ object query๋ค์ด ์ปจ๋์ ๋๋ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ cross-attentionํฉ๋๋ค. ๊ฐ ๋์ฝ๋ ๋ ์ด์ด๋ ๊ฐ object query์ ๋ํด ๋ถ๋ฅ ๋ก์ง(๊ฐ์ฒด๊ฐ ํ๋กฌํํธ์ ํด๋นํ๋์ง์ ์ด์ง ๋ ์ด๋ธ)๊ณผ ๋ฐ์ด๋ฉ ๋ฐ์ค ๋ธํ๋ฅผ ์์ธกํฉ๋๋ค.
Mask Head: MaskFormer์์ ์ ์๋ ๋ง์คํฌ ํค๋๊ฐ ํฝ์ ์์ค ์ธ๊ทธ๋ฉํ ์ด์ ์ ์์ฑํฉ๋๋ค.
Semantic Segmentation Head: ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ ๋ํด ํ๋กฌํํธ์ ํด๋นํ๋์ง ์ฌ๋ถ๋ฅผ ์์ธกํฉ๋๋ค.
4.3 Presence Token: ์ธ์๊ณผ ์์นํ์ ๋ถ๋ฆฌ
SAM 3์ ํต์ฌ ํ์ ์ค ํ๋๋ Presence Token์ ๋์ ์ ๋๋ค. ์คํ ๋ณด์บ๋ทธ๋ฌ๋ฆฌ ๊ฐ๋ ํ์ง์์ ๊ฐ proposal query๊ฐ ์ธ์(what)๊ณผ ์์นํ(where)๋ฅผ ๋์์ ์ํํ๋ ๊ฒ์ ์ด๋ ต์ต๋๋ค. ์ธ์์ ์ํด์๋ ์ ์ฒด ์ด๋ฏธ์ง์ ๋งฅ๋ฝ์ ๋จ์๊ฐ ์ค์ํ์ง๋ง, ์ด๋ฅผ proposal query์ ๊ฐ์ ํ๋ฉด ๋ณธ์ง์ ์ผ๋ก ์ง์ญ์ ์ธ ์์นํ ๋ชฉํ์ ์ถฉ๋ํฉ๋๋ค.
Presence Token์ ํ์ต๋ ์ ์ญ ํ ํฐ์ผ๋ก, ํ๊ฒ ๊ฐ๋ (๋ช ์ฌ๊ตฌ)์ด ์ด๋ฏธ์ง/ํ๋ ์์ ์กด์ฌํ๋์ง ์ฌ๋ถ(P(concept present | image))๋ฅผ ์์ธกํ๋ ๊ฒ๋ง ๋ด๋นํฉ๋๋ค. ๊ฐ proposal query๋ ์์นํ ๋ฌธ์ (P(is match | proposal, concept present))๋ง ํด๊ฒฐํ๋ฉด ๋ฉ๋๋ค. ์ต์ข ์ ์๋ presence score์ proposal score์ ๊ณฑ์ ๋๋ค.
์ด ์ค๊ณ๋ ํนํ hard negative ํ์ต์์ ํจ๊ณผ์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด โ๋นจ๊ฐ ์ ๋ํผ์ ์ ์โ์ โํฐ ์ ๋ํผ์ ์ ์โ๋ฅผ ๊ตฌ๋ถํด์ผ ํ ๋, ์ ์ญ์ ๋งฅ๋ฝ์์ ์ด๋ค ๊ฐ๋ ์ด ์ค์ ๋ก ์กด์ฌํ๋์ง ๋จผ์ ํ๋จํ ํ, ๊ฐ๋ณ proposal์ด ํด๋น ๊ฐ๋ ์ ๋งค์นญ๋๋์ง ํ๋จํ๋ 2๋จ๊ณ ํ๋ก์ธ์ค๊ฐ ๊ฐ๋ฅํด์ง๋๋ค. Ablation ์คํ์์ Presence Token์ cgF1์ +1.5, IL_MCC(์ด๋ฏธ์ง ์์ค ์๊ด๊ณ์)๋ฅผ +0.05 ํฅ์์์ผฐ์ต๋๋ค.
4.4 Tracker์ ๋น๋์ค ์ํคํ ์ฒ
๋น๋์ค ์ฒ๋ฆฌ๋ฅผ ์ํด SAM 3๋ ๊ฐ ํ๋ ์์์ Detector๊ฐ ์ ๊ฐ์ฒด๋ฅผ ์ฐพ๊ณ , Tracker๊ฐ ๊ธฐ์กด masklet(์๊ณต๊ฐ ๋ง์คํฌ)์ ๋ค์ ํ๋ ์ ์์น๋ก ์ ํํฉ๋๋ค. Tracker๋ SAM 2์ transformer encoder-decoder ์ํคํ ์ฒ๋ฅผ ์์๋ฐ์, prompt encoder, mask decoder, memory encoder, memory bank๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋งค์นญ ๋ฐ ์ ๋ฐ์ดํธ: ์ถ์ ๋ ๋ง์คํฌ์ ํ์ฌ ํ๋ ์ ํ์ง ๊ฒฐ๊ณผ๋ IoU ๊ธฐ๋ฐ ๋งค์นญ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค. ๋งค์นญ๋์ง ์์ ์ ํ์ง๋ ์๋ก์ด masklet์ผ๋ก ์์ฑ๋ฉ๋๋ค.
์๊ฐ์ ๋ชจํธ์ฑ ํด์: 1. masklet detection score๋ก ์๊ฐ ์ฐฝ ๋ด์์ ์ผ๊ด๋์ง ์์ masklet์ ์ต์ 2. ์ฃผ๊ธฐ์ ์ผ๋ก ๊ณ ์ ๋ขฐ ํ์ง ๋ง์คํฌ๋ก tracker ์์ธก์ ๋์ฒดํ์ฌ ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ์ ์ ๋ขฐ์ฑ์ ์ ์ง
ํ์ง-์ถ์ ๋ถ๋ฆฌ์ ์ด์ : ๊ธฐ์กด end-to-end ์ถ์ ๋ชจ๋ธ(TrackFormer, MOTR ๋ฑ)์ ํ์ง(์๋ฏธ๋ก ์ง์ค)์ ์ถ์ (์์ด๋ดํฐํฐ ๋ถ๋ฆฌ ์ง์ค) ๊ฐ์ ์ถฉ๋์ด ์์ต๋๋ค. SAM 3๋ ๊ฐ๋ ฅํ ์ด๋ฏธ์ง ํ์ง๊ธฐ์ ๋ฐ์ ํ๊ฒ ํตํฉ๋ ์ถ์ ๊ธฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
5. Data Engine: ์ธ๊ฐ-AI ํ๋ ฅ ์ด๋ ธํ ์ด์ ์์คํ
SAM 3์ ์ฑ๋ฅ ๋์ฝ์ ๊ฐ๋ฅํ๊ฒ ํ ํต์ฌ ๋๋ ฅ์ ํ์ ์ ์ธ Data Engine์ ๋๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ณด๋ค ํจ์ฌ ํฌ๊ณ ๋ค์ํ ๊ฐ๋ ์งํฉ๊ณผ ์๊ฐ์ ๋๋ฉ์ธ์ ์์ฐ๋ฅด๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์ํ๊ณ , SAM 3 ํ์ ์ธ๊ฐ ์ด๋ ธํ ์ดํฐ์ AI ๋ชจ๋ธ์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํ์ฉํ๋ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง์ ๊ตฌ์ถํ์ต๋๋ค.
5.1 ๊ธฐ์กด ์ ๊ทผ๋ฒ ๋๋น ํ์ ์
๋ฏธ๋์ด ํ๋ ์ด์ : ๋์ง์ ์ธ ์น ์์ค์ ์์กดํ๋ ๊ธฐ์กด ์ ๊ทผ๋ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ ๋ค์ํ ๋ฏธ๋์ด ๋๋ฉ์ธ์ ํ๋ ์ด์ ํฉ๋๋ค.
๋ ์ด๋ธ ํ๋ ์ด์ : ์จํจ๋ก์ง์ MLLM โAI ์ด๋ ธํ ์ดํฐโ๋ฅผ ํ์ฉํ์ฌ ๋ช ์ฌ๊ตฌ์ hard negative๋ฅผ ์์ฑ, ๋ ์ด๋ธ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ํฌ๊ฒ ๋์ ๋๋ค.
๋ ์ด๋ธ ๊ฒ์ฆ: MLLM์ โAI ๊ฒ์ฆ๊ธฐโ๋ก ํ์ธํ๋ํ์ฌ ๊ฑฐ์ ์ธ๊ฐ ์์ค์ ์ ํ๋๋ก ๊ฒ์ฆ์ ์ํ, ์ด๋ ธํ ์ด์ ์ฒ๋ฆฌ๋์ 2๋ฐฐ ์ด์ ์ฆ๊ฐ์ํต๋๋ค.
5.2 ๋ฐ์ดํฐ ์์ง ๊ตฌ์ฑ์์
๋ฐ์ดํฐ ์์ง์ ํ์ดํ๋ผ์ธ์ ๋ค์ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- ๋ฏธ๋์ด ๋ง์ด๋: ํ๋ ์ด์ ๋ ์จํจ๋ก์ง์ ๋์์ผ๋ก ๋๊ท๋ชจ ํ์์ ์ด๋ฏธ์ง/๋น๋์ค ์ํ๋ง
- NP ์ ์: AI ๋ชจ๋ธ์ด ์๊ฐ์ ๊ฐ๋ ์ ์ค๋ช ํ๋ ๋ช ์ฌ๊ตฌ(NP)๋ฅผ ์ ์
- ๋ง์คํฌ ์์ฑ: SAM 3(๋๋ ์ด์ ๋ฒ์ )๊ฐ ๊ฐ ์ ์๋ NP์ ๋ํ ํ๋ณด ์ธ์คํด์ค ๋ง์คํฌ ์์ฑ
- ๋ง์คํฌ ๊ฒ์ฆ(MV): ๋ง์คํฌ์ ํ์ง๊ณผ NP ๊ด๋ จ์ฑ ํ๊ฐ
- ์์ ์ฑ ๊ฒ์ฆ(EV): NP์ ๋ชจ๋ ์ธ์คํด์ค๊ฐ ๋ง์คํน๋์๋์ง ํ์ธ
- ์๋ ์์ : ๊ฒ์ฆ์ ํต๊ณผํ์ง ๋ชปํ ๋ฏธ๋์ด-NP ์์ ๋ํด ์ธ๊ฐ์ด ๋ง์คํฌ ์ถ๊ฐ/์ ๊ฑฐ/์์
5.3 4๋จ๊ณ ๊ฐ๋ฐ ๊ณผ์
Phase 1 (์ธ๊ฐ ๊ฒ์ฆ): ๋๋ค ์ํ๋ง๋ ์ด๋ฏธ์ง์ ๊ฐ๋จํ captioner๋ก NP ์ ์. SAM 2 + OVD๋ก ์ด๊ธฐ ๋ง์คํฌ ์์ฑ, ์ธ๊ฐ ๊ฒ์ฆ๊ธฐ๋ก MV/EV ์ํ. 4.3M ์ด๋ฏธ์ง-NP ์์ ์ด๊ธฐ SA-Co/HQ ๋ฐ์ดํฐ์ ๊ตฌ์ถ.
Phase 2 (์ธ๊ฐ+AI ๊ฒ์ฆ): Phase 1์ ์ธ๊ฐ accept/reject ๋ ์ด๋ธ๋ก Llama 3.2๋ฅผ ํ์ธํ๋ํ์ฌ AI ๊ฒ์ฆ๊ธฐ ์์ฑ. MV/EV ํ์คํฌ๋ฅผ ์๋ํํ์ฌ ์ธ๊ฐ ๋ ธ๋ ฅ์ ๊ฐ์ฅ ์ด๋ ค์ด ์ผ์ด์ค์ ์ง์ค. NP ์ ์ ๋จ๊ณ๋ Llama ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ผ๋ก ์ ๊ทธ๋ ์ด๋ํ์ฌ SAM 3์ adversarialํ hard negative NP ์ ์. 122M ์ด๋ฏธ์ง-NP ์ ์ถ๊ฐ.
Phase 3 (์ค์ผ์ผ๋ง ๋ฐ ๋๋ฉ์ธ ํ์ฅ): AI ๋ชจ๋ธ๋ก ๋ ์ด๋ ค์ด ์ผ์ด์ค๋ฅผ ๋ง์ด๋ํ๊ณ SA-Co/HQ๋ฅผ 15๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ฅ. ์ด๋ฏธ์ง alt-text์์ NP ์ถ์ถํ๊ณ 22.4M ๋ ธ๋ SA-Co ์จํจ๋ก์ง(Wikidata ๊ธฐ๋ฐ, 17๊ฐ ์์ ์นดํ ๊ณ ๋ฆฌ, 72๊ฐ ํ์ ์นดํ ๊ณ ๋ฆฌ)์์ ๊ฐ๋ ๋ง์ด๋. SAM 3 7ํ, AI ๊ฒ์ฆ๊ธฐ 3ํ ๋ฐ๋ณต ํ์ต. 19.5M ์ด๋ฏธ์ง-NP ์ ์ถ๊ฐ.
Phase 4 (๋น๋์ค ์ด๋ ธํ ์ด์ ): ๋ฐ์ดํฐ ์์ง์ ๋น๋์ค๋ก ํ์ฅ. ์ฑ์ํ ์ด๋ฏธ์ง SAM 3๋ฅผ ์ฌ์ฉํ์ฌ ๋น๋์ค ํนํ ์ฑ๋ฆฐ์ง๋ฅผ ํฌ์ฐฉํ๋ ํ๊ฒ ํ์ง ์ด๋ ธํ ์ด์ ์์ง. ์ฌ/๋ชจ์ ํํฐ, ์ฝํ ์ธ ๋ฐธ๋ฐ์ฑ, ๋ญํน, ํ๊ฒ ๊ฒ์์ผ๋ก ๋ฐ์ดํฐ ๋ง์ด๋. 52.5K ๋น๋์ค, 467K masklet์ SA-Co/VIDEO ๊ตฌ์ถ.
5.4 ์ต์ข ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ
์ต์ข ์ ์ผ๋ก ์์ง๋ ๋ฐ์ดํฐ๋ ์๋์ ์ ๋๋ค:
- SA-Co/HQ (๊ณ ํ์ง): 5.2M ์ด๋ฏธ์ง, 4M ๊ณ ์ NP, 52M ๋ง์คํฌ - ๊ฐ์ฅ ํฐ ๊ณ ํ์ง OV ์ธ๊ทธ๋ฉํ ์ด์ ๋ฐ์ดํฐ์
- SA-Co/SYN (ํฉ์ฑ): ์ธ๊ฐ ๊ฐ์ ์์ด AI๋ง์ผ๋ก ๋ ์ด๋ธ๋ง - 38M ๊ตฌ๋ฌธ, 1.4B ๋ง์คํฌ
- SA-Co/EXT (์ธ๋ถ): 15๊ฐ ์ธ๋ถ ๋ฐ์ดํฐ์ ์ hard negative ์ถ๊ฐ
- SA-Co/VIDEO: 52.5K ๋น๋์ค, 24.8K ๊ณ ์ NP, 134K ๋น๋์ค-NP ์ (ํ๊ท 84.1 ํ๋ ์ @ 6fps)
6. SA-Co ๋ฒค์น๋งํฌ: ์๋ก์ด ํ๊ฐ ๊ธฐ์ค
๊ธฐ์กด OV ์ธ๊ทธ๋ฉํ ์ด์ ๋ฒค์น๋งํฌ์ ๊ฐ๋ ๋ค์์ฑ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, SAM 3 ํ์ Segment Anything with Concepts (SA-Co) ๋ฒค์น๋งํฌ๋ฅผ ์๋กญ๊ฒ ์ ์ํฉ๋๋ค. SA-Co๋ 207K ๊ณ ์ ๊ตฌ๋ฌธ, 121K ์ด๋ฏธ์ง/๋น๋์ค, 3M+ ๋ฏธ๋์ด-๊ตฌ๋ฌธ ์๊ณผ hard negative ๋ ์ด๋ธ์ ํฌํจํฉ๋๋ค.
6.1 ๋ฒค์น๋งํฌ ๋ถํ
- SA-Co/Gold: 7๊ฐ ๋๋ฉ์ธ, ๊ฐ ์ด๋ฏธ์ง-NP ์์ 3๋ช ์ ์๋ก ๋ค๋ฅธ ์ด๋ ธํ ์ดํฐ (์ธ๊ฐ ์ฑ๋ฅ ์ธก์ ์ฉ)
- SA-Co/Silver: 10๊ฐ ๋๋ฉ์ธ, ์ด๋ฏธ์ง-NP ์๋น 1๋ช ์ ์ธ๊ฐ ์ด๋ ธํ ์ด์
- SA-Co/Bronze: 9๊ฐ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ๋ง์คํฌ ์ด๋ ธํ ์ด์ ํ์ฉ
- SA-Co/Bio: ์๋ฌผํ ๋๋ฉ์ธ ํนํ
- SA-Co/VEval: 3๊ฐ ๋๋ฉ์ธ์ ๋น๋์ค ๋ฒค์น๋งํฌ
6.2 ํ๊ฐ ๋ฉํธ๋ฆญ
SAM 3๋ ๋ค์ด์คํธ๋ฆผ ์์ฉ์์์ ์ ์ฉ์ฑ์ ์ธก์ ํ๊ธฐ ์ํด ์๋ก์ด ๋ฉํธ๋ฆญ์ ์ ์ํฉ๋๋ค. ๊ธฐ์กด Average Precision(AP)์ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ๊ณ ๋ คํ์ง ์์ ์ค์ ์ฌ์ฉ์ด ์ด๋ ต์ต๋๋ค. SAM 3๋ ์ ๋ขฐ๋ 0.5 ์ด์์ ์์ธก๋ง ํ๊ฐํ์ฌ ์ข์ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ๊ฐ์ ํฉ๋๋ค.
- pmF1 (positive micro F1): ์ต์ 1๊ฐ ground-truth ๋ง์คํฌ๊ฐ ์๋ ์์ฑ ๋ฏธ๋์ด-๊ตฌ๋ฌธ ์์์์ ์์นํ ์ฑ๋ฅ
- IL_MCC (Image-Level Matthews Correlation Coefficient): [-1, 1] ๋ฒ์์ ์ด๋ฏธ์ง ์์ค ์ด์ง ์์ธก ํ๊ฐ (โ๊ฐ์ฒด๊ฐ ์กด์ฌํ๋๊ฐ?โ) - ๋ง์คํฌ ํ์ง ๋ฌด๊ด
- cgF1 (classification-gated F1): ์ฃผ์ ๋ฉํธ๋ฆญ, IL_MCC ร pmF1๋ก ์์นํ์ ๋ถ๋ฅ ๊ฒฐํฉ
7. ์คํ ๊ฒฐ๊ณผ: ๊ธฐ์กด ์์คํ ๋๋น 2๋ฐฐ ์ฑ๋ฅ ํฅ์
7.1 ์ด๋ฏธ์ง PCS (ํ ์คํธ ํ๋กฌํํธ)
SAM 3๋ ์ธ์คํด์ค ์ธ๊ทธ๋ฉํ ์ด์ , ๋ฐ์ค ํ์ง, ์๋ฏธ๋ก ์ ์ธ๊ทธ๋ฉํ ์ด์ ์์ ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
| ๋ฒค์น๋งํฌ | ๋ฉํธ๋ฆญ | SAM 3 | ์ด์ SOTA | ํฅ์ |
|---|---|---|---|---|
| LVIS | Mask AP | 48.8 | 38.5 | +10.3 |
| SA-Co/Gold | cgF1 | 54.1 | 24.6 (OWLv2*) | +29.5 (2.2๋ฐฐ) |
| Human Performance | cgF1 | 72.8 | - | SAM 3๊ฐ 74% ๋ฌ์ฑ |
๋น๊ต ๋์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก๋ OWLv2, GroundingDino, LLMDet(๋ฐ์ค ํ์ง ํ SAM 1์ผ๋ก ์ธ๊ทธ๋ฉํ ์ด์ ), APE, DINO-X, Gemini 2.5 Flash๊ฐ ํฌํจ๋์์ต๋๋ค. SA-Co์ ๋ค๋ฅธ ๋ถํ (Silver, Bronze, Bio)์์๋ ๊ฐ์ ํญ์ด ๋ ํฝ๋๋ค. ์คํ ๋ณด์บ๋ทธ๋ฌ๋ฆฌ ์๋ฏธ๋ก ์ ์ธ๊ทธ๋ฉํ ์ด์ ์์๋ ADE-847, PascalConcept-59, Cityscapes์์ ๊ฐ๋ ฅํ ์ ๋ฌธ ๋ฒ ์ด์ค๋ผ์ธ APE๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
7.2 Few-Shot ์ ์
ODinW13๊ณผ RF100-VL ๋ฒค์น๋งํฌ์์ ํ๋กฌํํธ ํ๋ ์์ด ์ ๋ก์ท ๋ฐ few-shot ์ ์ด๋ฅผ ํ๊ฐํ์ต๋๋ค. SAM 3๋ SOTA 10-shot ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, Gemini์ in-context ํ๋กฌํํ ๊ณผ ๊ฐ์ฒด ํ์ง ์ ๋ฌธ๊ฐ(GroundingDino)๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. RF100-VL์ ํน์ ๋๋ฉ์ธ์์๋ ๋ฒ ์ด์ค๋ผ์ธ๋ณด๋ค ํจ์จ์ ์ผ๋ก ์ ์ํฉ๋๋ค.
7.3 ์ด๋ฏธ์ง ์์ ํ๋กฌํํธ
1๊ฐ์ ์์ ๋ฐ์ค๋ง์ผ๋ก SAM 3๋ T-Rex2๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค:
| ๋ฒค์น๋งํฌ | SAM 3 | T-Rex2 | ์ฐจ์ด |
|---|---|---|---|
| COCO | +18.3 AP | - | - |
| LVIS | +10.3 AP | - | - |
| ODinW | +20.5 AP | - | - |
ํ ์คํธ(T) + ์ด๋ฏธ์ง ์์(I) ์กฐํฉ(T+I) ์ ์ฑ๋ฅ์ด ๋์ฑ ํฅ์๋ฉ๋๋ค.
7.4 ์ธํฐ๋ํฐ๋ธ PCS
์ธ๊ฐ ์ด๋ ธํ ์ดํฐ์์ ํ์ ์ ์๋ฎฌ๋ ์ด์ ํ ์ธํฐ๋ํฐ๋ธ ์คํ์์, ํ ์คํธ ํ๋กฌํํธ ์์ ํ ์์ ํ๋กฌํํธ๋ฅผ ๋ฐ๋ณต ์ถ๊ฐํ์ต๋๋ค. SAM 3์ PCS๋ ์์๋ก๋ถํฐ ์ผ๋ฐํ(์ ์ฌ ๊ฐ์ฒด ํ์ง/์ต์ )ํ์ฌ cgF1์ ๋น ๋ฅด๊ฒ ๊ฐ์ ํฉ๋๋ค.
- 3ํด๋ฆญ ํ: ํ ์คํธ ์ ์ฉ ๋๋น +21.6 cgF1, PVS ๋ฆฌํ์ธ๋จผํธ ๋๋น +2.0
- 4ํด๋ฆญ ํ ์ฑ๋ฅ์ด ์ ์ฒด๋๋ฉด PVS๋ก ์ ํํ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ด ๋ ํจ๊ณผ์
7.5 ๊ฐ์ฒด ์นด์ดํ
CountBench์ PixMo-Count์์ SAM 3๋ Qwen2-VL-72B, Molmo-72B, Gemini 2.5 Pro ๋ฑ MLLM๋ค๊ณผ ๋น๊ตํ์ต๋๋ค. SAM 3๋ ์ข์ ์นด์ดํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ ๋๋ถ๋ถ์ MLLM์ด ์ ๊ณตํ์ง ๋ชปํ๋ ๊ฐ์ฒด ์ธ๊ทธ๋ฉํ ์ด์ ๊น์ง ์ ๊ณตํฉ๋๋ค.
7.6 ๋น๋์ค PCS
SA-Co/VEval๊ณผ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ๋น๋์ค ์ธ๊ทธ๋ฉํ ์ด์ ์ ํ๊ฐํ์ต๋๋ค. ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก GLEE, โLLMDet + SAM 3 Trackerโ, โSAM 3 Detector + T-by-Dโ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. SAM 3๋ ํนํ ๋งค์ฐ ๋ง์ ๋ช ์ฌ๊ตฌ๊ฐ ์๋ ๋ฒค์น๋งํฌ์์ ๋ฒ ์ด์ค๋ผ์ธ์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ, SA-Co/VEval์์ ์ธ๊ฐ pHOTA์ 80% ์ด์์ ๋๋ฌํฉ๋๋ค.
7.7 Promptable Visual Segmentation (PVS)
SAM 3๋ SAM 2์ PVS ๊ธฐ๋ฅ๋ ์ ์งํ๋ฉฐ ๊ฐ์ ํฉ๋๋ค. VOS(Video Object Segmentation) ํ์คํฌ์์ MOSEv2 ๋ฐ์ดํฐ์ ์์ ์ด์ SOTA ๋๋น +6.5 ํฌ์ธํธ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. ์ธํฐ๋ํฐ๋ธ ์ด๋ฏธ์ง ์ธ๊ทธ๋ฉํ ์ด์ ์์๋ SAM 2์ 37๊ฐ ๋ฐ์ดํฐ์ ๋ฒค์น๋งํฌ์์ ํ๊ท ์ ์ผ๋ก SAM 2๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
7.8 SAM 3 Agent
๋ ๋ณต์กํ ํ ์คํธ ์ฟผ๋ฆฌ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด SAM 3๋ฅผ ๋๊ตฌ๋ก ์ฌ์ฉํ๋ MLLM ์์ด์ ํธ๋ฅผ ์คํํ์ต๋๋ค. MLLM์ด SAM 3์ ๋ช ์ฌ๊ตฌ ์ฟผ๋ฆฌ๋ฅผ ์ ์ํ๊ณ ๋ฐํ๋ ๋ง์คํฌ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ์์ ๋๋ค.
ReasonSeg์ OmniLabel์์ ์ ๋ก์ท ํ๊ฐ ์, SAM 3 Agent๋ ์ฐธ์กฐ ํํ ์ธ๊ทธ๋ฉํ ์ด์ ์ด๋ ์ถ๋ก ์ธ๊ทธ๋ฉํ ์ด์ ๋ฐ์ดํฐ๋ก ํ์ตํ์ง ์๊ณ ๋ ์ด์ ์์ ๋ค์ ๋ฅ๊ฐํฉ๋๋ค. ๋ค์ํ MLLM(Qwen2.5-VL 7B/72B, Llama4 Maverick, Gemini 2.5 Pro)๊ณผ ๋์ผํ ์์คํ ํ๋กฌํํธ๋ก ๊ฒฐํฉ ๊ฐ๋ฅํ์ฌ SAM 3์ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
8. Ablation Study: ํต์ฌ ์ค๊ณ ๊ฒฐ์ ์ ์ํฅ
8.1 Presence Token ํจ๊ณผ
Presence Token์ cgF1์ +1.5 ํฅ์์ํค๊ณ , ์ด๋ฏธ์ง ์์ค ์ธ์(IL_MCC)์ +0.05 ๊ฐ์ ํฉ๋๋ค. ํ์ต ์, ๊ฐ๋ ์ด ์ด๋ฏธ์ง์ ์์ ๋ ๊ฐ๋ณ object score์ ์์ฑ supervision์ ์ฃผ์ง ์๋ ์ค์ ์ด ์ต์ ์ ๋๋ค(์ธ์-์์นํ ๋ถ๋ฆฌ ์ค๊ณ์ ์ผ๊ด).
8.2 Hard Negative ํจ๊ณผ
Hard negative ์ถ๊ฐ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค:
| Hard Negatives/img | cgF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 0 | 28.3 | 0.44 | 62.4 |
| 5 | 39.4 | 0.62 | 62.9 |
| 15 | 41.8 | 0.67 | 62.4 |
| 30 | 43.0 | 0.68 | 62.8 |
pmF1์ ๊ฑฐ์ ๋ณํ์ง ์์, hard negative๊ฐ ์์นํ๋ณด๋ค ๋ถ๋ฅ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์นจ์ ํ์ธํฉ๋๋ค.
8.3 ๋ฐ์ดํฐ ์ ํ๋ณ ํจ๊ณผ
| ๋ฐ์ดํฐ ์กฐํฉ | cgF1 | ์ฆ๋ถ |
|---|---|---|
| EXT only | 23.7 | - |
| EXT + SYN | 32.8 | +9.1 |
| EXT + HQ | 45.5 | +21.8 |
| EXT + SYN + HQ | 47.4 | +23.7 |
๊ณ ํ์ง ์ธ๊ฐ+AI ์ด๋ ธํ ์ด์ ์ ์ค์์ฑ์ด ๋ช ํํ ๋๋ฌ๋ฉ๋๋ค.
8.4 AI ๊ฒ์ฆ๊ธฐ ํจ๊ณผ
SAM 3์ presence score ๋์ ์์ ์ฑ ๊ฒ์ฆ(EV) AI ๊ฒ์ฆ๊ธฐ์ ์ ์๋ฅผ ์ฌ์ฉํ๋ฉด cgF1์ด +7.2 ํฅ์๋ฉ๋๋ค. ๋ง์คํฌ ๊ฒ์ฆ(MV) AI ๊ฒ์ฆ๊ธฐ๋ก ์ ํ์ง ๋ง์คํฌ๋ฅผ ์ ๊ฑฐํ๋ฉด ์ถ๊ฐ +1.1์ ๋๋ค. ์ ์ฒด์ ์ผ๋ก AI ๊ฒ์ฆ๊ธฐ๋ SAM 3์ ์ธ๊ฐ ์ฑ๋ฅ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ์ ๋ฐ์ผ๋ก ์ค์ ๋๋ค.
8.5 ๋๋ฉ์ธ ์ ์
โFood&drinkโ ๋๋ฉ์ธ์ ํ์ต์์ ์ ์ธํ ํ, ๋๋ฉ์ธ๋ณ ํฉ์ฑ ๋ฐ์ดํฐ(SYN-Food)๋ง์ผ๋ก๋ ๊ณ ํ์ง ์ธ๊ฐ+AI ์ด๋ ธํ ์ด์ (HQ-Food)๊ณผ ์ ์ฌํ ์ค์ผ์ผ๋ง ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ ์ธ๊ฐ ์ด๋ ธํ ์ด์ ๋น์ฉ ์์ด ์ ๋ฐ์ดํฐ ๋ถํฌ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
9. ๋ก๋ด๊ณตํ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ
SAM 3์ ๊ธฐ๋ฅ์ ๋ก๋ด๊ณตํ์ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ ์ ์ธ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํฉ๋๋ค. ํนํ ๋ก๋ด manipulation, ์์จ ์ฃผํ, human-robot interaction ๋ถ์ผ์์ ๊ทธ ์ ์ฌ๋ ฅ์ด ๋๋๋ฌ์ง๋๋ค.
9.1 ๋ก๋ด Manipulation์์์ ํ์ฉ
์ธ์ด ๊ธฐ๋ฐ Grasping: โ๋นจ๊ฐ ๋จธ๊ทธ์ปต์ ์ง์ด๋ผโ์ ๊ฐ์ ์์ฐ์ด ๋ช ๋ น์ ๋ฐ์์ ๋, SAM 3๋ ์ฌ ๋ด์ ๋ชจ๋ โ๋นจ๊ฐ ๋จธ๊ทธ์ปตโ ์ธ์คํด์ค๋ฅผ ์ธ๊ทธ๋ฉํ ์ด์ ํ์ฌ grasping ํ๋ณด๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ OVD๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ป์ ํ ๋ณ๋ ์ธ๊ทธ๋ฉํ ์ด์ ์ด ํ์ํ์ง๋ง, SAM 3๋ ์ด๋ฅผ ํตํฉํฉ๋๋ค.
์ธ์คํด์ค ์ธ์ ์กฐ์: ํ ์ด๋ธ ์์ ๋์ผ ์ข ๋ฅ ๊ฐ์ฒด๋ค(์: ์ฌ๋ฌ ๊ฐ์ ๋์ฌ) ์ค ํน์ ์ธ์คํด์ค๋ฅผ ์กฐ์ํด์ผ ํ ๋, ์ด๋ฏธ์ง ์์ ํ๋กฌํํธ๋ก ํ๊ฒ์ ์ง์ ํ๊ณ ์ ์ฌ ๊ฐ์ฒด๋ฅผ ๊ตฌ๋ถํ ์ ์์ต๋๋ค.
Sim-to-Real Transfer: ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ์ ์ฑ ์ ์ค์ ํ๊ฒฝ์ ์ ์ดํ ๋, SAM 3์ ๊ฐ๋ ฅํ ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋๋ฉ์ธ ๊ฐญ์ ์ค์ด๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
์ฐ์์ ์กฐ์ ์ถ์ : ๋น๋์ค PCS ๊ธฐ๋ฅ์ผ๋ก manipulation ๊ณผ์ ์์ ๊ฐ์ฒด์ ์ํ ๋ณํ๋ฅผ ์ถ์ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์กฐ๋ฆฝ ์์ ์์ ๋ถํ๋ค์ ์์น์ ์ํ๋ฅผ ํ๋ ์ ๊ฐ ์ผ๊ด๋๊ฒ ์ถ์ ํฉ๋๋ค.
9.2 ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์์์ ํ์ฉ
์ธํฐ๋ํฐ๋ธ ๊ฐ์ฒด ์ ํ: VR ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ ์์ ์คํผ๋ ์ดํฐ๊ฐ ์์ฑ์ผ๋ก โ๋ชจ๋ ๋ณผํธ๋ฅผ ํ์ํด์คโ๋ผ๊ณ ํ๋ฉด SAM 3๊ฐ ๊ด๋ จ ๊ฐ์ฒด๋ค์ ํ์ด๋ผ์ดํธํ ์ ์์ต๋๋ค. ์ถ๊ฐ ์์ ํ๋กฌํํธ๋ก ํ๊ฒ์ ์ขํ๊ฐ ์ ์์ต๋๋ค.
์ฆ๊ฐ ํ์ค ์ค๋ฒ๋ ์ด: ํ ๋ ์คํผ๋ ์ด์ ์ธํฐํ์ด์ค์ SAM 3์ ์ธ๊ทธ๋ฉํ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ฒ๋ ์ดํ์ฌ ์คํผ๋ ์ดํฐ์ ์ํฉ ์ธ์์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ํน์ ๊ฐ๋ ์ ๊ฐ์ฒด๋ค์ด ์์ ์ฝ๋ฉ๋์ด ํ์๋ ์ ์์ต๋๋ค.
9.3 ์์จ ์ด๋ ๋ก๋ด์์์ ํ์ฉ
์๋งจํฑ ๋ด๋น๊ฒ์ด์ : โ์ฑ ์โ์ด๋ โ์์โ์ ๊ฐ์ ๊ฐ๋ ์ ์ธ์ํ์ฌ ์๋งจํฑ ๋งต์ ๊ตฌ์ถํ ์ ์์ต๋๋ค. ์๋ฏธ๋ก ์ ์ธ๊ทธ๋ฉํ ์ด์ ์ฑ๋ฅ์ด ADE-847์์ 13.8 mIoU๋ก, ๋ค์ํ ์ค๋ด ๊ฐ์ฒด ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์ธ์ํฉ๋๋ค.
๋์ ์ฅ์ ๋ฌผ ์ถ์ : ๋น๋์ค PCS๋ก ์ด๋ ๋ก๋ด ํ๊ฒฝ์์ โ์ฌ๋โ์ด๋ โ๋ค๋ฅธ ๋ก๋ดโ์ ์ง์์ ์ผ๋ก ์ถ์ ํ์ฌ ๊ฒฝ๋ก ๊ณํ์ ํ์ฉํ ์ ์์ต๋๋ค.
9.4 ๋ฐ์ดํฐ ์์ง ๋ฐ ์ด๋ ธํ ์ด์
๋ก๋ด๊ณตํ ์ฐ๊ตฌ์์ ๋ฐ์ดํฐ ์ด๋ ธํ ์ด์ ์ ํฐ ๋น์ฉ์ ๋๋ค. SAM 3์ Data Engine ์ ๊ทผ๋ฒ์ ์ธ๊ฐ-AI ํ๋ ฅ์ผ๋ก ์ด๋ ธํ ์ด์ ํจ์จ์ 2๋ฐฐ ์ด์ ๋์ ๋๋ค. ๋ก๋ด ๋ฐ์ดํฐ์ ๊ตฌ์ถ ์ ์ ์ฌํ ํ์ดํ๋ผ์ธ์ ์ ์ฉํ ์ ์์ต๋๋ค. ๋ํ SAM 3 ์์ฒด๋ฅผ pseudo-label ์์ฑ๊ธฐ๋ก ์ฌ์ฉํ์ฌ ๋ก๋ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ ์ด๋ ธํ ์ด์ ํ ์ ์์ต๋๋ค.
9.5 SAM 3 Agent์ LLM ๊ธฐ๋ฐ ๋ก๋ด ์์คํ
์ต๊ทผ LLM/VLM ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด ์์คํ (์: RT-2, PaLM-E, Code as Policies)์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. SAM 3 Agent์ ํจํดโMLLM์ด SAM 3๋ฅผ ๋๊ตฌ๋ก ์ฌ์ฉโ์ ์ด๋ฌํ ์์คํ ๊ณผ ์์ฐ์ค๋ฝ๊ฒ ํตํฉ๋ฉ๋๋ค. MLLM์ด ๊ณ ์์ค ์ถ๋ก (โ์ ๋ฐ์์ ๊ฐ์ฅ ํฐ ๋ฌผ์ฒด๋ฅผ ์ง์ดโ)์ ์ํํ๊ณ , SAM 3๊ฐ ์ ์์ค ์ง๊ฐ(ํด๋น ๋ฌผ์ฒด ์ธ๊ทธ๋ฉํ ์ด์ )์ ๋ด๋นํ๋ ๊ณ์ธต์ ์ํคํ ์ฒ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
10. ์ถ๋ก ์ฑ๋ฅ ๋ฐ ํจ์จ์ฑ
๋ก๋ด๊ณตํ ์์ฉ์์ ์ค์๊ฐ ๋๋ ์ค์ค์๊ฐ ์ฑ๋ฅ์ ์ค์ํฉ๋๋ค. SAM 3์ ์ถ๋ก ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
| ํ๊ฒฝ | ์ฑ๋ฅ |
|---|---|
| H200 GPU, ๋จ์ผ ์ด๋ฏธ์ง | 30ms (100+ ๊ฐ์ฒด ํ์ง) |
| ๋น๋์ค | ๊ฐ์ฒด ์์ ๋ฐ๋ผ ์ค์ผ์ผ, ์ ์ ๊ฐ์ฒด ์ ์ค์ค์๊ฐ |
๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ 8.48์ต ๊ฐ๋ก, ์ต์ ๋น์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ์ค ํฉ๋ฆฌ์ ์ธ ํฌ๊ธฐ์ ๋๋ค. ๋ก๋ด ์์คํ ์ ํ์ฌ๋ GPU(์: NVIDIA Jetson ์๋ฆฌ์ฆ)์์์ ์ต์ ํ๋ ์ถ๋ก ์ด๋ EfficientSAM3์ ๊ฐ์ ๊ฒฝ๋ํ ๋ฒ์ ์ ๊ฐ๋ฐ์ด ๊ธฐ๋๋ฉ๋๋ค.
11. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
11.1 ํ์ฌ ํ๊ณ์
๋๋ฉ์ธ ์ธ ์ฉ์ด ์ผ๋ฐํ ํ๊ณ: ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์ ํน์ ๋๋ฉ์ธ ์ฉ์ด(์: ํน์ ์ฐ์ ๋ถํ ๋ช ์นญ)์ ๋ํ ์ผ๋ฐํ๊ฐ ์ ํ์ ์ ๋๋ค. ์๋ ๋๋ฉ์ธ ํ์ฅ์ผ๋ก ์ํํ ์ ์์ง๋ง ์ถ๊ฐ ํ์ต์ด ํ์ํฉ๋๋ค.
๊ฐ๋จํ ๋ช ์ฌ๊ตฌ๋ก ์ ํ: โํ ์ด๋ธ ์ผ์ชฝ์ ๋นจ๊ฐ ๋ฌผ์ฒดโ์ ๊ฐ์ ๋ณต์กํ ๊ณต๊ฐ์ ๊ด๊ณ๋ ์ถ๋ก ์ด ํ์ํ ์ฟผ๋ฆฌ๋ ์ง์ ์ฒ๋ฆฌํ์ง ๋ชปํฉ๋๋ค. MLLM๊ณผ์ ๊ฒฐํฉ์ผ๋ก ์ฐํ ๊ฐ๋ฅํ์ง๋ง ์ถ๊ฐ ๋ณต์ก์ฑ์ด ๋ฐ์ํฉ๋๋ค.
๊ธด ๋น๋์ค ์ฒ๋ฆฌ: 30์ด๋ก ์ ํ๋ ๋น๋์ค ๊ธธ์ด๋ ์ฅ์๊ฐ ๋ก๋ด ์์ ์์ ์ ์ฝ์ด ๋ ์ ์์ต๋๋ค.
์ฃ์ง ๋๋ฐ์ด์ค ๋ฐฐํฌ: 8.48์ต ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๋ฆฌ์์ค ์ ํ ํ๊ฒฝ์์ ์ง์ ์ฌ์ฉํ๊ธฐ ์ด๋ ต์ต๋๋ค.
11.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
๊ฒฝ๋ํ ์ฐ๊ตฌ: EfficientSAM3์ฒ๋ผ Progressive Hierarchical Distillation์ ํตํ ๊ฒฝ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ด ์งํ ์ค์ ๋๋ค. RepViT, TinyViT, EfficientViT ๋ฐฑ๋ณธ์ ์ฌ์ฉํ ์จ๋๋ฐ์ด์ค ๋ฐฐํฌ๊ฐ ๊ธฐ๋๋ฉ๋๋ค.
3D ์ธ์ ํตํฉ: ๊ฐ์ ์๊ธฐ์ ๋ฐํ๋ SAM 3D์์ ํตํฉ์ผ๋ก RGB-D ์ ๋ ฅ ์ฒ๋ฆฌ, 3D ์ธ๊ทธ๋ฉํ ์ด์ , ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
๋ก๋ด ํนํ ํ์ธํ๋: ๊ณต์ฅ ์๋ํ, ๋์ ๋ก๋ด, ์๋น์ค ๋ก๋ด ๋ฑ ํน์ ์์ฉ์ ๋ง๋ ๋๋ฉ์ธ ์ ์ ํ์ต
Embodied AI ์์คํ ํตํฉ: ๋ก๋ด ์ ์ด ์ ์ฑ ๊ณผ SAM 3์ end-to-end ํ์ต ๋๋ ๋ ๋ฐ์ ํ ํตํฉ ์ฐ๊ตฌ
12. ๊ฒฐ๋ก
SAM 3: Segment Anything with Concepts๋ ํ๋กฌํํฐ๋ธ ์ธ๊ทธ๋ฉํ ์ด์ ์ ์๋ก์ด ์ฅ์ ์ด์์ต๋๋ค. ํ ์คํธ์ ์ด๋ฏธ์ง ์์๋ฅผ ํตํ ๊ฐ๋ ๊ธฐ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ , ์ธ์-์์นํ ๋ถ๋ฆฌ๋ฅผ ํตํ ์ํคํ ์ฒ ํ์ , ์ธ๊ฐ-AI ํ๋ ฅ Data Engine์ ํตํ ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ ๊ตฌ์ถ์ ๋ชจ๋ ์ฃผ๋ชฉํ ๋งํ ๊ธฐ์ฌ์ ๋๋ค.
๋ก๋ด๊ณตํ ๊ด์ ์์ SAM 3๋ ์ธ์ด ๊ธฐ๋ฐ manipulation, ์๋งจํฑ ๋ด๋น๊ฒ์ด์ , ์ธํฐ๋ํฐ๋ธ ํ ๋ ์คํผ๋ ์ด์ , ์๋ ๋ฐ์ดํฐ ์ด๋ ธํ ์ด์ ๋ฑ ๋ค์ํ ์์ฉ์์ ํ์ฉ๋ ์ ์๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ํนํ MLLM๊ณผ์ ๊ฒฐํฉ์ ํตํด ๋ ๋ณต์กํ ๋ก๋ด ์ง๊ฐ ํ์คํฌ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ด ์ด๋ ธ์ต๋๋ค.
๊ธฐ์กด ์์คํ ๋๋น 2๋ฐฐ์ ์ฑ๋ฅ ํฅ์๊ณผ ์ธ๊ฐ ์ฑ๋ฅ์ 74%์ ๋ฌํ๋ ์ ํ๋๋ SAM 3๊ฐ ๋จ์ํ ์ ์ง์ ๊ฐ์ ์ด ์๋ ์ง์ ๋์ฝ์์ ๋ณด์ฌ์ค๋๋ค. ์คํ์์ค๋ก ๊ณต๊ฐ๋ ๋ชจ๋ธ, ์ฝ๋, ๋ฒค์น๋งํฌ๋ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ํ์ ์ฐ๊ตฌ๋ฅผ ์ด์งํ ๊ฒ์ ๋๋ค.
๋ฌผ๋ก ๋๋ฉ์ธ ์ธ ์ผ๋ฐํ, ๋ณต์กํ ์ถ๋ก ์ฟผ๋ฆฌ ์ฒ๋ฆฌ, ์ฃ์ง ๋ฐฐํฌ ๋ฑ์ ๊ณผ์ ๊ฐ ๋จ์ ์์ง๋ง, ์ด๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ ๋ถ์ผ์์ ์์ฐ์ค๋ฌ์ด ํ์ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค. SAM 3์ SA-Co ๋ฒค์น๋งํฌ๋ ์ปดํจํฐ ๋น์ ๊ณผ ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์ ์ค์ํ ์ด์ ํ๊ฐ ๋ ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ์๋ฃ
- ๋ ผ๋ฌธ: arXiv:2511.16719
- GitHub: facebookresearch/sam3
- ๋ฐ๋ชจ: segment-anything.com
- ํ๋ก์ ํธ ํ์ด์ง: ai.meta.com/sam3
- SA-Co ๋ฒค์น๋งํฌ: HuggingFace - SA-Co/Gold, SA-Co/Silver, SA-Co/VEval
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
SAM3: Segment Anything with Concepts ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
์๋ก (Introduction)
์ปดํจํฐ ๋น์ ์์ ์ด๋ค ์ฅ๋ฉด์์๋ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ๋ถํ (segmentation)ํด๋ด๋ ๋ฅ๋ ฅ์ ๋ค์ํ ์์ฉ์ ํต์ฌ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด์๊ฒ ์๊ฐ์ ์ธ์ง๋ฅ๋ ฅ์ ๋ถ์ฌํ๊ฑฐ๋, ์ฆ๊ฐํ์ค(AR)์์ ์ฅ๋ฉด ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์กฐ ํ์ํ๋ ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์์ ์ด๋ฌํ ๋ฒ์ฉ ์๊ฐ ์ธ๋ถํ ๋ฅ๋ ฅ์ด ์๊ตฌ๋ฉ๋๋ค. Meta AI๊ฐ 2023๋ ๊ณต๊ฐํ Segment Anything Model (SAM)์ ์ฌ์ฉ์์ ํ๋กฌํํธ(prompt)๋ง ์์ผ๋ฉด ์ด๋ฏธ์ง ๋ด ์์์ ๊ฐ์ฒด๋ฅผ ์ฆ์์์ ๋ถํ ํ ์ ์๋ ๊ธฐ์ด ๋ชจ๋ธ(foundation model)๋ก ํฐ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค. SAM์ ์ ์ด๋ ๋ฐ์ค ๊ฐ์ ๊ฐ๋จํ ์ ๋ ฅ๋ง์ผ๋ก ํด๋น ์์น์ ๊ฐ์ฒด ๋ง์คํฌ๋ฅผ ์ฐ์ถํ์ฌ, ์ผ์ผ์ด ๊ฐ์ฒด๋ง๋ค ์๋ ๋ถํ ์ ํด์ผ ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ํ์ ํ์ต๋๋ค. ์ด์ด์ 2024๋ ๋ฐํ๋ SAM2 (Segment Anything Model 2)๋ ์ด ๊ฐ๋ ์ ๋น๋์ค๋ก ํ์ฅํ์ฌ, ๋์์ ๋ด์์๋ ํ ๋ฒ ํด๋ฆญ์ผ๋ก ์ง์ ํ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ ํ๋ ์์ ๊ฑธ์ณ ์ถ์ ยท๋ถํ ํ ์ ์๋๋ก ๋ฐ์ ์์ผฐ์ต๋๋ค. SAM2๋ฅผ ํตํด ์ฌ์ฉ์๋ค์ ๋น๋์ค ์ด๋ ํ๋ ์์์๋ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ณ ์ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ์์ผ๋ก ๊ฐ์ (์ ๊ตํ)ํ ์ ์๊ฒ ๋์๊ณ , ์ด๋ฏธ์ง๋ฟ๋ง ์๋๋ผ ๋์์์์๋ ํ๋กฌํํธ ๊ธฐ๋ฐ ์ธ๋ถํ(Promptable Visual Segmentation, PVS)์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๊ทธ๋ฌ๋ SAM๊ณผ SAM2 ๋ชจ๋ ์ด๋ค โ๊ฐ๋ โ์ ์๋์ผ๋ก ์ฐพ์์ฃผ๋ ๋ฅ๋ ฅ์ ๋ถ์ฌํ์ต๋๋ค. ์ฆ, ์ฌ์ฉ์๊ฐ ์ผ์ผ์ด ๊ฐ๋ฆฌํจ ๊ฐ์ฒด๋ง ๋ถํ ํ ๋ฟ, ์๋ฅผ ๋ค์ด โ์์์ ์๋ ๋ชจ๋ ๊ณ ์์ด๋ฅผ ์ฐพ์์คโ์ ๊ฐ์ ์์ฒญ์ ๋ตํ์ง๋ ๋ชปํ์ต๋๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ๋์ด, ์ฃผ์ด์ง ๊ฐ๋ ์ ํด๋นํ๋ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ํ๊บผ๋ฒ์ ์ฐพ์ ์ธ๋ถํํ๋ ๊ฒ์ด ๋ค์ ๊ณผ์ ๋ก ๋ถ์ํ์ต๋๋ค. 2025๋ Meta AI๊ฐ ๊ณต๊ฐํ SAM3: Segment Anything with Concepts๋ ๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ ๋ชจ๋ธ์ ๋๋ค. SAM3๋ ํ ์คํธ ๋๋ ์ด๋ฏธ์ง ์์๋ก ๊ฐ๋ ์ ์ ์ํ๋ฉด, ์ด๋ฏธ์ง๋ ์์ ์ ๋ฐ์ ๊ฑธ์ณ ๊ทธ ๊ฐ๋ ์ ํด๋นํ๋ ๋ชจ๋ ๊ฐ์ฒด ์ธ์คํด์ค๋ฅผ ํ์ง, ๋ถํ ํ๊ณ ์ถ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ๋ ธ๋์ ํ๊ต ๋ฒ์คโ๋ผ๋ ์งง์ ๋ช ์ฌ๋ฅผ ํ๋กฌํํธ๋ก ์ฃผ๋ฉด ํ๋ฉด ์ ๋ชจ๋ ๋ ธ๋ ํ๊ต ๋ฒ์ค๋ฅผ ์ฐพ์ ๊ฐ์๋ฅผ ๋ถํ ํ๋ฉฐ, ํ ํ๋ ์์ด ์๋๋ผ ์์ ์ ์ฒด์์ ๋์ผ ๊ฐ์ฒด๋ฅผ ์ถ์ ํ์ฌ ์ผ๊ด๋ ID๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ด๋ฌํ ํ๋กฌํํธ ๊ธฐ๋ฐ ๊ฐ๋ ์ธ๋ถํ(Promptable Concept Segmentation, PCS) ๋ฅ๋ ฅ์ ์ด์ SAM ์๋ฆฌ์ฆ์๋ ์๋ ์๋ก์ด ์ฐจ์์ผ๋ก, ์๊ฐ ์ธ๋ถํ ๋ถ์ผ์ ์๋ก์ด ๊ธฐ์ค์ ์ธ์ ๋ค๊ณ ํ๊ฐ๋ฉ๋๋ค. ํนํ SAM3๋ ํ ์คํธ ์งง์ ๊ตฌ๋ ์ด๋ฏธ์ง ์์๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์๋ค์ฌ ์๋งจํฑํ ๊ฐ๋ ์ดํด๋ฅผ ํตํฉํ์๊ณ , ์ด๋ฏธ์ง-๋น๋์ค๋ฅผ ์์ฐ๋ฅด๋ ํตํฉ ๋ชจ๋ธ๋ก ์ค๊ณ๋์์ต๋๋ค. Meta์ ๋ฐ๋ฅด๋ฉด SAM3๋ ์ด์ ์์คํ ๋๋น 2๋ฐฐ์ ๋ฌํ๋ ์ฑ๋ฅ ํฅ์์ ์ด๋ค ํ์์ ์ต๊ณ ์์ค์ ๊ฐ๋ฐฉํ ์ดํ ์ธ๋ถํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ผ๋ฉฐ, ๊ธฐ์กด SAM/SAM2๊ฐ ์ํํ๋ ๋ํ์ ์ธ๋ถํ ๊ณผ์ ์ ์ ํ๋๋ ํ์ธต ๊ฐ์ ํ์ต๋๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ SAM3 ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ์ ๊ณผ ํ์ ์ ์ฌ๋ ์๊ฒ ๋ถ์ํ๊ณ , ๊ธฐ์กด SAM ๊ณ์ด ๋ชจ๋ธ(SAM, SAM2)๊ณผ์ ๋น๊ต๋ฅผ ํตํด ์ ๋ ฅ ํํ, ์ธ๋ถํ ์ฑ๋ฅ, ์๋ฏธ ์ดํด ์ธก๋ฉด์ ๋ฐ์ ์ ๋ ผ์ํ๊ฒ ์ต๋๋ค. ์์ธ๋ฌ ๋ก๋ด๊ณตํ ๋ถ์ผ์ ๋ํ์์ ๋ ์๋ฅผ ์ผ๋์ ๋๊ณ , SAM3๊ฐ ๋ก๋ด ์ง๊ฐ, ํ๊ฒฝ์ ์๋งจํฑ ๋งตํ, ๊ฐ์ฒด ์ดํด, ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ๋ฑ์ ๊ฐ์ ธ์ฌ ์ ์๋ ์ ์ฌ์ ์์ฉ๊ณผ ์ํฅ์ ๊ณ ์ฐฐํด๋ณด๊ฒ ์ต๋๋ค.
๋ณธ๋ก (Main Body)
SAM ์๋ฆฌ์ฆ์ ๋ฐ์ : SAM๋ถํฐ SAM3๊น์ง
SAM1 (Segment Anything Model)์ ์ฌ์ฉ์ ํ๋กฌํํธ๋ก ์ง์ ํ ๋จ์ผ ๊ฐ์ฒด๋ฅผ ์ด๋ฏธ์ง์์ ๋ถํ ํ๋ ๋ํ์ ๋ถํ ๋ชจ๋ธ๋ก ์์๋์์ต๋๋ค. ์ฌ์ฉ์ ์ ๋ ฅ์ผ๋ก ์ ํ๋๋ ๋ฐ์ค ์์ญ์ ์ฃผ๋ฉด, SAM์ ๊ฑฐ๋ํ ์ฌ์ ํ์ต ๋๋ถ์ ํด๋น ์์น์ ๊ฐ์ฒด ๊ฒฝ๊ณ๋ฅผ ์ ๋ฐํ๊ฒ ์์ธกํ์ฌ ๋ง์คํฌ๋ฅผ ์ถ๋ ฅํ์ต๋๋ค. SAM1์ ํน์ง์ ํด๋์ค ๋ถ๋ฌธ ์ด๋ค ๊ฐ์ฒด๋ ๋ถํ ํ ์ ์๋ ๋ฒ์ฉ์ฑ์ผ๋ก, ์๋งจํฑ ๋ ์ด๋ธ ์์ด๋ ๋ง์คํฌ๋ฅผ ์ถ๋ก ํ๋ค๋ ์ ์ด์์ต๋๋ค. ๋ค๋ง ๋์์ ํ๋์ ํ๋กฌํํธ๋ก ํ๋์ ๊ฐ์ฒด๋ง ์ธ๋ถํํ๊ธฐ์, ๋ค์ ๊ฐ์ฒด๋ฅผ ๋ชจ๋ ์ฐพ์๋ด๋ ค๋ฉด ๊ทธ๋งํผ ์ฌ๋ฌ ๋ฒ ํ๋กฌํํธ๋ฅผ ์ ๋ ฅํด์ผ ํ์ต๋๋ค.
SAM2๋ ์ด๋ฅผ ๋ฐ์ ์์ผ ๋์์(Video)์ ์ ์ฉํ ๋ฒ์ ์ผ๋ก, ํ๋ ์ ๊ฐ ๊ฐ์ฒด ์ถ์ ๊ธฐ๋ฅ์ ์ถ๊ฐํ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์์ ์ฒซ ํ๋ ์์์ ์ฌ๋์ ํด๋ฆญํ๋ฉด ์ดํ ๋ชจ๋ ํ๋ ์์์ ๊ทธ ์ฌ๋์ด ์ด๋จ๋์ง ์๋์ผ๋ก ์ถ์ ํ๋ฉด์ ๋ง์คํฌ๋ฅผ ์ ํ๋ ์์ ์์ฑํด์ค๋๋ค. ๋ํ SAM2๋ ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ๋ชฉํ๋ก ์ต์ ํ๋์ด, ์๋ณธ SAM๋ณด๋ค ๊ฒฝ๋ํ ๋ฐ ์๋ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ์ฌ์ฉ์๋ ์ถ์ ๋์ค ์๋ชป๋ ๋ง์คํฌ์ ์์ ํด๋ฆญ์ ์ถ๊ฐํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ํ ์๋ ์์ด, ๊ธด ์์์์๋ ์ํธ์์ฉ์ ํตํ ๋ฐ๋ณต ์ ๋ฐํ๊ฐ ๊ฐ๋ฅํ์ต๋๋ค. ๊ทธ๋ฌ๋ SAM2๊น์ง๋ ํ ์คํธ๋ ๋ฒ์ฃผ ์ด๋ฆ์ผ๋ก ๊ฐ์ฒด๋ฅผ ์ฐพ๋ ๊ธฐ๋ฅ์ ์์๊ณ , ์ด๋๊น์ง๋ ์ฌ์ฉ์๊ฐ ํน์ ์์น๋ฅผ ์ง์ด์ ์๋ ค์ฃผ์ด์ผ๋ง ๋์ํ์ต๋๋ค. ์ฆ SAM/SAM2๋ ์๋งจํฑํ ์ดํด ์์ด ํฝ์ ๋จ์ ๋ถํ ์ ์ด์ ์ ๋ง์ถ ํด๋์ค ๋ถ๊ฐ์ง๋ก ์ ๋ชจ๋ธ์ด์์ต๋๋ค.
SAM3๋ ์ด๋ฌํ ๋งฅ๋ฝ์์ ๋ชจ๋ ๊ฒ์ ์ธ๋ถํํ๋ค๋ SAM์ ๋น์ ์ ํ ๋จ๊ณ ํ์ฅํฉ๋๋ค. ๊ฐ์ฅ ํฐ ๋ณํ๋ ์ ๋ ฅ ํ๋กฌํํธ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋๋ค. ์ด์ ์ฌ์ฉ์๋ ํ ์คํธ๋ก ๊ฐ๋ ์ ์ ๋ ฅํ๊ฑฐ๋ ์ด๋ฏธ์ง ์์๋ฅผ ์ ์ํจ์ผ๋ก์จ, โ์ด๋ค ๊ฒโ์ ์ฐพ์์ง ์ง์ ํ ์ ์๊ฒ ๋์์ต๋๋ค. SAM3๋ ๊ทธ ๊ฐ๋ ์ ๋ง๋ ๋ชจ๋ ๊ฐ์ฒด๋ค์ ํ๊บผ๋ฒ์ ํ์ง ๋ฐ ๋ถํ ํ๋ฉฐ, ์์์ ๊ฒฝ์ฐ ๊ฐ ๊ฐ์ฒด๋ฅผ ๋๊น์ง ์ถ์ ํฉ๋๋ค. ์์ปจ๋ โ๊ณ ์์ดโ๋ผ๊ณ ํ๋กฌํํธ๋ฅผ ์ฃผ๋ฉด ํ๋ฉด ์ ๋ชจ๋ ๊ณ ์์ด๋ฅผ ๋ง์คํฌ๋ก ๋ถํ ํ๊ณ , ๊ฐ๊ฐ์ ID์ ํจ๊ป ํ์ํด์ฃผ๋ ์์ ๋๋ค. ์ด๋ฌํ ๊ฐ๋ ํ๋กฌํํธ ๊ธฐ๋ฐ ์ธ๋ถํ๋ ๊ธฐ์กด SAM2์ ๋๋น๋๋ ๊ทผ๋ณธ์ ์ฐจ์ด๋ก์, ์ด๋(์์น)๋ฅผ ์ง์ ํ๋ ์ด์ ๋ฒ์ ๋ค๊ณผ ๋ฌ๋ฆฌ ๋ฌด์(๊ฐ๋ )์ ์ง์ ํ๋ฉด ๋๋ค๋ ์ ์์ ์ฌ์ฉ์ ์ ์ฅ์์ ํจ์ฌ ๋์ ์์ค์ ํธ์์ฑ๊ณผ ์๋ฏธ ์ดํด๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋์๊ฐ SAM3๋ ์ฌ๋ฌ ๊ฐ์ฒด ์ธ์คํด์ค๋ฅผ ๋์์ ์ฒ๋ฆฌํ ์ ์๊ธฐ์, ๋ณต์กํ ์ฅ๋ฉด์์ ์ฌ์ฉ์ ๋ถ๋ด์ ํฌ๊ฒ ์ค์ด๊ณ ํฌ๊ด์ ์ธ ์ฅ๋ฉด ์ดํด๋ฅผ ๊ฐ๋ฅ์ผ ํฉ๋๋ค. ํํธ, SAM3๋ SAM2๊ฐ ์ง์ํ๋ ์ /๋ฐ์ค ํ๋กฌํํธ๋ ๋ํ์ ํด๋ฆญ ์ ๊ตํ ๊ธฐ๋ฅ์ ๋ชจ๋ ํฌํจํ๊ณ ์์ด, ๊ธฐ์กด PVS ์์ ์ ์ํํ๋ ์ฑ๋ฅ ์ญ์ ํฅ์๋ ์ฑ๋ก ์ ์งํ๊ณ ์์ต๋๋ค. ์์ปจ๋ SAMโSAM2โSAM3๋ก์ ์งํ๋ ์ด๋ฏธ์ง ๋จ์ผ ๊ฐ์ฒด ์ธ๋ถํ์์ ์์ ๋ค์ค ๊ฐ์ฒด ์ธ๋ถํ, ๊ทธ๋ฆฌ๊ณ ์๋งจํฑ ๊ฐ๋ ์ธ๋ถํ๋ก ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ธฐ๋ฅ์ ํ์ฅ**์ ๊ฑฐ๋ญํด์จ ๊ฒ์ผ๋ก ์์ฝํ ์ ์์ต๋๋ค.
SAM3์ ์ํคํ ์ฒ ๋ถ์ (Architecture of SAM3)
๊ทธ๋ฆผ 1: SAM3 ๋ชจ๋ธ ์ํคํ ์ฒ ๊ฐ์๋. DETR ์คํ์ผ์ ๊ฒ์ถ๊ธฐ(๋ ธ๋)์ SAM2 ๊ธฐ๋ฐ์ ์ถ์ ๊ธฐ(ํ๋)๊ฐ ๋จ์ผ ๋น์ ๋ฐฑ๋ณธ(PE)(๋ น์)์ ๊ณต์ ํ๋ ์ด์ค ์ธ์ฝ๋-๋์ฝ๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์ด๋ค. ํ ์คํธ/์ด๋ฏธ์ง ํ๋กฌํํธ๋ก ์ธ์ ๊ฐ๋ ์ ์ง์ ํ๊ณ , ๊ฒ์ถ๊ธฐ๋ ํด๋น ๊ฐ๋ ์ ๊ฐ์ฒด๋ค์ ์ฐพ๊ณ ๋ถํ ๋ง์คํฌ๋ฅผ ์์ธกํ๋ฉฐ, ์ถ์ ๊ธฐ๋ ์ฐ์ ํ๋ ์์์ ๊ฐ์ฒด๋ค์ ์ฐ๊ฒฐํ์ฌ ๋์ผ ๊ฐ์ฒด ID๋ฅผ ์ ์งํ๋ค.
SAM3์ ๋ด๋ถ ๊ตฌ์กฐ๋ ๊ธฐ์กด SAM ๋ฐ DETR ๊ณ์ด ๋ชจ๋ธ์ ์์ด๋์ด๋ฅผ ํตํฉํ๋ฉด์๋, ๊ฐ๋ ์ธ์์ ์ํ ์๋ก์ด ๊ตฌ์ฑ์์๋ฅผ ์ถ๊ฐํ ์ ์ด ํน์ง์ ๋๋ค. ์ ์ฒด์ ์ผ๋ก๋ dual encoder-decoder ํํ์ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ก, ์ด๋ฏธ์ง+ํ ์คํธ ์ตํฉ ์ธ์ฝ๋์ DETR ์คํ์ผ ๊ฒ์ถ๊ธฐ ๋์ฝ๋, ๊ทธ๋ฆฌ๊ณ SAM2 ์คํ์ผ์ ์ถ์ ๊ธฐ ๋์ฝ๋๋ก ์ด๋ฃจ์ด์ง๋๋ค. ํ๋์ ํตํฉ ๋น์ ๋ฐฑ๋ณธ์ธ Perception Encoder (PE)๋ฅผ ํตํด ์ด๋ฏธ์ง๋ก๋ถํฐ ์ถ์ถ๋ ์๊ฐ ํน์ง์ด ํ ์คํธ/์์ ํ๋กฌํํธ ์๋ฒ ๋ฉ๊ณผ ๊ณต๋์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ์ ๋ ฌ๋ฉ๋๋ค.
๊ฒ์ถ๊ธฐ(Detector)๋ Meta๊ฐ ์ด์ ์ ๊ฐ๋ฐํ DETR ๋ชจ๋ธ์ฒ๋ผ ๊ฐ์ฒด ์ง์(object query)๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ค์ ํ์ํฉ๋๋ค. ํ์ง๋ง ์ผ๋ฐ DETR๊ณผ ๋ฌ๋ฆฌ, SAM3์ ๊ฒ์ถ๊ธฐ๋ ํ ์คํธ ๋ฐ ์ด๋ฏธ์ง ํ๋กฌํํธ์ ์กฐ๊ฑดํ(condition)}๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ๋ ฅ ์ด๋ฏธ์ง ํน์ง๋งต๊ณผ ํ ์คํธ ํ ํฐ(๊ฐ๋ ๋จ์ด ์๋ฒ ๋ฉ) ๋ฐ ์ด๋ฏธ์ง ์์ ํ ํฐ(์ ํ์ )์ ํจ๊ป ํธ๋์คํฌ๋จธ ์ธ์ฝ๋์ ๋ฃ์ด ํ๋กฌํํธ๋ก ์ด๋ฏธ์ง ํน์ง์ ์ตํฉํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ DETR ๋ฐฉ์์ ๋์ฝ๋๊ฐ ํ์ต๋ N๊ฐ์ ๊ฐ์ฒด ์ง์๋ฅผ ํตํด ์ด ์ตํฉ๋ ํน์ง์ ์ดํ ์ ์ ์ํ, ํ๋กฌํํธ์ ๋ถํฉํ๋ ๊ฐ์ฒด๋ค๋ง์ ์ฐพ์๋ด๋๋ก ํ๋ จ๋ฉ๋๋ค. ๊ฐ ์ง์ ํ ํฐ์ ์์ ์ด ๋งก์ ํ๋ณด ์์ญ์ ๋ํด ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ด ๊ฐ์ฒด๊ฐ ํ๋กฌํํธ ๊ฐ๋ ์ ํด๋นํ๋์ง ์ฌ๋ถ(์ด์ง ๋ถ๋ฅ)๋ฅผ ์์ธกํฉ๋๋ค. ๊ฒ์ถ ๋์ฝ๋๋ ๊ณง๋ฐ๋ก ๋ง์คํฌ ์์ธก ํค๋๋ ์ฐ๊ฒฐ๋์ด ์์ด, MaskFormer ๋ฐฉ์์ผ๋ก ๊ฐ ์ง์๋ณ ์ ๋ฐ ๋ถํ ๋ง์คํฌ๋ฅผ ์ฐ์ถํฉ๋๋ค. ๋ฟ๋ง ์๋๋ผ ํ๋ฉด ์ ์ฒด ํฝ์ ์ ๋ํด ํด๋น ๊ฐ๋ ์ฌ๋ถ๋ฅผ ํ์ํ๋ ์๋งจํฑ ๋ถํ ๋งต๋ ๋ณ๋๋ก ์์ธกํ์ฌ, ๊ฐ๋ ๊ด๋ จ ํฝ์ ์ ์ด์ง ๋ง์คํฌ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ด ์ธ์คํด์ค+์๋งจํฑ ๊ฒฐํฉ ์ถ๋ ฅ์ ๋ชจ๋ธ์ด ๊ฐ๋ ๊ณผ ๋ฐฐ๊ฒฝ์ ์ ๋ฐ์ ์ผ๋ก ํ์ ํ๋ ๋ฐ ๋์์ ์ฃผ์ด, ๋๋ฝ ์์ด ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ์ฐพ๋ ๊ฒ์ ๊ธฐ์ฌํฉ๋๋ค.
SAM3 ๊ฒ์ถ๊ธฐ์์ ๊ฐ์ฅ ๋์ ๋๋ ํ์ ์ Presence Token (ํ๋ ์ฆ์ค ํ ํฐ)์ ๋์ ์ ๋๋ค. ์ด๋ ํ๋์ ํน๋ณํ ๋์ฝ๋ ํ ํฐ์ผ๋ก์จ, ๊ฐ๋ณ ๊ฐ์ฒด ๋์ ์ด๋ฏธ์ง ์ ์ฒด ๋งฅ๋ฝ์์ ํ๋กฌํํธ ๊ฐ๋ ์ ์กด์ฌ ์ ๋ฌด๋ฅผ ํ๋จํ๋ ์ญํ ์ ํฉ๋๋ค. ์ ์ญ ๋ฌธ๋งฅ์ ์ดํด โ์ด ์ด๋ฏธ์ง์ ํด๋น ๊ฐ๋ ์ด ์กด์ฌํ๋๊ฐ?โ๋ฅผ ๋ณ๋๋ก ์์ธกํ๋ ํ ํฐ์ธ ์ ์ ๋๋ค. ์ด๋ ๊ฒ ์ธ์(what)๊ณผ ์์น ํ์(where) ๊ธฐ๋ฅ์ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ๊ฐ ๊ฐ์ฒด ์ง์๊ฐ ๊ตญ์ ์์ญ์ ์ง์คํ์ฌ ์ ๊ตํ ์์น์ ๋ง์คํฌ๋ฅผ ์ฐพ๋ ๋์, ์ ์ญ ํ๋ ์ฆ์ค ํ ํฐ์ด ์ฅ๋ฉด ๋จ์๋ก ๊ฐ๋ ์ ์ธ์งํ๋ ๋ถ๋ด์ ๋์ด์ค๋๋ค. ์ต์ข ์ ์ผ๋ก ๊ฐ ๊ฐ์ฒด ์ง์์ ์ ๋ขฐ๋ ์ค์ฝ์ด๋ ํ๋ ์ฆ์ค ํ ํฐ์ด ์์ธกํ ๊ฐ๋ ์กด์ฌ ํ๋ฅ ๊ณผ ๊ณฑํด์ ธ ์ฐ์ถ๋๋ฏ๋ก, ์ด๋ฏธ์ง์ ๊ฐ๋ ์ด ์์ ์์ผ๋ฉด ๋ชจ๋ ๊ฐ์ฒด ์์ธก์ด ๋ฎ์ ์ ์๋ก ์ต์ ๋๊ณ , ๋ฐ๋๋ก ์์ ๋๋ ๊ฒ์ถ ์ ๋ขฐ๋๊ฐ ํฅ์๋ฉ๋๋ค. ์ธ์(what)๊ณผ ์์น๊ฒฐ์ (where)์ ๋์ปคํ๋ง์ด๋ผ๋ ์ด๋ฌํ ์ค๊ณ๋, ๋ณด์ด์ง ์๋ ์๋ก์ด ๊ฐ๋ ์ด๋ ๋ถ์ ํ๋กฌํํธ(negative prompt) ์ํฉ์์ ์ค๊ฒ์ถ์ ํฌ๊ฒ ์ค์ฌ์ฃผ๋ ํจ๊ณผ๋ฅผ ๋ฐํํ์ฌ ์ ํ๋๋ฅผ ํฅ์์์ผฐ์ต๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ Presence Head ์ถ๊ฐ๋ก ์ด๋ฏธ์ง ๋ ๋ฒจ ์ธ์ ์ ํ๋(IL_MCC)๊ฐ ํฌ๊ฒ ๊ฐ์ ๋์ด, ์ด๋ ค์ด ๋ถ์ ํ๋ ์ด์ฆ ํ์ต์ ์ ๋ฆฌํจ์ ์คํ์ผ๋ก ํ์ธํ์ต๋๋ค.
๋ค์์ผ๋ก ์ด๋ฏธ์ง ์์ ํ๋กฌํํธ์ ๋ํด ์ดํด๋ณด๋ฉด, SAM3๋ ํ ์คํธ ์ธ์๋ ์ฌ์ฉ์๊ฐ ์ง์ ํ ์ด๋ฏธ์ง ์์ญ ์์๋ฅผ ํ๋กฌํํธ๋ก ํ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ํ ๊ฐ์์ง์ ์์ฑ ์์ ์์๋ฅผ ์ฃผ๋ฉด, ๊ทธ ์์ ์ ์๊ฐ ํน์ง์ ๋ฐํ์ผ๋ก ์ด๋ฏธ์ง ๋ด ๋ชจ๋ ๊ฐ์์ง๋ฅผ ๊ฒ์ถํฉ๋๋ค. ์ด๋ SAM1/2์์ ์ ์ ์ฐ์ผ๋ฉด ๊ทธ ์ ์ ํด๋นํ๋ ํ ๊ฐ์ฒด๋ง ๋ถํ ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์์ ํ๋๋ก ๋ค์ ๊ฐ์ฒด๋ฅผ ํผ๋จ๋ ค ์ฐพ๋ ์ ๊ธฐ๋ฅ์ ๋๋ค. ๊ธฐ์ ์ ์ผ๋ก, ์์ ํ๋กฌํํธ๋ (๊ฒฝ๊ณ์์ ์ขํ + ์์ฑ/์์ฑ ๋ผ๋ฒจ + ROI ํ๋ง๋ ์๊ฐํผ์ฒ)๋ฅผ ํ๋์ ํ ํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ง๋ค์ด, ํ ์คํธ ํ ํฐ๋ค๊ณผ ํจ๊ป ํ๋กฌํํธ ํ ํฐ ์ํ์ค์ ํฌํจ์ํต๋๋ค. ๋ด๋ถ์ ์ผ๋ก๋ ์์ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋๋ฅผ ๊ฑฐ์ณ ์ด๋ฌํ ์์ ์๋ฒ ๋ฉ๋ค์ด ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ๋์ผํ ๊ณต๊ฐ์ผ๋ก ์ ๋ ฌ๋๊ณ , ๊ฒฐ๊ตญ ํ ์คํธ+์์๊ฐ ํฉ์ณ์ง ์กฐ๊ฑด์ผ๋ก ๊ฒ์ถ๊ธฐ๊ฐ ์๋ํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ์์ฑ ์์ ์ธ์๋ ์์ฑ ์์(negative exemplar)๋ฅผ ์ค์ ํน์ ๊ฐ์ฒด๋ฅผ ์ ์ธ์ํค๊ฑฐ๋, ๋๋ฝ๋ ๊ฐ์ฒด๊ฐ ์์ ๊ฒฝ์ฐ ํด๋น ๊ฐ์ฒด๋ฅผ ์๋ก ์ง์ ํด ํ์์ ๋ณด์ํ๋ ๋ฑ ์ํธ์์ฉ์ ์์ ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ฌํ ๋ค์ค ๋ชจ๋ฌ ํ๋กฌํํธ ์ค๊ณ๋ ์ค์ฌ์ฉ ์ ์ ์ฐ์ฑ์ ๋์ฌ์ฃผ๋ฉฐ, ํนํ ํฌ๊ทํ๊ฑฐ๋ ๋ณต์กํ ๊ฐ๋ ์ ๊ฒฝ์ฐ ํ ์คํธ๋ง์ผ๋ก๋ ์ด๋ ค์ด ์๋ณ์ ์ด๋ฏธ์ง ์์๋ก ๋ณด์ํ ์ ์๊ฒ ํฉ๋๋ค.
์ถ์ ๊ธฐ(Tracker) ๋ถ๋ถ์ SAM2์์ ์ฌ์ฉ๋ ๋น๋์ค object segmentation ๋ชจ๋์ ์๋น ๋ถ๋ถ ๊ณ์นํ๊ณ ์์ต๋๋ค. ์ถ์ ๊ธฐ๋ ๊ฒ์ถ๊ธฐ์ ๋์ผํ PE ๋ฐฑ๋ณธ์ผ๋ก๋ถํฐ ํน์ง์ ๊ณต์ ๋ฐ์ผ๋ฉฐ, ๊ฒ์ถ๊ธฐ๊ฐ ์์ฑํ ์ด๊ธฐ ๋ง์คํฌ๋ค์ ์ฒซ ํ๋ ์์์ ์ด๊ธฐํํฉ๋๋ค. ์ดํ ๊ฐ ํ๋ ์๋ง๋ค SAM2์ ์ ์ฌํ 1ํ๋ ์ ์ ๋ฐฉํฅ ์์ธก์ ์ํํ์ฌ, ์ด์ ํ๋ ์๊น์ง ์ถ์ ๋ ๊ฐ ๊ฐ์ฒด(masklet์ด๋ผ ์ง์นญ)์ ๋ค์ ์์น ๋ง์คํฌ๋ฅผ ์ถ์ ํฉ๋๋ค. SAM2์์์ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ถ์ ๊ธฐ ๋ชจ๋์ ํ๋ ์ ๊ฐ ๋ฉ๋ชจ๋ฆฌ ์๋์ํ(memory bank)๋ฅผ ์ ์งํ๋ฉฐ, ๊ฐ ๊ฐ์ฒด์ ๊ณผ๊ฑฐappearance ์ ๋ณด๋ฅผ ์ ์ฅํด ํ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ถ์ ๊ธฐ ๋ด๋ถ์๋ ํ๋กฌํํธ ์ธ์ฝ๋(์ฌ๊ธฐ์๋ ์ถ์ ๋์ ๊ฐ์ฒด์ ๋ง์คํฌ๊ฐ ํ๋กฌํํธ ์ญํ )์ ๋ง์คํฌ ๋์ฝ๋, ๊ทธ๋ฆฌ๊ณ ๋ฉ๋ชจ๋ฆฌ ์ธ์ฝ๋(ํธ๋์คํฌ๋จธ)๊ฐ ์์ด์, ํ์ฌ ํ๋ ์์ ํน์ง๊ณผ ๋ฉ๋ชจ๋ฆฌ ๋ฑ ํฌ ์ ๊ณผ๊ฑฐ ํ๋ ์ ํน์ง๋ค์ ๊ต์ฐจ ์ดํ ์ ์ผ๋ก ์กฐํฉํด ํ์ฌ ํ๋ ์์์ ๊ฐ์ฒด ๋ง์คํฌ๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด๋ ๊ฒ ์์ธก๋ ๊ฐ ๊ฐ์ฒด์ ๋ง์คํฌ๋ค์ masklet**์ด๋ผ ํ๋ฉฐ, ๋งค ํ๋ ์ ๋ชจ๋ masklet์ด ์ ๋ฐ์ดํธ๋์ด ์ถ์ ์ด ์งํ๋ฉ๋๋ค.
ํ์ง๋ง SAM3์์๋ ์ถ์ ๊ธฐ๋ง์ผ๋ก๋ ๋์น ์ ์๋ ๊ฐ์ฒด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๊ฒ์ถ๊ธฐ์ ์ถ์ ๊ธฐ๋ฅผ ํตํฉํ๋ ๋ ผ๋ฆฌ๊ฐ ์ถ๊ฐ๋์์ต๋๋ค. ์ฆ, ๊ฐ ํ๋ ์์์ ๊ฒ์ถ๊ธฐ๊ฐ ์๋ก ๋ฐ๊ฒฌํ ๊ฐ์ฒด๋ค๊ณผ ์ถ์ ๊ธฐ๊ฐ ์ด์ด์ ์ถ์ ํ ๊ธฐ์กด ๊ฐ์ฒด๋ค์ ์ผ์น(match)์์ผ ๋ณํฉํ๋ ์ ์ฐจ์ ๋๋ค. ๋ง์ฝ ์ ํ๋ ์์์ ๊ฒ์ถ๋ ๋ง์คํฌ๊ฐ ์ด๋ฏธ ์ถ์ ์ค์ธ masklet๊ณผ IoU ๊ธฐ์ค ์ผ์ ์ด์ ๊ฒน์น๋ฉด ๋์ผ ๊ฐ์ฒด๋ก ๊ฐ์ฃผํ๊ณ ํ๋๋ก ํฉ์นฉ๋๋ค. ๋ฐ๋๋ก ๊ฒ์ถ์ ์กํ์ง ์์ ์๋ก์ด ๊ฐ์ฒด๊ฐ ์์ผ๋ฉด ์ masklet์ ์์ฑํ์ฌ ์ถ์ ํ์ ์ถ๊ฐํฉ๋๋ค. ์ด๋ฌํ ๋ณํฉ ๋จ๊ณ์์๋ ํนํ ํผ์กํ ์ฅ๋ฉด์์ ID ํผ๋์ด ์ผ์ด๋ ์ ์๋๋ฐ, ์ด๋ฅผ ์ต์ ํ๊ธฐ ์ํด ๋ ๊ฐ์ง ๋ณด์กฐ์ฅ์น๋ฅผ ๋ก๋๋ค. ์ฒซ์งธ, Temporal consistency ๊ฒ์ฌ๋ก, ๋งค masklet์ด ์ต๊ทผ ์ฐ์๋ ํ๋ ์๋ค์์ ๊ฒ์ถ๊ณผ ๊พธ์คํ ๋งค์นญ๋์๋์ง๋ฅผ ์ ์ํํ์ฌ, ์ผ์ ๊ธฐ๊ฐ ๊ฒ์ถ ๋๋ฝ ์ํ๊ฐ ์ง์๋๋ฉด ํด๋น masklet์ ์ ๊ฑฐํฉ๋๋ค. ๋์งธ, ์ฃผ๊ธฐ์ ์ฌ๊ฒ์ถ ์ฌ์ค์ ์ผ๋ก, ์ถ์ ๋์ค ๊ฐ๋ฆผ(occlusion)์ด๋ ์ ์ฌ ๊ฐ์ฒด ๊ฐ ๊ต๋์ผ๋ก ์๋ชป ์ถ์ ๋ ์ํ์ด ์๋ ๊ฒฝ์ฐ ๊ฒ์ถ๊ธฐ๊ฐ ๋์ ์ ๋ขฐ๋๋ก ํฌ์ฐฉํ ๋ง์คํฌ๋ก ์ถ์ ์ ๋ฎ์ด์์ ์ฌ์ค์ ํฉ๋๋ค. ์์ปจ๋ ์ด๋ค ๊ฐ์ฒด๊ฐ ํ๋์ ๊ฐ๋ ค์ก๋ค ๋ค์ ๋ํ๋ฌ์ ๋ ์ถ์ ๊ธฐ๊ฐ ๋์น ์ ์๋๋ฐ, ์ด๋ ๊ฒ์ถ๊ธฐ๊ฐ ์๋ก ์ก์๋ธ ๋ง์คํฌ๋ฅผ ์ฌ์ฉํด ์ถ์ ๊ธฐ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ต์ ์ํ๋ก ๊ต์ ํด์ฃผ๋ ์์ ๋๋ค. ์ด๋ฌํ ๊ฒ์ถ-์ถ์ ํตํฉ ๋ฉ์ปค๋์ฆ ๋๋ถ์ SAM3๋ ์ถ์ ๊ธฐ ์์ฒด์ ํ๊ณ (์ค๋ฅ ๋์ ๋ฑ)์ ๊ทน๋ณตํ๊ณ , ์์ ์ ์ฒด์์ ๊ฒฌ๊ณ ํ ๋ค์ค ๊ฐ์ฒด ์ถ์ ์ ์ํํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, SAM3๋ ์ด์ ๋ฒ์ ๋ค๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ์์ ๋ํ์(interactive)์ผ๋ก ์ค๊ณ๋์ด ์์ด, ์ฌ์ฉ์ ์์ ํ๋กฌํํธ๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ฅผ ์ธ๋ฐํ ๋ค๋ฌ์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ๋ถํ ๋ง์คํฌ๊ฐ ๊ณผํ๊ฒ ๋์๋ค๋ฉด ๊ทธ ๋ถ๋ถ์ ์์ฑ ํด๋ฆญ(negative point)์ ์ฐ์ด ํด๋น ๋ง์คํฌ๋ฅผ ์ถ์ํ๊ฑฐ๋, ๋๋ฝ๋ ๊ฐ์ฒด์ ์์ฑ ํด๋ฆญ์ ์ฐ์ด ์๋ก์ด ๋ง์คํฌ๋ฅผ ์ถ๊ฐํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์์ ์ ํ ํ๋ ์์ ์ ์ฉ๋๋ฉด ์์์ ํตํ์ด ํด๋น ๊ฐ์ฒด์ masklet ์ ์ฒด์ ๋ฐ์๋๋ฏ๋ก, ์ฒซ ํ๋ ์์์ ๋๋ต ์ง์ ํ ํ ์ค๊ฐ์ ๋ช ๋ฒ ์์ ๋ง์ผ๋ก๋ ์์ ์ ์ฒด ๊ฒฐ๊ณผ๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค.
์์ฝํ๋ฉด, SAM3์ ์ํคํ ์ฒ๋ (1) ํ ์คํธ/์ด๋ฏธ์ง ํ๋กฌํํธ์ ์๊ฐ ํน์ง์ ์ตํฉ ์ธ์ฝ๋, (2) DETR ๊ธฐ๋ฐ ๊ฐ๋ ๊ฒ์ถ๊ธฐ (Presence Token์ผ๋ก ์ธ์/์์น ๋ถ๋ฆฌ), (3) SAM2 ๊ธฐ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ถ์ ๊ธฐ (masklet ์์ฑ ๋ฐ ๊ด๋ฆฌ)์ ์ธ ๋ถ๋ถ์ด ํ๋์ ๋ฐฑ๋ณธ์์ ํตํฉ๋ ํํ์ ๋๋ค. ๊ฒ์ถ๊ธฐ์ ์ถ์ ๊ธฐ์ ๋ถ๋ฆฌ๋ ๊ฐ์ ID์ ์๊ด์์ด ๊ฐ์ฒด ์ฐพ๊ธฐ์ ๋์ผ ๊ฐ์ฒด ID ์ ์ง ์ถ์ ์ด๋ผ๋ ์์ถฉ๋๋ ๋ชฉ์ ์ ์ถฉ์คํ ์ํํ๊ฒ ํด์ฃผ๋ฉฐ, Presence ํค๋๋ก ๋ํ๋๋ ์๋ก์ด ์ค๊ณ๋ค์ ๊ฐ๋ฐฉํ ์ดํ ์ธ์คํด์ค ์ธ๋ถํ๋ผ๋ ๋์ ์ ์ฑ๋ฅ ๋ฉด์์ ๊ทน๋ณตํ๋ ๋ฐ ํต์ฌ์ ์ธ ์ญํ ์ ํ์ต๋๋ค. ๋ํ ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ ์ฒ๋ฆฌ์ ๊ฐํ๋ ์ํธ์์ฉ์ฑ์ ์ฌ์ฉ์ ํธ์์ ์ ํ๋๋ฅผ ํจ๊ป ๋์ฌ์ฃผ๊ณ ์์ต๋๋ค.
๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง๊ณผ SA-Co ๋ฐ์ดํฐ์
๊ฐ๋ ์ธ์ง๊น์ง ์ํํ๋ SAM3 ๊ฐ์ ๋ชจ๋ธ์ ํ๋ จํ๋ ค๋ฉด, ๋จ์ํ ๋ง์คํฌ ์์ฃผ์ ํ์ต๋ง์ผ๋ก๋ ์ด๋ ต์ต๋๋ค. ์ด๋ค ์๋งจํฑ ๊ฐ๋ (๋ช ์ฌ๊ตฌ)์ ์ด๋ค ํฝ์ ๋ค์ด ํด๋นํ๋์ง ํ์ตํ๋ ค๋ฉด, ํ ์คํธ ๋ผ๋ฒจ์ด ๋ฌ๋ฆฐ ๋ถํ ๋ฐ์ดํฐ๊ฐ ๋๋์ผ๋ก ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ Segment Anything with Concepts (SA-Co)๋ผ๋ ์๋ก์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. SA-Co ๋ฐ์ดํฐ์ ์ 4๋ฐฑ๋ง ๊ฐ ์ด์์ ๊ณ ์ ํ ๊ฐ๋ ๋ช ์นญ(noun phrase)๊ณผ ๊ทธ์ ๋์ํ๋ ์ฝ 52๋ง ๊ฐ์ ์ด๋ฏธ์ง+๋น๋์ค์ ๊ฑธ์ณ 14์ต ๊ฐ ์ด์์ ๊ฐ์ฒด ๋ง์คํฌ๋ฅผ ํฌํจํ๊ณ ์์ด, ํ์ฌ๊น์ง ์ต๋ ๊ท๋ชจ์ ๊ฐ๋ ์ธ๋ถํ ์ฝํผ์ค๋ก ๊ผฝํ๋๋ค. ์ด๋ ๊ฒ ๋ฐฉ๋ํ ์ฃผ์์ ๋ง๋ค๊ธฐ ์ํด, ์ ์๋ค์ ์ธ๊ฐ๊ณผ AI๊ฐ ํ๋ ฅํ๋ 4๋จ๊ณ์ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ์ ๊ณ ์ํ์ต๋๋ค.
๊ทธ๋ฆผ 2: SAM3 ๋ฐ์ดํฐ ์์ง์ ๊ฐ์. 1๋จ๊ณ์์ ์ฌ๋ ์ฃผ์์๊ฐ ์ด๊ธฐ ์ด๋ฏธ์ง-๋ช ์ฌ์์ ๊ฒ์ฆํ๋ฉฐ HQ ๋ฐ์ดํฐ๋ฅผ ์ถ์ ํ๊ณ , 2-3๋จ๊ณ์์ AI ํ๋กฌํํธ ์์ฑ๊ธฐ์ ๊ฒ์ฆ๊ธฐ๋ฅผ ํ์ฉํด ์ดํ ๋ค์์ฑ๊ณผ ๋์ด๋๋ฅผ ๋์ธ ์ฃผ์์ ์๋ ์์ฑ ๋ฐ ๊ฒ์ํ๋ค. 4๋จ๊ณ์์๋ ๋์์์ผ๋ก ๋ฒ์๋ฅผ ํ์ฅํ๋ค. AI ๊ฒ์ฆ๊ธฐ๋ฅผ ๋์ ํจ์ผ๋ก์จ ํด๋จผ ๋จ๋ ๋๋น 2๋ฐฐ ์ด์์ ์ฃผ์ ์ฒ๋ฆฌ๋ ํฅ์์ด ์ด๋ฃจ์ด์ก๋ค.
1๋จ๊ณ (Human Verification): ์ฐ์ ์ธ๋ถ ์์ค์์ ๋ค์ํ ์ด๋ฏธ์ง/์์์ ์์งํ๊ณ , ๊ทธ์ ๋ํ ํ๋ณด ๋ช ์ฌ๊ตฌ ํ๋กฌํํธ์ ๋ง์คํฌ๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๊ธฐ ๋ง์คํฌ ์์ฑ์๋ SAM2์ ์คํ์ดํ ๊ฒ์ถ ๋ชจ๋ธ์ ์กฐํฉํ์ฌ ์๋์ผ๋ก โ์ด๋ฏธ์ง-๊ฐ๋ -๋ง์คํฌโ ์ ์์ ๋ง๋ค๊ณ , ์ด๋ฅผ ์ธ๊ฐ ์ฃผ์์๊ฐ ๊ฒ์ฆํ๋๋ก ํ์ต๋๋ค. ์ด ๊ณผ์ ์ผ๋ก ์ฐ์ ์ฝ 430๋ง ์์ ์ด๋ฏธ์ง-๋ช ์ฌ๊ตฌ์ ์ ํํ ๋ง์คํฌ๋ค(SA-Co/HQ๋ผ๊ณ ๋ช ๋ช )์ด ํ๋ณด๋์์ต๋๋ค. ์ฐ๊ตฌ์ง์ ์ด 1๋จ๊ณ ๋ฐ์ดํฐ๋ก SAM3 ์ด๊ธฐ ๋ฒ์ ์ ํ์ต์์ผ, ์ดํ ๋จ๊ณ์ AI ์ด์์คํดํธ๋ก ํ์ฉํ์์ต๋๋ค.
2๋จ๊ณ (Human + AI Verification): 2๋จ๊ณ๋ถํฐ๋ AI ๊ธฐ์ ์ ํ์ฉํด ์ฃผ์ ํจ์จ์ ๋์ ๋๋ค. ์ฐ์ Ontology(์จํจ๋ก์ง)์ ๋ค์ค๋ชจ๋ฌ LLM์ ์ฌ์ฉํด, ๊ฐ ์ด๋ฏธ์ง/์์์ ๋ํด ๋ ๋ค์ํ ํํ์ ๋ช ์ฌ๊ตฌ ํ๋ณด์ ์ด๋ ค์ด ๋ถ์ ์ฌ๋ก(hard negatives)๋ฅผ ์์ฑํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋์ผํ ๊ฐ๋ ์ ๊ฐ๋ฆฌํค๋ ์ฌ๋ฌ ํํ์ ๋ง๋ค๊ฑฐ๋, ํท๊ฐ๋ฆด๋งํ ์ ์ฌ ๊ฐ๋ ์ ์์ฑ ํ๋กฌํํธ๋ก ์ ์ํ์ฌ ๋ชจ๋ธ์ด ๊ตฌ๋ถํ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ์์ฑ๋ ๋ผ๋ฒจ๋ค์ ๊ฐ์ง๊ณ SAM3 ๋ชจ๋ธ์ด ๋ง์คํฌ๋ฅผ ์์ธกํ๋ฉด, AI ๊ฒ์ฆ๊ธฐ(Verifiers)๊ฐ ๊ทธ ํ์ง์ 1์ฐจ ํ๊ฐํฉ๋๋ค. AI ๊ฒ์ฆ๊ธฐ๋ ๋ํ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ๋ง์คํฌ์ ์ ํ๋์ ์์ ์ฑ์ ํ๋ณํ๋๋ก ํ ๋ชจ๋ธ๋ก, ์ฌ๋ ์์ค์ ํ๋จ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ๋ จ๋์์ต๋๋ค. AI ๊ฒ์ฆ ๊ฒฐ๊ณผ ์ ๋ขฐ๋ ๋์ ์ฌ๋ก๋ ํต๊ณผ์ํค๊ณ , ์์ฌ๊ฐ๋ ๋ง์คํฌ๋ค๋ง ์ธ๊ฐ์ด ์ต์ข ํ์ธ ๋ฐ ์์ ํ๊ฒ ํจ์ผ๋ก์จ, ํ์ ๋ ์ธ๋ ฅ์ผ๋ก ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ฌํ AI ๊ฒ์ฆ๊ธฐ ๋์ ์ผ๋ก ์ฃผ์ ์์ฐ์ฑ์ด 2๋ฐฐ ์ด์ ์ฆ๊ฐํ์ฌ ์ธ๊ฐ ๋จ๋ ๋๋น 2๋ฐฐ ์ด์์ ๋ฐ์ดํฐ ์์ง ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
3๋จ๊ณ (Scaling & Domain Expansion): 3๋จ๊ณ์์๋ ๋ฐ์ดํฐ ๊ท๋ชจ์ ๋๋ฉ์ธ ๋ค์์ฑ ํ์ฅ์ ์ฃผ๋ ฅํ์ต๋๋ค. ์น์์ ๊ฐ์ ธ์จ ์ด๋ฏธ์ง๋ฟ ์๋๋ผ ์ดฌ์ ์กฐ๊ฑด, ๋ถ์ผ๊ฐ ๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ค์ ์๋กญ๊ฒ ์ถ๊ฐํด ๋ถํฌ์ ํญ์ ๋ํ์ต๋๋ค. ์์ปจ๋, ์ค๋ด/์ค์ธ, ์์ ์ํ, ์๋ฃ์์, ๋ก๋ด์ด ์ดฌ์ํ ์์ ์์ ๋ฑ ์ฌ๋ฌ ๋๋ฉ์ธ์ ํฌํจ์์ผ ์๊ฐ์ ๋ค์์ฑ์ ํ๋ณดํ์ต๋๋ค. ์ด ๋จ๊ณ์์๋ AI ์ฃผ์ ์๋ํ ๋น์ค์ ๋์ฑ ๋์ฌ, ์ธ๊ฐ ๊ฒ์๋ ์น๋ช ์ ์ค๋ฅ ์์ ์์ฃผ๋ก ์ค์ด๊ณ MLLM ๊ธฐ๋ฐ ๋ ์ด๋ธ ์์ฑ๊ณผ SAM3 ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ง์คํฌ ์์ฑ์ ๋ฐ๋ณตํ๋ ๋ฃจํ๋ก ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์์ฐํ์ต๋๋ค. ๋ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ ํ์ฉํ์ฌ, SAM3์ด ๋ณด์ง ๋ชปํ ํน์ดํ ์ฌ๋ก๊น์ง ํ์ตํ๋๋ก ํ์ต๋๋ค. ์ ์๋ค์ SAM3+LLM ์กฐํฉ(๊ต์ฌ ๋ชจ๋ธ)์ผ๋ก 38๋ง ๊ฐ์ ํฉ์ฑ ์ด๋ฏธ์ง์ 14์ต ๊ฐ์ ๋ง์คํฌ๋ฅผ ์์ฑํ์ฌ ํ์ต์ ์ฌ์ฉํ์ผ๋ฉฐ, ์ด ํฉ์ฑ ๋ฐ์ดํฐ๋ก๋ ์ค์ ๋ฐ์ดํฐ์ ์ ์ฌํ ์ฑ๋ฅ ํ์ฅ ์ถ์ธ๋ฅผ ์ป์ ์ ์์์ ๋ถ์ํ์ต๋๋ค.
4๋จ๊ณ (Video Annotation): ๋ง์ง๋ง์ผ๋ก, ๋์์์ ๋ํ ๊ฐ๋ ์ฃผ์ ์์ง ๋จ๊ณ์ ๋๋ค. ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ก ์ถฉ๋ถํ ํ์ต๋ SAM3 ๋ชจ๋ธ์ ํ์ฉํ์ฌ, ๋์์ ๋ด ํน์ ํ๋ ์์์ ๊ฐ๋ ์ ํด๋นํ๋ ๊ฐ์ฒด๋ค์ ์ฐพ๊ณ ์ด๋ฅผ ์ ํ๋ ์์ ๊ฑธ์ณ ์ถ์ ํ๋ ๋ฐฉ์์ผ๋ก ์๋ ์ฃผ์์ ์์ฑํ์ต๋๋ค. ์ฌ๊ธฐ์๋ AI ๊ฒ์ฆ๊ธฐ๋ค์ด ์ผ๊ด์ฑ ์๊ฒ ์ถ์ ๋์๋์ง ๋ฑ์ ํ์ธํ๊ณ , ์ฌ๋์ ์ด๋ ค์ด ๊ฒฝ์ฐ๋ง ๊ฐ์ ํ์ฌ ์ค๋ฅ๋ฅผ ๋ฐ๋ก์ก์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ SA-Co/VEVal์ด๋ผ ๋ช ๋ช ๋, 1700์ฌ ๊ฐ์ ๋์์์ ๋ํด ๊ฐ๋ ๋ณ ํ๋ ์ ๋ง์คํฌ ์ฃผ์์ด ์๋น๋ ํ๊ฐ ์ธํธ๋ฅผ ๊ตฌ์ถํ ์ ์์์ต๋๋ค.
์์ ๊ฐ์ 4๋จ๊ณ ์์ง์ ํตํด ์์ฑ๋ SA-Co ๋ฐ์ดํฐ์ ์ ํฌ๊ฒ ํ์ต์ฉ ์ ์ฒด ์ธํธ์, ํ๊ฐ์ฉ ๋ ๊ฐ์ง ์คํ๋ฆฟ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฐ์ ํ์ต์ฉ SA-Co ์ ์ฒด ์ธํธ๋ ์์ ์ธ๊ธํ ์ฝ 520๋ง ์ด๋ฏธ์ง์ 5.25๋ง ๋น๋์ค, 4๋ฐฑ๋ง ๊ฐ ์ด์์ ๋ช ์ฌ๊ตฌ, 14์ต ๊ฐ ๋ง์คํฌ๋ก ์ด๋ฃจ์ด์ง ๊ฑฐ๋ ์ฝํผ์ค์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ SA-Co/Gold๋ผ๋ ํ๊ฐ๋ ์์ ๋ ์ด๋ฏธ์ง๋ค์ ๋ํด 3์ธ์ ์ธ๊ฐ ๊ฒ์๋ฅผ ๋ชจ๋ ๊ฑฐ์น ์ ๋ฐ ์ฃผ์์ ๊ฐ์ถ ์ธํธ์ด๊ณ , SA-Co/Silver ํ๊ฐ๋ ๋ณด๋ค ๋ค์ํ ๋๋ฉ์ธ์ ์ด๋ฏธ์ง๋ค(์: ์์, ์์ , ๋ก๋ด๊ณตํ, ์์จ์ฃผํ ๋ฑ)์ ํฌํจํ๋ ํ ๋ช ์ ์ฃผ์์ ๊ฒํ ๋ง ๊ฑฐ์น ์ธํธ์ ๋๋ค. Silver ์ธํธ๋ ์๋ฒฝ์ฑ์ ๋จ์ด์ง ์ ์์ผ๋ ํ์ค ์ธ๊ณ ๋ค์ํ ๋ถํฌ์์ ๋ชจ๋ธ์ ์ํํ๋ ์ฉ๋๋ก ํ์ฉ๋ฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก SA-Co/VEVal์ ์์ ์ค๋ช ํ ๋น๋์ค ํ๊ฐ ์ธํธ๋ก, SAM3์ ์์ ์ถ์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ์ด๋ ๋ฏ SA-Co ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ ๋ฉด์์๋, ํฌํจ๋ ๊ฐ๋ ์ ํญ ๋ฉด์์๋ ๊ณผ๊ฑฐ์ ์๋ ์๋์ ์ธ ์์์ผ๋ก, SAM3 ๋ชจ๋ธ์ด ๊ฐ๋ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ตํ๋ ๋ฐ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ฐ ์ฑ๋ฅ ๋น๊ต (Results and Performance)
๋ ผ๋ฌธ์์๋ ๋ค์ํ ๊ณผ์ ์ ๋ํ SAM3์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๋ณด๊ณ ํ๊ณ ์์ผ๋ฉฐ, ๊ธฐ์กด ์ต์ ๊ธฐ๋ฒ๋ค๊ณผ์ ๋น๊ต์์ ๋๋๋ฌ์ง ํฅ์์ ๋ณด์์ต๋๋ค. ํนํ ํ๋กฌํํธ ๊ธฐ๋ฐ ๊ฐ๋ ์ธ๋ถํ(PCS) ๋ถ์ผ์์ SAM3๋ ์ฌ์ค์ ์๋ก์ด SOTA(State-of-the-Art)๋ฅผ ์๋ฆฝํ์ต๋๋ค. ์ฐ๊ตฌ์ง์ด ์๋ก ์ ์ํ PCS ๋ฒค์น๋งํฌ์ธ SA-Co ํ๊ฐ์ธํธ์์, SAM3๋ ์ด์ ์ต์ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ์ต์ ๋ ๋ฐฐ ์ด์ ๊ฒฉ์ฐจ๋ก ์์ง๋ ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์คํ-์ดํ ์ธ์คํด์ค ์ธ๋ถํ์ ๋ํ์ ๋ฒค์น๋งํฌ์ธ LVIS ๋ฐ์ดํฐ์ ์์ SAM3๋ ๋ง์คํฌ AP 48.8%๋ฅผ ์ ๋ก์ท(Zero-shot)์ผ๋ก ๊ธฐ๋กํ์ฌ, ์ด์ ์ต๊ณ ๋ชจ๋ธ์ 38.5%๋ฅผ ํฌ๊ฒ ์ํํ์ต๋๋ค. ์ด๋ 10ํฌ์ธํธ ์ด์์ ๋ํญ ํฅ์์ผ๋ก, ๋ฒ์ฉ ๋ถํ ๋ชจ๋ธ์ด ๋ผ๋ฒจ ์งํฉ์ ๊ตฌ์ ๋ฐ์ง ์๊ณ ๋ ๋์ ์ ํ๋๋ก ๊ฐ์ฒด๋ฅผ ์๋ณยท๋ถํ ํ ์ ์์์ ๋ณด์ฌ์ค ์ฌ๋ก์ ๋๋ค. ๋ํ Figure 2์ ์ ์๋ ์์๋ฅผ ๋ณด๋ฉด, ๊ธฐ์กด OWLv2๊ฐ์ ๊ณต๊ฐ ์ดํ ๋ชจ๋ธ์ด ๋์น ๋ฏธ์ธํ ๊ฐ๋ ๊ตฌ๋ถ๋ SAM3๋ ์ฑ๊ณต์ ์ผ๋ก ํด๋ด๋ ๋ฑ, ์ ์ฑ์ ๊ฒฐ๊ณผ์์๋ ๋์ฑ ์ ํํ๊ณ ์์ ํ ์ธ๋ถํ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
์์(Video) ์์ญ์์๋ SAM3์ ์ฑ๋ฅ ํฅ์์ ๋๋๋ฌ์ง๋๋ค. ๋ค์ค ๊ฐ์ฒด ์์ ๋ถํ ํ๊ฐ์ธ MOSEv2์์ SAM3๋ SAM2 ๋๋น 6.5 ํฌ์ธํธ ๋์ ์ ์๋ฅผ ๋ฌ์ฑํ์ฌ, ์์ ์ธ๋ถํ ๋ถ์ผ ์๋ก์ด ์ต๊ณ ์น๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. DAVIS, YTVOS ๋ฑ์ ํ์ค VOS ๋ฒค์น๋งํฌ๋ค์์๋ SAM3๋ SAM2๋ฅผ ๋๋ถ๋ถ ๋ฅ๊ฐํ๋ ์ฑ์ ์ ๊ฑฐ๋์์ผ๋ฉฐ, ํนํ ID ์ผ๊ด์ฑ์ด ์ค์ํ ๋ถ๋ถ์์ ํฅ์๋ ์ ์๋ฅผ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ํฅ์์ ์์ ์ธ๊ธํ ๊ฒ์ถ-์ถ์ ํตํฉ ์ค๊ณ์ Presence ํ ํฐ์ ํตํ ์ค๊ฒ์ถ ๊ฐ์ ๋ฑ์ด ์ฃผํจํ์ฌ, ์์ ๋ด์์๋ ๋๋ฝ ์์ด ์ ํํ ๋ค์ค ๊ฐ์ฒด ์ถ์ ์ธ๋ถํ๊ฐ ๊ฐ๋ฅํด์ก์์ ์์ฌํฉ๋๋ค.
ํฅ๋ฏธ๋กญ๊ฒ๋, ๋ํ์ ์ด๋ฏธ์ง ๋ถํ ๋ถ์ผ์์๋ SAM3๋ ๊ธฐ์กด SAM์ ์ฑ๋ฅ์ ์ ์ง ํน์ ๊ฐ์ ํ์์ต๋๋ค. 37๊ฐ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์์ ํ ์ ํด๋ฆญ์ผ๋ก ์ผ๋ง๋ ๋์ IoU์ ๋ง์คํฌ๋ฅผ ์ป๋์ง ํ๊ฐํ SA-37 ๋ฒค์น๋งํฌ์์, SAM3๋ 1-click ํ๊ท mIoU 66.1%๋ก SAM2 (66.4%)์ ๋๋ฑํ๋ฉฐ, 3-click์์๋ SAM3๊ฐ 81.3%๋ก SAM2(80.3%)๋ฅผ ์๋์์ต๋๋ค. 5-click ์ฑ๋ฅ๋ ์ํญ ํฅ์๋์ด, ์ถ๊ฐ ์ ๋ ฅ์ ๋ํ ๋ฐ์๋๊ฐ ๊ฐ์ ๋์์์ ์ ์ ์์ต๋๋ค. ๋น๋ก SAM3๊ฐ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ์ผ๋ก ์ธํด ๋ชจ๋ธ์ด ๋ค์ ๋ณต์กํด์ง๋ฉด์ ์ถ๋ก ์๋ FPS๋ SAM2๋ณด๋ค ๋ฎ์์ง ์ธก๋ฉด๋ ์์ง๋ง (Table 6 ๊ธฐ์ค, SAM3 ~43 FPS vs SAM2 ~93 FPS), ์ฌ์ ํ ์ค์๊ฐ์ ๊ฐ๊น์ด ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ๊ธฐ๋ฅ ํ์ฅ์ ๊ณ ๋ คํ๋ฉด ์์ฉํ ๋งํ ํฌ์์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ H200 GPU ์์์ ์ด๋ฏธ์ง 1์ฅ๋น 30ms์ 100๊ฐ ์ด์์ ๊ฐ์ฒด๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ณ , ์์์ ๊ฒฝ์ฐ๋ ๊ฐ์ฒด ์์ ์ ํ ๋น๋กํ์ฌ ์ค์๊ฐ์ ๊ทผ์ ํ๋ค๊ณ ๋ฐํ์ต๋๋ค. ์ด๋ ๊ณง ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ต์ ํ ๋ฑ์ ํตํด ์ถํ ์๋ ๊ฐ์ ์ฌ์ง๋ ์ถฉ๋ถํจ์ ์๋ฏธํฉ๋๋ค.
์ถ๊ฐ๋ก, ์ฐ๊ตฌํ์ SAM3๋ฅผ ๋ณตํฉ ์ง์์ ๋์ํ๊ธฐ ์ํด ๋ํ ์ธ์ด๋ชจ๋ธ(MLLM)๊ณผ ์ฐ๊ณํ๋ ์คํ(SAM3 Agent๋ผ ๋ช ๋ช )๋ ์ํํ์ต๋๋ค. SAM3 Agent๋ LLM์ด ๋ณต์กํ ๋ฌธ์ฅ์ ์ฌ๋ฌ ๊ฐ๋จํ ๋ช ์ฌ๊ตฌ ์ง์๋ก ์ชผ๊ฐ์ด SAM3์ ์ง์ํ๊ณ , ๋ฐํ๋ ๋ง์คํฌ๋ค์ LLM์ด ํ๋จยท๊ฒฐํฉํ์ฌ ์ต์ข ์๋ต์ ๋ง๋๋ ๊ตฌ์กฐ์ ๋๋ค. ์์ปจ๋ โ์ผ์ชฝ์ ์๋ ํ ์ด๋ธ ์์ ๋นจ๊ฐ ๋ฌผ์ฒด๋ฅผ ์ฐพ์์คโ ๊ฐ์ ๋ฌธ์ฅ์ LLM์ด โํ ์ด๋ธโ, โ๋นจ๊ฐ ๋ฌผ์ฒดโ ๋ฑ์ผ๋ก ๋๋ ์์ฐจ์ ์ผ๋ก SAM3๋ฅผ ํธ์ถํด ์ฒ๋ฆฌ๋ฅผ ๋ถ๋ฐฐํฉ๋๋ค. ์ด๋ฌํ ์์ด์ ํธ ๋ฐฉ์์ ์ถ๊ฐ ํ์ต ์์ด๋ ๊ธฐ์กด RefCOCO+ ๋ฑ ๋ณต์ก ์ฐธ์กฐ ํํ ๋ถํ ๊ณผ์ ์์ ์ต์ ๊ฒฐ๊ณผ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ๋ด์๊ณ , SAM3 ์์ฒด์ ํ๊ณ๋ฅผ ์ธ๋ถ LLM์ผ๋ก ๋ณด์ํ๋ ๋ชจ๋ํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ฅ์ฐจ ๋ก๋ด ์์คํ ์์ LLM ๊ธฐ๋ฐ ์ง๋ฅ๊ณผ ์๊ฐ๋ชจ๋ธ์ ์ฐ๊ฒฐํด ์ฌ์ฉ์ ์์ฒญ์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ๋ ๋ฐฉํฅ์ผ๋ก๋ ์ฐ๊ฒฐ๋ ์ ์๋ ํฅ๋ฏธ๋ก์ด ๊ฒฐ๊ณผ์ ๋๋ค.
๋ง์ง๋ง์ผ๋ก ์์ฝ๋ ์ฑ๋ฅ ์งํ๋ค์ ๋ณด๋ฉด, SAM3์ ๋ฑ์ฅ์ ์๋งจํฑ ์ธ์คํด์ค ๋ถํ ๊ณผ ๋ํ์/์์ ๋ถํ ๋ ์ธก๋ฉด ๋ชจ๋์ ์์ด ํ๊ณ ์ต๊ณ ์์ค์ ์ ๋ฐ์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์์ต๋๋ค. Meta๋ SAM3์ ์ถ์์ ํจ๊ป ๋ชจ๋ธ ๊ฐ์ค์น์ ์ถ๋ก ์ฝ๋, SA-Co ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ฌ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๊ฐ ์ฝ๊ฒ ํ์ฉํ ์ ์๋๋ก ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด SAM3๋ฅผ ์์ ๋ค์ ๋ฐ์ดํฐ์ ํ์ธํ๋ํ๊ฑฐ๋, SAM3๋ก ์์ฑํ ๋ง์คํฌ๋ค์ ํ์ฉํด ์ํ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฑ 2์ฐจ์ ์ธ ์์ฉ ์ฐ๊ตฌ๋ ํ๋ฐํ ๊ฐ๋ฅํ ์ ๋ง์ ๋๋ค. ์ข ํฉํ๋ฉด, SAM3๋ ๋ฒ์ฉ ์๊ฐ ์ธ๋ถํ์ ํ ๊ฑธ์ ๋ ๋ค๊ฐ์ ๋ชจ๋ธ๋ก์, ์ฑ๋ฅ๊ณผ ๋ฒ์ฉ์ฑ ๋ฉด์์ ํฌ๊ฒ ์ง๋ณดํ ๊ฒฐ๊ณผ๋ฌผ์์ ์คํ์ ์ผ๋ก ์ ์ฆํ์ต๋๋ค.
๋ก๋ด๊ณตํ ๋ถ์ผ์์์ ์์ฉ ๋ฐ ์ํฅ
SAM3์ ๋ฑ์ฅ์ ๋ก๋ด๊ณตํ ๋ถ์ผ์๋ ์๋นํ ํ์ฅ์ ์ผ์ผํฌ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๊ทธ ์ด์ ๋ SAM3๊ฐ ์์ฐ์ด ๊ฐ๋ ์ ๋ฐ๋ก ์๊ฐ์ ์ธ์ง์ ์ฐ๊ฒฐํจ์ผ๋ก์จ, ๋ก๋ด์ด ์ฃผ๋ณ ํ๊ฒฝ์ ์ฌ๋์ฒ๋ผ ์ดํดํ๋๋ก ๋๋ ๊ฐ๋ ฅํ ๋๊ตฌ๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, SAM3๊ฐ ์ด์ด์ฃผ๋ ๋ก๋ณดํฑ์ค ์์ฉ์ ๊ฐ๋ฅ์ฑ๋ค์ ๋ช ๊ฐ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค:
๋ก๋ด์ ์๊ฐ ์ธ์ง (Robot Perception): ์ด์ ๋ก๋ด์๊ฒ โ์ฃผ๋ณ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์์๋ฅผ ์ฐพ์โ์ ๊ฐ์ด ์์ฑ์ด๋ ํ ์คํธ๋ก ์ง์ํ๋ฉด, SAM3๊ฐ ๋ก๋ด ์นด๋ฉ๋ผ ์์์์ ์์์ ํด๋นํ๋ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ ๋ถํ ๋ฐ ์๋ณํด๋ผ ์ ์์ต๋๋ค. ๊ธฐ์กด์๋ ์ฌ์ ์ ํ์ต๋ ๊ฐ์ฒด ํ์ง๊ธฐ๋ ์ธ๋ถํ ๋ชจ๋ธ์ ํ์ ๋ ๋ฒ์ฃผ๋ง ์ธ์ ๊ฐ๋ฅํ์ง๋ง, SAM3๋ 4๋ฐฑ๋ง ๊ฐ์ ๋ฌํ๋ ๊ฐ๋ ์ดํ๋ฅผ ํ์ตํ์ผ๋ฏ๋ก ์ผ๋ฐ ์ฌ๋ฌผ๋ถํฐ ํฌ๊ทํ ๊ฐ์ฒด๊น์ง ํญ๋๊ฒ ์ธ์ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ๋ก๋ด์ด ํ๊ฒฝ์ ์คํ์๋(Open-world)์์ ํจ์ฌ ์ ์ฐํ๊ฒ ์ดํดํ๊ณ ๋์ฒํ๊ฒ ํด์ค๋๋ค. ์์ปจ๋ ๊ฐ์ ์ฉ ๋ก๋ด์ด โ๊ณผ์ผ์ ๋ชจ๋ ์ฐพ์ ๋ฐ๊ตฌ๋์ ๋ด์โ๋ผ๋ ์ง์๋ฅผ ๋ฐ์ผ๋ฉด, SAM3๋ฅผ ํตํด ์ฌ๊ณผ, ๋ฐ๋๋ ๋ฑ ๊ณผ์ผ์ด๋ผ๋ ๊ฐ๋ ์ ์ํ๋ ๋ชจ๋ ์์ดํ ์ ์์๋ณด๊ณ ์ ํํ ํฝ์ ๋จ์ ์์น๋ฅผ ์ป์ด, ๋ก๋ด ๋งค๋ํฐ๋ ์ดํฐ๊ฐ ์ด๋ฅผ ํ๋์ฉ ์ง์ด๋ค ์ ์์ ๊ฒ์ ๋๋ค.
์๋งจํฑ ์ง๋ ์์ฑ (Semantic Mapping): ์์จ์ฃผํ ๋ก๋ด์ด๋ ๋๋ก , ์ค๋ด ์๋ด ๋ก๋ด ๋ฑ์ ์ฃผํ ํ๊ฒฝ์ ์ง๋๋ฅผ ๋ง๋ค ๋ ํ๊ฒฝ ์์๋ค์ ๋ํ ์๋งจํฑ ์ ๋ณด๋ฅผ ๋ถ์ฌํ ์ ์์ต๋๋ค. SAM3๋ฅผ ํ์ฉํ๋ฉด, ๋ผ์ด๋ค๋ ์นด๋ฉ๋ผ๋ก ์์งํ ์ฅ๋ฉด์์ โ๋ฒฝโ, โ๋ฌธโ, โ๊ณ๋จโ, โ์ฌ๋โ ๋ฑ ๊ด์ฌ ๊ฐ์ฒด๋ค์ ํ ๋ฒ์ ๋ถํ ํ์ฌ ๋งต์ ํ๊ทธํ ์ ์์ต๋๋ค. ํนํ SAM3๋ ์ฅ๋ฉด ๋ด ๋ชจ๋ ์ธ์คํด์ค๋ฅผ ๋์น์ง ์๊ณ ํฌ์ฐฉํ๊ธฐ ๋๋ฌธ์, ์ง๋์ ์กด์ฌํ๋ ๋ชจ๋ ๊ฐ์ฒด์ ์์น์ ๊ฒฝ๊ณ๋ฅผ ํ์ํด์ค ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ ์ํฉ ์ธ์ ๋ฅ๋ ฅ์ ๋์ด์ฌ๋ฆฌ๊ณ , ์ฌ๋๊ณผ ์์ ๊ณต๊ฐ์ ๊ณต์ ํ๋ ๋ก๋ด์ด๋ผ๋ฉด ์์ ํ ๊ฒฝ๋ก ๊ณํ์ด๋ ์์ ์์ญ ์ค์ ์๋ ๋์์ด ๋ ๊ฒ์ ๋๋ค.
๋ฌผ์ฒด ์กฐ์ ๋ฐ ์ดํด (Object Manipulation & Understanding): ๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ์ง๊ฑฐ๋ ์กฐ๋ฆฝํ ๋, ๋์ ๋ฌผ์ฒด์ ์ ํํ ํํ์ ๊ฒฝ๊ณ๋ฅผ ์๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. SAM3๋ ๋ฌผ์ฒด์ 2D ๋ง์คํฌ๋ฅผ ์ ๋ฐํ ์ ๊ณตํ๋ฏ๋ก, 3D ์ธ์ ๋ชจ๋๊ณผ ๊ฒฐํฉํ์ฌ ๋ฌผ์ฒด์ ์์ธ(pose)๋ ๊ทธ๋ฆฝ ์ง์ ๊ฒฐ์ ๋ฑ์ ํ์ฉํ ์ ์์ต๋๋ค. ๋ํ ์๋ก์ด ๋ฌผ์ฒด๊ฐ ๋ฑ์ฅํด๋ SAM3๋ ํ ์คํธ ํ ์ค๋ก ์ธ๋ถํ๊ฐ ๊ฐ๋ฅํ๋ฏ๋ก, ๋ก๋ด์ด ์์ ๋์ค ์ฒ์ ๋ณด๋ ๋๊ตฌ๋ ๋ถํ์ด ๋์๋ ๋ฐ๋ก ์ธ์ํ์ฌ ์กฐ์ํ ์ ์์ต๋๋ค. ์ด๋ ์์ฐ/๋ฌผ๋ฅ ์๋ํ ํ์ฅ์์ ์ ์ฐ ์์ฐ์ ๊ฐ๋ฅ์ผ ํ๋ ์์ ๊ธฐ์ ์ด ๋ ์ ์์ต๋๋ค.
์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ (HRI): SAM3์ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ๋์ ์๋ ํ์ ๊ณผ ๋ก๋ด์ ์๊ฐ ์๋ต์ ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ฒฐ์์ผ์ค๋๋ค. ์ฌ๋์ ๋ก๋ด์๊ฒ ์ผ์ผ์ด ์ขํ๋ฅผ ์ง์ ํด์ค ํ์ ์์ด, ์์ฐ์ด๋ก ์ง์ํ๊ฑฐ๋ ๊ฐ๋ฆฌํค๊ธฐ๋ง ํ๋ฉด ๋ฉ๋๋ค. SAM3๋ ์ฌ๋์ ์ธ์ด๋ ์ ์ค์ฒ(๋ ์ด์ ํฌ์ธํฐ ๋ฑ์ผ๋ก ํ์ด๋ผ์ดํธํ ์์ญ์ ์์๋ก ์ ๋ ฅ ๊ฐ๋ฅ)๋ฅผ ๋ฐ์๋ค์ฌ, ๋ก๋ด์ด ๋ณด์ด๋ ์์ผ ์์์์ ํด๋น ๋์์ ์๋ณํฉ๋๋ค. ์ด๋ฅผ ํตํด โ์ ๊ธฐ ๋ฐ๋ฅ์ ๋จ์ด์ง ๋์ฌ ์ข ์ฃผ์์ค๋?โ ๊ฐ์ ์์ฒญ์๋ ๋ก๋ด์ด ์ ํํ ์ด๋ค ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌํค๋์ง ์ดํดํ๊ณ ๋์ํ ์ ์์ต๋๋ค. ๋ ๋์๊ฐ, SAM3์ ์ถ๋ ฅ ๋ง์คํฌ๋ฅผ ๋ก๋ด์ ์ฆ๊ฐํ์ค ๋์คํ๋ ์ด๋ ํ๋ก์ ํฐ๋ฅผ ํตํด ์๊ฐ์ ์ผ๋ก ํผ๋๋ฐฑํ๋ฉด, ๋ก๋ด์ด ์ธ์ํ ๋์์ ์ฌ๋์๊ฒ ๋ณด์ฌ์ฃผ์ด ์์ํ๊ฑฐ๋ ํ์ธ๋ฐ๋ ์ํธ์์ฉ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค.
๊ฐํํ์ต ๋ฐ ํ๋ ๊ณํ: ๋ก๋ด ํ์ต์์๋ SAM3์ ๊ธฐ๋ฅ์ ํ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฎฌ๋ ์ดํฐ ์์์ SAM3๋ก ๋ค์ํ ๊ฐ์ฒด๋ค์ ์๋ ๋ถํ /๋ ์ด๋ธ๋งํ๋ฉด, ๊ฐํํ์ต ์์ด์ ํธ์ ์๊ฐ ์ ๋ ฅ์ ํ๋ถํ๊ฒ ํด์ฃผ์ด ์ ์ฑ ํ์ต์ ๋น ๋ฅด๊ฒ ํ ์ ์์ต๋๋ค. ๋ํ ๋ก๋ด์ ์นด๋ฉ๋ผ ์์์ SAM3๋ก ์ฒ๋ฆฌํ์ฌ ์ฅ๋ฉด์ ๊ฐ์ฒด ๋ชฉ๋ก๊ณผ ์์น ์ ๋ณด๋ฅผ ์ถ์ถํ๋ฉด, ์ด๋ฅผ ๊ณ ์ฐจ์ ํ๋๋๋ ์ธ์ด๊ธฐ๋ฐ ์ ์ฑ ์ด ํ์ฉํ์ฌ ์ถ๋ก ๊ฐ๋ฅํ ์ํ ํํ์ผ๋ก ์ผ์ ์ ์์ต๋๋ค. ์์ปจ๋ SAM3๋ ๋ก๋ด์๊ฒ โ๋ฌด์์ด ์ด๋์ ์๋๊ฐโ๋ฅผ ์๋ ค์ฃผ๋ ์ผ๋ฐ ์๊ฐ ํผ๋๋ฐฑ ๋ชจ๋๋ก ์์ฉํ์ฌ, ์ฌ๋ฌ ๋ก๋ด ๊ธฐ์ ์คํ์ ๊ฑธ์ณ ๋ณดํธ์ ์ธ ์ธ์ง ๊ธฐ๋ฐ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
์ข ํฉํ๋ฉด, SAM3๋ ๋ก๋ด์ด ์ฌ๋๊ณผ ๋์ผํ ์ธ์ด๋ก ์ฃผ๋ณ์ ํด์ํ๊ฒ๋ ๋๋ ๋ณํ์ ์ธ ๋น์ ๋ชจ๋ธ์ด๋ผ ํ ์ ์์ต๋๋ค. ๋ฌผ๋ก ์ค์ ๋ก๋ด์ ์ ์ฉํ๋ ค๋ฉด 3D ์ขํ ๋ณํ, ๋ฉํฐ ์นด๋ฉ๋ผ ์ตํฉ ๋ฑ ์ถ๊ฐ ๊ณ ๋ ค์ฌํญ์ด ์์ง๋ง, SAM3์ ๋ฐ์ด๋ ๋ฒ์ฉ ๋ถํ ๋ฅ๋ ฅ์ ์ด๋ฏธ ๊ทธ ์์ฒด๋ก ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ค์๊ฒ ๊ฐ๋ ฅํ ๋๊ตฌ๊ฐ ๋ฉ๋๋ค. ๋๋ถ์ด Meta์ ๊ณต๊ฐํ SA-Co ๋ฐ์ดํฐ์ ๋ก๋ด ๋๋ฉ์ธ ์์๋ ํฌํจ๋์ด ์์ด, ๋ก๋ด ์ฐ๊ตฌ์๋ค์ด ์์ ์ ํ๊ฒฝ์ ๋ง๊ฒ SAM3๋ฅผ ํ์ธํ๋ํ์ฌ ํนํ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ฒ๋ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ์์ผ๋ก ๋ก๋ด ๋น์ ๋ถ์ผ์์ SAM3๋ฅผ ํ์ฉํ ํ๊ฒฝ ์ดํด, ๊ณผ์ ์ง์, ์์จํ์ต ๋ฑ์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์ ๊ฐ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
๊ฒฐ๋ก (Conclusion)
SAM3: Segment Anything with Concepts๋ ์๊ฐ ์ธ๋ถํ ๋ถ์ผ์ ์๋ก์ด ์ด์ ํ๋ผ ๋ถ๋ฅผ ๋งํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด SAM ๊ณ์ด์ ์ํธ์์ฉ ๋ถํ ๋ฅ๋ ฅ์ ๊ฐ๋ฐฉํ ์ดํ ์ธ์์ผ๋ก ํ์ฅํจ์ผ๋ก์จ, ๋ฌดํ์ ๊ฐ๊น์ด ๋ฒ์ฃผ์ ๊ฐ์ฒด๋ค์ ํ๋์ ๋ชจ๋ธ๋ก ๋ค๋ฃฐ ์ ์๊ฒ ๋ง๋ค์์ต๋๋ค. ํ ์คํธ์ ์ด๋ฏธ์ง ์์๋ฅผ ํ๋กฌํํธ๋ก ํ์ฉํ๋ ํ์ ์ ์ธ ์ํคํ ์ฒ, ์ธ์๊ณผ ํ์ง๋ฅผ ๋ถ๋ฆฌํ Presence ํค๋ ๋ฑ์ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋จ์ํ ์ฑ๋ฅ ํฅ์์ ๋์ด ๋ชจ๋ธ ๋์์ธ ํจ๋ฌ๋ค์์ ์ง์ ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ ์๋ฐฑ๋ง ๊ฐ์ ๊ฐ๋ ์ฃผ์์ ์ธ๊ฐ+AI ํ์ ์ผ๋ก ํจ์จ์ ์ผ๋ก ์์งํด๋ธ SA-Co ๋ฐ์ดํฐ ์์ง์ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์๋ก์ด ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ํฅํ ๋ค์ํ ๋ถ์ผ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์๊ฐ์ ์ฃผ๊ณ ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ SAM3๋ ์ด๋ฏธ์ง/์์ ์ธ๋ถํ ๋ชจ๋ ์ธก๋ฉด์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ , ํนํ ์ ๋ก์ท ๊ฐ๋ ์ธ์ ์ธ๋ถํ ๋ฅ๋ ฅ์ ๋ก๋ด๊ณตํ์ ๋น๋กฏํ ์ฌ๋ฌ ์์ฉ ๋ถ์ผ์์ ์ฆ๊ฐ์ ์ธ ํ์ฉ ๊ฐ์น๋ฅผ ์ง๋๋๋ค.
๋ก๋ด๊ณตํ ๊ด์ ์์ SAM3์ ์์๋, ๋ก๋ด์ด ์ฌ๋์ ์ธ์ด๋ก ์๊ฐ ์ธ๊ณ๋ฅผ ์ดํดํ๋ ๋ฐ ํ ๊ฑธ์ ๋ ๋ค๊ฐ์ฐ๋ค๋ ๋ฐ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ํตํด ๋ก๋ด์ ์ฌ์ ์ ํ๋ก๊ทธ๋จ๋์ง ์์ ์๋ก์ด ๋ฌผ์ฒด๋ ํ์ํ ์๊ฐ์ ์ฐพ์๋ด๊ณ ๋ค๋ฃฐ ์ ์๋ ์ ์ฐ์ฑ์ ์ป์ต๋๋ค. ์ฌ๋์ด ๋งํ๊ฑฐ๋ ๊ฐ๋ฆฌํค๋ ๋๋ก ์ฅ๋ฉด์ ๋ถํดํด ์ธ์ํ๋ ๋ฅ๋ ฅ์ ์์จ ๋ก๋ด์ ์์(common sense)๊ณผ ์ธ๊ฐ-๋ก๋ด ๊ฐ ์ํต์ ๊ฐํํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ๋๋ถ์ด SAM3๊ฐ ์คํ์์ค๋ก ๊ณต๊ฐ๋์๊ธฐ์, ์ฐ๊ตฌ์๋ค์ ์ด๋ฅผ ์ฝ๊ฒ ํ์ฉํด ์๊ธฐ ๋๋ฉ์ธ์ ํนํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ฑฐ๋, SAM3๋ฅผ ๋ค๋ฅธ AI ์์คํ ๊ณผ ํตํฉํ์ฌ ์๋ก์ด ๊ธฐ๋ฅ์ ๊ฐ๋ฐํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ธ์ด๋ชจ๋ธ๊ณผ ๊ฒฐํฉํ SAM3 Agent ์คํ์ ๋ณต์กํ ์ง์๋ ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์ฌ์ฃผ์๊ณ , ์ด๋ฌํ ๋ชจ๋ ํตํฉ ์ ๊ทผ์ ๋ก๋ด์๊ฒ ๊ณ ๋์ ์ถ๋ก ๊ณผ ์ ํํ ์คํ์ ๋ชจ๋ ๊ฐ์ ธ๋ค์ค ์ ์๋ ์ ์ฌ๋ ฅ์ด ์์ต๋๋ค.
๋ฌผ๋ก SAM3์๋ ์ ํ ์ฌํญ์ ์กด์ฌํฉ๋๋ค. ํ ์คํธ ํ๋กฌํํธ๋ ํ์ฌ ๋จ์ ๋ช ์ฌ๊ตฌ๋ง ๋ค๋ฃจ๋ฉฐ, ๋ฌธ๋งฅ์ ์๋ฏธ๋ ๋ณต์กํ ์ง์๋ ๋ณ๋์ LLM ํด์์ด ํ์ํฉ๋๋ค. ๋ํ 3D ์ ๋ณด ๋ถ์ฌ๋ก ์ธํ ๊ฐ๋ฆผ ํ์ ์ค์ธ์ ์ฌ์ ํ ๋ก๋ด ์ ์ฉ ์ ๊ณ ๋ คํด์ผ ํ ๋ฌธ์ ์ ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ SAM3๋ โ์ธ๊ทธ๋ฉํ ์ด์ ์ ๋ฒ์ฉ AIโ๋ผ๋ ๋น์ ์ ํ์ธต ๋ค๊ฐ์ ์ญ์์ผ๋ก์, ๋ก๋ด๊ณตํ์ ํฌํจํ ์๊ฐ ์ง๋ฅ ๋ถ์ผ์ ์๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ์์ฉ ๊ธฐํ๋ฅผ ์ด์ด์ฃผ๊ณ ์์ต๋๋ค. ์์ผ๋ก SAM3๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์์ฉ ์ฐ๊ตฌ๊ฐ ๋ค์ํ๊ฒ ์ ๊ฐ๋๊ณ , ์ถํ์๋ SAM4์ ๊ฐ์ด ๋ ๋ฐ์ ๋ ํ์ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํจ์ผ๋ก์จ, ๋ก๋ด์ด ์ธ์์ ๋ณด๋ ๋ฐฉ์์ด ๋์ฑ ์ธ๊ฐ๊ณผ ์ ์ฌํด์ง๊ธธ ๊ธฐ๋ํด๋ด ๋๋ค. SAM3๊ฐ ๋ณด์ฌ์ค ๊ฐ๋ -์๊ฐ ํตํฉ ๋ฅ๋ ฅ์ ๊ถ๊ทน์ ์ผ๋ก ๋ก๋ด์๊ฒ โ๋ฌด์์ด ์ด๋์ ์๋์งโ ๊ฐ๋ฅด์ณ์ฃผ๋ ๋ณดํธ์ ์ธ ์ง์์ผ๋ก ์๋ฆฌ๋งค๊นํ ๊ฒ์ด๋ฉฐ, ์ด๋ ์ง๋ฅํ ๋ก๋ด์ ์์จ์ฑ๊ณผ ํ์ฉ๋๋ฅผ ๋น์ฝ์ ์ผ๋ก ๋์ด๋ ๋ฐ๊ฑฐ๋ฆ์ด ๋ ๊ฒ์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ: SAM3 ๋ ผ๋ฌธ ๋ฐ ๊ด๋ จ ์๋ฃ ์ผ์ฒด.