๐SegDAC ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
Related Post: ManiSkill3 ๋ฆฌ๋ทฐ
- ๐ก SegDAC๋ ์๊ฐ์ ๊ฐํ ํ์ต(RL)์ ์ํด Segment Anything(SAM)๊ณผ YOLO-World๋ฅผ ํ์ฉํ์ฌ ๋์ ์ด๊ณ ๊ฐ๋ณ์ ์ธ ์์ ๊ฐ์ฒด ์ค์ฌ ํํ์ ์ถ์ถํ๋ ์๋ก์ด Transformer ๊ธฐ๋ฐ Actor-Critic ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๐ ์ด ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง ์ฌ๊ตฌ์ฑ, ๋ฐ์ดํฐ ์ฆ๊ฐ, ๋๋ ์๋ ๋ ์ด๋ธ ์์ด ์ ์ฌ ๊ณต๊ฐ์์ ์ง์ ํ์ตํ๋ฉฐ, ๊ฐ๋ณ ๊ธธ์ด์ segment embedding์ ์ฒ๋ฆฌํ๋ ์ต์ด์ ์จ๋ผ์ธ RL ๋ฐฉ๋ฒ์ ๋๋ค.
- ๐ ManiSkill3 ๋ฒค์น๋งํฌ์์ SegDAC๋ ๊ฐ์ฅ ์ด๋ ค์ด ์๊ฐ์ ์ผ๋ฐํ ์ค์ ์์ ๊ธฐ์กด ์ฑ๋ฅ์ ์ต๋ 2๋ฐฐ ํฅ์์ํค๊ณ ์ํ ํจ์จ์ฑ๋ ๋ฅ๊ฐํ๋ฉฐ, ๋ ๊ฐ๋ณ๊ณ ์ง์ ์ ์ธ ํ์ดํ๋ผ์ธ์ผ๋ก๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.


๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ Visual Reinforcement Learning (Visual RL)์์ ๊ณ ์ฐจ์ ์๊ฐ ์ ๋ ฅ, ํ๊ฒฝ ๊ฐ๋ณ์ฑ, ๊ทธ๋ฆฌ๊ณ ์๊ฐ์ perturbations์ ๋ํ ์ ์ฑ ์ ๋ฎ์ ๊ฒฌ๊ณ ์ฑ์ผ๋ก ์ธํด ๋ฐ์ํ๋ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ง ๋ชจ๋ธ(perception models)์ ํจ๊ณผ์ ์ผ๋ก Visual RL์ ํตํฉํ์ฌ ์๊ฐ์ ์ผ๋ฐํ(visual generalization) ๋ฐ ์ํ ํจ์จ์ฑ(sample efficiency)์ ๊ฐ์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค๋ ์ ์ ์ง์ ํฉ๋๋ค.
SegDAC: Improving Visual Reinforcement Learning by Extracting Dynamic Object-Centric Representations from Pretrained Vision Models
๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฌธ์ ํด๊ฒฐ์ ์ํด SegDAC (Segmentation-Driven Actor-Critic)์ด๋ผ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. SegDAC๋ Object-Centric Representations๊ฐ ํฝ์ ๊ธฐ๋ฐ ๋๋ ํจ์น ๊ธฐ๋ฐ(patch-based) ํํ๋ณด๋ค ๋ ์ ์ฉํ๋ค๋ ๊ฐ์ ํ์ ๊ฐ๋ฐ๋์์ต๋๋ค. ๊ธฐ์กด์ ๋ถํ (segmentation) ๊ธฐ๋ฐ RL ๋ฐฉ๋ฒ๋ค์ด ๊ณ ์ ๋ ์ฌ๋กฏ(fixed slots), ์ฌ์ ๊ณ์ฐ๋ ๋ง์คํฌ(precomputed masks) ๋๋ ๊ฐํ ์ง๋ํ์ต(strong supervision)์ ์์กดํ์ฌ ์ ์ฐ์ฑ๊ณผ ์ผ๋ฐ์ฑ์ ์ ํํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
SegDAC์ ํต์ฌ์ ์ฌ์ ์ ํ์ต๋ ๋น์ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋์ ์ธ ์์ Object-Centric Embeddings๋ฅผ ์ถ์ถํ๊ณ ์ด๋ฅผ ํตํด ํ๋์ ์์ธกํ๊ฑฐ๋ Q-value๋ฅผ ํ๊ฐํ๋ ๊ฒ์ ๋๋ค. SegDAC๋ raw pixels์์ ์ธ์ฝ๋๋ฅผ ํ์ตํ๋ ๋์ latent space์์ ์์ ํ ๋์ํฉ๋๋ค.
Grounded Segmentation Module:
- ์ด ๋ชจ๋์ RGB ์ด๋ฏธ์ง์ ์ผ๋ จ์ grounding text inputs์ ์ฌ์ฉํ์ฌ ํ ์คํธ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํฉ๋๋ค.
- YOLO-World ๋ชจ๋ธ์ open-vocabulary๋ฅผ ์ฌ์ฉํ์ฌ ์ ๊ณต๋ text tags (์: โcubeโ, โrobotโ, โbackgroundโ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค(bounding boxes)๋ฅผ ์์ฑํฉ๋๋ค. YOLO-World๋ zero-shot ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค.
- ์ด ๋ฐ์ด๋ฉ ๋ฐ์ค๋ค์ EfficientViT-SAM (SAM) ๋ชจ๋ธ์ ํ๋กฌํํธ(prompts)๋ก ์ฌ์ฉ๋์ด ๊ฐ ๋ฐ์ค ๋ด์์ ์ธ๊ทธ๋จผํธ ๋ง์คํฌ(segment masks)์ ํจ์น ์๋ฒ ๋ฉ(patch embeddings)์ ์์ฑํฉ๋๋ค. SAM๊ณผ YOLO-World๋ ํ์ต ๊ณผ์ ์์ frozen ์ํ๋ก ์ ์ง๋ฉ๋๋ค.
- ์ด ๋ชจ๋์ ์ถ๋ ฅ์ ์๊ฐ ๋จ๊ณ๋ง๋ค ๊ฐ๋ณ์ ์ธ ์(N)์ ์ธ๊ทธ๋จผํธ์ ๋๋ค. ์ด๋ ๊ณ ์ ๋ ์์ ๊ฐ์ฒด ํํ์ ์์กดํ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ์ ์ฐจ์ด์ ์ ๋๋ค.
- ํนํ โbackgroundโ์ ๊ฐ์ ์ผ๋ฐ์ ์ธ text tag๋ฅผ ํฌํจํ์ฌ ์์ด์ ํธ๊ฐ ๊ด๋ จ ์๋ ์์ญ์ ๋ฌด์ํ๋๋ก ํ์ตํจ์ผ๋ก์จ ์ผ๋ฐํ๋ฅผ ํฅ์์ํค๋ ํจ๊ณผ๊ฐ ์์์ด ์ ์ฆ๋์์ต๋๋ค.

Segment Embeddings Extraction Module:
- ์ด ๋ชจ๋์ Grounded Segmentation Module์์ ์์ฑ๋ ์ด์ง ์ธ๊ทธ๋จผํธ ๋ง์คํฌ(N๊ฐ)์ SAM์ ํจ์น ์๋ฒ ๋ฉ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค.
- ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๊ฐ ์๋ ์ด ๋ชจ๋์ ๊ฐ ์ธ๊ทธ๋จผํธ ๋ง์คํฌ์ ๋ํด ํด๋น ๋ง์คํฌ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ฒน์น๋ SAM ํจ์น ์๋ฒ ๋ฉ์ ์๋ณํฉ๋๋ค.
- ๊ฐ ํจ์น ๋ด ๋ง์คํฌ์ ํ์ฑ ํฝ์ (active pixels) ์๋ฅผ ์ธ์ด, ์์ ์๊ณ๊ฐ(์: 4ํฝ์ ) ๋ฏธ๋ง์ผ๋ก ๊ฒน์น๋ ํจ์น๋ ๋ฒ๋ ค์ง๋๋ค.
- ๋จ์ ๊ด๋ จ ํจ์น ์๋ฒ ๋ฉ์ Global Average Pooling์ ์ ์ฉํ์ฌ ๊ฐ ์ธ๊ทธ๋จผํธ์ ๋ํ ๋จ์ผ ์๋ฒ ๋ฉ ๋ฒกํฐ (์ฐจ์ S, ์: S=256)๋ฅผ ์์ฑํฉ๋๋ค.
- ์ด ๊ณผ์ ์ SAM์ ํจ์น ์๋ฒ ๋ฉ์ด ์ ์ฒด ์ด๋ฏธ์ง๋ก๋ถํฐ์ contextual information์ ํฌํจํ๊ณ ์๊ธฐ ๋๋ฌธ์, ๊ฒฐ๊ณผ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ ๋ํ ์ด๋ฌํ ๊ณต์ ์ปจํ ์คํธ๋ฅผ ๊ณ์นํ์ฌ ๋ถํ ์ด ๋ถ์์ ํ ๋์๋ ๊ฒฌ๊ณ ์ฑ์ ์ ์งํฉ๋๋ค.

Actor-Critic Networks:
- Actor์ Critic์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ธ transformer decoder๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ณ ์ ํ ๊ฐ์ค์น(weights), projection heads ๋ฐ encoding layers๋ฅผ ๊ฐ์ง๋๋ค.
- ์ ๋ ฅ์ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ, proprioception (๋ก๋ด์ ์์ฒด ์ํ ์ ๋ณด), ๊ทธ๋ฆฌ๊ณ ํ์ต๋ query token์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
- ๋ชจ๋ธ์ ์ธ๊ทธ๋จผํธ, proprioception, query๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด ํ์ต๋ token-type encoding์ ๊ฐ ํ ํฐ์ ๋ถ์ฌํฉ๋๋ค.
- ์ธ๊ทธ๋จผํธ ํ ํฐ์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ๊ธฐ๋ฐํ positional encoding์ด ์ถ๊ฐ๋์ด ๊ฐ์ฒด ์ค์ฌ ๊ตฌ์กฐ์ ๋ง๋ ๊ณต๊ฐ์ ์ฐธ์กฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- Critic ๋คํธ์ํฌ์ ๊ฒฝ์ฐ, query๋ action vector์ ํ์ต๋ ํ ํฐ์ concatenateํ๊ณ MLP๋ฅผ ํตํด ํฌ์ํ์ฌ ํ์ฑ๋ฉ๋๋ค. Keys์ values๋ ์ธ๊ทธ๋จผํธ ํ ํฐ, proprioception ํ ํฐ, ํ์ต๋ ํ ํฐ์ ์งํฉ์ ํฌ์ํ์ฌ ์ป์ต๋๋ค. ๋์ฝ๋๋ ์ด ์งํฉ์ ์ดํ ์ (attention)์ ์ ์ฉํ์ฌ ๋จ์ผ ์ถ๋ ฅ ํ ํฐ์ ์์ฑํ๋ฉฐ, ์ด๋ projection head๋ฅผ ํตํด Q-value๋ก ๋งคํ๋ฉ๋๋ค.
- Actor ๋คํธ์ํฌ๋ ์ ์ฌํ ์ค๊ณ๋ฅผ ์ฌ์ฉํ์ง๋ง, ํ์ต๋ query token์ด action ์ ๋ ฅ ์ญํ ์ ํ๋ฉฐ, ์ถ๋ ฅ ํ ํฐ์ action space๋ก ํฌ์๋ฉ๋๋ค.
- SegDAC๋ ์ง์ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ์์ ์๋ํ๋ฏ๋ก ํจ์น ๊ธฐ๋ฐ ์ธ์ฝ๋๋ณด๋ค ํจ์ฌ ์ ์ ์์ ํ ํฐ์ ์ฒ๋ฆฌํ๋ฉฐ, ๊ฐ๋ ์์ด๋ ์ค์ํ ๊ฐ์ฒด์ ์ด์ ์ ๋ง์ถ ์ ์์ต๋๋ค.

์ฃผ์ ๊ธฐ์ฌ (Main Contributions)
- Dynamic object-centric RL: ์ด๋ฏธ์ง ์ฌ๊ตฌ์ฑ ๋จ๊ณ ์์ด ๊ฐ๋ณ ๊ธธ์ด ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ์์ ์ง์ ์๋ํ๋ transformer ๊ธฐ๋ฐ Actor-Critic์ ์ ์ํฉ๋๋ค. ์ด๋ SegDAC๊ฐ ์จ๋ผ์ธ RL์์ ๋์ ์ผ๋ก ๊ณ์ฐ๋๋ ๊ฐ๋ณ ๊ธธ์ด ๊ฐ์ฒด ์๋ฒ ๋ฉ์์ ํ์ตํ๋ ์ต์ด์ ๋ฐฉ๋ฒ์์ ์๋ฏธํฉ๋๋ค.
- Text-Grounded Segmentation for Online RL: ์จ๋ผ์ธ RL์ ์ํด ํ ์คํธ ๊ธฐ๋ฐ ๋ถํ ์ ์ฌ์ฉํ๊ณ ๊ฐ๋ณ์ ์ธ ์์ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ์์ ํ์ตํ๋ ์ต์ด์ ๋ฐฉ๋ฒ์ ๋๋ค.
- Strong visual generalization: ManiSkill3 ๊ธฐ๋ฐ์ ์๋ก์ด ์๊ฐ์ ์ผ๋ฐํ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ์ฑ๋ฅ์ ๋ ๋ฐฐ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
- Faster SAM-based training and inference: ๊ฒฝ๋ ์ธ๊ทธ๋จผํธ ์๋ฒ ๋ฉ, ๋น ๋ฅธ ํ ์คํธ ๊ธฐ๋ฐ ๋ถํ , ๊ฐ๋จํ ๋ง์คํฌ ํ์ฒ๋ฆฌ, ์์ ํ latent-space ํ์ต์ ํตํด ๊ธฐ์กด SAM ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๋ณด๋ค 2~5๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
- New direction for visual RL: ๋ฐ์ดํฐ ์ฆ๊ฐ(data augmentation), ๋ณด์กฐ ์์ค(auxiliary losses), ์ธ๋ถ ๋ฐ์ดํฐ์ ์์ด ์์ SAC ์์ค๋ง ์ฌ์ฉํ์ฌ ๊ฐํ ์๊ฐ์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ ๊ฐ๋ณ๊ณ ์ง์ ์ ์ธ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ (Experimental Results)
SegDAC๋ ManiSkill3 ๊ธฐ๋ฐ์ ์๋ก์ด ์๊ฐ์ ์ผ๋ฐํ ๋ฒค์น๋งํฌ(8๊ฐ ์กฐ์ ์์
, 3๋จ๊ณ ๋์ด๋, 12๊ฐ์ง ์๊ฐ์ ์ญ๋)์์ ํ๊ฐ๋์์ต๋๋ค. SegDAC๋ ๋ชจ๋ ๊ธฐ์กด baseline (SAC-AE, DrQ-v2, SAM-G, SMG, SADA, MaDi) ๋๋น ๋ ๋์ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์์ต๋๋ค. ํนํ ๊ฐ์ฅ ์ด๋ ค์ด ์ค์ ์์๋ ๊ธฐ์กด ์ฑ๋ฅ์ ๋ ๋ฐฐ๋ก ๋์์ผ๋ฉฐ, ์ํ ํจ์จ์ฑ ์ธก๋ฉด์์๋ state-of-the-art์ธ DrQ-v2์ ํ์ ํ๊ฑฐ๋ ๋ฅ๊ฐํ์ต๋๋ค. SegDAC๋ ๋์ ์ผ๋ก ๋ณํํ๋ ์ธ๊ทธ๋จผํธ ์, ํฌ๊ธฐ, ์ธ๋ฐ๋(granularity)์๋ ๋ถ๊ตฌํ๊ณ ์์ ์ ์ธ ๋์์ ์ ์งํ์ผ๋ฉฐ, ์์
๊ด๋ จ ๊ฐ์ฒด์ ์ ํ์ ์ผ๋ก attention์ ๊ธฐ์ธ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๊ฐ์ฒด ์ค์ฌ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ์ ์ ์
์ฆํฉ๋๋ค.



