๐งฉDexterous VLAs
1 VLA ๊ธฐ๋ฐ ์ต์ Dexterous Manipulation ๋ชจ๋ธ
2023-2025
1.1 RT-2 (2023, DeepMind)
RT-2๋ ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋์์ ์ ์ํ ์ต์ด์ Vision-Language-Action(VLA) ๋ชจ๋ธ๋ก, ์ธํฐ๋ท ๊ท๋ชจ์ ๋น์ -์ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์ ์ด์ ์ง์ ํตํฉํ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. PaLI-X, PaLM-E ๋ฑ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก, ๋ก๋ด์ ์์ ๊ด์ฐฐ๊ณผ ์์ฐ์ด ์ ๋ ฅ์ ๋ฐ์ ํ๋์ ํ ์คํธ ํ ํฐ ํํ๋ก ์์ฑํ๋๋ก ๊ณต๋ ํ์ตํ์ต๋๋ค[1]. ์ด ๊ณผ์ ์์ ๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ์ VQA, ์์๋ํ ๋ฑ ์ธํฐ๋ท ๋น์ -์ธ์ด ํ์คํฌ๋ฅผ ํจ๊ป ํ์ตํจ์ผ๋ก์จ, ๋ณ๋์ ๊ตฌ์กฐ ๋ณ๊ฒฝ ์์ด๋ ์ 3์ ์ง์ ๋ช ๋ น(์: โ๊ฐ์ฅ ์์ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฌ๋ ค๋ผโ)์ด๋ ์ถ๋ก ์ ํ๋(์: โํ ์ด๋ธ ๊ฐ์ฅ์๋ฆฌ์ ๋์ธ ๊ฐ๋ฐฉ์ ์ง์ด๋ผโ)์ ์ํํ๋ ๋ฅ๋ ฅ์ด ๋ํ๋ฌ์ต๋๋ค. ์ฃผ์ ์คํ์์ RT-2๋ 6์ฒ ํ ์ด์์ ํ๊ฐ ์คํ์ ํตํด ๋ค์ํ ์กฐ์ ์์ ์์ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ผ๋ฉฐ, ์๋ก์ด ๊ฐ์ฒด๋ ๋ชฉํ์๋ ๊ฐ๊ฑดํจ์ ํ์ธํ์ต๋๋ค[1]. (์ฝ๋ ๊ณต๊ฐ: ๋น๊ณต๊ฐ)
1.2 Octo (2024, UC Berkeley et al.)
Octo๋ ๋ฒ์ฉ ๋ก๋ด ์ ์ฑ ์ ์ํ ๊ณต๊ฐํ ๋ํ ๋ชจ๋ธ๋ก, ๋ค์ํ ๋ก๋ด๊ณผ ์์ ์ ๋์ํ ์ ์๋ Transformer ๊ธฐ๋ฐ ํ์ฐ์ ์ฑ (diffusion policy)์ ๋๋ค. Open X-Embodiment ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์์ง๋ 800์ฒ ๊ฐ ์ด์์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ์ฌ์ ํ์ต๋์์ผ๋ฉฐ[2], 9์ข ์ ์ค์ ๋ก๋ด ํ๋ซํผ(์: WidowX, UR5, Dexterous Hand ๋ฑ)๊ณผ ๋ค์ํ ์ผ์ ๊ตฌ์ฑ์ ์ง์ํฉ๋๋ค. ์ธ์ด ๋ช ๋ น ๋๋ ๋ชฉํ ์ด๋ฏธ์ง(goal image)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ๋ ๋ถํฌ๋ฅผ ์์ฑํ๋ฉฐ, ๋ฏธ์ธ์กฐ์ (fine-tuning)๋ ํ์ค ์๋น์์ฉ GPU์์ ํจ์จ์ ์ผ๋ก ์ํ๋ฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, Octo๋ โBridgeV2โ, โStanford Coffeeโ, โPeg Insertโ ๋ฑ 6๊ฐ ๋ฒค์น๋งํฌ ์์ ์์ RT-1-X ๋๋น ํ๊ท ์ฑ๊ณต๋ฅ ์ 52% ์ด์ ๊ฐ์ ํ๊ณ , 55B ํ๋ผ๋ฏธํฐ์ RT-2-X(์ธ์ด๋ชจ๋)์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค[3][4]. ํนํ, ๋ชฉํ ์ด๋ฏธ์ง ์ง์(goal-image conditioning)๋ฅผ ํ์ฉํ ๋ ๋์ฑ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ (๊ธฐ์กด ์ธ์ด ์ง์ ๋๋น +25% ์ฑ๋ฅ), ์๋ก์ด ๊ด์ธก(์: ํ ํ ํฌ ์ผ์)์ด๋ ์๋ก์ด ๋์ ๊ณต๊ฐ(์: ๊ด์ ์์น ์ ์ด)์๋ ๋น ๋ฅด๊ฒ ์ ์ํจ์ ํ์ธํ์ต๋๋ค[3][4]. (์ฝ๋ยท๋ชจ๋ธ ๊ณต๊ฐ: ์[2])
1.3 OpenVLA (2024, Stanford et al.)
OpenVLA๋ 7์ต ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ ์คํ์์ค VLA ๋ชจ๋ธ๋ก, Llama 2 ์ธ์ด๋ชจ๋ธ์ DINOv2์ SigLIP๋ก๋ถํฐ ์ถ์ถํ ์๊ฐ ํน์ง์ ๊ฒฐํฉํ ๋น์ ์ธ์ฝ๋๋ฅผ ํตํฉํฉ๋๋ค[5]. ์ด 97๋ง ๊ฐ์ ์ค์ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ(๋ฐฉ๋ํ ๋ก๋ด ์์ฐ)๋ก ์ฌ์ ํ์ต๋์์ผ๋ฉฐ[5], 29๊ฐ ์์ ๊ณผ ๋ค์ํ ๋ก๋ด ์์ํ๋์ค(์ด์ข ๊ตฌ์กฐ)์ ๊ฑธ์ณ ์ผ๋ฐํ๋๋ ๋ฒ์ฉ ์กฐ์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ํ์ต๋ ์ ์ฑ ์ RT-2-X(55B ํ๋ผ๋ฏธํฐ)๋ณด๋ค ์ ๋ ์ฑ๊ณต๋ฅ ๊ธฐ์ค์ผ๋ก +16.5% ํฌ์ธํธ ์ด์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ[6], ๋ค์ ๊ฐ์ฒด ํผํฉ ์์ ์ด๋ ๋ณต์กํ ์ธ์ด ์ง์๋ฅผ ๋ค๋ฃฐ ๋ ํนํ ์ฐ์ํ์ต๋๋ค. ๋ํ, ์ผ๋ฐํ ํ๊ฒฝ(๋ค์ค ๊ฐ์ฒด, ๋ณต์ก ์ธ์ด)์์ ๊ธฐ์กด ๋นํ์ฅ์ ํ์ต ๊ธฐ๋ฒ ๋๋น ์๋ฑํ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , LoRA ๋ฑ์ ์ ์์ ์ ์ ๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ GPU ํ ๋์์๋ ์์ฝ๊ฒ ๋ฏธ์ธ์กฐ์ ํ ์ ์์์ ๋ณด๊ณ ํ์ต๋๋ค[7]. ๋ชจ๋ธ, ํ์ธํ๋ ์ฝ๋ ๋ฐ Open X-Embodiment ์ง์ ์ฝ๋๊ฐ ๊ณต๊ฐ๋์ด ์ฐ๊ตฌ ํ์ฐ์ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค[8]. (์ฝ๋ยท๋ชจ๋ธ ๊ณต๊ฐ: ์[9])
1.4 RoboMamba (2024, CMU et al.)
RoboMamba๋ Mamba ์ํ๊ณต๊ฐ๋ชจ๋ธ(SSM)์ ํ์ฉํ์ฌ ๋ก๋ด์ ์ธ์ง(visual)์ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ์จ์ฑ์ ๋ํ VLA ๋ชจ๋ธ์ ๋๋ค[10]. ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ Mamba ๋ชจ๋ธ๊ณผ ๊ฒฐํฉ์์ผ ์๊ฐ์ ํ ํฐ๊ณผ ์ธ์ด ์๋ฒ ๋ฉ์ ์ฌ์ ํ์ตํจ์ผ๋ก์จ, ์ผ๋ฐ์ ์ธ ์๊ฐ ์์๊ณผ ๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ์ต๋๋ค. ์ดํ ๋ก๋ด์ SE(3) ์์ธ ์์ธก์ ์ํ ๊ฐ๋จํ ์ ์ฑ ํค๋๋ฅผ ์ถ๊ฐํ์ฌ, ์ ์ฒด ๋ชจ๋ธ์ 0.1% ์ ๋๋ง ๋ฏธ์ธ์กฐ์ ํด๋ ๋ณต์กํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค[10]. ์คํ ๊ฒฐ๊ณผ, RoboMamba๋ ์ผ๋ฐ/๋ก๋ด ๊ด๋ จ ์ถ๋ก ๋ฒค์น๋งํฌ์์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ณต์กํ ์ฐ์ ํ๋(ํฌ์ฆ) ์์ธก์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, ๊ธฐ์กด VLA ๋ชจ๋ธ ๋๋น ์ถ๋ก ์๋๊ฐ ์ฝ 3๋ฐฐ ๋น ๋ฅธ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์๊ณ [10], ๋จ์ผ ์์ ์กฐ๋ฆฝ, ํ ์ด๋ธ ์ ๋ฆฌ ๋ฑ ๋ค์ํ ๋ฌผ๋ฆฌ์ ์์ ์ํ์ ์ฑ๊ณตํ์ต๋๋ค. (์ฝ๋ ๊ณต๊ฐ: ๋น๊ณต๊ฐ)
1.5 ฯโ (2024, UC Berkeley et al.)
ฯโ๋ ํ๋ถํ ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(PaliGemma)์ ํ์ฉํ VLA ์ ์ฑ ์ผ๋ก, ํ๋์ Transformer์ ์ฌ๋ฌ ๋ก๋ด ํ๋ซํผ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ๋ฒ์ฉ ์ ์ด ๋ฅ๋ ฅ์ ํ์ตํฉ๋๋ค[11]. ์ฌ์ ํ์ต์๋ ๋จ์ผ ์, ์ด์ค ์, ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ํฌํจํ ๋ค์ํ ๋ก๋ด์์ ์ป์ ๋๊ท๋ชจ ๊ถค์ ๋ฐ์ดํฐ๊ฐ ์ฌ์ฉ๋์์ผ๋ฉฐ[11], ๊ฐ์ฌ์ผ(์ธํ๋ฌผ ๊ฐ๊ธฐ), ํ ์ด๋ธ ์ฒญ์, ๋ฐ์ค ์กฐ๋ฆฝ ๋ฑ ๊ธด ์ํ์ค์ ๋ณตํฉ ์กฐ์ ์์ ๋ค์ ๋ค๋ฃน๋๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋น์ -์ธ์ด ์ ๋ ฅ์ ๋ฐ์ ๋์ ์ถ๋ ฅ์ ์์ธกํ๋ ํ๋ฆ ๋งค์นญ(flow matching) ์ํคํ ์ฒ๋ก, ์ฐ์ ํ๋ ๋ถํฌ๋ฅผ ์ ํํ ๋ชจ๋ธ๋งํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ฯโ๋ ๋ก๋ด์๊ฒ ์ธ์ด ๋ช ๋ น์ ๊ทธ๋๋ก ๋ฐ๋ผ ์ํํ๋๋ก ํ์ต๋ ์ ๋ก์ท ์ ์ด ๋ฅ๋ ฅ์ ๋ณด์ ํ๋ฉฐ, ์ฌ์ ํ์ต ํ ์๋์ ๋ฐ์ดํฐ๋ก ์๋ก์ด ๊ธฐ์ ์ ๋น ๋ฅด๊ฒ ์ต๋ํ ์ ์์ต๋๋ค[11]. (์ฝ๋ ๊ณต๊ฐ: ๋น๊ณต๊ฐ)
1.6 Being-H0 (2025, Tsinghua et al.)
Being-H0๋ ์ฌ๋ ์ ์ํ์ค ๋น๋์ค๋ก๋ถํฐ ํ์ต๋ ์ต์ด์ ๋๊ท๋ชจ VLA ๊ธฐ๋ฐ ๊ธฐ๋ฏผ ์กฐ์ ๋ชจ๋ธ๋ก, ์ ๋ํผํ ์์ง์ ํํ์ ํตํด ์ธ๊ฐ ๋์๊ณผ ๋ก๋ด ์ ์ด๋ฅผ ์ฐ๊ฒฐํฉ๋๋ค[12][13]. ์ฃผ์ ๊ธฐ์ ๋ก๋ (1) Physical Instruction Tuning: ์ฌ๋ ์ํ์ค์ ์์ฐ์ด ์ง์๋ฅผ ๋ถ์ฌํ ๋ค ์ด๋ฅผ ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ผ์, ์ธ๊ฐ ๋์ ์์๋ก๋ถํฐ ์๋(intent)๋ฅผ ์ถ๋ก ํ๋๋ก ํ์ตํ๊ณ , (2) Part-Level Motion Tokenization: ๋ก๋ด ๊ด์ ๋ฐ์ดํฐ์ 3D ์๊ด์ ์ ๊ฐ์ ํํ ๊ณต๊ฐ์ผ๋ก ์์ํํ์ฌ, ๋ณด๋ค ์ธ๋ฐํ ์์ง์์ ์ธ์ด-๋น์ ๋ชจ๋ธ์ ํตํฉํฉ๋๋ค. ๋ํ 150M ์ํ ๊ท๋ชจ์ UniHand ๋ฐ์ดํฐ์ (์ค์๊ฐ ๋ชจ์ ์บก์ฒ, VR, RGB ์์ ๋ฑ)์ผ๋ก ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ์ํํ์ต๋๋ค[12][13]. ์ด๋ฌํ ๊ตฌ์กฐ๋ฅผ ํตํด Being-H0๋ ์ค์ ์ธ๊ฐ-๋ก๋ด ์๋ฎฌ๋ ์ด์ (Shadow Hand ๋ฑ)์์ ์๊ฐ๋ฝ ์กฐ์, ๋ฌผ์ฒด ์ฌ๋ฐฐ์น ๋ฑ์ ๋ค์ํ ์กฐ์ ์์ ์ ์ํํ๋ฉฐ, ์ธ์ด-์๊ฐ ์ปจํ ์คํธ๋ฅผ ์ ๋์์ผ๋ก ๋ณํํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ท์ต๋๋ค. (๋ ผ๋ฌธ ๋งํฌ ํฌํจ: arXiv[12]) (์ฝ๋ ๊ณต๊ฐ: ๋น๊ณต๊ฐ)
1.7 DexVLG (2025, CMU et al.)
DexVLG๋ dexterous grasping์ ์ํ ๋๊ท๋ชจ VLA ๋ชจ๋ธ๋ก, ํ ๋ทฐ์ RGB-D ์์๊ณผ ์์ฐ์ด ์ง์๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ก๋ด์ ๋ค์ง์ ์์ผ๋ก ๋ฌผ์ฒด์ ํํธ์ ์ ๋ ฌ๋ ์ก๊ธฐ ๋์์ ์์ธกํฉ๋๋ค[14]. ์ฝ 170M๊ฐ์ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ ๋ค์ง์ ๊ทธ๋ฆฝ ํฌ์ฆ(174K๊ฐ ๊ฐ์ฒด, ํํธ๋ณ ์ค๋ช ์บก์ ํฌํจ)๋ฅผ ๋ด์ DexGraspNet 3.0 ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ์ผ๋ฉฐ[15], ํ๋ฆ๋งค์นญ(flow matching) ํค๋๋ฅผ ํตํด ์ฐ์์ ์ ์์ธ๋ฅผ ์์ฑํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ๋ฒค์น๋งํฌ์ ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ, DexVLG๋ ์ ๋ก์ท ์ผ๋ฐํ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ, ์๋ฎฌ์์ 76% ์ด์์ ์ฑ๊ณต๋ฅ ๊ณผ ์ต์ฒจ๋จ ์์ค์ ํํธ-์ ๋ ฌ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ [16], ์ค์ ํ๊ฒฝ์์๋ ๋ก๋ด ํธ๋๋ฅผ ์ฌ์ฉํด ๋ฌผ์ฒด์ ํน์ ํํธ๋ฅผ ์ ํํ ์ก๋ ์คํ์ ์ฑ๊ณตํ์ต๋๋ค. (์ฝ๋ ๊ณต๊ฐ: ๋ฏธ๋ฐํ)
1.8 METIS (2025, Peking Univ.)
METIS๋ ๋ค์ค ์ถ์ฒ ์ฃผ๊ด์ ์์(egocentric video)์ผ๋ก ํ์ต๋ VLA ๋ชจ๋ธ๋ก, ์ฌ๋๊ณผ ๋ก๋ด์ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ EgoAtlas๋ฅผ ํ์ฉํฉ๋๋ค[17]. EgoAtlas๋ ์ธํฐ๋ท์์ ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ(์: EgoDex, H2O)๊ณผ ๋ก๋ด ์์ฐ(์: ActionNet ๋ฑ)์ ๋์ผํ ํ๋ ๊ณต๊ฐ์ผ๋ก ํตํฉํ ๋ฐ์ดํฐ์ ์ ๋๋ค. METIS๋ ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก motion-aware dynamics๋ผ๋ ์ด์ฐํ๋ ๋์ ํํ์ ๋์ ํ์ฌ, ์๊ฐ-์ด๋ ์ ๋ณด๋ฅผ ํจ๊ป ํ์ตํ์ต๋๋ค[17]. ๊ทธ ๊ฒฐ๊ณผ ๋ค์ํ ์ค์ dexterous ์กฐ์ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, 6๊ฐ ์ค์ ์์ ์์ ํ๊ท ์ฑ๊ณต๋ฅ ์ด ๊ฐ์ฅ ๋๊ฒ ๋ํ๋ฌ์ต๋๋ค[17]. ๋ํ, ํ๊ฒฝ ๋ณํ๋ ์๋ก์ด ๋ฌผ์ฒด์๋ ๊ฐ์ธํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ์ธํด, ๊ธฐ๋ฏผ ์กฐ์์ ์ํ ๋ฒ์ฉ VLA ๋ชจ๋ธ๋ก์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. (์ฝ๋ ๊ณต๊ฐ: ์์ )
1.9 Shake-VLA (2025, NRC ๋ฑ์ HRI 2025)
Shake-VLA๋ ๋ฐํ ๋ ๋ก๋ด ์์คํ ์ ๋ชฉํ๋ก ํ VLA ๊ธฐ๋ฐ ์์ฉ ์์คํ ์ ๋๋ค[18]. ๋ ๋์ ๋ก๋ด ํ(์ํ)์ ์ฌ์ฉํด ์นตํ ์ผ์ ์ ์กฐํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ๋น์ ๋ชจ๋(์นตํ ์ผ ์ฌ๋ฃ ๋ณ ์ธ์ ๋ฐ ๋ผ๋ฒจ ์ฝ๊ธฐ), ์์ฑ-ํ ์คํธ ๋ชจ๋(์ฌ์ฉ์ ์์ฑ ๋ช ๋ น ์ธ์), ์ธ์ด ๋ชจ๋ธ(๋ง์ถคํ ์กฐ์ ๋ช ๋ น ์์ฑ) ๋ฑ์ ํตํฉํฉ๋๋ค. ํนํ RAG(Retrieval-Augmented Generation)๋ฅผ ์ด์ฉํด ๋ ์ํผ ์ง์์ ๊ฒ์ํ๊ณ , ์ฌ๋ฃ ๋ถ์ผ์น(anomaly detection) ๊ธฐ๋ฅ์ผ๋ก ๋๋ฝ๋ ์ฌ๋ฃ๋ฅผ ํ๋ณํฉ๋๋ค. Force-torque ์ผ์๋ฅผ ํ์ฉํด ์ก์ฒด ๊ณ๋์ ์ ํ๋๋ฅผ ๋์์ผ๋ฉฐ, ์คํ์์ ์์ฑ ์ธ์(93%), ๋น์ ์ธ์(91%) ๋ฑ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ , ์ ์ฒด์ ์ผ๋ก 100%์ ์นตํ ์ผ ์ ์กฐ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค[18][19]. ์ด์ฒ๋ผ Shake-VLA๋ ์ค์ ํ๊ฒฝ์์ ๋ณตํฉ์ ์ธ ์๊ฐยท์ธ์ด ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ์ํ ์กฐ์์ ์ํํ๋ ์ด๊ธฐ ์ฌ๋ก์ ๋๋ค. (๋ ผ๋ฌธ ๋งํฌ: arXiv[18]) (์ฝ๋ ๊ณต๊ฐ: ๋น๊ณต๊ฐ)
1.10 Scaffolding (2025, Stanford et al.)
Scaffolding์ ๋จ๊ณ์ ์กฐ์ ํ์ต์ ์ํด VLM์ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค. ์ธ์ด ์ง์์ ๋ฐ๋ผ ์์์์ ํต์ฌ 2D ํคํฌ์ธํธ(์: ๋ฌผ์ฒด ์์ก์ด, ๋ฒํผ ๋ฑ)๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ 3D ๊ถค์ ์ผ๋ก ๋ณํํ์ฌ ๊ณ ์์ค ๊ณํ์ ์์ฑํฉ๋๋ค[20][21]. ์์ฑ๋ 3D ํคํฌ์ธํธ ๊ฒฝ๋ก(์๋ชฉ๊ณผ ๊ฐ์ฒด ์์ง์)๋ฅผ ์ ์์ค ์ ์ด(RL)๊ฐ ์ถ์ ํ๋๋ก ํ์ตํจ์ผ๋ก์จ, ์ฅ๊ธฐ๊ฐ์ ๋ณตํฉ ์์ (์: ๋ง์น์ง, ๋ฌธ์ ์์ก์ด๋ฅผ ๋๋ฆฌ๋ ์์ ๋ฑ)์ ์ํํฉ๋๋ค. ์ฆ, VLM์ด ์ธ์ด์ ์์์ ๋ฐํ์ผ๋ก ๊ฑฐ์น ๊ฒฝ๋ก๋ฅผ ์ ์ํ๊ณ , ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์ด๋ฅผ ์ธ๋ฐํ ์ํํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ์ฑ ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค[20][21]. ์ด๊ธฐ ์คํ์์ ์ด ๋ฐฉ๋ฒ์ VLM์ผ๋ก๋ถํฐ ์ป์ ๊ณํ์ ๋ฐ๋ผ ํจ๊ณผ์ ์ธ ์กฐ์์ ํ์ตํ๋ฉฐ, ์ธ๊ฐ ์์ค์ ์ถ๊ฐ ์ธ์ด ์ง์ ์์ด๋ ๋ค์ํ dexterous ๊ณผ์ ๋ฅผ ํด๊ฒฐํ ์ ์์์ ๋ณด์์ต๋๋ค. (๋ ผ๋ฌธ ๋งํฌ: arXiv[20][21]) (์ฝ๋ ๊ณต๊ฐ: ๋ฏธ๊ณต๊ฐ)
1.11 ๋ชจ๋ธ๋ณ ํน์ฑ ๋น๊ตํ
| ๋ชจ๋ธ | Vision/์ธ์ด ๋ชจ๋ธ | ํ์ต ๋ฐ์ดํฐ | ์ง์ ํ๋ซํผ/์กฐ์ ์ ํ | ๋ฒค์น๋งํฌ | ์ฑ๋ฅ ์งํ (์ฑ๊ณต๋ฅ ๋ฑ) | ์ฝ๋ยท๋ฐ๋ชจ ๊ณต๊ฐ ์ฌ๋ถ |
|---|---|---|---|---|---|---|
| RT-2 (2023) | ๋๊ท๋ชจ VLM (Google PaLI-X/PaLM-E ๊ธฐ๋ฐ) | ๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ + ์ธํฐ๋ท ๋น์ -์ธ์ด ํ์คํฌ[1] | ๋จ์ผ/์ด์ค ํ ๋ก๋ด (Franka, WidowX ๋ฑ), ๋ค์ํ ํฝ&ํ๋ ์ด์ค ์์ | RT-1 ์์ ๋ฒค์น๋งํฌ ๋ฑ | ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ ์ฐ์, Emergent reasoning ํ๋[1] | ๋น๊ณต๊ฐ |
| Octo (2024) | Transformer (diffusion) w/์ธ์ด+๋น์ ์ ๋ ฅ | Open X-Embod (800k ์ํผ์๋)[2] | 9๋ ๋ก๋ด (WidowX, UR5 ๋ฑ), ๋จ์ผ/์ด์ค ํ, ๋ค์ํ ์์ (๋ธ๋ฆฟ์ง, ์ปคํผ ์ ์กฐ ๋ฑ) | 6๊ฐ ๋ก๋ด ์์ ๋ฒค์น๋งํฌ | RT-1-X ๋๋น ํ๊ท ์ฑ๊ณต๋ฅ +52% (ํ๊ท 0.72), RT-2-X์ ์ ์ฌ ์ฑ๋ฅ[3][4] | ๊ณต๊ฐ (GitHub/HF)[2] |
| OpenVLA (2024) | Llama2 (์ธ์ด) + DINOv2/SigLIP (๋น์ ) | ์ค์ ๋ก๋ด ์กฐ์ 970k ์์ฐ ๋ฐ์ดํฐ[5] | ๋ค์ํ ๋ก๋ด(29 ์์ , ๋ณต์ ์๋ฐ๋๋จผํธ) | 29๊ฐ ์์ (Open X-Embod) | RT-2-X ๋๋น ์ฑ๊ณต๋ฅ +16.5% (SOTA ๋ฌ์ฑ)[6] | ๊ณต๊ฐ (GitHub)[8] |
| RoboMamba (2024) | Vision encoder + Mamba SSM | ๋น๊ณต๊ฐ (์ผ๋ฐ ๋ก๋ด ๋ฐ์ดํฐ) | ์ผ๋ฐ ๋ก๋ด ์กฐ์ (ํฌ์ฆ ์์ธก), ํ์ค ์๋ฎฌ/์คํ | ๋ก๋ด ์ถ๋ก ๋ฒค์น + ํฌ์ฆ ์์ธก | ๊ธฐ์กด VLA ๋๋น 3๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋[10], 0.1% ํ๋ผ๋ฏธํฐ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ์กฐ์ ํ์ต | ๋น๊ณต๊ฐ |
| ฯโ (2024) | PaliGemma VLM (Vision+์ธ์ด) | ๋ค์ ๋ก๋ด ๋ฐ์ดํฐ (7์ข ๋ก๋ด 68๊ฐ ์์ + OXE 22๋ก๋ด)[22] | ๋ค์ํ ๋ก๋ด(์ฑ๊ธ์, ๋์ผ์, ๋ชจ๋ฐ์ผ), ์ฅ๊ธฐ/๋ค๋จ๊ณ ์์ (์ธํ, ์ฒญ์ ๋ฑ) | ์ธํ๋ฌผ ๊ฐ๊ธฐ, ํ ์ด๋ธ ์ ๋ฆฌ ๋ฑ | ๊ธด ํธ๋ผ์ด์ฆ ์์ (์์ญ ๋ถ) ์ํ ๊ฐ๋ฅ, ์ ๋ก์ท/๋ฏธ์ธ์กฐ์ ์์ ์ฐ์ํ ์ ์ฐ์ฑ[11] | ๋น๊ณต๊ฐ |
| Being-H0 (2025) | Vision-Lang Transformer (์์ฒด ๋ชจ๋ธ) | ์ธ๊ฐ ์ ๊ด๋ จ ๋๊ท๋ชจ ์์ยท๋ชจ์ (UniHand 150M+ ๋ฐ์ดํฐ)[12][13] | ํด๋จผ ํธ๋ ๊ธฐ๋ฐ ๋ค์ง์ ์ (Shadow Hand ๋ฑ), ๋ฌผ์ฒด ์กฐ์ยท์ฌ๋ฐฐ์น | DexGraspNet3.0 ํํธ ์ก๊ธฐ | ์ธ๋ฐํ ์๋์ ์ธ์งยท์์ฑ, ์ธ์ด-๋น์ ํตํฉ ์ ์ด ๋ฅ๋ ฅ ํ๋[12][13] | ๋น๊ณต๊ฐ |
| DexVLG (2025) | ๋น์ -์ธ์ด ๋ชจ๋ธ + Flow-Matching(์ถ๋ ฅ) | DexGraspNet 3.0 (170M ๊ทธ๋ฆฝ ํฌ์ฆ, 174K ๋ฌผ์ฒด)[15] | ํด๋จธ๋ ธ์ด๋ ์(hand) ๊ธฐ๋ฐ dexterous ๊ทธ๋ฆฝ (ํ ์ด๋ธtop ๊ฐ์ฒด ํํธ) | ํํธ-์ผ๋ผ์ธ ์ก๊ธฐ (์๋ฎฌ/์ค์ ) | ์ ๋ก์ท ์ฑ๊ณต๋ฅ 76%โ, ์๋ฎฌ SOTA ํํธ-๊ทธ๋ฆฝ ์ ํ๋[16] | ๋น๊ณต๊ฐ |
| METIS (2025) | Vision-Language Transformer | EgoAtlas (๋ค์ค ์ถ์ฒ Egocentric ๋ฐ์ดํฐ)[17] | SharpaWave 22-DoF dexterous hand, ๋จ์ถยท์ฅ์ถ ์์ (ํฝ&ํ๋ ์ด์ค, ์์ํฌ์ฅ ๋ฑ) | 6๊ฐ ์ค์ dexterous ๊ณผ์ | 6๊ฐ ์์ ์ต๊ณ ํ๊ท ์ฑ๊ณต๋ฅ ๊ธฐ๋ก, ๊ฐ์ธํ OOD ์ผ๋ฐํ[17] | ๊ณต๊ฐ ์ค๋น ์ค |
| Shake-VLA (2025) | Object Detector + ์์ฑ์ธ์ + LLM | ์กฐ๋ฆฌ ๋ ์ํผ DB + ์ค์๊ฐ ์ด๋ฏธ์ง/์์ฑ ๋ฐ์ดํฐ | ์ํ ๋ฐํ ๋ ๋ก๋ด, ์ก์ฒด ํผํฉ (์นตํ ์ผ ์ ์กฐ) | ์นตํ ์ผ ์ ์กฐ ํ์ดํ๋ผ์ธ | ์์ฑ์ธ์ 93%, ๋น์ 91% ์ ํ๋, ์ ์ฒด ์์คํ 100% ์ฑ๊ณต๋ฅ [18][19] | ๋น๊ณต๊ฐ |
| Scaffolding (2025) | Off-the-shelf VLM (์: GPT-4) | ์ฌ์ ํ์ต๋ VLM + RL ์๋ฎฌ๋ฐ์ดํฐ | Dexterous ์ ๋ก๋ด (๋ง์น์ง, ๋์ด ํธ๋ค ์กฐ์, Semantic ํฝ&ํ๋ ์ด์ค) | ์ฌ์ฉ์ ์ ์ ์กฐ์ ๊ณผ์ | VLM ๊ธฐ๋ฐ 3D ๊ฒฝ๋ก ๊ณํ๊ณผ RL์ ๊ฒฐํฉ์ผ๋ก ์ด๋ ค์ด dexterous ๊ณผ์ ํด๊ฒฐ | ๋น๊ณต๊ฐ |
๊ฐ ๋ชจ๋ธ์ ์ธ์ด-๋น์ ํตํฉ ๋ฐ ์ ์ด ์ ์ฑ ํ์ต ํ์ ์์ฝ:
- RT-2: ๋ก๋ด ๋์์ ์ธ์ด ํ ํฐ์ผ๋ก ํํํ๊ณ , ์ธํฐ๋ท ๋น์ -์ธ์ด ํ์คํฌ์ ํตํฉ ํ์ตํจ์ผ๋ก์จ ์ธ์ด ์ดํด์ ์ ๋ก์ท ์ ์ด๋ฅผ ๋์์ ๊ตฌํํ์ต๋๋ค. (์: ์ฐ์์ถ๋ก (chain-of-thought) ๊ธฐ๋ฒ์ ๋์ ํด ๋ณตํฉ ์ง์ ์ํ)[1].
- Octo: ํ์ฐ ๋ชจ๋ธ(diffusion policy)๊ณผ ๋ค์ํ ์ ๋ ฅ(์ธ์ด+๋ชฉํ ์์)์ ๋์ ํ์ฌ ๋ค๋ชฉ์ ๋ก๋ด ์ ์ด๊ธฐ๋ฅผ ์ ์ํ์ต๋๋ค. ์ธ์ด์ ์๊ฐ์ ๋ชฉํ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ๊ณ ์๋ก์ด ๊ด์ธกยท๋์ ๊ณต๊ฐ์๋ ๋น ๋ฅด๊ฒ ์ ์ํ๋ ์ค๊ณ๊ฐ ํต์ฌ์ ๋๋ค[3][4].
- OpenVLA: ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(Llama2)๊ณผ ์๊ฐ ์ธ์ฝ๋(SigLIP+DINOv2)๋ฅผ ๊ฒฐํฉํด ๋ฒ์ฉ ์กฐ์ ์ ์ฑ ์ ํ์ตํ์ต๋๋ค. ํ๋ถํ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ์ฌ ๊ณ ์์ค ์ธ์ด ์ง์๋ฅผ ๊ตฌ์ฒด์ ํ๋์ผ๋ก ๋ณํํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ท์ต๋๋ค[5].
- RoboMamba: ํจ์จ์ ์ธ Mamba SSM์ ์ ์ฉํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์๊ณผ ์ถ๋ก -์ถ๋ก (reasoning-action) ํตํฉ์ ์คํํ์ต๋๋ค. ์๊ฐ-์ธ์ด ์ ๋ ฅ์ ๋จ์ผ SSM์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ์ ์ฑ ํค๋๋ง ์๋ ๋ฏธ์ธ์กฐ์ ํด๋ ์กฐ์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๋ ๊ฒ์ด ํน์ง์ ๋๋ค[10].
- ฯโ: ๋๊ท๋ชจ VLM(PaliGemma)์ ํ๋ฆ๋งค์นญ ๊ธฐ๋ฐ ํ๋ ์์ฑ์ ๊ฒฐํฉํ์ฌ, ์ฅ๊ธฐ๊ฐ ๋ณตํฉ ์กฐ์๊ณผ ํฌ๋ก์ค-๋ก๋ด ์ผ๋ฐํ๋ฅผ ์ง์ํ์ต๋๋ค. ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ํ ๋ชจ๋ธ์ ํตํฉํ์ฌ ์ ๋ก์ท ๋ฐ ์๋ ๋ฐ์ดํฐ ํ์ธํ๋์ผ๋ก ์๋ก์ด ์ ๋ฌด๋ฅผ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์์ต๋๋ค[11].
- Being-H0: ์ฌ๋ ์ ์ํ์ค๋ฅผ ์ด์ฉํ ๋์-์๋ ํตํฉ ํ๋ฆฌํธ๋ ์ด๋์ ์ํํ์ต๋๋ค. ์์ฐ์ด ์ง์๋ฅผ ๋ชจ์ ๋ฐ์ดํฐ์ ๊ฒฐํฉํ๊ณ ์ธ๋ถ ์๊ด์ ์ ์์ํํ์ฌ, VLM์ด ์ธ๊ฐ ์ ์์ง์์ ์ธ์ด-์ง์์ ์ฐ๊ฒฐํ ์ ์๋๋ก ํ์ต๋๋ค[12][13].
- DexVLG: ์ ์ฐํ ๊ทธ๋ฆฝ ์ ์ฑ ์ ์ํด ์ธ์ด-์กฐ๊ฑด๋ถ ๊ทธ๋ฆฝ ๋ชจ๋ธ์ ์ ์ํ์ต๋๋ค. ๋ฌผ์ฒด์ ๋ถ์ ์ค๋ช ๊ณผ ๊ฒฐํฉํด ๊ทธ๋ฆฝ ํฌ์ฆ๋ฅผ ์์ธกํ๋ฉฐ, ์ฐ์ ๋์์ ํ๋ฆ๋งค์นญ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ์ ๋ก์ท ๊ทธ๋ฆฝ ๋ฅ๋ ฅ์ ๊ตฌํํ์ต๋๋ค[14].
- METIS: ๋ค์ํ ์ธ๊ฐ ์์๊ณผ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ผ๊ด๋ ํ๋ ๊ณต๊ฐ์ผ๋ก ํตํฉํด ๋์ ๋ฒ์์ ์กฐ์ ์ง์์ ํ์ตํ์ต๋๋ค. motion-aware dynamics๋ก ์๊ฐ-์ด๋ ์ ๋ณด๋ฅผ ์์ถ ํ์ตํ๊ณ , ์ธ๊ฐ ๋ฐ์ดํฐ์ ํ๋ถํจ์ ์กฐ์ ์ ์ฑ ์ ์ ๋ฌํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค[17].
- Shake-VLA: ์์ฑ, ์๊ฐ, ์ธ์ด๋ชจ๋ธ์ ๊ฒฐํฉํ ์ข ํฉ ์์คํ ์ผ๋ก ์ค์๊ฐ ๋ช ๋ น ์ฒ๋ฆฌ์ ์กฐ์ ์ ์ด๋ฅผ ํตํฉํ์ต๋๋ค. Retrieval-Augmented Generation์ผ๋ก ๋ฐฐ๊ฒฝ์ง์์ ํ์ฉํ๊ณ , ์ผ์๋ฅผ ํตํ ํผ๋๋ฐฑ(loop closing)์ ํ์ฉํด ๋ก๋ด ๋ ํ์ ํ๋์กฐ์์ ์ํํ์ต๋๋ค[18][19].
- Scaffolding: VLM์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๊ฐํํ์ต์ ๊ฒฐํฉํ์ฌ ๊ณ์ธต์ ์กฐ์ ํ์ต์ ์๋ํ์ต๋๋ค. VLM์ด ์์ฑํ 3D ๊ถค์ ์ผ๋ก ๊ณํ์ ์ ๊ณตํ๊ณ , ์ ์์ค RL์ด ์ธ๋ฐํ ์คํ์ ๋ด๋นํจ์ผ๋ก์จ ๋ณต์กํ dexterous ์์ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํฉ๋๋ค[20][21].
๊ฐ ๋ชจ๋ธ์ ์ค๊ณ๋ ์ธ์ด์ ๋น์ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๋ก๋ด ์ ์ฑ ์ ํ์ตํ๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ์๊ณ , ํนํ ๋ฏธ์ธ ์กฐ์(dexterous manipulation) ๋ถ์ผ์์ ๋ณต์กํ ๋ฌผ์ฒด ์กฐ์๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ์ต๋๋ค.
์ฐธ๊ณ ๋ฌธํ: ์๊ธฐ ์ธ์ฉ์ ํด๋น ๋ชจ๋ธ ๋ ผ๋ฌธ์ ํต์ฌ ๋ด์ฉ์ ๋ฐ์ํ๋ฉฐ, ๊ฐ ๋ชจ๋ธ๋ณ ์์ฝ์ ์ธ์ฉ๋ ํ์ด์ง๋ฅผ ํตํด ์์ธ ์ ๋ณด๋ฅผ ํ์ธํ ์ ์์ต๋๋ค[1][5][10][11][12][14][17][18][20].
[1] [2307.15818] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/abs/2307.15818
[2] [3] [4] Octo: An Open-Source Generalist Robot Policy
[5] [6] [7] [8] [9] [2406.09246] OpenVLA: An Open-Source Vision-Language-Action Model
https://arxiv.org/abs/2406.09246
[10] [2406.04339] RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation
https://arxiv.org/abs/2406.04339
[11] [2410.24164] $ฯ_0$: A Vision-Language-Action Flow Model for General Robot Control
https://arxiv.org/abs/2410.24164
[12] [13] Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
https://arxiv.org/html/2507.15597v1
[14] [15] [16] [2507.02747] DexVLG: Dexterous Vision-Language-Grasp Model at Scale
https://arxiv.org/abs/2507.02747
[17] METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model
https://arxiv.org/html/2511.17366v1
[18] [19] [2501.06919] Shake-VLA: Vision-Language-Action Model-Based System for Bimanual Robotic Manipulations and Liquid Mixing
https://arxiv.org/abs/2501.06919
[20] [21] Scaffolding Dexterous Manipulation with Vision-Language Models
https://arxiv.org/html/2506.19212v1
[22] physicalintelligence.company