flowchart TD
A1["Image<br/>(last H frames)"] -->|ViT Encoder| F[Token Prefix S_t]
A2["Language<br/>(instruction)"] -->|Tokenizer| F
A3["Tactile Signal<br/>(normal + shear)"] -->|MLP Encoder| F
A4["Proprioceptive<br/>State"] -->|Encoder| F
F --> VLM["Pretrained VLM<br/>Gemma 2.6B<br/>(non-causal attention)"]
VLM --> AE["Tactile-Aware<br/>Action Expert (300M)"]
AE --> PT["Target Position<br/>P_target"]
AE --> FT["Target Force<br/>F_target"]
PT --> HC["Hybrid Position-Force<br/>Controller"]
FT --> HC
HC --> R["Robot Joints<br/>(PID actuation)"]
VLM -.->|periodic trigger| COT["Tactile-VLA-CoT<br/>(reasoning + replan)"]
COT -.->|new instruction| A2
๐Tactile-VLA
- ๐ฆพ Tactile-VLA๋ Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ด๊ฐ ์ผ์ฑ์ ๊น์ด ์ตํฉํ์ฌ, ์ ์ด์ด ๋ง์ ์์ ์์ ์ ๊ตํ ํ ์ ์ด์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค.
- ๐ง ์ด ๋ชจ๋ธ์ VLM์ ๋ด์ฌ๋ ๋ฌผ๋ฆฌ์ ์ง์์ ํ์ฉํ์ฌ โsoftlyโ ๋๋ โhardโ์ ๊ฐ์ ํ ๊ด๋ จ ์ธ์ด๋ฅผ ์ผ๋ฐํํ๊ณ , ๋ฌผ์ฒด์ ์์ฑ์ ๋ฐ๋ผ ์ ์ ํ ํ์ ์ ์ฉํ๋ฉฐ, ์ด๊ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์คํจ๋ฅผ ์ง๋จํ๊ณ ์ ์์ ์ผ๋ก ํ ์ ๋ต์ ์กฐ์ ํฉ๋๋ค.
- ๐ ์คํ ๊ฒฐ๊ณผ, Tactile-VLA๋ ๋ช ๊ฐ์ง ๋ฐ๋ชจ๋ง์ผ๋ก VLM์ ์ฌ์ ์ง์์ ํ์ฑํํ์ฌ zero-shot, cross-object, ๊ทธ๋ฆฌ๊ณ force-sensitive ํ๊ฒฝ์์ ํ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
Tactile-VLA๋ Vision-Language-Action (VLA) ๋ชจ๋ธ์ด ์ ์ด์ด ๋ง์(contact-rich) ์กฐ์ ์์ ์์ ์ ํํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์ํํ ์ ์๋๋ก, ์ ์ฌ๋ ๋ฌผ๋ฆฌ์ ์ง์์ ํ์ฑํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด VLA ๋ชจ๋ธ์ ๊ณ ์์ค ์ถ๋ก ๊ณผ ๊ณํ์๋ ๋ฐ์ด๋์ง๋ง, ์ ๋ฐํ ํ ์ ์ด๊ฐ ํ์ํ ์๋๋ฆฌ์ค์์๋ ์ค์ ๋ฌผ๋ฆฌ์ ํ์ค์ ์ดํดํ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค. Tactile-VLA๋ ๋น์ , ์ธ์ด, ์ก์ ๋ชจ๋ฌ๋ฆฌํฐ์ ์ด๊ฐ ์ผ์ฑ(tactile sensing)์ ๊น์ด ์ตํฉํ์ฌ ์ด๋ฌํ ๊ฐ๊ทน์ ๋ฉ์๋๋ค. ํต์ฌ ์์ด๋์ด๋ VLM(Vision-Language Model)์ ์ฌ์ ์ง์์ ์ด๋ฏธ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ํ ์๋ฏธ๋ก ์ ์ดํด๊ฐ ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ์์์ ์ด๊ฐ ๋ฐ๋ชจ๋ฅผ ํตํด ๋ก๋ด์ ์ด๊ฐ ์ผ์์ ์ฐ๊ฒฐํจ์ผ๋ก์จ ์ ๋ก์ท ์ผ๋ฐํ(zero-shot generalization)๋ฅผ ๋ฌ์ฑํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
์ด ๋ชจ๋ธ์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฅ์ ํตํด ์ด๊ฐ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- Tactile-Aware Instruction Following (์ด๊ฐ ์ธ์ง ๋ช ๋ น ์ถ์ข ): โ๋ถ๋๋ฝ๊ฒ(gently)โ ๋๋ โ์ธ๊ฒ(hard)โ์ ๊ฐ์ ํ ๊ด๋ จ ์ธ์ด์ ์๋ฏธ๋ฅผ ํ์ตํ์ฌ, ๋์๋ง ํ์ตํ ์๋ก์ด ์์ ์๋ ์ด๋ฅผ ์ ์ฉํ์ฌ ์ธ์ด ๊ธฐ๋ฐ ํ ์ ์ด๋ฅผ ์ผ๋ฐํํฉ๋๋ค.
- Utilizing Tactile-Relevant Common Sense (์ด๊ฐ ๊ด๋ จ ์์ ํ์ฉ): ๋ฌด๊ฑฐ์ด ์ ๊ตฌ์ฌ์๋ ๊ฐํ ๊ทธ๋ฆฝ๋ ฅ์, ๊นจ์ง๊ธฐ ์ฌ์ด ์ฉ๊ณผ(pitaya)์๋ ๋ถ๋๋ฌ์ด ๊ทธ๋ฆฝ๋ ฅ์ ์ ์ฉํ๋ ๋ฑ, ์๊ฐ ๋ฐ ๋ฌธ๋งฅ์ ๋จ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๋ฌผ์ ์์ฑ์ ๋ฐ๋ผ ์ ์ด ํ๋์ ์กฐ์ ํฉ๋๋ค.
- Adaptive Tactile-Involved Reasoning (์ ์ํ ์ด๊ฐ ๊ด๋ จ ์ถ๋ก ): ์์ ์คํจ ์ ์ด๊ฐ ํผ๋๋ฐฑ์ ํตํด ์คํจ ์์ธ์ ์ง๋จํ๊ณ ์์ ์กฐ์น๋ฅผ ์ทจํ๋๋ก ์์จ์ ์ผ๋ก ์ ์ํฉ๋๋ค (์: ์ ์ง์์ง์ง ์๋ ์น ํ ์๊ตญ์ ์ง์ฐ๊ธฐ ์ํด ์ด๊ธฐ ์คํจ ํ ์๋๋ก ๋๋ฅด๋ ํ์ ์ฆ๊ฐ์ํด).
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology):
Tactile-VLA๋ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ ์ ๋ ฅ(๋น์ , ์ธ์ด, ์ด๊ฐ, ๊ณ ์ ์์ฉ์ฑ ์ํ)์ ์ฒ๋ฆฌํ์ฌ ํ ์ธ์ง(force-aware) ์ก์ ์ถ๋ ฅ์ ์์ฑํ๋ ์ํคํ ์ฒ๋ฅผ ๊ฐ์ง๋๋ค.
1. ์ ์ฑ ์ํคํ ์ฒ ๋ฐ ํ์ต (Policy Architecture and Learning):
- ๋ชฉํ: ์ถ์์ ์ธ ์ํธ์์ฉ ์ดํด๋ฅผ ์ ๋ฐํ ์ค์ ํ ์ ์ด๋ก ๋ณํํ์ฌ, ๋์ผํ ์์ง์์ ๊ณต์ ํ์ง๋ง ํ์ด ๋ค๋ฅธ ๋ช ๋ น(์: โUSB๋ฅผ ๋จ๋จํ ์ฝ์ โ vs. โUSB๋ฅผ ๋ถ๋๋ฝ๊ฒ ์ฝ์ โ)์ ๊ตฌ๋ณํฉ๋๋ค.
- ์ํคํ
์ฒ: ํ ํฐ ๋ ๋ฒจ ์ตํฉ(token-level fusion) ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
- ์
๋ ฅ ์ธ์ฝ๋ฉ:
- ์๊ฐ (Vision): ์ฌ์ ํ๋ จ๋ Vision Transformer (ViT) ์ธ์ฝ๋ E'_{vis}๋ฅผ ์ฌ์ฉํ์ฌ ์ง๋ H ํ๋ ์์ ๊ณ ์ ํ ํ ํฐ ์ํ์ค๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
- ์ด๊ฐ (Tactile): ๊ฐ๋จํ MLP E'_\psi๊ฐ H๊ฐ์ ์ด๊ฐ ์ธก์ ๊ฐ ์ด๋ ฅ์ ์ฒ๋ฆฌํ์ฌ ๋จ์ผ ์ตํฉ ํ ํฐ์ ์์ฑํฉ๋๋ค.
- ์ธ์ด (Language): ์ผ๋ฐ ์ธ์ด ํ ํฌ๋์ด์ E_{lang}๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ํตํฉ ์ ๋ ฅ ์ํ์ค (S_t): ๋ชจ๋ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ ํฐ์ ๋ค์ ํ์์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค: S_t = [E'_{vis}(I_{t-H+1}), \dots, E'_{vis}(I_t), E_{lang}(L_t), E'_{\psi}([T_{t-H+1}, \dots, T_t])] ์ฌ๊ธฐ์ I๋ ์ด๋ฏธ์ง, L์ ์ธ์ด, T๋ ์ด๊ฐ ์ ํธ๋ฅผ ๋ํ๋ ๋๋ค.
- Transformer ๋ฐฑ๋ณธ: S_t๋ ๋น์ธ๊ณผ์ ์ดํ ์ (non-causal attention) ๋ฉ์ปค๋์ฆ์ ํตํด Transformer ๋ฐฑ๋ณธ์ ์ํด ์ฒ๋ฆฌ๋ฉ๋๋ค. ์ด๋ ๋น์ , ์ธ์ด, ์ด๊ฐ ํ ํฐ์ด ์์ ๋กญ๊ฒ ์ํธ ์์ฉํ์ฌ ๊น์ด ํตํฉ๋ ๋ฌธ๋งฅ์ ํํ์ ์์ฑํ๋๋ก ํฉ๋๋ค.
- ์ก์ ์ถ๋ ฅ: ์ด ํ๋ถํ ํํ์ ์ด๊ฐ ์ธ์ง ์ก์ ์ ๋ฌธ๊ฐ(tactile-aware action expert)์๊ฒ ์ ๋ฌ๋์ด ์ฆ๊ฐ๋ ์ก์ ๋ฒกํฐ a_t๋ฅผ ์ถ๋ ฅํฉ๋๋ค. a_t์๋ ๋ชฉํ ์์น(target position) P_{target}์ ๋ชฉํ ์ ์ด ํ(target contact force) F_{target}์ด ํฌํจ๋ฉ๋๋ค.
- ์
๋ ฅ ์ธ์ฝ๋ฉ:
- ํ์ต: ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ํตํด ์ข
๋จ๊ฐ(end-to-end) ํ์ธํ๋๋ฉ๋๋ค.
- ์ฌ์ ํ๋ จ๋ \pi_0 (Black et al., 2024)์ ํ๋ผ๋ฏธํฐ๋ก ๊ณต์ ์ปดํฌ๋ํธ๋ฅผ ์ด๊ธฐํํ๊ณ , ์ด๊ฐ ์ธ์ฝ๋์ ์์ ๋ ์ก์ ์ ๋ฌธ๊ฐ ๊ฐ์ ์๋ก์ด ๋ชจ๋์ ๋ฌด์์๋ก ์ด๊ธฐํ๋ฉ๋๋ค.
- Conditional Flow Matching (CFM) ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์ด ์งํ๋๋ฉฐ, ์์ค ํจ์๋ ์์ธก๋ ์ก์ ์ํ์ค์ ์ด๋ํ์ (kinematic) ๋ฐ ํ(force) ์ฐจ์ ๋ชจ๋์์์ ํธ์ฐจ์ ํ๋ํฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ด ๋ฉ์ปค๋์ฆ์ ํตํด ๋ชจ๋ธ์ ์ธ์ด์ ๋์์ค(์: โgentlyโ)์ ํด๋น ๋ฌผ๋ฆฌ์ ํ ํฌ๊ธฐ(์: 0.5N) ๊ฐ์ ์ง์ ์ ์ธ ๋งคํ์ ํ์ตํฉ๋๋ค.
2. ํ์ด๋ธ๋ฆฌ๋ ์์น-ํ ์ ์ด๊ธฐ (Hybrid Position-Force Controller):
- ์ด๊ฐ ์ธ์ง ์ก์ ์ ๋ฌธ๊ฐ๊ฐ P_{target}์ F_{target}๋ฅผ ๊ฒฐ์ ํ๋ฉด, ์ ์์ค ์ ์ด๊ธฐ(low-level controller)๊ฐ ์ด ๋ ๋ชฉํ์ ๊ท ํ์ ๋ง์ถฅ๋๋ค.
- ์ ๊ทผ ๋ฐฉ์: ์์น ์ง๋ฐฐ์ (position-dominant) ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ฉฐ, ์ํผ๋์ค ์ ์ด(impedance control) ์๋ฆฌ์์ ์๊ฐ์ ๋ฐ์ ๊ฐ์ ํ ์ ์ด(indirect force control) ๋ฐฉ์์ ์ฑํํฉ๋๋ค.
- ์๋: ํ ์ค์ฐจ \Delta F = F_{target} - F_{measured}๋ฅผ ๊ณ์ฐํ๊ณ , ์ด ์ค์ฐจ์ ํฌ๊ธฐ \left \| \Delta F \right \|๊ฐ ์ฌ์ ์ ์๋ ์๊ณ๊ฐ \tau๋ฅผ ์ด๊ณผํ ๋๋ง ๋ณด์ ์์น ์กฐ์ (corrective positional adjustment)์ ๊ณ์ฐํฉ๋๋ค. P_{hybrid} = \begin{cases} P_{target} + K \cdot \Delta F & \text{if } \left \| \Delta F \right \| > \tau \\ P_{target} & \text{if } \left \| \Delta F \right \| \leq \tau \end{cases} ์ฌ๊ธฐ์ K๋ ๊ฒ์ธ ๋งคํธ๋ฆญ์ค์ ๋๋ค.
- ๊ตฌํ: PID ์ ์ด๊ธฐ(Proportional-Integral-Derivative controller)๊ฐ ๋์ ์ผ๋ก ์ ๋ฐ์ดํธ๋ P_{hybrid}๋ก ๋ก๋ด์ ์กฐ์ธํธ๋ฅผ ๊ตฌ๋ํฉ๋๋ค.
- ํ ์ฑ๋ถ ๋ถ๋ฆฌ: ์ ์ธ๋ ฅ(net external force)๊ณผ ๋ด๋ถ ์ก๊ธฐ ํ(internal grasping force)์ ์ ์ด๋ฅผ ๋ถ๋ฆฌํฉ๋๋ค. ๊ทธ๋ฆฌํผ์ Cartesian ์์น๋ ์ ์ธ๋ ฅ ์ ์ด์, ๊ทธ๋ฆฌํผ ํญ(gripper width)์ ๋ด๋ถ ์ก๊ธฐ ํ ์ ์ด์ ์ฌ์ฉ๋ฉ๋๋ค.
3. Tactile-VLA-CoT: ์ถ๋ก ๊ธฐ๋ฐ ์ ์ (Reasoning-Based Adaptation):
- ๋ชฉํ: VLM์ ์ ์ฌ๋ ์ถ๋ก ๊ธฐ์ ์ ํ์ฑํํ์ฌ ๊ฐ๋ ฅํ ์ ์ ๋ฅ๋ ฅ์ ํ๋ณดํฉ๋๋ค.
- Chain-of-Thought (CoT) ํตํฉ: ํ ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ์ ์ ์ฑ ์ ๋ ฅ ์ด์์ผ๋ก ํ์ฉํ์ฌ ์ ์ํ ์ถ๋ก ๋ฐ ์ฌ๊ณํ(re-planning)์ ์ํ ์ค์ํ ๋จ์๋ก ์ฌ์ฉํฉ๋๋ค.
- ์๋ ๋ฐฉ์:
- VLM์ ์ฌ์ ํ๋ จ๋ ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ช ์์ ์ธ ๋ด๋ถ ๋ ๋ฐฑ(internal monologue)์ ์์ฑํฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์คํจ ์์ธ(์: ์์์น ๋ชปํ ๋ฏธ๋๋ฌ์ง)์ ์ถ๋ก ํ๊ณ ์์ ์ก์ ์ ๊ณต์ํํ๋๋ก ํฉ๋๋ค.
- ํ๋ จ: ์คํจ ์ด๋ฒคํธ(์: ์น ํ์ ๋ฆ์ ๋ ๋ฏธ๋๋ฌ์ง)๋ฅผ ํฌ์ฐฉํ๊ณ ๋ฉํฐ๋ชจ๋ฌ ๊ฐ๊ฐ ์คํธ๋ฆผ์ ์คํจ ์์ธ์ ๋ถ์ํ๋ ์ธ์ด ์ฃผ์๊ณผ ์ง์ง์ ์๊ณ ํนํ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ธํ๋๋ฉ๋๋ค. ์ด๋ VLM์ ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์กดํ๊ณ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅํ์ฌ ์ผ์ ์ ํธ์์ ๋ฌผ๋ฆฌ์ ํ์(์: ๋ถ์ถฉ๋ถํ ํํฅ ์๋ ฅ, ๋๊ตฌ ๋ฏธ๋๋ฌ์ง)์ ์ถ๋ก ํ๋๋ก ํฉ๋๋ค.
- ์คํ ์: CoT ์ถ๋ก ์ ๊ณ ์ ๋ ๊ฐ๊ฒฉ์ผ๋ก ํธ๋ฆฌ๊ฑฐ๋ฉ๋๋ค. ๋ชจ๋ธ์ ๋จผ์ ์์ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ํ๋จํ๊ณ , ์คํจ๋ก ํ๋จ๋๋ฉด ์ด๊ฐ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ ๊ทผ๋ณธ ์์ธ์ ๋ถ์ํฉ๋๋ค.
- ์์ ์ง์ ์์ฑ: ์ถ๋ก ์ถ๋ ฅ์ ๋ค์ํ ํ ์ฑ๋ถ์ ๋ช ์์ ์ผ๋ก ๋ถ์ํ๊ณ (์: โgrasping force is sufficient, but normal force is too lowโ), ๋ค์ ์๋๋ฅผ ์๋ดํ ์๋ก์ด ์์ ์ง์(์: โwipe the board again, but apply more downward forceโ)๋ฅผ ์์ฑํฉ๋๋ค.
4. ๋ฐ์ดํฐ ์์ง (Data Collection):
- ์ ํํ๊ณ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ๋ ฌ๋ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ํด Universal Manipulation Interface (UMI)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํน์ ๋ฐ์ดํฐ ์์ง ์ค์ ์ ๊ตฌ์ถํ์ต๋๋ค.
- UMI ๊ทธ๋ฆฌํผ์ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์(์ ์๋ ฅ ๋ฐ ์ ๋จ๋ ฅ ๊ฐ์ง ๊ฐ๋ฅ)๋ฅผ ์ถ๊ฐํ์ฌ ์กฐ์์๊ฐ ์ ์ด ์ญํ์ ์ง์ ๊ฐ์งํ๊ณ ํ์ ์ํด ๋ช ์์ ์ผ๋ก ์๋ด๋๋ ๋ฐ๋ชจ๋ฅผ ์ ๊ณตํ ์ ์๋๋ก ํ์ต๋๋ค.
- ์๊ฐ ๋๊ธฐํ(temporal synchronization)๋ฅผ ์ํด ๋ชจ๋ ๋ฐ์ดํฐ ์คํธ๋ฆผ์ ํ์์คํฌํ๋ฅผ ์ ๋ ฌํ์ต๋๋ค. 100Hz์ ์ด๊ฐ ํผ๋๋ฐฑ๊ณผ 20Hz์ ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ์บก์ฒํ๊ณ , ๊ณ ์ฃผํ ์ด๊ฐ ์ ํธ๋ ์๊ฐ ํ๋ ์์ ๋ง์ถฐ ๋ค์ด์ํ๋งํ์ต๋๋ค.
์คํ์ USB/์ถฉ์ ๊ธฐ ์ฝ์ ๋ฐ ์ถ์ถ, ํ์ ๊ฐ์ฒด ์ก๊ธฐ, ์น ํ ๋ฆ๊ธฐ ์ธ ๊ฐ์ง ์ ์ด์ด ๋ง์ ์กฐ์ ์์ ์ ํตํด ์ํ๋์์ต๋๋ค. Tactile-VLA๋ ๊ธฐ์กด VLA ๋ชจ๋ธ ๋๋น ์ด๊ฐ ๊ด๋ จ ์ธ์ด ์ดํด, ์์์ ํ ์ ์ฉ, ๊ทธ๋ฆฌ๊ณ ์ด๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ์ ์ ์ํ ์ถ๋ก ๋ฅ๋ ฅ์์ ๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์์์ ์ด๊ฐ ๋ฐ๋ชจ๋ง์ผ๋ก VLM์ ์ ์ฌ๋ ๋ฌผ๋ฆฌ์ ์ง์์ ํ์ฑํํ์ฌ ์ ๋ก์ท ์๋๋ฆฌ์ค์์ ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์ธ์ด๋ก โํโ์ ์กฐ์ ํ๋ ๋ก๋ด
๊ฒฐ๋ก ๋ถํฐ ๋งํ๋ฉด, ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ฃผ์ฅ์ ํ ๋ฌธ์ฅ์ผ๋ก ์์ถ๋๋ค. VLM(Vision-Language Model)์ ์ด๋ฏธ โ์ด์ดโ๊ณผ โ์ธ๊ฒโ์ ๋ฌผ๋ฆฌ์ ์ฐจ์ด๋ฅผ ์๊ณ ์๋ค. ๋จ์ง ๊ทธ ์ง์์ ์ด๊ฐ ์ผ์์ ์ฐ๊ฒฐํด์ฃผ๋ ๋ค๋ฆฌ๊ฐ ์์์ ๋ฟ์ด๋ค.
Tactile-VLA๋ ๊ทธ ๋ค๋ฆฌ๋ฅผ ๋๋๋ค. ์๊ฐยท์ธ์ดยทํ๋(VLA)์ ์ด๊ฐ(Tactile)์ ๋ค ๋ฒ์งธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๊น๊ฒ ์ตํฉํด, โUSB๋ฅผ ์ด์ด ๊ฝ์โ์ โUSB๋ฅผ ์ธ๊ฒ ๊ฝ์โ์ฒ๋ผ ๊ถค์ ์ ๊ฐ์ง๋ง ํ์ด ๋ค๋ฅธ ๋ช ๋ น์ ๊ตฌ๋ถํด ์คํํ๋ค. ๊ทธ๊ฒ๋ ์์ญ ๊ฐ ๋ฐ๋ชจ๋ง์ผ๋ก, ํ์ตํ ์ ์๋ ์์ ๊ณผ ๋ฌผ์ฒด์ ๋ํด zero-shot์ผ๋ก ์ผ๋ฐํํ๋ค.
๋ก๋ด๊ณตํ์์๊ฒ ์ด ๋ ผ๋ฌธ์ด ํฅ๋ฏธ๋ก์ด ์ด์ ๋ ๋จ์ํ๋ค. ์ฐ๋ฆฌ๋ ๊ทธ๋์ ํ ์ ์ด(force control)์ ์๋ฏธ ์ดํด(semantic reasoning)๋ฅผ ๋ณ๊ฐ์ ์ธ๊ณ๋ก ๋ค๋ค์๋ค. ์ํผ๋์ค ์ ์ด๋ ์ ์ด์ด๋ก ์ ์์ญ์ด์๊ณ , ์์ ์ถ๋ก ์ LLM์ ์์ญ์ด์๋ค. Tactile-VLA๋ ์ด ๋์ ํ๋์ end-to-end ํ์ดํ๋ผ์ธ ์์์ ๋ฌถ์ด๋ฒ๋ฆฐ๋ค. ๊ทธ ๋ฌถ๋ ๋ฐฉ์์ด ์๋ฆฌํ๋ค.
๋ ผ๋ฌธ: Tactile-VLA: Unlocking Vision-Language-Action Modelโs Physical Knowledge for Tactile Generalization (Huang et al., Tsinghua/SJTU, arXiv:2507.09160, 2025)
์๋ก : ์ VLA์ โ์ด๊ฐโ์ด ํ์ํ๊ฐ
VLA๊ฐ ์ํ๋ ๊ฒ๊ณผ ๋ชปํ๋ ๊ฒ
์ง๋ ๋ช ๋ ๊ฐ RT-1, RT-2, Octo, OpenVLA, ฯ0 ๊ฐ์ VLA ๋ชจ๋ธ๋ค์ด ๋ณด์ฌ์ค ๊ฒ์ ๋ช ํํ๋ค. ๊ฑฐ๋ํ vision-language ๋ฐฑ๋ณธ์ ๊ฐ์ ธ๋ค ์ฐ๋ฉด, ๋ก๋ด์ด ์ถ์์ ๋ช ๋ น(โ์ฌ๊ณผ๋ฅผ ์ง์ดโ)์ ํด์ํ๊ณ ์ฒ์ ๋ณด๋ ์ฅ๋ฉด์๋ ๊ทธ๋ญ์ ๋ญ ์ผ๋ฐํํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฐ๋ฐ ์ด ๋ชจ๋ธ๋ค์ ๊ณตํต๋ ์ฝ์ ์ ๊ฐ์ง๋ค. ๋ฌด์์(what)์ ํ ์ง๋ ์ ์์ง๋ง, ์ด๋ป๊ฒ(how) ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ํธ์์ฉํ ์ง๋ ๋ชจ๋ฅธ๋ค. ํนํ ์ ์ด์ด ๋ง์(contact-rich) ์์ ์์ ๊ทธ๋ ๋ค.
๋น์ ๋ฅผ ํ๋ ๋ค์ด๋ณด์. ์๊ฐ๋ง ๊ฐ์ง ๋ก๋ด์ ์๋๋ฅผ ๋ฒ์์ง๋ง ์ฅ๊ฐ์ ๋๊ป๊ฒ ๋ ์ฌ๋๊ณผ ๊ฐ๋ค. ์ปต์ด ์ด๋ ์๋์ง๋ ๋ณด์ง๋ง, ๊ทธ ์ปต์ ์ผ๋ง๋ ์ธ๊ฒ ์ฅ์ด์ผ ๊นจ์ง์ง ์๋์ง๋ ์๋์ ๊ฐ๊ฐ์ด ์์ผ๋ ์ ์ ์๋ค. ์ฌ๋์ ๋ฌด๊ฑฐ์ด ์ ๊ณต๊ณผ ์ ์ต์ ์ฉ๊ณผ(ํผํ์ผ)๋ฅผ ๊ฐ์ ์๋์์ผ๋ก ์ง์ง ์๋๋ค. ์๊ฐ๋ฝ ๋์์ โ์, ์ด๊ฑด ๋ฌผ๋ ํ๋คโ๋ผ๋ ์ ํธ๊ฐ ์ฆ๊ฐ ์ฌ๋ผ์ค๊ณ , ์ฐ๋ฆฌ๋ ๋ฌด์์์ ์ผ๋ก ํ์ ๋บ๋ค. ์ด ์ฆ๊ฐ์ ์ด๊ณ ๊ตญ์์ ์ด๋ฉฐ ์๊ฐ์ ์ผ๋ก ๋ณํ๋ ํผ๋๋ฐฑ์ด ๋ฐ๋ก ์ด๊ฐ์ด๋ค.
๊ธฐ์กด ์ ๊ทผ์ ํ๊ณ: ์ด๊ฐ์ โ๊ณ๋ค๋ฆฌโ๋ก ์ทจ๊ธํจ
์ด๊ฐ์ ๋ก๋ด ์ ์ฑ ์ ๋ฃ์ผ๋ ค๋ ์๋๋ ์ด์ ์๋ ์์๋ค(FuSe, ForceVLA ๋ฑ). ๊ทธ๋ฌ๋ ๋ ผ๋ฌธ์ ๊ธฐ์กด ์ฐ๊ตฌ ๋๋ถ๋ถ์ด ์ด๊ฐ์ ๋ณด์กฐ ์ง๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก๋ง ๋ค๋ค๋ค๊ณ ์ง์ ํ๋ค. ์ฆ, ์ด๊ฐ ์ ๋ณด๋ฅผ ์ ๋ ฅ ์ด๋๊ฐ์ ๋ผ์๋ฃ๊ธด ํ์ง๋ง, ์ ์ฑ ์ด ์ค์ ๋ก ํ๋(action)์ ์์ฑํ๋ ๊ณผ์ ์ ์ง์ ๊ฐ์ ํ์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค.
์ด๊ฒ ์ ๋ฌธ์ ์ธ๊ฐ. ์๊ฐยท์ธ์ด๋ก โ๋ฌด์์ ํ ์งโ๋ ํ๋ถํ๊ฒ ์ถ๋ก ํ๋ฉด์, ์ ์ ๊ทธ ๊ฒฐ์ ์ด โ์ผ๋ง์ ํ์ผ๋กโ ๋ ์ ๋ฟ๋ ๋จ๊ณ์์๋ ์ด๊ฐ์ด ์์ฌ๊ฒฐ์ ์์ ๋น ์ ธ๋ฒ๋ฆฐ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฑ ์ ์ถ๋ ฅ์ ์ฌ์ ํ ์์น(position) ์ค์ฌ์ด๊ณ , ํ(force)์ ๊ทธ๋ฅ ๋ฐ๋ผ์ค๋ ๋ถ์ฐ๋ฌผ์ด ๋๋ค.
์ด ๋ ผ๋ฌธ์ ํต์ฌ ํต์ฐฐ
์ฌ๊ธฐ์ ์ ์๋ค์ ๊ฐ์ฅ ๋๋ฐ์ ์ธ ๊ฐ์ค์ด ๋ฑ์ฅํ๋ค.
VLM์ ์ ์ฌ ๊ณต๊ฐ(latent space)์๋ ์ด๋ฏธ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๋ํ ํ๋ถํ ์๋ฏธ์ ์ดํด๊ฐ ๋ค์ด ์๋ค. ์ฐ๋ฆฌ๊ฐ ํ ์ผ์ ๊ทธ๊ฒ์ ์ด๊ฐ ์ผ์์ โ์ฐ๊ฒฐโํด ๊นจ์ฐ๋ ๊ฒ๋ฟ์ด๋ค.
๋ค์ ๋งํด, โ์ด์ดโ์ด๋ผ๋ ๋จ์ด๊ฐ ์์ ํ(0.5N)์ ๋์ํ๊ณ โ์ธ๊ฒโ๊ฐ ํฐ ํ์ ๋์ํ๋ค๋ ์ง์์ ๋ชจ๋ธ์๊ฒ ์ฒ์๋ถํฐ ๊ฐ๋ฅด์น ํ์๊ฐ ์๋ค. ๊ทธ ์ฐ๊ด์ฑ์ ์ธํฐ๋ท ํ ์คํธ๋ก ์ฌ์ ํ์ต๋ ์ธ์ด๋ชจ๋ธ ์์ ์ด๋ฏธ ์ ๋ค์ด ์๋ค. ์ ์ ์์ ๋ฐ๋ชจ๋ง์ผ๋ก ๊ทธ ์ ๋ ์ง์์ ํ๋ ์ถ๋ ฅ์ผ๋ก ๋์ด๋ด๋ฉด ๋๋ค. ์ด๊ฒ zero-shot ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํ ์ด์ ์ ๋ํ ์ด ๋ ผ๋ฌธ์ ์ค๋ช ์ด๋ค.
์ธ ๊ฐ์ง ๋ฅ๋ ฅ์ผ๋ก ๋ณธ ๊ธฐ์ฌ
๋ ผ๋ฌธ์ ์์ ๋ค์ ํ๋ ์์ํฌ๊ฐ ์ธ ๊ฐ์ง ๋ฅ๋ ฅ์ ์ฐ๋ค๊ณ ์ ๋ฆฌํ๋ค. ์ด ์ธ ๊ฐ์ง๊ฐ ๊ณง ์คํ์ ์ธ ์ง๋ฌธ(RQ1~RQ3)๊ณผ ์ผ๋์ผ๋ก ๋์ํ๋ค.
| ๋ฅ๋ ฅ | ๋ฌด์์ ์๋ฏธํ๋ | ์์ |
|---|---|---|
| (a) Tactile-Aware Instruction Following | ํ ๊ด๋ จ ๋ถ์ฌ(โ์ด์ดโ, โ์ธ๊ฒโ)์ ์๋ฏธ๋ฅผ ํ ์์ ์์ ๋ฐฐ์ ๋ค๋ฅธ ์์ ์ ์ ์ด | USB์์ ๋ฐฐ์ด โsoftlyโ๋ฅผ ์ถฉ์ ๊ธฐ ์์ ์ zero-shot ์ ์ฉ |
| (b) Tactile-Relevant Common Sense | ๋ฌผ์ฒด ์์ฑ์ ๋ํ ์์์ผ๋ก ๋ช ์์ ํ ๋ช ๋ น ์์ด๋ ์ ์ ํ ๊ทธ๋ฆฝ ํ ์ ํ | ์ฒ์ ๋ณด๋ ์ฉ๊ณผ๋ ์๋์ผ๋ก ์ด์ด, ์ ๊ณต์ ๊ฝ |
| (c) Adaptive Tactile-Involved Reasoning | ์ด๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์คํจ๋ฅผ ์ง๋จํ๊ณ ์ค์ค๋ก ์ ๋ต ์์ | ์น ํ ๋ฆ๊ธฐ ์คํจ ํ ์ถ๋ก ์ผ๋ก ํ์ ํค์ ์ฌ์๋ |
ํต์ฌ ๊ธฐ์ฌ๋ฅผ ์ ๋ฆฌํ๋ฉด ์ ์ด๋ค. ์ฒซ์งธ, ์ด๊ฐ์ VLA์ ๋ค์ดํฐ๋ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๊น๊ฒ ์ตํฉํ๋ ์ํคํ ์ฒ(Tactile-VLA). ๋์งธ, ์ค์๊ฐ ํ ํผ๋๋ฐฑ์ CoT(Chain-of-Thought)๋ก ํด์ํด ์คํจ์ ์ ์์ ์ผ๋ก ์ฌ๊ณํํ๋ ๋ณํ(Tactile-VLA-CoT). ์ ์งธ, zero-shotยทcross-objectยทforce-sensitive ์ค์ ์์ ํ์ค VLA ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐํ๋ ์ผ๋ฐํ ์ค์ฆ.
๋ฐฉ๋ฒ: ๋ค ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ด๋ป๊ฒ ํ ๊ทธ๋ฆ์ ๋ด๋๊ฐ
์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๋จผ์ ๊ทธ๋ฆผ์ผ๋ก ๋ณด์. ์ ๋ ฅ์ ๋ค ๊ฐ๋(์๊ฐ, ์ธ์ด, ์ด๊ฐ, ๊ณ ์ ์์ฉ๊ฐ๊ฐ)๋ก ๋ค์ด์ค๊ณ , ์ฌ์ ํ์ต VLM์์ ์ตํฉ๋ ๋ค, action expert๊ฐ ์์น์ ํ์ ๋์์ ๋ฑ์ด๋ด๊ณ , ํ์ด๋ธ๋ฆฌ๋ ์ปจํธ๋กค๋ฌ๊ฐ ์ด๋ฅผ ์ค์ ๊ด์ ์์ง์์ผ๋ก ๋ฒ์ญํ๋ค.
1) ์ ์ฑ ์ํคํ ์ฒ: ํ ํฐ ๋ ๋ฒจ์์ ์์ด๋ผ
๊ฐ์ฅ ์ค์ํ ์ค๊ณ ๊ฒฐ์ ์ token-level fusion์ด๋ค. ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ฐ๋ก ์ธ์ฝ๋ฉํ ๋ค, ํธ๋์คํฌ๋จธ ๋ฐฑ๋ณธ์ ์ ๋ ฅ prefix ์์์ ํ๋๋ก ์๋๋ค.
์ ์ด๊ฒ ์ค์ํ๊ฐ. ๋ง์ฝ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋ง์ง๋ง ๋จ๊ณ์์ ์์น ์ถ๋ ฅ์ ๋ํด์ฃผ๋ ์์ผ๋ก โ์๊ฒโ ๋ถ์๋ค๋ฉด, ๋ชจ๋ธ์ ์ด๊ฐ๊ณผ ์ธ์ด๋ฅผ ํจ๊ป ๊ณ ๋ คํ๋ ์ถ๋ก ์ ํ ์ ์๋ค. ํ ํฐ ๋ ๋ฒจ์์ ์์ด์ผ โ์ด ์น ํ์ ๋ถํ์ด๋ผ ๋ง์ฐฐ์ด ํฌ๋๊น ๋ ๋๋ฌ์ผ๊ฒ ๋คโ ๊ฐ์ ๊ต์ฐจ ์ถ๋ก ์ด ๊ฐ๋ฅํด์ง๋ค. ํนํ ๋ค์ ๋์ฌ CoT ๋ณํ์ด ์๋ํ๋ ค๋ฉด ์ด ๊น์ ์ตํฉ์ด ํ์๋ค.
๋ชจ๋ฌ๋ฆฌํฐ๋ณ ์ธ์ฝ๋๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์๊ฐ: ์ฌ์ ํ์ต๋ ViT ์ธ์ฝ๋(ฯ0์ ๋์ผ ๋ฐฉ์). ์ต๊ทผ H๊ฐ ํ๋ ์์ ๊ฐ๊ฐ ํ ํฐ ์งํฉ์ผ๋ก ์ธ์ฝ๋ฉ.
- ์ด๊ฐ: ๋จ์ํ MLP ์ธ์ฝ๋. H๊ฐ์ ์ด๊ฐ ์ธก์ ๊ฐ ์ด๋ ฅ์ ์ด์ด๋ถ์ฌ(concatenate) ํ๋์ ์ตํฉ ํ ํฐ์ผ๋ก ์์ถ. ์ด ํ ํฐ์ด ์ ์ด์ ์๊ฐ์ ๋์ญํ์ ๋ด๋๋ค.
- ์ธ์ด: ์ผ๋ฐ์ ์ธ language tokenizer.
์ด๋ ๊ฒ ๋ง๋ ํ ํฐ๋ค์ ์ด์ด๋ถ์ฌ ํตํฉ ์ ๋ ฅ prefix ์ํ์ค S_t๋ฅผ ๋ง๋ ๋ค.
S_t = \left[ E'_{vis}(I_{t-H+1}), \dots, E'_{vis}(I_t),\; E_{lang}(L_t),\; E'_{\psi}([T_{t-H+1}, \dots, T_t]) \right]
์ฌ๊ธฐ์ ํต์ฌ์ prefix ์์ non-causal attention(์๋ฐฉํฅ ์ดํ ์ )์ ๊ฑด๋ค๋ ์ ์ด๋ค. ์ธ๊ณผ์ (causal) ๋ง์คํน์ ํ์ด์ฃผ๋ฉด ์๊ฐยท์ธ์ดยท์ด๊ฐ ํ ํฐ์ด ์๋ก ์์ ๋กญ๊ฒ cross-attend ํ๋ค. ์ง๊ด์ ์ผ๋ก ๋งํ๋ฉด, โ๋ถํโ์ด๋ผ๋ ์ธ์ด ํ ํฐ๊ณผ โ๋ง์ฐฐ๋ ฅ์ด ํฌ๋คโ๋ ์ด๊ฐ ํ ํฐ์ด ์๋ก๋ฅผ ๋ค์ฌ๋ค๋ณด๋ฉด์ ํ๋์ ํตํฉ๋ ํํ์ ๋ง๋ ๋ค๋ ๋ป์ด๋ค.
์ด ํ๋ถํ ํํ์ tactile-aware action expert(300M ํ๋ผ๋ฏธํฐ)๋ก ๋์ด๊ฐ๋ค. ์ฌ๊ธฐ๊ฐ ๋ณดํต์ VLA์ ๊ฒฐ์ ์ ์ผ๋ก ๋ค๋ฅธ ์ง์ ์ด๋ค. action expert๊ฐ ๋ด๋๋ ํ๋ ๋ฒกํฐ a_t๋ ๋ชฉํ ์์น P_{target}๋ฟ ์๋๋ผ ๋ชฉํ ์ ์ด๋ ฅ F_{target}์ ๋ช ์์ ์ผ๋ก ํฌํจํ๋ค.
Standard VLA action: a_t = [ P_target ]
Tactile-VLA action: a_t = [ P_target , F_target ]
ํ์ ํ๋ ๊ณต๊ฐ(action space)์ ์ง์ ๋ฃ์๋ค๋ ๊ฒ, ์ด๊ฒ์ด โ์ธ์ด๊ฐ ํ๋์ ๊ฐ๋๋ฅผ ์กฐ์ โํ ์ ์๊ฒ ๋ง๋๋ ๊ตฌ์กฐ์ ์ด์ ๋ค.
2) ํ์ต: Flow Matching์ผ๋ก ์์น์ ํ์ ํจ๊ป ๋ง์ถ๋ค
ํ์ต์ imitation learning์ผ๋ก ์งํ๋๋ค. ๊ณต์ ์ปดํฌ๋ํธ๋ ฯ0์ ์ฌ์ ํ์ต ํ๋ผ๋ฏธํฐ๋ก ์ด๊ธฐํํ๊ณ , ์๋ก ์ถ๊ฐํ ๋ชจ๋(์ด๊ฐ ์ธ์ฝ๋, ์์ ๋ action expert)์ ๋ฌด์์ ์ด๊ธฐํํ ๋ค ์ ์ฒด๋ฅผ end-to-end๋ก ํ์ธํ๋ํ๋ค.
๋ชฉ์ ํจ์๋ Conditional Flow Matching(CFM)์ด๋ค. Flow matching์ ์ฒ์ ๋ฃ๋ ๋ ์๋ฅผ ์ํด ์ง๊ด์ ํ์ด๋ณด์.
ํ์ฐ ๋ชจ๋ธ(diffusion)์ด โ๋ ธ์ด์ฆ๋ฅผ ์กฐ๊ธ์ฉ ๊ฑท์ด๋ด๋ฉฐ ๋ฐ์ดํฐ๋ก ๊ฐ๋ ๊ธธโ์ ๋ฐฐ์ด๋ค๋ฉด, flow matching์ โ๋ ธ์ด์ฆ ๋ถํฌ์์ ๋ฐ์ดํฐ ๋ถํฌ๋ก ๊ฐ๋ ์ง์ ์ ๊ฐ๊น์ด ํ๋ฆ์ ์๋์ฅ(velocity field)โ์ ๋ฐฐ์ด๋ค. ๋น์ ํ๋ฉด, ๊ฐ๋ฌผ ์ ์ด๋ ์ง์ ์ ๋จ์ด๋จ๋ฆฐ ๋๋ญ์์ด ์ด๋ ๋ฐฉํฅ์ผ๋ก ์ผ๋ง๋ ๋นจ๋ฆฌ ํ๋ฌ๊ฐ์ผ ๋ชฉ์ ์ง(์ ๋ต ํ๋)์ ๋๋ฌํ๋์ง, ๊ทธ ํ์ดํ๋ฅผ ๋ชจ๋ ์ง์ ์์ ์์ธกํ๋๋ก ํ๋ จํ๋ ๊ฒ์ด๋ค. ์ถ๋ก ์์๋ ์ด ํ์ดํ๋ฅผ ๋ฐ๋ผ ์ ๋ถํด ํ๋์ ์์ฑํ๋ค. ํ์ฐ๋ณด๋ค ์ ์ ์คํ ์ผ๋ก ๋ถ๋๋ฌ์ด ์ฐ์ ํ๋์ ๋ฝ์ ์ ์์ด ๋ก๋ด ์ ์ด์ ์ ๋ง๋๋ค.
์ฌ๊ธฐ์ ์ค์ํ ๋ํ ์ผ. ์์คํจ์๋ ์์ธก๋ ํ๋ ์ํ์ค์ ์ด๋ํ์ ์ฐจ์(์์น)๊ณผ ํ ์ฐจ์ ๋ชจ๋์ ํธ์ฐจ์ ํ๋ํฐ๋ฅผ ์ค๋ค. ์ฆ ์์น๋ง ๋ง์ถ๋ ๊ฒ ์๋๋ผ ํ๋ ์ ๋ต๊ณผ ๋ง๋๋ก ํ์ตํ๋ค. ๋ฐ๋ก ์ด ๋ฉ์ปค๋์ฆ์ด ๋ชจ๋ธ๋ก ํ์ฌ๊ธ VLM์ ์ ์ฌ๋ ๋ฌผ๋ฆฌ ์ง์์ ๋์ด๋ด, โgentlyโ๋ผ๋ ์ธ์ด์ ๋์์ค์ 0.5N์ด๋ผ๋ ๋ฌผ๋ฆฌ์ ํ ํฌ๊ธฐ ์ฌ์ด์ ์ง์ ๋งคํ์ ๋ง๋ค๋๋ก ๊ฐ์ ํ๋ค.
3) ํ์ด๋ธ๋ฆฌ๋ ์์น-ํ ์ปจํธ๋กค๋ฌ: ๋ ๋ชฉํ๋ฅผ ์ด๋ป๊ฒ ํํด์ํค๋
action expert๊ฐ ๋ชฉํ ์์น์ ๋ชฉํ ํ์ ์คฌ๋ค๊ณ ๋์ด ์๋๋ค. ์ ์์ค ์ปจํธ๋กค๋ฌ๊ฐ ์ด ๋ ๋ชฉํ๋ฅผ ์กฐ์จํด์ผ ํ๋ค. ๋ฌธ์ ๋ ์์น ์ ์ด์ ํ ์ ์ด๊ฐ ๋ณธ์ง์ ์ผ๋ก ์ถฉ๋ํ๋ค๋ ๋ฐ ์๋ค. ๋จ๋จํ ๋ฒฝ์ ์์ ์ ํํ โ์ด ์์นโ์ ๋๋ ค ํ๋ฉด์ ๋์์ โ์ด ํโ์ผ๋ก ๋๋ฅด๋ ค ํ๋ฉด, ์์น๋ฅผ 1mm๋ง ์ด๊ธ๋๋ ํ์ ํญ๋ฐํ๋ค.
์ ์๋ค์ ์ ๋ต์ position-dominant๋ค. ๋๋ถ๋ถ์ ์กฐ์ ์์ ์ ์ ๋ฐํ ์ด๋ํ์ ๋์์ด ์ง๋ฐฐํ๊ณ , ํ ์ ์ด๋ ์ ์ด ์๊ฐ์๋ง ํ์ํ๋ค๋ ๊ณ ์ ์ ํต์ฐฐ(Raibert & Craig, 1981)์ ๋ฐ๋ฅธ๋ค. ๊ทธ๋์ ๋ชจ๋ ๊ฒ์ ์ต์ข ์ ์ผ๋ก ์์น ๋ช ๋ น์ผ๋ก ํ์ํ๋ค.
ํ ๋ชฉํ๋ ์ํผ๋์ค ์ ์ด ์๋ฆฌ(Hogan, 1985)์์ ์๊ฐ์ ๋ฐ์ ๊ฐ์ ํ ์ ์ด๋ก ํตํฉํ๋ค. ํ ์ค์ฐจ๋ฅผ ์์น ๋ช ๋ น์ ๋ณด์ ๋์ผ๋ก ๋ฒ์ญํ๋ ๊ฒ์ด๋ค.
\Delta F = F_{target} - F_{measured}
P_{hybrid} = \begin{cases} P_{target} + K \cdot \Delta F & \text{if } \lVert \Delta F \rVert > \tau \\[4pt] P_{target} & \text{if } \lVert \Delta F \rVert \le \tau \end{cases}
์ฌ๊ธฐ์ K๋ ๊ฒ์ธ ํ๋ ฌ, \tau๋ ์๊ณ๊ฐ์ด๋ค. ๊ทธ๋ฆฌ๊ณ PID ์ปจํธ๋กค๋ฌ๊ฐ ์ด ๋์ ์ผ๋ก ๊ฐฑ์ ๋ P_{hybrid}๋ก ๊ด์ ์ ๊ตฌ๋ํ๋ค.
์ด ์์ ์ง๊ด์ ์ด๋ ๋ค. โ์ํ๋ ํ๋ณด๋ค ๋ ๋๋ฅด๊ณ ์์ผ๋ฉด(ฮF๊ฐ ์์๋ก ํฌ๋ฉด) ๋ชฉํ ์์น๋ฅผ ์ ์ด๋ฉด ์ชฝ์ผ๋ก ๋ ๋ฐ์ด๋ฃ์ด๋ผ.โ ๋ง์น ๋ฒฝ์ ์์ผ๋ก ๋ฏธ๋๋ฐ ์ถฉ๋ถํ ์ ๋๋ฆฌ๋ฉด, ์์ ๋ฒฝ ์์ชฝ์ผ๋ก ๋ ๋ณด๋ด๋ ค๋ ์๋์ ํ๋ ๊ฒ๊ณผ ๊ฐ๋ค. ๋ฌผ๋ฆฌ์ ์ผ๋ก๋ ๋ชป ๋ค์ด๊ฐ๋ ๊ทธ๋งํผ ํ์ด ์ฌ๋ผ๊ฐ๋ค. ๋จ, ์ค์ฐจ๊ฐ ์๊ณ๊ฐ \tau ์ดํ๋ก ์์ผ๋ฉด ๋ณด์ ์ ๋๋๋ฐ(dead-band), ์ด๊ฑด ๋ฏธ์ธํ ๋จ๋ฆผ์ ๋ง์ ๋์์ ๋ถ๋๋ฝ๊ฒ ๋ง๋ค๊ธฐ ์ํจ์ด๋ค.
๊ณ ์ ์ ์ํผ๋์ค ์ ์ด๊ฐ ์๋์ ์์(passive compliance, ๋ฐ๋ฉด ๋ถ๋๋ฝ๊ฒ ๋ฐ๋ ค๋จ)์ ๋ชฉํ๋ก ํ๋ค๋ฉด, ์ฌ๊ธฐ์๋ ๋ชฉํ ํ์ ๋ฅ๋์ ์ถ์ข (active force tracking)์ ๋ ธ๋ฆฐ๋ค๋ ์ฐจ์ด๊ฐ ์๋ค.
ํ ๊ฐ์ง ๋ ์๋ฆฌํ ๋ถ๋ฆฌ. ์ปจํธ๋กค๋ฌ๋ ๋ ํ ์ฑ๋ถ์ ๋ ๋ฆฝ ์ฑ๋๋ก ๋ผ์ด๋ธ๋ค.
- ๊ทธ๋ฆฌํผ์ ์นดํ ์์ ์์น โ ๋ฌผ์ฒด์ ๊ฐํ๋ ์ธ๋ถ ์์งํ(net external force) ์กฐ์
- ๊ทธ๋ฆฌํผ ํญ(width) โ ๋ด๋ถ ํ์ง๋ ฅ(internal grasping force) ์กฐ์ , ์ฆ ์ผ๋ง๋ ๊ฝ ์ฅ๋๊ฐ
์ด ๋ถ๋ฆฌ ๋๋ถ์ โ์ฉ๊ณผ๋ฅผ ์ด์ด ์ฅ๋ฉด์(ํญ์ ๋๊ฒ ์ ์ง) ๋์์ ์๋ก ๋ค์ด์ฌ๋ฆฌ๋(์์น๋ก ์ธ๋ ฅ ์กฐ์ )โ ๋์์ด ์ถฉ๋ ์์ด ๊ฐ๋ฅํด์ง๋ค.
4) Tactile-VLA-CoT: ์๋์ผ๋ก ์๊ฐํ๊ธฐ
์ฌ๊ธฐ๊ฐ ์ด ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ๋งค๋ ฅ์ ์ธ ๋ถ๋ถ์ด๋ค. ํต์ฌ ์ํคํ ์ฒ๊ฐ ํ์ ์ ๋ฐ ์ ์ดํ๋ค๋ฉด, CoT ๋ณํ์ ๊ทธ ์์ ์ถ๋ก ์ ์น๋๋ค.
์์ด๋์ด๋ ์ด๋ ๋ค. VLM์ ์๋ ๋์ฝ๋๋ก ํ ์คํธ๋ฅผ ์์ฑํ ์ค ์๋ค. ๊ทธ ๋ฅ๋ ฅ์ ๊ทธ๋๋ก ๊ฐ์ ธ์, ๋ก๋ด์ด ๋ด์ ๋ ๋ฐฑ(internal monologue)์ ์์ฑํ๊ฒ ํ๋ค. ์คํจ์ ์์ธ์ ์ค์ค๋ก ์ง๋จํ๊ณ (โ๋ฏธ๋๋ฌ์ก๋คโ), ๋ณด์ ํ๋์ ์ ์ํํ๋ค(โ์ ๋จ๋ ฅ์ ๋ ํค์์ผ๊ฒ ๋คโ).
์๋ ๊ณผ์ ์ ๊ทธ๋ฆผ์ผ๋ก ๋ณด์.
flowchart TD
S["Execute action<br/>(default force)"] --> Q1{"Q: Task done?<br/>(periodic check)"}
Q1 -->|Yes| DONE["Task complete"]
Q1 -->|"No, still marks remain"| ANALYZE["Analyze tactile feedback<br/>(normal force / shear force)"]
ANALYZE --> REASON["CoT reasoning:<br/>'grasping force OK,<br/>but shear force too low'"]
REASON --> NEWCMD["Generate corrective instruction:<br/>'wipe again, more downward force'"]
NEWCMD --> S
ํ์ต ๋ฐฉ์์ด ๋๋ํ๋ค. ์๊ณ ํ์ ํ๋ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ์ ์ด๋ค. ๊ฐ ์ํ์ ํน์ ์คํจ ์ฌ๊ฑด(์: ์น ํ์ ๋ฆ๋ค๊ฐ ๋ฏธ๋๋ฌ์ง)์ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ ์คํธ๋ฆผ๊ณผ, ๊ทธ ์คํจ ์์ธ์ ๋ถ์ํ๋ ์ธ์ด ์ฃผ์์ ์ง์ง์ด๋ค. ์: โํ์ด ๋๋ฌด ์ฝํ๋ค. ๋ ์ผ ํ์ด ํ์ํ๋ค. ์ด์ 5N์ผ๋ก ์๋ํ๋ค.โ
์ด ํ์ต์ ๋ ๊ฐ์ง๋ฅผ ๋์์ ๋ ธ๋ฆฐ๋ค.
- catastrophic forgetting ๋ฐฉ์ง: VLM ๋ณธ์ฐ์ ์ผ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ค.
- ์ถ๋ก ์ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅ: ์ผ์ ์ ํธ๋ก๋ถํฐ ๋ฌผ๋ฆฌ ํ์์ ์ถ๋ก ํ๋๋ก ๊ฐ๋ฅด์น๋ค. ๋ฆ์ ๋ ํํฅ ์๋ ฅ์ด ๋ถ์กฑํ๋ค๊ฑฐ๋, ์ ๋จ๋ ฅ ์ ํธ๋ก๋ถํฐ ๋๊ตฌ๊ฐ ๋ฏธ๋๋ฌ์ง๊ณ ์๋ค๋ ๊ฒ์ ๊ฐ์งํ๋ ์์ด๋ค.
์ถ๋ก ์ ๊ณ ์ ๋ ๊ฐ๊ฒฉ๋ง๋ค ํธ๋ฆฌ๊ฑฐ๋๋ค. ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ๋ฐฉ์์ด๋ค. ํ๋กฌํํธ ๊ตฌ์กฐ๋ ๋จผ์ โ์์ ์ด ์ฑ๊ณตํ๋?โ๋ฅผ ํ๋จํ๊ฒ ํ๊ณ , ์คํจ๋ผ๋ฉด ์ผ์ ํผ๋๋ฐฑ์ผ๋ก ์์ธ์ ๋ถ์ํ๊ฒ ํ ๋ค(โํ์ง๋ ฅ์ ์ถฉ๋ถํ๋ ์์งํญ๋ ฅ์ด ๋๋ฌด ๋ฎ๋คโ), ์ ๋ณด์ ๋ช ๋ น(โํ์ ๋ค์ ๋ฆ๋ ํํฅ ํ์ ๋ ์ค๋ผโ)์ ์์ฑํ๋ค.
์์ฌ์ฝ๋๋ก ์ ๋ฆฌํ๋ฉด:
PROCEDURE TactileVLA_CoT_Step:
every K timesteps:
success <- VLM_decode("Has the task been done?", sensory_context)
IF success == False:
cause <- VLM_decode("Analyze failure using force feedback", sensory_context)
# e.g. "normal force sufficient, shear force too low"
new_instruction <- VLM_decode("Formulate corrective command", cause)
# e.g. "wipe again with larger shear force"
current_instruction <- new_instruction
action <- Policy(prefix(image, current_instruction, tactile, state))
execute(HybridController(action.P_target, action.F_target))
5) ๋ฐ์ดํฐ ์์ง: ์ ๋์ ์๊ฐ๋ฝ ๊ฐ๊ฐ์ด ์๋ ์ฅ์น
์ข์ ๋ชจ๋ธ์ ์ข์ ๋ฐ์ดํฐ์์ ๋์จ๋ค. ๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ๋ฏธ๋ฌํ ํจ์ ์ด ์๋ค. ์ผ๋ฐ์ ์ธ ์๊ฒฉ์กฐ์(teleoperation)์ผ๋ก ๋ฐ๋ชจ๋ฅผ ๋ชจ์ผ๋ฉด, ์ฌ๋ ์กฐ์์๊ฐ ํ ํผ๋๋ฐฑ์ ์ง์ ๋ชป ๋๋๋ค. ๊ทธ๋ ๊ฒ ๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ ์ ๋ณธ์ง์ ์ผ๋ก ์ด๊ฐ์ ์์กดํ์ง ์๊ฒ ๋๋ค. ํ์ต ๋ชฉํ ์์ฒด์ ์ด๊ธ๋๋ ๊ฒ์ด๋ค.
์ ์๋ค์ ์ด ๋ฌธ์ ๋ฅผ ๋ฐ์ดํฐ ์์ง ์ฅ์น ์ค๊ณ๋ก ํผ๋ค. UMI(Universal Manipulation Interface)๋ผ๋ ํด๋ํ ํธ๋ํฌ๋ ์ฅ์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ๊ทธ๋ฆฌํผ์ ๋ฒ์ ๋ ฅ(normal force)๊ณผ ์ ๋จ๋ ฅ(shear force)์ ๋ชจ๋ ์ก์๋ด๋ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์ ๋ ๊ฐ๋ฅผ ์ฆ์คํ๋ค. ์ด๋ฌ๋ฉด ์กฐ์์๊ฐ ์ ์ด ๋์ญํ์ ์ง์ ๋๋ผ๋ฉด์, ํ์ ์ํด ๋ช ์์ ์ผ๋ก ๊ฐ์ด๋๋ ๋ฐ๋ชจ๋ฅผ ์ ๊ณตํ ์ ์๋ค.
Data collection rig:
- GoPro camera (visual)
- Dual high-res tactile sensors (normal + shear)
- 3D-printed gripper (UMI-based)
Sampling:
- Tactile: 100 Hz --> downsampled to match
- Visual: 20 Hz
- Timestamps aligned per session
์๊ฐ ๋๊ธฐํ๋ ์ ๊ฒฝ ์ผ๋ค. ์ธ์ ๋ง๋ค ๋ชจ๋ ๋ฐ์ดํฐ ์คํธ๋ฆผ์ ํ์์คํฌํ๋ฅผ ์ ๋ ฌํ๊ณ , 100Hz ์ด๊ฐ์ 20Hz ์๊ฐ ํ๋ ์์ ๋ง์ถฐ ๋ค์ด์ํ๋งํ๋ค. ๊ฒฐ๊ณผ๋ฌผ์ด visionยทlanguageยทtactileยทaction์ด ์ ๋ฐํ๊ฒ ๋๊ธฐํ๋ VLA-T ๋ฐ์ดํฐ์ ์ด๋ค.
์คํ: ์ธ ๊ฐ์ง ์ง๋ฌธ์ ๋ตํ๊ธฐ
์คํ์ ์ธ ์ฐ๊ตฌ์ง๋ฌธ(RQ)์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์์ ์ ์ธ ๊ฐ์ง contact-rich ์๋๋ฆฌ์ค๋ค.
- Charger/USB ์ฝ์ ยท์ถ์ถ: USB๋ ์ถฉ์ ๊ธฐ๋ฅผ ๋ฝ์ ์ฌ๋ฐ๋ฅธ ์์ผ์ ๊ฝ๊ธฐ
- Tabletop Grasping: ๋ฌด๊ฑฐ์ด/์ฝํ ๋ฌผ์ฒด๋ฅผ ์ฌ์ ์ ํ๋จํด ์ ์ ํ ํ์ผ๋ก ํ์ง
- Wiping the Board: ๋ณด๋๋ฅผ ๋ฆ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๊ณ , ํ์ํ๋ฉด ํ์ ์กฐ์
๋ฒ ์ด์ค๋ผ์ธ์ ฯ0-base(๋ฒ์ฉ VLA flow ๋ชจ๋ธ)์ ๊ทธ ๋ณํ ฯ0-fast๋ค. ๋ ๋ค ์ด๊ฐ ์ตํฉ ์ํคํ ์ฒ๊ฐ ์๋ค.
RQ1: ํ ๊ด๋ จ ์ธ์ด๋ฅผ ์ผ๋ฐํํ ์ ์๋๊ฐ
์ค๊ณ๊ฐ ์๋ฆฌํ๋ค. ๋ชจ๋ธ์ USB ์์ (Task A)์์ โsoftlyโ/โhardโ์ ํน์ ํ ํ๋กํ์ผ์ ์ฐ๊ด์ง๋๋ก ํ์ต์ํจ๋ค. ๊ทธ๋ฐ ๋ค์ ์ถฉ์ ๊ธฐ ์์ (Task B)์ผ๋ก ์ ์ดํ๋๋ฐ, Task B์๋ ๋์๋ง ๊ฐ๋ฅด์น๊ณ ํ ๊ด๋ จ ์ธ์ด ๋ช ๋ น์ ์ ํ ์ฃผ์ง ์๋๋ค. ์ด๊ฒ ์ง์ง ์๋ฏธ ์ ์ง(semantic grounding)๋ฅผ ํ ์คํธํ๋ค. ์ธ์ด๊ฐ zero-shot ๋งฅ๋ฝ์์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์ง์ ์กฐ์ ํ๋์ง ๋ณด๋ ๊ฒ์ด๋ค.
๋จผ์ ์ฑ๊ณต๋ฅ ๋ถํฐ.
Table 1. USB/Charger ์ฝ์ ยท์ถ์ถ ์ฑ๊ณต๋ฅ (%)
| Model | USB (%) | Charger (%) |
|---|---|---|
| ฯ0-base | 5 | 40 |
| ฯ0-fast | 0 | 25 |
| Tactile-VLA | 35 | 90 |
์ฑ๊ณต๋ฅ ๋ง ๋ด๋ ์ฐจ์ด๊ฐ ํฌ๋ค. ์ ๋ฐํ ์ฝ์ ์ ์ ๋ ฌ ์ค์ฐจ๋ ๊ณผ๋ํ ํ์ผ๋ก ์คํจํ๊ธฐ ์ฌ์ด๋ฐ, ์ด๊ฐ ํผ๋๋ฐฑ์ ๊น์ ์ตํฉ์ด ์ ์ด ๊ตญ๋ฉด์์ ๋ ์ ๋ฐํ๊ณ ์ ์์ ์ธ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
ํ์ง๋ง ์ง์ง ์ฆ๊ฑฐ๋ ์ ์ฉ๋ ํ์ ์๋ค.
Table 2. ๋ช ๋ น์ด๋ณ ์ ์ฉ ํ (N)
| Model | โsoftlyโ (USB, ํ์ต) | โhardโ (USB, ํ์ต) | โgentlyโ (์ผ๋ฐํ) | โfirmlyโ (์ผ๋ฐํ) | โharderโ (์ธ์ฝ) | โsoftlyโ (Charger, zero-shot) | โhardโ (Charger, zero-shot) |
|---|---|---|---|---|---|---|---|
| ฯ0 | 2.41 | 2.68 | 2.35 | 2.72 | 2.29 | 6.61 | 5.69 |
| ฯ0-fast | 2.61 | 2.33 | 2.79 | 2.45 | 2.58 | 7.37 | 6.42 |
| Tactile-VLA | 0.51 | 2.57 | 0.75 | 1.98 | 2.94 | 4.68 | 9.13 |
์ด ํ๋ฅผ ์ฒ์ฒํ ์ฝ์ด๋ณด์. ์ธ ๊ฐ์ง ๋จ๊ณ์ ์ผ๋ฐํ๊ฐ ํ ํ์ ๋ด๊ฒจ ์๋ค.
- ํ์ตํ ๋จ์ด: โsoftlyโ=0.51N, โhardโ=2.57N. ํ์ตํ ๋๋ก ๋ช ํํ ๊ตฌ๋ถํ๋ค.
- ์ผ๋ฐํํ ๋จ์ด: ํ์ต ์ ํ โgentlyโ=0.75N, โfirmlyโ=1.98N. ์๋ฏธ์ ์ผ๋ก ์ค๊ฐ์ฏค ๋๋ ํ์ ์ ํํ ์ถ๋ก ํ๋ค. ๋ถ์ฌ๋ค์ ๊ฐ๋ ์คํํธ๋ผ์ ์ดํดํ ๊ฒ์ด๋ค.
- ํ์ต ๋ฒ์ ๋ฐ ์ธ์ฝ: โharderโ=2.94N. ํ์ต๋ โhardโ(2.57N)๋ณด๋ค ๋ ํฐ ํ์ ์ ์ฉํ๋ค. ๋น๊ต๊ธ์ ์๋ฏธ๊น์ง ์ธ์ฝํ๋ค.
- zero-shot ์์ ์ ์ด: ์ถฉ์ ๊ธฐ ์์ ์์ โhardโ=9.13N, โsoftlyโ=4.68N. USB์์ ๋ฐฐ์ด ํ-์ธ์ด ๋งคํ์ด ์ฒ์ ๋ณด๋ ์ถฉ์ ๊ธฐ ์์ ์ผ๋ก ์ ์ด๋๋ค.
๋ฐ๋ฉด ๋ฒ ์ด์ค๋ผ์ธ ฯ0/ฯ0-fast๋ ๋ถ์ฌ๊ฐ ๋ฌด์์ด๋ ํ์ด ๊ฑฐ์ ์ผ์ ํ๋ค(2.3~2.8N ์ฌ์ด). ์ธ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ํ์ ์ ์งํ ๋ฉ์ปค๋์ฆ์ด ์์ผ๋, ๋ช ๋ น๊ณผ ์ ์ฉ ํ ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์์ ์๋ค. ์ถฉ์ ๊ธฐ ์์ ์์๋ ๊ฐ์ด ๋ค์ญ๋ ์ญ 6~7N๋๋ก ํ๋๋ฐ, ์ด๊ฑด ์๋ฏธ ์ดํด๊ฐ ์๋๋ผ ๋จ์ํ ์ ์ด ๋ถ์์ ์ ๊ฐ๊น๋ค.
์ด ๊ฒฐ๊ณผ์ ํจ์๋ ๋ถ๋ช ํ๋ค. ๋ถ์ฌ ํ๋๊ฐ ์ฐ์์ ์ธ ํ ๊ฐ์ผ๋ก ๋งค๋๋ฝ๊ฒ ๋งคํ๋๊ณ , ๊ทธ ๋งคํ์ด ์์ ์ ๊ฑด๋๋ฐ์ด ์ ์ด๋๋ค๋ ๊ฒ์, ๋ชจ๋ธ์ด ๋จ์ด๋ฅผ ์ธ์ด ๊ฒ ์๋๋ผ ์ธ์ด-ํ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ต์ฐจ๋ชจ๋ฌ ์ดํด๋ฅผ ํ์ตํ๋ค๋ ์ฆ๊ฑฐ๋ค.
RQ2: ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด์ ์ ์ ํ ํ์ ์ถ๋ก ํ๋๊ฐ
์ด๋ฒ์ ๋ช ์์ ํ ๋ช ๋ น ์์ด, ๋ฌผ์ฒด์ ์์ฑ๋ง ๋ณด๊ณ ํ์ ์ ํ๋ ์์(common sense)์ ํ ์คํธํ๋ค. ๋ฌผ์ฒด๋ฅผ ์ธ ๋ฒ์ฃผ๋ก ๋๋๋ค.
- Solid & Heavy(๋จ๋จยท๋ฌด๊ฑฐ์): ๊ฝ ์ก์์ผ ํจ
- Solid & Light(๋จ๋จยท๊ฐ๋ฒผ์): ์ค๊ฐ ํ
- Fragile & Light(์ฝํจยท๊ฐ๋ฒผ์): ์ด์ด ์ก์์ผ ํจ (๋ณํ ์์ด)
ID(in-domain, ํ์ต ์ค ๋ด)์ OOD(out-of-domain, ์ฒ์ ๋ด) ๋ฌผ์ฒด๋ก ํ๊ฐํ๋ค. ์ฑ๊ณต์ ๋ณํ ์์ด ํ ๋ฒ์ ๋ค์ด์ฌ๋ฆฌ๋ ๊ฒ.
Table 3. ๋ฌผ์ฒด๋ณ ํ์ง ์ฑ๊ณต๋ฅ (%, 10ํ ์๋ ๊ธฐ์ค)
| ๋ฒ์ฃผ | ๋ฌผ์ฒด | ID/OOD | ฯ0-base | ฯ0-fast | Tactile-VLA |
|---|---|---|---|---|---|
| Solid & Heavy | Iron cube | ID | 100 | 70 | 100 |
| Battery | OOD | 80 | 60 | 90 | |
| Nail | ID | 30 | 10 | 100 | |
| Steel Ball | OOD | 60 | 70 | 90 | |
| Solid & Light | Wood block | ID | 60 | 70 | 90 |
| Charger | OOD | 70 | 50 | 100 | |
| Plastic | ID | 40 | 30 | 80 | |
| Toy | OOD | 30 | 40 | 90 | |
| Fragile & Light | Pitaya | ID | 50 | 40 | 90 |
| Melon | OOD | 0 | 10 | 80 | |
| BlueBerry | OOD | 0 | 0 | 100 | |
| PaperBox | OOD | 0 | 0 | 90 |
๊ฐ์ฅ ๊ทน์ ์ธ ์ค์ ๋งจ ์๋๋ค. ์ฝํ ๋ฌผ์ฒด(๋ธ๋ฃจ๋ฒ ๋ฆฌ, ์ข ์ด์์)์์ ๋ฒ ์ด์ค๋ผ์ธ์ 0%๋ค. ๋ณํ์ํค์ง ์๊ณ ๋๋ ๋ฐ ์ ๋ถ ์คํจํ๋ค. Tactile-VLA๋ ๊ฐ์ ๋ฌผ์ฒด์์ 90~100%๋ฅผ ๊ธฐ๋กํ๋ค.
๋ ผ๋ฌธ์ Figure 6(๋ง๋๊ทธ๋ํ)์ด ์ด ์ด์ผ๊ธฐ๋ฅผ ์๊ฐํํ๋ค. ํ ์คํธ๋ก ๊ทธ ๊ทธ๋ฆผ์ ๋ฌ์ฌํ๋ฉด ์ด๋ ๋ค.
Figure 6 ์ค๋ช : ์ธ ๊ฐ์ ๋ง๋๊ทธ๋ํ ํจ๋. ๊ฐ๊ฐ Solid & Heavy / Solid & Light / Fragile & Light ๋ฒ์ฃผ. x์ถ์ ๊ฐ๋ณ ๋ฌผ์ฒด, y์ถ์ ์ ์ฉ๋ ํ์ง๋ ฅ(N, 0~7 ๋ฒ์). ID์ OOD ๋ฌผ์ฒด๋ฅผ ๋ค๋ฅธ ์์ผ๋ก ํ์ํ๊ณ ์ค์ฐจ๋ง๋ ํฌํจ. ํต์ฌ ํจํด์, Tactile-VLA๊ฐ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ ๋์ ๋ง๋(์ผ ํ), ์ฝํ ๋ฌผ์ฒด์ ๋ฎ์ ๋ง๋(์ฝํ ํ)๋ฅผ ๋ณด์ด๋ฉฐ, ์ด ๊ฒฝํฅ์ด ์ฒ์ ๋ณด๋ OOD ๋ฌผ์ฒด์์๋ ๊ทธ๋๋ก ์ ์ง๋๋ค๋ ์ ์ด๋ค.
์ฆ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉํ ๊ฒ ์๋๋ผ, VLM์ ์ฌ์ ์ง์(โ์ฉ๊ณผ๋ ๋ฌด๋ฅด๋คโ, โ์ ๊ณต์ ๋จ๋จํ๋คโ)์ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์ ์ดํด ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด์๋ ์ ์ ํ ํ์ ์ถ๋ก ํ๋ค.
RQ3: ์คํจ๋ฅผ ์ถ๋ก ์ผ๋ก ๊ทน๋ณตํ๋๊ฐ
๋ง์ง๋ง ์คํ์ด CoT์ ์ง๊ฐ๋ฅผ ๋ณธ๋ค. ํฐ ๋ณด๋(whiteboard)์์ ๋ง์ปค๋ฅผ ๋ฆ๋ ์ถ๋ก ์ ๋ฐฐ์ด ๋ชจ๋ธ์ด, ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ ํ ๋ค๋ฅธ ๊ฒ์ ์น ํ(blackboard, ๋ถํ)์ผ๋ก zero-shot ์ผ๋ฐํํ๋์ง๋ฅผ ๋ณธ๋ค. ๋ถํ์ ๋ง์ปค๋ณด๋ค ํจ์ฌ ํฐ ํ์ด ํ์ํ๋ค.
ํ์ต ๋ฐ์ดํฐ๋ ํฐ ๋ณด๋์์ ๋ชจ์ ์ฑ๊ณตยท์คํจ ๋ฐ๋ชจ์ ํผํฉ์ด๋ค. ์คํจ ์ฌ๋ก(ํ์ด ์ฝํด ๋ชป ์ง์)์๋ ๊ต์ ์ ์ฌ๊ณ ๊ณผ์ ์ ์ ์ ๊ฐ๋ ํ ์คํธ๊ฐ ๋ถ๋๋ค(โํ์ด ๋๋ฌด ์ฝํ๋ค. ๋ ์ผ ํ์ด ํ์ํ๋ค. ์ด์ 5N์ผ๋ก ์๋ํ๋ค.โ). ํ๊ฐ ์์ โ๋ณด๋๋ฅผ ๋ฆ์โ๋ผ๊ณ ๋ง ์ง์ํ๋ค.
Table 4. ID/OOD ์๋๋ฆฌ์ค ์ฑ๊ณต๋ฅ (%)
| Model | In-Domain (Whiteboard) | Out-of-Domain (Blackboard) |
|---|---|---|
| ฯ0-base | 40 | 0 |
| ฯ0-fast | 45 | 0 |
| Tactile-VLA | 80 | 15 |
| Tactile-VLA-CoT | 75 | 80 |
์ฌ๊ธฐ์ ๋ ๊ฐ์ง๋ฅผ ์ฝ์ด์ผ ํ๋ค.
์ฒซ์งธ, Tactile-VLA(์ถ๋ก ์์)๋ OOD์์ 15%๋ก ๊ฑฐ์ ์คํจํ๋ค. ํฐ ๋ณด๋(ID)์์๋ 80%๋ก ์ํ์ง๋ง, ์ฒ์ ๋ณด๋ ์น ํ์์๋ ์ ์ ํ ํ์ ๋ชจ๋ฅธ๋ค. ์ฆ ์ ๋ฐ ํ ์ ์ด๋ง์ผ๋ก๋ ์ ์๋๋ฆฌ์ค์ ์ผ๋ฐํ๊ฐ ์ ๋๋ค.
๋์งธ, Tactile-VLA-CoT๋ OOD์์ 80%๋ก ๋์ฝํ๋ค. ํฐ ๋ณด๋(ID)์์๋ 75%๋ก ์ฝ๊ฐ ๋ฎ์๋ฐ(์ถ๋ก ์ค๋ฒํค๋์ ์์ํ ๋น์ฉ), ์น ํ์์๋ ์๋์ ์ด๋ค.
์๋ ๋ฉ์ปค๋์ฆ์ ๊ตฌ์ฒด์ ์ซ์๋ก ๋ณด๋ฉด ์ค๋๋ ฅ์ด ์๊ธด๋ค. ์น ํ์์ ๋ชจ๋ธ์ ์ฒ์์ ๊ธฐ๋ณธ ํ 3.5N์ผ๋ก ๋ฆ๋๋ค. ์คํจํ๋ค. ์ด๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ง์ ์ด ์์์ ์ธ์งํ CoT ๋ชจ๋์ด ์ถ๋ก ์ฌ์ฌ์ ์์ฑํด โ๋ ํฐ ํ์ด ํ์ํ๋คโ๊ณ ๊ฒฐ๋ก ์ง๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ค๋ก ํ์ 6.7N์ผ๋ก ์ฌ๋ฆฐ๋ค. ์ด๋ ํฐ ๋ณด๋ ํ์ต ๋ฐ์ดํฐ์ 5N๋ณด๋ค 34% ํฐ ๊ฐ์ด๋ค. ์ด ์ ์์ผ๋ก ๋ถํ์ ์ฑ๊ณต์ ์ผ๋ก ์ง์ด๋ค.
Figure 7 ์ค๋ช : ์ธ ํจ๋ (a)(b)(c). (a) ํฐ ๋ณด๋์์ ๋ง์ปค ๋ฆ๊ธฐ๋ฅผ ํ์ตํ ์ํ. (b) ๊ฒ์ ์น ํ์ผ๋ก์ zero-shot ์ ์ด์์ ์ด๊ธฐ ์ ์ฑ ์ด ์คํจํจ (๋ถํ์ ํ์ด ๋ถ์กฑ). (c) ์คํจ์ ๋ฌผ๋ฆฌ์ ํผ๋๋ฐฑ์ ์ถ๋ก ํ ๋ค ํ์ ํค์ ์ฑ๊ณต์ ์ผ๋ก ๋ฆ์.
๋ฒ ์ด์ค๋ผ์ธ์ ๋ฆ๋ ๋์์ ํ๋ด ๋ด์ง๋ง, ์ด๊ฐ ์คํจ๋ฅผ ํด์ํ๊ณ ํ์ ์ฌ๋ฆฌ๋ ๋ฉ์ปค๋์ฆ์ด ์์ด ๊ฐ์ ์ ํ ๋์๋ง ๋ฐ๋ณตํ๋ค. ์ด ๋๋น๊ฐ contact-rich ์์ ์์ ์ด๊ฐ ์ค์ฌ ์ถ๋ก ์ ์ญํ ์ ๋๋ ท์ด ๋ณด์ฌ์ค๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๋ฌด์์ด ๊ฐํ๊ณ ๋ฌด์์ด ๋น์ฝํ๊ฐ
๊ฐ์
1. ๊ฐ์ค์ด ๋ช ๋ฃํ๊ณ , ์คํ์ด ๊ทธ ๊ฐ์ค์ ์ ํํ ๊ฒจ๋ฅํ๋ค. โVLM์ ์ด๋ฏธ ๋ฌผ๋ฆฌ๋ฅผ ์๋คโ๋ ์ฃผ์ฅ์ ๊ฒ์ฆํ๊ธฐ ๊น๋ค๋ก์ด ๋ช ์ ์ธ๋ฐ, ์ ์๋ค์ ์ด๋ฅผ ์ธ ๊ฐ์ ๊น๋ํ ์ผ๋ฐํ ์ถ(์ธ์ด ์ ์ด, ๋ฌผ์ฒด ์ ์ด, ์ถ๋ก ์ ์ด)์ผ๋ก ๋ถํดํด ๊ฐ๊ฐ ์ธก์ ๊ฐ๋ฅํ ์คํ์ผ๋ก ๋ง๋ค์๋ค. ํนํ Table 2์ ๋ถ์ฌ ์คํํธ๋ผ(softlyโgentlyโfirmlyโhardโharder)์ ์๋ฏธ ์ ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฑฐ์ ๊ต๊ณผ์์ ์ธ ์ฆ๊ฑฐ๋ค.
2. ํ์ ํ๋ ๊ณต๊ฐ์ ์ง์ ๋ฃ์ ์ค๊ณ. ๋ง์ ์ด๊ฐ ํตํฉ ์ฐ๊ตฌ๊ฐ ์ด๊ฐ์ ์ ๋ ฅ์๋ง ๋๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, F_{target}์ ์ถ๋ ฅ์ผ๋ก ๋์ด๋ธ ๊ฒ์ด ํต์ฌ ์ฐจ๋ณ์ ์ด๋ค. ์ด๊ฒ ์ธ์ด๋ก ํ์ ์กฐ์ ํ๋ ๋ฅ๋ ฅ์ ๊ตฌ์กฐ์ ์์ฒ์ด๋ค.
3. ๋ฐ์ดํฐ ์์ง์ ๋ฌธ์ ์์. โ์๊ฒฉ์กฐ์์ ์กฐ์์๊ฐ ํ์ ๋ชป ๋๋ผ๋ฏ๋ก ์ด๊ฐ ๋น์์กด ์ ์ฑ ์ ๋ง๋ ๋คโ๋ ์ง์ ์ ๋ ์นด๋กญ๋ค. ์ด๊ฐ ์ผ์๋ฅผ ๋จ ํธ๋ํฌ๋ ์ฅ์น๋ก ์ด๋ฅผ ํธ๋ ์ ๊ทผ์ ์ค์ฉ์ ์ด๊ณ ์ฌํ ๊ฐ๋ฅํ๋ค. ์ ์ ๋ฐ๋ชจ(์์ ๋น 50~200๊ฐ)๋ก ์ผ๋ฐํ๋ฅผ ๋์ด๋ธ ๊ฒ๋ ์ธ์์ ์ด๋ค.
4. CoT ๋ณํ์ ์๊ธฐ๊ต์ . 3.5Nโ6.7N์ ์์จ์ ํ ์ฆ๊ฐ๋, ์ถ๋ก ์ด ๋จ์ ์ฅ์์ด ์๋๋ผ ์ค์ ์ ์ด ํ๋์ ๋ฐ๊พผ๋ค๋ ๊ตฌ์ฒด์ ์ฆ๊ฑฐ๋ค.
์ฝ์ ๊ณผ ํ๊ณ
1. ์ ๋ ์ฑ๊ณต๋ฅ ์ ์ฌ์ ํ ๋ฎ๋ค. USB ์ฝ์ 35%, OOD ์น ํ 80%๊ฐ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ํฐ ํฅ์์ธ ๊ฑด ๋ง์ง๋ง, ์ค๋ฐฐํฌ ๊ธฐ์ค์ผ๋ก๋ ๊ฐ ๊ธธ์ด ๋ฉ๋ค. ํนํ USB 35%๋ ์ ๋ฐ ์ฝ์ ์ ์ด๋ ค์์ ๊ทธ๋๋ก ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์ ์๋์ ์ฐ์์ ์ด์ ์ ๋ง์ถ์ง๋ง, ๋ ์๋ ์ ๋ ์์น๋ ํจ๊ป ๋ด์ผ ํ๋ค.
2. ์ค์ผ์ผ์ด ์๋ค. ์ธ ๊ฐ์ง ์์ , ์ ํ๋ ๋ฌผ์ฒด ์งํฉ, 10ํ ๋ด์ธ์ ์๋. ํต๊ณ์ ์ ๋ขฐ๊ตฌ๊ฐ์ด ๋์ ์ ์๋ค(Table 3์ ๋ฌผ์ฒด๋น 10ํ, Figure 6์ 5ํ). โzero-shot ์ผ๋ฐํโ๋ผ๋ ๊ฐํ ์ฃผ์ฅ์ ๋นํ๋ฉด ํ๊ฐ ๋ค์์ฑ์ด ๋ถ์กฑํ๋ค. ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ, ๋ค๋ฅธ ์ด๊ฐ ์ผ์๋ก์ ์ ์ด๋ ๊ฒ์ฆ๋์ง ์์๋ค.
3. โVLM์ด ๋ฌผ๋ฆฌ๋ฅผ ์๋คโ๋ ์ฃผ์ฅ์ ์ธ๊ณผ์ ์ฆ๋ช ์ ์ฝํ๋ค. Tactile-VLA๊ฐ ์ผ๋ฐํ๋ฅผ ์ํ๋ ๊ฒ์ ์ฌ์ค์ด๋, ๊ทธ๊ฒ์ด ์ ๋ง ์ฌ์ ํ์ต๋ VLM์ ์ ์ฌ ์ง์ ๋๋ถ์ธ์ง, ์๋๋ฉด ๋จ์ง ํ์ ํ๋ ๊ณต๊ฐ์ ๋ฃ์ ์ํคํ ์ฒ ๋๋ถ์ธ์ง๋ฅผ ๋ถ๋ฆฌํ๋ ablation์ด ๋ถ์กฑํ๋ค. ์์ปจ๋ ๋ฌด์์ ์ด๊ธฐํ๋ ๋ฐฑ๋ณธ vs ์ฌ์ ํ์ต ๋ฐฑ๋ณธ์ ๋น๊ตํ๋ค๋ฉด ์ฃผ์ฅ์ด ํจ์ฌ ๋จ๋จํ์ ๊ฒ์ด๋ค.
4. ํ์ด๋ธ๋ฆฌ๋ ์ปจํธ๋กค๋ฌ์ ๊ฒ์ธ ํ๋. K์ \tau๋ ์๋ ์ค์ ์ผ๋ก ๋ณด์ด๋ฉฐ, ์์ ยท๋ฌผ์ฒดยท์ผ์๊ฐ ๋ฐ๋๋ฉด ์ฌํ๋์ด ํ์ํ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. position-dominant ๊ฐ์ ์ ์ง์ง๋ก ํ์ด ์ง๋ฐฐํ๋ ์์ (์: ๋ฌด๋ฅธ ๋ฌผ์ฒด๋ฅผ ์ผ์ ์๋ ฅ์ผ๋ก ๋ฌธ์ง๋ฅด๊ธฐ, ์์ ํ์)์์๋ ํ๊ณ๊ฐ ์์ ์ ์๋ค.
5. CoT์ ํธ๋ฆฌ๊ฑฐ๊ฐ ๊ณ ์ ๊ฐ๊ฒฉ. โ๋จ์ํ๊ณ ํจ๊ณผ์ โ์ด๋ผ์ง๋ง, ๋น ๋ฅธ ์คํจ ๊ฐ์ง๊ฐ ์ค์ํ ์์ ์์๋ ๊ณ ์ ๊ฐ๊ฒฉ ์ ๊ฒ์ด ๋ฐ์์ฑ์ ๋จ์ด๋จ๋ฆด ์ ์๋ค. ์ด๋ฒคํธ ๊ธฐ๋ฐ(์: ํ ์ด์์น ๊ฐ์ง) ํธ๋ฆฌ๊ฑฐ๊ฐ ๋ ์์ฐ์ค๋ฌ์ธ ์ ์๋ค.
6. ์ถ๋ก ๋น์ฉ. ID ํฐ ๋ณด๋์์ Tactile-VLA-CoT(75%)๊ฐ Tactile-VLA(80%)๋ณด๋ค ์ฝ๊ฐ ๋ฎ์ ๊ฒ์, ์ถ๋ก ์ค๋ฒํค๋๊ฐ ๋จ์ ์์ ์์๋ ์คํ๋ ค ํด๊ฐ ๋ ์ ์์์ ์์ฌํ๋ค. ์ธ์ ์ถ๋ก ์ ์ผ๊ณ ๋์ง์ ๋ํ ์ ์ฑ ์ ๋ค๋ฃจ์ง ์์๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต: ๋ฌด์์ด ์๋ก์ด๊ฐ
์ด๊ฐ์ VLA์ ๋ฃ๋ ์๋๋ ๋์๊ธฐ์ ์ฌ๋ฟ ์์๋ค. ํต์ฌ ์ฐจ์ด๋ฅผ ํ๋ก ์ ๋ฆฌํ๋ค.
| ์ฐ๊ตฌ | ์ด๊ฐ ํตํฉ ๋ฐฉ์ | ์ฐจ๋ณ์ / ํ๊ณ |
|---|---|---|
| FuSe (Jones et al., 2025) | ๋ณด์กฐ ์์ค(auxiliary loss)๋ก ์ด์ข ์ผ์ ํ์ธํ๋, ์ธ์ด ์ ์ง | ์ด๊ฐ์ด ํ๋ ์์ฑ์ ์ง์ ๊ฐ์ ํ๊ธฐ๋ณด๋ค ํํ ํ์ต ๋ณด์กฐ |
| ForceVLA (Yu et al., 2025) | force-aware MoE(์ ๋ฌธ๊ฐ ํผํฉ), ๋ชจ๋ฌ๋ฆฌํฐ๋ณ ๋ผ์ฐํ | ํ ์ธ์ง๋ ํ๋, ๋ผ์ฐํ ๊ตฌ์กฐ ์ค์ฌ |
| TLA (Hao et al., 2025) | tactile-language-action ์ง์ ๋งคํ | contact-rich ํนํ, VLM ์ฌ์ ์ง์ ํ์ฉ ์ฃผ์ฅ์ ์ฝํจ |
| 3D-ViTac, MimicTouch | end-to-end visuo-tactile ์ ์ฑ | ์ธ์ด ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ์ฌ โ ์ถ์ ๋ชฉํ ์ถ๋ก ยท์์ ์ผ๋ฐํ ์ ํ |
| Reactive Diffusion Policy (Xue et al., 2025) | slow-fast ์๊ฐ-์ด๊ฐ ์ ์ฑ | ๊ณํ/์ ์ด ๋ถ๋ฆฌ, ์๋ฏธ ์ ์ง๋ณด๋ค ๋ฐ์์ฑ ์ด์ |
| Tactile-VLA (๋ณธ ๋ ผ๋ฌธ) | ํ ํฐ ๋ ๋ฒจ ๊น์ ์ตํฉ + ํ์ action space์ ์ง์ ํฌํจ + CoT ์ถ๋ก | VLM ์ ์ฌ ์ง์์ ์ ์ ๋ฐ๋ชจ๋ก ๊นจ์ zero-shot ํ ์ผ๋ฐํ |
์ ์๋ค์ด ์ฃผ์ฅํ๋ ๋ณธ์ธ๋ค์ ์์น๋ ๋ถ๋ช ํ๋ค. FuSe์ฒ๋ผ ๋ณด์กฐ ์์ค๋ก ๋ถ์ด๊ฑฐ๋ ForceVLA์ฒ๋ผ ๋ผ์ฐํ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋์ , VLM์ ์ ์ฌ ๊ณต๊ฐ์ ์ด๋ฏธ ํ๋ถํ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ์๋ฏธ ์ดํด๊ฐ ์๋ค๋ ๊ฒ์ ์ค์ฆํ๊ณ , ์ด๋ฅผ ์ด๊ฐ ์ผ์์ ์ง์ ์ฐ๊ฒฐํด ์ ์ ๋ฐ๋ชจ๋ก ๊นจ์ด๋ค๋ ์ ์ด ์ฐจ๋ณ์ ์ด๋ค.
์ ํต์ ์ด๊ฐ ์ ์ฑ ์ฐ๊ตฌ(grasping์ Calandra, insertion์ Dong, in-hand์ Qi ๋ฑ)์์ ๊ด๊ณ๋ ๋ช ํํ ํ๋ค. ์ด๋ค ํนํ ์ ์ฑ ์ ํด๋น ์์ ์์ ๋์ ์ฑ๋ฅ์ ๋ด์ง๋ง ์ธ์ด ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์์ด ์ ๋ช ๋ น ์ผ๋ฐํยท์ถ์ ๋ชฉํ ์ถ๋ก ยท์์ ํ์ฉ์ด ์ ํ๋๋ค. Tactile-VLA๋ ์ด๋ฐ ์ด๊ฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ๋ฌผ๋ฆฌ์ ์ ๋ฐํจ๊ณผ ํ๋ VLA์ ์๋ฏธ์ ์ ์ฐ์ฑยท์ธ๊ณ ์ง์์ ๊ฒฐํฉํ๋ ค๋ ์๋๋ก ์๋ฆฌ๋งค๊นํ๋ค.
์ฐ๊ตฌ ํ๋ฆ์ ํ๋์ ๋ณด๋ฉด:
flowchart LR
A["๊ณ ์ ์ด๊ฐ ์ ์ด<br/>(impedance, force control)"] --> C["ํนํ ์ด๊ฐ ์ ์ฑ
<br/>(grasping, insertion)"]
B["VLA ๋ชจ๋ธ<br/>(RT-2, OpenVLA, pi0)"] --> D["์ด๊ฐ ํตํฉ VLA<br/>(FuSe, ForceVLA, TLA)"]
C --> E["Tactile-VLA<br/>๋ฌผ๋ฆฌ ์ ๋ฐํจ + ์๋ฏธ ์ ์ฐ์ฑ"]
D --> E
E --> F["Tactile-VLA-CoT<br/>+ ์์จ ์ถ๋ก /์ฌ๊ณํ"]
์์ฝ ๋ฐ ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ด ๋ก๋ด๊ณตํ์์๊ฒ ๋จ๊ธฐ๋ ๋ฉ์์ง๋ ์ธ ๊ฐ๋๋ก ์ ๋ฆฌ๋๋ค.
์ฒซ์งธ, ํ์ ์ผ๊ธ ์๋ฏผ์ผ๋ก ๋์ ํ๋ผ. ์ด๊ฐ์ ์ ๋ ฅ์ ๋ผ์๋ฃ๋ ๊ฒ๊ณผ, ๋ชฉํ ํ F_{target}์ ํ๋ ์ถ๋ ฅ์ผ๋ก ๋์ด๋ด๋ ๊ฒ์ ์ง์ ์ผ๋ก ๋ค๋ฅด๋ค. ํ์๊ฐ โ์ธ์ด๋ก ํ์ ์กฐ์ โํ๋ ๋ฅ๋ ฅ์ ์ฐ๋ค. Table 2์ ๋ถ์ฌ ์คํํธ๋ผ์ด ๊ทธ ์ฆ๊ฑฐ๋ค.
๋์งธ, ์ฌ์ ํ์ต VLM์ ์๊ฐ๋ณด๋ค ๋ง์ ๋ฌผ๋ฆฌ๋ฅผ ์๊ณ ์๋ค. โ์ฉ๊ณผ๋ ๋ฌด๋ฅด๋คโ, โ๋ถํ์ ๋ง์ฐฐ์ด ํฌ๋คโ ๊ฐ์ ์์์ ์ธํฐ๋ท ํ ์คํธ์ ์ด๋ฏธ ๋ น์ ์๋ค. ์ ์ ๋ฐ๋ชจ๋ก ๊ทธ๊ฒ์ ์ด๊ฐ ์ฑ๋์ ์ฐ๊ฒฐํ๋ฉด zero-shot ์ผ๋ฐํ๊ฐ ๋ฐ๋ผ์จ๋ค. ์ด ๊ด์ ์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ์๋ฌ๋ฆฌ๋ ์ค๋ฌด์์๊ฒ ์ค์ฉ์ ํจ์๋ฅผ ์ค๋ค. ๋ชจ๋ ๋ฌผ์ฒดยท์์ ์ ๋ฐ๋ชจ๋ก ์ฑ์ฐ๋ ค ํ์ง ๋ง๊ณ , VLM์ด ์ด๋ฏธ ์๋ ๊ฒ์ ๊นจ์ฐ๋ ๋ค๋ฆฌ๋ฅผ ์ค๊ณํ๋ผ๋ ๊ฒ์ด๋ค.
์ ์งธ, ์๋์ผ๋ก ์๊ฐํ๊ฒ ๋ง๋ค๋ฉด ์คํจ์์ ํ๋ณตํ๋ค. Tactile-VLA-CoT์ 3.5Nโ6.7N ์์จ ์กฐ์ ์, ์ด๊ฐ ํผ๋๋ฐฑ์ ๋ช ์์ ์ถ๋ก ์ผ๋ก ๋์ด์ฌ๋ ธ์ ๋ ์ ์ฑ ์ด ์ ์ํฉ์ ์ค์ค๋ก ์ ์ํจ์ ๋ณด์ฌ์ค๋ค.
๋ฌผ๋ก ํ๊ณ๋ ๋ช ํํ๋ค. ์ ๋ ์ฑ๊ณต๋ฅ ์ ์์ง ๋ฎ๊ณ , ํ๊ฐ ์ค์ผ์ผ์ด ์์ผ๋ฉฐ, โVLM ์ฌ์ ์ง์ ๋๋ถโ์ด๋ผ๋ ์ธ๊ณผ์ ์ฃผ์ฅ์ ๋ถ๋ฆฌํ๋ ablation์ด ๋ถ์กฑํ๋ค. ํ์ด๋ธ๋ฆฌ๋ ์ปจํธ๋กค๋ฌ์ ๊ฒ์ธ ํ๋๊ณผ CoT์ ๊ณ ์ ๊ฐ๊ฒฉ ํธ๋ฆฌ๊ฑฐ๋ ์ค์ ๋ฐฐํฌ์์ ์๋ด์ผ ํ ์ง์ ์ด๋ค.
๊ทธ๋ผ์๋ ์ด ๋ ผ๋ฌธ์ ๋ฐฉํฅ์ ์ณ๋ค. ์ฐ๋ฆฌ๊ฐ ๋ฒ์ฉ ๋ก๋ด ์์ด์ ํธ๋ก ๊ฐ๋ ค๋ฉด, โ๋ฌด์์ ํ ์งโ ์๋ ๊ฒ๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ณ โ์ผ๋ง์ ํ์ผ๋ก ํ ์งโ๋ฅผ ์๋ฏธ์ ์ฐ๊ฒฐํด ์์์ผ ํ๋ค. Tactile-VLA๋ ๊ทธ ์ฐ๊ฒฐ์ ํ ๊ฐ์ง ์๋ํ๋ ์ฒญ์ฌ์ง์ ์ ์ํ๋ค. ์ด๊ฐ์ ๊ณ๋ค๋ฆฌ๊ฐ ์๋๋ผ ๋ค์ดํฐ๋ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก, ํ์ ๋ถ์ฐ๋ฌผ์ด ์๋๋ผ ํ๋์ ์ผ๋ถ๋ก ๋ค๋ฃฌ๋ค๋ ์ค๊ณ ์ฒ ํ์, ์์ผ๋ก์ contact-rich manipulation ์ฐ๊ตฌ๊ฐ ์ฐธ๊ณ ํ ๋งํ ์ถ๋ฐ์ ์ด๋ค.
dexterous manipulation์ ์ฐ๊ตฌํ๋ ์ ์ฅ์์ ํนํ ์ฃผ๋ชฉํ ์ง์ ์ ํ์ ๋ ์ฑ๋ ๋ถ๋ฆฌ(์ธ๋ถ ์์งํ์ ์์น๋ก, ๋ด๋ถ ํ์ง๋ ฅ์ ๊ทธ๋ฆฌํผ ํญ์ผ๋ก)๋ค. ๋ค์ง ์(multi-finger hand)์ผ๋ก ํ์ฅํ๋ค๋ฉด ์ด ๋ถ๋ฆฌ๊ฐ ์ด๋ป๊ฒ ์ผ๋ฐํ๋ ์ง, ๊ทธ๋ฆฌ๊ณ DIGIT/GelSight ๊ฐ์ ๊ณ ํด์๋ ์ด๊ฐ์ ๋จ์ MLP ํ ํฐ์ด ์๋๋ผ ๋ ํ๋ถํ๊ฒ ์ธ์ฝ๋ฉํ์ ๋ ์๋ฏธ ์ ์ง๊ฐ ๋ ๊ฐํด์ง์ง๊ฐ ์์ฐ์ค๋ฌ์ด ํ์ ์ง๋ฌธ์ด๋ค.
์ฐธ๊ณ
- ์๋ฌธ: Huang, J., Wang, S., Lin, F., Hu, Y., Wen, C., Gao, Y. (2025). Tactile-VLA: Unlocking Vision-Language-Action Modelโs Physical Knowledge for Tactile Generalization. arXiv:2507.09160.
- ๊ธฐ๋ฐ ๋ชจ๋ธ: ฯ0 (Black et al., 2024), Gemma 2.6B, ViT (Dosovitskiy et al., 2020)
- ๋ฐ์ดํฐ ์ฅ์น ๊ธฐ๋ฐ: UMI (Chi et al., 2024)
- ์ง์ ๋น๊ต ๋์: FuSe (Jones et al., 2025), ForceVLA (Yu et al., 2025), TLA (Hao et al., 2025)