flowchart TD
subgraph Pipeline["Training Pipeline"]
S1["Stage 1: DexGrasp-VLA ํ์ต<br/>(์์จ ํ์ง๋ฅผ ์ํ ์ ์ ์ฉ VLA Copilot)"]
S2["Stage 2: Shared Autonomy ๋ฐ์ดํฐ ์์ง<br/>(์ธ๊ฐ: ํ VR ํ
๋ ์คํผ๋ ์ด์
+ AI: ์ ์์จ ์ ์ด)"]
S3["Stage 3: End-to-End VLA ํ์ต<br/>(Arm-Hand Feature Enhancement ๋ชจ๋ ํฌํจ)"]
S4["Stage 4: Corrective Teleoperation<br/>(Human-in-the-loop ์ง์์ ๊ฐ์ )"]
S1 --> S2
S2 --> S3
S3 --> S4
end
style S1 fill:#e1f5fe
style S2 fill:#f3e5f5
style S3 fill:#e8f5e9
style S4 fill:#fff3e0
๐DexGrasp-VLA ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ค ๊ธฐ์กด ๋ฐ์ดํฐ ์์ง์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ ์ธ๊ฐ์ด ํ์ VR ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์กฐ์ํ๊ณ ์์จ์ ์ธ DexGrasp-VLA ์ ์ฑ ์ด ์์ ์ ์ดํ๋ Shared Autonomy ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ํจ์จ์ ์ธ ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ฆพ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ, ์ ์๋ Arm-Hand Feature Enhancement module์ ํ๊ณผ ์์ ์์ง์์ ๋ํ ๊ณ ์ ํ ํน์ง๊ณผ ๊ณต์ ๋ ํํ์ ๋ช ์์ ์ผ๋ก ํ์ตํ์ฌ ๋ ๋ถ๋๋ฝ๊ณ ๊ฒฌ๊ณ ํ ์-ํธ๋ ์กฐ์ ์ ์ ๊ณตํ๋ VLA ์ ์ฑ ์ ํ๋ จํฉ๋๋ค.
- โป๏ธ ๋ํ, Corrective Teleoperation ์์คํ ์ ํตํด ์ธ๊ฐ์ ๊ฐ์ ์ผ๋ก ์คํจ ์ฌ๋ก๋ฅผ ๋ณต๊ตฌํ๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ฐํ์ฌ ์ ์ฑ ์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ ์ ์์ผ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ 50๊ฐ ์ด์์ ๋ค์ํ ๊ฐ์ฒด์ ๋ํด ์ฝ 90%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ ํ๋ ์์ํฌ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ์ผ๋ฐ์ ์ธ ๋ก๋ด์ dexterous manipulation (์ ๊ตํ ์กฐ์)์ด ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ์์ ์ง์ ํ๋ฉฐ, ํนํ ๋ก๋ด ํ๊ณผ ์์ seamlessํ coordination (์ํํ ์กฐ์จ) ํ์ต์ด ์ค์ํ๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค. ๊ธฐ์กด VLA (Vision-Language-Action) ๋ชจ๋ธ์ด ์ ๋งํ์ง๋ง, ๊ณ ํ์ง ๋ฐ์ดํฐ ๋ถ์กฑ์ด ํ์ฅ์ฑ์ ์ ํํฉ๋๋ค. ์์ ์๋ teleoperation์ ์ธ๊ฐ ์์ ์์๊ฒ ๊ณผ๋ํ ์ธ์ง ๋ถํ๋ฅผ ์ฃผ์ด ์ธ์ ์ง์ ์๊ฐ์ ๋จ์ถํ๊ณ , ์๋ํ๋ planning์ ๋ถ์์ฐ์ค๋ฌ์ด ์์ง์์ ์์ฑํ๊ณ ๊ธฐ์ ์ ์ธ ์กฐ์ ํ์ต์ suboptimalํ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ผ๊ธฐํฉ๋๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ Shared Autonomy framework๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ macro motion (๋ก๋ด ํ)๊ณผ micro motion (๋ก๋ด ์) ์์ญ์ ๋ฐ๋ผ ์ ์ด ๊ถํ์ ๋ถํ ํฉ๋๋ค. ์ธ๊ฐ ์์ ์๋ VR (Virtual Reality) teleoperation์ ํตํด ๋ก๋ด end-effector (๋ง๋จ ์ฅ์น)์ ์์ง์์ ์ง๊ด์ ์ผ๋ก ์๋ดํ๊ณ , ์์จ์ ์ธ DexGrasp-VLA ์ ์ฑ ์ ์ค์๊ฐ ์ด๊ฐ ๋ฐ ๋ก์ปฌ ์๊ฐ ํผ๋๋ฐฑ์ ์ฌ์ฉํ์ฌ fine-grained (๋ฏธ์ธํ๊ณ ์ ๊ตํ)ํ๊ณ force-adaptive (ํ ์กฐ์ ์ด ๊ฐ๋ฅํ) ์ ์ ์ด๋ฅผ Copilot์ผ๋ก์ ๋ณด์กฐํฉ๋๋ค. ์ด๋ฌํ ์ญํ ๋ถ๋ด์ ์ธ๊ฐ์ ์ธ์ง ๋ถํ๋ฅผ ํฌ๊ฒ ์ค์ด๊ณ , ์ ์ ์ ํผ๋ก๋ฅผ ์ต์ํํ๋ฉด์ ๊ณ ํ์ง์ coordinated arm-hand demonstration (์กฐ์จ๋ ํ-์ ์์ฐ) ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ ์ ์๊ฒ ํฉ๋๋ค.
์์ง๋ demonstration ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๋ณธ ๋ ผ๋ฌธ์ Arm-Hand Feature Enhancement module๋ก ๊ฐํ๋ end-to-end VLA ์ ์ฑ ์ ํ์ต์ํต๋๋ค. ์ด ์ํคํ ์ฒ๋ macro (ํ) ๋ฐ micro (์) ์์ง์์ ๋๋ ทํ ์ ์ฌ ํน์ง๊ณผ ๊ณต์ ๋ ํํ์ ๋ช ์์ ์ผ๋ก ํฌ์ฐฉํ์ฌ, ๋์ฑ ๋ถ๋๋ฝ๊ณ ๊ฒฌ๊ณ ํ ํ-์ ์กฐ์จ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ํ, Corrective Teleoperation system์ human-in-the-loop (์ธ๊ฐ ๊ฐ์ ํ) ์คํจ ๋ณต๊ตฌ ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํตํด ์ง์์ ์ธ ์ ์ฑ ๊ฐ์ ์ ์ง์ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- DexGrasp-VLA: Autonomous Dexterous Grasping Policy (์์จ์ ์ธ ์ ๊ตํ ์ก๊ธฐ ์ ์ฑ
)
- Force-Adaptive Grasping Policy Learned by LSTM: ๋จผ์ โblindโ (์๊ฐ ์ ๋ณด ์์ด) LSTM ๊ธฐ๋ฐ ์ ์ฑ
์ ํ์ต์์ผ ์ด๊ฐ ๋ฐ ๊ณ ์ ์์ฉ์ฑ ํผ๋๋ฐฑ๋ง์ ์ฌ์ฉํ์ฌ ๊ฒฌ๊ณ ํ ํ ์กฐ์ ์ก๊ธฐ๋ฅผ ์ํํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ง์ ๋ ๊ฐ์ง ๋ณด์์ ์ธ ๋ฐฉ๋ฒ์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค:
- Force-Adaptive Position Control: ํ๋ผ๋ฏธํฐ ๊ธฐ๋ฐ์ rule-based ์ปจํธ๋กค๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ 50Hz๋ก compliant grasping (์์์ ์ธ ์ก๊ธฐ)์ ์์ฑํฉ๋๋ค. ๊ฐ ๋จ๊ณ i์์ ๋ช ๋ น์ด q_c(i)๋ q_c(i) = q_m(i) + q(0) \cdot e^{-k \cdot f_z(i)}๋ก ๊ณ์ฐ๋ฉ๋๋ค. ์ฌ๊ธฐ์ q_m(i)๋ ์ธก์ ๋ joint position, q(0)๋ ์ด๊ธฐ position, k๋ ์ก๋ ํ์ ์กฐ์ ํ๋ gain, f_z(i)๋ fingertip์ resultant normal force (ํฉ๋ ฅ ์์ง๋ ฅ)์ ๋๋ค.
- Human Teleoperation via Retargeting: Leap Motion ์ผ์๋ก ์ธ๊ฐ ์ ์์ง์์ ์บก์ฒํ์ฌ 12-DoF Xhand์ retargetingํ์ฌ ์ ์ฒด ์ก๊ธฐ ์ํ์ค๋ฅผ 50Hz๋ก ์ํ๋งํฉ๋๋ค.
- LSTM ๊ธฐ๋ฐ ์ ์ฑ ํ์ต: Behavior Cloning์ ํตํด LSTM ์ ์ฑ ์ ํ์ต์ํต๋๋ค. ์ ๋ ฅ์ ๊ฐ ์๊ฐ ๋จ๊ณ t์์ x_t = [s_{hand}^t, f_{hand}^t] \in R^{39}์ด๋ฉฐ, s_t = [q_{hand}^t, \tau_{hand}^t] \in R^{24}๋ ๊ณ ์ ์์ฉ์ฑ ์ํ, f_{hand}^t \in R^{15}๋ fingertip tactile array์์ ์ธก์ ๋ ์ ํธ์ ๋๋ค. ๊ธธ์ด T์ sliding window๊ฐ ์ํ์ค ์ ๋ ฅ X = [x_{t-T+1}, \dots, x_t] \in R^{T \times 39}๋ฅผ ํ์ฑํฉ๋๋ค. ์์ค ํจ์๋ ์์ธก๋ ํ๋๊ณผ ์์ฐ๋ ํ๋ ๊ฐ์ MSE (Mean Squared Error)์ L2 regularization์ ํฉ์ ๋๋ค: L = \frac{1}{N} \sum_{i=1}^N \left\| a_t^{(i)} - \hat{a}_t^{(i)} \right\|_2^2 + \lambda \left\| \Theta \right\|_2^2.
- ๋ฐ์ดํฐ ์์ง์ ๋ ๊ฐ์ง ๋ณด์์ ์ธ ๋ฐฉ๋ฒ์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค:
- Tactile-based DexGrasp-VLA \pi_{hand}: LSTM ์ ์ฑ
์ ์๊ฐ ์ธ์ ๋ถ์กฑ์ ๋ณด์ํ๊ธฐ ์ํด, LSTM ์ ์ฑ
์ด ์์จ์ ์ผ๋ก ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ ๋ฐ ์ด๊ฐ ์ผ์ฑ์ ํตํฉํ๋ multimodal VLA ์ ์ฑ
์ ํ์ต์ํต๋๋ค.
- Tactile Feature Extraction: raw tactile reading์ธ F_{raw} \in R^{10 \times 12 \times 3} (fingertip๋น)๋ฅผ ์ง์ ์ฌ์ฉํ๋ ๋์ , ๋ ๊ฐ์ง ๋ณด์์ ์ธ ์ด๊ฐ ํน์ง์ ์ถ์ถํฉ๋๋ค:
- Resultant force vector (f_{tac-ft} \in R^{5 \times 3}): ๊ฐ fingertip ์ผ์ ๋ฐฐ์ด์ ํ ๊ตฌ์ฑ์์๋ฅผ ํฉ์ฐํ์ฌ ์ป์ต๋๋ค.
- Spatial tactile embedding (f_{tac-st} \in R^{5 \times 128}): Convolutional Autoencoder (CAE)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ fingertip์ ๊ณต๊ฐ-ํ ๊ด๊ณ๋ฅผ ์์ถ๋ ์ ์ฌ ํํ์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. CAE๋ ์ฌ๊ตฌ์ฑ ์์ค L_{recon} = \frac{1}{3HW} \sum_{c \in \{x,y,z\}} \sum_{i=1}^H \sum_{j=1}^W \left( F_{c,ij} - \hat{F}_{c,ij} \right)^2์ ์ต์ํํ๋๋ก ํ์ต๋ฉ๋๋ค.
- Grasping VLA Policy Learning: ์ถ์ถ๋ ์ด๊ฐ ํน์ง์ VLA ํ๋ ์์ํฌ์ ํตํฉํฉ๋๋ค. f_{tac-ft}์ f_{tac-st}๋ฅผ MLP๋ฅผ ํตํด ์๋ฒ ๋ฉ ๋ฒกํฐ z_{tac-ft}์ z_{tac-st}๋ก ๋ณํํฉ๋๋ค. ์ด ์ด๊ฐ ์๋ฒ ๋ฉ์ in-hand ์นด๋ฉ๋ผ ์ด๋ฏธ์ง I_{hand}^t, ์ธ์ด ๋ช ๋ น l^t, ๊ณ ์ ์์ฉ์ฑ ์ ์ํ q_{hand}^t๋ฅผ ํฌํจํ ๋ค๋ฅธ ๊ฐ๊ฐ ์์์ ์๋ฒ ๋ฉ๊ณผ ์ตํฉ๋ฉ๋๋ค. ์ ์ฒด ๊ด์ธก ๊ณต๊ฐ์ o_{hand}^t = \langle I_{hand}^t, l^t, q_{hand}^t, z_{tac-ft}, z_{tac-st} \rangle๋ก ์ ์ํ๋ฉ๋๋ค. ์ ์ฑ \pi_{hand}(A_{hand}^t | o_{hand}^t)๋ ์ด๋ฌํ multimodal ๊ด์ธก์ ์ฌ์ฉํ์ฌ ์ ๋์ ์ํ์ค A_{hand}^t๋ฅผ ์์ธกํฉ๋๋ค.
- Tactile Feature Extraction: raw tactile reading์ธ F_{raw} \in R^{10 \times 12 \times 3} (fingertip๋น)๋ฅผ ์ง์ ์ฌ์ฉํ๋ ๋์ , ๋ ๊ฐ์ง ๋ณด์์ ์ธ ์ด๊ฐ ํน์ง์ ์ถ์ถํฉ๋๋ค:
- Force-Adaptive Grasping Policy Learned by LSTM: ๋จผ์ โblindโ (์๊ฐ ์ ๋ณด ์์ด) LSTM ๊ธฐ๋ฐ ์ ์ฑ
์ ํ์ต์์ผ ์ด๊ฐ ๋ฐ ๊ณ ์ ์์ฉ์ฑ ํผ๋๋ฐฑ๋ง์ ์ฌ์ฉํ์ฌ ๊ฒฌ๊ณ ํ ํ ์กฐ์ ์ก๊ธฐ๋ฅผ ์ํํฉ๋๋ค.
- Shared Autonomy for Data Collection (๋ฐ์ดํฐ ์์ง์ ์ํ ๊ณต์ ์์จ์ฑ)
- ์ธ๊ฐ ์์ ์๋ VR ์ธํฐํ์ด์ค๋ฅผ ํตํด ๋ก๋ด ํ์ end-effector๋ฅผ teleoperateํ์ฌ obstacle-avoidant (์ฅ์ ๋ฌผ ํํผ) ๋๋ฌ ๋ฐ ํฌ์ง์ ๋์ ๋ด๋นํ๊ณ , ์ฌ์ ํ์ต๋ DexGrasp-VLA ์ ์ฑ ์ ์์จ์ ์ผ๋ก dexterous hand๋ฅผ ์ ์ดํ์ฌ ๋ฏธ์ธํ ์ก๊ธฐ๋ฅผ ์ํํฉ๋๋ค.
- VR-Based Arm Teleoperation System: XRoboToolkit ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก relative motion mapping (์๋ ์ด๋ ๋งคํ) ์ ์ด ํจ๋ฌ๋ค์์ ๊ตฌํํฉ๋๋ค. ๋ก๋ด ํ์ end-effector ์ถ์ ์ VR ์ปจํธ๋กค๋ฌ์ grip button์ผ๋ก ์์๋ฉ๋๋ค. ๋ก๋ด์ ํ๊ฒ ํฌ์ฆ๋ T_{robot,t} = T_{robot,0} \cdot (T_{VR,0}^{-1} \cdot T_{VR,t})๋ก ๊ณ์ฐ๋ฉ๋๋ค. Inverse Kinematics (IK) solver (์๋ ์์ค Quadratic Program (QP)์ผ๋ก ์ ์ํ)๋ ์ด ํ๊ฒ ํฌ์ฆ๋ก๋ถํฐ ํ๊ฒ joint angle์ ๊ณ์ฐํฉ๋๋ค. joint velocity \dot{q}๋ฅผ ์ต์ ํ ๋ณ์๋ก ์ฌ์ฉํ์ฌ \min_{\dot{q}} \sum_{i=1}^N w_i \|J_i(q)\dot{q} + e_i(q)\|_2๋ฅผ ๋ง์กฑํ๋ ํด๋ฅผ ์ฐพ์ต๋๋ค.
- Coordinated Arm-Hand Data Collection: ์ธ๊ฐ teleoperation (90Hz)๊ณผ ์์จ ์ ์ฑ ์คํ (30Hz)์ ์ํํ๊ฒ ํตํฉํ๋ multi-thread ์ ์ด ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์์ง๋ ๋ฐ์ดํฐ์ D_{uni} = \{ (o_{uni}^t, a_{arm}^t, a_{hand}^t) \}_{t=1}^T๋ ์๊ฐ ๋๊ธฐํ๋ ๊ด์ธก ๋ฐ ํ๋์ ํฌํจํฉ๋๋ค. ์ฌ๊ธฐ์ o_{uni}^t = [I^t, l^t, q_{arm}^t, q_{hand}^t]์ ๋๋ค.
- Learning End-to-End Arm-Hand VLA Policy \pi_{uni} (End-to-End ํ-์ VLA ์ ์ฑ
ํ์ต)
- Shared Autonomy๋ฅผ ํตํด ์์ง๋ arm-hand demonstration ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ฌ์ ํ์ต๋ VLA ๋ชจ๋ธ์ SFT (Supervised Fine-Tuning)๋ฅผ ์ํํ์ฌ arm-hand coordinated (ํ-์ ์กฐ์จ๋) dexterous grasping ์ ์ฑ \pi_{uni}(A_{uni}^t | o_{uni}^t)๋ฅผ ํ์ต์ํต๋๋ค.
- Arm-Hand Feature Enhancement: ๊ธฐ์กด \pi_0 ๋ชจ๋ธ์ multi-modal ๊ด์ธก์ ๊ณต์ ๋ ์์ ํํ z_{share}^t \in R^{d_s}๋ก ์ธ์ฝ๋ฉํ์ง๋ง, ํ๊ณผ ์ ์์ง์์ ๋๋ ทํ ์ด๋ํ ๋ฐ ๋์ญํ์ ์ค๋ช ํ์ง ๋ชปํฉ๋๋ค. ์ด๋ฅผ ์ํด z_{share}^t๋ฅผ ๋ ๊ฐ์ ์ ์ฉ MLP (E_{arm} ๋ฐ E_{hand})๋ฅผ ํตํด limb-specific (์ฌ์ง๋ณ) ์ ์ฌ ํน์ง z_{arm}^t \in R^{d_a} ๋ฐ z_{hand}^t \in R^{d_h}๋ฅผ ์์ฑํฉ๋๋ค. ๋ณด์กฐ ์์ธก ํค๋ (H_{arm} ๋ฐ H_{hand})๋ ํด๋น ํน์ง์ผ๋ก๋ถํฐ sub-action \hat{A}_{arm}^t ๋ฐ \hat{A}_{hand}^t๋ฅผ ์ง์ ์์ธกํ๋๋ก ํ์ต๋ฉ๋๋ค. ์ต์ข ํ๋ ์์ธก์ ์ํด, ์ฃผ ํ๋ ํค๋ H_{main}๋ ์ตํฉ๋ ํํ z_{fused}^t = [z_{share}^t, z_{arm}^t, z_{hand}^t]๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํตํฉ๋ ํ๋ \hat{A}_{uni} = [\hat{A}_{arm}^t, \hat{A}_{hand}^t]์ ์ถ๋ ฅํฉ๋๋ค.
- Learning Objective: ์ฃผ ์กฐ์จ ์์ค๊ณผ ๋ ๊ฐ์ ๋ณด์กฐ ์์ค์ ๊ฒฐํฉํ ๋ณตํฉ ์์ค ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- Main Loss: ์กฐ๊ฑด๋ถ flow matching์์ ํ์๋๋ฉฐ, ์ ์ฒด ํ๋ ์ํ์ค A_{uni} = (A_{arm}^t, A_{hand}^t)์ ์ ์ฉ๋ฉ๋๋ค: L_{\tau}^{main}(\theta) = E \left[ \left\| H_{main}(z_{fused}^t) - u(A_{\tau,uni} | A_{uni}) \right\|^2 \right].
- Auxiliary Expert Losses: ํ๊ณผ ์์ disentanglement (๋ถ๋ฆฌ) ๋ฐ specialization (ํนํ)๋ฅผ ๊ฐํํฉ๋๋ค: L_{\tau}^{hand}(\theta) = E \left[ \left\| H_{hand}(z_{hand}^t) - u_{hand}(A_{\tau,hand}^t | A_{hand}^t) \right\|^2 \right] ๋ฐ L_{\tau}^{arm}(\theta) = E \left[ \left\| H_{arm}(z_{arm}^t) - u_{arm}(A_{\tau,arm}^t | A_{arm}^t) \right\|^2 \right].
- Total Loss: ์ ์ฒด ํ์ต ๋ชฉํ๋ ๊ฐ์คํฉ์ ๋๋ค: L_{total} = L_{main} + \lambda (L_{hand} + L_{arm}).
- Corrective Human-in-the-Loop Teleoperation System (๊ต์ ์ ์ธ๊ฐ ๊ฐ์
ํ Teleoperation ์์คํ
)
- ๋ฐฐํฌ ์ค \pi_{uni}๊ฐ ์คํจํ ๊ฒฝ์ฐ, ์์คํ ์ ๊ณต์ ์์จ์ฑ ๋ชจ๋๋ก ์ ํ๋์ด ์ธ๊ฐ ์์ ์๊ฐ teleoperation์ ํตํด ๊ฐ์ ํ์ฌ ์คํจ๋ฅผ ๋ณต๊ตฌํฉ๋๋ค. ์ฑ๊ณต์ ์ธ ๊ถค์ ์ ๊ธ์ ์ ์ธ ์์ฐ์ผ๋ก ๊ธฐ๋ก๋๊ณ , ์คํจ ์ํผ์๋ ๋ฐ ๋ณต๊ตฌ ๊ถค์ ์ ๊ต์ ์์ฐ์ผ๋ก ํ๋ ์ด์ ๋ฉ๋๋ค.
- ํ์ต ๋ฐ์ดํฐ์ D^{(k)}๋ ์ฑ๊ณต์ ์ธ ์์จ ์ ์ฑ ์คํ ๋ฐ์ดํฐ D_{success}^{(k)}์ ์ธ๊ฐ ์๋ด ์คํจ ๋ณต๊ตฌ ๋ฐ์ดํฐ D_{corrective}^{(k)}๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: D^{(k)} = \{ (o_t, a_t) \}_{D_{success}^{(k)}} \cup \{ \langle o_{(fail)}^t, a_{(fail)}^t, o_{(rec)}^t, a_{(rec)}^t \rangle \}_{D_{corrective}^{(k)}}.
- ์ ์ฑ ์ ์ด ์ฆ๊ฐ๋ ๋ฐ์ดํฐ์ D_{uni} \cup D^{(k)}๋ฅผ ์ฌ์ฉํ์ฌ ์ง์์ ์ผ๋ก ์ฌํ์ต๋ฉ๋๋ค: \pi_{uni}^{(k+1)} = \text{SFT}(\pi_0; D_{uni} \cup D^{(k)}). ์ด ๋ฐ๋ณต์ ์ธ ๊ณผ์ ์ ์ ์ฑ ์ด ์ ์ง์ ์ผ๋ก ๋์ฑ ๋์ ์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ์ฒ๋ฆฌํ๋๋ก ํ์ตํ๋ self-improving cycle์ ์์ฑํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ ์ ์๋ ํ๋ ์์ํฌ์ ํจ๊ณผ๋ฅผ ์ ์ฆํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๊ณ ํ์ง์ arm-hand demonstration ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ ์ ์๊ฒ ํ๋ฉฐ, ์ด๋ 50๊ฐ ์ด์์ ๋ค์ํ ๋ฌผ์ฒด(๋ฏธํ์ธ ์ธ์คํด์ค ํฌํจ)์ ๋ํด ์ฝ 90%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ end-to-end VLA ์ ์ฑ ํ์ต์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค. DexGrasp-VLA ๋ชจ๋ธ, Arm-Hand Feature Enhancement module, Corrective Teleoperation system์ ํต์ฌ ๊ตฌ์ฑ ์์๋ค์ด ๋ชจ๋ ํ์์ ์ด๋ฉฐ ์ ์ฑ ์ฑ๋ฅ, ์ฑ๊ณต๋ฅ ๋ฐ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ํฅ์์ํด์ ์ข ํฉ์ ์ธ ablation study (์ ์ ์ฐ๊ตฌ)๋ฅผ ํตํด ํ์ธํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ ํฐ ๋ชจ๋ธ๋ก ํ์ฅํ๊ธฐ ์ ์ ๊ด๋ฒ์ํ ์๊ณ ๋ฆฌ์ฆ ์ ๋ต์ ํ์ํ๊ธฐ ์ํ ํ์์ ์ธ ํ ์คํธ๋ฒ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ด ์ฐ๊ตฌ๋ dexterous manipulation์ ์ด์ ์ ๋ง์ถ embodied intelligence (์ฒดํ๋ ์ง๋ฅ)๋ฅผ ์ํ ๊ฒฌ๊ณ ํ foundation model ๊ฐ๋ฐ์ด๋ผ๋ ๋ ๋์ ๊ณผ์ ๋ด์์ ์ ๋ต์ ์ผ๋ก ์์นํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ํจ๊ณผ์ ์ธ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํ์์ ์ธ ์ ์ ๋ motion trajectories, visual streams ๋ฐ high-frequency tactile-force signals๊ณผ ๊ฐ์ ์ด์ง์ ์ธ sensorimotor pathways (๊ฐ๊ฐ์ด๋ ๊ฒฝ๋ก)๋ฅผ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ํตํฉํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ์ดํด๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค. SFT๋ฅผ ํตํด, ์ฐ๊ตฌ์๋ค์ Arm-Hand Feature Enhancement module ๋ฐ ํจ๊ณผ์ ์ธ ์ด๊ฐ ํตํฉ ์ ๋ต๊ณผ ๊ฐ์ ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ํต์ ๋ ํ๊ฒฝ์์ ์ ์ํ๊ฒ ๋ถ๋ฆฌํ๊ณ ๊ฒ์ฆํ ์ ์์์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
๋ก๋ด ๊ณตํ์ ๊ถ๊ทน์ ๋ชฉํ ์ค ํ๋๋ ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉํ ์กฐ์(dexterous manipulation) ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ฒ์ฉ ๋ก๋ด์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋๋ค. ์ต๊ทผ Vision-Language-Action(VLA) ๋ชจ๋ธ์ด ๋ก๋ด ์ ์ด ๋ถ์ผ์์ ๊ด๋ชฉํ ๋งํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ์ด๋ฌํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ณธ์ง์ ์ผ๋ก ๋๊ท๋ชจ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ์ ์์กดํฉ๋๋ค. ํนํ ๋ค์ง(multi-finger) ๋ฏผ์ฒฉ ์์ ํฌํจํ ๊ณ ์์ ๋(high-DoF) ์์คํ ์ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ ์์ง์ ์ฌ๊ฐํ ๋ณ๋ชฉ ํ์์ ์ผ๊ธฐํฉ๋๋ค.
ByteDance Seed ์ฐ๊ตฌํ์ด 2025๋ 10์์ ๋ฐํํ ์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ์ด ํต์ฌ์ ์ธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ ์๋ค์ Shared Autonomy(๊ณต์ ์์จ์ฑ) ํจ๋ฌ๋ค์์ ํตํด ์ธ๊ฐ ์กฐ์์์ AI ์ ์ฑ ๊ฐ์ ์ญํ ๋ถ๋ด์ ๊ตฌํํ์ฌ, ๋ฐ์ดํฐ ์์ง์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ฉด์๋ ๊ณ ํ์ง์ ํ-์ ํ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
2. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋ฌธ์ ์ ์
2.1 ๊ธฐ์กด ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ํ๊ณ
ํ์ฌ ๋ฏผ์ฒฉ ์กฐ์์ ์ํ VLA ํ์ต์์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์ธ ๊ฐ์ง๋ก ๋๋ฉ๋๋ค:
์ฒซ์งธ, ์์ ์๋ ํ ๋ ์คํผ๋ ์ด์ (Full Manual Teleoperation)
๊ธฐ์กด์ leader-follower ์ค์ ์ด๋ VR ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ ์ ์กฐ์์๊ฐ ๋ก๋ด ํ์ 6 ์์ ๋์ ๋ฏผ์ฒฉ ์์ 12~21 ์์ ๋๋ฅผ ๋์์ ์ ์ดํด์ผ ํฉ๋๋ค. ์ ์๋ค์ ์ค์ ๊ฒฝํ์ ๋ฐ๋ฅด๋ฉด:
- ์๋ จ๋ ์กฐ์์๋ ์ ์ ์ ํผ๋ก ์์ด ์ฐ์ ์์ ํ ์ ์๋ ์๊ฐ์ ์ฝ 30๋ถ์ ๋ถ๊ณผ
- ๋น์๋ จ์์ ๊ฒฝ์ฐ 20๋ถ์ ์ฐ์ ํ ๋ ์คํผ๋ ์ด์ ๋ ์๋นํ ํผ๋ก๋ฅผ ์ ๋ฐ
- ๋์ ์ธ์ง ๋ถํ๋ก ์ธํด ๋ฐ์ดํฐ ํ์ง ์ ํ ๋ฐ ํ์ฅ์ฑ ์ ํ
๋์งธ, ๊ฐํํ์ต ๊ธฐ๋ฐ ์์จ ํ์ต
๋ก๋ด์ด ์ค์ค๋ก ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๋ ๋ฐฉ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ์ด ๊ฐ๋ฅํ์ง๋ง:
- ๋ค์ง ๋ฏผ์ฒฉ ์์ ์ ์ํ ์ข์ ์ปจํธ๋กค๋ฌ ์ค๊ณ๊ฐ ๋น์๋ช (non-trivial)
- ํ์ต๋ ์ ์ฑ ์ด ์ข ์ข ๋ถ์์ฐ์ค๋ฌ์ด ํ์ง(grasping) ์์ธ๋ฅผ ์์ฑ
์ ์งธ, ๋ชจ์ ํ๋๋ ๊ธฐ๋ฐ ์๋ํ
CuRobo ๋ฑ์ ๊ถค์ ์ต์ ํ ๋ฐฉ๋ฒ์ ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ์์ฑ์ด ๊ฐ๋ฅํ์ง๋ง ๋ ๊ฐ์ง ์น๋ช ์ ๋จ์ ์ด ์์ต๋๋ค:
- ๋์์ ๋ถ์์ฐ์ค๋ฌ์: ์์ฑ๋ ๋ก๋ด ๊ถค์ ์ด ๋ปฃ๋ปฃํ๊ณ ์๋ ๋ฉด์์ ๋นํจ์จ์
- ๋ถํฌ ๋ถ์ผ์น(Distribution Mismatch): ์๋ํ๋ ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ํน์ ์์ ์ ํ์ํ ๋ชฉํ ๋ถํฌ์ ์ง์ ์ผ๋ก ๋ถ์ผ์นํ๋ฉฐ, ์ธ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ํ์์ ๊ฑธ์ณ ํ์ตํ ๋ฏธ๋ฌํ ์์ ๊ด๋ จ โํธ๋ฆญโ์ ํฌ์ฐฉํ์ง ๋ชปํจ
2.2 ํต์ฌ ํต์ฐฐ: ํ๊ณผ ์์ ๊ทผ๋ณธ์ ์ฐจ์ด
์ ์๋ค์ ํ-์ ์์คํ ์ ์ด์ ์ 1์๋ฆฌ(First Principle)์์ ์ถ๋ฐํฉ๋๋ค:
| ๊ตฌ๋ถ | ํ(Arm) | ์(Hand) |
|---|---|---|
| ์ญํ | ๋งคํฌ๋ก ๋์ (Macro-movement) | ๋ง์ดํฌ๋ก ์กฐ์ (Micro-manipulation) |
| ํน์ฑ | ์ฅ๊ฑฐ๋ฆฌ ํฌ์ง์ ๋, ๋ถ๋๋ฌ์ด ์ฅ๊ธฐ ์ ์ด | ์ธ๋ฐํ๊ณ ์ ์ด์ด ํ๋ถํ ๋ค์ง ์ํธ์์ฉ |
| ์ ์ด ๋ชฉํ | End-effector ์์ธ์ ๋ถ๋๋ฌ์ด ์ ์ด | ์ปดํ๋ผ์ด์ธํธํ๊ณ ์ ์ด์ด ๋ง์ ์-๋ฌผ์ฒด ์ํธ์์ฉ |
| ์ธ์ง ๋ถํ | ๊ณต๊ฐ ์ถ๋ก , ์๋งจํฑ ์ดํด, ์ดํฌ๋์ค | ๊ณ ์ฐจ์ ๊ด์ ํ์, ํ ์กฐ์ |
์ด๋ฌํ ๊ทผ๋ณธ์ ์ฐจ์ด๋ฅผ ๋ฌด์ํ๊ณ ํ-์์ ๋จ์ผ ๋ชจ๋๋ฆฌ์ ์ปจํธ๋กค๋ฌ๋ก ์ฒ๋ฆฌํ๋ฉด: 1. ํ๊ณผ ์ ๊ฐ๊ฐ์ ๊ณ ์ ํ ์ด๋ํ์ /๋์ญํ์ ํน์ฑ์ ํฌ์ฐฉํ์ง ๋ชปํจ 2. ํ์ ๋ฐ ๊ฐ๊ฑด์ฑ์ด ์ ํ๋จ 3. ์๊ฐ์ ๋ฐฉํด(์นด๋ฉ๋ผ ๊ฐ๋ฆผ ๋ฑ)์ ์ทจ์ฝ
4. ์คํ ์ค์ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
4.1 ํ๋์จ์ด ํ๋ซํผ
๋ก๋ด ์์คํ :
- UR3e ํ๋ ๋ก๋ด ํ (6-DoF)
- Xhand 5์ง ์ (12-DoF)
- ๊ฐ ์๊ฐ๋ฝ ๋์ 120๊ฐ์ 3์ถ ํ ์ผ์ ์ด๋ ์ด
์ธ์ง ์์คํ :
- Intel RealSense D435i ร 2 (๊ณ ์ , ์ ์ญ ๊ด์ธก)
- Intel RealSense D405 ร 1 (์๋ชฉ ์ฅ์ฐฉ, Eye-in-hand)
4.2 ๋ฐ์ดํฐ์ ๊ตฌ์ฑ
| ๋ฐ์ดํฐ์ | ๋ชฉ์ | ๊ท๋ชจ | ํน์ง |
|---|---|---|---|
| LSTM ์ฌ์ ํ์ต | Blind grasping policy ํ์ต | 218๊ฐ ์์ฐ | 150 ํ ๋ ์คํผ๋ ์ด์ + 68 ์๋ ์์ฑ |
| \mathcal{D}_{hand} | DexGrasp-VLA ํ์ต | 180๊ฐ ๊ถค์ | 60๊ฐ ๊ฐ์ฒด, ํผ์ก ์ฅ๋ฉด |
| \mathcal{D}_{uni} | End-to-end VLA ํ์ต | 100๊ฐ ์์ฐ | 20๊ฐ ๊ฐ์ ์ฉ ๊ฐ์ฒด |
| \mathcal{D}_{orient} | ๋ฐฉํฅ ํนํ ์คํจ ๋ณต๊ตฌ | 50๊ฐ ๊ถค์ | ๊ต์ ํ ๋ ์คํผ๋ ์ด์ |
| \mathcal{D}_{corner} | ์ฝ๋ ์ผ์ด์ค ๋์ | 50๊ฐ ๊ถค์ | ๊ต์ ํ ๋ ์คํผ๋ ์ด์ |
4.3 ์ฃผ์ ์คํ ๊ฒฐ๊ณผ
4.3.1 DexGrasp-VLA ์ ์ ์ฑ (\pi_{hand}) ์ฑ๋ฅ
ํธ๋ํฌ๋ ์ค์ ์์ ํผ์กํ ํ์ ์๋๋ฆฌ์ค ํ๊ฐ:
- ํ ์คํธ ์กฐ๊ฑด: 5๊ฐ ์ฅ๋ฉด, 50๊ฐ ์ด์ ๊ฐ์ฒด (๋ค์ํ ํฌ๊ธฐ, ์์, ํํ, ์ฌ์ง)
- ์ฑ๊ณต๋ฅ : 95.5%
์ด ๊ฒฐ๊ณผ๋ ์ ์์ค VLA ์ ์ฑ ์ด ํผ์ก ํ๊ฒฝ์ ๊ฐ๊ฑดํ๊ฒ ์ฒ๋ฆฌํ๊ณ ๋ค์ํ ๊ฐ์ฒด ์์ฑ์ ์ผ๋ฐํ๋จ์ ํ์ธํฉ๋๋ค.
4.3.2 End-to-End ํ-์ VLA ์ ์ฑ (\pi_{uni}) ์ฑ๋ฅ
| ๊ฐ์ฒด ์ ํ | ์ฑ๊ณต๋ฅ |
|---|---|
| ๋ณธ ๊ฐ์ฒด (20๊ฐ) | 91.7% |
| ๋ฏธ๋ณธ ๊ฐ์ฒด (30+๊ฐ) | 85.6% |
| ํ๊ท | 88.7% |
ํ ์คํธ ์กฐ๊ฑด:
- ๊ฐ ๊ฐ์ฒด๋น 3ํ ์ํ
- 40cm ร 40cm ์์ ๊ณต๊ฐ ๋ด ๋ฌด์์ ์์น/๋ฐฉํฅ
- ํ์ง ํ ๋ชฉํ ๋ฐ๊ตฌ๋์ ๋ฐฐ์น
4.4 Ablation Study ๊ฒฐ๊ณผ
4.4.1 ์ด๊ฐ ์ผ์ฑ์ ํจ๊ณผ (\pi_{hand}์์)
ํ ์คํธ ํ๋กํ ์ฝ:
- Phase 1: ์ฑ๊ณต์ ํ์ง ํ 3์ด๊ฐ ์์ ์๊ฐ ์ ์ง
- Phase 2: 10์ด๊ฐ ์์ ์๊ฐ ์ฐจ๋จ ์ํ์์ ๋ฌผ์ฒด ์ ์ง
- ์ฑ๊ณต ์กฐ๊ฑด: ๋ ๋จ๊ณ ๋ชจ๋ ๋ฌผ์ฒด๋ฅผ ๋์น์ง ์์์ผ ํจ
| ์ด๊ฐ ๊ตฌ์ฑ | ํ๊ท ์ฑ๊ณต๋ฅ |
|---|---|
| ์ด๊ฐ ์์ (\pi_{hand-origin}) | 21% |
| ํฉ๋ ฅ๋ง (\pi_{hand-tacf}) | 70% |
| ํฉ๋ ฅ + ๊ณต๊ฐ ์๋ฒ ๋ฉ (\pi_{hand-tacf-tacs}) | 90% |
ํต์ฌ ๋ฐ๊ฒฌ:
- ์ด๊ฐ ํผ๋๋ฐฑ ์์ด๋ ์๊ฐ ์ฐจ๋จ ์ ๊ธ๊ฒฉํ ์ฑ๋ฅ ์ ํ
- ํฉ๋ ฅ ํน์ง๋ง์ผ๋ก๋ ์๋นํ ๊ฐ์ (21% โ 70%)
- ๊ณต๊ฐ ์ด๊ฐ ํน์ง ์ถ๊ฐ ์ ์ถ๊ฐ 20%p ๊ฐ์
- ๊ณต๊ฐ ์ด๊ฐ ํน์ง์ด ๊ตญ์ ์ ์ด ๋ฏธ๋๋ฌ์ง ๊ฐ์ง ๋ฐ ๋ณด์ ๊ฐ๋ฅ
๋ฌผ๋ฆฌ์ ํด์:
- ๊ณต๊ฐ ์ด๊ฐ ํน์ง: ์ ์ด ๋ฏธ๋๋ฌ์ง๊ณผ ์ด๋ ๊ฐ์ง/๋ณด์
- ํ ํฌ๊ธฐ ํน์ง: ์ ์ ํ ํ์ง๋ ฅ ์ ์ง
4.4.2 Arm-Hand Feature Enhancement์ ํจ๊ณผ
์ ํ๋ ์ธ์ง ์กฐ๊ฑด(์นด๋ฉ๋ผ ํ๋ ์ฐจ๋จ)์์ ํ ์คํธ:
flowchart LR
subgraph Baseline["Feature Enhancement ์์ด<br/>(Baseline VLA)"]
B1["๋จ์ผ undifferentiated ํํ"]
B2["์๊ฐ ๋ฐฉํด์ ์ทจ์ฝ"]
B3["ํ-์ ํ์ ๋ถ์์ "]
B1 --> B2 --> B3
end
subgraph Enhanced["Feature Enhancement ์ ์ฉ"]
E1["ํ: ๋๋ฌ ํนํ ํํ<br/>์: ํ์ง ํนํ ํํ"]
E2["๋ ์์ ์ ์ธ ์คํ"]
E3["๋์ ํ์ง ์ฑ๊ณต๋ฅ "]
E1 --> E2 --> E3
end
Baseline -.->|"๊ฐ์ "| Enhanced
style Baseline fill:#ffcdd2
style Enhanced fill:#c8e6c9
4.4.3 Corrective Teleoperation์ ํจ๊ณผ
๋ฐ๋ณต์ ๊ฐ์ ๋ฒค์น๋งํฌ:
| ์ ์ฑ ๋ฒ์ | ๋ฐฉํฅ ์คํจ | ์ฝ๋ ์ผ์ด์ค | ์ ์ฒด ์ฑ๊ณต๋ฅ |
|---|---|---|---|
| \pi_{uni-enhance} (์ด๊ธฐ) | ๋ค์ | ๋ค์ | ๋ฎ์ |
| \pi_{uni-orient} (๋ฐฉํฅ ํ๋) | ๊ฐ์ | ์ผ๋ถ | ๊ฐ์ |
| \pi_{uni-final} (์ต์ข ) | ์ต์ | ์ต์ | ~90% |
5. ๊ธฐ์ ์ ๊ธฐ์ฌ ๋ฐ ํ์ ์ ๋ถ์
5.1 ํต์ฌ ๊ธฐ์ฌ ์์ฝ
1. ๋ฉํฐ๋ชจ๋ฌ VLA Copilot for Dexterous Grasping
DexGrasp-VLA๋ ์๊ฐ, ์ด๊ฐ, ์ธ์ด, ๊ณ ์ ์์ฉ๊ฐ๊ฐ์ ๊ฐ๊ฑดํ๊ฒ ์ตํฉํ๋ ์ต์ด์ VLA Copilot์ ๋๋ค. ๋ฐ์์ ์ด๊ณ ์ปดํ๋ผ์ด์ธํธํ ์ธ๋ฐ ํ์ง ๋ฅ๋ ฅ์ ์ ์ด ์ฒ๋ฆฌ์ ํ ์ ์์ฑ์ด ๋ถ์กฑํ๋ ๊ธฐ์กด ๋ฐ์ดํฐ ์์ง ์ ๊ทผ๋ฒ ๋๋น ์ฃผ์ ์ง์ ์ ๋๋ค.
2. Shared Autonomy for Efficient Data Collection
์ธ๊ฐ ์กฐ์์์ VLA Copilot ๊ฐ์ ์ ์ด๋ฅผ ์ ๋ต์ ์ผ๋ก ๋ถํ ํ์ฌ ๋ฏผ์ฒฉ ์กฐ์์ ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ๊ทน๋ณตํฉ๋๋ค:
- ์ง๊ด์ ์ธ VR ํ ๋ ์คํผ๋ ์ด์ : ๊ณ ์์ค ํ ์๋ด
- ์ด๊ฐ ๊ฐํ DexGrasp-VLA: ์์จ ์ธ๋ฐ ํ์ง
์ด๋ฅผ ํตํด ์กฐ์์ ์ธ์ง ๋ถํ๋ฅผ ๋ํญ ๊ฐ์์ํค๊ณ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ์ ํจ์จ์ ์์ง์ ๊ฐ๋ฅ์ผ ํฉ๋๋ค.
3. End-to-End VLA with Arm-Hand Feature Enhancement
๋งคํฌ๋ก(ํ)์ ๋ง์ดํฌ๋ก(์) ๋์์ ์ ์ด๋ฅผ ์ ์ฉ ํน์ง ๊ฒฝ๋ก๋ฅผ ํตํด ๋ช ์์ ์ผ๋ก ๋ถ๋ฆฌํ๋ฉด์ ๊ณต์ ์ ์ญ ์์ ํํ์ ๋ณด์กดํฉ๋๋ค. ์ด ์ํคํ ์ฒ ํ์ ์ ํ๊ณผ ์์ ๊ตฌ๋ณ๋๋ ์ด๋ํ/๋์ญํ์ ํฌ์ฐฉํ์ง ๋ชปํ๋ ๋ชจ๋๋ฆฌ์ ์ปจํธ๋กค๋ฌ ๋ฌธ์ ๋ฅผ ์ง์ ํด๊ฒฐํ์ฌ:
- ์๋นํ ๋ ๊ฐ๊ฑดํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ-์ ํ์
- ์๊ฐ์ ์ฐจ๋จ์ ๋ํ ํฅ์๋ ํ๋ณต๋ ฅ
4. Corrective Human-in-the-Loop Teleoperation
๋ฐฐํฌ๋ ์ ์ฑ ์คํ์ ์ค๋จํ์ง ์๊ณ ์๋ํ๋ ๊ต์ ์ธ๊ฐ ๊ฐ์ ์ ๋์ ํ์ฌ, ์ค์ ๋ฐฐํฌ ์ค ๋กฑํ ์ผ ์คํจ ์ผ์ด์ค๋ก๋ถํฐ ์๋์ ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅ์ผ ํฉ๋๋ค. ์ด ์ ๊ทผ๋ฒ์:
- ์ฌ์ ์คํฌ๋ฆฝํธ ์์ฐ๊ณผ ํ์ฅ ๋ฐฐํฌ ๋ฐ์ดํฐ ํตํฉ
- ์ฌ์ ์ ์์ธกํ๊ธฐ ์ด๋ ค์ด ์ฝ๋ ์ผ์ด์ค์ ํ๊ฒ ์ปค๋ฒ๋ฆฌ์ง ์ ๊ณต
- ์๊ธฐ ๊ฐ์ ๋ฐ์ดํฐ ํ๋ผ์ดํ ๊ตฌ์ถ
5.2 ์ค๊ณ ์ฒ ํ ๊ด์ ์์์ ๋ถ์
์ ์๋ค์ ์ค๊ณ ์ฒ ํ์ ํ๋ ฅ์ ์ธ๊ฐ-AI ํ๋ ์์ํฌ ์์น์์ ์ถ๋ฐํฉ๋๋ค. ์ด๋ ๊ธฐ๊ด์ง ์ด๋ฌผ์ง ์ ๊ฑฐ๋ฅผ ์ํ AI-Copilot ๋ก๋ด ์ฐ๊ตฌ์ ์ ์ฌํ ์๋์ง๋ฅผ ์ถ๊ตฌํฉ๋๋ค:
- AI๊ฐ ๋จ์ํ ํ์ ์์ ์ํ โ ํจ์จ์ ํ์
- ์ธ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ฌ์ธํ ์ ๊ฑฐ ์ํ โ ์ ๋ฐ์ฑ๊ณผ ์์ ์ฑ ํฅ์
๋ง์ฐฌ๊ฐ์ง๋ก ํ์ง ์์ ์์:
- ์๊ฐ-์ด๊ฐ ๊ธฐ๋ฐ ํ์ง๋ VLA ๊ธฐ๋ฐ ์ ์ ์ด๋ก ์์จ ์คํ
- ์ธ๊ฐ์ ๋ค์ํ ์ฌ์ ํ์ง ์ํธ์์ฉ๊ณผ ํฌ์ง์ ๋ ์๋ด ์ํ
5.3 ํ์ฅ์ฑ์ ๋ํ ๊ณ ์ฐฐ
์ ์๋ค์ ์ด ์ฐ๊ตฌ๋ฅผ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํ์ ์ ์ ์กฐ๊ฑด์ผ๋ก ์์น์ํต๋๋ค:
โ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ํจ๊ณผ์ ์ ์ ๋ ์ด๋ฌํ ๊ตฌ๋ณ๋๋ ๊ฐ๊ฐ์ด๋ ๊ฒฝ๋ก๋ฅผ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ์ด๋ป๊ฒ ํตํฉํ ์ง์ ๋ํ ๊ทผ๋ณธ์ ์ดํด์ ๋๋ค.โ
SFT๋ฅผ ํ์ฉํ ๋ฏผ์ฒฉํ ์ฐ๊ตฌ ๋ฐ๋ณต์ ์ฅ์ : 1. ํต์ฌ ๊ตฌ์ฑ์์(Feature Enhancement, ์ด๊ฐ ํตํฉ ๋ฑ)๋ฅผ ํต์ ๋ ํ๊ฒฝ์์ ์ ์ํ ๊ฒฉ๋ฆฌ ๋ฐ ๊ฒ์ฆ 2. ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์๋งจํฑ ๋ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ ํจ์จ์ ํ์ฉ 3. ์ ์ฉํ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ์ ๊ทผ๋ณธ์ ๋ฌผ๋ฆฌ ์๋ฆฌ์ ์ง์ค
์๊ท๋ชจ์์ ๊ฐ๋ฐ๋๊ณ ๊ฒ์ฆ๋ ํจ๊ณผ์ ์๊ณ ๋ฆฌ์ฆ์ด:
- ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์์ง์ ์ํ ์ฒญ์ฌ์ง ์ ๊ณต
- ์ง์ ํ ์ธ๊ฐ ์์ค ๋ฌผ๋ฆฌ์ ์ง๋ฅ์ ๊ฐ์ถ ๋๊ท๋ชจ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต์ ์ฑ๊ณต ๊ฐ๋ฅ์ฑ ๊ฐํ
6. ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
6.1 ํ์ฌ ํ๊ณ
1. ๋ฐ์ดํฐ ๊ท๋ชจ
์ด๊ธฐ ๊ฐ๋ ์ฆ๋ช ๋จ๊ณ๋ก:
- End-to-end VLA: 100๊ฐ ์์ฐ
- ๊ต์ ๋ฐ์ดํฐ์ : ๊ฐ 50๊ฐ ๊ถค์
๋ ๋ค์ํ ์์ ๊ณผ ํ๊ฒฝ์ ๋ํ ํ์ฅ ํ์ํฉ๋๋ค.
2. ์์ ๋ฒ์
ํ์ฌ ์ฃผ๋ก pick-and-place ํ์ง ์์ ์ ์ด์ :
- ๋๊ตฌ ์ฌ์ฉ
- ์์ ์กฐ์
- ์ฅ๊ธฐ ์์
๋ฑ์ผ๋ก์ ํ์ฅ์ด ํ์ํฉ๋๋ค.
3. ํ๋์จ์ด ์์กด์ฑ
ํน์ ํ๋์จ์ด ๊ตฌ์ฑ(UR3e + Xhand)์ ์ต์ ํ:
- ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ ์ด ๊ฒ์ฆ ํ์
- ๋ค์ํ ์ด๊ฐ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ํ ์ ์
4. ํ ์ ์ด์ ์๋ฌต์ ํ์ต
ํ์ฌ ํ ์ ์ด๊ฐ ์ด๋๋ฏธํด์ค ๋ฐฉ์์ ํ๋ ๋ณต์ ๋ก ์๋ฌต์ ํ์ต: > โ๊ณ ๊ธ ํ ์ ์ด๊ฐ ๊ฐ๋ฅํ ๋ฏธ๋ ๋ฏผ์ฒฉ ์์ ๋ค๋ฅธ ๊ฐ์ฒด์ ๋ํ ์ฐธ์กฐ ์ ์ด๋ ฅ์ ์ง์ ์ ์ดํ์ฌ ๋ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅโ
6.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
1. ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ๋ฐ ์ฌ์ ํ์ต
Shared Autonomy ํ๋ ์์ํฌ๋ฅผ ํ์ฉํ:
- ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- ๋๊ท๋ชจ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต
2. ํ์คํฌ ์ผ๋ฐํ ํ์ฅ
- ๋ ๋ณต์กํ ์กฐ์ ์์ ์ผ๋ก ํ์ฅ
- ์์ ํ์ ์กฐ์
- ๋๊ตฌ ํ์ฉ ์์
3. Sim-to-Real Transfer ํตํฉ
์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ์ ์ค์ ๋ฐ์ดํฐ์ ๊ณต๋ ํ์ต: > โ์๋ฎฌ๋ ์ด์ ์ด ๊ธฐ์ด ๋ชจ๋ธ ์ฌ์ ํ์ต์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ๋์์ ์ ๊ณตํ์ง๋ง, ์ค์ ๋ฐ์ดํฐ๋ sim-to-real ์ ์ด, ๋ฏธ์ธ ์กฐ์ , ๊ณต๋ ํ์ต์ ํ์์ ์ ๋๋ค.โ
4. ์ฐ์ ์ ์ฉ
์ ์๋ค์ ์์ธก: > โํ๋์จ์ด์ ์ํํธ์จ์ด ์ต์ ํ์ ๋ ๋ง์ ํฌ์๋ฅผ ํ๋ฉด ์์คํ ์์ค ์ฑ๋ฅ์ด 95% ์ด์ ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฐ์ ํ์ค ์ด์ ์ ์ฐจ(SOP)์์ ์ฑํ ๊ฐ๋ฅํฉ๋๋ค.โ
7. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต ๋ถ์
7.1 ๊ธฐ์กด VLA ๋ชจ๋ธ๊ณผ์ ์ฐจ๋ณ์
| ์ธก๋ฉด | ๊ธฐ์กด VLA | ๋ณธ ์ฐ๊ตฌ |
|---|---|---|
| End-effector | ์ฃผ๋ก 2ํ๊ฑฐ ๊ทธ๋ฆฌํผ | 12-DoF 5์ง ๋ฏผ์ฒฉ ์ |
| ํ-์ ์ฒ๋ฆฌ | ๋ชจ๋๋ฆฌ์ ์ปจํธ๋กค๋ฌ | ๋ช ์์ ํน์ง ๋ถ๋ฆฌ |
| ์ด๊ฐ ํตํฉ | ์ ์ฒด ์ฌํ์ต ๋๋ ๋ณต์กํ ๊ตฌ์กฐ | ๋ชจ๋์, ๋์ ์ ๋ฌธ๊ฐ์๋ง ์ฃผ์ |
| ๋ฐ์ดํฐ ์์ง | ์์ ์๋ ๋๋ ์์ ์๋ | Shared Autonomy |
7.2 ์ด๊ฐ VLA ์ฐ๊ตฌ์์ ์ฐจ๋ณ์
VLA-Touch: ์ฌ์ ํ์ต๋ ์ด๊ฐ-์ธ์ด ๋ชจ๋ธ + ํ์ฐ ์ปจํธ๋กค๋ฌ Tactile-VLA: ํ์ด๋ธ๋ฆฌ๋ ์์น-ํ ์ ์ด + ์์ ์ถ๋ก OmniVTLA: ๋๊ท๋ชจ 3๋ชจ๋ฌ ๋ฐ์ดํฐ์ + ์๋งจํฑ ์ ๋ ฌ
๋ณธ ์ฐ๊ตฌ์ ์ฐจ๋ณ์ :
- ๋ชจ๋์ ์ค๊ณ: ์ด๊ฐ ํผ๋๋ฐฑ์ ๋์ ์ ๋ฌธ๊ฐ์๋ง ๊ตญ์ ์ฃผ์
- Vision-language ๋ฐฑ๋ณธ ์์ ๋ณด์กด
- ์ ์ฒด ์ฌํ์ต ์์ด ํจ์จ์ ํ์ต ๋ฐ ๋ฐฐํฌ
- ์คํ ์ค ์ ์ฉํ ์ด๊ฐ ์ ์ง ์ ์ง
8. ๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ๋ฏผ์ฒฉ ์กฐ์์ ์ํ VLA ํ์ต์ ํต์ฌ ๋ณ๋ชฉ์ธ ๋ฐ์ดํฐ ์์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฒด๊ณ์ ์ด๊ณ ์ค์ฉ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฉ์์ง:
์ 1์๋ฆฌ์์ ์ถ๋ฐ: ํ๊ณผ ์์ ๊ทผ๋ณธ์ ์ด๋ํ/๋์ญํ ์ฐจ์ด๋ฅผ ์ธ์ ํ๊ณ ์ด๋ฅผ ์ํคํ ์ฒ์ ํ์ต ํ๋ก์ธ์ค์ ๋ช ์์ ์ผ๋ก ๋ฐ์
์ธ๊ฐ-AI ์๋์ง: ์ธ๊ฐ์ ๊ณ ์์ค ์ธ์ง ๋ฅ๋ ฅ(๊ณต๊ฐ ์ถ๋ก , ์๋งจํฑ ์ดํด)๊ณผ AI์ ์ธ๋ฐํ ๋ฐ์์ ์ ์ด๋ฅผ ๊ฒฐํฉํ์ฌ ๋ ๊ฐ์ง ์ฅ์ ์ ๋ชจ๋ ํ์ฉ
์ค์ฉ์ ์์คํ ๊ด์ : ์ด๋ก ์ ์ฐ์ํจ๋ณด๋ค ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ์ด์ ์ ๋ง์ถ ์ค๊ณ ์ฒ ํ
๋ฐ๋ณต์ ๊ฐ์ : ์ ์ ์ธ ๋จ์ผ ํ์ต์ด ์๋ ์ง์์ ์ธ human-in-the-loop ๊ฐ์ ์ ํตํ ๋กฑํ ์ผ ๋ฌธ์ ํด๊ฒฐ
๋ก๋ด๊ณตํ์์๊ฒ ์ฃผ๋ ์์ฌ์ :
- VLA ๋ชจ๋ธ์ ํ์ฅ์ฑ์ ๋จ์ํ ๋ชจ๋ธ ํฌ๊ธฐ๋ ๋ฐ์ดํฐ ์์ด ์๋ ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ถํฌ์ ํฌ๊ฒ ์์กด
- ๊ณ ์์ ๋ ์์คํ ์ ๊ฒฝ์ฐ ๋ชจ๋๋ฆฌ์ ์ ๊ทผ๋ณด๋ค ๊ธฐ๋ฅ์ ๋ถํด๊ฐ ๋ ํจ๊ณผ์
- ์ด๊ฐ ์ผ์ฑ์ ์๊ฐ์ ๋ณด์กฐ๊ฐ ์๋ ํ์์ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์ธ์ํด์ผ ํจ
- ์ค์ ๋ฐฐํฌ์์๋ ์๋ฒฝํ ์ ์ฑ ๋ณด๋ค ์ง์์ ๊ฐ์ ๊ฐ๋ฅํ ์์คํ ์ด ๋ ์ค์
์ด ์ฐ๊ตฌ๋ ๋ฏผ์ฒฉ ์กฐ์์ ์ํ ๋๊ท๋ชจ ๊ธฐ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ค์ํ ๋๋ค๋์ ์ ๊ณตํ๋ฉฐ, ํนํ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง๊ณผ ํจ๊ณผ์ ์ธ ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ์ด๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ๊ณผ์ ์ ๋ํ ์ค์ฉ์ ํด๋ฒ์ ์ ์ํฉ๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์์ฝ: ์ธ๊ฐ ์์ค์ ์ ์ฌ์ฃผ(dexterity)๋ฅผ ๋ก๋ด์ ๋ถ์ฌํ๋ ๊ฒ์ ๋ก๋ด๊ณตํ์ ๋์ ์ ๋๋ค. ์ต๊ทผ Vision-Language-Action (VLA) ๋ชจ๋ธ ๋ฑ์ ๋ฐ์ ์ผ๋ก ์๊ฐ, ์ธ์ด, ๋์์ ํตํฉํ ์ ์ฑ ํ์ต์ด ์ฃผ๋ชฉ๋ฐ์ง๋ง, ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ ๋ถ์กฑ์ด ๊ฑธ๋ฆผ๋์ ๋๋ค. ์ด๋ฒ ๋ฆฌ๋ทฐ์์๋ 2025๋ 12์ ๊ณต๊ฐ๋ ๋ ผ๋ฌธ โEnd-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collectionโ์ ๋ด์ฉ์ ์ฌ์ธต ํด์คํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ VR ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ ๊ณผ ๊ณต์ ์์จ์ ์ด(Shared Autonomy)๋ฅผ ์ ๋ชฉํ์ฌ ์ฌ๋ ํ(Arm) ์์ง์์ ์ฌ๋์ด ์ ์ดํ๊ณ , ์ฌ์ธํ ์(Hand) ๋์์ AI ์ ์ฑ ์ด ๋ณด์กฐํ๋ ์๋ก์ด ๋ฐ์ดํฐ ์์ง ๋ฐ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋์ ์ธ์ง ๋ถํ๋ฅผ ์ค์ด๊ณ ์งง์ ์๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ๋ก๋ด ํ-์ ํ์กฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ฉฐ, ์ด๋ ๊ฒ ๋ชจ์ ๋ฐ์ดํฐ๋ก Arm-Hand ํน์ง ๊ฐํ ๋ชจ๋์ ๊ฐ์ถ End-to-End VLA ์ ์ฑ ์ ํ์ตํด ๋ค์ํ ๋ฌผ์ฒด์ 90%์ ๋์ ์กฐ์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค. ๋ํ ๊ต์ ํ ๋ ์คํผ๋ ์ด์ (Corrective Teleoperation)์ ๋์ ํ์ฌ, ๋ฐฐ์น ํ๊ฒฝ์์ ์ฌ๋์ด ์คํจ ์ํฉ์ ์ค์๊ฐ ๊ฐ์ ยท์์ ํ๋ฉฐ ์ ์ฑ ์ ๊ณ์ ๊ฐ์ ํ๋ ํด๋จผ ์ธ ๋ ๋ฃจํ ํ์ต ์ ๋ต์ ์ ๋ณด์ ๋๋ค. ๋ณธ๋ฌธ์์๋ VR ํ ๋ ์ต ์ ์ด์ VLA ๋ชจ๋ธ, Shared Autonomy ๊ฐ๋ ์ ๋จผ์ ์ค๋ช ํ๊ณ , ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ๋ก (๋ชจ๋ ๊ตฌ์ฑ, ํ์ต ์ ์ฐจ, ๊ณต์ ์์จ ๊ตฌ์กฐ)์ ์์ธํ ๋ถ์ํฉ๋๋ค. ๋์๊ฐ ์คํ ํ๊ฒฝ๊ณผ ๊ฒฐ๊ณผ (์ ๋์ ์ฑ๋ฅ, ์ง์ ์ฌ๋ก, ablation ์คํ)๋ฅผ ์ดํด๋ณด๊ณ , ๋ ผ๋ฌธ์ ์ ์๋ ์ฃผ์ ๊ทธ๋ฆผ๊ณผ ํ๋ฅผ ์ธ์ฉํ์ฌ ๊ฐ๊ฐ์ ์๋ฏธ๋ฅผ ์์ธํ ํด์คํ๊ฒ ์ต๋๋ค.
1. ๊ธฐ์ ๋ฐฐ๊ฒฝ
์ฌ์ธํ ๋ฌผ์ฒด ์กฐ์ ๋ฅ๋ ฅ์ ์ง๋ ๋ง๋ฅ ๋ก๋ด์ ์ค๋ ๋ก๋ด๊ณตํ์ ๋ชฉํ์ ๋๋ค. ์ธ๊ฐ์ฒ๋ผ ๋ค์ํ ๋๊ตฌ์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ค๋ฉด ์ฌ๋์ ํ๊ณผ ์์ด ์ด๋ฃจ๋ ๋ณต์กํ ํ์กฐ ์ด๋์ ๋ก๋ด์ด ํ์ตํด์ผ ํฉ๋๋ค. ์ต๊ทผ ์ธ๊ณต์ง๋ฅ ํ์ต ๊ธฐ๋ฒ์ผ๋ก ์ด๋ฌํ ๊ณ ์ฐจ์ ์ ์ด๋ฅผ ์ตํ๋ ค๋ ์ ๊ทผ์ด ํ๋ฐํ๋ฐ, ํนํ Vision-Language-Action (VLA) ๋ชจ๋ธ ๋ฑ์ ๋ค์ค๋ชจ๋ฌ ์ ์ฑ ํ์ต์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋ฐ์ดํฐ ์ค์ฌ ์ ๊ทผ์๋ ๋๋์ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ํ์ฌ ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์์ด ํฐ ์ ์ฝ์ ๋๋ค. ๋ณธ ์ ์์๋ ๋ณธ ๋ ผ๋ฌธ์ด ๋ค๋ฃจ๋ ํต์ฌ ๋ฐฐ๊ฒฝ ๊ธฐ์ ์ธ VR ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ , VLA ์ ์ฑ , Shared Autonomy ๊ฐ๋ ์ ํ๋์ฉ ์ค๋ช ํฉ๋๋ค.
1.1 VR ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์
ํ ๋ ์คํผ๋ ์ด์ (Teleoperation)์ ์๊ฒฉ ์กฐ์์ ์๋ฏธํ๋ฉฐ, ๋ก๋ด๊ณตํ์์๋ ์ฌ๋์ด ๋ฉ๋ฆฌ ๋จ์ด์ง ๋ก๋ด์ ์ง์ ์กฐ์ข ํ๋ ๊ฒ์ ๊ฐ๋ฆฌํต๋๋ค. ํนํ VR(Virtual Reality, ๊ฐ์ํ์ค) ๊ธฐ์ ์ ๋ฐ๋ฌ๋ก, ์ฌ๋์ VR ํค๋์ ๊ณผ ๋ชจ์ ์ปจํธ๋กค๋ฌ ๋ฑ์ ์ ์ถ๋ ฅ ์ฅ์น๋ฅผ ํตํด ๋ง์น ๋ก๋ด์ ๋๊ณผ ์์ด ๋ ๊ฒ์ฒ๋ผ ๋ชฐ์ ๊ฐ ์๊ฒ ๋ก๋ด์ ์กฐ์ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ VR ์ฅ๋น๋ฅผ ์ฐฉ์ฉํ๋ฉด ๋ก๋ด์ ์์ ์นด๋ฉ๋ผ ์์์ด ์ค์๊ฐ์ผ๋ก VR ํ๋ฉด์ ๋ํ๋๊ณ , ์ฌ์ฉ์์ ์ ๋์์ด๋ ์ปจํธ๋กค๋ฌ ์์ง์์ด ๋ก๋ด ํ๊ณผ ์์ ์์ง์์ผ๋ก ๋งคํ๋์ด ์ง๊ด์ ์ธ ์ ์ด๊ฐ ๊ฐ๋ฅํด์ง๋๋ค.
์ด๋ฌํ VR ํ ๋ ์คํผ๋ ์ด์ ์ ๊ธฐ์กด์ ํค๋ณด๋/๋ง์ฐ์ค ๋๋ ํฌ๋ํธ ์กฐ์๋ณด๋ค ์์ฐ์ค๋ฌ์ด ์ฌ๋-๋ก๋ด ์ํธ์์ฉ์ ์ ๊ณตํฉ๋๋ค. ๋ณต์กํ 6์์ ๋ ๋ก๋ด ํ์ ์์น/์์ธ ์ ์ด๋ ์ฌ์ฉ์๊ฐ ์์ ๋ป๋ ๋์์ผ๋ก ์ฝ๊ฒ ์ ๋ ฅํ ์ ์๊ณ , ์ฌ๋ฌ ์นด๋ฉ๋ผ ๋ทฐ๋ฅผ VR๋ก ํตํฉํ์ฌ ์๊ฒฉ ํ์ฅ๊ฐ์ ๋์ผ ์ ์์ต๋๋ค. ๋ํ ํ ํฑ ํผ๋๋ฐฑ ์ฅ์น๊ฐ ์๋ค๋ฉด ์๊ฒฉ ํ๊ฒฝ์ ์ด๊ฐ์ด๋ ํ ๋๋๊น์ง ์ ๋ฌ๋์ด, ์ฌ๋์ด ์ฌ์ธํ ์์ ์ ์ํํ๋ ๋ฐ ๋์์ ์ค๋๋ค. ์ด๋ฌํ ์ฅ์ ๋์ VR ํ ๋ ์คํผ๋ ์ด์ ์ ์ฐ์ฃผ ๋ก๋ด, ์์๋ ฅ ํ๋ํธ, ์๋ฃ ์์ ๋ก๋ด ๋ฑ ์ํํ๊ฑฐ๋ ์ธ๊ฐ์ด ์ง์ ์ ๊ทผํ๊ธฐ ์ด๋ ค์ด ๋ถ์ผ์์ ์๊ฒฉ ์กฐ์ ์๋ฃจ์ ์ผ๋ก ์ฐ๊ตฌ๋์ด ์์ต๋๋ค.
ํ์ง๋ง VR ํ ๋ ์คํผ๋ ์ด์ ์๋ ํ๊ณ์ ๋ถ๋ด์ด ์กด์ฌํฉ๋๋ค. ๊ณ ์์ ๋ ๋ก๋ด(์: 6-DoF ํ + ๋ค(๋ค)์์ ๋ ์)์ ์จ์ ํ ์ธ๊ฐ์ด ์ ์ดํ๋ ค๋ฉด ์ฌ๋์ ๋์์ ๋งค์ฐ ๋ง์ ๊ด์ ์ ๋ค๋ค์ผ ํฉ๋๋ค. ์์ปจ๋ ๋ก๋ด์ ํ ๊ด์ 6๊ฐ, ์๊ฐ๋ฝ ๊ด์ 10์ฌ ๊ฐ๋ฅผ ํ ์ฌ๋์ด ํ๊บผ๋ฒ์ ์ค์๊ฐ ์กฐ์ข ํ๋ ๊ฒ์ ์ธ์ง ๋ถํ(cognitive load)๊ฐ ๋ง๋ํฉ๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ ์ ์๋ค์ ์์ ์๋์ผ๋ก ํ-์ ๋ชจ๋ ๊ด์ ์ ์กฐ์ํ ๊ฒฝ์ฐ, ํ๋ จ๋ ์ฌ๋๋ 20~30๋ถ ์ ๋๊ฐ ์ง๋๋ฉด ์ฌ๊ฐํ ํผ๋ก๋ฅผ ๋๋ผ๊ณ ์ง์ ์กฐ์์ด ์ด๋ ต๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ ํ๊ณ ์ด์์ ๋์ ์ ๋ณด ์ฒ๋ฆฌ์ ์ ์ฒด ํผ๋ก๋ฅผ ์ ๋ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ ์ฅ์๊ฐ, ๋๊ท๋ชจ์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ฐ ์์ VR ์๋ ์กฐ์์ ๋นํจ์จ์ ์ ๋๋ค.
๋ํ VR ํ ๋ ์คํผ๋ ์ด์ ์ ์ฌ๋์ ์๋ จ๋์ ์ฑ๋ฅ์ด ์ข์ฐ๋๊ณ , ์ผ๊ด์ฑ ์๋ ๋ฐ์ดํฐ ํ๋ณด๋ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ฌ๋์ ์๊ฐ์ด ์ง๋ ์๋ก ์ง์ค๋ ฅ์ด ๋จ์ด์ง๊ณ , ์ฃผ๊ด์ ์ ๋ต ์ฐจ์ด๋ก ํธ์ฐจ๊ฐ ์๊ธธ ์ ์์ต๋๋ค. ๊ฒฐ๊ตญ ํ์ต์ฉ ์์ฐ ๋ฐ์ดํฐ ํ์ง์๋ ์ํฅ์ ์ฃผ์ฃ . ์ด๋ฌํ ์ด์ ๋ก ์์ ์๋ ํ ๋ ์คํผ๋ ์ด์ ๋ง์ผ๋ก ๋ฐฉ๋ํ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ธฐ์ ํ์ค์ ์ธ ์ ์ฝ์ด ์์ต๋๋ค.
์์ฝํ๋ฉด, VR ๊ธฐ๋ฐ ์๊ฒฉ์กฐ์์ ์ธ๊ฐ์ ์ง๊ด๊ณผ ํ๋จ๋ ฅ์ ํ์ฉํด ๋ก๋ด์ ์ ๊ตํ๊ฒ ์ ์ดํ ์ ์๋ ๊ฐ๋ ฅํ ์๋จ์ด์ง๋ง, ์ฌ๋์ ๊ณผ๋ถํ์ ํผ๋ก๋ก ์ง์์ฑ์ด ๋จ์ด์ง๋ฉฐ ๋ชจ๋ ์์ ๋๋ฅผ ๋์์ ์ ์ดํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ถ๋ถ์ AI์ ๋ณด์กฐ ์ ์ด๋ก ์ํํ๋ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
1.2 Vision-Language-Action (VLA) ์ ์ฑ
Vision-Language-Action(VLA) ๋ชจ๋ธ์ ์ต๊ทผ ๊ฐ๊ด๋ฐ๋ ๋ก๋ด ์ ์ด ์ธ๊ณต์ง๋ฅ ํจ๋ฌ๋ค์์ผ๋ก, ์๊ฐ, ์ธ์ด, ํ๋ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ์ผ๋ฐ์ ์ด๊ณ ์ ์ฐํ ๋ก๋ด ์ ์ด๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ฐ๋จํ ๋งํด, VLA ๋ชจ๋ธ์ ์นด๋ฉ๋ผ ์์(vision)๊ณผ ์ธ์ด ๋ช ๋ น ๋๋ ์ค๋ช (language)์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ๋ก๋ด์ ํ๋(action) ์ถ๋ ฅ์ ์ฐ์ถํ๋ ์ข ๋จ๊ฐ(end-to-end) ์ ์ฑ ์ ๋๋ค. ์ด๋ ์ฌ๋์ ์ธ์ง์ ์ ์ฌํ๊ฒ, ๋ก๋ด์ด ์๊ฐ์ ์ผ๋ก ์ฃผ๋ณ ํ๊ฒฝ์ ์ดํดํ๊ณ ์ธ์ด์ ์ง์๋ ์๋ฌด ์ค๋ช ์ ํด์ํ์ฌ ์๋ง์ ๋ฌผ๋ฆฌ์ ํ๋์ ๊ฒฐ์ ํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
VLA ์ ๊ทผ์ ๊ฑฐ๋ ์ฌ์ ํ์ต๋ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์ ํํ๋ ฅ๊ณผ ์ถ๋ก ๋ ฅ์ ๋ก๋ด ์ ์ด์ ํ์ฉํ๋ค๋ ํน์ง์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฑฐ๋ํ ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ต๋ CLIP, ViLD, PaLM-E ๋ฑ์ ๋ชจ๋ธ์ ๋ก๋ด์ โ๋โ๋ก ์ฌ์ฉํ๊ณ , ์ถ๊ฐ๋ก ๊ฐ๋ฒผ์ด ํ๋ ๊ฒฐ์ ๋ชจ๋(action head)์ ๋ถ์ฌ ํ์ต ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ (fine-tuning)ํ๋ฉด, ๋ก๋ด์ด ๋ณต์กํ ์๊ฐ ํ๊ฒฝ๊ณผ ๋ค์ํ ์ธ์ด ์ง์๋ฅผ ์ดํดํ๊ณ ๋์ํ ์ ์๋ค๋ ์์ด๋์ด์ ๋๋ค. ๊ตฌ๊ธ์ SayCan, RT-2, BEHAVIOR, PaLM-E, Stanford์ VIMA ๋ฑ ์ฌ๋ฌ VLA ๊ธฐ๋ฐ ์๋๊ฐ ์ต๊ทผ ๋ณด๊ณ ๋์์ต๋๋ค. ์ด๋ค ๋๋ถ๋ถ์ ํฝ์คํ๋ ์ด์ค์ฒ๋ผ ์งง์ ๊ณผ์ ๋ ๊ฐ๋จํ ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ ์ฌ๋ก๊ฐ ๋ง์์ง๋ง, ๋ฒ์ฉ ๋ก๋ด์ ์งํฅํด ๋ค์์ ๋ ์์ผ๋ก ํ์ฅํ๋ ค๋ ์ฐ๊ตฌ๋ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ VLA๋ผ๋ ์ฉ์ด๋ฅผ ์ฌ์ฉํ๊ณ ์๋๋ฐ, ํนํ DexGrasp-VLA๋ผ ๋ช ๋ช ํ ์ ์ฑ ๊ณผ arm-hand VLA ์ ์ฑ ์ ์๊ฐํฉ๋๋ค. ํผ๋ ์ฃผ์: ์ฌ๊ธฐ์ VLA๋ โVirtual Lagrangian Augmentationโ์ด ์๋ Vision-Language-Action์ ์ฝ์์ ๋๋ค. ์ฆ ์๊ฐ+์ธ์ด+ํ๋ ์ ์ฑ ์ ์๋ฏธํ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ์ธ๊ณต์ง๋ฅ ์ ์ฑ ์ ๊ฐ๋ฆฌํต๋๋ค. ๋ฐ๋ผ์ VLA ์ ์ฑ ์ด๋ผ ํ๋ฉด, ํ๋์ ์ ๊ฒฝ๋ง์ด ์๊ฐ ์ ๋ ฅ(์นด๋ฉ๋ผ ์์), ์ธ์ด ์ ๋ ฅ(๋ช ๋ น), ์ํ ์ ๋ ฅ(๋ก๋ด ๊ด์ ๋ฑ)์ ๋ฐ์ ๋ก๋ด์ ๋ชจ๋ ๊ด์ ๋ช ๋ น์ ์ถ๋ ฅํ๋ ์ข ๋จ๊ฐ ์ ์ฑ ์ ๋ปํฉ๋๋ค. ์ด ์ ์ฑ ์ ์ฌ๋ ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋๋ฉฐ, ํ์ต ํ์๋ ์ธ์ด๋ก ํน์ ๋์์ ์ง์ํ๊ฑฐ๋ ์๊ฐ์ ๋ฐ๋ผ ์ ์ ํ ๋์ฒํ๋ ์ผ๋ฐํ๋ ๋ก๋ด ์ปจํธ๋กค๋ฌ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ง๋ง VLA ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๋ จ ๋ฐ์ดํฐ์ ํฌ๊ฒ ์ข์ฐ๋ฉ๋๋ค. ํนํ ๋ค์์ ๋ ์ ์กฐ์์ ๊ฒฝ์ฐ, ์ฌ๋์ ๋ฏธ์ธํ ์๋์ ๋ฐ์ดํฐ๊ฐ ๋ง์ด ํ์ํฉ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ธ๊ฐ ์์์์ ๋ชจ์ ์ถ์ถํ๊ฑฐ๋, ๋ถ๋ฆฌ๋ ๊ณํ๊ธฐ+์คํ๊ธฐ ๊ตฌ์กฐ๋ก ์ ๊ทผํ๊ธฐ๋ ํ์ต๋๋ค. ๊ทธ๋ฌ๋ ์ฌ์ ํ ์ค์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ง์ด ํ๋ณดํ๋ ๊ฒ์ด ๊ณผ์ ์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ด ์ ์ํ๋ ๋ฐฉ๋ฒ์ Shared Autonomy๋ก ๋ฐ์ดํฐ ์์ง ํจ์จ์ ๋์ฌ ์ด ๋ฌธ์ ๋ฅผ ํ๊ณ , ๋์์ ์-ํ ํ์กฐ ํน์ง์ ์ ํ์ตํ๋๋ก ํน๋ณํ ๋คํธ์ํฌ ๊ตฌ์กฐ(Arm-Hand Feature Enhancement)๋ฅผ ๋์ ํ ์ ์ด ํน์ง์ ๋๋ค.
์ ๋ฆฌํ๋ฉด, VLA ์ ์ฑ ์ ์๊ฐ๊ณผ ์ธ์ด์ ํ๋ถํ ํํ๋ ฅ์ ํ์ฉํด ๋ก๋ด ํ๋์ ํ์ตํ๋ ์ต์ฒจ๋จ ๊ธฐ๋ฒ์ด๋ฉฐ, ๋ณธ ์ฐ๊ตฌ๋ ์ด ๊ฐ๋ ์ ์ฌ์ธํ ์-ํ ์กฐ์์ ์ ์ฉํ๊ธฐ ์ํด ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง ๊ธฐ๋ฒ๊ณผ ์ ์ฉ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ฐํ ๊ฒ์ ๋๋ค.
2. ๋ ผ๋ฌธ ์ ์ ๋ฐฉ๋ฒ๋ก
์ด์ ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ End-to-End ์-ํ VLA ์ ์ฑ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ ํฌ๊ฒ ๋ค ๊ฐ์ง ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ฉฐ Fig. 2์ ์ ์ฒด ํ๋ฆ์ด ์์ฝ๋์ด ์์ต๋๋ค:
Figure 2: ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐ์ดํฐ ์์ง ๋ฐ ํ์ต ํ์ดํ๋ผ์ธ ๊ฐ์. ๊ฐ ๋จ๊ณ๋ (a)-(d)๋ก ํ์๋์ด ์์ต๋๋ค: (a) ๋จผ์ DexGrasp AI ์ฝํ์ผ๋ฟ์ ํ๋ จํฉ๋๋ค. ์ด๋ LSTM ๊ธฐ๋ฐ์ ํ-์ ์ ๊ทธ๋ฆฝ (force-adaptive grasping) ์ ์ฑ ์ ์์์ผ๋ก, ์ด๊ฐ+์๊ฐ ํผ๋๋ฐฑ์ ์ฌ์ฉํ๋ ์์จ ์ ์ ์ด ์ ์ฑ ์ ์์ฑํ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ ๊ฒ ์ป์ DexGrasp-VLA ์ ์ฑ ์ด ์ดํ Shared Autonomy์์ ๋ก๋ด ์์ ์๋ ์ ์ดํ๋ ๋ชจ๋์ด ๋ฉ๋๋ค. (b) ํ๋ จ๋ DexGrasp-VLA๋ฅผ ํ์ฉํ์ฌ Shared Autonomy ๋ฐ์ดํฐ ์์ง์ ์ํํฉ๋๋ค. ์ธ๊ฐ ์ด์์๋ VR๋ก ํ์ ํ ๋ ์คํผ๋ ์ด์ ํ๊ณ , ์์ AI ์ฝํ์ผ๋ฟ์ด ์ก๋๋ก ํ์ฌ, ํ-์ ๋์์ด ๋๊ธฐํ๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ชจ์๋๋ค. (c) ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด Arm-Hand Feature Enhancement ๋ชจ๋์ด ํฌํจ๋ End-to-End VLA ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ด ์ ์ฑ ์ ์๊ฐ/์ธ์ด/์ํ ์ ๋ ฅ์ผ๋ก๋ถํฐ ํ๊ณผ ์์ ๋ชจ๋ ๊ด์ ๋ช ๋ น์ ํ๊บผ๋ฒ์ ์์ธกํ๋ ๋ชจ๋ธ์ด๋ฉฐ, ๋ณ๋์ ํ/์ ํน์ง ๊ฒฝ๋ก๋ฅผ ๋์ด ๋งคํฌ๋ก-๋ง์ดํฌ๋ก ํ์กฐ๋ฅผ ํฅ์์ํจ ๊ฒ์ด ํต์ฌ์ ๋๋ค. (d) ๋ง์ง๋ง์ผ๋ก, ๋ฐฐ์น ์ ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์ ๊ฐ๋ํ์ฌ ์ง์์ ์ผ๋ก ์ ์ฑ ์ ๊ฐ์ ํฉ๋๋ค. ํ์ต๋ ์ ์ฑ ์ด ์์จ ์คํ๋๋ค๊ฐ ์คํจํ๋ฉด ์ฌ๋์ด ๊ฐ์ ํด ์์ ํ๊ณ , ๊ทธ ๊ต์ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ์ ์ฑ ์ ๋ฐ์(fine-tuning)ํ์ฌ ๊ฐ๊ฑด์ฑ์ ๋์ ๋๋ค.
์ด ์ ์ฒด ์์คํ ์ ๋ชฉํ๋ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง๊ณผ ์ง์์ ํ์ต ๊ณ ๋ํ๋ฅผ ํตํด, ๋ก๋ด์ด ์ฌ๋ ์์ค์ ์ฌ์ธํ ์กฐ์ ๊ธฐ์ ์ ์ตํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ด์ ๊ฐ ๊ตฌ์ฑ ์์์ ๋จ๊ณ๋ฅผ ์ธ๋ถ์ ์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2.1 ์ ์ฒด ์์คํ ๊ฐ์
๋ณธ ํ๋ ์์ํฌ๋ฅผ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด: โ์ฌ๋-๋ก๋ด ํ์ ์ ํตํด ์ฌ์ธํ ์-ํ ์์ฐ์ ๋น ๋ฅด๊ฒ ๋ชจ์ผ๊ณ , ์ด๋ฅผ ๋ค์ค๋ชจ๋ฌ ์ ์ฑ ์ผ๋ก ํ์ตํ์ฌ, ํ์ ์ ์ฌ๋ ๊ฐ์ ์ผ๋ก ๊ณ์ ํฅ์์ํจ๋ค.โ ์ ๋๋ค.
๋ณด๋ค ๊ณต์์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ ์ํ๋ฉด, ๋ก๋ด์ด ์๊ฐ ๊ด์ฐฐ I, ์ธ์ด ๋ช ๋ น L, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด์ ์๊ธฐ ์ํ S๋ฅผ ์ ๋ ฅ๋ฐ์ ์ผ๋ จ์ ๋ฏธ๋ ํ๋ \hat{A}_{0:T}์ ์์ธกํ๋ ์ ์ฑ \pi(\hat{A}_{0:T} \mid I, L, S)๋ฅผ ํ์ตํ๊ณ ์ ํฉ๋๋ค. ์ด ์ ์ฑ ์ ํ์ ๊ด์ ๊ณผ ์๊ฐ๋ฝ ๊ด์ ๋ชจ๋๋ฅผ ํฌํจํ ์ ์ฒด ๋์ ์ํ์ค๋ฅผ ์ถ๋ ฅํด์ผ ํ๋ฏ๋ก, ํ-์์ ํ์กฐ ์ ์ด๋ฅผ ๋จ์ผ ๋คํธ์ํฌ๋ก ๋ชจ๋ธ๋งํ๋ ๋์ ์ด ๋ฐ๋ฆ ๋๋ค. ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด, ์ ์๋ค์ ์ฌ๋์ ๋์๊ณผ ํนํ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋ ๊ฐ์ง๋ฅผ ํ์ฉํ์ต๋๋ค.
๋จผ์ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ์์, Shared Autonomy ๊ฐ๋ ์ ํ์ฉํด ์ฌ๋๊ณผ AI ์ฝํ์ผ๋ฟ์ด ํ๋ ฅํ์ฌ ์์ฐ์ ๋ง๋ญ๋๋ค. ์ฌ๋์ VR๋ก ๋ก๋ด ํ์ ์์ง์ฌ ๋ฌผ์ฒด๋ฅผ ์ก๋ ์ ๊ณผ์ ์ ์ํํ๋, ์ก๋ ์๊ฐ์ ์ ๋์์ AI๊ฐ ์๋์ผ๋ก ์คํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋์ ๋ก๋ด ํ ๋์ ๋ฌ๋ฆฐ ์นด๋ฉ๋ผ ์์์ ๋ณด๋ฉฐ ๋ฌผ์ฒด์ ์์ด ๋ฟ๋๋ก ์์น๋ฅผ ์ก๊ณ โ์ก๊ธฐโ ํ๋์ ํธ๋ฆฌ๊ฑฐํ๋ฉด, ๋ก๋ด ์์ ๋ฐ๋ก DexGrasp-VLA ์ ์ฑ ์ ์ํด ์ค์ค๋ก ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ํ์ ์กฐ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ฌ๋์ ๋ฌผ์ฒด๊น์ง ํ์ ๊ฐ์ ธ๊ฐ๋ ๋ฐ ์ง์คํ๊ณ , ์๊ฐ๋ฝ ์ธ๋ถ ์กฐ์์ ์ ๊ฒฝ ์ฐ์ง ์์๋ ๋๋ฏ๋ก ํจ์ฌ ์์ํ๊ฒ ์์ฐ์ ๋ง๋ค ์ ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด์ ๋ณด๋ค ๋ ๋ง์ ์์ฐ์ ๋ ๋น ๋ฅด๊ฒ ๋ชจ์ ์ ์๊ณ , ํ ๋์๊ณผ ์ ๋์์ด ์ ์กฐํ๋ ๋ฐ์ดํฐ๊ฐ ํ๋ณด๋ฉ๋๋ค.
์์ง๋ ๋ฐ์ดํฐ๋ ํฌ๊ฒ ๋ ์ข ๋ฅ๋ก ๋๋ ์ ์์ต๋๋ค.
(1) ํ-์ ๋์ ์ ์ด ์์ฐ ๋ฐ์ดํฐ: Shared Autonomy๋ก ์ป์ ๋ก๋ด ํ+์์ ์ ์ฒด ์ํ์ค ๋ฐ์ดํฐ์ ๋๋ค. ์ฌ๋์ VR ์กฐ์ ๊ถค์ (ํ ์์ง์)๊ณผ DexGrasp-VLA์ ์ ์์ง์์ด ์๊ฐ์ ์ผ๋ก ๋๊ธฐํ๋์ด ์์ผ๋ฉฐ, ์๊ฐ/์ด๊ฐ ์ผ์ ์ ๋ณด์ ์ธ์ด ์ง์๋ ํฌํจ๋ฉ๋๋ค.
(2) ์์ ์ ์กฐ์ ๋ฐ์ดํฐ: DexGrasp-VLA ์ ์ฑ ์์ฒด๋ฅผ ํ๋ จํ ๋ ์ฌ์ฉ๋ ๋ค์ํ ๊ทธ๋ฆฝ ๋์ ๋ฐ์ดํฐ์ ๋๋ค. ์ด์๋ ์๋ ์ ์ด๊ธฐ๋ก ์์ฑํ ํ์ ์ด ์์ฐ๊ณผ ์ฌ๋์ด ์๋ง ์ง์ ์กฐ์ข ํ์ฌ ๋ชจ์ ์์ฐ์ด ๋ชจ๋ ํฌํจ๋ฉ๋๋ค.
(2)์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ DexGrasp-VLA๋ผ๋ ํ์ ์ ์ฑ ์ ํ์ฑํ๊ณ , (1)์ ๋ฐ์ดํฐ๋ ์ต์ข end-to-end ์ ์ฑ ์ ํ์ตํ๋ ๋ฐ ํ์ฉ๋ฉ๋๋ค.
2.2 DexGrasp-VLA: ์์จ ์ ๋์ AI ์ฝํ์ผ๋ฟ
DexGrasp-VLA๋ ๋ ผ๋ฌธ์ ํต์ฌ ๋ชจ๋ ์ค ํ๋๋ก, Shared Autonomy ํ๋ ์์ํฌ์์ ๋ก๋ด ์์ ์์จ ์ ์ด๋ฅผ ๋ด๋นํ๋ AI ์ฝํ์ผ๋ฟ(AI Copilot)์ ๋๋ค. ์ฝ๊ฒ ๋งํด โ์ก๋ ํ์(grasp)โ๋ฅผ ์ฌ๋ ๋์ ์ํํด์ฃผ๋ ๋๋ํ ๋ก๋ด ์ ์ ์ฑ ์ ๋๋ค. ์ด ์ ์ฑ ์ด ์๋ค๋ฉด Shared Autonomy์์ ์ฌ๋์ด ์๊ฐ๋ฝ๊น์ง ๋ชจ๋ ์กฐ์ํด์ผ ํ๋ฏ๋ก, DexGrasp-VLA๋ ์ฌ๋์ ๋ถ๋ด์ ์ค์ด๊ณ ์ ์ค๊ณ๋ ์๋ ๊ทธ๋ฆฌํผ ์ปจํธ๋กค๋ฌ๋ผ ๋ณผ ์ ์์ต๋๋ค.
DexGrasp-VLA์ ํน์ง์ ํ๋ถํ ๋ฉํฐ๋ชจ๋ฌ ์ผ์ฑ์ ํ์ฉํ๋ค๋ ์ ์ ๋๋ค. ์ค์๊ฐ ์ด๊ฐ(tactile) ์ผ์์ ์๊ฐ(์นด๋ฉ๋ผ) ํผ๋๋ฐฑ์ ๋ชจ๋ ์ฌ์ฉํ์ฌ, ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ ์์ (force-adaptive)์ผ๋ก ํ์คํ ์ฅ ์ ์๋ ์ ์ฑ ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก DexGrasp-VLA๋ ๋ด์ฅ ์นด๋ฉ๋ผ ์์, ์๊ฐ๋ฝ ๊ฐ๋ ๋ฑ ์ ๊ด์ ์ํ(proprioception), ๊ทธ๋ฆฌ๊ณ ๋ ๊ฐ์ง ํํ์ ์ด๊ฐ ํผ์ฒ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ต๋๋ค:
- ํผ์ฒ1: ํฉ๋ ฅ ๋ฒกํฐ (resultant force vector) : ๊ฐ ์๊ฐ๋ฝ์ ๋์ ๋ฌ๋ฆฐ ํ์ผ์๋ก๋ถํฐ ์ ์ด ํ์ ํฌ๊ธฐ์ ๋ฐฉํฅ์ ์ถ์ถํ ๊ฐ๋ค์ ๋๋ค. ์ด๋ ์๊ฐ๋ฝ๋ง๋ค ๋ฌผ์ฒด๋ฅผ ๋๋ฅด๋ ์์ ํ์ ๋ํ๋ด, ์ ์ฒด ๊ทธ๋ฆฝ ๊ฐ๋๋ฅผ ํ์ ํ๊ฒ ํฉ๋๋ค. (๋ฒกํฐ ํฌ๊ธฐ๋ก ํ์ ์ธ๊ธฐ, ๋ฐฉํฅ์ผ๋ก ํ์ ํฅํ๋ ๋ฐฉํฅ)
- ํผ์ฒ2: ์ด๊ฐ ๋ถํฌ ์๋ฒ ๋ฉ (spatial tactile embedding) : ์๊ฐ๋ฝ ํ๋ฉด์ ์ด์ง ๋ถํฌ ์ง๋๋ฅผ CNN์ผ๋ก ์๋ฒ ๋ฉํ ๊ณต๊ฐ ํจํด ํํ์ ๋๋ค. ์ด๋ ๋ฌผ์ฒด๊ฐ ์๊ฐ๋ฝ ์ด๋์ ์ด๋ป๊ฒ ๋ฟ์๋์ง, ์ฆ ์ ์ด ๋ฉด์ ๊ณผ ๋ถํฌ๋ฅผ ์๋ ค์ฃผ๋ ์ ๋ณด์ ๋๋ค.
์ด ๋ ์ด๊ฐ ํผ๋๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด, ์ผ๋ง๋ ์ธ๊ฒ ์ฅ๊ณ ์๋์ง์ ์ด๋์ ์ ์ดํ๊ณ ๋ฏธ๋๋ฌ์ง์ด ์๋์ง๋ฅผ ์ ํํ ๊ฐ์งํ ์ ์์ต๋๋ค. ๋๋ถ์ DexGrasp-VLA๋ ์๊ฐ์ ์ผ๋ก ๋ณด์ด์ง ์๊ฑฐ๋ ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๋ ค๋ ์๊ฐ์๋ ์ฆ๊ฐ์ ์ผ๋ก ์ ํ์ ์กฐ์ ํ์ฌ ์์ ์ ์ธ ํ์ง๋ฅผ ์ ์งํฉ๋๋ค. ๋ค์ ๋งํด, โ๋+์ด๊ฐ์ผ๋ก ๋๋ผ๋ฉฐ ์ก๋โ ๋๋ํ ์์ธ ์ ์ ๋๋ค.
ํ์ต ๋ฐฉ์: DexGrasp-VLA ์ ์ฑ ์ ํ ๋ฒ์ ์์ฑ๋ ๊ฒ์ด ์๋๋ผ, ๋ ๋จ๊ณ ํ์ต์ ํตํด ๊ฐ๋ฐ๋์์ต๋๋ค. (1) ์ฐ์ ์๊ฐ์ ์์กดํ์ง ์๋ LSTM ๊ธฐ๋ฐ ๊ทธ๋ฆฝ ์ ์ฑ ์ ํ์ตํฉ๋๋ค. ์ด๊ธฐ์๋ โ๋๋จผ(blind) ์ ์ฑ โ์ผ๋ก ๋ถ๋ฆฌ๋๋ฐ, ์์ ๊ด์ ์ํ์ ์ด๊ฐ ์ ๋ณด๋ง ๊ฐ์ง๊ณ ๊ทธ๋ฆฝ ๋์์ ์ตํ๋๋ก ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ ์ด์ ๋ ์๊ฐ์ธ์์ ๋ณต์ก์ฑ์ ๋ฐฐ์ ํ๊ณ ์ฐ์ ์์ ์ด๊ฐ ๊ธฐ๋ฐ์ ๊ฒฌ๊ณ ํ ๊ทธ๋ฆฝ ๋์์ ์ป๊ธฐ ์ํจ์ ๋๋ค. ์ด LSTM ์ ์ฑ ์ ๊ณผ๊ฑฐ ์ผ์ ์๊ฐ์ ์ด๊ฐ/๊ด์ ํผ๋๋ฐฑ ์ํ์ค๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ค์ ์๊ฐ๋ฝ ๋์์ ๋ด๋ณด๋ด๋ ๋ฐฉ์์ผ๋ก, ์ฐ์์ ์ธ ํ ์กฐ์ ์ ํ์ตํฉ๋๋ค. ํ์ต ๋ฐ์ดํฐ๋ก๋ ๋ ์ข ๋ฅ ์์ฐ์ ํผํฉ ์ฌ์ฉํ๋๋ฐ:
- ์๋ ํ์ ์ด ์์ฐ(68๊ฐ): ์ ์๋ค์ด ์ค๊ณํ force-control์ ํตํด ์์ฑํ ๋ฐ์ดํฐ์ ๋๋ค. ์ด๋ ๊ฐ๋จํ ๋งํด, โ์ผ์ ํ์ด ์์ผ๋ฉด ๋นจ๋ฆฌ ์ฅ๊ณ , ๋ฟ๊ธฐ ์์ํ๋ฉด ํ์ ์ ์ง์ ์ผ๋ก ๋์ฌ ๋ฉ์ถ๋คโ๋ ๊ท์น์ผ๋ก ์์ง์ด๋ ํฌ์ค-์ปจํธ๋กค๋ฌ์ ๋๋ค. ์ด ๋ฐฉ์์ผ๋ก 50Hz ์ ์ด๋ก ์์ ์ฅ๊ฒ ํ๋ฉด, ์ด๋ฐ์ ๋น ๋ฅด๊ฒ ๋ซ๋ค๊ฐ ์ ์ด๋๋ฉด ์์ํ ์กฐ์ด๋ ์ฌ๋ ๊ฐ์ ๊ทธ๋ฆฝ์ด ์ฐ์ถ๋ฉ๋๋ค. ์ด๋ฌํ ํ-์ ์ ์ ์ด์ ๊ฐ๊ฐ์ ์ ์ฑ ์ ์ฃผ์ ํ๊ธฐ ์ํด ํ์ฉ๋์์ต๋๋ค.
- ์ธ๊ฐ ํ ๋ ์ต ์์ฐ(150๊ฐ): ์ฌ๋์๊ฒ Leap Motion ๋ฑ ์ฅ์น๋ฅผ ์จ์ ์ ๋์์ ์บก์ฒํ๊ณ ๋ก๋ด ์ (XHand, 12์์ ๋)์ ๊ธฐ์ (tracking)ํ์ฌ ์ฌํํ๋๋ก ํ ๋ฐ์ดํฐ์ ๋๋ค. ์ฌ๋์ด ์ค์ ๋ฌผ์ฒด๋ฅผ ์ก๋ ์ ๋์์ ๋ก๋ด ์์ผ๋ก ๋ฐ๋ผํ๊ฒ ํจ์ผ๋ก์จ, ๋ณด๋ค ์์ฐ์ค๋ฌ์ด ์๊ฐ๋ฝ ํ์๊ณผ ํํ ํ์ง ์ ๋ต ๋ฑ์ด ํฌํจ๋ ์์ฐ์ ์ป์์ต๋๋ค.
์ด ๋ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ LSTM ์ ์ฑ ์ Behavior Cloning (๋ชจ๋ฐฉํ์ต)์ผ๋ก ํ์ต์์ผ, ์ด๊ฐ์ ๋ฐ์ํ์ฌ ํ์ ์กฐ์ ํ๋ ๊ธฐ๋ณธ ์ ์ฑ ์ ์ป์์ต๋๋ค. ์ด ์ ์ฑ ์ ์์ง ์นด๋ฉ๋ผ ์ ๋ ฅ์ด ์์ง๋ง, ์ ์ด ๊ฐ์ง ํ ๊ฝ ์ฅ๊ธฐ๊น์ง์ ํ ์กฐ์ ๋ฑ ํต์ฌ ๊ทธ๋ฆฝ ๋ฐ์์ ์ตํ๊ธฐ ๋๋ฌธ์, ์ค์ ๋ฌผ์ฒด์ ๋ํด ๋น ๋ฅด๊ฒ ์ฅ๊ณ ์์ ํํ๋ ๋์์ ๋ณด์ฌ์ค๋๋ค. Fig. 3์ ์ด LSTM ๊ธฐ๋ฐ ์ด๊ธฐ ์ ์ฑ ํ์ต ๊ณผ์ ์ ๋ํ๋ ๋๋ค.
์ดํ (2) ๋จ๊ณ๋ก, ์์์ ์ป์ LSTM ์ ์ฑ ์ ํฌํจํ์ฌ ์๊ฐ๊น์ง ํตํฉํ VLA ์ ์ ์ฑ ์ ์์ฑํฉ๋๋ค. ์ฆ, LSTM ์ ์ฑ ์ ํ์ ์ ์ด๊ธฐ ๋๋ ์ด๊ธฐํ๋ก ์ผ๊ณ , ์นด๋ฉ๋ผ ๋น์ ์ ์ถ๊ฐ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด ๊ฐํ๋ ์ ์ฑ ์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ์์ด ๋ฌผ์ฒด์ ๋ชจ์๊ณผ ์์น๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ ํ๋ฉด์, ์ฌ์ ํ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ ๊ทน ํ์ฉํด ์ปจํ ์คํธ-์ผ์ํฐ๋ธํ(grasping that is context-aware) ์์จ ๊ทธ๋ฆฝ์ด ๊ฐ๋ฅํด์ง๋๋ค. ์ต์ข DexGrasp-VLA๋ ์๊ฐ+์ด๊ฐ ๊ธฐ๋ฐ์ ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ ์ผ๋ก์, ์ธ์ด ๋ช ๋ น๋ ์ผ๋ถ ํตํฉ๋์ด ํฅํ ์ธ์ด๋ก "์ด ๋ฌผ์ฒด ์ง์ด" ๊ฐ์ ์ง์๋ฅผ ์ดํดํ ์ ์๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค. (๋ค๋ง ๋ณธ ์ฐ๊ตฌ์ ์คํ์์ ์ธ์ด ๋ช ๋ น์ ์ฃผ๋ก pick-and-place ๊ธฐ๋ณธ ์ง์๋ก ๋์ผํ์ฌ ํฐ ๊ตฌ๋ถ์ด ์์์ต๋๋ค.)
์ ๋ฆฌํ๋ฉด, DexGrasp-VLA๋ ๋ก๋ด ์์ ์ํ ๊ณ ์ฑ๋ฅ ์๋ ๊ทธ๋ฆฝ ์ปจํธ๋กค๋ฌ๋ก, ์ด๊ฐ๊ณผ ์๊ฐ์ผ์๋ฅผ ํ์ฉํด ์ฌ๋ ์์ด๋ ์ฌ์ธํ ๊ทธ๋ฆฝ ๋์์ ์ํํฉ๋๋ค. Shared Autonomy ๋จ๊ณ์์ ์ด ๋ชจ๋์ด ์ฌ๋์ ๋์ ์๊ฐ๋ฝ ์๋ ์ ์ด๋ฅผ ๋งก์ผ๋ฉฐ, ๋์๊ฐ ์ต์ข end-to-end ์ ์ฑ ํ์ต ์ ์ผ๋ถ ์์ฐ ๋ฐ์ดํฐ ์์ฑ์๋ ํ์ฉ๋ฉ๋๋ค.
2.4 Arm-Hand Feature Enhancement ๋ชจ๋๊ณผ End-to-End VLA ํ์ต
Shared Autonomy๋ก ๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก, ์ด์ ํ-์ ์ข ๋จ๊ฐ ์ ์ฑ ์ ํ์ตํ ์ฐจ๋ก์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ ์ค ํ๋๋, ์ด๋ฌํ End-to-End VLA ์ ์ฑ ์ Arm-Hand Feature Enhancement๋ผ๋ ์๋ก์ด ์ ๊ฒฝ๋ง ๋ชจ๋์ ๋์ ํ ์ ์ ๋๋ค. ์ด ๋ชจ๋์ ํ(Arm)๊ณผ ์(Hand) ๋์์ ํน์ง ํํ(feature representation)์ ๋ถ๋ฆฌํ๋ฉด์๋ ๊ณต์ ํ๊ฒ ๋ง๋ค์ด, ๋ ์์ฐ์ค๋ฝ๊ณ ๊ฐ์ธํ ํ์กฐ ์ ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํฉ๋๋ค.
์ ํ์ํ๊ฐ? ์ผ๋ฐ์ ์ธ End-to-End ์ ์ฑ (์: ํ๋์ ๊ฑฐ๋ํ ์ ๊ฒฝ๋ง์ผ๋ก ์นด๋ฉ๋ผ ์์๊ณผ ์ธ์ด๋ฅผ ์ ๋ ฅ๋ฐ์ ๋ชจ๋ ๊ด์ ๊ฐ์ ์ถ๋ ฅ)์ ํ๊ณผ ์์ ์ญํ ์ฐจ์ด๋ฅผ ๊ตฌ๋ถ ์์ด ๋ค๋ฃจ๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ํ ๋์๊ณผ ์ ๋์์ ์ด๋ํ์ /๊ธฐ๋ฅ์ ์ผ๋ก ๋งค์ฐ ๋ค๋ฅด๋ค๋ ์ ์ ์ฐฉ์ํ์ต๋๋ค: - ํ์ ๋ฌผ์ฒด๊น์ง ์ด๋(reaching)ํ๋ ๊ฑฐ์์ (macro) ์์ง์์ด๊ณ , ๊ฒฝ๋ก ์ต์ ํ์ ์ฅ์ ๋ฌผ ํํผ, ์ข ๋จ ์์น ์ ํ๋ ๋ฑ์ด ์ค์ํฉ๋๋ค. - ์์ ๋ฌผ์ฒด๋ฅผ ์ก๋(grasping) ๋ฏธ์์ (micro) ์์ง์์ด๋ฉฐ, ๊ตญ์ง์ ์ธ ์ ์ด๋ ฅ ์กฐ์ , ์๊ฐ๋ฝ ๊ฐ ํ์, ๋ฌผ์ฒด ํํ ์ ์ ๋ฑ์ด ํต์ฌ์ ๋๋ค.
์ฆ, ํ์ํ ์ ๋ณด์ ์ ์ด ํจํด์ด ๋ค๋ฅด์ฃ . ํ ์์ง์์ ์๊ฐ์ ์ผ๋ก ๋ฌผ์ฒด์ ๊ณต๊ฐ์ ํ์ ํด ๋ถ๋๋ฌ์ด ๊ฒฝ๋ก๋ฅผ ๊ทธ๋ฆฌ๋ ๊ฒ ์ค์ํ๊ณ , ์ ์์ง์์ ์ด๊ฐ/๊ทผ์ ์๊ฐ์ผ๋ก ์ ์ด ์ด๋ฒคํธ์ ๋ฐ์ํ๋ ๊ฒ ์ค์ํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ํ๋์ ํตํฉ ๋คํธ์ํฌ๋ ์ด ๋ ์๊ตฌ์ฌํญ์ ๋ค์์ด ํํํ๋ค ๋ณด๋, ํน์ ๋ชจ๋ฌ๋ฆฌํฐ ์ ๋ณด(์: ์๊ฐ)๊ฐ ์ง๋ฐฐ์ ์ด ๋์ด ๊ท ํ ์กํ ์ ์ด ์ ๋ต์ ํ์ตํ์ง ๋ชปํ ์ ์์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ด ์คํํ ๋ฐ์ ๋ฐ๋ฅด๋ฉด, ๋จ์ผ ํํ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ฃ์ ๋ฒ ์ด์ค๋ผ์ธ์ ์นด๋ฉ๋ผ ์์ผ๊ฐ ๊ฐ๋ ค์ง๋ ์ํฉ ๋ฑ์์ ์-ํ ํ์์ด ๋ง๊ฐ์ ธ ์ฑ๋ฅ์ด ๊ธ๋ฝํ๋ค๊ณ ํฉ๋๋ค.
Arm-Hand Feature Enhancement ๋ชจ๋ ์ค๊ณ: ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ์๋ค์ ์ ์ฑ ๋คํธ์ํฌ ๋ด๋ถ๋ฅผ ๊ณต์ +๋ถ๊ธฐ ๊ตฌ์กฐ๋ก ๋ง๋ค์์ต๋๋ค. ์ฐ์ ๊ธฐ๋ณธ VLA ๋ชจ๋ธ (์ฌ์ ํ์ต VLM + ์ก์ ํค๋)์ ๊ทธ๋๋ก ์ฐ๋, ์ถ๊ฐ๋ก ๋ค์ ๋ ๊ฐ์ง ๊ฒฝ๋ก๋ฅผ ๋ณ๋ ฌ๋ก ๋ก๋๋ค:
- Arm ์ ์ฉ ๊ฒฝ๋ก : ํ ๋์์ ํนํ๋ ํน์ง์ ์ถ์ถํ๋ ๋ถ๋ถ
- Hand ์ ์ฉ ๊ฒฝ๋ก : ์ ๋์์ ํนํ๋ ํน์ง์ ์ถ์ถํ๋ ๋ถ๋ถ
๊ตฌ์ฒด์ ์ผ๋ก, Fig. 6์ ์ด ๊ตฌ์กฐ๊ฐ ๋ํ๋ ์์ต๋๋ค.
Figure 3: Arm-Hand Feature Enhancement ๋ชจ๋์ ๊ฐ๋ต๋. ์๋จ์ ํ๋์ ๋ธ๋ก์ ๊ธฐ์กด ์ฌ์ ํ์ต๋ VLM(์๊ฐ-์ธ์ด ๋ฐฑ๋ณธ)์์ ๋์จ ๊ณต์ ์๋ฒ ๋ฉ z_t^{share}์ด๋ฉฐ, ์ด๋ ๋น์ , ์ธ์ด, ๋ก๋ด ์ํ๋ฅผ ํตํฉํ ์ ์ญ(task-level) ํํ์ ๋๋ค. ์ด shared ํํ์ ๋ก๋ด์ด ๋ฌด์์ ํด์ผ ํ๋์ง์ ๋ํ ์ ์ฒด ๋งฅ๋ฝ์ ๋ด๊ณ ์์ต๋๋ค. ์ด์ ์ผ์ชฝ ์ด๋ก ๊ฒฝ๋ก E_{arm}์ ํ ์์ง์์ ์ค์ํ ํน์ง์ ์ถ์ถํ๋ Arm ์ธ์ฝ๋์ด๊ณ , ์ค๋ฅธ์ชฝ ์ด๋ก ๊ฒฝ๋ก E_{hand}๋ ์์ ์ค์ํ ํน์ง์ ์ถ์ถํ๋ Hand ์ธ์ฝ๋์ ๋๋ค. ๋ ๊ฒฝ๋ก ๋ชจ๋ shared ์๋ฒ ๋ฉ z_t^{share}๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ฑฐ๋, ํน์ ๋ณ๋๋ก ์นด๋ฉ๋ผ/์ด๊ฐ ๋ฑ์ ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ํด๋น ๊ฒฝ๋ก์ ์ถ๊ฐ ํฌ์ ํ ์๋ ์์ ๊ฒ์ ๋๋ค (๋ ผ๋ฌธ ์ธ๊ธ์ผ๋ก๋ โ๊ฐ ๊ฒฝ๋ก์ ๋ณด์กฐ ์ ๋ ฅ์ ๋ฃ๊ณ , ๋ณด์กฐ loss๋ก ์ต์ ํโํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค).
Arm ์ธ์ฝ๋ E_{arm}์ ํ์ ์์น/๊ฒฝ๋ก์ ๋ฏผ๊ฐํ ํน์ง z_t^{arm}์ ๋ฝ๊ณ , Hand ์ธ์ฝ๋ E_{hand}๋ ์์ ์ ์ด/๊ทธ๋ฆฝ์ ๋ฏผ๊ฐํ ํน์ง z_t^{hand}์ ๋ฝ์ต๋๋ค. ๊ฐ ๊ฒฝ๋ก ๋์๋ ์ฃผํฉ์ ๋ธ๋ก H_{arm}, H_{hand}๋ก ํ์๋ ๋ชจ๋์ด ์๋๋ฐ, ์ด๋ ์๋ง ํ/์ ๋ณ๋ก ์ ์ํ ๋ณด์กฐ ํ์ต ํค๋๋ก ์ถ์ธก๋ฉ๋๋ค. ์์ปจ๋ H_{arm}์ ํ ๊ด๋ จ ์์ธก (ํ๋ง์ ๋ฏธ๋ ๊ถค์ ๋ฑ)์ ํ๊ณ , H_{hand}๋ ์ ๊ด๋ จ ์์ธก (์๊ฐ๋ฝ ํ ํจํด ๋ฑ)์ ํด์ auxiliary loss๋ฅผ ๊ณ์ฐํจ์ผ๋ก์จ, ๊ฐ๊ฐ์ ์ธ์ฝ๋๊ฐ ์ ๋ฌธํ๋๋๋ก ์ ๋ํ์ ๊ฒ์ ๋๋ค. ์ฆ E_{arm}์ reach ๋์์ ์ต์ ํ, E_{hand}๋ grasp ๋์์ ์ต์ ํ๋๋๋ก ํ์ตํฉ๋๋ค.
๊ทธ๋ฐ ๋ค์, ์ต์ข ์ ์ผ๋ก ์ด ๋๊ณผ ์๋ ๊ณต์ ํํ์ ๊ฒฐํฉํฉ๋๋ค. Fig. 6 ํ๋จ์ ํ๋ ์ ์ ์ผ๋ก [z_t^{arm}, z_t^{share}, z_t^{hand}] ์ธ ๋ฒกํฐ๋ฅผ ๋ถ์ฌ ๋ง๋ ์ ์ฒด ํํ H_{full}์ด ๋ณด์ ๋๋ค. ์ด H_{full}์ด์ผ๋ง๋ก ํ๊ณผ ์์ ๋ถ๋ฆฌ๋ ์ ๋ณด๊ฐ ๋ค์ ํฉ์ณ์ง ํตํฉ ํํ์ด๋ฉฐ, ์ฌ๊ธฐ์๋ ๊ธ๋ก๋ฒ ๋งฅ๋ฝ(z^{share})๊ณผ ํ ํน์ ์ ์ํ(z^{arm}), ์ ํน์ ์ ์ํ(z^{hand})๊ฐ ๋ชจ๋ ๋ค์ด์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ์ด H_{full}์ ์ฃผํฉ์ ํตํฉ ํค๋์ ๋ฃ์ด \hat{A}_{t}^{uni}, ์ฆ ๋ชจ๋ ๊ด์ ๋ช ๋ น ์ถ๋ ฅ์ ์ป์ต๋๋ค. \hat{A}_{t}^{arm}, \hat{A}_{t}^{hand}๋ ์๋ง ๋ณด์กฐ ํค๋์ ์ถ๋ ฅ์ ์๋ฏธํ๊ณ , ์ต์ข ์ ์ฑ ์ \hat{A}_{t}^{uni}
ํต์ฌ์, shared ํํ์ ๊ทธ๋๋ก ํ์ฉํ๋ฉด์๋ arm/hand ๊ฐ๋ณ ํํ์ ์น์ด ๊ท ํ ์กํ ์ถ๋ ฅ์ ๋ง๋ ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์นด๋ฉ๋ผ ์๊ฐ ์ ๋ณด ๋ฑ์ด ์ ์ฒด ๊ณต์ ํํ์ ๊ฐํ๊ฒ ์ํฅ์ ์ฃผ๋๋ผ๋, arm/hand ๊ฒฝ๋ก๊ฐ ๊ณ ์ ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ๋ณด๊ฐํด ์ค๋๋ค. ํนํ ํ ์์ง์์ ์๊ฐ์ด ์ข ๊ฐ๋ ค์ ธ๋ ๊ณ ์ ์ ํ kinematics ์ ๋ณด(ํ ๊ด์ ๊ฐ ๋ณํ๋ฅผ ํตํด ์ถ์ ๋ ์งํ ๋ฐฉํฅ ๋ฑ)๋ก ๋ณด์๋๊ณ , ์ ์์ง์์ ์ด๊ฐ ์ ๋ณด ์์ฃผ๋ก ํํ์ด ๋จ์ ์์ด, ์๊ฐ ์์กด๋๊ฐ ๋ฎ์์ง๋๋ค. ์ ์๋ค์ ์ด ๊ตฌ์กฐ ๋๋ถ์ ๋ถ๋ถ์ ์ธ ์นด๋ฉ๋ผ ์ฐจ๋จ ์ํฉ์์๋ ์ ์ฑ ์ด ์์ ์ ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ก๋ ๋ฑ ๊ฐ์ธํจ์ด ํฌ๊ฒ ๋์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค.
๋ํ arm/hand ๋ถ๋ฆฌ ํํ์ ํ์ต ํจ์จ๋ ๋์์ต๋๋ค. ํ๋์ ๋ชจ๋ ธ๋ฆฌํฑํ ํํ์ผ๋ก ๋ชจ๋ ๊ฒ์ ํ์ตํ๋ฉด ํ-์ ๊ฐ ๊ฐ์ญ์ด ์๊ธธ ์ ์๋๋ฐ, ๋ถ๋ฆฌํ์ฌ ์ ๋ฌธํ + ํตํฉํ๋ ๋ฐฉ์์ ํ์ ํจํด์ ๋ ๋นจ๋ฆฌ ํ์ตํ๊ฒ ํด์ฃผ์๋ค๊ณ ํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ์์ฐ์ค๋ฌ์ด ํ์ ๋์๋ ๋ํ๋ฌ๋๋ฐ, ์๋ฅผ ๋ค์ด ํ์ ์์ง์ด๋ฉฐ ์์ด ๋ฏธ๋ฆฌ ์ ์ ํ ์ด๊ณ ๋ซ๋ ์ฌ๋์ค๋ฌ์ด ํ๋์ด ๊ด์ฐฐ๋์๋ค๊ณ ํฉ๋๋ค (monolithic ๋ชจ๋ธ์ ์ด๋ฐ ๋ถ๋ถ์ด ๋ฏธํกํ๋ค๊ณ ํจ).
ํ์ต ๊ณผ์ : Arm-Hand Feature Enhancement ๋ชจ๋์ ์ฅ์ฐฉํ ์ต์ข VLA ์ ์ฑ ์, Shared Autonomy๋ก ์์งํ ์์ฐ ๋ฐ์ดํฐ๋ก Supervised Fine-Tuning (SFT)์ ํตํด ํ์ต๋์์ต๋๋ค. ์ ์๋ค์ OpenAI ๋ฑ์์ ๊ณต๊ฐํ LeRobot ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ, ์ฌ์ ํ์ต VLM ๊ธฐ๋ฐ์ VLA ๋ชจ๋ธ์ ํ์ธํ๋ํ๋ค๊ณ ๋ฐํ๋๋ค. ์ฌ๊ธฐ์ ์ฌ์ ํ์ต VLM์ ์๋ง ๊ฑฐ๋ ๋น์ -์ธ์ด ๋ชจ๋ธ (์: CLIP ๊ธฐ๋ฐ)์ผ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ๊ทธ ์์ ์ก์ ์์ธก ํค๋๋ฅผ ๋ถ์ฌ ๋ฒ ์ด์ค๋ผ์ธ ์ ์ฑ \pi_{uni}๋ฅผ ๋ง๋ค๊ณ , ์ด๊ฑธ ๋ณธ ๋ ผ๋ฌธ ๋ฐ์ดํฐ๋ก fine-tuneํ์ฌ \pi_{uni-enhance} (feature enhancement ์ ์ฉ ์ ์ฑ )์ ์ป๋ ๊ตฌ์กฐ๋ก ๋ณด์ ๋๋ค.
Loss ๊ตฌ์ฑ์ ๊ธฐ๋ณธ์ ์ผ๋ก imitation learning (behavior cloning) ์์ค๋ก, ์์ฐ์ ๋ค์ ํ๋์ ์์ธกํ๋๋ก ํ ๊ฒ ๊ฐ์ต๋๋ค. ์ฌ๊ธฐ์ arm, hand ๋ณด์กฐ loss๊ฐ ์ถ๊ฐ๋์ด joint training์ ํ์ ๊ฒ์ผ๋ก ์ถ์ ๋ฉ๋๋ค. ๋ฐ์ดํฐ๋ ์์ฐ์ด ๋ช๋ฐฑ ๊ฐ์ง๋ง, ์๊ฐ/์ธ์ด ๋ฐฑ๋ณธ์ด ์ฌ์ ํ์ต ๋์ ๊ฐ๋ ฅํด์ ๊ธ๋ฐฉ ์๋ ดํ๋ค๊ณ ํฉ๋๋ค.
์ต์ข ์ป์ End-to-End ์ ์ฑ ์ ํ๋์ ๋คํธ์ํฌ๋ก ํตํฉ๋์ด, ์๊ฐ+์ธ์ด ์ ๋ ฅ๋ง ์ฃผ๋ฉด ๋ฐ๋ก ํ๊ณผ ์ ์์ง์ ์ผ๋ จ์ ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ ์ค์๊ฐ ์ ์ด์ ์ฌ์ฉ๋๋ฉฐ, ๋ ผ๋ฌธ ์คํ์์ 90%์ ์ก๋ฐํ๋ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ํด๋น ์ฑ๋ฅ ๋ถ์์ ๋ค์ ์คํ์ฅ์์ ์์ธํ ๋ค๋ฃน๋๋ค.
2.5 ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์ ํตํ ์ ์ฑ ๊ฐ์
ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ก ํ์ฅ์ ํฌ์ ํ๋ฉด ๋์ผ๊น์? ๊ทธ๋ ์ง ์์ต๋๋ค. ์๋ฌด๋ฆฌ ๋ง์ ์์ฐ์ ๋ชจ์์ด๋, ์ค์ ๋ฐฐ์น ํ๊ฒฝ์์๋ ์์ธกํ์ง ๋ชปํ ์๋ก์ด ์ํฉ์ด๋ ์ฝ๋ ์ผ์ด์ค๊ฐ ๋์ค๊ธฐ ๋ง๋ จ์ ๋๋ค. ๋ ผ๋ฌธ ์ ์๋ค์ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋์ํ๊ธฐ ์ํด ๊ต์ ํ ๋ ์คํผ๋ ์ด์ (Corrective Teleoperation)์ด๋ผ๋ ํด๋จผ ์ธ ๋ ๋ฃจํ ๊ฐ์ ์ ๋ต์ ์ ์ํ์ต๋๋ค.
๊ฐ๋ : ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์ ๋ง ๊ทธ๋๋ก ์ ์ฑ ์คํ ์ค ์ฌ๋์ด ๊ต์ ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ต๋ ์ ์ฑ \pi๊ฐ ๋ก๋ด์ ์ ์ดํ๋ค๊ฐ ์คํจ ์กฐ์ง ๋๋ ์คํจ ์ํฉ์ด ๋ฐ์ํ๋ฉด, ์ฆ์ ์ฌ๋ ์ด์์์๊ฒ ์ ์ด๊ถ์ ๋๊ฒจ ๊ทธ ์ํฉ์ ์์ตํ๊ฒ ํฉ๋๋ค. Shared Autonomy ์ธํฐํ์ด์ค๊ฐ ๊ทธ๋๋ก ํ์ฉ๋์ด, ์ฌ๋์ด VR๋ก ๋ก๋ด์ ์กฐ์ข ํด ์คํจํ ์์ ์ ๋ง๋ฌด๋ฆฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ก๋ด์ด ์ด๋ค ์๋ก์ด ๋ชจ์์ ๋ฌผ์ฒด๋ฅผ ์ก๋ค ๋์ณค๋ค๋ฉด, ์ฌ๋์ด ๋ฐ๋ก ๊ฐ์ ํด ๊ทธ ๋ฌผ์ฒด๋ฅผ ์ฃผ์ ๋ด๊ฑฐ๋, ์์น๋ฅผ ์กฐ์ ํด ๋ค์ ์๋ํ๊ฒ ํฉ๋๋ค. ์ด๋ ๊ฒ ์ฌ๋์ด ํ ๋ฒ ๋์์ ์์ ์ ์์ํ๋ฉด, ๊ทธ ๊ต์ ๊ณผ์ ์ ๋ฐ์ดํฐ (์ํ-์ผ์-ํ๋ ์ํ์ค)๋ ๊ธฐ๋กํด ๋จ๊น๋๋ค.
์ง์ ํ์ต: ์ค์ํ ์ ์, ์ด๋ ๊ฒ ์ป์ ์ฑ๊ณต+๊ต์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ์ ์ฑ ์ ์ฌํ์ต(fine-tuning)ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ฒ์ ํ์ต ์์๋ ์์๋ ์ํฉ๋ค์ ๋ํ ์์ฐ์ด ์ถ๊ฐ๋๋ฏ๋ก, ๋ชจ๋ธ์ด ๊ทธ ๋ถ๋ถ์ ๋ฐฐ์ ๋ค์๋ฒ์ ์ค์ค๋ก ์ ์ฒ๋ฆฌํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด ์ ์ฑ ์ด ์ ์ ํ์ฅ ์ํฉ์ ์ปค๋ฒํ๋ฉด์ ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒ์ ๋๋ค. ์์ปจ๋, ๋ฐฐํฌ(deployment) ๋จ๊ณ์์ ๋์์์ด ๋ฐ์ดํฐ ์์ง & ํ์ต์ ์ด์ด๊ฐ๋ ๋ผ์ดํ์ฌ์ดํด์ ๊ตฌ์ฑํ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ incremental SFT (์ ์ง์ ์ง๋ ๋ฏธ์ธ์กฐ์ ) ํ๋ ์์ํฌ๋ผ๊ณ ๋ ๋ถ๋ฆ ๋๋ค.
๊ต์ ์ ๋ต์ ํจ๊ณผ: ์ ์๋ค์ ๊ฐ๋จํ ๋ฒค์น๋งํฌ ํ ์คํธ๋ฅผ ์ค๊ณํด ์ด ๊ณผ์ ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ์ต๋๋ค. 40ร40cm ์์ญ์ 3ร3 ๊ฒฉ์๋ก ๋ฌผ์ฒด๋ฅผ ๋๊ณ (์ผ๋ถ๋ ๋ค์งํ ์ํ ๋ฑ ์ด๋ ค์ด ์กฐ๊ฑด), ์ด๊ธฐ ์ ์ฑ ์ ์ํํ ๊ฒฐ๊ณผ ํน์ ๋ฐฉํฅ์ ๋ฌผ์ฒด๋ ๊ตฌ์์ ์๋ ๋ฌผ์ฒด์์ ์คํจํ๋ค๊ณ ํฉ๋๋ค. ์ด์ ๋ํด ์ฌ๋ ๊ฐ์ ์์ฐ 50๊ฐ๋ฅผ ๋ชจ์ orientation ์คํจ๋ฅผ ๊ฐ์ ํ๋๋ก 1์ฐจ ๋ฏธ์ธ์กฐ์ ํ ์ ์ฑ (ฯ_uni-orient)์ ๋ง๋ค์๋๋, ๋ฐฉํฅ ๋ณํ์๋ ์ ๋์ํ๊ฒ ๋์์ต๋๋ค. ํ์ง๋ง ์ฌ์ ํ ์ฝ๋ ์ผ์ด์ค (์์ ํ ์๋ก์ด ์์น ๋ฑ)๋ ์คํจํ์ฌ, ์ถ๊ฐ๋ก ๊ทธ ๋ถ๋ถ ๊ต์ ์์ฐ 50๊ฐ๋ฅผ ๋ชจ์ 2์ฐจ ๋ฏธ์ธ์กฐ์ ํ ์ต์ข ์ ์ฑ (ฯ_uni-final)์ ์ป์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ๋ชจ๋ ํ ์คํธ ์กฐ๊ฑด์ ์ฑ๊ณต์ ์ผ๋ก ๋ค๋ฃจ๊ฒ ๋์์ผ๋ฉฐ, ์์ ํ ์คํธ์์ ์ฑ๊ณต๋ฅ ์ 40%๋์์ 80~90%๋๋ก ํฅ์์์ผฐ์ต๋๋ค.
Fig. 15๋ ์ด๋ฌํ ์ ์ฑ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ฒด๋ณ ์ฑ๊ณต๋ฅ ๋ก ๋ณด์ฌ์ค๋๋ค.
Figure 4: ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์ ์ฑ ์ ๊ฐ์ ํ ๊ฒฐ๊ณผ. ์์๋ก 5๊ฐ์ง ๋ฌผ์ฒด(Bottle, Apple, Nail(๋ชป), Chips, Bowl)์ ๋ํด ์ด๊ธฐ ์ ์ฑ (ํ์)์ ์ผ๋ถ 30~60% ์ฑ๊ณต๋ฅ ์ ๊ทธ์ณค์ผ๋, 1์ฐจ ๊ฐ์ (ํ๋์) ํ ๋ฐฉํฅ-๊ด๋ จ ์คํจ๊ฐ ์ค์ด ์ฑ๋ฅ์ด ์์นํ๊ณ , 2์ฐจ ์ต์ข ๊ฐ์ (ํ๋์) ํ์๋ ๋๋ถ๋ถ 90%๊น์ง ์ฑ๊ณต๋ฅ ์ด ๋์์ง ๋ชจ์ต์ ๋๋ค (์ค๋ฅธ์ชฝ Average ๋ง๋๋ 40%์์ 88%๋ก ํฅ์). ์ด๋ฐ 2๋จ๊ณ ๊ฐ์ ์ผ๋ก ๋ชจ๋ ์ผ์ด์ค๊ฐ ์ํธํ ์ฑ๊ณต๋ฅ ์ ๋๋ฌํ์ต๋๋ค. ์์ ๊ท๋ชจ ์คํ์ด์ง๋ง, ์ฑ๊ณต๋ฅ ์ฝ 20%โ50%p ํฅ์์ด๋ผ๋ ๋๋ ทํ ๊ฐ์ ํจ๊ณผ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์, ์ด ๊ต์ ๋ฐ์ดํฐ๋ ๊ตณ์ด ์ฌ๋์ผ ํ์๋ ์๋ค๋ ๊ฒ์ ๋๋ค. ์ฌ๋ ๋์ ์ ํต์ ๋ชจ์ ํ๋๋๊ฐ ์คํจ ์ํฉ์ ํด์ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ค๋ ํ์ฉ ๊ฐ๋ฅํ๊ณ , ๋ค๋ฅธ ํํ์ ๋ก๋ด (์: 2ํ๊ฑฐ ๊ทธ๋ฆฌํผ) ์์ฐ์ ์ถ๊ฐํด๋ ์ ์ฑ ์ ํตํฉ ๊ฐ๋ฅํ์ต๋๋ค. ์ด๋ ์ด ํ๋ ์์ํฌ๊ฐ ์๋นํ ์ผ๋ฐ์ ์ผ๋ก ์์ฉ๋ ์ ์์์ ์์ฌํฉ๋๋ค. ๊ฒฐ๊ตญ ๋ชฉํ๋ ์ต์ข ์ฌ์ฉ์ ํ์ฅ์์ ๋ฐ์ํ๋ ์จ๊ฐ ์์ธ ์ํฉ์ ๋ํด, ์ฌ๋์ด ์กฐ๊ธ์ฉ ๊ฐ์ ํด ๋์์ฃผ๋ฉด ๋ก๋ด์ด ์ ์ฐจ ๋ฐฐ์๋๊ฐ ์์ ํ ์์จ์ ์ผ๋ก ์งํํด๊ฐ๋ ๊ทธ๋ฆผ์ ๋๋ค.
3. ์คํ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
์ด์ ๋ ผ๋ฌธ์ ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉ์ ์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์คํ์ ์ฃผ๋ก ๋ก๋ด ์คํ๊ฒฝ์์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๋์์ผ๋ก ์ํ๋์์ผ๋ฉฐ, ์ ์ํ ํ๋ ์์ํฌ์ ํจ์จ์ฑ(๋ฐ์ดํฐ ์์ง๋), ์ฑ๋ฅ(์ฑ๊ณต๋ฅ ), ์ผ๋ฐํ(์๋ก์ด ๋ฌผ์ฒด/์ํฉ ๋์)๋ฅผ ์ ์ฆํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์์ต๋๋ค. ๋ํ ์์ ์ธ๊ธํ ๊ฐ ๊ตฌ์ฑ ์์์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํ ablation(์์ธ ๋ถ์) ์คํ๋ ํฌํจ๋ฉ๋๋ค.
3.1 ์คํ ํ๊ฒฝ ๋ฐ ์ค์
๋ก๋ด ํ๋ซํผ: ์คํ์๋ 6์์ ๋(6-DoF) UR3e ๋ก๋ด ํ์ 5-์๊ฐ๋ฝ 12-DoF XHand๋ฅผ ๊ฒฐํฉํ ๋ก๋ด ๋งค๋ํฐ๋ ์ดํฐ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค.
ํ๋์จ์ด ๋ชจ์ต์ด ๋์ ์๋๋ฐ, (1)์ด๋ผ๊ณ ํ์๋ ๋ถ๋ถ์ด UR3e+XHand ์กฐํฉ์ ๋๋ค. ๋ํ (2)๋ผ๊ณ ํ์๋ ์ธ์ง ์ผ์ ๋ชจ๋๋ก, 3๋์ RGB-D ์นด๋ฉ๋ผ๊ฐ ํ๊ฒฝ์ ๋ค์ํ ๊ฐ๋์์ ์ดฌ์ํด ๋ก๋ด์๊ฒ ์๊ฐ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ทธ ์ค 2๋๋ ์ ์ ์ค์น, 1๋๋ ์๋ชฉ(wrist)์ ์ฅ์ฐฉ๋์ด, ์ ์ญ ์์ผ์ ์ ๊ทผ ์์ผ๋ฅผ ๋ชจ๋ ํ๋ณดํ์ต๋๋ค.
XHand๋ ์ฌ๋์ด ์ฐ๋ ์ฅ๊ฐ ์ ๋ ํฌ๊ธฐ์ ์ํ ๋ค์ง ๋ก๋ด ์์ผ๋ก, ๊ฐ ์๊ฐ๋ฝ์ ์ด๊ฐ ์ผ์๊ฐ ์ฅ์ฐฉ๋์ด ์์ต๋๋ค.
์์ (Task) ํ๊ฒฝ: ๊ธฐ๋ณธ ๊ณผ์ ๋ ๋ค์ํ ๋ฌผ์ฒด์ ํผํน ๋ฐ ๋ฐฐ์น์ ๋๋ค. ์ ์๋ค์ ์ผ์ ๋ฌผ์ฒด 50๊ฐ์ง๋ฅผ ์ค๋นํ์ฌ, ๊ทธ ์ค 20๊ฐ์ง๋ ํ์ต(์์ฐ ๋ฐ์ดํฐ ์์ง)์ ์ฌ์ฉํ๊ณ , ๋๋จธ์ง 30+๋ ํ ๋ฒ๋ ๋ณธ ์ ์๋(unseen) ๋ฌผ์ฒด๋ก ํ ์คํธ์ ํ์ฉํ์ต๋๋ค. ๋ฌผ์ฒด ์ข ๋ฅ๋ ์ฅ๋๊ฐ, ์๋ฃ์ ์บ, ๊ณต, ์ปต, ๊ณผ์ผ ๋ชจํ ๋ฑ ํฌ๊ธฐ, ๋ชจ์, ์ฌ์ง์ด ๋ค์ํ ๊ฒ์ผ๋ก ๊ตฌ์ฑํ์ฌ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ์ธํ์ต๋๋ค.
Pick-and-place ์์ ์ ์กฐ๊ฑด์: ๊ฐ ์ํผ์๋๋ง๋ค ๋ฌผ์ฒด ํ๋๊ฐ ๋ฌด์์ ์์น์ ๋ฐฉํฅ์ผ๋ก 40ร40cm ์์ ๊ตฌ์ญ์ ๋์ ๋๋ค. ๋ก๋ด์ ๊ทธ ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ธ๊ทผ ๋ฐ๊ตฌ๋์ ๋๋ ๊ฒ์ ์๋ํ๋ฉฐ, ์ด๋ฅผ 3ํ ๋ฐ๋ณตํ์ฌ ์ฑ๊ณต๋ฅ ์ ์ธก์ ํฉ๋๋ค. ์ฑ๊ณต ๊ธฐ์ค์ ๋ฌผ์ฒด๋ฅผ ๋์น์ง ์๊ณ ์ ํํ ๋ฐ๊ตฌ๋์ ๋ฃ๋ ๊ฒ์ ๋๋ค. ๋ง์ฝ ์ค๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ฆฌ๊ฑฐ๋ ๋ฐ๊ตฌ๋ ๋ฐ์ ๋จ์ด๋จ๋ฆฌ๋ฉด ์คํจ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
๋ฐ์ดํฐ ์์ง: Shared Autonomy ๋ฐฉ์์ผ๋ก ํ์ต์ฉ ์์ฐ์ ์ผ๋ง๋ ๋ชจ์๋์ง ๊ตฌ์ฒด์ ์์น๋ ์ธ๊ธ๋์ง ์์์ง๋ง, ์ฌ๋ 1์ธ์ด ํฐ ํผ๋ก ์์ด ์ฌ๋ฌ ์ธ์ ์ํํ ์ ์์๋ค๊ณ ํฉ๋๋ค. DexGrasp-VLA ์ ์ ์ฑ ํ์ต์๋ ์์ ๋งํ 68+150 = 218๊ฐ์ ์ ์์ฐ์ด ์ฌ์ฉ๋์๊ณ , end-to-end ์ ์ฑ ํ์ต์๋ 50๊ฐ ๋ฌผ์ฒด ร Nํ ์์ฐ (N์ ๋ฌผ์ฒด๋ง๋ค ๋ช ์ฐจ๋ก์ฉ ํ์ ํ ๋ ์๋ฐฑ ๊ฐ) ์ ๋๋ก ์ถ์ ๋ฉ๋๋ค. ๋ํ ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์๋ 50+50 = 100๊ฐ์ ์ถ๊ฐ ๊ต์ ์์ฐ์ด ํ์ฉ๋์์ต๋๋ค. ์ด์ฒ๋ผ ์๋ฐฑ ๊ฐ ์์ค์ ์์ฐ์ผ๋ก ๋ฌ์ฑํ ์ฑ๋ฅ์ด ์ด๋ ํ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
3.2 ์ข ํฉ ์ฑ๋ฅ ํ๊ฐ (์ฑ๊ณต๋ฅ ๋ฐ ์ผ๋ฐํ)
๋จผ์ ์ต์ข ํ์ต๋ End-to-End VLA ์ ์ฑ ์ ์ฑ๋ฅ์ ๋๋ค. Table 1์ 50๊ฐ ๋ฌผ์ฒด์ ๋ํ ์ข ํฉ ์ฑ๊ณต๋ฅ ์ ์์ฝํ ๊ฒฐ๊ณผ์ ๋๋ค:
Table 1. End-to-End Arm-Hand VLA ์ ์ฑ ์ ๋ฌผ์ฒด ์ก๊ธฐ ์ฑ๊ณต๋ฅ
| ๋ฐ์ดํฐ์ | ์ฑ๊ณต๋ฅ (์ก์ ๋ฐ๊ตฌ๋์ ๋๊ธฐ) |
|---|---|
| ํ์ต์ ์ฌ์ฉํ Seen 20๊ฐ ๋ฌผ์ฒด | 91.7% |
| ์๋ก ๋ณธ Unseen 30์ฌ ๊ฐ ๋ฌผ์ฒด | 85.6% |
| ์ ์ฒด 50๊ฐ ํ๊ท | 88.7% |
ํด์ค: ์ ์ํ ์ ์ฑ \pi_{uni-enhance}๋ ํ๋ จ์ ์ฐ์ธ ๋ฌผ์ฒด๋ค์ ๋๋ถ๋ถ ์์ ์ ์ผ๋ก ๋ค๋ฃจ์๊ณ (91.7%), ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ค๋ 85.6%์ ๋์ ์ฑ๊ณต๋ฅ ๋ก ์ํํ์ต๋๋ค. ์ ์ฒด ํ๊ท ์ฑ๊ณต๋ฅ ์ 88.7%๋ก, 10๋ฒ ์ค ๊ฑฐ์ 9๋ฒ ์ฑ๊ณตํ๋ ์์ค์ ๋๋ค. ํนํ ์ ์๋ค์ ํน๋ณํ ํ๋์จ์ด ํ๋ ์์ด ์ด๊ธฐ ๋ฒ์ ์ผ๋ก ๋ฌ์ฑํ ๊ฒฐ๊ณผ๋ผ๋ฉฐ, ์ถ๊ฐ ๊ฐ์ ์ ํตํด 95% ์ด์๋ ๊ฐ๋ฅํ ๊ฒ์ด๋ผ๊ณ ์ธ๊ธํฉ๋๋ค. ์ด๋ ๋ณธ ๊ธฐ๋ฒ์ด ์ค์ ์์ฉ์ ์ถฉ๋ถํ ํ์ค์ ์ธ ์ ๋ขฐ๋๋ฅผ ๊ฐ์ถ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ฐธ๊ณ ๋ก, ์ด ์์ ์ ์ฌ๋์๊ฒ๋ ์ฌ์ด ํธ์ ์๋๋ฉฐ (์ผ๋ถ ๋ฌผ์ฒด๋ ๋ฏธ๋๋ฝ๊ฑฐ๋ ํน์ดํ ํ์), ๋์ฑ์ด ๋ก๋ด ํ+๋ค์ง ์์ ์ ์ด ๋์ด๋๋ฅผ ๊ณ ๋ คํ๋ฉด 90% ๊ทผ์ ์ฑ๋ฅ์ ์๋นํ ๊ณ ๋ฌด์ ์ ๋๋ค.
๋ํ ์ด ์ ์ฑ ์ ์ํฉ ๋ณํ์ ๋ํ ์ ์๋ ฅ๋ ์ ์ฆ๋์์ต๋๋ค. Fig. 11์ ์ฌ๋ฌ ๊ฐ์ง ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ก์ ์ฎ๊ธฐ๋ ์์ฐ ์ฌ์ง๋ค์ด ๋์ ์๋๋ฐ, ๊ธด ๋ง๋๋ ์์ ๊ณต ๊ฐ์ ๊ทน๋จ์ ์ธ ๋ชจ์๋ ๋ชจ๋ ์ผ๊ด๋๊ฒ ์ฑ๊ณตํ๋ ๋ชจ์ต์ ๋ณผ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ ๋ณธ๋ฌธ์์๋ ๋ฌผ์ฒด์ ํฌ๊ธฐ, ํํ, ๋ฌด๊ฒ๊ฐ ๋ฌ๋ผ๋ ์์ ์ ์ผ๋ก ํ์งํ๊ณ ๋๋๋ค๊ณ ์ค๋ช ํฉ๋๋ค. ํนํ ๊ธฐ์กด ํ์ต ๋ฐ์ดํฐ์ ์๋ ์๋ก์ด ๊ฐ์ฒด๋ผ๋, VLA ๋ชจ๋ธ์ ์๊ฐ-์ธ์ด ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ด๊ฐ ํผ๋๋ฐฑ ๋๋ถ์ ๋ก๋ด์ด ๋์ ์ ๋ต์ ๋ด์ฌํํ ๊ฒ์ผ๋ก ํ์ด๋ฉ๋๋ค.
์ข ํฉํ๋ฉด, ํจ์จ์ ์ผ๋ก ๋ชจ์ ๋ฐ์ดํฐ์ ๋ฐ์ด๋ ์ ์ฑ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ณธ ์ฐ๊ตฌ๋ ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ํฅํ ๋ก๋ด์ ๋ฒ์ฉ์ฑ ํ๋ณด์ ์ค์ํ ์ฑ๊ณผ์ ๋๋ค.
3.3 ์ ์ฑ์ ๊ฒฐ๊ณผ: ์์์ ์๊ฐํ
์ ๋์ ์์น ์ธ์, ๋ ผ๋ฌธ์๋ ์ฌ๋ฌ ์ ์ฑ์ ์คํ ์๋๋ฆฌ์ค์ ์๊ฐํ ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ด ์์ต๋๋ค. ๋ช ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์ฌ๋ก๋ฅผ ์๊ฐํฉ๋๋ค:
- ํ์ ์ ๋ฌผ์ฒด ์น์ฐ๊ธฐ(Table bussing) ์์ : DexGrasp-VLA ์ ์ ์ฑ ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ด์์ ํ ํ ์ด๋ธ์์ ๋ฌผ์ฒด๋ค์ ํ๋์ฉ ์ง์ด ๋ฐ๊ตฌ๋์ ์ฎ๊ธฐ๋ ์คํ์ ์ํํ์ต๋๋ค. ์ด๋ ๋ก๋ด ํ์ ์ฌ๋์ด ์๋ ์ฌ๋ ์์ด ๋ค๊ณ ์๋ ํํ๋ก ์ค์ ํ๊ณ (์ฆ ์๋ง ๋ก๋ด, ํ์ ์ธ๊ฐ์ด ๋ค๊ณ ๋ค๋), ์์ ํ ์ ์ ์ฑ ์ ์์จ ๊ทธ๋ฆฝ ๋ฅ๋ ฅ์ ํ๊ฐํ์ต๋๋ค. ๊ฒฐ๊ณผ DexGrasp-VLA๋ 95.5%์ ๋์ ์ฑ๊ณต๋ฅ ๋ก ํ ์ด๋ธ ์ ์์ญ ๊ฐ ๋ฌผ๊ฑด์ ๋ชจ๋ ์น์ ๊ณ , ์ฅ์ ๋ฌผ๋ก ์ผ๋ถ ๋ฌผ์ฒด๊ฐ ๊ฐ๋ ค์ ธ ์์ผ๊ฐ ์ ๋ณด์ฌ๋ ์ด๊ฐ์ผ๋ก ์ฐพ์ ์ง๋ ํ๋์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ์ ์ ์ฑ ์ด ๋ณต์กํ ์ก๋์ฌ๋(clutter) ํ๊ฒฝ์์๋ ๊ฐ์ธํจ์ ์ ์ฆํ ์์ ๋๋ค.
- ์ด๊ฐ ์ ์ด ๋ถํฌ ์๊ฐํ: Fig. 13์๋ ๋ฅ๊ทผ ๊ณต๊ณผ ์ํตํ ๋ฌผ์ฒด๋ฅผ ์ก์ ๋ ์๊ฐ๋ฝ๋ค์ ๋ถํฌํ ์ด๊ฐ ์ผ์ ์ ์ดํจํด์ ์ปฌ๋ฌ๋ก ํ์ํ ๊ทธ๋ฆผ์ด ๋์ต๋๋ค. ์ด๋ฅผ ํตํด ์ ์ฑ ์ด ์ด๋ค ์๊ฐ๋ฝ์ผ๋ก ์ด๋ ๋ถ์๋ฅผ ๋๋ฌ ์ก์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ์์ปจ๋ ๊ณต์ ์ก์ ๋๋ ๊ฑฐ์ ๋ชจ๋ ์๊ฐ๋ฝ ๋์ ๊ณ ๋ฅด๊ฒ ์ ์ด๋์ง๋ง, ์ํต์ ์ก์ ๋๋ ์์ชฝ ๋ ์๊ฐ๋ฝ์ ์ฃผ๋ก ํ์ด ์ค๋ฆฌ๋ ์์ ๋๋ค. ์ด๋ฌํ ์ ์ด ๋ถํฌ๋ฅผ ์๊ฐํํ๋ฉด, ๋ก๋ด์ด ์ธ๊ฐ๊ณผ ๋น์ทํ๊ฒ ๋ฌผ์ฒด ํํ์ ๋ฐ๋ผ ์ ์ด ์ ๋ต์ ์กฐ์ ํ๊ณ ์์์ ํ์ธํ ์ ์์ต๋๋ค.
- ๊ธด ์ํ์ค ์์ : ๋ถ๋ก์๋ Fig. 20~22๋ก ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ์กฐ์ ์์ ์์ฐ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋จผ ๊ณณ์ ๋์ธ ํ์ ์ง๊ธฐ ์ํด ๋จผ์ ์ฑ ์์ ๊ธฐ์ธ์ฌ ํ์ ๊ตด๋ฆฐ ๋ค ์ก๋ 2๋จ๊ณ ์์ , ๋ดํฌ์ ๋ฌผ๊ฑด ๋ฃ๊ณ ๋ดํฌ๋ฅผ ๋ซ์ ์ด๋ฐํ๋ ์์ , ๋ฐ๋ฅ์ ๋ํ ๋ณ์ ๋๊ป ์ก์ ์ธ์ด ํ ๋ค์ด์ฌ๋ ค ์์์ ๋ฃ๋ ์์ ๋ฑ์ด ์์ฐ๋์์ต๋๋ค. ์ด๋ฐ ๊ธด ์์ ์ ์๋ RL๋ก ์ผ์ผ์ด ์ค๊ณํด์ผ ํ๋ ๊ฒ๋ค์ธ๋ฐ, ๋ณธ ๋ ผ๋ฌธ์ VLA ํ์ต ์ ๊ทผ์ผ๋ก๋ ๋ฐ๋ชจ๋ง ์์ผ๋ฉด ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก์ ๋๋ค. ์ด๋ ์ฅ๊ธฐ์ ์ฐ์ ์กฐ์์๋ ๋ณธ ๊ธฐ๋ฒ์ด ํตํ ์ ์์์ ์์ฌํฉ๋๋ค.
- Peg-in-hole ์กฐ๋ฆฝ ์์ : Fig. 23-24์๋ ์ฐ์ ์ฉ ๋ผ์๋ง์ถ๊ธฐ(peg-in-hole) ์์ ์ฌ๋ก๊ฐ ๋ณด์ ๋๋ค. mm ๋จ์์ ์ ๋ฐ๋๊ฐ ํ์ํ ์์ ์ผ๋ก, 4๊ฐ์ง ์ด๊ธฐ ์์ธ์ ๋ํด ๋ก๋ด์ด ๋ถํ์ ์ง์ด ๊ตฌ๋ฉ์ ๋ผ์ฐ๋ ์ ๊ณผ์ ์ ์์ฐํ์ต๋๋ค. ์ผ๋ถ๋ฌ ์ค์ฐจ๊ฐ ๋๊ฒ ํด์ ์๋ํ ๊ฒฝ์ฐ (misalignment) ์ฌ๋ ๊ฐ์ ์ผ๋ก ์์ ํ๋ ์ฅ๋ฉด๋ ๋ด์์ต๋๋ค. ์ด๊ฒ์ ๋ณธ ๊ต์ ๋ฉ์ปค๋์ฆ์ด ์ ๋ฐ ์ ์กฐ ์๋๋ฆฌ์ค์๋ ์ ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ชจ์ ๋๋ค.
์์ฝํ๋ฉด, ์ ์ฑ์ ๊ฒฐ๊ณผ๋ค์ ์ ์ํ ์ ์ฑ ์ ์ ์ฐ์ฑ๊ณผ ์ ์์ฑ์ ์ ๋ณด์ฌ์ค๋๋ค. ์ฌ๋์ฒ๋ผ ์ฃผ๋ณ ์ํฉ์ ๋์ํ๋ฉฐ, ๋ณต์กํ ์กฐ์๋ ๋จ๊ณ๋ณ ์์ฐ์ผ๋ก ํ์ต ๊ฐ๋ฅํ๊ณ , ์ด๊ฐ์ผ๋ก ์ฌ์ธํ๊ฒ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ์ ์์์ ์ฌ๋ก๋ก ๋ํ๋์ต๋๋ค.
3.4 ์์ธ ๋ถ์: Ablation ์คํ
๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ์ ์ ์ํ ์์คํ ์ ํต์ฌ ์์๋ค์ด ๊ฐ๊ฐ ์ผ๋ง๋ ํจ๊ณผ๋ฅผ ๋ฐํํ๋์ง๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ablation study(์์ธ ์ ๊ฑฐ ์คํ)๋ฅผ ์ํํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก (1) ์ด๊ฐ ์ผ์ฑ์ ์ ๋ฌด, (2) Arm-Hand Feature Enhancement ๋ชจ๋์ ์ ๋ฌด, (3) ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ํ์ฉ ์ฌ๋ถ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์คํํ์ต๋๋ค.
3.4.1 ์ด๊ฐ ์ผ์ฑ์ ํจ๊ณผ
๋จผ์ DexGrasp-VLA ์ ์ ์ฑ ์์ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋นผ๊ฑฐ๋ ์ผ๋ถ๋ง ๋ฃ์์ ๋ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ณด์์ต๋๋ค. Table 2๋ 10๊ฐ์ง ์ผ์ ๋ฌผ๊ฑด์ ๋์์ผ๋ก, ์ธ ๊ฐ์ง ๊ฒฝ์ฐ์ ์ฑ๊ณต๋ฅ ์ ๋น๊ตํฉ๋๋ค:
| ์กฐ๊ฑด | ์ค๋ช | ์ฑ๊ณต๋ฅ |
|---|---|---|
| No Tactile (์๊ฐ Only) | ์ด๊ฐ ์ ๋ ฅ ์์, ์นด๋ฉ๋ผ/๊ด์ ์ ๋ณด๋ง์ผ๋ก ๊ทธ๋ฆฝ | 21% |
| Force-Only Tactile | ํฉ๋ ฅ ๋ฒกํฐ๋ง ์ด๊ฐ ํผ๋๋ฐฑ ์ฌ์ฉ | 70% |
| Force + Spatial Tactile | ํฉ๋ ฅ + ๋ถํฌ ์๋ฒ ๋ฉ ๋ชจ๋ ์ฌ์ฉ (๋ณธ ๋ ผ๋ฌธ ๋ฐฉ์) | 90% |
์ด ๊ฒฐ๊ณผ๋ ์ด๊ฐ์ด ํ์์ ์์ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค. ์นด๋ฉ๋ผ์ ์์กดํ๋ฉด ์กฐ๊ธ๋ง ๊ฐ๋ ค์ ธ๋ ๊ธ๋ฐฉ ๋ฌผ์ฒด๋ฅผ ๋์ณ ์คํจํ์ง๋ง, ์ด๊ฐ์ผ์๋ก ํ์ ๋๋ผ๋ฉด 70%๊น์ง ์ฌ๋ผ๊ฐ๊ณ , ์ฌ๊ธฐ์ ์ ์ด ๋ถํฌ๊น์ง ์๋ฉด 90%๋ก ํฌ๊ฒ ํฅ์๋ฉ๋๋ค. Fig. 13์ ๊ทธ ๋น๊ต ์ฅ๋ฉด์ด ์๋๋ฐ, (a) ์นด๋ฉ๋ผ๋ง์ผ๋ก ์ก์ ๊ฒฝ์ฐ ์์ผ๋ฅผ ๊ฐ๋ฆฌ์ ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ ธ ๋จ์ด์ง๋ ๋ฐ๋ฉด, (b) ์ด๊ฐ์ด ์๋ ๊ฒฝ์ฐ ์์ผ๊ฐ ๊ฐ๋ ค์ ธ๋ ๊ฝ ์ก๊ณ ์ ์งํ๊ณ , ์ฌ์ง์ด ํ์์ ์น๊ฑฐ๋ ํ๋ค์ด๋ ์ ๋์น๋ ๋ชจ์ต์ ๋๋ค.
์ด๋ ์๊ฐ ์ ๋ณด์ ์กํ์ง ์๋ ๋ฏธ์ธ ์์ง์์ด๋ ๋ฏธ๋๋ฌ์ง๋ ์ด๊ฐ์ด ๊ฐ์งํด ๋ณด์ํด์ค๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ฐ๋ผ์ ๋ค์ง ๋ก๋ด ์์ ์์ ์ ์กฐ์์๋ ์ด๊ฐ ํผ๋๋ฐฑ ํตํฉ์ด ๊ฑฐ์ ํ์์์ ์ฆ๋ช ํฉ๋๋ค.
3.4.2 Arm-Hand ํน์ง ๋ถ๋ฆฌ ๋ชจ๋์ ํจ๊ณผ
๋ค์์ผ๋ก, Arm-Hand Feature Enhancement ๋ชจ๋์ด ์ ๋ง ํจ์ฉ์ด ์๋์ง ํ์ธํ์ต๋๋ค. Table 3์ ๋ชจ๋ ์ ์ฉ ์ ํ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค:
| ์กฐ๊ฑด | Baseline (๋ชจ๋ ์์) | Enhanced (๋ชจ๋ ์ ์ฉ) |
|---|---|---|
| XHand ๋ก๋ด์ (์ฃผ ํ๊ฒฝ) | 88% | 95% |
| RY-H2 ๋ก๋ด์ (ํ ๊ธฐ์ข ) | 71% | 81% |
| XHand + ์นด๋ฉ๋ผ ์ฐจ๋จ | 19% | 58% |
ํด์ค: ๊ธฐ๋ณธ XHand ํ๋ซํผ์์ ๋ชจ๋ ์ ์ฉ์ ์ฑ๊ณต๋ฅ ์ด 88โ95%๋ก ์ฆ๊ฐํ์ฌ, ๊ฑฐ์ ๋ชจ๋ ๋ฌผ์ฒด๋ฅผ ํ์คํ ๋ค๋ฃจ๋ ์์ค์ด ๋์์ต๋๋ค. ๋ํ ๋ค๋ฅธ ํํ์ ๋ก๋ด์(RY-H2)์ผ๋ก ์ ์ฑ ์ ์ด์ํ ๊ฒฝ์ฐ์๋, ๋ชจ๋ ์ ์ฉ์ด 71โ81%๋ก +10%p ํฅ์๋์ด ๊ธฐ์ข ๋ณํ์ ๋ํ ์ ์๋ ฅ๋ ๋์์ต๋๋ค. ๊ฐ์ฅ ๊ทน์ ์ธ ์ฐจ์ด๋ ์นด๋ฉ๋ผ ํ ๋๋ฅผ ๊ฐ๋ ค ์๊ฐ ์ ๋ณด๋ฅผ ์ ํํ ์ํ์์ ๋ํ๋ฌ๋๋ฐ, ๋ชจ๋ ๋ฏธ์ ์ฉ ์์ 19%๋ก ๊ฑฐ์ ์คํจํ์ง๋ง, ๋ชจ๋ ์ ์ฉ ์ ์ฑ ์ 58%๋ฅผ ์ ์งํด ์ฝ 3๋ฐฐ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์๋ฒฝํ์ง ์์๋ ์ ๋ฐ ์ด์์ ์ฑ๊ณตํ ๊ฒ์ด์ฃ . ์ด๋ ์์ ์ค๋ช ํ ๋๋ก, ํ-์ ๋ถ๋ฆฌ ํํ์ด ์๊ฐ ์์กด๋๋ฅผ ๋ฎ์ถฐ ๋ถ๋ถ์ ์ผ๋ก ๋ณด์ด์ง ์์๋ proprioception๊ณผ ์ด๊ฐ์ผ๋ก ๋์ํ ๊ฒฐ๊ณผ์ ๋๋ค.
์ด ์คํ์ ํด๋น ๋ชจ๋์ด ๋งคํฌ๋ก-๋ง์ดํฌ๋ก ํ์ ํ์ต์ ์ค์ง์ ์ธ ์ด๋์ ์ค๋ค๋ ๊ฒ์ ๋ท๋ฐ์นจํฉ๋๋ค. ๋ํ ์ ํ๋์จ์ด์์ ์ผ๋ฐํ์ ์ผ์ ์ด์ ์ํฉ์ ๋ํ ๊ฐ์ธํจ๋ ๊ฐ์ ๋๋ ๋ถ๊ฐ ํจ๊ณผ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค. ์์ปจ๋, ์ด ๋ชจ๋์ ๋จ์ ์ฑ๋ฅ ์์น๋ฟ ์๋๋ผ ๋ก๋ด ์ด์์์ ์์ ์ฑ ์ธก๋ฉด์์๋ ํฐ ๊ฐ์น๊ฐ ์์ต๋๋ค.
3.4.3 ๊ต์ ํ ๋ ์ต ๊ฐ์ ์ ํจ๊ณผ
๋ง์ง๋ง์ผ๋ก ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์ ๋ต์ ํจ๊ณผ๋ฅผ ์ ๋ํํ ๊ฒฐ๊ณผ๋ ์์ Fig. 4์์ ์ค๋ช ํ์ต๋๋ค. ์ด๊ธฐ ๋ชจ๋ธ ๋๋น ์ต์ข ๋ชจ๋ธ์ ํ๊ท ์ฑ๊ณต๋ฅ ์ด ์ฝ 2๋ฐฐ ์ด์ ํฅ์๋์๊ณ , ํนํ ์ด๊ธฐ ๋ชจ๋ธ์ด ์ ํ ๋ชปํ๋ ์ผ์ด์ค (0~40% ์ฑ๊ณต)๋ค์ ์ต์ข ๋ชจ๋ธ์ ๊ฑฐ์ ๋๋ถ๋ถ ํด๊ฒฐ (80~90%)ํ๊ฒ ๋์์ต๋๋ค . ์ด๋ ์ธ๊ฐ ์์ฐ ์ถ๊ฐ ๋ฐ์ดํฐ๊ฐ ํน์ ์ฝ์ ์ ๋ฉ์ฐ๋ ๋ฐ ํ์คํ ๊ธฐ์ฌํ์์ ์๋ฏธํฉ๋๋ค. ๋ํ ์ด ๊ณผ์ ์์ ๋ํ๋ ์ค๊ฐ ๋ชจ๋ธ(orient ์ ์ฉ ๊ฐ์ )์ด ํน์ ๋ฌธ์ ๋ง ๋ถ๋ถ ํด๊ฒฐํ ๊ฒ๋ ๊ด์ฐฐ๋์๋๋ฐ, ์ด๋ ์ด๋ค ๋ฐ์ดํฐ๋ก ์ด๋ป๊ฒ ๊ฐ์ ๋์๋์ง๋ฅผ ๋ถ์ํ๋ ์ฌ๋ฏธ์๋ ํฌ์ธํธ์ ๋๋ค. ๊ถ๊ทน์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ด ๋ณด์ฌ์ค ์ง์ ํ์ต ๋ฃจํ๋ ์ค์ ์์ฉ์์ ์ ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ด๋ฉฐ, ์ฌ์ฉ์๊ฐ ์กฐ๊ธ์ฉ ํผ๋๋ฐฑ์ ์ฃผ์ด ๋ก๋ด์ ๋ง์ถคํ์ผ๋ก ์งํ์ํฌ ์ ์๋ ๊ทธ๋ฆผ์ ์ ์ํ์ต๋๋ค.
4. ๊ฒฐ๋ก ๋ฐ ํฅํ ๊ณผ์
์์ฝ: ๋ณธ ๋ฆฌ๋ทฐ์์๋ Shared Autonomy ๊ฐ๋ ์ ํ์ฉํ VR ํ ๋ ์คํผ๋ ์ด์ + ์์จ ๋ณด์กฐ์ ์ด ํ๋ ์์ํฌ๋ก ๋ค์์ ๋ ๋ก๋ด ํ-์ ์กฐ์ ์ ์ฑ ์ ํจ์จ์ ์ผ๋ก ํ์ตํ ๋ ผ๋ฌธ์ ์ดํด๋ดค์ต๋๋ค. ์ฌ๋์ VR๋ก ํ ๋์์, AI๋ ์๊ฐ๋ฝ ๋์์ ๋งก์ ํ๋ ฅํจ์ผ๋ก์จ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ํ ์์งํ์๊ณ , ์ด๋ฅผ ํ ๋๋ก Vision-Language-Action(VLA) ๊ธฐ๋ฐ์ end-to-end ์ ์ฑ ์ ํ์ตํ์ฌ 90% ์ฑ๊ณต๋ฅ ์ ์ฌ์ธํ ์กฐ์์ ์คํํ์ต๋๋ค. ๋ํ Arm-Hand Feature Enhancement๋ผ๋ ๋ ์ฐฝ์ ๋ชจ๋ธ๋ก ํ/์ ํ์กฐ๋ฅผ ํฅ์์์ผ ์์ฐ์ค๋ฌ์ด ๋ชจ์ ๊ณผ ๊ฐ์ธํ ์ฑ๋ฅ์ ์ป์์ผ๋ฉฐ, ๊ต์ ํ ๋ ์คํผ๋ ์ด์ ์ ํตํด ํ์ฅ ๋ฐฐ์น ํ์๋ ์ง์์ ์ผ๋ก ํ์ต ๊ฐ์ ์ด ๊ฐ๋ฅํ ํ์ ๋ง๋ค์์ต๋๋ค. ์ ๋ฐ์ ์ธ ์คํ ๊ฒฐ๊ณผ, ์ฌ๋ ๊ฐ์ ์ต์ํ๋ก ๋ฐ์ดํฐ ํจ์จ์ ๋์ด๊ณ , ํ์ต๋ ์ ์ฑ ์ ๋ค์ํ ๋ฌผ์ฒด์ ์ํฉ์ ์ผ๋ฐํ๋จ์ ํ์ธํ์ต๋๋ค.
์์: ์ด ์ฐ๊ตฌ๋ ๋ก๋ด๊ณตํ์์ AI ์ฐ๊ตฌ์ ๋ชจ๋์๊ฒ ์๋ฏธ ์๋ ๋ฉ์์ง๋ฅผ ์ค๋๋ค. ๋ฐ์ดํฐ ์์ง ์ธก๋ฉด์์, โ์ธ๊ฐ๊ณผ AI์ ํ์ โ์ด ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ฉ ๋ฐ์ดํฐ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋์ง ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์์ ์์จ ์์ง์ ํ์ง ๋ฌธ์ , ์์ ์๋ ์์ง์ ์์ ๋ฌธ์ ๋ฅผ ๊ฐ์ก์ง๋ง, ๊ทธ ์ค๊ฐ ์ง๋๋ฅผ ๊ฐ์ฒํจ์ผ๋ก์จ ์์ง์ ๋ฐ์ดํฐ๋ฅผ ์ค์ฉ์ ์ผ๋ก ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ๋ํ VLA์ ๊ฐ์ ๊ฑฐ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ฌ์ธํ ์ ์ด์ ์ ์ฉํ๋ฉด์ ์๊ธธ ์ ์๋ ๋ชจ๋ธ ๊ตฌ์กฐ์์ ๋ฌธ์ (ํ๊ณผ ์์ ์ญํ ๋ถ๋ฆฌ ๋ฑ)๋ฅผ ๋ ์นด๋กญ๊ฒ ์ง๊ณ ํด๊ฒฐ์ฑ ์ ๋ด๋์์ต๋๋ค. ์ด๋ ํฅํ ๊ณ ์ฐจ์ ๋ก๋ด ์ ์ด ํ์ต ์ฐ๊ตฌ์ ์ฐธ๊ณ ๊ฐ ๋ ๋งํ ์ ๋ต์ ๋๋ค.
ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ: ๋ ผ๋ฌธ์์๋ ํ๊ณ๋ฅผ ์ผ๋ถ ์ธ๊ธํ๋ฏ์ด, ํ์ฌ ์์คํ ์ ์ฃผ๋ก ๋จ์ผ ๋จ๊ณ grasping ์์ ์ ์ง์คํ์ต๋๋ค. ์์ง ๋๊ตฌ ํ์ฉ, ์ ๋ด์์์ ์ฌ๋ฐฐ์ด(in-hand manipulation) ๋ฑ ๋ณต์กํ ์ฅ๊ธฐ ํ๋์ ๋ค๋ฃจ์ง ์์์ต๋๋ค. ๋ํ ์ด๊ฐ ์ผ์ฑ ํตํฉ์ ์ฑ๋ฅ ํฅ์์ ํฐ ๋์์ด ๋์์ง๋ง, ์ก๊ธฐ ์ง์ ํ์ ์์ง์ผ ๋๋ ์ด๊ฐ ์ ๋ณด๊ฐ ์์ผ๋ฏ๋ก ์ฝ๊ฐ์ ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ์ผ์น๊ฐ ์์ต๋๋ค. ์ด ๋ถ๋ถ์ ํฅํ ์ด๊ฐ๊ณผ ์๊ฐ ์ ๋ณด์ alignment ๋ฌธ์ ๋ ์ก๊ธฐ ์ ํ์ ๋์ ๋ฑ์ ์ฐ๊ตฌ๋ก ๊ฐ์ ๋ ์ฌ์ง๊ฐ ์์ต๋๋ค. ๊ต์ ํ์ต๋ ์ธ๊ฐ ๊ฐ์ ์ด ํ์ํ๋ฏ๋ก, ์ฅ๊ธฐ์ ์ผ๋ก๋ ์คํจ๋ฅผ ์๋์ผ๋ก ํ์ง/๊ต์ ํ๊ฑฐ๋ ์์ ์ด๊ธฐ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ ํฌ๊ด์ ์ผ๋ก ์์งํ๋ ๋ฐฉํฅ๋ ๊ณ ๋ฏผ๋ฉ๋๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ๋ณธ ์ฐ๊ตฌ๊ฐ ๋ณด์ฌ์ค ์ธ๊ฐ-๋ก๋ด ํ๋ ฅ ํ์ต๊ณผ ๋ชจ๋์ ์ ์ฑ ์ค๊ณ๋ ํฅํ ๋ฒ์ฉ ๋ก๋ด๋น์๋ ์ฐ์ ์ฉ ๋ค๊ธฐ๋ฅ ๋ก๋ด ๊ฐ๋ฐ์ ์ค์ํ ํ ๊ฑธ์์ด ๋ ๊ฒ์ ๋๋ค. ๋ก๋ด๊ณตํ์ ๊ถ๊ทน์ ์ธ ๋ชฉํ์ธ โ์ฌ๋์ฒ๋ผ ์ ์ฐํ๊ณ ๋๋ํ ๋ก๋ดโ์ ์คํํ๊ธฐ ์ํด, ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์์ง๊ณผ ํ์ต๋ฒ์ด ์ผ๋ง๋ ์ค์ํ์ง ๋ค์๊ธ ํ์ธํ ์ ์์์ต๋๋ค. ์์ผ๋ก ์ด ๋ฐฉํฅ์ ์ฐ๊ตฌ๊ฐ ๋์ฑ ๋ฐ์ ํ์ฌ, ์ฌ๋๊ณผ ๋ก๋ด์ด ํจ๊ป ๋ฐฐ์ฐ๊ณ ์ฑ์ฅํ๋ ํํธ๋๋ก์ ๋ณต์กํ ์ธ์์์ ํ๋ ฅํด๋๊ฐ๊ธธ ๊ธฐ๋ํฉ๋๋ค.