๐PCHands ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ฆพ PCHands๋ ๋ค์ํ ๋งค๋ํฐ๋ ์ดํฐ์ ๊ณตํต๋ ์ ์์ธ ์๋์ง๋ฅผ ํ์ตํ๊ธฐ ์ํด Anchor Description Format (ADF)๊ณผ CVAE ๋ฐ PCA๋ฅผ ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
- ๐ ์ด ๋ฐฉ๋ฒ์ ๋งค๋ํฐ๋ ์ดํฐ์ ์ต์ปค ์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๋ณ ๊ธธ์ด latent representation์ ํ์ตํ๊ณ , ICP๋ฅผ ํตํ end-effector ํ๋ ์ ์ ๋ ฌ๋ก ๋ค์ํ DoF ๋งค๋ํฐ๋ ์ดํฐ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ์๋์ง ์ถ์ ์ถ์ถํฉ๋๋ค.
- โจ ์คํ ๊ฒฐ๊ณผ, PCHands๋ Reinforcement Learning์์ observation ๋ฐ action space๋ฅผ ํจ์จ์ ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ํ์ต ํจ์จ์ฑ๊ณผ ์ผ๊ด์ฑ์ ํฅ์์ํค๋ฉฐ, ๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ฐ๋ชจ๋ฅผ ํ์ฉํ robustํ transfer learning์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ค์ํ ํํ์ ์กฐ์๊ธฐ(manipulator) ์ ๋ฐ์ ๊ฑธ์ณ dexterous manipulation์ ์ํ ๊ณตํต๋ ํํ์ ํ์ตํ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ์ ์๋ค์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ด๋ฒ์ํ ์กฐ์๊ธฐ๋ค๋ก๋ถํฐ ์ ์์ธ ์๋์ง(hand postural synergy)๋ฅผ ์ถ์ถํ๋ ์๋ก์ด PCA ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ธ PCHands๋ฅผ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก (Core Methodology)
PCHands๋ ์ธ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์์ธ Anchor Description Format (ADF), Conditional Variational Auto-Encoder (CVAE), ๊ทธ๋ฆฌ๊ณ Principal Component Analysis (PCA)๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๋ณ ๊ธธ์ด(variable-length)์ ์ ์์ธ ์๋์ง ํํ์ ํ์ตํฉ๋๋ค.
- Anchor Description Format (ADF) ADF๋ ๋ค์ํ ์กฐ์๊ธฐ(2-finger gripper๋ถํฐ 5-finger anthropomorphic hand๊น์ง)์ ๊ตฌ์ฑ์ ํต์ผ๋ ๋ฐฉ์์ผ๋ก ํํํ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค.
- Anchor Placement: ๋ฏธ๋ฆฌ ์ ์๋ 22๊ฐ์ 3D ํฌ์ธํธ \alpha = \{x_i | x_i \in \mathbb{R}^3\}_{i=1}^{22}๋ฅผ ์กฐ์๊ธฐ์ ๊ธฐ๋ฅ์ ๋ถ๋ถ์ ์๋์ผ๋ก ๋ฐฐ์นํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 5-finger anthropomorphic hand์ ๊ฒฝ์ฐ ๊ฐ ์๊ฐ๋ฝ์ 4๊ฐ์ ์ต์ปค(proximal, intermediate, distal, tip phalanges)์ ์๋ฐ๋ฅ์ 2๊ฐ๋ฅผ ๋ฐฐ์นํฉ๋๋ค. 2-finger gripper์ ๊ฒฝ์ฐ, 4๊ฐ์ ์์ง ์ต์ปค๋ ์ผ์ชฝ jaw์ ํ ๋น๋๊ณ , ๋๋จธ์ง 16๊ฐ์ ์๊ฐ๋ฝ ์ต์ปค๋ ์ค๋ฅธ์ชฝ jaw์ ๋ณํฉ(anchor-merging)๋ฉ๋๋ค. ์ด ๋ณํฉ ๋ฐฉ์์ ์๊ฐ๋ฝ ์๊ฐ ์ ์ ์กฐ์๊ธฐ์๋ ์ผ๋ฐํ๋ฉ๋๋ค. ๊ฐ ์ต์ปค๋ ํํํ๋ ์์ญ์ ๋ํ ์์ง์ ์๋ฏธ๋ฅผ ์ผ๊ด์ฑ ์๊ฒ ์ ๋ฌํฉ๋๋ค.
- Preliminary End-effector Frame Placement: ์กฐ์๊ธฐ์ ์๋ฐ๋ฅ(palm) ๋๋ ๊ทธ๋ฆฌํผ ๋ฒ ์ด์ค(gripper base)์ ์ค์์ ์ด๊ธฐ end-effector frame์ ์ ์ํฉ๋๋ค. x์ถ์ ์๋ฐ๋ฅ์์ ๋ฐ๊นฅ์ชฝ์ผ๋ก, y์ถ์ ์๋ชฉ(hands) ๋๋ ์์ง jaw(grippers)๋ฅผ ํฅํ๋๋ก ์ค์ ๋ฉ๋๋ค. ๋ชจ๋ ์ต์ปค ์์น๋ ์ด ํ๋ ์์ ์๋์ ์ผ๋ก ํํ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ํํํ์ ์ฐจ์ด๋ก ์ธํด ์ด ์ด๊ธฐ ํ๋ ์์ ์กฐ์๊ธฐ๋ง๋ค ๋ถ์ผ์น๋ฅผ ๋ณด์ด๋ฏ๋ก, ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด iterative refinement ๊ณผ์ (์๋ ์ค๋ช )์ ๊ฑฐ์นฉ๋๋ค.
- Postural Synergy Model PCHands๋ ์ต์ปค ์์น์ ์ฃผ์ฑ๋ถ ๊ณ์(principal component coefficients) ์ฌ์ด์ ์ธ์ฝ๋ฉ ๋ฐ ๋์ฝ๋ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ CVAE์ ์ ํ PCA๋ฅผ ์ฐ๊ฒฐํ์ฌ, ์กฐ์๊ธฐ ์์ธ์ ์ ์ฐจ์ ํํ์ ์ถ์ถํฉ๋๋ค.
- CVAE (Conditional Variational Auto-Encoder):
- ์ต์ปค ์์น \alpha์ ์ฐจ์์ ์ค์ฌ ์ ์ฐจ์ latent variable z๋ก ์ธ์ฝ๋ฉํฉ๋๋ค (\text{dim}(z) \ll 22 \times 3).
- CVAE์ ์ธ์ฝ๋์ ๋์ฝ๋ ๋ชจ๋ ์กฐ์๊ธฐ๋ฅผ ์๋ณํ๋ one-hot vector์ ์ํด ์กฐ๊ฑดํ(conditioned)๋ฉ๋๋ค.
- ์ด ๋ชจ๋ธ์ ์ ๋ ฅ ์ต์ปค x_i์ ์ฌ๊ตฌ์ฑ๋ ์ต์ปค \hat{x}_i ์ฌ์ด์ ๊ฐ์ค L_1 ์์ค์ ์ต์ํํฉ๋๋ค: \min_{\phi, \theta} \sum_{i=1}^{22} w_i (x_i - \hat{x}_i) ์ฌ๊ธฐ์ w_i๋ training dataset์์ ์ต์ปค ๋ณํฉ(anchor merging) ์ฌ์ฉ์ ๋ฐ๋ผ ๊ฒฝํ์ ์ผ๋ก ์ค์ ๋ฉ๋๋ค. (์: ์์ง ์ต์ปค์ ๊ฐ์ด ๊ฑฐ์ ๋ณํฉ๋์ง ์๋ ์ต์ปค์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๊ท ํ ์กํ ์ฌ๊ตฌ์ฑ์ ๋ณด์ฅํฉ๋๋ค.)
- Training Dataset: m๊ฐ์ ์กฐ์๊ธฐ(๊ฐ ์กฐ์๊ธฐ๋น n=10000๊ฐ์ ๊ตฌ์ฑ ์ํ)๋ก๋ถํฐ ์ต์ปค ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ CVAE๋ฅผ ํ๋ จํฉ๋๋ค. ๊ฐ ๊ตฌ์ฑ์ ์กฐ์๊ธฐ joint position์ kinematics constraints ๋ด์์ ๊ท ์ผํ๊ฒ ์ํ๋งํ์ฌ ์์ฑ๋๋ฉฐ, ํด๋น ์ต์ปค ์์น๋ forward kinematics๋ฅผ ํตํด ๊ณ์ฐ๋ ํ ์ ๋ฐ์ดํธ๋ end-effector frame์ผ๋ก ํํ๋๊ณ 3D Cartesian space์์ ๋จ์ ๊ฐ์ฐ์์(unit Gaussian)์ผ๋ก ์ ๊ทํ๋ฉ๋๋ค.
- PCA Reduction:
- CVAE์ latent variable z์ ์ ํ PCA๋ฅผ ์ ์ฉํ์ฌ z์ ์ฐจ์์ ์ฃผ์ฑ๋ถ ๊ณ์ z'๋ก ์ถ๊ฐ์ ์ผ๋ก ์ค์ ๋๋ค. ์ด๋ฅผ ํตํด ์ ์๋ค์ ๊ฐ๋ณ ๊ธธ์ด์ latent representation์ ์ป์ต๋๋ค.
- PCA๋ฅผ CVAE ์ดํ์ ์ ์ฉํ๋ ์ด์ ๋, CVAE๊ฐ ์กฐ์๊ธฐ ๊ฐ์ ํํํ์ (inter-manipulator) ๋ณํ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ, PCA๊ฐ ๋ชจ๋ ์กฐ์๊ธฐ์ ๊ฑธ์น ์์ธ ๋ณํ(pose variation)์ ์ง์คํ ์ ์๋๋ก ํ๊ธฐ ์ํจ์ ๋๋ค. ์ด๋ ๋จ์ํ ์ต์ปค ๊ณต๊ฐ์ ์ง์ PCA๋ฅผ ์ ์ฉํ์ ๋ ํํํ์ ์ฐจ์ด๊ฐ ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ ์ง๋ฐฐํ์ฌ ์๋์ง ํํ ๋ฅ๋ ฅ์ ์ ํดํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
- Encode Pass: Joint values j๋ฅผ compactํ ์ฃผ์ฑ๋ถ ํํ z'์ผ๋ก ๋ณํํฉ๋๋ค: E: j \to \alpha \to z \to z'. ์ด ๊ณผ์ ์ forward kinematics๋ฅผ ํตํด j๋ฅผ \alpha๋ก ๋ณํํ๊ณ , CVAE ์ธ์ฝ๋๋ฅผ ํตํด \alpha๋ฅผ z๋ก ์ธ์ฝ๋ฉํ ํ, PCA๋ฅผ ํตํด z๋ฅผ z'์ผ๋ก ๋ณํํฉ๋๋ค.
- Decode Pass: Compactํ ์ฃผ์ฑ๋ถ ํํ z'์ joint values j๋ก ๋ณํํฉ๋๋ค: D: z' \to z \to \alpha \to j. ์ด ๊ณผ์ ์ inverse PCA๋ฅผ ํตํด z'์ z๋ก ๋ณํํ๊ณ , CVAE ๋์ฝ๋๋ฅผ ํตํด z๋ฅผ \alpha๋ก ์ฌ๊ตฌ์ฑํ ํ, multi-objective inverse kinematics๋ฅผ ํตํด \alpha๋ฅผ j๋ก ๋ณํํฉ๋๋ค.
- Separation of Synergies and Hardware: PCHands๋ ์๋์ง ๋ชจ๋ธ์ forward ๋ฐ inverse kinematics๋ฅผ ๋ด๋นํ๋ ํ๋์จ์ด ๊ณ์ธต์ผ๋ก๋ถํฐ ๋ถ๋ฆฌํ์ฌ ํ๋์จ์ด์ ๊ตฌ์ ๋ฐ์ง ์๋(hardware-agnostic) ๋์์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํน์ ์กฐ์๊ธฐ \gamma์ ์์ธ j_\gamma๋ฅผ ๋ค๋ฅธ ์กฐ์๊ธฐ \nu๋ก ๋ฆฌํ๊ฒํ (retargeting)ํ ๋, ๊ณตํต์ latent representation์ ๊ณต์ ํ๋ฉด์ ๊ฐ๊ฐ์ ํ๋์จ์ด ๊ณ์ธต์ด ์ธ์ฝ๋ฉ ๋ฐ ๋์ฝ๋ฉ ๊ณผ์ ์์ ์ ์ฉ๋ฉ๋๋ค: j_\nu = D_\nu(E(\gamma, j_\gamma)).
- CVAE (Conditional Variational Auto-Encoder):
- Refinement of End-effector Frame ์ด๊ธฐ end-effector frame์ ํํํ์ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, PCHands๋ end-effector frame์ ์ ์ ํ๊ณ ์๋์ง ๋ชจ๋ธ์ ์ฌํ๋ จํ๋ ๋ฐ๋ณต์ ์ธ ๊ณผ์ ์ ์ํํฉ๋๋ค (Algorithm 1).
- Iterative Learning Procedure: ์ด ์ ์ฐจ๋ ์๋์ง ๋ชจ๋ธ์ ํ๋ จํ๋ ๋จ๊ณ์ end-effector frame์ ์ ์ ํ๋ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํฉ๋๋ค. ์ด๋ฅผ ํตํด ์๋์ง ๋ชจ๋ธ์ ํญ์ ์ต์ ์กฐ์ ๋ end-effector frame์ ์ฐธ์กฐํ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋ฉ๋๋ค.
- Anchors Alignment (Algorithm 2):
- ์ด ์ ์ ์ ์ฐจ๋ Robotiq-2f85, Google-gripper, Kinova-3f, Armar-hand์ ๊ฐ์ reference manipulator์ ์ต์ปค๋ฅผ ์ฌ์ฉํ์ฌ target manipulator์ ์ต์ปค๋ฅผ ์ ๋ ฌํฉ๋๋ค.
- ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ(1^{st} PC)์์ k๊ฐ์ ๊ท ๋ฑํ๊ฒ ๋ถํฌ๋ ์ง์ ๋ค์ ์ํ๋งํฉ๋๋ค (์: z'_i = [i, 0, \dots, 0]).
- ๊ฐ ์ง์ ์์ decode-pass๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋ง๋ ์ฃผ์ฑ๋ถ ๊ณ์๋ฅผ target manipulator์ reference manipulator์ ์ต์ปค๋ก ๋งคํํฉ๋๋ค.
- reference manipulator๋ค๋ก๋ถํฐ ํ๊ท ์ต์ปค ์์น๋ฅผ ๊ณ์ฐํฉ๋๋ค.
- ์ด k๊ฐ์ ๊ตฌ์ฑ์์ target ์ต์ปค์ reference ์ต์ปค ๊ฐ์ ์ง์ ์ ์ธ ๋์์ ์ฌ์ฉํ์ฌ target manipulator์ end-effector frame์ ๋ํ ์กฐ์ ์ ๊ณ์ฐํฉ๋๋ค.
- ์ต์ ์ rigid transformation \delta = \{R, t\} \in SE(3)๋ ICP (Iterative Closest Point)์ ๋จ์ผ ์คํ ์ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋ฉ๋๋ค. ICP๋ ๋ค์ ๋ชฉ์ ํจ์๋ฅผ ์ต์ํํฉ๋๋ค: \min_{R, t} \sum_{i=1}^k \left\| \alpha^{\text{ref}}_i - R\alpha^{\text{tgt}}_i - t \right\|^2 ์ฌ๊ธฐ์ ์๊ฐ๋ฝ ๋(fingertips)๊ณผ ์์ง ์ต์ปค(thumb anchors)์๋ ๋ ๊ท ํ ์กํ ์ ๋ ฌ์ ์ํด ๋ ๋์ ๊ฐ์ค์น๊ฐ ๋ถ์ฌ๋ฉ๋๋ค.
์คํ ๋ฐ ๊ฒฐ๊ณผ
- ์ ์ฑ์ ๋ถ์: PCHands๋ ๋ค์ํ ์กฐ์๊ธฐ์์ ์ผ๊ด๋ ์ ์์ธ ์๋์ง์ end-effector frame์ ์ ๊ณตํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ ์กฐ์๊ธฐ ๊ฐ์ ์ผ๊ด๋๊ฒ ๋ณดํธ์ ์ธ โ์ด๊ธฐ-๋ซ๊ธฐ(opening-closing)โ ๋ชจ์ ์ ํด๋นํฉ๋๋ค.
- ๊ฐํ ํ์ต(RL)์์์ ํ์ฉ: PCHands๋ RL ์ค์ ์์ dexterous manipulation task๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ฌ์ฉ๋์์ต๋๋ค. ๊ธฐ์กด์ joint space์์ ํ์ตํ๋ baseline๋ณด๋ค PCHands์ N-pc (N principal components) latent representation์ observation ๋ฐ action space์ ์ฌ์ฉํ์ ๋ ๋ ๋น ๋ฅธ ํ์ต ํจ์จ์ฑ๊ณผ ์ผ๊ด์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. DAPG(Demo Augmented Policy Gradient)์์ ์ธ๊ฐ ์์ฐ(demonstrations)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ PCHands๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ latent space๋ก ๋ณํํ๋ ๊ณผ์ ์์ ์ ์ฉํ ์ ๋ณด๊ฐ ๋ณด์กด๋จ์ ์ ์ฆํ์ต๋๋ค.
- ์์ฐ ์์ค(Source of Task Demonstrations)์ ๋ํ Ablation: PCHands๋ ๋ค๋ฅธ ์กฐ์๊ธฐ๋ก ์์ง๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์์ฐ ๋ฐ์ดํฐ ์ฌ์ฌ์ฉ์ ํจ์จ์ฑ์ ์ ์ฆํ์ต๋๋ค.
- ์ค์ธ๊ณ(Real-World) ํ๊ฒฝ์ผ๋ก์ ์ด์ : ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ PCHands ์ ์ฑ ์ sim-to-real adaptation ์์ด ์ค์ ๋ก๋ด์์๋ ๋น๊ต์ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. 4-finger manipulator์ ๊ฒฝ์ฐ, ๋ฌผ์ฒด occlusions๋ก ์ธํ vision-based object pose tracker์ ๋ถ์ ํ์ฑ์ผ๋ก ์ฑ๋ฅ ์ ํ๊ฐ ์์์ผ๋, 2-finger manipulator์ ์ฑ๋ฅ์ ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ์ ์ ์ฌํ์ต๋๋ค.
๊ฒฐ๋ก
PCHands๋ ์ธ๊ฐ๊ณผ ๋ก๋ด ์กฐ์๊ธฐ ์ ๋ฐ์ ๊ฑธ์ณ ํต์ผ๋ ์๋์ง ํํ์ ์ถ์ถํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ADF, CVAE, PCA ๋ฐ ICP๋ฅผ ํ์ฉํ์ฌ latent manipulator representation์ ์ถ์ถํ๊ณ , task ๋ฐ joint dimensionality๋ฅผ ์ค์ด๋ฉฐ, end-effector frame์ ์ ๋ ฌํฉ๋๋ค. ์ด๋ RL ๊ธฐ๋ฐ ์กฐ์ ์์ ์์ ํจ์จ์ฑ์ ํฅ์์ํค๊ณ , ๋ค์ํ ์์ค์์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๊ฒฌ๊ณ ํ๊ฒ ํ์ตํ๋ ๊ฒ์ ์ง์ํฉ๋๋ค. PCHands๋ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ ์ ์ฑ ์ด ์ค์ ์กฐ์๊ธฐ๋ก ์ง์ ์ ์ด๋ ์ ์์์ ๋ณด์ฌ์ฃผ์ด, ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ๋ฐ ์ ์ฑ ์ ์ด๋ฅผ ํตํ ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ด ๋ชจ๋ธ ํ๋ จ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ๋ค์ด๊ฐ๋ฉฐ: ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ๊ฐ?
๋ก๋ด ๊ณตํ์์ ๋ฐ์ดํฐ๋ ์๋ก์ด ์์ ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์ ์ปดํจํฐ ๋น์ (CV) ๋ถ์ผ์์๋ ์์ญ์ต ๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ํ์ฉํ ๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ด ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค. GPT-4๋ 1.5~4.5B๊ฐ์ ํ์คํฌ๋ก ํ์ต๋์๊ณ , CLIP๊ณผ ๊ฐ์ ๋น์ ๋ชจ๋ธ๋ค์ 5~18M๊ฐ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ํ๋ จ๋์์ต๋๋ค.
ํ์ง๋ง ๋ก๋ด ๊ณตํ์ ์ด๋จ๊น์? Open X-Embodiment์ ๊ฐ์ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ ๊ณ ์ 0.16M๊ฐ์ ํ์คํฌ๋ง์ ํฌํจํ๊ณ ์์ต๋๋ค. ์ด๋ NLP๋ CV ๋๋น ์์ฒ ๋ฐฐ ์ ์ ๊ท๋ชจ์ ๋๋ค. ๋์ฑ ์ฌ๊ฐํ ๋ฌธ์ ๋ ์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ๋๋ถ๋ถ์ด ๋จ์ํ 2-ํ๊ฑฐ ๊ทธ๋ฆฌํผ(two-finger gripper)๋ฅผ ์ฌ์ฉํ ์์ ์ ๊ตญํ๋์ด ์๋ค๋ ์ ์ ๋๋ค.
์ฌ๊ธฐ์ ํต์ฌ์ ์ธ ์ง๋ฌธ์ด ์ ๊ธฐ๋ฉ๋๋ค: ์๋ก ๋ค๋ฅธ ํํ(morphology)์ ์์ ๋(DoF)๋ฅผ ๊ฐ์ง ๋ค์ํ ๋งค๋ํฐ๋ ์ดํฐ๋ค์ ๋ํด ํตํฉ๋ ํํ(unified representation)์ ํ์ตํ ์ ์์๊น? ๋ง์ฝ ๊ฐ๋ฅํ๋ค๋ฉด, ์ธ๊ฐ ์ ๋ฐ์ดํฐ, 5-ํ๊ฑฐ ๋ก๋ด ์ ๋ฐ์ดํฐ, ์ฌ์ง์ด ๋จ์ํ ๊ทธ๋ฆฌํผ ๋ฐ์ดํฐ๊น์ง ๋ชจ๋ ํ์ฉํ์ฌ ๋ฒ์ฉ์ ์ธ ์กฐ์(manipulation) ์ ์ฑ ์ ํ์ตํ ์ ์์ ๊ฒ์ ๋๋ค.
๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด IIT(Italian Institute of Technology)์ ์ฐ๊ตฌํ์ด ์ ์ํ ๊ฒ์ด PCHands์ ๋๋ค.
2. PCHands์ ํต์ฌ ์์ด๋์ด
PCHands๋ โPostural synergies(์์ธ ์๋์ง)โ๋ผ๋ ์ ๊ฒฝ๊ณผํ์ ๊ฐ๋ ์ ๋ก๋ด ๊ณตํ์ ์ ์ฉํฉ๋๋ค. ์ธ๊ฐ์ ์์ ์ฝ 20๊ฐ ์ด์์ ์์ ๋๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ์ค์ ๋ก ๋๋ถ๋ถ์ ์ผ์์ ์ธ ํ์ง(grasping) ๋์์ ์์์ โ์๋์งโ ํจํด์ ์กฐํฉ์ผ๋ก ์ค๋ช ๋ ์ ์๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์์ต๋๋ค.
PCHands๋ ์ด ์์ด๋์ด๋ฅผ ํ์ฅํ์ฌ, ์ธ๊ฐ ์๋ถํฐ 5-ํ๊ฑฐ ์ธ์ฒด๊ณตํ์ ๋ก๋ด ์, 3-ํ๊ฑฐ ๊ทธ๋ฆฌํผ, ์ฌ์ง์ด 2-ํ๊ฑฐ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๊น์ง 17๊ฐ์ง ์๋ก ๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด ํตํฉ๋ ์์ธ ์๋์ง ํํ์ ํ์ตํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ 3๊ฐ์ง
ํตํฉ๋ ๊ฐ๋ณ ๊ธธ์ด ํํ ํ์ต: CVAE์ PCA๋ฅผ ๊ฒฐํฉํ์ฌ ๋ค์ํ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด ๊ณตํต๋, ๊ทธ๋ฌ๋ฉด์๋ ์ ์ฐํ ์ฐจ์์ ์ ์ฌ ํํ์ ํ์ต
Anchor Description Format (ADF): 22๊ฐ์ ์ต์ปค ํฌ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ ํํ์ ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ํต์ผ๋ ํ์์ผ๋ก ๊ธฐ์
๊ฐํํ์ต ๊ธฐ๋ฐ ์กฐ์ ์์ ์์์ ํจ์ฉ์ฑ ์ ์ฆ: ๊ณต๋ ๊ณต๊ฐ(joint space)์์ ํ์ตํ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ๋์ ์ผ๊ด์ฑ ๋ฌ์ฑ
3. ๊ธฐ์ ์ ๋ฐฉ๋ฒ๋ก ์ฌ์ธต ๋ถ์
3.1 Anchor Description Format (ADF): ๋งค๋ํฐ๋ ์ดํฐ์ ํต์ผ๋ ์ธ์ด
PCHands์ ์ฒซ ๋ฒ์งธ ํต์ฌ ๊ตฌ์ฑ์์๋ ADF์ ๋๋ค. ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ์ ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ๋น๊ตํ๋ ค๋ฉด ๊ณตํต๋ โ์ธ์ดโ๊ฐ ํ์ํฉ๋๋ค. ADF๋ 22๊ฐ์ 3D ์ต์ปค ํฌ์ธํธ \alpha = \{x_i | x_i \in \mathbb{R}^3\}_{i=1}^{22}๋ฅผ ์ ์ํ์ฌ ์ด ์ญํ ์ ์ํํฉ๋๋ค.
5-ํ๊ฑฐ ์ธ์ฒด๊ณตํ์ ์์ ๊ฒฝ์ฐ: - ๊ฐ ์๊ฐ๋ฝ๋น 4๊ฐ์ ์ต์ปค (๊ทผ์, ์ค๊ฐ, ์์, ๋ ๋ง๋) - ์๋ฐ๋ฅ์ 2๊ฐ์ ์ต์ปค - ์ด 22๊ฐ ์ต์ปค
2-ํ๊ฑฐ ๊ทธ๋ฆฌํผ์ ๊ฒฝ์ฐ: - ์ผ์ชฝ jaw์ ์์ง ์ต์ปค 4๊ฐ ํ ๋น - ์ค๋ฅธ์ชฝ jaw์ ๋๋จธ์ง 16๊ฐ ์๊ฐ๋ฝ ์ต์ปค ๋ณํฉ - ์๋ฐ๋ฅ ์ต์ปค๋ ๊ทธ๋ฆฌํผ ๋ฒ ์ด์ค ์ค์์ ๋ฐฐ์น
์ด๋ฌํ โ์ต์ปค ๋ณํฉ(anchor-merging)โ ์ ๊ทผ๋ฒ์ ์๊ฐ๋ฝ ์๊ฐ 5๊ฐ ๋ฏธ๋ง์ธ ๋ชจ๋ ๋งค๋ํฐ๋ ์ดํฐ์ ์ผ๋ฐํ๋ฉ๋๋ค. ๊ฐ ์์์ผ๋ก ๊ตฌ๋ถ๋ ์ต์ปค๋ ๋งค๋ํฐ๋ ์ดํฐ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ๊ธฐ๋ฅ์ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค.
3.2 2๋จ๊ณ ์ฐจ์ ์ถ์: CVAE + PCA
PCHands์ ํต์ฌ ์ํคํ ์ฒ๋ CVAE(Conditional Variational Auto-Encoder)์ PCA(Principal Component Analysis)์ ์ง๋ ฌ ์ฐ๊ฒฐ์ ๋๋ค.
CVAE ๋จ๊ณ
CVAE๋ ์ต์ปค ์์น \alpha๋ฅผ ์ ์ฌ ๋ณ์ z๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ์ฌ๊ธฐ์ \text{dim}(z) \ll 22 \times 3์ ๋๋ค. ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
\mathcal{L}_{\theta,\phi}(x,c) = \mathbb{E}_{z \sim q_\phi(z|x,c)}[\log p_\theta(x|z,c)] - \lambda D_{KL}(q_\phi(z|x,c) \| p_\theta(z))
์ค์ํ ์ ์ ์กฐ๊ฑด ๋ณ์ c๊ฐ ๋งค๋ํฐ๋ ์ดํฐ ์๋ณ์์ one-hot ๋ฒกํฐ๋ผ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด CVAE๋ ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ชจ๋ธ๋งํ๋ฉด์, ์ ์ฌ ๊ณต๊ฐ z์์๋ ์์ธ ๋ณํ์ ์ง์คํ ์ ์์ต๋๋ค.
์ฌ๊ตฌ์ฑ ์์ค์ ๊ฐ์ค L1 ์์ค์ ์ฌ์ฉํฉ๋๋ค:
\min_{\phi,\theta} \sum_{i=1}^{22} |w_i(x_i - \hat{x}_i)|
๊ฐ์ค์น w_i๋ ์ต์ปค ๋ณํฉ ์ฌ์ฉ ๋น๋์ ๋ฐ๋ผ ํด๋ฆฌ์คํฑํ๊ฒ ์ค์ ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์์ง ์ต์ปค์ฒ๋ผ ๋๋ฌผ๊ฒ ๋ณํฉ๋๋ ์ต์ปค๋ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ฐ์ ๊ท ํ ์กํ ์ฌ๊ตฌ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
PCA ๋จ๊ณ์ ํ์์ฑ
์ฌ๊ธฐ์ ์์ฐ์ค๋ฌ์ด ์ง๋ฌธ์ด ์ ๊ธฐ๋ฉ๋๋ค: โ์ CVAE๋ง์ผ๋ก ์ถฉ๋ถํ์ง ์์๊ฐ?โ
์ ์๋ค์ vanilla PCA๋ฅผ ์ง์ ์ต์ปค ๊ณต๊ฐ์ ์ ์ฉํ ๋์ ํ๊ณ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๋ฆผ 3์์ ๋ณผ ์ ์๋ฏ์ด, ์ง์ PCA๋ฅผ ์ ์ฉํ๋ฉด ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ด ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ์ ํํํ์ ์ฐจ์ด๋ฅผ ๊ณผ๋ํ๊ฒ ํํํ๊ฒ ๋ฉ๋๋ค. ์ฆ, ๋ฐ์ดํฐ์ ๊ตฌ์ฑ์ ๋ฐ๋ผ ์์ธ ์ ๋ณด๋ฅผ ํํํ๋ ๋ฅ๋ ฅ์ด ์์ค๋ฉ๋๋ค.
๋ฐ๋ฉด, CVAE๊ฐ ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ ๋ณ๋์ ๋ชจ๋ธ๋งํ๋ฉด PCA๋ ์์ธ ๋ณ๋์ ์ง์คํ ์ ์์ต๋๋ค. ์ด๊ฒ์ด ๋ฐ๋ก 2๋จ๊ณ ์ ๊ทผ๋ฒ์ ํต์ฌ ํต์ฐฐ์ ๋๋ค.
PCA๋ฅผ ํตํด ์ ์ฌ ๋ณ์ z๋ฅผ ์ฃผ์ฑ๋ถ ๊ณ์ z'๋ก ๋ณํํจ์ผ๋ก์จ: - ์ ์์ ๋ ๋งค๋ํฐ๋ ์ดํฐ(์: ๋๋ถ๋ถ์ 2-ํ๊ฑฐ ๊ทธ๋ฆฌํผ๋ 1 DoF๋ง ๊ฐ์ง)์ ์ค๋ณต์ฑ ๋ฐฉ์ง - ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ณต์ก๋์ ๋ฐ๋ฅธ ์ ์ฐํ ์ฐจ์ ์ ํ ๊ฐ๋ฅ
3.3 ์๋์ดํํฐ ํ๋ ์ ์ ์ : ICP๋ฅผ ํ์ฉํ ๋ฐ๋ณต์ ์ ๋ ฌ
ํํํ์ ์ฐจ์ด๋ก ์ธํด ์ด๊ธฐ ์๋์ดํํฐ ํ๋ ์ ๋ฐฐ์น๋ ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ์ ์ผ๊ด์ฑ์ด ์์ต๋๋ค. PCHands๋ Iterative Closest Point (ICP) ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ ๋ฐ๋ณต์ ํ์ต ์ ์ฐจ๋ก ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
์๊ณ ๋ฆฌ์ฆ ๊ฐ์
์
๋ ฅ: ADF ํ์์ M๊ฐ ๋งค๋ํฐ๋ ์ดํฐ
์ถ๋ ฅ: ์๋์ง ๋ชจ๋ธ ฯ, ํ๋ ์ ์ ๋ ฌ ฮด
1. ฮดโ โ 0 // ์ด๊ธฐ ์ ๋ ฌ์ identity
2. while i โค budget do
3. A_i โ create_dataset(ฮด_i) // ํ์ฌ ์ ๋ ฌ๋ก ๋ฐ์ดํฐ์
์์ฑ
4. ฯ_i โ train_model(A_i) // CVAE+PCA ํ์ต
5. foreach M do
6. ฮด_{i+1} โ refine_frame(ฯ_i) // ICP๋ก ํ๋ ์ ์ ์
7. return ฯ, ฮด
์ต์ปค ์ ๋ ฌ ์์ธ
ํ๋ ์ ์ ์ ๋ฅผ ์ํด 4๊ฐ์ ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ(Robotiq-2f85, Google-gripper, Kinova-3f, Armar-hand)๋ฅผ ์ ํํฉ๋๋ค. ์ ํ ๊ธฐ์ค์ ๋จ์์ฑ๊ณผ ํํํ์ ๋ค์์ฑ์ ๋๋ค.
์ ์ ๊ณผ์ : 1. ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ ๋ฐ๋ผ k๊ฐ์ ๋ฑ๊ฐ๊ฒฉ ์ ์ ์ํ๋ง 2. ๊ฐ ์ ์์ decode-pass๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ฒ ๋ฐ ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ์ ์ต์ปค ๊ณ์ฐ 3. ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ๋ค์ ํ๊ท ์ต์ปค ์์น ๊ณ์ฐ 4. ๊ฐ์ค SVD๋ฅผ ์ฌ์ฉํ ICP๋ก ์ต์ ๊ฐ์ฒด ๋ณํ \delta = \{R, t\} \in SE(3) ๊ณ์ฐ
\min_{R, t} \sum_{i=1}^{k} \|\alpha_i^{\text{ref}} - R\alpha_i^{\text{tgt}} - t\|^2
์๋๊ณผ ์์ง ์ต์ปค์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๊ท ํ ์กํ ์ ๋ ฌ์ ๋ฌ์ฑํฉ๋๋ค.
3.4 ์ธ์ฝ๋-๋์ฝ๋ ํจ์ค: ์ค์ ์ฌ์ฉ๋ฒ
์ธ์ฝ๋ ํจ์ค \mathcal{E}: j \mapsto \alpha \mapsto z \mapsto z' 1. ์์ด๋ํ์ผ๋ก ๊ด์ ๊ฐ j๋ฅผ ์ต์ปค ์์น \alpha๋ก ๋ณํ 2. CVAE ์ธ์ฝ๋๋ก \alpha๋ฅผ ์ ์ฌ ํํ z๋ก ์ธ์ฝ๋ฉ 3. PCA๋ก z๋ฅผ ์ฃผ์ฑ๋ถ ๊ณ์ z'๋ก ๋ณํ
๋์ฝ๋ ํจ์ค \mathcal{D}: z' \mapsto z \mapsto \alpha \mapsto j 1. ์ญ PCA๋ก z'๋ฅผ z๋ก ๋ณต์ 2. CVAE ๋์ฝ๋๋ก z๋ฅผ ์ต์ปค ์์น \alpha๋ก ์ฌ๊ตฌ์ฑ 3. ๋ค๋ชฉ์ ์ญ์ด๋ํ์ผ๋ก \alpha๋ฅผ ๊ด์ ๊ฐ j๋ก ๋ณํ
์์ธ ๋ฆฌํ๊ฒํ : ๋งค๋ํฐ๋ ์ดํฐ \gamma์์ \nu๋ก์ ์์ธ ์ ๋ฌ์ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ๋จํฉ๋๋ค:
j_\nu = \mathcal{D}(\nu, \mathcal{E}(\gamma, j_\gamma))
์ด ์ ๊ทผ๋ฒ์ ์๋ฆ๋ค์์ ์๋์ง ๋ชจ๋ธ์ด ํ๋์จ์ด ๊ณ์ธต๊ณผ ๋ถ๋ฆฌ๋๋ค๋ ์ ์ ๋๋ค. ์ธ์ฝ๋ฉ๊ณผ ๋์ฝ๋ฉ ์ ๊ฐ๊ฐ์ ํ๋์จ์ด ๊ณ์ธต๋ง ๊ต์ฒดํ๋ฉด ๋ฉ๋๋ค.
4. ์คํ ๊ฒฐ๊ณผ ๋ถ์
4.1 ์คํ ์ค์
- ๋งค๋ํฐ๋ ์ดํฐ: 17์ข (Robotiq, WidowX, Fetch, xArm, WSG50, Rethink, Kinova2F, GoogleBot, Kinova3F, Franka, Armar, ergoCub, Schunk, Allegro, Shadow, LEAP, MANO)
- ๋ฐ์ดํฐ์ : ๋งค๋ํฐ๋ ์ดํฐ๋น 10,000๊ฐ ๊ตฌ์ฑ ์ํ (์ด 170,000๊ฐ)
- CVAE ๊ตฌ์กฐ: 4-layer MLP + Layer Normalization, \text{dim}(z) = 10
4.2 ์ ์ฑ์ ๋ถ์: ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ ์๋ฏธ
๋๋ผ์ด ๋ฐ๊ฒฌ์ ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ด ๋ชจ๋ 17๊ฐ ๋งค๋ํฐ๋ ์ดํฐ์์ โ์ ์ด๊ธฐ/๋ซ๊ธฐโ ๋์์ ์ผ๊ด๋๊ฒ ํํํ๋ค๋ ์ ์ ๋๋ค.
๊ทธ๋ฆผ 4์์ ํ์ธํ ์ ์๋ฏ์ด: - 1^{\text{st}}\text{pc} = 3: ์์ ํ ์ด๋ฆฐ ๊ตฌ์ฑ - 1^{\text{st}}\text{pc} = -3: ์์ ํ ๋ซํ ๊ตฌ์ฑ
์ด๋ 2-ํ๊ฑฐ ๊ทธ๋ฆฌํผ๋ถํฐ 5-ํ๊ฑฐ ์ธ์ฒด๊ณตํ์ ์, ์ฌ์ง์ด ๋น๊ฐ์ฒด(non-rigid) MANO ์ ๋ชจ๋ธ๊น์ง ์ผ๊ด๋๊ฒ ์ ์ฉ๋ฉ๋๋ค. ์ด๊ฒ์ PCHands๊ฐ ๋จ์ํ ์ฐจ์ ์ถ์๋ฅผ ๋์ด ์๋ฏธ๋ก ์ ์ผ๋ก ์ผ๊ด๋ ํํ์ ํ์ตํ์์ ๋ณด์ฌ์ค๋๋ค.
4.3 ๊ฐํํ์ต ๊ธฐ๋ฐ ์กฐ์ ํ์คํฌ
๋ฒค์น๋งํฌ ์ค์
- ํ์คํฌ: Open-Door, Relocate-Mustard, Relocate-MeatCan, Relocate-SoupCan, Flip-Mug (5๊ฐ์ง)
- ๋งค๋ํฐ๋ ์ดํฐ: Allegro (16 DoF), Schunk (9 DoF), Shadow (18 DoF) (3๊ฐ์ง)
- RL ์๊ณ ๋ฆฌ์ฆ: TRPO (๋ฐ๋ชจ ์์), DAPG (๋ฐ๋ชจ ์ฌ์ฉ)
- ๋น๊ต ๋์: ๊ด์ ๊ณต๊ฐ์์ ํ์ตํ๋ ์ต์ baseline [Qin et al., 2022]
ํ์ต ๊ณก์ ๋ถ์
๊ทธ๋ฆผ 5์ ๊ฒฐ๊ณผ๋ ์ธ์์ ์ ๋๋ค:
- ๋น ๋ฅธ ์๋ ด: PCHands๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ baseline๋ณด๋ค ๋น ๋ฅด๊ฒ ์๋ ด
- DAPG ์ฐ์์ฑ: ์ธ๊ฐ ๋ฐ๋ชจ๊ฐ ๋ก์ปฌ ์ตํฐ๋ง ํํผ์ ๋์
- ์ ์ฐจ์ ํํ์ ํจ๊ณผ: 1-pc์ 2-pc๊ฐ 4-pc๋ณด๋ค ๋์ฒด๋ก ์ฐ์
ํนํ ๋ง์ง๋ง ๋ฐ๊ฒฌ์ด ์ค์ํฉ๋๋ค. 16, 9, 18 DoF๋ฅผ ๊ฐ์ง ๋ณต์กํ ๋งค๋ํฐ๋ ์ดํฐ๋ค๋ ๋จ 2๊ฐ์ ์ฃผ์ฑ๋ถ๋ง์ผ๋ก ์ถฉ๋ถํ ํ์ต ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ โcurse of dimensionalityโ๋ฅผ ๊ทน๋ณตํ๋ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
4.4 ๋ฐ๋ชจ ์์ค ๊ต์ฐจ ์คํ: ์ง์ ํ ์ ์ด ๊ฐ๋ฅ์ฑ
์ด ์คํ์ด ์๋ง๋ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ์ผ ๊ฒ์ ๋๋ค. ์ฐ๊ตฌํ์ ๋ค์ ์ง๋ฌธ์ ๋ตํฉ๋๋ค: โ๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ๋ก ์์งํ ๋ฐ๋ชจ๋ก๋ ํ์ต์ด ๊ฐ๋ฅํ๊ฐ?โ
์คํ ์ค์ : - ๋ฐ๋ชจ ์์ค: 2F (Robotiq-2f85), 3F (Kinova-3f), 4F (LEAP-hand) - ํ๊ฒ ๋งค๋ํฐ๋ ์ดํฐ: ์์ ๋์ผํ 3๊ฐ์ง - ์ด 9๊ฐ์ง ์กฐํฉ (๋์ผ ์์ค-ํ๊ฒ ํฌํจ)
๊ฒฐ๊ณผ (๊ทธ๋ฆผ 6): - ์์๋๋ก ๋์ผ ์์ค-ํ๊ฒ ์กฐํฉ์์ ์ต๊ณ ์ฑ๋ฅ - ํ์ง๋ง ๋ค๋ฅธ ์์ค์ ๋ฐ๋ชจ๋ก๋ TRPO ๋๋น ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ - ํนํ 4F ํ๊ฒ์์ ์ด ํจ๊ณผ๊ฐ ๋๋๋ฌ์ง
์ด๊ฒ์ด ์ ์ค์ํ๊ฐ์? ์ค์ ๋ก๋ด ์ฐ๊ตฌ์์ ๋ฐ๋ชจ ์์ง์ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. PCHands๋ฅผ ์ฌ์ฉํ๋ฉด ์ด๋ฏธ ๊ฐ์ง๊ณ ์๋ ์ด๋ค ๋งค๋ํฐ๋ ์ดํฐ์ ๋ฐ๋ชจ๋ก๋ ์๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ํ์ต์ํฌ ์ ์์ต๋๋ค.
4.5 ์ค์ธ๊ณ ์ ์ด ์คํ
์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ๋ ๊ฒ์ ๋ก๋ด ํ์ต์ ์ฑ๋ฐฐ(holy grail)์ ๊ฐ์ต๋๋ค. PCHands๋ ์ด์ ๋ํด์๋ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์คํ ํ๋ซํผ
- 7-DoF Franka-Panda ๋ก๋ด ํ
- Robotiq-2f85 (2F) ๋๋ LEAP-hand (4F)
- RealSense L515 ์ธ๋ถ RGB-D ์นด๋ฉ๋ผ
- FoundationPose๋ฅผ ํตํ 6D ๋ฌผ์ฒด ์์ธ ์ถ์
๊ฒฐ๊ณผ
| ํ์คํฌ | ํ๊ฒ | 2F ๋ฐ๋ชจ | 3F ๋ฐ๋ชจ | 4F ๋ฐ๋ชจ | ํ๊ท |
|---|---|---|---|---|---|
| Relocate-Mustard | 2F | 90% | 100% | 100% | 97% |
| 4F | 100% | 80% | 90% | 90% | |
| Relocate-MeatCan | 2F | 100% | 80% | 90% | 90% |
| 4F | 50% | 30% | 70% | 50% | |
| Relocate-SoupCan | 2F | 80% | 80% | 70% | 77% |
| 4F | 70% | 50% | 0% | 40% |
์ฃผ๋ชฉํ ์ : 1. 2F ๋งค๋ํฐ๋ ์ดํฐ๋ ๋ชจ๋ ํ์คํฌ์์ ๋์ ์ฑ๊ณต๋ฅ ์ ์ง 2. 4F ๋งค๋ํฐ๋ ์ดํฐ๋ SoupCan์์ ์ฑ๋ฅ ์ ํ
์ฑ๋ฅ ์ ํ์ ์์ธ์ ํฅ๋ฏธ๋กญ์ต๋๋ค: 4-ํ๊ฑฐ encompassing ํ์ง๋ ๋ฌผ์ฒด๋ฅผ ์ฌํ๊ฒ ๊ฐ๋ฆฌ๊ธฐ ๋๋ฌธ์ ๋น์ ๊ธฐ๋ฐ ์์ธ ์ถ์ ๊ธฐ(FoundationPose)์ ์ ํ๋๊ฐ ๋จ์ด์ง๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ground-truth ์์ธ๊ฐ ํญ์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ฏ๋ก ์ด ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์์ต๋๋ค. ์ด๋ sim-to-real gap์ ์๋ก์ด ์์ธ์ ์๋ณํ ๊ฒ์ผ๋ก, ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
5. ๊ฐ์ ๊ณผ ํ๊ณ ๋ถ์
๊ฐ์
1. ์ค์ฉ์ ์ธ ์ฐจ์ ์ถ์
๊ธฐ์กด์ joint space ํ์ต์ ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์ ์ ์ฃผ์ ์๋ฌ๋ฆฝ๋๋ค. PCHands๋ 2-pc๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ RL ์ํ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํฉ๋๋ค.
2. ํ๋ฌ๊ทธ ์ค ํ๋ ์ด ์ํคํ ์ฒ
์๋์ง ๋ชจ๋ธ๊ณผ ํ๋์จ์ด ๊ณ์ธต์ ๋ถ๋ฆฌ๋ ์๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ ์ถ๊ฐ๋ฅผ ์ฉ์ดํ๊ฒ ํฉ๋๋ค. ์ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด: 1. 22๊ฐ ์ต์ปค ์์น ์ ์ 2. ์/์ญ์ด๋ํ ํจ์ ๊ตฌํ 3. ๊ธฐ์กด ๋ชจ๋ธ์ fine-tuning (๋๋ ์ฒ์๋ถํฐ ์ฌํ์ต)
3. ๋ฐ์ดํฐ ํจ์จ์ฑ
๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ฐ๋ชจ๋ฅผ ํ์ฉํ ์ ์๋ค๋ ๊ฒ์ ์ค์ง์ ์ธ ์ด์ ์ ๋๋ค. ๊ฐ๋น์ผ ๋ก๋ด ๋ฐ๋ชจ ์์ง ๋น์ฉ์ ํฌ๊ฒ ์ค์ผ ์ ์์ต๋๋ค.
4. ํด์ ๊ฐ๋ฅ์ฑ
์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ด โ์ ์ด๊ธฐ/๋ซ๊ธฐโ๋ฅผ ์๋ฏธํ๋ค๋ ๊ฒ์ ๋จ์ํ ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ด ์๋๋๋ค. ์ด๋ ํ์ต๋ ํํ์ด ์๋ฏธ๋ก ์ ์ผ๋ก ์๋ฏธ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋๋ฒ๊น ๊ณผ ์ ์ฑ ๋ถ์์ ๋์์ด ๋ฉ๋๋ค.
ํ๊ณ
1. ์ต์ปค ๋ฐฐ์น์ ์๋์ฑ
22๊ฐ ์ต์ปค์ ์์น๋ ๊ฐ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด ์๋์ผ๋ก ์ ์ํด์ผ ํฉ๋๋ค. ์ด๋ ์๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ์ถ๊ฐํ ๋๋ง๋ค ์ ๋ฌธ๊ฐ ์ง์๊ณผ ์๊ฐ์ด ํ์ํจ์ ์๋ฏธํฉ๋๋ค.
2. ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ ์ ํ์ ํด๋ฆฌ์คํฑ
ICP ์ ๋ ฌ์ ์ํ ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ ์ ํ์ โ๋จ์์ฑ๊ณผ ํํํ์ ๋ค์์ฑโ์ด๋ผ๋ ํด๋ฆฌ์คํฑ์ ์์กดํฉ๋๋ค. ์ด๊ฒ์ด ์ต์ ์ ์ ํ์ธ์ง๋ ๋ช ํํ์ง ์์ต๋๋ค.
3. ๋น์ ๊ธฐ๋ฐ ์์ธ ์ถ์ ์์กด์ฑ
์ค์ธ๊ณ ์คํ์์ ๋๋ฌ๋ฌ๋ฏ์ด, ๊ฐ๋ ค์ง(occlusion)์ ๋ฏผ๊ฐํ ๋น์ ๊ธฐ๋ฐ ์์ธ ์ถ์ ์ ๋ณ๋ชฉ์ด ๋ ์ ์์ต๋๋ค. ์ด๋ PCHands ์์ฒด์ ํ๊ณ๋ผ๊ธฐ๋ณด๋ค๋ ์์คํ ํตํฉ์ ๋ฌธ์ ์ด์ง๋ง, ์ค์ ๋ฐฐํฌ ์ ๊ณ ๋ คํด์ผ ํฉ๋๋ค.
4. ์ด๊ฐ ๋ฐ ํ ์ ๋ณด ๋ถ์ฌ
ํ์ฌ PCHands๋ ์์ํ๊ฒ ๊ธฐํํ์ ํํ์ ๋๋ค. ์ด๊ฐ ์ผ์ ์ ๋ณด๋ ํ์ง ํ๊ณผ ๊ฐ์ ์ค์ํ ์กฐ์ ๋ชจ๋ฌ๋ฆฌํฐ๋ ํฌํจ๋์ด ์์ง ์์ต๋๋ค.
5. ํ์คํฌ ๋ฒ์์ ์ ํ
์คํ๋ ํ์คํฌ๋ค(Open-Door, Relocate, Flip)์ ์๋์ ์ผ๋ก ๊ฐ๋จํฉ๋๋ค. In-hand manipulation์ด๋ tool use์ ๊ฐ์ ๋ ๋ณต์กํ dexterous manipulation ํ์คํฌ์์์ ํจ๊ณผ๋ ๊ฒ์ฆ๋์ง ์์์ต๋๋ค.
6. ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต ๋ฐ ์์น
์์ธ ์๋์ง ์ฐ๊ตฌ์ ๊ณ๋ณด
PCHands๋ ๋ก๋ด ์ ์์ธ ์๋์ง ์ฐ๊ตฌ์ ์ค๋ ์ญ์ฌ ์์ ์ ์์ต๋๋ค:
- PCA ๊ธฐ๋ฐ ์ ๊ทผ [Ciocarlie 2007, Bernardino 2013]: ์ง์ ๊ด์ ๊ณต๊ฐ์ PCA ์ ์ฉ
- GPLVM ๊ธฐ๋ฐ [Xu 2016]: ๋น์ ํ ํ๋ฅ ๋ชจ๋ธ๋ก ์ฌ๊ตฌ์ฑ ์ค์ฐจ ๊ฐ์
- AE/CVAE ๊ธฐ๋ฐ [Starke 2018, Dimou 2023]: ๋ฅ๋ฌ๋์ผ๋ก ๋ ํ๋ถํ ์ ์ฌ ๊ณต๊ฐ ํ์ต
PCHands์ ์ฐจ๋ณ์ ์ ๋ค์ค ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํ ํตํฉ ํํ์ ๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋๋ถ๋ถ ๋จ์ผ ๋งค๋ํฐ๋ ์ดํฐ์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค.
๋ฆฌํ๊ฒํ ์ฐ๊ตฌ์์ ๋น๊ต
์ ์์ธ ๋ฆฌํ๊ฒํ ๋ถ์ผ์์ [Qin et al., 2022]์ AnyTeleop์ ํ์ฌ state-of-the-art์ ๋๋ค. PCHands์์ ์ฃผ์ ์ฐจ์ด์ :
| ์ธก๋ฉด | AnyTeleop | PCHands |
|---|---|---|
| ๋ฆฌํ๊ฒํ ๋ฐฉ์ | ์ต์ ํ ๊ธฐ๋ฐ (๋งค ํ๋ ์) | ์์ ํ๋ง ์ฌ์ฉ |
| ๊ณ์ฐ ๋น์ฉ | ๋์ | ๋ฎ์ |
| ์ค์๊ฐ์ฑ | ์ ํ์ | ์ค์๊ฐ ๊ฐ๋ฅ |
| ๊ณตํต ํํ | ์์ (๊ด์ ๊ณต๊ฐ) | ์์ (์๋์ง ๊ณต๊ฐ) |
PCHands์ ํต์ฌ ์ด์ ์ ์ต์ ํ ์์ด ์์ ํ๋ง์ผ๋ก ๋ฆฌํ๊ฒํ ์ด ๊ฐ๋ฅํ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ์ค์๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์ ์ค์ํ ์ฅ์ ์ ๋๋ค.
7. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ด ์ ์ํ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ํจ๊ป ์ ๊ฐ ์๊ฐํ๋ ์ถ๊ฐ์ ์ธ ๋ฐฉํฅ์ ๋ ผ์ํฉ๋๋ค.
์ ์๋ค์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ ํฐ/๊ฐ๋ฐฉํ ๋งค๋ํฐ๋ ์ดํฐ ์งํฉ์ผ๋ก ํ์ฅ: ํ์ฌ 17๊ฐ์์ ์์ญ, ์๋ฐฑ ๊ฐ๋ก
- ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ํ์ฉ: Open X-Embodiment์ 2-ํ๊ฑฐ ๊ทธ๋ฆฌํผ ๋ฐ์ดํฐ๋ ์ธ๊ฐ ๋ฐ๋ชจ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋ณต์กํ dexterous ํ์คํฌ ํ์ต
์ถ๊ฐ๋ก ๊ณ ๋ คํ ์ ์๋ ์ฐ๊ตฌ ๋ฐฉํฅ
1. ์๋ํ๋ ์ต์ปค ๋ฐฐ์น
๋ฉ์ฌ ๋ถ์์ด๋ ๊ธฐ๋ฅ์ ์ ์ฌ์ฑ ํ์ต์ ํตํด ์ต์ปค ์์น๋ฅผ ์๋์ผ๋ก ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ ์ฐ๊ตฌ. ์ด๋ ์ ๋งค๋ํฐ๋ ์ดํฐ ํตํฉ์ ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถ ๊ฒ์ ๋๋ค.
2. ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ
์ด๊ฐ, ํ, ๊ณ ์ ์์ฉ๊ฐ๊ฐ ์ ๋ณด๋ฅผ ์๋์ง ํํ์ ํตํฉ. ์ด๋ ๋ ์ฌ์ธํ ์กฐ์ ํ์คํฌ์ ํ์์ ์ผ ๊ฒ์ ๋๋ค.
3. ๊ณ์ธต์ ์๋์ง ํํ
ํ์ฌ์ ๋จ์ผ ๋ ๋ฒจ PCA ๋์ , ํ์คํฌ๋ณ ๋๋ ํ์ง ์ ํ๋ณ ๊ณ์ธต์ ์๋์ง ๊ตฌ์กฐ ํ์ต. ์ด๋ ๋ ๋ณต์กํ ํ๋์ ๊ตฌ์ฑ์ฑ(compositionality)์ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ ๋๋ค.
4. ์จ๋ผ์ธ ์ ์
์๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด ์๋์ ๋ฐ์ดํฐ๋ก ๋น ๋ฅด๊ฒ ์ ์ํ๋ few-shot ๋๋ meta-learning ์ ๊ทผ๋ฒ ์ฐ๊ตฌ.
5. ์ค์ธ๊ณ ๊ฐ๋ ค์ง ๋ฌธ์ ํด๊ฒฐ
์ด๊ฐ ํผ๋๋ฐฑ์ด๋ ๊ฐ์ธํ ์ํ ์ถ์ ๊ธฐ๋ฒ์ ํตํด ๋น์ ๊ธฐ๋ฐ ์ถ์ ์ ๊ฐ๋ ค์ง ๋ฌธ์ ํด๊ฒฐ.
8. ์ค๋ฌด์ ์์ฌ์ : ์ธ์ PCHands๋ฅผ ์ฌ์ฉํด์ผ ํ๋๊ฐ?
์ฌ์ฉ์ ๊ถ์ฅํ๋ ๊ฒฝ์ฐ
๋ค์ํ ๋งค๋ํฐ๋ ์ดํฐ๋ก ๋ฐ๋ชจ๋ฅผ ์์งํด์ผ ํ ๋: ์ฐ๊ตฌ์ค์ ์ฌ๋ฌ ์ข ๋ฅ์ ๋ก๋ด ์์ด ์๋ค๋ฉด, ์ด๋ค ๊ฒ์ผ๋ก ์์งํ ๋ฐ๋ชจ๋ ํ์ฉ ๊ฐ๋ฅ
RL ์ํ ํจ์จ์ฑ์ด ์ค์ํ ๋: ๊ณ ์ฐจ์ ํ๋ ๊ณต๊ฐ์ ์ ์ฃผ๋ฅผ ํผํ๊ณ ์ถ๋ค๋ฉด PCHands์ ์ ์ฐจ์ ํํ์ด ๋์
์ค์๊ฐ ๋ฆฌํ๊ฒํ ์ด ํ์ํ ๋: ํ ๋ ์คํผ๋ ์ด์ ์์คํ ์์ ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ง์ฐ์ ์ ๋ฐ. PCHands๋ ์์ ํ๋ง์ผ๋ก ์ค์๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ
ํด์ ๊ฐ๋ฅํ ์ ์ฑ ์ด ํ์ํ ๋: ํ๋ ๊ณต๊ฐ์ด ์๋ฏธ๋ก ์ ์ผ๋ก ํด์ ๊ฐ๋ฅ(์: PC1 = ์ ์ด๊ธฐ/๋ซ๊ธฐ)ํ๋ฉด ๋๋ฒ๊น ๊ณผ ๋ถ์์ด ์ฉ์ด
์ฌ์ฉ์ด ์ ํฉํ์ง ์์ ์ ์๋ ๊ฒฝ์ฐ
๋จ์ผ ๋งค๋ํฐ๋ ์ดํฐ๋ง ์ฌ์ฉํ ๋: ์ ์ด ๊ฐ๋ฅ์ฑ์ด ๋ถํ์ํ๋ค๋ฉด ๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ด ์ ํฉํ ์ ์์
๋งค์ฐ ์ธ๋ฐํ ์๊ฐ๋ฝ ์ ์ด๊ฐ ํ์ํ ๋: 2-pc ํํ์ ๊ฐ๋ณ ์๊ฐ๋ฝ์ ๋ ๋ฆฝ์ ์ ์ด์ ์ ํ
์๋ก์ด ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ์์ฃผ ์ถ๊ฐํด์ผ ํ ๋: ์๋ ์ต์ปค ๋ฐฐ์น์ ์ค๋ฒํค๋๊ฐ ๋ถ๋ด๋ ์ ์์
9. ๊ฒฐ๋ก
PCHands๋ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ค๋ซ๋์ ๋ค๋ฃจ์ด์ง ๋ฌธ์ , ์ฆ ๋ค์ํ ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ์ ํํ ํตํฉ์ ๋ํด ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํด๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ์์ด๋์ด์ธ โCVAE๋ก ๋งค๋ํฐ๋ ์ดํฐ ๊ฐ ์ฐจ์ด๋ฅผ ๋ชจ๋ธ๋งํ๊ณ , PCA๋ก ์์ธ ์๋์ง๋ฅผ ์ถ์ถํ๋คโ๋ ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํฉ๋๋ค. ์ด ์กฐํฉ์:
- 17์ข ์ ๋งค์ฐ ๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด ์ผ๊ด๋ ์๋ฏธ๋ก ์ ํํ ํ์ต
- ๊ธฐ์กด baseline ๋๋น ๋ ๋น ๋ฅธ RL ์๋ ด
- ๊ต์ฐจ ๋งค๋ํฐ๋ ์ดํฐ ๋ฐ๋ชจ ํ์ฉ ๊ฐ๋ฅ
- ์ค์ธ๊ณ ์ ์ด์์๋ ์ ๋งํ ๊ฒฐ๊ณผ
๋ฌผ๋ก ํ๊ณ๋ ์์ต๋๋ค. ์๋ ์ต์ปค ๋ฐฐ์น, ํด๋ฆฌ์คํฑํ ์ฐธ์กฐ ๋งค๋ํฐ๋ ์ดํฐ ์ ํ, ๋น์ ๊ธฐ๋ฐ ์ถ์ ์์กด์ฑ ๋ฑ์ ํฅํ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ์ ๋๋ค.
ํ์ง๋ง โ๋ค์ํ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ํตํฉํ์ฌ ๋ฒ์ฉ์ ์ธ ์กฐ์ ์ ์ฑ ์ ํ์ตํ ๊ฒ์ธ๊ฐ?โ๋ผ๋ ์ง๋ฌธ์ ๋ํด, PCHands๋ ๋ถ๋ช ํ ๊ฑธ์ ๋์๊ฐ ๋๋ต์ ์ ์ํฉ๋๋ค. ๋ก๋ด foundation model์ ํฅํ ์ฌ์ ์์, ์ด๋ฌํ ํํ ํ์ต ์ฐ๊ตฌ๋ ํ์์ ์ธ ๋น๋ฉ ๋ธ๋ก์ด ๋ ๊ฒ์ ๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์ต๊ทผ ๋ก๋ด๊ณตํ์์๋ ๋ค์ํ ํํ์ ๋งค๋ํฐ๋ ์ดํฐ๋ฅผ ์์ฐ๋ฅด๋ ์ผ๋ฐํ๋ ์กฐ์ ๋ชจ๋ธ์ด ์๊ตฌ๋๋ค. ์๋ฅผ ๋ค์ด, ์ธ๊ฐ์ ์ ์์ง์ ๋ฐ์ดํฐ๋ ํ๋ถํ์ง๋ง, ๋ก๋ด์ ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๊ฐ ์๊ณ (์: ๊ทธ๋ฆฌํผ ์ค์ฌ) ๊ณ ์์ ๋ ์กฐ์ ๋ฐ์ดํฐ๋ ๋์ฑ ๋ถ์กฑํ๋ค. ๋ํ ๊ด์ ๊ณต๊ฐ(Joint Angle Space, JAS)์์ ์ง์ ์ ์ดํ๋ ๋ฐฉ์์ ์์ ๋๊ฐ ๋์ ๊ฒฝ์ฐ ํ์ต ํจ์จ์ด ๋จ์ด์ง๊ณ , ๋จ์ํ ์๋์ดํํฐ์ ์นด๋ฅดํ ์์ ์ ์ด(Cartesian Space, CAS)๋ง์ผ๋ก๋ ์ ๋ฐํ ์ ๋ชจ์ ์ ์ด๊ฐ ์ด๋ ต๋ค. ์ด์ ๋ณธ ๋ ผ๋ฌธ โPCHands: PCA-based Hand Pose Synergy Representation on Manipulators with N-DoFโ๋ ์ฌ๋ฌ ๊ธฐ๊ตฌํ ๊ตฌ์กฐ(2~5์ง ์๊ฐ๋ฝ, ์ธ์ ํธ๋ ๋ฑ)๋ฅผ ๋ง๋ผํ๋ ํต์ผ๋ ์ ์์ธ ํํ์ ์ ์ํ๋ค. ํต์ฌ ์์ด๋์ด๋ ์ต์ปค(Anchor) ํฌ์ธํธ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ ๋งค๋ํฐ๋ ์ดํฐ์ ์/๊ทธ๋ฆฌํผ ํํ๋ฅผ ํํํ๊ณ , ๋ณ๋์ด ์๋ ๋งค๋ํฐ๋ ์ดํฐ ๊ตฌ์ฑ ์ ์ฒด๋ฅผ CVAE๋ก ์ ์ฌ๊ณต๊ฐ์ ์ธ์ฝ๋ฉํ ๋ค, ์ด๋ฅผ PCA๋ก ๋ถํดํ์ฌ ๊ณตํต๋ ํฌ์ฆ ์๋์ง(postural synergy)๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด๋ค. ์ด๋ ์ป์ด์ง๋ ์ฃผ์ฑ๋ถ(principal components) ์ ๋ชจ๋ ๊ธฐ๊ตฌ์ ๊ฑธ์ณ ๋ณดํธ์ ์ผ๋ก ์ ๊ฐํ(opening) ๊ฐ์ ์ด๋ ํจํด์ ๋ํ๋ธ๋ค.
๊ทธ๋ฆผ.1. PCHands์ ์ต์ปค(Anchor) ๋ฐฐ์น ์์. ๊ฐ ๋งค๋ํฐ๋ ์ดํฐ์ 22๊ฐ์ ์ต์ปค๋ฅผ ์ ์ํ์ฌ ์๊ฐ๋ฝ๊ณผ ํ(palm)์ ๋ํํ๋ค. ์๋ฅผ ๋ค์ด, 5์ง ์์์๋ ๊ฐ ์๊ฐ๋ฝ์ ๊ทผ์, ์ค๊ฐ, ์์, ์๊ฐ๋ฝ ๋(phalanx)์ ๊ฐ๊ฐ ์ต์ปค๋ฅผ ๋ฐฐ์นํ๊ณ , 2์ง ๊ทธ๋ฆฌํผ์์๋ ํ์ชฝ ์กฐ์ด์คํฑ(jaw)์ ์ข์ธก ์์ง ๋ชจํ ์ต์ปค 4๊ฐ, ๋ค๋ฅธ ์ชฝ์ 16๊ฐ๋ฅผ ํ ๋นํ๋ ์์ด๋ค. ์ต์ปค ํฌ์ธํธ๋ ๊ฐ๊ฐ์ ๋งค๋ํฐ๋ ์ดํฐ ๊ธฐ๊ตฌํ์์ ์ ์ ํ ์ ์๋ 3D ์ ์ผ๋ก, ์ด๋ค์ ํต์ผ๋ ๊ธฐ์ (coordinate frame)์์ ํํํจ์ผ๋ก์จ ์๋ก ๋ค๋ฅธ ์์ ๋์ ๋ก๋ด๋ ๊ฐ์ ์ฐจ์์์ ๋น๊ตยทํ์ตํ ์ ์๋ค. PCHands์์๋ ์ด๊ธฐ ์๋์ดํํฐ ํ๋ ์์ ์๋ชฉ ๋ฐฉํฅ ๋ฑ์ผ๋ก ์ ์ํ ๋ค(๊ทธ๋ฆผ ์ฐธ์กฐ), Iterative Closest Point(ICP) ๋ฑ์ ํตํด ๋ชจ๋ ๋งค๋ํฐ๋ ์ดํฐ์ ์ต์ปค ์ขํ๊ณ๋ฅผ ์ ๋ ฌํจ์ผ๋ก์จ ํํ์ ์ผ๊ด์ฑ์ ํ๋ณดํ๋ค.
์ํ์ ๊ธฐ๋ฒ: PCA, CVAE, ๊ทธ๋ฆฌ๊ณ ์ต์ปค ๊ธฐ๋ฐ ๋งคํ
PCHands์ ์ํ์ ๊ธฐ๋ฐ์ ํฌ๊ฒ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ๊ณผ ์ด๋ํ์ ๋งคํ์ผ๋ก ๋๋๋ค. ์ฐ์ ์ฃผ์ฑ๋ถ๋ถ์(PCA)์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ๊ณต๋ถ์ฐ์ด ๊ฐ์ฅ ํฐ ๋ฐฉํฅ(์ฃผ์ฑ๋ถ)์ผ๋ก ์ ํ ๋ถํดํด ํ์ ๊ณต๊ฐ์ ํํํ๋ค. ์ ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, PCA๋ ๋ก๋ด ํธ๋์ ์์ธ ๊ณต๊ฐ์ ์ ์ฐจ์ํํ์ฌ ๊ทธ๋ฆฝ(grasp) ํฌ์ฆ์ ์๋์ง(์ฃผ์ ๊ธฐ์ )๋ฅผ ์ฐพ๋ ๋ฐ ์ฐ์ฌ ์๋ค. ์๋ฅผ ๋ค์ด, Santello ๋ฑ์ ์ฐ๊ตฌ์์๋ ์ธ๊ฐ ์ ์์ธ์ ๋ช ๊ฐ ์ฃผ์ฑ๋ถ๋ง์ผ๋ก ๋๋ถ๋ถ์ ๋ณ๋(โง80%)์ ์ค๋ช ํ ์ ์์์ ๋ณด์๋ค(๋๊ณผํ ๋ถ์ผ). PCHands๋ ์ด๋ฌํ ํฌ์ฆ ์๋์ง ๊ฐ๋ ์ ๋ฉํฐ ๋งค๋ํฐ๋ ์ดํฐ์ ์ ์ฉํ๋ค. ํ์ง๋ง ๋จ์ PCA๋ก๋ ๋งค๋ํฐ๋ ์ดํฐ๋ง๋ค ํ์์ด ๋ค๋ฅด๋ฏ๋ก ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ์ด ์ ๊ตฌ๋ถ๋ฆผ ๋์ ๊ตฌ์กฐ ์ฐจ์ด์ ๋ฏผ๊ฐํด์ง๋ ๋จ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์กฐ๊ฑด๋ถ ๋ณ์ดํ ์คํ ์ธ์ฝ๋(CVAE)๋ฅผ ๋จผ์ ์ ์ฉํ์ฌ ๋น์ ํ ์ ์ฌ ํํ์ ํ์ตํ ํ, ์ด ์ ์ฌ๊ณต๊ฐ์ PCA๋ฅผ ์ ์ฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ ์ด๋ค. CVAE๋ ์ ๋ ฅ(์ต์ปค ์์น)๊ณผ ์ถ๋ ฅ(์ฌ๊ตฌ์ฑ) ์ฌ์ด์ ์คํ ์ธ์ฝ๋์ ์ ์ฌ ๋ถํฌ ์ ๊ทํ(KL ๋ฐ์ฐ) ํญ์ ๋ํ ์ ๊ฒฝ๋ง์ผ๋ก, here๋ ๋งค๋ํฐ๋ ์ดํฐ ID๋ฅผ ์กฐ๊ฑด(condition)์ผ๋ก ์ฃผ์ด ํ์ตํ๋ค. CVAE์ ์์คํจ์๋ L1 ์ฌ๊ตฌ์ฑ ์ค์ฐจ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๊ณ , ์ ์ฌ๊ณต๊ฐ์ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก ํ๋ จ๋๋ค. ์ด๋ก์จ ์๋ก ๋ค๋ฅธ ๋ก๋ด ๊ตฌ์ฑ์์ ๋ณผ ์ ์๋ ์์ธ ๋ณํ๋ฅผ ๊ณตํต์ ์ ์ฌ๋ฒกํฐ z ๋ก ์ก์๋ผ ์ ์๋ค.
์ดํ PCA Reduction ๋จ๊ณ์์, CVAE์ ์ ์ฌ๋ฒกํฐ z์ ๋ํด ์ ํ PCA๋ฅผ ์ํํ์ฌ z์ ์ฃผ์ ์ฑ๋ถ(PC)์ ๊ตฌํ๋ค. ์ด ๋ณ์๊ธธ์ด(latent)์ PCA ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ง ํํ์ด๋ฉฐ, ์ํ๋ ์ฐจ์ ์(์: 1~10PC)๋ฅผ ์์ ๋กญ๊ฒ ์ ํํ ์ ์์ด ์ ์ฐํ๋ค. ๋ ผ๋ฌธ์์๋ ์ฒซ์งธ PC๊ฐ ๋ชจ๋ ์์์ ์์ ๊ฐ๋ฐฉ(open)ํ๋ ๋ณดํธ์ ์ด๋์์ ๊ด์ฐฐํ๋ค. ์ค์ ์กฐ์ ์ค์๋ ์ฃผ์ฑ๋ถ ๊ณ์๋ฅผ ๊ด์ฐฐ(observation)๊ณผ ํ๋(action) ๊ณต๊ฐ์ผ๋ก ์ฐ๋๋ฐ, ์๋ฅผ ๋ค์ด RL ์์ด์ ํธ๋ 1~N๊ฐ์ PC ๊ณ์๋ฅผ ์ ๋ ฅ/์ถ๋ ฅ์ผ๋ก ํ์ฉํ๋ค. ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๊ธฐ๊ณ๋ง๋ค ์์ ๋ฐฉ ์ด๋ํ์ผ๋ก ์ต์ปค ์์น๋ฅผ ๊ตฌํด CVAE ์ธ์ฝ๋๋ก latent z๋ก ๋ณํํ๊ณ , ๋ค์ PCA ๊ณ์๋ก ๋ณํํ์ฌ encode pass๋ฅผ ์์ฑํ๋ค. ๋ฐ๋๋ก decode pass์์๋ PC ๊ณ์๋ฅผ CVAE๋ก ์ญ๋ณํํ์ฌ ์ต์ปค ์์น๋ฅผ ์ฌ๊ตฌ์ฑํ๊ณ , ์ญ์ด๋ํ(optimization)์ผ๋ก ๊ฐ ๊ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ก๋ด ์์ธ๋ฅผ ์ป๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๋์ง ๋ชจ๋ธ(PC ๋ณํ)์ ๊ณตํต์ผ๋ก ๋๊ณ , ๊ฐ ๋ก๋ด์ ๊ธฐ๊ตฌ์ธต(forward/inverse kinematics)๋ง ๋ถ๋ฆฌํ์ฌ ์ ์ฉํ ์ ์์ผ๋ฏ๋ก ํ๋์จ์ด ๋ ๋ฆฝ์ ์ผ๋ก ์๋์ง๋ฅผ ์ด๋ค.
๋ง์ง๋ง์ผ๋ก, ์ต์ปค ์ขํ๊ณ๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํ ํ๋ ์ ๋ณด์ ์ ์ฐจ๋ฅผ ๋ฐ๋ณต ํ์ต์ ํฌํจํ๋ค. ์๊ณ ๋ฆฌ์ฆ์ ๋ ํผ๋ฐ์ค์ฉ ๋งค๋ํฐ๋ ์ดํฐ(์: 2F, 3F, ์๋งํธ ์ ๋ฑ)๋ฅผ ๋ช ๊ฐ์ง ๊ณ ์ ํด๋๊ณ , ์ฒซ ์ฃผ์ฑ๋ถ ์์์ ๋ณด๊ฐ๋ ๋ค์์ ํฌ์ธํธ๋ฅผ ๋ฝ์ ๋์ฝ๋ฉํ๋ค. ๊ทธ๋ฐ ๋ค์ ๊ฐ ๋ชจ์ ๋ง๋ค ๋ ํผ๋ฐ์ค ๋ก๋ด๋ค์ ์ต์ปค ํ๊ท ์์น์, ํ๊ฒ ๋ก๋ด์ ์ต์ปค ์์น ์ฐจ์ด๋ฅผ ICP๋ก ๊ณ์ฐํ์ฌ ํ๊ฒ์ ์๋์ดํํฐ ๊ธฐ์ค๊ณ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด, ๋ชจ๋ ๋ก๋ด์ ์ต์ปค ํํ์ด ๊ฐ๋ฅํ ํ ์ผ๊ด๋๊ฒ ์ ๋ ฌ๋๋ค. ์์ฝํ๋ฉด, PCHands๋ ์ต์ปค ์ค๋ช ํฌ๋งท(ADF) โ CVAE ํ์ต โ PCA ์ถ์ โ ํ๋ ์ ์ ๋ ฌ์ด๋ผ๋ ํ์ดํ๋ผ์ธ์ผ๋ก ์๋ํ์ฌ ๊ณตํต์ ์ ์ฐจ์ ์ ์์ธ ์๋์ง ๊ณต๊ฐ์ ๋ง๋ ๋ค.
JAS, CAS, ์๋์ง ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋น๊ต
๋ก๋ด ์ ๋งคํ ๋๋ ์ ์ด ๋ฐฉ์์ ํฌ๊ฒ ์ง์ ๊ด์ (JAS), ์นด๋ฅดํ ์์ ๊ณต๊ฐ (CAS), ์ฐจ์ ์ถ์(์๋์ง), ์ง์ ์์ (task-oriented) ๋ฑ์ ๋ฒ์ฃผ๋ก ๊ตฌ๋ถ๋๋ค. Meattini ๋ฑ์ ๋ถ๋ฅ์ ๋ฐ๋ฅด๋ฉด, JAS(Direct Joint)๋ ๊ฐ ๊ด์ ๊ฐ์ ์ง์ ๋ช ๋ นํ๋ ๋ฐฉ์์ด๊ณ , CAS(Direct Cartesian)๋ ์๊ฐ๋ฝ ๋ง๋จ ๋๋ ์๋์ดํํฐ์ ์์น/์์ธ๋ฅผ ๋ช ๋ นํ์ฌ ๋ชจ์ ์ ์์ฑํ๋ค. ํํธ ์๋์ง ๊ธฐ๋ฐ ๋ฐฉ์์ (์: PCA ๋ฑ) ์ ์ฐจ์ ์ ์ฌ๋ฒกํฐ๋ฅผ ํตํด ๊ณ ์ฐจ์ ๊ด์ ์ ์ ์ดํ๋ ๊ธฐ๋ฒ์ด๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์ ์๋์ง ๋ชจ๋ธ์ ์ธ๊ฐ ์ ๋ฐ์ดํฐ๋ ๋ก๋ด ์ ๊ตฌ์ฑ์ ์ฃผ์ฑ๋ถ์ ์ฐพ๋๋ฐ ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ด๋ฅผ ์ด์ฉํด ์ธ์ฒด ์์ฐ์ ๋ก๋ด์ผ๋ก ๋ฆฌํ๊ฒํ ํ๊ฑฐ๋(bimanual teleop ๋ฑ) ๊ทธ๋ฆฝ ์์ฑ ๋ฑ์ ํ์ฉํด ์๋ค.
PCHands๋ ์ด ์ค ์๋์ง ์ฐจ์ ์ ์ด๋ฅผ ์ ํํ์ฌ JAS ๋ฐ CAS ๋๋น ์ฅ์ ์ ๋ณด์ธ๋ค. ์๋ฅผ ๋ค์ด ๋ณธ ๋ ผ๋ฌธ์ RL ์คํ์์๋ 16~18 ์์ ๋๋ฅผ ๊ฐ์ง Allegro, Schunk, Shadow์ ๊ฐ์ ํธ๋ ์กฐ์๊ธฐ๋ค์ ๋์์ผ๋ก ํ๋ค. ๊ธฐ์ค์ (๋ฒ ์ด์ค๋ผ์ธ) ๋ฐฉ๋ฒ์ JAS๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๊ด์ ๊ฐ์ ์ง์ ์ ์ดํ๋ค. ๋ฐ๋ฉด PCHands์์๋ 1~N๊ฐ์ ์ฃผ์ฑ๋ถ ๊ณ์๋ง์ผ๋ก (์ฌ๊ธฐ์ ์๋์ดํํฐ ์์น๋ฅผ ์ถ๊ฐํ๋ flying-hand mode) ์ ์ด๋ฅผ ์งํํ๋ค. ์คํ ๊ฒฐ๊ณผ, ํ์ต ์๋์ ์ผ๊ด์ฑ ์ธก๋ฉด์์ PCHands๊ฐ JAS ๊ธฐ๋ฐ ๋๋น ์ฐ์ํ๋ค. ํนํ 1~2๊ฐ์ PC๋ง ์ฌ์ฉํด๋ 16~18 ์์ ๋์ ๋ก๋ด ์์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์์ด ๊ด์ฐฐ๋์๋ค. ๋ํ PCHands๋ ์ฃผ์ฑ๋ถ๊ณผ ๋ณ๊ฐ๋ก ์๋์ดํํฐ ์์น ๋ช ๋ น(CAS)์ ๋์์ ์ทจ๊ธ(flying-hand mode)ํ ์ ์์ด, ๊ธฐ์กด CAS์ ์ฅ์ (๋ฌผ์ฒด ์์น ์ ์ด)๊ณผ ์๋์ง์ ์ฅ์ (์ ์ฐจ์ ์ ๋ชจ์ ์ ์ด)์ ๋ชจ๋ ๊ฐ์ง๋ค.
์ ์ฑ์ ์ผ๋ก๋, PCHands๊ฐ ์ถ์ถํ ์ฒซ์งธ ์ฃผ์ฑ๋ถ์ ๋ชจ๋ ๊ธฐ๊ตฌ์์ ๊ณตํต์ ์ธ ์-๊ฐํ ์ด๋์ ๋ํ๋ธ๋ค. ๊ทธ๋ฆผ 3 ํ๋จ๊ณผ ๊ทธ๋ฆผ 4๋ฅผ ๋ณด๋ฉด, ์์ PCA(โvanilla PCAโ)๋ก๋ ๋งค๋ํฐ๋ ์ดํฐ๋ง๋ค ๋ถํฌ๊ฐ ๊ตฌ์กฐ์ ๋ฐ๋ผ ๊ตฐ์งํ๋์ง๋ง, CVAE+PCA(PCHands)์์๋ ์ด๋ฌํ ๊ตฌ์กฐ์ฐจ์ด๊ฐ ์ํ๋๊ณ ์ ๋ชจ์ ๋ณํ๊ฐ ์ฃผ์ถ์ผ๋ก ์กํ๋ค(๊ทธ๋ฆผ 3). ์ฆ PCHands๋ ๋ค์ํ ํํ์ ์ ๋ชจ๋์์ ์ผ๊ด๋ ์๋์ง ๊ธฐ์ ๋ฅผ ํ์ตํ๋ฉฐ, ๋์ผํ ์๋์ง ์ขํ๋ฅผ ์ฌ์ฉํด ์๋ก ๋ค๋ฅธ ๋ก๋ด ๊ฐ์ ์์ธ๋ฅผ ์ฌํ(retargeting)ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋ ์์ ์์ธ๋ฅผ ์์๋ก ๋ณํํ ์์์ 5์ง๋ 2์ง ๋ก๋ด์ ๊ทธ๋๋ก ๋งคํํ ๋, PCHands๋ฅผ ์ฐ๋ฉด ๋ณต์กํ ์ต์ ํ ๊ณผ์ ์์ด๋ ์์ชฝ ๋ชจ๋ ์์ฐ์ค๋ฌ์ด ์์ธ๋ฅผ ์ป์ ์ ์๋ค.
์ข ํฉํ๋ฉด, ๋น๊ต ์คํ์์ PCHands๋ JAS ๊ธฐ๋ฐ ๊ฐํํ์ต ๋๋น ํ์ต ํจ์จ ๋ฐ ์ฑ๊ณต๋ฅ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ด๋ ์ ์ฐจ์ ์๋์ง ํํ์ด ๋์ผํ ์์ ์ ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ํ์ตํ๋๋ก ๋๋ ๊ฒฐ๊ณผ๋ค. ๋ํ PCHands๋ ์๋ก ๋ค๋ฅธ ๊ทผ์(์์ค) ๋ก๋ด์ demonstration์ ํ์ฉํ ๋ฐ๋ชจ ์ฆ๊ฐ ํ์ต(DAPG)์์๋ ๊ฐ์ธํจ์ ๋ณด์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, 2์ง/3์ง/4์ง ๋ก๋ด์์ ์์งํ ์์ฐ์ ๋ค๋ฅธ ํธ๋์ ์ ์ฉํด๋ PCHands๋ฅผ ์ด ์ ์ฑ ์ด ์ผ๊ด๋๊ฒ ๋์ ์ฑ๋ฅ์ ๋ด๋ฉฐ, ์์ฐ์ด ๊ฐ์ ํํ์ ๋ก๋ด์์ ์จ ๊ฒฝ์ฐ๋ณด๋ค ๋ฑํ ํ๋ํฐ๊ฐ ํฌ์ง ์์์ ํ์ธํ๋ค. ์ด๋ PCHands์ ์ ์ฌ ์๋์ง ์ขํ๋ก ๋ณํํจ์ผ๋ก์จ ์ ์ฉํ ์ ๋ณด๊ฐ ์์ค๋์ง ์๊ณ ์ฌ์ฌ์ฉ๋จ์ ์์ฌํ๋ค. ๋ค๋ง, ์ ํต์ ์ธ ์๋์ง ๋ชจ๋ธ(์: Santello ๋ฐฉ์)์ด๋ ๊ธฐํ ์๋์ง ํ์ฅ(โSynergy+โ๋ผ๊ณ ๋ถ๋ฅผ ๋งํ ์๋ก์ด ๋ฐฉ๋ฒ)๊ณผ PCHands์ ์ง์ ๋น๊ต ์คํ์ ์ด๋ฃจ์ด์ง์ง ์์์ผ๋, PCHands์ ์ ๊ทผ๋ฒ์ ํนํ ๋งค๋ํฐ๋ ์ดํฐ ํํ๊ฐ ์ด์ง์ ์ผ ๋ ๊ฐ์ ์ ๊ฐ์ง๋ค. ์๋ฅผ ๋ค์ด 2์ง ๊ทธ๋ฆฌํผ์ 5์ง ์์ ๋์ผ ๋ฒกํฐ ๊ณต๊ฐ์์ ๋ค๋ฃจ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์์์ผ๋ฏ๋ก PCHands๋ ์ด ์ ์์ ๋ ์ฐฝ์ ์ด๋ค.
์คํ ๊ฒฐ๊ณผ์ ๋ถ์
์ ์ฑ์ ์๋์ง ๋ถ์
PCHands๊ฐ ํ์ตํ ์๋์ง๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ, ์ฒซ ๋ฒ์งธ ์ฃผ์ฑ๋ถ(PC1)์ด ๊ฐ์ฅ ์๋ฏธ ์์๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด PC1์ 17๊ฐ ๋ก๋ด(๋ค์ํ ์์ ๋ ํฌํจ)์์ ๊ณตํต์ ์-๊ฐํ ์ด๋์ ๋ํ๋๋ค. ์ค์ ๋ก Fig.4๋ฅผ ๋ณด๋ฉด PC1์ +3~-3 ๋ฒ์๋ก ์์ง์์ ๋ ๋ชจ๋ ๋ก๋ด์ด โ์์ ํ์ง ํธ(open)โ ๋ชจ์์์ โ์ฃผ๋จน ์ฅ(closed)โ ๋ชจ์๊น์ง ๋ณํํ๋ค. 16๊ฐ ๊ฐ์ฒด ๋ก๋ด๊ณผ 1๊ฐ์ ๋น๊ฐ์ฒด(MANO ๋ชจ๋ธ) ์ ๋ชจ๋ ๊ฐ์ PC1 ์ถ์ ๊ณต์ ํ์ฌ ์ผ๊ด๋ ๋์์ ๋ณด์ธ ๊ฒ์ด๋ค. ์ด๋ PCHands๊ฐ ์๋ก ๋ค๋ฅธ ํ์์ ๋ก๋ด ์ฌ์ด์์ ๋์ผํ ์ ์ฌ ํํ์ ๊ณต์ ํจ์ ์๋ฏธํ๋ค.
๋ํ CVAE์ ์ ์ฌ ๊ณต๊ฐ์ ๋ํ PCA ์ ์ฉ ์ ๊ณผ ํ๋ฅผ ๋น๊ตํ๋ฉด(๊ทธ๋ฆผ 3 ํ๋จ), ๋จ์ PCA ๋ง์ผ๋ก๋ ์ ๋ชจ์๋ณด๋ค๋ ๋ก๋ด ์ข ๋ฅ๋ง๋ค์ ์ฐจ์ด๊ฐ PC1์ ๋ฐ์๋์๋ค. ๋ฐ๋ฉด PCHands(CVAE+PCA)์์๋ ๊ตฌ์กฐ ์ฐจ์ด๋ฅผ ์ ๊ฑฐํ๊ณ ์ ๋ชจ์์ ๋ณํ๋ฅผ ๊ฐ์กฐํจ์ผ๋ก์จ ์ง์ ํ ์๋์ง ํํ์ ๋ฝ์๋ผ ์ ์์๋ค. ์ฆ, CVAE๋ก ์ธํฐ-๋งค๋ํฐ๋ ์ดํฐ ๋ณํ์ ์ด๋ ์ ๋ ๋ชจ๋ธ๋งํด์ค ๋ค์ PCA๋ฅผ ์์ฐ๋ฉด, ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ ๊ฐ ํธ์ฐจ๊ฐ ์ ์ด์ง๊ณ ๋ชจ๋ ์์ ์์ธ๋ณํ๊ฐ ๋์ผ ์ถ์์ ๋น๊ต ๊ฐ๋ฅํด์ง๋ค.
๊ฐํํ์ต ๋ฒค์น๋งํฌ
PCHands์ ์คํจ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด, ์ ์๋ค์ ๋ค ๊ฐ์ง ์๋ก์ด ๊ณผ์ ๋ฅผ ํฌํจํ 5๊ฐ์ง ์ฌ์ธํ ์กฐ์ ์์ (Open-Door, Relocate-*, Flip-Mug)์์ ์คํ์ ์งํํ์๋ค. ๊ฐ ์์ ์ ๋ํด 3๊ฐ์ง ๋ก๋ด ์(Allegro, Schunk, Shadow)์ ๋์์ผ๋ก ํ์๊ณ , ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก TRPO์ DAPG(๋ฐ๋ชจ ์ฆ๊ฐ PG)์ ์ฌ์ฉํ๋ค. ๊ธฐ์ค์ ์ผ๋ก๋ Qin ๋ฑ(2022)์ ๋ฐฉ๋ฒ์ ์ฑํํ์ฌ JAS๋ก๋ง ์ ์ดํ๋ ์ ์ฑ ์ ๋น๊ต๋์์ผ๋ก ์ผ์๋ค.
์คํ ๊ฒฐ๊ณผ, ํ์ต ๊ณก์ ๊ณผ ์ต์ข ์ฑ๊ณต๋ฅ ์์ PCHands๊ฐ ์ผ๊ด๋๊ฒ ์ฐ์ํ๋ค. Fig.5 ํ์ต ๊ณก์ ์ ๋ฐ๋ฅด๋ฉด, PCHands ์ ์ฑ ์ ๋๋ถ๋ถ์ ๊ณผ์ ์์ JAS ๊ธฐ๋ฐ ์ ์ฑ ๋ณด๋ค ์๋ ด ์๋๊ฐ ๋น ๋ฅด๊ณ (์ฆ, ๋ ๋นจ๋ฆฌ ๋์ ๋ฆฌํด ๋ฌ์ฑ) ์์ ์ ์ธ ์ฑ๋ฅ์ ๋ณด์๋ค. TRPO์ DAPG ๋ชจ๋์์ PCHands๊ฐ ์ ๋ฆฌํ์ผ๋ฉฐ, ํนํ ๋ฐ๋ชจ๋ฅผ ํ์ฉํ DAPG์์๋ ํ์ต ์ด๊ธฐ๋ถํฐ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์๋ค. ๋ํ, PCHands๋ 1~2PC๋ง ์ฌ์ฉํ ๋๋ 4PC๋ฅผ ์ธ ๋๋ณด๋ค ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. ์ด๋ 16~18 ์์ ๋์ ์์กฐ์์์๋ ์ฌ์ค์ 2์ฐจ์ ์ ๋์ ์๋์ง ์ฐจ์์ผ๋ก ๊ณผ์ ์ํ์ด ๊ฐ๋ฅํจ์ ์์ฌํ๋ค. ์ฆ, ๋ณต์กํ ๋ค์์ ๋ ์์คํ ์ ๊ทน์์์ ์๋์ง ์ฐจ์์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ ์ ์์์ ์๋ฏธํ๋ค.
๋ฐ๋ชจ ๊ธฐ๋ฐ ํ์ต ์์๋ PCHands๊ฐ ๊ฒฌ๊ณ ํจ์ ๋ณด์๋ค. ๊ฐ์ ์์ ์ด๋ผ๋ ์๋ก ๋ค๋ฅธ ๋ก๋ด(2F,3F,4F)์ผ๋ก ์์ง๋ 50๊ฐ์ ์์ฐ์ ์ฌ์ฉํด ์ ์ฑ ์ ํ์ตํ๋๋ฐ, PCHands๋ฅผ ์ฌ์ฉํ๋ฉด ์์ค ๋ก๋ด์ด ๋ฌ๋ผ๋ ๋ชฉํ ๋ก๋ด ์ฑ๋ฅ์ด ๋น๊ต์ ์ ์ ์ง๋์๋ค. ์๋ฅผ ๋ค์ด 2F์์ ์์งํ ์์ฐ์ผ๋ก 4F ๋ก๋ด์ ํ์ต์ํฌ ๋์๋, TRPO ๋๋น DAPG(์์ฐ ์ฌ์ฉ)๊ฐ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , ์ฌ์ง์ด 4F ์์ ์์๋ ๋ค๋ฅธ ์์ค์ ์์ฐ์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋๋ค. ์ด๋ ๋ก๋ด ํ์์ด ๋ฌ๋ผ๋ ์๋์ง ๊ณต๊ฐ์์ ์ ์ฌํ ์์ ์ ๋ณด๋ฅผ ๊ณต์ ํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
์ค์ธ๊ณ ์ ์ฉ
์ถ๊ฐ๋ก ์ ์๋ค์ PCHands ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ฎ๊ฒจ๋ณด์๋ค. Franka-Panda 7์์ ๋ ๋ก๋ด ํ ๋๋จ์ Robotiq 2F ํน์ 4F LEAP ์์ ๋ฌ๊ณ , ์ ์๋ฎฌ๋ ์ด์ ์ ์ฑ (0-400 ์ํผ์๋ ํ์ต๋ DAPG)์ ์์ ์ท(zero-shot)์ผ๋ก ์คํํ๋ค. Relocate ๋ฑ ๋ช๋ช ๊ณผ์ ์์ 2F/4F ๋ชจ๋ ์๋ฎฌ๋ ์ด์ ๋๋น ์ฝ๊ฐ์ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ผ๋, ๋์ฒด๋ก ์ฑ๊ณผ๋ฅผ ๋๋ค. ํนํ 4F์ ๊ฒฝ์ฐ ๋ฌผ์ฒด๊ฐ ์๊ฐ๋ฝ์ ๊ฐ๋ ค์ง๋ ์์ ์ถ์ ๋ฌธ์ ๋ก SoupCan ์์ ์์ ์ฑ๋ฅ์ด ๋จ์ด์ก์ผ๋, 2F์ ๊ฒฝ์ฐ ๋๋ถ๋ถ ๊ณผ์ ์์ ์๋ฎฌ๋ ์ด์ ๊ณผ ๋น์ทํ ์ฑ๊ณต๋ฅ ์ ๋ณด์๋ค. ์ด๋ PCHands๋ก ํ์ตํ ์ ์ฑ ์ด ์ค์ ํ๊ฒฝ์์๋ ์ผ๊ด๋๊ฒ ์๋ํ ์ ์์์์์ฌํ๋ค.
๋นํ์ ๋ถ์ ๋ฐ ํฅํ ๊ณผ์
PCHands๋ ์๋ก ๋ค๋ฅธ ๋งค๋ํฐ๋ ์ดํฐ ์ฌ์ด์ ๊ณตํต๋ ์ ์ฐจ์ ์ ์์ธ ํํ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์์ ๋ณด์๋ค. ํนํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ด๋ ๋ฌด์์ ์ต์ปค ํฌ์ง์ ์ํ๋ก ํ์ตํ์ฌ, ๊ธด ํ์ต ์์ด๋ ์ฆ์ RL์ ํ์ฉ ๊ฐ๋ฅํ ์ฅ์ ์ด ์๋ค. ๋ํ ์ต์ปค+CVAE+PCA ์กฐํฉ์ ํํ๋ ฅ๊ณผ ์ ์ฐ์ฑ์ ๋์์ ์ ๊ณตํ๋ค: CVAE๋ก ๋ณต์กํ ์์ธ๋ฅผ ํฌ๊ดํ๋ฉด์ PCA๋ก ์ํ๋ ์ฐจ์๋งํผ ์ค์ผ ์ ์๋ค. ํ์ต ํจ์จ ๊ฐ์ , ์์ฐ ๊ณต์ , ์ค์ธ๊ณ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฑ ์ค์ฉ์ ์ด์ ๋ ๋ช ํํ๋ค.
๊ทธ๋ฌ๋ ๋ช ๊ฐ์ง ๊ฐ์ ๊ณผ ํ๊ณ๋ ์กด์ฌํ๋ค. ์ฒซ์งธ, PCHands๋ ํฌ์ฆ(์ต์ปค ์์น)์ ๊ธฐ๋ฐํ๋ฏ๋ก ๋ฌผ์ฒด ์ ์ด์ด๋ ํ ์ ์ด ๋ฑ ๋์ ์ ๋ณด๋ ๋ฐ์ํ์ง ์๋๋ค. ์ฆ, ๋ก๋ด ์ ๋์ ์ ์ด๋ ฅ ๋ณํ๊น์ง ์๋์ง์ ํฌํจํ๋ ค๋ฉด ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ๋์งธ, ๋ชจ๋ ๋งค๋ํฐ๋ ์ดํฐ์ ๋ํด 22๊ฐ ์ต์ปค๋ฅผ ์ ์ํ๊ณ ์ /ํ๋ฐฉ ์ด๋ํ ๋ชจ๋ธ์ ์์์ผ ํ๋ฏ๋ก, ์ ํ ๋ก๋ด ๋์ ์ ์ค๋น ์์ ์ด ํ์ํ๋ค. ์ ์งธ, CVAE ํ์ต๊ณผ ICP ์ ๋ ฌ์ด ๋ฐ๋ณต๋๋ฏ๋ก ํ์ต ๊ณผ์ ์ด ๋ณต์กํ๊ณ ๊ณ์ฐ ๋น์ฉ์ด ๊ฝค ๋ ๋ค(๋ค์ํ ๋ก๋ด์ ๋ํ ๋ฐ์ดํฐ ์์ง ํฌํจ). ๋ท์งธ, ํ๊ฐ ๊ณผ์ ๋ค์ด ๋๋ถ๋ถ ํ๊ท ์ ์ธ ์กฐ์ ์๋๋ฆฌ์ค์๊ณ , ๋งค์ฐ ๋ณต์กํ๊ฑฐ๋ ๋ซํ ํ๊ฒฝ(์ด๋ ค์ด grasping, ๋ฌผ์ฒด ํ์ ๋ฑ)์์๋ ๋ ๋ง์ ์๋์ง๊ฐ ํ์ํ ์ ์๋ค. ์ค์ ๋ก 4F(LEAP) ์์์๋ ๋ฌผ์ฒด ์๊ฐ ์ถ์ ์ด ์ด๋ ค์ ์ ๋ ์ฑ๋ฅ์ด ๋จ์ด์ก๋๋ฐ, ์ด๋ ์๋์ง ์ ์ด์ ์ธ์ ์์คํ ์ ํตํฉ ๋ถ์ฌ์ ๊ธฐ์ธํ ์ ์๋ค.
ํฅํ ์ฐ๊ตฌ๋ก๋ ๋น์ ํ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ(์: GPLVM, ๋น์ ํ PCA)์ ๋์ ํ๊ฑฐ๋, ์๋์ง ๊ณต๊ฐ์ ์ด๊ฐ/ํ ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ๋์์ ๊ฐ์ ํ ์ ์๋ค. ๋ํ ๋ ๋ค์ํ ๋ก๋ด ๋ฐ ๊ณผ์ , ํนํ ๊ณก๋ฉด/๋ณํ ๊ฐ๋ฅํ(์ ์ฐํ ์) ๋ก๋ด์ ๋ํ ํ์ฅ๋ ํ์ํ๋ค. PCHands๋ ํฌ์ฆ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์์ผ๋, ํฅํ ์๊ฐ-์ด๊ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ํ์ต์ผ๋ก ํ์ฅํ๋ฉด ๋์ฑ ๋ฒ์ฉ์ ์ผ ๊ฒ์ด๋ค. ๋ง์ง๋ง์ผ๋ก, ์ค์ ์ ์ฉ ์ธก๋ฉด์์ ์๊ฒฉ ์กฐ์(ํ ๋ ์คํผ๋ ์ด์ )์ด๋ ๋จ์ผ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ๋ก๋ด ํ์ต์ํค๊ธฐ ๋ฑ ์ค์ฉ์ ์์ฉ์ ๋ชจ์ํ ํ์๊ฐ ์๋ค.
๊ฒฐ๋ก : ์๋์ง ์ ์ด์ ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ
PCHands๋ ์๋ก ๋ค๋ฅธ ์์ ๋๋ฅผ ๊ฐ์ง ๋ก๋ด ์ ์ฌ์ด์ ๊ณตํต์ ์ ์์ธ ํํ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํจ์ผ๋ก์จ, ๊ณ ์ฐจ์ ๋ก๋ด ์ ์ด ๋ฌธ์ ๋ฅผ ์ ์ฐจ์ ์๋์ง ๊ณต๊ฐ์ผ๋ก ํด๊ฒฐํ๋ ์๋ก์ด ๊ธธ์ ์ ์ํ๋ค. ๊ฐํํ์ต ์คํ์์ ๋ณด๋ฏ PCHands๋ฅผ ์ฌ์ฉํ๋ฉด ํ์ต ํจ์จ์ด ํฅ์๋๊ณ , ๊ธฐ์กด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ๊ฐ ์ ์ดํ์ฌ ์ ์ด ์ ์ฑ ์ ๋น ๋ฅด๊ฒ ์ป์ ์ ์๋ค. ์ด๋ ์๋ฅผ ๋ค์ด, ์ธ๊ฐ์ ์ ๋ชจ์ ์ ํ ๋ฒ๋ง ๋ นํํ์ฌ ๋ก๋ด ์ ์ฌ๋ฌ ๋๋ก ์ ์กํ๊ฑฐ๋, ๋ค์ํ ๋ก๋ด์ ํ๋์ ํตํฉ๋ ๋ฐฉ์์ผ๋ก ์ ์ดํ๋ ๋ฐ ์ ์ฉํ ๊ฒ์ด๋ค. ํนํ ๊ณ ์์ ๋ ๋ก๋ด ์์ ๋ค๋ฃฐ ๋, 1~2๊ฐ์ ์๋์ง ์ฐจ์์ผ๋ก ๋ณต์กํ ์์ง์์ ํํํ ์ ์๋ค๋ ์ ์ ์ค์ฉ์ ์๋ฏธ๊ฐ ํฌ๋ค. ์๋ฅผ ๋ค์ด ์ฐ์ฃผ์ ์ด๋ ์ฌ๋ ๋ก๋ด์ ํ์ฌ๋ ๋ค์ค ์ ์์คํ ์ ๋จ์ผ ์๋์ง ์ปจํธ๋กค๋ฌ๋ก ์กฐ์ํ๋ ๋ฑ, ์์ ๋ ํ์ฅ ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ด ๋ ์ ์๋ค.
์ข ํฉํ๋ฉด, PCHands๋ PCA ๊ธฐ๋ฐ ์๋์ง์ ์ค์ปค ๊ธฐ๋ฐ kinematic ๋งคํ์ ๊ฒฐํฉํ์ฌ ๋ก๋ด ์กฐ์์ ๋ฒ์ฉ ํํ์ ์ ์ํ์๋ค. ์ด ํํ์ ๊ธฐ๊ตฌํ์ ์ฐจ์ด๋ฅผ ํก์ํด ๋ค์ํ ๋ก๋ด์ ์ผ๊ด๋ ์ ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํ๋ฉฐ, ํนํ ๊ฐํํ์ต๊ณผ ์์ฐ ํ์ต์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ค. ๋ฌผ๋ก ๋ฌผ์ฒด ์ํธ์์ฉ, ๋น์ ํ ํน์ฑ ๋ฐ์ ๋ฑ ๋จ์ ๊ณผ์ ๊ฐ ์์ง๋ง, PCHands๋ ๊ณ ์์ ๋ ๋ก๋ด ์ ์ด ๋ฐ ํ ๋ ์คํผ๋ ์ด์ ๋ถ์ผ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์๋ค. ์์ผ๋ก ์ค์ ๋ก๋ด ์์คํ ์ ๋๋ฆฌ ์ ์ฉ๋์ด ๋ก๋ด ์ ์ ์ด์ ๋ณดํธ์ ํ๋ซํผ ๊ตฌ์ถ์ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.