flowchart TD
Start(["20 Hz ๋ฉ์ธ ๋ฃจํ ์์"]) --> Step1["1. ์ด๊ฐ ์ด๋ฏธ์ง ์์ง<br/>๋น๋๊ธฐ, ์ต๋ 30 FPS"]
Step1 --> Step2["2. ๊ทธ๋ ์ด์ค์ผ์ผ ๋ณํ + ์ ์ฒ๋ฆฌ"]
Step2 --> Step3["3. CNN์ผ๋ก ํน์ง ์ถ์ถ<br/>4๊ฐ ์ผ์ ๋ณ๋ ฌ"]
Step3 --> Step3a["์ ์ด ์์ธ: ฮธ, ฯ<br/>์ ์ด ํ: |F|"]
Step3a --> Step4["4. ๊ด์ ์์น ์ฝ๊ธฐ"]
Step4 --> Step5["5. Forward Kinematics"]
Step5 --> Step5a["์๊ฐ๋ฝ ๋ ์์น<br/>์๊ฐ๋ฝ ๋ ๋ฐฉํฅ"]
Step5a --> Step6["6. ๊ด์ฐฐ ๋ฒกํฐ ๊ตฌ์ฑ"]
Step6 --> Step7["7. ์ ์ฑ
์ถ๋ก "]
Step7 --> Step7a["TCN โ ์ ์ฌ ๋ฒกํฐ<br/>Policy โ ํ๋ ์ถ๋ ฅ"]
Step7a --> Step8["8. ์ง์ ์ด๋ ํ๊ท <br/>q_target = 0.9 ร q_old + 0.1 ร q_new"]
Step8 --> Step9["9. ๋ชฉํ ๊ด์ ์์น ์ ์ก"]
Step9 --> PD["PD ์ ์ด๊ธฐ<br/>300 Hz"]
PD --> Motor["๋ชจํฐ ๊ตฌ๋"]
Motor --> Start
style Start fill:#e1f5ff
style Step3 fill:#fff4e1
style Step7 fill:#ffe1f5
style PD fill:#e1ffe1
style Motor fill:#ffe1e1
๐AnyRotate ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- โ ๋ค์์ ๋ ๋ก๋ด ์์ ์ค๋ ฅ ๋ถ๋ณ ๋ค์ถ ๋ฌผ์ฒด ํ์ (gravity-invariant multi-axis in-hand object rotation)์ ์ด๋ ค์ด ๊ณผ์ ์ด๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์ -์ค์ ํ๊ฒฝ ์ ๋ก์ท ์ ํ์ด ๊ฐ๋ฅํ ๊ณ ๋ฐ๋ ์ด๊ฐ ์ ๋ณด(dense featured sim-to-real touch)๋ฅผ ํ์ฉํ๋ AnyRotate ์์คํ ์ ์ ์ํฉ๋๋ค.
- ๐ง ์ด ์์คํ ์ ๋ชฉํ ์กฐ๊ฑด ๊ฐํ ํ์ต๊ณผ ์ ์ด ์์ธ ๋ฐ ํ์ ํฌํจํ๋ ๊ณ ๋ฐ๋ ์ด๊ฐ ํํ(dense tactile representation)์ ์ฌ์ฉํ์ฌ, ์ค๋ ฅ ์ํฅ์ ๋ฐ์ง ์๋ ์์์ ํ์ ์ถ๊ณผ ๋ค์ํ ์ ๋ฐฉํฅ์์ ๋์ํ๋ ๋จ์ผ ์ ์ฑ ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ์ต๋๋ค.
- ๐ ์ค์ ์คํ์์ AnyRotate๋ ๋ค์ํ ์ ๋ฐฉํฅ๊ณผ ํ์ ์ถ์์ ๋ฏธ์ง์ ๊ฐ์ฒด์ ๋ํ ๊ฐ๋ ฅํ ๊ฐ๊ฑด์ฑ(robustness)์ ์ ์ฆํ์ผ๋ฉฐ, ํ๋ถํ ์ด๊ฐ ์ ๋ณด๋ก ๋ถ์์ ํ ํ์ง(unstable grasp)๋ฅผ ๊ฐ์งํ๊ณ ์ด๋ฅผ ๋ณต๊ตฌํ๋ ์์จ์ ํ๋(emergent behavior)์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ โAnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touchโ๋ ๋ก๋ด ์์ด ๋ค์ํ ์์ ์์ง์ ์์์๋ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ๋ฐ ์์ด ์ค๋ ฅ ๋ถ๋ณ(gravity-invariant)์ in-hand object rotation์ ๋ฌ์ฑํ๊ธฐ ์ํ ์์คํ AnyRotate๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋น์ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ self-occlusion๊ณผ ๊ฐ์ ๋ฌธ์ ๋ก ์ธํด in-hand manipulation์ ํ๊ณ๊ฐ ์์์ผ๋ฉฐ, ์ด๊ฐ ์ผ์(tactile sensor)๋ ์์ธํ ์ ์ด ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์์์๋ ๋ถ๊ตฌํ๊ณ sim-to-real gap์ผ๋ก ์ธํด ๊ณ ํด์๋ ์ด๊ฐ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ํ์ฉ๋์ง ๋ชปํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด dense featured sim-to-real touch๋ฅผ ํ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ์์ ํ๋ จ๋ policy๋ฅผ ์ค์ ๋ก๋ด์ zero-shot transferํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
AnyRotate๋ multi-axis gravity-invariant in-hand object rotation์ ์ํด ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์์๋ค์ ํตํฉํฉ๋๋ค.
Goal-Conditioned Reinforcement Learning (RL) Formulation: ๋ฌผ์ฒด ํ์ ๋ฌธ์ ๋ฅผ ๋ฌผ์ฒด ์ฌ๋ฐฉํฅ(object reorientation)์ผ๋ก ์ ํํํ๋ฉฐ, ํ์ ์๋(angular velocity) ๊ธฐ๋ฐ์ ๋ชฉํ ์ค์ ์ด ๋นํจ์จ์ ์์ ์ง์ ํ๊ณ , ๋ณด์กฐ ๋ชฉํ(auxiliary goals) ๋ฐฉ์์ ๋์ ํฉ๋๋ค. ์ด ๋ณด์กฐ ๋ชฉํ๋ ํ์ฌ ๋ฌผ์ฒด ์์ธ(object orientation)๋ฅผ ์ํ๋ ํ์ ์ถ(rotation axis)์ ์ค์ฌ์ผ๋ก ์ผ์ ํ ๊ฐ๊ฒฉ์ผ๋ก ํ์ ์์ผ ์๋ก์ด ๋ชฉํ ์์ธ๋ฅผ ์์ฑํฉ๋๋ค. Policy๋ ์ด๋ฌํ ๋์ ์ธ ๋ชฉํ ์์ธ๋ฅผ ์ถ์ข ํ๋๋ก ํ๋ จ๋ฉ๋๋ค. ๋ณด์ ํจ์ r๋ ๋ฌผ์ฒด ํ์ (rotation), ์ ์ด(contact), ์์ ์ฑ(stability), ์ข ๋ฃ(termination)์ ๋ค ๊ฐ์ง ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. r = r_{\text{rotation}} + r_{\text{contact}} + r_{\text{stable}} + r_{\text{terminate}} r_{\text{rotation}}์ ํคํฌ์ธํธ(keypoint) ๊ฑฐ๋ฆฌ K(||k_o^i - k_g^i||)์ ํ์ ๋ณด๋์ค(goal bonus)๋ฅผ ํตํด ๋ชฉํ ์์ธ ๋๋ฌ ๋ฐ ์ฐ์์ ์ธ ํ์ ์ ์ฅ๋ คํฉ๋๋ค. r_{\text{contact}}๋ ์๋(fingertip) ์ ์ด์ ์ต๋ํํ๊ณ ๋ค๋ฅธ ๋ถ์์ ์ ์ด์ ํจ๋ํฐํํ์ฌ ์ ๋ฐํ ํ์ง(precision grasp)๋ฅผ ์ ๋ํฉ๋๋ค. r_{\text{stable}}์ ๋ฌผ์ฒด์ ๊ฐ์๋(angular velocity), ์ ์์ธ(hand-pose), ์ ์ด๊ธฐ(controller)์ ์์ ๋ ๋ฐ ํ ํฌ(torque)๋ฅผ ํจ๋ํฐํํ์ฌ ์์ ์ ์ธ ํ์ ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก r_{\text{terminate}}๋ ๋ฌผ์ฒด๊ฐ ํ์ง์์ ๋ฒ์ด๋๊ฑฐ๋ ํ์ ์ถ์ด ๋ชฉํ์์ ํฌ๊ฒ ๋ฒ์ด๋ ๊ฒฝ์ฐ ํจ๋ํฐ๋ฅผ ๋ถ์ฌํฉ๋๋ค. ํ์ต ๊ณผ์ ์ ํจ์จ์ฑ์ ์ํด, episode๋น ๋ฌ์ฑ๋ ํ๊ท ํ์ ํ์์ ๋ฐ๋ผ r_{\text{contact}}์ r_{\text{stable}}์ ๊ฐ์ค์น ๊ณ์ \lambda_{\text{rew}}๋ฅผ ์ ํ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ ์ ์ํ ์ปค๋ฆฌํ๋ผ(adaptive curriculum)์ ์ ์ฉํฉ๋๋ค.
Dense Tactile Representation: ๋ฌผ์ฒด์์ ์ํธ์์ฉ์ ๋ํ ํ๋ถํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด, ๊ตญ๋ถ์ ์ธ ์ ์ด ์์ธ(local contact pose)์ ์ ์ด๋ ฅ(contact force)์ผ๋ก ๊ตฌ์ฑ๋ dense tactile representation์ ์ฌ์ฉํฉ๋๋ค. Contact pose๋ ๊ทน๊ฐ(polar angle) R_x์ ๋ฐฉ์๊ฐ(azimuthal angle) R_y๋ก ์ ์๋๋ฉฐ, contact force๋ 3D ์ ์ด๋ ฅ์ ํฌ๊ธฐ ||F||๋ฅผ ์๋ฏธํฉ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ์ผ์๋ฅผ ๊ฐ์ฒด(rigid body)๋ก ๊ทผ์ฌํ์ฌ ์ ์ด ์ ๋ณด๋ฅผ ์ง์ ๊ฐ์ ธ์ค๊ณ , ์ค์ ์ผ์์ ์ง์ฐ๊ณผ ๋ ธ์ด์ฆ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ํด ์ ์ด๋ ฅ์ exponential moving average๋ฅผ ์ ์ฉํ๊ณ ๊ฐ์ ์ค์ ์ผ์์ ๋ฒ์์ ๋ง์ถฐ ํฌํ(saturate) ๋ฐ ์ฌ์กฐ์ (rescale)ํฉ๋๋ค.
Sim-to-Real Policy Transfer: Policy ํ์ต์ ๋ ๋จ๊ณ์ policy distillation ๋ฐฉ์์ ๋ฐ๋ฆ ๋๋ค.
- Teacher Training: ํน๊ถ ์ ๋ณด(privileged information, ์: ๋ฌผ์ฒด ์์น, ์์ธ, ์ง๋, ์ค๋ ฅ ๋ฒกํฐ ๋ฑ)๊ฐ ์ ๊ณต๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ RL (Proximal Policy Optimization, PPO)์ ํตํด teacher policy๋ฅผ ํ๋ จํฉ๋๋ค.
- Student Training: ์ค์ ํ๊ฒฝ์์ ๊ด์ธก ๊ฐ๋ฅํ ์ ๋ณด(proprioception, ์ด๊ฐ ํผ๋๋ฐฑ)๋ง์ ์ฌ์ฉํ๋ student policy๋ฅผ ํ๋ จํฉ๋๋ค. Student policy๋ teacher policy์ ๋์ผํ actor-critic architecture๋ฅผ ๊ฐ์ง๋ฉฐ, ๊ณผ๊ฑฐ N๊ฐ์ ๊ด์ธก ์ํ์ค(sequence of observations)๋ก๋ถํฐ TCN (Temporal Convolutional Network) encoder๋ฅผ ํตํด ์ ์ฐจ์ ์ ์ฌ ๋ฒกํฐ(latent vector) z_t๋ฅผ ์์ธกํฉ๋๋ค. Student๋ teacher์ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ์ง๋ ํ์ต(supervised learning) ๋ฐฉ์์ผ๋ก ํ๋ จ๋๋ฉฐ, ์ด๋ ์ ์ฌ ๋ฒกํฐ์ ํ๋ ๋ถํฌ์ ๋ํ MSE (Mean Squared Error) ๋ฐ NLL (Negative Log-Likelihood) ์์ค์ ์ต์ํํฉ๋๋ค.
- Tactile Perception Model: Zero-shot sim-to-real transfer๋ฅผ ์ํด, ์ค์ ์ด๊ฐ ์ด๋ฏธ์ง์์ dense contact feature๋ฅผ ์ถ์ถํ๋ tactile perception model์ ํ๋ จํฉ๋๋ค. ์ด ๋ชจ๋ธ์ UR5 ๋ก๋ด ํ์ tactile sensor๋ฅผ ๋ถ์ฐฉํ๊ณ force/torque sensor๊ฐ ๋ถ์ฐฉ๋ ์์ ๋ ํ๋ฉด์์ ์ผ์๋ฅผ ๋ฌด์์๋ก ์์ง์ด๋ฉฐ ์ ์ด ๊น์ด(contact depth), ์ ์ด ์์ธ, ์ ์ด๋ ฅ์ ๋ ์ด๋ธ๋ก ํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ CNN ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋ฉ๋๋ค. ์ค์ ๋ฐฐํฌ ์์๋ SSIM (Structured Similarity Index)์ ์ฌ์ฉํ์ฌ ์ด์ง ์ ์ด(binary contact)์ ๊ณ์ฐํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก contact pose ๋ฐ contact force ์์ธก๊ฐ์ ๋ง์คํน(masking)ํฉ๋๋ค.
์คํ ๋ฐ ๋ถ์:
์คํ์ Allegro Hand์ vision-based tactile sensor๋ฅผ ์ฅ์ฐฉํ ๋ก๋ด ์์คํ ์์ ์ํ๋์์ต๋๋ค.
- ํ๋ จ ์ฑ๋ฅ: ๋ณด์กฐ ๋ชฉํ(auxiliary goal)๋ฅผ ์ฌ์ฉํ๋ ์ ์๋ formulation์ด angular rotation objective๋ณด๋ค multi-axis rotation ์์ ์์ ํจ์ฌ ๋์ ์ ํ๋์ ์๋ ด ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ํนํ ๋ฌผ์ฒด๊ฐ ๋ณธ์ง์ ์ผ๋ก ๋ถ์์ ํ configuration์์ ์์ ๋๋ค ์ก์ ์ด ํ๋ณต ๋ถ๊ฐ๋ฅํ ์ํ๋ก ์ด์ด์ง ์ ์๋ ์ํฉ์์, ๋ชฉํ ์งํฅ์ ์ธ ๋ณด์์ด agent๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ์๋ดํ์์ ์์ฌํฉ๋๋ค. ์ ์ํ ์ปค๋ฆฌํ๋ผ ๋ํ ํ์ต์ ๊ธ์ ์ ์ธ ์ํฅ์ ์ฃผ์์ต๋๋ค.
- ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ: Dense touch policy(contact pose ๋ฐ contact force)๋ proprioception, binary touch, discrete touch ๋ฑ ๋ ๋จ์ํ๊ณ ๋ ์์ธํ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ policy๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ ์์ธํ ์ด๊ฐ ์ ๋ณด๊ฐ ๋ค์ํ mass ๋ฐ shape๋ฅผ ๊ฐ์ง unseen objects๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์ค์ํจ์ ์ ์ฆํฉ๋๋ค.
- ์ค์ ํ๊ฒฝ ๊ฒฐ๊ณผ: Dense touch policy๋ ์ค์ ํ๊ฒฝ์์ 10๊ฐ์ง ๋ค์ํ ๋ฌผ์ฒด์ ๋ํด ์ฑ๊ณต์ ์ธ zero-shot transfer๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ค์ํ hand orientation(์ ๋ฐฉํฅ) ๋ฐ rotation axis(ํ์ ์ถ)์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ robustness๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ์์ด ์ค๋ ฅ์ ๋ํด ์ํ์ผ๋ก ์์นํ ๋ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ผ๋, dense touch policy๋ ์ด๋ฌํ noisy system์์๋ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค.
- Emergent Behavior: Rich tactile sensing์ด ๋ถ์์ ํ ํ์ง(unstable grasp)๋ฅผ ๊ฐ์งํ๊ณ , ๋ฌผ์ฒด ๋ฏธ๋๋ฌ์ง์ ๋ฐฉ์งํ๋ ๋ฐ์์ ์ธ finger-gaiting ์์ง์์ ์ ๋ฐํ๋ emergent behavior๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ proprioception์ด๋ binary touch๋ง์ผ๋ก๋ ๊ด์ฐฐ๋์ง ์์์ต๋๋ค.
- Gravity Invariance ๋ฐ Rotating Hand: ํ๋ จ๋ policy๋ ์ค๋ ฅ ๋ฒกํฐ๊ฐ ์ง์์ ์ผ๋ก ๋ณํ๋ ํ์ ํ๋ ์(rotating hand)์์๋ ํจ๊ณผ์ ์ผ๋ก ๋ฌผ์ฒด ์กฐ์์ ์ ์ํ ์ ์์์ ์ ์ฆํ์ต๋๋ค. ์ด๋ ๋ฌผ์ฒด์ 6D ์ฌ๋ฐฉํฅ๊ณผ ๋์์ ํ์ง ์์น๋ฅผ ๋ณ๊ฒฝํ ์ ์๋ ์๋ก์ด ์์ค์ dexterity๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ํ๊ณ:
๋ณธ ์ฐ๊ตฌ๋ rich tactile sensing์ ํ์ฉํ์ฌ ์ด๋ค hand direction์์๋ ์ด๋ค rotation axis๋ก๋ in-hand object rotation์ ์ํํ๋ ์ผ๋ฐ์ ์ธ policy์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ multi-fingered robot hand์ ์ด๊ฐ dexterity ๋ฐ์ ์ ์ค์ํ ์ง์ ์ ์๋ฏธํฉ๋๋ค. ํ์ง๋ง, ๋ ์นด๋ก์ด ๊ธฐํํ์ ํน์ง(sharp geometric features)์ ๊ฐ์ง ๋ฌผ์ฒด(์: ๋ชจ์๋ฆฌ)๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ์ด๋ ค์์ด ์์์ผ๋ฉฐ, ์ด๋ ๋ ํ๋ถํ ์ด๊ฐ ํํ(tactile representation)์ด๋ ์๊ฐ ์ ๋ณด(visual information)๋ฅผ ํตํฉํ์ฌ ๊ฐ์ ๋ ์ ์์ต๋๋ค. ๋ํ, Allegro Hand์ actuation์ด ํน์ ์ ๋ฐฉํฅ์์ ์ฝํ๋๋ ํ๊ณ๋ฅผ ๋ณด์ฌ, ํฅํ low-cost๋ฉด์๋ ๋ ๊ฐ๋ ฅํ ํ๋์จ์ด์ ๊ฐ๋ฐ์ด ํ์ํจ์ ์์ฌํฉ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
โ๊ฑฐ๊พธ๋ก ๋ค์ด๋, ์์ผ๋ก ๋ค์ด๋, ๋ก๋ด ์์ด ๋ฌผ์ฒด๋ฅผ ์์ ์์ฌ๋ก ํ์ ์ํจ๋คโ
์๋ ํ์ธ์! ์ค๋์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ์ ๋ง ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ์๊ฐํด๋๋ฆฌ๋ ค๊ณ ํฉ๋๋ค. Bristol ๋ํ๊ต์ Nathan Lepora ๊ต์ ์ฐ๊ตฌํ์ด ๋ฐํํ AnyRotate๋ผ๋ ์์คํ ์ธ๋ฐ์, ์ ๋ชฉ์์๋ถํฐ ์ผ์ฌ์ฐจ๊ฒ๋ โGravity Invariantโ(์ค๋ ฅ ๋ถ๋ณ)๋ผ๋ ๋จ์ด๋ฅผ ์ฌ์ฉํ๊ณ ์์ต๋๋ค.
์ฌ๋ฌ๋ถ, ์๋ฐ๋ฅ์ ์๋ก ํฅํ ์ฑ๋ก ๊ณต์ ๋๋ฆฌ๋ ๊ฑด ์ฝ์ฃ ? ๊ทธ๋ฐ๋ฐ ์๋ฐ๋ฅ์ ์๋๋ก ๋ค์ง์ ์ฑ๋ก ๊ณต์ ๋จ์ด๋จ๋ฆฌ์ง ์๊ณ ๊ณ์ ๋๋ฆด ์ ์๋์? ์ฌ์ง์ด ์์ ์์ผ๋ก ๋๋ฆฌ๊ฑฐ๋ ๊ณ์ ์์ง์ด๋ฉด์์? ์ฌ๋๋ ์ด๋ ค์ด ์ด ๋์์, ๋ก๋ด์ด ํด๋ธ๋ค๋ ๊ฒ๋๋ค. ๊ทธ๊ฒ๋ ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ก ๋ง์ด์ฃ !
1. ์ ์ด ์ฐ๊ตฌ๊ฐ ์ค์ํ ๊น?
๋ก๋ด์ ์์ํ ์์ : In-Hand Manipulation
๋ก๋ด ํ์ด ๋ฌผ์ฒด๋ฅผ ์ง๋ ๊ฑด ์ด์ ์ด๋ ์ ๋ ํด๊ฒฐ๋์ต๋๋ค. ํ์ง๋ง ์ ์์์ ๋ฌผ์ฒด๋ฅผ ์์ ๋กญ๊ฒ ์กฐ์ํ๋ ๊ฒ(in-hand manipulation)์ ์ฌ์ ํ ์ด๋ ค์ด ๋ฌธ์ ์ ๋๋ค. ์ฐ๋ฆฌ๋ ์ ์์์ ์ฐํ์ ๋๋ฆฌ๊ณ , ๋์ ์ ์๊ฐ๋ฝ์ผ๋ก ๊ตด๋ฆฌ๊ณ , ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ ๋ง์ถ์ฃ . ํ์ง๋ง ๋ก๋ด์๊ฒ ์ด๋ฐ ์ผ์ ์ ๋ง ์ด๋ ต์ต๋๋ค.
์ ์ด๋ ค์ธ๊น์?
๋์ ์์ ๋: ์ฌ๋ ์์ 27๊ฐ์ ๋ผ์ ์๋ง์ ๊ด์ ๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค. ๋ก๋ด ์๋ 16๊ฐ ์ด์์ ๊ด์ ์ ์ ์ดํด์ผ ํฉ๋๋ค.
๋ณต์กํ ๋ฌผ๋ฆฌ: ์๊ฐ๋ฝ๊ณผ ๋ฌผ์ฒด ์ฌ์ด์ ๋ง์ฐฐ, ๋ฏธ๋๋ฌ์ง, ์ ์ด ๋ฑ์ ์ ํํ ์ดํดํด์ผ ํฉ๋๋ค.
๋ถ๋ถ ๊ด์ธก: ์์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆฌ๊ธฐ ๋๋ฌธ์ ์นด๋ฉ๋ผ๋ก๋ ์ ํํ ์ํ๋ฅผ ๋ณด๊ธฐ ์ด๋ ต์ต๋๋ค.
์ค๋ ฅ์ ๋ฐฉํด: ์์ ๋ค์ง์ผ๋ฉด ๋ฌผ์ฒด๊ฐ ๋จ์ด์ง๋ ค๊ณ ํฉ๋๋ค.
๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํ๊ณ
OpenAI์ ๋ฃจ๋น ์ค ํ๋ธ (2019)
- ์ ๋ง ์ธ์์ ํ ์ฑ๊ณผ์์ง๋งโฆ
- ์์ฒญ๋ ์์ ์นด๋ฉ๋ผ๊ฐ ํ์ํ์ต๋๋ค (์๊ธฐ ํ์ ๋ฌธ์ )
- ์์ ํญ์ ์๋ฅผ ํฅํ์ต๋๋ค
- ํน์ ๋ฌผ์ฒด(๋ฃจ๋น ์ค ํ๋ธ)์๋ง ์๋ํ์ต๋๋ค
์ต๊ทผ ์ด๊ฐ ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ค
- ์ด์ง ์ ์ด(๋ฟ์๋ค/์ ๋ฟ์๋ค)๋ง ์ฌ์ฉ
- ์๋ฐ๋ฅ ์ ๋ฐฉํฅ์์๋ง ์๋
- x, y, z์ถ ์ค ํ๋์ ์ถ๋ง ํ์ ๊ฐ๋ฅ
- ๊ฐ ์ถ๋ง๋ค ๋ณ๋์ ์ ์ฑ ํ์
์ด ๋ ผ๋ฌธ์ด ํด๊ฒฐํ๋ ค๋ ๊ฒ:
- โ ํ๋ถํ ์ด๊ฐ ์ ๋ณด ํ์ฉ
- โ ์ด๋ค ๋ฐฉํฅ์์๋ ์๋
- โ ์์์ ์ถ์ผ๋ก ํ์
- โ ํ๋์ ํตํฉ๋ ์ ์ฑ
- โ ๋ค์ํ ๋ฏธ์ง์ ๋ฌผ์ฒด
2. AnyRotate๋ ์ด๋ป๊ฒ ์๋ํ ๊น?
์์คํ ๊ตฌ์ฑ: ๋ก๋ด ์ + ์ด๊ฐ ์ผ์
AnyRotate๋ Allegro Hand๋ผ๋ 4๊ฐ ์๊ฐ๋ฝ ๋ก๋ด ์์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํต์ฌ์ ๊ฐ ์๊ฐ๋ฝ ๋์ ๋ถ์ฐฉ๋ DigiTac ์ด๊ฐ ์ผ์์ ๋๋ค.
DigiTac ์ผ์๊ฐ ํน๋ณํ ์ด์ :
์ด ์ผ์๋ ์ฌ๋์ ์ง๋ฌธ์ฒ๋ผ ์์ ๋๊ธฐ๋ค์ด ์๋ ๋ถ๋๋ฌ์ด ์คํจ์ผ๋ก ๋ฎ์ฌ ์์ต๋๋ค. ์คํจ ์๋์๋ ์์ ์นด๋ฉ๋ผ๊ฐ ์์ด์, ๋ฌผ์ฒด๊ฐ ๋ฟ์ผ๋ฉด ๋๊ธฐ๋ค์ด ์์ง์ด๋ ๋ชจ์ต์ ์ดฌ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด:
- ์ ์ด ์์น: ๋ฌผ์ฒด๊ฐ ์๊ฐ๋ฝ์ ์ด๋์ ๋ฟ์๋์ง (๊ฐ๋๋ก ํํ)
- ์ ์ด ํ: ์ผ๋ง๋ ์ธ๊ฒ ๋๋ฅด๋์ง (ํ์ ํฌ๊ธฐ)
์ด ๋ ๊ฐ์ง ์ ๋ณด๋ฅผ ๋์์ ์ ์ ์์ต๋๋ค!
๊ธฐ์กด ๋ฐฉ์: "๋ฌผ์ฒด๊ฐ ๋ฟ์๋ค" (1 bit ์ ๋ณด)
AnyRotate: "๋ฌผ์ฒด๊ฐ 15๋ ๊ฐ๋๋ก, 2.3N์ ํ์ผ๋ก ๋ฟ์๋ค" (์ฐ์์ ์ธ ์ ๋ณด)
์ด ์ฐจ์ด๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ ๋ค์์ ์คํ ๊ฒฐ๊ณผ๋ก ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.
ํ์ต ์ ๋ต: 2๋จ๊ณ ์ ๊ทผ๋ฒ
๋ก๋ด์ ํ์ต์ํค๋ ๊ณผ์ ์ด ์ ๋ง ์๋ฆฌํฉ๋๋ค. ๋ง์น ํ์์ด ์ ์๋๊ป ๋ฐฐ์ฐ๋ ๊ฒ์ฒ๋ผ 2๋จ๊ณ๋ก ๋๋ฉ๋๋ค.
1๋จ๊ณ: Teacher ์ ์ฑ ํ์ต (์๋ฎฌ๋ ์ด์ )
์๋ฎฌ๋ ์ด์ ์ ์ฅ์ :
- ๋ก๋ด์ ์ค์ ๋ก ์์ฒ ๋ฒ ๋๋ฆด ํ์ ์์
- ๋ฌผ์ฒด๋ฅผ ๋จ์ด๋จ๋ ค๋ ๊ด์ฐฎ์
- 8,192๊ฐ์ ๋ก๋ด์ ๋์์ ํ์ต์ํฌ ์ ์์!
Teacher๊ฐ ๊ฐ์ง ํน๊ถ:
์ ์๋(Teacher)์ ๋ฌผ์ฒด์ ์ ํํ ์์น, ๋ฐฉํฅ, ๋ฌด๊ฒ, ์ค๋ ฅ ๋ฐฉํฅ ๋ฑ ๋ชจ๋ ์ ๋ณด๋ฅผ ์๊ณ ์์ต๋๋ค. ์ด๋ ์ค์ ์ธ๊ณ์์๋ ๋ถ๊ฐ๋ฅํ โ์นํ โ์ด์ง๋ง, ์๋ฎฌ๋ ์ด์ ์์๋ ๊ฐ๋ฅํ์ฃ .
๊ฐํํ์ต์ผ๋ก ํ์ต:
Teacher๋ PPO(Proximal Policy Optimization)๋ผ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต๋ฉ๋๋ค. ๋ณด์ ํจ์๋ฅผ ์ ์ค๊ณํ๋ ๊ฒ ํต์ฌ์ธ๋ฐ, ์ด ๋ ผ๋ฌธ์ ๋ณด์ ํจ์๋ ์ ๋ง ์ ๊ตํฉ๋๋ค:
์ด ๋ณด์ = ํ์ ๋ณด์ + ๋ชฉํ ๋ฌ์ฑ ๋ณด๋์ค + ์ ์ด ๋ณด์
- ๋์ ์ ์ด ํ๋ํฐ - ๊ณผ๋ํ ์๋ ํ๋ํฐ
- ์์ธ ํ๋ํฐ - ์๋์ง ์๋น ํ๋ํฐ
2๋จ๊ณ: Student ์ ์ฑ ์ฆ๋ฅ (์ค์ ์ค๋น)
ํ์(Student)์ ์ ์๋์ด ํ๋ ํ๋์ ๋ฐ๋ผํ๋ฉด์ ๋ฐฐ์๋๋ค. ํ์ง๋ง ์ค์ํ ์ฐจ์ด๊ฐ ์์ต๋๋ค:
Student๋ ํน๊ถ ์ ๋ณด๊ฐ ์์ต๋๋ค!
- ๋ฌผ์ฒด์ ์ ํํ ์์น? ๋ชจ๋ฆ
- ๋ชฉํ ์์ธ? ๋ชจ๋ฆ
- ์ค์ง ์๊ฐ๋ฝ์ ๊ด์ ๊ฐ๋์ ์ด๊ฐ ์ ๋ณด๋ง ์ฌ์ฉ
์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น?
TCN(Temporal Convolutional Network)์ด๋ผ๋ ๋คํธ์ํฌ๊ฐ ๊ณผ๊ฑฐ 30 ํ์์คํ ์ ๊ด์ฐฐ์ ๋ฐ์์ ์์ถ๋ ํํ(latent vector)์ผ๋ก ๋ง๋ญ๋๋ค. ์ด ํํ์๋ ๋ฌผ์ฒด์ ์ํ์ ๋ํ ์๋ฌต์ ์ธ ์ ๋ณด๊ฐ ๋ด๊ฒจ ์์ต๋๋ค.
[30๊ฐ์ ๊ณผ๊ฑฐ ๊ด์ฐฐ] โ TCN โ [8์ฐจ์ ์ ์ฌ ๋ฒกํฐ] โ ์ ์ฑ
โ [ํ๋]
ํต์ฌ ์์ด๋์ด: ๋ณด์กฐ ๋ชฉํ(Auxiliary Goal)
์ด ๋ถ๋ถ์ด ์ ๋ง ์๋ฆฌํฉ๋๋ค! ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ โ์ด๋น 30๋์ฉ ํ์ ํด!โ๋ผ๊ณ ๊ฐ์๋๋ฅผ ์ง์ ๋ชฉํ๋ก ํ์ต๋๋ค. ํ์ง๋ง ์ด๊ฑด ํ์ต์ด ์ ๋ง ์ด๋ ต์ต๋๋ค.
AnyRotate์ ์ ๊ทผ:
๋์ โ์ง๊ธ๋ถํฐ 1.5์ด ๋ค์ ์ด ์์ธ๊ฐ ๋์ด์ผ ํดโ๋ผ๋ ์ค๊ฐ ๋ชฉํ๋ฅผ ๊ณ์ ์์ฑํฉ๋๋ค. ๋ชฉํ์ ๋๋ฌํ๋ฉด ์๋ก์ด ๋ชฉํ๋ฅผ ์์ฑํ๊ณ , ๋ ๋๋ฌํ๋ฉด ๋ ์์ฑํ๊ณ โฆ ์ด๋ ๊ฒ ๊ณ์ํ๋ฉด ์์ฐ์ค๋ฝ๊ฒ ํ์ ์ด ๋ฉ๋๋ค!
์ด๊ฒ ์ ์ข์๊น์?
- ๊ฐ ๋ชฉํ๋ ๋ฌ์ฑ ๊ฐ๋ฅํ ์์ค
- ์ฐ์์ ์ธ ํ์ ์ด ์์ฐ์ค๋ฝ๊ฒ ๋ฐ์
- ํ์ต์ด ํจ์ฌ ์์ ์
๋น์ ํ์๋ฉด:
- ๊ธฐ์กด ๋ฐฉ์: โ100m๋ฅผ 10์ด์ ๋ฐ์ด!โ (๋๋ฌด ์ด๋ ค์โฆ)
- AnyRotate: โ10m ์์ผ๋ก ๊ฐ! (๋ฌ์ฑ) ๋ 10m ์์ผ๋ก! (๋ฌ์ฑ) ๋ 10mโฆ!โ (ํ ์ ์์ด!)
์ ์ํ ์ปค๋ฆฌํ๋ผ: ๋จ๊ณ์ ํ์ต
์ฌ๋๋ ๊ฑท๊ธฐ ์ ์ ๊ธฐ๊ธฐ๋ฅผ ๋ฐฐ์ฐ๋ฏ์ด, ๋ก๋ด๋ ๋จ๊ณ์ ์ผ๋ก ๋ฐฐ์์ผ ํฉ๋๋ค.
์ด๊ธฐ ๋จ๊ณ:
- ๋ณด์: โ์ผ๋จ ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ์ก์!โ
- ํ๋: ์กฐ์ฌ์ค๋ฝ๊ฒ ๋ฌผ์ฒด๋ฅผ ํ์ง
- ๊ฒฐ๊ณผ: ๋ฌผ์ฒด๋ฅผ ์ ์ก์ง๋ง ํ์ ์ ์ ํจ
์ค๊ฐ ๋จ๊ณ:
- ๋ณด์์ ๊ฐ์ค์น๊ฐ ์์ํ ๋ณํ
- ํ์ ๋ณด์์ ๋น์ค์ด ์ ์ ์ฆ๊ฐ
- ํ๋: ์์ ์ฑ์ ์ ์งํ๋ฉด์ ์กฐ๊ธ์ฉ ํ์ ์๋
ํ๊ธฐ ๋จ๊ณ:
- ๋ณด์: โ์ด์ ํ์ ์ด ์ค์ํด!โ
- ํ๋: ์ ๊ทน์ ์ผ๋ก ์๊ฐ๋ฝ์ ์์ง์ฌ ํ์
- ๊ฒฐ๊ณผ: ์์ ์ ์ด๋ฉด์๋ ๋น ๋ฅธ ํ์
์ด ๊ณผ์ ์ ์๋์ผ๋ก ์งํ๋ฉ๋๋ค. ๋ก๋ด์ด ํ๊ท ์ ์ผ๋ก ์ผ๋ง๋ ํ์ ์ ๋ฌ์ฑํ๋์ง์ ๋ฐ๋ผ ์ปค๋ฆฌํ๋ผ ๊ณ์ ฮฑ๊ฐ 0์์ 1๋ก ์ฆ๊ฐํฉ๋๋ค.
3. ๊ณ ๋ฐ๋ ์ด๊ฐ ํํ: ๊ฒ์ ์ฒด์ธ์
๊ธฐ์กด ์ด๊ฐ ํํ๋ค
1. ์ด์ง ์ ์ด (Binary Touch)
์๊ฐ๋ฝ 1: ์ ์ด O
์๊ฐ๋ฝ 2: ์ ์ด X
์๊ฐ๋ฝ 3: ์ ์ด O
์๊ฐ๋ฝ 4: ์ ์ด O
์ ๋ณด๋: 4 bits
2. ์ด์ฐ ์ด๊ฐ (Discrete Touch)
์๊ฐ๋ฝ 1: ์์ญ 5๋ฒ์์ ์ ์ด
์๊ฐ๋ฝ 2: ์ ์ด ์์
์๊ฐ๋ฝ 3: ์์ญ 12๋ฒ์์ ์ ์ด
์๊ฐ๋ฝ 4: ์์ญ 3๋ฒ์์ ์ ์ด
์ ๋ณด๋: 16 bits (16๊ฐ ์์ญ ์ค ํ๋)
AnyRotate์ ๊ณ ๋ฐ๋ ์ด๊ฐ (Dense Touch)
์๊ฐ๋ฝ 1:
- ์ ์ด ์์ธ: ฮธ=15.2ยฐ, ฯ=23.7ยฐ
- ์ ์ด ํ: 2.34 N
์๊ฐ๋ฝ 2: ์ ์ด ์์
์๊ฐ๋ฝ 3:
- ์ ์ด ์์ธ: ฮธ=-8.1ยฐ, ฯ=45.3ยฐ
- ์ ์ด ํ: 1.87 N
...
์ ๋ณด๋: ์ฐ์์ ์ธ ์ค์ ๊ฐ๋ค (๋น๊ตํ ์ ์์ ๋งํผ ํ๋ถ!)
Sim-to-Real ์ ์ด: ์๋ฎฌ๋ ์ด์ ์์ ํ์ค๋ก
์ฌ๊ธฐ์ ํฐ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ์ ์ด ์ ๋ณด๋ฅผ ์ง์ ์ ์ ์์ง๋ง, ์ค์ ๋ก๋ด์ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ต๋๋ค.
ํด๊ฒฐ์ฑ : ๊ด์ฐฐ ๋ชจ๋ธ(Observation Model)
- ๋ฐ์ดํฐ ์์ง: ์ค์ ์ผ์๋ฅผ ํํํ ํ๋ฉด์ ์ฌ๋ฌ ๊ฐ๋์ ํ์ผ๋ก ๋๋ฅด๋ฉด์ 3,000์ฅ์ ์ด๋ฏธ์ง ์์ง
- CNN ํ์ต: ์ด๊ฐ ์ด๋ฏธ์ง โ (์ ์ด ์์ธ, ์ ์ด ํ) ์์ธกํ๋๋ก ํ์ต
- ๋ฐฐํฌ: ํ์ต๋ ๋ชจ๋ธ๋ก ์ค์๊ฐ์ผ๋ก ์ด๊ฐ ํน์ง ์ถ์ถ
[240ร135 ์ด๊ฐ ์ด๋ฏธ์ง]
โ (CNN)
[ฮธ, ฯ, Fx, Fy, Fz]
โ (๊ณ์ฐ)
[์ ์ด ์์ธ, ์ ์ด ํ]
๋๋ผ์ด ์ ์, ์ด๋ ๊ฒ ํ์ตํ ์ ์ฑ ์ ์ถ๊ฐ ํ์ต ์์ด ์ค์ ๋ก๋ด์ ๋ฐ๋ก ์ ์ฉํ ์ ์๋ค๋ ๊ฒ๋๋ค! (์ ๋ก์ท ์ ์ด)
4. ์คํ ๊ฒฐ๊ณผ: ์ซ์๊ฐ ๋งํด์ฃผ๋ ์ฑ๋ฅ
์๋ฎฌ๋ ์ด์ ์คํ: ์ด๊ฐ ์ ๋ณด์ ์ค์์ฑ
์ฒซ ๋ฒ์งธ ์คํ์ โ์ด๊ฐ ์ ๋ณด๊ฐ ์ ๋ง ์ค์ํ๊ฐ?โ๋ฅผ ํ์ธํฉ๋๋ค.
ํ ์คํธ ํ๊ฒฝ:
- ํ์ต ๋ ๋ณด์ง ๋ชปํ ๋ฌผ์ฒด๋ค
- OOD Mass: ๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด
- OOD Shape: ๋ค๋ฅธ ํ์์ ๋ฌผ์ฒด
๊ฒฐ๊ณผ - OOD Mass (๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด):
| ๊ด์ฐฐ ์ ํ | ํ์ ์ | ์๊ฐ(์ด) | ์ฑ๋ฅ |
|---|---|---|---|
| ๊ณ ์ ์์ฉ๊ฐ๊ฐ๋ง | 0.56 | 6.9 | โญ |
| ์ด์ง ์ด๊ฐ | 1.03 | 11.1 | โญโญ |
| ์ด์ฐ ์ด๊ฐ | 1.26 | 13.1 | โญโญโญ |
| ๊ณ ๋ฐ๋ ์ด๊ฐ (ํ ์ ์ธ) | 1.55 | 15.4 | โญโญโญโญ |
| ๊ณ ๋ฐ๋ ์ด๊ฐ (์์ธ ์ ์ธ) | 1.35 | 13.8 | โญโญโญ |
| ๊ณ ๋ฐ๋ ์ด๊ฐ (์ ์ฒด) | 1.77 | 17.4 | โญโญโญโญโญ |
๊ฒฐ๊ณผ - OOD Shape (๋ค๋ฅธ ํ์):
| ๊ด์ฐฐ ์ ํ | ํ์ ์ | ์๊ฐ(์ด) |
|---|---|---|
| ๊ณ ์ ์์ฉ๊ฐ๊ฐ๋ง | 0.84 | 10.4 |
| ์ด์ง ์ด๊ฐ | 1.35 | 14.9 |
| ์ด์ฐ ์ด๊ฐ | 1.66 | 17.7 |
| ๊ณ ๋ฐ๋ ์ด๊ฐ (์ ์ฒด) | 2.35 | 23.3 |
๋ถ์:
- ์ด๊ฐ์ด ์์ผ๋ฉด ํจ์ฌ ์ข๋ค: ๊ณ ์ ์์ฉ๊ฐ๊ฐ๋ง ์ฐ๋ ๊ฒ๋ณด๋ค ์ด์ง ์ด๊ฐ๋ ํฐ ๋์
- ์์ธํ ์๋ก ์ข๋ค: ์ด๊ฐ ์ ๋ณด๊ฐ ์์ธํ ์๋ก ์ฑ๋ฅ์ด ๊ณ์ ํฅ์
- ์์ธ์ ํ ๋ชจ๋ ์ค์: ๋ ์ค ํ๋๋ฅผ ๋นผ๋ฉด ์ฑ๋ฅ ํ๋ฝ
- ํ ์ ๋ณด: ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ํนํ ์ค์
- ์์ธ ์ ๋ณด: ์ ๋ฐํ ์๊ฐ๋ฝ ์์ง์์ ์ค์
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ํ์ต ๋ ๋ชป ๋ณธ ๋ฌผ์ฒด์๋ ์ ์๋
๋ณด์กฐ ๋ชฉํ์ ํจ๊ณผ
โ๋ณด์กฐ ๋ชฉํ๊ฐ ์ ๋ง ํ์ํ๊ฐ?โ ํ ์คํธ:
๋น๊ต ๋์:
- ์ ์ ๋ฐฉ๋ฒ: ๋ณด์กฐ ๋ชฉํ + ์ ์ํ ์ปค๋ฆฌํ๋ผ
- w/o ๋ณด์กฐ ๋ชฉํ: ๊ฐ์๋ ์ง์ ์ ์ด
- w/o ์ปค๋ฆฌํ๋ผ: ๋ณด์กฐ ๋ชฉํ๋ ์์ง๋ง ๊ณ ์ ๋ ๋ณด์
๊ฒฐ๊ณผ:
์ ์ ๋ฐฉ๋ฒ: โโโโโโโโโโโโโโโโโโโโ (20ํ ์ฐ์ ๋ชฉํ ๋ฌ์ฑ)
w/o ์ปค๋ฆฌํ๋ผ: โโ (๋ฌผ์ฒด๋ง ์ก๊ณ ํ์ ์ ํจ)
w/o ๋ณด์กฐ ๋ชฉํ: โโโโ (๋จ์ผ ์ถ๋ง ๊ฐ๋ฅ, ๋ค์ถ ์คํจ)
๊ฒฐ๋ก : ๋ณด์กฐ ๋ชฉํ์ ์ ์ํ ์ปค๋ฆฌํ๋ผ ๋ ๋ค ํ์์ ๋๋ค!
์ค์ ๋ก๋ด ์คํ: ์ง์ง ์ธ๊ณ์์์ ๋์
์ด์ ์ง์ง ๋ก๋ด์ผ๋ก ์คํํฉ๋๋ค. 10๊ฐ์ง ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ฌ์ฉํ๋๋ฐ, ํ๋ผ์คํฑ ๊ณผ์ผ๋ถํฐ ๊ธ์ ์ค๋ฆฐ๋, ๊ณ ๋ฌด ์ฅ๋๊ฐ๊น์ง ์ ๋ง ๋ค์ํฉ๋๋ค.
์ ๋ฐฉํฅ์ ๋ฐ๋ฅธ ์ฑ๋ฅ
์์ ์ฌ๋ฌ ๋ฐฉํฅ์ผ๋ก ๋๋ ค๊ฐ๋ฉฐ ํ ์คํธํ์ต๋๋ค:
| ๋ฐฉํฅ | ์ค๋ช | ๋์ด๋ | ๊ณ ๋ฐ๋ ์ด๊ฐ ์ฑ๋ฅ |
|---|---|---|---|
| Palm Up | ์๋ฐ๋ฅ ์ | โญ ์ฌ์ | 6.2ํ/24.7์ด |
| Palm Down | ์๋ฐ๋ฅ ์๋ | โญโญ ์ค๊ฐ | 2.8ํ/18.3์ด |
| Base Up | ์๋ชฉ ์ | โญโญ ์ค๊ฐ | 3.5ํ/20.7์ด |
| Base Down | ์๋ชฉ ์๋ | โญโญโญ ์ด๋ ค์ | 2.0ํ/16.3์ด |
| Thumb Up | ์์ง ์ | โญโญโญโญ ๋งค์ฐ ์ด๋ ค์ | 1.5ํ/14.7์ด |
| Thumb Down | ์์ง ์๋ | โญโญโญโญโญ ๊ทน์ | 1.2ํ/13.3์ด |
์ ์ด๋ ๊ฒ ์ฐจ์ด๊ฐ ๋ ๊น?
- Palm Up/Down: ์ค๋ ฅ์ด ํ์ง๋ฅผ ๋์์ค (๋๋ ์ ๋นํ ๋ฐฉํด)
- Thumb Up/Down: ์๊ฐ๋ฝ์ด ์ํ์ด๋ผ ์ค๋ ฅ์ด ๊ตฌ๋๋ ฅ์ ์ ๋ฉด์ผ๋ก ๋ฐ๋
- ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด ๋ฌด๊ฒ๋ฅผ ์จ์ ํ ๋ฒํ จ์ผ ํจ
- Allegro Hand์ ๊ตฌ๋๋ ฅ์ด ์ด ๋ฐฉํฅ์์ ์ฝํด์ง
๋๋ผ์ด ์ :
์ด๋ ค์ด ๋ฐฉํฅ์์๋ ๊ณ ๋ฐ๋ ์ด๊ฐ์ ์ฌ์ฉํ ์ ์ฑ ์ ์๋ํฉ๋๋ค! ๊ณ ์ ์์ฉ๊ฐ๊ฐ์ด๋ ์ด์ง ์ด๊ฐ์ผ๋ก๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ ์์ค์ ๋๋ค.
ํ์ ์ถ์ ๋ฐ๋ฅธ ์ฑ๋ฅ
x, y, z ์ธ ์ถ์ผ๋ก ํ์ ์ ์๋ํ์ต๋๋ค:
| ํ์ ์ถ | ํน์ง | ๊ณ ๋ฐ๋ ์ด๊ฐ ์ฑ๋ฅ |
|---|---|---|
| z์ถ | ๋ฌผ์ฒด์ ์ฃผ์ถ, ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ | 4.2ํ/22.3์ด |
| x์ถ | ์๊ฐ๋ฝ 2๊ฐ๋ ๊ณ ์ , 2๊ฐ๋ ํ์ | 5.5ํ/25.3์ด |
| y์ถ | ๊ฐ์ฅ ๋ณต์กํ ์๊ฐ๋ฝ ํ์ ํ์ | 3.8ํ/21.7์ด |
ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ:
y์ถ๊ณผ x์ถ ํ์ ์ ์ ๊ตํ ์๊ฐ๋ฝ ๊ฒ์ดํ ์ด ํ์ํฉ๋๋ค: - ์ค์ง์ ์์ง(๋๋ ๊ฒ์ง์ ์๋ผ)๊ฐ ๋ฌผ์ฒด๋ฅผ ๊ณ ์ - ๋๋จธ์ง ๋ ์๊ฐ๋ฝ์ด ํ์ ๋ ฅ ์ ๊ณต - ์ด๋ฐ ๋ณต์กํ ํ์์ ์ด๊ฐ ์ ๋ณด ์์ด๋ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ
์ด์ง ์ด๊ฐ๋ z์ถ์์๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ด์ง๋ง, x์ถ๊ณผ y์ถ์์๋ ํ์คํ ๋ ์ข์ต๋๋ค.
์ด๊ฐ ์ผ์ ๋ถ์: ๋ก๋ด์ด โ๋๋ผ๋โ ๊ฒ
์คํ ์ค ์ด๊ฐ ์ผ์๊ฐ ์ธก์ ํ๋ ๊ฐ๋ค์ ๋ถ์ํ์ต๋๋ค. ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด ๋ ๊ฐ์ง ํต์ฌ ํจํด์ด ๋ณด์ ๋๋ค:
1. ๋ฏธ๋๋ผ ๊ฐ์ง
์๊ฐ 0์ด: ์ ์ด ํ = 2.5N, ์ ์ด ์์ธ = 15ยฐ
์๊ฐ 1์ด: ์ ์ด ํ = 2.3N, ์ ์ด ์์ธ = 15ยฐ โ ์์
์๊ฐ 2์ด: ์ ์ด ํ = 1.8N, ์ ์ด ์์ธ = 18ยฐ โ ๋ฏธ๋๋ฌ์ง!
ํ์ด ์ค๊ณ ๊ฐ๋๊ฐ ๋ณํ๋ฉด ๋ฌผ์ฒด๊ฐ ๋ฏธ๋๋ฌ์ง๋ ์ค์ ๋๋ค.
2. ๋ฐ์์ ๊ฒ์ดํ
๋ฏธ๋๋ผ์ ๊ฐ์งํ๋ฉด ์ ์ฑ ์ด ์ฆ์ ๋ฐ์ํฉ๋๋ค: - ๋ฏธ๋๋ฌ์ง๋ ์๊ฐ๋ฝ: ํ์ ์ฆ๊ฐ - ๋ค๋ฅธ ์๊ฐ๋ฝ๋ค: ๋ณด์ ๋์ ์ํ - ๊ฒฐ๊ณผ: ๋ฌผ์ฒด๋ฅผ ๋ค์ ์์ ์ ์ผ๋ก ์ก์
๋๋ผ์ด ์ :
๋ช ์์ ์ธ โ๋ฏธ๋๋ผ ๊ฐ์ง ๋ชจ๋โ์ด ์์ต๋๋ค! ๊ณ ๋ฐ๋ ์ด๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ์ ์ฑ ์ด ์๋ฌต์ ์ผ๋ก ๋ฏธ๋๋ผ์ ๊ฐ์งํ๊ณ ๋์ํ๋ ๋ฒ์ ํ์ตํ์ต๋๋ค. ์ด๋ ์ด์ง ์ด๊ฐ์ด๋ ๊ณ ์ ์์ฉ๊ฐ๊ฐ์ผ๋ก๋ ๊ด์ฐฐ๋์ง ์์ ์ฐฝ๋ฐ์ ํ๋์ ๋๋ค.
๊ถ๊ทน์ ํ ์คํธ: ํ์ ํ๋ ์
๊ฐ์ฅ ์ธ์์ ์ธ ์คํ์ ๋๋ค. ์ ์์ฒด๋ฅผ ๊ณ์ ํ์ ์ํค๋ฉด์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํฉ๋๋ค!
- ์์ด ์๋ค๋ก ํ๋ค๋ฆฌ๋ฉด์
- ๋์์ ์ข์ฐ๋ก ํ์ ํ๋ฉด์
- ๊ทธ ์์ค์ ์์์ ๊ณต์ ๊ณ์ ๋๋ฆผ
์ฌ๋๋ ์ด๋ ค์ด ์ด ๋์์, ๋ก๋ด์ด ํด๋ ๋๋ค. ์ค๋ ฅ ๋ฐฉํฅ์ด ์์ ์ขํ๊ณ์์ ๊ณ์ ๋ณํ๋๋ฐ๋ ๋ง์ด์ฃ !
์ธ ๊ฐ์ง ๊ถค์ ํ ์คํธ:
- ๋จ์ ํ์ : ์์ด ํ ์ถ์ผ๋ก ๊ณ์ ํ์ โ ์ฑ๊ณต!
- ๋ณต์กํ 3D ๊ถค์ : ์์ด ์ฌ๋ฌ ์ถ์ผ๋ก ๋ณตํฉ ํ์ โ ์ฑ๊ณต!
- ์๋ณด์: ์์ ๊ณ์ ์์ง์ด์ง๋ง ๋ฌผ์ฒด๋ ๊ณต์ค์ ๊ฑฐ์ ์ ์ง
- ๋ง์น ์ ๊ธ๋ง์ฒ๋ผ ์์ด ๋ฌผ์ฒด ์ฃผ์๋ฅผ ์ด๋
- 6DoF ์ฌ๋ฐฐํฅ + ํ์ง ์์น ์ฌ๋ฐฐ์น ๋์ ์ํ
- ํฝ์คํ๋ ์ด์ค ๊ฐ์ ์์ ์ ์ ์ฉํ ๋ฏ!
5. ๊ธฐ์ ์ ๊น์ด ํ๊ณ ๋ค๊ธฐ
์ฌ๊ธฐ์๋ ์ข ๋ ๊ธฐ์ ์ ์ธ ์ธ๋ถ์ฌํญ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์์ง๋์ด๋ง ์ธก๋ฉด์์ ์ ๋ง ์ ์ค๊ณ๋์๊ฑฐ๋ ์.
๋ณด์ ํจ์ ํด๋ถ
๋ณด์ ํจ์๋ ๋ก๋ด์ด โ๋ฌด์์ ๋ฐฐ์์ผ ํ๋์งโ ์ ์ํฉ๋๋ค. AnyRotate์ ๋ณด์ ํจ์๋ 10๊ฐ์ ํญ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
๊ธ์ ์ ๋ณด์ (๋ก๋ด์ด ์ด๋ ๊ฒ ํ๋ฉด ์ข์!)
1. ํ์ ๋ณด์ (r_rot)
- ๋ฌผ์ฒด์ ํคํฌ์ธํธ๊ฐ ๋ชฉํ์ ๊ฐ๊น์ธ์๋ก ๋์ ๋ณด์
- ํคํฌ์ธํธ: ๋ฌผ์ฒด์์ 5cm ๋จ์ด์ง 6๊ฐ ์
- ฮฒ = 2.0 (๊ฐ์ค์น)
2. ๋ชฉํ ๋ฌ์ฑ ๋ณด๋์ค (r_bonus)
- ํคํฌ์ธํธ ๊ฑฐ๋ฆฌ๊ฐ ์๊ณ๊ฐ(0.15) ๋ฏธ๋ง์ด๋ฉด ๋ฐ๋
- ํฌ์ ๋ณด์์ผ๋ก ์ค์ํ ์ด๋ฒคํธ ๊ฐ์กฐ
3. ๋ธํ ํ์ ๋ณด์ (r_delta)
- ๋ชฉํ ์ถ์ ๋ํ ์ค์ ๊ฐ๋ ๋ณํ
- ์ฐ์์ ์ธ ํ์ ์ฅ๋ ค
4. ์ข์ ์ ์ด ๋ณด์ (r_contact)
- ์๊ฐ๋ฝ ๋ ์ ์ด์ด 2๊ฐ ์ด์์ด๋ฉด ๋ณด์
- ์์ ์ ์ธ ํ์ง ์ ๋
๋ถ์ ์ ๋ณด์ (๋ก๋ด์ด ์ด๋ฌ๋ฉด ์ ๋ผ!)
5. ๋์ ์ ์ด ํ๋ํฐ (p_bad_contact)
- ์๋ฐ๋ฅ์ด๋ ์๊ฐ๋ฝ ์๋ฉด ์ ์ด ์ ํ๋ํฐ
- ์๊ฐ๋ฝ ๋๋ง ์ฌ์ฉํ๋๋ก ์ ๋
6. ๊ฐ์๋ ํ๋ํฐ (p_ang_vel)
- ๋๋ฌด ๋น ๋ฅธ ํ์ ๋ฐฉ์ง
- ์ ์ด ๊ฐ๋ฅํ ์๋ ์ ์ง
7. ์์ธ ํ๋ํฐ (p_pose)
- ํ์ค ํ์ง ์์ธ์์ ๋๋ฌด ๋ฉ์ด์ง๋ฉด ํ๋ํฐ
- ๊ทน๋จ์ ์ธ ๊ด์ ๊ฐ๋ ๋ฐฉ์ง
8. ์ผ ํ๋ํฐ (p_work)
- ์๋์ง ์๋น ์ต์ํ
- ํจ์จ์ ์ธ ์์ง์ ์ ๋
9. ํ ํฌ ํ๋ํฐ (p_torque)
- ๋์ ํ ํฌ ์ฌ์ฉ ์ต์
- ํ๋์จ์ด ๋ถ๋ด ๊ฐ์
10. ์ข ๋ฃ ํ๋ํฐ (p_term)
- ์คํจ์ ๋ํ ๊ฐ๋ ฅํ ๋ถ์ด์ต
- ์์ ์ฑ ์ต์ฐ์
์ต์ข ๋ณด์ ํจ์:
r_total = r_rot + r_bonus + r_delta + r_contact
- p_bad_contact - p_ang_vel - p_pose
- p_work - p_torque - p_term
๊ฐ ํญ์ ๊ฐ์ค์น๋ ์คํ์ ํตํด ์ธ์ฌํ๊ฒ ์กฐ์ ๋์์ต๋๋ค.
๋คํธ์ํฌ ์ํคํ ์ฒ ์์ธ
Teacher Policy
[ํน๊ถ ์ ๋ณด 18์ฐจ์]
โ
MLP Encoder [256 โ 128 โ 8]
โ
[์ ์ฌ ๋ฒกํฐ 8์ฐจ์] + [๊ณ ์ ์์ฉ+์ด๊ฐ ์ ๋ณด]
โ
Policy Network [512 โ 256 โ 128]
โ
[ํ๊ท ฮผ, ํ์คํธ์ฐจ ฯ] (Gaussian policy)
โ
์ํ๋ง โ [ํ๋ 16์ฐจ์]
ํ์ฑํ ํจ์: - MLP: ReLU - Policy: ELU (Exponential Linear Unit) - ์์ ์์ญ์์๋ ๋ถ๋๋ฌ์ด ๊ทธ๋๋์ธํธ - ์ฃฝ์ ๋ด๋ฐ(dead neuron) ๋ฌธ์ ํด๊ฒฐ
Student Policy
[30 ํ์์คํ
ร ๊ด์ฐฐ ์ฐจ์]
โ
TCN Layer 1: Conv1D (kernel=9, stride=2) + ReLU
โ
TCN Layer 2: Conv1D (kernel=5, stride=1) + ReLU
โ
TCN Layer 3: Conv1D (kernel=5, stride=1) + ReLU
โ
[์ ์ฌ ๋ฒกํฐ 8์ฐจ์]
โ
Policy Network [512 โ 256 โ 128] (Teacher์ ๋์ผ)
โ
[ํ๋]
TCN์ ์ฅ์ :
- ์๊ฐ์ ํจํด ํฌ์ฐฉ (๊ณผ๊ฑฐ 30 ํ๋ ์ = 1.5์ด)
- RNN๋ณด๋ค ๋ณ๋ ฌํ ํจ์จ์
- ๊ธด ์ํ์ค์์๋ ์์ ์
๊ด์ฐฐ ์ฐจ์:
- ๊ณ ์ ์์ฉ๊ฐ๊ฐ๋ง: 79์ฐจ์
- ์ด์ง ์ด๊ฐ: 83์ฐจ์ (+4)
- ๊ณ ๋ฐ๋ ์ด๊ฐ: 91์ฐจ์ (+12)
์์คํ ์๋ณ: ์๋ฎฌ๋ ์ด์ ์ ํ์ค๊ณผ ๋ง์ถ๊ธฐ
์๋ฎฌ๋ ์ด์ ์ด ์๋ฌด๋ฆฌ ์ข์๋ ํ์ค๊ณผ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด ์์คํ ์๋ณ์ ์ํํฉ๋๋ค.
์ต์ ํ ๋์: - 16๊ฐ ๊ด์ ร 5๊ฐ ํ๋ผ๋ฏธํฐ = 80๊ฐ ํ๋ผ๋ฏธํฐ - ๊ฐ์ฑ (stiffness) - ๊ฐ์ (damping) - ์ง๋ (mass) - ๋ง์ฐฐ (friction) - armature
๋ฐฉ๋ฒ:
- ์ค์ ๋ก๋ด์ผ๋ก ์ฌ๋ฌ ๋ฐฉํฅ์์ ๊ถค์ ๊ธฐ๋ก
- ๊ฐ์ ๋ช ๋ น์ ์๋ฎฌ๋ ์ด์ ์์ ์คํ
- CMA-ES ์๊ณ ๋ฆฌ์ฆ์ผ๋ก MSE ์ต์ํ
- ์ต์ ํ๋ผ๋ฏธํฐ ๋ฐ๊ฒฌ
๊ฒฐ๊ณผ:
์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด์ ์์ง์์ด ํจ์ฌ ์ ์ฌํด์ ธ์ sim-to-real ๊ฒฉ์ฐจ ๊ฐ์!
๋๋ฉ์ธ ๋ฌด์์ํ: ๋ค์์ฑ์ด ๋ต์ด๋ค
์๋ฎฌ๋ ์ด์ ํ์ต ์ค์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณ์ ๋ณ๊ฒฝํฉ๋๋ค:
๋ฌผ์ฒด ๋ฌด์์ํ:
mass = random.uniform(0.025, 0.20) # kg
friction = 10.0 # ๊ณ ์
radius = random.uniform(0.025, 0.034) # m
center_of_mass = random.uniform(-0.01, 0.01) # m์ ๋ฌด์์ํ:
stiffness = random.uniform(35, 45)
damping = random.uniform(0.5, 2.5)
joint_noise = gaussian(0, 0.03)
position_noise = gaussian(0, 0.005) # m์ด๊ฐ ๋ฌด์์ํ:
์ธ๋:
- 25% ํ๋ฅ ๋ก ๋๋ค ํ ์ ์ฉ
- ์ธ๋ ์ค์ผ์ผ: 2.0
- ์ง์ ๊ฐ์ : 0.99
์ด๋ ๊ฒ ๋ค์ํ ์กฐ๊ฑด์์ ํ์ตํ๋ฉด ์ค์ ์ธ๊ณ์ ์์ธก ๋ถ๊ฐ๋ฅํ ์ํฉ์ ๊ฐ๊ฑดํด์ง๋๋ค!
์ค์๊ฐ ์ ์ด ํ์ดํ๋ผ์ธ
์ค์ ๋ก๋ด์์์ ์ ์ด๋ 20Hz๋ก ์๋ํฉ๋๋ค:
๋ณ๋ชฉ ์ง์ :
- CNN ์ถ๋ก : ~5ms (GPU ์ฌ์ฉ)
- ์ ์ฑ ์ถ๋ก : ~3ms
- ๋๋จธ์ง: ~42ms (์ฌ์ ์์)
์ต์ ํ:
- ์ด๊ฐ ์ผ์๋ค์ด ๋น๋๊ธฐ๋ก ์คํธ๋ฆฌ๋ฐ (๋๊ธฐ ์๊ฐ ๊ฐ์)
- ๊ฐ์ฅ ์ต๊ทผ ์ด๋ฏธ์ง ์ฌ์ฉ (์ง์ฐ ์ต์ํ)
- SSIM์ผ๋ก ๋น ๋ฅธ ์ ์ด ๊ฐ์ง
6. ๋น๊ต ๋ถ์: ๊ธฐ์กด ์ฐ๊ตฌ์ ์ด๋ป๊ฒ ๋ค๋ฅธ๊ฐ?
OpenAI์ โSolving Rubikโs Cube with a Robot Handโ (2019)์ ๋น๊ต
2019๋ OpenAI๊ฐ ๋ฐํํ โSolving Rubikโs Cube with a Robot Handโ (Akkaya et al., 2019)์ ํ์ ์ฐ๊ตฌ โLearning Dexterous In-Hand Manipulationโ (Andrychowicz et al., 2020)์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ํฐ ๋ฐํฅ์ ์ผ์ผ์ผฐ์ต๋๋ค.
OpenAI๊ฐ ๋ณด์ฌ์ค ๊ฒ:
์ด ํ๋ก์ ํธ๋ Shadow Hand๋ผ๋ 24์์ ๋ ๋ก๋ด ์์ผ๋ก ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ ํธ๋ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค:
- ํ๋์จ์ด: Shadow Dexterous Hand (24 DoF, 20๊ฐ ๊ตฌ๋ ๊ด์ )
- ์ผ์ฑ: RGB ์นด๋ฉ๋ผ 3๊ฐ (์์ ๋๋ฌ์ผ ์์น์ ๋ฐฐ์น)
- ํ์ต ๋ฐฉ๋ฒ:
- ADR (Automatic Domain Randomization) - ์๋์ผ๋ก ์๋ฎฌ๋ ์ด์ ๋์ด๋ ์ฆ๊ฐ
- Vision-based state estimation
- ๋๊ท๋ชจ ๋ถ์ฐ ํ์ต (6,144 CPU ์ฝ์ด + 8 V100 GPU)
- ์ฑ๊ณผ: ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ 60% ์ฑ๊ณต๋ฅ ๋ก ํด๊ฒฐ (์ฌ์ง์ด ๊ณ ๋ฌด ์ฅ๊ฐ ์ฐฉ์ฉ ์ํ์์๋)
ํ์ง๋ง ํ๊ณ๊ฐ ๋ช ํํ์ต๋๋ค:
- ๊ณผ๋ํ ๋น์ ์์กด์ฑ
- 16-30๊ฐ์ ์นด๋ฉ๋ผ ํฌ์ธํธ ํ์
- ์๊ธฐ ํ์(self-occlusion) ๋ฌธ์ ํด๊ฒฐ์ ์ํ ๋ณต์กํ ์ค์
- ์คํ์ค ํ๊ฒฝ ๋ฐ์์๋ ์ ์ฉ ์ด๋ ค์
- ๊ณ ์ ๋ ์ ๋ฐฉํฅ
- ์์ ํญ์ ํ ์ (palm up)
- ์ค๋ ฅ์ด ํ์ง๋ฅผ ๋์์ฃผ๋ ์ํฉ
- ๋ค๋ฅธ ๋ฐฉํฅ์์์ ์กฐ์์ ์๋๋์ง ์์
- ์์
ํนํ
- ๋ฃจ๋น ์ค ํ๋ธ๋ผ๋ ํน์ ๋ฌผ์ฒด์ ์ต์ ํ
- ๋ค๋ฅธ ๋ฌผ์ฒด๋ก ์ผ๋ฐํ ๊ฒ์ฆ ์ ๋จ
- ํ๋ธ์ ํน์ํ ๊ธฐํํ์ ํน์ฑ ํ์ฉ
- ๋ง๋ํ ์ปดํจํ
์์
- ์ด ํ์ต ์๊ฐ: 100๋ ์๋น์ ์๋ฎฌ๋ ์ด์
- 13,000์๊ฐ์ ์ค์ ์๊ฐ
- ์ผ๋ฐ ์ฐ๊ตฌ์ค์์ ์ฌํ ์ด๋ ค์
AnyRotate์ ๊ทผ๋ณธ์ ์ฐจ์ด์ :
| ์ธก๋ฉด | OpenAI (2019-2020) | AnyRotate (2024) |
|---|---|---|
| ์ฃผ์ ์ผ์ฑ | ๋น์ (๋ค์ค ์นด๋ฉ๋ผ) | ์ด๊ฐ (4๊ฐ ์ผ์) |
| ์๊ธฐ ํ์ | ๋ฌธ์ ๊ฐ ๋จ | ๋ฌธ์ ์์ |
| ์ ๋ฐฉํฅ | ๊ณ ์ (palm up) | ์์ (6+ ๋ฐฉํฅ) |
| ์ค๋ ฅ ๋์ | ์ค๋ ฅ์ด ๋์ | ์ค๋ ฅ์ ๋ถ๋ณ |
| ํ์ ์ถ | ์์ ํนํ | ์์ ์ถ ํตํฉ ์ ์ฑ |
| ๋ฌผ์ฒด ์ผ๋ฐํ | ๋ฃจ๋น ์ค ํ๋ธ | 10+ ๋ค์ํ ๋ฌผ์ฒด |
| ์ค์น ๋ณต์ก๋ | ๋งค์ฐ ๋์ | ์๋์ ์ผ๋ก ๋ฎ์ |
| ์ปดํจํ ์์ | 6,144 CPU + 8 GPU | GPU ์๋ฎฌ๋ ์ดํฐ (ํ์ค) |
| ๋ฐฐํฌ ํ๊ฒฝ | ์คํ์ค ์ ์ฉ | ์ค์ฉ์ ๋ฐฐํฌ ๊ฐ๋ฅ |
์ฒ ํ์ ์ฐจ์ด:
OpenAI์ ์ ๊ทผ์ โํน์ ์์ ์์ ์ด์ธ์ ์ฑ๋ฅโ์ ๋ชฉํ๋ก ํ์ต๋๋ค. ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ ํธ๋ ๊ฒ์ ์ธ์์ ์ด์ง๋ง, ๊ทธ ์์คํ ์ ๋ค๋ฅธ ์์ ์ ์ ์ฉํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค.
๋ฐ๋ฉด AnyRotate๋ โ์ผ๋ฐํ ๊ฐ๋ฅํ ์กฐ์ ๋ฅ๋ ฅโ์ ์ถ๊ตฌํฉ๋๋ค. ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด๋ ๋ค๋ฃฐ ์ ์๊ณ , ์ด๋ค ์ ๋ฐฉํฅ์์๋ ์๋ํ๋ฉฐ, ๋ณต์กํ ์ธ๋ถ ์ผ์ ์์ด๋ ๊ฐ๋ฅํฉ๋๋ค.
๋ ์ค ๋ฌด์์ด ๋ ๋์๊ฐ?
์ฌ์ค ์ด๊ฒ์ โ๋ฌด์์ด ๋ ๋์๊ฐ?โ๋ณด๋ค๋ โ๋ฌด์์ ๋ชฉํ๋ก ํ๋๊ฐ?โ์ ๋ฌธ์ ์ ๋๋ค:
- OpenAI: โ์ด๊ฒ ๋ด! ๋ก๋ด์ด ๋ฃจ๋น ์ค ํ๋ธ๋ฅผ ํ ์ ์์ด!โ โ ๊ธฐ์ ์ ํ๊ณ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ชจ
- AnyRotate: โ๋ก๋ด์ด ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์ค์ฉ์ ์ผ๋ก ๋ค๋ฃฐ ์ ์์ดโ โ ์ค์ ์์ฉ์ ํฅํ ๋ฐ๊ฑธ์
๋ ์ ๊ทผ ๋ชจ๋ ์ค์ํ๊ณ , ์๋ก ๋ณด์์ ์ ๋๋ค.
์ต๊ทผ ์ด๊ฐ ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ต
Qi et al. (2023) - โGeneral In-Hand Object Rotation with Vision and Touchโ (RotateIt)
UC Berkeley์ Jitendra Malik ๊ต์ ์ฐ๊ตฌํ๊ณผ Meta AI๊ฐ ๊ณต๋์ผ๋ก ๊ฐ๋ฐํ ์์คํ ์ผ๋ก, CoRL 2023์ ๋ฐํ๋์์ต๋๋ค.
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋๊ธฐ:
Haozhi Qi๋ฅผ ๋น๋กฏํ ์ฐ๊ตฌํ์ โ์๊ฐ๊ณผ ์ด๊ฐ์ ํจ๊ป ์ฌ์ฉํ๋ฉด ๋ ๋์๊น?โ๋ผ๋ ์ง๋ฌธ์์ ์ถ๋ฐํ์ต๋๋ค. ์ธ๊ฐ๋ ๋๊ณผ ์์ ํจ๊ป ์ฌ์ฉํ๋๊น์. ๊ทธ๋ค์ ๋ต์ RotateIt ์์คํ ์ด์์ต๋๋ค.
์์คํ ๊ตฌ์ฑ:
ํ๋์จ์ด
- Allegro Hand (AnyRotate์ ๋์ผํ 4-finger hand)
- DIGIT ์ด๊ฐ ์ผ์ (Meta์์ ๊ฐ๋ฐ, ๊ฐ ์๊ฐ๋ฝ์ ๋ถ์ฐฉ)
- ์ธ๋ถ RGB-D ์นด๋ฉ๋ผ (์ ์์ ์ค์น)
์ผ์ฑ ๋ฐฉ์
- ๋น์ : ์ธ๋ถ ์นด๋ฉ๋ผ๋ก ๋ฌผ์ฒด์ ์ ์ฒด ํ์๊ณผ ๊น์ด ์ ๋ณด ๊ด์ฐฐ
- ์ด๊ฐ: DIGIT ์ผ์๋ก ๊ณ ํด์๋ ์ ์ด ์ ๋ณด ์์ง
- ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ 16๊ฐ ์ด์ฐ ์์ญ์ผ๋ก ํํ
- ์ฃผ๋ก ์ ์ด ์์น์ ์ง์ค
- ๊ณ ์ ์์ฉ๊ฐ๊ฐ: ๊ด์ ๊ฐ๋์ ์๋
ํต์ฌ ๊ธฐ์ : Visuotactile Transformer
[RGB-D ์ด๋ฏธ์ง] โ Vision Encoder (ResNet) โ [Transformer Fusion] โ [4๊ฐ DIGIT ์ด๋ฏธ์ง] โ Tactile Encoder โ [์ตํฉ๋ ํํ] โ ๋ฌผ์ฒด ํ์ + ๋ฌผ๋ฆฌ ์์ฑ ์ถ๋ก โ [์ ์ฑ ๋คํธ์ํฌ] โ ํ์ ํ๋ ์ถ๋ ฅTransformer๊ฐ cross-attention์ผ๋ก ์๊ฐ๊ณผ ์ด๊ฐ์ ์ตํฉํฉ๋๋ค:
- ์นด๋ฉ๋ผ๊ฐ ๋ฌผ์ฒด์ ์ ์ฒด ํ์์ ๋ณด๋ฉด
- ์ด๊ฐ์ด ์ ์ด ์ง์ ์ ์ธ๋ฐํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ
- โ์, ์ด ๋ฌผ์ฒด๋ ์ด๋ฐ ๋ชจ์์ด๊ณ ์ด ๋ฌด๊ฒ๋ผ์ ์ด๋ ๊ฒ ์ก์์ผ๊ฒ ๋คโ
ํ์ต ๊ณผ์ :
AnyRotate์ ์ ์ฌํ๊ฒ Teacher-Student ๊ตฌ์กฐ ์ฌ์ฉ:
- Oracle Teacher: GT ํ์๊ณผ ๋ฌผ๋ฆฌ ์์ฑ ์๊ณ ์์
- Visuotactile Student: ๋ ธ์ด์ฆ๊ฐ ์๋ ์๊ฐ-์ด๊ฐ๋ง์ผ๋ก ์๋
- ํน๋ณํ ์ : latent space์์ ๋ฌผ์ฒด์ 3D ํ์์ ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ!
์ฑ๋ฅ:
์๋ฎฌ๋ ์ด์ :
- X, Y, Z์ถ ๊ฐ๊ฐ 80% ์ด์ ์ฑ๊ณต๋ฅ
- ๋น์ ๋ง vs ์ด๊ฐ๋ง vs ๋ ๋ค โ ๋ ๋ค๊ฐ ์ต๊ณ
์ค์ ๋ก๋ด:
- ๋ค์ํ ์ผ์ ๋ฌผ์ฒด(๋จธ๊ทธ์ปต, ๋ง์น, ํ๋ผ์คํฑ ๋ณ ๋ฑ)
- ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด์๋ ์ ์ผ๋ฐํ
AnyRotate์์ ์์ธ ๋น๊ต:
| ์ฐจ์ | RotateIt (Qi et al. 2023) | AnyRotate (2024) |
|---|---|---|
| ์ด๊ฐ ํํ | 16๊ฐ ์ด์ฐ ์์ญ + ์๋ณธ ์ด๋ฏธ์ง | ์ฐ์์ ์์ธ(ฮธ,ฯ) + ํ(|F|) |
| ์ ๋ณด ๋ฐ๋ | ์ค๊ฐ (์ด์ฐํ๋ก ์ผ๋ถ ์์ค) | ๋์ (์ฐ์ ์ค์ ๊ฐ) |
| ๋น์ ํ์์ฑ | ํ์ (์ธ๋ถ ์นด๋ฉ๋ผ) | ๋ถํ์ (์์ ์ด๊ฐ) |
| ์ค์น ๋ณต์ก๋ | ๋์ (์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์ ) | ๋ฎ์ (์ผ์๋ง) |
| ์ค๋ ฅ ๋ถ๋ณ์ฑ | X (์๋ฐ๋ฅ ์ ๊ณ ์ ) | O (6+ ๋ฐฉํฅ) |
| ํ์ ์ถ ์ ์ด | ๋ค์ถ ๊ฐ๋ฅ (๊ฐ๋ณ ํ์ต?) | ํตํฉ ์ ์ฑ ์ผ๋ก ์์ ์ถ |
| ๋ฏธ๋๋ผ ๋์ | ๋ช ์์ ๋ชจ๋ ํ์ | ์๋ฌต์ ํ์ต (์ฐฝ๋ฐ) |
| ๋ฌผ์ฒด ์ดํด | 3D ํ์ ์ฌ๊ตฌ์ฑ O | ์ง์ ์ฌ๊ตฌ์ฑ X |
| ์ผ์ | DIGIT (Meta) | DigiTac (Bristol) |
| ์ฃผ์ ๊ธฐ์ฌ | ๋ฉํฐ๋ชจ๋ฌ ์ตํฉ | ์ค๋ ฅ ๋ถ๋ณ + ๊ณ ๋ฐ๋ ์ด๊ฐ |
RotateIt์ ๊ฐ์ :
- ํ์ ์ดํด:
- RGB-D๋ก ๋ฌผ์ฒด ์ ์ฒด ํ์ ํ์
- ํนํ ์ฒ์ ๋ณด๋ ๋ณต์กํ ๋ฌผ์ฒด์ ์ ๋ฆฌ
- Learned representation์ผ๋ก 3D shape ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ
- Transformer ์ตํฉ:
- Attention์ผ๋ก ์๊ฐ-์ด๊ฐ ์ํธ๋ณด์
- ์ค์ํ ์์ญ์ ์๋์ผ๋ก ์ง์ค
- ๋ฉํฐ๋ชจ๋ฌ ํ๋ ์์ํฌ:
- ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ์ข์ ๋ฐฉ๋ฒ๋ก
- ๋ค๋ฅธ ์ผ์ ์ถ๊ฐ๋ ๊ฐ๋ฅํ ํ์ฅ์ฑ
RotateIt์ ํ๊ณ:
- ์ธ๋ถ ์ผ์ ์์กด:
- ์นด๋ฉ๋ผ ์ค์น์ ์บ๋ฆฌ๋ธ๋ ์ด์ ํ์
- ์คํ์ค ๋ฐ ์ ์ฉ ์ด๋ ค์
- ์กฐ๋ช ๋ณํ์ ๋ฏผ๊ฐ
- ๊ณ ์ ๋ ์ ๋ฐฉํฅ:
- ์ฌ์ ํ palm up๋ง
- ์ค๋ ฅ ๋ถ๋ณ์ฑ ๋ฏธ๋ฌ์ฑ
- ์ผ๋ถ ์๊ธฐ ํ์:
- ์์ด ๋ฌผ์ฒด๋ฅผ ๊ฐ๋ฆผ
- ์์ ํ ํด๊ฒฐ์ ์๋
๊ฒฐ๋ก :
RotateIt๋ โ๋ฉํฐ๋ชจ๋ฌโ์ด ๋ต์ด๋ผ๊ณ ์ฃผ์ฅํฉ๋๋ค. ์๊ฐ+์ด๊ฐ > ๊ฐ๊ฐ์ ํฉ.
AnyRotate๋ โ๊ณ ๋ฐ๋ ์ด๊ฐ๋ง์ผ๋ก๋ ์ถฉ๋ถโํ๋ค๊ณ ๋ณด์ฌ์ค๋๋ค. ๊ทธ๊ฒ๋ ์์ ๋ฐฉํฅ์์!
์ค์ฉ์ ์ ํ:
- ์นด๋ฉ๋ผ ์ฌ์ฉ ๊ฐ๋ฅ โ RotateIt (๋ ๋ง์ ์ ๋ณด)
- ์นด๋ฉ๋ผ ์ด๋ ค์ โ AnyRotate (๋ ๊ฐ๊ฑดํ๊ณ ๋จ์)
Khandate et al. (2022-2023) - ์๊ฐ๋ฝ ๊ฒ์ดํ ํ์ต ์๋ฆฌ์ฆ
Columbia University์ Matei Ciocarlie ๊ต์ ์ฐ๊ตฌ์ค์์ ์งํํ ์ฐ๊ตฌ์ ๋๋ค. Gagan Khandate ๋ฐ์ฌ๊ณผ์ ํ์์ด ์ฃผ๋ํ์ต๋๋ค.
์ฐ๊ตฌ์ ํต์ฌ ์ฃผ์ : ์๊ฐ๋ฝ ๊ฒ์ดํ (Finger Gaiting)
์๊ฐ๋ฝ ๊ฒ์ดํ ์ด๋, ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ์๋ ์๊ฐ๋ฝ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ ์กฐ์ํ๋ ๊ธฐ์ ์ ๋๋ค. ๋ง์น ์๋ฒฝ๋ฑ๋ฐ์ฒ๋ผ ์๊ณผ ๋ฐ์ ๋ฒ๊ฐ์ ์์ง์ด๋ ๊ฒ๊ณผ ๋น์ทํ์ฃ .
์๋ฅผ ๋ค์ด:
- ๊ฒ์ง+์ค์ง๋ก ๋ฌผ์ฒด ๊ณ ์
- ์์ง+์ฝ์ง๊ฐ ์์ง์ฌ์ ๋ฌผ์ฒด ํ์
- ์ด์ ์์ง+์ฝ์ง๋ก ๊ณ ์
- ๊ฒ์ง+์ค์ง๊ฐ ์์ง์ฌ์ ๋ ํ์
- ๋ฐ๋ณตโฆ
2022๋ ์ฐ๊ตฌ: โOn the Feasibility of Learning Finger-gaiting In-hand Manipulation with Intrinsic Sensingโ (ICRA 2022)
โ์ ๋ง ๊ฐํํ์ต๋ง์ผ๋ก ์ด๋ฐ ๋ณต์กํ ๊ธฐ์ ์ ๋ฐฐ์ธ ์ ์์๊น?โ
์์คํ ๊ตฌ์ฑ:
- ๋ก๋ด ์: ์ปค์คํ
์ ์ 5-finger hand
- ๊ฐ ์๊ฐ๋ฝ: 1 roll joint + 2 flexion joints = 3 DoF
- ์ด 15 DoF (5 fingers ร 3 joints)
- ๋ชจ๋ Dynamixel XM430 ์๋ณด๋ชจํฐ๋ก ๊ตฌ๋
- ์์น ์ ์ด ๋ชจ๋
- ์ผ์ฑ:
- ๊ฐ ์๊ฐ๋ฝ ๋์ ๊ดํ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์
- ์ ์ฐํ ๋ฐ์ฌ๋ง + LED + ํฌํ ๋ค์ด์ค๋ ๋ฐฐ์ด
- ๋ง์ด ๋๋ฆฌ๋ฉด ๋น ๋ฐ์ฌ ํจํด ๋ณํ
- ์ถ๋ ฅ: ์ด์ง ์ ํธ (๋ฟ์ 1 / ์ ๋ฟ์ 0)
- ๊ณ ์ ์์ฉ๊ฐ๊ฐ (๊ด์ ๊ฐ๋, ์๋)
ํต์ฌ ๋์ : ํ์ ๋ฌธ์
์๊ฐ๋ฝ ๊ฒ์ดํ ์ ๊ฐ์ฅ ํฐ ์ด๋ ค์:
๋ฌธ์ : ๋ฌด์์ ํ๋์ผ๋ก๋ ๊ฑฐ์ ์คํจ
- ์๊ฐ๋ฝ์ ์กฐ๊ธ๋ง ์๋ชป ์์ง์ฌ๋ โ ๋ฌผ์ฒด ๋ํ
- ์ฑ๊ณต์ ์ธ ๊ฒ์ดํ
์ ๊ทนํ ๋๋ฌผ๊ฒ ๋ฐ์
- ํ์ต ์ ํธ๊ฐ ๋๋ฌด ํฌ์ (sparse reward)
ํด๊ฒฐ์ฑ : Initial State Distribution
- ์์ ์ ์ธ ํ์ง ์์ธ๋ค์ ์ฌ์ ์์ฑ
- ๋ค์ํ ๊ด์ ๊ฐ๋ ์ํ๋ง
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์์ ์ฑ ๊ฒ์ฆ
- ์์ ํ ์์ธ๋ง ์ ์ฅ
- ํ์ต ์ ์ด ์์ธ๋ค์ ์ด๊ธฐ ์ํ๋ก ์ฌ์ฉ
- ๋งค ์ํผ์๋ ์์์ ์์ ํ ์์ธ์์
- ๊ฑฐ๊ธฐ์๋ถํฐ ๊ฒ์ดํ ์ฐ์ต
- ํจ๊ณผ
- ๋จ์ด๋จ๋ฆด ํ๋ฅ โโ
- ์ ์ฉํ ๊ฒฝํ ์์ง โโ
- ํ์ต ์๋ 5-10๋ฐฐ ํฅ์
ํ์ต ์ค์ :
- ์๊ณ ๋ฆฌ์ฆ: PPO (Proximal Policy Optimization)
- ๋ชฉํ: Z์ถ ํ์ (์์ง์ถ)
- ๋ณด์: ๊ฐ์๋ + ์์ ์ฑ ํ๋ํฐ
- ์๋ฎฌ๋ ์ดํฐ: PyBullet
์ฑ๊ณผ:
- Z์ถ ์๊ฐ๋ฝ ๊ฒ์ดํ ํ์ต ์ฑ๊ณต!
- Palm up๊ณผ palm down ๋ ๋ฐฉํฅ ์๋
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค 5-10๋ฐฐ ๋น ๋ฅธ ํ์ต
- ๋จ์ํ ๋ณผ๋ก ๋ฌผ์ฒด (๊ตฌ, ์ค๋ฆฐ๋)
ํ๊ณ:
- ๋จ์ผ ์ถ(Z์ถ)๋ง
- ์๋ฎฌ๋ ์ด์ ์์๋ง ๊ฒ์ฆ
- ์ค์ ๋ก๋ด ์ ์ด ์ ๋จ
2023๋ ์ฐ๊ตฌ: โSampling-based Exploration for Reinforcement Learning of Dexterous Manipulationโ (RSS 2023)
โ๋ ์ด๋ ค์ด ๋ฌผ์ฒด๋ ์ด๋ป๊ฒ ๋ค๋ฃฐ๊น? L์๋ U์ ๊ฐ์?โ
์๋ก์ด ๋์ :
๋ณผ๋กํ ๊ณต์ ์ด๋๋ฅผ ์ก์๋ ๋น์ทํฉ๋๋ค. ํ์ง๋ง:
- L์ ๋ฌผ์ฒด: ํ์ชฝ์ด ๋ฌด๊ฑฐ์ฐ๋ฉด ๊ท ํ ๊นจ์ง
- U์ ๋ฌผ์ฒด: ์๋ชป ์ก์ผ๋ฉด ๋น ์ ธ๋๊ฐ
- ๊ธด ๋ง๋๊ธฐ: ํ์ ๊ด์ฑ ๋์
์ด๋ฐ ๋ฌผ์ฒด๋ค์ ์ข์ ํต๋ก(narrow passage) ๋ฌธ์ ๋ฅผ ๋ง๋ญ๋๋ค:
์ํ ๊ณต๊ฐ:
[์์ ์์ญ A] ---- ์ข์ ํต๋ก ---- [์์ ์์ญ B]
๋ฌธ์ : ๋ฌด์์ ํ์์ผ๋ก๋ ์ข์ ํต๋ก๋ฅผ ํต๊ณผํ๊ธฐ ๊ทนํ ์ด๋ ค์
ํด๊ฒฐ์ฑ : Sampling-Based Planning + RL ํ์ด๋ธ๋ฆฌ๋
๋ ์ธ๊ณ์ ์ฅ์ ์ ๊ฒฐํฉ:
1. Sampling-Based Planning (SBP):
# RRT* ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
def plan_path(start_pose, goal_pose):
tree = initialize_tree(start_pose)
for i in range(iterations):
random_pose = sample_random_pose()
nearest = find_nearest_in_tree(random_pose)
new_pose = extend_towards(nearest, random_pose)
if physics_check(new_pose): # ๋จ์ด์ง์ง ์๋์ง ํ์ธ
tree.add(new_pose)
if close_to_goal(new_pose, goal_pose):
return extract_path(tree, new_pose)์ด๋ ๊ฒ ์ฐพ์ ๊ฒฝ๋ก๋:
- ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅ
- ์ข์ ํต๋ก๋ ํต๊ณผ
- ํ์ง๋ง ์ค์๊ฐ์ ์๋ (๊ณํ์ ์๊ฐ ์์)
2. Reinforcement Learning:
# SBP๊ฐ ์ฐพ์ ๊ฒฝ๋ก๋ฅผ ํ์ฉ
def train_policy():
# 1. SBP๋ก ์ข์ ๊ฒฝ๋ก๋ค ์์ง
paths = sampling_based_planner.get_paths()
# 2. ๊ฒฝ๋ก์ state๋ค์ ์ด๊ธฐ ์ํ๋ก ํ์ฉ
for episode in training:
init_state = sample_from(paths)
# ์ฌ๊ธฐ์๋ถํฐ RL ํ์ต
# 3. ๊ฒฐ๊ณผ: ๊ฒฝ๋ก๋ฅผ ๋์ด์ ์ผ๋ฐํ๋ ์ ์ฑ
ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ์ ์ฅ์ :
| ๋ฐฉ๋ฒ | ์ฅ์ | ๋จ์ | ํ์ด๋ธ๋ฆฌ๋ |
|---|---|---|---|
| ์์ RL | ์ผ๋ฐํ ์ข์ | ํ์ ์ด๋ ค์ | โ ์ผ๋ฐํ |
| ์์ Planning | ํน์ ๋ชฉํ ๋ฌ์ฑ | ์ค์๊ฐ ์ด๋ ค์ | โ ํจ์จ |
| ์ผ๋ฐํ ์ ํ | โ ์ค์๊ฐ |
์คํ ๋ฌผ์ฒด:
- Easy: ๊ตฌ, ์ค๋ฆฐ๋ (๊ธฐ๋ณธ์ )
- Moderate: ํ์์ฒด, ๋๊บผ์ด ๋ง๋
- Hard: L์, U์, ์๊ณ ๊ธด ๋ง๋
์ฑ๊ณผ:
์๋ฎฌ๋ ์ด์ :
- ๋ชจ๋ ๋์ด๋์ ๋ฌผ์ฒด์์ ๊ฒ์ดํ ์ฑ๊ณต
- Hard ๋ฌผ์ฒด๋ 80% ์ด์ ์ฑ๊ณต๋ฅ
- ์์ RL๋ณด๋ค 3-5๋ฐฐ ๋น ๋ฅธ ์๋ ด
์ค์ ๋ก๋ด:
- 2023๋ ๋ ผ๋ฌธ์์ ๋๋์ด ์ค์ ๊ฒ์ฆ!
- L์, U์ ๋ฌผ์ฒด ์ค์ ๋ก ํ์ ์ฑ๊ณต
- IEEE Spectrum์ โRobot Hand Manipulates Complex Objects by Touch Aloneโ ๊ธฐ์ฌํ
์ค์ ๋ก๋ด ํ๋์จ์ด:
โHighly Dexterous Robot Hand Can Operate in the Darkโ - 5๊ฐ ์๊ฐ๋ฝ, 15 DoF - ๊ฐ ์๊ฐ๋ฝ ๋์ ๊ดํ ์ด๊ฐ ์ผ์ - ์์ ์ํ์์๋ ์๋ (์์ ์ด๊ฐ) - ๋ณต์กํ ํ์ ๋ค๋ฃธ
AnyRotate์์ ์์ธ ๋น๊ต:
| ์ธก๋ฉด | Khandate et al. (2022-2023) | AnyRotate (2024) |
|---|---|---|
| ์ด๊ฐ ํด์๋ | ์ด์ง (1 bit/finger) | ์ฐ์ (ฮธ,ฯ,F/finger) |
| ์ ๋ณด๋ | 5 bits (5 fingers) | ~15 ์ฐ์ ๋ณ์ |
| ํ์ ์์ ๋ | ์ฃผ๋ก Z์ถ | ์์ ์ถ ํตํฉ ์ ์ฑ |
| ์ ๋ฐฉํฅ | Palm up/down (2๊ฐ์ง) | 6+ ๋ฐฉํฅ ์์ ๋กญ๊ฒ |
| ์ค๋ ฅ ๋์ | ๋ถ๋ถ์ ํด๊ฒฐ | ์์ ํด๊ฒฐ |
| ํ์ต ์ ๊ทผ | SBP + RL ํ์ด๋ธ๋ฆฌ๋ | ๋ชฉํ์กฐ๊ฑด RL + ์ปค๋ฆฌํ๋ผ |
| ํ์ ์ ๋ต | Planning์ผ๋ก ๊ฒฝ๋ก ์ ๊ณต | Adaptive curriculum |
| ๋ฌผ์ฒด ๋ณต์ก๋ | ๋ณผ๋ก โ ๋ณต์ก (L, U) | ๋ค์ํ ์ผ์ ๋ฌผ์ฒด |
| ์ค์ ๊ฒ์ฆ | 2023๋ ์ผ๋ถ | ๊ด๋ฒ์ (10๊ฐ ๋ฌผ์ฒด) |
| ์ฃผ์ ๊ธฐ์ฌ | Planning-RL ๊ฒฐํฉ | ์ค๋ ฅ ๋ถ๋ณ + ๊ณ ๋ฐ๋ ์ด๊ฐ |
Khandate ์ฐ๊ตฌ์ ๊ฐ์ :
- ์ด๋ก ์ ์ฒด๊ณ์ฑ:
- Narrow passage ๋ฌธ์ ๋ฅผ ์๋ฆฌ์ ์ผ๋ก ํด๊ฒฐ
- SBP์ RL ๊ฒฐํฉ์ ์ด์ ๋ฅผ ๋ช ํํ ์ค๋ช
- ๋ก๋ณดํฑ์ค ์ปค๋ฎค๋ํฐ์ ๋ฐฉ๋ฒ๋ก ์ ์
- ๋ณต์กํ ํ์:
- L์, U์ ๋ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ์ด ์คํจํ ๋ฌผ์ฒด
- ํ์ ๋ณต์ก๋์ ํ๊ณ๋ฅผ ๋ํ
- โ์ด๋ฐ ๊ฒ๋ ํ์ต์ผ๋ก ๊ฐ๋ฅํ๋คโ
- ์ ์ง์ ๋ฐ์ :
- 2022: ๊ธฐ๋ณธ ๊ฐ๋ ๊ฒ์ฆ (์๋ฎฌ๋ ์ด์ )
- 2023: ์ด๋ ค์ด ๋ฌผ์ฒด + ์ค์ ๋ก๋ด
- ์ฒด๊ณ์ ์ด๊ณ ํํํ ์ฐ๊ตฌ ์งํ
Khandate ์ฐ๊ตฌ์ ํ๊ณ:
- ์ด์ง ์ด๊ฐ์ ํ๊ณ:
- โ๋ฟ์๋ค/์ ๋ฟ์๋คโ๋ง ์ ์ ์์
- ์ผ๋ง๋ ์ธ๊ฒ? โ ๋ชจ๋ฆ
- ์ด๋ ๊ฐ๋๋ก? โ ๋ชจ๋ฆ
- ๋ฏธ์ธํ ๋ฏธ๋๋ผ ๊ฐ์ง ๋ถ๊ฐ๋ฅ
- ์ ํ๋ ์ค๋ ฅ ๋์:
- Palm up/down์ ๊ฐ๋ฅ
- ํ์ง๋ง Thumb up/down ๊ฐ์ ๊ทนํ ์์ธ๋ ์ฌ์ ํ ์ด๋ ค์
- ์ค๋ ฅ์ด ์ด๋ ์ ๋ ๋์์ฃผ๋ ์ํฉ
- ํ์ ์ถ ์ ํ:
- ์ฃผ๋ก Z์ถ (์์ง์ถ) ์ค์ฌ
- X, Y์ถ ํ์ ์ ๋ช ์์ ์ผ๋ก ๋ค๋ฃจ์ง ์์
- ์์ ์ถ์ ๋ฏธํด๊ฒฐ
- ์ค์ ๋ฐฐํฌ ๊ฒ์ฆ:
- 2022๋ ์ ์๋ฎฌ๋ ์ด์ ๋ง
- 2023๋ ์ ์ผ๋ถ ์ค์ ๊ฒ์ฆ
- ์ฅ์๊ฐ ์ ๋ขฐ์ฑ, ๋ค์ํ ์กฐ๊ฑด ๊ฒ์ฆ์ ์ ํ์
์ฐ๊ตฌ ์ฒ ํ์ ์ฐจ์ด:
Khandate์ ์ฒ ํ:
"Planning(๊ณํ)๊ณผ Learning(ํ์ต)์ ๊ฒฐํฉํ๋ฉด
์ด๋ ค์ด ํ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค"
โ ๋ฐฉ๋ฒ๋ก ์ ์ง์ค
โ ์ด๋ ค์ด ๋ฌผ์ฒด๋ก ๋ฐฉ๋ฒ์ ์ฐ์์ฑ ์ฆ๋ช
โ ์ด๋ก ๊ณผ ์ค์ ์ ๊ท ํ
AnyRotate์ ์ฒ ํ:
"๊ณ ๋ฐ๋ ์ผ์ฑ์ด ์์ผ๋ฉด
๊ทนํ ์กฐ๊ฑด์์๋ ๊ฐ๊ฑดํ ์กฐ์์ด ๊ฐ๋ฅํ๋ค"
โ ์ผ์ฑ์ ์ค์์ฑ ๊ฐ์กฐ
โ ์ค๋ ฅ ๋ถ๋ณ์ด๋ผ๋ ์ ์ฐจ์ ์ถ๊ฐ
โ ์ค์ฉ์ฑ์ ์ง์ค
์ํธ ๋ณด์์ฑ:
ํฅ๋ฏธ๋กญ๊ฒ๋, ๋ ์ ๊ทผ์ ๊ฒฐํฉํ๋ฉด ์๋์ง๊ฐ ๋ ๊ฒ ๊ฐ์ต๋๋ค:
Khandate์ SBP + AnyRotate์ ๊ณ ๋ฐ๋ ์ด๊ฐ
= ๋ณต์กํ ํ์์ ์์ ๋ฐฉํฅ์์ ๋ค๋ฃจ๋ ์์คํ
์๋ฅผ ๋ค์ด:
- L์ ๋ฌผ์ฒด๋ฅผ ๊ฑฐ๊พธ๋ก ๋ค๊ณ
- ์์์ ์ถ์ผ๋ก ํ์ ์ํค๋ฉด์
- ์๊ฐ๋ฝ ๊ฒ์ดํ ๊น์ง ์ํ
ํต์ฌ ์ฐจ๋ณ์ :
- ์ ๋ณด์ ํ๋ถํจ:
- ๊ธฐ์กด: 4 bits ~ 16 bits
- AnyRotate: ์ฐ์์ ์ค์ ๊ฐ (๋ฌดํ ํด์๋)
- ํตํฉ์ฑ:
- ๊ธฐ์กด: ์กฐ๊ฑด๋ณ ๋ณ๋ ์ ์ฑ
- AnyRotate: ํ๋์ ์ ์ฑ ์ผ๋ก ๋ชจ๋ ์กฐ๊ฑด
- ๊ฐ๊ฑด์ฑ:
- ๊ธฐ์กด: ์ ํ๋ ์กฐ๊ฑด์์๋ง
- AnyRotate: ๊ทนํ ์กฐ๊ฑด(๊ฑฐ๊พธ๋ก, ์์ผ๋ก)์์๋
Sievers et al. (2022) - ํ ํฌ ์ ์ด ์์ ์ด๊ฐ
๊ทธ๋ค์ ์ ๊ทผ:
- ํ ํฌ ์ ์ด DLR ์ ์ฌ์ฉ
- ์์ ์ด๊ฐ (๋น์ ์์)
- ๋ชจ๋ธ ๊ธฐ๋ฐ + ๊ฐํํ์ต ๊ฒฐํฉ
์ฅ์ :
- ๋ฌผ๋ฆฌ ๋ฒ์น ์ง์ ํ์ฉ
- ๋ ์ ๋ฐํ ํ ์ ์ด
ํ๊ณ:
- ๊ณ ์ ๋ ์ ๋ฐฉํฅ
- ํน์ ๋ฌผ์ฒด์๋ง ํ ์คํธ
- ์ผ๋ฐํ ๋ฅ๋ ฅ ์ ํ์
AnyRotate๊ฐ ๋ ๋์ ์ :
- ๋ค์ํ ๋ฌผ์ฒด๋ก ์ผ๋ฐํ
- ์ค๋ ฅ ๋ถ๋ณ
- ์์ ํ์ต ๊ธฐ๋ฐ (๋ฌผ๋ฆฌ ๋ชจ๋ธ ๋ถํ์)
Sievers๊ฐ ๋ ๋์ ์ :
- ๋ ์ ๋ฐํ ํ ์ ์ด
- ๋ฌผ๋ฆฌ์ ์ง๊ด ํตํฉ
7. ์ด๋ก ์ ๊ด์ : ์ ์ด๊ฒ ์๋ํ๋๊ฐ?
๊ธฐ์ ์ ๋ํ ์ผ์ ๋์ด์, ์ด ์์คํ ์ด ์ ์๋ํ๋์ง ์ด๋ก ์ ์ผ๋ก ์ดํดํด๋ด ์๋ค.
์ ๋ณด ์ด๋ก ์ผ๋ก ๋ฐ๋ผ๋ณด๊ธฐ
์ฑ๋ ์ฉ๋ ๊ด์ :
๊ฐ ์ผ์ฑ ๋ฐฉ์์ด ์ ๋ฌํ ์ ์๋ ์ ๋ณด๋์ ์๊ฐํด๋ด ์๋ค.
๊ณ ์ ์์ฉ๊ฐ๊ฐ:
- 16๊ฐ ๊ด์ ๊ฐ๋
- ์ฐ์๊ฐ์ด์ง๋ง ๊ฐ์ ์ ์ ๋ณด
- ์ ์ด ์ํ๋ฅผ ์ถ๋ก ํด์ผ ํจ
์ด์ง ์ด๊ฐ:
- 4๊ฐ ์๊ฐ๋ฝ ร 1 bit = 4 bits
- ์ง์ ์ ์ด์ง๋ง ์ ํ์
- โ์ด๋์ ๋ฟ์๋โ๋ ๋ชจ๋ฆ
๊ณ ๋ฐ๋ ์ด๊ฐ:
- 4๊ฐ ์๊ฐ๋ฝ ร (ฮธ, ฯ, |F|) = 12๊ฐ ์ฐ์ ๋ณ์
- ์ง์ ์ ์ด๊ณ ํ๋ถํจ
- ์์น์ ํ์ ๋์์ ์
์ํธ ์ ๋ณด (Mutual Information):
๋ฌผ์ฒด ์ํ S์ ๊ด์ฐฐ O ์ฌ์ด์ ์ํธ ์ ๋ณด:
I(S; O) = H(S) - H(S|O)
์ฆ, โ๊ด์ฐฐ์ ํตํด ์ํ์ ๋ํ ๋ถํ์ค์ฑ์ด ์ผ๋ง๋ ์ค์ด๋๋๊ฐ?โ
I(S; O_dense) > I(S; O_discrete) > I(S; O_binary) > I(S; O_proprio)
๊ณ ๋ฐ๋ ์ด๊ฐ์ด ๋ ๋ง์ ๋ถํ์ค์ฑ์ ์ ๊ฑฐํ๋ฏ๋ก, ๋ ์ข์ ์์ฌ๊ฒฐ์ ์ด ๊ฐ๋ฅํฉ๋๋ค!
POMDP ๊ด์
In-hand ์กฐ์์ ๋ณธ์ง์ ์ผ๋ก ๋ถ๋ถ ๊ด์ธก ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (POMDP)์ ๋๋ค.
๋ฌธ์ :
- ๋ฌผ์ฒด์ ์ ํํ ์์ธ๋ ๋ชจ๋ฆ
- ์ ์ด ์ง์ ์ ์ ํํ ์์น๋ ๋ชจ๋ฆ
- ๋ง์ฐฐ ๊ณ์๋ ๋ชจ๋ฆ
ํด๊ฒฐ์ฑ : Belief State
์์ด์ ํธ๋ โ์ค์ ์ํ๊ฐ ๋ฌด์์ผ๊น?โ์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์งํฉ๋๋ค:
b(s) = P(s | \text{history})
TCN์ ์ญํ :
TCN์ ์ง๋ 30 ํ๋ ์์ ๊ด์ฐฐ๋ก๋ถํฐ belief state์ ์ถฉ๋ถ ํต๊ณ๋์ ๊ณ์ฐํฉ๋๋ค:
z_t = f_TCN(o_{t-29:t})
์ด 8์ฐจ์ ๋ฒกํฐ z_t๋ belief state๋ฅผ ์์ถํ ํํ์ ๋๋ค!
๊ณ ๋ฐ๋ ์ด๊ฐ์ ์ด์ :
๋ ๋ง์ ์ ๋ณด โ ๋ ์ ํํ belief โ ๋ ์ข์ ๊ฒฐ์
Uncertainty(b_{dense}) < Uncertainty(b_{binary})
์ ์ด ์ญํ์ ๊ด์
์ ๋ฏธ๋๋ผ ๊ฐ์ง๊ฐ ์ค์ํ๊ฐ?
๋ง์ฐฐ ์ ์ฝ:
|F_{tangential}| โค ฮผ * |F_{normal}|
๋ฏธ๋๋ผ์ด ์๋ฐํ๋ฉด:
|F_{tangential}| / |F_{normal}| โ ฮผ
๊ณ ๋ฐ๋ ์ด๊ฐ์ผ๋ก ์ ์ ์๋ ๊ฒ:
- ์ ์ด ์์ธ (ฮธ, ฯ) โ ๋ฒ์ ๋ฐฉํฅ ์ถ์
- ์ ์ด ํ |F| โ ์ ์ฒด ํ์ ํฌ๊ธฐ
์ด ๋ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ฉด:
- ๋ฒ์ ์ฑ๋ถ F_normal ์ถ์
- ์ ์ ์ฑ๋ถ F_tangential ์ถ์
- ๋ง์ฐฐ ์ฌ์ ๋ ๊ณ์ฐ!
์ ์ฑ ์ด ๋ฐฐ์ฐ๋ ๊ฒ:
if friction_margin < threshold:
# ๋ฏธ๋๋ผ ์๋ฐ!
increase_normal_force()
adjust_finger_positions()
else:
# ์์ ํจ
continue_rotation()์ด ๋ชจ๋ ๊ฒ์ด ๋ช ์์ ํ๋ก๊ทธ๋๋ฐ ์์ด ํ์ต์ผ๋ก ํ๋๋ฉ๋๋ค!
๊ฐํํ์ต ๊ด์ : ํ์์ ์ด๋ ค์
์ ๋ณด์กฐ ๋ชฉํ๊ฐ ํ์ํ๊ฐ?
๊ฐ์๋๋ฅผ ์ง์ ๋ชฉํ๋ก ํ๋ฉด:
r = ฯ_{desired} - ฯ_{actual}
๋ฌธ์ :
- ์ด๊ธฐ์ ฯ_actual โ 0 (๋ฌผ์ฒด๊ฐ ์ ๋์๊ฐ)
- ๋ณด์์ด ๊ณ์ ์์
- ์ด๋ป๊ฒ ๊ฐ์ ํ ์ง ๋ชจ๋ฆ (ํฌ์ ๋ณด์ ๋ฌธ์ )
๋ณด์กฐ ๋ชฉํ ๋ฐฉ์:
r = exp(-\text{distance to goal})
์ฅ์ :
- ๋ชฉํ์ ๊ฐ๊น์์ง์๋ก ์ ์ง์ ์ผ๋ก ๋ณด์ ์ฆ๊ฐ
- ๋ฐ์ง ๋ณด์ (dense reward)
- ํ์ต ์ ํธ๊ฐ ๋ช ํ
์ ์ํ ์ปค๋ฆฌํ๋ผ์ ์ญํ :
์ด๊ธฐ ๋จ๊ณ:
ฮฑ = 0 r_{total} = r_{stability} # ์์ ์ฑ๋ง ์ง์ค
ํ๊ธฐ ๋จ๊ณ:
ฮฑ = 1 r_{total} = r_{rotation} + r_{stability} # ํ์ ๋ ์ค์
์ด๋ automatic curriculum learning์ ์ผ์ข ์ ๋๋ค. ๋ก๋ด์ด ๊ธฐ๋ณธ์ ๋จผ์ ๋ฐฐ์ฐ๊ณ , ์ค๋น๋๋ฉด ์๋์ผ๋ก ๋ค์ ๋จ๊ณ๋ก ๋์ด๊ฐ๋๋ค.
์ฐฝ๋ฐ์ ํ๋: ๋ฏธ๋๋ผ ๊ฐ์ง
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ ๋ช ์์ ์ผ๋ก ๊ฐ๋ฅด์น์ง ์์ ํ๋์ด ๋ํ๋ฌ๋ค๋ ๊ฒ์ ๋๋ค.
์ค๊ณ:
- ๋ฏธ๋๋ผ ๊ฐ์ง ๋ชจ๋ ์์
- ๋ฏธ๋๋ผ์ ๋ํ ๋ช ์์ ๋ณด์ ์์
- ๋จ์ง โํ์ ํ๋ผ, ๋จ์ด๋จ๋ฆฌ์ง ๋ง๋ผโ ๋ง ๋ช ์
๊ฒฐ๊ณผ:
- ์ ์ฑ ์ด ์ค์ค๋ก ๋ฏธ๋๋ผ์ ๊ฐ์ง
- ๋ฏธ๋๋ฌ์ง ๋ ๋ฐ์์ ์ผ๋ก ๋์
- ์์ ์ฑ ์ ์ง
์ ์ด๋ฐ ์ผ์ด?
- ํ๋ถํ ์ ๋ณด: ๊ณ ๋ฐ๋ ์ด๊ฐ์ผ๋ก ๋ฏธ์ธํ ๋ณํ ๊ฐ์ง
- ์๊ฐ์ ํจํด: TCN์ด โ์ ์ vs ๋น์ ์โ ํจํด ํ์ต
- ๋ถ์ ์ ํผ๋๋ฐฑ: ๋จ์ด๋จ๋ฆฌ๋ฉด ํฐ ํ๋ํฐ โ ๊ทธ ์ง์ ์ ํธ ํ์ต
์ด๋ ์๋ฌต์ ํ์ต(implicit learning)์ ๊ฐ๋ ฅํจ์ ๋ณด์ฌ์ค๋๋ค. ๋ชจ๋ ๊ฒ์ ๋ช ์์ ์ผ๋ก ๊ฐ๋ฅด์น ํ์๊ฐ ์์ต๋๋ค!
8. ํ๊ณ์ ๊ณผ ๊ฐ์ ๋ฐฉํฅ
๋ฌผ์ฒด ํ์์ ๊น๋ค๋ก์
์คํ์ ํด๋ณด๋ ์ฌ๋ฏธ์๋ ํจํด์ด ๋ํ๋ฌ์ต๋๋ค. ์ฌ๊ณผ๋ ๊ณต ๊ฐ์ ๋ฅ๊ทผ ๋ฌผ์ฒด๋ ์ ๋ค๋ฃจ๋๋ฐ, ์์๋ ๊ธด ๋ง๋๋ ์ ๋ ์ด๋ ค์ํ๋๋ผ๋ ๊ฒ์ด์ฃ .
์ ๊ทธ๋ด๊น์? ์์๋ฅผ ์๊ฐํด๋ณด์ธ์. ๋ก๋ด์ด ์์์ ๋ชจ์๋ฆฌ๋ฅผ ์ก์์ ๋์ ํํํ ๋ฉด์ ์ก์์ ๋, ์ด๊ฐ ์ผ์๋ก๋ ๋์ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ ๋ค โํํํ ํ๋ฉดโ์ผ๋ก ๋๊ปด์ง๋๊น์. ์ด๋ฐ ๋ชจํธ์ฑ์ด ๋ฌธ์ ์ ๋๋ค.
๊ธด ๋ง๋๊ธฐ๋ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. ๋ง๋๊ธฐ์ ์ด๋ ๋ถ๋ถ์ ์ก์๋์ง, ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ธฐ์ธ์ด์ ธ ์๋์ง๋ฅผ ์ด๊ฐ๋ง์ผ๋ก๋ ์ ํํ ์๊ธฐ ์ด๋ ต์ต๋๋ค. ํนํ ์ ์ด ์์ธ์ ํ์ด๋ผ๋ ์ ํ๋ ์ ๋ณด๋ง์ผ๋ก๋ ๋ง์ด์ฃ .
๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ ๊ฐ์ ํ ์ ์์๊น์?
ํ์ฌ๋ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ฮธ, ฯ, F ๊ฐ์ ์ซ์๋ค๋ก ์์ถํด์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ์๋ณธ ์ด๊ฐ ์ด๋ฏธ์ง์๋ ๋ ํ๋ถํ ์ ๋ณด๊ฐ ๋ด๊ฒจ์์ต๋๋ค. ํ๋ฉด์ ์ง๊ฐ, ์ ์ด ๋ฉด์ ์ ๋ถํฌ ๊ฐ์ ๊ฒ๋ค์ด์ฃ . ์ด๋ฐ ์ ๋ณด๋ฅผ ์ง์ ์ฌ์ฉํ๋ฉด ์์์ ๋ชจ์๋ฆฌ์ ๋ฉด์ ๊ตฌ๋ณํ ์ ์์ ๊ฒ์ ๋๋ค.
๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ์ผ์์ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ค ์๊ฐ๋ฝ์ด ๋๋ผ๋ ์ด๊ฐ ํจํด์ ์ข ํฉํ๋ฉด โ์, ์ด๊ฑด ๊ธด ๋ฌผ์ฒด๊ตฌ๋โ ํน์ โ์ด๊ฑด ์์์ ๋ชจ์๋ฆฌ๋ฅผ ์ก์ ๊ฑฐ๊ตฌ๋โ๋ฅผ ์ถ๋ก ํ ์ ์๊ฒ ์ฃ . ๋ง์น ์ฐ๋ฆฌ๊ฐ ๋์ ๊ฐ๊ณ ๋ ๋ฌผ์ฒด๋ฅผ ๋ง์ ธ์ ํํ๋ฅผ ํ์ ํ๋ ๊ฒ์ฒ๋ผ์.
ํ๋์จ์ด์ ๋ฌผ๋ฆฌ์ ํ๊ณ
Allegro Hand๋ ํ๋ฅญํ ๋ก๋ด ์์ด์ง๋ง, ์ธ๊ฐ์ ์๊ณผ ๋น๊ตํ๋ฉด ์์ง ์ฝํ ๋ถ๋ถ์ด ์์ต๋๋ค. ํนํ ์์ ์์ผ๋ก ๋๋ ธ์ ๋(Thumb Up/Down ๋ฐฉํฅ) ์ฑ๋ฅ์ด ๋จ์ด์ง๋๋ค.
์ด์ ๋ ๊ฐ๋จํฉ๋๋ค. ์๊ฐ๋ฝ์ด ์ํ ๋ฐฉํฅ์ผ ๋๋ ์ค๋ ฅ์ด ์๊ฐ๋ฝ์ ์๋๋ก ๋น๊ธฐ๋ ํ๊ณผ ์ ๋ฉด์ผ๋ก ๋ง์ญ๋๋ค. ์๊ฐ๋ฝ ๋ชจํฐ๊ฐ ๋ฌผ์ฒด์ ๋ฌด๊ฒ๋ฟ ์๋๋ผ ์๊ธฐ ์์ ์ ๋ฌด๊ฒ๊น์ง ๋ฒํ จ์ผ ํ๋ ๊ฑฐ์ฃ . ๋ง์น ํ์ ์์ผ๋ก ์ญ ๋ป๊ณ ๋ฌด๊ฑฐ์ด ๋ฌผ๊ฑด์ ๋ค๊ณ ์์ผ๋ฉด ๊ธ๋ฐฉ ํ์ด ์ํ๋ฏ์ด ๋ง์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ์์ ๋ดค๋ฏ์ด, Palm Up ๋ฐฉํฅ์์๋ ํ๊ท 6.2ํ ํ์ ํ์ง๋ง, Thumb Down์์๋ 1.2ํ๋ฐ์ ๋ชปํ์ฃ . ๊ฑฐ์ 5๋ฐฐ ์ฐจ์ด์ ๋๋ค.
ํด๊ฒฐ์ฑ ์ ๋ฌด์์ผ๊น์?
๊ฐ์ฅ ์ง์ ์ ์ธ ๋ฐฉ๋ฒ์ ๋ ๊ฐ๋ ฅํ ๋ชจํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ๋จ์ํ โ๋ ์ผ ๋ชจํฐโ๋ง์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. ๋ฌด๊ฑฐ์์ง๋ฉด ์คํ๋ ค ์ญํจ๊ณผ๊ฐ ๋ ์ ์์ผ๋๊น์.
๋ ์๋ฆฌํ ์ ๊ทผ์ ์ ์ํ ์ ์ด์ ๋๋ค. ์์ ๋ฐฉํฅ์ ๋ฐ๋ผ ์ ์ด ๊ฒ์ธ์ ์๋์ผ๋ก ์กฐ์ ํ๋ ๊ฑฐ์ฃ . ์๋ฅผ ๋ค์ด, Thumb Down ๋ฐฉํฅ์ผ ๋๋ ๋ชจํฐ์ ๋ ํฐ ํ์ ์ฃผ๊ณ , Palm Up์ผ ๋๋ ์ ๋นํ ์กฐ์ ํ๋ ์์ ๋๋ค. ๋๋ ์ค๋ ฅ ๋ณด์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํด์, ์ค๋ ฅ์ด ๋ฏธ์น๋ ์ํฅ์ ๊ณ์ฐํ๊ณ ๊ทธ๋งํผ์ ๋ฏธ๋ฆฌ ๋ณด์ ํ ์๋ ์์ต๋๋ค.
์ฅ๊ธฐ์ ์ผ๋ก๋ ์ ๋น์ฉ ๊ณ ์ฑ๋ฅ ํ๋์จ์ด ๊ฐ๋ฐ์ด ํ์ํฉ๋๋ค. ๋ก๋ด๊ณตํ์ ์์ํ ์์ ์ฃ .
ํ์ ์ ๋์ด์: ๋ ๋ณต์กํ ์์ ๋ค
์ง๊ธ AnyRotate๊ฐ ์ํ๋ ๊ฑด โํ์ โ์ ๋๋ค. ํ์ง๋ง ์ค์ ์ธ๊ณ์์ ์ฐ๋ฆฌ๊ฐ ํ๋ ์กฐ์์ ํจ์ฌ ๋ค์ํฉ๋๋ค.
์๊ฐํด๋ณด์ธ์. ๋ณ๋๊ป์ ์ด ๋๋ ์ด๋ป๊ฒ ํ๋์? ๋จผ์ ๋ณ์ ์ก๊ณ , ๋๊ป์ ์ก๊ณ , ๋นํ๊ณ , ์๋ก ๋น๊ธฐ์ฃ . ์ฌ๋ฌ ๋จ๊ณ๊ฐ ์์ฐจ์ ์ผ๋ก ์ผ์ด๋ฉ๋๋ค. ๋ ๊ณ ๋ฅผ ์กฐ๋ฆฝํ ๋๋? ๋ธ๋ก A๋ฅผ ์ก๊ณ , ๋ธ๋ก B๋ฅผ ์ฐพ๊ณ , ๋์ ์ ๋ ฌํ๊ณ , ๊พน ๋๋ฌ์ ๋ผ์์ผ ํฉ๋๋ค.
ํ์ฌ ์์คํ ์ ์ด๋ฐ ๋ค๋จ๊ณ ์กฐ์์ ํ ์ ์์ต๋๋ค. ํ์ ์ด๋ผ๋ ํ๋์ ๊ธฐ๋ณธ ๋์(primitive)๋ง ๊ฐ๋ฅํ์ฃ . ๋ ๋ณต์กํ ์์ ์ผ๋ก ํ์ฅํ๋ ค๋ฉด ๊ณ์ธต์ ๊ฐํํ์ต์ด ํ์ํฉ๋๋ค. ์์ ๋ ๋ฒจ์์๋ โ๋๊ป ์ก๊ธฐ โ ๋นํ๊ธฐ โ ๋น๊ธฐ๊ธฐโ ๊ฐ์ ํฐ ๊ณํ์ ์ธ์ฐ๊ณ , ํ์ ๋ ๋ฒจ์์๋ ๊ฐ ๋จ๊ณ๋ฅผ ์คํํ๋ ๋ฐฉ์์ด์ฃ .
๋ ๋ค๋ฅธ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๊ตฌ ์ฌ์ฉ์ ๋๋ค. ๋ง์น๋ก ๋ชป์ ๋ฐ๊ฑฐ๋, ๋๋ผ์ด๋ฒ๋ก ๋์ฌ๋ฅผ ์กฐ์ด๋ ๊ฒ๋ค์ด์. ๋๊ตฌ๋ฅผ ์ฌ์ฉํ๋ฉด ์์ ๋ฅ๋ ฅ์ด ํ์ฅ๋ฉ๋๋ค. ํ์ง๋ง ๋๊ตฌ์ ๋์ ํน์ฑ์ ํ์ตํ๊ณ , ๊ฐ์ ์ ์ธ ์ ์ด์ ๋ค๋ฃจ๋ ๊ฑด ๋ ๋ค๋ฅธ ๋์ ๊ณผ์ ์ ๋๋ค.
์์ ํ์ ๋ ์ค์ํ ํ์ฅ์ ๋๋ค. ์ฐ๋ฆฌ๋ ํฐ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ์์์ ์๋๋ค. ํ ์์ผ๋ก๋ ์ก๊ณ , ๋ค๋ฅธ ์์ผ๋ก๋ ์กฐ์ํ์ฃ . ๋ก๋ด๋ ๋ ์์ ์กฐ์จํด์ ์ฌ์ฉํ ์ ์๋ค๋ฉด ํจ์ฌ ๋ ์ ์ฉํ ๊ฒ์ ๋๋ค.
๋ณํ๋๋ ๋ฌผ์ฒด๋ค
์ง๊ธ๊น์ง์ ๋ชจ๋ ์คํ์ โ๊ฐ์ฒด(rigid body)โ, ์ฆ ๋ณํ๋์ง ์๋ ๋จ๋จํ ๋ฌผ์ฒด๋ค๋ก ํ์ต๋๋ค. ํ์ง๋ง ์ค์ ์ธ๊ณ๋ ๊ทธ๋ ์ง ์์ต๋๋ค.
์ฒ์ ์ ์ด๋ณธ ์ ์๋์? ์ฒ์ ์ก๋ ์์น์ ๋ฐ๋ผ ๋ชจ์์ด ๊ณ์ ๋ฐ๋๋๋ค. ์ข ์ด๋ ๋ง์ฐฌ๊ฐ์ง์ฃ . ๊ณ ๋ฌด๊ณต์ ๋๋ฅด๋ฉด ์ฐ๊ทธ๋ฌ์ง๋๋ค. ๋ฐ์ฃฝ์ ์๊ฐ๋ฝ ์ฌ์ด๋ก ๋น ์ ธ๋๊ฐ๋๋ค.
์ด๋ฐ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด(deformable objects)๋ฅผ ๋ค๋ฃจ๋ ๊ฑด ํจ์ฌ ์ด๋ ต์ต๋๋ค. ์๋ํ๋ฉด:
์๋ฎฌ๋ ์ด์ ์ด ์ด๋ ต์ต๋๋ค. ํ์ฌ ์ฌ์ฉํ๋ ๊ฐ์ฒด ๋ฌผ๋ฆฌ ์์ง์ผ๋ก๋ ์ฒ์ด๋ ๋ฐ์ฃฝ์ ์์ง์์ ์ ํํ ๋ชจ์ฌํ ์ ์์ต๋๋ค. ์ํํธ ๋ฐ๋ ์๋ฎฌ๋ ์ด์ ์ด ํ์ํ๋ฐ, ์ด๊ฑด ๊ณ์ฐ ๋น์ฉ์ด ํจ์ฌ ๋์ต๋๋ค.
์ํ ์ถ์ ์ด ๋ณต์กํฉ๋๋ค. ๊ฐ์ฒด๋ ์์น์ ์์ธ๋ง ์๋ฉด ๋ฉ๋๋ค. ํ์ง๋ง ์ฒ์? ์๋ฐฑ ๊ฐ์ ์ ์ ์์น๋ฅผ ๋ค ์ถ์ ํด์ผ ํฉ๋๋ค.
์ ์ด ์ญํ์ด ๋ค๋ฆ ๋๋ค. ๋ง์ฐฐ, ๋ฏธ๋๋ผ, ๋ณํ์ด ๋ชจ๋ ๋ณตํฉ์ ์ผ๋ก ์ผ์ด๋ฉ๋๋ค.
๊ทธ๋๋ ํฅ๋ฏธ๋ก์ด ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋๋ค. ์ท์ ๊ฐ๊ฑฐ๋, ์์์ ๋ค๋ฃจ๊ฑฐ๋, ํฌ์ฅ์ ๋ฏ๋ ๋ฑ ๋ง์ ์ค์ฉ์ ์์ ์ด ๋ณํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋๊น์.
์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค์ ๊ฐ๊ทน
์ฐ๊ตฌํ์ด ์ ๋ง ๋ง์ ๋ ธ๋ ฅ์ ๊ธฐ์ธ์์ง๋ง, ์ฌ์ ํ ์๋ฎฌ๋ ์ด์ ๊ณผ ํ์ค ์ฌ์ด์๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค.
์ ์ด ๋ฌผ๋ฆฌ์ ๋ณต์ก์ฑ์ด ๋ํ์ ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ โ๋ง์ฐฐ ๊ณ์ = 0.8โ์ฒ๋ผ ๊น๋ํ ์ซ์๋ฅผ ์๋๋ค. ํ์ง๋ง ์ค์ ์ธ๊ณ์ ๋ง์ฐฐ์ ํจ์ฌ ๋ณต์กํฉ๋๋ค. ๋ฏธ๋๋ผ ์๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ณ , ํ๋ฉด ์ํ์ ์ํฅ๋ฐ๊ณ , ์ฌ์ง์ด ์ต๋๋ ์จ๋์๋ ๋ฏผ๊ฐํฉ๋๋ค. ํ๋ผ์คํฑ ๋ณ๊ณผ ๊ธ์ ์ค๋ฆฐ๋์ ๋ง์ฐฐ์ ์์ ํ ๋ค๋ฅด์ฃ .
์ผ์ ๋ ธ์ด์ฆ๋ ๋ฌธ์ ์ ๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ โ๊ฐ์ฐ์์ ๋ ธ์ด์ฆ ์ถ๊ฐโ๋ก ๊ฐ๋จํ ์ฒ๋ฆฌํฉ๋๋ค. ํ์ง๋ง ์ค์ ์ผ์์ ๋ ธ์ด์ฆ๋ ๊ตฌ์กฐํ๋์ด ์์ต๋๋ค. ์กฐ๋ช ์ด ๋ฐ๋๋ฉด ์ด๊ฐ ์ด๋ฏธ์ง๊ฐ ๋ฌ๋ผ์ง๊ณ , ์๊ฐ์ด ์ง๋๋ฉด ์ผ์๊ฐ ๋๋ฆฌํํธํฉ๋๋ค. ์จ๋๊ฐ ์ฌ๋ผ๊ฐ๋ฉด ์ผ์ ๊ฐ์ด ๋ฌ๋ผ์ง๊ธฐ๋ ํฉ๋๋ค.
์๊ฐ ์ง์ฐ๋ ๋ฌด์ํ ์ ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์๋ ๋ชจ๋ ๊ฒ ์ฆ๊ฐ์ ์ ๋๋ค. ํ์ง๋ง ์ค์ ๋ก๋ ์ผ์์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ๋ ๋ฐ ๋ช ๋ฐ๋ฆฌ์ด, ๋คํธ์ํฌ๋ก ์ ์กํ๋ ๋ฐ ๋ช ๋ฐ๋ฆฌ์ด, ์ฒ๋ฆฌํ๋ ๋ฐ ๋ ๋ช ๋ฐ๋ฆฌ์ด๊ฐ ๊ฑธ๋ฆฝ๋๋ค. 20Hz ์ ์ด์์ 10ms ์ง์ฐ์ ํฐ ๋ฌธ์ ์ ๋๋ค.
์ด๋ป๊ฒ ๊ฐ์ ํ ์ ์์๊น์?
๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ ์ค์ ๋ฐ์ดํฐ๋ก ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ณ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋๋ค. ์ค์ ๋ก๋ด์์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ , ๊ทธ ๋ฐ์ดํฐ๊ฐ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ด๋ป๊ฒ ๋ค๋ฅธ์ง ๋ถ์ํ๊ณ , ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์กฐ์ ํ๋ ๊ฑฐ์ฃ . ์ด๋ฐ ๋์งํธ ํธ์(Digital Twin) ์ ๊ทผ์ ์ ์ ๋ ์ค์ํด์ง๊ณ ์์ต๋๋ค.
๋ ๋ค๋ฅธ ๋ฐฉํฅ์ ์จ๋ผ์ธ ์ ์์ ๋๋ค. ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ ํ์๋ ๊ณ์ ํ์ตํ๋ ๊ฑฐ์ฃ . ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ๋ง๋๋ฉด ๋น ๋ฅด๊ฒ ์ ์ํ๋ ๋ฉํ ํ์ต(Meta-learning) ๊ธฐ๋ฒ๋ ์ ๋งํฉ๋๋ค.
ํ์ต ๋น์ฉ์ ํ์ค
์์งํ ๋งํ๋ฉด, AnyRotate๋ฅผ ์ฌํํ๋ ค๋ฉด ๊ฝค ์ข์ ์ปดํจํฐ๊ฐ ํ์ํฉ๋๋ค.
8,192๊ฐ์ ๋ณ๋ ฌ ํ๊ฒฝ์ ๋๋ฆฌ๋ ค๋ฉด ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์์ ๋๋ค. IsaacGym ๊ฐ์ GPU ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฐ๋ฉด ๊ฐ๋ฅํ์ง๋ง, ๋ชจ๋ ์ฐ๊ตฌ์ค์ด ์ด๋ฐ ์์์ ๊ฐ์ถ ๊ฑด ์๋์ฃ . ํ์ต์๋ ์์ผ์ด ๊ฑธ๋ฆฝ๋๋ค.
์ด๊ฑด ๊ฐํํ์ต์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ์ ๋๋ค. ๋๋ฌด ๋ง์ ๊ฒฝํ์ด ํ์ํด์. ์ธ๊ฐ์ ๋ฌผ๊ฑด ๋ช ๋ฒ ๋ง์ ธ๋ณด๋ฉด ๊ฐ์ ์ก๋๋ฐ, ๋ก๋ด์ ์๋ฐฑ๋ง ๋ฒ์ ์๋๊ฐ ํ์ํฉ๋๋ค.
๋ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ์์๊น์?
์ฌ๋ฌ ๋์์ด ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค:
- ์ํ ํจ์จ์ ์๊ณ ๋ฆฌ์ฆ: SAC, TD3 ๊ฐ์ off-policy ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์๋๋ค. PPO๋ on-policy๋ผ์ ๊ฒฝํ์ ํ ๋ฒ๋ง ์ฐ๊ณ ๋ฒ๋ฆฌ์ง๋ง, off-policy๋ ์ฌ๋ฌ ๋ฒ ์ฌ์ฌ์ฉํ ์ ์์ฃ .
- ๋ชจ๋ธ ๊ธฐ๋ฐ ๊ฐํํ์ต: ์ธ๊ณ๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ชจ๋ธ์ ํ์ตํ๋ฉด, ๋จธ๋ฆฟ์(๋ชจ๋ธ ์)์์ ์ฐ์ตํ ์ ์์ต๋๋ค. ์ค์ ๋ก ํด๋ณด์ง ์๊ณ ๋ โ์ด๋ ๊ฒ ํ๋ฉด ์ด๋ ๊ฒ ๋ ๊ฒ ๊ฐ์๋ฐ?โ๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๋ ๊ฑฐ์ฃ .
- ์คํ๋ผ์ธ ๊ฐํํ์ต: ์ด๋ฏธ ์์ง๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํฉ๋๋ค. ์๋ก์ด ์๋๋ฅผ ํ์ง ์๊ณ ๋ ๊ณผ๊ฑฐ ๊ฒฝํ์์ ๋ฐฐ์ฐ๋ ๊ฑฐ์ฃ . ๋ง์น ์ ํ๋ธ ์์ ๋ณด๊ณ ๋ฐฐ์ฐ๋ ๊ฒ์ฒ๋ผ์.
- ์ธ๊ฐ ์์ฐ ํ์ฉ: ์ฌ๋์ด ๋จผ์ ๋ช ๋ฒ ์์ฐํ๊ณ , ๊ฑฐ๊ธฐ์๋ถํฐ ํ์ต์ ์์ํฉ๋๋ค. ์์ ํ ๋ฌด์์ ์์ํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋น ๋ฆ ๋๋ค.
ํ์ง๋ง ์์ง ์๋ฒฝํ ํด๋ฒ์ ์์ต๋๋ค. ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ๊ฐ ํจ๊ป ํ์ด์ผ ํ ์์ ์ ๋๋ค.
ํ๊ฐ์ ์ด๋ ค์
โ์ผ๋ง๋ ์ํ๋๊ฐ?โ๋ฅผ ์ธก์ ํ๋ ๊ฒ๋ ์๊ฐ๋ณด๋ค ์ด๋ ต์ต๋๋ค.
ํ์ฌ๋ ๋ ๊ฐ์ง ๋ฉํธ๋ฆญ์ ์๋๋ค:
- ํ์ ์: 30์ด ๋์ ๋ช ๋ฒ ํ์ ํ๋?
- TTT (Time to Terminate): ๋จ์ด๋จ๋ฆฌ๊ธฐ ์ ๊น์ง ์ผ๋ง๋ ๋ฒํ ผ๋?
๋ช ํํ๊ธด ํ๋ฐ, ๋ญ๊ฐ ๋ถ์กฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด:
- 5๋ฒ ํ์ ํ๋๋ฐ ์์ฒญ ๊ฑฐ์น ๊ฒ ๋๋ ธ๋ค๋ฉด?
- 30์ด ๋ฒํ ผ๋๋ฐ ๋ฌผ์ฒด๊ฐ ์์ฒํฌ์ฑ์ด๊ฐ ๋๋ค๋ฉด?
- ๋๋ฆฌ์ง๋ง ๋ถ๋๋ฝ๊ฒ ๋๋ฆฐ ๊ฒ๊ณผ ๋น ๋ฅด์ง๋ง ์ํํ๊ฒ ๋๋ฆฐ ๊ฒ, ๋ญ๊ฐ ๋ ์ข์๊ฐ?
๋ ์ข์ ํ๊ฐ ๋ฐฉ๋ฒ์?
์ฌ๋ฌ ๊ฐ์ง๋ฅผ ์ถ๊ฐ๋ก ์ธก์ ํ ์ ์์ต๋๋ค:
- ์๋์ง ํจ์จ์ฑ: ๊ฐ์ ์์ ์ ๋ ์ ์ ์๋์ง๋ก ํ๋ ๊ฒ ์ข๊ฒ ์ฃ . ๋ก๋ด์ด ๊ณผ๋ํ๊ฒ ํ์ ์ฐ๋ฉด ๋ฐฐํฐ๋ฆฌ๋ ๋นจ๋ฆฌ ๋ณ๊ณ ๋ชจํฐ๋ ๋นจ๋ฆฌ ๋ณ์ต๋๋ค.
- ํ์ง ์์ ์ฑ: ๋ฌผ์ฒด์ ์๊ฐ๋ฝ ์ฌ์ด์ ์ ์ด๋ ฅ์ด ์ผ๋ง๋ ์ผ์ ํ๊ฒ ์ ์ง๋๋๊ฐ? ๋ค์ญ๋ ์ญํ๋ฉด ๋ถ์์ ํ ๊ฑฐ๊ณ , ๋ถ๋๋ฝ๊ฒ ์ ์ง๋๋ฉด ์ข์ ๊ฑฐ์ฃ .
- ๋ฌผ์ฒด ์์: ํ๋ฉด์ ์คํฌ๋์น๋ ์ฐ๊ทธ๋ฌ์ง์ด ์๋์? ํนํ ์ฌ์ธํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃฐ ๋ ์ค์ํฉ๋๋ค.
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ์ฒ์ ๋ณด๋ ๋ฌผ์ฒด์ ์ผ๋ง๋ ์ ์ ์ํ๋? ์ด๊ฑด ์ ๋ํํ๊ธฐ ์ ๋ง ์ด๋ ต์ต๋๋ค.
ํ์ง๋ง ์ด๋ฐ ๊ฒ๋ค์ ์๋์ผ๋ก ์ธก์ ํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๋ชจ์ ์บก์ฒ ์์คํ ์ผ๋ก ๋ฌผ์ฒด ์์น๋ฅผ ์ ๋ฐํ๊ฒ ์ถ์ ํ๊ณ , ํ-ํ ํฌ ์ผ์๋ก ์ ์ด๋ ฅ์ ์ธก์ ํ๊ณ , ๊ณ ํด์๋ ์นด๋ฉ๋ผ๋ก ํ๋ฉด ์ํ๋ฅผ ํ์ธํด์ผ ํฉ๋๋ค. ์ฅ๋น๊ฐ ๋ง์ด ํ์ํ์ฃ .
์ด์์ ์ผ๋ก๋ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ๊ฐ ํฉ์ํ ํ์ค ๋ฒค์น๋งํฌ๊ฐ ์์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค. ์ปดํจํฐ ๋น์ ์ ImageNet์ด ์๊ณ , ์์ฐ์ด ์ฒ๋ฆฌ์ GLUE๊ฐ ์๋ฏ์ด, ๋ก๋ด ์กฐ์์๋ ๊ทธ๋ฐ ๊ฒ ํ์ํฉ๋๋ค. ๊ทธ๋์ผ ์๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์์ผ๋๊น์.
๊ฒฐ๊ตญ ์ด ํ๊ณ๋ค์โฆ
์ด๋ฐ ํ๊ณ์ ๋ค์ ๋์ดํ๋ ๋ญ๊ฐ AnyRotate๊ฐ ๋ถ์กฑํด ๋ณด์ผ ์๋ ์์ต๋๋ค. ํ์ง๋ง ์ ํ ๊ทธ๋ ์ง ์์ต๋๋ค.
์คํ๋ ค ์ด๋ฐ ํ๊ณ๋ค์ ์ฐ๊ตฌ๊ฐ ์ผ๋ง๋ ์ ์งํ์ง๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ฐ๊ตฌํ์ด ์์ ๋ค์ ์์คํ ์ ๋์ ํ๊ฒ ํ๊ฐํ๊ณ , ๋ค์ ๋จ๊ณ๋ฅผ ๋ช ํํ ์ ์ํ ๊ฒ์ด์ฃ . โ์ฐ๋ฆฌ๊ฐ ์ด๋งํผ ํ๊ณ , ์ฌ๊ธฐ์ ์ด๋ฐ ๋ฌธ์ ๊ฐ ๋จ์์ด์โ๋ผ๊ณ ์์งํ๊ฒ ๋งํ๋ ๊ฒ์ ๊ณผํ์ ์ ์ง์ฑ์ ํ์์ ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ํ๊ณ๋ค์ด ๋ฐ๋ก ๋ค์ ์ธ๋ ์ฐ๊ตฌ์๋ค์ ์ํ ๋ก๋๋งต์ ๋๋ค. โ์ฌ๊ธฐ๊น์ง ์์ผ๋, ์ด์ ์ ๊ธฐ๋ก ๊ฐ๋ณด์โ๋ผ๋ ์ด์ ํ์ธ ์ ์ด์ฃ . ๋๊ตฐ๊ฐ๋ ๋ณํ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ๋ฒ์ ์ฐ๊ตฌํ ๊ฒ์ด๊ณ , ๋๊ตฐ๊ฐ๋ ๋ ํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ ๊ฒ์ด๊ณ , ๋๊ตฐ๊ฐ๋ ์ ๋น์ฉ ํ๋์จ์ด๋ฅผ ์ค๊ณํ ๊ฒ์ ๋๋ค.
๊ณผํ์ ์ด๋ ๊ฒ ๋ฐ์ ํฉ๋๋ค. ์๋ฒฝํ ์์คํ ์ ํ ๋ฒ์ ๋ง๋๋ ๊ฒ ์๋๋ผ, ํ ๊ฑธ์์ฉ ๋์๊ฐ๋ฉด์ ์ ์ ๋์์ง๋ ๊ฒ์ ๋๋ค. AnyRotate๋ ๊ทธ ์ฌ์ ์์ ์ค์ํ ํ ๊ฑธ์์ด๊ณ , ๋ค์ ์ฐ๊ตฌ์๋ค์ ์ฌ๊ธฐ์ ์์ํด์ ๋ ๋ฉ๋ฆฌ ๊ฐ ๊ฒ์ ๋๋ค.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
AnyRotate ๋ ผ๋ฌธ ๊ฐ์ ๋ฐ ์์คํ ๊ตฌ์กฐ
AnyRotate๋ ์ธ๊ฐ ์์ค์ ๋ค์ถ ์ค๋ ฅ ๋ฌด๊ด(invariant) ์ธ-ํธ๋ ๊ฐ์ฒด ํ์ ์ ์ํด ๊ณ ํด์๋ ์ด๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ก๋ด ์์คํ ์ด๋ค. 4-์ง๊ฐ(Allegro) ๋ก๋ด ํธ๋์ ๊ฐ ์๊ฐ๋ฝ ๋์ ๋ถ์ฐฉ๋ ์์ฒด๋ชจ๋ฐฉํ ๊ดํ ์ด๊ฐ ์ผ์(TacTip ๊ธฐ๋ฐ DigiTac)๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ฐํํ์ต(RL)์ ํตํด ์ด๋ค ์ถ(axis)์ ๋ํด์๋ ์์์ ๋ฐฉํฅ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ํ์ ์ํฌ ์ ์๋ ๋จ์ผ ์ ์ฑ (policy)์ ํ์ตํ๋ค. ์ด ์์คํ ์ ํต์ฌ์ ์๋ฎฌ๋ ์ด์ ์์ ์ฐ์์ ์ ์ด ํผ์ฒ ํํ(continuous contact feature representation) ์ ํ์ตํ๊ณ , ์ค์ ํ๊ฒฝ์ ์ด๊ฐ ์์์ผ๋ก๋ถํฐ ์ด๋ฅผ ์์ธกํ์ฌ ์ ๋ก์ท(sim-to-real) ์ ์ฑ ์ด์ ์ ๋ฌ์ฑํ๋ ๊ฒ์ด๋ค. ํนํ, ์ด๊ฐ ์ผ์์ ์ฐ์์ ์ ์ด ํฌ์ฆ(contact pose)์ ์ ์ด๋ ฅ(contact force) ์ ๋ณด๋ฅผ ์ ์ฑ ์ ์ ๋ ฅํจ์ผ๋ก์จ, ๊ธฐ์กด์ ์ด์ง(binary) ๋๋ ์ด์ฐ(discrete) ์ด๊ฐ ํํ๋ณด๋ค ํ๋ถํ ์ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์์ ๋ณด์๋ค.
์ด๊ฐ ์ผ์ ๋ฐ ํธ๋ ๊ตฌ์กฐ: Allegro 4-์ง๊ฐ ํธ๋(16์์ ๋)์ TacTip ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์๋ฅผ ๋ถ์ฐฉํ๊ณ , UR5 ๋ก๋ด์์ ์ฅ์ฐฉํ์ฌ ๋ค์ํ ์ ๋ฐฉํฅ(palm up/down, thumb up/down ๋ฑ)์์ ๊ฐ์ฒด๋ฅผ ํ์ ์ํจ๋ค (๊ทธ๋ฆผ 1, 2 ์ฐธ์กฐ). ์ด๊ฐ ์ผ์๋ ์ปค๋ธ๋ ํ๋ฉด์ ๊ฐ์ง๋ฉฐ ๋ฐ์ฐฉ๋ฉด ์ ์ฒด์ ์ ์ด ์ ๋ณด๋ฅผ ๊ณ ํด์๋ ์์์ผ๋ก ์ ๊ณตํ๋ค.
๋ชฉํ ๋ฐ ์ ์ฝ: AnyRotate๋ ์์์ ํ์ ์ถ, ์์์ ์ ๋ฐฉํฅ์์ ์ฐ์์ ์ด๊ณ ์์ ์ ์ธ ๊ฐ์ฒด ํ์ ์ ์ํํ๋๋ก ํ์ต๋๋ค. ์ด๋ฅผ ์ํด ๋ชฉํ ์งํฅ(goal-conditioned) ๊ฐํํ์ต ๋ฌธ์ ๋ก ์ ์ํ๊ณ , ๋ณด์กฐ ์๋ธ๊ณจ(auxiliary goal)๊ณผ ์ ์ง์ ์ปค๋ฆฌํ๋ผ(adaptive curriculum) ๋ฑ์ ํตํด ํจ์จ์ ์ธ ํ์ต์ ์ค๊ณํ๋ค. ๊ต์ฌ-ํ์(Teacher-Student) ๊ตฌ์กฐ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ์ฌ์ฉํ ๊ต์ฌ ์ ์ฑ ์ ํ์ตํ๊ณ , ํ์ ์ ์ฑ ์ด ์ด๊ฐ-๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ์ด๋ฅผ ๋ชจ๋ฐฉํ๋๋ก ํ๋ค.
๋ณธ ๋ถ์์์๋ ์ด๊ฐ ์ผ์ ๋ฐ์ดํฐ์ ํํ(Representation), ์ธ์ฝ๋ฉ(Encoding), ์ ์ด ์ ์ฑ ํตํฉ ๋ฐฉ๋ฒ์ ์ค์ฌ์ผ๋ก, ์ด๊ฐ ํผ๋๋ฐฑ์ ์๋ฎฌ๋ ์ด์ ๊ตฌํ๊ณผ ์๋ฎฌ-์ค์ ์ ์ด ๊ณผ์ , ๊ทธ๋ฆฌ๊ณ ์ด๊ฐ ๊ฐ์ง ๋ชจ๋ธ๋ง์ ํ์ ์ ๋ฐ ๊ณผ์ ๋ฅผ ์์ธํ ์ดํด๋ณธ๋ค.
์ด๊ฐ ์ผ์ ๋ฐ์ดํฐ์ ํํ๊ณผ ์ ์ฑ ์์์ ํ์ฉ
์ด๊ฐ ์ผ์๊ฐ ์์ฑํ๋ ๊ณ ํด์๋ ์์(tactile image) ์ ์์์ ์ผ๋ก ๋งค์ฐ ๊ณ ์ฐจ์์ด๋ฏ๋ก, ์ด๋ฅผ ์ ์ด ์ ์ฑ ์ด ํ์ฉ ๊ฐ๋ฅํ ํํ๋ก ๋ณํํด์ผ ํ๋ค. AnyRotate์์๋ ์ด๊ฐ ์์์ ์ ์ด ํฌ์ฆ์ ์ ์ด๋ ฅ์ด๋ผ๋ ์ ์ฐจ์ ์ฐ์์ ํผ์ฒ๋ก ์ธ์ฝ๋ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ด ํฌ์ฆ(contact pose) ๋ ์๊ฐ๋ฝ ๋์ (fingertip) ๊ธฐ์ค์ ๊ตฌํ ์ขํ๊ณ์์ ๊ทน๊ฐ(polar angle) ฮธ์ ๋ฐฉ์๊ฐ(azimuthal angle) ฯ๋ก ๋ํ๋ธ๋ค. ์ ์ด๋ ฅ(contact force) ์ ์ ์ด์ ์์ ๋ฐ์ํ๋ ํ ๋ฒกํฐ์ ํฌ๊ธฐ(๋ฑ๊ธํฌ๊ธฐ, magnitude)์ด๋ค. ์ถ๊ฐ๋ก, ์ด์ง ์ ์ด ์ ํธ(binary contact) ๋ ์ค์ ๋ก ์ผ์๊ฐ ๋ฌผ์ฒด์ ์ ์ด ์ค์์ ๋ํ๋ด๋ 0/1 ๊ฐ์ผ๋ก, ๊น์ด(z์ถ) ๋ณ์๋ ํ์ ํฌ๊ธฐ๊ฐ ์ผ์ ์๊ณ๊ฐ ์ด์์ด๋ฉด ์ฐธ(1)์ผ๋ก ์ค์ ํ๋ค. ๋ชจ๋ ์๊ฐ๋ฝ์ ๋ํ์ฌ ์ด๋ค ๊ฐ์ด ๊ณ์ฐ๋์ด ์ ์ฑ ๊ด์ธก(observation) ๋ฒกํฐ์ ํฌํจ๋๋ค.
์ ์ด ์ ์ฑ ์ ๊ด์ธก ๊ณต๊ฐ(observation space) ์ ๋ค์๊ณผ ๊ฐ์ ์ ๋ณด๋ค๋ก ๊ตฌ์ฑ๋๋ค: ํ์ฌ ๋ฐ ๋ชฉํ ๊ด์ ๊ฐ, ์ด์ ํ๋, ๊ฐ ์๊ฐ๋ฝ ๋์ ์์น์ ์์ธ, ๊ทธ๋ฆฌ๊ณ ์ด๊ฐ ๊ด๋ จ ๋ณ์๋ก์ ๊ฐ ์๊ฐ๋ฝ์ ์ด์ง ์ ์ด ์ฌ๋ถ, ์ ์ด ํฌ์ฆ(ฮธ, ฯ), ์ ์ด๋ ฅ ํฌ๊ธฐ์ด๋ค. ์ค์ ํ๊ฒฝ์์ ์๊ฐ๋ฝ ๋ ์์น/์์ธ๋ ์ญ๊ธฐ๊ตฌํ์ผ๋ก ๊ณ์ฐํ๋ฉฐ, ์ด๊ฐ ์์์ฒ๋ฆฌ ๊ฒฐ๊ณผ๋ฅผ ํตํด ์ ์ด ํฌ์ฆ์ ์ ์ด๋ ฅ์ ์ถ์ถํ๋ค. ์๋ฅผ ๋ค์ด, ์๋ฎฌ๋ ์ด์ ์์๋ ๊ฐ ์๊ฐ๋ฝ ๋์ ๋ก์ปฌ ์ ์ด ์์น ๋ฒกํฐ๋ก๋ถํฐ ฮธ, ฯ๋ฅผ ๊ณ์ฐํ๊ณ , ์ ์ด๋ ฅ์ ์ ํฉ(net force)์ |\mathbf{F}|๋ก ์ทจํด ์ด๋ฅผ ๊ด์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค. ์ด์ฒ๋ผ ์ฐ์์ ์ด๊ณ ํ๋ถํ ์ด๊ฐ ๋ณ์๋ค์ ์ ์ฑ ์ด ๋ฌผ์ฒด์ ๋ฏธ์ธ ์์ง์๊ณผ ์ ์ด ์ํ๋ฅผ ์ ๋ฐํ๊ฒ ํ์ ํ๋๋ก ๋๋๋ค.
์ด๋ ๊ฒ ์ถ์ถ๋ ์ด๊ฐ ํผ์ฒ๋ ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค. ๊ต์ฌ ์ ์ฑ ์ ์ด๋ค ๊ฐ์ ํฌํจํ ๊ด์ธก ๋ฒกํฐ๋ฅผ ๋ฐ์ ์ฐ์ ๋์(๊ด์ ์๋ ์์น๋ช ๋ น)์ ์ถ๋ ฅํ๋ฉฐ, ์ค์ ์ ์ฑ (ํ์)์ ์ด๊ฐ ํ์คํ ๋ฆฌ์ ๊ณ ์ ๊ฐ๊ฐ(proprioception) ํ์คํ ๋ฆฌ๋ฅผ ๊ฒฐํฉํ ์ ์ฌ๋ฒกํฐ๋ฅผ ํตํด ํ๋์ ์ ํํ๋ค. ํ์ ์ ์ฑ ์์๋ TCN(์ํํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ์ถ์ผ๋ก ์ฐ์๋ ์ด๊ฐ ๊ด์ธก ์ํ์ค๋ฅผ ์ธ์ฝ๋ฉํ๋ค. ์ฆ, ๊ณผ๊ฑฐ 30์คํ ์ ๊ฑธ์น ์ด๊ฐ ํผ์ฒ์ ๊ด์ ๊ฐ ํ์คํ ๋ฆฌ๋ฅผ TCN์ ํต๊ณผ์์ผ ์ ์ฌ๋ฒกํฐ(z)๋ก ๋ง๋ค๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฑ (์กํฐ)์ด ๋์์ ์ถ๋ ฅํ๋ค. ์ ์ฑ ํ์ต ๊ณผ์ ์์๋ ๊ต์ฌ ์ ์ฑ ์ด ์์ฑํ ์ ์ฌ๋ฒกํฐ์ ํ์์ ์ ์ฌ๋ฒกํฐ ๊ฐ MSE(ํ๊ท ์ ๊ณฑ์ค์ฐจ) ๋ฐ ํ๋ ์ถ๋ ฅ ๊ฐ NLL(๋ถ์ ๋ก๊ทธ์ฐ๋) ์์ค์ ์ต์ํํ์ฌ ํ์์ ์ง๋ํ์ต ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ค.
AnyRotate์ ์ด๊ฐ ์์ธก ํ์ดํ๋ผ์ธ. (a) ๊ฐ ์๊ฐ๋ฝ ๋์ ์ด๊ฐ ์์์ ์ ์ฒ๋ฆฌ(๊ทธ๋ ์ด์ค์ผ์ผ ๋ณํ, ๋ฆฌ์ฌ์ด์ฆ ๋ฑ)๋ฅผ ๊ฑฐ์น๋ค. (b) ๊ฐ ์ด๊ฐ ์์์ ํ์ต๋ ๊ด์ฐฐ ๋ชจ๋ธ(observation model, CNN)์ ํต๊ณผํ์ฌ ์ ์ด ํฌ์ฆ(ฮธ, ฯ)์ ์ ์ด๋ ฅ |F|์ ์์ธกํ๋ค. (c) ์์ธก๋ ์ ์ด ํฌ์ฆ(๊ทน๊ฐ ฮธ, ๋ฐฉ์๊ฐ ฯ)๋ ๊ตฌ๋ฉด์ขํ๊ณ์์ ํ์๋๋ฉฐ, ์ ์ด๋ ฅ์ ์์์ ๋ฉด์ ์ผ๋ก ์๊ฐํ๋๋ค. ์ด์ ๊ฐ์ด ์ถ์ถ๋ ์ด๊ฐ ํผ์ฒ๊ฐ ๊ฐํํ์ต ์ ์ฑ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค.
์ ๊ทธ๋ฆผ์์ ๋ณด๋ฏ์ด, ์ด๊ฐ ์์์ ๋จผ์ ํ๋ฆผ/๋ ธ์ด์ฆ ์ ๊ฑฐ ๋ฑ์ ์ ์ฒ๋ฆฌ๋ฅผ ๊ฑฐ์น ๋ค CNN ๊ด์ฐฐ ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ค. CNN์ ํ์ต์ ํตํด ๊ฐ ์๊ฐ๋ฝ ์ ์ด์ ๊ทน๊ฐ(ฮธ), ๋ฐฉ์๊ฐ(ฯ) ๊ทธ๋ฆฌ๊ณ ์ด ์ ์ด๋ ฅ ํฌ๊ธฐ |\mathbf{F}|์ ์์ธกํ๋ค. ์ ์ด ํฌ์ฆ (\theta,\phi)์ ์ ์ด๋ ฅ ํฌ๊ธฐ๋ ์ ์ฑ ์ ์ฐ์ ๋ณ์๋ก ์ ๊ณต๋๋ฉฐ, ์๊ฐ๋ฝ๋ณ๋ก (์ด์ง ์ ์ด, ฮธ, ฯ, |\mathbf{F}|) ๊ฐ์ด ๋งค ํ์์คํ ์ ๊ด์ธก(state)์ ํฌํจ๋๋ค. ์ด๋ฌํ ์ฐ์์ ์ด๊ฐ ํํ์ 2D ์ด๋ฏธ์ง๋ฅผ ๋จ์ํ ์ ์ด ์์/์์์ผ๋ก ์ด์งํํ ๊ธฐ์กด ๋ฐฉ์์ ๋นํด ํจ์ฌ ํ๋ถํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค. ์ค์ ๋ก ์คํ ๊ฒฐ๊ณผ ์ฐ์ ์ ์ด ํฌ์ฆ์ ํ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์ฑ ์ ์ด์ฐํ(discrete) ์ด๊ฐ ํํ๋ณด๋ค ๋ฌผ์ฒด ํ์ ์ฑ๋ฅ์ด ํ์ ํ ์ฐ์ํ์๋ค.
์ด๊ฐ ํผ๋๋ฐฑ์ ์๋ฎฌ๋ ์ด์ ๊ตฌํ๊ณผ ๋๋ฉ์ธ ์ ์
AnyRotate์์๋ ์ด๊ฐ ์ผ์๋ฅผ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ฐ์์ผ๋ก ๊ตฌํํ์ฌ ๊ต์ฌ ์ ์ฑ ์ ํ์ต์ํจ๋ค. IsaacGym ๋ฌผ๋ฆฌ์์ง์ ์ฌ์ฉํ์ฌ ์ถฉ๋์ ์ฒ๋ฆฌํ๋ฉฐ, ๊ฐ ์๊ฐ๋ฝ ๋์์ ๋ฐ์ํ ์ค์ ์ ์ด ์ ๋ณด๋ฅผ ์ด์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๋ฎฌ๋ ์ด์ ๋จ๊ณ์์ ์๊ฐ๋ฝ ๋์ ๋ก์ปฌ ์ ์ด ์์น p_{\rm local}๋ฅผ ์ถ์ถํ์ฌ ์ด๋ฅผ ๊ทน์ขํ (\theta,\phi)๋ก ๋ณํํ๋ค. ๋ํ, ์ ์ด์ผ๋ก ์ธํ ํ ๋ฒกํฐ๋ฅผ ๊ณ์ฐํ์ฌ ๊ทธ ํฌ๊ธฐ |\mathbf{F}|๋ฅผ ๊ตฌํ๊ณ , ์ด๋ฅผ ์ ์ด๋ ฅ ๊ด์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค. ์ด ๋ ์ค์ธ๊ณ ์ผ์์ ํน์ฑ์ ๋ชจ์ฌํ๊ธฐ ์ํด ๋ช ๊ฐ์ง ์ฒ๋ฆฌ๋ฅผ ์ถ๊ฐํ๋ค. ๋จผ์ ๋ถ๋๋ฌ์ด(tactile) ์ผ์๊ฐ ๊ฐ์ง ํ์ฑ ๋ณํ ๋๋ ์ด๋ฅผ ๋ชจ์ฌํ๊ธฐ ์ํด ํ ๊ฐ์ ์ง์ํํ(exponential moving average)์ ์ ์ฉํ๊ณ , ์๋ฎฌ๋ ์ดํฐ์์์ ํ/ํฌ์ฆ ๊ฐ์ ์ค์ ์ผ์์ ์ธก์ ๋ฒ์์ ๋ง์ถฐ ํฌํ(saturation) ๋ฐ ์ฌ์ค์ผ์ผ๋งํ๋ค. ์๋ฅผ ๋ค์ด, ํ ํฌ๊ธฐ์ ์ต๋๊ฐ์ ์ ํํ๊ณ ๋ฒ์๋ฅผ ์ฌ์กฐ์ ํ์ฌ ๊ฐ์ ์ผ์๊ฐ ์ค์ ์ ์ ์ฌํ ๋ฒ์ ๋ด์์ ๋์ํ๋๋ก ํ๋ค. ํฌ์ฆ ๊ฐ๋๋ ๋ฌผ๋ฆฌ์ ์ผ์๊ฐ ํ์ฉํ๋ ์ต๋ ๊ฐ๋๋ก ์ ํํ๋ค. ์ด๋ฌํ ์กฐ์ ์ ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ์ผ์ ๊ฐ์ ๋ฐ์ดํฐ ๋ถํฌ ์ฐจ์ด๋ฅผ ์ค์ด๊ธฐ ์ํ ์ผ์ข ์ ๋๋ฉ์ธ ์ ์(domain adaptation) ๊ธฐ๋ฒ์ด๋ค.
๋ํ, ์ค์ ์ด๊ฐ ์ผ์์์๋ ์ ์ด์ด ๋ฐ์ํ์ง ์๋ ์ํ์์๋ ๋ฏธ์ฝํ ๋ ธ์ด์ฆ๊ฐ ๋ฐ์ํ ์ ์๋๋ฐ, ์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์๋ฎฌ๋ ์ด์ ์์๋ ์ด์ง ์ ์ด ์ ํธ๋ฅผ ๋ง๋ค ๋ ์ผ์ ์๊ณ๊ฐ(\theta_F)์ ์ฌ์ฉํ๋ค. ์ฆ, ํ ํฌ๊ธฐ๊ฐ ์์ ๊ฒฝ์ฐ์๋ ์ ์ด ์์์ผ๋ก ๊ฐ์ฃผํ์ฌ ์ ์ด ํฌ์ฆ์ ํ์ 0์ผ๋ก ๋ง์คํนํ๋ค. ์ด๋ฌํ ์ ์ฐจ๋ก ์๋ฎฌ๋ ์ด์ ๋ ์ด๊ฐ ๊ด์ธก๊ฐ(ฮธ, ฯ, |\mathbf{F}|, ์ ์ด ์ ๋ฌด)์ด RL ๊ด์ธก ๊ณต๊ฐ์ ๊ณต๊ธ๋๋ฉฐ, ๊ต์ฌ ์ ์ฑ ์ ์ด๋ฅผ ํฌํจํ ์์ ๊ด์ธก ์ํ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ๋ฐ ๋ก๋ด ์ ์ด ์ฃผํ์๋ ๊ฐ๊ฐ 60Hz, 20Hz๋ก ์ค์ ์์คํ ๊ณผ ๋์ผํ๊ฒ ์ค์ ๋์๋ค. ์ด์ฒ๋ผ ์ธ์ฌํ๊ฒ ์กฐ์ ๋ ์๋ฎฌ๋ ์ด์ ์ด๊ฐ์ ์ค์ ์ผ์์์ ์ฌ๋ ์ฐจ์ด(depth), ์์ด(shear) ๋ฒ์๋ฅผ ๋ฐ์ํ๋๋ก ์ค๊ณ๋์๋ค.
๋๋ฉ์ธ ๋๋คํ(domain randomization)์ ๊ด์ ์์ ์ดํด๋ณด๋ฉด, AnyRotate๋ ์ ํต์ ์ธ ์ด๋ฏธ์ง ๋ ธ์ด์ฆ/ํ ์ค์ฒ ๋๋คํ ๋์ , ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ ํฌํ ๋ฐ ์ค์ผ์ผ ๋งคํ์ผ๋ก ์๋ฎฌ๋ ์ด์ -์ค์ ๊ฒฉ์ฐจ๋ฅผ ์ค์ธ๋ค. ์๋ฅผ ๋ค์ด, ์ค์ TacTip ์ผ์๋ ๊น์ด ๋ฐฉํฅ ๋ณ์๊ฐ ์ mm ๋ฒ์ ๋ด์์๋ง ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ฏ๋ก, ์๋ฎฌ๋ ์ด์ ์์๋ ์ ์ด ๊น์ด๋ ์ฝ ~ mm ๋ฒ์๋ก ์ ํํ๋ค. ์ด์ฒ๋ผ ์คํ์ ์ผ๋ก ์ ํด์ง ๋ฒ์ ๋ด์์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ๊ด์ฐฐ ๋ชจ๋ธ์ ํ์ตํจ์ผ๋ก์จ ์๋ฎฌ-์ค์ ๊ฐ์ ํน์ฑ ๋ถ์ผ์น๋ฅผ ์ต์ํํ๋ค.
Observation Model์ ํตํ ์๋ฎฌ-์ค์ ์ ์ด
์ค์ ๋ก๋ด ํ๊ฒฝ์์๋ ์๋ฎฌ๋ ์ด์ ์์์ฒ๋ผ ์ ์ด ์์น๋ ํ์ ์ง์ ๊ณ์ฐํ ์ ์์ผ๋ฏ๋ก, ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๊ด์ฐฐ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ค์ ์ด๊ฐ ์์์ ์ด๊ฐ ํผ์ฒ๋ก ๋ณํํ๋ค. ์ด๋ฅผ ์ํด AnyRotate๋ CNN ๊ธฐ๋ฐ ๊ด์ฐฐ์ ๋ชจ๋ธ(Observation Model)์ ํ์ตํ๋ค. ํ์ต ๋ฐ์ดํฐ๋ 6-์์ ๋ UR5 ๋ก๋ด์์ ํ์ฌ๋ TacTip ์ผ์์ ํ/ํ ํฌ(F/T) ์ผ์๋ฅผ ์ฌ์ฉํ์ฌ ์์ง๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ผ์๋ฅผ ํํํ ์๊ทน ํ๋ฉด์ ๋ฌด์์ ๋ฐฉํฅยท์์น๋ก ์ ์ด(tap)์์ผ ์ป์ ์ด๊ฐ ์ด๋ฏธ์ง์ F/T ์ผ์์ ํ ์ ๋ณด๋ฅผ ํจ๊ป ์ ์ฅํ๋ค. ๊ฐ ๋ฐ์ดํฐ ์ํ์ ๋ก๋ด์ x,y,z ์์น์ ์ ์ด๋ ฅ (F_x,F_y,F_z)์ ํฌํจํ๋ฉฐ, ์ด ์ค ์ ์ด ํฌ์ฆ(ฮธ, ฯ)๋ ๋ก๋ด ์์ ์์น๋ก๋ถํฐ, ์ ์ด๋ ฅ ํฌ๊ธฐ๋ F/T ์ผ์ ๊ฐ์ ํฌ๊ธฐ๋ก ์ ๋ต ๋ ์ด๋ธ(label)๋ก ์ฌ์ฉํ๋ค. ๋ฐ์ดํฐ ์์ง ์ ์ผ์ ์์ธ(pose)๋ ์คํ์ ์ผ๋ก ๋ค์ ๋ฒ์ ๋ด์์ ๋๋ค ์ํ๋ง๋๋ค: ๊น์ด \Delta z\in[-4,-1]mm, x,y๋ฐฉํฅ \pm2mm, ํ์ \pm28^\circ ๋ฒ์. ์ผ์๋น ์ฝ 3000๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ์ CNN์ ํ์ตํ๋ค.
ํ์ต๋ ๊ด์ฐฐ ๋ชจ๋ธ์ ์ ๋ ฅ์ผ๋ก ์์ ์ด๊ฐ ์์(๊ทธ๋ ์ด์ค์ผ์ผ, 240ร135 ํฝ์ )์ ๋ฐ์ 6์ฐจ์ ์ถ๋ ฅ์ ์์ธกํ๋ค. ์ด 6์ฐจ์์ ์ ์ด ๊น์ด d_z, ์ ์ด ํฌ์ฆ \theta,\phi, ๊ทธ๋ฆฌ๊ณ ํ ๋ฒกํฐ ์ฑ๋ถ F_x,F_y,F_z์ด๋ค. ์ดํ ์ด ์ค์์ ์ค์ ๊ฐํํ์ต ๊ด์ธก๊ฐ์ผ๋ก๋ (\theta,\phi,|\mathbf{F}|) ์ธ ๊ฐ๋ง ์ฌ์ฉ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์์ธกํ (F_x,F_y,F_z)๋ก๋ถํฐ ํฌ๊ธฐ |\mathbf{F}|=\sqrt{F_x^2+F_y^2+F_z^2}์ ๊ณ์ฐํ์ฌ ์ ์ด๋ ฅ์ ์ป๊ณ , ์ ์ด ์ฌ๋ถ๋ SSIM(๊ตฌ์กฐ์ ์ ์ฌ์ฑ ์งํ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฒฐ์ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํ์ฌ ์ ๋ ฅ ์์๊ณผ ์ผ์๊ฐ ์ ์ดํ์ง ์์ ๊ธฐ์ค ์์์ ๋น๊ตํ์ฌ SSIM ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ด ๊ฐ์ด 0.6 ์ด์์ด๋ฉด ์ ์ด์ผ๋ก ๊ฐ์ฃผํ์ฌ ์์์ ์์ธกํ (\theta,\phi,|\mathbf{F}|)๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ์ ์ดํ์ง ์์ ๊ฒ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ชจ๋ ์ด๊ฐ ํผ์ฒ๋ฅผ 0์ผ๋ก ๋ง์คํนํ๋ค. ์ด ๊ณผ์ ์์ SSIM ์๊ณ๊ฐ์ ๊ฒฝํ์ ์ผ๋ก 0.6์ผ๋ก ์ค์ ํ์๊ณ , ๊ทธ๋ ์ด์ค์ผ์ผ ์์์ ๋ธ๋ฌ์ ์ด๋ํฐ๋ธ ์๊ณ์ฒ๋ฆฌ(adaptive threshold) ๋ฑ ์ ์ฒ๋ฆฌ ํํฐ๋ฅผ ์ ์ฉํ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์ค์ธ๋ค.
ํ์ต๋ CNN ๊ด์ฐฐ ๋ชจ๋ธ์ ์ ๋ก์ท(sim-to-real) ์ ์ฑ ์ด์ ์ ํต์ฌ ์ญํ ์ ํ๋ค. ์ฆ, ์๋ฎฌ๋ ์ด์ ์์ ํ์ต๋ ๊ต์ฌ-ํ์ ์ ์ฑ ์ ์๋ฎฌ๋ ์ด์ ์์ ์ด๊ฐ ํผ์ฒ๋ฅผ ์ด์ฉํ์ง๋ง, ์ค์ ๋ฐฐ์น ์์๋ ์ผ์๊ฐ ์ ๊ณตํ๋ ์ค์๊ฐ ์์์์ ๊ด์ฐฐ ๋ชจ๋ธ์ด ์ถ์ถํ ์ด๊ฐ ํผ์ฒ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ์ด ๋ ๊ด์ฐฐ ๋ชจ๋ธ์ ์ด์ ์ ์์งํ ๋ฐ์ดํฐ๋ก ์ถฉ๋ถํ ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ ์ฑ ์ ํ์ต ์์ ์ ์ฌํ ํํ์ ์ด๊ฐ ์ ๋ ฅ์ ๋ฐ๊ฒ ๋์ด ์ถ๊ฐ์ ์ธ ์ฌํ์ต ์์ด(์ ๋ก์ท) ๋ฐ๋ก ์คํ๊ฒฝ์ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
๊ต์ฌ-ํ์ ์ ์ฑ ํ์ต ํ์ดํ๋ผ์ธ
AnyRotate์ ํ์ต์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค. ์ฒซ์งธ, ๊ต์ฌ ์ ์ฑ (Teacher Policy)์ ์๋ฎฌ๋ ์ด์ ์์ ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ์ฌ์ฉํ์ฌ PPO ๊ฐ์ RL ๊ธฐ๋ฒ์ผ๋ก ํ์ตํ๋ค. ๊ต์ฌ ์ ์ฑ ์ ์ ๋ ฅ ๊ด์ธก์๋ ์์ ์ธ๊ธํ ์ด๊ฐ ํผ์ฒ ์ธ์๋ ๊ฐ์ฒด์ ์ ํํ ์์นยท์์ธ, ๊ฐ๋ ์๋, ๊ฐ์ฒด ํฌ๊ธฐ, ์ค๋ ฅ ์์ฉ๋ ฅ ๋ฑ ์๋ฎฌ๋ ์ด์ ์์๋ง ์ป์ ์ ์๋ ์ ๋ณด๊ฐ ํฌํจ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ๊ต์ฌ ์ ์ฑ ์ ๋ชฉํ ์ถ์ ๋ํด ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ํ์ ์ํค๋ ์ ์ฑ ์ ๋ง๋ค์ด๋ธ๋ค.
๋์งธ, ํ์ ์ ์ฑ (Student Policy)์ ์ค์ ์ํฉ์์์ ์คํ์ ์ํด ํ์ต๋๋ค. ํ์์ ๊ต์ฌ๋ฅผ ๋ชจ๋ฐฉํ๊ธฐ ์ํด ์ง๋ํ์ต(policy distillation)์ ์ฌ์ฉํ๋ค. ํ์ ์ ์ฑ ์ ์ค๋ก์ง ๊ณ ์ ๊ฐ๊ฐ(๊ด์ ๊ฐ ๋ฑ)๊ณผ ์์ ์ถ์ถ๋ ์ด๊ฐ ํ์คํ ๋ฆฌ๋ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ๊ต์ฌ ์ ์ฑ ์ ๋งค ์์ ๋ง๋ค ๋ด๋ถ ์ ์ฌ๋ฒกํฐ(z)๋ฅผ ์์ฑํ๋๋ฐ, ํ์ ์ ์ฑ ์ TCN ์ธ์ฝ๋๋ก ์ ๋ ฅ ์ฐ์ ๊ด์ธก์ ์ ์ฌ๋ฒกํฐ๋ก ์์ถํ๊ณ , ์ด ์ ์ฌ๋ฒกํฐ๊ฐ ๊ต์ฌ์ ๊ฒ๊ณผ ์ ์ฌํด์ง๋๋ก ํ์ต๋๋ค. ๋ํ ํ์ ์ ์ฑ ์ ์ถ๋ ฅ ํ๋์ด ๊ต์ฌ ์ ์ฑ ์ ํ๋๊ณผ ๊ฐ๊น์์ง๋๋ก NLL ์์ค์ ์ถ๊ฐ๋ก ์ต์ ํํ๋ค. ์ด๋ ์ ์ฒด ์์ค์ ์ ์ฌ๋ฒกํฐ MSE์ ํ๋ NLL์ ํฉ์ด๋ฉฐ, ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค: \mathcal{L} = \alpha |z_{\rm teacher} - z_{\rm student}|^2 + \beta\,\bigl(-\log p_{\rm student}(a_{\rm teacher}|s)\bigr), ์ฌ๊ธฐ์ z_{\rm teacher}๋ ๊ต์ฌ์ ์ ์ฌ๋ฒกํฐ, z_{\rm student}๋ ํ์์ ์ธ์ฝ๋ ์ถ๋ ฅ, p_{\rm student}(a_{\rm teacher}|s)๋ ํ์ ์ ์ฑ ์ด ๊ต์ฌ ํ๋ a_{\rm teacher}๋ฅผ ์ทจํ ํ๋ฅ ์ด๋ค. ์ด ๊ณผ์ ์์ ํ์ต๋ ๊ด์ฐฐ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์ ํ์ ํ์ต ๋จ๊ณ์์๋ ์ค์ ์ด๊ฐ ํผ์ฒ๋ฅผ ๋ชจ์ฌํ์ฌ ์ฌ์ฉํ ์ ์๋ค.
AnyRotate์ ํ์ต ๋ฐ ์ ์ฉ ํ์ดํ๋ผ์ธ ๊ฐ์. (์ผ์ชฝ) ๋ชฉํ ํ์ ์ถ์ ๋ํ ๋ฌผ์ฒด ์์ธ ์ฌ์ค์ (auxiliary goal) ๋ฐฉ์์ RL ๋ฌธ์ ์ค์ . (์ค๋ฅธ์ชฝ) ๊ต์ฌ-ํ์ ์ ์ฑ (distillation) ๊ตฌ์กฐ. ๊ต์ฌ ์ ์ฑ (Teacher)์ ์๋ฎฌ๋ ์ด์ ์ ํน๊ถ ์ ๋ณด์ ์ด๊ฐ ๊ด์ธก์ ์ ๋ ฅ์ผ๋ก RL ํ์ต์ ์ํํ๊ณ , ํ์ ์ ์ฑ (Student)์ ์ด๊ฐยท๊ณ ์ ๊ฐ๊ฐ ๊ด์ธก ํ์คํ ๋ฆฌ๋ฅผ ์ ๋ ฅ์ผ๋ก ๊ต์ฌ๋ฅผ ๋ชจ๋ฐฉํ๋ค. ์ค์ธ๊ณ ์ด์ ์์๋ CNN ๊ด์ฐฐ ๋ชจ๋ธ์ด ์ค์ ์ด๊ฐ ์์์์ ์ ์ด ํผ์ฒ๋ฅผ ์ถ์ถํ์ฌ ํ์ ์ ์ฑ ์ ๊ณต๊ธํ๋ค.
๊ทธ๋ฆผ์์ ๋ณด๋ฏ, AnyRotate๋ ๊ต์ฌ-ํ์ ์ ์ฑ ๊ตฌ์กฐ์ ๋ณด์กฐ ๋ชฉํ(auxiliary goal), ์ ์ํ ์ปค๋ฆฌํ๋ผ์ ๊ฒฐํฉํ์ฌ ํ์ต์ ์งํํ๋ค. ๊ต์ฌ ์ ์ฑ ์ ๊ฐ์ฒด ์์ธ๋ฅผ ๋ชฉํ๋ก ์ค์ ํ๊ณ , ๊ฐ์ฒด์ 6D ํคํฌ์ธํธ(keypoint) ๊ฑฐ๋ฆฌ ๋ณด์ ๋ฑ์ ํฌํจํ ๋ชฉํ ์งํฅ ๋ณด์ํจ์๋ก ํ๋ จ๋๋ค. ํ์ ์ ์ฑ ์ ์ด๋ ๊ฒ ํ์ต๋ ๊ต์ฌ์ ์์ ์ ์ธ ์์ง์์ ์ค์ ์ผ์ ๋ฐ์ดํฐ๋ก ์ฌํํ ์ ์๋๋ก, TCN ์ธ์ฝ๋ฉ๊ณผ ํ๋ ๋ชจ๋ฐฉ์ ํตํด ํ์ต๋๋ค. ์ด ๊ณผ์ ์ ํตํด AnyRotate๋ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ถ๊ฐ ๋ฐ์ดํฐ ์์ง์ด๋ ์ฌํ์ต ์์ด ์คํ๊ฒฝ์ ์ ๋ฌํ ์ ์๊ฒ ๋๋ค.
์ด๊ฐ ๊ฐ์ง ๋ชจ๋ธ๋ง์ ํ์ ์ฑ๊ณผ ๋์ ๊ณผ์
AnyRotate๊ฐ ์ ์ํ๋ ์ฃผ์ํ ํ์ ์ฑ ์ค ํ๋๋ ๊ณ ํด์๋ ์ด๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ ์๋ฎฌ-์ค์ RL ์ ์ฑ ์ ๊ตฌํํ๋ค๋ ์ ์ด๋ค. ๊ธฐ์กด์ ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ์์๋ ์ข ์ข ์ ์ด ์์์ ๋จ์ํ ์ด์ง ์ ํธ๋ ์ด์ฐ ๊ณต๊ฐ์ผ๋ก ์ถ์ํ์ฌ ์ฌ์ฉํด ์๋ค. ๋ฐ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ์ด๊ฐ ์์์ ์ฐ์์ ์ด๊ณ ๊ธฐํํ์ ์ธ ํผ์ฒ(ฮธ, ฯ, |F|)๋ก ํํํจ์ผ๋ก์จ, ํจ์ฌ ๋ ํ๋ถํ ์ ์ด ์ ๋ณด๋ฅผ ์ ์ฑ ํ์ต์ ํ์ฉํ์๋ค. ์ด๋ฅผ ํตํด ๋ฏธ์ง์ ๋ฌผ์ฒด๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์์๋ ์ ์ฐํ๊ฒ ์ผ๋ฐํํ ์ ์๋ ๋จ์ผ ์ ์ฑ ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ค์ ๋ค์ํ ๋ฌผ์ฒด๋ก์ ์ ์ด ์คํ์์ ๋ณต์์ ์ด๊ฐ ์ผ์๋ง์ผ๋ก๋ ์ฑ๊ณต์ ์ผ๋ก ํ์ ์์ ์ ์ํํ์๋ค. ๋ํ, ๋ณต์ ์ด๊ฐ ์ ๋ณด๋ฅผ ํตํด ๋ฌผ์ฒด์ ๋ฏธ๋๋ฌ์ง(slippage)์ด๋ ์ก๊ธฐ ์คํจ๋ฅผ ์๋ฌต์ ์ผ๋ก ํ์งํ์ฌ ๋ฐ์ํ๋ ํ๋์ ๊ตฌํํ ์ ์์๋ค๋ ์ ๋ ์ฃผ๋ชฉํ ๋งํ๋ค. ์ฐ๊ตฌ์ง์ ๋ช ์์ ๋ฏธ๋๋ผ ๊ฒ์ถ๊ธฐ ์์ด๋ โํ๋ถํ ๋ค์ง๊ฐ ์ด๊ฐ ์ผ์๊ฐ ๊ฐ์ฒด ์์ง์์ ๊ฐ์งํ๊ณ ์ ์ฑ ์ ๊ฐ์ธ์ฑ(robustness)์ ํฅ์์ํค๋ ๋ฐ์ ํ๋์ ์ ๋ฐโํ๋ค๋ ์ฌ์ค์ ๋ณด๊ณ ํ์๋ค.
๊ทธ๋ฌ๋ ์ด๊ฐ ์ผ์ ๋ชจ๋ธ๋ง์๋ ์ฌ๋ฌ ๋์ ๊ณผ์ ๊ฐ ์กด์ฌํ๋ค. ์ฐ์ , ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ์ ํ๊ณ๋ค. TacTip๊ณผ ๊ฐ์ ๊ดํ ์ด๊ฐ ์ผ์๋ ์ ์ฐํ ๊ฒ ํ๋ฉด์ ๋ณํ์ ์์์ผ๋ก ํฌ์ฐฉํ๋ฏ๋ก, ์์ ํ ์ ํํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์ ์ด๋ ค์ฐ๋ฉฐ ๋งค์ฐ ๊ณ์ฐ ์ง์ฝ์ ์ผ ์ ์๋ค. AnyRotate์์๋ ๋จ์ํ ์ถฉ๋ ์ง์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ด ์์น์ ํ์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก ๊ทผ์ฌํ์ง๋ง, ์ค์ ์ผ์์ ๋ฏธ์ธํ ์๋ ฅ ๋ถํฌ๋ ์ผ์ ๋ด๋ถ ๋ ์ฆ ์๊ณก ๋ฑ์ ๋ฐ์ํ์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ์๋ฎฌ-์ค์ ๊ฐ์ ๋ฐ์ดํฐ ๋ถํฌ ์ฐจ์ด๊ฐ ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ๋ณด์ ํ๊ธฐ ์ํด ์คํ์ ์ผ๋ก ๊ฐ์ ํฌํ, ์์ ๋ณ๊ฒฝ ๋ฑ์ ๋๋ฉ์ธ ์ ์ ๊ธฐ๋ฒ์ ํ์ฉํ์๋ค.
๋ํ, ์ด๊ฐ ์์ ์์ฒด๊ฐ ๋งค์ฐ ๋์ ์ฐจ์์ ๊ฐ์ง๋ฏ๋ก ์ด๋ฅผ ์ ์ฉํ ํผ์ฒ๋ก ์์ถํ๋ ์ ๊ฒฝ๋ง ์ค๊ณ๋ ์ค์ํ ๋ฌธ์ ๋ค. AnyRotate๋ ๊ฐ ์๊ฐ๋ฝ๋ง๋ค ๊ฐ๋ณ CNN์ ํ์ตํ์ฌ ์ ์ด ํผ์ฒ๋ฅผ ์ถ์ถํ์ง๋ง, ์ด ๊ณผ์ ์์ ๊ณผ์ ํฉ(overfitting) ๋ฐฉ์ง์ ์ ๋ฐ๋(accuracy) ํ๋ณด๋ฅผ ์ํด ๋ง์ ๋ฐ์ดํฐ์ ์ ์ ํ ๋คํธ์ํฌ ๊ท๋ชจ๋ฅผ ํ์๋ก ํ๋ค. ๋ฟ๋ง ์๋๋ผ, ๋ก๋ด ์กฐ์ ์ค์๋ ์ผ์ ์ด๋ฏธ์ง์ ๋์ ๋ ธ์ด์ฆ(์๋จ๋ฆผ, ๊ด์ ๋ณํ ๋ฑ)๊ฐ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์, ๊ด์ฐฐ ๋ชจ๋ธ์ ๋ค์ํ ํ๊ฒฝ ๋ณํ์ ๊ฒฌ๊ณ ํด์ผ ํ๋ค. ์ด ์ฐ๊ตฌ์์๋ SSIM ๊ธฐ๋ฐ์ ์ ์ด ์ ๋ฌด ๊ฒ์ถ๊ณผ ์์ ์ ์ฒ๋ฆฌ๋ก ๋ ธ์ด์ฆ๋ฅผ ๊ฐ์์์ผฐ์ง๋ง, ์์ ํ ์ผ๋ฐํ๋ฅผ ์ํด์๋ ์ถ๊ฐ์ ์ธ ๋๋ฉ์ธ ๋๋คํ(์: ์กฐ๋ช ์๊น ๋ณํ, ๋ ธ์ด์ฆ ์ถ๊ฐ ๋ฑ)๊ฐ ํ์ํ ์ ์๋ค.
๋์ผ๋ก, AnyRotate๋ ๋จ์ผ ์ ์ฑ ์ผ๋ก ๋ชจ๋ ํ์ ์ถ์ ์ผ๋ฐํํ๋ค๋ ์ ์์ ๊ธฐ์ ์ ์ผ๋ก๋ ๊ณผ์ ๋ค. ์๋ก ๋ค๋ฅธ ์ถ ํ์ ์ ์ค๋ ฅ์ ์ํฅ๊ณผ ์ ์ด ๊ธฐ๊ตฌํ์ด ๋ฌ๋ผ์ง๋ฏ๋ก, ์ ์ฑ ์ด ์ถฉ๋ถํ ๋ชจ๋ ์ํฉ์ ์ปค๋ฒํ๋๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ค์ํํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ ์ํผ์๋๋ง๋ค ๋ชฉํ ํ์ ์ถ๊ณผ ์ ๋ฐฉํฅ์ ๋ฌด์์๋ก ์ค์ ํ๊ณ , ์ ์ํ ๋ณด์ ์ปค๋ฆฌํ๋ผ์ ํตํด ํ์ต ์ด๊ธฐ์๋ ์ฌ์ด ๊ณผ์ ๋ถํฐ ์์ํ๋ค. ์ด๋ฌํ ์ ๊ทผ์ ์๋ฎฌ๋ ์ด์ ์์๋ ํจ๊ณผ์ ์ด์์ผ๋, ์ค์ธ๊ณ์์๋ ๋์ ๋๋ ์ถ๊ฐ ๊ตฌํ ์์ด๋ ์ ์ด ๊ฐ๋ฅํด์ผ ํ๋ค. AnyRotate๋ ๊ด์ฐฐ ๋ชจ๋ธ์ ํตํ ์ ๋ก์ท ์ ์ด๋ก ์ด๋ฅผ ๋ฌ์ฑํ์ผ๋, ์์ง๋ โ์๋ฎฌ๋ ์ด์ ์์ ๋ณธ ๊ฒ๊ณผ ์์ ํ ๋ค๋ฅธ ํํ์ ์ ์ดโ์๋ ๋ฏผ๊ฐํ ์ ์๋ค. ์๋ฅผ ๋ค์ด ์ดํ์ ์ธ ์ฌ์ง์ด๋ ์ค๊ณฝ์ ๊ฐ์ง ๋ฌผ์ฒด์์๋ ๊ด์ฐฐ ๋ชจ๋ธ์ด ์์ธก ์ค์ฐจ๋ฅผ ๋ผ ์ ์์ด ์ ์ฑ ์ฑ๋ฅ์ ์ํฅ์ด ์์ ์ ์๋ค. ๋ฐ๋ผ์ ๊ณ ํด์๋ ์ด๊ฐ ์ ํธ๋ฅผ ์๋ฎฌ๋ ์ด์ ์ ์ ๋ฐํ ๋ฐ์ํ๋ ๊ฒ์ ์ง์์ ์ธ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
์ด์ฒ๋ผ AnyRotate๋ ๊ณ ํด์๋ ์ด๊ฐ ์ ๋ณด์ ์๋ฎฌ-์ค์ ํตํฉ์ด๋ผ๋ ์ธก๋ฉด์์ ์ค์ํ ์ง์ ์ ์ด๋ค๋ค. ์ฐ์์ ์ธ ์ด๊ฐ ํผ์ฒ ํํ๊ณผ ๊ด์ฐฐ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์ ๋ก์ท ์ด์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ์ ์ ์ด๊ฐ ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค. ๋์์, ์๋ฎฌ๋ ์ด์ ์์์ ์ผ์ ๊ทผ์ฌํ ๋ฐ ์๋ฎฌ-์ค์ ์ฐจ์ด ๊ทน๋ณต์ด๋ผ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์์ผ๋ฉฐ, ๋ค๊ฐ์ค๋ ์ฐ๊ตฌ์์๋ ๋์ฑ ์ ๊ตํ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง๊ณผ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ๋ฒ์ด ์๊ตฌ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.