flowchart TD
subgraph THUMB["์์ง (2 DoF)"]
T_CMC["CMC ๊ด์ <br/>(Abduction/Adduction)"]
T_MCP["MCP ๊ด์ <br/>(Flexion/Extension)"]
T_CMC --> T_MCP
end
subgraph INDEX["๊ฒ์ง (2 DoF)"]
I_MCP["MCP ๊ด์ <br/>(Coupled F/E)"]
I_PIP["PIP+DIP ๊ด์ <br/>(Coupled)"]
I_MCP --> I_PIP
end
subgraph MIDDLE["์ค์ง (2 DoF)"]
M_MCP["MCP ๊ด์ <br/>(Coupled F/E)"]
M_PIP["PIP+DIP ๊ด์ <br/>(Coupled)"]
M_MCP --> M_PIP
end
subgraph WRIST["์๋ชฉ (1 DoF)"]
W["์๋ชฉ ํ์ <br/>(Pronation/Supination)"]
end
WRIST --> THUMB
WRIST --> INDEX
WRIST --> MIDDLE
๐EyeSight Hand ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- Paper Link (IROS 2024 (RoboCup Best Paper Finalist))
- Project
- โจ ๋ณธ ๋ ผ๋ฌธ์ Vision-based tactile sensor์ Compliant actuation์ด ํตํฉ๋ 7-DoF Humanoid Hand์ธ EyeSight Hand๋ฅผ ์๊ฐํ๋ฉฐ, ์ธ๊ฐ๊ณผ ์ ์ฌํ ๊ฐ๋, ์๋, ๊ทธ๋ฆฌ๊ณ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ์ํ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- ๐ค EyeSight Hand๋ ์๋ก์ด GelSim(ple) ์ด๊ฐ ์ผ์ ๋์์ธ๊ณผ Quasi-direct drive Actuation Scheme์ ํ์ฉํ์ฌ Bottle opening, Plasticine cutting, Plate pick and place์ ๊ฐ์ ๋ณต์กํ ์์ ์์ Whole-hand manipulation์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๐ ๋ชจ๋ฐฉ ํ์ต ๋ชจ๋ธ์ ํตํ ์คํ ๊ฒฐ๊ณผ๋ Vision dropout strategy์ ๊ฒฐํฉ๋ Tactile sensing์ด ๋ค์ํ Contact-rich ์์ ์์ Robot์ task success rate๋ฅผ ํฌ๊ฒ ํฅ์์ํด์ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๋ณธ ๋ ผ๋ฌธ์ ํตํฉ๋ vision-based tactile sensor์ compliant actuation์ ํน์ง์ผ๋ก ํ๋ 7 ์์ ๋(DoF) humanoid ๋ก๋ด ์์ธ โEyeSight Handโ๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ๋ก๋ด ์์ ๊ฐํ๋ whole-hand manipulation์ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, human-like strength์ ์๋๋ฅผ ๋ฌ์ฑํ๋ฉด์ large-scale data collection์ ์ํ ๊ฒฌ๊ณ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด quasi-direct drive actuation ๋ฐฉ์์ ์ฑํํฉ๋๋ค.
I. ๊ธฐ๊ณ ์ค๊ณ (Mechanical Design)
EyeSight Hand๋ ์ธ๊ฐ ์์ ํด๋ถํ์ ๊ตฌ์กฐ์ ์ด๋ํ์ ์ต๋ํ ๋ชจ๋ฐฉํ์ฌ ์ง๊ด์ ์ธ teleoperation๊ณผ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ์ ์ฉ์ดํ๊ฒ ํฉ๋๋ค.
- ์ด๋ํ (Kinematics): ์ธ๊ฐ ์์ ์ด๋ํ์ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด์ง๋ง, index/middle finger์ metacarpophalangeal (MCP) joints์ distal interphalangeal (DIP) joints, ๊ทธ๋ฆฌ๊ณ thumb์ MCP joint์์๋ ๋จ์ํ๋ฅผ ํตํด ๋ค๋ฅธ ๊ธฐ๋ฅ๋ค์ ํตํฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, DIP joint์ index/middle finger์ MCP joint์ lateral axis๋ ์๋ต๋์์ผ๋ฉฐ, thumb์ MCP joint๋ ์๋ต๋์์ต๋๋ค.
- ๊ตฌ๋ (Actuation): Compliance๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์ ํ์ actuator๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. worm drive (30:1 N20 Micro DC Motor with 20:1 worm gear reduction)๋ ๋์ ๊ฐ์๋น์ self-locking ํน์ฑ์ผ๋ก PIP joint (index/middle finger) ๋๋ IP joint (thumb)๋ฅผ ๊ตฌ๋ํฉ๋๋ค. BLDC motor (TMotor GL40 KV210 KV210 with 5.23:1 planetary reduction)๋ MCP joint (index/middle finger) ๋๋ TM joint (thumb)์ ๊ตด๊ณก ์ถ์ ๊ตฌ๋ํฉ๋๋ค. ์ด actuator๋ค์ ์ง์ ์ ์ผ๋ก ๋๋ four-bar linkage๋ฅผ ํตํด joint๋ฅผ ๊ตฌ๋ํ์ฌ tendon-driven ๋ฐฉ์๋ณด๋ค ํจ์ฌ ๊ฒฌ๊ณ ํฉ๋๋ค. ๋ฎ์ BLDC motor ๊ฐ์๋น๋ transmission ๋ง์ฐฐ๊ณผ reflected inertia๋ฅผ ์ค์ฌ ์ธ๋ถ ํ์ ๋ํ ์ ํญ์ ๊ฐ์์ํค๊ณ ํ์ ์ํ์ ์ค์ ๋๋ค. ์ด ๊ตฌ๋ ๋ฐฉ์์ ์ถ์ ์น๋ก 19N์ ์ฐ์์ ์ธ fingertip force์ ์ต๋ 57N์ fingertip force, ๊ทธ๋ฆฌ๊ณ 420 RPM์ ์ต๋ ์๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ง์์ ์ธ ์ฌ์ฉ์๋ ๊ณผ์ด๋๊ธฐ ์ด๋ ต์ต๋๋ค.
- ์ ์ ์ฅ์น (Electronics): BLDC actuator๋ MJBOTS Moteus N1 Brushless Controller์ ์ํด ์ ์ด๋๋ฉฐ, AMS AS5047P 14-bit magnetic encoder๋ฅผ ํตํด rotor ์์น๋ฅผ ์ ๊ณตํฉ๋๋ค. ํต์ ์ 5MBPS CAN-FD๋ฅผ ํตํด 1kHz๋ก ์ด๋ฃจ์ด์ง๋๋ค. Micro DC motor๋ TI DRV8876์ ์ํด ์ ์ด๋๋ฉฐ, Teensy 4.1์ ํตํด serial ํต์ ์ ํฉ๋๋ค.
II. ์ด๊ฐ ์ผ์ ์ค๊ณ (Tactile Sensor Design)
EyeSight Hand๋ 7๊ฐ์ tactile surface๋ฅผ ๊ฐ์ง๋ฉฐ, ๊ฐ finger segment์ palm์ 8๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์คํธ๋ฆฌ๋ฐํ๋ GelSim(ple)์ด๋ผ๋ ์๋ก์ด vision-based tactile sensor๋ฅผ ํตํฉํฉ๋๋ค.
- ์กฐ๋ช (Illumination): GelSim(ple)์ ์๋ก์ด ์กฐ๋ช ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. diffuser์ perimeter๋ฅผ side-illuminatingํ์ฌ semi-specular sensing surface์ non-directional overhead lighting์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ๊ทธ๋ฆผ์ ๋ฌธ์ ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋์ ๋๋ ค ๋จ์ผ channel ์ด๋ฏธ์ง๋ฅผ ์ ์กํ ์ ์๊ฒ ํฉ๋๋ค. simulation์ ์ํด, pixel-wise inference๋ MLP๋ฅผ ํตํด ์ํ๋๋ฉฐ, surface normal, viewing direction, ๊ทธ๋ฆฌ๊ณ simulated deformation์ positional encoding์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ถ์ ๋ RGB ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
- ๊ตฌํ ์ธ๋ถ ์ฌํญ (Implementation Details): GelSim(ple)์ Arducam B0286 IMX219 Camera Module๊ณผ 220๋ fisheye lens๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์นด๋ฉ๋ผ์ sensing module์ 3D ํ๋ฆฐํ ๋ ๋ถํ์ ํตํฉ๋ฉ๋๋ค. ์กฐ๋ช ์ SuperLightingLed Narrowest 3mm COB LED White Light Strip์ ์ฌ์ฉํ๋ฉฐ, sensing surface๋ SILICONES, INC. XP-565์ Print-Onยฎ Clear Silicone Ink, aluminum pigment๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ์นด๋ฉ๋ผ๋ Arducam B0439 Sensor Extension Cable์ ํตํด ์๊ฒฉ์ผ๋ก ์ฐ๊ฒฐ๋๋ฉฐ, 8๊ฐ์ ์นด๋ฉ๋ผ ๋ชจ๋์ ๋ ๊ฐ์ Raspberry Pi 4๋ฅผ ํตํด ์ธํฐํ์ด์ค๋ฉ๋๋ค. ๋จ์ผ channel ์ด๋ฏธ์ง๋ ZeroMQ๋ฅผ ํตํด 60Hz๋ก 640x480 ํด์๋๋ก ํธ์คํธ ์ปดํจํฐ์ ์ ์ก๋ฉ๋๋ค.
III. ์คํ ์ค์ (Experiment Setup)
EyeSight Hand์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ๋์ ์ ์ธ ์์ (bottle opening, plasticine cutting, plate pick and place)์ ๋ํด imitation learning์ ์ํํ์ต๋๋ค.
- Teleoperation: 3D Guidance trakStar tracking system์ ์ฌ์ฉํ์ฌ teleoperation์ ์ํํฉ๋๋ค. ์ธ๊ฐ ์์ 4๊ฐ ์ผ์ ์์น์์ ์ป์ 6-DoF pose๋ฅผ ๋ฐํ์ผ๋ก Task Space Vector (TSV) optimization [26, 13, 4]์ ํตํด ๋ก๋ด์ joint angle์ ์ถ์ ํฉ๋๋ค. ์ต์ ํ ๋ฃจํด์ JAX [6]์์ Sequential Least-Squares Quadratic Programming (SLSQP) [19, 16]๊ณผ Automatic Differentiation for rigid-body-dynamics AlgorithMs (ADAM) [2] ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌํ๋์์ต๋๋ค. ์ต์ ํ ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: \min_{Q(t)} \sum_{i \neq j} \|r_{ij}(Q(t)) - h_{ij}\|^2 + \alpha \|Q(t) - Q(t')\|^2 ์ฌ๊ธฐ์ Q(t)๋ ํ์ฌ ์๊ฐ ์คํ ์ ๋ก๋ด joint angle, Q(t')๋ ์ด์ ์๊ฐ ์คํ ์ joint angle, r_{ij}์ h_{ij}๋ ๊ฐ๊ฐ ๋ก๋ด๊ณผ ์ธ๊ฐ ์์ task space vector๋ฅผ ๋ํ๋ด๋ฉฐ, \alpha๋ ์ด์ ์๊ฐ ์คํ ๊ณผ ํ์ฌ ์๊ฐ ์คํ ๊ฐ์ joint angle ๋ณํ ์ค์๋๋ฅผ ๋ํ๋ด๋ ๊ฐ์ค์น์ ๋๋ค. ์ด ์์คํ ์ 125Hz๋ก ์๋ํฉ๋๋ค.
- ์์
์ฌ์ (Task Specification): ๊ฐ ์์
์ ๋ํด EyeSight Hand์ UR5 ๋ก๋ด์ proprioceptive data, global camera, wrist camera, ๊ทธ๋ฆฌ๊ณ tactile sensor๋ก๋ถํฐ ์ด๋ฏธ์ง๋ฅผ 30Hz๋ก ์์งํ์ต๋๋ค. ๊ฐ ์์
์ ๋ํด 100๊ฐ์ demonstration์ด ์์ง๋์์ต๋๋ค.
- Bottle Opening: ๋ฌด์์๋ก ๋ฐฐ์น๋ ketchup bottle์ ๋๊ป์ ์ด๊ธฐ ์ํด, ๋ก๋ด์ ๋ณ์ ๊ณ ์ ํ๊ณ ์์ง ์๊ฐ๋ฝ์ผ๋ก ๋๊ป์ ์์ ํ ์ด์ด์ผ ํฉ๋๋ค.
- Plate Pick and Place: ์์ฌ์๋ ๋ ๊ฐ์ ์ ์ ์ค ์๋จ ์ ์๋ฅผ ๋ฐ์ด graspable ์์น์ ๋์ ๋ค์ ๋ค์ด์ฌ๋ ค ์์ ๋์์ผ ํฉ๋๋ค.
- Plasticine Cutting: ์์์ ๋ณด๊ด๋ ์นผ์ ๊บผ๋ด plasticine roll์ ์์ ํ ๋ฐ์ผ๋ก ์๋ผ์ผ ํฉ๋๋ค.
- ๋ชจ๋ฐฉ ํ์ต (Imitation Learning): Action Chunking with Transformers (ACT) [47]๋ฅผ ์ฌ์ฉํ์ฌ dexterous manipulation์ ํ์ตํฉ๋๋ค. ACT๋ CVAE (conditional variational autoencoder) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉฐ, encoder๋ hidden style variable์ ํ์ตํ๊ณ decoder๋ ํ์ฌ ๊ด์ธก๊ฐ๊ณผ style variable์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋ action trajectory๋ฅผ ์์ธกํฉ๋๋ค.
- ์ ๋ ฅ (Input): global camera์ wrist camera์ ์ด๋ฏธ์ง๋ ๊ณต์ vision encoder๋ฅผ ํตํด ์ฒ๋ฆฌ๋ฉ๋๋ค. 8๊ฐ์ tactile image๋ 2x2 super-image๋ก ๊ฒฐํฉ๋ ๋ ๊ฐ์ subset์ผ๋ก ๋๋์ด ๊ณต์ tactile encoder๋ฅผ ํตํด ์ฒ๋ฆฌ๋ฉ๋๋ค. ์๊ฐ ๋ฐ ์ด๊ฐ feature๋ ๋ก๋ด joint position ๋ฐ style variable๊ณผ ํจ๊ป transformer network์ ์ ๋ ฅ๋์ด joint space์ ๋ฏธ๋ action trajectory๋ฅผ ์์ธกํฉ๋๋ค.
- ์ ์ฑ ๋ณํ (Policy Variants): ์ธ ๊ฐ์ง ACT ๋ณํ์ด ํ๋ จ๋์์ต๋๋ค: Vision-only ACT (์๊ฐ ์ด๋ฏธ์ง2๋ง ์ฌ์ฉ), Vision-tactile ACT (์๊ฐ ๋ฐ ์ด๊ฐ ์ด๋ฏธ์ง ๋ชจ๋ ์ฌ์ฉ), Vision-tactile ACT with vision dropout (ํ๋ จ ์ค vision encoder ์ ๋ ฅ์ 30% ํ๋ฅ ๋ก ๋ฌด์์ dropout ์ ์ฉ, ์ฆ ์๊ฐ ์ด๋ฏธ์ง๋ฅผ 0์ผ๋ก ์ค์ ํ์ฌ ์ด๊ฐ ์ ํธ ํ์ฉ์ ์ฅ๋ ค).
- ๊ตฌํ ์ธ๋ถ ์ฌํญ (Implementation Details): ๋ชจ๋ ์๊ฐ ๋ฐ ์ด๊ฐ super-image๋ 320x480์ผ๋ก resize๋์๊ณ , ResNet-18 [14]์ด vision ๋ฐ tactile encoder๋ก ์ฌ์ฉ๋์์ต๋๋ค. Joint position vector๋ UR5 arm์ 6 DoF์ Hand์ 7 DoF๋ฅผ ํฌํจํ 13์ฐจ์์ ๋๋ค. Action trajectory๋ ๋ค์ 20 timesteps์ ๋ํด ์์ธก๋๋ฉฐ, ์์ธก ์ฃผํ์๋ 15Hz์ ๋๋ค. ํ๋ จ์ Nvidia A6000 GPU์์ batch size 48, learning rate 1e-5๋ก 500 epochs ๋์ ์งํ๋์์ต๋๋ค.
IV. ์คํ ๊ฒฐ๊ณผ (Experimental Results)
๊ฐ ์ ์ฑ ๋ณํ์ ์ฑ๊ณต๋ฅ ์ 10ํ ์คํ์ ํตํด ํ๊ฐ๋์์ต๋๋ค.
- Plate Pick and Place: Vision-only ์ ์ฑ ์ 50%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ผ๋, tactile sensing์ ํตํฉํ์ 100%๋ก ์ฆ๊ฐํ์ต๋๋ค. Tactile sensing์ด ์์ผ๋ฉด plate๋ฅผ ๋ฐ ๋ ์ ์ด ์คํจ๋ ๋ถ์ถฉ๋ถํ ํ ์ ์ฉ, ๋๋ ๋ถ์์ ํ grasp๋ก ์ธํ slip์ด ์ฃผ์ ์คํจ ์์ธ์ด์์ต๋๋ค.
- Plasticine Cutting: Vision-only ์ ์ฑ ์ 50%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , ์ผ๋ฐ์ ์ธ tactile sensing ํตํฉ ๋ฐฉ์์ผ๋ก๋ 70%๋ก ๊ฐ์ ๋์์ต๋๋ค. Vision dropout training strategy๋ฅผ ์ ์ฉํ์ 90%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๊ฐ ์ผ์๊ฐ ์์ ๊ฒฝ์ฐ ๋ถ๋ถ์ ์ธ ์ ๋จ์ด ๋ง์์ผ๋ฉฐ, ์ด๊ฐ ์ผ์ ํตํฉ์ ๋ถ๋ถ ์ ๋จ์ ์ค์ด๊ณ ๊ณผ๋ํ ํ ์ ์ฉ์ ๋ฐฉ์งํ์ต๋๋ค. Vision dropout์ ์ด๊ฐ ์ผ์์ ๋ํ ์ ์ฑ ์ ์์กด๋๋ฅผ ๋์ฑ ๋์์ต๋๋ค.
- Bottle Opening: ์ด ์์ ์ ํนํ ์ด๋ ค์ ์ผ๋ฉฐ, Vision-only ์ ์ฑ ๊ณผ vanilla Vision-tactile ์ ์ฑ ๋ชจ๋ ๋ณ์ ์ฌ๋ ๋ฐ ์คํจํ์ต๋๋ค. Vision dropout training strategy๋ฅผ ์ ์ฉํ์ ๋ 30%์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ด๋ ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ๋๊ป ์ฌ๋ ๊ณผ์ ์ ๋ํ ๋จ์๊ฐ ์ ํ์ ์ด๋ฉฐ, dropout ์ ๋ต์ด ๋คํธ์ํฌ๊ฐ action ์์ธก ์ ์ด๊ฐ sensing์ ๋ ๋ง์ด ์์กดํ๋๋ก ์ ๋ํ์์ ๋ณด์ฌ์ค๋๋ค.
V. ๊ฒฐ๋ก (Conclusion)
EyeSight Hand๋ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์์ compliant actuation์ ๊ฐ์ถ fully-actuated 7-DoF ๋ก๋ด ์์ ๋๋ค. ์ด ๋์์ธ์ ํ๋ถํ sensing ๋ฅ๋ ฅ, ์ถฉ๋์ ๋ํ ๊ฒฌ๊ณ ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์๊ณผ ์ ์ฌํ ํํ ๋๋ถ์ ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ์ ํฉํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ imitation learning baseline์ ๊ฐ๋ฐํ๊ณ , EyeSight Hand์ ํ๋ถํ ์ด๊ฐ sensing์ด ์ฌ๋ฌ ๋์ ์ ์ธ real-world task์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํด์ ์ ์ฆํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ์์๋ ์์ ์ถ๊ฐ์ ์ธ fingers๋ฅผ ํตํฉํ๊ณ ํ๋ถํ ์ด๊ฐ sensing์ ๋ ์ ํ์ฉํ๋ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ตฌํ ๊ณํ์ ๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก : ์ ์ฐ๋ฆฌ๋ ์์ง๋ ๋ฌผ๊ฑด์ ์ ๋๋ก ๋ชป ์ง๋๊ฐ?
์ฌ๋ฌ๋ถ, ์ ์ ์์ ํ๋ฒ ๋ด์ฃผ์ธ์. ์ง๊ธ ์ปคํผ์์ ์ง์ด๋ค๊ฑฐ๋, ์ค๋งํธํฐ์ ๋ง์ง์๊ฑฐ๋ฆฌ๊ฑฐ๋, ํน์ ํ์ ๋๋ฆฌ๊ณ ๊ณ์ค์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ด ๋ชจ๋ ๋์์ ์ฌ๋ฌ๋ถ์๊ฒ ์๋ฌด๊ฒ๋ ์๋ ๊ฒ์ฒ๋ผ ๋๊ปด์ง๊ฒ ์ง๋ง, ๋ก๋ด๊ณตํ์๋ค์๊ฒ๋ 30๋ ๋๊ฒ ํ์ง ๋ชปํ ๋์ ์ ๋๋ค.
์ธ๊ฐ์ ์์ ์ ๋ง ๊ฒฝ์ด๋ก์ด ์์คํ ์ ๋๋ค. ๋ณต์กํ ์ด๋ํ์ ๊ตฌ์กฐ, ๊ทผ์ก๊ณผ ํ์ค์ด ์ ๊ณตํ๋ ์ปดํ๋ผ์ด์ธ์ค(compliance), ๊ทธ๋ฆฌ๊ณ ํผ๋ถ์ ๋ฐ์ง๋ ์ด๊ฐ ์ผ์๋ค์ ์กฐํฉโ์ด๊ฒ์ด ๋ฐ๋ก ์ฐ๋ฆฌ๊ฐ ๋ ๊ณ๋์ ๊นจ๋จ๋ฆฌ์ง ์๊ณ ์ง์ ์ ์๋ ์ด์ ์ด๋ฉฐ, ๋์์ ๋ฌด๊ฑฐ์ด ๋ฌธ๊ณ ๋ฆฌ๋ฅผ ๋๋ฆด ์ ์๋ ์ด์ ์ ๋๋ค.
MIT์ Branden Romero, Hao-Shu Fang, Pulkit Agrawal, Edward Adelson ์ฐ๊ตฌํ์ IROS 2024์์ ๋ฐํํ EyeSight Hand๋ฅผ ํตํด ์ด ๋ฌธ์ ์ ๋ํ ํตํฉ์ ํด๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ RoboCup Best Paper Finalist์ ์ ์ ๋์์ผ๋ฉฐ, ๋ก๋ด ์ ์ค๊ณ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
๊ธฐ์กด ๋ก๋ด ์์ ๋๋ ๋ง
๋ก๋ด๊ณตํ์์ โ์ข์ ์โ์ ๋ง๋ค๊ธฐ ์ํด์๋ ์ธ ๊ฐ์ง ์์๊ฐ ํ์ํฉ๋๋ค:
- ์ปดํ๋ผ์ด์ธ์ค(Compliance): ์ธ๋ถ ์ถฉ๊ฒฉ์ ์ ์ฐํ๊ฒ ๋์ํ๋ ๋ฅ๋ ฅ
- ์ด๊ฐ ์ผ์ฑ(Tactile Sensing): ์ ์ด ์ ๋ณด๋ฅผ ์ ๋ฐํ๊ฒ ๊ฐ์งํ๋ ๋ฅ๋ ฅ
- ์ธ๊ฐ๊ณผ ์ ์ฌํ ํํ(Anthropomorphic Design): ํ ๋ ์คํผ๋ ์ด์ ๊ณผ ๋ฐ์ดํฐ ์์ง์ ์ฉ์ด์ฑ
๋ฌธ์ ๋, ๊ธฐ์กด์ ๋ก๋ด ์๋ค์ด ์ด ์ธ ๊ฐ์ง ์ค ๊ธฐ๊ปํด์ผ ํ๋ ๋๋ ๋๋ง ๋ง์กฑ์ํจ๋ค๋ ์ ์ ๋๋ค.
| ๋ก๋ด ์ | ๊ฐ๊ฒฉ(USD) | DoF | ์ปดํ๋ผ์ด์ธ์ค | ์ด๊ฐ ์ผ์ฑ | ์ธ๊ฐํ ํํ |
|---|---|---|---|---|---|
| Shadow Hand | ~100,000+ | 24 | ๋์ (ํ ๋) | ์ ํ์ | ๋์ |
| Allegro Hand | ~15,000 | 16 | ๋ฎ์ (๊ณ ๊ธฐ์ด๋น) | ์์ | ๋ณดํต |
| LEAP Hand | ~2,000 | 16 | ๋ฎ์ | ์์ | ๋์ |
| RBO Hand | ~์ ๊ฐ | ์ ํ์ | ๋์ (์ํํธ) | ์ ํ์ | ๋์ |
| EyeSight Hand | ~2,500 | 7 | ๋์ (QDD) | 8๊ฐ ์ผ์ | ๋์ |
Shadow Hand๋ ํ ๋ ๊ธฐ๋ฐ์ผ๋ก ์ปดํ๋ผ์ด์ธ์ค๋ ์ข์ง๋ง, 10๋ง ๋ฌ๋ฌ๊ฐ ๋๊ณ ์ ์ง๋ณด์๊ฐ ์ด๋ ต์ต๋๋ค. Allegro Hand๋ ๋ชจํฐ๊ฐ ์ง์ ๊ด์ ์ ๊ตฌ๋ํ์ง๋ง, ๋์ ๊ธฐ์ด๋น๋ก ์ธํด reflected inertia๊ฐ ์ปค์ ์ธ๋ถ ํ์ ๋ปฃ๋ปฃํ๊ฒ ๋ฐ์ํฉ๋๋ค. ์ํํธ ํธ๋(RBO Hand ๋ฑ)๋ ์ปดํ๋ผ์ด์ธํธํ์ง๋ง ์ ๋ฐ ์ ์ด๊ฐ ์ด๋ ต๊ณ ์ด๊ฐ ์ผ์ ํตํฉ์ด ํ๋ญ๋๋ค.
์ฐ๊ตฌ์ ํต์ฌ ์ง๋ฌธ
EyeSight Hand๋ ๋ค์ ์ง๋ฌธ์ ๋ตํ๊ณ ์ ํฉ๋๋ค:
โ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ์ํ ๊ฐ๊ฑด์ฑ, ๋ชจ๋ฐฉ ํ์ต์ ์ํ ์ง๊ด์ ํ ๋ ์คํผ๋ ์ด์ , ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์ ๋ฐ์ดํฐ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์์ ๋ง์กฑ์ํค๋ ๋ก๋ด ์์ ์ด๋ป๊ฒ ์ค๊ณํ ์ ์์๊น?โ
์ค๊ณ ์ฒ ํ: Co-Design์ ์๋ฆ๋ค์
EyeSight Hand์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ๊ตฌ๋(actuation), ์ผ์ฑ(sensing), ๊ธฐ๊ตฌํ(kinematics)์ ๋์์ ๊ณ ๋ คํ ํตํฉ ์ค๊ณ์ ์์ต๋๋ค. ์ด๋ ๊ฐ ์์๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ต์ ํํ๋ ๊ฒ๊ณผ๋ ์ง์ ์ผ๋ก ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ๋๋ค.
๊ธฐ๊ตฌํ ์ค๊ณ: ์ธ๊ฐ ์๊ณผ์ ํํ
์ธ๊ฐ์ ์์ ์ฝ 27๊ฐ์ ์์ ๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ฅผ ์๋ฒฝํ ๋ณต์ ํ๋ ๊ฒ์ ๋นํ์ค์ ์ด๋ฏ๋ก, EyeSight Hand๋ 7 DoF๋ก ์ถ์ํ์ต๋๋ค. ํต์ฌ ํํ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
MCP ๊ด์ ์ ๋จ์ํ: ์ธ๊ฐ์ MCP ๊ด์ ์ ๊ตด๊ณก/์ ์ (flexion/extension)๊ณผ ๋ด์ /์ธ์ (abduction/adduction) ๋ ๊ฐ์ง ์์ ๋๋ฅผ ๊ฐ์ง๋๋ค. EyeSight Hand๋ ๊ฒ์ง์ ์ค์ง์ MCP์์ ๋ด์ /์ธ์ ์ ์๋ตํ์ต๋๋ค.
DIP ๊ด์ ์ ์ปคํ๋ง: ์์์ง์ ๊ฐ(DIP) ๊ด์ ์ ๊ทผ์์ง์ ๊ฐ(PIP) ๊ด์ ๊ณผ ๊ธฐ๊ณ์ ์ผ๋ก ์ปคํ๋ง์์ผ, ํ๋์ ๋ชจํฐ๋ก ๋ ๊ด์ ์ ๋์์ ๊ตฌ๋ํฉ๋๋ค. ์ด๋ ์ธ๊ฐ ์์ โ๊ตด๊ณก ์๋์ง(flexion synergy)โ๋ฅผ ๋ชจ์ฌํ ๊ฒ์ ๋๋ค.
3์๊ฐ๋ฝ ๊ตฌ์ฑ: ์ฝ์ง์ ์์ง๋ฅผ ์ ๊ฑฐํ์ฌ ์ค๊ณ๋ฅผ ๋จ์ํํ์ต๋๋ค. ์ด๋ ๋๋ถ๋ถ์ ์ผ์์ ์กฐ์ ์์ ์์ ์์ง-๊ฒ์ง-์ค์ง์ โtripod gripโ์ด ์ง๋ฐฐ์ ์ด๋ผ๋ ๊ด์ฐฐ์ ๊ธฐ๋ฐํฉ๋๋ค.
์ด๋ฌํ ๋จ์ํ์๋ ๋ถ๊ตฌํ๊ณ , ์์ ์ ์ฒด ํฌ๊ธฐ์ ๋น์จ์ ์ธ๊ฐ ์๊ณผ ๋งค์ฐ ์ ์ฌํ๊ฒ ์ ์ง๋ฉ๋๋ค(๋๋น ์ฝ 90mm, ๊ธธ์ด ์ฝ 190mm). ์ด๊ฒ์ด ์ค์ํ ์ด์ ๋ ํ ๋ ์คํผ๋ ์ด์ ์ ์กฐ์์๊ฐ ์์ ์ ์ ์์ง์์ ๋ก๋ด ์์ ์ง๊ด์ ์ผ๋ก ๋งคํํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ตฌ๋ ์์คํ : Quasi-Direct Drive์ ๋ง๋ฒ
EyeSight Hand์ ๊ตฌ๋ ์์คํ ์ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ ์ ๊ธฐ์ฌ ์ค ํ๋์ ๋๋ค. ์ฌ๊ธฐ์ Quasi-Direct Drive(QDD)๋ผ๋ ๊ฐ๋ ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
๊ธฐ์กด ๊ตฌ๋ ๋ฐฉ์์ ๋ฌธ์
์ ํต์ ์ธ ๋ก๋ด ์(์: Allegro Hand)์ ์์ DC ์๋ณด๋ชจํฐ์ ๋์ ๊ธฐ์ด๋น(100:1 ์ด์)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ๋ฐฉ์์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค:
๋์ Reflected Inertia: ๊ธฐ์ด๋น N์ผ๋ก ๊ฐ์ํ๋ฉด, ๋ชจํฐ ๊ด์ฑ J_m์ด ์ถ๋ ฅ์ถ์์ N^2 \cdot J_m์ผ๋ก ๋๊ปด์ง๋๋ค. ๊ธฐ์ด๋น๊ฐ 100์ด๋ฉด, ๊ด์ฑ์ด 10,000๋ฐฐ๋ก ์ฆํญ๋ฉ๋๋ค!
J_{reflected} = N^2 \cdot J_m
๋ฎ์ Backdrivability: ๊ธฐ์ด๋ฐ์ค์ ๋ง์ฐฐ๋ก ์ธํด ์ธ๋ถ์์ ํ์ ๊ฐํด๋ ๋ชจํฐ๊ฐ ์ฝ๊ฒ ๋์๊ฐ์ง ์์ต๋๋ค. ์ด๋ ์ถฉ๋ ์ ์์ด๋ ๋ฌผ์ฒด๊ฐ ํ์๋ ์ํ์ ๋์ ๋๋ค.
๋ฐ์ด ๋ฌธ์ : ์ง์์ ์ธ ํ ์ถ๋ ฅ์ ์ํด ๋ชจํฐ๊ฐ stall ์ํ์ ๊ฐ๊น๊ฒ ์๋ํ๋ฉด, ๊ถ์ ์ด ๊ณผ์ด๋ฉ๋๋ค.
QDD ์๋ฃจ์
QDD๋ ๋ฎ์ ๊ธฐ์ด๋น(5~10:1)์ ๊ณ ํ ํฌ BLDC ๋ชจํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. EyeSight Hand๋ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์ฑ์ ์ฑํํ์ต๋๋ค:
BLDC ์ก์ถ์์ดํฐ ์คํ:
| ํ๋ผ๋ฏธํฐ | ๊ฐ |
|---|---|
| ๊ธฐ์ด๋น | 9:1 (ํ์ฑ๊ธฐ์ด) |
| ์ฐ์ ํ๊ฑฐํ ํ | 19N |
| ์ต๋ ํ๊ฑฐํ ํ | 57N |
| ์ต๋ ์๋ | 420 RPM |
| ํต์ | CAN-FD @ 5Mbps, 1kHz |
| ์ปจํธ๋กค๋ฌ | MJBOTS Moteus N1 |
๋ฎ์ ๊ธฐ์ด๋น ๋๋ถ์:
- Reflected inertia๊ฐ ๋ฎ์: ์ธ๋ถ ํ์ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ๋ผ๊ฐ
- Backdrivable: ์ถฉ๋ ์ ์์ด โ๋ฐ๋ ค๋จโ
- ํ ํฌ ํฌ๋ช ์ฑ: ์ ๋ฅ ์ผ์ฑ์ผ๋ก ์ ํํ ํ ํฌ ์ถ์ ๊ฐ๋ฅ
ํนํ ์ธ ๋ฒ์งธ ํน์ฑ์ ์ด๊ฐ ์ผ์ฑ์ด ์๋ ์ํฉ์์๋ ํ ํผ๋๋ฐฑ์ ์ป์ ์ ์๊ฒ ํด์ค๋๋ค:
\tau_{output} = K_t \cdot I_{motor} \cdot N
์ฌ๊ธฐ์ K_t๋ ํ ํฌ ์์, I_{motor}๋ ๋ชจํฐ ์ ๋ฅ, N์ ๊ธฐ์ด๋น์ ๋๋ค.
๊ธฐ๊ณ์ ํธ๋์ค๋ฏธ์ : ๋ฒจํธ vs ๋งํค์ง
๋ชจ๋ ๊ด์ ์ด ๋์ผํ ํธ๋์ค๋ฏธ์ ์ ์ฌ์ฉํ์ง๋ ์์ต๋๋ค. EyeSight Hand๋ ์ ์ฌ์ ์์ ๋ค๋ฅธ ๋ฐฉ์์ ์ ์ฉํฉ๋๋ค:
ํ์ด๋ฐ ๋ฒจํธ: ๊ฒ์ง/์ค์ง์ MCP ๊ด์ ์ ์ฌ์ฉ. ๋ชจํฐ๋ฅผ ์๋ฐ๋ฅ ์ชฝ์ ๋ฐฐ์นํ๊ณ , ๋ฒจํธ๋ก ํ์ ๋ ฅ์ ์ ๋ฌํฉ๋๋ค. ์ฅ์ ์ ๊ฐ๋ณ๊ณ ์กฐ์ฉํ๋ค๋ ๊ฒ.
4์ ๋งํค์ง(Four-bar linkage): ์๊ฐ๋ฝ ๊ตด๊ณก ๊ด์ ์ ์ฌ์ฉ. ํ๋์ ๋ชจํฐ๋ก PIP์ DIP ๊ด์ ์ ๋์์ ์ปคํ๋งํ๋ฉด์๋, ์ธ๊ฐ ์๊ฐ๋ฝ์ ์์ฐ์ค๋ฌ์ด ๊ตด๊ณก ๊ถค์ ์ ๋ชจ์ฌํฉ๋๋ค.
flowchart LR
subgraph MOTOR["์ก์ถ์์ดํฐ"]
M["BLDC ๋ชจํฐ"]
end
subgraph FOURBAR["4์ ๋งํค์ง"]
L1["Ground Link<br/>(์๋ฐ๋ฅ)"]
L2["Input Link<br/>(Proximal)"]
L3["Coupler Link"]
L4["Output Link<br/>(Distal)"]
L1 --- L2
L2 --- L3
L3 --- L4
L4 --- L1
end
M --> L2
L3 --> FT["์๊ฐ๋ฝ ๋"]
๋ง์ดํฌ๋ก DC ๋ชจํฐ: ์์ง์ MCP ๊ตด๊ณก๊ณผ ์๋ชฉ ํ์ ์๋ ๊ณต๊ฐ ์ ์ฝ์ผ๋ก ์ธํด ์์ DC ๋ชจํฐ(TI DRV8876 ๋๋ผ์ด๋ฒ, Teensy 4.1 ์ปจํธ๋กค๋ฌ)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ด๊ฐ ์ผ์ฑ: GelSim(ple)์ ํ์
์ Vision-based Tactile Sensing์ธ๊ฐ?
์ด๊ฐ ์ผ์ฑ ๊ธฐ์ ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋๋ฉ๋๋ค:
- ์ ํต์ ๋ฐฉ์: ์ ํญ์, ์ ์ ์, ์์ ์ ์ผ์ ์ด๋ ์ด
- ๋น์ ๊ธฐ๋ฐ ๋ฐฉ์: ์นด๋ฉ๋ผ๋ก ํ์ฑ์ฒด ํ๋ฉด์ ๋ณํ์ ์ดฌ์
GelSight๋ก ๋ํ๋๋ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์๋ ๋ช ๊ฐ์ง ๊ฒฐ์ ์ ์ฅ์ ์ด ์์ต๋๋ค:
- ๊ณ ํด์๋: ์์ฒ ๊ฐ์ โ์ด๊ฐ ํฝ์ โ์ ๋จ์ผ ์นด๋ฉ๋ผ๋ก ํ๋
- ๋ค์ค ๋ชจ๋ฌ: ๊น์ด, ์ ๋จ๋ ฅ, ๋ฏธ๋๋ฌ์ง์ ๋์์ ์ถ๋ก ๊ฐ๋ฅ
- ๋ฒ์ฉ์ฑ: ์๋ก์ด ์ ์ด ์ ํ์ ๋ํด ํ์ต์ผ๋ก ๋์ ๊ฐ๋ฅ
๊ทธ๋ฌ๋ ๊ธฐ์กด GelSight ์ผ์๋ ํํํ ํ๋ฉด์ ์ต์ ํ๋์ด ์์์ต๋๋ค. ์๊ฐ๋ฝ ๋์ ๊ณก๋ฉด์ด๋ ์๋ฐ๋ฅ์ ๋ณต์กํ ํ์์ ์ ์ฉํ๊ธฐ ์ด๋ ค์ ์ฃ .
GelSim(ple): ์๋ฎฌ๋ ์ด์ ์นํ์ ์ค๊ณ
EyeSight Hand๋ ์๋ก์ด ์ด๊ฐ ์ผ์ GelSim(ple)์ ์ ์ํฉ๋๋ค. ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, โsimpleโํ๋ฉด์๋ โsimulationโ์ ์นํ์ ์ธ ์ค๊ณ๊ฐ ํต์ฌ์ ๋๋ค.
๊ธฐ์กด GelSight์ ์กฐ๋ช ๋ฌธ์
์๋ GelSight๋ Photometric Stereo ์๋ฆฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค. 3๊ฐ์ ๋ค๋ฅธ ์(RGB)์ ๋ฐฉํฅ์ฑ ๊ด์์ ํ๋ฉด์ ๋น์ถ๊ณ , ๊ฐ ํฝ์ ์์ ์์ ๋น์จ์ ๋ถ์ํ์ฌ ํ๋ฉด ๋ฒ์ (surface normal)์ ์ถ์ ํฉ๋๋ค.
\vec{n}(x,y) = f(R, G, B)
์ด ๋ฐฉ์์ ๋ฌธ์ ์ :
- ๊ณก๋ฉด ์ ์ฉ ์ด๋ ค์: ๊ด์ ๋ฐฐ์น๊ฐ ๊ธฐํํ์ ์ผ๋ก ์ ํ๋จ
- ๊ทธ๋ฆผ์ ๋ฌธ์ : ๋์ถ๋ ๋ฌผ์ฒด๊ฐ ๊ทธ๋ฆผ์๋ฅผ ๋ง๋ค์ด ๋ ธ์ด์ฆ ๋ฐ์
- ์๋ฎฌ๋ ์ด์ ๋ณต์ก์ฑ: RGB-to-normal ๋งคํ๊ณผ ๊ทธ๋ฆผ์๋ฅผ ์ ํํ ์๋ฎฌ๋ ์ด์ ํด์ผ ํจ
GelSim(ple)์ ์๋ก์ด ์กฐ๋ช ์ ๋ต
GelSim(ple)์ ๋น๋ฐฉํฅ์ฑ ์ธก๋ฉด ์กฐ๋ช (non-directional side illumination)์ ์ฑํํฉ๋๋ค:
flowchart TB
subgraph OPTICAL["๊ดํ ์์คํ
"]
CAM["Arducam B0286<br/>220ยฐ ์ด์๋ ์ฆ"]
DIFF["3M 3635-70<br/>๋ํจ์ "]
LED["3mm COB LED ์คํธ๋ฆฝ<br/>(์ธก๋ฉด ์กฐ๋ช
)"]
GEL["์ค๋ฆฌ์ฝ ์ ค<br/>(XP-565)"]
COAT["์์ ์๋ฃจ๋ฏธ๋ ์ฝํ
<br/>(๋ฐ์ฌ๋ฉด)"]
end
CAM --> |"๊ด์ฐฐ"| DIFF
LED --> |"์ธก๋ฉด ์กฐ๋ช
"| DIFF
DIFF --> |"ํ์ฐ๊ด"| GEL
GEL --> COAT
COAT --> |"๋ฐ์ฌ"| CAM
ํต์ฌ ์ค๊ณ ๊ฒฐ์ :
- COB LED ์คํธ๋ฆฝ์ ํ์ฑ์ฒด ๋๋ ์ ๋ฐฐ์นํ์ฌ ์ธก๋ฉด์์ ์กฐ๋ช
- ๋ํจ์ ๊ฐ ๋น์ ํ์ฐ์์ผ ๊ท ์ผํ ์ค๋ฒํค๋ ์กฐ๋ช ์์ฑ
- ์๋ฃจ๋ฏธ๋ ์ฝํ ๋ ๋ฐ์ฌ๋ฉด์ด ์ ์ด์ ์์์ ๊ธฐ์ธ๊ธฐ ๋ณํ๋ฅผ ๋ฐ๊ธฐ ๋ณํ๋ก ๋ณํ
์ด ๋ฐฉ์์ ์ฅ์ :
- ๊ทธ๋ฆผ์ ์ ๊ฑฐ: ๋น๋ฐฉํฅ์ฑ ์กฐ๋ช ์ผ๋ก ๊ทธ๋ฆผ์๊ฐ ๊ฑฐ์ ์์
- ๋จ์ผ ์ฑ๋: ์ปฌ๋ฌ RGB ๋์ ๊ทธ๋ ์ด์ค์ผ์ผ๋ง ํ์ โ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ 3๋ฐฐ ๊ฐ์
- ์๋ฎฌ๋ ์ด์ ์ฉ์ด: ๋จ์ํ ๊ธฐํํ์ ๋ณํ์ผ๋ก ๊ทผ์ฌ ๊ฐ๋ฅ
์ผ์ ์ฌ์ ๋ฐ ๋ฐฐ์น
EyeSight Hand์๋ ์ด 8๊ฐ์ GelSim(ple) ์ผ์๊ฐ ์ฅ์ฐฉ๋์ด ์์ต๋๋ค:
| ์์น | ์ผ์ ์ | ํน์ง |
|---|---|---|
| ์์ง ๋ | 1 | ๊ตฌํ ํํ |
| ๊ฒ์ง ๋ | 1 | ๊ตฌํ ํํ |
| ์ค์ง ๋ | 1 | ๊ตฌํ ํํ |
| ๊ฒ์ง Proximal | 1 | ์ํตํ |
| ์ค์ง Proximal | 1 | ์ํตํ |
| ์๋ฐ๋ฅ | 2 | ํ๋ฉดํ |
๋ชจ๋ ์ผ์๋ 30Hz๋ก ์ด๋ฏธ์ง๋ฅผ ์คํธ๋ฆฌ๋ฐํ๋ฉฐ, ์ ์ฒด ์์คํ ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ๊ณผ ๋๊ธฐํ๋ฉ๋๋ค.
์ด๊ฐ ์๋ฎฌ๋ ์ด์
์๋ฎฌ๋ ์ด์ ์์ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ sim-to-real ์ ์ด ํ์ต์ ํ์์ ์ ๋๋ค. GelSim(ple)์ ๋จ์ํ ์กฐ๋ช ๊ตฌ์กฐ ๋๋ถ์, ์ ์ด ๋ฉด์ ๊น์ด ๋งต(depth map)์ ์ง์ ๋ฐ๊ธฐ๋ก ๋ณํํ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค:
I(x,y) \propto \frac{\partial z}{\partial x} + \frac{\partial z}{\partial y} + \text{ambient}
์ฌ๊ธฐ์ z(x,y)๋ ํ์ฑ์ฒด์ ๋ณํ ๊น์ด์ ๋๋ค. ์ด๋ ํ๋ฉด ๋ฒ์ ์ ์ํ ์ฑ๋ถ๊ณผ ๋ฐ๊ธฐ๊ฐ ๋น๋กํ๋ค๋ ๊ทผ์ฌ์ ๊ธฐ๋ฐํฉ๋๋ค.
๋ชจ๋ฐฉ ํ์ต: ACT์ Vision Dropout ์ ๋ต
Action Chunking with Transformers (ACT) ๊ฐ์
EyeSight Hand์ ํ๊ฐ์๋ ACT(Action Chunking with Transformers) ์๊ณ ๋ฆฌ์ฆ์ด ์ฌ์ฉ๋ฉ๋๋ค. ์ด ์๊ณ ๋ฆฌ์ฆ์ 2023๋ RSS์์ Tony Zhao ๋ฑ์ ์ํด ๋ฐํ๋์์ผ๋ฉฐ, ์ ๋ฐ ์กฐ์ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ ํต์ Behavior Cloning์ ๋ฌธ์
์ผ๋ฐ์ ์ธ Behavior Cloning(BC)์ ํ์ฌ ๊ด์ฐฐ o_t์์ ๋ค์ ํ๋ a_t๋ฅผ ์์ธกํฉ๋๋ค:
\pi_\theta(a_t | o_t)
์ด ๋ฐฉ์์ ๋ฌธ์ ๋ ๋์ ์ค์ฐจ(compounding error)์ ๋๋ค. ์ ์ฑ ์ด ์กฐ๊ธ์ด๋ผ๋ ๋ฒ์ด๋๋ฉด, ํ์ต ๋ฐ์ดํฐ ๋ถํฌ์์ ๋ฉ์ด์ง ์ํ์ ๋๋ฌํ๊ณ , ๊ฑฐ๊ธฐ์ ๋ ๋์ ์์ธก์ ํ์ฌ ๋น ๋ฅด๊ฒ ์คํจํฉ๋๋ค.
ํนํ 50Hz ์ ์ด๊ฐ ํ์ํ ์ ๋ฐ ์กฐ์์์, 10์ด์ง๋ฆฌ ์์ ์ 500 ์คํ ์ ๊ฒฐ์ ์ ์๋ฏธํฉ๋๋ค. ๊ฐ ์คํ ์์ 1%๋ง ํ๋ ค๋ ๋์ ๋๋ฉด ์น๋ช ์ ์ ๋๋ค.
Action Chunking ์์ด๋์ด
ACT๋ ๋จ์ผ ํ๋ ๋์ ํ๋ ์ฒญํฌ(action chunk)โํฅํ k ์คํ ์ ํ๋ ์ํ์คโ๋ฅผ ์์ธกํฉ๋๋ค:
\pi_\theta(a_{t:t+k} | o_t)
์ด๋ ๊ฒ ํ๋ฉด:
- ์ ํจ ํธ๋ผ์ด์ฆ ๊ฐ์: 500 ์คํ ์์ ์ด k=100์ด๋ฉด 5๋ฒ์ ๊ฒฐ์ ์ผ๋ก ์ค์ด๋ฆ
- ์ผ๊ด์ฑ ํฅ์: ํ ์ฒญํฌ ๋ด์์๋ ์ฐ์์ ์ด๊ณ ์ผ๊ด๋ ๋์ ๋ณด์ฅ
- ์ธ๊ฐ ์์ฐ ๋ชจ์ฌ: ์ธ๊ฐ๋ ํ๋์ โ๋ฉ์ด๋ฆฌโ๋ก ๊ณํํจ (์ ๊ฒฝ๊ณผํ์ ๊ทผ๊ฑฐ)
CVAE ๊ตฌ์กฐ
ACT๋ Conditional Variational Autoencoder(CVAE) ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค:
flowchart TB
subgraph ENCODER["CVAE ์ธ์ฝ๋<br/>(ํ์ต ์์๋ง)"]
A["ํ๋ ์ํ์ค<br/>a_{1:k}"]
O1["๊ด์ ์์น"]
CLS["[CLS] ํ ํฐ"]
TE["Transformer<br/>์ธ์ฝ๋"]
Z["์ ์ฌ ๋ณ์ z<br/>~N(ฮผ, ฯยฒ)"]
A --> TE
O1 --> TE
CLS --> TE
TE --> Z
end
subgraph DECODER["CVAE ๋์ฝ๋<br/>(์ ์ฑ
)"]
IMG["RGB ์ด๋ฏธ์ง<br/>(4๊ฐ ๋ทฐ)"]
RES["ResNet18<br/>ํน์ง ์ถ์ถ"]
O2["๊ด์ ์์น"]
Z2["z (ํ์ต ์) ๋๋<br/>0 (์ถ๋ก ์)"]
TD["Transformer<br/>๋์ฝ๋"]
AP["ํ๋ ์์ธก<br/>รข_{1:k}"]
IMG --> RES
RES --> TD
O2 --> TD
Z2 --> TD
TD --> AP
end
Z --> |"ํ์ต ์"| Z2
ํ์ต ์: ์ธ์ฝ๋๊ฐ ์ค์ ํ๋ ์ํ์ค๋ฅผ ์ ์ฌ ๋ณ์ z๋ก ์์ถํฉ๋๋ค. ์ด z๋ ํ๋์ โ์คํ์ผโ์ ๋ํ๋ ๋๋คโ๊ฐ์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋ค์ํ ๋ฐฉ๋ฒ ์ค ์ด๋ค ๊ฒ์ธ์ง๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค.
์ถ๋ก ์: ์ธ์ฝ๋๋ ๋ฒ๋ ค์ง๊ณ , z๋ ๋จ์ํ 0์ผ๋ก ์ค์ ๋ฉ๋๋ค. ๋์ฝ๋๋ ํ์ฌ ๊ด์ฐฐ๋ง์ผ๋ก ํ๋ ์ฒญํฌ๋ฅผ ์์ฑํฉ๋๋ค.
์์ค ํจ์๋:
\mathcal{L} = \underbrace{\mathbb{E}_{q_\phi(z|a,o)}[\log p_\theta(a|o,z)]}_{\text{์ฌ๊ตฌ์ฑ ์์ค (L1)}} - \underbrace{\beta \cdot D_{KL}(q_\phi(z|a,o) || p(z))}_{\text{KL ์ ๊ทํ}}
Temporal Ensembling
ACT์ ๋ ๋ค๋ฅธ ๊ธฐ๋ฒ์ ์๊ฐ์ ์์๋ธ(temporal ensembling)์ ๋๋ค. ๋งค ์คํ ๋ง๋ค ์ ์ฒญํฌ๋ฅผ ์์ธกํ๋ฉด, ์ค์ฒฉ๋๋ ์์ธก๋ค์ด ์๊น๋๋ค. ์ด๋ค์ ์ง์ ๊ฐ์ค ํ๊ท ์ผ๋ก ๊ฒฐํฉํฉ๋๋ค:
a_t^{final} = \sum_{i} w_i \cdot a_t^{(i)} \quad \text{where} \quad w_i \propto \exp(-\lambda \cdot \Delta t_i)
์ฌ๊ธฐ์ \Delta t_i๋ ํด๋น ์์ธก์ด ์์ฑ๋ ํ ๊ฒฝ๊ณผํ ์๊ฐ์ ๋๋ค. ์ต๊ทผ ์์ธก์ผ์๋ก ๊ฐ์ค์น๊ฐ ๋์ต๋๋ค.
Vision Dropout ์ ๋ต: ์ด๊ฐ์ ๊ฐ์น๋ฅผ ๊นจ๋ซ๊ฒ ํ๊ธฐ
EyeSight Hand ๋ ผ๋ฌธ์ ์ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ์ฌ๋ Vision Dropout ์ ๋ต์ ๋๋ค.
๋ฌธ์ : ์๊ฐ์ ๋ํ ๊ณผ์์กด
๋ชจ๋ฐฉ ํ์ต์์ ์๊ฐ ์ ๋ณด์ ์ด๊ฐ ์ ๋ณด๋ฅผ ๋ชจ๋ ์ ๊ณตํ๋ฉด, ๋ชจ๋ธ์ ์๊ฐ์ ๊ณผ๋ํ๊ฒ ์์กดํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ์๋ํ๋ฉด:
- ์๊ฐ์ ์ ์ญ์ (global) ์ ๋ณด๋ฅผ ์ ๊ณตโ๋ฌผ์ฒด ์์น, ์ ์์ธ ๋ฑ
- ์ด๊ฐ์ ๊ตญ์์ (local) ์ ๋ณด๋ง ์ ๊ณตโ์ ์ด์ ์ ํ, ๋ฏธ๋๋ฌ์ง ๋ฑ
- ๋๋ถ๋ถ์ ์๊ฐ์ ์๊ฐ๋ง์ผ๋ก ์ถฉ๋ถํ ์ ๋ณด๊ฐ ์์
๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด๊ฐ์ด ๊ฒฐ์ ์ ์ผ๋ก ํ์ํ ์๊ฐ(์: ๋๊ป ๋นํ๊ธฐ)์ ๋ชจ๋ธ์ด ์ด๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ๋ชปํฉ๋๋ค.
ํด๊ฒฐ: ํ์ต ์ ์๊ฐ ๋๋กญ์์
Vision Dropout์ ํ์ต ์ค ์ผ์ ํ๋ฅ ๋ก ์๊ฐ ์ ๋ ฅ์ ๋ง์คํนํฉ๋๋ค:
o_t^{visual} = \begin{cases} \text{RGB ์ด๋ฏธ์ง} & \text{ํ๋ฅ } 1-p \\ \mathbf{0} & \text{ํ๋ฅ } p \end{cases}
์ด ๊ฐ๋จํ ๊ธฐ๋ฒ์ ํจ๊ณผ:
- ๋ชจ๋ธ์ด ์ด๊ฐ๋ง์ผ๋ก๋ ์์ ์ ์ํํ๋ ๋ฐฉ๋ฒ์ ํ์ต
- ์๊ฐ์ด ์์ ๋๋ ์๊ฐ๊ณผ ์ด๊ฐ์ ์ํธ๋ณด์์ ์ผ๋ก ์ฌ์ฉ
- ๊ฒฐ๊ณผ์ ์ผ๋ก ์๊ฐ-์ด๊ฐ ์ตํฉ ํ์ง ํฅ์
์ ์ฑ ๋คํธ์ํฌ ์์ธ
EyeSight Hand์ ์ ์ฒด ์ ์ฑ ๋คํธ์ํฌ ์ ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
flowchart LR
subgraph VISUAL["์๊ฐ ์
๋ ฅ"]
GC["์ ์ญ ์นด๋ฉ๋ผ<br/>(480ร640)"]
WC["์๋ชฉ ์ด์ ์นด๋ฉ๋ผ<br/>(480ร640)"]
end
subgraph TACTILE["์ด๊ฐ ์
๋ ฅ"]
T1["์์ง ์ด๊ฐ<br/>(480ร640)"]
T2["๊ฒ์ง ์ด๊ฐ<br/>(480ร640)"]
T3["์ค์ง ์ด๊ฐ<br/>(480ร640)"]
T4["๊ฒ์ง Proximal"]
T5["์ค์ง Proximal"]
T6["์๋ฐ๋ฅ 1"]
T7["์๋ฐ๋ฅ 2"]
end
subgraph PROP["๊ณ ์ ๊ฐ๊ฐ"]
JP["๊ด์ ์์น<br/>(13 dim)"]
RP["๋ก๋ด ํ ์์น<br/>(6 dim)"]
end
VISUAL --> RESNET["ResNet18<br/>ํน์ง ์ถ์ถ"]
TACTILE --> RESNET
RESNET --> CONCAT["์ฐ๊ฒฐ"]
PROP --> CONCAT
CONCAT --> POLICY["ACT ์ ์ฑ
"]
์ ๋ ฅ ์์ฝ:
| ๋ชจ๋ฌ๋ฆฌํฐ | ์ฑ๋ | ํด์๋/์ฐจ์ | ์ฃผํ์ |
|---|---|---|---|
| ์ ์ญ ์นด๋ฉ๋ผ | 1 | 480ร640 | 30Hz |
| ์๋ชฉ ์นด๋ฉ๋ผ | 1 | 480ร640 | 30Hz |
| ์ด๊ฐ (ร8) | 8 | 480ร640 | 30Hz |
| ๊ด์ ์์น | - | 13 | 1kHz |
| ๋ก๋ด ํ ์์น | - | 6 | 1kHz |
์คํ ๋ฐ ๊ฒฐ๊ณผ
ํ๊ฐ ์์ ์ค๊ณ
EyeSight Hand๋ ์ธ ๊ฐ์ง ๋์ ์ ์์ ์์ ํ๊ฐ๋ฉ๋๋ค. ๊ฐ ์์ ์ ๋ค๋ฅธ ์ ํ์ ์กฐ์ ๋ฅ๋ ฅ์ ์๊ตฌํฉ๋๋ค:
์์ 1: ๋ณ๋๊ป ์ด๊ธฐ (Bottle Opening)
flowchart LR
A["1. ์ ๊ทผ<br/>(Approach)"] --> B["2. ๋ณ ๊ณ ์ <br/>(Constrain)"]
B --> C["3. ๋๊ป ํ์ง<br/>(Grasp lid)"]
C --> D["4. ๋นํ๊ธฐ<br/>(Twist)"]
D --> E["5. ์ด๊ธฐ<br/>(Open)"]
style C fill:#f9d5d3
style D fill:#f9d5d3
์ด ์์ ์ ํต์ฌ ๋์ :
- Non-prehensile manipulation: ๋ณ์ ๊ฒ์ง, ์ค์ง, ์๋ฐ๋ฅ์ผ๋ก โ๋๋ฌโ ๊ณ ์
- ์ ์ด๋ ฅ ์กฐ์ : ๋๊ป์ ์ถฉ๋ถํ ๋ง์ฐฐ๋ ฅ์ ๊ฐํ๋ฉด์๋ ๋ฏธ๋๋ฌ์ง์ง ์๊ฒ
- ์๊ฐ ๊ฐ๋ฆผ(occlusion): ๋๊ป ๋นํ๊ธฐ ๋จ๊ณ์์ ์์ด ๋๊ป์ ๊ฐ๋ฆผ
์ด๊ฐ์ ํ์์ฑ: ๋๊ป ๋นํ๊ธฐ ๋จ๊ณ์์ ์๊ฐ๋ง์ผ๋ก๋ ์์ง๊ฐ ๋๊ป ์์ ์ ๋๋ก ์์นํ๋์ง, ์ถฉ๋ถํ ํ์ด ๊ฐํด์ง๊ณ ์๋์ง ์ ์ ์์ต๋๋ค.
์์ 2: ํ๋ผ์คํฐ์ ์๋ฅด๊ธฐ (Plasticine Cutting)
flowchart LR
A["1. ์นผ ์ง๊ธฐ<br/>(Pick knife)"] --> B["2. ์์ธ ์กฐ์ <br/>(Reorient)"]
B --> C["3. ์์น ์ ์ <br/>(Position)"]
C --> D["4. ์๋ฅด๊ธฐ<br/>(Cut)"]
style D fill:#f9d5d3
์ด ์์ ์ ํต์ฌ ๋์ :
- ๋๊ตฌ ์ฌ์ฉ(Tool use): ์ ์์ฒด๊ฐ ์๋ ๋๊ตฌ๋ก ํ ์ ๋ฌ
- ํ ์กฐ์ : ํ๋ผ์คํฐ์ ์ ์์ ํ ์๋ฅด๋, ํ ์ด๋ธ์ ์์์ํค์ง ์๊ฒ
- ์ ๋ฐ ๊ถค์ : ์ผ์ ํ ์๋๋ก ์ง์ ์ด๋
์์ 3: ์ ์ ์ง์ด ์ฎ๊ธฐ๊ธฐ (Plate Pick and Place)
flowchart LR
A["1. ์ ๊ทผ<br/>(Approach)"] --> B["2. ์ฌ๋ผ์ด๋ฉ<br/>(Slide)"]
B --> C["3. ๋ค์ด์ฌ๋ฆฌ๊ธฐ<br/>(Lift)"]
C --> D["4. ์ด๋<br/>(Transport)"]
D --> E["5. ๋๊ธฐ<br/>(Place)"]
style B fill:#f9d5d3
style C fill:#f9d5d3
์ด ์์ ์ ํต์ฌ ๋์ :
- Extrinsic dexterity: ํ ์ด๋ธ ํ๋ฉด์ ํ์ฉํ์ฌ ์ ์ ๊ฐ์ฅ์๋ฆฌ ํ๋ณด
- ๋ฏธ๋๋ฌ์ง ๊ฐ์ง: ์ ์๊ฐ ๋ฏธ๋๋ฌ์ง๋ ์๊ฐ์ ๊ฐ์งํ์ฌ ์ฌํ์ง
- ์๊ณ ๊นจ์ง๊ธฐ ์ฌ์ด ๋ฌผ์ฒด: ๊ณผ๋ํ ํ์ผ๋ก ์ ์ ํ์ ๋ฐฉ์ง
์คํ ํ๋กํ ์ฝ
๊ฐ ์์ ์ ๋ํด ๋ค์ ์กฐ๊ฑด์ผ๋ก ์คํํฉ๋๋ค:
๋ฐ์ดํฐ ์์ง: ์ธ๊ฐ ์กฐ์์๊ฐ ํ ๋ ์คํผ๋ ์ด์ ์ผ๋ก ์์ฐ ๋ฐ์ดํฐ ์์ง
์ ์ฑ ๋ณํ:
| ์ ์ฑ | ์ฝ์ด | ์ค๋ช |
|---|---|---|
| Vision Only | VO | ์ด๊ฐ ์ ๋ ฅ ์์ด ์๊ฐ๋ง ์ฌ์ฉ |
| Vision + Tactile | VT | ์๊ฐ๊ณผ ์ด๊ฐ ๋ชจ๋ ์ฌ์ฉ |
| Vision + Tactile + Augmentation | VTA | Vision Dropout ์ ์ฉ |
ํ์ต: ๊ฐ ์์ ๋น 50ํ์ ์์ฐ์ผ๋ก ACT ์ ์ฑ ํ์ต
ํ๊ฐ: 10ํ ๋กค์์์ผ๋ก ์ฑ๊ณต๋ฅ ์ธก์
๊ฒฐ๊ณผ ๋ถ์
์ ๋์ ๊ฒฐ๊ณผ
| ์์ | VO | VT | VTA | ํฅ์ (VOโVTA) |
|---|---|---|---|---|
| ๋ณ๋๊ป ์ด๊ธฐ | 0% | 0% | 30% | +30%p |
| ํ๋ผ์คํฐ์ ์๋ฅด๊ธฐ | 40% | 40% | 70% | +30%p |
| ์ ์ ์ง์ด ์ฎ๊ธฐ๊ธฐ | 50% | 100% | 100% | +50%p |
๊ฒฐ๊ณผ ํด์
๋ณ๋๊ป ์ด๊ธฐ: ๊ฐ์ฅ ์ด๋ ค์ด ์์ ์ผ๋ก, ์๊ฐ๋ง์ผ๋ก๋ ์์ ํ ์คํจํฉ๋๋ค. ์ฌ์ง์ด ์ด๊ฐ์ ์ถ๊ฐํด๋(VT) ๊ฐ์ ์ด ์์ต๋๋ค! ์ด๋ ๋ชจ๋ธ์ด ์ด๊ฐ ์ ๋ณด๋ฅผ ์ ๋๋ก ํ์ฉํ์ง ๋ชปํจ์ ์๋ฏธํฉ๋๋ค. Vision Dropout(VTA)์ ์ ์ฉํด์ผ ๋น๋ก์ 30% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํฉ๋๋ค.
์คํจ ๋ชจ๋ ๋ถ์: - VO/VT: ๋๊ป์ ์ ์ดํ์ง ์๊ฑฐ๋, ์๋ชป๋ ๋ฐฉํฅ์ผ๋ก ํ์ ๊ฐํจ - VTA (์คํจ ์): ์ด๊ธฐ ํ์ง๊ฐ ๋ถ์์ ํ์ฌ ๋นํ๊ธฐ ์ค ๋ฏธ๋๋ฌ์ง
ํ๋ผ์คํฐ์ ์๋ฅด๊ธฐ: ๋๊ตฌ ์ฌ์ฉ ์์ ์์๋ ์ด๊ฐ + Vision Dropout ์กฐํฉ์ด ์ค์ํฉ๋๋ค. 70%๋ก ๊ฐ์ฅ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด์ง๋ง, ์ฌ์ ํ 30%๋ ์คํจํฉ๋๋ค. ์ฃผ์ ์คํจ ์์ธ์ ์นผ์ด ํ๋ผ์คํฐ์ ์ ์์ ํ ๊ดํตํ์ง ๋ชปํ๋ ๊ฒ์ ๋๋ค.
์ ์ ์ง์ด ์ฎ๊ธฐ๊ธฐ: ์ด ์์ ์์ ์ด๊ฐ์ ํจ๊ณผ๊ฐ ๊ฐ์ฅ ๊ทน์ ์ ๋๋ค. VO์ 50%์์ VT/VTA์ 100%๋ก ๋์ฝํฉ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ์ด ์์ ์์๋ Vision Dropout ์์ด๋ ์ถฉ๋ถํฉ๋๋คโ์๋ง๋ ์ฌ๋ผ์ด๋ฉ ๋์์์ ์ด๊ฐ ํผ๋๋ฐฑ์ด ๋งค์ฐ ์ง๊ด์ ์ด๊ธฐ ๋๋ฌธ์ผ ๊ฒ์ ๋๋ค.
์ด๊ฐ ์ผ์ฑ์ ์ญํ ์ ๋ํ ํต์ฐฐ
์คํ ๊ฒฐ๊ณผ์์ ์ป์ ์ ์๋ ํต์ฌ ํต์ฐฐ:
- ์ด๊ฐ ์ผ์ฑ ์์ฒด๋ ํ์์กฐ๊ฑด์ด์ง ์ถฉ๋ถ์กฐ๊ฑด์ด ์๋: VT๊ฐ VO์ ๋์ผํ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝ์ฐ๊ฐ ์์ (๋ณ๋๊ป, ํ๋ผ์คํฐ์ )
- ๋ชจ๋ธ์ด ์ด๊ฐ์ ํ์ฉํ๋๋ก โ๊ฐ์ โํด์ผ ํจ: Vision Dropout์ด ์ด ์ญํ ์ ์ํ
- ์์ ํน์ฑ์ ๋ฐ๋ผ ์ด๊ฐ์ ๊ธฐ์ฌ๋๊ฐ ๋ค๋ฆ: ์ ์ ์์ ์ฒ๋ผ ์ด๊ฐ ํผ๋๋ฐฑ์ด ์ง๊ด์ ์ธ ๊ฒฝ์ฐ ์๋์ผ๋ก ํ์ฉ๋จ
- QDD์ ์ปดํ๋ผ์ด์ธ์ค๊ฐ ํ์ต์ ์์ ํ: ์๋ฐฑ ํ์ ์ํ์ฐฉ์ค์๋ ํ๋์จ์ด ์์ ์์
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
ํตํฉ์ Co-Design: ๊ตฌ๋, ์ผ์ฑ, ๊ธฐ๊ตฌํ์ ๋์ ์ต์ ํ๋ ๋ก๋ด ์ ์ค๊ณ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค. ๊ฐ๋ณ ์์์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๊ฒ๋ณด๋ค, ์ ์ฒด ์์คํ ์ ์กฐํ๊ฐ ์ค์ํจ์ ๋ณด์ฌ์ค๋๋ค.
์ค์ฉ์ ๋น์ฉ: $2,500 ์ดํ์ ๊ฐ๊ฒฉ์ ํ๊ณ์์ ์ถฉ๋ถํ ์ ๊ทผ ๊ฐ๋ฅํ ์์ค์ ๋๋ค. Shadow Hand์ 1/40, Allegro Hand์ 1/6 ๊ฐ๊ฒฉ์ ๋๋ค.
GelSim(ple)์ ์๋ฎฌ๋ ์ด์ ์นํ์ฑ: ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ ๊ฐ์ฅ ํฐ ์ฝ์ ์ธ sim-to-real gap์ ์ค์ผ ์ ์๋ ์ค์ฉ์ ์ค๊ณ์ ๋๋ค.
Vision Dropout์ ๋จ์ํจ๊ณผ ํจ๊ณผ: ๋ณต์กํ attention ๋ฉ์ปค๋์ฆ์ด๋ ๋ณ๋์ fusion ๋ชจ๋ ์์ด, ๋จ์ํ ๋๋กญ์์๋ง์ผ๋ก ์๊ฐ-์ด๊ฐ ์ตํฉ์ ๊ฐ์ ํฉ๋๋ค.
์ฝ์ ๋ฐ ํ๊ณ
์ ํ๋ ์์ ๋: 7 DoF๋ ๋ง์ ์กฐ์ ์์ ์ ์ถฉ๋ถํ์ง ์์ ์ ์์ต๋๋ค. ํนํ in-hand manipulation(์ ์์์ ๋ฌผ์ฒด ํ์ ๋ฑ)์๋ ๋ ๋ง์ DoF๊ฐ ํ์ํฉ๋๋ค.
3์๊ฐ๋ฝ ๊ตฌ์ฑ: ์ฝ์ง์ ์์ง์ ๋ถ์ฌ๋ power grasp์ ์์ ์ฑ์ ์ ํํฉ๋๋ค. ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด๋ ํฐ ๋ฌผ์ฒด ์กฐ์์ ๋ถ๋ฆฌํฉ๋๋ค.
๋ฎ์ ์ฑ๊ณต๋ฅ : ๊ฐ์ฅ ์ด๋ ค์ด ์์ (๋ณ๋๊ป ์ด๊ธฐ)์์ 30% ์ฑ๊ณต๋ฅ ์ ์ค์ฉ์ ์์ฉ์ ๋ถ์กฑํฉ๋๋ค. ๋ฌผ๋ก ์ด๋ ์ ์ฑ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ์ผ ์ ์์ง๋ง, ํ๋์จ์ด๊ฐ ๋ ํ๋ถํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ค๋ฉด ๊ฐ์ ๋ ์ฌ์ง๊ฐ ์์ต๋๋ค.
์ผ์ ํด์๋ vs ์ปค๋ฒ๋ฆฌ์ง ํธ๋ ์ด๋์คํ: 8๊ฐ์ ์ผ์๊ฐ ์ ์ ์ฒด๋ฅผ ์ปค๋ฒํ์ง ๋ชปํฉ๋๋ค. ํนํ ์๊ฐ๋ฝ ์ธก๋ฉด๊ณผ ์๋ฑ์ ์ผ์ฑ ์ฌ๊ฐ์ง๋์ ๋๋ค.
์ค์๊ฐ ์ฒ๋ฆฌ ๋ถ๋ด: 8๊ฐ์ 480ร640 ์ด๋ฏธ์ง๋ฅผ 30Hz๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ ์๋นํ ๊ณ์ฐ ์์์ ์๊ตฌํฉ๋๋ค.
์ฌํ ๊ฐ๋ฅ์ฑ ๋ฐ ํ์ฅ์ฑ
๋ ผ๋ฌธ์์ ๋ช ์์ ์ผ๋ก ๊ณต๊ฐ๋ ์๋ฃ:
- ํ๋ก์ ํธ ์น์ฌ์ดํธ: https://eyesighthand.github.io/
- ํ๋์จ์ด ์ค๊ณ๋: (ํ์ธ ํ์)
- ์ฝ๋: (ํ์ธ ํ์)
์ฌํ์ ์ํด ํ์ํ ์ฃผ์ ์์:
- ๊ธฐ๊ณ ๊ฐ๊ณต: ๊ธ์ ๋ถํ(๋ชจํฐ ๋ง์ดํธ ๋ฑ)์ CNC ๊ฐ๊ณต ํ์
- 3D ํ๋ฆฐํ : ์๊ฐ๋ฝ ์ธ๊ทธ๋จผํธ, ์ผ์ ํ์ฐ์ง
- ์ ์ ๋ถํ: MJBOTS Moteus N1, Arducam ๋ชจ๋ ๋ฑ
- ์กฐ๋ฆฝ ์ ๋ฌธ์ฑ: QDD ์์คํ ๊ณผ ๋ฒจํธ ํ ์ ๋์ ๊ฒฝํ์ด ํ์ํจ
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
LEAP Hand์์ ๋น๊ต
| ํน์ฑ | EyeSight Hand | LEAP Hand |
|---|---|---|
| DoF | 7 | 16 |
| ๊ฐ๊ฒฉ | ~$2,500 | ~$2,000 |
| ์ด๊ฐ ์ผ์ฑ | 8๊ฐ GelSim(ple) | ์์ |
| ๊ตฌ๋ ๋ฐฉ์ | QDD + DC | ์ง์ ๊ตฌ๋ |
| ์ธ๊ฐํ ์ ๋ | ๋ณดํต (3์๊ฐ๋ฝ) | ๋์ (4์๊ฐ๋ฝ) |
LEAP Hand๋ ๋ ๋ง์ DoF์ ์ธ๊ฐํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง๋ง, ์ด๊ฐ ์ผ์ฑ์ด ์์ต๋๋ค. EyeSight Hand๋ DoF๋ฅผ ํฌ์ํ์ฌ ์ด๊ฐ ์ผ์ฑ์ ํตํฉํ์ต๋๋ค.
GelSight ๊ณ์ด ์ผ์์์ ๋น๊ต
| ์ผ์ | ํํ | ์กฐ๋ช | ์ถ๋ ฅ | ์๋ฎฌ๋ ์ด์ |
|---|---|---|---|---|
| GelSight (์๋ณธ) | ํ๋ฉด | RGB ๋ฐฉํฅ์ฑ | ๊น์ด๋งต | ์ด๋ ค์ |
| GelSlim | ์ฌ๋ฆผ ํ๋ฉด | RGB ๋ฐฉํฅ์ฑ | ๊น์ด๋งต | ์ด๋ ค์ |
| GelSight Wedge | ์๊ธฐํ | RGB ๋ฐฉํฅ์ฑ | ๊น์ด๋งต | ์ด๋ ค์ |
| Digit | ์ปดํฉํธ | RGB | ๊น์ด๋งต | ๋ณดํต |
| GelSim(ple) | ๋ค์ | ๋น๋ฐฉํฅ์ฑ | ๊ทธ๋ ์ด์ค์ผ์ผ | ์ฌ์ |
GelSim(ple)์ ๊น์ด ๋งต ๋์ ๊ทธ๋ ์ด์ค์ผ์ผ ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅํ์ฌ ํด์๋ ์ ๋ณด๋ฅผ ์ผ๋ถ ํฌ๊ธฐํ์ง๋ง, ์๋ฎฌ๋ ์ด์ ์ฉ์ด์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๋ฏธ๋ ๋ฐฉํฅ ์ ์
ํ๋์จ์ด ๊ฐ์
DoF ํ์ฅ: ์ฝ์ง ์ถ๊ฐ ๋๋ ๊ธฐ์กด ์๊ฐ๋ฝ์ ๋ด์ /์ธ์ ์์ ๋ ์ถ๊ฐ๋ฅผ ํตํด ์กฐ์ ๋ค์์ฑ์ ๋์ผ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์ผ์ ํตํฉ๊ณผ ์ ์ด ๋ณต์ก๋ ์ฆ๊ฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
์ผ์ ์ปค๋ฒ๋ฆฌ์ง ํ๋: ์๊ฐ๋ฝ ์ธก๋ฉด์ ์ถ๊ฐ ์ผ์๋ฅผ ๋ฐฐ์นํ๊ฑฐ๋, ์ ์ฒด ์๋ฑ์ ์ปค๋ฒํ๋ ๋๋ฉด์ ์ผ์๋ฅผ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
๋ ๊ฐ๋ฒผ์ด ์ค๊ณ: ํ์ฌ ์ค๊ณ์์ ์ผ์ ๋ชจ๋์ ๋ฌด๊ฒ๊ฐ ์๋น ๋ถ๋ถ์ ์ฐจ์งํฉ๋๋ค. ์ํํ๋ ์นด๋ฉ๋ผ ๋ชจ๋๊ณผ ๋ ์์ ํ์ฑ์ฒด๋ฅผ ์ฌ์ฉํ๋ฉด ๊ด์ฑ์ ์ค์ผ ์ ์์ต๋๋ค.
์๊ณ ๋ฆฌ์ฆ ๊ฐ์
๋ค์ค ๋ชจ๋ฌ ํํ ํ์ต: Vision Dropout์ ํด๋ฆฌ์คํฑํ ๋ฐฉ๋ฒ์ ๋๋ค. ์๊ฐ๊ณผ ์ด๊ฐ์ ์ํธ๋ณด์์ ํํ์ ํ์ตํ๋ contrastive learning์ด๋ mutual information maximization ๊ธฐ๋ฒ์ ์ ์ฉํ ์ ์์ต๋๋ค.
๊ณ์ธต์ ์ ์ฑ : ์ ์์ค ์ด๊ฐ ๋ฐ์ฌ(์: ๋ฏธ๋๋ฌ์ง ๊ฐ์ง ์ ํ ์ฆ๊ฐ)์ ๊ณ ์์ค ์์ ๊ณํ์ ๋ถ๋ฆฌํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๊ฐ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
Sim-to-Real ์ ์ด: GelSim(ple)์ ์๋ฎฌ๋ ์ด์ ์ฉ์ด์ฑ์ ํ์ฉํ์ฌ, ์๋ฎฌ๋ ์ด์ ์์ ๋๊ท๋ชจ ํ์ต ํ ์ค์ธ๊ณ ๋ฏธ์ธ์กฐ์ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
์์ฉ ํ์ฅ
ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํตํฉ: EyeSight Hand์ ์ปดํฉํธํ ์ค๊ณ์ QDD ๊ตฌ๋์ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์์ผ๋ก ์ ํฉํฉ๋๋ค.
์๊ฒฉ ์กฐ์ ์์คํ : ํ๋ถํ ์ด๊ฐ ํผ๋๋ฐฑ์ ์๊ฒฉ ์์ ์ด๋ ์ํ ํ๊ฒฝ ์๊ฒฉ ์กฐ์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
๋ณด์กฐ ๊ธฐ๊ธฐ: ์ ๋น์ฉ๊ณผ ์ปดํ๋ผ์ด์ธ์ค๋ ์์(prosthetic hand) ์์ฉ์๋ ์ ๋งํฉ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
EyeSight Hand๋ ๋ก๋ด ์ ์ค๊ณ์ ์ธ ๊ฐ์ง ํต์ฌ ์์โ์ปดํ๋ผ์ด์ธ์ค, ์ด๊ฐ ์ผ์ฑ, ์ธ๊ฐํ ํํโ๋ฅผ $2,500 ์ดํ์ ๋น์ฉ์ผ๋ก ํตํฉํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ
Quasi-Direct Drive ๊ตฌ๋ ์์คํ : ์ธ๊ฐ ์์ค์ ํ๊ณผ ์๋๋ฅผ ์ ๊ณตํ๋ฉด์๋ backdrivableํ๊ณ ๊ฐ๊ฑดํ ๊ตฌ๋
GelSim(ple) ์ด๊ฐ ์ผ์: ๋ค์ํ ํํ์ ์ ์ ๊ฐ๋ฅํ๊ณ ์๋ฎฌ๋ ์ด์ ์ด ์ฉ์ดํ ์๋ก์ด ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์
Vision Dropout ํ์ต ์ ๋ต: ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ์๊ฐ-์ด๊ฐ ์ตํฉ ๊ธฐ๋ฒ
ํตํฉ ์ค๊ณ ํ๋ ์์ํฌ: ๊ตฌ๋, ์ผ์ฑ, ๊ธฐ๊ตฌํ์ co-design ๋ฐฉ๋ฒ๋ก
ํต์ฌ ํ๊ณ
- ์ ํ๋ ์์ ๋ (7 DoF)๋ก ์ธํ ์กฐ์ ๋ค์์ฑ ์ ์ฝ
- ๊ฐ์ฅ ์ด๋ ค์ด ์์ ์์ 30%์ ๋ฎ์ ์ฑ๊ณต๋ฅ
- ์ผ์ ์ปค๋ฒ๋ฆฌ์ง์ ํ๊ณ
๋ก๋ด๊ณตํ์ ๋ํ ์์ฌ์
EyeSight Hand๊ฐ ๋ณด์ฌ์ฃผ๋ ๊ฐ์ฅ ์ค์ํ ๊ตํ์, ์ด๊ฐ ์ผ์ฑ์ ๊ฐ์น๋ ๊ทธ๊ฒ์ ํ์ฉํ๋๋ก ํ์ต ์์คํ ์ ์ค๊ณํด์ผ๋ง ๋ฐํ๋๋ค๋ ๊ฒ์ ๋๋ค. ๋จ์ํ ์ผ์๋ฅผ ์ถ๊ฐํ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค.
๋ํ, ํ๋์จ์ด์ ์ํํธ์จ์ด์ co-design์ด ๊ฐ๊ฐ์ ๊ฐ๋ณ ์ต์ ํ๋ณด๋ค ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. GelSim(ple)์ ์กฐ๋ช ์ค๊ณ๋ ์๋ฎฌ๋ ์ด์ ์ฉ์ด์ฑ์ ์ํด ํด์๋๋ฅผ ์ผ๋ถ ํฌ๊ธฐํ์ง๋ง, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ ์ค์ฉ์ ์ธ ์์คํ ์ด ๋์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ก๋ด ํ์ต ์ฐ๊ตฌ์์ ํ๋์จ์ด์ ์ค์์ฑ์ ์๊ธฐ์์ผ์ค๋๋ค. ์๋ฌด๋ฆฌ ์ข์ ์๊ณ ๋ฆฌ์ฆ๋ ์ ์ ํ ์ผ์ฑ๊ณผ ๊ตฌ๋ ์์ด๋ ๋ณต์กํ ์กฐ์์ ๋ฌ์ฑํ ์ ์์ต๋๋ค. EyeSight Hand๋ ๊ทธ ๊ท ํ์ ์ ์ฐพ์ผ๋ ค๋ ์๋ฏธ ์๋ ์๋์ ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- Romero, B., Fang, H.-S., Agrawal, P., & Adelson, E. (2024). EyeSight Hand: Design of a Fully-Actuated Dexterous Robot Hand with Integrated Vision-Based Tactile Sensors and Compliant Actuation. IROS 2024.
- Zhao, T. Z., Kumar, V., Levine, S., & Finn, C. (2023). Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. RSS 2023.
- Shaw, K. (2023). LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning. RSS 2023.
- Yuan, W., et al. (2017). GelSight: High-Resolution Robot Tactile Sensors for Estimating Geometry and Force. Sensors.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
EyeSight Hand: ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์๋ฅผ ํตํฉํ ์ปดํ๋ผ์ด์ธํธ ์์ ๊ตฌ๋ ๋ก๋ด ์ (์ฌ์ธต ๋ฆฌ๋ทฐ)
์๋ก : ์ธ๊ฐ ์์ ์ง๋ฅ์ ๋ก๋ด์ ๋ด๊ธฐ ์ํ ๋์
์ธ๊ฐ์ ์์ ์ ๊ตํ ๊ตฌ์กฐ์ ์ ์ฐํ ๊ตฌ๋ ๊ทธ๋ฆฌ๊ณ ์ด๊ฐ ์ผ์ฑ์ ์ ๋ฌํ ๊ฒฐํฉ์ผ๋ก ๋๋ผ์ด ๋ค์ฌ๋ค๋ฅํจ์ ๋ณด์ฌ์ค๋๋ค. ์์ญ ๊ฐ์ ๊ด์ ๊ณผ ๊ทผ์ก, ํ์ค์ด ๋ง๋ค์ด๋ด๋ ํ์ฑ์ ์์ง์ ๋๋ถ์ ์ฐ๋ฆฌ๋ ๊ณ๋๊ป์ง์ฒ๋ผ ์ฐ์ฝํ ๋ฌผ์ฒด๋ถํฐ ๋จ๋จํ ๋๊ตฌ๊น์ง ์ฌ์ธํ๊ฑฐ๋ ๊ฐ๋ ฅํ๊ฒ ์กฐ์ํ ์ ์์ฃ . ๋ํ ์๋ฐ๋ฅ๊ณผ ์๊ฐ๋ฝ ๊ณณ๊ณณ์ ๋ถํฌํ ๋์ ๋ฐ๋์ ์ด๊ฐ ์์ฉ๊ธฐ๋ ์ ์ดํ ๋ฌผ์ฒด์ ๋ชจ์๊ณผ ํ์ ๊ฐ์งํ์ฌ ์ ๋ฐ ์ ์ด๋ฅผ ๊ฐ๋ฅ์ผ ํฉ๋๋ค. ์ด๋ฌํ ๋ณตํฉ์ ์ธ ๋ฅ๋ ฅ์ ๊ธฐ๊ณ๋ก ๊ตฌํํ๋ ๊ฒ์ ๋ก๋ด๊ณตํ์ ์ค๋ ๋์ ๊ณผ์ ์์ต๋๋ค.
๊ธฐ์กด์ ๋ก๋ด ์ ์ฐ๊ตฌ๋ค์ ์ธ๊ฐ ์์ ์ผ๋ถ ์ธก๋ฉด๋ง์ ๋ชจ๋ฐฉํด์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์์ ๊ตฌ๋(fully-actuated) ๋ก๋ด ์๋ค์ ๋ชจ๋ ๊ด์ ์ ๋ชจํฐ๋ก ์์ง์ด์ง๋ง ๋์ ๊ธฐ์ด ๊ฐ์๋น๋ก ์ธํด ์ญ๊ตฌ๋์ฑ(backdrivability)์ด ๋ฎ๊ณ ์ธ๋ถ ํ์ ์์ํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ์ด๋ ์ถฉ๋์ด๋ ์ธ๋ ฅ์ ์ทจ์ฝํ๊ณ ์ ์ฐํ ์กฐ์์ ํ๊ณ๋ฅผ ์ฃผ์ฃ . ๋ฐ๋๋ก, ๊ณต๊ธฐ์์ด๋ ์ํํธ ์์ฌ๋ก ๋ง๋ ์ ์ฐ ์(soft hand)๋ค์ ์ถฉ๊ฒฉ์๋ ๊ฐํ์ง๋ง ์ ๊ตํ ์ ์ด๊ฐ ์ด๋ ต๊ณ , ๋ง์ ์์ ๋๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๊ตฌ๋ํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ํ ์ ์ ์ฒด์ ์ด๊ฐ ์ผ์๋ฅผ ๋นฝ๋นฝ์ด ๋ฃ๋ ๊ฒ์ ๋์ฑ ์ด๋ ค์์, ๊ธฐ์กด์๋ ์๊ฐ๋ฝ ๋ ์ผ๋ถ์ ์ ํด์๋ ์ผ์๋ฅผ ๋ถ์ด๋ ์ ๋์ ๊ทธ์น๊ฑฐ๋ ์์ ์ด๊ฐ ์์ด ์๊ฐ์ ์์กดํ ์ฌ๋ก๊ฐ ๋ง์์ต๋๋ค. Denseํ ์ด๊ฐ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํ ์๊ฐ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์(์: GelSight)๋ฅผ ์์ ์ ์ฉํ๋ ค๋ ์๋๋ ์์์ง๋ง, ๋์ฒด๋ก 2~3์์ ๋์ ๊ฐ๋จํ ๊ทธ๋ฆฌํผ๋ ์๋์ ์ ํ์ ์ผ๋ก ๋ถ์ฐฉํ๋ ์์ค์ด์์ฃ .
์ ์ด๋ฐ ์์๋ค์ด ์ค์ํ ๊น์? ๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ค๋ฉด ์ถฉ๋์ด๋ ํฐ ํ์๋ ๋ถ์์ง์ง ์๋ ํ๋์จ์ด์ ํ์ฑ์ด ํ์ํ๊ณ , ์ ๋ฐํ ์กฐ์์๋ ์ด๊ฐ ํผ๋๋ฐฑ์ด ํ์์ ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ ์๊ณผ ์ ์ฌํ ํํ์ ์์ง์ ๋ฒ์๋ฅผ ๊ฐ์ง๋ฉด ์ฌ๋์ด ์ง์ ๋ก๋ด ์์ ์กฐ์ข (teleoperation)ํ์ฌ ์๋ฒ์ ๋ณด์ด๊ฑฐ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ๋ ์์ํฉ๋๋ค. ์ต๊ทผ ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ๋ก๋ด์ด ์ค์ค๋ก ๋ณต์กํ ์กฐ์์ ํ์ตํ๊ฒ ํ๋ ค๋ฉด, ๋๋์ ์๋ฒ ๋ฐ์ดํฐ์ ์คํ์ ๋ฒํ จ๋ผ ํผํผํ๊ณ ๋ฏผ๊ฐํ ๋ก๋ด ์์ด ์๊ตฌ๋ฉ๋๋ค.
EyeSight Hand๋ ์ด๋ฌํ ์๊ตฌ๋ฅผ ๋ชจ๋ ๋ง์กฑ์ํค๋ ค๋ ์ผ์ฌ์ฐฌ ์๋๋ก ๋ฑ์ฅํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ MIT์ Toyota Research Institute ์ฐ๊ตฌ์ง์ด ๊ฐ๋ฐํ 7์์ ๋(7-DoF)์ ์ธ๊ฐํ ๋ก๋ด ์ EyeSight Hand๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ๋ก๋ด ์์ ๋ค์๊ณผ ๊ฐ์ ํน์ง๊ณผ ๊ธฐ์ฌ๋ฅผ ๋ด์ธ์ฐ๊ณ ์์ต๋๋ค:
- ์ค-์ง์ ๊ตฌ๋(quasi-direct drive) ๋ฐฉ์์ ์ธ๊ฐํ ์์ ํตํฉํ์ฌ, ๋์ ํ๊ณผ ์๋๋ฅผ ๋ด๋ฉด์๋ ํ๋ ฅ์ (compliant)์ผ๋ก ์์ง์ด๋ ๊ตฌ๋๊ณ๋ฅผ ์ค๊ณํ์ต๋๋ค. ์ฝ๊ฒ ๋งํด, ์ฌ๋ ์๊ฐ๋ฝ์ฒ๋ผ ์ธ๋ ฅ์ด ๊ฐํด์ง๋ฉด ์ ์ ํ โ๋ฌผ๋ฌ์ฃผ๋ฉฐโ ๋ถ์์ง์ง ์๊ณ , ๋ค์ ๋น ๋ฅด๊ฒ ์ ์๋ฆฌ๋ก ์์ง์ผ ์ ์๋ ์๊ฐ๋ฝ์ ๋๋ค.
- ์๋ก์ด ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์์ธ GelSim(ple)์ ์ค๊ณํ์ฌ, ์๊ฐ๋ฝ๊ณผ ์๋ฐ๋ฅ์ ํฌํจํ ์ ์ ์ฒด 8๊ตฐ๋ฐ์ ๊ณ ํด์๋ ์ด๊ฐ ์ผ์ฑ์ ๊ตฌํํ์ต๋๋ค. ์ฌ๋์ผ๋ก ์น๋ฉด ์ ๋๋ฟ ์๋๋ผ ์๋ฐ๋ฅ๊น์ง ํผ๋ถ ๊ฐ๊ฐ์ ๋ถ์ฌํ ์ ์ ๋๋ค. ์ด ์ผ์๋ ์ด์ ์ธ๋ GelSight ์์ค์ ๋ฏผ๊ฐ๋๋ฅผ ์ ์งํ๋ฉด์๋ ์ฌ๋ฌ ๊ณก๋ฉด ํํ์ ๋ง๊ฒ ์ ์ฉํ ์ ์๊ณ , ์๋ฎฌ๋ ์ด์ ์ผ๋ก๋ ์ฌํํ๊ธฐ ์ฝ๊ฒ ๋ง๋ค์ด์ก์ต๋๋ค.
- ์ด๋ฌํ ๊ตฌ๋๊ณ์ ์ผ์๋ฅผ ํตํฉํ๋ฉด์๋ ์์ ํฌ๊ธฐ์ ํํ๋ฅผ ์ธ๊ฐ ์๊ณผ ๊ฐ๊น๊ฒ ๋์์ธํ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๋ณต์กํ ์ขํ ๋ณํ ์์ด๋ ์ฌ๋ ์์ ๋์์ ๋ก๋ด ์์ ์ง๊ด์ ์ผ๋ก ๋์์ํฌ ์ ์์ด, ํน๋ณํ ์ฅ์น๋ ๋ณต์กํ ์ฐ์ฐ ์์ด๋ ์ฅ๊ฐ์ ๋ผ๊ณ ๋ฐ๋ก ๋ก๋ด ์์ ์๊ฒฉ ์กฐ์ํ ์ ์์ต๋๋ค.
- ๋์ผ๋ก, EyeSight Hand์ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ๋์ ์ ์์ (์ผ์ฐน ๋ณ ๋๊ป ์ด๊ธฐ, ์ ์ ๋ฐ์ด ์ง์ด ์ฎ๊ธฐ๊ธฐ, ๊ณต์์ฉ ์ ํ ์๋ฅด๊ธฐ)์ ์ค๊ณํ์ฌ ์๋ฐฑ ํ์ ์ด๋ฅด๋ ์คํ์ ์งํํ๊ณ , ์ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ฐฉ ํ์ต(imitation learning) ๊ธฐ๋ฐ์ ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ํ๋ จํ์ต๋๋ค. ํนํ ํ์ต ๊ณผ์ ์์ ์๊ฐ ์ ๋ณด ๋๋กญ์์(vision dropout)์ด๋ผ๋ ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๋ก๋ด์ด ์ด๊ฐ ์ ๋ณด์ ์์กดํ๋๋ก ์ ๋ํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ ์ด๊ฐ ํตํฉ์ ํจ๊ณผ๋ฅผ ์ ๋์ ์ผ๋ก ์ ์ฆํ์ต๋๋ค.
๋ณธ ๋ฆฌ๋ทฐ์์๋ EyeSight Hand ๋ ผ๋ฌธ์ ํต์ฌ ๋ด์ฉ๊ณผ ๊ทธ ์๋ฏธ๋ฅผ ๋ก๋ด๊ณตํ์์ ์๊ฐ์์ ๊น์ด ์๊ฒ ๋ถ์ํ๊ฒ ์ต๋๋ค. ์ฐ์ ํ๋์จ์ด ์ค๊ณ์ ์ด๊ฐ ์ผ์ ๊ธฐ์ ์ ์ดํด๋ณธ ๋ค, ์ ์ด ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ์ต ๋ฐฉ๋ฒ์ ๋ค์ฌ๋ค๋ณด๊ฒ ์ต๋๋ค. ์ด์ด์ ์คํ ์ค์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํ๋ฉฐ, ๋ง์ง๋ง์ผ๋ก ์ด ์ ๊ทผ์ ๊ฐ์ ๊ณผ ํ๊ณ๋ฅผ ์ง์ด๋ณด๊ณ ํฅํ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ ผ์ํ๊ฒ ์ต๋๋ค. Richard Feynman ๊ต์๊ฐ ๋ณต์กํ ๊ฐ๋ ์ ์๊ธฐ ์ฝ๊ฒ ํ์ด์ฃผ๋ฏ, ์ต๋ํ ์น์ ํ๊ณ ์ง๊ด์ ์ธ ์ค๋ช ์ ๊ณ๋ค์ฌ๋ณด๊ฒ ์ต๋๋ค.
๋ฐฉ๋ฒ: EyeSight Hand์ ์ค๊ณ์ ์ ์ด ๊ธฐ๋ฒ
EyeSight Hand์ ๊ตฌ์กฐ ์ค๊ณ์ ์ค-์ง์ ๊ตฌ๋
EyeSight Hand์ ๋ชฉํ๋ ์ธ๊ฐ ์์ ์ด๋ ๋ฒ์์ ํ, ํ์ฑ์ ์ต๋ํ ๊ตฌํํ๋ฉด์๋ ๋ด๊ตฌ์ฑ๊ณผ ์ ๋ฐ ์ ์ด๋ฅผ ์๋ฆฝํ๋ ๊ฒ์ด์์ต๋๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ ์ธ๊ฐ ์์ ์ด๋ํ์ ๊ตฌ์กฐ๋ฅผ ๋ฉด๋ฐํ ๋ถ์ํ๊ณ ์ผ๋ถ ์ ์ถฉ์ ์ ํํ์ต๋๋ค. ์ธ๊ฐ ์์ ๊ฐ ์๊ฐ๋ฝ์ ์ฌ๋ฌ ๊ด์ ์ด ์์ง๋ง, EyeSight Hand์์๋ ์ค๊ณ ๋จ์ํ๋ฅผ ์ํด ์ผ๋ถ ๊ด์ ์ ์๋ตํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๊ฒ์ง์ ์ค์ง์๋ ๊ตฝํ ๊ด์ ์ธ PIP(๊ทผ์์ง์ ๊ด์ )๋ง ์์ง์ด๊ณ ๊ทธ ๋ ๋ง๋ DIP(์์์ง์ ๊ด์ )๋ ๊ณ ์ ๋์ด ์์ต๋๋ค. ๋ํ ์ด๋ค ์๊ฐ๋ฝ์ ์์ผ๋ก ๋ฒ๋ฆฌ๋ ๊ด์ (MCP์ ์ธก๋ฉด ํ์ )๋ ์์ต๋๋ค. ์์ง์ ๊ฒฝ์ฐ๋ ๋ง์ฐฌ๊ฐ์ง๋ก, ์๋ฐ๋ฅ๊ณผ ๋ง๋๋ ๊ธฐ์ ๊ด์ (MCP)์ ์๋ตํ๊ณ ์์ง ๋๋ง๋(IP)์ ์๋ชฉ ์ชฝ ์์ฅ๊ด์ (TM)๋ง์ ๊ตฌํํ์ต๋๋ค. ์ด๋ฌํ ์ ์ถฉ์ผ๋ก EyeSight Hand๋ ์ด 7๊ฐ์ ์์ ๋๋ฅผ ๊ฐ์ต๋๋ค (๊ฒ์ง 2, ์ค์ง 2, ์์ง 3). ๋น๋ก ์ธ๊ฐ ์๋ณด๋ค ๊ด์ ์๋ ์ค์์ง๋ง, ํต์ฌ์ ์ธ ์ง๊ธฐ์ ์ฅ๊ธฐ ๋์์ ์ฌํํ๊ธฐ์๋ ์ถฉ๋ถํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
๊ตฌ๋๊ณ(Actuation)๋ EyeSight Hand์ ๊ฐ์ฅ ํฐ ํ์ ์ค ํ๋์ ๋๋ค. ์ฌ๋ ์๊ฐ๋ฝ์ ๊ฐ๋งํ ๋๋ฌ๋ณด๋ฉด, ๋๋ง๋ ๊ด์ ์ ๋น๊ต์ ๋ปฃ๋ปฃํ๊ฒ ๋ฒํฐ์ง๋ง ์๊ฐ๋ฝ ๋ฟ๋ฆฌ ๊ด์ ์ ๋ฌผ๋ฌ๋๋ ๊ฒ์ ๋๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ชจ๋ฐฉํ์ฌ, EyeSight Hand๋ ํ ์๊ฐ๋ฝ์ ๋ ์ข ๋ฅ์ ๋ชจํฐ๋ฅผ ์ง๋ ฌ๋ก ๋ฐฐ์นํ์ต๋๋ค. ์์ DC ๋ชจํฐ๊ฐ ๊ณ ๊ฐ์๋น์ ์๊ธฐ์ด(worm gear)๋ฅผ ๊ตฌ๋ํ์ฌ ์๊ฐ๋ฝ์ PIP/IP ๊ด์ ์ ์์ง์ด๊ณ , ํฐ BLDC ๋ชจํฐ๊ฐ ๋ฎ์ ๊ฐ์๋น(5.23:1)์ ํ๋๋ํฐ๋ฆฌ ๊ธฐ์ด๋ฅผ ํตํด MCP/TM ๊ด์ ์ ์์ง์ ๋๋ค. ์ด๋ฐ ๊ตฌ์ฑ์์ ์๊ฐ๋ฝ ๋ ๊ด์ (PIP/IP)์ ์๊ธฐ์ด์ ์๊ธฐ์ ๊ธ ํน์ฑ ๋๋ถ์ ์ธ๋ ฅ์ ์ฝ๊ฒ ๋ฐ๋ฆฌ์ง ์๊ณ ๋ฒํฐ๋ ๋ฐ๋ฉด, ์๊ฐ๋ฝ ๋ฟ๋ฆฌ ๊ด์ (MCP/TM)์ ๋ฎ์ ๊ฐ์๋น BLDC ๋๋ถ์ ์ธ๋ ฅ์ ๋ํด ์ฝ๊ฒ ์๋ณดํ๋ฉฐ ๋ค๋ก ๋์๊ฐ๋ ํ์ฑ์ ๋ณด์ ๋๋ค. ๋ง์น ์๊ฐ๋ฝ ๋์ ๋จ๋จํ ์ก๊ณ , ์๊ฐ๋ฝ ๋ฟ๋ฆฌ๋ ์คํ๋ง์ฒ๋ผ ์ถฉ๊ฒฉ์ ํก์ํ๋ ํจ๊ณผ๋ฅผ ๋ธ ๊ฒ์ด์ฃ . ์ด๋ฌํ ์ค-์ง์ ๊ตฌ๋ ๋ฐฉ์์ ์์ ๊ฐํด์ง๋ ํฐ ํ์ ๋ชจํฐ์ ๋ถ์ฐ์ํค๋ฏ๋ก ๊ณ ์ฅ์ ๊ฐํฉ๋๋ค. ์ค์ ๋ก ์๊ธฐ์ด๋ ๋์ ๊ฐ์๋น๋ก ํฐ ํ ํฌ๋ฅผ ์์ ๊ณต๊ฐ์์ ์ ๊ณตํ๋ฉฐ ์ค์ค๋ก ์ ๊ฒจ(PIP ๊ด์ ๊ณ ์ ) ์ถฉ๊ฒฉ์ BLDC๋ก ์ ๋ฌํด์ค๋๋ค. BLDC ๋ชจํฐ๋ ๋ฎ์ ๊ธฐ์ด๋น๋ก ์ธํด ๋ง์ฐฐ๊ณผ ๊ด์ฑ์ด ์์ ์ธ๋ ฅ์ ์์ํ๊ณ ์ญ๋ฐฉํฅ ๊ตฌ๋์ด ์ฉ์ดํ๋ฉฐ, ํ๋๋ํฐ๋ฆฌ ๊ธฐ์ด ๊ตฌ์กฐ๋ก ํ์ค์ ์ฌ๋ฌ ๊ธฐ์ด์ ๋ถ์ฐํ์ฌ ๋ด๊ตฌ์ฑ์ ๋์์ต๋๋ค. ์์ฝํ๋ฉด, ์์ ๋ชจํฐ+์๊ธฐ์ด ์กฐํฉ์ด ๊ฐ์ธํ ํ๊ณผ ๊ณ ์ ์ฑ์, ํฐ ๋ชจํฐ+์ ๊ฐ์ ๊ธฐ์ด๊ฐ ๋น ๋ฅธ ์๋ต์ฑ๊ณผ ํ์ฑ์ ๋ด๋นํ๋ ์ด์ ๊ตฌ์กฐ์ ๋๋ค.
๊ทธ๋ฆผ 1: EyeSight Hand์ ๊ธฐ๊ณ์ ์ค๊ณ. (a) ์ธ๊ฐ ์๊ณผ EyeSight Hand์ ํฌ๊ธฐ ๋น๊ต โ ์ธ๊ฐ ์์ ๋นํด ์ฝ๊ฐ ์์ง๋ง ๋น์ทํ ๋น์จ์ ๊ฐ์ง. (b) EyeSight Hand์ ์ธํ๊ณผ ์ฃผ์ ์น์. (c) ๊ฒ์ง/์ค์ง์ ๋ด๋ถ ๊ตฌ์กฐ: ์ด๋ก์์ผ๋ก ํ์๋ ์์ DC ๋ชจํฐ+์๊ธฐ์ด๊ฐ PIP ๊ด์ ์ ๊ตฌ๋ํ๊ณ , ๋ ธ๋์์ผ๋ก ํ์๋ BLDC ๋ชจํฐ(5:1 ๊ธฐ์ด๊ฐ์)๊ฐ MCP ๊ด์ ์ ๊ตฌ๋ํจ. (d) ์์ง์ ๋ด๋ถ ๊ตฌ์กฐ: DC ์๋๋ผ์ด๋ธ๊ฐ ์์ง IP ๊ด์ ์, BLDC ๋ชจํฐ๊ฐ ์์ง์ ์์ฅ๊ด์ (TM)์ ๋ ์ถ์ ๋์์ ๊ตฌ๋ํ๋๋ก ์ค๊ณ๋จ. ์ด์ฒ๋ผ ํ๋์ ์๊ฐ๋ฝ์ ์๋ก ๋ค๋ฅธ ํน์ง์ ๊ตฌ๋๊ธฐ๋ฅผ ๋ฐฐ์นํ์ฌ ํ๊ณผ ์๋, ํ์ฑ์ ๋ชจ๋ ๋ง์กฑ์ํจ๋ค.
์ด ๊ตฌ๋๊ณ์ ์ฑ๋ฅ์ ์ธ์์ ์ ๋๋ค. ์๊ฐ๋ฝ ๋์ผ๋ก ์ง์์ ์ผ๋ก 19N ์ ๋๋ฅผ ๋๋ฌ๋ ๊ฒฌ๋ ์ ์๊ณ , ์ต๋ 57N์ ํ๊น์ง ๋ด๋ฉฐ, ์ต๋ ์๋๋ ๋ถ๋น 420ํ์ (RPM)์ ๋ฌํฉ๋๋ค. ์ด๋ ์ธ๊ฐ ์๊ฐ๋ฝ์ ํ๊ณผ ์๋ ๋ฒ์ฃผ์ ๊ทผ์ ํ ์์น์ ๋๋ค. ๋ฌด์๋ณด๋ค๋, ๊ณ ํ ํฌ ๊ตฌ๋๊ธฐ์ ์ฌ์ ๋ก์ด ์ฌ์ ๋๋ถ์ ์ฐ์ ์๋์ ๋ฐ์ด์ด๋ ๊ณผ๋ถํ ์์ด ์์ ์ ์ผ๋ก ๋์ํฉ๋๋ค. ๊ธฐ์กด ์ํ ์๋ณด ๊ธฐ๋ฐ ์๋ค์ด ์ง์ ๊ตฌ๋์ ๊ณผ์ด๋๊ฑฐ๋ ํฐ ํ์์ ๊ธฐ์ด๊ฐ ์์๋๊ธฐ ์ฌ์ ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ด์ฃ . EyeSight Hand๋ ๋ฎ์ ๊ฐ๊ฒฉ(๋ถํ๋น \$2500 ์ดํ)์ผ๋ก ์ด๋ฌํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๋๋์ ์คํ์ ๊ฒฌ๋ ์ ์๋ ์ค์ฉ์ ์ธ ํ๋ซํผ์ ์ ์ํ์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, EyeSight Hand๋ ํผํผํ ์ง๋ ์ฐ๊ฒฐ๊ณผ ๋งํฌ๊ธฐ๊ตฌ๋ก ๊ด์ ์ ๊ตฌ๋ํ์ฌ, ๋ณต์กํ ํ ๋(ํ์ค) ๊ตฌ๋์ ์ฐ๋ ๋ก๋ด ์๋ค๋ณด๋ค ๊ตฌ์กฐ์ ๊ฒฌ๊ณ ํจ์ด ๋์ต๋๋ค. ํ ๋์ ์ฌ์ฉํ๋ Shadow Hand ๋ฑ์ ํ๋ซํผ์ ์ฌ๋ฌ ์์ ๋๋ฅผ ์ ๊ณตํ์ง๋ง ์ค์ด ๋์ด์ง๊ฑฐ๋ ๋ง์ฐฐ๋ก ๋ง๋ชจ๋๊ธฐ ์ฌ์ ์ ๋ขฐ์ฑ์ด ๋จ์ด์ก๋๋ฐ, EyeSight Hand๋ ์ง๊ฒฐ ๊ตฌ๋์ผ๋ก ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ฐ์์์ผฐ์ต๋๋ค. ๋ฌผ๋ก , ํ์ฌ๋ ๊ฒ์ง์ ์ค์ง๋ง ๊ตฌํ๋์๊ณ ์ฝ์ง๋ ์๋ผ์๊ฐ๋ฝ์ ์์ด ์์ ํ ์ค์ง(ไบๆ)๋ ์๋์ง๋ง, ์ฐ๊ตฌ์ง์ ํฅํ ์ถ๊ฐ์ ์ธ ์๊ฐ๋ฝ์ ๋ถ์ฌ ๋๊ฐ ๊ณํ์ด๋ผ๊ณ ๋ฐํ๊ณ ์์ต๋๋ค.
ํตํฉ ๋น์ ๊ธฐ๋ฐ ์ด๊ฐ ์ผ์: GelSim(ple)
EyeSight Hand์ ๋ ํ๋์ ๋์ ๋๋ ํน์ง์ ์ ์ ์ฒด๋ฅผ ๊ฐ์ธ๋ ์ด๊ฐ ํผ๋ถ์ ๋๋ค. ์๋ฐ๋ฅ๋ถํฐ ์๊ฐ๋ฝ ๋ง๋ ๋ง๋๊น์ง 7๊ฐ์ ์ด๊ฐ ์ผ์๋ฉด์ด ๋ถํฌ๋์ด ์๊ณ , ์ด๋ก๋ถํฐ 8๊ฐ์ ์์์ด ์ค์๊ฐ์ผ๋ก ์ ๋ ฅ๋ฉ๋๋ค. (์๊ฐ๋ฝ ๋ง๋๋ง๋ค ํ ๊ฐ์ฉ, ์๋ฐ๋ฅ์ ๋ ๊ฐ์ ์ผ์๊ฐ ์๋ค๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.) ์ด๋ ๋ง์น ๋ก๋ด ์ ํ๋ฉด ์๋์ ์์ ์นด๋ฉ๋ผ๋ค์ ๋ฃ์ด๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๋ฌผ์ฒด์ ์ ์ดํ๋ฉด ์ ค๋ฆฌ ๊ฐ์ ํฌ๋ช ์ธต์ด ๋๋ฆฌ๋ฉด์ ๊ทธ ๋ณํ์ด ์นด๋ฉ๋ผ ์์์ผ๋ก ํฌ์ฐฉ๋๋๋ฐ, ์ด ์์์๋ ์ ์ดํ ๋ฌผ์ฒด์ ๋ฏธ์ธํ ํ์ ์ ๋ณด์ ํ ๋ถํฌ๊ฐ ๋ด๊ฒจ ์์ต๋๋ค. ์ฌ๋์ ํผ๋ถ๊ฐ ์ ๊ฒฝ ์ ํธ๋ก ์ ์ด์ ๋๋ผ๋ฏ์ด, EyeSight Hand๋ ์นด๋ฉ๋ผ ์์์ ํตํด ์ด๊ฐ์ โ์๊ฐ์ ์ผ๋กโ ๊ฐ์งํ๋ ๊ฒ์ด์ฃ .
ํ์ง๋ง ๊ธฐ์กด์ GelSight ๊ณ์ด ์ผ์๋ฅผ ๊ทธ๋๋ก ์๊ฐ๋ฝ๋ง๋ค ๋ฃ๊ธฐ๋ ์ด๋ ค์ ์ต๋๋ค. GelSight๋ ์ผ๋ฐ์ ์ผ๋ก ์ธ ๊ฐ์ง ์์์ LED ์กฐ๋ช ์ ์๋ก ๋ค๋ฅธ ๋ฐฉํฅ์์ ๋น์ถ์ด ๋ฌผ์ฒด์ 3์ฐจ์ ํ์์ ์ถ์ ํ๋๋ฐ, ์ผ์๊ฐ ํํํ ๊ฒฝ์ฐ์ ์ ํฉํ์ง ๊ตฝ์ ์๊ฐ๋ฝ์๋ ์ ์ฉ์ด ํ๋ค๊ณ ๊ตฌ์กฐ๊ฐ ๋ณต์กํด์ง๋๋ค. ๋ํ ๊ทธ๋ฆผ์๊ฐ ์๊ธฐ๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ๋ชจ์ฌํ๊ธฐ๋ ๊น๋ค๋กญ์ฃ . ์ฐ๊ตฌ์ง์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด GelSim(ple)๋ผ๋ ๋จ์ํ๋ ์ด๊ฐ ์ผ์ ์ค๊ณ๋ฅผ ๊ณ ์ํ์ต๋๋ค.
GelSim(ple)์ ํต์ฌ ์์ด๋์ด๋ ์กฐ๋ช ๋ฐฉ์์ ๋ฐ๊พธ๋ ๊ฒ์ ๋๋ค. ์ผ์ ํ๋ฉด์ ๊ณ ๋ฅด๊ฒ ๋ฐ๊ธฐ๋ฅผ ์ฃผ๊ธฐ ์ํด, ์ฌ๋ฌ ์์ ์ฐ๋ ๋์ ํฌ๋ช ํ ํ์ฐํ(diffuser)์ ์ฃผ๋ณ์ ํ์ LED๋ก ๋๋ฌ์ธ ์ธก๋ฉด์์ ๊ท ์ผํ๊ฒ ๋ฐํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ผ์ ํ๋ฉด ์ ์ฒด์ ๊ทธ๋ฆผ์ ์์ด ๊ณ ๋ฅธ ์กฐ๋ช ์ด ๋ค์ด์ต๋๋ค. ํ๋ฉด์๋ ์ฝ๊ฐ์ ๋ฐ์ฌ์ฑ ์ฝํ (half-mirror)์ ํด์ ๋๋ฆฐ ๋ถ๋ถ์ ๋ฐ๊ธฐ ๋ณํ๋ก๋ ํํ๋ฅผ ์ ์ ์๋๋ก ํ์ต๋๋ค. ์์ฝํ๋ฉด, ํ ๊ฐ์ง ์ ๊ด์์ผ๋ก ์์์ ๋น์ถ๋ ํจ๊ณผ๋ฅผ ๋ด์ฃผ์ด, ์ ์ด ํ์์ ์ค๊ณฝ์ ์ ๋ช ํ๊ณ ๋จ์ํ๊ฒ ํฌ์ฐฉํ๋๋ก ํ ๊ฒ์ด์ฃ . ๋๋ถ์ ์ถ๋ ฅ ์์์ ์ฌ์ค์ ๋จ์ผ ์ฑ๋(gray-scale)๋ก ์ถฉ๋ถํ๊ณ , ๋ฐ์ดํฐ ์ ์ก๋๋ ์ค์์ต๋๋ค.
๋ํ ์ด ์ ๊ทผ์ ์๋ฎฌ๋ ์ด์ ์ ์ฝ๊ฒ ํด์ค๋๋ค. ์์์ด ๋จ์ํ๊ณ ๊ทธ๋ฆผ์๊ฐ ์์ผ๋, ์ผ์ ํ๋ฉด์ ๋ณํ โ ์์ ๋ฐ๊ธฐ ๋งคํ์ ํ์ต๋ MLP ๋ชจ๋ธ๋ก ๊ฐ๊น์ค๋ก ์ถ์ ํ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง์ ๋ฌผ์ฒด๋ก ๋๋ฆฐ ์ผ์์ ํ๋ฉด ๋ฒ์ ๋ฒกํฐ์ ์นด๋ฉ๋ผ ์์ผ๊ฐ ๋ฑ์ ์ ๋ ฅํ๋ฉด ํฝ์ RGB๊ฐ์ ์์ธกํ๋ ์์ ์ ๊ฒฝ๋ง์ ํ๋ จํ์ฌ, ์ค์ ์ผ์ ์์๊ณผ ์ ์ฌํ ์ถ๋ ฅ์ ๋ด๋๋ก ํ์ต๋๋ค. ์ด๋ก์จ ๊ฐ์ ํ๊ฒฝ์์ ์ด๊ฐ ์ผ์ ์ถ๋ ฅ์ ํ๋ด๋ผ ์ ์์ด, ์ถํ ์๋ฎฌ๋ ์ด์ -ํ์ค ์ ์ด(sim2real) ์ฐ๊ตฌ์๋ ํ์ฉํ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํ์ต๋๋ค.
๊ทธ๋ฆผ 2: EyeSight Hand์ ํตํฉ๋ GelSim(ple) ์ด๊ฐ ์ผ์ ๊ตฌ์กฐ. (a) ์ผ์ ๋ชจ๋์ ํญ๋ฐ๋์ ํฌ๊ธฐ: 22ร23 mm ํฌ๊ธฐ์ ๋ฒ ์ด์ค์ ๋์ด 37.5 mm์ ๋ ํํ๋ก, ์ด์ ์นด๋ฉ๋ผ(๊ฒ์ ์)์ ์ด๋ฅผ ๊ฐ์ธ๋ ์นด๋ฉ๋ผ ํ๋(ํ์), ์ฃผ๋ณ์ ๋๋ฌ์ผ COB LED ์คํธ๋ฆฝ(๋ ธ๋์)๊ณผ ์ฐจ๊ดํ(blinder), ๋ฐ๊ตฌํ ํ์ฐํ(diffuser), ๊ทธ๋ฆฌ๊ณ ํฌ๋ช ์ค๋ฆฌ์ฝ ์ ค(PDMS)์ ๋ฐ๋ฐ์ฌ ์ฝํ (semispecular coating)์ ํ ์ผ์ฑ ํ๋ฉด์ผ๋ก ๊ตฌ์ฑ๋๋ค. (b) GelSim(ple) ์ผ์ ์ถ๋ ฅ ์์: ์ ํ์ ์ค์ ์ผ์์ ๋ฌผ์ฒด๋ฅผ ๋๋ ์ ๋ ์ป๋ ์ด๊ฐ ์์์ด๊ณ , ์๋ ํ์ ๋์ผ ๋ณํ์ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์์ธกํ ์์์ด๋ค. ๋๊ทธ๋ผ๋ฏธ, ์ผ๊ฐํ, ์ฌ๊ฐํ ๋ชจ์์ ๋ฌผ์ฒด๋ฅผ ๋๋ ์ ๋์ ์๊ตญ์ด ์ค์ ์ ์๋ฎฌ๋ ์ด์ ์์ ์ ์ฌํ๊ฒ ๋ํ๋จ์ ๋ณผ ์ ์๋ค. ์ด๋ฐ 1์ฑ๋ ์์์ผ๋ก๋ ์ ์ด ์งํ์ ์ฝ์ด๋ผ ์ ์์ผ๋ฉฐ, ๊ทธ๋ฆผ์ ๋ฑ์ด ์๊ธฐ์ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ์ด ํฝ์ ๋จ์๋ก RGB ๊ฐ์ ๋น๊ต์ ์ ํํ ์ถ์ ํด๋ธ๋ค.
์ผ์ ํ๋์จ์ด ๊ตฌํ์ ์์ธํ ๋ค์ฌ๋ค๋ณด๋ฉด, Raspberry Pi ์นด๋ฉ๋ผ ๋ชจ๋ (Arducam IMX219)์ 220๋ ์ด์ ๋ ์ฆ๋ฅผ ๋ฌ์ ๋์ ์์ผ๋ก ์ ค ํ๋ฉด์ ๊ด์ฐฐํฉ๋๋ค. ์นด๋ฉ๋ผ๋ 3D ํ๋ฆฐํธ๋ ์๊ฐ๋ฝ ๋ผ๋์ ๋ผ์ ๋ฃ๊ณ , ๊ทธ ์์ LED๋ฅผ ๋๋ฅธ ํ์ฐํ+์ ค ๊ตฌ์กฐ๋ฌผ์ ๋์ฌ๋ก ๊ณ ์ ํฉ๋๋ค. LED๋ ํญ 3mm์ ์์ COB LED ์คํธ๋ฆฝ์ ์๋ผ์ ์ผ์ ๋๋ ๋ชจ์๋๋ก ๋ถ์๊ณ , ๊ทธ ์์ผ๋ก ๋ถํ์ํ ๊ด์ด ์์ง ์๋๋ก ์ฐจ๊ดํ์ ๋ฎ์์ต๋๋ค. ์ ค์ ํฌ๋ช ์ค๋ฆฌ์ฝ(SILICONE XP-565)์ ๊ตณํ ๋ง๋ค๊ณ , ํ๋ฉด์ ๋ฏธ์ธ ์๋ฃจ๋ฏธ๋ ์ ์๊ฐ ์์ธ ๋ฐํฌ๋ช ์ํฌ ์ฝํ ์ ์ ํ์ ๋ฐ์ง์๊ณผ ํ์ฐ ํน์ฑ์ ์กฐ์ ํ์ต๋๋ค. ๊ฐ ์นด๋ฉ๋ผ๋ Arducam ๋ค์ค ์นด๋ฉ๋ผ ์ด๋ํฐ (CamArray HAT)๋ฅผ ํตํด ๋ผ์ฆ๋ฒ ๋ฆฌํ์ด 4 ๋ ๋์ 4๊ฐ์ฉ ๋๋์ด ์ฐ๊ฒฐ๋์ด, ์ด 8๊ฐ์ ์ด๊ฐ ์์์ด ๋๊ธฐํ๋์ด ์์ง๋ฉ๋๋ค. ํด์๋ 640x480์ ์์์ ๊ฐ Pi์์ 60Hz๋ก ์คํธ๋ฆฌ๋ฐํ๋ฉด, ํธ์คํธ PC์์๋ ์ฝ 30Hz๋ก ๋ชจ๋ ์ด๊ฐ/์นด๋ฉ๋ผ/๊ด์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ฌํ ์์คํ ๊ตฌ์ฑ์ ์ค์๊ฐ์ผ๋ก ํ๋ถํ ์ด๊ฐ+์๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ทจ๋ํ๊ธฐ ์ํจ์ผ๋ก, EyeSight Hand๊ฐ ๋จ์ํ ํ๋์จ์ด๊ฐ ์๋๋ผ ๋ฐ์ดํฐ ์์ง ํ๋ซํผ์ผ๋ก๋ ์ต์ ํ๋์์์ ์ ์ ์์ต๋๋ค.
์ ์ด ์๊ณ ๋ฆฌ์ฆ: ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ์ ๋ฉํฐ๋ชจ๋ฌ ์ ์ฑ
ํ๋์จ์ด๊ฐ ์ค๋น๋์๋ค๋ฉด, ์ด์ ์ด ์์ ์ด๋ป๊ฒ ์์ง์ผ ๊ฒ์ธ๊ฐ๊ฐ ๊ณผ์ ์ ๋๋ค. EyeSight Hand ๋ ผ๋ฌธ์ ์ค์ํ ์ถ์ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต๋ ์ ์ฑ (policy)์ผ๋ก ๋ณต์กํ ์์ ์ ์ํํ๋ ๊ฒ์ ๋๋ค. ์ฌ๋ ์์ฒ๋ผ ์ฌ์ธํ ์ ์ด๋ฅผ ์ผ์ผ์ด ์์ ๋ชจ๋ธ๋ก ์ค๊ณํ๊ธฐ๋ ์ด๋ ค์ฐ๋ฏ๋ก, ๋ชจ๋ฐฉ ํ์ต์ ํตํด ์ฌ๋์ด ์์ฐํ ํ๋์ ๋ก๋ด์ด ๋ฐฐ์ฐ๋๋ก ํ์ต๋๋ค. ํนํ ์ด ์ฐ๊ตฌ์์๋ ACT (Action Chunking with Transformers)๋ผ๋ ์ต์ ๊ธฐ๋ฒ์ ํ์ฉํ๋๋ฐ์, ์ด๋ฅผ ๊ฐ๋จํ ํ์ด๋ณด๊ฒ ์ต๋๋ค.
ACT๋ ์กฐ๊ฑด๋ถ ๋ณ๋ถ ์คํ ์ธ์ฝ๋(CVAE) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์์ฑ ๋ชจ๋ธ์ ํ๋์ ๋๋ค. ๋ณต์กํ๊ฒ ๋ค๋ฆฌ์ง๋ง, ์ฝ๊ฒ ๋งํด ์๋ฒ ๋ฐ์ดํฐ(์ฌ๋์ ์๊ฒฉ์กฐ์ ํ๋)๋ฅผ ๋ณด๊ณ ๊ทธ์ ๋น์ทํ ํ๋ ์ํ์ค๋ฅผ ์์ฑํ ์ ์๋๋ก ํ์ตํ๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ์ธ์ฝ๋ ๋คํธ์ํฌ๊ฐ ์๋ฒ ํ๋์ โ์คํ์ผโ์ ํ๋์ ์ ์ฌ ๋ฒกํฐ z๋ก ์์ถํ๊ณ , ๋์ฝ๋ ๋คํธ์ํฌ(์ ์ฑ )๊ฐ ํ์ฌ ๊ด์ธก์ ๋ณด๊ณ ์ด z์ ๋ฐ๋ผ ์์ผ๋ก ์ทจํ ์ผ๋ จ์ ํ๋๋ค์ ์์ธกํฉ๋๋ค. ์ฌ๊ธฐ์ z๋ ์ฌ๋์ด ๊ฐ์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํด๋ ์ฝ๊ฐ์ฉ ๋ค๋ฅธ ๊ถค์ ์ ๋ณด์ผ ์ ์๋ ๋ค์์ฑ์ ํํํด์ฃผ๋ฉฐ, ์ผ์ข ์ ์จ๊ฒจ์ง ์๋๋ ๋ฐฉ์์ ์์งํฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๋ชจ๋ธ์ ํ๋์ ๊ด์ธก ์ํฉ์ ๋ํด ์ฌ๋ฌ ํฉ๋ฆฌ์ ์ธ ํ๋ ๊ฒฝ๋ก๋ฅผ ์์ฑํ ์ ์๊ณ , ๋ฐ์ดํฐ์ ๋ด์ฌ๋ ๋ค์ํ ์ธ๊ฐ ์ ๋ต์ ๋ชจ๋ฐฉํ ์ ์์ต๋๋ค.
์ ์ฑ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ ์ฌ๋ฌ ์ข ๋ฅ์ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๋๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. ์ ์ญ ์นด๋ฉ๋ผ ์์(์ธ๋ถ์์ ๋ณธ ์ฅ๋ฉด)๊ณผ ์๋ชฉ ์นด๋ฉ๋ผ ์์(๋ก๋ด ํ์ ๋ฌ๋ฆฐ ์ด์ ์นด๋ฉ๋ผ)์ Vision ์ธ์ฝ๋(ResNet-18)๋ฅผ ๊ฑฐ์ณ ํน์ง์ ๋ฝ์๋ด๊ณ , 8๊ฐ์ ์ด๊ฐ ์์์ 4์ฅ์ฉ ๋ฌถ์ด ๋ง๋ ๋ ์ฅ์ โ์ํผ ์ด๋ฏธ์งโ๋ฅผ Tactile ์ธ์ฝ๋(๋ ๋ค๋ฅธ ResNet-18)๋ก ์ฒ๋ฆฌํด ํน์ง์ ์ป์ต๋๋ค. ์ฌ๊ธฐ์ EyeSight Hand์ ๋ก๋ด ํ(UR5)์ ๊ด์ ๊ฐ๋๋ค์ด ํ๋์ ๋ฒกํฐ๋ก ํจ๊ป ๊ฒฐํฉ๋ฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์์ ๋งํ ์คํ์ผ ์ ์ฌ ๋ณ์ z๊น์ง ์ด ๋ชจ๋ ์ ๋ณด๋ฅผ Transformer ๋คํธ์ํฌ์ ์ ๋ ฅํ๋ฉด, ์์ผ๋ก ๋ช ๊ฐ์ ์๊ฐ ์คํ ์ ๊ฑธ์ณ ๋ก๋ด์ด ์ทจํ ๋ฏธ๋์ ๊ด์ ๋ช ๋ น ์ํ์ค๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์ด๋ Transformer๋ ์ํ์ค ๋ฐ์ดํฐ๋ฅผ ์ ํ์ตํ๊ธฐ ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ธ๋ฐ, ํํ ์์ฐ์ด ์ฒ๋ฆฌ์ ์ฐ์ด๋ ๊ฒ์ ๋ก๋ด ํ๋ ์์ธก์ ์์ฉํ ๊ฒ์ ๋๋ค. ํ ๋ฒ ์์ธก์ผ๋ก ์ต๋ 20 ์คํ ๋ถ๋์ ํ๋์ ๋ด๋ค๋ณด๊ฒ ํ๋๋ฐ, ์ด๋ก ์ ์ผ๋ก ์ฝ 1.3์ด ๋ถ๋์ ๋ฏธ๋ฆฌ ๊ณํํ๋ ์ ์ด๋ฉฐ, ์ ์ด ์ฃผ๊ธฐ๋ 15Hz (0.067์ด๋ง๋ค ์ ๊ณํ)๋ก ์ค์ ๋์์ต๋๋ค. ์ด๋ ๋ก๋ด์ด ๋จ์ํ ํ์ฌ ์ค์ฐจ๋ฅผ ๋ฐ๋ก์ก๋ ๋ฐ์ํ ์ ์ด๊ฐ ์๋๋ผ, ์์ผ๋ก์ ๋์์ ์ฌ๋์ฒ๋ผ ๋ถ๋๋ฝ๊ฒ ์ด์ด๋๊ฐ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ทธ๋ฆผ 3: EyeSight Hand ์ ์ด ์ ์ฑ (ACT ๊ธฐ๋ฐ)์ ์ ๋ ฅ๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ. ์๋จ์ ์ ์ฑ ๋ง์ ๋ค์ด๊ฐ๋ ์ฌ๋ฌ ์ผ์ ๊ด์ธก๋ค๋ก, ์ ์ญ ์นด๋ฉ๋ผ ์์๊ณผ ์๋ชฉ ์นด๋ฉ๋ผ ์์, ๊ทธ๋ฆฌ๊ณ 8๊ฐ์ ์ด๊ฐ ์์๋ค์ด 4๊ฐ์ฉ ๋ ๋ฌถ์์ผ๋ก ํฉ์ณ์ ธ ์์ต๋๋ค. ์๊ฐ ์์๋ค์ ๊ณต์ ๋ Vision ์ธ์ฝ๋(์ด๋ก์ ๋คํธ์ํฌ ์์ด์ฝ)๋ก ์ฒ๋ฆฌ๋๊ณ , ์ด๊ฐ ์์ ๋ฌถ์๋ค์ Tactile ์ธ์ฝ๋(์ฃผํฉ์ ์์ด์ฝ)๋ก ํน์ง์ ์ถ์ถํฉ๋๋ค. ์ถ์ถ๋ ์๊ฐ ํน์ง (๋ น์), ์ด๊ฐ ํน์ง (์ฃผํฉ์), ๊ทธ๋ฆฌ๊ณ ๋ก๋ด ํ+์์ ๊ด์ ๊ฐ ์ ๋ณด(ํ์)๋ฅผ ๋ชจ๋ Transformer ์ธ์ฝ๋์ ํฌ์ ํฉ๋๋ค. ์ด Transformer์ ๋์ฝ๋ ๋ถ๋ถ์ ๊ฐ ์๊ฐ ๋จ๊ณ๋ณ ํฌ์ง์ ์๋ฒ ๋ฉ(ํ๋์)์ ์ฐธ๊ณ ํ์ฌ ๋ค์ ์ฌ๋ฌ ์์ ์ ํ๋์ ์์ฐจ์ ์ผ๋ก ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ ์คํ์ผ ๋ณ์ z(๋ถํ์)๊ฐ ๋์ฝ๋์ ์ํฅ์ ์ฃผ์ด, ํ๋ ์ํ์ค์ ์ ๋ฐ์ ์ธ ํจํด์ ๊ฒฐ์ ํฉ๋๋ค. ์ต์ข ์ถ๋ ฅ์ ํฅํ ๋ช ๊ฐ ์คํ ์ ๋ํ ๋ก๋ด ์ ๊ด์ ๋ช ๋ น ์ํ์ค(๋ ธ๋์)์ ๋๋ค. ํ์ต ์์๋ CVAE ๊ตฌ์กฐ ๋๋ถ์ ์ฌ๋์ด ๋ณด์ธ ์ค์ ํ๋ ์ํ์ค์ ์์ฑํ ์ํ์ค๊ฐ ์ ์ฌํด์ง๋๋ก ํ๋ จ๋๊ณ , ์คํ ์์๋ ๊ด์ธก์ ๋ง๋ ์ ์ ํ ํ๋์ ์์ฑํ๊ฒ ๋ฉ๋๋ค.
๋์น์ฑ์ จ๊ฒ ์ง๋ง, ์ด ์ ์ฑ ๋ง์ ์นด๋ฉ๋ผ๋ก๋ถํฐ ๋ณด์ด๋ ๊ฒ(vision)๊ณผ ์์ด ๋๋ผ๋ ๊ฒ(tactile)์ ๋ชจ๋ ํ์ฉํ๋ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ๊ตฌ์กฐ์ ๋๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ ๊ฐ๊ฐ ์ค ๋ฌด์์ ๋ ์ ๋ขฐํ๊ฒ ๋ ๊น์? ์ฌ๋๋ ์ฒ์ ํ ๋๋ ๋์ผ๋ก ๋ณด์ง๋ง, ๋ง์ ๋ณด์ด์ง ์๋ ์ํฉ์์ ๊ฐ๊ฐ์ผ๋ก ์๋์ ํ์ ์กฐ์ ํ๊ณค ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ด๊ธฐ ์คํ์์ ์๊ฐ+์ด๊ฐ ๋ชจ๋ ์ ๋ ฅํ ๋ชจ๋ธ์ด ์ ์ ์ด๊ฐ ์ ํธ๋ฅผ ๋ฌด์ํด๋ฒ๋ฆฌ๋ ๊ฒฝํฅ์ ๊ด์ฐฐํ์ต๋๋ค. ์๋ฌด๋๋ ์์ ์ ๋ณด๋ง์ผ๋ก๋ ์ด๋ ์ ๋ ํ๋จ์ด ๊ฐ๋ฅํ๋, ๋คํธ์ํฌ๊ฐ ์ด๊ฐ์ ๋ฏธ๋ฌํ ์ ํธ ๋์ ์๊ฐ์ ์์กดํ๋ ค ํ ๊ฒ์ด์ฃ . ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ธฐ๋ฐํ ํธ๋ฆญ์ด Vision Dropout์ ๋๋ค. ํ์ต ๋จ๊ณ์์ 30% ํ๋ฅ ๋ก ์นด๋ฉ๋ผ ์์์ ์์ ๊น๊นํ๊ฒ(0์ผ๋ก) ๋ง๋ค์ด ๋ฒ๋ฆฌ๋ ๊ฒ์ ๋๋ค. ํ๋ง๋๋ก ๋ก๋ด์ ๋๊ฐ๊ณ ์ฐ์ต์ํค๋ ์ ์ด์ฃ ! ๊ทธ๋ ๊ฒ ํ๋ฉด ๊ฐ๋์ฉ์ ์ค์ง ์ด๊ฐ ์ ๋ณด์ ์์กดํด์๋ ์๋ฌด๋ฅผ ์ํํด์ผ ํ๋ฏ๋ก, ์ ์ฑ ๋ง์ด ์ด๊ฐ์ ์ ์ฉํ ํน์ง์ ์ก์๋ด๋ ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค. ๋น์ฐํ ํ ์คํธ(์ค์ ์คํ)ํ ๋๋ ์๊ฐ์ ์ ๋๋ก ๋ฃ์ด์ฃผ์ง๋ง, ์ด๋ฏธ ์ด๊ฐ์ ์ค์์ฑ์ ํ์ตํ ๋๋ถ์ ๋ ๊ฐ๊ฐ์ ๋ชจ๋ ํ์ฉํ๋ ๊ท ํ ์กํ ํ๋จ์ ํ๊ฒ ๋ฉ๋๋ค.
ํ์ต ๊ณผ์ ์ ์์งํ ์๋ฒ ๋ฐ์ดํฐ 300๊ฐ(๊ฐ ์์ ๋ณ 100๊ฐ)๋ก ์์ ACT ๋คํธ์ํฌ๋ฅผ ๊ต์ฌ ๊ฐ์(supervised learning) ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ ๊ฒ์ด์์ต๋๋ค. ๊ฐ ์๊ฐ์ ๊ด์ธก(์๊ฐ+์ด๊ฐ+๊ด์ )๊ณผ ๊ทธ ๋ค์์ ์ธ๊ฐ ์กฐ์ข ์๊ฐ ์ทจํ ํ๋(๋ก๋ด ํ/์ ๊ด์ ์๋ ๋ช ๋ น ์ํ์ค)์ ๋ฌถ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ก, ํ๊ท ์ ๊ณฑ์ค์ฐจ ๋ฑ ์์ค์ ์ต์ํํ๋๋ก ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ ํฉ๋๋ค. 500 epoch์ ๊ฑธ์น ํ๋ จ ๋์, ์ฃผ์ด์ง ๊ด์ธก์ ๋ณด๊ณ ์ฌ๋์ฒ๋ผ ํ๋์ ์์ธกํ๋ ์ ์ฑ ์ด ์์ฑ๋์์ต๋๋ค. ์์ฝํ๋ฉด, EyeSight Hand์ ๋๋๋ ์ฌ๋์ ์์ฐ์ ๋ณธ๋ด์ง๋ง ์นด๋ฉ๋ผ์ ํผ๋ถ๊ฐ๊ฐ์ ๊ณ ๋ฃจ ํ์ฉํ๋ ํ์ต๋ ์ ๊ฒฝ๋ง์ธ ๊ฒ์ ๋๋ค.
์คํ: ํ์ต์ ํตํ ์ธ ๊ฐ์ง ์์ ์ํ
์ฐ๊ตฌ์ง์ EyeSight Hand์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ๋ํ ์์ ์ ์ค์ ํ์ต๋๋ค. ๊ฐ๊ฐ ๋๊ตฌ ์ฌ์ฉ, ๋น์ +์ด๊ฐ ํตํฉ, ํ ์กฐ์ ์ด ํ์ํ ๊ณผ์ ๋ค๋ก, ๊ตฌ์ฒด์ ์ผ๋ก๋ (1) ๋ณ๋๊ป ์ด๊ธฐ, (2) ์ ์ ๋ฐ์ด์ ์ง์ด ์ฎ๊ธฐ๊ธฐ, (3) ๊ณต์์ฉ ์ ํ ์๋ฅด๊ธฐ์ ๋๋ค. ์ด ์์ ๋ค์ ๋ชจ๋ ์ผ์์์ ์ธ๊ฐ์ด ์์ฌ์ฃผ๋ฅผ ๋ฐํํ๋ ์ฅ๋ฉด๋ค์ธ๋ฐ, ๋ก๋ด ์์๊ฒ๋ ์๋นํ ๊น๋ค๋ก์ด ๋์ ์ ๋๋ค. ํ ๋ฒ์ฉ ๋ด์ฉ์ ์ดํด๋ณด์ฃ .
๋ณ๋๊ป ์ด๊ธฐ (Bottle Opening): ๋ก๋ด์ ์ฑ ์ ์์ ๋์ธ ์ผ์ฐน ๋ณ์ ๋๊ป์ ์ด์ด์ผ ํฉ๋๋ค. ์ ๋ต์ ๋จผ์ ๋ณ์ ๋ชธํต์ ์ก๊ณ ๊ณ ์ ํ ํ, ์์ง์๊ฐ๋ฝ์ผ๋ก ๋๊ป์ ๋ค์ด์ฌ๋ ค ์ ํ๋ ๊ฒ์ ๋๋ค. ๋ณ์ด ๊ณ ์ ๋ผ์์ง ์์ ํ์ ์ฃผ๋ฉด ๋ฐ๋ ค๋๊ธฐ ๋๋ฌธ์, ๊ฒ์ง, ์ค์ง, ์๋ฐ๋ฅ์ผ๋ก ๋ณ์ ์์์ ๋๋ฅด๋ฉฐ ๊ฝ ์ก์์ผ ํฉ๋๋ค. ๊ทธ ์ํ์์ ์์ง์ ๋ ์ด๊ฐ์ผ์๊ฐ ๋๊ป ๊ฐ์ฅ์๋ฆฌ์ ๋ฟ์ผ๋ฉด, ์ง๋ ๋์ฒ๋ผ ํ์ ๊ฐํด ๋๊ป์ ์ด๊ณ ์์ ํ ๋ค๋ก ์ ํ์ผ ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ์ด ๊ณผ์ ์์ ๋๊ป์ ์ ํํ ๋ฌผ๊ณ ๋ค์ด์ฌ๋ฆฌ๋ ์ด๊ฐ, ๋ ๋ณ์ด ๋ฏธ๋๋ฌ์ง์ง ์๊ฒ ๋๋ฌ์ฃผ๋ ํ ์กฐ์ ์ด ํต์ฌ์ ๋๋ค.
์ ์ ๋ฐ์ด์ ์ง์ด ์ฎ๊ธฐ๊ธฐ (Plate Pick & Place): ๋ ๊ฐ์ ์ ์๊ฐ ํฌ๊ฐ์ ธ ํผ ๋ธ๋ก ์์ ๋์ฌ์์ต๋๋ค. ๋ก๋ด์ ๋งจ ์ ์ ์ ํ๋๋ฅผ ์์ผ๋ก ๋ฐ์ด ๋ฐ์ ์ ์์ ์ด๊ธ๋๊ฒ ๋ง๋ ํ, ์ง๊ฒ์ฒ๋ผ ์ก์ ๋ค์ด ์ฌ๋ ค ์์ ๋ด๋ ค๋์์ผ ํฉ๋๋ค. ์ด ์์ ์ ํ ์์ผ๋ก ๋ ์ฅ์ ์ ์๋ฅผ ๋ค๋ฃจ๋ ๊ต๋ฌํ ๊ธฐ์ ์ ์ํฉ๋๋ค. ์ฒ์์ ์ ๋นํ ํ์ผ๋ก ์์ ์๋ฅผ ๋ฐ์ด๋ด์ผ ํ๋๋ฐ, ๋๋ฌด ์ฝํ๋ฉด ์ ์๊ฐ ์ ์์ง์ด๊ณ , ๋๋ฌด ์ธ๋ฉด ์๋ ์ ์๊น์ง ํจ๊ป ๋ฏธ๋๋ฌ์ ธ๋ฒ๋ฆฝ๋๋ค. ๋คํํ ์ด์ง ์ด๊ธ๋๋ฉด ๋ก๋ด์ ๊ฒ์ง์ ์ค์ง๋ก ์์ ์๋ฅผ ์ง์ ์ ์๊ฒ ๋๊ณ , ์์ ์ ์ผ๋ก ์ง์ ์ฑ ๋ค์ด ์ฌ๋ ค ์์ ๋ด๋ ค๋์ผ๋ฉด ์๋ฃ์ ๋๋ค. ์ด ๊ณผ์ ์์๋ ๋ง์ฐฐ๋ ฅ์ ๊ธฐ๋ฐํ ๋ฏธ๋๋ผ ์ ์ด, ์ถฉ๋ถํ ์ด๊ฐ ํผ๋๋ฐฑ์ ํตํ ํ ์กฐ์ , ๊ทธ๋ฆฌ๊ณ ์ ์๋ฅผ ์ก์ ํ ์์ ์ ์ธ ํ์ง(grasp)๊ฐ ๋ชจ๋ ํ์ํฉ๋๋ค.
์ ํ ์๋ฅด๊ธฐ (Plasticine Cutting): ์์ ๋ ์ ์์ ์์ ์์ ์นผ์ด ๋์ฌ์๊ณ , ๊ทธ ์ ๋๋ง ์์ ์ ํ (plasticine) ๋กค์ด ์์ต๋๋ค. ๋ก๋ด์ ๋จผ์ ์์์์ ์นผ์ ๋ฝ์ ๋ค๊ณ , ์ด์ด์ ์นผ๋ก ์ ํ ๋ฅผ ์ ๋จํด์ผ ํฉ๋๋ค. ์ฑ๊ณต ์กฐ๊ฑด์ ์ ํ ๋ฅผ ์์ ํ ๋ ๋๊ฐ๋ด๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ์นผ์ง์ ์ธ๊ฒ ํ๋ฉด ์ ํ ๋ ์๋ฆด์ง ๋ชฐ๋ผ๋ ๋ฐ์ ๋๋ง๋ ์นผ์ง ์์๊ฐ ๋ฐ๋ ค๋ ์ ์์ต๋๋ค(์ด๋ค์ ํ ์ด๋ธ์ ๊ณ ์ ๋์ด ์์ง ์์ต๋๋ค). ๋, ์ ๋จ์ด ๋ฐ์ฏค ๋๊ณ ๋ฉ์ถ๋ฉด ํ๋ฉด์ ๊ฑฐ์ ์๋ฆฐ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์๋ ์์ด์, ์๊ฐ๋ง์ผ๋ก๋ ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ํ๋จํ๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด ์๋๋ฆฌ์ค๋ ๋๊ตฌ ์ฌ์ฉ๊ณผ ์ ๊ตํ ํ ๊ฐํ๊ธฐ๋ฅผ ๋์์ ์ํํ๋ฉฐ, ํนํ ์ด๊ฐ์ผ๋ก ์์ ํ ์๋ ธ๋ค/์ ์๋ ธ๋ค๋ฅผ ๋๋ผ๋ ๋ฅ๋ ฅ์ด ์ค์ํฉ๋๋ค.
์ด ์ธ ์์ ์ ์ํด ์ฐ๊ตฌ์ง์ UR5 ๋ก๋ด ํ ๋์ EyeSight Hand๋ฅผ ์ฅ์ฐฉํ ์์คํ ์ ๊ตฌ์ถํ์ต๋๋ค. ์๊ฒฉ ์กฐ์(teleoperation) ๋ฐฉ์์ผ๋ก ์ฌ๋์ด ์ง์ ๋ก๋ด์ ์์ง์ฌ ๊ฐ ์์ ์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์๋๋ฐ, ์ฌ๋ ์๊ณผ ๋ก๋ด ์์ ๊ตฌ์กฐ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ง์ถฐ์ฃผ๋ ํน๋ณํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ์ฌ๋์ ์์ง, ๊ฒ์ง, ์ค์ง ์ํฑ ๋ถ๊ทผ๊ณผ ์๋ฑ์ 4๊ฐ์ ์ํ ์์น/์์ธ ํธ๋์ปค(trakStar ์๊ธฐ ์ผ์)๋ฅผ ๋ถ์ฐฉํ๊ณ , ๊ฐ์์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ฏ ์์ ์์ง์์ต๋๋ค. ์ด ๋ค ์ง์ ์ 6-์์ ๋ ์์น ์์ธ๋ฅผ ๋ก๋ด ์์ ์๊ฐ๋ฝ ๋๊ณผ ์๋ฐ๋ฅ ์ขํ์ ์ค์๊ฐ์ผ๋ก ๋งคํํ๊ธฐ ์ํด, TSV(Task Space Vector) ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ์ต๋๋ค. ๊ฐ๋จํ ๋งํด, ์ธ๊ฐ ์์ ์๊ฐ๋ฝ ๋๋ค ๊ฐ ์๋ ๋ฒกํฐ์ ๋ก๋ด ์์ ์๊ฐ๋ฝ ๋๋ค ๊ฐ ์๋ ๋ฒกํฐ๊ฐ ์ต๋ํ ์ผ์นํ๋๋ก ๋ชฉํ ํจ์๋ฅผ ์ธ์ฐ๊ณ , ์์ฐจ์ 2์ฐจ ํ๋ก๊ทธ๋๋ฐ(SLSQP)์ผ๋ก ๋งค ์๊ฐ ๋ก๋ด ๊ด์ ๊ฐ์ ํธ๋ ๋ฐฉ์์ ๋๋ค. ์ด ๊ณ์ฐ์ JAX๋ก ์๋๋ฏธ๋ถ์ ํ์ฉํด 125Hz์ ๋น ๋ฅธ ์๋๋ก ์คํ๋์๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฌ๋์ด ์์ ์์ง์ด๋ ๋๋ก ๋ก๋ด ์์ด ๊ฑฐ์ ๋์์ถ์ข ํ๋๋ก ๋ง๋ค์์ต๋๋ค. ์ด๋ฌํ ์๊ฒฉ ์กฐ์ ์์คํ ์ ํตํด ๊ฐ ์์ ๋ง๋ค 100๊ฐ์ฉ์ Demonstration (๋ก๋ด ํ/์์ ๊ด์ ๋ฐ์ดํฐ, ์ด๊ฐ/์๊ฐ ์ผ์ ๋ฐ์ดํฐ, ๋ฑ)์ ์์งํ์ต๋๋ค.
๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ํ์๋ ์ด์ ์ ์์ ์ค๋ช ํ ๋ชจ๋ฐฉ ํ์ต(IL) ์ ์ฐจ๋ก ์ ์ฑ ๋ชจ๋ธ์ ํ์ต์์ผฐ์ต๋๋ค. ํ์ต๋ ์ ์ฑ ์ ๊ด์ฐฐ(์ ์ญ์นด๋ฉ๋ผ, ์๋ชฉ์นด๋ฉ๋ผ ์์ + ์ด๊ฐ์์ + ๊ด์ ๊ฐ)์ ๋ฐ์ ๋ค์ ํ๋(UR5์ ์์ ๊ด์ ์์น ๋ณํ ๋ช ๋ น ์ํ์ค)์ ์ถ๋ ฅํ๊ณ , ์ด๋ ์ ์์ค ์ ์ด๊ธฐ(moteus BLDC ์ปจํธ๋กค๋ฌ ๋ฑ)์ ์ํด ํ ํฌ/์๋ ์ ์ด๋ก ์คํ๋์์ต๋๋ค. ์ต์ข ์ ์ผ๋ก ๋ก๋ด์ ์ฌ๋ ๊ฐ์ ์์ด ์ด ์ ์ฑ ์ ์คํํ์ฌ ์ฃผ์ด์ง ์์ ์ ์ํํ๊ฒ ๋ฉ๋๋ค.
flowchart TB
subgraph collect["๋ฐ์ดํฐ ์์ง"]
user[์ฌ๋ ์กฐ์ข
์] -- ์ฅ๊ฐ ์ผ์ --> robot[EyeSight Hand]
robot -- ๋คํ ์์ฐ --> demos[๋ฐ๋ชจ ๋ฐ์ดํฐ์
]
end
subgraph train["๋ชจ๋ฐฉ ํ์ต"]
demos ==> model[ACT ์ ์ฑ
๋ชจ๋ธ]
model --- dropout[Vision Dropout ์ ์ฉ]
end
subgraph deploy["ํ์ต๋ ์ ์ฑ
์คํ"]
env[ํ๊ฒฝ] -- ์ผ์ ๊ด์ธก --> model
model -- ๊ด์ ๋ช
๋ น --> hand[EyeSight Hand]
hand -- ์ํธ์์ฉ --> env
end
Diagram: ์ฌ๋ ์กฐ์ข ์๊ฐ EyeSight Hand๋ฅผ ์๊ฒฉ ์กฐ์ํด ๋ค์์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ , ์ด๋ฅผ ํ ๋๋ก Transformer ๊ธฐ๋ฐ ACT ์ ์ฑ ์ ํ๋ จํ๋ค. ํ์ต ์ Vision Dropout ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ด ์ด๊ฐ ์ ๋ณด๋ ํ์ฉํ๋๋ก ์ ๋ํ๋ค. ์ดํ ํ์ต๋ ์ ์ฑ ๋ชจ๋ธ์ด ์ค์๊ฐ ๊ด์ธก(์๊ฐ+์ด๊ฐ)์ ๋ฐ์ ๋ค์ ํ๋(ํ๊ณผ ์์ ์์ง์)์ ์์ธกํ๋ฉฐ, ๋ก๋ด ์์ด ์ค์ ํ๊ฒฝ์์ ์์ ์ ์ํํ๋ค.
์คํ ๊ฒฐ๊ณผ: ์ด๊ฐ ํตํฉ์ ์๋ ฅ
ํ์ต๋ ์ ์ฑ ๋ค์ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ฐ๊ตฌ์ง์ ์ธ ๊ฐ์ง ๋ณํ๋ ๋ชจ๋ธ์ ์ค๋นํ์ฌ ๊ฐ๊ฐ 10ํ์ ์ํ์ ์ํํ์ต๋๋ค:
- Vision-Only: ์นด๋ฉ๋ผ ์์(์ ์ญ + ์๋ชฉ) ์ ๋ ฅ๋ง ๋ฐ๊ณ ์ด๊ฐ์ ๋ฌด์ํ ์ ์ฑ
- Vision+Tactile (Vanilla): ์นด๋ฉ๋ผ + ์ด๊ฐ ๋ชจ๋ ์ ๋ ฅํ์ง๋ง ๋๋กญ์์์ ์ฐ์ง ์๊ณ ํ์ตํ ์ ์ฑ
- Vision+Tactile (Dropout): ์นด๋ฉ๋ผ + ์ด๊ฐ ์ ๋ ฅ, ํ์ต ์ 30% ํ๋ฅ ๋ก ์์ ์ฐจ๋จํ์ฌ ์ด๊ฐ ํ์ฉ์ ๋์ด์ฌ๋ฆฐ ์ ์ฑ
๊ฐ ๋ชจ๋ธ๋ก ๋์ผํ ์์ ์ ์ํํด๋ณธ ๊ฒฐ๊ณผ๋ ์ฑ๊ณต๋ฅ ์ ํํ๋ก ์์ฝ๋ ์ ์์ต๋๋ค:
| ์์ ์ข ๋ฅ | Vision-Only ์ฑ๊ณต๋ฅ | Vision+Tactile (์ผ๋ฐ) | Vision+Tactile (๋๋กญ์์) |
|---|---|---|---|
| ์ ์ ์ฎ๊ธฐ๊ธฐ | 50% | 100% | 100% (๋์ผ) |
| ์ ํ ์๋ฅด๊ธฐ | 50% | 70% | 90% |
| ๋ณ๋๊ป ์ด๊ธฐ | 0% | 0% | 30% |
์ ํ์์ ์ ์ ์๋ฏ, ์ด๊ฐ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๊ธฐ ์์ํ๋ฉด์ ์ฑ๋ฅ์ด ํฐ ํญ์ผ๋ก ํฅ์๋์์ต๋๋ค. ํนํ Vision-Only ๋ชจ๋ธ์ ๋ณ๋๊ป ์ด๊ธฐ์ ๊ฒฝ์ฐ ๋จ ํ ๋ฒ๋ ์ฑ๊ณตํ์ง ๋ชปํ๋๋ฐ, ์ด๋ ์นด๋ฉ๋ผ ์์๋ง์ผ๋ก๋ ๋๊ป์ด ์ ๋๋ก ์กํ๋์ง, ์ผ๋ง๋ ํ์ ์ค์ผ ํ๋์ง ๊ฐ์ด ์ค์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๊ฐ์ด ์์๋ ์ด ๋ชจ๋ธ์ ์๋ฑํ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ๊ฑฐ๋ ์์ ์ ์ด์ ๋์ณ๋ฒ๋ ค, ์์ง์๊ฐ๋ฝ์ด ๋๊ป์์ ๋ฏธ๋๋ฌ์ง๋ ์คํจ๊ฐ ๋ฐ๋ณต๋์์ต๋๋ค. ๋ฐ๋ฉด ์ด๊ฐ ํตํฉ ๋ชจ๋ธ์ 30%์ ์ฑ๊ณต๋ฅ ์ด์ง๋ง ๋ช ์ฐจ๋ก๋ ํ์คํ ๋๊ป์ ์ฌ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ๋์ผ๋ก๋ ์ ์ ๋ณด์ด๋ ๋๊ป๊ณผ์ ์ ์ด ๊ฐ๊ฐ์ ์๋ ์นด๋ฉ๋ผ๋ก ๋๋ผ๋ฉฐ ์ ์ ํ ํ๊ณผ ๊ฐ๋๋ก ๋ค์ด์ฌ๋ฆฐ ๋๋ถ์ ๋๋ค.
์ ์ ์ฎ๊ธฐ๊ธฐ ์์ ์ ๊ฒฝ์ฐ, Vision-Only ๋ชจ๋ธ๋ 50%๋ ์ฑ๊ณตํ์ผ๋ ์ ๋ฐ์ ์คํจํ์ต๋๋ค. ์คํจํ ๊ฒฝ์ฐ๋ฅผ ๋ณด๋ฉด, ์ฒ์์ ์ ์์ ์ ์ด์ ๋ชป ํ๊ฑฐ๋ ํ์ด ์ฝํด ๊ณ์ ํ๋ฏธ๋๋ผ์ง๋ง ํ๊ฑฐ๋, ์ ์๋ ๋ค์์ง๋ง ์ถฉ๋ถํ ๊ฝ ์ฅ์ง ๋ชปํด ์ฎ๊ธฐ๋ ์ค ๋จ์ด๋จ๋ฆฌ๋ ์ผ์ด ์์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ์ด๊ฐ ์ผ์ฑ์ ์ถ๊ฐํ์ ๋ง๋ํ ํด์๋์ด 100% ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ๋ก๋ด์ด ์ ์์ ๋ฟ์๋์ง, ๋ฏธ๋๋ฌ์ง๋์ง ์ฆ๊ฐ ๋๋ผ๊ณ ํ์ ์กฐ์ ํ ๋๋ถ์ ๋๋ค. ์ ์ด์ ์ด ์์ ์ ์๊ฐ์ผ๋ก ์ ์์ ๋ฏธ๋๋ฌ์ง์ ํ๋จํ๊ธฐ ์ด๋ ค์ด๋ฐ, ์ด๊ฐ ๋๋ถ์ โ๋ฐ๋ฆฌ๋ ์ ๋โ๋ฅผ ๊ฐ์งํ๊ณ ํ ์กฐ์ ์ ํ ์ ์์๋ ๊ฒ์ด์ฃ . Vision+Tactile ๋ชจ๋ธ์ ์ด๋ฏธ ์๋ฒฝํ๊ธฐ์ ๋๋กญ์์์ ์ ๋ฌด ์ฐจ์ด๋ ์์์ต๋๋ค (100%๋ก ๋์ผ).
์ ํ ์๋ฅด๊ธฐ์์๋ ์ฐจ์ด๊ฐ ๋์ฑ ๊ทน๋ช ํ์ต๋๋ค. Vision-Only๋ 50% ์ฑ๊ณต์ ๊ทธ์ณค๋๋ฐ, ์คํจํ ์ ๋ฐ์์๋ ์ ํ ๋ฅผ ๋๊น์ง ์๋ฅด์ง ๋ชปํ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์์ต๋๋ค. ์๋ฆฐ ์ ๋๊ฐ ์ด์ง ๋จ์์ด๋ ๊ฒ๋ชจ์ต์ ๊ฑฐ์ ์๋ฆฐ ๊ฒ์ฒ๋ผ ๋ณด์ด๋, ์๊ฐ ์ ๋ณด๋ง์ผ๋ก๋ ์๋ฃ ์ฌ๋ถ๋ฅผ ํ์ ํ๊ธฐ ํ๋ค์๋ ๊ฒ์ ๋๋ค. ๋ํ ๊ฐํน ์์ ํ ์๋ฅด๊ธด ํ์ผ๋ ํ์ ๋๋ฌด ์ค์ ๋๋ง์งธ ๋ฐ๋ ค๋๋ฒ๋ฆฌ๋ ๊ฒฝ์ฐ๋ ์์์ต๋๋ค. ๋ฐ๋ฉด ์ด๊ฐ์ ๋ฃ์ ๋ชจ๋ธ์ 70%๋ก ์ฑ๊ณต๋ฅ ์ด ํฌ๊ฒ ์ฌ๋๊ณ , Vision ๋๋กญ์์๊น์ง ์ ์ฉํ ๋ชจ๋ธ์ 90%๊น์ง ์ฑ๊ณต๋ฅ ์ด ํฅ์๋์์ต๋๋ค. ์ด๊ฐ์ ์ด ๋ชจ๋ธ๋ค์ ๋ถ๋ถ ์ ๋จ vs ์์ ์ ๋จ์ ๋ฏธ๋ฌํ ์ฐจ์ด๋ฅผ ์๋์ผ๋ก ๋๊ปด์ ๋๊น์ง ํ์ ๊ฐํด ๋ง๋ฌด๋ฆฌํ ์ ์์๊ณ , ๋๋ฌด ๊ณผ๋ํ ํ์ผ๋ก ๋๋ฌ ๋๋ง๊ฐ ๋ฐ๋ฆฌ๋ ์ผ๋ ํฌ๊ฒ ์ค์์ต๋๋ค. ํนํ ๋๋กญ์์์ ์ด ๋ชจ๋ธ์ ์คํจ ์ผ์ด์ค๊ฐ ๊ฑฐ์ ์์ ๋งํผ ์ด๊ฐ ์์กด์ ์ผ๋ก ์์ ๋ ๋์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ํ๋ จ ์ ์๋์ ์ผ๋ก ๋์ ๊ฐ๊ธด ํจ๊ณผ๊ฐ ๋ํ๋ ๊ฒ์ผ๋ก, ๋์ผํ ์ด๊ฐ ์ํฉ์์ ๊ตณ์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ฐพ์ง ์๊ณ ๋ ์ ์ํํ ๋๋ถ์ ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก โ๋๊ณผ ํผ๋ถ๋ฅผ ํจ๊ป ์ด ๋ก๋ด ์โ์ด ์ผ๋ง๋ ๋ ๋ฐ์ด๋์ง ์์น๋ก ์ฆ๋ช ๋์๋ค๊ณ ํ ์ ์์ต๋๋ค. Vision-Only์ ๋นํด Vision+Tactile(๋๋กญ์์) ์ ์ฑ ์ ์ธ ์์ ๋ชจ๋์์ ์๋ฑํ ์์ ์ฑ๊ณผ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ต๋๋ค. ์ฐ๊ตฌ์ง์ ์คํจ ์ฌ๋ก์ ์์ธ ๋ถ์์ ํตํด ์ด๊ฐ์ ์ด์ ๋ ์ง์๋๋ฐ, ๊ณตํต์ ์ผ๋ก ์๊ฐ์ผ๋ก ๊ตฌ๋ถ ์ด๋ ค์ด ๋ฏธ์ธํ ์ ์ด ์ํ๋ฅผ ์ด๊ฐ์ด ํด๊ฒฐํด์ฃผ์๋ค๋ ์ ์ ๊ฐ์กฐํ์ต๋๋ค. ์ ์๋ฅผ ๋ฐ ๋ ํ์ด ๋ถ์กฑํ์ง, ์นผ์ด ์ ํ ๋ฅผ ๋ค ๋ฒ ์๋์ง, ๋๊ป์ด ์ ๋๋ก ๊ฑธ๋ ธ๋์ง ๋ฑ์ ๋ชจ๋ ์นด๋ฉ๋ผ ์์๋ง์ผ๋ก ์ ๋งคํ ๋ฐ๋ฉด ์ด๊ฐ์ผ์๋ก๋ ๋ช ํํ ๊ตฌ๋ถ๋๋ ์ํฉ์ด์์ต๋๋ค. ๋ํ ๋๋กญ์์ ์ ๋ต์ ๋จ์ํ๋ฉด์๋ ํจ๊ณผ์ ์ด์ด์, ๋ฉํฐ๋ชจ๋ฌ ํ์ต์์ ํ ์ชฝ ๊ฐ๊ฐ์ ์น์ฐ์น์ง ์๊ฒ ๋ง๋๋ ์ข์ ๋ฐฉ๋ฒ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ธ๊ฐ ์กฐ์ข ์ ์ํ ์๊ฒฉ ์กฐ์ vs ํ์ต๋ ์ ์ฑ ์ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ๋น๊ต๋ ๊น์? ๋ ผ๋ฌธ์์๋ ์ ์ฑ ์ ์ ๋์ ์ธ ์ฑ๊ณต๋ฅ ๋ง์ ๋ณด๊ณ ์์ง๋ง, 100๊ฐ์ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์๋ค๋ ๊ฒ์ ์ฌ๋๋ ๋ช๋ช ์คํจ๋ฅผ ํ์ ๊ฐ๋ฅ์ฑ์ ๋ดํฌํฉ๋๋ค. ์ค์ ๋ก ์๋ฐฑ ๋ฒ์ ์๋ ์ค ๋ช ๋ฒ์ ์ฌ๋ ์ค์๋ ๋ก๋ด ์ง์ฐ์ผ๋ก ์คํจ๊ฐ ์์์ ์ ์์ง๋ง, ์ ๋ฐ์ ์ผ๋ก ์ธ๊ฐ์ ๋์ ์ฑ๊ณต๋ฅ ๋ก ์์ฐ์ ํ๊ฒ ์ฃ . ํฅ๋ฏธ๋ก์ด ์ ์, ์ถฉ๋ถํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ ๋๋ AI ์ ์ฑ ์ด ์ผ๋ถ ์์ ์์๋ ์ธ๊ฐ๋งํผ, ํน์ ๋ ๋์ ์ผ๊ด์ฑ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋๋ค (์: ์ ์ 100%). ๋ฐ๋ฉด ๋ณ๋๊ป ์ด๊ธฐ์ฒ๋ผ ๋งค์ฐ ์ด๋ ค์ด ์์ ์ ์์ง ์ธ๊ฐ๋งํผ ์๋ฒฝํ ๋ฐฐ์ฐ์ง๋ ๋ชปํ์ต๋๋ค (30%). ์ด๋ ๋ฐ์ดํฐ์ ํ๊ณ์ ๋ชจ๋ธ์ ํ๊ณ๊ฐ ๋ชจ๋ ์์ฉํ ๊ฒฐ๊ณผ๋ก ๋ณด์ ๋๋ค. ๋ณ๋๊ป ์ด๊ธฐ๋ 100๊ฐ ์์ฐ์ผ๋ก๋ ๋ถ์กฑํ ์๋ ์๊ณ , ๊ฐํ์ ๋ฌผ๋ฆฌ์ ๋์ด๋๊ฐ ๋์ ๋ฏธ์ธํ ์ ๋ต๊น์ง ํ์ต๋์ง ์์ ๋ฏํฉ๋๋ค. ๊ทธ๋ผ์๋, ์ด ์ ๋ ๋ณต์กํ ์ค์ ์์ ์ ์ฌ๋์ด ๊ฐ๋ฅด์น ๋๋ก ํด๋ธ ์ฌ๋ก๋ ๋๋ฌผ๊ธฐ์ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ์์ฌํ๋ ๋ฐ๊ฐ ํฝ๋๋ค. ํ์ต๋ ๋ก๋ด ์์ด ์๊ฐ+์ด๊ฐ์ ํตํด ์ธ๊ฐ ์์ค์ ์ฌ์ธํจ์ ํ ๊ฑธ์ ๋ค๊ฐ์ฐ์์ ๋ณด์ฌ์ค ๊ฒ์ด์ฃ .
๋นํ์ ๊ณ ์ฐฐ: ๋ฌด์์ด ๋ฐ์ด๋๊ณ , ๋ฌด์์ด ๋จ์๋
์ง๊ธ๊น์ง EyeSight Hand์ ์ค๊ณ์ ์ฑ๋ฅ์ ์ดํด๋ณด์์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด ์ ๊ทผ์ ๋งค๋ ฅ์ ๋ฌด์์ด๊ณ , ํ๊ณ๋ ์ด๋ค ๊ฒ์ด ์์๊น์? ๋ํ ๊ด๋ จ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํ์ ๋์ ์์น๋ ์ง์ด๋ณด๊ฒ ์ต๋๋ค.
1) ํ์ ๊ณผ ๊ฐ์ : EyeSight Hand์ ๊ฐ์ฅ ํฐ ๊ณตํ์ ๋ก๋ด ์์ ์ธ ๊ฐ์ง ํต์ฌ ์์ โ ๊ตฌ์กฐ, ๊ตฌ๋, ์ผ์ฑ โ๋ฅผ ์ผ์ฒดํํ์ฌ ์ต์ ํํ ์ ์ ๋๋ค. ๊ธฐ์กด์ ๋์จ ๋ก๋ด ์๋ค์ ๊ฐ๊ธฐ ์ผ๋ถ ์์์ ์ง์คํ์ง์. ์์ปจ๋ Shadow Hand๋ ๋์ ์์ ๋๋ฅผ ๊ตฌํํ์ง๋ง ๋ณต์กํ ํ ๋๊ตฌ๋์ผ๋ก ์ ๋ขฐ์ฑ ๋ฌธ์ ๊ฐ ์์๊ณ ๊ฐ๊ฒฉ์ด ๋งค์ฐ ๋์์ต๋๋ค. Allegro Hand๋ ๋น๊ต์ ์ ๋ ดํ๊ณ ์ง์ ๊ตฌ๋ํ์ผ๋ ์์ ์๋ณด๋ชจํฐ๋ค์ ํ๊ณ๋ก ๊ฐํ ํ์ ๋ชป ๋ด๊ณ ์ ๊ณ ์ฅ๋ฌ์ต๋๋ค. ์ต๊ทผ MIT ๋ฑ์์ ๋์จ ์ผ๋ถ ์๋ค์ ๋งํฌ๊ตฌ์กฐ๋ก ๊ฐ๋๋ฅผ ๋์์ง๋ง ๋์ ์๋๊ฐ ๋๋ ค ์ค์๊ฐ ์กฐ์์ ์ด๋ ค์์ด ์์๊ณ ์. ๊ทธ๋ฐ ๋ฉด์์ EyeSight Hand๋ ์ ๋นํ ์์ ๋(7 DoF)์ ๊ฐ์ธํ ๋งํฌ+๊ธฐ์ด ๊ตฌ๋, ์ฌ๋ ์์ค์ ํ/์๋, ์ ์ ์ฒด์ ๊ณ ํด์๋ ์ด๊ฐ๊น์ง, ๊ท ํ ์กํ ์ค๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ํนํ $2500 ์ดํ์ ๋น์ฉ์ผ๋ก ๋ง๋ ์ ์ ์คํ์ค์์ ์์ญ, ์๋ฐฑ ๋ฒ ๋ถ๋ชํ๋ ๋ถ๋ด ์์ด ์ธ ์ ์๋ ํ๋ซํผ์ด๋ผ๋ ๋ป์ด๊ณ , ์ด๋ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ๋ฐ์ดํฐ ์์ง ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํฉ๋๋ค. ์ฝ๊ฒ ๋ง๊ฐ์ง๋ ๋น์ผ ์์ ํจ๋ถ๋ก ๋ง์ ์๋๋ฅผ ๋ชปํ์ง๋ง, EyeSight Hand๋ ํผํผํ๊ณ ์ ๋ ดํ๊ธฐ์ ๋๋ ์คํ์ ๊ฒฌ๋ ์ ์์ต๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ โ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ ์ถฉ๋ถํ robustํ๋คโ๋ ํํ์ผ๋ก ์ด๋ฌํ ๊ฐ์ ์ ๋ฐํ๊ณ ์์ต๋๋ค.
๋ ๋ค๋ฅธ ํ์ ์ GelSim(ple) ์ผ์์ ๋๋ค. ๊ธฐ์กด GelSight๋ฅ ์ผ์๋ ์๊ฐ๋ฝ ๋์ ์ ํ์ ์ผ๋ก ์ฌ์ฉ๋์๊ณ , ํด์๋๋ ๋์๋ ์ฌ๋ฌ ๊ฐ๋ฅผ ์ฐ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. EyeSight Hand๋ ์๊ฐ๋ฝ ๋ ๋ง๋์ ์๋ฐ๋ฅ์ ๋ชจ๋ ๊ฐ์ธ๋ 8๊ฐ์ ์ผ์๋ฅผ ๋๊ธฐํํจ์ผ๋ก์จ, ์ค์ง์ ์ผ๋ก ์ ์ ์ฒด ํผ๋ถ๋ฅผ ์๊ฐํํ ์ ์ ๋๋ค. ์ด๋ ์ด๊ฐ ์ฐ๊ตฌ์๋ค์ด ์ค๋ซ๋์ ๊ฟ๊พธ๋ โ๋ก๋ด์ ์จ๋ชธ์ ํผ๋ถ๊ฐ๊ฐ ๋ถ์ฌโ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก๋๋ง ํ์คํํ ๊ฒ์ผ๋ก ํ๊ฐํ ์ ์์ต๋๋ค. GelSim(ple)์ ๋จ์ ์กฐ๋ช ๊ณผ ํ์ฐํ์ ํ์ฉํ ์๋ฆฌํ ์ค๊ณ๋ก, ๊ตฝ์ ํ๋ฉด์๋ ๊ท ์ผ ์กฐ๋ช ์ ์ ๊ณตํ๊ณ , ์ผ์๋ง๋ค ๋ค์ํ ๋ชจ์์ผ๋ก ๋ง๋ค์ด๋ ์ผ๊ด๋ ์ถ๋ ฅ ํ์ง์ ๋ผ ์ ์๊ฒ ํ์ต๋๋ค. ๋ํ 1์ฑ๋ ์ถ๋ ฅ๊ณผ ๊ฐ์ํ๋ ์๋ฎฌ๋ ์ด์ ๋ชจ๋ธ์ ํฅํ ๊ฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํ๊ฑฐ๋ ์๋ฎฌ๋ ์ดํฐ๋ก ๋ก๋ด์ ํ๋ จ์ํค๋ ์๋๋ฅผ ์ฉ์ดํ๊ฒ ํ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ง์ ์คํํ์ง ์์์ง๋ง, ์ ์๋ MLP ๊ธฐ๋ฐ ๋ ๋๋ง ๊ธฐ๋ฒ์ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋๋์ผ๋ก ๊ฐ์ ์์ฑํด๋ณผ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค.
ํ์ต ์ธก๋ฉด์์๋, ๋ฉํฐ๋ชจ๋ฌ ํ์ต๊ณผ ๋๋กญ์์ ๊ธฐ๋ฒ์ ์กฐํฉ์ ๊ฐ๋ ฅํ ๋ฉ์์ง๋ฅผ ์ค๋๋ค. ๋จ์ํ ์ผ์๊ฐ ์ข๋ค๊ณ ๋ก๋ด์ด ์ ์ฐ๋ ๊ฒ์ด ์๋๋ค๋ ์ ์ด์ฃ . ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ ํ ์ค๊ณํด์ผ ๋ก๋ด์ด ์ ์๋ฏธํ ์ด๊ฐ ํน์ง์ ํ์ตํ๊ณ ํ์ฉํ ์ ์์ต๋๋ค. Vision dropout์ด๋ผ๋ ๋น๊ต์ ๋จ์ํ ํ ํฌ๋์ผ๋ก๋ ์ด๊ฐ ํ์ฉ๋๋ฅผ ํฌ๊ฒ ๋์๋ค๋ ๊ฒ์, ์์ผ๋ก ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ attention ์กฐ์ ์ด๋ ํ์ต ์ค์ผ์ค๋ง ๋ฑ์ ํตํด ๋ ์๋ฆฌํ๊ฒ ์ฌ๋ฌ ๊ฐ๊ฐ์ ํตํฉํ๋ ๋ฐฉ๋ฒ์ด ์์ ๊ฒ์์ ์์ฌํฉ๋๋ค. ๋ํ ACT ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์ํ์ค ์์ธก์ ๋์ ํ ๊ฒ์, ์ค์๊ฐ ์ ์ด๋ฅผ ์ข ๋ ๊ณํ์ ์ด๊ณ ์์ ๋๊ฒ ๋ง๋ ์ธก๋ฉด์ด ์์ต๋๋ค. ๊ธฐ์กด์ Behavior Cloning์ด ์ฆ๊ฐ์ ์ธ ๋ค์ ํ๋๋ง ๋ด๋ค๋ณด๋ ๊ฒ์ ๋นํด, ์ผ์ ๊ตฌ๊ฐ ๋ฏธ๋๋ฅผ ๋ด๋ค๋ณด๋ฉด ํ๋ค๋ฆผ์ด๋ ์งํฐ๋ฅผ ์ค์ด๊ณ ์๋ฏธ์๋ ํ๋์ ํ๋ฆ(chunk)์ ์ ์งํ ์ ์์ผ๋๊น์. ์ด๋ ํฅํ ๊ฐํํ์ต(RL)์ด๋ ๋ค๋ฅธ ์ต์ ํ์ ๊ฒฐํฉํ ๋๋ ์ ์ฉํ ๊ตฌ์กฐ์ผ ๊ฒ์ ๋๋ค.
2) ํ๊ณ์ ๊ฐ์ ๋ฐฉํฅ: ์๋ฌด๋ฆฌ ์ข์ ์ฐ๊ตฌ์๋ ์์ฌ์ด ๋ถ๋ถ์ ์๊ฒ ๋ง๋ จ์ ๋๋ค. ์ฐ์ EyeSight Hand ์์ฒด์ ํ๋์จ์ด์ ํ๊ณ๋ก๋, ์์ ๋ ๋ถ์กฑ๊ณผ ๊ตฌ๋ ์ฐ์์ ์ ์ฝ์ ๋ค ์ ์์ต๋๋ค. 7 DoF๋ก ๊ฒ์ง, ์ค์ง, ์์ง๋ง ๊ตฌํ๋ ํํ๋ผ ๋๋จธ์ง ์๊ฐ๋ฝ(์ฝ์ง, ์์ง)์ด ์์ต๋๋ค. ์ด๋ ํน์ ํ์ง๋ ๋๊ตฌ ์กฐ์์ ์ ํ์ ์ค ์๋ฐ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ณ๋๊ป ์ด๊ธฐ์์๋ ์๋ ์ฌ๋์ด๋ฉด ์์์ผ๋ก ํ๊ฑฐ๋, ํ ์์ผ๋ก๋ ์์ง-๊ฒ์ง-์ค์ง ์กฐํฉ ์ธ์ ์๋ฐ๋ฅ์ผ๋ก ๋ณ์ ๊ฐ์ธ ์ฅ๋๋ฐ, ๋ก๋ด์ ๊ฒ์ง+์ค์ง+์๋ฐ๋ฅ ๋ฉด์ ์ผ๋ก ๋ฒํฐ๋๋ผ ๋ค์ ๋ถ์์ ํด ๋ณด์์ต๋๋ค. ์ฝ์ง๋ ์์ง, ํน์ ์๋ชฉ ํ์ ๋ฑ์ด ์์๋ค๋ฉด ๋ ์์ํ์ ๊ฒ๋๋ค. ์ฐ๊ตฌ์ง๋ ๊ฒฐ๋ก ์์ ํฅํ ์๊ฐ๋ฝ์ ์ถ๊ฐํ์ฌ ์์ ํ ์ธ๊ฐ ์ ํํ๋ก ํ์ฅํ ๋ป์ ๋ฐํ์ต๋๋ค.
๋, ์์ง์ ๊ฒฝ์ฐ MCP ๊ด์ ์ด ์๊ณ ์์ฅ๊ด์ (TM)์ ๋ ์ถ์ ํ ๋ชจํฐ๋ก ๊ตฌ๋ํ๋ ํน์ดํ ์ค๊ณ์๋๋ฐ, ์ด๋ ์์ง์ ๋ ๋ฆฝ์ ์์ง์์ ์ ํํฉ๋๋ค. ์ธ๊ฐ ์์ง๋ ์๋ฐ๋ฅ ์ชฝ์ผ๋ก ๊ตฝํ๋ ๊ฒ(flexion)๊ณผ ์๋ฐ๋ฅ ํ๋ฉด์์ ๋ฒ์ด์ง๋ ๊ฒ(abduction)์ ๋ณ๊ฐ๋ก ํ ์ ์์ง๋ง, EyeSight Hand ์์ง๋ ์๋ง ๊ฒฐํฉ๋ ์์ง์๋ง ๊ฐ๋ฅํฉ๋๋ค. ์ฆ, ์์ง๊ฐ ํ ๊ฐ์ง ๊ถค์ ์ ๋ฐ๋ผ์๋ง ์์ง์ฌ์, ์ธ๋ฐํ ์กฐํ(grasp shape)์ ๋ค์์ฑ์ ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด ์ญ์ ์ถํ ๋์ผ ๋ชจํฐ ๊ตฌ๋์ผ๋ก ๊ฐ์ ๋ ์ ์๋ ๋ถ๋ถ์ ๋๋ค.
์ผ์ ์ธก๋ฉด์์๋, 8๊ฐ์ ์นด๋ฉ๋ผ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ค๋ฃจ๋ ์์คํ ํตํฉ์ ๋ณต์ก๋์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋น์ฉ์ด ์๊ฐ๋ฉ๋๋ค. ๋ผ์ฆ๋ฒ ๋ฆฌํ์ด 2๋์ ZeroMQ๋ก ์คํธ๋ฆฌ๋ฐํ๋ ๋ฑ ๊ฝค ๊ณต๋ค์ฌ ์ธํ ํ๋๋ฐ, ์ด๋ ์ผ๋ฐ ์ฐ๊ตฌ์๊ฐ ๋์ผ ํ๋ซํผ์ ํ์ฉํ๋ ค๋ฉด ๋ค์ ๋ฒ๊ฑฐ๋ก์ด ๋ถ๋ถ์ผ ๊ฒ์ ๋๋ค. ๋ํ ์ด๊ฐ ์์์ 8๊ฐ๋ ๋ฃ๋ค๋ณด๋, ์ ์ฑ ์ ๋ ฅ ์ฐจ์์ด ๋งค์ฐ ๋์ ํ์ต ๋ถ๋ด๋ ํฝ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ResNet-18๋ก ๊ฐ๊ฐ ์ธ์ฝ๋ฉํด ๋ณํฉํ์ง๋ง, ๋ง์ฝ ์๊ฐ๋ฝ์ด ๋ ๋์ด๋๊ฑฐ๋ ์นด๋ฉ๋ผ ํด์๋๋ฅผ ๋์ด๋ฉด ํ ์ ๊ทผ์ ํ๊ณ์ ๋ถ๋ชํ ์ ์์ต๋๋ค. ํจ์จ์ ์ธ ํผ์ฒ ์์ถ์ด๋ ์ค์ ์ผ์ ์ ํ ๋ฑ์ด ํฅํ ๊ณผ์ ๋ก ๋ ์ค๋ฅผ ์ ์์ฃ . ๋คํํ dropout ๊ธฐ๋ฒ ๋ฑ์ผ๋ก ๋ชจ๋ธ์ด ํ์ํ ์ ๋ณด๋ง ์ทจํ๋๋ก ์ ๋ํ์ง๋ง, ๋ณด๋ค ๊ตฌ์กฐ์ ์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ํํ ํ์ต์ ํฅ์์ํค๋ ์ฐ๊ตฌ์ ์ฌ์ง๊ฐ ๋ง์ต๋๋ค.
ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฉด์์ ๋ณด์๋ฉด, ์ด๋ฒ ์ฐ๊ตฌ๋ ์คํ๋ก๋ผ์ธ ๋ชจ๋ฐฉํ์ต(offline IL)์ผ๋ก ์ํ๋์ด, ์๋ฒ์ ๋ถํฌ ๋ฐ ์ํฉ์ด๋ ์คํจ ๋ณต๊ตฌ์ ์ฝํ ์ ์์ต๋๋ค. ์ค์ ๋ก ๊ฒฐ๊ณผ์์๋ ๋ณ๋๊ป ์ด๊ธฐ๋ 30% ์ฑ๊ณต์ ๋จธ๋ฌผ๋ ๋๋ฐ, ์คํจ ์ฌ๋ก์์ ํ๋ฒ ๋์น ๋๊ป์ ๋ค์ ์ก์ผ๋ ค ์๋ํ๋ค๋ ๊ฐ ํ๋ ์ฌ์๋ ์ ๋ต์ ์์์ต๋๋ค. ์ด๋ IL์ ํ๊ณ๋ก, ํ๋ฒ ์๋ชป๋๋ฉด ๊ณ์ ์คํ ์ ์ฑ ์ผ๋ก ๋ฐ๊ณ ๋๊ฐ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฐํํ์ต(RL)์ด๋ online ๋ฌ๋์ ์ ๋ชฉํ๋ฉด ์คํจ๋ฅผ ์ค์ผ ์ ์๊ฒ ์ง๋ง, ์ด๋ ๋ ๋ง์ ์๋๊ฐ ํ์ํ์ฃ . ๋คํํ EyeSight Hand๋ ํผํผํ๋ RL์ ํด๋ณผ ์๋ ์๊ฒ ์ต๋๋ค๋ง, 8๊ฐ ์ด๊ฐ ์ผ์์ ์๋ฎฌ๋ ์ดํฐ๊น์ง ํฌํจํ์ฌ ํ์ตํ๋ ค๋ฉด ๊ณ์ฐ๋์ด ์๋นํ ๊ฒ์ ๋๋ค. ์ด ๋ถ๋ถ์ ํ์ค๊ณผ ์๋ฎฌ๋ ์ด์ ์ ๋ณํ์ด๋, ์ธ๊ฐ์ ์ถ๊ฐ์ ์ธ ๊ต์ ํผ๋๋ฐฑ ๋ฑ์ ์๋ ๋ฐฉ๋ฒ ๋ฑ์ผ๋ก ๊ฐ์ ๊ฐ๋ฅํด ๋ณด์ ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ตํ๋ฉด, EyeSight Hand๋ โ๋ง๋ฅ ํตํฉโ ์งํฅ์ผ๋ก ์ฐจ๋ณํ๋ฉ๋๋ค. ์ต๊ทผ All-While-Feeling ์(Ars Electronica 2024)์ด๋ผ๋ ๊ฐ Digit ๊ด์ ์๊ฐ๋ฝ ๋ฑ์ ์ฐ๊ตฌ๊ฐ ์ด๊ฐ์ ํฌ๊ฒ ๋ถ๊ฐ์์ผฐ์ง๋ง, ์ด๋ค์ ์ฃผ๋ก 2-3 ์์ ๋ ๊ทธ๋ฆฌํผ ์์ค์ด์์ต๋๋ค. ๋ฐ๋ฉด EyeSight Hand๋ 7 DoF๋ก ๋ ๋ณต์กํ ํ์์ ์ง๋๊ณ , ์ ์ฒด ํ๋ฉด ์ด๊ฐ์ ๊ฐ์ท๋ค๋ ์ ์์ ์์๊ฐ๋๋ค. Shadow Hand ๋ฑ์ ์ธ๋ถ ์ด๊ฐ ์ผ์๋ฅผ ๋ถ์ธ ์๋๋ ์์์ผ๋ ์์ ๋๊ฐ ๋์๋ ์ผ์ ํด์๋๊ฐ ๋ฎ์๊ณ , ๋ชจ๋ฐฉํ์ต๊น์ง ์ฐ๊ฒฐํ ๊ฒฝ์ฐ๋ ์ฐพ์๋ณด๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ๋ํ OpenAI์ Dactyl ๊ฐ์ ์ ๋ช ํ ์ฌ๋ก๋ ์์ ํ ์ธ๊ณต์ง๋ฅ์ ์ฑ๊ณผ์ง๋ง, ์ดฌ์๋ ์๊ฐ๋ฝ ์์น๋ฅผ ๋ฏฟ๊ณ RL์ ํ ๊ฒ์ผ๋ก ์ด๊ฐ์ด ์์๊ณ ์ค์ ๋ก ์๋ง๋ฒ ์๋ฎฌ๋ ์ด์ ํ ๋์ ๊ฐ์ ํ ์คํํ ๊ฒ์ด์์ต๋๋ค. EyeSight Hand๋ ํ์ค ์ธ๊ณ์์ ์ฌ๋์ด ์์ฐํ ๊ฒ๋ง์ผ๋ก ํ์ต์ ํ๋ค๋ ์ ์์ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ค์ฉ์ฑ์ ๋ณด์ฌ์ค๋๋ค. DexMV ๊ฐ์ ์ฐ๊ตฌ๊ฐ ๋น๋์ค์์ ์ธ๊ฐ ์ ์์ง์์ ์ถ์ ํด ๋ก๋ด์ ๋ชจ๋ฐฉ์ํค๋ ๋ฑ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ๋ ์์ง๋ง, ๊ฒฐ๊ตญ ์ ํํ ์์ ์ํ์๋ ์ค์ ํ๊ฒฝ๊ณผ ์ด๊ฐ ์ ๋ณด๊ฐ ๊ฒฐ์ ์ ์ด๋ ๊ฒ์ ์ด ๋ ผ๋ฌธ์ ๋ณด์ฌ์ค ์ ์ ๋๋ค.
์ ๋ฆฌํ์๋ฉด, EyeSight Hand๋ ํ์ฌ ๊ฐ์ฅ ์ข ํฉ์ ์ผ๋ก ์ ๊ฐ์ถฐ์ง ๋ก๋ด ์ ํ๋ซํผ ์ค ํ๋๋ก ํ๊ฐํ ๋งํฉ๋๋ค. ํด๋จธ๋ ธ์ด๋ ์ ์ฐ๊ตฌ์ ์ถ์ธ๋ฅผ ํ ๋จ๊ณ ์ฌ๋ ธ๋ค๊ณ ๋ ๋ณผ ์ ์์ฃ . ๋ฌผ๋ก ์๋ฒฝํ์ง๋ ์์ง๋ง, ์ ๋น์ฉ์ผ๋ก ํผํผํ ๊ตฌ์กฐ, ํ๋ถํ ๊ฐ๊ฐ, ํ์ต ์นํ์ฑ๊น์ง ๊ณ ๋ คํ ์ ์ด ์ธ์์ ์ ๋๋ค. ์ด๋ฌํ ํตํฉ์ ์ ๊ทผ์ ์์ผ๋ก ๋ก๋ด ์ ์ฐ๊ตฌ์์ ์ค์ํ ๋ฒค์น๋งํฌ๊ฐ ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
EyeSight Hand ๋ ผ๋ฌธ์ ๋ก๋ด ์ ์ฐ๊ตฌ์ ํ์ฌ ์งํ์ ๋ํ ์ํ์ ๋๋ค. ์ด๋ค์ ์ธ๊ฐ ์์ ํํ์ ๊ธฐ๋ฅ์ ๋ณธ๋ฐ๋ ํ์ค์ ์ธ ์ ์ถฉ์ ํตํด 7์์ ๋ ์์ ๋ง๋ค์๊ณ , ์ค-์ง์ ๊ตฌ๋์ด๋ผ๋ ๋ ์ฐฝ์ ๋ฐฉ์์ผ๋ก ๊ฐ์ธํจ๊ณผ ์ ์ฐ์ฑ์ ๋ชจ๋ ์ก์์ต๋๋ค. ๋ํ ์๊ฐ๋ฝ๊ณผ ์๋ฐ๋ฅ ์ ๋ฉด์ ๋ถํฌํ 8๊ฐ์ ๋น์ ์ด๊ฐ ์ผ์๋ฅผ ํตํด ๋ก๋ด ์์ ์ด๊ฐ์ ๋์ ๋ฌ์์ฃผ์์ต๋๋ค. ์ด ๋๋ถ์ EyeSight Hand๋ ์ถฉ๋์ด๋ ๋ง๋ชจ ๊ฑฑ์ ์์ด ์๋ฐฑ ๋ฒ์ ์คํ์ ๊ฒฌ๋๋ฉฐ, ํ๋ถํ ๋ฐ์ดํฐ๋ฅผ ์์ ๋ชจ๋ฐฉ ํ์ต์ผ๋ก ์์ ์ ์ตํ ์ ์์์ต๋๋ค. ์ค์ ๋ณ๋๊ป ์ด๊ธฐ, ์ ์ ์ฎ๊ธฐ๊ธฐ, ์ ํ ์๋ฅด๊ธฐ ๋ฑ์ ๊น๋ค๋ก์ด ์์ ์์, ํ์ต๋ ์ ์ฑ ์ด ์ฌ๋์ฒ๋ผ ํ๊ฒฝ์ ์กฐ์ํ๊ณ , ํนํ ์ด๊ฐ์ ํ์ฉํ ๋ ์ฑ๊ณต๋ฅ ์ด ๋น์ฝ์ ์ผ๋ก ํฅ์๋๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. โ์์ ๋์ ๋ฌ์์ฃผ๋ ๋น๋ก์ ์ฌ์ธํ ์ผ๋ค์ ํด๋ด๋๋ผโ๋ ๋ฉ์์ง๋ฅผ ์์น๋ก ์ฆ๋ช ํ ๊ฒ์ ๋๋ค.
์ด ์ฐ๊ตฌ๋ ๋ก๋ด๊ณตํ์์๊ฒ ์ฌ๋ฌ ํต์ฐฐ์ ์ค๋๋ค. ํ๋์จ์ด ์ค๊ณ์ AI ์ ์ด์ ๊ณต๋ ์ต์ ํ๊ฐ ์ผ๋ง๋ ์ค์ํ์ง, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ์ ๋ฅ๋ ฅ์ ๋ชจ๋ฐฉํ๋ ค๋ฉด ๋จ์ํ ๊ธฐ๊ณ ๊ตฌ์กฐ๋ฟ ์๋๋ผ ๊ฐ๊ฐ์ ํตํฉ์ด ํ์์์ ๊นจ๋ซ๊ฒ ํฉ๋๋ค. EyeSight Hand์ฒ๋ผ ์ผ์๋ฆฌ์น(sensor-rich)ํ๊ณ ์ปดํ๋ผ์ด์ธํธํ ํ๋ซํผ์ด ์์ผ๋ก ๋ ๋ง์ด ๋์ฌ์๋ก, ๋ก๋ด์ ๋ค์ฌ๋ค๋ฅํจ์ ํฌ๊ฒ ํฅ์๋ ๊ฒ์ ๋๋ค. ํํธ์ผ๋ก, ์ด๋ฌํ ํ๋ซํผ์ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃจ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ ์ญ์ ์ค์ํฉ๋๋ค. ์ด๋ฒ ๋ ผ๋ฌธ์์ ๋ณด์ฌ์ค ๋ฉํฐ๋ชจ๋ฌ ๋ณํฉ ๊ธฐ๋ฒ์ด๋ ๋๋กญ์์ ํธ๋ฆญ์ ๋น์ฐ์ ์ผ๊ฐ์ผ ์ ์์ต๋๋ค. ์์ผ๋ก๋ ์ด๊ฐ ์ ๋ณด๋ก๋ถํฐ ํต์ฌ ํผ์ฒ๋ฅผ ์ถ์ถํ๊ฑฐ๋, ์๊ฐ-์ด๊ฐ ๊ฐ ์ ๋ขฐ๋๋ฅผ ์ค์๊ฐ ํ๊ฐํ์ฌ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋๋ํ ์ ์ฑ ๋ฑ์ด ์ฐ๊ตฌ๋ ๊ฒ์ ๋๋ค. ๋ํ ๊ฐํํ์ต๊ณผ์ ๊ฒฐํฉ์ผ๋ก, ์ฌ๋์ด ์์ฐํ๊ธฐ ์ด๋ ค์ด ๋ ์ฐฝ์์ ์ธ ์กฐ์ ๊ธฐ์ ์ ๋ก๋ด์ด ์ค์ค๋ก ํฐ๋ํ๋ ๋ฐฉํฅ๋ ๊ธฐ๋ํด๋ณผ ๋งํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ ผ๋ฌธ ์ ์๋ค์ ํฅํ ์๊ฐ๋ฝ์ ์ถ๊ฐํ๊ณ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ํ ๊ฒ์ ์ธ๊ธํ์ต๋๋ค. ์์ ํ ์ค์ง ๋ก๋ด ์์ ๊ฐ๊น์์ง์๋ก, ์๋ง ์ง๊ธ๋ณด๋ค ํจ์ฌ ๋ ์ธ๊ฐ ๊ฐ์ ์ฌ์ธํ ์กฐ์์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ด ๊ณต์ฅ์ด๋ ์ฐ๊ตฌ์๋ฅผ ๋์ด, ์ฐ๋ฆฌ ์ผ์ ์์์ ์์ผ๋ก ํ๋ ์ผ๋ค (๋ฌธ ์ด๊ธฐ, ์๋ฆฌ ์ค๋น, ๊ณต๊ตฌ ์ฌ์ฉ ๋ฑ)์ ๋์ธ ๋ ๋ ์๋น๊ฒจ์ง๋ฆฌ๋ผ ์๊ฐ๋ฉ๋๋ค. EyeSight Hand๋ ๊ทธ ๋น์ ์ ํฅํ ์ค์ํ ๊ฑธ์์ ๋ด๋๋ ์ ์ ๋๋ค. ๋ก๋ด๊ณตํ๊ณ์ ํ์ธ๋ง ๊ต์๊ฐ ์๋ค๋ฉด, ์๋ง โ์ด ๋ก๋ด ์์ ๋์ผ๋ก ๋ณด๊ณ ๋๋ ์ค ์๋๊น, ๋ฐฐ์ฐ๊ณ ๋ฐ์ ํ ๊ฐ๋ฅ์ฑ์ด ๋ฌด๊ถ๋ฌด์งํ๋จ๋ค!โ๋ผ๊ณ ์ฌ๋ฏธ์๊ฒ ํํ์์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ธ๊ฐ์ ์๋ ์งํ๋ฅผ ๊ธฐ๊ณ์ ๋ถ์ด๋ฃ์ผ๋ ค๋ ๋์ ์ ๊ณ์๋๊ณ ์์ผ๋ฉฐ, EyeSight Hand๋ ๊ทธ ์ฌ์ ์์ ๋นผ๋์ ์ ์๋ ์ด์ ํ๋ก ๊ธฐ๋ก๋ ๊ฒ์ ๋๋ค.