flowchart LR
subgraph LIB["1 Manipulation Type Library"]
A[4 sub-categories<br/>30 types] --> B["๊ฐ ์ ํ:<br/>stretch/contract ์์ธ<br/>+ ์์ฑ ์ฃผ์"]
end
subgraph RET["2 Type Retrieval (MLLM)"]
C[์นด๋ฉ๋ผ ์์] --> E[GPT-4o]
D[์์ฑ ๋ช
๋ น / Whisper] --> E
E --> F[์์
๋ถํด +<br/>์๋ณ ์ ํ ํ ๋น]
end
subgraph TELE["3 Type-Guided Teleop"]
G[์ ํ๋ type์<br/>stretchโcontract] --> H[์ฌ๋ ์ ์์ง์์ผ๋ก<br/>๋ณด๊ฐ interpolation]
H --> I[๋ก๋ด ์ ๊ด์ ๋ช
๋ น]
end
B -->|prompt๋ก ๋ณํ| E
F -->|์ ํ๋ type| G
๐TypeTele
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
๊ธฐ์กด dexterous teleoperation์ ์ฌ๋ ์ ์์ธ๋ฅผ ๋ก๋ด ์์ ๊ทธ๋๋ก ๋ฒ ๋ผ๋(hand retargeting) ๋ฐฉ์์ด ์ฃผ๋ฅ์์ต๋๋ค. ํ์ง๋ง ๋ก๋ด ์์ ์ฌ๋๊ณผ ๊ตฌ์กฐ๊ฐ ๋ฌ๋ผ์, ์ฌ๋ ์๋์์ ํ๋ด ๋ด๊ธฐ๋ง ํ๋ฉด ๋ก๋ด ์ ๊ณ ์ ์ ๋ฅ๋ ฅ(์: ์๊ฐ๋ฝ ํ๋๋ก ํธ๋ฆฌ๊ฑฐ ๋น๊ธฐ๊ธฐ, ์ฌ๋ ์์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ๊ทธ๋ฆฝ) ์ ์ด๋ฆฌ์ง ๋ชปํฉ๋๋ค.
TypeTele์ ํต์ฌ ์์ด๋์ด๋ ๋จ์ํ๋ฉด์ ๊ฐ๋ ฅํฉ๋๋ค. ์ฐ์์ ์ธ ๊ด์ ๋งคํ ๋์ , โ์๋์ ์ ํ(dexterous manipulation type)โ์ด๋ผ๋ ์ด์ฐ์ (discrete) ๋จ์๋ก ์กฐ์์ ์ถ์ํํฉ๋๋ค. ์์ ์ ๋ง๋ ์ ํ์ ๊ณ ๋ฅด๋ฉด, ๊ทธ ์ ํ ์์์๋ง ์ฌ๋ ์๋์์ด ๋ก๋ด ์์ ๋ฏธ์ธ ์กฐ์ข ํฉ๋๋ค.
- ์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ: 4๊ฐ ํ์ ๋ฒ์ฃผ, 30๊ฐ ์ ํ (๋จ์ผ ์ grasp/non-grasp, ์์ ํ์)
- ์ ํ ๊ฒ์(retrieval): GPT-4o ๊ธฐ๋ฐ MLLM์ด ์นด๋ฉ๋ผ ์์ + ์์ฑ ๋ช ๋ น(Whisper)์ ๋ณด๊ณ ์ ํฉํ ์ ํ์ ์๋ ์ ํ (์ ํ๋ ์ฝ 92%, ์์ ๋น 1ํ ~4.8์ด)
- ์ ํ ๊ธฐ๋ฐ ์กฐ์ข : ์ ํ๋ ์ ํ์ โํผ์นจ(stretch)โ๏ธ์ค๋ฏ๋ฆผ(contract)โ ์์ธ ์ฌ์ด๋ฅผ ์ฌ๋ ์ ์์ง์์ผ๋ก ๋ณด๊ฐ(interpolation)
๊ฒฐ๊ณผ์ ์ผ๋ก retargeting ๋ฒ ์ด์ค๋ผ์ธ์ด 0% ์ฑ๊ณตํ๋ ๊ฐ์์งยท๋ถ๋ฌด๊ธฐยท๋ฌด๊ฑฐ์ด ์ฃผ์ ์ ๋ฐ๋ฅด๊ธฐ ๊ฐ์ ๊ณผ์ ๋ฅผ TypeTele์ 85~91% ๋ก ํด๋๊ณ , ๋ชจ๋ฐฉํ์ต(imitation learning) ์ ์ฑ ์ฑ๋ฅ๋ ํฌ๊ฒ ๋์ด์ฌ๋ ธ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
์๋ก
๋ก๋ด์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ฑฐ๋ ์๊ฒฉ ์ ์ด๋ฅผ ํ๋ ค๋ฉด ์ฌ๋์ด ๋ก๋ด ์์ ์ง์ ์์ง์ฌ ๋ณด์ฌ์ฃผ๋ ํ ๋ ์คํผ๋ ์ด์ (teleoperation) ์ด ํ์์ ๋๋ค. ํนํ ๋ค์ฏ ์๊ฐ๋ฝ์ง๋ฆฌ ๋ฏผ์ฒฉํ ์(dexterous hand) ์ ์๊ฒฉ์ผ๋ก ๋ค๋ฃจ๋ ์ผ์, ํ๋ถํ ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์ป๋ ๊ฐ์ฅ ์ง์ ์ ์ธ ํต๋ก์ ๋๋ค.
๊ทธ๋ฐ๋ฐ ์ง๊ธ๊น์ง์ dexterous teleoperation์ ๊ฑฐ์ ๋ค hand retargeting์ ์์กดํ์ต๋๋ค. ์ฌ๋ ์์ ์์ธ๋ฅผ ์ธก์ ํด์ ๋ก๋ด ์์ด ์ต๋ํ ๋๊ฐ์ด ๋ฐ๋ผ ํ๊ฒ ๋ง๋๋ ๋ฐฉ์์ ๋๋ค. ์ง๊ด์ ์ด์ง๋ง ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ก๋ด ์์ ์ฌ๋ ์์ด ์๋๋๋ค. ์๊ฐ๋ฝ ๊ฐ์, ๊ด์ ๋ฐฐ์น, ๊ฐ๋ ๋ฒ์๊ฐ ๋ค๋ฅด๊ณ , ๋๋ก๋ ์ฌ๋ ์์ผ๋ก๋ ์ ๋ ๋ชป ํ๋ ์์ธ๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค. ์ฌ๋ ์์ ๋ฒ ๋ผ๋ ๋ฐ๋ง ๋งค๋ฌ๋ฆฌ๋ฉด, ์ด๋ ๊ฒ ๋ก๋ด ์ ๊ตฌ์กฐ๊ฐ ๊ฐ์ง ๊ณ ์ ์ ๋ฏผ์ฒฉ์ฑ(dexterity)์ ์คํ๋ ค ๋ด์ธํด ๋ฒ๋ฆฝ๋๋ค.
์๋ฅผ ๋ค์ด ๋ถ๋ฌด๊ธฐ ํธ๋ฆฌ๊ฑฐ๋ฅผ ๋น๊ธฐ๋ ๋์์ ์๊ฐํด ๋ด ์๋ค. ์ฌ๋์ ๊ฒ์ง๋ก ํธ๋ฆฌ๊ฑฐ๋ฅผ ๋น๊ธฐ๋ฉด์ ๋๋จธ์ง ์๊ฐ๋ฝ์ผ๋ก ๋ชธ์ฒด๋ฅผ ๊ฐ์๋๋ค. ์ด ์์ธ๋ฅผ ๋ก๋ด ์์ ๊ทธ๋๋ก retargetingํ๋ฉด ๊ด์ ๊ตฌ์กฐ ์ฐจ์ด ๋๋ฌธ์ ํธ๋ฆฌ๊ฑฐ์ ์๊ฐ๋ฝ์ด ์ ๋๋ก ๋ฟ์ง๋ ๋ชปํ๋ ์ด์ ์ฉกํ ์์ธ๊ฐ ๋์ค๊ธฐ ์ฝ์ต๋๋ค. ์ฐจ๋ผ๋ฆฌ โ์ด ๋ก๋ด ์์ ์ต์ ํ๋ ํธ๋ฆฌ๊ฑฐ ๋น๊ธฐ๊ธฐ ์์ธโ๋ฅผ ๋ฏธ๋ฆฌ ์ ์ํด ๋๊ณ ๊ทธ๊ฑธ ์ฐ๋ ํธ์ด ๋ซ์ต๋๋ค.
TypeTele(Type-guided Teleoperation)๋ ๋ฐ๋ก ์ด ๋ฐ์์ ์ ํ์ ๋๋ค. ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด, โ์ฌ๋ ์์ ๋ฒ ๋ผ์ง ๋ง๊ณ , ์์ ์ ๋ง๋ ๋ก๋ด ์ ์ ์ฉ ์กฐ์ ์ ํ์ ๊ณจ๋ผ์, ๊ทธ ์ ํ ์์์๋ง ์ฌ๋์ด ๋ฏธ์ธ ์กฐ์ข ํ๊ฒ ํ์โ๋ ๊ฒ์ ๋๋ค.
๋ฐฉ๋ฒ
TypeTele์ ์ธ ๋ถ๋ถ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. (1) ์กฐ์ ์ ํ๋ค์ ๋ด์ ์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, (2) ์์ ์ ๋ง๋ ์ ํ์ ์๋์ผ๋ก ๊ณจ๋ผ ์ฃผ๋ MLLM ๊ธฐ๋ฐ ๊ฒ์ ๋ชจ๋, (3) ๊ณ ๋ฅธ ์ ํ ์์์ ์ฌ๋ ์์ผ๋ก ๋ฏธ์ธ ์กฐ์ข ํ๋ ์ ํ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ . ์ฐจ๋ก๋ก ์ง๊ด๊ณผ ํจ๊ป ์ดํด๋ด ๋๋ค.
์๋์ ์ ํ์ด๋ ๋ฌด์์ธ๊ฐ
ํต์ฌ ๊ฐ๋ ์ธ dexterous manipulation type๋ถํฐ ์ง๊ฒ ์ต๋๋ค. ์ด๊ฒ์ ๋ก๋ด ์์ด ์ทจํ ์ ์๋ ์ด์ฐ์ ์ธ ์์ธ(posture) ๋จ์์ ๋๋ค. ์ฌ๋ ์ ์์ธ ๋ถ๋ฅ(grasp taxonomy) ์ฐ๊ตฌ๋ฅผ ํ ๋๋ก ์ผ๋, ๋ก๋ด ์ ์ ์ฉ์ผ๋ก ํน๋ณํ ์ค๊ณํ ์์ธ๋ฅผ ๋ํด ํ์ฅํ์ต๋๋ค.
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ 4๊ฐ ํ์ ๋ฒ์ฃผ, ์ด 30๊ฐ ์ ํ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
| ๋ฒ์ฃผ | ์ธ๋ถ ๊ตฌ๋ถ |
|---|---|
| ๋จ์ผ ์ - Grasp | robot-exclusive grasp(๋ก๋ด ์ ์ฉ) / general grasp(์ผ๋ฐ) |
| ๋จ์ผ ์ - Non-grasp | ์ก์ง ์๋ ์กฐ์ (์: ํธ๋ฆฌ๊ฑฐ ๋น๊ธฐ๊ธฐ, ๋๋ฅด๊ธฐ) |
| ์์ ํ์ - ๋์นญ(symmetric) | ๋ ์์ด ๊ฐ์ ์ญํ |
| ์์ ํ์ - ๋น๋์นญ(asymmetric) | ๋ ์์ด ๋ค๋ฅธ ์ญํ |
๊ฐ ์ ํ์๋ ๋ ๊ฐ์ง๊ฐ ํจ๊ป ์ฃผ์์ผ๋ก ๋ฌ๋ฆฝ๋๋ค.
- ๋ ๊ฐ์ ๊ธฐ์ค ์์ธ: ํผ์น ์์ธ(stretching) ์ ์ค๋ฏ๋ฆฐ ์์ธ(contracting). ์ฌ๋ ์์ ์์ฐ์ค๋ฌ์ด ์๊ทน๋จ ์์น์ ๋์ํฉ๋๋ค. ์ด ๋ ์ฌ์ด๋ฅผ ์ค๊ฐ๋ ๊ฒ์ด ๊ณง ํ๋์ ์กฐ์ ๋์์ด ๋ฉ๋๋ค.
- ์์ฑ ์ค๋ช (attributes): ์ด๋ค ์ข ๋ฅ์ ๋ฌผ์ฒดยท์์ ์ ์ ํฉํ์ง(object-centric), ๊ทธ๋ฆฌ๊ณ ์์ธ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์๊ฒผ๋์ง(posture-centric). ์ธ๋ถ์ ์ผ๋ก๋ ์ ์์ธ, ๋ค๋ฃฐ ์ ์๋ ๋ฌผ์ฒด ๋ฒ์ฃผ, ์ ์ด ๋ถ์(contact parts), ๊ธฐํ, grasp ๋ฐฉํฅ, ์กฐ์ ๋ชฉ์ ๋ฑ์ด ํฌํจ๋ฉ๋๋ค.
์ด ์์ฑ ์ค๋ช ์ด ์ค์ํ ์ด์ ๋, ๋์ค์ ์ธ์ด ๋ชจ๋ธ์ด ์ฝ๊ณ โ์ด ์์ ์ ์ด ์ ํ์ด ๋ง๊ฒ ๋คโ๊ณ ์ถ๋ก ํ ์ ์๊ฒ ํด ์ฃผ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ํ์ฅ ๊ฐ๋ฅ(extensible) ํ๊ฒ ์ค๊ณ๋์ด, ์๋ก์ด ์์ธ๋ฅผ ๊ณ์ ์ถ๊ฐํ ์ ์์ต๋๋ค.
MLLM ๊ธฐ๋ฐ ์ ํ ๊ฒ์: ๋ง๊ณผ ์์์ผ๋ก ์ ํ ๊ณ ๋ฅด๊ธฐ
์กฐ์ ์ ํ์ด 30๊ฐ๋ ๋๋, ์์ ํ ๋๋ง๋ค ์ฌ๋์ด ์ผ์ผ์ด ๊ณ ๋ฅด๊ธด ๋ฒ๊ฑฐ๋กญ์ต๋๋ค. TypeTele์ ์ด ์ ํ์ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM) ์๊ฒ ๋งก๊น๋๋ค. ์ฌ์ฉํ ๋ชจ๋ธ์ GPT-4o ์ ๋๋ค.
์๋ ํ๋ฆ์ ์ด๋ ์ต๋๋ค.
- ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ชจ๋ ์ ํ์ ์์ฑ ์ค๋ช ๊ณผ ํจ๊ป ์ธ์ด ํ๋กฌํํธ ํํ๋ก ๋ณํํด GPT-4o์ ์ ๊ณตํฉ๋๋ค.
- ์ด์์๊ฐ ์์ฑ์ผ๋ก ์์ ์ ์ง์ํ๋ฉด, Whisper(์์ฑ ์ธ์)๊ฐ ์ด๋ฅผ ํ ์คํธ๋ก ์ฎ๊น๋๋ค.
- ์ค์๊ฐ ์นด๋ฉ๋ผ ์์ + ํ ์คํธ ํ๋กฌํํธ๋ฅผ GPT-4o API์ ํจ๊ป ๋๊น๋๋ค.
- GPT-4o๊ฐ ๋ ๊ฐ์ง ์ง๋ฌธ์ ์์ฐจ์ ์ผ๋ก ์ถ๋ก ํฉ๋๋ค.
- โ์ด ์์ ์ ๋๋ด๋ ค๋ฉด ๋ช ๋จ๊ณ๊ฐ ํ์ํ๊ฐ?โ
- โ๊ฐ ๋จ๊ณ์์ ๊ฐ ์์ ์ด๋ค ์ ํ์ ๋ฐฐ์ ํด์ผ ํ๋๊ฐ?โ
- ์์ ์ ๋ถํดํ๊ณ ์์ฑ์ ์ถ๋ก ํด, ๊ฐ์ฅ ์ ํฉํ ์ ํ์ ๊ฒ์ํด ๋ ๋๋ค.
์ฆ, โ์ฃผ์ ์์ ๋ฌผ์ ๋ฐ๋ผ ์คโ ๊ฐ์ ์์ฐ์ด ๋ช ๋ น ํ ๋ฒ์ด๋ฉด, MLLM์ด ์์ ์ ๋จ๊ณ๋ก ์ชผ๊ฐ๊ณ ๊ฐ ์์ ์๋ง์ ์ ํ์ ์๋์ผ๋ก ๊ณจ๋ผ ์ฃผ๋ ๊ฒ์ ๋๋ค.
๊ฒ์ ์ฑ๋ฅ(๋ ผ๋ฌธ ์์น):
- ๋จ์ผ ๋ฌผ์ฒด ์์ : 91.89% ๊ฒ์ ์ฑ๊ณต๋ฅ
- ๋ค์ค ๋ฌผ์ฒด ์์ : 92.00% ๊ฒ์ ์ฑ๊ณต๋ฅ
- ํ๊ท ์ง์ ์๊ฐ: 4.8์ด โ ๋จ, ์์ ๋น ํ ๋ฒ๋ง ์ผ์ด๋๋ฏ๋ก ์ค์๊ฐ ์กฐ์ข ์ ๋ฐฉํดํ์ง ์์ต๋๋ค.
์ ํ ๊ธฐ๋ฐ ํ ๋ ์คํผ๋ ์ด์ : ๊ณ ๋ฅธ ์ ํ ์์์ ๋ฏธ์ธ ์กฐ์ข
์ ํ์ด ์ ํด์ง๋ฉด, ์ด์ ์ฌ๋์ด ๊ทธ ์ ํ ์์์ ๋ก๋ด ์์ ์ค์๊ฐ์ผ๋ก ์์ง์ ๋๋ค. ์ฌ๊ธฐ์ ๋ ๊ฐ์ง ์ ๋ต์ด ์ฐ์ ๋๋ค.
(1) ๋ณด๊ฐ ๋งคํ(Interpolation Mapping). ์ฌ๋ ์ ์์ง์์ ๋ก๋ด ์ ๊ด์ ๊ฐ๋๋ก ์ฎ๊ธฐ๋ ํต์ฌ ์ฅ์น์ ๋๋ค. ๊ฐ ์ ํ์ โํผ์น ์์ธโ์ โ์ค๋ฏ๋ฆฐ ์์ธโ๋ผ๋ ๋ ๊ทน๋จ์ ๊ฐ๋๋ฐ, ์ฌ๋ ์์ด ๊ทธ ์ฌ์ด ์ด๋์ฏค ์๋์ง๋ฅผ ๋น์จ๋ก ํ์ฐํด ๋ก๋ด ๊ด์ ๋ ๊ฐ์ ๋น์จ๋ก ๋ณด๊ฐํฉ๋๋ค.
๋จผ์ ํผ์นจ-์ค๋ฏ๋ฆผ์ ์๋ 3D ๋ฒกํฐ ์์ ์ฌ๋ ์๊ฐ๋ฝ ์์น๋ฅผ ์ ์ฌ์(projection)ํด ์ ๊ทํ๋ ๋น์จ p_{\text{ratio}} ๋ฅผ ๊ตฌํ๊ณ , ๋ก๋ด ๊ด์ ๊ฐ๋๋ฅผ ์ ํ ๋ณด๊ฐํฉ๋๋ค.
\theta_{\text{current}} = p_{\text{ratio}}\cdot(\theta_{\text{contract}} - \theta_{\text{stretch}}) + \theta_{\text{stretch}}
์ง๊ด์ ์ผ๋ก, ์ฌ๋์ด ์๊ฐ๋ฝ์ ์ ๋ฐ์ฏค ์ค๋ฏ๋ฆฌ๋ฉด ๋ก๋ด ์๋ ๊ทธ ์ ํ์ ํผ์นจโ๏ธ์ค๋ฏ๋ฆผ ๋ฒ์์์ ์ ๋ฐ์ฏค ์ค๋ฏ๋ฆฐ๋ค๋ ๋ป์ ๋๋ค. ๋๋ถ์ ์ฌ๋ ์ ๊ตฌ์กฐ์ ๋ก๋ด ์ ๊ตฌ์กฐ๊ฐ ๋ฌ๋ผ๋, ๋์์ โ์งํ ์ ๋โ๋ ์์ฐ์ค๋ฝ๊ฒ ์ง๊ด์ ์ผ๋ก ์ ๋ฌ๋ฉ๋๋ค.
(2) ์ ํ ์กฐ์ (Type Adjustment). ์ ํ๋ ์ ํ์ด ์๋ฒฝํ ๋ค์ด๋ง์ง ์์ ๋, ์๋(fingertip) ์์นยท๋ฐฉํฅ์ ์คํ์ ์ ์ค ๋ฏธ์ธ ๋ณด์ ํฉ๋๋ค. ์์ด๋ํ(FK)์ผ๋ก ํ์ฌ ์๋ ์์ธ๋ฅผ ๊ตฌํ๊ณ ์ํ๋ ๋ณํ T_\Delta ๋ฅผ ๊ณฑํ ๋ค, ์ญ์ด๋ํ(IK)์ผ๋ก ๊ด์ ๊ฐ์ ๋๋๋ ค ๋ฐ์ต๋๋ค.
q' = \text{IK}\big(\text{FK}(q)\cdot T_\Delta\big)
์ด๋ ๊ฒ โ์ ํ์ผ๋ก ํฐ ํ์ ์ก๊ณ (์ด์ฐ์ ์ ํ) + ๋ณด๊ฐ/์กฐ์ ์ผ๋ก ์ธ๋ฐํ๊ฒ ๋ค๋ฌ๋(์ฐ์์ ์ ์ด)โ 2๋จ ๊ตฌ์กฐ๊ฐ TypeTele์ ์กฐ์ข ๋ฐฉ์์ ๋๋ค.
ํ๋์จ์ด ๊ตฌ์ฑ
๋ ผ๋ฌธ์ด ์ฌ์ฉํ ์ค์ ์์คํ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
| ๊ตฌ์ฑ | ์ฅ๋น |
|---|---|
| ์ ๋ชจ์ ์บก์ฒ | Rokoko Gloves (์๊ฐ๋ฝ ์์น 3 DOF) |
| ์๋ชฉ ์์ธ | Meta Quest 3 VR ์ปจํธ๋กค๋ฌ (6 DOF) |
| ๋ก๋ด ํ | Kinova ํ 2๋ (6-DOF + 7-DOF) |
| ๋ฏผ์ฒฉํ ์ | LEAP hand 2๋ (๊ฐ 16 DOF) |
| ์ถ๊ฐ ๊ฒ์ฆ | Inspire / Shadow / Allegro hand (์๋ฎฌ๋ ์ด์ ) |
| ๋น์ | Realsense L515 LiDAR ์นด๋ฉ๋ผ (๋จ์ผ ์์ RGB-D) |
| ์ ์ด | ์: ๊ด์ ์์น PD ์ ์ด / ํ: ๊ณ ์ฃผํ Cartesian ์๋ ์ ์ด(์ต๋ 20 cm/s) |
์คํ
๋ฉ์ธ ๊ฒฐ๊ณผ: retargeting์ด 0%์ธ ๊ณณ์์ ๋น๋๋ค
9๊ฐ ์ค์ธ๊ณ ๊ณผ์ ์์ TypeTele๊ณผ retargeting ๋ฒ ์ด์ค๋ผ์ธ(์ฌ๋ ์ ์์ธ๋ฅผ ๋ก๋ด์ ์ง์ ๋งคํ)์ ๋น๊ตํ์ต๋๋ค.
| ๊ณผ์ | TypeTele | Baseline (retargeting) |
|---|---|---|
| Pick and Place | 100% | 95.2% |
| Collect and Store | 95.2% | 60.6% |
| Handover | 95.2% | 80.0% |
| Pouring from Pan | 83.0% | 14.2% |
| Use Scissors | 91.1% | 0% |
| Spray Water | 86.9% | 0% |
| Use Heavy Kettle | 85.0% | 0% |
| Open Large Box | 95.2% | 0% |
| Grasp Two Objects | 69.6% | 0% |
ํด์: ๋จ์ํ ์ง๊ธฐ(Pick and Place)์์๋ ๋ ๋ฐฉ์ ์ฐจ์ด๊ฐ ์์ง๋ง, ๋ก๋ด ์ ๊ณ ์ ๋ฅ๋ ฅ์ด ํ์ํ ๊ณผ์ ์ผ์๋ก ๊ฒฉ์ฐจ๊ฐ ๊ทน์ ์ ๋๋ค. ๊ฐ์์ง, ๋ถ๋ฌด๊ธฐ, ๋ฌด๊ฑฐ์ด ์ฃผ์ ์, ํฐ ์์ ์ด๊ธฐ, ํ ์์ผ๋ก ๋ ๋ฌผ์ฒด ์ก๊ธฐ โ ์ด ๋ค์ฏ ๊ณผ์ ์์ retargeting์ ๋จ ํ ๋ฒ๋ ์ฑ๊ณตํ์ง ๋ชปํ์ต๋๋ค(0%). ์ฌ๋ ์ ์์ธ๋ฅผ ๋ฒ ๋ผ๋ ๊ฒ๋ง์ผ๋ก๋ ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ๋งค์ฐ ๋ถ์์ ํ ๋์๋ค์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. TypeTele์ ์ด๋ฅผ 85~91%๋ก ์ํํ๋ฉฐ, ์ ํ ์ถ์ํ๊ฐ ๋ก๋ด ์์ ์ ์ฌ๋ ฅ์ ์ค์ ๋ก โํ์ด๋ธ๋ค(releasing dexterity)โ ๋ ์ ๋ชฉ์ ์ฃผ์ฅ์ ๋ท๋ฐ์นจํฉ๋๋ค.
ํจ์จ์ฑ(๋ฐ์ดํฐ ์์ง ์๊ฐ). ์ฑ๊ณต๋ฅ ๋ฟ ์๋๋ผ ์์ฐ 1๊ฐ๋น ์์ง ์๊ฐ๋ ์ค์์ต๋๋ค.
- Pick and Place: TypeTele 7.67์ด/์์ฐ vs Baseline 8.28์ด/์์ฐ
- Collect and Store: TypeTele 29.37์ด/์์ฐ vs Baseline 37.32์ด/์์ฐ
๋ชจ๋ฐฉํ์ต: ๋ ๋์ ์์ฐ์ด ๋ ๋์ ์ ์ฑ ์ ๋ง๋ ๋ค
TypeTele๋ก ๋ชจ์ ์์ฐ์ด ๋ค์ด์คํธ๋ฆผ ์ ์ฑ ํ์ต์๋ ์ ๋ฆฌํ์ง ํ์ธํ์ต๋๋ค(10ํ ์๋ ์ค ์ฑ๊ณต ํ์).
| ๊ณผ์ | Baseline ์ ์ฑ | TypeTele ์ ์ฑ |
|---|---|---|
| Task 1 | 10/10 | 10/10 |
| Task 2 | 3/10 | 10/10 |
| Task 3 | 1/10 | 6/10 |
| Task 4 | 1/10 | 9/10 |
| Task 5โ9 | ์๋ฃ ๋ถ๊ฐ | 8โ9/10 |
ํด์: ๋ฒ ์ด์ค๋ผ์ธ ์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ์ฌ์ด Task 1์ ๋นผ๋ฉด ๊ธ๊ฒฉํ ๋ฌด๋์ง๊ณ , Task 5~9๋ ์ ์ด์ ๋ฒ ์ด์ค๋ผ์ธ์ด ์์ฐ์ ๋ชป ๋ชจ์ผ๋ ์ ์ฑ ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅํฉ๋๋ค. ๋ฐ๋ฉด TypeTele ์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ ์ ์ด๋ ค์ด ๊ณผ์ ์์๋ ๊ฒฌ๊ณ ํฉ๋๋ค. ์ข์ ํ ๋ ์คํผ๋ ์ด์ ์ด ๊ณง ์ข์ ํ์ต ๋ฐ์ดํฐ๋ก ์ด์ด์ง๋ค๋, ๋ฐ์ดํฐ ์ค์ฌ ๋ก๋ณดํฑ์ค์ ํต์ฌ ๊ณ ๋ฆฌ๋ฅผ ๋ณด์ฌ ์ค๋๋ค.
์ฌ์ฉ์ ์ฐ๊ตฌ: ๋ ์ ํํ๊ณ , ๋ ์ฐ๊ธฐ ์ฝ๋ค
๊ฒฝํ ์์ค์ด ๋ค๋ฅธ ์ฐธ๊ฐ์ 5๋ช ์๊ฒ ํ๋ผ์ดํฌ ์์ก์ด ์ก๊ธฐ ๊ณผ์ ๋ฅผ ์์คํ ๋น 5ํ์ฉ ์์ผฐ์ต๋๋ค.
- ์ฑ๊ณต๋ฅ : TypeTele 88% vs Baseline 20%
์ฃผ๊ด์ ํ๊ฐ(0โ10์ ):
| ํญ๋ชฉ | TypeTele | Baseline |
|---|---|---|
| ์ ํ๋(Accuracy) | 9.4 | 3.4 |
| ๋ฐ์์ฑ(Responsiveness) | 8.6 | 5.4 |
| ์ฌ์ฉ ํธ์์ฑ(Ease of Use) | 8.4 | 4.8 |
| ์ฌ์ฉ์ ํ์ (Confidence) | 9.4 | 3.4 |
ํด์: ๊ฐ๊ด์ ์ฑ๊ณต๋ฅ ๊ณผ ์ฃผ๊ด์ ๋ง์กฑ๋๊ฐ ๋ชจ๋ ํฐ ํญ์ผ๋ก ์ฐ์ธํฉ๋๋ค. ํนํ โ์ ํ๋โ์ โํ์ โ์์ 9.4์ ์, ์ ํ ์ถ์ํ๊ฐ ๋จ์ง ์ฑ๋ฅ๋ฟ ์๋๋ผ ์กฐ์์์ ์ธ์ง ๋ถ๋ด์ ๋๊ณ ํต์ ๊ฐ์ ๋์ธ๋ค๋ ์ ์ ์์ฌํฉ๋๋ค.
์์คํ ์ฑ๋ฅ
- ๋ฐ์ดํฐ ์์ง: 15 FPS (Windows 10, Intel Core i7-14700)
- ์ ์ฑ ์ถ๋ก : 11 FPS (NVIDIA RTX 3090)
- ๋ก๋ด ํ ์ ์ด: 25 FPS ์ ์ง
- MLLM ๊ฒ์: ํ๊ท 4.8์ด (์์ ๋น 1ํ)
๋นํ์ ๊ณ ์ฐฐ
๊ฐ์
- ๋ฐ์์ ์ ํ์ด ๋ช ํํ๋ค. โ์ฌ๋ ์์ ๋ฒ ๋ผ์ง ๋ง๊ณ ๋ก๋ด ์ ์ ์ฉ ์ ํ์ ์ฐ์โ๋ ๋จ์ํ ์ฌ๊ตฌ์ฑ์ด, retargeting์ด 0%์ด๋ ๊ณผ์ ๋ค์ 80~90%๋๋ก ๋์ด์ฌ๋ ธ์ต๋๋ค. ๋ฌธ์ ์ ์ ์์ฒด๋ฅผ ๋ฐ๊ฟ ์ป์ ์ด๋์ด๋ผ ์ค๋๋ ฅ์ด ํฝ๋๋ค.
- ์ด์ฐ+์ฐ์์ 2๋จ ์ ์ด. ์ ํ์ผ๋ก ๊ฑฐ์์ ์์ธ๋ฅผ ๊ณ ๋ฅด๊ณ (์ด์ฐ), ๋ณด๊ฐยท์กฐ์ ์ผ๋ก ๋ฏธ์์ ์ผ๋ก ๋ค๋ฌ๋(์ฐ์) ๊ตฌ์กฐ๊ฐ ๊น๋ํฉ๋๋ค. ์ฌ๋์ ์ธ์ง ๋ถ๋ด(์ด๋ค ์์ธ๋ฅผ ๋ง๋ค์ง ๊ณ ๋ฏผ)์ MLLM์ ๋๊ธฐ๊ณ , ์ฌ๋์ โ์งํ ์ ๋โ๋ง ์กฐ์ข ํ๋ฉด ๋ฉ๋๋ค.
- ๋ฐ์ดํฐ โ ์ ์ฑ ์ผ๋ก ์ด์ด์ง๋ ๊ฒ์ฆ. ํ ๋ ์คํผ๋ ์ด์ ์ฑ๋ฅ์ ๊ทธ์น์ง ์๊ณ , ๊ทธ ์์ฐ์ผ๋ก ํ์ตํ ๋ชจ๋ฐฉํ์ต ์ ์ฑ ๊น์ง ์ข์์ง์ ๋ณด์ฌ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์ ์ฆํ์ต๋๋ค.
- ํ์ฅ ๊ฐ๋ฅํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ + ๋ค์ํ ์ ๊ฒ์ฆ. 30๊ฐ ์ ํ์ ๊ณ์ ๋๋ฆด ์ ์๊ณ , LEAP ์ธ Inspire/Shadow/Allegro์์๋ ๊ฒ์ฆํด ์ผ๋ฐ์ฑ์ ์ด๋ ์ ๋ ๋ณด์์ต๋๋ค.
์ฝ์ ๊ณผ ํ๊ณ
- ์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ํ ์์กด. ์ฑ๋ฅ์ ๊ฒฐ๊ตญ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์์ ์ ๋ง๋ ์ ํ์ ๋ด๊ณ ์๋๋์ ๋ฌ๋ ค ์์ต๋๋ค. ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์๋ ์๋ก์ด ์กฐ์์ด ํ์ํ๋ฉด, ์ฌ๋์ด ์ง์ ์ ํ์ ์ค๊ณํด ์ถ๊ฐํด์ผ ํฉ๋๋ค. โ์๋ ํ์ฅโ์ ์๋๋๋ค.
- MLLM ๊ฒ์ ์ค๋ฅ์ ์ํฅ. ๊ฒ์ ์ ํ๋๊ฐ ~92%๋ผ๋ ๊ฒ์ ์ฝ 8% ์์ ์์ ์๋ชป๋ ์ ํ์ ๊ณ ๋ฅธ๋ค๋ ๋ป์ ๋๋ค. ์๋ชป ๊ณ ๋ฅธ ๊ฒฝ์ฐ์ ๋ณต๊ตฌ ์ ์ฐจ๋ ์คํจ ๋ถ์์ ์ถฉ๋ถํ ์ ์๋์ง ์์์ต๋๋ค. ๋ GPT-4o API ์์กด์ ์ง์ฐ(4.8์ด)ยท๋น์ฉยท์คํ๋ผ์ธ ์ฌ์ฉ ์ ์ฝ์ ๋๋ฐํฉ๋๋ค.
- ์๊ท๋ชจ ์ฌ์ฉ์ ์ฐ๊ตฌ. ์ฐธ๊ฐ์ 5๋ช , ๋จ์ผ ๊ณผ์ (ํ๋ผ์ดํฌ ์ก๊ธฐ)๋ก๋ ํต๊ณ์ ์ผ๋ฐํ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ค์ํ ๊ณผ์ ยท๋ ๋ง์ ์ฐธ๊ฐ์์์์ ์ฌํ์ ํ์ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
- ๋ฒ ์ด์ค๋ผ์ธ์ด ๋จ์ผ retargeting. ๋น๊ต ๋์์ด ์์ retargeting ํ ๊ฐ์ง์ ๋๋ค. ๋ ์ ๊ตํ retargeting ๋ณํ์ด๋ ์ต์ ํ ๋ ์คํผ๋ ์ด์ ์์คํ ๊ณผ์ ๋น๊ต๊ฐ ์์ผ๋ฉด ์ฐ์๊ฐ ๋ ๋ถ๋ช ํด์ก์ ๊ฒ์ ๋๋ค.
- ์ด์ฐํ์ ๋ณธ์ง์ ํ๊ณ. ์ ํ์ด๋ผ๋ ์ด์ฐ ๋จ์๋ก ์กฐ์์ ๋ฌถ๋ ์๊ฐ, ์ ํ ์ฌ์ด์ ๋ฏธ๋ฌํ ์ค๊ฐ ๋์์ด๋ ์ ํ ์ ํ์ด ์ฆ์ ์ฐ์์ ์กฐ์์ ํํ์ด ์ด์ํด์ง ์ ์์ต๋๋ค(์ถ์ธก). ์ ํ ์ ํ์ ๋งค๋๋ฌ์์ ๋ํ ๋ถ์์ ์ ํ์ ์ ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
TypeTele์ dexterous teleoperation์ ์ค๋ ๊ฐ์ โ โ์ฌ๋ ์์ ๊ทธ๋๋ก ๋ฒ ๊ปด์ผ ํ๋คโ โ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค์ง์ต๋๋ค. ๋์ ๋ก๋ด ์ ์ ์ฉ ์กฐ์ ์ ํ(manipulation type) ์ด๋ผ๋ ์ด์ฐ ๋จ์๋ฅผ ๋์ ํ๊ณ , MLLM(GPT-4o)์ด ์์ ๊ณผ ์์ฑยท์์ ๋งฅ๋ฝ์ ์ฝ์ด ์ ํฉํ ์ ํ์ ๊ณจ๋ผ ์ฃผ๋ฉฐ, ์ฌ๋์ ๊ทธ ์ ํ ์์์ ํผ์นจโ๏ธ์ค๋ฏ๋ฆผ์ ๋ณด๊ฐํ๋ฉฐ ๋ฏธ์ธ ์กฐ์ข ํฉ๋๋ค.
์ฑ๊ณผ๋ ๋ถ๋ช ํฉ๋๋ค. retargeting ๋ฒ ์ด์ค๋ผ์ธ์ด 0% ์ด๋ ๊ฐ์์งยท๋ถ๋ฌด๊ธฐยท๋ฌด๊ฑฐ์ด ์ฃผ์ ์ยทํฐ ์์ยท๋ ๋ฌผ์ฒด ๋์ ์ก๊ธฐ๋ฅผ 85~91% ๋ก ์ํํ๊ณ , ๋ฐ์ดํฐ ์์ง์ ๋ ๋นจ๋์ผ๋ฉฐ, ๊ทธ ์์ฐ์ผ๋ก ํ์ตํ ๋ชจ๋ฐฉํ์ต ์ ์ฑ ๋ ํฌ๊ฒ ํฅ์๋์ต๋๋ค. ์ฌ์ฉ์ ์ฐ๊ตฌ์์๋ ์ฑ๊ณต๋ฅ (88% vs 20%)๊ณผ ๋ง์กฑ๋ ๋ชจ๋ ์ฐ์ธํ์ต๋๋ค.
๋ก๋ณดํฑ์ค ์ค๋ฌด์ ๊ด์ ์์ ์ด ์ฐ๊ตฌ์ ๊ฐ์น๋ โ๋ก๋ด ์์ ๊ตฌ์กฐ์ ๊ฐ์ ์ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ์์๋ถํฐ ์ด๋ ค๋ธ๋คโ ๋ ๋ฐ ์์ต๋๋ค. ์ฌ๋ ์์ ํ๊ณ์ ๋ก๋ด์ ๊ฐ๋์ง ์๊ณ , ์์ ์ ๋ง๋ ๋ก๋ด ์ ์ฉ ์์ธ๋ฅผ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ํํ๊ฒ ํจ์ผ๋ก์จ, ๋ ์ด๋ ต๊ณ ๋ค์ํ ์กฐ์์ ์์ฐยทํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์กด์ฑ๊ณผ MLLM ๊ฒ์ ์ค๋ฅ, ์๊ท๋ชจ ํ๊ฐ๋ผ๋ ํ๊ณ๋ ๋ถ๋ช ํ์ง๋ง, ์ ํ ๊ธฐ๋ฐ ์ถ์ํ๋ผ๋ ํ์ ํฅํ dexterous ๋ฐ์ดํฐ ์์ง์ ์ ๋ ฅํ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.