Curieux.JY
  • JungYeon Lee
  • Post
  • Lecture
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ์„œ๋ก 
    • ๋ฐฉ๋ฒ•
      • ์†๋™์ž‘ ์œ ํ˜•์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€
      • MLLM ๊ธฐ๋ฐ˜ ์œ ํ˜• ๊ฒ€์ƒ‰: ๋ง๊ณผ ์˜์ƒ์œผ๋กœ ์œ ํ˜• ๊ณ ๋ฅด๊ธฐ
      • ์œ ํ˜• ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜: ๊ณ ๋ฅธ ์œ ํ˜• ์•ˆ์—์„œ ๋ฏธ์„ธ ์กฐ์ข…
      • ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ
    • ์‹คํ—˜
      • ๋ฉ”์ธ ๊ฒฐ๊ณผ: retargeting์ด 0%์ธ ๊ณณ์—์„œ ๋น›๋‚œ๋‹ค
      • ๋ชจ๋ฐฉํ•™์Šต: ๋” ๋‚˜์€ ์‹œ์—ฐ์ด ๋” ๋‚˜์€ ์ •์ฑ…์„ ๋งŒ๋“ ๋‹ค
      • ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ: ๋” ์ •ํ™•ํ•˜๊ณ , ๋” ์“ฐ๊ธฐ ์‰ฝ๋‹ค
      • ์‹œ์Šคํ…œ ์„ฑ๋Šฅ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒTypeTele

teleop
dexterity
manipulation
MLLM
TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation Types
Published

June 4, 2026

  • Paper Link (arXiv:2507.01857)

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

๊ธฐ์กด dexterous teleoperation์€ ์‚ฌ๋žŒ ์† ์ž์„ธ๋ฅผ ๋กœ๋ด‡ ์†์— ๊ทธ๋Œ€๋กœ ๋ฒ ๋ผ๋Š”(hand retargeting) ๋ฐฉ์‹์ด ์ฃผ๋ฅ˜์˜€์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋กœ๋ด‡ ์†์€ ์‚ฌ๋žŒ๊ณผ ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ์„œ, ์‚ฌ๋žŒ ์†๋™์ž‘์„ ํ‰๋‚ด ๋‚ด๊ธฐ๋งŒ ํ•˜๋ฉด ๋กœ๋ด‡ ์† ๊ณ ์œ ์˜ ๋Šฅ๋ ฅ(์˜ˆ: ์†๊ฐ€๋ฝ ํ•˜๋‚˜๋กœ ํŠธ๋ฆฌ๊ฑฐ ๋‹น๊ธฐ๊ธฐ, ์‚ฌ๋žŒ ์†์œผ๋กœ๋Š” ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ทธ๋ฆฝ) ์„ ์‚ด๋ฆฌ์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

TypeTele์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๋‹จ์ˆœํ•˜๋ฉด์„œ ๊ฐ•๋ ฅํ•ฉ๋‹ˆ๋‹ค. ์—ฐ์†์ ์ธ ๊ด€์ ˆ ๋งคํ•‘ ๋Œ€์‹ , โ€œ์†๋™์ž‘ ์œ ํ˜•(dexterous manipulation type)โ€์ด๋ผ๋Š” ์ด์‚ฐ์ (discrete) ๋‹จ์œ„๋กœ ์กฐ์ž‘์„ ์ถ”์ƒํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ž‘์—…์— ๋งž๋Š” ์œ ํ˜•์„ ๊ณ ๋ฅด๋ฉด, ๊ทธ ์œ ํ˜• ์•ˆ์—์„œ๋งŒ ์‚ฌ๋žŒ ์†๋™์ž‘์ด ๋กœ๋ด‡ ์†์„ ๋ฏธ์„ธ ์กฐ์ข…ํ•ฉ๋‹ˆ๋‹ค.

  • ์œ ํ˜• ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ: 4๊ฐœ ํ•˜์œ„ ๋ฒ”์ฃผ, 30๊ฐœ ์œ ํ˜• (๋‹จ์ผ ์† grasp/non-grasp, ์–‘์† ํ˜‘์‘)
  • ์œ ํ˜• ๊ฒ€์ƒ‰(retrieval): GPT-4o ๊ธฐ๋ฐ˜ MLLM์ด ์นด๋ฉ”๋ผ ์˜์ƒ + ์Œ์„ฑ ๋ช…๋ น(Whisper)์„ ๋ณด๊ณ  ์ ํ•ฉํ•œ ์œ ํ˜•์„ ์ž๋™ ์„ ํƒ (์ •ํ™•๋„ ์•ฝ 92%, ์ž‘์—…๋‹น 1ํšŒ ~4.8์ดˆ)
  • ์œ ํ˜• ๊ธฐ๋ฐ˜ ์กฐ์ข…: ์„ ํƒ๋œ ์œ ํ˜•์˜ โ€œํŽผ์นจ(stretch)โ†”๏ธŽ์˜ค๋ฏ€๋ฆผ(contract)โ€ ์ž์„ธ ์‚ฌ์ด๋ฅผ ์‚ฌ๋žŒ ์† ์›€์ง์ž„์œผ๋กœ ๋ณด๊ฐ„(interpolation)

๊ฒฐ๊ณผ์ ์œผ๋กœ retargeting ๋ฒ ์ด์Šค๋ผ์ธ์ด 0% ์„ฑ๊ณตํ•˜๋˜ ๊ฐ€์œ„์งˆยท๋ถ„๋ฌด๊ธฐยท๋ฌด๊ฑฐ์šด ์ฃผ์ „์ž ๋”ฐ๋ฅด๊ธฐ ๊ฐ™์€ ๊ณผ์ œ๋ฅผ TypeTele์€ 85~91% ๋กœ ํ•ด๋ƒˆ๊ณ , ๋ชจ๋ฐฉํ•™์Šต(imitation learning) ์ •์ฑ… ์„ฑ๋Šฅ๋„ ํฌ๊ฒŒ ๋Œ์–ด์˜ฌ๋ ธ์Šต๋‹ˆ๋‹ค.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

์„œ๋ก 

๋กœ๋ด‡์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๊ฑฐ๋‚˜ ์›๊ฒฉ ์ œ์–ด๋ฅผ ํ•˜๋ ค๋ฉด ์‚ฌ๋žŒ์ด ๋กœ๋ด‡ ์†์„ ์ง์ ‘ ์›€์ง์—ฌ ๋ณด์—ฌ์ฃผ๋Š” ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜(teleoperation) ์ด ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹ค์„ฏ ์†๊ฐ€๋ฝ์งœ๋ฆฌ ๋ฏผ์ฒฉํ•œ ์†(dexterous hand) ์„ ์›๊ฒฉ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์ผ์€, ํ’๋ถ€ํ•œ ์กฐ์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๋Š” ๊ฐ€์žฅ ์ง์ ‘์ ์ธ ํ†ต๋กœ์ž…๋‹ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์ง€๊ธˆ๊นŒ์ง€์˜ dexterous teleoperation์€ ๊ฑฐ์˜ ๋‹ค hand retargeting์— ์˜์กดํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์˜ ์ž์„ธ๋ฅผ ์ธก์ •ํ•ด์„œ ๋กœ๋ด‡ ์†์ด ์ตœ๋Œ€ํ•œ ๋˜‘๊ฐ™์ด ๋”ฐ๋ผ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ง๊ด€์ ์ด์ง€๋งŒ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์†์€ ์‚ฌ๋žŒ ์†์ด ์•„๋‹™๋‹ˆ๋‹ค. ์†๊ฐ€๋ฝ ๊ฐœ์ˆ˜, ๊ด€์ ˆ ๋ฐฐ์น˜, ๊ฐ€๋™ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฅด๊ณ , ๋•Œ๋กœ๋Š” ์‚ฌ๋žŒ ์†์œผ๋กœ๋Š” ์ ˆ๋Œ€ ๋ชป ํ•˜๋Š” ์ž์„ธ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์„ ๋ฒ ๋ผ๋Š” ๋ฐ๋งŒ ๋งค๋‹ฌ๋ฆฌ๋ฉด, ์ด๋ ‡๊ฒŒ ๋กœ๋ด‡ ์† ๊ตฌ์กฐ๊ฐ€ ๊ฐ€์ง„ ๊ณ ์œ ์˜ ๋ฏผ์ฒฉ์„ฑ(dexterity)์„ ์˜คํžˆ๋ ค ๋ด‰์ธํ•ด ๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ๋ถ„๋ฌด๊ธฐ ํŠธ๋ฆฌ๊ฑฐ๋ฅผ ๋‹น๊ธฐ๋Š” ๋™์ž‘์„ ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค. ์‚ฌ๋žŒ์€ ๊ฒ€์ง€๋กœ ํŠธ๋ฆฌ๊ฑฐ๋ฅผ ๋‹น๊ธฐ๋ฉด์„œ ๋‚˜๋จธ์ง€ ์†๊ฐ€๋ฝ์œผ๋กœ ๋ชธ์ฒด๋ฅผ ๊ฐ์Œ‰๋‹ˆ๋‹ค. ์ด ์ž์„ธ๋ฅผ ๋กœ๋ด‡ ์†์— ๊ทธ๋Œ€๋กœ retargetingํ•˜๋ฉด ๊ด€์ ˆ ๊ตฌ์กฐ ์ฐจ์ด ๋•Œ๋ฌธ์— ํŠธ๋ฆฌ๊ฑฐ์— ์†๊ฐ€๋ฝ์ด ์ œ๋Œ€๋กœ ๋‹ฟ์ง€๋„ ๋ชปํ•˜๋Š” ์–ด์ •์ฉกํ•œ ์ž์„ธ๊ฐ€ ๋‚˜์˜ค๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ์ฐจ๋ผ๋ฆฌ โ€œ์ด ๋กœ๋ด‡ ์†์— ์ตœ์ ํ™”๋œ ํŠธ๋ฆฌ๊ฑฐ ๋‹น๊ธฐ๊ธฐ ์ž์„ธโ€๋ฅผ ๋ฏธ๋ฆฌ ์ •์˜ํ•ด ๋‘๊ณ  ๊ทธ๊ฑธ ์“ฐ๋Š” ํŽธ์ด ๋‚ซ์Šต๋‹ˆ๋‹ค.

TypeTele(Type-guided Teleoperation)๋Š” ๋ฐ”๋กœ ์ด ๋ฐœ์ƒ์˜ ์ „ํ™˜์ž…๋‹ˆ๋‹ค. ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์š”์•ฝํ•˜๋ฉด, โ€œ์‚ฌ๋žŒ ์†์„ ๋ฒ ๋ผ์ง€ ๋ง๊ณ , ์ž‘์—…์— ๋งž๋Š” ๋กœ๋ด‡ ์† ์ „์šฉ ์กฐ์ž‘ ์œ ํ˜•์„ ๊ณจ๋ผ์„œ, ๊ทธ ์œ ํ˜• ์•ˆ์—์„œ๋งŒ ์‚ฌ๋žŒ์ด ๋ฏธ์„ธ ์กฐ์ข…ํ•˜๊ฒŒ ํ•˜์žโ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

flowchart LR
    subgraph LIB["1 Manipulation Type Library"]
        A[4 sub-categories<br/>30 types] --> B["๊ฐ ์œ ํ˜•:<br/>stretch/contract ์ž์„ธ<br/>+ ์†์„ฑ ์ฃผ์„"]
    end
    subgraph RET["2 Type Retrieval (MLLM)"]
        C[์นด๋ฉ”๋ผ ์˜์ƒ] --> E[GPT-4o]
        D[์Œ์„ฑ ๋ช…๋ น / Whisper] --> E
        E --> F[์ž‘์—… ๋ถ„ํ•ด +<br/>์†๋ณ„ ์œ ํ˜• ํ• ๋‹น]
    end
    subgraph TELE["3 Type-Guided Teleop"]
        G[์„ ํƒ๋œ type์˜<br/>stretchโ†”contract] --> H[์‚ฌ๋žŒ ์† ์›€์ง์ž„์œผ๋กœ<br/>๋ณด๊ฐ„ interpolation]
        H --> I[๋กœ๋ด‡ ์† ๊ด€์ ˆ ๋ช…๋ น]
    end
    B -->|prompt๋กœ ๋ณ€ํ™˜| E
    F -->|์„ ํƒ๋œ type| G

๋ฐฉ๋ฒ•

TypeTele์€ ์„ธ ๋ถ€๋ถ„์œผ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. (1) ์กฐ์ž‘ ์œ ํ˜•๋“ค์„ ๋‹ด์€ ์œ ํ˜• ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, (2) ์ž‘์—…์— ๋งž๋Š” ์œ ํ˜•์„ ์ž๋™์œผ๋กœ ๊ณจ๋ผ ์ฃผ๋Š” MLLM ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ, (3) ๊ณ ๋ฅธ ์œ ํ˜• ์•ˆ์—์„œ ์‚ฌ๋žŒ ์†์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ข…ํ•˜๋Š” ์œ ํ˜• ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜. ์ฐจ๋ก€๋กœ ์ง๊ด€๊ณผ ํ•จ๊ป˜ ์‚ดํŽด๋ด…๋‹ˆ๋‹ค.

์†๋™์ž‘ ์œ ํ˜•์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€

ํ•ต์‹ฌ ๊ฐœ๋…์ธ dexterous manipulation type๋ถ€ํ„ฐ ์งš๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋กœ๋ด‡ ์†์ด ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ์ด์‚ฐ์ ์ธ ์ž์„ธ(posture) ๋‹จ์œ„์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์† ์ž์„ธ ๋ถ„๋ฅ˜(grasp taxonomy) ์—ฐ๊ตฌ๋ฅผ ํ† ๋Œ€๋กœ ์‚ผ๋˜, ๋กœ๋ด‡ ์† ์ „์šฉ์œผ๋กœ ํŠน๋ณ„ํžˆ ์„ค๊ณ„ํ•œ ์ž์„ธ๋ฅผ ๋”ํ•ด ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” 4๊ฐœ ํ•˜์œ„ ๋ฒ”์ฃผ, ์ด 30๊ฐœ ์œ ํ˜•์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

๋ฒ”์ฃผ ์„ธ๋ถ€ ๊ตฌ๋ถ„
๋‹จ์ผ ์† - Grasp robot-exclusive grasp(๋กœ๋ด‡ ์ „์šฉ) / general grasp(์ผ๋ฐ˜)
๋‹จ์ผ ์† - Non-grasp ์žก์ง€ ์•Š๋Š” ์กฐ์ž‘ (์˜ˆ: ํŠธ๋ฆฌ๊ฑฐ ๋‹น๊ธฐ๊ธฐ, ๋ˆ„๋ฅด๊ธฐ)
์–‘์† ํ˜‘์‘ - ๋Œ€์นญ(symmetric) ๋‘ ์†์ด ๊ฐ™์€ ์—ญํ• 
์–‘์† ํ˜‘์‘ - ๋น„๋Œ€์นญ(asymmetric) ๋‘ ์†์ด ๋‹ค๋ฅธ ์—ญํ• 

๊ฐ ์œ ํ˜•์—๋Š” ๋‘ ๊ฐ€์ง€๊ฐ€ ํ•จ๊ป˜ ์ฃผ์„์œผ๋กœ ๋‹ฌ๋ฆฝ๋‹ˆ๋‹ค.

  • ๋‘ ๊ฐœ์˜ ๊ธฐ์ค€ ์ž์„ธ: ํŽผ์นœ ์ž์„ธ(stretching) ์™€ ์˜ค๋ฏ€๋ฆฐ ์ž์„ธ(contracting). ์‚ฌ๋žŒ ์†์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ์–‘๊ทน๋‹จ ์œ„์น˜์— ๋Œ€์‘ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋‘˜ ์‚ฌ์ด๋ฅผ ์˜ค๊ฐ€๋Š” ๊ฒƒ์ด ๊ณง ํ•˜๋‚˜์˜ ์กฐ์ž‘ ๋™์ž‘์ด ๋ฉ๋‹ˆ๋‹ค.
  • ์†์„ฑ ์„ค๋ช…(attributes): ์–ด๋–ค ์ข…๋ฅ˜์˜ ๋ฌผ์ฒดยท์ž‘์—…์— ์ ํ•ฉํ•œ์ง€(object-centric), ๊ทธ๋ฆฌ๊ณ  ์ž์„ธ๊ฐ€ ๊ตฌ์ฒด์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ƒ๊ฒผ๋Š”์ง€(posture-centric). ์„ธ๋ถ€์ ์œผ๋กœ๋Š” ์† ์ž์„ธ, ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋ฌผ์ฒด ๋ฒ”์ฃผ, ์ ‘์ด‰ ๋ถ€์œ„(contact parts), ๊ธฐํ•˜, grasp ๋ฐฉํ–ฅ, ์กฐ์ž‘ ๋ชฉ์  ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

์ด ์†์„ฑ ์„ค๋ช…์ด ์ค‘์š”ํ•œ ์ด์œ ๋Š”, ๋‚˜์ค‘์— ์–ธ์–ด ๋ชจ๋ธ์ด ์ฝ๊ณ  โ€œ์ด ์ž‘์—…์—” ์ด ์œ ํ˜•์ด ๋งž๊ฒ ๋‹คโ€๊ณ  ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด ์ฃผ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” ํ™•์žฅ ๊ฐ€๋Šฅ(extensible) ํ•˜๊ฒŒ ์„ค๊ณ„๋˜์–ด, ์ƒˆ๋กœ์šด ์ž์„ธ๋ฅผ ๊ณ„์† ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MLLM ๊ธฐ๋ฐ˜ ์œ ํ˜• ๊ฒ€์ƒ‰: ๋ง๊ณผ ์˜์ƒ์œผ๋กœ ์œ ํ˜• ๊ณ ๋ฅด๊ธฐ

์กฐ์ž‘ ์œ ํ˜•์ด 30๊ฐœ๋‚˜ ๋˜๋‹ˆ, ์ž‘์—…ํ•  ๋•Œ๋งˆ๋‹ค ์‚ฌ๋žŒ์ด ์ผ์ผ์ด ๊ณ ๋ฅด๊ธด ๋ฒˆ๊ฑฐ๋กญ์Šต๋‹ˆ๋‹ค. TypeTele์€ ์ด ์„ ํƒ์„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM) ์—๊ฒŒ ๋งก๊น๋‹ˆ๋‹ค. ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์€ GPT-4o ์ž…๋‹ˆ๋‹ค.

์ž‘๋™ ํ๋ฆ„์€ ์ด๋ ‡์Šต๋‹ˆ๋‹ค.

  1. ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ๋ชจ๋“  ์œ ํ˜•์„ ์†์„ฑ ์„ค๋ช…๊ณผ ํ•จ๊ป˜ ์–ธ์–ด ํ”„๋กฌํ”„ํŠธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ด GPT-4o์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ์šด์˜์ž๊ฐ€ ์Œ์„ฑ์œผ๋กœ ์ž‘์—…์„ ์ง€์‹œํ•˜๋ฉด, Whisper(์Œ์„ฑ ์ธ์‹)๊ฐ€ ์ด๋ฅผ ํ…์ŠคํŠธ๋กœ ์˜ฎ๊น๋‹ˆ๋‹ค.
  3. ์‹ค์‹œ๊ฐ„ ์นด๋ฉ”๋ผ ์˜์ƒ + ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ GPT-4o API์— ํ•จ๊ป˜ ๋„˜๊น๋‹ˆ๋‹ค.
  4. GPT-4o๊ฐ€ ๋‘ ๊ฐ€์ง€ ์งˆ๋ฌธ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • โ€œ์ด ์ž‘์—…์„ ๋๋‚ด๋ ค๋ฉด ๋ช‡ ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•œ๊ฐ€?โ€
    • โ€œ๊ฐ ๋‹จ๊ณ„์—์„œ ๊ฐ ์†์— ์–ด๋–ค ์œ ํ˜•์„ ๋ฐฐ์ •ํ•ด์•ผ ํ•˜๋Š”๊ฐ€?โ€
  5. ์ž‘์—…์„ ๋ถ„ํ•ดํ•˜๊ณ  ์†์„ฑ์„ ์ถ”๋ก ํ•ด, ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์œ ํ˜•์„ ๊ฒ€์ƒ‰ํ•ด ๋ƒ…๋‹ˆ๋‹ค.

์ฆ‰, โ€œ์ฃผ์ „์ž์— ๋ฌผ์„ ๋”ฐ๋ผ ์ค˜โ€ ๊ฐ™์€ ์ž์—ฐ์–ด ๋ช…๋ น ํ•œ ๋ฒˆ์ด๋ฉด, MLLM์ด ์ž‘์—…์„ ๋‹จ๊ณ„๋กœ ์ชผ๊ฐœ๊ณ  ๊ฐ ์†์— ์•Œ๋งž์€ ์œ ํ˜•์„ ์ž๋™์œผ๋กœ ๊ณจ๋ผ ์ฃผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒ€์ƒ‰ ์„ฑ๋Šฅ(๋…ผ๋ฌธ ์ˆ˜์น˜):

  • ๋‹จ์ผ ๋ฌผ์ฒด ์ž‘์—…: 91.89% ๊ฒ€์ƒ‰ ์„ฑ๊ณต๋ฅ 
  • ๋‹ค์ค‘ ๋ฌผ์ฒด ์ž‘์—…: 92.00% ๊ฒ€์ƒ‰ ์„ฑ๊ณต๋ฅ 
  • ํ‰๊ท  ์งˆ์˜ ์‹œ๊ฐ„: 4.8์ดˆ โ€” ๋‹จ, ์ž‘์—…๋‹น ํ•œ ๋ฒˆ๋งŒ ์ผ์–ด๋‚˜๋ฏ€๋กœ ์‹ค์‹œ๊ฐ„ ์กฐ์ข…์„ ๋ฐฉํ•ดํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

์œ ํ˜• ๊ธฐ๋ฐ˜ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜: ๊ณ ๋ฅธ ์œ ํ˜• ์•ˆ์—์„œ ๋ฏธ์„ธ ์กฐ์ข…

์œ ํ˜•์ด ์ •ํ•ด์ง€๋ฉด, ์ด์ œ ์‚ฌ๋žŒ์ด ๊ทธ ์œ ํ˜• ์•ˆ์—์„œ ๋กœ๋ด‡ ์†์„ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์›€์ง์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๋‘ ๊ฐ€์ง€ ์ „๋žต์ด ์“ฐ์ž…๋‹ˆ๋‹ค.

(1) ๋ณด๊ฐ„ ๋งคํ•‘(Interpolation Mapping). ์‚ฌ๋žŒ ์† ์›€์ง์ž„์„ ๋กœ๋ด‡ ์† ๊ด€์ ˆ ๊ฐ๋„๋กœ ์˜ฎ๊ธฐ๋Š” ํ•ต์‹ฌ ์žฅ์น˜์ž…๋‹ˆ๋‹ค. ๊ฐ ์œ ํ˜•์€ โ€œํŽผ์นœ ์ž์„ธโ€์™€ โ€œ์˜ค๋ฏ€๋ฆฐ ์ž์„ธโ€๋ผ๋Š” ๋‘ ๊ทน๋‹จ์„ ๊ฐ–๋Š”๋ฐ, ์‚ฌ๋žŒ ์†์ด ๊ทธ ์‚ฌ์ด ์–ด๋””์ฏค ์žˆ๋Š”์ง€๋ฅผ ๋น„์œจ๋กœ ํ™˜์‚ฐํ•ด ๋กœ๋ด‡ ๊ด€์ ˆ๋„ ๊ฐ™์€ ๋น„์œจ๋กœ ๋ณด๊ฐ„ํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ € ํŽผ์นจ-์˜ค๋ฏ€๋ฆผ์„ ์ž‡๋Š” 3D ๋ฒกํ„ฐ ์œ„์— ์‚ฌ๋žŒ ์†๊ฐ€๋ฝ ์œ„์น˜๋ฅผ ์ •์‚ฌ์˜(projection)ํ•ด ์ •๊ทœํ™”๋œ ๋น„์œจ p_{\text{ratio}} ๋ฅผ ๊ตฌํ•˜๊ณ , ๋กœ๋ด‡ ๊ด€์ ˆ ๊ฐ๋„๋ฅผ ์„ ํ˜• ๋ณด๊ฐ„ํ•ฉ๋‹ˆ๋‹ค.

\theta_{\text{current}} = p_{\text{ratio}}\cdot(\theta_{\text{contract}} - \theta_{\text{stretch}}) + \theta_{\text{stretch}}

์ง๊ด€์ ์œผ๋กœ, ์‚ฌ๋žŒ์ด ์†๊ฐ€๋ฝ์„ ์ ˆ๋ฐ˜์ฏค ์˜ค๋ฏ€๋ฆฌ๋ฉด ๋กœ๋ด‡ ์†๋„ ๊ทธ ์œ ํ˜•์˜ ํŽผ์นจโ†”๏ธŽ์˜ค๋ฏ€๋ฆผ ๋ฒ”์œ„์—์„œ ์ ˆ๋ฐ˜์ฏค ์˜ค๋ฏ€๋ฆฐ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ๋•๋ถ„์— ์‚ฌ๋žŒ ์† ๊ตฌ์กฐ์™€ ๋กœ๋ด‡ ์† ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ๋„, ๋™์ž‘์˜ โ€œ์ง„ํ–‰ ์ •๋„โ€๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ง๊ด€์ ์œผ๋กœ ์ „๋‹ฌ๋ฉ๋‹ˆ๋‹ค.

(2) ์œ ํ˜• ์กฐ์ •(Type Adjustment). ์„ ํƒ๋œ ์œ ํ˜•์ด ์™„๋ฒฝํžˆ ๋“ค์–ด๋งž์ง€ ์•Š์„ ๋•Œ, ์†๋(fingertip) ์œ„์น˜ยท๋ฐฉํ–ฅ์— ์˜คํ”„์…‹์„ ์ค˜ ๋ฏธ์„ธ ๋ณด์ •ํ•ฉ๋‹ˆ๋‹ค. ์ˆœ์šด๋™ํ•™(FK)์œผ๋กœ ํ˜„์žฌ ์†๋ ์ž์„ธ๋ฅผ ๊ตฌํ•˜๊ณ  ์›ํ•˜๋Š” ๋ณ€ํ™˜ T_\Delta ๋ฅผ ๊ณฑํ•œ ๋’ค, ์—ญ์šด๋™ํ•™(IK)์œผ๋กœ ๊ด€์ ˆ๊ฐ์„ ๋˜๋Œ๋ ค ๋ฐ›์Šต๋‹ˆ๋‹ค.

q' = \text{IK}\big(\text{FK}(q)\cdot T_\Delta\big)

์ด๋ ‡๊ฒŒ โ€œ์œ ํ˜•์œผ๋กœ ํฐ ํ‹€์„ ์žก๊ณ (์ด์‚ฐ์  ์„ ํƒ) + ๋ณด๊ฐ„/์กฐ์ •์œผ๋กœ ์„ธ๋ฐ€ํ•˜๊ฒŒ ๋‹ค๋“ฌ๋Š”(์—ฐ์†์  ์ œ์–ด)โ€ 2๋‹จ ๊ตฌ์กฐ๊ฐ€ TypeTele์˜ ์กฐ์ข… ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

ํ•˜๋“œ์›จ์–ด ๊ตฌ์„ฑ

๋…ผ๋ฌธ์ด ์‚ฌ์šฉํ•œ ์‹ค์ œ ์‹œ์Šคํ…œ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๊ตฌ์„ฑ ์žฅ๋น„
์† ๋ชจ์…˜ ์บก์ฒ˜ Rokoko Gloves (์†๊ฐ€๋ฝ ์œ„์น˜ 3 DOF)
์†๋ชฉ ์ž์„ธ Meta Quest 3 VR ์ปจํŠธ๋กค๋Ÿฌ (6 DOF)
๋กœ๋ด‡ ํŒ” Kinova ํŒ” 2๋Œ€ (6-DOF + 7-DOF)
๋ฏผ์ฒฉํ•œ ์† LEAP hand 2๋Œ€ (๊ฐ 16 DOF)
์ถ”๊ฐ€ ๊ฒ€์ฆ Inspire / Shadow / Allegro hand (์‹œ๋ฎฌ๋ ˆ์ด์…˜)
๋น„์ „ Realsense L515 LiDAR ์นด๋ฉ”๋ผ (๋‹จ์ผ ์‹œ์  RGB-D)
์ œ์–ด ์†: ๊ด€์ ˆ ์œ„์น˜ PD ์ œ์–ด / ํŒ”: ๊ณ ์ฃผํŒŒ Cartesian ์†๋„ ์ œ์–ด(์ตœ๋Œ€ 20 cm/s)

์‹คํ—˜

๋ฉ”์ธ ๊ฒฐ๊ณผ: retargeting์ด 0%์ธ ๊ณณ์—์„œ ๋น›๋‚œ๋‹ค

9๊ฐœ ์‹ค์„ธ๊ณ„ ๊ณผ์ œ์—์„œ TypeTele๊ณผ retargeting ๋ฒ ์ด์Šค๋ผ์ธ(์‚ฌ๋žŒ ์† ์ž์„ธ๋ฅผ ๋กœ๋ด‡์— ์ง์ ‘ ๋งคํ•‘)์„ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ณผ์ œ TypeTele Baseline (retargeting)
Pick and Place 100% 95.2%
Collect and Store 95.2% 60.6%
Handover 95.2% 80.0%
Pouring from Pan 83.0% 14.2%
Use Scissors 91.1% 0%
Spray Water 86.9% 0%
Use Heavy Kettle 85.0% 0%
Open Large Box 95.2% 0%
Grasp Two Objects 69.6% 0%

ํ•ด์„: ๋‹จ์ˆœํ•œ ์ง‘๊ธฐ(Pick and Place)์—์„œ๋Š” ๋‘ ๋ฐฉ์‹ ์ฐจ์ด๊ฐ€ ์ž‘์ง€๋งŒ, ๋กœ๋ด‡ ์† ๊ณ ์œ  ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•œ ๊ณผ์ œ์ผ์ˆ˜๋ก ๊ฒฉ์ฐจ๊ฐ€ ๊ทน์ ์ž…๋‹ˆ๋‹ค. ๊ฐ€์œ„์งˆ, ๋ถ„๋ฌด๊ธฐ, ๋ฌด๊ฑฐ์šด ์ฃผ์ „์ž, ํฐ ์ƒ์ž ์—ด๊ธฐ, ํ•œ ์†์œผ๋กœ ๋‘ ๋ฌผ์ฒด ์žก๊ธฐ โ€” ์ด ๋‹ค์„ฏ ๊ณผ์ œ์—์„œ retargeting์€ ๋‹จ ํ•œ ๋ฒˆ๋„ ์„ฑ๊ณตํ•˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค(0%). ์‚ฌ๋žŒ ์† ์ž์„ธ๋ฅผ ๋ฒ ๋ผ๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ๊ตฌ์กฐ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฑฐ๋‚˜ ๋งค์šฐ ๋ถˆ์•ˆ์ •ํ•œ ๋™์ž‘๋“ค์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. TypeTele์€ ์ด๋ฅผ 85~91%๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์œ ํ˜• ์ถ”์ƒํ™”๊ฐ€ ๋กœ๋ด‡ ์†์˜ ์ž ์žฌ๋ ฅ์„ ์‹ค์ œ๋กœ โ€œํ’€์–ด๋‚ธ๋‹ค(releasing dexterity)โ€ ๋Š” ์ œ๋ชฉ์˜ ์ฃผ์žฅ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.

ํšจ์œจ์„ฑ(๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ์‹œ๊ฐ„). ์„ฑ๊ณต๋ฅ ๋ฟ ์•„๋‹ˆ๋ผ ์‹œ์—ฐ 1๊ฐœ๋‹น ์ˆ˜์ง‘ ์‹œ๊ฐ„๋„ ์ค„์—ˆ์Šต๋‹ˆ๋‹ค.

  • Pick and Place: TypeTele 7.67์ดˆ/์‹œ์—ฐ vs Baseline 8.28์ดˆ/์‹œ์—ฐ
  • Collect and Store: TypeTele 29.37์ดˆ/์‹œ์—ฐ vs Baseline 37.32์ดˆ/์‹œ์—ฐ

๋ชจ๋ฐฉํ•™์Šต: ๋” ๋‚˜์€ ์‹œ์—ฐ์ด ๋” ๋‚˜์€ ์ •์ฑ…์„ ๋งŒ๋“ ๋‹ค

TypeTele๋กœ ๋ชจ์€ ์‹œ์—ฐ์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ •์ฑ… ํ•™์Šต์—๋„ ์œ ๋ฆฌํ•œ์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค(10ํšŒ ์‹œ๋„ ์ค‘ ์„ฑ๊ณต ํšŸ์ˆ˜).

๊ณผ์ œ Baseline ์ •์ฑ… TypeTele ์ •์ฑ…
Task 1 10/10 10/10
Task 2 3/10 10/10
Task 3 1/10 6/10
Task 4 1/10 9/10
Task 5โ€“9 ์™„๋ฃŒ ๋ถˆ๊ฐ€ 8โ€“9/10

ํ•ด์„: ๋ฒ ์ด์Šค๋ผ์ธ ์‹œ์—ฐ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ์‰ฌ์šด Task 1์„ ๋นผ๋ฉด ๊ธ‰๊ฒฉํžˆ ๋ฌด๋„ˆ์ง€๊ณ , Task 5~9๋Š” ์• ์ดˆ์— ๋ฒ ์ด์Šค๋ผ์ธ์ด ์‹œ์—ฐ์„ ๋ชป ๋ชจ์œผ๋‹ˆ ์ •์ฑ… ์ž์ฒด๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด TypeTele ์‹œ์—ฐ์œผ๋กœ ํ•™์Šตํ•œ ์ •์ฑ…์€ ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ๋„ ๊ฒฌ๊ณ ํ•ฉ๋‹ˆ๋‹ค. ์ข‹์€ ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜์ด ๊ณง ์ข‹์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์ด์–ด์ง„๋‹ค๋Š”, ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ๋กœ๋ณดํ‹ฑ์Šค์˜ ํ•ต์‹ฌ ๊ณ ๋ฆฌ๋ฅผ ๋ณด์—ฌ ์ค๋‹ˆ๋‹ค.

์‚ฌ์šฉ์ž ์—ฐ๊ตฌ: ๋” ์ •ํ™•ํ•˜๊ณ , ๋” ์“ฐ๊ธฐ ์‰ฝ๋‹ค

๊ฒฝํ—˜ ์ˆ˜์ค€์ด ๋‹ค๋ฅธ ์ฐธ๊ฐ€์ž 5๋ช…์—๊ฒŒ ํ”„๋ผ์ดํŒฌ ์†์žก์ด ์žก๊ธฐ ๊ณผ์ œ๋ฅผ ์‹œ์Šคํ…œ๋‹น 5ํšŒ์”ฉ ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

  • ์„ฑ๊ณต๋ฅ : TypeTele 88% vs Baseline 20%

์ฃผ๊ด€์  ํ‰๊ฐ€(0โ€“10์ ):

ํ•ญ๋ชฉ TypeTele Baseline
์ •ํ™•๋„(Accuracy) 9.4 3.4
๋ฐ˜์‘์„ฑ(Responsiveness) 8.6 5.4
์‚ฌ์šฉ ํŽธ์˜์„ฑ(Ease of Use) 8.4 4.8
์‚ฌ์šฉ์ž ํ™•์‹ (Confidence) 9.4 3.4

ํ•ด์„: ๊ฐ๊ด€์  ์„ฑ๊ณต๋ฅ ๊ณผ ์ฃผ๊ด€์  ๋งŒ์กฑ๋„๊ฐ€ ๋ชจ๋‘ ํฐ ํญ์œผ๋กœ ์šฐ์„ธํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ โ€œ์ •ํ™•๋„โ€์™€ โ€œํ™•์‹ โ€์—์„œ 9.4์ ์€, ์œ ํ˜• ์ถ”์ƒํ™”๊ฐ€ ๋‹จ์ง€ ์„ฑ๋Šฅ๋ฟ ์•„๋‹ˆ๋ผ ์กฐ์ž‘์ž์˜ ์ธ์ง€ ๋ถ€๋‹ด์„ ๋œ๊ณ  ํ†ต์ œ๊ฐ์„ ๋†’์ธ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์‹œ์Šคํ…œ ์„ฑ๋Šฅ

  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘: 15 FPS (Windows 10, Intel Core i7-14700)
  • ์ •์ฑ… ์ถ”๋ก : 11 FPS (NVIDIA RTX 3090)
  • ๋กœ๋ด‡ ํŒ” ์ œ์–ด: 25 FPS ์œ ์ง€
  • MLLM ๊ฒ€์ƒ‰: ํ‰๊ท  4.8์ดˆ (์ž‘์—…๋‹น 1ํšŒ)

๋น„ํŒ์  ๊ณ ์ฐฐ

๊ฐ•์ 

  • ๋ฐœ์ƒ์˜ ์ „ํ™˜์ด ๋ช…ํ™•ํ•˜๋‹ค. โ€œ์‚ฌ๋žŒ ์†์„ ๋ฒ ๋ผ์ง€ ๋ง๊ณ  ๋กœ๋ด‡ ์† ์ „์šฉ ์œ ํ˜•์„ ์“ฐ์žโ€๋Š” ๋‹จ์ˆœํ•œ ์žฌ๊ตฌ์„ฑ์ด, retargeting์ด 0%์ด๋˜ ๊ณผ์ œ๋“ค์„ 80~90%๋Œ€๋กœ ๋Œ์–ด์˜ฌ๋ ธ์Šต๋‹ˆ๋‹ค. ๋ฌธ์ œ ์ •์˜ ์ž์ฒด๋ฅผ ๋ฐ”๊ฟ” ์–ป์€ ์ด๋“์ด๋ผ ์„ค๋“๋ ฅ์ด ํฝ๋‹ˆ๋‹ค.
  • ์ด์‚ฐ+์—ฐ์†์˜ 2๋‹จ ์ œ์–ด. ์œ ํ˜•์œผ๋กœ ๊ฑฐ์‹œ์  ์ž์„ธ๋ฅผ ๊ณ ๋ฅด๊ณ (์ด์‚ฐ), ๋ณด๊ฐ„ยท์กฐ์ •์œผ๋กœ ๋ฏธ์‹œ์ ์œผ๋กœ ๋‹ค๋“ฌ๋Š”(์—ฐ์†) ๊ตฌ์กฐ๊ฐ€ ๊น”๋”ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ ์ธ์ง€ ๋ถ€๋‹ด(์–ด๋–ค ์ž์„ธ๋ฅผ ๋งŒ๋“ค์ง€ ๊ณ ๋ฏผ)์„ MLLM์— ๋„˜๊ธฐ๊ณ , ์‚ฌ๋žŒ์€ โ€œ์ง„ํ–‰ ์ •๋„โ€๋งŒ ์กฐ์ข…ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ โ†’ ์ •์ฑ…์œผ๋กœ ์ด์–ด์ง€๋Š” ๊ฒ€์ฆ. ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์„ฑ๋Šฅ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , ๊ทธ ์‹œ์—ฐ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ฐฉํ•™์Šต ์ •์ฑ…๊นŒ์ง€ ์ข‹์•„์ง์„ ๋ณด์—ฌ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ + ๋‹ค์–‘ํ•œ ์† ๊ฒ€์ฆ. 30๊ฐœ ์œ ํ˜•์„ ๊ณ„์† ๋Š˜๋ฆด ์ˆ˜ ์žˆ๊ณ , LEAP ์™ธ Inspire/Shadow/Allegro์—์„œ๋„ ๊ฒ€์ฆํ•ด ์ผ๋ฐ˜์„ฑ์„ ์–ด๋А ์ •๋„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

์•ฝ์ ๊ณผ ํ•œ๊ณ„

  • ์œ ํ˜• ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ๋Œ€ํ•œ ์˜์กด. ์„ฑ๋Šฅ์€ ๊ฒฐ๊ตญ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๊ฐ€ ์ž‘์—…์— ๋งž๋Š” ์œ ํ˜•์„ ๋‹ด๊ณ  ์žˆ๋А๋ƒ์— ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ์—†๋Š” ์ƒˆ๋กœ์šด ์กฐ์ž‘์ด ํ•„์š”ํ•˜๋ฉด, ์‚ฌ๋žŒ์ด ์ง์ ‘ ์œ ํ˜•์„ ์„ค๊ณ„ํ•ด ์ถ”๊ฐ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. โ€œ์ž๋™ ํ™•์žฅโ€์€ ์•„๋‹™๋‹ˆ๋‹ค.
  • MLLM ๊ฒ€์ƒ‰ ์˜ค๋ฅ˜์˜ ์˜ํ–ฅ. ๊ฒ€์ƒ‰ ์ •ํ™•๋„๊ฐ€ ~92%๋ผ๋Š” ๊ฒƒ์€ ์•ฝ 8% ์ž‘์—…์—์„œ ์ž˜๋ชป๋œ ์œ ํ˜•์„ ๊ณ ๋ฅธ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์ž˜๋ชป ๊ณ ๋ฅธ ๊ฒฝ์šฐ์˜ ๋ณต๊ตฌ ์ ˆ์ฐจ๋‚˜ ์‹คํŒจ ๋ถ„์„์€ ์ถฉ๋ถ„ํžˆ ์ œ์‹œ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋˜ GPT-4o API ์˜์กด์€ ์ง€์—ฐ(4.8์ดˆ)ยท๋น„์šฉยท์˜คํ”„๋ผ์ธ ์‚ฌ์šฉ ์ œ์•ฝ์„ ๋™๋ฐ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์†Œ๊ทœ๋ชจ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ. ์ฐธ๊ฐ€์ž 5๋ช…, ๋‹จ์ผ ๊ณผ์ œ(ํ”„๋ผ์ดํŒฌ ์žก๊ธฐ)๋กœ๋Š” ํ†ต๊ณ„์  ์ผ๋ฐ˜ํ™”๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๊ณผ์ œยท๋” ๋งŽ์€ ์ฐธ๊ฐ€์ž์—์„œ์˜ ์žฌํ˜„์€ ํ›„์† ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฒ ์ด์Šค๋ผ์ธ์ด ๋‹จ์ผ retargeting. ๋น„๊ต ๋Œ€์ƒ์ด ์ˆœ์ˆ˜ retargeting ํ•œ ๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. ๋” ์ •๊ตํ•œ retargeting ๋ณ€ํ˜•์ด๋‚˜ ์ตœ์‹  ํ…”๋ ˆ์˜คํผ๋ ˆ์ด์…˜ ์‹œ์Šคํ…œ๊ณผ์˜ ๋น„๊ต๊ฐ€ ์žˆ์œผ๋ฉด ์šฐ์œ„๊ฐ€ ๋” ๋ถ„๋ช…ํ•ด์กŒ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • ์ด์‚ฐํ™”์˜ ๋ณธ์งˆ์  ํ•œ๊ณ„. ์œ ํ˜•์ด๋ผ๋Š” ์ด์‚ฐ ๋‹จ์œ„๋กœ ์กฐ์ž‘์„ ๋ฌถ๋Š” ์ˆœ๊ฐ„, ์œ ํ˜• ์‚ฌ์ด์˜ ๋ฏธ๋ฌ˜ํ•œ ์ค‘๊ฐ„ ๋™์ž‘์ด๋‚˜ ์œ ํ˜• ์ „ํ™˜์ด ์žฆ์€ ์—ฐ์†์  ์กฐ์ž‘์€ ํ‘œํ˜„์ด ์–ด์ƒ‰ํ•ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(์ถ”์ธก). ์œ ํ˜• ์ „ํ™˜์˜ ๋งค๋„๋Ÿฌ์›€์— ๋Œ€ํ•œ ๋ถ„์„์€ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

TypeTele์€ dexterous teleoperation์˜ ์˜ค๋žœ ๊ฐ€์ • โ€” โ€œ์‚ฌ๋žŒ ์†์„ ๊ทธ๋Œ€๋กœ ๋ฒ ๊ปด์•ผ ํ•œ๋‹คโ€ โ€” ๋ฅผ ์ •๋ฉด์œผ๋กœ ๋’ค์ง‘์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  ๋กœ๋ด‡ ์† ์ „์šฉ ์กฐ์ž‘ ์œ ํ˜•(manipulation type) ์ด๋ผ๋Š” ์ด์‚ฐ ๋‹จ์œ„๋ฅผ ๋„์ž…ํ•˜๊ณ , MLLM(GPT-4o)์ด ์ž‘์—…๊ณผ ์Œ์„ฑยท์˜์ƒ ๋งฅ๋ฝ์„ ์ฝ์–ด ์ ํ•ฉํ•œ ์œ ํ˜•์„ ๊ณจ๋ผ ์ฃผ๋ฉฐ, ์‚ฌ๋žŒ์€ ๊ทธ ์œ ํ˜• ์•ˆ์—์„œ ํŽผ์นจโ†”๏ธŽ์˜ค๋ฏ€๋ฆผ์„ ๋ณด๊ฐ„ํ•˜๋ฉฐ ๋ฏธ์„ธ ์กฐ์ข…ํ•ฉ๋‹ˆ๋‹ค.

์„ฑ๊ณผ๋Š” ๋ถ„๋ช…ํ•ฉ๋‹ˆ๋‹ค. retargeting ๋ฒ ์ด์Šค๋ผ์ธ์ด 0% ์ด๋˜ ๊ฐ€์œ„์งˆยท๋ถ„๋ฌด๊ธฐยท๋ฌด๊ฑฐ์šด ์ฃผ์ „์žยทํฐ ์ƒ์žยท๋‘ ๋ฌผ์ฒด ๋™์‹œ ์žก๊ธฐ๋ฅผ 85~91% ๋กœ ์ˆ˜ํ–‰ํ–ˆ๊ณ , ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ๋” ๋นจ๋ž์œผ๋ฉฐ, ๊ทธ ์‹œ์—ฐ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ฐฉํ•™์Šต ์ •์ฑ…๋„ ํฌ๊ฒŒ ํ–ฅ์ƒ๋์Šต๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ์—์„œ๋„ ์„ฑ๊ณต๋ฅ (88% vs 20%)๊ณผ ๋งŒ์กฑ๋„ ๋ชจ๋‘ ์šฐ์„ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ณดํ‹ฑ์Šค ์‹ค๋ฌด์ž ๊ด€์ ์—์„œ ์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์น˜๋Š” โ€œ๋กœ๋ด‡ ์†์˜ ๊ตฌ์กฐ์  ๊ฐ•์ ์„ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ ์‚ด๋ ค๋‚ธ๋‹คโ€ ๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ๋žŒ ์†์˜ ํ•œ๊ณ„์— ๋กœ๋ด‡์„ ๊ฐ€๋‘์ง€ ์•Š๊ณ , ์ž‘์—…์— ๋งž๋Š” ๋กœ๋ด‡ ์ „์šฉ ์ž์„ธ๋ฅผ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์„ ํƒํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋” ์–ด๋ ต๊ณ  ๋‹ค์–‘ํ•œ ์กฐ์ž‘์˜ ์‹œ์—ฐยทํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์˜์กด์„ฑ๊ณผ MLLM ๊ฒ€์ƒ‰ ์˜ค๋ฅ˜, ์†Œ๊ทœ๋ชจ ํ‰๊ฐ€๋ผ๋Š” ํ•œ๊ณ„๋Š” ๋ถ„๋ช…ํ•˜์ง€๋งŒ, ์œ ํ˜• ๊ธฐ๋ฐ˜ ์ถ”์ƒํ™”๋ผ๋Š” ํ‹€์€ ํ–ฅํ›„ dexterous ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ์œ ๋ ฅํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee