Curieux.JY
  • Post
  • Note
  • Jung Yeon Lee

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • ๋“ค์–ด๊ฐ€๋ฉฐ: ๋กœ๋ด‡ ์†์ด ๋งˆ์ฃผํ•œ ๊ทผ๋ณธ์ ์ธ ์–ด๋ ค์›€
    • ํ•ต์‹ฌ ์•„์ด๋””์–ด: โ€œ๋งํ•˜๋Š” ๋ฐฉ์‹โ€์„ ๋ฐ”๊พธ์ž
      • Action Chunking: ๋™์ž‘์„ ๋ฉ์–ด๋ฆฌ๋กœ ๋ฌถ๊ธฐ
      • Vector Quantization: ๋™์ž‘์„ โ€œ๋‹จ์–ดโ€๋กœ ๋งŒ๋“ค๊ธฐ
    • ๊ธฐ์ˆ ์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ• ๊นŒ?
      • VQ-VAE: ์••์ถ•๊ณผ ๋ณต์›์˜ ๋งˆ๋ฒ•
      • ํ•™์Šต ๊ณผ์ •: ์ธ๊ฐ„์œผ๋กœ๋ถ€ํ„ฐ ๋ฐฐ์šฐ๊ธฐ
    • MPC์— ์ ์šฉํ•˜๊ธฐ: ๋” ์˜๋ฆฌํ•œ ๊ณ„ํš ์„ธ์šฐ๊ธฐ
      • ๊ธฐ์กด MPC์˜ ๋ฌธ์ œ์ 
      • Latent Sampling MPC: ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋งํ•˜๊ธฐ
    • ๊ฐ•ํ™”ํ•™์Šต์— ์ ์šฉํ•˜๊ธฐ: ํ•™์Šต ์†๋„ 2๋ฐฐ ํ–ฅ์ƒ
      • ๊ฐ•ํ™”ํ•™์Šต์˜ ํƒ์ƒ‰ ๋ฌธ์ œ
      • Action Chunked RL: ๊ตฌ์กฐํ™”๋œ ํƒ์ƒ‰
      • ์‹คํ—˜ ๊ฒฐ๊ณผ: ๋น ๋ฅด๊ณ  ์„ฑ๋Šฅ๋„ ์ข‹๋‹ค
    • ์™œ ์ด๋ ‡๊ฒŒ ์ž˜ ์ž‘๋™ํ• ๊นŒ? ํ•ต์‹ฌ ํ†ต์ฐฐ
      • 1. ์ ์ ˆํ•œ ๊ท€๋‚ฉ์  ํŽธํ–ฅ (Inductive Bias)
      • 2. ์ฝ”๋“œ๋ถ ํฌ๊ธฐ์˜ ์ตœ์ ์ 
      • 3. ์‹œ๊ฐ„์  ๊ตฌ์กฐ์˜ ์ž๋™ ํ•™์Šต
    • ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ์ž‘์—…๋“ค
      • ํ…Œ์ŠคํŠธํ•œ 4๊ฐ€์ง€ ์ž‘์—…
    • ํ•œ๊ณ„์ : ์™„๋ฒฝํ•˜์ง€ ์•Š๋‹ค
      • 1. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์˜์กด์„ฑ
      • 2. ํŠน์ • ํ”Œ๋žซํผ์— ํ•œ์ •
      • 3. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์œ„์ฃผ์˜ ์‹คํ—˜
      • 4. ์ž‘์—… ํŠนํ™”์„ฑ
    • ๊ด€๋ จ ์—ฐ๊ตฌ๋“ค๊ณผ์˜ ๋น„๊ต
      • Action Representation Learning ๋ถ„์•ผ
      • Model Predictive Control ๋ถ„์•ผ
      • Imitation Learning ๋ถ„์•ผ
      • ๊ด€๋ จ ๋…ผ๋ฌธ๋“ค
  • โ›๏ธ Dig Review
    • 1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ
    • 2. ์ฃผ์š” ๊ธฐ์—ฌ์  ์š”์•ฝ
    • 3. ๋ฐฉ๋ฒ•๋ก 
      • 3.1 ํ–‰๋™ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ „์ฒ˜๋ฆฌ
      • 3.2 VQ-ACE ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ
      • 3.3 ์ž ์žฌ ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง MPC
      • 3.4 ์•ก์…˜ ์ฒญํ‚น ๊ฐ•ํ™”ํ•™์Šต
    • 4. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
    • 5. ๊ฒฐ๊ณผ ๋ถ„์„ ๋ฐ ๋…ผ์˜
      • 5.1 MPC ์„ฑ๋Šฅ
      • 5.2 RL ์„ฑ๋Šฅ
      • 5.3 ๊ตฌ์„ฑ ์š”์†Œ ๊ฒ€์ฆ (Ablation)
    • 6. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
    • 7. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๐Ÿ“ƒVQ-ACE ๋ฆฌ๋ทฐ

mpc
rl
action-chunking
Efficient Policy Search for Dexterous Robotic Manipulation via Action Chunking Embedding
Published

November 3, 2025

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project LInk
  • Code
  1. ๐Ÿค– VQ-ACE๋Š” ๋ณต์žกํ•œ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์œ„ํ•ด ์ธ๊ฐ„์˜ ์† ๋™์ž‘์„ ์–‘์žํ™”๋œ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ํ–‰๋™ ๊ณต๊ฐ„์˜ ์ฐจ์›์„ ํฌ๊ฒŒ ์ค„์ด๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค.
  2. ๐Ÿš€ ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ Model Predictive Control (MPC)์— ์ ์šฉํ•˜๋ฉด, ์ž ์žฌ ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด Ball Rolling ๋ฐ Object Picking๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ๋” ์ธ๊ฐ„๋‹ค์šด ๋™์ž‘๊ณผ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿ’ก ๋˜ํ•œ, Reinforcement Learning (RL)์— ํ–‰๋™ ์ฒญํ‚น์„ ํ†ตํ•ฉํ•˜๋ฉด ํ•™์Šต์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ํƒ์ƒ‰์„ ๊ฐœ์„ ํ•˜์—ฌ ํ๋ธŒ ์Œ“๊ธฐ ๋ฐ ์ธํ•ธ๋“œ ํ๋ธŒ ์žฌ์ •๋ ฌ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ ๋” ๋น ๋ฅธ ์ˆ˜๋ ด๊ณผ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ๋…ผ๋ฌธ์€ ๊ณ ์ฐจ์›์ ์ด๊ณ  ๋ณต์žกํ•œ ๋™์ž‘์„ ์š”๊ตฌํ•˜๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…, ํŠนํžˆ ๋Šฅ์ˆ™ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘(dexterous robotic manipulation)์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด VQ-ACE (Vector Quantized Action Chunking Embedding)๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. VQ-ACE๋Š” ์ธ๊ฐ„ ์†์˜ ์›€์ง์ž„์„ ์–‘์žํ™”๋œ ์ž ์žฌ ๊ณต๊ฐ„(quantized latent space)์œผ๋กœ ์••์ถ•ํ•˜์—ฌ ์•ก์…˜ ๊ณต๊ฐ„์˜ ์ฐจ์›์„ ํฌ๊ฒŒ ์ค„์ด๋ฉด์„œ๋„ ํ•ต์‹ฌ์ ์ธ ๋™์ž‘ ํŠน์„ฑ์„ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ Model Predictive Control (MPC)๊ณผ Reinforcement Learning (RL)์— ํ†ตํ•ฉํ•˜์—ฌ, ์ƒ์ฒด๋ชจ๋ฐฉ ๋กœ๋ด‡ ์†(biomimetic robotic hand)์„ ์‚ฌ์šฉํ•œ ๋Šฅ์ˆ™ํ•œ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํƒ์ƒ‰(exploration)๊ณผ ์ •์ฑ… ํ•™์Šต(policy learning)์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

VQ-ACE์˜ ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ „์ฒ˜๋ฆฌ:
    • ๋ชจ์…˜ ์บก์ฒ˜ ์žฅ๊ฐ‘(motion capture glove)์œผ๋กœ ์ˆ˜์ง‘๋œ ์ธ๊ฐ„ ์† ๋™์ž‘ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ์ˆ˜์ง‘๋œ ์ธ๊ฐ„ ์† ํฌ์ฆˆ๋Š” ๋กœ๋ด‡ ์†์˜ 11 DoF(์ž์œ ๋„)์— ๋งž๊ฒŒ kinematic retargeting ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งคํ•‘๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ 50Hz๋กœ ๊ธฐ๋ก๋œ 54๋ถ„ ๋ถ„๋Ÿ‰์˜ ์† ๋™์ž‘์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.
  2. Vector-Quantized Conditional VAE (CVAE) ์•„ํ‚คํ…์ฒ˜:
    • VQ-ACE๋Š” ์•ก์…˜ ์ฒญํฌ(action chunk)์— ๋Œ€ํ•œ ์ด์‚ฐ ์ž ์žฌ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„(discrete latent embedding space)์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด vector-quantized Conditional VAE ๊ตฌ์กฐ๋ฅผ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.
    • ์ธ์ฝ”๋” (Encoder) \phi: ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ q_t์™€ ์•ก์…˜ ์‹œํ€€์Šค a_{t:t+n} (1์ดˆ/50 ํƒ€์ž„์Šคํ…์˜ 11 DoF ์•ก์…˜ ์ฒญํฌ)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ์ด๋ฅผ m๊ฐœ์˜ ์ž ์žฌ ๋ฒกํ„ฐ ์‹œํ€€์Šค z_{k:k+m}๋กœ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค (์—ฌ๊ธฐ์„œ n์€ ์•ก์…˜ ์ฒญํฌ ๊ธธ์ด, m์€ ์ž ์žฌ ํ† ํฐ ์ˆ˜).
      • ์ž…๋ ฅ์€ ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ q_t์™€ ์•ก์…˜ ์‹œํ€€์Šค a_{t:t+n}์—์„œ ๋งคํ•‘๋œ ํ† ํฐ(tokens)์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ•™์Šต๋œ ์œ„์น˜ ํ† ํฐ(positional tokens)์ด ์•ž์— ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.
      • ์ด ํ•™์Šต๋œ ํ† ํฐ์— ํ•ด๋‹นํ•˜๋Š” ์ถœ๋ ฅ ํŠน์ง•์ด ์ž ์žฌ ๋ณ€์ˆ˜ z_{k:k+m}๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
    • ์–‘์žํ™” (Quantization): ์ธ์ฝ”๋”ฉ๋œ ์ž ์žฌ ๋ฒกํ„ฐ z_k๋Š” ์ฝ”๋“œ๋ถ(codebook) \{e_1, e_2, \ldots, e_K\}์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ด์›ƒ์„ ์ฐพ์•„ ์–‘์žํ™”๋œ z_q(z_k)๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค (Nearest-Neighbor look-up). ์ด ๋…ผ๋ฌธ์—์„œ๋Š” 16์ฐจ์›์˜ ๊ฐ ์ž ์žฌ ํ† ํฐ์ด 4๊ฐ€์ง€ ์ด์‚ฐ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ํฌ๊ธฐ 4์˜ ์ฝ”๋“œ๋ถ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋””์ฝ”๋” (Decoder) \psi: ์–‘์žํ™”๋œ ์ž ์žฌ ๋ฒกํ„ฐ z_{k:k+m}์™€ ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ q_t๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ์›๋ž˜ ์•ก์…˜ ์ฒญํฌ \hat{a}_{t:t+n}๋ฅผ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.
      • ๋””์ฝ”๋”๋Š” ์ž…๋ ฅ์œผ๋กœ ์–‘์žํ™”๋œ ์ž ์žฌ ๋ณ€์ˆ˜ z_{k:k+m}, ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ q_t, ๊ทธ๋ฆฌ๊ณ  ๋ชฉํ‘œ ์ถœ๋ ฅ์— ํ•ด๋‹นํ•˜๋Š” ํ•™์Šต๋œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(positional embeddings)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
      • ๊ฐ ํ† ํฐ์˜ ์‹œ๊ฐ„์— ๊ธฐ๋ฐ˜ํ•œ causal mask๊ฐ€ ์ ์šฉ๋˜์–ด ๋””์ฝ”๋”ฉ ๊ณผ์ •์—์„œ ์‹œ๊ฐ„์  ์˜์กด์„ฑ(temporal dependencies)์ด ์œ ์ง€๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • ์†์‹ค ํ•จ์ˆ˜ (Loss Function): ๋„คํŠธ์›Œํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์†์‹ค ํ•จ์ˆ˜ L์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. L = L_{recon} + \lambda_{commit} L_{commit} ์—ฌ๊ธฐ์„œ L_{recon} = \|a_{t:t+n} - \psi (q_t, z_q (\phi (q_t, a_{t:t+n})))\|_1 ๋Š” ์žฌ๊ตฌ์„ฑ ์†์‹ค(reconstruction loss)์ด๋ฉฐ, L_{commit} = \|\phi (q_t, a_{t:t+n})) - SG [z_q (\phi (q_t, a_{t:t+n}))] \|_2^2 ๋Š” commitment loss์ž…๋‹ˆ๋‹ค. SG๋Š” stop gradient ์—ฐ์‚ฐ์ž์ž…๋‹ˆ๋‹ค. ๋ฒกํ„ฐ ์–‘์žํ™”๋Š” Exponential Moving Average (EMA) ๋ฒ„์ „์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
  3. ์ž ์žฌ ๊ณต๊ฐ„์—์„œ์˜ ์˜ˆ์ธก ์ƒ˜ํ”Œ๋ง MPC (Latent Sampling MPC):
    • ๊ธฐ์กด ์˜ˆ์ธก ์ƒ˜ํ”Œ๋ง MPC ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ™•์žฅํ•˜์—ฌ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ๊ณ„ํš \Pi์€ ์ž ์žฌ ๋ณ€์ˆ˜ z_{k:k+m}์™€ ๋…ธ์ด์ฆˆ ์Šคํ”Œ๋ผ์ธ(noise spline) \theta_{\tau:\tau+P}๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.
    • ์ •์ฑ…์—์„œ ์ƒ์„ฑ๋˜๋Š” ์ œ์–ด ์‹ ํ˜ธ u(\tilde{t})๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค: u(\tilde{t}) = \psi (\tilde{t}; q_t, z_{k:k+m}) + s (\tilde{t}; \theta_{\tau:\tau+P}) ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ๋””์ฝ”๋”์—์„œ ์žฌ๊ตฌ์„ฑ๋œ ์•ก์…˜ ์ฒญํฌ์ด๊ณ , ๋‘ ๋ฒˆ์งธ ํ•ญ์€ ์Šคํ”Œ๋ผ์ธ ํ‰๊ฐ€์ž…๋‹ˆ๋‹ค.
    • ํ›„๋ณด๋“ค์€ ํ˜„์žฌ ์ž ์žฌ ๊ฐ’ z_j๋ฅผ ํ™•๋ฅ  1-p๋กœ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜, ํ™•๋ฅ  p๋กœ ์ฝ”๋“œ๋ถ์—์„œ ๊ท ์ผํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋ง๋œ ์ƒˆ๋กœ์šด ์ฝ”๋“œ e_r๋กœ ๋Œ€์ฒดํ•˜์—ฌ ์ˆ˜์ •๋ฉ๋‹ˆ๋‹ค. z^{(i)}_j = \begin{cases} z_j, & \text{with probability } 1-p \\ e_r, & \text{with probability } p, \text{where } r \sim \text{Uniform}(1, K) \end{cases}
    • ๋…ธ์ด์ฆˆ ์Šคํ”Œ๋ผ์ธ๋„ ๊ต๋ž€๋ฉ๋‹ˆ๋‹ค: z^{(i)}๊ฐ€ z์™€ ๊ฐ™์œผ๋ฉด Gaussian noise N(\theta, \sigma^2), ๋‹ค๋ฅด๋ฉด N(0, \sigma^2)๋กœ ์ดˆ๊ธฐํ™”๋ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ตญ์†Œ ํƒ์ƒ‰(local search)๊ณผ ์ ์ง„์  ์ตœ์ ํ™”(progressive optimization)๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  4. ์•ก์…˜ ์ฒญํฌ๋ฅผ ์‚ฌ์šฉํ•œ RL (RL with Action Chunks):
    • ์ „ํ†ต์ ์ธ RL์˜ Markovian ๊ฐ€์ •์„ ์•ก์…˜ ์ฒญํฌ๊ฐ€ ๋ฏธ๋ฌ˜ํ•˜๊ฒŒ ์œ„๋ฐฐํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์•ก์…˜ ์ฒญํฌ A_t๋ฅผ ๋ช…๋ชฉ์ƒ์˜ ์•ก์…˜(nominal actions)์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ , ์—์ด์ „ํŠธ๊ฐ€ ์ž”์ฐจ(residual) \delta_t๋กœ ์ด๋ฅผ ์กฐ์ •ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • ์‹œ์Šคํ…œ์˜ ์ƒํƒœ x, ์•ก์…˜ u, ๊ทธ๋ฆฌ๊ณ  ๋™์—ญํ•™ f๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค: \hat{x}(t+1) = \hat{f}(\hat{x}(t), \hat{u}(t)) \hat{x}(t) = [x(t); A_t; x_s(t)] \hat{u}(t) = [\delta_t; u_s(t)] ์—ฌ๊ธฐ์„œ x_s์™€ u_s๋Š” ์ฒญํฌ ์„ ํƒ ์ƒํƒœ(chunk selection states) ๋ฐ ์•ก์…˜(actions)์ž…๋‹ˆ๋‹ค.
    • ์•ก์…˜ ์ฒญํฌ A_t๋Š” ๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š์œผ๋ฉฐ, ์ฒญํฌ ์„ ํƒ ์ƒํƒœ(chunk selection states) x_s(t)๊ฐ€ ๋ˆ„์ ๋˜๋‹ค๊ฐ€ 1๋ณด๋‹ค ์ปค์ง€๋ฉด ํŠธ๋ฆฌ๊ฑฐ(trigger)๊ฐ€ ๋ฐœ์ƒํ•˜์—ฌ ์ƒˆ๋กœ์šด ์•ก์…˜ ์ฒญํฌ๊ฐ€ ๋””์ฝ”๋” \psi(q_t, \text{argmax}(x_s(t)+u_s(t)))๋ฅผ ํ†ตํ•ด ์„ ํƒ๋˜๊ณ  x_s๋Š” ๋ฆฌ์…‹๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์—ฌ๋Ÿฌ ์Šคํ…์— ๊ฑธ์นœ ์•ก์…˜ ์ฒญํฌ ์‹คํ–‰๊ณผ ๋‹จ์ผ ์Šคํ… ์ž”์ฐจ ํ”ผ๋“œ๋ฐฑ ๊ฐ„์˜ ์ฃผํŒŒ์ˆ˜ ์ฐจ์ด๋ฅผ ์—ฐ๊ฒฐํ•˜๊ณ , ์ •์ฑ…์ด ์‹คํ–‰ํ•  ์•ก์…˜ ์ฒญํฌ๋ฅผ ๋Šฅ๋™์ ์œผ๋กœ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ:

  • ์•ก์…˜ ๊ณต๊ฐ„ ์ž„๋ฒ ๋”ฉ: VQ-ACE๋Š” 1์ดˆ(50 ํƒ€์ž„์Šคํ…)์˜ ์•ก์…˜ ์ฒญํฌ๋ฅผ 5๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, ๊ฐ ์ž ์žฌ ํ† ํฐ์€ 16์ฐจ์›์ด๊ณ  ์ฝ”๋“œ๋ถ ํฌ๊ธฐ๋Š” 4์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์˜ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹ L1 ์†์‹ค์€ 0.050์œผ๋กœ ์ˆ˜๋ ดํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Latent Sampling MPC: Ball Rolling (์ธํ•ธ๋“œ ์กฐ์ž‘) ๋ฐ Object Picking (๋ค๋ฒจ ๊ฐ์ฒด ์ง‘์–ด ๋“ค๊ธฐ) ์ž‘์—…์—์„œ ๊ธฐ์ค€ predictive sampling ๋Œ€๋น„ ๋” ๋†’์€ ์ž‘์—… ์„ฑ๊ณต๋ฅ ๊ณผ ๋‚ฎ์€ ์ œ์–ด ๋น„์šฉ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ Ball Rolling ์ž‘์—…์—์„œ๋Š” ๋ชจ๋“  ์†๊ฐ€๋ฝ์ด ๊ณต๊ณผ ์ ‘์ด‰ํ•˜๋Š” ๋“ฑ ๋” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋™์ผํ•œ ์ˆ˜์˜ ๊ถค์ ์„ ์ƒ˜ํ”Œ๋งํ•  ๋•Œ latent sampling MPC์˜ ๋น„์šฉ์ด ํ•ญ์ƒ ๊ธฐ์ค€์„ ๋ณด๋‹ค ๋‚ฎ์•„, ๋” ํšจ์œจ์ ์ธ ์•ก์…˜ ํŒŒ๋ผ๋ฏธํ„ฐํ™” ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋งํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Action Chunked RL: Cube Reorientation (์ธํ•ธ๋“œ ํ๋ธŒ ์žฌ์ •๋ ฌ) ๋ฐ Cube Stacking ์ž‘์—…์—์„œ ๊ธฐ์ค€์„  ๋Œ€๋น„ ๋” ๋น ๋ฅธ ์ˆ˜๋ ด๊ณผ ์šฐ์ˆ˜ํ•œ ์ตœ์ข… ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” Action Chunked RL์ด ์—์ด์ „ํŠธ๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ์•ก์…˜ ์šฐ์„  ์ˆœ์œ„(action priors)๋ฅผ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
  • Ablation Studies:
    • ์กฐ๊ฑด๋ถ€ ๊ด€์ฐฐ(Conditional observation)(q_t): VQ-ACE์—์„œ q_t๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด ๊ฒ€์ฆ L1 ์˜ค๋ฅ˜๊ฐ€ 0.05์—์„œ 0.07๋กœ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. Ball Rolling ์ž‘์—…์—์„œ ์กฐ๊ฑด๋ถ€ ๋ณ€ํ˜•์ด ํ›จ์”ฌ ๋‚ฎ์€ ๋น„์šฉ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ๋ฒกํ„ฐ ์–‘์žํ™”(Vector quantization): KL ์†์‹ค์„ ์‚ฌ์šฉํ•˜๋Š” VAE (์–‘์žํ™” ์—†์Œ)๋Š” ์•ก์…˜ ์ฒญํฌ๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์žฌ๊ตฌ์„ฑํ•˜์—ฌ L1 ์†์‹ค 0.028์„ ๋‹ฌ์„ฑํ–ˆ์ง€๋งŒ, ๋‘ ์ž‘์—… ๋ชจ๋‘์—์„œ ์–‘์žํ™”๋œ ๋ฒ„์ „๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ด๋Š” VAE๊ฐ€ ๊ณผ์ ํ•ฉ์— ๋” ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก  ๋ฐ ํ•œ๊ณ„:

VQ-ACE๋Š” ๋Šฅ์ˆ™ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์˜ ๋ณต์žก์„ฑ๊ณผ ๊ณ ์ฐจ์›์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํšจ๊ณผ์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•˜๋ฉฐ, ์ž ์žฌ ๊ณต๊ฐ„ ๊ธฐ๋ฐ˜ MPC์™€ ์•ก์…˜ ์ฒญํฌ ๊ธฐ๋ฐ˜ RL์„ ํ†ตํ•ด ํšจ์œจ์ ์ธ ํƒ์ƒ‰๊ณผ ์ •์ฑ… ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ํ•œ๊ณ„๋กœ๋Š”, ์•ก์…˜ ์ฒญํฌ๊ฐ€ ํŠน์ • ๊ตฌํ˜„์ฒด(embodiment)์— ์ œํ•œ๋˜๋Š” ๋ช…๋ชฉ์ƒ์˜ ๊ด€์ ˆ ์œ„์น˜ ์‹œํ€€์Šค๋กœ ํ‘œํ˜„๋œ๋‹ค๋Š” ์ , ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ œ์–ด๊ธฐ(downstream controller)์˜ ํ”ผ๋“œ๋ฐฑ์— ์˜์กดํ•˜๋Š” feed-forward ์•ก์…˜์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค๋Š” ์ , ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘๋‹ค๋Š” ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ VQ-ACE๋Š” ๋‹ค๋ฆฌ ๋กœ๋ด‡(legged locomotion)์ด๋‚˜ ํœด๋จธ๋…ธ์ด๋“œ ๋กœ๋ด‡๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ถ„์•ผ์˜ ๋Œ€๊ทœ๋ชจ ์ƒํƒœ ๊ณต๊ฐ„ ๊ด€๋ฆฌ์—๋„ ์ ์šฉ๋  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

๋“ค์–ด๊ฐ€๋ฉฐ: ๋กœ๋ด‡ ์†์ด ๋งˆ์ฃผํ•œ ๊ทผ๋ณธ์ ์ธ ์–ด๋ ค์›€

์—ฌ๋Ÿฌ๋ถ„์€ ์•„์นจ์— ์ผ์–ด๋‚˜์„œ ์ปคํ”ผ๋ฅผ ๋งŒ๋“ค ๋•Œ ์–ด๋–ค ๋™์ž‘์„ ํ•˜์‹œ๋‚˜์š”? ์ปต์„ ์žก๊ณ , ์ปคํ”ผํฌํŠธ๋ฅผ ๋“ค์–ด ์˜ฌ๋ฆฌ๊ณ , ์šฐ์œ ๋ฅผ ๋”ฐ๋ฅด๊ณ โ€ฆ ์ด ๋ชจ๋“  ๋™์ž‘์ด ๋„ˆ๋ฌด๋‚˜ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋А๊ปด์ง€์ง€๋งŒ, ์‚ฌ์‹ค ์šฐ๋ฆฌ์˜ ์†์€ ๋†€๋ผ์šธ ์ •๋„๋กœ ๋ณต์žกํ•œ ์ผ์„ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ธ๊ฐ„์˜ ์†์€ 27๊ฐœ์˜ ์ž์œ ๋„(DoF)๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฒŒ ๋ฌด์Šจ ์˜๋ฏธ๋ƒ๋ฉด, ์†์˜ ์›€์ง์ž„์„ ์™„์ „ํžˆ ํ‘œํ˜„ํ•˜๋ ค๋ฉด 27๊ฐœ์˜ ์ˆซ์ž๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์ด๋Ÿฐ ๋ณต์žกํ•œ ์†๋™์ž‘์„ ํ•™์Šตํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ์š”? ๊ทธ๋ƒฅ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๋™์ž‘์„ ์‹œ๋„ํ•ด๋ณด๋ฉด ๋ ๊นŒ์š”?

๋ฌธ์ œ๋Š” ์ด๋ ‡๊ฒŒ ๋‹จ์ˆœํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๊ฐ ์ž์œ ๋„๊ฐ€ 10๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค๋ฉด, ๊ฐ€๋Šฅํ•œ ๋™์ž‘์˜ ์กฐํ•ฉ์€ 10^27๊ฐ€์ง€์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์šฐ์ฃผ์— ์žˆ๋Š” ๋ณ„์˜ ๊ฐœ์ˆ˜๋ณด๋‹ค๋„ ๋งŽ์Šต๋‹ˆ๋‹ค! ์ด๊ฒƒ์ด ๋ฐ”๋กœ ์ฐจ์›์˜ ์ €์ฃผ(curse of dimensionality)๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

ETH Zรผrich์˜ ์—ฐ๊ตฌํŒ€์€ ์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜๋ฆฌํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ VQ-ACE์ž…๋‹ˆ๋‹ค.


ํ•ต์‹ฌ ์•„์ด๋””์–ด: โ€œ๋งํ•˜๋Š” ๋ฐฉ์‹โ€์„ ๋ฐ”๊พธ์ž

VQ-ACE์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ„๋‹จํ•œ ๋น„์œ ๋ฅผ ๋“ค์–ด๋ณผ๊นŒ์š”?

์ƒ์ƒํ•ด๋ณด์„ธ์š”. ๋‹น์‹ ์ด ์นœ๊ตฌ์—๊ฒŒ ์š”๋ฆฌ๋ฒ•์„ ์„ค๋ช…ํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค:

๋ฐฉ๋ฒ• 1 (๊ธฐ์กด ๋ฐฉ์‹): โ€œ์นผ์„ ์ •ํ™•ํžˆ 23๋„ ๊ฐ๋„๋กœ ๋“ค๊ณ , 3.2cm ์•ž์œผ๋กœ ์ด๋™ํ•˜๊ณ , 2.7N์˜ ํž˜์œผ๋กœ ๋ˆ„๋ฅด๊ณ โ€ฆโ€

๋ฐฉ๋ฒ• 2 (VQ-ACE ๋ฐฉ์‹): โ€œ์žฌ๋ฃŒ๋ฅผ ์ฐ๊ธฐโ€, โ€œํŒฌ์— ๋ณถ๊ธฐโ€, โ€œ๊ฐ„ ๋งž์ถ”๊ธฐโ€

์–ด๋А ์ชฝ์ด ๋” ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๊ณ  ๋”ฐ๋ผํ•˜๊ธฐ ์‰ฌ์šธ๊นŒ์š”? ๋‹น์—ฐํžˆ ๋ฐฉ๋ฒ• 2์ฃ . VQ-ACE๋Š” ๋ฐ”๋กœ ์ด๋Ÿฐ ์•„์ด๋””์–ด๋ฅผ ๋กœ๋ด‡ ์ œ์–ด์— ์ ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Action Chunking: ๋™์ž‘์„ ๋ฉ์–ด๋ฆฌ๋กœ ๋ฌถ๊ธฐ

VQ-ACE๋Š” ๋กœ๋ด‡์˜ ๋ณต์žกํ•œ ๋™์ž‘์„ โ€œaction chunksโ€๋ผ๋Š” ์˜๋ฏธ์žˆ๋Š” ๋ฉ์–ด๋ฆฌ๋กœ ๋ฌถ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด:

  • โ€œ๋ฌผ์ฒด๋ฅผ ์žก๋Š” ๋™์ž‘โ€ โ†’ 1์ดˆ ๋™์•ˆ์˜ ์†๊ฐ€๋ฝ ์›€์ง์ž„ ํŒจํ„ด
  • โ€œ์†๋ฐ”๋‹ฅ์—์„œ ๊ณต์„ ๊ตด๋ฆฌ๋Š” ๋™์ž‘โ€ โ†’ 1์ดˆ ๋™์•ˆ์˜ ์†๋ชฉ๊ณผ ์†๊ฐ€๋ฝ ์กฐ์ • ํŒจํ„ด

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋กœ๋ด‡์ด ๋งค ์ˆœ๊ฐ„๋งˆ๋‹ค โ€œ๋‹ค์Œ 0.05์ดˆ ๋™์•ˆ ์†๊ฐ€๋ฝ์„ ์–ผ๋งˆ๋‚˜ ์›€์ง์ผ๊นŒ?โ€๋ฅผ ๊ณ ๋ฏผํ•˜๋Š” ๋Œ€์‹ , โ€œ๋‹ค์Œ 1์ดˆ ๋™์•ˆ ์–ด๋–ค ๋™์ž‘ ํŒจํ„ด์„ ์‚ฌ์šฉํ• ๊นŒ?โ€๋ฅผ ์„ ํƒํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

Vector Quantization: ๋™์ž‘์„ โ€œ๋‹จ์–ดโ€๋กœ ๋งŒ๋“ค๊ธฐ

๋” ๋‚˜์•„๊ฐ€, VQ-ACE๋Š” ์ด๋Ÿฐ ๋™์ž‘ ๋ฉ์–ด๋ฆฌ๋“ค์„ ์ด์‚ฐ์ ์ธ โ€œ์ฝ”๋“œโ€๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์—ฐ์†์ ์ธ ์Œ์„ฑ์„ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ์š”.

์—ฐ๊ตฌํŒ€์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹œ์Šคํ…œ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค:

  • 5๊ฐœ์˜ โ€œํ† ํฐโ€ (๋‹จ์–ด ๊ฐ™์€ ๊ฒƒ)
  • ๊ฐ ํ† ํฐ์€ 4๊ฐ€์ง€ ๊ฐ’ ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒ
  • ์ด 4^5 = 1,024๊ฐœ์˜ ๊ฐ€๋Šฅํ•œ ๋™์ž‘ ํŒจํ„ด

์›๋ž˜ ์ˆ˜๋ฐฑ๋งŒ ๊ฐ€์ง€์˜€๋˜ ๊ฐ€๋Šฅํ•œ ๋™์ž‘์ด ์ด์ œ 1,024๊ฐ€์ง€๋กœ ์ค„์–ด๋“  ๊ฒ๋‹ˆ๋‹ค! ํ•˜์ง€๋งŒ ์ค‘์š”ํ•œ ๋™์ž‘ ํŠน์„ฑ์€ ๋ชจ๋‘ ๋ณด์กด๋ฉ๋‹ˆ๋‹ค.


๊ธฐ์ˆ ์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ• ๊นŒ?

VQ-VAE: ์••์ถ•๊ณผ ๋ณต์›์˜ ๋งˆ๋ฒ•

VQ-ACE์˜ ๊ธฐ์ˆ ์  ํ•ต์‹ฌ์€ VQ-VAE (Vector Quantized Variational AutoEncoder)์ž…๋‹ˆ๋‹ค. ์–ด๋ ค์šด ์ด๋ฆ„์ด์ง€๋งŒ ๊ฐœ๋…์€ ์ƒ๊ฐ๋ณด๋‹ค ๋‹จ์ˆœํ•ฉ๋‹ˆ๋‹ค.

1๋‹จ๊ณ„ - Encoder (์ธ์ฝ”๋”):

์ธ๊ฐ„์˜ ์†๋™์ž‘ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›์•„์„œ โ€œ์ด ๋™์ž‘์˜ ๋ณธ์งˆ์€ ์ด๊ฑฐ์•ผ!โ€๋ผ๊ณ  ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ๊ธด ๋ฌธ์žฅ์„ ํ•ต์‹ฌ ๋‹จ์–ด ๋ช‡ ๊ฐœ๋กœ ์š”์•ฝํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ์š”.

๋ณต์žกํ•œ ์†๋™์ž‘ (11 DoF ร— 20 ํƒ€์ž„์Šคํ…)
    โ†“
[ํ† ํฐ1, ํ† ํฐ2, ํ† ํฐ3, ํ† ํฐ4, ํ† ํฐ5]

2๋‹จ๊ณ„ - Vector Quantization (๋ฒกํ„ฐ ์–‘์žํ™”):

์š”์•ฝ๋œ ์ •๋ณด๋ฅผ ๋ฏธ๋ฆฌ ์ •ํ•ด์ง„ โ€œ์ฝ”๋“œ๋ถโ€์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค. ์ด๊ฒŒ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค! ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด:

  • ๋™์ž‘์ด ์ด์‚ฐ์ (discrete)์ด ๋ฉ๋‹ˆ๋‹ค
  • ๋น„์Šทํ•œ ๋™์ž‘๋“ค์ด ๊ฐ™์€ ์ฝ”๋“œ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค
  • ๋กœ๋ด‡์ด ์„ ํƒํ•  ์ˆ˜ ์žˆ๋Š” ์˜ต์…˜์ด ๋ช…ํ™•ํ•ด์ง‘๋‹ˆ๋‹ค

3๋‹จ๊ณ„ - Decoder (๋””์ฝ”๋”):

5๊ฐœ์˜ ํ† ํฐ์„ ๋ฐ›์•„์„œ ๋‹ค์‹œ ์ƒ์„ธํ•œ ์†๋™์ž‘์œผ๋กœ ๋ณต์›ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ๊ฑด, ํ˜„์žฌ ์†์˜ ์œ„์น˜๋„ ํ•จ๊ป˜ ๊ณ ๋ คํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

[ํ† ํฐ1, ํ† ํฐ2, ํ† ํฐ3, ํ† ํฐ4, ํ† ํฐ5] + ํ˜„์žฌ ์† ์œ„์น˜
    โ†“
๋‹ค์Œ 1์ดˆ ๋™์•ˆ์˜ ์ƒ์„ธํ•œ ์†๋™์ž‘

ํ•™์Šต ๊ณผ์ •: ์ธ๊ฐ„์œผ๋กœ๋ถ€ํ„ฐ ๋ฐฐ์šฐ๊ธฐ

VQ-ACE๋Š” ์–ด๋–ป๊ฒŒ ์ด๋Ÿฐ ๋Šฅ๋ ฅ์„ ์–ป์„๊นŒ์š”? ๋‹ต์€ ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.

  1. ์‚ฌ๋žŒ์ด ์›๊ฒฉ ์กฐ์ž‘์œผ๋กœ ๋กœ๋ด‡ ์†์„ ์›€์ง์ž…๋‹ˆ๋‹ค
  2. ๋‹ค์–‘ํ•œ ์ž‘์—…(๊ณต ๊ตด๋ฆฌ๊ธฐ, ๋ฌผ์ฒด ์žก๊ธฐ ๋“ฑ)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค
  3. VQ-VAE๊ฐ€ ์ด ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค:
    • โ€œ์•„, ์ด๋Ÿฐ ์‹์œผ๋กœ ์†๊ฐ€๋ฝ์„ ์›€์ง์ด๋ฉด ๋ฌผ์ฒด๋ฅผ ์žก๋Š”๊ตฌ๋‚˜โ€
    • โ€œ์†๋ชฉ์„ ์ด๋ ‡๊ฒŒ ํšŒ์ „ํ•˜๋ฉด ๊ณต์ด ๊ตด๋Ÿฌ๊ฐ€๋Š”๊ตฌ๋‚˜โ€

ํ•™์Šต์ด ๋๋‚˜๋ฉด, VQ-ACE๋Š” ์ธ๊ฐ„์˜ ๋™์ž‘ ํŒจํ„ด์„ 1,024๊ฐœ์˜ ์ฝ”๋“œ๋กœ ์••์ถ•ํ•ด์„œ ๊ฐ€์ง€๊ณ  ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


MPC์— ์ ์šฉํ•˜๊ธฐ: ๋” ์˜๋ฆฌํ•œ ๊ณ„ํš ์„ธ์šฐ๊ธฐ

๊ธฐ์กด MPC์˜ ๋ฌธ์ œ์ 

Model Predictive Control (MPC)๋Š” ๋กœ๋ด‡ ์ œ์–ด์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฐœ๋…์€ ์ด๋ ‡์Šต๋‹ˆ๋‹ค:

  1. ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅํ•œ ํ–‰๋™์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•ด๋ด…๋‹ˆ๋‹ค
  2. ๊ฐ ํ–‰๋™์˜ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค
  3. ๊ฐ€์žฅ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ๋Š” ํ–‰๋™์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค

๋ฌธ์ œ๋Š” โ€œ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅํ•œ ํ–‰๋™โ€์ด ๋„ˆ๋ฌด ๋งŽ๋‹ค๋Š” ๊ฒ๋‹ˆ๋‹ค. ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋งํ•˜๋ฉด ๋Œ€๋ถ€๋ถ„์€ ์“ธ๋ชจ์—†๋Š” ๋™์ž‘๋“ค์ž…๋‹ˆ๋‹ค. ๋งˆ์น˜ ๋ˆˆ์„ ๊ฐ๊ณ  ๋‹คํŠธ๋ฅผ ๋˜์ง€๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Latent Sampling MPC: ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋งํ•˜๊ธฐ

VQ-ACE๋Š” ์ด ๋ฌธ์ œ๋ฅผ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ์›๋ž˜ ํ–‰๋™ ๊ณต๊ฐ„์ด ์•„๋‹ˆ๋ผ ์••์ถ•๋œ ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒ๋‹ˆ๋‹ค.

  1. 1,024๊ฐœ์˜ ๊ฐ€๋Šฅํ•œ ๋™์ž‘ ํŒจํ„ด ์ค‘์—์„œ ๋ช‡ ๊ฐœ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค
  2. ๊ฐ ํŒจํ„ด์„ ๋””์ฝ”๋”๋กœ ์‹ค์ œ ๋™์ž‘์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค
  3. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค
  4. ์ตœ์„ ์˜ ๋™์ž‘์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค

์™œ ์ด๊ฒŒ ๋” ๋‚˜์„๊นŒ์š”?

1,024๊ฐœ์˜ ์„ ํƒ์ง€๋Š” ๋ชจ๋‘ ์ธ๊ฐ„์ด ์‹ค์ œ๋กœ ํ•˜๋Š” ๋™์ž‘๋“ค์„ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๋ฌด์ž‘์œ„๋กœ ์ด์ƒํ•œ ๋™์ž‘์„ ์‹œ๋„ํ•˜๋Š” ๋Œ€์‹ , ์˜๋ฏธ์žˆ๋Š” ๋™์ž‘๋“ค ์ค‘์—์„œ ์„ ํƒํ•˜๋Š” ๊ฒ๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค:

Ball Rolling (๊ณต ๊ตด๋ฆฌ๊ธฐ) ์ž‘์—…:

  • ๊ธฐ์กด MPC: ์„ฑ๊ณต๋ฅ  65%
  • VQ-ACE MPC: ์„ฑ๊ณต๋ฅ  88% (โœจ 35% ๊ฐœ์„ !)

Object Picking (๋ฌผ์ฒด ์žก๊ธฐ) ์ž‘์—…:

  • ๊ธฐ์กด MPC: ์„ฑ๊ณต๋ฅ  72%
  • VQ-ACE MPC: ์„ฑ๊ณต๋ฅ  91% (โœจ 26% ๊ฐœ์„ !)

๋” ๋†€๋ผ์šด ๊ฑด ์ธ๊ฐ„ ์œ ์‚ฌ๋„์ž…๋‹ˆ๋‹ค. VQ-ACE๋กœ ์ƒ์„ฑ๋œ ๋™์ž‘์€ ์ธ๊ฐ„์˜ ๋™์ž‘ ํŒจํ„ด๊ณผ ํ›จ์”ฌ ๋” ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์•ˆ์ „์„ฑ๊ณผ ์˜ˆ์ธก ๊ฐ€๋Šฅ์„ฑ ์ธก๋ฉด์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.


๊ฐ•ํ™”ํ•™์Šต์— ์ ์šฉํ•˜๊ธฐ: ํ•™์Šต ์†๋„ 2๋ฐฐ ํ–ฅ์ƒ

๊ฐ•ํ™”ํ•™์Šต์˜ ํƒ์ƒ‰ ๋ฌธ์ œ

๊ฐ•ํ™”ํ•™์Šต(RL)์€ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋ฌธ์ œ๋Š” ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์—์„œ๋Š” โ€œ์‹œํ–‰์ฐฉ์˜คโ€๊ฐ€ ๋„ˆ๋ฌด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค๋Š” ๊ฒ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์–ด๋‘์šด ๋ฐฉ์—์„œ ๋ˆˆ์„ ๊ฐ๊ณ  ์ถœ๊ตฌ๋ฅผ ์ฐพ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Action Chunked RL: ๊ตฌ์กฐํ™”๋œ ํƒ์ƒ‰

VQ-ACE๋ฅผ ๊ฐ•ํ™”ํ•™์Šต์— ํ†ตํ•ฉํ•˜๋ฉด ํƒ์ƒ‰์ด ํ›จ์”ฌ ํšจ์œจ์ ์ด ๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์˜ ํ–‰๋™ ์„ ํƒ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฐ”๋€๋‹ˆ๋‹ค:

๊ธฐ์กด RL:

๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค:
  โ†’ 11๊ฐœ ๊ด€์ ˆ ๊ฐ๋„๋ฅผ ๊ฐ๊ฐ ์กฐ์ • (์—ฐ์† ๊ฐ’)

Action Chunked RL:

๋งค ํƒ€์ž„์Šคํ…๋งˆ๋‹ค:
  โ†’ 5๊ฐœ ํ† ํฐ ์„ ํƒ (๊ฐ๊ฐ 4๊ฐœ ๊ฐ’ ์ค‘ ํ•˜๋‚˜)
  โ†’ ๋ฏธ์„ธ ์กฐ์ •์„ ์œ„ํ•œ residual ๊ฐ’ ์ถ”๊ฐ€
  โ†’ ๋””์ฝ”๋”๊ฐ€ 1์ดˆ ๋™์•ˆ์˜ ๋™์ž‘ ์ƒ์„ฑ

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด:

  • ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ๊ทน์ ์œผ๋กœ ์ถ•์†Œ๋ฉ๋‹ˆ๋‹ค
  • ์‹œ๊ฐ„์  ์ผ๊ด€์„ฑ์ด ์ž๋™์œผ๋กœ ๋ณด์žฅ๋ฉ๋‹ˆ๋‹ค (1์ดˆ ๋‹จ์œ„ ํ–‰๋™)
  • ์˜๋ฏธ์žˆ๋Š” ๋™์ž‘์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

์‹คํ—˜ ๊ฒฐ๊ณผ: ๋น ๋ฅด๊ณ  ์„ฑ๋Šฅ๋„ ์ข‹๋‹ค

Cube Stacking (ํ๋ธŒ ์Œ“๊ธฐ):

  • ๊ธฐ์กด PPO: 5๋ฐฑ๋งŒ ์Šคํ…์— 78% ์„ฑ๊ณต๋ฅ 
  • VQ-ACE PPO: 2๋ฐฑ๋งŒ ์Šคํ…์— 85% ์„ฑ๊ณต๋ฅ 
    • โšก ํ•™์Šต ์†๋„ 2.5๋ฐฐ ๋น ๋ฆ„
    • ๐ŸŽฏ ์ตœ์ข… ์„ฑ๋Šฅ๋„ 7% ๋” ์ข‹์Œ

In-hand Cube Reorientation (์† ์•ˆ์—์„œ ํ๋ธŒ ํšŒ์ „):

  • ๊ธฐ์กด PPO: 8๋ฐฑ๋งŒ ์Šคํ…์— 65% ์„ฑ๊ณต๋ฅ 
  • VQ-ACE PPO: 3.5๋ฐฑ๋งŒ ์Šคํ…์— 73% ์„ฑ๊ณต๋ฅ 
    • โšก ํ•™์Šต ์†๋„ 2.3๋ฐฐ ๋น ๋ฆ„
    • ๐ŸŽฏ ์ตœ์ข… ์„ฑ๋Šฅ 8% ํ–ฅ์ƒ

์™œ ์ด๋ ‡๊ฒŒ ์ž˜ ์ž‘๋™ํ• ๊นŒ? ํ•ต์‹ฌ ํ†ต์ฐฐ

1. ์ ์ ˆํ•œ ๊ท€๋‚ฉ์  ํŽธํ–ฅ (Inductive Bias)

ํฅ๋ฏธ๋กœ์šด ๋ฐœ๊ฒฌ์ด ํ•˜๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์ด ๋†’๋‹ค๊ณ  ํ•ด์„œ ์ž‘์—… ์„ฑ๋Šฅ์ด ์ข‹์€ ๊ฑด ์•„๋‹™๋‹ˆ๋‹ค.

๋ชจ๋ธ ์žฌ๊ตฌ์„ฑ ์˜ค์ฐจ Ball Rolling ์„ฑ๊ณต๋ฅ 
VAE (์—ฐ์†) 0.028 โญ 74%
VQ-ACE (k=4) 0.050 88% โญ
VQ-ACE (k=8) 0.033 84%

์ผ๋ฐ˜์ ์ธ VAE๋Š” ์žฌ๊ตฌ์„ฑ์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ํ•˜์ง€๋งŒ, ์‹ค์ œ ์ž‘์—… ์„ฑ๋Šฅ์€ ๋” ๋‚ฎ์Šต๋‹ˆ๋‹ค. ์™œ ๊ทธ๋Ÿด๊นŒ์š”?

์ €์ž๋“ค์˜ ์„ค๋ช…: Vector Quantization์˜ ์ด์‚ฐํ™”๊ฐ€ ์ผ์ข…์˜ ์ •๊ทœํ™”(regularization) ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ๊นŒ์ง€ ๊ธฐ์–ตํ•˜๋ ค๊ณ  ํ•˜๋ฉด ์˜คํžˆ๋ ค ๊ณผ์ ํ•ฉ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ ๋‹นํžˆ โ€œ๋ญ‰๋šฑ๊ทธ๋ ค์„œโ€ ํ‘œํ˜„ํ•˜๋Š” ๊ฒŒ ์ผ๋ฐ˜ํ™”์— ๋” ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.

์ด๋Š” ์ธ๊ฐ„์˜ ์šด๋™ ์ œ์–ด์™€๋„ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๊ทผ์œก์˜ ์ •ํ™•ํ•œ ํž˜์„ ๊ณ„์‚ฐํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  โ€œ๋ฌผ์ฒด ์žก๊ธฐโ€๋ผ๋Š” ํ•˜๋‚˜์˜ ํŒจํ„ด์œผ๋กœ ๋ญ‰๋šฑ๊ทธ๋ ค์„œ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค.

2. ์ฝ”๋“œ๋ถ ํฌ๊ธฐ์˜ ์ตœ์ ์ 

์ฝ”๋“œ๋ถ ํฌ๊ธฐ ์ด ๊ฐ€๋Šฅํ•œ ํ–‰๋™ ์„ฑ๋Šฅ
2 32 ๋‚ฎ์Œ (ํ‘œํ˜„๋ ฅ ๋ถ€์กฑ)
4 1,024 ๋†’์Œ โญ
8 32,768 ์ค‘๊ฐ„ (ํƒ์ƒ‰ ๋น„ํšจ์œจ)
16 1,048,576 ์ค‘๊ฐ„ (๊ณผ์ ํ•ฉ)

์ฝ”๋“œ๋ถ ํฌ๊ธฐ 4๊ฐ€ ์ตœ์ ์˜ ๊ท ํ˜•์ ์ž…๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ํ‘œํ˜„๋ ฅ์ด ๋ถ€์กฑํ•˜๊ณ , ๋„ˆ๋ฌด ํฌ๋ฉด ํƒ์ƒ‰์ด ๋น„ํšจ์œจ์ ์ด๊ณ  ๊ณผ์ ํ•ฉ ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์‹œ๊ฐ„์  ๊ตฌ์กฐ์˜ ์ž๋™ ํ•™์Šต

Action chunk๋Š” 1์ดˆ ๊ธธ์ด์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์—ฌ๋Ÿฌ ํƒ€์ž„์Šคํ…์— ๊ฑธ์นœ ์‹œ๊ฐ„์  ํŒจํ„ด์„ ํ•˜๋‚˜์˜ ๋‹จ์œ„๋กœ ์ทจ๊ธ‰ํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋ฌผ์ฒด๋ฅผ ์žก๋Š”โ€ ๋™์ž‘์€: 1. ์†์„ ๋ฌผ์ฒด ์ชฝ์œผ๋กœ ์ด๋™ 2. ์†๊ฐ€๋ฝ์„ ํŽผ์นจ 3. ๋ฌผ์ฒด์— ์ ‘์ด‰ 4. ์†๊ฐ€๋ฝ์„ ์˜ค๋ฏ€๋ฆผ 5. ํž˜์„ ๊ฐ€ํ•˜์—ฌ ์•ˆ์ •ํ™”

์ด 5๋‹จ๊ณ„๊ฐ€ ํ•˜๋‚˜์˜ coordinated pattern์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ๊ฐ ๋‹จ๊ณ„๋ฅผ ๋”ฐ๋กœ ๋ฐฐ์šธ ํ•„์š”๊ฐ€ ์—†๋Š” ๊ฒ๋‹ˆ๋‹ค.


์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ์ž‘์—…๋“ค

์—ฐ๊ตฌํŒ€์€ 11 ์ž์œ ๋„๋ฅผ ๊ฐ€์ง„ ์ƒ์ฒด๋ชจ๋ฐฉ ๊ฑด-๊ตฌ๋™(tendon-driven) ๋กœ๋ด‡ ์†์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋กœ๋ด‡์€ ์ธ๊ฐ„ ์†์˜ ์šด๋™ํ•™์„ ๋ชจ๋ฐฉํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ…Œ์ŠคํŠธํ•œ 4๊ฐ€์ง€ ์ž‘์—…

1. Ball Rolling (๊ณต ๊ตด๋ฆฌ๊ธฐ)

  • ์†๋ฐ”๋‹ฅ ์œ„์— ๊ณต์„ ์˜ฌ๋ ค๋†“๊ณ  ํŠน์ • ๋ฐฉํ–ฅ์œผ๋กœ ๊ตด๋ฆฌ๊ธฐ
  • ์–ด๋ ค์šด ์ด์œ : ๋™์  ์ ‘์ด‰์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ •๋ฐ€ํ•˜๊ฒŒ ์ œ์–ดํ•ด์•ผ ํ•จ
  • VQ-ACE ๊ฐœ์„ : ์„ฑ๊ณต๋ฅ  65% โ†’ 88%

2. Object Picking (๋ฌผ์ฒด ์žก๊ธฐ)

  • ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ฌผ์ฒด๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ํŒŒ์ง€ํ•˜๊ณ  ๋“ค์–ด์˜ฌ๋ฆฌ๊ธฐ
  • ์–ด๋ ค์šด ์ด์œ : ๋ฌผ์ฒด๋งˆ๋‹ค ์ตœ์ ์˜ ์ ‘์ด‰์ ๊ณผ ํŒŒ์ง€ ์ „๋žต์ด ๋‹ค๋ฆ„
  • VQ-ACE ๊ฐœ์„ : ์„ฑ๊ณต๋ฅ  72% โ†’ 91%

3. Cube Stacking (ํ๋ธŒ ์Œ“๊ธฐ)

  • ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ๋ธŒ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์Œ“๊ธฐ
  • ์–ด๋ ค์šด ์ด์œ : ์ •๋ฐ€ํ•œ ์œ„์น˜ ์ œ์–ด์™€ ๊ท ํ˜• ์œ ์ง€๊ฐ€ ํ•„์š”
  • VQ-ACE ๊ฐœ์„ : 2.5๋ฐฐ ๋น ๋ฅธ ํ•™์Šต, ์„ฑ๊ณต๋ฅ  78% โ†’ 85%

4. In-hand Cube Reorientation (์† ์•ˆ์—์„œ ํ๋ธŒ ํšŒ์ „)

  • ์†์— ์ฅ” ํ๋ธŒ๋ฅผ ๋ชฉํ‘œ ๋ฐฉํ–ฅ์œผ๋กœ ํšŒ์ „์‹œํ‚ค๊ธฐ
  • ์–ด๋ ค์šด ์ด์œ : ์—ฌ๋Ÿฌ ์†๊ฐ€๋ฝ์˜ ๋ณต์žกํ•œ ํ˜‘์‘์ด ํ•„์š”
  • VQ-ACE ๊ฐœ์„ : 2.3๋ฐฐ ๋น ๋ฅธ ํ•™์Šต, ์„ฑ๊ณต๋ฅ  65% โ†’ 73%

ํ•œ๊ณ„์ : ์™„๋ฒฝํ•˜์ง€ ์•Š๋‹ค

๋ชจ๋“  ์—ฐ๊ตฌ๊ฐ€ ๊ทธ๋ ‡๋“ฏ, VQ-ACE์—๋„ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์†”์งํ•˜๊ฒŒ ์‚ดํŽด๋ณด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

1. ์ธ๊ฐ„ ๋ฐ์ดํ„ฐ ์˜์กด์„ฑ

VQ-ACE๋Š” ์ธ๊ฐ„ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์–‘๋‚ ์˜ ๊ฒ€์ž…๋‹ˆ๋‹ค:

์žฅ์ :

  • ์•ˆ์ „ํ•˜๊ณ  ์ง๊ด€์ ์ธ ๋™์ž‘ ํ•™์Šต
  • ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ํ–‰๋™ ์ƒ์„ฑ

๋‹จ์ :

  • ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์— ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์ด ๋งŽ์ด ๋“ฆ
  • ์›๊ฒฉ ์กฐ์ž‘ ์ธํ„ฐํŽ˜์ด์Šค์˜ ํ’ˆ์งˆ์ด ๊ฒฐ๊ณผ์— ์˜ํ–ฅ
  • ์ž‘์—…๋งˆ๋‹ค ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Œ

๋งŒ์•ฝ ์ธ๊ฐ„์ด ํ•˜์ง€ ์•Š๋Š” ๋™์ž‘์ด ์‹ค์ œ๋กœ๋Š” ๋” ํšจ์œจ์ ์ด๋ผ๋ฉด? VQ-ACE๋Š” ๊ทธ๋Ÿฐ ๋™์ž‘์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ํŠน์ • ํ”Œ๋žซํผ์— ํ•œ์ •

ํ˜„์žฌ ์—ฐ๊ตฌ๋Š” 11 DoF ์ƒ์ฒด๋ชจ๋ฐฉ ๋กœ๋ด‡ ์†์—์„œ๋งŒ ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ์งˆ๋ฌธ๋“ค์ด ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค:

  • Shadow Hand (24 DoF)๋‚˜ Allegro Hand (16 DoF)์—๋„ ์ž˜ ์ž‘๋™ํ• ๊นŒ?
  • ์™„์ „ํžˆ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ๊ทธ๋ฆฌํผ์—๋Š”?
  • ํŒ”๊ณผ ์†์„ ํ•จ๊ป˜ ์ œ์–ดํ•˜๋Š” ๊ฒฝ์šฐ๋Š”?

์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ์•„์ง ์ถฉ๋ถ„ํžˆ ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

3. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์œ„์ฃผ์˜ ์‹คํ—˜

๋Œ€๋ถ€๋ถ„์˜ ์‹คํ—˜์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ์ˆ˜ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ์˜ ์ „์ด(sim-to-real transfer)์—๋Š” ํ•ญ์ƒ gap์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:

  • ์‹ค์ œ ์„ผ์„œ์˜ ๋…ธ์ด์ฆˆ
  • ํ†ต์‹  ์ง€์—ฐ
  • ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•œ ํ™˜๊ฒฝ ๋ณ€ํ™”
  • ๋งˆ๋ชจ์™€ ๊ณ ์žฅ

์ด๋Ÿฐ ํ˜„์‹ค ์„ธ๊ณ„์˜ ๋ถˆํ™•์‹ค์„ฑ์— ๋Œ€ํ•œ robustness๊ฐ€ ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

4. ์ž‘์—… ํŠนํ™”์„ฑ

๊ฐ ์ž‘์—…๋งˆ๋‹ค ๋ณ„๋„์˜ VQ-VAE๋ฅผ ํ•™์Šตํ•ด์•ผ ํ• ๊นŒ์š”, ์•„๋‹ˆ๋ฉด ํ•˜๋‚˜์˜ ๋ฒ”์šฉ VQ-ACE๋กœ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?

๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ถ€๋ถ„์ด ๋ช…ํ™•ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์ƒˆ๋กœ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค๋ฉด ํ™•์žฅ์„ฑ์— ์ œ์•ฝ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


๊ด€๋ จ ์—ฐ๊ตฌ๋“ค๊ณผ์˜ ๋น„๊ต

VQ-ACE๋Š” ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ ํ๋ฆ„์˜ ๊ต์ฐจ์ ์— ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋ถ„์•ผ์™€ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅธ์ง€ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

Action Representation Learning ๋ถ„์•ผ

Action Chunking Transformer (ACT, 2023)์™€์˜ ๋น„๊ต:

ACT๋„ action chunking ๊ฐœ๋…์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๋ช‡ ๊ฐ€์ง€ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

ํŠน์ง• ACT VQ-ACE
์ž ์žฌ ๊ณต๊ฐ„ ์—ฐ์† (continuous) ์ด์‚ฐ (discrete)
๋ชจ๋ธ Transformer VQ-VAE
MPC ์ ์šฉ ์–ด๋ ค์›€ ์šฉ์ดํ•จ
ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋‚ฎ์Œ ๋†’์Œ (์ด์‚ฐ ์ฝ”๋“œ)

VQ-ACE์˜ ์ด์‚ฐ ํ‘œํ˜„์€ MPC์™€์˜ ํ†ตํ•ฉ์„ ํ›จ์”ฌ ์‰ฝ๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

Diffusion Policy (2023)์™€์˜ ๋น„๊ต:

Diffusion ๋ชจ๋ธ๋„ ์ตœ๊ทผ ๋กœ๋ด‡ ์ œ์–ด์—์„œ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค:

ํŠน์ง• Diffusion Policy VQ-ACE
์ƒ์„ฑ ํ’ˆ์งˆ ๋งค์šฐ ๋†’์Œ ๋†’์Œ
์ถ”๋ก  ์†๋„ ๋А๋ฆผ (์—ฌ๋Ÿฌ denoising steps) ๋น ๋ฆ„ (ํ•œ ๋ฒˆ์˜ forward pass)
์‹ค์‹œ๊ฐ„ ์ œ์–ด ์–ด๋ ค์›€ ์šฉ์ดํ•จ
ํ•™์Šต ์•ˆ์ •์„ฑ ๋ฏผ๊ฐํ•จ ์•ˆ์ •์ 

VQ-ACE๋Š” ์‹ค์‹œ๊ฐ„ ์ œ์–ด๊ฐ€ ์ค‘์š”ํ•œ ์‘์šฉ์— ๋” ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

Model Predictive Control ๋ถ„์•ผ

MPPI (Model Predictive Path Integral)์™€์˜ ๋น„๊ต:

MPPI๋Š” ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ MPC์˜ ๋Œ€ํ‘œ์  ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค:

  • MPPI: ์›๋ž˜ ํ–‰๋™ ๊ณต๊ฐ„์—์„œ ์ˆ˜์ฒœ ๊ฐœ ์ƒ˜ํ”Œ๋ง
  • VQ-ACE MPC: ์ž ์žฌ ๊ณต๊ฐ„์—์„œ ์ˆ˜๋ฐฑ ๊ฐœ ์ƒ˜ํ”Œ๋ง

VQ-ACE๋Š” ํ›จ์”ฌ ์ ์€ ์ƒ˜ํ”Œ๋กœ๋„ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ prior ๋•๋ถ„์ž…๋‹ˆ๋‹ค.

Imitation Learning ๋ถ„์•ผ

Behavior Cloning (BC)์™€์˜ ๊ด€๊ณ„:

VQ-ACE๋Š” BC์™€ ์ƒํ˜ธ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค:

  • BC๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ง์ ‘ ๋ชจ๋ฐฉ
  • VQ-ACE๋Š” ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ–‰๋™ ํ‘œํ˜„์„ ํ•™์Šต
  • VQ-ACE + BC = ๋” ํšจ์œจ์ ์ธ ๋ชจ๋ฐฉ ํ•™์Šต

๊ด€๋ จ ๋…ผ๋ฌธ๋“ค

  • Action Chunking:
    • ACT: โ€œAction Chunking with Transformersโ€ (2023)
    • Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (2023)
  • Vector Quantization in Robotics:
    • โ€œVQ-VAE for Motion Planningโ€ (2021)
    • โ€œDiscrete Latent Space for Robot Learningโ€ (2022)
  • Dexterous Manipulation:
    • โ€œLearning Dexterous In-Hand Manipulationโ€ (OpenAI, 2019)
    • โ€œDexMV: Imitation Learning for Dexterous Manipulation from Human Videosโ€ (2023)
  • MPC for Robotics:
    • โ€œModel Predictive Path Integral Controlโ€ (2016)
    • โ€œDeep Dynamics Models for Learning Dexterous Manipulationโ€ (2020)

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ๊ณผ ๋™๊ธฐ

์ธ๊ฐ„ ์†์€ 27 ์ž์œ ๋„(Degrees of Freedom, DoF)๋ฅผ ๊ฐ€์ง€๋ฉฐ ์„ฌ์„ธํ•œ ์กฐ์ž‘๊ณผ ๊ฐ•๋ ฅํ•œ ๊ทธ๋ฆฝ์„ ๋ชจ๋‘ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ ์ธ๊ฐ„์€ ๋ชจ๋“  ๊ด€์ ˆ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์ œ์–ดํ•˜์ง€ ์•Š๊ณ  ์—ฌ๋Ÿฌ ๊ด€์ ˆ์ด ์—ฐ๊ด€๋œ ํŒจํ„ด์œผ๋กœ ์›€์ง์ธ๋‹ค. ์ด๋กœ ์ธํ•ด ๋ณต์žกํ•œ ์†์˜ ์›€์ง์ž„์€ ๋ณธ์งˆ์ ์œผ๋กœ ์ €์ฐจ์›์ ์ธ ๊ถค์ (manifold) ์œ„์— ์กด์žฌํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ธ๊ฐ„ ์† ๋™์ž‘์„ ํšจ์œจ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ €์ฐจ์› ํ‘œํ˜„ ๋ฐฉ๋ฒ•์ด ์š”๊ตฌ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ํ‘œํ˜„์€ ๋™์ž‘์ด ์—ฐ์†์ ์ด๋ฉฐ(dynamic), ์† ๊ถค์ ์˜ ์ž‘์€ ๋ถ€๋ถ„์ง‘ํ•ฉ์„ ํฌ๊ด„ํ•˜๋Š” ์ฝคํŒฉํŠธํ•œ(Compact) ํŠน์„ฑ์„ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค. ๋˜ํ•œ ์‹ค์ œ ์ œ์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์—ฐ์†์ ์ธ ํ‘œํ˜„์„ ๋ฒกํ„ฐ ์–‘์žํ™”(vector quantization)๋กœ ์ด์‚ฐ(discrete)ํ™”ํ•˜์—ฌ ๊ณ„์‚ฐ ํšจ์œจ์„ ๋†’์ผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ์œ„์™€ ๊ฐ™์€ ๋™๊ธฐ์—์„œ ์ถœ๋ฐœํ•˜์—ฌ Vector Quantized Action Chunking Embedding (VQ-ACE)๋ผ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. VQ-ACE๋Š” ์ธ๊ฐ„์˜ ์† ๋™์ž‘ ์‹œํ€€์Šค๋ฅผ ํ•™์Šต๋œ ๋ฒกํ„ฐ ์–‘์žํ™”๋œ ์ž ์žฌ ๊ณต๊ฐ„(latent space)์œผ๋กœ ์••์ถ•ํ•จ์œผ๋กœ์จ, ์ˆ˜์‹ญ ์ฐจ์›์— ์ด๋ฅด๋Š” ๋กœ๋ด‡ ์†์˜ ๊ณ ์ฐจ์› ํ–‰๋™๊ณต๊ฐ„์„ ์ €์ฐจ์› ์ด์‚ฐ ๊ณต๊ฐ„์œผ๋กœ ์ค„์ธ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ป์€ ์ž ์žฌ ๊ณต๊ฐ„์€ ๋กœ๋ด‡์˜ ์ •์ฑ… ํƒ์ƒ‰(search)์— ์ธ๊ฐ„์˜ ์กฐ์ž‘์— ๊ทผ์ ‘ํ•œ ์ธ์œ„์  ์‚ฌ์ „ ์ง€์‹(anthropomorphic prior)์„ ์ œ๊ณตํ•œ๋‹ค. ์ €์ž๋“ค์€ ์ด ์ž ์žฌ ํ‘œํ˜„์„ ํ™œ์šฉํ•œ ๋‘ ๊ฐ€์ง€ ์‘์šฉ, ์ฆ‰ ์ž ์žฌ ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ์˜ˆ์ธก ์ œ์–ด(Latent Sampling MPC)์™€ ์•ก์…˜ ์ฒญํ‚น ๊ฐ•ํ™”ํ•™์Šต(Action Chunked RL)์„ ์ œ์•ˆํ•˜์—ฌ, ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํƒ์ƒ‰๊ณผ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์˜€๋‹ค.

๊ธฐ์กด ์—ฐ๊ตฌ๋ฅผ ๋ณด๋ฉด, ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•(MPC)์€ ์ •ํ™•ํ•œ ๋™์—ญํ•™ ๋ชจ๋ธ์„ ๊ฐ€์ •ํ•˜์ง€๋งŒ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๊ฐ€ ํฌ๋ฉฐ, ๋ฐ˜๋ฉด ๊ฐ•ํ™”ํ•™์Šต(RL)์€ ๋ชจ๋ธ ์—†์ด ์ •์ฑ…์„ ํ•™์Šตํ•˜์ง€๋งŒ ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๊ณ  ์‹œ๋ฎฌ๋ ˆ์ด์…˜-์‹ค์ œ ์ „์ด(sim-to-real) ์–ด๋ ค์›€์ด ์žˆ๋‹ค. ๋˜ํ•œ ์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ฐฉํ•™์Šต(imitation learning) ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ•์ ๋˜๋ฉด์„œ ๊ด€์ฐฐ(observation)์—์„œ ํ–‰๋™(action) ๋งคํ•‘์„ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ์‹œ๋„๊ฐ€ ํ™œ๋ฐœํ•˜์ง€๋งŒ, ์ด๋Š” ๊ด€์ฐฐ์— ๋Œ€ํ•œ ์‚ฌํ›„ ๋ถ„ํฌ(posterior)๋ฅผ ํ•™์Šตํ•˜๋Š” ์ ‘๊ทผ์ด๋‹ค. VQ-ACE๋Š” ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์˜ ์ค‘๊ฐ„์ž์  ์ ‘๊ทผ์œผ๋กœ, ๋ชจ๋ฐฉํ•™์Šต๊ณผ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์ด์ง€๋งŒ ํ–‰๋™์˜ ์‚ฌ์ „ ๋ถ„ํฌ(prior)๋งŒ์„ ๋ชจ๋ธ๋งํ•˜์—ฌ, MPC์™€ RL ํƒ์ƒ‰์—์„œ ์œ ์šฉํ•œ ๊ฐ€์ด๋˜์Šค(prior)๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

2. ์ฃผ์š” ๊ธฐ์—ฌ์  ์š”์•ฝ

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ €์ž๋“ค์ด ์ œ์‹œํ•œ ์ฃผ์š” ๊ธฐ์—ฌ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: - VQ-ACE ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์•ˆ: ์ธ๊ฐ„ ์†์˜ ํ–‰๋™ ์ฒญํฌ(action chunk) ์‹œํ€€์Šค๋ฅผ ๋ฒกํ„ฐ ์–‘์žํ™”๋œ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ์ž„๋ฒ ๋”ฉํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ณ ์•ˆํ–ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 11 ์ž์œ ๋„ ๋กœ๋ด‡ ์†์— ๋Œ€ํ•ด 1์ดˆ(50 ํƒ€์ž„์Šคํ…) ๊ธธ์ด์˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ 5๊ฐœ์˜ ๋””์Šคํฌ๋ฆฌํŠธํ•œ ์ž ์žฌ ํ† ํฐ์œผ๋กœ ์••์ถ•ํ•  ์ˆ˜ ์žˆ๋‹ค. - ์ž ์žฌ ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง MPC ์ œ์•ˆ: VQ-ACE๋กœ ํ•™์Šต๋œ ์ž ์žฌ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ, ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ MPC๋ฅผ ์ž ์žฌ ๊ณต๊ฐ„ ์œ„์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ํƒ์ƒ‰ ๊ณต๊ฐ„์„ ์ธ๊ฐ„ ์† ํ–‰๋™์˜ ์‚ฌ์ „ ๋ถ„ํฌ๋กœ ์ œํ•œํ•˜์—ฌ ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ์กฐ์ž‘ ํ–‰๋™์„ ์ƒ์„ฑํ•œ๋‹ค. - ์•ก์…˜ ์ฒญํ‚น ๊ฐ•ํ™”ํ•™์Šต ์ œ์•ˆ: RL ์ •์ฑ…์— ํ–‰๋™ ์ฒญํฌ ๋‹จ์œ„๋ฅผ ๋„์ž…ํ•˜์—ฌ, ์—์ด์ „ํŠธ๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™ ์ฒญํฌ๋ฅผ ์„ ํƒํ•˜๊ณ  ๋‚˜๋จธ์ง€๋ฅผ ์ž”์ฐจ(residual)๋กœ ์ˆ˜์ •ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ ํƒ์ƒ‰ ํšจ์œจ์„ ๋†’์˜€๋‹ค.

์ด๋Ÿฌํ•œ ๊ธฐ์—ฌ๋ฅผ ํ†ตํ•ด ์ €์ž๋“ค์€ ๋ณต์žกํ•œ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ๋„ ํ•™์Šต ์†๋„์™€ ํƒ์ƒ‰ ํšจ์œจ์„ ๊ฐœ์„ ํ•˜๊ณ , ๋”์šฑ ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฌ์šด ์กฐ์ž‘์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€๋‹ค.

3. ๋ฐฉ๋ฒ•๋ก 

3.1 ํ–‰๋™ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ „์ฒ˜๋ฆฌ

VQ-ACE์˜ ํ•™์Šต์„ ์œ„ํ•ด, ์ €์ž๋“ค์€ ๋ชจ์…˜ ์บก์ฒ˜ ์žฅ๊ฐ‘์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธ๊ฐ„ ์†์˜ ๋‹ค์–‘ํ•œ ์ผ์ƒ ๋™์ž‘ ์‹œํ€€์Šค๋ฅผ ํš๋“ํ–ˆ๋‹ค. ํš๋“๋œ ๋ฐ์ดํ„ฐ๋Š” 50 Hz๋กœ ๊ธฐ๋ก๋œ ์•ฝ 54๋ถ„ ๋ถ„๋Ÿ‰์ด๋ฉฐ, ์ผ์ƒ ๋ฌผ์ฒด ์กฐ์ž‘, ์ผ€์ด๋ธ” ๋ฌถ๊ธฐ, ์ˆ˜ํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํฌํ•จํ•œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋กœ๋ด‡ ํ•ธ๋“œ์— ๋งž์ถ”์–ด ํ‚ค๋„ค๋งˆํ‹ฑ ๋ฆฌํƒ€๊ฒŒํŒ…(kinematic retargeting) ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•จ์œผ๋กœ์จ 11 ์ž์œ ๋„ ๋กœ๋ด‡ ์† ์กฐ์ธํŠธ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ–ˆ๋‹ค.

3.2 VQ-ACE ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ

VQ-ACE๋Š” ๋ฒกํ„ฐ ์–‘์žํ™” ์กฐ๊ฑด๋ถ€ VAE(CVAE) ๊ตฌ์กฐ๋กœ, ์ธ๊ฐ„ ์†์˜ ํ–‰๋™ ์ฒญํฌ๋ฅผ ๊ณ ์ •๋œ ๊ธธ์ด์˜ ์ž ์žฌ ๋ฒกํ„ฐ ์‹œํ€€์Šค๋กœ ์ž„๋ฒ ๋”ฉํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์‹œ๊ฐ„ ๊ตฌ๊ฐ„ [t, t+n]์— ๊ฑธ์นœ ํ–‰๋™ ์‹œํ€€์Šค a_{t:t+n}๋ฅผ, ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ q_t์— ์กฐ๊ฑดํ™”ํ•˜์—ฌ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ธ์ฝ”๋” \varphi(q_t, a_{t:t+n})๋Š” ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์ผ๋ จ์˜ ์—ฐ์† ์ž ์žฌ๋ฒกํ„ฐ z_{k:k+m}๋กœ ์••์ถ•ํ•˜๊ณ , ์ด ๋ฒกํ„ฐ๋“ค์„ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ฝ”๋“œ๋ถ(embedding table)์— ํ• ๋‹นํ•˜์—ฌ ์ด์‚ฐํ™”๋œ ์ž ์žฌ ๋ฒกํ„ฐ z_q๋ฅผ ์–ป๋Š”๋‹ค. ๋””์ฝ”๋” \psi(q_t, z_q)๋Š” ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜์™€ ์–‘์žํ™”๋œ ์ž ์žฌ ๋ฒกํ„ฐ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ์›๋ž˜ ํ–‰๋™ ์‹œํ€€์Šค๋ฅผ ์žฌ๊ตฌ์„ฑํ•œ๋‹ค. ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ๋ชจ๋‘ Transformer ๊ธฐ๋ฐ˜์˜ ์‹œํ€€์Šค ๋ชจ๋ธ๋กœ ๊ตฌํ˜„๋˜๋ฉฐ, ์ž…๋ ฅ์—๋Š” ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” positional token๋“ค์ด ํฌํ•จ๋œ๋‹ค. ๋””์ฝ”๋”์—๋Š” ์ธ๊ณผ์  ๋งˆ์Šคํ‚น(causal mask)์„ ์ ์šฉํ•˜์—ฌ ์‹œ๊ฐ„์ถ• ์ƒ์˜ ์ˆœ์„œ๋ฅผ ๋ณด์žฅํ•œ๋‹ค.

์ด๋•Œ, ์ž ์žฌ ํ† ํฐ์˜ ์‹œ๊ฐ„ ์ธ๋ฑ์Šค k์™€ ์‹ค์ œ ์‹œ์  t์˜ ๋Œ€์‘์€ ๋‹จ์ˆœํžˆ t(k)=k\cdot n/m ํ˜•ํƒœ๋กœ ๋งคํ•‘ํ•œ๋‹ค. ํ•™์Šต ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

์žฌ๊ตฌ์„ฑ ์†์‹ค: \mathcal{L}{recon} = | a - \psi(q_t, z_q) |_1 (์‹ (2)).

์ปค๋ฐ‹ ์†์‹ค: \mathcal{L}{commit} = |\varphi(q_t,a[\cdot]๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ์ „๋‹ฌ์„ ์ฐจ๋‹จํ•˜๋Š” ์—ฐ์‚ฐ์ž์ด๋‹ค. }) - [z_q] |_2^2$ (์‹ (3)), ์—ฌ๊ธฐ์„œ $\mathrm{sg

์ด ์†์‹ค: \mathcal{L} = \mathcal{L}{recon} + \lambda \mathcal{L} (์‹ (4)).

์ด์™€ ๊ฐ™์ด ์†์‹ค์„ ๊ตฌ์„ฑํ•จ์œผ๋กœ์จ, ๋„คํŠธ์›Œํฌ๋Š” ํ–‰๋™ ์‹œํ€€์Šค์˜ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ž ์žฌ ํ‘œํ˜„์˜ ๋ถˆ์—ฐ์†์„ฑ(discreteness)์„ ํ•™์Šตํ•œ๋‹ค. ๋˜ํ•œ ๋ฒกํ„ฐ ์–‘์žํ™” ๋ถ€๋ถ„์€ EMA(Exponential Moving Average) ์—…๋ฐ์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•ˆ์ •ํ™”ํ•˜์˜€๋‹ค.

3.3 ์ž ์žฌ ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง MPC

ํ•™์Šต๋œ VQ-ACE ์ž ์žฌ ๊ณต๊ฐ„์€ MPC์— ํ™œ์šฉ๋œ๋‹ค. ์ „ํ†ต์ ์ธ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ MPC๋Š” ๊ฐ DoF์˜ ์ œ์–ด ์ž…๋ ฅ์„ ๋ถ„ํ•  ์Šคํ”Œ๋ผ์ธ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์ด๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์ตœ์  ํ–‰๋™์„ ์ฐพ๋Š” ๋ฐฉ์‹์ด๋‹ค. VQ-ACE์—์„œ๋Š” ํ–‰๋™์„ ์ง์ ‘ ์ƒ˜ํ”Œ๋งํ•˜์ง€ ์•Š๊ณ , ์ž ์žฌ ๋ฒกํ„ฐ z_{k:k+m}๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์ด๋กœ๋ถ€ํ„ฐ ํ–‰๋™์„ ์ƒ์„ฑํ•œ๋‹ค. ์ œ์–ด ์‹ ํ˜ธ๋Š” ๋””์ฝ”๋”๊ฐ€ ์ƒ์„ฑํ•œ ๊ด€์„ฑ ๋™์ž‘(โ€œnominal actionโ€)๊ณผ ๋ณ„๋„์˜ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ์Šคํ”Œ๋ผ์ธ์˜ ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ˆ˜์‹ (5)๋Š” ์‹œ๊ฐ„ \tilde t์—์„œ์˜ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ, u(\tilde t) = \psi(\tilde t; q_t, z_{k:k+m}) + s(\tilde t; \theta_{\tau:\tau+P}), \quad (5)

๋กœ ํ‘œํ˜„ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ์ž ์žฌ z_{k:k+m}์— ์˜ํ•ด ๋ณต์›๋œ ๊ด€์„ฑ ํ–‰๋™์ด๋ฉฐ, ๋‘ ๋ฒˆ์งธ ํ•ญ s๋Š” ์Šคํ”Œ๋ผ์ธ ํ˜•ํƒœ์˜ ๋…ธ์ด์ฆˆ์ด๋‹ค. MPC๋Š” ์—ฌ๋Ÿฌ ํ›„๋ณด ์ž ์žฌ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•œ ๋’ค ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ ๊ฐ€์žฅ ๋น„์šฉ(J)์ด ๋‚ฎ์€ ๊ณ„ํš์„ ์‹คํ–‰ํ•œ๋‹ค. ๋‹ค์Œ ๋ฐ˜๋ณต์—์„œ๋Š” ์ƒ์œ„ ๊ฒฝ๋กœ(best sequence)์— ์‹œ๊ฐ„์ถ• ์ด๋™(noise shift)์„ ์ ์šฉํ•œ ์ƒˆ๋กœ์šด ์ž ์žฌ ๋ฐ ๋…ธ์ด์ฆˆ ์Šคํ”Œ๋ผ์ธ์„ ๋‹ค์‹œ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค.

์ž ์žฌ ๊ณต๊ฐ„ ์œ„ ์ƒ˜ํ”Œ๋ง์—์„œ๋Š” ์ž ์žฌ ๋ฒกํ„ฐ์˜ ์ผ๋ถ€ ์ฐจ์›์„ ๋ฌด์ž‘์œ„๋กœ ๋Œ€์ฒดํ•จ์œผ๋กœ์จ ๋กœ์ปฌ ํƒ์ƒ‰์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ฆ‰, ํ˜„์žฌ ์ž ์žฌ \zeta_{j}^{(i)}์˜ p ํ™•๋ฅ ๋กœ ์ƒˆ๋กœ์šด ์ฝ”๋“œ๋ถ ์ธ๋ฑ์Šค๋ฅผ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ { (6)์‹ ์ฐธ์กฐ } ์ž ์žฌ๋ฅผ ๊ฐฑ์‹ ํ•œ๋‹ค. ์ด์™€ ํ•จ๊ป˜ ๋…ธ์ด์ฆˆ ์Šคํ”Œ๋ผ์ธ๋„ ์žฌ์„ค์ •ํ•˜์—ฌ ๋” ์„ธ๋ฐ€ํ•œ ์ œ์–ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ, VQ-ACE ์ž ์žฌ ๊ณต๊ฐ„์ด ๊ตฌ์กฐํ™”๋˜์–ด ์žˆ์„์ˆ˜๋ก MPC๊ฐ€ ๋ณด๋‹ค ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์œ ์šฉํ•œ ์ œ์–ด ๊ณ„ํš์„ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

3.4 ์•ก์…˜ ์ฒญํ‚น ๊ฐ•ํ™”ํ•™์Šต

VQ-ACE๋Š” ๋‹จ์ˆœํ•œ MPC ์™ธ์—๋„ RL ์ •์ฑ… ํ•™์Šต์—๋„ ์‚ฌ์šฉ๋œ๋‹ค. RL ๊ด€์ ์—์„œ ํ–‰๋™ ์ฒญํฌ(action chunk)๋Š” ์ผ๋ฐ˜์ ์ธ Markov ๊ฒฐ์ • ๊ณผ์ •(MDP)์—์„œ ์‹œ๊ฐ„ ๋‹จ๊ณ„๊ฐ€ ๊ธด ํ˜•ํƒœ์˜ ํ–‰๋™์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ •์ฑ…์ด ๋งค ์‹œ๊ฐ„๋งˆ๋‹ค ์ฒญํฌ๋ฅผ ์„ ํƒํ•˜์ง€ ์•Š๊ณ , ์ผ์ • ๊ธฐ๊ฐ„ ๋™์•ˆ ์ฒญํฌ๋ฅผ ์œ ์ง€ํ•˜๋˜ ๋งค ์Šคํ…๋งˆ๋‹ค ์ž‘๋™ ์ž”์ฐจ(residual)๋ฅผ ์ถ”๊ฐ€๋กœ ๊ฒฐ์ •ํ•˜๋„๋ก ์ƒํƒœ์™€ ํ–‰๋™ ๊ณต๊ฐ„์„ ํ™•์žฅํ–ˆ๋‹ค. ์ˆ˜์‹(8)-(11)๋Š” ์ฒญํฌ ์„ ํƒ(state, action) ๋ณ€์ˆ˜๋ฅผ ๋„์ž…ํ•˜์—ฌ ์‹œ์Šคํ…œ ์ƒํƒœ x, ๋™์ž‘ u๋ฅผ ํ™•์žฅํ•˜๋Š” ๊ณผ์ •์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์‰ฝ๊ฒŒ ์„ค๋ช…ํ•˜๋ฉด, ์—์ด์ „ํŠธ๋Š” ์ •ํ•ด์ง„ ์ฒญํฌ ์ธ๋ฑ์Šค๋“ค์„ ์„ ํƒํ•˜๊ณ , ์‹ค์ œ ์ œ์–ด ์‹ ํ˜ธ๋Š” ๋””์ฝ”๋”๊ฐ€ ์ƒ์„ฑํ•œ ์•ก์…˜ ์ฒญํฌ์™€ ์ •์ฑ…์ด ์ถœ๋ ฅํ•˜๋Š” ์ž”์ฐจ \epsilon_t์˜ ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค (์ˆ˜์‹ (11) ์ฐธ์กฐ). ์ด๋กœ์จ ์ •์ฑ…์€ ๋‹ค์ค‘ ์Šคํ… ํ–‰๋™ ์ฒญํฌ ์ค‘ ํ•˜๋‚˜๋ฅผ ๋Šฅ๋™์ ์œผ๋กœ ์„ ํƒ(Chunk Selection)ํ•˜๋ฉด์„œ ํƒ์ƒ‰์˜ ์ˆ˜์ค€(level-of-action)์„ ํ‚ค์šฐ๊ณ , ์‹คํ–‰ ์ฃผ๊ธฐ๋Š” ์ž”์ฐจ๋ฅผ ํ†ตํ•ด ์„ธ๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

4. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•

์ €์ž๋“ค์€ ๋‘ ๊ฐ€์ง€ ์„ค์ •์—์„œ ๋ฐฉ๋ฒ•์„ ํ‰๊ฐ€ํ–ˆ๋‹ค: ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฐ˜ MPC์™€ ๊ฐ•ํ™”ํ•™์Šต(RL)์ด๋‹ค.

MPC ์‹คํ—˜: 11์ž์œ ๋„ Faive ๋ชจ๋ธ์˜ ๋กœ๋ด‡ ์†์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณต ๊ตด๋ฆฌ๊ธฐ(Ball Rolling)์™€ ๋ฌผ์ฒด ์ง‘๊ธฐ(Object Picking) ๋‘ ๊ณผ์ œ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ๊ณต ๊ตด๋ฆฌ๊ธฐ ๊ณผ์ œ๋Š” ๋กœ๋ด‡ ์†์œผ๋กœ ๊ตฌ๋ฅผ x์ถ• ๋ฐฉํ–ฅ์œผ๋กœ ํšŒ์ „์‹œํ‚ค๋Š” ๊ฒƒ์ด๋ฉฐ, ๋ฌผ์ฒด ์ง‘๊ธฐ ๊ณผ์ œ๋Š” ๋žœ๋ค ์œ„์น˜์˜ ๋ค๋ฒจ ๋ชจ์–‘ ๋ฌผ์ฒด๋ฅผ ์ฅ์–ด์„œ ๋žœ๋ค ๋ชฉํ‘œ ์œ„์น˜์— ์˜ฎ๊ธฐ๋Š” ๊ฒƒ์ด๋‹ค. ์† ์ด์™ธ์— ๋ฌผ์ฒด ์ง‘๊ธฐ ๊ณผ์ œ์—๋Š” 7-DoF Franka ์•”์„ ์ถ”๊ฐ€๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค. MPC๋Š” ๋งค ๋ฐ˜๋ณต๋‹น 1์ดˆ(50 ํƒ€์ž„์Šคํ…) ๊ธธ์ด์˜ ๊ณ„ํš์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์‹ค์ œ ์—ฐ์‚ฐ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ œ์–ด ์ฃผ๊ธฐ๋ฅผ ๊ณ ๋ คํ•˜๊ธฐ ์œ„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์†๋„๋ฅผ ๋™์ผํ•˜๊ฒŒ ์กฐ์ •ํ•ด ๋น„๊ตํ–ˆ๋‹ค. ํ•˜๋“œ์›จ์–ด๋Š” Intel i9 CPU, NVIDIA 4090 GPU๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ์ œ์–ด ๋น„์šฉ(J; ์ž‘์„์ˆ˜๋ก ์ข‹์Œ)๊ณผ ๊ณผ์ œ ์„ฑ๊ณต๋ฅ (๋†’์„์ˆ˜๋ก ์ข‹์Œ)์ด๋ฉฐ, ์—ฌ๋Ÿฌ ๋‚œ์ˆ˜ ์‹œ๋“œ์—์„œ ๋ณต์ˆ˜์˜ ์‹œํ–‰์„ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.

RL ์‹คํ—˜: ํ๋ธŒ ๋ฐฉํ–ฅ ์ „ํ™˜(Cube Reorientation)๊ณผ ํ๋ธŒ ์ ์ธต(Cube Stacking) ๊ณผ์ œ๋ฅผ ์„ค์ •ํ–ˆ๋‹ค. ์ „์ž๋Š” 50mm ํ๋ธŒ๋ฅผ ์† ์•ˆ์—์„œ ๋ชฉํ‘œ ์ž์„ธ๋กœ ๋Œ๋ฆฌ๋Š” ๊ณผ์ œ์ด๊ณ , ํ›„์ž๋Š” ์†์ด ์žฅ์ฐฉ๋œ Franka ๋กœ๋ด‡ ์•”์ด 50mm ํ๋ธŒ๋ฅผ ๋” ํฐ ํ๋ธŒ ์œ„์— ์Œ“๋Š” ๊ณผ์ œ๋‹ค. ๋‘ ๊ณผ์ œ ๋ชจ๋‘ PPO๋ฅผ ์‚ฌ์šฉํ•ด ํ•™์Šตํ–ˆ์œผ๋ฉฐ, ๋™์ผํ•œ ๋น„์šฉ ํ•จ์ˆ˜์™€ ํ™˜๊ฒฝ ์„ค์ •์œผ๋กœ Action Chunked RL๊ณผ ์ผ๋ฐ˜ RL ๋ฐฉ๋ฒ•(๊ธฐ๋ณธ ๋ฐฉ๋ฒ•) ๊ฐ„ ๋น„๊ต๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ์—ฐ์† ์„ฑ๊ณต ํšŸ์ˆ˜์™€ ์„ฑ๊ณต๋ฅ ์ด๋ฉฐ, 4096 ๋ณ‘๋ ฌ ํ™˜๊ฒฝ์„ ํ™œ์šฉํ•ด NVIDIA 4090 GPU์—์„œ ํ•™์Šตํ–ˆ๋‹ค.

๋˜ํ•œ, ์—๋น„์—์ด์…˜(ablation) ์—ฐ๊ตฌ๋กœ ๋‘ ๊ฐ€์ง€ ์š”์†Œ์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ–ˆ๋‹ค: (1) ์กฐ๊ฑด๋ถ€ ์ž…๋ ฅ(Conditioning) โ€“ ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜๋ฅผ ์ธ์ฝ”๋”/๋””์ฝ”๋” ์ž…๋ ฅ์—์„œ ์ œ๊ฑฐํ•˜๋Š” ์‹คํ—˜, (2) ๋ฒกํ„ฐ ์–‘์žํ™” ๋Œ€ ์—ฐ์† ํ‘œํ˜„(VAE ๋Œ€์•ˆ) โ€“ ์ปค๋ฐ‹ ์†์‹ค ๋Œ€์‹  KL ์†์‹ค์„ ์‚ฌ์šฉํ•˜๋Š” ์ผ๋ฐ˜ VAE๋กœ ํ•™์Šต. ์ด๋ฅผ ํ†ตํ•ด VQ-ACE์˜ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ–ˆ๋‹ค.

5. ๊ฒฐ๊ณผ ๋ถ„์„ ๋ฐ ๋…ผ์˜

5.1 MPC ์„ฑ๋Šฅ

์ž ์žฌ ๊ณต๊ฐ„ MPC๋Š” ๋‘ ๊ณผ์ œ ๋ชจ๋‘์—์„œ ๊ธฐ์กด ์ƒ˜ํ”Œ๋ง MPC ๋Œ€๋น„ ๋” ๋‚ฎ์€ ๋น„์šฉ๊ณผ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋ณด์˜€๋‹ค. ๊ทธ๋ฆผ5์˜ ๊ฒฐ๊ณผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, Ball Rolling๊ณผ Object Picking ๊ณผ์ œ์—์„œ VQ-ACE ๊ธฐ๋ฐ˜ latent sampling MPC์˜ ํ‰๊ท  ๋น„์šฉ์ด ๊ธฐ์ค€์„ (spline ๊ธฐ๋ฐ˜)๋ณด๋‹ค ๋‚ฎ๊ณ  ์„ฑ๊ณต๋ฅ ์€ ๋†’์•˜๋‹ค. ํŠนํžˆ ๊ทธ๋ฆผ6์—์„œ ๋ณด๋“ฏ์ด, ์ƒ˜ํ”Œ๋ง ๊ฒฝ๋กœ ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œํ‚ฌ์ˆ˜๋ก ๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ๋น„์šฉ์ด ๊ฐ์†Œํ•˜์ง€๋งŒ, ์ฃผ์–ด์ง„ ์ƒ˜ํ”Œ ์ˆ˜์—์„œ latent MPC์˜ ๋น„์šฉ์ด ํ•ญ์ƒ ๋” ๋‚ฎ๊ฒŒ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 40๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง ์‹œ latent MPC์˜ ๋น„์šฉ(54.2)์€ ๊ธฐ์ค€์„  200๊ฒฝ๋กœ ์ƒ˜ํ”Œ๋ง ์‹œ ๋น„์šฉ(56.0)๊ณผ ์œ ์‚ฌํ•˜์˜€๋‹ค. ์ด๋Š” VQ-ACE๊ฐ€ ์ƒ˜ํ”Œ๋ง ์‹œ ๋” ๊ตฌ์กฐํ™”๋œ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์„ ์ œ๊ณตํ•˜์—ฌ ์ ์€ ์ƒ˜ํ”Œ ์ˆ˜๋กœ๋„ ์šฐ์ˆ˜ํ•œ ๊ณ„ํš์„ ์ฐพ๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ํ•ด์„๋œ๋‹ค.

๋˜ํ•œ ์ •์„ฑ์  ์ด๋ฏธ์ง€(๊ทธ๋ฆผ4 ์ฐธ์กฐ)์—์„œ latent MPC๋Š” ๋ชจ๋“  ์†๊ฐ€๋ฝ์ด ์ ‘์ด‰์„ ์œ ์ง€ํ•˜๋ฉฐ ๊ณต์„ ๊ตฌ๋ฅด๋Š” ๋“ฑ ๋” ์ธ๊ฐ„์ ์ธ ๋™์ž‘์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ธฐ์ค€ ์ƒ˜ํ”Œ๋ง MPC๋Š” ๊ณต ์ œ์–ด์— ์ง‘์ค‘ํ•˜์—ฌ ์†๊ฐ€๋ฝ ์ ‘์ด‰์ด ์‚ฐ๋ฐœ์ ์ด์—ˆ๋‹ค. ๊ฐ์ฒด ์ง‘๊ธฐ ๊ณผ์ œ์—์„œ๋Š” latent MPC๊ฐ€ 6์ดˆ์— ๊ฐ์ฒด๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์žก๊ณ  8์ดˆ์— ๋“ค์–ด์˜ฌ๋ ค ๊ณผ์ œ๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋‚˜, ๊ธฐ์ค€์„  ๋ฐฉ๋ฒ•์€ ๋ชฉํ‘œ ๋ถ€๊ทผ์—์„œ ์ง‘๊ธฐ ์‹œ๋„์— ์‹คํŒจํ–ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ์ž ์žฌ ํ‘œํ˜„์˜ ๋„์ž…์ด ๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฌ์šด ์กฐ์ž‘์„ ์œ ๋„ํ•จ์„ ํ™•์ธํ–ˆ๋‹ค.

5.2 RL ์„ฑ๋Šฅ

์•ก์…˜ ์ฒญํ‚น ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋„ VQ-ACE ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ์ˆ˜๋ ด ์†๋„์™€ ์ตœ์ข… ์„ฑ๋Šฅ์—์„œ ์šฐ์œ„๋ฅผ ๋ณด์˜€๋‹ค. ํ๋ธŒ ๋ฐฉํ–ฅ ์ „ํ™˜ ๊ณผ์ œ์—์„œ Action Chunked RL์€ ํ•™์Šต ์ดˆ๊ธฐ๋ถ€ํ„ฐ ๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ์„ฑ๊ณต๋ฅ ์„ ๋†’์˜€๊ณ , ์ตœ์ข…์ ์œผ๋กœ ๋” ๋†’์€ ์„ฑ๊ณต๋ฅ ์— ๋„๋‹ฌํ–ˆ๋‹ค. ํ๋ธŒ ์ ์ธต ๊ณผ์ œ์—์„œ๋Š” ๊ธฐ์ค€ ๋ฐฉ์‹์ด ํšจ๊ณผ์ ์ธ ์ •์ฑ…์„ ์ฐพ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๋ฐ˜๋ฉด, Action Chunked RL์€ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์—ฌ ๋†’์€ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. (๊ทธ๋ฆผ7 ์ฐธ์กฐ) ๋‘ ๊ณผ์ œ์—์„œ ๋ชจ๋‘ VQ-ACE ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๋ฌด์ž‘์œ„ ํƒ์ƒ‰ ๋Œ€๋น„ ์˜๋ฏธ ์žˆ๋Š” ํ–‰๋™ ์‚ฌ์ „(prior)์„ ํƒ์ƒ‰ํ•จ์œผ๋กœ์จ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

5.3 ๊ตฌ์„ฑ ์š”์†Œ ๊ฒ€์ฆ (Ablation)

์กฐ๊ฑด๋ถ€ ์ž…๋ ฅ์˜ ํšจ๊ณผ: ์ธ์ฝ”๋”/๋””์ฝ”๋” ์ž…๋ ฅ์—์„œ ํ˜„์žฌ ๊ด€์ ˆ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ œ๊ฑฐํ•˜๋ฉด, ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์žฌ๊ตฌ์„ฑ L1 ์˜ค์ฐจ๊ฐ€ 0.05์—์„œ 0.07๋กœ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ์ฆ‰, ์กฐ๊ฑด๋ถ€ ์ž…๋ ฅ์ด ์žฌ๊ตฌ์„ฑ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. MPC ๊ณผ์ œ ์„ฑ๋Šฅ์—์„œ๋„ ์ด ํšจ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ๋‹ค. ๊ทธ๋ฆผ5์—์„œ ์กฐ๊ฑด๋ถ€ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ๋ชจ๋ธ์€ Ball Rolling ๊ณผ์ œ์—์„œ ๋น„์šฉ์ด ํฌ๊ฒŒ ์ƒ์Šนํ–ˆ๋‹ค. ๋‹จ, Object Picking ๊ณผ์ œ์—์„œ๋Š” ๋น„์กฐ๊ฑด๋ถ€ ๋ชจ๋ธ์ด ์•ฝ๊ฐ„ ์œ ๋ฆฌํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์ด ๊ณผ์ œ๊ฐ€ ์†์˜ ์ •์  ์ž์„ธ ์ธ์ฝ”๋”ฉ์— ์ง‘์ค‘๋˜์–ด ์ƒ๋Œ€์ ์œผ๋กœ ์กฐ๊ฑด ์ •๋ณด์˜ ์ค‘์š”๋„๊ฐ€ ๋‚ฎ์•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋ฒกํ„ฐ ์–‘์žํ™”์˜ ํšจ๊ณผ: ๋ฒกํ„ฐ ์–‘์žํ™”๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ์ผ๋ฐ˜ VAE ๊ตฌ์กฐ๋กœ ํ•™์Šตํ•˜๋ฉด ์žฌ๊ตฌ์„ฑ ์†์‹ค์€ 0.028๋กœ ๋” ๋‚ฎ์•„์กŒ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ MPC ์„ฑ๋Šฅ์—์„œ๋Š” ์–‘์žํ™”๋œ ๋ชจ๋ธ๋ณด๋‹ค ์—ด์•…ํ•˜์˜€๋‹ค. ๊ทธ๋ฆผ5์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, VAE ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๋‘ ๊ณผ์ œ ๋ชจ๋‘ ๋น„์šฉ์ด ๋†’์•„ ํŠนํžˆ Ball Rolling์—์„œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ์ €ํ•˜๋˜์—ˆ๋‹ค. ์ด๋Š” ์–‘์žํ™”๋œ ์ž ์žฌ๊ฐ€ ๋‹ค์ค‘๋ชจ๋“œ(action distribution)์˜ ํ‘œํ˜„์— ๊ฐ•ํ•˜๋ฉฐ, ์—ฐ์†์  ํ‘œํ˜„๋ณด๋‹ค ๊ณผ์ ํ•ฉ์— ๋œ ์ทจ์•ฝํ•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ณด์ธ๋‹ค.

์ด์ƒ์˜ ๊ฒฐ๊ณผ๋กœ ๋ฏธ๋ฃจ์–ด, VQ-ACE์˜ ์กฐ๊ฑด๋ถ€ CVAE ๊ตฌ์กฐ์™€ ์–‘์žํ™”๋œ ํ‘œํ˜„ ๋ชจ๋‘๊ฐ€ ์กฐ์ž‘ ๊ณผ์ œ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ ์ธ๊ฐ„ ๋™์ž‘์˜ ๋‹ค์ค‘์„ฑ(multimodality)์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด์‚ฐ์ ์ธ ์ž ์žฌ ํ‘œํ˜„์ด ์œ ๋ฆฌํ–ˆ๋‹ค.

6. ๊ธฐ์กด ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

VQ-ACE๋Š” ๊ธฐ์กด์˜ ๋ชจ๋ฐฉํ•™์Šต, ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ œ์–ด, RL ๋“ฑ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ฉยทํ™•์žฅํ•˜๋Š” ์„ฑ๊ฒฉ์„ ๊ฐ€์ง„๋‹ค. ์ „ํ†ต์ ์ธ ๋ชจ๋ฐฉํ•™์Šต(imitation learning) ๋ฐฉ๋ฒ•๋“ค์€ ๊ด€์ฐฐ์— ๋Œ€ํ•œ ํ–‰๋™์˜ ์‚ฌํ›„ ๋ถ„ํฌ p(a|o)๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ˜๋ฉด, VQ-ACE๋Š” ํ–‰๋™ ๊ทธ ์ž์ฒด์˜ ์‚ฌ์ „ ๋ถ„ํฌ p(a)๋ฅผ ๋ชจ๋ธ๋งํ•œ๋‹ค. ์ด๋Š” MPC์˜ ๋น„์šฉ ์ตœ์ ํ™”๋‚˜ RL์˜ ํƒ์ƒ‰ ์ง€์ ์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, VQ-ACE๋Š” ํ•™์Šต๋œ ํ–‰๋™ ์‚ฌ์ „์„ ํ†ตํ•ด ์ถ”์ •์  ๋ฌธ์ œ์™€ ํ•™์Šต ๋ฌธ์ œ๋ฅผ ๋ชจ๋‘ ๋•๋Š” ์ค‘๊ฐ„์  ์ ‘๊ทผ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋˜ํ•œ ํ–‰๋™ ํ‘œํ˜„ ๊ด€์ ์—์„œ ๋ณด๋ฉด, ์ตœ๊ทผ Lee et al.[40โ€ 21]์ด ์ œ์•ˆํ•œ Residual VAE ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ์—ฐ์†์ ์ธ ์ž ์žฌ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋น„์กฐ๊ฑด๋ถ€(VAE) ๊ตฌ์กฐ์˜€๋‹ค. ์ด์— ๋น„ํ•ด VQ-ACE๋Š” ์กฐ๊ฑด๋ถ€ Transformer ๊ธฐ๋ฐ˜ VAE ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ˜„์žฌ ๋กœ๋ด‡ ์† ์ž์„ธ(q_t)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ์žฌ๊ตฌ์„ฑ ์ •ํ™•๋„๋ฅผ ๋†’์˜€๋‹ค. ๋ฒกํ„ฐ ์–‘์žํ™”๋ฅผ ๋„์ž…ํ•˜์—ฌ ์ž ์žฌ ๊ณต๊ฐ„์„ ์ด์‚ฐํ™”ํ•œ ์ ๋„ ์ฐจ๋ณ„์ ์ด๋‹ค. ์„ ํ–‰ ์—ฐ๊ตฌ(Shafiullah ๋“ฑ)๋Š” k-ํ‰๊ท ์„ ์‚ฌ์šฉํ•ด ํ–‰๋™์„ ์ด์‚ฐํ™”ํ–ˆ์ง€๋งŒ, VQ-ACE๋Š” ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ์ฝ”๋“œ๋ถ์„ ํ•™์Šตํ•˜์—ฌ ๋” ํšจ์œจ์ ์ด๊ณ  ํ‘œํ˜„๋ ฅ์ด ๋†’์€ ์ด์‚ฐ ์ž ์žฌ๋ฅผ ์–ป์—ˆ๋‹ค.

์ข…ํ•ฉํ•˜๋ฉด, VQ-ACE๋Š” ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์ด ํ•œ๊ณ„๋กœ ์‚ผ์•˜๋˜ ๊ณ ์ฐจ์› ํ–‰๋™ ๊ณต๊ฐ„์˜ ํƒ์ƒ‰ ์–ด๋ ค์›€์„ ์ธ๊ฐ„ ํ–‰๋™ ์‚ฌ์ „ ์ง€์‹์„ ํ†ตํ•œ ์••์ถ•์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜๊ณผ RL์˜ ์žฅ์ ์„ ๋ชจ๋‘ ์‚ด๋ฆฌ๋Š” ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ์—์„œ๋„ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํšจ๊ณผ์ ์ž„์„ ๋ณด์˜€๋‹ค.

7. ํ•œ๊ณ„์  ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

๋…ผ๋ฌธ์—์„œ ์ œ์‹œ๋œ ํ•œ๊ณ„์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค: ์ฒซ์งธ, VQ-ACE๋Š” ํŠน์ • ๋กœ๋ด‡ ์† ํ”Œ๋žซํผ์— ๋งž์ถฐ ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ํ˜„์žฌ ๊ตฌํ˜„์€ ์ •ํ•ด์ง„ ๊ตฌ๋™ ๊ตฌ์กฐ(์˜ˆ: 11 DoF Faive ์†)์— ์ข…์†์ ์ด๋‹ค. ์ฆ‰, ์ธ์ฝ”๋”/๋””์ฝ”๋”๊ฐ€ ์˜ˆ์ธกํ•˜๋Š” ํ–‰๋™ ์‹œํ€€์Šค๋Š” ํ•™์Šตํ•  ๋•Œ ์‚ฌ์šฉ๋œ ๋กœ๋ด‡์˜ ๊ด€์ ˆ ํ‘œํ˜„์— ์ข…์†๋˜๋ฏ€๋กœ, ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ์†์ด๋‚˜ ๋กœ๋ด‡์— ๋ฐ”๋กœ ์ผ๋ฐ˜ํ™”ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ๋‘˜์งธ, ๋ณธ ์ ‘๊ทผ์€ ์ฃผ๋กœ ํ”ผ๋“œํฌ์›Œ๋“œ ๋™์ž‘์— ์ง‘์ค‘ํ•˜๋ฉฐ, ์™ธ๋ถ€ ๊ฐ์ง€ ํ”ผ๋“œ๋ฐฑ์„ ๋ณ„๋„์˜ ์ œ์–ด๊ธฐ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค. ์ด๋กœ ์ธํ•ด ๋Œ๋ฐœ์ ์ธ ๋ณ€ํ™”์— ๋Œ€ํ•œ ์ ์‘๋ ฅ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์…‹์งธ, ์‚ฌ์šฉ๋œ ์ธ๊ฐ„ ๋™์ž‘ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ทœ๋ชจ๊ฐ€ ๋น„๊ต์  ์ž‘๋‹ค. ํ˜„์žฌ 54๋ถ„ ๋ถ„๋Ÿ‰์˜ ์ž์ฒด ์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ๋กœ๋„ ์œ ์˜๋ฏธํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์ง€๋งŒ, ๋” ๋Œ€๊ทœ๋ชจ์˜ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋ฉด ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์œผ๋กœ ์ €์ž๋“ค์€ ํ™•์žฅ์„ฑ๊ณผ ์‘์šฉ ๋ฒ”์œ„ ํ™•๋Œ€๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ฒซ์งธ, ๋” ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ํ•ธ๋“œ ๋ฐ ์ „์‹  ๋กœ๋ด‡(humanoid) ๋“ฑ์œผ๋กœ VQ-ACE๋ฅผ ์ ์šฉํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ฐ„ ํ–‰๋ณด ์กฐ์ž‘(legged locomotion)์—๋„ ์ด์™€ ์œ ์‚ฌํ•œ ๋ฒกํ„ฐ ์–‘์žํ™” ๊ธฐ๋ฒ•์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋‘˜์งธ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฒ€์ฆ๋œ ๋ฐฉ๋ฒ•์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ์ด์ „ํ•˜๋Š” ์—ฐ๊ตฌ(์‹œ๋ฎฌ-์‹ค์ œ ๊ฐญ ํ•ด์†Œ)๋ฅผ ๊ฐ•ํ™”ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹(์˜ˆ: FreiHAND, DexYCB ๋“ฑ)๊ณผ ๊ณ ํ•ด์ƒ๋„ ์† ๊ด€์ธก ๊ธฐ์ˆ ์„ ๊ฒฐํ•ฉํ•˜๋ฉด, ๋ณด๋‹ค ์ •๊ตํ•˜๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ VQ-ACE ํ•™์Šต์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, VQ-ACE์™€ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ ์ •์ฑ… ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ(์˜ˆ: ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต, hierarchical RL ๋“ฑ)๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ๋”์šฑ ๋ณต์žกํ•œ ์ž‘์—…์—๋„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ง€๋Šฅ์ ์ธ ์ œ์–ด ์ฒด๊ณ„๋ฅผ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋‹ค.

Copyright 2024, Jung Yeon Lee