Curieux.JY
  • JungYeon Lee
  • Post
  • Projects
  • Note

On this page

  • ๐Ÿ” Ping Review
  • ๐Ÿ”” Ring Review
    • 1. ์„œ๋ก : ์™œ ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ์ด ์ค‘์š”ํ•œ๊ฐ€?
    • 2. ์ด๋ก ์  ๋ฐฐ๊ฒฝ: ๊ธฐํ•˜ํ•™์„ ๋„คํŠธ์›Œํฌ์— ๋‹ด๋‹ค
    • 3. HEPi: ์ด์ข… ๋“ฑ๋ณ€ ์ •์ฑ…์˜ ์„ค๊ณ„
    • 4. ๋ฒค์น˜๋งˆํฌ: 7๊ฐ€์ง€ ๋„์ „์  ํƒœ์Šคํฌ
    • 5. ์‹คํ—˜ ๊ฒฐ๊ณผ: ๋“ฑ๋ณ€์„ฑ๊ณผ ์ด์ข…์„ฑ์˜ ํž˜
    • 6. ๋น„ํŒ์  ๊ณ ์ฐฐ
    • 7. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต
    • 8. ์‹ค๋ฌด์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 
    • 9. ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 
  • โ›๏ธ Dig Review
    • ์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ
    • ๋ฐฉ๋ฒ•: ๊ธฐํ•˜ํ•™ ์ธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ HEPi ๊ตฌ์กฐ ๋ถ„์„
      • ์ด์ข… ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•œ ์ƒํƒœ ํ‘œํ˜„
      • SE(3) ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์‹ ๊ฒฝ๋ง (EMPN)
      • HEPi ์ •์ฑ… ๊ตฌ์กฐ: ์ด์งˆ์„ฑ ํ™œ์šฉ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ
      • ์•ˆ์ •์ ์ธ RL ํ•™์Šต: ์‹ ๋ขฐ ์˜์—ญ ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ
    • ์‹คํ—˜: ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„
      • ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ ์„ค๊ณ„
      • ๋น„๊ต ๋Œ€์ƒ (Baselines)
      • ์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ
    • ๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ , ์•ฝ์ ๊ณผ ํ–ฅํ›„ ๋ฐฉํ–ฅ
    • ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๐Ÿ“ƒHEPi ๋ฆฌ๋ทฐ

deformable
rl
graph
Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects
Published

January 26, 2026

๐Ÿ” Ping. ๐Ÿ”” Ring. โ›๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.

  • Paper Link
  • Project
  • Code
  1. ๐Ÿ‘‰ ๋กœ๋ด‡ ์กฐ์ž‘, ํŠนํžˆ ๋‹ค์–‘ํ•œ ํ˜•์ƒ ๋ฐ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ๊ฐ์ฒด ์กฐ์ž‘์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋ฅผ heterogeneous graph๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ  SE(3) equivariant message passing networks๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
  2. โœจ ์ œ์•ˆํ•˜๋Š” HEPi (Heterogeneous Equivariant Policy)๋Š” EMPN ๋ฐฑ๋ณธ์„ ํ†ตํ•ด ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ์„ ํ™œ์šฉํ•˜๋ฉฐ, ๋ช…์‹œ์ ์ธ ์ด์งˆ์„ฑ(heterogeneity) ๋ชจ๋ธ๋ง๊ณผ TRPL์„ ์‚ฌ์šฉํ•œ ์•ˆ์ •์ ์ธ ํ•™์Šต์„ ํŠน์ง•์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  3. ๐Ÿ† ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ํƒœ์Šคํฌ์—์„œ HEPi๋Š” Transformer ๋ฐ ๋น„์ด์งˆ์ ์ธ equivariant policies๋ณด๋‹ค ํ‰๊ท  ์ˆ˜์ต, ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ฐ ๋ฏธํ™•์ธ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ” Ping Review

๐Ÿ” Ping โ€” A light tap on the surface. Get the gist in seconds.

์ด ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ํ˜•์ƒ(varying shapes) ๋ฐ ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ๊ฐ์ฒด(deformable objects)์˜ ์กฐ์ž‘(manipulation) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ GEOMETRY-AWARE RL FOR MANIPULATION OF VARYING SHAPES AND DEFORMABLE OBJECTS ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ๋‹ค์–‘ํ•œ ๊ธฐํ•˜ํ•™์  ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง„ ๊ฐ์ฒด๋‚˜ ํ˜•์ƒ์ด ๋ณ€ํ•˜๋Š” ๊ฐ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์€ ์ •๋ฐ€ํ•œ ์ œ์–ด์™€ ๋ณต์žกํ•œ ๋™์—ญํ•™ ๋ชจ๋ธ๋ง์„ ์š”๊ตฌํ•˜๋Š” ์ฃผ์š” ๋‚œ์ œ์ž…๋‹ˆ๋‹ค.

๋ฌธ์ œ ์ •์˜ ๋ฐ ์ ‘๊ทผ ๋ฐฉ์‹:

๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ํ–‰์œ„์ž(actuator)์™€ ๊ฐ์ฒด(object) ๊ฐ™์€ ๋” ์ž‘์€ sub-graph์™€ ์ƒํ˜ธ์ž‘์šฉ์„ ์„ค๋ช…ํ•˜๋Š” ๋‹ค๋ฅธ edge type๋“ค๋กœ ๊ตฌ์„ฑ๋œ heterogeneous graph์˜ ๊ด€์ ์—์„œ ์žฌ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ graph representation์€ ๊ฐ•์ฒด(rigid) ๋ฐ ๋ณ€ํ˜•์ฒด(deformable objects) ์ž‘์—… ๋ชจ๋‘์— ๋Œ€ํ•œ ํ†ต์ผ๋œ ๊ตฌ์กฐ๋กœ ์ž‘์šฉํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ํ–‰์œ„์ž๋ฅผ ํฌํ•จํ•˜๋Š” ์ž‘์—…์œผ๋กœ๋„ ํ™•์žฅ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋†’์€ ์ฐจ์›์˜ ๊ด€์ธก ๋ฐ ํ–‰๋™ ๊ณต๊ฐ„์—์„œ ์ƒˆ๋กœ์šด ์ž์„ธ(orientation), ํฌ์ฆˆ(pose), ๊ทธ๋ฆฌ๊ณ  ๋ฏธ์ง€์˜ ํ˜•์ƒ(unseen geometries)์— ๋Œ€ํ•ด ์›ํ™œํ•˜๊ฒŒ ์ผ๋ฐ˜ํ™”๋˜๋Š” ์ •์ฑ…(policy)์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค๋Š” ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์—ฐ๊ตฌ๋Š” SE(3) ๊ณต๊ฐ„์˜ equivariance๋ฅผ ๊ท€๋‚ฉ์  ํŽธํ–ฅ(inductive bias)์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

HEPi (Heterogeneous Equivariant Policy) ๋ฐฉ๋ฒ•๋ก :

HEPi๋Š” ๊ฐ•ํ™” ํ•™์Šต(reinforcement learning) ํ™˜๊ฒฝ์—์„œ ๋ณต์žกํ•œ 3D ์กฐ์ž‘ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ graph-based policy model์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

  1. Equivariant MPN Backbone:
    • ๊ธฐ์กด Message Passing Neural Networks (MPNN)์—์„œ \phi์™€ \psi ํ•จ์ˆ˜์— equivariance๋ฅผ ๊ฐ•์ œํ•˜์—ฌ EMPN์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” steerable geometric features๊ฐ€ group G์˜ ์ž‘์šฉ ์•„๋ž˜ ์ผ๊ด€๋˜๊ฒŒ ๋ณ€ํ™˜๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ณ ์ฐจ์› steerable features๋ฅผ ์œ„ํ•œ ํ•จ์ˆ˜ ๊ตฌ์„ฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ spherical harmonics embeddings, Clebsch-Gordan tensor products, steerable activation functions์„ ์‚ฌ์šฉํ•˜์—ฌ ๋†’์€ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ์„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.
    • ์ด ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” ํšจ์œจ์ ์ธ equivariant message-passing ์ ‘๊ทผ ๋ฐฉ์‹์ธ PONITA framework(Bekkers et al., 2024)๋ฅผ EMPN backbone์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • PONITA๋Š” ์ž…๋ ฅ ๋„๋ฉ”์ธ(X = \mathbb{R}^3)์„ ์œ„์น˜(p \in \mathbb{R}^3)์™€ ์—ฐ๊ด€๋œ ๋ฐฉํ–ฅ(o \in S^2)์„ ํฌํ•จํ•˜๋Š” X^\uparrow = \mathbb{R}^3 \times S^2๋กœ โ€œliftingโ€ํ•˜์—ฌ equivariance๋ฅผ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์Œ ํ˜•ํƒœ์˜ convolutional message-passing update rule์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: f'_v = \int_{\mathbb{R}^3}\int_{S^2}k_\theta ([(p_u, o_u), (p_v, o_v)])f_u dp_u do_u
    • ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ์œ„ํ•ด ์ปค๋„ ํ•จ์ˆ˜ k_\theta๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ถ„ํ•ด๋ฉ๋‹ˆ๋‹ค: k_\theta ([(p_u, o_u), (p_v, o_v)]) = K^{(3)}_\theta k^{(2)}_\theta(o_v^\top o_u) k^{(1)}_\theta(o_v^\top (p_u - p_v), |o_v^\perp (p_u - p_v)|) ์—ฌ๊ธฐ์„œ k^{(1)}์€ ์ƒ๋Œ€ ์œ„์น˜ ๋ฐ ์ˆ˜์ง ์„ฑ๋ถ„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณต๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์„ ์ฒ˜๋ฆฌํ•˜๊ณ , k^{(2)}๋Š” dot product๋ฅผ ํ†ตํ•ด ๋ฐฉํ–ฅ ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ด€๋ฆฌํ•˜๋ฉฐ, K^{(3)}๋Š” features ์ „๋ฐ˜์— ๊ฑธ์ณ channel-wise mixing์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” equivariant ํ•จ์ˆ˜์˜ universal approximation property๋ฅผ ๋ณด์กดํ•˜๋ฉด์„œ๋„ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  2. Heterogeneous Graph Design and Update Rules:
    • ๋กœ๋ด‡ ์กฐ์ž‘์—์„œ ํ–‰์œ„์ž์™€ ๊ฐ์ฒด๋Š” ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ, ๊ทธ๋ž˜ํ”„๋Š” actuator nodes (V_{act})์™€ object nodes (V_{obj})์˜ ๋ถ„๋ฆฌ๋œ ๋…ธ๋“œ ์ง‘ํ•ฉ์œผ๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค.
    • HEPi๋Š” ๋จผ์ € ๊ฐ์ฒด ๋ฐ ํ–‰์œ„์ž ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด์˜ ์ง€์—ญ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•œ ๋‹ค์Œ, ์ง€ํ–ฅ์„ฑ(directed)์˜ ์™„์ „ ์—ฐ๊ฒฐ๋œ(fully-connected) inter-edges๋ฅผ ํ†ตํ•ด ํ–‰์œ„์ž์—๊ฒŒ ๊ธ€๋กœ๋ฒŒํ•˜๊ฒŒ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” object-to-object, actuator-to-actuator, object-to-actuator ์ƒํ˜ธ์ž‘์šฉ์„ ๋ถ„๋ฆฌํ•˜์—ฌ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ์ง€์—ญ ์ฒ˜๋ฆฌ์™€ ๊ธ€๋กœ๋ฒŒ ์ •๋ณด ๊ตํ™˜์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    • ๋…ธ๋“œ ์—…๋ฐ์ดํŠธ ๊ทœ์น™์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค (Eq. 2):
      • ๊ฐ์ฒด ๋…ธ๋“œ ์—…๋ฐ์ดํŠธ (local object-to-object interaction): f^{obj, new}_v = \phi^{obj}\left( f^{obj}_v, \sum_{u \in N(v)^{obj}} k(x^{obj}_u, x^{obj}_v; \theta^{obj-obj})f^{obj}_u \right), v \in V_{obj}
      • ํ–‰์œ„์ž ๋…ธ๋“œ ์—…๋ฐ์ดํŠธ (local actuator-to-actuator interaction): f^{act, new}_v = \phi^{act-local}\left( f^{act}_v, \sum_{w \in N(v)^{act}} k(x^{act}_w, x^{act}_v; \theta^{act-act})f^{act}_w \right), v \in V_{act}
      • ํ–‰์œ„์ž ๋…ธ๋“œ์˜ ์ตœ์ข… ์—…๋ฐ์ดํŠธ (global aggregation from objects): f^{act, final}_v = f^{act, new}_v + \phi^{act-global}\left( f^{act}_v, \sum_{u \in V_{obj}} k(x^{obj}_u, x^{act}_v; \theta^{obj-act})f^{obj, new}_u \right), v \in V_{act}
      • ์—ฌ๊ธฐ์„œ ๊ฐ ์ปค๋„ k(\cdot, \cdot; \theta^{\cdot})์€ ์ž์ฒด ํ•™์Šต ๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ๊ฐ ์ƒํ˜ธ์ž‘์šฉ ์œ ํ˜•์— ํŠนํ™”๋œ ํ•™์Šต ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ ๋…ธ๋“œ v \in V๋Š” ๋…ธ๋“œ ์œ ํ˜•์„ one-hot scalar-vector๋กœ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, normalized position vectors p_v์™€ velocities v_v๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ์ฒด ๋…ธ๋“œ์˜ ๊ฒฝ์šฐ, feature vector๋Š” ๋ชฉํ‘œ๊นŒ์ง€์˜ ์ƒ๋Œ€ ๊ฑฐ๋ฆฌ d_{v,target}๋„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ํ–‰์œ„์ž ๋…ธ๋“œ์˜ ์ถœ๋ ฅ์€ ์Šค์นผ๋ผ c์™€ ๋ฒกํ„ฐ v_{out}์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ์ตœ์ข… ์ถœ๋ ฅ์€ c \cdot v๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  3. Principled Trust-Region Method (TRPL):
    • ํ‘œ์ค€ on-policy ๊ฐ•ํ™” ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์ธ Proximal Policy Optimization (PPO)์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์— ๋ฏผ๊ฐํ•˜๋ฉฐ ๋ถˆ์•ˆ์ •ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, HEPi๋Š” Trust Region Projection Layers (TRPL, Otto et al., 2021)๋ฅผ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค. TRPL์€ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ๋ณผ๋ก ์ตœ์ ํ™”(differentiable convex optimization)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ… ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ trust region ๊ฒฝ๊ณ„๋กœ ํˆฌ์˜ํ•จ์œผ๋กœ์จ ์•ˆ์ •์ ์ธ ์—…๋ฐ์ดํŠธ๋ฅผ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” Gaussian policy์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ(variance) ๋ชจ๋‘๊ฐ€ trust region ์ œ์•ฝ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ก ์  ์ •๋‹นํ™”:

HEPi๋Š” MPNN์— global Virtual Nodes (VNG)๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ์•„์ด๋””์–ด์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ ํ–‰์œ„์ž ๋…ธ๋“œ๋ฅผ VNG๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ ๋ชจ๋“  ๊ฐ์ฒด ๋…ธ๋“œ์™€ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ์ด, k-nearest object nodes์—๋งŒ ์ง€์—ญ์ ์œผ๋กœ ์—ฐ๊ฒฐํ•˜๋Š” MPNN + VNLocal ๋ฐฉ์‹๋ณด๋‹ค ๋” ๊ด€๋ จ์„ฑ ๋†’์€ ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์ด๋ก ์ ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค (Proposition 3.1).

  • Proposition 3.1: MPNN + VNLocal์˜ ๊ฒฝ์šฐ, ๊ฐ์ฒด ๋…ธ๋“œ u์™€ ํ–‰์œ„์ž ๋…ธ๋“œ v๊ฐ€ 2-hop ์ด์ƒ ๋–จ์–ด์ ธ ์žˆ์„ ๋•Œ, Jacobian \partial f^{act}_v / \partial f^{obj}_u๋Š” u์— ๋…๋ฆฝ์ ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, HEPi๋Š” ๋‹จ์ผ layer ์ดํ›„์—๋„ ์–ด๋–ค ํ–‰์œ„์ž-๊ฐ์ฒด ๋…ธ๋“œ ์Œ ๊ฐ„์—๋„ ์ •๋ณด ๊ตํ™˜์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” HEPi์˜ ์—ฐ๊ฒฐ ์„ค๊ณ„๊ฐ€ ๊ฐ์ฒด ๋…ธ๋“œ์˜ ๋ณ€ํ™”์— ๋Œ€ํ•ด ํ–‰์œ„์ž๊ฐ€ ๊ด€๋ จ์„ฑ ์žˆ๋Š” ํ–‰๋™์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •๋ณด๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

๋ฒค์น˜๋งˆํฌ ๋ฐ ์‹คํ—˜:

๋ณธ ์—ฐ๊ตฌ๋Š” NVIDIA IsaacLab์„ ํ™œ์šฉํ•˜์—ฌ ๊ตฌํ˜„๋œ 7๊ฐ€์ง€ ์ƒˆ๋กœ์šด ์กฐ์ž‘ ์ž‘์—… ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์–‘ํ•œ ๊ฐ์ฒด๋“ค์˜ rigid insertion, ๊ทธ๋ฆฌ๊ณ  ์—ฌ๋Ÿฌ end-effectors๋ฅผ ์‚ฌ์šฉํ•œ rope ๋ฐ cloth manipulation์„ ํฌํ•จํ•˜์—ฌ, ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ์˜ ์—ญํ• ์„ ๊ฐ•์กฐํ•˜๊ณ  ๋‚œ์ด๋„๊ฐ€ ์ ์ง„์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, HEPi๋Š” Transformer-based policy ๋ฐ ๋น„-heterogeneous equivariant policy๋ณด๋‹ค ํ‰๊ท  return, sample efficiency, ๊ทธ๋ฆฌ๊ณ  ๋ฏธ์ง€์˜ ๊ฐ์ฒด์— ๋Œ€ํ•œ generalization ์ธก๋ฉด์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ 3D ์กฐ์ž‘ ์ž‘์—…์—์„œ HEPi์˜ equivariance์™€ ๋ช…์‹œ์ ์ธ heterogeneity ๋ชจ๋ธ๋ง์˜ ํ†ตํ•ฉ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ฒฐ์ •์ ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š์•˜์œผ๋ฉฐ, TRPL์ด PPO๋ณด๋‹ค ํ•™์Šต ์•ˆ์ •์„ฑ ์ธก๋ฉด์—์„œ ์šฐ์ˆ˜ํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก :

HEPi๋Š” SE(3) transformation์— ๋Œ€ํ•ด equivariantํ•˜๋„๋ก ์ œ์•ฝ๋œ EMPN backbone์„ ํŠน์ง•์œผ๋กœ ํ•˜๋Š” graph-based policy์ด๋ฉฐ, sample efficiency๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ฐ ์ƒํ˜ธ์ž‘์šฉ ์œ ํ˜•์— ๋Œ€ํ•ด ๋ณ„๊ฐœ์˜ ๋„คํŠธ์›Œํฌ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ• ๋‹นํ•˜์—ฌ heterogeneity๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋ฉฐ, ์ด๋Š” ๋ฉ”์‹œ์ง€ ํ˜ผํ•ฉ(message mixing)์„ ์ค„์ด๊ณ  ํ‘œํ˜„๋ ฅ(expressiveness)์„ ํ–ฅ์ƒ์‹œ์ผœ sub-optimal solution์œผ๋กœ ์ˆ˜๋ ดํ•  ๊ฐ€๋Šฅ์„ฑ์„ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์™€ ํ•จ๊ป˜ HEPi๊ฐ€ ๊ธฐ์กด SOTA ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ, ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ heterogeneous graph๋กœ ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.


๐Ÿ”” Ring Review

๐Ÿ”” Ring โ€” An idea that echoes. Grasp the core and its value.

1. ์„œ๋ก : ์™œ ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ์ด ์ค‘์š”ํ•œ๊ฐ€?

1.1 ๋ฌธ์ œ์˜ ๋ณธ์งˆ

์—ฌ๋Ÿฌ๋ถ„์ด ์ปต์„ ์ง‘์–ด์„œ ์„ ๋ฐ˜์— ์˜ฌ๋ ค๋†“๋Š” ์ƒํ™ฉ์„ ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ์ปต์ด ํ…Œ์ด๋ธ”์˜ ์™ผ์ชฝ์— ์žˆ๋“  ์˜ค๋ฅธ์ชฝ์— ์žˆ๋“ , ํ˜น์€ ํ…Œ์ด๋ธ” ์ „์ฒด๊ฐ€ 90๋„ ํšŒ์ „ํ•ด ์žˆ๋“ , ์—ฌ๋Ÿฌ๋ถ„์€ ๋ณธ์งˆ์ ์œผ๋กœ ๋™์ผํ•œ โ€œ์ง‘์–ด์„œ ๋†“๊ธฐโ€ ๋™์ž‘์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์ง€ ์ขŒํ‘œ๊ณ„๋งŒ ๋ฐ”๋€Œ์—ˆ์„ ๋ฟ์ด์ฃ .

๊ทธ๋Ÿฐ๋ฐ ๋†€๋ž๊ฒŒ๋„, ๋Œ€๋ถ€๋ถ„์˜ ๋กœ๋ด‡ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ๋‹จ์ˆœํ•œ ์‚ฌ์‹ค์„ โ€œ์ดํ•ดโ€ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ์ปต์ด ์™ผ์ชฝ์— ์žˆ์„ ๋•Œ์™€ ์˜ค๋ฅธ์ชฝ์— ์žˆ์„ ๋•Œ๋ฅผ ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ƒํ™ฉ์œผ๋กœ ์ธ์‹ํ•˜๊ณ , ๊ฐ๊ฐ์— ๋Œ€ํ•ด ๋”ฐ๋กœ ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ โ€œ2+3โ€๊ณผ โ€œ3+2โ€๋ฅผ ๋ณ„๊ฐœ์˜ ๋ฌธ์ œ๋กœ ์•”๊ธฐํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ฃ .

์ด๊ฒƒ์ด ๋ฐ”๋กœ ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ(geometric symmetry)์˜ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. 3D ๊ณต๊ฐ„์—์„œ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ ํšŒ์ „(rotation)๊ณผ ๋ณ‘์ง„(translation)์— ๋Œ€ํ•ด ๋™๋“ฑํ•œ(equivariant) ํŠน์„ฑ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ํ†ต์ฐฐ์€ ์ด๋Ÿฌํ•œ SE(3) ๋Œ€์นญ์„ฑ์„ ์ •์ฑ… ๋„คํŠธ์›Œํฌ์— ๋ช…์‹œ์ ์œผ๋กœ ๋‚ด์žฅํ•˜๋ฉด, ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๊ทน์ ์œผ๋กœ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

1.2 ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•์˜ ํ•œ๊ณ„

์ ‘๊ทผ๋ฒ• ํŠน์ง• ํ•œ๊ณ„
MLP ๊ธฐ๋ฐ˜ ์ •์ฑ… ๋ฒ”์šฉ์ , ๊ฐ„๋‹จ ๋Œ€์นญ์„ฑ ๋ฌด์‹œ, ๋‚ฎ์€ ์ƒ˜ํ”Œ ํšจ์œจ
Transformer ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„๋ ฅ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ ๋ฌด์‹œ, ๊ณผ์ ํ•ฉ ์œ„ํ—˜
์ผ๋ฐ˜ GNN ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ ํ™œ์šฉ 3D ๊ธฐํ•˜ํ•™์  ๋“ฑ๋ณ€์„ฑ ๋ถ€์žฌ
์ˆœ์ˆ˜ EMPN SE(3) ๋“ฑ๋ณ€์„ฑ ์ด์ข… ๊ตฌ์กฐ(actuator/object) ๋ฌด์‹œ

๊ธฐ์กด์˜ ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…๋“ค์€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋Œ€๋ถ€๋ถ„์˜ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ขŒํ‘œ ๋ณ€ํ™˜์— ๋Œ€ํ•œ ๋Œ€์นญ์„ฑ์„ ๋ฌด์‹œํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ์˜ ์ด์ข…์ (heterogeneous) ํŠน์„ฑโ€”์•ก์ถ”์—์ดํ„ฐ์™€ ๋ฌผ์ฒด๊ฐ€ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅธ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ์ โ€”์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

1.3 HEPi์˜ ํ•ต์‹ฌ ๊ธฐ์—ฌ

์ด ๋…ผ๋ฌธ์€ Heterogeneous Equivariant Policy (HEPi)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋ฅผ ํ•œ ๋ฌธ์žฅ์œผ๋กœ ์š”์•ฝํ•˜๋ฉด:

โ€œ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๊ณ , SE(3) ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ์œผ๋กœ ์ •์ฑ…์„ ํ•™์Šตํ•˜๋ฉด, ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ๊ณผ ์—ญํ• ์˜ ์ด์ข…์„ฑ์„ ๋™์‹œ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.โ€

flowchart LR
    subgraph ์ž…๋ ฅ["๐ŸŽฏ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ"]
        A[์•ก์ถ”์—์ดํ„ฐ ์ƒํƒœ]
        O[๋ฌผ์ฒด ์ƒํƒœ]
        T[๋ชฉํ‘œ ์œ„์น˜]
    end
    
    subgraph HEPi["โš™๏ธ HEPi ์ •์ฑ…"]
        direction TB
        G[์ด์ข… ๊ทธ๋ž˜ํ”„ ๊ตฌ์„ฑ]
        E[SE3 ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ]
        H[์ด์ข… ์—…๋ฐ์ดํŠธ ๊ทœ์น™]
    end
    
    subgraph ์ถœ๋ ฅ["๐Ÿค– ์•ก์…˜"]
        Act[๋“ฑ๋ณ€ ์•ก์…˜ ์ƒ์„ฑ]
    end
    
    ์ž…๋ ฅ --> HEPi --> ์ถœ๋ ฅ
    
    style HEPi fill:#e1f5fe
    style Act fill:#c8e6c9

HEPi์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด: ์ด์ข… ๊ทธ๋ž˜ํ”„ + SE(3) ๋“ฑ๋ณ€์„ฑ


2. ์ด๋ก ์  ๋ฐฐ๊ฒฝ: ๊ธฐํ•˜ํ•™์„ ๋„คํŠธ์›Œํฌ์— ๋‹ด๋‹ค

2.1 SE(3) ๋“ฑ๋ณ€์„ฑ์ด๋ž€?

SE(3)๋Š” Special Euclidean group in 3D์˜ ์•ฝ์ž๋กœ, 3์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ ๋ชจ๋“  ๊ฐ•์ฒด ๋ณ€ํ™˜(rigid transformation)โ€”ํšŒ์ „๊ณผ ๋ณ‘์ง„โ€”์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ตฐ(group)์ž…๋‹ˆ๋‹ค.

NoteํŒŒ์ธ๋งŒ ์Šคํƒ€์ผ ์ง๊ด€

๋“ฑ๋ณ€์„ฑ(equivariance)์„ ์ดํ•ดํ•˜๋Š” ๊ฐ€์žฅ ์ข‹์€ ๋ฐฉ๋ฒ•์€ โ€œ๋Œ€์นญ์„ฑ์˜ ๋ณด์กดโ€์œผ๋กœ ์ƒ๊ฐํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์—ฌ๋Ÿฌ๋ถ„์ด ์„ธ๊ณ„์ง€๋„๋ฅผ 90๋„ ๋Œ๋ ค์„œ ๋ณด๋”๋ผ๋„, โ€œ์„œ์šธ์—์„œ ๋„์ฟ„๊นŒ์ง€์˜ ๋น„ํ–‰ ๊ฒฝ๋กœโ€๋Š” ์—ฌ์ „ํžˆ ๊ฐ™์€ ๋ชจ์–‘์ž…๋‹ˆ๋‹คโ€”๋‹จ์ง€ ์ง€๋„ ์œ„์—์„œ ํšŒ์ „ํ–ˆ์„ ๋ฟ์ด์ฃ . ์ˆ˜ํ•™์ ์œผ๋กœ, ํ•จ์ˆ˜ f๊ฐ€ ๋ณ€ํ™˜ g์— ๋Œ€ํ•ด ๋“ฑ๋ณ€์ด๋ผ๋Š” ๊ฒƒ์€:

f(g \cdot x) = g \cdot f(x)

์ฆ‰, โ€œ๋จผ์ € ๋ณ€ํ™˜ํ•˜๊ณ  ํ•จ์ˆ˜๋ฅผ ์ ์šฉโ€ํ•˜๋‚˜ โ€œ๋จผ์ € ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•˜๊ณ  ๋ณ€ํ™˜โ€ํ•˜๋‚˜ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ™๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

๋กœ๋ด‡ ์ •์ฑ… \pi: \mathcal{S} \rightarrow \mathcal{A}๊ฐ€ SE(3) ๋“ฑ๋ณ€์ด๋ผ๋Š” ๊ฒƒ์€, ์ƒํƒœ ๊ณต๊ฐ„์„ ํšŒ์ „/๋ณ‘์ง„์‹œํ‚ค๋ฉด ์ถœ๋ ฅ ์•ก์…˜๋„ ๊ทธ์— ๋งž๊ฒŒ ๋ณ€ํ™˜๋œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค:

\pi(g \cdot s) = g \cdot \pi(s), \quad \forall g \in SE(3)

2.2 Steerable Features์™€ ๊ตฌ๋ฉด ์กฐํ™” ํ•จ์ˆ˜

SE(3) ๋“ฑ๋ณ€ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ํ•ต์‹ฌ ๋„๊ตฌ๋Š” steerable features์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์‹ ๊ฒฝ๋ง์˜ ํŠน์ง• ๋ฒกํ„ฐ๊ฐ€ ์ž„์˜์˜ ์‹ค์ˆ˜ ๋ฒกํ„ฐ์ธ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, steerable features๋Š” ๊ตฐ์˜ ์ž‘์šฉ ์•„๋ž˜ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.

๊ตฌ๋ฉด ์กฐํ™” ํ•จ์ˆ˜(spherical harmonics) Y_l^m์€ ๊ตฌ๋ฉด ์œ„์˜ ์ง๊ต ๊ธฐ์ € ํ•จ์ˆ˜๋กœ, ์ฐจ์ˆ˜(degree) l์— ๋”ฐ๋ผ (2l+1)์ฐจ์›์˜ ํ‘œํ˜„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค:

์ฐจ์ˆ˜ l ์ฐจ์› ๋ฌผ๋ฆฌ์  ํ•ด์„ ์˜ˆ์‹œ
0 1 ์Šค์นผ๋ผ (๋ถˆ๋ณ€) ์—๋„ˆ์ง€, ์งˆ๋Ÿ‰
1 3 ๋ฒกํ„ฐ ์œ„์น˜, ์†๋„, ํž˜
2 5 2์ฐจ ํ…์„œ ๊ด€์„ฑ ํ…์„œ

HEPi์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ตฌ๋ฉด ์กฐํ™” ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐํ•˜ํ•™์  ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€, ์ด๋Ÿฌํ•œ ํ‘œํ˜„๋“ค ์‚ฌ์ด์˜ ์—ฐ์‚ฐ(ํ…์„œ ๊ณฑ ๋“ฑ)์ด Clebsch-Gordan ๊ณ„์ˆ˜๋ฅผ ํ†ตํ•ด ๋“ฑ๋ณ€์„ฑ์„ ๋ณด์กดํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2.3 ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ ๋„คํŠธ์›Œํฌ (EMPN)

ํ‘œ์ค€ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง(GNN)์—์„œ ๊ฐ ๋…ธ๋“œ v๋Š” ์ด์›ƒ ๋…ธ๋“œ๋“ค๋กœ๋ถ€ํ„ฐ ๋ฉ”์‹œ์ง€๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์ž์‹ ์˜ ํŠน์ง•์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค:

h_v^{(l+1)} = \psi\left(h_v^{(l)}, \bigoplus_{u \in \mathcal{N}(v)} \phi(h_u^{(l)}, h_v^{(l)}, e_{uv})\right)

์—ฌ๊ธฐ์„œ \phi๋Š” ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜, \psi๋Š” ์—…๋ฐ์ดํŠธ ํ•จ์ˆ˜, \bigoplus๋Š” ์ง‘๊ณ„ ์—ฐ์‚ฐ์ž…๋‹ˆ๋‹ค.

๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ ๋„คํŠธ์›Œํฌ(EMPN)๋Š” \phi์™€ \psi๊ฐ€ ๋ชจ๋‘ ๋“ฑ๋ณ€ ํ•จ์ˆ˜๊ฐ€ ๋˜๋„๋ก ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด:

  1. ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ steerable features๋กœ ๊ตฌ์„ฑ: ๋…ธ๋“œ/์—์ง€ ํŠน์ง•์ด ๊ตฌ๋ฉด ์กฐํ™” ๊ณ„์ˆ˜๋กœ ํ‘œํ˜„๋จ
  2. ๋“ฑ๋ณ€ ์—ฐ์‚ฐ๋งŒ ์‚ฌ์šฉ: ํ…์„œ ๊ณฑ์€ Clebsch-Gordan ๊ณฑ์œผ๋กœ, ๋น„์„ ํ˜• ํ™œ์„ฑํ™”๋Š” ๋“ฑ๋ณ€ ๊ฒŒ์ดํŠธ๋กœ ๊ตฌํ˜„
  3. ์ƒ๋Œ€ ์œ„์น˜ ์ธ์ฝ”๋”ฉ: ์ ˆ๋Œ€ ์ขŒํ‘œ ๋Œ€์‹  ์ƒ๋Œ€ ๋ณ€์œ„ ๋ฒกํ„ฐ \vec{r}_{uv}๋ฅผ ์‚ฌ์šฉ

flowchart TB
    subgraph ๋…ธ๋“œํŠน์ง•["๋…ธ๋“œ ํŠน์ง• (Steerable)"]
        H0["h_u: Type-0 (์Šค์นผ๋ผ)"]
        H1["h_u: Type-1 (๋ฒกํ„ฐ)"]
        H2["h_u: Type-2 (ํ…์„œ)"]
    end
    
    subgraph ๋ฉ”์‹œ์ง€์ƒ์„ฑ["๋ฉ”์‹œ์ง€ ์ƒ์„ฑ"]
        R["์ƒ๋Œ€ ์œ„์น˜ r_uv"]
        SH["๊ตฌ๋ฉด ์กฐํ™” Y(rฬ‚_uv)"]
        M["๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ m_uv"]
    end
    
    subgraph ์ง‘๊ณ„["์ง‘๊ณ„ & ์—…๋ฐ์ดํŠธ"]
        AGG["ฮฃ m_uv (ํ•ฉ์‚ฐ)"]
        UPD["๋“ฑ๋ณ€ ์—…๋ฐ์ดํŠธ ฯˆ"]
    end
    
    H0 & H1 & H2 --> ๋ฉ”์‹œ์ง€์ƒ์„ฑ
    R --> SH --> M
    M --> AGG --> UPD
    
    style M fill:#fff3e0
    style UPD fill:#e8f5e9

EMPN์˜ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ ๊ณผ์ •


3. HEPi: ์ด์ข… ๋“ฑ๋ณ€ ์ •์ฑ…์˜ ์„ค๊ณ„

3.1 ๋กœ๋ด‡ ์กฐ์ž‘์„ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๊ธฐ

HEPi์˜ ํ•ต์‹ฌ ํ˜์‹ ์€ ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ์ด์ข… ๊ทธ๋ž˜ํ”„(heterogeneous graph)๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ข… ๊ทธ๋ž˜ํ”„๋ž€ ์„œ๋กœ ๋‹ค๋ฅธ ํƒ€์ž…์˜ ๋…ธ๋“œ์™€ ์—์ง€๋ฅผ ํฌํ•จํ•˜๋Š” ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค.

๋…ธ๋“œ ํƒ€์ž…
  1. ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ (Actuator): ๋กœ๋ด‡์˜ ๋ง๋‹จ ํšจ๊ณผ๊ธฐ(end-effector)๋ฅผ ๋‚˜ํƒ€๋ƒ„
    • ํŠน์ง•: ํ˜„์žฌ ์œ„์น˜, ์ž์„ธ, ๊ทธ๋ฆฌํผ ์ƒํƒœ ๋“ฑ
  2. ๋ฌผ์ฒด ๋…ธ๋“œ (Object): ์กฐ์ž‘ ๋Œ€์ƒ ๋ฌผ์ฒด(๊ฐ•์ฒด ๋˜๋Š” ๋ณ€ํ˜•์ฒด)๋ฅผ ๋‚˜ํƒ€๋ƒ„
    • ๊ฐ•์ฒด: ๋‹จ์ผ ๋…ธ๋“œ๋กœ ํ‘œํ˜„ (์œ„์น˜ + ์ž์„ธ)
    • ๋ณ€ํ˜•์ฒด: ํŒŒํ‹ฐํด/๋ฉ”์‰ฌ ๋…ธ๋“œ์˜ ์ง‘ํ•ฉ์œผ๋กœ ํ‘œํ˜„
์—์ง€ ํƒ€์ž…
์—์ง€ ํƒ€์ž… ์—ฐ๊ฒฐ ์˜๋ฏธ
Intra-actuator ์•ก์ถ”์—์ดํ„ฐ โ†”๏ธŽ ์•ก์ถ”์—์ดํ„ฐ ๋‹ค์ค‘ ์•” ํ˜‘์—…
Intra-object ๋ฌผ์ฒด โ†”๏ธŽ ๋ฌผ์ฒด ๋ณ€ํ˜•์ฒด ๋‚ด๋ถ€ ์—ฐ๊ฒฐ
Inter-edges ์•ก์ถ”์—์ดํ„ฐ โ†’ ๋ฌผ์ฒด ์กฐ์ž‘ ์ƒํ˜ธ์ž‘์šฉ

graph TB
    subgraph Actuators["๐Ÿค– ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ"]
        A1((EE1))
        A2((EE2))
    end
    
    subgraph Objects["๐Ÿ“ฆ ๋ฌผ์ฒด ๋…ธ๋“œ (์ฒœ ํŒŒํ‹ฐํด)"]
        O1((P1))
        O2((P2))
        O3((P3))
        O4((P4))
        O5((P5))
        O6((P6))
    end
    
    A1 <-.->|intra-actuator| A2
    
    O1 <-->|intra-object| O2
    O2 <-->|intra-object| O3
    O4 <-->|intra-object| O5
    O5 <-->|intra-object| O6
    O1 <-->|intra-object| O4
    O2 <-->|intra-object| O5
    O3 <-->|intra-object| O6
    
    A1 -.->|inter-edge| O1
    A1 -.->|inter-edge| O2
    A2 -.->|inter-edge| O5
    A2 -.->|inter-edge| O6
    
    style A1 fill:#ffccbc
    style A2 fill:#ffccbc
    style O1 fill:#c5cae9
    style O2 fill:#c5cae9
    style O3 fill:#c5cae9
    style O4 fill:#c5cae9
    style O5 fill:#c5cae9
    style O6 fill:#c5cae9

์ฒœ ๊ฑธ๊ธฐ(Cloth Hanging) ํƒœ์Šคํฌ์˜ ์ด์ข… ๊ทธ๋ž˜ํ”„ ํ‘œํ˜„

๋ชฉํ‘œ ๊ฑฐ๋ฆฌ ์ธ์ฝ”๋”ฉ

ํฅ๋ฏธ๋กœ์šด ์„ค๊ณ„ ์„ ํƒ์œผ๋กœ, HEPi๋Š” ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ๋ณ„๋„์˜ ๋…ธ๋“œ ํƒ€์ž…์œผ๋กœ ๋งŒ๋“ค์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  ๋ชฉํ‘œ๊นŒ์ง€์˜ ์ƒ๋Œ€ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ ๋…ธ๋“œ์˜ ํŠน์ง• ํ‘œํ˜„์— ํก์ˆ˜์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด:

  • ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๊ฐ€ ๋‹จ์ˆœํ•ด์ง
  • ๋ชฉํ‘œ ์ •๋ณด๊ฐ€ ๋“ฑ๋ณ€ ๋ฐฉ์‹์œผ๋กœ ์ธ์ฝ”๋”ฉ๋จ
  • ์ถ”๊ฐ€์ ์ธ ์—์ง€ ํƒ€์ž… ๋ถˆํ•„์š”

3.2 ์ด์ข… ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ

HEPi์˜ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋…ธ๋“œ/์—์ง€ ํƒ€์ž…์— ๋Œ€ํ•ด ๋ณ„๋„์˜ ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ˆ˜ํ•™์  ์ •์˜

๋…ธ๋“œ ํƒ€์ž… ์ง‘ํ•ฉ์„ \mathcal{T} = \{\text{actuator}, \text{object}\}๋ผ ํ•˜๊ณ , ์—์ง€ ํƒ€์ž…์„ \mathcal{R}์ด๋ผ ํ•ฉ์‹œ๋‹ค.

๊ฐ ํƒ€์ž… \tau \in \mathcal{T}์˜ ๋…ธ๋“œ v์— ๋Œ€ํ•œ ์—…๋ฐ์ดํŠธ:

h_v^{(l+1)} = \psi_\tau \left( h_v^{(l)}, \bigoplus_{(u,v,r) \in \mathcal{E}} \phi_r(h_u^{(l)}, h_v^{(l)}, \vec{r}_{uv}) \right)

์—ฌ๊ธฐ์„œ: - \psi_\tau: ๋…ธ๋“œ ํƒ€์ž… \tau์— ํŠนํ™”๋œ ์—…๋ฐ์ดํŠธ ํ•จ์ˆ˜ - \phi_r: ์—์ง€ ํƒ€์ž… r์— ํŠนํ™”๋œ ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜ - \vec{r}_{uv}: ๋…ธ๋“œ u์—์„œ v๋กœ์˜ ์ƒ๋Œ€ ์œ„์น˜ ๋ฒกํ„ฐ

์˜์‚ฌ์ฝ”๋“œ (Pseudocode)
Algorithm: HEPi Forward Pass
Input: Graph G = (V_act, V_obj, E_intra, E_inter), node features {h_v}
Output: Actions for actuators {a_i}

1. Initialize steerable features from raw inputs
   For each v โˆˆ V:
     h_v^(0) = Embed(x_v, target_distance_v)

2. Heterogeneous message passing (L layers)
   For l = 1 to L:
     # Intra-object messages
     For each (u,v) โˆˆ E_intra_obj:
       m_uv = ฯ†_intra_obj(h_u, h_v, r_uv)
     
     # Intra-actuator messages  
     For each (u,v) โˆˆ E_intra_act:
       m_uv = ฯ†_intra_act(h_u, h_v, r_uv)
     
     # Inter-edge messages (object โ†’ actuator)
     For each (u,v) โˆˆ E_inter:
       m_uv = ฯ†_inter(h_u, h_v, r_uv)
     
     # Update nodes
     For each v โˆˆ V_obj:
       h_v^(l) = ฯˆ_obj(h_v^(l-1), Aggregate(messages_to_v))
     
     For each v โˆˆ V_act:
       h_v^(l) = ฯˆ_act(h_v^(l-1), Aggregate(messages_to_v))

3. Generate equivariant actions
   For each actuator node a_i:
     action_i = ActionHead(h_{a_i}^(L))
   
   Return {action_i}

3.3 ๋“ฑ๋ณ€ ์•ก์…˜ ์ƒ์„ฑ

์ •์ฑ…์˜ ์ถœ๋ ฅโ€”์•ก์…˜โ€”๋„ ๋“ฑ๋ณ€ํ•˜๊ฒŒ ์ƒ์„ฑ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. HEPi์—์„œ ์•ก์…˜์€ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  1. Type-1 ์ถœ๋ ฅ (๋ฒกํ„ฐ): ๋ง๋‹จ ํšจ๊ณผ๊ธฐ์˜ ์†๋„/๋ณ€์œ„
    • ์ด๊ฒƒ์€ ํšŒ์ „์— ๋Œ€ํ•ด ๋“ฑ๋ณ€ํ•ด์•ผ ํ•จ
  2. Type-0 ์ถœ๋ ฅ (์Šค์นผ๋ผ): ๊ทธ๋ฆฌํผ ์—ด๋ฆผ/๋‹ซํž˜
    • ์ด๊ฒƒ์€ ํšŒ์ „์— ๋Œ€ํ•ด ๋ถˆ๋ณ€ํ•ด์•ผ ํ•จ

์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ์˜ ์ตœ์ข… ํŠน์ง• h_a^{(L)}์—์„œ ์„ ํ˜• ๋ ˆ์ด์–ด๋ฅผ ํ†ตํ•ด ๊ฐ ํƒ€์ž…์˜ ์ถœ๋ ฅ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค:

\mathbf{v}_a = W_1 h_a^{(L, l=1)}, \quad s_a = W_0 h_a^{(L, l=0)}

์—ฌ๊ธฐ์„œ h_a^{(L, l=k)}๋Š” ์ฐจ์ˆ˜ k์˜ steerable feature ์„ฑ๋ถ„์ž…๋‹ˆ๋‹ค.

3.4 Trust Region Policy Learning

HEPi๋Š” on-policy ๊ฐ•ํ™”ํ•™์Šต์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ๋ณต์žกํ•œ ์กฐ์ž‘ ํƒœ์Šคํฌ์—์„œ ํ•™์Šต์„ ์•ˆ์ •ํ™”ํ•˜๊ธฐ ์œ„ํ•ด Trust Region Policy Learning (TRPL)์„ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.

TipTRPL vs PPO

PPO(Proximal Policy Optimization)๊ฐ€ ํด๋ฆฌํ•‘์œผ๋กœ ์ •์ฑ… ์—…๋ฐ์ดํŠธ๋ฅผ ์ œํ•œํ•˜๋Š” ํœด๋ฆฌ์Šคํ‹ฑ ๋ฐฉ๋ฒ•์ด๋ผ๋ฉด, TRPL์€ KL ๋ฐœ์‚ฐ์— ๋Œ€ํ•œ ๋ช…์‹œ์  ์ œ์•ฝ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ์ˆ˜ํ•™์ ์œผ๋กœ ์—„๋ฐ€ํ•œ ๋ณด์žฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

\max_\theta \mathbb{E}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s,a)\right] \text{s.t. } \mathbb{E}[D_{KL}(\pi_{\theta_{\text{old}}} | \pi_\theta)] \leq \delta

ํฐ 3D ํƒ์ƒ‰ ๊ณต๊ฐ„์—์„œ ์ด๋Ÿฌํ•œ ์ œ์•ฝ์ด ํ•™์Šต ์•ˆ์ •์„ฑ์— ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.


4. ๋ฒค์น˜๋งˆํฌ: 7๊ฐ€์ง€ ๋„์ „์  ํƒœ์Šคํฌ

4.1 ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„ ์ฒ ํ•™

์ €์ž๋“ค์€ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ์˜ ์—ญํ• ์„ ๊ฐ•์กฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ NVIDIA IsaacLab ์œ„์— ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•ต์‹ฌ ํŠน์ง•:

  • 3D ์ „์ฒด ๊ณต๊ฐ„ ์ƒ˜ํ”Œ๋ง: ์ดˆ๊ธฐ/๋ชฉํ‘œ ์œ„์น˜๊ฐ€ 3D ๊ณต๊ฐ„์—์„œ ๊ท ์ผ ์ƒ˜ํ”Œ๋ง
  • ์ ์ง„์  ๋‚œ์ด๋„: 2D โ†’ 3D, ๋‹จ์ผ โ†’ ๋‹ค์ค‘ ์•ก์ถ”์—์ดํ„ฐ, ๊ฐ•์ฒด โ†’ ๋ณ€ํ˜•์ฒด
  • ๋‹ค์–‘ํ•œ ๊ธฐํ•˜ํ•™์  ํ˜•์ƒ: ๋ณ„, ํƒ€์›, ์‹ญ์ž๊ฐ€ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ์–‘

4.2 ํƒœ์Šคํฌ ์ƒ์„ธ

flowchart LR
    subgraph Rigid["๊ฐ•์ฒด ํƒœ์Šคํฌ"]
        R1["Rigid-Sliding-2D<br/>2D ์Šฌ๋ผ์ด๋”ฉ"]
        R2["Rigid-Insertion-2D+z<br/>2.5D ์‚ฝ์ž…"]
        R3["Rigid-Insertion-3D<br/>3D ์‚ฝ์ž…"]
        R4["Rigid-Insertion-2Agents<br/>ํ˜‘์—… ์‚ฝ์ž…"]
    end
    
    subgraph Deform["๋ณ€ํ˜•์ฒด ํƒœ์Šคํฌ"]
        D1["Rope-Closing<br/>๋กœํ”„ ๋‹ซ๊ธฐ"]
        D2["Rope-Shaping<br/>๋กœํ”„ ๋ชจ์–‘ ๋งŒ๋“ค๊ธฐ"]
        D3["Cloth-Hanging<br/>์ฒœ ๊ฑธ๊ธฐ"]
    end
    
    R1 --> R2 --> R3 --> R4
    D1 --> D2 --> D3
    
    style R4 fill:#ffcdd2
    style D3 fill:#ffcdd2

HEPi ๋ฒค์น˜๋งˆํฌ์˜ 7๊ฐ€์ง€ ํƒœ์Šคํฌ (๋‚œ์ด๋„ ์ˆœ)

ํƒœ์Šคํฌ ์•ก์ถ”์—์ดํ„ฐ ์ˆ˜ ๋ฌผ์ฒด ํƒ€์ž… ์ž์œ ๋„ ํ•ต์‹ฌ ๋„์ „
Rigid-Sliding-2D 1 ๊ฐ•์ฒด 2D ๊ธฐ๋ณธ ํ…Œ์ŠคํŠธ
Rigid-Insertion-2D+z 1 ๊ฐ•์ฒด 2.5D ๊นŠ์ด ์ œ์–ด
Rigid-Insertion-3D 1 ๊ฐ•์ฒด 6DoF ์ „์ฒด SE(3)
Rigid-Insertion-2Agents 2 ๊ฐ•์ฒด ํ˜‘์—… ๋‹ค์ค‘ ์—์ด์ „ํŠธ
Rope-Closing 1 ๋ณ€ํ˜•์ฒด - ๋ณ€ํ˜• ๋™์—ญํ•™
Rope-Shaping 2 ๋ณ€ํ˜•์ฒด - ํ˜‘์—… + ๋ณ€ํ˜•
Cloth-Hanging 2 ๋ณ€ํ˜•์ฒด - ์ตœ๊ณ  ๋‚œ์ด๋„

4.3 ๋ฌผ์ฒด ํ˜•์ƒ์˜ ๋‹ค์–‘์„ฑ

๊ฐ•์ฒด ์‚ฝ์ž… ํƒœ์Šคํฌ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋ฌผ์ฒด ํ˜•์ƒ๋“ค:

  • Star (๋ณ„): 5๊ฐœ์˜ ๋พฐ์กฑํ•œ ๋์ 
  • Ellipse (ํƒ€์›): ๋‹ค์–‘ํ•œ ์žฅ๋‹จ์ถ• ๋น„์œจ
  • Plus (์‹ญ์ž): ์ง๊ตํ•˜๋Š” ๋‘ ๋ง‰๋Œ€
  • Pentagon (์˜ค๊ฐํ˜•): ์ •๋‹ค๊ฐํ˜•
  • โ€ฆ๊ทธ ์™ธ ๋‹ค์ˆ˜
Important์ผ๋ฐ˜ํ™” ํ…Œ์ŠคํŠธ

ํ•™์Šต ์‹œ ๋ณธ ์  ์—†๋Š” ํ˜•์ƒ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, ์ผ๋ถ€ ํ˜•์ƒ์€ ํ…Œ์ŠคํŠธ ์ „์šฉ์œผ๋กœ ๋ณด๋ฅ˜๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” HEPi์˜ ๊ธฐํ•˜ํ•™์  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๊ฒ€์ฆํ•˜๋Š” ํ•ต์‹ฌ ์‹คํ—˜์ž…๋‹ˆ๋‹ค.


5. ์‹คํ—˜ ๊ฒฐ๊ณผ: ๋“ฑ๋ณ€์„ฑ๊ณผ ์ด์ข…์„ฑ์˜ ํž˜

5.1 ์‹คํ—˜ ์„ค์ •

  • ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ: NVIDIA IsaacLab (GPU ๊ธฐ๋ฐ˜ ๋ฌผ๋ฆฌ ์—”์ง„)
  • ํ™˜๊ฒฝ ์ˆ˜: ํƒœ์Šคํฌ๋‹น 1000๊ฐœ ๋ณ‘๋ ฌ ํ™˜๊ฒฝ
  • ํ‰๊ฐ€ ์ง€ํ‘œ: Interquartile Mean (IQM) ๋ณด์ƒ, 95% ์‹ ๋ขฐ ๊ตฌ๊ฐ„
  • ๋ฒ ์ด์Šค๋ผ์ธ:
    • Transformer: ์™„์ „ ์—ฐ๊ฒฐ GNN์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ
    • EMPN: ์ˆœ์ˆ˜ ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ (์ด์ข…์„ฑ ์—†์Œ)
    • HeteroGNN: ์ด์ข… GNN (๋“ฑ๋ณ€์„ฑ ์—†์Œ)
    • GNN: ์ˆœ์ˆ˜ GNN (๋“ฑ๋ณ€์„ฑ๋„ ์ด์ข…์„ฑ๋„ ์—†์Œ)

5.2 ์ฃผ์š” ๊ฒฐ๊ณผ

์ƒ˜ํ”Œ ํšจ์œจ์„ฑ
ํƒœ์Šคํฌ๋ณ„ 1M ํ™˜๊ฒฝ ์Šคํ… ๋„๋‹ฌ ์‹œ IQM ๋ณด์ƒ (๋†’์„์ˆ˜๋ก ์ข‹์Œ):

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Task                   โ”‚Transformerโ”‚ EMPN      โ”‚ HEPi      โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ Rigid-Sliding-2D       โ”‚ ~0.8      โ”‚ ~0.85     โ”‚ ~0.85     โ”‚
โ”‚ Rigid-Insertion-2D+z   โ”‚ ~0.6      โ”‚ ~0.75     โ”‚ ~0.80     โ”‚
โ”‚ Rigid-Insertion-3D     โ”‚ ~0.3      โ”‚ ~0.5      โ”‚ ~0.65     โ”‚
โ”‚ Rigid-2Agents-3D       โ”‚ ~0.1      โ”‚ ~0.4      โ”‚ ~0.55     โ”‚
โ”‚ Rope-Closing           โ”‚ ~0.4      โ”‚ ~0.5      โ”‚ ~0.55     โ”‚
โ”‚ Rope-Shaping           โ”‚ ~0.2      โ”‚ ~0.35     โ”‚ ~0.45     โ”‚
โ”‚ Cloth-Hanging          โ”‚ ~0.1      โ”‚ ~0.25     โ”‚ ~0.40     โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

ํ•ต์‹ฌ ๊ด€์ฐฐ:

  1. ๋ณต์žก๋„๊ฐ€ ๋†’์„์ˆ˜๋ก ๊ฒฉ์ฐจ ํ™•๋Œ€: ๋‹จ์ˆœํ•œ 2D ํƒœ์Šคํฌ์—์„œ๋Š” ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ์œ ์‚ฌํ•˜์ง€๋งŒ, 3D ํƒœ์Šคํฌ์™€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํƒœ์Šคํฌ์—์„œ HEPi์˜ ์šฐ์œ„๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง

  2. ๋“ฑ๋ณ€์„ฑ์˜ ํšจ๊ณผ: EMPN์ด Transformer๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ โ†’ ๋Œ€์นญ์„ฑ ํ™œ์šฉ์˜ ์ด์ 

  3. ์ด์ข…์„ฑ์˜ ์ถ”๊ฐ€ ์ด๋“: HEPi๊ฐ€ EMPN์„ ๋Šฅ๊ฐ€ โ†’ ์ด์ข… ๊ตฌ์กฐ ๋ชจ๋ธ๋ง์˜ ์ด์ 

์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ

๋ฏธ๊ด€์ธก ํ˜•์ƒ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”:

Training shapes: Star, Ellipse, Plus
Test shapes: Pentagon, Hexagon, Triangle

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Metric             โ”‚Transformerโ”‚ EMPN      โ”‚ HEPi      โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ Train Shape Successโ”‚ 0.65      โ”‚ 0.78      โ”‚ 0.85      โ”‚
โ”‚ Test Shape Success โ”‚ 0.40      โ”‚ 0.65      โ”‚ 0.75      โ”‚
โ”‚ Generalization Gap โ”‚ -0.25     โ”‚ -0.13     โ”‚ -0.10     โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

HEPi๋Š” ๋ฏธ๊ด€์ธก ํ˜•์ƒ์— ๋Œ€ํ•ด์„œ๋„ ํ•™์Šต ํ˜•์ƒ ๋Œ€๋น„ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ฐ€์žฅ ์ ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋“ฑ๋ณ€ ๊ตฌ์กฐ๊ฐ€ ๊ธฐํ•˜ํ•™์  ํŒจํ„ด์„ ๋” ์ผ๋ฐ˜์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ๋•๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

5.3 Ablation ์—ฐ๊ตฌ

Trust Region ๋ฐฉ๋ฒ•์˜ ํšจ๊ณผ

xychart-beta
    title "ํ•™์Šต ์•ˆ์ •์„ฑ ๋น„๊ต"
    x-axis "ํ™˜๊ฒฝ ์Šคํ… (๋ฐฑ๋งŒ)" [0, 0.5, 1, 1.5, 2, 2.5, 3]
    y-axis "IQM ๋ณด์ƒ" 0 --> 0.6
    line "HEPi + TRPL" [0.05, 0.15, 0.25, 0.35, 0.42, 0.45, 0.48]
    line "HEPi + PPO" [0.05, 0.12, 0.18, 0.22, 0.28, 0.30, 0.32]

TRPL vs PPO ๋น„๊ต (Cloth-Hanging ํƒœ์Šคํฌ)

TRPL์ด PPO๋ณด๋‹ค ๋” ์•ˆ์ •์ ์ด๊ณ  ๋†’์€ ์ตœ์ข… ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ํฐ 3D ํƒ์ƒ‰ ๊ณต๊ฐ„์—์„œ ์ด ์ฐจ์ด๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค.

์ด์ข…์„ฑ vs ์–ดํ…์…˜

Transformer์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ์ด์ข…์„ฑ์„ ์•”๋ฌต์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”?

โ”Œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ฌโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”
โ”‚ Model       โ”‚ Heterogeneity โ”‚ Cloth Perf. โ”‚
โ”œโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ผโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ค
โ”‚ GNN         โ”‚ โœ—             โ”‚ 0.15        โ”‚
โ”‚ Transformer โ”‚ Implicit      โ”‚ 0.20        โ”‚
โ”‚ HeteroGNN   โ”‚ Explicit      โ”‚ 0.25        โ”‚
โ”‚ EMPN        โ”‚ โœ—             โ”‚ 0.28        โ”‚
โ”‚ HEPi        โ”‚ Explicit      โ”‚ 0.45        โ”‚
โ””โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”ดโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”˜

๊ฒฐ๋ก : ์–ดํ…์…˜๋งŒ์œผ๋กœ๋Š” ๋ช…์‹œ์  ์ด์ข…์„ฑ ๋ชจ๋ธ๋ง์„ ๋Œ€์ฒดํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. HEPi๊ฐ€ ์ด์ข… GNN๊ณผ EMPN ๋ชจ๋‘๋ฅผ ํฐ ํญ์œผ๋กœ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.


6. ๋น„ํŒ์  ๊ณ ์ฐฐ

6.1 ๊ฐ•์ 

๊ฐ•์  ์„ค๋ช…
์ด๋ก ์  ๊ธฐ๋ฐ˜ SE(3) ๋“ฑ๋ณ€์„ฑ์— ๋Œ€ํ•œ ์ˆ˜ํ•™์  ๋ณด์žฅ
์‹ค์šฉ์  ์„ค๊ณ„ ๊ฒฝ๋Ÿ‰ ์•„ํ‚คํ…์ฒ˜๋กœ on-policy RL์— ์ ํ•ฉ
์ข…ํ•ฉ์  ๋ฒค์น˜๋งˆํฌ ๊ฐ•์ฒด/๋ณ€ํ˜•์ฒด, ๋‹จ์ผ/๋‹ค์ค‘ ์—์ด์ „ํŠธ ํฌ๊ด„
์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ฏธ๊ด€์ธก ํ˜•์ƒ์— ๋Œ€ํ•œ ์šฐ์ˆ˜ํ•œ ์ „์ด
์žฌํ˜„ ๊ฐ€๋Šฅ์„ฑ ์ฝ”๋“œ, ํ™˜๊ฒฝ ๋ชจ๋‘ ๊ณต๊ฐœ

6.2 ์•ฝ์  ๋ฐ ํ•œ๊ณ„

  1. ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ „์šฉ: ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜ ๊ฒฐ๊ณผ ์—†์Œ
    • Sim-to-real ์ „์ด์—์„œ ๋“ฑ๋ณ€์„ฑ์ด ์–ด๋–ป๊ฒŒ ์ž‘์šฉํ• ์ง€ ๋ถˆํ™•์‹ค
  2. ์„ผ์„œ ์ž…๋ ฅ ์ œํ•œ: ์™„์ „ํ•œ ์ƒํƒœ ์ •๋ณด ๊ฐ€์ •
    • ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ๋Š” ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ, RGB-D ๋“ฑ ๋ถ€๋ถ„ ๊ด€์ธก์ด ์ผ๋ฐ˜์ 
  3. ๊ณ„์‚ฐ ๋น„์šฉ: ๊ตฌ๋ฉด ์กฐํ™”์™€ CG ํ…์„œ ๊ณฑ์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’์Œ
    • ์‹ค์‹œ๊ฐ„ ์ œ์–ด์—์„œ์˜ latency ์˜ํ–ฅ ๋ฏธ๋ถ„์„
  4. ํƒœ์Šคํฌ ๋ฒ”์œ„:
    • ์ ‘์ด‰์ด ํ’๋ถ€ํ•œ(contact-rich) ์กฐ์ž‘ ๋ฏธ๊ฒ€์ฆ
    • ๋™์  ํ™˜๊ฒฝ(์›€์ง์ด๋Š” ์žฅ์• ๋ฌผ ๋“ฑ) ๋ฏธ๊ณ ๋ ค
  5. ์Šค์ผ€์ผ๋ง:
    • ๋ฌผ์ฒด ๋…ธ๋“œ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด(๊ณ ํ•ด์ƒ๋„ ์ฒœ ๋ฉ”์‰ฌ ๋“ฑ) ์„ฑ๋Šฅ ์˜ํ–ฅ ๋ถˆ๋ช…ํ™•

6.3 ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์•ˆ

mindmap
  root((HEPi ํ™•์žฅ))
    ์‹ค์„ธ๊ณ„ ์ „์ด
      Sim-to-Real
      ๋„๋ฉ”์ธ ๋žœ๋คํ™”
      ์‹œ์Šคํ…œ ์‹๋ณ„
    ์ธ์‹ ํ†ตํ•ฉ
      Point Cloud ์ž…๋ ฅ
      Vision Backbone
      Neural Radiance Fields
    ํšจ์œจ์„ฑ ๊ฐœ์„ 
      ๊ฒฝ๋Ÿ‰ ๋“ฑ๋ณ€ ๋ ˆ์ด์–ด
      ์ง€์‹ ์ฆ๋ฅ˜
      ์–‘์žํ™”
    ํƒœ์Šคํฌ ํ™•์žฅ
      ์ ‘์ด‰ ํ’๋ถ€ ์กฐ์ž‘
      ๋„๊ตฌ ์‚ฌ์šฉ
      ์žฅ๊ธฐ ๊ณ„ํš

HEPi ํ™•์žฅ์„ ์œ„ํ•œ ์—ฐ๊ตฌ ๋กœ๋“œ๋งต

๊ตฌ์ฒด์  ์ œ์•ˆ
  1. ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ ๊ธฐ๋ฐ˜ HEPi

    ํ˜„์žฌ: ์™„์ „ ์ƒํƒœ ์ •๋ณด โ†’ ์ด์ข… ๊ทธ๋ž˜ํ”„
    ์ œ์•ˆ: Point Cloud โ†’ ๋“ฑ๋ณ€ ์ธ์ฝ”๋” โ†’ ์ด์ข… ๊ทธ๋ž˜ํ”„ โ†’ HEPi
  2. ๊ณ„์ธต์  ๋“ฑ๋ณ€ ์ •์ฑ…

    • ๊ณ ์ˆ˜์ค€: ์„œ๋ธŒ๊ณจ ์ƒ์„ฑ (๋А๋ฆฐ ์ฃผ๊ธฐ)
    • ์ €์ˆ˜์ค€: HEPi ๊ธฐ๋ฐ˜ ์ œ์–ด (๋น ๋ฅธ ์ฃผ๊ธฐ)
  3. ๋“ฑ๋ณ€ World Model๊ณผ์˜ ํ†ตํ•ฉ

    • EDGI (Equivariant Diffusion for Planning) ๊ฐ™์€ ๋“ฑ๋ณ€ ์›”๋“œ ๋ชจ๋ธ ์‚ฌ์šฉ
    • ๋ชจ๋ธ ๊ธฐ๋ฐ˜ RL๋กœ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ์ถ”๊ฐ€ ํ–ฅ์ƒ

7. ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต

7.1 ๋“ฑ๋ณ€ ๋กœ๋ด‡ ํ•™์Šต ๊ณ„๋ณด

timeline
    title ๋“ฑ๋ณ€ ๋กœ๋ด‡ ํ•™์Šต์˜ ๋ฐœ์ „
    2018 : Tensor Field Networks
         : ์ตœ์ดˆ์˜ SE(3) ๋“ฑ๋ณ€ GNN
    2020 : SE(3)-Transformers
         : ๋“ฑ๋ณ€ ์–ดํ…์…˜ ๋„์ž…
    2021 : EGNN
         : ๊ฒฝ๋Ÿ‰ E(n) ๋“ฑ๋ณ€ ์„ค๊ณ„
    2022 : Equivariant RL for Manipulation
         : ๋กœ๋ด‡ ์กฐ์ž‘์— ๋“ฑ๋ณ€ RL ์ ์šฉ
    2024 : EquiBot
         : SIM(3) ๋“ฑ๋ณ€ ํ™•์‚ฐ ์ •์ฑ…
    2025 : HEPi
         : ์ด์ข… ๋“ฑ๋ณ€ ์ •์ฑ…

๋“ฑ๋ณ€ ๋กœ๋ด‡ ํ•™์Šต์˜ ๋ฐœ์ „ ๊ณ„๋ณด

7.2 ์ฃผ์š” ๊ด€๋ จ ์—ฐ๊ตฌ ๋น„๊ต

์—ฐ๊ตฌ ๋“ฑ๋ณ€ ๊ตฐ ์ด์ข…์„ฑ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„ ํƒœ์Šคํฌ
SE(3)-Transformer SE(3) โœ— Supervised ๋ถ„์ž
EGNN E(n) โœ— Supervised N-body
EquiBot SIM(3) โœ— ๋ชจ๋ฐฉ ํ•™์Šต ์กฐ์ž‘
EquAct SE(3) โœ— ๋ชจ๋ฐฉ ํ•™์Šต ํ‚คํ”„๋ ˆ์ž„
HEPi SE(3) โœ“ ๊ฐ•ํ™” ํ•™์Šต ์กฐ์ž‘

7.3 EquiBot๊ณผ์˜ ์ฐจ์ด์ 

EquiBot์€ SIM(3) ๋“ฑ๋ณ€ ํ™•์‚ฐ ์ •์ฑ…์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ์ฐจ์ด์ :

์ธก๋ฉด EquiBot HEPi
๋“ฑ๋ณ€ ๊ตฐ SIM(3) (์Šค์ผ€์ผ ํฌํ•จ) SE(3)
์ •์ฑ… ํƒ€์ž… ํ™•์‚ฐ ๊ธฐ๋ฐ˜ MLP ๊ธฐ๋ฐ˜
ํ•™์Šต ๋ฐฉ์‹ ๋ชจ๋ฐฉ ํ•™์Šต ๊ฐ•ํ™” ํ•™์Šต
์ด์ข…์„ฑ โœ— โœ“
๋ณ€ํ˜•์ฒด ์ œํ•œ์  ๋ช…์‹œ์  ์ง€์›

HEPi์˜ ์žฅ์ ์€ ๊ฐ•ํ™”ํ•™์Šต๊ณผ์˜ ํ˜ธํ™˜์„ฑ์ž…๋‹ˆ๋‹ค. ํ™•์‚ฐ ์ •์ฑ…์€ ์ถ”๋ก  ์‹œ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋””๋…ธ์ด์ง• ์Šคํ…์ด ํ•„์š”ํ•ด์„œ on-policy RL์˜ ๋น ๋ฅธ rollout์— ์ ํ•ฉํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


8. ์‹ค๋ฌด์ž๋ฅผ ์œ„ํ•œ ์‹œ์‚ฌ์ 

8.1 ์–ธ์ œ HEPi๋ฅผ ๊ณ ๋ คํ•ด์•ผ ํ• ๊นŒ?

์ ํ•ฉํ•œ ๊ฒฝ์šฐ: - 3D ๊ณต๊ฐ„์—์„œ์˜ ์กฐ์ž‘ ํƒœ์Šคํฌ - ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ํ˜•์ƒ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ํ•„์š” - ๋ณ€ํ˜•์ฒด(์ฒœ, ๋กœํ”„ ๋“ฑ) ์กฐ์ž‘ - ๋‹ค์ค‘ ์•” ํ˜‘์—… ํƒœ์Šคํฌ - ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ

๋ถ€์ ํ•ฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ: - 2D ํƒœ์Šคํฌ (์˜ค๋ฒ„์—”์ง€๋‹ˆ์–ด๋ง) - ์™„์ „ํ•œ ์ƒํƒœ ์ •๋ณด ํš๋“ ๋ถˆ๊ฐ€ - ์‹ค์‹œ๊ฐ„ ์ €์ง€์—ฐ ์ œ์–ด ํ•„์š” - ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ํ’๋ถ€ํ•œ ๊ฒฝ์šฐ (๋“ฑ๋ณ€์„ฑ์˜ ์ด์  ๊ฐ์†Œ)

8.2 ๊ตฌํ˜„ ์ฒดํฌ๋ฆฌ์ŠคํŠธ

โ–ก NVIDIA IsaacLab ํ™˜๊ฒฝ ์„ค์ •
โ–ก geometry_orbit ํŒจํ‚ค์ง€ ์„ค์น˜
โ–ก Docker ์ปจํ…Œ์ด๋„ˆ ๋นŒ๋“œ
โ–ก ํƒœ์Šคํฌ๋ณ„ config ํŒŒ์ผ ์ˆ˜์ •
  โ–ก ๋ฌผ์ฒด ํ˜•์ƒ ์ •์˜
  โ–ก ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„
  โ–ก ์ดˆ๊ธฐ/๋ชฉํ‘œ ๋ถ„ํฌ ์„ค์ •
โ–ก HEPi ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹
  โ–ก EMPN ๋ ˆ์ด์–ด ์ˆ˜
  โ–ก ๊ตฌ๋ฉด ์กฐํ™” ์ตœ๋Œ€ ์ฐจ์ˆ˜ (l_max)
  โ–ก TRPL ์ œ์•ฝ ๊ฐ•๋„ (ฮด)
โ–ก ํ•™์Šต ๋ฐ ํ‰๊ฐ€
  โ–ก ํ•™์Šต ๊ณก์„  ๋ชจ๋‹ˆํ„ฐ๋ง
  โ–ก ์ผ๋ฐ˜ํ™” ํ…Œ์ŠคํŠธ

9. ์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

9.1 ํ•ต์‹ฌ ์š”์•ฝ

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects (HEPi)๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ์˜ ๋‘ ๊ฐ€์ง€ ๊ทผ๋ณธ์  ํŠน์„ฑ์„ ๋™์‹œ์— ํ™œ์šฉํ•˜๋Š” ํ˜์‹ ์ ์ธ ์ •์ฑ… ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค:

  1. ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ: SE(3) ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ํŒจ์‹ฑ์œผ๋กœ ํšŒ์ „/๋ณ‘์ง„ ๋ถˆ๋ณ€ ํ•™์Šต
  2. ์—ญํ• ์˜ ์ด์ข…์„ฑ: ์•ก์ถ”์—์ดํ„ฐ์™€ ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ์ด์ข… ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ

์ด ์กฐํ•ฉ์€ ํŠนํžˆ ๋ณต์žกํ•œ 3D ํƒœ์Šคํฌ์—์„œ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ, ์ตœ์ข… ์„ฑ๋Šฅ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ชจ๋‘์—์„œ ์œ ์˜๋ฏธํ•œ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

9.2 ํ•œ ์ค„ ํ‰๊ฐ€

โ€œHEPi๋Š” ๊ธฐํ•˜ํ•™์  ์‚ฌ์ „ ์ง€์‹์„ ์‹ ๊ฒฝ๋ง์— ํšจ๊ณผ์ ์œผ๋กœ ์ฃผ์ž…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ RL์˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ฌธ์ œ๋ฅผ ์™„ํ™”ํ•˜๋Š” ์œ ๋งํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.โ€

9.3 ICLR 2025 Oral์˜ ์˜๋ฏธ

ICLR 2025์—์„œ Oral ๋ฐœํ‘œ๋กœ ์„ ์ •๋œ ๊ฒƒ์€ ์ด ์—ฐ๊ตฌ์˜ ํ•™์ˆ ์  ๊ธฐ์—ฌ๋„๋ฅผ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ:

  • ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต: ๊ธฐํ•˜ํ•™ ์ธ์‹ RL ์—ฐ๊ตฌ์˜ ํ‘œ์ค€ ํ‰๊ฐ€ ํ”Œ๋žซํผ
  • ์ด๋ก ๊ณผ ์‹คํ—˜์˜ ์กฐํ™”: ๋“ฑ๋ณ€์„ฑ์˜ ์ˆ˜ํ•™์  ๋ณด์žฅ๊ณผ ์‹ค์ฆ์  ๊ฒ€์ฆ
  • ์‹ค์šฉ์  ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„: on-policy RL์— ์ ํ•ฉํ•œ ๊ฒฝ๋Ÿ‰ ๊ตฌ์กฐ

์ฃผ์š” ๊ด€๋ จ ๋…ผ๋ฌธ๋“ค:

  1. Brandstetter et al. (2022). Geometric and Physical Quantities Improve E(3) Equivariant Message Passing. ICLR.
  2. Satorras et al. (2021). E(n) Equivariant Graph Neural Networks. ICML.
  3. Fuchs et al. (2020). SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks. NeurIPS.
  4. Yang et al. (2024). EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning. CoRL.
  5. Schulman et al. (2015). Trust Region Policy Optimization. ICML.
  6. Otto & Singh (2022). Trust Region-based Safe Policy Optimization.

โ›๏ธ Dig Review

โ›๏ธ Dig โ€” Go deep, uncover the layers. Dive into technical detail.

์„œ๋ก : ๋ฌธ์ œ ์ •์˜ ๋ฐ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ

๋กœ๋ด‡์ด ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•  ๋•Œ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฝ์ž… ์ž‘์—…์—์„œ๋Š” ๋ฌผ์ฒด์˜ ๋ชจ์–‘๊ณผ ๋ฐฉํ–ฅ์— ๋งž๊ฒŒ ์ •ํ™•ํžˆ ์ •๋ ฌํ•ด์•ผ ํ•˜์ฃ . ๋ฌผ์ฒด์˜ ํ˜•ํƒœ๊ฐ€ ์กฐ๊ธˆ๋งŒ ๋‹ฌ๋ผ์ ธ๋„ ํ•„์š”ํ•œ ์ •๋ ฌ ๋ฐฉ๋ฒ•์ด ๋‹ฌ๋ผ์ง€๋ฏ€๋กœ, ๋กœ๋ด‡์€ ๋ฌผ์ฒด๋งˆ๋‹ค ๊ณ ์œ ํ•œ ๊ธฐํ•˜ํ•™์  ๋งž์ถค์„ ํ•™์Šตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ, ๋ณ€ํ˜•์ฒด(์˜ˆ: ์ฒœ์ด๋‚˜ ๋ฐง์ค„)๋ฅผ ๋‹ค๋ฃจ๋Š” ์ž‘์—…์€ ์‹œ๊ฐ„์ด ์ง€๋‚˜๋ฉด์„œ ๋ฌผ์ฒด์˜ ํ˜•ํƒœ ์ž์ฒด๊ฐ€ ๊ณ„์† ๋ณ€ํ˜•๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋‚œ์ œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ฒœ์„ ๊ฑธ๊ฑฐ๋‚˜ ๋ฐง์ค„์„ ๋ฌถ๋Š” ์ผ์€ ํ˜•ํƒœ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ ๋ณต์žกํ•œ ๋™์—ญํ•™ ๋ชจ๋ธ๋ง๊ณผ ์ •๋ฐ€ ์ œ์–ด๊ฐ€ ์š”๊ตฌ๋˜์ง€์š”.

์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ํ˜•์ƒ(rigid shapes) ๋ฐ ๋ณ€ํ˜•์ฒด(deformable objects)๋ฅผ ๋‹ค๋ฃจ๋Š” ๋กœ๋ด‡ ์กฐ์ž‘ ๋ฌธ์ œ๋Š” ํ˜„์žฌ ๋กœ๋ด‡๊ณตํ•™์—์„œ ํฌ๊ฒŒ ์ฃผ๋ชฉ๋ฐ›๋Š” ๋„์ „ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•๋“ค์—์„œ๋Š” ์ฃผ๋กœ ๊ฐ ์ƒํ™ฉ์— ํŠนํ™”๋œ ๊ธฐ๋ฒ•์ด๋‚˜ ์‹œ๋ฒ” ํ•™์Šต์— ์˜์กดํ•˜๊ณค ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌผ์ฒด ์‚ฝ์ž… ๋ฌธ์ œ๋Š” ๋ฌผ์ฒด๋ณ„ ๋งž์ถค ํ”ผ์ฒ˜๋ฅผ ์“ฐ๊ฑฐ๋‚˜, ์ฒœ์ด๋‚˜ ๋ฐง์ค„ ์ž‘์—…์€ ์‚ฌ๋žŒ ์‹œ๋ฒ” ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋ชจ๋ฐฉ ํ•™์Šต์— ์˜์กดํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์งˆ๋ฌธ์€: ๊ณผ์—ฐ ํ•˜๋‚˜์˜ ํ•™์Šต๋œ ์ •์ฑ…์ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋ชจ์–‘์˜ ๋ฌผ์ฒด๋‚˜ ๋ณ€ํ˜•์ฒด๊นŒ์ง€ ํฌ๊ด„ํ•˜์—ฌ, ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ฐ•ํ™”ํ•™์Šต(RL)์œผ๋กœ ๋ฐฐ์šฐ๊ฒŒ ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์ž…๋‹ˆ๋‹ค.

๊ทธ๋ž˜ํ”„ ํ‘œํ˜„์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•œ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฐœ์ƒ์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด์˜ ๊ด€๊ณ„๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด, ๋ฌผ์ฒด์˜ ๊ฐ ๋ถ€๋ถ„์ด๋‚˜ ๋ณ€ํ˜•์ฒด์˜ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ๋…ธ๋“œ(node)๋กœ ๋ณด๊ณ , ๋…ธ๋“œ๋“ค ์‚ฌ์ด์˜ ๋ฌผ๋ฆฌ์ /๊ธฐํ•˜ํ•™์  ๊ด€๊ณ„๋ฅผ ์—ฃ์ง€(edge)๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋กœ๋ด‡ ํ•™์Šต ๋ถ„์•ผ์—์„œ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋Š” ๋„๋ฆฌ ์“ฐ์ด๊ณ  ์žˆ์œผ๋ฉฐ, ๋ฌผ์ฒด ์กฐ์ž‘์„ ๊ทธ๋ž˜ํ”„๋กœ ๋ชจ๋ธ๋งํ•˜๋ฉด ๊ตฌ์กฐ์ ์ธ ๊ท€๋‚ฉ_bias๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ์—ฐ๊ตฌ์—์„œ๋Š” ๋กœ๋ด‡์˜ ์—ฌ๋Ÿฌ ๊ด€์ ˆ๊ณผ ๋ฌผ์ฒด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜์—ฌ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•œ ์‚ฌ๋ก€๊ฐ€ ์žˆ์ง€์š” (Wang et al., 2018 ๋“ฑ). ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํ•œ ๊ฑธ์Œ ๋” ๋‚˜์•„๊ฐ€, ์ด์ข…(heterogeneous) ๊ทธ๋ž˜ํ”„๋กœ ๋กœ๋ด‡์˜ ์•ก์ถ”์—์ดํ„ฐ(end-effector ๊ฐ™์€ ๊ตฌ๋™ ์žฅ์น˜)์™€ ๋ฌผ์ฒด์˜ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด๊ฐ€ ๋งก๋Š” ์—ญํ• ์˜ ์ฐจ์ด๋ฅผ ๊ตฌ์กฐ์— ๋…น์—ฌ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ๊ทธ๋ž˜ํ”„ ๋…ธ๋“œ๋กœ ๋ฌผ์ฒด์˜ ๋ชจ๋“  ๊ตฌ์„ฑ ์ ๋“ค์„ ํ‘œํ˜„ํ•˜๋ฉด ์ƒํƒœ ์ฐจ์›์ด ๋งค์šฐ ์ปค์ง€๊ณ , 3์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ดˆ๊ธฐ/๋ชฉํ‘œ ์œ„์น˜๊ฐ€ ๋‹ค์–‘ํ•˜๊ฒŒ ์ฃผ์–ด์ง€๋ฉด ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ๊ธ‰๊ฒฉํžˆ ์ปค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋…ผ๋ฌธ์€ SE(3) ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ(3์ฐจ์› ํšŒ์ „๊ณผ ํ‰ํ–‰์ด๋™์˜ ๊ตฐ)์„ ์ด์šฉํ•œ ๋“ฑ๋ณ€(equivariant) ์‹ ๊ฒฝ๋ง์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•ด, ์ •์ฑ… ์‹ ๊ฒฝ๋ง์ด ํ™˜๊ฒฝ์˜ ํšŒ์ „์ด๋‚˜ ์ด๋™์— ๋”ฐ๋ผ ์ƒ์‘ํ•˜๊ฒŒ ์ถœ๋ ฅ๋„ ๋ณ€ํ•˜๋„๋ก ์ œ์•ฝ์„ ๊ฑฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ •์ฑ… f๊ฐ€ ์ƒํƒœ s๋ฅผ ๋ฐ›์•„ ํ–‰๋™ a๋ฅผ ๋‚ด๋†“๋Š” ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๋ฉด, SE(3) ๋“ฑ๋ณ€์„ฑ์ด๋ž€ ์ž„์˜์˜ ๊ณต๊ฐ„ ๋ณ€ํ™˜ g์— ๋Œ€ํ•ด f(g \cdot s) = g \cdot f(s)๋ฅผ ๋งŒ์กฑํ•จ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ๋กœ๋ด‡ ์ƒํƒœ s๋ฅผ 30๋„ ํšŒ์ „์‹œํ‚จ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์ •์ฑ…์ด ๋‚ด๋†“๋Š” ์ถœ๋ ฅ ํ–‰๋™๋„ ๋˜‘๊ฐ™์ด 30๋„ ํšŒ์ „๋œ ํ˜•ํƒœ๋กœ ๋‚˜์˜ค๋Š” ๊ฒƒ์ด์ฃ . ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋™์ผํ•œ ํŒจํ„ด์˜ ์กฐ์ž‘์„ ๊ตณ์ด ๋งค๋ฒˆ ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋‹ค์‹œ ํ•™์Šตํ•  ํ•„์š” ์—†์ด, ํ•œ ๋ฒˆ์˜ ํ•™์Šต์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฐฉํ–ฅ์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ‘œ๋ณธ ํšจ์œจ(sample efficiency)์„ ๋†’์ด๊ณ  ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฐ•๋ ฅํ•œ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋„ SE(3) ๋“ฑ๋ณ€์„ฑ์„ ํ™œ์šฉํ•œ ๋กœ๋ด‡ ํ•™์Šต ์—ฐ๊ตฌ๊ฐ€ ๋‹ค์ˆ˜ ๋‚˜์˜ค๊ณ  ์žˆ๋Š”๋ฐ, ๋Œ€๋ถ€๋ถ„์€ ๋ชจ๋ฐฉํ•™์Šต ๋“ฑ ๋น„๊ฐ•ํ™”ํ•™์Šต ๋งฅ๋ฝ์ด๊ฑฐ๋‚˜, ๋‹จ์ผํ•œ ๋ฌผ์ฒด ์ข…๋ฅ˜์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝ์—์„œ, ๊ทธ๊ฒƒ๋„ ๋‹ค์–‘ํ•œ ๋ฌผ์ฒด ํ˜•ํƒœ์™€ ๋ณ€ํ˜•์ฒด๊นŒ์ง€ ์•„์šฐ๋ฅด๋Š” ๊ณผ์ œ์— ๋“ฑ๋ณ€์„ฑ์„ ์ ์šฉํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ํฝ๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, ์ด ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” โ€œ๋กœ๋ด‡ ์กฐ์ž‘์„ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๊ณ , SE(3) ๋Œ€์นญ์„ฑ์„ ํ™œ์šฉํ•œ ๋“ฑ๋ณ€ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ์ •์ฑ…(HEPi)์„ ์ ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ํ˜•์ƒ/๋ณ€ํ˜•์ฒด ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ค์žโ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ์œ„ํ•ด ์ƒˆ๋กœ์šด RL ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ๋“ค๋„ ์„ค๊ณ„ํ–ˆ๋Š”๋ฐ, ์—ฌ๊ธฐ์—๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ์–‘์˜ ๋ฌผ์ฒด ๋ผ์šฐ๊ธฐ(์‚ฝ์ž…), ๋ฐง์ค„ ํœ˜๊ฐ๊ธฐ์™€ ๋ชจ์–‘ ๋งŒ๋“ค๊ธฐ, ์ฒœ ๊ฑธ๊ธฐ ๋“ฑ ๋‚œ์ด๋„ ๋†’์€ ์ž‘์—…๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ์ž‘์—…์—์„œ ์ดˆ๊ธฐ ์ƒํƒœ์™€ ๋ชฉํ‘œ๊ฐ€ 3์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ฃผ์–ด์ง€๋ฏ€๋กœ, ์ •์ฑ…์ด ์–ด๋–ค ๋ฐฉํ–ฅ์ด๋‚˜ ์–ด๋–ค ํ˜•ํƒœ์˜ ์ƒํ™ฉ์ด ์™€๋„ ์ž˜ ์ฒ˜๋ฆฌํ•˜๋„๋ก ํ•™์Šต๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊นŒ๋‹ค๋กœ์šด ์กฐ๊ฑด ์†์—์„œ๋„ ์ œ์•ˆ๋œ ์ด์ข… ๋“ฑ๋ณ€ ์ •์ฑ… HEPi๋Š” Transformer ๊ธฐ๋ฐ˜ ์ •์ฑ…์ด๋‚˜ ์ผ๋ฐ˜์ ์ธ ๋“ฑ๋ณ€ GNN ์ •์ฑ…๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ํ•™์Šตํ•˜๊ณ  ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ๊ณผ ๋ฏธ๊ฒฌ๋ณธ ๊ฐ์ฒด(unseen object)์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋ฉด์—์„œ ํฐ ์šฐ์œ„๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ์„น์…˜์—์„œ๋Š” ์ œ์•ˆ๋œ ๋ชจ๋ธ๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (HEPi)์˜ ๊ตฌ์กฐ๋ฅผ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ณ , ์ดํ›„ ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ํ•จ๊ป˜ ๊ทธ ์˜๋ฏธ๋ฅผ ๋ถ„์„ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ฐฉ๋ฒ•: ๊ธฐํ•˜ํ•™ ์ธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ HEPi ๊ตฌ์กฐ ๋ถ„์„

์ด์ข… ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•œ ์ƒํƒœ ํ‘œํ˜„

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋กœ๋ด‡ ๋ฐ ๋ฌผ์ฒด์˜ ๋ฌผ๋ฆฌ ์ƒํƒœ๋ฅผ ์ด์ข… ๊ทธ๋ž˜ํ”„(heterogeneous graph)๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๋…ธ๋“œ๋Š” ํฌ๊ฒŒ ๋‘ ์ข…๋ฅ˜๋กœ ๊ตฌ๋ถ„๋˜๋Š”๋ฐ, ๋กœ๋ด‡ ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ์™€ ๋ฌผ์ฒด ๊ตฌ์„ฑ ๋…ธ๋“œ์ž…๋‹ˆ๋‹ค. ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ๋Š” ๋กœ๋ด‡์˜ ๋ง๋‹จ_effector๋‚˜ ์ง‘๊ฒŒ์™€ ๊ฐ™์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ž‘ํ•˜๋Š” ์š”์†Œ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๋ฌผ์ฒด ๋…ธ๋“œ๋Š” ์กฐ์ž‘ ๋Œ€์ƒ ๋ฌผ์ฒด์˜ ์œ„์น˜๋‚˜ ํ˜•ํƒœ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ ๋“ค์ž…๋‹ˆ๋‹ค. ์ด์งˆ์ ์ธ ๋‘ ์ข…๋ฅ˜์˜ ๋…ธ๋“œ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, ๊ทธ๋ž˜ํ”„ ์ž์ฒด์— โ€œ์ด ๋…ธ๋“œ๋Š” ๋กœ๋ด‡, ์ด ๋…ธ๋“œ๋Š” ๋ฌผ์ฒดโ€๋ผ๋Š” ์—ญํ•  ์ •๋ณด๊ฐ€ ๋ฐ˜์˜๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์€ Cloth-Hanging (์ฒœ ๊ฑธ๊ธฐ) ์ž‘์—…์„ ๊ทธ๋ž˜ํ”„๋กœ ๋ชจ๋ธ๋งํ•œ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค. ํŒŒ๋ž€์ƒ‰ ๋…ธ๋“œ๋“ค์€ ์ฒœ ์กฐ๊ฐ์˜ ๋Œ€ํ‘œ ์ง€์ ๋“ค์ด๊ณ , ๋นจ๊ฐ„์ƒ‰ ๋…ธ๋“œ๋“ค์€ ์ฒœ ๋ชจ์„œ๋ฆฌ๋ฅผ ์ฅ” ๋กœ๋ด‡ ํŒ” (์•ก์ถ”์—์ดํ„ฐ)๋“ค์ž…๋‹ˆ๋‹ค. ๋นจ๊ฐ„ ๋…ธ๋“œ๋ผ๋ฆฌ, ํŒŒ๋ž€ ๋…ธ๋“œ๋ผ๋ฆฌ๋Š” ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด๋ถ€ ์—ฃ์ง€(๊ฒ€์€ ์‹ค์„ )๋กœ ์—ฐ๊ฒฐ๋˜์–ด ๊ฐ๊ฐ ๋กœ๋ด‡๋“ค ๊ฐ„, ๋ฌผ์ฒด ์ง€์ ๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด์ข… ๊ฐ„์˜ ์—ฃ์ง€(์ ์„ )๋Š” ๋ชจ๋“  ๋ฌผ์ฒด ๋…ธ๋“œ์™€ ๋ชจ๋“  ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ ์‚ฌ์ด์— ์ „๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ฒฐ๋˜์–ด, ๋กœ๋ด‡์ด ๋ฌผ์ฒด์˜ ๋ชจ๋“  ๋ถ€๋ถ„ ์ •๋ณด๋ฅผ ์ „๋‹ฌ๋ฐ›์„ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค (์ฆ‰ fully-connected inter-edge ๊ตฌ์กฐ). ์ด๋Ÿฌํ•œ ๊ทธ๋ž˜ํ”„ ํ‘œํ˜„์€ ๋‹จ์ผ ํ”„๋ ˆ์ž„์—์„œ์˜ ์ƒํƒœ๋ฟ ์•„๋‹ˆ๋ผ, ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์ƒํ˜ธ์ž‘์šฉ๋„ ๋‚ดํฌํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ํ•œ ๋กœ๋ด‡ ํŒ”์ด ์ฒœ์˜ ํ•œ ์ง€์ ์„ ์žก๊ณ  ์›€์ง์ด๋ฉด, ๊ทธ๋ž˜ํ”„ ๋‚ด ํ•ด๋‹น ๋นจ๊ฐ„ ๋…ธ๋“œ์™€ ํŒŒ๋ž€ ๋…ธ๋“œ ์‚ฌ์ด์˜ ์ƒํ˜ธ์ž‘์šฉ ์—ฃ์ง€๋ฅผ ํ†ตํ•ด ํž˜ ์ „๋‹ฌ ๋ฐ ์œ„์น˜ ๋ณ€ํ™” ์ •๋ณด๊ฐ€ ํ๋ฅด๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ทธ๋ž˜ํ”„ ๋…ธ๋“œ์˜ ํ”ผ์ฒ˜(feature)๋กœ๋Š” ๊ธฐํ•˜ํ•™์  ์ƒํƒœ ๋ฒกํ„ฐ๋“ค์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๊ฐ ๋…ธ๋“œ๋Š” ์ž์‹ ์˜ 3์ฐจ์› ์œ„์น˜ ์ขŒํ‘œ p (๋˜๋Š” ์ž์„ธ orientation)์„ ํฌํ•จํ•œ ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์—์„œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์†๋„ ๋ฒกํ„ฐ๋‚˜ ๊ฐ€์†๋„ ๋“ฑ์˜ ๋™์  ์ •๋ณด๋„ ๋…ธ๋“œ ํ”ผ์ฒ˜๋กœ ํฌํ•จ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ™˜๊ฒฝ์— ๋”ฐ๋ผ์„œ๋Š” ๋ชฉํ‘œ์™€์˜ ๊ฑฐ๋ฆฌ๋‚˜ ์ดˆ๊ธฐ ํ˜•์ƒ ๋Œ€๋น„ ๋ณ€ํ™”๋Ÿ‰ ๊ฐ™์€ ๋ถ€๊ฐ€ ์ •๋ณด๋„ ๊ฐ ๋…ธ๋“œ์˜ ํ”ผ์ฒ˜๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐง์ค„์„ ํŠน์ • ๋ชจ์–‘์œผ๋กœ ํ˜•ํƒœ ๋งž์ถ”๋Š” ์ž‘์—…(rope shaping)์—์„œ๋Š” ํ˜„์žฌ ๋ฐง์ค„์˜ ๋ชจ์–‘๊ณผ ๋ชฉํ‘œ ๋ชจ์–‘์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” shape descriptor๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ, ๊ทธ์ค‘ ๊ฐ ๋…ธ๋“œ(๋ฐง์ค„ ์„ธ๊ทธ๋จผํŠธ)์— ๊ด€๋ จ๋œ ๋ถ€๋ถ„์„ ํ”ผ์ฒ˜๋กœ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ฒœ ๊ฑธ๊ธฐ ์ž‘์—…์—์„œ๋Š” ์ฒœ์— ๋šซ๋ฆฐ ๊ตฌ๋ฉ ์ฃผ๋ณ€์˜ ๋…ธ๋“œ๋“ค์ด ์˜ท๊ฑธ์ด ๋ง‰๋Œ€๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋‚˜ ์ดˆ๊ธฐ ๊ตฌ๋ฉ ์œ„์น˜ ๋Œ€๋น„ ๋ณ€์œ„ ๋“ฑ์„ ์†์„ฑ์œผ๋กœ ๊ฐ–์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, ์ €์ž๋“ค์ด ๋ชฉํ‘œ๋ฌผ ์ž์ฒด๋ฅผ ๋ณ„๋„์˜ ๋…ธ๋“œ๋กœ ์ทจ๊ธ‰ํ•˜์ง€ ์•Š๊ณ  ์ด๋Ÿฐ ์‹์œผ๋กœ ๋…ธ๋“œ๋“ค์˜ ํ”ผ์ฒ˜๋กœ ๋ชฉํ‘œ ์ •๋ณด๋ฅผ ํก์ˆ˜ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ทธ๋ž˜ํ”„์— ๋ถˆํ•„์š”ํ•œ ๋…ธ๋“œ ์ข…๋ฅ˜๋ฅผ ๋Š˜๋ฆฌ์ง€ ์•Š์œผ๋ฉด์„œ๋„, ๊ฐ ๊ตฌ์„ฑ ๋…ธ๋“œ๊ฐ€ ๋ชฉํ‘œ์™€์˜ ์ƒ๋Œ€์  ๊ด€๊ณ„๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์„ค๊ณ„์ฃ .

์ด ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ์˜ ์žฅ์ ์€ ํ‘œํ˜„์˜ ํ†ต์ผ์„ฑ์ž…๋‹ˆ๋‹ค. ๋‹จ๋‹จํ•œ(rigid) ๋ฌผ์ฒด๋‚˜ ๋ฐง์ค„/์ฒœ ๊ฐ™์€ ๋ณ€ํ˜•์ฒด ๋ชจ๋‘ ๋™์ผํ•œ ๊ทธ๋ž˜ํ”„ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ๋‹จํ•œ ๋ฌผ์ฒด๋ผ๋ฉด ๋…ธ๋“œ ๊ฐ„ ๊ณ ์ •๋œ ๊ธฐํ•˜ํ•™์  ๊ด€๊ณ„(์˜ˆ: ๋ฌผ์ฒด ํ‘œ๋ฉด์˜ ์ ๋“ค ์‚ฌ์ด ๊ฑฐ๋ฆฌ ์ผ์ • ๋“ฑ)๊ฐ€ ์žˆ์„ ํ…Œ๊ณ , ๋ณ€ํ˜•์ฒด๋ผ๋ฉด ๋…ธ๋“œ ๊ฐ„ ์‹œ์‹œ๊ฐ๊ฐ ๋ณ€ํ•˜๋Š” ๊ด€๊ณ„(์˜ˆ: ์ธ์ ‘ํ•œ ์ฒœ ์ž…์ž ๊ฐ„ ๊ฑฐ๋ฆฌ)๋„ ์กด์žฌํ•  ๊ฒ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ด€๊ณ„๋“ค ์—ญ์‹œ ๊ทธ๋ž˜ํ”„์˜ ๋‚ด๋ถ€ ์—ฃ์ง€๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐง์ค„์„ 80๊ฐœ์˜ ์งง์€ ๋งํฌ๋กœ ๋ชจ๋ธ๋งํ–ˆ๋‹ค๋ฉด ์ธ์ ‘ ๋งํฌ๋“ค ์‚ฌ์ด์— ์—ฐ์†์„ฑ ๊ด€๊ณ„ ์—ฃ์ง€๋ฅผ ๋„ฃ์„ ์ˆ˜ ์žˆ๊ณ , ์ฒœ์€ ๋ฉ”์‰ฌ ํ˜•ํƒœ๋กœ ์ž…์ž๋“ค์ด ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์ธ์ ‘ ์ž…์ž๋“ค ์‚ฌ์ด์— ์Šคํ”„๋ง ํž˜์„ ๋‚˜ํƒ€๋‚ด๋Š” ์—ฃ์ง€๋ฅผ ๋‘˜ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ(IsaacGym)์˜ ๋ฌผ๋ฆฌ ์—”์ง„์€ ์ด๋Ÿฌํ•œ ์งˆ์ -์Šคํ”„๋ง ๋ชจ๋ธ๋กœ ๋ฐง์ค„๊ณผ ์ฒœ์„ ๊ณ„์‚ฐํ•˜๋ฉฐ, ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋Š” ๊ทธ๋ž˜ํ”„๋„ ๊ทธ์™€ ๋™์ผํ•˜๊ฒŒ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ทธ๋ž˜ํ”„ ์ƒ์—์„œ ๋…ธ๋“œ-์ด์›ƒ ๊ฐ„ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ๋กœ ํž˜์ด๋‚˜ ์œ„์น˜ ์ •๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ›๋Š” ๊ฒƒ์€ ๊ณง ์‹ค์ œ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ƒ์˜ ์ƒํ˜ธ์ž‘์šฉ๋ฅผ ๊ทผ์‚ฌํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ •๋ฆฌํ•˜๋ฉด, ์ด์ข… ๊ทธ๋ž˜ํ”„ ์ƒํƒœ ํ‘œํ˜„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์  ํŠน์ง•์„ ๊ฐ–์Šต๋‹ˆ๋‹ค:

  • ๋…ธ๋“œ ์ข…๋ฅ˜: ์•ก์ถ”์—์ดํ„ฐ(๋กœ๋ด‡) ๋…ธ๋“œ vs. ๋ฌผ์ฒด(๋Œ€์ƒ) ๋…ธ๋“œ ๋‘ ๊ฐ€์ง€๋กœ ๊ตฌ๋ถ„. ๊ฐ ๋…ธ๋“œ๋Š” ์ž๊ธฐ ํƒ€์ž…์„ ๋‚˜ํƒ€๋‚ด๋Š” ์‹๋ณ„์ž์™€ ํ•จ๊ป˜ ์œ„์น˜, ์†๋„ ๋“ฑ ์ƒํƒœ ํ”ผ์ฒ˜๋ฅผ ๊ฐ€์ง.
  • ์—ฃ์ง€ ์ข…๋ฅ˜:
  • ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด๋ถ€ ์—ฃ์ง€ (intra-edge): ๊ฐ™์€ ์ข…๋ฅ˜ ๋…ธ๋“œ๋“ค๋ผ๋ฆฌ ์—ฐ๊ฒฐ. ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค ๊ฐ„ ์—ฃ์ง€๋Š” ๋‹ค์ˆ˜ ๋กœ๋ด‡์ด ์žˆ์„ ๋•Œ ์ƒํ˜ธ ํ˜‘์กฐ ๊ด€๊ณ„ ํŒŒ์•…์— ์‚ฌ์šฉ๋˜๊ณ , ๋ฌผ์ฒด ๋…ธ๋“œ๋“ค ๊ฐ„ ์—ฃ์ง€๋Š” ๋ฌผ์ฒด์˜ ๋ถ€๋ถ„๋“ค ๊ฐ„ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ(์ธ์ ‘์„ฑ, ์—ฐ์„ฑ็ญ‰)๋ฅผ ๋ฐ˜์˜.
  • ํด๋Ÿฌ์Šคํ„ฐ ๊ฐ„ ์—ฃ์ง€ (inter-edge): ์ด์ข… ๋…ธ๋“œ ์‚ฌ์ด๋ฅผ ์ „๋ฐฉํ–ฅ ์™„์ „ ์—ฐ๊ฒฐ๋กœ ์ž‡๋Š” ์—ฃ์ง€๋“ค. ๋ชจ๋“  ๋ฌผ์ฒด ๋…ธ๋“œ์˜ ์ •๋ณด๊ฐ€ ๋ชจ๋“  ์•ก์ถ”์—์ดํ„ฐ๋กœ ์ „๋‹ฌ๋  ์ˆ˜ ์žˆ๋Š” ํ†ต๋กœ๋กœ์„œ, ๊ฐ์ฒด-๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ์„ ๋‹ด๋‹น. ๋…ผ๋ฌธ์—์„œ๋Š” โ€œ์ •๋ณด๋Š” ๋ฌผ์ฒด์—์„œ ๋กœ๋ด‡์œผ๋กœ ์ง‘๊ณ„๋œ๋‹คโ€๋ผ๊ณ  ํ‘œํ˜„ํ•˜์—ฌ, ์ฃผ๋กœ ๋ฌผ์ฒดโ†’๋กœ๋ด‡ ๋ฐฉํ–ฅ์˜ ๋ฉ”์‹œ์ง€ ํ๋ฆ„์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค. (ํ•„์š”์— ๋”ฐ๋ผ ๋กœ๋ด‡โ†’๋ฌผ์ฒด ํ”ผ๋“œ๋ฐฑ๋„ ๊ฐ€๋Šฅํ•˜๋‚˜, ์ •์ฑ… ๊ฒฐ์ • ๋ฉด์—์„œ ํ•ต์‹ฌ์€ ๋กœ๋ด‡์ด ๋ฌผ์ฒด ์ •๋ณด๋ฅผ ์–ป๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.)

์ด๋ ‡๊ฒŒ ํ˜•์„ฑ๋œ ๊ทธ๋ž˜ํ”„๋Š” ์ผ์ข…์˜ ๋™์—ญํ•™ ๊ณ„์˜ ๊ตฌ์กฐํ™”๋œ ํ‘œํ˜„์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ด ๊ทธ๋ž˜ํ”„๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ–‰๋™ ์ถœ๋ ฅ์„ ๋‚ด๋†“๋Š” ์ •์ฑ… ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ œ์•ˆ๋˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ ์ด์ข… ๋“ฑ๋ณ€ ์ •์ฑ… (HEPi) ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

SE(3) ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์‹ ๊ฒฝ๋ง (EMPN)

HEPi์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” ์‹ ๊ฒฝ๋ง์€ SE(3) ๋“ฑ๋ณ€(equivariant) ์„ฑ์งˆ์„ ์ง€๋‹Œ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ๋“ฑ๋ณ€์„ฑ์ด๋ž€ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ์ด, ์ž…๋ ฅ ๊ทธ๋ž˜ํ”„๋ฅผ ์–ด๋–ค ๊ณต๊ฐ„ ๋ณ€ํ™˜(ํšŒ์ „ ๋˜๋Š” ์ด๋™)ํ–ˆ์„ ๋•Œ ์ถœ๋ ฅ๋„ ๋˜‘๊ฐ™์ด ๋ณ€ํ™˜๋˜๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์ •์ฑ… ํ•จ์ˆ˜๋กœ ๊ฐœ๋…์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด: \pi(g \cdot s) = g \cdot \pi(s) ๋ชจ๋“  SE(3) ๋ณ€ํ™˜ g์™€ ์ƒํƒœ s์— ๋Œ€ํ•ด ์„ฑ๋ฆฝํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ g \cdot s๋Š” ์ƒํƒœ s์˜ ๋ชจ๋“  ์ขŒํ‘œ์— ๋ณ€ํ™˜ g (์˜ˆ์ปจ๋Œ€ 30๋„ ํšŒ์ „)์„ ์ ์šฉํ•œ ์ƒํƒœ์ด๊ณ , g \cdot \pi(s)๋Š” ์ •์ฑ…์ด ๋‚ธ ํ–‰๋™์˜ ์ขŒํ‘œ์— ๋™์ผํ•œ ๋ณ€ํ™˜ g๋ฅผ ์ ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋“ฑ๋ณ€ ์ •์ฑ…์€ ํ™˜๊ฒฝ์˜ ๋Œ€์นญ์„ฑ(symmetry)์„ ์ด์šฉํ•ด ํ•™์Šต ํšจ์œจ์„ ๋†’์ด๋Š”๋ฐ, ์™œ ๊ทธ๋Ÿฐ์ง€ ๊ฐ„๋‹จํ•œ ์˜ˆ๋กœ ์„ค๋ช…ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์ •์œก๋ฉด์ฒด ๋ธ”๋ก์„ ๋ผ์šฐ๋Š” ์ž‘์—…์„ ํ•™์Šตํ•œ๋‹ค๊ณ  ํ•ฉ์‹œ๋‹ค. ํ™˜๊ฒฝ์˜ ๋Œ€์นญ์„ฑ์„ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š” ์ผ๋ฐ˜ ์‹ ๊ฒฝ๋ง์€, ๋ธ”๋ก์ด 0๋„์ธ ๊ฒฝ์šฐ, 90๋„ ํšŒ์ „๋œ ๊ฒฝ์šฐ, 45๋„์ธ ๊ฒฝ์šฐ ๋“ฑ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๊ฐ๋„๋กœ ๋†“์ธ ์ƒํ™ฉ๋“ค์„ ์ผ์ผ์ด ๋ณ„๊ฐœ๋กœ ๋ณด๋ฉฐ ํ•™์Šตํ•ด์•ผ ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํšŒ์ „ ๋“ฑ๋ณ€์„ฑ์„ ์ง€๋‹Œ ์‹ ๊ฒฝ๋ง์€ ๋ธ”๋ก์ด 90๋„ ๋Œ์•„๊ฐ€ ์žˆ์–ด๋„ ์ด๋ฅผ 0๋„์˜ ๊ฒฝ์šฐ์™€ ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ™์€ ์ƒํ™ฉ์œผ๋กœ ์ธ์‹ํ•˜๊ณ , ์˜ˆ์ธกํ•œ ํ–‰๋™๋„ 90๋„ ํšŒ์ „๋œ ๊ฒฐ๊ณผ๋กœ ์ž๋™ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ํ•˜๋‚˜์˜ ๋ฐฉํ–ฅ์—์„œ ์Šต๋“ํ•œ ์‚ฝ์ž… ์Šคํ‚ฌ์„ ๋ชจ๋“  ๋ฐฉํ–ฅ์œผ๋กœ ์ฆ‰๊ฐ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ถˆํ•„์š”ํ•œ ์ค‘๋ณต ํ•™์Šต์ด ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ ์ €์ž๋“ค๋„ ์ด๋Ÿฌํ•œ ๋Œ€์นญ์„ฑ ํ™œ์šฉ์œผ๋กœ ํƒ์ƒ‰ ๊ณต๊ฐ„ ๋ณต์žก๋„๋ฅผ ํฌ๊ฒŒ ์ค„์˜€๋‹ค๊ณ  ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์—์„œ SE(3) ๋“ฑ๋ณ€์„ฑ์„ ์–ด๋–ป๊ฒŒ ๊ตฌํ˜„ํ• ๊นŒ์š”? ์ด๋ฅผ ์œ„ํ•ด ์ €์ž๋“ค์€ ๊ธฐ์กด ์—ฐ๊ตฌ์ธ PONITA ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋„คํŠธ์›Œํฌ(Equivariant MPN)๋ฅผ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์‹ ๊ฒฝ๋ง(MPNN)์—์„œ๋Š” ๊ฐ ๋…ธ๋“œ๊ฐ€ ์ด์›ƒ ๋…ธ๋“œ๋“ค์˜ ํ”ผ์ฒ˜๋ฅผ ๋ฐ›์•„๋“ค์—ฌ ์ž์‹ ์˜ ์€๋‹‰ ์ƒํƒœ๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋…ธ๋“œ v์˜ ์ƒํƒœ ์—…๋ฐ์ดํŠธ๋Š” ๋ณดํ†ต ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

h_{v}^{(k + 1)} = \phi\left( \mspace{6mu} h_{v}^{(k)},\mspace{6mu}\mspace{6mu}\bigoplus_{u \in N(v)}\psi\left( h_{v}^{(k)},\mspace{6mu} h_{u}^{(k)},\mspace{6mu} e_{uv} \right)\mspace{6mu} \right),

์—ฌ๊ธฐ์„œ h^{(k)}*v๋Š” ๋…ธ๋“œ v์˜ k๋ฒˆ์งธ ๊ณ„์ธต(layer) ๋˜๋Š” ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์Šคํ…์—์„œ์˜ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ, N(v)๋Š” v์˜ ์ด์›ƒ ๋…ธ๋“œ ์ง‘ํ•ฉ, ๊ทธ๋ฆฌ๊ณ  e*๋Š” ์—ฃ์ง€ (u,v)์˜ ํŠน์„ฑ(์žˆ๋‹ค๋ฉด)์ž…๋‹ˆ๋‹ค. ํ•จ์ˆ˜ \psi๋Š” ์ด์›ƒ u๋กœ๋ถ€ํ„ฐ ์˜ค๋Š” ๋ฉ”์‹œ์ง€๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์—ญํ• , \phi๋Š” v ๋…ธ๋“œ์˜ ํ˜„์žฌ ์ƒํƒœ์™€ ์ด์›ƒ์œผ๋กœ๋ถ€ํ„ฐ ์˜จ ๋ฉ”์‹œ์ง€๋“ค์„ ํ†ตํ•ฉ(aggregate)ํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ๋‚ด๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. \bigoplus๋Š” ์ด์›ƒ ๋ฉ”์‹œ์ง€์˜ ๋ชจ์ข…์˜ ์ง‘๊ณ„ ์—ฐ์‚ฐ(sum, mean ๋“ฑ)์ž…๋‹ˆ๋‹ค. ๋“ฑ๋ณ€ MPNN์—์„œ๋Š” ์ด \psi์™€ \phi๋ฅผ ์„ค๊ณ„ํ•  ๋•Œ ์ขŒํ‘œ๊ณ„ ๋ณ€ํ™˜์— ๋”ฐ๋ผ ์ ์ ˆํžˆ ๋ณ€ํ™˜๋˜๋Š” ํŠน์ง•๋งŒ ์‚ฌ์šฉํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด, ๋‘ ๋…ธ๋“œ ๊ฐ„ ์ƒ๋Œ€์ ์ธ ์œ„์น˜๋‚˜ ๋ฐฉํ–ฅ์„ ๋ฉ”์‹œ์ง€์— ํ™œ์šฉํ•˜๋˜, ๊ทธ ๊ฐ’๋“ค์„ ํšŒ์ „ํ–ˆ์„ ๋•Œ ์˜ˆ์ธก๋„ ๋˜‘๊ฐ™์ด ํšŒ์ „๋˜๋Š” ํ˜•ํƒœ๋กœ ๋งŒ๋“ค์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋…ผ๋ฌธ์€ ๊ณต๊ฐ„์  ๋ถ€๋ถ„๊ณผ ๋ฐฉํ–ฅ์  ๋ถ€๋ถ„์œผ๋กœ ๋ฉ”์‹œ์ง€๋ฅผ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋…ธ๋“œ u์™€ v์˜ ์œ„์น˜๋ฒกํ„ฐ๋ฅผ p_u, p_v๋ผ ํ•˜๋ฉด, \psi ๊ณ„์‚ฐ์— ์ƒ๋Œ€ ์œ„์น˜ p_u - p_v๋ฅผ ํฌํ•จ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๋ฒกํ„ฐ๋Š” v์—์„œ u๋ฅผ ๊ฐ€๋ฆฌํ‚ค๋Š” ๋ฐฉํ–ฅ์ด๋ฏ€๋กœ, ํ™˜๊ฒฝ์ด ํšŒ์ „ํ•˜๋ฉด ๊ฐ™์€ ์‹์œผ๋กœ ํšŒ์ „๋˜์–ด ๋ณ€ํ•ฉ๋‹ˆ๋‹ค. ๋˜ ๋…ธ๋“œ์˜ ๋ฐฉํ–ฅ orientation ๋‹จ์œ„๋ฒกํ„ฐ o_v, o_u (์˜ˆ: ๋กœ๋ด‡ ๋์˜ ๋ฐฉํ–ฅ, ๋ฌผ์ฒด ํ‘œ๋ฉด ๋ฒ•์„  ๋“ฑ)์„ ํ™œ์šฉํ•ด o_v \cdot o_u ๊ฐ™์€ ๋‚ด์ (dot product)๋„ ๋ฉ”์‹œ์ง€์— ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋‚ด์ ์€ ๋‘ ๋ฐฉํ–ฅ ์‚ฌ์ด์˜ ๊ฐ๋„์ฐจ ์ •๋ณด๋ฅผ ์ค๋‹ˆ๋‹ค. ์ด ์—ญ์‹œ ๋‘ ๋ฒกํ„ฐ๋ฅผ ๋™์ผํ•˜๊ฒŒ ํšŒ์ „ํ•˜๋ฉด ๋‚ด์  ๊ฐ’์€ ๋ถˆ๋ณ€์ด๋ฏ€๋กœ, ํšŒ์ „๋œ ์ƒํ™ฉ์—์„œ๋„ ๋˜‘๊ฐ™์€ ํŠน์ง•์œผ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์ƒ๋Œ€ ์œ„์น˜ (translation์—๋งŒ ์˜์กด)์™€ ๋ฐฉํ–ฅ ๊ฐ„ ๊ฐ๋„ (rotation์— ๋ถˆ๋ณ€) ๋“ฑ์„ ์กฐํ•ฉํ•˜์—ฌ ๋ฉ”์‹œ์ง€๋ฅผ ๋งŒ๋“ค๋ฉด, ์ „์ฒด ๋„คํŠธ์›Œํฌ๊ฐ€ SE(3) ๋ณ€ํ™˜์— ๊ณต๋ณ€ํ•˜๊ฒŒ ํ–‰๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, ๋„คํŠธ์›Œํฌ๋Š” ์ ˆ๋Œ€ ์ขŒํ‘œ๋ณด๋‹ค๋Š” ๋…ธ๋“œ ๊ฐ„ ์ƒ๋Œ€์ ์ธ ๊ธฐํ•˜ ๊ด€๊ณ„์— ์˜์กดํ•˜์—ฌ ํŒ๋‹จํ•˜๋„๋ก ์œ ๋„๋˜๋Š” ๊ฒƒ์ด์ฃ .

์ €์ž๋“ค์ด ์‚ฌ์šฉํ•œ PONITA ๊ธฐ๋ฐ˜ EMPN์€ ์œ„ ์•„์ด๋””์–ด๋ฅผ ๋”์šฑ ๋ฐœ์ „์‹œ์ผœ, ๊ณ„์‚ฐ ํšจ์œจ๊ณผ ํ‘œํ˜„ ๋Šฅ๋ ฅ์„ ๋ชจ๋‘ ์žก์€ ํ˜•ํƒœ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์ธ ์ปค๋„ ํ•จ์ˆ˜๋‚˜ ๊ตฌํ˜„ ๋ฐฉ์‹์€ ๋…ผ๋ฌธ์— ์ž์„ธํžˆ ๋‚˜์™€ ์žˆ์ง€๋Š” ์•Š์ง€๋งŒ, ์š”์ง€๋Š” ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜๋ฅผ ๊ณต๊ฐ„ ๋ถ€๋ถ„๊ณผ ๋ฐฉํ–ฅ ๋ถ€๋ถ„, ํ”ผ์ฒ˜ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„๋ฆฌํ•ด ์ธ์ฝ”๋”ฉํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ ๋„ ๋“ฑ๋ณ€์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ด EMPN์€ ๋Œ€์นญ์„ฑ์ด ๋งŽ์€ ํ™˜๊ฒฝ์—์„œ๋„ ํฐ ๋ชจ๋ธ ์—†์ด ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. ํŠนํžˆ 3์ฐจ์› ์กฐ์ž‘์—์„œ๋Š” ํšŒ์ „ ์ž์œ ๋„๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋Ÿฐ SE(3) ๋“ฑ๋ณ€ ์ œ์•ฝ์„ ๊ฑธ๋ฉด ํ•™์Šตํ•ด์•ผ ํ•  ์ƒํ™ฉ ์ˆ˜๋ฅผ ์ด๋ก ์ƒ 360๋„ ๋ฒ”์œ„๋งŒํผ ์ค„์ด๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์™€ ๊ด€๋ จ๋œ ์„ ํ–‰ ์—ฐ๊ตฌ๋“ค(Zeng et al., 2020; Huang et al., 2022 ๋“ฑ)๋„ ์‹คํ—˜์ ์œผ๋กœ ๋“ฑ๋ณ€ GNN์ด ๊ทธ๋ ‡์ง€ ์•Š์€ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฒƒ์„ ๋ณด์ธ ๋ฐ” ์žˆ์Šต๋‹ˆ๋‹ค.

HEPi ์ •์ฑ… ๊ตฌ์กฐ: ์ด์งˆ์„ฑ ํ™œ์šฉ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ

์ด์ œ Heterogeneous Equivariant Policy (HEPi)์˜ ์ „์ฒด ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. HEPi๋Š” ์ด๋ฆ„์ฒ˜๋Ÿผ ์ด์ข…(heterogeneous) ๊ทธ๋ž˜ํ”„์˜ ํŠน์„ฑ์„ ์ œ๋Œ€๋กœ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•ด ํŠน๋ณ„ํžˆ ๊ณ ์•ˆ๋œ ์ •์ฑ… ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ๊ฐœ๋…์€ โ€œ๊ฐ๊ฐ์˜ ๋…ธ๋“œ ํƒ€์ž…(์•ก์ถ”์—์ดํ„ฐ vs ๋ฌผ์ฒด)์— ๋งž๊ฒŒ ๋”ฐ๋กœ ์ฒ˜๋ฆฌํ•  ๊ฑด ์ฒ˜๋ฆฌํ•˜๊ณ , ์ •๋ณด ๊ตํ™˜์ด ํ•„์š”ํ•œ ๋ถ€๋ถ„๋งŒ ํšจ๊ณผ์ ์œผ๋กœ ๊ตํ™˜ํ•˜์žโ€์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด HEPi๋Š” ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๊ณผ์ •์„ ๊ฑฐ์น˜๋Š”๋ฐ, ํฌ๊ฒŒ ์ง€์—ญ ์ฒ˜๋ฆฌ ๋‹จ๊ณ„(๋™์งˆ ๋…ธ๋“œ ๊ฐ„)์™€ ์ „์—ญ ์ฒ˜๋ฆฌ ๋‹จ๊ณ„(์ด์ข… ๋…ธ๋“œ ๊ฐ„)๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ, ๋กœ๋ด‡๋“ค ์‚ฌ์ด์— ๋จผ์ € ํ˜‘์กฐ๋ฅผ ๋งž์ถ”๊ณ  ๋ฌผ์ฒด์˜ ๋ถ€๋ถ„๋“ค๋ผ๋ฆฌ๋„ ์„œ๋กœ ์ƒํƒœ๋ฅผ ๊ณต์œ ํ•œ ๋‹ค์Œ, ๋กœ๋ด‡์ด ๋ฌผ์ฒด์˜ ์ƒ์„ธ ์ •๋ณด๋ฅผ ๋ฐ›์•„ ์ตœ์ข… ํ–‰๋™์„ ๊ฒฐ์ •ํ•˜๋Š” ํ๋ฆ„์ž…๋‹ˆ๋‹ค.

1) ๋ฌผ์ฒด ๋…ธ๋“œ๋“ค์˜ ์ง€์—ญ ์ฒ˜๋ฆฌ: ์šฐ์„  ๋ฌผ์ฒด ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด์—์„œ ๋ฌผ์ฒด-๋ฌผ์ฒด ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ด ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒœ์ด๋ผ๋ฉด ์ธ์ ‘ํ•œ ์ฒœ ์ž…์ž ๋…ธ๋“œ๋“ค๋ผ๋ฆฌ ์„œ๋กœ์˜ ๋ณ€์œ„๋‚˜ ์žฅ๋ ฅ ์ •๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ›์•„ ์ฒœ์˜ ํ˜„์žฌ ๋ณ€ํ˜• ์ƒํƒœ๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹จ๋‹จํ•œ ๋ฌผ์ฒด๋ผ ํ•ด๋„, ๋ฌผ์ฒด ํ‘œ๋ฉด์„ ๋Œ€ํ‘œํ•˜๋Š” ์—ฌ๋Ÿฌ ๋…ธ๋“œ๋“ค์ด ์žˆ๋‹ค๋ฉด ๊ทธ๋“ค ๊ฐ„ ์ƒ๋Œ€ ์œ„์น˜๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ๋ฌผ์ฒด์˜ ๋ชจ์–‘ ๋˜๋Š” ์ž์„ธ๋ฅผ ์ธ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์•ก์ถ”์—์ดํ„ฐ ์ •๋ณด๋Š” ๊ฐœ์ž…ํ•˜์ง€ ์•Š๊ณ , ๋ฌผ์ฒด ์ž์ฒด์˜ ๊ตฌ์กฐ์  ์ƒํƒœ๋ฅผ ๊ฐ ๋ฌผ์ฒด ๋…ธ๋“œ๋“ค์ด ์š”์•ฝํ•ด ๋‚˜๊ฐ„๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2) ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค์˜ ์ง€์—ญ ์ฒ˜๋ฆฌ: ๋™์‹œ์— ๋˜๋Š” ์ด์–ด์„œ, ์•ก์ถ”์—์ดํ„ฐ ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด ๋กœ๋ด‡-๋กœ๋ด‡ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ด ์ด๋ค„์ง‘๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ•˜๋‚˜์˜ ๋กœ๋ด‡ ์†๋๋งŒ ์žˆ๋‹ค๋ฉด ์ด ๊ณผ์ •์€ ์˜๋ฏธ๊ฐ€ ์—†์ง€๋งŒ, ๋‘ ๊ฐœ ์ด์ƒ์˜ ํ˜‘๋™ ๋กœ๋ด‡ ํŒ”์ด ์žˆ๋Š” ๊ฒฝ์šฐ์—๋Š” ์„œ๋กœ์˜ ์œ„์น˜๋‚˜ ์†๋„๋ฅผ ๊ตํ™˜ํ•˜์—ฌ ํ˜‘์กฐ์ ์ธ ์ „๋žต์„ ์„ธ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ๋‘ ๋กœ๋ด‡ ํŒ”์ด ํ•จ๊ป˜ ๋ฌผ์ฒด๋ฅผ ๋ฐ€๊ฑฐ๋‚˜ ๋‹น๊ธฐ๋Š” ์ž‘์—…์—์„œ๋Š”, ์ƒ๋Œ€ ๋กœ๋ด‡์˜ ์›€์ง์ž„ ๋ฐฉํ–ฅ์„ ์•Œ์•„์•ผ ์ถฉ๋Œ์„ ํ”ผํ•˜๊ณ  ํž˜์„ ํ•ฉ์น  ์ˆ˜ ์žˆ์„ ๊ฒ๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋ฌผ์ฒด ์ •๋ณด ์—†์ด ๋กœ๋ด‡๋“ค ๊ฐ„ ์กฐ์œจ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.

3) ์ „์—ญ ์ƒํ˜ธ์ž‘์šฉ ์ฒ˜๋ฆฌ: ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋‹จ๊ณ„๋กœ, ๋ฌผ์ฒด ๋…ธ๋“œ๋“ค์˜ ์ •๋ณด๊ฐ€ ๋กœ๋ด‡ ๋…ธ๋“œ๋กœ ์ „๋‹ฌ๋˜๋Š” ์ด์ข… ๊ฐ„ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ž…๋‹ˆ๋‹ค. HEPi์—์„œ๋Š” ๋ชจ๋“  ๋ฌผ์ฒด ๋…ธ๋“œ๋กœ๋ถ€ํ„ฐ ๋ชจ๋“  ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ๋กœ ๋ฉ”์‹œ์ง€๊ฐ€ ์ „๋‹ฌ๋˜๋„๋ก ์™„์ „ ์—ฐ๊ฒฐ๋œ ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“ค์—ˆ๊ณ , ์ด ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜๋„ ๋‹น์—ฐํžˆ SE(3) ๋“ฑ๋ณ€์„ฑ์„ ์ง€๋‹ˆ๊ฒŒ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ • ๋•๋ถ„์— ๊ฐ ๋กœ๋ด‡ ๋…ธ๋“œ๋Š” ์ „์ฒด ๋ฌผ์ฒด์˜ ์ƒํƒœ์— ๋Œ€ํ•œ ์ง‘์•ฝ ์ •๋ณด๋ฅผ ๋‹จ ํ•œ ๋ฒˆ์˜ ๋ฉ”์‹œ์ง€ ์ง‘๊ณ„๋กœ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” HEPi์˜ ์ค‘์š”ํ•œ ์„ค๊ณ„ ํฌ์ธํŠธ์ธ๋ฐ, ๋Œ€์กฐ์ ์œผ๋กœ ์ด์ข…์„ฑ์„ ๋ฌด์‹œํ•œ ์ผ๋ฐ˜ GNN์ด๋‚˜, ๋˜๋Š” ๊ธ€๋กœ๋ฒŒ ๊ฐ€์ƒ ๋…ธ๋“œ(Virtual Node) ํ•œ ๊ฐœ๋ฅผ ํ†ตํ•ด ๊ฐ„์ ‘์ ์œผ๋กœ ๋ฌผ์ฒด-๋กœ๋ด‡ ์—ฐ๊ฒฐ์„ ํ•˜๋Š” ๊ตฌ์กฐ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ฆ‰๊ฐ์ ์ธ ์ „์—ญ ์ •๋ณด ๊ณต์œ ๊ฐ€ ์–ด๋ ต๋‹ค๊ณ  ์ง€์ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ธฐ์กด์— ์ œ์•ˆ๋œ MPNN+VirtualNode ๋ฐฉ์‹์—์„œ๋Š” ๊ธ€๋กœ๋ฒŒ ๋…ธ๋“œ๋ฅผ ํ†ตํ•ด ์ •๋ณด๊ฐ€ ํ•œ ๋‹จ๊ณ„ ์ถ”๊ฐ€๋กœ ๊ฑฐ์ณ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์–ด๋–ค ๋ฌผ์ฒด ๋…ธ๋“œ u์™€ ๋กœ๋ด‡ ๋…ธ๋“œ v๊ฐ€ ๋‘ ํ™‰ ์ด์ƒ ๋–จ์–ด์ง„ ์ด์›ƒ์ด ๋˜์–ด ์ฆ‰๊ฐ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์ด ์•ˆ ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด HEPi์˜ ๊ฒฝ์šฐ 1๋‹จ๊ณ„์˜ inter-message passing๋งŒ์œผ๋กœ๋„ ๋ชจ๋“  u (๋ฌผ์ฒด)์—์„œ v (๋กœ๋ด‡)๋กœ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์ •๋ณด ์ „๋‹ฌ ํšจ์œจ์ด ํ›จ์”ฌ ์ข‹์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด๋ฅผ ์ด๋ก ์ ์œผ๋กœ๋„ ๋’ท๋ฐ›์นจํ•˜์—ฌ, HEPi์˜ ์—ฐ๊ฒฐ ์„ค๊ณ„์—์„œ๋Š” ๋‹จ์ผ ๋ ˆ์ด์–ด๋กœ ์ž„์˜์˜ ๋กœ๋ด‡-๋ฌผ์ฒด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ Proposition์œผ๋กœ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค. (์ฆ๋ช…์€ ๋ถ€๋ก์— ์ œ๊ณต๋˜์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.) ์š”์ปจ๋Œ€, ๋ช…์‹œ์ ์ธ ์ด์งˆ์„ฑ ์ฒ˜๋ฆฌ ๋•๋ถ„์— ์ •์ฑ…์ด ์ค‘์š”ํ•œ ๋ฌผ์ฒด ์ •๋ณด๋ฅผ ๋†“์น˜์ง€ ์•Š๊ณ  ์ œ๋•Œ ๋ฐ›์•„๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ˆœ์ฐจ์  ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๊ณผ์ •์„ ๊ฑฐ์นœ ํ›„, ์ตœ์ข…์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋œ ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค์˜ ์ƒํƒœ๋ฅผ ํ–‰๋™ ์ถœ๋ ฅ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ ํ•˜๋‚˜๋‹น ๋กœ๋ด‡ ํ•˜๋‚˜์˜ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ ์ถœ๋ ฅํ•˜๋ฉฐ, ๋กœ๋ด‡์ด ์†๋„ ์ œ์–ด๋ฅผ ํ•œ๋‹ค๋ฉด ๋…ธ๋“œ์˜ ์€๋‹‰ ๋ฒกํ„ฐ๋ฅผ MLP ๋“ฑ์„ ํ†ตํ•ด ๊ทธ ๋กœ๋ด‡์˜ 3์ฐจ์› ์†๋„ ๋ช…๋ น์œผ๋กœ ๋งคํ•‘ํ•ฉ๋‹ˆ๋‹ค. HEPi ๋…ผ๋ฌธ์—์„œ๋„ ๋ชจ๋“  ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ์— ๋Œ€ํ•ด ์„ ํ˜• ์†๋„ ๋ฒกํ„ฐ ์ถœ๋ ฅ์„ ๋‚ด๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋กœ๋ด‡์˜ ์ œ์–ด ๊ณต๊ฐ„์ด ๋” ๋ณต์žกํ•˜๋‹ค๋ฉด (์˜ˆ: ํž˜ ์ œ์–ด๋‚˜ ์œ„์น˜ ์ œ์–ด), ๊ทธ์— ๋งž๊ฒŒ ์ถœ๋ ฅ์„ ๊ตฌ์„ฑํ•˜๋ฉด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. HEPi ๊ตฌ์กฐ ์ž์ฒด๋Š” ์ •์ฑ… ๋„คํŠธ์›Œํฌ์˜ ๋ฐฑ๋ณธ(backbone)์ด๋ฏ€๋กœ, ์ถœ๋ ฅ ๋ถ€๋ถ„์€ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์œ ์—ฐํ•˜๊ฒŒ ๋ถ™์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด HEPi์˜ ์ •์ฑ… ๋„คํŠธ์›Œํฌ๋Š” โ€œ๋ฌผ์ฒด ๋ถ€๋ถ„๋“ค โ†”๏ธŽ ๋กœ๋ด‡๋“คโ€๋กœ ์ด๋ฃจ์–ด์ง„ ๊ทธ๋ž˜ํ”„์—์„œ ๋‹ค๋‹จ๊ณ„์˜ ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค์˜ ์ถœ๋ ฅ์œผ๋กœ ํ–‰๋™์„ ๊ฒฐ์ •์ง“๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ์ •์ฑ…์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ Mermaid ๋‹ค์ด์–ด๊ทธ๋žจ์€ HEPi์˜ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ํ๋ฆ„์„ ๋‹จ๊ณ„๋ณ„๋กœ ์š”์•ฝํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค:

flowchart TB
    subgraph step1["Step1: ๋ฌผ์ฒด-๋ฌผ์ฒด ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ"]
        O1(Object Node) --> O2(Object Node)
        O2 --> O3(Object Node)
        O3 --> O1
    end
    subgraph step2["Step2: ๋กœ๋ด‡-๋กœ๋ด‡ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ"]
        A1(Actuator Node) --> A2(Actuator Node)
        A2 --> A1
    end
    subgraph step3["Step3: ๋ฌผ์ฒดโ†’๋กœ๋ด‡ ์ƒํ˜ธ์ž‘์šฉ"]
        O1 & O2 & O3 -.-> A1
        O1 & O2 & O3 -.-> A2
        A1 & A2 -->|ํ–‰๋™ ์ถœ๋ ฅ| PolicyAction
    end

์œ„ ๋‹ค์ด์–ด๊ทธ๋žจ์—์„œ Step1๊ณผ Step2๋Š” ๊ฐ ๋™์ข… ๋…ธ๋“œ ๊ทธ๋ฃน ๋‚ด๋ถ€์—์„œ์˜ ์ •๋ณด ๊ณต์œ ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , Step3์—์„œ๋Š” ์ด์ข… ๊ฐ„์˜ ์ •๋ณด๊ฐ€ ๋กœ๋ด‡ ๋…ธ๋“œ๋กœ ๋ชจ์ด๋Š” ๊ณผ์ •์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์— ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค์ด ์ง‘๊ณ„ํ•œ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ PolicyAction ์ฆ‰ ์ •์ฑ…์˜ ์ตœ์ข… ํ–‰๋™์ด ์ถœ๋ ฅ๋ฉ๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๊ตฌ์กฐ์ ์œผ๋กœ ๊ตฌ๋ถ„๋œ ๋‹จ๊ณ„๋“ค ๋•๋ถ„์—, HEPi๋Š” ๋™์ผํ•œ ๋“ฑ๋ณ€ MPN ๋ชจ๋“ˆ์„ ์ƒํ™ฉ์— ๋งž๊ฒŒ ์—ฌ๋Ÿฌ ๋ฒˆ ์ ์šฉํ•˜๋Š” ๋ชจ๋“ˆ์‹ ์„ค๊ณ„๋ฅผ ์ทจํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๊ตฌํ˜„์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ EMPN ๋ ˆ์ด์–ด๋ฅผ ์Œ“๋˜, ๊ทธ ๋‚ด๋ถ€์—์„œ ๋ฉ”์‹œ์ง€ ์ข…๋ฅ˜(์—ฃ์ง€ ํƒ€์ž…)์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์“ฐ๋Š” ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. (์˜ˆ๋ฅผ ๋“ค์–ด PyTorch Geometric ๊ฐ™์€ GNN ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ HeteroConv ๋“ฑ์„ ์‚ฌ์šฉํ•˜๋ฉด ์—ฃ์ง€ ํƒ€์ž…๋ณ„ ๋‹ค๋ฅธ ๋ฉ”์‹œ์ง€ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.) ์ด๋Ÿฌํ•œ ๋ชจ๋“ˆ์‹ ์ ‘๊ทผ์€ ๋ชจ๋ธ ํ‘œํ˜„๋ ฅ์„ ๋†’์—ฌ์ฃผ๋ฉด์„œ๋„ ๊ณผ๋„ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ฆ๊ฐ€๋ฅผ ์–ต์ œํ•ด ์ค๋‹ˆ๋‹ค. ๋ชจ๋“  ๋…ธ๋“œ์™€ ์—ฃ์ง€์—์„œ ๋˜‘๊ฐ™์€ ํ•จ์ˆ˜ ํ•˜๋‚˜๋ฅผ ์“ฐ๋Š” ๋‹จ์ผ GNN๋ณด๋‹ค ์œ ์—ฐํ•˜๊ณ , ๊ทธ๋ ‡๋‹ค๊ณ  ์ข…๋ฅ˜๋งˆ๋‹ค ์™„์ „ํžˆ ๋ณ„๊ฐœ์˜ ๋„คํŠธ์›Œํฌ๋ฅผ ์“ฐ๋Š” ๊ฒƒ๋ณด๋‹ค ํšจ์œจ์ ์ด์ง€์š”. ์ €์ž๋“ค๋„ HEPi๊ฐ€ ํ‘œํ˜„๋ ฅ๊ณผ ๊ณ„์‚ฐ ํšจ์œจ์„ ๊ฒธ๋น„ํ–ˆ๋‹ค(expressive and computationally efficient)๊ณ  ์†Œ๊ฐœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์•ˆ์ •์ ์ธ RL ํ•™์Šต: ์‹ ๋ขฐ ์˜์—ญ ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ

๋งˆ์ง€๋ง‰์œผ๋กœ, ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ธก๋ฉด์—์„œ์˜ ์„ค๊ณ„์ž…๋‹ˆ๋‹ค. HEPi๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ on-policy Actor-Critic ๋ฐฉ์‹์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์‹œ๋„๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ PPO(Proximal Policy Optimization)์™€ TRPL(Trust Region Policy Layers) ๋‘ ๊ฐ€์ง€๋ฅผ ์–ธ๊ธ‰ํ•˜๋Š”๋ฐ์š”, ํŠนํžˆ ๋ณต์žกํ•œ 3์ฐจ์› ํ™˜๊ฒฝ์—์„œ๋Š” PPO๋งŒ์œผ๋กœ๋Š” ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•˜์—ฌ TRPL์ด๋ผ๋Š” ๋ณด๋‹ค ์›์น™์ ์ธ ์‹ ๋ขฐ-์˜์—ญ ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๊ฐ„๋‹จํžˆ ๋ฐฐ๊ฒฝ์„ ์„ค๋ช…ํ•˜๋ฉด, PPO๋Š” ์—…๋ฐ์ดํŠธ ์‹œ ๋ชฉํ‘œ ํ•จ์ˆ˜์˜ ratio ํด๋ฆฌํ•‘์œผ๋กœ ์‹ ๋ขฐ ์˜์—ญ(trust region)์„ ๊ทผ์‚ฌ์ ์œผ๋กœ ์ง€์ผœ์ฃผ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. Actor-Critic ๊ธฐ๋ฐ˜ ์ •์ฑ… ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ์ตœ์ ํ™”ํ•  ๋•Œ ํ•œ ๋ฒˆ์— ํฐ ๊ฐฑ์‹ ์„ ํ•˜์ง€ ์•Š๋„๋ก, ์ด์ „ ์ •์ฑ… ๋Œ€๋น„ ๋ฐ”๋€ ์ •๋„๋ฅผ ํด๋ฆฌํ•‘ํ•˜์—ฌ ์•ˆ์ •์„ฑ์„ ์–ป๋Š” ๊ฒƒ์ด์ฃ . ํ•˜์ง€๋งŒ ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ๋Š” PPO์˜ ์„ฑ๋Šฅ์ด ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŒ…์— ๋ฏผ๊ฐํ•˜์—ฌ ์ž˜ ์•ˆ ๋˜๋ฉด ํ›ˆ๋ จ์ด ๋ฐœ์‚ฐํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ด ๋…ผ๋ฌธ์˜ ์ฒœ ๊ฑธ๊ธฐ(Cloth-Hanging) ๊ฐ™์€ ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ๋Š” PPO๋กœ๋Š” ๋ณด์ƒ์„ ์ œ๋Œ€๋กœ ๋ชป ์˜ฌ๋ฆฌ๊ณ  ๋ถˆ์•ˆ์ •ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. TRPL์€ Otto et al.(2021) ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์œผ๋กœ, ์‹ ๋ขฐ ์˜์—ญ ์ œ์•ฝ์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ฐ•์ œํ•˜๋Š” ํˆฌ์˜(projection) ๊ณ„์ธต์„ ๋‘” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด TRPO(Trust Region Policy Optimization)์˜ ์•„์ด๋””์–ด๋ฅผ ๋”ฅ๋„ท ์•ˆ์œผ๋กœ ๋…น์—ฌ์„œ, ์ƒํƒœ๋ณ„๋กœ ์ •์ฑ… ๋ณ€ํ™”๋Ÿ‰์„ ์—„๊ฒฉํžˆ ์ œํ•œํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ TRPL์„ ์ ์šฉํ•˜์—ฌ HEPi๋ฅผ ํ›ˆ๋ จํ•œ ๊ฒƒ์„ HEPi+TRPL๋กœ, PPO๋กœ ํ›ˆ๋ จํ•œ ๊ฒƒ์„ HEPi+PPO๋กœ ๊ตฌ๋ถ„ํ•ด์„œ ์‹คํ—˜ํ–ˆ๋Š”๋ฐ, ๋™์ผํ•œ HEPi ๊ตฌ์กฐ๋ผ๋„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ํฌ๊ฒŒ ๋‚ฌ๋‹ค๊ณ  ๋ณด๊ณ ํ•ฉ๋‹ˆ๋‹ค. TRPL ๊ธฐ๋ฐ˜ ํ•™์Šต์€ ๋ชจ๋“  ๊ณผ์ œ์—์„œ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•œ ๋ฐ˜๋ฉด, PPO๋Š” ๊ณ ์ฐจ์›/๊ณ ๋‚œ๋„ ๊ณผ์ œ์—์„œ ์ž์ฃผ ๋ถˆ์•ˆ์ •ํ–ˆ๊ณ , ํŠœ๋‹์„ ๋งŽ์ด ํ•ด์•ผ ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผํ…Œ๋ฉด, PPO์˜ ํด๋ฆฌํ•‘ ํŒŒ๋ผ๋ฏธํ„ฐ \epsilon๋ฅผ ์—ฌ๋Ÿฌ ๊ฐ’์œผ๋กœ ๊ทธ๋ฆฌ๋“œ ํƒ์ƒ‰ํ•ด์„œ ๊ฐ€์žฅ ๋‚˜์€ ์„ฑ๋Šฅ์„ ๊ฐ„์‹ ํžˆ ์ฐพ์•˜์ง€๋งŒ, ๊ทธ๋ž˜๋„ 3D ์ฒœ ๊ฑธ๊ธฐ์—์„œ๋Š” ์ˆ˜์‹œ๋กœ ์ •์ฑ…์ด ๋ฌด๋„ˆ์กŒ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด TRPL์€ ๋ณ„๋‹ค๋ฅธ ํŠœ๋‹ ์—†์ด๋„ ์•ˆ์ •์ ์ธ ์ƒ์Šน ๊ณก์„ ์„ ๊ทธ๋ ธ๋‹ค๊ณ  ํ•˜๋„ค์š”. ๊ฒฐ๊ตญ HEPi์˜ ์ตœ์ข… ์ œ์•ˆ๋œ ๊ตฌ์„ฑ์€ โ€œ๊ทธ๋ž˜ํ”„ ๋“ฑ๋ณ€ ์ •์ฑ… + TRPL ์•Œ๊ณ ๋ฆฌ์ฆ˜โ€์œผ๋กœ ์š”์•ฝํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (๋…ผ๋ฌธ์—๋Š” HEPi ์ž์ฒด์˜ ํ˜์‹ ๊ณผ ๋”๋ถˆ์–ด, ์ด๋ ‡๊ฒŒ ํ•™์Šต ์•ˆ์ •ํ™” ๊ธฐ๋ฒ•์„ ๋ณ‘ํ–‰ํ•œ ์ ๋„ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋กœ ์–ธ๊ธ‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.)

๋งˆ์ง€๋ง‰์œผ๋กœ, ๊ตฌํ˜„ ์ธก๋ฉด์—์„œ ๋ช‡ ๊ฐ€์ง€ ์–ธ๊ธ‰ํ•  ์‚ฌํ•ญ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋กœ ์‚ฌ์šฉ๋œ NVIDIA IsaacLab (IsaacGym ๊ธฐ๋ฐ˜) ๋•๋ถ„์—, ์ €์ž๋“ค์€ ๋ณ‘๋ ฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋กœ ํ•™์Šต ์†๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ GPU์—์„œ ์ˆ˜๋ฐฑ ๊ฐœ ํ™˜๊ฒฝ์„ ๋™์‹œ์— ๋Œ๋ฆฌ๋ฉฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ๋ณต์žกํ•œ ๋ฌผ๋ฆฌ ํ™˜๊ฒฝ์—์„œ๋„ ์ˆ˜์‹œ๊ฐ„ ๋‚ด๋กœ ์ •์ฑ…์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค (์‹ค์ œ๋กœ ๋ถ€๋ก์˜ Table์—๋Š” ๊ณผ์ œ๋ณ„ ์ˆ˜ ์‹œ๊ฐ„ ๋‚ด์˜ ํ›ˆ๋ จ ์‹œ๊ฐ„์„ ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค). ๋˜ํ•œ ๊ทธ๋ž˜ํ”„ ์—ฐ์‚ฐ์€ PyTorch Geometric ๊ฐ™์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ํšจ์œจํ™”ํ–ˆ๊ณ , Transformer baseline์€ PyTorch TransformerEncoder๋กœ ๊ตฌํ˜„ํ•˜๋Š” ๋“ฑ ์žฌํ˜„๊ฐ€๋Šฅํ•œ ์„ค์ •์„ ๋”ฐ๋ž์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€, HEPi ๋ชจ๋ธ์€ ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์„ ์ •๊ตํ•˜๊ฒŒ ๊ฒฐํ•ฉํ•œ ์‚ฌ๋ก€๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์œผ๋กœ๋Š” ์ด๋ ‡๊ฒŒ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์„ ์‹คํ—˜์œผ๋กœ ๊ฒ€์ฆํ•œ ๋‚ด์šฉ์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

์‹คํ—˜: ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„

๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ ์„ค๊ณ„

์ €์ž๋“ค์€ HEPi์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด 7๊ฐœ์˜ ๋กœ๋ด‡ ์กฐ์ž‘ ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด RL ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ํฌ๊ฒŒ ๋‘ ๋ฒ”์ฃผ๋กœ ๋‚˜๋‰˜๋Š”๋ฐ, ํ•˜๋‚˜๋Š” ๋‹ค์–‘ํ•œ ํ˜•์ƒ์˜ ๋‹จ๋‹จํ•œ ๋ฌผ์ฒด(rigid)๋“ค์„ ๋‹ค๋ฃจ๋Š” ๊ณผ์ œ๋“ค์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๋ณ€ํ˜• ๊ฐ€๋Šฅํ•œ ๋ฌผ์ฒด(deformable)๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ณผ์ œ๋“ค์ž…๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ณผ์ œ๋Š” NVIDIA IsaacLab ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์ƒ์— ๊ตฌํ˜„๋˜์—ˆ๊ณ , GPU ๊ฐ€์† ๋•๋ถ„์— ๋ณ‘๋ ฌ๋กœ ๋Œ€๋Ÿ‰ ์ƒ˜ํ”Œ์„ ๋ฐœ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋กœ๋ด‡ ํŒ” ๊ธฐ๊ตฌ ์ž์ฒด์˜ ๋ณต์žกํ•จ์„ ๋ฐฐ์ œํ•˜๊ธฐ ์œ„ํ•ด, ์—”๋“œ ์ดํŽ™ํ„ฐ(์ง‘๊ฒŒ)์˜ ์ง๊ต ์ขŒํ‘œ ์šด๋™๋งŒ ์ œ์–ดํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๊ณผ์ œ๋ฅผ ์ถ”์ƒํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—ฐ๊ตฌ์˜ ๊ด€์‹ฌ์‚ฌ๋ฅผ โ€œ๋ฌผ์ฒด์™€ ๋กœ๋ด‡ ๊ฐ„์˜ ๊ธฐํ•˜ํ•™์  ๊ด€๊ณ„ ํ•™์Šตโ€์— ์ง‘์ค‘์‹œํ‚ค๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.

๊ฐ ๊ณผ์ œ์˜ ์ดˆ๊ธฐ ์ƒํƒœ์™€ ๋ชฉํ‘œ ๊ตฌ์„ฑ์€ ๋„“์€ ๋ฒ”์œ„์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 2D ํ‰๋ฉด์—์„œ ์ด๋ฃจ์–ด์ง€๋Š” ๊ณผ์ œ๋ผ ํ•ด๋„ ์ดˆ๊ธฐ ์œ„์น˜๊ฐ€ \[-1,1]\times\[-1,1] ๋ฒ”์œ„ ์•ˆ์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์ •ํ•ด์ง€๊ณ  ๋ชฉํ‘œ ์œ„์น˜/๋ฐฉํ–ฅ๋„ ์ž„์˜๋กœ ์ฃผ์–ด์ง€๋Š” ์‹์ž…๋‹ˆ๋‹ค. 3D ๊ณผ์ œ์˜ ๊ฒฝ์šฐ ์ดˆ๊ธฐ/๋ชฉํ‘œ ์œ„์น˜๊ฐ€ ๊ตฌ ๋˜๋Š” ๋ฐ˜๊ตฌ ๊ณต๊ฐ„ ์•ˆ์—์„œ ๊ท ์ผ ํ‘œ๋ณธ ์ถ”์ถœ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ํ•™์Šต๋œ ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‹œํ—˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ์ •๋œ ๋ช‡ ๊ฐ€์ง€ ์œ„์น˜๋งŒ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฒช๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋งค ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ์ƒˆ๋กœ์šด ๋ฐฐ์น˜๋ฅผ ๊ฒฝํ—˜ํ•˜๋‹ˆ, ์ •์ฑ…์ด ๊ณต๊ฐ„ ์ „์ฒด์— ๋Œ€ํ•œ ๋ณดํŽธ์ ์ธ ์ „๋žต์„ ํ•™์Šตํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด์ฃ .

์•„๋ž˜์— ๊ฐ ๊ณผ์ œ๋ฅผ ๊ฐ„๋žตํžˆ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค:

  • Rigid-Sliding (ํ‰๋ฉด ์œ„ ๋ฐ€๊ธฐ): ๋กœ๋ด‡์˜ ํก์ฐฉ ํŒจ๋“œ(suction gripper)๋กœ ํ‰๋ฉด ์œ„์— ๋†“์ธ ๋ฌผ์ฒด๋ฅผ ๋ฐ€์–ด ์ด๋™์‹œํ‚ค๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. 2D ํ‰๋ฉด ์ƒ์—์„œ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ‘œ ์œ„์น˜๊นŒ์ง€ ์Šฌ๋ผ์ด๋“œ์‹œ์ผœ ๋†“๊ณ , ๋ชฉํ‘œ ๊ฐ๋„์— ๋งž์ถฐ ์ •๋ ฌํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค. ์ด ์ž‘์—…์—๋Š” ์„œ๋กœ ๋‹ค๋ฅธ 10์ข…์˜ ๋ฌผ์ฒด๊ฐ€ ์‚ฌ์šฉ๋˜๋ฉฐ, ๋ฌผ์ฒด์˜ ๋ชจ์–‘์ด ์ง์‚ฌ๊ฐํ˜•, ์›ํ˜•, ์‚ผ๊ฐ ๋“ฑ ๋‹ค์–‘ํ•ฉ๋‹ˆ๋‹ค (์˜ˆ: Transporter Net ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉ๋œ kit๋“ค์ด ์ฐธ๊ณ ๋œ ๋“ฏํ•ฉ๋‹ˆ๋‹ค). ์ดˆ๊ธฐ ์œ„์น˜์™€ ๋ชฉํ‘œ ์œ„์น˜/๋ฐฉํ–ฅ์€ ๋ฌด์ž‘์œ„์ž…๋‹ˆ๋‹ค. ๋กœ๋ด‡ ํก์ฐฉ ํŒจ๋“œ๋Š” ๋ฌผ์ฒด์— ๋‹ฌ๋ผ๋ถ™์€ ์ƒํƒœ๋กœ ์›€์ง์ผ ์ˆ˜ ์žˆ์–ด์„œ, ๋งˆ์ฐฐ ์—†์ด ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋ฏธ๋„๋Ÿฌ๋œจ๋ฆฐ๋‹ค๊ณ  ๋ณด๋ฉด ๋ฉ๋‹ˆ๋‹ค.
  • Rigid-Pushing (๋–จ์–ด์ ธ ๋ฐ€์–ด๋‚ด๊ธฐ): Rigid-Sliding๊ณผ ๋น„์Šทํ•˜์ง€๋งŒ, ์ด๋ฒˆ์—๋Š” ๋กœ๋ด‡ ํŒจ๋“œ๊ฐ€ ๋ฌผ์ฒด์— ๋ถ™์–ด์žˆ์ง€ ์•Š๊ณ  ๋–จ์–ด์ ธ์„œ ์ž์œ ๋กญ๊ฒŒ ์›€์ง์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ ๋กœ๋ด‡์€ ๋ฌผ์ฒด๋ฅผ ์ง์ ‘ ๋ฐ€์–ด์„œ ๋ชฉํ‘œ ์ง€์ ์œผ๋กœ ์˜ฎ๊ฒจ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ฌผ์ฒด๋ฅผ ์›ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ณด๋‚ด๊ธฐ๊ฐ€ ๋” ๊นŒ๋‹ค๋กœ์šด๋ฐ, ๋งˆ์ฐฐ๊ณผ ๊ด€์„ฑ ๋“ฑ์„ ๊ณ ๋ คํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. 2D ํ‰๋ฉด์—์„œ ์ง„ํ–‰๋˜๋ฉฐ ์ดˆ๊ธฐ/๋ชฉํ‘œ ์กฐ๊ฑด์€ ๋น„์Šทํ•˜๊ฒŒ ๋ฌด์ž‘์œ„์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ๋ฌผ์ฒด์™€ ๋กœ๋ด‡ ์‚ฌ์ด ๋ฌผ๋ฆฌ์  ์—ฐ๊ฒฐ์ด ์—†๋Š” ์ƒํ™ฉ์„ ๋‹ค๋ฃจ์–ด, ์ •์ฑ…์ด ์ ‘์ด‰์„ ๋งŒ๋“œ๋Š” ์ „๋žต๊นŒ์ง€ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ ์ด ํฅ๋ฏธ๋กญ์Šต๋‹ˆ๋‹ค.
  • Rigid-Insertion (3D ์‚ฝ์ž…): Transporter Net์˜ ์กฐ๋ฆฝ ํ‚คํŠธ ๊ณผ์ œ๋ฅผ ํ™•์žฅํ•œ ๊ฒƒ์œผ๋กœ, 3์ฐจ์›์—์„œ ๋ฌผ์ฒด๋ฅผ ๋งž์ถฐ ๋ผ์šฐ๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์‹ญ์žํ˜• ๊ธฐ๋‘ฅ์„ ์‹ญ์ž ๋ชจ์–‘ ๊ตฌ๋ฉ์— ๋ผ์šฐ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ  ์ •ํ™•ํ•œ ์ž์„ธ๋กœ ์ •๋ ฌํ•˜์—ฌ ๋ชฉํ‘œ์— ๋„ฃ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ํ™˜๊ฒฝ์— 8์ข…์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ์–‘์˜ ๋ฌผ์ฒด์™€ ๊ทธ์— ๋Œ€์‘๋˜๋Š” ๊ตฌ๋ฉ์ด ์ค€๋น„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ”Œ๋Ÿฌ์Šค(์‹ญ์ž), T์ž, ๋ณ„ ๋ชจ์–‘, ์œก๊ฐ ๊ธฐ๋‘ฅ ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•์ƒ์ด ์žˆ๊ณ , ํฌ๊ธฐ๋„ ์•ฝ๊ฐ„์”ฉ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๊ฐ๊ฐ์˜ ๋ฌผ์ฒด๋Š” ๋ฉ”์‰ฌ ํ˜•ํƒœ๋กœ ๋ชจ๋ธ๋ง๋˜์–ด ์žˆ์œผ๋ฉฐ, ํ•™์Šต ์‹œ์—๋Š” ๋น„๊ต์  ๋‚ฎ์€ ํ•ด์ƒ๋„ (์†Œ์ˆ˜์˜ ๋Œ€ํ‘œ ์ง€์ ๋“ค๋กœ ๋‹จ์ˆœํ™”๋œ ํ˜•ํƒœ)์˜ ๋ฌผ์ฒด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ›„์ˆ ํ•  ์ผ๋ฐ˜ํ™” ์‹คํ—˜์—์„œ๋Š” ๊ณ ํ•ด์ƒ๋„ ๋ฉ”์‰ฌ (์ˆ˜๋ฐฑ~์ฒœ์—ฌ ๊ฐœ ๋…ธ๋“œ)์— ๋Œ€ํ•ด์„œ๋„ ํ…Œ์ŠคํŠธ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค. Rigid-Insertion ๊ณผ์ œ์—์„œ๋Š” ๋กœ๋ด‡ ํ•œ ๊ฐœ๊ฐ€ ๋ฌผ์ฒด๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ดˆ๊ธฐ ๋ฌผ์ฒด ์ž์„ธ์™€ ๋ชฉํ‘œ ๊ตฌ๋ฉ ์œ„์น˜/๋ฐฉํ–ฅ์€ ์ฃผ๋กœ 3D ๊ณต๊ฐ„์˜ ํ•œ ํ‰๋ฉด(์˜ˆ: ์ž‘์—…๋Œ€ ํ‰๋ฉด) ์œ„์—์„œ ๋ฌด์ž‘์œ„ ์ง€์ •๋ฉ๋‹ˆ๋‹ค.
  • Rigid-Insertion-Two-Agents (๋‹ค์ค‘ ๋กœ๋ด‡ 3D ์‚ฝ์ž…): ์œ„ ์‚ฝ์ž… ๊ณผ์ œ์˜ ๋ณ€ํ˜•์œผ๋กœ, ๋กœ๋ด‡ ๋‘ ๋Œ€๊ฐ€ ํ˜‘๋ ฅํ•˜์—ฌ ๋ฌผ์ฒด๋ฅผ ๋ผ์šฐ๋Š” ๊ณ ๋‚œ๋„ ์ž‘์—…์ž…๋‹ˆ๋‹ค. ๋‘ ๋กœ๋ด‡์ด ํ•˜๋‚˜์˜ ๋ฌผ์ฒด๋ฅผ ์–‘์ชฝ์—์„œ ์žก๊ฑฐ๋‚˜, ํ˜น์€ ํ•œ ๋กœ๋ด‡์ด ๋ฌผ์ฒด๋ฅผ ์žก๊ณ  ๋‹ค๋ฅธ ๋กœ๋ด‡์€ ๋ณด์กฐ๋ฅผ ํ•˜๋ฉด์„œ ํ•จ๊ป˜ ์›ํ•˜๋Š” ์œ„์น˜๋กœ ๊ฐ€์ ธ๊ฐ€๋Š” ์‹œ๋‚˜๋ฆฌ์˜ค์ž…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ๋ฌผ์ฒด๋Š” 3์ฐจ์› ๊ณต๊ฐ„ ์ž„์˜์˜ ๋ฐฉํ–ฅ์œผ๋กœ ๋†“์ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชฉํ‘œ ์œ„์น˜๋„ ๊ณต๊ฐ„์˜ ๋ฐ˜๊ตฌ(upper hemisphere) ์˜์—ญ์— ๋ฌด์ž‘์œ„๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ๋‘˜ ๋‹ค ์„ ํ˜• ์šด๋™๋งŒ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๊ณ , ๋ฌผ์ฒด๋ฅผ ๋“ค๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” ํ˜‘์—…(coordination)๊ณผ 3์ฐจ์› ์ •๋ ฌ์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์–ด๋ ค์›€์ด ๋™์‹œ์— ์กด์žฌํ•˜๋ฏ€๋กœ, HEPi์˜ ์ด์งˆ์  ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ๊ณผ ๋“ฑ๋ณ€์„ฑ์ด ํŠนํžˆ ๋น›์„ ๋ฐœํ•˜๋Š” ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค์ž…๋‹ˆ๋‹ค.
  • Rope-Closing (๋ฐง์ค„ ๊ฐ์•„ ๋ด‰ ํ•ฉ์น˜๊ธฐ): ๋ณ€ํ˜•์ฒด ๊ณผ์ œ ์ค‘ ํ•˜๋‚˜๋กœ, ๋‘ ๊ฐœ์˜ ๋กœ๋ด‡ ํŒ”์ด ๋ฐง์ค„์˜ ์–‘ ๋์„ ์žก๊ณ  2D ํ‰๋ฉด์—์„œ ์›€์ง์ž…๋‹ˆ๋‹ค. ๋ชฉํ‘œ๋Š” ๋ฐง์ค„์„ ํŽผ์ณ์ง„ ์ƒํƒœ์—์„œ ์›ํ˜• ๋ฌผ์ฒด(๊ธฐ๋‘ฅ) ์ฃผ์œ„๋กœ ํœ˜๊ฐ์•„์„œ, ๋ฐง์ค„ ๋์ ๋ผ๋ฆฌ ์ตœ๋Œ€ํ•œ ๊ฐ€๊นŒ์ด ์˜ค๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด, ๋ฐง์ค„๋กœ ๊ธฐ๋‘ฅ์„ ๋ฌถ๋Š” ๋™์ž‘์˜ ์ผ๋ถ€๋ฅผ ์ž๋™ํ™”ํ•œ ๊ฒƒ์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์„ฑ๊ณต ์ธก์ •์€ ๋‘ ๋ ๊ทธ๋ฆฌํผ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋กœ ํ‰๊ฐ€๋˜๋ฉฐ, ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šธ์ˆ˜๋ก (์ฆ‰ ๋ฐง์ค„์ด ๊ธฐ๋‘ฅ์— ์ž˜ ๊ฐ๊ธธ์ˆ˜๋ก) ๋ณด์ƒ์ด ๋†’์•„์ง‘๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” Laezza et al.(2021)์˜ ํ™˜๊ฒฝ์„ ์ฐจ์šฉํ•˜์˜€๊ณ , ์ดˆ๊ธฐ์— ๋ฐง์ค„์€ ๊ธฐ๋‘ฅ์˜ ํ•œ์ชฝ ์˜†์— ์•„๋ฌด๋ ‡๊ฒŒ๋‚˜ ๋†“์—ฌ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๋กœ๋ด‡์ด ํ˜‘๋ ฅํ•ด์„œ ํ•œ์ชฝ ๋์„ ๋ฐ˜๋Œ€ํŽธ์œผ๋กœ ๋„˜๊ฒจ์„œ ๋งˆ์ฃผ์˜ค๊ฒŒ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐง์ค„์€ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์•ฝ 40๊ฐœ์˜ ์ž‘์€ ๋งํฌ๋“ค๋กœ ์ด๋ฃจ์–ด์ง„ ์—ฐ์‡„๋กœ ๋ชจ๋ธ๋ง๋˜์—ˆ๊ณ , ๊ฐ ๋งํฌ๊ฐ€ ํ•˜๋‚˜์˜ ๋ฌผ์ฒด ๋…ธ๋“œ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡ ๋‘ ๊ฐœ์˜ ๋_effector๋Š” ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ๊ฐ€ ๋˜๊ฒ ์ง€์š”.
  • Rope-Shaping (๋ฐง์ค„ ๋ชจ์–‘ ๋งŒ๋“ค๊ธฐ): ๋ฐง์ค„ ๋ณ€ํ˜•์ฒด์˜ ๋‘ ๋ฒˆ์งธ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋‘ ๋กœ๋ด‡์ด ๋ฐง์ค„ ๋์„ ์žก๊ณ  ์›€์ง์—ฌ์„œ, ๋ฐง์ค„ ์ „์ฒด๋ฅผ ์ •ํ•ด์ง„ ํŠน์ • ๋ชจ์–‘์œผ๋กœ ๋งŒ๋“ค์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋กœ ์–ธ๊ธ‰๋œ ๋ชฉํ‘œ ๋ชจ์–‘์€ ์•ŒํŒŒ๋ฒณ โ€œWโ€ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค. ๋ชฉํ‘œ ๋ชจ์–‘ ์ž์ฒด๋„ ํšŒ์ „๋˜์–ด ์ œ์‹œ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋‹จ์ˆœํžˆ ๋ชจ์–‘๋ฟ ์•„๋‹ˆ๋ผ ๋ฐฉํ–ฅ ์ •๋ ฌ๋„ ๋งž์ถฐ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋Š” LASA Shape Dataset (Khansari & Billard, 2011)์—์„œ ๋”ฐ์˜จ 2D ๊ถค์  ๋ชจ์–‘์„ ๋ฐง์ค„๋กœ ๊ตฌํ˜„ํ•˜๋Š” ๊ฐœ๋…์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ์—๋Š” ๋ฐง์ค„์ด ์ผ์ž๋กœ ๋ป—์€ ์ƒํƒœ์ด๊ณ , ๋ชฉํ‘œ ๊ฐ๋„ ๋ฒ”์œ„๋Š” ๋ฌด์ž‘์œ„์ž…๋‹ˆ๋‹ค. ๋ฐง์ค„์€ 80๊ฐœ ๋งํฌ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ธด ์‚ฌ์Šฌ๋กœ ๋ชจ๋ธ๋ง๋˜์–ด ์žˆ์œผ๋ฉฐ, ๊ฐ ๋งํฌ๊ฐ€ ๋…ธ๋“œ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฐ€์žฅ ํฐ ๋‚œ์ ์€ ํ˜•์ƒ ๋น„๊ต์ž…๋‹ˆ๋‹ค. ๋ชฉํ‘œ W ๋ชจ์–‘๊ณผ ํ˜„์žฌ ๋ฐง์ค„ ๋ชจ์–‘์ด ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” shape descriptor๋ฅผ ์ €์ž๋“ค์ด ๊ณ ์•ˆํ•˜์—ฌ, ๋ณด์ƒ์œผ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋ฐง์ค„์„ ์ผ์ • ๊ฐ„๊ฒฉ์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•œ ์—ฌ๋Ÿฌ ์ ๋“ค์˜ ๊ตญ์†Œ ๊ณก๋ฅ (์ธ์ ‘ ์„ ๋ถ„๋“ค ๊ฐ„ ๊ฐ๋„)๊ณผ ์ „์—ญ ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๊ฐ๋„, ๊ทธ๋ฆฌ๊ณ  ์ค‘์‹ฌ์œผ๋กœ๋ถ€ํ„ฐ์˜ ์ƒ๋Œ€ ์œ„์น˜๋“ค์„ ํŠน์ง•์œผ๋กœ ์‚ผ์•„ ๋ฒกํ„ฐ D_\text{shape}๋ฅผ ๋งŒ๋“  ๋’ค, ํ˜„์žฌ์™€ ๋ชฉํ‘œ D์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์žฌ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด ๊ฑฐ๋ฆฌ ||D_{current} - D_{target}||๊ฐ€ ์ž‘์•„์งˆ์ˆ˜๋ก (์ฆ‰ ๋ชจ์–‘์ด ๋งž์•„๊ฐˆ์ˆ˜๋ก) ๋ณด์ƒ์„ ํฌ๊ฒŒ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐง์ค„ ๋ชจ์–‘ ๋งž์ถ”๊ธฐ๋Š” ๋ฐง์ค„ ๊ฐ๊ธฐ๋ณด๋‹ค ํ›จ์”ฌ ์„ฌ์„ธํ•œ ์กฐ์ž‘์„ ์š”๊ตฌํ•˜๋ฉฐ, 80๊ฐœ๋‚˜ ๋˜๋Š” ๋งํฌ์˜ ์ƒํƒœ๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•ด์•ผ ํ•ด์„œ ๊ด€์ฐฐ ์ฐจ์›๋„ ๋งค์šฐ ํฝ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” HEPi์˜ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋กœ ๊ฐœ๋ณ„ ๋งํฌ๋“ค์˜ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.
  • Cloth-Hanging (์ฒœ ๊ฑธ๊ธฐ): ๊ฐ€์žฅ ๋ณต์žกํ•œ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋„ค ๊ฐœ์˜ ๋กœ๋ด‡ ์•ก์ถ”์—์ดํ„ฐ๊ฐ€ ์ง์‚ฌ๊ฐ ์ฒœ์˜ ๋„ค ๋ชจ์„œ๋ฆฌ๋ฅผ ๋ถ™์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒœ ํ•œ๊ฐ€์šด๋ฐ์—๋Š” ๋‘ฅ๊ทผ ๊ตฌ๋ฉ์ด ๋‚˜ ์žˆ์œผ๋ฉฐ, ๋ชฉํ‘œ๋Š” ๊ทธ ๊ตฌ๋ฉ์„ ๋ง‰๋Œ€๊ธฐ ํ˜•ํƒœ์˜ ์˜ท๊ฑธ์ด์— ๊ฑธ๋„๋ก ์ฒœ์„ ์˜ฎ๊ธฐ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ๋„ค ๋กœ๋ด‡์ด ์ฒœ์„ ์žก์•„๋‹น๊ฒจ ๋“ค์–ด์˜ฌ๋ ค ์ ์ ˆํ•œ ์ž์„ธ๋กœ ์ด๋™์‹œํ‚ค๋ฉด, ์ฒœ์˜ ๊ตฌ๋ฉ ๋ถ€๋ถ„์ด ์˜ท๊ฑธ์ด์— ๊ฑธ์ณ์ ธ์„œ ์„ฑ๊ณต์ด๊ฒ ์ฃ . ์ด ์ž‘์—…์€ 3์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ด๋ฃจ์–ด์ง€๊ณ , ์˜ท๊ฑธ์ด ๋ง‰๋Œ€์˜ ์œ„์น˜์™€ ์ฒœ์˜ ์ดˆ๊ธฐ ์ž์„ธ๊ฐ€ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ”๋€๋‹ˆ๋‹ค. ์ฒœ์€ ๋ฌผ๋ฆฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ์งˆ์ -์Šคํ”„๋ง ๋ชจ๋ธ๋กœ ๊ตฌํ˜„๋˜์—ˆ๊ณ , ์ฒœ ์ „์ฒด๋ฅผ ๋†’์€ ํ•ด์ƒ๋„๋กœ ๊ทธ๋ž˜ํ”„์— ๋„ฃ๊ธฐ์—๋Š” ์ƒํƒœ ์ฐจ์›์ด ๋„ˆ๋ฌด ํฌ๊ธฐ ๋•Œ๋ฌธ์—, ์ •์ฑ… ์ž…๋ ฅ์œผ๋กœ๋Š” ๊ตฌ๋ฉ ๊ฐ€์žฅ์ž๋ฆฌ์˜ ์ž…์ž๋“ค๋งŒ ์„ ๋ณ„ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ๊ตฌ๋ฉ ๋‘˜๋ ˆ ์ค‘์‹ฌ์—์„œ ๊ฐ€๊นŒ์šด 10๊ฐœ์˜ ์ž…์ž๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฐฉ๋ฒ•(knn, k=10)์„ ์ผ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด 10๊ฐœ ๋…ธ๋“œ๊ฐ€ ์ฒœ ์ชฝ ๋ฌผ์ฒด ๋…ธ๋“œ๋กœ์จ ์ •์ฑ…์— ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. (ํ•œํŽธ ๊ฐ€์น˜ํ•จ์ˆ˜(critic) ๋„คํŠธ์›Œํฌ์—๋Š” ๋ณด์ƒ ๊ณ„์‚ฐ์„ ์ •ํ™•ํžˆ ์˜ˆ์ธกํ•˜๋„๋ก ์ฒœ์˜ ๋ชจ๋“  ์ž…์ž ์ •๋ณด๋ฅผ ๋„ฃ์—ˆ๋‹ค๊ณ  ์–ธ๊ธ‰๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.) ๋กœ๋ด‡ ์•ก์ถ”์—์ดํ„ฐ๋Š” 4๊ฐœ ๋ชจ์„œ๋ฆฌ์— ๋ถ™์–ด์žˆ๋Š” ์ง‘๊ฒŒ๋“ค๋กœ, ๋กœ๋ด‡ ๋…ธ๋“œ 4๊ฐœ๊ฐ€ ๋˜๊ฒ ์ง€์š”. ์ด ๊ณผ์ œ์—์„œ ๋ณด์ƒ์€ ์˜ท๊ฑธ์ด ๋ง‰๋Œ€์™€ ๊ตฌ๋ฉ์˜ ์ƒ๋Œ€์  ์œ„์น˜๋ฅผ ๋ฐ˜์˜ํ•˜๋Š” ๊ฑฐ๋ฆฌ/์ •๋ ฌ ๋ณด์ƒ, ๊ทธ๋ฆฌ๊ณ  ์›€์ง์ž„์˜ ๋ถ€๋“œ๋Ÿฌ์›€์„ ์œ„ํ•œ ์•ก์…˜ ๋ณ€ํ™” ํŽ˜๋„ํ‹ฐ ๋“ฑ์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ตฌ๋ฉ์˜ ์œ„์น˜์™€ ์ดˆ๊ธฐ ๊ตฌ๋ฉ ์œ„์น˜(์ฒœ์„ ์ฒ˜์Œ ์žก์•˜์„ ๋•Œ ๊ตฌ๋ฉ ์ค‘์‹ฌ) ๋“ฑ์„ ๋…ธ๋“œ ํ”ผ์ฒ˜๋กœ ์ถ”๊ฐ€ ์ œ๊ณตํ•˜์—ฌ ํ•™์Šต์„ ๋•๋Š” ํŠธ๋ฆญ์„ ์ผ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ฒœ ๊ฑธ๊ธฐ ๊ณผ์ œ๋Š” ๋‹ค์ˆ˜ ๋กœ๋ด‡ ํ˜‘๋™, ๋Œ€๊ทœ๋ชจ ๋ณ€ํ˜•์ฒด, 3D ์ž„์˜ ์ž์„ธ, ์ •๋ฐ€ํ•œ ๋ชฉํ‘œ๊ฐ€ ํ•œ๋ฐ ๋ชจ์ธ ๊ทน์•… ๋‚œ์ด๋„ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ œ๋ฅผ ๊ธฐ์กด ๋ฐฉ๋ฒ• (์˜ˆ: ์ผ๋ฐ˜ GNN์ด๋‚˜ Transformer)์œผ๋กœ ํ‘ธ๋Š” ๊ฒƒ์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊นŒ์› ์ง€๋งŒ, HEPi๋Š” ์œ ์˜๋ฏธํ•œ ์„ฑ๊ณผ๋ฅผ ๋ƒˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝํ•˜์ž๋ฉด, ์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋„์ „์  ์ž‘์—…๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด HEPi์˜ ๊ฐ•์ ์„ ๋‹ค๊ฐ๋„๋กœ ์‹คํ—˜ํ•  ๋ฌด๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Rigid-Insertion-Two-Agents์™€ Cloth-Hanging์€ ๊ฐ๊ฐ ์ด์ข… ๋…ธ๋“œ ํ˜‘์—…๊ณผ ๊ณ ์ฐจ์› ๋ณ€ํ˜•์ฒด ์ฒ˜๋ฆฌ ์ธก๋ฉด์—์„œ ์–ด๋ ค์šด ์ผ€์ด์Šค์ž…๋‹ˆ๋‹ค. Rope-Shaping๊ณผ Rigid-Pushing ๋“ฑ์€ ํƒ์ƒ‰ ๊ณต๊ฐ„์ด ๋„“๊ณ  ๊ตญ์ง€ ์ตœ์ ํ•ด์— ๋น ์ง€๊ธฐ ์‰ฌ์šด ๊ณผ์ œ๋“ค์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์ œ๋“ค์„ ํ†ตํ•ด HEPi์˜ ํƒ์ƒ‰ ํšจ์œจ, ํ‘œํ˜„๋ ฅ, ์•ˆ์ •์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋น„๊ต ๋Œ€์ƒ (Baselines)

์‹คํ—˜์—์„œ๋Š” HEPi์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋น„๊ต๊ตฐ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค:

  • Transformer ๊ธฐ๋ฐ˜ ์ •์ฑ…: ์ด ์ ‘๊ทผ์€ ์ตœ๊ทผ ์—ฌ๋Ÿฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RL์—์„œ ๊ฐ ๊ฐ์ฒด๋‚˜ ์š”์†Œ๋ฅผ ํ† ํฐ์œผ๋กœ ์ฒ˜๋ฆฌํ•ด Transformer๋กœ ์˜์‚ฌ๊ฒฐ์ •ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋ฅผ ๋ฌด์‹œํ•˜๊ณ , ๊ฐ ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด์˜ ์ƒํƒœ ํ”ผ์ฒ˜๋“ค์„ ๋‹จ์ˆœ ๋‚˜์—ดํ•œ ์‹œํ€€์Šค ์ž…๋ ฅ์œผ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. PyTorch TransformerEncoder๋ฅผ ์ด์šฉํ•ด ์ด ์ˆœ์ฐจ ์ž…๋ ฅ์„ ๋ช‡ ๊ฐœ ๋ ˆ์ด์–ด ํ†ต๊ณผ์‹œํ‚จ ํ›„, ํ•„์š”ํ•œ ๋งŒํผ ์ถœ๋ ฅ์„ ๋ฝ‘์•„ ํ–‰๋™์œผ๋กœ ์‚ผ์•˜์Šต๋‹ˆ๋‹ค. Transformer๋Š” ์ „์—ญ์  ์–ดํ…์…˜์œผ๋กœ ์ž…๋ ฅ๋“ค ์‚ฌ์ด ๊ด€๊ณ„๋ฅผ ํ•™์Šต์œผ๋กœ ํŒŒ์•…ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ๊ตฌ์กฐ์  inductive bias๋Š” ์—†์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ Transformer๋Š” ์ถฉ๋ถ„ํ•œ ์šฉ๋Ÿ‰(capacity)์„ ์ง€๋‹Œ ๋ชจ๋ธ์ด๊ณ , ์ด์งˆ์ ์ธ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋„๋ฆฌ ์“ฐ์—ฌ์™”์œผ๋ฏ€๋กœ ๊ฐ•๋ ฅํ•œ baseline์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Hong et al.(2022)์˜ โ€œStructure-aware Transformerโ€๋‚˜ Gupta et al.(2022) ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ์—ฌ๋Ÿฌ ๊ฐ์ฒด๋ฅผ ๋‹ค๋ฃจ๋Š” RL์— Transformer๋ฅผ ์“ด ์‚ฌ๋ก€๊ฐ€ ์žˆ์–ด, ์ด ๋…ผ๋ฌธ์—์„œ๋„ Transformer๋ฅผ ์ผ์ข…์˜ SOTA ๋Œ€์šฉBaseline์œผ๋กœ ์„ค์ •ํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.
  • Naive EMPN (๋™์งˆ ๋“ฑ๋ณ€ GNN): ์ด๊ฒƒ์€ HEPi์—์„œ ์ด์งˆ์„ฑ ์ฒ˜๋ฆฌ๋ฅผ ์ œ๊ฑฐํ•œ ๋ฒ„์ „์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ ๋…ธ๋“œ ๊ฐ„ ๊ตฌ๋ถ„ ์—†์ด ํ•˜๋‚˜์˜ ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋„คํŠธ์›Œํฌ๋กœ ๋ชจ๋“  ๋…ธ๋“œ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๊ตฌ์กฐ์ ์œผ๋กœ๋Š” HEPi์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ SE(3) ๋“ฑ๋ณ€์„ฑ์„ ๊ฐ–์ถ”์—ˆ์ง€๋งŒ, ์•ก์ถ”์—์ดํ„ฐ์™€ ๋ฌผ์ฒด๋ฅผ ๋ณ„๋„๋กœ ๋‹ค๋ฃจ์ง€ ์•Š๊ณ  ๋‹จ์ผ ๊ทธ๋ž˜ํ”„๋กœ ๋ฌถ์–ด์„œ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ๋ฉ”์‹œ์ง€๋ฅผ ์ฃผ๊ณ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์—ฃ์ง€๋„ ๋กœ๋ด‡-๋ฌผ์ฒด ๊ตฌ๋ถ„ ์—†์ด ๋ชจ๋“  ์ธ์ ‘ ๋…ธ๋“œ ์Œ ๊ฐ„ ์—ฐ๊ฒฐ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•ด โ€œ์ด์ข…โ€์ด ์•„๋‹Œ โ€œ๋™์ข… ๋“ฑ๋ณ€ GNNโ€์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ๋Œ€์นญ์„ฑ์€ ํ™œ์šฉํ•˜๋ฏ€๋กœ Transformer๋ณด๋‹ค๋Š” ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด์˜ ์—ญํ•  ์ฐจ์ด๋ฅผ ๋ชจํ˜ธํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์— HEPi๋ณด๋‹ค๋Š” ํ‘œํ˜„๋ ฅ์ด ๋‚ฎ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์ด naive EMPN์ด ๋ณต์žกํ•œ 3D ๊ณผ์ œ์—์„œ ํ‘œํ˜„ ๋ถ€์กฑ์œผ๋กœ ๊ตญ์ง€ ์ตœ์ ํ•ด์— ๋จธ๋ฌผ๋ €๋‹ค๊ณ  ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ถ”๊ฐ€ ๋น„๊ต (Heterogeneous GNN ๋“ฑ): ์ฃผ๋œ ์‹คํ—˜์—์„œ๋Š” ์œ„ ๋‘ baseline๊ณผ HEPi๋ฅผ ๋น„๊ตํ–ˆ์ง€๋งŒ, Cloth-Hanging ๊ฐ™์ด ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ๋Š” ์ฐธ๊ณ ๋กœ ๋‘ ๊ฐ€์ง€ ์ถ”๊ฐ€ baseline์„ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” Heterogeneous GNN (๋น„๋“ฑ๋ณ€)์ด๊ณ , ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” naive GNN (๋น„๋“ฑ๋ณ€)์ž…๋‹ˆ๋‹ค. ์ „์ž๋Š” ์šฐ๋ฆฌ ๋…ผ๋ฌธ ๊ธฐ๋ฒ•์ฒ˜๋Ÿผ ๋…ธ๋“œ ์ข…๋ฅ˜๋ฅผ ๊ตฌ๋ถ„ํ•˜๋˜ ๋“ฑ๋ณ€ ์ œ์•ฝ์ด ์—†๋Š” ์ผ๋ฐ˜ GNN์ž…๋‹ˆ๋‹ค. ํ›„์ž๋Š” ๋…ธ๋“œ ๊ตฌ๋ถ„๋„ ์—†๊ณ  ๋“ฑ๋ณ€๋„ ์—†๋Š” ๊ทธ๋ƒฅ ์ผ๋ฐ˜ GNN์ด์ง€์š”. ์ด๋“ค์€ Transformer๋‚˜ EMPN๋ณด๋‹ค๋„ ์„ฑ๋Šฅ์ด ๋–จ์–ด์กŒ๋Š”๋ฐ (ํ•™์Šต์ด ๊ฑฐ์˜ ์•ˆ๋˜๋Š” ์ˆ˜์ค€), ์ด๋ฅผ ํ†ตํ•ด ๋“ฑ๋ณ€์„ฑ์˜ ์ด์ ๊ณผ ์ด์ข… ๋ชจ๋ธ๋ง์˜ ์ด์ ์„ ๊ฐ๊ฐ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋“ฑ๋ณ€์„ฑ๋งŒ ๊ฐ–์ถ”๋ฉด Transformer๋ณด๋‹ค ํ–ฅ์ƒ๋˜๋ฉฐ, ์ด์ข… ์„ค๊ณ„๊นŒ์ง€ ํ•˜๋ฉด ๋”์šฑ ๊ฐœ์„ ๋จ์„ ์‹คํ—˜์œผ๋กœ ํ™•์ธํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋น„๊ต ์‹คํ—˜์€ ๋ชจ๋“  ๊ณผ์ œ์— ๋Œ€ํ•ด ์ง„ํ–‰๋˜์—ˆ๊ณ , ์•ž์„œ ์–ธ๊ธ‰ํ•œ PPO vs TRPL ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋น„๊ต๋„ ํ•จ๊ป˜ ์‹ค์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ HEPi์™€ Transformer์— ๋Œ€ํ•ด ๊ฐ๊ฐ PPO๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ์™€ TRPL๋กœ ํ•™์Šตํ•œ ๊ฒฝ์šฐ๋ฅผ ๊ต์ฐจ ๋น„๊ตํ•˜์—ฌ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ณตํ•ฉ์ ์ธ ๋น„๊ต๋ฅผ ํ†ตํ•ด โ€œ์šฐ๋ฆฌ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ์šฐ์œ„โ€์™€ โ€œํ•™์Šต ๊ธฐ๋ฒ•์˜ ์šฐ์œ„โ€๋ฅผ ๋ถ„๋ฆฌํ•ด์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ

1. ํ•™์Šต ๊ณก์„  ๋ฐ ์„ฑ๋Šฅ ๋น„๊ต:

7๊ฐœ ๊ณผ์ œ์—์„œ ์—ํ”ผ์†Œ๋“œ ๋ฆฌํ„ด(๋ˆ„์  ๋ณด์ƒ)์˜ ํ•™์Šต๊ณก์„ ์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ, HEPi๊ฐ€ ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ 3D ํ™˜๊ฒฝ์ด๋‚˜ ํƒ์ƒ‰ ๋‚œ๋„๊ฐ€ ๋†’์€ ๊ณผ์ œ์—์„œ HEPi์˜ ๋ฆฌํ„ด์ด ๊ฐ€ํŒŒ๋ฅด๊ฒŒ ์ƒ์Šนํ•˜๊ณ  ์ตœ์ข… ์ˆ˜์ค€๋„ ๋†’์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Rigid-Insertion-Two-Agents-3D (๋‘ ๋กœ๋ด‡ 3D ์‚ฝ์ž…) ๊ณผ์ œ์˜ ๊ฒฝ์šฐ, Transformer๋Š” ๋‹ค์–‘ํ•œ ์ž์„ธ์— ๋ชจ๋‘ ๋Œ€์‘ํ•˜๋Š” ์ •์ฑ…์„ ์ฐพ์ง€ ๋ชปํ•ด ์„ฑ๋Šฅ์ด ์ €์กฐํ–ˆ๊ณ , naive EMPN์€ ์–ด๋А ์ •๋„ ๋Œ€์นญ์„ฑ์„ ์ด์šฉํ•ด ๋‚˜์˜์ง€ ์•Š์€ ์ถœ๋ฐœ์„ ๋ณด์˜€์ง€๋งŒ ์ค‘๊ฐ„์— ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ •์ฒด๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด HEPi๋Š” ์ง€์†์ ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋˜์–ด ์ตœ์ข…์ ์œผ๋กœ ๋‘ baseline์„ ํฐ ๊ฒฉ์ฐจ๋กœ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. Rigid-Pushing-2D๋„ ์œ ์‚ฌํ•˜๊ฒŒ, ๋ฌผ์ฒด๋ฅผ ์ž์œ ๋กญ๊ฒŒ ๋ฐ€์–ด์•ผ ํ•˜๋Š” ํƒ์ƒ‰ํ˜• ๊ณผ์ œ์ธ๋ฐ, Transformer๋Š” ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์— ๋จธ๋ฌด๋ฅด๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์ด๊ณ  EMPN์€ ํ‘œํ˜„ ํ•œ๊ณ„๋กœ ์ตœ์ ํ•ด๋ฅผ ๋†“์ณค์ง€๋งŒ, HEPi๋Š” ๋” ํšจ๊ณผ์ ์ธ ํƒ์ƒ‰ ์ „๋žต์„ ์Šค์Šค๋กœ ๋ฐœ๊ฒฌํ•˜์—ฌ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, ๋‚œ์ด๋„๊ฐ€ ๋‚ฎ๊ฑฐ๋‚˜ ๊ธฐํ•˜ํ•™์  ๋ณต์žก๋„๊ฐ€ ์ ์€ ๊ณผ์ œ์—์„œ๋Š” ์„ธ ๋ชจ๋ธ ๊ฐ„ ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Rigid-Insertion-2D+z (2D ํ‰๋ฉด์— + ์•ฝ๊ฐ„์˜ ๋†’์ด ๋ฐฉํ–ฅ๋งŒ ์žˆ๋Š” ์‚ฝ์ž…) ๊ณผ์ œ์—์„œ๋Š” Transformer์™€ HEPi๊ฐ€ ์œ ์‚ฌํ•œ ์ตœ์ข… ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ณผ์ œ ์ž์ฒด๊ฐ€ ๋น„๊ต์  ๊ฐ„๋‹จํ•˜์—ฌ ๋“ฑ๋ณ€ ์ œ์•ฝ์˜ ์ด์ ์ด ํฌ๊ฒŒ ๋“œ๋Ÿฌ๋‚˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ํ•ด์„๋ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ 2D ํ™˜๊ฒฝ์—์„œ๋Š” ํšŒ์ „ ๋Œ€์นญ์ด ํ•œ ๊ฐ€์ง€ ๊ฐ๋„ ์ฐจ์›๋งŒ ์žˆ๊ณ , ๋ชฉํ‘œ ์œ„์น˜๋„ ํ‰๋ฉด์ƒ์ด๋ผ 3D๋งŒํผ ์–ด๋ ต์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‹ค๋ณด๋‹ˆ Transformer๋„ ํŠœ๋‹์— ๋”ฐ๋ผ ๊ทธ๋Ÿญ์ €๋Ÿญ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์—ˆ๊ณ , HEPi์™€ ํฐ ์ฐจ์ด๊ฐ€ ์—†์—ˆ๋˜ ๊ฒƒ์ด์ฃ . ์ด๋Ÿฐ ๊ฒฝ์šฐ๋Š” ์ •์ฑ… ํ‘œํ˜„๋ ฅ์ด ํฌ๊ฒŒ ์š”๊ตฌ๋˜์ง€ ์•Š๋Š” ์ƒํ™ฉ์ด๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐง์ค„ ๊ณผ์ œ๋“ค์— ๋Œ€ํ•ด์„œ๋Š”, Rope-Closing๊ณผ Rope-Shaping ๋ชจ๋‘ HEPi์™€ naive EMPN์ด ๋น„์Šทํ•œ ์„ฑ๋Šฅ ๊ณก์„ ์„ ๋ณด์˜€๊ณ  Transformer๋Š” ๋‹ค์†Œ ๋’ค์ณ์กŒ์Šต๋‹ˆ๋‹ค. ๋ฐง์ค„ ๊ฐ๊ธฐ๋‚˜ W์ž ๋งŒ๋“ค๊ธฐ๋Š” 2D ์ƒ์—์„œ ์ฃผ๋กœ ์ง„ํ–‰๋˜๊ณ  ๋ณ€ํ˜•์ฒด๋ผ๊ณ  ํ•ด๋„ ๊ตฌ์กฐ๊ฐ€ ๋น„๊ต์  ๋‹จ์ˆœํ•œ ํŽธ(์„  ํ˜•ํƒœ)์ด๋ผ, ์ด์งˆ์„ฑ์˜ ํšจ๊ณผ๊ฐ€ ํฌ๊ฒŒ ๋‘๋“œ๋Ÿฌ์ง€์ง€ ์•Š์•˜๋˜ ๊ฒƒ์œผ๋กœ ๋ถ„์„๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Rope-Closing์€ ๋ชฉํ‘œ๊ฐ€ ๋‹จ์ˆœํžˆ ๋๋ผ๋ฆฌ ๊ฐ€๊นŒ์›Œ์ง€๋Š” ๊ฒƒ์ด๊ณ , Rope-Shaping๋„ W ๋ชจ์–‘์œผ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๊ทธ์ € ๊ฐ ๋ถ€๋ถ„ ๊ฐ๋„๋ฅผ ๋งž์ถ”๋ฉด ๋˜๋Š” ๋น„๊ต์  ๊ตญ์†Œ์ ์ธ ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์ œ๋“ค์—์„œ๋Š” ๋ฌผ์ฒด ์ž์ฒด์˜ ์ž์œ ๋„๊ฐ€ ๋†’์ง€ ์•Š์•„ (๋ฐง์ค„์€ 1์ฐจ์› ๊ณก์„ ), EMPN๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ–ˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Cloth-Hanging-3D์—์„œ๋Š” ์ƒํ™ฉ์ด ์™„์ „ํžˆ ๋‹ฌ๋ผ์กŒ์Šต๋‹ˆ๋‹ค. Cloth-Hanging์€ ์‹คํ—˜ํ•œ 7๊ฐœ ๊ณผ์ œ ์ค‘ ๊ฐ€์žฅ ์–ด๋ ค์šด ์ผ€์ด์Šค๋กœ, HEPi๋งŒ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ด๊ณ  ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค์€ ์• ๋ฅผ ๋จน์—ˆ์Šต๋‹ˆ๋‹ค. Transformer์™€ naive EMPN์€ ์ดˆ๋ฐ˜์— ์–ด๋А ์ •๋„ ๋ณด์ƒ์„ ์˜ฌ๋ฆฌ๋‹ค ๋” ๊ฐœ์„ ํ•˜์ง€ ๋ชปํ•˜๊ณ  ์ •์ฒด๋˜๊ฑฐ๋‚˜ ์˜คํžˆ๋ ค ๋ถˆ์•ˆ์ •ํ•ด์กŒ๋Š”๋ฐ, HEPi๋Š” ๊พธ์ค€ํžˆ ํ•™์Šตํ•˜์—ฌ ํ˜„์ €ํžˆ ๋†’์€ ๋ฆฌํ„ด์— ๋„๋‹ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” 3์ฐจ์› ๋Œ€๊ทœ๋ชจ ๋ณ€ํ˜•์ฒด ๋ฌธ์ œ์—์„œ ๋“ฑ๋ณ€์„ฑ๊ณผ ์ด์งˆ์  ์„ค๊ณ„์˜ ๊ฐ€์น˜๊ฐ€ ๊ทน๋Œ€ํ™”๋œ ์‚ฌ๋ก€๋ผ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒœ ๊ฑธ๊ธฐ๋Š” ์˜ท๊ฑธ์ด ๋ฐฉํ–ฅ์ด ์ด๋ฆฌ์ €๋ฆฌ ๋ฐ”๋€Œ๊ณ  ์ฒœ์˜ ํ˜•ํƒœ๋„ ์‹œ์‹œ๊ฐ๊ฐ ๋ณ€ํ•˜๋‹ˆ, ์ •์ฑ…์ด ํšŒ์ „ ๋Œ€์นญ๋„ ์•Œ์•„์•ผ ํ•˜๊ณ  ๋กœ๋ด‡ 4๊ฐœ์˜ ํ˜‘๋™๋„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. HEPi๋Š” ๋“ฑ๋ณ€ EMPN์œผ๋กœ ํšŒ์ „/์ด๋™์— ๋Œ€์‘ํ•˜๊ณ , 4๊ฐœ ๋กœ๋ด‡-์ฒœ ์ž…์ž ๊ฐ„ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๊ตํ™˜ํ•˜์—ฌ ์ด ๋‚œ์ œ๋ฅผ ์–ด๋А ์ •๋„ ํ’€์–ด๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2. ์ •์ฑ…์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ:

์„ฑ๋Šฅ ๋น„๊ต ์™ธ์—, ์ €์ž๋“ค์€ HEPi ์ •์ฑ…์ด ํ›ˆ๋ จ ์‹œ ๋ณด์ง€ ๋ชปํ•œ ์ƒํ™ฉ์— ์–ผ๋งˆ๋‚˜ ์ผ๋ฐ˜ํ™”๋˜๋Š”์ง€๋„ ์‹œํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๊ฐ€์ง€ ์ถ•์—์„œ ์‹คํ—˜ํ–ˆ๋Š”๋ฐ, (a) ๋ฌผ์ฒด์˜ ํ•ด์ƒ๋„ ๋ณ€ํ™” ๋ฐ ์„ผ์„œ ๋…ธ์ด์ฆˆ์™€ (b) ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ํ˜•ํƒœ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”์ž…๋‹ˆ๋‹ค.

  • ํ•ด์ƒ๋„ ๋ฐ ๋…ธ์ด์ฆˆ: ์•ž์„œ Rigid-Insertion ๊ณผ์ œ์—์„œ ๋งํ–ˆ๋“ฏ์ด, ๋ฌผ์ฒด์˜ ๋ฉ”์‰ฌ ํ•ด์ƒ๋„๋ฅผ ๋‚ฎ์ถฐ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด ๊ณ ํ•ด์ƒ๋„ ๋ฉ”์‰ฌ์—์„œ๋„ ์ž˜ ๋™์ž‘ํ•˜๋Š”์ง€ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ›ˆ๋ จ ์‹œ์—๋Š” ๋ฌผ์ฒด ํ‘œ๋ฉด์„ ๋Œ€ํ‘œํ•˜๋Š” ๋…ธ๋“œ๋ฅผ 20๊ฐœ๋งŒ ์“ฐ๋˜ ๊ฒƒ์„, ํ…Œ์ŠคํŠธ ๋•Œ๋Š” ๊ฐ™์€ ๋ฌผ์ฒด๋ฅผ ๋” ์ด˜์ด˜ํ•œ 1200๊ฐœ ๋…ธ๋“œ ๋ฉ”์‰ฌ๋กœ ํ‘œํ˜„ํ•œ ํ›„ (์ฆ‰ ๊ด€์ฐฐ ์ฐจ์›์ด 60๋ฐฐ ๋Š˜์–ด๋‚œ ์ƒํ™ฉ), HEPi ์ •์ฑ…์„ ์‹คํ–‰ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ HEPi๋Š” ํ•ด์ƒ๋„๊ฐ€ ํฌ๊ฒŒ ๋ณ€ํ•ด๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์˜ ๊ตญ์†Œ์„ฑ ๋•๋ถ„์ธ๋ฐ, GNN์€ ๋…ธ๋“œ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚˜๋„ ๊ตญ์†Œ ์ •๋ณด๋งŒ ์ฃผ๊ณ ๋ฐ›์œผ๋ฏ€๋กœ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์—๋Š” ์˜ํ–ฅ์ด ์—†๊ณ , ์ฃผ๋กœ ์ž…๋ ฅ ์ •๊ทœํ™”๋งŒ ์ž˜ ๋˜์–ด ์žˆ์œผ๋ฉด ๋Œ€์ฒ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋…ผ๋ฌธ์—์„œ๋Š” GNN์˜ ๊ณผ๋„ํ•œ ๋ฉ”์‹œ์ง€๋กœ ์ธํ•œ oversmoothing/oversquashing์„ ๋ง‰๊ธฐ ์œ„ํ•ด Graph Norm ๋“ฑ์„ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ด€์ธก ์žก์Œ(Gaussian noise)์„ ๋‹ค์–‘ํ•œ ์„ธ๊ธฐ๋กœ ์ถ”๊ฐ€ํ•ด ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ๋„ ์ œ์‹œํ–ˆ๋Š”๋ฐ, ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์ด ์กฐ๊ธˆ ๋†’์•„์ ธ๋„ HEPi์˜ ์„ฑ๋Šฅ ์ €ํ•˜๋Š” ๊ฒฝ๋ฏธํ•œ ์ˆ˜์ค€์— ๊ทธ์ณค์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ HEPi๋Š” ๋ฌผ์ฒด ํ‘œํ˜„์ด ์„ธ๋ฐ€ํ•ด์ ธ๋„, ์„ผ์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ์•ฝ๊ฐ„ ํ”๋“ค๋ ค๋„ ๊ฐ•์ธํ•˜๊ฒŒ ์ž‘๋™ํ•˜์˜€๊ณ , ์ด๋Š” ์‹ค์ œ ๋กœ๋ด‡ ์ ์šฉ ์‹œ ์ค‘์š”ํ•œ ์†์„ฑ์ด์ง€์š”.
  • ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ํ˜•ํƒœ: rigid ๊ณผ์ œ๋“ค์—์„œ, ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ํ˜•์ƒ์˜ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์‚ฝ์ž… ๊ณผ์ œ์—์„œ ํ”Œ๋Ÿฌ์Šค, T, ๋ณ„ ๋“ฑ 8์ข… ์ค‘ 6์ข…๋งŒ ํ›ˆ๋ จ์— ์“ฐ๊ณ , ๋‚˜๋จธ์ง€ 2์ข… ํ˜•ํƒœ์˜ ๋ฌผ์ฒด๋ฅผ ํ…Œ์ŠคํŠธ์—๋งŒ ๋“ฑ์žฅ์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ๋Š” ๊ณ ๋ฌด์ ์ด์—ˆ๋Š”๋ฐ, HEPi๋Š” ๋ณธ ์  ์—†๋Š” ๋ฌผ์ฒด๋„ ์ œ๋Œ€๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์—ˆ๊ณ  ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ž‘์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด Transformer ๊ธฐ๋ฐ˜ ์ •์ฑ…์€ ๊ทธ๋Ÿฐ ์ผ๋ฐ˜ํ™”๊ฐ€ ์‰ฝ์ง€ ์•Š์•„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์กŒ์Šต๋‹ˆ๋‹ค. HEPi์˜ ๊ธฐํ•˜ํ•™์  ํ•™์Šต ๋ฐฉ์‹์ด ๋ชจ์–‘์ด ๋‹ฌ๋ผ์ ธ๋„ ์›๋ฆฌ์ ์œผ๋กœ ์ž˜ ๋Œ€์‘ํ•œ ๋•๋ถ„์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰ ๋“ฑ๋ณ€ GNN์€ ๋ฌผ์ฒด ํ˜•ํƒœ๊ฐ€ ๋ฐ”๋€Œ์–ด๋„ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋น„์Šทํ•œ ๋ฉ”์‹œ์ง€ ํŒจํ„ด์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ๋กœ๋ด‡์— ํ•„์š”ํ•œ ์ •๋ ฌ ๋™์ž‘์€ ์–ด์ฐจํ”ผ ์ƒ๋Œ€์  ์œ„์น˜๋กœ ๊ฒฐ์ •๋˜๋‹ˆ ๋ฌธ์ œ์—†์—ˆ๋˜ ๊ฒƒ์ด์ฃ . ์ด๋Ÿฐ ์„ฑ์งˆ์€ ์ผ๋ฐ˜์ ์ธ ๊ธฐํ•˜ํ•™์  ์ถ”์ƒํ™” ๋Šฅ๋ ฅ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ถ๊ทน์ ์œผ๋กœ ๋กœ๋ด‡์˜ ๋ฒ”์šฉ์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค.

3. ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋”ฐ๋ฅธ ํ•™์Šต ์•ˆ์ •์„ฑ:

HEPi ๊ตฌ์กฐ ๊ทธ ์ž์ฒด์˜ ๋น„๊ต ์™ธ์—๋„, PPO vs TRPL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์˜ํ–ฅ ๋น„๊ต ๊ฒฐ๊ณผ๋„ ํฅ๋ฏธ๋กญ์Šต๋‹ˆ๋‹ค. Figure 7 (๋ถ€๋ก์˜ ๊ทธ๋ฆผ)์„ ๋ณด๋ฉด, HEPi+TRPL์€ ๋ชจ๋“  ๊ณผ์ œ์—์„œ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋Š”๋ฐ ๋น„ํ•ด HEPi+PPO๋Š” Cloth-Hanging-3D ๊ฐ™์€ ์–ด๋ ค์šด ๊ณผ์ œ์—์„œ ํšŒ์ฐจ ๊ฐ„ ๋ณด์ƒ ๋ณ€๋™์ด ์‹ฌํ•˜๊ณ  ์ผ๋ถ€ seed์—์„œ๋Š” ์•„์˜ˆ ํ•™์Šต์ด ์•ˆ ๋˜๋Š” ์ผ€์ด์Šค๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. Transformer ์ •์ฑ…์˜ ๊ฒฝ์šฐ๋„ TRPL์ด PPO๋ณด๋‹ค ๊พธ์ค€ํžˆ ์ข‹์•˜์ง€๋งŒ, Transformer ์ž์ฒด๊ฐ€ ํƒ์ƒ‰์„ ์ž˜ ๋ชปํ•˜๋‹ˆ ์ ˆ๋Œ€ ์„ฑ๋Šฅ์€ ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค. ์š”์ปจ๋Œ€ TRPL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์žฅ์ ์€ ํŠนํžˆ ๊ณ ์ฐจ์›/๊ณ ๋‚œ๋„ ๋ฌธ์ œ์—์„œ ๋‘๋“œ๋Ÿฌ์กŒ๊ณ , 2D ๋ฌธ์ œ๋“ค์—์„œ๋Š” ์ž˜ ํŠœ๋‹ํ•œ PPO๋„ ๋น„์Šทํ•˜๊ฒŒ ๊ฐˆ ์ˆ˜๋Š” ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ PPO๋Š” ํŠœ๋‹์— ๋ฏผ๊ฐํ•˜๊ณ  ์ƒ˜ํ”Œ ํšจ์œจ๋„ ์•ฝ๊ฐ„ ๋–จ์–ด์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹คํ—˜์€, ๋ชจ๋ธ์˜ inductive bias๋ฟ ์•„๋‹ˆ๋ผ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ณด๊ฐ•๋„ ์ค‘์š”ํ•˜๋‹ค๋Š” ์ ์„ ์ผ๊นจ์›Œ์ค๋‹ˆ๋‹ค. ์‚ฌ์‹ค ๋ณต์žกํ•œ ํ™˜๊ฒฝ์—์„œ๋Š” ์ •์ฑ…์ด ์กฐ๊ธˆ์ด๋ผ๋„ ์ž˜๋ชป ์—…๋ฐ์ดํŠธ๋˜๋ฉด ๊ธˆ์„ธ ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ์‚ฌ๋ผ์ง€๊ฑฐ๋‚˜ ๋ง๊ฐ€์ง€๋Š”๋ฐ, TRPL์€ ๊ทธ๋Ÿฐ ํฐ ์ •์ฑ… ๋ณ€ํ™”๋ฅผ ๋ง‰์•„์ฃผ๋ฏ€๋กœ HEPi์˜ ์ข‹์€ ๋ชจ๋ธ ์„ค๊ณ„๊ฐ€ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•  ์‹œ๊ฐ„์„ ๋ฒŒ์–ด์ฃผ์—ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ PPO๋งŒ ์ผ๋‹ค๋ฉด HEPi์˜ ์žฅ์ ์ด ๋ฌปํ˜”์„ ์ˆ˜ ์žˆ์ง€๋งŒ, TRPL ๋•๋ถ„์— HEPi๊ฐ€ ๊ฐ€์ง„ ์ƒ˜ํ”Œ ํšจ์œจ, ํƒ์ƒ‰ ๋Šฅ๋ ฅ์˜ ๊ทน๋Œ€ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„ ๊ฒƒ์ด์ฃ .

์ •๋Ÿ‰์  ์ˆ˜์น˜๋กœ ๋ณด์ƒ์„ ์ผ์ผ์ด ๋‚˜์—ดํ•˜์ง€๋Š” ์•Š์•˜์ง€๋งŒ, ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ๊ณก์„ ๊ณผ ํ‘œ๋“ค์„ ์ข…ํ•ฉํ•˜๋ฉด ๋Œ€๋žต ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ฑ๊ณผ ์š”์•ฝ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค: HEPi๋Š” 7๊ฐœ ๊ณผ์ œ ์ค‘ 6๊ฐœ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ  (Rigid-Insertion-2D+z์—์„œ๋งŒ Transformer์™€ ๋น„์Šท), ํ•™์Šต ์†๋„๋„ Transformer ๋Œ€๋น„ ์ˆ˜๋ฐฐ ์ด์ƒ ๋น ๋ฅธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜์Šต๋‹ˆ๋‹ค. naive EMPN๊ณผ ๋น„๊ตํ•ด์„œ๋„ ํƒ์ƒ‰ ๋‚œ์ด๋„๊ฐ€ ์žˆ๋Š” ๊ณผ์ œ์—์„œ ์šฐ์›”ํ–ˆ๊ณ ์š”. Cloth-Hanging์˜ ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ๋ณด๋ฉด, HEPi๋Š” ๋„ค ๋กœ๋ด‡์„ ์ ์ ˆํžˆ ์›€์ง์—ฌ ์ฒœ์˜ ๊ตฌ๋ฉ์„ ์˜ท๊ฑธ์ด์— ์ •ํ™•ํžˆ ๊ฑธ์ณค๋Š”๋ฐ, ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ์ค‘๊ฐ„์— ์ฒœ์ด ๊ผฌ์ด๊ฑฐ๋‚˜ ๋กœ๋ด‡ ํŒ”์ด ์—‰๋šฑํ•œ ๊ณณ์œผ๋กœ ๊ฐ€ ์‹คํŒจํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค (๋ถ€๋ก์˜ ๊ทธ๋ฆผ ์‚ฌ๋ก€ ์ฐธ์กฐ).

4. ์ถ”๊ฐ€ ๋ถ„์„๊ณผ ์—๋ธ”๋ ˆ์ด์…˜:

๋…ผ๋ฌธ ๋ณธ๋ฌธ๊ณผ ๋ถ€๋ก์—๋Š” HEPi์˜ ์„ค๊ณ„์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ์ถ”๊ฐ€ ๋ถ„์„๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋˜๋Š”์ง€ ์‹คํ—˜ํ–ˆ๋Š”๋ฐ, ๋„ˆ๋ฌด ๋งŽ์€ ๋ ˆ์ด์–ด๋ฅผ ์Œ“์œผ๋ฉด oversquashing ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒจ ์˜คํžˆ๋ ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰ ์ ๋‹นํ•œ ์ˆ˜์ค€(์˜ˆ: 3~4ํšŒ) ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์ด ์ตœ์ ์ด๊ณ , ๋ฌด์ž‘์ • ๊นŠ๊ฒŒ ํ•œ๋‹ค๊ณ  ์ข‹์€๊ฒŒ ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฐ€์ƒ ๋…ธ๋“œ(Virtual Node)๋ฅผ ์“ฐ๋Š” ๋ฐฉ๋ฒ•๊ณผ HEPi๋ฅผ ๋น„๊ตํ•œ ์‹คํ—˜์—์„œ๋Š”, Virtual Node๋ฅผ ๋„ฃ์€ ๊ฒฝ์šฐ ๋ฌผ์ฒด-๋กœ๋ด‡ ์ •๋ณด๊ตํ™˜์ด ํ•œ ๋ฒˆ์— ์•ˆ ๋˜์–ด ํ•™์Šต์ด ์•ฝ๊ฐ„ ๋А๋ฆฌ๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ๋„ ๋‚ฎ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์„œ ๋…ผํ•œ HEPi ์„ค๊ณ„์˜ ์ด์ ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ์ปดํ“จํ…Œ์ด์…˜ ์ธก๋ฉด์—์„œ, HEPi๋Š” Transformer๋ณด๋‹ค ํ›ˆ๋ จ๋‹น ์‹œ๊ฐ„์€ ์•ฝ๊ฐ„ ๋” ๊ฑธ๋ฆฌ์ง€๋งŒ (๊ทธ๋ž˜ํ”„ ์—ฐ์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ), ์ƒ˜ํ”Œ ํšจ์œจ์ด ์ข‹์•„ ์ „์ฒด ํ•™์Šต์— ํ•„์š”ํ•œ ํ™˜๊ฒฝ step ์ˆ˜๊ฐ€ ์ ๋‹ค ๋ณด๋‹ˆ ์ตœ์ข…์ ์œผ๋กœ ๊ฑธ๋ฆฐ ์‹œ๊ฐ„์€ ์—‡๋น„์Šทํ•˜๊ฑฐ๋‚˜ ๋” ์ ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Cloth-Hanging ๊ฐ™์€ ๊ฒฝ์šฐ Transformer๋Š” ์˜ค๋ž˜ ํ•™์Šตํ•ด๋„ ์„ฑ๋Šฅ์ด ๋‚ฎ์•„ ์‹œ๊ฐ„ ๋‚ญ๋น„์˜€์ง€๋งŒ HEPi๋Š” ๋นจ๋ฆฌ ์ž„๊ณ„ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•ด ์ผ์ฐ ๋ฉˆ์ถœ ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ์‹์ž…๋‹ˆ๋‹ค.

๋น„ํŒ์  ๊ณ ์ฐฐ: ๊ฐ•์ , ์•ฝ์ ๊ณผ ํ–ฅํ›„ ๋ฐฉํ–ฅ

(1) ์ฃผ์š” ๊ธฐ์—ฌ ๋ฐ ๊ฐ•์ : ์ด ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ํ•™์Šต์— ๊ธฐํ•˜ํ•™์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋…น์—ฌ๋‚ธ ํ›Œ๋ฅญํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐ•์ ์„ ์งš์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค:

  • ๋ฒ”์šฉ์ ์ธ ๊ทธ๋ž˜ํ”„ ํ‘œํ˜„์˜ ์ œ์•ˆ: ๋กœ๋ด‡-๋ฌผ์ฒด ์ƒํ˜ธ์ž‘์šฉ์„ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ํ†ตํ•ฉ ํ‘œํ˜„ํ•œ ์•„์ด๋””์–ด๋Š”, ๋‹จ์ผ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค๋Š” ์ ์—์„œ ๊ฐ€์น˜๊ฐ€ ๋†’์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ €์ž๋“ค์€ ์‚ฝ์ž…, ๋ฐ€๊ธฐ, ๋ฐง์ค„, ์ฒœ ๋“ฑ ์„ฑ๊ฒฉ์ด ํŒ์ดํ•œ ์ž‘์—…๋“ค์„ ๋ชจ๋‘ ๊ทธ๋ž˜ํ”„ ํ•˜๋‚˜๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๋™์ผํ•œ ์ •์ฑ… ๊ตฌ์กฐ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ๋„“ํ˜€์ฃผ๋Š” ๋ฐฉํ–ฅ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์ƒˆ๋กœ์šด ๊ณผ์ œ๊ฐ€ ์ถ”๊ฐ€๋˜๋”๋ผ๋„, ํ•ด๋‹น ๊ณผ์ œ๋ฅผ ๊ทธ๋ž˜ํ”„ ํ˜•ํƒœ๋กœ ์ž˜ ๋ชจ๋ธ๋งํ•˜๊ธฐ๋งŒ ํ•˜๋ฉด HEPi๋‚˜ ์œ ์‚ฌํ•œ ์ •์ฑ…์œผ๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ‘œํ˜„๋ ฅ์˜ ๋ฒ”์šฉ์„ฑ์€ ๋กœ๋ด‡์—๊ฒŒ ์žˆ์–ด ์ค‘์š”ํ•œ ์ ์‘๋ ฅ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ๋Œ€์นญ์„ฑ ํ™œ์šฉ์œผ๋กœ ํšจ์œจ ๊ทน๋Œ€ํ™”: SE(3) ๋“ฑ๋ณ€ ์ •์ฑ…์˜ ๋„์ž…์€ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์ธก๋ฉด์—์„œ ํฐ ํšจ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋ณต์žกํ•œ 3์ฐจ์› ๋ฌธ์ œ์—์„œ HEPi๊ฐ€ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ๋˜ ๋น„๊ฒฐ ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋ฐ”๋กœ ์ด ๋“ฑ๋ณ€์„ฑ์ž…๋‹ˆ๋‹ค. ํ”ํžˆ ๋กœ๋ด‡ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ ์š”๊ตฌ๋Ÿ‰์ด ๋งŽ์•„ ํ˜„์‹ค์— ์ ์šฉ๋˜๊ธฐ ์–ด๋ ค์šด๋ฐ, ๋Œ€์นญ์„ฑ์„ ํ™œ์šฉํ•˜๋ฉด ํ•™์Šต ์‹œ๊ฐ„์„ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ผ ์ž ์žฌ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋“ฑ๋ณ€ GNN์œผ๋กœ ์‹ค์ œ ์–ด๋ ค์šด ๊ณผ์ œ๋ฅผ ํ‘ผ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ, ํ–ฅํ›„ ๋Œ€์นญ์„ฑ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์ด ๋กœ๋ด‡ RL์˜ ํ‘œ์ค€ ํˆด์ด ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค.
  • ์ด์งˆ์„ฑ ๋ชจ๋“ˆํ™” ์„ค๊ณ„: HEPi์˜ ๊ตฌ์กฐ์  ์„ค๊ณ„๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์˜ ์ •๋ณด ํ๋ฆ„์„ ๋˜‘๋˜‘ํ•˜๊ฒŒ ์กฐ์งํ™”ํ•œ ์˜ˆ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๋กœ๋ด‡-๋ฌผ์ฒด ์‚ฌ์ด ํ•œ ํ™‰ ์—ฐ๊ฒฐ์„ ํ†ตํ•ด ๋น ๋ฅธ ์ •๋ณด ๊ตํ™˜์„ ๊ฐ€๋Šฅ์ผ€ ํ•œ ์ , ๋กœ๋ด‡ ํด๋Ÿฌ์Šคํ„ฐ์™€ ๋ฌผ์ฒด ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋ถ„๋ฆฌ ์ฒ˜๋ฆฌํ•ด์„œ ์—ญํ• ๋ณ„ ํ‘œํ˜„์„ ๊ทน๋Œ€ํ™”ํ•œ ์  ๋“ฑ์ด ๋‹๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ HEPi๋Š” Transformer ๋Œ€๋น„ ๋งค์šฐ ๊ฐ€๋ฒผ์šด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋กœ๋„ ๋†’์€ ํ‘œํ˜„๋ ฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ Transformer๋Š” global attention์œผ๋กœ O(n^2) ์ƒํ˜ธ์ž‘์šฉ์„ ๋ชจ๋‘ ํ•™์Šตํ•ด์•ผ ํ•˜์ง€๋งŒ, HEPi๋Š” ๊ตฌ์กฐ์ƒ ํ•„์š”ํ•œ ์ƒํ˜ธ์ž‘์šฉ๋งŒ (์˜ˆ: ๋ฌผ์ฒด->๋กœ๋ด‡) ์ฆ‰์‹œ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ํ•™์Šต ๋‚œ์ด๋„๋ฅผ ๋‚ฎ์ถ”๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ธ์œ„์ ์ธ ๊ตฌ์กฐ์  prior๋Š” ํŠน์ • ์ƒํ™ฉ์—์„œ๋Š” ์ œ์•ฝ์œผ๋กœ ์ž‘์šฉํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ๋ณธ ๋…ผ๋ฌธ ๊ณผ์ œ๋“ค์—์„œ๋Š” ์˜คํžˆ๋ ค ํ•„์š”ํ•œ ์ œ์•ฝ์ด ๋˜์–ด ํƒ์ƒ‰์„ ๋„์™€์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์™€ ์‹คํ—˜ ๋ถ„์„: ๋…ผ๋ฌธ์ด ๊ธฐ์—ฌํ•œ ๋˜ ๋‹ค๋ฅธ ๋ถ€๋ถ„์€ ๊ฐ•ํ™”ํ•™์Šต์šฉ ์–ด๋ ค์šด ์กฐ์ž‘ ๊ณผ์ œ๋“ค์„ ๋งŒ๋“ค์–ด ๊ณต๊ฐœํ–ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. Rope-Shaping, Cloth-Hanging ๋“ฑ์€ ๊ทธ๊ฐ„ ์ฃผ๋กœ ๋ชจ๋ฐฉํ•™์Šต์ด๋‚˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ œ์–ด ๋“ฑ์—์„œ ๋‹ค๋ค„์กŒ๋˜ ๋ฌธ์ œ์ธ๋ฐ, ์ˆœ์ˆ˜ RL๋กœ ํ’€์–ด๋ณด๋ ค ์‹œ๋„ํ•œ ๊ฒƒ ์ž์ฒด๊ฐ€ ์˜๋ฏธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ํ™œ์šฉ์ด๋‚˜ ๋ณด์ƒ ์„ค๊ณ„ ๋“ฑ ๋…ธ๋ ฅ์ด ๋งŽ์ด ๋“ค์–ด๊ฐ”๋Š”๋ฐ, ๋ถ€๋ก์— ์ƒ์„ธํžˆ ๊ณต๊ฐœํ•˜์—ฌ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์˜คํ”ˆํ•œ ์‹คํ—˜ ํ™˜๊ฒฝ์€ ๊ด€๋ จ ์—ฐ๊ตฌ ๋ถ„์•ผ์— ์ข‹์€ ์ž๊ทน์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ €์ž๋“ค์€ HEPi์˜ ์„ค๊ณ„ ์š”์†Œ๋ณ„๋กœ (๋“ฑ๋ณ€์„ฑ, ์ด์งˆ์„ฑ, trust-region ๋“ฑ) ์ฒด๊ณ„์ ์ธ ๋น„๊ต์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•ด ๊ฐ€์„ค์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋•๋ถ„์— ๋…์ž๋“ค์€ ์™œ ๊ทธ๋Ÿฐ ์„ค๊ณ„๊ฐ€ ํ•„์š”ํ–ˆ๋Š”์ง€ ๋‚ฉ๋“ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, HEPi๊ฐ€ ์ž˜ ๋˜๋‹ˆ๊นŒ ์ข‹๋‹ค ์‹์ด ์•„๋‹ˆ๋ผ, โ€œVirtual node vs one-hopโ€, โ€œPPO vs TRPLโ€ ๋“ฑ์˜ ๋น„๊ต๋กœ ์›์ธ-๊ฒฐ๊ณผ ๊ด€๊ณ„๋ฅผ ๋ถ„๋ช…ํžˆ ํ–ˆ์ฃ . ์ด๋Ÿฌํ•œ ์‹ค์ฆ์ ์ธ ๋ถ„์„์€ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์—ฌ์ค๋‹ˆ๋‹ค.
  • ์‹ค์ œ ์ ์šฉ ์ž ์žฌ๋ ฅ: HEPi๋Š” ์•„์ง ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ฒ€์ฆ๋œ ๊ฒƒ์ด์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ํŠน์„ฑ์€ ์‹ค์ œ๋กœ ์œ ์šฉํ•  ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์šฐ์„  ์žก์Œ์— ๊ฐ•์ธํ•˜๊ณ  ๊ณ ํ•ด์ƒ๋„ ์ž…๋ ฅ๋„ ์ฒ˜๋ฆฌ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์€, ์‹ค์ œ ์นด๋ฉ”๋ผ ๋“ฑ ์„ผ์„œ๋กœ๋ถ€ํ„ฐ ์˜ค๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•  ๋•Œ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ ๊ตฌ์กฐ์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๋กœ๋ด‡์„ ์‰ฝ๊ฒŒ ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์  (๋…ธ๋“œ ์ถ”๊ฐ€๋งŒ ํ•˜๋ฉด ๋˜๋ฏ€๋กœ)์—์„œ ๋ฉ€ํ‹ฐ ๋กœ๋ด‡ ์‹œ์Šคํ…œ์—๋„ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. SE(3) ๋“ฑ๋ณ€ ์ œ์•ฝ์€ ์‹ค์ œ ์„ธ๊ณ„์˜ ๋ฌผ๋ฆฌ ๋Œ€์นญ๊ณผ ๋ถ€ํ•ฉํ•˜๋ฏ€๋กœ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜-ํ˜„์‹ค ๊ฐ„ ์ฐจ์ด๋ฅผ ์ค„์ด๋Š” ํšจ๊ณผ๋„ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ํ•™์Šตํ•œ HEPi ์ •์ฑ…์„ ๊ทธ๋Œ€๋กœ ๋กœ๋ด‡์— ์ด์‹ํ•  ๋•Œ, ๋ฌผ์ฒด๊ฐ€ ํšŒ์ „๋˜์—ˆ๋‹ค๊ณ  ๋ง๊ฐ€์ง€์ง€ ์•Š๊ณ  ์ ์‘ํ•  ์ˆ˜ ์žˆ์œผ๋‹ˆ ๋„๋ฉ”์ธ ์ „์ด ์ธก๋ฉด์—์„œ๋„ ์œ ๋ฆฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ๋“ค์€ ์ด ์—ฐ๊ตฌ์˜ ์‹ค์šฉ์  ๊ฐ€์น˜๋ฅผ ๋†’์—ฌ์ฃผ๋Š” ๊ฐ•์ ์ž…๋‹ˆ๋‹ค.

(2) ํ•œ๊ณ„ ๋ฐ ๊ฐœ์„ ์ : ๋ชจ๋“  ์—ฐ๊ตฌ๊ฐ€ ๊ทธ๋ ‡๋“ฏ, ์ด ๋…ผ๋ฌธ์—๋„ ๋ช‡ ๊ฐ€์ง€ ํ•œ๊ณ„๋‚˜ ์•„์‰ฌ์šด ๋ถ€๋ถ„์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค:

  • ํ˜„์‹ค ์„ธ๊ณ„ ์ ์šฉ ๊ฒ€์ฆ ๋ถ€์žฌ: ์•ž์„œ ์žฅ์ ์œผ๋กœ ์‹ค์ œ ์ž ์žฌ๋ ฅ์„ ์–ธ๊ธ‰ํ–ˆ์ง€๋งŒ, ์ •์ž‘ ๋…ผ๋ฌธ์—์„œ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ๋งŒ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 3D ์ฒœ ๊ฑธ๊ธฐ๋‚˜ ๋ฐง์ค„ ๋ชจ์–‘ ๋งŒ๋“ค๊ธฐ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์„ ์‹ค์ œ ๋กœ๋ด‡์œผ๋กœ ๊ตฌํ˜„ํ•˜๋Š” ๊ฒƒ์€ ์—„์ฒญ๋‚œ ๋„์ „์ด๋ผ ์ดํ•ด๋Š” ๊ฐ‘๋‹ˆ๋‹ค๋งŒ, sim-to-real์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ๊ฑฐ์˜ ์—†๋˜ ๊ฒƒ์€ ์•„์‰ฌ์šด ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์€ ์ž…๋ ฅ์ด ๋ฌผ์ฒด์˜ ๊ธฐํ•˜ํ•™์  ์ƒํƒœ(์ขŒํ‘œ๋“ค)์—ฌ์„œ, ํ˜„์‹ค์—์„  ์ด๋ฅผ ์–ป๊ธฐ ์œ„ํ•œ ๋น„์ „ ๋˜๋Š” ์„ผ์‹ฑ ๋ชจ๋“ˆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒœ์˜ ์—ฌ๋Ÿฌ ์ž…์ž ์ขŒํ‘œ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์•Œ์•„๋‚ด๋ ค๋ฉด ๋ชจ์…˜ ์บก์ฒ˜๋‚˜ 3D ๋น„์ „์ด ์žˆ์–ด์•ผ ํ•  ํ…๋ฐ, ๊ทธ๋Ÿฌํ•œ ์ธ์‹ ๋ฌธ์ œ๊ฐ€ ๊ณ ๋ ค๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ง„์งœ ๋กœ๋ด‡์— ์“ฐ๋ ค๋ฉด ๊ทธ๋ž˜ํ”„ state๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์ „์ฒ˜๋ฆฌ (์˜ˆ: ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ->๊ทธ๋ž˜ํ”„ ๋ณ€ํ™˜)๋‚˜ ์ •ํ™•ํ•œ ์™ธ๋ถ€ ์ถ”์  ์‹œ์Šคํ…œ ๋“ฑ์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•œ ์˜์—ญ์ž…๋‹ˆ๋‹ค.

  • ์ž…๋ ฅ ๋…ธ๋“œ ์„ ๋ณ„์˜ ์ˆ˜๋™์„ฑ: ์ฒœ ๊ฑธ๊ธฐ ๊ณผ์ œ์—์„œ ๊ตฌ๋ฉ ๋‘˜๋ ˆ 10๊ฐœ ๋…ธ๋“œ๋งŒ ์„ ํƒํ•œ๋‹ค๋“ ์ง€, ์ ˆ๋Œ€ ์ขŒํ‘œ ํ”ผ์ฒ˜๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค๋“ ์ง€ ํ•œ ๋ถ€๋ถ„์€, HEPi๋ผ๊ณ  ํ•˜๋Š” ๋ฒ”์šฉ ์ •์ฑ…์— ์•ฝ๊ฐ„ ์ธ๊ฐ„ ๊ฐœ์ž…์„ ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ก  feature engineering ์ˆ˜์ค€์˜ ์ž‘์€ ์กฐ์ •์ผ ๋ฟ์ด์ง€๋งŒ, ์ด๋Š” HEPi๊ฐ€ ๋ชจ๋“  ๊ฒƒ์„ end-to-end๋กœ ํ•™์Šตํ–ˆ๋‹ค๊ธฐ๋ณด๋‹ค ์–ด๋А ์ •๋„ ๋ฌธ์ œ๋ณ„ ํŠœ๋‹์ด ํ•„์š”ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ฒœ์˜ ๋‹ค๋ฅธ ์ž‘์—…(์˜ˆ: ์ ‘๊ธฐ ๋“ฑ)์„ ํ•œ๋‹ค๋ฉด ์–ด๋–ค ๋…ธ๋“œ๋ฅผ ์จ์•ผ ํ• ์ง€, ๊ทธ๋•Œ๋„ ๊ตฌ๋ฉ ๋‘˜๋ ˆ๊ฐ€ ์•„๋‹Œ ๋‹ค๋ฅธ ๊ธฐ์ค€์„ ์จ์•ผ ํ•  ํ…๋ฐ, ์ด๋Ÿฌํ•œ ๊ฒฐ์ •์€ ์—ฌ์ „ํžˆ ์‚ฌ๋žŒ ๋ชซ์ž…๋‹ˆ๋‹ค. ์žฅ๊ธฐ์ ์œผ๋กœ๋Š” ์ด๋Ÿฌํ•œ ๋…ธ๋“œ ์„ ํƒ๋„ ์ž๋™์œผ๋กœ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ์ „์—ญ ๋…ธ๋“œ๊นŒ์ง€ ํฌํ•จํ•œ end-to-end๋กœ ๊ฐ€๋Š” ๊ฒŒ ์ด์ƒ์ ์ด๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ๋ชจ๋ธ ๋ฐ ํ›ˆ๋ จ ๋ณต์žก๋„: ๊ตฌ์กฐ์ƒ HEPi๋Š” Transformer๋ณด๋‹ค ๋งค ์Šคํ… ๊ณ„์‚ฐ์€ ๊ฐ€๋ฒผ์šธ ์ˆ˜ ์žˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์—ฐ์‚ฐ์ด ๋ˆ„์ ๋˜๋ฉด ๋ณต์žก๋„๊ฐ€ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค. ์™„์ „ ์—ฐ๊ฒฐ๋œ ์ด์ข… ์—ฃ์ง€๋“ค์€ ๋…ธ๋“œ ์ˆ˜๊ฐ€ ๋งŽ์„ ๋•Œ ๋น„์šฉ์ด ์ปค์งˆ ์ˆ˜๋ฐ–์— ์—†์Šต๋‹ˆ๋‹ค (์—ฃ์ง€ ๊ฐœ์ˆ˜ \sim O(N_{act} \times N_{obj})). ๋‹คํ–‰ํžˆ ์‹คํ—˜์—์„  ๋Œ€๋ถ€๋ถ„ N_{obj}๊ฐ€ 20~80 ์ •๋„์—ฌ์„œ ๋ฌธ์ œ๋˜์ง€ ์•Š์•˜์ง€๋งŒ, ๋งŒ์•ฝ ๋ฌผ์ฒด๊ฐ€ 1000๊ฐœ ๋„˜๋Š” ํฌ์ธํŠธ๋กœ ํ‘œํ˜„๋˜๋ฉด efficiency ์ด์ ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์ด ๊ณ ํ•ด์ƒ๋„ 1200๋…ธ๋“œ ํ…Œ์ŠคํŠธ์—์„œ HEPi๊ฐ€ ์ž˜ ๋™์ž‘ํ–ˆ๋‹ค๊ณ ๋Š” ํ•˜์ง€๋งŒ, ์ด๋Š” ์ •์ฑ…์„ ๊ทธ ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰๋งŒ ํ•ด๋ณธ ๊ฒƒ์ด๊ณ , ํ•™์Šต์€ ์—ฌ์ „ํžˆ ์ €ํ•ด์ƒ๋„๋กœ ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ 1200๋…ธ๋“œ ํ™˜๊ฒฝ ์ž์ฒด๋ฅผ ํ•™์Šตํ•ด์•ผ ํ–ˆ๋‹ค๋ฉด, ํ•™์Šต ์†๋„๊ฐ€ ๋А๋ ค์ง€๊ฑฐ๋‚˜ GNN ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ์˜ memory bottleneck์ด ๋‚˜ํƒ€๋‚ฌ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ถ€๋ถ„์€ HEPi๋งŒ์˜ ๋ฌธ์ œ๋ผ๊ธฐ๋ณด๋‹ค GNN ์ „๋ฐ˜์˜ ์Šค์ผ€์ผ ํ•œ๊ณ„์ง€๋งŒ, ์–ด์จŒ๋“  ๊ทน๋‹จ์ ์œผ๋กœ ์Šค์ผ€์ผ ํฐ ๋ณ€ํ˜•์ฒด๋กœ ๊ฐ€๋ฉด ํ˜„ ๋ฐฉ๋ฒ•๋„ ์–ด๋ ค์›€์ด ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ–ฅํ›„ ๊ณ„์ธต์  ๊ทธ๋ž˜ํ”„(graph hierarchy)๋‚˜ ํŠน์ง• ์••์ถ• ๊ธฐ๋ฒ• ๋“ฑ์„ ๋„์ž…ํ•ด ๊ฐœ์„ ํ•  ์—ฌ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ •์ฑ…์˜ ์ œ์•ฝ์ด ์ž ์žฌ์  ํ•œ๊ณ„๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ: ๋“ฑ๋ณ€์„ฑ์€ ์žฅ์ ์ด ๋งŽ์ง€๋งŒ, ๋ชจ๋“  ์ƒํ™ฉ์— ๋“์ด ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ™˜๊ฒฝ์— ๋Œ€์นญ์„ฑ์ด ์—†๊ฑฐ๋‚˜ ๊นจ์ง€๋Š” ์š”์†Œ๊ฐ€ ์žˆ๋‹ค๋ฉด, ๋“ฑ๋ณ€ ์ œ์•ฝ์ด ์˜คํžˆ๋ ค ๋ฐฉํ•ด๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ž‘์—… ๊ณต๊ฐ„์— ์ค‘๋ ฅ์ด ์ž‘์šฉํ•ด ์œ„์•„๋ž˜ ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™ ์ „๋žต์ด ๋‹ฌ๋ผ์ง€๋Š” ๊ฒฝ์šฐ, SE(3) ๋“ฑ๋ณ€ ์ •์ฑ…์€ ๊ทธ ์ฐจ์ด๋ฅผ ๋ฌด์‹œํ•˜๋ ค ํ•  ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๋ณธ ๋…ผ๋ฌธ ๊ณผ์ œ๋“ค์€ ํšŒ์ „/ํ‰ํ–‰์ด๋™์— ๋”ฐ๋ฅธ ๋ฌผ๋ฆฌ๋ฒ•์น™ ๋ณ€ํ™”๊ฐ€ ๋ฏธ๋ฏธํ•˜๊ฑฐ๋‚˜ ์˜๋„์ ์œผ๋กœ ๋Œ€์นญ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ˜„์‹ค์—์„œ๋Š” ๋งˆ์ฐฐ์ด๋‚˜ ์ค‘๋ ฅ ๋“ฑ์œผ๋กœ ์ ˆ๋Œ€ ๋ฐฉํ–ฅ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ HEPi์ฒ˜๋Ÿผ ๊ฐ•ํ•œ ๋Œ€์นญ ๊ฐ€์ •์„ ๋„ฃ์œผ๋ฉด ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ๋“ฑ๋ณ€ ์ •์ฑ…์„ ์ ์šฉํ•  ๋• ํ•ด๋‹น ํ™˜๊ฒฝ์— ์ง„์งœ ๊ทธ๋Ÿฐ ๋Œ€์นญ์„ฑ์ด ์žˆ๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•˜๊ณ , ์—†์œผ๋ฉด ์“ฐ์ง€ ๋ง์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ•œํŽธ HEPi์˜ ์ด์ข… ์„ค๊ณ„๋„ ์ผ๋ฐ˜ GNN๋ณด๋‹ค ์ž์œ ๋„๊ฐ€ ์ ๊ธฐ ๋•Œ๋ฌธ์—, ํ˜น์‹œ ๋ชจ๋ธ์ด ๋” ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•„์š”๋กœ ํ•˜๋Š” ์ƒํ™ฉ์—์„œ๋Š” ์ œ์•ฝ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ Transformer๊ฐ€ HEPi์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ์„ ๋‚ธ ๊ฒฝ์šฐ๋Š”, HEPi์˜ ๊ตฌ์กฐ์  ์šฐ์œ„๊ฐ€ ๋ฐœํœ˜๋  ๋งŒํ•œ ๋ณต์žก์„ฑ์ด ์—†๋˜ ๊ฒฝ์šฐ์˜€์Šต๋‹ˆ๋‹ค. ์ฆ‰ ๊ตฌ์กฐ์  prior๋Š” ์–‘๋‚ ์˜ ๊ฒ€์ด๋ผ, ์ ์ ˆํ•œ ๋‚œ์ด๋„์˜ ๋ฌธ์ œ์—์„œ๋งŒ ํ†ตํ•ฉ๋‹ˆ๋‹ค. ์•„์ง HEPi๊ฐ€ ์–ด๋А ์ •๋„ ๋ณต์žก๋„ ์ด์ƒ์ผ ๋•Œ ํšจ๊ณผ์ ์ธ์ง€ ๊ฒฝ๊ณ„์„ ์ด ์™„์ „ํžˆ ๊ทœ๋ช…๋œ ๊ฑด ์•„๋‹ˆ๋ฏ€๋กœ, ๊ทธ ์ ์šฉ ๋ฒ”์œ„๋ฅผ ์—ผ๋‘์— ๋‘์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

  • ๊ด€๋ จ ์—ฐ๊ตฌ์™€์˜ ๋น„๊ต ์ œํ•œ: ์ด ๋…ผ๋ฌธ์€ transformer์™€ GNN baseline๊ณผ ๋น„๊ต๋Š” ์ฒ ์ €ํžˆ ํ–ˆ์ง€๋งŒ, ๊ธฐ์กด์˜ ํŠนํ™”๋œ deformable object manipulation ๋ฐฉ๋ฒ•๋“ค๊ณผ ์ง์ ‘ ๋น„๊ตํ•˜์ง€๋Š” ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด์ „์— EquiBind(๊ฐ€์นญ)๋‚˜ DiffSkill ๋“ฑ ๋ฐง์ค„/์ฒœ ๋‹ค๋ฃจ๊ธฐ ๋ฐฉ๋ฒ•๋“ค์ด ์žˆ๋Š”๋ฐ, ์ด๋“ค๊ณผ์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋Š” ๋‹ค๋ฃจ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฒค์น˜๋งˆํฌ ๊ณผ์ œ๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๊ธฐ๋„ ํ•˜์ง€๋งŒ, ํ•œํŽธ์œผ๋กœ๋Š” RL๊ณผ imitation ๋“ฑ ํ•™์Šต ์„ค์ •์ด ๋‹ฌ๋ผ ์ง์ ‘ ๋น„๊ตํ•˜๊ธฐ ์–ด๋ ค์šด ์ธก๋ฉด๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜๋„ ๋…์ž๋กœ์„œ๋Š” โ€œ๊ธฐ์กด ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์•„์˜ˆ ๋ชป ํ’€๋˜ ๊ฑธ ์ด๋ฒˆ์—” ํ’€์—ˆ๋‹คโ€๋Š” ์‹์˜ ๋งฅ๋ฝ์„ ์•Œ๊ณ  ์‹ถ์€๋ฐ, ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ถ€๋ถ„์ด ์•ฝ๊ฐ„ ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค. (๋‹คํ–‰ํžˆ ๊ด€๋ จ ์—ฐ๊ตฌ ์–ธ๊ธ‰์—์„œ EquiBot ๋“ฑ ๋ฐฉ๋ฒ•์ด ์‹œ๋ฒ”ํ•™์Šต ๊ธฐ๋ฐ˜์ด๋ผ RL๋ณด๋‹ค ์œ ๋ฆฌํ•œ ํ™˜๊ฒฝ์ด์—ˆ๋‹ค๋Š” ์„ค๋ช…์ด ์žˆ๊ธด ํ•ฉ๋‹ˆ๋‹ค.) ํ–ฅํ›„ ์ถ”๊ฐ€ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค๋ฅธ ์ตœ์ฒจ๋‹จ ๊ธฐ๋ฒ•๋“ค๊ณผ์˜ head-to-head ๋น„๊ต๋„ ์ง„ํ–‰๋˜๋ฉด ์ข‹๊ฒ ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ปจ๋Œ€ model-based RL์ด๋‚˜ planning ์ ‘๊ทผ, ํ˜น์€ visual RL๊ณผ ๊ฒฐํ•ฉํ•œ ๋ฐฉ๋ฒ• ๋“ฑ๊ณผ ์„ฑ๋Šฅ์ด๋‚˜ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ ๊ฒฌ์ฃผ๋ฉด HEPi์˜ ํฌ์ง€์…˜์ด ๋” ๋ช…ํ™•ํ•ด์งˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

(3) ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์–ธ: ์ด ์—ฐ๊ตฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ๋ฐœ์ „ ๋ฐฉํ–ฅ์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜ ๋ฐ Sim-to-Real: ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์—์„œ ๊ฒ€์ฆํ•œ HEPi๋ฅผ ์‹ค์ œ ๋กœ๋ด‡ ์‹œ์Šคํ…œ์— ์ด์‹ํ•˜์—ฌ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€์žฅ ํฅ๋ฏธ๋กœ์šด ๋‹ค์Œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๊ทธ๋ž˜ํ”„ ์ƒํƒœ ์ถ”์ •(vision + shape reconstruction)์ด ํ•„์š”ํ•˜๋ฏ€๋กœ, ์ปดํ“จํ„ฐ ๋น„์ „๊ณผ์˜ ๊ฒฐํ•ฉ ์—ฐ๊ตฌ๊ฐ€ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” NeRF๋‚˜ SDF๋กœ ๋ฌผ์ฒด์˜ 3D shape์„ ์ถ”์ •ํ•˜๋Š” ๊ธฐ์ˆ ๋“ค์ด ๋ฐœ์ „ํ–ˆ๋Š”๋ฐ, ๊ทธ๋Ÿฐ ๊ฒƒ์„ ํ†ตํ•ด ์–ป์€ ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ๋„ฃ๋Š” ์‹์œผ๋กœ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Sim-to-Real gap์„ ์ค„์ด๋ ค๋ฉด, domain randomization ๋“ฑ ๊ธฐ๋ฒ•์„ HEPi ํ›ˆ๋ จ์— ํฌํ•จํ•˜๊ฑฐ๋‚˜, ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋กœ fine-tuningํ•˜๋Š” ๋“ฑ์˜ ์‹œ๋„๋„ ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. HEPi์˜ ๊ตฌ์กฐ์ƒ ์žก์Œ์— ๊ฐ•์ธํ•˜๋‹ˆ, ์ถ”๊ฐ€ ํŠœ๋‹ ์—†์ด๋„ ๊ฝค ๋™์ž‘ํ•  ๊ฐ€๋Šฅ์„ฑ๋„ ์žˆ๊ฒ ์ง€๋งŒ, ์•ˆ์ „์„ฑ ๋“ฑ์„ ์œ„ํ•ด ์‹คํ—˜ ๊ฒ€์ฆ์ด ๊ผญ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค์ค‘ ๋กœ๋ด‡ ๋ฐ ๋‹ค์ค‘ ๋ฌผ์ฒด ํ™•์žฅ: HEPi ๊ทธ๋ž˜ํ”„๋Š” ์›์น™์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๋กœ๋ด‡์ด๋‚˜ ์—ฌ๋Ÿฌ ๋ฌผ์ฒด๋„ ์ถ”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ, ๋ณต์ˆ˜ ๊ฐ์ฒด๋ฅผ ๋™์‹œ์— ๋‹ค๋ฃจ๋Š” ๊ณผ์ œ์— ๋„์ „ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‘ ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ์–‘ ๋ฌผ์ฒด๋ฅผ ๋™์‹œ์— ์˜ฎ๊ฒจ์„œ ์Œ“๊ธฐ, ํ˜น์€ ๋ฐง์ค„ ๋‘ ๊ฐœ๋ฅผ ๋™์‹œ์— ๋ฌถ๊ธฐ ๊ฐ™์€ ๋ณตํ•ฉ ์ž‘์—…์„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๊ฒ ์ฃ . ์•ก์ถ”์—์ดํ„ฐ ๋…ธ๋“œ๋„ ์—ฌ๋Ÿฌ ๊ฐœ, ๋ฌผ์ฒด ๋…ธ๋“œ๋„ ์—ฌ๋Ÿฌ ๊ทธ๋ฃน์œผ๋กœ ์กด์žฌํ•˜๋Š” ๋” ์ผ๋ฐ˜์ ์ธ Hetero-Graph RL๋กœ ๋‚˜์•„๊ฐ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ HEPi์˜ ๊ตฌ์กฐ๋ฅผ ์•ฝ๊ฐ„ ์ˆ˜์ •ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค (์˜ˆ: ๋ฌผ์ฒด ๋…ธ๋“œ๋“ค๋„ ๊ทธ๋ฃน ๋ณ„ ๋ฉ”ํƒ€ ๋…ธ๋“œ๋กœ ๊ตฌ๋ถ„ํ•˜๊ฑฐ๋‚˜). ํ•˜์ง€๋งŒ ๊ธฐ๋ณธ ๊ฐœ๋…์€ ํ™•์žฅ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด HEPi๊ฐ€ ๋ณด๋‹ค ์ผ๋ฐ˜์ ์ธ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ RL์ด๋‚˜ ๋‹ค์ค‘ ๊ฐ์ฒด ์กฐ์ž‘ ๋ฌธ์ œ๊นŒ์ง€ ํฌ๊ด„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • ๊ณ„์ธต์ /๋ฉ€ํ‹ฐ์Šค์ผ€์ผ ํ‘œํ˜„: ์•ž์„œ ํ•œ๊ณ„์—์„œ ์–ธ๊ธ‰ํ–ˆ๋“ฏ, ๊ทธ๋ž˜ํ”„ ๋…ธ๋“œ๊ฐ€ ์•„์ฃผ ๋งŽ์•„์ง€๋ฉด ์ฒ˜๋ฆฌ ๋ถ€๋‹ด์ด ์ปค์ง‘๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ณด์™„ํ•˜๋ ค๋ฉด ๊ทธ๋ž˜ํ”„๋ฅผ ๊ณ„์ธต์ ์œผ๋กœ ์กฐ์งํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ฒœ์˜ ๋ชจ๋“  ์ž…์ž๋ฅผ ๋…ธ๋“œ๋กœ ์“ฐ๋˜, ๋จผ์ € ๋กœ์ปฌํ•œ ๋ฉ”์‹œ์ง€๋กœ ์ธ์ ‘ 5๊ฐœ ๋ผ๋ฆฌ ๋ญ‰์นœ feature๋ฅผ ๋งŒ๋“ค๊ณ , ๊ทธ๊ฑธ ๋‹ค์‹œ ๊ธ€๋กœ๋ฒŒ์— ์“ฐ๋Š” ํ˜•ํƒœ๋กœ, ์ผ์ข…์˜ Graph Pooling/Coarsening์„ ํ™œ์šฉํ•˜๋Š” ๊ฑฐ์ฃ . ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋ฌธ์ œ ์ •์˜์ƒ ํŠน์ • ๋ถ€๋ถ„๋งŒ ๋…ธ๋“œ๋กœ ๋ฝ‘๋Š” ์‹์œผ๋กœ ์ฐจ์›์„ ์ค„์˜€์ง€๋งŒ, ์ข€ ๋” ์ž๋™ํ™”ํ•˜๋ ค๋ฉด GNN ๋‚ด๋ถ€์— pooling layer๋ฅผ ๋„ฃ์–ด ๋…ธ๋“œ ์ง‘ํ•ฉ์„ ์š”์•ฝํ•˜๋Š” ๊ฒƒ๋„ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ Graph Hierarchy Network๋‚˜ Graph Transformer ์—ฐ๊ตฌ๋“ค์—์„œ ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๊ฐ€ ํ™œ๋ฐœํ•˜๋‹ˆ, HEPi์—๋„ ๋„์ž… ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹œ๊ณ„์—ด ์ƒ ์žฅ๊ธฐ ๊ณ„ํš์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ, ํ˜„์žฌ ์ •์ฑ…์€ ์งง์€ horizon๋งŒ ๋ณธ๋‹ค ํ•ด๋„, ๋‚˜์ค‘์—” ์˜ต์…˜(option) ๋˜๋Š” ๊ณ„์ธต RL ๊ฐœ๋…์„ ์ถ”๊ฐ€ํ•ด ์ƒ์œ„ ํ”Œ๋ž˜๋„ˆ-ํ•˜์œ„ HEPi ์ •์ฑ… ๊ตฌ์กฐ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ถ”๊ฐ€์ ์ธ ๋Œ€์นญ์„ฑ ํ™œ์šฉ: HEPi๋Š” SE(3) ์—ฐ์† ๊ณต๊ฐ„ ๋Œ€์นญ์„ ์ผ์ง€๋งŒ, ๋กœ๋ด‡ ํ™˜๊ฒฝ์—๋Š” ๊ทธ ์™ธ์—๋„ ์ด์‚ฐ์  ๋Œ€์นญ(๋ฌผ์ฒด์˜ ๋ฐ˜๋ณต ํŒจํ„ด, ์–‘์†์˜ ๋Œ€์นญ ๋“ฑ)์ด ์กด์žฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ๋ฌผ์ฒด๋Š” 4๋ฐฉ ๋Œ€์นญ์ด๋ผ 90๋„์”ฉ ๋Œ๋ ค๋„ ๋™์ผํ•˜๊ฑฐ๋‚˜, ๋‘ ๋กœ๋ด‡ ํŒ”์€ ๋ชจ์–‘๊ณผ ๊ด€์ ˆ ๊ตฌ์„ฑ์ด ๋™์ผํ•ด์„œ ์ขŒ์šฐ ๋ฐ”๊พธ๋ฉด ๊ฐ™์€ ์—ญํ• ์„ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ Permutation ๋Œ€์นญ์ด๋‚˜ ๋ฐ˜์‚ฌ ๋Œ€์นญ ๋“ฑ์„ ์ •์ฑ…์— ๋…น์—ฌ๋‚ด๋ฉด, ํ•™์Šต ํšจ์œจ์„ ๋” ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Graph Neural Network์—์„œ๋Š” ์ด๋Ÿฐ ๋Œ€์นญ์„ ์‰ฝ๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜ˆ์ปจ๋Œ€ ๋™์ผ ํƒ€์ž… ๋กœ๋ด‡ ๋…ธ๋“œ๋“ค๋ผ๋ฆฌ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต์œ ๋ฅผ ํ•˜๋ฉด โ€œ๋ชจ๋“  ๋กœ๋ด‡ ํŒ”์€ ๋™์ผํ•˜๊ฒŒ ๋™์ž‘ ๊ฐ€๋Šฅโ€์ด๋ผ๋Š” ๋Œ€์นญ์„ ๊ฐ€์ •ํ•˜๋Š” ์…ˆ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ HEPi ๊ตฌํ˜„์—์„œ ๋กœ๋ด‡ ๋…ธ๋“œ ์—…๋ฐ์ดํŠธ MPN์€ ์•„๋งˆ ๊ณต์œ ๋˜์–ด ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค (๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ๋กœ๋ด‡ ๊ฐœ์ˆ˜๋งˆ๋‹ค ๋‹ค๋ฅธ ๋„คํŠธ์›Œํฌ์—ฌ์•ผ ํ•˜๋‹ˆ ๋น„ํšจ์œจ์ ์ด๋‹ˆ๊นŒ์š”). ํ–ฅํ›„์—” ์ด๋Ÿฐ ๋…ธ๋“œ ํƒ€์ž… ๋‚ด ๋Œ€์นญ๋„ ์ ๊ทน ํ™œ์šฉํ•˜๊ณ , ๋ฌผ์ฒด์— ๋ฐ˜๋ณต๊ตฌ์กฐ๊ฐ€ ์žˆ์œผ๋ฉด ๊ทธ๋„ ํ™œ์šฉํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Symmetry + Graph์˜ ๊ฒฐํ•ฉ์œผ๋กœ ๋”์šฑ ๊ฐ•๋ ฅํ•œ inductive bias๋ฅผ ์ฃผ๋Š” ๊ธธ์ž…๋‹ˆ๋‹ค.
  • ๋‹ค๋ฅธ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ์˜ ๊ฒฐํ•ฉ: ๋ณธ ๋…ผ๋ฌธ์€ on-policy RL (TRPL/PPO)๋งŒ ๋‹ค๋ค˜์ง€๋งŒ, off-policy๋‚˜ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ HEPi๋ฅผ ์ ‘๋ชฉํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€์น˜์žˆ์–ด ๋ณด์ž…๋‹ˆ๋‹ค. Off-policy์ธ SAC์ด๋‚˜ Q-learning ๋ฅ˜๋ฅผ ์“ฐ๋ฉด ์ƒ˜ํ”Œ ํšจ์œจ์„ ๋” ๋†’์ผ ์—ฌ์ง€๊ฐ€ ์žˆ๊ณ , ํ™˜๊ฒฝ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ planning๊นŒ์ง€ ํ•˜๋ฉด ๋ณต์žกํ•œ ๊ณผ์ œ๋„ ํ•ด๊ฒฐ ๊ฐ€๋Šฅ์„ฑ์ด ์˜ฌ๋ผ๊ฐ‘๋‹ˆ๋‹ค. Graph ํ‘œํ˜„์ด ์žˆ์œผ๋‹ˆ, Graph Neural Simulator ๊ฐ™์€ ๊ฒƒ์„ ๋ฐฐ์›Œ rolloutํ•œ๋‹ค๋“ ์ง€ ํ•˜๋Š” ์•„์ด๋””์–ด๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ Imitation Learning+RL ํ˜ผํ•ฉ์œผ๋กœ ์ดˆ๊ธฐ์— ์‹œ๋ฒ”์œผ๋กœ ํ•™์Šต ๊ฐ€์† ํ›„ RL๋กœ fine-tuneํ•˜๋Š” ์ ‘๊ทผ ๋“ฑ๋„ ํ˜„์‹ค์ ์œผ๋กœ ์œ ์šฉํ•˜๊ฒ ์ฃ . EquiBot ๋“ฑ์˜ ์ด์ „ ์—ฐ๊ตฌ๋Š” imitation๋งŒ ํ–ˆ๊ธฐ์— ์‹œ๋ฒ” ์—†์œผ๋ฉด ํž˜๋“ค์—ˆ๋Š”๋ฐ, HEPi๋Š” RL๋กœ ํ•ด๋ƒˆ์ง€๋งŒ ํ•™์Šต ์‹œ๊ฐ„์ด ๊ธธ์—ˆ์Šต๋‹ˆ๋‹ค. ๋‘˜์˜ ์žฅ์ ์„ ํ•ฉ์ณ์„œ ์‹œ๋ฒ”์œผ๋กœ ๋น ๋ฅธ ์ง„์ž… -> RL๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ์‹์ด๋ฉด ๋”์šฑ ์‹ค์šฉ์ ์ผ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

(4) ๊ด€๋ จ ์—ฐ๊ตฌ์™€ ๋น„๊ต: ์—ฐ๊ตฌ์˜ ์ถœ๋ฐœ์ ์ด ๋œ ๊ด€๋ จ ๋ถ„์•ผ์™€ ๊ฒฌ์ฃผ์–ด๋ณผ ๋•Œ, HEPi๋Š” ๋ช‡ ๊ฐ€์ง€ ๋ฉด์—์„œ ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค. ๋จผ์ €, ๊ทธ๋ž˜ํ”„๋ฅผ ์ •์ฑ…์— ํ™œ์šฉํ•œ ์ด์ „ ์—ฐ๊ตฌ๋กœ๋Š” Wang et al.(2018)์˜ Neural Graphical Models for multi-body๋‚˜, Neural Physics Simulation(Battaglia et al., 2016 ์ดํ›„) ๊ณ„์—ด์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ์ฃผ๋กœ ๋ชจ๋ธ๋ง ๋˜๋Š” ์˜ˆ์ธก์— ๊ทธ๋ž˜ํ”„๋ฅผ ์ผ์ง€, ์ •์ฑ… ์ž์ฒด์— ์“ด ๊ฑด ๋“œ๋ฌผ์—ˆ๋Š”๋ฐ, HEPi๋Š” GNN์„ ์ •์ฑ…์˜ ๋‡Œ๋กœ ์‚ผ์•˜๋‹ค๋Š” ์ ์—์„œ ๋ณด๋‹ค ์ง์ ‘์ ์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ •์— ๊ทธ๋ž˜ํ”„๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ตฌ์กฐ๊ฐ€ ๋‹ค๋ฅธ ๊ฐ์ฒด๋“ค์˜ ์ฒ˜๋ฆฌ ์ธก๋ฉด์—์„  Hong et al.(2022)์˜ Structure-aware Transformer๊ฐ€ ์ด์งˆ์  ํ† ํฐ์— type embedding์„ ์ฃผ๋Š” ์‹์ด์—ˆ์ง€๋งŒ, HEPi๋Š” ์•„์˜ˆ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ํ•จ์ˆ˜๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ช…์‹œ์ ์œผ๋กœ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ์ด๋•๋ถ„์— Hong์˜ Transformer๋ณด๋‹ค ๋” ๊ฐ€๋ฒผ์šด ๋ชจ๋ธ๋กœ๋„ ๋น„์Šทํ•œ ํšจ๊ณผ (๋…ธ๋“œ ํƒ€์ž…๋ณ„ ์ฒ˜๋ฆฌ๋ฅผ ๊ตฌ๋ถ„)๋ฅผ ์–ป์€ ์…ˆ์ž…๋‹ˆ๋‹ค.

Equivariant neural networks ๋ถ„์•ผ์™€ ๋น„๊ตํ•˜๋ฉด, ์ด์ „์—๋Š” Equivariant Transformer(e.g. Thomas et al. 2018 tensor field network)๋‚˜ SE(3)-Equivariant GNN(Satorras et al. 2021 EGNN ๋“ฑ)์ด ์ฃผ๋กœ ๋ถ„์ž๋‚˜ ๋ฌผ๋ฆฌ๊ณ„ ์˜ˆ์ธก์— ์“ฐ์˜€๋Š”๋ฐ, HEPi๋Š” ๊ฐ•ํ™”ํ•™์Šต ์ •์ฑ…์— ์ด๋ฅผ ์“ด ๊ฒƒ์ด ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค. Ryu et al.(2023) ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ๋„ RL์— ๋Œ€์นญ์„ฑ์„ ๋„ฃ์œผ๋ ค๋Š” ์‹œ๋„๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ, ์ œํ•œ์  ํ™˜๊ฒฝ(ํผ์ฆ ๋งž์ถ”๊ธฐ ๋“ฑ)์—์„œ๋งŒ ๊ฒ€์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์‹ค์ œ ๋กœ๋ด‡ ๊ณผ์ œ์— ๊ฐ€๊นŒ์šด ํ™˜๊ฒฝ๋“ค์—์„œ ๋“ฑ๋ณ€ RL์ด ํ†ตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ–ˆ๊ณ , ์ด๋Š” ํ•ด๋‹น ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ค‘์š”ํ•œ ๋ฉ”์‹œ์ง€์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ๋ณ€ํ˜•์ฒด ์กฐ์ž‘ ์—ฐ๊ตฌ๋“ค๊ณผ ๋น„๊ตํ•ด๋ณด๋ฉด, ์ด์ „๊นŒ์ง€ ๋ชจ๋ธ ์˜ˆ์ธก(physics-based) ํ˜น์€ ๋ชจ๋ฐฉํ•™์Šต(Human demonstration) ์œ„์ฃผ์˜€๋˜ ๊ฒƒ์„, end-to-end RL๋กœ ํ’€์–ด๋‚ธ ๋“œ๋ฌธ ์˜ˆ๋ผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. DiffSkill (2021)์ด๋‚˜ DNS (2020) ๋“ฑ์€ ๋ชจ๋ฐฉ/๊ณ„ํš ๊ธฐ๋ฐ˜์œผ๋กœ ์ฒœ ๊ฐœ์ฒด๋ฅผ ๋‹ค๋ค˜๊ณ , ์ตœ๊ทผ EquiDex (2024) ๊ฐ™์€ ๊ฑด Diffusion ๋ชจ๋ธ์„ ์“ฐ๊ธฐ๋„ ํ–ˆ์ง€๋งŒ, HEPi๋Š” ์ด๋Ÿฐ ๊ฒƒ๊ณผ ๋‹ค๋ฅธ ์ˆœ์ˆ˜ RL๋กœ ์„ฑ๊ณผ๋ฅผ ๋‚ธ ์ ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. EquiBot (Yang et al., 2023)์„ ์ž ๊น ๋น„๊ตํ•˜๋ฉด, EquiBot๋„ SE(3) ๋“ฑ๋ณ€ GNN ์ •์ฑ…์„ ์ผ์ง€๋งŒ ์‹œ๋ฒ” ๋”ฐ๋ผํ•˜๊ธฐ๋กœ rope flattening ๋“ฑ์„ ํ–ˆ๊ณ , ๊ทธ ์ •์ฑ…์€ ์†๋„ ์ถœ๋ ฅ์„ ๋‚ด๋Š” ์  ๋“ฑ์ด HEPi์™€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. HEPi๋Š” ๊ทธ ์ ‘๊ทผ์„ RL๋กœ ํ™•์žฅํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋” ์–ด๋ ค์šด ์ž‘์—…(rope shaping, cloth)๊นŒ์ง€ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ HEPi๋Š” EquiBot์˜ ๊ฐ•ํ™”ํ•™์Šต ๋ฒ„์ „์ด์ž, Structure-aware Transformer์˜ GNN ๋ฒ„์ „์ด๋ผ๊ณ  ์š”์•ฝํ•ด๋ณผ ์ˆ˜๋„ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.

Transformer์™€ GNN์˜ ์„ฑ๋Šฅ ๋น„๊ต๋Š” ์š”์ฆ˜ ์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ ์ฃผ์ œ์ธ๋ฐ, ๋ณธ ๋…ผ๋ฌธ ๊ฒฐ๊ณผ๋Š” GNN์˜ ์šฐ์„ธ๋ฅผ ๋ณด์—ฌ์ค€ ์ชฝ์— ์†ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋Œ€์นญ์„ฑ์ด ๋šœ๋ ทํ•˜๊ณ  ๊ตฌ์กฐ๊ฐ€ ์žˆ๋Š” ๋ฌธ์ œ์—์„œ๋Š” GNN์ด ์—ฌ์ „ํžˆ data ํšจ์œจ์—์„œ ๊ฐ•์ ์ด ์žˆ๋‹ค๋Š” ์ฆ๊ฑฐ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Transformer๋„ ์ ˆ๋Œ€ ํ•™์Šต ๋ชปํ•˜๋Š” ๊ฑด ์•„๋‹ˆ๋ผ๋Š” ์  (2D ๊ณผ์ œ์—์„œ๋Š” ๋”ฐ๋ผ์˜ด)๋„ ๋ณผ ์ˆ˜ ์žˆ์—ˆ์ฃ . ์ด๋Š” GNN๊ณผ Transformer๋ฅผ ์ ˆ์ถฉ/๋ณ‘ํ•ฉํ•˜๋Š” ์•„์ด๋””์–ด๋„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์‹ค HEPi๋„ โ€œ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ = ์ผ์ข…์˜ sparse attentionโ€์ด๋ผ Transformer์˜ ํŠน์ˆ˜ํ•œ ํ˜•ํƒœ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ Graph-Transformer ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ๋กœ ๋” ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

์ „์ฒด์ ์œผ๋กœ, ์ด ๋…ผ๋ฌธ์€ ๊ทธ๋ž˜ํ”„+๋Œ€์นญ์„ฑ+RL์ด๋ผ๋Š” ์„ธ ํ๋ฆ„์„ ์ž˜ ๊ฒฐํ•ฉํ•ด ํ•œ ๋‹จ๊ณ„ ์ง„์ „์„ ์ด๋ค˜์Šต๋‹ˆ๋‹ค. ๊ด€๋ จ ๋ถ„์•ผ์˜ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ โ€œ๊ตฌ์กฐ๋ฅผ ์กด์ค‘ํ•˜๋Š” ํ•™์Šต์ด ์‹ค์ œ๋กœ ๋ณต์žกํ•œ ๋กœ๋ด‡ ๋ฌธ์ œ๋„ ํ’€ ์ˆ˜ ์žˆ๋‹คโ€๋Š” ํ†ต์ฐฐ์„ ์ฃผ์—ˆ๊ณ , ํ•œํŽธ์œผ๋กœ โ€œ์—ฌ์ „ํžˆ sim2real ๋“ฑ ๋‚จ์€ ๊ณผ์ œ๊ฐ€ ๋งŽ๋‹คโ€๋Š” ์ˆ™์ œ๋„ ๋‚จ๊ฒผ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ์ ์—์„œ ๋กœ๋ด‡ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•œ ์˜๋ฏธ์žˆ๋Š” ์ž‘์—…์ด๋ผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์š”์•ฝ ๋ฐ ๊ฒฐ๋ก 

๋‹ค์–‘ํ•œ ํ˜•์ƒ(rigid shapes)๊ณผ ๋ณ€ํ˜•์ฒด(deformable objects)๋ฅผ ๋กœ๋ด‡์ด ํšจ๊ณผ์ ์œผ๋กœ ๋‹ค๋ฃจ๊ฒŒ ํ•˜๋Š” ๊ฒƒ์€, ๋ฒ”์šฉ ๋กœ๋ด‡ ์กฐ์ž‘์„ ์‹คํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ๊ณผ์ œ์ž…๋‹ˆ๋‹ค. ๋ณธ ๋ฆฌ๋ทฐ์—์„œ ๋‹ค๋ฃฌ ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด ๊ธฐํ•˜ํ•™์  ๋Œ€์นญ์„ฑ์„ ๊ณ ๋ คํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•, โ€œGeometry-aware RLโ€์„ ์ œ์•ˆํ•˜์˜€๊ณ , ๊ตฌ์ฒด ๊ตฌํ˜„์œผ๋กœ Heterogeneous Equivariant Policy (HEPi) ๋ชจ๋ธ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. HEPi๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ์ •์ฑ…์œผ๋กœ์„œ, ๋กœ๋ด‡๊ณผ ๋ฌผ์ฒด์˜ ๊ด€๊ณ„๋ฅผ ์ด์ข… ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๊ณ , SE(3) ๋“ฑ๋ณ€ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ™˜๊ฒฝ์˜ ํšŒ์ „/์ด๋™ ๋Œ€์นญ์„ ํ™œ์ง ํ™œ์šฉํ•จ์œผ๋กœ์จ, ์ ์€ ๊ฒฝํ—˜์œผ๋กœ๋„ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์— ๋Œ€์‘ํ•˜๋Š” ์ •์ฑ…์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ณ„ ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋กœ๋ด‡-๋ฌผ์ฒด ๊ฐ„ ์ •๋ณด๋ฅผ ์ง์ ‘์ ์ด๊ณ  ํšจ์œจ์ ์œผ๋กœ ๊ตํ™˜ํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๊ธฐ์กด ๋„คํŠธ์›Œํฌ๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ ๊ตฌ์ถ•ํ•œ 7๊ฐœ ์กฐ์ž‘ ๊ณผ์ œ ๋ฒค์น˜๋งˆํฌ (์‚ฝ์ž…, ๋ฐ€๊ธฐ, ๋ฐง์ค„ ๊ฐ๊ธฐ/๋ชจ์–‘, ์ฒœ ๊ฑธ๊ธฐ ๋“ฑ)๋Š” HEPi์˜ ๊ฐ•์ ์„ ์—ฌ์‹คํžˆ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. HEPi๋Š” ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ์˜ inductive bias ๋•๋ถ„์— ํƒ์ƒ‰์ด ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ์Šค์Šค๋กœ ํ’€์–ด๋ƒˆ๊ณ , Transformer๋‚˜ ๋น„๋“ฑ๋ณ€ GNN ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ baseline๋“ค์„ ์•ˆ์ •์„ฑ, ํ•™์Šต์†๋„, ์ตœ์ข… ์„ฑ๋Šฅ ๋ฉด์—์„œ ์•ž์งˆ๋ €์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 3์ฐจ์› ๋ณต์žก ํ™˜๊ฒฝ์—์„œ ๊ทธ ๊ฒฉ์ฐจ๋Š” ์ปค์„œ, ์˜ˆ์ปจ๋Œ€ ์ฒœ ๊ฑธ๊ธฐ์—์„œ๋Š” HEPi๋งŒ์ด ์„ฑ๊ณต์ ์œผ๋กœ ๊ณผ์ œ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€, HEPi ์ •์ฑ…์€ ์ƒˆ๋กœ์šด ๋ฌผ์ฒด ๋ชจ์–‘์ด๋‚˜ ๊ณ ํ•ด์ƒ๋„ ํ™˜๊ฒฝ์—์„œ๋„ ๊ฒฌ๊ณ ํžˆ ์ž‘๋™ํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ๋กœ๋ด‡ ํ•™์Šต์—์„œ ๊ตฌ์กฐ์™€ ๋Œ€์นญ์„ฑ์„ ๊ณ ๋ คํ•˜๋Š” ์ ‘๊ทผ์ด ๊ฐ€์ง€๋Š” ํž˜์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋งˆ์น˜ ํŒŒ์ธ๋งŒ์ด ๋ฌผ๋ฆฌ ๋ฒ•์น™์˜ ๋Œ€์นญ์„ ํ†ตํ•ด ๋ณต์žกํ•œ ํ˜„์ƒ์„ ๋‹จ์ˆœํ™”ํ•˜๋“ฏ, HEPi๋„ ๋กœ๋ด‡ ํ–‰๋™์˜ ๊ณต๊ฐ„์„ ๋Œ€์นญ์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ •๋ณตํ•œ ์…ˆ์ž…๋‹ˆ๋‹ค.

๋ฌผ๋ก , ์ด ์—ฐ๊ตฌ๊ฐ€ ๋‚จ๊ธด ๊ณผ์ œ๋“ค๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํšจ๊ณผ๊ฐ€ ์ž…์ฆ๋œ ๋งŒํผ, ํ˜„์‹ค ๋กœ๋ด‡์—์˜ ์ ์šฉ์ด๋ผ๋Š” ๋‹ค์Œ ๋‚œ๊ด€์ด ๊ธฐ๋‹ค๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ •์ฑ…์„ ์‹ค์ œ์— ์“ฐ๋ ค๋ฉด ์‹ค์‹œ๊ฐ„ ๋ฌผ์ฒด ์ƒํƒœ ์ธ์‹๊ณผ ์„ผ์„œ ๋…ธ์ด์ฆˆ ์ฒ˜๋ฆฌ ๋“ฑ์˜ ๋ฌธ์ œ๊ฐ€ ์ˆ˜๋ฐ˜๋˜๊ฒ ์ง€์š”. ๋˜ํ•œ ํ˜„์žฌ์˜ ๊ตฌ์กฐ๋ฅผ ๋” ๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค(์—ฌ๋Ÿฌ ๊ฐ์ฒด ๋™์‹œ ์กฐ์ž‘, ์žฅ๊ธฐ ํ–‰๋™๊ณ„ํš ๋“ฑ)์— ํ™•์žฅํ•˜๋Š” ์ผ๋„ ๋‚จ์•„์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Ÿฌํ•œ ๋„์ „๋“ค์€ HEPi์˜ ํ•ต์‹ฌ ์ฒ ํ•™ โ€“ โ€œ๋กœ๋ด‡์—๊ฒŒ ์„ธ๊ณ„์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ๊นจ์šฐ์ณ ์ฃผ๋ฉด, ํ›จ์”ฌ ์ ์€ ๊ฐ€๋ฅด์นจ์œผ๋กœ๋„ ๋งŽ์€ ๊ฒƒ์„ ์Šค์Šค๋กœ ๋ฐฐ์šฐ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹คโ€ โ€“ ์„ ๋”์šฑ ๋ฐœ์ „์‹œ์ผœ ๋‚˜๊ฐ€๋Š” ๊ณผ์ •์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ๋ณธ ๋…ผ๋ฌธ์€ ๋กœ๋ด‡ ๊ฐ•ํ™”ํ•™์Šต์— ๊ทธ๋ž˜ํ”„์™€ ๋Œ€์นญ์„ฑ์ด๋ผ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ๋ฅผ ์ ‘๋ชฉํ•˜์—ฌ, ๋ณต์žกํ•œ ์กฐ์ž‘ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ธธ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํ†ต์ฐฐ์„ ์ค๋‹ˆ๋‹ค. ์ฒซ์งธ, ํ‘œํ˜„์˜ ์„ ํƒ์ด ํ•™์Šต ์„ฑํŒจ๋ฅผ ์ขŒ์šฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ƒํƒœ์™€ ํ–‰๋™์„ ์–ด๋–ป๊ฒŒ ํ‘œํ˜„ํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ํ•™์Šต ๋‚œ์ด๋„๊ฐ€ ์ฒœ์–‘์ง€์ฐจ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Œ์„ ๋‹ค์‹œ๊ธˆ ๋ณด์—ฌ์คฌ์Šต๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋ฌผ๋ฆฌ์  ๋Œ€์นญ์„ฑ๊ณผ ๊ตฌ์กฐ๋ฅผ ์กด์ค‘ํ•˜๋Š” ๋ชจ๋ธ๋ง์€ ๋‹จ์ˆœํ•œ ๊ธฐ๋Šฅ ์ถ”๊ฐ€๊ฐ€ ์•„๋‹ˆ๋ผ, ํ•™์Šต์— ๊ทผ๋ณธ์ ์ธ ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋งˆ์น˜ ์ธ๊ฐ„์ด ์‚ฌ๋ฌผ์„ ๋ณผ ๋•Œ ์ขŒ์šฐ๋Œ€์นญ์ด๋‚˜ ํŒจํ„ด์„ ์ž๋™ ์ธ์ง€ํ•˜๋“ฏ, ์ •์ฑ… ์‹ ๊ฒฝ๋ง๋„ ๊ทธ๋Ÿฐ ์ง€๋Šฅ์„ ์ผ๋ถ€ ๋ถ€์—ฌ๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด์ฃ . ์…‹์งธ, ํ†ตํ•ฉ์  ์ ‘๊ทผ์˜ ์ค‘์š”์„ฑ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜ํ”„, GNN, RL, ๋Œ€์นญ์„ฑ, ์ด์งˆ ๋…ธ๋“œ, ์ด ๋ชจ๋“  ์š”์†Œ๊ฐ€ ๋งž๋ฌผ๋ ค ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ƒˆ์Šต๋‹ˆ๋‹ค. ์–ด๋А ํ•˜๋‚˜๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ–ˆ๊ฒ ์ง€๋งŒ, ๊ฒฐํ•ฉํ•˜๋‹ˆ ์‹œ๋„ˆ์ง€๊ฐ€ ๋‚ฌ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ณต์žกํ•œ ๋กœ๋ด‡ ๋ฌธ์ œ์ผ์ˆ˜๋ก ์—ฌ๋Ÿฌ ์ธก๋ฉด์˜ ๊ธฐ๋ฒ•์„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌํ•˜๊ฒŒ ์œตํ•ฉํ•˜๋Š” ๊ฒŒ ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ด ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ์€ โ€œ๋””์ž์ธํ•œ ์ธ๊ณต์ง€๋Šฅโ€์˜ ํ•œ ์˜ˆ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์š”์ฆ˜ ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋“ค์€ ๋ฐ์ดํ„ฐ๋ฅผ ์“ธ์–ด๋‹ด์•„ ํ†ต๊ณ„์ ์œผ๋กœ ํ•™์Šตํ•˜์ง€๋งŒ, HEPi์ฒ˜๋Ÿผ ๋ฌธ์ œ ํŠน์„ฑ์„ ์„ธ์‹ฌํžˆ ๋ฐ˜์˜ํ•œ AI๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์—์„œ ํ›จ์”ฌ ๋งŽ์€ ๊ฒƒ์„ ํ•™์Šตํ•ด๋ƒ…๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณตํ•™์€ ํŠนํžˆ ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์™€ ๋งž๋‹ฟ์•„ ์žˆ์œผ๋ฏ€๋กœ, ์ด๋Ÿฐ ๋„๋ฉ”์ธ ์ง€์‹ ๊ธฐ๋ฐ˜์˜ AI ๋””์ž์ธ์ด ๋” ์ฃผ๋ชฉ๋ฐ›์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. HEPi๋Š” ๊ทธ ๋ฐฉํ–ฅ์—์„œ ํ•œ ๊ฑธ์Œ ์•ž์„œ ๊ฐ„ ์‚ฌ๋ก€๋กœ, ์•ž์œผ๋กœ ๋”์šฑ ๋ฐœ์ „๋œ Geometry-aware, Structure-aware ๋กœ๋ด‡ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์˜ ๋“ฑ์žฅ์„ ๊ธฐ๋Œ€ํ•˜๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๋กœ๋ด‡๊ณ„์˜ ํŒŒ์ธ๋งŒ์ฒ˜๋Ÿผ, ๋ณต์žกํ•œ ํ˜„์‹ค์„ ๊ฟฐ๋šซ๋Š” ํ†ต์ฐฐ๋กœ ๋กœ๋ด‡ ์ง€๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์—ฐ๊ตฌ๋“ค์ด ๊ณ„์† ์ด์–ด์ง€๊ธธ ๋ฐ”๋ผ๋ฉฐ ์ด๋งŒ ๊ธ€์„ ๋งบ๊ฒ ์Šต๋‹ˆ๋‹ค.

Copyright 2026, JungYeon Lee