flowchart LR
subgraph ์
๋ ฅ["๐ฏ ๋ก๋ด ์กฐ์ ๋ฌธ์ "]
A[์ก์ถ์์ดํฐ ์ํ]
O[๋ฌผ์ฒด ์ํ]
T[๋ชฉํ ์์น]
end
subgraph HEPi["โ๏ธ HEPi ์ ์ฑ
"]
direction TB
G[์ด์ข
๊ทธ๋ํ ๊ตฌ์ฑ]
E[SE3 ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ]
H[์ด์ข
์
๋ฐ์ดํธ ๊ท์น]
end
subgraph ์ถ๋ ฅ["๐ค ์ก์
"]
Act[๋ฑ๋ณ ์ก์
์์ฑ]
end
์
๋ ฅ --> HEPi --> ์ถ๋ ฅ
style HEPi fill:#e1f5fe
style Act fill:#c8e6c9
๐HEPi ๋ฆฌ๋ทฐ
๐ Ping. ๐ Ring. โ๏ธ Dig. A tiered review series: quick look, key ideas, deep dive.
- ๐ ๋ก๋ด ์กฐ์, ํนํ ๋ค์ํ ํ์ ๋ฐ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด ์กฐ์์ ์ด๋ ค์์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฅผ
heterogeneous graph๋ก ๋ชจ๋ธ๋งํ๊ณSE(3) equivariant message passing networks๋ฅผ ํ์ฉํฉ๋๋ค. - โจ ์ ์ํ๋
HEPi(Heterogeneous Equivariant Policy)๋EMPN๋ฐฑ๋ณธ์ ํตํด ๊ธฐํํ์ ๋์นญ์ฑ์ ํ์ฉํ๋ฉฐ, ๋ช ์์ ์ธ ์ด์ง์ฑ(heterogeneity) ๋ชจ๋ธ๋ง๊ณผTRPL์ ์ฌ์ฉํ ์์ ์ ์ธ ํ์ต์ ํน์ง์ผ๋ก ํฉ๋๋ค. - ๐ ์๋ก์ด ๋ฒค์น๋งํฌ ํ์คํฌ์์
HEPi๋Transformer๋ฐ ๋น์ด์ง์ ์ธequivariant policies๋ณด๋ค ํ๊ท ์์ต, ์ํ ํจ์จ์ฑ ๋ฐ ๋ฏธํ์ธ ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ด ๋ ผ๋ฌธ์ ๋ค์ํ ํ์(varying shapes) ๋ฐ ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด(deformable objects)์ ์กฐ์(manipulation) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ GEOMETRY-AWARE RL FOR MANIPULATION OF VARYING SHAPES AND DEFORMABLE OBJECTS ์ฐ๊ตฌ์ ๋๋ค. ๋ก๋ด ์กฐ์์์ ๋ค์ํ ๊ธฐํํ์ ํํ๋ฅผ ๊ฐ์ง ๊ฐ์ฒด๋ ํ์์ด ๋ณํ๋ ๊ฐ์ฒด๋ฅผ ๋ค๋ฃจ๋ ๊ฒ์ ์ ๋ฐํ ์ ์ด์ ๋ณต์กํ ๋์ญํ ๋ชจ๋ธ๋ง์ ์๊ตฌํ๋ ์ฃผ์ ๋์ ์ ๋๋ค.
๋ฌธ์ ์ ์ ๋ฐ ์ ๊ทผ ๋ฐฉ์:
๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ์กฐ์ ๋ฌธ์ ๋ฅผ ํ์์(actuator)์ ๊ฐ์ฒด(object) ๊ฐ์ ๋ ์์ sub-graph์ ์ํธ์์ฉ์ ์ค๋ช ํ๋ ๋ค๋ฅธ edge type๋ค๋ก ๊ตฌ์ฑ๋ heterogeneous graph์ ๊ด์ ์์ ์ฌ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ฌํ graph representation์ ๊ฐ์ฒด(rigid) ๋ฐ ๋ณํ์ฒด(deformable objects) ์์ ๋ชจ๋์ ๋ํ ํต์ผ๋ ๊ตฌ์กฐ๋ก ์์ฉํ๋ฉฐ, ์ฌ๋ฌ ํ์์๋ฅผ ํฌํจํ๋ ์์ ์ผ๋ก๋ ํ์ฅ๋ ์ ์์ต๋๋ค. ๋์ ์ฐจ์์ ๊ด์ธก ๋ฐ ํ๋ ๊ณต๊ฐ์์ ์๋ก์ด ์์ธ(orientation), ํฌ์ฆ(pose), ๊ทธ๋ฆฌ๊ณ ๋ฏธ์ง์ ํ์(unseen geometries)์ ๋ํด ์ํํ๊ฒ ์ผ๋ฐํ๋๋ ์ ์ฑ (policy)์ ํ์ตํ๋ ๊ฒ์ด ์ด๋ ต๋ค๋ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๊ตฌ๋ SE(3) ๊ณต๊ฐ์ equivariance๋ฅผ ๊ท๋ฉ์ ํธํฅ(inductive bias)์ผ๋ก ํ์ฉํฉ๋๋ค.
HEPi (Heterogeneous Equivariant Policy) ๋ฐฉ๋ฒ๋ก :
HEPi๋ ๊ฐํ ํ์ต(reinforcement learning) ํ๊ฒฝ์์ ๋ณต์กํ 3D ์กฐ์ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ graph-based policy model์ ๋๋ค. ์ด๋ ์ธ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ก ์ด๋ฃจ์ด์ง๋๋ค.
- Equivariant MPN Backbone:
- ๊ธฐ์กด Message Passing Neural Networks (MPNN)์์ \phi์ \psi ํจ์์ equivariance๋ฅผ ๊ฐ์ ํ์ฌ EMPN์ ๊ตฌ์ฑํฉ๋๋ค. ์ด๋ steerable geometric features๊ฐ group G์ ์์ฉ ์๋ ์ผ๊ด๋๊ฒ ๋ณํ๋๋๋ก ํฉ๋๋ค.
- ๊ณ ์ฐจ์ steerable features๋ฅผ ์ํ ํจ์ ๊ตฌ์ฑ์ ์ผ๋ฐ์ ์ผ๋ก spherical harmonics embeddings, Clebsch-Gordan tensor products, steerable activation functions์ ์ฌ์ฉํ์ฌ ๋์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ผ๊ธฐํฉ๋๋ค.
- ์ด ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ๋ ํจ์จ์ ์ธ equivariant message-passing ์ ๊ทผ ๋ฐฉ์์ธ PONITA framework(Bekkers et al., 2024)๋ฅผ EMPN backbone์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
- PONITA๋ ์ ๋ ฅ ๋๋ฉ์ธ(X = \mathbb{R}^3)์ ์์น(p \in \mathbb{R}^3)์ ์ฐ๊ด๋ ๋ฐฉํฅ(o \in S^2)์ ํฌํจํ๋ X^\uparrow = \mathbb{R}^3 \times S^2๋ก โliftingโํ์ฌ equivariance๋ฅผ ๊ตฌํํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ๋ค์ ํํ์ convolutional message-passing update rule์ ์ฌ์ฉํฉ๋๋ค: f'_v = \int_{\mathbb{R}^3}\int_{S^2}k_\theta ([(p_u, o_u), (p_v, o_v)])f_u dp_u do_u
- ๊ณ์ฐ ํจ์จ์ฑ์ ์ํด ์ปค๋ ํจ์ k_\theta๋ ๋ค์๊ณผ ๊ฐ์ด ๋ถํด๋ฉ๋๋ค: k_\theta ([(p_u, o_u), (p_v, o_v)]) = K^{(3)}_\theta k^{(2)}_\theta(o_v^\top o_u) k^{(1)}_\theta(o_v^\top (p_u - p_v), |o_v^\perp (p_u - p_v)|) ์ฌ๊ธฐ์ k^{(1)}์ ์๋ ์์น ๋ฐ ์์ง ์ฑ๋ถ์ ๊ธฐ๋ฐ์ผ๋ก ๊ณต๊ฐ ์ํธ์์ฉ์ ์ฒ๋ฆฌํ๊ณ , k^{(2)}๋ dot product๋ฅผ ํตํด ๋ฐฉํฅ ๊ธฐ๋ฐ ์ํธ์์ฉ์ ๊ด๋ฆฌํ๋ฉฐ, K^{(3)}๋ features ์ ๋ฐ์ ๊ฑธ์ณ channel-wise mixing์ ์ํํฉ๋๋ค. ์ด๋ equivariant ํจ์์ universal approximation property๋ฅผ ๋ณด์กดํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ ๋๋ค.
- Heterogeneous Graph Design and Update Rules:
- ๋ก๋ด ์กฐ์์์ ํ์์์ ๊ฐ์ฒด๋ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ญํ ์ ์ํํ๋ฏ๋ก, ๊ทธ๋ํ๋ actuator nodes (V_{act})์ object nodes (V_{obj})์ ๋ถ๋ฆฌ๋ ๋ ธ๋ ์งํฉ์ผ๋ก ์ ์๋ฉ๋๋ค.
- HEPi๋ ๋จผ์ ๊ฐ์ฒด ๋ฐ ํ์์ ํด๋ฌ์คํฐ ๋ด์ ์ง์ญ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ ๋ค์, ์งํฅ์ฑ(directed)์ ์์ ์ฐ๊ฒฐ๋(fully-connected) inter-edges๋ฅผ ํตํด ํ์์์๊ฒ ๊ธ๋ก๋ฒํ๊ฒ ํตํฉํฉ๋๋ค.
- ์ด๋ object-to-object, actuator-to-actuator, object-to-actuator ์ํธ์์ฉ์ ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ง์ญ ์ฒ๋ฆฌ์ ๊ธ๋ก๋ฒ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๋
ธ๋ ์
๋ฐ์ดํธ ๊ท์น์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค (Eq. 2):
- ๊ฐ์ฒด ๋ ธ๋ ์ ๋ฐ์ดํธ (local object-to-object interaction): f^{obj, new}_v = \phi^{obj}\left( f^{obj}_v, \sum_{u \in N(v)^{obj}} k(x^{obj}_u, x^{obj}_v; \theta^{obj-obj})f^{obj}_u \right), v \in V_{obj}
- ํ์์ ๋ ธ๋ ์ ๋ฐ์ดํธ (local actuator-to-actuator interaction): f^{act, new}_v = \phi^{act-local}\left( f^{act}_v, \sum_{w \in N(v)^{act}} k(x^{act}_w, x^{act}_v; \theta^{act-act})f^{act}_w \right), v \in V_{act}
- ํ์์ ๋ ธ๋์ ์ต์ข ์ ๋ฐ์ดํธ (global aggregation from objects): f^{act, final}_v = f^{act, new}_v + \phi^{act-global}\left( f^{act}_v, \sum_{u \in V_{obj}} k(x^{obj}_u, x^{act}_v; \theta^{obj-act})f^{obj, new}_u \right), v \in V_{act}
- ์ฌ๊ธฐ์ ๊ฐ ์ปค๋ k(\cdot, \cdot; \theta^{\cdot})์ ์์ฒด ํ์ต ๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, ๊ฐ ์ํธ์์ฉ ์ ํ์ ํนํ๋ ํ์ต ํ๋ก์ธ์ค๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- ๊ฐ ๋ ธ๋ v \in V๋ ๋ ธ๋ ์ ํ์ one-hot scalar-vector๋ก ์ธ์ฝ๋ฉํ๋ฉฐ, normalized position vectors p_v์ velocities v_v๋ฅผ ํฌํจํฉ๋๋ค. ๊ฐ์ฒด ๋ ธ๋์ ๊ฒฝ์ฐ, feature vector๋ ๋ชฉํ๊น์ง์ ์๋ ๊ฑฐ๋ฆฌ d_{v,target}๋ ํฌํจํฉ๋๋ค. ํ์์ ๋ ธ๋์ ์ถ๋ ฅ์ ์ค์นผ๋ผ c์ ๋ฒกํฐ v_{out}์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ต์ข ์ถ๋ ฅ์ c \cdot v๋ก ๊ณ์ฐ๋ฉ๋๋ค.
- Principled Trust-Region Method (TRPL):
- ํ์ค on-policy ๊ฐํ ํ์ต ์ ๊ทผ ๋ฐฉ์์ธ Proximal Policy Optimization (PPO)์ ์ผ๋ฐ์ ์ผ๋ก ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ฏผ๊ฐํ๋ฉฐ ๋ถ์์ ํ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, HEPi๋ Trust Region Projection Layers (TRPL, Otto et al., 2021)๋ฅผ ์ฑํํฉ๋๋ค. TRPL์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ณผ๋ก ์ต์ ํ(differentiable convex optimization)๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฑ ํ๋ผ๋ฏธํฐ๋ฅผ trust region ๊ฒฝ๊ณ๋ก ํฌ์ํจ์ผ๋ก์จ ์์ ์ ์ธ ์ ๋ฐ์ดํธ๋ฅผ ๋ณด์ฅํฉ๋๋ค. ์ด๋ Gaussian policy์ ํ๊ท ๊ณผ ๋ถ์ฐ(variance) ๋ชจ๋๊ฐ trust region ์ ์ฝ ์กฐ๊ฑด์ ๋ง์กฑํ๋๋ก ํฉ๋๋ค.
์ด๋ก ์ ์ ๋นํ:
HEPi๋ MPNN์ global Virtual Nodes (VNG)๋ฅผ ์ถ๊ฐํ๋ ์์ด๋์ด์์ ์๊ฐ์ ๋ฐ์์ต๋๋ค. ๋ ผ๋ฌธ์ ํ์์ ๋ ธ๋๋ฅผ VNG๋ก ์ทจ๊ธํ์ฌ ๋ชจ๋ ๊ฐ์ฒด ๋ ธ๋์ ์ฐ๊ฒฐํ๋ ๊ฒ์ด, k-nearest object nodes์๋ง ์ง์ญ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ MPNN + VNLocal ๋ฐฉ์๋ณด๋ค ๋ ๊ด๋ จ์ฑ ๋์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ ์ ์์์ ์ด๋ก ์ ์ผ๋ก ๋ณด์ ๋๋ค (Proposition 3.1).
- Proposition 3.1: MPNN + VNLocal์ ๊ฒฝ์ฐ, ๊ฐ์ฒด ๋ ธ๋ u์ ํ์์ ๋ ธ๋ v๊ฐ 2-hop ์ด์ ๋จ์ด์ ธ ์์ ๋, Jacobian \partial f^{act}_v / \partial f^{obj}_u๋ u์ ๋ ๋ฆฝ์ ์ ๋๋ค. ๋ฐ๋ฉด, HEPi๋ ๋จ์ผ layer ์ดํ์๋ ์ด๋ค ํ์์-๊ฐ์ฒด ๋ ธ๋ ์ ๊ฐ์๋ ์ ๋ณด ๊ตํ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ HEPi์ ์ฐ๊ฒฐ ์ค๊ณ๊ฐ ๊ฐ์ฒด ๋ ธ๋์ ๋ณํ์ ๋ํด ํ์์๊ฐ ๊ด๋ จ์ฑ ์๋ ํ๋์ ์์ธกํ ์ ์๋๋ก ์ ๋ณด๋ฅผ ๋ฐ์ ์ ์์์ ์๋ฏธํฉ๋๋ค.
๋ฒค์น๋งํฌ ๋ฐ ์คํ:
๋ณธ ์ฐ๊ตฌ๋ NVIDIA IsaacLab์ ํ์ฉํ์ฌ ๊ตฌํ๋ 7๊ฐ์ง ์๋ก์ด ์กฐ์ ์์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ค์ํ ๊ฐ์ฒด๋ค์ rigid insertion, ๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ end-effectors๋ฅผ ์ฌ์ฉํ rope ๋ฐ cloth manipulation์ ํฌํจํ์ฌ, ๊ธฐํํ์ ๊ตฌ์กฐ์ ์ญํ ์ ๊ฐ์กฐํ๊ณ ๋์ด๋๊ฐ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, HEPi๋ Transformer-based policy ๋ฐ ๋น-heterogeneous equivariant policy๋ณด๋ค ํ๊ท return, sample efficiency, ๊ทธ๋ฆฌ๊ณ ๋ฏธ์ง์ ๊ฐ์ฒด์ ๋ํ generalization ์ธก๋ฉด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ณต์กํ 3D ์กฐ์ ์์ ์์ HEPi์ equivariance์ ๋ช ์์ ์ธ heterogeneity ๋ชจ๋ธ๋ง์ ํตํฉ์ด ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ ์์ ์ ์ฆํ์ต๋๋ค. ๋ํ, attention ๋ฉ์ปค๋์ฆ์ ์ถ๊ฐํ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง์ง ์์์ผ๋ฉฐ, TRPL์ด PPO๋ณด๋ค ํ์ต ์์ ์ฑ ์ธก๋ฉด์์ ์ฐ์ํจ์ ํ์ธํ์ต๋๋ค.
๊ฒฐ๋ก :
HEPi๋ SE(3) transformation์ ๋ํด equivariantํ๋๋ก ์ ์ฝ๋ EMPN backbone์ ํน์ง์ผ๋ก ํ๋ graph-based policy์ด๋ฉฐ, sample efficiency๋ฅผ ํฌ๊ฒ ํฅ์์ํต๋๋ค. ๋ํ, ๊ฐ ์ํธ์์ฉ ์ ํ์ ๋ํด ๋ณ๊ฐ์ ๋คํธ์ํฌ ํ๋ผ๋ฏธํฐ๋ฅผ ํ ๋นํ์ฌ heterogeneity๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ฉฐ, ์ด๋ ๋ฉ์์ง ํผํฉ(message mixing)์ ์ค์ด๊ณ ํํ๋ ฅ(expressiveness)์ ํฅ์์์ผ sub-optimal solution์ผ๋ก ์๋ ดํ ๊ฐ๋ฅ์ฑ์ ๋ฎ์ถฅ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ ํจ๊ป HEPi๊ฐ ๊ธฐ์กด SOTA ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ผ๋ก์จ, ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ฅผ heterogeneous graph๋ก ํจ๊ณผ์ ์ผ๋ก ํํํ๊ณ ํด๊ฒฐํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
1. ์๋ก : ์ ๊ธฐํํ์ ๋์นญ์ฑ์ด ์ค์ํ๊ฐ?
1.1 ๋ฌธ์ ์ ๋ณธ์ง
์ฌ๋ฌ๋ถ์ด ์ปต์ ์ง์ด์ ์ ๋ฐ์ ์ฌ๋ ค๋๋ ์ํฉ์ ์์ํด ๋ณด์ธ์. ์ปต์ด ํ ์ด๋ธ์ ์ผ์ชฝ์ ์๋ ์ค๋ฅธ์ชฝ์ ์๋ , ํน์ ํ ์ด๋ธ ์ ์ฒด๊ฐ 90๋ ํ์ ํด ์๋ , ์ฌ๋ฌ๋ถ์ ๋ณธ์ง์ ์ผ๋ก ๋์ผํ โ์ง์ด์ ๋๊ธฐโ ๋์์ ์ํํฉ๋๋ค. ๋จ์ง ์ขํ๊ณ๋ง ๋ฐ๋์์ ๋ฟ์ด์ฃ .
๊ทธ๋ฐ๋ฐ ๋๋๊ฒ๋, ๋๋ถ๋ถ์ ๋ก๋ด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ด ๋จ์ํ ์ฌ์ค์ โ์ดํดโํ์ง ๋ชปํฉ๋๋ค. ์ปต์ด ์ผ์ชฝ์ ์์ ๋์ ์ค๋ฅธ์ชฝ์ ์์ ๋๋ฅผ ์์ ํ ๋ค๋ฅธ ์ํฉ์ผ๋ก ์ธ์ํ๊ณ , ๊ฐ๊ฐ์ ๋ํด ๋ฐ๋ก ํ์ตํด์ผ ํฉ๋๋ค. ๋ง์น โ2+3โ๊ณผ โ3+2โ๋ฅผ ๋ณ๊ฐ์ ๋ฌธ์ ๋ก ์๊ธฐํ๋ ๊ฒ๊ณผ ๊ฐ์ฃ .
์ด๊ฒ์ด ๋ฐ๋ก ๊ธฐํํ์ ๋์นญ์ฑ(geometric symmetry)์ ๋ฌธ์ ์ ๋๋ค. 3D ๊ณต๊ฐ์์ ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ ๋ณธ์ง์ ์ผ๋ก ํ์ (rotation)๊ณผ ๋ณ์ง(translation)์ ๋ํด ๋๋ฑํ(equivariant) ํน์ฑ์ ๊ฐ์ง๋๋ค. ์ด ๋ ผ๋ฌธ์ ํต์ฌ ํต์ฐฐ์ ์ด๋ฌํ SE(3) ๋์นญ์ฑ์ ์ ์ฑ ๋คํธ์ํฌ์ ๋ช ์์ ์ผ๋ก ๋ด์ฅํ๋ฉด, ํ์ต ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๊ทน์ ์ผ๋ก ํฅ์๋๋ค๋ ๊ฒ์ ๋๋ค.
1.2 ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ํ๊ณ
| ์ ๊ทผ๋ฒ | ํน์ง | ํ๊ณ |
|---|---|---|
| MLP ๊ธฐ๋ฐ ์ ์ฑ | ๋ฒ์ฉ์ , ๊ฐ๋จ | ๋์นญ์ฑ ๋ฌด์, ๋ฎ์ ์ํ ํจ์จ |
| Transformer | ๊ฐ๋ ฅํ ํํ๋ ฅ | ๊ธฐํํ์ ๊ตฌ์กฐ ๋ฌด์, ๊ณผ์ ํฉ ์ํ |
| ์ผ๋ฐ GNN | ๊ทธ๋ํ ๊ตฌ์กฐ ํ์ฉ | 3D ๊ธฐํํ์ ๋ฑ๋ณ์ฑ ๋ถ์ฌ |
| ์์ EMPN | SE(3) ๋ฑ๋ณ์ฑ | ์ด์ข ๊ตฌ์กฐ(actuator/object) ๋ฌด์ |
๊ธฐ์กด์ ๊ฐํํ์ต ์ ์ฑ ๋ค์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ์๊ณ ์์์ต๋๋ค. ์ฒซ์งธ, ๋๋ถ๋ถ์ ๋คํธ์ํฌ๊ฐ ์ขํ ๋ณํ์ ๋ํ ๋์นญ์ฑ์ ๋ฌด์ํฉ๋๋ค. ๋์งธ, ๋ก๋ด ์กฐ์ ๋ฌธ์ ์ ์ด์ข ์ (heterogeneous) ํน์ฑโ์ก์ถ์์ดํฐ์ ๋ฌผ์ฒด๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์ญํ ์ ํ๋ค๋ ์ โ์ ๊ณ ๋ คํ์ง ์์ต๋๋ค.
1.3 HEPi์ ํต์ฌ ๊ธฐ์ฌ
์ด ๋ ผ๋ฌธ์ Heterogeneous Equivariant Policy (HEPi)๋ฅผ ์ ์ํฉ๋๋ค. ํต์ฌ ์์ด๋์ด๋ฅผ ํ ๋ฌธ์ฅ์ผ๋ก ์์ฝํ๋ฉด:
โ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ฅผ ์ด์ข ๊ทธ๋ํ๋ก ํํํ๊ณ , SE(3) ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ์ผ๋ก ์ ์ฑ ์ ํ์ตํ๋ฉด, ๊ธฐํํ์ ๋์นญ์ฑ๊ณผ ์ญํ ์ ์ด์ข ์ฑ์ ๋์์ ํ์ฉํ ์ ์๋ค.โ
2. ์ด๋ก ์ ๋ฐฐ๊ฒฝ: ๊ธฐํํ์ ๋คํธ์ํฌ์ ๋ด๋ค
2.1 SE(3) ๋ฑ๋ณ์ฑ์ด๋?
SE(3)๋ Special Euclidean group in 3D์ ์ฝ์๋ก, 3์ฐจ์ ๊ณต๊ฐ์์์ ๋ชจ๋ ๊ฐ์ฒด ๋ณํ(rigid transformation)โํ์ ๊ณผ ๋ณ์งโ์ ๋ํ๋ด๋ ๊ตฐ(group)์ ๋๋ค.
๋ฑ๋ณ์ฑ(equivariance)์ ์ดํดํ๋ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ โ๋์นญ์ฑ์ ๋ณด์กดโ์ผ๋ก ์๊ฐํ๋ ๊ฒ์ ๋๋ค.
์ฌ๋ฌ๋ถ์ด ์ธ๊ณ์ง๋๋ฅผ 90๋ ๋๋ ค์ ๋ณด๋๋ผ๋, โ์์ธ์์ ๋์ฟ๊น์ง์ ๋นํ ๊ฒฝ๋กโ๋ ์ฌ์ ํ ๊ฐ์ ๋ชจ์์ ๋๋คโ๋จ์ง ์ง๋ ์์์ ํ์ ํ์ ๋ฟ์ด์ฃ . ์ํ์ ์ผ๋ก, ํจ์ f๊ฐ ๋ณํ g์ ๋ํด ๋ฑ๋ณ์ด๋ผ๋ ๊ฒ์:
f(g \cdot x) = g \cdot f(x)
์ฆ, โ๋จผ์ ๋ณํํ๊ณ ํจ์๋ฅผ ์ ์ฉโํ๋ โ๋จผ์ ํจ์๋ฅผ ์ ์ฉํ๊ณ ๋ณํโํ๋ ๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ค๋ ๋ป์ ๋๋ค.
๋ก๋ด ์ ์ฑ \pi: \mathcal{S} \rightarrow \mathcal{A}๊ฐ SE(3) ๋ฑ๋ณ์ด๋ผ๋ ๊ฒ์, ์ํ ๊ณต๊ฐ์ ํ์ /๋ณ์ง์ํค๋ฉด ์ถ๋ ฅ ์ก์ ๋ ๊ทธ์ ๋ง๊ฒ ๋ณํ๋๋ค๋ ์๋ฏธ์ ๋๋ค:
\pi(g \cdot s) = g \cdot \pi(s), \quad \forall g \in SE(3)
2.2 Steerable Features์ ๊ตฌ๋ฉด ์กฐํ ํจ์
SE(3) ๋ฑ๋ณ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ ํต์ฌ ๋๊ตฌ๋ steerable features์ ๋๋ค. ์ผ๋ฐ์ ์ธ ์ ๊ฒฝ๋ง์ ํน์ง ๋ฒกํฐ๊ฐ ์์์ ์ค์ ๋ฒกํฐ์ธ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, steerable features๋ ๊ตฐ์ ์์ฉ ์๋ ์์ธก ๊ฐ๋ฅํ๊ฒ ๋ณํ๋ฉ๋๋ค.
๊ตฌ๋ฉด ์กฐํ ํจ์(spherical harmonics) Y_l^m์ ๊ตฌ๋ฉด ์์ ์ง๊ต ๊ธฐ์ ํจ์๋ก, ์ฐจ์(degree) l์ ๋ฐ๋ผ (2l+1)์ฐจ์์ ํํ์ ์ ๊ณตํฉ๋๋ค:
| ์ฐจ์ l | ์ฐจ์ | ๋ฌผ๋ฆฌ์ ํด์ | ์์ |
|---|---|---|---|
| 0 | 1 | ์ค์นผ๋ผ (๋ถ๋ณ) | ์๋์ง, ์ง๋ |
| 1 | 3 | ๋ฒกํฐ | ์์น, ์๋, ํ |
| 2 | 5 | 2์ฐจ ํ ์ | ๊ด์ฑ ํ ์ |
HEPi์์๋ ์ด๋ฌํ ๊ตฌ๋ฉด ์กฐํ ํํ์ ์ฌ์ฉํ์ฌ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค. ์ค์ํ ์ ์, ์ด๋ฌํ ํํ๋ค ์ฌ์ด์ ์ฐ์ฐ(ํ ์ ๊ณฑ ๋ฑ)์ด Clebsch-Gordan ๊ณ์๋ฅผ ํตํด ๋ฑ๋ณ์ฑ์ ๋ณด์กดํ๋ค๋ ๊ฒ์ ๋๋ค.
2.3 ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ ๋คํธ์ํฌ (EMPN)
ํ์ค ๊ทธ๋ํ ์ ๊ฒฝ๋ง(GNN)์์ ๊ฐ ๋ ธ๋ v๋ ์ด์ ๋ ธ๋๋ค๋ก๋ถํฐ ๋ฉ์์ง๋ฅผ ์์งํ์ฌ ์์ ์ ํน์ง์ ์ ๋ฐ์ดํธํฉ๋๋ค:
h_v^{(l+1)} = \psi\left(h_v^{(l)}, \bigoplus_{u \in \mathcal{N}(v)} \phi(h_u^{(l)}, h_v^{(l)}, e_{uv})\right)
์ฌ๊ธฐ์ \phi๋ ๋ฉ์์ง ํจ์, \psi๋ ์ ๋ฐ์ดํธ ํจ์, \bigoplus๋ ์ง๊ณ ์ฐ์ฐ์ ๋๋ค.
๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ ๋คํธ์ํฌ(EMPN)๋ \phi์ \psi๊ฐ ๋ชจ๋ ๋ฑ๋ณ ํจ์๊ฐ ๋๋๋ก ์ค๊ณํฉ๋๋ค. ์ด๋ฅผ ์ํด:
- ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ steerable features๋ก ๊ตฌ์ฑ: ๋ ธ๋/์์ง ํน์ง์ด ๊ตฌ๋ฉด ์กฐํ ๊ณ์๋ก ํํ๋จ
- ๋ฑ๋ณ ์ฐ์ฐ๋ง ์ฌ์ฉ: ํ ์ ๊ณฑ์ Clebsch-Gordan ๊ณฑ์ผ๋ก, ๋น์ ํ ํ์ฑํ๋ ๋ฑ๋ณ ๊ฒ์ดํธ๋ก ๊ตฌํ
- ์๋ ์์น ์ธ์ฝ๋ฉ: ์ ๋ ์ขํ ๋์ ์๋ ๋ณ์ ๋ฒกํฐ \vec{r}_{uv}๋ฅผ ์ฌ์ฉ
flowchart TB
subgraph ๋
ธ๋ํน์ง["๋
ธ๋ ํน์ง (Steerable)"]
H0["h_u: Type-0 (์ค์นผ๋ผ)"]
H1["h_u: Type-1 (๋ฒกํฐ)"]
H2["h_u: Type-2 (ํ
์)"]
end
subgraph ๋ฉ์์ง์์ฑ["๋ฉ์์ง ์์ฑ"]
R["์๋ ์์น r_uv"]
SH["๊ตฌ๋ฉด ์กฐํ Y(rฬ_uv)"]
M["๋ฑ๋ณ ๋ฉ์์ง m_uv"]
end
subgraph ์ง๊ณ["์ง๊ณ & ์
๋ฐ์ดํธ"]
AGG["ฮฃ m_uv (ํฉ์ฐ)"]
UPD["๋ฑ๋ณ ์
๋ฐ์ดํธ ฯ"]
end
H0 & H1 & H2 --> ๋ฉ์์ง์์ฑ
R --> SH --> M
M --> AGG --> UPD
style M fill:#fff3e0
style UPD fill:#e8f5e9
3. HEPi: ์ด์ข ๋ฑ๋ณ ์ ์ฑ ์ ์ค๊ณ
3.1 ๋ก๋ด ์กฐ์์ ์ด์ข ๊ทธ๋ํ๋ก ํํํ๊ธฐ
HEPi์ ํต์ฌ ํ์ ์ ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ฅผ ์ด์ข ๊ทธ๋ํ(heterogeneous graph)๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋๋ค. ์ด์ข ๊ทธ๋ํ๋ ์๋ก ๋ค๋ฅธ ํ์ ์ ๋ ธ๋์ ์์ง๋ฅผ ํฌํจํ๋ ๊ทธ๋ํ์ ๋๋ค.
๋ ธ๋ ํ์
- ์ก์ถ์์ดํฐ ๋
ธ๋ (Actuator): ๋ก๋ด์ ๋ง๋จ ํจ๊ณผ๊ธฐ(end-effector)๋ฅผ ๋ํ๋
- ํน์ง: ํ์ฌ ์์น, ์์ธ, ๊ทธ๋ฆฌํผ ์ํ ๋ฑ
- ๋ฌผ์ฒด ๋
ธ๋ (Object): ์กฐ์ ๋์ ๋ฌผ์ฒด(๊ฐ์ฒด ๋๋ ๋ณํ์ฒด)๋ฅผ ๋ํ๋
- ๊ฐ์ฒด: ๋จ์ผ ๋ ธ๋๋ก ํํ (์์น + ์์ธ)
- ๋ณํ์ฒด: ํํฐํด/๋ฉ์ฌ ๋ ธ๋์ ์งํฉ์ผ๋ก ํํ
์์ง ํ์
| ์์ง ํ์ | ์ฐ๊ฒฐ | ์๋ฏธ |
|---|---|---|
| Intra-actuator | ์ก์ถ์์ดํฐ โ๏ธ ์ก์ถ์์ดํฐ | ๋ค์ค ์ ํ์ |
| Intra-object | ๋ฌผ์ฒด โ๏ธ ๋ฌผ์ฒด | ๋ณํ์ฒด ๋ด๋ถ ์ฐ๊ฒฐ |
| Inter-edges | ์ก์ถ์์ดํฐ โ ๋ฌผ์ฒด | ์กฐ์ ์ํธ์์ฉ |
graph TB
subgraph Actuators["๐ค ์ก์ถ์์ดํฐ ๋
ธ๋"]
A1((EE1))
A2((EE2))
end
subgraph Objects["๐ฆ ๋ฌผ์ฒด ๋
ธ๋ (์ฒ ํํฐํด)"]
O1((P1))
O2((P2))
O3((P3))
O4((P4))
O5((P5))
O6((P6))
end
A1 <-.->|intra-actuator| A2
O1 <-->|intra-object| O2
O2 <-->|intra-object| O3
O4 <-->|intra-object| O5
O5 <-->|intra-object| O6
O1 <-->|intra-object| O4
O2 <-->|intra-object| O5
O3 <-->|intra-object| O6
A1 -.->|inter-edge| O1
A1 -.->|inter-edge| O2
A2 -.->|inter-edge| O5
A2 -.->|inter-edge| O6
style A1 fill:#ffccbc
style A2 fill:#ffccbc
style O1 fill:#c5cae9
style O2 fill:#c5cae9
style O3 fill:#c5cae9
style O4 fill:#c5cae9
style O5 fill:#c5cae9
style O6 fill:#c5cae9
๋ชฉํ ๊ฑฐ๋ฆฌ ์ธ์ฝ๋ฉ
ํฅ๋ฏธ๋ก์ด ์ค๊ณ ์ ํ์ผ๋ก, HEPi๋ ๋ชฉํ ์์น๋ฅผ ๋ณ๋์ ๋ ธ๋ ํ์ ์ผ๋ก ๋ง๋ค์ง ์์ต๋๋ค. ๋์ ๋ชฉํ๊น์ง์ ์๋ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ ๋ ธ๋์ ํน์ง ํํ์ ํก์์ํต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด:
- ๊ทธ๋ํ ๊ตฌ์กฐ๊ฐ ๋จ์ํด์ง
- ๋ชฉํ ์ ๋ณด๊ฐ ๋ฑ๋ณ ๋ฐฉ์์ผ๋ก ์ธ์ฝ๋ฉ๋จ
- ์ถ๊ฐ์ ์ธ ์์ง ํ์ ๋ถํ์
3.2 ์ด์ข ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ
HEPi์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ ์๋ก ๋ค๋ฅธ ๋ ธ๋/์์ง ํ์ ์ ๋ํด ๋ณ๋์ ๋ฉ์์ง ํจ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค.
์ํ์ ์ ์
๋ ธ๋ ํ์ ์งํฉ์ \mathcal{T} = \{\text{actuator}, \text{object}\}๋ผ ํ๊ณ , ์์ง ํ์ ์ \mathcal{R}์ด๋ผ ํฉ์๋ค.
๊ฐ ํ์ \tau \in \mathcal{T}์ ๋ ธ๋ v์ ๋ํ ์ ๋ฐ์ดํธ:
h_v^{(l+1)} = \psi_\tau \left( h_v^{(l)}, \bigoplus_{(u,v,r) \in \mathcal{E}} \phi_r(h_u^{(l)}, h_v^{(l)}, \vec{r}_{uv}) \right)
์ฌ๊ธฐ์: - \psi_\tau: ๋ ธ๋ ํ์ \tau์ ํนํ๋ ์ ๋ฐ์ดํธ ํจ์ - \phi_r: ์์ง ํ์ r์ ํนํ๋ ๋ฉ์์ง ํจ์ - \vec{r}_{uv}: ๋ ธ๋ u์์ v๋ก์ ์๋ ์์น ๋ฒกํฐ
์์ฌ์ฝ๋ (Pseudocode)
Algorithm: HEPi Forward Pass
Input: Graph G = (V_act, V_obj, E_intra, E_inter), node features {h_v}
Output: Actions for actuators {a_i}
1. Initialize steerable features from raw inputs
For each v โ V:
h_v^(0) = Embed(x_v, target_distance_v)
2. Heterogeneous message passing (L layers)
For l = 1 to L:
# Intra-object messages
For each (u,v) โ E_intra_obj:
m_uv = ฯ_intra_obj(h_u, h_v, r_uv)
# Intra-actuator messages
For each (u,v) โ E_intra_act:
m_uv = ฯ_intra_act(h_u, h_v, r_uv)
# Inter-edge messages (object โ actuator)
For each (u,v) โ E_inter:
m_uv = ฯ_inter(h_u, h_v, r_uv)
# Update nodes
For each v โ V_obj:
h_v^(l) = ฯ_obj(h_v^(l-1), Aggregate(messages_to_v))
For each v โ V_act:
h_v^(l) = ฯ_act(h_v^(l-1), Aggregate(messages_to_v))
3. Generate equivariant actions
For each actuator node a_i:
action_i = ActionHead(h_{a_i}^(L))
Return {action_i}
3.3 ๋ฑ๋ณ ์ก์ ์์ฑ
์ ์ฑ ์ ์ถ๋ ฅโ์ก์ โ๋ ๋ฑ๋ณํ๊ฒ ์์ฑ๋์ด์ผ ํฉ๋๋ค. HEPi์์ ์ก์ ์ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Type-1 ์ถ๋ ฅ (๋ฒกํฐ): ๋ง๋จ ํจ๊ณผ๊ธฐ์ ์๋/๋ณ์
- ์ด๊ฒ์ ํ์ ์ ๋ํด ๋ฑ๋ณํด์ผ ํจ
- Type-0 ์ถ๋ ฅ (์ค์นผ๋ผ): ๊ทธ๋ฆฌํผ ์ด๋ฆผ/๋ซํ
- ์ด๊ฒ์ ํ์ ์ ๋ํด ๋ถ๋ณํด์ผ ํจ
์ก์ถ์์ดํฐ ๋ ธ๋์ ์ต์ข ํน์ง h_a^{(L)}์์ ์ ํ ๋ ์ด์ด๋ฅผ ํตํด ๊ฐ ํ์ ์ ์ถ๋ ฅ์ ์ถ์ถํฉ๋๋ค:
\mathbf{v}_a = W_1 h_a^{(L, l=1)}, \quad s_a = W_0 h_a^{(L, l=0)}
์ฌ๊ธฐ์ h_a^{(L, l=k)}๋ ์ฐจ์ k์ steerable feature ์ฑ๋ถ์ ๋๋ค.
3.4 Trust Region Policy Learning
HEPi๋ on-policy ๊ฐํํ์ต์ ์ฌ์ฉํ๋๋ฐ, ๋ณต์กํ ์กฐ์ ํ์คํฌ์์ ํ์ต์ ์์ ํํ๊ธฐ ์ํด Trust Region Policy Learning (TRPL)์ ์ฑํํฉ๋๋ค.
PPO(Proximal Policy Optimization)๊ฐ ํด๋ฆฌํ์ผ๋ก ์ ์ฑ ์ ๋ฐ์ดํธ๋ฅผ ์ ํํ๋ ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ์ด๋ผ๋ฉด, TRPL์ KL ๋ฐ์ฐ์ ๋ํ ๋ช ์์ ์ ์ฝ์ ์ฌ์ฉํ์ฌ ๋ ์ํ์ ์ผ๋ก ์๋ฐํ ๋ณด์ฅ์ ์ ๊ณตํฉ๋๋ค.
\max_\theta \mathbb{E}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s,a)\right] \text{s.t. } \mathbb{E}[D_{KL}(\pi_{\theta_{\text{old}}} | \pi_\theta)] \leq \delta
ํฐ 3D ํ์ ๊ณต๊ฐ์์ ์ด๋ฌํ ์ ์ฝ์ด ํ์ต ์์ ์ฑ์ ์ค์ํฉ๋๋ค.
4. ๋ฒค์น๋งํฌ: 7๊ฐ์ง ๋์ ์ ํ์คํฌ
4.1 ๋ฒค์น๋งํฌ ์ค๊ณ ์ฒ ํ
์ ์๋ค์ ๊ธฐํํ์ ๊ตฌ์กฐ์ ์ญํ ์ ๊ฐ์กฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ NVIDIA IsaacLab ์์ ๊ตฌ์ถํ์ต๋๋ค. ํต์ฌ ํน์ง:
- 3D ์ ์ฒด ๊ณต๊ฐ ์ํ๋ง: ์ด๊ธฐ/๋ชฉํ ์์น๊ฐ 3D ๊ณต๊ฐ์์ ๊ท ์ผ ์ํ๋ง
- ์ ์ง์ ๋์ด๋: 2D โ 3D, ๋จ์ผ โ ๋ค์ค ์ก์ถ์์ดํฐ, ๊ฐ์ฒด โ ๋ณํ์ฒด
- ๋ค์ํ ๊ธฐํํ์ ํ์: ๋ณ, ํ์, ์ญ์๊ฐ ๋ฑ ๋ค์ํ ๋ชจ์
4.2 ํ์คํฌ ์์ธ
flowchart LR
subgraph Rigid["๊ฐ์ฒด ํ์คํฌ"]
R1["Rigid-Sliding-2D<br/>2D ์ฌ๋ผ์ด๋ฉ"]
R2["Rigid-Insertion-2D+z<br/>2.5D ์ฝ์
"]
R3["Rigid-Insertion-3D<br/>3D ์ฝ์
"]
R4["Rigid-Insertion-2Agents<br/>ํ์
์ฝ์
"]
end
subgraph Deform["๋ณํ์ฒด ํ์คํฌ"]
D1["Rope-Closing<br/>๋กํ ๋ซ๊ธฐ"]
D2["Rope-Shaping<br/>๋กํ ๋ชจ์ ๋ง๋ค๊ธฐ"]
D3["Cloth-Hanging<br/>์ฒ ๊ฑธ๊ธฐ"]
end
R1 --> R2 --> R3 --> R4
D1 --> D2 --> D3
style R4 fill:#ffcdd2
style D3 fill:#ffcdd2
| ํ์คํฌ | ์ก์ถ์์ดํฐ ์ | ๋ฌผ์ฒด ํ์ | ์์ ๋ | ํต์ฌ ๋์ |
|---|---|---|---|---|
| Rigid-Sliding-2D | 1 | ๊ฐ์ฒด | 2D | ๊ธฐ๋ณธ ํ ์คํธ |
| Rigid-Insertion-2D+z | 1 | ๊ฐ์ฒด | 2.5D | ๊น์ด ์ ์ด |
| Rigid-Insertion-3D | 1 | ๊ฐ์ฒด | 6DoF | ์ ์ฒด SE(3) |
| Rigid-Insertion-2Agents | 2 | ๊ฐ์ฒด | ํ์ | ๋ค์ค ์์ด์ ํธ |
| Rope-Closing | 1 | ๋ณํ์ฒด | - | ๋ณํ ๋์ญํ |
| Rope-Shaping | 2 | ๋ณํ์ฒด | - | ํ์ + ๋ณํ |
| Cloth-Hanging | 2 | ๋ณํ์ฒด | - | ์ต๊ณ ๋์ด๋ |
4.3 ๋ฌผ์ฒด ํ์์ ๋ค์์ฑ
๊ฐ์ฒด ์ฝ์ ํ์คํฌ์์ ์ฌ์ฉ๋๋ ๋ฌผ์ฒด ํ์๋ค:
- Star (๋ณ): 5๊ฐ์ ๋พฐ์กฑํ ๋์
- Ellipse (ํ์): ๋ค์ํ ์ฅ๋จ์ถ ๋น์จ
- Plus (์ญ์): ์ง๊ตํ๋ ๋ ๋ง๋
- Pentagon (์ค๊ฐํ): ์ ๋ค๊ฐํ
- โฆ๊ทธ ์ธ ๋ค์
ํ์ต ์ ๋ณธ ์ ์๋ ํ์์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด, ์ผ๋ถ ํ์์ ํ ์คํธ ์ ์ฉ์ผ๋ก ๋ณด๋ฅ๋ฉ๋๋ค. ์ด๋ HEPi์ ๊ธฐํํ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ ํต์ฌ ์คํ์ ๋๋ค.
5. ์คํ ๊ฒฐ๊ณผ: ๋ฑ๋ณ์ฑ๊ณผ ์ด์ข ์ฑ์ ํ
5.1 ์คํ ์ค์
- ์๋ฎฌ๋ ์ดํฐ: NVIDIA IsaacLab (GPU ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์์ง)
- ํ๊ฒฝ ์: ํ์คํฌ๋น 1000๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ
- ํ๊ฐ ์งํ: Interquartile Mean (IQM) ๋ณด์, 95% ์ ๋ขฐ ๊ตฌ๊ฐ
- ๋ฒ ์ด์ค๋ผ์ธ:
- Transformer: ์์ ์ฐ๊ฒฐ GNN์ผ๋ก ๋ณผ ์ ์์
- EMPN: ์์ ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ (์ด์ข ์ฑ ์์)
- HeteroGNN: ์ด์ข GNN (๋ฑ๋ณ์ฑ ์์)
- GNN: ์์ GNN (๋ฑ๋ณ์ฑ๋ ์ด์ข ์ฑ๋ ์์)
5.2 ์ฃผ์ ๊ฒฐ๊ณผ
์ํ ํจ์จ์ฑ
ํ์คํฌ๋ณ 1M ํ๊ฒฝ ์คํ
๋๋ฌ ์ IQM ๋ณด์ (๋์์๋ก ์ข์):
โโโโโโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโฌโโโโโโโโโโโโฌโโโโโโโโโโโโ
โ Task โTransformerโ EMPN โ HEPi โ
โโโโโโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโผโโโโโโโโโโโโผโโโโโโโโโโโโค
โ Rigid-Sliding-2D โ ~0.8 โ ~0.85 โ ~0.85 โ
โ Rigid-Insertion-2D+z โ ~0.6 โ ~0.75 โ ~0.80 โ
โ Rigid-Insertion-3D โ ~0.3 โ ~0.5 โ ~0.65 โ
โ Rigid-2Agents-3D โ ~0.1 โ ~0.4 โ ~0.55 โ
โ Rope-Closing โ ~0.4 โ ~0.5 โ ~0.55 โ
โ Rope-Shaping โ ~0.2 โ ~0.35 โ ~0.45 โ
โ Cloth-Hanging โ ~0.1 โ ~0.25 โ ~0.40 โ
โโโโโโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโ
ํต์ฌ ๊ด์ฐฐ:
๋ณต์ก๋๊ฐ ๋์์๋ก ๊ฒฉ์ฐจ ํ๋: ๋จ์ํ 2D ํ์คํฌ์์๋ ๋ชจ๋ ๋ฐฉ๋ฒ์ด ์ ์ฌํ์ง๋ง, 3D ํ์คํฌ์ ๋ค์ค ์์ด์ ํธ ํ์คํฌ์์ HEPi์ ์ฐ์๊ฐ ๋๋๋ฌ์ง
๋ฑ๋ณ์ฑ์ ํจ๊ณผ: EMPN์ด Transformer๋ฅผ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐ โ ๋์นญ์ฑ ํ์ฉ์ ์ด์
์ด์ข ์ฑ์ ์ถ๊ฐ ์ด๋: HEPi๊ฐ EMPN์ ๋ฅ๊ฐ โ ์ด์ข ๊ตฌ์กฐ ๋ชจ๋ธ๋ง์ ์ด์
์ผ๋ฐํ ์ฑ๋ฅ
๋ฏธ๊ด์ธก ํ์์ ๋ํ ์ผ๋ฐํ:
Training shapes: Star, Ellipse, Plus
Test shapes: Pentagon, Hexagon, Triangle
โโโโโโโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโฌโโโโโโโโโโโโฌโโโโโโโโโโโโ
โ Metric โTransformerโ EMPN โ HEPi โ
โโโโโโโโโโโโโโโโโโโโโโผโโโโโโโโโโโโผโโโโโโโโโโโโผโโโโโโโโโโโโค
โ Train Shape Successโ 0.65 โ 0.78 โ 0.85 โ
โ Test Shape Success โ 0.40 โ 0.65 โ 0.75 โ
โ Generalization Gap โ -0.25 โ -0.13 โ -0.10 โ
โโโโโโโโโโโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโดโโโโโโโโโโโโ
HEPi๋ ๋ฏธ๊ด์ธก ํ์์ ๋ํด์๋ ํ์ต ํ์ ๋๋น ์ฑ๋ฅ ์ ํ๊ฐ ๊ฐ์ฅ ์ ์ต๋๋ค. ์ด๋ ๋ฑ๋ณ ๊ตฌ์กฐ๊ฐ ๊ธฐํํ์ ํจํด์ ๋ ์ผ๋ฐ์ ์ผ๋ก ํ์ตํ๋๋ก ๋๊ธฐ ๋๋ฌธ์ ๋๋ค.
5.3 Ablation ์ฐ๊ตฌ
Trust Region ๋ฐฉ๋ฒ์ ํจ๊ณผ
xychart-beta
title "ํ์ต ์์ ์ฑ ๋น๊ต"
x-axis "ํ๊ฒฝ ์คํ
(๋ฐฑ๋ง)" [0, 0.5, 1, 1.5, 2, 2.5, 3]
y-axis "IQM ๋ณด์" 0 --> 0.6
line "HEPi + TRPL" [0.05, 0.15, 0.25, 0.35, 0.42, 0.45, 0.48]
line "HEPi + PPO" [0.05, 0.12, 0.18, 0.22, 0.28, 0.30, 0.32]
TRPL์ด PPO๋ณด๋ค ๋ ์์ ์ ์ด๊ณ ๋์ ์ต์ข ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค. ํนํ ํฐ 3D ํ์ ๊ณต๊ฐ์์ ์ด ์ฐจ์ด๊ฐ ๋๋๋ฌ์ง๋๋ค.
์ด์ข ์ฑ vs ์ดํ ์
Transformer์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ด ์ด์ข ์ฑ์ ์๋ฌต์ ์ผ๋ก ํ์ตํ ์ ์์๊น์?
โโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโโโฌโโโโโโโโโโโโโโ
โ Model โ Heterogeneity โ Cloth Perf. โ
โโโโโโโโโโโโโโโผโโโโโโโโโโโโโโโโผโโโโโโโโโโโโโโค
โ GNN โ โ โ 0.15 โ
โ Transformer โ Implicit โ 0.20 โ
โ HeteroGNN โ Explicit โ 0.25 โ
โ EMPN โ โ โ 0.28 โ
โ HEPi โ Explicit โ 0.45 โ
โโโโโโโโโโโโโโโดโโโโโโโโโโโโโโโโดโโโโโโโโโโโโโโ
๊ฒฐ๋ก : ์ดํ ์ ๋ง์ผ๋ก๋ ๋ช ์์ ์ด์ข ์ฑ ๋ชจ๋ธ๋ง์ ๋์ฒดํ ์ ์์ต๋๋ค. HEPi๊ฐ ์ด์ข GNN๊ณผ EMPN ๋ชจ๋๋ฅผ ํฐ ํญ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค.
6. ๋นํ์ ๊ณ ์ฐฐ
6.1 ๊ฐ์
| ๊ฐ์ | ์ค๋ช |
|---|---|
| ์ด๋ก ์ ๊ธฐ๋ฐ | SE(3) ๋ฑ๋ณ์ฑ์ ๋ํ ์ํ์ ๋ณด์ฅ |
| ์ค์ฉ์ ์ค๊ณ | ๊ฒฝ๋ ์ํคํ ์ฒ๋ก on-policy RL์ ์ ํฉ |
| ์ข ํฉ์ ๋ฒค์น๋งํฌ | ๊ฐ์ฒด/๋ณํ์ฒด, ๋จ์ผ/๋ค์ค ์์ด์ ํธ ํฌ๊ด |
| ์ผ๋ฐํ ๋ฅ๋ ฅ | ๋ฏธ๊ด์ธก ํ์์ ๋ํ ์ฐ์ํ ์ ์ด |
| ์ฌํ ๊ฐ๋ฅ์ฑ | ์ฝ๋, ํ๊ฒฝ ๋ชจ๋ ๊ณต๊ฐ |
6.2 ์ฝ์ ๋ฐ ํ๊ณ
- ์๋ฎฌ๋ ์ด์
์ ์ฉ: ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ ์์
- Sim-to-real ์ ์ด์์ ๋ฑ๋ณ์ฑ์ด ์ด๋ป๊ฒ ์์ฉํ ์ง ๋ถํ์ค
- ์ผ์ ์
๋ ฅ ์ ํ: ์์ ํ ์ํ ์ ๋ณด ๊ฐ์
- ์ค์ ํ๊ฒฝ์์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋, RGB-D ๋ฑ ๋ถ๋ถ ๊ด์ธก์ด ์ผ๋ฐ์
- ๊ณ์ฐ ๋น์ฉ: ๊ตฌ๋ฉด ์กฐํ์ CG ํ
์ ๊ณฑ์ ๊ณ์ฐ ๋น์ฉ์ด ๋์
- ์ค์๊ฐ ์ ์ด์์์ latency ์ํฅ ๋ฏธ๋ถ์
- ํ์คํฌ ๋ฒ์:
- ์ ์ด์ด ํ๋ถํ(contact-rich) ์กฐ์ ๋ฏธ๊ฒ์ฆ
- ๋์ ํ๊ฒฝ(์์ง์ด๋ ์ฅ์ ๋ฌผ ๋ฑ) ๋ฏธ๊ณ ๋ ค
- ์ค์ผ์ผ๋ง:
- ๋ฌผ์ฒด ๋ ธ๋ ์๊ฐ ๋ง์์ง๋ฉด(๊ณ ํด์๋ ์ฒ ๋ฉ์ฌ ๋ฑ) ์ฑ๋ฅ ์ํฅ ๋ถ๋ช ํ
6.3 ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
mindmap
root((HEPi ํ์ฅ))
์ค์ธ๊ณ ์ ์ด
Sim-to-Real
๋๋ฉ์ธ ๋๋คํ
์์คํ
์๋ณ
์ธ์ ํตํฉ
Point Cloud ์
๋ ฅ
Vision Backbone
Neural Radiance Fields
ํจ์จ์ฑ ๊ฐ์
๊ฒฝ๋ ๋ฑ๋ณ ๋ ์ด์ด
์ง์ ์ฆ๋ฅ
์์ํ
ํ์คํฌ ํ์ฅ
์ ์ด ํ๋ถ ์กฐ์
๋๊ตฌ ์ฌ์ฉ
์ฅ๊ธฐ ๊ณํ
๊ตฌ์ฒด์ ์ ์
ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ HEPi
ํ์ฌ: ์์ ์ํ ์ ๋ณด โ ์ด์ข ๊ทธ๋ํ ์ ์: Point Cloud โ ๋ฑ๋ณ ์ธ์ฝ๋ โ ์ด์ข ๊ทธ๋ํ โ HEPi๊ณ์ธต์ ๋ฑ๋ณ ์ ์ฑ
- ๊ณ ์์ค: ์๋ธ๊ณจ ์์ฑ (๋๋ฆฐ ์ฃผ๊ธฐ)
- ์ ์์ค: HEPi ๊ธฐ๋ฐ ์ ์ด (๋น ๋ฅธ ์ฃผ๊ธฐ)
๋ฑ๋ณ World Model๊ณผ์ ํตํฉ
- EDGI (Equivariant Diffusion for Planning) ๊ฐ์ ๋ฑ๋ณ ์๋ ๋ชจ๋ธ ์ฌ์ฉ
- ๋ชจ๋ธ ๊ธฐ๋ฐ RL๋ก ์ํ ํจ์จ์ฑ ์ถ๊ฐ ํฅ์
7. ๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต
7.1 ๋ฑ๋ณ ๋ก๋ด ํ์ต ๊ณ๋ณด
timeline
title ๋ฑ๋ณ ๋ก๋ด ํ์ต์ ๋ฐ์
2018 : Tensor Field Networks
: ์ต์ด์ SE(3) ๋ฑ๋ณ GNN
2020 : SE(3)-Transformers
: ๋ฑ๋ณ ์ดํ
์
๋์
2021 : EGNN
: ๊ฒฝ๋ E(n) ๋ฑ๋ณ ์ค๊ณ
2022 : Equivariant RL for Manipulation
: ๋ก๋ด ์กฐ์์ ๋ฑ๋ณ RL ์ ์ฉ
2024 : EquiBot
: SIM(3) ๋ฑ๋ณ ํ์ฐ ์ ์ฑ
2025 : HEPi
: ์ด์ข
๋ฑ๋ณ ์ ์ฑ
7.2 ์ฃผ์ ๊ด๋ จ ์ฐ๊ตฌ ๋น๊ต
| ์ฐ๊ตฌ | ๋ฑ๋ณ ๊ตฐ | ์ด์ข ์ฑ | ํ์ต ํจ๋ฌ๋ค์ | ํ์คํฌ |
|---|---|---|---|---|
| SE(3)-Transformer | SE(3) | โ | Supervised | ๋ถ์ |
| EGNN | E(n) | โ | Supervised | N-body |
| EquiBot | SIM(3) | โ | ๋ชจ๋ฐฉ ํ์ต | ์กฐ์ |
| EquAct | SE(3) | โ | ๋ชจ๋ฐฉ ํ์ต | ํคํ๋ ์ |
| HEPi | SE(3) | โ | ๊ฐํ ํ์ต | ์กฐ์ |
7.3 EquiBot๊ณผ์ ์ฐจ์ด์
EquiBot์ SIM(3) ๋ฑ๋ณ ํ์ฐ ์ ์ฑ ์ ์ ์ํ์ต๋๋ค. ์ฃผ์ ์ฐจ์ด์ :
| ์ธก๋ฉด | EquiBot | HEPi |
|---|---|---|
| ๋ฑ๋ณ ๊ตฐ | SIM(3) (์ค์ผ์ผ ํฌํจ) | SE(3) |
| ์ ์ฑ ํ์ | ํ์ฐ ๊ธฐ๋ฐ | MLP ๊ธฐ๋ฐ |
| ํ์ต ๋ฐฉ์ | ๋ชจ๋ฐฉ ํ์ต | ๊ฐํ ํ์ต |
| ์ด์ข ์ฑ | โ | โ |
| ๋ณํ์ฒด | ์ ํ์ | ๋ช ์์ ์ง์ |
HEPi์ ์ฅ์ ์ ๊ฐํํ์ต๊ณผ์ ํธํ์ฑ์ ๋๋ค. ํ์ฐ ์ ์ฑ ์ ์ถ๋ก ์ ์ฌ๋ฌ ๋ฒ์ ๋๋ ธ์ด์ง ์คํ ์ด ํ์ํด์ on-policy RL์ ๋น ๋ฅธ rollout์ ์ ํฉํ์ง ์์ ์ ์์ต๋๋ค.
8. ์ค๋ฌด์๋ฅผ ์ํ ์์ฌ์
8.1 ์ธ์ HEPi๋ฅผ ๊ณ ๋ คํด์ผ ํ ๊น?
์ ํฉํ ๊ฒฝ์ฐ: - 3D ๊ณต๊ฐ์์์ ์กฐ์ ํ์คํฌ - ๋ค์ํ ๋ฌผ์ฒด ํ์์ ๋ํ ์ผ๋ฐํ ํ์ - ๋ณํ์ฒด(์ฒ, ๋กํ ๋ฑ) ์กฐ์ - ๋ค์ค ์ ํ์ ํ์คํฌ - ์ํ ํจ์จ์ฑ์ด ์ค์ํ ๊ฒฝ์ฐ
๋ถ์ ํฉํ ์ ์๋ ๊ฒฝ์ฐ: - 2D ํ์คํฌ (์ค๋ฒ์์ง๋์ด๋ง) - ์์ ํ ์ํ ์ ๋ณด ํ๋ ๋ถ๊ฐ - ์ค์๊ฐ ์ ์ง์ฐ ์ ์ด ํ์ - ํ์ต ๋ฐ์ดํฐ๊ฐ ํ๋ถํ ๊ฒฝ์ฐ (๋ฑ๋ณ์ฑ์ ์ด์ ๊ฐ์)
8.2 ๊ตฌํ ์ฒดํฌ๋ฆฌ์คํธ
โก NVIDIA IsaacLab ํ๊ฒฝ ์ค์
โก geometry_orbit ํจํค์ง ์ค์น
โก Docker ์ปจํ
์ด๋ ๋น๋
โก ํ์คํฌ๋ณ config ํ์ผ ์์
โก ๋ฌผ์ฒด ํ์ ์ ์
โก ๋ณด์ ํจ์ ์ค๊ณ
โก ์ด๊ธฐ/๋ชฉํ ๋ถํฌ ์ค์
โก HEPi ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋
โก EMPN ๋ ์ด์ด ์
โก ๊ตฌ๋ฉด ์กฐํ ์ต๋ ์ฐจ์ (l_max)
โก TRPL ์ ์ฝ ๊ฐ๋ (ฮด)
โก ํ์ต ๋ฐ ํ๊ฐ
โก ํ์ต ๊ณก์ ๋ชจ๋ํฐ๋ง
โก ์ผ๋ฐํ ํ
์คํธ9. ์์ฝ ๋ฐ ๊ฒฐ๋ก
9.1 ํต์ฌ ์์ฝ
Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects (HEPi)๋ ๋ก๋ด ์กฐ์ ๋ฌธ์ ์ ๋ ๊ฐ์ง ๊ทผ๋ณธ์ ํน์ฑ์ ๋์์ ํ์ฉํ๋ ํ์ ์ ์ธ ์ ์ฑ ์ํคํ ์ฒ์ ๋๋ค:
- ๊ธฐํํ์ ๋์นญ์ฑ: SE(3) ๋ฑ๋ณ ๋ฉ์์ง ํจ์ฑ์ผ๋ก ํ์ /๋ณ์ง ๋ถ๋ณ ํ์ต
- ์ญํ ์ ์ด์ข ์ฑ: ์ก์ถ์์ดํฐ์ ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถํ๋ ์ด์ข ๊ทธ๋ํ ๊ตฌ์กฐ
์ด ์กฐํฉ์ ํนํ ๋ณต์กํ 3D ํ์คํฌ์์ ์ํ ํจ์จ์ฑ, ์ต์ข ์ฑ๋ฅ, ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ชจ๋์์ ์ ์๋ฏธํ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค.
9.2 ํ ์ค ํ๊ฐ
โHEPi๋ ๊ธฐํํ์ ์ฌ์ ์ง์์ ์ ๊ฒฝ๋ง์ ํจ๊ณผ์ ์ผ๋ก ์ฃผ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ๋ก๋ด ์กฐ์ RL์ ์ํ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ์ํํ๋ ์ ๋งํ ๋ฐฉํฅ์ ์ ์ํ๋ค.โ
9.3 ICLR 2025 Oral์ ์๋ฏธ
ICLR 2025์์ Oral ๋ฐํ๋ก ์ ์ ๋ ๊ฒ์ ์ด ์ฐ๊ตฌ์ ํ์ ์ ๊ธฐ์ฌ๋๋ฅผ ์ฆ๋ช ํฉ๋๋ค. ํนํ:
- ์๋ก์ด ๋ฒค์น๋งํฌ ์ ๊ณต: ๊ธฐํํ ์ธ์ RL ์ฐ๊ตฌ์ ํ์ค ํ๊ฐ ํ๋ซํผ
- ์ด๋ก ๊ณผ ์คํ์ ์กฐํ: ๋ฑ๋ณ์ฑ์ ์ํ์ ๋ณด์ฅ๊ณผ ์ค์ฆ์ ๊ฒ์ฆ
- ์ค์ฉ์ ์ํคํ ์ฒ ์ค๊ณ: on-policy RL์ ์ ํฉํ ๊ฒฝ๋ ๊ตฌ์กฐ
์ฃผ์ ๊ด๋ จ ๋ ผ๋ฌธ๋ค:
- Brandstetter et al. (2022). Geometric and Physical Quantities Improve E(3) Equivariant Message Passing. ICLR.
- Satorras et al. (2021). E(n) Equivariant Graph Neural Networks. ICML.
- Fuchs et al. (2020). SE(3)-Transformers: 3D Roto-Translation Equivariant Attention Networks. NeurIPS.
- Yang et al. (2024). EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning. CoRL.
- Schulman et al. (2015). Trust Region Policy Optimization. ICML.
- Otto & Singh (2022). Trust Region-based Safe Policy Optimization.
โ๏ธ Dig Review
โ๏ธ Dig โ Go deep, uncover the layers. Dive into technical detail.
์๋ก : ๋ฌธ์ ์ ์ ๋ฐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
๋ก๋ด์ด ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ ๋ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฝ์ ์์ ์์๋ ๋ฌผ์ฒด์ ๋ชจ์๊ณผ ๋ฐฉํฅ์ ๋ง๊ฒ ์ ํํ ์ ๋ ฌํด์ผ ํ์ฃ . ๋ฌผ์ฒด์ ํํ๊ฐ ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ ํ์ํ ์ ๋ ฌ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง๋ฏ๋ก, ๋ก๋ด์ ๋ฌผ์ฒด๋ง๋ค ๊ณ ์ ํ ๊ธฐํํ์ ๋ง์ถค์ ํ์ตํด์ผ ํฉ๋๋ค. ํํธ, ๋ณํ์ฒด(์: ์ฒ์ด๋ ๋ฐง์ค)๋ฅผ ๋ค๋ฃจ๋ ์์ ์ ์๊ฐ์ด ์ง๋๋ฉด์ ๋ฌผ์ฒด์ ํํ ์์ฒด๊ฐ ๊ณ์ ๋ณํ๋๊ธฐ ๋๋ฌธ์ ๋์ ๊ฐ ๋ฉ๋๋ค. ์ฒ์ ๊ฑธ๊ฑฐ๋ ๋ฐง์ค์ ๋ฌถ๋ ์ผ์ ํํ ๋ณํ์ ๋ฐ๋ฅธ ๋ณต์กํ ๋์ญํ ๋ชจ๋ธ๋ง๊ณผ ์ ๋ฐ ์ ์ด๊ฐ ์๊ตฌ๋์ง์.
์ด๋ฌํ ๋ค์ํ ํ์(rigid shapes) ๋ฐ ๋ณํ์ฒด(deformable objects)๋ฅผ ๋ค๋ฃจ๋ ๋ก๋ด ์กฐ์ ๋ฌธ์ ๋ ํ์ฌ ๋ก๋ด๊ณตํ์์ ํฌ๊ฒ ์ฃผ๋ชฉ๋ฐ๋ ๋์ ๊ณผ์ ์ ๋๋ค. ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์์๋ ์ฃผ๋ก ๊ฐ ์ํฉ์ ํนํ๋ ๊ธฐ๋ฒ์ด๋ ์๋ฒ ํ์ต์ ์์กดํ๊ณค ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌผ์ฒด ์ฝ์ ๋ฌธ์ ๋ ๋ฌผ์ฒด๋ณ ๋ง์ถค ํผ์ฒ๋ฅผ ์ฐ๊ฑฐ๋, ์ฒ์ด๋ ๋ฐง์ค ์์ ์ ์ฌ๋ ์๋ฒ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋ชจ๋ฐฉ ํ์ต์ ์์กดํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ ํต์ฌ ์ง๋ฌธ์: ๊ณผ์ฐ ํ๋์ ํ์ต๋ ์ ์ฑ ์ด ์ฌ๋ฌ ๊ฐ์ง ๋ชจ์์ ๋ฌผ์ฒด๋ ๋ณํ์ฒด๊น์ง ํฌ๊ดํ์ฌ, ์ฒ์๋ถํฐ ๊ฐํํ์ต(RL)์ผ๋ก ๋ฐฐ์ฐ๊ฒ ํ ์ ์์๊น? ์ ๋๋ค.
๊ทธ๋ํ ํํ์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํ๊ธฐ ์ํ ์์ฐ์ค๋ฌ์ด ๋ฐ์์ ๋๋ค. ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ๊ด๊ณ๋ฅผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด, ๋ฌผ์ฒด์ ๊ฐ ๋ถ๋ถ์ด๋ ๋ณํ์ฒด์ ๊ตฌ์ฑ ์์๋ค์ ๋ ธ๋(node)๋ก ๋ณด๊ณ , ๋ ธ๋๋ค ์ฌ์ด์ ๋ฌผ๋ฆฌ์ /๊ธฐํํ์ ๊ด๊ณ๋ฅผ ์ฃ์ง(edge)๋ก ํํํ ์ ์์ต๋๋ค. ์ค์ ๋ก ๋ก๋ด ํ์ต ๋ถ์ผ์์ ๊ทธ๋ํ ๊ตฌ์กฐ๋ ๋๋ฆฌ ์ฐ์ด๊ณ ์์ผ๋ฉฐ, ๋ฌผ์ฒด ์กฐ์์ ๊ทธ๋ํ๋ก ๋ชจ๋ธ๋งํ๋ฉด ๊ตฌ์กฐ์ ์ธ ๊ท๋ฉ_bias๋ฅผ ์ค ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ ์ฐ๊ตฌ์์๋ ๋ก๋ด์ ์ฌ๋ฌ ๊ด์ ๊ณผ ๋ฌผ์ฒด ๊ฐ ๊ด๊ณ๋ฅผ ๊ทธ๋ํ๋ก ํํํ์ฌ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ฌ๋ก๊ฐ ์์ง์ (Wang et al., 2018 ๋ฑ). ๊ทธ๋ฌ๋ ์ด ๋ ผ๋ฌธ์์๋ ํ ๊ฑธ์ ๋ ๋์๊ฐ, ์ด์ข (heterogeneous) ๊ทธ๋ํ๋ก ๋ก๋ด์ ์ก์ถ์์ดํฐ(end-effector ๊ฐ์ ๊ตฌ๋ ์ฅ์น)์ ๋ฌผ์ฒด์ ๊ตฌ์ฑ ์์๋ค์ ๋ช ์์ ์ผ๋ก ๊ตฌ๋ถํ์ฌ ํํํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ก๋ด๊ณผ ๋ฌผ์ฒด๊ฐ ๋งก๋ ์ญํ ์ ์ฐจ์ด๋ฅผ ๊ตฌ์กฐ์ ๋ น์ฌ๋ผ ์ ์์ต๋๋ค.
ํ์ง๋ง ๊ทธ๋ํ ๋ ธ๋๋ก ๋ฌผ์ฒด์ ๋ชจ๋ ๊ตฌ์ฑ ์ ๋ค์ ํํํ๋ฉด ์ํ ์ฐจ์์ด ๋งค์ฐ ์ปค์ง๊ณ , 3์ฐจ์ ๊ณต๊ฐ์์ ์ด๊ธฐ/๋ชฉํ ์์น๊ฐ ๋ค์ํ๊ฒ ์ฃผ์ด์ง๋ฉด ํ์ ๊ณต๊ฐ์ด ๊ธ๊ฒฉํ ์ปค์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์ SE(3) ๊ธฐํํ์ ๋์นญ์ฑ(3์ฐจ์ ํ์ ๊ณผ ํํ์ด๋์ ๊ตฐ)์ ์ด์ฉํ ๋ฑ๋ณ(equivariant) ์ ๊ฒฝ๋ง์ ๋์ ํฉ๋๋ค. ๊ฐ๋จํ ๋งํด, ์ ์ฑ ์ ๊ฒฝ๋ง์ด ํ๊ฒฝ์ ํ์ ์ด๋ ์ด๋์ ๋ฐ๋ผ ์์ํ๊ฒ ์ถ๋ ฅ๋ ๋ณํ๋๋ก ์ ์ฝ์ ๊ฑฐ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ ์ฑ f๊ฐ ์ํ s๋ฅผ ๋ฐ์ ํ๋ a๋ฅผ ๋ด๋๋ ํจ์๋ผ๊ณ ํ๋ฉด, SE(3) ๋ฑ๋ณ์ฑ์ด๋ ์์์ ๊ณต๊ฐ ๋ณํ g์ ๋ํด f(g \cdot s) = g \cdot f(s)๋ฅผ ๋ง์กฑํจ์ ๋ปํฉ๋๋ค. ์ฆ ๋ก๋ด ์ํ s๋ฅผ 30๋ ํ์ ์ํจ ์ ๋ ฅ์ ๋ํด ์ ์ฑ ์ด ๋ด๋๋ ์ถ๋ ฅ ํ๋๋ ๋๊ฐ์ด 30๋ ํ์ ๋ ํํ๋ก ๋์ค๋ ๊ฒ์ด์ฃ . ์ด๋ ๊ฒ ํ๋ฉด ๋์ผํ ํจํด์ ์กฐ์์ ๊ตณ์ด ๋งค๋ฒ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋ค์ ํ์ตํ ํ์ ์์ด, ํ ๋ฒ์ ํ์ต์ผ๋ก ์ฌ๋ฌ ๋ฐฉํฅ์ ์ผ๋ฐํํ ์ ์์ต๋๋ค. ์ด๋ ํ๋ณธ ํจ์จ(sample efficiency)์ ๋์ด๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ์ ๋๋ค. ์ต๊ทผ์๋ SE(3) ๋ฑ๋ณ์ฑ์ ํ์ฉํ ๋ก๋ด ํ์ต ์ฐ๊ตฌ๊ฐ ๋ค์ ๋์ค๊ณ ์๋๋ฐ, ๋๋ถ๋ถ์ ๋ชจ๋ฐฉํ์ต ๋ฑ ๋น๊ฐํํ์ต ๋งฅ๋ฝ์ด๊ฑฐ๋, ๋จ์ผํ ๋ฌผ์ฒด ์ข ๋ฅ์ ์ด์ ์ ๋ง์ถ๊ณ ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต ํ๊ฒฝ์์, ๊ทธ๊ฒ๋ ๋ค์ํ ๋ฌผ์ฒด ํํ์ ๋ณํ์ฒด๊น์ง ์์ฐ๋ฅด๋ ๊ณผ์ ์ ๋ฑ๋ณ์ฑ์ ์ ์ฉํ๋ค๋ ์ ์์ ์์๊ฐ ํฝ๋๋ค.
์ ๋ฆฌํ๋ฉด, ์ด ์ฐ๊ตฌ์ ํต์ฌ ์์ด๋์ด๋ โ๋ก๋ด ์กฐ์์ ์ด์ข ๊ทธ๋ํ๋ก ํํํ๊ณ , SE(3) ๋์นญ์ฑ์ ํ์ฉํ ๋ฑ๋ณ ๊ทธ๋ํ ์ ๊ฒฝ๋ง ์ ์ฑ (HEPi)์ ์ ์ฉํ์ฌ ๋ค์ํ ํ์/๋ณํ์ฒด ์กฐ์ ๋ฌธ์ ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ต์ํค์โ๋ ๊ฒ์ ๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ์ํด ์๋ก์ด RL ๋ฒค์น๋งํฌ ๊ณผ์ ๋ค๋ ์ค๊ณํ๋๋ฐ, ์ฌ๊ธฐ์๋ ์๋ก ๋ค๋ฅธ ๋ชจ์์ ๋ฌผ์ฒด ๋ผ์ฐ๊ธฐ(์ฝ์ ), ๋ฐง์ค ํ๊ฐ๊ธฐ์ ๋ชจ์ ๋ง๋ค๊ธฐ, ์ฒ ๊ฑธ๊ธฐ ๋ฑ ๋์ด๋ ๋์ ์์ ๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค. ์ด ๋ชจ๋ ์์ ์์ ์ด๊ธฐ ์ํ์ ๋ชฉํ๊ฐ 3์ฐจ์ ๊ณต๊ฐ์์ ๋ฌด์์๋ก ์ฃผ์ด์ง๋ฏ๋ก, ์ ์ฑ ์ด ์ด๋ค ๋ฐฉํฅ์ด๋ ์ด๋ค ํํ์ ์ํฉ์ด ์๋ ์ ์ฒ๋ฆฌํ๋๋ก ํ์ต๋์ด์ผ ํฉ๋๋ค. ์ด๋ฌํ ๊น๋ค๋ก์ด ์กฐ๊ฑด ์์์๋ ์ ์๋ ์ด์ข ๋ฑ๋ณ ์ ์ฑ HEPi๋ Transformer ๊ธฐ๋ฐ ์ ์ฑ ์ด๋ ์ผ๋ฐ์ ์ธ ๋ฑ๋ณ GNN ์ ์ฑ ๋ณด๋ค ๋น ๋ฅด๊ฒ ํ์ตํ๊ณ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ํนํ ์ํ ํจ์จ์ฑ๊ณผ ๋ฏธ๊ฒฌ๋ณธ ๊ฐ์ฒด(unseen object)์ ๋ํ ์ผ๋ฐํ ๋ฉด์์ ํฐ ์ฐ์๋ฅผ ๋ณด์์ต๋๋ค. ๋ค์ ์น์ ์์๋ ์ ์๋ ๋ชจ๋ธ๊ณผ ์๊ณ ๋ฆฌ์ฆ (HEPi)์ ๊ตฌ์กฐ๋ฅผ ์์ธํ ์ดํด๋ณด๊ณ , ์ดํ ์คํ ๊ฒฐ๊ณผ์ ํจ๊ป ๊ทธ ์๋ฏธ๋ฅผ ๋ถ์ํ๊ฒ ์ต๋๋ค.
๋ฐฉ๋ฒ: ๊ธฐํํ ์ธ์ง ์๋ฒ ๋ฉ๊ณผ HEPi ๊ตฌ์กฐ ๋ถ์
์ด์ข ๊ทธ๋ํ๋ฅผ ํตํ ์ํ ํํ
์ด ๋ ผ๋ฌธ์์๋ ๋ก๋ด ๋ฐ ๋ฌผ์ฒด์ ๋ฌผ๋ฆฌ ์ํ๋ฅผ ์ด์ข ๊ทธ๋ํ(heterogeneous graph)๋ก ํํํฉ๋๋ค. ๋ ธ๋๋ ํฌ๊ฒ ๋ ์ข ๋ฅ๋ก ๊ตฌ๋ถ๋๋๋ฐ, ๋ก๋ด ์ก์ถ์์ดํฐ ๋ ธ๋์ ๋ฌผ์ฒด ๊ตฌ์ฑ ๋ ธ๋์ ๋๋ค. ์ก์ถ์์ดํฐ ๋ ธ๋๋ ๋ก๋ด์ ๋ง๋จ_effector๋ ์ง๊ฒ์ ๊ฐ์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์์๋ฅผ ๋ํ๋ด๋ฉฐ, ๋ฌผ์ฒด ๋ ธ๋๋ ์กฐ์ ๋์ ๋ฌผ์ฒด์ ์์น๋ ํํ๋ฅผ ๋ํ๋ด๋ ์ ๋ค์ ๋๋ค. ์ด์ง์ ์ธ ๋ ์ข ๋ฅ์ ๋ ธ๋๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, ๊ทธ๋ํ ์์ฒด์ โ์ด ๋ ธ๋๋ ๋ก๋ด, ์ด ๋ ธ๋๋ ๋ฌผ์ฒดโ๋ผ๋ ์ญํ ์ ๋ณด๊ฐ ๋ฐ์๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ Cloth-Hanging (์ฒ ๊ฑธ๊ธฐ) ์์ ์ ๊ทธ๋ํ๋ก ๋ชจ๋ธ๋งํ ์์์ ๋๋ค. ํ๋์ ๋ ธ๋๋ค์ ์ฒ ์กฐ๊ฐ์ ๋ํ ์ง์ ๋ค์ด๊ณ , ๋นจ๊ฐ์ ๋ ธ๋๋ค์ ์ฒ ๋ชจ์๋ฆฌ๋ฅผ ์ฅ ๋ก๋ด ํ (์ก์ถ์์ดํฐ)๋ค์ ๋๋ค. ๋นจ๊ฐ ๋ ธ๋๋ผ๋ฆฌ, ํ๋ ๋ ธ๋๋ผ๋ฆฌ๋ ํด๋ฌ์คํฐ ๋ด๋ถ ์ฃ์ง(๊ฒ์ ์ค์ )๋ก ์ฐ๊ฒฐ๋์ด ๊ฐ๊ฐ ๋ก๋ด๋ค ๊ฐ, ๋ฌผ์ฒด ์ง์ ๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๊ณ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด์ข ๊ฐ์ ์ฃ์ง(์ ์ )๋ ๋ชจ๋ ๋ฌผ์ฒด ๋ ธ๋์ ๋ชจ๋ ์ก์ถ์์ดํฐ ๋ ธ๋ ์ฌ์ด์ ์ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ฒฐ๋์ด, ๋ก๋ด์ด ๋ฌผ์ฒด์ ๋ชจ๋ ๋ถ๋ถ ์ ๋ณด๋ฅผ ์ ๋ฌ๋ฐ์ ์ ์๊ฒ ํฉ๋๋ค (์ฆ fully-connected inter-edge ๊ตฌ์กฐ). ์ด๋ฌํ ๊ทธ๋ํ ํํ์ ๋จ์ผ ํ๋ ์์์์ ์ํ๋ฟ ์๋๋ผ, ์๊ฐ์ ๋ฐ๋ฅธ ์ํธ์์ฉ๋ ๋ดํฌํฉ๋๋ค. ์์ปจ๋ ํ ๋ก๋ด ํ์ด ์ฒ์ ํ ์ง์ ์ ์ก๊ณ ์์ง์ด๋ฉด, ๊ทธ๋ํ ๋ด ํด๋น ๋นจ๊ฐ ๋ ธ๋์ ํ๋ ๋ ธ๋ ์ฌ์ด์ ์ํธ์์ฉ ์ฃ์ง๋ฅผ ํตํด ํ ์ ๋ฌ ๋ฐ ์์น ๋ณํ ์ ๋ณด๊ฐ ํ๋ฅด๊ฒ ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ํ ๋ ธ๋์ ํผ์ฒ(feature)๋ก๋ ๊ธฐํํ์ ์ํ ๋ฒกํฐ๋ค์ด ์ฌ์ฉ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ๋ ธ๋๋ ์์ ์ 3์ฐจ์ ์์น ์ขํ p (๋๋ ์์ธ orientation)์ ํฌํจํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฐ์ง๋๋ค. ๋ํ ์๋ฎฌ๋ ์ด์ ์์์ ์ป์ ์ ์๋ ์๋ ๋ฒกํฐ๋ ๊ฐ์๋ ๋ฑ์ ๋์ ์ ๋ณด๋ ๋ ธ๋ ํผ์ฒ๋ก ํฌํจ๋ ์ ์์ต๋๋ค. ํ๊ฒฝ์ ๋ฐ๋ผ์๋ ๋ชฉํ์์ ๊ฑฐ๋ฆฌ๋ ์ด๊ธฐ ํ์ ๋๋น ๋ณํ๋ ๊ฐ์ ๋ถ๊ฐ ์ ๋ณด๋ ๊ฐ ๋ ธ๋์ ํผ์ฒ๋ก ์ ๊ณต๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐง์ค์ ํน์ ๋ชจ์์ผ๋ก ํํ ๋ง์ถ๋ ์์ (rope shaping)์์๋ ํ์ฌ ๋ฐง์ค์ ๋ชจ์๊ณผ ๋ชฉํ ๋ชจ์์ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ shape descriptor๋ฅผ ๊ณ์ฐํ์ฌ, ๊ทธ์ค ๊ฐ ๋ ธ๋(๋ฐง์ค ์ธ๊ทธ๋จผํธ)์ ๊ด๋ จ๋ ๋ถ๋ถ์ ํผ์ฒ๋ก ์ฃผ์์ต๋๋ค. ์ฒ ๊ฑธ๊ธฐ ์์ ์์๋ ์ฒ์ ๋ซ๋ฆฐ ๊ตฌ๋ฉ ์ฃผ๋ณ์ ๋ ธ๋๋ค์ด ์ท๊ฑธ์ด ๋ง๋๊น์ง์ ๊ฑฐ๋ฆฌ๋ ์ด๊ธฐ ๊ตฌ๋ฉ ์์น ๋๋น ๋ณ์ ๋ฑ์ ์์ฑ์ผ๋ก ๊ฐ์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ์ ์๋ค์ด ๋ชฉํ๋ฌผ ์์ฒด๋ฅผ ๋ณ๋์ ๋ ธ๋๋ก ์ทจ๊ธํ์ง ์๊ณ ์ด๋ฐ ์์ผ๋ก ๋ ธ๋๋ค์ ํผ์ฒ๋ก ๋ชฉํ ์ ๋ณด๋ฅผ ํก์ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ทธ๋ํ์ ๋ถํ์ํ ๋ ธ๋ ์ข ๋ฅ๋ฅผ ๋๋ฆฌ์ง ์์ผ๋ฉด์๋, ๊ฐ ๊ตฌ์ฑ ๋ ธ๋๊ฐ ๋ชฉํ์์ ์๋์ ๊ด๊ณ๋ฅผ ์ ์ ์๋๋ก ํ๋ ์ค๊ณ์ฃ .
์ด ๊ทธ๋ํ ๊ตฌ์กฐ์ ์ฅ์ ์ ํํ์ ํต์ผ์ฑ์ ๋๋ค. ๋จ๋จํ(rigid) ๋ฌผ์ฒด๋ ๋ฐง์ค/์ฒ ๊ฐ์ ๋ณํ์ฒด ๋ชจ๋ ๋์ผํ ๊ทธ๋ํ ํ๋ ์์ํฌ๋ก ๋ค๋ฃฐ ์ ์์ต๋๋ค. ๋จ๋จํ ๋ฌผ์ฒด๋ผ๋ฉด ๋ ธ๋ ๊ฐ ๊ณ ์ ๋ ๊ธฐํํ์ ๊ด๊ณ(์: ๋ฌผ์ฒด ํ๋ฉด์ ์ ๋ค ์ฌ์ด ๊ฑฐ๋ฆฌ ์ผ์ ๋ฑ)๊ฐ ์์ ํ ๊ณ , ๋ณํ์ฒด๋ผ๋ฉด ๋ ธ๋ ๊ฐ ์์๊ฐ๊ฐ ๋ณํ๋ ๊ด๊ณ(์: ์ธ์ ํ ์ฒ ์ ์ ๊ฐ ๊ฑฐ๋ฆฌ)๋ ์กด์ฌํ ๊ฒ๋๋ค. ์ด๋ฌํ ๊ด๊ณ๋ค ์ญ์ ๊ทธ๋ํ์ ๋ด๋ถ ์ฃ์ง๋ก ํํ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฐง์ค์ 80๊ฐ์ ์งง์ ๋งํฌ๋ก ๋ชจ๋ธ๋งํ๋ค๋ฉด ์ธ์ ๋งํฌ๋ค ์ฌ์ด์ ์ฐ์์ฑ ๊ด๊ณ ์ฃ์ง๋ฅผ ๋ฃ์ ์ ์๊ณ , ์ฒ์ ๋ฉ์ฌ ํํ๋ก ์ ์๋ค์ด ์ฐ๊ฒฐ๋์ด ์์ผ๋ฏ๋ก ์ธ์ ์ ์๋ค ์ฌ์ด์ ์คํ๋ง ํ์ ๋ํ๋ด๋ ์ฃ์ง๋ฅผ ๋ ์ ์์ต๋๋ค. ์ค์ ์๋ฎฌ๋ ์ดํฐ(IsaacGym)์ ๋ฌผ๋ฆฌ ์์ง์ ์ด๋ฌํ ์ง์ -์คํ๋ง ๋ชจ๋ธ๋ก ๋ฐง์ค๊ณผ ์ฒ์ ๊ณ์ฐํ๋ฉฐ, ํ์ต์ ์ฌ์ฉํ๋ ๊ทธ๋ํ๋ ๊ทธ์ ๋์ผํ๊ฒ ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ฐ๋ผ์ ๊ทธ๋ํ ์์์ ๋ ธ๋-์ด์ ๊ฐ ๋ฉ์์ง ์ ๋ฌ๋ก ํ์ด๋ ์์น ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ๋ ๊ฒ์ ๊ณง ์ค์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ ์์ ์ํธ์์ฉ๋ฅผ ๊ทผ์ฌํ๊ฒ ๋ฉ๋๋ค.
์ ๋ฆฌํ๋ฉด, ์ด์ข ๊ทธ๋ํ ์ํ ํํ์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ํน์ง์ ๊ฐ์ต๋๋ค:
- ๋ ธ๋ ์ข ๋ฅ: ์ก์ถ์์ดํฐ(๋ก๋ด) ๋ ธ๋ vs. ๋ฌผ์ฒด(๋์) ๋ ธ๋ ๋ ๊ฐ์ง๋ก ๊ตฌ๋ถ. ๊ฐ ๋ ธ๋๋ ์๊ธฐ ํ์ ์ ๋ํ๋ด๋ ์๋ณ์์ ํจ๊ป ์์น, ์๋ ๋ฑ ์ํ ํผ์ฒ๋ฅผ ๊ฐ์ง.
- ์ฃ์ง ์ข ๋ฅ:
- ํด๋ฌ์คํฐ ๋ด๋ถ ์ฃ์ง (intra-edge): ๊ฐ์ ์ข ๋ฅ ๋ ธ๋๋ค๋ผ๋ฆฌ ์ฐ๊ฒฐ. ๋ก๋ด ๋ ธ๋๋ค ๊ฐ ์ฃ์ง๋ ๋ค์ ๋ก๋ด์ด ์์ ๋ ์ํธ ํ์กฐ ๊ด๊ณ ํ์ ์ ์ฌ์ฉ๋๊ณ , ๋ฌผ์ฒด ๋ ธ๋๋ค ๊ฐ ์ฃ์ง๋ ๋ฌผ์ฒด์ ๋ถ๋ถ๋ค ๊ฐ ๊ธฐํํ์ ๊ตฌ์กฐ(์ธ์ ์ฑ, ์ฐ์ฑ็ญ)๋ฅผ ๋ฐ์.
- ํด๋ฌ์คํฐ ๊ฐ ์ฃ์ง (inter-edge): ์ด์ข ๋ ธ๋ ์ฌ์ด๋ฅผ ์ ๋ฐฉํฅ ์์ ์ฐ๊ฒฐ๋ก ์๋ ์ฃ์ง๋ค. ๋ชจ๋ ๋ฌผ์ฒด ๋ ธ๋์ ์ ๋ณด๊ฐ ๋ชจ๋ ์ก์ถ์์ดํฐ๋ก ์ ๋ฌ๋ ์ ์๋ ํต๋ก๋ก์, ๊ฐ์ฒด-๋ก๋ด ์ํธ์์ฉ์ ๋ด๋น. ๋ ผ๋ฌธ์์๋ โ์ ๋ณด๋ ๋ฌผ์ฒด์์ ๋ก๋ด์ผ๋ก ์ง๊ณ๋๋คโ๋ผ๊ณ ํํํ์ฌ, ์ฃผ๋ก ๋ฌผ์ฒดโ๋ก๋ด ๋ฐฉํฅ์ ๋ฉ์์ง ํ๋ฆ์ ๊ฐ์กฐํ์ต๋๋ค. (ํ์์ ๋ฐ๋ผ ๋ก๋ดโ๋ฌผ์ฒด ํผ๋๋ฐฑ๋ ๊ฐ๋ฅํ๋, ์ ์ฑ ๊ฒฐ์ ๋ฉด์์ ํต์ฌ์ ๋ก๋ด์ด ๋ฌผ์ฒด ์ ๋ณด๋ฅผ ์ป๋ ๊ฒ์ ๋๋ค.)
์ด๋ ๊ฒ ํ์ฑ๋ ๊ทธ๋ํ๋ ์ผ์ข ์ ๋์ญํ ๊ณ์ ๊ตฌ์กฐํ๋ ํํ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ด์ ์ด ๊ทธ๋ํ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํ๋ ์ถ๋ ฅ์ ๋ด๋๋ ์ ์ฑ ๋คํธ์ํฌ๊ฐ ํ์ํฉ๋๋ค. ์ฌ๊ธฐ์ ์ ์๋๋ ๊ฒ์ด ๋ฐ๋ก ์ด์ข ๋ฑ๋ณ ์ ์ฑ (HEPi) ๋ชจ๋ธ์ ๋๋ค.
SE(3) ๋ฑ๋ณ ๋ฉ์์ง ์ ๋ฌ ์ ๊ฒฝ๋ง (EMPN)
HEPi์ ๊ทผ๊ฐ์ด ๋๋ ์ ๊ฒฝ๋ง์ SE(3) ๋ฑ๋ณ(equivariant) ์ฑ์ง์ ์ง๋ ๋ฉ์์ง ์ ๋ฌ ๊ทธ๋ํ ์ ๊ฒฝ๋ง์ ๋๋ค. ๋ฑ๋ณ์ฑ์ด๋ ์์ ์ธ๊ธํ๋ฏ์ด, ์ ๋ ฅ ๊ทธ๋ํ๋ฅผ ์ด๋ค ๊ณต๊ฐ ๋ณํ(ํ์ ๋๋ ์ด๋)ํ์ ๋ ์ถ๋ ฅ๋ ๋๊ฐ์ด ๋ณํ๋๋ ์ฑ์ง์ ๋๋ค. ์ด๋ฅผ ์ ์ฑ ํจ์๋ก ๊ฐ๋ ์ ์ผ๋ก ํํํ๋ฉด: \pi(g \cdot s) = g \cdot \pi(s) ๋ชจ๋ SE(3) ๋ณํ g์ ์ํ s์ ๋ํด ์ฑ๋ฆฝํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ฌ๊ธฐ์ g \cdot s๋ ์ํ s์ ๋ชจ๋ ์ขํ์ ๋ณํ g (์์ปจ๋ 30๋ ํ์ )์ ์ ์ฉํ ์ํ์ด๊ณ , g \cdot \pi(s)๋ ์ ์ฑ ์ด ๋ธ ํ๋์ ์ขํ์ ๋์ผํ ๋ณํ g๋ฅผ ์ ์ฉํ ๊ฒ์ ๋๋ค. ๋ฑ๋ณ ์ ์ฑ ์ ํ๊ฒฝ์ ๋์นญ์ฑ(symmetry)์ ์ด์ฉํด ํ์ต ํจ์จ์ ๋์ด๋๋ฐ, ์ ๊ทธ๋ฐ์ง ๊ฐ๋จํ ์๋ก ์ค๋ช ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ก๋ด์ด ์ ์ก๋ฉด์ฒด ๋ธ๋ก์ ๋ผ์ฐ๋ ์์ ์ ํ์ตํ๋ค๊ณ ํฉ์๋ค. ํ๊ฒฝ์ ๋์นญ์ฑ์ ๊ณ ๋ คํ์ง ์๋ ์ผ๋ฐ ์ ๊ฒฝ๋ง์, ๋ธ๋ก์ด 0๋์ธ ๊ฒฝ์ฐ, 90๋ ํ์ ๋ ๊ฒฝ์ฐ, 45๋์ธ ๊ฒฝ์ฐ ๋ฑ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ฐ๋๋ก ๋์ธ ์ํฉ๋ค์ ์ผ์ผ์ด ๋ณ๊ฐ๋ก ๋ณด๋ฉฐ ํ์ตํด์ผ ํ ๊ฒ์ ๋๋ค. ํ์ง๋ง ํ์ ๋ฑ๋ณ์ฑ์ ์ง๋ ์ ๊ฒฝ๋ง์ ๋ธ๋ก์ด 90๋ ๋์๊ฐ ์์ด๋ ์ด๋ฅผ 0๋์ ๊ฒฝ์ฐ์ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์ ์ํฉ์ผ๋ก ์ธ์ํ๊ณ , ์์ธกํ ํ๋๋ 90๋ ํ์ ๋ ๊ฒฐ๊ณผ๋ก ์๋ ์กฐ์ ํฉ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ํ๋์ ๋ฐฉํฅ์์ ์ต๋ํ ์ฝ์ ์คํฌ์ ๋ชจ๋ ๋ฐฉํฅ์ผ๋ก ์ฆ๊ฐ ์ผ๋ฐํํ ์ ์์ผ๋ฉฐ, ๋ถํ์ํ ์ค๋ณต ํ์ต์ด ์ค์ด๋ญ๋๋ค. ๋ ผ๋ฌธ ์ ์๋ค๋ ์ด๋ฌํ ๋์นญ์ฑ ํ์ฉ์ผ๋ก ํ์ ๊ณต๊ฐ ๋ณต์ก๋๋ฅผ ํฌ๊ฒ ์ค์๋ค๊ณ ๊ฐ์กฐํฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด ๊ทธ๋ํ ์ ๊ฒฝ๋ง์์ SE(3) ๋ฑ๋ณ์ฑ์ ์ด๋ป๊ฒ ๊ตฌํํ ๊น์? ์ด๋ฅผ ์ํด ์ ์๋ค์ ๊ธฐ์กด ์ฐ๊ตฌ์ธ PONITA ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฑ๋ณ ๋ฉ์์ง ์ ๋ฌ ๋คํธ์ํฌ(Equivariant MPN)๋ฅผ ์ค๊ณํ์ต๋๋ค. ์ผ๋ฐ์ ์ธ ๋ฉ์์ง ์ ๋ฌ ์ ๊ฒฝ๋ง(MPNN)์์๋ ๊ฐ ๋ ธ๋๊ฐ ์ด์ ๋ ธ๋๋ค์ ํผ์ฒ๋ฅผ ๋ฐ์๋ค์ฌ ์์ ์ ์๋ ์ํ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค. ํ ๋ ธ๋ v์ ์ํ ์ ๋ฐ์ดํธ๋ ๋ณดํต ๋ค์๊ณผ ๊ฐ์ด ์์์ผ๋ก ํํํ ์ ์์ต๋๋ค:
h_{v}^{(k + 1)} = \phi\left( \mspace{6mu} h_{v}^{(k)},\mspace{6mu}\mspace{6mu}\bigoplus_{u \in N(v)}\psi\left( h_{v}^{(k)},\mspace{6mu} h_{u}^{(k)},\mspace{6mu} e_{uv} \right)\mspace{6mu} \right),
์ฌ๊ธฐ์ h^{(k)}*v๋ ๋ ธ๋ v์ k๋ฒ์งธ ๊ณ์ธต(layer) ๋๋ ๋ฉ์์ง ์ ๋ฌ ์คํ ์์์ ํผ์ฒ ๋ฒกํฐ, N(v)๋ v์ ์ด์ ๋ ธ๋ ์งํฉ, ๊ทธ๋ฆฌ๊ณ e*๋ ์ฃ์ง (u,v)์ ํน์ฑ(์๋ค๋ฉด)์ ๋๋ค. ํจ์ \psi๋ ์ด์ u๋ก๋ถํฐ ์ค๋ ๋ฉ์์ง๋ฅผ ๊ณ์ฐํ๋ ์ญํ , \phi๋ v ๋ ธ๋์ ํ์ฌ ์ํ์ ์ด์์ผ๋ก๋ถํฐ ์จ ๋ฉ์์ง๋ค์ ํตํฉ(aggregate)ํ์ฌ ์๋ก์ด ์ํ๋ฅผ ๋ด๋ ์ญํ ์ ํฉ๋๋ค. \bigoplus๋ ์ด์ ๋ฉ์์ง์ ๋ชจ์ข ์ ์ง๊ณ ์ฐ์ฐ(sum, mean ๋ฑ)์ ๋๋ค. ๋ฑ๋ณ MPNN์์๋ ์ด \psi์ \phi๋ฅผ ์ค๊ณํ ๋ ์ขํ๊ณ ๋ณํ์ ๋ฐ๋ผ ์ ์ ํ ๋ณํ๋๋ ํน์ง๋ง ์ฌ์ฉํ๋๋ก ํฉ๋๋ค. ๋ค์ ๋งํด, ๋ ๋ ธ๋ ๊ฐ ์๋์ ์ธ ์์น๋ ๋ฐฉํฅ์ ๋ฉ์์ง์ ํ์ฉํ๋, ๊ทธ ๊ฐ๋ค์ ํ์ ํ์ ๋ ์์ธก๋ ๋๊ฐ์ด ํ์ ๋๋ ํํ๋ก ๋ง๋ค์ด์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์ ๊ณต๊ฐ์ ๋ถ๋ถ๊ณผ ๋ฐฉํฅ์ ๋ถ๋ถ์ผ๋ก ๋ฉ์์ง๋ฅผ ๋ถํดํฉ๋๋ค. ์์ปจ๋ ๋ ธ๋ u์ v์ ์์น๋ฒกํฐ๋ฅผ p_u, p_v๋ผ ํ๋ฉด, \psi ๊ณ์ฐ์ ์๋ ์์น p_u - p_v๋ฅผ ํฌํจ์ํต๋๋ค. ์ด ๋ฒกํฐ๋ v์์ u๋ฅผ ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ด๋ฏ๋ก, ํ๊ฒฝ์ด ํ์ ํ๋ฉด ๊ฐ์ ์์ผ๋ก ํ์ ๋์ด ๋ณํฉ๋๋ค. ๋ ๋ ธ๋์ ๋ฐฉํฅ orientation ๋จ์๋ฒกํฐ o_v, o_u (์: ๋ก๋ด ๋์ ๋ฐฉํฅ, ๋ฌผ์ฒด ํ๋ฉด ๋ฒ์ ๋ฑ)์ ํ์ฉํด o_v \cdot o_u ๊ฐ์ ๋ด์ (dot product)๋ ๋ฉ์์ง์ ์ฌ์ฉํฉ๋๋ค. ๋ด์ ์ ๋ ๋ฐฉํฅ ์ฌ์ด์ ๊ฐ๋์ฐจ ์ ๋ณด๋ฅผ ์ค๋๋ค. ์ด ์ญ์ ๋ ๋ฒกํฐ๋ฅผ ๋์ผํ๊ฒ ํ์ ํ๋ฉด ๋ด์ ๊ฐ์ ๋ถ๋ณ์ด๋ฏ๋ก, ํ์ ๋ ์ํฉ์์๋ ๋๊ฐ์ ํน์ง์ผ๋ก ์์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ์๋ ์์น (translation์๋ง ์์กด)์ ๋ฐฉํฅ ๊ฐ ๊ฐ๋ (rotation์ ๋ถ๋ณ) ๋ฑ์ ์กฐํฉํ์ฌ ๋ฉ์์ง๋ฅผ ๋ง๋ค๋ฉด, ์ ์ฒด ๋คํธ์ํฌ๊ฐ SE(3) ๋ณํ์ ๊ณต๋ณํ๊ฒ ํ๋ํ ์ ์์ต๋๋ค. ์ฝ๊ฒ ๋งํด, ๋คํธ์ํฌ๋ ์ ๋ ์ขํ๋ณด๋ค๋ ๋ ธ๋ ๊ฐ ์๋์ ์ธ ๊ธฐํ ๊ด๊ณ์ ์์กดํ์ฌ ํ๋จํ๋๋ก ์ ๋๋๋ ๊ฒ์ด์ฃ .
์ ์๋ค์ด ์ฌ์ฉํ PONITA ๊ธฐ๋ฐ EMPN์ ์ ์์ด๋์ด๋ฅผ ๋์ฑ ๋ฐ์ ์์ผ, ๊ณ์ฐ ํจ์จ๊ณผ ํํ ๋ฅ๋ ฅ์ ๋ชจ๋ ์ก์ ํํ๋ผ๊ณ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ธ ์ปค๋ ํจ์๋ ๊ตฌํ ๋ฐฉ์์ ๋ ผ๋ฌธ์ ์์ธํ ๋์ ์์ง๋ ์์ง๋ง, ์์ง๋ ๋ฉ์์ง ํจ์๋ฅผ ๊ณต๊ฐ ๋ถ๋ถ๊ณผ ๋ฐฉํฅ ๋ถ๋ถ, ํผ์ฒ ๋ถ๋ถ์ผ๋ก ๋ถ๋ฆฌํด ์ธ์ฝ๋ฉํจ์ผ๋ก์จ ๊ณ์ฐ๋์ ์ค์ด๊ณ ๋ ๋ฑ๋ณ์ฑ์ ํ๋ณดํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ์ด EMPN์ ๋์นญ์ฑ์ด ๋ง์ ํ๊ฒฝ์์๋ ํฐ ๋ชจ๋ธ ์์ด ํจ์จ์ ์ผ๋ก ํ์ต์ด ๊ฐ๋ฅํด์ง๋๋ค. ํนํ 3์ฐจ์ ์กฐ์์์๋ ํ์ ์์ ๋๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฐ SE(3) ๋ฑ๋ณ ์ ์ฝ์ ๊ฑธ๋ฉด ํ์ตํด์ผ ํ ์ํฉ ์๋ฅผ ์ด๋ก ์ 360๋ ๋ฒ์๋งํผ ์ค์ด๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. ์ด์ ๊ด๋ จ๋ ์ ํ ์ฐ๊ตฌ๋ค(Zeng et al., 2020; Huang et al., 2022 ๋ฑ)๋ ์คํ์ ์ผ๋ก ๋ฑ๋ณ GNN์ด ๊ทธ๋ ์ง ์์ ๋คํธ์ํฌ๋ณด๋ค ์ ์ ๋ฐ์ดํฐ๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ์ ๋ณด์ธ ๋ฐ ์์ต๋๋ค.
HEPi ์ ์ฑ ๊ตฌ์กฐ: ์ด์ง์ฑ ํ์ฉ ๋ฉ์์ง ์ ๋ฌ
์ด์ Heterogeneous Equivariant Policy (HEPi)์ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. HEPi๋ ์ด๋ฆ์ฒ๋ผ ์ด์ข (heterogeneous) ๊ทธ๋ํ์ ํน์ฑ์ ์ ๋๋ก ํ์ฉํ๊ธฐ ์ํด ํน๋ณํ ๊ณ ์๋ ์ ์ฑ ์ ๊ฒฝ๋ง์ ๋๋ค. ๊ธฐ๋ณธ ๊ฐ๋ ์ โ๊ฐ๊ฐ์ ๋ ธ๋ ํ์ (์ก์ถ์์ดํฐ vs ๋ฌผ์ฒด)์ ๋ง๊ฒ ๋ฐ๋ก ์ฒ๋ฆฌํ ๊ฑด ์ฒ๋ฆฌํ๊ณ , ์ ๋ณด ๊ตํ์ด ํ์ํ ๋ถ๋ถ๋ง ํจ๊ณผ์ ์ผ๋ก ๊ตํํ์โ์ ๋๋ค. ์ด๋ฅผ ์ํด HEPi๋ ์ฌ๋ฌ ๋จ๊ณ์ ๋ฉ์์ง ์ ๋ฌ ๊ณผ์ ์ ๊ฑฐ์น๋๋ฐ, ํฌ๊ฒ ์ง์ญ ์ฒ๋ฆฌ ๋จ๊ณ(๋์ง ๋ ธ๋ ๊ฐ)์ ์ ์ญ ์ฒ๋ฆฌ ๋จ๊ณ(์ด์ข ๋ ธ๋ ๊ฐ)๋ก ๋๋ ์ ์์ต๋๋ค. ์ง๊ด์ ์ผ๋ก, ๋ก๋ด๋ค ์ฌ์ด์ ๋จผ์ ํ์กฐ๋ฅผ ๋ง์ถ๊ณ ๋ฌผ์ฒด์ ๋ถ๋ถ๋ค๋ผ๋ฆฌ๋ ์๋ก ์ํ๋ฅผ ๊ณต์ ํ ๋ค์, ๋ก๋ด์ด ๋ฌผ์ฒด์ ์์ธ ์ ๋ณด๋ฅผ ๋ฐ์ ์ต์ข ํ๋์ ๊ฒฐ์ ํ๋ ํ๋ฆ์ ๋๋ค.
1) ๋ฌผ์ฒด ๋ ธ๋๋ค์ ์ง์ญ ์ฒ๋ฆฌ: ์ฐ์ ๋ฌผ์ฒด ํด๋ฌ์คํฐ ๋ด์์ ๋ฌผ์ฒด-๋ฌผ์ฒด ๋ฉ์์ง ์ ๋ฌ์ด ์ผ์ด๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฒ์ด๋ผ๋ฉด ์ธ์ ํ ์ฒ ์ ์ ๋ ธ๋๋ค๋ผ๋ฆฌ ์๋ก์ ๋ณ์๋ ์ฅ๋ ฅ ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ์ ์ฒ์ ํ์ฌ ๋ณํ ์ํ๋ฅผ ํ์ ํ ์ ์์ ๊ฒ์ ๋๋ค. ๋จ๋จํ ๋ฌผ์ฒด๋ผ ํด๋, ๋ฌผ์ฒด ํ๋ฉด์ ๋ํํ๋ ์ฌ๋ฌ ๋ ธ๋๋ค์ด ์๋ค๋ฉด ๊ทธ๋ค ๊ฐ ์๋ ์์น๋ฅผ ํ์ ํ์ฌ ๋ฌผ์ฒด์ ๋ชจ์ ๋๋ ์์ธ๋ฅผ ์ธ์งํ ์ ์์ต๋๋ค. ์ด ๋จ๊ณ์์๋ ์ก์ถ์์ดํฐ ์ ๋ณด๋ ๊ฐ์ ํ์ง ์๊ณ , ๋ฌผ์ฒด ์์ฒด์ ๊ตฌ์กฐ์ ์ํ๋ฅผ ๊ฐ ๋ฌผ์ฒด ๋ ธ๋๋ค์ด ์์ฝํด ๋๊ฐ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
2) ๋ก๋ด ๋ ธ๋๋ค์ ์ง์ญ ์ฒ๋ฆฌ: ๋์์ ๋๋ ์ด์ด์, ์ก์ถ์์ดํฐ ํด๋ฌ์คํฐ ๋ด ๋ก๋ด-๋ก๋ด ๋ฉ์์ง ์ ๋ฌ์ด ์ด๋ค์ง๋๋ค. ๋ง์ฝ ํ๋์ ๋ก๋ด ์๋๋ง ์๋ค๋ฉด ์ด ๊ณผ์ ์ ์๋ฏธ๊ฐ ์์ง๋ง, ๋ ๊ฐ ์ด์์ ํ๋ ๋ก๋ด ํ์ด ์๋ ๊ฒฝ์ฐ์๋ ์๋ก์ ์์น๋ ์๋๋ฅผ ๊ตํํ์ฌ ํ์กฐ์ ์ธ ์ ๋ต์ ์ธ์ธ ์ ์์ต๋๋ค. ์์ปจ๋ ๋ ๋ก๋ด ํ์ด ํจ๊ป ๋ฌผ์ฒด๋ฅผ ๋ฐ๊ฑฐ๋ ๋น๊ธฐ๋ ์์ ์์๋, ์๋ ๋ก๋ด์ ์์ง์ ๋ฐฉํฅ์ ์์์ผ ์ถฉ๋์ ํผํ๊ณ ํ์ ํฉ์น ์ ์์ ๊ฒ๋๋ค. ์ด ๋จ๊ณ์์๋ ๋ฌผ์ฒด ์ ๋ณด ์์ด ๋ก๋ด๋ค ๊ฐ ์กฐ์จ์ ์ง์คํฉ๋๋ค.
3) ์ ์ญ ์ํธ์์ฉ ์ฒ๋ฆฌ: ๊ฐ์ฅ ์ค์ํ ๋จ๊ณ๋ก, ๋ฌผ์ฒด ๋ ธ๋๋ค์ ์ ๋ณด๊ฐ ๋ก๋ด ๋ ธ๋๋ก ์ ๋ฌ๋๋ ์ด์ข ๊ฐ ๋ฉ์์ง ์ ๋ฌ์ ๋๋ค. HEPi์์๋ ๋ชจ๋ ๋ฌผ์ฒด ๋ ธ๋๋ก๋ถํฐ ๋ชจ๋ ์ก์ถ์์ดํฐ ๋ ธ๋๋ก ๋ฉ์์ง๊ฐ ์ ๋ฌ๋๋๋ก ์์ ์ฐ๊ฒฐ๋ ๊ตฌ์กฐ๋ฅผ ๋ง๋ค์๊ณ , ์ด ๋ฉ์์ง ํจ์๋ ๋น์ฐํ SE(3) ๋ฑ๋ณ์ฑ์ ์ง๋๊ฒ ์ค๊ณ๋์์ต๋๋ค. ์ด ๊ณผ์ ๋๋ถ์ ๊ฐ ๋ก๋ด ๋ ธ๋๋ ์ ์ฒด ๋ฌผ์ฒด์ ์ํ์ ๋ํ ์ง์ฝ ์ ๋ณด๋ฅผ ๋จ ํ ๋ฒ์ ๋ฉ์์ง ์ง๊ณ๋ก ์ป์ด๋ผ ์ ์์ต๋๋ค. ์ด๋ HEPi์ ์ค์ํ ์ค๊ณ ํฌ์ธํธ์ธ๋ฐ, ๋์กฐ์ ์ผ๋ก ์ด์ข ์ฑ์ ๋ฌด์ํ ์ผ๋ฐ GNN์ด๋, ๋๋ ๊ธ๋ก๋ฒ ๊ฐ์ ๋ ธ๋(Virtual Node) ํ ๊ฐ๋ฅผ ํตํด ๊ฐ์ ์ ์ผ๋ก ๋ฌผ์ฒด-๋ก๋ด ์ฐ๊ฒฐ์ ํ๋ ๊ตฌ์กฐ์์๋ ์ด๋ฌํ ์ฆ๊ฐ์ ์ธ ์ ์ญ ์ ๋ณด ๊ณต์ ๊ฐ ์ด๋ ต๋ค๊ณ ์ง์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธฐ์กด์ ์ ์๋ MPNN+VirtualNode ๋ฐฉ์์์๋ ๊ธ๋ก๋ฒ ๋ ธ๋๋ฅผ ํตํด ์ ๋ณด๊ฐ ํ ๋จ๊ณ ์ถ๊ฐ๋ก ๊ฑฐ์ณ์ผ ํ๊ธฐ ๋๋ฌธ์, ์ด๋ค ๋ฌผ์ฒด ๋ ธ๋ u์ ๋ก๋ด ๋ ธ๋ v๊ฐ ๋ ํ ์ด์ ๋จ์ด์ง ์ด์์ด ๋์ด ์ฆ๊ฐ์ ์ธ ์ํธ์์ฉ์ด ์ ์๊ธธ ์ ์์ต๋๋ค. ๋ฐ๋ฉด HEPi์ ๊ฒฝ์ฐ 1๋จ๊ณ์ inter-message passing๋ง์ผ๋ก๋ ๋ชจ๋ u (๋ฌผ์ฒด)์์ v (๋ก๋ด)๋ก ์ํฅ์ ์ค ์ ์์ผ๋ฏ๋ก, ์ ๋ณด ์ ๋ฌ ํจ์จ์ด ํจ์ฌ ์ข์ต๋๋ค. ์ ์๋ค์ ์ด๋ฅผ ์ด๋ก ์ ์ผ๋ก๋ ๋ท๋ฐ์นจํ์ฌ, HEPi์ ์ฐ๊ฒฐ ์ค๊ณ์์๋ ๋จ์ผ ๋ ์ด์ด๋ก ์์์ ๋ก๋ด-๋ฌผ์ฒด ๊ฐ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ ์ ์๋ค๋ ์ ์ Proposition์ผ๋ก ์ ์ํ์์ต๋๋ค. (์ฆ๋ช ์ ๋ถ๋ก์ ์ ๊ณต๋์๋ค๊ณ ํฉ๋๋ค.) ์์ปจ๋, ๋ช ์์ ์ธ ์ด์ง์ฑ ์ฒ๋ฆฌ ๋๋ถ์ ์ ์ฑ ์ด ์ค์ํ ๋ฌผ์ฒด ์ ๋ณด๋ฅผ ๋์น์ง ์๊ณ ์ ๋ ๋ฐ์๋ณผ ์ ์๊ฒ ๋ ๊ฒ์ ๋๋ค.
์ด๋ฌํ ์์ฐจ์ ๋ฉ์์ง ์ ๋ฌ ๊ณผ์ ์ ๊ฑฐ์น ํ, ์ต์ข ์ ์ผ๋ก ์ ๋ฐ์ดํธ๋ ๋ก๋ด ๋ ธ๋๋ค์ ์ํ๋ฅผ ํ๋ ์ถ๋ ฅ์ผ๋ก ๋ณํํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ก์ถ์์ดํฐ ๋ ธ๋ ํ๋๋น ๋ก๋ด ํ๋์ ์ ์ด ์ ํธ๋ฅผ ์ถ๋ ฅํ๋ฉฐ, ๋ก๋ด์ด ์๋ ์ ์ด๋ฅผ ํ๋ค๋ฉด ๋ ธ๋์ ์๋ ๋ฒกํฐ๋ฅผ MLP ๋ฑ์ ํตํด ๊ทธ ๋ก๋ด์ 3์ฐจ์ ์๋ ๋ช ๋ น์ผ๋ก ๋งคํํฉ๋๋ค. HEPi ๋ ผ๋ฌธ์์๋ ๋ชจ๋ ์ก์ถ์์ดํฐ ๋ ธ๋์ ๋ํด ์ ํ ์๋ ๋ฒกํฐ ์ถ๋ ฅ์ ๋ด๋๋ก ํ์ต๋๋ค. ๋ง์ฝ ๋ก๋ด์ ์ ์ด ๊ณต๊ฐ์ด ๋ ๋ณต์กํ๋ค๋ฉด (์: ํ ์ ์ด๋ ์์น ์ ์ด), ๊ทธ์ ๋ง๊ฒ ์ถ๋ ฅ์ ๊ตฌ์ฑํ๋ฉด ๋ ๊ฒ์ ๋๋ค. HEPi ๊ตฌ์กฐ ์์ฒด๋ ์ ์ฑ ๋คํธ์ํฌ์ ๋ฐฑ๋ณธ(backbone)์ด๋ฏ๋ก, ์ถ๋ ฅ ๋ถ๋ถ์ ์ํฉ์ ๋ง๊ฒ ์ ์ฐํ๊ฒ ๋ถ์ผ ์ ์์ต๋๋ค. ์์ฝํ๋ฉด HEPi์ ์ ์ฑ ๋คํธ์ํฌ๋ โ๋ฌผ์ฒด ๋ถ๋ถ๋ค โ๏ธ ๋ก๋ด๋คโ๋ก ์ด๋ฃจ์ด์ง ๊ทธ๋ํ์์ ๋ค๋จ๊ณ์ ๋ฑ๋ณ ๋ฉ์์ง ์ ๋ฌ์ ์ํํ์ฌ, ๋ก๋ด ๋ ธ๋๋ค์ ์ถ๋ ฅ์ผ๋ก ํ๋์ ๊ฒฐ์ ์ง๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง ์ ์ฑ ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. ์๋ Mermaid ๋ค์ด์ด๊ทธ๋จ์ HEPi์ ๋ฉ์์ง ์ ๋ฌ ํ๋ฆ์ ๋จ๊ณ๋ณ๋ก ์์ฝํ ๊ฒ์ ๋๋ค:
flowchart TB
subgraph step1["Step1: ๋ฌผ์ฒด-๋ฌผ์ฒด ๋ฉ์์ง ์ ๋ฌ"]
O1(Object Node) --> O2(Object Node)
O2 --> O3(Object Node)
O3 --> O1
end
subgraph step2["Step2: ๋ก๋ด-๋ก๋ด ๋ฉ์์ง ์ ๋ฌ"]
A1(Actuator Node) --> A2(Actuator Node)
A2 --> A1
end
subgraph step3["Step3: ๋ฌผ์ฒดโ๋ก๋ด ์ํธ์์ฉ"]
O1 & O2 & O3 -.-> A1
O1 & O2 & O3 -.-> A2
A1 & A2 -->|ํ๋ ์ถ๋ ฅ| PolicyAction
end
์ ๋ค์ด์ด๊ทธ๋จ์์ Step1๊ณผ Step2๋ ๊ฐ ๋์ข ๋ ธ๋ ๊ทธ๋ฃน ๋ด๋ถ์์์ ์ ๋ณด ๊ณต์ ๋ฅผ ๋ํ๋ด๊ณ , Step3์์๋ ์ด์ข ๊ฐ์ ์ ๋ณด๊ฐ ๋ก๋ด ๋ ธ๋๋ก ๋ชจ์ด๋ ๊ณผ์ ์ ๋ํ๋ ๋๋ค. ๋ง์ง๋ง์ ๋ก๋ด ๋ ธ๋๋ค์ด ์ง๊ณํ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก PolicyAction ์ฆ ์ ์ฑ ์ ์ต์ข ํ๋์ด ์ถ๋ ฅ๋ฉ๋๋ค. ์ด์ฒ๋ผ ๊ตฌ์กฐ์ ์ผ๋ก ๊ตฌ๋ถ๋ ๋จ๊ณ๋ค ๋๋ถ์, HEPi๋ ๋์ผํ ๋ฑ๋ณ MPN ๋ชจ๋์ ์ํฉ์ ๋ง๊ฒ ์ฌ๋ฌ ๋ฒ ์ ์ฉํ๋ ๋ชจ๋์ ์ค๊ณ๋ฅผ ์ทจํ๊ณ ์์ต๋๋ค. ์ค์ ๊ตฌํ์์๋ ์ฌ๋ฌ ๊ฐ์ EMPN ๋ ์ด์ด๋ฅผ ์๋, ๊ทธ ๋ด๋ถ์์ ๋ฉ์์ง ์ข ๋ฅ(์ฃ์ง ํ์ )์ ๋ฐ๋ผ ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐ๋ ํํ๋ก ๊ตฌ์ฑํ์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. (์๋ฅผ ๋ค์ด PyTorch Geometric ๊ฐ์ GNN ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ HeteroConv ๋ฑ์ ์ฌ์ฉํ๋ฉด ์ฃ์ง ํ์ ๋ณ ๋ค๋ฅธ ๋ฉ์์ง ํจ์๋ฅผ ์ ์ํ ์ ์์ต๋๋ค.) ์ด๋ฌํ ๋ชจ๋์ ์ ๊ทผ์ ๋ชจ๋ธ ํํ๋ ฅ์ ๋์ฌ์ฃผ๋ฉด์๋ ๊ณผ๋ํ ํ๋ผ๋ฏธํฐ ์ฆ๊ฐ๋ฅผ ์ต์ ํด ์ค๋๋ค. ๋ชจ๋ ๋ ธ๋์ ์ฃ์ง์์ ๋๊ฐ์ ํจ์ ํ๋๋ฅผ ์ฐ๋ ๋จ์ผ GNN๋ณด๋ค ์ ์ฐํ๊ณ , ๊ทธ๋ ๋ค๊ณ ์ข ๋ฅ๋ง๋ค ์์ ํ ๋ณ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ์ฐ๋ ๊ฒ๋ณด๋ค ํจ์จ์ ์ด์ง์. ์ ์๋ค๋ HEPi๊ฐ ํํ๋ ฅ๊ณผ ๊ณ์ฐ ํจ์จ์ ๊ฒธ๋นํ๋ค(expressive and computationally efficient)๊ณ ์๊ฐํ๊ณ ์์ต๋๋ค.
์์ ์ ์ธ RL ํ์ต: ์ ๋ขฐ ์์ญ ๊ธฐ๋ฐ ์ ๋ฐ์ดํธ
๋ง์ง๋ง์ผ๋ก, ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ธก๋ฉด์์์ ์ค๊ณ์ ๋๋ค. HEPi๋ ๊ธฐ๋ณธ์ ์ผ๋ก on-policy Actor-Critic ๋ฐฉ์์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ํ์ตํฉ๋๋ค. ์ ์๋ค์ ์๋๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก PPO(Proximal Policy Optimization)์ TRPL(Trust Region Policy Layers) ๋ ๊ฐ์ง๋ฅผ ์ธ๊ธํ๋๋ฐ์, ํนํ ๋ณต์กํ 3์ฐจ์ ํ๊ฒฝ์์๋ PPO๋ง์ผ๋ก๋ ํ์ต์ด ๋ถ์์ ํ์ฌ TRPL์ด๋ผ๋ ๋ณด๋ค ์์น์ ์ธ ์ ๋ขฐ-์์ญ ๋ฐฉ๋ฒ์ ํ์ฉํ๋ค๊ณ ํฉ๋๋ค.
๊ฐ๋จํ ๋ฐฐ๊ฒฝ์ ์ค๋ช ํ๋ฉด, PPO๋ ์ ๋ฐ์ดํธ ์ ๋ชฉํ ํจ์์ ratio ํด๋ฆฌํ์ผ๋ก ์ ๋ขฐ ์์ญ(trust region)์ ๊ทผ์ฌ์ ์ผ๋ก ์ง์ผ์ฃผ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. Actor-Critic ๊ธฐ๋ฐ ์ ์ฑ ๊ทธ๋๋์ธํธ๋ฅผ ์ต์ ํํ ๋ ํ ๋ฒ์ ํฐ ๊ฐฑ์ ์ ํ์ง ์๋๋ก, ์ด์ ์ ์ฑ ๋๋น ๋ฐ๋ ์ ๋๋ฅผ ํด๋ฆฌํํ์ฌ ์์ ์ฑ์ ์ป๋ ๊ฒ์ด์ฃ . ํ์ง๋ง ๋ณต์กํ ๋ฌธ์ ์์๋ PPO์ ์ฑ๋ฅ์ด ํ์ดํผํ๋ผ๋ฏธํฐ ์ธํ ์ ๋ฏผ๊ฐํ์ฌ ์ ์ ๋๋ฉด ํ๋ จ์ด ๋ฐ์ฐํ๊ธฐ ์ฝ์ต๋๋ค. ํนํ ์ด ๋ ผ๋ฌธ์ ์ฒ ๊ฑธ๊ธฐ(Cloth-Hanging) ๊ฐ์ ์ด๋ ค์ด ๊ณผ์ ์์๋ PPO๋ก๋ ๋ณด์์ ์ ๋๋ก ๋ชป ์ฌ๋ฆฌ๊ณ ๋ถ์์ ํ๋ค๊ณ ํฉ๋๋ค. TRPL์ Otto et al.(2021) ๋ฑ์ ์ฐ๊ตฌ์์ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ ๋ขฐ ์์ญ ์ ์ฝ์ ๋ช ์์ ์ผ๋ก ๊ฐ์ ํ๋ ํฌ์(projection) ๊ณ์ธต์ ๋ ๋ฐฉ์์ ๋๋ค. ์ฝ๊ฒ ๋งํด TRPO(Trust Region Policy Optimization)์ ์์ด๋์ด๋ฅผ ๋ฅ๋ท ์์ผ๋ก ๋ น์ฌ์, ์ํ๋ณ๋ก ์ ์ฑ ๋ณํ๋์ ์๊ฒฉํ ์ ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ ์๋ค์ TRPL์ ์ ์ฉํ์ฌ HEPi๋ฅผ ํ๋ จํ ๊ฒ์ HEPi+TRPL๋ก, PPO๋ก ํ๋ จํ ๊ฒ์ HEPi+PPO๋ก ๊ตฌ๋ถํด์ ์คํํ๋๋ฐ, ๋์ผํ HEPi ๊ตฌ์กฐ๋ผ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ผ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ํฌ๊ฒ ๋ฌ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. TRPL ๊ธฐ๋ฐ ํ์ต์ ๋ชจ๋ ๊ณผ์ ์์ ์์ ์ ์ผ๋ก ์๋ ดํ ๋ฐ๋ฉด, PPO๋ ๊ณ ์ฐจ์/๊ณ ๋๋ ๊ณผ์ ์์ ์์ฃผ ๋ถ์์ ํ๊ณ , ํ๋์ ๋ง์ด ํด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผํ ๋ฉด, PPO์ ํด๋ฆฌํ ํ๋ผ๋ฏธํฐ \epsilon๋ฅผ ์ฌ๋ฌ ๊ฐ์ผ๋ก ๊ทธ๋ฆฌ๋ ํ์ํด์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ฐพ์์ง๋ง, ๊ทธ๋๋ 3D ์ฒ ๊ฑธ๊ธฐ์์๋ ์์๋ก ์ ์ฑ ์ด ๋ฌด๋์ก๋ค๊ณ ํฉ๋๋ค. ๋ฐ๋ฉด TRPL์ ๋ณ๋ค๋ฅธ ํ๋ ์์ด๋ ์์ ์ ์ธ ์์น ๊ณก์ ์ ๊ทธ๋ ธ๋ค๊ณ ํ๋ค์. ๊ฒฐ๊ตญ HEPi์ ์ต์ข ์ ์๋ ๊ตฌ์ฑ์ โ๊ทธ๋ํ ๋ฑ๋ณ ์ ์ฑ + TRPL ์๊ณ ๋ฆฌ์ฆโ์ผ๋ก ์์ฝํ ์ ์์ต๋๋ค. (๋ ผ๋ฌธ์๋ HEPi ์์ฒด์ ํ์ ๊ณผ ๋๋ถ์ด, ์ด๋ ๊ฒ ํ์ต ์์ ํ ๊ธฐ๋ฒ์ ๋ณํํ ์ ๋ ์ค์ํ ๊ธฐ์ฌ๋ก ์ธ๊ธํ๊ณ ์์ต๋๋ค.)
๋ง์ง๋ง์ผ๋ก, ๊ตฌํ ์ธก๋ฉด์์ ๋ช ๊ฐ์ง ์ธ๊ธํ ์ฌํญ์ด ์์ต๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ก ์ฌ์ฉ๋ NVIDIA IsaacLab (IsaacGym ๊ธฐ๋ฐ) ๋๋ถ์, ์ ์๋ค์ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์
๋ก ํ์ต ์๋๋ฅผ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ํ๋์ GPU์์ ์๋ฐฑ ๊ฐ ํ๊ฒฝ์ ๋์์ ๋๋ฆฌ๋ฉฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ ์์ผ๋ฏ๋ก, ๋ณต์กํ ๋ฌผ๋ฆฌ ํ๊ฒฝ์์๋ ์์๊ฐ ๋ด๋ก ์ ์ฑ
์ ํ์ต์ํฌ ์ ์์์ต๋๋ค (์ค์ ๋ก ๋ถ๋ก์ Table์๋ ๊ณผ์ ๋ณ ์ ์๊ฐ ๋ด์ ํ๋ จ ์๊ฐ์ ๋ณด๊ณ ํ๊ณ ์์ต๋๋ค). ๋ํ ๊ทธ๋ํ ์ฐ์ฐ์ PyTorch Geometric ๊ฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ํจ์จํํ๊ณ , Transformer baseline์ PyTorch TransformerEncoder๋ก ๊ตฌํํ๋ ๋ฑ ์ฌํ๊ฐ๋ฅํ ์ค์ ์ ๋ฐ๋์ต๋๋ค. ์์ปจ๋, HEPi ๋ชจ๋ธ์ ๊ฐํํ์ต ํ๋ ์์ํฌ์ ๊ทธ๋ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ์ ๊ตํ๊ฒ ๊ฒฐํฉํ ์ฌ๋ก๋ผ ํ ์ ์์ต๋๋ค. ๋ค์์ผ๋ก๋ ์ด๋ ๊ฒ ์ ์๋ ๋ฐฉ๋ฒ์ ์คํ์ผ๋ก ๊ฒ์ฆํ ๋ด์ฉ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
์คํ: ์๋ก์ด ๋ฒค์น๋งํฌ ๊ณผ์ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๊ณผ์ ์ค๊ณ
์ ์๋ค์ HEPi์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด 7๊ฐ์ ๋ก๋ด ์กฐ์ ๊ณผ์ ๋ก ๊ตฌ์ฑ๋ ์๋ก์ด RL ๋ฒค์น๋งํฌ๋ฅผ ๋ง๋ค์์ต๋๋ค. ์ด๋ค์ ํฌ๊ฒ ๋ ๋ฒ์ฃผ๋ก ๋๋๋๋ฐ, ํ๋๋ ๋ค์ํ ํ์์ ๋จ๋จํ ๋ฌผ์ฒด(rigid)๋ค์ ๋ค๋ฃจ๋ ๊ณผ์ ๋ค์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด(deformable)๋ฅผ ๋ค๋ฃจ๋ ๊ณผ์ ๋ค์ ๋๋ค. ๋ชจ๋ ๊ณผ์ ๋ NVIDIA IsaacLab ์๋ฎฌ๋ ์ดํฐ ์์ ๊ตฌํ๋์๊ณ , GPU ๊ฐ์ ๋๋ถ์ ๋ณ๋ ฌ๋ก ๋๋ ์ํ์ ๋ฐ์์ํฌ ์ ์์ต๋๋ค. ๋ํ ๋ก๋ด ํ ๊ธฐ๊ตฌ ์์ฒด์ ๋ณต์กํจ์ ๋ฐฐ์ ํ๊ธฐ ์ํด, ์๋ ์ดํํฐ(์ง๊ฒ)์ ์ง๊ต ์ขํ ์ด๋๋ง ์ ์ดํ๋ ๋ฐฉ์์ผ๋ก ๊ณผ์ ๋ฅผ ์ถ์ํํ์ต๋๋ค. ์ด๋ ์ฐ๊ตฌ์ ๊ด์ฌ์ฌ๋ฅผ โ๋ฌผ์ฒด์ ๋ก๋ด ๊ฐ์ ๊ธฐํํ์ ๊ด๊ณ ํ์ตโ์ ์ง์ค์ํค๊ธฐ ์ํจ์ ๋๋ค.
๊ฐ ๊ณผ์ ์ ์ด๊ธฐ ์ํ์ ๋ชฉํ ๊ตฌ์ฑ์ ๋์ ๋ฒ์์์ ๋ฌด์์๋ก ์ํ๋ง๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, 2D ํ๋ฉด์์ ์ด๋ฃจ์ด์ง๋ ๊ณผ์ ๋ผ ํด๋ ์ด๊ธฐ ์์น๊ฐ \[-1,1]\times\[-1,1] ๋ฒ์ ์์์ ๋๋คํ๊ฒ ์ ํด์ง๊ณ ๋ชฉํ ์์น/๋ฐฉํฅ๋ ์์๋ก ์ฃผ์ด์ง๋ ์์ ๋๋ค. 3D ๊ณผ์ ์ ๊ฒฝ์ฐ ์ด๊ธฐ/๋ชฉํ ์์น๊ฐ ๊ตฌ ๋๋ ๋ฐ๊ตฌ ๊ณต๊ฐ ์์์ ๊ท ์ผ ํ๋ณธ ์ถ์ถ๋ฉ๋๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ํ์ต๋ ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์์ฐ์ค๋ฝ๊ฒ ์ํํ ์ ์์ต๋๋ค. ํ์ ๋ ๋ช ๊ฐ์ง ์์น๋ง ๋ฐ๋ณต์ ์ผ๋ก ๊ฒช๋ ๊ฒ์ด ์๋๋ผ, ๋งค ์ํผ์๋๋ง๋ค ์๋ก์ด ๋ฐฐ์น๋ฅผ ๊ฒฝํํ๋, ์ ์ฑ ์ด ๊ณต๊ฐ ์ ์ฒด์ ๋ํ ๋ณดํธ์ ์ธ ์ ๋ต์ ํ์ตํด์ผ ํ๋ ๊ฒ์ด์ฃ .
์๋์ ๊ฐ ๊ณผ์ ๋ฅผ ๊ฐ๋ตํ ์๊ฐํฉ๋๋ค:
- Rigid-Sliding (ํ๋ฉด ์ ๋ฐ๊ธฐ): ๋ก๋ด์ ํก์ฐฉ ํจ๋(suction gripper)๋ก ํ๋ฉด ์์ ๋์ธ ๋ฌผ์ฒด๋ฅผ ๋ฐ์ด ์ด๋์ํค๋ ๊ณผ์ ์ ๋๋ค. 2D ํ๋ฉด ์์์ ๋ฌผ์ฒด๋ฅผ ๋ชฉํ ์์น๊น์ง ์ฌ๋ผ์ด๋์์ผ ๋๊ณ , ๋ชฉํ ๊ฐ๋์ ๋ง์ถฐ ์ ๋ ฌํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. ์ด ์์ ์๋ ์๋ก ๋ค๋ฅธ 10์ข ์ ๋ฌผ์ฒด๊ฐ ์ฌ์ฉ๋๋ฉฐ, ๋ฌผ์ฒด์ ๋ชจ์์ด ์ง์ฌ๊ฐํ, ์ํ, ์ผ๊ฐ ๋ฑ ๋ค์ํฉ๋๋ค (์: Transporter Net ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ kit๋ค์ด ์ฐธ๊ณ ๋ ๋ฏํฉ๋๋ค). ์ด๊ธฐ ์์น์ ๋ชฉํ ์์น/๋ฐฉํฅ์ ๋ฌด์์์ ๋๋ค. ๋ก๋ด ํก์ฐฉ ํจ๋๋ ๋ฌผ์ฒด์ ๋ฌ๋ผ๋ถ์ ์ํ๋ก ์์ง์ผ ์ ์์ด์, ๋ง์ฐฐ ์์ด ๋ถ๋๋ฝ๊ฒ ๋ฏธ๋๋ฌ๋จ๋ฆฐ๋ค๊ณ ๋ณด๋ฉด ๋ฉ๋๋ค.
- Rigid-Pushing (๋จ์ด์ ธ ๋ฐ์ด๋ด๊ธฐ): Rigid-Sliding๊ณผ ๋น์ทํ์ง๋ง, ์ด๋ฒ์๋ ๋ก๋ด ํจ๋๊ฐ ๋ฌผ์ฒด์ ๋ถ์ด์์ง ์๊ณ ๋จ์ด์ ธ์ ์์ ๋กญ๊ฒ ์์ง์ผ ์ ์์ต๋๋ค. ์ฆ ๋ก๋ด์ ๋ฌผ์ฒด๋ฅผ ์ง์ ๋ฐ์ด์ ๋ชฉํ ์ง์ ์ผ๋ก ์ฎ๊ฒจ์ผ ํฉ๋๋ค. ์ด ๊ฒฝ์ฐ ๋ฌผ์ฒด๋ฅผ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณด๋ด๊ธฐ๊ฐ ๋ ๊น๋ค๋ก์ด๋ฐ, ๋ง์ฐฐ๊ณผ ๊ด์ฑ ๋ฑ์ ๊ณ ๋ คํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. 2D ํ๋ฉด์์ ์งํ๋๋ฉฐ ์ด๊ธฐ/๋ชฉํ ์กฐ๊ฑด์ ๋น์ทํ๊ฒ ๋ฌด์์์ ๋๋ค. ์ด ๊ณผ์ ๋ ๋ฌผ์ฒด์ ๋ก๋ด ์ฌ์ด ๋ฌผ๋ฆฌ์ ์ฐ๊ฒฐ์ด ์๋ ์ํฉ์ ๋ค๋ฃจ์ด, ์ ์ฑ ์ด ์ ์ด์ ๋ง๋๋ ์ ๋ต๊น์ง ํ์ตํด์ผ ํ๋ค๋ ์ ์ด ํฅ๋ฏธ๋กญ์ต๋๋ค.
- Rigid-Insertion (3D ์ฝ์ ): Transporter Net์ ์กฐ๋ฆฝ ํคํธ ๊ณผ์ ๋ฅผ ํ์ฅํ ๊ฒ์ผ๋ก, 3์ฐจ์์์ ๋ฌผ์ฒด๋ฅผ ๋ง์ถฐ ๋ผ์ฐ๋ ์์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ญ์ํ ๊ธฐ๋ฅ์ ์ญ์ ๋ชจ์ ๊ตฌ๋ฉ์ ๋ผ์ฐ๋ ๊ฒ์ฒ๋ผ, ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ฅ๊ณ ์ ํํ ์์ธ๋ก ์ ๋ ฌํ์ฌ ๋ชฉํ์ ๋ฃ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ํ๊ฒฝ์ 8์ข ์ ์๋ก ๋ค๋ฅธ ๋ชจ์์ ๋ฌผ์ฒด์ ๊ทธ์ ๋์๋๋ ๊ตฌ๋ฉ์ด ์ค๋น๋์ด ์์ต๋๋ค. ํ๋ฌ์ค(์ญ์), T์, ๋ณ ๋ชจ์, ์ก๊ฐ ๊ธฐ๋ฅ ๋ฑ ๋ค์ํ ํ์์ด ์๊ณ , ํฌ๊ธฐ๋ ์ฝ๊ฐ์ฉ ๋ค๋ฆ ๋๋ค. ๊ฐ๊ฐ์ ๋ฌผ์ฒด๋ ๋ฉ์ฌ ํํ๋ก ๋ชจ๋ธ๋ง๋์ด ์์ผ๋ฉฐ, ํ์ต ์์๋ ๋น๊ต์ ๋ฎ์ ํด์๋ (์์์ ๋ํ ์ง์ ๋ค๋ก ๋จ์ํ๋ ํํ)์ ๋ฌผ์ฒด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ํ์ ํ ์ผ๋ฐํ ์คํ์์๋ ๊ณ ํด์๋ ๋ฉ์ฌ (์๋ฐฑ~์ฒ์ฌ ๊ฐ ๋ ธ๋)์ ๋ํด์๋ ํ ์คํธ๋ฅผ ํฉ๋๋ค. Rigid-Insertion ๊ณผ์ ์์๋ ๋ก๋ด ํ ๊ฐ๊ฐ ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ด๊ธฐ ๋ฌผ์ฒด ์์ธ์ ๋ชฉํ ๊ตฌ๋ฉ ์์น/๋ฐฉํฅ์ ์ฃผ๋ก 3D ๊ณต๊ฐ์ ํ ํ๋ฉด(์: ์์ ๋ ํ๋ฉด) ์์์ ๋ฌด์์ ์ง์ ๋ฉ๋๋ค.
- Rigid-Insertion-Two-Agents (๋ค์ค ๋ก๋ด 3D ์ฝ์ ): ์ ์ฝ์ ๊ณผ์ ์ ๋ณํ์ผ๋ก, ๋ก๋ด ๋ ๋๊ฐ ํ๋ ฅํ์ฌ ๋ฌผ์ฒด๋ฅผ ๋ผ์ฐ๋ ๊ณ ๋๋ ์์ ์ ๋๋ค. ๋ ๋ก๋ด์ด ํ๋์ ๋ฌผ์ฒด๋ฅผ ์์ชฝ์์ ์ก๊ฑฐ๋, ํน์ ํ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ์ก๊ณ ๋ค๋ฅธ ๋ก๋ด์ ๋ณด์กฐ๋ฅผ ํ๋ฉด์ ํจ๊ป ์ํ๋ ์์น๋ก ๊ฐ์ ธ๊ฐ๋ ์๋๋ฆฌ์ค์ ๋๋ค. ์ด๊ธฐ ๋ฌผ์ฒด๋ 3์ฐจ์ ๊ณต๊ฐ ์์์ ๋ฐฉํฅ์ผ๋ก ๋์ผ ์ ์์ผ๋ฉฐ, ๋ชฉํ ์์น๋ ๊ณต๊ฐ์ ๋ฐ๊ตฌ(upper hemisphere) ์์ญ์ ๋ฌด์์๋ก ์ฃผ์ด์ง๋๋ค. ๋ก๋ด์ ๋ ๋ค ์ ํ ์ด๋๋ง ์ ์ดํ ์ ์๊ณ , ๋ฌผ์ฒด๋ฅผ ๋ค๊ณ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ์ด ๊ณผ์ ๋ ํ์ (coordination)๊ณผ 3์ฐจ์ ์ ๋ ฌ์ด๋ผ๋ ๋ ๊ฐ์ง ์ด๋ ค์์ด ๋์์ ์กด์ฌํ๋ฏ๋ก, HEPi์ ์ด์ง์ ๋ฉ์์ง ์ ๋ฌ๊ณผ ๋ฑ๋ณ์ฑ์ด ํนํ ๋น์ ๋ฐํ๋ ํ ์คํธ ์ผ์ด์ค์ ๋๋ค.
- Rope-Closing (๋ฐง์ค ๊ฐ์ ๋ด ํฉ์น๊ธฐ): ๋ณํ์ฒด ๊ณผ์ ์ค ํ๋๋ก, ๋ ๊ฐ์ ๋ก๋ด ํ์ด ๋ฐง์ค์ ์ ๋์ ์ก๊ณ 2D ํ๋ฉด์์ ์์ง์ ๋๋ค. ๋ชฉํ๋ ๋ฐง์ค์ ํผ์ณ์ง ์ํ์์ ์ํ ๋ฌผ์ฒด(๊ธฐ๋ฅ) ์ฃผ์๋ก ํ๊ฐ์์, ๋ฐง์ค ๋์ ๋ผ๋ฆฌ ์ต๋ํ ๊ฐ๊น์ด ์ค๋๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค. ์ฝ๊ฒ ๋งํด, ๋ฐง์ค๋ก ๊ธฐ๋ฅ์ ๋ฌถ๋ ๋์์ ์ผ๋ถ๋ฅผ ์๋ํํ ๊ฒ์ด๋ผ ๋ณผ ์ ์์ต๋๋ค. ์ฑ๊ณต ์ธก์ ์ ๋ ๋ ๊ทธ๋ฆฌํผ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ก ํ๊ฐ๋๋ฉฐ, ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ธ์๋ก (์ฆ ๋ฐง์ค์ด ๊ธฐ๋ฅ์ ์ ๊ฐ๊ธธ์๋ก) ๋ณด์์ด ๋์์ง๋๋ค. ์ด ๊ณผ์ ๋ Laezza et al.(2021)์ ํ๊ฒฝ์ ์ฐจ์ฉํ์๊ณ , ์ด๊ธฐ์ ๋ฐง์ค์ ๊ธฐ๋ฅ์ ํ์ชฝ ์์ ์๋ฌด๋ ๊ฒ๋ ๋์ฌ ์์ต๋๋ค. ๋ ๋ก๋ด์ด ํ๋ ฅํด์ ํ์ชฝ ๋์ ๋ฐ๋ํธ์ผ๋ก ๋๊ฒจ์ ๋ง์ฃผ์ค๊ฒ ํด์ผ ํฉ๋๋ค. ๋ฐง์ค์ ์๋ฎฌ๋ ์ดํฐ์์ ์ฝ 40๊ฐ์ ์์ ๋งํฌ๋ค๋ก ์ด๋ฃจ์ด์ง ์ฐ์๋ก ๋ชจ๋ธ๋ง๋์๊ณ , ๊ฐ ๋งํฌ๊ฐ ํ๋์ ๋ฌผ์ฒด ๋ ธ๋๋ก ํํ๋ฉ๋๋ค. ๋ก๋ด ๋ ๊ฐ์ ๋_effector๋ ์ก์ถ์์ดํฐ ๋ ธ๋๊ฐ ๋๊ฒ ์ง์.
- Rope-Shaping (๋ฐง์ค ๋ชจ์ ๋ง๋ค๊ธฐ): ๋ฐง์ค ๋ณํ์ฒด์ ๋ ๋ฒ์งธ ๊ณผ์ ์ ๋๋ค. ๋ ๋ก๋ด์ด ๋ฐง์ค ๋์ ์ก๊ณ ์์ง์ฌ์, ๋ฐง์ค ์ ์ฒด๋ฅผ ์ ํด์ง ํน์ ๋ชจ์์ผ๋ก ๋ง๋ค์ด์ผ ํฉ๋๋ค. ์์๋ก ์ธ๊ธ๋ ๋ชฉํ ๋ชจ์์ ์ํ๋ฒณ โWโ ํํ์ ๋๋ค. ๋ชฉํ ๋ชจ์ ์์ฒด๋ ํ์ ๋์ด ์ ์๋ ์ ์๊ธฐ ๋๋ฌธ์, ๋จ์ํ ๋ชจ์๋ฟ ์๋๋ผ ๋ฐฉํฅ ์ ๋ ฌ๋ ๋ง์ถฐ์ผ ํฉ๋๋ค. ์ด ๊ณผ์ ๋ LASA Shape Dataset (Khansari & Billard, 2011)์์ ๋ฐ์จ 2D ๊ถค์ ๋ชจ์์ ๋ฐง์ค๋ก ๊ตฌํํ๋ ๊ฐ๋ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๊ธฐ์๋ ๋ฐง์ค์ด ์ผ์๋ก ๋ป์ ์ํ์ด๊ณ , ๋ชฉํ ๊ฐ๋ ๋ฒ์๋ ๋ฌด์์์ ๋๋ค. ๋ฐง์ค์ 80๊ฐ ๋งํฌ๋ก ์ด๋ฃจ์ด์ง ๊ธด ์ฌ์ฌ๋ก ๋ชจ๋ธ๋ง๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋งํฌ๊ฐ ๋ ธ๋๋ก ํํ๋ฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฐ์ฅ ํฐ ๋์ ์ ํ์ ๋น๊ต์ ๋๋ค. ๋ชฉํ W ๋ชจ์๊ณผ ํ์ฌ ๋ฐง์ค ๋ชจ์์ด ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ๊ณ์ฐํ๋ shape descriptor๋ฅผ ์ ์๋ค์ด ๊ณ ์ํ์ฌ, ๋ณด์์ผ๋ก ์ฌ์ฉํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ฐง์ค์ ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ์ํ๋งํ ์ฌ๋ฌ ์ ๋ค์ ๊ตญ์ ๊ณก๋ฅ (์ธ์ ์ ๋ถ๋ค ๊ฐ ๊ฐ๋)๊ณผ ์ ์ญ ๋ฐฉํฅ์ ๋ํ ๊ฐ๋, ๊ทธ๋ฆฌ๊ณ ์ค์ฌ์ผ๋ก๋ถํฐ์ ์๋ ์์น๋ค์ ํน์ง์ผ๋ก ์ผ์ ๋ฒกํฐ D_\text{shape}๋ฅผ ๋ง๋ ๋ค, ํ์ฌ์ ๋ชฉํ D์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ๋ ์์ ๋๋ค. ์ด ๊ฑฐ๋ฆฌ ||D_{current} - D_{target}||๊ฐ ์์์ง์๋ก (์ฆ ๋ชจ์์ด ๋ง์๊ฐ์๋ก) ๋ณด์์ ํฌ๊ฒ ์ฃผ์์ต๋๋ค. ๋ฐง์ค ๋ชจ์ ๋ง์ถ๊ธฐ๋ ๋ฐง์ค ๊ฐ๊ธฐ๋ณด๋ค ํจ์ฌ ์ฌ์ธํ ์กฐ์์ ์๊ตฌํ๋ฉฐ, 80๊ฐ๋ ๋๋ ๋งํฌ์ ์ํ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํด์ผ ํด์ ๊ด์ฐฐ ์ฐจ์๋ ๋งค์ฐ ํฝ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ HEPi์ ๊ทธ๋ํ ๊ตฌ์กฐ๋ก ๊ฐ๋ณ ๋งํฌ๋ค์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํจ์ผ๋ก์จ ํด๊ฒฐํ์ต๋๋ค.
- Cloth-Hanging (์ฒ ๊ฑธ๊ธฐ): ๊ฐ์ฅ ๋ณต์กํ ๊ณผ์ ์ ๋๋ค. ๋ค ๊ฐ์ ๋ก๋ด ์ก์ถ์์ดํฐ๊ฐ ์ง์ฌ๊ฐ ์ฒ์ ๋ค ๋ชจ์๋ฆฌ๋ฅผ ๋ถ์ก๊ณ ์์ต๋๋ค. ์ฒ ํ๊ฐ์ด๋ฐ์๋ ๋ฅ๊ทผ ๊ตฌ๋ฉ์ด ๋ ์์ผ๋ฉฐ, ๋ชฉํ๋ ๊ทธ ๊ตฌ๋ฉ์ ๋ง๋๊ธฐ ํํ์ ์ท๊ฑธ์ด์ ๊ฑธ๋๋ก ์ฒ์ ์ฎ๊ธฐ๋ ๊ฒ์ ๋๋ค. ๊ฒฐ๊ตญ ๋ค ๋ก๋ด์ด ์ฒ์ ์ก์๋น๊ฒจ ๋ค์ด์ฌ๋ ค ์ ์ ํ ์์ธ๋ก ์ด๋์ํค๋ฉด, ์ฒ์ ๊ตฌ๋ฉ ๋ถ๋ถ์ด ์ท๊ฑธ์ด์ ๊ฑธ์ณ์ ธ์ ์ฑ๊ณต์ด๊ฒ ์ฃ . ์ด ์์ ์ 3์ฐจ์ ๊ณต๊ฐ์์ ์ด๋ฃจ์ด์ง๊ณ , ์ท๊ฑธ์ด ๋ง๋์ ์์น์ ์ฒ์ ์ด๊ธฐ ์์ธ๊ฐ ๋ค์ํ๊ฒ ๋ฐ๋๋๋ค. ์ฒ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ ์ง์ -์คํ๋ง ๋ชจ๋ธ๋ก ๊ตฌํ๋์๊ณ , ์ฒ ์ ์ฒด๋ฅผ ๋์ ํด์๋๋ก ๊ทธ๋ํ์ ๋ฃ๊ธฐ์๋ ์ํ ์ฐจ์์ด ๋๋ฌด ํฌ๊ธฐ ๋๋ฌธ์, ์ ์ฑ ์ ๋ ฅ์ผ๋ก๋ ๊ตฌ๋ฉ ๊ฐ์ฅ์๋ฆฌ์ ์ ์๋ค๋ง ์ ๋ณํ์ฌ ์ฌ์ฉํ์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ตฌ๋ฉ ๋๋ ์ค์ฌ์์ ๊ฐ๊น์ด 10๊ฐ์ ์ ์๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉ๋ฒ(knn, k=10)์ ์ผ๋ค๊ณ ํฉ๋๋ค. ์ด 10๊ฐ ๋ ธ๋๊ฐ ์ฒ ์ชฝ ๋ฌผ์ฒด ๋ ธ๋๋ก์จ ์ ์ฑ ์ ์ฃผ์ด์ง๋๋ค. (ํํธ ๊ฐ์นํจ์(critic) ๋คํธ์ํฌ์๋ ๋ณด์ ๊ณ์ฐ์ ์ ํํ ์์ธกํ๋๋ก ์ฒ์ ๋ชจ๋ ์ ์ ์ ๋ณด๋ฅผ ๋ฃ์๋ค๊ณ ์ธ๊ธ๋์ด ์์ต๋๋ค.) ๋ก๋ด ์ก์ถ์์ดํฐ๋ 4๊ฐ ๋ชจ์๋ฆฌ์ ๋ถ์ด์๋ ์ง๊ฒ๋ค๋ก, ๋ก๋ด ๋ ธ๋ 4๊ฐ๊ฐ ๋๊ฒ ์ง์. ์ด ๊ณผ์ ์์ ๋ณด์์ ์ท๊ฑธ์ด ๋ง๋์ ๊ตฌ๋ฉ์ ์๋์ ์์น๋ฅผ ๋ฐ์ํ๋ ๊ฑฐ๋ฆฌ/์ ๋ ฌ ๋ณด์, ๊ทธ๋ฆฌ๊ณ ์์ง์์ ๋ถ๋๋ฌ์์ ์ํ ์ก์ ๋ณํ ํ๋ํฐ ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. ํนํ ๊ตฌ๋ฉ์ ์์น์ ์ด๊ธฐ ๊ตฌ๋ฉ ์์น(์ฒ์ ์ฒ์ ์ก์์ ๋ ๊ตฌ๋ฉ ์ค์ฌ) ๋ฑ์ ๋ ธ๋ ํผ์ฒ๋ก ์ถ๊ฐ ์ ๊ณตํ์ฌ ํ์ต์ ๋๋ ํธ๋ฆญ์ ์ผ๋ค๊ณ ํฉ๋๋ค. ์ฒ ๊ฑธ๊ธฐ ๊ณผ์ ๋ ๋ค์ ๋ก๋ด ํ๋, ๋๊ท๋ชจ ๋ณํ์ฒด, 3D ์์ ์์ธ, ์ ๋ฐํ ๋ชฉํ๊ฐ ํ๋ฐ ๋ชจ์ธ ๊ทน์ ๋์ด๋ ๋ฌธ์ ์ ๋๋ค. ์ด ๊ณผ์ ๋ฅผ ๊ธฐ์กด ๋ฐฉ๋ฒ (์: ์ผ๋ฐ GNN์ด๋ Transformer)์ผ๋ก ํธ๋ ๊ฒ์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ ์ง๋ง, HEPi๋ ์ ์๋ฏธํ ์ฑ๊ณผ๋ฅผ ๋์ต๋๋ค.
์์ฝํ์๋ฉด, ์ ์๋ ๋ฒค์น๋งํฌ๋ ๋ค์ํ ํํ์ ๋์ ์ ์์ ๋ค๋ก ๊ตฌ์ฑ๋์ด HEPi์ ๊ฐ์ ์ ๋ค๊ฐ๋๋ก ์คํํ ๋ฌด๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ํนํ Rigid-Insertion-Two-Agents์ Cloth-Hanging์ ๊ฐ๊ฐ ์ด์ข ๋ ธ๋ ํ์ ๊ณผ ๊ณ ์ฐจ์ ๋ณํ์ฒด ์ฒ๋ฆฌ ์ธก๋ฉด์์ ์ด๋ ค์ด ์ผ์ด์ค์ ๋๋ค. Rope-Shaping๊ณผ Rigid-Pushing ๋ฑ์ ํ์ ๊ณต๊ฐ์ด ๋๊ณ ๊ตญ์ง ์ต์ ํด์ ๋น ์ง๊ธฐ ์ฌ์ด ๊ณผ์ ๋ค์ ๋๋ค. ์ด๋ฌํ ๊ณผ์ ๋ค์ ํตํด HEPi์ ํ์ ํจ์จ, ํํ๋ ฅ, ์์ ์ฑ์ ํ๊ฐํ๊ฒ ๋ฉ๋๋ค.
๋น๊ต ๋์ (Baselines)
์คํ์์๋ HEPi์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ธ ๊ฐ์ง ์ฃผ์ ๋น๊ต๊ตฐ์ ์ฌ์ฉํ์ต๋๋ค:
- Transformer ๊ธฐ๋ฐ ์ ์ฑ
: ์ด ์ ๊ทผ์ ์ต๊ทผ ์ฌ๋ฌ ๋ฉํฐ๋ชจ๋ฌ RL์์ ๊ฐ ๊ฐ์ฒด๋ ์์๋ฅผ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํด Transformer๋ก ์์ฌ๊ฒฐ์ ํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๊ทธ๋ํ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ณ , ๊ฐ ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ์ํ ํผ์ฒ๋ค์ ๋จ์ ๋์ดํ ์ํ์ค ์
๋ ฅ์ผ๋ก ์ทจ๊ธํฉ๋๋ค. PyTorch
TransformerEncoder๋ฅผ ์ด์ฉํด ์ด ์์ฐจ ์ ๋ ฅ์ ๋ช ๊ฐ ๋ ์ด์ด ํต๊ณผ์ํจ ํ, ํ์ํ ๋งํผ ์ถ๋ ฅ์ ๋ฝ์ ํ๋์ผ๋ก ์ผ์์ต๋๋ค. Transformer๋ ์ ์ญ์ ์ดํ ์ ์ผ๋ก ์ ๋ ฅ๋ค ์ฌ์ด ๊ด๊ณ๋ฅผ ํ์ต์ผ๋ก ํ์ ํด์ผ ํ๋ฏ๋ก, ๊ตฌ์กฐ์ inductive bias๋ ์์ต๋๋ค. ๊ทธ๋ผ์๋ Transformer๋ ์ถฉ๋ถํ ์ฉ๋(capacity)์ ์ง๋ ๋ชจ๋ธ์ด๊ณ , ์ด์ง์ ์ธ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๋ ๋ฐ ๋๋ฆฌ ์ฐ์ฌ์์ผ๋ฏ๋ก ๊ฐ๋ ฅํ baseline์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ํนํ Hong et al.(2022)์ โStructure-aware Transformerโ๋ Gupta et al.(2022) ๋ฑ์ ์ฐ๊ตฌ์์ ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ๋ค๋ฃจ๋ RL์ Transformer๋ฅผ ์ด ์ฌ๋ก๊ฐ ์์ด, ์ด ๋ ผ๋ฌธ์์๋ Transformer๋ฅผ ์ผ์ข ์ SOTA ๋์ฉBaseline์ผ๋ก ์ค์ ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. - Naive EMPN (๋์ง ๋ฑ๋ณ GNN): ์ด๊ฒ์ HEPi์์ ์ด์ง์ฑ ์ฒ๋ฆฌ๋ฅผ ์ ๊ฑฐํ ๋ฒ์ ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ฆ ๋ ธ๋ ๊ฐ ๊ตฌ๋ถ ์์ด ํ๋์ ๋ฑ๋ณ ๋ฉ์์ง ์ ๋ฌ ๋คํธ์ํฌ๋ก ๋ชจ๋ ๋ ธ๋๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์ ๋๋ค. ๊ตฌ์กฐ์ ์ผ๋ก๋ HEPi์ ๋ง์ฐฌ๊ฐ์ง๋ก SE(3) ๋ฑ๋ณ์ฑ์ ๊ฐ์ถ์์ง๋ง, ์ก์ถ์์ดํฐ์ ๋ฌผ์ฒด๋ฅผ ๋ณ๋๋ก ๋ค๋ฃจ์ง ์๊ณ ๋จ์ผ ๊ทธ๋ํ๋ก ๋ฌถ์ด์ ๋์ผํ ๋ฐฉ์์ผ๋ก ๋ฉ์์ง๋ฅผ ์ฃผ๊ณ ๋ฐ์ต๋๋ค. ์ฃ์ง๋ ๋ก๋ด-๋ฌผ์ฒด ๊ตฌ๋ถ ์์ด ๋ชจ๋ ์ธ์ ๋ ธ๋ ์ ๊ฐ ์ฐ๊ฒฐ๋ ๊ฒ์ ๋๋ค. ์ฝ๊ฒ ๋งํด โ์ด์ข โ์ด ์๋ โ๋์ข ๋ฑ๋ณ GNNโ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ฌ์ ํ ๋์นญ์ฑ์ ํ์ฉํ๋ฏ๋ก Transformer๋ณด๋ค๋ ์ ๋ฆฌํ ์ ์์ผ๋, ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ์ญํ ์ฐจ์ด๋ฅผ ๋ชจํธํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ HEPi๋ณด๋ค๋ ํํ๋ ฅ์ด ๋ฎ์ ์ ์์ต๋๋ค. ์ ์๋ค์ ์ด naive EMPN์ด ๋ณต์กํ 3D ๊ณผ์ ์์ ํํ ๋ถ์กฑ์ผ๋ก ๊ตญ์ง ์ต์ ํด์ ๋จธ๋ฌผ๋ ๋ค๊ณ ๋ถ์ํฉ๋๋ค.
- ์ถ๊ฐ ๋น๊ต (Heterogeneous GNN ๋ฑ): ์ฃผ๋ ์คํ์์๋ ์ ๋ baseline๊ณผ HEPi๋ฅผ ๋น๊ตํ์ง๋ง, Cloth-Hanging ๊ฐ์ด ์ด๋ ค์ด ๊ณผ์ ์์๋ ์ฐธ๊ณ ๋ก ๋ ๊ฐ์ง ์ถ๊ฐ baseline์ ํ ์คํธํ์ต๋๋ค. ํ๋๋ Heterogeneous GNN (๋น๋ฑ๋ณ)์ด๊ณ , ๋ค๋ฅธ ํ๋๋ naive GNN (๋น๋ฑ๋ณ)์ ๋๋ค. ์ ์๋ ์ฐ๋ฆฌ ๋ ผ๋ฌธ ๊ธฐ๋ฒ์ฒ๋ผ ๋ ธ๋ ์ข ๋ฅ๋ฅผ ๊ตฌ๋ถํ๋ ๋ฑ๋ณ ์ ์ฝ์ด ์๋ ์ผ๋ฐ GNN์ ๋๋ค. ํ์๋ ๋ ธ๋ ๊ตฌ๋ถ๋ ์๊ณ ๋ฑ๋ณ๋ ์๋ ๊ทธ๋ฅ ์ผ๋ฐ GNN์ด์ง์. ์ด๋ค์ Transformer๋ EMPN๋ณด๋ค๋ ์ฑ๋ฅ์ด ๋จ์ด์ก๋๋ฐ (ํ์ต์ด ๊ฑฐ์ ์๋๋ ์์ค), ์ด๋ฅผ ํตํด ๋ฑ๋ณ์ฑ์ ์ด์ ๊ณผ ์ด์ข ๋ชจ๋ธ๋ง์ ์ด์ ์ ๊ฐ๊ฐ ๊ฒ์ฆํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฑ๋ณ์ฑ๋ง ๊ฐ์ถ๋ฉด Transformer๋ณด๋ค ํฅ์๋๋ฉฐ, ์ด์ข ์ค๊ณ๊น์ง ํ๋ฉด ๋์ฑ ๊ฐ์ ๋จ์ ์คํ์ผ๋ก ํ์ธํ ๊ฒ์ ๋๋ค.
๋น๊ต ์คํ์ ๋ชจ๋ ๊ณผ์ ์ ๋ํด ์งํ๋์๊ณ , ์์ ์ธ๊ธํ PPO vs TRPL ์๊ณ ๋ฆฌ์ฆ ๋น๊ต๋ ํจ๊ป ์ค์๋์์ต๋๋ค. ์ฆ HEPi์ Transformer์ ๋ํด ๊ฐ๊ฐ PPO๋ก ํ์ตํ ๊ฒฝ์ฐ์ TRPL๋ก ํ์ตํ ๊ฒฝ์ฐ๋ฅผ ๊ต์ฐจ ๋น๊ตํ์ฌ, ์๊ณ ๋ฆฌ์ฆ์ด ๋ฏธ์น๋ ์ํฅ๋ ํ๊ฐํ์ต๋๋ค. ์ด๋ฌํ ๋ณตํฉ์ ์ธ ๋น๊ต๋ฅผ ํตํด โ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ฐ์โ์ โํ์ต ๊ธฐ๋ฒ์ ์ฐ์โ๋ฅผ ๋ถ๋ฆฌํด์ ์ดํด๋ณผ ์ ์์์ต๋๋ค.
์ฃผ์ ์คํ ๊ฒฐ๊ณผ
1. ํ์ต ๊ณก์ ๋ฐ ์ฑ๋ฅ ๋น๊ต:
7๊ฐ ๊ณผ์ ์์ ์ํผ์๋ ๋ฆฌํด(๋์ ๋ณด์)์ ํ์ต๊ณก์ ์ ๋น๊ตํ ๊ฒฐ๊ณผ, HEPi๊ฐ ์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๋ณต์กํ 3D ํ๊ฒฝ์ด๋ ํ์ ๋๋๊ฐ ๋์ ๊ณผ์ ์์ HEPi์ ๋ฆฌํด์ด ๊ฐํ๋ฅด๊ฒ ์์นํ๊ณ ์ต์ข ์์ค๋ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด Rigid-Insertion-Two-Agents-3D (๋ ๋ก๋ด 3D ์ฝ์ ) ๊ณผ์ ์ ๊ฒฝ์ฐ, Transformer๋ ๋ค์ํ ์์ธ์ ๋ชจ๋ ๋์ํ๋ ์ ์ฑ ์ ์ฐพ์ง ๋ชปํด ์ฑ๋ฅ์ด ์ ์กฐํ๊ณ , naive EMPN์ ์ด๋ ์ ๋ ๋์นญ์ฑ์ ์ด์ฉํด ๋์์ง ์์ ์ถ๋ฐ์ ๋ณด์์ง๋ง ์ค๊ฐ์ ์ฑ๋ฅ ํฅ์์ด ์ ์ฒด๋์์ต๋๋ค. ๋ฐ๋ฉด HEPi๋ ์ง์์ ์ผ๋ก ํ์ต์ด ์งํ๋์ด ์ต์ข ์ ์ผ๋ก ๋ baseline์ ํฐ ๊ฒฉ์ฐจ๋ก ์์ง๋ ์ต๋๋ค. Rigid-Pushing-2D๋ ์ ์ฌํ๊ฒ, ๋ฌผ์ฒด๋ฅผ ์์ ๋กญ๊ฒ ๋ฐ์ด์ผ ํ๋ ํ์ํ ๊ณผ์ ์ธ๋ฐ, Transformer๋ ๋ฌด์์ ํ์์ ๋จธ๋ฌด๋ฅด๋ ๊ฒฝํฅ์ ๋ณด์ด๊ณ EMPN์ ํํ ํ๊ณ๋ก ์ต์ ํด๋ฅผ ๋์ณค์ง๋ง, HEPi๋ ๋ ํจ๊ณผ์ ์ธ ํ์ ์ ๋ต์ ์ค์ค๋ก ๋ฐ๊ฒฌํ์ฌ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๋ฐ๋ฉด, ๋์ด๋๊ฐ ๋ฎ๊ฑฐ๋ ๊ธฐํํ์ ๋ณต์ก๋๊ฐ ์ ์ ๊ณผ์ ์์๋ ์ธ ๋ชจ๋ธ ๊ฐ ํฐ ์ฐจ์ด๊ฐ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด Rigid-Insertion-2D+z (2D ํ๋ฉด์ + ์ฝ๊ฐ์ ๋์ด ๋ฐฉํฅ๋ง ์๋ ์ฝ์ ) ๊ณผ์ ์์๋ Transformer์ HEPi๊ฐ ์ ์ฌํ ์ต์ข ์ฑ๋ฅ์ ๋์ต๋๋ค. ์ด๋ ๊ณผ์ ์์ฒด๊ฐ ๋น๊ต์ ๊ฐ๋จํ์ฌ ๋ฑ๋ณ ์ ์ฝ์ ์ด์ ์ด ํฌ๊ฒ ๋๋ฌ๋์ง ์์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋ฉ๋๋ค. ์ค์ ๋ก 2D ํ๊ฒฝ์์๋ ํ์ ๋์นญ์ด ํ ๊ฐ์ง ๊ฐ๋ ์ฐจ์๋ง ์๊ณ , ๋ชฉํ ์์น๋ ํ๋ฉด์์ด๋ผ 3D๋งํผ ์ด๋ ต์ง ์์ต๋๋ค. ๊ทธ๋ฌ๋ค๋ณด๋ Transformer๋ ํ๋์ ๋ฐ๋ผ ๊ทธ๋ญ์ ๋ญ ๋ฐฐ์ธ ์ ์์๊ณ , HEPi์ ํฐ ์ฐจ์ด๊ฐ ์์๋ ๊ฒ์ด์ฃ . ์ด๋ฐ ๊ฒฝ์ฐ๋ ์ ์ฑ ํํ๋ ฅ์ด ํฌ๊ฒ ์๊ตฌ๋์ง ์๋ ์ํฉ์ด๋ผ ํ ์ ์์ต๋๋ค.
๋ฐง์ค ๊ณผ์ ๋ค์ ๋ํด์๋, Rope-Closing๊ณผ Rope-Shaping ๋ชจ๋ HEPi์ naive EMPN์ด ๋น์ทํ ์ฑ๋ฅ ๊ณก์ ์ ๋ณด์๊ณ Transformer๋ ๋ค์ ๋ค์ณ์ก์ต๋๋ค. ๋ฐง์ค ๊ฐ๊ธฐ๋ W์ ๋ง๋ค๊ธฐ๋ 2D ์์์ ์ฃผ๋ก ์งํ๋๊ณ ๋ณํ์ฒด๋ผ๊ณ ํด๋ ๊ตฌ์กฐ๊ฐ ๋น๊ต์ ๋จ์ํ ํธ(์ ํํ)์ด๋ผ, ์ด์ง์ฑ์ ํจ๊ณผ๊ฐ ํฌ๊ฒ ๋๋๋ฌ์ง์ง ์์๋ ๊ฒ์ผ๋ก ๋ถ์๋ฉ๋๋ค. ํนํ Rope-Closing์ ๋ชฉํ๊ฐ ๋จ์ํ ๋๋ผ๋ฆฌ ๊ฐ๊น์์ง๋ ๊ฒ์ด๊ณ , Rope-Shaping๋ W ๋ชจ์์ผ๋ก ๋ง๋ค๊ธฐ ์ํด ๊ทธ์ ๊ฐ ๋ถ๋ถ ๊ฐ๋๋ฅผ ๋ง์ถ๋ฉด ๋๋ ๋น๊ต์ ๊ตญ์์ ์ธ ์์ ์ ๋๋ค. ์ด๋ฌํ ๊ณผ์ ๋ค์์๋ ๋ฌผ์ฒด ์์ฒด์ ์์ ๋๊ฐ ๋์ง ์์ (๋ฐง์ค์ 1์ฐจ์ ๊ณก์ ), EMPN๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ Cloth-Hanging-3D์์๋ ์ํฉ์ด ์์ ํ ๋ฌ๋ผ์ก์ต๋๋ค. Cloth-Hanging์ ์คํํ 7๊ฐ ๊ณผ์ ์ค ๊ฐ์ฅ ์ด๋ ค์ด ์ผ์ด์ค๋ก, HEPi๋ง ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๊ณ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค์ ์ ๋ฅผ ๋จน์์ต๋๋ค. Transformer์ naive EMPN์ ์ด๋ฐ์ ์ด๋ ์ ๋ ๋ณด์์ ์ฌ๋ฆฌ๋ค ๋ ๊ฐ์ ํ์ง ๋ชปํ๊ณ ์ ์ฒด๋๊ฑฐ๋ ์คํ๋ ค ๋ถ์์ ํด์ก๋๋ฐ, HEPi๋ ๊พธ์คํ ํ์ตํ์ฌ ํ์ ํ ๋์ ๋ฆฌํด์ ๋๋ฌํ์ต๋๋ค. ์ด๋ 3์ฐจ์ ๋๊ท๋ชจ ๋ณํ์ฒด ๋ฌธ์ ์์ ๋ฑ๋ณ์ฑ๊ณผ ์ด์ง์ ์ค๊ณ์ ๊ฐ์น๊ฐ ๊ทน๋ํ๋ ์ฌ๋ก๋ผ ๋ณผ ์ ์์ต๋๋ค. ์ฒ ๊ฑธ๊ธฐ๋ ์ท๊ฑธ์ด ๋ฐฉํฅ์ด ์ด๋ฆฌ์ ๋ฆฌ ๋ฐ๋๊ณ ์ฒ์ ํํ๋ ์์๊ฐ๊ฐ ๋ณํ๋, ์ ์ฑ ์ด ํ์ ๋์นญ๋ ์์์ผ ํ๊ณ ๋ก๋ด 4๊ฐ์ ํ๋๋ ๋์์ ๋ฌ์ฑํด์ผ ํฉ๋๋ค. HEPi๋ ๋ฑ๋ณ EMPN์ผ๋ก ํ์ /์ด๋์ ๋์ํ๊ณ , 4๊ฐ ๋ก๋ด-์ฒ ์ ์ ๊ฐ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ตํํ์ฌ ์ด ๋์ ๋ฅผ ์ด๋ ์ ๋ ํ์ด๋ธ ๊ฒ์ ๋๋ค.
2. ์ ์ฑ ์ ์ผ๋ฐํ ๋ฅ๋ ฅ:
์ฑ๋ฅ ๋น๊ต ์ธ์, ์ ์๋ค์ HEPi ์ ์ฑ ์ด ํ๋ จ ์ ๋ณด์ง ๋ชปํ ์ํฉ์ ์ผ๋ง๋ ์ผ๋ฐํ๋๋์ง๋ ์ํํ์ต๋๋ค. ๋ ๊ฐ์ง ์ถ์์ ์คํํ๋๋ฐ, (a) ๋ฌผ์ฒด์ ํด์๋ ๋ณํ ๋ฐ ์ผ์ ๋ ธ์ด์ฆ์ (b) ์๋ก์ด ๋ฌผ์ฒด ํํ์ ๋ํ ์ผ๋ฐํ์ ๋๋ค.
- ํด์๋ ๋ฐ ๋ ธ์ด์ฆ: ์์ Rigid-Insertion ๊ณผ์ ์์ ๋งํ๋ฏ์ด, ๋ฌผ์ฒด์ ๋ฉ์ฌ ํด์๋๋ฅผ ๋ฎ์ถฐ ํ์ตํ ๋ชจ๋ธ์ด ๊ณ ํด์๋ ๋ฉ์ฌ์์๋ ์ ๋์ํ๋์ง ํ์ธํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ํ๋ จ ์์๋ ๋ฌผ์ฒด ํ๋ฉด์ ๋ํํ๋ ๋ ธ๋๋ฅผ 20๊ฐ๋ง ์ฐ๋ ๊ฒ์, ํ ์คํธ ๋๋ ๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ ์ด์ดํ 1200๊ฐ ๋ ธ๋ ๋ฉ์ฌ๋ก ํํํ ํ (์ฆ ๊ด์ฐฐ ์ฐจ์์ด 60๋ฐฐ ๋์ด๋ ์ํฉ), HEPi ์ ์ฑ ์ ์คํํด ๋ณด์์ต๋๋ค. ๊ฒฐ๊ณผ HEPi๋ ํด์๋๊ฐ ํฌ๊ฒ ๋ณํด๋ ์ฑ๋ฅ์ ์ ์งํ์ต๋๋ค. ์ด๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง์ ๊ตญ์์ฑ ๋๋ถ์ธ๋ฐ, GNN์ ๋ ธ๋ ์๊ฐ ๋์ด๋๋ ๊ตญ์ ์ ๋ณด๋ง ์ฃผ๊ณ ๋ฐ์ผ๋ฏ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์๋ ์ํฅ์ด ์๊ณ , ์ฃผ๋ก ์ ๋ ฅ ์ ๊ทํ๋ง ์ ๋์ด ์์ผ๋ฉด ๋์ฒํ ์ ์์ต๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์๋ GNN์ ๊ณผ๋ํ ๋ฉ์์ง๋ก ์ธํ oversmoothing/oversquashing์ ๋ง๊ธฐ ์ํด Graph Norm ๋ฑ์ ์ฌ์ฉํ๋ค๊ณ ์ธ๊ธํฉ๋๋ค. ๋ํ ๊ด์ธก ์ก์(Gaussian noise)์ ๋ค์ํ ์ธ๊ธฐ๋ก ์ถ๊ฐํด ํ ์คํธํ ๊ฒฐ๊ณผ๋ ์ ์ํ๋๋ฐ, ๋ ธ์ด์ฆ ์์ค์ด ์กฐ๊ธ ๋์์ ธ๋ HEPi์ ์ฑ๋ฅ ์ ํ๋ ๊ฒฝ๋ฏธํ ์์ค์ ๊ทธ์ณค์ต๋๋ค. ๊ฒฐ๊ตญ HEPi๋ ๋ฌผ์ฒด ํํ์ด ์ธ๋ฐํด์ ธ๋, ์ผ์ ๋ฐ์ดํฐ๊ฐ ์ฝ๊ฐ ํ๋ค๋ ค๋ ๊ฐ์ธํ๊ฒ ์๋ํ์๊ณ , ์ด๋ ์ค์ ๋ก๋ด ์ ์ฉ ์ ์ค์ํ ์์ฑ์ด์ง์.
- ์๋ก์ด ๋ฌผ์ฒด ํํ: rigid ๊ณผ์ ๋ค์์, ํ์ต์ ์ฌ์ฉ๋์ง ์์ ์๋ก์ด ํ์์ ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ํ ์คํธ๋ฅผ ์ํํ์ต๋๋ค. ์์ปจ๋ ์ฝ์ ๊ณผ์ ์์ ํ๋ฌ์ค, T, ๋ณ ๋ฑ 8์ข ์ค 6์ข ๋ง ํ๋ จ์ ์ฐ๊ณ , ๋๋จธ์ง 2์ข ํํ์ ๋ฌผ์ฒด๋ฅผ ํ ์คํธ์๋ง ๋ฑ์ฅ์ํค๋ ๋ฐฉ์์ ๋๋ค. ๊ฒฐ๊ณผ๋ ๊ณ ๋ฌด์ ์ด์๋๋ฐ, HEPi๋ ๋ณธ ์ ์๋ ๋ฌผ์ฒด๋ ์ ๋๋ก ๋ค๋ฃฐ ์ ์์๊ณ ์ฑ๋ฅ ์ ํ๊ฐ ์์์ต๋๋ค. ๋ฐ๋ฉด Transformer ๊ธฐ๋ฐ ์ ์ฑ ์ ๊ทธ๋ฐ ์ผ๋ฐํ๊ฐ ์ฝ์ง ์์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ก์ต๋๋ค. HEPi์ ๊ธฐํํ์ ํ์ต ๋ฐฉ์์ด ๋ชจ์์ด ๋ฌ๋ผ์ ธ๋ ์๋ฆฌ์ ์ผ๋ก ์ ๋์ํ ๋๋ถ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ์ฆ ๋ฑ๋ณ GNN์ ๋ฌผ์ฒด ํํ๊ฐ ๋ฐ๋์ด๋ ๊ทธ๋ํ ๊ตฌ์กฐ๋ก ํํํ๋ฉด ๋น์ทํ ๋ฉ์์ง ํจํด์ ํ์ฉํ ์ ์๊ณ , ๋ก๋ด์ ํ์ํ ์ ๋ ฌ ๋์์ ์ด์ฐจํผ ์๋์ ์์น๋ก ๊ฒฐ์ ๋๋ ๋ฌธ์ ์์๋ ๊ฒ์ด์ฃ . ์ด๋ฐ ์ฑ์ง์ ์ผ๋ฐ์ ์ธ ๊ธฐํํ์ ์ถ์ํ ๋ฅ๋ ฅ์ผ๋ก ํด์ํ ์ ์์ผ๋ฉฐ, ๊ถ๊ทน์ ์ผ๋ก ๋ก๋ด์ ๋ฒ์ฉ์ฑ์ ๋์ด๋ ๋ฐฉํฅ์ ๋๋ค.
3. ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ฅธ ํ์ต ์์ ์ฑ:
HEPi ๊ตฌ์กฐ ๊ทธ ์์ฒด์ ๋น๊ต ์ธ์๋, PPO vs TRPL ์๊ณ ๋ฆฌ์ฆ์ ์ํฅ ๋น๊ต ๊ฒฐ๊ณผ๋ ํฅ๋ฏธ๋กญ์ต๋๋ค. Figure 7 (๋ถ๋ก์ ๊ทธ๋ฆผ)์ ๋ณด๋ฉด, HEPi+TRPL์ ๋ชจ๋ ๊ณผ์ ์์ ์์ ์ ์ผ๋ก ํ์ต์ด ์งํ๋๋๋ฐ ๋นํด HEPi+PPO๋ Cloth-Hanging-3D ๊ฐ์ ์ด๋ ค์ด ๊ณผ์ ์์ ํ์ฐจ ๊ฐ ๋ณด์ ๋ณ๋์ด ์ฌํ๊ณ ์ผ๋ถ seed์์๋ ์์ ํ์ต์ด ์ ๋๋ ์ผ์ด์ค๋ ์์์ต๋๋ค. Transformer ์ ์ฑ ์ ๊ฒฝ์ฐ๋ TRPL์ด PPO๋ณด๋ค ๊พธ์คํ ์ข์์ง๋ง, Transformer ์์ฒด๊ฐ ํ์์ ์ ๋ชปํ๋ ์ ๋ ์ฑ๋ฅ์ ๋ฎ์์ต๋๋ค. ์์ปจ๋ TRPL ์๊ณ ๋ฆฌ์ฆ์ ์ฅ์ ์ ํนํ ๊ณ ์ฐจ์/๊ณ ๋๋ ๋ฌธ์ ์์ ๋๋๋ฌ์ก๊ณ , 2D ๋ฌธ์ ๋ค์์๋ ์ ํ๋ํ PPO๋ ๋น์ทํ๊ฒ ๊ฐ ์๋ ์์์ต๋๋ค. ๊ทธ๋ฌ๋ PPO๋ ํ๋์ ๋ฏผ๊ฐํ๊ณ ์ํ ํจ์จ๋ ์ฝ๊ฐ ๋จ์ด์ง๋ ๊ฒฝํฅ์ ๋ณด์๋ค๊ณ ํฉ๋๋ค. ์ด ์คํ์, ๋ชจ๋ธ์ inductive bias๋ฟ ์๋๋ผ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ณด๊ฐ๋ ์ค์ํ๋ค๋ ์ ์ ์ผ๊นจ์์ค๋๋ค. ์ฌ์ค ๋ณต์กํ ํ๊ฒฝ์์๋ ์ ์ฑ ์ด ์กฐ๊ธ์ด๋ผ๋ ์๋ชป ์ ๋ฐ์ดํธ๋๋ฉด ๊ธ์ธ ํ์ต ์ ํธ๊ฐ ์ฌ๋ผ์ง๊ฑฐ๋ ๋ง๊ฐ์ง๋๋ฐ, TRPL์ ๊ทธ๋ฐ ํฐ ์ ์ฑ ๋ณํ๋ฅผ ๋ง์์ฃผ๋ฏ๋ก HEPi์ ์ข์ ๋ชจ๋ธ ์ค๊ณ๊ฐ ํจ๊ณผ๋ฅผ ๋ฐํํ ์๊ฐ์ ๋ฒ์ด์ฃผ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. ๋ง์ฝ PPO๋ง ์ผ๋ค๋ฉด HEPi์ ์ฅ์ ์ด ๋ฌปํ์ ์ ์์ง๋ง, TRPL ๋๋ถ์ HEPi๊ฐ ๊ฐ์ง ์ํ ํจ์จ, ํ์ ๋ฅ๋ ฅ์ ๊ทน๋ํ๊ฐ ๊ฐ๋ฅํด์ง ๊ฒ์ด์ฃ .
์ ๋์ ์์น๋ก ๋ณด์์ ์ผ์ผ์ด ๋์ดํ์ง๋ ์์์ง๋ง, ๋ ผ๋ฌธ์ ์ ์๋ ๊ณก์ ๊ณผ ํ๋ค์ ์ข ํฉํ๋ฉด ๋๋ต ๋ค์๊ณผ ๊ฐ์ ์ฑ๊ณผ ์์ฝ์ ํ ์ ์์ต๋๋ค: HEPi๋ 7๊ฐ ๊ณผ์ ์ค 6๊ฐ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์๊ณ (Rigid-Insertion-2D+z์์๋ง Transformer์ ๋น์ท), ํ์ต ์๋๋ Transformer ๋๋น ์๋ฐฐ ์ด์ ๋น ๋ฅธ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค. naive EMPN๊ณผ ๋น๊ตํด์๋ ํ์ ๋์ด๋๊ฐ ์๋ ๊ณผ์ ์์ ์ฐ์ํ๊ณ ์. Cloth-Hanging์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ณด๋ฉด, HEPi๋ ๋ค ๋ก๋ด์ ์ ์ ํ ์์ง์ฌ ์ฒ์ ๊ตฌ๋ฉ์ ์ท๊ฑธ์ด์ ์ ํํ ๊ฑธ์ณค๋๋ฐ, ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ์ค๊ฐ์ ์ฒ์ด ๊ผฌ์ด๊ฑฐ๋ ๋ก๋ด ํ์ด ์๋ฑํ ๊ณณ์ผ๋ก ๊ฐ ์คํจํ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด์๋ค๊ณ ํฉ๋๋ค (๋ถ๋ก์ ๊ทธ๋ฆผ ์ฌ๋ก ์ฐธ์กฐ).
4. ์ถ๊ฐ ๋ถ์๊ณผ ์๋ธ๋ ์ด์ :
๋ ผ๋ฌธ ๋ณธ๋ฌธ๊ณผ ๋ถ๋ก์๋ HEPi์ ์ค๊ณ์ ๋ํ ๋ช ๊ฐ์ง ์ถ๊ฐ ๋ถ์๋ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฉ์์ง ์ ๋ฌ ๋ ์ด์ด ์๋ฅผ ๋๋ฆฌ๋ฉด ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋๋์ง ์คํํ๋๋ฐ, ๋๋ฌด ๋ง์ ๋ ์ด์ด๋ฅผ ์์ผ๋ฉด oversquashing ๋ฌธ์ ๊ฐ ์๊ฒจ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์์ ๋ณด์์ต๋๋ค. ์ฆ ์ ๋นํ ์์ค(์: 3~4ํ) ๋ฉ์์ง ์ ๋ฌ์ด ์ต์ ์ด๊ณ , ๋ฌด์์ ๊น๊ฒ ํ๋ค๊ณ ์ข์๊ฒ ์๋๋ผ๋ ๊ฒ์ ๋๋ค. ๋ํ ๊ฐ์ ๋ ธ๋(Virtual Node)๋ฅผ ์ฐ๋ ๋ฐฉ๋ฒ๊ณผ HEPi๋ฅผ ๋น๊ตํ ์คํ์์๋, Virtual Node๋ฅผ ๋ฃ์ ๊ฒฝ์ฐ ๋ฌผ์ฒด-๋ก๋ด ์ ๋ณด๊ตํ์ด ํ ๋ฒ์ ์ ๋์ด ํ์ต์ด ์ฝ๊ฐ ๋๋ฆฌ๊ณ ์ต์ข ์ฑ๋ฅ๋ ๋ฎ์์ ํ์ธํ์ต๋๋ค. ์ด๋ ์์ ๋ ผํ HEPi ์ค๊ณ์ ์ด์ ์ ๊ฒฝํ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ์ปดํจํ ์ด์ ์ธก๋ฉด์์, HEPi๋ Transformer๋ณด๋ค ํ๋ จ๋น ์๊ฐ์ ์ฝ๊ฐ ๋ ๊ฑธ๋ฆฌ์ง๋ง (๊ทธ๋ํ ์ฐ์ฐ ์ค๋ฒํค๋), ์ํ ํจ์จ์ด ์ข์ ์ ์ฒด ํ์ต์ ํ์ํ ํ๊ฒฝ step ์๊ฐ ์ ๋ค ๋ณด๋ ์ต์ข ์ ์ผ๋ก ๊ฑธ๋ฆฐ ์๊ฐ์ ์๋น์ทํ๊ฑฐ๋ ๋ ์ ์๋ค๊ณ ํฉ๋๋ค. ํนํ Cloth-Hanging ๊ฐ์ ๊ฒฝ์ฐ Transformer๋ ์ค๋ ํ์ตํด๋ ์ฑ๋ฅ์ด ๋ฎ์ ์๊ฐ ๋ญ๋น์์ง๋ง HEPi๋ ๋นจ๋ฆฌ ์๊ณ ์ฑ๋ฅ์ ๋๋ฌํด ์ผ์ฐ ๋ฉ์ถ ์ ์์๋ค๋ ์์ ๋๋ค.
๋นํ์ ๊ณ ์ฐฐ: ๊ฐ์ , ์ฝ์ ๊ณผ ํฅํ ๋ฐฉํฅ
(1) ์ฃผ์ ๊ธฐ์ฌ ๋ฐ ๊ฐ์ : ์ด ๋ ผ๋ฌธ์ ๋ก๋ด ํ์ต์ ๊ธฐํํ์ ์ธ์ฌ์ดํธ๋ฅผ ๋ น์ฌ๋ธ ํ๋ฅญํ ์ฌ๋ก์ ๋๋ค. ๋ช ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ ์ง์ด๋ณด๊ฒ ์ต๋๋ค:
- ๋ฒ์ฉ์ ์ธ ๊ทธ๋ํ ํํ์ ์ ์: ๋ก๋ด-๋ฌผ์ฒด ์ํธ์์ฉ์ ์ด์ข ๊ทธ๋ํ๋ก ํตํฉ ํํํ ์์ด๋์ด๋, ๋จ์ผ ํ๋ ์์ํฌ๋ก ๋ค์ํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฐ ์ ์๊ฒ ํด์ค๋ค๋ ์ ์์ ๊ฐ์น๊ฐ ๋์ต๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ์ฝ์ , ๋ฐ๊ธฐ, ๋ฐง์ค, ์ฒ ๋ฑ ์ฑ๊ฒฉ์ด ํ์ดํ ์์ ๋ค์ ๋ชจ๋ ๊ทธ๋ํ ํ๋๋ก ํํํ์ฌ ๋์ผํ ์ ์ฑ ๊ตฌ์กฐ๋ก ํ์ตํ์ต๋๋ค. ์ด๋ ๋ก๋ด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋ํ์ฃผ๋ ๋ฐฉํฅ์ ๋๋ค. ์์ผ๋ก ์๋ก์ด ๊ณผ์ ๊ฐ ์ถ๊ฐ๋๋๋ผ๋, ํด๋น ๊ณผ์ ๋ฅผ ๊ทธ๋ํ ํํ๋ก ์ ๋ชจ๋ธ๋งํ๊ธฐ๋ง ํ๋ฉด HEPi๋ ์ ์ฌํ ์ ์ฑ ์ผ๋ก ์ ๊ทผํ ์ ์์ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ํํ๋ ฅ์ ๋ฒ์ฉ์ฑ์ ๋ก๋ด์๊ฒ ์์ด ์ค์ํ ์ ์๋ ฅ์ ์๋ฏธํฉ๋๋ค.
- ๋์นญ์ฑ ํ์ฉ์ผ๋ก ํจ์จ ๊ทน๋ํ: SE(3) ๋ฑ๋ณ ์ ์ฑ ์ ๋์ ์ ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ์ธก๋ฉด์์ ํฐ ํจ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. ๋ณต์กํ 3์ฐจ์ ๋ฌธ์ ์์ HEPi๊ฐ ์์ ์ ์ผ๋ก ํ์ตํ ์ ์์๋ ๋น๊ฒฐ ์ค ํ๋๊ฐ ๋ฐ๋ก ์ด ๋ฑ๋ณ์ฑ์ ๋๋ค. ํํ ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ์๊ตฌ๋์ด ๋ง์ ํ์ค์ ์ ์ฉ๋๊ธฐ ์ด๋ ค์ด๋ฐ, ๋์นญ์ฑ์ ํ์ฉํ๋ฉด ํ์ต ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์ฌ๋ ฅ์ด ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฑ๋ณ GNN์ผ๋ก ์ค์ ์ด๋ ค์ด ๊ณผ์ ๋ฅผ ํผ ์ฌ๋ก๋ฅผ ์ ์ํจ์ผ๋ก์จ, ํฅํ ๋์นญ์ฑ ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ด ๋ก๋ด RL์ ํ์ค ํด์ด ๋ ์ ์์์ ๋ณด์ฌ์คฌ์ต๋๋ค.
- ์ด์ง์ฑ ๋ชจ๋ํ ์ค๊ณ: HEPi์ ๊ตฌ์กฐ์ ์ค๊ณ๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง์ ์ ๋ณด ํ๋ฆ์ ๋๋ํ๊ฒ ์กฐ์งํํ ์์ ๋๋ค. ํนํ ๋ก๋ด-๋ฌผ์ฒด ์ฌ์ด ํ ํ ์ฐ๊ฒฐ์ ํตํด ๋น ๋ฅธ ์ ๋ณด ๊ตํ์ ๊ฐ๋ฅ์ผ ํ ์ , ๋ก๋ด ํด๋ฌ์คํฐ์ ๋ฌผ์ฒด ํด๋ฌ์คํฐ๋ฅผ ๋ถ๋ฆฌ ์ฒ๋ฆฌํด์ ์ญํ ๋ณ ํํ์ ๊ทน๋ํํ ์ ๋ฑ์ด ๋๋ณด์ ๋๋ค. ์ด๋ก์จ HEPi๋ Transformer ๋๋น ๋งค์ฐ ๊ฐ๋ฒผ์ด ํ๋ผ๋ฏธํฐ ์๋ก๋ ๋์ ํํ๋ ฅ์ ๋ฐํํฉ๋๋ค. ์ค์ Transformer๋ global attention์ผ๋ก O(n^2) ์ํธ์์ฉ์ ๋ชจ๋ ํ์ตํด์ผ ํ์ง๋ง, HEPi๋ ๊ตฌ์กฐ์ ํ์ํ ์ํธ์์ฉ๋ง (์: ๋ฌผ์ฒด->๋ก๋ด) ์ฆ์ ์ฒ๋ฆฌํ๋ฏ๋ก ํ์ต ๋์ด๋๋ฅผ ๋ฎ์ถ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ์ธ์์ ์ธ ๊ตฌ์กฐ์ prior๋ ํน์ ์ํฉ์์๋ ์ ์ฝ์ผ๋ก ์์ฉํ ์๋ ์์ง๋ง, ๋ณธ ๋ ผ๋ฌธ ๊ณผ์ ๋ค์์๋ ์คํ๋ ค ํ์ํ ์ ์ฝ์ด ๋์ด ํ์์ ๋์์ฃผ์์ต๋๋ค.
- ์๋ก์ด ๋ฒค์น๋งํฌ์ ์คํ ๋ถ์: ๋ ผ๋ฌธ์ด ๊ธฐ์ฌํ ๋ ๋ค๋ฅธ ๋ถ๋ถ์ ๊ฐํํ์ต์ฉ ์ด๋ ค์ด ์กฐ์ ๊ณผ์ ๋ค์ ๋ง๋ค์ด ๊ณต๊ฐํ๋ค๋ ์ ์ ๋๋ค. Rope-Shaping, Cloth-Hanging ๋ฑ์ ๊ทธ๊ฐ ์ฃผ๋ก ๋ชจ๋ฐฉํ์ต์ด๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด ๋ฑ์์ ๋ค๋ค์ก๋ ๋ฌธ์ ์ธ๋ฐ, ์์ RL๋ก ํ์ด๋ณด๋ ค ์๋ํ ๊ฒ ์์ฒด๊ฐ ์๋ฏธ ์์ต๋๋ค. ์ด ๊ณผ์ ์์ ์๋ฎฌ๋ ์ดํฐ์ ํ์ฉ์ด๋ ๋ณด์ ์ค๊ณ ๋ฑ ๋ ธ๋ ฅ์ด ๋ง์ด ๋ค์ด๊ฐ๋๋ฐ, ๋ถ๋ก์ ์์ธํ ๊ณต๊ฐํ์ฌ ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ด ์ฐธ๊ณ ํ ์ ์๋๋ก ํ์ต๋๋ค. ์ด๋ฌํ ์คํํ ์คํ ํ๊ฒฝ์ ๊ด๋ จ ์ฐ๊ตฌ ๋ถ์ผ์ ์ข์ ์๊ทน์ด ๋ ๊ฒ์ ๋๋ค. ๋ํ ์ ์๋ค์ HEPi์ ์ค๊ณ ์์๋ณ๋ก (๋ฑ๋ณ์ฑ, ์ด์ง์ฑ, trust-region ๋ฑ) ์ฒด๊ณ์ ์ธ ๋น๊ต์คํ์ ์ํํด ๊ฐ์ค์ ๊ฒ์ฆํ์ต๋๋ค. ๋๋ถ์ ๋ ์๋ค์ ์ ๊ทธ๋ฐ ์ค๊ณ๊ฐ ํ์ํ๋์ง ๋ฉ๋ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, HEPi๊ฐ ์ ๋๋๊น ์ข๋ค ์์ด ์๋๋ผ, โVirtual node vs one-hopโ, โPPO vs TRPLโ ๋ฑ์ ๋น๊ต๋ก ์์ธ-๊ฒฐ๊ณผ ๊ด๊ณ๋ฅผ ๋ถ๋ช ํ ํ์ฃ . ์ด๋ฌํ ์ค์ฆ์ ์ธ ๋ถ์์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ ๋์ฌ์ค๋๋ค.
- ์ค์ ์ ์ฉ ์ ์ฌ๋ ฅ: HEPi๋ ์์ง ์๋ฎฌ๋ ์ด์ ์์ ๊ฒ์ฆ๋ ๊ฒ์ด์ง๋ง, ๋ช ๊ฐ์ง ํน์ฑ์ ์ค์ ๋ก ์ ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ฐ์ ์ก์์ ๊ฐ์ธํ๊ณ ๊ณ ํด์๋ ์ ๋ ฅ๋ ์ฒ๋ฆฌ๊ฐ๋ฅํ๋ค๋ ๊ฒ์, ์ค์ ์นด๋ฉ๋ผ ๋ฑ ์ผ์๋ก๋ถํฐ ์ค๋ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋ ์ค์ํฉ๋๋ค. ๋ ๊ตฌ์กฐ์ ์ผ๋ก ์ฌ๋ฌ ๋ก๋ด์ ์ฝ๊ฒ ํ์ฅ ๊ฐ๋ฅํ๋ค๋ ์ (๋ ธ๋ ์ถ๊ฐ๋ง ํ๋ฉด ๋๋ฏ๋ก)์์ ๋ฉํฐ ๋ก๋ด ์์คํ ์๋ ์์ฉ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. SE(3) ๋ฑ๋ณ ์ ์ฝ์ ์ค์ ์ธ๊ณ์ ๋ฌผ๋ฆฌ ๋์นญ๊ณผ ๋ถํฉํ๋ฏ๋ก, ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ์ฐจ์ด๋ฅผ ์ค์ด๋ ํจ๊ณผ๋ ๊ธฐ๋๋ฉ๋๋ค. ์ฆ, ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ HEPi ์ ์ฑ ์ ๊ทธ๋๋ก ๋ก๋ด์ ์ด์ํ ๋, ๋ฌผ์ฒด๊ฐ ํ์ ๋์๋ค๊ณ ๋ง๊ฐ์ง์ง ์๊ณ ์ ์ํ ์ ์์ผ๋ ๋๋ฉ์ธ ์ ์ด ์ธก๋ฉด์์๋ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ์ ๋ค์ ์ด ์ฐ๊ตฌ์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๋์ฌ์ฃผ๋ ๊ฐ์ ์ ๋๋ค.
(2) ํ๊ณ ๋ฐ ๊ฐ์ ์ : ๋ชจ๋ ์ฐ๊ตฌ๊ฐ ๊ทธ๋ ๋ฏ, ์ด ๋ ผ๋ฌธ์๋ ๋ช ๊ฐ์ง ํ๊ณ๋ ์์ฌ์ด ๋ถ๋ถ์ด ์กด์ฌํฉ๋๋ค:
ํ์ค ์ธ๊ณ ์ ์ฉ ๊ฒ์ฆ ๋ถ์ฌ: ์์ ์ฅ์ ์ผ๋ก ์ค์ ์ ์ฌ๋ ฅ์ ์ธ๊ธํ์ง๋ง, ์ ์ ๋ ผ๋ฌธ์์๋ ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ๋ง ๋ค๋ฃจ๊ณ ์์ต๋๋ค. 3D ์ฒ ๊ฑธ๊ธฐ๋ ๋ฐง์ค ๋ชจ์ ๋ง๋ค๊ธฐ ๊ฐ์ ๋ณต์กํ ์์ ์ ์ค์ ๋ก๋ด์ผ๋ก ๊ตฌํํ๋ ๊ฒ์ ์์ฒญ๋ ๋์ ์ด๋ผ ์ดํด๋ ๊ฐ๋๋ค๋ง, sim-to-real์ ๋ํ ๋ ผ์๊ฐ ๊ฑฐ์ ์๋ ๊ฒ์ ์์ฌ์ด ๋ถ๋ถ์ ๋๋ค. ๊ทธ๋ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ๋ ฅ์ด ๋ฌผ์ฒด์ ๊ธฐํํ์ ์ํ(์ขํ๋ค)์ฌ์, ํ์ค์์ ์ด๋ฅผ ์ป๊ธฐ ์ํ ๋น์ ๋๋ ์ผ์ฑ ๋ชจ๋์ด ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฒ์ ์ฌ๋ฌ ์ ์ ์ขํ๋ฅผ ์ค์๊ฐ์ผ๋ก ์์๋ด๋ ค๋ฉด ๋ชจ์ ์บก์ฒ๋ 3D ๋น์ ์ด ์์ด์ผ ํ ํ ๋ฐ, ๊ทธ๋ฌํ ์ธ์ ๋ฌธ์ ๊ฐ ๊ณ ๋ ค๋์ง ์์์ต๋๋ค. ๋ฐ๋ผ์ ์ง์ง ๋ก๋ด์ ์ฐ๋ ค๋ฉด ๊ทธ๋ํ state๋ฅผ ๋ฝ์๋ด๋ ์ ์ฒ๋ฆฌ (์: ํฌ์ธํธ ํด๋ผ์ฐ๋->๊ทธ๋ํ ๋ณํ)๋ ์ ํํ ์ธ๋ถ ์ถ์ ์์คํ ๋ฑ์ด ํ์ํ ๊ฒ์ ๋๋ค. ์ด๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ์์ญ์ ๋๋ค.
์ ๋ ฅ ๋ ธ๋ ์ ๋ณ์ ์๋์ฑ: ์ฒ ๊ฑธ๊ธฐ ๊ณผ์ ์์ ๊ตฌ๋ฉ ๋๋ 10๊ฐ ๋ ธ๋๋ง ์ ํํ๋ค๋ ์ง, ์ ๋ ์ขํ ํผ์ฒ๋ฅผ ์ถ๊ฐํ๋ค๋ ์ง ํ ๋ถ๋ถ์, HEPi๋ผ๊ณ ํ๋ ๋ฒ์ฉ ์ ์ฑ ์ ์ฝ๊ฐ ์ธ๊ฐ ๊ฐ์ ์ ํ ์ฌ๋ก์ ๋๋ค. ๋ฌผ๋ก feature engineering ์์ค์ ์์ ์กฐ์ ์ผ ๋ฟ์ด์ง๋ง, ์ด๋ HEPi๊ฐ ๋ชจ๋ ๊ฒ์ end-to-end๋ก ํ์ตํ๋ค๊ธฐ๋ณด๋ค ์ด๋ ์ ๋ ๋ฌธ์ ๋ณ ํ๋์ด ํ์ํจ์ ๋ณด์ฌ์ค๋๋ค. ๋ง์ฝ ์ฒ์ ๋ค๋ฅธ ์์ (์: ์ ๊ธฐ ๋ฑ)์ ํ๋ค๋ฉด ์ด๋ค ๋ ธ๋๋ฅผ ์จ์ผ ํ ์ง, ๊ทธ๋๋ ๊ตฌ๋ฉ ๋๋ ๊ฐ ์๋ ๋ค๋ฅธ ๊ธฐ์ค์ ์จ์ผ ํ ํ ๋ฐ, ์ด๋ฌํ ๊ฒฐ์ ์ ์ฌ์ ํ ์ฌ๋ ๋ชซ์ ๋๋ค. ์ฅ๊ธฐ์ ์ผ๋ก๋ ์ด๋ฌํ ๋ ธ๋ ์ ํ๋ ์๋์ผ๋ก ํ์ตํ๊ฑฐ๋, ์ ์ญ ๋ ธ๋๊น์ง ํฌํจํ end-to-end๋ก ๊ฐ๋ ๊ฒ ์ด์์ ์ด๊ฒ ์ต๋๋ค.
๋ชจ๋ธ ๋ฐ ํ๋ จ ๋ณต์ก๋: ๊ตฌ์กฐ์ HEPi๋ Transformer๋ณด๋ค ๋งค ์คํ ๊ณ์ฐ์ ๊ฐ๋ฒผ์ธ ์ ์์ง๋ง, ์ฌ์ ํ ๋ฉ์์ง ์ ๋ฌ ์ฐ์ฐ์ด ๋์ ๋๋ฉด ๋ณต์ก๋๊ฐ ๋์ด๋ฉ๋๋ค. ์์ ์ฐ๊ฒฐ๋ ์ด์ข ์ฃ์ง๋ค์ ๋ ธ๋ ์๊ฐ ๋ง์ ๋ ๋น์ฉ์ด ์ปค์ง ์๋ฐ์ ์์ต๋๋ค (์ฃ์ง ๊ฐ์ \sim O(N_{act} \times N_{obj})). ๋คํํ ์คํ์์ ๋๋ถ๋ถ N_{obj}๊ฐ 20~80 ์ ๋์ฌ์ ๋ฌธ์ ๋์ง ์์์ง๋ง, ๋ง์ฝ ๋ฌผ์ฒด๊ฐ 1000๊ฐ ๋๋ ํฌ์ธํธ๋ก ํํ๋๋ฉด efficiency ์ด์ ์ด ๋จ์ด์ง ์ ์์ต๋๋ค. ์ ์๋ค์ด ๊ณ ํด์๋ 1200๋ ธ๋ ํ ์คํธ์์ HEPi๊ฐ ์ ๋์ํ๋ค๊ณ ๋ ํ์ง๋ง, ์ด๋ ์ ์ฑ ์ ๊ทธ ํ๊ฒฝ์์ ์คํ๋ง ํด๋ณธ ๊ฒ์ด๊ณ , ํ์ต์ ์ฌ์ ํ ์ ํด์๋๋ก ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ง์ฝ 1200๋ ธ๋ ํ๊ฒฝ ์์ฒด๋ฅผ ํ์ตํด์ผ ํ๋ค๋ฉด, ํ์ต ์๋๊ฐ ๋๋ ค์ง๊ฑฐ๋ GNN ๋ฉ์์ง ์ ๋ฌ์ memory bottleneck์ด ๋ํ๋ฌ์ ์ ์์ต๋๋ค. ์ด ๋ถ๋ถ์ HEPi๋ง์ ๋ฌธ์ ๋ผ๊ธฐ๋ณด๋ค GNN ์ ๋ฐ์ ์ค์ผ์ผ ํ๊ณ์ง๋ง, ์ด์จ๋ ๊ทน๋จ์ ์ผ๋ก ์ค์ผ์ผ ํฐ ๋ณํ์ฒด๋ก ๊ฐ๋ฉด ํ ๋ฐฉ๋ฒ๋ ์ด๋ ค์์ด ์์ ๊ฒ์ ๋๋ค. ํฅํ ๊ณ์ธต์ ๊ทธ๋ํ(graph hierarchy)๋ ํน์ง ์์ถ ๊ธฐ๋ฒ ๋ฑ์ ๋์ ํด ๊ฐ์ ํ ์ฌ์ง๊ฐ ์์ต๋๋ค.
์ ์ฑ ์ ์ ์ฝ์ด ์ ์ฌ์ ํ๊ณ๊ฐ ๋ ์ ์์: ๋ฑ๋ณ์ฑ์ ์ฅ์ ์ด ๋ง์ง๋ง, ๋ชจ๋ ์ํฉ์ ๋์ด ๋๋ ๊ฒ์ ์๋๋๋ค. ๋ง์ฝ ํ๊ฒฝ์ ๋์นญ์ฑ์ด ์๊ฑฐ๋ ๊นจ์ง๋ ์์๊ฐ ์๋ค๋ฉด, ๋ฑ๋ณ ์ ์ฝ์ด ์คํ๋ ค ๋ฐฉํด๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์ ๊ณต๊ฐ์ ์ค๋ ฅ์ด ์์ฉํด ์์๋ ๋ฐฉํฅ์ผ๋ก ํ๋ ์ ๋ต์ด ๋ฌ๋ผ์ง๋ ๊ฒฝ์ฐ, SE(3) ๋ฑ๋ณ ์ ์ฑ ์ ๊ทธ ์ฐจ์ด๋ฅผ ๋ฌด์ํ๋ ค ํ ์ํ์ด ์์ต๋๋ค. ์ค์ ๋ก ๋ณธ ๋ ผ๋ฌธ ๊ณผ์ ๋ค์ ํ์ /ํํ์ด๋์ ๋ฐ๋ฅธ ๋ฌผ๋ฆฌ๋ฒ์น ๋ณํ๊ฐ ๋ฏธ๋ฏธํ๊ฑฐ๋ ์๋์ ์ผ๋ก ๋์นญ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ํ์ง๋ง ํ์ค์์๋ ๋ง์ฐฐ์ด๋ ์ค๋ ฅ ๋ฑ์ผ๋ก ์ ๋ ๋ฐฉํฅ์ด ์ค์ํ ๊ฒฝ์ฐ๋ ์์ต๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ HEPi์ฒ๋ผ ๊ฐํ ๋์นญ ๊ฐ์ ์ ๋ฃ์ผ๋ฉด ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๋ฑ๋ณ ์ ์ฑ ์ ์ ์ฉํ ๋ ํด๋น ํ๊ฒฝ์ ์ง์ง ๊ทธ๋ฐ ๋์นญ์ฑ์ด ์๋์ง ํ์ธํด์ผ ํ๊ณ , ์์ผ๋ฉด ์ฐ์ง ๋ง์์ผ ํฉ๋๋ค. ํํธ HEPi์ ์ด์ข ์ค๊ณ๋ ์ผ๋ฐ GNN๋ณด๋ค ์์ ๋๊ฐ ์ ๊ธฐ ๋๋ฌธ์, ํน์ ๋ชจ๋ธ์ด ๋ ๋ณต์กํ ์ํธ์์ฉ์ ํ์๋ก ํ๋ ์ํฉ์์๋ ์ ์ฝ์ด ๋ ์ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ Transformer๊ฐ HEPi์ ๊ทผ์ ํ ์ฑ๋ฅ์ ๋ธ ๊ฒฝ์ฐ๋, HEPi์ ๊ตฌ์กฐ์ ์ฐ์๊ฐ ๋ฐํ๋ ๋งํ ๋ณต์ก์ฑ์ด ์๋ ๊ฒฝ์ฐ์์ต๋๋ค. ์ฆ ๊ตฌ์กฐ์ prior๋ ์๋ ์ ๊ฒ์ด๋ผ, ์ ์ ํ ๋์ด๋์ ๋ฌธ์ ์์๋ง ํตํฉ๋๋ค. ์์ง HEPi๊ฐ ์ด๋ ์ ๋ ๋ณต์ก๋ ์ด์์ผ ๋ ํจ๊ณผ์ ์ธ์ง ๊ฒฝ๊ณ์ ์ด ์์ ํ ๊ท๋ช ๋ ๊ฑด ์๋๋ฏ๋ก, ๊ทธ ์ ์ฉ ๋ฒ์๋ฅผ ์ผ๋์ ๋์ด์ผ ํฉ๋๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ๋น๊ต ์ ํ: ์ด ๋ ผ๋ฌธ์ transformer์ GNN baseline๊ณผ ๋น๊ต๋ ์ฒ ์ ํ ํ์ง๋ง, ๊ธฐ์กด์ ํนํ๋ deformable object manipulation ๋ฐฉ๋ฒ๋ค๊ณผ ์ง์ ๋น๊ตํ์ง๋ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด์ ์ EquiBind(๊ฐ์นญ)๋ DiffSkill ๋ฑ ๋ฐง์ค/์ฒ ๋ค๋ฃจ๊ธฐ ๋ฐฉ๋ฒ๋ค์ด ์๋๋ฐ, ์ด๋ค๊ณผ์ ์ฑ๋ฅ ์ฐจ์ด๋ ๋ค๋ฃจ์ง ์์์ต๋๋ค. ์ด๋ ๋ฒค์น๋งํฌ ๊ณผ์ ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๊ธฐ๋ ํ์ง๋ง, ํํธ์ผ๋ก๋ RL๊ณผ imitation ๋ฑ ํ์ต ์ค์ ์ด ๋ฌ๋ผ ์ง์ ๋น๊ตํ๊ธฐ ์ด๋ ค์ด ์ธก๋ฉด๋ ์์ต๋๋ค. ๊ทธ๋๋ ๋ ์๋ก์๋ โ๊ธฐ์กด ๋ฐฉ๋ฒ์ผ๋ก๋ ์์ ๋ชป ํ๋ ๊ฑธ ์ด๋ฒ์ ํ์๋คโ๋ ์์ ๋งฅ๋ฝ์ ์๊ณ ์ถ์๋ฐ, ๋ ผ๋ฌธ์์๋ ์ด ๋ถ๋ถ์ด ์ฝ๊ฐ ๋ถ์กฑํ์ต๋๋ค. (๋คํํ ๊ด๋ จ ์ฐ๊ตฌ ์ธ๊ธ์์ EquiBot ๋ฑ ๋ฐฉ๋ฒ์ด ์๋ฒํ์ต ๊ธฐ๋ฐ์ด๋ผ RL๋ณด๋ค ์ ๋ฆฌํ ํ๊ฒฝ์ด์๋ค๋ ์ค๋ช ์ด ์๊ธด ํฉ๋๋ค.) ํฅํ ์ถ๊ฐ ์ฐ๊ตฌ์์๋ ๋ค๋ฅธ ์ต์ฒจ๋จ ๊ธฐ๋ฒ๋ค๊ณผ์ head-to-head ๋น๊ต๋ ์งํ๋๋ฉด ์ข๊ฒ ์ต๋๋ค. ์์ปจ๋ model-based RL์ด๋ planning ์ ๊ทผ, ํน์ visual RL๊ณผ ๊ฒฐํฉํ ๋ฐฉ๋ฒ ๋ฑ๊ณผ ์ฑ๋ฅ์ด๋ ๋ฐ์ดํฐ ํจ์จ์ ๊ฒฌ์ฃผ๋ฉด HEPi์ ํฌ์ง์ ์ด ๋ ๋ช ํํด์ง ๊ฒ์ ๋๋ค.
(3) ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์ธ: ์ด ์ฐ๊ตฌ๋ฅผ ๋ฐํ์ผ๋ก ์๊ฐํด๋ณผ ์ ์๋ ๋ฐ์ ๋ฐฉํฅ์ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ต๋๋ค:
- ์ค์ ๋ก๋ด ์คํ ๋ฐ Sim-to-Real: ์๋ฎฌ๋ ์ดํฐ์์ ๊ฒ์ฆํ HEPi๋ฅผ ์ค์ ๋ก๋ด ์์คํ ์ ์ด์ํ์ฌ ํ ์คํธํ๋ ๊ฒ์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ค์ ๋จ๊ณ์ ๋๋ค. ์ด๋ฅผ ์ํด์๋ ๊ทธ๋ํ ์ํ ์ถ์ (vision + shape reconstruction)์ด ํ์ํ๋ฏ๋ก, ์ปดํจํฐ ๋น์ ๊ณผ์ ๊ฒฐํฉ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง ์ ์์ต๋๋ค. ์ต๊ทผ์๋ NeRF๋ SDF๋ก ๋ฌผ์ฒด์ 3D shape์ ์ถ์ ํ๋ ๊ธฐ์ ๋ค์ด ๋ฐ์ ํ๋๋ฐ, ๊ทธ๋ฐ ๊ฒ์ ํตํด ์ป์ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ฅผ ๊ทธ๋ํ๋ก ๋ฃ๋ ์์ผ๋ก ์ฐ๊ฒฐํ ์ ์๊ฒ ์ต๋๋ค. ๋ํ Sim-to-Real gap์ ์ค์ด๋ ค๋ฉด, domain randomization ๋ฑ ๊ธฐ๋ฒ์ HEPi ํ๋ จ์ ํฌํจํ๊ฑฐ๋, ํ์ค ๋ฐ์ดํฐ๋ก fine-tuningํ๋ ๋ฑ์ ์๋๋ ํ์ํ ๊ฒ์ ๋๋ค. HEPi์ ๊ตฌ์กฐ์ ์ก์์ ๊ฐ์ธํ๋, ์ถ๊ฐ ํ๋ ์์ด๋ ๊ฝค ๋์ํ ๊ฐ๋ฅ์ฑ๋ ์๊ฒ ์ง๋ง, ์์ ์ฑ ๋ฑ์ ์ํด ์คํ ๊ฒ์ฆ์ด ๊ผญ ํ์ํฉ๋๋ค.
- ๋ค์ค ๋ก๋ด ๋ฐ ๋ค์ค ๋ฌผ์ฒด ํ์ฅ: HEPi ๊ทธ๋ํ๋ ์์น์ ์ผ๋ก ์ฌ๋ฌ ๋ก๋ด์ด๋ ์ฌ๋ฌ ๋ฌผ์ฒด๋ ์ถ๊ฐ ๊ฐ๋ฅํ๋ค๊ณ ํ์ต๋๋ค. ํฅํ ์ฐ๊ตฌ๋ก, ๋ณต์ ๊ฐ์ฒด๋ฅผ ๋์์ ๋ค๋ฃจ๋ ๊ณผ์ ์ ๋์ ํด๋ณผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ชจ์ ๋ฌผ์ฒด๋ฅผ ๋์์ ์ฎ๊ฒจ์ ์๊ธฐ, ํน์ ๋ฐง์ค ๋ ๊ฐ๋ฅผ ๋์์ ๋ฌถ๊ธฐ ๊ฐ์ ๋ณตํฉ ์์ ์ ์๊ฐํด๋ณผ ์ ์๊ฒ ์ฃ . ์ก์ถ์์ดํฐ ๋ ธ๋๋ ์ฌ๋ฌ ๊ฐ, ๋ฌผ์ฒด ๋ ธ๋๋ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ์กด์ฌํ๋ ๋ ์ผ๋ฐ์ ์ธ Hetero-Graph RL๋ก ๋์๊ฐ๋ ๊ฒ์ ๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ HEPi์ ๊ตฌ์กฐ๋ฅผ ์ฝ๊ฐ ์์ ํด์ผ ํ ์๋ ์์ต๋๋ค (์: ๋ฌผ์ฒด ๋ ธ๋๋ค๋ ๊ทธ๋ฃน ๋ณ ๋ฉํ ๋ ธ๋๋ก ๊ตฌ๋ถํ๊ฑฐ๋). ํ์ง๋ง ๊ธฐ๋ณธ ๊ฐ๋ ์ ํ์ฅ ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด HEPi๊ฐ ๋ณด๋ค ์ผ๋ฐ์ ์ธ ๋ฉํฐ์์ด์ ํธ RL์ด๋ ๋ค์ค ๊ฐ์ฒด ์กฐ์ ๋ฌธ์ ๊น์ง ํฌ๊ดํ ์ ์์ ๊ฒ์ ๋๋ค.
- ๊ณ์ธต์ /๋ฉํฐ์ค์ผ์ผ ํํ: ์์ ํ๊ณ์์ ์ธ๊ธํ๋ฏ, ๊ทธ๋ํ ๋ ธ๋๊ฐ ์์ฃผ ๋ง์์ง๋ฉด ์ฒ๋ฆฌ ๋ถ๋ด์ด ์ปค์ง๋๋ค. ์ด๋ฅผ ๋ณด์ํ๋ ค๋ฉด ๊ทธ๋ํ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ์กฐ์งํ๋ ๋ฐฉ๋ฒ์ด ๊ณ ๋ ค๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ฒ์ ๋ชจ๋ ์ ์๋ฅผ ๋ ธ๋๋ก ์ฐ๋, ๋จผ์ ๋ก์ปฌํ ๋ฉ์์ง๋ก ์ธ์ 5๊ฐ ๋ผ๋ฆฌ ๋ญ์น feature๋ฅผ ๋ง๋ค๊ณ , ๊ทธ๊ฑธ ๋ค์ ๊ธ๋ก๋ฒ์ ์ฐ๋ ํํ๋ก, ์ผ์ข ์ Graph Pooling/Coarsening์ ํ์ฉํ๋ ๊ฑฐ์ฃ . ์ด ๋ ผ๋ฌธ์์๋ ๋ฌธ์ ์ ์์ ํน์ ๋ถ๋ถ๋ง ๋ ธ๋๋ก ๋ฝ๋ ์์ผ๋ก ์ฐจ์์ ์ค์์ง๋ง, ์ข ๋ ์๋ํํ๋ ค๋ฉด GNN ๋ด๋ถ์ pooling layer๋ฅผ ๋ฃ์ด ๋ ธ๋ ์งํฉ์ ์์ฝํ๋ ๊ฒ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ต๊ทผ Graph Hierarchy Network๋ Graph Transformer ์ฐ๊ตฌ๋ค์์ ์ด๋ฌํ ์์ด๋์ด๊ฐ ํ๋ฐํ๋, HEPi์๋ ๋์ ๊ฐ๋ฅํ ๊ฒ์ ๋๋ค. ๋ํ ์๊ณ์ด ์ ์ฅ๊ธฐ ๊ณํ์ด ํ์ํ ๊ฒฝ์ฐ, ํ์ฌ ์ ์ฑ ์ ์งง์ horizon๋ง ๋ณธ๋ค ํด๋, ๋์ค์ ์ต์ (option) ๋๋ ๊ณ์ธต RL ๊ฐ๋ ์ ์ถ๊ฐํด ์์ ํ๋๋-ํ์ HEPi ์ ์ฑ ๊ตฌ์กฐ๋ก ๋ฐ์ ์ํฌ ์๋ ์์ต๋๋ค.
- ์ถ๊ฐ์ ์ธ ๋์นญ์ฑ ํ์ฉ: HEPi๋ SE(3) ์ฐ์ ๊ณต๊ฐ ๋์นญ์ ์ผ์ง๋ง, ๋ก๋ด ํ๊ฒฝ์๋ ๊ทธ ์ธ์๋ ์ด์ฐ์ ๋์นญ(๋ฌผ์ฒด์ ๋ฐ๋ณต ํจํด, ์์์ ๋์นญ ๋ฑ)์ด ์กด์ฌํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ๋ฌผ์ฒด๋ 4๋ฐฉ ๋์นญ์ด๋ผ 90๋์ฉ ๋๋ ค๋ ๋์ผํ๊ฑฐ๋, ๋ ๋ก๋ด ํ์ ๋ชจ์๊ณผ ๊ด์ ๊ตฌ์ฑ์ด ๋์ผํด์ ์ข์ฐ ๋ฐ๊พธ๋ฉด ๊ฐ์ ์ญํ ์ ํ ์๋ ์์ต๋๋ค. ์ด๋ฐ Permutation ๋์นญ์ด๋ ๋ฐ์ฌ ๋์นญ ๋ฑ์ ์ ์ฑ ์ ๋ น์ฌ๋ด๋ฉด, ํ์ต ํจ์จ์ ๋ ๋์ผ ์ ์์ต๋๋ค. Graph Neural Network์์๋ ์ด๋ฐ ๋์นญ์ ์ฝ๊ฒ ํํํ ์ ์๋๋ฐ, ์์ปจ๋ ๋์ผ ํ์ ๋ก๋ด ๋ ธ๋๋ค๋ผ๋ฆฌ ํ๋ผ๋ฏธํฐ ๊ณต์ ๋ฅผ ํ๋ฉด โ๋ชจ๋ ๋ก๋ด ํ์ ๋์ผํ๊ฒ ๋์ ๊ฐ๋ฅโ์ด๋ผ๋ ๋์นญ์ ๊ฐ์ ํ๋ ์ ์ ๋๋ค. ์ค์ HEPi ๊ตฌํ์์ ๋ก๋ด ๋ ธ๋ ์ ๋ฐ์ดํธ MPN์ ์๋ง ๊ณต์ ๋์ด ์์ ๊ฒ์ ๋๋ค (๊ทธ๋ ์ง ์์ผ๋ฉด ๋ก๋ด ๊ฐ์๋ง๋ค ๋ค๋ฅธ ๋คํธ์ํฌ์ฌ์ผ ํ๋ ๋นํจ์จ์ ์ด๋๊น์). ํฅํ์ ์ด๋ฐ ๋ ธ๋ ํ์ ๋ด ๋์นญ๋ ์ ๊ทน ํ์ฉํ๊ณ , ๋ฌผ์ฒด์ ๋ฐ๋ณต๊ตฌ์กฐ๊ฐ ์์ผ๋ฉด ๊ทธ๋ ํ์ฉํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ์ ์์ต๋๋ค. ์ด๋ Symmetry + Graph์ ๊ฒฐํฉ์ผ๋ก ๋์ฑ ๊ฐ๋ ฅํ inductive bias๋ฅผ ์ฃผ๋ ๊ธธ์ ๋๋ค.
- ๋ค๋ฅธ ํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ์ ๊ฒฐํฉ: ๋ณธ ๋ ผ๋ฌธ์ on-policy RL (TRPL/PPO)๋ง ๋ค๋ค์ง๋ง, off-policy๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ๊ณผ HEPi๋ฅผ ์ ๋ชฉํ๋ ๊ฒ๋ ๊ฐ์น์์ด ๋ณด์ ๋๋ค. Off-policy์ธ SAC์ด๋ Q-learning ๋ฅ๋ฅผ ์ฐ๋ฉด ์ํ ํจ์จ์ ๋ ๋์ผ ์ฌ์ง๊ฐ ์๊ณ , ํ๊ฒฝ ๋ชจ๋ธ์ ํ์ต์์ผ planning๊น์ง ํ๋ฉด ๋ณต์กํ ๊ณผ์ ๋ ํด๊ฒฐ ๊ฐ๋ฅ์ฑ์ด ์ฌ๋ผ๊ฐ๋๋ค. Graph ํํ์ด ์์ผ๋, Graph Neural Simulator ๊ฐ์ ๊ฒ์ ๋ฐฐ์ rolloutํ๋ค๋ ์ง ํ๋ ์์ด๋์ด๋ ๊ฐ๋ฅํฉ๋๋ค. ๋ํ Imitation Learning+RL ํผํฉ์ผ๋ก ์ด๊ธฐ์ ์๋ฒ์ผ๋ก ํ์ต ๊ฐ์ ํ RL๋ก fine-tuneํ๋ ์ ๊ทผ ๋ฑ๋ ํ์ค์ ์ผ๋ก ์ ์ฉํ๊ฒ ์ฃ . EquiBot ๋ฑ์ ์ด์ ์ฐ๊ตฌ๋ imitation๋ง ํ๊ธฐ์ ์๋ฒ ์์ผ๋ฉด ํ๋ค์๋๋ฐ, HEPi๋ RL๋ก ํด๋์ง๋ง ํ์ต ์๊ฐ์ด ๊ธธ์์ต๋๋ค. ๋์ ์ฅ์ ์ ํฉ์ณ์ ์๋ฒ์ผ๋ก ๋น ๋ฅธ ์ง์ -> RL๋ก ์ต์ ํํ๋ ์์ด๋ฉด ๋์ฑ ์ค์ฉ์ ์ผ ๊ฒ์ ๋๋ค.
(4) ๊ด๋ จ ์ฐ๊ตฌ์ ๋น๊ต: ์ฐ๊ตฌ์ ์ถ๋ฐ์ ์ด ๋ ๊ด๋ จ ๋ถ์ผ์ ๊ฒฌ์ฃผ์ด๋ณผ ๋, HEPi๋ ๋ช ๊ฐ์ง ๋ฉด์์ ๋๋๋ฌ์ง๋๋ค. ๋จผ์ , ๊ทธ๋ํ๋ฅผ ์ ์ฑ ์ ํ์ฉํ ์ด์ ์ฐ๊ตฌ๋ก๋ Wang et al.(2018)์ Neural Graphical Models for multi-body๋, Neural Physics Simulation(Battaglia et al., 2016 ์ดํ) ๊ณ์ด์ด ์์ต๋๋ค. ์ด๋ค์ ์ฃผ๋ก ๋ชจ๋ธ๋ง ๋๋ ์์ธก์ ๊ทธ๋ํ๋ฅผ ์ผ์ง, ์ ์ฑ ์์ฒด์ ์ด ๊ฑด ๋๋ฌผ์๋๋ฐ, HEPi๋ GNN์ ์ ์ฑ ์ ๋๋ก ์ผ์๋ค๋ ์ ์์ ๋ณด๋ค ์ง์ ์ ์ผ๋ก ์์ฌ๊ฒฐ์ ์ ๊ทธ๋ํ๋ฅผ ๋์ ํ์ต๋๋ค. ๋ํ ๊ตฌ์กฐ๊ฐ ๋ค๋ฅธ ๊ฐ์ฒด๋ค์ ์ฒ๋ฆฌ ์ธก๋ฉด์์ Hong et al.(2022)์ Structure-aware Transformer๊ฐ ์ด์ง์ ํ ํฐ์ type embedding์ ์ฃผ๋ ์์ด์์ง๋ง, HEPi๋ ์์ ๋ฉ์์ง ์ ๋ฌ ํจ์๋ฅผ ๋ถ๋ฆฌํ์ฌ ๋ช ์์ ์ผ๋ก ๋ค๋ฆ ๋๋ค. ์ด๋๋ถ์ Hong์ Transformer๋ณด๋ค ๋ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ๋ก๋ ๋น์ทํ ํจ๊ณผ (๋ ธ๋ ํ์ ๋ณ ์ฒ๋ฆฌ๋ฅผ ๊ตฌ๋ถ)๋ฅผ ์ป์ ์ ์ ๋๋ค.
Equivariant neural networks ๋ถ์ผ์ ๋น๊ตํ๋ฉด, ์ด์ ์๋ Equivariant Transformer(e.g. Thomas et al. 2018 tensor field network)๋ SE(3)-Equivariant GNN(Satorras et al. 2021 EGNN ๋ฑ)์ด ์ฃผ๋ก ๋ถ์๋ ๋ฌผ๋ฆฌ๊ณ ์์ธก์ ์ฐ์๋๋ฐ, HEPi๋ ๊ฐํํ์ต ์ ์ฑ ์ ์ด๋ฅผ ์ด ๊ฒ์ด ์ฐจ๋ณํ๋ฉ๋๋ค. Ryu et al.(2023) ๋ฑ์ ์ฐ๊ตฌ์์๋ RL์ ๋์นญ์ฑ์ ๋ฃ์ผ๋ ค๋ ์๋๊ฐ ์์์ง๋ง, ์ ํ์ ํ๊ฒฝ(ํผ์ฆ ๋ง์ถ๊ธฐ ๋ฑ)์์๋ง ๊ฒ์ฆ๋์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ค์ ๋ก๋ด ๊ณผ์ ์ ๊ฐ๊น์ด ํ๊ฒฝ๋ค์์ ๋ฑ๋ณ RL์ด ํตํ๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๊ณ , ์ด๋ ํด๋น ์ปค๋ฎค๋ํฐ์ ์ค์ํ ๋ฉ์์ง์ ๋๋ค.
๋ํ ๋ณํ์ฒด ์กฐ์ ์ฐ๊ตฌ๋ค๊ณผ ๋น๊ตํด๋ณด๋ฉด, ์ด์ ๊น์ง ๋ชจ๋ธ ์์ธก(physics-based) ํน์ ๋ชจ๋ฐฉํ์ต(Human demonstration) ์์ฃผ์๋ ๊ฒ์, end-to-end RL๋ก ํ์ด๋ธ ๋๋ฌธ ์๋ผ ํ ์ ์์ต๋๋ค. DiffSkill (2021)์ด๋ DNS (2020) ๋ฑ์ ๋ชจ๋ฐฉ/๊ณํ ๊ธฐ๋ฐ์ผ๋ก ์ฒ ๊ฐ์ฒด๋ฅผ ๋ค๋ค๊ณ , ์ต๊ทผ EquiDex (2024) ๊ฐ์ ๊ฑด Diffusion ๋ชจ๋ธ์ ์ฐ๊ธฐ๋ ํ์ง๋ง, HEPi๋ ์ด๋ฐ ๊ฒ๊ณผ ๋ค๋ฅธ ์์ RL๋ก ์ฑ๊ณผ๋ฅผ ๋ธ ์ ์ด ํน์ง์ ๋๋ค. EquiBot (Yang et al., 2023)์ ์ ๊น ๋น๊ตํ๋ฉด, EquiBot๋ SE(3) ๋ฑ๋ณ GNN ์ ์ฑ ์ ์ผ์ง๋ง ์๋ฒ ๋ฐ๋ผํ๊ธฐ๋ก rope flattening ๋ฑ์ ํ๊ณ , ๊ทธ ์ ์ฑ ์ ์๋ ์ถ๋ ฅ์ ๋ด๋ ์ ๋ฑ์ด HEPi์ ์ ์ฌํฉ๋๋ค. HEPi๋ ๊ทธ ์ ๊ทผ์ RL๋ก ํ์ฅํ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ผ๋ฉฐ, ๋ ์ด๋ ค์ด ์์ (rope shaping, cloth)๊น์ง ์ํํ์ต๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก HEPi๋ EquiBot์ ๊ฐํํ์ต ๋ฒ์ ์ด์, Structure-aware Transformer์ GNN ๋ฒ์ ์ด๋ผ๊ณ ์์ฝํด๋ณผ ์๋ ์๊ฒ ์ต๋๋ค.
Transformer์ GNN์ ์ฑ๋ฅ ๋น๊ต๋ ์์ฆ ์ฌ๋ฌ ์์ ์์ ์ฃผ์ ์ธ๋ฐ, ๋ณธ ๋ ผ๋ฌธ ๊ฒฐ๊ณผ๋ GNN์ ์ฐ์ธ๋ฅผ ๋ณด์ฌ์ค ์ชฝ์ ์ํฉ๋๋ค. ํนํ ๋์นญ์ฑ์ด ๋๋ ทํ๊ณ ๊ตฌ์กฐ๊ฐ ์๋ ๋ฌธ์ ์์๋ GNN์ด ์ฌ์ ํ data ํจ์จ์์ ๊ฐ์ ์ด ์๋ค๋ ์ฆ๊ฑฐ์ ๋๋ค. ํ์ง๋ง Transformer๋ ์ ๋ ํ์ต ๋ชปํ๋ ๊ฑด ์๋๋ผ๋ ์ (2D ๊ณผ์ ์์๋ ๋ฐ๋ผ์ด)๋ ๋ณผ ์ ์์์ฃ . ์ด๋ GNN๊ณผ Transformer๋ฅผ ์ ์ถฉ/๋ณํฉํ๋ ์์ด๋์ด๋ ์๊ฐํด๋ณผ ์ ์๊ฒ ํฉ๋๋ค. ์ฌ์ค HEPi๋ โ๋ฉ์์ง ์ ๋ฌ = ์ผ์ข ์ sparse attentionโ์ด๋ผ Transformer์ ํน์ํ ํํ๋ก ๋ณผ ์๋ ์๊ฒ ์ต๋๋ค. ํฅํ Graph-Transformer ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ๋ก ๋ ๊ฐ์ ๊ฐ๋ฅ์ฑ๋ ์์ต๋๋ค.
์ ์ฒด์ ์ผ๋ก, ์ด ๋ ผ๋ฌธ์ ๊ทธ๋ํ+๋์นญ์ฑ+RL์ด๋ผ๋ ์ธ ํ๋ฆ์ ์ ๊ฒฐํฉํด ํ ๋จ๊ณ ์ง์ ์ ์ด๋ค์ต๋๋ค. ๊ด๋ จ ๋ถ์ผ์ ์ฐ๊ตฌ์๋ค์๊ฒ โ๊ตฌ์กฐ๋ฅผ ์กด์คํ๋ ํ์ต์ด ์ค์ ๋ก ๋ณต์กํ ๋ก๋ด ๋ฌธ์ ๋ ํ ์ ์๋คโ๋ ํต์ฐฐ์ ์ฃผ์๊ณ , ํํธ์ผ๋ก โ์ฌ์ ํ sim2real ๋ฑ ๋จ์ ๊ณผ์ ๊ฐ ๋ง๋คโ๋ ์์ ๋ ๋จ๊ฒผ์ต๋๋ค. ์ด๋ฐ ์ ์์ ๋ก๋ด ๊ฐํํ์ต์ ๋ฐฉํฅ์ฑ์ ์ ์ํ ์๋ฏธ์๋ ์์ ์ด๋ผ ํ๊ฐํ ์ ์์ต๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก
๋ค์ํ ํ์(rigid shapes)๊ณผ ๋ณํ์ฒด(deformable objects)๋ฅผ ๋ก๋ด์ด ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃจ๊ฒ ํ๋ ๊ฒ์, ๋ฒ์ฉ ๋ก๋ด ์กฐ์์ ์คํํ๊ธฐ ์ํ ํต์ฌ ๊ณผ์ ์ ๋๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์ ๋ค๋ฃฌ ๋ ผ๋ฌธ์ ์ด๋ฌํ ๋ฌธ์ ์ ๋ํด ๊ธฐํํ์ ๋์นญ์ฑ์ ๊ณ ๋ คํ ์๋ก์ด ์ ๊ทผ๋ฒ, โGeometry-aware RLโ์ ์ ์ํ์๊ณ , ๊ตฌ์ฒด ๊ตฌํ์ผ๋ก Heterogeneous Equivariant Policy (HEPi) ๋ชจ๋ธ์ ์ ๋ณด์์ต๋๋ค. HEPi๋ ๊ทธ๋ํ ์ ๊ฒฝ๋ง ์ ์ฑ ์ผ๋ก์, ๋ก๋ด๊ณผ ๋ฌผ์ฒด์ ๊ด๊ณ๋ฅผ ์ด์ข ๊ทธ๋ํ๋ก ํํํ๊ณ , SE(3) ๋ฑ๋ณ ๋ฉ์์ง ์ ๋ฌ ๋คํธ์ํฌ๋ฅผ ํตํด ํ์ตํฉ๋๋ค. ์ด๋ฅผ ํตํด ํ๊ฒฝ์ ํ์ /์ด๋ ๋์นญ์ ํ์ง ํ์ฉํจ์ผ๋ก์จ, ์ ์ ๊ฒฝํ์ผ๋ก๋ ๋ค์ํ ์ํฉ์ ๋์ํ๋ ์ ์ฑ ์ ์ป์ ์ ์์์ต๋๋ค. ๋ํ ํด๋ฌ์คํฐ๋ณ ๋ฉ์์ง ์ ๋ฌ ๊ตฌ์กฐ๋ฅผ ๋์ ํ์ฌ ๋ก๋ด-๋ฌผ์ฒด ๊ฐ ์ ๋ณด๋ฅผ ์ง์ ์ ์ด๊ณ ํจ์จ์ ์ผ๋ก ๊ตํํ๊ฒ ํจ์ผ๋ก์จ, ๊ธฐ์กด ๋คํธ์ํฌ๋ค์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค.
๋ ผ๋ฌธ์์ ๊ตฌ์ถํ 7๊ฐ ์กฐ์ ๊ณผ์ ๋ฒค์น๋งํฌ (์ฝ์ , ๋ฐ๊ธฐ, ๋ฐง์ค ๊ฐ๊ธฐ/๋ชจ์, ์ฒ ๊ฑธ๊ธฐ ๋ฑ)๋ HEPi์ ๊ฐ์ ์ ์ฌ์คํ ๋ณด์ฌ์ฃผ์์ต๋๋ค. HEPi๋ ๊ทธ๋ํ ๊ตฌ์กฐ์ inductive bias ๋๋ถ์ ํ์์ด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ค์ค๋ก ํ์ด๋๊ณ , Transformer๋ ๋น๋ฑ๋ณ GNN ๊ฐ์ ๊ฐ๋ ฅํ baseline๋ค์ ์์ ์ฑ, ํ์ต์๋, ์ต์ข ์ฑ๋ฅ ๋ฉด์์ ์์ง๋ ์ต๋๋ค. ํนํ 3์ฐจ์ ๋ณต์ก ํ๊ฒฝ์์ ๊ทธ ๊ฒฉ์ฐจ๋ ์ปค์, ์์ปจ๋ ์ฒ ๊ฑธ๊ธฐ์์๋ HEPi๋ง์ด ์ฑ๊ณต์ ์ผ๋ก ๊ณผ์ ๋ฅผ ํ์ตํ ์ ์์์ต๋๋ค. ๋ ๋์๊ฐ, HEPi ์ ์ฑ ์ ์๋ก์ด ๋ฌผ์ฒด ๋ชจ์์ด๋ ๊ณ ํด์๋ ํ๊ฒฝ์์๋ ๊ฒฌ๊ณ ํ ์๋ํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ๋ก๋ด ํ์ต์์ ๊ตฌ์กฐ์ ๋์นญ์ฑ์ ๊ณ ๋ คํ๋ ์ ๊ทผ์ด ๊ฐ์ง๋ ํ์ ๋ณด์ฌ์ค๋๋ค. ๋ง์น ํ์ธ๋ง์ด ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋์นญ์ ํตํด ๋ณต์กํ ํ์์ ๋จ์ํํ๋ฏ, HEPi๋ ๋ก๋ด ํ๋์ ๊ณต๊ฐ์ ๋์นญ์ผ๋ก ๋๋์ด ์ ๋ณตํ ์ ์ ๋๋ค.
๋ฌผ๋ก , ์ด ์ฐ๊ตฌ๊ฐ ๋จ๊ธด ๊ณผ์ ๋ค๋ ์์ต๋๋ค. ์๋ฎฌ๋ ์ด์ ์์ ํจ๊ณผ๊ฐ ์ ์ฆ๋ ๋งํผ, ํ์ค ๋ก๋ด์์ ์ ์ฉ์ด๋ผ๋ ๋ค์ ๋๊ด์ด ๊ธฐ๋ค๋ฆฌ๊ณ ์์ต๋๋ค. ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ์ฑ ์ ์ค์ ์ ์ฐ๋ ค๋ฉด ์ค์๊ฐ ๋ฌผ์ฒด ์ํ ์ธ์๊ณผ ์ผ์ ๋ ธ์ด์ฆ ์ฒ๋ฆฌ ๋ฑ์ ๋ฌธ์ ๊ฐ ์๋ฐ๋๊ฒ ์ง์. ๋ํ ํ์ฌ์ ๊ตฌ์กฐ๋ฅผ ๋ ๋ณต์กํ ์๋๋ฆฌ์ค(์ฌ๋ฌ ๊ฐ์ฒด ๋์ ์กฐ์, ์ฅ๊ธฐ ํ๋๊ณํ ๋ฑ)์ ํ์ฅํ๋ ์ผ๋ ๋จ์์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๋์ ๋ค์ HEPi์ ํต์ฌ ์ฒ ํ โ โ๋ก๋ด์๊ฒ ์ธ๊ณ์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๊นจ์ฐ์ณ ์ฃผ๋ฉด, ํจ์ฌ ์ ์ ๊ฐ๋ฅด์นจ์ผ๋ก๋ ๋ง์ ๊ฒ์ ์ค์ค๋ก ๋ฐฐ์ฐ๊ฒ ํ ์ ์๋คโ โ ์ ๋์ฑ ๋ฐ์ ์์ผ ๋๊ฐ๋ ๊ณผ์ ์ด ๋ ๊ฒ์ ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ๊ฐํํ์ต์ ๊ทธ๋ํ์ ๋์นญ์ฑ์ด๋ผ๋ ๊ฐ๋ ฅํ ๋๊ตฌ๋ฅผ ์ ๋ชฉํ์ฌ, ๋ณต์กํ ์กฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ๊ธธ์ ์ ์ํ์ต๋๋ค. ์ด๋ ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์๋ค์๊ฒ ์ฌ๋ฌ ๊ฐ์ง ํต์ฐฐ์ ์ค๋๋ค. ์ฒซ์งธ, ํํ์ ์ ํ์ด ํ์ต ์ฑํจ๋ฅผ ์ข์ฐํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ํ์ ํ๋์ ์ด๋ป๊ฒ ํํํ๋๋์ ๋ฐ๋ผ ํ์ต ๋์ด๋๊ฐ ์ฒ์์ง์ฐจ๊ฐ ๋ ์ ์์์ ๋ค์๊ธ ๋ณด์ฌ์คฌ์ต๋๋ค. ๋์งธ, ๋ฌผ๋ฆฌ์ ๋์นญ์ฑ๊ณผ ๊ตฌ์กฐ๋ฅผ ์กด์คํ๋ ๋ชจ๋ธ๋ง์ ๋จ์ํ ๊ธฐ๋ฅ ์ถ๊ฐ๊ฐ ์๋๋ผ, ํ์ต์ ๊ทผ๋ณธ์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค๋ ์ ์ ๋๋ค. ๋ง์น ์ธ๊ฐ์ด ์ฌ๋ฌผ์ ๋ณผ ๋ ์ข์ฐ๋์นญ์ด๋ ํจํด์ ์๋ ์ธ์งํ๋ฏ, ์ ์ฑ ์ ๊ฒฝ๋ง๋ ๊ทธ๋ฐ ์ง๋ฅ์ ์ผ๋ถ ๋ถ์ฌ๋ฐ์ ์ ์๋ค๋ ๊ฒ์ด์ฃ . ์ ์งธ, ํตํฉ์ ์ ๊ทผ์ ์ค์์ฑ์ ๋๋ค. ๊ทธ๋ํ, GNN, RL, ๋์นญ์ฑ, ์ด์ง ๋ ธ๋, ์ด ๋ชจ๋ ์์๊ฐ ๋ง๋ฌผ๋ ค ์ต๊ณ ์ ์ฑ๋ฅ์ ๋์ต๋๋ค. ์ด๋ ํ๋๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ฒ ์ง๋ง, ๊ฒฐํฉํ๋ ์๋์ง๊ฐ ๋ฌ์ต๋๋ค. ์ด๋ ๋ณต์กํ ๋ก๋ด ๋ฌธ์ ์ผ์๋ก ์ฌ๋ฌ ์ธก๋ฉด์ ๊ธฐ๋ฒ์ ๋ฉํฐ๋ชจ๋ฌํ๊ฒ ์ตํฉํ๋ ๊ฒ ํ์ํจ์ ์์ฌํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ด ๋ ผ๋ฌธ์ ์ ๊ทผ์ โ๋์์ธํ ์ธ๊ณต์ง๋ฅโ์ ํ ์๋ก ๋ณผ ์๋ ์์ต๋๋ค. ์์ฆ ๊ฑฐ๋ ๋ชจ๋ธ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์ธ์ด๋ด์ ํต๊ณ์ ์ผ๋ก ํ์ตํ์ง๋ง, HEPi์ฒ๋ผ ๋ฌธ์ ํน์ฑ์ ์ธ์ฌํ ๋ฐ์ํ AI๋ ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ํจ์ฌ ๋ง์ ๊ฒ์ ํ์ตํด๋ ๋๋ค. ๋ก๋ด๊ณตํ์ ํนํ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ๋ง๋ฟ์ ์์ผ๋ฏ๋ก, ์ด๋ฐ ๋๋ฉ์ธ ์ง์ ๊ธฐ๋ฐ์ AI ๋์์ธ์ด ๋ ์ฃผ๋ชฉ๋ฐ์ ๊ฒ์ ๋๋ค. HEPi๋ ๊ทธ ๋ฐฉํฅ์์ ํ ๊ฑธ์ ์์ ๊ฐ ์ฌ๋ก๋ก, ์์ผ๋ก ๋์ฑ ๋ฐ์ ๋ Geometry-aware, Structure-aware ๋ก๋ดํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ฑ์ฅ์ ๊ธฐ๋ํ๊ฒ ๋ง๋ญ๋๋ค. ๋ก๋ด๊ณ์ ํ์ธ๋ง์ฒ๋ผ, ๋ณต์กํ ํ์ค์ ๊ฟฐ๋ซ๋ ํต์ฐฐ๋ก ๋ก๋ด ์ง๋ฅ์ ํฅ์์ํค๋ ์ฐ๊ตฌ๋ค์ด ๊ณ์ ์ด์ด์ง๊ธธ ๋ฐ๋ผ๋ฉฐ ์ด๋ง ๊ธ์ ๋งบ๊ฒ ์ต๋๋ค.