๐Human2Sim2Robot ๋ฆฌ๋ทฐ
- ๋ก๋ด์ ์๋ จ๋ ์กฐ์ ๊ธฐ์ ํ์ต์ ์ํด ๋จ ํ๋์ RGB-D ์ธ๊ฐ ์์ฐ ์์์ ํ์ฉํ๋ real-to-sim-to-real RL ํ๋ ์์ํฌ์ธ HUMAN2SIM2ROBOT์ ์ ์ํฉ๋๋ค.
- ์ด ํ๋ ์์ํฌ๋ ์์ฐ ์์์์ ๊ฐ์ฒด ํฌ์ฆ ๊ถค์ ์ ์ถ์ถํด ๊ฐ์ฒด ์ค์ฌ์ ์ด๊ณ embodiment-agnosticํ ๋ณด์ ํจ์๋ฅผ ์ ์ํ๊ณ , ์กฐ์ ์ ์ ํฌ์ฆ๋ก RL ํ๋ จ์ ํจ์จ์ ์ธ ์ด๊ธฐํ ๋ฐ ํ์์ ์๋ดํ์ฌ human-robot embodiment gap์ ๊ทน๋ณตํฉ๋๋ค.
- HUMAN2SIM2ROBOT์ ๋จ์ผ ์ธ๊ฐ ์์ฐ ํ๊ฒฝ์์ grasping, non-prehensile manipulation, multi-step tasks๋ฅผ ํฌํจํ ๋ค์ํ ์ค์ ์์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 55%์์ 68% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ, ๋ณ๋์ reward tuning ์์ด zero-shot sim-to-real ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
1 Brief Review
์ด ๋
ผ๋ฌธ์ ๋ก๋ด์ด ๋ฅ์ํ ์กฐ์ ๊ธฐ์ (dexterous manipulation skill)์ ํ์ตํ๊ธฐ ์ํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ๋ค์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ HUMAN2SIM2ROBOT
๋ผ๋ ์๋ก์ด real-to-sim-to-real ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด์๋ ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๊ธฐ ์ํด ์๋ฐฑ ๊ฐ์ ์์ฐ(demonstration) ๋ฐ์ดํฐ๊ฐ ํ์ํ์ผ๋ฉฐ, ์ด๋ ์จ์ด๋ฌ๋ธ ์ผ์(wearable sensor)๋ ํ
๋ ์คํผ๋ ์ด์
(teleoperation)์ ํตํด ์์ง๋์ด ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ํ์ฅํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ(human-object interaction) ๋น๋์ค๋ ์ฝ๊ฒ ์์งํ ์ ์์ง๋ง, ๋ช
์์ ์ธ ๋ก๋ด ์ก์
๋ผ๋ฒจ(action label)์ด ๋ถ์กฑํ๊ณ ์ธ๊ฐ-๋ก๋ด ๊ฐ ์ ์ฒด์ ๊ตฌํ ์ฐจ์ด(embodiment gap)๋ก ์ธํด ์ง์ ๋ก๋ด ํ์ต์ ํ์ฉํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋
ผ๋ฌธ์ ๋จ ํ๋์ RGB-D ์ธ๊ฐ ์์ฐ ๋น๋์ค๋ง์ผ๋ก ๊ฐ๊ฑดํ ๋ก๋ด ์ ์ฑ
(robot policy)์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ํนํ ๋ณต์กํ ๋ณด์ ์ค๊ณ(reward engineering)๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ์์ด๋ ์ธ๊ฐ-๋ก๋ด ๊ฐ์ ์ ์ฒด์ ๊ตฌํ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
์ ์ํ๋ ๋ฐฉ๋ฒ๋ก ์ ํต์ฌ์ ๋จ์ผ ์ธ๊ฐ ์์ฐ ๋น๋์ค์์ ๋ ๊ฐ์ง ์ฃผ์ ๊ตฌ์ฑ ์์๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ๋๋ค.
์ฒซ์งธ, ๊ฐ์ฒด 6D ์์ธ ๊ถค์ (object 6D pose trajectory)์
๋๋ค. ์ด๋ FoundationPose
๋ชจ๋ธ๊ณผ Segment Anything Model 2 (SAM 2)
๋ฅผ ์ฌ์ฉํ์ฌ ๋น๋์ค ํ๋ ์๋ณ๋ก ๊ฐ์ฒด์ ์์ธ๋ฅผ ์ถ์ ํ์ฌ ์ป์ด์ง๋๋ค. ์ด ๊ฐ์ฒด ์์ธ ๊ถค์ ์ ๋ก๋ด์ ์ ์ฒด์ ํน์ง์ ๊ตฌ์ ๋ฐ์ง ์๋(embodiment-agnostic) ๊ฐ์ฒด ์ค์ฌ ๋ณด์ ํจ์๋ฅผ ์ ์ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ณด์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค: r_{obj_t} = \exp^{-\alpha d(T^{target}_{\tau + t}, T^{obj}_t)}, ์ฌ๊ธฐ์ d(T_1, T_2) = \sum^{N_{anchor}}_{i=1} \|T_1 k_i - T_2 k_i\|๋ ๋ ๊ฐ์ฒด ์์ธ T_1, T_2 ์ฌ์ด์ ์๋์ ์ธ ์์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ต์ปค ํฌ์ธํธ(anchor point) k_i๋ฅผ ์ด์ฉํ์ฌ ์ธก์ ํ๋ฉฐ, \alpha=10์ ์ค์ผ์ผ๋ง ๊ณ์์
๋๋ค. ์ด ๋ณด์์ ๋ก๋ด์ด ๋ชฉํ ๊ฐ์ฒด ์์ธ ๊ถค์ ์ ์ ํํ๊ฒ ๋ฐ๋ผ๊ฐ๋๋ก ์ ๋ํฉ๋๋ค.
๋์งธ, ๋จ์ผ ์กฐ์ ์ (pre-manipulation) ์ ์์ธ(hand pose)์
๋๋ค. ์ด ์์ธ๋ ๊ฐ์ฒด๊ฐ ์์ง์ด๊ธฐ ์์ํ๋ ์์ (t_0)์์ ์ฝ๊ฐ ์์ ์์ (\tau = t_0 - t_{offset})์ ์ธ๊ฐ ์ ์์ธ๋ฅผ ์ถ์ถํ์ฌ ์ป์ต๋๋ค. ์ธ๊ฐ ์ ์์ธ๋ HaMeR
๋ชจ๋ธ๋ก ์ถ์ ๋ MANO ํ๋ผ๋ฏธํฐ(\theta_t, \beta_t)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๊น์ด ์ ๋ณด(depth information)์ ICP ๋ฑ๋ก(registration)์ ํตํด 3D ์ ํ๋๋ฅผ ๋์
๋๋ค. ์ด๋ ๊ฒ ์ถ์ถ๋ ์ธ๊ฐ ์ ์์ธ๋ cuRobo
๋ฅผ ์ด์ฉํ 2๋จ๊ณ ์ญ์ด๋ํ(Inverse Kinematics, IK) ์ ์ฐจ๋ฅผ ํตํด ๋ก๋ด์ ์ ์์ธ๋ก ๋ฆฌํ๊ฒํ
(retargeting)๋ฉ๋๋ค. 1๋จ๊ณ์์๋ ๋ก๋ด ํ์ ๊ด์ ๊ฐ๋๋ฅผ ์กฐ์ ํ์ฌ ๋ก๋ด ์์ ์ค๊ฐ ๋ํด(middle knuckle) ์์น์ ๋ฐฉํฅ์ ์ธ๊ฐ ์์ ์ค๊ฐ ๋ํด์ ์ ๋ ฌํ๊ณ , 2๋จ๊ณ์์๋ ๋ก๋ด ์์ ๊ด์ ๊ฐ๋๋ฅผ ์กฐ์ ํ์ฌ ๋ก๋ด ์๊ฐ๋ฝ ๋(fingertip) ์์น๋ฅผ ์ธ๊ฐ ์๊ฐ๋ฝ ๋์ ์ ๋ ฌํฉ๋๋ค. ์ด ์กฐ์ ์ ์ ์์ธ๋ ๊ฐํ ํ์ต(Reinforcement Learning, RL) ํ๋ จ ์ ์ด์ ์ ์ฃผ๋ ์ด๊ธฐ ์ํ(initial state)๋ฅผ ์ ๊ณตํ์ฌ ํ์(exploration) ํจ์จ์ฑ์ ๋์ด๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
์ ์ฑ
ํ์ต์ IsaacGym
์๋ฎฌ๋ ์ดํฐ์์ Proximal Policy Optimization (PPO)
์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์งํ๋ฉ๋๋ค. ๋ก๋ด์ KUKA LBR iiwa 14
ํ์ Allegro Hand
๊ฐ ์ฅ์ฐฉ๋ ์
์
์ ์ฌ์ฉํ๋ฉฐ, ์ ์ด ์ก์
์ ๊ธฐํํ์ ํจ๋ธ๋ฆญ ์ปจํธ๋กค๋ฌ(geometric fabric controller)์ PCA ๊ธฐ๋ฐ ์ ์ก์
๊ณต๊ฐ($x_{palm-target_t}, r_{palm-target_t}, x_{pca-target_t}$
)์ ์ฌ์ฉํฉ๋๋ค. ์๋ฎฌ๋ ์ด์
์์ ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ ๋ก์ท(zero-shot) ์ ์ด๋ฅผ ์ํด ๋๋ฉ์ธ ๋ฌด์์ํ(domain randomization)๋ฅผ ๊ด๋ฒ์ํ๊ฒ ์ ์ฉํ๊ณ , LSTM ๊ธฐ๋ฐ ์ ์ฑ
(policy)์ ์ฌ์ฉํ์ฌ ๋ถ๋ถ์ ๊ด์ธก์ฑ(partial observability)๊ณผ ๋
ธ์ด์ฆ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
์คํ ๊ฒฐ๊ณผ, HUMAN2SIM2ROBOT
์ ๋จ์ผ ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก๋ ๋ก๋ด ์กฐ์ ๊ณผ์ ์์ ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ(replay, object-aware replay, behavior cloning)๋ณด๋ค 55%์์ 68% ์ด์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ, ๊ฐ์ฒด ์์ธ ๊ถค์ ์ ํ์ฉํ ๋ฐ์ง ๋ณด์(dense reward)๊ณผ ์กฐ์ ์ ์ ์์ธ๋ฅผ ํ์ฉํ ์ด๊ธฐํ๋ RL ์ ์ฑ
ํ์ต์ ์๋์ ์์ ์ฑ, ์ต์ข
์ฑ๋ฅ์ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํจ์ด ์
์ฆ๋์์ต๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ก๊ธฐ(grasping), ๋น์ก๊ธฐ ์กฐ์(non-prehensile manipulation), ๋ค๋จ๊ณ ์กฐ์(multi-step tasks) ๋ฑ ๋ค์ํ ์ค์ ๋ก๋ด ์กฐ์ ๊ณผ์ ์์ ํจ๊ณผ์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
2 Detail Review
์ธ๊ฐ-๋ก๋ด ์ฒดํ ๊ฐ๊ทน์ ๋์ด์: ํ ๋ฒ์ ์ธ๊ฐ ์์ฐ์ผ๋ก Sim-to-Real ๊ฐํํ์ต
2.1 ๋ฐฐ๊ฒฝ: ์ธ๊ฐ ์์ฐ์ ํ์ฉํ ๋ก๋ด ํ์ต์ ๋์
๋ก๋ด์๊ฒ ์ฌ์ธํ ๋ฌผ์ฒด ์กฐ์(dexterous manipulation)์ ๊ฐ๋ฅด์น๋ ์ ํต์ ์ธ ๋ฐฉ๋ฒ ์ค ํ๋๋ ๋ชจ๋ฐฉ ํ์ต(imitation learning, IL)์ ๋๋ค. ๊ทธ๋ฌ๋ ํจ๊ณผ์ ์ธ ๋ชจ๋ฐฉ ํ์ต์ ์ํด์๋ ์ฌ๋์ด ๋ก๋ด์ ์ง์ ์กฐ์ข (ํ ๋ ์คํผ๋ ์ด์ )ํ๊ฑฐ๋ ํน์ ์ฅ๋น(์: ์ผ์ ์ฅ๊ฐ, VR ์ฅ์น ๋ฑ)๋ฅผ ์ฐฉ์ฉํด ๋ค์์ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํด์ผ ํ๋๋ฐ, ์ด๋ฌํ ๊ณผ์ ์ ๋งค์ฐ ๋ง์ ๋ ธ๋ ฅ๊ณผ ์๊ฐ์ด ํ์ํฉ๋๋ค. ์ค์ ์ฐ๊ตฌ ์ฌ๋ก๋ค์ ๋ณด๋ฉด, ํ๋์ ์์ ์ ์๋ฐฑ์์ ์์ฒ ๊ฐ์ ์ด๋ฅด๋ ์์ฐ ๋ฐ์ดํฐ๊ฐ ์๊ตฌ๋์์ผ๋ฉฐ, ์ด๋ ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ ์ธก๋ฉด์์ ํฐ ๊ฑธ๋ฆผ๋์ด์์ต๋๋ค.
ํํธ, ์ฌ๋์ด ๋งจ์์ผ๋ก ๋ฌผ์ฒด๋ฅผ ๋ค๋ฃจ๋ ์์์ ๋น๊ต์ ์ฝ๊ฒ ์ป์ ์ ์๊ณ , ์ผ๋ฐ์ธ๋ ์ง๊ด์ ์ผ๋ก ์์ฐํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์ค๋งํธํฐ ์นด๋ฉ๋ผ๋ก ์ผ์ ๋์์ ๋ นํํ๋ ๊ฒ๋ง์ผ๋ก๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ ๋น๋์ค๋ฅผ ๋ก๋ด ํ์ต์ ์ง์ ํ์ฉํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ๊ฐ์ฅ ํฐ ์ด์ ๋, ๋น๋์ค์๋ ๋ก๋ด์ด ๋ฐ๋ผ ํ ๋ช ์์ ์ธ ํ๋ ๋ ์ด๋ธ(์ด๋ค ๋ก๋ด ๋ช ๋ น์ ์ํํด์ผ ํ๋์ง)์ด ์์ผ๋ฉฐ, ๋๊ตฌ๋ ์ธ๊ฐ ์๊ณผ ๋ก๋ด ์์ ํํ ์ฐจ์ด(embodiment gap) ๋๋ฌธ์ ์ฌ๋ ์๋์์ ๋ก๋ด์ ๊ทธ๋๋ก ๋งคํํ๊ธฐ๋ ํ๋ค๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ฌ๋ ์์ ๋นํด ๋ก๋ด ์์ ๊ด์ ๊ตฌ์ฑ๊ณผ ์ด๋ ํ๊ณ๊ฐ ๋ค๋ฅด๋ฏ๋ก, ์ฌ๋์ ๋์์ ๋๊ฐ์ด ํ๋ด ๋ด๋ ๊ฒ์ ์ข ์ข ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ๋นํจ์จ์ ์ ๋๋ค.
๊ธฐ์กด ์ ๊ทผ๋ฒ ์ค ํ๋๋ก, ์ธ๊ฐ ์ ํฌ์ฆ ์ถ์ ๊ธฐ์ ์ ์ฌ์ฉํด ๋น๋์ค์ ๋งค ํ๋ ์๋ง๋ค ์ฌ๋ ์์ 3D ๊ด์ ๊ฐ์ ์ถ์ถํ๊ณ , ์ด๋ฅผ ๋ก๋ด ์์ ๊ด์ ๊ฐ์ผ๋ก ์ฌํ๊ฒํ (retargeting)ํ์ฌ ๋ก๋ด ํ๋์ผ๋ก ๋ณํํ๋ ค๋ ์๋๊ฐ ์์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง ํฐ ๋ฌธ์ ์ ์ง๋ฉดํฉ๋๋ค. ์ฒซ์งธ, ์ต๊ทผ 3D ์ ์ถ์ ๊ธฐ๋ฒ๋ค์ด ๋ฐ์ ํ์์๋ ๋ถ๊ตฌํ๊ณ , ์ผ๋ฐ RGB-D ์์์์๋ ์๊ฐ๋ฝ์ด ๋ฌผ์ฒด์ ๊ฐ๋ ค์ง๊ฑฐ๋ ์ผ์ ๋ ธ์ด์ฆ๊ฐ ์กด์ฌํ์ฌ ์๋ฒฝํ ์ถ์ ์ ๋ณด์ฅํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฏธ์ธํ ์ถ์ ์ค๋ฅ๋ ๋์ ๋๋ฉด ๋ก๋ด ์๊ฐ๋ฝ ๋์ ๋ชฉํ ์์น๊ฐ ์ด๊ธ๋๊ฒ ๋๊ณ , ๋ก๋ด ๊ด์ ๋ช ๋ น์ผ๋ก ๋ณํํ ๋ ๋ถ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํฉ๋๋ค. ๋์งธ, ์ค๋ น ์ธ๊ฐ ์์ ํฌ์ฆ๋ฅผ ์ ํํ ์์๋ด๋๋ผ๋, ์ฌ๋๊ณผ ๋ก๋ด์ ํํ ์ฐจ์ด ๋๋ฌธ์ ํด๋น ํฌ์ฆ๋ฅผ ๋ก๋ด ์์ผ๋ก ๊ตฌํํ์ง ๋ชปํ๊ฑฐ๋(์ญ๊ธฐ๊ตฌํ ํด๊ฐ ์์) ๊ทธ ์์ ์ ๋ถ์ ์ ํ ๋ก๋ด ์์ธ๊ฐ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ํนํ ์ฌ๋ฌ ์๊ฐ๋ฝ์ผ๋ก ๋์์ ํ์ ๊ฐํ๋ ๋ค์ง(ๅคๆ) ์กฐ์์์๋, ๋ถ์ ํํ๊ฑฐ๋ ๋ถ์์ ํ ์ฌํ๊ฒํ ๋์์ด ์ ์ด ํ ๋ถ๊ท ํ์ ์ผ์ผ์ผ ์์ ์ํ์ ์ด๋ ต๊ฒ ๋ง๋ญ๋๋ค. ์์ปจ๋, ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ํ๋ ๊ฐ์ ์ ํํ 1:1 ๋์์ ๊ฐ์ํ๋ ๊ธฐ์กด ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ์์ผ๋ก๋ ์ฌ๋-๋ก๋ด ์ฒดํ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ด๋ ต๊ณ , ํ๋ ๊ฐ์ ์์ฐ์ผ๋ก๋ ์ฑ๊ณต ํ๋ฅ ์ด ๋งค์ฐ ๋ฎ์์ต๋๋ค.
๊ฐํํ์ต(Reinforcement Learning, RL)์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋์์ผ๋ก ์ฃผ๋ชฉ๋ฐ์ ์์ต๋๋ค. RL์ ๋ก๋ด์ด ์ค์ค๋ก ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ผ๋ฉฐ ์๊ธฐ ๋ชธ์ฒด์ ๋ง๋ ์ต์ ์ ํ๋์ ํ์ตํ๋๋ก ํ๊ธฐ ๋๋ฌธ์, ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์ฐจ์ด๋ฅผ ์ง์ ๋ฉ์ฐ๋ ๋์ ๋ก๋ด ๊ณ ์ ์ ์ ์ฑ ์ ์ฐพ์๋ผ ์ ์์ต๋๋ค. ํ์ง๋ง RL ์ญ์ ํ์ค ๋ก๋ด์ ๋ฐ๋ก ์ ์ฉํ๊ธฐ์ ๋๊ด์ด ์์ต๋๋ค. ์ํ๋ ์์ ๋ง๋ค ์ ์ ํ ๋ณด์ ํจ์๋ฅผ ์ค๊ณํด์ผ ํ๊ณ , ๋ง์ ์ํํ์๊ฐ ํ์ํด ๋ฌผ๋ฆฌ ๋ก๋ด์ผ๋ก ์๋ํ๊ธฐ์ ๋นํ์ค์ ์ด์ฃ . ์ด๋ฅผ ์ํด ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํ์ตํ๊ณ ์ค์ ์ ์ฎ๊ธฐ๋ Sim-to-Real ๊ธฐ๋ฒ์ด ๋ฐ์ ํด ์์ง๋ง, ๋ณด์ ์ค๊ณ์ ์ด๋ ค์๊ณผ ์๋ฎฌ๋ ์ดํฐ์ ํ์ค ๊ฐ ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฌธ์ ๋ฑ์ด ๋จ์์์ต๋๋ค.
์ด๋ฌํ ๋ฐฐ๊ฒฝ์์ 2025๋ ๋ฐํ๋ โCrossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstrationโ ๋ ผ๋ฌธ์, ์ธ๊ฐ ์์ฐ ํ ๊ฐ๋ง์ผ๋ก ๋ก๋ด์ ๋ค์ง ์กฐ์ ์ ์ฑ ์ ํ์ต์ํค๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ Human2Sim2Robot์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ํ ๋ฒ์ ์ธ๊ฐ RGB-D ๋น๋์ค ์์ฐ์ผ๋ก๋ถํฐ ํต์ฌ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ์๋ฎฌ๋ ์ดํฐ ์์์ RL๋ก ์ ์ฑ ์ ํ์ตํ๊ณ , ์ด๋ฅผ ์ ๋ก์ท(zero-shot)์ผ๋ก ์คํ๊ฒฝ์ ์ด์ ํจ์ผ๋ก์จ ์ฌ๋-๋ก๋ด ์ฒดํ ๊ฐ๊ทน์ ๊ทน๋ณตํฉ๋๋ค. ๋๋๊ฒ๋ ์ด ๊ณผ์ ์์ ๋ณ๋์ ์จ์ด๋ฌ๋ธ ์ฅ์น๋ ํ ๋ ์คํผ๋ ์ด์ ๋ฐ์ดํฐ, ์์ญ ๊ฐ์ ์์ฐ ๋ชจ์์ด ์ ํ ํ์ํ์ง ์์ผ๋ฉฐ, ์์ ๋ณ๋ก ๋ณด์์ ์ผ์ผ์ด ํ๋ํ ํ์๋ ์์ต๋๋ค. ๋ณธ ๋ฆฌ๋ทฐ์์๋ Human2Sim2Robot์ ํต์ฌ ๊ธฐ์ ๋ด์ฉ์ ๊น์ด ์๊ฒ ์ค๋ช ํ๊ณ , ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ์ ์ฐจ๋ณ์ ์ ๋น๊ตํ๋ฉฐ, ์ด ์ ๊ทผ๋ฒ์ ๊ธฐ์ฌ์ ํฅํ ๋ก๋ด๊ณตํ/๊ฐํํ์ต ๋ถ์ผ์ ์ฃผ๋ ์๋ฏธ๋ฅผ ๋ถ์ํ๊ฒ ์ต๋๋ค.
2.2 Human2Sim2Robot ํ๋ ์์ํฌ: ํ ๊ฐ ์์ฐ์ผ๋ก Sim-to-Real ์ ์ฑ ํ์ต

Human2Sim2Robot ํ๋ ์์ํฌ ๊ฐ์. ์ด ์์คํ ์ ํ์ค-์๋ฎฌ๋ ์ด์ -ํ์ค(real-to-sim-to-real)๋ก ์ด์ด์ง๋ RL ํ์ต ๊ณผ์ ์ ํตํด, ์ธ๊ฐ ์์ฐ ํ๋๋ง์ผ๋ก๋ ๋ก๋ด ๋ค์ง ์กฐ์ ์ ์ฑ ์ ๋ฐฐ์๋๋ค. ์ฌ๋์ RGB-D ์์ฐ ์์์์ (1) ๋ฌผ์ฒด์ 6-์์ ๋(6-DoF) ์์ธ ๊ถค์ ๊ณผ (2) ์กฐ์ ์์ ์ง์ ์ ์ ์์ธ๋ฅผ ์ถ์ถํ์ฌ, ์ด๋ฅผ ์๋ฎฌ๋ ์ด์ ๊ฐํํ์ต์ ํ์ฉํฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ ์์์ ๋ก๋ด์ ํด๋น ๋ฌผ์ฒด ๊ถค์ ์ ๋ฐ๋ผ๊ฐ๋๋ก ํ๋ จ๋๋ฉฐ(๋ณด์ ์ค๊ณ), ์ด๋ฐ ํ์ ๋จ๊ณ์์๋ ์ธ๊ฐ ์์ฐ์์ ์ป์ ์์ ์ด๊ธฐ ์์ธ๋ฅผ ์ฌ์ฉํด ํจ์จ์ ๋์ ๋๋ค. ์ด๋ ๊ฒ ํ์ต๋ ์ ์ฑ ์ ๋๋ฉ์ธ ๋๋คํ ๋ฑ์ ํตํด ํ์ค์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ๋๋ก ์ผ๋ฐํ๋์ด ์์ผ๋ฉฐ, ์ค์ Kuka 7์์ ๋ ๋ก๋ดํ๊ณผ Allegro ๋ค์ง ๋ก๋ด์์ผ๋ก ๊ตฌ์ฑ๋ ์์คํ ์์ ์ถ๊ฐ ํ๋ ์์ด ๊ณง๋ฐ๋ก ์ฑ๊ณต์ ์ผ๋ก ๋์ํ์ต๋๋ค. ์๋์์๋ ์ด ํ๋ ์์ํฌ์ ๊ฐ ๊ตฌ์ฑ ์์๋ฅผ ๋จ๊ณ๋ณ๋ก ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2.2.1 ์ธ๊ฐ ์์ฐ ์ฒ๋ฆฌ: ๊ฐ์ฒด ๊ถค์ ์ถ์ถ๊ณผ ์ ํฌ์ฆ ์ฌํ
Human2Sim2Robot์ ์ฒซ ๋จ๊ณ๋ ๋จ ํ๋์ ์ธ๊ฐ ์์ฐ ์์์ ๊ธฐ๊ณ๊ฐ ์ดํดํ ์ ์๋ ํํ๋ก ๊ฐ๊ณตํ๋ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ RGB-D ์นด๋ฉ๋ผ(๊น์ด ์ ๋ณด๋ฅผ ํฌํจํ ์นด๋ฉ๋ผ)๋ฅผ ์ด์ฉํด ํ ์ด๋ธ ์์์ ์ฌ๋์ด ๋ชฉํ ์์ ์ ์ํํ๋ ๋จ์ผ ์์ฐ์ ๋ นํํ์์ต๋๋ค. ์ด๋ ์นด๋ฉ๋ผ๋ ๋ด๋ถ ํ๋ผ๋ฏธํฐ(intrinsics)์ ์์น๊ฐ ๋ฏธ๋ฆฌ ๋ณด์ (calibration)๋์ด ์์ด, ์์ ํฝ์ ์ขํ๋ฅผ ๋ฌผ๋ฆฌ ์ขํ๋ก ์ ํํ ๋ณํํ ์ ์๋ ์ํ์ ๋๋ค.
๋์งํธ ํธ์ ํ๊ฒฝ ๊ตฌ์ฑ: ์์ฐ ์์์ ๋ถ์ํ๊ธฐ์ ์์, ์ฐ๊ตฌํ์ ๋ก๋ด์ด ํ์ตํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์ ํ์ค๊ณผ ์ ์ฌํ๊ฒ ๋ง๋๋ ์์ ์ ์ํํ์ต๋๋ค. ์ด๋ฅผ ์ํด ํด๋์ฉ 3D ์ค์บ๋ ์ฑ(์: Kiri Engine, 3D Scanner App)์ ์ด์ฉํ์ฌ ์์ ์ ์ฌ์ฉ๋๋ ๋ฌผ์ฒด์ ์ฅ๋ฉด(ํ๊ฒฝ)์ ์ ๋ฐํ 3D ๋ฉ์ฌ(mesh) ๋ชจ๋ธ์ ์ป์์ต๋๋ค. ๋จ ๋ช ๋ถ ์ ๋์ ์ค์บ ๋ ธ๋ ฅ์ผ๋ก, ํ ์ด๋ธ ์ ์ ์ ํ๊ฒฝ(๋ฐ์ค, ๋๋น, ๊ฑด์กฐ๋ ๋ฑ)๊ณผ ๋์ ๋ฌผ์ฒด(์: ์์, ๋ฌผ์ปต, ์ ์)์ ํ์์ ๋ชจ๋ ๋ณต์ ํ ๋์งํธ ํธ์์ ๊ตฌ์ถํ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํด๋๋ฉด ์๋ฎฌ๋ ์ดํฐ์์ ํ์ค๊ณผ ๋์ผํ ์ง์ค๋ฉํธ๋ฆฌ๋ก ํ์ต์ํฌ ์ ์์ด, Sim-to-Real ๊ฐ ์ฐจ์ด๋ฅผ ์ค์ด๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๋ฌผ์ฒด 6D ์์ธ ๊ถค์ ์ถ์ถ: ์์ฐ ์์์ผ๋ก๋ถํฐ ๊ฐ์ฒด์ ์์ง์ ๊ฒฝ๋ก๋ฅผ ์ ํํ ์์๋ด๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด FoundationPose๋ผ๋ ์ฌ์ ํ์ต๋ ๊ฐ์ฒด ์์ธ ์ถ์ ๋ชจ๋ธ์ ํ์ฉํ์ต๋๋ค. ์ ๋ ฅ์ผ๋ก๋ ์์ ํ๋ํ ๋ฌผ์ฒด์ 3D ๋ฉ์ฌ ๋ชจ๋ธ๊ณผ, ์์ ๊ฐ ํ๋ ์์์์ ๋ฌผ์ฒด ๋ง์คํฌ(๋ฌผ์ฒด๊ฐ ์ฐจ์งํ๋ ํฝ์ ์์ญ)๊ฐ ์ฃผ์ด์ง๋๋ค. ๋ฌผ์ฒด ๋ง์คํฌ๋ ์ต์ ๋ถํ ๋ชจ๋ธ์ธ SAM (Segment Anything Model) 2๋ฅผ ์ด์ฉํด ์๋์ผ๋ก ์ป์์ต๋๋ค. FoundationPose๋ ์ด๋ฌํ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก, ์์ฐ ๋ด๋ด ๋ฌผ์ฒด์ 6-์์ ๋(ํ๋ฉด ์์น x-y, ๋์ด z, ๋กค-ํผ์น-์ ๊ฐ๋) ์์ธ๋ฅผ ์ถ์ ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ๊ฐ ์๊ฐ ์คํ ๋ง๋ค ๋ฌผ์ฒด์ ์์น์ ๋ฐฉํฅ์ผ๋ก ์ด๋ฃจ์ด์ง ๊ถค์ {O}_{1:T}๋ฅผ ์ป์ ์ ์์ต๋๋ค (T๋ ์์ฐ ๊ธธ์ด). ์ด ๊ฐ์ฒด ์์ธ ๊ถค์ ์ ์ฌ๋์ด ์ด ์์ ์์ ๋ฌผ์ฒด๋ฅผ ์ด๋ป๊ฒ ์ด๋์์ผฐ๋์ง์ ๋ํ ๋ชฉํ ์๋๋ฆฌ์ค๋ฅผ ์ ์ํด์ฃผ๋ฉฐ, ๋ก๋ด์๊ฒ๋ ๋ฌด์์ ํด์ผ ํ๋์ง ์๋ ค์ฃผ๋ ์ญํ ์ ํ๊ฒ ๋ฉ๋๋ค.
์ธ๊ฐ ์ ์กฐ์ ์ด๊ธฐ ์์ธ ์ถ์ถ: ๋ค์์ผ๋ก, ํ ๋ฒ์ ์์ฐ ์ค์์ โ์กฐ์ ์ง์ โ์ ์ธ๊ฐ ์ ๋ชจ์๊ณผ ์์น๋ฅผ ํฌ์ฐฉํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์คํ์์ค ๋ชจ๋ธ HaMeR๋ฅผ ์ฌ์ฉํด ๋งค ํ๋ ์์ ์ธ๊ฐ ์ 3D ํฌ์ฆ(์๊ฐ๋ฝ ๊ด์ ๊ฐ๋ ๋ฐ ์๋ฐ๋ฅ ์์น)๋ฅผ ์ถ์ ํ์ต๋๋ค. HaMeR๋ RGB ์์์ผ๋ก๋ถํฐ ์ ๊ด์ ์ ์ถ์ ํ๋ ๋ชจ๋ธ์ธ๋ฐ, ๋ ์ ํ๋๋ฅผ ๋์ด๊ธฐ ์ํด ๊น์ด ์์ ์ ๋ณด๋ ํ์ฉํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ ํ๋ ์์ RGB๋ก ์ถ์ ํ ์ ๋ชจ๋ธ์ ICP (Iterative Closest Point) ์ ํฉ ๋ฐฉ๋ฒ์ผ๋ก ํด๋น ๊น์ด ์ ๋ค๊ณผ ์ ๊ตํ๊ฒ ๋ง์ถ์ด, ์๊ฐ๋ฝ ์์น๋ฅผ ๋ณด์ ํ์์ต๋๋ค. ์ด๋ ๊ฒ ์ป์ ์ธ๊ฐ ์ ํฌ์ฆ ์ํ์ค {H}_{1:T} (MANO ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ํํ๋ก ํํ๋จ)์์, ๋ ผ๋ฌธ์ ํน๋ณํ pre-manipulation hand pose, ์ฆ ์กฐ์ ์์ ์ง์ ์ ์์ธ๋ฅผ ์ฐพ์๋ ๋๋ค. โ์กฐ์ ์์โ ์์ ์ ์ฐพ๊ธฐ ์ํด ๋ฌผ์ฒด ๊ถค์ ์ ํ์ฉํ๋๋ฐ, ๋ฌผ์ฒด์ ์๋๊ฐ ์ฒ์์ผ๋ก ์ผ์ ์๊ณ๊ฐ์ ๋๋ ์์ t์ ์ฐพ๊ณ , ๊ทธ๋ณด๋ค ์ฝ๊ฐ ์ด์ ์๊ฐ t-\Delta (์์ปจ๋ ๋ช ํ๋ ์ ์ )์ ์กฐ์ ์ง์ ์๊ฐ์ผ๋ก ์ ์ํฉ๋๋ค. ์ด ์์ ์๋ ์์ด ๋ง ๋ฌผ์ฒด๋ฅผ ์ก๊ธฐ ์์ํ๊ธฐ ๋ฐ๋ก ์ง์ ์ ์ํ์ผ ๊ฒ์ ๋๋ค. ํด๋น ํ๋ ์์์์ ์ธ๊ฐ ์ ๊ด์ ๊ฐ๋๋ค๊ณผ, ์๋ฐ๋ฅ์ ๊ธฐ์ค์ (๋ ผ๋ฌธ์์๋ ์ค์ง์ ์ฒซ ๋ง๋ ๊ด์ ๋ถ๋ถ)์ ์ถ์ถํ๋ฉด ์ด๊ฒ์ด ์ธ๊ฐ์ ์กฐ์ ์์ ์์ธ์ ๋๋ค. ๋ค์ ๋งํด, ์ฌ๋์ด ๋ฌผ์ฒด์ ์ ์ดํ๊ธฐ ์ง์ ์ด๋ป๊ฒ ์๊ฐ๋ฝ์ ๋ฒ๋ฆฌ๊ณ ์ด๋ค ์์น์ ์์ ๋์๋์ง๋ฅผ ๋ํ๋ ๋๋ค.
๋ก๋ด ์์ผ๋ก ์ด๊ธฐ ์์ธ ์ฌํ๊ฒํ : ์ด์ ์ถ์ถ๋ ์ธ๊ฐ ์์ pre-manipulation ์์ธ๋ฅผ ๋ก๋ด ์์ ์ด๊ธฐ ์์ธ๋ก ์ฎ๊ฒจ์ผ ํฉ๋๋ค. ์ฌ๋๊ณผ ๋ก๋ด์ ์์ ํํ๊ฐ ๋ค๋ฅด๋ฏ๋ก ๋จ์ ์ผ๋์ผ ๋์์ผ๋ก๋ ํ๋ญ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ ์ํด ๋ ๋จ๊ณ IK(์ญ๊ธฐ๊ตฌํ) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ต๋๋ค. ์ฐ์ , ์ธ๊ฐ ์์์ ๋ฝ์ ์ค์ง(knuckle) ๊ด์ ์ ์์น์ ๋ฐฉํฅ์ ์ต๋ํ ๋ง๋๋ก ๋ก๋ดํ๊ณผ ์๋ชฉ์ ์ด๋์ํต๋๋ค. KUKA ํ์ ๊ด์ ๋ค์ ์์ง์ฌ ๋ก๋ด ์์ ์ค์ง ๊ด์ ์ด ์ธ๊ฐ ์ ์ค์ง ๊ด์ ์์น๋ก ์ค๊ฒ ํ๊ณ , ์๋ฐ๋ฅ ๋ฉด์ ๋ฐฉํฅ๋ ์ ๋ ฌ์ํค๋ ๊ฒ์ ๋๋ค (์์ฃผ ์ฝ๊ฐ์ ์คํ์ ์ ๊ณ ๋ คํ๋ค๊ณ ํฉ๋๋ค). ๋ค์์ผ๋ก, ๋ก๋ด ์๊ฐ๋ฝ ๊ด์ ๋ค์ ์์ง์ฌ ๋ก๋ด ์๊ฐ๋ฝ ๋์ด ์ธ๊ฐ ์๊ฐ๋ฝ ๋ ํฌ์ธํธ์ ๊ฐ๊ฐ ์ต๋ํ ๊ฒน์น๋๋ก ๋ง๋ญ๋๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ์ ์์ง, ๊ฒ์ง, ์ค์ง ๋ ์์น์ ๋ก๋ด์ ํด๋น ์๊ฐ๋ฝ ๋์ด ์ค๋๋ก ๋ก๋ด ์์ ๊ฐ๋๋ฅผ ์กฐ์ ํฉ๋๋ค. ์ด๋ฌํ 2๋จ๊ณ IK๋ฅผ ํตํด ๋ก๋ด์ pre-manipulation ์ ์์ธ๋ฅผ ๊ตฌํ๊ฒ ๋๋๋ฐ, ์ด๋ ๋ก๋ดํ์ ์๋ชฉ ์์น/์์ธ์ ๋ก๋ด์์ ๊ด์ ๊ฐ ์ ์ฒด๋ฅผ ํฌํจํ๋ ๊ตฌ์ฑ์ ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋น๊ต์ ๊ฐ๋จํ ์ ์ฐจ์ด์ง๋ง, ์ธ๊ฐ ์์ ์ด๊ธฐ ํฌ์ฆ๋ฅผ ๋ก๋ด์ ์ถฉ๋ถํ ๊ทผ์ฌํ๊ฒ ์ฎ๊ฒจ์ฃผ์ด ๋ก๋ด ์ ์ฅ์์ ์์ฐ์ค๋ฌ์ด ์ด๊ธฐ ์กฐ๊ฑด์ ๋ง๋ค์ด๋ ๋๋ค. ๋์ฑ์ด ์ด ๊ณผ์ ์ ํ ์๊ฐ์ ์์ธ๋ง ๋ง์ถ๋ฉด ๋๋ฏ๋ก, ์์ ๋งํ ํ๋ ์๋ณ ์ฌํ๊ฒํ ์์ ๋ฐ์ํ๋ ๋์ ์ค๋ฅ ๋ฌธ์ ๋ฅผ ํผํ ์ ์์ต๋๋ค.
๋ ๊ฐ์ง ํต์ฌ ์ถ์ํ: ์์ฝํ๋ฉด, Human2Sim2Robot์ ํ ๊ฐ์ ์ธ๊ฐ ์์ฐ์์ (1) ๋ฌผ์ฒด์ ๋ชฉํ ์ด๋ ๊ฒฝ๋ก์ (2) ๋ก๋ด์ ์ด๊น์์ธ๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ์ ๋ณด๋ฅผ ์ถ์ถํ ๊ฒ์ ๋๋ค. ์ด๋ค์ ์ฌ๋ ์์ฐ์ ๋ณต์กํ ์๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ํ์ต์ ์ ์ฉํ ๋ฐฉ์์ผ๋ก ์ถ์ํํ ๊ฒ์ด๋ผ ๋ณผ ์ ์์ต๋๋ค. ๋ฌผ์ฒด ์์ธ ๊ถค์ ์ ์์ ์ ๋ํ ๊ฐ์ฒด ์ค์ฌ์ ๋ชฉํ๋ฅผ ์ ์ํด ์ฃผ๋ฉฐ, ์ด๋ ๋ก๋ด๊ณผ ์ธ๊ฐ ์์ ์ฐจ์ด์ ๋ ๋ฆฝ์ (embodiment-agnostic)์ธ ๋ชฉํ๋ก์ ์ฌ์ฉ๋ฉ๋๋ค. ์ฆ, ๋ก๋ด์ด ์ฌ๋๊ณผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์์ง์ด๋๋ผ๋, ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด ๊ถค์ ๋๋ก ๋ฌผ์ฒด๋ฅผ ์ฎ๊ธฐ๊ธฐ๋ง ํ๋ฉด ์์ ์ ์ฑ๊ณตํ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค๋ ๋ป์ ๋๋ค. ํํธ pre-manipulation ๋ก๋ด ์ ์์ธ๋ ํ์ต ๊ณผ์ ์์ ๋ก๋ด์๊ฒ ์ ๋ฆฌํ ์ด๊ธฐ ์กฐ๊ฑด์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด์ ํ์ ์ด๊ธฐ๋ถํฐ ์ธ๊ฐ์ด ์ฌ์ฉํ ์ ์ฌํ ๋ฌผ์ฒด ํ์ง(grasp) ์์ธ์์ ์์ํ ์ ์๊ณ , ๋ฐ๋ผ์ ํ์ต ์ ์ฑ ์ด ์์ฐ์ค๋ฝ๊ฒ ์์ฐ๊ณผ ๋น์ทํ ์ ๋ต์ผ๋ก ์๋ ดํ๋๋ก ๋์ต๋๋ค. ์ค์ํ ์ ์ ์ด ๋ ๊ฐ์ง ์ ๋ณด๊ฐ ์ง์นจ(guidance) ์ญํ ์ ํ ๋ฟ, ์ฐ๋ฆฌ๊ฐ ๋ก๋ด์๊ฒ ์ธ๊ฐ์ ๋งค ์๊ฐ ๋์์ ๊ฐ์ํ์ง ์๋๋ค๋ ๊ฒ์ ๋๋ค. ๋ ผ๋ฌธ์ ํํ์ ๋ฐ๋ฅด๋ฉด, ์์ฐ์ โ๊ณผ์ ๋ช ์ธ์ ์ง๋ (task specification and guidance)โ๋ก๋ง ์ฌ์ฉ๋๊ณ , ๋ก๋ด์ ์ธ๊ฐ์ฒ๋ผ ํ๋ํ๋ ๊ฒ์ด ์ ๋ฆฌํ ๋๋ ๊ทธ๋ ๊ฒ ํ๋๋ก ์ ๋๋์ง๋ง, ๋ก๋ด ์์ ์ ํ์์ ๋ง์ง ์์ ๋๋ ๊ณผ๊ฐํ ๋ค๋ฅธ ๋์์ผ๋ก ์ฐํํ ์ ์๊ฒ ํ์ฉ๋ฉ๋๋ค. ์ด๋ฌํ ์ค๊ณ ์ฒ ํ ๋๋ถ์, ์ฌ๋-๋ก๋ด ์ฒดํ ์ฐจ์ด๊ฐ ํฐ ๊ฒฝ์ฐ์๋ ๋ก๋ด์ด ๋ ์์ ์ผ๋ก ์ต์ ํ๋์ ์ฐพ๋ ์์ ๋๊ฐ ๋ณด์ฅ๋ฉ๋๋ค.
2.2.2 ์๋ฎฌ๋ ์ด์ ์์์ ์ ์ฑ ํ์ต๊ณผ ๋ณด์ ์ค๊ณ
์ด์ ์ค๋น๋ ๋์งํธ ํธ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ๊ฐํํ์ต์ ํตํด ๋ก๋ด ์กฐ์ ์ ์ฑ (policy)์ ํ์ตํฉ๋๋ค. ํ์ต์๋ NVIDIA์ IsaacGym ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ, ์์ ์ค์บํ ์ฅ๋ฉด ๋ฉ์ฌ(ํ ์ด๋ธ ๋ฐ ๊ณ ์ ๋ฐฐ๊ฒฝ)์ ๋ฌผ์ฒด ๋ฉ์ฌ๋ฅผ ๋ถ๋ฌ์ ํ์ค๊ณผ ๋์ผํ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ ๊ตฌ์ถํ์ต๋๋ค. ๋ก๋ด ๋ชจ๋ธ ์ญ์ ์ค์ ์ ๋์ผํ 7-์์ ๋ KUKA ํ๊ณผ 16-์์ ๋ Allegro ๋ก๋ด ์์ผ๋ก ์ค์ ๋์์ต๋๋ค[30]. ์์ฝํ๋ฉด, ์๋ฎฌ๋ ์ดํฐ ์์ ํ์ค ์คํ์ค์ ์ถ์ํ์ ๋ง๋ ์ ์ ๋๋ค (๊ทธ๋ฆผ 6 ์ฐธ์กฐ).
- ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ: ์ ์ฑ ํ์ต์๋ Proximal Policy Optimization (PPO) ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ์์ต๋๋ค. ๋ก๋ด ์ ์ฑ ์ ๋ฐ๋ณต์ ์ธ ์ํผ์๋ ํ๋ จ์ ๊ฑฐ์ณ ์ ๋ฐ์ดํธ๋๋ฉฐ, ์ต์ข ์ ์ผ๋ก ๋ก๋ด ๊ด์ ์ ์ด ๋ช ๋ น์ ์ถ๋ ฅํ๋ ์ ๊ฒฝ๋ง์ผ๋ก ์ป์ด์ง๋๋ค. ์ ์ฑ ์ ๊ด์ฐฐ ์ํ๋ก๋ ๋ก๋ด ์์ฒด์ ๊ด์ ์ํ(ํ๋กํ๋ฆฌ์ค์ ์ )์ ์ค์๊ฐ ๋ฌผ์ฒด์ 6D ์์ธ๊ฐ ์ฃผ์ด์ง๋๋ค. ์ด๋ ์ค์ ๋ฐฐ์น ์์ ๋์ผํ๊ฒ, ์นด๋ฉ๋ผ๋ฅผ ํตํด ์ถ์ ๋ ๋ฌผ์ฒด์ ์์น/์์ธ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํจ์ ์๋ฏธํฉ๋๋ค. ์ด๊ธฐ ํ์ต ์์๋ ์ํผ์๋๋ง๋ค ๋ก๋ด์ ์ด๊ธฐ ์์ธ๋ฅผ ์์ ๊ตฌํ pre-manipulation ๋ก๋ด ์ ์์ธ๋ก ๋ฆฌ์ (reset)ํ์ฌ ์์ํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ก๋ด์ด ์ด๋ฐ๋ถํฐ ๋ฌผ์ฒด๋ฅผ ์ก์ ์ค๋น๊ฐ ๋ ์ํ์์ ํ์์ ์์ํ๋ฏ๋ก, ๋งจ ์ฒ์๋ถํฐ ์๋ฑํ ๊ณณ์ ํ์ํ๋๋ผ ์๊ฐ์ ํ๋นํ์ง ์์ต๋๋ค. ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ์ด ์ด๊ธฐํ ์ ๋ต์ด RL ํ์ต์ ์์ ์ฑ๊ณผ ์๋๋ฅผ ๋์ฌ์ฃผ๋ฉฐ, ํ์ ๋น๊ต ์คํ์์๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ๋ณด์ ํจ์ ์ค๊ณ: Human2Sim2Robot์ ์ค์ํ ํน์ง ์ค ํ๋๋ ์์ ๋ณ ๋ณด์ ํจ์๋ฅผ ์ถ๊ฐ๋ก ์ค๊ณ/ํ๋ํ์ง ์์๋ค๋ ๊ฒ์ ๋๋ค. ๋์ ํ๋์ ์ผ๋ฐ์ ๋ณด์ ํจ์๋ฅผ ๋ชจ๋ ์์ ์ ์ฌ์ฉํ๋๋ฐ, ๊ทธ๊ฒ์ด ๋ฐ๋ก โ๊ฐ์ฒด ๊ถค์ ์ถ์ ๋ณด์โ์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ๋งค ์์ ์ ๋ณด์ r_t๋ฅผ ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ๋ชฉํ ๊ถค์ ์ ์ผ๋ง๋ ์ ๋ง๊ฒ ๋ฐ๋ผ๊ฐ๊ณ ์๋๊ฐ๋ก ์ ์ํฉ๋๋ค. ์์์ผ๋ก๋ ๋ฌผ์ฒด์ ํ์ฌ ์์ธ์ ์ธ๊ฐ ์์ฐ์์ ๊ทธ ์์ ์ ํด๋นํ๋ ๋ชฉํ ์์ธ ์ฌ์ด์ ๊ฑฐ๋ฆฌ(distance)๋ฅผ ์ธก์ ํ์ฌ, ๊ฑฐ๋ฆฌ๊ฐ ์์์๋ก ๋์ ๋ณด์์ ์ฃผ๋ ํ์์ ๋๋ค. ์ฌ๊ธฐ์ ๊ฑฐ๋ฆฌ๋ ๋จ์ํ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ ๋์ด์, ๋ฌผ์ฒด์ ์์น์ ๋ฐฉํฅ ์ค์ฐจ๋ฅผ ๋์์ ๋ฐ์ํ ์ ์๋๋ก ๊ณ ์๋์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ๋ฌผ์ฒด์ ๋ด๋ถ ๊ธฐ์ค ํ๋ ์์ ์ฌ๋ฌ ๊ฐ์ ๊ธฐ์ค ์ (anchor point)์ ๋๊ณ , ํ์ฌ ๋ฌผ์ฒด์ ๋ชฉํ ๋ฌผ์ฒด ์ฌ์ด ๊ฐ ๊ธฐ์ค์ ์ ์๋ ์์น ์ฐจ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด์ ํ๋ฉด ๋ชจ์๋ฆฌ๋ ์ค์ฌ ๋ฑ์ ์ ์ ์ฐ์ด๋๊ณ , ๋ก๋ด์ด ๋ฌผ์ฒด๋ฅผ ๋ค๊ณ ์์ง์ผ ๋ ์ด ์ ๋ค์ด ๋ชฉํ ์์น์ ์ผ๋ง๋ ๊ฐ๊น์ด ๊ฐ๋์ง๋ก ๋ณด์์ ์ฃผ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ฌผ์ฒด์ ํ์ ์ค์ฐจ๋ ์ ๋ค์ ๋ฐฐ์น์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ฒ ๊ฑฐ๋ฆฌ๋ก ๋ฐ์๋ฉ๋๋ค. ๋ง์ฝ ์ด๋ค ์ถ์ผ๋ก ํ์ ์ด ์ค์ํ ๋ฌผ์ฒด๋ผ๋ฉด ๊ทธ ์ถ ๋ฐฉํฅ์ผ๋ก ๊ฑฐ๋ฆฌ๋ฅผ ํฌ๊ฒ ๋๊ปด์ง๋๋ก ์ ์ ๋ฐฐ์นํ๊ณ , ๋ฐ๋๋ก ํ์ ๋์นญ์ ์ธ ๋ฌผ์ฒด๋ผ๋ฉด ๋ถํ์ํ ๋ฐฉํฅ ์ค์ฐจ๋ ๋ฌด์ํ๋๋ก ์ ์ ๋ฐฐ์นํ ์๋ ์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ค์ ์ค์ ์ ๋ฌผ์ฒด ์ ํ์ ๋ฐ๋ผ ํ ๋ฒ ์ ํด์ฃผ๋ฉด ๋๊ณ , ๋ณธ ์ฐ๊ตฌ์์๋ ๋๋ถ๋ถ์ ์์ ์์ ๋์ผํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํน๋ณํ ๋ณด์ ํ๋ ์์ด๋ ์ ๋์ํจ์ ๋ณด์์ต๋๋ค. ๊ทธ๋ฆผ 4์์๋ ์ด ๊ฐ์ฒด ๊ถค์ ์ถ์ ๋ณด์์ ๊ฐ๋ ๋๋ฅผ ์๊ฐํํ๊ณ ์๋๋ฐ, ๊ฐ๋จํ ๋งํด ๋ฌผ์ฒด์ ํ์ฌ ์์ธ๊ฐ ์์ฐ ๊ถค์ ์ด๋ ์ฏค ์ ์๋์ง๋ฅผ ์ธก์ ํ์ฌ ๊ทธ์ ๋ฐ๋ผ ๋ณด์์ ์ฃผ๋ ์ฒด๊ณ์ ๋๋ค. ์ด ๋ณด์ ์ค๊ณ์ ์ฅ์ ์ RL ์ฐ๊ตฌ์์ ํํ ๊ฒช๋ ๊ณผ์ ๋ณ ๋ณด์ ์ค๊ณ์ ์ด๋ ค์์ ํฌ๊ฒ ์ค์๋ค๋ ์ ์ ๋๋ค. ์ฐ๊ตฌ์ง์ โํน์ ๋ฌผ์ฒด๊ฐ ํ์ ๋์นญ์ธ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ ๋, ๋จ ํ๋์ ๋ณด์ ๊ณต์๊ณผ ํ๋ผ๋ฏธํฐ๋ก ๋งค์ฐ ๋ค์ํ ์์ ๋ค์ ๋ชจ๋ ํ์ต์ํฌ ์ ์์๋คโ๋ผ๊ณ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ ๋ณธ ๋ฐฉ๋ฒ์ ๋ฒ์ฉ์ฑ์ ๋ณด์ฌ์ฃผ๋ ๋๋ชฉ์ผ๋ก, ์๋ก์ด ์์ ๋ง๋ค ๋ณด์์ ์๋ก ๋ง๋ค ํ์ ์์ด ์ธ๊ฐ ์์ฐ ๊ถค์ ๋ง ์์ผ๋ฉด ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต ๊ฐ๋ฅํจ์ ์์ฌํฉ๋๋ค. ์ค์ ๋ก ๋ ผ๋ฌธ์์ ์คํํ ์์ ๋ค(์๋ ์ค๋ช ๋ ์ ์ ๊ฝ๊ธฐ, ์์ ํผ๋ฒ ๋ฑ)์ ๋ํด ์ถ๊ฐ์ ์ธ ๋ณด์ ์กฐ์ ์์ด๋ ๋ชจ๋ ์ฑ๊ณต์ ์ธ ์ ์ฑ ์ ์ป์ ์ ์์์ต๋๋ค.
- ์ธ๊ฐ ์์ฐ์ ํตํ ๊ฐ์ ํ์ต: ์์ ์ธ๊ธํ๋ฏ, ์ด RL ํ์ต์ ์ธ๊ฐ์ ์์ฐ ๋์ ์์ฒด๋ฅผ ๋ชจ๋ฐฉํ๋ ๊ฒ์ด ์๋๋ผ ์์ฐ์ ํตํด ์ ์๋ ๋ชฉํ(๋ฌผ์ฒด ๊ถค์ )๋ฅผ ๋ก๋ด ๋ฐฉ์์ผ๋ก ๋ฌ์ฑํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ฌ๋๊ณผ ๋ก๋ด์ ์์ง์์ ๋ค๋ฅผ ์ ์์ง๋ง, ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฌผ์ฒด๊ฐ ๋์ผํ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ์์ง์ด๋ฉด ์ฑ๊ณต์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ โ์ฐ๋ฆฌ๋ ์ธ๊ฐ ์์ฐ ํ๋์ ํ๋ด ๋ด๊ธฐ๋ณด๋ค, ๋ฌผ์ฒด์ ์์ง์์ ๊ด์ฌ์ ๋๋คโ๋ผ๊ณ ๋ช ์ํ๊ณ ์์ต๋๋ค. ์ธ๊ฐ์ pre-manipulation ํฌ์ฆ๋ ์ด๊ธฐ์ ๋๋ต์ ์ธ ๊ฐ์ด๋๋ก๋ง ์ฐ์ด๊ณ , ์ต์ข ์ ์ฑ ์ ๋ก๋ด์ ์ฒดํ์ ๋ง๊ฒ ์์จ์ ์ผ๋ก ์ต์ ํ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ฌ๋์ด ๋ฌผ์ฒด๋ฅผ ์ก์ ๋ ์ค๋ฅธ์์ผ๋ก ์ง์๋ค๊ณ ํด์ ๋ก๋ด๋ ๊ผญ ๊ฐ์ ๋ฐฉํฅ, ๊ฐ์ ์๊ฐ๋ฝ ์์๋ก ์ก์์ผ ํ๋ ๊ฒ์ ์๋๋๋ค. ๋ก๋ด์ ์๊ธฐ ๊ด์ ๊ตฌ์กฐ์ ๋ ํธ๋ฆฌํ ๋ฐฉ์์ด ์๋ค๋ฉด ๊ทธ๋ ๊ฒ ํด๋ ์ข๊ณ , ๋์ ๋ฌผ์ฒด ๊ฒฝ๋ก๋ง ๋ง์ถ๋ฉด ๋๋ ๊ฒ์ด์ฃ . ์ด๋ ๋ฏ ์ธ๊ฐ ์ๆผ์ ๊ฒฐ๊ณผ ์ค์ฌ์ ์ค์ผ์น ์ญํ ๋ง ํ๊ณ , ๊ตฌ์ฒด์ ์ธ ํ๋ ๊ตฌํ์ RL์ด ์์์ ์ฐพ์๋ด๋๋ก ํ๋ ๊ฒ์ด Human2Sim2Robot์ ์ฒ ํ์ ๋๋ค. ์ด๋ ์ธ๊ฐ-๋ก๋ด ํํ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ ํต์ฌ ์์ด๋์ด๋ก, ์ฌ๋ ์ ๋ต์ ๋งน๋ชฉ์ ์ผ๋ก ๋ฐ๋ผํ๊ธฐ๋ณด๋ค ์ฐธ๊ณ ๋ง ํจ์ผ๋ก์จ, ์คํ๋ ค ์ฑ๊ณต๋ฅ ๋์ ์ ๋ต์ ๋ก๋ด์ด ์ค์ค๋ก ๋ฐ๊ฒฌํ ์ ์๊ฒ ํด์ค๋๋ค.
- ๋๋ฉ์ธ ๋๋คํ์ ๊ฐ์ธํ ํ์ต: ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ฑ ์ ํ์ค์ ๋ฐ๋ก ์ ์ฉํ๋ ค๋ฉด, ์๋ฎฌ๋ ์ด์ -ํ์ค ๊ฐ ๊ฐญ(์ฐจ์ด)์ ์ค์ฌ์ผ ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์ ํ์ต ์ค ๋ค์ํ ๋๋ฉ์ธ ๋๋คํ(domain randomization) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์๋ฎฌ๋ ์ด์ ์์ ์ผ์ ๋จ๊ณ๋ง๋ค ๋ฌด์์๋ก ํ๊ฒฝ๊ณผ ๋ก๋ด์ ๋ฌผ๋ฆฌ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณํ์์ผฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ค๋ ฅ ๊ฐ์ ์ฝ๊ฐ์ฉ ๋ฐ๊พธ๊ฑฐ๋, ๋ง์ฐฐ ๊ณ์๋ ๋ฌผ์ฒด ๋ฌด๊ฒ๋ฅผ ์์๋ก ์กฐ์ ํ๊ณ , ๋ก๋ด ๊ด์ ์ ์ง๋/๊ฐ์ /๊ฐ์ฑ ๋ฑ์ ๋ชจ์๋ฅผ ๋ฌด์์ ์ค์ผ์ผ๋งํ์ต๋๋ค. ๋ํ ๋งค ์๋ฎฌ๋ ์ด์ ์คํ ๋ง๋ค 5% ํ๋ฅ ๋ก ๋ฌผ์ฒด์ ์์ ๋ฌด์์ ํ(์ธ๋ถ ์ถฉ๊ฒฉ)์ ๊ฐํ์ฌ, ์๊ธฐ์น ์์ ๋ฐฉํด๊ฐ ์๊ธฐ๋๋ก ํ์ต๋๋ค. ๊ด์ฐฐ๋๋ ๋ฌผ์ฒด ์์ธ์ ๋ก๋ด ์ํ, ๊ทธ๋ฆฌ๊ณ ๋ก๋ด์ ์ถ๋ ฅ ์ก์ ์๋ ์ผ์ ๋ ธ์ด์ฆ์ ํด๋นํ๋ ๊ฐ์ฐ์์ ์ก์์ ์ถ๊ฐํ์ฌ, ์นด๋ฉ๋ผ ์ค์ฐจ๋ ์ ์ด ์ ํธ ์ค์ฐจ๋ ๊ฒฌ๋ ์ ์๋๋ก ๋ง๋ค์์ต๋๋ค. ์ด๋ ๊ฒ ๊ด๋ฒ์ํ ๋๋คํ๋ฅผ ์ฃผ๋ฉด, ์ ์ฑ ์ ๋ค์ํ ์กฐ๊ฑด์์ ๋ฌผ์ฒด๋ฅผ ๊ถค์ ๋๋ก ์ฎ๊ธฐ๋ ์ฐ์ต์ ํ๊ฒ ๋๋ฏ๋ก ํ์ค์์ ๋ง์ฃผ์น ๋ณ๋์๋ ๊ฐ๊ฑดํด์ง๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋๋คํ์ ํจ๊ป, ์ด๋ฏธ์ง ๋์ 6D ํฌ์ฆ๋ฅผ ๊ด์ฐฐ๋ก ์ฌ์ฉํ๋ ๋ฎ์ ์ฐจ์์ ์ํ ํํ ๋ฑ์ด ํฉ์ณ์ ธ ๋ก๋ด ์ ์ฑ ์ ์ ์์ฑ๊ณผ ๊ฐ์ธ์ฑ์ด ํฅ์๋์ด ์ ๋ก์ท ์คํ๊ฒฝ ์ด์ ์ด ๊ฐ๋ฅํ๋ค๊ณ ๋ถ์ํฉ๋๋ค.
2.2.3 Zero-Shot Sim-to-Real: ํ์ต๋ ์ ์ฑ ์ ์คํ๊ฒฝ ์ํ
์๋ฎฌ๋ ์ด์ ์์ ์ถฉ๋ถํ ํ์ต์ ๋ง์น ์ ์ฑ ์ ๋ณ๋ ๋ฏธ์ธ์กฐ์ (fine-tuning) ์์ด ๊ทธ๋๋ก ์ค์ ๋ก๋ด์ ์ด์๋์ด ํ ์คํธ๋ฉ๋๋ค. ์ฐ๊ตฌ์ง์ ํ์ต๋ ์ ์ฑ ์ ๋ฌผ๋ฆฌ ๋ก๋ด์ ๋ฐฐ์นํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ ์ด ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํ์ต๋๋ค:
- ์ฐ์ , ์คํ ํ๊ฒฝ์ ZED stereo camera(๊น์ด ์นด๋ฉ๋ผ)๋ฅผ ์ค์นํ์ฌ ์ค์๊ฐ์ผ๋ก ๋ฌผ์ฒด์ 6D ์์ธ๋ฅผ 30Hz๋ก ์ถ์ ํฉ๋๋ค. ์ฌ๊ธฐ์๋ ํ์ต ๋์ ๋์ผํ FoundationPose ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ, ๋ฌผ์ฒด์ ์ค์ ์์น์ ๋ฐฉํฅ์ ์ง์์ ์ผ๋ก ์ถ์ ํ์ต๋๋ค.
- ๋ก๋ด ์ ์ฑ (์ ๊ฒฝ๋ง)์ ์ด ๋ฌผ์ฒด์ ํ์ฌ ์์ธ์ ๋ก๋ด์ ๊ด์ ์ํ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์๋ค์ฌ, 15Hz์ ์ฃผ๊ธฐ๋ก ๋ค์ ํ๋์ ์ถ๋ ฅํฉ๋๋ค. ์ ์ฑ ์ ์ถ๋ ฅ ํ๋์ ์ถ์์ ์ธ ๋ช ๋ น(์: ์ํ๋ ์๋๋ ๊ฐ์ ๋ชฉํ ์์น ๋ฑ)์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
- ์ด ์ถ๋ ฅ์ ๋ฐ๋ก ๋ก๋ด ๊ด์ ๋ก ๋ณด๋ด๋ ๋์ , Geometric Fabric Controller๋ผ๋ ์ค๊ฐ ์ ์ด๊ธฐ๋ก ์ ๋ฌ๋ฉ๋๋ค. Geometric Fabrics๋ ๋ก๋ด ์ด๋์ ๋งค๋๋ฝ๊ณ ์์ ์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ ์ฑ ์ด ๋ด๋ฆฐ ๋ช ๋ น์ ๋ฐ์ 60Hz๋ก ๋ก๋ด ๊ด์ ์ ๋ชฉํ ์์น/์๋ (PD ํ๊ฒ)๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๋จ๊ณ๋ ๋ก๋ด์ ๋์ญํ์ ๊ณ ๋ คํ์ฌ ๋ถ๋๋ฌ์ด ๊ฒฝ๋ก๋ฅผ ์์ฑํจ์ผ๋ก์จ, RL ์ ์ฑ ์ด ๋ฐ๋ก ํ ํฌ๋ฅผ ๋ด๋ณด๋ด๋ ๊ฒ๋ณด๋ค ์์ ํ๊ณ ํ์ค์ ์ด๊ฒ ํด์ค๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ๋ก๋ด ๋ด์ฅ ์ ์ธต PD ์ ์ด๊ธฐ๊ฐ 200Hz์ ๊ณ ์ฃผํ์๋ก ์ด๋ฌํ ๋ชฉํ ๊ฐ์ ๋ง๊ฒ ๊ฐ ๊ด์ ๋ชจํฐ์ ์ ์ด๋ฅผ ๊ฐํฉ๋๋ค. ์์ฝํ๋ฉด, ์ ์ฑ ์ ๊ณ ์์ค ์์ฌ๊ฒฐ์ ์ ํ๊ณ , ์ค๊ฐ ์ปจํธ๋กค๋ฌ๊ฐ ์ด๋ฅผ ๊ตฌ์ฒด์ ์ธ ๊ด์ ๋ช ๋ น์ผ๋ก ๋ฐ๊พธ์ด ์ค์ ๋ก๋ด์ ๊ตฌ๋ํ๋ ์ฒด๊ณ์ ๋๋ค.
Human2Sim2Robot์ ๊ฒฐ๊ณผ ์ค ์ฃผ๋ชฉํ ์ ์, ์ด๋ ๊ฒ ์ด์๋ ์ ์ฑ ์ด ํ ๋ฒ๋ ๋ก๋ด ์ค๋ฌผ๋ก ์ฐ์ตํด๋ณด์ง ์๊ณ ๋ (zero-shot) ์ฑ๊ณต์ ์ผ๋ก ์์ ์ ์ํํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ์์ ๋งํ ์๋ฎฌ๋ ์ด์ ๋๋ฉ์ธ ๋๋คํ ๋๋ถ์ ์ ์ฑ ์ด ํ์ค ๋ฌผ๋ฆฌ์ ๋ณ๋์ฑ๊น์ง ํฌ๊ดํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ํ ์๋ฎฌ๋ ์ดํฐ ์์ฒด๋ฅผ ์ค์ ์ ๋งค์ฐ ๊ฐ๊น๊ฒ (์ค์บ๋ ํ๊ฒฝ, ์ ํํ ๋ฌผ์ฒด ๋ชจ๋ธ, ์ค์ ์ ๋์ผํ ๋ก๋ด ๋งค๋ํฐ๋ ์ดํฐ ๋ชจ๋ธ) ๊ตฌ์ฑํ ๊ฒ๋ ์ฃผํจํ์ต๋๋ค. ์ฐ๊ตฌ์ง์ KUKA LBR iiwa 14 ํ๊ณผ Allegro Hand๋ก ์ด๋ฃจ์ด์ง ์ค์ ๋ก๋ด ์์คํ ์์, ํ์ต๋ ์ ์ฑ ์ ๋ฐ๋ก ์คํํ์ฌ ๋์ ์ฑ๊ณต๋ฅ ์ ์ป์์์ ๋ณด๊ณ ํ์ต๋๋ค. ์ด๋ ๋ก๋ด๊ณตํ์์ ์ฌ๋์ด ํ ๋ฒ ์์ฐํ ๊ฒ์ ๋ณด๊ณ (์ถ๊ฐ ๋ณด์ ์์ด) ๋ก๋ด์ด ๋ฐ๋ผ ํด๋ด๋ ํ์ต๋ ํ๋์ ์ค์ฆ์ ์ธ ์ฌ๋ก๋ก์ ํฐ ์๋ฏธ๋ฅผ ๊ฐ์ต๋๋ค. ์๋์์๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ค ์์ ๋ค์ ์คํํ๊ณ ์ด๋ค ์ฑ๊ณผ๊ฐ ์์๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
2.2.4 ๋ค์ํ ์กฐ์ ๊ณผ์ ์์์ ์คํ ๊ฒฐ๊ณผ
์ฐ๊ตฌ์์๋ Human2Sim2Robot์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ค์ํ ์ ํ์ ๋ฌผ์ฒด ์กฐ์ ์์ ์ ๋ํด ์คํ์ ์งํํ์ต๋๋ค. ์คํ ํ๊ฒฝ์ ํ ์ด๋ธ ์์ ์ ์ ์ธ ์ฅ์ ๋ฌผ(์์, ํฐ ๋๋น, ์ ์ ๊ฑด์กฐ๋ ๋ฑ)์ ๋ฐฐ์นํ๊ณ , ์ธ ๊ฐ์ง ์ด๋ ๋ฌผ์ฒด(์ค๋ต ๋ฐ์ค, ์ฃผ์ ์/ํผ์ฒ, ์ ์)๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ด ํ๊ฒฝ์ ๊ฐ์ ์ด๋ ์ผ์์์ ์์ ๋ฒํ ์ํฉ๋ค์ ์ถ์ ๋ชจ์ฌํ ๊ฒ์ผ๋ก, ํ ์ด๋ธ ์์์ ๋ฌผ์ฒด๋ฅผ ์ง์ด ๋ค์ด ์ฌ๋ฆฌ๊ฑฐ๋, ๋ฐ๊ฑฐ๋, ์ ํ์ ์ธ์ฐ๊ฑฐ๋, ๋ค๋ฅธ ์ฉ๊ธฐ์ ๋ฃ๋ ๋ฑ์ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํฉ๋๋ค.
๋จ์ผ ์คํฌ ๊ณผ์ : ์ฐ์ ๊ธฐ๋ณธ ์กฐ์ ๊ธฐ์ ๋จ์์ ๊ณผ์ ๋ค๋ก ํ์ง/์ด๋(grasping), ๋นํ์ง ์กฐ์(non-prehensile manipulation), ์ธ๋ ฅ ํ์ฉ ์กฐ์(extrinsic manipulation) ๋ฑ์ ์ฌ๋ก๊ฐ ์ ์ ๋์์ต๋๋ค.
- ์ 1: ์ค๋ต๋ฐ์ค ๋ฐ๊ธฐ(push) โ ์์ ์ง์ฌ๊ฐํ ์์๋ฅผ ์์ ๊ณ ์ ๋ ๋ฐ์ค ์ชฝ์ผ๋ก ๋ฐ์ด์ ์ ์ด์ํค๋ ๊ณผ์ (๋ฐ๊ธฐ: non-prehensile).
- ์ 2: ์ค๋ต๋ฐ์ค ํผ๋ฒ(pivot) โ ์์๋ฅผ ์ธ์ ์ธ์ฐ๊ธฐ ํ๋๋, ๊ณ ์ ๋ ๋ฐ์ค ๋ชจ์๋ฆฌ๋ฅผ ์ง๋ ๋ ์ผ์ ์ค๋ต๋ฐ์ค๋ฅผ ์์ผ๋ก ๊ธฐ์ธ์ฌ ์ธ์ฐ๋ ๊ณผ์ (extrinsic manipulation, ํ๊ฒฝ์ ํ์ฉ).
- ์ 3: ํผ์ฒ(์ฃผ์ ์) ์ง์ด ์ฌ๋ฆฌ๊ธฐ โ ์์ก์ด๋ฅผ ์ก๊ณ ๋ค์ด์ฌ๋ ค ์ ๋๋น ์๋ก ์ฎ๊ฒจ ๋ฌผ ๋ฐ๋ฅด๋ฏ์ด ์์น์ํค๋ ๊ณผ์ (prehensile grasp + ์ด๋).
- ์ 4: ์ ์ ๋ค์ด์ฌ๋ฆฌ๊ธฐ โ ๋ฉ์ํ ์ ์๋ฅผ ํ๋ฉด์์ ์ก์ ๋ค์ด์ฌ๋ฆฌ๋ ๊ณผ์ (prehensile, ๋์ด๋ ๋์ ํ์ง).
- ๊ทธ ์ธ์๋ ์ ์ ๋ฐ๊ธฐ, ์ ์ ์ธ์ฐ๊ธฐ ๋ฑ ๋ค์ํ ๋จ์ผ ์คํฌ ์์ ์ด ํฌํจ๋์์ต๋๋ค.
๋ค์ค ๋จ๊ณ ๊ณผ์ : ๋ ๋์๊ฐ, ๋ ผ๋ฌธ์ ์ด๋ฌํ ๊ธฐ๋ณธ ๊ธฐ์ ์ ์ฐ์์ ์ผ๋ก ๋์ธ ๊ฐ ์กฐํฉํด์ผ ํ๋ ๋ณตํฉ ์์ ์๋ ๋์ ํ์ต๋๋ค.
- ์ 5: ์ค๋ต๋ฐ์ค ํธ์-ํผ๋ฒ โ ์์๋ฅผ ๋จผ์ ๋ฐ์ด ๋ฐ์ค์ ๋ถ์ธ ํ, ์ด์ด์ ํผ๋ฒ ๋์์ผ๋ก ์ธ์ฐ๋ 2๋จ๊ณ ์์ .
- ์ 6: ์ ์ ํผ๋ฒ-๋ฆฌํํธ-๋ โ ํ ์ด๋ธ์ ๋์ธ ๋ฉ์ํ ์ ์๋ฅผ ๋จผ์ ๋ฒฝ(๋ฐ์ค)์ ๊ธฐ๋ ์ธ์ด ํ, ์ก์์ ๋ค์ด์ฌ๋ฆฌ๊ณ , ์ต์ข ์ ์ผ๋ก ๊ฑด์กฐ๋ ํ ์ฌ์ด์ ๋ผ์ ์ธ์ ๋๋ 3๋จ๊ณ ์์ . ์ด๋ ์ ์ ์ธ์ฐ๊ธฐ โ ์ ์ ๋ค์ด์ฌ๋ฆฌ๊ธฐ โ ์ ์ ๊ฝ๊ธฐ ์์์ ๋ณตํฉ ๊ณผ์ ์ ๋๋ค.
- ์ 7: ์ ์ ๋ฆฌํํธ-๋ โ ์ ์๋ฅผ ๋ฐ๋ก ๋ค์ด์ฌ๋ ค ๊ฑด์กฐ๋์ ๊ฝ๋ 2๋จ๊ณ ์์ (์ธ์ฐ์ง ์๊ณ ๋ฐ๋ก ๋ค์ด์ฌ๋ ค ๊ฝ๊ธฐ).
์ด๋ฌํ ๋ณตํฉ ์๋๋ฆฌ์ค๋ ์ธ๊ฐ์๊ฒ๋ ์ฌ๋ฌ ๋จ๊ณ์ ์ฌ๊ณ ๊ฐ ํ์ํ ๋น๊ต์ ๋ณต์กํ ์์ ์ ๋๋ค. Human2Sim2Robot์์๋ ๊ฐ ๋ณตํฉ ์์ ์ญ์ ๋จ ํ๋์ ์ธ๊ฐ ์์ฐ ์์์ผ๋ก๋ถํฐ ํ์ต๋์์ต๋๋ค. ์์ปจ๋ ์ ์ pivot-lift-rack ์์ ์ ๊ฒฝ์ฐ, ์ฌ๋์ด ์ฒ์๋ถํฐ ๋๊น์ง ์ ์๋ฅผ ์ธ์ ์ก์ ์ฎ๊ฒจ ๊ฝ๋ ์ผ๋ จ์ ๋์์ ํ๋ฒ ๋ณด์ฌ์ค ๊ฒ์ด๊ณ , ๋ก๋ด์ ๊ทธ ์์ฐ์ ๋ฌผ์ฒด ๊ถค์ (์ ์์ ์์ง์ ๊ฒฝ๋ก)์ ๋ง์ถฐ 3๋จ๊ณ ํ๋์ ๋ชจ๋ ํด๋ด์ผ ํ๋ ๊ฒ์ ๋๋ค. ํนํ ์ ์์ฒ๋ผ ๋๊ณ ์์ ๋ฌผ์ฒด๋ ๋ฐ๋ฅ์ ๋์ธ ์ํ๋ก๋ ์ง๊ธฐ ์ด๋ ค์ ๋จผ์ ์ธ์์ผ ํ๊ณ , ๊ฑด์กฐ๋์ ๋ผ์ธ ๋ ๊ฐ๋๋ฅผ ์ ์ ์งํด์ผ ํ๋ ๋ฑ ์ ๊ตํ ์ ์ด๊ฐ ํ์ํฉ๋๋ค. ์ด๋ฌํ ๋ณต์กํ ์์ ์ ํ ๋ฒ์ ์์ฐ์ผ๋ก ๋ฐฐ์ฐ๊ฒ ํ ๊ฒ์ ๋ณธ ์ฐ๊ตฌ์ ๋์ด๋ ๋์ ๋์ ์ด์์ต๋๋ค.
์คํ ๊ฒฐ๊ณผ: ์ ์๋ค์ Human2Sim2Robot์ผ๋ก ํ์ตํ RL ์ ์ฑ ์ ์ 7๊ฐ์ง ์ค์ ์์ ์ ๋ํด ์คํํ๊ณ , ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ์์ต๋๋ค. ๊ฐ ์์ ๋ง๋ค 10ํ์ ๋ ๋ฆฝ ์คํ์ ์ํํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ๋ฒ์ด ๋งค์ฐ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์์ ๋ณด๊ณ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ธ ์์น๋ ์์ ๋ณ๋ก ์ ์๋์ง ์์์ง๋ง, ๋ชจ๋ ์์ ์ ํ๊ท ํ์ฌ ๋ณผ ๋ Human2Sim2Robot ์ ์ฑ ์ ๋๋ถ๋ถ์ ์๋๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ต๋๋ค.
์ฐ๊ตฌ์ ํต์ฌ ๊ด์ฌ์ Human2Sim2Robot์ด ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ์ผ๋ง๋ ์ฐ์ํ๊ฐ์ด๋ฏ๋ก, ์ธ ๊ฐ์ง ๋ํ์ ์ธ ๊ธฐ์กด ์ ๊ทผ๋ฒ๊ณผ ๋น๊ต ์คํ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ๋น๊ต ๋์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Replay (์คํ๋ฃจํ ์ฌ์): ์ธ๊ฐ ์์ฐ ์์์ ๋ชจ๋ ํ๋ ์๋ง๋ค ์ ์ถ์ ์ ํ๊ณ ๋ก๋ด ํฌ์ฆ๋ก ์ฌํ๊ฒํ ํ์ฌ ์ป์ ๋ก๋ด์ ์ ์ฒด ๊ด์ ๊ถค์ ์ ๊ทธ๋๋ก ๋ฐ๋ผ ์ฌ์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ์ผ์ข ์ open-loop(ํผ๋๋ฐฑ ์์) ์คํ์ผ๋ก, ์ฌ๋์ด ํ๋ ๊ทธ๋๋ก ๋ก๋ด์ด ํด๋ณด๋ ๊ฒ์ ๋๋ค.
- Object-Aware Replay (๊ฐ์ฒด ์์น ๋ณด์ ์ฌ์): ์๊ธฐ Replay์ ๋์ผํ๋, ํ์ค์์ ์ด๊ธฐ ๋ฌผ์ฒด์ ์์น๊ฐ ์์ฐ ๋์ ์ฝ๊ฐ ๋ค๋ฅผ ์ ์์ผ๋ฏ๋ก, ๋ฌผ์ฒด์ ์ด๊ธฐ ๋ณํ ์ฐจ์ด๋ฅผ ๋ณด์ ํ์ฌ ๋ก๋ด ๊ถค์ ์ ์ฝ๊ฐ ์ด๋/ํ์ ์ํค๋ ๊ฐ์ ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ ๊ธฐ์กด ์ฐ๊ตฌ์ธ PEP์ด๋ OKAMI ๋ฑ์ ์์ด๋์ด๋ฅผ ์ฐธ๊ณ ํ ๊ฒ์ผ๋ก, ์์ฐ ๋๋น ๋ฌผ์ฒด ์์น๊ฐ ์ด๊ธ๋๋ ๋ก๋ด์ด ๊ถค์ ์ ๋ฐ๋ผ๊ฐ ์ ์๋๋ก ํฉ๋๋ค.
- Behavior Cloning (ํ๋ ๋ณต์ ): ํ๋ฃจํ ์ ์ฑ ์ด๊ธด ํ๋, RL์ด ์๋ ์ง๋ํ์ต ๊ธฐ๋ฐ ๋ชจ๋ฐฉํ์ต์ผ๋ก ์ ์ฑ ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ํ ๊ฐ์ ์์ฐ๋ง์ผ๋ก๋ ํ์ต์ด ์ด๋ ค์ฐ๋, ์ ์ ๋ฐฉ์์ ๋ง์ถ์ด ์์ฐ ํ๋๋ฅผ ์ฆ๊ฐํ์ฌ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ฑํ์ต๋๋ค. ๋ฌผ์ฒด ์ด๊ธฐ ์์น๋ฅผ ์ฌ๋ฌ ๋ฐฉ์์ผ๋ก ๋ฌด์์ ์ํ๋งํ๊ณ , ๊ทธ ์ํฉ์์ Object-Aware Replay๋ฅผ ์คํํ์ฌ 30๊ฐ์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ต๋๋ค. ์ด๊ฒ์ ์ ์ฑ ํ์ต์ฉ ๋ฐ์ดํฐ๋ก ์ผ์, Diffusion policy์ ๊ฐ์ IL ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ๋ ๋ณต์ ํ์ต์ ํ ๊ฒ์ด BC baseline์ ๋๋ค. ์ฝ๊ฒ ๋งํด, ํ ๊ฐ ์์ฐ์ ์ฌ๋ฌ ๋ฒ ์ฌ๋ฐฐ์นํด๊ฐ๋ฉฐ ๋ฐ์ดํฐ๋ก ๋ถํ๋ฆฐ ํ, ์ ํต์ ๋ชจ๋ฐฉํ์ต์ ํ ๊ฒ์ ๋๋ค.
๋น๊ต ๊ฒฐ๊ณผ, Human2Sim2Robot์ RL ์ ์ฑ ์ ์ด๋ค ๋ชจ๋ ๊ธฐ์ค์ ๋ณด๋ค ํ์ ํ ๋์ ์ฑ๊ณต๋ฅ ์ ๊ธฐ๋กํ์ต๋๋ค. ํ๊ท ์ ์ผ๋ก ๋ณผ ๋, Human2Sim2Robot์ ๊ฐ์ฒด-์ธ์ ์คํ๋ฃจํ ์ฌ์๋ณด๋ค 55%ํฌ์ธํธ ๋์ ์ฑ๊ณต๋ฅ ์ ๋ณด์๊ณ , ํ๋ ๋ณต์ ๋ณด๋ค 68%ํฌ์ธํธ ๋์์ต๋๋ค. ๊ฐ์ฅ ๋จ์ํ Replay์ ๋น๊ตํ๋ฉด ๋ฌด๋ ค 67%ํฌ์ธํธ๋ ํฅ์๋์๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋ฆผ 8์ ์คํ ๊ฒฐ๊ณผ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด, ๊ฑฐ์ ๋ชจ๋ ์์ ์์ RL ์ ์ฑ ์ด ์๋์ ์ผ๋ก ๋์ ์ฑ๊ณต ๋น์จ์ ๋ฌ์ฑํ์์ ์ ์ ์์ต๋๋ค.
์ด๋ฌํ ํฐ ์ฑ๋ฅ ์ฐจ์ด์ ์ด์ ์ ๋ํด ์ ์๋ค์ ์์ธํ ๋ถ์์ ์ ๊ณตํฉ๋๋ค. ์ฐ์ Replay์ ๊ฒฝ์ฐ, ์คํ๋ฃจํ๋ก ์ฌ์ ์ ๋ นํ๋ ๊ถค์ ์ ๊ทธ๋๋ก ๋ฐ๋ผ๊ฐ๊ธฐ ๋๋ฌธ์ ํ์ค์์๋ ์ฌ๋ฌ ์คํจ ์์ธ์ด ๋ฐ์ํ์ต๋๋ค. ์์ฐ ์์ ์ด๊ธฐ ์กฐ๊ฑด์ด ์กฐ๊ธ๋ง ๋ฌ๋ผ๋ (์: ๋ฌผ์ฒด ์์น ์ค์ฐจ, ๋ง์ฐฐ ์ฐจ์ด ๋ฑ) ๋ณด์ ์ด ์์ผ๋ฉด ๋ก๋ด ๋์์ ๋น๋๊ฐ๊ฒ ๋ง๋ จ์ด๊ณ , ํ๋ฒ ์ด๊ธ๋๋ฉด ํผ๋๋ฐฑ์ด ์์ด ๋๊น์ง ์คํจํ๊ฒ ๋ฉ๋๋ค. Object-Aware Replay๋ ์ด๊ธฐ ์์น๋ ๋ณด์ ํ์ง๋ง ์ฌ์ ํ ๊ฐ์ ๋์ง ์์ ์ธ ๊ฐ์ง ๋ฌธ์ ๋ฅผ ๊ฒช์์ต๋๋ค: (1) ์์ ๋ ผํ ์ ์ถ์ ๋ฐ ์ฌํ๊ฒํ ์ค๋ฅ๊ฐ ๋์ ๋์ด ์ ํ๋๊ฐ ๋จ์ด์ง๊ณ , (2) ๊ทผ๋ณธ์ ์ธ ์ฌ๋-๋ก๋ด ํ์ ์ฐจ์ด๋ก ์ธํ ๋ถ์กฐํ๊ฐ ์๊ณ , (3) ํผ๋๋ฐฑ์ด ์์ด ์ค๊ฐ์ ์์ ๋์ง ๋ชปํ๋ค๋ ์ ์ ๋๋ค. ๊ทธ๋๋ง ์ด ๋ฐฉ๋ฒ์ ๋ฌผ์ฒด ์์น ์ ๋๋ ๋ฐ์ํ๊ธฐ์, ์ ๋ฐ๋๊ฐ ํฌ๊ฒ ์๊ตฌ๋์ง ์๋ ์์ (์: ์์๋ฅผ ๋๋ต ๋ฐ์ด์ธ์ฐ๋ ์ ๋)์์๋ ๋ถ๋ถ ์ฑ๊ณต์ ๋ณด์ด๊ธฐ๋ ํ์ง๋ง, ์กฐ๊ธ ๋ณต์กํ ์์ ๋ถํฐ๋ ์คํจํ์ต๋๋ค.
Behavior Cloning(BC)์ ๊ฒฝ์ฐ, ๋ฐ์ดํฐ 30๊ฐ๋ก ํ๋ฃจํ ์ ์ฑ ์ ํ์ตํ์์๋ ๋ถ๊ตฌํ๊ณ ๊ฒฐ๊ณผ๊ฐ ์ ์กฐํ์ต๋๋ค. ์ด๋ ์ฌ์ฉ๋ ๋ฐ์ดํฐ ์์ฒด๊ฐ ์ฌํ๊ฒํ ์ ํตํด ์์ฑ๋ ๊ฒ์ด๋ผ ํ์ง์ด ๋ฎ๊ณ , ๊ฐ์๋ ์ถฉ๋ถ์น ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ก๋ด ํ๋์ ํ์ต์ด ๋์ ์ค์ฐจ์ ์ทจ์ฝํ์ฌ, ๋ฐ์ดํฐ ๋ถํฌ์์ ์กฐ๊ธ๋ง ๋ฒ์ด๋๋ฉด ๊ธ์ธ ์๋ชป๋ ๋์์ผ๋ก ์ด์ด์ง๋ ๊ณผ์ ํฉ ํ์์ด ๋ํ๋ฌ์ต๋๋ค. ์์ปจ๋, ์์ฐ ํ๋ ๊ฐ๋ก ํ๋์ ๋ชจ๋ฐฉ ํ์ตํ๋ ๋ฐ์๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค. ํํธ Human2Sim2Robot์ RL ์ ์ฑ ์ ์์ฐ์ ๋ชจ๋ฐฉํ์ง ์๊ณ ๊ณผ์ ๋ชฉํ๋ฅผ ์ฑ์ทจํ๋๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ค๊ฐ ์ํฉ์ด ๋ฌ๋ผ์ ธ๋ ๋ชฉํ ์งํฅ์ ์ผ๋ก ์ ์ํ๋ฉฐ ๊ณผ์ ์ ์์ํ ์ ์์์ต๋๋ค. ์์ปจ๋ ์ ์ ์ธ์ฐ๊ธฐ-๊ฝ๊ธฐ์ ๊ฐ์ ๋ณต์กํ ์์ ์์, ๋ชจ๋ฐฉ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์์ฐ ๋์ ์กฐ๊ธ๋ง ๋ฌ๋ผ์ ธ๋ ์คํจํ์ง๋ง, RL ์ ์ฑ ์ ์ฌ๋ ์์ฐ์ ์ ๋ต์ ์์ฉํ๋ ๋ก๋ด ๋๋ฆ๋๋ก ์ธ๋ถํํ์ฌ ์ ์๋ฅผ ๋๊น์ง ๊ฝ์๋ฃ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ๊ทธ๋ฆผ 9๋ ์ด๋ฌํ ์์๋ก, ์ ์ pivot-lift-rack ์์ ์์ ๋ก๋ด์ด ์ธ๊ฐ ์์ฐ์ ์ฐธ๊ณ ํ๋ฉด์๋ ์๊ธฐ ์์ ๋ง๊ฒ ๋ณํ๋ ์ ๋ต์ผ๋ก ๊ณผ์ ์ ์ํํ๋ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. ๊ฒฐ๊ตญ Human2Sim2Robot์ ์ธ๊ฐ์ฒ๋ผ ํ๋ํ๋๋ก ๊ฐ์ํ๊ธฐ๋ณด๋ค, ์ธ๊ฐ์ ํํธ๋ฅผ ์ด์ฉํด ๋ก๋ด ์ค์ค๋ก ํ์ตํ๊ฒ ํจ์ผ๋ก์จ ํจ์ฌ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ์ฆ๋ช ํ ๊ฒ์ ๋๋ค.
๋ํ ์ ์๋ค์ ๊ฐ ๊ตฌ์ฑ ์์์ ๊ธฐ์ฌ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํ ์ถ๊ฐ ์คํ(Ablation)๋ ์ํํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด ๊ถค์ ๋ณด์ ๋์ ๋จ์ํ ์ต์ข ๋ชฉํ ์์น๊น์ง๋ง ๊ฐ๋๋ก ํ๊ฑฐ๋, ๊ถค์ ์ ํฌ๋ฏธํ๊ฒ ๋ง๋๋ ๋ณํ๋ค์ ๋น๊ตํ๋๋ฐ, ๊ทธ ๊ฒฐ๊ณผ ๋ณธ๋์ ์ธ๋ฐํ ๊ถค์ ๋ณด์์ด ํ์ต์ ๊ฐ์ฅ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ๋ง๋ค๊ณ ์ฑ๊ณต๋ ๋์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ํนํ ์ ์์ ๊ฐ์ด ์ค๊ฐ ๋จ๊ณ๋ฅผ ํ์๋ก ํ๋ ์์ ์์, ์ต์ข ๋ชฉํ๋ง ์ฃผ์์ ๊ฒฝ์ฐ ๋ก๋ด์ ์ง๋ฆ๊ธธ์ ํํ๋ ค๋ค๊ฐ (์ ์๋ฅผ ๋ฐ๋ก ๋ค์ด์ฌ๋ฆฌ๋ ค๋ค) ์คํจํ์ง๋ง, ์ธ๊ฐ ์์ฐ์ ์ ์ฒด ๊ฒฝ๋ก๋ฅผ ๋ณด์์ผ๋ก ์ ์ํ์ ๋ ๋น๋ก์ ํผ๋ฒ ํ ์ง๊ธฐ๋ผ๋ ํด๋ฒ์ ์ฐพ์๋์ต๋๋ค. ์ด๋ ์ธ๊ฐ ์์ฐ์ด ๋จ์ํ ๊ฒฐ๊ณผ๋ฟ๋ง ์๋๋ผ ๊ณผ์ ์์ ์ค์ํ ํํธ๋ฅผ ์ ๊ณตํ๋ฉฐ, RL์ด ๊ทธ๊ฒ์ ์ ํ์ฉํ๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๊ธฐ ์ ์์ธ ์๋ด๊ฐ ์์ ๋์ ์์ ๋๋ ๋น๊ตํ ๊ฒฐ๊ณผ, ์ด๊ธฐ ์๋ด๊ฐ ์์ผ๋ฉด ํ์ต ์ด๊ธฐ ์ฑ๋ฅ๊ณผ ์๋ ด ์๋๊ฐ ํฌ๊ฒ ํฅ์๋๊ณ ๋ ๋์ ์ต์ข ์ฑ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ์ด๋ฌํ ์คํ๋ค์ Human2Sim2Robot ํ๋ ์์ํฌ์ ๊ตฌ์ฑ ์์๋ค์ด ๊ฐ๊ฐ ์ ์๋ฏธํ ์ญํ ์ ํ๊ณ ์์์ ๋ท๋ฐ์นจํฉ๋๋ค.
2.3 ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋น๊ต ๋ฐ ์ฐจ๋ณ์
Human2Sim2Robot์ โํ ๊ฐ์ ์ธ๊ฐ ์์ฐ์ผ๋ก ๋ค๊ด์ ๋ก๋ด์ ์ ์ฑ ์ ํ์ตโํ๋ค๋ ์ ์์ ๋งค์ฐ ๋์ ์ ์ธ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ์ต์ด์ ์ฌ๋ก๋ก ๊ผฝํ๋๋ค. ์ ์๋ค์ ์ฃผ์ฅ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ ๊ฒ ์ ์ ์์ฐ ๋ฐ์ดํฐ๋ก ์ค์ ๋ก๋ด์ ๋ฐ๋ก ์คํ ๊ฐ๋ฅํ ํ๋ฃจํ ์ ์ฑ ์ ๋ง๋ ๊ฒ์ ๋ณธ ์ฐ๊ตฌ๊ฐ ์ฒ์์ ๋๋ค. ๊ฐ๋ณ ๊ตฌ์ฑ์์ ์ฐจ์์์๋ ์ด์ ์๋ ์ ์ฌํ ์๋๊ฐ ์์๋ ๊ฒ์ ์๋๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฒด ์ค์ฌ ๋ณด์์ ์ฌ์ฉํ ๋ก๋ด ํ์ต์ด๋, ์ธ๊ฐ-๋ก๋ด ํฌ์ฆ ์ฌ๋งคํ์ ์๋ํ ์ฐ๊ตฌ๋ค์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ค ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋๊ฐ ์๋ฎฌ๋ ์ด์ ์์ ๊ตญํ๋์๊ฑฐ๋, ํน์ ์ ์ฑ ์ด ์๋ ์คํ๋ฃจํ ์ ์ด ์์ค์ ๋จธ๋ฌผ๋ ์ผ๋ฉฐ, ๋ ๋์๊ฐ ๋ค์์ ์์ฐ์ด ํ์ํ๊ฑฐ๋ ๋จ์ ํ์ง ๋์์๋ง ๊ตญํ๋๋ ๋ฑ ํ๊ณ๊ฐ ์์์ต๋๋ค. ๋ฐ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฌํ ์์๋ค์ ํตํฉํ๋ฉด์๋ ์คํ๊ฒฝ ํ๋ฃจํ ์ ์ด๊น์ง ๊ตฌํํ๊ณ , ๋นํ์ง ๋ฐ ๋ค๋จ๊ณ ์์ ์ผ๋ก ๋ฒ์๋ฅผ ๋ํ๋ค๋ ๋ฐ ํฐ ์ฐจ๋ณ์ ์ด ์์ต๋๋ค.
๋ชจ๋ฐฉํ์ต(IL) vs. Human2Sim2Robot: ์ ํต์ ์ธ IL์ ์์ ์ค๋ช ํ๋ฏ, ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ํ๋ ๊ฐ ์๊ฒฉํ ๋งคํ์ด ์ ์ ๋ฉ๋๋ค. ์ด๋ ์์ฐ ๋ฐ์ดํฐ๊ฐ ๋ง๊ณ ์กฐ๊ฑด์ด ์ ๋ง์ผ๋ฉด ํจ๊ณผ์ ์ด์ง๋ง, Human2Sim2Robot์ด ๋ค๋ฃจ๋ ์์ฐ 1๊ฐ, ์ธ๊ฐ-๋ก๋ด ํํ ์์ด ์ํฉ์์๋ ์ ์ฉ์ด ์ฌ์ค์ ๋ถ๊ฐ๋ฅํ์ต๋๋ค. IL์ ์ต์ง๋ก ์ ์ฉํ๋ ค ํ baseline ์คํ(Replay, BC ๋ฑ)์ ๋ชจ๋ ๋ฎ์ ์ฑ๊ณต๋ฅ ๋ก ์ด๋ฅผ ๋ฐฉ์ฆํฉ๋๋ค. Human2Sim2Robot์ โ์์ฐ ๋ฐ๋ผํ๊ธฐโ ๋์ โ์์ฐ ์ฐธ๊ณ ํ์ฌ RL๋ก ๋ฐฐ์ฐ๊ธฐโ๋ผ๋ ํจ๋ฌ๋ค์ ์ ํ์ ๋ณด์ฌ์ค๋๋ค. ํนํ ์ฌ๋์ด ์๊ฐ๋ฝ ํ๋ํ๋ ์ด๋ป๊ฒ ์์ง์๋์ง๊น์ง ๋ฒ ๋ผ๋ ค ํ์ง ์๊ณ , ๊ฒฐ๊ณผ์ ์ธ ๊ฐ์ฒด ์์ง์๋ง ํ์ต ๋ชฉํ๋ก ์ผ์ ์ ์ ์ฌ๋-๋ก๋ด ๊ฐ๊ทน์ ์ฐํ์ ์ผ๋ก ํด์ํ ๋ฐ์ด๋ ์์ด๋์ด์ ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ฌ๋์ ์ ๋ต์ ๋ถ๋ถ์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ ๋ก๋ด ์ค์ค๋ก ์ต์ ํ๋์ ์ฐพ๊ฒ ํจ์ผ๋ก์จ, IL ๋ฐฉ์์ด ๊ฒช๋ ์ค๋ฅ ๋์ ๊ณผ ์คํจ๋ฅผ ํผํ ์ ์์์ต๋๋ค. ๋ํ IL์ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ฐ์ด ์์ด์ผ ์์ ์ ์ธ๋ฐ, ๋ณธ ๋ฐฉ๋ฒ์ ํ๋์ ์์ฐ์ผ๋ก๋ ์ถฉ๋ถํ๋๋ก ์ค๊ณ๋์๋ค๋ ์ ์์ ํ์ค์ ์ธ ์ฅ์ ์ ๊ฐ์ต๋๋ค. ์ค์ ํ์ฅ์์ ๋ก๋ด์๊ฒ ์ ์์ ์ ๊ฐ๋ฅด์น ๋, ์์ญ ๋ฒ ํ ๋ ์ต์ผ๋ก ๋ฐ๋ณตํ๋ ๊ฒ๋ณด๋ค ํ ๋ฒ ์๋ฒ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด ํจ์ฌ ์์ํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ ์ฌ ์ฐ๊ตฌ๋ค๊ณผ์ ๋น๊ต: ์ต๊ทผ ์ธ๊ฐ ๋น๋์ค๋ฅผ ํ์ฉํด ๋ก๋ด ๋ค์ง ์กฐ์์ ๋ฐฐ์ฐ๋ ค๋ ์ฐ๊ตฌ๋ค์ด ๋ช ๊ฐ์ง ๋ฑ์ฅํ์ต๋๋ค. ์๋ฅผ ๋ค์ด 2024๋ ์ HuDOR (Human-to-Dexterous-Object-Rewards) ๋ฐฉ๋ฒ์ ํ ๊ฐ์ ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ ๋ฌผ์ฒด ์์ง์์ ์ถ์ ํ์ฌ ๊ฐ์ฒด-์งํฅ ๋ณด์์ ๋ง๋ค๊ณ , ์ด๋ฅผ ์ด์ฉํด ์ค์ ๋ก๋ด์์ ์จ๋ผ์ธ RL ํ์ธํ๋์ ์ํํ ๋ฐ ์์ต๋๋ค. HuDOR ์ญ์ ์ฌ๋-๋ก๋ด ํํ ์ฐจ์ด ๋ฌธ์ ๋ฅผ ์ธ์งํ๊ณ , ๋ฌผ์ฒด ์์ง์์ ์ง์คํ ๋ณด์์ผ๋ก RL์ ํ ์ ์ ์ ์ฌํฉ๋๋ค. ๊ทธ๋ฌ๋ HuDOR๋ ์ค์ ๋ก๋ด์ 1์๊ฐ ๊ฐ๋ ์ง์ ํ์ต์์ผ์ผ ํ๊ณ , ๋ค๋ฃจ๋ ์์ ๋ ๋จ์ผ ๋จ๊ณ ๋์ ์์ฃผ์์ต๋๋ค. ๋ฐ๋ฉด Human2Sim2Robot์ ์๋ฎฌ๋ ์ด์ ์์์ ์ถฉ๋ถํ ํ์ตํ๊ณ ํ์ค์ ์ ๋ก์ท ํฌ์ ํจ์ผ๋ก์จ, ์ค์ ๋ก๋ด์ ๊ณ ๋ ์จ๋ผ์ธ ํ์ต์ ํผํ์ต๋๋ค. ๋ํ ๋ ๋ค์ํ ์์ (ํจ์ฌ ๋ณต์กํ ๋ค๋จ๊ณ ์์ ํฌํจ)์์ ๊ฒ์ฆ๋์๋ค๋ ์ ์์๋ ์์ ๊ฒฐ๊ณผ๋ผ ํ ์ ์์ต๋๋ค. ๊ทธ ๋ฐ์ From One Hand to Multiple Hands (2022)๋ผ๋ ์ฐ๊ตฌ๋ ๋จ์ผ ์ฌ๋์ ์์ฐ์ ์ฌ๋ฌ ๋ก๋ด ์์ ์ผ๋ฐํํ๋ ๋ชจ๋ฐฉํ์ต์ ๋ค๋ค์ง๋ง, ์ด๊ฒ์ ํ ๋ ์ต์ผ๋ก ์์ง๋ ๋ค์์ ์์ฐ์ ์ ์ ํ์๊ณ Human2Sim2Robot์ฒ๋ผ RL์ ํ์ฉํ์ง๋ ์์์ต๋๋ค. X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real (2025) ๋ฑ์ ๋์๋ ์ฐ๊ตฌ๋ค๋ ์ฒดํ ์ฐจ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ณ ์์ผ๋, Human2Sim2Robot๋งํผ ์์ฐ ๋ฐ์ดํฐ์ ๊ทน๋จ์ ์ถ์ (1๊ฐ)์ ์คํ๊ฒฝ ๊ฒ์ฆ์ ๋ชจ๋ ๋ณด์ฌ์ค ์ฌ๋ก๋ ๋๋ญ ๋๋ค.
๋ฒ ์ด์ค๋ผ์ธ ๊ธฐ๋ฒ๊ณผ์ ์ฐจ๋ณ์ : ์ ์ ์ ๋น๊ต์คํ ๊ฒฐ๊ณผ๊ฐ ์ ๋ณด์ฌ์ฃผ์๋ฏ, Human2Sim2Robot์ RL ์ ์ฑ ์ ํ๋ฃจํ ์ ์ด๋ก ํ๊ฒฝ ๋ณํ์ ๋์ํ๋ค๋ ์ ์์ ์คํ๋ฃจํ ์ฌ์(Replay)๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฆ ๋๋ค. ๋ํ ์ฌ๋ ์์ฐ์ ํ์ต์ ํํ๋ก ํ์ฉํ๋ค๋ ์ ์์, ๋จ์ํ ์์ฐ ๊ถค์ ์ ์กฐ์ ํด ์ฌ์ฉํ๋ Object-Aware Replay์๋ ์ฐจ๋ณํ๋ฉ๋๋ค. Behavior Cloning๊ณผ ๋น๊ตํ๋ฉด, ๊ฐ์ ๋ฐ์ดํฐ๋ผ๋ ๊ฐํํ์ต์ ํตํด ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๊ณ ์ค์ฐจ ๋์ ๋ฌธ์ ๋ฅผ ํด์ํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค. ์์ปจ๋, Human2Sim2Robot์ โ์์ฐ โ ๋ฐ์ดํฐ โ ๋ชจ๋ฐฉโ์ ๊ธฐ์กด ํ์ โ์์ฐ โ ๋ชฉํ ์ถ์ถ โ RL ํ์ตโ์ผ๋ก ๋ฐ๊พธ์ด ์ฑ๋ฅ๊ณผ ๋ฒ์ฉ์ฑ์ ๋ชจ๋ ์ป์ ๊ฒ์ด๋ฉฐ, ์ด๋ ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, Human2Sim2Robot์ด ํน๋ณํ ์ฅ๋น์ ์์กดํ์ง ์๋๋ค๋ ์ค์ฉ์ ๊ฐ์ ๋ ์์ต๋๋ค. ๊ณผ๊ฑฐ์๋ ๋ชจ์ ์บก์ณ ์์คํ ์ด๋ ํน์ ์ผ์ ์ฅ๊ฐ ๋ฑ ์ ๋ฐํ ์ฅ๋น๋ก ์ฌ๋ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณค ํ์ง๋ง, ๋ณธ ๋ ผ๋ฌธ์ ๊ทธ๋ฅ RGB-D ์นด๋ฉ๋ผ๋ก ์ดฌ์ํ ์์๋ง์ผ๋ก๋ ์ถฉ๋ถํ ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ์ด๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ํฌ๊ฒ ๋ฎ์ถ๊ณ , ๋น์ ๋ฌธ๊ฐ๋ ๋ก๋ด ํ์ต์ ์ฐธ์ฌํ ์ ์๋ ๊ธธ์ ์ด์ด์ค๋๋ค. ๋ํ ์์ฐ ์์์ ํตํ ํ์ต์ด ์ฑ๊ณตํ๋ ค๋ฉด ์ปดํจํฐ๋น์ ๊ธฐ์ (๋ฌผ์ฒด ์ถ์ , ์ ์ถ์ )์ด ํ์์ ์ธ๋ฐ, ์ต๊ทผ ๋ช ๋ ๊ฐ ํด๋น ๋ถ์ผ๊ฐ ํฌ๊ฒ ๋ฐ์ ํ๊ธฐ์ (SAM, FoundationPose, HaMeR ๋ฑ) ๊ฐ๋ฅํด์ง ๊ฒ์ด๊ธฐ๋ ํฉ๋๋ค. Human2Sim2Robot์ ์ต์ CV ๊ธฐ์ ๊ณผ RL์ๅทงๅฆํ๊ฒ ๊ฒฐํฉํ์ฌ ์ป์ ๊ฒฐ๊ณผ๋ก, ์๋ก ๋ค๋ฅธ AI ํ์ ๋ถ์ผ์ ์๋์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก๋ผ๊ณ ๋ ํ ์ ์์ต๋๋ค.
2.4 ๊ธฐ์ฌ ๋ฐ ์์: ๋ก๋ด๊ณตํ๊ณผ ๊ฐํํ์ต ๋ถ์ผ์์์ ๊ฐ๋ฅ์ฑ
Human2Sim2Robot์ ๊ธฐ์ฌ๋ ์ฌ๋ฌ ์ธก๋ฉด์์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ์ฐ์ , ๋ก๋ด ํ์ต ๋ฐฉ์์ ๊ฐ์ํ์ ์ธ๊ฐ ์นํ์ ๋ฐ์ดํฐ ์์ง์ ๋๋ค. ์ค์ง ํ๋์ ์์ฐ ์์์ผ๋ก ๋ค๊ด์ ๋ก๋ด์์ ๋ณต์กํ ์กฐ์์ ์ตํ ์ ์๋ค๋ ๊ฒ์, ๋ก๋ด์๊ฒ ์ ๊ธฐ์ ์ ๊ฐ๋ฅด์น๋ ์ง์ ์ฅ๋ฒฝ์ ํฌ๊ฒ ๋ฎ์ถฅ๋๋ค. ์ด์ ๊น์ง๋ ์ ๋ฌธ๊ฐ๊ฐ ๊ธด ์๊ฐ ๊ณต๋ค์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์์ผ ํ๋ค๋ฉด, ์์ผ๋ก๋ ์ผ๋ฐ ์ฌ๋์ด ํด๋ํฐ์ผ๋ก ์๋ฒ์ ํ๋ ๋ณด์ฌ์ฃผ๊ณ ๋ ๋ก๋ด์ ํ์ต์ํฌ ์ ์๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ์ ์์ต๋๋ค. ์ด๋ ๋ก๋ด์ ํ์ต ๋น์ฉ ์ ๊ฐ๊ณผ ์ ์๋ ฅ ํฅ์์ผ๋ก ์ด์ด์ ธ, ๊ฐ์ ์ฉ ์๋น์ค ๋ก๋ด์ด๋ ์์ ์ฅ ํ๋ ๋ก๋ด ๋ฑ์์ ์๋ก์ด ์์ ์ ๋น ๋ฅด๊ฒ ๊ฐ๋ฅด์น๋ ๋ฐ ํ์ฉ๋ ์ ์์ต๋๋ค. ํนํ ์ง์์ผ์ฒ๋ผ ์ฌ๋์ ์ฝ๊ฒ ์์ฐํ ์ ์์ง๋ง ๋ก๋ด์ ์ผ์ผ์ด ํ๋ก๊ทธ๋๋ฐํ๊ธฐ ์ด๋ ค์ด ์์ ๋ค(์: ์๊ธฐ ์ธ์ฒ๊ธฐ ์ ์ฌ, ์ท ๊ฐ์ด๋ฃ๊ธฐ ๋ฑ)์ ์์ฉ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค. ์ฌ๋์ด ์์ฐํ ์์์ ํตํด ๋ก๋ด์ด ์์จ์ ์ผ๋ก ๊ทธ ๊ณผ์ ์ ํฐ๋ํ ์ ์๋ค๋ฉด, ๋ก๋ด ํ์ฉ ๋ฒ์๋ ๋น์ฝ์ ์ผ๋ก ๋์ด์ง ๊ฒ์ ๋๋ค.
๋์งธ๋ก, ์ด ๋ ผ๋ฌธ์ ๊ฐํํ์ต๊ณผ ๋ชจ๋ฐฉํ์ต์ ์ฅ์ ์ ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. ๊ธฐ์กด์๋ ์์ฐ์ ์ด์ฉํ๋ฉด ์ฃผ๋ก BC๊ฐ์ ๋ชจ๋ฐฉํ์ต์ ํ๊ณ , ๊ฐํํ์ต์ ๋ณ๋๋ก ๋ฐฉ๋ํ ์ํธ์์ฉ์ ํตํด ๋ฐฐ์ฐ๋ ์์ด์์ต๋๋ค. Human2Sim2Robot์ ์ๆผ์ผ๋ก๋ถํฐ ๋ณด์๊ณผ ์ด๊ธฐ์กฐ๊ฑด์ ๊ตฌ์ฑํ์ฌ RL์ ์์ฐ์ค๋ฝ๊ฒ ๋ น์ฌ๋์ผ๋ก์จ, ์ ์ ์์ฐ๋ฐ์ดํฐ + ๊ฐํํ์ต์ ๊ฐ์ธํจ์ด๋ผ๋ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ์ก์์ต๋๋ค. ์ด๋ ๊ฐํํ์ต ๋ถ์ผ์์๋ ํฅ๋ฏธ๋ก์ด ์ฑ๊ณผ๋ก, ํฅํ ๋ค๋ฅธ ํํ์ ์ธ๊ฐ ํํธ(์: ์ธ์ด์ค๋ช , ์์ฐ ๋ช ๊ฐ ๋ฑ)๋ฅผ ๋ณด์ ์ค๊ณ๋ ํ์ ๊ฐ์ด๋๋ก ํ์ฉํ๋ ์ฐ๊ตฌ๋ค์ ์๊ฐ์ ์ค ์ ์์ต๋๋ค. ๋ํ ๋ณด์ ์์ง๋์ด๋ง ์์ด ์์ฐ์ผ๋ก ๊ณผ์ ์ ๋ช ์ธํ๋ ๊ธฐ๋ฒ์, ๋ณด์ ์ค๊ณ๊ฐ ๋ํดํ ๋ฌธ์ ๋ค(์: ์ฐฝ์์ ๋์, ์ฌํ์ ์ํธ์์ฉ ๋ฑ)์ ํ ๋ ์ ์ฉํ ๋ฐฉํฅ์ผ ์ ์์ต๋๋ค.
์ ์งธ, ์ค์ธ๊ณ ๋ณต์กํ ์์ ์์์ ์ฑ๊ณต์ Sim-to-Real์ ์์ฐํด ๋ณด์๋ค๋ ์ ์ ๋๋ค. ํนํ ๋ค์์ ๋น๊ฐ๋จํ ์กฐ์(๋นํ์ง, ํ๊ฒฝ ํ์ฉ)๊ณผ ๋ค๋จ๊ณ ์์ ์ ํ ํ๋ ์์ํฌ๋ก ๋ชจ๋ ํด๊ฒฐํ ๊ฒ์ ๋๋ผ์ด ๊ฒฐ๊ณผ์ ๋๋ค. ๋ก๋ด์ด ๋จ์ ์ก๊ธฐ๋ฟ ์๋๋ผ ๋ฒฝ์ ํ์ฉํด ๋ฌผ์ฒด๋ฅผ ์ธ์ฐ๊ณ , ์ฌ๋ฌ ๋์์ ์ฐ๋ฌ์ ์ํํ๋ ์์ค๊น์ง ๋๋ฌํ ๊ฒ์, ๋ฒ์ฉ์ ์ธ ์กฐ์ ๋ฅ๋ ฅ์ ํ ๊ฑธ์ ๋ค๊ฐ๊ฐ ๊ฒ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ํฅํ ๋ก๋ด์ด ์ฌ๋๊ณผ ๊ฐ์ด ์ฃผ๋ณ ํ๊ฒฝ์ ํ์ฉํ๊ณ , ์ฐ์๋ ์ ๋ฌด๋ฅผ ์ํํ๋ ๋ณตํฉ ์คํฌ ํ์ต์๋ ๋ณธ ๋ฐฉ๋ฒ์ ํ์ฅํ ์ ์์์ ์์ฌํฉ๋๋ค. ์ค์ ๋ ผ๋ฌธ์์๋ โ์ฃผ์ ์๋ก ์ก์ฒด ๋ถ๊ธฐ, ์์๋ฅผ ๋ฒฝ์ ๊ธฐ๋ ๊ธฐ์ธ์ด๊ธฐ, ์ ์๋ฅผ ๊ฑด์กฐ๋์ ๊ฝ๊ธฐโ ๋ฑ ๋ค์ํ ์ค์ ๊ณผ์ ์ ์๋ก ๋ค๋ฉฐ, Human2Sim2Robot ์ ์ฑ ์ ๋ฒ์ฉ์ ์คํ ๋ฅ๋ ฅ์ ๊ฐ์กฐํฉ๋๋ค. ์ด๋ฌํ ์ฑ๊ณผ๋ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ Sim-to-Real ๊ฐํํ์ต์ ๊ฐ๋ฅ์ฑ์ ํ์ธต ํ์ ์์ผ์ค๋๋ค. ๊ณผ๊ฑฐ์๋ ์๋ฎฌ๋ ์ดํฐ์์ ๋ฐฐ์ด ๋ณต์กํ ๋ค์ง ๋์์ด ์ค์ ์์ ๊ณผ์ฐ ๋ ๊น ํ์์ ์ด์์ผ๋, ์ด ๋ ผ๋ฌธ์ ์ ์ ํ ๋ฐฉ๋ฒ์ ์ฐ๋ฉด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค ๊ฒ์ด์ฃ .
๋ท์งธ, Human2Sim2Robot์ ๋ก๋ด์ ์ฒดํ(embodiment)๋ฅผ ์ ๊ทน ๊ณ ๋ คํ ํ์ต์ ์ค์์ฑ์ ๋ถ๊ฐ์์ผฐ์ต๋๋ค. ์ฌ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฐ๋ฉด์๋ ์ฌ๋์ฒ๋ผ ์์ง์ด๊ฒ ํ์ง ์๊ณ , ๋ก๋ด ๊ณ ์ ์ ํด๊ฒฐ์ฑ ์ ์ฐพ๊ฒ ํ ๊ฒ์ด ์ฃผํจํ์ต๋๋ค. ์ด๋ ๋ค๋ฅธ ํํ์ ๋ก๋ด (์: ๋ค๋ฆฌ๊ฐ ์๋ ๋ก๋ด vs ์ฌ๋ ๊ฑท๊ธฐ ์์) ๊ฐ์๋ ์ ์ฉ๋ ์ ์๋ ์ผ๋ฐ ๊ฐ๋ ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ฐ์ ๊ฑท๋ ์์์ ๋ค ๋ฐ ๋ก๋ด์ ๊ฐ๋ฅด์น๋ค๋ฉด, ๋ค๋ฆฌ๋ฅผ ๋ ๊ฐ๋ง ์ฐ๋ ๋์ ๋ค ๊ฐ๋ฅผ ๋ค ์ฌ์ฉํ๋๋ก ์ ๋ํ๋ ๋ฐฉ์์ผ๋ก ์์ฉํด๋ณผ ์ ์์ต๋๋ค. ์ฆ, Cross-Embodiment Learning์ ํ ์ฌ๋ก๋ก์, ์ด ๋ ผ๋ฌธ์ ์์ฐ ํ๋์ ๊ฒฐ๊ณผ(๋ชฉํ)์ ์ง์คํ๊ณ ๊ตฌ์ฒด์ ๊ตฌํ์ ๋ก๋ด์๊ฒ ๋งก๊ธฐ๋ ์ ๊ทผ์ด ์ฑ๊ณผ๊ฐ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ฌผ๋ก ํ๊ณ์ ํฅํ ๊ณผ์ ๋ ์์ต๋๋ค. ์ฒซ์งธ๋ก, ํ์ฌ ๋ฐฉ๋ฒ์ ๋จ์ผ ๋ก๋ด ์, ๋จ์ผ ์ธ๊ฐ ์์ฐ, ๋จ์ผ ์์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ๋ ผ๋ฌธ์์๋ ํฅํ ์ฐ๊ตฌ๋ก ์์ ์กฐ์(bimanual)์ด๋ ์ฌ๋ฌ ๋ก๋ด์ด ํ๋ ฅํ๋ ๊ฒฝ์ฐ, ํน์ ์ฌ๋ฌ ์์ ์ ํ๊บผ๋ฒ์ ํ์ตํ๋ ๋ฉํฐํ์คํน ํ์ฅ ๋ฑ์ ์ธ๊ธํ๊ณ ์์ต๋๋ค. ํ ๊ฐ ์์ฐ์ผ๋ก ์ฌ๋ฌ ์คํฌ์ ๋ฐฐ์ฐ๊ฒ ํ๊ฑฐ๋, ๋ ์์ ๋์์ ์ ์ดํ๋ ๋ฌธ์ ๋ ๋์ด๋๊ฐ ๋์ฑ ๋์ง๋ง, Human2Sim2Robot์ ์์ด๋์ด๋ฅผ ํ์ฅํด๋๊ฐ ์ ์๋ ํฅ๋ฏธ๋ก์ด ๋ฐฉํฅ์ ๋๋ค. ๋์งธ, ์์ฐ ์์ ์ฒ๋ฆฌ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ์ ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ ์ ์ผ๋ก ๋น๋์ค์์ ์ถ์ถํ ๋ฌผ์ฒด/์ ํฌ์ฆ์ ์์กดํ๋ฏ๋ก, ๋ง์ฝ ๋น๋์ค ํ์ง์ด ๋ฎ๊ฑฐ๋ ๋ฌผ์ฒด ์ถ์ ์ด ์คํจํ๋ฉด ํ์ต์ ์ง์ฅ์ด ์๊น๋๋ค. ์ค์ ๋ก ์ ์๋ค์ ์์ฐ ์์์์ ๋ฌผ์ฒด๋ ์์ด ํฌ๊ฒ ๊ฐ๋ ค์ ธ ์ถ์ ์ด ์คํจํ๋ฉด ์ ์ฑ ์ด ์๋ฑํ ๋ฐฉํฅ์ผ๋ก ์๋ ดํ ์ ์๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ํ๊ณ๋ก ์ธํ ์คํจ ๋ชจ๋๋ก, ํฅํ ๋ฉํฐ๋ทฐ ์นด๋ฉ๋ผ ์ฌ์ฉ์ด๋, ์ฌ๋์ด ๋ถ๋ถ ๊ต์ ํด์ฃผ๋ ์ธํฐํ์ด์ค ๋ฑ์ผ๋ก ๊ฐ์ ๋ ์ ์์ ๊ฒ์ ๋๋ค. ์ ์งธ, ์ฌ์ ์ค์บ๊ณผ ๋ชจ๋ธ ์ค๋น์ ์ฝ๊ฐ์ ์์์ ์ด ํ์ํฉ๋๋ค. ์ด๋ฒ ์ฐ๊ตฌ์์๋ ๋ฌผ์ฒด์ ํ๊ฒฝ์ 3D ์ค์บํ๊ณ , ๋ ๋ฌผ์ฒด ๋ฉ์ฌ๋ฅผ ์ค๋นํ์ฌ ํฌ์ฆ ์ถ์ ์ ์ฌ์ฉํ์ต๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ ์์ปจ๋ ๊ฐ์ ์ง ๋ก๋ด์ด ์ผ์ผ์ด ํ๊ธฐ์๋ ๋ฒ๊ฑฐ๋ก์ธ ์ ์์ต๋๋ค. ํ์ง๋ง ํ์ฌ 3D ์ค์บ๋ ๊ธฐ์ ๋ ์๋ํ๊ฐ ๋ฐ์ ์ค์ด๊ณ , ๋ฒ์ฉ ๊ฐ์ฒด ์ธ์ ๋ชจ๋ธ์ด ๋ ์ข์์ง๋ฉด ํ์ ์๊ฑด์ด ์ํ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ๋์ผ๋ก, ์คํ ๋ฒ์๋ก ๋ณด์๋ฉด ๋ค๋ฃฌ ๋ฌผ์ฒด๋ค์ด ๋น๊ต์ ๋จ๋จํ๊ณ ํ๋์ ๋ถํผ๋ฅผ ๊ฐ์ง ๊ฒ๋ค์ด์์ต๋๋ค. ์ท๊ฐ์ด๋ ์ก์ฒด, ๊ด์ ์๋ ๋๊ตฌ ๋ฑ ๋ณํ์ฒด๋ ๋ณตํฉ ๋ฌผ์ฒด์ ๋ํด์๋ ์ด ์ ๊ทผ์ด ์ ํจํ ์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ ผ๋ฌธ์ ์ด๋ฌํ ํฅํ ๊ณผ์ ๋ก ๋ณํ ๋๋ ๊ด์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด๋ก์ ํ์ฅ์ ์ธ๊ธํ๋ฉฐ, ์ด๋ ์ถํ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉ ๋ฒ์๋ฅผ ๋ํ ์ค ๊ฒ์ด๋ผ๊ณ ์ ๋งํฉ๋๋ค.
์์ฝ ๋ฐ ๊ฒฐ๋ก : โํ ๋ฒ์ ์ธ๊ฐ ์์ฐ์ผ๋ก Sim-to-Real RLโ์ด๋ผ๋ Human2Sim2Robot์ ๊ฐ๋ ์, ๋ก๋ด ํ์ต ๋ถ์ผ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํ ์ค์ํ ์ฑ๊ณผ์ ๋๋ค. ์ด ์ฐ๊ตฌ๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ์ธ๊ฐ์ ์์ฐ์ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ ๋์ฑ ๋๋ํ ๋ฐฉ๋ฒ์ ๋ณด์์ต๋๋ค. ๊ณผ๊ฑฐ์ฒ๋ผ ๋ฌด์กฐ๊ฑด ๋ฐ๋ผํ๊ฒ ํ์ง ์๊ณ , ์ธ๊ฐ ์์ฐ์ ๋ถ์ํด ๋ก๋ด์ด ์ดํดํ ํํ์ ๊ณผ์ ๋ก ์ ์ํด์ฃผ๋, ๋ก๋ด์ ์๊ธฐ ๋ชธ์ ๋ง์ถฐ ๊ทธ ๊ณผ์ ๋ฅผ ์ํํ ๋ฐฉ๋ฒ์ ์ค์ค๋ก ํฐ๋ํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ ์ ๋ฐ์ดํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ด๊ณ , ๋ณต์กํ ์ค์ ์์ ๊น์ง ์คํ์ ์ฎ๊ธธ ์ ์์์ต๋๋ค. ์ด๋ฌํ ์ ๊ทผ์ ํฅํ ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์ ๋ค์ ์์ฉ๋ ์ ์์ ๊ฒ์ด๋ฉฐ, ๋ก๋ด์ด ์ฌ๋์๊ฒ์ ๋ฐฐ์ฐ๋ ์์ฐ์ค๋ฌ์ด ์ํธ์์ฉ์ ํ ๋๋ฅผ ๋ง๋ จํด์ค๋๋ค. Human2Sim2Robot์ ์ธ๊ฐ-๋ก๋ด ํ๋ ฅ์ ๊ฐ๊ทน์ ํ์ธต ์ขํ ํ์ ์ผ๋ก์, ๊ฐํํ์ต๊ณผ ๋ก๋ด๊ณตํ ๋ฐ์ ์ ๊ต์ฐจ์ ์์ ํฐ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ฉฐ, ํฅํ ๋ง์ ํ์ ์ฐ๊ตฌ๋ฅผ ์ด๋ฐํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.