๐Play2Perfect
์ ์: Tyler Ga Wei Lum*, Kushal Kedia*, C. Karen Liuโ , Jeannette Bohgโ (Stanford University, Cornell University)
arXiv preprint, 2026 (* equal contribution, โ equal advising)
- ๐ก ๋ค์ง(multi-fingered) ์์ผ๋ก ์ ๋ฐ ์กฐ๋ฆฝ(precise assembly)์ ํ๊ธฐ ์ํด, ์กฐ๋ฆฝ์ ๋ฐ๋ก ๋ฐฐ์ฐ์ง ๋ง๊ณ ๋จผ์ ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๊ฐ๊ณ ๋ ธ๋ ๋ฒ(play)์ goal-conditioned RL๋ก ์ฌ์ ํ์ตํ ๋ค sparse-reward๋ก ์กฐ๋ฆฝ์ ํ์ธํ๋ํ์๋ 2๋จ๊ณ ํ๋ ์์ํฌ๋ค.
- โ๏ธ IsaacSim์์ ์ ์ฐจ์ ์ผ๋ก ์์ฑํ ๋ค์ํ primitive ๋ฌผ์ฒด๋ฅผ ๋ฌด์์ 6D ๋ชฉํ ์์ธ๋ก ์ฎ๊ธฐ๋ play ์ ์ฑ ์ ๋๊ท๋ชจ ๋ณ๋ ฌ(24,576 env) RL๋ก ํ์ตํ๊ณ , CAD๋ฅผ โassembly-by-disassemblyโ๋ก ๋ค์ง์ด ๋ง๋ sparse ๋ชฉํ ์ํ์ค์ ์ด prior๋ฅผ ์น์ด ์ ์ด์ด ๋ง์ ์กฐ๋ฆฝ์ ํนํํ๋ค.
- ๐ฏ denseยทmulti-stage ๋ณด์์ ์ค scratch RL๋ณด๋ค 33๋ฐฐ ํ๋ณธ ํจ์จ์ ์ด๋ฉฐ, zero-shot sim-to-real๋ก 0.5 mm ์ฌ์ ์ tight insertion์ 60%, ์ฅ๊ธฐ ๋ค๋ถํ ์กฐ๋ฆฝยท์คํฌ๋ฅ์์ 50% ์ด์ ์ฑ๊ณต์ํจ๋ค.
๐ Ping Review
๐ Ping โ A light tap on the surface. Get the gist in seconds.
์ ๋ฐ ์กฐ๋ฆฝ(precise assembly)์ ๋ค์ง ์ ๋ก๋ด์๊ฒ ๋ ๊ฐ๋๋ก ์ด๋ ต๋ค. ์ ์ด์ด ๋ง์(contact-rich) ์๊ฒฉ์กฐ์์ผ๋ก ์์ฐ์ ๋ชจ์ผ๊ธฐ ํ๋ค์ด imitation learning์ด ๋งํ๊ณ , ๋ณด์์ด ๋ถํ์ ์ต์ข ์์ธ๋ก๋ง ์ ์๋๋ sparse-reward๋ผ ์ฒ์๋ถํฐ์ RL ํ์์ด ์ฌ์ค์ ๋ถ๊ฐ๋ฅํ๋ค. ๊ทธ๋์ ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ ์ฉ ๊ทธ๋ฆฌํผยทํดยทํฝ์ค์ฒ๋ก ๋ฌธ์ ๋ฅผ โ๊ตฌ์กฐํโํด ์ฐํํด ์๋ค. ์ด ๋ ผ๋ฌธ์ ์ฃผ์ฅ์ ๋จ์ํ๋ค โ ์กฐ๋ฆฝ์ ์๋ฒฝํ ํด๋ด๊ธฐ(perfect) ์ ์, ๋ก๋ด์ ๋จผ์ ๋ฌผ์ฒด๋ฅผ ๊ฐ๊ณ ๋ ธ๋ ๋ฒ(play)์ ๋ฐฐ์์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ โplay์ ์ด๋ค ์์๊ฐ ์กฐ๋ฆฝ์ผ๋ก ์ ์ด๋๋๊ฐ?โ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํํค์น๋ค.

๊ฐ์(Fig. 1) โ ํ๋์ goal-conditioned play ์ ์ฑ ์ ์ฌ์ ํ์ตํด graspยทin-hand reorientationยท6D pose ์ ์ด์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ prior๋ฅผ ์ป๊ณ , ์ด๋ฅผ CAD ๊ธฐ๋ฐ sparse-reward ์กฐ๋ฆฝ ํ๊ฒฝ(tight insertionยทscrewingยทmulti-part assembly)์ ํ์ธํ๋ํ๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก :
(1) Dexterous Play Pretraining. play๋ฅผ goal-conditioned RL๋ก ์ ์ํํ๋ค. ์ ์ฑ \pi_\theta(\bm{s}_t, \bm{o}_t, \bm{g}_t, \bm{\phi})๋ ๋ก๋ด proprioception \bm{s}_t, ํ์ฌยท๋ชฉํ ๋ฌผ์ฒด ์์ธ \bm{o}_t, \bm{g}_t \in SE(3), ๊ทธ๋ฆฌ๊ณ 3D bounding-box ํฌ๊ธฐ๋ก ์ธ์ฝ๋ฉํ ๊ธฐํ \bm{\phi}๋ฅผ ๋ฐ์ ํ+์์ ํจ๊ป ์ ์ดํ๋ค. ๋ฌผ์ฒด๋ฅผ ๋ฌด์์๋ก ์ด์ด์ง๋ 6D ๋ชฉํ ์์ธ๋ค๋ก ์ฎ๊ธฐ๊ฒ ํ๋๋ฐ, ์ฒซ ๋ชฉํ๋ ์ง์ด ๋๋(grasp+lift) ๊ฒ์ด๊ณ ์ดํ ๋ชฉํ๋ค์ ์ ์์์ ์์ธ๋ฅผ ๋ฐ๊พธ๋(in-hand reorientation) ๊ฒ์ ๊ฐ์ ํ๋ค. ๋ณด์์ r = r_{\mathrm{smooth}} + r_{\mathrm{grasp}} + \mathbb{I}_{\mathrm{grasped}}\, r_{\mathrm{goal}} ๋ก, ๋ชฉํ ๋๋ฌ์ keypoint ๊ธฐ๋ฐ 6D ์์ธ ๊ฑฐ๋ฆฌ๋ก ํ์ ํ๋ค. ๋ฌผ์ฒด dim \mathbf{s}์์ ์ ์ํ 4๊ฐ keypoint๋ฅผ world๋ก ์ฎ๊ธด ๋ค d(o,g) = \max_i \lVert \mathbf{o}_i - \mathbf{g}_i \rVert_2,\qquad d(\bm{o}_t,\bm{g}_t) < \epsilon\ (\epsilon = 1\,\mathrm{cm}) ์ด ์๊ณ์น ์์ ๋ค๋ฉด sparse success bonus๋ฅผ ์ค๋ค. ์ด ํ๋์ ๊ฑฐ๋ฆฌ๋ก translation๊ณผ rotation ์ค์ฐจ๋ฅผ ๋์์ ์ก๋๋ค.
(2) RL Finetuning on Assembly. ์กฐ๋ฆฝ CAD๋ฅผ assembly-by-disassembly๋ก ๋ค์ง์ด ๋ชฉํ ์ํ์ค๋ฅผ ๋ง๋ ๋ค. ๋ถํ p^i์ fixture f^i ์ ์๋๋ณํ \bm{T}^{f}_{p}๊ฐ CAD์ ์ฃผ์ด์ง๋ฏ๋ก, ํ์ฌ fixture ์์ธ \bm{f}_t^i์ ๋ํด ์ต์ข ๋ชฉํ๋ฅผ \bm{g}^i_M = \bm{f}^i_t\, \bm{T}^{f}_{p} ๋ก ๊ณ์ฐํ๊ณ (ํฝ์ค์ฒ ์์น ๋ฌด์์ํ์ ๋ถ๋ณ), ์ฝ์ ์ง์ pre-insertion pose๋ ์คํฌ๋ฅ ๋์ฌ์ 90^\circ ๊ฐ๊ฒฉ ๊ฐ์ ์์์ sparse ์ค๊ฐ ์ ์ด ๋ชฉํ๋ฅผ ๋ถ์ธ๋ค. ํ์ธํ๋ ๋ณด์์ graspยทliftยท์ ๋ ฌ ๋ฑ shaping์ ๋ชจ๋ ์ ๊ฑฐํ๊ณ r_t = r_{\mathrm{smooth}} + r_{\mathrm{goal}}์ sparse bonus๋ง ๋จ๊ธด๋ค โ ์ ๊ทผยทํ์งยท์ ๋ ฌ์ ์ ๋ถ play prior์์ ๋ฌผ๋ ค๋ฐ์์ผ ํ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ:
- ํ๋ณธ ํจ์จ. denseยทmulti-stage ๋ณด์์ ๋ฐ์ scratch์กฐ์ฐจ 4๊ฐ ์กฐ๋ฆฝ ํ์คํฌ์์ 24์๊ฐ ๋ค์๋ ์ฑ๊ณต rollout์ด 0์ธ ๋ฐ๋ฉด, Play2Perfect๋ 2โ5์๊ฐ์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋๋ฌ. ๋จ์ํํ fixtured ํ์คํฌ์์ scratch(dense)๋ near-perfect๊น์ง 100์๊ฐ+๊ฐ ํ์ํ์ง๋ง Play2Perfect๋ 4์๊ฐ โ 33๋ฐฐ ๊ฐ์.
- ๊ฐ๊ฑด์ฑ. scratch(dense)๊ฐ ๋ฐฐ์ด ์ ๋ต์ ๋ฌผ์ฒด๋ฅผ ์์ง๋ก โ๊ท ํ ์ก๋โ brittleํ ํธ๋ฒ์ด๋ผ 10 N ์ธ๋ ฅ์์ ์ฑ๊ณต๋ฅ $$20%, ๋ ํฐ ์ธ๋ ฅ์ 0%. Play2Perfect๋ ๊ฐ์ฅ ํฐ ์ธ๋ ฅ์์๋ 75%+ ์ ์ง.
- ์ ๋ฐ๋(ํ์ธํ๋์ ํ์์ฑ). ํ์ธํ๋ ์๋ Play-only๋ sim์์ 40 mm ์ฌ์ ์ 75%์ง๋ง 4 mm์์ ๊ฑฐ์ 0%. Play2Perfect๋ 4 mm 95%, 1 mm 92%, ํ์ต ๋ถํฌ๋ณด๋ค tightํ 0.2 mm์์๋ 80%.
- Sim-to-real(zero-shot). Tight-Insertion 10 mm 10/10, 2 mm 9/10, 0.5 mm 6/10. Assemble-Beam Step1 8/10ยทStep2 7/10, Screw-Leg ์ฝ์ 7/10ยท์คํฌ๋ฅ 5/10. ์๋ฃ ์๊ฐ์ ์ ๊ทผยทํ์งยท์ด๋ฐยท์ ์ด๊น์ง ํฌํจํด 6.8โ15.6์ด.
๊ฒฐ๋ก : ์ฌ๋ฌ ablation์ ๊ดํตํ๋ ํ๋์ ๊ตํ โ play ์ฌ์ ํ์ต์ โ๋ฌผ์ฒด๋ฅผ ์ง์ด ์ฎ๊ธฐ๋โ ๊ฒ์ ๋ฐฐ์ฐ๋ ๊ฒ ์๋๋ผ ์๊ฐ๋ฝ์ผ๋ก ์ ๋ฐํ 6D in-hand ์ ์ด๋ฅผ ๋ฐฐ์ฐ๊ฒ ๋ง๋ค ๋ ์กฐ๋ฆฝ์ผ๋ก ๊ฐ์ฅ ์ ์ ์ด๋๋ค. ๊ณ ์ ํ์ง๋ก ํ๋ง ์์ง์ด๋ play๋ ์ธ๋ชจ๊ฐ ์ ๋ค.
๐ Ring Review
๐ Ring โ An idea that echoes. Grasp the core and its value.
ํ ์ค๋ก ์์ํ๋ฉด
โ์กฐ๋ฆฝ์ ์๋ฒฝํ ํ๊ธฐ(Perfect) ์ ์ ๋จผ์ ๋์๋ผ(Play)โ โ ํ์คํฌ์ ๋ฌด์งํ dexterous play prior๋ฅผ RL๋ก ์ฌ์ ํ์ตํ๊ณ , ๊ทธ๊ฒ์ sparse-reward RL๋ก ์ ๋ฐ ์กฐ๋ฆฝ์ ํนํํ๋ 2๋จ๊ณ ๋ ์ํผ์ด์, ๊ทธ ๋ ์ํผ์ ์ด๋ค ์ค๊ณ ์ ํ์ด ์ ์ด์ ์ค์ํ๊ฐ์ ๋ํ ์ฒด๊ณ์ ์ฐ๊ตฌ๋ค.
๋ฐฐ๊ฒฝ: ์ ๋ค์ง ์ ์ ๋ฐ ์กฐ๋ฆฝ์ด ์ด๋ ค์ด๊ฐ
์ฌ๋ ์ ์์ค์ ์๋ยท์์ฌ์ฃผ๋ฅผ ๋ ธ๋ฆฌ๋ ๋ค์ง ์ ๋ก๋ด์ ๋ง์ ์์ ๋๋ฅผ ์ ์ด์ ํตํด ์ ์ดํด์ผ ํด์, ์ ๋ฐ ์กฐ๋ฆฝ ๊ฐ์ ์์ญ์ด ํํ ๋ก๋ด ํ์ต์ ์ฌ๊ฐ์ง๋๋ก ๋จ์ ์์๋ค. ์ ์๋ค์ ๋ ๊ฐ๋์ ๋ฒฝ์ ์ง์ ํ๋ค.
- Imitation learning ์ชฝ: ์กฐ๋ฆฝ์ contact-rich๋ผ ์๊ฒฉ์กฐ์์ด ์ด๋ ต๋ค. ์กฐ์์์ ๋ก๋ด์ embodiment gap, ์ด๊ฐ ํผ๋๋ฐฑ ๋ถ์ฌ ๋๋ฌธ์ ์ ์ด ๋ง์ ํ์คํฌ์ ๊ณ ํ์ง ์์ฐ ์์ง์ด ํ๋ค๋ค. ๊ทธ๋์ ๋๋ถ๋ถ์ ๋ค์ง ์ IL์ ์ ๋ฐ๋๊ฐ ๋ฎ์ pick-and-place์ ๋จธ๋ฌผ๋ฌ ์๋ค.
- Reinforcement learning ์ชฝ: ์กฐ๋ฆฝ ๋ณด์์ ๋ถํ์ ์ต์ข ์์ธ๋ก๋ง ์ ์๋๋ sparse-reward๋ค. ๋ฌด์์ ์ ์ฑ ์์ ์ถ๋ฐํ ์์ด์ ํธ๋ grasp โ in-hand reorientation โ ์ ๋ ฌ โ ์ ์ด ์ฝ์ ์ ๋ชจ๋ ์ฐ์ฐํ ๋ฐ๊ฒฌํด์ผ ์ฒซ ๋ณด์์ ๋ฐ๋๋ค. dense reward shaping์ด ํ์ํ sim-to-real RL์ด ์ฌ๊ธฐ์ ๋งํ๋ค.
๊ธฐ์กด ์ง์ ์ ๋ฌธ์ ๋ฅผ โ๊ตฌ์กฐํโํด์ ์ป์ด์ก๋ค โ ์ปค์คํ ํฝ์ค์ฒ๋ก ํ์งยท์ฝ์ ์ ๋จ์ํํ๊ฑฐ๋, ์ ์ฉ ํดยท์๋์ดํํฐ๋ก ์ ์ด๋ฅผ ์ฝ๊ฒ ๋ง๋ค๊ฑฐ๋, ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๋ก ์๊ฒฉ์กฐ์์ ๊ฐ๋ฅ์ผ ํด ILยทRL ํ์ธํ๋์ ๋ถ์ด๋ ์์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ค์ ์กฐ๋ฆฝ๋ง๋ค ํ๋์จ์ดยทํ๊ฒฝ ์์ง๋์ด๋ง์ ์๊ตฌํ๊ณ , ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๋ ์๋ยท์์ฌ์ฃผ๋ฅผ ์ ํํ๋ค. Play2Perfect๋ ์ด ๊ตฌ์กฐํ ๋์ ์ผ๋ฐ์ play prior๋ฅผ ์ฌ์ด ํ์ ๋ฌธ์ ๋ฅผ ์ฐํํ๋ค.
์ฌ๊ธฐ์ โplay๋ก๋ถํฐ ํ์ตโ์ด๋ผ๋ ๊ฐ๋ ์์ฒด๋ ์๋กญ์ง ์๋ค(MimicPlay, Learning latent plans from play ๋ฑ). ๋ค๋ง ๊ทธ ๋ ์ํผ์ ๋ฌด์์ด ์ ๋ฐ ์กฐ๋ฆฝ ํ์ธํ๋์ ์ค์ํ์ง๋ ๋ถ๋ถ๋ช ํ๊ณ , ์ด ๋ ผ๋ฌธ์ ๊ธฐ์ฌ๋ ๋ฐ๋ก ๊ทธ ์ง๋ฌธ์ ๋ตํ๋ ๋ฐ ์๋ค.
๋ฐฉ๋ฒ ์์ธ
1. Dexterous Play Pretraining โ 4๊ฐ์ง ์ค๊ณ ์ถ
play๋ goal-conditioned RL ๋ฌธ์ ๋ก ์ธ์์ง๋ค. ์ ์๋ค์ โ๋ฌด์์ด ์ค์ํ๊ฐโ๋ฅผ ๋ค ์ถ์ผ๋ก ๋๋ ์ค๊ณํ๋ค(Fig. 2).

Play ์ฌ์ ํ์ต์ ๋ค ์ถ(Fig. 2) โ Object Diversity(๋ค์ํ primitive ๋ฌผ์ฒด), Training Objective(6D pose ๋๋ฌ + ์ฑ๊ณต ํ์ \mathbb{I}[d(\bm{o}_t,\bm{g}_t)<\epsilon]), Trajectory Diversity(๋ฌด์์ goal ๊ถค์ ), Goal Precision(์์ ์๊ณ์น \epsilon).
- Object Diversity. cuboidยทcylinder(์ ํํ๋ ๋ ๊ฐ์ cuboid/capsule primitive๋ฅผ ๊ฐ์ฒด ๊ฒฐํฉ) primitive๋ฅผ ์ ์ฐจ์ ์ผ๋ก ์์ฑํ๋ค. ์ฃผ ์ฑ๋ถ ๊ธธ์ดยท๋จ๋ฉด์ [5,30] cm, ๋ถ ์ฑ๋ถ์ ๊ธธ์ด [1,15] cm์์ ์ํ๋งํ๊ณ , ๋ฐ๋๋ฅผ ์ฑ๋ถ๋ณ๋ก ๋ฌด์์ํ([300,600]ยท[300,2000]\,\mathrm{kg/m^3})ํด ๋ฌด๊ฒ์ค์ฌยท๊ด์ฑ์ ํ๋ ๋ค. ๋จ์ผ ๊ธฐํยท์ง๋์ ๋ฌถ์ด์ง ์๋ ์ ์ด ์ ๋ต์ ๊ฐ์ ํ๋ ค๋ ๊ฒ.
- Training Objective. ๋ฌผ์ฒด๋ฅผ 6D ๋ชฉํ ์์ธ๋ค์ ์ํ์ค๋ก ์ฎ๊ธฐ๊ฒ ํ๋ค. ์ฒซ ๋ชฉํ๋ grasp+lift, ์ดํ๋ ์ ์์์์ ์์ธ ์ ์ด. translation์ ์์ ๊ณต๊ฐ ์ด๋์, rotation์ in-hand reorientation์ ๊ฐ๋ฅด์น๋ค. ๊ธฐ๋ณธ์ keypoint ๊ธฐ๋ฐ 6D ์์ธ ๊ฑฐ๋ฆฌ d_{\mathrm{pose}}๋ฅผ ์ด๋ค.
- Trajectory Diversity. ๊ณ ์ ๊ถค์ ์ด ์๋๋ผ ๋งค ์ํผ์๋ goal ์ํ์ค๋ฅผ ๋ฌด์์ ์์ฑํ๋ค. ์ฒซ ๋ชฉํ๋ ์์ ๊ณต๊ฐ์์ ๋๊ฒ, ์ดํ ๋ชฉํ๋ ์ด์ ๋ชฉํ ๊ทผ์ฒ์์ ํฐ ํ์ (\le 90^\circ)ยท์์ ์ด๋(\le 0.1 m)์ผ๋ก ์ํ๋ง โ ๊ณ ์ ํ์ง์ ํ ์ด๋์ด ์๋๋ผ ๋ฐ๋ณต์ in-hand reorientation์ ์ ๋.
- Goal Precision. ์ฑ๊ณต ์๊ณ์น \epsilon(๊ธฐ๋ณธ 1 cm)์ด ํ์ต ์ ๋ฐ๋๋ฅผ ์กฐ์ ํ๋ค. ์์์๋ก in-hand๋ก ์์ธ๋ฅผ ์ ๋ฐ ์ ์ดํด์ผ ํด tight-clearance ์กฐ๋ฆฝ์ ๋ง๋ prior๊ฐ ์๊ธด๋ค.
Keypoint ๊ธฐ๋ฐ ์์ธ ํํ(ํต์ฌ ์์). ๊ฐ 6D ์์ธ๋ฅผ ๋ฌผ์ฒด ๊ตญ์ ํ๋ ์์ 4๊ฐ keypoint๋ก ํํํ๋ค. dim \mathbf{s}=[s_x,s_y,s_z]์ ๋ํด \mathcal{K}(\mathbf{s}) = \left\{ \big[\tfrac{s_x}{2},\tfrac{s_y}{2},\tfrac{s_z}{2}\big],\ \big[\tfrac{s_x}{2},-\tfrac{s_y}{2},-\tfrac{s_z}{2}\big],\ \big[-\tfrac{s_x}{2},\tfrac{s_y}{2},-\tfrac{s_z}{2}\big],\ \big[-\tfrac{s_x}{2},-\tfrac{s_y}{2},\tfrac{s_z}{2}\big] \right\} ๊ฐ keypoint๋ฅผ \mathbf{o}_i = R_o \mathbf{k}_i + \mathbf{t}_o๋ก world์ ์ฎ๊ธด ๋ค ๊ฑฐ๋ฆฌ d(o,g) = \max_i \lVert \mathbf{o}_i - \mathbf{g}_i \rVert_2 ๋ก translationยทrotation์ ํ๋์ ์ค์นผ๋ผ๋ก ํฉ์น๋ค. ๊ด์ธก์ฉ keypoint๋ ๋ฌผ์ฒด์ ์ค์ dim์ผ๋ก, ๋ณด์ ๊ณ์ฐ์ฉ์ ๊ณ ์ dim \mathbf{s}^{\mathrm{rew}}=[0.14,0.03,0.03] m๋ก ์ ์ํด ๋ฌผ์ฒด๋ง๋ค translation/rotation trade-off๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ๋ค.
๋ณด์ ํญ. grasp ์ ์ fingertip ์ ๊ทผยทlift๋ฅผ, grasp ํ(\mathbb{I}_{\mathrm{grasped}}=1, 10 cm ๋ค์ด์ฌ๋ฆฌ๋ฉด ์ผ์ง)์ ํ์ฌ 6D ๋ชฉํ๋ก์ ์ง์ ์ ๋ณด์ํ๋ค. r_{\mathrm{goal}} = \lambda_{\mathrm{goal}} \max\!\big(d^{*} - d(o_t,g_t),\ 0\big) + B_{\mathrm{succ}}\,\mathbb{I}[d(o_t,g_t)<\epsilon] d^{*}๋ ํ์ฌ ๋ชฉํ๊ฐ ์ํ๋ง๋ ์ดํ ๋๋ฌํ ์ต์ ๊ฑฐ๋ฆฌ๋ค(potential-based ํํ). B_{\mathrm{succ}}=1000์ ํฐ sparse bonus๋ก ๋ชฉํ๋ฅผ โ์ฐ๊ณ โ ๋ค์ ๋ชฉํ๋ก ๋์ด๊ฐ๋ค.
2. RL Finetuning on Assembly โ CAD์์ sparse ๋ณด์ ๋ฝ๊ธฐ

Assembly-by-Disassembly(Fig. 3) โ ์์ฑ๋ CAD ์กฐ๋ฆฝ์์ ๋ถํ์ ์์ฐจ ์ ๊ฑฐํด disassembly ์์๋ฅผ ๋ง๋ค๊ณ , ๊ทธ๊ฒ์ ๋ค์ง์ด ์กฐ๋ฆฝ ๋จ๊ณ๋ณ sparse ๋ชฉํ ์ํ์ค(์ต์ข ์กฐ๋ฆฝ ์์ธ + pre-insert ๊ฐ์ ์ค๊ฐ ์ ์ด ๋ชฉํ)๋ฅผ ์ป๋๋ค.
๊ฐ ์กฐ๋ฆฝ ํ์คํฌ๋ CAD์ K๊ฐ ๊ฐ์ฒด ๋ถํ \mathcal{A}=\{p^i\}_{i=1}^K์ ์ต์ข ์์ธ๋ก ์ ์๋๋ค. assembly-by-disassembly๋ก ์ ๊ฑฐ ๊ฐ๋ฅํ ๋ถํ ์์๋ฅผ ์ฐพ์ ๋ค์ง์ผ๋ฉด ์กฐ๋ฆฝ ์ํ์ค๊ฐ ๋๊ณ , ๊ฐ ๋จ๊ณ๋ ์ด๋ฏธ ์กฐ๋ฆฝ๋ ๋ถํ์ด ๋ง๋๋ fixture f^i์ ๋ถํ p^i๋ฅผ ์ฝ์ ํ๋ ๋ฌธ์ ๊ฐ ๋๋ค. ๊ฐ ๋จ๊ณ๋ฅผ ๋ถํยทfixture ์์ธ๋ฅผ ๋ฌด์์ํํ RL ํ๊ฒฝ์ผ๋ก ์ธ์คํด์คํํ๋ค.
- Sparse ๋ณด์. CAD๊ฐ ์ฃผ๋ ์๋๋ณํ \bm{T}^{f}_{p}๋ก ์ต์ข ๋ชฉํ \bm{g}^i_M = \bm{f}^i_t \bm{T}^{f}_{p}๋ฅผ ๊ณ์ฐ(fixture ๋ฌด์์ ๋ฐฐ์น์ ๋ถ๋ณ). insertion์ ์ ์ด ์์์ ์ ์ ๋ ฌ๋ pre-insertion ์์ธ๋ฅผ, screwing์ ๋์ฌ์ ๋ฐ๋ผ 90^\circ ๊ฐ๊ฒฉ ๋ชฉํ๋ฅผ ๋ถ์ธ๋ค.
- shaping ์ ๊ฑฐ. ํ์ธํ๋ ๋ณด์์ r_t = r_{\mathrm{smooth}} + r_{\mathrm{goal}}๋ก, graspยทliftยทpose-progress ๋ณด์์ ์ ๋ถ ๋บ sparse๋ง ๋จ๊ธด๋ค. ์ค๊ฐ ๋ชฉํ๋ฅผ \epsilon=1 cm ์์ ๋ฃ์ผ๋ฉด ๋ค์ ๋ชฉํ๋ก ์ ์ง, ์ต์ข ๋ชฉํ ๋๋ฌ์ด ์ฑ๊ณต. ์ต์ข ๋ชฉํ์ ์์ ๋ผ๊ณ ๋ฌผ๋ฌ๋๋ retraction bonus๋ฅผ ๋ํด(ํ palm์ด ๋ฌผ์ฒด์์ 0.2 m ์ด์ ๋จ์ด์ง๋ฉด) ์์ผ๋ก ๊ณ์ ๋ถ์ก์ ์์ธ๋ฅผ ์ ์งํ๋ ํธ๋ฒ์ ๋ง๋๋ค.
- ์ ์ด ๊ธฐํ. ๋๋ถ๋ถ geometry๋ convex decomposition์ผ๋ก ๊ทผ์ฌํ์ง๋ง, ์ด๋ ์ข์ ๊ตฌ๋ฉยท๊ฒฐํฉ๋ฉด์ ์ ํจ ์ฌ์ ๋ฅผ ์๊ณกํ๋ค. ๊ทธ๋์ ์ ์ด์ด ๊ฒฐ์ ์ ์ธ ๊ตฌ๋ฉยท์ฝ์ ๋ถ๋ง ํด์๋ 256์ signed distance field(SDF)๋ก ํํํ๋ hybrid ๋ฐฉ์์ผ๋ก ์ ๋ฐ ์ถฉ๋ ๊ธฐํ๋ฅผ ํ๋ณดํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋๋ค.
3. ํ์ตยทSim-to-Real ์ธ๋ถ
- ์๊ณ ๋ฆฌ์ฆ. playยทfinetuning ๋ชจ๋ SAPG(Split and Aggregate Policy Gradients, PPO์ population ๊ธฐ๋ฐ ๋ณํ)๋ก ํ์ต. ์ ํ ์ฐ๊ตฌ๊ฐ dexterous play์์ PPO๋ณด๋ค ๋ซ๋ค๊ณ ๋ณธ ๋ฐฉ๋ฒ์ด๋ค. Actor๋ LSTM[1024]+MLP๋ก interaction history๋ฅผ ํตํฉํด ๋ฏธ๊ด์ธก ๋ฌผ์ฒด ์์ฑ์ ์ถ๋ก ํ๊ณ , asymmetric actorโcritic์ผ๋ก critic๋ง privileged ์ ๋ณด(๋ฌด๋ ธ์ด์ฆยท๋ฌด์ง์ฐ ๊ด์ธก, ์๋, progress feature)๋ฅผ ๋ณธ๋ค.
- ํ๋์จ์ด. 22-DoF Sharpa 5์ง ์ + 7-DoF KUKA iiwa 14 ํ(์ด 29 DoF). ์ ์ฑ ์ 140์ฐจ์ ๊ด์ธก์ ๋ฐ์ 29๊ฐ ๊ด์ ์์น ๋ช ๋ น ์ถ๋ ฅ(ํ์ delta, ์์ absolute).
- ์์. IsaacSim, ๋จ์ผ NVIDIA RTX A6000. ๋ฌผ๋ฆฌ 120 Hzยท์ ์ฑ 60 Hz. play ์ฌ์ ํ์ต์ 24,576 ๋ณ๋ ฌ env๋ก 7์ผ, ์กฐ๋ฆฝ ํ์ธํ๋์ 12,228 env๋ก 1์ผ(์ ์ด ๋ชจ๋ธ๋ง์ด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ์จ env ์๋ฅผ ์ค์).
- Domain randomization. action latency, proprioception ์ง์ฐ, ํ์ฌยท๋ชฉํ ๋ฌผ์ฒด ์์ธ ๋ ธ์ด์ฆ, ๋ฌผ์ฒด dim scale, ํ ์ด๋ธ ๋์ด, ์ธ๋ ฅ/์ธํ ํฌ(20 Nยท2 Nยทm)๊น์ง ๋ฌด์์ํ.
- ์ค์ธ๊ณ ์ธ์ง. ๋ฐฐํฌ ์ CAD ๋ฉ์๋ฅผ ์ฌ์ฌ์ฉํด FoundationPose๋ก ๋ถํยทfixture์ 6D ์์ธ๋ฅผ ์ถ์ ํ๋ค. ์ ์ฑ ์ 60 Hz closed-loop, ์์ธ ์ถ์ ์ 30 Hz. ๋ณ๋์ scripted ์ฝ์ ยท์คํฌ๋ฅยท๋ณต๊ตฌ ์ปจํธ๋กค๋ฌ๋ ์ฐ์ง ์๋๋ค.
์ง๊ด: play๊ฐ ์ ์กฐ๋ฆฝ ํ์์ ํธ๋๊ฐ
sparse-reward ์กฐ๋ฆฝ์ ๋ณธ์ง์ ๋์ ์ โ์ฒซ ๋ณด์๊น์ง์ ๊ฑฐ๋ฆฌโ๋ค. ๋ฌด์์ ์ ์ฑ ์ graspโreorientโ์ ๋ ฌโ์ฝ์ ์ ๋ชจ๋ ์ฐ์ฐํ ์ฎ์ด์ผ ์ ํธ๋ฅผ ์ฒ์ ๋ณธ๋ค. play prior๋ ์ด ์ฌ์ฌ์ ์๋ถ๋ถ(์์ ์ ํ์ง, ์ ์ 6D ์์ธ ์ ์ด)์ ์ด๋ฏธ ๋ฅ์ํ๊ฒ ๋ง๋ค์ด, ํ์ธํ๋์ด ๋ง์ง๋ง ์ ์ดยท์ ๋ ฌ ์ํธ์์ฉ์๋ง ํ์์ ์ง์คํ๊ฒ ํ๋ค. ์ ์๋ค์ ํํ์ผ๋ก๋, prior๊ฐ โํ์์ ์ฑ๊ณต์ ํ์ํ ์ต์ข contact-rich ์ํธ์์ฉ์ผ๋ก ์ขํ๋คโ. ๊ทธ๋ฆฌ๊ณ ์ ํํ in-hand ์ ์ด๊ฐ ์ค์ํ๊ฐ โ ๊ณ ์ ํ์ง๋ก ํ๋ง ์์ง์ด๋ skill์ ์กฐ๋ฆฝ์ ์ ๋ ฌยท์ฌํ์งยท๋์ฌ ํ์ ์ ํ์ํ ์๊ฐ๋ฝ ์์ค ๋ฏธ์ธ ์ ์ด๋ฅผ ๋ด๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๊ฒ์ด ๋ชจ๋ ablation์ ๊ดํตํ๋ ํต์ฌ ์ง๊ด์ด๋ค.
์คํ
๋ค ์ง๋ฌธ์ผ๋ก ๊ตฌ์ฑ๋๋ค: โ dense ๋ณด์์ด play๋ฅผ ๋์ฒดํ ์ ์๋, โก play์ ์ด๋ค ์ค๊ณ๊ฐ ์ค์ํ๊ฐ, โข ์ ๋ฐ ์กฐ๋ฆฝ์ RL ํ์ธํ๋์ด ๊ผญ ํ์ํ๊ฐ, โฃ ์ค์ธ๊ณ๋ก ์ ์ด๋๋. ํ์คํฌ๋ Tight-Insertion(T-peg), Assemble-Beam(Fabrica ๊ธฐ๋ฐ ๋ค๋ถํ ๋น), Screw-Leg(FurnitureBench ๊ธฐ๋ฐ ๊ฐ๊ตฌ ๋ค๋ฆฌ ์คํฌ๋ฅ). ์ ๋ถํ์ด ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ์ฉ์ผ๋ก ์์, ๋ค์ง ์๊ณผ ์๊ฐ ์ถ์ ์ ๋ง๊ฒ 3๋ฐฐ ํฌ๊ธฐ๋ก 3D ํ๋ฆฐํธํ๋ค. ์งํ๋ ์ฑ๊ณต๋ฅ (์ต์ข ์์ธ๋ฅผ \epsilon=1 cm ์์ ๋๋ฌ)๊ณผ ์๋ฃ ์๊ฐ์ด๋ฉฐ, sim์ 500 rollout, real์ ๊ฐ 10 rollout.
4.1 Dense ๋ณด์์ด play๋ฅผ ๋์ฒดํ ์ ์๋ โ ์๋์ค

ํ์ต ํจ์จ(Fig. 4) โ ๋ค ์กฐ๋ฆฝ ํ์คํฌ์์ Play2Perfect๋ ๊ณต์ prior๋ก๋ถํฐ 2โ5์๊ฐ์ ๋์ ์ฑ๊ณต๋ฅ ์ ๋๋ฌ. scratch๋ sparse๋ dense๋ 24์๊ฐ ๋ค์๋ ์ง์ 0.
๋ค ํ์คํฌ ๋ชจ๋์์ ๋ scratch baseline(sparseยทdense)์ 24์๊ฐ ๋ค์๋ ์ฑ๊ณต rollout์ด ์๋ค. ๋จ์ํํ Tight-Insertion(Fixtured) ํ์คํฌ(T-peg๋ฅผ ํฝ์ค์ฒ์ ์ธ์ ์์)์์๋ง scratch๊ฐ ํ์ต ๊ฐ๋ฅํด์ง๋๋ฐ, ๊ทธ๋ง์ scratch(dense)๋ near-perfect๊น์ง 100์๊ฐ+๊ฐ ํ์ํ๊ณ Play2Perfect๋ 4์๊ฐ โ 33๋ฐฐ ๊ฐ์.

๊ฐ๊ฑด์ฑ(Fig. 5) โ (์ข) 33๋ฐฐ ๋น ๋ฅธ ํ์ต, (์ค) scratch(dense)๋ ์์ง๋ก ๊ท ํ ์ก๋ ํธ๋ฒ์ ๋ฐฐ์ ํ์ง๊ฐ ๋ถ์์ , Play2Perfect๋ ์ฌ๋ฌ ์๊ฐ๋ฝ์ผ๋ก ์์ ํ์ง, (์ฐ) ์ธ๋ ฅ ์ญ๋์ ๋ํ ์ฑ๊ณต๋ฅ : scratch๋ ๊ธ๋ฝ, Play2Perfect๋ ์ ์ง.
๋ ์ค์ํ ๊ฑด ํ์ต๋ ์ ๋ต์ ์ง์ด๋ค. scratch(dense)๋ ๋ฌผ์ฒด๋ฅผ ์์ง๋ก โ๊ท ํ ์ก๋โ brittleํ ํธ๋ฒ์ ๋ฐฐ์, 10 N ์ธ๋ ฅ์์ ์ฑ๊ณต๋ฅ $$20%, ๋ ํฐ ์ธ๋ ฅ์ 0%๋ก ๋ฌด๋์ง๋ค. Play2Perfect๋ ๊ฐ์ฅ ํฐ ์ญ๋์์๋ 75%+๋ฅผ ์ ์งํ๋ค. ์ฆ play prior๋ ๋จ์ง ๋น ๋ฅผ ๋ฟ ์๋๋ผ ๋ ๊ฐ๊ฑดํ ํ์งยท๋ณต๊ตฌ ์ ๋ต์ ์ฌ๋๋ค.
4.2 ์ด๋ค ์ค๊ณ ์ ํ์ด ์ค์ํ๊ฐ

Ablation(Fig. 6) โ ๋ค ํ์คํฌยท์ธ ์๋ ํ๊ท ๋ค์ด์คํธ๋ฆผ ์ฑ๊ณต๋ฅ . Object Diversityยท6D ObjectiveยทTrajectory DiversityยทGoal Precision ๋ค ์ถ ๋ชจ๋ ์ ์ด์ ์ํฅ์ ์ฃผ๋ฉฐ, ํ๋ ๊ณก์ (๊ธฐ๋ณธ๊ฐ)์ด ๊ฐ์ฅ ๋น ๋ฅด๊ณ ๋๋ค.
- Object Diversity(10/100/1000). ๋ค์์ฑ์ด ์ ์ด๋ฅผ ๊ฐ์ ํ์ง๋ง diminishing returns โ 100๊ณผ 1000์ ํ์ต ์๋ยท์ต์ข ์ฑ๋ฅ์ด ๋น์ทํด, ์ด ๋ค์ด์คํธ๋ฆผ์ โ์ ๋นํ ๋ค์ํโ ๋ฌผ์ฒด ์งํฉ์ด๋ฉด ์ถฉ๋ถ.
- Training Objective(6D vs Translation-only vs Rotation-only). ๋ฐฉํฅ ์ ์ด๊ฐ ๊ฒฐ์ ์ . Translation-only๋ graspยทlift๋ง ๋ฐฐ์ฐ๊ณ in-hand reorientation prior๋ฅผ ๋ชป ๋ง๋ค์ด ์กฐ๋ฆฝ์ ์คํจํ๋ค. Rotation-only๋ ์ ์ด๊ฐ ๊ฝค ์ข์ง๋ง full 6D๋ณด๋ค ์ฝ๊ฐ ๋๋ฆฐ๋ฐ, translation๊ณผ reorientation์ ๊ฒฐํฉํด ์ฐ์ตํ ๊ธฐํ๊ฐ ์ ์ด์๋ก ํด์.
- Trajectory Diversity(random vs ๊ณ ์ 10/100). ๊ณ ์ 10ยท100์ ๋น์ทํ๊ณ , online ๋ฌด์์ ๊ถค์ ์ด ๊ฐ์ฅ ๋น ๋ฅด๋ค โ ๋ชฉํ ์์ธ ์ ์ด์ ๋์ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ๋ค์ด์คํธ๋ฆผ ์กฐ๋ฆฝ ํ์ธํ๋๊ณผ ๋ ์ ๋ง๋๋ค.
- Goal Precision(1/5/10 cm). ์ ๋ฐํ ๋ชฉํ๊ฐ ์ค์. ๋์จํ 10 cm๋ ์ ํํ ์์ธ ์ ์ด ์์ด๋ ๋ง์กฑ๋ผ ์ ์ด๊ฐ ์ ๋๊ณ , 5 cm๋ ๊ฒฐ๊ตญ ๋ฐฐ์ฐ์ง๋ง 1 cm๋ณด๋ค ๋๋ฆฌ๋ค. tight-clearance ์กฐ๋ฆฝ์ ์ ๋ฐํ play๊ฐ ๋ง๋ prior๋ฅผ ๋ง๋ ๋ค.
Appendix์ ํ์คํฌ๋ณ ๊ฒฐ๊ณผ(Fig. 8)๋ ๊ฐ์ ๊ฒฐ๋ก ์ ์ฌํ์ธํ๋ค: ํจ๊ณผ์ ์ธ play๋ โ์ง์ด ์ฎ๊ธฐ๊ธฐโ๊ฐ ์๋๋ผ ์๊ฐ๋ฝ ๊ธฐ๋ฐ ์ ๋ฐ 6D ๋ฌผ์ฒด ์ ์ด๋ฅผ ๋ฐฐ์ฐ๋ ๊ฒ.
4.3 ์ ๋ฐ ์กฐ๋ฆฝ์ ํ์ธํ๋์ด ํ์ํ๊ฐ โ ๊ทธ๋ ๋ค

Tight Insertion(Fig. 7) โ Play2Perfect vs ์ผ๋ฆฐ Play-only. (์ข) ๋์จํ ์ฌ์ ๋ ๋ ๋ค ์ฑ๊ณตํ๋ tight ์ฌ์ ๋ Play2Perfect๋ง ์ฑ๊ณต. (์ฐ ์) sim์์ ์ฌ์ ๊ฐ ์ข์์ ธ๋ Play2Perfect๋ ๊ฐ๊ฑด, Play-only๋ ๊ธ๋ฝ. (์ฐ ํ) real๋ ๋์ผ ์ถ์ธ.
ํ์ธํ๋ ์๋ Play-only๋ ๊ฐ์ฅ ๋์จํ ์ฝ์ ๋ง ํผ๋ค. sim์์ 40 mm ์ฌ์ 75% โ 4 mm์์ ๊ฑฐ์ 0%. Play2Perfect๋ ์ ๋ฐ๋๊ฐ ์ฌ๋ผ๊ฐ๋ 4 mm 95%, 1 mm 92%, ํ์ต ๋ถํฌ๋ณด๋ค tightํ 0.2 mm์์๋ 80%. real๋ ๊ฐ์์ 10 mm์์ P2P 100% vs Play-only 60%, 2 mm 90% vs 20%, 0.5 mm 60% vs 0%. ์ ์ฑ์ ์ผ๋ก Play-only๋ ๋ชฉํ๋ก ์ง์งํ๋ฉฐ ์ ์ด์ ๋ฐฉํด๋ก ์ทจ๊ธํ๋ ๋ฐ๋ฉด, Play2Perfect๋ ๊ตฌ๋ฉ ๊ทผ์ฒ๋ฅผ ๊ตญ์ ํ์ํ๊ณ ์ ์ด ํ์ ๋ณด์ ๋์์ ํ๋ค๊ฐ ์ ๋ ฌ๋๋ฉด ์ฝ์ ์ ์ปค๋ฐํ๋ค. ์ฆ play๋ ์ ์ฉํ ํ์งยท์ฌ๋ฐฐํฅ์ ์ฃผ์ง๋ง, prior๋ฅผ ์ ๋ฐ ์กฐ๋ฆฝ ์ ์ฑ ์ผ๋ก ๋ฐ๊พธ๋ ค๋ฉด ํ์ธํ๋์ด ํ์๋ค.
4.4 Sim-to-Real (zero-shot)
FoundationPose๋ก ์์ธ๋ฅผ ์ถ์ ํ๋ฉฐ real-world ํ์ธํ๋ ์์ด ๋ฐฐํฌํ๋ค. Tight-Insertion 10 mm 10/10, 2 mm 9/10, 0.5 mm 6/10. Assemble-Beam Step1 8/10ยทStep2 7/10(๊ฐ ํ๊ท 7์ด ์ด๋ด). Screw-Leg ์ฝ์ 7/10ยท์ ์ฒด ์คํฌ๋ฅ 5/10(์ฑ๊ณต ์ 15.6\pm2.9์ด). ์๋ฃ ์๊ฐ์ ํ ์์ธ์์์ ์ ๊ทผยทํ์งยท์ฌ๋ฐฐํฅยท์ด๋ฐยท์ต์ข ์ ์ด๊น์ง ํฌํจํ๋ฉฐ, ์ด ๋น ๋ฅธ ์คํ์ ๋ค์ง ์ ์กฐ๋ฆฝ์ ์ด์ ๊ณผ RL์ด ํจ์จ์ ์กฐ์ ์ ๋ต์ ๋ฐ๊ฒฌํจ์ ๋ณด์ฌ์ค๋ค. Appendix์ ์ ์ฑ ๋ถ์์ ๋ฐ๋ฅด๋ฉด ์ ์ฑ ์ ๋๋กญ ํ ์ฌํ์ง, ์ ์ด ํ ๊ตญ์ ํ์, ์ ์์์ ๋ค๋ฆฌ๋ฅผ ์ง์ ํ์ ์ํค๋ ์คํฌ๋ฅ์ ๊ฐ์ closed-loop ๋ณต๊ตฌ ํ๋์ ๋ณ๋ ์คํฌ๋ฆฝํธ ์์ด ๋ธ๋ค โ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๋ผ๋ฉด ์ฌ๋ฐฐ์นยท์ฌํ์ง๋ ํ ์ ์ฒด ํ์ ์ด ํ์ํ์ ๋์๋ค์ด๋ค. ์คํจ๋ ๋๋ถ๋ถ ์ต์ข ์ ์ด ๊ตญ๋ฉด์์ ๊ฐ๋ฆผ์ ์ํ ์ธ์ง ์ ํยท์ ์ด ๋์ญํ์ sim-to-real ๋ถ์ผ์น๋ก ๋ฐ์ํ๋ค.
๋ณด์กฐ: claude-curio ๋ ๋ฆฝ ์ฌํ (offline eval)
โ๏ธ ์ด ๋ธ๋ก์ ์ ์ ๊ฒฐ๊ณผ๊ฐ ์๋๋ผ claude-curio๊ฐ ๊ณต๊ฐ ์ฒดํฌํฌ์ธํธ๋ก ์ํํ ๋ ๋ฆฝ ์ฌํ์ด๋ค(RTX 5090, 256 ๋ณ๋ ฌ env, headless offline evaluation). ๋ ผ๋ฌธ์ sim-to-real ํ(๊ฐ ํ์คํฌ n=10)์ ์ฑ๊ฒฉ์ด ๋ค๋ฅด๋ฏ๋ก ์ฃผ์ฅ๊ณผ ๊ตฌ๋ถํด ์ฝ๋๋ค.
๊ณต๊ฐ๋ ์ฒดํฌํฌ์ธํธ๋ก sim ๋ด์์ ๊ฐ ํ์คํฌ๋ฅผ ์๋ฐฑ ํ rolloutํด ์ฑ๊ณต๋ฅ ์ ์ธก์ ํ๋ค.
| ํ์คํฌ | ์ฌํ ์ฑ๊ณต๋ฅ (offline, sim) | ๋ ผ๋ฌธ real (n=10) |
|---|---|---|
| Tight insertion (L-peg, 0.5 mm) | 96.9% (nโ229) | 60% (6/10) |
| Beam assembly step 1 | 98.8% (nโ241) | 80% (8/10) |
| Beam assembly step 2 | 93.6% (nโ220) | (๋ฏธ์ ์) |
| Screwing | 65.0% (nโ254) | 50% (5/10) |
ํด์(๋ ผ๋ฌธ ํํ ์๋). ํ์คํฌ ๊ฐ ๋์ด๋ ์์๋ ๋ ผ๋ฌธ๊ณผ ์ผ์นํ๋ค โ screwing์ด ๊ฐ์ฅ ์ด๋ ต๊ณ ์ฝ์ ยท๋น ์กฐ๋ฆฝ์ด ์ฝ๋ค. ์ด ์ ์ฑ์ ์์๊ฐ ์ฌํ๋๋ค๋ ๊ฒ์ด ๊ฐ์ฅ ์๋ฏธ ์๋ ์ ํธ๋ค. ๋ฐ๋ฉด ์ ๋ ์ฑ๊ณต๋ฅ ์ด ์ ๋ฐ์ ์ผ๋ก ๋๊ฒ ๋์จ ๊ฒ์ ์ฑ๋ฅ ์ฐ์๋ก ์ฝ์ผ๋ฉด ์ ๋๊ณ , (a) ๋ ผ๋ฌธ์ n=10์ ๋ ธ์ด์ฆ๊ฐ ํฐ ์ ์ถ์ (์ดํญ ํ์คํธ์ฐจ \approx 13%p)์ด๋ผ ๋์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ฐ๊ณ , (b) ๊ณต๊ฐ ์ฒดํฌํฌ์ธํธ๊ฐ ์ ์ best run์ผ ๊ฐ๋ฅ์ฑ, (c) offline eval์ ์ด๊ธฐ ์์ธ ๋ถํฌยทํ์ tolerance๊ฐ ์ค๊ธฐ(sim-to-real)์ ๋ค๋ฅด๋ค๋ ์ ์ผ๋ก ์ค๋ช ๋๋ค. ๋ฌด์๋ณด๋ค ์ด ์์น๋ sim ๋ด policy ์ฑ๊ณต๋ฅ ์ผ ๋ฟ, ๋ ผ๋ฌธ real ํ๊ฐ ๊ฐ๋ดํ๋ ์ธ์ง ์ค์ฐจยท์ ์ด ๋์ญํ ๊ฐญยท๊ฐ๋ฆผ์ด ๋น ์ ธ ์๋ค. ๋ฌผ๋ฆฌ clearance ablation(0.5/2/10 mm)์ ๊ณต๊ฐ ์ฒดํฌํฌ์ธํธ๊ฐ L-peg ํ๋๋ฟ์ด๋ผ ์ฌํ ๋ฒ์ ๋ฐ์ด์๋ค.
์์ปจ๋ ์ด ์ฌํ์ โpriorโํ์ธํ๋ ์ ์ฑ ์ด sim ์์์ ๋ ผ๋ฌธ๊ณผ ๊ฐ์ ๋์ด๋ ๊ตฌ์กฐ๋ก ๋์ํ๋คโ๋ฅผ ํ์ธํด์ค ๋ฟ, ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ์ธ sim-to-realยท33ร ํ๋ณธํจ์จยทplay prior ์ค๊ณ ๊ตํ์ ๋์ฒดํ๊ฑฐ๋ ๋ฐ๋ฐํ์ง ์๋๋ค.
๋นํ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ์
- ๋ฌธ์ ์ฌ๊ตฌ์ฑ์ ๋ช ์พํจ. โsparse-reward ์กฐ๋ฆฝ ํ์โ์ โplay prior + ์ข์ ํ์ธํ๋โ์ผ๋ก ๋ถํดํ ๊ฒ์ ๊ฐ๋ ์ ์ผ๋ก ๊น๋ํ๊ณ , denseยทmulti-stage ๋ณด์์ ์ค scratch๋ฅผ ์๋๋ก 33๋ฐฐยท๊ฐ๊ฑด์ฑ ์ฐ์๋ฅผ ๋ณด์ธ ๋น๊ต๊ฐ ์ค๋๋ ฅ ์๋ค. baseline์ ์คํ๋ ค ์ ๋ฆฌํ dense reward๋ฅผ ์ค ์ ์ด ๊ณต์ ์ฑ์ ๋์ธ๋ค.
- โ๋ฌด์์ด ์ค์ํ๊ฐโ์ ์ฒด๊ณ์ ablation. ๋ค ์ถ์ ๊ฐ๊ฐ ํต์ ํด ๋ฐ๊พธ๊ณ , ํ์คํฌ๋ณ(Fig. 8)๊น์ง ์ฌํ์ธํด โin-hand ์ ๋ฐ 6D ์ ์ดโ๋ผ๋ ๋จ์ผ ๊ตํ์ผ๋ก ์๋ ด์ํจ ์์ ์ด ์ด ๋ ผ๋ฌธ์ ์ค์ง์ ๊ธฐ์ฌ๋ค. ๋จ์ SOTA ์ฃผ์ฅ๋ณด๋ค ์ด์ ๊ฐ๋ฅํ ํต์ฐฐ์ ์ค๋ค.
- ๊น๋ค๋ก์ด sim-to-real ์ฆ๊ฑฐ. 0.5 mm ์ฌ์ ์ zero-shot ์ฝ์ 60%, ์คํฌ๋ฅ์ยท๋ค๋ถํ ์กฐ๋ฆฝ๊น์ง ์คํฌ๋ฆฝํธ ์๋ closed-loop๋ก ํด๋ธ ๊ฒ์ ๋ค์ง ์ ์ ๋ฐ ์กฐ๋ฆฝ์์ ๋๋ฌธ ๊ฒฐ๊ณผ๋ค. hybrid SDF(์ ์ด๋ถ๋ง ๊ณ ํด์๋)๋ retraction bonus ๊ฐ์ ์ธ๋ถ ์ค๊ณ๊ฐ ์ค์ ๊ฐ๊ฐ์ ๋ณด์ฌ์ค๋ค.
์ฝ์ ยทํ๊ณ
- ๋จ๊ธฐ skill, ์ธ๋ถ ์ง์ ์์กด. ์ ์๋ ์ธ์ ํ๋ฏ ํ์คํฌ ์ํ์ฑยท๋ฅ๋ ๋ถํ ์ ํยท๋ชฉํ ์์ธ๊ฐ ๋ชจ๋ ์ธ๋ถ์์ ์ฃผ์ด์ง๊ณ , ์ ์ฑ ์ ํ์คํฌ/๋ฒค์น๋งํฌ ๊ณ์ด๋ณ๋ก ํ์ธํ๋๋๋ค. ์์ ์์จ ์กฐ๋ฆฝ ํ์ดํ๋ผ์ธ์ด ์๋๋ผ โ์งง์ ์กฐ๋ฆฝ skillโ์ ํ์ต์ด๋ค.
- ์ธ์ง ๋ณ๋ชฉ. ์ค์ธ๊ณ ์ฑ๋ฅ์ด FoundationPose์ 6D ์ถ์ ์ ํฌ๊ฒ ์์กดํ๋ค. ๋น ๋ฅธ ์์ง์ยท๊ฐ๋ฆผยท์๊ฐ์ ์ ์ฌ ๋ฌผ์ฒด์์ ์ถ์ ์ด ํ๋ค๋ฆฌ๊ณ , ์คํฌ๋ฅ-leg์ ๊ทผ์ฌ 90^\circ ๋์นญ์ ํ์ ๋ฐฉํฅ ์ค์ธ์ ์ ๋ฐํด ์ ํ ์ดํ๋ก ๋์นญ์ ๊นจ์ผ ํ๋ค. ์ ์ฑ ์ ๋ชฉํ ์์ธ ์ธ์ fixtureยท์ฃผ๋ณ ๊ธฐํ๋ฅผ ์ง์ ๊ด์ธกํ์ง ์์ scene-awareness๊ฐ ์๋ค(์ ์๊ฐ ํฅํ visualยทtactile ๊ด์ธก์ ์ ์).
- ์์ ๋น์ฉ์ ๋น๋์นญ. play ์ฌ์ ํ์ต์ 24,576 envยท7์ผ์ด ๋๋๋ฐ, ์ด prior๊ฐ ์๋ก์ด ์ยทํ embodiment๋ ํฌ๊ฒ ๋ค๋ฅธ ๋ฌผ์ฒด๊ตฐ์ ์ผ๋ง๋ ์ฌ์ฌ์ฉ๋๋์ง๋ ์ด ๋ ผ๋ฌธ ๋ฒ์ ๋ฐ์ด๋ค. โํ ๋ฒ ํ์ตํด ์ฌ๋ฌ ์กฐ๋ฆฝ์ ์ฌ์ฌ์ฉโ์ ์ด์ ์ด sim์์ 3๋ฐฐ ํ๋ยท์ ๋ ฌ๋ CAD ๋ถํ์ ๊ตญํ๋ ์ ์ ์์ ์ผ๋ง๋ ์ผ๋ฐํ๋ ์ง๋ ์ด๋ ค ์๋ค.
- ์ ์ด sim-to-real ๊ฐญ. real ํฝ์ค์ฒ๊ฐ ํผ ์์ ํ ์ดํ๋ก ๊ณ ์ ๋ผ ์ ์ด ํ์ ์์ง์ด๋๋ฐ sim์ ๊ฐ์ฒดยท๊ณ ์ ์ด๋ผ, ๋ณด์ ๋์์ด ์์ ์๋์ด๋์ ๋ชป ๋ด๋ ์คํจ๊ฐ sim์์ ๊ฒฐ์ฝ ๊ด์ธก๋์ง ์๋๋ค. ์ ์ด ๋์ญํ ๋ชจ๋ธ๋ง์ด ์ฌ์ ํ ์ฑ๋ฅ ์ํ์ ์ฅ๊ณ ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ์์ ์๋ฆฌ ๋งค๊น
- Play/foundation ์ปจํธ๋กค๋ฌ ๊ณ์ด. DexterityGen์ด๋ SimToolReal์ฒ๋ผ ๋ค์ํ ๋ฌผ์ฒด์ ๊ฑธ์น task-agnostic play ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ตํ๋ ํ๋ฆ๊ณผ ๊ฐ์ฅ ๊ฐ๊น๋ค. ๋ค๋ง ๊ทธ๋ค์ zero-shot(์๊ฒฉ์กฐ์ยทํ ์คํธ ์ ์ฌ๋ ์์ฐ๊ณผ ๊ฒฐํฉ) ๋ฐฐํฌ๋ผ ์ ๋ฐ ์ ์ด ์กฐ๋ฆฝ์ ์ฝํ ๋ฐ๋ฉด, Play2Perfect๋ play๋ฅผ ์ฌ์ ํ์ต์ผ๋ก ๋ณด๊ณ sparse-reward ํ์ธํ๋์ผ๋ก ์ ๋ฐ ์กฐ๋ฆฝ์ ํนํํ๋ค๋ ์ ์ด ์ฐจ๋ณ์ ์ด๋ค.
- Sim-to-real dexterous RL. graspยทin-hand reorientation์ ์์ ๊ณต๊ฐ์์ ํธ๋ DexTreme๋ฅ์ ViserDex(๋จ์ RGB in-hand reorientation)์ ์ฐ์ฅ์ ์์, โ์์ ๊ณต๊ฐ skill์ ์ ์ด ๋ง์ ์กฐ๋ฆฝ์ผ๋กโ ํ์ฅํ๋ ค๋ ์๋๋ค. ์ ์ด ์กฐ๋ฆฝ์ผ๋ก ๊ฐ ๋ ๊ธฐ์กด์ dense reward๋ ์ฌ๋ ๊ถค์ ยท์๊ฒฉ์กฐ์ warm-start๊ฐ ํ์ํ๋๋ฐ, ์ด๋ฅผ play prior๋ก ๋์ฒดํ ๊ฒ์ด ํต์ฌ.
- ์ ๋ฐยท์ ์ด ์กฐ๋ฆฝ. IndustRealยทAutoMate ๊ฐ์ dense-reward ์กฐ๋ฆฝ, FabricaยทFurnitureBench ๋ฒค์น๋งํฌ, assembly-by-disassembly(Assemble Them All) ์์ ์ ์๋ค. ๋ณ๋ ฌ ๊ทธ๋ฆฌํผยทํฝ์ค์ฒ๋ก ๊ตฌ์กฐํํ๋ ์ด ๊ณ์ด์ โ๋ค์ง ์ + task-agnostic priorโ๋ผ๋ ์ถ์ ๋ํ๋ค.
์์ฝ
Play2Perfect์ ๋ฉ์์ง๋ ๋ฐฉ๋ฒ์ด ์๋๋ผ ๋ ์ํผ์ ํด๋ถ์ ์๋ค. ์ ๋ฐ ์กฐ๋ฆฝ์ ์ง์ RL๋ก ํธ๋ ๋์ , ๋ค์ํ ๋ฌผ์ฒด๋ฅผ ๋ฌด์์ 6D ๋ชฉํ๋ก ์ฎ๊ธฐ๋ play๋ฅผ ๋๊ท๋ชจ ๋ณ๋ ฌ RL๋ก ์ฌ์ ํ์ตํ๋ฉด, ๊ทธ prior๊ฐ sparse-reward ํ์ธํ๋์ ์ฑ๊ณต์ ํ์ํ ์ต์ข ์ ์ด ์ํธ์์ฉ์ผ๋ก ์ขํ์ค๋ค. denseยทmulti-stage ๋ณด์์ ์ค scratch๋ณด๋ค 33๋ฐฐ ํจ์จ์ ์ด๊ณ , 0.5 mm ์ฌ์ ์ฝ์ 60%ยท๋ค๋ถํ ์กฐ๋ฆฝยท์คํฌ๋ฅ์์ zero-shot์ผ๋ก ํด๋ธ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ ablation์ด ํ๋๋ก ์๋ ดํ๋ค โ ๊ณ ์ ํ์ง์ ํ ์ด๋์ด ์๋๋ผ ์๊ฐ๋ฝ ๊ธฐ๋ฐ ์ ๋ฐ 6D in-hand ์ ์ด๋ฅผ ๊ฐ์ ํ๋ play๊ฐ ์กฐ๋ฆฝ์ผ๋ก ๊ฐ์ฅ ์ ์ ์ด๋๋ค. ์์จ ์ํ์ฑยท์ธ์ง ๊ฐ๊ฑด์ฑยท์ ์ด sim-to-real์ ๋จ์ ์์ ์ง๋ง, โ์๋ฒฝํ ํ๊ธฐ ์ ์ ๋์๋ผโ๋ ์ฌ๊ตฌ์ฑ์ ๋ค์ง ์ ์ ๋ฐ ์กฐ์์ ํ์ ๋ฌธ์ ์ ์ค์ฉ์ ์ธ ์ง๋ ๋๋ฅผ ์ ๊ณตํ๋ค.