📃Play2Perfect

dexterity

sim2real

assembly

in-hand-reorientation

contact

pretraining

IsaacSim

Play2Perfect: What Matters in Dexterous Play Pretraining for Precise Assembly?

Published

July 2, 2026

Paper Link (arXiv:2606.26428)
Project Page
Code (GitHub, MIT)
저자: Tyler Ga Wei Lum*, Kushal Kedia*, C. Karen Liu†, Jeannette Bohg† (Stanford University, Cornell University)
arXiv preprint, 2026 (* equal contribution, † equal advising)

💡 다지(multi-fingered) 손으로 정밀 조립(precise assembly)을 풀기 위해, 조립을 바로 배우지 말고 먼저 다양한 물체를 갖고 노는 법(play)을 goal-conditioned RL로 사전학습한 뒤 sparse-reward로 조립에 파인튜닝하자는 2단계 프레임워크다.
⚙️ IsaacSim에서 절차적으로 생성한 다양한 primitive 물체를 무작위 6D 목표 자세로 옮기는 play 정책을 대규모 병렬(24,576 env) RL로 학습하고, CAD를 “assembly-by-disassembly”로 뒤집어 만든 sparse 목표 시퀀스에 이 prior를 얹어 접촉이 많은 조립을 특화한다.
🎯 dense·multi-stage 보상을 준 scratch RL보다 33배 표본 효율적이며, zero-shot sim-to-real로 0.5 mm 여유의 tight insertion을 60%, 장기 다부품 조립·스크류잉을 50% 이상 성공시킨다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

정밀 조립(precise assembly)은 다지 손 로봇에게 두 갈래로 어렵다. 접촉이 많아(contact-rich) 원격조작으로 시연을 모으기 힘들어 imitation learning이 막히고, 보상이 부품의 최종 자세로만 정의되는 sparse-reward라 처음부터의 RL 탐색이 사실상 불가능하다. 그래서 기존 연구는 전용 그리퍼·툴·픽스처로 문제를 “구조화”해 우회해 왔다. 이 논문의 주장은 단순하다 — 조립을 완벽히 해내기(perfect) 전에, 로봇은 먼저 물체를 갖고 노는 법(play)을 배워야 한다. 그리고 “play의 어떤 요소가 조립으로 전이되는가?”를 체계적으로 파헤친다.

개요(Fig. 1) — 하나의 goal-conditioned play 정책을 사전학습해 grasp·in-hand reorientation·6D pose 제어의 재사용 가능한 prior를 얻고, 이를 CAD 기반 sparse-reward 조립 환경(tight insertion·screwing·multi-part assembly)에 파인튜닝한다.

핵심 방법론:

(1) Dexterous Play Pretraining. play를 goal-conditioned RL로 정식화한다. 정책 \pi_\theta(\bm{s}_t, \bm{o}_t, \bm{g}_t, \bm{\phi})는 로봇 proprioception \bm{s}_t, 현재·목표 물체 자세 \bm{o}_t, \bm{g}_t \in SE(3), 그리고 3D bounding-box 크기로 인코딩한 기하 \bm{\phi}를 받아 팔+손을 함께 제어한다. 물체를 무작위로 이어지는 6D 목표 자세들로 옮기게 하는데, 첫 목표는 집어 드는(grasp+lift) 것이고 이후 목표들은 손 안에서 자세를 바꾸는(in-hand reorientation) 것을 강제한다. 보상은 r = r_{\mathrm{smooth}} + r_{\mathrm{grasp}} + \mathbb{I}_{\mathrm{grasped}}\, r_{\mathrm{goal}} 로, 목표 도달은 keypoint 기반 6D 자세 거리로 판정한다. 물체 dim \mathbf{s}에서 정의한 4개 keypoint를 world로 옮긴 뒤 d(o,g) = \max_i \lVert \mathbf{o}_i - \mathbf{g}_i \rVert_2,\qquad d(\bm{o}_t,\bm{g}_t) < \epsilon\ (\epsilon = 1\,\mathrm{cm}) 이 임계치 안에 들면 sparse success bonus를 준다. 이 하나의 거리로 translation과 rotation 오차를 동시에 잡는다.

(2) RL Finetuning on Assembly. 조립 CAD를 assembly-by-disassembly로 뒤집어 목표 시퀀스를 만든다. 부품 p^i의 fixture f^i 안 상대변환 \bm{T}^{f}_{p}가 CAD에 주어지므로, 현재 fixture 자세 \bm{f}_t^i에 대해 최종 목표를 \bm{g}^i_M = \bm{f}^i_t\, \bm{T}^{f}_{p} 로 계산하고(픽스처 위치 무작위화에 불변), 삽입 직전 pre-insertion pose나 스크류 나사선 90^\circ 간격 같은 소수의 sparse 중간 접촉 목표를 붙인다. 파인튜닝 보상은 grasp·lift·정렬 등 shaping을 모두 제거하고 r_t = r_{\mathrm{smooth}} + r_{\mathrm{goal}}의 sparse bonus만 남긴다 — 접근·파지·정렬은 전부 play prior에서 물려받아야 한다.

주요 결과:

표본 효율. dense·multi-stage 보상을 받은 scratch조차 4개 조립 태스크에서 24시간 뒤에도 성공 rollout이 0인 반면, Play2Perfect는 2–5시간에 높은 성공률에 도달. 단순화한 fixtured 태스크에서 scratch(dense)는 near-perfect까지 100시간+가 필요하지만 Play2Perfect는 4시간 → 33배 가속.
강건성. scratch(dense)가 배운 전략은 물체를 엄지로 “균형 잡는” brittle한 편법이라 10 N 외력에서 성공률 $$20%, 더 큰 외력엔 0%. Play2Perfect는 가장 큰 외력에서도 75%+ 유지.
정밀도(파인튜닝의 필요성). 파인튜닝 없는 Play-only는 sim에서 40 mm 여유에 75%지만 4 mm에서 거의 0%. Play2Perfect는 4 mm 95%, 1 mm 92%, 학습 분포보다 tight한 0.2 mm에서도 80%.
Sim-to-real(zero-shot). Tight-Insertion 10 mm 10/10, 2 mm 9/10, 0.5 mm 6/10. Assemble-Beam Step1 8/10·Step2 7/10, Screw-Leg 삽입 7/10·스크류 5/10. 완료 시간은 접근·파지·운반·접촉까지 포함해 6.8–15.6초.

결론: 여러 ablation을 관통하는 하나의 교훈 — play 사전학습은 “물체를 집어 옮기는” 것을 배우는 게 아니라 손가락으로 정밀한 6D in-hand 제어를 배우게 만들 때 조립으로 가장 잘 전이된다. 고정 파지로 팔만 움직이는 play는 쓸모가 적다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한 줄로 시작하면

“조립을 완벽히 하기(Perfect) 전에 먼저 놀아라(Play)” — 태스크에 무지한 dexterous play prior를 RL로 사전학습하고, 그것을 sparse-reward RL로 정밀 조립에 특화하는 2단계 레시피이자, 그 레시피의 어떤 설계 선택이 전이에 중요한가에 대한 체계적 연구다.

배경: 왜 다지 손 정밀 조립이 어려운가

사람 손 수준의 속도·손재주를 노리는 다지 손 로봇은 많은 자유도를 접촉을 통해 제어해야 해서, 정밀 조립 같은 영역이 현행 로봇 학습의 사각지대로 남아 있었다. 저자들은 두 갈래의 벽을 지적한다.

Imitation learning 쪽: 조립은 contact-rich라 원격조작이 어렵다. 조작자와 로봇의 embodiment gap, 촉각 피드백 부재 때문에 접촉 많은 태스크의 고품질 시연 수집이 힘들다. 그래서 대부분의 다지 손 IL은 정밀도가 낮은 pick-and-place에 머물러 있다.
Reinforcement learning 쪽: 조립 보상은 부품의 최종 자세로만 정의되는 sparse-reward다. 무작위 정책에서 출발한 에이전트는 grasp → in-hand reorientation → 정렬 → 접촉 삽입을 모두 우연히 발견해야 첫 보상을 받는다. dense reward shaping이 필요한 sim-to-real RL이 여기서 막힌다.

기존 진전은 문제를 “구조화”해서 얻어졌다 — 커스텀 픽스처로 파지·삽입을 단순화하거나, 전용 툴·엔드이펙터로 제어를 쉽게 만들거나, 병렬 그리퍼로 원격조작을 가능케 해 IL·RL 파인튜닝을 붙이는 식이다. 그러나 이들은 조립마다 하드웨어·환경 엔지니어링을 요구하고, 병렬 그리퍼는 속도·손재주를 제한한다. Play2Perfect는 이 구조화 대신 일반적 play prior를 심어 탐색 문제를 우회한다.

여기서 “play로부터 학습”이라는 개념 자체는 새롭지 않다(MimicPlay, Learning latent plans from play 등). 다만 그 레시피의 무엇이 정밀 조립 파인튜닝에 중요한지는 불분명했고, 이 논문의 기여는 바로 그 질문에 답하는 데 있다.

방법 상세

1. Dexterous Play Pretraining — 4가지 설계 축

play는 goal-conditioned RL 문제로 세워진다. 저자들은 “무엇이 중요한가”를 네 축으로 나눠 설계한다(Fig. 2).

Play 사전학습의 네 축(Fig. 2) — Object Diversity(다양한 primitive 물체), Training Objective(6D pose 도달 + 성공 판정 \mathbb{I}[d(\bm{o}_t,\bm{g}_t)<\epsilon]), Trajectory Diversity(무작위 goal 궤적), Goal Precision(작은 임계치 \epsilon).

Object Diversity. cuboid·cylinder(정확히는 두 개의 cuboid/capsule primitive를 강체 결합) primitive를 절차적으로 생성한다. 주 성분 길이·단면은 [5,30] cm, 부 성분은 길이 [1,15] cm에서 샘플링하고, 밀도를 성분별로 무작위화([300,600]·[300,2000]\,\mathrm{kg/m^3})해 무게중심·관성을 흔든다. 단일 기하·질량에 묶이지 않는 제어 전략을 강제하려는 것.
Training Objective. 물체를 6D 목표 자세들의 시퀀스로 옮기게 한다. 첫 목표는 grasp+lift, 이후는 손 안에서의 자세 제어. translation은 작업공간 이동을, rotation은 in-hand reorientation을 가르친다. 기본은 keypoint 기반 6D 자세 거리 d_{\mathrm{pose}}를 쓴다.
Trajectory Diversity. 고정 궤적이 아니라 매 에피소드 goal 시퀀스를 무작위 생성한다. 첫 목표는 작업공간에서 넓게, 이후 목표는 이전 목표 근처에서 큰 회전(\le 90^\circ)·작은 이동(\le 0.1 m)으로 샘플링 → 고정 파지의 팔 이동이 아니라 반복적 in-hand reorientation을 유도.
Goal Precision. 성공 임계치 \epsilon(기본 1 cm)이 학습 정밀도를 조절한다. 작을수록 in-hand로 자세를 정밀 제어해야 해 tight-clearance 조립에 맞는 prior가 생긴다.

Keypoint 기반 자세 표현(핵심 수식). 각 6D 자세를 물체 국소 프레임의 4개 keypoint로 표현한다. dim \mathbf{s}=[s_x,s_y,s_z]에 대해 \mathcal{K}(\mathbf{s}) = \left\{ \big[\tfrac{s_x}{2},\tfrac{s_y}{2},\tfrac{s_z}{2}\big],\ \big[\tfrac{s_x}{2},-\tfrac{s_y}{2},-\tfrac{s_z}{2}\big],\ \big[-\tfrac{s_x}{2},\tfrac{s_y}{2},-\tfrac{s_z}{2}\big],\ \big[-\tfrac{s_x}{2},-\tfrac{s_y}{2},\tfrac{s_z}{2}\big] \right\} 각 keypoint를 \mathbf{o}_i = R_o \mathbf{k}_i + \mathbf{t}_o로 world에 옮긴 뒤 거리 d(o,g) = \max_i \lVert \mathbf{o}_i - \mathbf{g}_i \rVert_2 로 translation·rotation을 하나의 스칼라로 합친다. 관측용 keypoint는 물체의 실제 dim으로, 보상 계산용은 고정 dim \mathbf{s}^{\mathrm{rew}}=[0.14,0.03,0.03] m로 정의해 물체마다 translation/rotation trade-off를 일정하게 유지한다.

보상 항. grasp 전엔 fingertip 접근·lift를, grasp 후(\mathbb{I}_{\mathrm{grasped}}=1, 10 cm 들어올리면 켜짐)엔 현재 6D 목표로의 진전을 보상한다. r_{\mathrm{goal}} = \lambda_{\mathrm{goal}} \max\!\big(d^{*} - d(o_t,g_t),\ 0\big) + B_{\mathrm{succ}}\,\mathbb{I}[d(o_t,g_t)<\epsilon] d^{*}는 현재 목표가 샘플링된 이후 도달한 최소 거리다(potential-based 형태). B_{\mathrm{succ}}=1000의 큰 sparse bonus로 목표를 “찍고” 다음 목표로 넘어간다.

2. RL Finetuning on Assembly — CAD에서 sparse 보상 뽑기

Assembly-by-Disassembly(Fig. 3) — 완성된 CAD 조립에서 부품을 순차 제거해 disassembly 순서를 만들고, 그것을 뒤집어 조립 단계별 sparse 목표 시퀀스(최종 조립 자세 + pre-insert 같은 중간 접촉 목표)를 얻는다.

각 조립 태스크는 CAD의 K개 강체 부품 \mathcal{A}=\{p^i\}_{i=1}^K와 최종 자세로 정의된다. assembly-by-disassembly로 제거 가능한 부품 순서를 찾아 뒤집으면 조립 시퀀스가 되고, 각 단계는 이미 조립된 부품이 만드는 fixture f^i에 부품 p^i를 삽입하는 문제가 된다. 각 단계를 부품·fixture 자세를 무작위화한 RL 환경으로 인스턴스화한다.

Sparse 보상. CAD가 주는 상대변환 \bm{T}^{f}_{p}로 최종 목표 \bm{g}^i_M = \bm{f}^i_t \bm{T}^{f}_{p}를 계산(fixture 무작위 배치에 불변). insertion엔 접촉 시작점의 정렬된 pre-insertion 자세를, screwing엔 나사선 따라 90^\circ 간격 목표를 붙인다.
shaping 제거. 파인튜닝 보상은 r_t = r_{\mathrm{smooth}} + r_{\mathrm{goal}}로, grasp·lift·pose-progress 보상을 전부 뺀 sparse만 남긴다. 중간 목표를 \epsilon=1 cm 안에 넣으면 다음 목표로 전진, 최종 목표 도달이 성공. 최종 목표엔 손을 떼고 물러나는 retraction bonus를 더해(팔 palm이 물체에서 0.2 m 이상 떨어지면) 손으로 계속 붙잡아 자세를 유지하는 편법을 막는다.
접촉 기하. 대부분 geometry는 convex decomposition으로 근사하지만, 이는 좁은 구멍·결합면의 유효 여유를 왜곡한다. 그래서 접촉이 결정적인 구멍·삽입부만 해상도 256의 signed distance field(SDF)로 표현하는 hybrid 방식으로 정밀 충돌 기하를 확보하면서 메모리를 아낀다.

3. 학습·Sim-to-Real 세부

알고리즘. play·finetuning 모두 SAPG(Split and Aggregate Policy Gradients, PPO의 population 기반 변형)로 학습. 선행 연구가 dexterous play에서 PPO보다 낫다고 본 방법이다. Actor는 LSTM[1024]+MLP로 interaction history를 통합해 미관측 물체 속성을 추론하고, asymmetric actor–critic으로 critic만 privileged 정보(무노이즈·무지연 관측, 속도, progress feature)를 본다.
하드웨어. 22-DoF Sharpa 5지 손 + 7-DoF KUKA iiwa 14 팔(총 29 DoF). 정책은 140차원 관측을 받아 29개 관절 위치 명령 출력(팔은 delta, 손은 absolute).
자원. IsaacSim, 단일 NVIDIA RTX A6000. 물리 120 Hz·정책 60 Hz. play 사전학습은 24,576 병렬 env로 7일, 조립 파인튜닝은 12,228 env로 1일(접촉 모델링이 메모리를 더 써 env 수를 줄임).
Domain randomization. action latency, proprioception 지연, 현재·목표 물체 자세 노이즈, 물체 dim scale, 테이블 높이, 외력/외토크(20 N·2 N·m)까지 무작위화.
실세계 인지. 배포 시 CAD 메시를 재사용해 FoundationPose로 부품·fixture의 6D 자세를 추적한다. 정책은 60 Hz closed-loop, 자세 추적은 30 Hz. 별도의 scripted 삽입·스크류·복구 컨트롤러는 쓰지 않는다.

직관: play가 왜 조립 탐색을 푸는가

sparse-reward 조립의 본질적 난점은 “첫 보상까지의 거리”다. 무작위 정책은 grasp→reorient→정렬→삽입을 모두 우연히 엮어야 신호를 처음 본다. play prior는 이 사슬의 앞부분(안정적 파지, 손 안 6D 자세 제어)을 이미 능숙하게 만들어, 파인튜닝이 마지막 접촉·정렬 상호작용에만 탐색을 집중하게 한다. 저자들의 표현으로는, prior가 “탐색을 성공에 필요한 최종 contact-rich 상호작용으로 좁힌다”. 그리고 왜 하필 in-hand 제어가 중요한가 — 고정 파지로 팔만 움직이는 skill은 조립의 정렬·재파지·나사 회전에 필요한 손가락 수준 미세 제어를 담고 있지 않기 때문이다. 이것이 모든 ablation을 관통하는 핵심 직관이다.

실험

네 질문으로 구성된다: ① dense 보상이 play를 대체할 수 있나, ② play의 어떤 설계가 중요한가, ③ 정밀 조립에 RL 파인튜닝이 꼭 필요한가, ④ 실세계로 전이되나. 태스크는 Tight-Insertion(T-peg), Assemble-Beam(Fabrica 기반 다부품 빔), Screw-Leg(FurnitureBench 기반 가구 다리 스크류). 원 부품이 병렬 그리퍼용으로 작아, 다지 손과 시각 추적에 맞게 3배 크기로 3D 프린트했다. 지표는 성공률(최종 자세를 \epsilon=1 cm 안에 도달)과 완료 시간이며, sim은 500 rollout, real은 각 10 rollout.

4.1 Dense 보상이 play를 대체할 수 있나 — 아니오

학습 효율(Fig. 4) — 네 조립 태스크에서 Play2Perfect는 공유 prior로부터 2–5시간에 높은 성공률에 도달. scratch는 sparse든 dense든 24시간 뒤에도 진전 0.

네 태스크 모두에서 두 scratch baseline(sparse·dense)은 24시간 뒤에도 성공 rollout이 없다. 단순화한 Tight-Insertion(Fixtured) 태스크(T-peg를 픽스처에 세워 시작)에서만 scratch가 학습 가능해지는데, 그마저 scratch(dense)는 near-perfect까지 100시간+가 필요하고 Play2Perfect는 4시간 → 33배 가속.

강건성(Fig. 5) — (좌) 33배 빠른 학습, (중) scratch(dense)는 엄지로 균형 잡는 편법을 배워 파지가 불안정, Play2Perfect는 여러 손가락으로 안정 파지, (우) 외력 섭동에 대한 성공률: scratch는 급락, Play2Perfect는 유지.

더 중요한 건 학습된 전략의 질이다. scratch(dense)는 물체를 엄지로 “균형 잡는” brittle한 편법을 배워, 10 N 외력에서 성공률 $$20%, 더 큰 외력엔 0%로 무너진다. Play2Perfect는 가장 큰 섭동에서도 75%+를 유지한다. 즉 play prior는 단지 빠를 뿐 아니라 더 강건한 파지·복구 전략을 심는다.

4.2 어떤 설계 선택이 중요한가

Ablation(Fig. 6) — 네 태스크·세 시드 평균 다운스트림 성공률. Object Diversity·6D Objective·Trajectory Diversity·Goal Precision 네 축 모두 전이에 영향을 주며, 파란 곡선(기본값)이 가장 빠르고 높다.

Object Diversity(10/100/1000). 다양성이 전이를 개선하지만 diminishing returns — 100과 1000은 학습 속도·최종 성능이 비슷해, 이 다운스트림엔 “적당히 다양한” 물체 집합이면 충분.
Training Objective(6D vs Translation-only vs Rotation-only). 방향 제어가 결정적. Translation-only는 grasp·lift만 배우고 in-hand reorientation prior를 못 만들어 조립에 실패한다. Rotation-only는 전이가 꽤 좋지만 full 6D보다 약간 느린데, translation과 reorientation을 결합해 연습할 기회가 적어서로 해석.
Trajectory Diversity(random vs 고정 10/100). 고정 10·100은 비슷하고, online 무작위 궤적이 가장 빠르다 — 목표 자세 전이의 넓은 커버리지가 다운스트림 조립 파인튜닝과 더 잘 맞는다.
Goal Precision(1/5/10 cm). 정밀한 목표가 중요. 느슨한 10 cm는 정확한 자세 제어 없이도 만족돼 전이가 안 되고, 5 cm는 결국 배우지만 1 cm보다 느리다. tight-clearance 조립엔 정밀한 play가 맞는 prior를 만든다.

Appendix의 태스크별 결과(Fig. 8)도 같은 결론을 재확인한다: 효과적인 play는 “집어 옮기기”가 아니라 손가락 기반 정밀 6D 물체 제어를 배우는 것.

4.3 정밀 조립에 파인튜닝이 필요한가 — 그렇다

Tight Insertion(Fig. 7) — Play2Perfect vs 얼린 Play-only. (좌) 느슨한 여유는 둘 다 성공하나 tight 여유는 Play2Perfect만 성공. (우 상) sim에서 여유가 좁아져도 Play2Perfect는 강건, Play-only는 급락. (우 하) real도 동일 추세.

파인튜닝 없는 Play-only는 가장 느슨한 삽입만 푼다. sim에서 40 mm 여유 75% → 4 mm에서 거의 0%. Play2Perfect는 정밀도가 올라가도 4 mm 95%, 1 mm 92%, 학습 분포보다 tight한 0.2 mm에서도 80%. real도 같아서 10 mm에서 P2P 100% vs Play-only 60%, 2 mm 90% vs 20%, 0.5 mm 60% vs 0%. 정성적으로 Play-only는 목표로 직진하며 접촉을 방해로 취급하는 반면, Play2Perfect는 구멍 근처를 국소 탐색하고 접촉 하에 보정 동작을 하다가 정렬되면 삽입에 커밋한다. 즉 play는 유용한 파지·재배향을 주지만, prior를 정밀 조립 정책으로 바꾸려면 파인튜닝이 필수다.

4.4 Sim-to-Real (zero-shot)

FoundationPose로 자세를 추적하며 real-world 파인튜닝 없이 배포한다. Tight-Insertion 10 mm 10/10, 2 mm 9/10, 0.5 mm 6/10. Assemble-Beam Step1 8/10·Step2 7/10(각 평균 7초 이내). Screw-Leg 삽입 7/10·전체 스크류 5/10(성공 시 15.6\pm2.9초). 완료 시간은 홈 자세에서의 접근·파지·재배향·운반·최종 접촉까지 포함하며, 이 빠른 실행은 다지 손 조립의 이점과 RL이 효율적 조작 전략을 발견함을 보여준다. Appendix의 정성 분석에 따르면 정책은 드롭 후 재파지, 접촉 하 국소 탐색, 손 안에서 다리를 직접 회전시키는 스크류잉 같은 closed-loop 복구 행동을 별도 스크립트 없이 낸다 — 병렬 그리퍼라면 재배치·재파지나 팔 전체 회전이 필요했을 동작들이다. 실패는 대부분 최종 접촉 국면에서 가림에 의한 인지 저하·접촉 동역학의 sim-to-real 불일치로 발생한다.

보조: claude-curio 독립 재현 (offline eval)

⚙️ 이 블록은 저자 결과가 아니라 claude-curio가 공개 체크포인트로 수행한 독립 재현이다(RTX 5090, 256 병렬 env, headless offline evaluation). 논문의 sim-to-real 표(각 태스크 n=10)와 성격이 다르므로 주장과 구분해 읽는다.

공개된 체크포인트로 sim 내에서 각 태스크를 수백 회 rollout해 성공률을 측정했다.

태스크	재현 성공률 (offline, sim)	논문 real (n=10)
Tight insertion (L-peg, 0.5 mm)	96.9% (n≈229)	60% (6/10)
Beam assembly step 1	98.8% (n≈241)	80% (8/10)
Beam assembly step 2	93.6% (n≈220)	(미제시)
Screwing	65.0% (n≈254)	50% (5/10)

해석(논문 폄하 아님). 태스크 간 난이도 순위는 논문과 일치한다 — screwing이 가장 어렵고 삽입·빔 조립이 쉽다. 이 정성적 순위가 재현됐다는 것이 가장 의미 있는 신호다. 반면 절대 성공률이 전반적으로 높게 나온 것은 성능 우위로 읽으면 안 되고, (a) 논문의 n=10은 노이즈가 큰 점추정(이항 표준편차 \approx 13%p)이라 넓은 신뢰구간을 갖고, (b) 공개 체크포인트가 저자 best run일 가능성, (c) offline eval의 초기 자세 분포·판정 tolerance가 실기(sim-to-real)와 다르다는 점으로 설명된다. 무엇보다 이 수치는 sim 내 policy 성공률일 뿐, 논문 real 표가 감내하는 인지 오차·접촉 동역학 갭·가림이 빠져 있다. 물리 clearance ablation(0.5/2/10 mm)은 공개 체크포인트가 L-peg 하나뿐이라 재현 범위 밖이었다.

요컨대 이 재현은 “prior→파인튜닝 정책이 sim 안에서 논문과 같은 난이도 구조로 동작한다”를 확인해줄 뿐, 논문의 핵심 기여인 sim-to-real·33× 표본효율·play prior 설계 교훈을 대체하거나 반박하지 않는다.

비판적으로 보면

강점

문제 재구성의 명쾌함. “sparse-reward 조립 탐색”을 “play prior + 좁은 파인튜닝”으로 분해한 것은 개념적으로 깔끔하고, dense·multi-stage 보상을 준 scratch를 상대로 33배·강건성 우위를 보인 비교가 설득력 있다. baseline에 오히려 유리한 dense reward를 준 점이 공정성을 높인다.
“무엇이 중요한가”의 체계적 ablation. 네 축을 각각 통제해 바꾸고, 태스크별(Fig. 8)까지 재확인해 “in-hand 정밀 6D 제어”라는 단일 교훈으로 수렴시킨 서술이 이 논문의 실질적 기여다. 단순 SOTA 주장보다 이식 가능한 통찰을 준다.
까다로운 sim-to-real 증거. 0.5 mm 여유의 zero-shot 삽입 60%, 스크류잉·다부품 조립까지 스크립트 없는 closed-loop로 해낸 것은 다지 손 정밀 조립에서 드문 결과다. hybrid SDF(접촉부만 고해상도)나 retraction bonus 같은 세부 설계가 실전 감각을 보여준다.

약점·한계

단기 skill, 외부 지정 의존. 저자도 인정하듯 태스크 시퀀싱·능동 부품 선택·목표 자세가 모두 외부에서 주어지고, 정책은 태스크/벤치마크 계열별로 파인튜닝된다. 완전 자율 조립 파이프라인이 아니라 “짧은 조립 skill”의 학습이다.
인지 병목. 실세계 성능이 FoundationPose의 6D 추정에 크게 의존한다. 빠른 움직임·가림·시각적 유사 물체에서 추적이 흔들리고, 스크류-leg의 근사 90^\circ 대칭은 회전 방향 오인을 유발해 색 테이프로 대칭을 깨야 했다. 정책은 목표 자세 외의 fixture·주변 기하를 직접 관측하지 않아 scene-awareness가 없다(저자가 향후 visual·tactile 관측을 제안).
자원 비용의 비대칭. play 사전학습에 24,576 env·7일이 드는데, 이 prior가 새로운 손·팔 embodiment나 크게 다른 물체군에 얼마나 재사용되는지는 이 논문 범위 밖이다. “한 번 학습해 여러 조립에 재사용”의 이점이 sim에서 3배 확대·정렬된 CAD 부품에 국한된 셋업에서 얼마나 일반화될지는 열려 있다.
접촉 sim-to-real 갭. real 픽스처가 폼 위에 테이프로 고정돼 접촉 하에 움직이는데 sim은 강체·고정이라, 보정 동작이 예상 상대운동을 못 내는 실패가 sim에선 결코 관측되지 않는다. 접촉 동역학 모델링이 여전히 성능 상한을 쥐고 있다.

요약

Play2Perfect의 메시지는 방법이 아니라 레시피의 해부에 있다. 정밀 조립을 직접 RL로 푸는 대신, 다양한 물체를 무작위 6D 목표로 옮기는 play를 대규모 병렬 RL로 사전학습하면, 그 prior가 sparse-reward 파인튜닝을 성공에 필요한 최종 접촉 상호작용으로 좁혀준다. dense·multi-stage 보상을 준 scratch보다 33배 효율적이고, 0.5 mm 여유 삽입 60%·다부품 조립·스크류잉을 zero-shot으로 해낸다. 그리고 모든 ablation이 하나로 수렴한다 — 고정 파지의 팔 이동이 아니라 손가락 기반 정밀 6D in-hand 제어를 강제하는 play가 조립으로 가장 잘 전이된다. 자율 시퀀싱·인지 강건성·접촉 sim-to-real은 남은 숙제지만, “완벽히 하기 전에 놀아라”는 재구성은 다지 손 정밀 조작의 탐색 문제에 실용적인 지렛대를 제공한다.