📃HandelBot 리뷰

dexterity

sim2real

Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

Published

March 22, 2026

🎹 HandelBot은 sim-to-real gap으로 인해 정밀한 실제 환경 dexterity가 어려운 bimanual piano playing을 위한 최초의 학습 기반 시스템입니다.
✨ 이 시스템은 시뮬레이션으로 훈련된 정책을 real-world data로 빠르게 적응시키기 위해, 먼저 structured trajectory refinement로 공간 정렬을 수정하고 이어서 residual reinforcement learning으로 미세한 corrective action을 학습하는 2단계 파이프라인을 사용합니다.
✅ HandelBot은 5곡의 다양한 곡에서 성공적인 real-world execution을 달성하며, 단 30분 미만의 물리적 상호작용 데이터만으로 직접적인 시뮬레이션 배포보다 1.8배 뛰어난 성능을 입증했습니다.

🔍 Ping Review

🔍 Ping — A light tap on the surface. Get the gist in seconds.

HandelBot 논문은 다지(multi-fingered) 로봇 손을 이용한 정교한 현실 세계 피아노 연주라는 난제를 해결하기 위한 프레임워크를 제안합니다. 이 작업은 시뮬레이션에서 훈련된 정책(\pi_{sim})이 밀리미터 규모의 정밀도를 요구하는 태스크에서 현실 세계로 직접 배포될 때 발생하는 심-투-리얼(sim-to-real) 갭으로 인한 실패를 극복하는 데 중점을 둡니다.

Figure 1: HandelBot 전체 방법론. (0) 시뮬레이션에서의 RL로 coarse base policy \pi_{sim}과 open-loop rollout \tau_{sim}을 얻고, (1) Policy Refinement로 손가락의 측면 관절을 반복적으로 보정해 \tau^*_{sim}을 만든 뒤, (2) MIDI 보상을 이용한 Residual RL로 정책을 더욱 미세 조정합니다.

I. 서론 및 배경

기존의 로봇 피아노 연주 시스템은 전용 하드웨어와 수작업으로 제어되는 컨트롤러에 의존했습니다. 최근의 학습 기반 접근 방식은 범용 로봇 하드웨어를 사용하여 시뮬레이션에서 인상적인 dexterous 피아노 연주를 달성했지만, 현실 세계로의 심-투-리얼 전송은 여전히 미개척 분야였습니다. HandelBot은 이러한 간극을 메우며, 특히 양손(bimanual) 피아노 연주에 초점을 맞춥니다. 이 시스템은 시뮬레이션에서의 강력한 사전 훈련(pretraining)과 현실 세계에서의 residual reinforcement learning을 결합하여 복잡한 양손 피아노 연주를 가능하게 합니다.

II. HandelBot 핵심 방법론

HandelBot은 시뮬레이션 훈련된 정책을 현실 세계 피아노 연주에 적용하기 위해 두 단계의 프로세스를 따릅니다.

A. 시뮬레이션에서의 강화 학습 (RL in Simulation)

첫 번째 단계는 시뮬레이션 환경에서 핵심 피아노 연주 동작을 학습하는 것입니다.

보상 설계 (Reward Design): RoboPianist[1]의 설계를 따르며, 목표 노트를 연주하는 것에 대한 key press reward, 올바른 건반 근처에 있는 것에 대한 dense fingering reward, 그리고 energy penalty로 구성됩니다. Appendix에서는 Key Press reward가 0.7 \cdot \left(\frac{1}{K}\sum_{i} g(||k^s_i - 1||^2)\right) + 0.3 \cdot (1 - \mathbf{1}_{\{\text{false positive}\}})와 같이 변형되어, 잘못된 키를 누르는 것이 거의 불가피한 현실 환경의 특성을 반영했습니다.
관측 및 행동 공간 (Observations and Actions): 로봇 고유수용성(proprioception), 현재 피아노 활성화, 목표 피아노 활성화, 활성화된 손가락 등이 관측 공간에 포함됩니다. 행동 공간은 delta joint positions으로, 로봇 손의 저수준 제어 명령을 나타냅니다. 특히 Tesollo DG-5F 손의 경우, 마지막 joint angle을 1 라디안으로 고정하여 action space를 줄이고 손가락 끝으로 건반을 누르도록 유도합니다. 손목 궤적(wrist trajectory)은 악보를 기반으로 스크립트되며, 여러 노트가 동시에 발생할 경우 평균 Y 위치와 최소 X 위치를 사용하여 집계됩니다.
정책 학습: 빠르고 병렬적인 롤아웃과 dense reward 신호를 활용하여 PPO [68] 알고리즘으로 정책 \pi_{sim}을 훈련합니다. 이 \pi_{sim}은 시뮬레이션에서 강력한 성능을 보이지만, 현실 세계에서는 컨트롤러 및 피아노 건반 누르기 dynamics의 불일치로 인해 성능 저하가 발생합니다.

B. 정책 정제 (Policy Refinement)

Residual RL을 실행하기 전에, 현실 세계에서 경량화된 정책 정제 절차를 적용합니다. 이는 시뮬레이션에서 훈련된 \pi_{sim}으로부터 얻은 초기 개방 루프 궤적 \tau^0 = (s^0_0, ..., s^0_T)를 수정하여 \tau^* = (s^*_0, ..., s^*_T)를 생성하는 것을 목표로 합니다.

측면 조인트 보정 (Lateral Joint Correction): 도메인 지식(건반 기하학, 손의 kinematics)을 활용하여 일관된 측면 편향(lateral biases)과 접촉 오정렬(contact misalignments)을 수정합니다.
- \pi_{sim}을 현실 로봇에서 개방 루프(open-loop) 방식으로 실행하고, 각 시간 단계 t에서 (i) 목표 노트 및 해당 손가락, (ii) 실제로 눌린 건반 세트 K_{press_t}를 기록합니다.
- 각 손가락에 대해 목표에 가장 가까운 눌린 건반 k_{press_t}를 식별합니다. 만약 k_{press_t}가 목표 k_{target_t}와 다르다면, 방향성 오차(signed directional error)를 계산합니다: \Delta_t = \begin{cases} +\delta & \text{if } k_{press_t} < k_{target_t} \\ -\delta & \text{if } k_{press_t} > k_{target_t} \\ 0 & \text{otherwise} \end{cases} 여기서 \delta는 측면 손가락 조인트 조정량을 제어하는 step size입니다.
반복적 업데이트 (Iterative Updates): 이 보정 절차는 궤적 실행과 업데이트를 번갈아 가며 반복적으로 적용됩니다. \delta는 초기에는 큰 값으로 설정하고, 매 반복마다 점진적으로 감소(annealing)시켜 진동을 피하고 부드러운 수렴을 돕습니다. 인접 손가락에 0.3\Delta_t와 같은 작은 보정 항을 추가하여 공간적 분리(spatial separation)를 장려합니다. 여러 건반이 눌릴 경우, 왼쪽의 활성 손가락은 낮은 음의 건반을 누르고, 오른쪽의 활성 손가락은 높은 음의 건반을 누른다고 가정합니다.
청크 단위 업데이트 (Chunked Updates): 업데이트는 매 시간 단계가 아닌, 길이 K의 temporal chunks 단위로 수행됩니다. 이는 동작의 부드러움을 위해, 손가락 끝 오차를 t+K+L까지 고려하여 anticipatory spatial adjustments를 촉진합니다. $\Delta_{chunk_t}$ 는 다음과 같이 계산됩니다: \Delta_{chunk_t} = \frac{1}{K+L} \sum_{j=t}^{t+K+L} \Delta_j 이 반복 과정의 끝에서, 가장 좋은 F1 점수를 가진 궤적을 정제된 궤적(\tau^*)으로 저장합니다.

C. 현실 세계 잔차 강화 학습 (Real-World Residual Reinforcement Learning)

정책 정제 단계에서 얻은 개방 루프 궤적 s^*_0, ..., s^*_T를 미세 조정하기 위해 residual reinforcement learning 프레임워크를 채택합니다.

잔차 정책 공식화 (Residual Policy Formulation): 잔차 정책 \pi_{res}는 기본 행동에 대한 부가적인 보정(additive correction)을 출력합니다: \hat{s}_{t+1} = \pi_{res}(o_t) + s^*_{t+1} 여기서 o_t는 시간 t의 현실 세계 관측값이고, s^*_{t+1}은 개방 루프 궤적의 다음 상태를 나타냅니다. \pi_{res}의 출력은 작은 섭동(perturbations)으로 제한되어 더 안전한 탐색과 빠른 학습을 가능하게 합니다.
잔차 RL 목표 (Residual RL Objective): 현실 세계에서는 피아노의 MIDI 출력에서 파생된 key press reward 신호만 사용합니다 (시뮬레이션에서 사용된 것과 동일). \pi_{res}는 현실 세계 dynamics 하에서 기대 보상을 최대화하도록 강화 학습을 통해 훈련됩니다.
유도 잡음 (Guided Noise): TD3 [65] 알고리즘을 사용하며, 샘플링된 행동에 잡음 항을 추가합니다. 특히, 정책 정제에서 사용된 측면 조정을 모티브로, 잡음 $\epsilon \sim \mathcal{N}(0,1)$ 의 방향을 올바른 측면 움직임의 방향으로 유도합니다. 확률 Pr(\text{guided noise}) = 0.5로, 해당 측면 조인트의 잡음 부호가 \Delta_t와 동일한 부호가 되도록 변경하여 $\hat{\epsilon}$ 을 생성합니다. 최종 행동은 a = \mu_\theta(o) + \text{clip}(\hat{\epsilon}, -0.5, 0.5)가 됩니다. 이는 탐색을 올바른 건반을 누르는 방향으로 유도하는 경량 휴리스틱입니다.

III. 실험 결과

HandelBot은 5개의 다양한 곡(Twinkle Twinkle, Ode to Joy, Hot Cross Buns, Fur Elise, Prelude in C)에 대해 양손 로봇 시스템으로 평가되었습니다.

하드웨어 설정: Tesollo DG-5F 손과 Franka Emika Panda 암 및 FR3 암을 사용합니다. MIDI 키보드를 통해 어떤 노트가 눌렸는지 감지하여 보상 계산에 활용합니다.
안전 및 배포: PyRoki [67]를 사용하여 안전 레이어를 추가하고, 정책 행동은 10Hz에서 생성된 후 80Hz로 선형 보간됩니다. 암은 Polymetis 컨트롤러를 사용하여 100Hz로 제어됩니다.
주요 결과 (Fig. 4): HandelBot은 모든 평가된 음악에서 일관적으로 가장 높은 F1 점수를 달성했습니다. 시뮬레이션 데이터만 사용하는 방법(예: \pi_{sim}(CL) 및 \pi_{sim})은 심-투-리얼 갭으로 인해 성능이 현저히 낮았습니다. policy refinement는 손가락 누름을 올바른 목표 키에 직접 정렬하는 데 효과적이며, residual RL은 오류를 해결하고 물리적 dynamics에 적응하여 성능을 크게 향상시켰습니다.
잔차 RL의 중요성 (Table I, II): 초기화된 궤적(refined trajectory > \pi_{sim} > no initialization) 위에 residual RL을 학습하는 것이 더 높은 F1 점수로 이어진다는 것을 보여주었습니다. 이는 정제된 정책이 탐색 공간을 줄여 더 안정적이고 효율적인 훈련으로 이어진다는 가설을 뒷받침합니다. RL discount factor \gamma가 낮으면 F1 점수가 낮아지고 움직임이 불규칙해집니다. guided noise는 default 설정(Pr(\text{guided noise}) = 0.5)이 Pr(guided noise) = 0과 유사했지만, 항상 guided noise를 샘플링하는 것은 성능 저하로 이어졌는데, 이는 손가락 탐색이 편향되어 최적이 아닌 데이터로부터의 학습을 방해하기 때문으로 추정됩니다.
폐쇄 루프 Sim-to-Real (Table I): 하이브리드 실행(hybrid execution)은 시뮬레이션 환경을 현실 환경과 병렬로 실행하여 시뮬레이션 관측을 사용함으로써 심-투-리얼 갭을 완화하는 방식입니다. 하이브리드 실행이 직접 전송보다 개선을 보였지만, 현실 세계 데이터를 활용하는 HandelBot 및 다른 방법들과는 여전히 성능 차이가 컸습니다.

IV. 결론 및 한계

HandelBot은 시뮬레이션에서의 강화 학습, 정책 정제, 그리고 잔차 강화 학습을 통해 로봇 피아노 연주의 극도의 정밀도 요구 사항을 해결합니다. 이 방법은 취약하고 불완전한 시뮬레이션 정책을 단 30분이라는 적은 양의 현실 세계 데이터를 사용하여 훨씬 견고한 피아노 연주 로봇으로 변환할 수 있음을 보여줍니다.

한계점:

HandelBot은 스크립트된 end-effector 움직임과 고정된 orientation에 의존하여 매번 수동 튜닝이 필요합니다. End-effector 움직임에 대한 residual RL은 이 문제를 줄일 수 있을 것입니다.
이러한 제약으로 인해 엄지손가락과 새끼손가락의 사용이 어려워져 비교적 간단한 곡으로만 평가가 이루어졌습니다. 향후 작업에서는 더 복잡한 곡을 위해 회전 또는 학습된 움직임을 탐색할 수 있습니다.
정책 정제 단계는 인간이 가이드하는 휴리스틱에 의존합니다. 이는 피아노 연주에는 적합하지만, 다른 태스크에는 직접 적용하기 어려울 수 있습니다. 그러나 비전-언어 모델(vision-language models)과 같은 대규모 모델을 통해 다른 태스크에서도 정책 정제가 가능할 수 있습니다.

🔔 Ring Review

🔔 Ring — An idea that echoes. Grasp the core and its value.

한 줄 요약

시뮬레이션에서 잘 학습된 정책을 그대로 실로봇에 올리면 손가락이 옆 건반을 친다. HandelBot은 30분짜리 실세계 데이터를 두 단계(휴리스틱 측면 관절 보정 + Residual TD3)로 활용해 이 문제를 해결한다. F1 점수가 직접 sim-to-real 대비 약 1.8배 향상되고, Tesollo DG-5F 양손 + Franka 두 대 구성으로 5곡(Twinkle Twinkle, Ode to Joy, Hot Cross Buns, Prelude in C, Fur Elise)을 연주한다. “비싼 RL은 시뮬에 맡기고, 비싼 실세계 데이터는 정확히 필요한 곳에만 쓴다”라는 사고가 핵심이다.

왜 피아노 연주가 그렇게 어려운가

피아노 한 건반의 폭은 약 23mm 정도다. 거기에 흰 건반과 검은 건반이 섞여 있고, 손가락은 다섯 개씩 두 손으로 따로 움직여야 한다. 이게 무엇을 의미하느냐 (로봇 입장에서) 다음 세 가지 동시 제약이다.

첫째, 공간 정밀도. 손끝이 1cm만 옆으로 흘러도 옆 건반이 눌린다. 정답이 C인데 D를 누르면 점수는 그냥 0이다. 둘째, 시간 정밀도. 음악은 박자다. 100ms 늦으면 청각적으로 다른 음악이 된다. 셋째, 양손 협응. 베이스 라인을 치는 왼손과 멜로디를 치는 오른손이 독립적으로, 그러나 동기화되어 움직여야 한다. 여기에 더해, 손가락이 건반을 누르는 깊이까지 정확히 맞춰야 MIDI가 “이 음이 눌렸다”라고 판정한다.

로봇공학에서 이 정도 정밀도가 동시에 요구되는 과제는 흔치 않다. 큐브 회전 같은 in-hand manipulation은 위치 오차에 비교적 관대하다. 박혀 있는 못을 잡아 빼는 작업은 시간에 둔감하다. 피아노는 둘 다 빡빡하다. 거기다 손가락 다섯 개의 독립 제어가 필요하니, low-dim 큐브 회전보다 차원이 훨씬 높다.

저자들이 사용한 Tesollo DG-5F 핸드는 인간 손보다 명백히 크다(이게 논문에서 직접 언급되는 어려움이다). 큰 손으로 좁은 건반 위에 다섯 손가락을 펴두면, 옆 손가락이 옆 건반에 닿기 직전 상태가 자주 만들어진다. 사람도 손이 크면 옆 음을 잘못 누르는데, 로봇은 그게 매번 일관된 편향(systematic bias)으로 나타난다. 이 관찰이 HandelBot의 Stage 1 설계 동기다.

핵심 통찰: 실세계 30분이 시뮬레이션 100시간을 이긴다

논문이 던지는 메시지를 한 문장으로 압축하면 이렇다. 정밀 dexterous task에서는 시뮬레이터를 아무리 잘 만들어도 잔여 sim-to-real gap이 남고, 그 gap은 소량의 실세계 데이터로만 닫힌다. 그런데 그 소량을 어떻게 효율적으로 쓸 것이냐가 진짜 문제다.

세 가지 선택지가 있다. (a) 처음부터 실세계에서 RL을 돌린다(샘플 효율 끔찍, 시간·하드웨어 마모 큼). (b) 시뮬레이션에서 완벽한 정책을 학습하고 도메인 랜덤화로 robust하게 만든다(고차원 정밀 task에서는 한계가 명확). (c) 시뮬레이션 정책을 시드로 삼고, 실세계 데이터로 잔차만 학습한다(샘플 효율 좋음, 그러나 잔차 RL이 그 자체로 까다로움).

HandelBot은 (c)를 택하되, 잔차 학습 전에 “휴리스틱으로 닫을 수 있는 gap은 휴리스틱으로 닫자”라는 한 단계를 끼워 넣는다. 손가락이 일관되게 왼쪽으로 1cm 치우쳐 있다면, RL이 그걸 발견하기 전에 사람이 “옆으로 1cm 옮겨라”라고 직접 지시할 수 있지 않느냐는 발상이다. 사람의 사전 지식(키보드 기하 + 손가락 운동학)이 적용되는 곳에는 학습을 쓰지 않는다. 학습은 정말 학습이 필요한 곳에만 쓴다.

시스템 개요

flowchart TB
    subgraph SIM["Stage 0: Simulation (ManiSkill)"]
        A["PPO Training<br/>MIDI-based reward"]
        A --> B["Best π_sim selection<br/>via validation F1"]
        B --> C["Open-loop trajectory τ_sim"]
    end

    subgraph REAL["Stage 1: Structured Refinement (real, heuristic)"]
        C --> D["Execute on hardware"]
        D --> E["Compare pressed vs target keys"]
        E --> F["Adjust lateral joints<br/>iteratively"]
        F --> G["Refined trajectory τ*_sim"]
    end

    subgraph RES["Stage 2: Residual RL (real, learned)"]
        G --> H["Residual policy π_res<br/>on top of τ*_sim"]
        H --> I["TD3 with guided noise"]
        I --> J["HandelBot policy"]
    end

    J --> K["10 Hz policy<br/>→ PyRoki IK safety layer<br/>→ 80 Hz hand commands"]

전체 파이프라인은 세 단계로 깔끔하게 분리된다. Stage 0은 시뮬레이션에서 가능한 한 좋은 베이스 정책을 만든다. Stage 1은 그 정책의 결정론적 roll-out을 실세계에서 돌려서, 빗나가는 손가락의 측면 관절(lateral joint)을 휴리스틱으로 보정한다. Stage 2는 정제된 궤적 위에 잔차 RL을 학습해, Stage 1이 못 잡은 미세 보정을 자동으로 학습한다.

Stage 0: 시뮬레이션 정책 학습

Stage 0의 결과물은 두 가지다. 정책 \pi_{sim}, 그리고 그 정책으로부터 추출한 open-loop 궤적 \tau_{sim}. 시뮬레이터는 ManiSkill을 쓴다(병렬 가속 + GPU 친화). 학습 알고리즘은 PPO(공개된 코드 파일명이 piano_ppo_fast.py다).

여기서 흥미로운 디자인 선택이 두 개 있다. 하나는, 학습된 stochastic policy 자체가 아니라, 그 정책으로 시뮬에서 만든 open-loop 궤적을 실세계로 가져간다는 점이다. 즉 실세계 단계에서 “관측을 보고 행동을 결정”하는 게 아니라, 시간 인덱스 t를 보고 미리 정해진 관절 값을 따라간다. 다른 하나는, 학습된 정책 중에서 시뮬레이션 검증 F1이 가장 높은 trajectory 단 하나를 선택해 sim-to-real 출발점으로 삼는다는 점이다. 즉 “통계적으로 좋은 정책”이 아니라 “한 번 잘 친 연주”를 그대로 들고 나간다.

이 선택은 실용적이다. 피아노 연주는 음악 한 곡이라는 정해진 시퀀스를 따라가는 일이라 closed-loop 관측이 굳이 필요 없을 수 있다. 또 RL이 시드별로 들쭉날쭉한 곡을 친다는 점을 감안하면, 가장 잘 친 한 곡을 골라 다듬는 편이 안정적이다. 단점은 환경 외란(예: 키보드가 살짝 움직임)에 약하다는 것인데, 이는 시스템이 piano를 고정 마운팅으로 가정하기 때문에 큰 문제가 아니다.

곡별 horizon은 다음과 같이 설정된다(공개 코드 기준).

Song	Horizon (steps)
Twinkle Twinkle	160
Ode to Joy	330
Hot Cross Buns	160
Prelude in C	330
Fur Elise	320

학습 보상은 키보드의 MIDI 출력을 기반으로 한다. 매 스텝에서 누른 음 집합과 악보가 요구하는 음 집합을 비교해 F1 형태의 점수를 계산한다. 직관적으로는, 맞는 키를 누르면 +, 틀린 키를 누르면 -, 눌러야 하는데 안 누르면 -. 이 신호가 dense하게 들어오므로 RL이 학습하기 좋다.

Stage 1: 구조화된 정책 정제(휴리스틱 측면 관절 보정)

Stage 1은 흥미롭다. 학습이 아니다. 사람이 손으로 짠 규칙이다. 그런데 효과가 크다.

기본 아이디어는 이렇다. Tesollo 손가락은 위아래로 굽히는 관절과, 옆으로 흔드는 관절(lateral joint)을 동시에 갖는다. 손가락이 목표 건반 위에서 빗나갈 때, 그 빗나감은 대부분 “옆으로 얼마나 치우쳤느냐”의 문제다. 위로 들리는 정도는 시뮬레이션에서도 비교적 잘 맞다. 옆 방향만 시스템적으로 어긋난다.

그래서 알고리즘은 한 손가락이 어떤 timestep에 어느 건반을 쳐야 하는지를 안 상태에서, 실세계 roll-out 결과를 보고 측면 관절만 반복적으로 옮긴다. 의사 코드로 표현하면 다음과 같다.

Algorithm: Iterative Lateral Joint Refinement
Input:  open-loop trajectory tau (joint targets over time)
        target MIDI sequence M (target key per finger per timestep)
        finger-to-lateral-joint mapping L
        step size delta, iterations N
Output: refined trajectory tau_star

for iter = 1 to N do
    pressed <- execute_real(tau)        # roll out on hardware
    for each timestep t in tau do
        for each finger f do
            k_target <- M[t][f]
            k_actual <- pressed[t][f]
            if k_actual is not k_target then
                dir <- sign(key_x(k_target) - key_x(k_actual))
                tau[t][L[f]] <- tau[t][L[f]] + dir * delta
            end
        end
    end
end
return tau as tau_star

이 절차의 미덕은 명확하다. 첫째, 실세계에서 RL을 한 번도 돌리지 않고, 단순한 결정론적 보정으로 큰 spatial bias를 제거한다. 둘째, 보정 방향이 명확한 물리적 의미(키보드 x축)를 갖기 때문에 unstable한 학습 신호가 끼어들지 않는다. 셋째, 정해진 횟수 안에 수렴한다.

물론 한계도 있다. 논문이 직접 인정한다. (1) 측면 관절만 만지므로, “그 손가락이 아예 안 닿아서 못 친 경우”는 못 고친다. (2) “어느 손가락이 어느 키를 친다”라는 손가락-키 할당이 정확하다는 가정에 의존한다. 실제로는 시뮬레이션 정책이 옆 손가락으로 친 게 더 자연스러울 수도 있다. (3) Z축(누름 깊이)이나 굽힘 각도 같은 다른 자유도는 만지지 않는다.

이런 한계들이 곧 Stage 2의 존재 이유다.

Stage 2: Residual RL with TD3 (가이드된 노이즈)

Stage 1 결과 \tau^*_{sim}이 새 베이스라인이다. 이 베이스라인 위에 잔차 정책 \pi_{res}를 학습한다. 즉 실제 로봇 명령은 다음과 같다.

a_t = a^*_{sim}(t) + \pi_{res}(s_t)

여기서 a^*_{sim}(t)는 정제된 궤적의 시간 인덱스에서 나오는 nominal action이고, \pi_{res}는 상태 s_t를 입력으로 받아 보정량을 출력한다. 이 잔차 학습이 갖는 장점은 두 가지다. 첫째, 탐색(exploration)이 안전하다. 베이스가 이미 거의 맞는 동작이므로, 잔차가 작은 범위만 흔들면 된다. 둘째, 보상 신호의 변동성이 낮다. 베이스라인 자체로도 일정 수준의 음을 치므로, 잔차의 작은 변화가 F1의 작은 변화로 일관되게 매핑된다.

저자들은 잔차 학습에 TD3(Twin Delayed DDPG)를 쓴다. 결정론적 정책에 노이즈를 더하는 방식이라, off-policy로 실세계 샘플을 모으면서도 안정적으로 학습된다. 여기까지는 표준이다.

진짜 깔끔한 디테일은 이 부분이다. TD3는 탐색을 위해 액션에 가우시안 노이즈 \epsilon \sim \mathcal{N}(0, I)를 더한다. 일반 TD3라면 이 노이즈는 등방성(isotropic), 즉 모든 방향으로 똑같이 흔든다. 하지만 저자들은 “노이즈 부호도 사실은 가이드할 수 있다”라고 본다. Stage 1에서 사용한 측면 보정 방향이 그 가이드다.

구체적으로, 확률 \Pr(\text{guided noise}) = 0.5로 노이즈의 부호를 측면 보정에서 정한 올바른 방향과 일치하도록 뒤집는다.

\hat{\epsilon}_i = \begin{cases} \mathrm{sign}(d_i) \cdot |\epsilon_i| & \text{with prob. } 0.5 \\ \epsilon_i & \text{otherwise} \end{cases}

단, \|\hat{\epsilon}\|_2 = \|\epsilon\|_2 즉 크기는 그대로 유지하고 부호만 바꾼다(올바른 lateral joint 인덱스에서만). 일종의 “방향 편향(directional bias)”을 가진 탐색이다. 무작정 흔드는 게 아니라, 손가락이 옆 건반에 너무 치우쳐 있으면 더 자주 “올바른 방향으로” 흔들게 한다.

이게 왜 중요하냐. 표준 TD3로 30분 안에 의미 있는 잔차를 학습하기는 어렵다. 500-1000번 정도의 roll-out 안에서 정밀 손가락 보정을 잡아내야 하기 때문이다. 가이드된 노이즈는 탐색의 절반을 사람이 알려주는 방향에 정렬시켜, 샘플 효율을 크게 끌어올린다. Residual RL 문헌(예: Johannink et al., Davchev et al.)이 보여 온 패턴(prior를 어떻게든 탐색에 주입하면 이긴다)을 명확하게 활용한 사례다.

flowchart LR
    A["Nominal action<br/>a*_sim(t)"] --> S["+"]
    B["Residual policy<br/>π_res(s_t)"] --> S
    C["Gaussian noise<br/>ε ~ N(0,I)"] --> N["Sign flip<br/>(prob 0.5)"]
    D["Lateral direction<br/>d_i from refinement"] --> N
    N --> S
    S --> E["Final action a_t<br/>→ robot"]

하드웨어 설정과 안전 계층

논문 Figure 2가 보여주는 하드웨어 구성은 다음과 같다.

베이스: 두 대의 Franka 암(Panda + FR3)
엔드 이펙터: 두 개의 Tesollo DG-5F dexterous hand(손가락 5개씩, 사람 손보다 큼)
환경: MIDI 출력이 가능한 디지털 키보드
감지: 키보드의 MIDI를 보상 신호로 사용

Figure 2: 하드웨어 구성. MIDI 키보드, 두 개의 Tesollo DG-5F 손, 두 대의 Franka 암을 사용한다. 피아노의 MIDI 출력으로 어떤 음이 눌렸는지 감지해 보상을 계산한다. 로봇 손이 평균적인 사람 손보다 훨씬 커서 연주가 어려우며, RL 훈련 시에는 손가락이 건반 아래로 과도하게 눌리는 것을 막는 collision checker를 포함한다.

여기서 비전 센서나 촉각 센서가 명시적으로 들어가지 않는다는 점이 (다른 정밀 manipulation 연구들과 비교하면) 다르다. 보상이 환경에서 직접 측정 가능한 형태(MIDI)로 떨어지므로, ground truth가 깨끗하다. RoboPianist의 시뮬 보상 신호와 거의 동형(同形)인 셈이다.

안전 계층도 정성스럽다. 시뮬에서 학습된 관절 목표를 그대로 실로봇에 내리면 자기 충돌이나 건반 표면을 뚫는 동작이 생긴다. 그래서 저자들은 PyRoki를 써서 IK를 제약 최적화로 푼다. 자기 충돌 페널티 + piano surface를 평면 제약으로 근사한 비침투 페널티를 함께 둔다. 정책 출력은 10Hz로 나오고, 손에 내려가는 명령은 80Hz로 선형 보간되어 부드럽게 흐른다. 시뮬과 실세계의 control rate를 다르게 가져가는 건 sim-to-real에서 흔한 트릭이다.

JungYeon이 진행 중인 IsaacGym→IsaacLab 마이그레이션 작업과 연결지어 보면, ManiSkill 기반 학습 + 별도 IK/safety layer라는 분리 설계는 익숙한 구조다. 차이라면 HandelBot은 piano라는 정적 환경 제약(평면 키보드 + 고정 mount)이 강해서, safety layer를 “self-collision + planar contact”로 단순화할 수 있었다는 점이다. Allegro Hand로 일반 manipulation을 푸는 경우에는 contact 모델이 훨씬 복잡해진다.

실험 결과

평가곡은 다섯 곡이다. Twinkle Twinkle Little Star, Ode to Joy, Hot Cross Buns, Bach의 Prelude in C, Beethoven의 Fur Elise. 난이도가 점층적으로 증가한다. 마지막 두 곡, 특히 Fur Elise는 왼손의 큰 점프(다른 건반 군으로의 이동)가 잦아서, 정적 손가락 할당 가정이 깨지기 쉽다.

평가 지표는 F1 ×100. F1은 적시에 올바른 음을 누른 비율(recall)과, 누른 음 중 올바른 음의 비율(precision)을 결합한 값이다. 음악 정밀 평가에 적합한 지표다.

비교 baseline은 총 5종이다(논문 Figure 3 및 Table I 기준).

HandelBot (Ours): Stage 0 + Stage 1 + Stage 2 전부
HandelBot w/o ResRL: Stage 0 + Stage 1만(휴리스틱 보정까지)
π_sim (closed-loop): 학습된 stochastic policy를 그대로 실로봇에 배포
π_sim (open-loop): 시뮬레이션 trajectory를 그대로 실행
RL from Scratch: 실세계에서 처음부터 학습
Hybrid execution: 실세계 실행 중 proprioception을 parallel sim에서 가져오는 변형

결과의 큰 그림은 다음과 같다.

HandelBot이 모든 곡에서 가장 높은 F1을 기록한다.
직접 sim-to-real(π_sim)은 모든 곡에서 큰 폭으로 뒤진다. 평균적으로 HandelBot은 그 1.8배 수준의 F1을 낸다.
Stage 1만 적용한 버전(HandelBot w/o ResRL)도 π_sim보다 명확히 좋다. 즉 휴리스틱 측면 보정만으로도 큰 부분의 spatial gap을 잡는다.
RL from Scratch는 30분 budget으로는 거의 의미 있는 결과를 못 낸다. 베이스 없이는 탐색 공간이 너무 크다.

Figure 3: 주요 결과. 5곡에 대한 F1 점수(×100). HandelBot이 모든 곡에서 일관되게 가장 높은 F1을 기록하며, 실세계 샘플을 효과적으로 활용하는 것의 중요성을 보여준다. \pi_{sim}(CL)과 \pi_{sim}처럼 시뮬레이션 데이터만 사용하는 방법은 sim-to-real 갭으로 성능이 약하다.

Table 1 (요약). F1 ×100 (높을수록 좋음, 5곡 평균 기준의 정성 비교)

Method	Use real data	Real-world budget	Avg F1 (qualitative)
π_sim (open/closed-loop)	No	0	Lowest
RL from Scratch	Yes	30 min	Lowest among learned
HandelBot w/o ResRL	Yes	30 min	Mid (clear gain over π_sim)
HandelBot (Ours)	Yes	30 min	Highest, ~1.8× over π_sim

논문이 어블레이션에서 강조하는 두 가지 메시지가 있다. 하나, Stage 1 단독으로도 큰 이득이지만, 그 이득은 “측면 관절”이라는 좁은 자유도에서만 온다. 그래서 missed press(아예 못 누른 경우)나 손가락 할당 오류는 못 잡는다. 둘, Stage 2가 그걸 보완한다. Stage 2를 더하면 대부분의 곡에서 F1이 추가로 오른다. 즉 두 단계는 cumulative하다.

flowchart LR
    A["Direct sim-to-real<br/>(π_sim)"] -->|"+Stage 1<br/>lateral fix"| B["+Spatial alignment<br/>gain"]
    B -->|"+Stage 2<br/>residual TD3"| C["+Missed presses<br/>+timing<br/>+assignment errors"]
    C --> D["HandelBot<br/>~1.8x F1"]

디테일 분석: Note Press 시각화

논문의 한 figure(웹페이지에서도 동일하게 제공되는 “note press” 그림)는 정량 지표를 넘어 어디서 실패가 일어나는지를 시각적으로 보여준다. 가로축은 곡의 timestep, 세로축은 각 노트(상단 절반은 오른손, 하단 절반은 왼손). 각 점은 누른 시점에 색으로 분류된다. 맞게 누름(correct), 잘못 누름(incorrect), 놓침(missed).

흥미로운 패턴은 다음과 같다.

쉬운 곡(Twinkle Twinkle, Ode to Joy)에서는 점들이 거의 모두 “correct” 색으로 채워진다. 가끔 잘못된 음이 끼지만 큰 누락은 없다.
Fur Elise에서는 왼손(아래쪽 절반)에서 missed/incorrect가 도드라진다. 왼손이 베이스 음과 화음 사이를 크게 점프하는 구간에서 손가락이 따라가지 못한다.
Prelude in C는 좀 다른 양상이다. 음 자체는 비교적 천천히 흐르지만 양손이 동시에 여러 음을 짚어야 하는 구간이 많아서 “동시 정확도”가 약점이다.

Figure 4: HandelBot 궤적 시각화. 곡별로 맞게 누름/잘못 누름/놓침을 표시한다. 가로축은 곡의 timestep, 세로축은 각 음(상단 절반은 오른손, 하단 절반은 왼손)이다. Twinkle Twinkle, Ode to Joy 같은 쉬운 곡에서는 실수가 거의 없고, Fur Elise처럼 어려운 곡에서는 왼손의 큰 점프(아래쪽 영역)가 도전적이다.

또 다른 학습 곡선 시각화(Twinkle Twinkle 5개 evaluation trajectory)는 Residual RL의 작동을 보여준다. 초반에는 왼손에서 여러 키를 놓치는데, 실세계 interaction이 쌓이면서 잔차 정책이 그 누락을 점진적으로 메운다. “어디서 망가지는지”를 직접 보여주는 이런 디버깅용 시각화는 dexterous manipulation 논문에서 정말 유용한 자료다.

Figure 5: Residual RL 훈련 과정에 따른 HandelBot 궤적. 훈련 중 4개의 evaluation trajectory를 보여준다(최종 best는 Figure 4). 초기에는 왼손에서 많은 키를 놓치지만, 실세계 상호작용이 쌓이면서 잔차 정책이 점차 올바른 키를 누르도록 적응한다.

비판적 고찰

강점

문제 분해의 명료성. “시뮬레이션에서 학습한 정책의 실패가 어디서 오는가”를 측면 편향, missed press, 손가락 할당 오류로 명확히 분해한다. 그리고 각각에 다른 도구(휴리스틱, residual RL)를 할당한다. 학습이 만능이라는 식의 설계가 아니라, 학습이 필요한 곳에만 학습을 쓴다. 이런 모듈성은 실무에서 디버깅을 쉽게 만든다.

샘플 효율. 30분은 정말 짧다. 일반적으로 dexterous manipulation의 실세계 RL은 수 시간에서 수십 시간을 요구한다. 시뮬레이션 prior + 휴리스틱 정렬 + guided exploration이 함께 작용한 결과다.

보상 신호의 깨끗함. MIDI 출력은 노이즈 없는 ground truth다. 키가 눌렸는지 안 눌렸는지는 모호하지 않다. 이 점이 잔차 RL을 안정적으로 만든다. 일반 manipulation에서는 보상 정의 자체가 어려운데, 피아노는 environment가 보상을 제공한다는 점이 큰 자산이다.

Guided noise 아이디어. Stage 1에서 얻은 보정 방향을 Stage 2의 탐색 노이즈에 부호로 주입하는 방식은 단순하지만 영리하다. Prior를 정책 초기화에만 쓰는 게 아니라 탐색 자체에 주입한다는 발상은, 다른 정밀 manipulation 과제에도 옮길 가치가 있다.

약점과 한계

Open-loop trajectory에 대한 의존. Stage 0의 출력이 stochastic policy가 아니라 한 번 잘 친 open-loop 궤적이다. 이건 piano처럼 정해진 시퀀스를 따라가는 task에는 잘 맞지만, perturbation이 들어오는 일반 manipulation에는 적용이 어렵다. 키보드 위치가 살짝 흔들리면 시스템이 무너질 수 있다.

손가락-키 할당의 사전 지식. Stage 1 휴리스틱은 “이 timestep에 이 손가락이 이 키를 친다”는 매핑이 정확하다고 가정한다. 그러나 시뮬레이션 정책이 인간이 예상한 손가락이 아닌 다른 손가락으로 칠 수도 있다. 이 가정이 깨질 때 Stage 1은 잘못된 방향으로 보정할 위험이 있다(논문도 이 점을 인정한다).

측면 관절만 보정. Z축(누름 깊이), 굽힘 각도, 손목 회전 같은 다른 자유도는 휴리스틱이 안 만진다. 만약 sim-to-real gap이 측면이 아닌 다른 자유도에서 크게 나타나면 Stage 1의 이득이 줄어든다. 다른 task로 일반화할 때는 “어느 자유도가 systematic bias의 주범인가”를 먼저 식별해야 한다.

촉각 정보 미사용. DIGIT/GelSight 같은 촉각 센서를 안 쓴다. MIDI가 보상으로 충분하기에 학습은 가능하지만, 키를 눌렀는데 닿기 전인 상태나 미세한 힘 조절 같은 정보는 못 활용한다. 표현력(expressivity)이 결여된다는 뜻이다. 사람 피아니스트가 강약을 조절하는 것 같은 표현은 이 시스템 범위 밖이다.

한 곡당 학습. 곡마다 별도 학습이 필요하다. RoboPianist 시절부터 이 한계는 잘 알려져 있지만, HandelBot도 같은 한계를 공유한다. 한 정책으로 새로운 곡을 zero-shot으로 치는 일반화는 본 논문 범위 밖이다.

평가 곡의 난이도. 5곡 중 Fur Elise를 제외하면 비교적 쉬운 곡들이다. 진짜 도전(예: 빠른 트릴, 옥타브 점프가 많은 Liszt 류)에서 이 파이프라인이 견디는지는 실험되지 않았다.

하드웨어의 사이즈 미스매치. Tesollo DG-5F가 인간 손보다 크다는 점은 정직한 어려움이지만, 동시에 “이 시스템은 이 손에 맞춰진 결과”임을 의미한다. 더 작은 dexterous hand(예: LEAP Hand, Allegro)로의 transfer는 별도 작업이다.

모든 baseline이 동일하게 강하지는 않음. RL from scratch가 30분으로 학습되기를 기대하는 건 다소 박한 비교다. 진짜 의미 있는 비교는 (a) 더 정교한 domain randomization을 적용한 sim policy, (b) DAgger 같은 다른 sim-to-real 적응법과의 비교다.

시사점: 다른 정밀 dexterous 과제로의 전이 가능성

JungYeon의 연구 영역(in-hand manipulation, sim-to-real transfer, Allegro Hand)과 연결지어 보면, HandelBot의 레시피가 가져올 수 있는 시사점은 다음과 같다.

Systematic bias를 먼저 분리하라. 시뮬에서 실세계로 옮길 때 가장 먼저 나타나는 실패는 보통 “결정론적이고 일관된” 종류다. 즉 매번 같은 방향으로 빗나간다. 이런 종류의 오류에는 RL이 과잉이다. 한두 자유도에 대한 휴리스틱 보정이 더 빠르고 안정적이다. HORA 계열의 in-hand rotation 작업에서도, 손가락 굽힘 게인이나 손바닥 각도 같은 systematic offset을 사전 보정한 뒤 잔차를 학습하면 budget이 줄어든다는 관찰이 종종 보고된다.

Open-loop을 두려워 말라(정적 task에 한해). 모든 task가 closed-loop 정책을 요구하는 건 아니다. 환경이 정적이고 시퀀스가 고정되어 있다면, open-loop trajectory + residual feedback이 충분히 정밀하다. Allegro Hand로 정해진 도구 사용 시퀀스를 푸는 경우(예: 카드 뒤집기 같은 deterministic skill)에 이 패턴이 유효할 수 있다.

Guided noise는 다른 곳에도 옮길 만하다. 잔차 RL에서 탐색 노이즈의 부호를 prior로 가이드하는 기법은 piano에 특화된 게 아니다. Sim-to-real gap의 일관된 방향성이 알려져 있다면, 그 방향으로 노이즈를 편향시키는 것만으로도 샘플 효율이 크게 개선된다. JungYeon이 진행한 friction modeling 또는 PD gain 분석 작업에서 도출된 “어느 방향으로 보정해야 한다”는 사전 지식을, 잔차 RL의 탐색 분포에 주입하는 응용을 상상할 수 있다.

ManiSkill의 실용성. HandelBot이 ManiSkill을 쓴 것은 가볍게 보아 넘길 부분이 아니다. SAPIEN/ManiSkill은 IsaacGym/Lab 대비 진입장벽이 낮고, 곡별 100-300 step 정도의 짧은 horizon RL을 빠르게 돌리기에 적합하다. JungYeon이 Physical AI 강의를 ManiSkill3로 설계한 방향성과도 일치한다.

보상이 깨끗한 도메인부터 시작하라. Dexterous manipulation에서 가장 어려운 부분 중 하나는 보상 정의다. 피아노는 MIDI라는 결정론적 보상 채널이 있다. 이런 보상이 “환경 그 자체에서” 나오는 task는 흔치 않은 운(luck)이지만, 비슷한 구조를 가진 task(예: 키패드 입력, 스위치 조작, 페달 정밀 조작)는 있다. 처음부터 어려운 보상 정의(촉각 + 시각 + 자세 결합)를 시도하기보다, 이런 “환경이 보상을 알려주는” task를 발판으로 삼는 게 합리적이다.

요약 및 결론

HandelBot은 piano playing이라는 정밀 양손 dexterous task에 대해 “시뮬레이션 학습 + 30분의 구조화된 실세계 적응”이라는 깔끔한 처방을 제시한다. 직접 sim-to-real로는 1.8배 차이로 진다. 그 차이를 메우는 30분의 사용 방식이 영리하다. 절반은 사람이 짠 휴리스틱(측면 관절 보정), 절반은 residual TD3(가이드된 노이즈 포함)에 할당한다.

이 작업의 가장 큰 기여는 결과 자체가 아니라 분해의 방법이다. “시뮬-실세계 간극을 한꺼번에 RL로 닫지 말고, 결정론적 보정으로 닫을 수 있는 부분과 학습으로 닫아야 하는 부분을 분리하라”라는 메시지가 명확하다. 이 메시지는 piano를 넘어 다른 정밀 manipulation 과제로 옮길 수 있다.

한계도 정직하다. Open-loop 의존, 손가락-키 할당 가정, 촉각 정보 부재, 한 곡당 학습. 이 한계들은 후속 연구의 자연스러운 출발점이다. 곡 사이 일반화, 촉각 통합, 다양한 dexterous hand로의 transfer 등.

실용 관점에서 가장 가져갈 가치가 있는 디테일 세 가지는 (1) 시뮬 정책에서 best trajectory 한 개를 뽑아 open-loop 베이스로 쓰는 단순성, (2) 측면 관절만 골라 휴리스틱으로 정렬하는 narrow but effective intervention, (3) TD3 탐색 노이즈의 부호에 prior를 주입하는 guided noise 기법이다. 셋 다 다른 dexterous manipulation 파이프라인에 옮겨 실험할 만한 가벼운 개선이다.

마지막으로, 이 논문이 던지는 더 큰 질문은 이거다. “RL의 보상 신호가 환경에서 직접 제공되는 정밀 task는 또 어디 있는가?” 키패드, 스위치 패널, 페달, 버튼 시퀀스, 자판 입력. 사실 우리 주변에 꽤 많다. HandelBot이 보여준 레시피는 그런 모든 곳에 적용될 잠재력이 있다. 어쩌면 차세대 dexterous task 벤치마크의 형태는 “환경이 곧 reward 채널인” 일상 정밀 조작들의 모음일지 모른다.

참고 문헌 및 자료

논문: Xie, A., Qi, H., Sadigh, D. (2026). HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies. arXiv:2603.12243.
프로젝트 페이지: https://amberxie88.github.io/handelbot/
코드: https://github.com/amberxie88/handelbot
관련: RoboPianist (Zakka et al., 2023), Towards Learning to Play Piano with Dexterous Hands and Touch (Xu et al., 2022), FurElise (2024)