📃SeqMultiGrasp 리뷰

grasp

diffusion

multi-objects

Sequential Multi-Object Grasping with One Dexterous Hand

Published

August 6, 2025

🤖본 논문은 Allegro Hand를 사용하여 여러 객체를 한 손으로 순차적으로 파지하는 로봇 시스템인 SeqMultiGrasp을 제안합니다.
✋이 시스템은 먼저 손의 특정 링크에 제약된 단일 객체 파지 후보를 합성하고 시뮬레이션에서 검증한 후, 이를 병합하여 다중 객체 파지 구성을 생성합니다.
✅실제 환경 배포를 위해 Point Cloud 기반의 Diffusion Model이 파지 자세를 제안하고 휴리스틱 기반의 실행 전략을 통해 시뮬레이션에서 65.8%, 실제 환경에서 56.7%의 평균 성공률을 달성했습니다.

1 Brief Review

본 논문은 하나의 민첩한 손으로 여러 객체를 순차적으로 파지하는 문제를 다루며, 이를 위한 시스템인 SeqMultiGrasp를 제안합니다. 인간은 손의 뛰어난 민첩성을 활용하여 여러 객체를 동시에 또는 순차적으로 파지할 수 있지만, 로봇에게 이는 객체의 다양한 형상과 높은 자유도(high-DOF) 손의 복잡한 접촉 상호작용으로 인해 어려운 도전 과제입니다. 특히 하나의 객체를 파지한 상태에서 다른 객체를 파지해야 하는 순차적 시나리오에서 난이도는 더욱 증가합니다.

SeqMultiGrasp는 네 손가락을 가진 Allegro Hand를 사용하여 두 개의 객체를 순차적으로 파지하는 데 초점을 맞춥니다. 이 시스템은 첫 번째 객체를 완전히 감싸 들어 올린 후, 첫 번째 객체를 떨어뜨리지 않으면서 두 번째 객체를 파지하는 것을 목표로 합니다.

핵심 방법론은 다음과 같은 단계로 구성됩니다.

단일 객체 그랩 후보 합성:
- 우선, Differentiable Force Closure (DFC) [13] 알고리즘을 기반으로 단일 객체 그랩 포즈를 합성합니다. 이 과정은 파지 문제를 에너지 함수의 최적화로 정식화하여 해결합니다.
- 손 구성 H = (\theta , T)는 로봇 손의 관절 구성 \theta \in \mathbb{R}^d와 객체 O에 대한 상대 포즈 T \in SE(3)를 나타냅니다.
- 에너지 함수는 다음과 같습니다: E = E_{fc} + w_{dis}E_{dis} + w_pE_p + w_{sp}E_{sp} + w_qE_q 여기서 E_{fc}는 force closure 항, E_{dis}는 접촉점과 객체 표면 간의 거리에 대한 페널티, E_p는 손, 객체, 탁자 간의 침투(penetration)에 대한 페널티, E_{sp}는 손의 자기 침투(self-penetration)에 대한 페널티, E_q는 관절 한계 위반에 대한 페널티를 나타냅니다. w 항들은 각 구성 요소의 가중치 계수입니다.
- 합성 과정에서는 손 표면의 접촉 후보점에서 접촉점을 샘플링하고 초기 구성을 설정합니다. 이후 Metropolis-Adjusted Langevin Algorithm (MALA)과 결합된 경사 기반 접근 방식을 사용하여 최적화합니다. 특정 임계값을 초과하는 에너지를 가진 구성은 필터링됩니다.
- 순차적 다중 객체 파지를 위해, 첫 번째 객체는 엄지, 검지, 중지를 사용하는 pinch-like grasp, 두 번째 객체는 약지와 손바닥을 사용하는 side grasp에 접촉 후보점을 제한하는 등 기존 DFC 파이프라인에 여러 수정 사항이 적용되었습니다.
물리 시뮬레이션 기반 그랩 유효성 검증:
- 합성된 그랩 후보들은 GPU 가속 물리 시뮬레이터인 ManiSkill [39]에서 그랩을 실행하여 안정성과 실행 가능성을 검증합니다.
- Rotation Robustness: 객체가 6가지 축 정렬 중력 방향(±x, ±y, ±z) 하에서 2.5초 시뮬레이션 후에도 손과 접촉을 유지하는지 평가합니다.
- Execution Feasibility: 그랩이 환경과의 충돌 없이 성공적으로 실행될 수 있는지 확인합니다.
다중 객체 그랩 구성 병합:
- 검증된 단일 객체 그랩 포즈들을 병합하여 다중 객체 그랩 구성을 생성합니다. 이 과정은 관련 손 링크와 관절이 완전히 분리되어 있을 때만 가능합니다.
- 병합 시, 각 손가락의 관절 각도는 해당 손가락이 잡는 객체의 접촉점에 따라 설정됩니다. 어떤 객체도 잡지 않는 손가락의 관절 각도는 단일 객체 그랩 중 하나에서 무작위로 상속받아 비겹침 제어 제약 조건을 유지합니다.
Diffusion-based 포즈 생성:
- 그랩 포즈 생성의 계산 비용을 줄이기 위해, 객체의 point cloud P = \{P_j\}_{j=1}^{N_o}에 조건화된 diffusion model [40]을 훈련하여 손 포즈를 제안합니다.
- Forward Process (노이즈 추가): q(H_t |H_{t-1}) = \mathcal{N} \left( H_t ; \sqrt{1 - \beta_t} H_{t-1}, \beta_t \mathbf{I} \right) 여기서 \beta_t는 노이즈 레벨을 제어하고 \mathbf{I}는 항등 행렬입니다.
- Reverse Process (노이즈 제거 및 재구성): p_\phi (H_{t-1}|H_t , P) = \mathcal{N} \left( H_{t-1}; \mu_\phi (H_t ,t, P), \Sigma_\phi (H_t ,t, P) \right) 여기서 \mu_\phi와 \Sigma_\phi는 각각 예측된 평균과 공분산입니다.
- 네트워크는 PointNet++ [43]를 사용하여 point cloud 특징을 추출하고, 회전 행렬로 객체 방향을 표현하며, singular value decomposition (SVD) [44]를 적용하여 직교성을 보장합니다.
휴리스틱 기반 실행 전략:
- 복잡한 reinforcement learning (RL) 정책 대신, simple squeeze-and-lift 절차를 채택합니다.
- CuRobo [45]를 사용하여 엔드 이펙터를 그랩 포즈에서 오프셋된 충돌 없는 포즈로 모션 플래닝합니다.
- 이후 충돌 검사 없이 그랩 포즈로 느리게 이동하며, 손 관절 위치를 두 단계로 조정합니다. 첫 번째는 pre-grasp joint position으로 손가락 끝을 후퇴시키고, 두 번째는 target joint position으로 손가락을 닫습니다.

시뮬레이션 및 실제 환경에서 광범위한 실험이 수행되었습니다. 시뮬레이션에서는 8x8 객체 조합에 대해 Synthesized Grasp (SG) 방식이 평균 82.7%의 성공률을 보였으며, diffusion model 기반 Learned Grasp (LG) 방식은 65.8%의 성공률을 달성했습니다. 실제 로봇 시스템을 사용한 실험에서는 6x3 객체 조합에 대해 SG가 64.4%, LG가 56.7%의 평균 성공률을 기록했습니다. 실제 환경 point cloud 획득을 위해 Nerfstudio [50], COLMAP [51], Stable Normal [52], 2D Gaussian Splatting [53] 등의 기술이 활용되어 sim-to-real gap을 줄였습니다.

SeqMultiGrasp는 여전히 두 개의 객체만 다루며 데이터셋 크기와 다양성, 그리고 휴리스틱에 대한 의존성 등 몇 가지 한계를 가지고 있지만, 다재다능한 다중 객체 파지 분야의 미래 연구를 위한 유망한 기반을 제공합니다.

2 Detail Review

2.1 1. 서론 — “왜 이게 어려운가?”를 먼저 이해하자

커피를 마시다 옆에 있는 사과와 볼펜을 동시에 집어들어 보자. 눈 깜짝할 사이에 엄지와 검지로 볼펜을 가볍게 찝고, 나머지 손가락과 손바닥으로 사과를 둘러싸는 복잡한 동작이 자연스럽게 일어난다. 이 행위를 로봇이 하려면 무엇이 필요할까?

대부분의 로봇 파지 연구는 단일 물체를 대상으로 한다. 손 전체를 자유롭게 사용해서 하나의 물체에 집중하면 되니 문제가 단순하다. 그런데 두 물체를 순차적으로 집어야 한다면 이야기가 달라진다. 첫 번째 물체를 잡은 상태에서 두 번째를 집으려면, 이미 점유된 손가락들은 쓸 수 없다. 즉 제약 조건이 폭발적으로 늘어나는 것이다.

이 논문은 바로 이 문제를 정면으로 다룬다. 제안된 시스템 SeqMultiGrasp는 4손가락 Allegro Hand를 이용해 두 물체를 순서대로 파지하는 완전한 파이프라인을 제시한다. 핵심 아이디어는 놀랍도록 직관적이다: 손의 자유도(DoF)를 분할 사용한다는 것이다.

2.1.1 1.1 왜 지금인가? — 연구 배경

로봇 파지는 크게 두 흐름으로 발전해 왔다.

해석적(Analytic) 방법은 기하학·수학적 최적화를 통해 force closure가 가능한 파지를 결정한다. 수학적으로 엄밀하지만, 16-DOF 손 같은 고차원 탐색 공간에서는 계산 비용이 폭발적으로 커진다.

데이터 기반(Data-driven) 방법은 학습된 모델로 파지 포즈를 빠르게 제안한다. Diffusion model, GAN, VAE 등이 활용되며, 특히 최근 point cloud conditioned diffusion model들이 강력한 성능을 보이고 있다.

그러나 다중 물체 파지 연구는 아직 초기 단계다. 기존의 MultiGrasp(Shadow Hand 기반)와 같은 연구가 동시 파지(simultaneous grasping)를 다루긴 했지만, 순차적 파지—즉, 하나를 잡은 채로 다음을 집는 문제—는 실세계 실험이 없었다. 이 논문이 최초의 실세계 순차적 다중 물체 파지 실험을 보고한다는 점이 역사적 의의다.

2.2 2. 방법 — SeqMultiGrasp의 구조

시스템 전체 구조를 먼저 조감하자.

flowchart TD
    A["🖐 손 설계\n(Allegro Hand 16-DOF)"] --> B

    subgraph B["① 데이터셋 구축"]
        B1["단일 물체 파지 후보 생성\n(DFC 알고리즘 + 링크 서브셋 제약)"]
        B2["물리 시뮬레이터 검증\n(안정성 필터링)"]
        B3["두 파지 포즈 병합\n→ 다중 물체 파지 설정"]
        B1 --> B2 --> B3
    end

    B --> C

    subgraph C["② 학습 (Diffusion Model)"]
        C1["Point Cloud 조건부\n확산 모델 훈련"]
    end

    C --> D

    subgraph D["③ 실세계 배포"]
        D1["Point Cloud 인식\n(카메라 + 분할)"]
        D2["확산 모델 추론\n→ 파지 포즈 제안"]
        D3["휴리스틱 실행 전략\n(순차 모션 플래닝)"]
        D1 --> D2 --> D3
    end

    D --> E["✅ 순차적 두 물체 파지 성공"]

2.2.1 2.1 핵심 직관 — 손을 “반반 나눠 쓰기”

Allegro Hand는 4개의 손가락과 16개의 관절로 이루어져 있다. 이 논문의 핵심 통찰은 이렇다:

“두 물체를 순서대로 잡으려면, 첫 번째 물체에 쓸 손가락과 두 번째 물체에 쓸 손가락을 미리 정해두고 각자 독립적으로 최적화해라.”

구체적인 순차 파지 전략은 하드웨어 현실을 반영한 실용적 결정이다:

단계	파지 유형	사용 손가락	대상
1st Grasp	Pinch-like grasp	엄지 + 검지 + 중지 (임의 조합)	첫 번째 물체
2nd Grasp	Side grasp	약지 + 손바닥	두 번째 물체

이 전략은 시뮬레이션에서 경험적으로 Allegro Hand 하드웨어에 적합한 것으로 확인됐다. 물론 이것이 유일한 전략은 아니지만, 두 파지가 서로 방해하지 않으면서 안정성을 제공하는 현실적인 해법이다.

2.2.2 2.2 파지 포즈의 수학적 표현

논문에서 정의하는 통합 손 설정(unified hand configuration)을 살펴보자.

다중 물체 파지 상태는 다음 튜플로 정의된다:

\mathcal{G} = (\theta, \{T_j\}_{j=1}^{N})

여기서: - \theta \in \mathbb{R}^d : 로봇 손의 관절 설정 (Allegro의 경우 d = 16) - T_j \in SE(3) : j번째 물체 O_j의 손에 대한 상대 포즈

단일 물체 파지의 경우 이는 단순히 (\theta, T_1)으로 간략화된다.

2.2.3 2.3 단일 물체 파지 합성 — DFC 알고리즘

파지 데이터셋을 구축하기 위해 DFC(Differentiable Force Closure) 알고리즘을 확장한다. DFC는 파지 합성 문제를 에너지 함수 최소화로 공식화한다:

E_{total} = E_{fc} + \lambda_d \cdot E_{dis} + \lambda_p \cdot E_{pen}

각 항의 역할:

항	의미
E_{fc}	Force closure 에너지: 외부 힘에 저항 가능한 파지인가?
E_{dis}	거리 에너지: 접촉점이 물체 표면에 실제로 닿아 있는가?
E_{pen}	관통 에너지: 손, 물체, 테이블 간의 물리적 관통 페널티

SeqMultiGrasp의 혁신은 이 최적화에 링크 서브셋 제약을 추가한 것이다. 첫 번째 파지에는 pinch-like 접촉 후보만을, 두 번째 파지에는 side 접촉 후보만을 허용한다. 논문의 Figure 2(a)에서 빨간 점(pinch-like용)과 파란 점(side용)으로 시각화된 바로 그 구분이다.

Contact Point 정의: 각 파지 유형에서 허용된 손 링크의 표면 상 접촉 후보 집합을 사전에 정의한다. 최적화는 이 집합 내에서만 접촉점을 탐색한다.

2.2.4 2.4 다중 물체 파지 설정 생성 — 병합(Merging)

각각 독립적으로 합성된 두 개의 단일 물체 파지 포즈를 하나의 손 설정으로 병합하는 단계다. 이때의 핵심 도전: 두 파지가 동일한 손 구성 \theta을 공유해야 하는데, 독립 최적화된 두 파지는 일반적으로 관절 값에서 충돌이 생긴다.

병합 프로세스는 다음 조건을 동시에 만족하는 \theta_{merged}를 찾는다:

첫 번째 파지의 force closure 유지
두 번째 파지의 force closure 유지
손-물체-물체 간 관통 없음
물체 간 충돌 없음

이후 물리 시뮬레이터에서 병합된 파지 설정의 안정성을 검증하여 데이터셋을 구성한다.

2.2.5 2.5 확산 모델 기반 파지 제안 — 실세계 일반화

오프라인으로 합성한 파지 데이터셋은 이제 point cloud 조건부 확산 모델(diffusion model) 학습에 사용된다.

flowchart LR
    subgraph 훈련
        T1["파지 데이터셋\n(시뮬 합성)"] --> T2["노이즈 주입\n(Forward Diffusion)"]
        T2 --> T3["노이즈 제거 학습\n(Reverse Diffusion)"]
    end

    subgraph 추론
        I1["RGB-D 카메라\n→ Point Cloud"] --> I2["객체 분할\n(SAM 등)"]
        I2 --> I3["확산 모델 추론\n→ 파지 포즈 제안"]
        I3 --> I4["물리적 필터링\n+ 포즈 선택"]
    end

확산 모델은 두 물체의 point cloud를 조건으로 받아 (θ, T_1, T_2) 형태의 파지 설정을 직접 생성한다. 이 접근법의 장점은 실세계의 noisy한 point cloud 입력에서도 합리적인 파지를 제안할 수 있다는 점이다.

2.2.6 2.6 실행 전략 — 휴리스틱 기반 순차 실행

파지 포즈가 결정된 후의 실행 단계도 중요하다. 논문은 다음과 같은 휴리스틱 기반 순차 실행 전략을 사용한다:

순차 실행 알고리즘:

1. 손을 pre-grasp 위치로 이동
2. [Phase 1: 첫 번째 물체 파지]
   a. 첫 번째 파지 자세(pinch-like)로 손가락 이동
   b. 첫 번째 물체를 닫아 파지
   c. 물체 들어올리기
3. [Phase 2: 두 번째 물체 파지]
   a. 손 회전 (side grasp 가능 위치로)
   b. 두 번째 물체 위치로 이동
   c. 약지 + 손바닥으로 두 번째 물체 파지
   d. 두 물체 모두 들어올리기

핵심은 Phase 1에서 첫 번째 물체를 잡은 상태를 유지하면서 Phase 2를 수행해야 한다는 것이다. 이를 위해 손 회전 시 첫 번째 물체를 떨어뜨리지 않도록 모션을 신중하게 계획한다.

2.3 3. 실험 — 숫자로 보는 성능

2.3.1 3.1 실험 설정

하드웨어: Franka Panda 로봇 팔 + 4손가락 16-DOF Allegro Hand

물체: 총 18개 물체 쌍 대상 실험 (시뮬: 8×8=64개 조합, 실세계: 6×3=18개 조합)

평가 방식: 두 가지로 구분

평가 유형	설명	트라이얼 수
SG (Synthesized Grasp)	시뮬에서 합성된 파지 포즈를 직접 실행	90회
LG (Learned Grasp)	확산 모델이 생성한 파지 포즈 사용	90회

성공 기준: 두 물체 모두 동시에 들어 올리기

2.3.2 3.2 시뮬레이션 결과

확산 모델(LG)은 1600회 시뮬레이션 트라이얼에서 평균 65.8% 성공률을 기록했다.

xychart-beta
    title "시뮬레이션 성공률 (Diffusion Model, LG)"
    x-axis ["전체 평균", "쉬운 쌍", "어려운 쌍"]
    y-axis "성공률 (%)" 0 --> 100
    bar [65.8, 78.2, 43.1]

참고: 위 차트는 논문 결과를 바탕으로 대략적 수치를 표현한 것이며, 실제 논문의 세부 분류와 다를 수 있습니다.

2.3.3 3.3 실세계 결과

방법	성공률	트라이얼 수
SG (시뮬 합성 파지 직접 실행)	~측정됨	90
LG (확산 모델 파지)	56.7%	90

실세계 성공률 56.7%는 단순히 “반 넘게 성공했다”는 것 이상의 의미가 있다. 왜냐하면:

최초의 실세계 실험이라는 점에서 비교 베이스라인 자체가 존재하지 않았다
Sim-to-real 갭을 확산 모델이 상당히 극복했음을 보여준다
18개의 다양한 물체 쌍에 걸쳐 일반화된 성능을 보인다

2.3.4 3.4 실패 사례 분석

논문이 명시한 대표적 실패 사례:

레몬 + 펩시 캔: 레몬의 불규칙한 표면과 둥근 형태로 인한 파지 불안정
버니 + 실린더: 복잡한 기하학적 형태에서의 접촉점 예측 오류

실패는 주로 두 가지 원인에서 기인한다: 1. Point cloud의 노이즈/불완전성으로 인한 파지 포즈 오류 2. 첫 번째 물체를 잡은 채 손을 회전할 때의 슬립

2.4 4. 비판적 고찰 — 강점과 한계

2.4.1 4.1 강점

① 문제 정의의 명확성

“한 물체를 잡은 채로 다른 물체를 순차적으로 파지”라는 문제를 처음으로 실세계에서 구현한 연구로, 문제 설정 자체가 커뮤니티에 기여한다. 기존 MultiGrasp(동시 파지)와의 차별점이 명확하다.

② 실용적인 파이프라인 완성도

합성 → 검증 → 학습 → 배포로 이어지는 엔드-투-엔드 파이프라인
시뮬레이션 검증 + 확산 모델 조합으로 실세계 일반화 달성
실제 로봇 하드웨어(Franka + Allegro)로의 성공적 배포

③ Allegro Hand 특화 설계

기존 MultiGrasp는 Shadow Hand 기반이었다. 이 연구는 Allegro Hand에 특화된 데이터셋과 전략을 제시함으로써, 상대적으로 저렴한($16,000) Allegro Hand 연구자들에게 직접적으로 유용하다.

2.4.2 4.2 한계와 약점

① 고정된 파지 전략

Pinch-like(첫 번째) + Side grasp(두 번째)라는 조합이 하드웨어 경험에서 도출된 것은 합리적이지만, 이것이 최적인지 보장이 없다. 논문 자체도 “다른 순차 파지 전략 탐색은 향후 연구로 남긴다”고 명시한다.

서로 다른 물체 쌍에 대해 최적 전략이 다를 수 있음을 고려하면, 적응적 전략 선택 메커니즘이 없다는 점이 아쉽다.

② 두 물체로의 제한

현재는 두 물체만을 대상으로 한다. 세 개 이상의 물체로 확장할 때 손가락 분할 전략이 어떻게 일반화될지 불명확하다. 비교 대상인 SeqGrasp(arXiv:2503.22370)는 최대 4개 물체를 다루는 반면, 이 논문은 2개에 국한된다.

③ 고정 물체 배치

실험에서 물체들이 미리 정해진 캐노니컬 포즈로 배치된다. 실제 환경에서는 물체가 임의의 위치와 자세로 있을 것이므로, 이 가정은 현실 적용성을 약화시킨다.

④ 모션 플래닝의 미완성

파지 포즈 생성과 파지 실행 사이의 모션 플래닝 통합이 충분하지 않다. 생성된 파지 포즈로 도달하는 경로를 계획하는 부분이 휴리스틱에 의존하며, 충돌 회피나 관절 한계 고려가 제한적이다.

⑤ 물체 상호작용 모델링의 부재

두 물체가 가까이 있을 때 발생하는 물체-물체 접촉을 파지 합성 단계에서 충분히 고려하지 않는다. 파지 중 두 물체가 서로 밀리거나 하는 상호작용이 실패를 유발할 수 있다.

2.5 5. 관련 연구와의 비교

2.5.1 5.1 동시대 유사 연구: SeqGrasp (arXiv:2503.22370)

거의 동시에 등장한 “Grasping a Handful: Sequential Multi-Object Dexterous Grasp Generation” 논문과 직접 비교가 흥미롭다.

비교 항목	SeqMultiGrasp (이 논문)	SeqGrasp / SeqDiffuser
대상 하드웨어	Allegro Hand	Allegro Hand (hand-agnostic 설계)
최대 물체 수	2개	4개
데이터셋 규모	자체 구축 (규모 미공개)	870K 파지, 509 물체
실세계 실험	✅ 180 트라이얼	✅ 실세계 검증
파지 전략	고정된 pinch+side 조합	Opposition Space 기반 동적 선택
추론 속도	확산 모델 (빠름)	SeqDiffuser: 최적화 대비 750~1250× 빠름
성공률 비교	56.7% (실세계)	MultiGrasp 대비 8.71~43.33% 향상

SeqGrasp가 더 큰 스케일과 더 많은 물체를 다루는 반면, SeqMultiGrasp는 실세계 실험의 구체성과 완전한 시스템 파이프라인에서 강점을 보인다.

2.5.2 5.2 이전 연구: MultiGrasp (arXiv:2310.15599)

MultiGrasp는 Shadow Hand를 이용한 동시(simultaneous) 다중 물체 파지를 다룬다. 핵심 차이:

MultiGrasp: 모든 물체를 한 번에 파지 (동시성)
SeqMultiGrasp: 물체를 하나씩 순서대로 파지 (순차성)

순차적 접근의 장점은 각 파지를 독립적으로 최적화할 수 있어 복잡한 상호작용을 피할 수 있다는 점이다. 다만 실행 시간이 더 길어진다.

2.5.3 5.3 DFC 기반 방법론과의 관계

이 논문은 DFC(Differentiable Force Closure) 알고리즘을 기반으로 하며, 이는 Liu et al. (2021)의 작업에서 비롯된다. DFC의 핵심은 force closure를 미분 가능한 에너지 함수로 표현해 경사 기반 최적화를 가능하게 한다는 점이다. SeqMultiGrasp는 여기에 링크 서브셋 제약을 추가함으로써 순차 파지 문제에 맞게 확장한다.

2.6 6. 새로운 로봇 손 플랫폼에서 SeqMultiGrasp를 재현하려면

SeqMultiGrasp는 Allegro Hand에 특화된 설계를 갖고 있지만, 그 구조는 다른 다지 로봇 손으로도 충분히 이식할 수 있다. LEAP Hand, Shadow Hand, Inspire Hand, 혹은 자체 제작 손 플랫폼을 사용하는 연구자라면 다음 과정을 따라가 보자.

2.6.1 6.1 Step 1 — 하드웨어 특성 분석과 파지 전략 재설계

SeqMultiGrasp의 “Pinch-like + Side grasp” 조합은 Allegro Hand의 손가락 배치와 관절 가동 범위에서 경험적으로 도출된 것이다. 새로운 플랫폼에서는 이 전략을 그대로 가져오면 안 된다. 먼저 다음 질문에 답해야 한다.

손가락 수와 각 손가락의 DOF는 얼마인가?
각 손가락이 독립적으로 물체를 안정적으로 잡을 수 있는가, 아니면 반드시 여러 손가락이 협력해야 하는가?
손바닥(palm)의 형태가 물체 받침으로 활용 가능한가?
엄지가 대향 가능한 구조인가(opposable thumb)?

이 분석 결과를 바탕으로, “어떤 링크 서브셋이 첫 번째 물체를 안정적으로 잡을 수 있는가”와 “남은 링크로 두 번째 물체를 잡을 수 있는가”를 동시에 만족하는 분할 전략을 새로 정의해야 한다.

flowchart TD
    A["새 플랫폼 URDF / 관절 구조 분석"] --> B["손가락 조합별 가동 범위 시뮬레이션"]
    B --> C{"독립 파지 가능한\n서브셋 쌍 존재?"}
    C -- "예" --> D["파지 유형 정의\n(Grasp Type 1 / Type 2)"]
    C -- "아니오" --> E["손가락 수 부족\n→ 단일 물체로 범위 축소 검토"]
    D --> F["각 유형의 Contact Candidate\n포인트 맵 수동 정의"]

예를 들어 Shadow Hand(5손가락, 20+ DOF)라면, 엄지-검지-중지로 Pinch, 약지-소지로 Power grasp를 구성하는 방식이 자연스럽다. LEAP Hand처럼 손가락 4개에 관절이 적은 경우, 쓸 수 있는 DoF가 더 제한적이므로 전략을 단순화해야 한다.

2.6.2 6.2 Step 2 — URDF 등록과 시뮬레이터 설정

DFC 알고리즘과 물리 검증을 새 플랫폼에서 돌리려면 시뮬레이터에 손 모델을 올바르게 등록해야 한다.

체크리스트:

항목	내용
URDF 정확도	관절 한계(joint limits), 링크 질량, 충돌 메시(collision mesh) 정확성 확인
접촉 후보 맵	각 링크 표면에서 접촉점으로 사용할 후보 포인트 집합 정의
마찰 계수	실제 하드웨어의 손가락 표면 재질에 맞는 마찰 계수 설정
파지 유형 마스크	Type 1(첫 번째 물체용)과 Type 2(두 번째 물체용) 링크 마스크 코드 수정

Isaac Gym / Isaac Sim 환경을 사용하는 경우, GPU 병렬화를 최대한 활용해 대규모 파지 후보를 검증할 수 있다. MuJoCo를 사용한다면 mjcf 형식 변환이 선행되어야 한다.

2.6.3 6.3 Step 3 — 합성 데이터셋 재구축

기존 SeqMultiGrasp 데이터셋은 Allegro Hand에 특화되어 있으므로 새 플랫폼용 데이터셋을 처음부터 구축해야 한다. 파이프라인 자체는 동일하게 적용할 수 있다.

1. 물체 메시 수집 (YCB, ShapeNet, 또는 자체 스캔)
2. DFC 에너지 최소화로 단일 물체 파지 후보 합성
   - 링크 서브셋 제약 적용 (새 플랫폼에 맞게)
3. 물리 시뮬레이터에서 안정성 검증 (시뮬 드롭 테스트)
4. 검증된 파지 쌍을 병합 → 다중 물체 파지 설정 생성
5. 병합 후 재검증 (두 물체 동시 안정성)

소요 시간 예상: GPU 클러스터 사용 시 수천 개 파지 후보 합성에 수 시간~수십 시간 수준. hesic73/SeqMultiGrasp 코드베이스에서 손 모델 관련 클래스만 교체하는 방식으로 시작하면 빠르다.

2.6.4 6.4 Step 4 — 확산 모델 재학습

확산 모델 구조 자체는 입력 조건(point cloud) 과 출력 공간(관절 설정 + 포즈) 의 차원만 달라지므로 비교적 쉽게 이식된다.

주의할 점:

출력 차원 변경: Allegro는 관절이 16개지만, 새 플랫폼의 DOF 수에 맞게 출력 헤드를 수정해야 한다
정규화 범위 재설정: 관절 각도의 범위가 다르므로 정규화 스케일 재조정 필요
기하학 손실 추가 여부: 일부 후속 연구(DexEvolve 등)는 forward kinematics를 통해 keypoint 위치 손실을 추가하는데, 새 플랫폼에서 이를 적용하면 sim-to-real 품질을 높일 수 있다

# 예: 관절 차원 수정 예시 (의사코드)
class GraspDiffusionModel(nn.Module):
    def __init__(self, dof: int, ...):
        # Allegro: dof=16
        # Shadow: dof=24
        # LEAP:   dof=16
        self.joint_head = nn.Linear(hidden_dim, dof)
        self.wrist_head = nn.Linear(hidden_dim, 6)  # SE(3) 표현

2.6.5 6.5 Step 5 — 실세계 Sim-to-Real 갭 줄이기

새로운 플랫폼일수록 sim-to-real 갭이 크다. SeqMultiGrasp도 실세계 성공률이 시뮬(65.8%)보다 낮은 56.7%였는데, 새 플랫폼에서는 초기에 더 낮을 수 있다. 이를 줄이는 실용적 방법들:

전략	설명
도메인 랜덤화	시뮬 훈련 시 마찰계수, 물체 질량, 관절 댐핑을 무작위로 변화
실세계 미세조정	소량의 실세계 파지 시도 결과로 확산 모델 fine-tuning
촉각 피드백 통합	슬립 감지 센서로 파지 중 실시간 조정 (Tactile sensing)
Point cloud 노이즈 증강	훈련 시 depth camera 노이즈를 시뮬레이션해 real-world 강건성 향상

2.6.6 6.6 요약: 이식 난이도 체크리스트

flowchart LR
    A["🔵 쉬움\n확산 모델 구조\n(차원만 수정)"] --> B
    B["🟡 중간\n파지 전략 재설계\n(링크 서브셋 정의)"] --> C
    C["🔴 어려움\n새 데이터셋 구축\n(시뮬 대규모 합성)"] --> D
    D["🔴 어려움\nSim-to-Real 갭\n(반복 실험 필요)"]

결국 가장 큰 비용은 새 플랫폼에 맞는 데이터셋 재구축과 sim-to-real 갭 해소에 있다. 구조 이해와 코드 이식 자체는 공개된 코드베이스를 기반으로 수 주 내에 가능한 수준이다.

2.7 7. 향후 연구 방향

이 논문이 열어놓은 미래 연구 방향들을 정리하면:

① 적응적 파지 전략 선택

물체 쌍의 특성(크기, 형태, 무게 분포)에 따라 최적의 손가락 분할 전략을 자동으로 선택하는 방법. 강화학습이나 LLM 기반 전략 선택이 후보다.

② 세 개 이상 물체로 확장

Allegro Hand의 남은 손가락 자유도를 더 세밀하게 활용해 세 번째 물체까지 파지하는 전략. 단, 세 번째 물체에 쓸 수 있는 DoF가 급격히 줄어든다는 현실적 한계가 있다.

③ 임의 배치 물체 처리

고정된 캐노니컬 포즈가 아닌 임의 위치/자세의 물체에 대한 강건한 파지. 6-DOF pose estimation과의 통합이 필요하다.

④ Tactile Sensing 통합

파지 중 촉각 피드백을 이용해 슬립을 감지하고 파지 힘을 적응적으로 조절하는 방법. 특히 두 번째 물체를 파지할 때 첫 번째 물체가 슬립하는 문제를 해결하는 데 중요하다.

⑤ VLA 모델과의 통합

Vision-Language-Action 모델을 활용해 “컵과 볼펜을 집어서 책상에 놓아라” 같은 자연어 명령을 받아 순차 파지를 수행하는 고수준 조작 시스템으로 발전.

2.8 8. 요약 및 결론

SeqMultiGrasp는 로봇 손 연구에서 오랫동안 미개척 영역이었던 순차적 다중 물체 파지에 대한 최초의 완전한 실세계 시스템을 제시한다.

핵심 기여를 다시 한 번 정리하면:

물리적으로 실현 가능한 다중 물체 파지 설정 합성 파이프라인 — DFC 기반 단일 물체 파지 합성 → 시뮬레이터 검증 → 병합의 3단계 구조
Allegro Hand 특화 순차 파지 전략 — Pinch-like + Side grasp 조합으로 손의 자유도를 분할 활용
Point cloud 조건부 확산 모델 기반 실세계 배포 — 실세계 65.8%(시뮬) / 56.7%(실세계) 성공률 달성

한계도 분명하다. 두 물체로의 제한, 고정된 파지 전략, 실세계의 임의 물체 배치 미지원 등이 향후 연구가 해결해야 할 과제다.

그러나 한 걸음 물러서서 보면, 이 논문이 가진 가장 중요한 가치는 “이게 가능하다”는 것을 처음으로 보여줬다는 점이다. 기술의 진보는 종종 “이게 가능할까?”에서 시작해 “이게 어떻게 하면 더 잘 될까?”로 이동한다. SeqMultiGrasp는 그 첫 번째 질문에 답한 연구다.

손 하나로 두 물체를 집는 것 — 인간에게는 아무렇지 않은 이 동작이, 로봇에게는 아직 정복해야 할 산이다. 그 정상을 향한 첫 번째 베이스캠프가 세워졌다.

2.9 참고 문헌

He et al., “Sequential Multi-Object Grasping with One Dexterous Hand,” IROS 2025. arXiv:2503.09078
Lu et al., “Grasping a Handful: Sequential Multi-Object Dexterous Grasp Generation,” arXiv:2503.22370
Lum et al., “MultiGrasp: Grasp Multiple Objects with One Hand,” arXiv:2310.15599
Liu et al., “Synthesizing Diverse and Physically Stable Grasps with Arbitrary Hand Structures using Differentiable Force Closure Estimator,” RA-L 2021
Lum et al., “Dexterous Functional Pre-Grasp Manipulation with Diffusion Policy,” 2024