📘Goodbye 2025
2025 회고
월별 이벤트 훑어보기
1월
2월
3월
4월
5월
6월
7월
8월
9월
10월
11월
12월
한 해 총 회고

with GPT
2025 회고
― “기술을 쓰는 사람”에서 “기술을 설계하는 사람”으로
2025년의 대화를 관통하는 가장 뚜렷한 인상은, 당신이 더 이상 새로운 기술을 따라가는 단계에 머물러 있지 않았다는 점이다. 오히려 끊임없이 등장하는 논문과 프레임워크, 하드웨어 사이에서 “무엇이 본질이고, 무엇이 일시적인가”를 가려내려는 태도가 점점 분명해졌다.
1. 구현보다 앞선 질문: “이게 왜 필요한가?”
당신이 던진 질문들은 점점 코드 레벨에서 멀어지고 있었다.
- “이 모델이 정말로 로봇 손의 문제를 해결하는가?”
- “이 아키텍처는 편의인가, 필연인가?”
- “데이터를 더 모으는 게 답인가, 표현이 잘못된 건가?”
많은 연구자들이 어떻게 구현하는지에 집착할 때, 당신은 계속해서 왜 이런 구조가 나왔는지를 되묻고 있었다. 이는 단순한 호기심이 아니라, 현장에서 실제로 배포하고, 고장 나고, 다시 고쳐본 사람만이 갖는 질문이었다.
그 과정에서 분명한 깨달음 하나가 자리 잡았다.
“좋은 연구는 데모가 아니라, 실패한 조건까지 설명할 수 있어야 한다.”
그래서 당신의 논문 리뷰는 점점 요약이 아니라 해부에 가까워졌다.
2. 강화학습에 대한 태도의 변화: 기대 → 절제 → 도구화
2025년 초반까지 강화학습은 여전히 “가능성의 영역”으로 다뤄졌다. 하지만 시간이 지날수록, 당신의 말 속에서 이런 인식이 반복적으로 드러났다.
- RL은 만능이 아니다
- Sim-to-Real은 “간극”이 아니라 “체계의 문제”다
- 학습보다 표현과 관측, 제어 인터페이스 설계가 더 중요할 때가 많다
당신은 강화학습을 포기하지 않았지만, 신앙처럼 대하지도 않았다. 오히려 다음과 같은 결론에 가까워졌다.
강화학습은 ’지능’이 아니라 ’미세조정 장치’에 가깝다. 큰 구조를 잘 설계한 다음에야 비로소 가치가 생긴다.
이 인식은 In-Hand Manipulation, Teleoperation, Residual RL, Diffusion Policy 등 서로 다른 주제를 관통하며 반복적으로 확인되었다.
3. 로봇 손을 바라보는 관점의 성숙
다관절 로봇 손에 대해, 당신은 더 이상 “제어가 어렵다”는 말로 설명하지 않았다. 대신 이런 식의 사고가 자주 등장했다.
- 손은 로봇이 아니라 작은 시스템들의 집합이다
- 접촉(contact)은 이벤트가 아니라 상태 공간의 일부다
- 촉각, 시각, 언어는 modality가 아니라 시간 스케일의 문제다
이 지점에서 중요한 깨달음이 있었다.
“손 조작 문제는 정책의 문제가 아니라, 세계를 어떻게 분해하느냐의 문제다.”
그래서 촉각 시뮬레이션, 시각-촉각 결합, VLA 모델을 다룰 때도 항상 “이 정보가 정책에 언제, 어떤 형태로 들어가야 하는가”를 먼저 고민했다.
4. 오픈소스와 정체성: 보여주기보다 남기기
2025년 대화에서 점점 더 강해진 태도는, ‘정리해서 남기려는 욕구’였다.
- README를 고치고
- 설치 경로를 정리하고
- 블로그 글을 qmd로 남기고
- 논문을 A4 여러 페이지로 풀어 쓰고
이는 단순한 기록 욕구가 아니었다. 당신은 점점 이렇게 생각하고 있었다.
“내가 이해하지 못한 것은, 세상에 설명할 수 없다.”
그래서 글은 점점 길어졌고, 설명은 점점 단순해졌으며, 대상 독자는 “나보다 못 아는 사람”이 아니라 “미래의 나”에 가까워졌다.
5. 2025년의 핵심 깨달음 요약
2025년을 관통하는 깨달음을 정리하면 다음과 같다.
- 모델은 답이 아니라 가설이다
- 성능보다 구조가 오래간다
- 로봇 문제의 절반은 인터페이스 설계다
- 지능은 학습보다 표현에서 먼저 무너진다
- 잘 설명할 수 있게 되었다면, 그제서야 안 것이다
마무리하며
2025년의 당신은 “새로운 걸 배우는 사람”이기보다는 **“배운 것들 사이의 경계를 정리하는 사람”에 가까웠다.
이 회고에서 가장 인상적인 점은, 당신의 질문이 점점 더 겸손해졌다는 것이다.
그리고 아이러니하게도, 그 겸손함이 당신을 이전보다 훨씬 더 정확한 엔지니어이자 연구자로 만들고 있었다.
아래는 앞선 회고를 자연스럽게 이어서 작성한 내용이다. 이번 부분에서는 생각과 깨달음이 어떤 선택과 태도로 굳어졌는지, 그리고 그것이 시스템·연구·일의 방식에 어떻게 반영되었는지를 중심으로 정리했다.
6. “무엇을 안 할 것인가”를 결정하기 시작한 해
2025년의 중반부를 지나면서, 당신의 질문에는 미묘하지만 분명한 변화가 있었다. 더 이상 “이걸 해볼까?”보다는 다음과 같은 질문이 늘어났다.
- “이건 지금 하지 않아도 되는가?”
- “이건 이미 충분히 복잡하지 않은가?”
- “내가 책임질 수 있는 범위인가?”
이는 야망이 줄어든 것이 아니라, 야망을 현실에 맞게 형태화할 수 있게 되었다는 신호였다.
당신은 점점 깨닫고 있었다.
모든 가능성을 열어두는 설계는, 결국 아무 것도 끝내지 못하는 설계가 된다.
그래서 아키텍처는 단순해졌고, 옵션은 줄어들었으며, 실험 수는 많아지기보다 의미 있어졌다.
7. 데모와 연구 사이에서의 명확한 입장
CES 시연, 실제 하드웨어 데모, 외부에 “보여지는” 결과물에 대해 당신은 점점 더 분명한 태도를 보였다.
- 데모는 연구의 증명이 아니다
- 하지만 증명되지 않은 연구는 데모에서 반드시 무너진다
이 이중적인 인식은 중요했다. 당신은 데모를 싫어하지 않았지만, 데모를 위해 연구를 왜곡하는 것도 원치 않았다.
그 대신 이런 기준이 자리 잡았다.
“이 데모가 실패하면, 내가 어느 레이어를 의심해야 하는지가 바로 떠올라야 한다.”
그래서 시스템은 점점 층위가 명확한 구조를 갖게 되었다.
- Teleoperation은 Teleoperation으로
- Policy는 Policy로
- Perception은 Perception으로
섞지 않음으로써, 오히려 더 빨리 고칠 수 있는 구조였다.
8. Vision-Language-Action을 바라보는 현실적인 시선
VLA 모델에 대해, 당신은 누구보다 열심히 읽고 분석했지만 동시에 누구보다 냉정했다.
당신이 반복적으로 도달한 결론은 이것에 가까웠다.
VLA는 ’지능의 해결책’이 아니라, 사람이 설계한 구조를 덜 어색하게 이어주는 접착제다.
그래서 당신은 다음을 경계했다.
- 모든 것을 언어로 밀어 넣는 설계
- 정책이 책임져야 할 것을 표현 학습에 넘기는 구조
- 실패를 “모델이 아직 덜 커서”로 설명하는 태도
대신, VLA를 사람과 로봇 사이의 인터페이스로 보기 시작했다. 이는 손 조작, teleoperation, shared autonomy를 관통하는 중요한 관점 전환이었다.
9. 스스로에 대한 인식 변화
2025년의 후반부에 가까워질수록, 당신의 말 속에는 기술적인 질문과 함께 이런 생각들이 드러났다.
- “이걸 설명하려니 너무 어렵다”
- “이건 내가 한 일로 말할 수 있나?”
- “이게 정말 내 기여인가?”
이는 불안이 아니라, 정확성에 대한 집요함이었다.
당신은 점점 “참여했다”는 말보다 “내가 책임졌다”는 말을 중요하게 여기고 있었다.
할 수 있었다는 것과, 내가 선택해서 그렇게 만들었다는 것은 다르다.
이 기준은 이력서, 오픈소스, 블로그 글, 내부 문서에도 동일하게 적용되었다.
10. 2025년이 남긴 가장 큰 정리
모든 대화를 종합했을 때, 2025년은 당신에게 이런 한 문장으로 정리될 수 있다.
“나는 이제 기술을 ’잘 쓰는 사람’이 아니라, 무엇을 기술로 만들지 선택하는 사람이다.”
이 문장은 거창해 보이지만, 실제로는 매우 실무적인 깨달음이다.
- 리소스는 제한되어 있고
- 시스템은 복잡하며
- 로봇은 늘 예상 밖으로 움직인다
그 현실 속에서, 선택하지 않은 것들이 오히려 당신의 정체성을 또렷하게 만들었다.
아래 글은 앞선 회고의 결론부에 해당한다. 생각과 태도의 변화가 실제 아키텍처 선택, 기술적 판단 기준, 그리고 의도적으로 내려놓은 고민들로 어떻게 구체화되었는지를 정리했다. 가능한 한 추상화를 피하고, 당신이 2025년 내내 반복적으로 선택했던 엔지니어링적 결단의 형태로 서술한다.
11. 생각은 결국 구조로 남는다
선택들은 어떤 아키텍처 결정으로 이어졌는가
2025년의 가장 중요한 변화는 “더 나은 알고리즘”이 아니라 “덜 뒤엉킨 구조”를 선택하기 시작했다는 점이다.
당신은 점점 다음과 같은 방향으로 시스템을 밀어붙였다.
11.1 Layered Architecture의 재정의
이전에도 계층 구조는 존재했다. 그러나 2025년에 들어 그 의미가 달라졌다.
- 이전: Perception → Policy → Control 이라는 논리적 구분
- 이후: 실패 시 책임 소재가 명확히 갈리는 구조
즉, 계층의 목적은 “이해를 돕기 위함”이 아니라,
실패했을 때 가장 먼저 의심해야 할 컴포넌트를 자동으로 지목하기 위함
으로 바뀌었다.
그 결과,
- Perception은 “정확해야 할 것”만 담당했고
- Policy는 “판단해야 할 것”만 남았으며
- Control은 “물리적으로 가능한 것”만 수행했다
이 세 레이어가 서로 보완하지 않도록 의도적으로 차단한 것이 핵심이었다.
11.2 Teleoperation과 Learning의 분리
2025년 초반까지도 두 영역은 자주 섞였다.
- Teleop으로 수집한 데이터를 바로 학습에 쓰고
- Learning의 실패를 Teleop 품질로 설명하고
- Teleop 인터페이스를 Policy의 요구에 맞춰 왜곡하는 경우
하지만 결국 당신은 한 가지 결론에 도달했다.
Teleoperation은 ’데이터 파이프라인’이 아니라 하나의 완결된 제어 시스템이다.
그래서 다음 선택들이 이어졌다.
- Teleoperation은 단독으로 안정성을 증명
- Learning은 Teleop을 모방할 책임을 가짐
- Shared Autonomy는 양쪽의 “겹침 영역”으로만 제한
이 선택은 데이터 효율보다 느렸지만, 시스템 전체의 신뢰도를 급격히 높였다.
11.3 학습 대상의 축소: “모든 것을 학습하지 않는다”
2025년 후반으로 갈수록, 학습 대상은 계속 줄어들었다.
- Contact timing은 학습하지 않거나
- Grasp의 초기 조건은 고정하고
- 제어 주파수와 지연은 학습 밖으로 빼냈다
이는 패배가 아니라, 다음 깨달음의 결과였다.
학습은 자유도를 늘리는 도구가 아니라, 이미 안정적인 구조를 미세하게 조율하는 도구다.
그래서 RL은 “중심 기술”이 아니라 마지막에 붙는 조정기(residual) 로 자리 잡았다.
12. “이건 버리고, 저건 남겼다”
판단의 기준은 무엇이었는가
당신의 선택에는 일관된 기준이 있었다. 논문마다, 모델마다 달라 보였지만 실제로는 늘 같은 질문으로 귀결됐다.
기준 1. 실패를 설명할 수 있는가?
- YES → 남김
- NO → 버림
성능이 아무리 좋아도, “왜 실패했는지”가 설명되지 않는 기술은 당신의 아키텍처 안으로 들어오지 못했다.
이 기준은 VLA, Diffusion Policy, 대규모 End-to-End 모델 전반에 동일하게 적용되었다.
기준 2. 책임의 범위가 명확한가?
- 이 결과는 어느 모듈의 책임인가?
- 이 파라미터는 누가 조정해야 하는가?
- 이 에러는 설계 문제인가, 학습 문제인가?
이 질문에 즉답이 나오지 않으면, 구조 자체를 다시 의심했다.
모호함은 연구에서는 자유지만, 시스템에서는 기술 부채다.
기준 3. 사람이 개입할 자리가 남아 있는가?
당신은 자동화를 추구했지만, 완전 무인 시스템을 전제로 설계하지는 않았다.
- 사람이 개입할 수 없는 정책
- 디버깅 경로가 닫힌 모델
- “다시 학습해야 한다”가 유일한 해결책인 구조
이런 것들은 일관되게 배제되었다.
13. 2026년을 앞두고, 더 이상 고민하지 않게 된 것들
2025년이 끝나갈 무렵, 당신이 의식적으로 내려놓은 질문들이 있다.
13.1 “End-to-End가 맞는가?”라는 질문
더 이상 이 질문을 하지 않았다. 상황에 따라 맞고, 대부분의 실제 시스템에서는 아니다.
이제는 이렇게 생각한다.
End-to-End는 목표가 아니라, 특정 조건에서만 허용되는 전략이다.
13.2 “이 모델이 최신인가?”
이 질문 역시 중요도가 급격히 떨어졌다.
- 최신이지만 구조가 불안한 모델보다
- 조금 오래됐어도 설계 원리가 명확한 모델을 택했다
시간이 지나도 남는 것은 성능 그래프가 아니라 개념과 구조라는 사실이 분명해졌기 때문이다.
13.3 “이게 연구냐, 제품이냐?”
2025년을 거치며 이 이분법은 의미를 잃었다.
- 연구라도 돌아가야 하고
- 데모라도 설명 가능해야 한다
당신에게 중요한 것은 이제 이것뿐이다.
“이 선택에 대해, 내가 끝까지 설명할 수 있는가?”
14. 정리 문장 하나로 남긴다면
이 모든 선택을 한 문장으로 요약하면 다음과 같다.
2025년의 나는, 더 많은 가능성을 추가하기보다 더 적은 불확실성을 선택했다.
그리고 그 선택들은 아키텍처로, 코드로, 문서로 남았다.
2026년을 앞둔 지금, 당신은 더 이상 “어떤 길이 맞을까?”를 묻기보다는 “이 길을 얼마나 정확하게 끝낼 것인가”를 고민하는 상태다.
이건 방향의 문제가 아니라, 깊이의 문제다.
아래 글은 회고가 아니라 선언문이다. 설명이나 합리화보다, 앞으로의 선택을 구속하는 기준으로 쓰였다. 당신이 2026년을 맞이하며 스스로에게—그리고 함께 일하는 시스템과 사람들에게—암묵적으로 적용하게 될 규칙들을, 가능한 한 단정한 문장으로 정리했다.
2026 기술적 선언문
— 내가 만들 것, 그리고 만들지 않을 것
서문
나는 더 이상 “무엇이 가능할까”를 증명하는 사람이 아니다.
나는 무엇을 시스템으로 만들 가치가 있는지 선택하는 사람이다.
그러므로 2026년의 기술적 판단은 능력의 한계가 아니라 책임의 범위에 의해 결정된다.
I. 내가 만들 시스템에 대한 선언
1. 나는 설명 가능한 실패를 전제로 시스템을 만든다
내 시스템은 성공보다 실패를 먼저 가정한다.
실패했을 때
- 어느 레이어가 문제였는지
- 어떤 가정이 깨졌는지
- 재현 가능한 조건이 무엇인지
를 즉시 설명할 수 없다면, 그것은 아직 시스템이 아니다.
성공은 시연할 수 있지만, 실패는 구조로만 설명할 수 있다.
2. 나는 레이어가 겹치지 않는 아키텍처만 설계한다
Perception, Policy, Control은 서로를 보완하지 않는다. 각자는 자신의 실패를 다른 레이어에 떠넘기지 못한다.
- 인식의 오류는 인식의 문제
- 판단의 오류는 정책의 문제
- 동작의 오류는 제어의 문제
좋은 구조란, 서로를 도와주는 구조가 아니라 서로의 책임을 침범하지 못하는 구조다.
3. 나는 학습을 ’확대’가 아닌 ’축소’에 사용한다
학습은 자유도를 늘리는 도구가 아니다.
- 이미 안정적인 구조
- 이미 이해 가능한 인터페이스
- 이미 검증된 물리 제약
이 잔여 오차(residual) 를 조정하는 데만 사용한다.
나는 학습으로
- 타이밍 전체를 맡기지 않고
- 안전 경계를 위임하지 않으며
- 디버깅 책임을 넘기지 않는다.
4. 나는 사람이 개입할 수 없는 시스템을 설계하지 않는다
완전 자동화를 목표로 삼지 않는다.
- 사람이 개입할 수 있는 시점
- 사람이 이해할 수 있는 상태 표현
- 사람이 고칠 수 있는 실패 경로
가 없는 시스템은 기술적으로 미완성이다.
II. 내가 만들지 않을 것들
이제부터는 명시적으로 쓰겠다. 이것들은 만들지 않는다.
5. 나는 End-to-End만으로 설명되는 시스템을 만들지 않는다
훈련이 잘 되고, 성능이 좋고, 데모가 화려하더라도,
- 어디서 깨지는지 설명할 수 없고
- 어느 층을 고쳐야 하는지 모른다면
그것은 내가 유지·확장할 시스템이 아니다.
6. 나는 디버깅 경로가 “다시 학습” 하나뿐인 모델을 만들지 않는다
- 파라미터 튜닝으로 해결되지 않는 문제
- 실패를 데이터 부족으로만 돌리는 구조
- 행동 이유를 확인할 수 없는 정책
이것들은 연구의 자유일 수는 있어도, 시스템 설계의 책임 회피다.
7. 나는 ’최신’이라는 이유로 모델을 채택하지 않는다
최신 모델을 묻기 전에 나는 먼저 묻는다.
- 이 모델의 가정은 무엇인가?
- 어떤 실패 모드를 내포하는가?
- 6개월 뒤에도 설명 가능한가?
이 질문에 답할 수 없다면, 시점이 아니라 구조의 문제다.
8. 나는 Teleoperation을 데이터 파이프라인으로 만들지 않는다
Teleoperation은:
- 하나의 제어 시스템이며
- 단독으로 안정성을 증명해야 하고
- 그 자체로 완결성을 가진다
학습은 Teleoperation을 모방할 뿐, Teleoperation이 학습을 위해 존재하지 않는다.
III. 조직과 협업에 대한 선언
9. 나는 “해볼 수 있다”가 아닌 “책임질 수 있다”를 기준으로 일을 선택한다
할 수 있는 일은 많다. 하지만 내가 설계한 구조에 대해
- 실패 시 설명하고
- 수정안을 제시하고
- 재현할 수 있다면
그 일만 맡는다.
10. 나는 문서화되지 않은 지능을 신뢰하지 않는다
코드가 있어도, 모델이 있어도, 결과가 있어도,
- 문서로 설명되지 않으면
- 구조로 전달되지 않으면
- 사람에게 인수되지 않으면
그 지능은 개인의 기억일 뿐, 시스템이 아니다.
IV. 마지막 문장
2026년을 앞두고, 내가 스스로에게 남기는 문장은 이것이다.
나는 더 많은 기능을 만드는 사람이 아니라, 더 적은 실패를 남기는 사람으로 일한다.
그리고 이 선언문은 내가 어떤 기술을 선택하든, 어떤 프로젝트를 하든, 항상 되돌아와 확인해야 할 기준표다.
with Claude
서문
2025년은 로보틱스와 AI의 경계가 급격히 허물어지는 한 해였다. 수십 편의 최신 논문을 리뷰하고, Allegro Hand V4 플랫폼으로 실제 연구를 수행하며, CES 전시를 준비하는 과정에서 얻은 통찰들을 정리해본다.
1. “Foundation Model이 로보틱스의 게임 체인저다”
올해 가장 큰 패러다임 시프트는 Vision-Language-Action (VLA) 모델의 등장이었다. RT-2, OpenVLA, π0 시리즈를 리뷰하면서 깨달은 것은, 로보틱스가 더 이상 고립된 분야가 아니라는 점이다.
핵심 깨달음: - 인터넷 스케일의 비디오/이미지 데이터로 사전학습된 모델이 로봇에도 적용 가능하다 - “언어”가 로봇 제어의 인터페이스가 될 수 있다 — 이것은 단순히 명령어를 받는 것이 아니라, 세상에 대한 상식(common sense)을 로봇에게 주입하는 것 - mimic-video 논문을 리뷰하면서: “비디오 모델이 물리 법칙을 암묵적으로 학습한다”는 아이디어가 인상적이었다. 로봇 데이터 없이도 인터넷 비디오만으로 동역학을 배울 수 있다니!
VLA Survey를 정리하며 느낀 점: 로보틱스의 미래는 “더 좋은 제어 알고리즘”이 아니라 “더 풍부한 사전지식을 가진 모델”에 있다. 이는 연구 방향 자체를 재고하게 만들었다.
2. “다지 손 조작(Dexterous Manipulation)은 로보틱스의 마지막 프론티어”
Allegro Hand V4를 연구 플랫폼으로 삼으며 가장 많이 고민한 영역이다. DexGraspVLA, Grasp’D, Lightning Grasp, VQ-ACE, AnyRotate 등을 리뷰하면서 다지 손 조작의 어려움과 가능성을 동시에 깨달았다.
왜 어려운가: - 24 자유도(4손가락 × 4관절 + 엄지 4관절)의 고차원 제어 공간 - 접촉 역학의 복잡성 — 미끄러짐, 마찰, 다중 접촉점 - 센서 정보의 부족 — 촉각 없이는 “눈 감고 물건 잡기”와 같다
PCHands 논문에서의 통찰: > “17종의 서로 다른 매니퓰레이터에서 첫 번째 주성분(PC1)은 일관되게 ’손 열림/닫힘’을 나타낸다”
이것은 인간 손의 시너지(synergy)가 로봇 손에도 전이될 수 있음을 보여준다. 고차원 제어 문제를 저차원 잠재공간에서 풀 수 있다는 희망!
CES 전시 준비를 하며: HORA(In-Hand Object Rotation) 프로젝트 영상 스크립트를 쓰면서 고민한 것 — Allegro Hand를 “완성된 제품”이 아니라 “연구 플랫폼”으로 포지셔닝하는 것. AI 강화학습 코드를 가져다가 바로 적용할 수 있는 하드웨어로서의 가치를 강조했다.
3. “Sim-to-Real: 간극을 메우는 예술”
시뮬레이션에서 학습한 정책을 실제 로봇에 전이하는 것은 여전히 “마법”에 가깝다. 올해 리뷰한 여러 논문들이 이 간극을 어떻게 메우는지 보여주었다.
VIRAL 논문에서의 핵심 교훈: - 64개 GPU로 대규모 학습 → 91.5% 성공률 달성 - “Coverage Gap” 개념: 물리 시뮬레이션의 다양성, 태스크 커버리지, 보상 설계, 하드웨어-시뮬레이션 격차 - 솔직한 자기비판이 인상적: 저자들이 현재 접근법의 근본적 한계를 명확히 인정
Elvis Hsieh et al.의 논문 (“Learning Dexterous Manipulation Skills from Imperfect Simulations”): > “불완전한 시뮬레이션에서도 정책을 학습할 수 있다”
이 논문은 MABA-MABA(Men Are Better At/Machines Are Better At) 원칙을 적용한 하이브리드 접근법을 제안했다. 인간과 로봇의 역할 분담이라는 아이디어가 실용적이었다.
4. “촉각(Tactile Sensing)의 재발견”
TacThru 논문을 리뷰하며: “Keyline marker” 설계로 투명 젤라스토머에서도 마커 추적이 가능하다 — 시각과 촉각을 동시에!
Elle Miller의 NeurIPS 2025 논문에서 충격적 발견: > “단순한 이진 접촉 센서가 고해상도 촉각 센서보다 더 나은 성능을 낼 수 있다”
이것은 직관에 반하는 결과였다. 복잡한 센서보다 적절한 학습 알고리즘(자기지도학습)이 더 중요하다는 교훈.
5. “텔레오퍼레이션: 데이터 수집의 병목을 해결하다”
MANUS Core 3 SDK와 ROS2를 사용한 텔레오퍼레이션 시스템 개발은 올해의 실무적 하이라이트였다.
핵심 기술적 도전:
- 글러브 ID 하드코딩 문제 해결 (왼손: 1565433408, 오른손: -1033192096)
- ROS1에서 ROS2로 전환 — while-loop 제어에서 timer-based 제어로
- PyTorch 디바이스 일관성 문제 해결
ROS2 제어 루프 최적화를 하며 배운 것:
“terminate called without an active exception” 에러와 씨름하며 ROS2의 스레딩 모델을 깊이 이해하게 되었다.
GeoRT(Geometric Retargeting)의 의미:
규칙 기반이 아닌 학습 기반 손 리타겟팅 — 인간 손 동작을 로봇 손으로 자연스럽게 매핑
6. “인간 비디오에서 로봇이 배운다”
Physical Intelligence의 π0.5 논문:
“인간 데모 비디오를 또 하나의 embodiment 타입으로 취급”
명시적 정렬 메커니즘 없이도 human-to-robot transfer가 가능하다는 발견. 이것은 데이터 수집의 패러다임을 바꿀 수 있다.
AINA (스마트 렌즈 기반 로봇 학습):
Meta Aria Gen 2 스마트 글래스로 “야생(in-the-wild)” 인간 데모를 수집 → Point-Policy로 로봇 조작 학습
MT3 (Learning a Thousand Tasks in a Day): > “하나의 데모로 하나의 태스크를 학습 — 기존 대비 175배 효율적”
retrieval-based 접근법의 힘. 모든 것을 네트워크 가중치에 우겨넣지 않아도 된다!
7. “SE(3)-Equivariance: 기하학적 대칭성을 활용하라”
SE(3) 동등성 튜토리얼을 정리하며: 이 개념이 왜 중요한지 드디어 이해했다. 물리 법칙은 회전에 대해 불변(invariant)하지만, 힘이나 속도는 회전에 따라 함께 변한다(equivariant).
Equiformer 논문 스터디 후 실습: - Grasp quality prediction (invariant output) - Grasp pose prediction (equivariant output) - Contact force prediction
SE(3)-equivariant 네트워크는 데이터 효율성과 일반화 능력에서 전통적 접근법을 압도한다.
8. “하이브리드 접근법의 부상”
VLA + Diffusion Policy 스위칭 (ADAPT Hand 2 논문): VLA 모델만으로는 40% 미만 → 하이브리드 접근으로 80% 이상
ResFiT (Residual Fine-Tuning): - BC 정책을 블랙박스로 취급 - 경량 residual correction을 off-policy RL로 학습 - 200배 샘플 효율성 개선
CompDiffuser (Compositional Diffusion): 장시간 궤적 계획을 위한 궤적 스티칭. 양방향 확산 과정으로 궤적 조각들을 부드럽게 연결.
9. 연구 방법론에 대한 성찰
올해 수십 편의 논문을 리뷰하면서 나만의 리뷰 스타일을 확립했다.
Feynman 스타일 설명: > “고등학생도 이해할 수 있게, 하지만 기술적 깊이를 잃지 않으며”
복잡한 개념을 일상적 비유로 설명하는 것이 나의 이해도를 검증하는 방법이기도 했다.
문서 처리 워크플로우: - DOCX → Markdown (pandoc + –wrap=none) - 인용 번호 제거 (정규표현식) - LaTeX 수식 포맷팅 ($ 및 $$) - ASCII 다이어그램 → Mermaid 차트
이 과정에서 “정보의 본질”과 “형식의 군더더기”를 구분하는 눈이 생겼다.
10. 2025년의 핵심 메시지
- Foundation Model은 로보틱스의 미래다 — 하지만 embodiment gap은 여전히 도전과제
- 다지 손 조작은 가능해지고 있다 — 시뮬레이션, 학습 알고리즘, 하드웨어의 삼박자가 맞아가는 중
- 데이터 효율성이 핵심이다 — 수천 개의 데모 대신 하나의 데모로
- 하이브리드 접근법이 답이다 — VLA만으로도, Diffusion만으로도 충분하지 않다
- 촉각은 과소평가되고 있다 — 시각 중심에서 멀티모달로
- Sim-to-Real은 아직 “예술”이다 — 하지만 점점 “과학”이 되어가고 있다
맺음말
Allegro Hand V4를 플랫폼으로 연구하면서, 그리고 수많은 최신 논문들을 리뷰하면서, 로보틱스 분야가 급격한 전환점에 있음을 체감했다. 2025년은 “로봇이 진짜로 세상을 이해하기 시작한 해”로 기억될 것 같다.
내년에는 지금까지 쌓은 통찰들을 실제 연구로 구현하는 데 집중하고 싶다. 특히: - VLA 모델과 다지 손 조작의 결합 - 텔레오퍼레이션 시스템의 고도화 - Sim-to-Real transfer의 체계화
2025년, 치열하게 공부하고 고민한 한 해였다.