PhysHMR - Paper Library

ENG

0:00 / 0:00

KOR

0:00 / 0:00

0. Abstract (초록)

단안 비디오로부터 물리적으로 타당한 인간 동작을 재구성하는 것은 컴퓨터 비전과 그래픽스 분야에서 여전히 어려운 문제입니다.

기존 방법들은 주로 운동학 기반 자세 추정에 초점을 맞추고 있으며, 이는 종종 물리적 제약의 부재로 인해 비현실적인 결과로 이어집니다.

이러한 인공물을 해결하기 위해, 이전 방법들은 일반적으로 초기 운동학 기반 동작 추정 이후에 물리 기반 후처리에 의존해 왔습니다.

하지만 이러한 2단계 설계는 오차 누적을 유발하여 궁극적으로 전체 재구성 품질을 제한합니다.

본 논문에서는 물리 기반 시뮬레이터 내에서 휴머노이드 제어를 위한 시각-행동 정책을 직접 학습하는 통합 프레임워크인 PhysHMR을 제시하여, 입력 비디오와 물리적으로 근거가 있으면서 시각적으로 정렬된 동작 재구성을 가능하게 합니다.

우리 접근법의 핵심 구성 요소는 2D 키포인트를 3D 공간 광선으로 들어 올려 전역 공간으로 변환하는 pixel-as-ray 전략입니다.

이러한 광선은 정책 입력으로 통합되어, 노이즈가 많은 3D 루트 예측에 의존하지 않고 강건한 전역 자세 가이던스를 제공합니다.

사전 훈련된 인코더의 지역적 시각 특징과 결합된 이 부드러운 전역 기준 설정(soft global grounding)은 정책이 상세한 자세와 전역 위치 모두에 대해 추론할 수 있게 합니다.

강화학습의 샘플 비효율성을 극복하기 위해, 우리는 모션캡쳐로 훈련된 전문가로부터 시각 조건부 정책으로 동작 지식을 전달하는 증류 기법을 추가로 도입하며, 이는 물리적으로 동기 부여된 강화학습 보상을 사용하여 더욱 정교화됩니다.

광범위한 실험을 통해 PhysHMR이 다양한 시나리오에서 고품질의 물리적으로 타당한 동작을 생성하며, 시각적 정확도와 물리적 현실성 모두에서 이전 접근법들을 능가함을 입증합니다.

쪽집게 과외

알고리즘

flowchart TD subgraph 기존 접근법의 한계 direction LR A[운동학 기반 재구성]:::sub --> B[물리적 제약 부재]:::warn B --> C[비현실적 결과]:::warn D[물리 기반 후처리]:::sub --> E[2단계 설계로 인한 오차 누적]:::warn end subgraph PhysHMR (제안 프레임워크) direction TB F[단안 비디오 입력] --> G[PhysHMR: 통합된 시각-행동 정책]:::core subgraph 핵심 아이디어 direction LR H[Pixel-as-Ray 전략]:::idea --> G I[지식 증류 기법]:::idea --> G end G --> J[물리적으로 타당하고
시각적으로 일관된 동작]:::pros end classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2;

핵심 콕콕

• 기존 운동학 기반 동작 재구성은 물리적 제약이 없어 발이 미끄러지거나 공중에 뜨는 등 비현실적인 결과를 낳습니다.
• PhysHMR은 시각 정보로부터 물리 시뮬레이터 내의 행동을 직접 학습하는 '통합된 시각-행동 정책'을 제안하여 이 문제를 해결합니다.
• 'Pixel-as-Ray' 전략을 사용해, 노이즈가 많은 3D 위치 예측 대신 2D 키포인트를 3D 광선으로 변환하여 안정적인 전역 가이던스를 제공합니다.
• 강화학습의 훈련 비효율성을 개선하기 위해, 전문가 모델의 지식을 전달받는 '지식 증류' 기법을 도입하여 학습을 가속화하고 안정화합니다.

함정 주의

'물리 기반 후처리'와 PhysHMR의 '통합 프레임워크'를 혼동하지 마세요.

- 물리 기반 후처리: 먼저 운동학적으로 동작을 생성한 뒤, 별도의 물리 모듈로 '수정'하는 2단계 방식입니다. 이 과정에서 초기 단계의 오류가 누적되어 수정이 어려울 수 있습니다.
- PhysHMR의 통합 프레임워크: 시각 정보로부터 물리 시뮬레이터 내의 행동을 결정하는 '단일' 정책을 학습합니다. 인식과 제어를 처음부터 통합하여 오차 누적 문제를 근본적으로 방지합니다.

쉬운 비유

Pixel-as-Ray 전략f>을 쉽게 비유해볼게요.

길을 잃은 로봇에게 길을 알려주는 두 가지 방법이 있습니다.
- 방법 1 (3D 루트 예측): "정확히 동쪽으로 10m, 북쪽으로 5m 가!"라고 GPS 좌표를 주는 것과 같습니다. 만약 GPS 신호가 약해 좌표가 계속 흔들리면 로봇은 혼란에 빠져 제대로 움직이지 못합니다.
- 방법 2 (Pixel-as-Ray): "저기 보이는 빨간 지붕과 파란 간판 쪽으로 움직여."라고 여러 개의 레이저 포인터로 방향만 알려주는 것과 같습니다. 정확한 좌표 대신 여러 방향성을 제시하므로, 로봇은 훨씬 안정적으로 목표물을 향해 나아갈 수 있습니다. 이것이 바로 노이즈에 강건한 '부드러운 전역 가이던스'입니다.

셀프 테스트

[O/X] PhysHMR은 기존의 운동학 기반 동작 추정 결과를 물리 시뮬레이션을 통해 후처리하여 개선하는 2단계 접근법이다.

정답 보기

정답: X
해설: PhysHMR은 시각 정보로부터 직접 제어 신호를 생성하는 통합된(unified) 단일 프레임워크이며, 2단계 후처리 방식이 아닙니다.

[빈칸] PhysHMR은 강화학습의 샘플 비효율성을 극복하기 위해, 모션캡쳐 데이터로 학습된 전문가로부터 지식을 전달받는 ___ 기법을 사용한다.

정답 보기

정답: 증류 (distillation)
해설: 전문가 정책의 지식을 학생 정책(시각-행동 정책)으로 전달하여 학습을 가속하고 안정화시키는 지식 증류 기법을 사용합니다.

[서술형] 기존 방법들이 3D 루트(root) 위치를 직접 예측하는 대신, PhysHMR이 'pixel-as-ray' 전략을 사용하는 이유는 무엇이며, 이로 인해 얻는 이점은 무엇인가?

정답 보기

모범답안: 단안 비디오로부터 3D 루트 위치를 예측하는 것은 깊이 모호성 등으로 인해 노이즈가 많고 불안정하기 때문입니다. 이러한 부정확한 예측은 제어 정책에 잘못된 가이던스를 주어 동작의 안정성을 해칠 수 있습니다. 'pixel-as-ray' 전략은 2D 키포인트를 3D 광선으로 변환하여 엄격한 위치 제약 없이 부드러운 전역 방향성만을 제공합니다. 이로 인해 노이즈에 강건한(robust) 정책 학습이 가능해지고, 물리적으로 더 타당한 전역 움직임을 생성할 수 있는 이점이 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

1 Introduction (서론)

단안 비디오로부터 인체의 동역학을 충실하게 재구성하는 것, 즉 Human Mesh Recovery (HMR)은 컴퓨터 비전, 그래픽스, 로보틱스 분야의 근본적인 문제입니다. Rajasegaran et al./2022, Shen et al./2024, Shin et al./2024, Sun et al./2023, Wang et al./2024a, Ye et al./2023, Yuan et al./2022 등 인간 동작 재구성 분야의 최근 발전은 신체 포즈와 형태를 추정하는 데 높은 정확도를 달성했습니다. 하지만, 대부분의 기존 방법들은 물리적으로 그럴듯한 신체 동역학을 간과하여, 발 미끄러짐, 지면 통과, 일관성 없는 접촉 행동과 같은 다양한 이상 현상을 초래합니다 (Fig. 1(b) 참조). 물리적으로 그럴듯한 인간 동작 재구성을 달성하는 것은 여전히 해결되지 않은 어려운 과제로 남아있습니다.

이전 연구들은 사후 보정 단계를 통해 물리적 제약을 도입하려고 시도했습니다. 일부 접근법은 Euler-Lagrange 방정식과 같은 강체 동역학에서 파생된 분석적 사전 지식을 통합하며(Jiang et al./2023, Zhang et al./2024b,a), 다른 접근법들은 강화학습을 활용하여 사전 재구성된 동작을 추적하는 휴머노이드 컨트롤러를 훈련시킵니다(Yuan et al./2021). 이러한 방법들이 어느 정도 물리적 현실성을 향상시키기는 하지만, 공통적인 한계를 공유합니다: 동작이 먼저 시각적 단서만으로 재구성된 후, 별도의 물리 모듈에 의해 정제된다는 점입니다. 이러한 분리된 설계는 단안 비디오에 내재된 모호성을 간과하는데, 동일한 시각적 관찰을 설명할 수 있는 여러 그럴듯한 동작이 존재할 수 있습니다. 재구성 단계에서 단일 해법이 선택되고 나면, 후속 물리 모듈은 더 이상 전체 관찰 맥락에 접근할 수 없게 되어, 최적이 아닌 보정과 시각적 증거와의 제한된 일관성으로 이어집니다 (Fig. 1c 참조).

이러한 한계에 비추어, 우리는 동작 추정과 물리적 추론을 단일 프레임워크 내에서 통합하여 시각적 단서와 물리적 제약이 동일한 의사결정 과정에 정보를 제공하도록 하는 것이 더 효과적인 접근법이라고 주장합니다. 이를 위해, 우리는 PhysHMR을 제안합니다. 이는 단안 비디오 관찰로부터 직접 시뮬레이션된 휴머노이드를 제어하기 위한 시각-행동 정책(visual-to-action policy)을 직접 학습하는 새로운 프레임워크로, 시각적으로 일관되면서도 물리적으로 그럴듯한 동작 재구성을 가능하게 합니다. 이전의 2단계 접근법들과 달리, PhysHMR은 시각적 관찰과 물리적 동역학을 공동으로 추론하는 단일 정책 네트워크를 통해 두 단계를 통합합니다. Makoviychuk et al./2021의 물리 기반 시뮬레이터 내에서 동작을 실행함으로써, 지면 접촉, 관절 한계, 운동량 보존과 같은 물리적 제약을 자연스럽게 강제합니다. 정책을 이미지 특징에 직접 조건화함으로써, 우리는 골격 포즈 추정을 넘어선 풍부한 시각적 맥락을 활용할 수 있으며, 휴머노이드가 물리 법칙을 준수하면서 입력 비디오와 충실하게 정렬되는 동작을 생성할 수 있게 합니다.

순수하게 강화학습만으로 고차원 시각-제어 정책을 훈련하는 것은 종종 샘플 비효율적이고 불안정합니다(Luo et al./2024a). 이러한 문제들을 해결하기 위해, PhysHMR은 모션캡처로 훈련된 전문가로부터 지식을 전달하는 증류 전략(distillation strategy)을 제안하여, 시각-행동 정책의 훈련을 용이하게 합니다. 구체적으로, 사전 훈련된 시각 인코더(Shen et al./2024)가 각 비디오 프레임에서 특징을 추출하며, 이는 제어 정책을 위한 지역적 포즈 참조로 사용됩니다. 이 특징들은 잠재적으로 부정확한 3D 재구성에 얽매이지 않으면서도 풍부한 포즈 정보를 유지합니다. 고품질 모션 캡처 데이터로 훈련된 전문가 컨트롤러는 강력한 인간 동작 사전 지식을 부여하는 행동 감독을 제공하여, 수렴을 크게 가속화하고 학습을 안정화시킵니다. 정책은 동작 모방, 적대적 동작 사전을 통한 현실성, 그리고 물리적 부드러움의 균형을 맞추는 복합 보상을 사용하여 강화학습으로 더욱 정제됩니다.

물리적 타당성은 지역 포즈 공간이 아닌 전역 포즈 공간에서 평가되어야 하므로, 이미지로부터의 지역 포즈 참조 외에 전역 포즈 정보(즉, 루트 관절 위치)를 추정하는 것이 필요합니다. 그러나 단안 비디오에서 3D 루트 관절 위치를 예측하는 것은 종종 노이즈가 많아, 정책 일반화의 견고성을 심각하게 저해합니다. 이는 지역 포즈 추정치와 잘못된 3D 루트 예측 사이의 불일치가 부자연스러운 전역 동작으로 이어질 수 있기 때문입니다. 예를 들어, 지역 포즈는 앞으로 움직이는 것을 나타내지만, 노이즈 낀 루트 예측이 동작을 뒤로 당겨 떨리거나 불안정한 행동을 유발할 수 있습니다. 이러한 불일치는 정책이 전역 공간에서 물리적으로 일관된 동역학을 생성하기 어렵게 만듭니다.

이를 해결하기 위해, 명시적인 3D 루트 예측에 의존하는 대신, 우리는 여러 감지된 2D 키포인트를 3D 광선으로 변환하여 부드러운 전역 포즈 참조(soft global pose reference)로 사용합니다. 이러한 공간적 광선은 정책이 엄격한 절대 3D 루트 입력을 요구하지 않고도 휴머노이드를 전역적으로 일관된 포즈로 변환하는 행동을 예측하도록 조건화합니다. 이 접근법은 부드러운 전역 정보를 제공하고, 정책 실행의 견고성을 향상시키며, 물리적으로 그럴듯한 인간 동작 재구성을 가능하게 합니다.

우리는 Human3.6M, AIST++, EMDB2를 포함한 도전적인 동작 데이터셋에서 PhysHMR을 평가하여, 최첨단 운동학 기반 방법들과 비교할 만한 동작 정확도를 보이면서도 물리적 타당성을 크게 향상시켰음을 보여줍니다. 우리의 접근법은 일반적인 비물리적 이상 현상(예: 발 미끄러짐, 지면 통과)을 줄여, 재구성된 동작이 시뮬레이션, 애니메이션, 로보틱스와 같은 후속 응용 분야에 더 적합하도록 만듭니다.

요약하자면, 우리의 기여는 세 가지입니다:

• 우리는 인간 동작 인식과 제어를 공동으로 수행하는 최초의 통합 프레임워크인 PhysHMR을 제시하여, 단안 비디오로부터 고품질의 물리적으로 그럴듯한 인간 동작 재구성을 가능하게 합니다.

• 우리는 사전 훈련된 모캡 모방 정책으로부터 시각-행동 정책을 증류하는 증류 접근법을 도입하여, 수렴을 가속화하고 정책 학습을 안정화시킵니다.

• 우리는 2D 키포인트를 3D 공간 광선으로 변환하는 부드러운 전역 접지 전략(soft global grounding strategy)을 제안하여, 노이즈가 많은 3D 루트 예측의 필요성을 피하고 전역 공간에서 물리적으로 그럴듯한 동작의 견고한 정책 학습을 가능하게 합니다.

쪽집게 과외

알고리즘

flowchart TD classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef core fill:#FFDBE6 classDef idea fill:#E8D2E5 classDef pros fill:#D0F1B9 subgraph 기존 2단계 방식 A[단안 비디오] --> B(운동학 기반 재구성):::ref B --> C{동작 추정치}:::ref C --> D(물리 기반 후처리):::ref D --> E[오차 누적, 시각적 불일치]:::warn end subgraph PhysHMR (제안 방식) A[단안 비디오] --> F(통합된 시각-행동 정책):::core G[시각 특징] --> F H(Pixel-as-Ray 전역 가이던스):::idea --> F I(지식 증류):::idea --> F F --> J[물리적으로 타당하고 시각적으로 일관된 동작]:::pros end

핵심 콕콕

• 기존 인간 동작 재구성(HMR)은 운동학에만 초점을 맞춰 발 미끄러짐 등 물리적으로 비현실적인 결과물을 만듭니다.
• 동작 추정 후 물리 법칙을 적용하는 2단계 방식은 초기 오류를 수정하기 어렵고 시각 정보와의 일관성이 떨어지는 한계가 있습니다.
• PhysHMR은 시각 정보로부터 직접 물리 시뮬레이터 속 캐릭터를 제어하는 '시각-행동 정책'을 학습하는 통합된 프레임워크를 제안합니다.
• 학습 효율을 높이기 위해 전문가 정책의 지식을 '증류'하고, 불안정한 3D 위치 예측 대신 2D 키포인트를 3D 광선으로 사용하는 'pixel-as-ray' 전략으로 안정적인 전역 가이던스를 제공합니다.

함정 주의

기존의 '물리 기반 후처리'와 PhysHMR의 '통합된 물리적 추론'을 혼동하지 마세요.

- 물리 기반 후처리: 먼저 운동학적으로 동작을 생성한 뒤, 별도의 단계에서 물리 법칙을 적용해 '수정'하는 방식입니다. 이미 생성된 동작의 근본적인 오류를 바로잡기 어렵습니다.
- 통합된 물리적 추론 (PhysHMR): 동작을 생성하는 '결정' 단계에서부터 시각 정보와 물리 법칙을 함께 고려합니다. 애초에 물리적으로 불가능한 동작이 생성될 가능성을 원천적으로 차단하는 방식입니다.

구현 힌트

이 논문의 접근법을 구현할 때는 처음부터 모든 것을 만드는 것보다 강력한 사전 훈련 모델을 활용하는 것이 핵심입니다. 논문에서 언급했듯이, 시각 특징 추출을 위해 사전 훈련된 GVHMR의 인코더를 사용하고, 지식 증류를 위해 모션캡처 데이터로 잘 훈련된 전문가 모방 정책을 '교사'로 사용합니다. 이처럼 검증된 구성 요소를 기반으로 새로운 정책을 훈련하면 학습의 안정성과 효율성을 크게 높일 수 있습니다.

쉬운 비유

'Pixel-as-Ray'를 이용한 전역 가이던스를 쉽게 비유해볼게요.

눈을 가린 친구에게 방 건너편 특정 지점으로 가라고 안내하는 상황을 상상해보세요.

- 나쁜 방법 (명시적인 3D 루트 예측): "정확히 앞으로 5걸음, 왼쪽으로 2걸음 가!" 라고 외치는 것과 같아요. 만약 당신의 거리 측정이 조금이라도 틀리면 친구는 엉뚱한 곳으로 가거나 넘어질 수 있습니다. 즉, 하나의 부정확한 정보가 전체를 망칠 수 있습니다.

- 좋은 방법 (Pixel-as-Ray): 여러 개의 레이저 포인터를 친구의 머리, 양손, 양발에 비추는 것과 같습니다. 그리고 "그 레이저 점들이 계속 몸의 같은 부위에 있도록 움직여봐" 라고 말하는 거죠. 이는 정확한 좌표를 주는 대신, 전체적인 방향과 자세에 대한 '부드러운' 단서를 여러 개 제공합니다. 하나의 점이 약간 흔들려도 다른 점들이 기준을 잡아주기 때문에 훨씬 안정적이고 강건하게 친구를 안내할 수 있습니다.

셀프 테스트

[O/X] PhysHMR은 기존의 운동학 기반 HMR 방법의 결과물을 입력으로 받아 물리적 오류를 수정하는 후처리 기술이다.

정답 보기

정답: X
해설: PhysHMR은 후처리 기술이 아니라, 비디오 입력으로부터 직접 물리 시뮬레이션 내에서 제어 신호를 생성하는 통합된(unified) 프레임워크입니다.

[빈칸] PhysHMR은 강화학습의 샘플 비효율성 문제를 해결하기 위해, 모션캡처 데이터로 미리 훈련된 전문가 정책으로부터 지식을 전달받는 ___ 기법을 사용한다.

정답 보기

정답: 증류 (distillation)
해설: 증류 기법을 통해 전문가의 '지식'을 학생 정책(시각-행동 정책)에 전달함으로써 학습을 가속화하고 안정화시킵니다.

[서술형] PhysHMR이 단안 비디오로부터 3D 루트(root) 위치를 직접 예측하는 대신 'pixel-as-ray' 전략을 사용하는 이유는 무엇인가요?

정답 보기

모범답안: 단안 비디오에서 3D 루트 위치를 직접 예측하는 것은 깊이 추정의 모호성 등으로 인해 노이즈가 많고 부정확할 수 있습니다. 이렇게 잘못된 전역 위치 정보는 지역적인 포즈 정보와 충돌하여 부자연스럽고 불안정한 동작을 유발할 수 있습니다. 'pixel-as-ray' 전략은 2D 키포인트를 3D 광선으로 변환하여, 정확한 3D 좌표를 강제하는 대신 여러 개의 부드럽고 방향성 있는 제약 조건을 제공합니다. 이를 통해 노이즈에 더 강건하고 안정적으로 전역 움직임을 안내할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Kinematics-based Human Mesh Recovery (운동학 기반 인간 메쉬 복원)

파라메트릭 인간 모델 [Loper/2015/SMPL; Osman/2020/STAR; Pavlakos/2019/SMPL-X; Xu/2020/GHUM&GHUML]은 단안 비디오로부터 인간의 움직임을 재구성하는 데 널리 채택되어 왔습니다.

초기 연구들 [Arnab/2019/Temporal Context; Bogo/2016/Keep It SMPL; Huang/2017/Towards 3D Human Pose; Xiang/2019/Monocular 3D Human Pose]은 이러한 모델들을 개별 이미지 프레임에 맞추는 데 중점을 두었습니다.

보다 최근에는, 대규모 데이터셋을 활용하는 회귀 기반 접근법들이 범용적인 인간 메쉬 복원을 달성할 수 있는 능력으로 주목받고 있습니다 [Cai/2023/Human-Art; Goel/2023/HMR2.0; Yin/2025/One-Stage].

동적인 카메라 움직임을 설명하기 위해, 데이터 기반 방법들은 프레임별 카메라 포즈를 추정하도록 확장되었습니다 [Shin/2024/Glocal; Sun/2023/TCM; Yuan/2022/GLoT].

추가적으로, SLAM (동시적 위치 추정 및 지도 작성) 기술은 견고한 카메라 움직임 추정에 효과적임이 입증되었으며, 복잡한 시나리오에서 인간 동작 복원을 더욱 향상시켰습니다 [Wang/2024/Vid2Avatar].

HuMoR [Rempe/2021/HuMoR]는 포즈 추정에서 시간적 일관성과 견고성을 향상시키는 생성적 동작 사전 지식(generative motion prior)을 학습합니다.

인간 메쉬 복원에서 이러한 발전에도 불구하고, 순수한 운동학적 방법들은 종종 발 미끄러짐, 지면 통과, 운동량 불일치와 같은 인공물(artifacts)을 보입니다.

이러한 인공물을 해결하기 위해, 이전 연구들은 그럴듯한 동역학을 장려하기 위한 보조적인 감독(supervision)으로 물리적 사전 지식(physical prior)을 사용해왔습니다.

PhysPT [Zhang/2024/PhysPT]는 강체 동역학을 강제하기 위해 미분 가능한 오일러-라그랑주 손실을 사용하여 운동학적 움직임을 정제하는 신경망 모듈을 제안합니다.

IPMAN [Tripathi/2023/IPMAN]은 단안 포즈 추정에 손실 함수를 통해 직관적인 물리 단서를 통합하지만, 완전한 물리 동역학을 강제하지 않는 운동학 기반 접근법으로 남아 있습니다.

D&D [Li/2022/D&D]는 외부 힘을 추정하고 뉴턴 동역학과의 일관성을 강제하기 위해 해석적 물리 계산을 적용하여 운동학적 움직임을 정제합니다.

이러한 방법들이 물리적 사실성을 어느 정도 향상시키기는 하지만, 운동학적 재구성 결과에 대한 사후 정제(post-hoc refinement)로 작동하여, 운동학 기반 인간 메쉬 복원 단계의 모호성으로부터 회복하기 어렵게 만듭니다.

더욱이, 물리적 일관성은 명시적인 물리 시뮬레이션보다는 신경망 근사를 통해 강제되므로, 전체 파이프라인이 근본적으로 운동학 기반이며 물리 제어와 분리되어 있습니다.

2.2 Physics-based Human Motion Imitation (물리 기반 인간 동작 모방)

물리 시뮬레이션 플랫폼 [Makoviychuk/2021/Isaac Gym; Todorov/2012/MuJoCo]은 강화 학습과 결합하여 시뮬레이션된 캐릭터의 물리적으로 기반한 제어를 가능하게 하여, 매우 사실적인 인간 움직임을 생성해왔습니다 [Dou/2023/UniMoCap; Peng/2018/DeepMimic, 2022/AMP, 2021/ASE; Tessler/2023/Sym-DREAM; Wang/2024/RoboImit].

PPR [Yang/2023/PPR]은 그럴듯한 비디오 기반 재구성을 위해 물리 사전 지식을 활용하며, 미분 가능한 동역학 모델 [Gärtner/2022/Differentiable Simulation]은 종단 간 최적화에 물리를 통합합니다.

대규모 모션 캡처 데이터셋 [Kobayashi/2023/HumanAPI; Mahmood/2019/AMASS; Peng/2021/Motion-Matching]에서 정책을 훈련함으로써, 많은 연구들이 학습된 제어 정책을 통해 높은 충실도의 동작 모방을 시연했습니다 [Luo/2024/SimXR, 2023/PHC, 2022/CaL-QL; Peng/2018/SFV; Tessler/2024/DiMo; Wagener/2022/MoCapDeform; Winkler/2022/Physics-based].

PhysCap [Shimada/2020/PhysCap]은 실시간 물리 시뮬레이션으로 단안 캡처를 제약합니다.

그러나 이러한 정책들은 깨끗한 3D 동작 참조 데이터를 추적하도록 훈련되어, 그러한 데이터가 없을 때 일반화하는 데 어려움을 겪습니다.

PHC [Luo/2023/PHC]는 비디오에서 3D 키포인트를 동작 참조로 추정하지만, 2단계 설계는 제어를 시각적 입력과 분리시켜 종종 지터와 부자연스러운 움직임을 초래합니다.

더욱이, 이전 방법들은 강화 학습에 크게 의존하는데, 이는 일반적으로 낮은 샘플 효율성으로 어려움을 겪습니다.

따라서, 이들은 풍부한 시각 정보를 완전히 활용하는 데 어려움을 겪고, 대신 3D 키포인트나 운동학 기반 표현과 같은 희소하고 결정적인 입력에 주로 의존합니다.

simXR [Luo/2024/SimXR]은 VR 환경에서 비전-투-액션 정책을 훈련시키기 위해 증류 전용 기법을 사용합니다.

이 방식은 강화 학습의 필요성을 피하지만, 제한된 데이터와 탐색의 부재로 인해 견고성이 부족합니다.

대조적으로, 우리의 공동 PPO+증류 훈련은 안정성과 일반화를 상당히 향상시켜, 순수 증류 접근법에 비해 명확한 이점을 보여줍니다.

시각적 증거와 직접적으로 정렬되는 인간 동작 재구성을 위한 시각 조건부 정책 학습은 여전히 대체로 미개척된 과제로 남아 있습니다.

쪽집게 과외

알고리즘

flowchart TD subgraph Kinematics-Based Approaches (운동학 기반 접근법) A[Parametric Models]:::ref --> B[Kinematic Reconstruction]:::ref B --> C{Artifacts
(e.g., foot sliding)}:::warn C --> D[Post-hoc Physics Correction
(e.g., PhysPT)]:::ref D --> E{Still Limited
(Decoupled from vision)}:::warn end subgraph Physics-Based Approaches (물리 기반 접근법) F[RL + Mocap Data]:::ref --> G[Physics-based Imitation]:::ref G --> H[High Realism]:::pros G --> I{Struggles with Noisy Video
(Relies on clean 3D data)}:::warn I --> J[Two-Stage Tracking
(e.g., PHC)]:::ref J --> K{Jitter & Unnatural Motion
(Error amplification)}:::warn end E --> L[Need for Unified Framework]:::idea K --> L classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef pros fill:#D0F1B9 classDef idea fill:#E8D2E5

핵심 콕콕

• 운동학 기반 인간 메쉬 복원(HMR)은 포즈는 정확하지만 발 미끄러짐, 지면 통과 등 물리적으로 비현실적인 결과물을 만듭니다.
• 기존 연구들은 물리 법칙을 사후 처리(post-processing) 단계에서 적용하여 문제를 해결하려 했지만, 초기 운동학적 추정의 오류를 근본적으로 수정하기는 어렵습니다.
• 물리 시뮬레이션과 강화학습을 이용한 동작 모방은 매우 사실적인 움직임을 만들지만, 깨끗한 모션 캡처 데이터에 의존하기 때문에 노이즈가 많은 실제 비디오에 적용하기 어렵습니다.
• 비디오 입력을 직접 제어에 사용하려는 시도들은 2단계 접근법으로 인해 오차가 누적되거나, 강화학습의 낮은 샘플 효율성 문제로 한계를 보였습니다.

함정 주의

'물리 기반 사후 처리'와 '물리 기반 동작 모방'을 혼동하지 마세요.

- 물리 기반 사후 처리 (예: PhysPT): 이미 운동학적으로 완성된 동작 시퀀스를 입력받아, 물리 법칙(처럼 보이는 손실 함수)을 이용해 '수정'하는 방식입니다. 이미 그려진 그림을 어색하게 고치는 것과 같습니다.

- 물리 기반 동작 모방 (예: PHC, 본 논문): 물리 시뮬레이터 안에서 캐릭터를 직접 '제어'하여 목표 동작을 따라 하도록 만드는 방식입니다. 동작 생성 과정 자체에 물리 법칙이 내재되어 있습니다. 이는 물리엔진이 적용된 인형을 조종하는 것과 같습니다.

쉬운 비유

운동학적 방법 vs. 물리 기반 방법f>을 쉽게 비유해볼게요.

- 운동학적 방법: 만화가가 손으로 직접 캐릭터의 움직임을 한 장 한 장 그리는 것과 같아요. 각 그림(프레임)은 매우 정교하고 예쁠 수 있지만, 그리다 보면 캐릭터가 땅에서 살짝 떠 있거나 미끄러지는 등 중력이나 마찰을 깜빡 잊은 듯한 실수가 나올 수 있습니다.

- 물리 기반 사후 처리: 만화가 어시스턴트가 이미 완성된 그림들을 보고, 떠 있는 발을 포토샵으로 땅에 붙이는 작업을 하는 것과 같아요. 어색함을 일부 고칠 수는 있지만, 원래 그림 자체가 잘못되었기 때문에 완벽하게 자연스러워지기는 어렵습니다.

- 물리 기반 동작 모방 (본 논문의 접근법): 실제 물리엔진이 적용된 3D 인형을 컴퓨터 안에서 조종하는 것과 같아요. 만화가의 스케치를 참고해서 인형이 비슷한 포즈를 취하도록 조종줄을 당기는 거죠. 인형은 스스로 중력과 마찰의 영향을 받기 때문에, 그 움직임은 항상 물리적으로 그럴듯할 수밖에 없습니다.

셀프 테스트

[O/X]

정답 보기

순수 운동학 기반 인간 메쉬 복원 방법은 물리적 제약이 없기 때문에 발 미끄러짐이나 지면 통과 같은 비현실적인 결과물을 생성하는 경향이 있다.
정답: O
해설: 운동학적 방법은 각 프레임의 포즈 정확성에만 집중하므로, 시간의 흐름에 따른 동역학적 일관성(예: 관성, 접촉)을 보장하지 못해 물리적 오류가 발생하기 쉽습니다.

[빈칸]

정답 보기

물리 기반 동작 모방 연구들은 주로 깨끗한 ___ 데이터를 사용하여 제어 정책을 학습시키기 때문에, 노이즈가 많고 모호한 실제 비디오 입력에 대해서는 일반화 성능이 떨어지는 한계가 있습니다.
정답: 모션 캡처 (mocap)
해설: 대부분의 강화학습 기반 동작 모방 연구는 정확한 3D 관절 위치와 방향을 제공하는 모션 캡처 데이터를 정답지로 사용하여 학습합니다. 이 때문에 불완전한 정보를 담고 있는 비디오에는 취약합니다.

[서술형]

정답 보기

운동학적 재구성 결과에 '물리 기반 사후 처리(post-processing)'를 적용하는 방식의 근본적인 한계는 무엇이며, 이 논문이 지향하는 '통합된(unified) 프레임워크'가 이를 어떻게 해결할 수 있을까요?
모범답안: 사후 처리 방식의 근본적인 한계는 시각 정보로부터 동작을 추정하는 단계와 물리적 제약을 적용하는 단계가 분리되어 있다는 점입니다. 운동학적 추정 단계에서 단안 비디오의 모호성으로 인해 한번 잘못된 동작이 선택되면, 후속 물리 모듈은 제한된 정보만을 가지고 이를 수정해야 하므로 최적의 결과를 내기 어렵습니다. 반면, 통합 프레임워크는 시각적 단서와 물리적 제약을 단일 의사결정 과정(예: visual-to-action policy) 안에서 동시에 고려합니다. 이를 통해 물리적으로 불가능한 해석을 초기에 배제하고, 시각적 증거에 부합하면서도 물리적으로 타당한 동작을 직접 생성하여 오류 누적 문제를 해결할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Kinematics-based Human Mesh Recovery (운동학 기반 인간 메시 복원)

파라미터 기반 인간 모델(Loper/2015/SMPL, Osman/2020/STAR, Pavlakos/2019/SMPL-X, Xu/2020/GHUM&GHUML)은 단안 비디오로부터 인간의 움직임을 복원하기 위해 널리 채택되어 왔습니다. 초기 연구들(Arnab/2019/Temporal Context, Bogo/2016/Keep It SMPL, Huang/2017/Towards 3D Human Pose, Xiang/2019/Monocular 3D Human Pose)은 이러한 모델들을 개별 이미지 프레임에 맞추는 데 집중했습니다. 더 최근에는, 대규모 데이터셋을 활용하는 회귀 기반 접근법들이 범용적인 인간 메시 복원을 달성할 수 있는 능력으로 주목받고 있습니다(Cai/2023/Human-Art, Goel/2023/HMR 2.0, Yin/2025/One-Stage). 동적인 카메라 움직임을 설명하기 위해, 데이터 기반 방법들은 프레임별 카메라 포즈를 추정하도록 확장되었습니다(Shin/2024/ReliPose, Sun/2023/TARS, Yuan/2022/GLAMR). 추가적으로, SLAM(동시적 위치 추정 및 지도 작성) 기술은 강건한 카메라 움직임 추정에 효과적인 것으로 입증되어, 복잡한 시나리오에서 인간 움직임 복원을 더욱 향상시켰습니다(Wang/2024/Vid2Avatar). HuMoR(Rempe/2021/HuMoR)는 포즈 추정에서 시간적 일관성과 강건성을 향상시키는 생성적 움직임 사전 지식을 학습합니다. 인간 메시 복원에서 이러한 발전에도 불구하고, 순수 운동학적 방법들은 종종 발 미끄러짐, 지면 통과, 운동량 불일치와 같은 문제점들을 보입니다.

이러한 문제점들을 해결하기 위해, 이전 연구들은 그럴듯한 동역학을 장려하기 위한 보조적인 감독 정보로 물리적 사전 정보를 사용해왔습니다. PhysPT(Zhang/2024/PhysPT)는 강체 동역학을 강제하기 위해 미분 가능한 오일러-라그랑주 손실을 사용하여 운동학적 움직임을 개선하는 신경망 모듈을 제안합니다. IPMAN(Tripathi/2023/IPMAN)은 직관적인 물리 신호를 손실 함수를 통해 단안 포즈 추정에 통합하지만, 완전한 물리 동역학을 강제하지는 않아 운동학 기반 접근 방식에 머물러 있습니다. D&D(Li/2022/D&D)는 외부 힘을 추정하고 해석적인 물리 계산을 적용하여 운동학적 움직임을 개선하고, 뉴턴 동역학과의 일관성을 강제합니다. 이러한 방법들이 어느 정도 물리적 현실성을 향상시키지만, 이들은 운동학적 복원에 대한 사후 개선 작업으로 동작하여, 운동학 기반 인간 메시 복원 단계의 모호함으로부터 회복하기 어렵게 만듭니다. 더욱이, 물리적 일관성은 명시적인 물리 시뮬레이션이 아닌 신경망 근사를 통해 강제되므로, 전체 파이프라인이 근본적으로 운동학 기반이며 물리적 제어와 분리된 상태로 남게 됩니다.

쪽집게 과외

알고리즘

flowchart TD classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef pros fill:#D0F1B9 subgraph 기존 연구 흐름 A[운동학 기반 HMR]:::ref B:::warn C[물리 기반 후처리]:::ref D["PhysPT, IPMAN, D&D"]:::ref E:::warn end A --> B B --> C C --> D C --> E

핵심 콕콕

• 순수 운동학 기반 인간 메시 복원(HMR)은 포즈 정확도는 높지만, 발 미끄러짐이나 지면 통과 같은 물리적으로 비현실적인 결과물을 만듭니다.
• 이러한 문제를 해결하기 위해, 기존 연구들은 운동학적 결과를 먼저 생성한 뒤 물리 법칙을 적용해 수정하는 '물리 기반 후처리' 방식을 도입했습니다.
• 하지만 이 2단계 접근법은 근본적인 한계가 있습니다. 초기 운동학 예측 단계에서 발생한 오류가 후처리 단계로 그대로 전달되어(오류 누적), 물리 모듈이 이를 완전히 수정하기 어렵습니다.

함정 주의

물리 기반 '후처리'와 물리 '시뮬레이션'을 혼동하지 마세요.

이 섹션에서 소개된 PhysPT, D&D 같은 방법은 '후처리' 방식입니다. 이미 만들어진 움직임 데이터에 물리 법칙(손실 함수 등)을 적용해 '수정'하는 것에 가깝습니다. 반면, 이 논문이 제안하는 방식처럼 물리 '시뮬레이션' 내에서 직접 캐릭터를 제어하는 것은, 움직임을 '생성'하는 단계부터 물리 법칙을 따르도록 하여 근본적으로 현실적인 결과를 보장합니다.

쉬운 비유

운동학 기반 복원 + 물리 후처리f>의 한계를 쉽게 비유해볼게요.

- 이것은 마치 '포토샵으로 그림자 수정하기'와 같습니다. 이미 잘못된 각도에서 찍힌 사진(운동학적 복원)이 있다고 해봅시다. 아무리 포토샵(물리 후처리)으로 그림자를 정교하게 그려 넣어도, 사진 속 인물이 공중에 떠 있는 듯한 근본적인 어색함은 완전히 없애기 어렵습니다.

- 반면, 이 논문이 지향하는 통합된 접근법은 처음부터 조명과 카메라를 제대로 설정하고 물리적으로 올바른 위치에 모델을 세워 사진을 찍는 것과 같습니다. 결과물은 처음부터 자연스럽고 현실적일 수밖에 없습니다.

셀프 테스트

[O/X] 순수 운동학 기반 인간 메시 복원 방법은 물리적 제약조건을 잘 따르므로 발이 땅을 뚫고 들어가는 현상이 거의 발생하지 않는다.

정답 보기

정답: X
해설: 순수 운동학적 방법은 물리적 제약조건을 명시적으로 고려하지 않기 때문에 발 미끄러짐, 지면 통과, 운동량 불일치와 같은 비현실적인 문제점들이 자주 발생합니다.

[빈칸] 운동학 기반 복원 결과에 물리 법칙을 적용해 수정하는 후처리 방식은, 초기 복원 단계의 오류가 후속 물리 모듈로 그대로 전달되는 ___ ___ 문제라는 근본적 한계를 가진다.

정답 보기

정답: 오류 누적
해설: 분리된 2단계 설계에서는 첫 단계의 부정확함이 두 번째 단계에서 증폭될 수 있으며, 이를 오류 누적(error accumulation)이라고 합니다.

[서술형] PhysPT, D&D와 같은 물리 기반 후처리 방법들이 '근본적으로 운동학 기반'이라고 비판받는 이유는 무엇인가요?

정답 보기

모범답안: 이 방법들은 명시적인 물리 시뮬레이션 환경 내에서 움직임을 생성하는 것이 아니라, 이미 운동학적으로 추정된 결과물을 신경망 근사를 통해 '개선'하는 방식이기 때문입니다. 즉, 물리적 일관성을 강제하는 과정이 실제 물리 제어와 분리되어 있어, 파이프라인의 핵심은 여전히 운동학적 추정에 의존하고 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.2 Physics-based Human Motion Imitation (물리 기반 인간 동작 모방)

물리 시뮬레이션 플랫폼(Makoviychuk et al. 2021; Todorov et al. 2012)은 강화 학습과 결합하여 시뮬레이션된 캐릭터의 물리 기반 제어를 가능하게 했으며, 매우 사실적인 인간 동작을 생성해냈습니다(Dou et al. 2023; Peng et al. 2018a, 2022, 2021a; Tessler et al. 2023; Wang et al. 2024b). PPR(Yang et al. 2023)은 그럴듯한 비디오 기반 재구성을 위해 물리적 사전 지식을 활용하며, 미분 가능한 동역학 모델(Gärtner et al. 2022)은 물리를 종단간 최적화에 통합합니다. 대규모 모션 캡처 데이터셋(Kobayashi et al. 2023; Mahmood et al. 2019; Peng et al. 2021b)에서 정책을 훈련함으로써, 많은 연구들이 학습된 제어 정책을 통해 높은 충실도의 동작 모방을 시연했습니다(Luo et al. 2024b, 2023, 2022; Peng et al. 2018b; Tessler et al. 2024; Wagener et al. 2022; Winkler et al. 2022a). PhysCap(Shimada et al. 2020)은 실시간 물리 시뮬레이션으로 단안 캡처를 제약합니다. 하지만 이러한 정책들은 깨끗한 3D 동작 참조를 추적하도록 훈련되었기 때문에, 그러한 데이터가 없을 때 일반화에 어려움을 겪습니다. PHC(Luo et al. 2023)는 영상에서 3D 키포인트를 추정하여 동작 참조로 사용하지만, 2단계 설계는 제어를 시각적 입력과 분리시켜 종종 지터와 부자연스러운 동작으로 이어집니다.

더욱이, 이전 방법들은 강화 학습에 크게 의존하는데, 이는 일반적으로 낮은 샘플 효율성으로 어려움을 겪습니다. 따라서, 이 방법들은 풍부한 시각적 정보를 완전히 활용하는 데 어려움을 겪고, 대신 3D 키포인트나 운동학 기반 표현과 같은 희소하고 결정적인 입력에 주로 의존합니다. simXR(Luo et al. 2024a)은 VR 환경에서 비전-투-액션 정책을 훈련시키기 위해 증류만 사용하는 방식을 사용합니다. 이 방식은 강화 학습의 필요성을 피하지만, 제한된 데이터와 탐색의 부재로 인해 강건성이 부족합니다. 이와 대조적으로, 우리의 PPO와 증류를 결합한 훈련 방식은 안정성과 일반화 성능을 상당히 향상시키며, 순수한 증류 방식에 비해 명확한 이점을 보여줍니다.

시각적 증거와 직접적으로 일치하는 인간 동작 재구성을 위한 비전 조건부 정책을 학습하는 것은 여전히 대부분 탐구되지 않은 과제로 남아있습니다.

쪽집게 과외

알고리즘

flowchart TD classDef sub fill:#CCEFFF classDef warn fill:#FFD3C2 classDef core fill:#FFDBE6 classDef idea fill:#E8D2E5 A[물리 기반 동작 모방]:::sub --> B[한계: 깨끗한 3D 참조 데이터 필요]:::warn B --> C[대안: PHC - 영상에서 3D 키포인트 추정]:::sub C --> D[한계: 2단계 설계로 인한 오차 증폭]:::warn subgraph 일반적 학습 문제 E[강화학습(RL) 사용] --> F[한계: 낮은 샘플 효율성]:::warn end F --> G[대안: simXR - 증류(Distillation)만 사용]:::sub G --> H[한계: 탐색 부재로 인한 강건성 부족]:::warn subgraph 제안 방법 I[PhysHMR: PPO + Distillation 결합]:::core --> J[안정성 및 일반화 성능 향상]:::idea end D --> I H --> I

핵심 콕콕

• 물리 기반 제어는 사실적인 동작을 만들 수 있지만, 보통 깨끗한 3D 모션 캡처 데이터가 필요합니다.
• PHC와 같은 2단계 접근법(영상→3D 키포인트→물리 제어)은 첫 단계의 오류가 두 번째 단계에서 증폭되어 부자연스러운 움직임을 유발할 수 있습니다.
• 강화학습(RL)만 사용하면 학습이 비효율적이고, 증류(Distillation)만 사용하면 새로운 상황에 대한 대처 능력이 떨어질 수 있습니다.
• 이 논문은 강화학습(PPO)과 증류를 결합하여, 학습 속도와 안정성, 그리고 일반화 성능까지 모두 잡는 전략을 제안합니다.

함정 주의

물리 기반 '추적' 제어(예: PHC)와 이 논문의 '비전-투-액션' 정책을 혼동하지 마세요.

- 추적 제어(PHC): 먼저 영상에서 3D 키포인트 같은 중간 목표를 만듭니다. 그 다음, 물리 엔진 속 캐릭터가 이 목표를 '따라가도록' 제어합니다. 즉, '비전'과 '제어'가 분리된 2단계 과정입니다.
- 비전-투-액션(PhysHMR): 영상 정보를 보고 '직접' 어떻게 움직일지(액션)를 결정합니다. 중간 목표 없이, 시각적 입력에서 바로 제어 신호를 생성하는 종단간(end-to-end) 방식입니다.

쉬운 비유

2단계 설계 vs. 종단간(end-to-end) 설계f>를 쉽게 비유해볼게요.

- 2단계 설계 (PHC): '스케치 전달 게임'과 같아요. 첫 번째 사람이 춤추는 사람을 보고 스케치를 그려서 두 번째 사람에게 전달해요. 두 번째 사람은 오직 그 스케치만 보고 춤을 따라 춰야 해요. 만약 첫 번째 사람이 스케치를 잘못 그렸다면, 두 번째 사람은 이상한 춤을 출 수밖에 없겠죠?

- 종단간 설계 (PhysHMR): '직접 보고 따라 추기'와 같아요. 춤을 추는 사람이 춤추는 원본을 직접 보면서 따라 춰요. 중간에 정보가 왜곡될 일이 없어서 훨씬 더 정확하고 자연스럽게 따라 할 수 있어요.

셀프 테스트

[O/X] PHC는 시각적 입력에서 직접 제어 신호를 예측하는 종단간(end-to-end) 프레임워크이다.

정답 보기

정답: X
해설: PHC는 영상에서 3D 키포인트를 먼저 추정한 뒤, 이를 추적하는 2단계(two-stage) 방식을 사용합니다. 이 논문에서 제안하는 PhysHMR이 종단간 방식입니다.

[빈칸] 이전의 물리 기반 모방 정책들은 깨끗한 ___ 참조 데이터를 추적하도록 훈련되어, 해당 데이터가 없을 때 일반화에 어려움을 겪는다.

정답 보기

정답: 3D 동작 (또는 3D motion)
해설: 기존 연구들은 주로 정확한 3D 모션 캡처 데이터를 사용해 학습했기 때문에, 노이즈가 많은 실제 영상 데이터에는 취약한 경향이 있습니다.

[서술형] 이 논문이 강화학습(PPO)과 지식 증류(Distillation)를 함께 사용하는 이유는 무엇인가요?

정답 보기

모범답안: 강화학습만 사용하면 샘플 효율성이 낮아 학습이 느리고, 지식 증류만 사용하면 전문가 데이터에 없는 새로운 상황에 대처하는 탐색(exploration) 능력이 부족하여 강건성이 떨어질 수 있습니다. 두 가지를 결합함으로써, 전문가의 지식을 빠르게 전수받아 학습을 가속화하는 동시에(증류의 장점), 강화학습을 통해 스스로 탐색하며 더 안정적이고 일반화 성능이 뛰어난 정책을 학습할 수 있습니다(PPO의 장점).

ENG

0:00 / 0:00

KOR

0:00 / 0:00

3. Preliminaries (사전 지식)

우리는 물리적으로 타당한 인간 동작 재구성을 목표 조건부, 물리 기반 동작 모방 문제로 공식화합니다. 구체적으로, 우리는 심층 강화 학습(DRL)을 사용하여 시뮬레이션된 휴머노이드 Luo/2023/PHC가 물리적 환경 내에서 동작 시퀀스를 모방하도록 유도하는 정책(policy)을 훈련시키며, 이때 목표 신호를 가이던스로 사용합니다. 정책 $\pi$는 마르코프 결정 과정(MDP)으로 모델링되며, 튜플 $M = \langle S, A, T, R, \gamma \rangle$로 정의됩니다. 여기서 $S, A, T, R, \gamma$는 각각 상태 공간, 행동 공간, 전이 동역학, 보상 함수, 할인 계수를 나타냅니다.

각 타임스텝 $t$에서 상태 $s_t$는 고유수용성 정보 $s_p^t$와 목표 정보 $s_g^t$로 구성됩니다. 여기서 $s_p^t$는 지역 3D 포즈 $q_t$와 속도 $\dot{q}_t$를 포함합니다. 전통적인 동작 모방 작업에서 목표 $s_g^t$는 일반적으로 지역 포즈, 전역 이동, 전역 회전을 인코딩하는 참조 궤적 $(\theta_t, \Gamma_t, \tau_t)$으로 정의됩니다. 우리 방법에서는 목표 정보가 입력 비디오에서 추출되며, 이는 프레임 수준의 시각적 특징과 pixel-as-ray 전략으로 계산된 전역 공간 가이던스를 포함합니다. 이 설계는 정책이 동작 모방을 위해 시각적 관찰을 직접 활용할 수 있게 합니다 (섹션 4 참조).

행동 $a_t$는 목표 관절 회전을 지정하며, 이는 물리적으로 유효한 동작을 생성하기 위해 비례-미분(PD) 제어기에 제어 목표로 제공됩니다. 각 타임스텝 $t$에서 휴머노이드 에이전트는 정책 $\pi(a_t|s_t)$로부터 행동 $a_t \in A$를 샘플링하며, 여기서 $s_t \in S$는 휴머노이드의 현재 상태입니다. 그 후 행동은 물리 시뮬레이터에서 실행되어 다음 상태 $s_{t+1} = T(s_t, a_t)$와 이 행동에 대한 보상 $r_t = R(s_t, a_t)$를 생성합니다. 우리는 Proximal Policy Optimization (PPO)을 사용하여 정책을 최적화하며, 목표는 기대 할인 누적 보상 $E[\sum_{t=1}^{N} \gamma^{t-1}r_t]$를 최대화하는 것입니다.

쪽집게 과외

알고리즘

flowchart TD classDef def fill:#FEEEB5 classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF subgraph 강화 학습 루프 (MDP) State[상태 s_t]:::def --> Policy[정책 π]:::core Policy --> Action[행동 a_t]:::def Action --> Simulator[물리 시뮬레이터 T]:::sub Simulator --> NextState[다음 상태 s_t+1]:::def Simulator --> Reward[보상 r_t]:::def NextState --> State end

핵심 콕콕

• 이 연구는 물리적으로 타당한 인간 동작 재구성 문제를 '목표 조건부, 물리 기반 동작 모방 문제'로 정의합니다.
• 문제 해결을 위해 심층 강화 학습(DRL)을 사용하여 시뮬레이션된 휴머노이드를 제어하는 정책(policy)을 학습합니다.
• 전체 시스템은 마르코프 결정 과정(MDP) 프레임워크를 따르며, 상태(State), 행동(Action), 보상(Reward) 등으로 구성됩니다.
• 기존 방식과 달리, 목표 신호를 깨끗한 3D 참조 궤적이 아닌, 입력 비디오에서 직접 추출한 시각적 특징과 'pixel-as-ray' 전략을 통해 얻습니다.

함정 주의

전통적인 동작 모방과 PhysHMR의 '목표 정보'를 혼동하지 마세요.

- 전통적인 방식: 주로 깨끗한 3D 모션 캡처 데이터로 만든 '참조 궤적'을 목표로 사용합니다. 이는 이상적이지만 실제 비디오에는 적용하기 어렵습니다.
- PhysHMR 방식: 입력 비디오에서 직접 추출한 '시각적 특징'과 'pixel-as-ray' 기반의 공간 가이던스를 목표로 사용합니다. 이는 노이즈가 많은 실제 영상에 더 강건하게 동작할 수 있게 해주는 핵심 아이디어입니다.

구현 힌트

실제 구현 시, 정책 네트워크가 직접 관절에 가해지는 토크(torque)를 출력하는 것이 아님을 유의해야 합니다. 대신, 정책은 '목표 관절 회전값'을 출력하고, 이는 비례-미분(PD) 제어기의 입력으로 들어갑니다. PD 제어기가 이 목표값을 따라가도록 필요한 토크를 계산하여 시뮬레이터에 적용하는 구조입니다. 이는 학습을 더 안정적으로 만드는 일반적인 기법입니다.

쉬운 비유

마르코프 결정 과정(MDP)f>을 쉽게 비유해볼게요.

- 비유: '영상 보면서 춤 배우기'와 같아요.
- 상태(State): 지금 내 몸의 자세와, 비디오에서 현재 보여주는 춤 동작.
- 행동(Action): 다음 동작을 따라 하기 위해 내 팔다리를 어떻게 움직일지 결정하는 것.
- 보상(Reward): 내 동작이 비디오 속 춤과 얼마나 비슷한지, 그리고 넘어지지 않고 균형을 잘 잡았는지에 대한 '점수'.
- 정책(Policy): 어떤 자세(상태)에서 어떤 움직임(행동)을 해야 가장 높은 점수(보상)를 받을 수 있는지 알려주는 '나만의 춤 전략집'이라고 할 수 있습니다. 강화 학습은 이 전략집을 점점 더 좋게 만들어가는 과정입니다.

셀프 테스트

[O/X] PhysHMR의 정책(policy)은 휴머노이드의 각 관절에 직접 적용할 토크(torque)를 계산하여 출력한다.

정답 보기

정답: X
해설: 정책은 목표 관절 회전(target joint rotations)을 출력합니다. 이 목표값을 받은 PD 제어기가 실제 물리 시뮬레이션에 필요한 토크를 계산하여 적용합니다.

[빈칸] 이 논문은 물리적으로 타당한 인간 동작 재구성 문제를 ___으로 모델링한다.

정답 보기

정답: 마르코프 결정 과정 (MDP)
해설: 본문에서는 정책을 마르코프 결정 과정(MDP)으로 모델링하며, 이는 상태, 행동, 전이, 보상, 할인 계수로 구성된 튜플로 정의된다고 명시하고 있습니다.

[서술형] PhysHMR에서 사용하는 '목표 정보(goal information)'가 전통적인 동작 모방(motion imitation) 방식과 어떻게 다른지, 그리고 이러한 차이점이 왜 중요한지 설명하시오.

정답 보기

모범답안: 전통적인 동작 모방은 주로 깨끗한 3D 모션 캡처 데이터로 생성된 참조 궤적을 목표 정보로 사용합니다. 반면, PhysHMR은 입력 비디오에서 직접 추출한 프레임 수준의 시각적 특징과 'pixel-as-ray' 전략으로 계산된 전역 공간 가이던스를 목표 정보로 사용합니다. 이러한 차이점은 매우 중요합니다. 왜냐하면 실제 단일 시점 비디오는 깊이 정보의 모호성이나 노이즈가 많아 깨끗한 3D 궤적을 얻기 어렵기 때문입니다. 비디오에서 직접 추출한 '부드러운' 가이던스를 사용함으로써, PhysHMR은 불완전하고 노이즈가 많은 입력에 대해 더 강건하고 안정적인 정책을 학습할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

저희는 Proximal Policy Optimization (PPO)을 사용하여 정책을 최적화하며, 목표는 기대 할인 총수익을 최대화하는 것입니다: Eq. : 강화학습 목표 함수$$E\left[\sum_{t=1}^{N} \gamma^{t-1} r_t\right]$$이 수식은 강화학습의 목표인 기대 할인 총수익을 나타냅니다. 에이전트는 시간 단계 $t$마다 받는 보상 $r_t$에 할인율 $\gamma$를 적용하여 현재 가치를 계산하고, 이 총합의 기댓값을 최대화하는 방향으로 정책을 학습합니다.

4 Method (방법)

그림 2는 저희 방법의 개요를 보여줍니다.

$N$개의 프레임 {${I_t}$}$_{t=1}^{N}$으로 구성된 단안 비디오가 주어졌을 때, 우리의 목표는 물리적으로 그럴듯한 인간 동작 시퀀스를 재구성하는 것입니다. 이 시퀀스는 월드 좌표계에서 지역 자세 {${\theta_t \in \mathbb{R}^{23 \times 3}}$}$_{t=1}^{N}$, 전역 이동 {${\Gamma_t \in \mathbb{R}^3}$}$_{t=1}^{N}$, 그리고 방향 {${\tau_t \in \mathbb{R}^3}$}$_{t=1}^{N}$으로 구성됩니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef def fill:#FEEEB5; A[Input: Monocular Video
{I_t}] --> B{PhysHMR}:::core B --> C[Output: Physically Plausible Motion
{θ_t, Γ_t, τ_t}]:::def

핵심 콕콕

• 본 연구의 목표는 단안 비디오로부터 물리적으로 타당한 인간 동작을 재구성하는 것입니다.
• 재구성된 동작은 '지역 자세(local pose)', '전역 이동(global translation)', '전역 방향(orientation)' 세 가지 핵심 요소로 구성됩니다.
• 정책 학습은 강화학습 알고리즘인 PPO를 사용하여 기대 할인 총수익을 최대화하는 방식으로 이루어집니다.

쉬운 비유

동작의 구성 요소(자세, 이동, 방향)f>를 쉽게 비유해볼게요.
- 여러분이 춤추는 모습을 비디오로 찍는다고 상상해보세요.
- '지역 자세(local pose)'는 팔을 뻗고 다리를 구부리는 등, 몸의 각 부분이 어떻게 움직이는지를 말해요. 몸의 중심은 가만히 있다고 생각했을 때의 동작이죠.
- '전역 이동(global translation)'은 여러분이 무대 위에서 왼쪽에서 오른쪽으로, 또는 앞으로 걸어 나가는 것처럼 몸 전체가 어디로 이동하는지를 나타내요.
- '전역 방향(orientation)'은 여러분이 관객을 향해 서 있는지, 아니면 등을 보이고 있는지를 말해요. 몸 전체가 어느 방향을 바라보고 있는가 하는 것이죠.
- PhysHMR은 이 세 가지를 모두 비디오만 보고 알아내서, 물리적으로 자연스러운 움직임을 만들어내는 기술이에요.

셀프 테스트

[O/X] PhysHMR의 목표는 3D 스캐너 데이터를 사용하여 인간의 동작을 재구성하는 것이다.

정답 보기

정답: X
해설: PhysHMR은 3D 스캐너가 아닌 단 하나의 카메라로 촬영한 '단안 비디오(monocular video)'를 입력으로 사용합니다.

[빈칸] 재구성된 동작 시퀀스는 지역 자세, 전역 이동, 그리고 전역 ___로 구성된다.

정답 보기

정답: 방향 (orientation)
해설: 동작을 완벽하게 정의하기 위해서는 몸의 형태(자세)와 위치(이동)뿐만 아니라, 어느 쪽을 바라보고 있는지도(방향) 알아야 합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4.1 Local Reference From Visual Observations (시각적 관찰로부터의 로컬 참조)

이전 연구들[Shen et al. 2024; Ye et al. 2023]은 전역 루트 변환에 불변하면서 상대적인 관절 움직임을 포착하는 로컬 모션 특징이 효과적인 모션 학습에 매우 중요하다는 것을 보여줍니다. 이러한 특징들은 카메라 움직임과 깊이 모호성 때문에 이미지로부터 명시적으로 추론하기 어렵습니다. 따라서, 저희는 부모 관절에 대한 상대적인 SMPL 관절 회전을 예측하도록 훈련된 GVHMR[Shen et al. 2024]의 사전 훈련된 비디오 인코더를 사용할 것을 제안합니다. 이는 자연스럽게 로컬 제어를 위한 구조화되고 물리적으로 의미 있는 입력으로 사용될 수 있는 루트 불변의 시각적 특징을 생성합니다. 단일의 잠재적으로 부정확한 추정치에 고정되는 명시적인 포즈 재구성과 달리, 이러한 시각적 특징들은 결정론적인 포즈로 축소되지 않고 풍부한 포즈 관련 정보를 유지합니다.

비디오 프레임 {$I_t$}$_{t=1}^N$이 주어지면, 먼저 각 프레임 $I_t$를 전처리하여 이미지 특징[Goel et al. 2023], 바운딩 박스[Jocher et al. 2023; Li et al. 2022b], 2D 키포인트[Xu et al. 2022], 그리고 상대적 카메라 회전[Teed et al. 2023]을 추출하며, 이를 각각 $f_{\text{feat}_t}$, $f_{\text{bbox}_t}$, $f_{\text{kp2d}_t}$, $f_{\text{cam}_t}$로 표기합니다. 이 프레임별 특징들은 비디오 인코더에 입력되어 프레임 간 정보를 집계합니다: {$F_t$}$_{t=1}^N = \text{Enc}_{\text{GVHMR}}(\{f_{\text{feat}_t}, f_{\text{bbox}_t}, f_{\text{kp2d}_t}, f_{\text{cam}_t}\}_{t=1}^N) \in \mathbb{R}^{N \times D}$, 여기서 $D$는 특징 차원입니다. 프레임 간 융합 과정은 가려짐 상황에서의 안정성을 향상시킬 뿐만 아니라, 유연한 특징 마스킹을 지원하여 모델이 부분적인 입력으로도 작동할 수 있게 합니다. 이러한 유연성 덕분에 훈련 중에 AMASS[Mahmood et al. 2019]와 같은 모션 전용 데이터셋을 쌍을 이루는 RGB 이미지가 없는 경우에도 사용할 수 있습니다. 즉, $f_{\text{feat}_t}$는 제외됩니다.

로컬 특징이 재구성의 견고성을 강화하지만, 시뮬레이션은 월드 좌표계에서 수행되어야 하므로 정확한 물리 학습은 여전히 전역 가이던스를 필요로 합니다. 따라서, 저희는 GVHMR의 다중 작업 MLP 헤드를 활용하여 시각적 특징 $F_t$로부터 미래의 루트 방향 $\bar{\tau}_{t+1}$을 명시적으로 회귀함으로써 로컬 관찰을 강화합니다. 이 보조 예측은 카메라 좌표계에서 전역 루트 방향에 대한 미래 예측 추정치를 제공합니다. 저희는 $\bar{\tau}_{t+1}$을 월드 프레임으로 변환하고, 휴머노이드 에이전트의 현재 루트 포즈 $\tau_t$와의 상대적 차이를 다음과 같이 계산합니다: $\Delta\tau_t = \tau_t^{-1} \bar{\tau}_{t+1}$. 이 신호는 에이전트의 미래 진행 방향을 안내하는 명시적인 방향 단서를 제공합니다. 저희는 각 타임스텝 $t$에서 정책에 전달되는 관찰에 시각적 특징 $F_t$와 상대적 루트 방향 $\Delta\tau_t$를 모두 포함합니다.

4.2 Global Guidance Via Pixel-as-ray (Pixel-as-Ray를 통한 전역 가이던스)

쪽집게 과외

알고리즘

flowchart TD classDef idea fill:#E8D2E5 classDef sub fill:#CCEFFF classDef def fill:#FEEEB5 subgraph "4.1 로컬 참조 추출 파이프라인" A[입력: 비디오 프레임 I_t]:::def --> B{전처리} B --> C1[이미지 특징 f_feat] B --> C2[바운딩 박스 f_bbox] B --> C3[2D 키포인트 f_kp2d] B --> C4[카메라 회전 f_cam] subgraph GVHMR 인코더 C1 --> D[Enc_GVHMR]:::sub C2 --> D C3 --> D C4 --> D end D --> E[로컬 시각 특징 F_t]:::def D --> F{다중 작업 MLP 헤드}:::idea F --> G[미래 루트 방향 τ_bar]:::def G --> H{좌표계 변환 및 상대값 계산} H --> I[상대 루트 방향 Δτ_t]:::def E --> J[정책 입력]:::def I --> J end

핵심 콕콕

• 사전 훈련된 GVHMR 인코더를 사용하여, 전역 위치에 불변하는 '로컬 모션 특징'을 추출합니다. 이는 부정확할 수 있는 3D 포즈를 직접 추정하는 것보다 더 견고한 방식입니다.
• 이 방식은 프레임 간 정보를 융합하여 가려짐(occlusion)에 강하고, RGB 이미지 없이 모션 데이터만으로도 훈련할 수 있는 유연성을 제공합니다.
• 로컬 특징만으로는 물리 시뮬레이션에 한계가 있으므로, 시각 특징으로부터 미래의 '전역 루트 방향'을 추가로 예측하여 정책에 전역 가이던스를 제공합니다.

함정 주의

로컬 특징(Local Features)과 전역 가이던스(Global Guidance)를 혼동하지 마세요.
- 로컬 특징은 '몸의 자세' 자체에 대한 정보입니다. 즉, 팔다리를 어떻게 굽히고 펴는지와 같이 몸의 중심(루트)을 기준으로 한 상대적인 관절의 움직임을 의미합니다. 캐릭터가 어디에 있든 이 자세는 동일할 수 있습니다.
- 전역 가이던스는 '캐릭터의 세상 속 방향'에 대한 정보입니다. 캐릭터가 월드 좌표계에서 어느 방향으로 회전하고 나아갈지를 알려주는 신호입니다. 물리 시뮬레이션은 이 전역 공간에서 이루어지기 때문에 반드시 필요합니다.

구현 힌트

실제 구현 시, GVHMR의 사전 훈련된 인코더를 그대로 가져와 사용하는 것이 핵심입니다. 단순히 마지막 출력을 사용하는 것이 아니라, 저자들이 언급한 것처럼 다중 작업(multi-task) MLP 헤드를 활용해 루트 방향(root orientation)을 명시적으로 예측하는 부분을 추가해야 합니다. 이 보조 작업(auxiliary task)이 전역 가이던스를 제공하는 중요한 역할을 합니다.

쉬운 비유

로컬 특징과 전역 가이던스f>를 쉽게 비유해볼게요.

당신이 춤 동작을 가르치는 로봇을 프로그래밍한다고 상상해보세요.
- 로컬 특징: 이것은 로봇에게 "왼쪽 무릎을 90도로 굽히고, 오른팔은 머리 위로 들어 올려."라고 말하는 것과 같습니다. 춤 동작의 '자세' 자체를 알려주는 것이죠. 이 자세는 무대 중앙이든 구석이든 어디서나 똑같이 취할 수 있습니다.
- 전역 가이던스: 이것은 로봇에게 "이제 오른쪽으로 45도 돌아서 앞으로 두 걸음 가."라고 말하는 것과 같습니다. 무대 위에서 '어디로 이동하고 어느 방향을 볼지'를 알려주는 것입니다.

완벽한 춤을 추려면 로봇은 두 가지 모두를 알아야 합니다. 어떤 '자세'를 취해야 하는지(로컬 특징)와 그 자세로 어디로 '이동하고 회전'해야 하는지(전역 가이던스)가 모두 필요하기 때문입니다.

셀프 테스트

[O/X]

정답 보기

본 논문에서 제안하는 방식은 3D 포즈를 명시적으로 재구성한 뒤, 이를 로컬 참조 정보로 사용한다.
정답: X
해설: 본문은 명시적인 3D 포즈 재구성이 잠재적으로 부정확할 수 있다고 지적하며, 대신 결정론적 포즈로 축소되지 않는 풍부한 시각적 특징을 직접 사용한다고 설명합니다.

[빈칸]

정답 보기

로컬 특징만으로는 정확한 물리 학습이 어렵기 때문에, 시뮬레이션이 수행되는 월드 좌표계에 대한 ___ ___가 필요하다.
정답: 전역 가이던스
해설: 로컬 특징은 재구성의 견고성을 높이지만, 물리 시뮬레이션은 월드 좌표계에서 이루어지므로 전역적인 위치와 방향에 대한 정보, 즉 전역 가이던스가 필수적입니다.

[서술형]

정답 보기

본 논문에서 GVHMR의 사전 훈련된 인코더를 사용하는 주된 이점 두 가지는 무엇이며, 왜 이것이 명시적인 3D 포즈 재구성보다 더 나은 접근 방식이라고 할 수 있나요?
모범답안: 주된 이점은 첫째, 루트에 불변하는(root-invariant) 시각적 특징을 자연스럽게 얻을 수 있어 로컬 제어에 유용하다는 점입니다. 둘째, 단일의 결정론적 포즈로 정보를 축소하지 않고 풍부한 포즈 관련 정보를 그대로 유지한다는 점입니다. 이는 잠재적으로 부정확할 수 있는 단 하나의 3D 포즈 추정치에 의존하는 것보다, 다양한 가능성을 내포한 특징을 직접 사용함으로써 더 견고하고 유연한 학습을 가능하게 하기 때문에 더 나은 접근 방식입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

에이전트의 미래 진행 방향을 유도합니다. 우리는 각 타임스텝 $t$에서 정책에 전달되는 관측값에 시각적 특징 $F_t$와 상대적 루트 방향 $\Delta\tau_t$를 모두 포함합니다.

4.2 Global Guidance Via Pixel-as-ray (픽셀-광선 방식을 통한 전역 유도)

특히 카메라 움직임이 포함될 때, 물리적으로 타당한 모션 재구성을 위해서는 정확한 전역 위치 결정이 매우 중요합니다.

하지만 단안 비디오에서 3D 궤적을 직접 예측하는 것은 깊이 모호성과 모션 노이즈 때문에 종종 신뢰할 수 없습니다.

이러한 궤적 오차는 추적 기반 제어 정책의 성능을 크게 저하시켜 불안정한 움직임으로 이어질 수 있습니다.

이 문제를 해결하기 위해, 우리는 명시적인 위치 목표를 강제하지 않으면서 전역 유도를 인코딩하는 pixel-as-ray (픽셀-광선) 전략을 제안합니다.

4.2.1 Keypoint Lifting To 3D Rays (3D 광선으로의 키포인트 리프팅)

추출된 2D 키포인트, $f_{\text{kp2d}}^t = \{(u_i^t, v_i^t)\}_{i=1}^J$ (프레임 $t$에서 시뮬레이션된 휴머노이드의 각 관절 $i$의 이미지 공간 위치를 나타냄)와 카메라 내부 파라미터 행렬 $K$가 주어지면, 우리는 각 키포인트를 역투영하여 3D를 얻습니다.

쪽집게 과외

알고리즘

flowchart TD classDef idea fill:#E8D2E5 classDef def fill:#FEEEB5 classDef warn fill:#FFD3C2 subgraph Pixel-as-Ray 전략 흐름 A["2D 키포인트 (u, v)"]:::def B["카메라 내부 파라미터 (K)"]:::def C{역투영 (Back-projection)}:::idea D["3D 공간상의 광선 (Ray)"]:::idea end A --> C B --> C C --> D

핵심 콕콕

• 단안 비디오에서 3D 궤적을 직접 예측하는 것은 깊이 모호성과 노이즈 때문에 불안정하며, 이는 제어 정책의 성능을 저하시킵니다.
• 이 문제를 해결하기 위해 'pixel-as-ray' (픽셀-광선) 전략을 제안하여, 명시적인 3D 좌표 대신 '방향'을 알려주는 부드러운 전역 유도를 제공합니다.
• 이 전략의 첫 단계는 2D 이미지 키포인트를 카메라 내부 파라미터를 이용해 3D 공간상의 광선으로 '리프팅'(lifting)하는 것입니다.

함정 주의

'명시적 전역 유도'와 '픽셀-광선(pixel-as-ray)을 통한 부드러운 유도'를 혼동하지 마세요.
- 명시적 유도는 "정확히 (x, y, z) 좌표로 가라"고 지시하는 것과 같습니다. 예측이 조금만 틀려도 캐릭터가 비틀거리거나 부자연스러워집니다.
- 픽셀-광선 유도는 "저 방향으로 가라"고 손가락으로 가리키는 것과 같습니다. 정확한 목표 지점 대신 방향성만 제공하여, 노이즈에 더 강건하고 자연스러운 움직임을 가능하게 합니다.

구현 힌트

'키포인트 역투영'을 구현할 때는 카메라 내부 파라미터 행렬 K의 역행렬을 사용합니다. 2D 키포인트 좌표 (u, v)를 동차좌표 [u, v, 1]로 변환한 뒤, K의 역행렬을 곱하면 카메라 좌표계에서의 3D 방향 벡터를 얻을 수 있습니다. 이 벡터가 바로 3D 광선(ray)이 됩니다.

쉬운 비유

픽셀-광선(Pixel-as-Ray) 전략f>을 길안내에 비유해볼게요.
- 기존 방식 (명시적 3D 좌표 예측): 친구에게 "정확히 북위 37.5665도, 동경 126.9780도에 있는 벤치로 와"라고 말하는 것과 같아요. GPS가 조금만 오차가 나도 친구는 엉뚱한 곳에서 헤맬 수 있죠. 이것이 바로 '불안정한 모션'입니다.
- 픽셀-광선 방식: 친구에게 "저기 보이는 남산타워 방향으로 쭉 걸어와"라고 손으로 가리키는 것과 같아요. 정확한 좌표 대신 방향만 알려주기 때문에, 친구는 중간에 장애물이 있어도 유연하게 피하면서 올바른 방향으로 올 수 있습니다. 이것이 바로 노이즈에 강건한 '부드러운 전역 유도'입니다.

셀프 테스트

[O/X] 단안 비디오에서 3D 궤적을 직접 예측하는 것은 깊이 모호성 때문에 매우 정확하고 신뢰할 수 있다.

정답 보기

정답: X
해설: 본문에서는 깊이 모호성과 모션 노이즈로 인해 3D 궤적 예측이 종종 신뢰할 수 없으며(unreliable), 이는 추적 기반 제어 정책의 성능을 저하시킨다고 설명합니다.

[빈칸] 본 논문은 명시적인 위치 목표를 강제하지 않고 전역 유도를 인코딩하기 위해 ___ 전략을 제안한다.

정답 보기

정답: pixel-as-ray (픽셀-광선)
해설: 이 전략은 2D 키포인트를 3D 광선으로 변환하여, 노이즈가 많은 3D 위치 예측에 직접 의존하는 것을 피합니다.

[서술형] '픽셀-광선' 전략이 명시적인 3D 루트 예측을 사용하는 것보다 더 강건한(robust) 이유는 무엇인가요?

정답 보기

모범답안: 명시적인 3D 루트 예측은 단안 비디오의 깊이 모호성으로 인해 노이즈가 많고 오류가 발생하기 쉽습니다. 이러한 오류는 제어 정책에 직접적인 잘못된 목표를 제공하여 불안정한 움직임을 유발합니다. 반면, '픽셀-광선' 전략은 2D 키포인트를 3D 공간상의 '방향'을 나타내는 광선으로 변환합니다. 이는 엄격한 위치 제약이 아닌 부드러운 방향성 유도를 제공하므로, 3D 예측의 작은 오차에 덜 민감하고 정책이 더 안정적이고 물리적으로 타당한 움직임을 생성하도록 돕습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

표 1: AIST++ 및 EMDB2 데이터셋에서 운동학적 및 물리적 타당성 지표에 대한 저희 동작 재구성 변형 모델들의 비교. 낮을수록 좋습니다.

모든

쪽집게 과외

핵심 콕콕

• 제안된 PhysHMR 모델은 운동학적 정확도(MPJ)와 물리적 타당성(FS, HV 등) 모두에서 뛰어난 성능을 보입니다.
• 순수 운동학 기반 방법(Kin.)은 물리적 오류(예: 발 미끄러짐)에 취약합니다.
• 추적 기반 후처리 방법(Track.)은 초기 재구성 오류를 증폭시켜 오히려 성능을 저하시킬 수 있습니다.
• PhysHMR은 시각 정보와 물리 제어를 통합하여, 정확하면서도 물리적으로 현실적인 동작을 재구성하는 데 성공했습니다.

쉬운 비유

동작 재구성 방법들의 차이f>를 쉽게 비유해볼게요.

- 운동학 기반 방법 (GVHMR)b>: 비디오를 보고 사람의 동작을 그대로 따라 그리는 '트레이싱 아티스트'와 같아요. 각 프레임의 모습은 정확하게 그리지만, 중력이나 균형 같은 물리 법칙은 신경 쓰지 않아서 그림 속 사람이 공중에 떠 있거나 발이 바닥을 뚫는 등 어색한 부분이 생길 수 있습니다.

- 후처리/추적 기반 방법 (PHC+)b>: 첫 번째 아티스트가 그린 그림을 보고 물리 전문가가 수정하는 것과 같아요. 공중에 뜬 발을 땅에 붙이는 등 명백한 오류는 고칠 수 있지만, 이미 그려진 그림 위에서 수정하는 거라 어색함이 남거나 오히려 다른 부분이 망가질 수 있습니다.

- PhysHMR (우리 방법)e>: 물리 법칙을 완벽히 이해하는 '천재 아티스트'와 같아요. 비디오를 보면서 동시에 '이 동작이 물리적으로 가능한가?'를 계속 계산하며 그립니다. 그래서 처음부터 끝까지 모든 동작이 자연스럽고 현실 세계의 법칙에 맞는, 흠잡을 데 없는 결과물을 만들어냅니다.

셀프 테스트

[O/X] 표 1에 따르면, PhysHMR은 운동학적 정확도(kinematic accuracy)는 기존 방법들보다 다소 떨어지지만, 물리적 타당성(physical plausibility)은 크게 향상시켰다.

정답 보기

정답: X
해설: PhysHMR은 물리적 타당성을 크게 향상시켰을 뿐만 아니라, MPJ(평균 관절 위치 오차)와 같은 운동학적 정확도 지표에서도 다른 방법들과 비슷하거나 오히려 더 좋은 성능을 보였습니다.

[빈칸] 표 1에서 발 미끄러짐(FS) 지표가 가장 높은, 즉 가장 성능이 나쁜 방법 유형은 [ ___ ] 기반 방법이다.

정답 보기

정답: 추적 (Tracking)
해설: TRAM × PHC+ 모델이 AIST++ 데이터셋에서 36.57로 가장 높은 발 미끄러짐 수치를 기록했습니다. 이는 초기 운동학적 오류가 추적 과정에서 증폭될 수 있음을 보여줍니다.

[서술형] 운동학 기반 방법(GVHMR)에 물리 기반 후처리(PhysPT)를 결합한 'GVHMR × PhysPT'가 왜 순수 GVHMR보다 WA(World Accuracy) 지표에서 훨씬 나쁜 결과를 보였는지 추론해보세요.

정답 보기

모범답안: 이는 2단계 접근법의 한계 때문입니다. 1단계인 GVHMR에서 생성된 동작에 이미 세계 좌표계 상의 큰 오류가 포함되어 있었을 가능성이 높습니다. 2단계인 PhysPT는 이 부정확한 입력을 '물리적으로 그럴듯하게' 만들려고 시도하지만, 입력 자체가 잘못되었기 때문에 수정 과정에서 오류가 수정되지 않고 오히려 증폭되어 전체적인 월드 정확도(WA)가 크게 저하된 것입니다. 즉, 잘못된 길로 들어선 차를 더 빨리 달리게 만든 셈입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

일관성을 위해 모든 비디오와 모션 시퀀스는 30 FPS로 샘플링됩니다.

물리 모델 파라미터(예: 질량, 관절 토크 제한, 마찰 계수)는 모두 Luo/2023/PHC의 설정을 따릅니다.

샘플 효율성을 높이기 위해 1,536개의 환경으로 학습을 병렬화합니다.

주 정책 네트워크는 [2048, 1536, 1024, 1024, 512, 512] 차원의 은닉층을 가진 MLP로 구현되며, 활성화 함수로는 SiLU를 사용합니다.

강화 학습은 0.2의 클립 계수를 사용하는 PPO(Proximal Policy Optimization)로 수행됩니다.

Luo/2024b/PHC+가 교사 정책으로 사용됩니다.

증류 손실은 PPO 목적 함수와 함께 공동으로 최적화됩니다.

안정성을 확보하기 위해 임계값 50으로 그래디언트 클리핑을 적용합니다.

실패한 에피소드에 대한 비효율적인 탐색을 줄이고 수렴을 가속화하기 위해 조기 종료가 활성화됩니다.

모델은 일반적으로 약 3일간의 학습 후에 수렴합니다.

현재 파이프라인은 사전 훈련된 GVHMR 이미지 인코더에 의존하는데, 이는 실시간이 아니므로 전체 시스템은 오프라인으로 작동합니다.

이 프레임워크를 인과적 어텐션과 효율적인 인코더로 확장하면 향후 연구에서 온라인 배포가 가능해질 수 있습니다.

저희의 접근 방식은 명시적인 형태 정보에 의존하지 않습니다.

기성 도구를 사용하여 SMPL 모델의 인체 형태 파라미터를 추정하고, 제로 형태 SMPL 모델에 대한 스케일 차이를 계산합니다.

이는 시뮬레이션 공간을 실제 단위와 일치하도록 스케일링하여, 휴머노이드가 표준적인 제로 형태를 유지하도록 합니다.

쪽집게 과외

핵심 콕콕

• 학습 방식: PPO 강화학습과 PHC+ 전문가 정책으로부터의 지식 증류를 결합하여 안정성과 수렴 속도를 높입니다.
• 네트워크 구조: 정책 네트워크는 여러 은닉층을 가진 MLP로 구성되며, SiLU 활성화 함수를 사용합니다.
• 학습 효율화: 1,536개의 대규모 병렬 환경, 그래디언트 클리핑, 조기 종료 등의 기법을 통해 학습을 가속화합니다.
• 현재 한계: 사전 훈련된 GVHMR 이미지 인코더가 실시간이 아니기 때문에, 전체 시스템은 오프라인으로만 작동합니다.
• 형태 정보 처리: 인체 형태(shape)를 직접 학습하지 않고, 사전 추정된 SMPL 파라미터를 이용해 시뮬레이션 공간의 스케일만 조정하여 문제를 단순화합니다.

구현 힌트

모델을 직접 구현하거나 재현할 때 다음 하이퍼파라미터와 전략을 참고하세요.

- PPO 클립 계수: 0.2
- 그래디언트 클리핑 임계값: 50
- 네트워크 구조: MLP 은닉층은 [2048, 1536, 1024, 1024, 512, 512]로 설정하고, 활성화 함수는 SiLU를 사용합니다.
- 학습 전략: 샘플 효율성을 극대화하기 위해 1,000개 이상의 환경에서 병렬 학습을 수행하는 것이 중요합니다. 또한, 학습 초기에는 지식 증류가 수렴을 돕고, 후반에는 PPO가 안정성을 높여주므로 두 가지를 결합하는 것이 효과적입니다.

셀프 테스트

[O/X] PhysHMR 모델은 실시간 비디오를 입력받아 즉시 물리적으로 타당한 동작을 생성하는 온라인 시스템이다.

정답 보기

정답: X
해설: 본문에서는 현재 파이프라인이 실시간이 아닌 GVHMR 이미지 인코더에 의존하므로 전체 시스템이 오프라인으로 작동한다고 명시하고 있습니다.

[빈칸] 이 연구에서는 PPO 강화학습과 함께, ___에서 학습된 전문가 정책으로부터 지식을 전달받는 증류 기법을 사용하여 학습을 안정화하고 가속화했다.

정답 보기

정답: PHC+
해설: 본문에서는 PHC+를 교사 정책(teacher policy)으로 사용하여 지식 증류를 수행했다고 설명합니다.

[서술형] PhysHMR가 인체의 '형태(shape)' 정보를 명시적으로 학습하지 않고도 다양한 체형에 대응할 수 있는 이유는 무엇인가?

정답 보기

모범답안: PhysHMR는 형태 정보를 직접 학습하는 대신, 기성 도구로 추정한 SMPL 형태 파라미터를 사용합니다. 이 파라미터를 이용해 기준 모델(zero-shape)과의 스케일 차이를 계산하고, 시뮬레이션 공간 자체를 이 스케일에 맞게 조정합니다. 결과적으로 시뮬레이션 내의 휴머노이드는 항상 표준적인 제로 형태를 유지하게 되므로, 정책 네트워크는 형태 변화에 대해 학습할 필요 없이 동작 제어에만 집중할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

5.5 Ablation Study (절제 연구)

우리는 제안된 pixel-as-ray 공식과 증류 및 강화 학습에 기반한 결합된 훈련 전략의 효과를 검증하기 위해 H36M에 대한 절제 연구를 수행합니다.

Pixel-as-Ray의 효과. 표 3은 다양한 전역 지시 전략의 영향을 평가합니다. 전역 지시를 완전히 제거하면(ImgFeat) PA-MPJPE와 MPJPE는 좋게 나오지만, WA-MPJPE는 현저히 나빠집니다. 이는 휴머노이드가 지역적 움직임은 잘 모방하지만 전역 궤적을 추적하는 데는 실패함을 나타냅니다. pixel-as-ray를 GVHMR로 추정된 명시적인 루트 상대 변위로부터의 전역 감독(+ 3D root)으로 대체하면 모든 지표에서 성능이 저하됩니다. 이는 루트 추정의 오류가 지역적 움직임과 충돌하는 잘못된 지침을 도입하기 때문입니다. 반면, pixel-as-ray(+ pixelray)를 통해 2D 키포인트를 사용하면 더 견고하고 완화된 전역 지시를 제공하여, 전역 정보가 없는 설정과 비슷한 PA-MPJPE를 달성하면서도 WA-MPJPE를 상당히 개선합니다.

증류의 효과. 표 4와 그림 4는 다양한 훈련 전략을 비교합니다. 또한 모든 프레임에서 PA-MPJPE가 50mm 미만으로 유지되는 시퀀스의 백분율로 정의되는 성공률도 보고합니다. PPO와 증류를 결합하는 것이 가장 높은 성공률을 달성하며, 이는 PPO가 장기적인 안정성을 상당히 향상시킨다는 것을 보여줍니다. PPO만 사용하는 것은 느린 수렴과 최적이 아닌 최종 성능으로 이어집니다. 증류만 사용하는 설정은 초기 단계 학습을 더 빠르게 하지만 탐색이 부족하여 제한적인 보상 향상으로 이어집니다. 증류만 사용하는 설정에서는 보상이 평가를 위해서만 계산되고 훈련 중에는 사용되지 않는다는 점에 유의해야 합니다. 우리의 결합 훈련 전략은 두 가지의 장점을 모두 결합합니다: 수렴을 가속화하고 더 높은 최종 보상을 달성하며, 테스트 시퀀스에서 더 나은 일반화 성능을 제공합니다.

쪽집게 과외

핵심 콕콕

• 'Pixel-as-ray' 전략은 명시적인 3D 루트 좌표를 사용하는 것보다 전역 가이던스로서 더 안정적이고 효과적입니다.
• 전역 가이던스가 없으면 지역적 움직임은 잘 모방하지만, 전역 궤적 추적에는 실패합니다.
• 강화학습(PPO)과 지식 증류를 결합한 훈련 방식이 각각을 단독으로 사용하는 것보다 수렴 속도, 안정성, 최종 성능 면에서 모두 우수합니다.
• 지식 증류는 빠른 초기 학습을 돕고, PPO는 탐색을 통해 장기적인 안정성과 성능을 향상시키는 상호 보완적 관계입니다.

함정 주의

왜 더 많은 정보(명시적인 3D 루트 좌표)가 더 나쁜 결과를 낳나요?

'3D 루트 좌표'는 정확하다면 가장 좋은 정보지만, 단일 카메라 영상에서 추정된 값은 노이즈가 많고 부정확할 때가 많습니다. 이렇게 '틀린 정보'를 강하게 주입하면, 정책은 지역적인 움직임 정보와 충돌하는 잘못된 신호에 혼란을 겪어 전체적인 성능이 오히려 떨어집니다. 반면 'pixel-as-ray'는 '대략 저 방향'이라는 부드럽고 덜 구체적인 정보를 주기 때문에, 노이즈에 더 강건하고 안정적인 학습을 가능하게 합니다. 즉, 정보의 양보다 '질'과 '신뢰성'이 더 중요합니다.

쉬운 비유

Pixel-as-ray와 3D 루트 좌표f>를 쉽게 비유해볼게요.
- 낯선 도시에서 길을 찾는 상황을 상상해보세요.
- 3D 루트 좌표: "정확히 북쪽으로 100미터, 동쪽으로 50미터 가세요"라고 알려주는 GPS와 같아요. 하지만 이 GPS가 자주 고장나서 엉뚱한 위치를 알려준다면? 오히려 길을 잃게 되겠죠. 이것이 노이즈 낀 3D 루트 좌표의 문제입니다.
- Pixel-as-ray: "저기 보이는 높은 빌딩 방향으로 쭉 가세요"라고 알려주는 현지인의 조언과 같아요. 정확한 좌표는 아니지만, 틀릴 일이 거의 없는 확실한 방향을 제시해주죠. 이처럼 덜 구체적이지만 신뢰도 높은 정보가 더 나은 결과를 가져올 수 있습니다.

PPO + 증류 훈련f>을 쉽게 비유해볼게요.
- 요리를 배우는 상황을 상상해보세요.
- 증류만 사용: 최고의 요리사가 만든 요리법 영상을 그대로 따라하기만 하는 것과 같아요. 처음에는 빠르게 실력이 늘지만, 레시피에 없는 돌발상황(예: 재료가 약간 다를 때)에는 대처하지 못하고 응용력이 떨어집니다.
- PPO만 사용: 아무런 지식 없이 혼자서 재료를 섞어가며 실험하는 것과 같아요. 언젠가는 맛있는 요리를 만들 수 있겠지만, 시간이 매우 오래 걸리고 수많은 실패를 겪어야 합니다.
- PPO + 증류: 요리사 영상을 보고 기본기를 익힌 다음, 직접 요리를 해보면서 자신만의 노하우를 터득하는 것과 같아요. 빠르고 안정적으로 최고의 요리사가 될 수 있는 가장 효율적인 방법입니다.

셀프 테스트

[O/X]

정답 보기

'pixel-as-ray' 전략은 명시적인 3D 루트 좌표를 사용하는 것보다 항상 모든 성능 지표에서 우수하다.
정답: X
해설: 'pixel-as-ray'는 전역적인 움직임을 나타내는 WA-MPJPE에서 월등히 우수했지만, 지역적 정확도를 나타내는 PA-MPJPE에서는 전역 정보가 없는 설정과 비슷한 수준이었습니다. 즉, 전역 가이던스의 강건함에서 오는 장점이 핵심이며 모든 면에서 압도적인 것은 아닙니다.

[빈칸]

정답 보기

훈련 전략 중, (___)만 사용하는 방식은 탐색 부족으로 성능 향상에 한계가 있고, (___)만 사용하는 방식은 수렴이 느리고 최종 성능이 낮은 단점이 있다.
정답: 증류, PPO
해설: 증류는 전문가의 지식을 모방하여 빠르게 학습하지만 새로운 해법을 탐색하지 못하고, PPO는 스스로 탐색하며 학습하기에 비효율적이고 느릴 수 있습니다. 둘을 결합해야 시너지를 낼 수 있습니다.

[서술형]

정답 보기

본 논문에서 제안한 'PPO + 증류' 결합 훈련 전략이 '증류만 사용하는' 전략보다 장기적으로 더 나은 성능을 보이는 근본적인 이유는 무엇인가요?
모범답안: '증류만 사용하는' 전략은 사전 훈련된 전문가 정책의 행동을 모방하는 것에 그치기 때문에, 전문가가 완벽하지 않거나 전문가의 데이터 분포에 없는 새로운 상황에 직면했을 때 성능 한계에 부딪힙니다. 즉, '탐색(exploration)' 과정이 없어 전문가의 지식을 뛰어넘는 더 나은 정책을 발견할 수 없습니다. 반면, 'PPO + 증류' 전략은 증류를 통해 효율적인 초기 학습을 달성한 후, PPO의 강화학습 프레임워크를 통해 환경과 직접 상호작용하며 스스로 더 나은 행동을 '탐색'하고 학습합니다. 이 탐색 과정이 장기적으로 더 높은 보상을 얻게 하고, 다양한 테스트 상황에 대한 일반화 성능을 높여주기 때문에 최종적으로 더 우수한 성능을 보이게 됩니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

보상은 평가용으로만 계산되며 훈련 중에는 사용되지 않습니다. 우리의 결합 훈련 전략은 두 가지의 장점을 모두 결합합니다: 수렴을 가속화하고 더 높은 최종 보상을 달성하며, 동시에 테스트 시퀀스에 대해 더 나은 일반화 성능을 제공합니다.

6 Conclusion (결론)

우리는 PhysHMR을 제시했습니다. 이는 시각적 입력을 휴머노이드 제어 행동에 직접 매핑하여 단안 비디오로부터 물리적으로 타당한 인간 모션을 재구성하는 통합 프레임워크입니다. 기존 방법들과 달리, PhysHMR은 추론 중에 물리적 동역학을 통합하는 visual-to-action 정책을 학습합니다. 효율성과 강건성을 향상시키기 위해, 우리는 모캡으로 훈련된 전문가로부터의 모션 증류(motion distillation)와 노이즈가 많은 3D 루트 예측에 의존하지 않고 부드러운 전역 가이던스를 제공하는 새로운 pixel-as-ray 전략을 도입했습니다.

Limitation And Future Work (한계 및 향후 연구)

PhysHMR이 높은 충실도의 모션을 생성하지만, 신체 역학 및 접촉 속성의 차이로 인해 현실-시뮬레이션 간 격차(real-to-sim gap)가 존재하며, 이는 때때로 눈에 보이는 아티팩트로 이어질 수 있습니다. 향후 연구에서는 실제 세계의 동역학을 더 잘 반영하기 위해 개인화된 물리적 파라미터를 통합할 것입니다. 또한, 단일 단안 비디오로부터의 모션 재구성은 모호성과 가려짐으로 인해 제약이 부족(underconstrained)합니다; 결정론적 정책 대신 조건부 생성 모델을 사용하면 다양하고 물리적으로 타당한 모션을 더 잘 포착할 수 있을 것입니다. 우리의 현재 프레임워크는 인간-장면 상호작용(예: 앉거나 표면에 기대는 것)을 명시적으로 지원하지 않으며, 이는 향후 연구에서 환경 재구성 및 상호작용 인식 제어를 통해 해결할 계획입니다.

References (참고 문헌)

쪽집게 과외

핵심 콕콕

• PhysHMR은 단안 비디오에서 물리적으로 타당한 인간 모션을 재구성하는 통합 프레임워크입니다.
• 핵심 기술은 시각적 입력을 직접 제어 신호로 바꾸는 'visual-to-action' 정책, 모캡 전문가로부터 지식을 전달받는 '모션 증류', 그리고 노이즈에 강한 전역 가이던스를 제공하는 'pixel-as-ray' 전략입니다.
• 주요 한계점으로는 현실과 시뮬레이션 간의 차이(real-to-sim gap), 단안 영상의 본질적인 모호성, 그리고 인간-장면 상호작용 미지원이 있습니다.

셀프 테스트

[O/X] PhysHMR은 기존의 운동학 기반 재구성 결과를 물리 시뮬레이션으로 후처리하는 2단계 방식의 프레임워크이다.

정답 보기

정답: X
해설: PhysHMR은 시각 정보 인식과 물리 제어를 하나의 'visual-to-action' 정책으로 통합한 단일 프레임워크입니다. 이는 2단계 방식의 단점인 오류 누적 문제를 해결하기 위함입니다.

[빈칸] PhysHMR은 노이즈가 많은 3D 루트 예측에 의존하는 대신, 2D 키포인트를 3D 광선으로 변환하는 ___ 전략을 사용하여 부드러운 전역 가이던스를 제공한다.

정답 보기

정답: pixel-as-ray
해설: pixel-as-ray 전략은 명시적인 3D 좌표 대신 방향성을 가진 3D 광선을 사용하여, 부정확한 3D 루트 예측으로 인한 불안정한 모션 생성을 방지하고 정책의 강건성을 높입니다.

[서술형] PhysHMR이 직면한 주요 한계점 3가지를 설명하고, 저자들이 각 한계점을 해결하기 위해 제안하는 향후 연구 방향을 서술하시오.

정답 보기

모범답안: PhysHMR의 세 가지 주요 한계점과 해결 방향은 다음과 같습니다.
1. 현실-시뮬레이션 간 격차(Real-to-sim gap): 신체 역학 및 접촉 속성 차이로 인해 발생하는 문제로, 개인화된 물리 파라미터를 도입하여 해결하고자 합니다.
2. 제약 부족 문제(Under-constrained problem): 단안 비디오의 모호성과 폐색으로 인해 하나의 영상에 여러 타당한 모션이 존재할 수 있는 문제로, 결정론적 정책 대신 조건부 생성 모델을 사용하여 다양성을 포착하는 방향을 제안합니다.
3. 인간-장면 상호작용 부재: 현재 프레임워크는 앉거나 기댈 수 없어, 향후 환경 재구성 및 상호작용 인식 제어 기술을 통해 이를 해결할 계획입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Figures And Tables

Fig 1: 단안 비디오(a)가 주어졌을 때, (b) 운동학 기반 방법론(예: GVHMR)은 종종 물리적으로 그럴듯한 결과를 생성하지 못하고 발이 뜨는 것과 같은 인공물을 겪습니다. (c) 추적 기반 컨트롤러(예: PHC+)는 물리적 타당성을 강제할 수 있지만, 부정확한 동작 재구성으로 인한 오차를 증폭시켜 부자연스러운 행동을 초래할 수 있습니다. (d) 반면, 저희 PhysHMR 모델은 시각적 입력으로부터 제어 신호를 직접 예측하는 시각-행동 정책을 학습하여 오차 증폭을 방지하고, 입력 비디오(a)와 시각적으로 정렬되면서 물리적으로도 그럴듯한 동작을 생성합니다. 결과의 물리적 타당성을 평가하는 가장 효과적인 방법은 비디오이므로, 독자들께서는 보충 비디오를 시청하시기를 권장합니다.

Fig 2: 저희 파이프라인의 개요입니다. 시각-행동 정책은 단안 비디오로부터 물리적으로 그럴듯한 동작을 재구성합니다. 훈련 효율성은 강화학습과 지식 증류를 결합하여 향상됩니다. 전역 동작은 2D 키포인트를 3D 광선으로 변환하는 픽셀-광선 모듈을 사용하여 안내됩니다.

Table 1: AIST++와 EMDB2 데이터셋에서 운동학적 및 물리적 타당성 지표에 대한 저희 동작 재구성 변형 모델들의 비교. 낮을수록 좋습니다.

Fig 3: 두 가지 물리 기반 방법론과의 비교. 검은 선은 지면을 나타냅니다. PhysPT(두 번째 행)는 신경망을 사용하여 물리를 근사하지만, 여전히 지면을 뚫는 문제가 있습니다. PHC+(세 번째 행)는 추적 중 동작 재구성 오차를 증폭시켜 불안정한 결과를 초래합니다. 두 방법 모두 상위 단계의 오차를 수정할 수 없습니다. 반면, 저희의 시각-행동 접근법은 물리적으로 그럴듯하면서도 시각적으로 정렬된 동작을 생성합니다.

Table 2: 사용자 연구 선호도 결과. 값은 각 방법이 선호된 비율(%)을 나타냅니다.

Table 3: 전역 지침 전략에 대한 Ablation 연구.

Table 4: 정책 학습 전략 비교. 강화학습(PPO)과 지식 증류를 결합하는 것이 최고의 성능을 보입니다.

Fig 4: 훈련 중 평균 보상 곡선. PPO만 사용하는 경우 느리게 수렴하고 성능이 저조합니다. 지식 증류만 사용하는 경우 빠르게 수렴하지만 조기에 정체됩니다. 저희의 접근법(PPO + 지식 증류)은 더 빠른 수렴과 더 높은 최종 보상을 모두 달성합니다.

Comments

Yujin Kim

물리 유형	방법	EMDB2							AIST++
물리 유형	방법	PA	WA	MPJ	FS	HV	ACC	VEL	PA	WA	MPJ	FS	HV	ACC	VEL
운동학	TRAM	35.51	148.05	56.74	11.76	22.97	4.77	8.77	50.18	189.44	76.30	23.18	7.93	9.31	21.85
운동학	GVHMR	40.95	228.67	65.21	5.65	26.42	5.40	10.19	53.43	175.64	79.05	11.54	4.64	10.19	14.40
신경망	PhysPT (CLIFF)	48.40	762.78	77.00	11.02	6.54	6.72	19.92	70.72	260.07	108.57	13.68	3.71	9.21	17.05
	TRAM × PhysPT	39.90	704.57	61.42	8.49	7.02	5.38	17.71	52.79	250.30	83.93	10.94	3.55	8.59	16.00
	GVHMR × PhysPT	41.34	682.03	66.08	10.71	8.46	5.35	17.24	55.29	235.66	83.93	11.24	3.46	8.90	15.36
추적	TRAM × PHC+	52.94	158.58	74.34	23.41	7.64	9.56	14.00	71.21	212.28	101.70	36.57	4.95	12.55	22.74
추적	GVHMR × PHC+	46.24	193.01	72.50	12.71	7.71	7.43	12.21	67.38	193.23	109.77	24.79	6.05	10.05	17.10
V2A	저희 모델	39.34	189.26	55.48	4.60	5.04	5.49	10.53	50.40	187.42	63.94	9.14	3.10	6.58	12.13