2.1 Kinematics-based Human Mesh Recovery (운동학 기반 인간 메쉬 복원)
파라메트릭 인간 모델 [Loper/2015/SMPL; Osman/2020/STAR; Pavlakos/2019/SMPL-X; Xu/2020/GHUM&GHUML]은 단안 비디오로부터 인간의 움직임을 재구성하는 데 널리 채택되어 왔습니다.
초기 연구들 [Arnab/2019/Temporal Context; Bogo/2016/Keep It SMPL; Huang/2017/Towards 3D Human Pose; Xiang/2019/Monocular 3D Human Pose]은 이러한 모델들을 개별 이미지 프레임에 맞추는 데 중점을 두었습니다.
보다 최근에는, 대규모 데이터셋을 활용하는 회귀 기반 접근법들이 범용적인 인간 메쉬 복원을 달성할 수 있는 능력으로 주목받고 있습니다 [Cai/2023/Human-Art; Goel/2023/HMR2.0; Yin/2025/One-Stage].
동적인 카메라 움직임을 설명하기 위해, 데이터 기반 방법들은 프레임별 카메라 포즈를 추정하도록 확장되었습니다 [Shin/2024/Glocal; Sun/2023/TCM; Yuan/2022/GLoT].
추가적으로, SLAM (동시적 위치 추정 및 지도 작성) 기술은 견고한 카메라 움직임 추정에 효과적임이 입증되었으며, 복잡한 시나리오에서 인간 동작 복원을 더욱 향상시켰습니다 [Wang/2024/Vid2Avatar].
HuMoR [Rempe/2021/HuMoR]는 포즈 추정에서 시간적 일관성과 견고성을 향상시키는 생성적 동작 사전 지식(generative motion prior)을 학습합니다.
인간 메쉬 복원에서 이러한 발전에도 불구하고, 순수한 운동학적 방법들은 종종 발 미끄러짐, 지면 통과, 운동량 불일치와 같은 인공물(artifacts)을 보입니다.
이러한 인공물을 해결하기 위해, 이전 연구들은 그럴듯한 동역학을 장려하기 위한 보조적인 감독(supervision)으로 물리적 사전 지식(physical prior)을 사용해왔습니다.
PhysPT [Zhang/2024/PhysPT]는 강체 동역학을 강제하기 위해 미분 가능한 오일러-라그랑주 손실을 사용하여 운동학적 움직임을 정제하는 신경망 모듈을 제안합니다.
IPMAN [Tripathi/2023/IPMAN]은 단안 포즈 추정에 손실 함수를 통해 직관적인 물리 단서를 통합하지만, 완전한 물리 동역학을 강제하지 않는 운동학 기반 접근법으로 남아 있습니다.
D&D [Li/2022/D&D]는 외부 힘을 추정하고 뉴턴 동역학과의 일관성을 강제하기 위해 해석적 물리 계산을 적용하여 운동학적 움직임을 정제합니다.
이러한 방법들이 물리적 사실성을 어느 정도 향상시키기는 하지만, 운동학적 재구성 결과에 대한 사후 정제(post-hoc refinement)로 작동하여, 운동학 기반 인간 메쉬 복원 단계의 모호성으로부터 회복하기 어렵게 만듭니다.
더욱이, 물리적 일관성은 명시적인 물리 시뮬레이션보다는 신경망 근사를 통해 강제되므로, 전체 파이프라인이 근본적으로 운동학 기반이며 물리 제어와 분리되어 있습니다.
2.2 Physics-based Human Motion Imitation (물리 기반 인간 동작 모방)
물리 시뮬레이션 플랫폼 [Makoviychuk/2021/Isaac Gym; Todorov/2012/MuJoCo]은 강화 학습과 결합하여 시뮬레이션된 캐릭터의 물리적으로 기반한 제어를 가능하게 하여, 매우 사실적인 인간 움직임을 생성해왔습니다 [Dou/2023/UniMoCap; Peng/2018/DeepMimic, 2022/AMP, 2021/ASE; Tessler/2023/Sym-DREAM; Wang/2024/RoboImit].
PPR [Yang/2023/PPR]은 그럴듯한 비디오 기반 재구성을 위해 물리 사전 지식을 활용하며, 미분 가능한 동역학 모델 [Gärtner/2022/Differentiable Simulation]은 종단 간 최적화에 물리를 통합합니다.
대규모 모션 캡처 데이터셋 [Kobayashi/2023/HumanAPI; Mahmood/2019/AMASS; Peng/2021/Motion-Matching]에서 정책을 훈련함으로써, 많은 연구들이 학습된 제어 정책을 통해 높은 충실도의 동작 모방을 시연했습니다 [Luo/2024/SimXR, 2023/PHC, 2022/CaL-QL; Peng/2018/SFV; Tessler/2024/DiMo; Wagener/2022/MoCapDeform; Winkler/2022/Physics-based].
PhysCap [Shimada/2020/PhysCap]은 실시간 물리 시뮬레이션으로 단안 캡처를 제약합니다.
그러나 이러한 정책들은 깨끗한 3D 동작 참조 데이터를 추적하도록 훈련되어, 그러한 데이터가 없을 때 일반화하는 데 어려움을 겪습니다.
PHC [Luo/2023/PHC]는 비디오에서 3D 키포인트를 동작 참조로 추정하지만, 2단계 설계는 제어를 시각적 입력과 분리시켜 종종 지터와 부자연스러운 움직임을 초래합니다.
더욱이, 이전 방법들은 강화 학습에 크게 의존하는데, 이는 일반적으로 낮은 샘플 효율성으로 어려움을 겪습니다.
따라서, 이들은 풍부한 시각 정보를 완전히 활용하는 데 어려움을 겪고, 대신 3D 키포인트나 운동학 기반 표현과 같은 희소하고 결정적인 입력에 주로 의존합니다.
simXR [Luo/2024/SimXR]은 VR 환경에서 비전-투-액션 정책을 훈련시키기 위해 증류 전용 기법을 사용합니다.
이 방식은 강화 학습의 필요성을 피하지만, 제한된 데이터와 탐색의 부재로 인해 견고성이 부족합니다.
대조적으로, 우리의 공동 PPO+증류 훈련은 안정성과 일반화를 상당히 향상시켜, 순수 증류 접근법에 비해 명확한 이점을 보여줍니다.
시각적 증거와 직접적으로 정렬되는 인간 동작 재구성을 위한 시각 조건부 정책 학습은 여전히 대체로 미개척된 과제로 남아 있습니다.
Comments