1. Introduction (서론)
동적 장면을 표현하고 렌더링하는 것은 몰입형 이미징 애플리케이션에 중추적인 역할을 하며, 가상 현실(VR) 및 메타버스를 포함한 멀티미디어 및 그래픽 기술의 경계를 넓히고 있습니다. 이산적인 시간적 비디오 시퀀스가 주어졌을 때, 동적 장면 렌더링은 장면의 동역학을 모델링하고 임의의 타임스탬프에서 고충실도의 새로운 뷰를 실시간으로 합성하는 것을 목표로 합니다. 이는 두 가지 주요 과제에 직면합니다: 첫째, 빠른 움직임과 위상학적 변화가 있는 복잡한 동적 장면의 고충실도 재구성 달성, 둘째, 낮은 훈련 비용으로 실시간 렌더링 효율성 유지입니다. 그러나 기존 방법들은 이 두 가지 목표를 동시에 만족시키는 데 어려움을 겪으며, 이것이 바로 이 논문이 탐구하는 문제입니다.
동적 장면 렌더링의 최근 발전은 주로 Neural Radiance Field (NeRF) (Mildenhall/2021/NeRF)와 Gaussian Splatting (Kerbl/2023/Gaussian Splatting)에 기반한 방법들을 통해 이루어졌습니다. NeRF는 정적 장면을 모델링하기 위해 암시적 신경 필드를 사용하며 사진처럼 사실적인 뷰 합성을 달성합니다. 이의 동적 확장 버전들은 시간에 따라 기준 프레임에 대한 움직임을 모델링하기 위해 변형 및 정규 필드를 활용하거나(Gao/2021/Dynamic view synthesis, Li/2022/DyNeRF, Park/2021b/HyperNeRF, Pumarola/2021/D-NeRF, Yan/2023/Forward flow), 4D 볼륨을 명시적인 구조적 표현(예: 평면 및 해시 인코딩)으로 저장합니다(Cao/2023/HexPlane, Chan/2021/Efficient Geometry-aware 3D GANs, Fang/2022/Fast dynamic radiance fields, Fridovich-Keil/2023/K-Planes, Müller/2022/Instant NGP, Shao/2023/TensoRF, Somraj/2024/4D scene representation, Wang/2023a/F2-NeRF). 렌더링 품질의 진전에도 불구하고, 이러한 방법들은 렌더링 중 광선을 따라 조밀한 샘플링이 필요하기 때문에 느린 렌더링 속도로 어려움을 겪습니다.
3D Gaussian Splatting (3DGS) (Kerbl/2023/Gaussian Splatting)의 등장으로 정적 장면에 대한 높은 충실도와 실시간 렌더링이 가능해졌습니다. 이 이정표를 바탕으로, 여러 방법들이 동적 장면을 모델링하는 능력을 갖추도록 3DGS를 확장했습니다(Duan/2024/4D Gaussian Splatting, Huang/2023/MD-Splatting, Li/2023/STG, Sun/2024/Co-GS, Wu/2024/4DGS, Wu/2025/Swift4D, Xu/2024a/Grid4D, Yan/2024/SaRO-GS, Yang/2024/Full-MLP Gaussian). 이러한 접근 방식들은 충분한 시점이 있는 장면에서 가우시안 변형을 위해 미리 정의된 함수를 사용하거나(Li/2023/STG, Lin/2023/Deformable 3D Gaussians), 변형된 가우시안 속성을 예측하기 위해 신경망을 사용합니다(Huang/2023/MD-Splatting, Wu/2024/4DGS, Yang/2024/Full-MLP Gaussian). 그럼에도 불구하고, 이들은 객체의 출현 및 소멸과 같은 시간적으로 복잡한 동역학을 모델링하는 데 어려움을 겪고, 공간적 및 시간적 변형을 제대로 구별하지 못하여 변형된 가우시안 간의 과도한 좌표 중첩과 복잡한 모션 시나리오에서 렌더링 품질 저하를 초래합니다.
앞서 언급한 문제들을 해결하기 위해, 우리는 해밀턴 역학에 의해 제어되는 동적 가우시안 스플래팅을 위한 신경 변형 필드인 NeHaD를 제안합니다. 가우시안 기반 방법들이 실시간 렌더링을 달성하지만, 우리는 현실적인 렌더링에는 지각적 품질뿐만 아니라 물리적으로 타당한 동역학이 필요하며, 대부분의 현재 접근 방식들이 이를 간과했다고 주장합니다. 흥미롭게도 Fig. 1에 설명된 바와 같이, 인간의 인지 과정과 장면 렌더링 과정은 모두 근본적인 물리 법칙, 특히 시스템 동역학 예측을 위한 해밀턴 역학(Noether/1971/Invariant Variation Problems)을 따르며, 이는 동적 장면 렌더링에 대한 해밀턴 원리의 자연스러운 적용 가능성을 보여줍니다. 더욱이, 가우시안 공분산 행렬은 본질적으로 심플렉틱 다양체 상에 존재하므로, 해밀턴 역학은 가우시안 변형 필드를 수학적으로 재구성하는 데 적절한 선택이 됩니다.
이러한 통찰을 바탕으로, NeHaD는 해밀턴 역학을 통해 4DGS(Wu/2024/4DGS)의 가우시안 변형 필드를 향상시킵니다. 첫째, 우리는 MLP 기반 변형 예측기를 해밀턴 신경망(HNN)(Greydanus/2019/Hamiltonian neural networks)으로 대체하여 비지도 방식으로 데이터로부터 기저의 보존 법칙을 학습합니다. 해밀턴 그래디언트의 인-그래프 역전파를 통해, HNN은 갑작스러운 불연속성 없이 안정적이고 일관된 변형을 보장하면서 최소한의 훈련 오버헤드만 발생시킵니다. 대부분의 장면 영역이 종종 정적으로 남아 동적 모델링이 필요 없다는 점(Wu/2025/Swift4D)에 착안하여, NeHaD는 가우시안의 시공간적 에너지 상태에 따라 동적으로 가중치를 부여하는 소프트 마스킹 메커니즘을 도입하여, 정적 및 동적 요소의 적응적 분해를 가능하게 합니다. 이 메커니즘은 프리미티브의 평형 상태 이탈로부터 파생된 볼츠만 에너지에 의해 구동됩니다. 마찰과 같은 실제 세계의 소산력을 처리하기 위해, 우리는 섭동 하에서 시스템의 심플렉틱 구조를 보존하기 위해 2차 심플렉틱 적분을 사용합니다. 또한, 더 작고 자연스러운 회전은 보존하면서 큰 회전을 피하기 위해 국소적 강성 제약을 통합합니다.
대역폭이 제한된 스트리밍 애플리케이션으로 NeHaD를 확장하기 위해, 우리는 앤티에일리어싱을 위한 스케일 인식 이방성 밉매핑과 세부 수준(LOD) 렌더링을 위한 계층적 점진적 최적화를 통합합니다. 우리는 합성 및 실제 장면을 모두 포함하는 단안 및 다중 시점 동적 장면 데이터셋에서 우리의 접근 방식을 광범위하게 평가합니다. 정량적 및 정성적 결과 모두 우리 방법이 개선된 품질-효율성 트레이드오프로 물리적으로 타당한 렌더링을 달성하며, 다양한 장면에서 복잡한 시스템 동역학을 효과적으로 모델링함을 보여줍니다. 우리의 기여는 다음과 같이 요약됩니다:
• 우리는 동적 가우시안 스플래팅을 위한 해밀턴 기반 신경 변형 필드를 제안합니다. 속성별 어댑터가 있는 단일 HNN을 사용하여, 우리는 물리적으로 타당한 변형을 위해 데이터로부터 보존 법칙을 암시적으로 학습합니다.
• 우리는 볼츠만 평형 분해를 도입하여 정적 가우시안과 동적 가우시안을 적응적으로 분리합니다. 동시에, 우리는 물리 기반 제약을 통해 변형 모델링을 향상시켜 견고하고 현실적인 렌더링을 보장합니다.
• 우리는 스케일 인식 밉매핑과 점진적 최적화를 통해 NeHaD를 스트리밍으로 확장합니다. 광범위한 실험은 렌더링 현실성에서의 개선을 입증합니다. 우리가 아는 한, 이것은 신경 가우시안 변형을 위해 해밀턴 역학을 활용한 첫 번째 탐구입니다.
Comments