NeHaD - Paper Library

ENG

0:00 / 0:00

KOR

0:00 / 0:00

0. Abstract (초록)

복잡한 움직임을 가진 동적 장면을 표현하고 렌더링하는 것은 컴퓨터 비전과 그래픽스 분야에서 여전히 어려운 과제입니다.

최근의 동적 뷰 합성 방법들은 높은 품질의 렌더링을 달성하지만, 종종 물리적으로 그럴듯하지 않은 움직임을 생성합니다.

저희는 해밀토니안 역학에 의해 제어되는 동적 가우시안 스플래팅을 위한 신경 변형 필드인 NeHaD를 소개합니다.

저희의 핵심 관찰은 변형 필드를 예측하기 위해 MLP를 사용하는 기존 방법들이 필연적인 편향을 도입하여 부자연스러운 동역학을 초래한다는 것입니다.

물리 사전 지식을 통합함으로써, 저희는 견고하고 사실적인 동적 장면 렌더링을 달성합니다.

해밀토니안 역학은 프리미티브들이 에너지가 보존되는 궤적을 따라 진화하는 공유된 위상 공간 구조 덕분에 가우시안 변형 필드를 모델링하기 위한 이상적인 프레임워크를 제공합니다.

저희는 해밀토니안 신경망을 사용하여 변형을 지배하는 근본적인 물리 법칙을 암시적으로 학습합니다.

한편, 저희는 볼츠만 평형 분해를 도입하는데, 이는 유연한 렌더링을 위해 공간-시간적 에너지 상태에 기반하여 정적 및 동적 가우시안을 적응적으로 분리하는 에너지 인식 메커니즘입니다.

실세계의 소실을 다루기 위해, 저희는 견고한 동역학 모델링을 위한 물리 정보 제약 조건으로 2차 심플렉틱 적분과 지역적 강성 정규화를 사용합니다.

추가적으로, 저희는 NeHaD를 스케일 인식 밉매핑과 점진적 최적화를 통해 적응형 스트리밍으로 확장합니다.

광범위한 실험을 통해 NeHaD가 렌더링 품질-효율성 간의 절충을 통해 물리적으로 그럴듯한 결과를 달성함을 입증합니다.

저희가 아는 한, 이것은 신경 가우시안 변형을 위해 해밀토니안 역학을 활용한 최초의 탐구이며, 스트리밍 기능을 갖춘 물리적으로 사실적인 동적 장면 렌더링을 가능하게 합니다.

쪽집게 과외

핵심 콕콕

• 기존 동적 렌더링 방법들은 물리적으로 어색한 움직임을 만드는 한계가 있습니다.
• 이 논문은 해밀토니안 역학(물리 법칙)을 이용해 가우시안 스플래팅의 움직임을 제어하는 NeHaD를 제안합니다.
• 핵심 기술은 물리 법칙을 학습하는 해밀토니안 신경망(HNN), 움직이는 부분과 정적인 부분을 에너지 기반으로 나누는 볼츠만 평형 분해, 그리고 안정성을 높이는 물리 기반 제약 조건입니다.
• 결과적으로 물리적으로 더 자연스럽고 사실적인 동적 장면 렌더링을 달성했으며, 스트리밍까지 지원합니다.

쉬운 비유

해밀토니안 역학 기반 렌더링f>을 쉽게 비유해볼게요.

- 기존 방법은 '애니메이션 그리기'와 같아요. 캐릭터의 모든 움직임을 프레임마다 손으로 그려야 해서, 조금만 복잡해져도 움직임이 어색해지거나 물리 법칙을 무시하기 쉬워요.

- NeHaD는 '물리 엔진이 탑재된 인형'을 만드는 것과 같아요. 인형의 뼈대와 관절, 무게중심 등 물리적 규칙(해밀토니안)을 먼저 설정해줘요. 그 다음엔 인형을 살짝 밀기만 해도, 물리 엔진이 알아서 넘어지거나 균형을 잡는 등 모든 움직임을 자연스럽게 계산해내죠. 이처럼 NeHaD는 장면에 물리 법칙을 적용해서, 각 객체들이 스스로 자연스럽게 움직이도록 만듭니다.

셀프 테스트

[O/X] NeHaD는 기존 방법들처럼 순수하게 데이터에만 의존하는 MLP를 사용하여 객체의 움직임을 예측한다.

정답 보기

정답: X
해설: NeHaD는 MLP의 한계를 극복하기 위해 해밀토니안 역학이라는 물리 사전 지식(physics prior)을 통합하여 더 사실적인 움직임을 생성합니다.

[빈칸] NeHaD는 장면 내에서 정적인 가우시안과 동적인 가우시안을 에너지 상태에 따라 적응적으로 분리하기 위해 '___' 기법을 사용한다.

정답 보기

정답: 볼츠만 평형 분해 (Boltzmann equilibrium decomposition)
해설: 이 메커니즘은 에너지 상태를 기반으로 움직임이 필요한 부분과 그렇지 않은 부분을 효율적으로 나누어 처리합니다.

[서술형] 기존 동적 뷰 합성 방법들의 가장 큰 한계점은 무엇이었으며, NeHaD는 이 문제를 해결하기 위해 어떤 핵심 아이디어를 도입했나요?

정답 보기

모범답안: 기존 방법들의 가장 큰 한계점은 렌더링 품질은 높지만 물리적으로 그럴듯하지 않은, 부자연스러운 움직임을 생성한다는 것이었습니다. NeHaD는 이 문제를 해결하기 위해, 데이터 기반의 MLP 예측에만 의존하는 대신 해밀토니안 역학이라는 물리 법칙을 시스템에 통합했습니다. 이를 통해 가우시안 프리미티브들이 에너지가 보존되는 궤적을 따라 움직이도록 하여, 물리적으로 더 견고하고 사실적인 동역학을 구현했습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

1. Introduction (서론)

동적 장면을 표현하고 렌더링하는 것은 몰입형 이미징 애플리케이션에 중추적인 역할을 하며, 가상 현실(VR) 및 메타버스를 포함한 멀티미디어 및 그래픽 기술의 경계를 넓히고 있습니다. 이산적인 시간적 비디오 시퀀스가 주어졌을 때, 동적 장면 렌더링은 장면의 동역학을 모델링하고 임의의 타임스탬프에서 고충실도의 새로운 뷰를 실시간으로 합성하는 것을 목표로 합니다. 이는 두 가지 주요 과제에 직면합니다: 첫째, 빠른 움직임과 위상학적 변화가 있는 복잡한 동적 장면의 고충실도 재구성 달성, 둘째, 낮은 훈련 비용으로 실시간 렌더링 효율성 유지입니다. 그러나 기존 방법들은 이 두 가지 목표를 동시에 만족시키는 데 어려움을 겪으며, 이것이 바로 이 논문이 탐구하는 문제입니다.

동적 장면 렌더링의 최근 발전은 주로 Neural Radiance Field (NeRF) (Mildenhall/2021/NeRF)와 Gaussian Splatting (Kerbl/2023/Gaussian Splatting)에 기반한 방법들을 통해 이루어졌습니다. NeRF는 정적 장면을 모델링하기 위해 암시적 신경 필드를 사용하며 사진처럼 사실적인 뷰 합성을 달성합니다. 이의 동적 확장 버전들은 시간에 따라 기준 프레임에 대한 움직임을 모델링하기 위해 변형 및 정규 필드를 활용하거나(Gao/2021/Dynamic view synthesis, Li/2022/DyNeRF, Park/2021b/HyperNeRF, Pumarola/2021/D-NeRF, Yan/2023/Forward flow), 4D 볼륨을 명시적인 구조적 표현(예: 평면 및 해시 인코딩)으로 저장합니다(Cao/2023/HexPlane, Chan/2021/Efficient Geometry-aware 3D GANs, Fang/2022/Fast dynamic radiance fields, Fridovich-Keil/2023/K-Planes, Müller/2022/Instant NGP, Shao/2023/TensoRF, Somraj/2024/4D scene representation, Wang/2023a/F2-NeRF). 렌더링 품질의 진전에도 불구하고, 이러한 방법들은 렌더링 중 광선을 따라 조밀한 샘플링이 필요하기 때문에 느린 렌더링 속도로 어려움을 겪습니다.

3D Gaussian Splatting (3DGS) (Kerbl/2023/Gaussian Splatting)의 등장으로 정적 장면에 대한 높은 충실도와 실시간 렌더링이 가능해졌습니다. 이 이정표를 바탕으로, 여러 방법들이 동적 장면을 모델링하는 능력을 갖추도록 3DGS를 확장했습니다(Duan/2024/4D Gaussian Splatting, Huang/2023/MD-Splatting, Li/2023/STG, Sun/2024/Co-GS, Wu/2024/4DGS, Wu/2025/Swift4D, Xu/2024a/Grid4D, Yan/2024/SaRO-GS, Yang/2024/Full-MLP Gaussian). 이러한 접근 방식들은 충분한 시점이 있는 장면에서 가우시안 변형을 위해 미리 정의된 함수를 사용하거나(Li/2023/STG, Lin/2023/Deformable 3D Gaussians), 변형된 가우시안 속성을 예측하기 위해 신경망을 사용합니다(Huang/2023/MD-Splatting, Wu/2024/4DGS, Yang/2024/Full-MLP Gaussian). 그럼에도 불구하고, 이들은 객체의 출현 및 소멸과 같은 시간적으로 복잡한 동역학을 모델링하는 데 어려움을 겪고, 공간적 및 시간적 변형을 제대로 구별하지 못하여 변형된 가우시안 간의 과도한 좌표 중첩과 복잡한 모션 시나리오에서 렌더링 품질 저하를 초래합니다.

앞서 언급한 문제들을 해결하기 위해, 우리는 해밀턴 역학에 의해 제어되는 동적 가우시안 스플래팅을 위한 신경 변형 필드인 NeHaD를 제안합니다. 가우시안 기반 방법들이 실시간 렌더링을 달성하지만, 우리는 현실적인 렌더링에는 지각적 품질뿐만 아니라 물리적으로 타당한 동역학이 필요하며, 대부분의 현재 접근 방식들이 이를 간과했다고 주장합니다. 흥미롭게도 Fig. 1에 설명된 바와 같이, 인간의 인지 과정과 장면 렌더링 과정은 모두 근본적인 물리 법칙, 특히 시스템 동역학 예측을 위한 해밀턴 역학(Noether/1971/Invariant Variation Problems)을 따르며, 이는 동적 장면 렌더링에 대한 해밀턴 원리의 자연스러운 적용 가능성을 보여줍니다. 더욱이, 가우시안 공분산 행렬은 본질적으로 심플렉틱 다양체 상에 존재하므로, 해밀턴 역학은 가우시안 변형 필드를 수학적으로 재구성하는 데 적절한 선택이 됩니다.

이러한 통찰을 바탕으로, NeHaD는 해밀턴 역학을 통해 4DGS(Wu/2024/4DGS)의 가우시안 변형 필드를 향상시킵니다. 첫째, 우리는 MLP 기반 변형 예측기를 해밀턴 신경망(HNN)(Greydanus/2019/Hamiltonian neural networks)으로 대체하여 비지도 방식으로 데이터로부터 기저의 보존 법칙을 학습합니다. 해밀턴 그래디언트의 인-그래프 역전파를 통해, HNN은 갑작스러운 불연속성 없이 안정적이고 일관된 변형을 보장하면서 최소한의 훈련 오버헤드만 발생시킵니다. 대부분의 장면 영역이 종종 정적으로 남아 동적 모델링이 필요 없다는 점(Wu/2025/Swift4D)에 착안하여, NeHaD는 가우시안의 시공간적 에너지 상태에 따라 동적으로 가중치를 부여하는 소프트 마스킹 메커니즘을 도입하여, 정적 및 동적 요소의 적응적 분해를 가능하게 합니다. 이 메커니즘은 프리미티브의 평형 상태 이탈로부터 파생된 볼츠만 에너지에 의해 구동됩니다. 마찰과 같은 실제 세계의 소산력을 처리하기 위해, 우리는 섭동 하에서 시스템의 심플렉틱 구조를 보존하기 위해 2차 심플렉틱 적분을 사용합니다. 또한, 더 작고 자연스러운 회전은 보존하면서 큰 회전을 피하기 위해 국소적 강성 제약을 통합합니다.

대역폭이 제한된 스트리밍 애플리케이션으로 NeHaD를 확장하기 위해, 우리는 앤티에일리어싱을 위한 스케일 인식 이방성 밉매핑과 세부 수준(LOD) 렌더링을 위한 계층적 점진적 최적화를 통합합니다. 우리는 합성 및 실제 장면을 모두 포함하는 단안 및 다중 시점 동적 장면 데이터셋에서 우리의 접근 방식을 광범위하게 평가합니다. 정량적 및 정성적 결과 모두 우리 방법이 개선된 품질-효율성 트레이드오프로 물리적으로 타당한 렌더링을 달성하며, 다양한 장면에서 복잡한 시스템 동역학을 효과적으로 모델링함을 보여줍니다. 우리의 기여는 다음과 같이 요약됩니다:

• 우리는 동적 가우시안 스플래팅을 위한 해밀턴 기반 신경 변형 필드를 제안합니다. 속성별 어댑터가 있는 단일 HNN을 사용하여, 우리는 물리적으로 타당한 변형을 위해 데이터로부터 보존 법칙을 암시적으로 학습합니다.

• 우리는 볼츠만 평형 분해를 도입하여 정적 가우시안과 동적 가우시안을 적응적으로 분리합니다. 동시에, 우리는 물리 기반 제약을 통해 변형 모델링을 향상시켜 견고하고 현실적인 렌더링을 보장합니다.

• 우리는 스케일 인식 밉매핑과 점진적 최적화를 통해 NeHaD를 스트리밍으로 확장합니다. 광범위한 실험은 렌더링 현실성에서의 개선을 입증합니다. 우리가 아는 한, 이것은 신경 가우시안 변형을 위해 해밀턴 역학을 활용한 첫 번째 탐구입니다.

쪽집게 과외

핵심 콕콕

• 동적 장면 렌더링은 '높은 퀄리티'와 '실시간 렌더링'이라는 두 마리 토끼를 잡아야 하는 어려운 문제입니다.
• 기존의 NeRF 기반 방법은 퀄리티는 좋지만 렌더링이 너무 느리고, 가우시안 스플래팅 기반 방법은 빠르지만 복잡한 움직임에서 물리적으로 어색한 결과물을 만듭니다.
• 이 논문은 'NeHaD'라는 새로운 방법을 제안하며, 핵심 아이디어는 '해밀턴 역학'이라는 물리 법칙을 렌더링에 도입하는 것입니다.
• 해밀턴 역학을 통해 에너지 보존 법칙 등을 따르는 '물리적으로 그럴듯한' 움직임을 만들고, '볼츠만 평형 분해'로 장면의 정적인 부분과 동적인 부분을 효율적으로 분리하여 처리합니다.

함정 주의

기존의 4D 가우시안 스플래팅(4DGS)과 이 논문의 NeHaD를 혼동하지 마세요.

- 4DGS: 순수하게 데이터만 보고 MLP(신경망)를 이용해 각 가우시안의 움직임을 예측합니다. 물리 법칙을 모르기 때문에 데이터에 없는 복잡한 움직임이 나타나면 부자연스러운 결과를 낼 수 있습니다.
- NeHaD: 해밀턴 역학이라는 '물리 법칙'을 신경망에 제약 조건으로 겁니다. 데이터에만 의존하는 것이 아니라 물리적으로 타당한 범위 내에서 움직임을 예측하므로, 더 안정적이고 현실적인 동영상을 만들어냅니다.

쉬운 비유

해밀턴 역학 기반 렌더링f>을 쉽게 비유해볼게요.

- 기존 방법 (데이터 기반): 꼭두각시 인형극과 같아요. 수많은 실(데이터)을 조종해서 인형을 움직이게 하는데, 실이 꼬이거나 조종이 서툴면 인형이 갑자기 공중부양하거나 팔다리가 이상하게 꺾이는 등 부자연스러운 움직임을 보일 수 있죠.

- NeHaD (물리 기반): 잘 만들어진 롤러코스터와 같아요. 롤러코스터는 '에너지 보존 법칙'이라는 물리 법칙이 적용된 트랙 위에서만 움직입니다. 절대 트랙을 벗어나 하늘로 날아가거나 갑자기 멈추지 않죠. NeHaD는 해밀턴 역학이라는 '트랙'을 만들어 가우시안들이 그 위에서 자연스럽게 움직이도록 유도해서 훨씬 현실적인 영상을 만들어냅니다.

셀프 테스트

[O/X] 기존의 동적 가우시안 스플래팅 방법들은 물리 법칙을 고려하지 않기 때문에 복잡한 움직임에서 부자연스러운 결과를 낼 수 있다.

정답 보기

정답: O
해설: 맞습니다. 기존 방법들은 대부분 데이터에만 의존하는 MLP로 변형을 예측하여 물리적으로 타당하지 않은 움직임(예: 에너지 보존 위반)이 발생할 수 있습니다.

[빈칸] NeHaD는 물리적으로 타당한 움직임을 만들기 위해 ___ ___을 신경망에 도입했다.

정답 보기

정답: 해밀턴 역학
해설: NeHaD는 해밀턴 역학을 물리적 사전 정보(prior)로 사용하여, 에너지 보존과 같은 물리 법칙을 따르는 변형 필드를 학습합니다.

[서술형] NeHaD가 기존 동적 렌더링 방법들과 비교하여 갖는 핵심적인 차별점은 무엇이며, 이로 인해 어떤 장점을 얻을 수 있는지 설명하시오.

정답 보기

모범답안: NeHaD의 핵심 차별점은 순수 데이터 기반의 변형 예측에서 벗어나 '해밀턴 역학'이라는 물리 법칙을 신경망에 통합한 것입니다. 기존 방법들은 물리적 제약이 없어 비현실적인 움직임이나 아티팩트를 생성할 수 있는 반면, NeHaD는 해밀턴 신경망(HNN)을 통해 에너지 보존과 같은 물리 법칙을 따르도록 학습합니다. 이를 통해 더 안정적이고, 일관되며, 물리적으로 타당한 동적 장면 렌더링 결과를 얻을 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Nerf-based Dynamic Scene Rendering (NeRF 기반 동적 장면 렌더링)

NeRF [Mildenhall/2021/NeRF]는 암시적 신경 표현을 통해 정적 장면의 라이트 필드를 재구성하여 상당한 시각적 개선을 달성합니다. NeRF를 동적 장면에 확장하기 위해, 정적 모델에 암시적 변형 필드가 적용됩니다 [Pumarola/2021/D-NeRF].

동적 장면을 더 정확하게 모델링하기 위해 다양한 접근 방식이 개발되었습니다. 일부 방법들은 장면을 서로 다른 시간적 행동을 가진 구성 요소로 분할하고 [Gao/2021/Dynamic view synthesis, Tretschk/2021/Non-Rigid Neural Radiance Fields], 다른 방법들은 프레임 간의 광학 흐름 [Guo/2023/Forward flow, Li/2021/Neural Scene Flow Fields, Liang/2023/ConsistentNeRF, Wang/2023/Fwd-bwd] 및 모션 마스크 제약 [Yan/2023/Spec-NeRF]을 포함한 추가적인 지도 기술과 함께 고차원 잠재 코드를 통합합니다 [Li/2022/DyNeRF, Park/2021/Nerfies, Park/2021/HyperNeRF]. 한편, 강체는 그 보편성과 독특한 물리적 특성 때문에 특별한 주의가 특히 중요합니다 [Tretschk/2021/Non-Rigid Neural Radiance Fields, Yuan/2021/STaR].

최근 연구는 동적 인간 모델링 [Cai/2022/Neural surface reconstruction], 반사 물체 [Yan/2023/Spec-NeRF], 스트리밍 [Song/2023/Stream-NeRF], 그리고 알려진 카메라 포즈가 없는 장면 [Liu/2023/NeRF-SLAM]을 포함한 도전적인 시나리오를 다루었습니다. 그러나, 암시적 MLP 기반 표현은 과도한 평활화로 어려움을 겪고 계산 비용이 많이 드는 훈련을 필요로 합니다. Triplane [Chan/2021/EG3D] 및 해시 인코딩 [Müller/2022/Instant-NGP]과 같은 명시적 표현은 시각적 품질과 훈련 효율성을 모두 향상시킴으로써 이러한 한계를 해결합니다. 동적 장면 렌더링을 위한 대중적인 접근 방식은 4D 입력을 6개의 2D 평면으로 분해하는 것입니다 [Cao/2023/HexPlane, Fridovich-Keil/2023/K-Planes, Shao/2023/TensoRF, Somraj/2024/TiNeuVox, Xu/2024/Grid4D].

2.2 Gaussian-based Dynamic Scene Rendering (가우시안 기반 동적 장면 렌더링)

3DGS [Kerbl/2023/3DGS]는 가우시안 프리미티브를 사용하여 정적 장면을 표현하며, 빠른 훈련 속도와 높은 시각적 품질을 달성합니다. 동적 장면에 대해서는 두 가지 주요 접근 방식이 등장했습니다: 4D 가우시안을 사용하거나 미리 정의된 함수로 가우시안을 변형하는 방법 [Duan/2024/4DGS, Lin/2023/Deformable 3D Gaussians, Luiten/2023/Dynamic 3D Gaussians, Yang/2023/Real-time Dynamic 3D Gaussians], 그리고 신경망을 통해 3D 가우시안 속성을 변형하는 방법입니다 [Duisterhof/2023/MD-Splatting, Kratimenos/2023/Animatable 3D Gaussians, Liang/2023/Gaussian-Flow, Lu/2024/Co-GS, Sun/2024/PhysGaussian, Wu/2024/4DGS, Yang/2024/GauF, Yu/2023/GaussianDreamer].

완전한 MLP 기반 가우시안 변형 필드는 높은 품질을 달성하지만 [Yang/2024/GauF], 과도한 평활화로 어려움을 겪으며, 이는 복잡한 장면에서 세부 묘사가 저하되는 결과로 이어집니다. 4DGS [Wu/2024/4DGS]와 같은 명시적 방법들은 평면 기반 변형 필드를 사용하지만, 그들의 저계급 가정은 특징 중첩과 렌더링 아티팩트를 유발합니다. 최근의 발전은 이러한 한계를 해결하는 것을 목표로 합니다: 모션 인식 방법 [Guo/2024/Motion-aware 4DGS, Zhu/2024/Compact-4DGS]은 견고한 렌더링을 위해 가우시안 변형을 안내하는 광학 흐름 제약을 활용합니다; SaRO-GS [Yan/2024/SaRO-GS]는 더 나은 시공간 상관 관계를 위해 명시적-암시적 블렌딩과 함께 스케일 인식 잔차 필드를 사용합니다; Grid4D [Xu/2024/Grid4D]는 저계급 가정 없이 4D 인코딩을 공간 및 시간적 3D 해시 인코딩으로 분해합니다; 그리고 Swift4D [Wu/2025/Swift4D]는 가우시안을 정적 및 동적 구성 요소로 분리하여 동적 지점에만 변형을 적용합니다.

이러한 정적-동적 분해 패러다임을 기반으로, 우리 방법은 가우시안의 볼츠만 에너지 인식 소프트 분해와 해밀턴 역학에 의해 유도되는 물리 정보 기반 변형을 통해 차별화됩니다.

쪽집게 과외

알고리즘

flowchart TD subgraph "NeRF 기반 접근법 (Implicit)" A[NeRF for Static Scenes] --> B{Dynamic Scenes?} B --> C[Implicit Deformation Fields
(D-NeRF)] C --> D["한계: 과도한 평활화,
높은 훈련 비용"]:::warn D --> E[Explicit Representations
(Triplanes, Hash Encoding)]:::pros end subgraph "Gaussian Splatting 기반 접근법 (Explicit)" F[3DGS for Static Scenes] --> G{Dynamic Scenes?} G --> H[Deformation Fields for Gaussians
(4DGS)] H --> I["한계: 저계급 가정으로 인한
아티팩트, 특징 중첩"]:::warn end I --> J[정적/동적 분리
(Swift4D)]:::idea E --> J J --> K["NeHaD (본 논문)"
해밀턴 역학 기반 변형
+ 볼츠만 에너지 기반 분해]:::core classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef pros fill:#D0F1B9 classDef idea fill:#E8D2E5 classDef core fill:#FFDBE6 A:::ref C:::ref D:::warn E:::pros F:::ref H:::ref I:::warn J:::idea K:::core

핵심 콕콕

• 동적 장면 렌더링은 크게 NeRF 기반과 가우시안 스플래팅 기반으로 나뉩니다.
• NeRF 기반 방법은 암시적 표현을 사용하며, 높은 품질을 보이지만 과도한 평활화(over-smoothing)와 느린 훈련 속도가 단점입니다.
• 가우시안 스플래팅 기반 방법은 명시적 표현을 사용하여 빠르지만, 4DGS와 같은 기존 방법들은 저계급(low-rank) 가정으로 인해 렌더링 아티팩트가 발생할 수 있습니다.
• 최신 연구들은 정적/동적 요소를 분리하는 방향으로 발전했으며, 본 논문은 여기에 '해밀턴 역학'이라는 물리 법칙을 더해 더 현실적인 움직임을 만들고자 합니다.

함정 주의

암시적(Implicit) 표현과 명시적(Explicit) 표현을 혼동하지 마세요.
- 암시적 표현 (NeRF 계열): 장면을 하나의 연속적인 함수(신경망)로 표현합니다. 특정 좌표(x, y, z)를 입력하면 그 지점의 색상과 밀도를 출력하는 '레시피'와 같습니다. 장면 전체를 압축적으로 표현하지만, 렌더링 시 많은 샘플링이 필요해 느릴 수 있습니다.
- 명시적 표현 (가우시안 스플래팅 계열): 장면을 수많은 작은 요소(가우시안 프리미티브)의 집합으로 직접 표현합니다. 이는 장면을 수많은 작은 점토 덩어리로 만들어 놓은 '조각상'과 같습니다. 렌더링이 매우 빠르지만, 많은 메모리를 차지할 수 있습니다.

쉬운 비유

암시적 표현과 명시적 표현f>을 쉽게 비유해볼게요.
- 암시적 표현 (NeRF): '케이크 레시피'와 같아요. 레시피(신경망)만 있으면 어떤 위치의 케이크 맛(색상/밀도)이 어떨지 알 수 있죠. 하지만 케이크 전체를 보려면 레시피에 따라 처음부터 구워봐야(레이 샘플링) 해서 시간이 오래 걸려요.
- 명시적 표현 (가우시안 스플래팅): '미리 만들어진 레고 케이크'와 같아요. 수많은 레고 블록(가우시안)으로 케이크가 이미 만들어져 있어서 바로 볼 수 있고(빠른 렌더링), 특정 부분을 바꾸기도 쉽죠. 하지만 레고 블록들을 모두 보관할 공간(메모리)이 많이 필요해요.

셀프 테스트

[O/X] NeRF 기반 동적 장면 렌더링 방법은 훈련 속도가 매우 빠르고 계산 비용이 저렴하다는 장점이 있다.

정답 보기

정답: X
해설: 본문에 따르면 NeRF의 기반이 되는 암시적 MLP 표현은 과도한 평활화(over-smoothing) 문제가 있고 계산 비용이 많이 드는 훈련(computationally expensive training)을 필요로 한다고 언급되었습니다.

[빈칸] 4DGS와 같은 명시적 가우시안 변형 방법은 ___ 가정 때문에 특징 중첩과 렌더링 아티팩트가 발생할 수 있다.

정답 보기

정답: 저계급 (low-rank)
해설: 본문에서는 4DGS의 한계점으로 'low-rank assumptions cause feature overlap and rendering artifacts'라고 명시하고 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Nerf-based Dynamic Scene Rendering (NeRF 기반 동적 장면 렌더링)

Mildenhall/2021/NeRF의 NeRF는 암시적 신경 표현을 통해 정적 장면의 라이트 필드를 재구성하여 상당한 시각적 개선을 달성합니다. 동적 장면에 NeRF를 확장하기 위해, 정적 모델에 암시적 변형 필드가 적용됩니다(Pumarola/2021/D-NeRF).

동적 장면을 더 정확하게 모델링하기 위해 다양한 접근 방식이 개발되었습니다. 일부 방법들은 장면을 서로 다른 시간적 행동을 가진 구성 요소로 분할하고(Gao/2021/Dynamic View Synthesis, Tretschk/2021/Non-Rigid Neural Radiance Fields), 다른 방법들은 프레임 간의 광학 흐름(Guo/2023/Forward Flow, Li/2021/Neural Scene Flow Fields, Liang/2023/Real-time Neural Scene Flow, Wang/2023/Neural Radiance Fields for Dynamic Portrait) 및 모션 마스크 제약(Yan/2023/Nerf-SR)을 포함한 추가적인 지도 기술과 함께 고차원 잠재 코드를 통합합니다(Li/2022/DyNeRF, Park/2021/Nerfies, Park/2021/HyperNeRF). 한편, 강체 객체는 그 보편성과 독특한 물리적 특성 때문에 특별한 주의가 특히 중요합니다(Tretschk/2021/Non-Rigid Neural Radiance Fields, Yuan/2021/ST-NeRF).

최근 연구는 동적 인간 모델링(Cai/2022/Neural Surface Reconstruction), 반사 객체(Yan/2023/Nerf-SR), 스트리밍(Song/2023/Stream-NRF), 그리고 알려진 카메라 포즈가 없는 장면(Liu/2023/NeRF-SLAM)을 포함한 도전적인 시나리오들을 다루었습니다. 그러나, 암시적 MLP 기반 표현은 과도한 평활화로 어려움을 겪고 계산 비용이 많이 드는 훈련을 필요로 합니다. Triplanes(Chan/2021/EG3D)와 해시 인코딩(Müller/2022/Instant-NGP)과 같은 명시적 표현은 시각적 품질과 훈련 효율성을 모두 향상시킴으로써 이러한 한계를 해결합니다. 동적 장면 렌더링을 위한 대중적인 접근 방식은 4D 입력을 6개의 2D 평면으로 분해하는 것입니다(Cao/2023/HexPlane, Fridovich-Keil/2023/K-Planes, Shao/2023/TensoRF, Somraj/2024/TiNeuVox, Xu/2024/Grid4D).

쪽집게 과외

알고리즘

flowchart TD classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef pros fill:#D0F1B9 A[NeRF: 암시적 표현]:::ref --> B{한계점}:::warn B --> B1[과도한 평활화]:::warn B --> B2[높은 훈련 비용]:::warn A --> C{동적 장면으로 확장}:::ref C --> C1[변형 필드 적용]:::ref C --> C2[장면 분할]:::ref C --> C3[고차원 잠재 코드]:::ref B --> D[명시적 표현 등장]:::ref D --> D1[Triplanes]:::ref D --> D2[해시 인코딩]:::ref D --> E{장점}:::pros E --> E1[시각적 품질 향상]:::pros E --> E2[훈련 효율성 향상]:::pros

핵심 콕콕

• NeRF는 암시적 신경 표현을 사용해 정적 장면을 사실적으로 렌더링하지만, 동적 장면에 적용하기 위해서는 변형 필드와 같은 추가적인 기법이 필요합니다.
• 초기 동적 NeRF 접근법들은 장면을 분할하거나, 광학 흐름 같은 추가 정보를 활용해 움직임을 모델링했습니다.
• 암시적 MLP 기반 표현은 결과가 지나치게 부드러워지는(over-smoothing) 경향이 있고, 훈련에 많은 계산 자원이 필요하다는 단점이 있습니다.
• 이러한 한계를 극복하기 위해 Triplanes나 해시 인코딩 같은 명시적 표현 방식이 제안되었으며, 이는 렌더링 품질과 훈련 효율을 크게 개선했습니다.

함정 주의

암시적 표현(Implicit)과 명시적 표현(Explicit)을 혼동하지 마세요.
- 암시적 표현 (NeRF): 장면 정보를 신경망(MLP)의 가중치 안에 '암시적으로' 저장합니다. 특정 위치의 색상과 밀도를 알려면 신경망에 좌표를 입력해 계산해야 합니다.
- 명시적 표현 (Triplanes, Hash Encoding): 장면 정보를 복셀 그리드나 평면, 해시 테이블 같은 자료구조에 '명시적으로' 저장합니다. 정보를 직접 조회할 수 있어 훨씬 빠릅니다.

쉬운 비유

암시적 표현과 명시적 표현f>을 쉽게 비유해볼게요.
- 암시적 표현 (NeRF): 아주 복잡한 '케이크 레시피(신경망)'와 같습니다. 케이크의 특정 부분 맛이 궁금하면(특정 픽셀 렌더링), 레시피에 따라 처음부터 그 부분까지 직접 만들어봐야(계산) 합니다. 시간은 걸리지만 매우 정교한 맛을 낼 수 있습니다.
- 명시적 표현 (Triplanes): 이미 만들어진 '케이크 조각들(데이터)'을 상자에 담아두는 것과 같습니다. 특정 부분의 맛이 궁금하면 그냥 상자에서 해당 조각을 꺼내기만 하면 됩니다. 훨씬 빠르고 간편합니다.

셀프 테스트

[O/X] NeRF와 같은 암시적 MLP 기반 표현 방식은 훈련 비용이 낮고 속도가 빠르다는 장점이 있다.

정답 보기

정답: X
해설: 본문에 따르면 암시적 MLP 기반 표현은 과도한 평활화(over-smoothing) 문제를 겪고 계산 비용이 많이 드는 훈련(computationally expensive training)을 필요로 한다고 명시되어 있습니다.

[빈칸] 암시적 표현의 한계를 극복하기 위해 제안된 ___ 표현 방식에는 Triplanes와 해시 인코딩이 있다.

정답 보기

정답: 명시적
해설: 본문에서는 Triplanes와 해시 인코딩을 명시적 표현(Explicit representations)의 예시로 들며, 이들이 시각적 품질과 훈련 효율성을 개선했다고 설명합니다.

[서술형] 초기 동적 NeRF 모델들이 사용했던 접근 방식 두 가지와, 이 방식들이 공통적으로 가졌던 한계점은 무엇인가요?

정답 보기

모범답안: 초기 동적 NeRF 모델들은 정적 모델에 암시적 변형 필드를 적용하거나, 장면을 시간적 특성에 따라 여러 구성요소로 분할하는 접근 방식을 사용했습니다. 이러한 암시적 MLP 기반 방법들의 공통적인 한계점은 결과물이 지나치게 부드러워져 디테일이 뭉개지는 '과도한 평활화' 현상과 훈련에 많은 시간과 계산 자원이 소요되는 '높은 계산 비용'이었습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.2 Gaussian-based Dynamic Scene Rendering (가우시안 기반 동적 장면 렌더링)

Kerbl/2023/3DGS의 3DGS는 가우시안 프리미티브를 사용하여 정적 장면을 표현하며, 빠른 학습 속도와 높은 시각적 품질을 달성합니다. 동적 장면에 대해서는 두 가지 주요 접근 방식이 등장했습니다: 4D 가우시안을 사용하거나 미리 정의된 함수로 가우시안을 변형하는 방법(Duan/2024/4DGS, Lin/2023/2DGS, Luiten/2023/Dynamic3DGS, Yang/2023/Real-time)과, 신경망을 통해 3D 가우시안 속성을 변형하는 방법(Duisterhof/2023/MD-Splatting, Kratimenos/2023/Deformable3DGS, Liang/2023a/Gaussian-Flow, Lu/2024/Co-GS, Sun/2024/Compact-4DGS, Wu/2024/4DGS, Yang/2024/GauF, Yu/2023/GaussianDreamer)입니다.

완전한 MLP 기반 가우시안 변형 필드는 높은 품질을 달성하지만(Yang/2024/GauF), 과도한 평활화(over-smoothing)로 인해 복잡한 장면에서 세부 렌더링이 저하되는 문제가 있습니다. Wu/2024/4DGS의 4DGS와 같은 명시적 방법들은 평면 기반 변형 필드를 사용하지만, 낮은 순위(low-rank) 가정으로 인해 특징 중첩과 렌더링 아티팩트가 발생합니다. 최근의 발전은 이러한 한계를 해결하는 것을 목표로 합니다: 움직임 인식 방법(Guo/2024/Motion-aware, Zhu/2024/Motion-GS)은 광학 흐름 제약을 활용하여 가우시안 변형을 유도함으로써 강건한 렌더링을 구현합니다; SaRO-GS(Yan/2024/SaRO-GS)는 스케일 인식 잔여 필드와 명시적-암시적 블렌딩을 사용하여 더 나은 시공간 상관관계를 얻습니다; Grid4D(Xu/2024a/Grid4D)는 4D 인코딩을 낮은 순위 가정 없이 공간 및 시간적 3D 해시 인코딩으로 분해합니다; 그리고 Swift4D(Wu/2025/Swift4D)는 가우시안을 정적 요소와 동적 요소로 분리하여 동적 지점에만 변형을 적용합니다.

이러한 정적-동적 분해 패러다임을 기반으로, 저희 방법은 볼츠만 에너지 기반 가우시안 소프트 분해와 해밀토니안 역학에 의해 유도되는 물리 정보 기반 변형을 통해 차별화됩니다.

쪽집게 과외

핵심 콕콕

• 동적 가우시안 렌더링은 크게 두 가지 접근법으로 나뉩니다: 4D 가우시안을 직접 사용하거나, 신경망으로 3D 가우시안의 속성(위치, 크기 등)을 변형시키는 방법입니다.
• MLP(신경망) 기반 변형은 품질이 높지만, 이미지를 뭉개는 '과평활화(over-smoothing)' 현상 때문에 복잡한 장면의 디테일이 사라지는 단점이 있습니다.
• 4DGS와 같은 명시적 방법은 '낮은 순위(low-rank)' 가정을 사용하는데, 이로 인해 특징들이 겹치거나 원치 않는 시각적 오류(아티팩트)가 발생할 수 있습니다.
• 최근 연구들은 광학 흐름(optical flow)을 이용하거나, 정적인 부분과 동적인 부분을 분리하여 동적인 부분만 변형하는 '정적-동적 분해' 방식으로 이러한 문제들을 해결하려 합니다.
• 이 논문의 NeHaD는 '정적-동적 분해' 아이디어를 채택하되, 해밀토니안 역학이라는 물리 법칙을 적용하여 더 현실적이고 안정적인 움직임을 만들어내는 차별점을 가집니다.

함정 주의

MLP 기반 변형과 4DGS 같은 명시적 변형을 혼동하지 마세요.
- MLP 기반 변형은 유연하고 고품질 결과를 내지만, 그림을 뭉개는 경향이 있어 디테일 표현에 약합니다.
- 4DGS 같은 명시적 방법은 구조화되어 있어 빠르지만, 'low-rank'라는 단순화 가정 때문에 특징이 겹치거나 깨지는 문제가 발생할 수 있습니다. 즉, 유연성과 디테일 vs. 속도와 구조화 사이의 트레이드오프 관계입니다.

쉬운 비유

동적 가우시안 렌더링의 두 가지 문제점f>을 쉽게 비유해볼게요.
움직이는 사람을 점토로 만든다고 상상해보세요.

- MLP 기반 방식의 '과평활화' 문제: 손으로 점토를 계속 주물러서 사람 모양을 만드는 것과 같아요. 전체적인 형태는 그럴싸하지만, 손가락이나 옷 주름 같은 세밀한 부분은 뭉개져서 표현하기 어렵습니다.

- 4DGS 방식의 '낮은 순위 가정' 문제: 사람 모양을 만들기 위해 팔, 다리, 몸통 모양의 몇 가지 정해진 틀(stencil)만 사용하는 것과 같아요. 틀을 조합하면 빠르게 모양을 만들 수 있지만, 틀끼리 겹치는 부분이 어색하게 보이거나, 틀에 없는 미세한 표정 변화는 표현할 수 없는 것과 비슷합니다.

셀프 테스트

[O/X] MLP 기반 가우시안 변형 필드는 복잡한 장면의 세밀한 디테일을 렌더링하는 데 가장 이상적인 방법이다.

정답 보기

정답: X
해설: MLP 기반 방법은 높은 품질을 달성할 수 있지만, 과도한 평활화(over-smoothing) 문제로 인해 복잡한 장면의 세부 렌더링 성능이 저하되는 경향이 있습니다.

[빈칸] 4DGS와 같은 명시적 방법은 ___ 가정 때문에 특징 중첩 및 렌더링 아티팩트가 발생할 수 있다.

정답 보기

정답: 낮은 순위 (low-rank)
해설: 4DGS는 시공간 정보를 여러 개의 저차원 평면으로 분해하여 표현하는데, 이 '낮은 순위' 가정이 정보 손실을 유발하여 아티팩트의 원인이 됩니다.

[서술형] 최근 동적 가우시안 스플래팅 연구들이 기존 방법들의 한계를 극복하기 위해 사용하는 대표적인 접근법 한 가지를 설명하고, 이 논문의 방법(NeHaD)이 그 접근법을 어떻게 발전시켰는지 설명하시오.

정답 보기

모범답안: 대표적인 접근법 중 하나는 '정적-동적 분해'입니다. 이는 장면의 모든 가우시안을 변형시키는 대신, 움직이지 않는 정적 요소와 움직이는 동적 요소를 분리하여 동적 요소에만 변형을 적용하는 방식입니다. 이를 통해 불필요한 계산을 줄이고 안정성을 높일 수 있습니다. NeHaD는 이 패러다임을 기반으로 하되, 단순히 분리하는 것을 넘어 '볼츠만 에너지'라는 물리적 개념을 도입하여 어떤 가우시안을 얼마나 변형시킬지 부드럽게(soft decomposition) 결정합니다. 또한, 변형 자체도 데이터에만 의존하는 것이 아니라 '해밀토니안 역학'이라는 물리 법칙을 따르도록 하여 더 현실적인 움직임을 구현합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Static Gaussian Splatting (정적 가우시안 스플래팅)

3DGS Kerbl et al./2023/3DGS는 높은 학습 속도와 시각적 품질로 알려진 강력한 정적 장면 표현 방법으로 부상했습니다.

해당 카메라 파라미터가 있는 입력 이미지가 주어지면, 3DGS는 NeRF의 암시적 신경 표현 전략과 대조적으로, 비등방성 타원체(즉, 가우시안 프리미티브)를 사용하여 장면의 기하학적 구조와 외형을 명시적으로 표현합니다.

각 가우시안 프리미티브 G는 위치 $\boldsymbol{\mu} \in \mathbb{R}^3$, 공분산 행렬 $\boldsymbol{\Sigma} \in \mathbb{R}^{3 \times 3}$, 색상 $\mathbf{c} \in \mathbb{R}^n$, 그리고 불투명도 $\alpha \in \mathbb{R}$로 매개변수화됩니다.

공분산 행렬은 스케일링 벡터 $\mathbf{s} \in \mathbb{R}^3$와 회전 쿼터니언 $\mathbf{r} \in \mathbb{R}^4$로 인수분해되며, 색상은 $n_{SH}$개의 함수를 가진 구면 조화(SH) 계수로 표현됩니다.

렌더링을 위해 3DGS는 타일 기반 미분 가능한 래스터화를 사용합니다.

쪽집게 과외

핵심 콕콕

• 3DGS는 정적 장면을 위한 명시적(explicit) 표현 방식으로, 높은 학습 속도와 시각적 품질이 장점입니다.
• 장면을 '가우시안 프리미티브'라는 비등방성 타원체들의 집합으로 표현합니다.
• 각 가우시안은 위치(μ), 공분산(Σ), 색상(c), 불투명도(α) 파라미터를 가집니다.
• 공분산 행렬은 계산 안정성을 위해 스케일링 벡터(s)와 회전 쿼터니언(r)으로 분해하여 관리합니다.
• 렌더링 시에는 타일 기반 미분 가능한 래스터화 기법을 사용합니다.

함정 주의

3DGS와 NeRF를 혼동하지 마세요.
3DGS는 장면을 가우시안 프리미티브라는 '실체'들로 명시적으로 표현하는 반면, NeRF는 특정 좌표의 색상과 밀도를 출력하는 신경망 함수로 장면을 암시적으로 표현합니다. 이 차이 때문에 3DGS가 훨씬 빠른 렌더링이 가능합니다.

구현 힌트

구현 시, 3x3 공분산 행렬 $\boldsymbol{\Sigma}$를 직접 최적화하는 것은 양의 정부호(positive semi-definite) 조건을 유지하기 어렵고 수치적으로 불안정할 수 있습니다. 따라서 논문에서처럼 스케일링 벡터 $\mathbf{s}$와 회전 쿼터니언 $\mathbf{r}$로 분해하여 이들을 최적화하는 것이 표준적인 접근법입니다. 이는 더 안정적이고 직관적인 제어를 가능하게 합니다.

쉬운 비유

3D 가우시안 스플래팅f>을 쉽게 비유해볼게요.
- 점묘화 그리기: 3D 장면을 수많은 색깔과 모양이 다른 작은 '솜뭉치'(가우시안)로 채워서 그린다고 생각해보세요. 멀리서 보면 이 솜뭉치들이 합쳐져 완벽한 그림처럼 보입니다. 각 솜뭉치는 위치, 크기, 방향, 색깔, 투명도를 가지고 있습니다.
- 3D 포토샵 레이어: 장면을 수많은 반투명한 타원 모양의 스티커(가우시안) 레이어로 구성하는 것과 같습니다. 이 스티커들을 겹겹이 쌓아 3D 공간을 표현하고, 특정 시점에서 사진을 찍으면(렌더링) 최종 이미지가 만들어집니다.

셀프 테스트

[O/X] 3DGS는 NeRF와 같이 장면을 암시적(implicit) 함수로 표현한다.

정답 보기

정답: X
해설: 3DGS는 가우시안 프리미티브라는 개별적인 요소들로 장면을 명시적(explicit)으로 표현합니다. NeRF가 암시적 표현 방식입니다.

[빈칸] 3DGS에서 각 가우시안 프리미티브는 위치, ___, 색상, 불투명도로 매개변수화된다.

정답 보기

정답: 공분산 행렬
해설: 공분산 행렬(covariance matrix)은 가우시안의 모양(크기 및 방향)을 결정합니다.

[서술형] 3DGS가 NeRF에 비해 가지는 주요 장점 두 가지는 무엇이며, 그 이유는 무엇인가요?

정답 보기

모범답안: 빠른 학습 속도와 실시간 렌더링입니다. 그 이유는 NeRF처럼 광선을 따라 많은 점을 샘플링하고 MLP를 통과시키는 계산 집약적인 과정 없이, 3D 가우시안을 2D 화면에 직접 투영(splatting)하는 효율적인 래스터화 과정을 거치기 때문입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

3.1 Gaussian Splatting (가우시안 스플래팅)

정적 가우시안 스플래팅. 3DGS [Kerbl et al. 2023]는 빠른 학습 속도와 높은 시각적 품질로 알려진 강력한 정적 장면 표현 방법으로 부상했습니다. 해당 카메라 파라미터가 있는 입력 이미지가 주어지면, 3DGS는 NeRF의 암시적 신경 표현 전략과 대조적으로 비등방성 타원체(즉, 가우시안 프리미티브)를 사용하여 장면의 기하학과 외형을 명시적으로 표현합니다. 각 가우시안 프리미티브 $G$는 위치 $\boldsymbol{\mu} \in \mathbb{R}^3$, 공분산 행렬 $\boldsymbol{\Sigma} \in \mathbb{R}^{3 \times 3}$, 색상 $\mathbf{c} \in \mathbb{R}^n$, 그리고 불투명도 $\alpha \in \mathbb{R}$로 매개변수화됩니다. 공분산 행렬은 스케일링 벡터 $\mathbf{s} \in \mathbb{R}^3$와 회전 쿼터니언 $\mathbf{r} \in \mathbb{R}^4$로 인수분해되며, 색상은 $n_{SH}$개의 함수를 가진 구면 조화(SH) 계수로 표현됩니다. 렌더링을 위해, 3DGS는 타일 기반 미분 가능한 래스터화를 사용합니다.

동적 가우시안 스플래팅. 3DGS는 시간 차원을 통합하여 4D 동적 장면으로 확장될 수 있습니다. 개별 프레임에 3DGS를 적용하는 대신, 4DGS [Wu et al. 2024]는 실시간 동적 렌더링을 위해 평면 기반 변형 필드를 사용합니다. 카메라 뷰 행렬 $\mathbf{V}$가 주어지면, 새로운 시점의 이미지 $\mathbf{X}$는 $\mathbf{X} = \mathcal{R}(\mathbf{V}, G')$로 렌더링됩니다. 여기서 $G' = G + \Delta G$는 변형된 가우시안을 나타내고 $\mathcal{R}$은 미분 가능한 래스터화를 의미합니다. 변형 $\Delta G$는 타임스탬프 $t$에서의 변형 필드에 의해 예측됩니다. 구체적으로, hex-plane 인코더 $E$가 시공간 특징을 추출하고, 이 특징들은 MLP 디코더 $D$에 의해 처리되어 변형을 예측합니다. 즉, $\Delta G = D(E(G, t))$입니다.

hex-plane 인수분해는 6개의 평면을 사용합니다: 공간 전용 평면 $\mathbf{P}_{XY}, \mathbf{P}_{XZ}, \mathbf{P}_{YZ}$와 시공간 평면 $\mathbf{P}_{XT}, \mathbf{P}_{YT}, \mathbf{P}_{ZT}$입니다. 4D 좌표 $\mathbf{u} = (x, y, z, t)$에 대해, 특징은 다음과 같이 얻어집니다:

Eq. 1: 헥사플레인 특징 추출$$\mathbf{f}(\mathbf{u}) = \bigoplus_{k \in K} \mathbf{f}(\mathbf{u})_k = \bigoplus_{k \in K} \psi(\mathbf{P}_k, \pi_k(\mathbf{u}))$$이 수식은 4DGS에서 사용하는 헥사플레인(hex-plane) 특징 추출 방법을 보여줍니다. 4D 좌표 $\mathbf{u}$가 주어지면, 6개의 평면($k \in K$) 각각에 투영($\pi_k$)되고, 각 평면에서 쌍선형 보간($\psi$)을 통해 특징을 추출합니다. 최종 특징 $\mathbf{f}(\mathbf{u})$는 이 6개의 특징 벡터를 모두 합쳐(여기서는 $\bigoplus$ 기호로 표현) 만들어집니다.

추출된 특징 $\mathbf{f}$를 사용하여, 다중 헤드 디코더 $D = \{D_{\boldsymbol{\mu}}, D_{\mathbf{s}}, D_{\mathbf{r}}\}$는 위치($\Delta\boldsymbol{\mu} = D_{\boldsymbol{\mu}}(\mathbf{f})$), 스케일링($\Delta\mathbf{s} = D_{\mathbf{s}}(\mathbf{f})$), 그리고 회전($\Delta\mathbf{r} = D_{\mathbf{r}}(\mathbf{f})$)에 대한 가우시안 변형을 예측합니다. 최종적으로 변형된 가우시안은 $G' = \{\boldsymbol{\mu}', \mathbf{s}', \mathbf{r}', \alpha, \mathbf{c}\}$이며, 여기서 $\boldsymbol{\mu}' = \boldsymbol{\mu} + \Delta\boldsymbol{\mu}$, $\mathbf{s}' = \mathbf{s} + \Delta\mathbf{s}$, 그리고 $\mathbf{r}' = \mathbf{r} + \Delta\mathbf{r}$입니다.

쪽집게 과외

알고리즘

flowchart TD classDef sub fill:#CCEFFF subgraph 4DGS Deformation Pipeline A[Canonical 3D Gaussians G]:::sub --> E B[Timestamp t]:::sub --> E E["Hex-Plane Encoder (E)"]:::sub --> F["Spatial-Temporal Features f"]:::sub F --> D D{"Multi-Head MLP Decoder (D)"}:::sub --> d_mu["Δμ (Position)"]:::sub D --> d_s["Δs (Scaling)"]:::sub D --> d_r["Δr (Rotation)"]:::sub A --> G_prime d_mu --> G_prime d_s --> G_prime d_r --> G_prime G_prime["Deformed Gaussians G' = G + ΔG"]:::sub --> R V[Camera View V]:::sub --> R R["Differentiable Rasterization (R)"]:::sub --> X[Rendered Image X]:::sub end

핵심 콕콕

• 3DGS는 NeRF와 달리, 가우시안 프리미티브라는 명시적 표현을 사용하여 정적 장면을 빠르고 고품질로 렌더링합니다.
• 4DGS는 3DGS를 동적 장면에 확장한 것으로, 시간 차원을 포함한 헥사플레인(hex-plane) 표현으로 시공간 특징을 추출합니다.
• 헥사플레인에서 추출된 특징은 MLP 디코더를 통해 가우시안의 위치, 크기, 회전 변형량을 예측하고, 이를 원본 가우시안에 더하여 움직임을 표현합니다.

함정 주의

3DGS와 4DGS를 혼동하지 마세요. 3DGS는 하나의 정적인 장면을 표현하는 반면, 4DGS는 시간에 따라 변화하는 동적 장면을 다룹니다.
4DGS는 매 프레임마다 새로운 가우시안을 만드는 것이 아니라, 기준이 되는 '정규(canonical)' 3D 가우시안 집합을 시간에 따라 어떻게 '변형'시킬지를 학습하여 움직임을 효율적으로 모델링합니다.

구현 힌트

4DGS를 구현할 때, 헥사플레인(hex-plane)은 6개의 2D 특징 그리드로 생각할 수 있습니다. 4D 좌표 (x, y, z, t)가 주어지면, 각 평면에 해당하는 좌표 쌍(예: XY 평면에는 (x,y), XT 평면에는 (x,t))을 사용해 각 그리드에서 특징을 조회하고 보간합니다. 이렇게 얻은 6개의 특징 벡터를 합쳐(concatenate) MLP 디코더의 입력으로 사용합니다. 디코더는 위치, 크기, 회전 예측을 위해 각각 별도의 출력 헤드(linear layer)를 갖는 것이 일반적입니다.

쉬운 비유

4DGS의 변형 필드f>를 쉽게 비유해볼게요.
- 기준이 되는 3D 가우시안들은 '민들레 씨앗'들이 흩어져 있는 초기 상태와 같습니다.
- '변형 필드'는 각 시간, 각 위치에서 바람이 어디로 얼마나 세게 부는지를 알려주는 '바람 지도'와 같습니다.
- 특정 시간(t)의 장면을 렌더링하고 싶으면, 그 시간의 바람 지도를 보고 각 민들레 씨앗이 어디로 날아가야 하는지 계산해서 위치를 옮깁니다. 이렇게 하면 매번 씨앗을 새로 심지 않아도 움직이는 민들레 밭을 표현할 수 있습니다.

셀프 테스트

[O/X] 4DGS는 각 시간 프레임마다 독립적인 3DGS 모델을 학습하여 동적 장면을 표현한다.

정답 보기

정답: X
해설: 4DGS는 하나의 정규(canonical) 가우시안 집합에 대한 시간별 변형(deformation)을 학습하여 움직임을 표현하므로, 매번 독립적인 모델을 학습하는 것보다 훨씬 효율적입니다.

[빈칸] 4DGS는 공간 정보와 시간 정보를 함께 인코딩하기 위해 6개의 2D 평면으로 구성된 ___ 표현을 사용한다.

정답 보기

정답: 헥사플레인 (hex-plane)
해설: 헥사플레인은 3개의 공간 평면(XY, XZ, YZ)과 3개의 시공간 평면(XT, YT, ZT)으로 구성되어 4D 시공간을 효율적으로 표현합니다.

[서술형] 3DGS가 NeRF에 비해 갖는 주요 장점은 무엇이며, 4DGS는 이 장점을 어떻게 동적 장면에 계승하나요?

정답 보기

모범답안: 3DGS의 주요 장점은 가우시안이라는 명시적(explicit) 표현을 사용하여 NeRF의 느린 광선 샘플링(ray sampling) 과정 없이도 빠르고 고품질의 렌더링이 가능하다는 점입니다. 4DGS는 이 장점을 계승하여, 동적 장면을 표현할 때도 명시적인 가우시안 집합을 변형시키는 방식을 사용합니다. 이로써 NeRF 기반 동적 장면 모델링 방법들보다 훨씬 빠른 렌더링 속도를 달성할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

총 에너지와 정확히 동등하지는 않습니다. 이는 마찰과 같은 비보존력이 있는 시스템에 대한 적용 가능성을 제한합니다.

4 Methodology (방법론)4.1 Neural Hamiltonian Deformation Fields (신경 해밀토니안 변형 필드)

기존의 동적 가우시안 스플래팅 방법들은 변형 필드를 예측하기 위해 순수하게 데이터 기반인 MLP 디코더에 의존하는데, 이는 종종 프리미티브의 갑작스러운 등장/소멸, 비현실적인 궤적 불연속성, 에너지 보존 법칙 위반과 같은 물리적으로 타당하지 않은 움직임을 초래합니다.

이러한 한계는 기존 신경망 아키텍처에 물리 기반의 귀납적 편향이 부족하기 때문에 발생합니다.

이 근본적인 문제를 해결하기 위해, 우리는 표준 MLP 기반 변형 디코더를 동적 시스템을 지배하는 기저의 물리 법칙을 내재적으로 따르는 HNN으로 대체할 것을 제안합니다.

우리 접근법의 핵심 통찰은 가우시안 프리미티브가 그들의 위치와 운동량이 해밀토니안 동역학에 따라 진화하는 위상 공간에 자연스럽게 존재한다는 것입니다.

우리 방법의 전체 파이프라인은 Fig. 2에 설명되어 있습니다.

쪽집게 과외

핵심 콕콕

• 기존 동적 렌더링 방법은 순수 데이터 기반 MLP를 사용하여 물리적으로 어색한 움직임(예: 갑작스러운 객체 소멸, 불연속적인 궤적)을 생성하는 한계가 있습니다.
• 이 문제의 근본 원인은 기존 신경망에 '물리 기반의 귀납적 편향(physics-informed inductive bias)'이 없기 때문입니다.
• 본 논문은 이 문제를 해결하기 위해 표준 MLP 디코더를 해밀토니안 신경망(HNN)으로 대체하는 새로운 접근법을 제안합니다.
• HNN은 에너지 보존과 같은 물리 법칙을 내재적으로 따르도록 설계되어, 더 자연스럽고 안정적인 동적 변형을 학습할 수 있습니다.

함정 주의

HNN과 MLP를 혼동하지 마세요.

HNN은 MLP를 완전히 대체하는 새로운 종류의 네트워크가 아닙니다. 오히려 MLP를 기본 구조로 사용하되, 그 출력이 해밀토니안 역학이라는 물리 법칙을 따르도록 구조적인 제약을 가한 네트워크입니다. 즉, 일반 MLP가 데이터만 보고 자유롭게 결과를 예측한다면, HNN은 물리 법칙이라는 '가이드라인' 안에서 예측하도록 강제하는 것입니다.

쉬운 비유

물리 기반 귀납적 편향 (Physics-Informed Inductive Bias)f>을 쉽게 비유해볼게요.

- 야구공 궤적을 예측하는 인공지능을 만든다고 상상해보세요.
- 편향이 없는 AI (일반 MLP): 수천 개의 야구공 비디오를 보고 각 프레임별 공의 위치를 픽셀 단위로 외웁니다. 본 적 있는 궤적은 잘 따라 하지만, 처음 보는 상황에서는 공이 갑자기 위로 솟구치거나 순간이동하는 등 물리적으로 불가능한 예측을 할 수 있습니다.
- 물리 기반 편향이 있는 AI (HNN): 이 AI는 학습을 시작하기 전에 '중력'과 '포물선 운동'이라는 기본 물리 규칙을 먼저 배웁니다. 그래서 어떤 궤적을 예측하든 항상 자연스러운 포물선을 그리려고 합니다. 데이터에 약간의 노이즈가 있어도 물리 법칙에 어긋나는 이상한 예측을 하지 않죠. 이처럼 HNN은 물리 법칙이라는 강력한 '사전 지식'을 가지고 학습하는 것과 같습니다.

셀프 테스트

[O/X] 기존의 동적 가우시안 스플래팅 방법은 MLP를 사용하기 때문에 에너지 보존 법칙과 같은 물리적 원리를 잘 준수한다.

정답 보기

정답: X
해설: 본문에서는 기존 MLP 기반 방법들이 에너지 보존 법칙 위반과 같은 물리적으로 타당하지 않은 움직임을 초래한다고 명시적으로 지적하고 있습니다.

[빈칸] 본 논문은 물리적으로 타당한 움직임을 생성하기 위해, 표준 MLP 기반 디코더를 동적 시스템의 물리 법칙을 내재적으로 따르는 (___)으로 대체한다.

정답 보기

정답: HNN (해밀토니안 신경망)
해설: HNN은 해밀토니안 역학을 기반으로 하여 시스템의 에너지를 보존하는 등 물리 법칙을 존중하도록 설계된 신경망입니다.

[서술형] 기존 MLP 기반 변형 필드가 '물리 기반 귀납적 편향'이 부족하다고 할 때, 이것이 렌더링 결과물에서 구체적으로 어떤 문제점을 야기하는지 본문에 근거하여 2가지 이상 서술하시오.

정답 보기

모범답안: 프리미티브(기본 도형)의 갑작스러운 등장 또는 소멸, 비현실적인 궤적 불연속성, 에너지 보존 법칙 위반과 같은 물리적으로 타당하지 않은 움직임을 초래합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

총 에너지를 나타냅니다. 이는 마찰과 같은 비보존력이 있는 시스템에 대한 적용 가능성을 제한합니다.

4 Methodology (방법론)4.1 Neural Hamiltonian Deformation Fields (신경 해밀토니안 변형 필드)

기존의 동적 가우시안 스플래팅 방법들은 순수하게 데이터 기반의 MLP 디코더에 의존하여 변형 필드를 예측하는데, 이는 종종 프리미티브의 갑작스러운 등장/소멸, 비현실적인 궤적 불연속성, 에너지 보존 법칙 위배와 같은 물리적으로 타당하지 않은 움직임으로 이어집니다. 이러한 한계는 기존 신경망 구조에 물리학 기반의 귀납적 편향이 부족하기 때문에 발생합니다.

이 근본적인 문제를 해결하기 위해, 우리는 표준 MLP 기반 변형 디코더를 동적 시스템을 지배하는 근본적인 물리 법칙을 내재적으로 존중하는 해밀토니안 신경망(HNN)으로 대체할 것을 제안합니다. 우리 접근법의 핵심 통찰은 가우시안 프리미티브가 자연스럽게 위상 공간에 존재하며, 그들의 위치와 운동량이 해밀토니안 동역학에 따라 진화한다는 것입니다. 우리 방법의 전체 파이프라인은 Fig. 2에 설명되어 있습니다.

MLP를 완전히 버리는 대신, 우리의 HNN 프레임워크는 MLP를 미분 가능한 기준선으로 활용하면서 물리학 기반의 구조적 제약을 부과합니다. HNN은 일반적인 그래디언트 대신 심플렉틱 그래디언트 $𝑺_H$(Sec. 3.2에서 언급)를 최적화합니다. 핵심적인 차이는 그래디언트 계산에 있습니다: 전통적인 MLP는 파라미터 업데이트를 위해 역전파 중에만 그래디언트를 계산하는 반면, HNN은 스칼라 포텐셜로부터 벡터 필드를 구성하기 위해 추가적인 순방향 모드 그래디언트 계산이 필요합니다.

타임스탬프 $t$에서 위치 $𝝁_𝑖$를 가진 가우시안 프리미티브가 주어지면, 우리는 Eq. (1)에 따라 헥사플레인 인코더 E를 사용하여 시공간 특징 $𝒇_𝑖$를 추출합니다. 이 특징들은 깊이 $D$와 너비 $W$를 가진 선형 레이어와 ReLU 활성화 함수로 구성된 미분 가능한 MLP M을 통해 처리되어, 해밀토니안 동역학의 입력으로 사용되는 잠재 표현 $𝒉_𝑖 = M(𝒇_𝑖) ∈ R^W$로 매핑됩니다.

$(𝒒, 𝒑)$ 표기법은 해밀토니안 관례를 따르지만 실제 입력은 아닙니다. 신경 렌더링에서 고차원 가우시안 프리미티브에 대한 위치-운동량 좌표를 명시적으로 정의하는 것은 다루기 어렵습니다. 따라서 우리는 대신 암시적 잠재 표현을 HNN의 입력으로 사용합니다¹. 헥사플레인 특징 $𝒇_𝑖$는 위상 공간 구성을 위해 필요한 기하학적 및 운동 정보를 포함하는 가우시안의 시공간 상태를 인코딩하므로, 잠재 표현 $𝒉_𝑖 = M(𝒇_𝑖)$는 암시적인 위치-운동량 결합을 가진 일반화된 좌표를 구성할 수 있어, 정보의 완전성을 유지하면서 $d𝒒/d𝑡$ 계산을 피하여 복잡성을 줄입니다.

¹원본 HNN 논문은 (진자의 각도와 각속도처럼) '올바른' 좌표가 이미 알려진 간단한 시스템에서 개념을 시연했습니다. 수천 개의 가우시안으로 표현되는 복잡한 고차원 장면에서 전체 시스템에 대한 명시적인 $(𝒒, 𝒑)$를 정의하는 것은 다루기 어려우며, 이것이 NeHaD가 암시적 특징을 입력으로 사용하는 직접적인 이유입니다. 사실, 우리의 NeHaD는 학습된 잠재 위상 공간의 개념으로 표준 HNN을 확장하며, 여기서 잠재 표현 $𝒉_𝑖$는 동적 시스템의 일반화된 좌표 역할을 합니다.

해밀토니안 동역학을 시뮬레이션하려면 벡터 필드 $𝒗$를 모델링해야 하며, 이는 부록에서 증명된 바와 같이 보존장 $𝒗_𝑐$와 솔레노이드장 $𝒗_𝑠$로 분해될 수 있습니다(예: $𝒗 = 𝒗_𝑐 + 𝒗_𝑠$). HNN의 목표는 이 두 필드를 학습하는 것입니다. 그러나 HNN을 통해 분해된 벡터 필드 $𝒗_𝑐$와 $𝒗_𝑠$를 직접 학습하는 것은 두 가지 주요 문제 때문에 어렵습니다: 1) 높은 차원으로 인해 모드 붕괴가 발생할 수 있고, 2) 에너지는 스칼라이기 때문에 에너지 보존 제약이 부족하여 벡터 필드 학습 중에 Eq. (2)가 성립하도록 보장하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 대신 두 개의 스칼라 함수 $F_1$과 $F_2$를 학습합니다. 이 함수들은 자동 미분을 통해 벡터 필드를 생성하여 원하는 물리적 특성을 보장합니다: $𝒗_𝑐$는 본질적으로 보존적($∇× 𝒗_𝑐= 0$)이어서 에너지를 보존하고 그래디언트 기반의 움직임을 생성하며, $𝒗_𝑠$는 솔레노이드($∇· 𝒗_𝑠= 0$)적이어서 부피를 보존하고 회전 운동을 생성합니다.

구체적으로, HNN 디코더는 다음과 같이 $𝒗_𝑐$와 $𝒗_𝑠$를 생성하는 두 개의 스칼라 함수 $F_1(𝒉_𝑖)$와 $F_2(𝒉_𝑖)$를 학습합니다:

Eq. 5: 보존장 및 솔레노이드장 생성$$𝒗_𝑐= ∇_{𝒉_𝑖}F_1(𝒉_𝑖)𝑰, \\ 𝒗_𝑠= ∇_{𝒉_𝑖}F_2(𝒉_𝑖)𝑴^⊤$$이 수식은 두 개의 스칼라 함수 $F_1$과 $F_2$로부터 보존장($𝒗_𝑐$)과 솔레노이드장($𝒗_𝑠$) 벡터 필드를 생성하는 방법을 보여줍니다. 자동 미분을 통해 그래디언트를 계산함으로써, 보존장은 에너지 보존과 관련된 직선 운동을, 솔레노이드장은 부피 보존과 관련된 회전 운동을 물리적으로 타당하게 모델링할 수 있습니다.Eq. 6: 순열 텐서$$𝑴= \begin{pmatrix} 0_{𝑑×𝑑} & 𝑰_{𝑑×𝑑} \\ −𝑰_{𝑑×𝑑} & 0_{𝑑×𝑑} \end{pmatrix}$$여기서 $𝑴$은 심플렉틱 구조를 유지하는 순열 텐서이고 $𝑰$는 항등 행렬입니다. 이 행렬은 해밀토니안 시스템의 핵심 속성인 위상 공간의 부피 보존을 보장하며, 솔레노이드장을 계산할 때 회전 변환을 유도하는 데 사용됩니다.

우리는 HNN이 생성한 벡터 필드를 처리하기 위해 가벼운 속성별 어댑터 $A_𝝁$, $A_𝒔$, $A_𝒓$(선형 레이어로 구현됨)을 사용하여 각 가우시안 속성의 표준 차원을 유지합니다. 마지막으로, 각 가우시안 속성의 예측된 변형은 각각 $Δ𝝁_𝑖 = A_𝝁𝒗$, $Δ𝒔_𝑖 = A_𝒔𝒗$, $Δ𝒓_𝑖 = A_𝒓𝒗$입니다.

4.2 Boltzmann Equilibrium Decomposition (볼츠만 평형 분해)

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef def fill:#FEEEB5; subgraph "NeHaD Deformation Field" A[Hex-Plane Features f_i]:::sub --> B[MLP Baseline M]:::sub B --> C[Latent Representations h_i]:::def C --> D[Hamiltonian Neural Network]:::core D -- learns --> E1[Scalar Potential F1]:::idea D -- learns --> E2[Scalar Potential F2]:::idea subgraph "Automatic Differentiation" E1 -- grad --> F1[Conservative Field v_c]:::idea E2 -- grad --> F2[Solenoidal Field v_s]:::idea end F1 & F2 --> G{Combined Vector Field v} G --> H[Attribute Adapters]:::core H --> I[Δμ, Δs, Δr Deformations]:::def end

핵심 콕콕

• 기존의 순수 데이터 기반 MLP 디코더를 물리 법칙을 따르는 해밀토니안 신경망(HNN)으로 대체하여 물리적으로 타당한 움직임을 생성합니다.
• 실제 (위치, 운동량) 좌표 대신, 헥사플레인 인코더에서 추출한 특징을 MLP에 통과시켜 얻은 '암시적 잠재 표현'을 HNN의 입력으로 사용합니다.
• 벡터 필드를 직접 학습하는 대신, 두 개의 스칼라 함수(포텐셜)를 학습하고 자동 미분을 통해 보존장(직선 운동)과 솔레노이드장(회전 운동)을 생성하여 안정성과 물리적 특성을 보장합니다.
• HNN이 생성한 일반적인 동역학 벡터 필드를 속성별 어댑터(선형 레이어)를 통해 위치, 크기, 회전 각각에 맞는 변형 값으로 변환합니다.

함정 주의

HNN의 입력이 실제 (위치 q, 운동량 p) 좌표라고 혼동하지 마세요.
이 논문에서는 복잡한 고차원 가우시안 시스템의 (q, p)를 명시적으로 정의하기 어렵기 때문에, 시공간 특징으로부터 추출한 '암시적 잠재 표현 h'를 일반화된 좌표로 사용하여 HNN에 입력합니다. 이는 기존 HNN을 더 복잡한 시스템에 적용하기 위한 핵심적인 확장입니다.

구현 힌트

벡터 필드를 직접 예측하는 대신, 두 개의 독립적인 MLP를 사용하여 스칼라 포텐셜 F1과 F2를 예측하도록 구현하세요. 그 다음, PyTorch의 `torch.autograd.grad`와 같은 자동 미분 기능을 사용해 이 스칼라 출력에 대한 입력(잠재 표현 h)의 그래디언트를 계산하면, 코드 몇 줄만으로 물리적으로 올바른 보존장과 솔레노이드장을 얻을 수 있습니다. 이는 구현을 단순화하고 안정성을 높이는 효과적인 방법입니다.

쉬운 비유

보존장과 솔레노이드장f>을 쉽게 비유해볼게요.

어떤 물체의 움직임을 예측한다고 상상해보세요.
- 보존장 (Conservative Field): 이것은 '언덕 내려가기'와 같아요. 물체는 항상 에너지가 가장 낮은 곳(언덕 아래)으로 가려는 힘을 받습니다. 이 힘의 방향은 언덕의 가장 가파른 경사(그래디언트) 방향이죠. 에너지를 보존하려는 움직임입니다.
- 솔레노이드장 (Solenoidal Field): 이것은 '소용돌이'와 같아요. 물이 소용돌이 안에서 빙글빙글 돌 때, 물이 새로 생기거나 없어지지 않죠(부피 보존). 단지 회전할 뿐입니다.

NeHaD의 HNN은 이 두 가지 움직임을 모두 학습합니다. 즉, '언덕의 모양(F1)'과 '소용돌이의 세기(F2)'를 학습해서, 물체가 언덕을 내려가면서 동시에 소용돌이에 휘말려 움직이는 복잡한 궤적을 물리적으로 정확하게 예측하는 것과 같습니다.

셀프 테스트

[O/X] NeHaD는 기존의 MLP 기반 디코더를 완전히 버리고 HNN만으로 변형을 예측한다.

정답 보기

정답: X
해설: NeHaD는 MLP를 완전히 버리는 것이 아니라, 미분 가능한 기준선(baseline)으로 활용하면서 HNN을 통해 물리학 기반의 구조적 제약을 부과하는 방식을 사용합니다.

[빈칸] HNN은 벡터 필드를 직접 학습할 때 발생할 수 있는 모드 붕괴와 에너지 보존 제약 부족 문제를 해결하기 위해, 두 개의 ___ 함수를 학습하고 자동 미분을 통해 벡터 필드를 생성한다.

정답 보기

정답: 스칼라
해설: HNN은 두 개의 스칼라 함수 F1과 F2를 학습합니다. 이 스칼라 값들로부터 자동 미분을 통해 그래디언트를 계산하여 보존장과 솔레노이드장이라는 두 벡터 필드를 얻습니다.

[서술형] NeHaD가 가우시안 프리미티브의 실제 (위치, 운동량) 좌표 대신 암시적 잠재 표현을 HNN의 입력으로 사용하는 이유는 무엇이며, 이것이 가지는 장점은 무엇인가?

정답 보기

모범답안: 수천 개의 가우시안으로 구성된 복잡하고 고차원적인 장면 전체에 대한 (위치, 운동량) 좌표를 명시적으로 정의하는 것은 매우 어렵고 비현실적이기 때문입니다. 대신 시공간 특징을 인코딩한 암시적 잠재 표현을 사용함으로써, 시스템의 동역학을 학습하는 데 필요한 정보를 유지하면서도 명시적인 좌표 계산을 피해 복잡도를 크게 줄일 수 있습니다. 이는 표준 HNN을 복잡한 렌더링 문제에 적용 가능하도록 확장하는 핵심 아이디어입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4.2 Boltzmann Equilibrium Decomposition (볼츠만 평형 분해)

HNN이 물리적으로 일관된 변형장을 보장하더라도, 어떤 가우시안 프리미티브가 동적 모델링을 필요로 하고 어떤 것이 시간 순서 내내 정적으로 남아있는지를 결정하는 중요한 과제가 남아있습니다. 모든 프리미티브에 변형을 무차별적으로 적용하면 계산 비효율성과 안정적인 영역에서의 잠재적인 아티팩트로 이어집니다. 이 문제를 해결하기 위해, 우리는 볼츠만 평형 분해(Boltzmann Equilibrium Decomposition, BED)를 도입합니다.

BED를 이끄는 통찰은 평형 상태에서 벗어난 가우시안 프리미티브만이 변형을 위해 활성화되어야 한다는 것입니다. 우리는 통계 역학을 통해 이를 공식화하며, 볼츠만 에너지 분포에 기반한 소프트 마스크를 구성하여 변형에 불필요한 프리미티브를 적응적으로 걸러냅니다. 우리의 분해 전략은 서로 다른 가우시안 속성의 뚜렷한 시각적 특성에 맞춰진 두 가지 보완적인 메커니즘을 사용합니다.

위치 동역학을 위한 공간-시간 분해(Spatial-Temporal Decomposition for Position Dynamics). 위치 변형은 모든 가우시안이 매 순간 변형될 필요가 없고, 모든 공간적 위치가 각 타임스탬프에서 동일하게 중요하지 않기 때문에 신중한 공간-시간 필터링이 필요합니다. 분해 패턴은 이중 선택성을 보입니다:

공간적 선택성(Spatial selectivity): 특정 타임스탬프에서, 가우시안의 일부만이 변형에 크게 기여하며, 다른 것들은 장면의 안정성을 유지하기 위해 정적으로 남아있어야 합니다.
시간적 선택성(Temporal selectivity): 주어진 가우시안 프리미티브에 대해, 그것의 활성화는 다른 타임스탬프에 따라 달라집니다. 즉, 특정 프레임에서는 비활성 상태일 수 있지만, 움직임 패턴이 필요할 때 다시 활성화될 수 있습니다.

우리는 각 가우시안 프리미티브의 평형 상태가 공간적 위치와 시간적 맥락 모두에 의해 결정되는 위상 공간을 구성하여 이 이중 선택성을 모델링합니다. 위치 $\mu_i$와 타임스탬프 $t$에 있는 $i$번째 가우시안에 대한 평형 편차는 다음과 같습니다:

Eq. 7: 평형 편차$$\Delta d_i = \frac{\|\mu_i - \mu_{eq}^{(i)}\|^2}{\sigma_s}, \quad \Delta \tau_i = \frac{t - t_{eq}^{(i)}}{\sigma_t},$$이 수식은 $i$번째 가우시안 프리미티브의 평형 상태로부터의 편차를 계산합니다. $\Delta d_i$는 공간적 편차를, $\Delta \tau_i$는 시간적 편차를 나타냅니다. 여기서 $\mu_{eq}^{(i)}$와 $t_{eq}^{(i)}$는 각각 학습을 통해 최적화되는 공간 및 시간적 평형 상태이며, $\sigma_s$와 $\sigma_t$는 민감도를 조절하는 스케일입니다.

여기서 $\mu_{eq}^{(i)}$와 $t_{eq}^{(i)}$는 $i$번째 가우시안 프리미티브의 공간 및 시간적 평형 상태를 나타내며, $\sigma_t$, $\sigma_s$는 민감도 스케일을 제어합니다. 공간 및 시간적 평형 상태는 모두 가우시안 속성으로 초기화되고 훈련 중에 최적화됩니다. 평형으로부터의 거리가 동적/정적 상태를 결정합니다 - 거리가 클수록 평형에서 더 많이 벗어났음을 의미하며, 이는 더 강한 움직임을 뜻하므로 동적 프리미티브일 가능성이 더 높습니다. 결합된 공간-시간 에너지 편차는 단순화를 위해 조화 진동자 모델을 따릅니다:

Eq. 8: 결합 에너지 편차$$E_{st}^{(i)} = \frac{1}{2} (\Delta d_i^2 + \Delta \tau_i^2) + \lambda \Delta d_i \Delta \tau_i,$$이 수식은 공간적 편차와 시간적 편차를 결합하여 단일 에너지 값 $E_{st}^{(i)}$를 계산합니다. 이는 조화 진동자 모델을 기반으로 하며, 결합 항 $\lambda \Delta d_i \Delta \tau_i$는 공간적 움직임 패턴이 시간적 진화와 본질적으로 결합되어 있음을 반영합니다.

여기서 결합 항 $\lambda \Delta d_i \Delta \tau_i$는 공간적 움직임 패턴이 본질적으로 시간적 진화와 결합되어 있다는 것을 반영하여 공간적 편차와 시간적 편차 사이의 상호 의존성을 포착합니다. 위치 평형 마스크는 볼츠만 분포를 따릅니다:

Eq. 9: 위치 평형 마스크$$M_{pos}^{(i)} = (1 - \gamma) \cdot \exp(-\beta E_{st}^{(i)}) + \gamma,$$이 수식은 볼츠만 분포를 사용하여 위치 변형을 위한 소프트 마스크 $M_{pos}^{(i)}$를 생성합니다. 여기서 $\beta=1/T$는 에너지 분포의 날카로움을 제어하는 역온도이며, $\gamma$는 프리미티브가 완전히 비활성화되는 것을 방지하기 위한 최소 동적 반응성을 보장합니다.

여기서 $\beta = 1/T$는 에너지 분포의 날카로움을 제어하는 역온도이며, $\gamma$는 프리미티브의 완전한 비활성화를 방지하기 위해 최소한의 동적 반응성을 보장합니다. 이 마스크는 원하는 이중 선택성을 자연스럽게 달성합니다: 평형에 가까운 프리미티브는 정적으로 유지되고, 평형에서 멀리 떨어진 프리미티브는 더 강한 변형을 받게 됩니다.

스케일링 동역학을 위한 시간-전용 분해(Temporal-Only Decomposition for Scaling Dynamics). 스케일링 동역학은 위치 동역학과 비교하여 근본적으로 다른 시각적 특성을 보입니다. 스케일링 변화의 시각적 세분성은 위치 변화보다 훨씬 작으며, 주로 전역적인 장면 구조보다는 표면의 부드러움과 외형 디테일에 영향을 미칩니다. 결과적으로, 스케일링에 대한 우리의 분해 전략은 다른 원칙을 따릅니다:

공간적 보편성(Spatial universality): 특정 타임스탬프에서, 거의 모든 가우시안 프리미티브는 스케일링 변형에 참여해야 합니다. 왜냐하면 스케일링은 전체 장면에 걸쳐 세밀한 표면 디테일에 기여하기 때문입니다.
시간적 선택성(Temporal selectivity): 다른 타임스탬프는 다양한 스케일링 요구 사항을 가집니다. 즉, 어떤 순간은 표면 품질을 향상시키기 위해 활발한 스케일링이 유리하지만, 다른 순간은 텍스처의 사실성을 보존하기 위해 최소한의 스케일링이 필요합니다.

이 분석을 바탕으로, 우리는 스케일링 동역학에 대해 시간-전용 분해를 적용하여, 공간적 제약은 제거하면서 시간적 평형 기반 분리를 유지합니다.

스케일링의 경우, 시간적 에너지 편차는 다음과 같이 모델링됩니다:

Eq. 10: 시간적 에너지 편차 (스케일링)$$E_t^{(i)} = \frac{1}{2} \left( \frac{t - t_{eq}^{(i)}}{\sigma_t} \right)^2,$$이 수식은 스케일링 동역학을 위한 시간적 에너지 편차 $E_t^{(i)}$를 계산합니다. 위치 동역학과 달리 공간적 편차 항이 없으며, 오직 시간적 평형 상태 $t_{eq}^{(i)}$로부터의 편차만을 고려합니다.

여기서 $t_{eq}^{(i)}$는 가우시안 속성으로 초기화되고 동적으로 최적화되며, $\sigma_t$는 평형 시간 $t_{eq}^{(i)}$ 주변의 시간적 민감도를 제어합니다. 그러면 스케일링 평형 마스크는 다음과 같이 됩니다:

Eq. 11: 스케일링 평형 마스크$$M_{scale}^{(i)} = (1 - \gamma) \cdot \exp(-\beta E_t^{(i)}) + \gamma.$$이 수식은 시간적 에너지 편차 $E_t^{(i)}$만을 사용하여 스케일링 변형을 위한 소프트 마스크 $M_{scale}^{(i)}$를 생성합니다. 이는 스케일링이 공간적으로는 보편적으로 적용되지만 시간적으로는 선택적으로 적용되어야 한다는 원칙을 반영합니다.

이 시간-전용 접근 방식은 스케일링 변형이 장면의 자연스러운 시간적 리듬에 적응하면서도 표면 디테일 보존을 위한 공간적 보편성을 유지하도록 보장합니다.

마지막으로, BED 메커니즘은 평형-인식 블렌딩을 통해 변형 파이프라인에 통합되며, 속성 특성에 따라 다른 분해 전략을 적용합니다:

Eq. 12 & 13: 평형-인식 블렌딩$$\mu'_i = \mu_i + \Delta\mu_i \odot (1 - M_{pos}^{(i)}), \\ s'_i = s_i + \Delta s_i \odot (1 - M_{scale}^{(i)}),$$이 수식들은 계산된 마스크를 사용하여 최종 변형을 적용하는 방법을 보여줍니다. 위치 변형 $\Delta\mu_i$는 위치 마스크 $M_{pos}^{(i)}$에 의해 조절되고, 스케일링 변형 $\Delta s_i$는 스케일링 마스크 $M_{scale}^{(i)}$에 의해 조절됩니다. 마스크 값이 1에 가까우면(평형 상태) 변형이 거의 적용되지 않습니다.

여기서 $\Delta\mu_i$와 $\Delta s_i$는 HNN이 생성한 변형 예측값입니다. 이러한 변형 잔차는 다음 하위 섹션에서 소개될 특화된 물리-기반 제약 조건을 사용하여 추가로 정규화되고 개선될 수 있습니다.

쪽집게 과외

알고리즘

flowchart TD classDef idea fill:#E8D2E5 classDef def fill:#FEEEB5 classDef pros fill:#D0F1B9 classDef warn fill:#FFD3C2 subgraph BED [Boltzmann Equilibrium Decomposition] direction LR A[Gaussian Primitive at time t] --> B{Position or Scaling?} B --> C[Position Dynamics] B --> D[Scaling Dynamics] subgraph Position Handling C --> C1[Calculate Spatial Deviation Δd]:::def C --> C2[Calculate Temporal Deviation Δτ]:::def C1 & C2 --> C3[Combine to Energy E_st]:::def C3 --> C4[Calculate Position Mask M_pos]:::idea end subgraph Scaling Handling D --> D1[Calculate Temporal Deviation Δτ]:::def D1 --> D2[Calculate Temporal Energy E_t]:::def D2 --> D3[Calculate Scaling Mask M_scale]:::idea end C4 --> E[Apply Position Deformation] D3 --> F[Apply Scaling Deformation] end E & F --> G[Deformed Gaussian]:::pros

핵심 콕콕

• 문제점: 모든 가우시안을 변형시키는 것은 비효율적이며 아티팩트를 유발합니다.
• 해결책: 볼츠만 평형 분해(BED)를 도입하여 동적 가우시안과 정적 가우시안을 분리합니다.
• 핵심 아이디어: 각 가우시안의 '평형 상태'를 정의하고, 이 상태에서 멀리 벗어난 가우시안만 변형 대상으로 선택합니다.
• 이중 전략: 위치(Position) 변형에는 공간-시간적 분해를, 스케일링(Scaling) 변형에는 시간-전용 분해를 적용하여 각 속성의 시각적 특성에 맞게 최적화합니다.

함정 주의

위치 변형과 스케일링 변형의 분해 전략을 혼동하지 마세요.

- 위치 변형은 '공간-시간 분해'를 사용합니다. 특정 시간, 특정 공간에서만 움직임이 중요하기 때문입니다. (예: 공이 날아가는 궤적)
- 스케일링 변형은 '시간-전용 분해'를 사용합니다. 스케일링은 표면의 디테일에 영향을 주므로 공간적으로는 거의 모든 곳에서 필요하지만, 시간적으로는 특정 순간에만 활발한 변화가 필요하기 때문입니다. (예: 물체의 질감이 변하는 순간)

구현 힌트

실제 구현 시, 각 가우시안의 공간적 평형 상태(μ_eq)와 시간적 평형 상태(t_eq)는 고정된 값이 아닙니다. 이들은 가우시안의 다른 속성(위치, 색상 등)과 마찬가지로 학습 가능한 파라미터로 초기화되며, 훈련 과정에서 데이터에 맞게 최적화됩니다. 또한, 역온도 파라미터 β는 마스크의 '날카로움'을 조절하는 중요한 하이퍼파라미터입니다. β가 크면 동적/정적 구분이 명확해지고, 작으면 부드러운 전환이 일어납니다.

쉬운 비유

볼츠만 평형 분해(BED)f>를 쉽게 비유해볼게요.
- 비유: 큰 광장에 모인 수많은 사람들을 드론으로 촬영한다고 상상해보세요. 대부분의 사람들은 가만히 서 있거나 천천히 걷고 있어요(평형 상태). 하지만 몇몇 사람들은 갑자기 춤을 추거나 뛰기 시작해요(평형에서 벗어난 상태).
- BED는 이 드론의 스마트 촬영 시스템과 같아요. 모든 사람을 일일이 추적하는 대신, 춤추거나 뛰는 사람들(동적 가우시안)에게만 카메라를 집중하고, 가만히 있는 사람들(정적 가우시안)은 고정된 배경으로 처리해요. 이렇게 하면 훨씬 효율적으로 역동적인 장면을 담아낼 수 있죠.
- 위치와 스케일링을 다르게 처리하는 것은, '사람이 어디로 뛰어가느냐'(위치)는 특정 시간과 장소에서만 중요하지만, '옷이 얼마나 펄럭이느냐'(스케일링)는 뛰는 동안 내내 중요하기 때문인 것과 비슷해요.

셀프 테스트

[O/X] 볼츠만 평형 분해(BED)는 모든 가우시안 프리미티브에 동일한 변형 마스크를 적용하여 계산을 단순화한다.

정답 보기

정답: X
해설: BED는 각 프리미티브가 평형 상태에서 얼마나 벗어났는지에 따라 개별적인 마스크를 계산하여 동적 객체와 정적 객체를 구분하는 것이 핵심입니다. 또한 위치와 스케일링 속성에 대해 서로 다른 전략을 사용합니다.

[빈칸] 위치 동역학은 ___ 선택성과 ___ 선택성을 모두 고려하는 분해를 사용하지만, 스케일링 동역학은 ___ 선택성만 고려한다.

정답 보기

정답: 공간적, 시간적, 시간적
해설: 위치 변화는 특정 공간과 시간에서 일어나지만, 스케일링 변화는 표면 디테일과 관련이 있어 공간적으로는 보편적이지만 시간적으로는 선택적으로 발생하기 때문입니다.

[서술형] 위치와 스케일링 동역학에 대해 서로 다른 분해 전략(spatial-temporal vs. temporal-only)을 사용하는 근본적인 이유는 무엇이며, 각 전략이 렌더링 품질에 어떻게 기여하는지 설명하시오.

정답 보기

모범답안: 위치 동역학은 장면의 전역적인 구조 변화를 담당하므로, 특정 시간과 공간에서만 활성화되는 '공간-시간 분해'가 적합합니다. 이는 불필요한 영역의 변형을 막아 안정성을 높입니다. 반면, 스케일링 동역학은 표면의 미세한 디테일과 부드러움을 조절하므로, 공간적으로는 보편적으로 적용되되 시간적으로는 선택적으로 활성화되는 '시간-전용 분해'가 효과적입니다. 이는 전체적인 표면 품질을 일관되게 유지하면서 필요한 순간에만 디테일을 강조할 수 있게 해줍니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

잔차는 다음 하위 섹션에서 소개될 특화된 물리 기반 제약 조건을 사용하여 추가로 정규화되고 개선될 수 있습니다.

4.3 Physics-informed Constraints (물리 기반 제약 조건)

HNN 디코더와 BED 메커니즘이 물리적으로 일관된 변형 예측과 에너지 기반 프리미티브 선택을 제공하지만, 가우시안 속성의 시간적 진화를 위해서는 안정적이고 방향성 있는 동역학을 보장하기 위한 추가적인 물리 기반 제약 조건이 필요합니다. 우리는 변형 과정을 안내하는 두 가지 특화된 제약 조건을 도입합니다: 위치 동역학을 위한 2차 심플렉틱 적분(Second-order Symplectic Integration)과 회전 동역학을 위한 지역적 강성 정규화(Local Rigidity Regularization)입니다.

위치 동역학의 시간적 적분은 물리 기반 시뮬레이션에서 근본적인 과제를 제시합니다Sholokhov/2023/Physics-based Simulation: 장시간에 걸쳐 에너지 보존과 시스템 안정성을 유지하는 것입니다. 신경 연산자에서 흔히 사용되는 표준 오일러 적분과 고차 룽게-쿠타 방법Süli/2003/Numerical Analysis은 심플렉틱성(symplecticity)을 위반하기 때문에, 특히 해밀토니안 역학에 의해 지배되는 시스템에서 에너지 드리프트와 수치적 불안정성을 겪습니다.

물리 기반 시뮬레이션의 장기적인 안정성을 보장하기 위해, 우리는 각 가우시안의 위치를 업데이트하는 데 심플렉틱 적분기를 사용합니다. 우리는 프리미티브의 현재 속도와 가속도를 모두 필요로 하는 위치 벌렛(Position Verlet) 적분 방식을 채택했습니다. 구체적으로, 우리의 HNN 디코더는 이 두 가지 물리량을 모두 제공하도록 구조화되어 있습니다:

속도: 주 변형 벡터인 $Δ\mathbf{μ}_i$는 주어진 타임스탬프에서 $i$번째 프리미티브의 순간 속도로 해석됩니다.
힘: HNN은 또한 해밀토니안의 일부로 잠재적 위치 에너지 지형을 학습합니다. $i$번째 프리미티브에 작용하는 힘은 이 위치 에너지의 음의 그래디언트($-\nabla_{\mathbf{q}}U(\mathbf{q}_i)$)입니다. 이 힘은 심플렉틱 적분 내에서 가우시안 위치 업데이트를 안내하며, 프리미티브를 에너지 최소화를 향해 움직이는 입자로 취급합니다. 이는 시스템을 정규화하고 소산 효과가 있는 경우에도 보존 법칙을 강제하는 데 도움이 됩니다. 우리는 이 힘 벡터 $\mathbf{F}_i$를 HNN의 출력 벡터 필드의 보존 성분($\mathbf{v}_c$)으로부터 직접 얻으며(수식 (5) 참조), 이는 프리미티브의 운동량 변화(즉, 가속도)를 유도하고 자동 미분을 통해 계산됩니다.

각 가우시안 프리미티브에 대해 단위 질량($m=1$)을 가정하면², 힘은 가속도와 동일합니다($\mathbf{a}_i = \mathbf{F}_i$). 그러면 이 항들을 표준 위치 벌렛 적분 공식에 대입할 수 있습니다:

Eq. 14: 위치 벌렛 적분$$\tilde{\mathbf{μ}}_i = \mathbf{μ}_i + \Delta t \cdot \Delta\mathbf{μ}_i + \frac{(\Delta t)^2}{2} \mathbf{F}_i$$이 수식은 위치 벌렛 적분을 나타냅니다. 현재 위치 $\mathbf{μ}_i$에 속도($\Delta\mathbf{μ}_i$)와 가속도($\mathbf{F}_i$)의 영향을 더하여 다음 시간 단계의 위치 $\tilde{\mathbf{μ}}_i$를 계산합니다. 이 방법은 에너지 드리프트를 최소화하여 장기적인 안정성을 보장하는 심플렉틱 적분기의 한 종류입니다.

이 공식은 우리의 데이터 기반 예측을 원칙에 입각한 적분 방식과 연결하여, 가우시안의 위치 업데이트가 HNN에 의해 학습된 근본적인 물리 법칙(예: 심플렉틱 구조)을 존중하도록 보장합니다. 수식 (14)는 수식 (12)보다 먼저 적용되어야 함에 유의하십시오, 즉, $\mathbf{μ}'_i = \tilde{\mathbf{μ}}_i \odot (1 - M^{(i)}_{pos}) + \mathbf{μ}_i \odot M^{(i)}_{pos}$ 입니다. 알고리즘 파이프라인에 대한 자세한 설명은 부록에서 찾을 수 있습니다.

가우시안 스플래팅에서의 회전 동역학은 쿼터니언 매개변수화와 지역적 기하학적 일관성을 유지해야 할 필요성 때문에 독특한 과제를 제시합니다.

이러한 과제를 해결하기 위해, 우리는 As-Rigid-As-Possible (ARAP)Sorkine/2007/ARAP에서 영감을 받은 지역적 강성 정규화를 구현합니다. 이는 회전 업데이트를 제약하여 지역적 강성을 보존하면서 전역적 유연성을 허용합니다. ARAP 원칙은 가우시안 프리미티브의 지역적 이웃이 거의 강체 변환을 겪도록 보장하여, 부자연스러운 변형을 방지하면서 전반적인 장면 동역학을 유지합니다. 시간적으로 부드럽고 기하학적으로 안정적인 회전을 보장하기 위해, 우리는 시간 단계 간에 부자연스럽게 큰 변화를 방지하도록 회전 업데이트를 정규화합니다. 이는 회전 각도의 크기를 제한함으로써 달성됩니다.

쿼터니언 회전 $\mathbf{r}_i = [w_i, x_i, y_i, z_i]^\top$을 갖는 $i$번째 가우시안 프리미티브에 대해, 우리는 Huang/2023/Deformable 3D Gaussians나 Sorkine/2007/ARAP에서처럼 에너지 함수를 최소화할 필요가 없는 단순화된 ARAP 제약 회전 업데이트를 적용합니다. 우리 HNN 디코더의 회전 헤드는 단위 쿼터니언 $\Delta\mathbf{r}_i$를 예측하며, 이는 시간 $t$에서 $t+\Delta t$까지의 방향 변화를 나타냅니다. 우리는 이 쿼터니언 증분을 스칼라와 벡터 성분으로 분해할 수 있습니다:

Eq. 15: 쿼터니언 증분 분해$$\Delta\mathbf{r}_i = [\Delta w_i, \Delta\mathbf{g}_i]^\top, \quad \Delta\mathbf{g}_i = [\Delta x_i, \Delta y_i, \Delta z_i]^\top$$이 수식은 회전 변화를 나타내는 쿼터니언 증분 $\Delta\mathbf{r}_i$를 스칼라 부분 $\Delta w_i$와 벡터 부분 $\Delta\mathbf{g}_i$로 분해하는 것을 보여줍니다. 스칼라 부분은 회전의 크기와 관련이 있고, 벡터 부분은 회전 축을 나타냅니다.

여기서 $\Delta w_i$는 회전 크기를 나타내는 스칼라 부분이고, $\Delta\mathbf{g}_i$는 각도로 스케일링된 회전 축을 나타내는 벡터 부분입니다. 실제 구현에서는 이 쿼터니언을 축-각 표현으로 변환하여 총 회전 각도 $\phi_i = 2 \cdot \text{atan2}(\|\Delta\mathbf{g}_i\|, \Delta w_i)$를 얻습니다³.

급격한 회전 변화를 방지하기 위해, 우리는 큰 회전은 제한하면서 작은 자연스러운 회전은 보존하는 부드러운 제한 함수를 적용하여 제한된 각도, 즉 $\phi'_i = \phi_{max} \cdot \tanh(\frac{\phi_i}{\phi_{max}})$를 얻습니다. 여기서 $\phi_{max}$는 타임스탬프당 허용되는 최대 회전을 정의하고, $\tanh(\cdot)$는 부드러운 포화 효과를 제공합니다. 이 단계들을 더 진행하여, 제약된 쿼터니언 증분 $\Delta\mathbf{r}'_i$는 다음과 같이 구성됩니다:

Eq. 16: 제약된 쿼터니언 증분$$\Delta\mathbf{r}'_i = \left[ \cos\left(\frac{\phi'_i}{2}\right), \sin\left(\frac{\phi'_i}{2}\right) \frac{\Delta\mathbf{g}_i}{\|\Delta\mathbf{g}_i\|} \right]^\top$$이 수식은 제한된 회전 각도 $\phi'_i$를 사용하여 새로운 쿼터니언 증분 $\Delta\mathbf{r}'_i$를 재구성하는 방법을 보여줍니다. 이는 ARAP 원칙에 따라 부자연스러운 급격한 회전을 방지하고 안정적인 동역학을 보장합니다.

그리고 최종 회전은 쿼터니언 곱셈 후 정규화를 통해 얻어집니다: $\mathbf{r}'_i = \mathcal{N}(\mathbf{r}_i \otimes \Delta\mathbf{r}'_i)$, 여기서 $\otimes$와 $\mathcal{N}(\cdot)$는 각각 쿼터니언 곱셈과 정규화를 나타냅니다.

5 Experiments (실험)5.1 Experimental Setup (실험 설정)

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2; sub_A[HNN/BED 출력
변형 예측값 Δμ, Δs, Δr] --> B(위치 동역학 처리); sub_A --> C(회전 동역학 처리); subgraph 위치 업데이트 B --> B1(HNN에서 힘 F 추출):::idea; B1 --> B2(위치 벌렛 적분 적용):::core; B2 --> B3[안정적인 위치 업데이트]:::pros; end subgraph 회전 업데이트 C --> C1(회전 각도 계산):::idea; C1 --> C2(ARAP 기반 각도 제한):::core; C2 --> C3[자연스러운 회전 업데이트]:::pros; end B3 --> D{최종 변형된 가우시안}; C3 --> D;

핵심 콕콕

• 위치 업데이트 시, 표준 오일러 적분 대신 '2차 심플렉틱 적분'(위치 벌렛)을 사용하여 물리 시뮬레이션의 장기적인 안정성과 에너지 보존을 보장합니다.
• 심플렉틱 적분에 필요한 속도(Δμ)와 힘(가속도) 정보는 모두 HNN 디코더가 물리 법칙에 기반하여 예측하고 제공합니다.
• 회전 업데이트 시, '지역적 강성 정규화'(ARAP)를 적용하여 프레임 간 회전 각도의 크기를 제한합니다. 이를 통해 부자연스럽고 급격한 회전을 방지하고 부드러운 움직임을 만듭니다.

함정 주의

오일러 적분과 심플렉틱 적분을 혼동하지 마세요.
오일러 적분은 구현이 간단하지만, 물리 시뮬레이션에서 시간이 지남에 따라 오차가 누적되어 에너지가 보존되지 않고 시스템이 불안정해지는 '에너지 드리프트' 문제가 발생합니다. 반면, 심플렉틱 적분은 해밀토니안 시스템의 기하학적 구조(심플렉틱성)를 보존하도록 설계되어 장기적으로도 에너지와 안정성을 유지하는 데 훨씬 뛰어납니다. 이 논문에서는 물리적 정확성을 위해 후자를 선택했습니다.

구현 힌트

실제 구현 시 다음 팁을 참고하세요.
1. 위치 벌렛 적분(수식 14)에 필요한 힘 벡터 F_i는 HNN 출력 벡터 필드의 보존 성분(v_c)에서 직접 얻을 수 있으며, 이는 자동 미분을 통해 계산됩니다.
2. 회전 각도를 계산할 때, 쿼터니언을 축-각 표현으로 변환하기 위해 일반적인 'arctan' 대신 'atan2' 함수를 사용하세요. 'atan2'는 90도 이상의 각도에서도 수치적으로 더 안정적입니다.
3. 연산 순서가 중요합니다. 물리 기반 적분(수식 14)을 먼저 적용하여 새로운 위치 후보를 계산한 뒤, BED 마스킹(수식 12)을 적용하여 최종 위치를 결정해야 합니다.

쉬운 비유

심플렉틱 적분과 지역적 강성 정규화f>를 쉽게 비유해볼게요.
- 심플렉틱 적분: 그네를 밀어주는 것과 같아요. 아무렇게나 힘을 주면(오일러 적분) 그네가 이상하게 흔들리거나 금방 멈춰버리죠. 하지만 그네의 리듬에 맞춰 정확한 타이밍에 밀어주면(심플렉틱 적분), 작은 힘으로도 그네가 오랫동안 안정적으로 움직이는 것과 같습니다. 에너지 손실을 최소화하여 자연스러운 움직임을 유지하는 원리예요.
- 지역적 강성 정규화: 사람의 팔을 움직이는 애니메이션을 만드는 것과 비슷해요. 팔 전체는 자유롭게 움직이지만, 팔꿈치 관절이 갑자기 360도 돌아가거나 뼈가 고무처럼 휘면 안 되겠죠? 이처럼 전체적인 움직임은 허용하되, 각 부분(어깨-팔꿈치, 팔꿈치-손목)이 원래의 형태를 유지하며 자연스러운 범위 내에서만 회전하도록 제약을 거는 것이 지역적 강성 정규화입니다.

셀프 테스트

[O/X] 이 논문에서 제안한 방법은 위치 동역학을 계산할 때, 구현이 간단하고 빠른 표준 오일러 적분 방식을 사용한다.

정답 보기

정답: X
해설: 제안된 방법은 장기적인 안정성과 에너지 보존을 위해 오일러 적분 대신 '2차 심플렉틱 적분'(위치 벌렛)을 사용합니다.

[빈칸] 부자연스럽고 급격한 회전을 방지하기 위해, 프레임 간 회전 각도의 크기를 제한하는 ___ ___ 정규화 기법을 적용했다.

정답 보기

정답: 지역적 강성
해설: 지역적 강성 정규화(Local Rigidity Regularization)는 ARAP 원리에서 영감을 받아, 국소적인 기하학적 형태를 유지하며 부드러운 회전을 만들어냅니다.

[서술형] HNN 디코더가 심플렉틱 적분을 위해 어떤 두 가지 핵심 물리량을 제공하며, 각각 어떻게 계산되나요?

정답 보기

모범답안: HNN 디코더는 속도(velocity)와 힘(force)을 제공합니다. 속도는 주 변형 벡터인 Δμ_i로 해석됩니다. 힘은 HNN이 학습한 잠재적 위치 에너지의 음의 그래디언트(-∇U)로 계산되며, HNN 출력 벡터 필드의 보존 성분(v_c)에서 자동 미분을 통해 직접 얻을 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

정규화가 뒤따르며, 최종 회전 $𝒓′_𝑖= N (𝒓_𝑖⊗Δ𝒓′_𝑖)$가 구해집니다. 여기서 $\otimes$와 $N (·)$은 각각 쿼터니언 곱셈과 정규화를 나타냅니다.

5 Experiments (실험) 5.1 Experimental Setup (실험 설정)

쪽집게 과외

핵심 콕콕

• 최종 회전(rotation)은 쿼터니언 곱셈(quaternion multiplication) 후 정규화(normalization)를 통해 계산됩니다.
• 정규화 과정은 누적 오차로 인한 회전 왜곡을 방지하는 데 필수적입니다.

구현 힌트

쿼터니언 곱셈과 정규화는 대부분의 3D 그래픽스 및 수학 라이브러리(예: PyTorch3D, Eigen, GLM)에서 표준 함수로 제공됩니다. 수치 안정성을 위해 직접 구현하기보다는 검증된 라이브러리를 활용하는 것이 좋습니다.

셀프 테스트

[O/X] 최종 회전 쿼터니언을 계산할 때, 곱셈만 반복적으로 수행하고 정규화는 마지막에 한 번만 해도 결과는 동일하다.

정답 보기

정답: X
해설: 쿼터니언 곱셈 후에는 단위 쿼터니언(unit quaternion) 속성을 유지하기 위해 매번 정규화를 수행해야 합니다. 정규화를 생략하면 부동소수점 연산 오차가 누적되어 회전이 왜곡되거나 스케일이 변하는 문제가 발생할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

이후 정규화를 수행하여 최종 회전 $𝒓′_𝑖= N (𝒓_𝑖⊗Δ𝒓′_𝑖)$를 얻습니다. 여기서 $⊗$와 $N (·)$는 각각 쿼터니언 곱셈과 정규화를 나타냅니다.

5 Experiments (실험)5.1 Experimental Setup (실험 설정)

데이터셋. 우리는 합성 및 실제 장면을 포함하는 단안 및 다중 시점 동적 장면 데이터셋 모두에서 평가를 수행합니다:

합성 데이터셋: 합성 장면 평가를 위해 Pumarola et al./2021/D-NeRF의 D-NeRF를 사용하며, 800×800 해상도로 렌더링합니다.
실제 데이터셋: 실제 장면 평가를 위해 Park et al./2021b/HyperNeRF의 HyperNeRF와 Li et al./2022/DyNeRF의 DyNeRF를 사용합니다.

카메라 포즈는 Schonberger and Frahm/2016/COLMAP의 COLMAP을 사용하여 추정합니다. 우리는 HyperNeRF의 “vrig” 장면에 대해서는 536×960 해상도에서, DyNeRF에 대해서는 1352×1014 해상도에서 정량적 결과를 보고합니다.

하이퍼파라미터. 우리의 하이퍼파라미터 설정은 대체로 Wu et al./2024/4DGS의 4DGS를 따릅니다. 더 자세한 실험 구현 세부 사항은 부록에 요약되어 있습니다.

손실 함수. Fang et al./2022/Fast dynamic radiance fields, Kerbl et al./2023/3DGS, Wu et al./2024/4DGS의 이전 연구들을 따라, 렌더링된 이미지와 실제 이미지 간의 색상 손실 $L_1$과 구조 손실 $L_{DSSIM}$을 사용하여 학습을 감독합니다. 추가적으로, Cao and Johnson/2023/HexPlane과 Wu et al./2024/4DGS에서 제안된 그리드 기반 총 변동 손실 $L_{TV}$가 적용됩니다:

Eq. 17: 총 손실 함수$$L_{total}= (1 −𝜆)L_1 + 𝜆L_{DSSIM}+ L_{TV}$$이 수식은 최종 렌더링 품질을 최적화하기 위한 전체 손실 함수를 정의합니다. 색상 정확도를 위한 $L_1$ 손실, 구조적 유사성을 위한 $L_{DSSIM}$ 손실, 그리고 렌더링 결과의 공간적 부드러움을 위한 총 변동($L_{TV}$) 손실의 가중 합으로 구성됩니다. $\lambda$는 색상과 구조 손실 간의 균형을 조절하는 가중치입니다.

여기서 $L_1$과 $L_{DSSIM}$ 사이의 가중치인 $𝜆$는 0.2로 설정됩니다.

5.2 Applications: Streaming (응용: 스트리밍)

그래픽 응용 분야에서 NeHaD의 실용성을 평가하기 위해, 대역폭이 제한된 환경에서 어려운 과제인 VR 요구사항을 위한 적응형 스트리밍으로 확장합니다.

쪽집게 과외

핵심 콕콕

• 평가는 합성 데이터셋(D-NeRF)과 실제 데이터셋(HyperNeRF, DyNeRF) 모두에서 수행됩니다.
• 손실 함수는 색상($L_1$), 구조($L_{DSSIM}$), 공간적 부드러움($L_{TV}$)을 모두 고려하는 조합으로 구성됩니다.
• 하이퍼파라미터 설정은 기존 연구인 4DGS를 기반으로 합니다.
• 제안된 방법은 VR 환경을 위한 적응형 스트리밍 애플리케이션으로 확장될 수 있습니다.

구현 힌트

총 손실 함수는 L1, DSSIM, TV 손실의 조합으로 구성됩니다. 논문에서는 L1과 DSSIM의 가중치 𝜆를 0.2로 설정했으므로, 재현 시 이 값을 기준으로 시작해볼 수 있습니다. 하이퍼파라미터는 4DGS를 기반으로 하므로, 해당 논문의 설정을 참고하면 구현에 도움이 됩니다.

셀프 테스트

[빈칸] NeHaD의 총 손실 함수는 색상 손실($L_1$), 구조 손실($L_{DSSIM}$), 그리고 렌더링 결과의 공간적 부드러움을 위한 ___ 손실로 구성된다.

정답 보기

정답: 총 변동 (Total Variational, TV)
해설: 총 변동 손실($L_{TV}$)은 그리드 기반으로 계산되며, 결과물이 갑작스럽게 변하지 않고 부드럽게 이어지도록 하는 정규화 역할을 합니다.

[O/X] NeHaD는 학습 시 렌더링된 이미지와 실제 이미지 간의 색상 차이만을 손실 함수로 사용한다.

정답 보기

정답: X
해설: NeHaD는 색상 손실($L_1$)뿐만 아니라, 구조적 유사성을 측정하는 $L_{DSSIM}$ 손실과 공간적 부드러움을 위한 $L_{TV}$ 손실을 함께 사용합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Wu/2024/4DGS의 연구에서처럼 그리드 기반 총 변동 손실(total variational loss) $L_{TV}$가 적용됩니다:

Eq. 17: 총 손실 함수$$L_{total} = (1 - \lambda)L_1 + \lambda L_{DSSIM} + L_{TV}$$이 수식은 최종 렌더링 품질을 최적화하기 위한 총 손실 함수를 정의합니다. $L_1$은 렌더링된 이미지와 실제 이미지 간의 색상 차이를 측정하는 색상 손실이고, $L_{DSSIM}$은 구조적 유사성을 평가하는 구조 손실입니다. $L_{TV}$는 총 변동 손실로, 렌더링 결과의 공간적 부드러움을 유지하여 노이즈를 억제하는 역할을 합니다. $\lambda$는 두 손실 항의 가중치를 조절하는 하이퍼파라미터입니다.

여기서 $L_1$과 $L_{DSSIM}$ 사이의 가중치를 조절하는 $\lambda$는 0.2로 설정됩니다.

5.2 Applications: Streaming (응용: 스트리밍)

그래픽 응용 분야에서 NeHaD의 실용성을 평가하기 위해, 우리는 VR 요구사항을 위한 적응형 스트리밍으로 확장했습니다. 이는 대역폭이 제한된 환경에서 어려운 과제입니다.

우리는 두 가지 개선 사항을 통해 NeHaD를 스트리밍에 적용했습니다: (a) 효율적인 다중 레벨 텍스처 샘플링을 위한 스케일 인식 비등방성 밉매핑(scale-aware anisotropic MipMapping), 그리고 (b) 전역 상세 수준(LOD) 렌더링을 위한 계층적 점진적 최적화(layered progressive optimization)입니다.

스트리밍 방법론에 대한 더 자세한 내용은 부록에 요약되어 있습니다.

적응형 스트리밍에 대한 정성적 결과는 Fig. 3에 나와 있습니다.

5.3 Experimental Results (실험 결과)

우리는 세 가지 데이터셋에서 NeHaD를 최신 모델들과 비교합니다: 합성 데이터셋인 D-NeRF, 단안4 실제 환경 데이터셋인 HyperNeRF, 그리고 다중 시점 실제 환경 데이터셋인 DyNeRF입니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; subgraph NeHaD 확장 A[NeHaD]:::core --> B{적응형 스트리밍 적용}:::idea B --> C[스케일 인식 비등방성 밉매핑]:::pros B --> D[계층적 점진적 최적화]:::pros end

핵심 콕콕

• 전체 손실 함수는 색상(L1), 구조(DSSIM), 총 변동(TV) 손실을 결합하여 사용합니다.
• NeHaD는 VR과 같은 대역폭 제한 환경을 위해 적응형 스트리밍 기능으로 확장될 수 있습니다.
• 스트리밍 기능은 '스케일 인식 비등방성 밉매핑'과 '계층적 점진적 최적화'라는 두 가지 기술을 통해 구현됩니다.
• 모델의 성능은 합성(D-NeRF), 단안 실제(HyperNeRF), 다중 시점 실제(DyNeRF) 데이터셋에서 평가됩니다.

구현 힌트

총 손실 함수를 구현할 때, 논문에서 제안한 대로 색상 손실(L1)과 구조 손실(DSSIM)의 가중치 λ를 0.2로 설정하여 시작해보세요. 이 값은 픽셀 단위의 정확성과 이미지의 전반적인 구조적 품질 사이의 균형을 맞추는 좋은 출발점입니다.

셀프 테스트

[O/X] NeHaD의 총 손실 함수는 렌더링된 이미지와 실제 이미지의 색상 차이만을 고려하여 최적화된다.

정답 보기

정답: X
해설: 색상 손실(L1) 외에도 구조적 유사성(DSSIM)과 렌더링 결과의 부드러움을 위한 총 변동(TV) 손실을 함께 사용합니다.

[빈칸] NeHaD를 VR 환경의 적응형 스트리밍에 적용하기 위해 사용된 두 가지 핵심 기술은 ___과/와 계층적 점진적 최적화입니다.

정답 보기

정답: 스케일 인식 비등방성 밉매핑
해설: 이 두 기술은 효율적인 텍스처 샘플링과 상세 수준(LOD) 렌더링을 가능하게 하여 스트리밍을 지원합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

5.3 Experimental Results (실험 결과)

우리는 NeHaD를 합성 데이터셋인 D-NeRF, 단일 시점⁴ 실제 환경 데이터셋인 HyperNeRF, 그리고 다중 시점 실제 환경 데이터셋인 DyNeRF의 세 가지 데이터셋에서 최신 모델들과 비교합니다.

정성적 비교. D-NeRF, HyperNeRF, DyNeRF 데이터셋에 대한 정성적 결과는 각각 Fig. 5, Fig. 6, Fig. 7, Fig. 8에 나와 있습니다. 우리의 방법은 시각적 인식에서 베이스라인 모델들을 지속적으로 능가하며, 일관된 동적 모션을 가진 사실적인 렌더링을 제공합니다.

정량적 비교. 정량적 결과는 Tab. 1에 요약되어 있습니다. NeHaD는 모든 품질 평가 지표에서 최신 방법들을 능가합니다. 실제 환경 장면에서 Li/2023/Fast Dynamic Scene Rendering과 같은 가장 효율적인 방법들의 렌더링 속도와는 맞먹지 않지만, NeHaD는 20 FPS 이상을 유지하며, 이는 향상된 시각적 품질을 고려할 때 수용 가능한 수준입니다.

⁴ 여기서 단일 시점(Monocular)은 특정 시간에 하나의 시점만 가진다는 것을 의미합니다.

5.4 Ablation Study (어블레이션 연구)

우리는 합성 D-NeRF 데이터셋에 대해 어블레이션 연구를 수행합니다. Tab. 2와 Fig. 4는 우리의 어블레이션 결과를 보여주며, 정량적 및 정성적 평가 모두 NeHaD에서 제안된 각 모듈의 효과성을 확인시켜 줍니다.

해밀토니안 신경망 디코더의 어블레이션. HNN 디코더가 없는 베이스라인은 낮은 순위(low-rank) 가정과 부적절한 동역학 모델링으로 인해 흐릿하고 과도하게 평활화된 렌더링 결과를 생성합니다. 상세히 살펴보면 가우시안 프리미티브들이 표면에 불규칙하게 위치하는데, 이는 변형 필드가 비지도 모션 학습을 위한 물리 기반 귀납적 편향이 부족함을 나타냅니다. HNN 디코더를 통합하면 베이스라인에 비해 시각적 품질 지표가 약 6.7% 개선됩니다.

볼츠만 평형 분해의 어블레이션. 정적 가우시안과 동적 가우시안을 분리하는 BED 없이는, 렌더링 결과가 혼합된 텍스처를 가진 움직임 영역에서 눈에 띄는 아티팩트를 보이며 품질 지표를 크게 저하시킵니다.

물리 정보 제약의 어블레이션. 정량적 결과는 물리적 제약의 효과성을 확인시켜 줍니다. Wu/2024/4DGS의 연구 결과와 유사하게, 위치 변형이 전체 가우시안 변형에 가장 크게 기여하며, 이의 물리 정규화는 움직임 궤적의 모호성을 줄이는 가이던스를 제공합니다. 한편, 회전에 대한 지역적 강성 정규화는 제한된 회전 크기를 통해 움직임 안정성을 향상시킵니다.

쪽집게 과외

핵심 콕콕

• NeHaD는 D-NeRF, HyperNeRF, DyNeRF 데이터셋에서 기존 최신(SOTA) 모델들보다 PSNR, SSIM 등 모든 정량적 품질 지표에서 우수한 성능을 보였습니다.
• 렌더링 속도는 최고 수준은 아니지만, 향상된 시각적 품질을 고려할 때 실시간으로 사용 가능한 수준인 20 FPS 이상을 유지합니다.
• 어블레이션 연구(Ablation Study)를 통해 제안된 각 구성요소의 중요성이 입증되었습니다.
• 해밀토니안 신경망(HNN) 디코더는 물리 법칙을 학습하여 흐릿함과 과도한 평활화를 방지합니다.
• 볼츠만 평형 분해(BED)는 정적/동적 가우시안을 효과적으로 분리하여 렌더링 아티팩트를 줄입니다.
• 물리 정보 제약(PIC)은 움직임의 모호성을 줄이고 안정성을 높이는 데 기여합니다.

셀프 테스트

[O/X] NeHaD는 렌더링 품질뿐만 아니라 속도 면에서도 현존하는 모든 동적 장면 렌더링 기술 중 가장 빠르다.

정답 보기

정답: X
해설: 본문에서는 NeHaD가 가장 효율적인 방법들의 렌더링 속도와는 맞먹지 않지만, 향상된 품질을 고려할 때 수용 가능한 수준(20 FPS 이상)을 유지한다고 명시하고 있습니다.

[빈칸] 어블레이션 연구에 따르면, [___]을(를) 제거하면 정적 가우시안과 동적 가우시안이 제대로 분리되지 않아 움직임 영역에서 눈에 띄는 아티팩트가 발생한다.

정답 보기

정답: 볼츠만 평형 분해 (BED)
해설: 볼츠만 평형 분해(Boltzmann Equilibrium Decomposition)는 에너지 상태에 따라 정적/동적 가우시안을 분리하여 불필요한 변형을 막고 렌더링 품질을 높이는 역할을 합니다.

[서술형] NeHaD의 어블레이션 연구에서 '해밀토니안 신경망(HNN) 디코더'를 사용하지 않은 베이스라인 모델이 왜 흐릿하고 과도하게 평활화된 결과를 생성하는지 본문에 근거하여 설명하시오.

정답 보기

모범답안: HNN 디코더가 없는 베이스라인 모델은 물리 기반의 귀납적 편향이 부족하기 때문입니다. 구체적으로, (1) 낮은 순위(low-rank) 가정과 (2) 부적절한 동역학 모델링으로 인해 변형 필드가 물리적으로 타당한 움직임을 학습하지 못하고, 이로 인해 가우시안들이 표면에 불규칙하게 위치하여 결과적으로 흐릿하고 과도하게 평활화된 렌더링을 생성하게 됩니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

5.4 Ablation Study (절제 연구)

우리는 합성 D-NeRF 데이터셋에 대해 절제 연구를 수행합니다. 표 2와 그림 4는 우리의 절제 연구 결과를 보여주며, 정량적 및 정성적 평가 모두 NeHaD의 각 제안 모듈의 효과성을 확인시켜 줍니다.

해밀토니안 신경망 디코더의 절제. HNN 디코더가 없는 베이스라인은 흐릿하고 과도하게 평활화된 렌더링 결과를 생성하는데, 이는 아마도 낮은 순위 가정과 부적절한 동역학 모델링 때문일 것입니다. 자세히 살펴보면 가우시안 프리미티브가 표면에 불규칙하게 위치하는 것을 볼 수 있는데, 이는 변형 필드에 비지도 동작 학습을 위한 물리 기반 귀납적 편향이 부족하다는 것을 나타냅니다. HNN 디코더를 통합하면 베이스라인에 비해 시각적 품질 지표가 약 6.7% 향상됩니다.

볼츠만 평형 분해의 절제. 정적 가우시안과 동적 가우시안을 분리하는 BED가 없으면, 렌더링 결과는 혼합된 텍스처가 있는 동작 영역에서 눈에 띄는 아티팩트를 보이며, 이는 품질 지표를 크게 감소시킵니다.

물리 정보 제약의 절제. 정량적 결과는 물리적 제약의 효과성을 확인시켜 줍니다. Wu et al./2024/4DGS의 연구 결과와 유사하게, 위치 변형이 전체 가우시안 변형에 가장 크게 기여하며, 이의 물리 정규화는 동작 궤적의 모호성을 줄이는 지침을 제공합니다. 한편, 회전에 대한 지역적 강성 정규화는 제한된 회전 크기를 통해 동작 안정성을 향상시킵니다.

6 Conclusion (결론)

쪽집게 과외

핵심 콕콕

• HNN 디코더는 저품질 렌더링(흐림, 과도한 평활화)을 방지하는 핵심 요소이며, 시각적 품질을 약 6.7% 향상시킵니다.
• 볼츠만 평형 분해(BED)는 정적/동적 가우시안을 분리하여 움직임이 있는 영역의 시각적 아티팩트를 제거하는 데 필수적입니다.
• 물리 정보 제약(PIC)은 위치 변형의 모호성을 줄이고 회전의 안정성을 높여 전반적인 동역학의 현실성을 높입니다.

셀프 테스트

[O/X]

정답 보기

NeHaD에서 HNN 디코더를 제거해도 렌더링 품질에는 거의 영향이 없다.
정답: X
해설: HNN 디코더가 없으면 베이스라인 모델은 흐릿하고 과도하게 평활화된 결과를 생성하며, HNN을 추가하면 시각적 품질 지표가 약 6.7% 향상됩니다.

[빈칸]

정답 보기

정적 가우시안과 동적 가우시안을 분리하여 동작 영역의 아티팩트를 줄이는 모듈은 [___]이다.
정답: 볼츠만 평형 분해 (BED)
해설: BED는 정적 영역과 동적 영역을 구분하여 불필요한 변형을 막고 렌더링 품질을 높이는 역할을 합니다.

[서술형]

정답 보기

NeHaD의 물리 정보 제약(Physics-Informed Constraints)이 위치(position)와 회전(rotation) 동역학에 각각 어떤 긍정적 영향을 미치는지 설명하시오.
모범답안: 위치 동역학에 대해서는 물리 정규화가 동작 궤적의 모호성을 줄여주는 가이드 역할을 합니다. 회전 동역학에 대해서는 지역적 강성 정규화가 회전 크기를 제한하여 동작의 안정성을 향상시킵니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6 Conclusion (결론)

본 논문에서는 해밀턴 역학에 의해 제어되는 동적 가우시안 스플래팅을 위한 신경 변형 필드인 NeHaD를 소개합니다.

저희 방법은 볼츠만 평형 분해를 사용하여 4D 시공간 표현을 분해하고, HNN 기반 디코더를 사용하여 장면 섭동에 대한 강건함을 보장하는 물리 정보 제약 조건으로 가우시안 변형을 예측합니다.

이 접근 방식은 최소한의 수정으로 대역폭이 제한된 스트리밍 애플리케이션으로 자연스럽게 확장됩니다.

광범위한 실험을 통해 저희 방법이 개선된 렌더링 현실성을 달성함을 입증합니다.

한계점. 개선이 이루어졌지만, 저희 방법에는 한계점도 있습니다.

첫째, 실제 장면에 대한 특화된 정규화는 특히 폐색, 큰 에너지 소산 또는 유체 변형 하에서 실제 동역학과 충돌할 수 있습니다.

둘째, 해밀토니안을 학습하는 것은 추가적인 계산 오버헤드를 발생시켜 실시간 렌더링 성능을 저하시킵니다.

향후 연구에서는 더 유연한 신경 연산자와 효율적인 렌더링 파이프라인을 탐색할 수 있을 것입니다.

쪽집게 과외

핵심 콕콕

• NeHaD는 해밀턴 역학을 동적 가우시안 스플래팅에 적용하여 물리적으로 더 타당한 렌더링을 구현합니다.
• 볼츠만 평형 분해를 통해 정적/동적 가우시안을 에너지 상태에 따라 지능적으로 분리합니다.
• 물리 정보 제약 조건을 활용하여 변형의 안정성과 강건성을 높입니다.
• 주요 한계점으로는 복잡한 실제 환경(폐색, 유체 등)에서의 정규화 충돌 가능성과 해밀토니안 학습으로 인한 계산 오버헤드 증가가 있습니다.

셀프 테스트

[O/X] NeHaD는 물리 법칙을 무시하고 순수 데이터 기반으로만 변형을 학습하여 렌더링 속도를 극대화하는 방법이다.

정답 보기

정답: X
해설: NeHaD는 해밀턴 역학이라는 물리 법칙을 핵심 원리로 사용하여, 물리적으로 타당하고 자연스러운 변형을 학습하는 것을 목표로 합니다. 이로 인해 계산 오버헤드가 발생하여 속도는 다소 저하될 수 있습니다.

[빈칸] NeHaD가 정적 가우시안과 동적 가우시안을 에너지 상태에 기반하여 적응적으로 분리하기 위해 사용하는 메커니즘은 '___'이다.

정답 보기

정답: 볼츠만 평형 분해 (Boltzmann equilibrium decomposition)
해설: 볼츠만 평형 분해는 각 가우시안 프리미티브가 평형 상태에서 얼마나 벗어났는지를 에너지로 측정하여, 동적으로 변형시킬 필요가 있는 프리미티브를 선별하는 역할을 합니다.

[서술형] NeHaD의 주요 한계점 두 가지를 설명하고, 이것이 어떤 실제 적용 시나리오에서 문제가 될 수 있는지 논하시오.

정답 보기

모범답안: NeHaD의 주요 한계점은 첫째, 특화된 정규화가 실제 동역학과 충돌할 수 있다는 점과 둘째, 해밀토니안 학습으로 인한 추가적인 계산 오버헤드입니다. 첫 번째 한계점은 가려짐이 많거나, 마찰 같은 에너지 소산이 크거나, 연기나 물과 같은 유체 변형이 있는 복잡한 실제 장면을 렌더링할 때 문제가 될 수 있습니다. 모델의 물리적 가정이 실제 현상과 달라 렌더링 결과물이 부자연스러워질 수 있습니다. 두 번째 한계점은 실시간 상호작용이 필수적인 VR/AR 애플리케이션이나 모바일 환경에서 프레임 속도 저하를 유발하여 사용자 경험을 해칠 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Figures And Tables

Fig 1: 제안된 방법은 해밀토니안 역학을 사용하여 동적 가우시안 스플래팅을 개선함으로써 렌더링 품질과 움직임 일관성을 향상시킵니다. (a) 인간의 인지 과정. (b) 장면 렌더링 과정. (c) 두 과정 모두 물리 법칙을 따르며, 해밀토니안 역학은 물리적 직관과 일치하는 수학적 프레임워크를 제공합니다. (d) 저희 방법은 해밀토니안 역학을 동적 가우시안 스플래팅에 물리적 사전 정보로 통합하여 렌더링 현실성을 개선합니다 (4. 다른 색상은 다른 변형을 나타내며, 저희 방법은 구조적 클러스터를 유지하면서 겹침을 줄입니다).

Fig 2: NeHaD의 전체 파이프라인. (왼쪽에서 오른쪽으로) MLP 베이스라인을 가진 HNN은 데이터로부터 보존 법칙을 학습합니다. 해밀토니안 그래디언트의 역전파를 통해 HNN은 벡터 필드를 최적화하고 어댑터를 통해 가우시안 변형(위치, 스케일링, 회전)을 예측합니다. 볼츠만 평형 분해는 소프트 마스크를 사용하여 어떤 프리미티브가 변형되지 않아야 하는지를 결정합니다. 즉, 평형에서 벗어나는 편차가 작을수록 변형 중에 정적인 상태를 유지합니다. 심플렉틱 적분 및 강성 정규화를 포함한 물리 기반 제약 조건은 시스템 속성을 보존하는 데 사용됩니다.

Table 1: 정량적 결과. 각 데이터셋의 모든 장면에 대한 평균 지표입니다. 최고 및 차선 결과는 각각 굵은 글씨와 밑줄로 표시됩니다.

Table 1: NeHaD는 모든 품질 평가 지표에서 최신 기술들을 능가합니다. 실제 환경에서 Li et al. 2023과 같은 가장 효율적인 방법들의 렌더링 속도에는 미치지 못하지만,

Fig 3: 적응형 스트리밍의 정성적 결과. NeHaD는 다양한 할당 속도에 걸쳐 점진적 스트리밍에 효과적으로 적응합니다.

Table 2: 제거 연구(Ablation study). 합성 데이터셋에서 4DGS [Wu et al. 2024]를 시작점으로 하여 제안된 구성 요소들로 각각 개선합니다.

Fig 4: 제거 연구 시각화. 제안된 모듈들이 없으면 렌더링 결과에 움직임 아티팩트와 시각적 왜곡이 나타납니다. 반면, 완전한 NeHaD 모델은 상당히 높은 품질의 결과를 생성하여 우리 접근법의 효과를 보여줍니다.

Fig 5: 변형 중 가우시안 공간 분포 및 움직임 궤적 시각화. MLP 기반 디코더를 사용하는 베이스라인[Wu et al. 2024]과 비교할 때, 우리의 HNN 기반 접근 방식은 내재적으로 해밀토니안 역학 원리를 존중하여, 단순히 확률적 최적화에 의존하는 대신 더 방향성 있고, 정돈되고, 자연스러운 움직임을 만들어냅니다.

Fig 6: D-NeRF [Pumarola et al. 2021] 데이터셋에 대한 정성적 결과 (N/A: 해당 없음).

Fig 7: HyperNeRF [Park et al. 2021b] 데이터셋에 대한 정성적 결과 (더 나은 비교를 위해 깊이 맵을 시각화함).

Fig 8: DyNeRF [Li et al. 2022] 데이터셋에 대한 정성적 결과 (flame salmon 및 sear steak 장면).