PhySIC - Paper Library

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4.3.2 Contact Estimation (접촉 추정)

그림 4에서 접촉 추정 방법인 DECO [Tripathi/2023/DECO]와의 비교 예시를 보여줍니다.

우리의 공동 최적화는 DECO로부터의 접촉 추정에 의해 가이드되는데, 이는 노이즈가 있을 수 있습니다.

하지만, 우리의 접근 방식은 정확한 인간-장면 상호작용을 강건하게 복구하고 접촉을 더욱 개선하며, 특히 발과 팔과 같은 복잡한 신체 부위에서 뛰어난 성능을 보입니다.

추가적인 예시는 그림 6에서 찾아볼 수 있습니다.

쪽집게 과외

핵심 콕콕

• PhySIC은 기존 접촉 추정 방법(DECO)의 결과를 초기 가이드로 활용합니다.
• DECO의 예측은 노이즈가 있을 수 있지만, PhySIC의 공동 최적화 과정이 이를 강건하게 개선합니다.
• 특히 발이나 팔처럼 복잡하고 미묘한 신체 부위의 접촉 정확도를 향상시켜 더 사실적인 상호작용을 복원합니다.

셀프 테스트

[O/X] PhySIC은 DECO의 접촉 추정 결과를 그대로 최종 결과물로 사용한다.

정답 보기

정답: X
해설: PhySIC은 DECO의 추정치를 초기 가이드로 사용하지만, 노이즈가 있을 수 있다는 점을 인지하고 자체적인 공동 최적화 과정을 통해 이를 개선하여 더 정확한 최종 접촉 결과를 만들어냅니다.

[빈칸] PhySIC의 ___ 과정은 DECO의 노이즈 섞인 초기 접촉 추정치를 개선하여, 발이나 팔과 같은 복잡한 부위의 상호작용을 더 정확하게 복원한다.

정답 보기

정답: 공동 최적화
해설: 본문에서는 공동 최적화(joint optimization)가 DECO의 노이즈를 극복하고 더 정확한 상호작용을 복구하는 핵심적인 역할을 한다고 설명합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

0. Abstract (초록)

단일 이미지로부터 미터 단위로 정확한 인간과 주변 장면을 재구성하는 것은 가상 현실, 로보틱스, 그리고 포괄적인 3D 장면 이해에 매우 중요합니다.

하지만 기존 방법들은 깊이 모호성, 가려짐(occlusion), 그리고 물리적으로 일관되지 않은 접촉 문제로 어려움을 겪습니다.

이러한 문제들을 해결하기 위해, 우리는 물리적으로 그럴듯한 인간-장면 상호작용 및 접촉 재구성을 위한 통합 프레임워크인 PhySIC을 소개합니다.

PhySIC은 단일 RGB 이미지로부터 공유된 좌표계 내에서 미터 단위로 일관된 SMPL-X 인간 메시, 밀도 높은 장면 표면, 그리고 정점 수준의 접촉 맵을 복원합니다.

개략적인 단안 깊이 및 파라메트릭 신체 추정치에서 시작하여, PhySIC은 가려짐을 인지하는 인페인팅을 수행하고, 가시 깊이와 스케일이 없는 기하학 정보를 융합하여 견고한 초기 미터 단위 장면 골격을 만들며, 바닥과 같이 누락된 지지 표면을 합성합니다.

이후 신뢰도 가중 최적화는 깊이 정렬, 접촉 사전 정보, 상호 관통 방지, 2D 재투영 일관성을 공동으로 강제함으로써 신체 포즈, 카메라 파라미터, 전역 스케일을 정교화합니다.

명시적인 가려짐 마스킹은 보이지 않는 신체 부위가 비현실적인 형태로 구성되는 것을 방지합니다.

PhySIC은 매우 효율적이어서, 공동 인간-장면 최적화에 단 9초, 전체 종단 간 재구성 과정에 27초 미만이 소요됩니다.

더욱이, 이 프레임워크는 자연스럽게 여러 명의 인간을 처리하여 다양한 인간-장면 상호작용의 재구성을 가능하게 합니다.

경험적으로, PhySIC은 단일 이미지 기반 모델들을 상당히 능가하며, 평균 정점별 장면 오차를 641mm에서 227mm로 줄이고, 포즈 정렬된 평균 관절 위치 오차(PA-MPJPE)를 42mm로 절반으로 줄이며, 접촉 F1-점수를 0.09에서 0.51로 향상시킵니다.

정성적 결과는 PhySIC이 현실적인 발-바닥 상호작용, 자연스러운 착석 자세, 그리고 심하게 가려진 가구의 그럴듯한 재구성을 산출함을 보여줍니다.

단일 이미지를 물리적으로 그럴듯한 3D 인간-장면 쌍으로 변환함으로써, PhySIC은 접근성 있고 확장 가능한 3D 장면 이해를 발전시킵니다.

저희 구현물은 https://yuxuan-xue.com/physic 에서 공개적으로 이용 가능합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef idea fill:#E8D2E5; classDef warn fill:#FFD3C2; classDef pros fill:#D0F1B9; subgraph PhySIC 파이프라인 A[단일 RGB 이미지 입력] --> B{초기 추정}; B --> C[가려짐 인지 인페인팅]:::idea; C --> D[깊이와 기하학 정보 융합]:::idea; D --> E[미터 스케일 장면 골격 생성]; E --> F[바닥 등 지지면 합성]; F --> G[공동 최적화 수행]:::core; G -- 제약조건 --> H[ - 깊이 정렬 - 접촉 사전 정보 - 상호 관통 방지 - 2D 재투영 일관성 ]; G --> I[물리적으로 그럴듯한 3D 인간-장면 쌍]:::pros; end subgraph 기존 방법의 한계 Z[기존 방법] --> W1[깊이 모호성]:::warn; Z --> W2[가려짐 문제]:::warn; Z --> W3[물리적으로 부정확한 접촉]:::warn; end

핵심 콕콕

• PhySIC의 목표: 단일 이미지로부터 물리적으로 그럴듯한 3D 인간-장면 상호작용을 재구성합니다.
• 해결 과제: 기존 방법들의 깊이 모호성, 가려짐, 비일관적 접촉 문제를 해결합니다.
• 핵심 기술: 가려짐을 인지하는 인페인팅과, 깊이/접촉/관통 방지/재투영 등 다양한 제약 조건을 동시에 만족시키는 공동 최적화(joint optimization)를 사용합니다.
• 주요 성과: 기존 단일 이미지 기반 모델들보다 인간 포즈 정확도(PA-MPJPE), 장면 오차, 접촉 F1-점수 등 모든 면에서 성능이 크게 향상되었습니다.
• 실용성: 27초 미만의 빠른 처리 속도를 가지며, 여러 명의 인간이 있는 장면도 자연스럽게 처리할 수 있습니다.

쉬운 비유

인간-장면 공동 최적화f>를 쉽게 비유해볼게요.

- 두 사람이 각자 맡은 퍼즐 조각을 맞추는 것과 같아요. 한 사람은 '인간' 모양 퍼즐을, 다른 한 사람은 '배경' 퍼즐을 가지고 있죠. 각자 자기 것만 보고 맞추면, 나중에 두 퍼즐을 합칠 때 서로 어긋나거나 겹쳐버릴 수 있어요.

- PhySIC은 두 사람이 서로의 퍼즐 조각을 계속 확인하며 함께 맞추도록 돕는 '조력자' 역할을 해요. "인간의 발이 바닥 퍼즐과 딱 붙어야 해(접촉)", "의자 퍼즐을 뚫고 앉으면 안 돼(관통 방지)" 와 같은 규칙을 알려주면서, 두 퍼즐이 완벽하게 하나의 그림으로 합쳐지도록 동시에 조율하는 과정이 바로 공동 최적화입니다.

셀프 테스트

[O/X] PhySIC은 3D 장면을 재구성하기 위해 여러 각도에서 촬영된 이미지가 반드시 필요하다.

정답 보기

정답: X
해설: PhySIC의 핵심 장점은 '단일(single)' RGB 이미지 한 장만으로 인간과 장면을 동시에 재구성할 수 있다는 점입니다.

[빈칸] PhySIC이 해결하고자 하는 기존 방법들의 주요 한계점 3가지는 ___, ___, 그리고 물리적으로 일관되지 않은 접촉이다.

정답 보기

정답: 깊이 모호성, 가려짐(occlusions)
해설: 초록의 두 번째 문장에서 이 세 가지를 기존 방법의 주요 문제점으로 명시하고 있습니다.

[서술형] PhySIC이 물리적으로 그럴듯한(physically plausible) 결과를 생성하기 위해 공동 최적화 과정에서 적용하는 핵심 제약 조건(constraints)들은 무엇인가요?

정답 보기

모범답안: 깊이 정렬(depth alignment), 접촉 사전 정보(contact priors), 상호 관통 방지(interpenetration avoidance), 2D 재투영 일관성(2D reprojection consistency)을 공동으로 강제하여 신체 포즈, 카메라 파라미터, 전역 스케일을 정교화합니다. 이를 통해 인간과 장면이 물리적으로 일관된 상호작용을 하도록 만듭니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

1. Introduction (서론)

인간과 주변 환경에 대한 총체적인 3D 이해는 체화된 AI, 스포츠 분석, 증강 현실과 같은 신흥 기술에 필수적입니다. 이러한 응용 프로그램들은 정밀한 장면 지오메트리, 장면 내 인간의 정확한 위치 파악, 그리고 일관성 있는 지면 접촉 추정을 요구합니다. 하지만 기존의 방법들은 보통 인간이 없는 정적 장면만을 고려하거나(Chen/2019/Scene Reconstruction), 주어진 3D 장면을 가정한 상태에서 인간의 포즈 추정만을 다룹니다(Hassan/2019a/PROX). 최근의 방법인 HolisticMesh(Weng/2021/HolisticMesh)는 단일 RGB 이미지로부터 장면과 인간을 모두 예측할 수 있습니다. 그럼에도 불구하고, 이 방법은 특정 실내 가구 카테고리와 상호작용하는 단일 인간에 국한되어 있어, 임의의 장면 유형으로 확장되지 못합니다. HSR(Xue/2024/HSR)이나 HSfM(Müller/2024/HSfM)과 같은 더 최근의 접근 방식들은 총체적인 인간-장면 재구성을 달성하지만, 각각 비디오 입력이나 다중 시점 이미지를 필요로 하여 단일 이미지 시나리오에 대한 적용성을 제한합니다.

그러나 다양한 장면 유형과 장면에 상호작용하는 임의의 수의 인간을 처리할 수 있는 일반적인 방법을 갖는 것은 매우 어려운 일입니다. 모델은 서로 다른 장면 지오메트리, 깊이-스케일 모호성 하에서의 복잡한 인간-장면 접촉, 인간 포즈와 장면 지오메트리 양쪽에 대한 가려짐(occlusion)을 모두 단일 RGB 이미지로부터 추론해야 하며, 동시에 실제적인 응용을 위해 빨라야 합니다.

이러한 문제들을 해결하기 위한 우리의 아이디어는 파운데이션 모델로부터의 강력한 지오메트리 사전 지식을 활용하여 인간과 장면에 대해 동시에 추론하는 것입니다. 상호작용 동안, 장면은 가능한 인간의 포즈를 물리적으로 제한하고, 인간의 포즈는 장면 지오메트리와 스케일을 추정하는 데 결정적인 단서를 제공합니다. 이러한 관찰에 기반하여, 우리는 단일 RGB 이미지로부터 물리적으로 그럴듯한 인간-장면 상호작용 및 접촉을 재구성하는 PhySIC을 제안합니다. 거친 단안 깊이와 초기 파라메트릭 신체 추정치에서 시작하여, 우리 방법은 신뢰할 수 있는 깊이 정렬, 현실적인 접촉 유도, 상호 침투 방지, 그리고 2D 재투영 일관성을 조화시키는 목적 함수를 통해 이러한 구성 요소들을 공동으로 최적화하여, 일관성 있는 3D 인간-장면 재구성을 만들어냅니다. 본질적으로, PhySIC은 단일 RGB 이미지를 (i) 미터 스케일의 SMPL-X 인간 메시, (ii) 조밀한 표면과 바닥과 같은 필수 지지 구조를 포함하는 포괄적인 장면 표현, 그리고 (iii) 공유된 미터 좌표계 내의 정점 수준의 조밀한 접촉 맵으로 변환합니다. 우리 프레임워크는 매우 효율적이며 27초 이내에 하나의 이미지를 처리할 수 있어, 일상의 이미지들을 물리적으로 일관된 3D 인간-장면 쌍으로 변환하는 것을 가능하게 합니다. 이는 확장 가능한 단일 이미지 3D 이해의 길을 엽니다.

우리는 PROX(Hassan/2019a/PROX)와 RICH(Huang/2022/RICH) 데이터셋에서 PhySIC을 평가했습니다. 결과는 우리 방법이 이전 SOTA인 HolisticMesh(Weng/2021/HolisticMesh)를 상당히 능가함을 보여줍니다: PROX 데이터셋에서 우리 방법은 인간 포즈의 평균 관절 오차를 77mm에서 42mm로, 접촉 F1 점수를 0.39에서 0.51로 개선했습니다. 다양한 인터넷 이미지에 대한 실험은 다양한 상호작용 및 장면 유형에 대한 우리 접근 방식의 뛰어난 적용 가능성을 입증합니다. 우리의 기여는 다음과 같이 요약됩니다:

• 우리는 다수의 인간, 다양한 장면 및 상호작용 유형을 처리할 수 있는 최초의 미터 스케일 인간-장면 재구성 방법인 PhySIC을 제안합니다.

• 우리는 강건한 초기화 전략과 가려짐을 인지하는 공동 최적화를 도입하여, 인간 장면 재구성을 위한 귀중한 통찰력을 제공합니다.

• 우리의 매우 효율적인 재구성 파이프라인은 공개될 예정이며, 인간 장면 재구성 및 상호작용 데이터 수집을 대중화할 것입니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef warn fill:#FFD3C2; classDef pros fill:#D0F1B9; A[단일 이미지 입력] --> B{3D 인간-장면 재구성 문제}; B --> C[기존 방법들의 한계]:::warn; C --> D["비디오/다중 시점 필요"]; C --> E["특정 장면에만 국한"]; C --> F["물리적 타당성 부족"]; B --> G[PhySIC 제안]:::core; G --> H[인간과 장면 동시 최적화]:::pros; H --> I[물리적으로 타당한 3D 재구성 결과]:::pros;

핵심 콕콕

• 문제 정의: 단일 이미지로부터 물리적으로 타당한 3D 인간-장면 상호작용을 재구성하는 것은 깊이 모호성, 가려짐(occlusion) 등으로 인해 매우 어려운 문제입니다.
• 기존 연구의 한계: 기존 방법들은 비디오나 다중 시점 이미지를 요구하거나, 특정 실내 환경으로 제한되는 등 단일 이미지에 대한 일반적인 해결책을 제공하지 못했습니다.
• 제안 방법(PhySIC): 인간과 장면을 분리하지 않고, 둘 사이의 물리적 제약 조건을 활용하여 '공동으로 최적화'하는 새로운 프레임워크를 제안합니다.
• 핵심 기여: 1) 다수의 사람과 다양한 장면 유형 처리 가능, 2) 가려짐을 고려한 강건한 최적화, 3) 27초 미만의 빠른 처리 속도를 달성하여 실용성을 높였습니다.

쉬운 비유

인간과 장면의 동시 추론f>을 쉽게 비유해볼게요.

- 직소 퍼즐 맞추기: 사람 그림이 있는 중요한 퍼즐 조각 하나와 그 주변 배경 조각들이 사라진 상황을 상상해보세요. 우리는 사라진 조각(사람의 포즈)의 정확한 모양도, 그 주변 배경(장면)의 그림도 모릅니다.

- 단서 활용: 하지만 우리는 두 가지 단서를 동시에 활용할 수 있습니다. 첫째, 주변 배경 조각들의 빈 공간 모양(장면의 제약)이 사라진 조각의 테두리 모양을 알려줍니다. 둘째, 사라진 조각의 사람 그림(포즈)은 주변 배경 그림과 자연스럽게 이어져야 합니다.

- 동시 해결: PhySIC은 이처럼 사람의 포즈와 주변 장면 정보를 따로따로 보지 않고, 서로가 서로에게 주는 힌트를 동시에 고려하여 양쪽 모두를 가장 그럴듯하게 맞춰나가는 방식입니다.

셀프 테스트

[O/X] PhySIC은 3D 인간-장면 재구성을 위해 비디오 입력이 필수적이다.

정답 보기

정답: X
해설: PhySIC은 비디오나 다중 시점 이미지를 요구했던 기존 방법들의 한계를 극복하고, 단 하나의 RGB 이미지로부터 재구성을 수행하는 것을 목표로 합니다.

[빈칸] PhySIC은 인간과 장면에 대한 정보를 분리해서 처리하지 않고, 신뢰할 수 있는 깊이 정렬, 현실적인 접촉 유도, 상호 침투 방지 등을 통해 두 요소를 ___으로 최적화한다.

정답 보기

정답: 공동
해설: PhySIC의 핵심 아이디어는 인간과 장면이 서로를 물리적으로 제약한다는 관찰에 기반하여, 두 요소를 함께 고려하여 최적의 해를 찾는 것입니다.

[서술형] PhySIC이 기존의 단일 이미지 기반 인간-장면 재구성 방법인 HolisticMesh와 비교하여 갖는 주요 차별점과 장점은 무엇인가요?

정답 보기

모범답안: HolisticMesh는 특정 실내 가구 카테고리와 상호작용하는 단일 인간에 국한되는 한계가 있습니다. 반면 PhySIC은 다수의 인간을 처리할 수 있으며, 실내외를 포함한 훨씬 다양한 장면과 상호작용 유형으로 확장 가능하여 뛰어난 일반화 성능과 적용 가능성을 보입니다. 이는 PROX 데이터셋에서 F1 점수를 0.39에서 0.51로 크게 향상시킨 결과로도 입증됩니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Single View To 3D Human (단일 시점 3D 인체)

단안 이미지로부터 3D 인체의 형태와 포즈를 재구성하는 것은 상당한 발전을 이루어 왔으며, 특히 SMPL Loper et al./2015/SMPL과 손과 얼굴을 포함한 표현력 있는 전신 추정을 가능하게 하는 그 확장판인 SMPL-X Pavlakos et al./2019/SMPL-X와 같은 파라메트릭 모델에서 두드러졌습니다.

SMPLify Bogo et al./2016/SMPLify와 같은 초기 방법들은 2D 관절 검출에 맞추기 위해 신체 파라미터를 최적화했습니다.

이후 HMR Kanazawa et al./2018/HMR, SPIN Kolotouros et al./2019/SPIN, 그리고 PARE Kocabas et al./2021/PARE를 포함한 딥러닝 방법들은 가려짐과 잘림에 대한 강인성을 향상시키기 위해 종단 간 회귀 및 어텐션 메커니즘을 도입했습니다.

WHAM Shin et al./2024/WHAM과 TRAM Wang et al./2024a/TRAM은 인체 메시 복구를 SLAM 기반 카메라 추적과 결합하여, 단안 비디오로부터 월드 좌표계에서 SMPL 신체의 정확한 전역 위치 파악을 가능하게 합니다.

최근에는 NLF Sárándi and Pons-Moll/2024/NLF와 같은 대규모 학습 기반 모델들이 2,500만 개 이상의 주석이 달린 프레임을 활용하여 단일 이미지로부터 SMPL-X 파라미터와 전역 위치를 직접 회귀하며, 다양한 장면과 포즈에 걸쳐 최첨단 일반화 성능과 정확도를 달성합니다.

이러한 발전에도 불구하고, 기존 방법들은 종종 물리적 상호작용이나 주변 3D 장면과의 일관성에 대한 명시적인 추론이 부족하여, 공중에 떠 있거나, 정렬이 맞지 않거나, 물리적으로 비현실적인 인체 재구성으로 이어집니다.

저희 연구는 재구성된 장면과 명시적으로 일관성을 갖는, 미터 단위로 정렬되고 물리적으로 타당한 인체 복구를 가능하게 함으로써 이러한 문제들을 해결합니다.

2.2 Single View To 3D Scene (단일 시점 3D 장면)

단안 3D 장면 재구성을 위한 초기 방법들은 단일 RGB 이미지로부터 레이아웃, 객체 배치, 메시를 복구하기 위해 기하학적 및 의미론적 사전 지식을 활용했습니다.

이들 중 주목할 만한 것은 방 레이아웃과 객체 포즈를 공동으로 추론하는 Total3D Nie et al./2020/Total3D입니다.

Mesh R-CNN Gkioxari et al./2019/Mesh R-CNN과 MonoScene Cao and de Charette/2022/MonoScene은 객체 중심의 메시 예측과 의미론적 장면 완성을 더욱 발전시켰습니다.

ZoeDepth Bhat et al./2023/ZoeDepth, Metric3D Hu et al./2024/Metric3D, 그리고 DepthPro Bochkovskii et al./2024/DepthPro와 같은 단안 깊이 추정의 최근 혁신들은 대규모 사전 학습과 트랜스포머를 사용하여 선명하고 스케일이 일관된 깊이를 예측하며, 현실적인 미터 단위 포인트 클라우드 추출을 가능하게 합니다.

Gen3DSR Ardelean et al./2025/Gen3DSR은 이러한 추정기들을 기반으로 카테고리별 객체 재구성을 수행하지만, 인체 모델링을 생략하여 물리적 접촉이나 상호작용을 추론할 수 없습니다.

대조적으로, 저희 방법은 최첨단 깊이 추정 기술을 명시적인 인체 모델링과 함께 활용하여, 이전의 객체 또는 장면 중심 접근 방식의 능력을 뛰어넘어 단일 이미지로부터 물리적으로 타당하고 미터 단위로 정렬된 인간-장면 재구성을 가능하게 합니다.

쪽집게 과외

알고리즘

flowchart TD subgraph "2.1 Single View to 3D Human" A[Parametric Models
e.g., SMPL, SMPL-X]:::def B[Early Optimization
e.g., SMPLify]:::ref C[Deep Learning Regression
e.g., HMR, SPIN]:::ref D[Video-based SLAM
e.g., WHAM, TRAM]:::ref E[Large-scale Learning
e.g., NLF]:::ref F[Limitation: Lack of Scene Context]:::warn end subgraph "2.2 Single View to 3D Scene" G[Geometric & Semantic Priors
e.g., Total3D]:::ref H[Object-centric Mesh
e.g., Mesh R-CNN]:::ref I[Metric Depth Estimation
e.g., ZoeDepth, DepthPro]:::sub J[Limitation: Omits Human Modeling]:::warn end subgraph "PhySIC's Contribution" K[Joint Human-Scene Reasoning]:::idea L[Physically Plausible & Metrically Aligned Reconstruction]:::pros end A --> B --> C --> D --> E --> F G --> H --> I --> J F --> K J --> K K --> L classDef def fill:#FEEEB5 classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 classDef pros fill:#D0F1B9

핵심 콕콕

• 3D 인체 재구성: 초기 최적화 방식(SMPLify)에서 시작해, 딥러닝 기반 회귀(HMR, SPIN), SLAM 결합(WHAM), 대규모 학습(NLF)으로 발전했지만, 대부분 주변 환경과의 물리적 상호작용을 고려하지 않는 한계가 있습니다.
• 3D 장면 재구성: 초기 기하학적 접근법에서 객체 중심 메시 예측(Mesh R-CNN)을 거쳐, 최근에는 미터 단위의 정확한 깊이를 추정하는 모델(ZoeDepth, DepthPro)이 등장했지만, 이들은 인체를 모델링하지 않아 상호작용을 분석할 수 없습니다.
• 핵심 문제점: 기존 연구들은 인체나 장면 중 하나에만 집중하여, 재구성된 결과가 서로 정렬되지 않거나 물리적으로 불가능한(예: 공중에 떠 있는 사람) 경우가 많았습니다.
• PhySIC의 목표: 이 논문은 인체와 장면을 '함께' 고려하여, 단일 이미지로부터 미터 단위로 정확하고 물리적으로 타당한 상호작용을 재구성하는 것을 목표로 합니다.

함정 주의

'인체만' 또는 '장면만' 재구성하는 것과 '인체-장면 상호작용'을 재구성하는 것은 다릅니다.
기존 연구들은 각각의 분야(인체 또는 장면)에서는 높은 정확도를 보이지만, 두 요소를 함께 고려하지 않아 물리적 일관성이 떨어지는 문제가 있었습니다. PhySIC은 바로 이 '일관성' 문제를 해결하려는 것입니다.

'상대적 스케일(relative scale)'과 '미터 단위 스케일(metric scale)'을 혼동하지 마세요.
많은 3D 재구성 모델은 결과물의 상대적인 형태만 복원하지만, PhySIC이 목표하는 것은 실제 세계의 크기(미터)와 일치하는 재구성입니다. 이는 물리적 타당성을 위해 필수적입니다.

셀프 테스트

[O/X] 기존의 3D 인체 재구성 방법들은 주변 3D 장면과의 물리적 일관성을 항상 보장한다.

정답 보기

정답: X
해설: 본문(2.1)에 따르면, 기존 방법들은 종종 물리적 상호작용이나 장면과의 일관성에 대한 명시적인 추론이 부족하여 공중에 떠 있거나 정렬이 맞지 않는 결과를 낳는다고 지적합니다.

[빈칸] 최근 단안 깊이 추정 모델들(예: ZoeDepth, DepthPro)은 ___ 단위의 정확한 깊이 예측이 가능하지만, 인체 모델링을 생략하여 물리적 상호작용을 추론할 수 없는 한계가 있다.

정답 보기

정답: 미터 (또는 metric)
해설: 본문(2.2)에서는 이 모델들이 현실적인 '미터 단위(metric)' 포인트 클라우드 추출을 가능하게 한다고 설명합니다.

[서술형] 단일 이미지로부터 3D 인체와 장면을 함께 재구성하는 것이 왜 어려운 문제이며, 기존 연구들이 가진 핵심적인 한계점은 무엇이었는지 설명하시오.

정답 보기

모범답안: 단일 이미지로부터 3D 정보를 복원하는 것은 깊이 모호성(depth ambiguity)과 가려짐(occlusion) 때문에 본질적으로 어렵습니다. 기존 연구들은 이 문제를 인체 재구성과 장면 재성이라는 두 개의 독립적인 문제로 나누어 접근했습니다. 그 결과, 인체 모델은 장면을 고려하지 않아 공중에 뜨거나 벽을 통과하는 등 물리적으로 불가능한 상태로 재구성되고, 장면 모델은 인체를 고려하지 않아 상호작용에 대한 정보를 추론할 수 없었습니다. 즉, 두 결과물 간의 '물리적 일관성'과 '정확한 정렬'이 부족한 것이 핵심 한계점이었습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.1 Single View To 3D Human (단일 시점 3D 인체)

단안 이미지로부터 3D 인체의 모양과 자세를 재구성하는 분야는 상당한 발전을 이루었으며, 특히 SMPL(Loper/2015/SMPL)과 이를 손과 얼굴까지 확장한 SMPL-X(Pavlakos/2019/SMPL-X)와 같은 파라메트릭 모델들이 큰 역할을 했습니다. 이 모델들은 표현력 있는 전신 추정을 가능하게 합니다.

초기 방법인 SMPLify(Bogo/2016/SMPLify)는 2D 관절 감지 결과에 맞춰 신체 파라미터를 최적화했습니다.

이후 HMR(Kanazawa/2018/HMR), SPIN(Kolotouros/2019/SPIN), PARE(Kocabas/2021/PARE)를 포함한 딥러닝 방법들은 종단 간 회귀 및 어텐션 메커니즘을 도입하여 가려짐과 잘림에 대한 강인성을 향상시켰습니다.

WHAM(Shin/2024/WHAM)과 TRAM(Wang/2024a/TRAM)은 인체 메시 복구를 SLAM 기반 카메라 추적과 결합하여, 단안 비디오로부터 월드 좌표계에서 SMPL 신체의 정확한 전역 위치 파악을 가능하게 합니다.

최근에는 NLF(Sárándi/2024/NLF)와 같은 대규모 학습 기반 모델들이 2,500만 개 이상의 주석이 달린 프레임을 활용하여 단일 이미지로부터 SMPL-X 파라미터와 전역 위치를 직접 회귀하며, 다양한 장면과 자세에 걸쳐 최첨단 수준의 일반화 성능과 정확도를 달성했습니다.

이러한 발전에도 불구하고, 기존 방법들은 종종 물리적 상호작용이나 주변 3D 장면에 대한 일관성을 명시적으로 추론하지 못하여, 인체가 공중에 떠 있거나, 잘못 정렬되거나, 물리적으로 불가능한 재구성 결과를 낳습니다.

저희 연구는 재구성된 장면과 명시적으로 일관성을 갖는, 미터 단위로 정렬된 물리적으로 타당한 인체 복구를 가능하게 함으로써 이러한 문제들을 해결합니다.

쪽집게 과외

알고리즘

flowchart TD subgraph 단일 뷰 3D 인체 복원 기술 발전 과정 A[파라메트릭 모델
(SMPL, SMPL-X)]:::ref --> B[최적화 기반
(SMPLify)]:::ref B --> C[딥러닝 회귀 기반
(HMR, SPIN)]:::ref C --> D[비디오 기반 SLAM 결합
(WHAM, TRAM)]:::ref C --> E[대규모 학습 기반
(NLF)]:::ref end subgraph 공통된 한계점 F[물리적 상호작용 및 장면 일관성 부재]:::warn F --> G[부유, 오정렬, 비현실적 결과 초래]:::warn end subgraph 본 논문의 해결책 H[PhySIC: 물리적으로 타당한
인체-장면 상호작용 복원]:::core end E --> F D --> F F --> H classDef ref fill:#EBEBEC classDef warn fill:#FFD3C2 classDef core fill:#FFDBE6

핵심 콕콕

• 3D 인체 복원 기술은 초기 최적화 방식(SMPLify)에서 딥러닝 회귀 방식(HMR, SPIN), 그리고 최근에는 비디오(WHAM)와 대규모 데이터(NLF)를 활용하는 방향으로 발전했습니다.
• SMPL, SMPL-X와 같은 파라메트릭 인체 모델은 이 분야의 핵심적인 기반 기술입니다.
• 기술이 발전하며 가려짐에 대한 강인성, 전역 위치 정확도, 일반화 성능이 크게 향상되었습니다.
• 하지만 기존 연구들은 공통적으로 주변 3D 장면과의 물리적 상호작용을 고려하지 않아, 인체가 공중에 뜨거나 물체를 통과하는 등 비현실적인 결과를 생성하는 한계가 있습니다.

함정 주의

최적화 기반 방식(SMPLify)과 회귀 기반 방식(HMR)을 혼동하지 마세요.
- 최적화 기반 방식은 각 이미지에 대해 2D 관절 같은 증거에 3D 모델을 '맞추는' 반복적인 최적화 과정을 수행합니다. 테스트 시점에 계산량이 많습니다.
- 회귀 기반 방식은 대규모 데이터셋으로 학습된 신경망을 이용해 이미지에서 3D 모델 파라미터를 '한 번에 예측'합니다. 매우 빠르지만 학습 데이터에 없는 자세에는 취약할 수 있습니다.

쉬운 비유

3D 인체 자세 추정 기술의 발전f>을 '사람 그리기'에 비유해볼게요.
- 초기 방법(SMPLify): 관절 위치(2D 증거)를 알려주면, 나무 인형(SMPL 모델)을 조금씩 움직여가며 똑같은 포즈를 힘들게 만들어내는 것과 같아요. 그림 하나하나에 정성이 필요하죠.
- 딥러닝 방법(HMR): 수만 장의 사람 사진을 보고 통달한 화가가 사진 한 장만 보고도 순식간에 3D 입체적인 사람의 모습을 쓱 그려내는 것과 같아요. 빠르고 정확하죠.
- 기존 방법들의 한계: 이 화가들은 사람만 그리는 데 도가 텄을 뿐, 배경은 신경 쓰지 않아요. 그래서 의자에 앉아있는 사람을 그렸는데, 의자를 빼고 보면 사람이 허공에 어색하게 떠 있는 것처럼 보일 수 있습니다.
- PhySIC의 목표: 사람뿐만 아니라 주변의 의자, 바닥까지 함께 고려해서, 누가 봐도 자연스럽게 '의자에 앉아있는' 그림을 완성하는 것입니다.

셀프 테스트

[O/X] SMPLify는 딥러닝을 이용해 인체 파라미터를 한 번에 직접 예측(회귀)하는 방식이다.

정답 보기

정답: X
해설: SMPLify는 2D 관절 감지 결과에 3D 모델을 맞추기 위해 반복적으로 파라미터를 최적화하는 방식입니다. 한 번에 회귀하는 방식은 HMR, SPIN 등입니다.

[빈칸] WHAM, TRAM과 같은 최신 비디오 기반 방법들은 인체 메시 복구를 ___ 기반 카메라 추적 기술과 결합하여 월드 좌표계에서 정확한 전역 위치를 추정한다.

정답 보기

정답: SLAM
해설: SLAM(Simultaneous Localization and Mapping) 기술을 활용하여 비디오 시퀀스에서 카메라의 움직임과 인체의 전역 위치를 동시에 추정합니다.

[서술형] 기존 단일 이미지 3D 인체 복원 방법들이 가진 가장 큰 한계점은 무엇이며, 이로 인해 어떤 문제들이 발생하는지 설명하시오.

정답 보기

모범답안: 가장 큰 한계점은 주변 3D 장면과의 물리적 상호작용이나 일관성을 명시적으로 고려하지 않는다는 것입니다. 이로 인해 재구성된 인체가 바닥을 뚫고 들어가거나, 벽을 통과하거나, 허공에 떠 있는 등 물리적으로 불가능하고 비현실적인 결과가 생성되는 문제가 발생합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.2 Single View To 3D Scene (단일 뷰 3D 장면)

단안 3D 장면 복원을 위한 초기 방법들은 단일 RGB 이미지로부터 레이아웃, 객체 배치, 메시를 복구하기 위해 기하학적 및 의미론적 사전 지식을 활용했습니다. 이들 중 주목할 만한 것은 방 레이아웃과 객체 포즈를 함께 추론하는 Total3D (Nie/2020/Total3D)입니다. Mesh R-CNN (Gkioxari/2019/Mesh R-CNN)과 MonoScene (Cao/2022/MonoScene)은 객체 중심 메시 예측과 의미론적 장면 완성을 더욱 발전시켰습니다. ZoeDepth (Bhat/2023/ZoeDepth), Metric3D (Hu/2024/Metric3D), DepthPro (Bochkovskii/2024/DepthPro)와 같은 단안 깊이 추정의 최근 획기적인 발전은 대규모 사전 학습과 트랜스포머를 사용하여 선명하고 스케일 일관적인 깊이를 예측하며, 사실적인 미터 단위 포인트 클라우드 추출을 가능하게 합니다. Gen3DSR (Ardelean/2025/Gen3DSR)은 이러한 추정기들을 기반으로 카테고리별 객체 복원을 수행하지만, 인간 모델링을 생략하여 물리적 접촉이나 상호작용을 추론할 수 없다는 한계가 있습니다. 이와 대조적으로, 본 연구의 방법은 최신 깊이 추정 기술과 명시적인 인간 모델링을 함께 활용하여, 이전의 객체 또는 장면 중심 접근 방식의 능력을 뛰어넘어 단일 이미지로부터 물리적으로 타당하고 미터 단위로 정렬된 인간-장면 복원을 가능하게 합니다.

쪽집게 과외

알고리즘

graph TD subgraph 초기 접근법 A[기하학적/의미론적 사전 지식 활용
(예: Total3D)] end subgraph 객체 중심 접근법 B[객체 단위 메시 예측
(예: Mesh R-CNN, MonoScene)] end subgraph 최신 깊이 추정 C[대규모 사전학습 기반
미터 단위 깊이 예측
(예: ZoeDepth, DepthPro)] end subgraph 한계점 D[인간 모델링 부재
(예: Gen3DSR)] end subgraph 본 논문 (PhySIC) E[최신 깊이 추정 +
명시적 인간 모델링] end A --> B --> C --> D --> E classDef ref fill:#EBEBEC; classDef warn fill:#FFD3C2; classDef core fill:#FFDBE6; class A,B,C ref; class D warn; class E core;

핵심 콕콕

• 초기 3D 장면 복원 방법들은 기하학적, 의미론적 사전 지식을 활용했습니다.
• 최근 ZoeDepth, DepthPro와 같은 단안 깊이 추정 기술의 발전으로, 단일 이미지에서 미터 단위의 정확한 깊이 정보를 얻을 수 있게 되었습니다.
• 하지만 기존의 장면 중심 복원 방법들은 대부분 인간 모델링을 고려하지 않아, 인간과 장면 간의 물리적 상호작용을 추론하는 데 한계가 있었습니다.
• PhySIC은 최신 깊이 추정 기술과 명시적인 인간 모델링을 결합하여, 물리적으로 타당한 인간-장면 상호작용 복원이라는 기존 방법의 한계를 극복합니다.

쉬운 비유

최신 깊이 추정 기술과 명시적 인간 모델링의 결합f>을 쉽게 비유해볼게요.

단 한 장의 사진으로 방과 그 안의 사람을 3D 모델로 완벽하게 만든다고 상상해보세요.

- 장면만 복원하는 경우: 방의 벽과 가구 모양을 아주 정확하게 측정하는 레이저 스캐너(최신 깊이 추정 기술)가 있지만, 사람은 완전히 무시해서 사람 모양의 구멍만 남기는 것과 같아요. 방의 구조는 알지만, 사람이 그 안에서 어떻게 있는지, 소파에 앉아있는지 서있는지는 알 수 없죠.

- PhySIC의 접근법: 이번에는 레이저 스캐너와 함께, 자세를 자유롭게 바꿀 수 있는 마네킹(명시적 인간 모델링)을 함께 사용합니다. 먼저 스캐너로 방을 측정하고, 그 3D 공간 안에 마네킹을 가져다 놓습니다. 그리고 마네킹이 허공에 떠 있거나 탁자를 뚫고 지나가지 않도록, 가장 자연스러운 자세로 조절해주는 거죠. 이 두 가지를 결합하면, 비로소 사람이 장면에 자연스럽게 어우러진, 물리적으로 완벽한 3D 모델이 완성됩니다. 이것이 바로 PhySIC이 하는 일입니다.

셀프 테스트

[O/X] 최신 단안 깊이 추정 모델(예: ZoeDepth)은 인간 모델링 기능이 포함되어 있어 물리적 상호작용을 직접 추론할 수 있다.

정답 보기

정답: X
해설: 본문에서는 이러한 깊이 추정기를 기반으로 한 Gen3DSR 같은 모델조차 인간 모델링을 생략하여 물리적 상호작용을 추론할 수 없다고 명시하고 있습니다. 깊이 추정 모델 자체는 장면에 대한 기하학 정보에 집중합니다.

[빈칸] 기존의 객체 또는 장면 중심 접근 방식의 한계는 ___ 모델링을 생략하여 물리적 접촉이나 상호작용을 추론할 수 없다는 점이다.

정답 보기

정답: 인간
해설: 이전 연구들은 장면이나 객체 복원에 초점을 맞추었기 때문에, 인간의 존재와 그로 인한 상호작용을 모델링하는 부분이 누락되어 있었습니다.

[서술형] 본 논문의 방법(PhySIC)이 이전의 단일 뷰 3D 장면 복원 연구들과 비교하여 갖는 핵심적인 차별점과 장점은 무엇인가?

정답 보기

모범답안: PhySIC의 핵심 차별점은 최첨단 단안 깊이 추정 기술과 명시적인 인간 모델링을 최초로 결합했다는 점입니다. 이를 통해 이전 연구들이 단순히 장면의 기하학적 구조를 복원하는 데 그쳤던 것과 달리, PhySIC은 단일 이미지로부터 물리적으로 타당하고 실제 측정 단위(미터)로 정렬된 '인간-장면' 쌍을 함께 복원할 수 있습니다. 그 결과, 인간의 자세뿐만 아니라 장면과의 접촉 및 상호작용까지 현실적으로 추론할 수 있는 장점을 가집니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2.3 3D Human-scene Interaction (3D 인간-장면 상호작용)

그럴듯한 인간-장면 상호작용을 모델링하고 재구성하는 것은 장면 이해의 핵심입니다. 초기 벤치마크들은 장면 제약 조건 하에서 상호작용 탐지(Liu et al./2020/Interaction Detection), 생성(Savva et al./2016/Interaction Generation), 그리고 자세 개선(Hassan et al./2019b/Pose Refinement)을 다루었습니다. PROX(Hassan et al./2019a/PROX)는 상호 침투 및 접촉 페널티를 도입했지만 정적인 장면 스캔에 접근할 수 있다고 가정합니다. 반면, 저희 방법은 단일 RGB 이미지로부터 미터 스케일의 장면을 재구성합니다. 여러 접근법들은 인간의 움직임으로부터 장면 구조를 추론(Li et al./2024/Scene from Motion, Nie et al./2021/Scene from Motion, Yi et al./2022/Scene from Motion)하는 반면, EgoBody(Zhang et al./2022/EgoBody)나 HPS(Guzov et al./2021/HPS)와 같은 대규모 캡처 연구들은 웨어러블 센서를 사용하여 상세한 다중 인물 및 미터 단위 포즈 데이터를 제공하지만, 특수 하드웨어가 필요하며 단일 이미지 재구성은 다루지 않습니다.

동적 추적 및 접촉 추정 접근법들, 예를 들어 CHORE(Xie et al./2022/CHORE), InterTrack(Xie et al./2025/InterTrack), 그리고 DECO(Tripathi et al./2023/DECO)는 관절이 있는 인간과 접촉을 재구성할 수 있지만, 종종 불완전한 장면 기하학에 의존합니다. ParaHome(Kim et al./2024/ParaHome)과 같은 생성 모델은 다양한 3D 인간-객체 상호작용을 시뮬레이션하지만, 이미지 기반 재구성보다는 활동 합성에 초점을 맞춥니다. 배치에 초점을 맞춘 연구들(예: POSA(Hassan et al./2021/POSA), PLACE(Zhang et al./2020/PLACE), Putting People in Scenes(Li et al./2019/Putting People in Scenes))은 통계적 사전 지식을 활용하지만, 일반적으로 밀도가 높고 미터 단위로 정확한 장면 복원이 부족합니다. 최근의 전체론적 재구성 방법들, 예를 들어 RICH(Huang et al./2022/RICH), HSR(Xue et al./2024/HSR), HolisticMesh(Weng and Yeung/2021/HolisticMesh), 그리고 Biswas et al. (2023)의 연구는 통합된 장면 이해를 향해 나아가고 있지만, 종종 통제된 환경을 요구합니다. 이와 대조적으로, 저희 방법은 단일 이미지로부터 직접 밀도 높은 접촉 추론을 통해 미터 단위로 정확하고 물리적으로 그럴듯한 인간과 다양한 장면을 재구성하여, 다중 인간 및 야외 시나리오를 가능하게 합니다 (표 1 참조).

저희 연구는 보정되지 않은 다중 시점 이미지로부터 공동 최적화를 사용하여 3D 인간-장면을 재구성하는 HSfM(Müller et al./2024/HSfM)과 가장 밀접하게 관련되어 있습니다. 저희가 알기로는, PhySIC은 단일 단안 이미지로부터 3D 인간-장면과 그 상호작용을 모두 재구성하는 최초의 방법입니다. 이는 단안의 모호성과 심각한 가려짐으로 인해 특히 어려운 작업이지만, 인터넷 이미지에 적용할 수 있다는 점에서 매우 실용적입니다. 몇 가지 추가적인 기술적 설계 선택이 PhySIC을 HSfM과 더욱 차별화합니다. 자세한 내용은 보충 자료를 참조하십시오.

쪽집게 과외

핵심 콕콕

• 기존 인간-장면 상호작용 연구들은 정적 장면 스캔, 특수 하드웨어, 다중 시점 영상 등 추가 정보가 필요하거나 통제된 환경에서만 동작하는 한계가 있었습니다.
• PhySIC은 이러한 한계를 극복하고, 단 하나의 일반 RGB 이미지로부터 물리적으로 타당한 인간과 장면을 미터 스케일로 정확하게 재구성합니다.
• 특히 PhySIC은 다수의 사람이 등장하거나, 실내외를 막론한 다양한 '야생(in-the-wild)' 환경에서도 잘 동작하여 실용성이 매우 높습니다.
• 이 연구는 단일 단안 이미지로부터 인간과 장면, 그리고 그 상호작용까지 통합적으로 재구성하는 최초의 시도라는 점에서 큰 의의를 가집니다.

함정 주의

PhySIC과 HSfM을 혼동하지 마세요.
두 방법 모두 인간-장면을 재구성하지만, 입력 데이터가 다릅니다. PhySIC은 '단일 단안 이미지'를 입력으로 사용하는 반면, HSfM은 '다중 시점 이미지'를 필요로 합니다. 즉, PhySIC이 훨씬 더 제한적인 정보로 어려운 문제를 푸는 것입니다.

쉬운 비유

단일 이미지 3D 인간-장면 재구성f>을 쉽게 비유해볼게요.

- 기존 방법들: 범죄 현장을 재구성하려는 탐정팀과 같습니다.
- 어떤 탐정(PROX)은 반드시 현장의 '정밀 설계도'가 있어야만 수사를 시작할 수 있습니다.
- 다른 탐정(HSR, HSfM)은 여러 각도에서 찍은 '수십 장의 사진'이 필요합니다.
- 또 다른 탐정(EgoBody)은 피해자 몸에 부착된 '특수 센서' 데이터가 있어야만 움직임을 파악할 수 있습니다.

- PhySIC: 셜록 홈즈 같은 명탐정과 같습니다.
- 이 탐정은 단 '한 장의 스냅 사진'만 보고도, 현장의 3D 구조와 그 안에서 사람이 어떤 자세로 있었는지를 완벽하게, 그리고 물리적으로 어색함 없이 동시에 추리해냅니다. 인터넷에 떠도는 어떤 사진을 가져와도 바로 분석할 수 있을 만큼 실용적이죠.

셀프 테스트

[O/X]

정답 보기

PhySIC은 PROX와 마찬가지로 3D 장면 재구성을 위해 정적인 장면 스캔 데이터가 반드시 필요하다.
정답: X
해설: PhySIC의 가장 큰 장점은 정적인 장면 스캔 없이 단일 RGB 이미지로부터 장면을 재구성한다는 점입니다. PROX는 정적 장면 스캔을 가정합니다.

[빈칸]

정답 보기

PhySIC은 보정되지 않은 다중 시점 이미지를 사용하는 ___와 달리, 단일 단안 이미지를 입력으로 사용한다.
정답: HSfM
해설: 본문에서는 PhySIC과 가장 관련 깊은 연구로 다중 시점 이미지를 사용하는 HSfM을 언급하며, 단일 이미지를 사용한다는 점에서 차별화된다고 설명합니다.

[서술형]

정답 보기

기존 연구들이 '불완전한 장면 기하학에 의존'하거나 '통제된 환경을 요구'하는 등의 한계를 가졌던 이유는 무엇이며, PhySIC은 이 문제를 어떻게 해결하고자 했는지 설명하시오.
모범답안: 기존 연구들은 단일 이미지에서 3D 정보를 복원하는 것의 본질적인 모호성(depth ambiguity)과 가려짐(occlusion) 문제 때문에, 정확한 재구성을 위해 3D 스캔, 다중 시점, 특수 센서 등 추가적인 강한 제약 조건을 필요로 했습니다. 이로 인해 적용 범위가 제한적이었습니다. PhySIC은 최신 단일 이미지 깊이 추정 및 기하학 생성 모델의 사전 지식을 활용하여 초기 장면을 만들고, 인간의 자세와 장면의 스케일을 물리적 타당성(접촉, 비침투 등)을 만족시키도록 공동으로 최적화하는 방식을 통해 이 문제를 해결합니다. 즉, 추가 정보 대신 인간과 장면이 서로에게 가하는 물리적 제약을 단서로 사용하여 모호성을 해결하는 접근법을 취합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

인터넷 이미지에 적용할 수 있다는 점을 고려할 때, 몇 가지 추가적인 기술적 설계 선택이 PhySIC을 HSfM과 더욱 차별화합니다; 자세한 내용은 보충 자료를 참조하시기 바랍니다.

3 Method (방법론)

단일 RGB 이미지가 주어지면, 저희의 방법론인 PhySIC은 미터 스케일의 밀집 장면 포인트 클라우드와 정확한 정점 수준 접촉 맵을 가진 3D 인체 메시를 예측합니다.

이는 정교한 인체 포즈와 다양한 장면 기하학 구조를 심각한 인간-장면 가림 현상 하에서 정확하게 추론해야 하는 매우 복잡한 문제입니다.

저희는 이 문제를 별개의 미터 스케일 장면 추정 (섹션 3.1)과 장면에 대한 정렬을 포함한 인체 복원 (섹션 3.2)으로 분해합니다.

인간과 장면은 본질적으로 서로에 의해 제약되며, 저희는 이를 활용하여 물리적으로 타당한 인간-장면 접촉을 얻기 위한 공동 최적화 (섹션 3.3)를 수행합니다.

저희 방법론의 개요는 그림 2에서 찾아볼 수 있습니다.

표기의 단순화를 위해, 단일 인간과 장면의 상호작용에 대해 방법론을 설명하지만, 저희의 접근 방식은 여러 명의 인간도 원활하게 처리합니다.

구체적으로, 입력 이미지 $I \in \mathbb{R}^{H \times W \times 3}$가 주어지면, PhySIC은 SMPL-X 바디 모델 Pavlakos/2019/SMPL-X을 사용하여 장면 포인트 맵 $P_s$와 인체 메시 정점 $V_h \in \mathbb{R}^{N \times 3}$를 출력합니다.

3.1 Stage 1: Metric-scale Scene With Detailed Geometry (1단계: 상세한 기하학적 구조를 가진 미터 스케일 장면)3.1.1 Scene Image Inpainting (장면 이미지 인페인팅)

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2; classDef ref fill:#EBEBEC; classDef def fill:#FEEEB5; subgraph PhySIC 전체 파이프라인 A[단일 RGB 이미지 입력] --> B{문제 분해}:::idea B --> C[1단계: 미터 스케일 장면 추정]:::sub B --> D[2단계: 인체 복원 및 장면 정렬]:::sub C & D --> E[3단계: 공동 최적화]:::core E --> F[물리적으로 타당한
인체-장면 복원 결과]:::pros end

핵심 콕콕

• PhySIC의 목표: 단일 RGB 이미지에서 미터 스케일의 3D 인체, 장면, 그리고 둘 사이의 접촉 맵을 복원하는 것.
• 핵심 과제: 깊이 모호성, 가림(occlusion) 현상 등 단일 이미지가 가진 정보 부족 문제를 해결해야 함.
• 해결 전략: 복잡한 문제를 (1) 장면 추정, (2) 인체 복원 및 정렬, (3) 공동 최적화의 3단계로 나누어 접근.

쉬운 비유

PhySIC의 문제 해결 방식f>을 '레고 성 만들기'에 비유해볼게요.
- 1단계 (장면 추정): 먼저 성의 바닥과 벽(장면)을 만듭니다. 이때 자(ruler)를 사용해 실제 크기(미터 스케일)에 맞게 만듭니다.
- 2단계 (인체 복원 및 정렬): 성 안에 들어갈 레고 사람(인체)을 만들고, 성의 크기에 맞게 위치를 잡아줍니다.
- 3단계 (공동 최적화): 레고 사람이 의자에 자연스럽게 앉거나 바닥에 발을 딛도록 사람의 자세와 성의 위치를 미세 조정합니다. 이렇게 하면 사람이 공중에 떠 있거나 벽을 뚫고 지나가는 어색한 상황이 사라지죠.

셀프 테스트

[빈칸] PhySIC은 단일 이미지로부터 ___ 스케일의 인체-장면 상호작용을 복원하는 것을 목표로 합니다.

정답 보기

정답: 미터
해설: PhySIC은 단순히 상대적인 크기가 아닌, 실제 세계의 단위(미터)와 일치하는 스케일로 3D 모델을 복원하여 물리적 타당성을 높입니다.

[O/X] PhySIC은 인체와 장면을 각각 독립적으로 복원한 후, 단순히 합치는 방식을 사용한다.

정답 보기

정답: X
해설: PhySIC은 초기에는 인체와 장면을 분리하여 추정하지만, 이후 '공동 최적화' 단계를 통해 둘 사이의 상호작용(접촉, 침투 방지 등)을 고려하여 물리적으로 타당한 최종 결과를 만들어냅니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

그리고 Pavlakos/2019/SMPL-X의 SMPL-X 바디 모델을 사용하여 인간 메시 정점 $V_h \in \mathbb{R}^{N \times 3}$을 출력합니다.

3.1 Stage 1: Metric-scale Scene With Detailed Geometry (1단계: 상세한 기하학적 구조를 가진 미터 스케일 장면)3.1.1 Scene Image Inpainting (장면 이미지 인페인팅)

단안 이미지에서는 사람이 배경 장면을 심하게 가릴 수 있으며, 이는 장면을 재구성할 때 단순히 사람을 무시하면 누락된 영역이 발생하여 잘못된 네거티브 상호작용을 유발할 수 있습니다.

대신, 저희는 먼저 장면을 인페인팅하여 누락된 영역을 채운 다음, Fig. 2에서 보여주듯이 전체 장면에 대해 장면 재구성을 실행합니다.

구체적으로, 저희는 Ravi/2024/SAM2의 SAM2를 사용하여 인간 마스크를 얻고 Wei/2025/OmniEraser의 OmniEraser를 채택하여 인간 영역을 인페인팅함으로써, 장면의 가려지지 않은 뷰를 가진 이미지 $I_s$를 생성합니다.

3.1.2 Metric-scale Scene Points (미터 스케일 장면 포인트)

저희의 목표는 이미지로부터 정확한 미터 스케일의 장면 포인트를 얻는 것입니다.

Bochkovskii/2024/DepthPro의 DepthPro와 같은 기존 깊이 추정기는 정확한 미터 스케일 깊이를 예측할 수 있지만, 상세한 기하학적 정보가 부족합니다.

반면에, Wang/2024b/MoGe의 MoGe와 같은 일부 모델은 세밀한 디테일을 포착할 수 있지만, 그 결과는 상대적인 공간에 존재합니다.

저희는 두 세계의 장점을 모두 활용하여 정확하고 상세한 기하학적 구조를 가진 미터 장면 스케일을 얻습니다.

구체적으로, 인페인팅된 장면 이미지 $I_s$를 사용하여, 먼저 DepthPro로부터 미터 깊이 맵 $D_s$를 얻고 MoGe로부터 스케일이 조정되지 않은 상대적 포인트 맵 $P_{rel_s}$를 얻습니다.

MoGe 예측은 픽셀에 정렬되어 있으므로, 스케일 $s$와 이동 $t_z$를 최적화하여 포인트 맵 $P_{rel_s}$를 미터 깊이 $D_s$에 정렬할 수 있습니다:

Eq. 1: 미터 스케일 정렬$$(s^, t_z^) = \arg \min_{s,t_z} \| (s \cdot \hat{P}_{rel_s} + t_z) - \pi^{-1}(D_s, K_D) \|_2^2,$$이 수식은 상세하지만 스케일이 없는 포인트 클라우드($\hat{P}_{rel_s}$)를 정확한 스케일을 가진 깊이 맵($D_s$)에 정렬하는 최적화 과정을 나타냅니다. 최적의 스케일 $s^$와 깊이 이동 $t_z^$를 찾아, 두 데이터 소스를 미터 단위의 일관된 3D 공간으로 통합합니다. 여기서 $\pi^{-1}$는 2D 깊이 맵을 3D 포인트로 변환하는 역투영 함수이며, $K_D$는 깊이 추정 모델이 예측한 카메라 내부 파라미터입니다.

여기서 $\pi^{-1}$는 역투영 함수이고 내부 파라미터 $K_D$는 DepthPro에 의해 예측됩니다.

저희는 $t_z$에서 깊이 이동만을 최적화하고 이를 RANSAC을 사용하여 해결합니다.

그러면 미터 스케일 포인트 맵 $\hat{P}_s$는 다음과 같이 얻을 수 있습니다: $\hat{P}_s = s^ \cdot \hat{P}_{rel_s} + t_z^$.

3.1.3 Ground Plane Fitting (지면 평면 피팅)

포인트 맵 $\hat{P}_s$는 정확한 지역적 기하학 구조를 포착하지만, 누락되거나 신뢰할 수 없는 바닥 기하학 구조로 인해 어려움을 겪을 수 있으며, 이는 정확한 인간-장면 상호작용에 중요합니다.

이를 위해, 저희는 법선 제약 조건을 사용하여 바닥 포인트에 평면을 피팅합니다.

구체적으로, 저희는 SAM2를 채택하여 바닥의 2D 마스크를 얻고, 이를 사용하여 $\hat{P}_s$에서 3D 바닥 포인트를 분할합니다.

그런 다음 RANSAC을 사용하여 바닥 포인트에 평면을 강건하게 피팅하여 법선과 위치를 모두 정렬합니다.

저희는 2D 픽셀 그리드에 정의된 두 개의 바로 인접한 이웃 포인트를 사용하여 각 포인트의 법선을 추정합니다.

3.1.4 Combined Scene Points (결합된 장면 포인트)

저희는 장면의 범위 내에서 평면 위의 2D 그리드 포인트를 샘플링하여 추가적인 바닥 포인트 $P_f$를 얻습니다.

다음 단계를 위한 초기화로서의 최종 3D 장면은 정제된 장면 포인트 클라우드 $\hat{P}_s$와 합성된 바닥 평면 포인트 $P_f$의 합집합으로 형성됩니다:

Eq. 2: 최종 장면 포인트 클라우드$$P'_s = \hat{P}_s \cup P_f.$$이 수식은 최종 장면 표현을 구성하는 방법을 보여줍니다. 미터 스케일로 정렬된 장면 포인트 클라우드($\hat{P}_s$)와, 지면 피팅을 통해 합성된 바닥 포인트($P_f$)를 결합하여 완전한 3D 장면($P'_s$)을 생성합니다. 이는 후속 인간-장면 최적화 단계의 기초가 됩니다.

최종 장면 포인트 $P_s$는 주로 MoGe에서 나오지만, 식 (1)에서 사용된 초기 카메라는 DepthPro에서 나온다는 점에 유의해야 합니다.

더 나은 정렬을 보장하기 위해, 저희는 $P'_s$에 대한 카메라 내부 파라미터를 다시 계산합니다.

$(u, v)$를 2D 픽셀이라 하고 $(X, Y, Z)$를 $\hat{P}'_s$로부터의 해당 3D 포인트라고 할 때, 저희는 Patel/2024/CameraHMR의 연구처럼 중심 주점(centered principal point)을 가정하고 잠재적인 초점 거리를 도출합니다: $f_x(u, v) = \frac{(u - W/2)Z}{X}$ 그리고 $f_y(u, v) = \frac{(v - H/2)Z}{Y}$.

최종 초점 거리 $f_x$와 $f_y$는 각각의 값들의 중앙값으로 강건하게 설정됩니다.

이 새로운 내부 파라미터 행렬 $K$는 모든 후속 카메라 투영에 사용됩니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 classDef pros fill:#D0F1B9 A[단안 RGB 이미지] --> B(인간 영역 인페인팅):::core B --> C[가려짐 없는 장면 이미지 I_s] subgraph 두 종류의 3D 정보 추출 C --> D1[DepthPro: 미터 스케일 깊이 D_s]:::sub C --> D2[MoGe: 상세하지만 스케일 없는 포인트 P_rel_s]:::sub end D1 --> E{스케일 정렬 (Eq. 1)}:::idea D2 --> E E --> F[미터 스케일 포인트 맵 ˆP_s] subgraph 바닥 평면 추가 F --> G1[SAM2로 바닥 마스크 추출]:::sub G1 --> G2[RANSAC으로 평면 피팅]:::core G2 --> G3[바닥 포인트 P_f 생성] end F --> H(포인트 클라우드 결합):::core G3 --> H H --> I[최종 장면 P'_s (Eq. 2)] I --> J{카메라 내부 파라미터 재계산}:::idea J --> K[정렬된 장면과 새 카메라 K]:::pros

핵심 콕콕

• 사람이 가린 배경은 '인페인팅' 기술로 먼저 복원하여 완전한 장면 이미지를 만듭니다.
• 정확한 거리(스케일) 정보(DepthPro)와 정교한 모양(기하학) 정보(MoGe)를 가진 두 모델의 장점만을 결합하여, 정확하고 상세한 3D 장면을 생성합니다.
• 부정확할 수 있는 바닥 정보를 보강하기 위해, 바닥 영역을 감지하고 강건한 평면 피팅(RANSAC)을 통해 안정적인 지면을 만들어냅니다.
• 여러 소스에서 얻은 3D 정보를 합친 후, 3D 포인트와 2D 이미지 간의 투영 관계가 틀어지는 것을 막기 위해 카메라 설정을 다시 계산하여 정렬 정확도를 높입니다.

함정 주의

이 섹션에는 여러 종류의 '장면 포인트'가 등장하여 헷갈릴 수 있습니다.

- P_rel_s: MoGe가 만든 '상대적' 포인트 클라우드입니다. 모양은 정교하지만 실제 크기는 알 수 없습니다.
- ˆP_s: P_rel_s를 DepthPro의 '미터 스케일' 깊이 정보에 맞춰 크기를 조정한 포인트 클라우드입니다.
- P_f: 바닥 평면 피팅으로 '추가 생성'된 바닥 포인트입니다.
- P'_s: ˆP_s와 P_f를 '합친' 최종 장면 포인트 클라우드로, 다음 단계의 입력으로 사용됩니다.

구현 힌트

이 섹션에서는 두 번의 핵심적인 단계에서 RANSAC 알고리즘을 사용합니다. 첫째, 스케일이 다른 두 포인트 클라우드를 정렬할 때(Eq. 1), 둘째, 바닥 평면을 피팅할 때입니다. RANSAC은 각 모델의 예측 결과에 포함될 수 있는 노이즈나 아웃라이어에 강건하게 대처할 수 있게 해주므로, 안정적인 초기 장면을 구성하는 데 매우 중요합니다.

쉬운 비유

두 가지 3D 모델의 장점을 결합하는 방법f>을 쉽게 비유해볼게요.

- 3D 장면을 만드는 것을 '정확한 지도 그리기'에 비유할 수 있습니다.
- 한 명의 전문가(DepthPro)는 아주 정확한 GPS를 가지고 있어서 도시 간의 '실제 거리(미터 스케일)'는 정확하게 알지만, 그림 실력이 없어 지도를 흐릿하게 그립니다.
- 다른 전문가(MoGe)는 그림 실력이 매우 뛰어나서 길거리의 건물 하나하나까지 '아주 상세하게(상세한 기하학)' 그리지만, GPS가 없어서 지도 전체의 실제 크기는 모릅니다.
- PhySIC의 방법은, 그림 잘 그리는 전문가의 상세한 지도를 가져와서, GPS 전문가가 측정한 실제 거리에 딱 맞게 지도를 확대하거나 축소하여 합치는 것입니다. 이렇게 하면 '실제 거리도 정확하고, 내용도 아주 상세한' 완벽한 지도를 얻을 수 있습니다.

셀프 테스트

[O/X] PhySIC은 단일 이미지에서 사람과 장면을 재구성할 때, 사람이 배경을 가리는 문제는 무시하고 진행한다.

정답 보기

정답: X
해설: PhySIC은 장면 재구성 전에 먼저 인페인팅(inpainting) 기술을 사용하여 사람이 가린 배경 영역을 복원합니다. 이를 통해 완전한 장면 정보를 확보하여 상호작용 예측의 정확도를 높입니다.

[빈칸] PhySIC은 ___ 모델로부터 정확한 미터 스케일 깊이를 얻고, ___ 모델로부터 상세하지만 스케일이 없는 기하학 정보를 얻어 이 둘을 결합한다.

정답 보기

정답: DepthPro, MoGe
해설: PhySIC은 DepthPro의 정확한 스케일 정보와 MoGe의 세밀한 기하학 정보라는 각기 다른 모델의 장점을 결합하여 고품질의 3D 장면을 생성합니다.

[서술형] PhySIC이 최종적으로 결합된 장면 포인트 클라우드(P'_s)에 대해 카메라 내부 파라미터(intrinsic)를 다시 계산하는 이유는 무엇인가요?

정답 보기

모범답안: 초기 카메라 파라미터는 DepthPro 모델에서 온 것이지만, 최종 포인트 클라우드는 주로 MoGe의 기하학 정보와 추가된 바닥 평면으로 구성됩니다. 이처럼 서로 다른 출처의 3D 데이터를 결합했기 때문에, 초기 카메라 파라미터가 최종 3D 포인트들과 완벽하게 정렬되지 않을 수 있습니다. 따라서, 결합된 3D 포인트들과 2D 이미지 픽셀 간의 투영 관계를 가장 정확하게 설명하는 새로운 카메라 파라미터를 계산하여, 후속 최적화 단계에서의 정확도를 보장하기 위함입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

초점 거리 $f_x$와 $f_y$는 각 값들의 중앙값으로 강건하게 설정됩니다. 이 새로운 내부 파라미터 행렬 $K$는 이후의 모든 카메라 투영에 사용됩니다.

3.2 Stage 2: Human Reconstruction And Alignment (2단계: 사람 재구성 및 정렬)

이전 섹션에서는 사람을 마스킹하여 제외하고 장면만 고려했습니다. 이제 우리는 사람을 재구성하고 이를 예측된 장면 포인트 클라우드 $P'_s$에 정렬합니다. 이 과정은 두 단계로 구성됩니다: 1) 장면 포인트와 정렬된 사람 포인트 $P_h$를 얻고, 2) 사람 포인트 $P_h$, 즉 기저의 장면 $P'_s$와 정렬된 사람 메시를 추정합니다.

3.2.1 Metric-scale Human Points (미터 스케일 사람 포인트)

원본 입력 이미지 $I$로부터, 우리는 MoGe를 사용하여 스케일이 없는 포인트 클라우드 $\hat{P}_{h+s}$를 예측합니다. 이는 사람 포인트 $\hat{P}_h$와 주변 장면 포인트 $\hat{P}_s$를 포함합니다. 그 다음, 수식 (1)과 유사하게 스케일과 깊이 이동을 최적화하여 이를 미터 스케일 장면 포인트 $P'_s$에 정렬합니다. 정렬을 수행할 때 사람 마스크를 사용하여 $\hat{P}_{h+s}$에서 $\hat{P}_h$를 제거한다는 점에 유의해야 합니다. 그런 다음 최적화된 스케일과 이동을 사람 포인트 $\hat{P}_h$에 적용하여, 이를 미터 스케일 장면에 정렬하고 $P_h$로 표기합니다.

3.2.2 Human Mesh Estimation (사람 메시 추정)

의미론적으로 의미 있는 접촉 정점을 얻기 위해, 우리는 사람을 표현하는 데 SMPL-X Pavlakos/2019/SMPL-X를 사용합니다. 우리는 SMPL-X 모델을 $H$로 표기하며, 이는 신체 형태 $\beta$, 손과 전신 포즈 $\theta_h$, $\theta_b$, 그리고 전역 이동 $\mathbf{t}_h$를 입력으로 받아 사람 정점 $V_h = H(\beta, \theta_h, \theta_b, \mathbf{t}_h)$를 출력합니다. 초기 SMPL-X 정점 $V_h$는 CameraHMR Patel/2024/CameraHMR의 SMPL Loper/2015/SMPL 예측과 WiLor Potamias/2025/WiLor의 손 포즈를 융합하여 얻습니다. 구체적으로, 우리는 SMPLFitter Sárándi/2024/SMPLFitter를 사용하여 CameraHMR이 예측한 SMPL 메시에 SMPL-X를 맞추고, 손 파라미터를 WiLor가 예측한 손 포즈로 대체합니다. 이 초기 추정치는 입력 이미지 및 미터 스케일 장면과 정확하게 정렬되지 않으며, 이는 다음 단계에서 해결합니다.

3.2.3 Metric-scale Human Mesh (미터 스케일 사람 메시)

먼저 2D 관절 투영 손실을 사용하여 추정된 SMPL-X 정점의 픽셀 정렬을 개선하기 위해 전역 사람 이동 $\mathbf{t}_h$를 최적화합니다:

Eq. 3: 2D 관절 투영 손실$$L_{\text{j2d}} = \left\| \pi(J(V_h(\mathbf{t}_h), K) - \hat{J}^{2D}_h \right\|^2_2,$$이 수식은 3D 인체 메시의 관절을 2D 이미지 평면에 투영한 위치와, 이미지에서 직접 검출한 2D 관절 위치 간의 차이를 최소화하는 손실 함수입니다. $V_h(\mathbf{t}_h)$는 이동 변수 $\mathbf{t}_h$가 적용된 인체 정점, $J$는 정점에서 3D 관절 위치를 추출하는 함수, $\pi$는 카메라 파라미터 $K$를 사용한 투영 함수, 그리고 $\hat{J}^{2D}_h$는 ViTPose와 같은 2D 포즈 추정기로부터 얻은 2D 관절 좌표입니다. 이 손실은 3D 모델을 이미지 증거에 맞추는 데 사용됩니다.

여기서 $J: \mathbb{R}^{N \times 3} \mapsto \mathbb{R}^{J \times 3}$는 3D 신체 키포인트를 회귀하고, $\hat{J}^{2D}_h$는 ViTPose Xu/2022/ViTPose에 의해 예측된 2D 키포인트입니다. 그 다음, 카메라를 향하는 정점 $V_{cf}$와 사람 포인트 $P_h$ 사이의 Chamfer 거리를 사용하여 최적화된 사람 정점을 미터 스케일 사람 포인트 $P_h$에 정렬합니다:

Eq. 4: 정렬 손실$$L_{\text{align}} = \lambda_{\text{j2d}}L_{\text{j2d}} + \lambda_d L_d, \text{ where}$$이 수식은 전체 정렬 손실을 정의합니다. 이는 2D 관절 투영 손실($L_{\text{j2d}}$)과 3D 포인트 클라우드 정렬 손실($L_d$)의 가중 합으로 구성됩니다. 각 람다($\lambda$) 항은 해당 손실의 중요도를 조절하는 가중치입니다.Eq. 5: Chamfer 거리 손실$$L_d = \sum_{v \in V_{cf}} \min_{p \in P_h} \|v - p\|^2_2 + \sum_{p \in P_h} \min_{v \in V_{cf}} \|p - v\|^2_2.$$이 수식은 두 포인트 집합 간의 유사성을 측정하는 Chamfer 거리입니다. 첫 번째 항은 카메라를 향하는 메시 정점($V_{cf}$) 각각에서 가장 가까운 사람 포인트($P_h$)까지의 거리 제곱 합이고, 두 번째 항은 그 반대입니다. 이 손실은 3D 메시가 3D 포인트 클라우드에 잘 맞도록 합니다.

우리는 카메라를 향하는 정점 $V_{cf} \subset V_h$를 표면 법선이 카메라 시선 방향으로부터 70도 미만으로 벗어나는 각도를 가진 정점들로 선택합니다. 이는 등 쪽의 정점들이 사람 포인트에 정렬되는 것을 방지하는 데 매우 중요합니다. 여기서는 전역 이동 파라미터 $\mathbf{t}_h$만을 최적화한다는 점에 유의해야 합니다.

3.3 Stage 3: Joint Human-scene Optimization (3단계: 사람-장면 공동 최적화)

쪽집게 과외

알고리즘

flowchart TD subgraph Stage 2.1 미터 스케일 사람 포인트 획득 A[원본 이미지 I] --> B{MoGe} B --> C[사람+장면 포인트
P_hat_h+s] D[1단계의 장면 포인트
P'_s] --> E{스케일/이동 최적화} C --> E E --> F[미터 스케일 사람 포인트
P_h] end subgraph Stage 2.2 초기 사람 메시 추정 A --> G{CameraHMR + WiLor} G --> H[초기 SMPL-X 메시
V_h] end subgraph Stage 2.3 미터 스케일 정렬 F --> I{정렬 최적화} H --> I J[2D 키포인트] --> I I --> K[장면에 정렬된
초기 사람 메시]:::idea end K --> L(Stage 3: 공동 최적화) classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2; classDef ref fill:#EBEBEC; classDef def fill:#FEEEB5;

핵심 콕콕

• 사람 재구성을 두 단계로 나누어 처리합니다: 먼저 3D 포인트 클라우드를 장면에 정렬하고, 그 다음 SMPL-X 메시를 이 포인트 클라우드에 맞춥니다.
• 초기 사람 메시는 CameraHMR(전신)과 WiLor(손) 같은 여러 전문 모델의 예측을 융합하여 생성합니다.
• 메시 정렬 시, 2D 이미지 증거(관절 위치)와 3D 공간 증거(포인트 클라우드)를 모두 활용하여 정확도를 높입니다.
• Chamfer 거리 계산 시 '카메라를 향하는 정점'만 사용하는 트릭으로, 보이지 않는 뒷면이 잘못 정렬되는 것을 방지합니다.
• 이 단계에서는 포즈나 형태는 고정한 채, 사람의 전역 위치(global translation)만 최적화하여 장면에 대략적으로 위치시킵니다.

함정 주의

P_h와 V_h를 혼동하지 마세요.
P_h는 MoGe에서 예측된, 순수한 기하학적 정보를 담은 '사람 모양의 점 구름'입니다. 반면 V_h는 SMPL-X라는 파라메트릭 모델로 생성된 '메시의 정점'들로, 관절 구조와 같은 의미론적 정보를 가집니다. 2단계는 먼저 P_h를 장면에 정렬하고, 그 다음 의미론적 모델인 V_h를 이 P_h에 맞추는 과정입니다.

구현 힌트

Chamfer 거리를 계산할 때, 전체 메시 정점(V_h)을 사용하면 문제가 생길 수 있습니다. 예를 들어, 의자에 앉아있는 사람의 등 쪽 정점들이 의자 표면이 아닌, 사람의 앞쪽 포인트 클라우드에 이끌려 메시가 찌그러질 수 있습니다. 이를 방지하기 위해 각 정점의 법선(normal vector)과 카메라 시선 벡터의 내적(dot product)을 계산하세요. 이 값이 양수이고 특정 임계값(논문에서는 70도 이내)을 만족하는, 즉 카메라를 향하는 정점들(V_cf)만 선택하여 거리 계산에 사용하면 훨씬 강건한 정렬이 가능합니다.

쉬운 비유

사람 메시 정렬 과정f>을 '투명 마네킹에 옷 입히기'에 비유해볼게요.
- 1단계 (장면 준비): 먼저 방(장면)을 3D 스캔해서 '장면 포인트 클라우드'라는 지도를 만듭니다.
- 2.1단계 (투명 마네킹 놓기): 사진 속 사람 위치에 '사람 포인트 클라우드'라는 투명 마네킹(P_h)을 가져다 놓습니다. 이 마네킹은 모양은 사람 같지만 뼈나 관절은 없는, 그냥 점들의 집합입니다.
- 2.2단계 (뼈대 있는 마네킹 준비): 별도로 SMPL-X라는, 뼈대와 관절이 있어 포즈를 바꿀 수 있는 진짜 마네킹(V_h)을 준비합니다.
- 2.3단계 (옷 입히기): 이제 뼈대 있는 마네킹(V_h)을 투명 마네킹(P_h) 위에 정확히 겹치도록 위치를 조정합니다. 마치 투명 마네킹에 딱 맞는 옷을 입히는 것과 같습니다. 이렇게 하면 뼈대 있는 마네킹이 장면에 올바르게 위치하게 됩니다.

셀프 테스트

[O/X] 2단계에서 사람 메시를 장면에 정렬할 때, 사람의 포즈(θ)와 체형(β) 파라미터도 함께 최적화한다.

정답 보기

정답: X
해설: 이 단계에서는 오직 전역 이동(global translation, t_h) 파라미터만 최적화하여 사람 메시를 장면에 대략적으로 위치시킵니다. 포즈와 체형은 3단계 공동 최적화에서 미세 조정됩니다.

[빈칸] 3D 메시 정점과 3D 포인트 클라우드 간의 정렬을 위해 사용하는 손실 함수는 ___ 거리(distance)이다.

정답 보기

정답: Chamfer
해설: Chamfer 거리는 두 포인트 집합 간의 평균 최근접점 거리를 측정하는 방식으로, 비정형 포인트 클라우드와 메시를 정렬하는 데 널리 사용됩니다.

[서술형] Chamfer 거리를 계산할 때 왜 '카메라를 향하는 정점(camera-facing vertices)'만 사용하는 것이 중요한지, 그리고 사용하지 않았을 때 발생할 수 있는 문제점을 설명하시오.

정답 보기

모범답안: '카메라를 향하는 정점'만 사용하는 이유는 3D 포인트 클라우드가 이미지에서 보이는 부분에 대해서만 생성되기 때문입니다. 만약 사람의 등처럼 보이지 않는 부분의 메시 정점까지 정렬에 사용하면, 이 정점들이 가장 가까운 보이는 부분의 포인트 클라우드(예: 사람의 가슴이나 배) 쪽으로 끌려가 메시가 찌그러지거나 비정상적인 형태로 변형될 수 있습니다. 이 기법은 보이지 않는 부분에 대한 잘못된 정렬을 방지하여 재구성의 정확성과 강건성을 높이는 중요한 역할을 합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

카메라 시선 방향입니다. 이는 뒷면 정점들이 인간 포인트들과 정렬되는 것을 방지하는 데 중요합니다. 여기서 우리는 전역 이동 변환 $t_h$ 파라미터만 최적화한다는 점에 유의해야 합니다.

3.3 Stage 3: Joint Human-scene Optimization (3단계: 인간-장면 공동 최적화)

이전 단계들에서 얻은 인간 정점 $V_h$와 미터 스케일 장면 포인트 $P'_s$가 동일한 미터 스케일 좌표계에 존재하더라도, 이들은 개별적으로 예측되었습니다. 따라서 물리적 타당성이 보장되지 않습니다. 우리는 인간과 장면 사이에 추가적인 제약 조건을 강제하여 타당성을 더욱 향상시킵니다 (Fig. 2, 3단계). 이를 위해, 우리는 Hassan/2019/PROX, Yi/2022/Inferring Scene Structure의 접촉 인력 및 상호 관통 방지 원칙을 포인트맵을 사용한 단일 이미지 재구성 설정에 맞게 조정한 공동 최적화 목적 함수를 공식화합니다. 따라서, 우리는 인간 파라미터 $θ_b, θ_h, β, t_h$와 장면 스케일 파라미터 $s_{sc}$를 공동으로 최적화하기 위해 접촉 및 상호 관통 손실을 정규화 항과 함께 추가로 도입합니다:

Eq. 6: 전체 손실 함수$$L_{\text{total}} = \lambda_{\text{j2d}}L_{\text{j2d}} + \lambda_{d}L_{d} + \lambda_{c}L_{c}+ \lambda_{i}L_{i}+ \lambda_{\text{reg}}L_{\text{reg}}.$$이 수식은 인간-장면 공동 최적화를 위한 전체 목적 함수를 나타냅니다. 5개의 가중합으로 구성되며, 각각 2D 관절 재투영($L_{j2d}$), 깊이 정렬($L_d$), 접촉($L_c$), 상호 관통($L_i$), 그리고 정규화($L_{reg}$)를 담당합니다. 이들을 함께 최적화함으로써 물리적으로 타당한 결과를 얻습니다.

$P_s = s_{sc}P'_s$를 스케일링된 장면 포인트라고 할 때, 다음으로 접촉, 상호 관통, 그리고 정규화 항에 대해 설명하겠습니다. 손실 가중치 $λ^*$는 보충 자료에 자세히 설명되어 있습니다.

3.3.1 Contact Loss 𝐿𝑐 (접촉 손실 𝐿𝑐)

이 손실은 장면에 접촉하는 인간 정점들이 장면 포인트 $P_s$에 가깝도록 유도합니다. 우리는 Tripathi/2023/DECO를 사용하여 인간 접촉 정점 $V_{con}$을 예측하고, 이 정점들과 가장 가까운 장면 포인트까지의 거리를 최소화합니다. 최적화 과정 동안, 우리는 매 반복마다 가장 가까운 장면 거리를 재평가하여 활성 접촉 부분집합을 사용하고, $ε$ 내에 있는 정점들에만 $L_c$를 적용하여 가짜 장거리 접촉을 억제합니다:

Eq. 7: 접촉 손실$$L_c = \sum_{v \in V_{\text{con}}} \rho(\|v - p\|_2^2) \cdot I(\min_{p \in P_s} \|v - p\|_2^2 < \epsilon)$$이 수식은 접촉 손실을 정의합니다. 예측된 접촉 정점($V_{con}$)과 가장 가까운 장면 포인트($P_s$) 사이의 거리를 최소화합니다. 적응형 강건한 손실 함수 $\rho$를 사용하고, 거리가 임계값 $\epsilon$보다 작을 때만 손실을 활성화하는 지시 함수 $I(\cdot)$를 통해 거짓 양성 접촉에 대한 패널티를 방지합니다.

여기서 $ρ$는 Barron/2019/A General and Adaptive Robust Loss Function의 적응형 강건한 손실 함수이고, 지시 함수 $I(·)$는 가장 가까운 장면 포인트까지의 거리가 임계값 $ε$보다 작을 때만 손실 항이 활성화되도록 보장합니다. 이는 멀리 떨어진 거짓 양성 접촉 예측이나 이상치 장면 포인트와의 상호작용에 패널티를 부과하는 것을 방지합니다.

3.3.2 Occlusion Aware Interpenetration Loss 𝐿𝑖 (가림 인지 상호 관통 손실 𝐿𝑖)

이 손실은 인간 메시 $V_h$가 장면 지오메트리 $P_s$를 부자연스럽게 관통하는 것을 방지합니다. 우리는 $P_s$의 추정된 점별 법선을 활용하고 법선 방향과 반대로 놓인 점들에 패널티를 부과합니다:

Eq. 8: 상호 관통 손실$$L_i = \sum_{v \in V_h \setminus V_{\text{occ}}} \rho(\min_{p \in P_s} \|v - p\|_2^2) \cdot I(n_p \cdot (v - p) < 0)$$이 수식은 상호 관통 손실을 정의합니다. 인간 정점 $v$가 장면 포인트 $p$의 표면 안쪽(법선 $n_p$의 반대 방향)에 있을 때 패널티를 부과합니다. 중요한 점은 가려진 정점($V_{occ}$)은 이 계산에서 제외하여, 보이지 않는 신체 부위가 부자연스러운 자세로 변형되는 것을 막는다는 것입니다.

중요하게도, 우리는 주변 물체나 자신에 의해 가려진 인간 정점 $V_{occ}$를 제외합니다. 구체적으로, 우리는 2D 투영이 인간 마스크 외부에 있는 인간 정점을 물체에 의해 가려진 것으로 간주합니다. 우리는 정점을 다른 신체 부위로 나누고, 한 부위의 정점 중 30%가 다른 신체 부위에 의해 가려지면 그 부위를 자가 가림 상태로 간주합니다. 이는 가려진 신체 부위가 관통 손실 때문에 부자연스러운 자세로 움직이는 것을 방지하는데, 왜냐하면 최적화를 정규화할 2D 키포인트와 같은 다른 신호가 없기 때문입니다.

3.3.3 Regularization Terms 𝐿reg (정규화 항 𝐿reg)

최적화된 인간 메시 $V_h$가 초기 추정치에서 과도하게 벗어나지 않도록 하기 위해, 우리는 초기 추정치를 자세 사전 확률로 취급하여 메시 정규화 손실을 적용합니다. 이 손실은 현재 메시 정점과 초기 메시 정점 사이의 루트 기준 공간에서의 L2 거리에 패널티를 부과하여, 인간의 지역적 신체 자세를 제약하는 동시에 메시의 전역 이동에 대해서는 큰 업데이트를 허용합니다. 우리는 가려진 정점 $V_{occ}$에 대한 정규화 손실의 가중치를 높이는데, 이는 초기 추정치가 관찰되지 않은 인간 메시 부분에 대한 최선의 추측이기 때문입니다. 우리는 또한 장면 스케일 $s_{sc}$와 인간 이동 변환 $t_h$가 초기값에서 크게 벗어나는 것을 방지함으로써 약하게 정규화합니다.

3.3.4 Contact Map Extraction (접촉 맵 추출)

우리의 공동 최적화는 정확하고 물리적으로 타당한 인간-장면 상호작용을 생성하며, 이를 통해 근접성에 기반한 정점별 접촉 맵을 추출할 수 있습니다. 각 인간 메시 정점 $v_j \in V_h$는 장면 표면의 가장 가까운 점까지의 유클리드 거리가 미리 정의된 임계값 $ε_c$보다 작으면 접촉 상태로 레이블링됩니다. 이 과정은 인간 메시 정점에 대한 이진 접촉 마스크를 생성하여 상호작용 영역을 식별합니다.

3.3.5 Handling Multiple Humans (다중 인간 처리)

위에서 설명한 방법은 다른 인간 마스크를 사용하여 인간-장면 정렬 및 공동 최적화를 수행함으로써 다중 인간으로 쉽게 확장될 수 있습니다. 구체적으로, 우리는 SAM2를 사용하여 인스턴스별 인간 마스크를 얻습니다. 모든 인간을 동시에 인페인팅하여 장면을 얻은 다음, 3.2절에 따라 각 인간 메시를 개별적으로 장면에 정렬합니다. 그런 다음 Eq. (6)을 사용하여 기본 장면과 모든 인간 간에 한 번의 공동 최적화를 수행합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2; subgraph Joint Optimization Pipeline A[초기 인간 메시 V_h] --> C{L_total 최적화}:::core B[초기 장면 포인트 P'_s] --> C subgraph Loss Components L_j2d[2D 재투영 손실]:::idea L_d[깊이 정렬 손실]:::idea L_c[접촉 손실]:::idea L_i[상호 관통 손실]:::idea L_reg[정규화 손실]:::idea end L_j2d --> C L_d --> C L_c --> C L_i --> C L_reg --> C C --> D[물리적으로 타당한 결과]:::pros I_note["가림 인지(Occlusion-aware) 적용"]:::warn --> L_i end

핵심 콕콕

• 물리적 타당성을 위해 인간과 장면 파라미터를 함께 최적화하는 '공동 최적화' 단계를 수행합니다.
• 전체 손실 함수(L_total)는 2D 재투영, 깊이 정렬, 접촉, 상호 관통, 정규화라는 5가지 요소를 결합하여 구성됩니다.
• 핵심 아이디어는 '가림 인지 상호 관통 손실'로, 이미지에서 보이지 않는 신체 부위가 부자연스럽게 변형되는 것을 방지합니다.
• 접촉 손실은 예측된 접촉 부위가 장면에 가까워지도록 유도하고, 상호 관통 손실은 인체가 장면을 뚫고 들어가지 않도록 막는 역할을 합니다.
• 이 프레임워크는 여러 명의 사람을 동시에 처리할 수 있도록 쉽게 확장 가능합니다.

구현 힌트

실제 구현 시 다음 팁을 참고하세요.

- 상호 관통 손실(Li)을 계산할 때, 모든 정점에 적용하면 안 됩니다. 이미지에서 가려진 정점(V_occ)은 손실 계산에서 제외해야 합니다. 가려진 부분은 2D 정보가 없어 손실을 잘못 적용하면 오히려 자세가 망가질 수 있습니다.

- 접촉 손실(Lc)을 적용할 때, 거리가 먼데도 접촉으로 잘못 예측된 경우(false positive)에 큰 패널티를 주지 않도록, 거리가 특정 임계값(ε) 이내인 '활성 접촉' 정점들에만 손실을 적용하는 것이 안정적입니다.

- 정규화 항(L_reg)의 가중치는 모든 정점에 동일하게 적용하지 마세요. 정보가 부족한 가려진 정점(V_occ)에 대해서는 초기 추정치를 더 강하게 신뢰하도록 가중치를 높여주는 것이 좋습니다.

쉬운 비유

인간-장면 공동 최적화f>를 쉽게 비유해볼게요.

- '가상현실 아바타 맞추기' 게임이라고 생각해보세요.

1. 아바타(인간)를 방(장면) 안에 세웁니다. 처음엔 아바타가 공중에 떠 있거나 가구에 파묻혀 있을 수 있습니다.

2. 이제 여러 규칙을 동시에 만족시키도록 아바타를 조정합니다.
- 2D 재투영 손실: 화면에서 봤을 때 아바타의 팔다리 위치가 사진 속 사람과 똑같아 보이게 맞춥니다. (그림자 맞추기)
- 접촉 손실: 아바타의 발이 바닥에 딱 붙고, 엉덩이가 의자에 닿도록 끌어당깁니다. (자석처럼 붙이기)
- 상호 관통 손실: 아바타의 등이 벽을 뚫고 들어가지 않도록 밀어냅니다. (투명 벽으로 막기)
- 가림 인지: 만약 아바타의 등이 소파에 가려 안 보인다면, 등이 어떻게 생겼는지 맘대로 바꾸지 않고 원래 형태를 유지합니다. (안 보이면 억지로 만지지 않기)
- 정규화: 이 모든 조정을 하더라도, 아바타가 원래 사람의 모습에서 너무 벗어난 기괴한 포즈가 되지 않도록 합니다. (기본 자세 유지하기)

이 모든 규칙을 종합적으로 고려해서 아바타를 조금씩 움직여 가장 자연스러운 상태를 찾는 과정이 바로 공동 최적화입니다.

셀프 테스트

[O/X]

정답 보기

상호 관통 손실(Li)은 인간 메시의 모든 정점에 적용되어 장면과의 관통을 방지한다.
정답: X
해설: 상호 관통 손실은 주변 물체나 자신에 의해 가려진 정점(Vocc)을 제외하고 적용됩니다. 가려진 부분에 강제로 적용하면 오히려 부자연스러운 포즈가 될 수 있기 때문입니다.

[빈칸]

정답 보기

공동 최적화의 전체 손실 함수(L_total)는 2D 관절 손실, 깊이 손실, 접촉 손실, ___ 손실, 그리고 정규화 항으로 구성된다.
정답: 상호 관통 (interpenetration)
해설: 총 5개의 손실 항이 결합되어 물리적으로 타당한 인간-장면 상호작용을 만듭니다.

[서술형]

정답 보기

'가림 인지(Occlusion-aware)' 상호 관통 손실이 왜 중요한지, 그리고 이 기능이 없을 때 발생할 수 있는 문제점은 무엇인지 설명하시오.
모범답안: '가림 인지'는 이미지에서 보이지 않는 신체 부위를 상호 관통 손실 계산에서 제외하는 기능입니다. 이것이 중요한 이유는, 가려진 부위는 2D 키포인트 같은 이미지 기반의 근거(signal)가 없어 최적화를 제어할 정보가 부족하기 때문입니다. 만약 이 기능 없이 가려진 부위에 상호 관통 손실을 강하게 적용하면, 단지 장면과 겹치지 않으려는 목적만으로 해당 부위가 물리적으로 불가능하거나 부자연스러운 자세로 변형될 위험이 있습니다. 따라서 가림 인지는 정보가 없는 부분에 대한 과도한 최적화를 막고 초기 추정치를 유지하게 함으로써 전체적인 포즈의 타당성을 높이는 핵심적인 역할을 합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

장면을 얻기 위해 모든 사람을 동시에 인페인팅한 다음, 섹션 3.2에 따라 각 사람 메시를 장면에 개별적으로 정렬합니다.

그런 다음 식 (6)을 사용하여 기본 장면과 모든 사람 간에 하나의 공동 최적화를 수행합니다.

4 Experiments (실험)4.1 Implementation Details (구현 세부사항)

저희는 Paszke/2019/PyTorch를 사용하여 최적화 프레임워크를 구현하고, Ravi/2020/PyTorch3D의 배치 처리된 3D 기하학 연산을 통해 여러 사람을 처리합니다.

초기화 단계에서는 깨끗한 장면 기하학을 보장하기 위해 평균 $k$-NN 거리를 사용하여 공격적인 이상치 포인트 제거를 수행하며, 여기서 $k$는 이미지 해상도에 따라 적응적으로 설정됩니다.

첫 번째 최적화(식 3)에서는 Kingma/2017/Adam을 사용하여 30회의 경사 하강법을 수행합니다.

두 번째 최적화(식 5)에서는 Liu/1989/L-BFGS의 두 번의 반복을 사용합니다.

저희의 최종 최적화(식 6)는 Adam을 사용한 100회의 경사 하강법을 활용합니다.

두 경사 하강법 모두 $1e-2$의 학습률을 사용하며, L-BFGS 옵티마이저는 단위 학습률을 사용합니다.

카메라를 향하는 마스크 $V_{cf}$는 최적화 과정 내내 안정적으로 유지되지만, 자기 가림 상태는 포즈 최적화로 인해 변할 수 있습니다.

따라서, 저희는 최종 경사 하강법의 매 30회 반복마다 $V_{occ}$를 업데이트합니다.

더 자세한 내용은 보충 자료를 참조하십시오.

$L_c$와 $L_i$에서 자주 사용되는 연산은 최근접 이웃 탐색입니다.

최적화 중 장면 스케일이 변함에도 불구하고, 저희는 최근접 이웃 구조의 스케일 불변 특성을 활용하여 가장 가까운 장면 포인트의 $128^3$ 그리드를 미리 계산하고, 쿼리 포인트를 초기 스케일로 변환합니다.

이는 무차별 대입 방식의 구현에 비해 전체적으로 15-20배의 속도 향상을 가져옵니다.

NVIDIA H100 GPU에서 저희의 최적화는 480p 이미지에 9초, 720p 이미지에 12초가 걸리며, 종단 간 인간-장면 재구성 시간은 각각 27초와 36초입니다.

쪽집게 과외

핵심 콕콕

• 최적화 프레임워크는 PyTorch와 PyTorch3D를 기반으로 구현되었습니다.
• 최적화는 3단계로 구성됩니다: Adam을 사용한 30회 반복, L-BFGS를 사용한 2회 반복, 그리고 최종적으로 Adam을 사용한 100회 반복.
• 최근접 이웃 탐색의 속도를 높이기 위해, 스케일 불변성을 활용하여 $128^3$ 그리드를 미리 계산하는 기법을 도입했습니다.
• 이 최적화 기법 덕분에 brute-force 방식 대비 15-20배의 속도 향상을 달성했으며, 480p 이미지 기준 종단 간 처리 시간이 27초에 불과합니다.

구현 힌트

실제 구현 시 다음 하이퍼파라미터를 참고할 수 있습니다.
- 옵티마이저: 초기 및 최종 단계에서는 Adam, 중간 정렬 단계에서는 L-BFGS를 사용합니다.
- 반복 횟수: 각 단계별로 30, 2, 100회로 설정되어 있습니다.
- 학습률: Adam은 1e-2, L-BFGS는 단위 학습률(1.0)을 사용합니다.
- 성능 최적화: 대규모 포인트 클라우드에서 최근접 이웃을 반복적으로 찾아야 할 경우, 이 논문처럼 스케일 불변성을 이용해 탐색 공간을 그리드로 양자화하고 미리 계산해두면 상당한 속도 향상을 얻을 수 있습니다.

셀프 테스트

[O/X] PhySIC의 최종 최적화 단계(Eq. 6)는 L-BFGS 옵티마이저를 사용한다.

정답 보기

정답: X
해설: 최종 최적화 단계에서는 Adam 옵티마이저를 사용하여 100회 반복의 경사 하강법을 수행합니다. L-BFGS는 두 번째 최적화 단계(Eq. 5)에서 사용됩니다.

[빈칸] 최근접 이웃 탐색 속도를 높이기 위해, 가장 가까운 장면 포인트의 ___ 그리드를 미리 계산하는 기법을 사용했다.

정답 보기

정답: $128^3$
해설: 이 논문에서는 최근접 이웃 구조의 스케일 불변 특성을 활용하여 $128^3$ 크기의 그리드를 미리 계산함으로써, brute-force 방식 대비 15-20배의 속도 향상을 달성했습니다.

[서술형] PhySIC이 최적화 과정에서 brute-force 방식 대비 15-20배의 속도 향상을 달성할 수 있었던 핵심적인 구현 기법은 무엇이며, 이 기법이 어떻게 작동하는지 설명하시오.

정답 보기

모범답안: 핵심 기법은 최근접 이웃 탐색을 위한 그리드 사전 계산입니다. 최적화 과정에서 장면의 스케일이 변하더라도, 포인트들 간의 최근접 이웃 관계는 스케일에 불변한다는 특성을 이용합니다. 이를 통해, 초기 스케일에서 한 번만 $128^3$ 크기의 그리드에 각 셀에서 가장 가까운 장면 포인트를 저장해 둡니다. 이후 최적화 반복 시에는 쿼리 포인트를 현재 스케일에서 초기 스케일로 변환한 뒤, 이 사전 계산된 그리드를 조회하여 매우 빠르게 최근접 이웃을 찾을 수 있습니다. 이로써 매번 모든 장면 포인트와 거리를 계산하는 brute-force 방식의 비효율을 피할 수 있었습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

모든 사람을 동시에 인페인팅하여 장면을 얻은 다음, 섹션 3.2에 따라 각 사람의 메시를 개별적으로 장면에 정렬합니다.

그런 다음 수식 (6)을 사용하여 기본 장면과 모든 사람 간의 단일 공동 최적화를 수행합니다.

4 Experiments (실험)4.1 Implementation Details (구현 세부사항)

우리는 최적화 프레임워크를 PyTorch (Paszke/2019/PyTorch)를 사용하여 구현하고, PyTorch3D (Ravi/2020/PyTorch3D)를 사용하여 다수의 사람을 처리하기 위한 배치 3D 기하학 연산을 사용합니다.

초기화 단계에서는 깨끗한 장면 기하학을 보장하기 위해 평균 $k$-NN 거리를 사용하여 공격적인 이상치 포인트 제거를 수행하며, 여기서 $k$는 이미지 해상도에 따라 적응적으로 설정됩니다.

첫 번째 최적화(수식 3)에서는 Adam (Kingma/2017/Adam)을 사용하여 30회의 경사 하강법을 수행합니다.

두 번째 최적화(수식 5)에서는 L-BFGS (Liu/1989/L-BFGS)를 사용하여 2회의 반복을 수행합니다.

우리의 최종 최적화(수식 6)는 Adam을 사용한 100회의 경사 하강법을 활용합니다.

두 경사 하강법 모두 $1e-2$의 학습률을 사용하며, L-BFGS 옵티마이저는 단위 학습률을 사용합니다.

카메라를 향하는 마스크 $V_{cf}$는 최적화 과정 내내 안정적으로 유지되지만, 자기 가림 상태는 포즈 최적화로 인해 변할 수 있습니다.

따라서, 최종 경사 하강법의 매 30회 반복마다 $V_{occ}$를 업데이트합니다.

더 자세한 내용은 보충 자료를 참조하십시오.

$L_c$와 $L_i$에서 자주 사용되는 연산은 최근접 이웃 탐색입니다.

최적화 중 장면 스케일이 변함에도 불구하고, 우리는 최근접 이웃 구조의 스케일 불변 특성을 활용하여 가장 가까운 장면 포인트들의 $128^3$ 그리드를 미리 계산하고, 쿼리 포인트를 초기 스케일로 변환합니다.

이는 무차별 대입 방식의 구현에 비해 전체적으로 15–20배의 속도 향상을 가져옵니다.

NVIDIA H100 GPU에서 우리의 최적화는 480p 이미지에 대해 9초, 720p 이미지에 대해 12초가 소요되며, 이는 종단 간 인간-장면 재구성 시간으로 각각 27초와 36초를 의미합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 subgraph 최적화 파이프라인 A[초기화: 이상치 제거] --> B[1차 최적화: Adam 30회]:::core B --> C[2차 최적화: L-BFGS 2회]:::core C --> D[최종 공동 최적화: Adam 100회]:::core D -- 매 30회마다 -- E[V_occ 업데이트] end subgraph 속도 향상 기법 F[최근접 이웃 탐색] --> G[스케일 불변성 활용]:::idea G --> H[128x128x128 그리드 사전 계산]:::idea H --> I[15-20배 속도 향상] end

핵심 콕콕

• 최적화 프레임워크는 PyTorch와 PyTorch3D를 기반으로 구현되었습니다.
• 최적화는 Adam (30회), L-BFGS (2회), 그리고 최종 Adam (100회)의 3단계로 구성됩니다.
• 핵심적인 속도 향상 비결은 최근접 이웃 탐색 시 스케일 불변성을 이용해 그리드를 미리 계산하는 것입니다.
• 이 기법을 통해 무차별 대입 방식보다 15-20배 빠른 속도를 달성했습니다.
• NVIDIA H100 GPU 기준, 480p 이미지의 종단 간 재구성 시간은 27초로 매우 효율적입니다.

구현 힌트

최적화 과정에서 최근접 이웃 탐색이 병목 현상을 일으킨다면 이 논문의 아이디어를 참고하세요. 장면의 기하학이 고정되어 있다면, 스케일이 변하더라도 최근접 이웃 관계는 변하지 않습니다. 따라서 초기에 한 번만 비용이 큰 그리드를 계산해두고, 최적화 중에는 쿼리 포인트를 초기 스케일로 변환하여 그리드에서 빠르게 조회하면 전체 속도를 크게 향상시킬 수 있습니다. 이는 포인트 클라우드 기반 최적화에서 널리 쓰이는 유용한 트릭입니다.

쉬운 비유

최근접 이웃 탐색 가속화f>를 쉽게 비유해볼게요.

- 여러분이 도시의 모든 집에서 가장 가까운 편의점을 찾아야 하는 임무를 맡았다고 상상해보세요.
- 비효율적인 방법: 새로운 집 주소를 받을 때마다, 그 집에서부터 도시의 모든 편의점까지 거리를 일일이 재보는 것입니다. (무차별 대입 방식)
- 똑똑한 방법: 미리 도시 지도를 만들고, 각 동네 블록마다 '이 블록에서는 저기 GS25가 제일 가까워!'라고 표시해두는 겁니다. (그리드 사전 계산)

이제 누군가 자기 집 주소를 알려주면, 여러분은 지도에서 그 집이 속한 동네 블록을 찾기만 하면 즉시 가장 가까운 편의점을 알려줄 수 있습니다. 이 논문의 방법이 바로 이 '미리 만들어둔 지도'를 사용하는 것과 같습니다. 지도를 확대하거나 축소해도(스케일 변경), 각 블록에서 가장 가까운 편의점이 바뀌지 않는다는 점(스케일 불변성)을 이용한 것이죠.

셀프 테스트

[빈칸] 저자들은 최근접 이웃 탐색 연산을 가속화하기 위해, 이웃 구조의 ___ 특성을 활용하여 그리드를 미리 계산했습니다.

정답 보기

정답: 스케일 불변 (scale-invariant)
해설: 최적화 중 장면의 스케일이 변하더라도, 포인트 간의 최근접 이웃 관계는 변하지 않는다는 스케일 불변 특성을 활용하여 속도를 크게 향상시켰습니다.

[O/X] 최종 최적화 과정에서 자기-가림(self-occlusion) 마스크는 한 번만 계산되고 고정된다.

정답 보기

정답: X
해설: 자기-가림 상태는 포즈 최적화에 따라 변할 수 있으므로, 최종 경사 하강법 과정에서 매 30회 반복마다 업데이트됩니다.

[서술형] 이 논문에서 사용된 세 단계의 최적화 과정과 각 단계에서 사용된 옵티마이저 및 반복 횟수를 설명하시오.

정답 보기

모범답안: 첫 번째 최적화는 Adam 옵티마이저를 사용하여 30회 반복합니다. 두 번째 최적화는 L-BFGS를 사용하여 2회 반복합니다. 마지막 최종 공동 최적화는 다시 Adam을 사용하여 100회 반복합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4.2 Evaluation Protocol (평가 프로토콜)

저희는 PhySIC을 기존 연구들과 비교하여 평가하기 위해, 인간과 정적 장면 스캔을 모두 포함하는 PROX (Hassan/2019/PROX) 및 RICH (Huang/2022/RICH) 데이터셋을 사용합니다.

PROX 데이터셋은 실내 환경에서 한 명의 피실험자가 다양한 장면의 객체들과 상호작용하는 것을 포착합니다.

반면, RICH는 실내 및 실외 환경을 모두 다루는 두 장면의 비디오를 포함하며, 각 장면은 6-8대의 카메라로 촬영되어 약 125,000 프레임에 달하는 높은 중복성을 가집니다. 이로 인해 전체 평가는 비용이 많이 듭니다.

따라서 저희는 PROX-quantitative의 모든 178개 이미지와, 가능한 모든 카메라, 활동, 배경을 포함하도록 RICH에서 무작위로 샘플링한 100개의 이미지를 사용합니다.

또한, 실내 환경에서 정적인 장면과 상호작용하는 인간의 비디오를 포함하는 PiGraphs 데이터셋 (Savva/2016/PiGraphs)에 대한 정성적 결과를 제공합니다.

마지막으로, 저희 접근법의 일반화 가능성을 보여주기 위해 인터넷에서 수집한 다양한 실사 이미지를 사용합니다.

저희는 PhySIC을 단안 이미지로부터 인간-장면 상호작용을 공동으로 모델링하는 두 가지 최신 접근법인 PROX (Hassan/2019/PROX)와 HolisticMesh (Weng/2021/HolisticMesh)와 비교합니다.

HolisticMesh는 단일 RGB 이미지로부터 인간-장면을 추정하는 반면, PROX는 최적화를 위해 정적인 3D 장면 스캔이 필요합니다.

공정한 비교를 가능하게 하고 RGB 이미지에 대해 PROX를 평가하기 위해, 저희는 두 가지 수정을 수행했습니다.

첫째, 정적 장면을 DepthPro (Bochkovskii/2024/DepthPro)에서 얻은 역투영된 깊이 맵으로 대체했습니다.

더 나아가, PROX의 포즈 사전 정보인 VPoser (Pavlakos/2019/SMPL-X)를 최신 기술인 CameraHMR로 교체했습니다.

구체적으로, 저희는 CameraHMR (Patel/2024/CameraHMR)을 사용하여 포즈 최적화를 초기화하고 정규화했습니다.

전체 PROX-Quantitative 시퀀스에 대해 단일 정적 장면을 맞추는 HolisticMesh와 달리, 저희 방법은 얇은 구조물과의 상호작용이 없는 프레임에서 얻은 단일 인페인팅된 이미지에만 의존합니다.

이는 프레임별 인페인팅의 필요성을 피하게 하고, 각 프레임에서 시퀀스 수준의 단서에 의존하지 않고 인간과 장면을 독립적으로 최적화할 수 있게 합니다.

이러한 경량 설계에도 불구하고, 저희의 인페인팅은 강건하게 일반화되며, 시퀀스 정보가 전혀 없어도 실사 이미지에서 직접적으로 잘 작동합니다.

4.3 Qualitative Analysis (정성적 분석)4.3.1 Human-scene Reconstruction (인간-장면 재구성)

쪽집게 과외

핵심 콕콕

• 평가 데이터셋: PROX, RICH, PiGraphs 및 인터넷 실사 이미지를 사용하여 포괄적인 평가를 수행합니다.
• 비교 대상: 최신 기술인 PROX와 HolisticMesh를 베이스라인으로 설정하여 성능을 비교합니다.
• 공정한 비교 설정: 원본 PROX는 3D 스캔이 필요하지만, 단일 이미지 기반인 PhySIC과 공정하게 비교하기 위해 DepthPro로 생성한 깊이 맵을 사용하도록 수정했습니다.
• PhySIC의 장점: 전체 비디오 시퀀스 정보 없이 단일 프레임만으로도 인간과 장면을 독립적으로 최적화할 수 있는 경량 설계를 채택하여, 일반 인터넷 이미지에도 강건한 성능을 보입니다.

함정 주의

PROX 데이터셋과 PROX 방법을 혼동하지 마세요.
- PROX 데이터셋: 평가에 사용된 데이터 모음입니다.
- PROX 방법: 비교 대상으로 사용된 기존 연구입니다. 본 논문에서는 공정한 비교를 위해 원본 PROX 방법을 일부 수정하여 사용했습니다 (3D 스캔 대신 깊이 맵 사용).

쉬운 비유

공정한 비교를 위한 실험 설정 변경f>을 쉽게 비유해볼게요.
- 육상 선수 A와 B의 달리기 실력을 비교하는 것과 같아요. 선수 A는 최신형 운동화를 신고 있고, 선수 B는 낡은 신발을 신고 있다면 공정한 비교가 아니겠죠? 공정한 비교를 위해서는 두 선수에게 동일한 조건(예: 같은 모델의 운동화)을 제공해야 합니다. 이 논문에서도 PROX라는 기존 방법이 원래는 '3D 스캔'이라는 고급 장비(최신형 운동화)를 사용했지만, PhySIC은 '단일 이미지'라는 기본 장비만 사용하기 때문에, PROX도 비슷한 조건인 '깊이 맵'을 사용하도록 조건을 맞춰준 것입니다.

셀프 테스트

[O/X] PhySIC은 평가를 위해 PROX 데이터셋의 전체 비디오 시퀀스 정보를 사용한다.

정답 보기

정답: X
해설: PhySIC은 각 프레임을 독립적으로 처리하며 시퀀스 수준의 단서를 사용하지 않는 경량 설계를 특징으로 합니다.

[빈칸] PROX 방법을 단일 RGB 이미지로 평가하기 위해, 정적 3D 장면 스캔을 ___에서 얻은 역투영된 깊이 맵으로 대체했다.

정답 보기

정답: DepthPro
해설: 논문에서는 공정한 비교를 위해 DepthPro 모델을 사용하여 깊이 맵을 생성하고 이를 PROX 방법의 입력으로 사용했습니다.

[서술형] 저자들이 HolisticMesh와 자신들의 방법을 비교하며 강조한 PhySIC의 핵심적인 설계상 장점은 무엇이며, 이것이 왜 중요한가?

정답 보기

모범답안: PhySIC은 전체 시퀀스에 대해 단일 정적 장면을 맞추는 HolisticMesh와 달리, 상호작용이 없는 프레임의 단일 인페인팅된 이미지만을 사용하여 각 프레임을 독립적으로 최적화합니다. 이는 프레임별 인페인팅의 필요성을 없애고 시퀀스 수준의 단서에 의존하지 않는 경량 설계를 가능하게 하여, 시퀀스 정보가 없는 일반적인 인터넷 이미지에도 강건하게 일반화될 수 있다는 장점이 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

설계 덕분에, 저희의 인페인팅은 강건하게 일반화되며 순차 정보가 없어도 야생의 이미지에서 직접 잘 작동합니다.

4.3 Qualitative Analysis (정성적 분석)4.3.1 Human-scene Reconstruction (인간-장면 재구성)

Fig. 3은 인간-장면 재구성의 정성적 결과를 보여줍니다.

저희 방법과 대조적으로, PROX는 강건한 가림 처리가 부족하고 접촉 손실 함수에 적절한 거리 임계값이 없어, 부정확한 포즈와 장면 내 잘못된 위치 파악으로 이어집니다.

모델링되지 않은 장면 변형으로 인해 일부 상호 관통은 예상되지만, PROX는 이러한 예상된 불일치를 넘어서는 과도한 상호 관통을 보입니다.

유사하게, HolisticMesh 또한 눈에 띄는 상호 관통을 겪으며, 특정 야생 환경 예제에서는 실행에 실패하여 일반화 가능성의 한계를 드러냅니다.

반면, PhySIC의 강건한 가림 처리와 접촉에 대한 정제된 거리 임계값 설정은 더 정확한 포즈, 더 나은 위치 파악, 그리고 상당히 감소된 상호 관통으로 이어져, 복잡한 장면에서의 강건성을 성공적으로 높입니다.

추가적인 결과는 Fig. 7과 보충 자료를 참조하십시오.

4.3.2 Contact Estimation (접촉 추정)

Fig. 4에서는 접촉 추정 방법인 DECO (Tripathi/2023/DECO)와의 비교 예시를 보여줍니다.

저희의 공동 최적화는 노이즈가 있을 수 있는 DECO의 접촉 추정치에 의해 유도됩니다.

하지만, 저희 접근 방식은 정확한 인간-장면 상호작용을 강건하게 복원하고, 특히 발이나 팔과 같은 복잡한 신체 부위에서 접촉을 더욱 개선합니다.

추가 예시는 Fig. 6에서 찾아볼 수 있습니다.

4.4 Quantitative Analysis (정량적 분석)

저희는 3D 인간 포즈와 정점 수준의 접촉 지표 모두에 대해 저희 방법을 정량적으로 평가합니다.

쪽집게 과외

핵심 콕콕

• PhySIC은 PROX, HolisticMesh와 비교하여 가림 처리, 포즈 정확도, 상호 관통 문제에서 정성적으로 더 우수한 결과를 보입니다.
• PROX는 강건한 가림 처리 기능이 부족하고 과도한 상호 관통 문제가 발생합니다.
• HolisticMesh 역시 상호 관통 문제가 있으며, 일부 복잡한 실제 환경 이미지에서는 실행되지 않는 한계가 있습니다.
• PhySIC은 DECO의 초기 접촉 추정치를 사용하지만, 공동 최적화를 통해 이를 개선하여 발이나 팔과 같은 미세한 부분의 접촉 정확도를 높입니다.

함정 주의

PhySIC의 접촉 추정과 DECO의 접촉 추정을 혼동하지 마세요.
PhySIC은 DECO의 초기 추정치를 입력으로 사용하지만, 이는 시작점일 뿐입니다. PhySIC은 장면 형상과 물리적 타당성을 고려하는 공동 최적화 과정을 통해 DECO의 결과를 개선하여 더 정확하고 일관성 있는 최종 접촉 맵을 생성합니다.

셀프 테스트

[O/X] PhySIC은 PROX나 HolisticMesh와 비교했을 때, 상호 관통(interpenetration) 문제가 더 심각하다.

정답 보기

정답: X
해설: 본문에 따르면 PhySIC은 PROX와 HolisticMesh에 비해 상호 관통을 '상당히 감소'시켜 더 나은 결과를 보입니다.

[빈칸] PhySIC은 ___의 초기 접촉 추정치를 사용하여 공동 최적화를 수행하지만, 최종 결과는 이를 더욱 개선하여 발이나 팔과 같은 복잡한 신체 부위의 접촉 정확도를 높입니다.

정답 보기

정답: DECO
해설: PhySIC은 DECO의 접촉 추정치를 가이드로 사용하지만, 노이즈가 있을 수 있는 이 초기값을 최적화 과정을 통해 개선합니다.

[서술형] PhySIC이 기존 방법론인 PROX 및 HolisticMesh에 비해 정성적으로 우수한 점을 2가지 이상 서술하시오.

정답 보기

모범답안: PhySIC은 1) 강건한 가림(occlusion) 처리 능력, 2) 더 정확한 포즈 및 위치 파악(localization), 3) 현저히 감소된 상호 관통(interpenetration) 측면에서 PROX 및 HolisticMesh보다 우수합니다. 또한, HolisticMesh가 실패하는 복잡한 실제 환경 이미지에서도 강건하게 작동합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Fig. 4에서 볼 수 있습니다. 저희의 공동 최적화는 노이즈가 있을 수 있는 DECO의 접촉 추정에 의해 유도됩니다. 하지만 저희의 접근 방식은 정확한 인간-장면 상호작용을 강건하게 복구하고, 특히 발과 팔과 같은 복잡한 신체 부위에서 접촉을 더욱 개선합니다. 추가 예시는 Fig. 6에서 찾을 수 있습니다.

4.4 Quantitative Analysis (정량적 분석)

저희는 3D 인체 포즈와 정점 수준 접촉 지표 모두에 대해 제안 방법을 정량적으로 평가합니다. 3D 인체 포즈에 대해서는, 카메라 기준 예측 관절과 GT(Ground Truth) 인체 관절 사이의 평균 유클리드 거리인 평균 관절 위치 오차(MPJPE)를 보고합니다. 또한 전역 정렬 후 MPJPE를 계산하여 루트 기준 인체 포즈를 효과적으로 비교하는 프로크루스테스 정렬 MPJPE(PA-MPJPE)를 사용합니다. 추가적으로, 예측된 인체 형상 $β$를 고려하는, 예측 메시 정점과 GT 메시 정점 사이의 평균 유클리드 거리인 평균 정점 위치 오차(MPVPE)를 보고합니다. 인간-장면 접촉에 대해서는, 예측된 정점별 접촉과 GT 정점별 접촉을 사용하여 계산된 표준 분류 지표(정밀도, 재현율, F1 점수)를 보고합니다.

표 2의 결과는 저희의 접근 방식이 인체 포즈와 접촉 추정 모두에서 최첨단 성능을 달성함을 보여줍니다. 특히 PROX 데이터셋에서, PROX와 HolisticMesh 모두 CameraHMR로부터 초기화되었음에도 불구하고, 이들과 비교하여 PA-MPJPE를 거의 절반으로 크게 줄였습니다. 저희 방법은 모든 포즈 및 접촉 지표에서 최첨단 기술인 CameraHMR와 DECO를 지속적으로 개선합니다. 저희 방법은 또한 접촉 정확도에서 HolisticMesh를 능가하며 F1 점수에서 40%의 향상을 보였습니다. 비록 HolisticMesh가 PROX에서 약간 더 나은 MPJPE와 MPVPE를 보이지만, PROX가 아닌 실제 환경 이미지(Fig. 7)에서는 성능이 저조하며, PA-MPJPE가 나타내듯이 심각한 상호 관통과 부정확한 지역 포즈 문제를 겪습니다.

RICH 데이터셋에서는 HolisticMesh를 평가할 수 없었는데, 이는 HolisticMesh가 제한된 객체 카테고리가 있는 실내 생활 환경에 대해서만 훈련된 반면, RICH는 HolisticMesh의 카테고리를 벗어나는 실내와 실외 모두에서 촬영되었기 때문입니다. 저희 방법은 포즈와 접촉 지표 모두에서 PROX를 능가합니다.

4.5 Ablation Study (절제 연구)

저희는 공동 최적화 단계에서 여러 손실 항들이 미치는 영향을 조사하고 그 결과를 PROX 데이터셋에 대해 보고합니다. 기본적인 2D 관절 재투영 손실 $L_{j2d}$와 정규화 항에서 시작하여, 식 (6)에 정의된 손실들을 최적화 과정에 점진적으로 추가합니다. 저희의 초기화 접근 방식인 CameraHMR와 DECO의 성능과 절제 연구 결과를 표 3에 보고합니다. $L_{reg} + L_{j2d}$만 사용했을 때, 인체 포즈 지표는 초기 추정치에 비해 저하됩니다. 이는 단안 환경의 깊이 모호성 때문입니다. 즉, 완벽한 2D 정합이 정확한 3D 포즈를 의미하지는 않습니다. 이로 인해 인간-장면 상호작용 손실($L_c$와 $L_i$)로부터의 추가적인 제약 조건이 필요합니다. 하지만 이 손실들은 가장 가까운 장면 점들에 대해 적용되기 때문에, 실제 접촉 영역과 어긋날 수 있습니다. 이를 해결하기 위해, 저희는 인간 점들 $P_h$에 대한 손실도 포함합니다. 깊이 정렬 손실(+$L_d$)은 장면 내 인간의 위치 추정을 개선하여 $L_c$와 $L_i$가 올바른 장면 영역에 작용하도록 보장함으로써, 포즈와 접촉 모두에서 결정적인 향상을 가져옵니다. 저희의 가림 인지 상호 관통 손실($L_i$에서 $V_{occ}$ 제외)은 더 나아가 가장 큰 PA-MPJPE 이득(41.91로)을 제공하고 최고의 접촉 재현율과 F1 점수를 달성합니다. 가림 인지 없이는, 지역 신체 포즈(PA-MPJPE)가 초기화보다 훨씬 더 나빠진다는 점에 유의해야 합니다. 이는 가려진 부분이 입력 이미지로부터의 정규화 없이 상호 관통으로 인해 과도하게 페널티를 받아, 올바른 신체 포즈에서 크게 벗어나기 때문입니다. 저희의 실험은 가림 추론의 중요성을 강조하며, 이는 Xie/2023/CHORE-like, Xie/2025/InterTrack과 같은 이전 연구들과 일치합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef pros fill:#D0F1B9 classDef warn fill:#FFD3C2 sub_init[초기화 (CameraHMR/DECO)] --> A[L_reg + L_j2d 추가] A --> A_res[오히려 성능 저하]:::warn A_res --> B[L_c (접촉 손실) 추가] B --> C[L_i (상호관통 손실) 추가] C --> D[L_d (깊이 정렬 손실) 추가] D --> D_res[전역 위치 정확도(MPJPE) 크게 향상]:::pros D_res --> E[가림 인지 L_i 적용] E --> E_res[지역 포즈 정확도(PA-MPJPE) 크게 향상]:::pros E_res --> F[바닥 평면 추가] F --> F_res[최종 모델 (PhySIC)]:::core

핵심 콕콕

• PhySIC은 PA-MPJPE(지역 포즈)와 F1 점수(접촉)에서 PROX, HolisticMesh 같은 기존 방법들을 크게 능가합니다.
• HolisticMesh는 PROX 데이터셋에서는 수치상으로 비슷해 보이지만, 실제 환경 이미지에서는 심각한 상호 관통과 부정확한 포즈 문제를 보이며 실패하는 경우가 많습니다.
• 절제 연구(Ablation Study) 결과, '깊이 정렬 손실($L_d$)'이 3D 공간상 올바른 위치를 잡는 데 결정적이었고, '가림 인지 상호관통 손실($L_i$)'이 정확한 포즈를 만드는 데 가장 큰 기여를 했습니다.
• 단순히 2D 이미지에만 맞추는 것은 단안 카메라의 깊이 모호성 때문에 오히려 3D 결과를 악화시킬 수 있습니다.

함정 주의

MPJPE와 PA-MPJPE를 혼동하지 마세요.
- MPJPE (Mean Per-Joint Position Error)는 카메라를 기준으로 한 3D 관절 위치의 '절대적인' 오차입니다. 사람이 엉뚱한 곳에 서 있으면 이 값이 크게 나옵니다.
- PA-MPJPE (Procrustes Aligned MPJPE)는 예측 포즈와 정답 포즈를 먼저 정렬시킨 후(Procrustes 정렬) 오차를 측정합니다. 즉, 전역 위치와 상관없이 '포즈 자체'가 얼마나 정확한지를 평가하는 지표입니다. 이 논문에서 PA-MPJPE가 크게 향상된 것은 PhySIC이 더 자연스럽고 정확한 자세를 만든다는 의미입니다.

셀프 테스트

[O/X] PhySIC의 절제 연구에 따르면, 2D 재투영 손실($L_{j2d}$)만 추가해도 초기 추정치보다 3D 포즈 정확도가 향상되었다.

정답 보기

정답: X
해설: 2D 재투영 손실만 사용하면 단안 이미지의 깊이 모호성 때문에 오히려 3D 포즈 지표가 저하되었습니다. 깊이 정렬 손실($L_d$)과 같은 추가적인 3D 제약 조건이 필수적입니다.

[빈칸] 절제 연구에서 전역 위치 정확도(MPJPE)를 가장 크게 향상시킨 손실 항은 ___ 이고, 지역 포즈 정확도(PA-MPJPE)를 가장 크게 향상시킨 손실 항은 ___ 이다.

정답 보기

정답: 깊이 정렬 손실($L_d$), 가림 인지 상호관통 손실($L_i$)
해설: 깊이 정렬 손실은 사람을 3D 공간의 올바른 위치에 놓는 역할을 하며, 가림 인지 상호관통 손실은 가려진 신체 부위를 고려하여 더 정확하고 자연스러운 포즈를 만드는 데 기여합니다.

[서술형] 가림(occlusion)을 인지하는 것이 상호관통 손실에서 왜 중요한지, 특히 PA-MPJPE 개선과 관련하여 설명하시오.

정답 보기

모범답안: 가림을 인지하지 않으면, 이미지에 보이지 않는 신체 부위(예: 의자에 가려진 등)가 장면에 파고들 때 무조건 페널티를 받게 됩니다. 이를 피하기 위해 모델이 비현실적이거나 부자연스러운 포즈(예: 등을 과도하게 펴는)를 만들 수 있습니다. 가림을 인지하면 보이지 않는 부분에 대해서는 상호관통 페널티를 적용하지 않거나 약하게 적용하여, 2D 증거가 없는 상황에서도 초기 추정치에 기반한 자연스러운 포즈를 유지할 수 있습니다. 이는 전역 위치가 아닌 포즈 자체의 정확성(PA-MPJPE)을 크게 향상시킵니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4.5 Ablation Study (절제 연구)

우리는 우리의 공동 최적화 단계에 대한 여러 손실 항들의 영향을 조사하고 PROX 데이터셋에 대한 결과를 보고합니다.

기본적인 2D 관절 재투영 손실 $L_{j2d}$와 정규화 항에서 시작하여, 우리는 식 (6)에 정의된 더 많은 손실들을 최적화 과정에 점진적으로 추가합니다.

우리는 우리의 초기화 접근법인 CameraHMR과 DECO의 성능, 그리고 절제 연구 결과를 표 3에 보고합니다.

단지 $L_{reg}+L_{j2d}$만 사용했을 때, 인간 포즈 지표는 초기 추정치에 비해 저하됩니다.

이는 단안 환경에서의 깊이 모호성 때문입니다. 즉, 완벽한 2D 정합이 정확한 3D 포즈를 의미하지는 않습니다.

이는 인간-장면 상호작용 손실($L_c$와 $L_i$)로부터의 추가적인 제약 조건을 필요로 합니다.

하지만, 이 손실들은 가장 가까운 장면 포인트에 대해 적용되기 때문에 실제 접촉 영역과 어긋날 수 있습니다.

이를 해결하기 위해, 우리는 인간 포인트 $P_h$에 대한 손실도 포함합니다.

깊이 정렬 손실(+$L_d$)은 장면 내 인간의 위치 추정을 개선하기 때문에 포즈와 접촉 모두에서 결정적인 향상을 보입니다. 이는 $L_c$와 $L_i$가 올바른 장면 영역에 작용하여 효과적이 되도록 보장합니다.

우리의 가림 인지 상호관통 손실($V_{occ}$가 제외된 $L_i$)은 더 나아가 PA-MPJPE에서 가장 큰 이득(41.91로)을 제공하고 최고의 접촉 재현율과 F1 점수를 달성합니다.

가림 인지 기능이 없으면 지역 신체 포즈(PA-MPJPE)가 초기화 상태보다 오히려 더 나빠진다는 점에 유의해야 합니다.

이는 가려진 부분이 입력 이미지로부터의 정규화 없이 상호관통으로 인해 과도하게 페널티를 받을 수 있어, 올바른 신체 포즈에서 크게 벗어나게 되기 때문입니다.

우리의 실험은 Xie et al./2023/CHORE, Xie et al./2025/InterTrack의 이전 연구들과 일관되게 가림 추론의 중요성을 강조합니다.

자세한 정성적 결과는 보충 자료를 참조하십시오.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef warn fill:#FFD3C2; classDef pros fill:#D0F1B9; A[초기화 (CameraHMR)] --> B[L_reg + L_j2d 추가]; B --> C["포즈 정확도 저하
(깊이 모호성)"]:::warn; C --> D[L_c (접촉 손실) 추가]; D --> E[L_i (상호관통 손실) 추가]; E --> F[L_d (깊이 정렬 손실) 추가]:::idea; F --> G["전역 위치 추정 개선
(MPJPE 향상)"]:::pros; G --> H["가림 인지 L_i 추가"]:::idea; H --> I["지역 포즈 정확도 대폭 향상
(PA-MPJPE)"]:::pros; I --> J[최종 모델 (+ 바닥 평면)]:::core;

핵심 콕콕

• 단순 2D 재투영 손실만으로는 3D 포즈가 오히려 나빠질 수 있습니다 (깊이 모호성 문제).
• 깊이 정렬 손실(L_d)은 인간의 3D 위치를 잡아주어 다른 손실(L_c, L_i)들이 효과적으로 작동하게 하는 핵심 요소입니다.
• 가림(Occlusion)을 인지하는 상호관통 손실은 가려진 신체 부위의 비정상적인 움직임을 막아 지역적 포즈 정확도(PA-MPJPE)를 크게 향상시킵니다.

구현 힌트

Ablation study는 모델 설계 시 각 구성 요소의 중요도를 정량적으로 파악하는 좋은 방법입니다. 손실 함수를 하나씩 추가하며 성능 변화를 측정하면, 어떤 항이 가장 큰 영향을 미치는지, 혹은 불필요한 항은 없는지 확인할 수 있습니다. 이 논문처럼, 특정 항(예: 깊이 정렬 손실)이 다른 항들의 효과를 증폭시키는 '필수 조건'임을 밝혀낼 수도 있습니다.

쉬운 비유

절제 연구(Ablation Study)f>를 쉽게 비유해볼게요.
- 레고로 자동차를 만드는 것과 같아요. 처음에는 바퀴 4개와 몸체만으로 시작해요(기본 손실). 굴러는 가지만 엉성하죠.
- 여기에 '의자는 사람 모양에 맞아야 한다'(접촉 손실)는 규칙을 추가하고, '사람 다리가 차체를 뚫으면 안 된다'(상호관통 손실)는 규칙을 더해요. 조금씩 나아지지만, 아직 차가 공중에 떠 있을 수 있어요.
- '바퀴는 반드시 땅에 닿아야 한다'(깊이 정렬 손실)는 결정적인 규칙을 추가하면, 비로소 차가 제 위치를 잡고 안정적으로 보여요.
- 마지막으로 '보이지 않는 엔진 부품은 원래 설계대로 둔다'(가림 인지)는 규칙을 추가하면, 보이지 않는 부분까지 망가지지 않고 완성도가 높아져요.

셀프 테스트

[O/X] 단안 이미지에서 2D 관절 위치를 완벽하게 맞춰도 3D 포즈는 부정확할 수 있다.

정답 보기

정답: O
해설: 본문의 절제 연구에서 보여주듯, 깊이 모호성(depth ambiguity) 때문에 2D 재투영 손실만으로는 3D 포즈의 정확도를 보장할 수 없으며, 오히려 초기 추정보다 성능이 저하될 수 있습니다.

[빈칸] 절제 연구 결과, 전역적 위치 추정(MPJPE)에 가장 결정적인 향상을 가져온 손실 항은 ___ 손실이다.

정답 보기

정답: 깊이 정렬 (L_d)
해설: 깊이 정렬 손실은 장면 내에서 인간의 3D 위치를 정확하게 잡아주는 역할을 하여, 이후 접촉 및 상호관통 손실이 올바른 위치에서 계산되도록 돕습니다.

[서술형] 상호관통 손실(L_i)에 '가림 인지(occlusion-aware)' 기능을 추가하지 않았을 때, 지역 포즈 정확도(PA-MPJPE)가 오히려 초기값보다 나빠지는 이유는 무엇인가?

정답 보기

모범답안: 가려진 신체 부위는 입력 이미지에서 2D 관절 같은 직접적인 시각적 단서를 얻을 수 없습니다. 이런 상황에서 가림을 고려하지 않고 상호관통 손실을 모든 정점에 동일하게 적용하면, 가려진 부분이 장면과 겹치지 않으려는 힘만 받게 됩니다. 다른 제약 조건이 없는 상태에서 이 힘은 해당 신체 부위를 비현실적이거나 해부학적으로 불가능한 포즈로 밀어내어, 결과적으로 지역 포즈의 정확도를 크게 떨어뜨립니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

5 Limitations And Future Works (한계점 및 향후 연구)

PhySIC은 단일 이미지로부터 물리적으로 타당한 인간-장면 재구성에 있어 최신 기술 수준을 발전시켰지만, 몇 가지 한계점이 남아 있으며 이는 향후 연구 방향을 제시합니다.

(i) 이미지 인페인팅. 저희의 접근 방식은 가려진 장면 영역을 재구성하기 위해 Wei/2025/OmniEraser와 같은 최신 인페인팅 모델에 의존합니다.

이러한 모델들은 특히 얇거나 복잡한 구조에 대해 불완전하여, 기하학적 구조가 지워지거나 변형되는 결과를 초래합니다.

인페인팅 방법이 개선됨에 따라, 저희의 접근 방식에도 직접적인 이점이 있을 것으로 기대합니다.

(ii) 장면 변형. 저희는 정적이고 강체인 장면 기하학을 가정하는데, 이는 쿠션이나 의류와 같은 변형 가능한 물체에는 적용되지 않을 수 있습니다.

PhySIC을 확장하여 비강체 장면 변형을 처리하도록 하면 더 현실적인 인간-장면 상호작용을 가능하게 할 수 있습니다.

(iii) 인간-객체 상호작용. 저희는 인간-장면 상호작용에 초점을 맞추고 있으며, 잡거나 미는 것과 같은 작은 객체와의 세밀한 상호작용을 명시적으로 모델링하지 않습니다.

향후 연구에서는 기성 객체 메시 추정기를 통합하고, 이를 재구성된 깊이 맵과 정렬하며, 추가적인 2D 객체 감독을 활용할 수 있습니다.

(iv) 평평한 바닥 가정. PhySIC은 가려짐 추론과 접촉 추정을 단순화하기 위해 바닥이 평면이라고 가정합니다.

이 가정은 일반적으로 유효하지만, 바닥 지점이 감지되지 않거나 RANSAC이 합의점을 찾지 못하는 경우에는 실패할 수 있습니다.

그러한 경우, 저희는 바닥 샘플링을 건너뛰며, 이는 위음성 접촉(false-negative contacts)을 초래할 수 있습니다.

총체적인 3D 장면 재구성 방법의 발전이 이 한계를 해결할 수 있을 것입니다 Roh/2024/Holistic 3D Scene Reconstruction.

쪽집게 과외

핵심 콕콕

• 이미지 인페인팅 의존성: 사람에 의해 가려진 배경을 복원하기 위해 외부 인페인팅 모델을 사용하는데, 이 모델의 성능이 불완전하면 장면 재구성에 오류가 발생할 수 있습니다.
• 강체 장면 가정: 쿠션이나 옷처럼 변형 가능한 물체를 고려하지 않고, 모든 장면을 딱딱한 강체로 가정하여 현실성이 떨어질 수 있습니다.
• 세밀한 상호작용 부재: 컵을 잡거나 문을 미는 등 작은 객체와의 정교한 상호작용은 모델링하지 않고, 큰 장면과의 상호작용에만 초점을 맞춥니다.
• 평평한 바닥 가정: 바닥이 항상 평평하다고 가정하기 때문에, 경사지거나 울퉁불퉁한 지형에서는 접촉을 잘못 예측할 수 있습니다.

쉬운 비유

PhySIC의 한계점f>을 쉽게 비유해볼게요.
- 이미지 인페인팅 의존성: 마치 안개 낀 날 사진을 찍고, 안개를 지우는 마법 앱에 의존하는 것과 같아요. 앱이 실수를 해서 나무를 기둥처럼 보이게 만들면, 그 잘못된 정보를 믿고 나무에 부딪힐 수 있겠죠. PhySIC도 가려진 부분을 채워주는 인페인팅 모델이 실수하면, 장면을 잘못 이해하게 됩니다.
- 강체 장면 가정: PhySIC은 세상을 딱딱한 레고 블록으로 만들어진 곳으로 봐요. 푹신한 소파에 앉는 상황을 상상해보세요. 실제로는 소파가 움푹 들어가지만, PhySIC의 세상에서는 소파가 돌처럼 딱딱해서 사람이 공중에 떠 있는 것처럼 보일 수 있어요.
- 평평한 바닥 가정: PhySIC은 모든 바닥이 체육관처럼 완벽하게 평평하다고 생각해요. 그래서 자갈밭이나 계단이 있는 곳에서는 길을 잃거나 발을 헛디딜 수 있어요. 바닥이 평평하지 않으면 어디를 밟아야 할지 제대로 계산하지 못하는 거죠.

셀프 테스트

[O/X] PhySIC은 쿠션이나 침대처럼 변형 가능한 물체와의 상호작용을 정확하게 모델링할 수 있다.

정답 보기

정답: X
해설: PhySIC은 장면이 정적이고 단단한 강체(rigid)라고 가정하기 때문에, 쿠션처럼 변형되는 물체와의 상호작용은 현실적으로 모델링하지 못하는 한계가 있습니다.

[빈칸] PhySIC은 가려진 장면을 복원하기 위해 ___ 모델에 의존하며, 이 모델의 성능이 전체 결과에 영향을 미칩니다.

정답 보기

정답: 인페인팅(inpainting)
해설: PhySIC은 사람에 의해 가려진 배경을 채우기 위해 이미지 인페인팅 기술을 사용합니다. 이 인페인팅 결과가 부정확하면 장면 재구성 자체에 오류가 발생할 수 있습니다.

[서술형] PhySIC의 '평평한 바닥 가정'이 실제 야외 환경에서 어떤 문제를 일으킬 수 있는지 구체적인 예를 들어 설명하시오.

정답 보기

모범답안: PhySIC은 바닥이 평면이라고 가정하여 접촉을 추정합니다. 이 가정은 실내 환경에서는 대체로 유효하지만, 야외 환경에서는 문제가 될 수 있습니다. 예를 들어, 울퉁불퉁한 흙길, 경사진 언덕, 또는 계단이 있는 환경에서는 '평평한 바닥' 가정이 깨집니다. 이 경우 RANSAC 알고리즘이 평면을 제대로 찾지 못해 바닥 샘플링을 건너뛰게 되고, 결과적으로 사람이 땅에 발을 딛고 있음에도 불구하고 접촉이 없다고 판단하는 '위음성(false-negative)' 오류를 발생시킬 수 있습니다. 이는 재구성된 인간이 공중에 떠 있는 것처럼 보이는 비현실적인 결과를 초래할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

PhySIC은 가려짐 추론과 접촉 추정을 단순화하기 위해 바닥이 평면이라고 가정합니다. 이 가정은 일반적으로 유효하지만, 바닥 지점이 감지되지 않거나 RANSAC이 합의점을 찾지 못하면 실패할 수 있습니다. 이러한 경우, 바닥 샘플링을 건너뛰게 되어 위음성(false-negative) 접촉이 발생할 수 있습니다. 전체적인 3D 장면 재구성 방법의 발전이 이 한계를 해결할 수 있을 것입니다 Roh/2024/Maturity of holistic 3D scene reconstruction.

6 Conclusion (결론)

우리는 단안 RGB 이미지로부터 물리적으로 타당한 인간-장면 상호작용 및 접촉을 재구성하는 프레임워크인 PhySIC을 제시합니다. 미터 스케일의 SMPL-X 인간 메시와 상세한 3D 장면 기하학을 공동으로 최적화함으로써, PhySIC은 다양한 환경에서 일관성 있고 물리적으로 현실적인 인간-장면 쌍의 재구성을 가능하게 합니다. 우리 방법은 미터 단위 깊이와 상세한 상대적 기하학을 결합하는 견고한 초기화 전략, 가려짐을 인지하는 정교화, 그리고 접촉, 상호 관통, 깊이 정렬을 강제하는 효율적인 다중 항 최적화를 도입합니다. 까다로운 벤치마크에 대한 광범위한 실험은 PhySIC이 포즈 및 접촉 지표 모두에서 이전 연구들을 상당히 능가하며, 다중 인간 및 실제 환경 시나리오에도 잘 일반화됨을 보여줍니다. PhySIC은 전체론적, 단일 이미지 기반 3D 인간 중심 장면 이해를 향한 확장 가능하고 접근성 있는 단계를 제공합니다. 우리는 인페인팅, 기초 기하학 모델, 상호작용 추론의 지속적인 발전이 우리 접근법의 능력과 일반성을 더욱 향상시킬 것으로 기대합니다. 우리는 향후 연구와 실제 적용을 지원하기 위해 코드와 평가 스크립트를 공개할 것입니다.

Acknowledgments (감사의 글)

이 논문을 개선하는 데 도움을 주신 익명의 검토자분들께 감사드립니다. 이 연구는 칼 자이스 재단의 자금 지원으로 가능했습니다. 이 연구는 또한 독일 연구 재단(DFG) - 409792180 (에미 뇌터 프로그램, 프로젝트: Real Virtual Humans)과 독일 연방 교육 연구부(BMBF): 튀빙겐 AI 센터, FKZ: 01IS18039A의 지원을 받았습니다. 저자들은 YX를 지원해준 지능 시스템을 위한 국제 막스 플랑크 연구 학교(IMPRS-IS)에 감사합니다. PYM은 연방 교육 연구부가 후원하는 DAAD 프로그램 '인공지능의 콘라트 추제 우수 학교'를 통해 학습 및 지능 시스템의 콘라트 추제 우수 학교(ELIZA)의 지원을 받습니다. GPM은 우수 클러스터 '머신러닝'의 회원입니다(EXC 번호 2064/1 – 프로젝트 번호 390727645). PYM과 YX는 공동 제1저자로서 동등하게 기여했습니다. YX는 교신 저자입니다. 동등한 기여를 한 저자들은 알파벳 순서로 나열되었으며, 이력서와 웹사이트에서 자유롭게 순서를 변경할 수 있습니다. YX는 핵심 아이디어를 초기화하고, 프로젝트를 조직했으며, 현재 방법을 공동 개발하고, 실험을 공동 감독했으며, 초안을 작성했습니다. PYM은 핵심 아이디어를 공동으로 초기화하고, 현재 방법을 공동 개발했으며, 대부분의 프로토타입을 구현하고, 실험을 수행했으며, 초안을 공동 작성했습니다. XX는 초안 작성과 그림 2 개선에 기여했습니다. MK는 그림 1, 5에 제시된 결과의 시각화와 렌더링을 주도했습니다.

쪽집게 과외

핵심 콕콕

• PhySIC은 단일 RGB 이미지로부터 물리적으로 타당한 3D 인간-장면 상호작용과 접촉을 재구성하는 프레임워크입니다.
• 핵심 전략은 견고한 초기화, 가려짐(occlusion)을 인지하는 정교화, 그리고 효율적인 다중 항 최적화를 포함합니다.
• 기존 연구 대비 포즈 및 접촉 정확도에서 뛰어난 성능을 보이며, 여러 사람이 등장하거나 실제 환경에서 찍은 이미지에도 잘 일반화됩니다.
• 주요 한계점으로는 바닥이 평평하다고 가정하는 것이 있으며, 이로 인해 실제로는 접촉했지만 접촉하지 않았다고 판단하는 오류(false-negative)가 발생할 수 있습니다.

셀프 테스트

[O/X] PhySIC은 여러 각도에서 촬영한 비디오 입력을 필수로 요구한다.

정답 보기

정답: X
해설: PhySIC은 단 하나의 단안 RGB 이미지로부터 인간-장면 재구성을 수행하는 것이 핵심적인 장점입니다.

[빈칸] PhySIC의 한계점 중 하나는 바닥이 ___하다고 가정하는 것이다.

정답 보기

정답: 평면(planar)
해설: 이 가정은 알고리즘을 단순화하지만, 바닥이 고르지 않은 실제 환경에서는 접촉 예측 오류를 유발할 수 있습니다.

[서술형] PhySIC이 물리적으로 타당한 결과를 생성하기 위해 최적화 과정에서 강제하는 제약 조건 3가지를 설명하시오.

정답 보기

모범답안: PhySIC은 효율적인 다중 항 최적화를 통해 1) 접촉(contact) 유도, 2) 상호 관통(interpenetration) 방지, 3) 깊이 정렬(depth alignment)의 세 가지 핵심 제약 조건을 동시에 강제하여 물리적으로 현실적인 결과를 만들어냅니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Figures And Tables

Fig 1: 복잡한 환경 속 인간을 포함하는 단일 단안 RGB 이미지가 주어졌을 때, PhySIC은 미터 단위로 정렬된 3D 인간 및 장면 지오메트리와 밀도 높은 정점 수준의 접촉 맵을 재구성합니다. 저희 방법은 인간 포즈, 장면 지오메트리, 전역 스케일을 공동으로 최적화하여 물리적으로 그럴듯한 인간-장면 쌍을 생성하며, 앉기나 발-바닥 접착과 같은 접촉 및 상호작용을 가려짐이 있는 상황에서도 정확하게 포착합니다. 단일 이미지로부터 미터 단위로 정확한 인간과 주변 장면을 재구성하는 것은 가상 현실, 로보틱스, 포괄적인 3D 장면 이해에 매우 중요합니다. 하지만 기존 방법들은 깊이 모호성, 가려짐, 물리적으로 일관되지 않은 접촉 문제로 어려움을 겪습니다. 이러한 문제들을 해결하기 위해, 저희는 물리적으로 그럴듯한 인간-장면 상호작용 및 접촉 재구성을 위한 통합 프레임워크인 PhySIC을 제안합니다. PhySIC은 단일 RGB 이미지로부터 공유 좌표계 내에서 미터 단위로 일관된 SMPL-X 인간 메시, 밀도 높은 장면 표면, 정점 수준의 접촉 맵을 복원합니다. 거친 단안 깊이와 파라메트릭 신체 추정치에서 시작하여, PhySIC은 가려짐을 고려한 인페인팅을 수행하고, 보이는 깊이와 스케일이 조정되지 않은 지오메트리를 융합하여 강건한 초기 미터 단위 장면 골격을 만들며, 바닥과 같이 누락된 지지 표면을 합성합니다. 이후 신뢰도 가중 최적화는 깊이 정렬, 접촉 사전 정보, 상호 관통 방지, 2D 재투영 일관성을 공동으로 적용하여 신체 포즈, 카메라 파라미터, 전역 스케일을 미세 조정합니다. 명시적인 가려짐 마스킹은 보이지 않는 신체 부위가 비현실적인 형태로 구성되는 것을 방지합니다. PhySIC은 매우 효율적이어서, 공동 인간-장면 최적화에 단 9초, 전체 재구성 과정에 27초 미만이 소요됩니다. 또한, 이 프레임워크는 자연스럽게 다수의 사람을 처리하여 다양한 인간-장면 상호작용의 재구성을 가능하게 합니다. 경험적으로, PhySIC은 단일 이미지 기반 방법들보다 성능이 월등히 뛰어나, 평균 정점별 장면 오차를 641mm에서 227mm로 줄이고, 포즈 정렬된 평균 관절 위치 오차(PA-MPJPE)를 42mm로 절반으로 줄이며, 접촉 F1-점수를 0.09에서 0.51로 향상시킵니다. 정성적 결과는 PhySIC이 현실적인 발-바닥 상호작용, 자연스러운 앉은 자세, 심하게 가려진 가구의 그럴듯한 재구성을 생성함을 보여줍니다. 단일 이미지를 물리적으로 그럴듯한 3D 인간-장면 쌍으로 변환함으로써, PhySIC은 접근 가능하고 확장 가능한 3D 장면 이해를 한 단계 발전시킵니다.

Table 1: 기존 인간-장면 재구성 방법들과 저희 방법의 비교. 저희 방법은 실내외 환경 모두에서 다중 인간 상호작용을 처리할 수 있으며, 훨씬 빠른 속도로 전체 장면을 예측합니다.

Fig 2: 방법 개요. 단일 RGB 이미지가 주어졌을 때, 3D로 정확한 인간, 장면, 접촉 재구성을 얻습니다. 먼저 상세한 지오메트리를 가진 완전한 미터 스케일 장면을 얻고(1단계, 3.1절), 접촉 없이 장면에 대략적으로 정렬된 인간 메시를 초기화합니다(2단계, 3.2절). 그런 다음 인간과 장면을 공동으로 최적화하여 상호 관통을 피하면서 접촉 제약 조건을 만족시킵니다(3단계, 3.3절).

Table 2: PROX 및 RICH 데이터셋에 대한 정량적 비교. 저희 방법은 더 나은 지역적 포즈(PA-MPJPE)와 더 정확한 접촉을 출력합니다. HolisticMesh가 PROX에서 MPJPE 수치는 더 좋게 보이지만, 실제 환경 데이터에서는 신뢰성이 떨어지고 강건하게 재구성하지 못하는 것을 발견했습니다(Fig 3 참조).

Fig 3: PROX 데이터셋(첫 번째 행)과 인터넷 이미지(두 번째, 세 번째 행)에 대한 정성적 결과. PhySIC의 출력을 PROX 및 HolisticMesh와 비교합니다. 인터넷 이미지에는 장면 스캔이 없으므로 저희가 추정한 장면으로 PROX를 실행했음을 참고하십시오. PROX와 HolisticMesh는 모두 사전 정의된 접촉 맵에 의존하기 때문에 복잡한 인간 포즈와 상호작용에 강건하지 못합니다. 저희 방법은 3D 장면을 재구성하고 입력에 기반하여 접촉 최적화를 조정하여 더 일관된 재구성을 이끌어냅니다. 더 많은 결과는 Fig 5와 Fig 7을 참조하십시오.

Table 3: 공동 인간-장면 최적화에서 다양한 손실 항의 영향을 분석한 애블레이션 연구. 깊이 손실 𝐿𝑑는 좋은 전역 정렬(MPJPE)을 보장하는 데 중요하며, 가려짐을 고려한 상호 관통 손실 𝐿𝑖는 지역적 포즈 정확도(PA-MPJPE)를 향상시킵니다.

Fig 4: 접촉 추정에 대한 정성적 결과. 저희 방법을 최신 이미지 기반 접촉 예측기인 DECO와 실험실 및 실제 환경에서 비교합니다. 저희 방법이 팔과 발의 미묘한 접촉을 어떻게 개선하는지 주목하십시오. 추가 예시는 Fig 6을 참조하십시오.

Fig 5: 실제 환경 이미지에 대한 추가적인 정성적 결과. 더 많은 결과는 보충 자료를 참조하십시오.

Fig 6: 접촉 추정에 대한 정성적 결과. 저희 방법을 최신 이미지 기반 접촉 예측기인 DECO와 비교합니다.

Fig 7: 인터넷 이미지에 대한 정성적 결과. PhySIC의 출력을 PROX 및 HolisticMesh와 비교합니다. HolisticMesh는 객체별 지오메트리를 추정하기 때문에 임의의 표면을 가진 장면을 모델링하는 데 실패합니다.