ADD - Paper Library

ENG

0:00 / 0:00

KOR

0:00 / 0:00

0. Abstract (초록)

여러 목표를 동시에 최적화해야 하는 다중 목표 최적화 문제는 수많은 응용 분야에서 널리 퍼져 있습니다. 기존의 다중 목표 최적화 방법들은 종종 수동으로 조정된 집계 함수에 의존하여 공동 최적화 목표를 공식화합니다. 이러한 수작업으로 조정된 방법의 성능은 신중한 가중치 선택에 크게 의존하며, 이는 시간이 많이 걸리고 힘든 과정입니다. 이러한 한계는 물리적으로 시뮬레이션된 캐릭터를 위한 강화학습 기반 모션 트래킹 방법의 설정에서도 발생하는데, 여기서는 일반적으로 높은 충실도의 결과를 얻기 위해 복잡하게 만들어진 보상 함수가 사용됩니다. 이러한 해결책들은 도메인 전문 지식과 상당한 수동 튜닝이 필요할 뿐만 아니라, 결과적으로 얻어지는 보상 함수가 다양한 기술에 걸쳐 적용되는 것을 제한합니다.

이러한 격차를 해소하기 위해, 저희는 모션 트래킹을 포함한 광범위한 다중 목표 강화학습 과제에 폭넓게 적용할 수 있는 새로운 적대적 다중 목표 최적화 기법을 제시합니다. 저희가 제안하는 적대적 미분 판별기(Adversarial Differential Discriminator, ADD)는 단 하나의 긍정 샘플만을 받지만, 최적화 과정을 효과적으로 이끄는 데 여전히 효과적입니다. 저희는 이 기법을 통해 캐릭터가 다양한 곡예적이고 민첩한 행동을 거의 똑같이 복제할 수 있음을 보여주며, 수동으로 설계된 보상 함수에 의존하지 않고도 최첨단 모션 트래킹 방법과 비슷한 수준의 품질을 달성합니다.

쪽집게 과외

알고리즘

flowchart TD classDef warn fill:#FFD3C2 classDef core fill:#FFDBE6 classDef pros fill:#D0F1B9 classDef ref fill:#EBEBEC subgraph 기존 방식의 한계 A[다중 목표 최적화 문제] --> B["수동 가중치/보상 함수 설계
(Weighted Sum)"]:::ref B --> C["시간 소모적 튜닝
도메인 지식 필요
일반성 부족"]:::warn end subgraph 제안 방식: ADD D[적대적 미분 판별기
(ADD)]:::core D --> E["자동으로 목표 간 균형 조절
단 하나의 '이상적 샘플'만 사용"]:::pros E --> F["수동 보상 설계 불필요
최첨단 수준의 모션 트래킹 달성"]:::pros end C --> D

핵심 콕콕

• 기존 다중 목표 최적화(MOO)는 여러 목표의 가중치를 수동으로 정해야 하는 번거로움이 있었습니다.
• 이 논문은 '적대적 미분 판별기(ADD)'라는 새로운 기법을 제안하여, 목표 간의 균형을 자동으로 학습하게 합니다.
• ADD의 핵심 아이디어는 오직 '오차가 0인 이상적인 상태'라는 단 하나의 긍정 샘플만으로도 판별기를 효과적으로 훈련시킬 수 있다는 것입니다.
• 그 결과, 수동으로 보상 함수를 설계하는 노력 없이도 기존 최고 수준의 방법들과 비슷한 품질의 모션 모방이 가능해졌습니다.

함정 주의

일반적인 '적대적 모방 학습(Adversarial Imitation Learning)'과 본 논문의 'ADD'를 혼동하지 마세요.

- 일반적인 적대적 모방 학습: 주로 모션 데이터셋의 전반적인 '스타일'이나 분포를 배우는 것을 목표로 합니다. 생성된 움직임이 원본과 정확히 일치하지 않아도 자연스럽기만 하면 됩니다.
- 본 논문의 ADD: 레퍼런스 모션의 각 프레임을 '정확하게' 따라가는 것을 목표로 합니다. 이는 스타일 모방을 넘어 정밀한 모션 복제가 필요한 애니메이션 작업 등에 필수적입니다.

쉬운 비유

ADD의 자동 목표 균형 맞추기f>를 쉽게 비유해볼게요.

- 상황: 유능한 코치가 철인 3종 경기 선수를 훈련시킨다고 상상해봅시다.

- 기존 방식 (수동 가중치 합): 초보 코치는 "훈련 시간의 50%는 수영, 30%는 사이클, 20%는 달리기에 쓰자!"처럼 미리 계획을 짭니다. 하지만 선수가 이미 수영은 잘하는데 달리기가 형편없다면, 이 계획은 비효율적입니다.

- ADD 방식 (자동 균형): 유능한 ADD 코치는 '완벽한 철인 3종 경기 선수'의 모습(단 하나의 긍정 샘플)만 머릿속에 그려둡니다. 그리고 매일 선수의 현재 상태(미분 벡터)를 보고 '완벽한 모습'과 가장 차이가 큰, 즉 가장 못하는 부분을 지적합니다. "오늘은 달리기 자세가 너무 엉망이야!" 또는 "사이클에서 달리기 전환이 너무 느려!" 라고요. 선수는 코치의 지적에 따라 자신의 가장 큰 약점을 집중적으로 보완합니다. 실력이 늘수록 코치는 더 세세한 부분을 지적하게 되죠. 이렇게 훈련의 초점이 동적으로 바뀌면서, 모든 종목이 자연스럽게 균형을 맞춰 발전하게 됩니다.

셀프 테스트

[O/X 퀴즈]

ADD는 효과적인 학습을 위해 '완벽한 모션'에 해당하는 많은 양의 긍정 샘플 데이터가 반드시 필요하다.

정답: X

해설: ADD의 핵심 특징 중 하나는 오차가 0인 이상적인 상태를 나타내는 '단 하나의 긍정 샘플'(제로 벡터)만으로도 판별기를 효과적으로 훈련시킬 수 있다는 점입니다.

[빈칸 채우기]

기존의 다중 목표 최적화 방법들은 여러 목표 함수를 합치기 위해 수동으로 ___를 조정하는 ___ ___ 방식에 의존하는 경우가 많다.

정답: 가중치, 가중합

해설: 기존 방식들은 각 목표의 중요도를 나타내는 가중치를 수동으로 설정하고 이를 모두 더하는 가중합(weighted sum) 방식을 주로 사용했으며, 이 논문은 바로 이 점을 자동화하고자 합니다.

[서술형 퀴즈]

물리 기반 캐릭터 애니메이션에서 수동으로 보상 함수를 설계하는 방식(manual reward engineering)의 한계점 두 가지를 서술하고, ADD가 이를 어떻게 해결하는지 설명하시오.

모범답안: 수동 보상 함수 설계의 한계점은 1) 캐릭터의 움직임을 자연스럽게 만들기 위해 상당한 도메인 전문 지식과 반복적인 튜닝 시간이 소요된다는 점, 2) 특정 기술에 맞춰 설계된 보상 함수는 다른 종류의 기술에 일반화하여 적용하기 어렵다는 점입니다. ADD는 이러한 문제를 해결하기 위해, 여러 목표 간의 오차를 '미분 벡터'로 만들어 판별기에게 입력합니다. 판별기는 이 벡터가 이상적인 상태(오차 0)에 얼마나 가까운지를 학습하며, 이 과정에서 어떤 목표가 더 중요한지를 동적으로 판단하여 균형을 맞춥니다. 따라서 개발자가 직접 가중치를 튜닝할 필요 없이 자동으로 최적의 보상 신호를 생성하여 한계를 극복합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

1 Introduction (서론)

물리 기반 캐릭터 애니메이션은 지난 몇 년간 빠른 발전을 이루었습니다. 데이터 기반 강화 학습 방법들은 이 분야가 보행과 같은 비교적 단순하고 일반적인 행동을 위한 컨트롤러를 합성하는 것에서부터, 매우 역동적이고 복잡한 다양한 기술을 복제할 수 있는 컨트롤러를 만드는 수준까지 성장할 수 있게 했습니다. 강화 학습 방법의 효과는 보상 함수에 크게 좌우되는데, 이는 설계하고 조정하는 데 상당한 수작업이 필요한 경향이 있습니다. 수동 보상 엔지니어링의 대안으로, 적대적 모방 학습 기술은 적대적 판별기의 형태로 데이터로부터 보상 함수를 자동으로 학습합니다. 이러한 인상적인 발전에도 불구하고, 물리 시뮬레이션 애니메이션과 인간 모션 캡처 사이에는 품질 격차가 계속 존재해왔습니다. 이전의 적대적 모방 학습 방법들은 자연스럽고 실제 같은 행동을 생성하는 데 효과적이었지만, 종종 재현하고자 하는 정확한 참조 모션에서 벗어나는 경우가 많았습니다. 목표 모션의 정밀한 복제에 초점을 맞추기보다는, 이러한 방법들은 분포 매칭 목표를 통해 모션의 전반적인 스타일을 포착합니다. 그러나 목표 모션을 긴밀하게 복제하는 것은 많은 애니메이션 응용 분야에서 매우 중요할 수 있습니다. 본 연구에서는 광범위한 다중 목표 최적화(MOO) 문제에 폭넓게 적용될 수 있는 새로운 적대적 다중 목표 최적화 기술을 제시합니다. 캐릭터 애니메이션의 모션 트래킹에 적용될 때, 우리의 기술은 물리 기반 컨트롤러가 수동으로 설계된 보상 함수에 의존하지 않고도 인간 배우로부터 기록된 도전적인 참조 모션을 정확하게 모방할 수 있게 합니다.

MOO 문제를 해결하기 위해 일반적으로 사용되는 기법은 손실 균형(loss balancing) 방법으로, 여러 목표를 가중합(weighted sum)을 통해 스칼라 함수로 결합합니다. 이 접근법은 간단하지만, 신중한 가중치 선택에 크게 의존하며, 이 과정은 수동으로 할 때 시간이 많이 걸리고 노동 집약적일 수 있습니다. 이러한 한계를 해결하기 위해, 우리 기술은 전통적인 목표 함수의 가중합을 적대적 미분 판별기(ADD)로 대체하여 여러 목표를 자동으로 통합합니다. 판별기는 목표 값들의 벡터를 입력으로 받는데, 여기서 이 벡터는 미분 벡터(differential vector)라고 지칭됩니다. 왜냐하면 목표 값들이 모델의 성능과 각 목표에 대한 이상적인 성능 간의 차이를 나타내기 때문입니다. 훈련 중에 판별기는 주어진 미분 벡터가 이상적인 해에 해당하는지 여부를 분류하는 법을 학습합니다. 이 설계는 판별기가 훈련 과정 동안 다양한 목표들의 균형을 맞추는 방법을 자동으로 그리고 동적으로 결정할 수 있게 하며, 모델의 성능이 향상됨에 따라 더 어려운 목표에 자동으로 집중하게 합니다. 더욱이, 우리의 공식에서는 판별기에 제공되는 유일한 긍정 샘플은 이상적인 '오차 없는' 해의 미분 벡터를 나타내는 제로 벡터입니다. 이 연구의 핵심 발견 중 하나는 단 하나의 긍정 샘플로 훈련된 판별기가 최적화 과정을 안내하는 데 여전히 효과적이라는 것입니다.

이 논문의 핵심 기여는 다중 목표 최적화를 위한 새로운 GAN 기반 프레임워크입니다. 우리의 프레임워크는 MOO 문제에서 서로 다른 목표들을 통합하는 자동적이고 동적인 방법을 제공합니다. 또한, 전통적인 손실 가중치 부여 접근법과 달리, 우리 프레임워크는 목표들 간의 잠재적인 비선형적 관계를 포착할 수 있습니다. 우리는 우리의 접근법이 시뮬레이션된 캐릭터의 모션 트래킹 및 비-모션 모방 작업을 포함한 여러 MOO 문제에 걸쳐 수작업으로 만든 목표 통합 함수를 사용하는 기존 방법들과 비슷한 성능을 달성함을 보여줍니다. 우리의 프레임워크는 시뮬레이션된 인간형 캐릭터와 로봇이 다양하고 민첩하며 곡예적인 기술들을 성공적으로 복제할 수 있게 하며, 최첨단 모션 트래킹 방법들과 동등한 수준의 품질을 달성하면서도 수동 보상 엔지니어링의 필요성을 완화합니다.

쪽집게 과외

알고리즘

flowchart TD subgraph 전통 방식 (Manual Weighting) direction LR A1[목표 1] --> B(가중합 Σ wᵢlᵢ):::sub A2[목표 2] --> B An[목표 N] --> B B --> C[단일 손실 값] end subgraph 제안 방식 (ADD) direction LR D1[목표 1 오차] --> E(미분 벡터 Δ):::idea D2[목표 2 오차] --> E Dn[목표 N 오차] --> E E --> F(ADD 판별기):::core F --> G[적대적 손실] end classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 classDef core fill:#FFDBE6

핵심 콕콕

• 물리 기반 캐릭터 애니메이션의 핵심 난제는 보상 함수를 수동으로 설계하고 튜닝하는 것입니다.
• 기존의 다중 목표 최적화 방식(가중합)은 가중치 설정이 어렵고 노동 집약적이라는 한계가 있습니다.
• 이 논문은 '적대적 미분 판별기(ADD)'라는 새로운 방법을 제안하여, 여러 목표를 자동으로, 동적으로 균형 맞춥니다.
• ADD는 목표별 오차로 구성된 '미분 벡터'를 입력받아, 이상적인 해(오차 0)와 얼마나 다른지 학습합니다.
• 이 방식은 수동 보상 설계 없이도 기존 최고 수준의 방법들과 비슷한 품질의 모션 트래킹을 달성합니다.

함정 주의

일반적인 '적대적 모방 학습(AIL)'과 본 논문의 '적대적 미분 판별기(ADD)'를 혼동하지 마세요.

- 일반 AIL: 전문가의 행동 '분포'를 모방하여 전반적인 스타일을 학습합니다. 따라서 참조 모션과 정확히 일치하지 않을 수 있습니다.
- ADD: 다중 목표 최적화 프레임워크로, 참조 모션과의 '오차(미분 벡터)'를 직접 최소화하여 프레임 단위의 정밀한 추적을 목표로 합니다.

쉬운 비유

적대적 미분 판별기(ADD)f>를 쉽게 비유해볼게요.

- 기존 방식 (가중합): 체조 선수를 훈련시킬 때, 코치가 미리 "오늘은 균형 60%, 힘 30%, 예술성 10%로 훈련하자!"라고 가중치를 정해주는 것과 같습니다. 이 계획은 고정되어 있어서 선수의 현재 상태에 맞게 유연하게 바뀌지 못할 수 있습니다.

- ADD 방식 (똑똑한 코치): ADD는 아주 똑똑한 '적대적 코치'와 같습니다. 이 코치는 미리 계획을 짜지 않습니다. 대신 선수의 연기와 '완벽한 연기' 사이의 '차이점들(미분 벡터)'을 봅니다. 코치의 유일한 목표는 현재 선수의 가장 취약한 부분을 찾아내 지적하는 것입니다. 만약 선수가 힘은 좋은데 균형 감각이 엉망이라면, 코치는 균형에 대해서만 집중적으로 지적합니다. 선수의 균형 감각이 좋아지면, 코치는 다음 약점인 예술성을 지적하기 시작합니다. 이렇게 ADD 코치는 매 순간 가장 중요한 훈련 포인트를 자동으로 찾아내 선수가 모든 면에서 성장하도록 돕습니다.

셀프 테스트

[O/X] 기존의 적대적 모방 학습(AIL)은 참조 모션을 프레임 단위로 정확하게 복제하는 것을 주된 목표로 한다.

정답 보기

정답: X
해설: 기존 AIL은 모션의 전반적인 스타일이나 분포를 모방하는 데 중점을 두어, 참조 모션과 정확히 일치하지 않을 수 있습니다. 정밀한 복제는 본 논문이 ADD를 통해 해결하려는 문제입니다.

[빈칸] ADD는 여러 목표에 대한 오차 값들을 모은 벡터인 '___'를 입력으로 받아, 이상적인 해(오차 0)와 얼마나 다른지 판별한다.

정답 보기

정답: 미분 벡터 (differential vector)
해설: 미분 벡터는 각 목표에 대해 이상적인 성능과 현재 모델 성능 간의 차이를 나타내는 벡터로, ADD의 핵심 입력입니다.

[서술형] ADD가 기존의 가중합 방식에 비해 갖는 두 가지 주요 장점은 무엇인가요?

정답 보기

모범답안: 첫째, 여러 목표 간의 가중치를 수동으로 튜닝할 필요 없이 판별기가 학습 과정에서 자동으로, 동적으로 균형을 맞춥니다. 둘째, 신경망으로 구현된 판별기는 목표들 간의 복잡한 비선형적 관계를 포착할 수 있어, 단순한 선형 결합보다 더 유연한 목표 통합이 가능합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

2 Related Work (관련 연구)

물리 기반 캐릭터 애니메이션은 가상 캐릭터를 위한 현실적이고 반응적인 행동을 자동으로 합성할 수 있는 절차적 방법을 가능하게 합니다. 핵심 과제는 인간과 동물이 보여주는 방대한 운동 기술을 재현하면서도 생동감 있는 움직임을 만들어내는 컨트롤러를 개발하는 것이었습니다. 초기 연구들은 Coros/2010/ControlStrategies, Hodgins/1995/ControlStrategies, Wooten/1998/ControlStrategies, Yin/2007/ControlStrategies에서처럼 인간의 통찰력을 활용하여 기술별 제어 전략을 설계했습니다. 이러한 수동으로 설계된 컨트롤러는 Al Borno/2013/ComplexMotorSkills, Da Silva/2008/ComplexMotorSkills, Geyer/2003/ComplexMotorSkills, Mordatch/2012/ComplexMotorSkills에서 보듯이 다양한 복잡한 운동 기술을 복제하는 데 효과적이었습니다. 하지만, 기술별 컨트롤러를 설계하는 것은 종종 긴 개발 과정을 수반하며, 도메인 전문 지식이 부족한 기술에 적용하기 어려울 수 있습니다. 최적화 기반 방법은 Al Borno/2013/Optimization, de Lasa/2010/Optimization, Mordatch/2012/Optimization, Naderi/2017/Optimization, van de Panne/1994/Optimization, Wampler/2014/Optimization과 같이 수동 엔지니어링에 대한 의존도를 완화할 수 있지만, 그럼에도 불구하고 간결한 최적화 매개변수 집합을 노출하는 신중하게 설계된 제어 구조를 요구할 수 있습니다. 더욱이, 특정 기술에 대해 자연스러운 행동으로 이어지는 적절한 목적 함수를 설계하는 것은 Geijtenbeek/2013/ObjectiveFunctions, Wang/2009/ObjectiveFunctions에서처럼 벅찬 과제가 될 수 있습니다. 최근의 한 연구 흐름은 Cui/2025/LLMforObjectives, Ma/2023/LLMforObjectives와 같이 대규모 언어 모델(LLM)을 활용하여 목적 함수 설계를 자동화하는 것을 탐구합니다.

데이터 기반 방법: 한편, 데이터 기반 기술은 모션 캡처나 아티스트가 애니메이팅한 키프레임을 통해 얻은 참조 모션 데이터를 모방함으로써 컨트롤러 엔지니어링의 일부 어려움을 완화합니다 (Sharon/2005/MotionImitation, Zordan/2002/MotionImitation). 모션 데이터를 모방하는 가장 일반적인 접근법 중 하나는 모션 트래킹을 통하는 것인데, 여기서 컨트롤러는 참조 모션 클립에 의해 규정된 목표 포즈를 명시적으로 추적하여 원하는 행동을 모방합니다 (Liu/2005/MotionTracking, Liu/2010/MotionTracking, Sok/2007/MotionTracking). 이러한 트래킹 기반 방법들은 모든 행동에 대해 기술별 목적을 설계할 필요 없이 광범위한 행동을 재현할 수 있습니다 (Lee/2010/GeneralTracking, Liu/2018/GeneralTracking, Liu/2016/GeneralTracking). 심층 강화 학습과 결합된 모션 트래킹은 다양한 운동 기술을 모방할 수 있는 일반적인 프레임워크로 이어졌으며(Peng/2018/DeepMimic), 동일한 학습 알고리즘을 사용하여 수백 가지의 독특한 행동을 재현할 수 있는 시스템도 등장했습니다 (Wang/2020/GeneralFrameworks, Won/2020/GeneralFrameworks, Yuan/2021/GeneralFrameworks). 모션 트래킹 방법의 성공에 있어 중요한 요소는 다양한 기술에 적용될 수 있을 만큼 충분히 일반적인 트래킹 목적을 설계하는 동시에, 각 특정 기술에 대해 고품질의 결과를 만들어내는 것입니다 (Ma/2021/TrackingObjectives, Wang/2020/TrackingObjectives). 따라서 범용 트래킹 목적을 구성하는 것은 지루한 설계 및 튜닝 과정을 수반할 수 있습니다.

적대적 모방 학습: 적대적 모방 학습 및 관련 역강화 학습 방법은 적대적 최소-최대 게임을 통해 데이터로부터 목적 함수와 해당 정책을 공동으로 학습함으로써 목적 함수의 수동 설계를 대체합니다 (Abbeel/2004/IRL, Ziebart/2008/IRL). 적대적 모방 학습은 Goodfellow/2014/GAN의 GAN과 유사한 프레임워크를 통해 구현될 수 있는데, 여기서 판별자는 시연자의 행동과 에이전트가 생성한 행동을 구별하도록 훈련됩니다. 그러면 에이전트는 판별자의 예측 오류를 최대화하는 행동을 생성하는 정책을 학습하는 것을 목표로 합니다 (Ho/2016/GAIL). 이 적대적 프레임워크는 시연과 에이전트의 행동 분포 사이의 발산에 대한 변분 근사를 최적화함으로써 시연을 모방하는 것으로 나타났습니다 (Ke/2021/VariationalApprox, Nowozin/2016/VariationalApprox). Peng/2021/AMP은 적대적 모방 학습을 활용하여 다양한 모션 클립을 포함하는 비정형 모션 데이터셋에서 과제와 관련된 행동을 모방할 수 있는 컨트롤러를 훈련했습니다. 이러한 적대적 기술들은 최첨단 모션 트래킹 방법에 필적하는 고품질의 모션을 생성할 수 있었습니다 (Peng/2022/HighQualityMotion, Peng/2019/HighQualityMotion, Xu/2021/HighQualityMotion). 그러나 모션 모방을 위한 이전의 적대적 모방 학습 방법들은 에이전트가 데이터셋의 전체 모션 분포와 일치하기만 하면 되는 일반적인 분포 매칭 공식을 활용합니다 (Peng/2021/DistributionMatching, Xu/2021/DistributionMatching). 이는 에이전트에게 모션 전환과 세그먼트를 다른 순서로 시퀀싱할 수 있는 유연성을 제공하며, 타겟 모션 분포의 모드를 누락할 가능성도 있습니다. 이러한 유연성은 특정 응용 분야에서는 장점이 될 수 있지만, 인비트위닝이나 키프레임 애니메이션의 후처리처럼 모션 클립의 정확한 복제가 필요한 애니메이션 응용 프로그램에서는 해로울 수 있습니다.

다중 목적 최적화: MOO 문제는 여러 목적을 동시에 최적화하는 것을 포함합니다. 일반적인 전략은 가중 합을 통해 목적들을 결합하는 것입니다. 그러나 이러한 방법들의 효과는 선택된 가중치에 매우 민감하며, 이는 세심한 수동 튜닝을 수반합니다. 다중 목적 진화 알고리즘은 해의 집단을 진화시켜 파레토 프론트를 근사할 수 있습니다 (Deb/2002/MOEA, Xu/2020/MOEA). 예를 들어, Agrawal/2013/CMA-ES는 (1 + 𝜆) CMA-ES를 적용하여 노력과 점프 높이 사이의 최적의 절충안을 가진 점핑 컨트롤러를 합성했습니다 (Igel/2007/CMA-ES). 그러나 진화 알고리즘은 많은 해 집단을 평가하고 유지해야 하므로 계산 비용이 많이 듭니다. Chen/2019/MetaPolicy는 다른 선호도 벡터에 빠르게 적응할 수 있는 단일 메타 정책을 훈련하는 더 효율적인 방법을 제안했습니다. 하지만, 이는 다양한 목적 스케일 때문에 어려울 수 있는 선호도를 수동으로 지정해야 합니다. Abdolmaleki/2020/MultiCritic 및 Xu/2023/MultiCritic과 같은 이전 연구는 각 목적에 자체 비평가를 할당하고 이 비평가 집합에 대해 단일 정책을 공동으로 최적화하는 스케일 불변 다중 크리틱 RL 프레임워크를 도입하여 이 문제를 해결합니다. 본 연구에서는 수동 선호도 지정이나 다중 비평가 없이 상이한 목적들의 균형을 자동으로 맞추는 적대적 MOO 접근법을 제안합니다. 더욱이, 우리 방법은 이질적인 목적들 간의 복잡한 관계와 잠재적으로 비볼록인 파레토 프론트를 더 잘 포착할 수 있는 목적들의 비선형 조합을 가능하게 합니다.

쪽집게 과외

핵심 콕콕

• 초기 물리 기반 애니메이션은 수동 제어 전략에 의존하여 효과적이었지만, 개발 과정이 길고 전문 지식이 필요했습니다.
• 데이터 기반 모션 트래킹은 참조 모션을 따라가게 하여 개발을 용이하게 했지만, 여전히 다양한 동작에 효과적인 보상 함수를 수동으로 설계하고 튜닝하는 과정이 지루했습니다.
• 적대적 모방 학습(AIL)은 보상 함수를 자동으로 학습했지만, '정확한 복제'가 아닌 '스타일 모방'(분포 매칭)에 초점을 맞춰 특정 프레임을 정확히 따라야 하는 응용 분야에는 한계가 있었습니다.
• 다중 목적 최적화(MOO)는 여러 목표의 균형을 맞추는 문제이며, 가중 합과 같은 전통적인 방법은 가중치 튜닝에 매우 민감하다는 단점이 있습니다.

함정 주의

모션 트래킹과 (기존의) 적대적 모방 학습을 혼동하지 마세요.

- 모션 트래킹(Motion Tracking)은 하나의 '정답' 참조 모션을 정해두고, 캐릭터가 매 프레임마다 그 정답 포즈와 얼마나 다른지를 측정하여 오차를 줄이는 방식입니다. '정확한 복제'가 목표입니다.

- 적대적 모방 학습(Adversarial Imitation Learning)은 특정 정답 모션 하나가 아니라, '전문가처럼 보이는' 여러 모션 데이터의 전반적인 '스타일'을 배우는 방식입니다. 판별자를 속여 진짜 같은 움직임을 만드는 것이 목표이므로, 특정 참조 동작을 똑같이 따라 하지는 않을 수 있습니다.

쉬운 비유

캐릭터 동작 생성 방법f>을 '로봇에게 춤 가르치기'에 비유해볼게요.

- 수동 제어/최적화: 안무가가 1초에 30번씩 로봇의 모든 관절 각도를 직접 지정해주는 것과 같아요. 매우 정교하지만, 안무가가 모든 것을 수작업으로 만들어야 해서 지치죠.

- 모션 트래킹: 전문 댄서의 춤 영상을 틀어주고, 로봇에게 "매 순간 저 댄서와 네 자세가 똑같을수록 점수를 많이 줄게!"라고 말하는 것과 같아요. 로봇은 영상을 열심히 따라 하지만, 우리가 '팔 동작 점수'와 '다리 동작 점수'의 비중을 잘 조절해줘야(보상 튜닝) 춤을 잘 춥니다.

- 적대적 모방 학습: 수많은 댄서들의 춤 영상을 보여주고, 로봇에게 "네가 춘 춤이 이 영상들 속 춤과 구별이 안 될 정도로 자연스러우면 돼"라고 하는 거예요. 로봇은 특정 춤을 따라 하기보다 '프로 댄서 스타일'을 배우게 됩니다. 그래서 어려운 동작은 건너뛰고 자기가 잘 추는 동작만 섞어서 출 수도 있어요.

셀프 테스트

[O/X 퀴즈]

모션 모방을 위한 기존의 적대적 모방 학습 방법은 애니메이션 키프레임의 후처리 작업처럼 특정 동작을 프레임 단위로 정확하게 복제해야 하는 작업에 가장 이상적이다.

정답: X

해설: 기존의 적대적 모방 학습은 전반적인 모션 스타일(분포)을 모방하는 데 중점을 두므로, 정확한 프레임별 복제보다는 자연스러운 움직임을 생성하는 데 더 적합합니다. 정확한 복제가 필요한 경우 모션 트래킹 방식이 더 직접적입니다.

[빈칸 채우기]

다중 목적 최적화(MOO) 문제를 해결하는 일반적인 방법 중 하나는 여러 목적 함수를 ___으로 결합하는 것이지만, 이 방법은 가중치를 수동으로 세심하게 튜닝해야 한다는 단점이 있다.

정답: 가중 합 (weighted sum)

해설: 가중 합은 여러 목적에 각각 가중치를 곱해 더하는 간단한 방식이지만, 최적의 가중치를 찾는 것이 어렵고 문제에 따라 성능이 민감하게 변합니다.

[서술형]

정답 보기

전통적인 '모션 트래킹'과 '적대적 모방 학습'이 캐릭터 애니메이션에서 추구하는 목표의 근본적인 차이점을 설명하고, 이로 인해 '적대적 모방 학습'이 갖는 장점과 단점을 논하시오.
모범답안: 모션 트래킹은 주어진 참조 모션을 프레임 단위로 정확하게 복제하는 것을 목표로 합니다. 이는 명시적인 오차 함수를 최소화하는 방식으로 이루어집니다. 반면, 적대적 모방 학습은 참조 모션 데이터셋의 전반적인 '분포' 또는 '스타일'을 모방하는 것을 목표로 합니다. 장점은 특정 순서에 얽매이지 않고 자연스러운 전환과 새로운 조합을 만들어낼 유연성을 가진다는 것입니다. 단점은 분포를 맞추는 과정에서 학습하기 어려운 특정 동작(모드)을 생략하는 '모드 붕괴'가 발생할 수 있으며, 이로 인해 원본의 모든 디테일을 정확히 재현하지 못할 수 있다는 점입니다. 이는 정밀한 제어가 필요한 애니메이션 작업에는 부적합할 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

3. Background (배경)

본 연구에서는 적대적 차분 판별기(adversarial differential discriminator, ADD)를 사용하는 다중 목표 최적화 방법을 제안합니다. 그 효과를 평가하기 위해, 우리는 에이전트가 동시에 여러 목표를 최적화하는 것을 목표로 하는, MDP로 모델링된 다양한 제어 문제들을 해결하는 데 ADD를 적용합니다. MDP는 상태 공간 S, 행동 공간 A, 할인 계수 $\gamma \in [0, 1]$, 초기 상태 분포 $\rho_0(s)$, 동역학 함수 $\rho(s'|s, a)$, 그리고 보상 함수 $r$을 갖는 $M= (S, A, \gamma, \rho_0, \rho, r)$로 정의됩니다. 에이전트는 각 타임스텝 $t$에서 상태 $s_t$에 조건부인 정책 $a_t \sim \pi(a_t|s_t)$로부터 행동을 샘플링하여 환경과 상호작용합니다. 그 후 에이전트는 행동을 수행하고, 이는 환경 동역학 $s_{t+1} \sim \rho(s_{t+1}|s_t, a_t)$에 따라 샘플링된 새로운 상태 $s_{t+1}$을 결과로 낳습니다. 궤적 $\tau= (s_0, a_0, s_1, a_1, ..., s_{T-1}, a_{T-1}, s_T)$는 상태 $s_t \in S$와 행동 $a_t \in A$ 쌍의 시퀀스로 구성됩니다. 에이전트의 목표는 기대 할인 총보상 $J(\pi)$를 최대화하는 정책을 학습하는 것입니다.

Eq. 1: 기대 할인 총보상$$J(\pi) = E_{p(\tau|\pi)} \left[\sum_{t=0}^{T-1} \gamma^t r_t \right]$$이 수식은 강화학습의 목표 함수를 정의합니다. 이는 정책 $\pi$가 주어졌을 때, 궤적에 대한 할인된 보상의 합의 기댓값입니다. $\gamma$는 미래의 보상보다 즉각적인 보상을 우선시하는 할인 계수입니다. 에이전트의 목표는 이 값을 최대화하는 정책을 찾는 것입니다.

여기서 $p(\tau|\pi) = \rho_0(s_0) \prod_{t=0}^{T-1} \rho(s_{t+1}|s_t, a_t)\pi(a_t|s_t)$는 정책 $\pi$ 하에서 궤적 $\tau$가 나타날 확률을 나타냅니다.

4. Adversarial Differential Discriminator (적대적 차분 판별기)

다중 목표 최적화(MOO) 문제에서, 여러 목표들은 일반적으로 손실 함수로 표현되며, 목표는 이러한 손실들을 함께 최소화하는 것입니다. $1 \le i \le n$에 대해 $i$번째 손실 함수를 $l_i(\cdot)$로 표기합시다. 다음 논의에서는 각 손실 함수가 음수가 아니라고 가정합니다: $l_i(\cdot) \ge 0$. MOO 문제를 해결하기 위한 일반적인 접근 방식은 가중합(weighted sum)을 사용하여 개별 손실 함수들을 통합하는 것입니다:

Eq. 2: 가중합 목표 함수$$\min_{\theta} \sum_i w_i l_i(\theta),$$이 수식은 다중 목표 최적화를 위한 전통적인 방법을 보여줍니다. 여러 손실 함수 $l_i(\theta)$를 가중치 $w_i$와 함께 합산하여 단일 스칼라 목표 함수로 결합합니다. 목표는 이 합을 최소화하는 모델 파라미터 $\theta$를 찾는 것입니다. 주요 단점은 가중치 $w_i$를 수동으로 조정해야 한다는 것입니다.

여기서 $w_i$는 $i$번째 손실 함수에 할당된 해당 가중치를 나타냅니다. 그러면 최적화 문제의 목표는 이 손실 함수들의 선형 결합을 최소화하는 모델 파라미터 $\theta$ 집합을 찾는 것입니다 (Kendall/2017/Multi-Task Learning, Liu/2019/End-to-End Multi-Task). 그러나 이 공식은 개별 목표들의 통합을 선형 결합으로 제한합니다. 본 연구에서는 적대적 차분 판별기(adversarial differential discriminator) $D(\Delta)$를 사용하여 비선형 통합을 구성하는 것을 제안하며, 이는 우리 방법이 목표들의 더 유연한 조합을 자동으로 학습할 수 있게 합니다. 우리 프레임워크에서, 손실 함수 $l_i(\theta)$들은 차분 벡터(differential vector) $\Delta = [l_1(\theta), ..., l_n(\theta)]$로 조합됩니다. 차분 벡터는 각 목표에 대한 이상적인 성능과 실제 성능 간의 오차, 즉 차이로 해석될 수 있습니다. 판별기 $D(\Delta)$는 $\Delta$ 안의 개별 손실들을 단일 통합 손실로 결합하는 비선형 통합 함수 역할을 합니다. 그 후 다중 목표들은 Goodfellow/2014/GANs의 적대적 프레임워크를 통해 함께 최적화되며, 이는 MOO 문제를 미니맥스 게임으로 공식화합니다:

Eq. 3: ADD 미니맥스 목표 함수$$\min_{\theta} \max_{D} \log(D(0)) + \log(1 - D(\Delta)).$$이것은 제안된 ADD 프레임워크의 핵심 미니맥스 목표 함수입니다. 생성자(파라미터 $\theta$를 가진 모델)는 판별기 $D$를 속이는 차분 벡터 $\Delta$를 생성하여 이 목표를 최소화하려고 합니다. 판별기는 이상적인 제로 벡터($D(0)$로부터)와 모델이 생성한 벡터($D(\Delta)$로부터)를 정확히 구별하여 이 목표를 최대화하려고 합니다.

ADD와 이전의 적대적 학습 프레임워크 간의 핵심적인 차이점은 적대적 차분 판별기 $D$가 단 하나의 포지티브 샘플, 즉 이상적인 해의 차분 벡터에 해당하는 제로 벡터 $\Delta = 0$만을 받는다는 것입니다. 이 연구의 핵심 발견 중 하나는 단 하나의 포지티브 샘플로 훈련된 적대적 판별기가 여전히 광범위한 과제를 해결하는 데 효과적일 수 있다는 것입니다. 그러나 단순히 수식 3을 최적화하는 것은 판별기 $D$가 제로 차분 벡터에는 1의 점수를, 0이 아닌 다른 모든 차분 벡터에는 0의 점수를 할당하는 델타 함수로 수렴하는 퇴화된 행동으로 이어질 수 있습니다. 이 델타 함수는 유익하지 않은 그래디언트를 초래하여 최적화 과정을 손상시킬 수 있습니다. 이러한 퇴화 현상을 완화하기 위해, 우리는 Peng/2021/AMP를 따라 그래디언트 페널티(GP) 정규화 항을 도입합니다:

Eq. 4: 그래디언트 페널티가 적용된 ADD 목표 함수$$\min_{\theta} \max_{D} \log(D(0)) + \log(1 - D(\Delta)) - \lambda_{GP} L_{GP}(D),$$이 수식은 원래의 미니맥스 목표 함수(수식 3)에 가중치 $\lambda_{GP}$를 갖는 그래디언트 페널티 항 $L_{GP}(D)$를 추가하여 수정한 것입니다. 이 페널티는 판별기가 (델타 함수처럼) 너무 날카로워지는 것을 방지하고 생성자에게 부드럽고 유익한 그래디언트를 보장하여 학습 과정을 안정화시킵니다.

여기서 그래디언트 페널티 $L_{GP}$는 다음과 같이 주어집니다:

Eq. 5: 그래디언트 페널티$$L_{GP}(D) = \left\| \nabla_\phi D(\phi)|_{\phi=\Delta} \right\|_2^2 .$$이 수식은 그래디언트 페널티 정규화 항을 정의합니다. 이는 생성된 샘플 $\Delta$에서 평가된, 입력 $\phi$에 대한 판별기 그래디언트의 제곱 L2 노름을 계산합니다. 큰 그래디언트에 페널티를 부과함으로써 판별기의 출력 공간에 부드러움 제약을 강제합니다.

수식 4에 요약된 목표로 훈련할 때, 모델은 판별기를 속이기 위해 $\Delta$를 0에 더 가깝게 만들도록 파라미터 $\theta$를 조정합니다. 한편, 판별기는 동적으로 다른 목표들에 주의를 기울이고 더 어려운 목표 조합에 집중하여 모델에 지속적으로 도전합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; classDef pros fill:#D0F1B9; classDef warn fill:#FFD3C2; classDef ref fill:#EBEBEC; classDef def fill:#FEEEB5; subgraph 전통적 MOO 방식 L1[Loss 1] --> WS L2[Loss 2] --> WS L3[...] --> WS WS(Weighted Sum):::sub WS --> SL[Single Loss] SL --> OPT1[파라미터 최적화] subgraph 한계점 MW[수동 가중치 튜닝 필요]:::warn end end subgraph 제안하는 ADD 방식 LL1[Loss 1] --> DV LL2[Loss 2] --> DV LL3[...] --> DV DV(Differential Vector Δ):::idea DV --> D[Discriminator D(Δ)]:::core Z[Zero Vector] --> D D --> AL[Adversarial Loss] AL --> OPT2[파라미터 최적화] subgraph 장점 ALB[자동으로 목표 간 균형 조절]:::pros end end

핵심 콕콕

• 이 연구의 제어 문제는 강화학습의 표준 프레임워크인 마르코프 결정 과정(MDP)으로 모델링됩니다.
• 기존의 다중 목표 최적화(MOO)는 여러 손실 함수를 '가중합'으로 합치는 방식을 사용하지만, 이는 가중치를 수동으로 painstakingly 튜닝해야 하는 단점이 있습니다.
• 제안하는 ADD(적대적 차분 판별기)는 이 가중합을 학습 가능한 '판별기'로 대체하여 목표 간의 균형을 자동으로 맞춥니다.
• 판별기는 모든 손실 값을 모은 '차분 벡터(differential vector)'를 입력으로 받아, 이 벡터가 이상적인 '오차 0' 상태(제로 벡터)와 얼마나 다른지 구별하도록 학습합니다.
• ADD의 핵심은 단 하나의 긍정 샘플(제로 벡터)만으로도 판별기가 효과적으로 작동하며, 학습 안정을 위해 그래디언트 페널티 기법이 사용된다는 점입니다.

함정 주의

ADD와 일반적인 GAN을 혼동하지 마세요.

일반적인 GAN의 판별기는 수많은 '진짜 데이터'를 긍정 샘플로 보고, 생성자가 만든 '가짜 데이터'를 부정 샘플로 봅니다. 즉, 데이터의 전체 분포를 학습합니다.

반면, ADD의 판별기는 오직 하나의 '이상적인 상태(오차=0)'를 나타내는 제로 벡터만을 긍정 샘플로 봅니다. 그리고 현재 모델의 오차들을 모은 '차분 벡터'를 부정 샘플로 봅니다. 즉, 분포가 아닌 '이상점'을 향해 최적화하도록 유도합니다.

구현 힌트

ADD를 구현할 때 그래디언트 페널티(GP)는 매우 중요합니다. 이 페널티가 없으면 판별기는 이상적인 제로 벡터에만 1을 출력하고 나머지는 모두 0을 출력하는 단순한 '델타 함수'로 수렴해버릴 수 있습니다. 이 경우 생성기(정책)로 전달되는 그래디언트가 거의 0이 되어 학습이 멈추게 됩니다. 논문에서 제시된 수식 5의 그래디언트 페널티를 적용하여 판별기의 출력 공간을 부드럽게 만들어 안정적인 학습을 보장해야 합니다.

쉬운 비유

적대적 차분 판별기(ADD)f>를 쉽게 비유해볼게요.

- 여러 과목을 공부하는 학생이 있다고 상상해봅시다.

- 기존 방식 (가중합): 선생님이 "수학 40점, 영어 30점, 과학 30점 만점이야"라고 고정된 점수표를 줍니다. 학생은 총점을 높이기 위해 잘하는 수학만 파고들고, 과학은 포기할 수 있습니다. 선생님의 점수 배점(가중치)이 항상 최선은 아닐 수 있죠.

- ADD 방식 (똑똑한 코치): 이 코치는 고정된 점수표를 쓰지 않습니다. 대신 학생의 모든 과목 성적표(차분 벡터)를 보고 "넌 아직 만점짜리 학생은 아니네"라고만 말해줍니다. 처음엔 모든 과목이 부족하니 가장 못하는 수학을 지적합니다. 학생이 수학을 잘하게 되면, 코치는 이제 "수학은 좀 나아졌는데, 이젠 과학이 제일 문제야"라며 동적으로 약점을 지적합니다. 이 코치는 학생이 모든 과목을 골고루 잘하게(모든 오차가 0에 가깝게) 되도록 계속해서 가장 취약한 부분을 공략합니다. 여기서 '만점짜리 학생'이 바로 단 하나의 긍정 샘플인 '제로 벡터'입니다.

셀프 테스트

[O/X]

정답 보기

ADD의 판별기는 수많은 '이상적인 동작' 데이터를 긍정 샘플로 사용하여 학습한다.
정답: X
해설: ADD의 판별기는 오직 하나의 긍정 샘플, 즉 이상적인 상태(오차 0)를 나타내는 '제로 벡터'만을 사용합니다.

[빈칸]

정답 보기

ADD 프레임워크에서 여러 손실 함수들을 하나의 벡터로 묶은 것을 ___ 벡터라고 부른다.
정답: 차분 (differential)
해설: 각 목표의 오차(loss)를 원소로 갖는 벡터를 차분 벡터(differential vector)라고 하며, 이것이 판별기의 입력이 됩니다.

[서술형]

정답 보기

ADD에서 그래디언트 페널티(GP)를 사용하는 이유는 무엇이며, GP가 없다면 어떤 문제가 발생할 수 있나요?
모범답안: 그래디언트 페널티는 판별기의 학습을 안정화시키기 위해 사용됩니다. 만약 GP가 없다면, 판별기는 제로 벡터 입력에 대해서만 1을 출력하고 나머지 모든 입력에 대해서는 0을 출력하는 '델타 함수'와 유사한 형태로 수렴할 위험이 있습니다. 이 경우, 생성기(정책)로 전달되는 그래디언트가 거의 사라져 학습이 진행되지 않는 문제가 발생할 수 있습니다. GP는 판별기의 출력 공간을 부드럽게 만들어 유의미한 그래디언트가 계속 흐르도록 보장합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

4 Adversarial Differential Discriminator (적대적 미분 판별기)

다중 목표 최적화(MOO) 문제에서, 여러 목표는 일반적으로 손실 함수로 표현되며, 목표는 이러한 손실들을 함께 최소화하는 것입니다. $l_i(\cdot)$를 $1 \le i \le n$에 대한 $i$번째 손실 함수라고 합시다. 다음 논의에서는 각 손실 함수가 음수가 아니라고 가정합니다: $l_i(\cdot) \ge 0$. MOO 문제를 해결하기 위한 일반적인 접근 방식은 가중합(weighted sum)을 사용하여 개별 손실 함수들을 통합하는 것입니다:

Eq. 2: 가중합 목적 함수$$\min_{\theta} \sum_i w_i l_i(\theta),$$이 수식은 전통적인 다중 목표 최적화의 접근법인 가중합 방식을 보여줍니다. 여기서 모델 파라미터 $\theta$를 조정하여, 각 손실 함수 $l_i(\theta)$에 해당하는 가중치 $w_i$를 곱한 값의 총합을 최소화하는 것을 목표로 합니다. 이 방식의 성능은 가중치 $w_i$ 선택에 크게 의존합니다.

여기서 $w_i$는 $i$번째 손실 함수에 할당된 해당 가중치를 나타냅니다. 그러면 최적화 문제의 목표는 이 손실 함수들의 선형 결합을 최소화하는 모델 파라미터 집합 $\theta$를 찾는 것입니다 (Kendall/2017/Multi-Task Learning, Liu/2019/Loss Balancing).

하지만 이 공식은 통합을 개별 목표들의 선형 결합으로 제한합니다. 본 연구에서는 적대적 미분 판별기(adversarial differential discriminator) $D(\Delta)$를 사용하여 비선형 통합을 구성하는 것을 제안하며, 이는 우리 방법이 목표들의 더 유연한 결합을 자동으로 학습할 수 있게 합니다. 우리 프레임워크에서 손실 함수들 $l_i(\theta)$는 미분 벡터(differential vector) $\Delta = \langle l_1(\theta), ..., l_n(\theta) \rangle$로 조합됩니다. 미분 벡터는 각 목표에 대한 이상적인 성능과 실제 성능 간의 오류 또는 차이로 해석될 수 있습니다. 판별기 $D(\Delta)$는 개별 손실들을 $\Delta$ 안에서 단일 통합 손실로 결합하는 비선형 통합 함수 역할을 합니다. 그런 다음 여러 목표는 적대적 프레임워크(Goodfellow/2014/GANs)를 통해 공동으로 최적화되며, 이는 MOO 문제를 미니맥스 게임(mini-max game)으로 공식화합니다:

Eq. 3: 적대적 미니맥스 게임$$\min_{\theta} \max_{D} \log(D(0)) + \log(1 - D(\Delta)).$$이 수식은 제안된 ADD의 핵심인 미니맥스 최적화 목표를 나타냅니다. 생성자(모델 파라미터 $\theta$)는 판별기 $D$를 속이기 위해 미분 벡터 $\Delta$를 0에 가깝게 만들어 $\log(1 - D(\Delta))$를 최소화하려고 합니다. 반면, 판별기 $D$는 이상적인 제로 벡터(0)와 모델이 생성한 $\Delta$를 구별하도록 학습하여 전체 표현을 최대화합니다.

ADD와 이전의 적대적 학습 프레임워크 간의 핵심적인 차이점은 적대적 미분 판별기 $D$가 이상적인 해의 미분 벡터에 해당하는 단일 양성 샘플, 즉 제로 벡터 $\Delta = 0$만을 받는다는 것입니다. 이 연구의 주요 발견 중 하나는 단일 양성 샘플로 훈련된 적대적 판별기가 여전히 광범위한 작업을 해결하는 데 효과적일 수 있다는 것입니다.

그러나 단순히 수식 3을 최적화하면 퇴화된 행동(degenerate behaviors)으로 이어질 수 있는데, 여기서 판별기 $D$는 제로 미분 벡터에 1의 점수를 할당하고 0이 아닌 다른 모든 미분 벡터에 0의 점수를 할당하는 델타 함수로 수렴할 수 있습니다. 이 델타 함수는 정보가 없는 그래디언트(uninformative gradients)로 이어져 최적화 과정을 손상시킬 수 있습니다. 이러한 퇴화 현상을 완화하기 위해, 우리는 Peng/2021/AMP를 따라 그래디언트 페널티(GP) 정규화기를 도입합니다:

Eq. 4: 그래디언트 페널티를 포함한 목적 함수$$\min_{\theta} \max_{D} \log(D(0)) + \log(1 - D(\Delta)) - \lambda_{GP} \mathcal{L}_{GP}(D),$$이 수식은 수식 3의 목적 함수에 그래디언트 페널티(GP) 항 $\lambda_{GP} \mathcal{L}_{GP}(D)$을 추가하여 개선한 것입니다. 이 페널티 항은 판별기 $D$의 그래디언트 크기를 제한하여, 판별기가 지나치게 급격한 결정 경계를 형성하는 것을 방지하고 학습 과정을 안정화시키는 역할을 합니다.

여기서 그래디언트 페널티 $\mathcal{L}_{GP}$는 다음과 같이 주어집니다:

Eq. 5: 그래디언트 페널티(GP)$$\mathcal{L}_{GP}(D) = \left\| \nabla_{\phi} D(\phi) \msub\vert_{\phi=\Delta} \right\|_2^2.$$이 수식은 그래디언트 페널티를 구체적으로 정의합니다. 이는 판별기 $D$의 입력 $\phi$에 대한 그래디언트의 L2 노름(norm)의 제곱으로 계산됩니다. 여기서 그래디언트는 실제 데이터 샘플 $\Delta$에서 평가됩니다. 이 페널티는 판별기의 립시츠 제약(Lipschitz constraint)을 강제하여 안정적인 그래디언트를 제공합니다.

수식 4에 요약된 목적 함수로 훈련할 때, 모델은 판별기를 속이기 위해 $\Delta$를 0에 가깝게 만들도록 파라미터 $\theta$를 조정합니다. 한편, 판별기는 동적으로 다른 목표에 주의를 기울이고 더 어려운 목표 조합에 집중하여 모델에 지속적으로 도전합니다.

5 Motion Tracking With ADD (ADD를 이용한 모션 트래킹)

쪽집게 과외

알고리즘

flowchart TD classDef sub fill:#CCEFFF classDef core fill:#FFDBE6 classDef warn fill:#FFD3C2 classDef idea fill:#E8D2E5 subgraph 전통적 다중 목표 최적화 (MOO) A[가중합 방식]:::sub A --> B{선형 결합만 가능, 수동 가중치 튜닝 필요}:::warn end subgraph 제안 방법: ADD C[Adversarial Differential Discriminator]:::core C --> D[비선형 결합 자동 학습]:::idea D --> E{판별기가 델타 함수로 퇴화}:::warn E --> F[정보 없는 그래디언트 발생]:::warn F --> G[그래디언트 페널티(GP)로 해결]:::idea end A --> C

핵심 콕콕

• 전통적인 다중 목표 최적화(MOO)는 여러 손실 함수를 '가중합'으로 결합하지만, 이는 선형 관계만 표현 가능하고 가중치를 수동으로 튜닝해야 하는 단점이 있습니다.
• 제안하는 '적대적 미분 판별기(ADD)'는 판별기를 사용하여 여러 목표(손실)를 비선형적으로, 그리고 자동으로 결합하는 방법을 학습합니다.
• ADD는 이상적인 정답(오차 0)에 해당하는 '제로 벡터' 단 하나만을 긍정 샘플로 사용하여 학습하는 독특한 특징을 가집니다.
• 학습 안정성을 위해 '그래디언트 페널티'를 도입하여, 판별기가 너무 단순한 해(델타 함수)로 수렴해버려 학습에 유용한 그래디언트를 제공하지 못하는 문제를 방지합니다.

함정 주의

일반적인 GAN과 ADD 판별기를 혼동하지 마세요.

일반적인 GAN의 판별기는 실제 데이터의 '분포' 전체를 학습하여 진짜와 가짜를 구별합니다. 즉, 여러 개의 진짜 샘플이 필요합니다.

반면, ADD의 판별기는 '이상적인 단일 정답' (오차가 0인 상태, 즉 제로 벡터) 하나만을 긍정 샘플로 학습합니다. 판별기의 역할은 현재 상태가 이 이상적인 정답과 얼마나 다른지를 판단하는 것에 가깝습니다.

구현 힌트

그래디언트 페널티(GP)를 구현할 때, 페널티 가중치 하이퍼파라미터(λ_GP)는 학습 안정성에 매우 중요합니다. 이 값이 너무 작으면 판별기가 불안정해져 퇴화 현상을 막지 못하고, 너무 크면 판별기의 학습이 더뎌져 전체 최적화 과정이 느려질 수 있습니다. 보통 10.0과 같은 값으로 시작하여 실험적으로 조정하는 것이 일반적입니다.

쉬운 비유

적대적 미분 판별기(ADD)f>를 까다로운 '개인 트레이너'에 비유해볼게요.

- 운동선수(훈련시킬 모델)가 있고, 이 선수는 달리기, 점프, 근력 등 여러 목표(손실 함수)를 동시에 발전시켜야 합니다.
- 선수의 현재 기록을 '성적표'(미분 벡터 Δ)로 만듭니다. 각 과목 점수는 '만점과의 차이'로 기록됩니다.
- 'ADD 트레이너'(판별기 D)는 이 성적표를 보고 딱 두 가지만 판단합니다: '이건 만점 성적표인가?' 아니면 '아직 멀었는가?'. 트레이너는 오직 '모든 과목이 만점인 완벽한 성적표'(제로 벡터) 하나만 진짜라고 인정합니다.
- 훈련 초기에는 선수가 모든 면에서 부족하므로 트레이너는 그냥 '전부 다 못하네'라고만 합니다. 하지만 선수가 점점 발전하면, 트레이너는 이제 가장 부족한 부분을 귀신같이 찾아내 '다른 건 늘었는데 달리기가 아직 부족해!'라며 더 어려운 과제를 줍니다. 이렇게 트레이너가 동적으로 훈련 강도와 초점을 조절해주는 덕분에 선수는 균형 있게 성장할 수 있습니다.
- '그래디언트 페널티'는 트레이너가 너무 극단적으로 '만점 아니면 빵점!'이라고만 외치지 않고, '이 부분은 이만큼 부족하다'고 구체적인 피드백을 주도록 만드는 장치입니다.

셀프 테스트

[O/X]

정답 보기

ADD 프레임워크는 판별기를 효과적으로 훈련시키기 위해 이상적인 결과물(ideal solution)로 구성된 대규모 데이터셋을 필요로 한다.
정답: X
해설: ADD는 이상적인 해에 해당하는 단 하나의 긍정 샘플, 즉 모든 오차가 0인 '제로 벡터'만을 사용하여 판별기를 훈련시키는 독특한 특징을 가집니다.

[빈칸]

정답 보기

ADD에서 판별기가 제로 벡터에만 1을, 나머지에 0을 할당하는 델타 함수로 수렴하는 ___ 현상을 막기 위해 그래디언트 페널티를 사용한다.
정답: 퇴화 (degenerate)
해설: 이러한 퇴화 현상은 최적화에 필요한 유의미한 그래디언트를 제공하지 못하게 만들어 학습을 방해합니다.

[서술형]

정답 보기

전통적인 가중합 방식의 다중 목표 최적화와 비교하여 ADD가 갖는 두 가지 주요 장점은 무엇이며, 그 이유는 무엇인가요?
모범답안: 첫째, ADD는 목표들을 비선형적으로 결합할 수 있습니다. 가중합은 선형 결합만 가능하여 목표 간의 복잡한 상호작용을 포착하기 어렵지만, 신경망 기반의 판별기는 더 유연한 비선형 관계를 학습할 수 있습니다. 둘째, ADD는 목표 간의 가중치를 자동으로, 그리고 동적으로 조절합니다. 가중합 방식은 수동으로 가중치를 튜닝해야 하는 번거로움이 있지만, ADD의 판별기는 학습 과정에서 더 어려운 목표에 집중하도록 스스로 학습하여 최적의 균형을 찾아냅니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

5 Motion Tracking With ADD (ADD를 이용한 모션 트래킹)

이 섹션에서는 물리적으로 시뮬레이션된 캐릭터가 어려운 참조 모션을 모방할 수 있도록 제어 정책을 훈련시키기 위해 강화 학습 프레임워크에 ADD를 어떻게 적용할 수 있는지 보여줍니다. RL 기반 모션 트래킹 방법은 일반적으로 다양한 보상 항 $r_t^i$의 가중합으로 구성된 트래킹 보상을 사용합니다.

Eq. 6: 가중합 보상 함수$$r_t = \sum_i w_i r_t^i,$$이 수식은 전통적인 모션 트래킹에서 사용되는 보상 함수입니다. 최종 보상 $r_t$는 여러 개별 보상 항 $r_t^i$들의 선형 가중합으로 계산됩니다. 각 가중치 $w_i$는 해당 보상 항의 중요도를 나타내며, 이 가중치들을 수동으로 튜닝하는 것은 매우 어려운 작업입니다.

각 보상 항은 에이전트의 모션과 특정 모션 특징에 대한 참조 모션 간의 오차를 정량화합니다(Chentanez/2018/Motion Tracking, Peng/2018/DeepMimic, Wang/2020/RL Motion). 예를 들어 관절 회전, 루트 위치 등이 있습니다. 이러한 보상 항에 일반적으로 사용되는 공식은 지수화된 오차입니다:

Eq. 7: 지수화된 오차 보상 항$$r_t^i = \exp(-\alpha_i \|\hat{q}_t^i \ominus q_t^i \|_2^2),$$이 수식은 개별 보상 항을 계산하는 일반적인 방법입니다. 에이전트의 특징 벡터 $q_t^i$와 참조 모션의 목표 특징 벡터 $\hat{q}_t^i$ 사이의 유클리드 거리 제곱(오차)에 음수를 취하고 지수 함수를 적용합니다. 오차가 0에 가까울수록 보상은 1에 가까워지고, 오차가 커질수록 보상은 0에 수렴합니다. $\alpha_i$는 수동으로 조정해야 하는 스케일 파라미터입니다.

여기서 $q_t^i$는 에이전트의 상태 $s_t$에서 추출된 위치나 속도와 같은 특징 벡터를 나타냅니다; $\hat{q}_t^i$는 참조 모션에 의해 지정된 해당 목표 특징입니다; 그리고 $\alpha_i$는 수동으로 지정된 스케일 파라미터입니다. 광범위한 모션의 정밀한 모방을 위한 효과적인 보상 함수를 수동으로 설계하는 것은 어려울 수 있습니다. 더욱이, 보상 파라미터 $w_i$와 $\alpha_i$는 튜닝하기가 힘들 수 있으며, 다른 유형의 모션에 맞게 조정해야 할 수도 있습니다.

우리는 모션 트래킹을 MOO 문제로 모델링하고 식 6의 선형 가중합을 학습된 적대적 미분 판별자로 대체하는 적응형 모션 트래킹 보상 함수를 제안합니다. 훈련 중에 판별자 $D(\Delta)$는 에이전트의 상태 $s$와 참조 모션 $\hat{s}$ 간의 차이를 음성 샘플(즉, $\Delta = \hat{s} \ominus s$)로 받습니다. $D$에 제공되는 유일한 양성 샘플은 완벽한 트래킹과 0의 트래킹 오차를 나타내는 $\Delta = 0$입니다. 판별자 $D$는 다음 목적 함수를 사용하여 훈련됩니다:

Eq. 8: ADD 판별자 목적 함수$$\max_D \log(D(0)) + E_{p(s|\pi)} [\log(1 - D(\Delta))] - \lambda_{GP} L_{GP}(D).$$이 수식은 ADD 판별자 $D$의 훈련 목표를 나타냅니다. 판별자는 양성 샘플(오차가 0인 경우)에 대한 로그 확률 $\log(D(0))$을 최대화하고, 음성 샘플(실제 오차 $\Delta$)에 대한 로그 확률 $\log(1 - D(\Delta))$의 기댓값을 최대화하도록 학습됩니다. 마지막 항은 그래디언트 페널티로, 훈련 안정성을 높입니다.

여기서 그래디언트 페널티 정규화기는 다음과 같이 지정됩니다.

Eq. 9: 그래디언트 페널티$$L_{GP}(D) = E_{p(s|\pi)} \left[ \|\nabla_{\phi} D(\phi)|_{\phi=\Delta}\|_2^2 \right],$$이 수식은 판별자 훈련에 사용되는 그래디언트 페널티를 정의합니다. 이는 음성 샘플 $\Delta$에서의 판별자 출력의 그래디언트 크기를 제한하여, 판별자가 너무 급격하게 변하는 것을 막고 훈련을 안정화시키는 역할을 합니다.

여기서 $p(s|\pi)$는 정책 $\pi$ 하에서의 한계 상태 분포를 나타냅니다. 우리 프레임워크에서는 ADD가 단 하나의 양성 훈련 샘플만 받기 때문에, 그래디언트 페널티가 양성 샘플 대신 음성 샘플에 적용됩니다. 이는 그래디언트 페널티가 양성 샘플에만 독점적으로 적용되었던 Peng/2021/AMP와 같은 이전 연구와 다릅니다. 트래킹 정책 $\pi$를 훈련하기 위한 보상은 다음과 같이 주어집니다:

Eq. 10: ADD 기반 보상 함수$$r_t = -\log(1 - D(\Delta_t)),$$이 수식은 정책을 훈련시키기 위한 실제 보상 $r_t$를 정의합니다. 판별자 $D$가 현재 상태 오차 $\Delta_t$를 진짜(오차가 0인 상태)라고 판단할 확률이 높을수록(즉, $D(\Delta_t)$가 1에 가까울수록), $\log(1 - D(\Delta_t))$는 음의 무한대에 가까워지고, 최종 보상은 매우 커집니다. 이는 판별자를 속이도록 정책을 유도하는 역할을 합니다.

여기서 미분 벡터는 단순히 에이전트의 상태와 목표 상태 간의 차이인 $\Delta_t = \hat{s}_t \ominus s_t$입니다.

이전의 적대적 모방 학습 기술은 분포 매칭 접근법을 채택하여, 판별자 $D(s_{t-n:t})$가 $n$개의 상태 시퀀스를 참조 또는 정책 생성으로 분류합니다. 이는 정책이 참조 모션의 특성을 광범위하게 닮은 궤적을 생성하도록 장려합니다. 대조적으로, 우리의 공식은 정밀한 프레임 수준의 복제를 허용하며, 이는 모션 인비트위닝이나 애니메이션 키프레임 후처리와 같이 높은 정확도를 요구하는 응용 프로그램에 필수적입니다.

5.1 Discriminator Observations (판별자 관찰)

Peng/2021/AMP를 따라, 관찰 맵 $\phi(\cdot)$은 에이전트의 상태 $s$와 참조 모션 $\hat{s}$에서 특징을 추출합니다. 그러면 미분 벡터는 추출된 특징들 간의 차이 $\Delta_t = \phi(\hat{s}_t) \ominus \phi(s_t)$로 구성됩니다. 관찰 맵 $\phi(\cdot)$은 Peng/2018/DeepMimic의 것과 유사한 특징 집합을 추출합니다:

루트의 전역 위치 및 회전
캐릭터의 지역 좌표 프레임에서 표현된 각 관절의 위치
각 관절의 전역 회전
캐릭터의 지역 좌표 프레임에서 표현된 루트의 선형 및 각속도
각 관절의 지역 속도

여기서 캐릭터의 지역 좌표 프레임은 원점이 캐릭터의 루트(즉, 골반)에 위치하도록 지정됩니다. 지역 좌표 프레임의 x축은 루트 링크의 정면 방향과 정렬되며, 양의 y축은 전역 상향 방향을 가리킵니다.

6 Motion Tracking (모션 트래킹)

모션 모방에 대한 ADD의 효과를 평가하기 위해, 우리는 28 자유도(DoF)의 시뮬레이션된 휴머노이드와 26 자유도의 시뮬레이션된 소니 EVAL 로봇(Taylor/2021/Sony EVAL robot)이 다양한 모션 클립 모음을 모방하도록 ADD를 적용하여 훈련합니다. 우리는 Peng/2018/DeepMimic의 개별 모션 클립을 모방하는 것뿐만 아니라, AMASS의 DanceDB 서브셋 및 LaFAN1의 서브셋(Harvey/2020/LaFAN1, Mahmood/2019/AMASS)과 같은 더 큰 모션 데이터셋에 대해 단일 일반 정책을 훈련하는 것에 대해 ADD를 평가합니다. LaFAN1 서브셋은 우리 환경에서 시뮬레이션되지 않는 객체 및 지형 상호작용을 포함하는 모션을 제외하여 선별되었습니다. LaFAN1 서브셋은 점프, 질주, 싸움, 춤 등 다양한 이동 기술을 포함하여 한 시간이 넘는 분량을 담고 있습니다.

6.1 States And Actions (상태와 행동)

상태 $s_t$는 Peng/2021/AMP에서 사용된 것과 유사한 특징들로 구성되며, 여기에는 루트에 대한 각 신체 링크의 위치, 6D 법선-접선 표현법으로 인코딩된 링크의 회전, 그리고 각 링크의 선형 및 각속도가 포함됩니다. 모든 특징은 캐릭터의 지역 좌표 프레임에 기록됩니다. 참조 모션의 목표 포즈도 시뮬레이션된 캐릭터를 참조 모션과 동기화하기 위해 정책에 제공됩니다. 정책의 행동 $a_t$는 각 관절에 대한 목표 회전을 지정하며, 이는 PD 제어기를 사용하여 작동됩니다. 구형 관절 목표는 3D 지수 맵(Grassia/1998/Exponential Maps)을 사용하여 표현되는 반면, 회전 관절은 스칼라 회전 각도를 사용하여 표현됩니다.

6.2 Network Architecture (네트워크 구조)

정책 $\pi$는 주어진 상태 $s_t$를 행동에 대한 가우시안 분포 $\pi(a_t|s_t) = \mathcal{N}(\mu(s_t), \Sigma)$로 매핑하는 신경망으로 모델링됩니다. 공분산 행렬 $\Sigma$는 훈련 과정 동안 고정되며, 수동으로 지정된 값들을 갖는 대각 행렬 $\Sigma = \text{diag}(\sigma_1, \sigma_2, ...)$로 표현됩니다. 입력에 의존하는 평균 $\mu(s_t)$는 1024개와 512개의 ReLU 활성화 유닛(Nair/2010/ReLU)으로 구성된 두 개의 은닉층을 가진 완전 연결 네트워크로 모델링되고, 그 뒤에 선형 출력층이 따릅니다. 가치 함수 $V(s_t)$와 판별자 $D(\Delta)$에도 유사한 구조가 채택되지만, 이들의 출력층은 단일 선형 유닛으로 구성됩니다.

6.3 Training (훈련)

ADD 훈련 절차의 개요는 알고리즘 1에 요약되어 있습니다. Peng/2018/DeepMimic를 따라, 캐릭터는 참조 모션에서 무작위로 샘플링된 시작 상태로 초기화됩니다. 각 타임스텝 $t$에서, 에이전트의 상태 $\phi(s_t)$와 참조 모션의 목표 상태 $\phi(\hat{s}_t)$에서 특징이 추출됩니다. 그 차이 $\Delta_t = \phi(\hat{s}_t) \ominus \phi(s_t)$는 판별자에 입력으로 제공됩니다. 그러면 판별자 $D(\Delta_t)$는 점수를 출력하고, 이 점수는 식 10에 따라 에이전트의 보상을 계산하는 데 사용됩니다.

에이전트에 의해 수집된 궤적은 경험 버퍼 B에 기록됩니다. 데이터 배치가 수집된 후, 버퍼에서 미니배치가 샘플링되어 판별자, 정책, 그리고 가치 함수를 업데이트합니다. 정책은 PPO(Schulman/2017/PPO)를 사용하여 업데이트되며, 어드밴티지는 GAE(𝜆)(Schulman/2018/GAE)로 계산됩니다. 가치 함수는 TD(𝜆)(Sutton/2018/TD Learning)로 계산된 목표 값을 사용하여 업데이트되고, 판별자는 식 8에 따라 업데이트됩니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 classDef pros fill:#D0F1B9 classDef warn fill:#FFD3C2 classDef ref fill:#EBEBEC classDef def fill:#FEEEB5 subgraph "For each trajectory" A[1. Collect trajectory with policy π] --> B B[2. Sample reference trajectory] --> C end subgraph "For each timestep t" C[3. Extract features φ(s_t), φ(ŝ_t)] --> D D[4. Compute difference Δ_t]:::idea D --> E[5. Get score d_t = D(Δ_t)] E --> F[6. Calculate reward r_t from d_t]:::core end F --> G[7. Store trajectory in Experience Buffer] subgraph "Update Step" G --> H[8. Sample minibatch from Buffer] H --> I[9. Update Discriminator D] H --> J[10. Update Value Function V] H --> K[11. Update Policy π using PPO] end

핵심 콕콕

• ADD는 수동으로 가중치를 조절해야 하는 기존의 보상 함수를 학습 기반의 '적대적 미분 판별자'로 대체합니다.
• 판별자는 '오차 없음'을 의미하는 0 벡터를 유일한 긍정 샘플로, 실제 캐릭터와 참조 모션 간의 '오차 벡터'를 부정 샘플로 학습합니다.
• 이 방식은 모션의 전반적인 스타일만 맞추는 기존 적대적 모방 학습과 달리, 프레임 단위의 정밀한 모션 복제를 가능하게 합니다.
• 훈련 안정성을 위해 그래디언트 페널티를 사용하는데, 이전 연구들과 달리 '부정 샘플'에 적용하는 것이 특징입니다.
• 최종적으로 에이전트는 판별자를 속여 높은 보상을 얻도록(즉, 오차 벡터를 0에 가깝게 만들도록) 정책을 학습합니다.

함정 주의

ADD와 기존 적대적 모방 학습(AMP 등)을 혼동하지 마세요.

- ADD (본 논문): 목표는 '정밀한 모션 트래킹'입니다. 판별자는 현재 상태와 목표 상태 간의 '차이(오차) 벡터'가 0인지 아닌지를 구별합니다. 따라서 프레임 단위로 정확하게 따라가도록 학습됩니다.

- 기존 적대적 모방 학습 (AMP): 목표는 '스타일 모방'입니다. 판별자는 모션의 '상태 시퀀스'가 전문가 데이터셋에서 나온 것처럼 '진짜' 같은지 아닌지를 구별합니다. 정확한 복제보다는 전반적인 스타일이나 분포를 맞추는 데 중점을 둡니다.

구현 힌트

ADD를 구현할 때 판별자에 입력으로 들어가는 '미분 벡터(differential vector)' 구성이 중요합니다. 논문 5.1절에 나온 것처럼 다음 특징들의 차이를 모두 포함시키는 것이 좋습니다.

- 루트(골반)의 전역 위치 및 회전
- 캐릭터의 지역 좌표계 기준 각 관절의 위치
- 각 관절의 전역 회전
- 캐릭터의 지역 좌표계 기준 루트의 선형/각속도
- 각 관절의 지역 속도

또한, 정책과 가치 함수, 판별자의 네트워크는 2개의 은닉층(1024, 512 유닛)을 가진 MLP로 구성하고, 정책 업데이트에는 PPO 알고리즘을 사용하는 것이 논문의 설정입니다.

쉬운 비유

적대적 미분 판별자(ADD)f>를 쉽게 비유해볼게요.

- 비유: '완벽주의자 족집게 안무가'와 '아이돌 연습생'

1. 연습생 (정책): K-POP 안무를 배우고 있습니다.
2. 원본 안무 영상 (참조 모션): 칼군무로 유명한 선배 그룹의 완벽한 안무 영상입니다.
3. 족집게 안무가 (판별자): 이 안무가는 '잘했다/못했다'로 평가하지 않습니다. 대신, 연습생의 현재 동작과 원본 영상의 동작을 동시에 보면서 '차이점'만 정확히 지적합니다. "지금 팔 각도 5도 틀렸고, 무릎은 3cm 더 굽혀야 해!" 이 '차이점 리포트'가 바로 '미분 벡터(differential vector)'입니다.
4. 안무가의 유일한 칭찬 (긍정 샘플): 안무가가 아무 말도 하지 않는 것. 즉, '차이점 없음(오차=0)' 상태가 유일한 만점입니다.
5. 연습생의 목표 (보상 함수): 안무가의 지적(부정적 피드백)을 최소화하는 것, 즉 안무가가 아무런 차이점도 찾아내지 못하게 만드는 것입니다. 안무가를 완벽하게 속이면 최고의 점수를 받는 셈입니다.

결론적으로, ADD는 '얼마나 다른지'를 학습하는 전문가를 두고, 그 전문가가 아무런 차이도 느끼지 못하도록 만드는 방식으로 정밀한 모방을 학습하는 방법입니다.

셀프 테스트

[O/X]

정답 보기

ADD의 판별자는 정책이 생성한 모션 시퀀스가 실제 모션 데이터셋에서 온 것인지 아닌지를 구별하도록 학습된다.
정답: X
해설: 이는 분포 매칭 방식의 적대적 모방 학습(예: AMP)에 대한 설명입니다. ADD의 판별자는 현재 상태와 목표 상태 간의 '차이(오차) 벡터'가 0인지 아닌지를 구별합니다.

[빈칸]

정답 보기

ADD 프레임워크에서 판별자에 제공되는 유일한 긍정적 샘플(positive sample)은 완벽한 트래킹을 의미하는 ___ 벡터이다.
정답: 0 (영)
해설: 오차가 전혀 없는 이상적인 상태를 나타내는 0 벡터가 유일한 긍정적 예시로 사용됩니다.

[서술형]

정답 보기

ADD에서 그래디언트 페널티(Gradient Penalty)를 양성 샘플이 아닌 음성 샘플에 적용하는 이유는 무엇이며, 이것이 기존 연구와 어떤 차이를 만드는가?
모범답안: ADD는 긍정 샘플이 단 하나(0 벡터)뿐이기 때문에, 다양한 샘플에 대한 그래디언트 정보를 얻기 어렵습니다. 반면 음성 샘플(실제 오차 벡터)은 정책이 탐색함에 따라 계속해서 다양하게 생성됩니다. 따라서 이 다양한 음성 샘플들에 그래디언트 페널티를 적용하는 것이 판별자 학습을 안정시키고 의미 있는 그래디언트를 제공하는 데 더 효과적입니다. 이는 여러 긍정 샘플(실제 데이터)에 페널티를 적용하던 기존 연구와의 핵심적인 차이점입니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6.3 Training (훈련)

Peng et al. [2018] (VS)의 방법을 따라, 캐릭터는 참조 모션에서 무작위로 샘플링된 시작 상태로 초기화됩니다. 각 타임스텝 $t$에서, 에이전트의 상태 $\phi(s_t)$와 참조 모션의 목표 상태 $\phi(\hat{s}_t)$로부터 특징이 추출됩니다. 그 차이인 $\Delta_t = \phi(\hat{s}_t) \ominus \phi(s_t)$가 판별자의 입력으로 제공됩니다. 그러면 판별자 $D(\Delta_t)$는 점수를 출력하고, 이 점수는 수식 10에 따라 에이전트의 보상을 계산하는 데 사용됩니다.

에이전트에 의해 수집된 궤적들은 경험 버퍼 $B$에 기록됩니다. 데이터 배치가 수집된 후, 미니배치들이 버퍼에서 샘플링되어 판별자, 정책, 그리고 가치 함수를 업데이트합니다. 정책은 PPO Schulman/2017/PPO를 사용하여 업데이트되며, 어드밴티지는 GAE($\lambda$) Schulman/2018/GAE로 계산됩니다. 가치 함수는 TD($\lambda$) Sutton and Barto/2018/RL Book로 계산된 목표 가치를 사용하여 업데이트되고, 판별자는 수식 8에 따라 업데이트됩니다.

알고리즘 1: 모션 모방을 위한 ADD 훈련 절차
1: 입력 M: 참조 모션 클립 또는 데이터셋
2: $D \leftarrow$ 판별자 초기화
3: $\pi \leftarrow$ 정책 초기화
4: $V \leftarrow$ 가치 함수 초기화
5: B $\leftarrow \emptyset$ 경험 버퍼 초기화
6: 완료될 때까지 반복
7:   궤적 $i=1, ..., m$에 대해 반복
8:     $\tau_i \leftarrow \{(s_t, a_t)_{t=0}^{T-1}, s_T\}$ $\pi$로 궤적 수집
9:     $\hat{\tau}_i \leftarrow \{(\hat{s}_t)_{t=0}^T\}$ M에서 참조 궤적 샘플링
10:     타임스텝 $t=0, ..., T-1$에 대해 반복
11:       $\Delta_t \leftarrow \phi(\hat{s}_t) \ominus \phi(s_t)$
12:       $d_t \leftarrow D(\Delta_t)$
13:       $r_t \leftarrow$ $d_t$를 사용하여 수식 10에 따라 보상 계산
14:       $\tau_i$에 $r_t$ 기록
15:     반복 종료
16:     $B$에 $\tau_i$ 저장
17:   반복 종료
18:   업데이트 스텝 $= 1, ..., n$에 대해 반복
19:     $b_\pi \leftarrow$ $B$에서 $K$개의 차분 ${\Delta_j}_{j=1}^K$ 배치 샘플링
20:     $b_\pi$를 사용하여 $D$(수식 8), $V$, 그리고 $\pi$ 업데이트
21:   반복 종료
22: 반복 종료

6.4 Motion Imitation Results (모션 모방 결과)

ADD의 모션 추적 성능을 벤치마킹하기 위해, 우리는 ADD를 두 가지 잘 알려진 방법인 DeepMimic과 AMP Peng/2018/DeepMimic, Peng/2021/AMP와 비교합니다. DeepMimic은 정확한 모션 추적을 위해 설계되었으며, 여러 하위 항으로 구성된 수동으로 설계된 모방 보상 함수에 의존합니다.

Eq. 11: DeepMimic 보상 함수$$r^{\text{DM}}_t = w_p r^p_t + w_{jv} r^{jv}_t + w_{rv} r^{rv}_t + w_e r^e_t + w_c r^c_t.$$이 수식은 DeepMimic에서 사용되는 보상 함수를 보여줍니다. 이는 관절 포즈($r^p_t$), 관절 속도($r^{jv}_t$), 루트 속도($r^{rv}_t$), 말단 장치($r^e_t$), 그리고 질량 중심($r^c_t$) 오차에 대한 여러 보상 항들의 가중 합($w_i$)으로 구성됩니다. 이러한 가중치들은 모두 수동으로 튜닝해야 하는 하이퍼파라미터이며, 이는 상당한 노력을 요구합니다.

각 항은 지수화된 오차(수식 7)이며, 스케일 $\alpha_i$와 가중치 $w_i$ 하이퍼파라미터를 가집니다(전체 공식은 보충 자료 B.2 참조). 추가적으로, 관절 포즈 $r^p_t$와 속도 보상 $r^{jv}_t$를 계산하는 것은 관절별 가중치를 포함하여 추가적인 튜닝 노력이 필요합니다. ADD와 유사하게, DeepMimic 정책은 목표 프레임 형태로 위상 정보를 받아 정책을 주어진 참조 모션과 동기화합니다. 반면, AMP는 정확한 모션 추적보다는 모션 데이터셋의 일반적인 스타일을 모방하기 위해 적대적 모방 학습 프레임워크를 채택합니다. 정확한 모션 추적을 위해 설계되지는 않았지만, ADD가 유사한 적대적 프레임워크를 기반으로 하기 때문에 AMP를 비교에 포함시켰습니다. 그러나 AMP의 모방 목표를 조정함으로써, 우리의 접근 방식은 학습 목표를 일반적인 스타일 모방에서 정확한 모션 추적으로 변경할 수 있습니다. 많은 후속 연구들이 모방 목표와는 직교적인 구조적 혁신으로 DeepMimic과 AMP를 확장했습니다 Luo/2023/Follow-up, Peng/2022/Follow-up, Tessler/2024/Follow-up. 그러나 우리의 실험은 핵심 모방 목표에 초점을 맞춥니다. 따라서, 우리는 우리의 방법을 DeepMimic과 AMP와 직접 비교합니다. ADD는 DeepMimic과 AMP가 확장된 방식과 유사하게 이러한 추가적인 개선 사항들과 결합될 수도 있습니다.

방법들 간의 공정한 비교를 위해, 우리는 Peng/2018/DeepMimic에서 사용된 포즈 종료(pose termination)를 비활성화했습니다. 이는 캐릭터의 포즈가 참조와 크게 벗어날 경우 에피소드를 종료하는 기능입니다. 포즈 종료는 AMP와 같은 분포 매칭 기술에는 적용할 수 없는데, 여기서는 정책이 참조 모션과 동기화되지 않기 때문입니다. 조기 종료는 캐릭터가 원치 않는 지면 접촉을 할 때만 발동됩니다. 베이스라인들은 신뢰할 수 있는 비교를 보장하기 위해 Peng/2018/DeepMimic, Peng/2021/AMP가 제공하고 튜닝한 공개 코드를 기반으로 구현되었습니다. 모션 추적 성능은 위치 추적 오차 $e^{\text{pos}}_t$와 자유도(DoF) 속도 추적 오차를 사용하여 평가되며, 이는 모션의 부드러움을 나타내는 지표입니다. $e^{\text{pos}}_t$는 시뮬레이션된 캐릭터와 참조 모션 간의 루트 위치 및 상대적 관절 위치의 차이를 측정합니다:

Eq. 12: 위치 추적 오차$$e^{\text{pos}}_t = \frac{1}{N_{\text{joint}} + 1} \left( \sum_{j \in \text{joints}} \| (\hat{x}^j_t - \hat{x}^{\text{root}}_t) - (x^j_t - x^{\text{root}}_t) \|_2 + \| \hat{x}^{\text{root}}_t - x^{\text{root}}_t \|_2 \right).$$이 수식은 시뮬레이션된 캐릭터와 참조 모션 간의 위치 오차를 정량화합니다. 첫 번째 항은 모든 관절 $j$에 대해 루트를 기준으로 한 상대적 위치 오차의 합을 계산하고, 두 번째 항은 루트 자체의 전역 위치 오차를 계산합니다. $x^j_t$와 $\hat{x}^j_t$는 각각 시뮬레이션된 캐릭터와 참조 모션의 관절 $j$의 3D 데카르트 좌표 위치를 나타냅니다.

여기서 $x^j_t$와 $\hat{x}^j_t$는 각각 시뮬레이션된 캐릭터와 참조 모션에서 온 관절 $j$의 3D 데카르트 좌표 위치를 나타냅니다. $N_{\text{joint}}$는 캐릭터의 관절 수를 나타냅니다. 상세한 하이퍼파라미터 설정은 보충 자료 B.4에서 확인할 수 있습니다.

그림 2와 3은 ADD를 통해 훈련된 휴머노이드와 EVAL 로봇이 학습한 행동들을 보여줍니다. 이 행동들은 보충 비디오에서 가장 잘 확인할 수 있습니다. ADD는 개별 모션 클립과 더 큰 모션 데이터셋을 다른 신체 구조로 긴밀하게 모방할 수 있으며, 다양한 민첩하고 곡예적인 기술들을 성공적으로 재현합니다. 여기에는 등반(Climb)과 더블 콩(Double Kong)과 같은 도전적인 파쿠르 기술이 포함되는데, 이는 환경과의 복잡한 접촉을 복제하기 위해 특히 높은 모션 추적 정확도를 요구합니다. 다른 방법들과의 정성적 비교는 보충 비디오에서 확인할 수 있습니다.

표 1과 표 2는 다른 방법들의 정량적 비교를 요약합니다. AMP는 정책이 일반적인 분포 매칭 목표를 사용하여 훈련되기 때문에 저조한 추적 성능을 보입니다. AMP의 모드 붕괴에 대한 취약성 또한 더 큰 모션 데이터셋을 추적하는 데 덜 효과적이게 만듭니다. ADD와 DeepMimic은 모두 다양한 참조 모션을 정확하게 추적할 수 있습니다. 그러나 보상 함수의 견고성과 배포 용이성에는 중요한 차이가 있습니다. 수동으로 설계된 보상 함수에 대한 의존성은, 다양한 행동을 모방할 수 있는 일반적이고 효과적인 보상 함수를 만드는 것이 어려울 수 있기 때문에, 어느 정도 DeepMimic의 광범위한 모션 모방 능력을 제한합니다. 예를 들어, DeepMimic 정책은 일부 도전적인 파쿠르 동작을 재현하는 데 실패했습니다. 더블 콩(Double Kong) 동작의 경우, DeepMimic 정책은 상자를 뛰어넘지 못하고 넘어진 후 제자리에서 뛰는 것을 모방하는 것을 학습합니다. 반면, ADD는 캐릭터가 장애물을 성공적으로 넘도록 하여 점프와 복잡한 접촉을 복제합니다. DeepMimic으로 훈련된 정책은 또한 DanceDB 데이터셋을 추적할 때 눈에 띄는 떨림 현상을 보이는 반면, ADD는 낮은 자유도(DoF) 속도 추적 오차에서 나타나듯이 다양한 동작에 걸쳐 일관되게 부드러운 행동을 생성합니다. 특히 DanceDB에 대한 추가적인 보상 튜닝은 DeepMimic의 성능을 더욱 향상시킬 수 있습니다. 그러나 고정된 수동 지정 파라미터에 의존하는 대신 자동으로 다른 목표들의 균형을 학습함으로써, ADD는 더 다양한 동작을 모방하기 위한 더 일반적이고 적응적인 접근 방식을 제공합니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 classDef pros fill:#D0F1B9 classDef warn fill:#FFD3C2 classDef ref fill:#EBEBEC classDef def fill:#FEEEB5 subgraph "Training Loop (매 에포크 반복)" A[참조 모션에서 시작 상태 샘플링]:::def --> B B(에이전트, 정책 π로 궤적 수집):::sub --> C C{"
매 타임스텝 t
"} --> D D[상태 차이 Δt 계산
Δt = φ(ŝt) - φ(st)]:::idea --> E E[판별자 D로 점수 계산
d_t = D(Δt)]:::core --> F F[점수를 보상으로 변환
r_t = -log(1 - d_t)]:::core --> G G[궤적과 보상을
경험 버퍼 B에 저장]:::sub --> H H{"
궤적 수집 완료
"} --> I end subgraph "Update Step (N번 반복)" I[버퍼 B에서 미니배치 샘플링]:::sub --> J J[판별자 D 업데이트
(Eq. 8)]:::core --> K K[정책 π와 가치함수 V 업데이트
(PPO, GAE, TD)]:::sub --> L L[업데이트 완료]:::pros end

핵심 콕콕

• ADD 훈련은 에이전트의 현재 상태와 참조 모션의 목표 상태 간의 '차이 벡터(differential vector)'를 판별자에 입력하여 진행됩니다.
• 판별자는 이 차이 벡터를 평가하여 보상 신호를 생성하며, 에이전트는 이 보상을 최대화하도록 학습합니다.
• 성능 비교 결과, ADD는 수동 보상 설계가 필요한 DeepMimic과 유사한 추적 정확도를 달성하면서도, 보상 튜닝의 수고를 덜어줍니다.
• AMP는 분포 매칭 방식으로 인해 정확한 추적에는 실패했지만, ADD는 동일한 적대적 학습 프레임워크를 정밀 추적에 맞게 변형하여 성공했습니다.
• ADD는 복잡한 파쿠르 동작처럼 기존 방법이 실패하는 경우에도 더 강건한 성능을 보였지만, 일부 단순 전진 동작에서는 DeepMimic보다 정밀도가 약간 낮을 수 있습니다.

함정 주의

ADD와 AMP를 혼동하지 마세요. 둘 다 적대적 학습을 사용하지만 목표가 다릅니다.

- AMP (Adversarial Motion Priors): 모션 데이터셋 전체의 '스타일 분포'를 학습합니다. 생성된 모션이 데이터셋에 있을 법한 자연스러운 스타일이기만 하면 되며, 특정 참조 동작을 프레임 단위로 따라갈 필요는 없습니다. '달리기 스타일'을 배우는 것과 같습니다.

- ADD (Adversarial Differential Discriminator): 특정 참조 동작을 '정확하게 복제'하는 것을 목표로 합니다. 매 순간 참조 동작과의 차이(오차)를 최소화하도록 학습합니다. '특정 달리기 선수의 폼을 똑같이 따라 하는 것'과 같습니다.

구현 힌트

실험의 공정성을 위해 중요한 구현 디테일이 있습니다. 기존 DeepMimic에서 사용되던 '포즈 종료(pose termination)' 조건을 비활성화했습니다. 이 조건은 캐릭터가 참조 포즈에서 너무 많이 벗어나면 에피소드를 강제 종료시키는 역할을 합니다. 하지만 참조 동작과 동기화되지 않는 AMP 같은 분포 매칭 방법과는 비교할 수 없으므로, 모든 방법이 동일한 조건에서 평가될 수 있도록 이 기능을 끈 것입니다. 여러분의 연구에서 베이스라인과 비교할 때 이런 미묘한 실험 설정 차이가 결과에 큰 영향을 미칠 수 있음을 기억하세요.

쉬운 비유

ADD의 학습 방식f>을 쉽게 비유해볼게요.

- '틀린 그림 찾기' 전문가(판별자)와 그림을 따라 그리는 화가(에이전트)가 있다고 상상해보세요.

- 기존 방식(DeepMimic): 화가에게 '선은 굵게, 색은 밝게, 구도는 중앙에' 와 같이 수십 개의 규칙이 적힌 평가표(수동 보상 함수)를 주고 점수를 매깁니다. 규칙이 너무 많고 복잡해서 화가가 혼란에 빠지기 쉽습니다.

- ADD 방식: 화가에게 평가표 대신 '원본 그림'(이상적인 상태, 즉 오차 0) 딱 한 장만 줍니다. '틀린 그림 찾기' 전문가는 화가가 그린 그림과 원본 그림을 비교해서 다른 부분을 귀신같이 찾아냅니다. 화가는 전문가가 지적하는 '차이점'(differential vector)을 없애기 위해 필사적으로 그림을 수정하며 원본과 똑같이 그리려고 노력합니다. 전문가는 점점 더 미세한 차이도 찾아내도록 실력이 늘고, 화가도 점점 더 정교하게 따라 그리는 실력이 늡니다. 이 과정에서 복잡한 규칙 목록 없이도 완벽한 모작이 탄생하게 됩니다.

셀프 테스트

[O/X] ADD는 DeepMimic과 마찬가지로, 다양한 종류의 모션을 모방하기 위해 보상 함수의 가중치를 수동으로 세밀하게 조정해야 한다.

정답 보기

정답: X
해설: ADD의 핵심 장점은 판별자가 자동으로 목표들의 균형을 학습하여 보상 신호를 생성하므로, DeepMimic과 같은 수동 보상 엔지니어링 및 튜닝 과정이 필요 없다는 것입니다.

[빈칸] AMP는 모션 데이터셋의 전반적인 스타일을 학습하는 ___ 매칭 방식을 사용하기 때문에 정확한 추적 성능이 떨어지는 반면, ADD는 프레임 단위의 오차를 최소화하여 정밀한 모방을 수행한다.

정답 보기

정답: 분포 (distribution)
해설: AMP는 생성된 모션이 참조 데이터의 전체적인 분포에 속하는지를 판별하는 반면, ADD는 특정 참조 모션과의 시간별 차이를 직접적으로 다룹니다.

[서술형] DeepMimic은 일부 파쿠르 동작 재현에 실패했지만 ADD는 성공했습니다. 이 결과가 두 방법론의 어떤 근본적인 차이에서 비롯되었는지 설명하고, ADD의 접근 방식이 왜 더 강건(robust)할 수 있는지 논하시오.

정답 보기

모범답안: DeepMimic은 고정된 가중치를 가진 수동 설계 보상 함수에 의존합니다. 파쿠르와 같이 복잡하고 역동적인 환경 상호작용이 있는 동작에서는, 미리 정해진 가중치들이 최적의 균형을 이루지 못할 수 있습니다. 예를 들어, 특정 관절의 오차에 대한 페널티가 너무 커서 장애물을 넘는 대신 넘어지는 것을 택하는 지역 최적해(local optima)에 빠질 수 있습니다. 반면, ADD는 판별자를 통해 동적으로 목표 간의 균형을 학습합니다. 학습 과정에서 판별자는 현재 정책이 가장 어려워하는 오차의 조합에 집중하게 되므로, 장애물을 넘기 위해 어떤 오차를 우선적으로 줄여야 하는지를 스스로 판단할 수 있습니다. 이러한 적응적인 보상 형성 방식이 ADD를 더 복잡하고 다양한 기술에 대해 더 강건하게 만듭니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6 Motion Tracking (모션 트래킹)

모션 모방에 대한 ADD의 효과를 평가하기 위해, 우리는 28 자유도(DoF)의 시뮬레이션된 휴머노이드와 26 자유도의 시뮬레이션된 소니 EVAL 로봇(Taylor/2021/EVAL robot)이 다양한 모션 클립 모음을 모방하도록 ADD를 적용하여 훈련합니다. 우리는 Peng/2018/DeepMimic의 개별 모션 클립을 모방하는 것뿐만 아니라, AMASS의 DanceDB 서브셋이나 LaFAN1의 서브셋(Harvey/2020/LaFAN1, Mahmood/2019/AMASS)과 같은 더 큰 모션 데이터셋에 대해 단일 일반 정책을 훈련하는 것에 대해 ADD를 평가합니다. LaFAN1 서브셋은 우리의 환경에서는 시뮬레이션되지 않는 물체 및 지형 상호작용을 포함하는 모션을 제외하여 선별되었습니다. LaFAN1 서브셋은 점프, 전력 질주, 싸움, 춤 등을 포함한 다양한 이동 기술에 대해 한 시간이 넘는 분량을 포함하고 있습니다.

쪽집게 과외

핵심 콕콕

• ADD의 모션 모방 성능을 평가하기 위해 28 자유도의 휴머노이드와 26 자유도의 Sony EVAL 로봇을 사용합니다.
• 평가는 개별 모션 클립(Peng et al. 2018)과 대규모 데이터셋(AMASS DanceDB, LaFAN1) 모두에서 이루어집니다.
• LaFAN1 데이터셋은 시뮬레이션 환경에 맞춰 물체 및 지형 상호작용이 없는 데이터로 선별하여 사용합니다.
• 이를 통해 다양한 캐릭터, 모션 종류, 데이터 규모에 대한 ADD의 일반화 성능을 검증하고자 합니다.

셀프 테스트

[O/X] 본 연구에서는 ADD의 성능을 평가하기 위해 시뮬레이션된 휴머노이드 캐릭터만 사용했다.

정답 보기

정답: X
해설: 28 자유도의 휴머노이드뿐만 아니라 26 자유도의 Sony EVAL 로봇도 사용하여 다양한 캐릭터 형태에 대한 성능을 평가했습니다.

[빈칸] 개별 모션 클립 외에도, ___와 같은 대규모 데이터셋을 사용하여 단일 일반 정책을 훈련하는 방식으로도 ADD를 평가했다.

정답 보기

정답: AMASS DanceDB 또는 LaFAN1
해설: 연구에서는 개별 동작뿐만 아니라, DanceDB나 LaFAN1 같은 대규모 데이터셋을 모방하는 일반적인 정책의 성능도 평가하여 방법론의 확장성을 보였습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6.1 States And Actions (상태와 행동)

상태 $s_t$는 Peng/2021/AMP에서 사용된 것과 유사한 특징들로 구성됩니다. 여기에는 루트에 대한 각 신체 링크의 상대적 위치, 6D 법선-탄젠트 표현으로 인코딩된 링크의 회전, 그리고 각 링크의 선형 및 각속도가 포함됩니다.

모든 특징은 캐릭터의 지역 좌표계에 기록됩니다.

참조 모션의 목표 포즈 또한 시뮬레이션된 캐릭터를 참조 모션과 동기화하기 위해 정책에 제공됩니다.

정책의 행동 $a_t$는 각 관절에 대한 목표 회전을 지정하며, 이는 PD 제어기를 사용하여 구동됩니다.

구형 관절 목표는 3D 지수 맵(Grassia/1998/Exponential Maps)을 사용하여 표현되는 반면, 회전 관절은 스칼라 회전각을 사용하여 표현됩니다.

쪽집게 과외

핵심 콕콕

• 상태($s_t$): 루트 기준 각 신체 부위의 상대 위치, 6D 회전 표현, 선형/각속도로 구성됩니다.
• 좌표계: 모든 상태 특징은 캐릭터의 '지역 좌표계'를 기준으로 표현되어, 전역 위치/방향에 무관한 학습을 돕습니다.
• 행동($a_t$): 정책의 출력은 각 관절의 '목표 회전값'입니다.
• 구동 방식: 행동으로 출력된 목표 회전값은 PD 제어기를 통해 실제 물리 엔진의 토크로 변환되어 캐릭터를 움직입니다.
• 관절 표현: 구형 관절은 3D 지수 맵으로, 회전 관절은 스칼라 값으로 표현하여 각 관절의 특성에 맞게 행동을 정의합니다.

구현 힌트

상태 특징을 캐릭터의 '지역 좌표계'로 변환하는 것은 매우 중요합니다. 이렇게 하면 학습된 정책이 월드 상의 어느 위치, 어느 방향에서 시작하더라도 일관되게 동작할 수 있어 일반화 성능이 크게 향상됩니다. 또한, 관절 회전을 표현할 때 오일러 각도 대신 6D 표현(정규-탄젠트)을 사용하면 짐벌락(gimbal lock) 문제와 불연속성 문제를 피할 수 있어 학습 안정성에 큰 도움이 됩니다.

셀프 테스트

[빈칸] 정책의 행동($a_t$)은 각 관절의 목표 회전값을 지정하며, 이는 ___ 제어기를 통해 구동된다.

정답 보기

정답: PD
해설: PD(Proportional-Derivative) 제어기는 목표값과 현재값의 차이(오차) 및 그 변화율을 이용해 필요한 힘(토크)을 계산하는 제어 방식입니다. 이 논문에서는 정책이 '이렇게 움직여라'라는 목표 회전값을 출력하면, PD 제어기가 그 목표를 달성하기 위해 필요한 관절 토크를 계산하여 물리 시뮬레이션에 적용하는 역할을 합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6.2 Network Architecture (네트워크 구조)

정책 $𝜋$는 주어진 상태 $s_t$를 행동에 대한 가우시안 분포, 즉 $𝜋(a_t|s_t) = N(𝜇(s_t), Σ)$로 매핑하는 신경망으로 모델링됩니다. 공분산 행렬 $Σ$는 훈련 과정 동안 고정되며, 수동으로 지정된 값들을 갖는 대각 행렬 $Σ = diag(𝜎_1, 𝜎_2, ...)$로 표현됩니다. 입력에 의존하는 평균 $𝜇(s_t)$는 1024개와 512개의 ReLU 활성화 유닛으로 구성된 두 개의 은닉층을 가진 완전 연결 네트워크로 모델링되며 Nair/2010/Rectified Linear Units, 그 뒤에 선형 출력층이 이어집니다. 가치 함수 $V(s_t)$와 판별자 $D(Δ)$에도 유사한 구조가 채택되지만, 이들의 출력층은 단일 선형 유닛으로 구성된다는 점이 다릅니다.

쪽집게 과외

알고리즘

flowchart TD classDef def fill:#FEEEB5 classDef core fill:#FFDBE6 subgraph Policy Network (정책망) A[State s_t] --> B[FC Layer 1: 1024 ReLU] B --> C[FC Layer 2: 512 ReLU] C --> D[Linear Output Layer] D --> E[Mean μ(s_t)]:::def end subgraph Value & Discriminator Networks (가치망 & 판별망) F[Input (s_t or Δ)] --> G[FC Layer 1: 1024 ReLU] G --> H[FC Layer 2: 512 ReLU] H --> I[Linear Output Layer] I --> J[Single Scalar Value]:::core end

핵심 콕콕

• 정책망(Policy), 가치망(Value), 판별망(Discriminator) 모두 2개의 은닉층을 가진 MLP(다층 퍼셉트론) 구조를 사용합니다.
• 은닉층은 각각 1024개, 512개의 유닛과 ReLU 활성화 함수로 구성됩니다.
• 정책망은 행동 분포의 평균(μ)을 출력하고, 가치망과 판별망은 단일 스칼라 값을 출력합니다.
• 정책망의 공분산(Σ)은 훈련 중 학습되지 않고 고정된 대각 행렬을 사용합니다.

구현 힌트

이 논문에서 제안하는 구조는 꽤 표준적인 MLP 구성입니다. PyTorch를 사용한다면 `nn.Sequential`을 활용하여 `nn.Linear(input_dim, 1024)`, `nn.ReLU()`, `nn.Linear(1024, 512)`, `nn.ReLU()`, `nn.Linear(512, output_dim)` 순서로 쉽게 구현할 수 있습니다. 정책망의 공분산 행렬은 학습 가능한 파라미터가 아닌, 고정된 `torch.Tensor`로 정의하고 가우시안 분포를 만들 때 사용하면 됩니다.

셀프 테스트

[O/X] 정책망, 가치망, 판별망은 모두 동일한 출력층 구조를 가진다.

정답 보기

정답: X
해설: 정책망은 행동 분포의 평균 벡터를 출력하는 반면, 가치망과 판별망은 단일 선형 유닛, 즉 하나의 스칼라 값을 출력합니다.

[빈칸] 정책망의 은닉층은 각각 ___개와 ___개의 ReLU 활성화 유닛으로 구성된다.

정답 보기

정답: 1024, 512
해설: 첫 번째 은닉층은 1024개, 두 번째 은닉층은 512개의 유닛을 가집니다.

[서술형] 정책망의 출력인 가우시안 분포에서 평균(μ)과 공분산(Σ)은 각각 어떻게 결정되는가?

정답 보기

모범답안: 평균(μ)은 신경망이 현재 상태(s_t)를 입력받아 계산하는 동적인 값입니다. 반면, 공분산(Σ)은 훈련 과정 동안 변하지 않는, 미리 수동으로 지정된 고정된 대각 행렬입니다. 이는 탐색의 범위를 일정하게 유지하는 역할을 합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6.3 Training (훈련)

ADD 훈련 절차의 개요는 알고리즘 1에 요약되어 있습니다. Peng et al./2018/DeepMimic을 따라, 캐릭터는 참조 모션에서 무작위로 샘플링된 시작 상태로 초기화됩니다. 각 타임스텝 $t$에서, 에이전트의 상태 $\phi(s_t)$와 참조 모션의 목표 상태 $\phi(\hat{s}_t)$로부터 특징이 추출됩니다. 그 차이 $\Delta_t= \phi(\hat{s}_t) \ominus \phi(s_t)$는 판별자에 입력으로 제공됩니다. 그러면 판별자 $D(\Delta_t)$는 점수를 출력하며, 이 점수는 수식 10에 따라 에이전트의 보상을 계산하는 데 사용됩니다.

에이전트가 수집한 궤적들은 경험 버퍼 $B$에 기록됩니다. 데이터 배치가 수집된 후, 미니배치들이 버퍼에서 샘플링되어 판별자, 정책, 가치 함수를 업데이트합니다. 정책은 PPO(Schulman et al./2017/PPO)를 사용하여 업데이트되며, 어드밴티지는 GAE($\lambda$)(Schulman et al./2018/GAE)로 계산됩니다. 가치 함수는 TD($\lambda$)(Sutton and Barto/2018/RL Book)로 계산된 목표값을 사용하여 업데이트되고, 판별자는 수식 8에 따라 업데이트됩니다.

알고리즘 1: 동작 모방을 위한 ADD 훈련 절차

1: 입력 M: 참조 모션 클립 또는 데이터셋
2: D ← 판별자 초기화
3: π ← 정책 초기화
4: V ← 가치 함수 초기화
5: B ← ∅ 경험 버퍼 초기화
6: 완료되지 않는 동안 반복
7:     궤적 i = 1, ..., m에 대해 반복
8:         τ_i ← {(s_t, a_t)_t=0^(T-1), s_T} π로 궤적 수집
9:         ˆτ_i ← {(ˆs_t)_t=0^T} M에서 참조 궤적 샘플링
10:        타임스텝 t = 0, ..., T-1에 대해 반복
11:            Δ_t ← φ(ˆs_t) ⊖ φ(s_t)
12:            d_t ← D(Δ_t)
13:            r_t ← d_t를 사용하여 수식 10에 따라 보상 계산
14:            τ_i에 r_t 기록
15:        반복 종료
16:        B에 τ_i 저장
17:    반복 종료
18:    업데이트 단계 = 1, ..., n에 대해 반복
19:        b_π ← B에서 K개의 차분 {Δ_j}_j=1^K 배치 샘플링
20:        b_π를 사용하여 D(수식 8), V, π 업데이트
21:    반복 종료
22: 반복 종료

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef sub fill:#CCEFFF; classDef idea fill:#E8D2E5; sub_start((Start)) --> A[Initialize D, π, V, B]:::sub A --> B{while not done}:::sub B --> C{for each trajectory}:::sub C --> D[Collect trajectory τ with policy π]:::sub D --> E[Sample reference ˆτ from dataset M]:::sub E --> F{for each time step t}:::sub F --> G[Calculate differential Δt = φ(ˆst) - φ(st)]:::idea G --> H[Get score dt = D(Δt)]:::core H --> I[Calculate reward rt from dt]:::core I --> J[Record rt]:::sub J --> F F -- trajectory done --> K[Store trajectory in buffer B]:::sub K --> C C -- all trajectories done --> L{for each update step}:::sub L --> M[Sample minibatch from B]:::sub M --> N[Update D, V, and π]:::core N --> L L -- all updates done --> B

핵심 콕콕

• ADD 훈련은 표준 강화학습 루프(PPO)를 따르지만, 보상 함수가 동적으로 학습됩니다.
• 각 타임스텝의 보상은 에이전트의 현재 상태와 참조 모션의 목표 상태 간의 '차이 벡터(Δt)'를 평가하는 판별자(D)의 출력 점수로부터 계산됩니다.
• 에이전트가 수집한 데이터(궤적)는 경험 버퍼에 저장되며, 이 버퍼에서 샘플링된 미니배치를 사용하여 판별자, 정책, 가치 함수를 모두 업데이트합니다.
• 정책 업데이트에는 PPO, 어드밴티지 계산에는 GAE(λ), 가치 함수 업데이트에는 TD(λ)와 같은 검증된 강화학습 기법들이 사용됩니다.

구현 힌트

이 알고리즘을 구현할 때, PPO, GAE(λ), TD(λ)는 이미 잘 만들어진 강화학습 라이브러리(예: Stable Baselines3, RLlib)의 구현체를 활용할 수 있습니다. 핵심적인 커스터마이징은 보상 계산 부분입니다. 에이전트가 환경과 상호작용하여 (상태, 행동, 다음 상태) 튜플을 얻을 때마다, 알고리즘 1의 11~13단계를 수행하여 보상을 계산하고 이 값을 경험 버퍼에 저장하면 됩니다.

쉬운 비유

ADD 훈련 과정f>을 쉽게 비유해볼게요.

- 비유: '깐깐한 피겨 스케이팅 코치와 선수' 이야기

1. 선수(정책 π)는 연기를 펼칩니다. (궤적 수집)
2. 코치(판별자 D)는 선수의 동작(에이전트 상태 s_t)을 비디오로 찍어 완벽한 교본 동작(참조 모션 ˆs_t)과 프레임 단위로 비교합니다. 코치는 단순히 '좋다/나쁘다'라고 말하지 않고, '팔 각도가 5도 틀렸고, 다리 높이가 10cm 낮다'와 같이 구체적인 '차이점 목록(Δ_t)'을 만듭니다.
3. 코치는 이 '차이점 목록'을 보고 '지금 단계에서 이 정도 차이는 얼마나 심각한가'에 대한 점수(d_t)를 매깁니다. 선수가 초보일 때는 큰 실수에만 낮은 점수를 주지만, 선수가 성장할수록 아주 미세한 차이에도 민감하게 반응하며 점수를 깎습니다.
4. 선수(정책)는 코치가 매긴 점수를 '보상(r_t)'으로 삼아 다음 연기를 더 잘하려고 노력합니다. 즉, '차이점 목록'을 최대한 0에 가깝게 만들어 코치를 속이려고(높은 점수를 받으려고) 훈련합니다.
5. 이 과정이 반복되면서, 코치는 점점 더 날카롭게 차이점을 찾아내고, 선수는 그 차이를 줄여나가며 결국 교본과 거의 똑같은 완벽한 연기를 해내게 됩니다.

셀프 테스트

[O/X] 알고리즘 1에서 에이전트의 보상(rt)은 현재 상태와 목표 상태의 차이(Δt)에 고정된 가중치를 곱하여 직접 계산된다.

정답 보기

정답: X
해설: 보상은 차이 벡터 Δt를 판별자 D에 입력하여 얻은 점수 d_t를 기반으로 계산됩니다. 판별자 자체가 학습 과정에서 동적으로 변하기 때문에, 보상 함수는 고정되어 있지 않고 적응적으로 변합니다.

[빈칸] 정책(π)은 ___ 알고리즘을 사용하여 업데이트되며, 이때 필요한 어드밴티지는 ___를 통해 계산된다.

정답 보기

정답: PPO, GAE(λ)
해설: 본문에서는 정책 업데이트를 위해 PPO(Proximal Policy Optimization)를, 어드밴티지 계산을 위해 GAE(Generalized Advantage Estimation)를 사용한다고 명시하고 있습니다.

[서술형] 알고리즘 1의 20단계에서 판별자(D), 가치함수(V), 정책(π)이 모두 업데이트됩니다. 이 중 판별자(D)를 업데이트하는 목적은 무엇이며, 이때 사용되는 데이터는 무엇인지 설명하시오.

정답 보기

모범답안: 판별자(D)를 업데이트하는 목적은 에이전트가 생성한 '상태와 목표 간의 차이 벡터(Δt)'와 이상적인 '오차 0 벡터(Δ=0)'를 더 잘 구별하도록 학습시키는 것입니다. 이 과정에서 판별자는 에이전트가 아직 잘 모방하지 못하는 어려운 부분(큰 차이 벡터)에 더 낮은 점수를 주도록 학습하여, 정책이 개선되어야 할 방향을 제시하는 역할을 합니다. 업데이트에는 경험 버퍼(B)에서 샘플링한 에이전트의 실제 차이 벡터들({Δj})이 '가짜' 또는 '나쁜' 예시(negative sample)로 사용되며, 이상적인 오차 0 벡터가 '진짜' 또는 '좋은' 예시(positive sample)로 사용됩니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

6.5 Tasks (과제)

이 섹션에서는 모션 클립을 모방하고 추가적인 과제 목표를 달성할 수 있는 제어 정책을 훈련시키는 데 있어 ADD의 효과를 평가합니다. 저희의 실험은 목표 조종 과제에 초점을 맞추는데, 이 과제의 목표는 수평면상의 2D 단위 벡터로 지정된 목표 방향 $d^_t$를 따라 목표 속도 $v^$로 움직이는 것입니다. ADD의 경우, 이러한 과제 목표들은 차등 벡터 $\Delta$에 직접 통합되는 반면, AMP와 DeepMimic의 경우에는 모방 보상과 함께 별도의 과제 보상이 도입됩니다 (보충 자료 B.6). 목표 방향과 속도는 정책에 관측값으로 제공되며 훈련 중에 무작위로 설정됩니다. 표 3은 다양한 방법들의 성능을 요약합니다. ADD는 다양한 목표들의 균형을 자동으로 맞출 수 있어, 정책이 조종 명령을 정확하게 따르면서 원하는 참조 모션을 긴밀하게 모방하도록 합니다.

쪽집게 과외

알고리즘

graph TD classDef core fill:#FFDBE6 classDef sub fill:#CCEFFF classDef idea fill:#E8D2E5 subgraph ADD 방식 (통합적 접근) A[과제 목표
(목표 속도/방향)]:::idea --> B(차등 벡터 Δ에 통합):::core B --> C[판별자 D(Δ)가
자동으로 균형 조절]:::core C --> D[정책 π 학습]:::core end subgraph AMP/DeepMimic 방식 (분리적 접근) E[과제 목표
(목표 속도/방향)]:::idea --> F[별도의 과제 보상 생성]:::sub G[모방 보상]:::sub --> H{수동 가중치 합산}:::sub F --> H H --> I[정책 π 학습]:::sub end

핵심 콕콕

• 이 섹션은 ADD를 모방(imitation)과 추가 과제(task)가 결합된 복합 문제에 적용하여 성능을 평가합니다.
• 실험 과제는 '목표 조종(target steering)'으로, 참조 모션을 따라가면서 동시에 지정된 방향과 속도로 움직여야 합니다.
• ADD는 추가 과제 목표를 모방 오차와 함께 '차등 벡터 Δ'에 직접 통합하여 처리합니다.
• 반면, AMP나 DeepMimic 같은 비교 방법들은 모방 보상에 별도의 '과제 보상'을 수동으로 더하는 방식을 사용합니다.
• 결과적으로 ADD는 두 목표 사이의 균형을 자동으로 맞춰, 참조 모션을 정확히 모방하면서 조종 명령도 성공적으로 수행했습니다.

구현 힌트

ADD를 다중 과제에 적용할 때, 추가 과제 목표를 차등 벡터 Δ에 직접 포함시키세요. 예를 들어, '목표 속도 $v^*$ 맞추기'라는 과제가 있다면, 차등 벡터에 현재 속도 $v$와 목표 속도 $v^*$ 간의 차이(예: $||v - v^*||^2$)를 새로운 요소로 추가하면 됩니다. 이렇게 하면 판별자가 모방 오차와 과제 수행 오차를 함께 고려하여 동적으로 가중치를 학습하게 됩니다.

쉬운 비유

ADD의 자동 목표 균형 조절f>을 쉽게 비유해볼게요.

- 수동 보상 설계 (DeepMimic 방식): 정해진 레시피로 요리하는 것과 같아요. '소금 10g, 설탕 20g'처럼 모든 재료의 양이 고정되어 있죠. 만약 오늘 쓸 토마토가 평소보다 더 달다면(과제가 더 쉬워지거나 어려워지면), 레시피를 바꾸지 않는 한 요리 맛이 이상해질 수 있습니다. 새로운 요리(과제)를 할 때마다 레시피를 처음부터 다시 짜야 하는 번거로움이 있습니다.

- ADD 방식: 최고의 미식가(판별자)와 함께 요리하는 것과 같아요. 셰프(정책)는 일단 모든 재료(모방 오차, 과제 오차)를 넣고 요리를 만듭니다. 그러면 미식가가 맛을 보고 "지금은 단맛에 비해 짠맛이 부족하군"이라며 실시간으로 피드백을 줍니다. 셰프는 이 피드백에 따라 부족한 재료를 더 넣으며 완벽한 맛의 균형을 찾아갑니다. 어떤 재료를 쓰든 미식가가 알아서 균형을 잡아주니, 레시피를 외울 필요가 없죠.

셀프 테스트

[O/X]

정답 보기

ADD는 목표 조종 과제를 해결하기 위해 모방 보상에 별도의 과제 보상을 더하는 방식을 사용한다.
정답: X
해설: ADD는 과제 목표를 차등 벡터 Δ에 직접 통합하여 판별자가 두 목표의 균형을 자동으로 학습하게 합니다. 별도의 보상을 더하는 방식은 AMP나 DeepMimic에서 사용됩니다.

[빈칸]

정답 보기

ADD는 추가적인 과제 목표를 ___ ___ Δ에 직접 통합하여 다중 목표 최적화를 수행한다.
정답: 차등 벡터
해설: ADD의 핵심 아이디어는 모든 오차(모방 오차, 과제 오차 등)를 하나의 차등 벡터로 묶어 판별자에게 전달하는 것입니다.

[서술형]

정답 보기

DeepMimic과 같은 기존 방식과 비교하여, ADD가 모방과 추가 과제를 동시에 수행하는 다중 목표 문제에 더 강점을 보이는 이유는 무엇인가요?
모범답안: DeepMimic은 각 목표(모방, 과제)에 대한 보상 항에 수동으로 가중치를 할당하고 이를 합산합니다. 이 가중치는 고정되어 있어, 학습 과정이나 상황 변화에 따라 최적의 균형을 맞추기 어렵습니다. 반면, ADD는 모든 목표에 대한 오차를 '차등 벡터'로 만들어 판별자에게 제공합니다. 판별자는 학습이 진행됨에 따라 어떤 오차가 더 중요한지 동적으로 판단하여 정책에 피드백을 주므로, 수동 튜닝 없이도 여러 목표 간의 복잡하고 비선형적인 관계를 파악하고 자동으로 균형을 맞출 수 있습니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

7. Non-motion-imitation Tasks (모션 모방이 아닌 태스크)

ADD가 모션 모방 태스크를 넘어서도 효과적임을 입증하기 위해, 우리는 표준 RL 벤치마크 태스크인 Walker 태스크 [Tassa et al. 2018]와 널리 사용되는 로봇 보행 프레임워크의 UniTree Go1 보행 태스크 [Rudin et al. 2022]에서 ADD를 평가합니다.

Walker 태스크는 3개의 다른 목표로 구성되어 있는 반면, Go1 태스크는 3개의 동적 조향 명령을 포함하여 12개의 목표를 가진 훨씬 더 복잡한 보상 함수를 제시합니다.

이 실험들은 여러 경쟁적인 목표들의 균형을 맞추는 ADD의 능력을 보여줍니다.

7.1 Training (훈련)

쪽집게 과외

핵심 콕콕

• ADD의 범용성 검증: 이 섹션은 ADD가 모션 모방뿐만 아니라 일반적인 다중 목표 강화학습 문제에도 효과적인지 검증하는 것을 목표로 합니다.
• 두 가지 벤치마크 태스크: 표준 RL 벤치마크인 'Walker 태스크'와 더 복잡한 로봇 보행 문제인 'UniTree Go1 태스크'를 사용해 ADD를 평가합니다.
• 핵심 능력 테스트: 이 태스크들은 각각 3개와 12개의 상충하는 목표를 가지고 있어, 수동 가중치 조절 없이 목표들의 균형을 자동으로 맞추는 ADD의 핵심 능력을 시험하는 데 적합합니다.

쉬운 비유

ADD의 다중 목표 최적화f>를 요리 비유로 설명해볼게요.
- 수동 보상 설계 (기존 방식): 마치 정해진 레시피대로만 요리하는 것과 같아요. 소금 1스푼, 설탕 2스푼처럼 각 재료(목표)의 양(가중치)을 미리 정해놓죠. 요리가 짜거나 싱거워도 레시피를 바꾸기 전엔 조절하기 어렵습니다.
- ADD (제안 방식): 뛰어난 셰프가 요리하는 것과 같아요. 셰프는 요리 중간중간 맛을 보면서 지금 가장 부족한 맛이 무엇인지(가장 중요한 목표) 파악하고, 그 맛을 보완하는 재료를 더 넣죠. 이처럼 ADD는 학습 과정에서 어떤 목표가 가장 뒤처지고 있는지를 동적으로 파악하고 그 목표에 더 집중하도록 유도하여 전체적인 균형을 맞춰나갑니다.

셀프 테스트

[O/X] ADD는 오직 캐릭터의 모션 모방 태스크를 해결하기 위해 설계된 기술이다.

정답 보기

정답: X
해설: 본문에서는 ADD가 모션 모방을 넘어, 'Walker'나 'Go1' 같은 일반적인 다중 목표 강화학습 벤치마크에서도 효과적임을 보여주고자 합니다.

[빈칸] 본문에서 ADD의 성능을 평가하기 위해 사용된 두 가지 태스크는 표준 RL 벤치마크인 'Walker'와 로봇 보행 프레임워크의 '___' 태스크이다.

정답 보기

정답: UniTree Go1
해설: 이 두 태스크는 각각 3개와 12개의 목표를 가지며, ADD가 여러 경쟁적인 목표의 균형을 맞추는 능력을 평가하는 데 사용됩니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

7.1 Training (훈련)

정책은 PPO를 사용하여 ADD 또는 Tassa et al./2018/DeepMind Control Suite과 Rudin et al./2022/Learning to Walk in Minutes의 수동으로 설계된 보상 함수로 훈련됩니다.

ADD 훈련 절차는 대체로 알고리즘 1을 따르며, 핵심적인 차이점은 참조 모션이 없다는 것입니다. 대신, 목표 상태 $ˆs_t$는 속도 명령이나 목표 방향과 같이 태스크에 의해 지정된 목표 값들로 구성됩니다. 각 태스크에 대한 구현 세부 정보는 보충 자료 C와 D에서 확인할 수 있습니다.

7.2 Results (결과)

그림 5와 6은 두 가지 태스크, 즉 2D 워커를 달리도록 훈련하는 것과 4족 보행 Go1 로봇이 조향 명령을 따르며 걷도록 훈련하는 것에 대해 ADD와 수동으로 설계된 보상 함수 간의 정성적 비교를 보여줍니다. 학습된 행동의 예시는 보충 비디오에서 확인할 수 있습니다.

그림 5에서 볼 수 있듯이, ADD 정책은 수동으로 설계된 보상 함수로 생성된 행동과 비교할 만한 성능의 직립하고 빠른 달리기 행동을 만들어냅니다.

쪽집게 과외

알고리즘

flowchart TD classDef core fill:#FFDBE6; classDef idea fill:#E8D2E5; classDef sub fill:#CCEFFF; subgraph ADD 학습 절차 (비-모션 모방 태스크) A[Task-specific Targets
(e.g., velocity commands)]:::idea --> B[목표 상태 $s_t$ 구성]; C[에이전트 현재 상태 $s_t$] --> D[차이 벡터 계산
Δ = $s_t$ ⊖ $s_t$]; B --> D; D --> E[ADD 판별자]:::core; E --> F[보상 신호 생성]; F --> G[정책 학습 (PPO)]:::sub; end

핵심 콕콕

• ADD는 모션 모방을 넘어, 목표 속도나 방향을 따르는 일반적인 제어 태스크에도 적용할 수 있습니다.
• 핵심 아이디어는 '참조 모션' 대신 '태스크 목표값'을 목표 상태($\hat{s}_t$)로 사용하여 차이 벡터($\Delta$)를 계산하는 것입니다.
• 실험 결과, 수동으로 정교하게 설계된 보상 함수와 비슷한 수준의 성능을 달성했습니다.

함정 주의

모션 모방이 아닌 태스크에서 목표 상태($\hat{s}_t$)를 어떻게 구성하는지 헷갈릴 수 있습니다.

모션 모방 태스크에서는 $\hat{s}_t$가 참조 모션의 포즈 데이터 전체인 반면, 일반 제어 태스크에서는 속도, 방향 등 태스크가 요구하는 특정 목표값들로만 $\hat{s}_t$를 구성합니다. 즉, 상태 벡터의 모든 요소를 추적하는 것이 아니라, 태스크와 관련된 일부 요소만 목표로 삼는 것입니다.

쉬운 비유

ADD를 모션 모방이 아닌 일반 태스크에 적용하는 것f>을 쉽게 비유해볼게요.

- 비유: '모범 답안 베껴쓰기'에서 '채점 기준표 보고 글쓰기'로 바꾸는 것과 같아요.

- 모션 모방(Motion Imitation)은 마치 완벽한 '모범 답안'(참조 모션)을 주고 그대로 따라 쓰게 하는 것과 같습니다. ADD 판별자는 내 글이 모범 답안과 얼마나 다른지(차이 벡터)를 보고 점수를 매깁니다.

- 일반 태스크(Non-Motion-Imitation)는 '모범 답안' 없이 '채점 기준표'(태스크 목표값)만 주는 것과 같습니다. 예를 들어, '100단어 이내', '긍정적 어조 사용', '핵심 단어 포함' 같은 기준들이죠. ADD 판별자는 이제 내 글이 이 기준들을 얼마나 잘 만족하는지를 보고 점수를 매깁니다. 판별자라는 도구는 같지만, 비교하는 대상이 '통째의 답안'에서 '개별 채점 항목'으로 바뀐 셈입니다.

셀프 테스트

[O/X] ADD는 참조 모션 데이터가 없는 일반 RL 태스크에는 적용할 수 없다.

정답 보기

정답: X
해설: 이 섹션에서 보여주듯이, 참조 모션 대신 속도 명령과 같은 태스크 목표값을 사용하여 목표 상태를 구성하면 ADD를 일반 RL 태스크에도 효과적으로 적용할 수 있습니다.

[빈칸] 모션 모방이 아닌 태스크에서 ADD를 사용할 때, 목표 상태 $\hat{s}_t$는 ___에 의해 지정된 목표 값들로 구성된다.

정답 보기

정답: 태스크
해설: 목표 상태는 태스크가 요구하는 속도 명령이나 목표 방향과 같은 값들로 구성되어, 에이전트가 해당 목표를 달성하도록 유도합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

7.2 Results (결과)

Fig. 5와 Fig. 6은 2D 워커를 달리도록 훈련하고 4족 보행 Go1 로봇이 조향 명령을 따르며 걷도록 훈련하는 두 가지 과제에 대해 ADD와 수동으로 설계된 보상 함수 간의 정성적 비교를 보여줍니다. 학습된 행동의 예시는 보충 비디오에서 확인할 수 있습니다.

Fig. 5에서 볼 수 있듯이, ADD 정책은 수동으로 설계된 보상 함수로 생성된 것과 비교 가능한 성능의 직립 및 빠른 달리기 행동을 생성합니다. 이 관찰은 Fig. 7의 학습 곡선에 의해 뒷받침되는데, 이 그래프는 두 방법의 보상과 세 가지 다른 훈련 목표를 비교합니다. ADD는 수동으로 설계된 보상과 유사한 최종 성능 및 샘플 효율성을 달성합니다. ADD는 0.691 ± 0.053의 최종 보상을 생성하는 반면, 수동 보상은 0.705 ± 0.051의 최종 보상을 생성합니다. 더욱이, Fig. 7은 ADD가 훈련 실행 전반에 걸쳐 더 나은 일관성을 보여준다는 것을 나타냅니다.

Go1 과제에서, ADD는 Go1 로봇이 더 큰 발 들기와 더 긴 보폭을 특징으로 하는 더 자연스러운 보행 패턴을 개발할 수 있게 합니다. 이에 비해, 수동으로 설계된 보상은 더 많은 지터링과 작고 질질 끄는 걸음을 보이는 덜 자연스러운 행동을 생성합니다. Fig. 8은 ADD와 Rudin/2022/Learning to Walk의 주요 목표를 비교하는데, ADD가 선형 속도 명령을 따르는 데 약간 더 나쁜 성능을 보이지만, 더 낮은 롤 및 피치 각속도를 달성하여 더 안정적인 로봇 기반을 나타냄을 보여줍니다. 또한, ADD는 더 낮은 자유도(DoF) 가속도로 더 부드러운 움직임을 생성하는데, 이는 실제 로봇 배치에 바람직한 속성입니다. 모든 훈련 목표에 대한 포괄적인 학습 곡선 세트는 보충 자료 D.3에서 확인할 수 있습니다.

다양한 과제와 구현체에 걸쳐, ADD는 성능, 모션 품질, 일관성, 샘플 효율성 측면에서 신중하게 설계된 보상 함수의 성능과 일관되게 필적하며, 이 모든 것을 수동 보상 엔지니어링에 대한 의존도를 완화하면서 달성합니다. 수동으로 튜닝된 방법은 잘 보정되었을 때 효과적일 수 있지만, 종종 다른 목표들의 균형을 맞추기 위해 상당한 도메인 지식과 노력을 요구합니다. 이러한 결과들은 종합적으로 다양한 다중 목표 강화학습(RL) 과제를 위한 효과적인 해결책으로서 ADD의 일반성을 강조합니다.

쪽집게 과외

핵심 콕콕

• ADD는 모션 모방이 아닌 표준 강화학습 벤치마크(Walker, Go1 로봇)에서도 수동으로 설계된 보상 함수와 비슷한 성능을 보입니다.
• Go1 로봇 보행 실험에서 ADD는 속도 추종 정확도는 약간 낮았지만, 더 자연스럽고 안정적인 걸음걸이(더 높은 발 들기, 더 적은 흔들림)를 생성했습니다.
• ADD의 핵심 장점은 복잡한 보상 함수를 수동으로 튜닝하는 과정 없이도 높은 성능을 달성하여, 다양한 문제에 쉽게 적용할 수 있는 일반성을 갖는다는 점입니다.

쉬운 비유

ADD의 자동 목표 균형 조정f>을 쉽게 비유해볼게요.

- 수동 보상 설계: 복잡한 요리를 '고정된 레시피'에만 의존해 만드는 것과 같아요. 소금 1g, 설탕 2g처럼 모든 양념(가중치)을 미리 정확히 계량해야 하죠. 재료가 조금만 바뀌거나(새로운 과제) 입맛이 다르면(목표 변경) 레시피 전체를 다시 짜야 해서 번거로워요.

- ADD 방식: '숙련된 셰프'가 요리하는 것과 같아요. 셰프는 요리 중간중간 맛을 보면서 지금 가장 부족한 맛이 무엇인지(가장 어려운 목표) 파악하고, 그에 맞춰 양념을 조절해 최상의 맛을 만들어내요. 정해진 레시피 없이도 재료에 맞춰 유연하게 최고의 요리를 완성하는 거죠.

셀프 테스트

[O/X] Go1 로봇 보행 과제에서 ADD는 수동 보상 함수보다 모든 성능 지표에서 더 우수한 결과를 보였다.

정답 보기

정답: X
해설: ADD는 선형 속도 명령을 따르는 정확도 측면에서는 수동 보상 함수보다 약간 낮은 성능을 보였습니다. 하지만 로봇의 안정성(롤/피치 각속도)이나 움직임의 부드러움(자유도 가속도)과 같은 다른 중요한 지표에서는 더 나은 결과를 달성했습니다.

[빈칸] ADD는 ___ ___ ________에 대한 의존도를 줄이면서도, 성능, 모션 품질, 일관성, 샘플 효율성 면에서 기존 방법과 필적하는 성능을 보여준다.

정답 보기

정답: 수동 보상 엔지니어링
해설: ADD의 가장 큰 장점은 전문가가 시간과 노력을 들여 보상 함수의 각 항목 가중치를 조절하는 '수동 보상 엔지니어링' 과정을 자동화하여, 이 과정에 대한 의존도를 크게 낮춘다는 점입니다.

[서술형] ADD가 '일반성(generality)'을 갖는다고 평가받는 이유는 무엇이며, 이 섹션의 실험 결과들이 어떻게 그 주장을 뒷받침하는지 설명하시오.

정답 보기

모범답안: ADD가 일반성을 갖는다고 평가받는 이유는 특정 과제에 고도로 특화된 보상 함수 설계 없이도 다양한 종류의 다중 목표 강화학습 문제에 효과적으로 적용될 수 있기 때문입니다. 이 섹션의 실험들은 이를 잘 보여줍니다. 2D 평면에서 달리는 'Walker' 과제와 복잡한 3D 환경에서 4족 보행을 하는 'Go1 로봇' 과제는 서로 다른 물리적 특성과 목표를 가짐에도 불구하고, ADD는 두 경우 모두에서 수동으로 정교하게 튜닝된 보상 함수와 대등한 성능을 달성했습니다. 이는 ADD가 과제가 바뀌더라도 보상 함수를 다시 설계하는 큰 노력 없이 적용될 수 있는 일반적인 해결책임을 시사합니다.

ENG

0:00 / 0:00

KOR

0:00 / 0:00

Figures And Tables

Fig 1: 저희는 물리 시뮬레이션 캐릭터가 매우 민첩하고 운동 능력이 뛰어난 광범위한 기술을 거의 똑같이 모방할 수 있게 하는 적대적 다중 목표 최적화 기법을 제안합니다. 이 기법은 수동 보상 설계가 필요 없습니다. 여기서는 물리 시뮬레이션 캐릭터가 더블 콩(double kong) 참조 동작을 모방하여 장애물 위로 점프하는 법을 학습합니다. 여러 목표를 동시에 최적화해야 하는 다중 목표 최적화 문제는 수많은 응용 분야에서 널리 퍼져 있습니다. 기존의 다중 목표 최적화 방법들은 종종 결합된 최적화 목표를 공식화하기 위해 수동으로 조정된 집계 함수에 의존합니다. 이러한 수동 조정 방법의 성능은 신중한 가중치 선택에 크게 좌우되며, 이는 시간 소모적이고 힘든 과정입니다. 이러한 한계는 물리 시뮬레이션 캐릭터를 위한 강화학습 기반 동작 추적 방법의 환경에서도 발생하는데, 여기서는 높은 충실도의 결과를 얻기 위해 일반적으로 복잡하게 만들어진 보상 함수가 사용됩니다. 이러한 해결책은 도메인 전문 지식과 상당한 수동 튜닝을 필요로 할 뿐만 아니라, 결과적인 보상 함수의 다양한 기술에 대한 적용 가능성을 제한합니다. 이러한 격차를 해소하기 위해, 저희는 동작 추적을 포함한 광범위한 다중 목표 강화학습 과제에 널리 적용할 수 있는 새로운 적대적 다중 목표 최적화 기법을 제시합니다. 저희가 제안하는 적대적 미분 판별기(ADD)는 단일 양성 샘플을 받지만 최적화 과정을 효과적으로 안내합니다. 저희는 이 기법을 통해 캐릭터가 다양한 곡예적이고 민첩한 행동을 거의 똑같이 복제할 수 있으며, 수동으로 설계된 보상 함수에 의존하지 않고도 최신 동작 추적 방법과 비슷한 수준의 품질을 달성할 수 있음을 보여줍니다.

Fig 2: ADD를 사용하여 훈련된 시뮬레이션 휴머노이드 캐릭터가 다양한 기술을 수행하는 스냅샷. ADD는 캐릭터가 다양한 행동 레퍼토리를 복제할 수 있게 하여, 수동 보상 설계 없이도 최신 동작 모방 방법과 비슷한 추적 품질을 달성합니다. (a) 발차기 (b) 펀치

Fig 3: ADD로 훈련된 동작 추적 컨트롤러를 사용하여 시뮬레이션된 EVAL 로봇이 다양한 목표 동작을 복제하는 시각적 스냅샷. 학습된 추적 보상을 사용하여 훈련된 컨트롤러는 로봇이 어려운 기술들을 성공적으로 재현할 수 있게 합니다.

Table 1: AMP, DeepMimic, 그리고 저희 방법인 ADD를 사용하여 훈련된 시뮬레이션 휴머노이드 캐릭터의 동작 추적 성능. 위치(식 12) 및 자유도(DoF) 속도 추적 오차는 무작위 시드로 초기화된 5개 모델에 걸쳐 평균 ± 1 표준편차로 계산되었습니다. 계산 제약으로 인해 LaFAN1 서브셋에 대해서는 1개의 모델만 훈련되었습니다. 각 모델에 대해 오차는 4096개의 테스트 에피소드에 걸쳐 평균을 냈습니다. ADD는 개별 동작 클립과 더 큰 동작 데이터셋을 모방할 때 DeepMimic과 비슷한 추적 성능을 달성하면서도, 수동 보상 설계의 필요성을 완화합니다.

Table 2: ADD, AMP, DeepMimic을 사용하여 훈련된 시뮬레이션 EVAL 로봇의 위치 추적 오차(식 12). 간결성을 위해 위치 추적 오차만 보고하며, 3개의 무작위 시드에 걸쳐 평균 ± 1 표준편차를 보여줍니다. 각 시드당 4096개의 테스트 에피소드가 사용되었습니다. 결과는 ADD가 다른 캐릭터 형태에서도 DeepMimic과 비슷한 강력한 추적 성능을 유지함을 보여줍니다.

Fig 4: 각각 5개의 다른 무작위 시드로 훈련된 AMP, DeepMimic, ADD의 학습 곡선. ADD는 다른 시드에 걸쳐 DeepMimic보다 더 나은 일관성을 보여줍니다. DeepMimic 정책은 백플립(Backflip) 및 카트휠(Cartwheel) 동작을 추적할 때 시드의 절반에서 차선의 행동으로 수렴합니다.

Table 3: 동작 모방과 목표 조향 목표를 결합한 복합 과제에 다양한 방법을 적용했을 때의 성능. 동작 모방 성능은 위치 추적 오차로 측정되며, 과제 성능은 속도 오차 ||v_t - v_t d_t||로 측정됩니다. 여기서 v_t는 캐릭터의 2D 루트 속도이고 v_t d_t는 2D 목표 속도입니다. ADD는 여러 목표를 자동으로 균형을 맞춤으로써 두 목표 모두에서 최적의 성능을 달성했습니다.

Fig 5: 표준 강화학습 벤치마크인 워커(Walker) 과제에 대한 ADD의 정성적 결과. ADD를 사용하여 훈련된 워커는 Tassa 등의 2018년 연구에서 수동으로 설계된 보상 함수로 학습된 것과 비슷한 품질의 행동을 보입니다. (a) ADD (저희 방법) (b) 수동 보상

Fig 6: UniTree Go1 사족보행 로봇이 걷도록 훈련시키는 ADD의 정성적 결과. 화살표는 조향 명령을 나타냅니다. 수동으로 조정된 보상으로 훈련된 컨트롤러와 비교할 때, ADD Go1 정책은 더 큰 발 들기와 더 긴 보폭으로 더 자연스러운 걸음걸이를 보여줍니다.

Fig 7: 2D 워커 과제에서 ADD와 Tassa 등의 2018년 연구에서 제안된 수동 설계 보상 함수를 비교하는 학습 곡선. 보상은 Tassa 등의 2018년 연구의 보상 함수에 따라 계산되었으며, 에피소드당 가능한 최소 및 최대 보상 사이에서 정규화되었습니다. 통계는 10개의 무작위 시드에 걸쳐 계산되었습니다. ADD는 수작업 보상 함수와 비슷한 성능 및 샘플 효율성을 보여주며, 수동 보상 설계나 튜닝이 필요하지 않습니다.

Fig 8: Go1 사족보행 로봇이 움직이도록 훈련시키는 데 있어 ADD와 Rudin 등의 2022년 연구에서 제안된 수동 튜닝 보상 함수를 비교하는 학습 곡선. 결과는 방법당 5개의 무작위 시드에 걸쳐 표시됩니다. ADD는 선형 속도 명령을 따르는 데 있어 약간 더 나쁜 성능을 보이지만, 더 낮은 롤 및 피치 각속도(더 안정적인 로봇 기반을 의미)와 더 낮은 자유도(DoF) 가속도(시간에 따른 더 부드러운 제어를 의미)를 달성합니다.

Fig 9: 다양한 그래디언트 페널티 구성을 사용하여 여러 참조 동작을 추적하도록 훈련된 ADD의 학습 곡선. 저희는 5가지 그래디언트 페널티 구성에 대한 분석을 수행했습니다: 없음(None), 음성 샘플에만 페널티 적용(Neg), 양성 샘플에만 적용(Pos), 두 샘플 유형 모두에 적용(Both), 그리고 Gulrajani 등의 2017년 연구에서 제안된 대로 양성 및 음성 샘플 간의 보간에 적용(WGAN-GP). 결과는 Neg와 Both가 추적 성능에서 다른 설정보다 훨씬 뛰어나며, Neg와 Both는 비슷한 결과를 달성함을 나타냅니다. 이러한 결과는 ADD에 대해 음성 샘플에 그래디언트 페널티를 적용하는 것의 중요성을 강조합니다.