4 METHOD (방법론)이 섹션에서는 고체-유체 결합 제어 과제에서 액터-크리틱 RL의 성능을 크게 향상시키는 일련의 개선 사항을 소개합니다. 먼저, 과대평가와 분산을 줄이는 볼츠만 소프트맥스 연산자를 클리핑된 Q-가치 추정기에 기반하여 채택합니다. 다음으로, 과소평가를 완화하기 위해 새로운 2단계 벨만 연산자를 소개합니다. 마지막으로, 희소 보상 하에서 정책을 안내하기 위한 FEDG 알고리즘을 제안합니다. 우리 방법의 파이프라인은 그림 2에 요약되어 있습니다.
볼츠만 소프트맥스 연산자. 수식 3의 max 연산자는 과대평가로 이어질 수 있다는 것이 알려져 있으며(Hasselt/2016/Deep Reinforcement Learning), 이는 TD3(Fujimoto/2018/TD3)에서 각각 $𝜃_1$과 $𝜃_2$로 매개변수화된 두 개의 가치 추정기를 사용하여 완화됩니다. 구체적으로, TD3는 다음과 같은 클리핑된 이중-Q 벨만 연산자를 도입합니다:
Eq.: TD3의 벨만 연산자$$B_{TD3}(s,a,s',a') = r(s,a) + \gamma Q_{min}(s',a') \\ Q_{min}(s',a') = \min_{i=1,2}Q(s',a';\theta_i).$$이 수식은 TD3 알고리즘에서 사용하는 클리핑된 이중-Q 벨만 연산자를 정의합니다. $B_{TD3}$는 목표 Q-가치를 계산하며, 두 개의 독립적인 Q-네트워크($\theta_1, \theta_2$) 추정치 중 더 작은 값($Q_{min}$)을 사용하여 Q-가치의 과대평가를 완화합니다.$B_{TD3}$가 과대평가를 완화하기는 하지만, 이는 본질적으로 실제 벨만 연산자(수식 3)의 샘플 근사이기 때문에 여전히 높은 분산으로 어려움을 겪을 수 있습니다. 여기서 다음 상태의 Q-가치는 모든 행동에 대해 최대화됩니다. 이러한 최대화는 닫힌 형태의 해를 갖지 않지만, 우리는 볼츠만 소프트맥스 연산자를 사용하여 샘플링을 통해 이러한 최대화를 근사할 수 있으며(Pan/2020/SD3), 이는 다음과 같이 정의됩니다:
Eq.: 볼츠만 소프트맥스 Q 연산자$$Softmax\text{-}Q_\beta(s) = \frac{\int_{a \in A} \exp(\beta Q_{min}(s,a))Q_{min}(s,a)}{\int_{a' \in A} \exp(\beta Q_{min}(s,a'))da'}da \\ B_{max}(s,a,s') = r(s,a) + \gamma \text{Softmax-Q}_\beta(s').$$이 수식은 Q-가치의 최대값을 근사하기 위한 볼츠만 소프트맥스 연산자를 보여줍니다. $Softmax\text{-}Q_\beta(s)$는 상태 $s$에서 가능한 모든 행동 $a$에 대한 $Q_{min}$ 값의 가중 평균을 계산하며, $\beta$는 가중치를 조절하는 온도 매개변수입니다. 이를 통해 하드 최대화(max) 대신 소프트 최대화를 수행하여 분산을 줄입니다.볼츠만 소프트맥스 분포는 행동 선택(Cesa-Bianchi/2017/Boltzmann Exploration; Sutton/1998/Reinforcement Learning) 및 정책 최적화(Haarnoja/2018/SAC; Song/2019/Policy Optimization)에 광범위하게 사용되는 널리 퍼진 방법으로 부상했습니다. $B_{max}$를 사용하는 주된 이점은 실제 벨만 연산자(수식 3)를 더 잘 근사하고 더 많은 중요도 샘플을 사용하여 분산을 줄일 수 있다는 것입니다. 구체적으로, 우리는 확률 밀도 함수 $p_{N_\phi}$를 갖는 가우시안 샘플링 분포 $N_\phi \triangleq N (\pi(s;\phi), \sigma)$를 채택하고 소프트맥스 연산자를 다음과 같이 근사합니다:
Eq.: 중요도 샘플링을 이용한 근사$$Softmax\text{-}Q_\beta(s) \approx \frac{\mathbb{E}_{a \sim N_\phi} \left[ \frac{\exp(\beta Q_{min}(s,a))Q_{min}(s,a)}{p_{N_\phi}(a)} \right]}{\mathbb{E}_{a \sim N_\phi} \left[ \frac{\exp(\beta Q_{min}(s,a))}{p_{N_\phi}(a)} \right]},$$이 수식은 중요도 샘플링을 사용하여 볼츠만 소프트맥스 연산자를 근사하는 방법을 보여줍니다. 정책 $\pi$가 생성하는 가우시안 분포 $N_\phi$에서 행동을 샘플링하고, 확률 밀도 $p_{N_\phi}(a)$로 나누어 샘플링 편향을 보정합니다. 이를 통해 적은 샘플로도 적분 값을 효과적으로 추정할 수 있습니다.우리는 또한 과대평가를 완화하기 위해 소프트맥스 연산자에 클리핑된 이중-Q 추정기를 통합했습니다(즉, Pan/2020/SD3에서 제안된 SD3). 분산 감소를 위해 더 많은 샘플을 추출하면 정책 및 가치 추론에 추가 비용이 발생할 수 있지만, 이러한 추가 비용은 유체 시뮬레이션에 의한 데이터 수집 비용에 비하면 무시할 수 있습니다.
하한이 있는 벨만 연산자. 추정기 $B_{max}$는 과대평가를 완화할 수 있지만, 대신 $Q_{min}$의 min-연산자로 인해 과소평가를 유발합니다. 우리는 N-단계 전개 방법(Hessel/2018/Rainbow)에서 영감을 받아 과소평가를 추가로 완화하기 위한 새로운 연산자를 제안합니다. 부분 궤적을 한 번 더 전개하여 전환 튜플 $⟨s,a,s',a',s''⟩$을 생성한다고 가정해 봅시다. 그러면 우리는 min-연산자를 다음 타임스텝으로 지연시켜 다음과 같이 정의할 수 있습니다:
Eq.: 2단계 최대 벨만 연산자$$B^2_{max}(s,a,s',a',s'') = r(s,a) + \gamma r(s',a') + \gamma^2 \text{Softmax-Q}_\beta(s'').$$이 수식은 2단계 궤적 정보를 활용하여 벨만 연산자를 확장합니다. 현재 보상 $r(s,a)$과 다음 단계 보상 $r(s',a')$을 직접 사용하고, 두 단계 후의 상태 $s''$에 대해서만 소프트맥스-Q 연산자를 적용합니다. 이를 통해 min-연산자의 적용을 지연시켜 과소평가의 영향을 줄입니다.이제 우리의 목표가 과소평가를 완화하는 것이므로, 두 추정치 중 최대값을 취하여 최종적인 2단계 벨만 연산자를 다음과 같이 도출합니다:
Eq.: 최종 2단계 벨만 연산자$$B_{2\text{-step}}(s,a,s',a',s'') = \max \left( B_{max}(s,a,s'), B^2_{max}(s,a,s',a',s'') \right),$$이것이 본 논문에서 제안하는 최종 2단계 벨만 연산자입니다. 1단계 추정치($B_{max}$)와 2단계 추정치($B^2_{max}$) 중 더 큰 값을 선택합니다. 이 max 연산을 통해 $Q_{min}$으로 인해 발생하는 과소평가를 효과적으로 완화하여 Q-가치의 하한을 높여줍니다.여기서 우리는 두 추정기 중 최대값을 취하여 과소평가를 완화합니다. 우리의 2단계 연산자 $B_{2-step}$을 수식 2에 대입하면 소프트맥스 연산자에 대한 중요도 샘플링 비용을 두 배로 요구할 것입니다. 더 일반적으로, 우리는 궤적을 N 단계에 걸쳐 전개하고 최대 연산자로 해를 혼합할 수 있습니다. 그러나 그림 7의 광범위한 실험을 통해, 우리는 2단계 전개가 성능과 비용 사이의 최상의 균형을 맞춘다는 것을 발견했으며, 이는 이미 만족스러운 결과를 이끌어내고 추가적인 전개는 결과를 크게 향상시키지 않습니다. 우리 방법은 SD3에 비해 과소평가 편향을 더욱 완화하여, 그림 5와 6에 나타난 2D 스쿱 벤치마크에서 보여주듯이 개선된 수렴 속도와 최종 성능을 가져옵니다.
탐색 노이즈. 행동 샘플링을 통해 탐색하는 확률적 정책과 달리, 우리의 결정론적 오프-정책 방법은 탐색을 위해 외부 행동 노이즈에 의존해야 합니다. 표준 접근 방식은 이러한 내재된 탐색 한계를 보완하기 위해 가우시안 백색 소음이나 오른슈타인-울렌벡(OU) 적색 소음(Uhlenbeck/1930/On the Theory of the Brownian Motion)을 사용합니다. 백색 소음의 시간 독립적 특성은 비효율적인 탐색으로 이어지는 반면, 적색 소음의 시간적 상관관계는 탐색 효율성을 향상시킵니다(Lillicrap/2016/DDPG). 그러나, 무한한 분산 증가는 행동 제약을 위반할 수 있습니다. 우리는 대신 핑크 노이즈(Eberhard/2023/Pink Noise)를 기본 탐색 전략으로 채택하여, 백색 소음과 적색 소음의 특성 사이에서 균형을 맞춥니다.
유체 유효 영역 안내 (FEDG). 유체-고체 결합 제어 과제, 특히 다중 과제 및 다중 목표 설정에서 효과적이고 안정적인 제어를 달성하는 것은 보상 신호의 희소한 특성으로 인해 상당한 도전입니다. 특히 초기 탐색 단계에서 이 문제는 복잡한 유체-고체 결합 환경 내에서 강화학습 에이전트가 상당한 비율의 긍정적 보상을 확보하는 능력을 저해하며, 이로 인해 느린 수렴 또는 경우에 따라 비수렴으로 이어집니다. 이 문제를 완화하기 위해, 사후 경험 재현(HER)(Andrychowicz/2017/HER)은 목표 재표기 전략을 사용하여 충분한 수의 긍정적 샘플을 생성할 수 있습니다. 그러나, 음의 보상을 초래하는 모든 궤적이 재표기 기준을 충족하는 것은 아니며, 특히 차선책의 목표조차 달성할 수 없는 시나리오에서는 더욱 그렇습니다. 대신, Luo/2023/SGES는 로봇 팔이 다른 목표 물체에 빠르게 도달하도록 돕기 위해 SGES 전략을 사용하는데, 이는 팔의 말단 장치를 물체가 있는 지점으로 안내하기 위해 저수준 정책을 사용합니다. 그들의 연구에서 영감을 받고 이를 유체-고체 결합 제어 시나리오와 통합하여, 우리는 점의 개념을 복잡한 3차원 공간 및 시간 영역으로 확장하는 FEDG 알고리즘을 제안합니다.
알고리즘 1: FEDG를 사용한 데이터 수집
만약 $r_\Omega(s) = 0$ 이라면
안내 확률에 따라 $a = \pi(s;\phi)$ 이고, 그렇지 않으면 $a = \pi_\Omega(s;\phi)$
그렇지 않다면
$a = \pi(s;\phi)$
끝
행동 $a$에 핑크 노이즈 추가
행동 $a$를 실행하여 $s'$를 생성하고 $r(s,a)$와 $r_\Omega(s)$를 관찰
$D \leftarrow D \cup \{⟨s,a,r,s'⟩\}$
만약 $r_\Omega(s) = 0$ 이라면
$D_\Omega \leftarrow D_\Omega \cup \{⟨s,a,r_\Omega,s'⟩\}$
끝
구체적으로, 우리는 사용자가 최종 목표 달성에 도움이 될 수 있는 하위 목표 영역 $\Omega$ 형태의 하위 과제를 정의할 수 있다고 가정합니다. 따라서, 우리는 또 다른 보상 신호 $r_\Omega(s) = I_\Omega(s)$를 정의할 수 있으며, 여기서 $I_\Omega(s)$는 하위 목표에 도달했을 때만 1이 되는 지시 함수이고, $I_\Omega(s)$는 $\Omega$의 설계에 따라 덜 희소합니다. FEDG는 먼저 하위 목표 영역 $\Omega$에 도달하도록 정책을 훈련시킨 다음 최종 목표를 달성하도록 작동합니다. 구체적으로, 우리는 두 개의 정책 $\pi$와 $\pi_\Omega$를 훈련시키는데, 이들은 각각 보상 신호 $r$과 $r_\Omega$에 대한 최적 정책입니다. 우리는 더 나아가 두 정책이 공유 아키텍처를 사용하도록 설계하여, 덜 희소한 보상 $r_\Omega$에 대한 최적 정책 $\pi_\Omega$를 훈련하는 것이 $\pi$를 훈련하는 데 유용한 지침을 제공할 수 있도록 합니다. 구체적으로, 우리는 정책이 $\pi$인지 $\pi_\Omega$인지를 나타내는 추가 비트를 가진 증강된 상태 공간을 갖는 정책 $\pi_{FEDG}$를 도입합니다. 즉, 우리는 $\pi(s;\phi) = \pi_{FEDG}(s, 0;\phi)$와 $\pi_\Omega(s;\phi) = \pi_{FEDG}(s, 1;\phi)$로 정의합니다. 훈련 중에, 우리는 $r_\Omega(s)$를 평가하여 하위 목표에 도달했는지 확인합니다. 만약 $r_\Omega(s) = 1$이라면, 우리는 원래 과제에 대한 최적 정책을 사용하여 행동을 $a = \pi(s;\phi)$로 설정합니다. 그렇지 않으면, 우리는 미리 정의된 확률(안내 확률)에 따라 $\pi(s;\phi)$와 $\pi_\Omega(s;\phi)$가 제안하는 행동 사이에서 선택합니다. 이에 상응하여, 우리는 각각 $\pi$와 $\pi_\Omega$를 훈련시키기 위해 두 개의 리플레이 버퍼 D와 D$_\Omega$를 저장합니다. $r_\Omega(s) = 1$이라고 가정하면, 우리는 $r$을 보상 신호로 사용하여 D에만 새로운 전환 튜플을 채웁니다. 그렇지 않으면, 우리는 $r$과 $r_\Omega$를 각각 보상 신호로 사용하여 D와 D$_\Omega$ 모두에 전환 튜플을 채웁니다. 핑크 노이즈를 사용한 FEDG의 데이터 수집 단계는 알고리즘 1에 요약되어 있습니다.
5 Evaluation (평가)
Comments