Core Concepts
단일 전역 명시적 주석을 분해하고 다중 모달 지역 암시적 피드백을 활용하여 대화 에이전트의 성능을 향상시킬 수 있다.
Abstract
이 논문은 대화 에이전트의 성능을 향상시키기 위한 접근법을 제안한다. 기존의 대화 에이전트 학습 방식은 대화 수준의 전역 보상만을 활용했지만, 이 논문에서는 다중 모달 지역 암시적 피드백을 활용하여 전역 보상을 분해하는 방법을 제안한다.
구체적으로:
대화 수준의 전역 명시적 보상을 분해하여 각 발화에 대한 보상을 학습한다.
이 과정에서 다중 모달 지역 암시적 피드백(예: 사용자의 표정)을 활용하여 보상 분해를 안내한다.
분해된 보상 함수를 활용하여 대화 에이전트를 강화학습으로 최적화한다.
실험 결과, 제안 방식인 GELI가 기존 방식에 비해 다양한 대화 품질 지표에서 향상된 성능을 보였다. 이는 전역 명시적 보상과 지역 암시적 피드백을 결합하는 것이 대화 에이전트 성능 향상에 효과적임을 보여준다.
Stats
대화 수준의 전역 명시적 보상과 각 발화에 대한 예측 보상의 MSE 차이가 176.897로 가장 낮았다.
긍정적 표정과 부정적 표정에 대한 예측 보상의 차이(∆ˆrLI)가 0.063으로 가장 컸다.
Quotes
"우리는 전역 (대화 수준) 보상을 기반으로 LLM 기반 대화 에이전트를 정렬하는 동시에 자연스럽게 발생하는 다중 모달 신호를 고려하는 접근법을 설명한다."
"우리의 접근법(GELI로 명명)은 전역 명시적(GE) 세션 수준 보상을 분해하고, 지역 암시적(LI) 다중 모달 보상 신호를 사용하여 보상 분해 단계를 교차 모달로 형성하는 것을 배운다."