核心概念
PPO 모델의 가치 네트워크를 활용하여 MCTS 디코딩을 수행함으로써 선호도 높은 텍스트를 생성할 수 있다.
摘要
이 논문은 PPO(Proximal Policy Optimization) 모델의 가치 네트워크를 활용하여 MCTS(Monte-Carlo Tree Search) 디코딩을 수행함으로써 선호도 높은 텍스트를 생성하는 방법을 제안한다.
주요 내용은 다음과 같다:
PPO 모델은 정책 네트워크와 가치 네트워크를 동시에 학습하는데, 기존에는 가치 네트워크를 활용하지 않고 정책 네트워크만을 사용하여 텍스트를 생성했다.
이 논문에서는 PPO 모델의 가치 네트워크를 활용하여 MCTS 디코딩을 수행함으로써 선호도 높은 텍스트를 생성할 수 있음을 보여준다.
MCTS 디코딩 과정에서 가치 네트워크의 출력을 활용하여 탐색을 안내하는 방식을 제안한다.
감정 조절, 유해성 감소, 지식 내성 향상, 도움말 및 무해한 챗봇 생성 등 4가지 텍스트 생성 태스크에서 실험을 수행하였으며, PPO-MCTS 방법이 기존 방법 대비 우수한 성능을 보였다.
統計資料
감정 조절 태스크에서 PPO-MCTS는 직접 샘플링 대비 긍정 감정 생성 성공률이 34% 더 높았다.
유해성 감소 태스크에서 PPO-MCTS는 최대 유해성을 34% 더 낮췄다.
지식 내성 태스크에서 PPO-MCTS는 질문 답변 정확도를 12% 더 높였다.
도움말 및 무해한 챗봇 생성 태스크에서 PPO-MCTS는 인간 평가 점수가 5% 더 높았다.
引述
"PPO 모델의 가치 네트워크를 활용하여 MCTS 디코딩을 수행함으로써 선호도 높은 텍스트를 생성할 수 있다."
"MCTS 디코딩 과정에서 가치 네트워크의 출력을 활용하여 탐색을 안내하는 방식을 제안한다."