核心概念
LLM을 활용하여 다중 에이전트 최적화 및 계획 문제에서 인간 선호도 기반 보상 함수를 설계하는 문제를 다룸. 다중 목표 최적화 문제를 사회적 선택 이론을 통해 해결하는 투명하고 구성 가능한 프레임워크를 제안함.
摘要
이 논문은 LLM을 활용하여 다중 에이전트 최적화 및 계획 문제에서 인간 선호도 기반 보상 함수를 설계하는 문제를 다룹니다. 특히 휴식 다암 밴딧(RMAB) 문제에 초점을 맞추고 있습니다.
LLM을 통해 보상 함수를 설계할 때, 다중 에이전트 환경에서는 서로 다른 에이전트 그룹의 이해관계가 충돌하는 다목적 최적화 문제가 발생합니다. 이를 해결하기 위해 저자들은 사회적 선택 이론에 기반한 투명하고 구성 가능한 프레임워크인 Social Choice Language Model(SCLM)을 제안합니다.
SCLM은 LLM 기반 보상 함수 생성기와 사회적 선택 기반 조정기로 구성됩니다. 생성기는 LLM을 활용하여 다양한 보상 함수 후보를 생성하고, 조정기는 각 후보의 선호도 절충을 위해 사회적 선택 함수를 사용하여 최종 보상 함수를 선택합니다. 이를 통해 다중 목표 간의 균형을 달성하고 의도하지 않은 부작용을 최소화할 수 있습니다.
실험 결과, SCLM은 기존 LLM 기반 접근법에 비해 복합적인 선호도 프롬프트에 더 잘 부합하는 보상 함수를 선택할 수 있음을 보여줍니다. 또한 SCLM은 보상 함수 설계 과정의 투명성과 구성 가능성을 높여줍니다.
統計資料
제안된 SCLM 모델은 기존 LLM 기반 접근법에 비해 복합 선호도 프롬프트에 대해 더 나은 성능을 보였다.
SCLM-SIM-Utilitarian 모델은 합산 효용 변화 측면에서 가장 좋은 성능을 보였고, SCLM-SIM-Egalitarian 모델은 최소 효용 변화 측면에서 가장 좋은 성능을 보였다.
SCLM 모델은 의도하지 않은 효용 변화를 크게 줄일 수 있었다.
引述
"LLMs are an effective tool for designing reward functions that can be guided and customized via human language prompts."
"Translating such human language prompts to effective and aligned reward functions is a general, non-trivial challenge in RL."
"We are the first to address the multi-objective nature of LLM-powered reward design in RMABs in particular and multiagent planners in general."