이 논문은 LLM을 활용하여 다중 에이전트 최적화 및 계획 문제에서 인간 선호도 기반 보상 함수를 설계하는 문제를 다룹니다. 특히 휴식 다암 밴딧(RMAB) 문제에 초점을 맞추고 있습니다.
LLM을 통해 보상 함수를 설계할 때, 다중 에이전트 환경에서는 서로 다른 에이전트 그룹의 이해관계가 충돌하는 다목적 최적화 문제가 발생합니다. 이를 해결하기 위해 저자들은 사회적 선택 이론에 기반한 투명하고 구성 가능한 프레임워크인 Social Choice Language Model(SCLM)을 제안합니다.
SCLM은 LLM 기반 보상 함수 생성기와 사회적 선택 기반 조정기로 구성됩니다. 생성기는 LLM을 활용하여 다양한 보상 함수 후보를 생성하고, 조정기는 각 후보의 선호도 절충을 위해 사회적 선택 함수를 사용하여 최종 보상 함수를 선택합니다. 이를 통해 다중 목표 간의 균형을 달성하고 의도하지 않은 부작용을 최소화할 수 있습니다.
실험 결과, SCLM은 기존 LLM 기반 접근법에 비해 복합적인 선호도 프롬프트에 더 잘 부합하는 보상 함수를 선택할 수 있음을 보여줍니다. 또한 SCLM은 보상 함수 설계 과정의 투명성과 구성 가능성을 높여줍니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shresth Verm... alle arxiv.org 09-17-2024
https://arxiv.org/pdf/2408.12112.pdfDomande più approfondite