Core Concepts
大規模言語モデルを使用して、マルチエージェントシステムにおける規範違反の検出能力を評価する。
Abstract
規範は社会の重要な要素であり、多くの研究が行われている。
大規模言語モデル(LLMs)は、自然言語で表現された規範に対処する可能性がある。
80のストーリーからのシミュレートされたデータを使用して、ChatGPT-4が最も優れた結果を示した。
LLMsは一部の種類の規範についてより正確に識別できることが示された。
Introduction
社会的秩序を確立するために重要な役割を果たす規範に焦点を当てる。
マルチエージェントシステム内での規範違反検出の重要性と挑戦について述べられている。
Methodology
シミュレートされた環境でエージェント行動を生成し、10個の具体的な家庭内規範を定義。
ChatGPT-4や他のLLMsへのプロンプト例が提供され、人間評価と比較されている。
Results
ChatGPT-4が86%という高い精度で最も優れたパフォーマンスを示したことが明らかになった。
LLMsは禁止法よりも義務法の違反を正確に特定することが難しいことが示唆されている。
Stats
80ストーリーから得られたシミュレートデータから10個の具体的な家庭内規範に基づく評価結果