المفاهيم الأساسية
大規模言語モデル (LLM) は、倫理的に複雑なシナリオにおいて、他の LLM からの説得の影響を受けやすく、その影響の度合いはモデルやシナリオによって異なる。
الملخص
大規模言語モデルにおける倫理的説得:その影響を受けやすさと倫理的整合性の評価
本研究は、大規模言語モデル (LLM) が倫理的に曖昧なシナリオにおいて、他の LLM からの説得にどの程度影響を受けやすいか、また、特定の倫理的枠組みに沿って LLM を調整できるかを調査することを目的としています。
本研究では、2 つの実験を通して LLM の倫理的説得に対する影響を受けやすさを評価しました。
実験1:倫理的に曖昧な意思決定シナリオにおける説得
モラルチョイスデータセット (Scherrer et al., 2023) を使用し、ベースエージェント LLM と説得者エージェント LLM の対話形式で実験を実施。
説得者エージェントは、ベースエージェントの初期決定を変更するように促す。
会話の長さ (ターン数) と使用する LLM の種類を変化させて、説得の効果を測定。
実験2:倫理的枠組みのプロンプトによる倫理基盤への影響
功利主義、義務論、徳倫理の 3 つの主要な倫理理論に基づいたプロンプトを作成。
各プロンプトを用いて LLM を特定の倫理的視点を持つように誘導し、MFQ-30 (Moral Foundations Questionnaire) に回答させる。
異なる倫理的枠組みが LLM の倫理基盤にどのように影響するかを分析。