核心概念
本文提出了一種自動化分析文本和大型語言模型中價值觀的方法,包括自下而上提取潛在價值觀和自上而下評估與既定價值觀的共鳴和衝突,旨在理解和管理人工智能系統中的社會文化價值觀。
本研究旨在開發一種自動化方法,用於分析文本和大型語言模型 (LLM) 中表達的社會文化價值觀。
研究人員採用了雙管齊下的方法:
自下而上分析: 使用經過微調的 LLM 從文本中自動提取三種類型的主题:
觀察結果: 對世界中事件或關係的描述。
評價: 對特定主題的判斷,包括對品質、信任、禮儀或其他方面的評價。
議題: 表達“應該[不應該]”的聲明,促進或證明原則、規範和期望/不期望的世界狀態。
自上而下分析: 利用現有的自然語言處理技術,評估文本與預先定義的價值觀清單之間的共鳴、中立或矛盾關係。