Основні поняття
本稿では、多様な社会集団の意見を公平に反映した抽出型要約を生成する手法、FairExtractとFairGPTを提案し、既存手法と比較して、品質を維持しながらも公平性の観点で優れた性能を示すことを実証しました。
Анотація
抽出型要約における公平性と品質の両立:FairExtractとFairGPT
本論文では、多様な社会集団の意見を公平に反映した抽出型要約を生成する手法、FairExtractとFairGPTを提案しています。既存の要約手法は、品質向上に主眼を置く一方で、異なる社会集団への公平な表現を保証することに課題を残しています。本研究では、品質と公平性の両方を考慮した要約手法の開発とその評価を行っています。
多様な背景を持つユーザーが集まるソーシャルメディアにおいて、公平な要約は異なる視点を包含し、特定の社会集団の過小表現を避けるために不可欠です。しかし、既存の要約手法は品質を重視する一方で、公平性の観点で十分な検討がなされていません。本研究では、この問題に取り組み、公平性と品質の両方を考慮した要約手法を提案しています。
FairExtract
FairExtractは、クラスタリング手法とフェアレット分解を用いて、要約における多様性を保証しながら、異なるグループ間で質の高い表現を維持します。
文書の埋め込み:BERTを用いて各文書を意味空間上に埋め込みます。
フェアレット分解:データセットを、2つのグループ(G1とG2)間の比率を維持する最小の文書集合であるフェアレットに分解します。
フェアレット中心の探索:各フェアレットについて、同じフェアレット内の他のすべての文書との距離の合計を最小化する文書を選択します。
フェアレット中心に対するk-メディアンクラスタリング:k-メディアンクラスタリングをフェアレットの中心に対して適用します。
要約の構築:各クラスタから、クラスタの中心に対応するフェアレットを選択し、そのフェアレット内のすべての文書を最終的な要約に含めます。
FairGPT
FairGPTは、GPT-3.5-turboを活用し、異なる社会集団から同数の文を選択することで、公平な抽出型要約を生成します。
入力準備:データセットを2つのグループに分割し、各グループの文を含む文書を作成します。
LLMを用いた要約:GPT-3.5-turboを用いて、各グループからL/2文を選択し、公平な表現を保証する長さLの要約を生成します。
最長共通部分列(LCS)を用いたマッチング:生成された要約と元のツイートをLCSを用いてマッチングさせます。
出力チェック:要約が生成された後、各GPT生成文の内容の少なくとも50%がLCSを用いて対応する元のツイートと一致すること、および要約が各グループから均等に表現されていることを確認します。
最終出力:要約が公平性と類似性の両方の要件を満たしたら、最終出力として保存します。