Conceitos Básicos
本文提出了兩種新的擷取式摘要方法,FairExtract 和 FairGPT,旨在在多文件摘要中實現社會群體的公平代表性,同時保持摘要品質。
本文探討自然語言處理(NLP)領域中多文件摘要的公平性問題,特別關注使用者生成內容中不同社會群體的均衡代表性。文章指出,現有的摘要方法往往無法確保跨不同社會群體的公平代表性,導致產生偏見的輸出。
文章介紹了兩種針對公平擷取式摘要的新方法:基於分群方法的 FairExtract 和利用 GPT-3.5-turbo 並具有公平性約束的 FairGPT。
FairExtract:基於分群的公平擷取式摘要方法
FairExtract 方法結合了文件嵌入、公平集分解和分群技術,以確保摘要的公平性和品質。其步驟如下:
**嵌入文件:**使用預先訓練的模型(如 BERT)將每個文件(推文)嵌入到高維空間中,捕捉其語義內容。
**公平集分解:**將資料集分解成公平集,每個公平集都維持兩個群體(G1 和 G2)之間的比例平衡。
**尋找公平集中心:**計算每個公平集的中心,即與同一公平集中所有其他文件的距離總和最小的文件。
**對公平集中心進行 k 中值分群:**對所有公平集的中心應用 k 中值分群演算法。
**摘要建構:**從每個 k 中值分群中選擇中心公平集,並將該公平集中的所有文件包含在最終摘要中。
FairGPT:基於大型語言模型的公平擷取式摘要方法
FairGPT 利用 GPT-3.5-turbo 生成公平的擷取式摘要,方法是從不同的社會群體中選擇相同數量的句子。它應用公平性檢查,並使用最長公共子序列(LCS)方法將生成的摘要與原始推文進行匹配。其步驟如下:
**輸入準備:**將資料集分成兩組(例如,白人和西班牙語方言),並為每個群體建立一個包含句子的文件作為摘要過程的輸入。
**使用大型語言模型進行摘要:**使用大型語言模型(GPT-3.5-turbo)生成長度為 L 的摘要,從每個群體中選擇 L/2 個句子,以確保平衡的代表性。
**使用最長公共子序列(LCS)進行匹配:**由於 GPT 有時會生成部分句子,因此應用 LCS 將生成的摘要與最接近的原始推文進行匹配。
**輸出檢查:**生成摘要後,驗證兩個關鍵方面:每個 GPT 生成的句子中至少 50% 的內容必須使用 LCS 與相應的原始推文匹配;摘要必須是完全公平的,每個群體的代表性相等。
**最終輸出:**一旦摘要滿足了公平性和相似性要求,就將其保存為最終輸出。
實驗結果
實驗結果表明,FairExtract 和 FairGPT 在不顯著影響標準品質指標的情況下,都能實現完美的公平性。與其他基於分群的方法相比,FairExtract 在 SUPERT+F、BLANC+F、SummaQA+F 和 UniEval+F 等大多數綜合指標上表現出色。在基於大型語言模型的方法中,FairGPT 在品質和公平性方面都表現出色,在 SUPERT+F、BLANC+F、SummaQA+F、BARTScore+F 和 UniEval+F 等幾乎所有指標上都取得了最高的綜合分數。
結論
本文提出的 FairExtract 和 FairGPT 方法為解決多文件擷取式摘要中的公平性挑戰提供了有效的解決方案。這些方法成功地在保持摘要品質的同時,確保了不同社會群體的均衡代表性,為構建更公平、更具包容性的摘要系統邁出了重要一步。
Estatísticas
DivSumm 資料集包含來自三個種族群體(白人、西班牙裔和非裔美國人)的推文,涵蓋 25 個主題,每個主題每個群體 30 條推文,總計 2,250 條推文。
每個模型對每個主題生成 75 個不同的摘要,以便全面評估其公平性和品質。
FairExtract 和 FairGPT 在公平性指標 F 上取得了完美的 1 分,表明它們在摘要中實現了群體的均衡代表性。
ChatGPT-EXT 在品質指標方面表現最佳,但在公平性指標 F 上僅取得 0.698 分,表明在群體代表性方面仍有改進空間。
即使在公平性權重降低至 16% 的情況下,FairExtract 仍然優於大多數基於分群的方法,而 FairGPT 仍然是表現最佳的基於大型語言模型的方法。