如何在保護隱私的同時，建立更具代表性和包容性的 LLM 訓練數據集？

建立兼具代表性、包容性和隱私保護的 LLM 訓練數據集，是當前 AI 倫理和技術發展的重大挑戰。以下是一些可行的策略： 1. 資料收集階段：多元化資料來源：擴展數據來源，涵蓋不同地區、語言、文化、社會經濟背景的群體，避免單一來源的數據偏差。積極納入少數群體和邊緣群體的數據，例如與當地社區組織合作，收集代表性不足群體的語料。隱私保護技術：差分隱私（Differential Privacy）：在數據集中添加適當的雜訊，在不洩露個體資訊的前提下，保留數據的統計特性，適用於大規模數據集。聯邦學習（Federated Learning）：在分散的設備上訓練模型，無需將原始數據集中到一處，有效保護數據隱私，適用於分散式數據收集。去識別化技術（De-identification）：移除或轉換數據中可識別個人身份的信息，例如姓名、地址等，同時保留數據的可用性。透明度和知情同意：明確告知數據提供者數據用途、收集方式、隱私保護措施等，並取得其明確同意。建立數據使用和管理的透明機制，公開數據集的統計信息、偏差評估結果等，接受公眾監督。 2. 資料預處理和標註階段：偏差檢測和校正：利用數據分析工具和偏差評估指標，識別數據集中的偏差，例如性別、種族、職業等方面的刻板印象。採用數據增強、數據平衡、反向翻譯等技術，調整數據集的分布，減輕數據偏差的影響。標註者培訓和質量控制：對數據標註者進行系統的培訓，提高其對偏差的意識，並提供明確的標註指南，減少主觀偏差。多樣化的標註團隊：組建來自不同背景和文化的多元化標註團隊，可以有效減少單一視角帶來的偏差。 3. 模型訓練和評估階段：公平性約束：在模型訓練過程中，引入公平性約束條件，例如 Demographic Parity、Equalized Odds 等，鼓勵模型學習公平的數據表示。對抗訓練：利用對抗生成網絡（GANs）等技術，生成與訓練數據分布相似但去除了偏差的數據，用於模型訓練，提高模型的公平性和魯棒性。持續監測和評估：定期評估模型在不同群體和任務上的表現，識別潛在的偏差，並及時調整模型或數據集。

若 LLM 的輸出結果與人類的道德判斷相衝突，我們應該如何界定責任歸屬？

當 LLM 輸出結果與人類道德判斷衝突時，責任歸屬是一個複雜的問題，需要綜合考量多方因素： 1. 責任主體：開發者責任：開發者有責任確保 LLM 的設計、訓練數據、算法等環節盡可能減少偏差和倫理風險。開發者應提供清晰的使用指南和警告，說明 LLM 的局限性，避免其被用於不當用途。使用者責任：使用者應當了解 LLM 的局限性，並對其輸出結果保持批判性思考，不應盲目相信或傳播 LLM 生成的虛假、有害信息。使用者在應用 LLM 時，應遵守相關法律法規和倫理規範，對其行為後果負責。平台責任：平台作為 LLM 的提供者，有責任審查和監管 LLM 的應用，建立有效的投訴和追責機制。平台應當採取措施，防止 LLM 被濫用於傳播虛假信息、歧視特定群體等違法違規行為。 2. 責任認定：因果關係：需要判斷 LLM 的輸出結果與實際造成的損害之間是否存在直接的因果關係。可預見性：開發者和使用者是否能夠預見到 LLM 的輸出結果可能導致的倫理問題或社會危害。過錯程度：開發者、使用者、平台等各方在事件中是否存在過失，以及過失的程度如何。 3. 解決方案：法律法規：制定和完善人工智能相關法律法規，明確各方責任和義務，為解決 LLM 倫理問題提供法律依據。行業規範：建立人工智能行業倫理規範和標準，引導企業和從業者在開發和應用 LLM 時，將倫理原則融入到具體實踐中。技術手段：開發更先進的技術手段，例如可解釋人工智能、偏差檢測工具等，幫助人們更好地理解和控制 LLM 的行為。社會監督：鼓勵公眾參與 LLM 倫理問題的討論，加強對人工智能技術的監督，促進技術的健康發展。 4. 特殊考量：算法黑箱： LLM 的決策過程 often lack transparency，難以解釋其輸出結果的原因，這給責任認定帶來挑戰。數據偏差： LLM 的訓練數據可能存在偏差，導致其輸出結果具有歧視性，需要追溯數據來源和處理過程，明確責任主體。自主學習： LLM 具有自主學習能力，其行為可能會超出開發者的預期，這給責任認定帶來新的挑戰。總之，LLM 倫理問題的責任歸屬是一個複雜的議題，需要法律、技術、倫理等多方面的共同努力，才能找到有效的解決方案，確保人工智能技術的發展符合人類的利益和價值觀。

LLM 的發展是否會改變人類對語言和文化多樣性的理解？

LLM 的發展對人類理解語言和文化多樣性帶來了深遠影響，既有機遇也有挑戰： 1. 促進語言和文化多樣性的理解：打破語言障礙： LLM 强大的機器翻譯能力，能促進跨文化交流和理解，讓不同語言使用者更容易接觸和理解彼此的文化。保護瀕危語言： LLM 可用於記錄、學習和 revitalizing 瀕危語言，幫助保存人類文化遺產。展現文化差異： LLM 能學習和模擬不同文化背景下的語言風格和表達方式，幫助人們更好地理解不同文化的思維方式和價值觀。 2. 潛在的挑戰和风险：文化同化：若 LLM 主要由 dominant cultures 的數據訓練，可能導致其輸出結果偏向特定文化，弱化或邊緣化其他文化。文化刻板印象： LLM 可能會學習和強化數據中的文化刻板印象，加劇文化誤解和偏見。語言單一化：過度依赖 LLM 进行翻譯和交流，可能導致人們對自身語言的掌握和使用减少，不利於語言多樣性的保護。 3. 應對策略：數據多元化：在訓練 LLM 時，應盡可能使用多元化的數據，涵蓋不同語言、文化和地區，避免數據偏差。文化敏感性：在設計和開發 LLM 時，應考慮不同文化的敏感性，避免輸出結果冒犯或歧視特定文化。倫理規範：制定和實施人工智能倫理規範，引導 LLM 的發展和應用，使其尊重和促進語言和文化多樣性。教育和意識提升：加強公眾對語言和文化多樣性的認識，鼓勵人們學習和使用不同語言，促進文化交流和理解。總之，LLM 的發展為人類理解語言和文化多樣性帶來了新的机遇和挑戰。我們需要積極應對潛在風險，利用 LLM 的優勢，促進不同文化之間的交流和理解，共同創造一個更加包容和多元的社會。

大型語言模型中的偏見：起源、評估與緩解

Q: LLM 的發展是否會改變人類對語言和文化多樣性的理解？

LLM 的發展對人類理解語言和文化多樣性帶來了深遠影響，既有機遇也有挑戰： 1. 促進語言和文化多樣性的理解： 打破語言障礙： LLM 强大的機器翻譯能力，能促進跨文化交流和理解，讓不同語言使用者更容易接觸和理解彼此的文化。 保護瀕危語言： LLM 可用於記錄、學習和 revitalizing 瀕危語言，幫助保存人類文化遺產。 展現文化差異： LLM 能學習和模擬不同文化背景下的語言風格和表達方式，幫助人們更好地理解不同文化的思維方式和價值觀。 2. 潛在的挑戰和风险： 文化同化： 若 LLM 主要由 dominant cultures 的數據訓練，可能導致其輸出結果偏向特定文化，弱化或邊緣化其他文化。 文化刻板印象： LLM 可能會學習和強化數據中的文化刻板印象，加劇文化誤解和偏見。 語言單一化： 過度依赖 LLM 进行翻譯和交流，可能導致人們對自身語言的掌握和使用减少，不利於語言多樣性的保護。 3. 應對策略： 數據多元化： 在訓練 LLM 時，應盡可能使用多元化的數據，涵蓋不同語言、文化和地區，避免數據偏差。 文化敏感性： 在設計和開發 LLM 時，應考慮不同文化的敏感性，避免輸出結果冒犯或歧視特定文化。 倫理規範： 制定和實施人工智能倫理規範，引導 LLM 的發展和應用，使其尊重和促進語言和文化多樣性。 教育和意識提升： 加強公眾對語言和文化多樣性的認識，鼓勵人們學習和使用不同語言，促進文化交流和理解。 總之，LLM 的發展為人類理解語言和文化多樣性帶來了新的机遇和挑戰。 我們需要積極應對潛在風險，利用 LLM 的優勢，促進不同文化之間的交流和理解，共同創造一個更加包容和多元的社會。

Centrala begrepp

大型語言模型 (LLM) 雖然功能強大，但其訓練數據中存在的偏見會導致輸出結果不公平，因此需要全面評估和積極緩解策略來確保其公平性和可靠性。

Sammanfattning

Bias in Large Language Models: Origin, Evaluation, and Mitigation

導論
大型語言模型 (LLM) 在自然語言處理 (NLP) 領域取得了革命性的進展，為醫療保健、金融、教育和娛樂等各個領域帶來了新的可能性和應用。這些模型，如 GPT-3、BERT 等，旨在通過學習大量的文本數據來理解和生成類似人類的文本。它們已成為機器翻譯、文本摘要、情感分析和自動問答等任務的支柱，反映了它們與各行各業和日常應用的深度融合，並成為現代人工智能領域不可或缺的工具。
儘管 LLM 擁有巨大的潛力和效用，但由於它們繼承了訓練數據中存在的社會偏見，因此引發了人們的擔憂。這些偏見表現為性別、種族、文化和社會經濟方面的刻板印象，構成了嚴重的道德和實際挑戰，尤其是在醫療診斷、法律判決和招聘流程等關鍵決策環境中部署 LLM 時。這些偏見可能導致不平等的待遇或扭曲的結果，這些結果會不成比例地影響邊緣群體，並可能加劇現有的不平等現象。
內在偏見
LLM 中呈現的偏見可以根據偏見在模型生命週期中表現出來的不同階段和測量的偏見類型，大致分為內在偏見和外在偏見。內在偏見是指經過訓練或預訓練的 LLM 的內部表示或輸出中固有的偏見，並且獨立於任何特定的下游任務。外在偏見是指模型在訓練或微調後，在特定下游任務的表現過程中表現出來的偏見。內在偏見通常是在 LLM 從大規模語料庫中學習的訓練或預訓練階段編碼的。例如，如果一個預先訓練好的 LLM 一直將某些職業與特定的性別（例如，假設所有醫生都是男性，所有護士都是女性）或種族刻板印象聯繫在一起，那麼這種偏見將被視為內在偏見。這種偏見與模型在其內部表示中編碼關係和模式的方式有關。
內在偏見的來源
內在偏見主要是在訓練/預訓練階段引入的，在這些階段，模型從大量的語料庫中學習模式和表示。這些偏見可以追溯到數據和模型設計的幾個方面，具體概述如下。

訓練數據中的偏見： 語言模型，特別是在大型語料庫上訓練的 LLM，通常存在內在的偏見問題，因為訓練語料庫通常包含被構建到模型中的社會偏見。這些偏見以以下幾種方式呈現：

過度代表性和代表性不足造成的偏見： 某些群體，如性別、年齡、種族、宗教、民族、文化、政治或社會經濟階層，在語料庫中可能代表性不足或過度。例如，在關於領導力或科學的數據集中，男性可能過度代表，而在護理角色中，女性可能被更頻繁地提及，從而導致與人口統計信息的偏見關聯。
空間和時間偏見： 主要根據來自某些國家或地理位置的語料庫訓練的 LLM可能會吸收文化規範和價值觀，從而將偏見融入到基礎的 LLM 中。例如，在以西方為中心的數據上訓練的模型可能對非西方文化有偏差的理解。同樣，在不同時期收集的數據可能反映了過時的社會規範和價值觀。在這些數據上訓練的 LLM 可能會受到那些過時的規範和價值觀的影響。例如，歷史文本可能表現出種族主義或性別歧視的用語，模型可能會將其作為其內部表示的一部分吸收。

數據收集方法中的偏見： 內在偏見也可能源於用於收集訓練語料庫的方法。LLM 的大型訓練語料庫通常由從不同來源收集的子數據集組成，包括網絡抓取、社交媒體和論壇、書籍和文學作品、代碼庫、科學和學術論文、法律和金融文件、對話和文字記錄、政府和公共記錄、定制和專有數據庫以及模型生成的數據集。這些不同類型的來源都有其自身的偏見。例如，基於互聯網的數據集可能包含未經審核的、有偏見的或仇恨的內容。學術論文往往更中立，但它們通常缺乏社交媒體或日常對話中發現的語言多樣性。在數據收集階段選擇包含或排除哪些文本也會導致偏見。例如，有意或無意地排除某些群體或觀點會導致選擇偏差，這可能會使模型的輸出偏向訓練數據中的主導敘述。即使 LLM 創建者仔細篩選，偏見仍然可以嵌入到模型的學習中，因為考慮到訓練語料庫的巨大規模，幾乎不可能完全消除不適當的內容。

語言環境中的偏見： 偏見也可能源於語言的環境。由於詞語、語法和語境的靈活性，人類語言通常包含歧義（包括詞彙歧義、語法歧義、語義歧義和語境依賴的含義），這可能導致模型偏見。例如，由於訓練數據集中的模式，性別中立的代詞可能會與某一性別相關聯。某些語言結構，如比喻和修辭，通過以非字面或說服性的方式使用詞語和表達，為人類語言增加了另一層複雜性和歧義，從而引入了偏見。
外在偏見
外在偏見是指模型在不同下游任務中的性能差異，也稱為下游偏見或預測偏見。當模型在任務或人口群體中的有效性不同時，就會出現這種偏見，這可能會導致在實際應用中產生不平等的結果。
根據下游任務的不同，外在偏見的表現形式也不同。我們將這些任務分為兩大類：自然語言理解 (NLU) 任務和自然語言生成 (NLG) 任務。在 NLU 任務中，外在偏見會影響模型理解和解釋輸入文本的方式。在 NLG 任務中，它可能導致生成有偏見或刻板印象的語言。
自然語言理解 (NLU) 任務
NLU 任務旨在提高模型對輸入序列的理解能力，使其超越單詞的字面含義。這些任務中的外在偏見會導致模型根據訓練過程中學到的偏見關聯，錯誤地解釋或不公平地處理輸入文本。
NLU 任務中常見的偏見表現形式包括：

性別偏見： 模型可能會錯誤地將某些職業或角色與特定性別聯繫起來，從而導致共指消解等任務出錯。例如，假設醫生是男性，護士是女性，而不管上下文如何。
年齡偏見： 模型可能會基於年齡刻板印象對個人做出假設。例如，將技術熟練程度僅與年輕人聯繫起來。
文化或地區偏見： 模型可能會誤解來自不同文化的成語或表達方式，或者無法識別地區性的語言變體。這可能會導致語義文本相似性或自然語言推理等任務中的誤解。
這些偏見會導致各種 NLU 任務出現不公平或不準確的結果，例如共指消解、語義文本相似性、自然語言推理、分類、閱讀理解和情感分析。反覆出現的問題包括強化刻板印象、由於方言或語言變體而錯誤分類文本，以及基於偏見關聯做出錯誤推斷。
自然語言生成 (NLG) 任務
NLG 任務涉及根據輸入或指令生成連貫且與上下文相關的文本。這些任務中的外在偏見會導致模型產生有偏見的語言或在生成的文本中強化刻板印象。
NLG 任務中常見的偏見表現形式包括：

性別偏見： 模型可能會生成符合性別刻板印象的回复，例如對領導者使用男性代詞，對養育角色使用女性代詞。
年齡偏見： 模型可能會產生反映年齡相關刻板印象的內容，例如只為老年人推薦久坐不動的活動。
文化或地區偏見： 模型可能會偏袒來自主導文化的內容或錯誤地描述文化習俗，從而導致不恰當或不敏感的回复。
這些偏見會影響問答、句子補全、對話代理、推薦系統、機器翻譯和摘要等任務。反覆出現的問題包括強化有害的刻板印象、對少數民族文化的代表性不足，以及提供有偏見的推薦或翻譯。
總之，LLM 中的外在偏見會影響理解和生成任務，導致不公平或歧視性的結果。解決這些偏見對於確保模型在現實應用中公平、準確地執行至關重要。
偏見評估
隨著 LLM  zunehmend in verschiedene reale Anwendungen integriert werden, von der Entscheidungsfindung im Gesundheitswesen über Gerichtsurteile bis hin zu alltäglichen digitalen Interaktionen, hat ihr Potenzial zur Verbreitung von Vorurteilen erhebliche ethische und gesellschaftliche Bedenken aufgeworfen. Diese Vorurteile, die tief in den Daten, der Modellarchitektur und sogar in den Nachbearbeitungsschritten verwurzelt sind, können zu diskriminierenden Ergebnissen gegenüber marginalisierten Gruppen führen und bestehende Ungleichheiten verstärken. Daher sind das Verständnis und die Bewertung dieser Vorurteile entscheidende Schritte, um einen fairen und verantwortungsvollen Einsatz von LLMs zu gewährleisten.
Dieser Abschnitt konzentriert sich auf die Klassifizierung und Bewertung von Vorurteilen in LLMs und bietet einen umfassenden Überblick über die Methoden zur Identifizierung und Bewertung von Vorurteilen in verschiedenen Phasen des Modelllebenszyklus. Wir kategorisieren die Methoden zur Bewertung von Vorurteilen in datenbezogene, modellbezogene, ausgabebezogene, menschenbezogene und domänenspezifische Ansätze, die jeweils unterschiedliche Quellen und Erscheinungsformen von Vorurteilen adressieren. Durch die systematische Untersuchung dieser Methoden wollen wir Forscher und Praktiker mit den notwendigen Werkzeugen ausstatten, um Vorurteile zu erkennen und zu mindern und letztlich die Fairness und Vertrauenswürdigkeit von LLMs in verschiedenen Anwendungen zu erhöhen.
Anhand der jüngsten Fortschritte in diesem Bereich beleuchten wir Schlüsseltechniken wie die Analyse der demografischen Verteilung, Fairnessmetriken, Interpretierbarkeitstools und kontrafaktische Fairness. Darüber hinaus erörtern wir die Rolle menschlicher Beurteilung und domänenspezifischer Bewertungen bei der Erfassung kontextabhängiger Vorurteile, die bei automatisierten Methoden möglicherweise übersehen werden. Durch diese Untersuchung unterstreichen wir die Bedeutung eines vielschichtigen Ansatzes bei der Bewertung von Vorurteilen, der technische Strenge mit kontextuellem Bewusstsein verbindet, um die komplexen Herausforderungen der Fairness bei LLMs zu bewältigen.
數據級偏見評估方法
數據級偏見評估方法側重於識別和量化 LLM 訓練數據中固有的偏見。這些植根於數據的偏見會顯著影響模型輸出並加劇社會刻板印象。

數據分佈分析： 數據分佈分析是識別和理解數據級偏見的關鍵步驟，因為它可以洞察用於訓練 LLM 的數據集中不同人口群體或類別的代表性。這種分析的主要重點是確保數據的平衡性和代表性，最大限度地降低在訓練模型中延續或放大現有偏見的風險。

跨人口統計的代表性： 研究一致表明，訓練數據中人口統計的代表性會顯著影響 LLM 的結果。例如，在某些人口群體代表性過高的數據集上訓練的 LLM 容易表現出偏向這些群體的偏見。例如，對 LLM 中政治偏見的分析表明，大多數對話式 LLM 在被問及政治敏感問題或陳述時，表現出左傾的政治傾向。該研究表明，通過使用少量政治傾向數據進行監督微調 (SFT)，可以將 LLM 引導到特定的政治立場。為了評估代表性，可以使用統計工具來衡量數據集中人口統計屬性的分佈。關鍵指標可能包括每個人口群體的相對頻率或不同類別中代表性的差異。直方圖、條形圖或人口統計分佈表等可視化工具有助於識別差異，清晰地顯示數據中哪些群體的代表性過高或過低。
不平衡和偏斜檢測： 數據分佈中的不平衡和偏斜會導致模型行為出現偏差，即模型過度受多數類別或人口群體的影響。檢測這些問題對於確保模型在所有人群中都能公平地執行至關重要。當數據集中某些類別或人口群體的數量明顯多於其他類別或群體時，就會出現不平衡現象。這可能導致模型偏向多數群體，從而導致對少數群體的表現不佳。可以使用基尼係數、熵度量、詞彙使用和頻率分析等技術來量化不平衡。可以使用箱線圖、直方圖或累積分佈函數 (CDF) 來可視化偏斜。這些工具有助於識別數據中偏斜的程度，並指導選擇適當的緩解策略。
數據來源分析： 模型的質量和偏見在很大程度上受訓練數據來源的影響。數據來源中固有的偏見會顯著影響模型的行為。例如，如果模型主要根據來自西方國家的數據進行訓練，那麼在非西方環境中應用時，它的表現可能會很差。評估 LLM 訓練數據來源的偏見涉及分析數據的來源、多樣性和質量，以及它對模型性能的影響。這包括對數據來源進行分類，以確保它們涵蓋廣泛的地理、文化和語言環境，並檢查每個來源的可信度和固有偏見。例如，關於 SlimPajama 數據集的研究（該數據集包括經過嚴格重複數據刪除的網絡文本、維基百科、GitHub 和書籍的組合）揭示了不同的數據組合如何影響 LLM 的性能。SlimPajama-DC 研究突出了兩個關鍵方面：全局與局部重複數據刪除對模型性能的影響，以及重複數據刪除後數據多樣性的重要性。研究結果表明，使用高度重複數據刪除的多樣化數據集訓練的模型優於使用較少精煉數據訓練的模型，這突出了全面且平衡的數據來源的重要性。偏見檢測工具和數據權重的調整可以進一步幫助管理這些偏見，並通過透明的文檔和定期審查來支持，以確保模型輸出的公平性和準確性。

文本數據中的刻板印象和偏見檢測： 刻板印象和偏見檢測涉及分析訓練數據的內容，以識別和量化與刻板印象、冒犯性語言或偏見陳述相關的偏見。這可以通過以下方式完成：

詞彙分析： 這種方法側重於識別訓練數據中與偏見或刻板印象相關的特定單詞或短語。詞彙分析依賴於預先定義的詞彙表，這些詞彙表是已知帶有偏見或刻板印象含義的術語的整理列表。像 Hatebase 這樣廣泛的仇恨言論術語庫為識別文本數據中的有害語言提供了寶貴的資源。同樣，語言情感詞典 (DAL) 根據單詞的情感含義對其進行分類，讓我們可以洞察語言如何延續刻板印象。通過掃描訓練數據中這些術語的出現情況，研究人員可以量化偏見語言的普遍程度，並確定數據可能強化有害刻板印象的具體領域。例如，Dev 等人的一項研究證明了訓練數據中的偏見語言如何導致 NLP 模型中種族和性別刻板印象的傳播。
上下文分析： 詞彙分析識別特定偏見術語的存在，而上下文分析則更深入地研究這些術語在文本中的使用方式。這種方法採用先進的 NLP 技術來檢查潛在偏見語言出現的上下文，從而可以識別更微妙的偏見形式。例如，同一個詞在一個上下文中可能是中性的，但在另一個上下文中可能帶有偏見的含義。上下文分析檢查句子結構、共現模式和周圍的語言，以揭示這些細微差別。像 Bolukbasi 等人的研究表明，即使沒有明顯的偏見語言，潛在的模式仍然可以延續刻板印象，例如詞嵌入中的性別偏見。這種方法對於識別和減輕可能不明顯但會顯著影響 LLM 行為的偏見至關重要。Zhao 等人量化並分析了 ELMo 上下文化詞向量中表現出的性別偏見。上下文分析可以通過基於模板的方法、應用主題分析和上下文化詞嵌入分析等方法來實現。
情感分析： 情感分析是檢測文本數據中偏見的另一個重要工具。這種技術評估與訓練數據中不同人口群體或主題相關的情感（正面、負面或中性）。通過分析不同群體的描述方式，研究人員可以識別負面或偏見描述的模式，這些模式可能會影響模型的輸出。例如，如果某些人口群體始終與負面情緒或含義相關聯，那麼模型可能會學習在其預測或互動中複製這些偏見。Kiritchenko 和 Mohammad 的研究強調了如何使用情感分析來檢測和解決文本數據中的此類偏見。這種方法提供了一種對偏見進行量化的指標，從而可以採取有針對性的干預措施來減少這些偏見對模型行為的影響。情感分析可以通過許多傳統的機器學習工具、預處理數據框架或基於變換器的方法來實現。

標註偏見分析： 標註偏見分析是評估和減輕 LLM 中偏見的關鍵組成部分。這個過程涉及檢查數據標註階段引入的偏見，在這個階段，人工標註員對訓練數據進行標記或分類。由於標註員會帶入自己的偏見和觀點，因此他們的主觀決定可能會無意中引入有偏差或偏頗的標註，進而影響 LLM 的性能和公平性。為了執行標註偏見分析，研究人員必須審查標註指南和標註員的培訓過程，確保它們的設計能夠最大限度地減少偏見。此外，評估不同人口群體和標註員之間標註的一致性和公平性有助於識別任何差異。標註者間一致性指標和標註數據的統計分析等工具可以揭示潛在的偏見。例如，Havens 等人對標註數據集中性別偏見的研究強調了標註實踐如何強化刻板印象和偏見，並強調了嚴格分析和糾正方法的必要性。減少標註偏見的另一種方法是人機協作方法。通過解決標註偏見，研究人員可以提高訓練數據的質量和公平性，從而產生更加平衡和無偏見的 LLM。
模型級偏見評估方法
模型級偏見評估方法評估 LLM 在訓練和預測階段產生的偏見，重點關注模型是否對特定群體表現出歧視性行為。

公平性指標： 這些指標對於評估模型在不同群體中的輸出公平性至關重要。常見的指標包括：

機會均等： 確保由性別或種族等敏感屬性定義的群體的真陽性率 (TPR) 相似。例如，情感分析模型應該平等地識別與男性和女性相關聯的名字的正面情緒。
預測一致性： 重點關注不同群體預測準確性（精確率）的一致性。這在信用評分等應用中尤為重要，因為不平等的預測性能會導致對少數群體的歧視性結果。
校準： 該指標檢查預測概率是否與實際發生情況一致，特別是在不同人口群體中，確保模型對其預測的信心是合理的。

可解釋性工具： SHAP（Shapley 加性解釋）和 LIME（局部可解釋模型無關解釋）等工具可以洞察特定特徵如何影響模型預測，從而幫助識別偏見。例如，SHAP 值可以揭示性別詞彙對預測的影響很大，表明模型中可能存在性別偏見。同樣，LIME 使用可解釋模型在局部逼近複雜模型，以突出顯示特徵對個別預測的影響，這對於診斷偏見至關重要。

反事實公平性： 這種方法通過改變敏感屬性（例如，將名字從傳統的男性改為女性）來生成反事實示例，以查看模型的輸出是否保持不變。理想情況下，公平的模型應該產生相同的結果，而不管這些屬性如何變化。
輸出級偏見評估方法
輸出級偏見評估方法評估 LLM 如何生成響應，特別是在不同人口群體中的公平性和中立性方面。這些方法旨在識別模型的預測、建議或生成的內容是否反映了在訓練過程中可能學到的偏見，包括基於種族、性別、社會經濟地位、政治傾向等的偏見。在這裡，我們探討了用於檢測 LLM 生成文本中偏見的五個主要指標：反事實測試、刻板印象檢測、情感和毒性分析、接受率和拒絕率，以及基於嵌入的指標。

反事實測試： 反事實測試涉及通過改變特定屬性（例如性別、種族或民族）來修改輸入提示，同時保持其餘上下文不變。這種方法評估 LLM 的輸出是否基於這些人口統計變化而變化，從而使研究人員能夠分離這些屬性對模型行為的影響。例如，在句子中將“約翰”替換為“瑪麗亞”可以揭示模型是否由於主語的性別而做出不同的響應。Wang 最近的一項工作強調了 LLM 中穩健因果推理對於增強公平性的重要性，認為對因果關係的深刻理解可以減輕偏見並減少幻覺。Banerjee 等人的另一項研究引入了一個動態框架，用於比較相同上下文中不同人口群體的輸出，從而無需昂貴的模型再訓練即可提高生成文本的公平性。此外，用於生成和分析反事實的新工具允許用戶以交互方式探索 LLM 行為，確保反事實既有意義又在語法上準確。這些進展突出了反事實測試在識別 LLM 中偏見方面的作用。通過系統地改變提示中的人口統計特徵，研究人員可以評估模型如何對待不同群體，並確保所有人口統計數據的輸出都是公平的。
生成文本中的刻板印象檢測： 生成文本中的刻板印象檢測側重於識別和減輕 LLM 可能在其輸出中延續的有害偏見。由於 LLM 是根據大量的公開數據進行訓練的，而這些數據通常包含與種族、性別、職業和宗教相關的刻板印象敘述，因此這些偏見出現在生成內容中的風險很大。這種方法評估模型如何複製刻板印象，從而深入了解嵌入在其響應中的隱性偏見。Wu 等人介紹了一種將多個刻板印象檢測數據集組合在一起的統一數據集。研究人員根據該數據集對 LLM 進行了微調，發現多維分類器在識別刻板印象方面更有效。這項研究還強調了使用可解釋的人工智能工具來確保模型與人類理解相一致。Bai 等人的另一項研究開發了一個雙重框架，將靜態評估與動態的現實世界場景模擬相結合。這種動態方面在檢測靜態測試可能遺漏的微妙的、特定於上下文的偏見方面特別有效。Babonnaud 等人提出了一種定性方法，該方法使用提示技術來揭示 LLM 生成文本中的隱性刻板印象。這種方法側重於性別和種族等偏見，採用“思想之樹”技術系統地揭示隱藏的偏見，並為刻板印象檢測提供一種可重複的方法。這些方法共同幫助研究人員檢測和減輕 LLM 輸出中的偏見，從而更深入地了解刻板印象如何在生成文本中體現出來。
情感和毒性分析： 情感和毒性分析對於評估 LLM 中的輸出級偏見至關重要，特別是針對有害或冒犯性內容並確保遵守道德標準。這一評估領域不僅解決了毒性問題，還有助於識別生成內容中可能出現的微妙偏見。Llama Guard 引入了一種基於模型的偏見評估方法，該方法使用安全風險分類法對人機對話中的提示和響應進行分類。該模型根據精心策劃的數據集進行了微調，在檢測各種形式的毒性方面表現出色。它通過提供一種動態工具來評估和減輕現實世界互動中的有害內容，代表了偏見評估方法的實際應用。基於定義的毒性指標通過量化生成文本中存在的有害或冒犯性語言的程度來提供客觀的衡量標準。這可以通過利用預先存在的毒性詞彙表或訓練專門的分類器來識別此類內容來實現。另一方面，情感分析側重於評估與不同人口群體或主題相關的情感基調。通過分析 LLM 如何在其輸出中描繪不同群體，研究人員可以發現潛在的偏見，例如將負面情緒與特定群體聯繫起來或延續有害的刻板印象。
模型級偏見評估方法總結

方法
描述

公平性指標

機會均等
確保敏感群體的真陽性率 (TPR) 相似。

預測一致性
檢查不同群體的預測準確性是否一致。

校準
使預測概率與實際結果相一致，以確保公平性。

可解釋性工具

SHAP
解釋各個特徵對模型預測的影響。

LIME
提供複雜模型的局部近似值，用於特徵影響分析。

反事實公平性

情景測試
改變敏感屬性（例如性別）以測試輸出的一致性。

公平性檢查
驗證更改不會不公平地影響模型結果。

Statistik

大型語言模型中的偏見：起源、評估與緩解

Anpassa sammanfattning

Skriv om med AI

Generera citat

Översätt källa

Generera MindMap

Besök källa

Bias in Large Language Models: Origin, Evaluation, and Mitigation

如何在保護隱私的同時，建立更具代表性和包容性的 LLM 訓練數據集？

若 LLM 的輸出結果與人類的道德判斷相衝突，我們應該如何界定責任歸屬？

LLM 的發展是否會改變人類對語言和文化多樣性的理解？

Få PDF-sammanfattning på några sekunder