核心概念
大型語言模型 (LLM) 生成的文字,特別是像 ChatGPT 這樣的聊天機器人,經常表現出與「廢話」相似的特徵,可以使用統計文本分析來識別這些特徵,並與政治話語和「廢話工作」等其他社會現象中觀察到的廢話模式建立關聯。
摘要
文章類型
這篇文章屬於研究論文,提出了「廢話語言遊戲檢測器」(WLGD)的概念,並通過兩個實驗驗證其效用。
研究目標
- 探討大型語言模型(LLM)生成的文字是否可以被歸類為「廢話」。
- 開發一種可以可靠地檢測文字中「廢話」特徵的方法。
- 驗證這種方法是否可以應用於分析政治話語和「廢話工作」等社會現象。
方法
- 建立一個包含 1,000 篇 Nature 期刊文章和 1,000 篇由 ChatGPT 模仿 Nature 風格撰寫的偽科學文章的訓練數據集。
- 使用 XGBoost 和 RoBERTa 兩種機器學習模型,分別基於詞頻和上下文嵌入來訓練「廢話語言遊戲檢測器」(WLGD)。
- 將 WLGD 應用於分析英國政黨宣言和「英國國家語料庫」(BNC)中的日常對話文本,比較兩者在 WLGD 分數上的差異。
- 收集 100 篇線上文本,其中 50 篇來自 Graeber 定義的「廢話工作」,另外 50 篇來自非「廢話工作」,比較兩組文本的 WLGD 分數。
主要發現
- WLGD 可以有效區分 Nature 文章和 ChatGPT 生成的偽科學文章。
- 英國政黨宣言的 WLGD 分數顯著高於 BNC 中的日常對話文本,表明政治話語中存在更多「廢話」特徵。
- 「廢話工作」文本的 WLGD 分數顯著高於非「廢話工作」文本,支持了「廢話工作」傾向於產生更多「廢話」文本的假設。
主要結論
- LLM 生成的文字,特別是像 ChatGPT 這樣的聊天機器人,經常表現出與「廢話」相似的特徵。
- WLGD 可以作為一種有效的工具,用於識別和測量文本中的「廢話」特徵。
- WLGD 的應用可以擴展到分析政治話語和「廢話工作」等社會現象,揭示這些現象中「廢話」的普遍存在。
研究意義
這項研究為理解和分析 LLM 生成的文字的本質提供了新的視角,並提出了一種客觀評估文本中「廢話」程度的方法。
局限與未來研究
- WLGD 的訓練數據集主要基於科學文本,未來可以擴展到其他領域的文本。
- 對「廢話工作」文本的選擇帶有一定主觀性,未來可以使用更客觀的標準進行分類。
- 未來可以進一步探討 WLGD 與其他文本分析方法的結合,以及其在不同文化和語言背景下的應用。
統計資料
使用了 1,000 篇 Nature 期刊文章和 1,000 篇 ChatGPT 生成的偽科學文章作為訓練數據集。
分析了 45 份英國政黨宣言和 45 篇來自「英國國家語料庫」(BNC)的日常對話文本。
收集了 100 篇線上文本,其中 50 篇來自「廢話工作」,另外 50 篇來自非「廢話工作」。
引述
‘LLMs are generative mathematical models of the statistical distribution of tokens in the vast public corpus of human-generated text, where the tokens in question include words, parts of words, or individual characters’.
‘It just makes up stuff that sounds good’
‘a lack of connection to a concern with truth – […], indifference to how things really are’
‘limited to the text alone and without a guiding set of directions, how would we read Joyce’s Ulysses if it were not entitled Ulysses?’
‘paid employment that is so completely pointless, unnecessary, or pernicious that even the employee cannot justify its existence even though, as part of the conditions of employment, the employee feels obliged to pretend that this is not the case’.