核心概念
文章旨在探討如何理解新聞文章中記者選擇資訊來源的背後邏輯,並提出了一種基於「資訊來源模式」的分析框架,比較不同模式對文章資訊來源選擇的解釋力。
摘要
新聞文章中混合資訊來源的闡釋與分析
研究目標
本研究旨在探討新聞寫作中記者選擇資訊來源的背後邏輯,並嘗試建立一個可以從自然文本中推斷這些邏輯的框架。
研究方法
- 資訊來源模式: 研究者與專業記者合作,定義了八種資訊來源模式,例如「立場模式」、「社會關係模式」等,用以解釋記者選擇資訊來源的可能考量。
- 數據集建構與標註: 研究者從新聞編輯數據集中抽取了九萬篇新聞文章,並根據八種模式對文章中的資訊來源進行標註,建立了一個包含四百九十二個資訊來源的數據集。
- 分類器訓練: 研究者針對每種模式訓練了一個分類器,用以自動識別文章中資訊來源的類型。
- 模式比較: 研究者使用「條件困惑度」和「後驗預測」兩種指標來比較不同模式對文章資訊來源選擇的解釋力。
主要發現
- 模式解釋力: 研究發現,「立場模式」和「社會關係模式」在解釋大多數文章的資訊來源選擇方面表現最佳。
- 主題相關性: 不同主題的文章適合用不同的模式來解釋,例如「科學」類文章更適合用「文本蘊含模式」來解釋。
- 標題預測: 研究發現,僅憑藉文章標題就能以一定的準確率預測出最適合的資訊來源模式。
研究意義
本研究為理解新聞文章中資訊來源的選擇提供了一個新的視角,並提出了一個可以從自然文本中推斷這些邏輯的框架,有助於開發更智能的資訊檢索和新聞寫作輔助工具。
研究限制
- 數據集限制: 本研究所使用的數據集僅包含英文新聞文章,可能無法推廣到其他語言的新聞文章。
- 模式數量限制: 本研究僅考慮了八種資訊來源模式,可能無法涵蓋所有可能的資訊來源選擇邏輯。
- 指標的近似性: 本研究所使用的指標是基於機器學習模型學習的模式,可能存在一定的偏差。
統計資料
研究者從新聞編輯數據集中抽取了九萬篇新聞文章。
研究者建立了一個包含四百九十二個資訊來源的數據集。
研究者與專業記者合作,定義了八種資訊來源模式。
僅憑藉文章標題就能以 0.67 的 ROC-AUC 預測出最適合的資訊來源模式。
引述
"Why do specific stories call for specific kinds of sources?"
"We imagine a generative process for story writing where a source-selection schema is first selected by a journalist, and then sources are chosen based on categories in that schema."
"Learning the article’s plan means predicting the schema initially chosen by the journalist."