核心概念
本稿では、誤情報検出に広く用いられる自動信頼性評価モデル、特に最新の巨大言語モデルの堅牢性について検証し、既存の攻撃手法に対して脆弱である可能性を示唆しています。
Przybyła, P., Shvets, A., & Saggion, H. (2024). Verifying the Robustness of Automatic Credibility Assessment. Natural Language Processing. https://doi.org/10.1017/nlp.2024.54
本研究は、フェイクニュース、プロパガンダ、ソーシャルメディアボットなど、オンライン上の誤情報検出に広く用いられる自動信頼性評価モデルの堅牢性を検証することを目的としています。