この記事では、BARDAという新しいBelief and Reasoning Datasetが導入されています。このデータセットは、事実の正確さ("真実")と推論能力("合理性"または信念の含意を正しく報告する "誠実さ")を明確に区別することを目的としています。従来の言語モデルの性能比較では、これらの概念がしばしば混同されていましたが、BARDAはそれらをより明確に分離し定量化するための新しいベンチマーク提供します。
このアプローチは、良好なおよび悪質な推論チェーンを表現するために人間注釈付けされたエンテイメントツリー集合体から派生しており、真偽の文や特に反事実例も含むことで信念バイアス(コンテント効果)を回避しています。結果的なデータセットであるBARDAは3000個のエンタイトメント(1787有効,1213無効)、6681個真文書及び2319個虚偽文書使用します。
GPTシリーズモデル4つ(GPT3(curie)/GPT3(davinici)/3.5/4)でテストした結果、事実上78.0%〜87.1%まで向上した事実精度(真)スコアや63.1%〜79.2%まで向上した推論精度スコアが示されました。これはモデルが改善された事実精度及びエンタイトメント推論方面へ進歩していく傾向を示すものです。
BARDAは他の既存および将来的なモデルパフォーマンス測定用途として研究者コミュニティに提供されています。
この記事の立場に反する主張はありますか
本記事内では、「truthful AI: Developing and Governing AI that Does Not Lie」というEvans et al.(2021) の研究から引用・参照 あります。「truthful」AIシステムや「honest」AIシステム等々、「belief」「reasoning」「factual accuracy」「entailment reasoning」等々多岐にわたって議論・分析 あります。
立場対立要素自体見受けられません