toplogo
Log på

PROMETHEUS: Open-Source LLM for Fine-Grained Evaluation


Kernekoncepter
PROMETHEUS is an open-source Large Language Model (LLM) that matches GPT-4's evaluation capabilities, emphasizing the importance of reference materials for fine-grained evaluation.
Resumé

The article introduces PROMETHEUS, an open-source LLM designed for fine-grained evaluation tasks. It addresses the limitations of using proprietary LLMs due to their closed-source nature, uncontrolled versioning, and prohibitive costs. The authors propose a new dataset called FEEDBACK COLLECTION, consisting of score rubrics, instructions, responses, and feedback. Training PROMETHEUS on this dataset results in high correlation with human evaluators and outperforms other models like GPT-4 and GPT-3.5-Turbo. The inclusion of reference materials like score rubrics and reference answers is crucial for effective evaluation.

Abstract:

  • Proprietary LLMs pose challenges for large-scale evaluation tasks.
  • PROMETHEUS is an open-source LLM trained on the FEEDBACK COLLECTION dataset.
  • Achieves high correlation with human evaluators and outperforms other models.

Introduction:

  • Human evaluation remains essential in NLP.
  • Automated metrics lack depth compared to human assessment.
  • Using LLMs like GPT-4 as evaluators has gained attention but has limitations.

Data Extraction:

  • "Experimental results show that PROMETHEUS scores a Pearson correlation of 0.897 with human evaluators."
  • "Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks shows similar trends."
edit_icon

Tilpas resumé

edit_icon

Genskriv med AI

edit_icon

Generer citater

translate_icon

Oversæt kilde

visual_icon

Generer mindmap

visit_icon

Besøg kilde

Statistik
最初の50個のシードルーブリックを作成します。 GPT-4を使用して、初期の50個から1000個のスコアルーブリックに拡張します。 新しいスコアルーブリックに関連する20Kのユニークな命令を生成します。
Citater
"Applying LLMs (e.g., GPT-4) as an evaluator has received substantial attention due to its potential parity with human evaluation." "However, while the merits of using proprietary LLMs as an evaluation tool are evident, there exist some critical disadvantages."

Vigtigste indsigter udtrukket fra

by Seungone Kim... kl. arxiv.org 03-12-2024

https://arxiv.org/pdf/2310.08491.pdf
Prometheus

Dybere Forespørgsler

なぜプロプライエタリLLMに対するオープンソースの代替手段を持つことが重要ですか?

プロプライエタリLLM(Large Language Models)は閉鎖的で透明性が不足しており、学術コミュニティ全体に内部機能が開示されていないため、信頼性や中立性の問題が生じます。オープンソースの代替手段を持つことは、透明性を確保し、研究者や開発者がモデルを改良したり拡張したりするための共同努力を促進します。また、オープンソースのアクセス可能性は教育機関や予算制約下で活動する研究者にとっても費用対効果が高く、技術革新や学術研究により多くの人々が参加できる環境を提供します。

How can the use of reference materials improve the performance of language models in evaluations

言語モデルの評価において参考資料を使用することでどういう風にパフォーマンス向上させることができますか? 参考資料の使用は言語モデルの評価精度向上に重要な役割を果たします。例えば、「スコア基準」は与えられた指示文から把握すべき重要事項を提示し、「参考回答」は模範解答と比較しつつ評価対象応答品質だけに焦点化させることで判断能力向上へ導きます。これら二つの要素はそれぞれ異なる観点から貢献し合い、最終的に言語モデル評価時無駄な情報処理作業量減少及び客観的・正確な判断能力強化効果あります。

What implications does PROMETHEUS have for future developments in natural language processing

自然言語処理分野ではPROMETHEUSが将来的展望面でどんな意味合い・影響 を持ち得るか? PROMETHEUS の登場は自然言語処理分野に大きなインパクトをもたらす可能性があります。まず第一に、そのオープンソース特性から広範囲な利用者層や開発者層間でも普及し易く使われ方次第では新たな技術革新促進源泉として機能する見込みです。またPROMETHEUS の成功例から他社製品も含めて今後更多く公開型LMs 産出期待感高まっています。 このような流れ下ではAI 技術全般レベルでも知識共有・協働推奨傾向拡大等幅広いポジティブ変化起こす可能 性あ りそうです。
0
star