Core Concepts
ブロックチェーン技術を活用して、自動評価と人間のフィードバックを組み合わせた評判システムを設計・開発し、大規模言語モデルの信頼性と有用性を効果的かつ透明性高く評価する。
Abstract
本論文では、LLMChainと呼ばれる新しいブロックチェーンベースの評判システムを提案している。LLMChainは、大規模言語モデル(LLM)の共有と評価を目的としたシステムである。
LLMChainの主な特徴は以下の通りである:
自動評価と人間のフィードバックを組み合わせた評判モデル
自動評価では、言語モデルの出力と参照モデルの出力を比較して評価スコアを算出する。
人間評価では、回答の信頼性、完全性、有用性などの指標を用いて評価を行う。
人間評価の重要性は、ユーザの専門性や確信度に応じて動的に調整される。
分散型ブロックチェーンアーキテクチャ
ブロックチェーンを基盤とすることで、透明性と信頼性の高い評価プロセスを実現する。
言語モデルの提供者と利用者が協調して評価に参加できる。
言語モデル開発者にとっても、ユーザフィードバックを活用してモデルの改善に役立てられる。
大規模データセットの構築
100,000問以上の質問と7つの言語モデルによる回答からなる大規模データセット「LLMGooAQ」を作成した。
実験の結果、提案手法は言語モデルの信頼性評価に効果的であり、ブロックチェーンシステムとしても十分な性能を発揮することが示された。本研究は、大規模言語モデルの評価における新しいアプローチを提示するものである。
Stats
本研究で使用したデータセットには100,000問以上の質問と7つの言語モデルによる回答が含まれている。
自動評価では、BARTScoreを用いて言語モデルの出力を評価した。
人間評価では、GPT-4を専門家として活用し、回答の信頼性、完全性、有用性などの指標を算出した。
Quotes
"LLMsは自然言語処理ベースのアプリケーションにおいて驚くべき性能を発揮しているものの、望ましくない行動や不安定な振る舞いにも悩まされている。"
"これらの欠陥行動は、LLMsに対する信頼を損ね、医療診断や法的助言などの重要な文脈での採用に大きな障壁となっている。"
"LLMChainは、自動評価と人間のフィードバックを組み合わせた評判システムを提案し、LLMsの振る舞いを効果的かつ透明性高く評価することを目的としている。"