本論文では、大規模言語モデル(LLM)パイプラインの展開における主要な課題として、LLMによる予期せぬエラーを取り上げている。開発者はLLMの誤りを検出するためにデータ品質アサーションを手動で追加しているが、適切なアサーションを見つけるのが難しい問題がある。
spadeは、LLMパイプラインの過去のプロンプトバージョンの変更履歴を分析し、データ品質アサーションの候補を自動的に生成する。さらに、限られた数の開発者ラベル付き入出力例を用いて、冗長性や不正確さを排除しつつ、カバレッジと正確性の要件を満たすアサーションの最小集合を選択する。
具体的には以下の2つのコンポーネントから成る:
spadeは9件の実際のLLMパイプラインで評価され、従来手法と比較して、アサーション数を14%削減し、誤検知率を21%低減することができた。また、開発者ラベル付き入出力例が限定的な場合でも、アサーションの包含関係を活用することで、カバレッジを維持しつつ、効率的なアサーション集合を選択できることを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shreya Shank... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.03038.pdfDeeper Inquiries