Core Concepts
大規模言語モデルを使用して、機械学習のためのデータセットのドキュメンテーションを自動的に拡充する手法を提案する。
Abstract
本研究では、大規模言語モデルと特定のプロンプト戦略を組み合わせることで、データセットのドキュメンテーションから信頼性の高いAIに必要な情報を自動的に抽出する手法を提案している。
データセットのドキュメンテーションには、データの出所やソーシャルな懸念事項など、機械学習モデルの品質に影響する重要な情報が含まれている。しかし、これらの情報は通常、非構造化テキストの形で提供されるため、自動分析や処理が困難である。
提案手法では、大規模言語モデルを活用し、各種の情報を抽出するためのプロンプトチェーンを設計している。これにより、データ提供者やプラクティショナーが機械可読のドキュメンテーションを作成し、データセットの検索性を向上させ、AI規制への準拠性を評価し、そのデータセットで訓練された機械学習モデルの全体的な品質を改善することができる。
実験では、2つの科学ジャーナルに掲載された12の科学データセットペーパーを対象に、2つの異なる大規模言語モデル(GPT3.5とFlan-UL2)を使用して評価を行った。結果は全体的に良好で、GPT3.5がFlan-UL2よりも若干高い精度(81.21%)を示したが、幻覚の発生率も高かった。
Stats
データセットは1,014件の全身FDG-PET/CT検査から構成されている
2014年から2018年の間に収集された
900人の患者のデータが含まれている
Quotes
"データセットのドキュメンテーションには、データの出所やソーシャルな懸念事項など、機械学習モデルの品質に影響する重要な情報が含まれている。"
"提案手法では、大規模言語モデルを活用し、各種の情報を抽出するためのプロンプトチェーンを設計している。"