Conceitos Básicos
大規模言語モデルを使用したキーワード抽出手法の比較評価を行い、GPT-3.5、Llama2-7B、Falcon-7Bの性能を分析した。
Resumo
本研究は、大規模言語モデルを使用したキーワード抽出手法の比較評価を行ったものである。Inspec及びPubMedデータセットを用いて、GPT-3.5、Llama2-7B、Falcon-7Bの3つの大規模言語モデルの性能を分析した。
キーワード抽出の評価には、Jaccard類似度を使用した。GPT-3.5は、Inspecデータセットで0.64、PubMedデータセットで0.21の高い類似度を示した。一方、Llama2-7BはInspecで0.40、PubMedで0.17、Falcon-7BはInspecで0.23、PubMedで0.12と、GPT-3.5に比べ低い結果となった。
Llama2-7Bは、参照キーワードセットにない追加のキーワードを生成する傾向がある。これは、参照セットにない重要な用語を見出す能力を示すが、Jaccard類似度の低下につながっている。一方、GPT-3.5は参照キーワードとの高い一致率を示し、コンテンツの主要概念を的確に捉えている。Falcon-7Bは、関連性の低いキーワードも抽出するなど、他モデルに比べ性能が低い。
モデルの性能差は、訓練データの違い、ドメイン固有の用語への対応力、プロンプトエンジニアリングの効果など、様々な要因が影響していると考えられる。今後は、より高度なプロンプト設計や、ドメイン特化型の言語モデル開発などが重要になると示唆された。
Estatísticas
大規模言語モデルを使用したキーワード抽出では、GPT-3.5がInspecデータセットで0.64、PubMedデータセットで0.21のJaccard類似度を示した。
Llama2-7Bは、Inspecで0.40、PubMedで0.17のJaccard類似度であった。
Falcon-7Bは、Inspecで0.23、PubMedで0.12とより低い類似度を示した。