Core Concepts
大規模言語モデルは、専門家アノテーターと比較して、金融関係抽出タスクにおいて十分な代替手段となる可能性がある。
Abstract
本研究では、金融文書からの関係抽出タスクにおいて、大規模言語モデル(GPT-4、PaLM 2、MPT Instruct)の有効性を専門家アノテーターおよびクラウドワーカーと比較して検討した。
大規模言語モデルのうち、GPT-4とPaLM 2は、クラウドワーカーよりも高い精度を示した。一方、MPT Instructは専門家に及ばない結果となった。
プロンプトの設計が大規模言語モデルの性能に大きな影響を及ぼすことが分かった。特に、各関係タイプの具体的な例を提示するプロンプトが重要である。
信頼性指標(LLM-RelIndex)を導入し、専門家の介入が必要な出力を特定できることを示した。
時間、コスト、エラー分析を行い、ドメイン特化データの自動アノテーションの実装に関する提言を行った。
Stats
金融文書の平均文長は一般ドメインよりも長く、エンティティ間の距離も大きい。
専門家とクラウドワーカーの間でラベル付けに大きな差異がある。
Quotes
"金融NLP(FinNLP)は活発に研究されている分野で、多くのアプリケーションがある。しかし、金融文書からのデータセット作成は困難である。"
"大規模言語モデルは、一般ドメインのデータアノテーションタスクで顕著な性能を示しているが、専門ドメインでの有効性は未探索である。"