Основные понятия
大規模言語モデルを活用することで、少量の人手アノテーションデータを用いても高精度なドメイン特化型自然言語処理モデルを開発できる。
Аннотация
本研究では、健康関連ソーシャルメディアデータを用いたテキスト分類タスクにおいて、大規模言語モデル(LLM)の活用方法を包括的に検討した。具体的には以下の3つのアプローチを検討した:
LLMをゼロショット分類器として活用する
LLMを教師データアノテータとして活用する
LLMによるデータ拡張を活用する
実験の結果、LLMによるデータ拡張を活用し、少量の人手アノテーションデータを用いて軽量な教師あり分類モデルを訓練する手法が最も優れた性能を示した。一方、LLMのみによる教師データアノテーションは有効ではなかった。ただし、LLMのゼロショット分類は、偽陰性を排除し、人手アノテーションの労力を軽減する可能性が示唆された。
今後の課題として、最適な教師データサイズや拡張データ量の検討が重要である。また、ソーシャルメディアデータに特化したLLMの活用も検討の余地がある。
Статистика
自己報告うつ病分類タスクにおいて、人手アノテーションデータのみを用いた場合のF1スコアは0.82であるのに対し、GPT-4によるデータ拡張を活用した場合は0.85まで向上した。
自己報告COPD分類タスクにおいて、人手アノテーションデータのみを用いた場合のF1スコアは0.87であるのに対し、GPT-4によるデータ拡張を活用した場合は0.90まで向上した。
Цитаты
"LLMによるデータ拡張を活用し、少量の人手アノテーションデータを用いて軽量な教師あり分類モデルを訓練する手法が最も優れた性能を示した。"
"LLMのゼロショット分類は、偽陰性を排除し、人手アノテーションの労力を軽減する可能性が示唆された。"