本研究では、政治科学分野におけるデータ統合の際の課題であるファジー文字列マッチングの問題に取り組んでいる。従来の手法は文字列の編集距離やコサイン類似度などの文字レベルの特徴に依存しており、"DPRK"と"North Korea"、"JP Morgan"と"Chase Bank"のように同一エンティティを表す異なる表現を正しくマッチングできない。
そこで本研究では、大規模言語モデルのChatGPTを用いた意味ベースのマッチング手法を提案している。ChatGPTは言語理解能力が高く、同義表現を正しく認識できると期待される。実験の結果、提案手法は従来手法に比べて平均精度で最大39%の改善を示し、特に政治家名のマッチングでは100%の精度を達成した。
また、提案手法は直感的で使いやすく、人手によるアノテーションを必要としないという利点もある。ただし、大規模データに適用する際の計算コストが課題となるため、高速化の方策についても議論している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Syvällisempiä Kysymyksiä