本研究では、オンラインコミュニティから収集した自己語りデータを活用し、文化知識ベース「CultureBank」を構築しました。CultureBankには、TikTokから12,000件、Redditから11,000件の文化記述が含まれています。従来の文化知識リソースとは異なり、CultureBankには文化記述に対する多様な意見が含まれ、文化知識の柔軟な解釈を可能にしています。また、具体的な文化シナリオも提供されており、文化に配慮した言語技術の評価に役立ちます。
CultureBankを用いて、大規模言語モデルの文化に対する認識を評価した結果、改善の余地があることが明らかになりました。さらに、CultureBankでファインチューニングを行うことで、文化関連のタスクにおいて性能が向上することを示しました。
最後に、文化に配慮した言語技術の実現に向けた提言を行っています。文化知識データの収集源の多様化、文化の多面的な側面の考慮、文化適応プロセスの分析、文化認識の適切な評価方法の検討などが重要であると指摘しています。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Weiy... kl. arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15238.pdfDybere Forespørgsler