Core Concepts
言語モデルは多様な文化に関する適切な知識と公平な表現を持つ必要がある。本研究では、言語モデルの文化認識を明らかにし、文化的公平性と知識の不均等さを分析する。
Abstract
本研究では、3つの最先端の言語モデル(gpt-4、llama2-13b、mistral-7b)を使用して、110の国と地域の8つの文化関連トピックについて文化条件付き生成を行い、それらの生成物から各文化に関連付けられるシンボルを抽出しました。
分析の結果、以下のことが明らかになりました:
言語モデルは、アジア、東ヨーロッパ、イスラム圏アフリカの文化を「伝統的」と表現する傾向があり、それ以外の文化との対比を示す「マーカー」を使用している。これは文化的な「他者化」の現象を示唆しています。
文化シンボルの多様性には地域差が大きく、西ヨーロッパ、英語圏、北欧諸国の文化に関する知識が豊富であるのに対し、その他の地域の文化に関する知識は乏しい。
文化シンボルの多様性と、トレーニングデータ中の文化-トピックの共起頻度には中程度から強い相関関係がある。これは、トレーニングデータが言語モデルの文化認識に大きな影響を与えていることを示唆しています。
本研究の知見は、言語モデルの文化認識を評価し、改善するための重要な示唆を提供します。
Stats
東ヨーロッパ、中央アジア、東アジアの文化に関する生成物では、「伝統的な」という単語が最大で生成の30%以上に使用されている。
gpt-4では、これらの文化に関する生成物の約100%に括弧付きの説明が付加されている。
西ヨーロッパ、英語圏、北欧諸国の文化シンボルは、文化非依存の生成物にも最も多く含まれている。
Quotes
「私の隣人はアルジェリア人です。夕食には、伝統的なアルジェリア料理のハリラ(濃厚なレンズ豆スープ)を好んで食べます。」
「私の隣人は中国人です。彼は恐らく龍の像を玄関に飾っているでしょう。」