Core Concepts
ML-LMsが異なる言語間で一貫した事実知識を維持する難しさを強調し、ML-LMsにおける事実表現学習の必要性を示す。
Abstract
この研究は、低リソース言語における事実知識の取得と表現方法を探求しています。mLAMAプロービングデータセットを使用し、ML-LMs(特にmultilingual BERT)のニューロン解析から始め、Wikipediaを知識源として事実の起源を追跡しました。ML-LMsが特定の事実をどのように取得し表現するかについて3つのパターン(言語非依存、クロスリンガル共有・転送)を特定しました。トレーニングデータ量やマスクトークン数がプロービング結果に影響することも明らかになりました。さらに、異なる言語間で共有された事実や固有の知識クラスターが存在することも示されました。
Stats
Wikipediaから抽出された訓練データサイズとプロービングP@1間の相関:0.43
記事データサイズ(bzipped):0.45
抽象データサイズ(bzipped):0.48
Quotes
ML-LMは「低リソース言語で一貫した事実知識を維持する難しさ」を強調します。
「我々は異なる言語間で共有された事実や固有の知識クラスターが存在することも示されました。」