この研究は、低リソース言語における事実知識の取得と表現方法を探求しています。mLAMAプロービングデータセットを使用し、ML-LMs(特にmultilingual BERT)のニューロン解析から始め、Wikipediaを知識源として事実の起源を追跡しました。ML-LMsが特定の事実をどのように取得し表現するかについて3つのパターン(言語非依存、クロスリンガル共有・転送)を特定しました。トレーニングデータ量やマスクトークン数がプロービング結果に影響することも明らかになりました。さらに、異なる言語間で共有された事実や固有の知識クラスターが存在することも示されました。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor