この研究は、低リソース言語における事実知識の取得と表現方法を探求しています。mLAMAプロービングデータセットを使用し、ML-LMs(特にmultilingual BERT)のニューロン解析から始め、Wikipediaを知識源として事実の起源を追跡しました。ML-LMsが特定の事実をどのように取得し表現するかについて3つのパターン(言語非依存、クロスリンガル共有・転送)を特定しました。トレーニングデータ量やマスクトークン数がプロービング結果に影響することも明らかになりました。さらに、異なる言語間で共有された事実や固有の知識クラスターが存在することも示されました。
翻譯成其他語言
從原文內容
arxiv.org
深入探究