この研究は、低リソース言語における事実知識の取得と表現方法を探求しています。mLAMAプロービングデータセットを使用し、ML-LMs(特にmultilingual BERT)のニューロン解析から始め、Wikipediaを知識源として事実の起源を追跡しました。ML-LMsが特定の事実をどのように取得し表現するかについて3つのパターン(言語非依存、クロスリンガル共有・転送)を特定しました。トレーニングデータ量やマスクトークン数がプロービング結果に影響することも明らかになりました。さらに、異なる言語間で共有された事実や固有の知識クラスターが存在することも示されました。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Xin Zhao,Nao... في arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05189.pdfاستفسارات أعمق