大規模言語モデルの開発において、FAIR (Findable、Accessible、Interoperable、Reusable) 原則に準拠したデータセットの構築が重要である。このデータセットは、言語モデルの偏りを特定し、軽減するために設計されている。
大規模言語モデル開発においては、データの質が最優先課題となっているが、データの質の定義や評価方法について、実践者の間で合意が得られていない。その結果、実践者は独自の直感や独自に開発したコードに頼らざるを得ない状況にある。