大規模言語モデル開発においては、データの質が最優先課題となっているが、データの質の定義や評価方法について、実践者の間で合意が得られていない。その結果、実践者は独自の直感や独自に開発したコードに頼らざるを得ない状況にある。