대규모 언어 모델 개발을 위한 데이터셋 실무자들은 데이터 품질을 최우선으로 고려하지만, 데이터 품질에 대한 합의된 정의와 평가 방법이 부족하여 실무자 개인의 직관이나 맞춤형 분석 코드에 의존하고 있다.
대규모 언어 모델 개발을 위한 데이터센터 환경에서 발생하는 다양한 문제점과 해결 방안을 제시한다.