다국어 대규모 언어 모델의 성능은 번역에 크게 의존하지만, 이는 언어별 지식을 포괄하지 못하고 번역 결함을 초래할 수 있다. 지침 데이터의 성격이 모델 출력에 미치는 영향과 번역된 테스트 세트가 이러한 미묘한 차이를 포착할 수 있는지 여부는 불확실하다.