이 논문은 대규모 언어 모델(LLM)을 사용하는 데이터 처리 파이프라인의 배포 과정에서 발생하는 데이터 품질 문제를 해결하기 위한 방법을 제안합니다.
프롬프트 버전 히스토리 분석: 개발자가 프롬프트를 반복적으로 수정하면서 암시적으로 데이터 품질 요구사항을 포함하는 것을 관찰했습니다. 이를 바탕으로 프롬프트 델타 분류 체계를 구축했습니다.
후보 단언 생성: 프롬프트 델타 분류 체계를 활용하여 LLM을 통해 자동으로 데이터 품질 단언 후보를 생성합니다.
후보 단언 필터링: 개발자가 제공한 소수의 레이블링된 예제를 활용하여 중복되거나 부정확한 단언을 제거하고, 오류 커버리지와 정확도 기준을 만족하는 최소한의 단언 집합을 선택합니다. 데이터가 부족한 경우 단언 포섭 개념을 도입하여 포괄적인 커버리지를 보장합니다.
이 방법론은 9개의 실제 LLM 파이프라인에 적용되어 효과적인 것으로 나타났습니다. 특히 데이터가 부족한 환경에서 단언 포섭 기반 솔루션이 더 나은 성능을 보였습니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shreya Shank... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2401.03038.pdfDeeper Inquiries