이 연구는 대규모 언어 모델(LLM) 개발을 위한 데이터셋 실무자의 역할과 과제를 파악하고자 했다. 먼저 기술 기업인 구글 내부의 LLM 개발 팀들을 대상으로 한 회고적 분석을 통해 데이터셋 실무자의 정의를 내렸다. 이들은 데이터 수집, 정제, 분석, 평가 등 다양한 업무를 수행하며, 데이터 품질이 가장 중요한 과제로 나타났다.
이후 10명의 데이터셋 실무자를 대상으로 한 인터뷰를 통해 그들의 워크플로, 도구 사용, 과제를 심층적으로 조사했다. 실무자들은 데이터 품질에 대한 합의된 정의와 평가 방법이 부족하여, 스프레드시트의 육안 검토나 맞춤형 분석 코드 작성에 의존하고 있었다. 이는 확증 편향의 위험을 내포하고 있다. 또한 실무자들 간 도구 사용에 대한 공통된 접근법이 부재하여, 팀 간 협업에 어려움을 겪고 있었다.
연구진은 이러한 현상에 대한 두 가지 가설을 제시했다. 첫째, 이 분야가 새로이 등장하여 아직 합의된 프레임워크와 도구가 부족한 것일 수 있다. 둘째, 실무자들의 개별적인 요구사항이 다양하여 범용적인 도구가 부재한 것일 수 있다. 향후 연구에서는 데이터 품질의 정의와 평가 기준 마련, 그리고 실무자 요구사항을 반영한 유연하고 통합적인 도구 개발이 필요할 것으로 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Crystal Qian... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2402.16611.pdfDeeper Inquiries