本研究では、大規模言語モデル(LLM)開発に携わる「データセット実践者」の役割と課題を明らかにすることを目的としている。
まず、技術企業Googleにおける LLM開発チームの責任を振り返る分析を行い、データセット実践者の定義を行った。データセット実践者は、LLMの開発に必要なさまざまな種類のデータセットを扱う役割を担う。
次に、データセット実践者10名に対するインタビュー調査を実施した。その結果、データの質が最優先課題となっているものの、データの質の定義や評価方法について実践者の間で合意が得られていないことが明らかになった。そのため、実践者は独自の直感に頼ったり、独自に開発したコードを使ってデータを分析したりするといった対応を取らざるを得ない状況にある。
一方で、HCIやデータ可視化の研究者らが提案してきた分析手法やツールの活用は進んでいない。この背景には、分野の新しさや実践者の個別ニーズの存在などが考えられる。今後、データの質に関する共通の枠組みや評価基準の確立、そして実践者のニーズに合ったツールの開発が求められる。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Crystal Qian... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2402.16611.pdfYêu cầu sâu hơn