本論文は、機械学習におけるデータ実践をデータキュレーションの視点から評価する枠組みを提案している。
まず、機械学習研究におけるデータ実践の現状を概観する。近年、モデル開発に偏重しがちな機械学習分野において、データセットの開発プロセスの重要性が指摘されている。データセットの偏りや不適切な利用が、機械学習モデルの偏見や不公平な結果につながることが明らかになってきたためである。
そこで本研究では、アーカイブ学やデジタルキュレーションの理論的枠組みを活用し、機械学習データセットの開発プロセスを評価する手法を提案する。具体的には、データキュレーションのライフサイクルモデルに基づいて、データセットの内容や開発プロセスに関する19の評価項目からなるルーブリックを開発した。
このルーブリックを用いて、NeurIPSで発表された25のデータセットを評価した。その結果、機械学習研究者がデータキュレーションの原則を適用することの困難さが明らかになった。具体的には、用語の解釈の違い、評価の柔軟性、必要な分析の深さ、責任範囲の設定などの課題が見出された。
これらの課題に対する対応策を提案し、機械学習とデータキュレーションの学際的な連携を促進するための方策を示した。本研究は、機械学習分野におけるデータ実践の改善に向けた重要な一歩となる。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Eshta Bhardw... : arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02703.pdfDaha Derin Sorular