核心概念
機械学習データセットの開発プロセスにデータキュレーションの概念と方法を取り入れることで、より公平性、説明責任、透明性の高いデータ実践を実現できる。
要約
本論文は、機械学習におけるデータ実践をデータキュレーションの視点から評価する枠組みを提案している。
まず、機械学習研究におけるデータ実践の現状を概観する。近年、モデル開発に偏重しがちな機械学習分野において、データセットの開発プロセスの重要性が指摘されている。データセットの偏りや不適切な利用が、機械学習モデルの偏見や不公平な結果につながることが明らかになってきたためである。
そこで本研究では、アーカイブ学やデジタルキュレーションの理論的枠組みを活用し、機械学習データセットの開発プロセスを評価する手法を提案する。具体的には、データキュレーションのライフサイクルモデルに基づいて、データセットの内容や開発プロセスに関する19の評価項目からなるルーブリックを開発した。
このルーブリックを用いて、NeurIPSで発表された25のデータセットを評価した。その結果、機械学習研究者がデータキュレーションの原則を適用することの困難さが明らかになった。具体的には、用語の解釈の違い、評価の柔軟性、必要な分析の深さ、責任範囲の設定などの課題が見出された。
これらの課題に対する対応策を提案し、機械学習とデータキュレーションの学際的な連携を促進するための方策を示した。本研究は、機械学習分野におけるデータ実践の改善に向けた重要な一歩となる。
統計
機械学習モデルの偏見や不公平な結果の多くは、トレーニングデータセットの偏りに起因する。
データセットの開発プロセスの透明性と説明責任が重要であるにもかかわらず、現状では十分に重視されていない。
アーカイブ学やデジタルキュレーションの理論的枠組みを活用することで、機械学習データセットの開発プロセスを改善できる可能性がある。
引用
"How can AI systems be trusted when the processes that generate their development data are so poorly understood?"
"The kinds of data collected, how it is collected, and how it is analyzed all reflect disciplinary and researcher values."
"...forgetting in data science can also be harmful or cause violence, not least because our choice of what we deem unimportant enough to forget to improve our memory, impacts on our understanding of histories, data, exploitation, harm, and so on."