Konsep Inti
大規模言語モデルを活用することで、データサイエンティストと専門家の協働を促進し、機械学習モデルの文脈的妥当性を高めることができる。
Abstrak
本論文では、データサイエンティストと専門家の協働を支援するシステム「CellSync」を提案している。CellSyncは、Jupyter Notebookの拡張機能とウェブベースのビジュアライゼーションダッシュボードから構成される。
Jupyter Notebookの拡張機能は、データ操作の履歴を追跡し、大規模言語モデルを使ってコードの要約を生成する。ダッシュボードでは、この情報を基に、データの変更を視覚的に表示するSnapGridと、専門家向けのコメント機能を提供する。
専門家は、CellSyncのツールを使ってデータサイエンティストの作業を理解し、データ操作の意図や影響について議論することができる。予備的な評価では、専門家がCellSyncの機能を活用して、データ操作の意味を把握し、データサイエンティストとの建設的なコミュニケーションを行えることが示された。
Statistik
学生の背景情報と試験スコアのデータセットを読み込んだ。
欠損値のある"EthnicGroup"列の欠損値を最頻値で補完した。
1-hotエンコーディングを使って"Gender"列を変換し、新しい列を追加した。
"SportsPracticeFrequency"列は"WritingScore"と相関がないため削除した。
訓練データ(X_train)と検証データ(X_test)に分割した。
線形回帰モデルを訓練し、平均二乗誤差と平均絶対誤差を計算した。
Kutipan
"SnapGridsを見ると、データサイエンティストにとって特定の操作を行う必要がある理由がよくわかります。"
"列ヒストグラムを使えば、データサイエンティストに注目すべき点を提案できます。"