本研究では、医療タブル型データ予測モデルの拡張性向上に取り組んでいる。医療データは、データソースによって大きな異質性があり、個々のデータセットのサンプル数が限られるという課題がある。従来の手法は主にアルゴリズム設計に焦点を当ててきたが、データエンジニアリングの重要性は見過ごされがちであった。
本研究では、MediTabと呼ばれる新しいフレームワークを提案する。MediTabは以下の3つの主要コンポーネントから成る:
データ統合と拡充: 大規模言語モデルを活用してタブル型データをテキストに変換し、異なるスキーマのデータを統一的に扱える形式に変換する。また、他のタスクのデータも活用してデータ量を拡充する。
データ精緻化: 統合・拡充したデータの品質を確保するため、擬似ラベルの生成とデータシャプレー値に基づくデータ選別を行う。
学習と展開: 拡充したデータを用いて単一のモデルを学習し、任意の新しいタブル型データに対して fine-tuning なしで予測を行うことができる。
実験の結果、MediTabは患者予後予測タスクと治験アウトカム予測タスクで従来手法を大きく上回る性能を示した。特に、ゼロショット学習と少量学習の場面で顕著な性能向上が確認された。これは、データエンジニアリングの重要性を示唆するものである。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問