Core Concepts
本研究では、医療分野における多言語テキスト生成モデル「Medical mT5」を開発した。多言語コーパスを使用して事前学習を行い、多言語の医療タスクでの性能を向上させた。
Abstract
本研究では、医療分野における多言語テキスト生成モデル「Medical mT5」を開発した。以下が主な内容である:
英語、スペイン語、フランス語、イタリア語の4言語からなる大規模な医療分野コーパスを収集した。これは現時点で最大規模の多言語医療コーパスである。
収集したコーパスを使用して、多言語テキスト生成モデルのmT5を医療分野に適応させた「Medical mT5」を開発した。
医療分野の多言語シーケンスラベリングタスクと質問応答タスクの新しい評価ベンチマークを作成した。
実験の結果、Medical mT5は多言語シーケンスラベリングタスクにおいて、同サイズのテキスト生成モデルを上回る性能を示した。特に、マルチタスク学習と zero-shot 交差言語設定で優れた結果を得た。
質問応答タスクでは、自動評価指標だけでは医療分野の生成タスクを適切に評価できないことが分かった。医師による手動評価を行ったが、モデル間の明確な差異を見出すことはできなかった。
以上のように、本研究ではMedical mT5を開発し、多言語医療NLPタスクでの性能を示した。また、医療分野の生成タスクの評価方法に課題があることも明らかにした。
Stats
医療分野の多言語コーパスは合計30億トークンで、英語が10億トークン、スペイン語が10億トークン、フランス語が6.7億トークン、イタリア語が1.45億トークンである。
Medical mT5の大きさは7.38億パラメータ(large版)と30億パラメータ(XL版)である。