本研究は、医療分野の議論マイニング(AM)における多言語対応の課題に取り組んでいる。
まず、医療分野のAMは、医師の意思決定を支援する上で重要な役割を果たすことが示されている。しかし、AMの研究は主に英語に焦点を当てており、他言語、特にスペイン語のデータは利用できない。
そこで本研究では、英語からスペイン語への効果的な議論構造の自動転移手法を検討する。具体的には以下の取り組みを行っている:
英語のAMデータセット(AbstRCT)をスペイン語に機械翻訳し、自動的に議論構造ラベルを付与する手法(data-transfer)と、英語モデルをスペイン語に適用する手法(model-transfer)を比較検討する。
data-transferの手法により、初めてスペイン語の医療AMデータセットを作成する。
英語とスペイン語のデータを組み合わせた多言語学習により、両言語の性能向上を図る。
結果として、data-transferの手法が最も優れており、手動修正を必要とせずに自動的に生成したスペイン語データでも高い性能が得られることが示された。これにより、医療分野の議論構造抽出を他言語にも拡張できる見通しが立った。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Anar Yeginbe... om arxiv.org 04-09-2024
https://arxiv.org/pdf/2301.10527.pdfDiepere vragen