核心概念
医療消費者が生成したコンテンツから、自動的に多言語の医療用語を抽出する手法を提案する。
要約
本研究は、医療消費者が生成したコンテンツ(HCGC)から多言語の医療用語を自動的に抽出する手法を提案している。
まず、英語とその他の言語(本研究では中国語)のHCGCコーパスを収集する。次に、各言語のコーパスから単語埋め込みを学習し、単語の意味的な関係を表す単語ベクトル空間を構築する。その後、少数の医療用語の翻訳ペアを用いて、この2つの単語ベクトル空間を整列させ、言語を超えた単語の意味的な類似性を捉える。
最後に、既存の英語の医療用語集(OAC CHV)を種語として、この整列された単語ベクトル空間を用いて、各言語の類義語を自動的に抽出する。実験の結果、提案手法は大規模言語モデルよりも優れた性能を示し、少ない人手コストで多言語の医療用語を構築できることが分かった。
統計
英語コーパスには520,659件の文書が含まれ、平均文書長は754.11文字である。
中国語コーパスには259,709件の文書が含まれ、平均文書長は177.70文字である。
翻訳ペアとして719組の医療用語を使用した。
引用
"OHCsは医療知識を交換する新しいチャンネルを生み出している。HCGCを分析することで、医師-患者の相互作用や健康情報検索行動などの研究課題に取り組むことができる。"
"HCGCを分析するには、消費者が使用する俗語表現と専門用語の違いに対処することが課題となる。"