MedPromptExtractは、医療記録の自動匿名化と高精度なデータ抽出を実現するツールである。半教師あり学習、大規模言語モデル、自然言語処理、プロンプトエンジニアリングを組み合わせて、非構造化の医療記録を分析可能な構造化データに変換する。
医療記録の質問応答システムの信頼性を高めるには、回答不能な質問を適切に識別することが重要である。しかし、現在の医療記録の質問応答データセットには、回答不能な質問に特有のパターンが存在し、単純なフィルタリングで識別できてしまう問題がある。本研究では、このデータバイアスを軽減するための新しい検証・テストデータの分割方法を提案し、その有効性を示す。
確率的しきい値フィルタリングと誤り処理を用いて、医療記録の自然言語質問から SQL クエリの生成精度を向上させる。
医療記録の冗長で雑多なテキストから、関連コードの記述と階層的な構造を活用することで、適切な ICD コードの割り当てを行う。
医療消費者が生成したコンテンツから、自動的に多言語の医療用語を抽出する手法を提案する。
開源の臨床用大規模言語モデルを使って、病理レポートからがんの病期情報を抽出できる。
医療教育資料の読解レベルが低すぎるため、特に少数民族集団にとって理解が困難である。本研究では、消化器がんに関する患者教育資料の簡易化コーパスを開発し、強化学習を用いた新しいテキスト簡易化手法を提案する。
バイオメディカルテキストマイニングにおけるコミュニティチャレンジは、技術革新と学際的協力を促進し、臨床応用に向けた未来の方向性を示しています。
LLMは医療質問に印象的なパフォーマンスを示しているが、実際の臨床ケースの複雑さを捉えることができない。新しい評価基準の必要性が強調されている。