医療AIの持続的な信頼性を確保するためには、一回限りの検証では不十分であり、展開先の医療機関や時間の経過に伴う変化に合わせて、繰り返し検証と微調整を行う必要がある。
GPT-4モデルは、ポーランドの医師国家試験の大部分に合格することができる。
ジェミニモデルの強力な一般的機能を基に、医療分野向けに特化したMed-Geminiモデルを開発し、医療テキスト推論、マルチモーダル理解、長文脈処理の各分野で卓越した性能を実現した。
医療意思決定プロセスを模倣した適応的な大規模言語モデルの協調フレームワークを提案し、複雑な医療課題に対する高精度な解決を実現する。
オンコロジー診療記録の重要な情報を効率的に検索・抽出するための、大規模言語モデルを活用したOnco-Retrieverモデルを開発した。
本論文は、大規模な未ラベル医療データを活用して診断性能を向上させる統一的なマルチモーダル診断フレームワークを提案する。特に、特徴レベルの再構築を導入した事前学習と、データ分布の違いや異なるモダリティの最適化バランスを調整する微調整手法を開発することで、診断タスクの性能を大幅に向上させている。
本研究では、COVID-19患者と非COVID-19患者を血液検査パラメータを用いて高精度に識別できる人工知能モデルを開発した。また、胸部X線画像の分析によっても高精度なCOVID-19診断が可能であることを示した。
大規模言語モデルを使用することで、放射線科医レベルの精度でX線レポートを評価できる。さらに、コストと応答時間の問題を解決するために、GPT-4と同等の性能を持つ小型モデルを開発した。
本研究では、Meerkat-7Bと呼ばれる新しい医療AIシステムを紹介している。このモデルは7億パラメータの小規模言語モデルであり、オープンソースとして公開される予定である。 主な特徴は以下の通り: 18の医学テキストブックから合成された高品質な推論パスデータを使用して学習を行った。これにより、複雑な医療問題に対する推論能力が大幅に向上した。 Meerkat-7Bは、GPT-3.5、MediTron-7B、BioMistral-7Bを13.1%、13.4%、9.8%それぞれ上回る精度を7つの医療ベンチマークで達成した。特に、MedQAベンチマークでは74.3%の精度を記録し、7Bモデルとしては初めてUSMLE合格ラインを超えた。 実世界の臨床クエリに対する長文回答の質も、7Bおよび13Bモデルと比較して向上しており、GPT-3.5に迫る性能を示した。 推論パスの品質が回答の正確性に大きな影響を与えることが示された。 本研究の成果は、小規模言語モデルでも医療分野の複雑な課題に対処できるようになることを示しており、オープンソースの医療AIシステムの発展に大きく貢献すると期待される。
GPT-4は医療分野の問題に対して高い正答率と自信を示したが、フィードバックの有無によって自己評価に変化が見られた。フィードバックは相対的な自信に影響を与えるが、一貫して自信を高めたり低めたりするわけではない。