本研究探索了利用大型語言模型(LLM)生成貧血診斷路徑的方法。研究使用了三種不同的LLM - GPT-4、LLaMA和Mistral,並在一個合成但現實的數據集上進行了實驗。
研究首先探索了不同的提示技術,包括提供示例、規則和思維鏈,以增強LLM的決策過程。實驗結果顯示,GPT-4在所有測試中都表現最佳,而LLaMA和Mistral的表現則較差。
進一步分析發現,提供來自診斷指南的規則知識顯著提高了LLM的性能,尤其是GPT-4。思維鏈提示也大大改善了LLaMA的表現,但對Mistral沒有太大影響。
與之前使用深度強化學習(DRL)的研究相比,在某些情況下,LLM在提供規則知識的情況下也能生成與DRL相當甚至更好的診斷路徑。這表明LLM可以成為臨床決策過程的有價值補充。
未來的工作將包括在真實世界數據上評估該方法,並擴展到其他醫療診斷領域。此外,還將探索通過fine-tuning和提示調整等技術進一步提高LLM的性能。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania