Yu, S., Xu, X., Xu, F., & Li, L. (2024). AIフィードバックからの強化学習による、大規模言語モデルの伝統的な中国医学能力の向上. arXiv preprint arXiv:2411.00897.
本研究は、大規模言語モデル(LLM)の伝統中国医学(TCM)分野における能力を、限られたデータ量で向上させることを目的とする。具体的には、初診と再診という2種類の処方タスクに焦点を当て、少量のデータを用いてLLMのTCMタスクのパフォーマンスを向上させるフレームワークを提案する。
提案されたフレームワークは、データ構築、教師ありファインチューニング、AIフィードバックからの強化学習の3つの段階から構成される。まず、実際の医療ケースのコーパスを収集し、オープンソースの大規模言語モデルに対して教師ありファインチューニングを行う。次に、各入力に対して、モデルに複数の出力を生成させて選好データセットを構築する。手動によるアノテーションの非効率性と高コストを考慮し、AIフィードバックに基づく強化学習(RLAIF)を導入し、人間のフィードバックではなくAI生成のフィードバックを用いて言語モデルを学習させる。最後に、選好データを用いてモデルの学習を指示し、ユーザーの期待により合致した出力を生成できるようにする。
実験の結果、提案されたフレームワークは、ROUGE、BLEU、BERT-Scoreなどの様々な評価指標において、GPT-3.5-turboなどの広く使用されているLLMを含む既存のモデルよりも優れていることが示された。さらに、ケーススタディでは、実際のTCM診療シナリオにおけるフレームワークの実用的な適用可能性を示し、初期診療とフォローアップ診療の両方を効果的に処理できるモデルの能力を実証した。自動アノテーションは効率的であることが証明され、手動アノテーションの必要性を減らしながら、モデル出力の高い精度を維持した。
本研究では、教師ありファインチューニングと選好順序最適化を組み合わせることで、伝統中国医学タスクにおける大規模言語モデルのパフォーマンスを向上させるフレームワークを提案した。提案されたアプローチは、高品質なデータの不足や正確な医療アプリケーションに必要な専門知識など、TCMが直面する独自の課題に対処するものである。TCMの質の高いコーパスを、たとえそれが小規模であっても利用し、自動アノテーションプロセスを組み込むことで、正確で関連性の高い医療処方を生成するモデルの能力を大幅に向上させることができた。
本研究は、伝統中国医学のような専門分野において、大規模言語モデルを強化するためのスケーラブルで効率的なソリューションを提供するものである。これは、AIとTCMの実践を統合する上での将来の研究開発への道を開くものである。
本アプローチには限界もある。小規模なデータセットに依存していることは、フレームワークの効率性を示している一方で、より大規模で多様なコーパスの潜在的な利点も浮き彫りにしている。さらに、今回のタスクはTCMの処方タスクのみに限定されており、専門家によるアノテーションは手動アノテーションほどの質は高くない。今後の課題としては、データセットの規模の拡大、専門家によるラベリングの導入、新しいタスクの開発などが挙げられる。さらに、質の高いデータセットの入手は困難であり、伝統中国医学の特殊性から、データセットはほぼすべてが中国語のコーパスである。混合学習のために適切に英語のコーパスを追加することで、モデルの可能性を最大限に引き出すことができる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問