本研究では、消化器がんに関する患者教育資料の簡易化コーパス「SimpleDC」を開発した。このコーパスは、アメリカがん協会(ACS)、疾病予防管理センター(CDC)、国立がん研究所(NCI)の教育資料から構築されている。
簡易化手法としては、教師あり微調整(SFT)、強化学習(RL)、人工知能からのフィードバックを用いた強化学習(RLHF)、プロンプトベースの手法を検討した。
SFTでは、Llama 2モデルが高い性能を示した。RLでは、読解レベル、関連性、オリジナルテキストとの類似性を組み合わせた新しい報酬関数を提案し、既存の手法を上回る性能を実現した。特にRLHFの報酬関数が優れており、SFTと組み合わせることで最高の性能を達成した。
一方、GPT-4は過剰な文生成により性能が低下した。エラー分析の結果、人間アノテーターやLlama 2モデルは元のテキストの複雑さに応じて適切な簡易化を行うが、GPT-4は一様な簡易化戦略を取るため、タスクに適応できないことが明らかになった。
本研究の成果は、医療情報の簡易化に向けた新しいAIモデルの開発に貢献する。また、SimpleDCコーパスは今後の研究に役立つ重要なリソースとなる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究