本研究では、GPT-4を用いて認知症ケアに関する質問への回答を生成し、その質を評価した。
まず、4つの異なる役割を設定したシステムプロンプト、初期化プロンプト、3つの異なる詳細レベルを指定したタスクプロンプトの組み合わせ計12パターンのプロンプトを設計した。
次に、認知症ケアに関する3つの実際の質問を選択し、それぞれのプロンプトを用いてGPT-4に回答を生成させた。
2人の経験豊富な認知症ケア専門家が、回答の質を5つの指標(事実性、解釈、適用性、統合性、包括性)に基づいて評価した。
その結果、36の回答のうち44%が最高評価の5点、44%が4点、残りの11%が3点と評価された。統計分析の結果、タスクプロンプトがGPT-4の回答の長さに有意な影響を及ぼすことが示された。一方で、システムプロンプトの役割の違いや、タスクプロンプトと回答の質との関係は見られなかった。
専門家のフィードバックからは、システムプロンプトの役割の違いが回答内容に影響しないこと、詳細な回答を求めるタスクプロンプトが必ずしも質の高い回答につながらない可能性が示唆された。
今後は、より大規模なサンプルを用いた検討や、ケアギバーの評価も含めた検討が必要である。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Zhuochun Li,... о arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08674.pdfГлибші Запити