核心概念
異なるプロンプトを使用することで、GPT-4による認知症ケアに関する質問への回答の質に影響が見られる。
要約
本研究では、GPT-4を用いて認知症ケアに関する質問への回答を生成し、その質を評価した。
まず、4つの異なる役割を設定したシステムプロンプト、初期化プロンプト、3つの異なる詳細レベルを指定したタスクプロンプトの組み合わせ計12パターンのプロンプトを設計した。
次に、認知症ケアに関する3つの実際の質問を選択し、それぞれのプロンプトを用いてGPT-4に回答を生成させた。
2人の経験豊富な認知症ケア専門家が、回答の質を5つの指標(事実性、解釈、適用性、統合性、包括性)に基づいて評価した。
その結果、36の回答のうち44%が最高評価の5点、44%が4点、残りの11%が3点と評価された。統計分析の結果、タスクプロンプトがGPT-4の回答の長さに有意な影響を及ぼすことが示された。一方で、システムプロンプトの役割の違いや、タスクプロンプトと回答の質との関係は見られなかった。
専門家のフィードバックからは、システムプロンプトの役割の違いが回答内容に影響しないこと、詳細な回答を求めるタスクプロンプトが必ずしも質の高い回答につながらない可能性が示唆された。
今後は、より大規模なサンプルを用いた検討や、ケアギバーの評価も含めた検討が必要である。
統計
回答の単語数の範囲と平均値は以下の通りです:
タスクプロンプト1: 210-377単語、平均296.6単語
タスクプロンプト2: 263-393単語、平均340.2単語
タスクプロンプト3: 449-620単語、平均545.7単語