核心概念
化学反応予測の精度を高めるために、データキュレーションを通じた自己フィードバック型の知識抽出アプローチを提案する。この手法では、分子表現の反復最適化から反応タイプの知識を抽出し、大規模言語モデルにプロンプト学習を通じて注入することで、大幅な精度向上を実現する。
摘要
本研究では、化学反応予測(CRP)の課題に取り組むため、データキュレーションを通じた自己フィードバック型の知識抽出アプローチを提案している。
まず、訓練データの入力と出力をLLMエンコーディングし、クラスタリングすることで反応タイプ(RT)を特定する。次に、最適なエンコーディング手法とクラスタ数を選択し、LLM-RTモデルを訓練して、検証・テストデータのRTを注釈する。
その後、適応的プロンプト学習を用いて、抽出したRTの知識をLLMに注入する。これにより、逆合成予測の精度が14.2%向上、試薬予測の精度が74.2%向上するなど、大幅な性能向上を実現した。さらに、マルチタスク学習においても14.9%の精度向上が見られ、知識注入の有効性が示された。
本研究は、科学分野におけるLLMの知識抽出と注入の新しいパラダイムを提示し、化学反応予測の精度向上に貢献している。今後は、動的プロンプトの活用や知識可視化などの課題に取り組む必要がある。
統計資料
逆合成予測タスクでは、Text+Chem T5ベースラインに比べて14.2%の精度向上が見られた。
試薬予測タスクでは、Text+Chem T5ベースラインに比べて74.2%の精度向上が見られた。
マルチタスク学習では、Text+Chem T5の平均精度に比べて14.9%の精度向上が見られた。
引述
"化学反応予測の精度を高めるために、データキュレーションを通じた自己フィードバック型の知識抽出アプローチを提案する。"
"この手法では、分子表現の反復最適化から反応タイプの知識を抽出し、大規模言語モデルにプロンプト学習を通じて注入することで、大幅な精度向上を実現する。"
"本研究は、科学分野におけるLLMの知識抽出と注入の新しいパラダイムを提示し、化学反応予測の精度向上に貢献している。"