本研究では、化学反応予測(CRP)の課題に取り組むため、データキュレーションを通じた自己フィードバック型の知識抽出アプローチを提案している。
まず、訓練データの入力と出力をLLMエンコーディングし、クラスタリングすることで反応タイプ(RT)を特定する。次に、最適なエンコーディング手法とクラスタ数を選択し、LLM-RTモデルを訓練して、検証・テストデータのRTを注釈する。
その後、適応的プロンプト学習を用いて、抽出したRTの知識をLLMに注入する。これにより、逆合成予測の精度が14.2%向上、試薬予測の精度が74.2%向上するなど、大幅な性能向上を実現した。さらに、マルチタスク学習においても14.9%の精度向上が見られ、知識注入の有効性が示された。
本研究は、科学分野におけるLLMの知識抽出と注入の新しいパラダイムを提示し、化学反応予測の精度向上に貢献している。今後は、動的プロンプトの活用や知識可視化などの課題に取り組む必要がある。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Pengfei Liu,... في arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09606.pdfاستفسارات أعمق