本研究では、網目化学の分野における質問回答データセットであるRetChemQAを紹介する。このデータセットは、約2,530の論文から自動生成された約90,000の質問回答ペアを含んでいる。質問は単一ホップと多ホップの2種類に分類されており、それぞれ約45,000ペアずつある。単一ホップの質問は1つの文から答えを得られるのに対し、多ホップの質問は論文全体から情報を集める必要がある。また、合成条件に関するデータセットも提供している。
データセットの評価では、LLMの性能を正確性、精度、ホーリュシネーション率、ホーリュシネーション捕捉率の4つの指標で測定した。単一ホップデータセットでは正確性が94.8%、精度が94.3%と高い一方、多ホップデータセットではホーリュシネーション率が5.5%と高めだが、ホーリュシネーション捕捉率が84.1%と高い結果が得られた。合成条件データセットでは、条件を正しく抽出できた割合が約70%であった。
本データセットは、網目化学分野におけるLLMの開発と評価のための標準的なベンチマークとなることが期待される。また、実験設計の改善や合成条件の最適化など、実験科学者の生産性向上にも貢献できると考えられる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Nakul Rampal... klokken arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.02128.pdfDypere Spørsmål