Core Concepts
大規模言語モデルから生成された疑似データを活用して、低リソースの分子探索を向上させる方法を提案する。
Abstract
人工知能(AI)の進歩により、新しいクロスモーダル手法が複雑な分子構造を合成・解析し、計算化学や材料科学の分野を変革している。研究では、大規模言語モデル(LLMs)によって生成された人工的にリアルなデータを利用して、低リソースの課題に取り組んでいる。この手法は、高品質な疑似データセットPseudoMD-1MとDrugBank-23をリリースし、疑似データをドメイン適応およびデータ拡張に活用する方法を提案している。実験結果は、疑似データを使用した場合に従来の手法よりも優れた性能が得られることを示しており、将来的な応用可能性があることが明らかになっている。
Stats
PseudoMD-1MとDrugBank-23はそれぞれ約100万個と1万7000個の疑似分子記述ペアで構成されている。
Ada-T5は他の既存手法よりも少ないパラメータとトレーニングデータで優れたパフォーマンスを発揮する。
Aug-T5はT5やChatGPTよりも9%〜30%少ないパラメータ数で同等以上の性能を達成する。
Quotes
"我々はLLMsが低リソース分子探索に利用されている初めての例です。"
"人工的に生成されたLLMsによる高品質なデータは、タスクのためのデータ不足を和らげます。"
"実験結果は、人工的に生成されたデータをドメイン適応として使用することで従来手法よりも優れた性能が得られます。"