Основні поняття
MolReFlectは、分子構造とそのテキスト記述間の詳細なアラインメントを文脈に応じて洗練させることで、分子とテキスト間の変換タスクの性能を向上させ、より解釈性の高いフレームワークを提供する。
Анотація
MolReFlect: 分子とテキスト間の文脈に応じた詳細なアラインメントを実現するフレームワーク
本稿は、分子とテキスト間の変換タスクにおいて、分子構造とそのテキスト記述間の詳細なアラインメントを文脈に応じて洗練させることを目的とした、教師-生徒フレームワークであるMolReFlectを提案する研究論文である。
分子は原子と化学結合から成り、創薬や材料科学など様々な分野において重要な役割を果たす。近年、大規模言語モデル(LLM)は分子の理解と生成に広く採用されているが、分子とその説明文の間のアラインメントは依然として課題として残されている。従来の手法では、分子全体を一般的なSMILES文字列や分子グラフとして扱っており、分子のサブ構造と説明的なテキスト句との間の詳細なアラインメントを無視していた。しかし、正確で説明可能な予測を行うためには、この詳細なアラインメントが不可欠である。
MolReFlectは、より高度な(より大きな)言語モデルを教師として、より単純な(より小さな)言語モデルを生徒として採用する、教師-生徒アーキテクチャを採用している。教師LLMは生徒LLMと連携して、分子とテキスト間の文脈に応じた詳細なアラインメントを微調整し、分子とテキスト間の変換タスクにおける全体的な有効性を高める。
MolReFlectは、ゼロショットアラインメント抽出、文脈に応じた選択的リフレクション、CoT-ICMTの3つの主要な段階で構成されている。
ゼロショットアラインメント抽出
従来の分子-テキスト変換タスクでは、分子を一般的なSMILES文字列mとして扱い、分子SMILES文字列mとテキスト説明文cとの間の直接的なマッピングm↔cをLLMに学習させようとしていた。アラインメントを洗練させるために、MolCAなどのいくつかのマルチモーダル手法が提案されており、分子グラフ情報gmを組み込んで、Mol2Capタスクのために直接的なマッピング(m, gm)→cを学習させている。しかし、これらの手法では依然として分子全体を一般的なSMILESシーケンスまたは分子グラフとして扱っており、詳細な分子サブ構造の重要性を無視している。
MolReFlectでは、分子から説明文へのマッピングを直接学習するのではなく、分子SMILES文字列と分子説明文の間の詳細なアラインメントKを抽出し、マッピングチェーンm→K→cとc→K→mを学習することを目指している。通常、詳細なアラインメントは専門の化学者によってラベル付けされるべきであるが、これは困難なだけでなく、経済的にも負担が大きい。そのため、LLMは高度な推論能力と一定レベルの化学知識を持つため、実行可能な代替手段として浮上してきた。MolReFlectでは、教師LLMが思考の連鎖(CoT)推論を行うことができるように、ゼロショットプロンプト戦略を開発した。これにより、教師LLMは分子SMILES表現または説明文から重要な断片を抽出し、対応する特性またはサブ構造パターンに含意を与えることができる。
文脈に応じた選択的リフレクション
LLMは強力な能力を持っているにもかかわらず、幻覚を含む回答を生成する可能性がある。また、化学に関する知識は、化学コーパスに関するドメイン事前学習がないために限られており、ゼロショットアラインメントにノイズが混入する可能性がある。これらの潜在的なノイズを軽減し、ゼロショットアラインメントの質を高めるために、より大規模な教師LLMが、文脈に応じた少数ショット学習を通じてゼロショット抽出結果を自己反映できるようにする戦略を提案する。この際、以前のゼロショットアラインメントは類似性に基づいて取得され、リフレクションのための文脈例として機能する。
思考の連鎖に基づく文脈内分子チューニング(CoT-ICMT)
技術的には、詳細なアラインメントをコンテキストとして利用し、より大規模な教師LLMにCoT方式で最終的な予測を直接生成させることも可能であるが、教師LLMは依然として化学コーパスに関する専門的な事前学習が不足しており、データセットの特定の出力分布に精通していない。そのため、最終的な生成のためにより大規模な教師LLMに直接クエリを送信すると、満足のいく結果が得られないことが多い。さらに、より大規模な教師LLMを直接微調整するコストは法外に高く、ほとんどの機関にとって手の届かないものとなっている。そこで、より小規模な生徒LLMを微調整し、より大規模な教師LLMが提供する詳細なアラインメントから学習させることにした。CoT-ICMTは、入力xとコンテキスト例Cxの両方の詳細なアラインメントをCoT形式に整理する。このCoT形式により、LLMは詳細なアラインメントとコンテキスト例の裏にある推論プロセスから学習することができ、より説明可能なトレーニングが可能になる。CoT-ICMTのプロセスでは、セクション3.2で述べたのと同じ検索戦略によって上位n個の類似例が取得され、CoT形式のコンテキストに整理されて、より小規模な生徒LLMのパラメータが微調整される。