Core Concepts
LMを3D分子構造の理解に適応させるための新しいフレームワーク、3D-MoLMを提案する。
Abstract
Published Information:
- ICLR 2024で会議論文として発表された。
- 著者:Sihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian
- 所属:中国科学技術大学、シンガポール国立大学、USTC脳インスパイア知覚認知MoE重点ラボ、合肥総合国立科学センターデータスペース研究所、Huawei Cloud
概要:
この記事は、言語モデル(LMs)が多様な領域に大きな影響を与えているが、3D分子構造の理解能力の限界が生物分子領域での潜在能力を制約していることに焦点を当てています。このギャップを埋めるために、3D分子テキスト解釈に焦点を当て、3D-MoLM(3D-Molecular Language Modeling)を提案しています。具体的には、LMに3D分子エンコーダーを装備することで、LMが3D分子を解釈し分析できるようにします。また、クロスモーダルな分子理解と指示の遵守能力を向上させるために、注意深くキュレーションされた3D分子中心の指示チューニングデータセット「3D-MoIT」も提案されています。
主なセグメント:
- 抽象:LMsの影響力とその限界。
- 導入:前進した言語モデル(LMs)が引き起こす革新。
- ギャップ:既存の研究では触れられなかった3次元(3D)分子構造への焦点。
- 提案:新しいフレームワーク「3D-MoLM」および「3D-MoIT」データセット。
- 実験結果:Molecule-Text RetrievalやMolecule Captioningなど多くのタスクで優れたパフォーマンス。
Stats
316K個の分子テキストペアから収集されたPubChemデータセットから始まりました。
データセット内で使用されるSMILESから生成された316K個の3次元化合物情報。
Quotes
"Language Models (LMs) have greatly influenced diverse domains."
"To bridge this gap, we focus on 3D molecule-text interpretation."