核心概念
OpenChemIEは、化学文献から反応データを包括的に抽出するシステムである。テキスト、表、図の各モダリティから情報を統合し、反応の詳細な構造と条件を抽出する。
要約
OpenChemIEは、化学文献からの反応データ抽出を目的としたシステムである。入力として、文献を図、テキスト、表に分割したものを受け取る。
まず、図の分析では以下の4つのモジュールを使用する:
分子検出(MolDetect): 図中の分子構造を検出し、その位置情報を出力する。
文字-図形照合(MolCoref): 図中の分子構造と、それに付与された識別子を対応付ける。
反応図解析(RxnScribe): 反応スキームを抽出し、反応物、生成物、条件を特定する。
分子認識(MolScribe): 分子構造画像を SMILES 表記に変換する。
次に、テキストの分析では以下の2つのモジュールを使用する:
化学エンティティ抽出(ChemNER): テキスト中の化学物質名を特定する。
反応抽出(ChemRxnExtractor): テキスト中の反応情報を抽出する。
最後に、抽出した情報を統合するために以下の2つの手順を行う:
反応条件の整合化: 図、表、テキストから得られた反応条件情報を統合する。
R-基の解決: 反応スキームに含まれるR-基の構造を特定し、反応物・生成物の完全な構造を復元する。
これらの一連の処理により、OpenChemIEは化学文献から詳細な反応データを抽出することができる。
統計
反応物と生成物の SMILES 文字列は、以下のように抽出される:
R1 = C#Cc1ccccc1C(=O)O, Cc1cccc(C)c1O
P1 = Cc1cc(C2(C)OC(=O)c3ccccc32)cc(C)c1O
R2 = C#Cc1ccccc1C(=O)O, COc1cc(O)cc(OC)c1
P2 = COc1cc(O)c(C2(C)OC(=O)c3ccccc32)c(OC)c1
R3 = C#Cc1ccccc1C(=O)O, Oc1c(Br)cccc1Br
P3 = CC1(c2cc(Br)c(O)c(Br)c2)OC(=O)c2ccccc21
R4 = C#Cc1ccccc1C(=O)O, Oc1cc(Br)cc(Br)c1
P4 = CC1(c2c(O)cc(Br)cc2Br)OC(=O)c2ccccc21
R = C#Cc1ccccc1(=O)O, ArH
P = ArC1(C)OC(=O)c2ccccc21