Core Concepts
専門家による手作業のキュレーションでは、新しい発見や出版物のペースに追いつくことができない。本研究では、自然言語処理(NLP)手法を支援するための新しい学習用データセット「EnzChemRED」を開発した。
Abstract
本研究では、酵素機能に関する知識を文献から効率的に抽出するための新しいデータセット「EnzChemRED」を開発した。EnzChemRED は、UniProtKB と ChEBI の識別子を使って酵素と触媒する化学反応を注釈した1,210件の PubMed 抄録から構成される。
データセットの作成:
1,210件の PubMed 抄録を選定し、UniProtKB と Rhea の注釈に基づいて酵素と化学反応を注釈した。
化学物質と蛋白質の名称抽出(NER)、名称の正規化(NEN)、化学反応と触媒酵素の抽出(RE)の3つのタスクを定義した。
評価結果:
NER: AIONER-PubMedBERT モデルが最も良好な性能を示し、化学物質で F1スコア87.26%、蛋白質で84.93%を達成した。
RE: BioREx モデルが最も良好な性能を示し、化学反応ペアの二項分類で F1スコア86.66%、酵素を含む三項関係の分類で83.79%を達成した。
開発したパイプラインをPubMedに適用し、UniProtKB/Swiss-ProtとRheaのキュレーション支援のための文献マップを作成した。
Stats
「ほとんどのメタン生成古細菌は、補酵素Mと補酵素Bを電子供与体として、フマル酸を還元してコハク酸とCoM-S-S-CoBを生成する特殊な細胞質フマル酸還元酵素を含んでいる。」(PMID: 9578488)
「精製酵素はPAFからリゾプラスマロゲンへのアセチル基の転移反応を触媒し、PAFのプラスマロゲン類似体を生成するだけでなく、スフィンゴシンからN-アセチルスフィンゴシン(C2-セラミド)を生成した。」(PMID:10085103)
Quotes
「専門家によるキュレーションは、オープンな知識ベースに酵素機能に関する知識を取り込むために不可欠であるが、新しい発見や出版物のペースに追いつくことができない。」
「自然言語処理(NLP)手法は、酵素機能のキュレーションを加速する可能性を秘めている。特に、トランスフォーマーアーキテクチャに基づく大規模言語モデルは、最も有望な手法の1つである。」