本研究では、化学構造の光学的認識を行うための新しいフレームワークを提案している。このフレームワークは、合成データセットを使用して事前に訓練された物体検出モデルをベースとしており、分子グラフの構築と、限定的な監視下での新しい領域への適応を行う。
具体的には以下の3つの主要な構成要素から成る:
物体検出のバックボーン: 合成データセットを使用して事前に訓練された物体検出モデル。原子、結合、電荷、不斉中心などの原子レベルのエンティティを検出・分類する。
分子グラフ構築器: 物体検出モデルの出力を使用して、化学的に妥当な分子グラフを構築する。
弱教師あり学習: 新しい領域(手描きの分子イメージ)に適応するために、SMILES情報のみを使用して物体検出モデルを微調整する手法。ProbKT*と編集修正メカニズムを組み合わせている。
実験の結果、提案手法は手描きの分子イメージに対して最先端の性能を示し、データ効率も非常に高いことが分かった。また、原子レベルの位置特定においても優れた性能を発揮した。さらに、個別の原子や結合タイプごとの詳細な分析も行い、提案手法の特徴を明らかにした。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Martijn Olde... في arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01743.pdfاستفسارات أعمق