Temel Kavramlar
本研究では、PDFの描画命令を直接入力として使用することで、分子図の高速かつ正確な解析手法を提案する。さらに、この手法を用いて、視覚的解析器の訓練に必要な注釈付きデータを生成する。
Özet
本研究では、PDFの描画命令を直接入力として使用することで、分子図の高速かつ正確な解析手法を提案している。
まず、SymbolScraperを使ってPDFから文字と図形を抽出する。次に、最小全域木(MST)を構築し、グラフ変換を行うことで、視覚的グラフと化学構造グラフを生成する。
視覚的グラフには、文字、線、多角形などの基本要素の位置と形状が含まれる。化学構造グラフには、原子、結合、括弧などの化学構造情報が含まれる。
この手法は、画像処理やOCRを必要とせず、PDFの描画命令を直接利用するため、高速かつ正確に動作する。
さらに、この手法を用いて、視覚的解析器の訓練に必要な注釈付きデータを生成する。具体的には、SMILES文字列をIndigo Toolkitで描画し、構造を解析して正しい分子を選択し、視覚的グラフと化学構造グラフの注釈を付与する。
このように、本研究は、PDFベースの分子図解析と注釈付きデータ生成の新しい手法を提案し、視覚的解析器の開発を支援するものである。
İstatistikler
PDFの描画命令から直接文字と図形を抽出できるため、画像処理やOCRを必要としない。
最小全域木(MST)とグラフ変換を用いて、視覚的グラフと化学構造グラフを高速かつ正確に生成できる。
生成した注釈付きデータには、文字、線、多角形などの基本要素の位置と形状、および原子、結合、括弧などの化学構造情報が含まれる。