Core Concepts
複雑な化学構造を持つ薬物は、単純な文として扱うことが可能であり、基本的なNLP手法を用いて分類することができる。
Abstract
ICLR 2024で発表されたTiny Paperに掲載された内容。
薬物の化学構造は通常、SMILES文字列によって定義される。
薬物のSMILESを通常の文として扱い、テキスト分類に取り組むことで、単純な視点から複雑な問題を解決する可能性を示唆。
実験結果は競争力のあるスコアを示し、基本的なNLP手法でも複雑な問題に適用可能であることを証明。
モデルは12種類のクラスに対してトレーニングおよびテストされ、異なるnグラムモデルが比較されている。
INTRODUCTION
薬物タイプの分類は重要であり、深層生成モデルが有効性を示している。
SMILESは化学分子のテキストベース表現であり、標準化された言語を提供する。
METHOD
SMILES文字列はbag-of-n-gramsモデルを介してエンコードされ、MLPにフィードされてロジットが得られる。
EXPERIMENT
Meyerら(2019)から入手したデータセットを使用し、トレーニング70%、開発10%、テスト20%に分割。
DATA EXTRACTION
"3グラムモデルでは73.7%の精度と76.4%の適合率が達成されました。"
Stats
"3グラムモデルでは73.7%の精度と76.4%の適合率が達成されました。"