Core Concepts
分子グラフに対するGNNは、パラメータ数、データ量、タスク数の増加に伴って大幅な性能向上を示す。
Abstract
本研究では、分子グラフに対するGNNモデルの拡張性を分析した。具体的には以下の点を明らかにした:
メッセージパッシングネットワーク、グラフTransformer、ハイブリッドアーキテクチャなどの異なるGNNアーキテクチャを検討し、パラメータ数、データ量、タスク数の増加に伴う性能向上を確認した。
最大1億パラメータのモデルでは、パラメータ数を30.25%増加させることで、分子プロパティ予測の精度が大幅に向上した。
データ量を8倍に増やすことで、28.98%の性能向上が得られた。
38のタスクでのファインチューニング性能も大幅に向上し、従来の大規模モデルを凌駕した。
モデルの幅とラベル数の増加が、ファインチューニング性能の向上に最も寄与することが分かった。
1億パラメータのアンサンブルモデルは、既存の最先端モデルを上回る性能を示した。
以上より、分子グラフに対するGNNは、パラメータ数、データ量、タスク数の増加に伴って大幅な性能向上を示すことが明らかになった。これにより、医薬品開発などの分野でGNNを活用する基盤が整備されると期待される。
Stats
最大1億パラメータのモデルでは、パラメータ数を30.25%増加させることで、分子プロパティ予測の精度が大幅に向上した。
データ量を8倍に増やすことで、28.98%の性能向上が得られた。