本研究では、大規模な抗体配列データを活用し、ペアの重鎖・軽鎖配列を効果的に処理できる抗体特化型の言語モデルを開発した。
まず、Observed Antibody Space (OAS)データセットの20億を超える未ペア配列を使って、BERT (IgBert-unpaired) とT5 (IgT5-unpaired)の2つの予備学習モデルを構築した。次に、OASの200万を超えるペア配列を使ってこれらのモデルを微調整し、ペアの特徴を学習できるIgBertとIgT5の最終モデルを得た。
これらのモデルの性能を評価した結果、以下のことが明らかになった:
配列復元タスクでは、IgBertとIgT5が既存の抗体・タンパク質言語モデルを大きく上回る性能を示した。特に、相補性決定領域(CDR)の復元精度が高かった。
結合親和性や発現量の予測タスクでも、ペアモデルのIgBertとIgT5が最も高い精度を達成した。ただし、一般的なタンパク質モデルの方が発現量予測では優れていた。
ペア配列に対する perplexity (予測困難さ)は、IgBertとIgT5が既存モデルに比べて大幅に低く、ペア配列の予測精度が高いことを示した。
以上の結果から、本研究で開発した大規模ペアアンチボディ言語モデルは、抗体工学における様々な応用に有効活用できることが示された。特に、配列設計やタンパク質プロパティ予測などの課題で優れた性能を発揮することが期待される。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Henr... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17889.pdfPerguntas Mais Profundas