核心概念
DNAの構造生物物理学を学ぶために、一般的な目的の大規模言語モデルが有用であることを示す。
摘要
DNAの構造生物物理学を学ぶために、chatGPT 3.5-turboを使用してLLMを微調整する方法が示されています。NUPACKソフトウェアスイートは、DNAおよびRNA構造の分析と設計に使用されています。専門家パイプラインやCoTアプローチなど、複数のモデルを組み合わせることで、タスクを分割し解決する方法が提案されています。実験結果では、モデルがMFEや二次構造予測などのタスクに成功していることが示されています。さらに、エラーチェックレイヤーの追加が設計課題で精度向上に役立つことも確認されました。
统计
NUPACKは10,000個のトレーニングセットサイズと1,000個のバリデーションセットで使用されます。
モデルは20°C、1Mナトリウム、アンサンブルスタッキング条件下で訓練されます。
学習曲線は200、500、1,500、3,700、および10,000例から生成されます。
引用
"一般的な傾向は、問題を細かく分解すればするほど性能が向上することです。"
"コンテキスト提供は最寄り隣接ウィンドウによって行われるため、「近隣相互作用」に関するモデルをいくらか指導している可能性があります。"
"逆補完操作を別のモデルにオフロードすることで二次構造予測の精度が向上します。"