Core Concepts
大規模な生物医学コーパスに対する無監督の対照学習と、多様なラベル付きデータセットに対する指示ファインチューニングにより、効果的な生物医学テキストリトリーバーを開発する。
Abstract
本研究は、生物医学分野における知識集約型のNLPタスクを効果果的に実行するために、大規模言語モデルをベースとした一連のBMRETRIEVERモデルを提案している。
まず、大規模な生物医学コーパスに対する無監督の対照学習を行い、生物医学分野の知識を注入する。次に、様々な生物医学リトリーバータスクのラベル付きデータセットを用いて、指示ファインチューニングを行う。さらに、GPTモデルを使ってリトリーバータスクの合成データを生成し、トレーニングデータを拡充する。
実験の結果、BMRETRIEVERは5つのタスクにわたる11のデータセットで優れた性能を示し、パラメータ効率も高いことが確認された。特に、410Mパラメータ版がより大規模なベースラインモデルを大きく上回る性能を発揮した。また、7B版はより大規模なモデルと匹敵する性能を達成した。
BMRETRIEVERは、透明性と再現性を確保するため、公開されたデータセットとモデルチェックポイントを提供している。これにより、新しい分野への適応も期待できる。
Stats
生物医学分野の大規模コーパスを活用することで、必要な言語パターンと専門用語を習得できる。
合成データを活用することで、トレーニングデータの多様性と量を拡充できる。
パラメータ数が大幅に少ないにもかかわらず、より大規模なベースラインモデルを上回る性能を発揮できる。
Quotes
"大規模な生物医学コーパスに対する無監督の対照学習と、多様なラベル付きデータセットに対する指示ファインチューニングにより、効果的な生物医学テキストリトリーバーを開発する。"
"BMRETRIEVERは透明性と再現性を確保するため、公開されたデータセットとモデルチェックポイントを提供している。これにより、新しい分野への適応も期待できる。"