Core Concepts
BIRCOは、多面的なユーザー目的に基づいて文書を検索する情報検索システムの能力を評価するベンチマークである。従来の情報検索タスクとは異なり、BIRCOのタスクは複雑で、LLMベースの情報検索システムにとって大きな課題となる。
Abstract
BIRCOは、5つのオープンソースデータセット(DORIS-MAE、ArguAna、WhatsThatBook、Clinical-Trial、RELIC)から構成されており、段落長のクエリと多面的なタスク目的を含んでいる。これは、複雑なユーザー検索ニーズに取り組むことを目的としたチャレンジングなテストベッドとなっている。
BIRCOは、LLMベースの情報検索システムの評価に特化して設計されている。LLMの大規模な事前学習により、LLMはドキュメントを確認せずにユーザークエリに答えることができるため、従来の情報検索タスクの妥当性が低下する。また、情報検索タスクには数千のドキュメントが含まれる可能性があり、LLMシステムの評価には膨大なコストがかかる。
BIRCOは、これらの課題に対処するために設計されている。検索目的の複雑さと積極的なフィルタリングにより、GPT4のようなLLMがドキュメントを確認せずにクエリに答えることは不可能になる。また、1クエリあたり50~100ドキュメントと少ないため、LLMの性能を低コストで評価できる。
BIRCOには、5つのデータセットが含まれている。DORIS-MAEは、コンピューター科学者による複雑な研究質問を扱う。ArguAnaは、反論を検索するタスクである。WhatsThatBookは、曖昧な書籍の説明から本を特定するタスクである。Clinical-Trialは、患者の記録と適切な臨床試験を照合するタスクである。RELICは、文学作品の分析から欠落した引用を復元するタスクである。
Stats
DORIS-MAEのクエリには平均5.6個の側面があり、最大9個の側面を持つ。
ArguAnaのクエリには平均5.8個の側面があり、最大11個の側面を持つ。
WhatsThatBookのクエリには平均11.3個の側面があり、最大25個の側面を持つ。
Clinical-Trialのクエリには平均7.4個の側面があり、最大30個の側面を持つ。
RELICのクエリには平均2.0個の側面があり、最大2個の側面を持つ。