핵심 개념
Identifying the text segment that triggers a user query is crucial for content creators to improve content and user experiences.
초록
多くのオンラインコンテンツポータルでは、ユーザーが質問をすることができます。情報検索システムはこれらのユーザークエリに回答を提供しますが、直接コンテンツ作成者を支援することはありません。バックトレーシングというタスクを紹介し、異なるドメインでの重要性を強調します。バックトレーシングは、学生の混乱や読者の好奇心、ユーザーの感情など、さまざまなドメインで重要です。人気のある情報検索方法や言語モデリング方法によるゼロショットパフォーマンス評価も行われました。結果から、バックトレーシングには改善の余地があり、新しい検索アプローチが必要であることが示されました。
통계
バイエンコーダーシステム(Reimers and Gurevych, 2019a)はLECTUREドメインでTop-3精度44%に達している。
クロスエンコーダー(Nogueira and Cho, 2019)はNEWS ARTICLEドメインでTop-1精度66%を達成している。
gpt-3.5-turbo-16kはCONVERSATIONドメインでTop-1精度47%を記録している。
인용구
"Identifying the cause of a query can be challenging because of the lack of explicit labeling, implicit nature of additional information need, large size of corpus, and required domain expertise to understand both the query and corpus."
"Semantic relevance doesn’t always equate causal relevance."
"Our results indicate that there is room for improvement across existing retrieval methods."