核心概念
大規模言語モデル(LLM)は長いテキストを処理する際に、無関係な情報に気を取られてしまう「distraction」の問題がある。本研究では、Retrieval-based Data AugmentationとContrastive Learningという2つの手法を用いた新しい学習方法を提案する。この手法により、LLMは長いコンテキストの中から質問に関連する情報に焦点を当てることができるようになり、長いコンテキストを効果的に活用できるようになる。
要約
長いコンテキストを持つ言語モデルにおける、集中学習による関連性のない情報の排除
Zijun Wu, Bingyuan Liu, Ran Yan, Lei Chen, Thomas Delteil. (2024). Reducing Distraction in Long-Context Language Models by Focused Learning. arXiv:2411.05928v1
本研究は、大規模言語モデル(LLM)が長いコンテキストを処理する際に、無関係な情報に気を取られてしまう「distraction」の問題に対処することを目的とする。