Core Concepts
文書の短縮化における要約と切り捨ての効果を検証する。
Abstract
Transformerベースモデルの並列性は入力最大長の制限がある。
文書切り捨てと要約のパフォーマンスを比較。
要約は多くの切り捨て方法よりも優れた結果を示す。
最良戦略は文書先頭部分を取得すること。
抽出的要約が最も効果的であることが示された。
Transformer-based Models and Text Shortening Strategies:
Transformerベースモデルは入力長制限を持つ。
文章切り捨てや要約など、制限克服方法が提案されている。
Investigating Performance of Document Truncation and Summarization:
テキスト分類タスクで文書切り捨てと要約のパフォーマンスを調査。
複数バリエーションでそれぞれ検討された。
Comparison of Text Shortening Strategies for Text Classification:
DistilBERTモデルを使用して、3つの要約戦略と7つの切り捨て戦略を比較。
IndoSumデータセットに基づいた実験結果。
Stats
この研究では、70トークン取得する最善戦略が明らかになった。
Quotes
"Extractive summarization outperforms the majority of truncation variations in text classification tasks."
"Taking the beginning of the document performs almost as well as when we take the document as a whole."