核心概念
Proposing a novel language-centric benchmarking system for evaluating and ranking NLPre tools, addressing existing evaluation shortcomings.
摘要
最近のtransformerベースのアーキテクチャの進歩により、自然言語前処理(NLPre)ツールが登場し、外部の言語ガイダンスなしで初期のNLPタスクを解決できるようになっています。既存のNLPre評価手法の欠点を認識し、信頼性と公正な評価およびパフォーマンスレポート方法を提案しています。GLUEベンチマークに触発され、提案された言語中心のベンチマークシステムは、複数のNLPreツールを包括的に評価し、パフォーマンスを追跡することが可能です。このプロトタイプアプリケーションはポーランド向けに構成されており、徹底的に組み立てられたNLPre-PLベンチマークと統合されています。
统计
NKJP1Mサブコーパス:1.2Mトークン、85.7K文
PDB-UD:350Kトークン、22K文
COMBO + H:F1 96.67%
Stanza + fT:F1 95.89%
UDPipe + fT:F1 94.43%
引用
"Despite yielding valuable information about the progress in NLPre, the mentioned evaluation approaches also reveal shortcomings."
"We propose a novel language-oriented benchmarking approach to evaluate and rank NLPre systems."
"The results confirm our assumptions that modern architectures obtain better results."