Conceptos Básicos
競技会結果を効果的に評価するための手法を提案し、競技者間の性能差を明らかにする。
Resumen
自然言語処理競技会におけるシステムのパフォーマンス分析は、競技会結果を効果的に評価するための手法を提案しています。この手法は、ブートストラップ法を使用して各競技者と勝者との性能差について信頼区間を構築します。さらに、統計的有意性を計算して、一部の競技者が他者よりも優れているかどうかを判断します。複数比較補正方法も適用され、異なるNLP競技会がその競争力や将来の改善可能性について比較されます。
Estadísticas
2021年MEX-A3T:参加者31人、F1スコアで最高得点0.223
2022年PAR-MEX:参加者8人、平均F1スコア0.061
Citas
"Collaborative competitions have gained popularity in the scientific and technological fields."
"Statistical tools are often used for this purpose; however, traditional statistical methods often fail to capture decisive differences between systems’ performance."
"Our analysis shows the potential usefulness of our methodology for effectively evaluating competition results."