本研究は、2022年のACLおよびEMNLPカンファレンスで発表された新しいデータセットを分析し、自然言語処理分野の最新の動向を明らかにすることを目的としている。
主な分析結果は以下の通りである:
データセットが対象としている主要なNLPタスクは、テキスト生成、テキスト要約、テキストや単語の分類、情報抽出、自然言語理解、質問応答などである。
データセットのサイズは、10,000~50,000の範囲が最も多い。
データセットの作成には、大学と企業の研究者が協力して取り組んでいる例が多い。特に、Tsinghua University、University of Washington、Singapore University of Technology and Design、National University of Singapore、Nanyang Technological University、Hong Kong University of Science and Technologyなどの大学と、Microsoft Research、Adobe Research、Google Research、Huawei Noah's Ark Lab、Alibaba DAMO Academy、Tencent AI Labなどの企業が活躍している。
マルチモーダルデータセットの作成が増加しており、テキストと画像、音声などの複数のモダリティを含むデータセットが多数登場している。
英語以外の言語を含むマルチリンガルデータセットも多数登場しており、フランス語、バングラ語、韓国語、中国語などの言語が含まれている。
以上のように、2022年のACLおよびEMNLPカンファレンスでは、自然言語処理分野における最新の動向が反映されたデータセットが数多く発表されており、今後の研究の発展に大きな影響を与えると考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jesse Atuhur... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08666.pdfDeeper Inquiries