本論文は、少数事例(few-shot)および無事例(zero-shot)のテキスト分類課題に取り組む新しい手法を提案している。従来の手法は、既知クラスから未知クラスへの知識転移を目指すが、クラス間の本質的な違いから、この転移が困難かつ非効率であるという問題がある。また、未知クラスの少数のラベル付きサンプルでは、ソース分布からターゲット分布への滑らかな移行を実現するのが難しい。
提案手法では、まず事前学習言語モデルを使って未知クラスの疑似サンプルを生成し、その中から代表的なサンプルをアンカーとして抽出する。次に、複雑な多クラス分類課題を単純な二値分類課題に変換することで、限られた教師信号を最大限に活用する。具体的には、クエリとアンカーのペアを構築し、それらの類似度に基づいて分類を行う。
6つの広く使われているデータセットでの実験結果から、提案手法が少数事例および無事例のテキスト分類課題において、他の強力なベースラインよりも大幅に優れた性能を発揮することが示された。特に、事前学習モデルを活用したアンカー生成と分類の再構築が、限られたリソースの下でも高い性能を実現する鍵となっている。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Han Liu,Siya... às arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03565.pdfPerguntas Mais Profundas