本論文では、ユーザーの任意のクラス定義(つまりユーザーの指示)に基づいてテキスト分類データを生成することを目的としている。これにより、人手による注釈や生コーパスなしでも小さなテキスト分類器をトレーニングできる。従来の試みと比べて、提案するIncubatorは、複雑で相互依存的なクラス(例えば「教育者によるTEDトーク」と「その他」)も扱えるのが特徴。
具体的には、Incubatorは、HuggingFaceのクラシフィケーションデータセットと説明から得られた指示-データマッピングを使ってチューニングされたLLMである。さらに、セマンティックテキスト埋め込みのクラスタ中心を学習することで、生成の一様性とセマンティックの多様性を強調する。
様々な分類タスクでIncubatorを強力なベースラインと比較した実験では、(1)従来のベンチマークでも良好なパフォーマンスを発揮し、(2)ラベルの依存関係とユーザーの好みを考慮し、(3)複数の分類器をインキュベートすることで論理的なテキストマイニングを実現できることを示した。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies