Core Concepts
セルビア語の質問応答タスクのために、翻訳-整列-検索法を用いて合成データセットを作成し、それを使って事前学習済みモデルを微調整することで、高性能な質問応答システムを構築した。
Abstract
本研究では、セルビア語の質問応答(QA)タスクに取り組むため、翻訳-整列-検索法を応用して合成データセットを作成した。この方法を用いて、87,000件以上のサンプルからなる最大規模のセルビア語QAデータセット「SQuAD-sr」を作成した。セルビア語の文字の二重性を考慮し、キリル文字とラテン文字の両方のバージョンを生成した。
データセットの品質を検証し、それを使って事前学習済みのQAモデルを微調整した。ラテン文字版のSQuAD-srデータセットを使ってBERTicモデルを微調整した結果が最良で、セルビア語版XQuADデータセットに対して73.91%の完全一致率(Exact Match)と82.97%のF1スコアを達成した。これは、ゼロショット学習のベースラインを上回るものの、人間の性能には及ばないことを示している。
モノリンガルの事前学習モデルを使う方が多言語モデルよりも有効であること、ラテン文字のデータセットを使う方がキリル文字のものよりも良い結果が得られることを示した。さらに分析を行い、数値や日付に関する質問の方が他の質問タイプよりも正解率が高いことを明らかにした。最後に、手作業で作成・注釈されたデータセットがない状況下で、SQuAD-srは十分な品質を持ち、セルビア語QAモデルの微調整に使えると結論付けた。
Stats
質問の中で「いつ(When)」や「いくつ(How many)」を含むものは、他の質問タイプよりも正解率が高い。
「何(What)」や「どこ(Where)」を含む質問は、正解率が低い。
答えの長さが短いほど、正解率が高い傾向がある。
Quotes
"我々は、翻訳-整列-検索法を応用して合成データセットを作成し、それを使って事前学習済みのQAモデルを微調整することで、高性能なセルビア語QAシステムを構築した。"
"ラテン文字版のSQuAD-srデータセットを使ってBERTicモデルを微調整した結果が最良で、セルビア語版XQuADデータセットに対して73.91%の完全一致率(Exact Match)と82.97%のF1スコアを達成した。"
"モノリンガルの事前学習モデルを使う方が多言語モデルよりも有効であること、ラテン文字のデータセットを使う方がキリル文字のものよりも良い結果が得られることを示した。"