Core Concepts
BERTとT5モデルを用いたブラジル企業の収益通話テキストにおける固有表現認識の効果的な手法を提案し、モデルの性能を評価した。
Abstract
ブラジル銀行からの384件の会議通話テキストを収集し、金融分野向けにアノテーションされたポルトガル語データセットを開発。
NERタスクをテキスト生成問題として再構築し、T5モデルでファインチューニングおよび評価を実施。
BERTベースのモデルはF1スコアでわずかに優れているが、mBERTも高い性能を示す。
PTT5とmT5は高いマクロF1スコアを達成し、金融分野でのNERタスクに適していることが示唆されている。
BERTimbauはメモリ消費量が少なく、時間も短く済む一方、mT5はやや多くのリソースを必要とする。
Stats
モデルによって達成されたマクロF1スコアは98.78%から99.73%まで変動する。
BERTimbau: メモリ11.2GB, 時間14分, Precision 0.9970, Recall 0.9985, F1 0.9978.
mBERT: メモリ12.4GB, 時間17分, Precision 0.9962, Recall 0.9984, F1 0.9973.
Quotes
"NERタスクをテキスト生成問題に再構築しました。"
"BERTimbauはわずかに優れていますが、mBERTも高い性能を示します。"
"PTT5とmT5は高いマクロF1スコアを達成しました。"