本研究は、人間が書いた部分と機械が生成した部分が混在するテキストにおいて、その境界を正確に検出する手法を提案している。
まず、この課題をトークン分類問題として定式化し、各トークンが人間が書いたものか機械が生成したものかを判別する。長距離依存関係を捉えることができるLongformer、XLNet、BigBirdといった大規模言語モデルを活用し、それらの性能を比較した。その結果、XLNetが最も優れた成績を収めた。
さらに、大規模言語モデルの上に追加のレイヤー(LSTM、BiLSTM、CRF)を積むことで、境界検出精度を向上させることができることを示した。また、セグメンテーションを考慮したロス関数の導入や、関連するタスクでの事前学習も有効であることを明らかにした。
本研究は、人間-機械混合テキストの境界検出に関する新しいベンチマークを提示し、大規模言語モデルの活用方法について重要な知見を提供している。今後の研究の発展につながる成果だと言える。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies