本研究では、ロシア語ハッカー集団「NoName057(16)」のテレグラムチャンネルから収集したメッセージを分析し、大規模言語モデルを使用して英語に翻訳する手法を提案している。
まず、100件のメッセージを人手で英語に翻訳し、基準となる正解翻訳を作成した。次に、8つの異なる大規模言語モデルを使用して自動翻訳を行い、人手による評価を経て最良のモデルを選定した。
選定したモデルをさらに fine-tuning し、ロシア語ハッカー集団特有の言語表現を学習させた。この fine-tuned モデルと、fine-tuning 前のベースモデルの翻訳結果を、新たな人手評価者グループによって比較評価した。
その結果、fine-tuned モデルの翻訳が64.08%の場合で選好された。また、自動評価指標でも fine-tuned モデルが優れた性能を示した。
このように、少量の正解翻訳データを使ってモデルを fine-tuning することで、ロシア語ハッカー集団メッセージの高精度な英語翻訳が可能となった。これにより、サイバーセキュリティ分野における迅速かつ正確な情報収集が期待できる。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen