核心概念
フィードフォワード層がニューラルメモリを模倣し、重要な翻訳知識を含んでいるという洞察に基づき、フィードフォワードメモリの効果的な割り当てと保護によって、新しい知識の獲得と忘却の防止を実現する。
要約
本論文は、ニューラル機械翻訳(NMT)システムにおける継続学習(CL)のための新しい手法「F-MALLOC」を提案する。
まず、構造的な剪定手法を用いて、一般ドメインの知識を保持しつつ、フィードフォワード層のメモリを「書き換え可能」に変換する。次に、タスクマスクを学習することで、これらの「書き換え可能」メモリを新しいタスクに動的に割り当てる。さらに、過去のタスクに割り当てられた「読み取り専用」メモリへの勾配の流れを遮断することで、忘却を効果的に防止する。
提案手法の評価では、複数ステージのCLシナリオを網羅する新しいプロトコルを導入し、F-MALLOCが既存手法を大きく上回る性能を示すことを実証した。特に、タスクの難易度や類似性を活用した適応的なメモリ割り当て戦略により、高い安定性と可塑性を両立している。
統計
一般ドメインモデルの平均BLEU: 38.00
IT ドメインの平均BLEU: 44.33
忘却率: 0.71%
引用
"フィードフォワード層がニューラルメモリを模倣し、重要な翻訳知識を含んでいる"
"メモリの効果的な割り当てと保護によって、新しい知識の獲得と忘却の防止を実現する"