本研究では、自己教師学習音声トランスフォーマーのフィードフォワード層のニューロンを分析することで、音声の特性(音素、性別、ピッチ)を表現する特性ニューロンを特定している。
まず、ニューロンの活性化パターンを分析することで、音声の特性に対応したニューロンのグループを見つけた。次に、特定のグループにのみ活性化するニューロンを「グループニューロン」として抽出し、それらをまとめて「特性ニューロン」とした。
特性ニューロンを保護しながらモデルを圧縮すると、通常の圧縮手法よりも性能低下が小さいことが分かった。また、特性ニューロンを操作することで、特定の特性(性別)を選択的に消去できることも示した。
このように、特性ニューロンを特定することで、モデルの圧縮や編集などの応用が可能になる。従来の層単位の分析では得られない、より詳細な知見が得られる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tzu-Quan Lin... at arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.05910.pdfDeeper Inquiries