Core Concepts
呼吸音分類のためのデータ拡張手法RepAugmentを提案し、従来手法であるSpecAugmentを上回る性能を示した。
Abstract
本研究では、呼吸音分類のためのデータ拡張手法RepAugmentを提案した。RepAugmentは、入力形式に依存せず、モデルの表現レベルで適用可能な手法である。
具体的には、RepAugmentは以下の2つの操作から成る:
Rep-Mask: モデルの特徴表現からランダムにマスクすることで、特定の特徴への依存を減らす。
Rep-Gen: 少数クラスの特徴表現にガウシアンノイズを加えることで、少数クラスの多様性を増やす。
実験の結果、RepAugmentは、画像・音声データで事前学習したモデルや、音声データで事前学習したモデルの性能を向上させることが示された。特に少数クラスの性能が最大7.14%改善した。一方、従来の音声データで事前学習したモデルは、呼吸音データとの分布ギャップから十分な性能が得られないことが明らかになった。
本研究の成果は、呼吸音分類における入力非依存型のデータ拡張手法の有効性を示したものである。今後は、事前学習モデルの選定や、呼吸音データとの分布ギャップを埋める手法の検討が課題として挙げられる。
Stats
正常クラスの正解率は最大82.48%に達した。
少数クラスの「喘鳴」の正解率は最大40.08%まで向上した。
最小クラスの「両方」の正解率は最大24.68%まで向上した。
Quotes
"RepAugmentは、入力形式に依存せず、モデルの表現レベルで適用可能な手法である。"
"RepAugmentは、少数クラスの性能を最大7.14%改善した。"
"従来の音声データで事前学習したモデルは、呼吸音データとの分布ギャップから十分な性能が得られないことが明らかになった。"