本研究は、臨床現場における限定的なデータでのオーディオ分類器の性能を分析することを目的としている。
まず、2つの独自のデータセットを収集した。1つは脳卒中患者の発話データ(NIHSS)、もう1つは母音発声データ(Vowel)である。これらのデータを用いて、様々な前処理手法(Mel RGB、Mel mono、Superlet)とモデル(CNN、RNN、Transformer)の性能を比較した。
結果として、CNN系モデルのDenseNetやConvNeXtが、Transformerモデルと同等以上の性能を示した。特に、DenseNetのContrastive US8Kモデルは、F1スコアが0.88と最も高い成績を収めた。これは、大規模一般データからの事前学習と、限定的な臨床データでの微調整が効果的であったことを示唆している。
一方、前処理手法の選択も重要で、Mel RGBが最も良い結果を示した。これは、ImageNetで事前学習された畳み込み層がRGB特徴を効果的に抽出できたためと考えられる。
本研究の知見は、限られたデータでの高精度なオーディオ分類器の構築に役立つ。特に、脳卒中などの神経疾患や、データ不足が課題となる希少疾患の診断支援に応用できる可能性がある。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Hamza Mahdi,... klokken arxiv.org 04-09-2024
https://arxiv.org/pdf/2402.10100.pdfDypere Spørsmål