Основные понятия
医療会話の自動文字起こりと話者識別を統合したシステムを開発し、医療従事者の文書作成負担を大幅に軽減する。
Аннотация
本研究では、医療会話の自動文字起こりと話者識別を統合したシステムを開発した。このシステムは、Whisperによる高精度な文字起こりと、PyAnnoteによる話者識別を組み合わせることで、医療会話の文字起こりと話者ラベリングを自動化する。
システムの概要は以下の通り:
- 音声ファイルをMinIOサーバーにアップロードし、安全に保管する。
- ClearMLを使ってジョブを管理し、文字起こりと話者識別を並行して実行する。
- Whisperによる文字起こりと、PyAnnoteによる話者識別を行う。
- 文字起こりと話者識別の結果を統合し、話者ラベル付きの文字起こりを生成する。この際、LLMを活用して話者ラベリングの精度を向上させる。
- 生成された文字起こりと話者ラベルの精度を評価した結果、全体のWord Error Rateは14.5%と良好な精度を示した。一方で、話者ラベリングの精度にはばらつきがあり、個別のファイルに応じた調整が必要であることが分かった。
本システムは、医療従事者の文書作成負担を大幅に軽減し、より質の高い医療サービスの提供に寄与することが期待される。今後は、さらなる自動化と精度向上に向けた研究開発を進めていく。
Статистика
全体のWord Error Rateの中央値は0.145であり、ほとんどのファイルでWERが0.2以下だった。
話者ラベリングの誤りの中央値は23.3%だったが、ファイルによっては80%を超える誤りもあった。
文字起こりでは、正しく起こされた単語が85.5%、見落とされた単語が7.1%、誤って追加された単語が7.4%だった。
話者ラベリングでは、正しくラベルされた単語が76.7%、誤ってラベルされた単語が23.3%だった。