本稿では、口述歴研究のための音声技術ツールとソリューションについて説明する。
BASが提供する文字起こしポータルやWebサービス、LINDATで開発された音声認識ソリューション、Whisperを使った自作の取り組みについて紹介する。また、残された課題や今後の展望についても述べる。
BASのWebサービスでは、チャンネル分離、発音変換、自動アラインメントなどの機能を提供している。文字起こしポータルでは、ワンクリックで音声ファイルの文字起こしが可能で、様々な出力フォーマットに対応している。
LINDATでは、wav2vecモデルを使った高精度な音声認識エンジンUWebASRを提供している。さらに、文字起こし結果を活用して、インタビューの理解を深めるための質問生成機能の開発にも取り組んでいる。
一方、Whisperは、OpenAIが公開した100言語以上に対応した高性能な音声認識ツールである。オープンソース性と優れた認識精度から、研究者の間で急速に普及している。Whisperの改良版であるWhisperXやFast-Whisperなども登場し、さらなる高速化や機能拡張が進んでいる。
これらのツールは、口述歴研究における音声処理の課題に対して、有効なソリューションを提供している。一方で、話し言葉の特性を捉えるための高度な分析や、話者の特定など、残された課題も多い。今後も、研究者のニーズに合わせた機能拡張が期待される。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות