本研究では、EU 24か国の公用語に対応したオープンソース音声基盤モデル(EU-OSSFM)の開発に向けて、950,000時間の音声データを収集した。さらに、441,000時間の無ラベル音声データに対して自動トランスクリプションを生成し、オープンソースライセンスで公開した。