核心概念
本文提出了一種針對孟加拉語 YouTube 電影戲劇評論進行相關性檢測和情感分析的系統,使用預先訓練的 Transformer 模型(包括表現最佳的 BanglaBERT)和可解釋性工具 LIME,為孟加拉語娛樂產業提供更深入的觀眾觀感分析。
研究目標
本研究旨在開發一種系統,用於分析孟加拉語 YouTube 電影戲劇評論的相關性和情感,以了解觀眾對這些內容的真實看法。
方法
研究人員從 YouTube 上收集了 14,000 條孟加拉語電影戲劇評論,構建了一個名為「CineXDrama」的資料集。
他們使用八種預先訓練的 Transformer 模型(包括 BanglaBERT、mBERT、XLM-RoBERTa 等)進行相關性檢測和情感分析。
研究採用準確率、精確率、召回率和 F1 分數等指標評估模型性能。
此外,他們還使用 LIME(本地可解釋模型不可知解釋)來提高模型決策的透明度,並深入了解模型預測背後的依據。
主要發現
BanglaBERT 在相關性檢測和情感分析任務中均取得了最佳性能,準確率分別為 83.99% 和 93.3%。
相比之下,其他預先訓練的模型(如 IndicBERT)的表現則遜於 BanglaBERT,這突顯了針對特定語言進行預先訓練的重要性。
LIME 的使用有助於理解模型預測背後的關鍵特徵,從而提高結果的可信度。
主要結論
本研究表明,基於 Transformer 的模型可以有效地用於孟加拉語 YouTube 評論的相關性檢測和情感分析。
BanglaBERT 作為一種針對孟加拉語進行預先訓練的模型,在處理孟加拉語文本方面表現出色,證明了其在理解孟加拉語語義和情感方面的優勢。
LIME 等可解釋性工具的應用可以增強模型預測的透明度,並為進一步分析提供有價值的見解。
研究意義
本研究填補了孟加拉語情感分析領域的空白,特別是在電影和戲劇評論方面。它提供了一種自動化的方法來分析觀眾情緒,這對於孟加拉語娛樂產業具有重要意義。
局限性和未來研究方向
未來可以考慮將情感類別擴展到更細粒度的情感,例如悲傷、憤怒和喜悅等。
擴展資料集以包含來自其他媒體形式(如音樂影片和部落格)的評論,將進一步豐富分析結果,並為孟加拉語娛樂產業提供更全面的見解。
統計資料
YouTube 每月活躍用戶超過 27 億(截至 2024 年 10 月)。
孟加拉語是世界第六大語言,擁有超過 2.37 億母語人士。
研究人員收集了 14,000 條孟加拉語 YouTube 評論,其中 7,772 條來自戲劇,6,228 條來自電影。
在資料集中,56% 的評論被認為是相關的,44% 被認為是不相關的。
在相關評論中,55% 為正面情緒,45% 為負面情緒。
BanglaBERT 在相關性檢測中達到了 83.99% 的準確率,在情感分析中達到了 93.3% 的準確率。