核心概念
透過分析多個連續影格(在本研究中最佳為三個影格),三維卷積神經網路可以更準確地偵測影片中的暴力行為,勝過僅分析單一或兩個影格的方法。
摘要
書目資訊
Kavathia, A.*, & Sayer, S. (年份不詳). 透過三維卷積神經網路優化影片分類準確度以偵測暴力行為。
研究目標
本研究旨在探討在影片分類模型中,分析多少個連續影格能達到最佳的暴力偵測準確度。
研究方法
- 研究人員使用了一個包含 1000 個冰球比賽影片片段的公開資料集,其中一半片段包含暴力行為,另一半則沒有。
- 他們將每個影片片段轉換為光流圖像序列,以強調動作和方向。
- 研究人員建立了一個三維卷積神經網路 (3D CNN) 模型,並調整模型以分析不同數量的連續影格(1、2、3、10 和 20 個影格)。
- 他們訓練每個模型 20 個週期,並比較它們在驗證集上的準確度。
主要發現
- 分析三個連續影格的模型表現最佳,準確度達到 94.87%。
- 分析一個或兩個影格的模型準確度較低,顯示分析多個影格對於捕捉暴力行為的時間動態至關重要。
- 分析過多影格(10 或 20 個)反而會降低準確度,這可能是因為模型過度擬合訓練資料。
主要結論
對於冰球影片中的暴力偵測,分析三個連續影格似乎是最佳的選擇。這項研究提供了一種方法來確定其他影片分類任務的最佳影格數。
研究意義
這項研究有助於開發更準確的自動暴力偵測系統,可用於安全攝影機和其他影片監控應用。
研究限制與未來方向
- 本研究僅使用了一個冰球影片資料集,未來應使用更多樣化的資料集來驗證結果。
- 未來研究可以探討不同三維卷積神經網路架構和參數對暴力偵測準確度的影響。
統計資料
全球約有 10 億個安全攝影機,相當於每 8 個人就有一個。
YouTube 每分鐘上傳的影片時長達 500 小時。
研究中使用的資料集包含 1000 個冰球比賽影片片段,解析度為 720 x 576 像素,每個片段長約 2 秒。
由於資料限制,影片片段的長度和寬度都被縮減到四分之一,變成 180 x 144 像素。
最終資料集包含隨機選擇的 200 個影片,其中 100 個標記為暴力行為,100 個標記為非暴力行為。
分析三個影格的模型達到了 94.87% 的最高驗證準確度。
分析一個影格的模型準確度為 84.62%,而分析兩個影格的模型準確度為 87.2%。
分析 10 個影格和 20 個影格的模型準確度分別為 79.5% 和 66.7%。
引述
「隨著暴力犯罪持續發生,我們需要能夠快速且準確地識別暴力行為的安全攝影機。」
「雖然先前的暴力分類模型已經被創造出來,但它們在實況影片上的應用可能存在缺陷。」
「這表示用於偵測暴力的機器學習模型在分析此資料集時,如果一次分析三個影格,可能會運作得更好。」