核心概念
本文介紹了一個新的多模態資料集PHAD,其中包含來自YouTube和TikTok的與菸草產品相關的影片,旨在促進對社群媒體上菸草使用情況及其影響的分析。
摘要
資料集描述
本文介紹了一個名為「公共衛生宣導資料集」(PHAD)的多模態資料集,該資料集包含從 YouTube 和 TikTok 等社群媒體平台收集的 5,730 部與菸草產品相關的影片。這個資料集包含超過 430 萬幀畫面,並包含詳細的後設資料,例如使用者參與度指標、影片描述和搜尋關鍵字。
資料集目的
PHAD 的建立旨在滿足對跨社群媒體平台(特別是 YouTube 和 TikTok)的菸草相關內容進行全面資料分析的需求日益增長。開發此資料集的目標如下:
- 為分析與菸草相關的內容提供豐富的資源:PHAD 包含與各種菸草產品相關的各種影片,並附有詳細的後設資料,例如使用者參與度指標、影片描述和搜尋關鍵字。這個全面的資料集使研究人員能夠分析社群媒體上與菸草相關的內容的性質和影響。
- 加強公共衛生研究:通過提供包含視覺和文字特徵的多模態資料集,PHAD 旨在提高公共衛生研究中使用的模型的準確性和有效性。該資料集有助於了解使用者參與趨勢和與菸草相關內容的影響,這對於制定有針對性的公共衛生干預措施至關重要。
- 填補現有資料集的空白:現有資料集通常缺乏對與菸草相關的內容進行細微分析所需的深度和廣度。PHAD 通過提供一個大規模、高品質的資料集來解決這個問題,該資料集涵蓋了廣泛的菸草產品和使用場景。它還包含其他資料集中通常缺少的重要背景資訊。
- 支援非營利性公共衛生工作:該資料集根據 CC BY-NC-SA 4.0 許可證獲得許可,確保可以將其免費用於研究和非營利性目的。這種許可選擇促進了資料集在學術和公共衛生研究中的廣泛傳播和利用,促進了合作努力以打擊菸草使用。
資料集內容
該資料集包含 5,730 部影片,其中約 4,014 部來自 YouTube,1,716 部來自 TikTok。選擇這些平台是因為它們很受歡迎,而且使用者產生了大量與菸草產品相關的內容。資料集中的影片代表了各種內容類型,包括宣傳資料、個人影片部落格、教育內容和公共衛生廣告。這些影片標註了旨在促進多方面分析菸草使用的多個特徵:
- 使用者參與度指標:包含資料集中影片的點讚數、分享數、評論數和觀看次數。
- 菸草產品類型:對影片中顯示或討論的菸草產品進行分類(例如,香菸、電子菸裝置、嚼菸)。
- 搜尋關鍵字:用於定位影片的關鍵字可能表明常見的搜尋行為和公眾對特定菸草產品的興趣。
- 影片描述:包含影片內容的摘要,提供單獨從影片分析中不容易看出的背景資訊和其他細節。
資料集限制
本節討論由於技術限制和資料集特定特徵而與我們的資料集相關的固有限制。了解這些限制對於準確解釋從該資料集中得出的結果以及指導未來的改進至關重要。
- 技術限制
- 影片品質差異:儘管大多數影片都是高清解析度,但由於壓縮、照明和相機品質等因素,影片品質存在顯著差異。這種差異會影響影片分析演算法的效能,尤其是那些涉及動作識別和物件偵測的演算法。
- 資料不完整:並非所有影片都包含完整的後設資料,例如準確的價格範圍或完整的描述。這種不完整性可能會導致分析出現差距,尤其是在了解影片中描述的菸草使用的完整背景時。
- 平台特定偏差:來自 YouTube 和 TikTok 的影片反映了這些平台的內容指南和使用者人口統計資料,這些指南和人口統計資料可能無法代表更廣泛或不同的社群媒體生態系統。這可能會限制研究結果對其他平台或離線行為的普遍性。
- 資料集特定限制
- 某些人口統計資料的代表性不足:雖然資料集包含來自各種來源的影片,但某些人口群體,尤其是那些來自社會經濟背景較低或代表性較低的地区的人口群體,可能代表性不足。這可能會使分析偏向更活躍的網際網路使用者或來自特定地理區域的網際網路使用者的行為和偏好。
- 內容創作者偏差:為公開觀看而製作的影片通常經過策劃或製作,並帶有特定的訊息,這可能會導致對菸草產品描述方式的偏差。這可能會影響資料集在客觀分析菸草產品使用和公眾認知方面的效用。
總結
PHAD 的建立是朝著了解和減輕菸草使用影響邁出的重要一步,它為研究人員和決策者提供了制定更有效的公共衛生策略所需的工具。該資料集的多樣性和全面性有助於消除偏差,並確保公共衛生策略更具包容性和有效性。
統計資料
資料集包含從 YouTube 和 TikTok 等社群媒體平台收集的 5,730 部與菸草產品相關的影片。
該資料集包含超過 430 萬幀畫面,並包含詳細的後設資料,例如使用者參與度指標、影片描述和搜尋關鍵字。
影片的解析度從 360p 到 1080p 不等,平均解析度為 720p。
影片長度從 3 秒到 1,500 秒不等,平均長度為 120 秒。