本研究提出了一種新的數據收集方法,即在手機遊戲中以數據標註取代廣告。具體而言,研究團隊與手機策略遊戲《Armchair Commander》的開發者合作,將數據標註任務嵌入遊戲中,玩家可以通過完成標註任務獲得遊戲內虛擬貨幣獎勵。
研究團隊首先從一個包含10萬個擴散模型提示的數據集中篩選出3萬個合適的提示,並使用Flux-Schnell生成每個提示對應的兩張圖像。為了評估標註員的工作質量,研究團隊在數據集中加入了一些比較數據點,即一張圖像來自提示,另一張圖像來自完全不同的提示。
在遊戲中,玩家會被隨機分配到一個數據點,包含一個提示和兩張圖像,玩家需要選擇最符合提示的圖像。初始時,玩家會被分配大量的比較數據點,只有表現良好的玩家才會逐步獲得更多的普通數據點。每個玩家最多可以標註5個數據點,並根據正確率獲得遊戲內虛擬貨幣獎勵。
最終,研究團隊收集到了超過16,000個標註數據,其中約6,000個為比較數據點,剩餘的近10,000個標註組成了GameLabel-10K數據集。數據集包含7,000個唯一提示,並已在Hugging Face上公開發布。
研究團隊分析了數據集的局限性,並提出了未來改進的方向,如增加標註時間限制、設計互動式教程等,以提高數據質量。此外,研究團隊也建議探討不同類型遊戲玩家對數據質量的影響,以優化數據收集過程。
翻譯成其他語言
從原文內容
arxiv.org
深入探究