toplogo
登入
洞見 - Machine Learning - # 資料集協作設計、公共空間品質評估、街景圖像分析、公平性指標

AI-EDI-SPACE:一個以協作設計的資料集,用於評估公共空間的品質,特別關注代表性不足群體的觀點


核心概念
本文提出了一種基於協作設計和公平、多元化和包容性 (EDI) 原則的方法,用於創建一個評估公共空間品質的資料集和 AI 模型,重點關注代表性不足群體的觀點,並探討了在 AI 模型中捕捉多元化觀點所面臨的挑戰。
摘要

文獻回顧

資料集和 AI 模型發展的現狀
  • AI 的進步很大程度上依賴於大型資料集的建立,這些資料集經過精心策劃和標註,用於訓練。
  • 然而,人們仍然擔心資料收集方法的透明度和背景,特別是當資料來源於眾包平台時。
  • 眾包通常僱用低薪工人,工作條件差,而且沒有考慮到標註者的代表性,導致演算法無法代表不同的觀點,並使針對某些群體的偏見長期存在。
公共空間品質評估的現狀
  • 評估公共空間品質本質上是主觀的,研究表明不同文化群體之間存在差異。

研究方法

協作設計和 EDI 原則
  • 協作設計,也稱為參與式設計或共同創造,是一種讓利益相關者積極參與整個設計過程的方法,以確保最終產品滿足他們的需求和偏好。
  • 公平、多元化和包容性 (EDI) 原則是一個基本的價值觀和實踐框架,旨在促進組織、社區和社會中的公平、代表性和歸屬感。
資料集和 AI 模型開發方法
  • 本研究提出了一種基於協作設計和 EDI 原則的方法,用於創建一個資料集和 AI 模型,以使用街景圖像評估公共空間的品質。
  • 方法的主要階段包括:
    • 參與者招募:招募來自代表性不足群體的參與者。
    • 研討會組織:組織研討會,以了解參與者對公共空間的關注,並建立評估公共空間品質的標準。
    • 圖像標註:讓參與者對街景圖像進行標註,以表明他們對公共空間品質的看法。
    • AI 模型評估:訓練一個 AI 模型來預測公共空間品質,並根據參與者的標註評估其性能。
資料集
  • 資料集包含從大蒙特婁地區收集的 7,833 張街景圖像。
  • 資料集包含 19,990 對圖像的成對比較。
  • 參與者的任務是根據給定的標準,使用一個範圍從 -1 到 1 的游標選擇他們喜歡的圖像。
AI 模型
  • 該任務被定義為一個成對的學習排序任務。
  • 該模型通過預測用戶在一對圖像中更喜歡哪一張圖像,間接地學習用戶的效用函數。
  • 模型輸出每張圖像的分數,我們通過取一對圖像分數之間的差值來間接計算效用。
  • 模型的工作流程受到 place-pulse 2.0 資料集工作流程的啟發。
  • 該模型有一個特徵提取器和一個分類器頭。
  • 特徵提取器是一個預先訓練好的特徵提取器模型。
  • 我們使用的特徵提取器包括 VGG11、EfficientNet、Squeezenet 和 DinoV2。
  • 然後,這些特徵被傳遞到一個分類器頭,在我們的例子中,它是一個單層或雙層感知器。
  • 分類器的輸出是每張圖像的分數。
  • 我們使用二元交叉熵、排序損失和均方誤差作為訓練分類器時的懲罰。
公平性指標
  • 為了定義學習排序問題相對於參與者領域的公平性,我們可以將該問題視為一個生成性問題,其中參與者貢獻於生成最終排名。
  • 靈感來自於當前的機會均等公平性指標以及基尼係數,基尼係數在經濟學中被廣泛用於衡量社會財富分配的不平等程度。
  • 本研究使用了三個公平性指標來評估模型捕捉不同觀點的能力:
    • 每位用戶的最大準確率:計算兩位用戶之間每位用戶準確率的最大差異。
    • 每位用戶準確率的標準差:計算所有每位用戶準確率的偏差。
    • 基尼係數:計算模型預測中的不平等程度。

結果

  • 模型的性能在不同的評估標準中差異很大,有些標準的性能接近隨機,這突出了任務的複雜性。
  • 此外,我們觀察到模型性能在不同用戶之間存在很大差異,這表明模型無法準確捕捉來自不同用戶群體的偏好。

結論

  • 本研究引入了一個新的資料集,旨在使用街景圖像評估公共空間的品質。
  • 該資料集是一種整合了協作設計和公平、多元化和包容性 (EDI) 原則的方法的產物,確保了不同觀點的代表性。
  • 我們在該資料集上訓練了一個基準模型,並評估了其在捕捉廣泛觀點方面的公平性。
  • 然而,我們的分析揭示了重大挑戰。
  • 模型的性能在不同的評估標準中差異很大,有些標準的性能接近隨機,這突出了任務的複雜性。
  • 此外,我們觀察到模型性能在不同用戶之間存在很大差異,這表明模型無法準確捕捉來自不同用戶群體的偏好。
  • 雖然這些初步發現很有希望,但它們也強調了進一步研究的必要性,以開發能夠有效捕捉和代表多樣化觀點的模型。
  • 解決這些挑戰對於在公共空間評估領域推進負責任的 AI 模型和資料集的發展至關重要。
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
資料集包含從大蒙特婁地區收集的 7,833 張街景圖像。 資料集包含 19,990 對圖像的成對比較。 共招募了 28 名參與者參加研討會和圖像標註。 招募工作針對代表不同代表性不足群體的各種社區組織。 在參與者中,20 人認為自己是女性,5 人屬於少數民族,2 人是殘疾人,10 人是 LGBTQ2+ 社區的成員,2 人屬於宗教少數群體。 為了捕捉公共空間的多樣化用途,我們定義了 35 個評估其品質的標準。
引述
"Current advancements in AI heavily rely on the availability of large-scale datasets meticulously curated and annotated for training purposes." "However, concerns persist regarding the transparency and context of data collection methodologies, particularly in instances where annotations are sourced through crowdsourcing platforms." "To address these limitations, we propose a methodology grounded in a specific socio-cultural context for dataset collection and AI model development." "Our approach centers on a co-design model that actively involves stakeholders at key stages of the AI model development, including dataset creation." "Additionally, we integrate principles of Equity, Diversity, and Inclusion (EDI) to ensure diverse viewpoints are represented within the dataset."

從以下內容提煉的關鍵洞見

by Shreeyash Go... arxiv.org 11-05-2024

https://arxiv.org/pdf/2411.00956.pdf
AI-EDI-SPACE: A Co-designed Dataset for Evaluating the Quality of Public Spaces

深入探究

如何在不損害隱私的情況下,將更廣泛的社會人口因素納入公共空間品質評估的資料集中?

在不損害隱私的情況下將更廣泛的社會人口因素納入公共空間品質評估的資料集中,是一個需要仔細權衡和創新方法的挑戰。以下是一些可行的策略: 收集聚合數據: 與其收集個人層面的社會人口信息,不如關注聚合數據。例如,可以利用人口普查數據,獲取特定街區或社區的年齡、收入、種族構成等信息,並將這些數據與該地區的公共空間圖像關聯起來。這種方法避免了直接收集個人敏感信息,同時仍然可以分析社會人口因素與公共空間品質之間的關係。 使用代理指標: 可以利用一些間接反映社會人口特征的代理指標。例如,可以通過分析街景圖像中的商店類型、建築風格、車輛類型等信息,推斷該地區的收入水平、文化背景等。 隱私保護的數據增強: 可以使用差分隱私等技術,在數據集中添加噪音,同時保留數據的整體統計特征。這種方法可以在一定程度上保護個人隱私,同時仍然允許研究人員分析社會人口因素對公共空間品質的影響。 參與式數據收集: 可以邀請居民參與數據收集過程,讓他們以匿名的方式提供有關其社區和公共空間的信息。例如,可以設計問卷調查或舉辦工作坊,讓居民表達他們對公共空間的需求和偏好,並將這些信息與客觀數據結合起來。 總之,在收集和使用社會人口數據時,必須始終將隱私放在首位。通過採用上述策略,可以在保護個人隱私的同時,構建更全面、更具代表性的數據集,從而更好地理解社會人口因素對公共空間品質的影響。

如果模型在捕捉某些用戶群體的偏好方面始終表現不佳,那麼優先考慮模型的整體準確率是否合乎道德?

如果模型在捕捉某些用戶群體的偏好方面始終表現不佳,那麼僅僅優先考慮模型的整體準確率是不合乎道德的。這是因為: 加劇社會不平等: 模型的偏差可能會導致資源分配不公。例如,如果公共空間品質評估模型不能準確捕捉到少數族裔群體的偏好,那麼基於該模型的城市規劃決策就可能忽視這些群體的需求,從而加劇現有的社會不平等。 損害弱勢群體利益: 模型偏差可能對弱勢群體造成不成比例的負面影響。例如,如果模型不能準確識別老年人或殘疾人認為安全舒適的公共空間,那麼這些群體的安全和福祉就可能受到威脅。 違背公平原則: 公平原則要求算法系統應該對所有人公平公正,不應歧視任何個人或群體。如果模型在不同用戶群體上的表現存在顯著差異,那麼就違背了公平原則,即使整體準確率很高。 因此,在評估和應用 AI 模型時,不能僅僅關注整體準確率,還需要關注模型在不同社會群體上的表現差異。應積極探索減輕模型偏差的方法,例如: 數據平衡: 確保訓練數據集中不同社會群體的樣本數量均衡,避免模型過度偏向於某些群體。 公平性約束: 在模型訓練過程中加入公平性約束,例如要求模型在不同社會群體上的預測結果具有相似的準確率或誤差分布。 可解釋性分析: 分析模型的決策過程,理解模型偏差的來源,並針對性地進行調整。 總之,在追求 AI 模型準確率的同時,必須將道德和公平放在首位。只有這樣,才能開發出真正有益於所有人的 AI 技術。

城市規劃和建築環境領域如何利用 AI 和資料集來促進更公平、更包容的公共空間?

城市規劃和建築環境領域可以利用 AI 和資料集,通過以下方式促進更公平、更包容的公共空間: 數據驅動的決策: 利用 AI 分析包含社會人口因素的數據集,可以更深入地了解不同群體對公共空間的需求和偏好。例如,分析哪些空間更受老年人、兒童或殘疾人的歡迎,哪些空間存在安全隱患等。這些信息可以幫助城市規劃者制定更具針對性的政策和方案,打造更公平、更包容的公共空間。 模擬和預測: AI 可以用於模擬不同規劃方案對公共空間使用的影響,預測不同群體的獲益情況。例如,模擬新建公園、廣場或步行街對周邊居民出行、休閒、社交的影響,評估不同方案對不同收入、年齡、文化背景群體的公平性。 個性化設計: AI 可以根據不同群體的需求和偏好,提供個性化的公共空間設計方案。例如,為老年人設計更安全、更舒適的座椅和扶手,為兒童設計更有趣的遊樂設施,為殘疾人設計更便捷的無障礙設施等。 參與式規劃: AI 可以為公眾參與城市規劃提供新的工具和平台。例如,開發基於 AI 的虛擬現實或增強現實系統,讓居民可以直觀地體驗不同的規劃方案,並提供反饋意見。 以下是一些具體的應用案例: 利用 AI 分析街景圖像和社交媒體數據,識別城市中缺乏綠化、座椅、遮陽等設施的區域,並優先在這些區域進行改善,提高弱勢群體的戶外活動體驗。 利用 AI 分析不同類型公共空間的使用數據,例如公園、廣場、圖書館等,了解不同社會群體的活動模式和偏好,為公共空間的設計和管理提供參考。 利用 AI 開發智能化的公共設施,例如根據環境光線自動調節亮度的路燈,根據人流量自動調節溫度的公共座椅等,為所有人創造更舒適、更便捷的公共空間體驗。 總之,AI 和資料集為城市規劃和建築環境領域帶來了前所未有的機遇。通過合理地利用這些技術,可以打造更公平、更包容、更宜居的城市空間,讓所有人都能平等地享受城市發展的成果。
0
star