核心概念
將模型視為虛擬標註者,並採用多種集成策略和技術(例如各向異性去除),可以有效預測詞彙語義的共識和分歧,特別是使用連續相似性分數比離散標籤更能有效捕捉標註者分歧。
摘要
CoMeDi 共享任務:模型作為詞彙語義差異的標註器
論文概述
本研究論文介紹了一個用於 CoMeDi 共享任務的系統,該任務旨在預測詞彙語義的共識(子任務 1)和分歧(子任務 2)。作者將模型視為虛擬標註者,並採用多種集成策略和技術來模擬標註過程,以捕捉共識和分歧。
主要方法
- 將子任務概念化為高斯分佈的參數估計: 子任務 1 對應於均值(共識),子任務 2 對應於方差(分歧)。
- 各向異性去除: 採用中心化、標準化和 All-but-the-top 等技術來減輕嵌入空間中的幾何偏差,從而提高相似性比較的準確性。
- 模型集成: 將多個模型或其變體視為標註者,並使用標準差(STD)、平均成對絕對判斷差異(MPD)和變異比率(VR)等指標來衡量分歧。
- 基於 MLP 和基於閾值的方法: 使用基於 MLP 的方法來預測離散標籤或連續值,並使用基於閾值的方法將相似性分數映射到標籤。
主要發現
- 各向異性去除技術顯著提高了性能,其中標準化在所有層中表現最佳。
- 對於子任務 2,使用連續相似性分數比使用離散標籤更能有效地捕捉標註者分歧。
- 模型集成策略,特別是使用模型變體的同質聚合,在預測分歧方面表現出良好的性能。
總結
該研究強調了將模型視為虛擬標註者在處理詞彙語義差異方面的潛力。通過採用適當的技術,例如各向異性去除和模型集成,可以有效地預測共識和分歧。此外,該研究結果表明,連續相似性分數比離散標籤更適合捕捉標註者分歧的細微差別。
統計資料
XLM-RoBERTa-base 模型在所有測試模型中表現最佳,甚至優於其更大的版本 XLM-RoBERTa-large。
Llama-7B 模型由於其龐大的參數量和訓練數據,其最佳結果(第 25 層)可作為性能上限。
標準化方法在所有層級中 consistently 表現最佳。
引述
"Treating individual models as virtual annotators, we simulate the annotation process by designing aggregation measures that incorporate continuous similarity scores and discrete classification labels to capture both majority and disagreement."
"Notably, we find that continuous similarity scores, even within the same model, align better with human disagreement patterns compared to aggregated discrete labels."