本文提出了一種新的指標 SDICE,用於評估合成醫療數據集的多樣性。SDICE 指標基於對比編碼器提取的特徵相似度分佈來量化合成數據集與真實數據集的差異。
具體來說,SDICE 指標包括兩個部分:
內類別多樣性(intra-class diversity):衡量同一類別內樣本的多樣性。通過計算同類樣本間的相似度分佈,並與真實數據集進行對比,來評估內類別多樣性。
類間多樣性(inter-class diversity):衡量不同類別樣本間的多樣性。同樣通過比較相似度分佈來評估類間多樣性。
SDICE 指標將這兩個部分的差異度量結合,提供一個綜合的多樣性評估。實驗結果表明,SDICE 指標能夠有效地識別合成胸部X光數據集內類別多樣性不足的問題,而傳統的指標如SSIM和FID則無法清晰地反映這一問題。
此外,本文還探討了樣本數量和提示語對合成數據集多樣性的影響。結果顯示,增加樣本數量和使用更具體的提示語都有助於提高合成數據集的多樣性。
總的來說,SDICE 指標為評估合成醫療數據集的多樣性提供了一個有效的工具,有助於更好地理解和改進現有的合成數據生成模型。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések