Kernkonzepte
大規模言語モデル(LLMs)が健康情報ニーズを満たす可能性がある一方で、害をもたらし、健康格差を悪化させる可能性があることを評価することは重要である。
Zusammenfassung
LLMsは医療質問応答や臨床判断支援など多くのコンテキストで使用されている。
LLMsの利用により、健康格差が拡大する可能性がある。
健康格差関連のバイアスを浮き彫りにするためのリソースと方法論を提供している。
EquityMedQAは7つの新しくリリースされたデータセットから成り立ち、人間評価研究を行っている。
多因子評価基準や対立的な質問への回答など、さまざまな方法論が使用されている。
Statistiken
大規模言語モデル(LLMs)は医療分野で使用されている。
17,000以上の人間評価結果から得られた知見が示唆的であった。
Zitate
"LLMs introduce new challenges for evaluation due to the breadth of use cases enabled through open-ended generation and the need to conduct multidimensional assessments of long-form textual outputs."
"Our contributions include a multifactorial framework for human assessment of LLM-generated answers for biases, and EquityMedQA, a collection of seven newly-released datasets comprising both manually-curated and LLM-generated questions enriched for adversarial queries."