이 연구에서는 의료 질문에 대한 장문 LLM 생성 답변에서 형평성 관련 편향을 식별하기 위한 자원과 방법론을 제시한다. 다각적이고 반복적인 접근법을 통해 편향의 차원을 정의하고, 이를 바탕으로 인간 평가 기준을 설계했다. 또한 EquityMedQA라는 새로운 데이터셋을 소개하는데, 이는 수동 큐레이션과 LLM 생성 질문으로 구성되어 있으며 형평성 관련 내용이 풍부하다.
이 연구에서는 Med-PaLM 2 모델을 대상으로 대규모 실증 연구를 수행했다. 다양한 평가 방법과 평가자 그룹을 활용하여 편향을 식별한 결과, 좁은 범위의 평가로는 포착하기 어려운 편향이 드러났다. 이는 다양한 평가 방법론과 다양한 배경의 평가자를 활용하는 것이 중요함을 보여준다.
이 연구에서 제시한 도구와 방법론이 모든 형평성 관련 위험을 종합적으로 평가하기에는 충분하지 않지만, LLM이 접근 가능하고 공평한 의료를 실현하는 데 기여할 수 있도록 발전시키는 데 활용될 수 있을 것이다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询