Основні поняття
대규모 언어 모델의 정신 건강 대화 능력을 이해하는 것은 이들의 더욱 신중하고 적절한 배치를 이끌어낼 수 있다.
Анотація
이 논문은 대규모 언어 모델(LLM)의 세부적인 대화 능력을 평가하기 위한 새로운 프레임워크를 제안한다. 이 프레임워크 내에서 저자들은 정서적 내용 측정부터 상담 문헌에서 온 대화 전략 모방에 이르는 일련의 정량적 지표를 개발했다. 저자들은 이 프레임워크와 지표가 연구자들에 의해 관련 인접 분야로 전이될 수 있도록 보장했지만, 이를 정신 건강 분야에 적용했다. 저자들은 이 프레임워크를 사용하여 GPT4 Turbo를 포함한 여러 인기 있는 최첨단 LLM의 성능을 검증된 정신 건강 데이터셋을 통해 평가했다. 결과는 GPT4 Turbo가 다른 선별된 LLM보다 검증된 치료사와 더 유사한 성능을 보일 수 있음을 보여준다. 저자들은 또한 정신 건강 주제별로 LLM 대화 성능이 어떻게 변화하는지 추가 분석을 수행했다. 결과는 GPT4 Turbo가 양육 및 관계와 같은 특정 주제에서 검증된 치료사와의 높은 상관관계를 달성하는 것으로 나타났다. 저자들은 이러한 기여가 사람들의 삶을 더 긍정적으로 지원할 수 있는 더 나은 LLM을 개발하는 데 도움이 될 것으로 믿는다.
Статистика
정신 건강 문제로 고민하는 사람들의 약 50%가 평생 동안 정신 건강 장애를 경험한다.
2019년 미국에서 18세 미만 주요 우울증 환자의 60% 이상이 정신 건강 치료를 받지 않았다.
2025년 팬데믹 이전 대비 재택근무 인구가 87% 증가할 것으로 예상된다.
Цитати
"정서와 공감은 치료의 근간이다."
"치료사가 반응의 첫 부분에서 고객의 주된 감정을 반영하면 고객이 더 잘 이해받는다고 느낄 수 있다."
"다음 반응은 이전 반응에 대한 화자의 이해를 보여주고 이에 대응하는 행동을 구현한다."