이 연구는 비디오 내 위험 수준을 정량화하고 인간과 대형 언어 모델(LLM)의 위험 평가 정도를 비교하기 위한 새로운 데이터셋을 제안한다. 100개의 YouTube 비디오를 수집하고 인간 참여자들이 0(위험 없음)에서 10(생명 위협)까지의 척도로 위험 수준을 평가했다. 또한 LLM을 활용해 비디오 요약을 통해 독립적으로 위험 수준을 평가하고, 인간과 LLM의 평가 간 일치도를 평균 제곱 오차(MSE) 점수로 측정했다. 이 데이터셋은 비디오 콘텐츠의 위험 평가를 위한 새로운 자원이 될 뿐만 아니라 LLM이 인간과 유사한 평가를 수행할 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문