本次研討會旨在匯集致力於公開領域對話研究的專家,探討如何模擬聊天對話中的智慧。
儘管近年來對話式人工智慧取得了重大進展,並引起了公眾的廣泛關注,但對此類系統的有效評估仍然是一個挑戰。開放領域對話被認為是自然語言處理中最具挑戰性的評估任務之一。
本次研討會包含研究方向和共享任務。共享任務的重點是模擬任何類型的智慧對話,並要求參與者提交一個自動對話代理 API,目標是進行多輪對話,並能提出、反駁和推理論點。參與系統隨後在現場人工評估中進行互動評估。
評估採用直接評估法,該方法最初用於評估機器翻譯輸出的品質,並通過要求評估者使用李克特量表對單一系統進行評分來克服過去的挑戰和偏差。
評估標準包括:整體、智慧、趣味性、信息量、流暢度、可信度、不一致性、不連貫性和重複性。
共有三個研究團隊和四個基準系統參與了比賽。
結果顯示,ANON-A 模型表現最佳,顯著優於其他系統。其他系統則表現相近,形成了一個較大的集群。
本次研討會成功地將現場人工評估應用於一系列公開可用的聊天機器人模型和參與系統,證明了其可行性。所有在共享任務中獲得的數據現已公開,希望這將為改進該研究領域的人工評估和自動指標提供重要資源。
翻譯成其他語言
從原文內容
arxiv.org
深入探究