本文提出了PclGPT,这是一个专门用于检测针对弱势群体的歧视性和贬低性语言(PCL)的大型语言模型。
首先,作者构建了Pcl-PT和Pcl-SFT数据集。Pcl-PT是用于预训练的数据集,包含来自弱势群体社区的超过140万条数据。Pcl-SFT是用于监督微调的高质量双语指令样本数据集。
然后,作者采用预训练和监督微调的方法,建立了双语PclGPT-EN/CN模型。实验结果表明,PclGPT在四个公开数据集上的性能都优于现有的预训练语言模型和大型语言模型,特别是在处理隐性毒性语言方面有显著提升。
此外,作者还进行了群体检测和细粒度毒性分析,发现不同弱势群体在PCL中受到的偏见程度存在显著差异,这表明需要加强对某些弱势群体的保护。PclGPT的开发为管理这些偏见,保护弱势群体奠定了基础。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania