利用稀疏自编码器识别并放大语言模型中与拒绝行为相关的特征,可以提高模型在面对不安全提示时的拒绝率,但同时也可能对模型的整体性能和对安全提示的响应能力产生负面影响。
本文旨在为不精确概率预测建立一套基于数据模型和决策问题的评分规则和校准方法,并揭示其与分布鲁棒性优化之间的联系,以及在机器学习中的应用。
本文证明了在重尾噪声下,仅使用梯度归一化就能保证 SGD 的收敛,并改进了 NSGDC 和 NSGDC-VR 的收敛速度,同时证明了在二阶平滑条件下,加速方案可以进一步提高 NSGDC 的收敛速度。
本文提出了一种在联邦学习中实现高效且可合理推诿的机器遗忘方法,通过采用积分隐私和差分隐私技术,在不降低模型效用的情况下,显著减少了存储和计算成本。
MITA 提出了一种名为“中间相遇”的测试时适应新范式,通过能量优化鼓励模型和数据从相反方向进行相互适应,从而更有效地弥合模型分布与数据特征之间的差距,提升模型泛化能力。
本文提出了DeepProtein,这是一个专门针对蛋白质相关任务的综合性和用户友好型深度学习库。DeepProtein集成了多种最先进的神经网络架构,包括卷积神经网络(CNN)、循环神经网络(RNN)、变换器、图神经网络(GNN)和图变换器(GT)。它提供了用户友好的接口,方便领域研究人员将深度学习技术应用于蛋白质数据。此外,我们还编制了一个基准,评估这些神经架构在各种蛋白质任务上的性能,包括蛋白质功能预测、蛋白质定位预测和蛋白质-蛋白质相互作用预测,展示了其出色的性能和可扩展性。
重建过去事件需要跨越长时间范围的推理。MARPLE基准测试旨在评估AI模型在使用多模态证据进行长时间推理方面的能力。
本文提出了一种基于深度抽象状态空间的离线策略评估方法,通过迭代地压缩状态空间维度,大幅降低了离线策略评估的样本复杂度。
提出了一种新的混合神经网络模型Spiking-PhysFormer,通过集成脉冲神经网络和变换器架构,实现了高能效的全局时空注意力机制,在保持性能的同时大幅降低了功耗。
提出了一种新的球面数据回归分析算法T-kernel SGD,该算法通过动态调整假设空间的维度来平衡偏差和方差,并且可以在恒定步长下达到最优收敛率。