本文提出了一种名为AVIATE的方法,用于提高双语软件项目中基于信息检索的可追溯性恢复。主要包括以下步骤:
使用四种主流翻译器(NLLB-1.3B、M2M-100-12B、谷歌翻译和腾讯翻译)对非英语句子进行翻译,生成多个翻译变体。
从这些翻译变体中提取候选双词,并找出同时出现在问题和提交中的共识双词。
选择出现频率较低的共识双词作为最终的增强内容,并根据其独特性调整权重因子,以突出关键信息。
将增强和加权后的双词添加到原始文本中,并使用向量空间模型(VSM)计算文本相似度,生成候选可追溯链接列表。
实验结果表明,与现有的基于机器翻译的方法相比,AVIATE在平均精确度(AP)和平均平均精确度(MAP)指标上分别提高了16.67(31.43%)和8.38(11.22%)。这表明AVIATE能够有效地解决双语可追溯性恢复的挑战。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Kexin Sun, Y... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19304.pdfГлибші Запити