本研究は、2020年1月から2024年2月までの期間に公開された950,965本の論文を対象に、大規模言語モデル(LLM)による修正の割合を分析したものである。主な知見は以下の通り。
コンピューター科学分野の論文で最も大きな伸びが見られ、2024年2月までに要約では17.5%、序論では15.5%がLLMによる修正と推定された。一方、数学分野とNature ポートフォリオ誌の論文では、それぞれ要約で4.9%、6.3%、序論で3.9%、6.4%と最も低い伸びにとどまった。
プレプリントを多く投稿する著者の論文ほど、LLMによる修正の割合が高い傾向にある。2023年時点で、プレプリント2本以下の著者の論文では要約の15.6%、序論の13.7%がLLM修正と推定されたのに対し、3本以上のプレプリントを投稿する著者の論文では、要約19.3%、序論16.9%と高い割合となった。
同分野の論文との類似性が高い論文ほど、LLMによる修正の割合が高い。2024年2月時点で、同分野の論文との類似性が高い論文の要約では22.2%がLLM修正と推定されたのに対し、類似性の低い論文では14.7%にとどまった。
短い論文ほど、LLMによる修正の割合が高い。2024年2月時点で、5,000語以下の短い論文の要約では17.7%がLLM修正と推定されたのに対し、5,000語超の長い論文では13.6%にとどまった。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Weixin Liang... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01268.pdfTiefere Fragen