大規模言語モデル(LLMs)は、CodexやChatGPTなどによってソフトウェアエンジニアリングタスクを革新しました。しかし、これらのモデルは機械と人間によるソフトウェアアーティファクトの区別を曖昧化させています。
A. 研究設計:3つの主要側面(多様性、簡潔さ、自然さ)に焦点を当てた比較分析を実施。
B. 実験セットアップ:異なる温度設定で生成されたコードに対する効果的なパフォーマンス評価。
C. データセット準備:CodeSearchNetからPythonコードサンプル抽出。
D. 結果と分析:トークン頻度や行数など各属性ごとの結果および考察。
A. 問題定義:ソースモデルMから生成されたかどうかを予測する分類タスク。
B. 自然さ測定:NPRスコアを導入して自然さ評価。
C. 変更戦略:空白文字および改行文字挿入戦略に基づく効率的かつ効果的な変更手法。
DetectCodeGPTはLog Rank等他手法よりも優れた性能を示し、AUROCで平均相対向上率7.6%達成。異なる温度設定でも安定したパフォーマンス確認。
DetectCodeGPTは、高い精度で機械生成コードを識別する効果的な方法であり、今後も実用的応用可能性が期待されます。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問