核心概念
関数型プログラミング言語でのコード補完モデルのパフォーマンスを評価し、高品質なHaskellデータセットの必要性を示す。
統計
自動評価による結果:「我々の新しいHumanEval-Haskellデータセット」、「Blastwindデータセット」での精度向上。
手動評価結果:CodeGPTとUniXcoderによるHaskellコード補完時の主な問題点。
引用
"自動評価では、命令型プログラミング言語から機能的な言語への知識移行が難しいことが示唆されています。"
"手動評価では、CodeGPTは空の予測や余分なコメントを生成し、UniXcoderは不完全または間違った予測をより多く生成します。"