Core Concepts
雖然大型語言模型(LLM)在程式碼生成方面展現出顯著的能力,但本研究發現,當僅提供輸入輸出範例來描述程式功能時,LLM 的效能會大幅下降,突顯出選擇適當的首個提示以及增強 LLM 處理迭代式需求能力的重要性。
Abstract
大型語言模型在迭代式範例程式碼生成上的評估:首個提示至關重要!
本研究旨在探討大型語言模型(LLM)在僅憑藉輸入輸出範例生成程式碼(即範例程式碼生成)方面的能力。
本研究提出了一個迭代式評估框架,將範例程式碼生成的形式化目標分解為兩個連續的子目標:
生成符合所有給定輸入輸出範例的程式碼。
生成能夠成功實現目標功能的程式碼(根據給定和迭代補充的輸入輸出範例)。
研究人員構建了一個名為 InterCode 的全新基準測試集,其中包含 168 個程式設計任務,每個任務都附帶五組隨機抽樣的輸入輸出範例,作為迭代式程式碼生成的起點。
研究人員使用 InterCode 基準測試集對六個最先進的 LLM(一個閉源和五個開源)進行了評估,以回答以下三個研究問題:
RQ1:(針對子目標 1)評估的 LLM 是否能夠生成符合所有給定輸入輸出範例的程式碼?
RQ2:(針對子目標 2)藉由迭代補充的輸入輸出範例,評估的 LLM 是否能夠生成成功實現目標功能的程式碼?
RQ3:(結果解釋)給定輸入輸出範例,評估的 LLM 可以實現哪些類型的功能?