Core Concepts
大規模言語モデルを使用して、データサイエンスのコード生成を改善する方法に焦点を当てる。
Abstract
大規模言語モデル(LLMs)は自然言語からコードを生成する能力を示す。
データサイエンスプログラミングにおいてI/O仕様が重要。
GIFT4CODEは新しいアプローチであり、LLMsの指示微調整によりI/O仕様に従うコード生成能力が向上する。
実験結果では、ARCADEとDS-1000の難しいデータサイエンスタスクでGIFT4CODEが有効であることが示された。
Introduction
LLMsはNLからコード生成で優れた性能を発揮。
データサイエンスプログラミングではI/O仕様が必要。
Problem Formulation
自然言語からコードへの変換タスク。
指示微調整によるLLMsの改善。
GIFT4CODE: Learning to Follow Intents with I/O Specifications
合成インテントとコードソリューションの生成。
コード実行とI/O仕様推論。
イントロダクションファインチューニング。
Stats
LLMsは最近、自然言語からコードを生成する能力を示した。
GIFT4CODEは指示微調整により、LLMsがI/O仕様に従うコード生成能力を向上させる。