本論文では、LLVM中間表現(IR)を用いた大規模なコードデータセット「ComPile」を紹介する。ComPileは、Rust、Swift、Julia、C/C++の生産環境のプログラムから収集した1.4Tトークンの大規模なデータセットである。
データセット構築の主なポイントは以下の通り:
統計分析の結果、ComPileは大規模言語モデルの訓練や、コンパイラ最適化のための機械学習モデルの開発に有用であることが示された。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Aiden Grossm... om arxiv.org 05-01-2024
https://arxiv.org/pdf/2309.15432.pdfDiepere vragen