本論文では、LLVM中間表現(IR)を用いた大規模なコードデータセット「ComPile」を紹介する。ComPileは、Rust、Swift、Julia、C/C++の生産環境のプログラムから収集した1.4Tトークンの大規模なデータセットである。
データセット構築の主なポイントは以下の通り:
統計分析の結果、ComPileは大規模言語モデルの訓練や、コンパイラ最適化のための機械学習モデルの開発に有用であることが示された。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Aiden Grossm... ที่ arxiv.org 05-01-2024
https://arxiv.org/pdf/2309.15432.pdfสอบถามเพิ่มเติม