本論文では、LLVM中間表現(IR)を用いた大規模なコードデータセット「ComPile」を紹介する。ComPileは、Rust、Swift、Julia、C/C++の生産環境のプログラムから収集した1.4Tトークンの大規模なデータセットである。
データセット構築の主なポイントは以下の通り:
統計分析の結果、ComPileは大規模言語モデルの訓練や、コンパイラ最適化のための機械学習モデルの開発に有用であることが示された。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Aiden Grossm... klo arxiv.org 05-01-2024
https://arxiv.org/pdf/2309.15432.pdfSyvällisempiä Kysymyksiä