LLMのインファレンスを効率的に行うため、ハードウェアとソフトウェアの最適化を組み合わせた新しいコンパイラを提案する。特に、マイクロスケーリング形式を活用することで、精度の低下を最小限に抑えつつ、ハードウェアの面積効率を大幅に改善できる。