Effiziente Selbstaufmerksamkeit durch präfixbewussten KV-Cache und zweiphasige Partitionierung
ChunkAttention ist ein neuartiges Selbstaufmerksamkeitsmodul, das den KV-Cache präfixbewusst verwaltet und den Selbstaufmerksamkeitskernel durch eine zweiphasige Partitionierung beschleunigt, um die Inferenzleistung von großen Sprachmodellen zu verbessern.