Core Concepts
Hierarchical Skip Decoding(HSD)は、効率的な自己回帰テキスト生成を実現する新しいデコーディング戦略です。
Abstract
自己回帰デコーディング戦略と早期終了の有効性に焦点を当てる。
HSDは追加の訓練可能な構成要素を必要とせず、計算ワークロードを削減し、計算リソースを割り当てる。
GPT-2およびPhi-2の2つの事前学習言語モデルでHSDの効果を評価。
HSDは他の手法よりも優れたバランスを持ち、テキスト品質を維持しながら計算ワークロードを削減することが示された。
Stats
GPT-2 + CALM d = 0.02:R-L 0.71, R-L 6.38, BERTScore 9.40
Phi-2 + CALM d = 0.005:R-L 0.93, R-L 11.87, BERTScore 10.71
Quotes
"Hierarchical Skip Decoding (HSD) integrates the concepts of descending scheduled forward layers and hierarchical layer skipping."
"HSD skips the decoding layer in a scheduled and hierarchical manner."
"HSD strives for enhancing the overall text generation quality while utilizing a similar level of computational resources."