Core Concepts
2つの並列n-bitレジデュー・チャンネルを使用することで、modulo-(2^{2n}+1)演算を効率的に実現できる。
Abstract
本論文では、残余数システム(RNS)の基礎となる4つのモジュロ集合{m1=2^n, m2=2^n-1, m3=2^n+1, m4=2^{2n}+1}を提案している。この集合では、m4のモジュロが2倍の幅を持つため、{m1, m2, m3}のスピードバランスが損なわれる。そこで、m4を2つの複素数モジュロ2^n±√-1に分解することで、動的範囲(DR)を維持しつつ、モジュロ間の共素性も保持できる。提案する複素数モジュロ加算器と乗算器をSpartan 7S100 FPGAで実装し、評価した結果、従来のmodulo-(2^{2n}+1)演算に比べて、速度、コスト、消費電力の面で優れていることが示された。また、提案手法は、深層学習ハードウェア・アクセラレータなどの様々なアプリケーションに適用可能である。
Stats
提案する複素数モジュロ(2^n±√-1)加算器は、modulo-(2^{2n}+1)加算器と比べて、遅延が約40%短縮、消費電力が約20%低減される。
提案する複素数モジュロ(2^n±√-1)乗算器は、modulo-(2^{2n}+1)乗算器と比べて、遅延が約45%短縮、消費電力が約40%低減される。
Quotes
"2つの並列n-bitレジデュー・チャンネルを使用することで、modulo-(2^{2n}+1)演算を効率的に実現できる。"
"提案する複素数モジュロ加算器と乗算器は、従来のmodulo-(2^{2n}+1)演算に比べて、速度、コスト、消費電力の面で優れている。"