# マイクロ波シミュレータ・FDTD 法データフローマシンの開発

Development of Dataflow Machine of FDTD Method for High-performance Microwave Simulation

川口秀樹 Hideki Kawaguchi

室蘭工業大学 情報電子工学系専攻 Division of Information and Electronic Engineering, Muroran Institute of Technology

#### 1. はじめに

パソコン等の身近な計算機のダウンサイジング,高性 能化,メモリ大容量化に伴い,近年,ますます,電気・ 電子製品の設計・開発の場における数値シミュレーショ ンの利用が普及している. しかしながらその一方で, シミュレーションしたいターゲットが部品や素子のみな らず,プリント基板などの数十波長を越える空間領域に なると,所要メモリは 100 ギガバイトを越え,計算時間 もスーパーコンピュータでも数時間から数日を要する大 規模計算となり,計算は可能であっても必ずしも製品設 計等の産業応用に数値シミュレーションを活用するのは まだまだ容易でない. このため,産業応用へのより広 い活用には,飛躍的な計算性能の向上と,それをポータ ブルなサイズで実現することが必要となる.

このようなポータブルなハイパフォーマンスコンピュ ーティング(HPC) 技術の一つの可能性として専用計算機の 方法がある. すなわち,汎用性が重視されメインメモ リと演算部がバス結合されたノイマンアーキテクチャと は異なり,メモリも含めシステム全体を計算したいター ゲットに特化させハードウェア化することにより,汎用 性故に生じていた処理オーバヘッドをなくし,かつ,計 算スキームに潜在する並列性を最大限引き出すことがで きる. 本稿では,このような考え方でマイクロ波シミ ュレーションを中心に進められてきた FDTD 法専用計算 機の概要の解説とともに,最近の進展について報告する.

### 2. FDTD 法専用計算機の概要

HPC 技術においてしばしば言及されるように,計算機 の高性能化に際しては,CPU 等の演算部のみを高速化し ても全体的な計算自体は必ずしも高速化されず,メモリ アクセスも含めた全体のスループットとして高性能化を 考える必要がある. また,これら CPU での演算やメモ リアクセスが計算全体に占める割合は,偏微分方程式の 解法などの用いるスキームによっても異なるため,すべ てのケースー様に効果的に適用可能な高性能化は限られ, これまでは主に,CPU クロックの高速化,メモリアクセ ス高速化等が中心であった. とりわけ,マイクロ波シ ミュレーションで広く用いられている FDTD 法では,計 算時間のほとんどをメモリアクセスに要していることが 知られており,シミュレーションを飛躍的に高速化する には特にスループット性能を意識した検討が必要となる.

FDTD 法のハードウェア化の議論自体は、スキームが非常にシンプルであることもあり早い段階からインフォーマルには議論されていたが、具体的な検討としては、例えば、1992 年の Marek らによる PC ボード化の議論<sup>11</sup>などが見られる. しかしながら、そこでもまだ本格的な実

装は行われていなかったが、その後、PML 吸収境界条件 の提案等, FDTD 法スキーム自体が確立し, さらに, 実 用に耐えうるような FPGA 技術の進展, LSI 回路設計ソフ トの普及, プリント基板作成サービスの低コスト化・充 実化等に伴い、2002年以降本格的な実用化の試みが表れ 始めた<sup>[2]-[9]</sup>. 一方,その直後,GPU 計算機および CUDA 言語の普及により, FDTD 法のハードウェアベース の高速化はむしろ GPU 計算機が主流となり, Acceleware 社等により商用ソフトウェアのオプション製品も発表さ れている. このとき, GPU 計算機により FDTD 法は効 率的に高速化されるものの、しかしながらそれは GPU よ りもむしろ主にそこで用いられている DDR5 等の高速な メモリアクセスに起因しており(次節参照),実際, (さまざまな比較があるので一元的には言えないまでも, 十分チューニングされた ハイエンドの) CPU 計算機と比 較して, 高々, 数倍, 十数倍の性能に留まり, 必ずしも GPU 本来の高性能性は発揮できていない. それに加え, GPU 計算機では、メインメモリは、高々、6 GB 程度であ り高性能計算が必要な大規模計算では十分でなく、これ も、必ずしも GPU 計算機が FDTD 法シミュレーションで 広く普及していない要因の一つにもなっている.

## 3. FDTD 法データフローマシン

標準的な FDTD 法の定式化を下記に示す.

$$E_{x_{i,j,k}}^{n+1} = \frac{1 - \frac{\sigma \Delta t}{2\varepsilon_{x}}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{x}}} E_{x_{i,j,k}}^{n-1} + \frac{\frac{\Delta t}{\varepsilon_{x}\Delta l}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{x}}} \left[ H_{z_{i,j,k}}^{n} - H_{z_{i,j-1,k}}^{n} - H_{y_{i,j,k}}^{n} + H_{y_{i,j,k-1}}^{n} \right] (1)$$

$$E_{y_{i,j,k}}^{n+1} = \frac{1 - \frac{\sigma \Delta t}{2\varepsilon_{y}}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{y}}} E_{y_{i,j,k}}^{n-1} + \frac{\frac{\Delta t}{\varepsilon_{y}\Delta l}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{y}}} \left[ H_{x_{i,j,k}}^{n} - H_{x_{i,j,k-1}}^{n} - H_{z_{i,j,k}}^{n} + H_{z_{i-1,j,k}}^{n} \right]$$

$$E_{z_{i,j,k}}^{n+1} = \frac{1 - \frac{\sigma \Delta t}{2\varepsilon_{z}}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{z}}} E_{z_{i,j,k}}^{n-1} + \frac{\frac{\Delta t}{\varepsilon_{y}\Delta l}}{1 + \frac{\sigma \Delta t}{2\varepsilon_{z}}} \left[ H_{y_{i,j,k}}^{n} - H_{y_{i-1,j,k}}^{n} - H_{x_{i,j,k}}^{n} + H_{x_{i,j-1,k}}^{n} \right]$$

$$H_{x_{i,j,k}}^{n} = H_{x_{i,j,k}}^{n-1} - \frac{\Delta t}{\mu_{x}\Delta l} \left[ E_{z_{i,j+1,k}}^{n} - E_{z_{i,j,k}}^{n} - E_{y_{i,j,k+1}}^{n} + E_{z_{i,j,k}}^{n} \right]$$

$$H_{y_{i,j,k}}^{n} = H_{y_{i,j,k}}^{n-1} - \frac{\Delta t}{\mu_{y}\Delta l} \left[ E_{x_{i,j,k+1}}^{n} - E_{x_{i,j,k}}^{n} - E_{z_{i+1,j,k}}^{n} + E_{z_{i,j,k}}^{n} \right]$$

$$H_{z_{i,j,k}}^{n} = H_{z_{i,j,k}}^{n-1} - \frac{\Delta t}{\mu_{y}\Delta l} \left[ E_{y_{i+1,j,k}}^{n} - E_{y_{i,j,k}}^{n} - E_{z_{i+1,j,k}}^{n} + E_{z_{i,j,k}}^{n} \right]$$

すなわち, FDTD 法により1格子分の電磁場6成分を計算 する際には、加減乗除算が36回程度必要で、それを計算 するためにメモリから取り寄せる電磁場の値(右辺)は 33 個程度ある. 単純計算で上記加減乗除算を1つの浮 動小数点演算と見なすと、例えば1TFLOPSのCPUでは、 毎秒27 Gグリッドの計算が可能であるが、一方、CPUと メモリ間のメモリバンドを25 GB/secとすると、毎秒95M グリッド分のみの計算に必要なデータしかメモリアクセ

スできないことになる. すなわち, FDTD 法では, メモ リアクセスに要する時間は、CPU での処理時間の約 300 倍となっていることがわかる. 実際には,上式右辺の 電磁場成分の一部は次の隣の格子を計算する際に再利用 できるためキャッシュに保管しておきメモリアクセス数 を削減するなどの工夫や、より広いメモリバンド幅を仮 定するとそれらの時間の差は小さくなるものの、それで したがって、ノイマンアーキテ も数十倍の差はある. クチャに存在するこのメモリアクセスのボトルネックを 本質的に解消しない限り, FDTD 法の飛躍的な高速化は望 めない. このような背景から, データフローアーキテ クチャと称して下記の FDTD 法専用計算機が提案された.

図1にデータフローアーキテクチャ FDTD 法専用計算 機<sup>[10]</sup>の概要を示す. 上述のノイマンボトルネックを回 避すべく, 電磁場の値はすべて格子空間と同様に配置さ れたレジスタに格納することとし、それらを図1(b)に示 すような FDTD 法が自動的に計算される演算回路を介し 接続することにより,システムクロックに同期して(プ ログラムなしで) 自動的に FDTD 法が計算される. のとき、3次元格子全体にこの演算回路を配置するには、 最上位 FPGA でも到底ハードウェアサイズが足りないた め、実際には図1(b)の演算回路は格子空間最下層のみに 配置し、その他の上段層には電磁場を格納するレジスタ のみが配置され、最下層での FDTD 法の計算を行う毎に、 1層ずつシフトダウンし値を入れ替えながら全空間の計 算を行う(図1(a)参照). これでも,格子空間の x-y 面の電場/磁場の各3成分を一度のクロック動作で計算 できることになる. このとき,一般に,専用ハードウ ェアでは、柔軟に様々な数値モデルを計算することが容 易でないという問題があるが,これに対しては図1(c)の ように、単位格子回路を通常格子と PML 吸収境界条件格 子の共通設計とし、また各格子での媒質定数を格納する レジスタを設けておくことで,計算に先立ちホスト計算 機から専用計算機にダウンロードする情報を変更するだ けで、すなわち、ハードウェア回路には全く変更加える ことなく、様々な数値モデルに対する汎用性を持たせる このアーキテクチャは、実際、VHDL ことができる. により回路設計され、論理シミュレーションによって動 作確認が行われている. さらに、比較的小規模な FPGA で 12 x 8 x 38 格子空間を 50 MHz のクロック速度で計算す ることを想定した場合で、毎秒約2Gグリッドの処理速

度, すなわち GPU 計算機の約 10 倍の性能見積りが得ら さらにもう一つ専用計算機の方法の欠点と れている. 考えられている問題が大規模計算への対応であり,実際, 図1の方式を FPGA で実現する場合,発売予定の最もハ イエンドな FPGA でもわずか 32 x 64 x 480 程度の格子空間 一方,本来,本専用計算機は並列時の が限度となる. スケーラビリティは高く、これを 16 x 8 に2次元配列し 直結すれば、約 500 x 500 x 500 サイズの格子空間を、毎 秒約6.4 T グリッドで FDTD 法シミュレーションが可能と なる計算となるが、もちろん、莫大なコスト、実装可能 性等,その前に解決すべきことが多くある. したがっ て、まずはその前に単一 FPGA に領域分割法を実装する などの対策が必要であるとも考えられる.

## 4. まとめ

専用計算機の方法による高性能マイクロ波シミュレー タの概要,および FDTD 法データフローマシンの開発に ついて報告した. 領域分割法実装など残された課題は あるものの,既に実現可能性が見えるところまで来てい ることを説明した. 同様な試みはマイクロ波のみなら ず、静電場・静磁場、渦電流場にも可能であるとも考え ており、今後、これらについても検討する必要もある.

#### 参考文献

- J.R.Marek, M.A.Mehalic, A.J.Terzuoli, Conf. Proc. 8th Annu. Rev. [1] Progress in Applied Compu. Electromagnetics, 1992, pp.546-553.
- [2] H.Kawaguchi and K.Takahara, Record of Conference on the Computation of Electromagnetic Fields (COMPUMAG-Evian), (2001, July, Evian, France), p.I-34.
- P.Placidi, L.Verducci, G.Matrella, L.Roselli, P.Ciampolini, IEICE [3] Trans. Electron., Vol.E85-C, No.3, pp.572-577, March, 2002.
- Schneider, R.N, Okoniewski, M.M., Turner, L.E, Microwave and [4] Wireless Components Letters, IEEE Microw. Wireless Compon. Lett., Vol:12, Issue:1, pp.488-490, 2002.
- H.Kawaguchi, K.Takahara, D.Yamauchi, IEEE Transactions on [5] Magnetics, Vol:38, Issue:2, pp.689-692, 2002.
- [6] J.P.Durbano, et al., IEEE Antennas and Wireless Propagation Letters, Vol.2, pp.54-57, 2003.
- [7] S.Matsuoka, K.Ohmi and H.Kawaguchi, IEICE Trans. Electron., Vol.E86-C, No.11, pp.2199-2206, 2003
- [8] K.Sano, Y.Hatsuda, L.Wang, S.Yamamoto, Interdisciplinary Information Sciences, Vol:15, Issue:1, pp.67-78, 2009
- [9] Y.Fujita and H.Kawaguchi, International Journal of Applied Electromagnetics and Mechanics, Vol.32, No.3, pp.145-157, 2010
- [10] H. Kawaguchi, S. Matsuoka, IEEE Transactions on Magnetics, Vol.51, Issue 3, 7202404, 2015.



