洞察
数値天気予報とデータ同化

気象コードを加速時代に導入するスタートアップ、TempoQuest を紹介します

次世代の気象および気候モデリングは重要なスーパーコンピューティング アプリケーションですが、地球の大気と数十年にわたって進化したレガシー コードをシミュレートするため、依然として非常に困難です。

TempoQuest ニュースルーム
HPCワイヤー
TempoQuest ニュースルーム
2023 年 4 月 18 日
6 分で読めます
宇宙から見たハリケーンを上から約 45 度の角度で見た衛星写真

気象および気候アプリケーションは、ハイパフォーマンス コンピューティングにとって最も重要なアプリケーションの 1 つであり、多くの場合、次のような役割を果たします。 存在意義 そして 主力ワークロード 世界で最も強力なスーパーコンピューターのために。しかし、次世代の気象と気候のモデリングは、タスクの膨大さと、長年にわたってそのタスクに対処するために開発された進化が難しいコードの両方のせいで、依然として非常に困難です。

ボルダーベースのスタートアップ TempoQuest は、最も著名な気象コードの 1 つである Weather Research and Forecasting (WRF) モデルの主要部分を GPU に移植することで、その負担の一部を負担しようと取り組んでいます。 HPCワイヤー 最近、TempoQuest の COO 兼 CTO である Christian Tanasescu 氏に、新しい気象モデルについて話しました。

WRF のスピードの必要性

タナセスク氏によると、今日のWRFモデルは、国立大気研究センター(NCAR)と米国海洋大気庁(NOAA)が主導する数十年にわたる開発の成果だという。

「それは時間の経過とともに成長し、今日では特に地域モデルで最もよく使用されるコードの 1 つとなる成熟レベルに達しています」と同氏は述べ、大国ほど独自の世界モデルを持つ傾向があると付け加えた。 「しかし、再生可能エネルギー、農業、航空、物流、無人車両などの商業利用となると…彼らが必要としているのは、非常に高解像度で正確かつ超局所的な予測です。政府や国立研究所からは得られません。」

WRF はこれらのニーズの多くを満たしており、160 か国以上で数万人のユーザーがいます。しかし、問題があります。WRF は、Fortran ベースのコードの計り知れないほど複雑な概要であるため、最新かつ最高のハードウェア アクセラレーションに追いついていず、主に CPU ベースのシステムで実行されています。

Tanasescu 氏は、NCAR や NOAA などの組織で WRF モデルを高速化する多くの取り組みが行われてきたと述べましたが、これらの取り組みは気象モデルの一部を高速化することに重点を置いていると付け加えました。 「CPU と GPU の間でデータを行き来し、基本的にジョブの一部を CPU で実行するため、ハイブリッド モードで実行されることになります。」と彼は言いました。 「そして、ハイブリッド モードが最も効果的というわけではありません。」

TempoQuestと入力します。タナセスク氏は、彼と彼の同僚が数年前に加速器への動きに注目し、気象と気候モデルの分野にチャンスがあると考えたと述べた。現在、TempoQuest は、独立系ソフトウェア ベンダー (ISV) として、政府機関とオープンソース アプリケーションが支配する市場に参入しており、「国立研究所で開発されたモデルを最近の最も強力なスーパーコンピューターに導入することに努めています」。

GPU WRF、別名 AceCAST

数年にわたる開発努力を経て、TempoQuest チームは、科学コミュニティ向けには「GPU WRF」、商用顧客向けには「AceCAST」と呼ばれるものを作成しました。 TempoQuest は、モデルの他の主要な要素とともに WRF の動的コアをリファクタリングして、「完全に GPU 上で実行される」新しい高速アプリケーションを構築しました。 独占的に 「これはおそらく、GPU へのこのレベルの移植を達成した気象と気候に関する唯一のコードです。」と Tanasescu 氏は言いました。

開発中、TempoQuest チームは NCAR 調査を利用して、WRF の構造で最もよく使用される要素を特定しました。これは、一連の物理スキームとそれらの物理スキーム内の一連のオプションに広く依存しています。

「その調査に基づいて、GPU に移植する物理演算を優先しました」と Tanasescu 氏は述べています。 「主要なスキームごとに上位 3 つのオプション、場合によっては 4 つを移植しました。このサポートされている物理スキーム オプションのセットにより、現在使用されているほとんどの天気予報の 85% 以上を実行できます。」

これは、AceCAST が WRF のサブセットであり、完全な移植ではないことを意味しますが、Tanasescu 氏は、予測の 85% について、モデルはそれ以上のものであると述べています。同氏は、「大雑把に言って、AceCAST はノード間ベースで WRF より約 10 ~ 16 倍高速であり、4 GPU システムに対してリソース コストを一定に保っています」と述べました。その範囲のおよそ 10 倍側にあるのが、AMD の Epyc「Milan」CPU です。 16x 側のあたり、Intel CPU。

Tanasescu は、この効果を説明する図を提供し、実行時間を示しました。 Microsoft Azure 個々の GPU ベースのインスタンス (具体的には、 ND A100 v4 インスタンス(8 つの Nvidia A100 GPU を含む)と Azure の CPU ベースのインスタンス(特に AMD Epyc を搭載したインスタンス)上の WRF の比較 HBv3 例)2、4、8 の倍数。

HPCwire_1.png

CPU ベースのインスタンス (2、4、8 の倍数) での WRF のランタイムと、Microsoft Azure 上の単一の GPU ベースのインスタンスでの AceCAST のランタイム。画像提供:TempoQuest。

Tanasescu 氏によると、パフォーマンスを一定に保つと、CPU WRF の実行コストは約 3 倍になります。あるいは、ランタイムとコストを一定に保ちながら、AceCAST を使用して解像度を上げることもできます。タナセスク氏によると、「高度な」WRF モデルは通常 3km の解像度で動作するのに対し、WRF は同じリソースを使用して 1km 以下で動作することが可能です。これを行うことで「真実との相関関係がより良くなった」とタナセスク氏は付け加えた。

AceCAST の物理オプションのほとんどは OpenACC に移植されましたが、6 つの「計算コストが高い」オプションは CUDA にあります。 Tanasescu 氏は、NCAR は WRF を年に約 2 回更新するため、TempoQuest も簡単に追いつくことができると述べました。同氏によると、現時点では、AceCAST は「Nvidia GPU を備えた基本的にすべての [x86] Linux クラスター」をサポートしているという。同社は、エクサスケール フロンティア システムや他の主要なスーパーコンピューターに電力を供給する MI250X GPU を含む、「AMD GPU のリリースも非常に近づいています」と述べています。 AceCAST は、システム内の GPU ごとに 1 つの CPU コアのみを、ジョブの初期化と I/O タスクにのみ使用します。

HPCwire_2.png

AceCAST のリソース使用率の図。画像提供:TempoQuest。

Tanasescu 氏によると、TempoQuest は、アルゴンヌ国立研究所の今後のエクサスケール Aurora スーパーコンピューターで使用するために Intel の Max シリーズ GPU (旧姓 Ponte Vecchio) もサポートする予定であるとのことです。同氏は、アルゴンヌの研究者らは気候研究で GPU WRF のアンサンブル実行を使用していると述べ、アルゴンヌと Nvidia との以前の共同作業で、モデルのバージョンをオークリッジ国立研究所のサミット スーパーコンピューター上で 512 ノード (約 3,000 GPU) にまたがって拡張できたことを挙げました。 (この種のスケーリングは TempoQuest では極端であり、Tanasescu 氏によると、ほとんどの AceCAST ジョブでは 4 ~ 12 個の GPU が使用されます。)

HPCwire_3.png

Summit での CPU WRF と GPU WRF のスケーリング テスト。画像提供:TempoQuest。

TempoQuestの戦略

TempoQuest にとって、市場での採用は課題でした。 Tanasescu 氏は、小規模なスタートアップであるため、「知名度の欠如」が問題であると述べました (「そのような機能が存在することを知っている人はほとんどいません!」)。同氏は、国立研究所やNOAAなどの利害関係者はオープンソースアプリケーションに慣れており、AceCASTの独自性が採用の障壁となっており、小規模顧客によるGPUへのアクセスが制限されていることが別の障壁になっていると付け加えた。しかしその一方で、GPUを多用するフラッグシップスーパーコンピュータ向けのアプリケーションを見つけるというシステムオペレータへのプレッシャーが恩恵になっているとも述べた。

Tanasescu 氏は、商用顧客に対して、AceCAST はソフトウェア サブスクリプションとして直接提供され、クラウドベースの SaaS (Software-as-a-Service) モデルを通じて提供されると述べました。 Rescale (バックエンドがオンの場合 AWS とアズール)。 TempoQuest はまた、「AceCAST の一種のラッパー」として機能する自動モデリング ワークフロー (AMF) も作成しました。これは、予測ワークフローに必要または望ましいが、WRF には含まれていない機能 (前処理、グリッド生成、視覚化など) を処理します。 Tanasescu 氏は、TempoQuest の再生可能エネルギーの顧客は AceCAST を使用して、エネルギー生産の推定のために風力プロファイルと太陽放射量を予測すると述べました。 TempoQuest は衛星会社と協力して独自の衛星データを気象モデルに組み込んで、宇宙港打ち上げの超局所予報などのユースケースをサポートしています。

タナセスク氏は、政府研究所との継続的な協議を引き合いに出して、TempoQuestがクローズドソースのステータスを緩和するかどうかを検討していると付け加えた。しかし、今のところ、TempoQuest は、タナセスク氏の言葉を借りれば、「気象と気候における唯一の真の HPC ISV」であり続けます。

#数値天気予報とデータ同化 #計算リソースと高性能コンピューティング #気象テクノロジー企業とソリューション