Lernen Sie TempoQuest kennen, ein Startup, das Wettercode in das beschleunigte Zeitalter bringt

Wetter- und Klimaanwendungen gehören zu den wichtigsten Anwendungen des Hochleistungsrechnens und dienen häufig als solche Daseinsberechtigung Und Flaggschiff-Workloads für die leistungsstärksten Supercomputer der Welt. Die Wetter- und Klimamodellierung der nächsten Generation bleibt jedoch außerordentlich schwierig, sowohl aufgrund der enormen Größe der Aufgabe als auch aufgrund des schwierig zu entwickelnden Codes, der im Laufe vieler Jahre entwickelt wurde, um diese Aufgabe zu bewältigen.

Startup mit Sitz in Boulder TempoQuest arbeitet daran, einen Teil dieser Last zu tragen, indem es große Teile eines der bekanntesten Wettercodes – das Weather Research and Forecasting (WRF)-Modell – auf GPUs portiert. HPCwire sprach kürzlich mit Christian Tanasescu, COO und CTO von TempoQuest, über ihr neues Wettermodell.

WRFs Bedürfnis nach Geschwindigkeit

Das heutige WRF-Modell, sagte Tanasescu, sei das Produkt einer jahrzehntelangen Entwicklung unter der Leitung des National Center for Atmospheric Research (NCAR) und der National Oceanic and Atmospheric Administration (NOAA).

„Es ist im Laufe der Zeit gewachsen und hat heute einen Reifegrad erreicht, der es zu einem der am häufigsten verwendeten Codes macht, insbesondere für regionale Modelle“, sagte er und fügte hinzu, dass größere Nationen tendenziell ihre eigenen globalen Modelle haben. „Aber wenn es um die kommerzielle Nutzung geht – wie erneuerbare Energien, Landwirtschaft, Luftfahrt, Logistik, unbemannte Fahrzeuge … Was sie brauchen, sind sehr, sehr hochauflösende, präzise und hyperlokale Prognosen. Die bekommen Sie nicht von der Regierung, von den National Labs.“

WRF erfüllt viele dieser Anforderungen mit Zehntausenden von Benutzern in mehr als 160 Ländern. Aber es gibt ein Problem: Als unermesslich komplexes Kompendium von Fortran-basiertem Code hat WRF nicht mit den neuesten und besten Hardwarebeschleunigungen Schritt gehalten und wird überwiegend auf CPU-basierten Systemen ausgeführt.

Tanasescu sagte, dass es bei Organisationen wie NCAR und NOAA viele Anstrengungen gegeben habe, WRF-Modelle zu beschleunigen – fügte jedoch hinzu, dass sich diese Bemühungen auf die Beschleunigung von Teilen der Wettermodelle konzentrierten. „Da man die Daten zwischen CPUs und GPUs hin- und herschiebt und im Grunde einen Teil des Jobs auf der CPU ausführt, bedeutet das, dass er im Hybridmodus läuft“, sagte er. „Und der Hybridmodus ist nicht der effektivste.“

Geben Sie TempoQuest ein. Tanasescu sagte, dass er und seine Kollegen vor einigen Jahren die Entwicklung hin zu Beschleunigern bemerkt hätten und eine Chance im Bereich der Wetter- und Klimamodelle gesehen hätten. Jetzt betritt TempoQuest einen von Regierungsorganisationen und Open-Source-Anwendungen dominierten Markt als unabhängiger Softwareanbieter (ISV), der „bestrebt ist, die in National Labs entwickelten Modelle auf die derzeit leistungsstärksten Supercomputer zu übertragen“.

GPU WRF, alias AceCAST

Nach einer mehrjährigen Entwicklungsarbeit produzierte das TempoQuest-Team das, was sie im Gespräch mit der wissenschaftlichen Gemeinschaft „GPU WRF“ oder im Gespräch mit kommerziellen Kunden „AceCAST“ nennen. TempoQuest hat den dynamischen Kern des WRF zusammen mit anderen Schlüsselelementen des Modells überarbeitet, um eine neue, beschleunigte Anwendung zu erstellen, die „vollständig auf der GPU läuft – ausschließlich auf GPU“, sagte Tanasescu. „Es ist wahrscheinlich der einzige Code im Bereich Wetter und Klima, der diesen Grad der Portierung auf GPUs erreicht hat.“

Während der Entwicklung hatte das TempoQuest-Team eine NCAR-Studie genutzt, die die am häufigsten verwendeten Elemente der Struktur von WRF identifizierte, die im Großen und Ganzen auf einer Reihe von physikalischen Schemata und einer Reihe von Optionen innerhalb dieser physikalischen Schemata beruht.

„Basierend auf dieser Studie haben wir der auf die GPU zu portierenden Physik Priorität eingeräumt“, sagte Tanasescu. „Wir haben die drei besten Optionen für jedes große Schema portiert – oder in manchen Fällen vier; mit diesem Satz unterstützter physikalischer Schemaoptionen können wir über 85 % der meisten heute verwendeten Wettervorhersagen ausführen.“

Dies bedeutet zwar, dass AceCAST eine Teilmenge von WRF und keine vollständige Portierung ist, doch Tanasescu sagt, dass sich das Modell bei diesen 85 % der Prognosen mehr als behaupten kann. „Ballpark“, sagte er, ist AceCAST auf Knoten-zu-Knoten-Basis etwa 10-16-mal schneller als WRF, wodurch die Ressourcenkosten im Vergleich zu einem System mit vier GPUs konstant bleiben. Ungefähr auf der 10-fachen Seite dieses Bereichs liegen AMDs Epyc „Milan“-CPUs; rund um die 16×-Seite Intel-CPUs.

Tanasescu stellte eine Grafik zur Verfügung, die diesen Effekt veranschaulicht und die Laufzeiten zeigt Microsoft Azure für AceCAST auf einer einzelnen GPU-basierten Instanz (insbesondere einer ND A100 v4 Instanz, die acht Nvidia A100-GPUs umfasst) im Vergleich zu WRF auf den CPU-basierten Instanzen von Azure (insbesondere AMD Epyc-basierten Instanzen). HBv3 Instanzen) in Vielfachen von zwei, vier und acht.

Laufzeit für WRF auf CPU-basierten Instanzen (in Vielfachen von 2, 4 und 8) im Vergleich zu AceCAST auf einer einzelnen GPU-basierten Instanz auf Microsoft Azure. Bild mit freundlicher Genehmigung von TempoQuest.

Wenn man die Leistung konstant hält, sind die Kosten für den Betrieb der CPU WRF laut Tanasescu etwa dreimal höher. Alternativ könnten Benutzer bei konstanter Laufzeit und Kosten die Auflösung mit AceCAST erhöhen; „Fortgeschrittene“ WRF-Modelle laufen normalerweise mit einer Auflösung von 3 km, sagte Tanasescu, während WRF die gleichen Ressourcen nutzen kann, um mit einer Auflösung von 1 km oder weniger zu laufen. „Wir haben dadurch eine viel bessere Korrelation mit der Grundwahrheit gesehen“, fügte Tanasescu hinzu.

Die meisten Physikoptionen in AceCAST wurden auf OpenACC portiert, während sechs „rechenintensive“ Optionen in CUDA enthalten sind. Tanasescu sagte, dass NCAR WRF etwa zweimal im Jahr aktualisiert, sodass TempoQuest problemlos mithalten kann. Derzeit, sagte er, unterstützt AceCAST „im Wesentlichen jeden [x86] Linux-Cluster, der über Nvidia-GPUs verfügt“; Das Unternehmen steht „sehr kurz vor der Veröffentlichung auch auf AMD-GPUs“ – einschließlich der MI250X-GPUs, die neben anderen großen Supercomputern das Exascale-Frontier-System antreiben. AceCAST verwendet nur einen CPU-Kern pro GPU im System und nur für Jobinitialisierung und E/A-Aufgaben.

Eine Darstellung der Ressourcennutzung von AceCAST. Bild mit freundlicher Genehmigung von TempoQuest.

Tanasescu sagt, dass TempoQuest auch plant, Intels GPUs der Max-Serie (geb. Ponte Vecchio) für den Einsatz auf dem kommenden Exascale-Supercomputer Aurora des Argonne National Laboratory zu unterstützen. Er sagte, dass Argonne-Forscher in ihren Klimastudien Ensembleläufe der GPU WRF verwendet hätten, und zitierte eine frühere Zusammenarbeit mit Argonne und Nvidia, bei der eine Version des Modells über 512 Knoten (etwa 3.000 GPUs) auf dem Summit-Supercomputer des Oak Ridge National Laboratory skaliert werden konnte. (Diese Art der Skalierung ist für TempoQuest extrem, wobei Tanasescu sagt, dass die meisten AceCAST-Jobs zwischen vier und zwölf GPUs verwenden.)

Skalierungstests für CPU WRF im Vergleich zu GPU WRF auf Summit. Bild mit freundlicher Genehmigung von TempoQuest.

Die Strategie von TempoQuest

Die Marktakzeptanz war für TempoQuest eine Herausforderung. Tanasescu sagte, dass für sie als kleines Startup „mangelnde Sichtbarkeit“ ein Problem sei („Sehr wenige Menschen wissen, dass eine solche Fähigkeit existiert!“). Er fügte hinzu, dass Stakeholder wie die National Labs und NOAA an Open-Source-Anwendungen gewöhnt sind, was den proprietären Charakter von AceCAST zu einem Hindernis für die Einführung macht, und dass der begrenzte Zugang kleinerer Kunden zu GPUs ein weiteres Hindernis darstellte – obwohl er auf der anderen Seite dieser Medaille sagte, dass der Druck auf Systembetreiber, Anwendungen für GPU-lastige Flaggschiff-Supercomputer zu finden, ein Segen gewesen sei.

Für gewerbliche Kunden sagte Tanasescu, dass AceCAST direkt als Software-Abonnement und über ein Cloud-basiertes Software-as-a-Service-Modell (SaaS) angeboten wird, das darauf läuft Rescale (mit eingeschaltetem Backend AWS und Azure). TempoQuest hat außerdem einen automatisierten Modellierungsworkflow (AMF) erstellt, der als „eine Art Wrapper um AceCAST“ dient und Funktionen abwickelt, die für einen Prognoseworkflow notwendig oder wünschenswert sind, aber nicht in WRF enthalten sind (z. B. Vorverarbeitung, Rastergenerierung und Visualisierung). Tanasescu sagte, dass die Kunden von TempoQuest im Bereich erneuerbare Energien AceCAST verwenden, um das Windprofil und die Sonneneinstrahlung für Schätzungen der Energieproduktion vorherzusagen. TempoQuest arbeitet außerdem mit Satellitenunternehmen zusammen, um proprietäre Satellitendaten in Wettermodelle zu integrieren, um Anwendungsfälle wie hyperlokale Vorhersagen für den Start von Weltraumhäfen zu unterstützen.

Tanasescu fügte hinzu, dass TempoQuest erwäge, seinen Closed-Source-Status zu lockern, und verwies auf laufende Gespräche mit Regierungslabors. Aber vorerst bleibt TempoQuest – in Tanasescus Worten – „der einzig wahre HPC-ISV in Wetter und Klima“.

#Numerische Wettervorhersage und Datenassimilation #Rechenressourcen und Hochleistungsrechner #Wettertechnologieunternehmen und -lösungen

Lernen Sie TempoQuest kennen, ein Startup, das Wettercode in das beschleunigte Zeitalter bringt

WRFs Bedürfnis nach Geschwindigkeit

GPU WRF, alias AceCAST

Die Strategie von TempoQuest

Mehr von TempoQuest

TempoQuest- und FOX Weather-Partnerschaft

Microsoft und Tempoquest arbeiten mit Acecast zusammen, um Windenergieprognosen zu beschleunigen