Conozca a TempoQuest, una startup que lleva el código meteorológico a la era acelerada

Las aplicaciones meteorológicas y climáticas son algunas de las más importantes para la informática de alto rendimiento y a menudo sirven como razones de ser y cargas de trabajo emblemáticas para las supercomputadoras más poderosas del mundo. Pero la modelización meteorológica y climática de próxima generación sigue siendo extraordinariamente difícil, debido tanto a la enormidad de la tarea como al código difícil de evolucionar que se ha desarrollado para afrontarla a lo largo de muchos años.

Startup basada en Boulder TempoQuest está trabajando para asumir parte de esa carga, trasladando partes importantes de uno de los códigos meteorológicos más destacados, el modelo de pronóstico e investigación meteorológica (WRF), a las GPU. cable HPC Hablé recientemente con Christian Tanasescu, director de operaciones y director de tecnología de TempoQuest, sobre su nuevo modelo meteorológico.

La necesidad de velocidad del WRF

El modelo WRF actual, dijo Tanasescu, es producto de varias décadas de desarrollo liderado por el Centro Nacional de Investigación Atmosférica (NCAR) y la Administración Nacional Oceánica y Atmosférica (NOAA).

"Creció con el tiempo, alcanzando hoy un nivel de madurez que lo convierte en uno de los códigos más utilizados, en particular para los modelos regionales", dijo, añadiendo que las naciones más grandes tienden a tener sus propios modelos globales. "Pero cuando se trata de uso comercial, como energía renovable, agricultura, aviación, logística, vehículos no tripulados... Lo que necesitan son pronósticos de muy, muy alta resolución, precisos e hiperlocales. No lo obtienen del gobierno, de los Laboratorios Nacionales".

WRF satisface muchas de esas necesidades, con decenas de miles de usuarios en más de 160 países. Pero hay un problema: como compendio inmensamente complejo de código basado en Fortran, WRF no ha estado a la altura de lo último y lo mejor en aceleración de hardware, y se ejecuta predominantemente en sistemas basados en CPU.

Tanasescu dijo que se han realizado muchos esfuerzos para acelerar los modelos WRF en organizaciones como NCAR y NOAA, pero agregó que estos esfuerzos se centraron en acelerar partes de los modelos meteorológicos. "Debido a que se mezclan los datos entre CPU y GPU y, esencialmente, se ejecuta parte del trabajo en la CPU, significa que se ejecuta en modo híbrido", dijo. "Y el modo híbrido no es el más eficaz".

Introduzca TempoQuest. Tanasescu dijo que él y sus colegas notaron el movimiento hacia los aceleradores hace algunos años y vieron una oportunidad en el espacio de los modelos meteorológicos y climáticos. Ahora, TempoQuest está entrando en un mercado dominado por organizaciones gubernamentales y aplicaciones de código abierto como proveedor de software independiente (ISV) que "se esfuerza por llevar los modelos desarrollados en los laboratorios nacionales a las supercomputadoras más potentes de la actualidad".

GPU WRF, alias AceCAST

Después de un esfuerzo de desarrollo de varios años, el equipo TempoQuest produjo lo que llaman “GPU WRF” cuando hablan con la comunidad científica o “AceCAST” cuando hablan con clientes comerciales. TempoQuest refactorizó el núcleo dinámico de WRF, junto con otros elementos clave del modelo, para crear una aplicación nueva y acelerada que se ejecuta "completamente en GPU". exclusivamente en GPU", dijo Tanasescu. "Es probablemente el único código sobre tiempo y clima que ha logrado este nivel de portabilidad a GPU".

Durante el desarrollo, el equipo del TempoQuest utilizó un estudio del NCAR que identificó los elementos más utilizados de la estructura del WRF, que se basa en términos generales en un conjunto de esquemas físicos y conjuntos de opciones dentro de esos esquemas físicos.

"Basándonos en ese estudio, priorizamos que la física se trasladara a la GPU", dijo Tanasescu. "Hemos adaptado las tres opciones principales para cada esquema principal, o cuatro, en algunos casos; con este conjunto de opciones de esquemas de física compatibles, podemos ejecutar más del 85 % de la mayoría de los pronósticos meteorológicos que se utilizan en la actualidad".

Si bien esto significa que AceCAST es un subconjunto de WRF, no una adaptación completa, Tanasescu dice que para ese 85% de los pronósticos, el modelo se mantiene firme. "Aproximadamente", dijo, el AceCAST es entre 10 y 16 veces más rápido que el WRF nodo a nodo, manteniendo constante el costo de los recursos en comparación con un sistema de cuatro GPU. Alrededor del lado 10× de ese rango, las CPU Epyc “Milan” de AMD; alrededor del lado 16×, CPU Intel.

Tanasescu proporcionó un gráfico que ilustra este efecto, mostrando tiempos de ejecución en zqq1zx para AceCAST en una instancia individual basada en GPU (específicamente, una ND A100 v4 instancia, que incluye ocho GPU Nvidia A100) en comparación con WRF en instancias basadas en CPU de Azure (específicamente, con tecnología AMD Epyc HBv3 instancias) en múltiplos de dos, cuatro y ocho.

Tiempo de ejecución para WRF en instancias basadas en CPU (en múltiplos de 2, 4 y 8) versus AceCAST en una única instancia basada en GPU en Microsoft Azure. Imagen cortesía de TempoQuest.

Si se mantiene el rendimiento constante, dijo Tanasescu, el costo de ejecutar la CPU WRF es aproximadamente tres veces mayor. Alternativamente, manteniendo constante el tiempo de ejecución y el costo, los usuarios podrían aumentar la resolución con AceCAST; Los modelos WRF “avanzados” normalmente funcionan con una resolución de 3 km, dijo Tanasescu, mientras que el WRF puede utilizar los mismos recursos para funcionar a 1 km o menos. "Hemos visto una correlación mucho mejor con la verdad sobre el terreno" al hacer esto, añadió Tanasescu.

La mayoría de las opciones físicas en AceCAST se trasladaron a OpenACC, mientras que seis opciones "computacionalmente costosas" están en CUDA. Tanasescu dijo que NCAR actualiza el WRF aproximadamente dos veces al año, lo que facilita que el TempoQuest se mantenga al día. En este momento, dijo, AceCAST admite “esencialmente cualquier clúster Linux [x86] que tenga GPU Nvidia”; la compañía está “muy cerca de lanzarlo también en las GPU de AMD”, incluidas las GPU MI250X que impulsan el sistema Frontier de exaescala, entre otras supercomputadoras importantes. AceCAST utiliza solo un núcleo de CPU por GPU en el sistema y solo para la inicialización de trabajos y tareas de E/S.

Una ilustración de la utilización de recursos de AceCAST. Imagen cortesía de TempoQuest.

Tanasescu dice que TempoQuest también planea admitir las GPU de la serie Max de Intel (de soltera Ponte Vecchio) para su uso en la próxima supercomputadora a exaescala Aurora del Laboratorio Nacional Argonne. Dijo que los investigadores de Argonne han estado utilizando series de GPU WRF en sus estudios climáticos y citó una colaboración anterior con Argonne y Nvidia en la que una versión del modelo pudo escalar a través de 512 nodos (alrededor de 3000 GPU) en la supercomputadora Summit del Laboratorio Nacional Oak Ridge. (Ese tipo de escalado es extremo para TempoQuest, y Tanasescu dice que la mayoría de los trabajos de AceCAST utilizan entre cuatro y 12 GPU).

Pruebas de escalado para CPU WRF versus GPU WRF en Summit. Imagen cortesía de TempoQuest.

La estrategia de TempoQuest

La adopción del mercado ha sido un desafío para TempoQuest. Tanasescu dijo que, al ser una pequeña startup, la “falta de visibilidad” era un problema para ellos (“¡Muy pocas personas saben que existe tal capacidad!”). Añadió que las partes interesadas como los Laboratorios Nacionales y la NOAA están acostumbradas a aplicaciones de código abierto, lo que hace que la naturaleza patentada de AceCAST sea una barrera para su adopción, y que el acceso limitado a las GPU por parte de clientes más pequeños ha sido otra barrera; aunque, en la otra cara de esa moneda, dijo que la presión sobre los operadores de sistemas para encontrar aplicaciones para supercomputadoras emblemáticas con muchas GPU ha sido una bendición.

Para los clientes comerciales, Tanasescu dijo que AceCAST se ofrece directamente como una suscripción de software y a través de un modelo de software como servicio (SaaS) basado en la nube que se ejecuta en Rescale (con backend encendido AWS y Azur). TempoQuest también creó un flujo de trabajo de modelado automatizado (AMF) que sirve como una “especie de contenedor alrededor de AceCAST”, que maneja funciones que son necesarias o deseables para un flujo de trabajo de pronóstico, pero que no están incluidas en WRF (por ejemplo, preprocesamiento, generación de cuadrícula y visualización). Tanasescu dijo que los clientes de energía renovable de TempoQuest utilizan AceCAST para pronosticar el perfil del viento y la irradiancia solar para las estimaciones de producción de energía. TempoQuest también está trabajando con compañías de satélites para incorporar datos satelitales patentados en modelos meteorológicos para respaldar casos de uso como pronósticos hiperlocales para lanzamientos de puertos espaciales.

Tanasescu añadió que TempoQuest está considerando flexibilizar o no su estatus de fuente cerrada, citando discusiones en curso con laboratorios gubernamentales. Pero, por ahora, TempoQuest sigue siendo, en palabras de Tanasescu, “el único verdadero ISV de HPC en tiempo y clima”.

#Predicción numérica del tiempo y asimilación de datos #Recursos Computacionales y Computación de Alto Rendimiento #Empresas y Soluciones de Tecnología Meteorológica

Conozca a TempoQuest, una startup que lleva el código meteorológico a la era acelerada

La necesidad de velocidad del WRF

GPU WRF, alias AceCAST

La estrategia de TempoQuest

Más de TempoQuest

Asociación TempoQuest y FOX Weather

Microsoft y Tempoquest colaboran con Acecast para acelerar los pronósticos de energía eólica