见解
数值天气预报和数据同化

TempoQuest,一家将天气代码带入加速时代的初创公司

下一代天气和气候建模是一个重要的超级计算应用,但由于模拟地球大气层和数十年来不断发展的遗留代码,仍然极具挑战性。

TempoQuest新闻编辑室
高性能计算线
TempoQuest 新闻中心
2023 年 4 月 18 日
6 分钟阅读
从太空以大约 45 度自上而下观看飓风的卫星视图

天气和气候应用程序是高性能计算最重要的应用程序之一,通常用作 存在理由旗舰工作负载 世界上最强大的超级计算机。但下一代天气和气候建模仍然极其困难,这既是因为任务艰巨,也是因为多年来为应对该任务而开发的代码难以演变。

博尔德初创公司 TempoQuest 正在努力承担部分负担,将最著名的天气代码之一——天气研究和预报 (WRF) 模型——的主要部分移植到 GPU。 高性能计算机线 最近与 TempoQuest 的首席运营官兼首席技术官 Christian Tanasescu 讨论了他们的新天气模型。

WRF对速度的需求

塔纳塞斯库说,今天的 WRF 模型是国家大气研究中心 (NCAR) 和国家海洋和大气管理局 (NOAA) 领导的数十年开发的产物。

他说:“它随着时间的推移而发展,如今达到了成熟的水平,使其成为最常用的代码之一,特别是对于区域模型而言。”他补充说,大国往往有自己的全球模型。 “但当涉及到商业用途时——例如可再生能源、农业、航空、物流、无人驾驶汽车……他们需要的是非常非常高分辨率、精确和超本地化的预测。你无法从政府、国家实验室获得这些预测。”

WRF 满足了其中许多需求,在 160 多个国家/地区拥有数万名用户。但有一个问题:作为基于 Fortran 的代码的极其复杂的概要,WRF 并没有跟上最新、最好的硬件加速,并且主要运行在基于 CPU 的系统上。

Tanasescu 表示,NCAR 和 NOAA 等组织为加速 WRF 模型做出了许多努力,但他补充说,这些努力的重点是加速部分天气模型。 “因为你在 CPU 和 GPU 之间来回移动数据,并且本质上是在 CPU 上执行部分作业,所以这意味着它以混合模式运行,”他说。 “而混合模式并不是最有效的。”

输入 TempoQuest。塔纳塞斯库说,他和他的同事几年前就注意到了加速器的发展趋势,并在天气和气候模型领域看到了机遇。现在,TempoQuest 作为独立软件供应商 (ISV) 正在进入由政府组织和开源应用程序主导的市场,该供应商“努力将国家实验室开发的模型应用到当今最强大的超级计算机中”。

GPU WRF,别名 AceCAST

经过多年的开发努力,TempoQuest团队生产了他们在与科学界交谈时称为“GPU WRF”或在与商业客户交谈时称为“AceCAST”的产品。 TempoQuest 重构了 WRF 的动态核心以及模型的其他关键元素,以构建“完全在 GPU 上运行的新的加速应用程序 - “在 GPU 上,”Tanasescu 说,“这可能是天气和气候方面唯一达到这种级别的 GPU 移植代码。”

在开发过程中,TempoQuest 团队利用了 NCAR 研究,该研究确定了 WRF 结构中最常用的元素,该结构广泛依赖于一组物理方案以及这些物理方案中的一组选项。

“根据这项研究,我们优先考虑将物理学移植到 GPU 上,”Tanasescu 说。 “我们为每个主要方案移植了前三个选项,在某些情况下为四个;通过这套受支持的物理方案选项,我们可以运行当今使用的大多数天气预报的 85% 以上。”

虽然这确实意味着 AceCAST 是 WRF 的子集,而不是完整的移植版本,但 Tanasescu 表示,对于这 85% 的预测,该模型完全成立。 “大概,”他说,在节点到节点的基础上,AceCAST 比 WRF 快大约 10-16 倍,并且相对于四 GPU 系统保持资源成本不变。在该范围的 10 倍左右,AMD 的 Epyc“Milan”CPU; 16× 侧周围,Intel CPU。

Tanasescu 提供了一个图表来说明这种效果,显示了运行时间 Microsoft Azure 对于基于 GPU 的单个实例上的 AceCAST(具体来说, ND A100 v4 实例,其中包括 8 个 Nvidia A100 GPU)与 Azure 基于 CPU 的实例(特别是 AMD Epyc 驱动的实例)上的 WRF 乙型肝炎病毒3 实例)为二、四和八的倍数。

HPCwire_1.png

WRF 在基于 CPU 的实例(2、4 和 8 的倍数)上的运行时与 AceCAST 在 Microsoft Azure 上基于单个 GPU 的实例上的运行时。图片由 TempoQuest 提供。

Tanasescu 表示,如果保持性能不变,运行 CPU WRF 的成本大约高出三倍。或者,在保持运行时间和成本不变的情况下,用户可以使用 AceCAST 提高分辨率; Tanasescu 表示,“高级”WRF 型号通常以 3 公里分辨率运行,而 WRF 可以使用相同的资源以 1 公里或更短的分辨率运行。塔纳塞斯库补充说,通过这样做,“我们发现了与真实情况更好的相关性”。

AceCAST 中的大部分物理选项都移植到了 OpenACC,而 CUDA 中则有 6 个“计算成本较高”的选项。 Tanasescu 表示,NCAR 每年大约更新 WRF 两次,使 TempoQuest 能够轻松跟上。他说,目前 AceCAST 支持“基本上任何具有 Nvidia GPU 的 [x86] Linux 集群”;该公司“也非常接近在AMD GPU上发布”——包括为百亿亿次Frontier系统以及其他主要超级计算机提供动力的MI250X GPU。 AceCAST 系统中的每个 GPU 仅使用一个 CPU 核心,并且仅用于作业初始化和 I/O 任务。

HPCwire_2.png

AceCAST的资源利用图解。图片由 TempoQuest 提供。

Tanasescu 表示,TempoQuest 还计划支持英特尔 Max 系列 GPU(née Ponte Vecchio),用于阿贡国家实验室即将推出的百亿亿次 Aurora 超级计算机。他表示,阿贡国家实验室的研究人员一直在气候研究中使用 GPU WRF 的集成运行,并引用了之前与阿贡国家实验室和 Nvidia 的合作,其中该模型的一个版本能够在橡树岭国家实验室的 Summit 超级计算机上扩展到 512 个节点(约 3,000 个 GPU)。 (这种扩展对于 TempoQuest 来说是极端的,Tanasescu 表示大多数 AceCAST 作业使用 4 到 12 个 GPU。)

HPCwire_3.png

Summit 上 CPU WRF 与 GPU WRF 的扩展测试。图片由 TempoQuest 提供。

TempoQuest的策略

市场采用对于 TempoQuest 来说一直是一个挑战。 Tanasescu 表示,作为一家小型初创公司,“缺乏可见性”对他们来说是一个问题(“很少有人知道存在这种能力!”)。他补充说,国家实验室和 NOAA 等利益相关者习惯于开源应用程序,这使得 AceCAST 的专有性质成为采用的障碍,而小客户对 GPU 的访问有限也是另一个障碍,但另一方面,他表示,系统运营商面临的为 GPU 密集的旗舰超级计算机寻找应用程序的压力是一个福音。

Tanasescu 表示,对于商业客户,AceCAST 直接作为软件订阅提供,并通过基于云的软件即服务 (SaaS) 模型提供,该模型运行在 Rescale (后端开启 AWS 和蔚蓝)。 TempoQuest 还创建了一个自动建模工作流程 (AMF),作为“AceCAST 的一种包装器”,它处理预测工作流程必需或理想的功能,但这些功能不包含在 WRF 中(例如预处理、网格生成和可视化)。 Tanasescu 表示,TempoQuest 的可再生能源客户使用 AceCAST 来预测风廓线和太阳辐照度,以进行能源产量估算。 TempoQuest 还与卫星公司合作,将专有卫星数据纳入天气模型中,以支持航天发射场发射的超本地预测等用例。

Tanasescu 确实补充说,TempoQuest 正在考虑是否放松其闭源状态,并引用了与政府实验室正在进行的讨论。但目前,用 Tanasescu 的话说,TempoQuest 仍然是“天气和气候领域唯一真正的 HPC ISV”。

#数值天气预报和数据同化 #计算资源和高性能计算 #天气技术公司和解决方案