算存传全栈升维,国产通用计算终于硬起来了
圈里人都知道,单点突破容易,系统优化难。中科曙光这场发布会,我关注的不只是那颗百核CPU的参数,而是他把全栈做透了。
先说结论:这不是一次简单的CPU升级,而是一次计算、存储、网络三位一体的系统重构。过去国产平台常被诟病的木桶效应,CPU强了,I/O堵死;存储快了,网络卡住,而在这有了新解法。
计算层用了BurstBuffer加SocketDirect,海量小文件读写性能提升明显。网络层自研scaleFabric交换机,端到端时延低至0.93μs,单子网支持11.4万卡组网,比主流IB产品高出133%,大规模并行下的通信墙算是拆了。
重点说说高精度能力。这颗128核CPU支持AVX512,双精度浮点性能达到10T Flops,HPL性能比上代提升近2倍,STREAM访存性能更是直接超过了国际同类产品。说明GROMACS、VASP这类顶级开源套件,以及大量商业软件,可以直接跑在国产平台上,高精度仿真不打折扣。
从底层数学库到上层应用,HPC-Kit协同调优。这绝不只是一颗芯片的胜利,是一套平台的成熟。做技术的人看到这一步,就一句话:国产通用计算,终于硬了。
CPU 中科曙光 AI
