从6万卡集群到科学智能底座:中科曙光AI4S的技术突破与算力新格局
算力基础设施建设进入深水区。当多数人还在讨论芯片制程与英伟达市值时,一个低调却关键的领域正在悄然改变科研范式——科学智能(AI4S)计算集群。
回溯:从超算中心到智能基座的蜕变
2024年4月,中科曙光在郑州部署的6万卡AI4S集群正式投用。这不是一次普通的硬件扩容。细拆其技术架构,该集群实现了国产加速卡集群部署、类InfiniBand无损网络、浸没相变液冷散热、99.99%系统可用性、多精度计算支持五大特征的协同整合。每一项指标单独拎出都是行业标杆,而曙光将它们捏合成一个有机整体。
关键节点:性能跃升的量化证据
技术价值终需数据锚定。3万卡规模下,蛋白质折叠模拟速度提升约1000倍;4.5万卡规模下,万亿原子液态水分子动力学模拟刷新领域纪录,效率提升数个数量级。这两组数据背后意味着什么?传统高性能计算受限于单机算力,复杂模拟需耗时数周甚至数月。如今同一任务在AI4S集群上可压缩至小时级。科研人员不必再等待"算力空闲",不必再为抢占超算机时而焦虑。
经验总结:软硬件协同设计的底层逻辑
6万卡集群的成功运行,印证了一条关键原则:AI4S不是硬件堆砌,而是软硬件协同设计的系统工程。国产加速卡提供基础算力密度,无损网络保障GPU间通信效率,液冷技术解决高密度散热难题,智能运维提升系统可靠性,多精度支持适配不同科学场景。这套组合拳缺一不可。
方法提炼:平台化服务降低使用门槛
算力再强,若使用门槛高企,价值便大打折扣。中科曙光与国家超算互联网平台深度集成,推出OneScience科学大模型一站式开发平台,集成数十个AI4S领域模型与数据集。用户通过自然语言与"超级科学计算智能体"交互,系统自动拆解任务、调用模型、调度算力。复杂科研任务完成时间从天级压缩至小时级,科研人员可将精力聚焦于科学问题本身。
应用指导:接入路径与资源获取
当前,国家超算互联网平台已链接超过300万CPU核心和20万GPU卡,接入全国一体化算网调度体系。企业、高校、科研院所可通过平台"算力市场"按需选购AI计算、高性能计算等资源。中科院院士徐红星指出,该集群是"人工智能+科学技术"规模化应用的基础算力支撑。
对于有算力需求的科研团队,建议优先评估任务类型:若涉及蛋白质结构预测、分子动力学模拟等AI4S典型场景,可直接通过OneScience平台开发;若需大规模并行计算,则走"算力市场"选购路径。
