(文/陈济深 编辑/张广凯)

春节前夕,江苏兴化,一条148米长的生产线正在进行最后的试运行调试。

这是目前国内最长的直通式算力服务器产线——从裸板上线到整机下线,一台4U 8卡算力服务器走完全程,满产状态下只需要5分钟。服务器下线后,在经历连续三天三夜满负荷运行、模拟真实算力中心极端工况的老化测试后,将被发往承德、石家庄、兴化等地的万卡集群项目,成为国产智算中心的一块块基石。

算力服务器组装生产线

“一个服务器也就生产一瓶酱油的时间,”汉腾科技董事长王皓霆对观察者网表示,“以前叫深圳速度,现在我们叫汉兴速度。”

作为一座以不锈钢和健康食品闻名的苏中小城,兴化在历史上没有任何算力和AI的产业基础,但王皓霆看中的恰恰是这种“白纸”状态——没有历史包袱,地方政府全力配合,从基建到投产的速度被压缩到了极限。这条投资11亿元、预计年产10万台的算力服务器产线,从签约到投产仅仅花了180天。

而这条产线投产的时间节点,恰好踩在了国产算力需求爆发的临界点上。

工信部数据显示,随着近年来我国AI行业迅速发展,我国智算规模已达1590 EFLOPS。2026年已被产业界视为国产算力规模部署元年,字节跳动、腾讯、百度对国产算力服务器的导入目标普遍较上一年翻倍增长。而在国际地缘复杂的背景下,国产算力自主可控的紧迫性更加凸显。

在这个背景下,观察者网在春节前走访了江苏兴化汉腾科技产线现场和无锡的太初元碁硬件研发中心实验室。兴化这条148米产线上发生的事,就不仅仅是一家企业的投产故事,而是中国国产算力产业链从“能用”迈向“规模化部署”的一个缩影。

“拖拉机先过去,路好了车也就好了”

在产线上,观察者网抛出一个被反复讨论的问题:国产算力制程并非全球顶尖水平,面对日新月异的行业迭代速度,市场是否会为此买单?

王皓霆对此打了一个比方:“国家修了国道,你非要只跑法拉利,没有必要。”

工人正在产线做装配试运行测试

全球最先进制程的芯片当然是“法拉利”,但国道从来不是给法拉利单独修的。王皓霆认为,目前8到12纳米制程的芯片,足以覆盖未来两到三年的主流算力需求——真正可能闲置的,反而是那些远超当前应用场景所需的过高制程产品。

“不是说先进制程不重要,而是现阶段我们的‘路’——也就是应用场景和基础设施——还没修到需要跑法拉利的程度。先把拖拉机跑起来,把路跑通了,车自然会升级。”王皓霆解释道。

事实上,“拖拉机”们已经在路上跑出了成绩。

监控全球大模型实际调用的平台OpenRouter的最新数据正是一个鲜明注脚,春节期间全球Token调用量前十中,中国模型占据四席、份额过半,而支撑这些模型运行的,相当一部分正是基于国产算力的推理集群。市场并没有因为制程不是最先进就拒绝国产算力,恰恰相反,当模型跑得足够好,用户根本不关心底层芯片是几纳米——他们关心的是响应速度和调用成本。

这种务实逻辑在兴化产线上得到了具体体现。这里生产的服务器搭载的是龙芯3C6000处理器和太初元碁自研的T100 AI加速卡——对当前阶段的算力需求来说够用、管用,完全自主可控,供应链稳定,性价比合理。用王皓霆的话说,现在要做的不是造法拉利,而是先让足够多的拖拉机上路。

在距离兴化约200公里的无锡惠山,太初元碁的硬件研发中心实验室里,科研人员正在进行另一道关键工序:将国产AI芯片经过测试、封装,“变”为AI加速卡,再插装至对应服务器中,进行大规模软硬件协同调试。至此,这台服务器就初步具备了为大模型提供AI算力的能力。

太初元碁的技术路线与国内主流的GPGPU架构厂商不同。它脱胎于国家超级计算无锡中心和清华大学团队,采用的是异构众核架构——简单说,就是不追求单一芯片的绝对性能,而是通过将不同类型的计算单元有机集成,让系统整体算力最大化。

太初元碁首席产品官洪源对观察者网表示:“异构的核心在于将不同类型的算力与不同特长的算力有机系统化结合”,而不能“简单地认为异构就是把不同的处理器堆积起来”。

这种思路其实呼应了王皓霆的“拖拉机论”:不追求单点最强,而是追求系统最优。

这条路已经开始跑通。2026年初,基于国产芯片训练的AI大模型密集落地:智谱联合华为开源的GLM-Image成为首个依托国产芯片实现全程训练的SOTA多模态模型;中国电信开源的千亿级星辰大模型也在上海临港国产万卡算力池上完成全流程训练。

国产算力已经不再是实验室里的样品,而是在跑真实的训练任务。

“算力服务器不是拼积木,是一道系统工程题”

在很多人的认知里,算力服务器就像拼积木一样把芯片插进机箱,但实际并非如此。

在产线上,王皓霆指着一台正在组装的4U服务器解释:“算力服务器的核心技术在适配。一个是CPU和GPU之间的适配,还有一个就是里面的线路、冷却方案。不同的芯片,你采用不同的元器件进行适配,它会呈现不同的性能。”

他打了一个更形象的比方:“四缸汽车和八缸汽车,并非互换发动机就能无缝运行。”

这意味着,一台算力服务器内部,CPU负责调度,GPU负责加速计算,供电方案影响算力释放效率,冷却方案决定芯片能否长期稳定运行——都不是简单拼装,而是深度耦合的系统工程。“也可以通过电和冷却方案来提升算力,这跟大家以为的'芯片决定一切'是不一样的。”

这也是汉腾选择联合龙芯、太初元碁、台达组成“国产梦之队”的原因。龙芯3C6000提供完全自主可控的CPU,王皓霆管它叫“一本全汉字写的字典”,从指令集到微架构全部自主研发;太初T100提供AI加速卡;台达提供电源和冷却方案——三者之间需要大量的适配和调试工作,才能让一台服务器释放出最大算力。

这也意味着,国产算力服务器的壁垒不仅仅在于某个单一的高精尖技术,而在于把产业链各环节打通、协同起来的系统集成能力。除了有人做具体部件的突破,各环节之间的适配和磨合,同样需要有人来做这个“系统集成者”。

而这道系统工程题,放大到集群层面,难度还要再上一个量级。

“外面经常说万卡万卡,好像一万张卡就是一万张卡。其实万卡是一个难度标准,它不是一个体量标准。”王皓霆对观察者网表示。

一万张卡意味着数千台服务器、数万条高速互联线路、庞大的供电和冷却系统,以及极其复杂的软件调度——单台服务器内部的适配难题,在集群层面被放大数千倍。

王皓霆透露,汉腾已签署五大万卡集群建设合作协议,分布在承德、石家庄、兴化等地,面向金融、医疗、物流等行业场景。“先把我们自己的模型用自己的卡跑起来,了解了实际的流程才能最终实现国产替代。”

“电没增加,算力就增加了”

当外界的目光全部集中在芯片厂的“纳米之战”上时,算力产业正在物理世界撞上另一堵墙——电力。

王皓霆算了一笔账:传统通用服务器时代,单机柜功率超过12千瓦的都极少。现在,一台4U 8卡的智算服务器满载功耗就逼近5.4千瓦,一个机柜塞进8台,轻松突破40千瓦。这意味着,过去数据中心的配电网络、变压器乃至整体能耗指标(PUE),全部面临“超载”的瘫痪风险。

由于数据中心的高能耗特性,各地政府对数据中心的电网容量管控越来越严——一个智算中心能拿到的总电量,几乎是锁死的。

芯片制程短期内沿着既有节奏推进,总电量也加不上去。怎么办?