存算一体服务器技术通过将存储与计算单元深度融合,打破了传统冯·诺依曼架构下“存储墙”和“功耗墙”的瓶颈,显著提升了数据搬运效率与计算能效比,该技术以近存计算或存内计算为核心,大幅缩短数据访问路径,降低延迟与能耗,尤其适用于AI推理、大数据分析等高并发、低延迟场景,其创新架构为数据中心带来性能跃升与绿色低碳的双重优势,正成为推动算力基础设施向高效化、智能化转型的关键新引擎,引领数据中心效能革命的新一轮突破。
传统架构之困:存储墙与功耗墙的双重挑战
冯·诺依曼架构自1945年提出以来,一直是计算机体系结构的主流范式,其核心设计是将计算逻辑(CPU/GPU)与数据存储(内存/硬盘)分离,通过总线进行数据交互,这种“搬运-计算-再搬运”的模式在早期小规模数据处理中表现良好,但随着数据量呈指数级增长,其弊端愈发明显:
其一,数据搬运成为性能瓶颈,以深度学习训练为例,模型参数与训练数据的交互需要频繁在内存、缓存和计算单元之间传输,而总线的带宽有限(如PCIe 5.0单通道带宽仅约32GB/s),远低于存储介质(如DDR5内存带宽约40-50GB/s,HBM高带宽内存可达数百GB/s)与计算单元(如GPU算力可达每秒数十万亿次浮点运算)的能力,导致大量时间浪费在数据迁移上。
其二,能耗效率低下,数据搬运的能耗远高于计算本身——研究表明,在典型的数据中心负载中,数据移动消耗的电能占总能耗的60%-70%,而实际计算仅占30%左右,将1TB数据从内存搬运到CPU进行简单加法运算,搬运过程的能耗可能比加法计算本身高出数百倍。
其三,扩展性受限,随着摩尔定律逐渐放缓,单纯依靠提升制程工艺来提高晶体管密度的路径难以为继,而存算分离架构下,存储容量与计算能力的非同步扩展进一步加剧了资源浪费。
这些瓶颈直接制约了AI推理、科学计算、实时数据分析等对延迟和能效敏感场景的发展,在自动驾驶场景中,车辆需要实时处理摄像头、雷达等多传感器数据并做出决策,若依赖传统架构,数据搬运延迟可能导致反应时间延长数毫秒,足以引发安全事故;在大型语言模型训练中,存储墙问题使得千亿级参数模型的训练周期长达数周甚至数月,极大限制了创新效率。
存算一体的破局之道:让数据“就地计算”
存算一体技术的核心思想是打破计算与存储的物理边界,通过在存储单元内部或附近集成计算逻辑,实现数据“存储即计算”,其本质是通过硬件架构的创新,将“搬运数据→计算→返回结果”的传统流程简化为“数据原地处理”,从而大幅减少数据移动距离与能耗。
根据集成度的不同,存算一体技术可分为三个层次:
- 近存计算(Processing Near Memory, PNM):在存储芯片(如DRAM)外部集成专用计算单元(如ASIC或FPGA),通过高速接口(如HBM-to-Logic互联)缩短数据搬运距离,典型应用是在内存条附近添加计算模块,适用于对延迟要求较高但无需极致集成的场景。
- 存内计算(Processing In Memory, PIM):在存储芯片内部嵌入简单的计算逻辑(如加法器、乘法器),直接利用存储单元(如DRAM的比特位、NAND闪存的存储晶体管)参与运算,通过在DRAM存储阵列中集成模拟计算电路,利用欧姆定律和基尔霍夫定律实现矩阵乘法(这是AI计算中最频繁的操作)。
- 存算融合(Computational Storage):将计算功能下沉至存储设备(如SSD、NVMe盘)内部,使存储设备不仅能提供数据读写服务,还能直接执行部分数据处理任务(如数据过滤、压缩、加密),这种方案更贴近边缘计算场景,例如在工业传感器网络中,存储设备可本地完成数据清洗,仅上传关键信息至云端。
当前,存算一体技术的落地主要依托三类介质:
- DRAM(动态随机存取存储器):凭借纳秒级延迟和高带宽,适合近存计算与部分存内计算场景,例如三星推出的HBM-PIM(高带宽内存集成处理单元)已在AI训练中验证了30%以上的能效提升。
- Flash(闪存):通过修改闪存单元的阈值电压状态实现模拟计算,尤其适合稀疏矩阵运算,英特尔的傲腾持久内存结合计算加速模块便是典型案例。
- 新型非易失存储器(如ReRAM阻变存储器、MRAM磁阻存储器):这类器件天然具备“状态可编程+计算可嵌入”的特性,例如ReRAM可通过交叉阵列结构直接实现模拟域的矩阵乘加运算,理论能效比传统GPU高100-1000倍,被视为存算一体的终极形态。
技术突破与产业实践:从实验室走向数据中心
近年来,全球科技企业与研究机构在存算一体技术领域取得了突破性进展,推动其从理论验证走向规模化商用。
在学术界,清华大学、斯坦福大学等机构通过ReRAM交叉阵列实现了模拟存算一体芯片,其中清华大学微电子所研发的“天机芯”在图像分类任务中仅消耗传统GPU 1%的能耗;IBM则基于PCM(相变存储器)开发了支持深度学习推理的存算芯片,推理延迟降低至微秒级。
在产业界,头部厂商加速布局:
- 三星推出HBM-PIM芯片,将AI加速器集成在高带宽内存堆栈中,支持在内存内部直接执行矩阵乘法,已应用于部分超算中心的AI训练集群;
- SK海力士发布GDDR6-AiM(加速型内存),通过在GDDR6显存中嵌入计算逻辑,使图形处理与AI推理的能效提升4倍;
- 英特尔通过傲腾持久内存与至强处理器的协同优化,支持在存储层直接执行数据过滤和聚合操作,显著降低了数据库查询的延迟;
- 国内企业如华为、阿里云、浪潮等也在积极跟进:华为昇腾系列AI服务器通过近存计算架构优化了训练任务的带宽瓶颈;阿里云推出的“倚天710”服务器芯片集成了存算协同单元,面向云计算场景提升了内存密集型应用的效率;浪潮信息则联合科研机构开发了基于ReRAM的原型机,目标是在未来3年内实现数据中心级存算一体服务器的量产。
从应用场景看,存算一体技术最先在三大领域落地:
- 人工智能(尤其是边缘AI):针对终端设备(如 IoT 传感器、智能摄像头)的低功耗推理需求,存算技术可在存储芯片内直接完成特征提取、目标检测等任务,避免数据上传至云端,大幅降低延迟与带宽消耗,特斯拉HW 4.0自动驾驶芯片的部分版本已测试存算一体模块,用于实时处理摄像头原始数据。
- 高性能计算(HPC):在气象预测、分子模拟等需要大规模矩阵运算的科学计算场景中,存内计算的并行性优势得以充分发挥,中科院计算所研发的存算一体原型机在分子动力学模拟中,将计算效率提升了2-3个数量级,能耗仅为传统集群的1/10,高性能。
- 云计算与大数据中心:通过对存储节点(如分布式存储系统中的 SSD/ NVMe盘)集成计算功能云,边数据、预聚合和过滤可以在存储靠近数据源的位置执行,的数据中心网络的传输压力数据过滤、清洗和预聚合可在存储,仅将处理结果传输给计算层,大幅提升了分布式。 阿里云的“洛神”存储系统通过计算在存储,节点内置流,在视频转码场景将任务拆解为分布式,计算。
技术经济影响:重塑数字时代的基础设施
存算一体技术的影响。 不仅局限于技术层面的性能,更是数字将重新基础设施的经济模型。:
- 成本。 的重构:
从 TCO()。 存算一体技术。 。 ,通过( Total Cost of Ownership),数据迁移的。 能耗开销售,数据中的。 比例传统服务器的电费占总运营成本的4()。 。 ,存算。 技术。 在存算。 技术,数据中心的。 PUE( Power Usage()。 Efficiency)可从当前的1.2-1.降低至。 左左右,每年的电。,,数据中心的硬件采购成本(如减少了因。 数据搬运带宽)也可降低。 。。
。。 创新,生态的。 激发
存算。 技术降低。 的存算。 将激发 AI 应用的,低、 。。 (如小型边缘。 AI设备的普及(如家居)。 )、医疗诊断()等),推动。 下一代。 创新的普惠化。。 数(。 )


还没有评论,来说两句吧...