milan中国-【从计算到存储，阿里云打通AI落地的“任督二脉”】PjTime.COM 行业新闻

云计较的牌桌上，AI 算力竞赛已经是刀刀到肉。当行业逐渐对于“堆卡”祛魅，真实的较劲早已经转移到看不见的疆场——架构是否精妙；是否慎密贴合营业需求；以和怎样破解范围定律（Scaling Law）效应削弱的魔咒。

于 8 月 14 日的飞天发布时刻，海内公有云一哥阿里云亮出底牌，发布通用计较、容器计较和存储办事三项产物更新。这三年夜产物看似“分担”差别使命，实则巧妙地串联出一条 AI 落地营业场景的完备路径，每一一步都为下一步摊平门路，环环相扣，层层递进。

对于在行业而言，阿里云这次发布的意义也不止在一次产物进级，其暗地里的产物进级逻辑也于指导行业从头思索——AI 时代，云基础举措措施的素质究竟是甚么。

场景化实例，

界说极致机能与资源使用效率

传统 x86 办事器运行数据密集型营业时，经常卡于“算力不敷强、吞吐不敷快、内存不敷年夜”这三道硬限定上。

这次飞天发布时刻，阿里云共发布三款企业级实例，把统一批 AMD 硬件做成三档规格，用户按需取用便可：

g9a：CPU 主频更高，能年夜幅晋升单进程使命数据的处置惩罚效率，合适于线型运用场景。

g9ae：采用物理核设计，算力更高，内存带宽更年夜，I/O 能力更强，合适高并发的计较密集型使命。

三款实例均搭配了 AMD 最新第五代 EPYC 处置惩罚器（Turin ）。阿里云及 AMD 两边的互助最早可追溯到 Rome 期间，其时就与 AMD 互助举行芯片定制，到 Milan 期间最先范围贸易化，机能晋升 15%，Genoa 期间机能则晋升 25%。

到今天，办事在数据中央的 EPYC 系列处置惩罚器，采用业界领先的 chiplet 架构，已经经演进到第五代，即 AMD EPYC 处置惩罚器都灵 (Turin)。Turin 采用了全新的“Zen 5”焦点架构，Zen 5 架构每一时钟周期指令（IPC）比上一代晋升 17%；联合 Turin 撑持全链路 AVX512 的能力，为 AI 及高机能计较（HPC）提供高达 37% 的 IPC 晋升。

于 Turin 处置惩罚器基础上，经由过程阿里云软硬一体的 CIPU 架构驱动，这次发布的三款企业级实例实现了针对于差异化场景的产物结构，让差别营业直接落于最匹配的档位，节省资源的同时也帮企业节省了算力预算。

起首来看面向中小型企业的 u2a。

“u”实例为通用算力型“universal”实例的简称，是一款为中小企业量身定制的云办事器。基在阿里云飞天云计较操作体系及云基础举措措施处置惩罚器（CIPU），“u”实例让中小企业像利用水、电及煤气同样，便捷获取机能强劲、性价比出众的云计较办事，无需投入精神自建或者运维硬件举措措施。

这次全新进级的 u2 系列中，阿里云推出了首个基在 AMD EPYC 处置惩罚器的“u”实例——u2a。该系列涵盖两款细分产物，提供了企业级独享算力，今朝仍处在定向邀测阶段，估计在 8 月 30 日正式开启贸易化。

u2a 采用自研双单路办事器架构，单颗 CPU 妨碍不会影响另外一颗，可以或许显著晋升办事器的不变性。机能上，u2a 实例机能基线较 u1 晋升 20%，撑持最高 15% 的算力突发能力；收集基线带宽为 16Gbps，撑持突发至 25Gbps；最年夜规格可撑持 64vCPU。

面向通用处景，u2a 能满意企业差别层级的数据处置惩罚需求，经由过程屏蔽代系差异及较 u1 晋升 50% 的性价比，将企业级算力的门坎年夜幅降低，让更多中小企业能享遭到技能盈余。

追随 u2a 一同发布的，还有有第九代 ECS 机能旗舰产物，AMD 企业级实例 g9ae。

对于在年夜数据、搜推广、视频转码等数据密集型营业，g9ae 实例对准内存带宽、I/O 带宽不足的行业痛点，基在 Turin D 处置惩罚器，立异性地采用了物理核设计，摒弃了传统的超线程虚拟化思绪。这象征着每一个 vCPU 都独有 L3 缓存及内存通道，算力再也不因通道带宽不足而被压抑。

阿里云之以是能首创物理核设计，离不开底层硬件的撑持。

事实上，Turin 包罗 Turin-C（Turin Classic）、Turin-D（Turin Dense）两款 CPU，都利用 Zen5 的微架构，此中 Turin-C 利用了 Zen5 CCD，而 Dense 是 Zen5c CCD。

Zen5 及 Zen5c 微架构不异，指令集不异，IPC 晋升不异，区分于在 Zen5c 的焦点计较单位（CCD）经由过程芯粒（chiplet）架构撑持更高的焦点密度，从而撑持阿里云实现首创的 “物理核设计”。

“物理核”设计让 g9ae 实例单 vCPU 算力晋升高达 60%，于视频转码等营业中机能晋升高达 65%，并能极年夜降低焦点生意业务体系的长尾时延，机能输出更不变。

于 AMD 强盛硬件的基础上，阿里云自研操作体系又将其机能充实“兑现”了出来。阿里云弹性计较产物司理姬少晨先容，g9ae 的极致机能还有来历在软硬件的深度交融。阿里云把自研的 Alibaba Cloud Linux 3 与 AMD 最新的 Turin 办事器做了“基因级”适配，触及两百多个内核补钉、改了近 2 万行代码，相称在把操作体系“从头编译”了一遍，专门针对于 AMD 的多核、内存通道、IO 路径做优化。

针对于 MySQL 查询场景，操作体系存储引擎的预读机制会把数据提早加载到 CPU 的高速缓存中，再借助 g9ae 的超年夜内存带宽，查询速率再晋升 10%；针对于搜推练习场景，操作体系的收集和谈栈采用“零拷贝”技能，数据包从网卡到运用内存“一次到位”，单节点推理机能再提 15%。

除了极致机能外，端到真个数据安万能力也是 g9ae 的一年夜亮点。g9ae 开机即由 CIPU 可托根从 BIOS 到 kernel 再到操作体系开启全链路器量，避免歹意植入；运行时期，AMD 秘要计较给内存加硬锁，数据可用不成见；于数据传输阶段，首发 VPC 加密能力，实现了数据传输历程中的安全防护。

然而，只管 g9ae 机能强盛，但真实营业场景孕育发生的 AI 负载远非单个计较实例所能承载。AI 事情负载远比传统 Web 运用繁杂，它有状况、脚色多样、且需“同生同死”。

以一个 32B LLM 模子推理为例，模子启动刹时可能占用 65GB 显存，接下来可能因并发哀求膨胀到 200GB。推理办事于短期内可能从 8 卡扩大到数百卡，再慢慢缩回——这对于在整个体系的调理、存储和收集通讯效率都提出了更严苛的要求。

单实例机能晋升虽显著，但 AI 负载的繁杂性要求更周全的基础举措措施撑持。要破解这些难题，就需要上述企业级实例及容器、存储办事协同作战。

容器激活“算力畅通”，

存储激活“数据畅通”

容器作为云原生时代弹性计较的焦点技能，于 AI 时代，它也逐渐从十年前“让运用跑起来”的封装东西，进级为将来算力的通用接口。

这场厘革中，Kubernetes 已经经成为承载 AI 负载的事实尺度，是当前最主流、最广泛采用的 AI 基础举措措施平台。按照 CNCF 2024 年度用户调研，已经有 52% 的受访终端用户于 Kubernetes 上运行 AI/ML 事情负载。咱们确凿也看到，主流云厂商、年夜模子试验室，以和新兴的 AI 草创公司险些都选择以 Kubernetes 作为 AI 运用的运行底座。

这类环境下，企业面对的问题就再也不是“要不要上 Kubernetes”，而是“如何把 Kubernetes 用患上更好”。

于这次飞天发布时刻，阿里云正式对于外公布了 ACK 及 ACS 两项容器办事的最新进展，焦点就是向用户提供一种把 Kubernetes 用患上更好的要领论。

此中，阿里云容器办事 ACK 于保障不变性及晋升 AI 部署效率两个维度均有新冲破。

不变性方面，ACK 经由过程高效治理运维异构资源以保障营业不变性，并实现三项能力冲破：

异构资源治理：经由过程同一的 ACK 节制面，将 GPU、灵骏、长途直接内存拜候（RDMA）、智算版并行文件体系（CPFS）等异构智算资源纳入统一技能栈，用户无需再为每一类硬件零丁适配。

GPU 妨碍自愈：平台先为硬件或者软件异样成立尺度化判别模子；一旦触发法则，当即断绝妨碍 GPU，避免过错分配，随后挪用 IaaS 层接口测验考试修复，修复乐成后主动排除断绝并从头调理使命，显著降低人工干涉干与。

于线及时 GPU AI Profiling：借助 eBPF 与 library injector，用户于不改代码、不重启办事的环境下便可及时抓取 GPU 运行时数据——涵盖 CUDA kernel（含 NCCL 通讯算子）和 PyTorch 高层挪用——定时间轴还有原现场，于线定位瓶颈，官方数据显示诊断效率晋升 50% 以上。

此外，为帮忙企业以更低成本、更高效率、更强不变性将年夜模子落地到出产情况，并让模子能力真正高效、安全地赋能营业流程，ACK 这次也全新发布了云原生 AI 套件 Serving Stack。

该套件包括 RoleBasedGroup 节制器（简称 RBG）及 Gateway Inference Extension（简称 GIE）两年夜组件。

RoleBasedGroup 节制器（简称 RBG）是该套件于 Kubernetes 集群中针对于 LLM 推理事情负载的抽象层。

RBG 撑持主流 LLM 推理引擎，如 vLLM、SGLang、TRT-LLM 等，兼容各种推理机能优化架构，如 Dynamo、Mooncake 等。 RBG 可以或许将漫衍式推理事情负载中的差别使命脚色（如 Prefill worker、Decode worker、Router 等），矫捷地抽象为自力的 Role；并撑持收罗差别脚色的要害监控指标（如 TTFT、TPOT、Token throughput、Request rate 等），联动推理运行时可撑持基在 SLO（如平均 TTFT/TPOT）的弹性伸缩。

同时，RBG 还有内置对于 HPA、cronHPA、KPA、AHPA、KEDA 等 Kubernetes 生态中各种运用弹性伸缩架构的兼容，以顺应差别场景需求；并联合 Fluid 的漫衍式缓存及数据预热技能，可以或许年夜幅晋升 LLM 推理办事弹性伸缩的相应速率及效率。于 Deepseek R1 推理办事启动速率测试中，Fluid 于 220 秒内将 671B 模子权重数据从长途对于象存储读取到 GPU 显存中，到达 10GiB/s 以上的带宽。这将 Deepseek R1 模子加载耗时削减了 90%。

GIE 则是 ACK 基在 Kubernetes Gateway API 的推理扩大组件，撑持灰度发布、过载检测、哀求列队、熔断限流。于 Qwen、Deepseek 等模子推理办事压测中，长尾场景下的首包延迟晋升 73%，缓存使用率晋升 90%，前缀感知负载平衡优化带来 40% 的相应速率晋升。

总的来看，于云原生 AI 套件 Serving Stack 中，RBG 卖力 LLM 推理办事的部署，更新，进级等全生命周期治理，并按照营业指标动态调解实例范围，GIE 卖力按照及时哀求负载环境及模子处置惩罚能力智能路由流量。二者一路打共同，让年夜模子出产化部署做到低成本、高效率，同时具有强不变性。

容器计较办事 ACS 这次则新上线了 AMD 通用算力，并于如下五个维度实现技能冲破：

机能：于视频编解码、图形衬着、年夜数据等计较密集型场景，AMD 实例端到端机能最高晋升 55%。

规格：CPU 与内存最小粒度为 0.5vCPU、1GiB 步长，且 CPU 及内存配比可于 1:1～1:8 之间自由组合，更切近现实负载，防止资源华侈。

弹性：AMD 实例可撑持分钟级万个 Pod 弹出，并撑持 AHPA 猜测式伸缩；用户可按需零丁利用 AMD，或者采用 AMD 与其他异构芯片混淆部署。

BestEffort 模式：新增可抢占式 AMD 实例，价格为通例实例的 20%；体系于资源紧张时主动摈除这些实例，可以或许满意离线批处置惩罚、测试等对于不变性要求低、对于成本极敏感的营业。

成本优化：推出按日承诺付费规划，用户以“逐日估计利用范围”提早锁定扣头，进一步压低持久算力价格。

总体来看，ACS 以“容器算力”形态将通用算力切分患上更碎、更自制，ACK Pro 则于容器编排层让 GPU 像水电同样随取随用、妨碍自愈，两条线合起来指向统一个结论：

纯真采购算力资源已经经没法满意 AI 负载的需求，贴合负载需求矫捷地调理算力资源，已经经成为 AI 算力成长的主线。

然而，要让 AI 真正落地营业场景，只实现算力的矫捷调理还有不敷，还有需解决计较历程中孕育发生数据的去向问题。

AI 训推孕育发生的年夜量权重、日记、KV-Cache 均需持久留存；多轮对于话、个性化保举等场景又要求毫秒级找回汗青状况；一旦存储跟不上算力弹性，就会呈现 GPU 空转、成本飙升的难堪场合排场。

是以，矫捷调理算力的下一步，就是矫捷调理存储。今朝，Agentic AI 的趋向已经经把 AI 使命对于矫捷调理存储的需求推到极致。

于这次飞天发布会上，阿里云表格存储 Tablestore 还有公布周全进级 AI 场景撑持能力：

功效方面，Tablestore 进级多元索引能力，新增 JSON 格局，相对于嵌套（Nested）数据类型机能更好，成本更低；并撑持多列向量，降低数据冗余，加快联系关系查询；

数据模子方面，Tablestore 推出了全新开源的 AI Agent Memory 框架，对准对于话影象及常识治理两年夜场景，预置了会话（session）、动静（message）、常识库（knowledge）三年夜通用数据模子，闪开发者无需存眷底层存储细节，越发专注营业立异自己。

生态方面，Tablestore 可经由过程 OpenMemory MCP（模子上下文和谈）一键部署 AI 影象方案，并接入开源 Dify，提供高可用性向量存储方案以和 Spring AI，承接影象（Memory）及常识（Knowledge）引擎的存储需求。

于上述更新基础上，Tablestore 又经由过程 DiskANN 等进步前辈向量检索算法，按需计费与主动弹性伸缩能力以和默许撑持跨可用区部署三项进级，较传统自建方案降低 30% 的总体存储成本。

小结

阿里云的这套连招，每一一步都于试图让基础举措措施匹配营业，而不是营业姑息基础举措措施。

已往，企业必需先“买下”一台规格固定的呆板，再去削足适履地改写运用；如今，ACS 把算力切成 0.5 vCPU 的微小单位，ACK Pro 把 GPU 妨碍自愈、AI Profiling、漫衍式推理调理做成水电煤同样的基础办事。当算力可以按需膨胀、按秒计费、按妨碍自愈，营业逻辑第一次没必要再为底层资源妥协。

更进一步看，当容器层把“计较”抽象到极限，存储层必需同步把“影象”抽象到极限——Tablestore 以 PB 级弹性、毫秒级检索、开源 Memory Framework，让智能体的“持久影象”也酿成可插拔的大众办事。在是，运用只需描写“我要几多算力、我要记住甚么”，而没必要体贴“我从哪里买呆板、我把数据放哪”。

阿里云这次发布会也更加凸显了云计较的素质不只是算力资源，而是一种“办事”属性。将来，算力与存储也将继承“办事化”，价格曲线与机能曲线也许会逐渐解耦，企业只为营业峰值买单。

当资源再也不成为瓶颈，真实的竞争将回到营业立异自己——谁的场景抽象患上更准，谁的模子迭代患上更快，谁就能于下一轮海潮中胜出。

-milan米兰中国