云计较的牌桌上,AI 算力竞赛已经是刀刀到肉。当行业逐渐对于“堆卡”祛魅,真实的较劲早已经转移到看不见的疆场——架构是否精妙;是否慎密贴合营业需求;以和怎样破解范围定律(Scaling Law)效应削弱的魔咒。
于 8 月 14 日的飞天发布时刻,海内公有云一哥阿里云亮出底牌,发布通用计较、容器计较和存储办事三项产物更新。这三年夜产物看似“分担”差别使命,实则巧妙地串联出一条 AI 落地营业场景的完备路径,每一一步都为下一步摊平门路,环环相扣,层层递进。
对于在行业而言,阿里云这次发布的意义也不止在一次产物进级,其暗地里的产物进级逻辑也于指导行业从头思索——AI 时代,云基础举措措施的素质究竟是甚么。
场景化实例,
界说极致机能与资源使用效率
传统 x86 办事器运行数据密集型营业时,经常卡于“算力不敷强、吞吐不敷快、内存不敷年夜”这三道硬限定上。
这次飞天发布时刻,阿里云共发布三款企业级实例,把统一批 AMD 硬件做成三档规格,用户按需取用便可:
g9a:CPU 主频更高,能年夜幅晋升单进程使命数据的处置惩罚效率,合适于线型运用场景。
g9ae:采用物理核设计,算力更高,内存带宽更年夜,I/O 能力更强,合适高并发的计较密集型使命。
三款实例均搭配了 AMD 最新第五代 EPYC 处置惩罚器(Turin )。阿里云及 AMD 两边的互助最早可追溯到 Rome 期间,其时就与 AMD 互助举行芯片定制,到 Milan 期间最先范围贸易化,机能晋升 15%,Genoa 期间机能则晋升 25%。
到今天,办事在数据中央的 EPYC 系列处置惩罚器,采用业界领先的 chiplet 架构,已经经演进到第五代,即 AMD EPYC 处置惩罚器都灵 (Turin)。Turin 采用了全新的“Zen 5”焦点架构,Zen 5 架构每一时钟周期指令(IPC)比上一代晋升 17%;联合 Turin 撑持全链路 AVX512 的能力,为 AI 及高机能计较(HPC)提供高达 37% 的 IPC 晋升。
于 Turin 处置惩罚器基础上,经由过程阿里云软硬一体的 CIPU 架构驱动,这次发布的三款企业级实例实现了针对于差异化场景的产物结构,让差别营业直接落于最匹配的档位,节省资源的同时也帮企业节省了算力预算。
起首来看面向中小型企业的 u2a。
“u”实例为通用算力型“universal”实例的简称,是一款为中小企业量身定制的云办事器。基在阿里云飞天云计较操作体系及云基础举措措施处置惩罚器(CIPU),“u”实例让中小企业像利用水、电及煤气同样,便捷获取机能强劲、性价比出众的云计较办事,无需投入精神自建或者运维硬件举措措施。
这次全新进级的 u2 系列中,阿里云推出了首个基在 AMD EPYC 处置惩罚器的“u”实例——u2a。该系列涵盖两款细分产物,提供了企业级独享算力,今朝仍处在定向邀测阶段,估计在 8 月 30 日正式开启贸易化。
u2a 采用自研双单路办事器架构,单颗 CPU 妨碍不会影响另外一颗,可以或许显著晋升办事器的不变性。机能上,u2a 实例机能基线较 u1 晋升 20%,撑持最高 15% 的算力突发能力;收集基线带宽为 16Gbps,撑持突发至 25Gbps;最年夜规格可撑持 64vCPU。
面向通用处景,u2a 能满意企业差别层级的数据处置惩罚需求,经由过程屏蔽代系差异及较 u1 晋升 50% 的性价比,将企业级算力的门坎年夜幅降低,让更多中小企业能享遭到技能盈余。
追随 u2a 一同发布的,还有有第九代 ECS 机能旗舰产物,AMD 企业级实例 g9ae。
对于在年夜数据、搜推广、视频转码等数据密集型营业,g9ae 实例对准内存带宽、I/O 带宽不足的行业痛点,基在 Turin D 处置惩罚器,立异性地采用了物理核设计,摒弃了传统的超线程虚拟化思绪。这象征着每一个 vCPU 都独有 L3 缓存及内存通道,算力再也不因通道带宽不足而被压抑。
阿里云之以是能首创物理核设计,离不开底层硬件的撑持。
事实上,Turin 包罗 Turin-C(Turin Classic)、Turin-D(Turin Dense)两款 CPU,都利用 Zen5 的微架构,此中 Turin-C 利用了 Zen5 CCD,而 Dense 是 Zen5c CCD。
Zen5 及 Zen5c 微架构不异,指令集不异,IPC 晋升不异,区分于在 Zen5c 的焦点计较单位(CCD)经由过程芯粒(chiplet)架构撑持更高的焦点密度,从而撑持阿里云实现首创的 “物理核设计”。
“物理核”设计让 g9ae 实例单 vCPU 算力晋升高达 60%,于视频转码等营业中机能晋升高达 65%,并能极年夜降低焦点生意业务体系的长尾时延,机能输出更不变。
于 AMD 强盛硬件的基础上,阿里云自研操作体系又将其机能充实“兑现”了出来。阿里云弹性计较产物司理姬少晨先容,g9ae 的极致机能还有来历在软硬件的深度交融。阿里云把自研的 Alibaba Cloud Linux 3 与 AMD 最新的 Turin 办事器做了“基因级”适配,触及两百多个内核补钉、改了近 2 万行代码,相称在把操作体系“从头编译”了一遍,专门针对于 AMD 的多核、内存通道、IO 路径做优化。
针对于 MySQL 查询场景,操作体系存储引擎的预读机制会把数据提早加载到 CPU 的高速缓存中,再借助 g9ae 的超年夜内存带宽,查询速率再晋升 10%;针对于搜推练习场景,操作体系的收集和谈栈采用“零拷贝”技能,数据包从网卡到运用内存“一次到位”,单节点推理机能再提 15%。
除了极致机能外,端到真个数据安万能力也是 g9ae 的一年夜亮点。g9ae 开机即由 CIPU 可托根从 BIOS 到 kernel 再到操作体系开启全链路器量,避免歹意植入;运行时期,AMD 秘要计较给内存加硬锁,数据可用不成见;于数据传输阶段,首发 VPC 加密能力,实现了数据传输历程中的安全防护。
然而,只管 g9ae 机能强盛,但真实营业场景孕育发生的 AI 负载远非单个计较实例所能承载。AI 事情负载远比传统 Web 运用繁杂,它有状况、脚色多样、且需“同生同死”。
以一个 32B LLM 模子推理为例,模子启动刹时可能占用 65GB 显存,接下来可能因并发哀求膨胀到 200GB。推理办事于短期内可能从 8 卡扩大到数百卡,再慢慢缩回——这对于在整个体系的调理、存储和收集通讯效率都提出了更严苛的要求。
单实例机能晋升虽显著,但 AI 负载的繁杂性要求更周全的基础举措措施撑持。要破解这些难题,就需要上述企业级实例及容器、存储办事协同作战。
容器激活“算力畅通”,
存储激活“数据畅通”
容器作为云原生时代弹性计较的焦点技能,于 AI 时代,它也逐渐从十年前“让运用跑起来”的封装东西,进级为将来算力的通用接口。
这场厘革中,Kubernetes 已经经成为承载 AI 负载的事实尺度,是当前最主流、最广泛采用的 AI 基础举措措施平台。按照 CNCF 2024 年度用户调研,已经有 52% 的受访终端用户于 Kubernetes 上运行 AI/ML 事情负载。咱们确凿也看到,主流云厂商、年夜模子试验室,以和新兴的 AI 草创公司险些都选择以 Kubernetes 作为 AI 运用的运行底座。
这类环境下,企业面对的问题就再也不是“要不要上 Kubernetes”,而是“如何把 Kubernetes 用患上更好”。
于这次飞天发布时刻,阿里云正式对于外公布了 ACK 及 ACS 两项容器办事的最新进展,焦点就是向用户提供一种把 Kubernetes 用患上更好的要领论。
此中,阿里云容器办事 ACK 于保障不变性及晋升 AI 部署效率两个维度均有新冲破。
不变性方面,ACK 经由过程高效治理运维异构资源以保障营业不变性,并实现三项能力冲破:
异构资源治理: 经由过程同一的 ACK 节制面,将 GPU、灵骏、长途直接内存拜候(RDMA)、智算版并行文件体系(CPFS)等异构智算资源纳入统一技能栈,用户无需再为每一类硬件零丁适配。
GPU 妨碍自愈: 平台先为硬件或者软件异样成立尺度化判别模子;一旦触发法则,当即断绝妨碍 GPU,避免过错分配,随后挪用 IaaS 层接口测验考试修复,修复乐成后主动排除断绝并从头调理使命,显著降低人工干涉干与。
于线及时 GPU AI Profiling:借助 eBPF 与 library injector,用户于不改代码、不重启办事的环境下便可及时抓取 GPU 运行时数据——涵盖 CUDA kernel(含 NCCL 通讯算子)和 PyTorch 高层挪用——定时间轴还有原现场,于线定位瓶颈,官方数据显示诊断效率晋升 50% 以上。
此外,为帮忙企业以更低成本、更高效率、更强不变性将年夜模子落地到出产情况,并让模子能力真正高效、安全地赋能营业流程,ACK 这次也全新发布了云原生 AI 套件 Serving Stack。
该套件包括 RoleBasedGroup 节制器(简称 RBG)及 Gateway Inference Extension(简称 GIE)两年夜组件。
RoleBasedGroup 节制器(简称 RBG)是该套件于 Kubernetes 集群中针对于 LLM 推理事情负载的抽象层。
RBG 撑持主流 LLM 推理引擎,如 vLLM、SGLang、TRT-LLM 等,兼容各种推理机能优化架构,如 Dynamo、Mooncake 等。 RBG 可以或许将漫衍式推理事情负载中的差别使命脚色(如 Prefill worker、Decode worker、Router 等),矫捷地抽象为自力的 Role;并撑持收罗差别脚色的要害监控指标(如 TTFT、TPOT、Token throughput、Request rate 等),联动推理运行时可撑持基在 SLO(如平均 TTFT/TPOT)的弹性伸缩。
同时,RBG 还有内置对于 HPA、cronHPA、KPA、AHPA、KEDA 等 Kubernetes 生态中各种运用弹性伸缩架构的兼容,以顺应差别场景需求;并联合 Fluid 的漫衍式缓存及数据预热技能,可以或许年夜幅晋升 LLM 推理办事弹性伸缩的相应速率及效率。于 Deepseek R1 推理办事启动速率测试中,Fluid 于 220 秒内将 671B 模子权重数据从长途对于象存储读取到 GPU 显存中,到达 10GiB/s 以上的带宽。这将 Deepseek R1 模子加载耗时削减了 90%。
GIE 则是 ACK 基在 Kubernetes Gateway API 的推理扩大组件,撑持灰度发布、过载检测、哀求列队、熔断限流。于 Qwen、Deepseek 等模子推理办事压测中,长尾场景下的首包延迟晋升 73%,缓存使用率晋升 90%,前缀感知负载平衡优化带来 40% 的相应速率晋升。
总的来看,于云原生 AI 套件 Serving Stack 中,RBG 卖力 LLM 推理办事的部署,更新,进级等全生命周期治理,并按照营业指标动态调解实例范围,GIE 卖力按照及时哀求负载环境及模子处置惩罚能力智能路由流量。二者一路打共同,让年夜模子出产化部署做到低成本、高效率,同时具有强不变性。
容器计较办事 ACS 这次则新上线了 AMD 通用算力,并于如下五个维度实现技能冲破:
机能:于视频编解码、图形衬着、年夜数据等计较密集型场景,AMD 实例端到端机能最高晋升 55%。
规格:CPU 与内存最小粒度为 0.5vCPU、1GiB 步长,且 CPU 及内存配比可于 1:1~1:8 之间自由组合,更切近现实负载,防止资源华侈。
弹性:AMD 实例可撑持分钟级万个 Pod 弹出,并撑持 AHPA 猜测式伸缩;用户可按需零丁利用 AMD,或者采用 AMD 与其他异构芯片混淆部署。
BestEffort 模式:新增可抢占式 AMD 实例,价格为通例实例的 20%;体系于资源紧张时主动摈除这些实例,可以或许满意离线批处置惩罚、测试等对于不变性要求低、对于成本极敏感的营业。
成本优化:推出按日承诺付费规划,用户以“逐日估计利用范围”提早锁定扣头,进一步压低持久算力价格。
总体来看,ACS 以“容器算力”形态将通用算力切分患上更碎、更自制,ACK Pro 则于容器编排层让 GPU 像水电同样随取随用、妨碍自愈,两条线合起来指向统一个结论:
纯真采购算力资源已经经没法满意 AI 负载的需求,贴合负载需求矫捷地调理算力资源,已经经成为 AI 算力成长的主线。
然而,要让 AI 真正落地营业场景,只实现算力的矫捷调理还有不敷,还有需解决计较历程中孕育发生数据的去向问题。
AI 训推孕育发生的年夜量权重、日记、KV-Cache 均需持久留存;多轮对于话、个性化保举等场景又要求毫秒级找回汗青状况;一旦存储跟不上算力弹性,就会呈现 GPU 空转、成本飙升的难堪场合排场。
是以,矫捷调理算力的下一步,就是矫捷调理存储。今朝,Agentic AI 的趋向已经经把 AI 使命对于矫捷调理存储的需求推到极致。
于这次飞天发布会上,阿里云表格存储 Tablestore 还有公布周全进级 AI 场景撑持能力:
功效方面,Tablestore 进级多元索引能力,新增 JSON 格局,相对于嵌套(Nested)数据类型机能更好,成本更低;并撑持多列向量,降低数据冗余,加快联系关系查询;
数据模子方面,Tablestore 推出了全新开源的 AI Agent Memory 框架,对准对于话影象及常识治理两年夜场景,预置了会话(session)、动静(message)、常识库(knowledge)三年夜通用数据模子,闪开发者无需存眷底层存储细节,越发专注营业立异自己。
生态方面,Tablestore 可经由过程 OpenMemory MCP(模子上下文和谈)一键部署 AI 影象方案,并接入开源 Dify,提供高可用性向量存储方案以和 Spring AI,承接影象(Memory)及常识(Knowledge)引擎的存储需求。
于上述更新基础上,Tablestore 又经由过程 DiskANN 等进步前辈向量检索算法,按需计费与主动弹性伸缩能力以和默许撑持跨可用区部署三项进级,较传统自建方案降低 30% 的总体存储成本。
小 结
阿里云的这套连招,每一一步都于试图让基础举措措施匹配营业,而不是营业姑息基础举措措施。
已往,企业必需先“买下”一台规格固定的呆板,再去削足适履地改写运用;如今,ACS 把算力切成 0.5 vCPU 的微小单位,ACK Pro 把 GPU 妨碍自愈、AI Profiling、漫衍式推理调理做成水电煤同样的基础办事。当算力可以按需膨胀、按秒计费、按妨碍自愈,营业逻辑第一次没必要再为底层资源妥协。
更进一步看,当容器层把“计较”抽象到极限,存储层必需同步把“影象”抽象到极限——Tablestore 以 PB 级弹性、毫秒级检索、开源 Memory Framework,让智能体的“持久影象”也酿成可插拔的大众办事。在是,运用只需描写“我要几多算力、我要记住甚么”,而没必要体贴“我从哪里买呆板、我把数据放哪”。
阿里云这次发布会也更加凸显了云计较的素质不只是算力资源,而是一种“办事”属性。将来,算力与存储也将继承“办事化”,价格曲线与机能曲线也许会逐渐解耦,企业只为营业峰值买单。
当资源再也不成为瓶颈,真实的竞争将回到营业立异自己——谁的场景抽象患上更准,谁的模子迭代患上更快,谁就能于下一轮海潮中胜出。
-milan米兰中国