近日,阿里云智能总裁张建锋在2022阿里云峰会发布云基础设施处理器CIPU(Cloud Infrastructure Processing Unit),将其定义为替代CPU成为云计算的管控和加速中心。在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机。
众所周知,传统IT时代,微软Windows+Intel联盟取代了IBM PC霸主地位;移动计算时代,谷歌Android/苹果iOS+ARM共同主导了移动终端的技术架构;那么云计算时代,阿里云飞天操作系统+CIPU组合能发挥什么样的价值?
本文希望通过对CIPU的深入技术解读,回答读者普遍关心的关键问题:CIPU到底是什么?CIPU主要解决哪些问题?CIPU从何而来,未来又将往何处去?
云计算现状在距离2006年云计算鼻祖AWS先后发布S3和EC2有16年之余,距离2010年BAT针对云计算是否“新瓶装旧酒”之争已有12年历史之时,同时Gartner 2021全球IaaS 收入已达900亿美元的当下,市面上依然存在着一些伪云计算概念,比如,转售IDC硬件、转售CDN等。
云计算行业再次站在了分水岭上,有必要看清楚云的未来到底是什么?什么才是我们需要的云计算?
作为和水、电一样的公共资源和社会基础设施,云的核心特征是“弹性”和“多租 ”。
何谓弹性?弹性,从广义上讲,是让IT能力轻松跟上用户的业务发展;从狭义上讲,则带给用户无与伦比的灵活性。
先来看广义弹性的价值,简单讲就是充裕的供给能力,“无限索取”。IT计算力已经成为很多业务的支撑性能力。当业务迅猛发展时,如果计算力跟不上,那么业务必然会受到严重的制约。
但是计算力的建设并不是一蹴而就的,从地、电、水到机房建造,从数据中心网络铺设到Internet接入,从服务器选型、定制、采购到部署、上线和运维,从单机房、多机房到跨地域甚至跨大洲,然后是安全、稳定性、容灾、备份……最后是最难的,优秀人才的招聘、培训和保有,这些无一不是耗时、耗力、耗财的事项,谈何容易。而弹性计算的出现,则让计算力的获得变得简单而从容。
下图展示了一个公有云用户随着业务的极速扩张所购买的计算力的增长曲线,短短15个月,计算力需求从零爆发式增长到了数百万核。弹性计算充裕的计算力供给,让用户业务的发展如虎添翼。
何谓多租?逻辑清晰的读者可能已经隐约感觉到“弹性”和“多租”并非严格的正交和并列关系,那么为什么笔者特意把“多租”上升到“弹性”并列的高度来进行讨论?
严格来说,多租是实现极致弹性和极致社会IT资源效率的必要条件之一。不可否认,私有云确实在一定程度上解决了企业IT资源灵活高效使用的问题,但是私有云和公有云在“多租”这个核心业务特性差异,导致二者之间的天壤之别。
准确完成对云计算的“弹性”和“多租”业务特性的定义,则可以进一步讨论技术实现层面,如何实现“弹性”和“多租 ”功能,如何在极致安全、极致稳定、极致性能、极致成本等四个维度讨论云计算技术实现层面的演进。
IaaS的阿克琉斯之踵众所周知,IaaS是计算、存储、网络等三大件的IT资源公共服务化;PaaS主要指数据库、大数据、AI等数据管理平台服务化以及K8s云原生和中间件;SaaS则是以微软Office 365、Salesforce等为代表的软件服务化。传统意义上,云计算主要是指IaaS云服务,PaaS和SaaS则是IaaS云平台之上的云原生产品和服务;同时由于本文主题CIPU主要位于IaaS层,因此PaaS和SaaS对CIPU的需求不会在本文重点展开。
为了实现IaaS计算、存储、网络等IT资源灵活按需供给,其核心特点是资源池化、服务多租、弹性供给以及管理运维自动化等。其背后的核心技术则是虚拟化技术。
我们简要回顾一下虚拟化技术和公有云服务的历史:
- 2003年,XenSource在SOSP发表《Xen and the Art of Virtualization》,拉开x86平台虚拟化技术的大幕。
- 2006年,AWS发布EC2和S3,拉开了公有云服务的大幕。EC2的核心正是基于Xen虚拟化技术。
可以看出,虚拟化技术和IaaS云计算服务相互成就:IaaS云服务“发现和发掘”了虚拟化技术的业务价值,使得虚拟化技术成为了IaaS云服务的基石;与此同时,虚拟化技术红利让IaaS云服务成为了可能。
从2003年Xen虚拟化技术发轫,到2005年英特尔开始在至强处理器引入虚拟化支持,加入新指令集并改变x86体系架构,使得虚拟化技术大规模部署成为可能,然后2007年KVM虚拟化技术诞生,持续近20年的IaaS虚拟化技术演进,无不是围绕上述更安全、更稳定、更高性能、更低成本等四大业务目标进行演进。
简单回顾历史,我们就可以清晰看到IaaS的阿克琉斯之踵 —— 虚拟化技术之痛。
其一,成本。Xen时代,Xen Hypervisor DOM0消耗XEON一半的CPU资源,也就是只有一半的CPU资源可以对外售卖,可以看到虚拟化云计算税极其沉重。
其二,性能。Xen时代,内核网络虚拟化时延达到150us之巨,网络时延抖动极大,网络转发pps成为企业核心业务的关键瓶颈,Xen虚拟化架构在存储和网络IO虚拟化方面有不可克服的性能瓶颈。
其三,安全。QEMU大量设备仿真代码,对于IaaS云计算毫无意义,而这些冗余代码不仅仅会导致额外资源开销,更进一步导致安全攻击敞口(attack surface)无法根本收敛。
众所周知,公有云成立的基础之一是多租环境下的数据安全。而持续提升硬件的可信能力,数据在计算、存储、网络等子系统流动过程中的安全加密能力,在Xen/KVM虚拟化下技术挑战极大。
其四,稳定性。云计算稳定性提升,依赖两大核心技术:底层芯片白盒,以此输出更多RAS数据;以及基于这些稳定性数据的大数据运维。虚拟化系统要进一步提升稳定性,则需要进一步深入计算、网络和存储芯片的实现细节,以此获得更多影响系统稳定性数据。
其五,弹性裸金属支持。诸如Kata、Firecracker等安全容器,多卡GPU服务器在PCIe switch P2P虚拟化开销,头部大用户追求降低极致计算和内存虚拟化的开销,以及VMware/OpenStack支持等需求方面,需要弹性裸金属来支撑这类需求,而基于Xen/KVM虚拟化架构无法实现弹性裸金属。