Bootstrap

阿里云国际版全产品介绍(容器)

容器服务 Kubernetes 版 ACK

阿里云容器服务 Kubernetes 版(Alibaba Cloud Container Service for Kubernetes,简称容器服务 ACK)是全球首批通过Kubernetes一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级Kubernetes容器化应用的生命周期管理,让您轻松高效地在云端运行Kubernetes容器化应用。

产品形态
托管和专有容器服务 Kubernetes 版包含ACK托管集群和ACK专有集群。其中,ACK托管集群支持ACK集群基础版和ACK集群Pro版。

在这里插入图片描述
ACK托管集群架构
在这里插入图片描述
ACK托管集群的管控面由ACK管理,为您提供稳定、高可用、高性能、安全的Kubernetes服务。托管组件包括kube-apiserver、kube-controller-manager、ack-scheduler和etcd。每一个托管集群的管控面包含至少两个kube-apiserver实例和三个etcd实例,并且部署在不同的可用区以提供可用区级别的高可用性。ACK管控会持续监控托管组件,保障服务SLA,并且及时修复安全漏洞。
在这里插入图片描述
核心功能

  • 集群管理
    1.集群创建:您可根据需求创建多种形态集群,选择类型丰富的工作节点,并进行灵活的自定义配置。
    2.集群升级:一键升级K8s版本,统一管理系统组件升级。
    3.弹性伸缩:通过控制台一键垂直扩缩容来快速应对业务波动,同时支持服务级别的亲和性策略和横向扩展。
    4.调度:支持不同弹性资源的混合调度、异构资源的精细化调度、批量计算的任务调度等,提升应用的性能和集群整体资源的利用率。
    5.多集群管理:支持线下IDC和多云多区域的集群统一接入,实现混合云应用管理。
    6.授权管理:支持RAM授权和RBAC权限管理。

  • 节点池
    支持节点池生命周期管理,支持在同一集群中配置不同规格的节点池,例如交换机、运行时、OS、安全组等。

  • 应用管理
    1.应用创建:支持多种类型应用,从镜像、模板的创建,支持环境变量、应用健康、数据盘、日志等相关配置。
    2.应用全生命周期:支持应用查看、更新、删除,应用历史版本回滚、应用事件查看、应用滚动升级、应用替换升级以及通过触发器重新部署应用。
    3.应用调度:支持节点间亲和性调度、应用间亲和性调度、应用间反亲和性调度三种策略。
    4.应用伸缩:支持手动伸缩应用容器实例,HPA自动伸缩策略。
    5.应用发布:支持灰度发布和蓝绿发布。
    6.应用目录:支持应用目录,简化云服务集成。
    7.应用中心:应用部署后,以统一的视角展现整体应用的拓扑结构,同时对于持续部署等场景进行统一的版本管理与回滚。
    8.应用备份和恢复:支持对Kubernetes应用进行备份和恢复。更多信息,请参见集群内备份和恢复应用。

  • Knative:一款基于Kubernetes的Serverless框架。部署Knative组件后,您可以利用Knative开展服务管理和事件驱动。

  • 存储
    1.存储插件:支持CSI存储插件。
    2.存储卷和存储声明:

  • 支持创建块存储、NAS、OSS类型的存储卷。

  • 支持持久化存储卷声明(PVC)挂载存储卷。

  • 支持存储卷的动态创建和迁移。

  • 支持以脚本方式查看和更新存储卷和存储声明。

  • 网络
    1.支持Flannel容器网络和Terway容器网络。
    2.支持定义Service和Pod的CIDR。
    3.支持NetworkPolicy。
    4.支持路由Ingress。
    5.支持服务发现DNS。

  • GPU
    支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。

  • 运维与安全

    1. 可观测性:
  • 监控:支持集群、节点、应用、容器实例层面的监控;支持Prometheus插件。

  • 日志:支持集群日志查看;支持应用日志采集;支持容器实例日志查看。

  • 报警:支持容器服务异常事件报警,以及容器场景指标报警。更多信息,请参见容器服务报警管理。

    1. 集群巡检与诊断(AIOps)
  • 使用集群检查:支持在集群升级、迁移等操作前执行集群检查,确认集群是否符合要求。

  • 使用集群巡检:扫描集群运行状况,发现集群中存在的潜在风险,例如云资源配额余量、Kubernetes集群关键资源水位等,排查风险项并根据推荐的解决方案修复问题。

  • 使用集群诊断:提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。

    1. 成本分析:支持可视化集群资源使用量及成本分布,以提升集群资源利用率。

    2. 安全中心:支持运行时刻的安全策略管理,应用安全配置巡检和运行时刻的安全监控和告警,提升容器安全整体纵深防御能力。

    3. 安全沙箱:可以让应用运行在一个轻量虚拟机沙箱环境中,拥有独立的内核,具备更好的安全隔离能力。适用于不可信应用隔离、故障隔离、性能隔离、多用户间负载隔离等场景。

    4. 机密计算:基于Intel SGX提供的可信应用或用于交付和管理机密计算应用的云原生一站式机密计算平台,帮助您保护数据使用中的安全性、完整性和机密性。机密计算可以让您把重要的数据和代码放在一个特殊的可信执行加密环境。

产品架构
容器服务 Kubernetes 版产品线的整体架构如下图所示。
在这里插入图片描述

  • 阿里云容器镜像服务ACR(Alibaba Cloud Container
    Registry):提供云原生资产的安全托管和全生命周期管理,支持多场景下镜像的高效分发,与容器服务ACK无缝集成,打造云原生应用一站式解决方案。
  • 阿里云ASM(Service
    Mesh):是一个托管式的微服务应用流量统一管理平台,兼容Istio,支持多个Kubernetes集群统一流量管理,为容器和虚拟机应用服务提供一致性的通信控制。
  • 阿里云容器服务 Serverless 版(Alibaba Cloud Serverless
    Kubernetes):是阿里云基于弹性计算架构推出的无服务器Kubernetes容器服务,让您无需管理和维护集群,即可快速创建Kubernetes容器应用。
  • ACK
    Edge:基于标准Kubernetes运行环境,提供云、边、端一体的容器应用交付、运维和管控能力,同时加强在边缘业务场景下自治能力。
  • ACK One:是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级云原生平台。ACK
    One可以连接并管理您任何地域、任何基础设施上的Kubernetes集群,并提供一致的管理和社区兼容的API,支持对计算、网络、存储、安全、监控、日志、作业、应用、流量等进行统一运维管控。
  • 云原生AI套件:通过对数据计算类任务的编排、管理,以及对各种异构计算资源的容器化统一调度和运维,显著提高异构计算集群的资源使用效率和AI工程交付速度。阿里云容器服务ACK以组件化、可拼装、可扩展、可定制的灵活方式,提供了云原生AI能力的产品支持。
  • ACK灵骏集群:容器服务 Kubernetes
    版针对智能计算灵骏提供的集群类型,提供全托管和高可用控制面的标准Kubernetes集群服务,支持以灵骏计算节点作为Kubernetes集群的工作节点。

关联的阿里云产品
通过ACK集群,您可以为应用业务创建所需的云服务器ECS、网络、存储等阿里云其他产品资源。您可以根据下图创建最小交叉产品集合,获得云原生系统构建、安全合规、微服务、可观测、存储、计算与网络等方面的专业技术支持,适配您集群的开发与运维工作。

建议您关注与容器服务ACK相结合的可观测性方案,即日志与监控产品。对于基础设施监控、容器监控、应用性能监控和业务监控,不同层面可配上对应的可观测性服务。
在这里插入图片描述
关联产品相关说明如下。
在这里插入图片描述

容器服务 Serverless 版

容器服务 Serverless 版是阿里云推出的无服务器Kubernetes容器服务。在容器服务 Serverless 版提供的ACK Serverless集群中,您无需购买节点即可直接部署容器应用,无需对集群进行节点维护和容量规划,并且根据应用配置的CPU和内存资源量进行按需付费。ACK Serverless集群提供完善的Kubernetes兼容能力,同时降低了Kubernetes使用门槛,让您更专注于应用程序,而不是管理底层基础设施。

ACK Serverless集群中的Pod基于阿里云弹性容器实例ECI运行在安全隔离的容器运行环境中。每个Pod容器实例底层通过轻量级虚拟化安全沙箱技术完全强隔离,容器实例间互不影响。

ACK Serverless集群包括ACK Serverless集群基础版和ACK Serverless集群Pro版。ACK Serverless集群Pro版是在ACK Serverless集群基础版的基础上,针对企业大规模生产环境进一步增强了可靠性、安全性,并且提供可赔付SLA的ACK Serverless集群。

核心优势说明
开箱即用低门槛快速创建集群,无需管理Kubernetes节点和服务器即可直接部署应用。
超大容量集群无需额外配置即可轻松获得最多2W Pod容量,无需提前规划容量。
秒级弹性始终确保在极短时间内创建出数千Pod,无需担心突发业务流量因Pod创建时延受到影响。
弹性预测依据历史预测资源用量提前准备,突发业务流量处理更加平滑。
原生兼容完善的Kubernetes兼容性,支持原生Kubernetes应用和生态,无缝迁移Kubernetes应用。
安全隔离Pod基于ECI服务创建,每个容器实例底层通过轻量级虚拟化安全沙箱技术完全强隔离,容器实例间互不影响。
降低成本应用按需创建,按量计费,不运行不计费,没有资源闲置费用,同时Serverless带来更低的运维成本。
服务集成支持容器应用与阿里云基础服务无缝整合;支持容器与虚拟机应用的互联互通。
Pro版集群丰富的产品层次能力,支持更高等级可靠性、SLA和更大集群容量。支持基础版无缝迁移到Pro版。

ACK Serverless集群与ACK集群的对比
如下图所示,左侧为ACK集群,右侧为ACK Serverless集群。
在这里插入图片描述
应用场景

应用场景说明
应用托管ACK Serverless集群中无需管理和维护节点,无需容量规划,极大降低业务的基础设施管理和运维成本。
突发业务对于有明显的波峰波谷特征的业务负载,例如在线教育、电子商务等行业,ACK Serverless集群的秒级伸缩能力可以显著降低计算成本,减少闲置资源浪费,平滑应对突发流量高峰。
数据计算面对Spark等数据计算需求,ACK Serverless集群可以在短时间内启动大量Pod及时处理任务,计算结束时Pod自动释放停止计费,极大降低整体计算成本。
CI/CD基于ACK Serverless集群搭建Jenkins或Gitlab-Runner等持续集成环境,并快速完成应用源码编译、镜像构建和推送以及应用部署的流水线,各持续集成任务之间安全隔离互不影响,同时无需维护固定资源池,降低计算成本。更多信息,请参见在ACK Serverless集群中部署Jenkins并完成应用构建和部署、ACK Serverless弹性低成本CI/CD。
定时任务在ACK Serverless集群中运行定时任务,任务结束后停止计费。无需维护固定资源池,避免资源闲置浪费。

核心功能
ACK Serverless集群提供完善的Kubernetes兼容性,除原生Kubernetes功能外,建议您在将生产业务部署到ACK Serverless集群前关注如下功能。

ECI Profile
ACK Serverless集群底层基于ECI服务来运行Pod,通过配置ECI Profile,您可以更加细粒度地控制Pod及Pod相关的集群行为。ECI Profile本质是位于kube-system命名空间下的名为eci-profile的ConfigMap,主要字段说明如下:

字段说明
vpcIdPod所在专有网络的唯一标识。
securityGroupId专有安全组的唯一标识。
vSwitchIds专有网络内交换机的唯一标识,可配置多个半角逗号(,)间隔。虚拟节点将基于交换机生成。
selectorsPod选择器。支持基于命名空间和Label选择Pod,并自动追加Annotation或Label。
enableClusterIp是否启用ClusterIP。默认为true。
enableLogController是否启用阿里云日志控制器。默认为false。
enablePVCController是否启用PVC控制器。默认为false。
enablePrivateZone是否启用PrivateZone服务发现能力。默认为false。
featureGates不稳定功能门禁开关。

虚拟节点
使用ACK Serverless集群时,您无需再管理节点,但为了保持与原生Kubernetes的兼容性,您仍可以在集群中看到虚拟节点。虚拟节点拥有超大的计算资源容量,让ACK Serverless集群获得极大的弹性能力,而不必担心突发业务流量。虚拟节点依据eci-profile ConfigMap中的vSwitchIds生成,本身不占用任何计算资源。

在这里插入图片描述
Pod配置
在ACK Serverless集群中创建Pod,您可以通过添加Annotation来定制Pod,详情请参见下表:

重要
 - 下表列举的Annotation仅适用于创建到虚拟节点上的Pod(即ECI实例),调度到普通节点上的Pod不受这些Annotation影响。
 - Annotation请添加在Pod的metadata下,例如:配置Deployment时,Annotation需添加在spec.template.metadata下。
 - Pod Annotation的优先级高于ECI Profile中配置的相同功能。

参数示例值描述
k8s.aliyun.com/eci-security-groupsg-bp1dktddjsg5nktv****安全组ID。
k8s.aliyun.com/eci-vswitchvsw-bp1xpiowfm5vo8o3c****交换机ID,支持指定多个交换机实现多可用区功能。
k8s.aliyun.com/eci-schedule-strategyvSwitchOrdered多可用区调度策略。取值范围:vSwitchOrdered:按顺序。vSwitchRandom:随机。
k8s.aliyun.com/eci-ram-role-nameAliyunECIContainerGroupRoleRAM角色,赋予ECI访问阿里云产品的能力。
k8s.aliyun.com/eci-use-specs2-4Gi,4-8Gi,ecs.c6.xlargeECI实例规格,支持指定多规格,包括指定vCPU和内存,或者ECS规格。
k8s.aliyun.com/eci-spot-strategySpotAsPriceGo抢占式实例策略。取值范围:SpotAsPriceGo:系统自动出价,跟随当前市场实际价格。SpotWithPriceLimit:设置抢占实例价格上限。
k8s.aliyun.com/eci-spot-price-limit0.5抢占式实例价格。说明:仅当k8s.aliyun.com/eci-spot-strategy设置为SpotWithPriceLimit时有效。
k8s.aliyun.com/eci-cpu-option-core2CPU物理核心数。
k8s.aliyun.com/eci-security-group1每核线程数。
k8s.aliyun.com/eci-reschedule-enable“true”是否开启ECI重调度。
k8s.aliyun.com/pod-fail-on-create-err“true”创建失败的ECI实例是否体现Failed状态。
k8s.aliyun.com/eci-image-snapshot-idimc-2zebxkiifuyzzlhl****指定镜像缓存ID。说明:使用镜像缓存支持手动指定和自动匹配两种方式,建议使用自动匹配方式。
k8s.aliyun.com/eci-image-cache“true”自动匹配镜像缓存。说明:使用镜像缓存支持手动指定和自动匹配两种方式,建议使用自动匹配方式。
k8s.aliyun.com/acr-instance-idcri-j36zhodptmyq****ACR企业版实例ID。支持跨地域指定ACR企业版实例,此时需在实例ID前加上所属地域,例如"cn-beijing:cri-j36zhodptmyq****"。
k8s.aliyun.com/eci-eip-instanceideip-bp1q5n8cq4p7f6dzu****EIP实例ID。
k8s.aliyun.com/eci-with-eip“true”是否自动创建并绑定EIP。
k8s.aliyun.com/eip-bandwidth5EIP带宽。
k8s.aliyun.com/eip-common-bandwidth-package-idcbwp-2zeukbj916scmj51m****共享带宽包ID。
k8s.aliyun.com/eip-ispBGPEIP线路类型,仅按量付费的EIP支持指定。取值范围:BGP:BGP(多线)线路。BGP_PRO:BGP(多线)精品线路。
k8s.aliyun.com/eip-internet-charge-typePayByBandwidthEIP的计量方式。取值范围:PayByBandwidth:按带宽计费。PayByTraffic:按流量计费。
k8s.aliyun.com/eci-enable-ipv6“true”是否绑定一个IPv6地址。
k8s.aliyun.com/eci-ipv6-bandwidth-enable“true”是否开通ECI的IPv6公网通信能力。
k8s.aliyun.com/eci-ipv6-bandwidth100M设置IPv6地址的公网带宽峰值。
kubernetes.io/ingress-bandwidth40M入方向带宽。
kubernetes.io/egress-bandwidth20M出方向带宽。
k8s.aliyun.com/eci-extra-ephemeral-storage50Gi临时存储空间大小。
k8s.aliyun.com/eci-eviction-enable“true”设置自动驱逐临时存储空间不足的ECI Pod。
k8s.aliyun.com/eci-core-pattern/pod/data/dump/coreCore dump文件保存目录。
k8s.aliyun.com/eci-ntp-server100.100..NTP Server。
k8s.aliyun.com/plain-http-registry“harbor***.pre.com,192.168.XX.XX:5000,reg***.test.com:80”取值为自建镜像仓库地址。使用自签发证书的自建镜像仓库中的镜像创建ECI实例时,需配置该参数来跳过证书认证,避免因证书认证失败而导致镜像拉取失败。
k8s.aliyun.com/insecure-registry“harbor***.pre.com,192.168.XX.XX:5000,reg***.test.com:80”取值为自建镜像仓库地址。使用自签发证书的自建镜像仓库中的镜像创建ECI实例时,需配置该参数来跳过证书认证,避免因证书认证失败而导致镜像拉取失败。

网络管理
集群中的ECI Pod默认使用Host网络模式,占用交换机vSwitch的一个弹性网卡ENI资源,与VPC内的ECS、RDS互联互通。

类型说明
Service1.支持创建ClusterIP、LoadBalancer类型Service。2.不支持NodePort类型Service:ACK Serverless集群中不支持节点相关的功能。
IngressSLB Ingress:无需部署Controller直接使用基于SLB七层转发提供的Ingress能力。Nginx Ingress:部署Nginx Ingress Controller后可以创建Nginx Ingress。
服务发现如果您的集群内部应用需要Service的服务发现功能,请在创建集群时开启PrivateZone或CoreDNS。您也可以在集群创建后通过ECI Profile开启PrivateZone或通过组件管理安装CoreDNS组件。
弹性公网IP支持给ECI Pod挂载EIP,可自动创建或者绑定到已有的EIP实例。

存储管理
Pod支持挂载阿里云块存储和文件存储。

存储方式说明
阿里云块存储(Disk)使用Flexvolume方式挂载:无需安装Flexvolume插件。您可以选择指定DiskID挂载示例;或者您也可以动态创建云盘。使用PV/PVC动态创建云盘后挂载:安装disk-controller后即可动态创建云盘后挂载。
阿里云文件存储(NAS)使用NFS Volume:支持使用NFS方式挂载NAS目录。使用Flexvolume静态挂载:无需安装Flexvolume插件,直接指定NAS挂载地址。使用PV/PVC静态挂载:安装disk-controller后即可使用PVC静态挂载NAS目录挂载。

可观测性

功能说明
日志在ACK Serverless集群中,您可以通过编辑eci-profile来启用日志服务,之后将开始收集Pod日志,详情请参见通过Pod环境变量采集应用日志。
监控您可以通过组件安装arms-prometheus组件启用集群监控,详情请参见阿里云Prometheus监控。

镜像管理

  • ACK Serverless集群支持通过ImageCache来加速创建Pod,这对快速响应您的业务至关重要。
  • 当您在ACK Serverless集群中创建Pod使用的镜像来自ACR,还可以通过配置ACR企业版免密来简化配置。

弹性伸缩
ACK Serverless集群中没有真实节点,所以无需考虑节点的容量规划,也无需考虑基于cluster-autoscaler的节点扩容,您只需要关注应用的按需扩容。建议您配置HPA或者CronHPA策略进行Pod的灵活按需扩容。

授权管理
如果您的业务Pod需要访问阿里云云产品,您可以通过配置RRSA(RAM Roles for Service Accounts)来通过云产品鉴权。

集群管理

类型说明
智能运维您可以通过智能运维来定期检查ACK Serverless集群的健康度,或者进行集群升级或迁移的前置检查。
升级ACK Serverless集群支持集群无缝升级,您无需担心业务受影响。
Pro版提供更高等级可靠性、SLA和更大集群容量。
迁移支持将试用体验或者早期的ACK Serverless集群基础版无缝迁移到ACK Serverless集群Pro版以获得更高等级保证。

组件管理
ACK Serverless集群提供多种类型的组件以扩展集群功能,您可以根据业务需求部署、升级和卸载组件。

组件托管
为简化集群运维,让您更专注于应用程序,ACK Serverless集群提供部分系统组件托管能力。例如,在ACK Serverless集群中创建的Kubernetes核心组件会被托管,包括Kube Scheduler、Cloud Controller Manager、Kube Controller Manager和Kube API Server等。除Kubernetes核心组件外,ACK Serverless集群会逐步上线存储、网络、监控等系统组件的托管形态。

重要
		组件托管后仍会在集群中创建ClusterRole、ClusterRoleBinding、ServiceAccount、Service、ConfigMap等对象,
		这些对象不会占用实际的ECI资源。为确保集群正常运行,请勿修改这些对象。

托管组件由ACK Serverless集群负责部署和维护,但您仍可以在ACK Serverless集群中使用相同的API与组件进行交互。托管组件具有如下优势:

  • 不占用您账户下的ECI实例资源,节约开销。
  • 无需自行部署和维护,自动化机制会确保组件处于最佳运行状态。
  • 支持高可用架构。

应用管理
支持在容器服务管理控制台通过应用市场安装Helm应用,并通过Helm页面进行管理。

使用限制
使用ACK Serverless集群前,需要注意以下使用限制:

  • 不支持DaemonSet型工作负载。您可以通过将DaemonSet重新配置为Pod的Sidecar容器来运行。
  • 不支持在Pod manifest中指定HostPath和HostNetwork。
  • 不支持Privileged权限容器。可以使用Security Context为Pod添加Capability。
  • 不支持NodePort类型的Service。
  • 不支持上海、深圳金融云,不支持政务云。

容器服务 Edge 版

阿里云容器服务 Edge 版是阿里云容器服务针对边缘计算场景推出的云边一体化协同托管方案。本文介绍阿里云ACK Edge集群的产生背景和主要功能。

功能介绍

在这里插入图片描述

ACK Edge集群支持对边缘计算场景的容器应用和资源全生命周期管理,具有以下功能:

  • 通过控制台一键创建高可用的ACK Edge集群,并提供集群的扩容、升级、日志、监控等生命周期管理运维能力。
  • 支持丰富的异构边缘节点资源,包括自建IDC资源、IoT设备、x86、Arm架构等,并支持异构资源的混合调度。
  • 面向边缘计算弱网络连接场景,提供节点自治和网络自治能力,以保证边缘节点和边缘业务的高可靠运行。
  • 提供反向运维网络通道能力。
  • 提供边缘单元管理、单元化部署、单元流量管理能力。

容器服务灵骏版

阿里云容器服务灵骏版是容器服务Kubernetes版(ACK)针对智能计算灵骏提供的集群类型,提供全托管和高可用控制面的标准Kubernetes集群服务,支持以灵骏计算节点作为Kubernetes集群的工作节点。本文介绍阿里云ACK灵骏托管版集群的产品简介、功能介绍和核心优势等。

产品简介
ACK灵骏托管版集群提供了全托管和高可用控制面的标准Kubernetes集群服务,支持高效管理异构资源、调度异构任务,作为支撑人工智能平台 PAI的云原生底座,并提供AI、HPC等高性能计算场景下的云原生增强能力。下图展示了ACK灵骏托管版集群的产品架构,并体现出在整个软硬分层、统一优化的集成产品方案中,ACK灵骏托管版集群提供了稳定、可靠、高效、安全的云原生AI基础设施服务。
在这里插入图片描述
功能介绍

  • 集群管理
    ACK灵骏托管版集群的核心管理能力与ACK Pro托管版集群一致。集群控制面由ACK创建并托管,管控节点默认为3个可用区的高可用部署。提供集群的生命周期管理,以及集群授权、集群监控、集群升级、组件管理等集群运维操作。

  • 节点管理
    ACK灵骏托管版集群为灵骏计算节点提供灵骏节点池类型,支持节点池生命周期管理以及节点批量添加和移除,提供与ECS节点池一致的管理和运维,包括节点配置、节点运维、节点托管、调度应用至指定节点池等,以及监控诊断和自动化运维等能力。

  • 云原生AI
    ACK灵骏托管版集群默认提供云原生AI增强组件,支持多GPU卡的拓扑感知调度,结合GPU容器虚拟化方案eGPU提供共享GPU调度和隔离;针对AI、HPC等任务特点,支持Gang、Capacity、Binpack等任务调度策略;还支持数据集编排和访问加速。

核心优势

  • 安全稳定
    ACK灵骏托管版集群具备ACK Pro托管版集群的企业级特性,提供控制面托管和高可用,免去了繁琐的集群搭建和配置工作;保障集群的稳定性、可靠性、安全性,支持赔付标准的SLA,满足企业级大规模生产环境的业务需求。

  • 简化运维
    ACK灵骏托管版集群提供标准的Kubernetes服务,并与智能计算灵骏以及其他相关云产品进行深度集成。为集群和灵骏计算节点提供了简单的操作和自动化的运维,保持与ECS节点一致的管理体验,减少了大量的适配和运维成本。

  • 提效加速
    ACK灵骏托管版集群提供GPU的共享调度和拓扑感知调度等能力,优化异构资源的使用效率和性能;为AI、HPC等任务提供了丰富的调度策略、任务优先级队列,优化AI训练和推理任务效率,统一AI资源和负载的标准化管理和交付。

云原生AI套件概述

云原生AI套件是阿里云容器服务ACK提供的云原生AI技术和产品方案。使用云原生AI套件,您可以充分利用云原生架构和技术,在Kubernetes容器平台上快速定制化构建AI生产系统,并为AI/ML应用和系统提供全栈优化。本文介绍云原生AI套件产品架构、核心功能、使用场景、使用流程等内容。

产品架构
云原生AI套件以阿里云容器服务ACK为底座,向下封装对各类异构资源的统一管理,向上提供标准Kubernetes集群环境和API,以运行各核心组件,实现资源运维管理、AI任务调度和弹性伸缩、数据访问加速、工作流编排、大数据服务集成、AI作业生命周期管理、AI制品管理、统一运维等服务;再向上针对AI生产流程中的主要环节,支持AI数据集管理,AI模型开发、训练、评测,以及模型推理服务等。

您可以通过统一的命令行工具、多种语言SDK和控制台界面,直接使用各核心组件。您也可以进行灵活地扩展、组装或二次开发,快速定制化构建AI生产系统。通过同样的组件和工具,云原生AI套件也支持阿里云AI服务、开源AI框架和第三方AI能力的集成。

此外,云原生AI套件支持与阿里云人工智能平台 PAI无缝集成,提供高效、灵活的一站式AI平台。一方面,您可以直接使用PAI平台提供的DSW、DLC、EAS等服务。这些服务借助ACK为AI模型开发、训练和推理带来了更好的弹性和效率。另一方面,云原生AI套件支持在ACK集群中一键部署轻量化人工智能平台 PAI平台,降低AI使用门槛。在Kubernetes应用中,您可以灵活地集成PAI平台深度优化的算法和引擎,依托其最佳实践沉淀,极大优化训练与推理效果。关于人工智能平台 PAI的更多信息,请参见什么是人工智能平台 PAI。

云原生AI套件的产品架构如下图所示。

在这里插入图片描述

核心功能
云原生AI套件基于阿里云容器服务ACK,为AI/ML应用和系统提供了自底向上的全栈支持和优化。云原生AI套件有以下核心功能。
在这里插入图片描述
使用场景
云原生AI套件的核心场景包括持续优化异构资源效率、高效运行AI等异构工作负载。

在这里插入图片描述
场景一:持续优化异构资源效率
对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,云原生AI套件支持对其进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

场景二:高效运行AI等异构工作负载
云原生AI套件内置支持TensorFlow、PyTorch、DeepSpeed、Ray、Horovod、Spark、Flink、Kubeflow、KServe、vLLM、Triton inference server等主流开源或者用户自有的各种计算引擎和运行时,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本,另一方面持续改善开发运维体验和工程效率。

用户角色
云原生AI套件存在两种用户角色。

角色类型说明
运维管理员负责搭建AI基础架构和日常管理。
算法工程师、数据科学家使用云原生AI套件管理任务。

使用流程
基于用户角色,云原生AI套件的使用流程如下图所示。
在这里插入图片描述

流程

1、准备工作
(运维管理员)

注册账号
注册阿里云账号并完成实名认证。

创建ACK集群
开通ACK服务并创建ACK集群。推荐配置如下。关于配置的详情说明,请参见创建Kubernetes托管版集群。
集群类型:ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版。
集群版本:1.18及以上。
地域:以ACK集群开服的地域为准。

配置ACK集群依赖项及创建依赖云资源(可选)

  • 若需安装配置AI套件控制台:
  1. 需在集群中安装监控插件和日志服务。
  2. 需在访问控制(RAM)控制台为集群添加授权策略。
  3. 若使用私网、公网域名访问控制台,需要在集群中安装Nginx Ingress(私网、公网)。
  4. 若控制台数据存储方式选择集群内置MySQL,集群节点需要挂载ESSD类型云盘。
  5. 若控制台数据存储方式选择阿里云关系型数据库RDS(Relational Database Service),需购买RDS实例,并在集群kube-ai命名空间下创建名为kubeai-rds的Secret。
  6. 关于以上配置的具体操作,请参见安装配置云原生AI控制台。
  • 若需要安装配置工作流Kubeflow Pipelines:
  1. 若工作流数据存储方式选择集群内置MinIO,集群节点需要挂载ESSD类型云盘。具体操作,请参见安装配置工作流。
  2. 若工作流数据存储方式选择阿里云对象存储OSS(Object Storage Service),需开通并购买OSS,并在集群kube-ai命名空间3下创建名为kubeai-oss的Secret。

2、系统与环境搭建
(运维管理员)

开通安装

  1. 打开云原生AI套件开通页面,开通云原生AI套件服务。
  2. 安装云原生AI套件和相关组件。具体操作,请参见安装云原生AI套件。

管理用户和配额

  1. 添加配额节点,并限定资源使用额度。
  2. 创建用户和用户组,分配资源并关联配额组。
  3. 具体操作,请参见管理用户、管理用户组、管理弹性配额组。
  4. 为新增用户生成访问集群的KubeConfig和登录Token。

准备数据

  1. 创建数据集。
  2. 加速数据集(可选)。

(算法工程师、数据科学家)
云原生AI套件支持命令行工具Arena、Web控制台和一站式AI平台等多种方式,帮助算法工程师和数据科学家进行模型开发、训练、推理和任务管理。

  • 使用命令行工具或开发控制台
    安装配置命令行工具Arena或云原生AI套件开发控制台。

  • 使用轻量化人工智能平台 PAI平台
    安装轻量化人工智能平台 PAI平台。

3、模型训练与部署
(算法工程师、数据科学家)

使用云原生AI套件提供的命令行工具Arena或AI套件开发控制台时,模型训练与部署如下。

模型开发

  1. 创建并使用Jupyter Notebook。
  2. 通过Jupyter Notebook开发测试。
  3. 在Jupyter Notebook中提交代码至Git仓库。

模型训练

  1. 通过AI套件开发控制台或Arena提交训练任务。
  2. 查看任务日志或Tensorboard数据。

模型管理

  1. 创建模型并关联训练任务。
  2. 用云原生AI套件开发控制台或Arena命令行工具进行模型管理。

模型部署
将模型发布为推理服务。
使用轻量化人工智能平台 PAI提供的模型开发、训练、部署等服务。

4、运维观测
(运维管理员)

运维观测
查看资源大盘,包括集群、节点、训练任务、资源配额等监控大盘。更多信息,请参见使用云原生AI监控大盘。

配额管理

  1. 对配额组及配额组资源进行新增、查询、更新、删除等操作。
  2. 变更资源类型。

用户管理
新增、查询、更新、删除用户或用户组。具体操作,请参见管理用户、管理用户组。

数据集管理

  • 新增、查询、更新、删除数据集及数据。具体操作,请参见管理数据集。
  • 加速数据集。更多信息,请参见数据加速Fluid概述。

弹性任务管理
查看提交的弹性任务及任务详情。具体参照,请参见查看弹性任务。

分布式云容器平台 ACK One

分布式云容器平台ACK One(Distributed Cloud Container Platform for Kubernetes)是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级云原生平台。ACK One可以连接并管理您任何地域、任何基础设施上的Kubernetes集群,并提供一致的管理和社区兼容的API,支持对计算、网络、存储、安全、监控、日志、作业、应用、流量等进行统一运维管控。本文介绍ACK One的产品优势、功能和应用场景。

在这里插入图片描述
产品优势

  • 提供一致界面和API,对集群、计算、网络、存储、安全、监控、日志、作业、应用、流量等提供企业级运维管控能力。

  • 面向云突发的业务波峰,业务自动或定时触发弹性扩容和缩容云上资源,降低综合业务成本。

  • 开箱即用的备份中心,提供应用和数据保护,并支持跨地域完整应用和数据一体迁移,以及应用多活部署的快速实施。

  • 提供了全域的应用分发、任务分发、流量治理能力,帮助企业客户基于自己的业务分布和数据管控诉求,全面构建安全、标准、现代化的云原生IT架构。

  • 一键部署经云端大规模验证的企业级产品、组件到任意Kubernetes集群,从而获得增强的安全、调度、AI大数据加速器能力。

产品功能
为了应对分布式云场景多种挑战,ACK One提供以下功能。

注册集群
在这里插入图片描述
通过ACK One注册集群,您可以将来自不同供应商和不同位置的K8s集群统一接入到阿里云容器服务ACK控制台,实现多个集群统一管理,并使用容器服务ACK丰富的集群扩展能力,同时获得云上弹性计算资源。

  • 云上云下一致的运维体验:与阿里云容器服务ACK集群一样,可以在本地数据中心K8s集群和其他云服务的K8s集群中使用以下能力。

    1. 可观察性:集群控制面监控,集群数据面监控,应用实时监控,日志收集与查询,成本分析FinOps。
    2. 安全合规:认证授权,集群审计,策略管理,配置巡检。
    3. 备份恢复:提供云上备份、恢复、迁移一体化的方案,支持数据和应用的云容灾。
    4. 微服务治理:支持通过阿里云服务网格ASM或者微服务引擎MSE管理K8s集群中的微服务。
  • 云上弹性:可以将阿里云ECS节点和弹性容器实例ECI加入到本地K8s集群中,由本地K8s集群调度云上计算资源,应对IDC资源不足和突发业务流量。

  • 智能调度

    1. 利用容器服务ACK调度器,实现Gang Scheduling、CPU拓扑感知、ECI弹性调度等高阶调度能力。
    2. 利用分布式缓存ACK Fluid应对存算分离场景,提升访问效率和减少带宽占用。

多集群舰队
在这里插入图片描述
当您同时运行多个K8s集群时,可以通过多集群舰队ACK One Fleet,关联多个集群,并通过多集群舰队提供的统一控制面,同时管理多个关联集群。

  • 多集群舰队控制面基于K8s控制面构建,提供标准Kubernetes API。
  • 多集群舰队可以接入多个K8s集群,非容器服务ACK集群,可以先通过注册集群接入。
  • GitOps应用分发:托管开源ArgoCD,实现GitOps多集群应用分发。
  • 流量管理:集成MSE云原生网关,实现多集群应用南北流量控制;支持多集群Service,实现多集群东西流量控制。
  • 作业分发:离线作业多集群调度,选择适合的集群运行离线作业。
  • 全局监控:多集群监控大盘,一个监控大盘查看所有集群的监控指标。

分布式工作流Argo集群
在这里插入图片描述
分布式工作流Argo集群采用无服务器模式,使用阿里云弹性容器实例ECI运行离线工作流。

  • 成本优化:控制面免费,数据面按使用计费,Spot优化成本。
  • 高IO带宽:通过分布式数据缓存,提供20+ GB/s聚合读带宽,支持跨地域访问。
  • 资源预测:通过负载感知自动调整资源规格。
  • 规模化计算:支持千级并发工作流,数万计算任务。
  • 事件驱动:支持Git、阿里云MNS、OSS等事件源触发工作流自动运行。

应用场景
场景1:注册集群,接入云端构建混合云
在这里插入图片描述场景描述

  • 云下IDC自建集群:打通集群网络,实现云下云上资源共享。
  • 按需在云上伸缩计算资源和应用:业务高峰期,在云端快速扩容,把部分业务流量引到云端。

场景2:注册集群,云下K8s集群使用云产品扩展集群能力,云上云下集群一致运维体验
在这里插入图片描述
场景描述

  • 一致运维体验:ACK统一的运维能力下沉到数据中心集群和第三方公有云集群。
  • 增强可观测性:支持日志、监控、和事件收集,享受云上同等的运维体验。
  • 安全能力提升:一键开启审计、安全巡检、节点风险探测,策略治理。
  • 微服务治理:阿里云微服务引擎MSE与服务网格ASM提供微服务治理能力。

场景3:注册集群 ,备份容灾、混合云、同地域、跨地域数据容灾
在这里插入图片描述
场景描述

  • 应用上云:提供跨地域和数据中心的应用一致性备份和秒级恢复,帮助您的业务应用快速上云。
  • 数据灾备:提供跨地域和数据中心的有状态应用备份,支持备份策略和恢复策略。持续容灾备份到云端,提高勒索防护的防范能力。
  • 业务容灾:提供跨地域和数据中心的应用和数据异地备份容灾和定时备份能力。
  • 异地多活:提供兼容Kubernetes,快速构建两地三中心容灾系统,帮助您搭建高可用系统。

场景4:注册集群,协同调度器赋能AI和大数据
在这里插入图片描述
场景描述

  • AI算法开发:提供全面的任务、配额、可观测性管理。
  • AI训练:支持拓扑感知和丰富的任务调度策略,提示训练效率。通过存算分离架构,大幅提升分布式数据训练速度。支持跨集 - 群作业任务调度,提供面向多集群优化的TensorFlow、Spark、CronJob等作业任务分发和调度。
  • AI推理:提供GPU共享,资源利用率可提高约300%。支持异构资源弹性伸缩,提供云上云下统一的弹性调度管理。
  • CPU智能调度:针对裸机的智能CPU调度和NUMA感知。

场景5:多集群舰队,多集群GitOps应用分发
在这里插入图片描述
场景描述

  • 高可靠性:Git仓库作为应用部署的唯一来源,可提供版本控制、变更审批流程、代码回滚和审计能力。
  • 高安全性:开发者无需任何Kubernetes集群权限,仅需要Git仓库权限。
  • 应用持续部署:Git仓库中应用状态与Kubernetes集群应用状态自动同步。
  • 应用多集群分发:支持将应用同时发布到多个集群,并支持差异化配置。

场景6:多集群舰队,多集群网关实现应用同城容灾
在这里插入图片描述
场景描述

  • 多集群网关:多集群南北流量管理,简化管控成本。
  • 全局Ingress:使用Ingress规则控制七层流量,实现基于权重、副本数、自动fallback等策略。

场景7:分布式工作流Argo集群,通用离线任务与复杂工作流编排与调度
在这里插入图片描述
场景描述

  • 托管Serverless Argo控制面:完全兼容开源Argo Workflow编排标准。
  • 多地域多可用区:保证资源供给,并结合Spot降低成本。
  • 分布式数据缓存:应对存算分离挑战,提高数据访问效率,降低计算成本。
  • 业务场景:仿真计算、科学计算、数据处理、持续集成。

容器镜像服务ACR

阿里云容器镜像服务ACR(Alibaba Cloud Container Registry)是面向容器镜像、Helm Chart等符合OCI标准的云原生制品安全托管及高效分发平台。ACR企业版支持全球同步加速、大规模和大镜像分发加速、多代码源构建加速等全链路加速能力,与容器服务ACK无缝集成,帮助企业降低交付复杂度,打造云原生应用一站式解决方案。

产品类型

容器镜像服务ACR企业版

  • 容器镜像服务ACR企业版面向企业客户,是企业级云原生应用制品管理平台,提供容器镜像、Helm
    Chart,符合OCI规范制品的生命周期管理;支持大规模、多地域、多场景下应用制品的高效分发;与容器服务ACK无缝集成,帮助企业降低交付复杂度。

容器镜像服务ACR个人版

  • 容器镜像服务ACR个人版面向个人开发者,提供基础的容器镜像服务,包括应用镜像托管能力、稳定的镜像构建服务以及便捷的镜像授权功能,方便用户进行镜像全生命周期管理。

容器镜像服务ACR企业版功能

功能项说明
多样OCI制品托管支持多架构容器镜像(如Linux、Windows、ARM等架构的容器镜像)、支持Helm Chart v2/v3,符合OCI规范的制品管理。
加速应用分发支持全球多地域间同步,提供容器镜像分发效率;提供P2P分发加速方式。
多维度安全保障云原生制品加密存储,支持镜像安全扫描及多维度漏洞报告,保障存储及内容安全;分别提供容器镜像和Helm Chart的网络访问控制管理,细粒度的操作审计,保障制品访问安全。
提效云原生应用交付提供云原生应用交付链功能,全链路可观测、可追踪、可自主配置;支持基于策略的自动阻断,实现一次应用变更,全球化多场景自动交付,提升云原生应用交付效率及安全。

容器镜像服务ACR个人版功能

功能项说明
多架构镜像托管支持支持Linux、Windows、ARM等多架构容器镜像。
灵活的地域选择您可以根据自己的业务需求,选择不同的地域创建和删除镜像仓库。每个镜像仓库都提供了公网、内网、VPC网络下对应的网络地址。

产品架构
以下为容器镜像服务ACR的产品架构图。
在这里插入图片描述

;