华为云用户手册

  • 响应示例 状态码: 400 错误响应 { "errCode" : "SFS.TURBO.0122", "errMsg" : "invalid mode" } 状态码: 409 错误响应,目录冲突 { "errCode" : "SFS.TURBO.0114", "errMsg" : "path already exist" } 状态码: 500 错误响应 { "errCode" : "SFS.TURBO.0005", "errMsg" : "Internal server error" }
  • 响应参数 状态码: 400 表4 响应Body参数 参数 参数类型 描述 errCode String 错误码 最小长度:8 最大长度:36 errMsg String 错误描述 最小长度:2 最大长度:512 状态码: 409 表5 响应Body参数 参数 参数类型 描述 errCode String 错误码 最小长度:8 最大长度:36 errMsg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表6 响应Body参数 参数 参数类型 描述 errCode String 错误码 最小长度:8 最大长度:36 errMsg String 错误描述 最小长度:2 最大长度:512
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 账号的token Content-Type 是 String MIME类型 表3 请求Body参数 参数 是否必选 参数类型 描述 path 是 String 合法的的目录全路径 mode 否 Long 目录权限,默认值是755,取值范围是0到777。第一位表示目录所有者的权限,第二位表示目录所属用户组的权限,第三位表示其他用户的权限。目录所有者由uid指定,目录所属用户组由gid指定,不是目录所有者且不在目录所属用户组的用户为其他用户。例如:755中第一位7代表该目录所有者对该目录具有读、写、执行权限;第二位5代表该目录所属用户组对该目录具有读、执行权限;第三位5代表其他用户对该目录具有读、执行权限。 最小值:0 uid 否 Long 目录所有者的用户id,默认值是0,取值范围是0到4,294,967,294(即2^32-2)。 最小值:0 gid 否 Long 目录所属用户组id,默认值是0,取值范围是0到4,294,967,294(即2^32-2)。 最小值:0
  • 请求消息头 附加请求头字段,如指定的URI和HTTP方法所要求的字段。例如定义消息体类型的请求头“Content-Type”,请求鉴权信息等。 如下公共消息头需要添加到请求中。 表2 消息头名称 描述 是否必选 Content-Type 消息体的类型(格式),必选,默认取值为“application/json”,有其他取值时会在具体接口中专门说明。 是 Authorization 请求消息中可带的签名信息,必选,AK/SK认证的详细说明请参见:AK/SK认证。 是 Host 表明主机地址,必选。 是 X-Sdk-Date 请求发起端的日期和时间,必选,例如:20221107T020014Z。 是 API支持使用AK/SK认证,AK/SK认证是使用SDK对请求进行签名,签名过程会自动往请求中添加Authorization(签名认证信息)和X-Sdk-Date(请求发送的时间)请求头。AK/SK认证的详细说明请参见:AK/SK认证。 对于查询控制策略操作状态接口,请求如下所示。 GET https://rgc.cn-north-4.myhuaweicloud.com/v1/governance/operation-control-status/c0jquihv-x3ve-1lb9-qmix-dankod8dg86z Content-Type: application/json; charset=UTF-8 X-Sdk-Date: 20240527T021902Z Host: rgc.cn-north-4.myhuaweicloud.com Authorization: SDK-HMAC-SHA256 Access=xxxxxxxxxxxxxxxxxxx, SignedHeaders=content-type;host;x-sdk-date, Signature=xxxxxxxxxxxxxxxxxxxx
  • 请求方法 HTTP请求方法(也称为操作或动词),它告诉服务你正在请求什么类型的操作。 GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 HEAD:请求服务器资源头部。 PATCH:请求服务器更新资源的部分内容。当资源不存在的时候,PATCH可能会去创建一个新的资源。 在查询控制策略操作状态的URI部分,您可以看到其请求方法为“GET”,则其请求为: GET https://rgc.cn-north-4.myhuaweicloud.com/v1/governance/operation-control-status/{operation_control_status_id}
  • 请求URI 请求URI由如下部分组成。 {URI-scheme} :// {Endpoint} / {resource-path} ? {query-string} 表1 请求URL 参数 说明 URI-scheme 传输请求的协议,当前所有API均采用HTTPS协议。 Endpoint 指定承载REST服务端点的服务器 域名 或IP,不同服务不同区域的Endpoint不同,您可以从地区和终端节点中获取。例如RGC服务在“华北-北京四”区域的Endpoint为“rgc.cn-north-4.myhuaweicloud.com”。 resource-path 资源路径,也即API访问路径。从具体API的URI模块获取,例如“查询控制策略操作状态”API的resource-path为“/v1/governance/operation-control-status/{operation_control_status_id}”,其中operation_control_status_id为开启控制策略或者关闭控制策略的操作标识ID。 query-string 查询参数,是可选部分,并不是每个API都有查询参数。查询参数前面需要带一个“?”,形式为“参数名=参数取值”,例如“limit=10”,表示查询不超过10条数据。 例如您需要获取在“华北-北京四”区域的某一开启控制策略操作状态,则需使用“华北-北京四”区域的Endpoint(rgc.cn-north-4.myhuaweicloud.com),并在查询控制策略操作状态的URI部分找到resource-path(/v1/governance/operation-control-status/{operation_control_status_id}),拼接起来如下所示。 https://rgc.cn-north-4.myhuaweicloud.com/v1/governance/operation-control-status/{operation_control_status_id}
  • 操作(Action) 操作(Action)即为策略中支持的操作项。 “访问级别”列描述如何对操作进行分类(list、read和write等)。此分类可帮助您了解在策略中相应操作对应的访问级别。 “资源类型”列指每个操作是否支持资源级权限。 资源类型支持通配符号*表示所有。如果此列没有值(-),则必须在策略语句的Resource元素中指定所有资源类型(“*”)。 如果该列包含资源类型,则必须在具有该操作的语句中指定该资源的URN。 资源类型列中必需资源在表中用星号(*)标识,表示使用此操作必须指定该资源类型。 “条件键”列包括了可以在策略语句的Condition元素中支持指定的键值。 如果该操作项资源类型列存在值,则表示条件键仅对列举的资源类型生效。 如果该操作项资源类型列没有值(-),则表示条件键对整个操作项生效。 如果此列没有值(-),表示此操作不支持指定条件键。 您可以在自定义策略语句的Action元素中指定以下RGC的相关操作。 表1 RGC支持的授权项 授权项 描述 访问级别 资源类型(*为必须) 条件键 rgc:control:list 授予列出控制策略的权限。 list - - rgc:controlViolation:list 授予列出不合规信息的权限。 list - - rgc:control:get 授予获取控制策略详细信息的权限。 read - - rgc:control:enable 授予开启控制策略的权限。 write - - rgc:control:disable 授予关闭控制策略的权限。 write - - rgc:controlOperate:get 授予获取控制策略操作状态的权限。 read - - rgc:enabledControl:list 授予列出开启的控制策略的权限。 list - - rgc:controlsForOrganizationalUnit:list 授予列出某个注册组织单元下开启的控制策略的权限。 list - - rgc:controlsForAccount:list 授予列出某个纳管账号开启的控制策略的权限。 list - - rgc:complianceStatusForAccount:get 授予获取组织里某个纳管账号的资源合规状态的权限。 read - - rgc:complianceStatusForOrganizationalUnit:get 授予获取组织里某个注册组织单元下所有纳管账号的资源合规状态的权限。 read - - rgc:controlsForOrganizationalUnit:get 授予获取某个组织单元开启的控制策略的权限。 read - - rgc:controlsForAccount:get 授予获取某个账号开启的控制策略的权限。 read - - rgc:configRuleCompliance:list 授予列出纳管账号的Config规则合规性信息的权限。 list - - rgc:externalConfigRuleCompliance:list 授予列出纳管账号的外部Config规则合规性信息的权限。 list - - rgc:driftDetail:list 授予列出漂移信息的权限。 list - - rgc:managedOrganizationalUnit:register 授予注册组织单元的权限。 write - - rgc:managedOrganizationalUnit:reRegister 授予重新注册组织单元的权限。 write - - rgc:managedOrganizationalUnit:deRegister 授予取消注册组织单元的权限。 write - - rgc:operation:get 授予获取注册过程信息的权限。 read - - rgc:managedOrganizationalUnit:delete 授予删除注册组织单元的权限。 write - - rgc:managedOrganizationalUnit:get 授予获取已注册组织单元的权限。 read - - rgc:managedOrganizationalUnit:create 授予创建组织单元的权限。 write - - rgc:managedOrganizationalUnit:list 授予列举控制策略生效的注册组织单元信息的权限。 list - - rgc:managedAccount:enroll 授予纳管账号的权限。 write - - rgc:managedAccount:unEnroll 授予取消纳管账号的权限。 write - - rgc:managedAccount:update 授予更新纳管账号的权限。 write - - rgc:managedAccount:get 授予获取纳管账号的权限。 read - - rgc:managedAccountsForParent:list 授予列出注册组织单元下所有纳管账号信息的权限。 list - - rgc:managedAccount:create 授予创建账号的权限。 write - - rgc:managedAccount:list 授予列出控制策略生效的纳管账号信息的权限。 list - - rgc:managedCoreAccount:get 授予获取核心纳管账号的权限。 read - - rgc:homeRegion:get 授予查询主区域的权限。 read - - rgc:preLaunch:check 授予设置Landing Zone前检查的权限。 write - - rgc:landingZone:setup 授予设置Landing Zone的权限。 write - - rgc:landingZone:delete 授予删除Landing Zone的权限。 write - - rgc:landingZoneStatus:get 授予获取查询Landing Zone设置状态的权限。 read - - rgc:availableUpdate:get 授予获取Landing Zone可更新状态的权限。 read - - rgc:landingZoneConfiguration:get 授予获取Landing Zone配置信息的权限。 read - - rgc:landingZoneIdentityCenter:get 授予获取当前客户的Identity Center用户信息的权限。 read - - rgc:operation:list 授予获取注册组织单元或纳管账号的当前操作状态的权限。 list - - rgc:templateDeployParam:get 授予获取模板部署参数的权限。 read - - rgc:template:create 授予创建模板的权限。 write - - rgc:template:delete 授予删除模板的权限。 write - - rgc:predefinedTemplate:list 授予列出预置模板的权限。 list - - rgc:managedAccountTemplate:get 授予获取纳管账号模板详情的权限。 read - -
  • 背景说明 通过RGC服务,预计可实现以下功能: RGC将会拥有必要的权限来治理Organizations内的所有组织单元以及成员账号。 您需要在RGC中搭建Landing Zone,并且设置您的多账号环境治理范围。RGC不会将云上环境治理扩展到您Organizations服务内现有的其他组织单元和成员账号。 当您将现有组织单元由RGC纳入治理范围的过程,称为注册组织单元。 在搭建Landing Zone后,您可以在RGC中注册现有的组织单元。
  • 相关说明 后续需要对现有的组织单元和成员账号进行部署和管理,请参见组织管理概述。 Landing Zone搭建成功后,系统将自动为核心账号所在的组织单元绑定所有的预防性控制策略。 Landing Zone搭建成功后,系统将为存放日志的OBS桶自动配置名为“AllowCtsAccessBucket”和“AllowConfigAccessBucket”的桶策略,详细的桶策略内容可以前往OBS控制台进行查看。 Landing Zone搭建成功后,系统将为存放日志的OBS桶自动配置“对象读权限”,使核心账号拥有查看桶内日志的权限。
  • 操作步骤 以RGC管理员身份登录华为云,进入华为云RGC控制台。 进入Landing Zone设置页,选择“版本”页签。 选择需要更新的版本。 图1 选择版本 当前支持更新当前版本或升级到更新的版本。 单击“更新版本”。 图2 更新Landing Zone 完成Landing Zone更新后,您将无法撤销更新或降级到先前的版本。 更新核心组织单元和账号。 更新管理账号: 开通 IAM 身份中心:RGC将在IAM身份中心创建RGC管理员,该IAM身份中心用户拥有管理员权限。若IAM身份中心已连接外部身份源,则RGC默认创建的IAM身份中心用户无法登录。 不开通IAM身份中心:如果不希望RGC在IAM身份中心创建RGC管理员身份的用户以及其他用户组、权限集等资源,则选择不开通IAM身份中心。 更新告警邮箱: 输入审计账号的告警邮箱,该邮箱用于接收RGC预置告警通知,请谨慎选择。告警邮箱地址不得与现有华为云账号使用的邮箱地址相同。长度范围为0至64个字符。 单击“下一步”。 更新日志配置。 选择是否启用 CTS : 如果您未在搭建Landing Zone页面启用CTS,则RGC将不会管理您的CTS操作审计日志。RGC强烈建议您启用CTS。预置强制控制策略将会检测已纳管的账号是否已启用CTS。 更新OBS日志配置: 创建OBS桶:需要配置日志在OBS桶中的保留时长。日志将会自动存放至系统创建的两个默认OBS桶中,不支持自定义OBS桶名。 日志汇聚桶数据保留时长:默认设置为1年。最长设置为15年。 该桶用于存储组织内所有账号的CTS记录的操作审计日志和已纳管账号的Config记录的资源快照,并且存放于名为“rgcservice-managed-audit-logs-{管理账号ID}”的桶中,{}中表示变量,根据实际情况进行显示。 OBS桶访问日志保留时长:默认设置为10年。最长设置为15年。 该桶将会存放访问上述日志汇聚桶而产生的日志,并且存放于名为“rgcservice-managed-access-logs-{管理账号ID}”的桶中,{}中表示变量,根据实际情况进行显示。 使用现有OBS桶:需要输入日志账号下的OBS桶名称,如使用其他OBS桶则将会导致Landing Zone搭建失败。为了您的数据安全,不建议使用的OBS桶策略为公共读。 单击“下一步”。 确认更新的设置信息无误,单击“确定”。RGC将会开始对Landing Zone进行更新。 更新成功后,RGC界面将会出现更新成功的提示。 如果更新失败,RGC不会退回到之前的Landing Zone版本,Landing Zone可能将会处于不确定的状态。如果出现该问题,请提交工单。
  • 操作步骤 以RGC管理账号的身份登录华为云,进入华为云RGC控制台。 进入组织管理页,单击需要注册OU所在行“操作”列的“注册”。 图1 注册OU 确认子账号和OU上控制策略的信息。确认无误后,勾选“我了解重新注册组织单元的相关风险,并且我同意RGC服务将必要的角色和权限应用于我的组织单元和账号。”。 图2 确认OU信息 单击“注册”,注册OU需要等待一段时间。可以在组织结构中查看OU的注册结果。注册成功后,OU将会收到Landing Zone的监管。
  • 支持审计的关键操作列表 表1 云审计 服务支持的RGC操作列表 操作名称 资源类型 事件名称 设置Landing Zone前检查 LandingZone checkLaunch 删除Landing Zone LandingZone deleteLandingZone 设置Landing Zone LandingZone setupLandingZone 关闭控件 Control disableControl 开启控件 Control enableControl 创建账号 Account createAccount 纳管账号 Account enrollAccount 取消纳管账号 Account unEnrollAccount 更新被管理账号 Account updateManagedAccount 创建组织单元 OrganizationUnit createManagedOrganizationalUnit 删除组织单元 OrganizationUnit deleteManagedOrganizationalUnits 重新注册组织单元 OrganizationUnit reRegisterOrganizationalUnit 注册组织单元 OrganizationUnit registerOrganizationalUnit 取消注册组织单元 OrganizationUnit deregisterOrganizationalUnit 创建一个模板 Template createTemplate 删除一个模板 Template deleteTemplate
  • 操作步骤 以RGC管理账号的身份登录华为云,进入华为云RGC控制台。 进入组织管理页,单击需要注册OU所在行“操作”列的“重新注册”。 图1 重新注册OU 确认子账号和OU上控制策略的信息。确认无误后,勾选“我了解重新注册组织单元的相关风险,并且我同意RGC服务将必要的角色和权限应用于我的组织单元和账号。”。 图2 确认OU信息 单击“注册”,重新注册OU需要等待一段时间。可以在组织结构中查看OU的重新注册结果。重新注册成功后,OU将会收到Landing Zone的监管。
  • 前提条件 此步骤仅适用需要纳管邀请进组织的账号,纳管在组织中创建的账号请跳过此步骤直接纳管账号即可。 以纳管账号的身份登录华为云,进入华为云IAM控制台。 在左侧导航窗格中,选择“委托”页签,单击右上方的“创建委托”。 图1 创建委托 设置“委托名称”为“RG CS erviceExecutionAgency”。 图2 委托名称 “委托类型”选择“普通账号”,在“委托的账号”中输入RGC管理账号名。 选择“持续时间”,填写“描述”信息。 单击“完成”。 在授权的确认弹窗中,单击“立即授权”。 勾选以下三个需要授予委托的权限,分别是:Security Administrator、FullAccess和Tenant Guest。 图3 需要授予委托的权限 单击“下一步”,选择权限的作用范围。 单击“确定”,委托创建完成。RGC管理账号即可在RGC控制台中参考纳管账号完成账号纳管。 RGCServiceExecutionAgency委托创建后不允许删除,否则将会导致RGC服务不可用。
  • 纳管账号 以RGC管理账号的身份登录华为云,进入华为云RGC控制台。 进入组织管理页,单击需要纳管的账号所在行“操作”列的“纳管”。 图4 纳管账号 配置所属组织单元。选择一个已注册的组织单元,并为此账户启用该组织单元配置的所有控制策略。 图5 选择组织单元 (可选)配置账号工厂的 RFS 模板。选择使用的RFS模板和模板的版本,如选择通过模板创建账号,可以实现账号的批量复制创建。 更多关于 资源编排 服务RFS模板的信息,请参考RFS模板介绍。 选择模板:选择在RFS中创建好的模板。 模板版本:选择模板的版本。 配置参数:根据业务需求,修改模板中的参数配置。 图6 配置模板 单击“纳管账号”。可以在组织结构中确认账号的纳管结果。纳管成功后,账号将会受到Landing Zone的监管。
  • 约束与限制 如果账号在纳管前已使用配置审计Config服务且存在资源记录器,纳管后系统会将该账号的资源记录器配置进行覆盖,请谨慎操作。 如果您希望将账号通过纳管账号的方式从某个Landing Zone转移至另一个Landing Zone中,请先将账号从原Landing Zone中取消纳管后,再在当前Landing Zone中执行纳管操作。如果您已在当前Landing Zone中完成账号纳管,请手动将在原Landing Zone中该账号的相关资源包括委托、策略等删除,否则将会出现错误。 纳管邀请进组织的账号需要根据前提条件完成相应配置,否则账号将会纳管失败。
  • CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.23 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.14 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.7 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 修复部分问题 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题 2.0.5 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.28集群 支持存活探针检查机制 1.2.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持NPU监控 1.2.9 v1.19 v1.21 v1.23 v1.25 v1.27 适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.2.2 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.2.1 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.1.8 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1.1.2 v1.15 v1.17 v1.19 配置seccomp默认规则 1.1.1 v1.15 v1.17 v1.19 兼容CCE v1.15集群 1.1.0 v1.17 v1.19 适配CCE v1.19集群 1.0.8 v1.13 v1.15 v1.17 适配D310 C75驱动 1.0.6 v1.13 v1.15 v1.17 支持昇腾C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 父主题: 插件版本发布记录
  • 相关链接 Ubuntu漏洞公告:https://ubuntu.com/security/CVE-2024-6387 Ubuntu补丁获取链接:https://launchpad.net/ubuntu/+source/openssh/1:8.9p1-3ubuntu0.10 Huawei Cloud EulerOS公告:https://repo.huaweicloud.com/hce/2.0/sa/HCE2-SA-2024-0224.xml
  • 漏洞消减方案 对于存量的集群节点,请按以下方法进行修复: 针对Ubuntu操作系统,建议您将openssh升级到官方发布的修复版本(1:8.9p1-3ubuntu0.10),详情请参见官方链接。 针对Huawei Cloud EulerOS 2.0操作系统,建议您将openssh升级到官方发布的修复版本(openssh-8.8p1-2.r34),详情请参见官方公告。 对于新建的集群节点,CCE将提供已修复该漏洞的节点镜像,请留意补丁版本发布记录关注修复进展。
  • 判断方法 查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS 1.1和CentOS,openssh版本不受该漏洞影响。 如果集群node节点OS是Huawei Cloud EulerOS 2.0,可以用如下命令查看安装包版本: rpm -qa |grep openssh 若openssh版本小于openssh-8.8p1-2.r34,且开放了SSH端口(默认为22),则受该漏洞影响。 如果集群node节点OS是Ubuntu 22.04,可以用如下命令查看安装包版本: dpkg -l |grep openssh 若openssh版本小于1:8.9p1-3ubuntu0.10,且开放了SSH端口(默认为22),则受该漏洞影响。 查看SSH端口是否开放的命令如下: netstat -tlnp|grep -w 22 若查询结果显示存在SSH端口正在监听,则表示该节点已开放了SSH访问。
  • CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.13 v1.28 v1.29 v1.30 支持节点池粒度配置XGPU 支持GPU渲染场景 支持v1.30集群 2.6.4 v1.28 v1.29 更新GPU卡逻辑隔离逻辑 2.6.1 v1.28 v1.29 升级GPU插件基础镜像 2.5.6 v1.28 修复安装驱动的问题 2.5.4 v1.28 支持v1.28集群 2.0.72 v1.21 v1.23 v1.25 v1.27 更新GPU卡逻辑隔离逻辑 2.0.69 v1.21 v1.23 v1.25 v1.27 升级GPU插件基础镜像 2.0.48 v1.21 v1.23 v1.25 v1.27 修复安装驱动的问题 2.0.46 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.44 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.18 v1.21 v1.23 v1.25 v1.27 支持HCE 2.0 2.0.17 v1.21 v1.23 v1.25 v1.27 RollingUpdate参数配置优化 2.0.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持xGPU设备监控 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容 2.0.5 v1.19 v1.21 v1.23 v1.25 - 2.0.0 v1.19 v1.21 v1.23 v1.25 支持GPU虚拟化 驱动安装目录更新至节点/usr/local/nvidia 1.2.28 v1.19 v1.21 v1.23 v1.25 适配OS Ubuntu22.04 GPU驱动目录自动挂载优化 1.2.24 v1.19 v1.21 v1.23 v1.25 节点池支持配置GPU驱动版本 支持GPU指标采集 1.2.20 v1.19 v1.21 v1.23 v1.25 设置插件别名为gpu 1.2.17 v1.15 v1.17 v1.19 v1.21 v1.23 增加nvidia-driver-install pod limits 配置 1.2.15 v1.15 v1.17 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.2.11 v1.15 v1.17 v1.19 v1.21 支持EulerOS 2.10系统 1.2.10 v1.15 v1.17 v1.19 v1.21 CentOS系统支持新版本GPU驱动 1.2.9 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1.2.2 v1.15 v1.17 v1.19 适配EulerOS新内核 1.2.1 v1.15 v1.17 v1.19 适配CCE v1.19集群 插件增加污点容忍 1.1.13 v1.13 v1.15 v1.17 支持Centos7.6 3.10.0-1127.19.1.el7.x86_64内核系统 1.1.11 v1.15 v1.17 支持用户自定义驱动地址下载驱动 支持v1.15、v1.17集群 父主题: 插件版本发布记录
  • 服务访问类型 服务允许指定业务需要的类型 参数名 取值范围 默认值 是否允许修改 作用范围 type ClusterIP/Nodeport/Loadbalancer/ExternalName ClusterIP 允许 CCE Standard/ CCE Turbo ClusterIP:通过集群的内部 IP 暴露服务,选择该值时服务只能够在集群内部访问。 这也是你没有为服务显式指定 type 时使用的默认值。 你可以使用 Ingress 或者 Gateway API 向公众暴露服务。 NodePort:通过每个节点上的 IP 和静态端口(NodePort)暴露服务。 为了让节点端口可用,Kubernetes 设置了集群 IP 地址,这等同于你请求 type: ClusterIP 的服务。 LoadBalancer:使用云提供商的负载均衡器向外部暴露服务。华为云的Loadbalancer类型服务对接的 ELB负载均衡 服务。 ExternalName:将服务映射到 externalName 字段的内容(例如,映射到主机名api.foo.bar.example)。 该映射将集群的 DNS 服务器配置为返回具有该外部主机名值的 CNAME 记录。 无需创建任何类型代理。 配置建议: 根据业务诉求配置类型
  • 服务亲和 集群级别:流量可以转发到集群下全部的节点,均衡性强、因存在多跳场景有一定性能损失,会隐藏客户端源 IP 节点级别:流量仅转发到服务关联 Pod 所在的节点、均衡性差,无性能损失,可保留客户端源 IP 参数名 取值范围 默认值 是否允许修改 作用范围 externalTrafficPolicy Cluster/Local Cluster 允许 CCE Standard/CCE Turbo 此参数表示Service是否希望将外部流量路由到节点本地后端或集群范围的后端。 有两个可用选项:Cluster(默认)和 Local。 Cluster 隐藏了客户端源 IP,可能导致第二跳到另一个节点,但具有良好的整体负载分布。 Local 保留客户端源 IP 并避免 LoadBalancer 和 NodePort 类型服务的第二跳, 但存在潜在的不均衡流量传播风险。 配置建议: 默认情况下,目标容器中看到的源 IP 将不是客户端的原始源IP,要启用保留客户端IP,建议配置externalTrafficPolicy值为local。负载均衡类型的service如要选择保留客户端IP,建议选择独享型负载均衡实例。 共享型ELB实例不支持保留客户端源IP地址
  • 标签选择器 标签选择器支持通过标签过滤出工作负载并且与之关联 参数名 取值范围 默认值 是否允许修改 作用范围 selector 1.等值关系:操作符有 "=、==、!=" 三种,都表示”等值“关系,最后一个表示”不等“关系 集合关系:KEY in (VALUE1,VALUE2,...) KEY not in (VALUE1,VALUE2,...) KEY: 所有存在此键名标签的资源; !KEY: 所有不存在此键名标签的资源。 无 允许 CCE Standard/CCE Turbo 标签选择器用于表达标签的查询条件或选择标准,选中具体的工作负载 配置建议: 根据业务设置标签选择器并匹配对应的后端工作负载
  • 服务标签 服务的标签是service上标记的键值对,旨在用于指定对用户有意义且相关的对象的标识属性 参数名 取值范围 默认值 是否允许修改 作用范围 labels 键名至多能使用63个字符,支持字母、数字、连接号(-)、下划线(_)、点号(.) 等字符,且只能以字母或数字开头 无 允许 CCE Standard/CCE Turbo 用户可以使用Labels对service资源对象进行标识、组织和选择。标签对于系统运行,没有直接意义,也不用于存储结构化或复杂数据。因为,标签将建立索引和反索引,用于查询和监控。 配置建议: 用户可以使用Labels对service资源对象进行标识、组织和选择。标签对于系统运行,没有直接意义,也不用于存储结构化或复杂数据。因为,标签将建立索引和反索引,用于查询和监控。
  • 组调度 将一组Pod看做一个整体进行资源分配。观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 参数名 取值范围 默认值 是否允许修改 作用范围 gang true/false true 允许 CCE Standard/CCE Turbo Gang调度策略是volcano-scheduler的核心调度算法之一,它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 配置建议: 基于容器组概念的Gang调度算法十分适合需要多进程协作的场景。AI场景往往包含复杂的流程,Data Ingestion、Data Analysts、Data Splitting、Trainer、Serving、Logging等,需要一组容器进行协同工作,就很适合基于容器组的Gang调度策略。MPI计算框架下的多线程并行计算通信场景,由于需要主从进程协同工作,也非常适合使用Gang调度策略。容器组下的容器高度相关也可能存在资源争抢,整体调度分配,能够有效解决死锁。 在集群资源不足的场景下,gang的调度策略对于集群资源的利用率的提升是非常明显的。
  • 专家模式 如果上述Volcano的典型配置无法满足您的业务场景,可以使用专家模式定制专属于您的调度策略 参数名 取值范围 默认值 是否允许修改 作用范围 expert-mode json格式 actions: "allocate, backfill" tiers: - plugins: - name: priority - name: gang enablePreemptable: false - name: conformance - plugins: - name: drf enablePreemptable: false - name: predicates - name: nodeorder - plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: xgpu - plugins: - name: nodelocalvolume - name: nodeemptydirvolume - name: nodeCSIscheduling - name: networkresource 允许 CCE Standard/CCE Turbo volcano-scheduler是负责Pod调度的组件,它由一系列action和plugin组成。action定义了调度各环节中需要执行的动作;plugin根据不同场景提供了action 中算法的具体实现细节。 您可以根据官方文档中对每个action和plugin的说明,定义专属于您的调度策略。 详情可参见:https://support.huaweicloud.com/usermanual-cce/cce_10_0193.html#section1 配置建议: 使用默认配置 该项配置有一定的使用门槛,需要对调度有深入了解的客户,才可以根据官方文档进行定制化修改调度策略。
  • 昇腾NPU预选调度 支持昇腾NPU HCCS亲和预选调度 参数名 取值范围 默认值 是否允许修改 作用范围 cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU 1980芯片较PCIe swith互联有更大的带宽,可以针对HCCS做亲和性调度发挥HCCS的带宽优势。 配置建议: 使用NPU的集群默认开启,不使用NPU资源可以关闭
  • 公平调度 DRF调度算法(Dominant Resource Fairness)可以根据作业使用的主导资源份额进行调度,资源份额较小的作业将具有更高优先级。 参数名 取值范围 默认值 是否允许修改 作用范围 drf true/false true 允许 CCE Standard/CCE Turbo DRF调度算法的全称是Dominant Resource Fairness,是基于容器组Domaint Resource的调度算法。volcano-scheduler观察每个Job请求的主导资源,并将其作为对集群资源使用的一种度量,根据Job的主导资源,计算Job的share值,在调度的过程中,具有较低share值的Job将具有更高的调度优先级。这样能够满足更多的作业,不会因为一个资源份额较大业务,导致大批资源份额小的业务无法调度。DRF调度算法能够确保在多种类型资源共存的环境下,尽可能满足分配的公平原则。 配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。
  • 在离线业务混部 在离线业务混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用; 参数名 取值范围 默认值 是否允许修改 作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度来看,混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用;从节点维度来看,混部是将多个容器部署在同一个节点上,这些容器内的应用既包括在线类型,也包括离线类型。根据应用对资源质量需求的差异,在线应用可以归纳为延时敏感型LS(Latency Sensitive),通常对请求压力(QPS)或访问延迟(RT)等指标有明确的要求,对资源质量较为敏感;离线应用可以归纳为资源消耗型BE(Best Effort),通常是一些计算密集型的任务类应用,有较好的容错重试能力,对资源质量的要求相对较为宽松。 配置建议: 只有在HCE 2.0的OS节点支持
共100000条