云服务器内容精选

  • 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。
  • ModelArts Standard资源池说明 在使用ModelArts进行AI开发时,您可以选择使用如下两种资源池: 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。 专属资源池和公共资源池的能力主要差异如下: 专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如,在创建训练作业时选择打通了网络的专属资源池,训练作业创建成功后,支持在训练时访问SFS中的数据。 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。
  • 专属资源池使用说明 如果您是初次使用专属资源池,建议您可从本章节开始,了解ModelArts提供的资源池详细说明。 在对专属资源池有一定了解后,如果您需要创建一个自己的专属资源池,您可参考创建Standard专属资源池来进行创建。 专属资源池创建成功后,可在查看Standard专属资源池详情中查看专属资源池的详细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。 每个用户对集群的驱动要求不同,在专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。ModelArts提供了自助升级专属资源池GPU/Ascend驱动的能力,可参考升级Standard专属资源池驱动进行升级。 专属资源池提供了故障节点修复的功能,可参考修复Standard专属资源池故障节点修复故障节点。 专属资源池提供了动态设置作业类型的功能,可参考修改Standard专属资源池支持的作业类型更新作业类型。 专属资源池提供了工作空间功能,管理员可以根据工作空间,隔离不同子用户操作工作空间内资源的权限,您可通过迁移Standard专属资源池和网络至其他工作空间将资源池移动到对应的工作空间下。 专属资源池可通过标签来进行管理,具体可参见使用TMS标签实现资源分组管理管理专属资源池标签。 当不再需要使用专属资源池时,您可参考释放Standard专属资源池和删除网络删除专属资源池。
  • 操作步骤 首次创建测试资源,需父账号授权,自动创建委托使性能测试服务可以操作用户CCE。 需要使用性能测试服务的用户,需要CodeArts PerfTest Administrator或CodeArts PerfTest Developer权限(仅能查看自己创建的工程)。 需要管理私有资源组的用户,需要CodeArts PerfTest Administrator或CodeArts PerfTest Developer+CodeArts PerfTest Resource Administrator权限。 需要使用私有资源组的用户,需要CodeArts PerfTest Administrator或CodeArts PerfTest Developer+CodeArts PerfTest Resource Developer权限。 使用性能测试服务依赖的权限及具体使用场景,详见使用性能测试服务需要哪些权限。 登录性能测试服务控制台,在左侧导航栏中选择“测试资源”,单击“创建私有资源组”。 (可选)首次使用时,请根据提示信息,授权性能测试服务创建私有资源组。 进入创建资源组页面后,如果是首次使用没有云容器引擎服务CCE集群,需要先创建集群然后再创建资源组。如果已有可用的云容器引擎服务CCE集群,直接创建资源组。 创建集群。 单击页面上方的“创建集群”,进入购买CCE集群页面。创建集群操作请参考购买CCE集群,设置集群参数。 集群管理规模选择与执行节点个数相关,请根据需要压测的并发用户数,创建对应规格的节点。例如,需要20个执行节点,那么创建集群时集群规模选择50节点即可满足业务需求。 CCE集群的网络模型建议选择“容器隧道网络”,容器网段和服务网段需要与被测对象保持一致。 单击“下一步:插件配置”,默认选择即可。 单击“下一步:规格确认”,确认集群配置信息无误后,勾选已阅读使用说明,单击“提交”等待集群创建,集群创建预计需要6-10分钟。 集群创建成功后,返回集群管理页面,单击“创建节点”,进入创建节点页面。创建节点操作请参考创建节点,设置节点参数。 节点规格至少为vCPU为4核,内存8GB。 操作系统需选择欧拉EulerOS。 创建的节点数量至少需要2台(1台调试节点、1台执行节点),具体数量由压测对象要求规格决定。例如,压测10万并发用户数,vCPU为4核,内存8GB的资源需要21个执行节点(1个调试节点,20个执行节点)。 当CCE集群节点与被测应用不在同一VPC网络时,建议CCE集群节点绑定弹性IP。可使用已有的弹性IP,如果没有弹性IP也可以选择自动创建。自动创建弹性IP时,计费方式推荐按流量计费,带宽设置尽可能选择较大值,否则可能影响压测效果。系统根据您的配置创建弹性IP,并自动为每个节点进行分配。当创建的弹性IP数量小于节点个数时,会将弹性IP随机绑定到节点上。 单击“下一步:规格确认”,确认节点配置信息无误后,勾选已阅读使用说明,单击“提交”等待节点创建。节点创建成功后,返回性能测试服务控制台。 创建资源组。 在左侧导航栏中选择“测试资源”,单击“创建私有资源组”。 参照表1设置基本信息。 表1 创建私有资源组 参数 参数说明 资源组名称 新建私有资源组的名称,可自定义。 节点集群 在下拉框选择已创建的CCE集群。 高级配置 可选项,配置项详见高级配置。 说明: 该功能为白名单特性,需要联系后台管理人员申请开通,审批同意后方可使用。 修改高级配置参数,可能导致任务无法正常执行,请谨慎修改。 调试节点 执行压测的调试机。 调试节点在资源组创建成功后不可修改。 执行节点 执行压测的执行机,即在压测过程中能够提供自身性能数据的施压目标机器。 单击“创建”。
  • Lite Cluster资源管理介绍 在ModelArts控制台,您可以对已创建的资源进行管理。通过单击资源池名称,可以进入到资源池详情页,您可以在详情页进行下述操作。 管理Lite Cluster节点:节点是容器集群组成的基本元素,您可以对资源池内单节点进行替换、删除、重置等操作。 管理Lite Cluster节点池:为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。节点池是集群中具有相同配置的一组节点,一个节点池包含一个节点或多个节点,您可以创建、更新和删除节点池。 管理Lite Cluster资源池标签:ModelArts支持为资源池添加标签,用来标识云资源,方便您快速搜索到资源池。 扩缩容Lite Cluster资源池:当Cluster资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts提供了扩缩容功能,用户可以根据自己的需求动态调整。 升级Lite Cluster资源池驱动:当资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 监控Lite Cluster资源:ModelArts支持使用 AOM 和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题: Lite Cluster资源管理
  • 资源管理简介 企业项目管理帮助您将相关的资源(如具有相同使用用途的资源)集中在一起,按企业项目的方式来管理云资源。 资源从一个企业项目迁移到另一个企业项目,不会影响资源本身。例如:资源实例不会重启、网络配置不会变更、资源所有者不会变更等。 但是,如果您有基于企业项目范围的授权策略,则资源所属企业项目发生变更,可能会导致用户对资源访问权限的变更。例如:您给项目A的成员授予企业项目A范围的操作权限,此时成员可以访问企业项目A内的资源。 当资源从企业项目A迁移到企业项目B时,由于成员只有企业项目A的权限,则此时成员将不再具有此资源的操作权限。 IAM 项目和企业项目的区别请参见IAM项目和企业项目的区别。 父主题: 企业项目资源管理
  • 处理策略 为了避免多个入口的配置相冲突,以及确保Istio各工作负载持续稳定运行,ASM 1.8.6及以上版本采取如下策略: 定义工作负载的关键运行配置和非关键运行配置 表1 各资源类型下的关键运行配置 工作负载 资源类型 配置项 配置项描述 适用版本 istiod istio-ingressgateway istio-egressgateway Deployment spec.replicas 实例数 1.8.6及以上版本 spec.strategy 升级策略 spec.template.spec.nodeSelector 调度策略 spec.template.spec.affinity 调度策略 spec.template.spec.tolerations 调度策略 spec.template.spec.containers.resources 资源请求和限制 istiod istio-ingressgateway istio-egressgateway Deployment spec.template.spec.containers.env 容器环境变量 1.13.9-r10、1.15.7-r3及以上小版本 1.18.7-r3及以上版本 istio-cni-node DaemonSet spec.updateStrategy 升级策略 1.18.5-r1及以上版本 spec.template.spec.nodeSelector 调度策略 spec.template.spec.affinity 调度策略 spec.template.spec.tolerations 调度策略 spec.template.spec.containers.resources 资源请求和限制 spec.template.spec.containers.env 容器环境变量 1.18.7-r3及以上版本 Istio Operator默认保持当前集群中工作负载的关键运行配置不做更新,仅支持非关键运行配置更新。 若需要对关键运行配置进行修改,建议用户通过CCE控制台“工作负载”页面修改,若用户有特定需求,可通过工单进行咨询。
  • 注意事项 当前只有弹性云服务器(E CS )的实例支持UniAgent的操作。 操作系统使用限制 表1 UniAgent支持的Linux操作系统及版本 操作系统 版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本
  • 前置条件 在Cloud Operations Center进行跨账号资源的操作之前,用户需要满足一些前置条件。 用户已经开通组织(Organizations)或已经加入到一个组织中,可到组织的服务页面查看。 图1 组织服务 用户所在组织将COC设置为可信服务,可到组织页面的可信服务查看。 图2 可信服务 当前执行跨账号运维操作的账号是组织管理员或者是组织管理员所委派的委托管理员。 图3 委托管理员
  • 添加资源管理计划阶段 登录 GaussDB (DWS)管理控制台。 在集群列表中单击需要访问“资源管理”页面的集群名称。 进入“基本信息”页面,左导航栏单击“资源管理”。 切换至“资源管理计划”页签,单击计划阶段区域的“添加”按钮,在添加阶段页面填写阶段名称并配置资源信息,确认成功后单击“确定”按钮。 添加阶段时必须停止正在运行的资源管理计划,否则无法添加。 每个计划最多支持添加48个阶段。 一个计划中所有阶段的切换时间不能相同。 时间、日期、月份共同组成执行时间表达式,不允许配置不存在的日期表达式,例如2.30。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 可使用资源总数 resources Array of UserResource objects 资源列表 表5 UserResource 参数 参数类型 描述 resource_id String 资源id resource_type_code String 资源规格编码 MANAGE 视图接入调阅 NORMAL 连续 云存储 DATAFLOW 行业数据流 MOTION 动检云存储 total_num Integer 资源可使用总量,套餐资源为订购的路数,按需为 -1 usage_num Integer 资源当前已使用量,设备通道每绑定一路,该使用量增加一路,反之则减少一路 resource_name String 资源名 mode String 按需或包周期 PACKAGE 包周期 ONDEMAND 按需 version String 资源版本 ENTERPRISE 企业版 ADVANCED 高级版 OTHER 其他 resource_state String 资源状态: NORMAL 正常 ARREARS 欠费 UNAVAILABLE 不可使用冻结 Exp_time String 资源过期时间
  • 响应示例 状态码: 200 OK { "total" : 2, "resources" : [ { "resource_id" : "156", "resource_type_code" : "MOTION", "resource_name" : "设备按需动检收录套餐", "resource_state" : "NORMAL", "total_num" : 1, "usage_num" : 0, "version" : "ENTERPRISE", "mode" : "PACKAGE ", "Exp_time" : "2023-09-22 02:22:00" }, { "resource_id" : "157", "resource_type_code" : "MOTION", "resource_name" : "90天动检检云存储月套餐", "resource_state" : "NORMAL", "total_num" : 1, "usage_num" : 0, "version" : "ADVANCED", "mode" : "ONDEMAND ", "Exp_time" : "2023-08-15 14:24:33" } ] }
  • URI GET /v1/{user_id}/resources 表1 路径参数 参数 是否必选 参数类型 描述 user_id 是 String 用户ID:由数字组成,长度范围[15,25],获取方式参考获取user ID与下载AK/SK章节 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 单页内显示记录数:取值范围为[1,300],不填时默认为10 offset 否 Integer 偏移量:offset为0时表示查询第一页的数据,取值范围[0,2142147483646],不填写时默认为0 resource_id 否 String 包周期资源ID:32位数字、字母组成 resource_type_code 否 String 资源类型 MANAGE 视图接入调阅 NORMAL 连续云储存 DATAFLOW 行业数据流 MOTION 动检云存储
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 job_links Array of objects 可用链路信息。 详情请参见表5。 total_count Integer 可用链路总条数。 表5 job_links字段数据结构说明 参数 参数类型 描述 job_type String 任务场景。取值: migration:实时迁移。 sync:实时同步。 cloudDataGuard:实时灾备。 枚举值: migration sync cloudDataGuard engine_type String 引擎类型。取值: oracle-to-gaussdbv5:Oracle同步到GaussDB分布式版,实时同步场景使用。 redis-to-gaussredis:Redis迁移到GeminiDB Redis,实时迁移场景使用。 rediscluster-to-gaussredis:Redis集群迁移到GeminiDB Redis,实时迁移场景使用。 枚举值: oracle-to-gaussdbv5 redis-to-gaussredis rediscluster-to-gaussredis source_endpoint_type String 源数据库实例类型。取值: offline:自建数据库。 ecs:华为云ECS自建数据库。 cloud:华为云数据库。 枚举值: offline ecs cloud target_endpoint_type String 目标数据库实例类型。取值: offline:自建数据库。 ecs:华为云ECS自建数据库。 cloud:华为云数据库。 枚举值: offline ecs cloud job_direction String 迁移方向。取值: up:入云 ,灾备场景时对应本云为备。 down:出云,灾备场景时对应本云为主。 non-dbs:自建。 枚举值: up down non-dbs net_type String 网络类型。取值: eip:公网网络。 vpc:VPC网络,灾备场景不支持选择VPC网络。 vpn:VPN、专线网络。 枚举值: eip vpc vpn task_types Array of strings 迁移模式。取值: FULL_TRANS :全量。 FULL_INCR_TRANS:全量+增量。 INCR_TRANS:增量。 枚举值: FULL_TRANS FULL_INCR_TRANS INCR_TRANS cluster_modes Array of strings 引擎实例模式。取值: Single:单机模式。 Ha:主备模式。 Cluster:集群模式。 Sharding:分片模式。 Independent:GaussDB独立部署模式。 枚举值: Single Ha Cluster Sharding Independent description String 链路描述。 状态码: 400 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码。 最小长度:12 最大长度:12 error_msg String 错误描述。 最小长度:1 最大长度:512
  • 请求示例 查询实时迁移可用链路信息。 https://{endpoint}/v5/054ba152d480d55b2f5dc0069e7ddef0/links?job_type=migration 查询实时同步可用链路信息。 https://{endpoint}/v5/054ba152d480d55b2f5dc0069e7ddef0/links?job_type=sync 查询实时灾备可用链路信息。 https://{endpoint}/v5/054ba152d480d55b2f5dc0069e7ddef0/links?job_type=cloudDataGuard