检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点池名称:新建节点池的名称,可自定义。 虚拟私有云:默认为CCE集群所在VPC网络,不可修改。 节点子网:选择同一VPC网络下的子网作为节点子网,新创建的节点将会使用该子网资源。 关联安全组:用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。
在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。 在节点列表,单击操作列的“更多 > 查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。
节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 图1 购买Lite专属池 k8s Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。
节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 图1 购买Lite专属池 k8s Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。
如果您使用的是公共资源池,则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”(运行时长精确到秒)。 如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。 父主题: 计费相关
如1个8U的节点上同时启动了6个2U的实例,如果其中一个实例CPU使用增大到超过节点的上限(8U)时,k8S会将使用资源最多的实例终止掉。 因此超分会带来实例重启的风险,请不要超分使用。 父主题: 更多功能咨询
1个节点的专属资源池,能否部署多个服务? 专属资源池购买后,中途扩容了一个节点,如何计费? 共享池和专属池的区别是什么? 如何通过ssh登录专属资源池节点? 训练任务的排队逻辑是什么?
您可以使用MrsStep来创建作业类型节点。定义MrsStep示例如下。
准备工作 准备一套可以连接外部网络,装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点,以下称“构建节点”。
购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。
购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。
购买专属资源池注意事项 使用场景需要选择ModelArts Lite。 CCE集群已完成创建。 节点数量可自定义选择使用多少节点。 开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。
如果购买资源池时,节点数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标实例总数等于“数量*整柜”。“整柜”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。
用户按照业务来规划时长与数量,最终用户买到的是:总时长 = 购买数量 * 购买时长。 在实际使用过程中,会对时长产生扣除;扣除时长 = 所有任务消耗时长的总和,每个任务消耗的时长 = 单任务节点个数 * 任务运行时间。
只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。 开启故障自动重启 用户可以在部署在线服务任务时,勾选“高级选项”的“现在配置”,可以看到“故障自动重启”参数,打开开关即可。 图1 故障自动重启 父主题: 管理同步在线服务
原因分析 CPU软锁 在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限制 根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。 CPU过载 减少线程数。
这里以资源升配且无任何优惠的场景为例,假设您在2023/04/08购买了一个包年/包月专属资源池(规格:CPU: 8 核 32GB,计算节点个数:1),购买时长为1个月,计划在2023/04/18变更规格增加1个计算节点。
例如,您在9:00:00购买了一个按需计费的专属资源池,规格为modelarts.vm.cpu.8ud(8vCPUs 16GiB),计算节点个数为2个,并在9:30:00升配增加2个节点(升配后共4个节点),那么在9:00:00 ~ 10:00:00间会产生两条计费信息。
继续运行 完成数据的确认之后,返回新版自动学习的页面,在数据标注节点单击“继续运行”,工作流将会继续依次运行直到所有节点运行成功。 图4 继续运行 父主题: 使用自动学习实现文本分类
资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源 释放Lite Cluster资源