检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发第一条Workflow 本章节提供了一个基于图像分类算法,构建包含训练单节点的Workflow的样例。更多节点的构建参数请参考创建Workflow节点。 步骤一:安装开发环境 本案例提供了两种安装开发环境的方法,您可根据使用习惯选择。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
如果升级方式为强制升级,则根据滚动节点数量随机选择节点,隔离节点并滚动升级。 无业务节点定义:在资源池详情“节点管理”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
对于不同的升级方式,滚动升级选择节点的策略会不同: 如果升级方式为安全升级,则根据滚动实例数量选择无业务的节点,隔离节点并滚动升级。 如果升级方式为强制升级,则根据滚动实例数量随机选择节点,隔离节点并滚动升级。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
在弹性节点Server的节点列表页中,可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。 图1 查看Server节点 单击某个Server节点名称,进入到Server节点详情页,可以查看更多信息,如表1所示。
操作步骤 在新版自动学习页面,单击项目名称进入运行总览页面,单击“数据标注”节点的“实例详情”进入数据标注页面,完成数据标注。 图1 完成数据标注 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。
在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以在预测分析节点中单击查看训练详情,如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。 该示例为二分类的离散型数值,评估效果参数说明请参见表1。
不同机型的对应的软件配套版本 由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。
处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
NCCL Test节点名称列表:不可为空,且被选择的节点须为可用状态。 单击“确认”,即可开始诊断。 父主题: Lite Cluster
ipAddress:主节点IP地址,即rank_table_file.json文件中的server_id。 managementIpAddress:主节点IP地址,和ipAddress取值一致。 httpsEnabled:取值需要修改为false。
在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。 在节点列表,单击操作列的“更多 > 查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。