检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
nerdctl --namespace k8s.io pull {image_url} 注意:集群有多个节点,要确保每个节点都拥有镜像。
NCCL Test节点名称列表:不可为空,且被选择的节点须为可用状态。 单击“确认”,即可开始诊断。 父主题: Lite Cluster
ipAddress:主节点IP地址,即rank_table_file.json文件中的server_id。 managementIpAddress:主节点IP地址,和ipAddress取值一致。 modelName:设置为DeepSeek-V3或DeepSeek-R1。
在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。 在节点列表,单击操作列的“更多 > 查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。
在左侧导航栏中,选择“资源管理 > AI专属资源池 > 弹性节点Server”,进入“节点”列表页面。 鼠标移动至节点名称上,复制需要退订的实例ID。
准备工作 准备一套可以连接外部网络,装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点,以下称“构建节点”。
您可以使用MrsStep来创建作业类型节点。定义MrsStep示例如下。
如1个8U的节点上同时启动了6个2U的实例,如果其中一个实例CPU使用增大到超过节点的上限(8U)时,k8S会将使用资源最多的实例终止掉。 因此超分会带来实例重启的风险,请不要超分使用。 父主题: Standard Notebook
原因分析 CPU软锁 在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限制 根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。 CPU过载 减少线程数。
只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。 开启故障自动重启 用户可以在部署在线服务任务时,勾选“高级选项”的“现在配置”,可以看到“故障自动重启”参数,打开开关即可。 图1 故障自动重启 父主题: 管理同步在线服务
在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。 在服务部署页面,选择模型部署使用的资源规格。 模型来源:默认为生成的模型。 选择模型及版本:自动匹配当前使用的模型版本,支持选择版本。 资源池:默认公共资源池。
在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择模型部署使用的资源规格。 模型来源:默认为生成的模型。 选择模型及版本:自动匹配当前使用的模型版本,支持选择版本。
在“运行总览”页面中,待服务部署节点的状态变为“等待输入”,双击“服务部署”节点,进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择模型部署使用的资源规格。 模型来源:默认为生成的模型。 选择模型版本:自动匹配当前使用的模型版本,支持选择版本。
在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择模型部署使用的资源规格。 模型来源:默认为生成的模型。 选择模型及版本:自动匹配当前使用的模型版本,支持选择版本。
继续运行 完成数据的确认之后,返回新版自动学习的页面,在数据标注节点单击“继续运行”,工作流将会继续依次运行直到所有节点运行成功。 图4 继续运行 父主题: 使用自动学习实现文本分类
如果您使用的是公共资源池,则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”(运行时长精确到秒)。 如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。 Standard中模型部署为服务后如何收费?
ModelArts Edge 为客户提供了统一边缘部署和管理能力,支持统一纳管异构边缘设备,提供模型部署、Al应用和节点管理、资源池与负载均衡、应用商用保障等能力,帮助客户快速构建高性价比的边云协同AI解决方案。 适用于边缘部署场景。
可能原因 镜像过大Push任务一直在运行,或实例节点有问题。 解决方法 以对应租户的华为云账号登录SWR服务,查看镜像是否已经Push成功。 如果Push成功,请重新注册镜像。 如果未Push成功,联系SRE查看对应实例的节点是否有问题。 父主题: 自定义镜像故障
单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在最后一个节点上。 图2 Loss收敛情况(示意图) 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.906)