检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/scripts/install.sh; sh ./scripts/obs_pipeline.sh 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。 若要对ChatCLM
练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 使用基础镜像的方法,需要确认训练作业的资源池是否联通公网,否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。 若要对ChatCLM
设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时,只能选取等同或高于该规格的算力资源进行任务下发。 是否支持分布式训练/推理 选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。
康检查,就无法检测到模型是否真实的启动。 在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,推荐在创建AI应用时配置健康检查,并设置合理的延迟检测时间, 实现实际业务的是否成功的检测,确保服务部署成功。
表3 spec定义数据结构说明 参数 是否必选 参数类型 说明 auto_stop 否 Object 自动停止参数,如表4所示。 表4 auto_stop定义数据结构说明 参数 是否必选 参数类型 说明 enable 否 Boolean 是否开启自动停止功能, true表示开启,
volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 图2 volcano资源争抢 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 图2 volcano资源争抢 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
volcano资源调度失败 当volcano的资源出现争抢时,会出现以下图中的问题。 图2 volcano资源争抢 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU: HCCS交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理
${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
置对应。 完成超参搜索作业的创建后,训练作业需要运行一段时间。 查看超参搜索作业详情 训练作业运行结束后,可以查看自动超参搜索结果判断此训练作业是否满意。 如果训练作业是超参搜索作业,进入训练作业详情页,选择“自动超参搜索结果”页签查看超参搜索结果。 图3 超参搜索结果 父主题:
创建的OBS桶与创建项目不在同一个区域。 账号没有配置全局授权。 OBS桶里的数据格式不符合要求。 解决方法 查看ModelArts创建的项目与创建的OBS桶是否在同一区域。 查看创建的OBS桶所在区域。 登录OBS管理控制台。 进入“对象存储”界面,可在桶列表的“桶名称”列查找,或在右上方的搜索框
首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,
首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,
首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心 根据图2,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图2 kubectl 访问集群配置 在节点机器中,
Loss收敛情况(示意图) 注:ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.910)
Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)
请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。 通过CloudShell登录到Linux工作页面,检查GPU工作情况: 通过输入“nvidia-smi”命令,查看GPU工作是否异常。 通过输入“nvidia-smi