检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
健康检查配置有问题 镜像如果配置了健康检查,服务启动失败,从以下两个方面进行排查: 健康检查端口是否可以正常工作 自定义镜像中配置了健康检查,需要在测试镜像时,同步测试健康检查接口是否可以正常工作,具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。 创建模型界面上配置的健康检查地址与实际配置的是否一致
otebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
otebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
ok的详细介绍可以参考创建Notebook实例,此处仅介绍关键步骤。 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图1 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
otebook实例,此处仅介绍关键步骤。 图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.906)
准备工作 准备资源 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
昇腾云服务6.3.906版本说明 本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
准备工作 准备资源 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906)
Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 模型健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。 镜像健康检查配置问题,需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.910)
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 若镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
py请参考https示例 python app.py 除了按上述要求设置启动命令,您也可以在镜像中自定义启动命令,在创建模型时填写与您镜像中相同的启动命令。 提供的服务可使用HTTPS/HTTP协议和监听的容器端口,端口和协议可根据镜像实际使用情况自行填写,ModelArts提供的请求协议和端口号的缺省
Step2 创建预训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;