搜索_华为云

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用户/训练系统，将CUDA_VISIBLE_DEVICES传错了，检查CUDA_VISIBLE_DEVICES变量是否正常。用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUD

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
查看日志和性能 - AI开发平台ModelArts

2，默认global batch size为64；其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
查看日志和性能 - AI开发平台ModelArts

6，默认global batch size为64；其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_ev

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

host：与起服务的host保持一致，比如起服务为0.0.0.0,host设置也为0.0.0.0。 service_port：服务端口，与启动服务时的端口保持，比如8080。 max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_ev

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

（IAM）服务。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”按如下要求设置完成后单击“确定”。 “策略名称”：设置自定义策略名称，例如：允许通过Cloud Shell访问运行中的训练作业。 “策略配置方式”：选择可视化视图。 “策略

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在ModelArts Standard运行GPU训练任务的准备工作 - AI开发平台ModelArts

ModelArts支持设置子账号的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。如果你开通了企业项目管理服务的权限，可以在创建工作空间的时候绑定企业项目ID，并在企业项目下添加用户组，为不同的用户组设置细粒度权限供组里的用户使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

用户可根据实际业务场景和节点规模，自定义配置容器网段，配置方式如下： ModelArts Standard池，资源池创建阶段指定容器网段，根据实际需要设置更大的容器网段。图7 设置容器网段 ModelArts Lite池，选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。账号冻结导致创建失败？

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
部署图像分类服务 - AI开发平台ModelArts

5之间的整数。是否自动停止：启用该参数并设置时间后，服务将在指定时间后自动停止。如果不启用此参数，在线服务将一直运行，同时一直收费，自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能，且默认值为“1小时后”。目前支持设置为“1小时后”、“2小时后”、“4小时后”、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
部署预测分析服务 - AI开发平台ModelArts

5之间的整数。是否自动停止：启用该参数并设置时间后，服务将在指定时间后自动停止。如果不启用此参数，在线服务将一直运行，同时一直收费，自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能，且默认值为“1小时后”。目前支持设置为“1小时后”、“2小时后”、“4小时后”、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
部署声音分类服务 - AI开发平台ModelArts

5之间的整数。是否自动停止：启用该参数并设置时间后，服务将在指定时间后自动停止。如果不启用此参数，在线服务将一直运行，同时一直收费，自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能，且默认值为“1小时后”。目前支持设置为“1小时后”、“2小时后”、“4小时后”、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
重置AppSecret - AI开发平台ModelArts

表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String 消息体的类型。设置为text/plain，返回临时预览链接。设置为application/octet-stream，返回临时下载链接。 X-Auth-Token 是 String 用户token。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

S桶名称）。 “启动文件”：选择代码目录下上传的训练脚本“train.py”。 “输入”：单击“增加训练输入”，设置训练输入的“参数名称”为“data_url”。设置数据存储位置为您的OBS目录，例如 “/test-modelarts-xx/pytorch/mnist-data/

帮助中心 > AI开发平台ModelArts > 快速入门
非分离部署推理服务 - AI开发平台ModelArts

--block-size：kv-cache的block大小，推荐设置为128。当前仅支持64和128。 --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址，默认为None，举例：参数可以设置为0.0.0.0。 --port：服务部署的端口。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（gl

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
启动/停止/删除实例 - AI开发平台ModelArts

内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Notebook停止后会被清理。您可以通过保存镜像的方式保留开发环境设置，具体操作请参考保存Notebook实例。 Notebook实例将停止计费，但如有EVS盘挂载，存储部分仍会继续计费。删除实例针对不再

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
显存溢出错误 - AI开发平台ModelArts

和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（gl

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
部署推理服务 - AI开发平台ModelArts

控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有toekns。 temperature

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.904）
查看日志和性能 - AI开发平台ModelArts

time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
查看日志和性能 - AI开发平台ModelArts

time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 635

上一页
1
...
17
18
19
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练任务的准备工作 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

部署声音分类服务 - AI开发平台ModelArts

重置AppSecret - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线