搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

设置API 检测项目与执行条件检测项目 item（日志关键字）执行条件检测成功要求域名检测 dns 无 volcano容器的域名都解析成功（/etc/volcano下的“.host”文件中的域名解析成功）磁盘空间-容器根目录 disk-size root 无大于32GB 磁盘空间-/dev/shm目录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？问题现象镜像保存时报错“The container size (30G) is greater than the threshold

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
在ModelArts中如何将Notebook A的数据复制到Notebook B中？ - AI开发平台ModelArts

在ModelArts中如何将Notebook A的数据复制到Notebook B中？目前不支持直接将Notebook A的数据复制到Notebook B，如果需要复制数据，可参考如下步骤操作：将Notebook A的数据上传至OBS；下载OBS中的数据至Notebook B。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
管理训练容器环境变量 - AI开发平台ModelArts

训练作业使用的实例数量。 “VC_WORKER_NUM=4” VC_WORKER_HOSTS 多节点训练时，每个节点的域名地址，按顺序以英文逗号分隔，可以通过域名解析获取IP地址。 “VC_WORKER_HOSTS=modelarts-job-a0978141-1712-4f9b-

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决？ - AI开发平台ModelArts

报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决？问题现象原因分析密钥文件内容不正确或格式不正确。解决方法请使用正确的密钥文件进行远程访问，如果本地没有正确的密钥文件或文件已损坏，可以尝试：登录控制台，搜索“数据加密服务

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

用户程序，如何解决？问题现象用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示，左侧为自定义镜像运行在本地环境，右侧为运行在Notebook里。可能原因 Notebook自带moxing、modelart-sdk等功能，会将这些包嵌入到用户Conda环境。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
开发用于预置框架训练的代码 - AI开发平台ModelArts

创建算法”的“代码目录”下放置相应的文件或安装包。安装python依赖包请参考模型中引用依赖包时，如何创建训练作业？安装C++的依赖库请参考如何安装C++的依赖库？在预训练模型中加载参数请参考如何在训练中加载部分训练好的参数？解析输入路径参数、输出路径参数运行在ModelArts Standard的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？问题现象或原因分析可能为/home/ma-user/work磁盘空间不足。解决方法删除/home/ma-user/work路径下无用文件。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
如何将Keras的.h5格式的模型导入到ModelArts中？ - AI开发平台ModelArts

如何将Keras的.h5格式的模型导入到ModelArts中？ ModelArts不支持直接导入“.h5”格式的模型。您可以先将Keras的“.h5”格式转换为TensorFlow的格式，然后再导入ModelArts中。从Keras转TensorFlow操作指导请参见其官网指导。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

0）的地址，设置为任务worker-0的通信域名。 master_port：在主任务（rank 0）上，用于分布式训练期间通信的端口。默认设置为18888端口。当遇到master_port冲突问题时，可通过设置MA_TORCHRUN_MASTER_PORT环境变量值修改端口配置。 rdzv_id：R

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
推理精度测试 - AI开发平台ModelArts

tp://${docker_ip}:8080/generate。此处的${docker_ip}替换为宿主机实际的IP地址，端口号8080来自前面配置的服务端口。 few_shot：开启少量样本测试后添加示例样本的个数。默认为3，取值范围为0~5整数。 is_devserver：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
录制Profiling - AI开发平台ModelArts

录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？问题现象原因分析当前本地网络原因，导致远程自动安装VS Code Server时间过长。解决方法打开VS Code，选择“

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
录制Profiling - AI开发平台ModelArts

录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具，通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？如果您在创建Notebook实例之后，打开Notebook时，因报错导致无法打开页面，您可以根据以下对应的错误码来排查解决。打开Notebook显示黑屏 Notebook打开后黑屏，由于代理问题导致，切换代理。打开Notebook显示空白

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例

总条数： 859

上一页
1
2
3
4
5
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

在ModelArts中如何将Notebook A的数据复制到Notebook B中？ - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决？ - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

如何将Keras的.h5格式的模型导入到ModelArts中？ - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上，如何解决？ - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线