搜索_华为云

PyTorch - AI开发平台ModelArts
PyTorch - AI开发平台ModelArts

部署 torch.save(model.state_dict(), "pytorch_mnist/mnist_mlp.pt") 推理代码在模型代码推理文件customize_service.py中，需要添加一个子类，该子类继承对应模型类型的父类，各模型类型的父类名称和导入语句如请参考表1。

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例
什么是Workflow - AI开发平台ModelArts

中的一个个步骤。对于AI开发者来说是非常熟悉的开发模式，而且灵活度极高。Python SDK主要提供以下能力。开发构建：使用python代码灵活编排构建工作流。调测：支持debug以及run两种模式，其中run模式支持节点部分运行、全部运行。发布：支持将调试后的工作流进行固化，发布至运行态，支持配置运行。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
日志提示“no socket interface found” - AI开发平台ModelArts

针对原因2，需要在代码中设置环境变量NCCL_SOCKET_IFNAME。 import os os.environ["NCCL_SOCKET_IFNAME"] = "eth0" 只有当用户的NCCL版本低于2.14时，才需要进行以上设置。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业常用文件路径是什么？ - AI开发平台ModelArts

训练作业常用文件路径是什么？训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取，${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。父主题：编写训练代码

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
TensorFlow 2.1 - AI开发平台ModelArts

y_train, epochs=10) tf.keras.models.save_model(model, "./mnist") 推理代码在模型代码推理文件customize_service.py中，需要添加一个子类，该子类继承对应模型类型的父类，各模型类型的父类名称和导入语句如请参考表1。

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 推理规范说明 > 自定义脚本代码示例
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行： os.system('pip list') 然后运行训练作业，查看日志中是否有所需要的模块。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备模型训练镜像 - AI开发平台ModelArts

训练作业的自定义镜像制作流程场景一：预置镜像满足ModelArts训练平台约束，但不满足代码依赖的要求，需要额外安装软件包。具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“Out of bounds nanosecond timestamp” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

/cache”目录读取数据，直到训练结束。训练结束以后“/cache”目录的内容会自动被清空。优化方式以TensorFlow代码为例。优化前代码如下所示： 1 2 3 4 ... tf.flags.DEFINE_string('data_url', '', 'dataset

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
编排Workflow - AI开发平台ModelArts

点章节，按照自己的场景需求选择相应的代码示例模板进行修改。编排过程主要分为以下几个步骤。梳理场景，了解预置Step的功能，确定最终的DAG结构。单节点功能，如训练、推理等在ModelArts相应服务中调试通过。根据节点功能选择相应的代码模板，进行内容的补充。根据DAG结构编排节点，完成Workflow的编写。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
训练作业进程被kill - AI开发平台ModelArts

根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

训练镜像的numpy版本与Notebook中不一致。处理方法在代码中打印出numpy的版本，查看是否为1.18.5版本，若非该版本号则在代码开始处执行： import os os.system('pip install numpy==1.18.5') 如果依旧有报错情况，将以上代码修改为： import os os

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

执行如下代码，如果无法输出“end”，表明程序阻塞。 print('start') kv_store = mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本教程案例是基于ModelArts Lite DevServer运行的，需要购买并开通DevServer资源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
使用VS Code调试代码时不能进入源码 - AI开发平台ModelArts

使用VS Code调试代码时不能进入源码如果已有launch.json文件，请直接看步骤三。步骤一：打开launch.json文件方法一：单击左侧菜单栏的Run（Ctrl+Shift+D）按钮，再单击create a launch.json file。如下图所示：方法二：单击上侧菜单栏中的Run

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code使用技巧
如何安装C++的依赖库？ - AI开发平台ModelArts

将上传到OBS的源码使用Moxing复制到开发环境Notebook中。以下为使用EVS挂载的开发环境，将数据复制至notebook中的代码示例： import moxing as mox mox.file.make_dirs('/home/ma-user/work/data')

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业失败，返回错误码139 - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 1081

上一页
1
...
5
6
7
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

PyTorch - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

训练作业常用文件路径是什么？ - AI开发平台ModelArts

TensorFlow 2.1 - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

日志提示“Out of bounds nanosecond timestamp” - AI开发平台ModelArts

如何提升训练效率，同时减少与OBS的交互？ - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用VS Code调试代码时不能进入源码 - AI开发平台ModelArts

如何安装C++的依赖库？ - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线