搜索_华为云

使用自动学习实现零代码AI开发 - AI开发平台ModelArts

使用自动学习实现零代码AI开发自动学习简介使用自动学习实现图像分类使用自动学习实现物体检测使用自动学习实现预测分析使用自动学习实现声音分类使用自动学习实现文本分类使用窍门

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” 问题现象在使用keras时，升级版本>=2.3.0之后，之前跑通的代码出现如下报错： TypeError: Unexpected keyword argument passed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
什么是Workflow - AI开发平台ModelArts

什么是Workflow MLOps简介在介绍Workflow之前，先了解MLOps的概念。 MLOps(Machine Learning Operation)是“机器学习”（Machine Learning）和“DevOps”（Development and Operation

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
管理Workflow - AI开发平台ModelArts

管理Workflow 查找Workflow工作流查看Workflow工作流运行记录管理Workflow工作流重试/停止/运行Workflow节点父主题：使用Workflow实现低代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
使用窍门 - AI开发平台ModelArts
使用窍门 - AI开发平台ModelArts

使用窍门创建项目时，如何快速创建OBS桶及文件夹？自动学习生成的模型，存储在哪里？支持哪些其他操作？父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错问题现象使用kv_store = mxnet.kv.create('dist_async')方式创建“kvstore”时程序被阻塞。如，执行如下代码，如果无法输出“end”，表明程序阻塞。 print('start') kv_store

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
开发Workflow命令参考 - AI开发平台ModelArts

开发Workflow命令参考开发Workflow的核心概念介绍配置Workflow参数配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象代码在Notebook的keras镜像中可以正常运行，在训练模块使用tensorflow.keras训练报错时，出现如下报错：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
分离部署推理服务 - AI开发平台ModelArts

--max-model-len：模型能处理的请求输入+输出的token长度 --max-num-batched-tokens：最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192 --tensor-parallel-size：模型并行数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
训练启动脚本说明和参数配置 - AI开发平台ModelArts

非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。模型参数设置规定 TP张量并行、PP流水线并行、CP context并行的参数设置：TP×PP×CP的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？用户可通过shell命令或python命令查询GPU使用信息。使用shell命令执行nvidia-smi命令。依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” 问题现象训练过程中出现如下报错： DataFrame.dtypes for data must be int, float or bool 原因分析出现该问题的可能原因如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误问题现象使用预置算法创建训练作业，训练失败，日志中出现如下报错。 KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 1389

上一页
1
...
8
9
10
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用自动学习实现零代码AI开发 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

管理Workflow - AI开发平台ModelArts

使用窍门 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

开发Workflow命令参考 - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts的Notebook中如何在代码中打印GPU使用信息？ - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线