搜索_华为云

日志文件的大小达到限制 - AI开发平台ModelArts

running silently 原因分析根据报错信息，可以判断是日志文件的大小已达到限制。出现该报错之后，日志不再增加，后台将继续运行。处理方法请您在启动文件中减少无用日志输出。父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

在线服务报错原因分析根据报错日志分析，模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。处理方法在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件，重新导入模型后进行部署在线服务即可正常预测。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

error [Errno 110] Connection timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
yaml配置文件参数配置说明 - AI开发平台ModelArts

则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。 packing true 可选项。当选用静态数据长度时，可将不足于文本处理时的最大长度数据弥补到文本处理时的最大长度;当选用动态数据长度则去掉此参数。 deepspeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
功能咨询 - AI开发平台ModelArts
功能咨询 - AI开发平台ModelArts

为什么选择不了Ascend Snt3资源？线上训练得到的模型是否支持离线部署在本地？服务预测请求体大小限制是多少？在线服务部署是否支持包周期？部署服务如何选择计算节点规格？部署GPU服务支持的Cuda版本是多少？父主题：部署上线

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线
SFT全参微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

connect to endpoint 原因分析 OBS连接不稳定可能会出现报错，“Unable to connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示“ValueError: label - AI开发平台ModelArts

3:'banana'} 原因分析训练集中的标签个数与验证集中的个数不一致，导致该错误发生。例如，训练集中的标签共有4个，验证集中的标签只有3个。处理方法请您保持数据中训练集和验证集的标签数量一致。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' - AI开发平台ModelArts

这是因为torch_npu当前不支持DataParallel（DP）并行模式。处理方法如果是运行单卡模式，在训练脚本中加入export ASCEND_RT_VISIBLE_DEVICES=0（指定 0 号卡对当前进程可见）。多卡环境模式需要运行DDP并行模式。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导 > 常见问题
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：方法1：使用常用框架自行编码开发模型，支持“多边形”标注的数据集。方法2：修改数据集，使用矩形标注。然后再启动训练作业。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

同一个账户，图片展示角度不同是为什么？有的图片存在旋转角度等属性，不同的浏览器的处理策略不同，对浏览器的兼容性如表1和表2所示。 L代表last，L3-产品版本上线时最新的3个稳定浏览器版本。如果您当前使用的浏览器版本过低，将在一定程度上影响页面的显示效果，系统会提示您尽快对浏览器进行升级。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
Yaml配置文件参数配置说明 - AI开发平台ModelArts

则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。 packing true 可选项。当选用静态数据长度时，可将不足于文本处理时的最大长度数据弥补到文本处理时的最大长度;当选用动态数据长度则去掉此参数。 deepspeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

选择的支持实例无效，请检查请求中信息的合法性。原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；如果是导入模型没有对应的工作权限，可以参考创建自定义策略对相应账号赋予导入模型相关权限。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。例如您的模型是Pytorch框架，部署为在线服务时出现告警：ModuleNotFoundError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

通过OBS导入模型时，ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下，镜像内路径可以通过self.model_path获取。处理方法获取镜像内的路径方法见模型推理代码编写说明。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理

总条数： 1270

上一页
1
...
47
48
49
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志文件的大小达到限制 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

功能咨询 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

日志提示“ValueError: label - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练运行报错AttributeError: 'torch_npu._C._NPUDeviceProperties' object has no attribute 'multi_processor_count' - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线