搜索_华为云

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象使用pandas读取csv数据表时，日志报出如下错误导致训练作业失败： pandas.errors.ParserError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” 问题现象在使用keras时，升级版本>=2.3.0之后，之前跑通的代码出现如下报错： TypeError: Unexpected keyword argument passed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NP

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件问题现象训练作业的状态一直在“创建中”，查看训练作业的“事件”，有异常信息“实例挂卷失败”，详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “Runtim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ Network is unreachable” 问题现象在使用pytorch时，将torchvision.models中的pretrained置为了True，日志中出现如下报错： ‘OSError: [Errno 101] Network is unreachable’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

3 打印如下信息，表示上传镜像成功。图7 成功上传镜像 Step8 注册镜像镜像上传至SWR成功后，在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。图8 在ModelArts控制台注册镜像在镜像源中，选择上一步中上传到SWR自有镜像仓中的镜像名，作为模型推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

3 打印如下信息，表示上传镜像成功。图7 成功上传镜像 Step8 注册镜像镜像上传至SWR成功后，在ModelArts控制台的“镜像管理”页面中单击“注册镜像”。图8 在ModelArts控制台注册镜像在镜像源中，选择上一步中上传到SWR自有镜像仓中的镜像名，作为模型推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
Lite Server资源配置流程 - AI开发平台ModelArts

Lite Server资源配置流程在开通Lite Server资源后，需要完成相关配置才能使用，配置流程如下图所示。图1 Lite Server资源配置流程图表1 Server资源配置流程配置顺序配置任务场景说明 1 配置Lite Server网络 Server资源开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.906-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” 问题现象训练作业访问OBS时，出现如下报错： ERROR:root:Failed to call: func= <bound method ObsClient.getObjectMetadata

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

节点故障指标(nt_npg)默认会上报到AOM，您可以在AOM配置短信、邮件等通知方式。以下步骤基于AOM2.0配置。登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。配置方式：选择“PromQL”。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

Key Id），SK（Secret Access Key）。图1 credential.csv文件内容 AK/SK生成步骤：注册并登录管理控制台。单击右上角的用户名，在下拉列表中单击“我的凭证”。单击“访问密钥”。单击“新增访问密钥”，进入“身份验证”页面。根据提示完成身份验证，下载密钥，并妥善保管。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式

总条数： 1755

上一页
1
...
82
83
84
...
88
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

通过AK/SK认证的方式访问在线服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线