搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。如果想构造nvidia-smi D+进程，可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性，如： #!/bin/bash while true; do nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Step1 创建用户组并加入用户 - AI开发平台ModelArts

骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。在左侧菜单栏中，选择“用户组”。单击右上角“创建用户组”，在“用户组名称”中填入“用户组02”，然后单击“确定”完成用户组创建。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
使用MoXing复制数据报错 - AI开发平台ModelArts

路径不存在，请在更换为一个可用的OBS路径。检查使用的资源是否为CPU，CPU的“/cache”与代码目录共用10G，可能是空间不足导致，可在代码中使用如下命令查看磁盘大小。 os.system('df -hT') 磁盘空间满足，请执行5。磁盘空间不足，请您使用GPU资源。如果是在Notebook使

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
查看AI应用详情 - AI开发平台ModelArts

根据创建AI应用时的设置，显示部署服务的使用约束，如请求模式、启动命令、模型加密等。对于异步请求模式的AI应用，可显示输入模式、输出模式、服务启动参数和作业配置参数等参数。关联服务展示使用该AI应用部署的服务列表，单击服务名称可以直接跳转到服务详情页面。父主题：管理AI应用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理AI应用
自定义引擎创建模型规范 - AI开发平台ModelArts

单击服务名称，进入服务详情页面，查看服务详情信息，单击“日志”页签，查看服务日志信息。图2 查看服务日志信息服务预测在服务详情页面，单击“预测”页签，进行服务预测。图3 服务预测父主题：创建AI应用规范参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建AI应用规范参考
调用MaaS部署的模型服务 - AI开发平台ModelArts

调用MaaS部署的模型服务在ModelArts Studio大模型即服务平台部署成功的模型服务支持在其他业务环境中调用。约束限制只有“状态”是“运行中”的模型服务才支持被调用。步骤1：获取API Key 在调用MaaS部署的模型服务时，需要填写API Key用于接口的鉴权认证。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
自动学习模型训练图片异常？ - AI开发平台ModelArts

ignore 系统已自动过跳过这张图片，不需要用户处理。 2 tf-decode failed 图片无法被TensorFlow解码且不能修复 ignore 系统已跳过这张图片，不需要用户处理。 3 size over 图片大于5MB resize to small 系统已将图片压缩到5MB以内处理，不需要用户处理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务背景描述 ModelArts推理默认使用公网访问在线服务。在线服务部署成功后，将为用户提供一个可调用的API，此API为标准Restful API。您可以在服务详情页面，调用指南页签中查看API接口公网地址。图1 API接口公网地址约束限制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将AI应用部署为实时推理作业 > 访问在线服务支持的访问通道
TPE算法优化的超参数必须是分类特征（categorical features）吗 - AI开发平台ModelArts

TPE算法优化的超参数必须是分类特征（categorical features）吗对于优化的超参数类型，TPE算法本身是没有限制的，但出于面对普通用户节省资源的目的，ModelArts在前端限制了TPE的超参数必须是float，如果想离散型和连续型参数混用的话，可以调用rest接口。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

数据未保存至/cache目录或者/home/ma-user/目录（/cache会软连接成/home/ma-user/），导致数据占满系统目录。系统目录仅支持系统功能基本运行，无法支持大数据存储。部分训练任务会在训练过程中生成checkpoint文件，并进行更新。如更新过程中，未删除历

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

exec format error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看AI应用详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
自定义镜像规范 - AI开发平台ModelArts

Gallery在线推理服务部署模型。如果使用自定义镜像进行训练，操作步骤可以参考使用AI Gallery微调大师训练模型，其中“训练任务类型”默认选择“自定义”，且不支持修改。如果使用自定义镜像进行部署推理服务，操作步骤可以参考使用AI Gallery在线推理服务部署模型，其中“推

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
Pytorch1.0引擎提示“RuntimeError: std::exception” - AI开发平台ModelArts

按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm /home/work/anaconda3/lib/libmkldnn.so") os.system("rm /home/work/anaconda3/lib/libmkldnn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。表2 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。需要由IAM用户设置SFS Turbo FullAccess权限，用于授权ModelArts云服务使用SFS Turbo。详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。获取模型权重文件获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
日志提示“no socket interface found” - AI开发平台ModelArts

处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

训练完成后，可先在开发环境Notebook中创建本地模型，在开发环境Notebook调试完成后再部署到推理服务上。只支持使用ModelArts Notebook部署本地服务。示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的S

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

e_path。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # BootfileDirectory, 启动文件所在的目录 project_root = os.path.dirname(current_path)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 1204

上一页
1
...
43
44
45
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

查看AI应用详情 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

自动学习模型训练图片异常？ - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

TPE算法优化的超参数必须是分类特征（categorical features）吗 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

创建AI应用失败，如何定位和处理问题？ - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

Pytorch1.0引擎提示“RuntimeError: std::exception” - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线