搜索_华为云

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启，单击右上角配置NAS VPC即可。如果单击开启后报错，可能是由于对应的VPC已经创建了对等连接，删除对等连接即可。父主题：专属资源池创建训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

如果出现以下信息则表示创建成功。 uid=1000(ma-user) gid=100(ma-group) groups=100(ma-group) 父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错，“Unable to connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorF

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
准备推理环境 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？当模型配置文件中定义了具体的端口号，例如：8443，创建模型没有配置端口，或者配置了其他端口号，均会导致服务部署失败。您需要把模型中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：登录ModelArts控制台，左侧菜单选择“模型管理”；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

640 ${KERNEL_GATEWAY_LOG_FILE} 执行命令ps -ef检查进程是否启动。图3 检查进程是否启动父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明，包括配置RoCE网卡的IP、网关，配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手备件查询助手可以帮助您查询服务器的所有部件、规格描述，数量等详细信息。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

客户创建了多个虚拟环境，numba库安装在了python-3.7.10中，如图1所示。图1 查询创建的虚拟环境解决方案在Terminal中执行conda deactivate命令退出当前虚拟环境，默认进入base环境。执行pip list命令查询已安装的包，然后安装需要的依赖进行保存，最后切换至指定的虚拟环境后再运行脚本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
查询训练作业参数列表 - AI开发平台ModelArts

指定要查询的文字信息，例如参数名称。默认为空。 config_type 否 String 指定要查询的配置类型，可选值有以下两种 “custom”为查询用户自定义配置。 “sample”为查询示例配置，默认为“custom”。响应消息响应参数如表3所示。表3 响应参数参数参数类型说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
训练作业找不到GPU - AI开发平台ModelArts

根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GPU编号。如果未进行添加配置则该编号对应的GPU不可用。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
pipeline应用准备 - AI开发平台ModelArts

Diffusion v1.5的onnx pipeline代码为例进行说明。进入容器环境，创建自己的工作目录。由于在Snt9B裸金属服务器环境配置指南的配置环境步骤中，在启动容器时将物理机的home目录挂载到容器的“/home_host”目录下，该目录可以直接使用上传到物理机“home”目

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

驱动程序问题：可能是由于驱动程序没有正确安装或配置，导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager等软件后，驱动程序可能已经正确配置，从而解决了这个问题。硬件问题：如果GPU之间的NVLINK连接存在硬件故障，那么这可能会导致带宽受限。重新安装软件后，重

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

例，打开Terminal，使用ma-cli命令。 ma-cli在本地Windows/Linux环境中需要安装后在本地Terminal中使用。安装步骤具体可参考（可选）本地安装ma-cli。 ma-cli不支持在git-bash上使用。推荐使用Linux Bash、ZSH、Fis

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx - AI开发平台ModelArts

Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx 问题现象在Notebook中安装依赖包时报错，报错截图如下：原因分析 pypi源没有这个包或源不可用。解决方案使用别的源下载。 pip install -i 源地址

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS获取基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像

总条数： 1565

上一页
1
...
10
11
12
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线