搜索_华为云

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

在docker机器中并执行如下命令，即可完成环境配置。 bash install_on_ubuntu1804.sh 图3 配置成功 source /etc/profile 安装脚本依次执行了如下任务：安装docker。如果挂载了GPU，则会安装nvidia-docker2，用以将GPU挂载到docker容器中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
报错“Connection permission denied (publickey)”如何解决 - AI开发平台ModelArts

可能是密钥文件或放置密钥的文件夹权限问题，密钥不正确等，请按以下步骤排查。解决方案排查/home/ma-user权限，建议将该目录权限设置为755或750，权限不能过于宽松，以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

从内核中卸载nvidia相关的所有进程。在安装nvidia驱动时，必须把内核中加载nvidia相关的进程卸载，否则会失败。具体操作请参考GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML。若遇到加载到内核的nvidia进程循环依赖，无法从内核中

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

ModelArts控制台为什么能看到创建失败被删除的专属资源池？在控制台页面操作删除专属资源池后，后端服务需要进行资源实例释放。在资源实例释放过程中，用户依然可以查询到资源池。如果需要创建专属资源池，建议等待5min后再创建，且不要使用已创建过的专属资源池名称来命名新建的专属资

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据至OBS（首次使用时需要）前提条件已经在OBS上创建好普通OBS桶，请参见创建普通OBS桶。已经安装obsutil，请参考下载和安装obsutil。参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。解决方法用户重新进行申请SSH权限。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found）问题现象用户使用ma-cli制作自定义镜像失败，报错文件目录不存在。图1 报错xxx not found 原因分析复制的文件需要放在Dockerfile同级文件夹或者子目录中，不能放在Dockerfile上层目录。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下： cd /home/ma-user/mode

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下： cd /home/ma-user/mode

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤方法1：使用mlx硬件计数器，估算ROCE网卡收发流量

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

User：用户名，例如：ma-user - HostName：IP地址 - Port：端口号在VS Code中手工配置远程连接时，在本地的ssh config文件中增加配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理

总条数： 1834

上一页
1
...
7
8
9
...
92
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

报错“Connection permission denied (publickey)”如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线