搜索_华为云

ECS中构建新镜像 - AI开发平台ModelArts

在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker tag ${dockerfile_image_name} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： ${dockerfile_image_name}：在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker tag ${dockerfile_image_name} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： ${dockerfile_image_name}：在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker tag ${dockerfile_image_name} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： ${dockerfile_image_name}：在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker tag ${dockerfile_image_name} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： ${dockerfile_image_name}：在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker tag ${dockerfile_image_name} <镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： ${dockerfile_image_name}：在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Lite Cluster资源配置流程 - AI开发平台ModelArts

在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图10 节点管理单击“远程登录”，在弹出的窗口中，单击“CloudShell登录”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。登录ECS控制台，购买弹性云服务器，镜像选择“公共镜像”，推荐使用ubuntu18.04的镜像；系统盘设置为100GiB。具体操作请参考购买并登录弹性云服务器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出现读取速度变慢的现象，并且SFS提示报错"rpc_check_timeout:939 callbacks suppressed"。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

使用ModelArts VS Code插件调试训练ResNet50图像分类模型应用场景 Notebook等线上开发工具工程化开发体验不如IDE，但是本地开发服务器等资源有限，运行和调试环境大多使用团队公共搭建的CPU或GPU服务器，并且是多人共用，这带来一定的环境搭建和维护成本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？不支持。创建资源池时，只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源，但是无法使用账号下购买的ECS，作为ModelArts专属资源池。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
Lite Cluster使用流程 - AI开发平台ModelArts

ECS 弹性云服务器（Elastic Cloud Server）是一种可随时自助获取、可弹性伸缩的云服务器，可帮助您打造可靠、安全、灵活、高效的应用环境，确保服务持久稳定运行，提升运维效率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
使用CES监控Lite Server资源 - AI开发平台ModelArts

当前还不支持在CES界面直接一键安装监控，需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理大规模分布式训练能力，加速大模型研发提供高性价比国产算力多年软硬件经验沉淀，AI场景极致优化加速套件，训练、推理、数据访问多维度加速一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

如果在训练时调用ECS中的文件，需要修改文件权限改为ma-user可读，否则会出现Permission denied错误，因此需要在ECS中提前创建好ma-user和ma-group。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作

总条数： 408

上一页
1
2
3
4
5
...
21
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

使用ModelArts VS Code插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线