搜索_华为云

资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

存储方式，单机单卡场景使用文件系统，多机多卡场景使用普通OBS桶。创建普通OBS桶创建并行文件系统购买数据加密服务DEW 在使用Notebook进行代码调试时，如果要开启“SSH远程开发”功能，需要选择已有密钥对。密钥对可免费创建，您可通过管理控制台创建密钥对，操作指导请参考如何创建密钥对？

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
（可选）本地安装ma-cli - AI开发平台ModelArts

（可选）本地安装ma-cli 使用场景本文以Windows系统为例，介绍如何在Windows环境中安装ma-cli。 Step1：安装ModelArts SDK 参考本地安装ModelArts SDK 完成SDK的安装。 Step2：下载ma-cli 下载ma-cli软件包。完成软件包签名校验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
云上迁移适配故障 - AI开发平台ModelArts

2763 训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 系统容器异常退出父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
Standard资源池 - AI开发平台ModelArts

算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？创建失败的专属资源池删除后，控制台为什么还能看到？训练专属资源池如何与SFS弹性文件系统配置对等链接？

帮助中心 > AI开发平台ModelArts > 常见问题
ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

资源包名称。支持本地文件，OBS路径及用户已上传到DLI资源管理系统的文件。如果需要指定多个参数，可以使用--resources resource1 --resources resource2。 --files Array of String 否用户已上传到DLI资源管理系统的类型为file的资源包名。也支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
团队标注使用流程 - AI开发平台ModelArts

数据标注任务中，一般由一个人完成，但是针对数据集较大时，需要多人协助完成。ModelArts提供了团队标注功能，可以由多人组成一个标注团队，针对同一个数据集进行标注管理。团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。针对启用团队

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。适配的CANN版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
不同机型的对应的软件配套版本 - AI开发平台ModelArts

03 470.57.02 gpu-driver与系统内核版本有关，请见表4。用于升级、回滚gpu驱动，插件依赖gpu-beta版本。系统内核与gpu-driver配套关系表4 系统内核与gpu-driver配套关系镜像版本系统内核版本适配CCE gpu-driver版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提供了即开即用的云

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
Lite Cluster资源配置流程 - AI开发平台ModelArts

P，登录节点。图9 登录节点方式2：通过华为云自带的远程登录功能使用华为云账号登录CCE管理控制台。在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图10 节点管理单击“远程登录”，在弹出的窗口中，单击“CloudShell登录”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤方法1：使用mlx硬件计数器，估算ROCE网卡收发流量统计300s内流量，统计脚本如下：

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

_cuda_getDeviceCount() > 0 原因分析 nvidia-modprobe是一个Linux工具，用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。本文档适用于OBS+SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）前提条件已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经在obsutil安装和配置，请参见obsutils安装和配置。准备数据单击下载动物数据集至本地，并解压。通过obsutil将数据集上传至OBS桶中。 ./obsutil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
ModelArts 6.5.0版本配套关系表 - AI开发平台ModelArts

2.1.5 Lite模式DevServer节点操作系统 EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10（CCE标准版）/HCE2.0（CCE Turbo） Standard模式集群节点操作系统 EulerOS 2.10（CCE标准版） BMS

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
开发第一条Workflow - AI开发平台ModelArts

storages=[output_storage], # workspace=wf.resource.Workspace(workspace_id="***") # ) # 其中workspace_id可前往ModelArts的工作空间服务中进行查看上述代码示例在云

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

如果当前资源池的资源确实不够，也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。如果是大模型导入的AI应用部署服务，请确保专属

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

推理迁移包括模型迁移、业务迁移、精度性能调优等环节，是否能满足最终的迁移效果需要进行系统的评估。如果您仅需要了解迁移过程，可以先按照本文档的指导进行操作并熟悉迁移流程。如果您有实际的项目需要迁移，建议填写附录中的推理业务迁移评估表，并将该调研表提供给华为云技术支持人员进行迁移评估，以确保迁移项目能顺利实施。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 1589

上一页
1
...
41
42
43
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

资源购买 - AI开发平台ModelArts

（可选）本地安装ma-cli - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

Standard资源池 - AI开发平台ModelArts

ma-cli dli-job提交DLI Spark作业支持的命令 - AI开发平台ModelArts

团队标注使用流程 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

ModelArts 6.5.0版本配套关系表 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线