搜索_华为云

准备模型训练镜像 - AI开发平台ModelArts

案例参考：从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU）从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）从0制作自定义镜像用于创建训练作业（MindSpore+Ascend）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
IoTA.01010036 属性引用深度超过配额限制 - IoT数据分析 IoTA

IoTA.01010036 属性引用深度超过配额限制错误码描述属性引用深度超过配额限制。可能原因资产属性作为其他的分析任务的输入参数，此时该资产属性引用深度为1，举例：模型A中有属性a，而模型B的分析任务以a为输入参数，则a的引用深度为1，深度限制最大为10。处理建议系统

 帮助中心 > IoT数据分析 IoTA > API参考 > 错误码参考 > 错误码 > 业务面错误码 > 资产建模相关错误码
边缘节点支持多个显卡么？ - 智能边缘平台 IEF

边缘节点支持多个显卡么？边缘节点支持多个显卡，但是多个显卡的GPU型号必须相同。当前支持Nvidia Tesla系列P4、P40、T4等型号GPU，含有GPU硬件的机器作为边缘节点时可以不使用GPU。父主题：边缘节点

 帮助中心 > 智能边缘平台 IEF > 常见问题 > 边缘节点
亲和与反亲和调度 - 云容器引擎 CCE

节点亲和的规则只能影响Pod和节点之间的亲和，Kubernetes还支持Pod和Pod之间的亲和，例如将应用的前端和后端部署在一起，从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod的编排与调度
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失分发损失，各GPU各自反向传播梯度主GPU收集梯度并更新参数，将更新后的模型参数分发到各GPU 具体流程图如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
什么是企业主机安全 - 企业主机安全 HSS

HSS云端防护中心使用AI、机器学习和深度算法等技术分析主机中的各项安全风险。集成多种杀毒引擎，深度查杀主机中的恶意程序。接收您在控制台下发的配置信息和检测任务，并转发给安装在服务器上的Agent。接收Agent上报的主机信息，分析主机中存在的安全风险和异常信息，将分析后的信息以检测报告的形式呈现在控制台界面。

帮助中心 > 企业主机安全 HSS > 产品介绍
如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

nvidia_drm rmmod nvidia_modeset rmmod nvidia 执行以下命令，查看GPU信息。 nvidia-smi 如果回显正常，则问题已修复。如果回显仍报错，请参考GPU驱动不可用中的处理方法进行操作。父主题：非硬件故障自恢复处理方法

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
使用Msprobe工具分析偏差 - AI开发平台ModelArts

定为statistics表示使用统计量模式，该模式下针对整网训练API输入输出保存最大值、最小值、均值等统计量信息比对，落盘数据量较小。GPU和NPU环境依次进行数据Dump，正常执行结束标识如下图回显Exception: msprobe: exit after iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

License问题问题描述用户业务是做图形处理的，且用户已经安装了GRID驱动，但用户的GPU使用率很低或渲染性能达不到预期。例：运行图像识别任务，任务会突然卡住无法继续运行，GPU的性能表现差；查看/var/log/messages日志发现有如下报错，询问用户后确认用户购

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断 > 非硬件故障自恢复处理方法
advisor调优总体步骤 - AI开发平台ModelArts

stage0的8号卡和pp stage3的60号卡。查看对8号卡的降频分析（图7）可以发现节点降频主要影响了FlashAttention和MatMul两类算子，导致这两类算子的计算性能劣化，从而影响了整体的训练性能。按照html中给出的建议，需要检查8号卡和60号卡对应节点的温度和最大功率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
产品规格差异 - 应用运维管理 AOM

产品规格差异应用运维管理服务（简称AOM）按计费方式不同分为基础版、按需版两种，其中按需版又分为专业版和企业版。各版本的具体规格差异请参见表1。表1 版本规格差异说明规格项基础版专业版企业版日志读写流量 500MB 400GB 1TB 日志索引流量 500MB 400GB

帮助中心 > 应用运维管理 AOM > 产品介绍（1.0）
修改CCE集群配置 - 云容器引擎 CCE

集群规格为1000节点及以上时，默认值200 开启GPU共享 enable-gpu-share 是否开启GPU共享，该参数仅v1.23.7-r10、v1.25.3-r0及以上版本集群支持。关闭GPU共享时，需保证集群中的Pod没有使用共享GPU能力（即Pod不存在cce.io/gpu-decision的a

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 管理集群
付费模板 - 企业门户 EWP
付费模板 - 企业门户 EWP

站有效期内，模版一直有效且可无限次安装使用。多终端独立版模板按照功能分为标准型和营销型。如果购买的站点是入门版或标准版，是不能使用营销型模板的，只能使用标准型模板。如果购买的站点是营销版或企业版，既可以使用营销型模板，也可以使用标准型模板。操作步骤登录企业门户控制台，进入“企业门户”界面。

帮助中心 > 企业门户 EWP > 用户指南(多终端独立版) > 模板设置
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
可以免费试用DataArts Studio吗？ - 数据治理中心 DataArts Studio

Studio提供两种免费试用途径。试用初级版：您可以通过参加相关活动，限时免费试用初级版DataArts Studio。初级版实例默认赠送一个CDM集群。使用免费版：免费版定位于试用场景，相比初级版不自带CDM集群，而是首次购买时赠送36小时CDM集群折扣套餐；另外在配额上有所限制。但免费版不限制使用时长，可以长期使用。

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 咨询与计费
调优前后性能对比 - AI开发平台ModelArts

调优前后性能对比在完成上一章几类调优方式之后，在单卡场景下实测性能调优比对结果如下表所示：设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16 2.58 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优
Agent版本特性 - 云监控服务 CES
Agent版本特性 - 云监控服务 CES

Agent支持的系统有哪些？ CES Agent迭代版本已知版本特性如下： 2.7.5.1版本分类说明发布时间 2024-12-20 新特性基于2.7.5版本： GPU指标采集加固。修复问题无 2.7.5版本分类说明发布时间 2024-12-20 新特性优化网卡指标采集逻辑，完善网卡名称维度值规则规则校验

 帮助中心 > 云监控服务 CES > 用户指南 > 云资源监控 > 主机监控 > 云监控插件（Agent）
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Profiling数据采集 - AI开发平台ModelArts

Profiling数据采集在train.py的main()函数Step迭代处添加配置，添加位置如下图所示：此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。更多信息，请参见Ascend PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 性能调优

总条数： 9961

上一页
1
...
12
13
14
...
499
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备模型训练镜像 - AI开发平台ModelArts

IoTA.01010036 属性引用深度超过配额限制 - IoT数据分析 IoTA

边缘节点支持多个显卡么？ - 智能边缘平台 IEF

亲和与反亲和调度 - 云容器引擎 CCE

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

什么是企业主机安全 - 企业主机安全 HSS

如何处理升级内核后，驱动不可用问题 - 弹性云服务器 ECS

使用Msprobe工具分析偏差 - AI开发平台ModelArts

如何处理用户安装了GRID驱动，但未购买、配置License问题 - 弹性云服务器 ECS

advisor调优总体步骤 - AI开发平台ModelArts

产品规格差异 - 应用运维管理 AOM

修改CCE集群配置 - 云容器引擎 CCE

付费模板 - 企业门户 EWP

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

可以免费试用DataArts Studio吗？ - 数据治理中心 DataArts Studio

调优前后性能对比 - AI开发平台ModelArts

Agent版本特性 - 云监控服务 CES

Volcano调度器 - 云容器引擎 CCE

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

Profiling数据采集 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线