搜索_华为云

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

网络规划。账号冻结导致创建失败？查看资源池失败报错信息，存在"frozen deposit fail"，表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况，账号解冻后重新购买资源。订单取消导致资源创建失败？查看资源池失败报错信息，存在"the operation is

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
从OBS目录导入数据到数据集 - AI开发平台ModelArts

数据标注状态选择“已标注”，您需要保证目录或manifest文件满足相应的格式规范，否则可能存在导入失败的情况。导入已标注的文件，导入完成后，请检查您导入的数据是否为已标注状态。表格数据集从OBS导入操作 ModelArts支持从OBS导入表格数据，即csv文件。表格数据集导入说明：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

品），并给出置信度最高的5类商品的置信度得分。步骤一：准备工作已注册华为账号并开通华为云，进行了实名认证，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。注册华为账号并开通华为云进行实名认证配置委托访问授权 ModelArts使用过程中涉及到OBS

帮助中心 > AI开发平台ModelArts > 快速入门
附录：指令微调训练常见问题 - AI开发平台ModelArts

解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框架的选择，如原使用Accelerator可替换为Deepspeed-ZeRO-1，De

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
使用Notebook进行代码调试 - AI开发平台ModelArts

待。当Notebook状态变为“运行中”时，表示Notebook已创建并启动完成。如果创建Notebook启动失败，建议参考调试要点进行检查。在Notebook列表，单击实例名称，进入实例详情页，查看Notebook实例配置信息。挂载OBS并行文件系统：在Notebook实

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查询插件模板 - AI开发平台ModelArts

npuDriver：NPU驱动 gpuDriver：GPU驱动 ccePlugin：CCE插件 helm：Helm模板 icAgent：ICAgent工具 description String 插件模板描述。 versions Map<String,PluginTemplateVersion>

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 7B lora/dpo 4096/8192 gradient_accumulation_steps:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
断点续训和故障快恢说明 - AI开发平台ModelArts

ed_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

ed_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

1版本之前可能出现的调优不生效的场景，建议您直接使用MindSpore Lite Convertor2.1及以后的版本。配置文件指定选项进行AOE调优。使用转换工具配置config参数，具体如下所示，其中“subgraph tuning”表示子图调优，“operator tuning”表示算子调优。其中，“ge

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

品），并给出置信度最高的5类商品的置信度得分。步骤1：准备工作已注册华为账号并开通华为云，进行了实名认证，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。注册华为账号并开通华为云进行实名认证配置委托访问授权 ModelArts使用过程中涉及到OBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
ModelArts Standard使用流程 - AI开发平台ModelArts

Standard是面向AI开发者的一站式开发平台，提供了简洁易用的管理控制台，包含自动学习、数据管理、开发环境、模型训练、模型管理、部署上线等端到端的AI开发工具链。 Standard的自动学习可以帮助用户零代码构建AI模型。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
推理场景介绍 - AI开发平台ModelArts

# 推理构建镜像启动脚本 ├──llm_tools # 推理工具包 ├──AutoSmoothQuant # W8A8量化工具 ├── ascend_autosmoothquant_adapter # 昇腾量化使用的算子模块

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
Notebook提示磁盘空间已满 - AI开发平台ModelArts

文件删除后不可恢复） rm {文件路径} 如果删除的文件夹或者文件中带有空格，需要给文件夹或文件加上单引号。如图示例：执行如下命令，再次检查虚拟机所使用的存储空间。 cd /home/ma-user/work du -h --max-depth 0 如果Notebook实例的存

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练过程中无法找到so文件 - AI开发平台ModelArts

13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：在业务执行前加如下命令，检查是否能找到so文件。如果已经找到so文件，执行2；如果没有找到，执行3。 import os; os.system(find /usr -name

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
断点续训和故障快恢说明 - AI开发平台ModelArts

ed_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Standard资源池节点故障定位 - AI开发平台ModelArts

NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定，存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池

总条数： 799

上一页
1
...
30
31
32
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

从OBS目录导入数据到数据集 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

查询插件模板 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线