搜索_华为云

训练性能测试 - AI开发平台ModelArts

<cfgs_yaml_file> --baseline <baseline> --o <output_dir> <cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
训练精度测试 - AI开发平台ModelArts

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？导入模型时，需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中，推荐采用相对导入方式（Python import）导入自定义包。如果ModelArts推理框架代码内

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
批量添加样本 - AI开发平台ModelArts

8：图像的饱和度与训练数据集的特征分布存在较大偏移。 9：图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10：图像的清晰度与训练数据集的特征分布存在较大偏移。 11：图像的目标框数量与训练数据集的特征分布存在较大偏移。 12：图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询样本列表 - AI开发平台ModelArts

8：图像的饱和度与训练数据集的特征分布存在较大偏移。 9：图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10：图像的清晰度与训练数据集的特征分布存在较大偏移。 11：图像的目标框数量与训练数据集的特征分布存在较大偏移。 12：图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

Server算力资源和镜像版本配套关系 Lite Server提供多种NPU、GPU镜像，您可在购买前了解当前支持的镜像及对应详情。 NPU Snt9裸金属服务器支持的镜像详情镜像名称：ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情软件类型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
创建训练作业 - AI开发平台ModelArts

自动化搜索作业的yaml配置路径，需要提供一个OBS路径。 autosearch_framework_path 否 String 自动化搜索作业的框架代码目录，需要提供一个OBS路径。 command 否 String 自定义镜像场景下，训练作业的自定义镜像的容器的启动命令。 parameters

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

发现“no-auto-default=*”是打开的状态，“no-auto-default=*”含义是关闭DH Client，无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

launch命令启动训练作业。创建训练作业的关键参数如表2所示。表2 创建训练作业（自定义镜像+torch.distributed.launch命令）参数名称说明创建方式选择“自定义算法”。启动方式选择“自定义”。镜像选择用于训练的PyTorch镜像。代码目录选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
安装VS Code软件 - AI开发平台ModelArts

Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：图2 Windows系统下VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例

总条数： 2323

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练性能测试 - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

查询样本列表 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

Lite Server算力资源和镜像版本配套关系 - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线