搜索_华为云

训练精度测试 - AI开发平台ModelArts

txt 执行下游评估为增加精度评测的稳定性及进一步确保训练，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口对训练后的结果进行评测，精度训练benchmark目录执行命令： ascendfactory-cli eval <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练评测
在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

权限配置指南》> 典型场景配置案例，查找授予OBS桶权限的指导。获得OBS桶的读写权限后，您可以在Notebook中，使用moxing接口，访问对应的OBS桶，并读取数据。举例如下： import moxing as mox mox.file.copy_parallel('o

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
推理性能测试 - AI开发平台ModelArts

--backend：服务类型，支持tgi、vllm、mindspore、openai、openai-chat等。本文档使用的推理接口是vllm，而llava多模态推理接口是openai-chat。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
训练精度测试 - AI开发平台ModelArts

为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口用mmlu、ceval数据集对训练后的结果进行评测 test-benchmark目录目录下执行命令 ascendfactory-cli eval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口用mmlu、ceval数据集对训练后的结果进行评测 test-benchmark目录目录下执行命令 ascendfactory-cli eval

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
创建生产训练作业（默认页面） - AI开发平台ModelArts

（即旧版页面）的操作指导，新版页面的操作指导请参见创建生产训练作业（新版页面）。通过ModelArts提供的API接口创建生产环境的训练作业，详细操作请参见使用API创建训练作业。约束限制默认支持创建10000条训练作业，剩余额度可以在训练作业列表页查看。图1 查看训练作业剩余额度

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
删除训练作业 - AI开发平台ModelArts

训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。如果文件较小，可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录，解压以后使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

flow/log/” 用于存储训练日志文件。 Step2 创建数据集并上传至OBS 使用网站https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz，下载“mnist.npz”文件并上传至OBS桶的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
更新训练作业描述 - AI开发平台ModelArts

参数是否必选参数类型描述 description 是 String 需要更改的训练作业的描述信息。无成功响应参数表3 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Standard资源池节点故障定位 - AI开发平台ModelArts

ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。 NPU驱动环境异常。 A050122 NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。 A050123 NPU 链路 npu

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口8080。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

benchmark_parallel.csv 参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务性能评测
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

errorMessage:None reason:Service Unavailable 如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.envir

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
附录：指令微调训练常见问题 - AI开发平台ModelArts

were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查询训练日志 - AI开发平台ModelArts

Integer 当前返回的日志大小（单位：字节）。最大为5兆。 full_size Integer 完整的日志大小（单位：字节）。表4 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

总条数： 1336

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练精度测试 - AI开发平台ModelArts

在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

创建生产训练作业（默认页面） - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线