搜索_华为云

开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
语言模型推理性能测试 - AI开发平台ModelArts

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口，请求体中可以添加可选参数"return_latency"，默认为false，如果指定该参数为true，则会在相应请求的返回体中返回字段"latency"，返回内容如下： pr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
语言模型推理性能测试 - AI开发平台ModelArts

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口，请求体中可以添加可选参数"return_latency"，默认为false，如果指定该参数为true，则会在相应请求的返回体中返回字段"latency"，返回内容如下： pr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
语言模型推理性能测试 - AI开发平台ModelArts

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口，请求体中可以添加可选参数"return_latency"，默认为false，若指定该参数为true，则会在相应请求的返回体中返回字段"latency"，返回内容如下： pre

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
镜像方案说明 - AI开发平台ModelArts

本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。 ECS中构建新镜像方案：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatro

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

重新启动镜像激活SFS盘中的虚拟环境保存并共享虚拟环境前提条件创建一个Notebook，“资源类型”选择“专属资源池”，“存储配置”选择“SFS弹性文件服务器”，打开terminal。创建新的虚拟环境并保存到SFS目录创建新的conda虚拟环境。 # shell conda create

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
使用基础镜像 - AI开发平台ModelArts

训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

续费简介包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用，需要在指定的时间内为资源池续费，否则资源会自动释放，数据丢失且不可恢复。续费操作仅适用于包年/包月专属资源池，按需计费专属资源池不需要续费，只需要保证账户余额充足即可。专属资源池在到期前续费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
训练图像分类模型 - AI开发平台ModelArts

同一个自动学习项目可以训练多次，每次训练会注册一个新的模型版本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。父主题：使用自动学习实现图像分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
断点续训和故障快恢说明 - AI开发平台ModelArts

kpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
ModelArts Standard资源监控概述 - AI开发平台ModelArts

ux上安装配置Grafana和在Notebook上安装配置Grafana三种方式，请您根据实际情况选择。配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

常用框架指使用ModelArts训练管理中支持的常用AI引擎，当前支持的引擎列表请参见ModelArts支持的预置镜像列表。如果您使用的AI引擎为支持列表之外的，建议使用自定义镜像的方式创建训练作业。 AI Engine 选择代码使用的AI引擎及其版本。支持的AI引擎与ModelArts管理控制台里ModelArts支持的预置镜像列表一致。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 ModelArts集成了多个昇腾迁移调优工具，方便您在ModelArts平台环境中进行训练推理迁移、精度调试、性能调优等工作，您可在下表中查看当前ModelArts支持的昇腾迁移调优工具及对应指导。表格中的部分工具已集成到ModelArt

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
镜像方案说明 - AI开发平台ModelArts

或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行install.sh文件，来安装依赖以及下载完整代码。 ECS中构建新镜像方案：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatro

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
镜像方案说明 - AI开发平台ModelArts

或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行install.sh文件，来安装依赖以及下载完整代码。 ECS中构建新镜像方案：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatro

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像

总条数： 1556

上一页
1
...
71
72
73
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开启训练故障自动重启功能 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

训练图像分类模型 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线