搜索_华为云

开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

询LLDP信息等。 Atlas 800训练服务器备件查询助手备件查询助手可以帮助您查询服务器的所有部件、规格描述，数量等详细信息。打开网站后请输入SN编码“2102313LNR10P5100077”，若失效可以提工单至华为云ModelArts查询。 Atlas 800训练服务器的网卡配置问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
创建团队标注任务 - AI开发平台ModelArts

>数据标注”页面进入，创建标注作业时，打开“启用团队标注”开关，同时指定一个标注团队，或者指定标注管理员。图1 创建团队标注作业从控制台的“资产管理 >数据集”进入数据集页面，在需要进行团队标注的数据集的操作列，单击“标注”，进入创建标注作业页面，打开“启用团队标注”开关。对于同一个数据集，可以创建多个团队标注任务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
在MaaS中创建模型 - AI开发平台ModelArts

OBS的总大小不能超过5GB，详情请参见如何上传超过5GB的大对象。权重校验需要选择是否开启权重文件校验。默认是开启的。当开启权重校验时，平台会对OBS中的权重文件进行校验，确认其是否满足规范。权限校验常见的失败情况及其处理建议请参见权重校验。当关闭权重校验时，则不进行校

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建智能标注作业 - AI开发平台ModelArts

后的图片列表。图像分类标注作业在“待确认”页面查看标签是否准确，勾选标注准确的图片，然后单击“确认”完成智能标注结果的确认。确认完成后的图片将被归类至“已标注”页面下。针对标为“难例”的图片，您可以根据实际情况判断，手工修正标签。详细操作及示例请参见•针对“图像分类”数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
查看诊断报告 - AI开发平台ModelArts

如下图所示，当分析时显式指定了标杆集群profiling数据，advisor识别到两次训练任务中0号卡的step12存在计算性能差异，则会对目标集群的0号卡step12与标杆集群的0号卡step12进行kernel（npu侧计算的算子）性能对比。基于该对比数据，可以判断两张卡上的npu算子是否存在计算性能差异。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
配额与限制 - AI开发平台ModelArts

华为云为防止资源滥用，对云服务每个区域的用户资源数量和容量做了配额限制。如果当前资源配额限制无法满足使用需要，您可以申请扩大配额。怎样查看配额如需查看每个配额项目支持的默认配额，请参考怎样查看我的配额？章节，登录控制台查询您的配额详情。申请扩大配额如需扩大资源配额，请在华为云管理控制台申请扩大配额。

帮助中心 > AI开发平台ModelArts > 产品介绍
重启可视化作业 - AI开发平台ModelArts

/v1/{project_id}/visualization-jobs/{job_id}/restart 参数说明如表1所示。表1 参数说明参数是否为必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
Controlnet训练 - AI开发平台ModelArts

conditioning_images.zip unzip images.zip 接着修改fill50k.py文件，如果机器无法访问huggingface网站，则需要将脚本文件中下载地址替换为容器本地目录。 56 def _split_generators(self, dl_manager):

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

# PFA算子（全量prefill阶段的flash-attention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
精度调优前准备工作 - AI开发平台ModelArts

tion模块是否使用融合flash attention算子（性能较优）或者使用小算子。训练脚本由算法迁移人员排查迁移后的NPU脚本是否存在问题，可以通过Beyond Compare工具比对GPU训练脚本和NPU训练脚本之间是否存在差异。例如是否GPU环境下开启了FA但是NPU上未开启FA。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
msprobe API预检 - AI开发平台ModelArts

result_{timestamp}.csv文件的Forward Test Success和Backward Test Success，判断是否存在未通过测试的API，再查看api_precision_compare_details_{timestamp}.csv文件的API详细达标情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

# PFA算子（全量prefill阶段的flash-attention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
查看ModelArts相关审计日志 - AI开发平台ModelArts

查看ModelArts相关审计日志在您开启了云审计服务后，系统会记录ModelArts的相关操作，且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。操作步骤登录云审计服务管理控制台。在管理控制台左上角单击图标，选择区域。在左侧导航

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用CTS审计ModelArts服务
部署推理服务 - AI开发平台ModelArts

# PFA算子（全量prefill阶段的flash-attention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
非分离部署推理服务 - AI开发平台ModelArts

# PFA算子（全量prefill阶段的flash-attention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_I

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
通过SSH工具远程使用Notebook - AI开发平台ModelArts

ppk文件”（由Step2密钥对.pem文件生成）。单击“Open”。如果首次登录，PuTTY会显示安全警告对话框，询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。图6 询问是否接受服务器的安全证书成功连接到云上Notebook实例。图7 连接到云上Notebook实例

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

export USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
部署推理服务 - AI开发平台ModelArts

模型更加随机。0表示贪婪采样。 stream 否 False Bool 是否开启流式推理。默认为False，表示不开启流式推理。 ignore_eos 否 False Bool ignore_eos表示是否忽略EOS并且继续生成token。父主题：主流开源大模型基于Lite Cluster适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

总条数： 1148

上一页
1
...
4
5
6
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开启训练故障自动重启功能 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

重启可视化作业 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

msprobe API预检 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

查看ModelArts相关审计日志 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线