搜索_华为云

模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
管理Workflow - AI开发平台ModelArts

管理Workflow 查找Workflow工作流查看Workflow工作流运行记录管理Workflow工作流重试/停止/运行Workflow节点父主题：使用Workflow实现低代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Cluster上的训练方案。训练框架使用的是ModelLink。本方案目前仅适用于企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
Gallery CLI配置工具指南 - AI开发平台ModelArts

Gallery CLI配置工具指南安装Gallery CLI配置工具使用Gallery CLI配置工具下载文件使用Gallery CLI配置工具上传文件父主题： AI Gallery（新版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
什么是Workflow - AI开发平台ModelArts

是一个任务管理体系。这个工具需要具备以下的能力：流程分析：沉淀行业样例流水线，帮助用户能快速进行AI项目的参考设计，启动快速的AI项目流程设计。流程定义与重定义：以流水线作为承载项，用户能快速定义AI项目，实现训练+推理上线的工作流设计。资源分配：支持账号管理机制给流水线

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

您可以单击生产概况的链接、资源池名称、训练作业，跳转到对应界面查看更多详情。图1 总览页查看监控信息在总览页查看全部事件时，如果顶部事件总数和底部的“总条数”数量不一致，请刷新重试。在各模块资源监控页签查看ModelArts监控指标训练作业：用户在运行训练作业时，可以查

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

oup用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。准备数据登录coco

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

join(map(str, result))) 获取模型权重文件获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：hu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912）
管理批量推理作业 - AI开发平台ModelArts

管理批量推理作业查看批量服务详情查看批量服务的事件管理批量服务生命周期修改批量服务配置父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标安装配置Grafana 配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
发布和管理AI Gallery镜像 - AI开发平台ModelArts

发布和管理AI Gallery镜像托管镜像到AI Gallery 发布镜像到AI Gallery 管理AI Gallery镜像父主题： AI Gallery（新版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
推理部署使用场景 - AI开发平台ModelArts

的服务类型。将模型部署为实时推理作业将模型部署为一个Web Service，并且提供在线的测试UI与监控功能，部署成功的在线服务，将为用户提供一个可调用的API。将模型部署为批量推理服务批量服务可对批量数据进行推理，完成数据处理后自动停止。图2 不同类型的推理作业使用场景

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
开发Workflow命令参考 - AI开发平台ModelArts

开发Workflow命令参考开发Workflow的核心概念介绍配置Workflow参数配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
自动模型优化介绍 - AI开发平台ModelArts

string，默认为'ucb'，可能取值还有'ei'、'poi'，一般不建议用户修改 kappa 采集函数ucb的调节参数，可理解为上置信边界 float，一般不建议用户修改 xi 采集函数poi和ei的调节参数 float，一般不建议用户修改 TPE算法 TPE算法全称Tree-structured

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
附录：大模型推理standard常见问题 - AI开发平台ModelArts

'original_max_position_embeddings': 8192, 'rope_type': 'llama3'} 解决方法：升级transformers版本到4.43.1：pip install transformers --upgrade 问题5：使用Smooth

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 2138

上一页
1
...
53
54
55
...
107
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练高可靠性 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

管理Workflow - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Gallery CLI配置工具指南 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

管理批量推理作业 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

发布和管理AI Gallery镜像 - AI开发平台ModelArts

推理部署使用场景 - AI开发平台ModelArts

开发Workflow命令参考 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

附录：大模型推理standard常见问题 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线