搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

build -f Dockerfile . -t {新镜像} 构建成功后将新镜像上传至SWR（参考6）。在ModelArts上创建训练作业。登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。单击“创建训练作业”，进入创建训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
使用MaaS调优模型 - AI开发平台ModelArts

1 text text 前提条件在“我的模型”页面存在已创建成功的模型。已准备好训练数据集，并存放于OBS桶中，OBS桶必须和MaaS服务在同一个Region下。当需要永久保存日志时，需要准备好存放日志的OBS路径，OBS桶必须和MaaS服务在同一个Region下。创建调优作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
训练的数据集预处理说明 - AI开发平台ModelArts

handler-name参数说明数据集预处理中 --handler-name 都会传递参数，用于构建实际处理数据的handler对象，并根据handler对象对数据集进行解析。文件路径在：ModelLink/modellink/data/data_handler.py。基类BaseDatasetHandler解析

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

修复。代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后，将llm_train文件上传至OBS中。结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至OBS后，OBS桶的目录结构如下。 <bucket_name>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错，“Unable to connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
Standard模型训练 - AI开发平台ModelArts

直接高速写入到SFS Turbo缓存中，并可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储，从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力，提升用户模型训练的开发效率

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
管理标注数据 - AI开发平台ModelArts

基于音频修改在标注作业详情页面，单击“已标注”页签，然后在音频列表中选中待修改的音频（选择一个或多个）。在右侧标签信息区域中对标签进行修改。修改标签：在“选中文件标签”区域中，单击操作列的编辑图标，然后在文本框中输入正确的标签名，然后单击确定图标完成修改。删除标签：在“选中文件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。约束限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

l.json文件，在等待status字段的值等于completed之后，将模板二格式jobstart_hccl.json文件转换为模板一格式的jobstart_hccl.json文件。转换后的jobstart_hccl.json文件格式（模板一）示例： { "server_count":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
查看诊断报告 - AI开发平台ModelArts

Operator Dynamic Shape Issues 下图展示了低优先级的动态shape问题，在NPU上动态shape可能导致频繁的算子编译从而影响训练性能，可以按照html中的提示在训练脚本开头加上如下红框中的两行代码（分布式训练请确保分布式训练的每个进程都可以使能这两行代码）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用自动分组智能标注作业 - AI开发平台ModelArts

只能在“全部”页签下启动自动分组任务或查看任务历史。在弹出的“自动分组”对话框中，填写参数信息，然后单击“确定”。 “分组数”：填写2~200之间的整数，指将图片分为多少组。 “结果处理方式”：“更新属性到当前样本中”，或者“保存到对象存储服务（OBS）”。 “属性名称”：当选择“更新属性到当前样本中”时，需输入一个属性名称。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
数据导入方式介绍 - AI开发平台ModelArts

文件型数据集支持从两种数据源导入数据：“OBS”和“本地上传”。导入后，导入目录下的数据会复制至数据集的数据源路径下。 OBS：又分为从OBS目录或从Manifest文件两种导入方式，需要将导入的数据或Manifest文件提前存储至OBS目录中。本地上传：将本地数据直接通过Internet上传至OBS指定目录后，再导入数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
配置Workflow参数 - AI开发平台ModelArts

placeholder_format 支持的format格式数据，当前支持obs、flavor、train_flavor、swr、pacific。否 str delay 参数是否运行时输入，默认为“False”，在工作流启动运行前进行配置。设置为“True”，则在使用的相应节点运行时卡点配置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
创建导入任务 - AI开发平台ModelArts

path="/obs-gaia-test/data/table/table1/", with_column_header=True) 参数说明表2 请求参数参数是否必选参数类型描述 path 是 String 导入的OBS路径或Manifest路径。导

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 导入任务管理
日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

日志提示“Please set the train_url to an empty obs directory” 问题现象日志提示“Please set the train_url to an empty obs directory”。原因分析对于不支持断点训练的模型，如果选择训练输出路径不是空目录，会出现该报错。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

grafana/grafana-oss 在BMS页面打开Grafana所在节点的安全组配置，添加入方向规则，允许外部访问3000、9090端口：在浏览器地址栏输入xx.xx.xx.xx:3000，登录Grafana，默认账号密码为：admin/admin。在配置管理页面，添加数据源，类型选择Prometheus。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 1696

上一页
1
...
48
49
50
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

管理标注数据 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

使用自动分组智能标注作业 - AI开发平台ModelArts

数据导入方式介绍 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

创建导入任务 - AI开发平台ModelArts

日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线