搜索_华为云

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提供了即开即用的云上集成开发环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

后续操作自定义模型文件构建完成后，可以参考托管模型到AI Gallery将模型文件托管至AI Gallery。建议托管的模型文件列表参见表2。表2 模型实例包含的文件文件名称描述 config.json 模型配置文件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
获取Workflow工作流列表 - AI开发平台ModelArts

operator String 操作，当前只支持equal操作。 value Object 取值。表12 Data 参数参数类型描述 name String 训练数据的名称。填写1-64位，仅包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

方式一：通过OpenAI服务API接口启动服务在llm_inference/ascend_vllm/目录下通OpenAI服务API接口启动服务，具体操作命令如下，可以根据参数说明修改配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
新建Workflow工作流 - AI开发平台ModelArts

operator 否 String 操作，当前只支持equal操作。 value 否 Object 取值。表10 Data 参数是否必选参数类型描述 name 否 String 训练数据的名称。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

方式一：通过OpenAI服务API接口启动服务在llm_inference/ascend_vllm/目录下通OpenAI服务API接口启动服务，具体操作命令如下，可以根据参数说明修改配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支持大模型定制开发

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
附录：大模型推理standard常见问题 - AI开发平台ModelArts

附录：大模型推理standard常见问题问题1：在推理预测过程中遇到NPU out of memory。解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
创建Workflow数据集导入节点 - AI开发平台ModelArts

适用于需要对标注任务进行数据更新的操作。用户将指定路径下已标注的数据导入到标注任务中（同时导入标签信息），后续可增加数据集版本发布节点进行版本发布。数据准备：基于使用的数据集，提前创建标注任务，并将已标注的数据上传至OBS中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 ModelArts支持从DWS导入表格数据，用户需要选择对应的DWS集群，并输入需要对应的数据库名、表名以及用户名和密码。所导入表的schema(列名和类型)需要跟数据集相同。DWS的详细功能说明，请参考DWS用户指南。图1 从DWS导入数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
AI开发基本概念 - AI开发平台ModelArts

AI开发基本概念机器学习常见的分类有3种：监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。常见的有回归和分类。非监督学习：在未加标签的数据中，试图找到隐藏的结构。常见的有聚类。强化学习：智能系统从环境到行为映射的学习，

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查询Workflow工作流 - AI开发平台ModelArts

operator String 操作，当前只支持equal操作。 value Object 取值。表11 Data 参数参数类型描述 name String 训练数据的名称。填写1-64位，仅包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
指令监督微调训练任务 - AI开发平台ModelArts

单机启动一般小于等于14B模型可选择单机启动，操作过程与多机启动相同，只需修改对应参数即可，可以选用单机启动。进入代码目录/home/ma-user/ws/llm_train/LLaMAFactory下执行启动脚本，先修改以下命令中的参数，再复制执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查询训练作业详情 - AI开发平台ModelArts

查询训练作业详情功能介绍查询训练作业详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/{

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

创建算法功能介绍创建一个算法。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/algorithms 表1 路径参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用SDK调测单机训练作业 - AI开发平台ModelArts

使用SDK调测单机训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改6和10中的framework_type参数值即可，例如：MindSpore框架，此处framework_type

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

更新算法功能介绍更新算法。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/algorithms/{algorithm_id

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 1397

上一页
1
...
63
64
65
...
70
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

附录：大模型推理standard常见问题 - AI开发平台ModelArts

创建Workflow数据集导入节点 - AI开发平台ModelArts

从DWS导入数据到ModelArts数据集 - AI开发平台ModelArts

AI开发基本概念 - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线