搜索_华为云

昇腾云服务6.3.907版本说明（推荐） - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
查询数据集导出任务的状态 - AI开发平台ModelArts

finished_sample_count Integer 已完成的样本数量。 path String 导出的输出路径。 progress Float 任务当前进度百分比。 status String 任务状态。 task_id String 任务ID。 total_sample_count Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用SDK调测单机训练作业 - AI开发平台ModelArts

train_instance_type='local', train_instance_count=1, script_interpreter="/home/ma-user/anaconda3/envs/PyTorch-1

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
获取智能任务的信息 - AI开发平台ModelArts

"elapsed_time" : 0, "result" : { "total_sample_count" : 49, "annotated_sample_count" : 30 }, "export_type" : 0, "config" : {

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
AI开发基本流程介绍 - AI开发平台ModelArts

最重要的是保证获取数据的真实可靠性。而事实上，不能一次性将所有数据都采集全，因此，在数据标注阶段你可能会发现还缺少某一部分数据源，反复调整优化。训练模型俗称“建模”，指通过分析手段、方法和技巧对准备好的数据进行探索分析，从中发现因果关系、内部联系和业务规律，为商业目的提供决策

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查看训练作业资源占用情况 - AI开发平台ModelArts

提升数据读取的效率：如果读取一个batch数据的时间要长于GPU/NPU计算一个batch的时间，就有可能出现GPU/NPU利用率上下浮动的情况。建议优化数据读取和数据增强的性能，例如将数据读取并行化，或者使用NVIDIA Data Loading Library（DALI）等工具提高数据增强的速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
通过patch操作对服务进行更新 - AI开发平台ModelArts

替换更新，因此前缀固定为“/config/”。例如，当期望更新第一个模型中的实例数量，则路径为“/config/0/instance_count”。 value 否 String 替换的目标值。响应参数状态码： 200 表5 响应Header参数参数参数类型描述 X-Request-Id

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建开发环境实例 - AI开发平台ModelArts

duration Integer 启动后设置的自动停止时间，单位为秒。 store_time Integer 该规格实例处于非活跃状态，在数据库最长保存的时长。单位为小时。默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时，使用规格名称计费。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
PyTorch迁移精度调优 - AI开发平台ModelArts

Cosine < 0.9 MaxAbsError > 1 其余情况都视为达标。精度对齐时，需要根据compare表格查找精度不达标的算子进行调整优化。由于算子间可能存在前后数据传输的相关性，一般先定位第一个不达标的算子，然后结合堆栈信息进行分析和调整，调整之后重新训练dump数据再做对

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
批量添加样本 - AI开发平台ModelArts

cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集，数据库名字。 input 否 String 表格数据集，HDFS路径。例如/datasets/demo。 ip 否 String 用户GaussDB(DWS)集群的IP地址。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

0 self.count = 0 def update(self, val, n=1): self.val = val self.sum += val * n self.count += n self

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard专属资源池训练模型
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

模型适配：针对昇腾迁移模型必要的转换和改造。模型准备，导出和保存确定格式的模型。转换参数准备，准备模型业务相关的关键参数。模型转换，包含模型转换、优化和量化等。应用集成。针对转换的模型运行时应用层适配。数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查询算法列表 - AI开发平台ModelArts

响应参数状态码： 200 表3 响应Body参数参数参数类型描述 total Integer 查询到当前用户名下的所有算法总数。 count Integer 查询到当前用户名下的所有符合查询条件的算法总数。 limit Integer 查询到当前用户名下的所有算法限制个数。 offset

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
昇腾云服务6.3.905版本说明 - AI开发平台ModelArts

Scatter、Gather算子性能提升，满足MoE训练场景 matmul、swiglu、rope等算子性能提升，支持vllm推理场景新增random随机数算子，优化FFN算子，满足AIGC等场景无父主题：产品发布说明

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
终止训练作业 - AI开发平台ModelArts

TerminatedFailed：停止失败 Unknown：未知状态 Lost：异常 duration Long 训练作业运行时长，单位为毫秒。 node_count_metrics Array<Array<Integer>> 训练作业运行时节点数变化指标。 tasks Array of strings

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
Standard资源池节点故障定位 - AI开发平台ModelArts

-g”查看24小时内闪断5次以上。 A050951 NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM Double Bit Isolated Pages Count值大于等于64。 A050146 Runtime 其他 ntp异常。 ntpd或者chronyd服务异常。 A050202 Runtime

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池

总条数： 274

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

昇腾云服务6.3.907版本说明（推荐） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询数据集导出任务的状态 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

获取智能任务的信息 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

PyTorch迁移精度调优 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

使用ModelArts Standard专属资源池进行单机单卡训练 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

昇腾云服务6.3.905版本说明 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线