搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。模型参数设置规定 TP张量并行、PP流水线并行、CP context并行的参数设置：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
Standard开发环境 - AI开发平台ModelArts

ModelArts提供的版本能够满足的时候，建议用户使用预置镜像，这些镜像经过充分的功能验证，并且已经预置了很多常用的安装包，用户无需花费过多的时间来配置环境即可使用。开发环境提供的预置镜像主要包含：常用预置包，基于标准的Conda环境，预置了常用的AI引擎，例如PyTorc

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
查询AI应用详情 - AI开发平台ModelArts

健康检查接口路径。 period_seconds String 健康检查周期 failure_threshold String 健康检查最大失败次数 check_method String 健康检查方式：HTTP 或者 EXEC（命令行） command String 命令行命令，以空格分隔的字符串

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
msprobe精度分析工具使用指导 - AI开发平台ModelArts

的精度问题分析定位。Cuda对部分算子实现了确定性计算，但仍有部分算子无法固定。通常需要依赖确定性计算的场景是长稳问题，因为长稳问题需要通过多次长跑来分析Loss情况，这时候如果NPU本身计算结果不确定，就难以支撑和GPU结果的多次对比。示例1：仅固定随机数，不开启确定性计算。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
在推理生产环境中部署推理服务 - AI开发平台ModelArts

配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
advisor调优总体步骤 - AI开发平台ModelArts

stage的计算量存在差异，advisor会自动对不同stage进行计算维度的分析，因此在Advanced Setting中设置分析进程为2（不建议设置太大，避免占用过多CPU资源导致OOM类问题）使能并行分析，加快分析速度，如下图4所示。图4 基于performance advisor进行性能劣化分析

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
修复Standard专属资源池故障节点 - AI开发平台ModelArts

点名称。替换最长时间为24小时，超时后仍然未找到合适的资源，状态会变为“失败”。可将鼠标悬浮在图标上，查看具体失败原因。每天累计替换的次数不超过资源池节点总数的20%，同时替换的节点数不超过资源池节点总数的5%。替换节点时需确保有空闲节点资源，否则替换可能失败。当操作记录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
自定义镜像使用场景 - AI开发平台ModelArts

比如用户开发基于MindSpore1.X，建议用户使用预置镜像，这些镜像经过充分的功能验证，并且已经预置了很多常用的安装包，用户无需花费过多的时间来配置环境即可使用。 ModelArts默认提供了一组预置镜像供开发使用，这些镜像有以下特点：零配置，即开即用，面向特定的场景，将

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

3,224,224" --optimize=ascend_oriented 常量折叠是编译器优化中的通用技术之一，在编译节点简化常量表达。通过多数的现代编译器不会真的产生两个乘法的指令再将结果存储下来，取而代之的是会识别出语句的结构，并在编译时期将数值计算出来而不是运行时去计算（在本例子，结果为2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
部署模型为在线服务 - AI开发平台ModelArts

正常使用需在SFS Turbo界面绑定后端OBS存储后设置权限为777。 “服务流量限制” - 服务流量限制是指每秒内一个服务能够被访问的次数上限。您可以根据实际需求设置每秒流量限制。 “升级为WebSocket” - 设置在线服务是否部署为WebSocket服务。了解在线服务支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
在推理生产环境中部署推理服务 - AI开发平台ModelArts

配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。 --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
投机推理使用说明 - AI开发平台ModelArts

投机推理使用说明什么是投机推理传统LLM推理主要依赖于自回归式（auto-regressive）的解码（decoding）方式，每步解码只能够产生一个输出token，并且需要将历史输出内容拼接后重新作为LLM的输入，才能进行下一步的解码。为了解决上述问题，提出了一种投机式推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

以第一个计费周期为例，假设优惠金额为0，那么应付金额=0.75055555 - 0 - 0.00055555 = 0.75元专属资源池明细账单明细账单可以通过多维度展示客户账单的详细信息。一般通过设置统计维度为“按使用量”，统计周期为“按账期”来统计资源在某个月份的总开销，建议您核对表2所示的信息是否和实际相符。

帮助中心 > AI开发平台ModelArts > 计费说明
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

--configFile=./configs/unet.ini 最多支持100档配置，每一档通过英文逗号分隔。如果用户设置的dim数值过大或档位过多，可能会导致模型编译失败，此时建议用户减少档位或调低档位数值。如果用户设置了动态维度，实际推理时，使用的输入数据的shape需要与设置的档位相匹配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
使用SDK调测单机训练作业 - AI开发平台ModelArts

job_name=job_name) 多次调试。上一步执行过程中，训练脚本的日志会实时打印到控制台，如果用户的代码或者参数有误的话，可以很方便的看到。在Notebook中经过多次调试，得到想要的结果后，可以进行下一步。查询训练支持的计算节点类型和最大个数。 from modelarts.estimatorV2 import

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

Standard平台会自动运行训练作业的启动文件。 Ascend-Powered-Engine框架的启动文件的默认启动方式如下：每个训练作业的启动文件的运行次数取决于任务卡数，即在训练作业运行时，有N个任务卡数训练作业内就会运行N次启动文件。例如，单机1卡，则worker-0任务的启动文件会被运行

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
创建ModelArts数据增强任务 - AI开发平台ModelArts

图像相关参数：生成图像的宽，大小需要是2的次方 batch_size 1 训练相关参数：批量训练样本个数。 max_epoch 100 训练相关参数：训练遍历数据集次数。 g_learning_rate 0.0001 训练相关参数：生成器训练学习率。 d_learning_rate 0.0001 训练相关参数：判别器训练学习率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
模型配置文件编写说明 - AI开发平台ModelArts

健康检查周期。填写大于0且小于等于2147483647的整数，单位为秒。 failure_threshold 是 String 健康检查最大失败次数。填写大于0且小于等于2147483647的整数。 apis参数代码示例 [{ "url": "/", "method":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考

总条数： 129

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

创建ModelArts数据增强任务 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线