搜索_华为云

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

调用接口需要进行APP鉴权，在创建APP应用时自动生成“AppKey/AppSecret”，您可以在“在线服务授权管理”对话框中单击APP应用操作列的查看完整的AppSecret。单击应用名称前方的展开下拉列表，通过单击“添加AppCode”自动生成“AppCode”，您可以单击操作列的查看完整的AppCode。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch.distributed.launch命令启动训练作业。创建训练作业的关键参数如表2所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建ModelArts数据选择任务 - AI开发平台ModelArts

建数据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
管理训练容器环境变量 - AI开发平台ModelArts

强化学习引擎为learner，worker TensorFlow为ps，worker “MA_TASK_NAME=worker” MA_NUM_HOSTS 实例数。系统自动从资源参数的“实例数”中读取。 “MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引，容器从0开始编号。单机训练的时

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

test.com or code.test.com:443 API同时支持使用AK/SK认证，AK/SK认证是使用SDK对请求进行签名，签名过程会自动往请求中添加Authorization（签名认证信息）和X-Sdk-Date（请求发送的时间）请求头。AK/SK认证的详细说明请参见API签名指南。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
发布免费算法 - AI开发平台ModelArts

修改封面图和二级标题在发布的资产详情页面，单击右侧的“编辑”，选择上传新的封面图，为资产编辑独特的主副标题。编辑完成之后单击“保存”。封面图和二级标题内容自动同步，您可以直接在资产详情页查看修改结果。图1 修改封面图和二级标题编辑标签单击标签右侧的出现标签编辑框，在下拉框中勾选该资产对应的标签。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
构建条件节点控制分支执行 - AI开发平台ModelArts

# 训练使用的算法对象，示例中使用AIGallery订阅的算法；部分算法超参的值如果无需修改，则在parameters字段中可以不填写，系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url", data=obs_data),

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
创建ModelArts数据校验任务 - AI开发平台ModelArts

建数据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
发布免费模型 - AI开发平台ModelArts

修改封面图和二级标题在发布的资产详情页面，单击右侧的“编辑”，选择上传新的封面图，为资产编辑独特的主副标题。编辑完成之后单击“保存”。封面图和二级标题内容自动同步，您可以直接在资产详情页查看修改结果。图1 修改封面图和二级标题编辑标签单击标签右侧的出现标签编辑框，在下拉框中勾选该资产对应的标签。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

thon环境来执行训练任务，如果未指定，会默认使用当前的kernel。 log_url：可选参数，一个OBS地址，本地训练过程中，SDK会自动将训练的日志上传到该位置；但是如果训练任务运行在Ascend上，则是必选参数。 job_description：可选参数，训练任务的描述。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
模型训练存储加速 - AI开发平台ModelArts

Standard中创建训练作业时，设置训练“SFS Turbo”，在“文件系统”中选择SFS Turbo实例名称，并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前，自动将存储位置中的文件目录挂载到训练容器中指定路径。图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Tur

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

通过运行install.sh脚本，还会git clone下载Megatron-LM、MindSpeed、ModelLink源码（install.sh中会自动下载配套版本，如果手动下载源码还需修改版本）至llm_train/AscendFactory/third-party文件夹中。下载的源码文件结构如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。 --distributed-executor-backend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ra

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

修改封面图和二级标题在发布的资产详情页面，单击右侧的“编辑”，选择上传新的封面图，为资产编辑独特的主副标题。编辑完成之后单击“保存”。封面图和二级标题内容自动同步，您可以直接在资产详情页查看修改结果。图3 修改封面图和二级标题编辑许可证类型在发布的资产详情页面，单击右侧的“编辑”。在许可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
Lite Cluster资源配置流程 - AI开发平台ModelArts

查看卡占用情况，如图所示，此时0号卡被占用，说明进程正常启动。 npu-smi info //查看卡信息图15 查看卡信息训练任务大概会运行两小时左右，训练完成后自动停止。若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。 pkill -9 python ps -ef 图16

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
发布Workflow到ModelArts - AI开发平台ModelArts

20:0.0001代表0-10个epoch学习率0.001，10-20epoch学习率0.0001),如果不指定epoch, 会根据验证精度情况自动调整学习率，并当精度没有明显提升时，训练停止")), wf.AlgorithmParameters(name="batch_size"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
增量模型训练 - AI开发平台ModelArts

指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
查看诊断报告 - AI开发平台ModelArts

syncBatchNorm 下发维度，NPU上分布式训练使用syncBN性能较差。 schedule - affinity api 下发维度，自动识别可替换的亲和API（融合算子API如rms_norm，亲和优化器如NpuFusedAdamw）。 communication - small

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

restartPolicy: OnFailure 执行如下命令，根据“config.yaml”创建并启动pod。容器启动后会自动执行训练作业。 kubectl apply -f config.yaml 执行如下命令，检查pod启动情况。如果显示“1/1 running”状态代表启动成功。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

“inference”。 “数据特征指标”：在右侧下拉框中勾选需要展示的指标。详细指标说明请参见支持分析指标及其说明。选择完成后，页面将自动呈现您选择对应版本及其指标数据，您可以根据呈现的图表了解数据分布情况，帮助您更好的处理您的数据。查看分析任务的历史记录。在数据特征分析

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理

总条数： 1111

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

发布免费算法 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

发布Workflow到ModelArts - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线