搜索_华为云

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。方式二：使用自定义镜像功能，通过torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

“确定”进入下载详情页面。根据数据集下载至OBS还是ModelArts数据集列表，填写不同配置信息： ModelArts数据管理模块在重构升级中，对未使用过数据管理的用户不可见。建议新用户选择将数据集下载至OBS使用。将数据集下载至OBS “下载方式”选择“对象存储服务（OBS）”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.909版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件分类名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

nsformer模型结构提供的预训练语言库。Transformers库注重易用性，屏蔽了大量AI模型开发使用过程中的技术细节，并制定了统一合理的规范。使用者可以便捷地使用、下载模型。同时支持用户上传自己的预训练模型到在线模型资产仓库中，并发布上架给其他用户使用。AI Galler

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
构建条件节点控制分支执行 - AI开发平台ModelArts

placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ) # 训练资源规格信息 ) # 定义条件对象 condition_lt = wf.steps.Condition( condition_type=wf

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
自定义镜像规范 - AI开发平台ModelArts

false, "default": 24, "help": "每多少步记录一次步骤" }, { "name":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

服务名称：填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮，系统将为您自动填入虚拟私有云、子网和节点IP。创建内网域名：保持默认值。确认规格无误后，单击“立即购买”后提交任务，界面自动跳转至终端节点列表页面。创建DNS内网域名新创建的在线服务对接的是专享版APIG，需要使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

引擎包选择步骤3构建的镜像。图3 创建AI应用将创建的AI应用部署为在线服务，大模型加载启动的时间一般大于普通的模型创建的服务，请配置合理的“部署超时时间”，避免尚未启动完成被认为超时而导致部署失败。图4 部署为在线服务调用在线服务进行大模型推理，请求路径填写/v2/mo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
推理场景介绍 - AI开发平台ModelArts

请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.3.2。支持FP16和BF16数据类型推理。资源规格要求本文档中的模型运行环境是ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
使用前必读 - AI开发平台ModelArts

访问特定子项目中资源，使得资源的权限控制更加精确。同样在我的凭证下，您可以查看项目ID。图1 项目隔离模型企业项目企业项目是项目的升级版，针对企业不同项目间资源的分组和管理，是逻辑隔离。企业项目中可以包含多个区域的资源，且项目中的资源可以迁入迁出。关于企业项目ID的获取

 帮助中心 > AI开发平台ModelArts > API参考
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

38888” 资源池：选择公共资源池类型：选择GPU规格计算节点个数：选择“1”或“2” 永久保存日志：打开作业日志路径：设置为OBS中存放训练日志的路径。例如：“obs://test-modelarts/mpi/log/” 在“规格确认”页面，确认训练作业的参数信息，确认无误后单击“提交”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
设置训练故障优雅退出 - AI开发平台ModelArts

任务失败。优雅退出是指中断的训练任务支持自动恢复，并可以在上一次训练中断的基础上继续训练，而不用从头开始。约束限制表1 约束限制资源规格 Ascend 训练框架 MindSpore 特性原理优雅退出处理流程如下：用户在ModelArts控制台创建训练任务。训练引擎创建训练容器，启动训练脚本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

标数据。开通前需要确认使用的端口号，端口号可选取10120~10139范围内的任一端口号，请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群，详细操作请参考通过kubectl连接集群。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.910版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。获取软件和镜像表1 获取软件和镜像分类

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
推理场景介绍 - AI开发平台ModelArts

本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.909版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。本文档中的CCE集群版本选择v1.27~1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
查看训练作业日志 - AI开发平台ModelArts

txt” device id为本次训练作业的NPU卡编号，取值单卡为0，8卡为0~7。例如：Ascend规格为 8*Snt9时，device id取值为0~7；Ascend规格为 1*Snt9时，device id取值为0。 rank id为本次训练作业的全局NPU卡编号，取值为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
获取智能任务的信息 - AI开发平台ModelArts

export_params ExportParams object 导出数据集任务的参数。 flavor Flavor object 训练资源规格。 image_brightness Boolean 是否通过图片亮度来聚类。 image_colorfulness Boolean 是否通过图片色彩来聚类。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

Turbo的VPC网段的安全组是否被限制了。在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业，当训练作业处于“运行中”时，通过Cloud Shell功能登录训练作业worker-0实例，使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开，SFS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.908版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。获取软件和镜像表1 获取软件和镜像分类

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
SDXL基于DevServer适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

过程。本文档主要介绍如何利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，完成SDXL的LoRA微调训练。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。表1 环境要求名称版本 CANN cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理

总条数： 784

上一页
1
...
33
34
35
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

获取智能任务的信息 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练微调指导（6.3.908） - AI开发平台ModelArts

SDXL基于DevServer适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线