搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-13b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, Gener

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。请根据实际修改。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, Gener

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

"$0")) 表示执行脚本时的路径。 MODEL_NAME llama2-70b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, Gener

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
数据集版本发布失败 - AI开发平台ModelArts

能开启，可单击“归档数据直读”选项进行修改。图2 关闭归档数据直读功能 ModelArts.4711 数据集标注样本数满足算法要求每个类别至少包含5张以上图片。 ModelArts.4342 标注信息不满足切分条件出现此故障时，建议根据如下建议，修改标注数据后重试。多标签

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

${MA_JOB_DIR}/demo-code/mpi-verification.py 环境变量：添加“MY_SSHD_PORT = 38888” 资源池：选择公共资源池类型：选择GPU规格计算节点个数：选择“1”或“2” 永久保存日志：打开作业日志路径：设置为OBS中存放训练日志的路径。例如：“obs:/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

${MA_JOB_DIR}/demo-code/mpi-verification.py 环境变量：添加“MY_SSHD_PORT = 38888” 资源池：选择公共资源池类型：选择GPU规格计算节点个数：选择“1”或“2” 永久保存日志：打开作业日志路径：设置为OBS中存放训练日志的路径。例如：“obs:/

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
AI开发基本流程介绍 - AI开发平台ModelArts

AI开发基本流程介绍什么是AI开发 AI（人工智能）是通过机器来模拟人类认识能力的一种科技能力。AI最核心的能力就是根据给定的输入做出判断或预测。 AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼，从而总结得到研究对象的内在规律。对数据进行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910）本文档主要介绍如何在ModelArts Lite Server上，使用PyTorch_npu+华为自研Ascend Snt9B硬件，完成Open-Sora 1.2 训练和推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

'__main__': main() 结果对比分别以单机单卡和两节点16卡两种资源类型完成100epoch的cifar-10数据集训练，训练时长和测试集准确率如下。表1 训练结果对比资源类型单机单卡两节点16卡耗时 60分钟 20分钟准确率 80+ 80+ 分布式训练完整代码示例

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用CES监控Lite Server资源 - AI开发平台ModelArts

分布式训练时共享内存不足导致训练失败 - 方式一：修改/etc/docker/daemon.json配置文件default-shm-size字段方式二： docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 NPU：RoCE网卡down RoCELinkStatusDown

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

以通过“自定义策略”来进行精细控制。表1列出了ModelArts的所有预置系统策略。表1 ModelArts系统策略策略名称描述类型 ModelArts FullAccess ModelArts管理员用户，拥有所有ModelArts服务的权限系统策略 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts权限管理基本概念 - AI开发平台ModelArts

以通过“自定义策略”来进行精细控制。表1列出了ModelArts的所有预置系统策略。表1 ModelArts系统策略策略名称描述类型 ModelArts FullAccess ModelArts管理员用户，拥有所有ModelArts服务的权限系统策略 ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
安装Gallery CLI配置工具 - AI开发平台ModelArts

login Log in using ak sk from huawei cloud iam | │ logout

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

续费概述续费简介包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用，需要在指定的时间内为资源池续费，否则资源会自动释放，数据丢失且不可恢复。续费操作仅适用于包年/包月专属资源池，按需计费专属资源池不需要续费，只需要保证账户余额充足即可。专属资源池

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
最新动态 - AI开发平台ModelArts
最新动态 - AI开发平台ModelArts

最新动态本文介绍了ModelArts各特性版本的功能发布和对应的文档动态，新特性将在各个区域（Region）陆续发布，欢迎体验。 2023年8月序号功能名称功能描述阶段相关文档 1 Notebook连接大数据服务特性介绍如何将ModelArts Notebook开发

 帮助中心 > AI开发平台ModelArts > 最新动态
Notebook专属预置镜像列表 - AI开发平台ModelArts

置后，保存为自定义镜像，能直接在ModelArts用于训练作业。开发环境预置镜像分为X86和ARM两类：表1 X86预置镜像列表引擎类型镜像名称 PyTorch pytorch1.8-cuda10.2-cudnn7-ubuntu18.04 pytorch1.10-cuda10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

可先尝试直接使用工具命令，如果相关命令不存在则需要参考工具安装指导自行安装。表1 ModelArts昇腾迁移调优工具总览表使用场景类别工具名称工具描述工具安装使用指导 PyTorch GPU训练迁移至PyTorch NPU训练训练迁移 Transfer2NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

"data": [64] }, { "name": "bad_words", "shape": [1, 1], "datatype": "BYTES",

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
使用Msprobe工具分析偏差 - AI开发平台ModelArts

使用Msprobe工具分析偏差观察上一章Loss趋势，在首个Step有较小偏差，所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。首先安装社区Msprobe工具，命令如下： pip install mindstudio-probe 使能工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

管理页面。单击“注册镜像”，镜像源即为推送到SWR中的镜像。请将完整的SWR地址复制到这里即可，或单击可直接从SWR选择自有镜像进行注册，类型加上“GPU”，如图1所示。图1 注册镜像登录ModelArts管理控制台，在左侧导航栏中选择“开发空间 > Notebook”，进入“Notebook”列表页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业

总条数： 1220

上一页
1
...
56
57
58
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

最新动态 - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线