搜索_华为云

ModelArts中常用概念 - AI开发平台ModelArts

Cluster使用的都是专属资源池。 MoXing MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing Fra

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查询训练作业列表 - AI开发平台ModelArts

表38 flavor_info 参数参数类型描述 max_num Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。 npu npu object Ascend规格信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询训练作业详情 - AI开发平台ModelArts

表36 flavor_info 参数参数类型描述 max_num Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。 npu npu object Ascend规格信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）前提条件已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经在obsutil安装和配置，请参见obsutils安装和配置。准备数据单击下载动物数据集至本地，并解压。通过obsutil将数据集上传至OBS桶中。 ./obsutil

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
终止训练作业 - AI开发平台ModelArts

表36 flavor_info 参数参数类型描述 max_num Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。 npu npu object Ascend规格信息。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询服务列表 - AI开发平台ModelArts

查询服务列表功能介绍查询模型服务列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

ner_memory_working_set_bytes当前内存工作集（working set）使用量。工作区内存使用量=活跃的匿名页和缓存，以及file-baked页<=container_memory_usage_bytes。兆字节（Megabytes） ≥0 NA NA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

“spec”字段下的“flavor_id”表示训练作业所依赖的规格，使用2记录的flavor_id。“node_count”表示训练是否需要多机训练（分布式训练），此处为单机情况使用默认值“1”。“log_export_path”用于指定用户需要上传日志的obs目录。返回状态码“201 Cr

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

ToolKit的版本不正确，请按照文档要求下载新版本的PyCharm ToolKit。下载前请先清除浏览器缓存，如果之前下载过老版本的PyCharm ToolKit，浏览器会有缓存，可能会导致新版本下载失败。在KeyPair中选择该Notebook实例对应的密钥，选择完成后，单击A

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

kerfile可追溯及构建归档的需求，也保证镜像内容无冗余和残留。每层构建的时候都尽量把tar包等中间态文件删除，保证最终镜像更小，清理缓存的方法可参考：conda clean。构建参考样例 Dockerfile样例： FROM nvidia/cuda:11.3.1-cudnn8-devel-ubuntu18

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

--optimize=ascend_oriented --saveType=MINDIR' mkdir -p $mindir_dir # rm缓存,慎改。 atc_data_dir=/root/atc_data/ # 通用转换方法。 common_converter_model() {

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
yaml配置文件参数配置说明 - AI开发平台ModelArts

过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存。这通常在数据集发生变化，或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
安装Gallery CLI配置工具 - AI开发平台ModelArts

显示如下信息表示登录成功。“/test”是自定义的服务器的缓存目录，token是系统自动生成的文件夹。 /test/token 登出Gallery CLI配置工具上传或下载AI Gallery仓库的资产完成后，登出Gallery CLI清理缓存。在服务器执行如下命令登出Gallery CLI配置工具。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
如何关闭Mox的warmup - AI开发平台ModelArts

定的问题，这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。原因分析 Tensorflow分布式有多种执行模式，mox会通过4次执行50 step记录执行时间，选择执行时间最少的模型。处理方法创建训练作业时，在“运行参数”中增加参

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
使用基础镜像 - AI开发平台ModelArts

sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
新建Workflow工作流 - AI开发平台ModelArts

新建Workflow工作流功能介绍创建Workflow工作流。可参考如何开发Workflow，创建工作流。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用基础镜像 - AI开发平台ModelArts

sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别本文为用户提供如何将本地的自定义算法通过简单的代码适配，实现在ModelArts上进行模型训练与部署的全流程指导。场景描述本案例用于指导用户使用PyTorch1.8实现手写数字图像识别，示例采用的数据集为MNIST官方数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
查询支持的服务部署规格 - AI开发平台ModelArts

查询支持的服务部署规格功能介绍查询支持的服务部署规格列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/specifications

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像

总条数： 356

上一页
1
...
6
7
8
...
18
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts中常用概念 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

安装Gallery CLI配置工具 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线