搜索_华为云

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

将训练脚本打包成zip文件，上传到3中指定的obs_path中。如果训练数据保存在Notebook中，则将其打包成zip文件并上传到指定的obs_path中。创建一个附属Notebook，与当前使用的Notebook组成分布式训练的两个worker。初始化训练作业，将数据下载到local_path中。执行训

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
开发环境权限 - AI开发平台ModelArts

modelarts:notebook:create ecs:serverKeypairs:create swr:repository:getNamespace swr:repository:listNamespace swr:repository:deleteTag swr:repository:getRepository

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

使用其中的“networks/merge_lora.py”把lora模型合入unet和text-encoder模型。数据类型不匹配问题如何处理？报错“data type not equal”时，按照堆栈信息，将对应的行数的数据类型修改为匹配的类型。图1 报错信息处理该问题时，pipeline_onnx_s

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
ModelArts环境挂载目录说明 - AI开发平台ModelArts

详情如下： Notebook 表1 Notebook挂载点介绍挂载点是否只读备注 /home/ma-user/work/ 否客户数据的持久化目录。 /data 否客户PFS的挂载目录。 /cache 否裸机规格时支持，用于挂载宿主机NVMe的硬盘。 /train-worker1-log

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
使用基础镜像 - AI开发平台ModelArts

/scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
构建条件节点控制分支执行 - AI开发平台ModelArts

您可以使用ConditionStep来构建条件节点，ConditionStep结构如下：表1 ConditionStep 属性描述是否必填数据类型 name 条件节点的名称，命名规范(只能包含英文字母、数字、下划线（_）、中划线（-），并且只能以英文字母开头，长度限制为64字符)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

at List build-in dockerfile templates. build Build docker image in Notebook. debug Debug SWR image as a Notebook

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

NCCL_IB_GID_INDEX 系统设置的默认值为3，表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128，表示数据包走交换机的队列4，队列4使用PFC流控机制来保证网络是无损的。如果训练时，需要提升通信稳定性，可以增加配置其他NCCL环境变量，如表2所示。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
使用基础镜像 - AI开发平台ModelArts

/scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

Notebook自定义镜像制作流程图1 Notebook自定义镜像制作流程图（适用于场景一和场景二）场景一：基于Notebook预置镜像或第三方镜像，在服务器上配置docker环境，编写Dockerfile后构建镜像并注册，具体案例参考在ECS上构建自定义镜像并在Notebook中使用场景二：基于Noteb

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

”，为该主用户下面的所有子账号配置委托访问授权。普通用户：普通用户的委托权限包括了用户使用ModelArts完成AI开发的所有必要功能权限，如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。自定义：如果对用户有更精细化的权限管理需求，可使用自定义模式灵活按需配置Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
在推理生产环境中部署推理服务 - AI开发平台ModelArts

LLM的入参名称，默认为0.9。 --trust-remote-code：是否相信远程代码。 --dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。其他参数可以根据实际情况进行配置，也可使用openai接口启动服务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
推理场景介绍 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
部署图像分类服务 - AI开发平台ModelArts

分流：默认为100，输入值必须是0-100之间。计算节点规格：请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池，或者联系系统管理员创建公共资源池。计算节点个数：默认为1，输入值必须是1-5之间的整数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
部署声音分类服务 - AI开发平台ModelArts

分流：默认为100，输入值必须是0-100之间。计算节点规格：请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池，或者联系系统管理员创建公共资源池。计算节点个数：默认为1，输入值必须是1-5之间的整数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
查询镜像详情 - AI开发平台ModelArts

D参考查询支持的镜像列表获取。 name String 镜像名称，长度限制512个字符，支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织，可以在SWR控制台“组织管理”创建和查看。 origin String 指定镜像来源，可选项，默认自定

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用基础镜像 - AI开发平台ModelArts

sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

超分情况下会存在实例终止的风险。如1个8U的节点上同时启动了6个2U的实例，如果其中一个实例CPU使用增大到超过节点的上限（8U）时，k8S会将使用资源最多的实例终止掉。因此超分会带来实例重启的风险，请不要超分使用。父主题：更多功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
获取用户绑定APP的api列表 - AI开发平台ModelArts

AuthTypeApiBasicInfo objects API认证信息列表。 count Integer 查询数据个数。 total_count Integer 数据总量。表5 AuthTypeApiBasicInfo 参数参数类型描述 api_id String API编号。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理

总条数： 1533

上一页
1
...
67
68
69
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

开发环境权限 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

ModelArts环境挂载目录说明 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

Step3 为用户配置ModelArts的委托访问授权 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

部署声音分类服务 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

获取用户绑定APP的api列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线