搜索_华为云

推理业务迁移评估表 - AI开发平台ModelArts

推理业务时延要求，客户端到云服务端到端可接受时延。例如：当前是“客户端 -> 云服务”模式，客户端请求应答可接受的最长时延为2秒。 - 模型参数规模，是否涉及分布式推理 10B/100B，单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息提供实际模型、网络验证的代码和数据。提供与业务类型类似的开源模型，例如GPT3

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
新建Workflow Execution - AI开发平台ModelArts

objects 节点steps使用到的参数。 policies 否 WorkflowDagPolicies object 执行记录使用到的执行策略。表3 StepExecution 参数是否必选参数类型描述 step_name 否 String 节点的名称，在一个DAG中唯一

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
新建Workflow工作流 - AI开发平台ModelArts

描述 name 否 String 工作流存储的名称。填写1-64位，只包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 type 否 String 工作流存储的类型，当前只支持obs。 path 否 String 统一存储的根路径，当前只支持OBS路径。表15

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：线下容器镜像构建及调试上传镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
配额与限制 - AI开发平台ModelArts

Lite涉及的资源配额服务资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量（MB）弹性公网IP EIP资源伸缩带宽策略云硬盘EVS SFS资源磁盘数磁盘容量（GB）快照数弹性文件服务SFS资源容量配额

 帮助中心 > AI开发平台ModelArts > 产品介绍
自动学习/Workflow计费项 - AI开发平台ModelArts

kflow工作流时不再收费。专属资源池的费用请参考专属资源池计费项。 - - 存储资源对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。具体费用可参见对象存储价格详情。注意：存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
增量模型训练 - AI开发平台ModelArts

学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的训练数据，缓解了存储资源有限的问题；另一方面，增量训练节约了重新训练中需要消耗大量算力、时间以及经济成本。增量训练特别适用于以下情况：数据流更

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

企业版当前仅支持按需计费模式，公测期间，可免费使用。上传镜像前需要创建组织，创建步骤请参考创建组织。购买对象存储服务OBS 对象存储服务提供按需计费和包年包月两种计费模式，用户可以根据实际需求购买OBS服务。OBS服务支持以下两种存储方式，单机单卡场景使用文件系统，多机多卡场景使用普通OBS桶。创建普通OBS桶

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
训练迁移快速入门案例 - AI开发平台ModelArts

torch_npu初始化后，原则上需要用户将原来代码中CUDA相关的内容迁移到NPU相关的接口上，包含算子API、显存操作、数据集操作、分布式训练的参数面通信nccl等，手动操作修改点较多且较为分散，因此昇腾提供了自动迁移工具transfer_to_npu帮助用户快速迁移。自动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
获取Workflow工作流列表 - AI开发平台ModelArts

参数类型描述 name String 工作流存储的名称。填写1-64位，只包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 type String 工作流存储的类型，当前只支持obs。 path String 统一存储的根路径，当前只支持OBS路径。表17 WorkflowAsset

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
配置节点参数控制分支执行 - AI开发平台ModelArts

storages=storage ) 案例中job_step_a和job_step_b均配置了跳过策略，并且都使用参数进行控制。当参数值配置不同时，model_step的执行可以分为以下几种情况（model_step没有配置跳过策略，因此会遵循默认规则）： job_step_a_is_skip参数值 job_step_b_is_skip参数值

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
ModelArts训练好后的模型如何获取？ - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？使用自动学习产生的模型只能在ModelArts上部署上线，无法下载至本地使用。使用自定义算法或者订阅算法训练生成的模型，会存储至用户指定的OBS路径中，供用户下载。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
创建AI应用 - AI开发平台ModelArts

创建AI应用功能介绍导入元模型创建AI应用。执行代码、模型需先上传至OBS（训练作业生成的模型已默认存储到OBS）。接口约束使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数，非模

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

sh”文件中默认MA_NUM_GPUS为8卡，因此选择notebook规格时需要与MA_NUM_GPUS默认值相同。存储配置：选择“弹性文件服务SFS”作为存储位置。子目录挂载可不填写，如果需挂载SFS指定目录，则在子目录挂载处填写具体路径。如果需要通过VS Code连接No

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

推理业务时延要求，客户端到云服务端到端可接受时延。例如：当前是“客户端 -> 云服务”模式，客户端请求应答可接受的最长时延为2秒。 - 模型参数规模，是否涉及分布式推理 10B/100B，单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息提供实际模型、网络验证的代码和数据。提供与业务类型类似的开源模型，例如GPT3

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

逗号，保持json格式正确。其中“data_root”代表docker数据存储路径，“default-shm-size”代表容器启动默认分配的共享内容大小，不配置时默认为64M，可以根据需要改大，避免分布式训练时共享内存不足导致训练失败。图10 docker配置保存后，执行如下命令重启docker使配置生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
审核并验收团队标注任务结果 - AI开发平台ModelArts

选择“我参与的”，选择团队标注作业，单击作业名称进入“标注作业详情页”，单击右上角“团队标注>验收”，发起验收。图5 发起验收在弹出的对话框中，设置“抽样策略”，可设置为“按百分比”，也可以设置为“按数量”。设置好参数值后，单击“确定”启动验收。 “按百分比”：按待验收图片总数的一定比例进行抽样验收。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
LoRA微调训练 - AI开发平台ModelArts

由于模型中LoRA微调训练存在已知的精度问题，因此不支持TP(tensor model parallel size)张量模型并行策略，推荐使用PP(pipeline model parallel size)流水线模型并行策略，具体详细参数配置如表2所示。步骤3 启动训练脚本修改超参值后，再启动训练脚本。Llama2-70b建议为4机32卡训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
更新Workflow Execution - AI开发平台ModelArts

objects 节点steps使用到的参数。 policies 否 WorkflowDagPolicies object 执行记录使用到的执行策略。表3 StepExecution 参数是否必选参数类型描述 step_name 否 String 节点的名称，在一个DAG中唯一

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练作业卡死检测 - AI开发平台ModelArts

日志中还未出现NCCL DEBUG信息时已卡死。解决方案1 检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，发现有的节点含有GDR信息，而有的节点无GDR信息，导致卡死的原因可能为GDR。 # 节点A日志 modelarts-job

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 694

上一页
1
...
12
13
14
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理业务迁移评估表 - AI开发平台ModelArts

新建Workflow Execution - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

ModelArts训练好后的模型如何获取？ - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

审核并验收团队标注任务结果 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线