搜索_华为云

功能咨询 - AI开发平台ModelArts
功能咨询 - AI开发平台ModelArts

egorical features）吗模型可视化作业中各参数的意义？如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？如何查询自定义镜像的cuda和cudnn版本？ Moxing安装文件如何获取？如何使用soft NMS方法降低目标框堆叠度多节

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig object 算法高级策略： auto_search 表3 AlgorithmMetadata 参数是否必选参数类型描述 id 否 Integer 算法uuid，创建算法时无需填写。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig object 算法高级策略： auto_search 表3 AlgorithmMetadata 参数是否必选参数类型描述 id 否 Integer 算法uuid，创建算法时无需填写。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

翻译和对话系统等。 DeepSpeed是开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在线服务ID。 model_id 模型负载ID。设置告警规则通过设置ModelArts在线服务和模型负载告警规则，用户可自定义监控目标与通知策略，及时了解ModelArts在线服务和模型负载状况，从而起到预警作用。设置ModelArts服务和模型的告警规则包括设置告警规则名称、监

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
管理员和开发者权限分离 - AI开发平台ModelArts

} 重复2.b创建自定义策略2，赋予用户依赖服务ECS、SWR、MRS和SMN的操作权限，ModelArts的操作权限。“策略名称”为“Policy2_AllowOperation”，策略配置方式选择JSON视图，输入策略内容，单击“确定”。自定义策略“Policy2_Allo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件裸金属服务器需要安装driver、cuda、fabric-manager软件包。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
调整模型后，部署新版本AI应用能否保持原API接口不变？ - AI开发平台ModelArts

调整模型后，部署新版本AI应用能否保持原API接口不变？ ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。前提条件已存在部署完成的服务。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子账号使用ModelArts服务的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
使用基础镜像 - AI开发平台ModelArts

45.0 修改为：transformers==4.44.2 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

45.0 修改为：transformers==4.44.2 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

] } 策略JSON格式字段介绍策略结构策略结构包括Version（策略版本号）和Statement（策略权限语句）两部分，其中Statement可以有多个，表示不同的授权项。图1 策略结构策略参数下面介绍策略参数详细说明。了解策略参数后，您可以根据场景自定义策略。具体可以参考文档自定义策略使用样例。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

费项包括存储空间和流量费用，目前均免费提供给您。企业版支持按需计费模式。购买的SWR可以用于上传自定义镜像。使用容器引擎客户端上传镜像对象存储服务OBS 对象存储服务提供按需计费和包年包月两种计费模式，用户可以根据实际需求购买OBS服务。 OBS服务支持以下两种存储方式，单

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练作业进程异常退出 - AI开发平台ModelArts

请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 +

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图1 训练作业启动命令父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
训练日志失败分析 - AI开发平台ModelArts

训练故障识别 ModelArts Standard会对部分常见训练错误给出分析建议，目前还不能识别所有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

务”的自定义策略，然后将两条策略同时授予用户。创建ModelArts相关OBS的最小化权限的自定义策略。登录IAM控制台，在“权限管理>权限”页面，单击“创建自定义策略”。参数配置说明如下： “策略名称”支持自定义。 “策略配置方式”为“JSON视图”。 “策略内容”请参见M

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权

总条数： 687

上一页
1
...
4
5
6
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

功能咨询 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

调整模型后，部署新版本AI应用能否保持原API接口不变？ - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

创建IAM用户并授权使用ModelArts - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线