搜索_华为云

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中问题现象使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
精度调优总体思路 - AI开发平台ModelArts

机通信造成的精度问题，此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致，如AllReduce、AllGather等，利用这一特性，工具将多机模型训练中产生的通信输出存盘，并传输到同一节点来比较其一致性，从而确定模型中通信算子的精度是否存

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

参数错误请检查填写的参数。 400 ModelArts.0107 The values of the request parameters ({0},{1}) are invalid. 请求的参数值 ({0},{1})是无效的. 检查提示的参数值是否是有效的。 400 ModelArts

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
发布Workflow到AI Gallery - AI开发平台ModelArts

发布完成后可前往gallery查看相应的资产信息，资产权限默认为private，可在资产的console页面自行修改。进入AI Gallery。单击“我的Gallery>我的资产>Workflow”，进入我的Workflow页面。在“我的发布”页签中查看发布到AI Gallery的工作流。图1 发布的Workflow

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
创建生产训练作业 - AI开发平台ModelArts

模型训练是一个不断迭代和优化模型权重的过程。ModelArts的训练模块支持创建训练作业、查看训练情况以及管理训练版本。通过模型训练试验模型结构、数据和超参的各种组合，便于找到最佳的模型结构和权重。创建生产环境的训练作业有2种方式：通过ModelArts Standard控制台的方式创建生产环境的训练作业，详细操作请参考本章节以下内容。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。购买弹性云服务器ECS 如果您需要在服务器上部署相关业务，较之物理服务器，弹性云服务器的创建成本较低，并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施，并且这些基础设施是弹性的，可以根

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
msprobe精度分析工具使用指导 - AI开发平台ModelArts

工具内部对于随机的控制，是通过设定统一的随机种子进行随机性固定的。但是由于硬件的差异，会导致同样的随机种子在不同硬件上生成的随机数不同。具体示例如下：由上图可见，torch.randn在GPU和NPU上固定随机种子后，仍然生成不同的随机张量。对于上述场景，用户需要将网络中的randn

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

Key)：与访问密钥ID结合使用的密钥，对请求进行加密签名，可标识发送方，并防止请求被修改。使用AK/SK认证时，您可以基于签名算法使用AK/SK对请求进行签名，也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。签名SDK只提供签名功能，与服务提供的SDK不同，使用时请注意。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

在在线推理服务列表页面，选择服务“状态”为“运行中”的服务。单击操作列的“推理测试”，在测试页面根据任务类型以及页面提示完成对应的测试。调用API 待推理服务的状态变为“运行中”时，可单击操作列的“调用”，复制对应的接口代码，在本地环境或云端的开发环境中进行接口。图1 调用接口当部署推理服务的“安全认证”选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

在CCE纳管过程中，需要通过cloudinit userdata机制拉取cce-agent，但是在服务器上查看没有拉cce-agent的动作，理论上该动作是cloudinit中的脚本在创建时自动执行的，可能是由于安装脚本没有注入userdata或者注入了但未执行。经查看是由于userdata未执行，可能原

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
策略及授权项说明 - AI开发平台ModelArts

并给用户组授予策略或角色，才能使用户组中的用户获得相应的权限，这一过程称为授权。授权后，用户就可以基于已有权限对云服务进行操作。权限根据授权的精细程度，分为角色和策略。角色以服务为粒度，是IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。策略以API接口为粒度进行

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
Notebook使用场景 - AI开发平台ModelArts

几乎是每个开发者都会遇到的问题。ModelArts提供了多种文件上传方式，在文件上传过程中，可以查看上传进度和速度。将本地文件上传，请参考支持上传本地文件； GitHub的开源仓库的文件上传，请参考支持Clone GitHub开源仓库；存放在OBS中的文件上传，请参考支持上传OBS文件；

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
性能调优总体原则和思路 - AI开发平台ModelArts

yTorch自动迁移。在PyTorch模型迁移后进行训练的过程中，CPU只负责算子的下发，而NPU负责算子的执行，算子下发和执行异步发生，性能瓶颈在此过程中体现。在PyTorch的动态图机制下，算子被CPU逐个下发到NPU上执行。一方面，理想情况下CPU侧算子下发会明显比NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
创建训练作业镜像保存任务 - AI开发平台ModelArts

同时可以基于保存的镜像创建训练作业。 message String 镜像创建的时间，UTC毫秒。 create_time Long 镜像保存操作过程中，展示构建信息。请求示例如下以创建uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？问题现象我的镜像在SWR侧看，只有13G左右，在开发环境Notebook镜像管理注册，启动Notebook实例后，安装一些包后，镜像保存过程会提示超过35G大小，保存失败？原因分析 SWR侧看到的大小是镜像

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
MoXing Framework功能介绍 - AI开发平台ModelArts

引入moxing framework的数据下载加速特性的相关说明在使用基于ModelArts预置镜像的训练作业时，可以引入moxing framework的数据下载加速特性。加速特性适用场景为：文件数在100w~1000w的场景、单个大文件及文件大小大于20GB的场景。登录ModelAr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
身份认证与访问控制 - AI开发平台ModelArts

制用户的详细权限，管理员可以通过IAM为用户组配置细粒度授权策略，使用户获得策略定义的权限，操作对应云服务的资源。基于策略授权时，管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。委托授权为了完成AI计算的各种操

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

ork/ 当存在两个以及以上工程的log时，界面如下。通过Runs下选择查看相对应的log。图1 MindInsight界面（2） Step4 查看训练看板中的可视化数据训练看板是MindInsight的可视化组件的重要组成部分，而训练看板的标签包含：标量可视化、参数分布图可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导对于高阶的调优用户，可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点，其提供了丰富的调优分析手段，可视化呈现真实软硬件运行数据，多维度分析性能瓶颈点，支持百卡、千卡及以上规模的可视化集群性能分析，助力开发者天级完成性能调优。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优

总条数： 2506

上一页
1
...
85
86
87
...
126
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

精度调优总体思路 - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

发布Workflow到AI Gallery - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

Notebook使用场景 - AI开发平台ModelArts

性能调优总体原则和思路 - AI开发平台ModelArts

创建训练作业镜像保存任务 - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线