检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用自定义镜像创建的训练作业一直处于运行中 问题现象 使用自定义镜像创建训练作业,训练作业的“状态”一直处于“运行中”。 原因分析及处理办法 日志打印如下内容,表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec
机通信造成的精度问题,此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致,如AllReduce、AllGather等,利用这一特性,工具将多机模型训练中产生的通信输出存盘,并传输到同一节点来比较其一致性,从而确定模型中通信算子的精度是否存
参数错误 请检查填写的参数。 400 ModelArts.0107 The values of the request parameters ({0},{1}) are invalid. 请求的参数值 ({0},{1})是无效的. 检查提示的参数值是否是有效的。 400 ModelArts
发布完成后可前往gallery查看相应的资产信息,资产权限默认为private,可在资产的console页面自行修改。 进入AI Gallery。 单击“我的Gallery>我的资产>Workflow”,进入我的Workflow页面。 在“我的发布”页签中查看发布到AI Gallery的工作流。 图1 发布的Workflow
模型训练是一个不断迭代和优化模型权重的过程。ModelArts的训练模块支持创建训练作业、查看训练情况以及管理训练版本。通过模型训练试验模型结构、数据和超参的各种组合,便于找到最佳的模型结构和权重。 创建生产环境的训练作业有2种方式: 通过ModelArts Standard控制台的方式创建生产环境的训练作业,详细操作请参考本章节以下内容。
虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施,并且这些基础设施是弹性的,可以根
工具内部对于随机的控制,是通过设定统一的随机种子进行随机性固定的。但是由于硬件的差异,会导致同样的随机种子在不同硬件上生成的随机数不同。具体示例如下: 由上图可见,torch.randn在GPU和NPU上固定随机种子后,仍然生成不同的随机张量。 对于上述场景,用户需要将网络中的randn
Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。
在在线推理服务列表页面,选择服务“状态”为“运行中”的服务。 单击操作列的“推理测试”,在测试页面根据任务类型以及页面提示完成对应的测试。 调用API 待推理服务的状态变为“运行中”时,可单击操作列的“调用”,复制对应的接口代码,在本地环境或云端的开发环境中进行接口。 图1 调用接口 当部署推理服务的“安全认证”选择
在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原
并给用户组授予策略或角色,才能使用户组中的用户获得相应的权限,这一过程称为授权。授权后,用户就可以基于已有权限对云服务进行操作。 权限根据授权的精细程度,分为角色和策略。角色以服务为粒度,是IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。策略以API接口为粒度进行
几乎是每个开发者都会遇到的问题。ModelArts提供了多种文件上传方式,在文件上传过程中,可以查看上传进度和速度。 将本地文件上传,请参考支持上传本地文件; GitHub的开源仓库的文件上传,请参考支持Clone GitHub开源仓库; 存放在OBS中的文件上传,请参考支持上传OBS文件;
yTorch自动迁移。 在PyTorch模型迁移后进行训练的过程中,CPU只负责算子的下发,而NPU负责算子的执行,算子下发和执行异步发生,性能瓶颈在此过程中体现。在PyTorch的动态图机制下,算子被CPU逐个下发到NPU上执行。一方面,理想情况下CPU侧算子下发会明显比NPU
同时可以基于保存的镜像创建训练作业。 message String 镜像创建的时间,UTC毫秒。 create_time Long 镜像保存操作过程中,展示构建信息。 请求示例 如下以创建uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析 SWR侧看到的大小是镜像
引入moxing framework的数据下载加速特性的相关说明 在使用基于ModelArts预置镜像的训练作业时,可以引入moxing framework的数据下载加速特性。加速特性适用场景为:文件数在100w~1000w的场景、单个大文件及文件大小大于20GB的场景。 登录ModelAr
制用户的详细权限,管理员可以通过IAM为用户组配置细粒度授权策略,使用户获得策略定义的权限,操作对应云服务的资源。基于策略授权时,管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。 委托授权 为了完成AI计算的各种操
ork/ 当存在两个以及以上工程的log时,界面如下。通过Runs下选择查看相对应的log。 图1 MindInsight界面(2) Step4 查看训练看板中的可视化数据 训练看板是MindInsight的可视化组件的重要组成部分,而训练看板的标签包含:标量可视化、参数分布图可
MindStudio-Insight性能可视化工具使用指导 对于高阶的调优用户,可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点,其提供了丰富的调优分析手段,可视化呈现真实软硬件运行数据,多维度分析性能瓶颈点,支持百卡、千卡及以上规模的可视化集群性能分析,助力开发者天级完成性能调优。