检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic? 场景描述 Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic。 操作指导 检查当前内核版本。 uname -r 升级内核 apt-get install linux-headers-5
创建单机多卡的分布式训练(DataParallel) 本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上
快速配置ModelArts委托授权 场景描述 为了完成AI计算的各种操作,AI平台ModelArts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角
ModelArts计费模式概述 ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
ModelArts与DLS服务的区别? 深度学习服务(DLS)是基于华为云强大高性能计算提供的一站式深度学习平台服务,内置大量优化的网络模型,以便捷、高效的方式帮助用户轻松使用深度学习技术,通过灵活调度按需服务化方式提供模型训练与评估。 但是,DLS服务仅提供深度学习技术,而Mo
如何删除预置镜像中不需要的工具 预置的基础镜像中存在cpp、gcc等调试/编译工具,如果您不需要使用这些工具,可以通过运行脚本删除。 创建一个run.sh脚本文件,文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS
do_validation:数据扩增前是否进行数据校验。默认值为True。 Flip 翻转,沿图片水平轴或竖直轴做翻转,是非常常见的增强方法。 lr_ud:选择翻转的方向,lr为水平翻转,ud为竖直翻转。默认值为lr flip_p:做翻转操作的概率。默认值为1。 do_validation:数
Standard数据管理 ModelArts Standard数据管理提供了一套高效便捷的管理和标注数据框架。支持图片、文本、语音、视频等多种数据类型,涵盖图像分类、目标检测、音频分割、文本分类等多个标注场景,适用于计算机视觉、自然语言处理、音视频分析等AI项目场景。 ModelArts
如何购买或开通ModelArts? ModelArts是一个即开即用的平台,无需购买或开通,直接进入ModelArts管理控制台,完成权限管理配置,然后选择所需功能,直接使用即可。 ModelArts平台仅针对使用计算规格的功能才涉及计费,公共资源池全部为按需模式,根据选用规格以
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台总览页,支持查看生产概况、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总览页
AI CPU算子替换样例 部分算子因为数据输入类型问题或者算子实现问题,导致会在昇腾芯片的AI CPU上执行,没有充分利用AI CORE的资源,从而导致计算性能较差,影响训练速度。部分场景下,可以通过修改Python代码来减少这类AI CPU算子,从而提升训练性能。 当前对AICPU算子识别到的调优方式主要包含两种:
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
模型管理计费项 计费说明 在ModelArts创建模型不收费,但在通过OBS导入模型时,需要先将模型包文件存放到OBS中,OBS会产生费用。存储资源包括数据存储到OBS的计费。具体内容如表1所示。 表1 存储计费项 计费项 计费项说明 适用的计费模式 计费公式 存储资源 对象存储OBS
计费样例 计费场景一 某用户于2023/03/18 15:30:00使用一个按需计费的公共资源池进行训练,规格配置如下: 规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,于2023/03/20 10:30:00停