检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像
方法1:如果您希望使用公共资源池下的Ascend Snt3,可以等待其他用户释放,即其他使用Ascend Snt3芯片的服务停止,您即可选择此资源进行部署上线。 方法2:如果专属资源池还有Ascend Snt3资源,您可以创建一个Ascend Snt3专属资源池使用。 方法3:如果专属资源池的Ascend
print('start') kv_store = mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。 处理方法 将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。
Tensorflow和Caffe框架的模型格式转换为MindSpore的模型格式,即模型后缀为.om,使之能在昇腾硬件中进行推理。由于产品演进规划,后续昇腾硬件推理时主要使用后缀为.mindir的模型格式,因此ModelArts下线.om格式的模型转换能力,在ModelArts中逐步增加
BS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。 将此压缩后的文件上传至OBS。 训练时,可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次,无需训练过程反复与OBS交互导致训练效率低。
如果是“包年/包月”且资源未到期的节点,您可单击操作列的“退订”,即可实现对单个节点的资源释放。支持批量退订节点。 如果是“包年/包月”且资源到期的节点(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。不支持批量释放处于宽限期的节点。 退订/释放操作无法恢复,请谨慎操作。
创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像
如何查看训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。 MEM:物理内存
获取用户名和用户ID 在调用接口的时候,部分请求中需要填入用户名(user name)和用户ID(user_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID
resource_id String 可视化作业的计费资源ID。 job_id Long 可视化作业的ID。 job_desc String 可视化作业的具体描述。 duration Long 可视化作业的运行时长,单位为毫秒。 create_time Long 可视化作业的创建时间,时间戳格式。 train_url
job_desc 是 String 对可视化作业的描述,字符串的长度限制为[0,256]。 响应消息 响应参数如表3所示。 表3 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码,具体请参见错误码。
开发者的新特性需求。基于服务演进,ModelArts团队已于2021年上线新版训练,力求解决存在的历史问题,并为新特性提供高性能、高易用、可扩展、可演进的底座,给用户提供更好的AI训练体验,打造易用、高效的AI平台。 下线旧版训练管理对现有用户的使用是否有影响? 正在使用的训练作
像构建及调试与单机单卡相同。 上传镜像,参考单机单卡训练的上传镜像章节操作。 操作步骤 登录Imagenet数据集下载官网地址,下载Imagenet21k数据集:http://image-net.org/ 下载格式转换后的annotation文件:ILSVRC2021winner21k_whole_map_train
每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。 查看节点池的存储配置 在节点池管理的更新页面,可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。 在Lite资源池的扩缩容页面,也可以查看节点池的存储配置信息。 查找搜索节点池 在节点
用户制作的自定义镜像,在本地执行docker run启动,无法正常运行; 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务; 用户自己业务占用了开发环境官方的8888、
登录“应用运维管理”控制台,在“配置管理 > Agent管理”中,选择未安装ICAgent的集群,并单击“安装ICAgent”。 图1 安装ICAgent 建议不要随意卸载ICAgent,否则会影响特权池详情页的参数显示。 父主题: Lite Cluster
指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引,默认为1。 sortBy 否 String 指定查询的排序方式,默认是作业参数名称“config_name”,目前支持的排序还有作业参数描述
、弹性文件服务SFS中的计费。 表1 计费项 计费项 计费项说明 适用的计费模式 计费公式 计算资源 公共资源池 使用计算资源的用量。 具体费用可参见ModelArts价格详情。 按需计费 规格单价 * 计算节点个数 * 使用时长 专属资源池 专属资源池的费用已在购买时支付,运行Notebook实例时不再收费。
查看训练作业标签 通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。 支持添加、修改
运行中服务出现告警时,需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存,请升级在线服务选择更大内存规格的计算节点。 父主题: 服务部署