检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。
解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。
使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: Standard模型训练
- - 存储资源 对象存储OBS 用于存储训练和推理的输入数据和输出结果数据。 具体费用可参见对象存储价格详情。 注意: 存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除,则会按照OBS的计费规则进行持续计费。
可用区 一个可用区(AZ)是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。
单机单卡 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 监控资源 父主题: 调试与训练
网络环境原因,是否有连接网络代理。 解决方法 关掉插件然后重新保存。 减少文件大小。 重新打开jupyter页面。 请检查网络。 父主题: 环境配置故障
因此有两种方法来解决该问题: 减少容器中新安装文件的大小 删除用户在Notebook新安装的内容,比如用户在Notebook中下载了很多文件,可以将这些文件删除。
图2 volcano资源争抢 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
创建APP 功能介绍 创建API网关应用(简称APP),每个用户最多只能创建5个APP,有需求可以申请增加配额。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
Notebook保存后的镜像有Entrypoint参数,如图1。
“/cache”与代码目录共用资源,不同资源规格有不同的容量。 映射规则:当前不支持CPU配置cache盘;GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。
图2 volcano资源争抢 解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
OceanStor Pacific存储(SFS容量型2.0) 目前只支持在天工资源池中使用。 适合直接使用SFS容量型2.0提供的文件系统作为训练作业所需的存储进行AI模型的训练和探索。同时提供OBS接口,支持从云外导入训练数据。
阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布数据时,数据集文件所在的OBS文件夹不能增加或删除文件,否则会引起发布前后文件数量或大小不一致,从而导致发布失败。
身份认证与访问控制 身份认证 用户访问ModelArts的方式有多种,包括ModelArts控制台、API、SDK,无论访问方式封装成何种形式,其本质都是通过ModelArts提供的REST风格的API接口进行请求。
解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
使用Msprobe工具分析偏差 观察上一章Loss趋势,在首个Step有较小偏差,所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。