检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未
练。 训练完成后,您可以在预测分析节点中单击查看训练详情,如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。 该示例为二分类的离散型数值,评估效果参数说明请参见表1。 不同类型标签列数据产生的评估结果说明请参见评估结果说明。 图1 模型评估报告 同一个自动学习项目可以
使用GPU A系列裸金属服务器有哪些注意事项? 使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。
0105,报错日志:“TypeError:‘float’object is not subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。 父主题: 服务预测
网访问? 在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。 父主题: API/SDK
降(因为系统需要重新从磁盘加载数据到内存中)。关闭表示不启用缓存清理功能。 大页内存:开启表示配置使用透明大页功能。大页内存是一种内存管理机制,可以通过增大内存页的大小来提高系统性能。透明大页是动态分配大页内存的机制,可以简化大页内存的管理。开启大页内存也是一种应用调优手段,在大
timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。 处理方法 如果在运行训练作业时提示连接超时,请您将需要联网下载的数据提前下载至本地,并上传至OBS中。 父主题: 外网访问限制
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 配置Cluster资源,确保可以通过公网访问Cluster机器,具体配置请参见配置Lite Cluster网络。
配置ModelArts委托权限 给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。 在弹出的“添加授权”窗口中,选择:
列表。 准备数据集 进入AI Gallery,搜索8类常见生活垃圾图片数据集。 单击“下载”,选择云服务区域“华北-北京四”,单击“确定”进入下载详情页。 填写如下参数: 下载方式:ModelArts数据集。 目标区域:华北-北京四。 数据类型:图片。 数据集输出位置:用来存放输
训练业务迁移到昇腾设备场景介绍 场景介绍 本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导,包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外,ModelArts提
度,工作负载无法调度到节点上。 高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”与“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔
精度问题处理 设置高精度并重新转换模型 在转换模型时,默认采用的精度模式是fp16,如果转换得到的模型和标杆数据的精度差异比较大,可以使用fp32精度模式提升模型的精度(精度模式并不总是需要使用fp32,因为相对于fp16,fp32的性能较差。因此,通常只在检测到某个模型精度存在
A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA
API由W3C标准化。 WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件 在线服务部署时需选择“升级为WebSocket”。
ts CommonOperations”已生效。 在“服务列表”中选择ModelArts,进入ModelArts主界面,单击“数据管理>数据集>创建数据 > 集”,如果可以成功访问对应的OBS路径,表示全局级服务的“OBS Administrator”已生效。 创建ModelArts自定义策略
ts CommonOperations”已生效。 在“服务列表”中选择ModelArts,进入ModelArts主界面,单击“数据管理>数据集>创建数据 > 集”,如果可以成功访问对应的OBS路径,表示全局级服务的“OBS Administrator”已生效。 创建ModelArts自定义策略
用户有一些自定义的指标数据需要保存到AOM,ModelArts提供了命令方式将用户的自定义指标上报保存到AOM。 约束与限制 ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。 自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。
file no such file or directory 原因分析 编译生成so文件的cuda版本与训练作业的cuda版本不一致。 处理方法 编译环境的cuda版本与训练环境不一致,训练作业运行就会报错。例如:使用cuda版本为10的开发环境tf-1.13中编译生成的so包,在cuda版本为9
部署上线失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新部署在线服务。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的服务都