检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示“Please set the train_url to an empty obs directory” 问题现象 日志提示“Please set the train_url to an empty obs directory”。 原因分析 对于不支持断点训练的模型,若选
日志提示Compile graph failed 问题现象 日志提示:Compile graph failed。 图1 报错提示 原因分析 模型转换时未指定Ascend后端。 处理方法 需要在模型转换阶段指定“--device=Ascend”。 父主题: 常见问题
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
离线训练安装包准备说明 在华为公有云平台,申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装pyt
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。
检测等能力。 安全防护套件覆盖和使用堡垒机,增强入侵检测和防御能力 ModelArts服务部署主机层、应用层、网络层和数据层的安全防护套件。及时检测主机层、应用层、网络层和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用,采用了统一推荐的Web安全组件防
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象 代码在Notebook的keras镜像中可以正常运行,在训练模块使用tensorflow.keras训练报错时,出现如下报错:AttributeError:
a-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed
日志提示“Unexpected keyword argument passed to optimizer” 问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed
Notebook中使用Conda安装Keras 2.3.1报错 问题现象 使用Conda安装Keras 2.3.1版本报错。 原因分析 可能是Conda网络不通,请使用pip install命令安装。 解决方法 执行 !pip install keras==2.3.1命令安装Keras。 父主题:
区域和可用区用于描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region
视频数据集无法显示和播放视频 若无法显示和播放视频,请检查视频格式类型,目前只支持MP4格式。 父主题: Standard数据管理
卡使用起来,需要配置RoCE网络。 该参数与所选规格有关,若未选中规格或规格不支持RoCE网络,则不显示。 若规格支持RoCE网络但未创建过,单击“新建RoCE网络”即可完成创建。 若规格支持RoCE网络且已创建过RoCE网络,直接选择已有RoCE网络即可(不支持重复创建)。 安全组
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
导入模型提示单个模型文件超过5G限制 问题现象 在导入模型时,提示单个模型文件大小超过5G限制。 原因分析 在不使用动态加载的情况下,系统对单个模型文件的限制大小为5G,超过时无法进行导入。 处理方法 精简模型文件后,重新导入。 使用动态加载功能进行导入。 图1 使用动态加载 父主题:
使用pip install提示Read timed out 问题现象 在Notebook实例中,使用pip install时,提示“ReadTimeoutError...”或者“Read timed out...”的错误。 解决办法 建议先尝试使用pip install --upgrade
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 以下案例以缺失OBS权限不足为例,介绍如何进行授权操作。 由于ModelArts的使用权限依赖OBS服务的授权,您需要为用户授予OBS的系统权限。
运行训练作业时提示URL连接超时 问题现象 训练作业在运行时提示URL连接超时,具体报错如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。
日志提示“root: XXX valid number is 0” 问题现象 日志提示“root: XXX valid number is 0”,表示训练集/验证集/测试集的有效样本量为0,例如: INFO: root: Train valid number is 0. INFO:
日志提示“UnboundLocalError: local variable 'epoch'” 问题现象 使用YOLOv5算法增量训练时出现如下报错:UnboundLocalError: local variable 'epoch' referenced before assignment。