正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ImportError: No module named module_dir ImportError: No module named xxx 原因分析 训练作业导入模块时日志出现前两条报错信息,可能原因如下: 代码如果在本地运行,需要将“project_dir”加入到PYTHONPATH
在Notebook的Terminal中执行tensorboard --logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb
InternalError (see above for traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,
ize读取文件夹大小? 问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法 获取一个OBS文件夹的大小: import
创建训练作业提示错误码ModelArts.2763 问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 处理方法 查看算法代码中设置的训练资源规格。
rocessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。
JupyterLab中文件保存失败,如何解决? 问题现象 JupyterLab中保存文件时报错如下: 原因分析 浏览器安装了第三方插件proxy进行了拦截,导致无法进行保存。 在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。 网络环境原因,是否有连接网络代理。
el/Variable:0.Make sure this variable is used in loss computation. 原因分析 分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。 处理方法 请您将“启动文件”中的“tf
使用Windows下生成的文本文件时报错找不到路径? 问题现象 当在Notebook中使用Windows下生成的文本文件时,文本内容无法正确读取,可能报错找不到路径。 原因分析 Notebook是Linux环境,和Windows环境下的换行格式不同,Windows下是CRLF,而Linux下是LF。 解决方法 可
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他
服务预测失败 问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,预测失败。 原因分析及处理方法 服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。 图1 推理服务流程图 出现APIG.XX
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法: 方法1:使
在线服务预测报错ModelArts.4206 问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,报错“ModelArts.4206”。 原因分析 ModelArts.4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行,ModelArts对单个API的推理请求流量做了
git插件密码失效如何解决? 问题现象 在JupyterLab中使用git插件时,当git clone私有仓库和git push文件时会出现如下报错: 原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。 解决方案
exe' -> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。 原因分析 用户使用权限问题导致。 处理方法 用户电脑切换到管理员角色,键盘快捷键(Windows+R模式)并输入cmd,进入黑色窗口,执行如下命令:
otron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析 requirements.txt的Unidecode名字写错了,应该把U改成小写,所以导致训练作业的环境没有装上unidecode模块。
cudaCheckError() failed : no kernel image is available for execution on the device 原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode
cudaCheckError() failed : no kernel image is available for execution on the device 原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode
问题现象 查看PyCharm ToolKit的日志,报错信息为:Error occurs when accessing to OBS。 原因分析 可能是用户无OBS权限。 解决方法 判断用户是否有OBS权限。 登录ModelArts控制台,进入“数据管理 > 数据集 ”,单击“创建
在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。 处理方法 一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。