正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RUNTIME(3002)model execute error, retCode=0x91, [the model stream execute failed] 原因分析 出现该问题的可能原因如下: 数据读入的速度跟不上模型迭代的速度。 处理方法 减少预处理shuffle操作。 dataset = dataset
timed out WARNING:root:Retry=9,Wait=0.1, Timestamp = 1567152567.5327423 原因分析 当使用MoXing复制数据不成功,可能原因如下: 源文件不存在。 OBS路径不正确或者是两个OBS路径不在同一个区域。 训练作业空间不足。
用较大的学习率会出现数值不稳定的问题,这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。 原因分析 Tensorflow分布式有多种执行模式,mox会通过4次执行50 step记录执行时间,选择执行时间最少的模型。 处理方法 创建训练作
_exceptions.UnrecognizedFlagError:Unknown command line flag 'task_index' 原因分析 运行参数中未定义该参数。 在训练环境中,系统可能会传入在Python脚本里没有定义的其他参数名称,导致参数无法解析,日志报错。 处理方法
镜像保存时报错“The container size (30G) is greater than the threshold (25G)”,镜像创建失败。 原因分析 镜像保存本质是通过在资源集群节点上的agent中进行了docker commit,再配合一系列自动化操作来上传和更新管理数据等。每次Co
errors.ParserError: Error tokenizing data. C error: Expected 4 field 原因分析 csv中文件的每一行的列数不相等。 处理方法 可以使用以下方法处理: 校验csv文件,将多出字段的行删除。 在代码中忽略错误行,参考如下:
服务部署、启动、升级和修改时,容器健康检查失败如何处理? 原因分析 容器提供的健康检查接口调用失败。容器健康检查接口调用失败,原因可能有两种: 镜像健康检查配置问题 AI应用健康检查配置问题 解决方法 根据容器日志进行排查,查看健康检查接口失败的具体原因。 镜像健康检查配置问题,
INFO:root:Using MoXing-v1.13.0-de803ac9 INFO:root:Using OBS-Python-SDK-3.1.2 原因分析 Pytorch通过spawn模式创建了多个进程,每个进程会调用多进程方式使用Mox下载数据。此时子进程会不断销毁重建,Mox也就会不断的被导入,导致打印很多Mox的版本信息。
print('start') kv_store = mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。 处理方法 将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。
浏览器Console,单击network查看请求列表,请求状态显示为(failed)net::ERR_ADDRESS_IN_USE。 原因分析 可能是用户本地网络的原因,网速不稳定或者网络配置有问题,均可能导致保存失败。 解决方案 1. 切换为稳定的网络后重试。 2. 初始化网络
已经通过调用指南页面的信息获取到调用的server端地址,但是调用发起方的客户端访问该地址不通,出现无法连接、域名无法解析的现象。 原因分析 在调用指南页签中显示的调用地址都是华为云APIG(API网关服务)的地址。调用发起方的客户端和华为云网络不通。 处理方法 如果客户端位于
demo-yf/,实际在JupyterLab左侧导航看不到此目录。 图1 本地挂载目录 图2 Notebook的JupyterLab 原因分析 本地挂载目录是在Notebook容器的“~/data”目录下创建的demo-yf文件夹,而JupyterLab左侧导航默认路径为“~/w
ED. This error may appear if you passed in a non-contiguous input. 原因分析 出现该问题的可能原因如下: 数据输入不连续,cuDNN不支持的类型。 处理方法 禁用cuDNN,在训练前加入如下代码。 torch.backends
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
key verification failed.'或者'Port forwarding is disabled.”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o
std::exception” 问题现象 在使用pytorch1.0镜像时,必现如下报错: “RuntimeError: std::exception” 原因分析 pytorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。 处理方法 按照issues中的说明,应该是
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智能边缘平台,在边缘节点将模型部署为一个Web Service,需提前在IEF(智能边缘服务)创建好节点。 是 str service_name 服务名称,支持1-64位可见字符(含
提示“上传的AK/SK不可用”,如何解决? 问题分析 AK与SK是用户访问OBS时需要使用的密钥对,AK与SK是一一对应,且一个AK唯一对应一个用户。如提示不可用,可能是由于账号欠费或AK与SK不正确等原因。 解决方案 使用当前账号登录OBS管理控制台,确认当前账号是否能访问OBS。
existed in train_version错误,如下所示。 图1 xxx isn't existed in train_version错误 原因分析 出现上述错误,是因为用户通过PyCharm ToolKit提交了训练作业后,又登录了ModelArts管理控制台删除了该训练作业导致的。