正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如
问题现象 使用PyCharm Toolkit提交训练作业时,训练作业详情页的“日志”页签存在报错“errorCode:NoSuchKey”。 原因分析 检查配置后发现,是镜像版本太低,旧版的镜像与当前训练作业不兼容。 解决措施 使用PyCharm Toolkit提交训练作业时,常用框架选
_NPUDeviceProperties' object has no attribute 'multi_processor_count'”。 图1 报错信息 原因分析 这是因为torch_npu当前不支持DataParallel(DP)并行模式。 处理方法 如果是运行单卡模式,在训练脚本中加入export
keras训练报错时,出现如下报错:AttributeError: 'NoneType' object has no attribute 'dtype'。 原因分析 训练镜像的numpy版本与Notebook中不一致。 处理方法 在代码中打印出numpy的版本,查看是否为1.18.5版本,若非该版本号则在代码开始处执行:
exe' -> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。 原因分析 用户使用权限问题导致。 处理方法 用户电脑切换到管理员角色,键盘快捷键(Windows+R模式)并输入cmd,进入黑色窗口,执行如下命令:
timeout, please confirm your service is able to process the new request 原因分析 该报错是因为发送预测请求后,服务出现停止后又启动的情况。 处理方法 需要您检查服务使用的镜像,确定服务停止的原因,修复问题。重新创建AI应用部署服务。
This could be because of a time skew. Attempting to adjust the signer 原因分析 OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆
ERROR:modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败 原因分析 在创建训练作业时指定的代码目录不存在导致训练失败。 处理方法 请您根据报错原因排查创建训练作业时指定的代码目录,即OBS桶的路径是否正确。有两种方法判断是否存在。
mge,False,Error response from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。
模型使用CV2包部署在线服务报错 问题现象 使用CV2包部署在线服务报错 原因分析 使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为自定义
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看AI应用日志未发现服务有明显错误。 原因分析 一般情况都是AI应用的端口配置有问题。建议您首先检查创建AI应用的端口是否正确。 处理方法 AI应用的端口没有配置,默认为8080,如您在自定义镜像配置文件中修改了
服务部署失败,报错No Module named XXX 问题现象 服务部署失败,报错:No Module named XXX 原因分析 No Module named XXX,表示模型中没有导入对应依赖模块。 处理方法 依赖模块没有导入,需要您在模型推理代码中导入缺失依赖模块。
创建AI应用时,元模型来源指定的OBS目录下存放了自定义的文件和文件夹,都会拷贝到镜像中去。拷贝进去的路径是什么,怎么读取对应的文件或者文件夹里面的内容? 原因分析 通过OBS导入AI应用时,ModelArts会将指定的OBS目录下的所有文件和文件夹拷贝到镜像中的指定路径下,镜像内路径可以通过self
'(slice(0, 13184, None), slice(None, None, None))' is an invalid key 原因分析 出现该问题的可能原因如下: 切分数据时,选择的数据不对。 处理方法 尝试如下代码: X = dataset.iloc[:,:-1].values
计算节点个数:1个 用了一段时间后,于2023/03/20 10:30:00停止训练作业。那么在3月份,该公共资源池总共产生多少费用呢? 计费构成分析 在2023/03/18 15:30:00 ~ 2023/03/20 9:00:00期间按照CPU: 8 核 32GB规格、1个节点计费,计费单价为3
pip介绍及常用命令 pip常用命令如下: pip --help#获取帮助 pip install SomePackage==XXXX #指定版本安装 pip install SomePackage #最新版本安装 pip uninstall SomePackage #卸载软件版本
https://aka.ms/vscode-remote/faq/old-linux for additional information. 原因分析 该问题为用户使用VS Code 1.86版本软件导致的,需要用户使用较低版本的VS Code 。 解决方案 使用VS Code 1.85
时序预测-time_series_v2算法部署在线服务预测报错 问题现象 在线服务预测报错:ERROR: data is shorter than windows。 原因分析 该报错说明预测使用的数据行数小于window超参值。 在使用订阅算法时序预测-time_series_v2训练时,超参:window设置
如何处理使用opencv.imshow造成的内核崩溃? 问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问题。
使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 进行训练作业,训练失败报错label_map.pbtxt cannot be found。 原因分析 该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据集版本进行数据切分时,训练集比例填写为0导致发布的数据全部为验证集,所以出现上述报错。