检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pytorch Mox日志反复输出 问题现象 ModelArts训练作业算法来源选用常用框架的Pytorch引擎,在训练作业运行时Pytorch Mox日志会每个epoch都打印Mox版本,具体日志如下: INFO:root:Using MoXing-v1.13.0-de803ac9
硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device”
外网访问限制 日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
创建AI应用 功能介绍 导入元模型创建AI应用。 执行代码、模型需先上传至OBS(训练作业生成的模型已默认存储到OBS)。 接口约束 使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数,非模
业务代码问题 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cuda_frame failed
环境配置故障 Notebook提示磁盘空间已满 Notebook中使用Conda安装Keras 2.3.1报错 Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx Notebook中已安装对应库,仍报错import numba
ModelArts Standard资源监控 ModelArts Standard资源监控概述 在ModelArts控制台查看监控指标 在AOM控制台查看ModelArts所有监控指标 使用Grafana查看AOM中的监控指标
初识Workflow 父主题: 图解ModelArts
AI Gallery(旧版) AI Gallery简介 免费资产和商用资产 入驻AI Gallery 我的Gallery介绍 订阅使用 发布分享 参加活动 合作伙伴 需求广场
代码运行常见错误 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Wind
训练作业如何收费? 如果您使用的是公共资源池,则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”(运行时长精确到秒)。 如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。 父主题: 计费相关
在线服务 部署在线服务时,自定义预测脚本python依赖包出现冲突,导致运行出错 在线服务预测时,如何提高预测速度? 调整模型后,部署新版本AI应用能否保持原API接口不变? 在线服务的API接口组成规则是什么? 在线服务运行中但是预测失败时,如何排查报错是不是模型原因导致的 在
导出任务管理 查询导出任务列表 创建导出任务 查询导出任务状态 父主题: 数据管理
训练作业性能问题 训练作业性能降低 父主题: 训练作业
停止Notebook实例 功能介绍 停止Notebook实例。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project
创建Notebook实例 功能介绍 创建Notebook实例,可以根据您指定的实例规格,不同AI引擎镜像,存储等相关参数,为您创建一个Notebook,您可以通过网页和SSH客户端访问Notebook实例。 该接口为异步操作,创建Notebook实例的状态请通过查询Notebook实例详情接口获取。
模型发布任务提交失败和模型发布失败问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取模型ID。 进入“模型管理”页面,在模型管理页面找到自动学习任务中自动创建的模型,自动学习产生的模型都是以“ex
服务启动失败 问题现象 当服务事件中出现如下事件时,表示容器启动失败。 图1 服务启动失败 原因分析 服务启动失败的原因比较多样,可能有如下几种情况: AI应用本身问题,无法启动 镜像中配置的端口错误 健康检查配置有问题 模型推理代码customize_service.py编写有问题
创建网络资源 功能介绍 创建网络资源。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/{project_id}/networks 表1 路径参数 参数