正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
有默认值。 等待模型载入 执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 更多查看训练日志和性能操作,请参考查看日志和性能章节。 如果需要使用断点续训练能力,请参考断点续训练章节修改训练脚本。
导入AI应用提示该账号受限或者没有操作权限 用户创建AI应用时构建镜像或导入文件失败 创建AI应用时,OBS文件目录对应镜像里面的目录结构是什么样的? 通过OBS导入AI应用时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 通过OBS创建AI应用时,构建日志中提示pip下载包失败
列单击“启动IPv6”,如图3 打通VPC前,需要保证ModelArts网络和您的VPC网络都已开启IPv6,IPv6才会生效。若是打通VPC后,才开启ModelArts网络的IPv6或VPC网络的IPv6,此时需要重新打通VPC及子网,IPv6才会生效。 图2 创建网络 图3 启动IPv6
kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? 创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理?
I接口不变? 在线服务的API接口组成规则是什么? 在线服务运行中但是预测失败时,如何排查报错是不是模型原因导致的 在线服务处于运行中状态时,如何填写推理请求的request header和request body 作为调用发起方的客户端无法访问已经获取到的推理请求地址 服务部署失败,报错ModelArts
运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Windows下生成的文本文件时报错找不到路径? JupyterLab中文件保存失败,如何解决?
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。
查询Notebook实例详情 更新Notebook实例 删除Notebook实例 通过运行的实例保存成容器镜像 查询Notebook支持的有效规格列表 查询Notebook支持的可切换规格列表 查询运行中的Notebook可用时长 Notebook时长续约 启动Notebook实例 停止Notebook实例
使用Workflow实现低代码AI开发 什么是Workflow 运行第一条Workflow 管理Workflow 开发第一条Workflow 开发Workflow命令参考
service_id 是 String 服务ID。 表2 Query参数 参数 是否必选 参数类型 描述 node_id 否 String 待查询的边缘节点ID,仅当infer_type为edge时可指定,默认查询所有节点。 请求参数 表3 请求Header参数 参数 是否必选 参数类型
训练作业的ID。 version_id 是 Long 训练作业的版本ID。 表2 Query参数 参数 是否必选 参数类型 说明 base_line 否 String 日志的基准位置,根据接口返回获得,为空的时候代表获取最新的日志。 lines 否 Integer 获取日志的长度,默认为50行。lines的范围为[0
from daemon: Cannot pause container xxx”。 原因分析 执行镜像保存时,Notebook中存在状态为D的进程,会导致镜像保存失败。 解决方案 在Terminal里执行ps -aux命令检查进程。 执行kill -9 <pid>命令将相关进程结束后,再次执行镜像保存即可。
获取“repo_id”和待上传的文件名。 获取“repo_id” 在AI Gallery页面的资产详情页,单击复制完整的资产名称,如图1所示,获取到的信息即为“repo_id”。例如,复制出的信息为“ur5468675/test_cli_model1”,则该资产的“repo_id”为“u
Integer 作业排队位置。 createTime Integer 作业创建时间。 gvk String 作业的k8s资源类型、分组和版本。 hostIps String 作业运行的节点IP列表,逗号分隔。 表5 resourceRequirement 参数 参数类型 描述 cpu String
开发Workflow命令参考 开发Workflow的核心概念介绍 配置Workflow参数 配置Workflow的输入输出目录 创建Workflow节点 构建Workflow多分支运行场景 编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力 父主题:
息头中X-Subject-Token的值)。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total_count Integer 不分页的情况下符合查询条件的总集群数量。 count Integer 当前查询结果的集群数量,不设置offset、lim
训练作业常用文件路径是什么? 如何安装C++的依赖库? 训练作业中如何判断文件夹是否复制完毕? 如何在训练中加载部分训练好的参数? 训练作业的启动文件如何获取训练作业中的参数? 训练作业中使用os.system('cd xxx')无法进入相应的文件夹? 训练作业如何调用shell脚本,是否可以执行
Queue Integer 排队中的作业个数。 Pending Integer 等待中的作业个数。 Abnormal Integer 异常的作业个数。 Terminating Integer 终止中的作业个数。 Creating Integer 创建中的作业个数。 Running Integer
创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 使用pip install提示Read timed out 出现“save error”错误,可以运行代码,但是无法保存 单击Notebook的打开按钮时报“请求超时”错误? 使用CodeLab时报错kernel
创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 出现“save error”错误,可以运行代码,但是无法保存 单击Notebook的打开按钮时报“请求超时”错误? 出现ModelArts.6333错误,如何处理? 打开Note