检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表2 update_job_configs请求参数说明 参数 是否必选 参数类型 描述 description 是 String 需要更改的训练作业的描述信息。 无成功响应参数 表3 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。
拉取镜像失败 服务启动失败,提示拉取镜像失败,请参考服务部署、启动、升级和修改时,拉取镜像失败如何处理? 资源不足,服务调度失败 服务启动失败,提示资源不足,服务调度失败,请参考服务部署、启动、升级和修改时,资源不足如何处理? 内存不足 服务启动失败,提示内存不足,请参考内存不足如何处理?
完成切换。 查看修改的内容 如果修改代码库中的某个文件,在“Changes”页签的“Changed”下可以看到修改的文件,并单击修改文件名称右侧的“Diff this file”,可以看到修改的内容。 图7 查看修改的内容 提交修改的内容 确认修改无误后,单击修改文件名称右侧的“Stage
数据集版本不合格 出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即2种以上的标签),每种分类的图片数不少于5张。
Notebook 界面提示成功创建分享后,返回至AI Gallery,进入示例的详情页面查看示例。 进入AI Gallery首页。选择“项目”,进入项目列表页面。 在搜索框中输入创建好的Notebook名称,单击页签进入详情页。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的名
为默认的工作空间。 ai_project 否 String 指定算法所属的ai项目,默认值为"default-ai-project"。ai项目已下线,无需关注。 表4 AlgorithmJobConfig 参数 是否必选 参数类型 描述 code_dir 否 String 算法的代码
像的代码目录CODE_DIR。修改代码如图1。 图1 修改区分训练作业中2个代码目录 使用环境变量SAVE_PATH重新覆盖权重文件保存路径,作为最终的权重保存路径。修改代码如图2。 图2 修改权重保存路径 多机训练场景下,需要将CODE_DIR修改为OBS_CODE_DIR目录
PyTorch1.0引擎提示“RuntimeError: std:exception” MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 使用moxing适配OBS路径,pandas读取文件报错 日志提示“Please
委托。 在弹性裸金属列表中,单击的“退订”,跳转至“退订资源”页面。 根据界面提示,确认需要退订的资源,并选择退订原因。 图2 退订资源 确认退订信息无误后,勾选“我已确认……”和“资源退订后……”提示信息。 单击“退订”,再次根据界面信息确认要退订的资源。 再次单击“退订”,完成包年/包月资源的退订操作。
重建、停止或删除训练作业 另存为算法 当您需要修改训练作业的算法时,可以在训练作业详情页面右上角,单击“另存为算法”。 在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 订阅算法不支持另存为算法。 重建训练作业 当对创
bool” 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 日志提示“Out of bounds nanosecond timestamp” 日志提示“Unexpected keyword argument passed to optimizer” 日志提示“no socket
通过自定义镜像创建模型失败 导入模型后部署服务,提示磁盘不足 创建模型成功后,部署服务报错,如何排查代码问题 自定义镜像导入配置运行时依赖无效 通过API接口查询模型详情,model_name返回值出现乱码 导入模型提示模型或镜像大小超过限制 导入模型提示单个模型文件超过5G限制 订阅的模型一直处于等待同步状态
GPU相关问题 日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal
预置算法运行故障 日志提示“label_map.pbtxt cannot be found” 日志提示“root: XXX valid number is 0” 日志提示“ValueError: label_map not match” 日志提示“Please set the train_url
t/server/api.py 修改def _exit_barrier(self)方法中的barrier_timeout参数,修改后如图1所示。 #修改前 barrier_timeout=self._exit_barrier_timeout #修改后 barrier_timeout=3000
使用管理员用户登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 在ModelArts控制台的左侧导航栏中,选择“专属资源池”,单击创建,未提示权限不足,表明管理员用户的权限配置成功。 配置开发者权限 开发者权限需要通过IAM
表1 实例创建过程的事件列表 事件名称 事件描述 事件级别 Scheduled 实例被调度成功 提示 PullingImage 正在拉取镜像 提示 PulledImage 镜像拉取完毕 提示 NotebookHealthy 实例运行中,处于健康状态 重要 CreateNotebookFailed
8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError: Broken pipe” 日志提示“ValueError:
动,打开链接http://localhost:3000,出现Grafana的登录界面。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。 父主题: 安装配置Grafana
硬盘限制故障 下载或读取文件报错,提示超时、无剩余空间 复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device”