检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录SWR后,使用docker tag命令给上传镜像打标签。下面命令中的组织名称deep-learning,请替换为Step1中实际创建的组织名称,以下所有命令中的deep-learning都需要替换。 sudo docker tag tf-1.13.2:latest swr.example.com/deep-learning/tf-1
用户制作的自定义镜像,在本地执行docker run启动,无法正常运行; 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务; 用户自己业务占用了开发环境官方的8888、
int机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练,加载中断生成的checkpoint,中
Integer 创建成功的资源池数量。 failed Integer 最近三天内创建失败的资源池数量,最大值为500。 pending Integer 等待中的资源池数量,通常是未支付的包周期资源池。 状态码:500 表6 响应Body参数 参数 参数类型 描述 error_code
config_name 是 String 训练作业参数的名称。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
该镜像不属于该租户(包括主账号和子账号),是其他人共享的public镜像,而这个镜像又被镜像所有者删除,导致不可使用,用户需要联系对应的SWR镜像负责人,确认镜像是否存在。 该镜像不属于该租户(包括主账号和子账号),是其他人共享的public镜像,而这个镜像又被镜像所有者设置成pr
企业项目id,指定此参数会只返回该企业项目id下的工作空间。默认显示所有工作空间。 name 否 String 工作空间名称查询参数,指定此参数会模糊查询该名称的工作空间。默认显示所有工作空间。 filter_accessible 否 Boolean 该参数用于筛选可访问的工作空间。指定该参数为tru
objects 数据处理任务的输入通道列表,与data_source二选一。 is_current Boolean 当前任务是否是该版本的同类型任务中的最新任务。 name String 数据处理任务名称。 result Object 数据处理任务输出的结果,status为2时会出现该字段,用于特征分析任务。
更新处理任务 功能介绍 更新处理任务,支持更新“特征分析”任务和“数据处理”两大类任务,仅支持更新任务的描述。可通过指定路径参数“task_id”来更新某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK
found。 原因分析 该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据集版本进行数据切分时,训练集比例填写为0导致发布的数据全部为验证集,所以出现上述报错。 处理方法 重新发布数据,切分比例为0.8 或者0.9重新创建训练作业进行训练。 父主题: 训练作业运行失败
)和本地上传。 数据集中的数据导入入口 数据集中的数据导入有5个入口。 创建数据集时直接从设置的数据导入路径中自动同步数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。
String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请参见作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量,默认为10,“per_page”可选的范围为[1,1000]。
ModelArts。 验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
rk下的磁盘空间满了,请参考Notebook提示磁盘空间已满排查并清理磁盘空间。 报错This site can't be reached 创建完Notebook后,单击操作列的“打开”,报错如下: 解决方案:复制页面的域名,添加到windows代理“请勿对以下列条目开头的地址使
原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下: Windows:C:\Users\{{user}}
钟。 由于出现此错误,常见原因是内存占用满导致的,您可以尝试使用如下方法,从根本上解决错误。 方法1:将Notebook更换为更高规格的资源。 方法2:可以参考如下方法调整代码中的参数,减少内存占用。如果代码调整后仍然出现内存不足的情况,请使用方法1。 调用sklearn方法si
驱动程序可能已经正确配置,从而解决了这个问题。 硬件问题:如果GPU之间的NVLINK连接存在硬件故障,那么这可能会导致带宽受限。重新安装软件后,重启系统,可能触发了某种硬件自检或修复机制,从而恢复了正常的带宽。 系统负载问题:最初测试GPU卡间带宽时,可能存在其他系统负载,如进
创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像
MindSpore-GPU engine_id Long 训练作业的引擎ID。 engine_name String 训练作业的引擎名称。 engine_version String 训练作业使用的引擎版本。 请求示例 如下以查看训练作业的资源引擎规格为例。 GET https://en
创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像