检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
必选,选择“自定义”。 镜像 必填,单击右边的“选择”,从容器镜像中选择上一步上传到SWR的镜像。 代码目录 选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于
流水账单”中,“消费时间”即按需产品的实际使用时间。 查看自动学习和Workflow的账单 自动学习和Workflow运行时,在进行训练作业和部署服务时,会产生不同的账单。 训练作业产生的账单可参考查看训练作业的账单查询。 部署服务产生的账单可参考查看在线服务的账单查询。 查看Notebook的账单 登录
结束时间,需要与开始时间一起传入。 level 否 String 指定返回的事件级别,取值范围[Info Error Warning]。 pattern 否 String 指定事件信息包含的内容,最长256个字符。 source 否 String 指定返回的事件来源,取值范围为[K8S Job Task]。
a-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed
dataset size. 原因分析 数据集过少,导致训练失败。 其中,增量预训练会packing,将短sample拼成seq_len长度进行训练,因此原数据条数多不意味着处理后samples多。 问题影响 训练失败或者训练结果与预期不符。 处理方法 增加数据集数量。 父主题: Studio
emory四个软件。 但是如果nvidia和cuda是使用runfile(local)方式安装的,那么需要在下一步中再次卸载。 若使用nvidia run包直接安装的驱动,需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo /usr/local/cuda-11
object 专属池的基本信息,在专属池中创建的实例会返回该字段。 status String 实例状态。枚举值如下: INIT:初始化 CREATING:创建中 STARTING:启动中 STOPPING:停止中 DELETING:删除中 RUNNING:运行中 STOPPED:已停止
即文本、图片、json格式。 data 是 String 针对files、images类型的数据, 该参数为其本地路径,如 : data = "/home/ma-user/work/test.jpg" 针对json类型的数据, 该参数可以是其本地路径,如: data = "/home/ma-user/work/test
initialized”。 原因分析 按照之前支撑的经验,出现该问题的可能原因如下: 绝大部分都是确实是显存不够用。 还有较少数原因是节点故障,跑到特定节点必现OOM,其他节点正常。 处理方法 如果是正常的OOM,就需要修改一些超参,释放一些不需要的tensor。 修改网络参数,比如bat
的命令中涉及到组织名称“deep-learning”也请替换为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指
],列表中元素model_instance对象即为本章节描述的模型管理,可调用模型接口。 支持按照检索参数查询模型列表,返回满足检索条件的模型list,检索参数如表1所示。 在查询列表时,返回list的同时,会打印模型列表的详细信息,如表2和表3所示。 当前支持最大获取150个模型对象。
Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 T
查询事件列表 功能介绍 查询事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/events 表1 路径参数 参数 是否必选
docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。 若已有未绑定的弹性公网
object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表11 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool
String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请参见作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量,默认为10,“per_page”可选的范围为[1,1000]。
建模型,制作自定义镜像。 推荐在开发环境Notebook中调试模型包,制作自定义镜像。请参考在开发环境中构建并调试推理镜像和无需构建直接在开发环境中调试并保存镜像用于推理。 更多的自定义脚本代码示例,请参考自定义脚本代码示例。 模型包里面必须包含“model”文件夹,“model
size的大小最大支持50G。 如果使用的是OBS导入或者训练导入,则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。 如果使用的是自定义镜像导入,则包含解压后镜像和镜像下载文件的大小总和。 父主题: 模型管理