检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
dataset size. 原因分析 数据集过少,导致训练失败。 其中,增量预训练会packing,将短sample拼成seq_len长度进行训练,因此原数据条数多不意味着处理后samples多。 问题影响 训练失败或者训练结果与预期不符。 处理方法 增加数据集数量。 父主题: Studio
即文本、图片、json格式。 data 是 String 针对files、images类型的数据, 该参数为其本地路径,如 : data = "/home/ma-user/work/test.jpg" 针对json类型的数据, 该参数可以是其本地路径,如: data = "/home/ma-user/work/test
Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 T
],列表中元素model_instance对象即为本章节描述的模型管理,可调用模型接口。 支持按照检索参数查询模型列表,返回满足检索条件的模型list,检索参数如表1所示。 在查询列表时,返回list的同时,会打印模型列表的详细信息,如表2和表3所示。 当前支持最大获取150个模型对象。
查询事件列表 功能介绍 查询事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/events 表1 路径参数 参数 是否必选
docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。 若已有未绑定的弹性公网
object 资源池的metadata信息。 spec PoolSpecModel object 资源池的期望信息。 status PoolStatus object 资源池的状态信息。 表11 PoolMetadata 参数 参数类型 描述 name String 系统自动生成的pool名称,相当于pool
String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请参见作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量,默认为10,“per_page”可选的范围为[1,1000]。
建模型,制作自定义镜像。 推荐在开发环境Notebook中调试模型包,制作自定义镜像。请参考在开发环境中构建并调试推理镜像和无需构建直接在开发环境中调试并保存镜像用于推理。 更多的自定义脚本代码示例,请参考自定义脚本代码示例。 模型包里面必须包含“model”文件夹,“model
size的大小最大支持50G。 如果使用的是OBS导入或者训练导入,则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。 如果使用的是自定义镜像导入,则包含解压后镜像和镜像下载文件的大小总和。 父主题: 模型管理
设置专属资源池容器引擎空间不会造成额外费用增加。 如果使用的是OBS导入或者训练导入,则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。 如果使用的是自定义镜像导入,则包含解压后镜像和镜像下载文件的大小总和。 父主题: Standard推理部署
Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下: Active:SFS连通状态正常 Abnormal:SFS连通状态异常 ipAddr String SFS Turbo的访问地址。
spec NodePoolSpec object 更新节点池的请求体。 表12 NodePoolSpec 参数 参数类型 描述 resources PoolResource object 节点池中的资源信息列表,包括资源规格和相应规格的资源数量,自定义配置等。 表13 PoolResource
xx为Grafana的所在宿主机的IP地址 图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号,单击Save&Test: 图2 IP地址和端口号 至此,指标监控方案安装完成。指标监控效果展示如下: 图3 指标监控效果 这里使用的是Grafan
提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下: 在ModelArts管理控制台,使用训练的自定义镜像创建训
ication.py” ,此处的“demo-code”为用户自定义的OBS存放代码路径的最后一级目录,可以根据实际修改。 资源池:选择专属资源池。 类型:选择驱动/固件版本匹配的专属资源池Ascend规格。 作业日志路径:设置为OBS中存放训练日志的路径。例如:“obs://te
-a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景: 存在不可纠正的SRAM错误。 存在Remapping Failure记录。 dmsg中存在Xid 95事件。 (参考NVIDIA GPU
kernelgateway --KernelGatewayApp.ip=${HOST_IP} --KernelGatewayApp.port=8889 --KernelGatewayApp.api=${API_TYPE} --KernelGatewayApp.auth_token=${JPY_AUTH_TOKEN}
ssh文件夹,选择“属性”。然后单击“安全”页签。 单击“高级”,在弹出的高级安全设置界面单击“禁用继承”, 在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。 添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用