检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存未推理出结果的问题,例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果,但是可能答非所问,无法判断是否正确,需要人工判断进行纠偏。 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.905)
ms 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 查询检索参数 参数 是否必选 参数类型 说明 per_page 否 Integer
精度比对,对PyTorch整网API粒度的数据dump、精度比对,进而定位训练场景下的精度问题 支持溢出检测功能,判断是否存在输入正常但输出存在溢出的API,从而判断是否为正常溢出。 梯度状态监控,用于采集梯度数据并进行梯度相似度比对,可以精准定位出现问题的step。 执行pip install
能力差异。 配置资源池(公共资源池) 配置资源池(专属资源池) (可选)选择训练模式:当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时,则支持选择训练模式。 (可选)设置标签:如果需要对训练作业进行资源分组管理,可以设置标签。 后续操作。
围,根据范围随机生成输入,用相同的输入分别在NPU(GPU)和CPU上执行算子,比较输出差异。预检最大的好处是,它能根据算子(API)的精度标准来比较输出结果并判定其是否有精度问题。预检工具使用包含以下三步:dump、run_ut以及api_precision_compare。基本步骤如下:
docker tag tf-1.13.2:latest swr.实际域名.com/deep-learning/tf-1.13.2:latest 使用docker push命令上传镜像。 sudo docker push swr.实际域名.com/deep-learning/tf-1.13.2:latest
ining-jobs 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 说明 status 否 String 作业状态的查
i-engines 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 查询检索参数说明 参数 是否为必选 参数类型 说明 job_type 否 String 指定作
训练作业卡死检测 什么是训练作业卡死检测 训练作业在运行中可能会因为某些未知原因导致作业卡死,如果不能及时发现,就会导致无法及时释放资源,从而造成极大的资源浪费。为了节省训练资源成本,提高使用体验,ModelArts提供了卡死检测功能,能自动识别作业是否卡死,并在日志详情界面上展
信息可以参考下图查看,组织名称在“容器镜像服务>组织管理”创建。 注册镜像 在ModelArts Console上注册镜像 登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。 单击“注册镜像”,镜像源即为步骤1中推送到SWR中的镜像。请将完整的SWR地
bind_access_address String 自定义域名的推理请求地址,绑定域名后会返回此值。 invocation_times Number 服务的总调用次数。 failed_times Number 服务调用失败次数。 is_shared Boolean 是否是订阅的服务。 shared_count
如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip list是否包含所需的包,查看容器直接调用的python是否是自己所需要的那个(如果容器镜像装了多个python,需要设置python路径的环境变量)。
该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据是不符合规格的(如目标检测算法要求标注为矩形框,但是提供数据标注为非矩形框)。 处理方法 请您检查数据是否已标注,或检查数据标注是否符合算法要求。 父主题: 预置算法运行故障
rce-specs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 查询检索参数说明 参数 是否为必选 参数类型 说明 job_type 否 String 指定作
Workflow 属性 描述 是否必填 数据类型 name 工作流的名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64位字符 是 str desc 工作流的描述信息 是 str steps 工作流包含的节点列表 是 list[Step]
ucket_name/sub_dir_0/abc”,当调用mox.file.exists时,不论abc是文件还是文件夹,都会返回True。 判断一个OBS路径是否为文件夹,如果是则返回True,否则返回False。 1 2 import moxing as mox mox.file
参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_name 是 String 训练作业名称。限
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
时指定的profile。 注册新镜像 构建完成后,将新镜像注册到ModelArts镜像管理服务中,进而能够在ModelArts中使用该镜像。 有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id
自动学习中部署上线是将模型部署为什么类型的服务? 自动学习中部署上线是将模型部署为在线服务,您可以添加图片或代码进行服务测试,也可以使用URL接口调用。 部署成功后,您也可以在ModelArts管理控制台的“部署上线 > 在线服务”页面中,查看到正在运行的服务。您也可以在此页面停止服务或删除服务。