检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存未推理出结果的问题,例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果,但是可能答非所问,无法判断是否正确,需要人工判断进行纠偏。 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905)
参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 请求消息 请求消息如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_desc 是 String
参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 参数说明 参数 是否必选 参数类型 说明 config_name 是 String 训练作业参数名
首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作,单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输
首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作,单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输
首先进入已创建的CCE集群控制版面中。根据图2的步骤进行操作,单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输
什么是边缘节点? 边缘节点是您自己的边缘计算设备,用于运行边缘应用,处理您的数据,并安全、便捷地和云端应用进行协同。 父主题: 边缘服务
自动学习为什么训练失败? 当自动学习项目训练失败时,请根据如下步骤排除问题。 进入当前账号的费用中心,检查是否欠费。 是,建议您参考华为云账户充值,为您的账号充值。 否,执行2。 检查存储图片数据的OBS路径。是否满足如下要求: 此OBS目录下未存放其他文件夹。 文件名称中无特殊字符,如~`@#$%^&*{}[]:;+=<>/
该问题可以通过以下方法排查: 如果是首次使用ModelArts的新用户,需要登录ModelArts管理控制台,在权限管理页面完成访问授权配置,推荐使用委托授权的方式。完成访问授权配置后,再次提交作业即可。 请排查所填写的Data Path in OBS是否存在,文件夹下是否有数据文件,如果没有
能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。 常见训练问题定位思路如下: 根据日志界面提示中提供的分析建议解决。 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
能力差异。 配置资源池(公共资源池) 配置资源池(专属资源池) (可选)选择训练模式:当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时,则支持选择训练模式。 (可选)设置标签:如果需要对训练作业进行资源分组管理,可以设置标签。 后续操作。
保存未推理出结果的问题,例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果,但是可能答非所问,无法判断是否正确,需要人工判断进行纠偏。 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.905)
ms 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求消息 请求参数如表2所示。 表2 查询检索参数 参数 是否必选 参数类型 说明 per_page 否 Integer
精度比对,对PyTorch整网API粒度的数据dump、精度比对,进而定位训练场景下的精度问题 支持溢出检测功能,判断是否存在输入正常但输出存在溢出的API,从而判断是否为正常溢出。 梯度状态监控,用于采集梯度数据并进行梯度相似度比对,可以精准定位出现问题的step。 执行pip install
围,根据范围随机生成输入,用相同的输入分别在NPU(GPU)和CPU上执行算子,比较输出差异。预检最大的好处是,它能根据算子(API)的精度标准来比较输出结果并判定其是否有精度问题。预检工具使用包含以下三步:dump、run_ut以及api_precision_compare。基本步骤如下:
ining-jobs 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 说明 status 否 String 作业状态的查
docker tag tf-1.13.2:latest swr.实际域名.com/deep-learning/tf-1.13.2:latest 使用docker push命令上传镜像。 sudo docker push swr.实际域名.com/deep-learning/tf-1.13.2:latest
训练作业卡死检测 什么是训练作业卡死检测 训练作业在运行中可能会因为某些未知原因导致作业卡死,如果不能及时发现,就会导致无法及时释放资源,从而造成极大的资源浪费。为了节省训练资源成本,提高使用体验,ModelArts提供了卡死检测功能,能自动识别作业是否卡死,并在日志详情界面上展
bind_access_address String 自定义域名的推理请求地址,绑定域名后会返回此值。 invocation_times Number 服务的总调用次数。 failed_times Number 服务调用失败次数。 is_shared Boolean 是否是订阅的服务。 shared_count
信息可以参考下图查看,组织名称在“容器镜像服务>组织管理”创建。 注册镜像 在ModelArts Console上注册镜像 登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。 单击“注册镜像”,镜像源即为步骤1中推送到SWR中的镜像。请将完整的SWR地