检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力 SSH直达节点和容器,一致体验
ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。 NPU驱动环境异常。 A050122 NPU 其他 npu dcmi device异常。 NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 A050123 NPU 链路 npu
Integer 当前返回的日志大小(单位:字节)。最大为5兆。 full_size Integer 完整的日志大小(单位:字节)。 表4 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
were not found in your environment: flash_attn 根因:昇腾环境暂时不支持flash_attn接口 规避措施:修改dynamic_module_utils.py文件,将180-184行代码注释掉 vim /home/ma-user/an
Usage(NPU显存使用率)。 value Array of numbers 运行指标对应数值,1min统计一个平均值。 表5 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
分析错误时:训练镜像先看日志,推理镜像先看API的返回。 可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
镜像如果配置了健康检查,服务启动失败,从以下两个方面进行排查: 健康检查端口是否可以正常工作 自定义镜像中配置了健康检查,需要在测试镜像时,同步测试健康检查接口是否可以正常工作,具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。 创建AI应用界面上配置的健康检查地址与实际配置的是否一致
--height: 图片长度(分辨率相关参数)。 --width: 图片宽度(分辨率相关参数)。 --served-model-name: 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 备注:当前版本仅支持语言+图片多模态性能测试。 脚本运行完成后,测试结果保存在benchmark_parallel
json中的swr_location字段后重试。 异常 自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。 正常 当前镜像构建任务状态为xxx。 The status
"[ma-pre-start] End" 创建训练任务 约束:MindSpore版本要求1.6.0及以上。 修改样例代码,增加如下内容: # 载入依赖接口 from mindx_elastic.terminating_message import ExceptionCheckpoint ..
model_instance2, model_instance3 ...],列表中元素model_instance对象即为本章节描述的模型管理,可调用模型接口。 支持按照检索参数查询模型列表,返回满足检索条件的模型list,检索参数如表1所示。 在查询列表时,返回list的同时,会打印模型列表的详细信息,如表2和表3所示。
ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。 自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。 命令方式采集自定义指标数据 用于创建自定义指标采集POD的YAML文件示例如下。 apiVersion: v1 kind: Pod metadata:
service_instance2, service_instance3 ...],列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。 支持按照检索参数查询服务列表,返回满足检索条件的服务list,检索参数如表1所示。 在查询列表时,返回list的同时,默认会打印模型列表的详细信息,如表2和表3所示。
能调试,选择不同的Conda环境。 Notebook:是一款Web应用,用户能够在界面编写代码,并且将代码、数学方程和可视化内容组合到一个文档中。 JupyterLab插件:插件包括规格切换,分享案例到AI Gallery进行交流,停止实例(实例停止后CPU、Memory不再计费)等,提升用户体验。
据标注”页签中添加图片并进行标注,重新进行模型训练及模型部署。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务。 目前只支持jpg、jpeg、bmp、png格式的图片。 图2 预测结果 表1 预测结果中的参数说明 参数 说明 predicted_label
”区域输出测试结果。如模型准确率不满足预期,可在“数据标注”页签,重新进行模型训练及模型部署。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务。 输入代码:其中预测分析要求数据集中数据的预测列名称为class,否则会导致预测失败。 { "data": {
据标注”页签中添加音频并进行标注,重新进行模型训练及模型部署。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务。 表1 预测结果中的参数说明 参数 说明 predicted_label 该段音频的预测类别。 score 预测为此类别的置信度。
据标注”页签中添加图片并进行标注,重新进行模型训练及模型部署。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务。 目前只支持jpg、jpeg、bmp、png格式的图片。 表1 预测结果中的参数说明 参数 说明 detection_classes
据标注”页签中添加数据并进行标注,重新进行模型训练及模型部署。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务。 表1 预测结果中的参数说明 参数 说明 predicted_label 该段文本的预测类别。 score 预测为此类别的置信度。
可能原因是用户使用的启动脚本为旧版本的run_train.sh,脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。 可能原因是使用Python file接口并发读写同一文件。 处理方法 对挂载盘的数据加权限,可以改为与训练容器内相同的用户组(1000),假如/nas盘是挂载路径,执行如下代码。