检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
y/row/entry/p/br {""}) (br]、Map<String,String>类型。对于数据预处理任务比较特殊的两个场景物体检测和图像分类,键“task_type”对应的值为“object_detection”或“image_classification”。 表8 WorkPath
用于支持容器里使用RDMA网卡。 os-node-agent 6.5.0-20240529142433 无约束 无约束 OS插件,用于故障检测。 icAgent icagent default CCE默认安装当前适配版本 无约束 CCE基础组件,用于日志和监控。 父主题: Lite
报错处,需要用户分析定位后将自动迁移未能迁移的GPU相关的代码调用修改为NPU对应的接口,请参考昇腾手工迁移文档进行操作。 常见问题 如何检测当前的torch_npu是否正确安装? 您可以使用如下的python命令在对应的运行环境中初步校验torch_npu是否正常安装。 python3
y/row/entry/p/br {""}) (br]、Map<String,String>类型。对于数据预处理任务比较特殊的两个场景物体检测和图像分类,键“task_type”对应的值为“object_detection”或“image_classification”。 表6 WorkPath
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 本案例介绍如何将本地开发好的MindSpore模型代码,通过PyCharm ToolKit连接到ModelArts进行云上调试和训练。 开始使用样例前,请仔细阅读准备工作罗列的要求,提前完成准备工作。本案例的步骤如下所示:
定作业是否卡死,开启“作业卡死重启”开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。因系统无法核实代码逻辑且检测存在周期性,卡死检测存在一定的误报概率,开启开关即表示接受误报率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。 当训练过程中触
NpuDriverFirmwareMismatch 重要 NPU驱动固件版本不匹配 请从昇腾官网获取匹配版本重新安装 无法正常使用NPU卡 NPU:Docker容器环境检测 NpuContainerEnvSystem 重要 Docker不可用 确认docker软件是否正常 无法使用docker软件 重要 容器
Shell登录训练容器,且训练作业必须处于“运行中”状态。 在训练管理的“创建算法”页面,来源于AI Gallery中订阅的算法不支持另存为新算法。 训练作业卡死检测目前仅支持资源类型为GPU的训练作业。 仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。
计算维度,识别AICPU算子,部分AICPU算子计算性能较差。 computation - operator dynamic shape 计算维度,检测动态shape,动态shape会触发频繁的算子编译。 computation - operator bound 计算维度,算子计算性能分析
“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型为“数据增强”,填写相应算子的设置参数,算子的详细参数参见数据扩增算子说明、数据生成算子(StyleGan算子)和数据域迁移算子(CycleGan算子)。
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
表5 Importconfig 属性 描述 是否必填 数据类型 import_annotations 是否自动导入输入目录下的标注信息,支持检测/图像分类/文本分类。可选值如下: true:导入输入目录下的标注信息(默认值) false:不导入输入目录下的标注信息 否 str、Placeholder
LabelTaskTypeEnum 支持以下几种类型: IMAGE_CLASSIFICATION (图像分类) OBJECT_DETECTION = 1 (物体检测) IMAGE_SEGMENTATION (图像分割) TEXT_CLASSIFICATION (文本分类) NAMED_ENTITY_RECOGNITION
根据置信度筛选。 slice_thickness String DICOM层厚,通过层厚筛选样本。 study_date String DICOM扫描时间。 time_in_video String 视频中某个时间。 表7 SearchLabels 参数 参数类型 描述 labels Array
日志提示"Permission denied" 问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied
y/row/entry/p/br {""}) (br]、Map<String,String>类型。对于数据预处理任务比较特殊的两个场景物体检测和图像分类,键“task_type”对应的值为“object_detection”或“image_classification”。 表8 WorkPath
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2