检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存储都有很大的安全风险,建议在配置文件中密文存放,使用时解密,确保安全。 sdk_decrypt_implementation_func 自定义解密函数,认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件中密文存放,使用时解密,确保安全。 配置文件中,
很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.env
如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。 处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
节点子网:选择同一VPC网络下的子网作为节点子网,新创建的节点将会使用该子网资源。 关联安全组:用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放通一些端口以保障节点通信。如果不关联安全组将会使用集群中默认的节点安全组规则。 资源标签:通过为资源添加标签,可以对资源进行自定义标
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
只有“图片”的数据集,且版本标注类型为“物体检测”和“图像分类”的数据集版本支持数据特征分析。 只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 对于标注任务类型为“物体检测”的数据集版本,当已标注样
pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi.org中查看是否有对应版本的包并查看包安装限制。 下载的包与对应基础镜像架构不匹配,如arm系统下载了x86的包,python2版本的pip下载了python3的包。具体基础镜像运行环境请参见推理基础镜像列表。 安装pip包有先后依赖关系。
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型“数据选择”,填写相应算子的设置
确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求。 针对物体检测作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求、检查标注框是否符合要求(物体检测)。 针对预测分析作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、预测分析作业失败的排查思路。
在Linux上安装配置Grafana 适用场景 本章节适用于在Linux操作系统的PC中安装配置Grafana。 前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本
check_running_task 否 Boolean 是否检测数据集中正在运行(包括初始化)的任务。可选值如下: true:检测数据集中正在运行(包括初始化)的任务 false:不检测数据集中正在运行的任务(默认值) running_task_type 否 Integer 指定需要检测的正在运行任务(包括初始化)的类型。可选值如下:
的数据集可直接在ModelArts控制台数据集列表中显示。 目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。 “物体检测”只支持导出Pascal VOC格式的XML标注文件。 “图像分割”只支持导出Pascal
层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监控工具监控NPU训练过程中的确定性计算问题。 将两份梯度数据进行相似度对比。在有标杆问题中,可以确认训练过程中精
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型选择“数据校验”,
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
me}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:p
共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启 训练作业已被手动终止 训练作业已被终止(最大运行时长:xh) 训练作业已被手动删除