检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数设置情况。 启动探针:用于检测应用实例是否已经启动。如果提供了启动探针(startup probe),则禁用所有其他探针,直到它成功为止。如果启动探针失败,将会重启实例。如果没有提供启动探针,则默认状态为成功Success。 就绪探针:用于检测应用实例是否已经准备好接收流量。
ID号。 如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。 处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如
dim、operator no bound相关AOE配置以及调优建议。 支持对昇腾训练、推理环境进行预检,完成相关依赖配置项的提前检查,并在检测出问题时给出相关修复建议。 自动诊断工具可以有效减少人工分析profiling的耗时,降低性能调优的门槛,帮助客户快速识别性能瓶颈点并完成
”和“@”开头的命令时,为了安全考虑,ModelArts会自动加上Tab键,并对双引号进行转义处理。 “数据切分” 仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 默认不启用。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只
在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的图片,至少有2种以上的分类,每种分类的图片数不少20张。 物体检测对数据集的要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括jpg、jpeg、bmp、png。
精度问题诊断 逐个替换模型,检测有问题的模型 该方式主要是通过模型替换,先定位出具体哪个模型引入的误差,进一步诊断具体的模型中哪个算子或者操作导致效果问题,模型替换原理如下图所示。通过设置开关选项(是否使用onnx模型),控制模型推理时,模型使用的是onnx模型或是mindir的模型。
当前支持以下三种探针: 启动探针:用于检测应用实例是否已经启动。如果提供了启动探针(startup probe),则禁用所有其他探针,直到它成功为止。如果启动探针失败,将会重启实例。如果没有提供启动探针,则默认状态为成功Success。 就绪探针:用于检测应用实例是否已经准备好接收流量。
支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断 容错能力强,故障恢复快 提供机柜、节点、加速卡、任务多场景故障感知和检测 提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效
内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 @modelarts:default_shape String 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下: bndbox:矩形。 polygon:多边形。 circle:圆形。 line:直线。
查看nv_peer_mem是否已安装。 dpkg -i | grep peer 若未安装则需要安装,安装方法参考装机指导。 若已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer 若没有则需要重新加载至内核,执行如下命令进行加载: /etc/init
面向AI开发零基础的用户 使用Standard自动学习实现口罩检测 本案例基于华为云AI开发者社区AI Gallery中的数据集资产,让零AI基础的开发者使用ModelArts Standard的自动学习功能完成“物体检测”AI模型的训练和部署。依据开发者提供的标注数据及选择的场景
登录ModelArts管理控制台,在总览页选择“数据准备>数据标注”,进入“我创建的”页签,在右上方的作业类型中下拉选择对应类型的标注作业。(仅物体检测与图像分割支持快速复核功能) 在物体检测类型的标注作业列表,单击标注作业名称,进入标注详情页。 单击“已标注”页签的“快速复核”,进入复核页面,对标注结果进行确认。
图像分类 text_classification:文本分类 text_entity:文本命名实体 object_detection:对象检测 audio_classification:声音分类 audio_content:声音内容 audio_segmentation:声音起止点
训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助你查询服务器的所有部件、规格描述,数量等详细信息。
work_path=None, **kwargs) 根据数据类型创建数据集,用户可以在相同的数据集上创建不同类型的标注任务,如在图像数据集上创建图像分类、物体检测等标注任务。 create_dataset(session,dataset_name=None, data_type=None, data_sources=None
Default:默认格式 label_task_type 否 Integer 版本数据对应的标注类型。可选值如下: 0:图像分类 1:物体检测 3:图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集
true:删除样本源文件 false:不删除样本源文件(默认值) label_type 否 Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容
设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关,则表示仅环境问题导致训练作业异常时才会自动重启,
精度调优 msprobe msprobe是MindStudio Training Tools工具链下精度调试部分的工具包。主要包括精度预检、溢出检测和精度比对等功能,目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景,可以定位模型训练中的精度问题。 支持精度预
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据