检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断。 容错能力强,故障恢复快 提供机柜、节点、加速卡、任务多场景故障感知和检测。 提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练。 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效。
图像分类 text_classification:文本分类 text_entity:文本命名实体 object_detection:对象检测 audio_classification:声音分类 audio_content:声音内容 audio_segmentation:声音起止点
Default:默认格式 label_task_type 否 Integer 版本数据对应的标注类型。可选值如下: 0:图像分类 1:物体检测 3:图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
Git下载代码时报错 在执行scripts/install.sh安装命令或使用Dockerfile构建镜像时,如遇到git下载代码出现以下类似的报错信息,关闭git验证即可。 报错信息: fatal: unable to access 'https://gitee.com/ascend/ModelLink
训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助您查询服务器的所有部件、规格描述,数量等详细信息。
登录ModelArts管理控制台,在总览页选择“数据准备>数据标注”,进入“我创建的”页签,在右上方的作业类型中下拉选择对应类型的标注作业。(仅物体检测与图像分割支持快速复核功能) 在物体检测类型的标注作业列表,单击标注作业名称,进入标注详情页。 单击“已标注”页签的“快速复核”,进入复核页面,对标注结果进行确认。
设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关,则表示仅环境问题导致训练作业异常时才会自动重启,
true:删除样本源文件 false:不删除样本源文件(默认值) label_type 否 Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容
精度调优 msprobe msprobe是MindStudio Training Tools工具链下精度调试部分的工具包。主要包括精度预检、溢出检测和精度比对等功能,目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景,可以定位模型训练中的精度问题。 支持精度预
会话对象,初始化方法请参见Session鉴权。 dataset_type 否 Integer 根据数据集类型查询数据集列表,默认为空。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集
query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask只支持布尔(bool)数据类型,或者为None。
query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask 只支持布尔(bool)数据类型,或者为None。
query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask只支持布尔(bool)数据类型,或者为None。
work_path=None, **kwargs) 根据数据类型创建数据集,用户可以在相同的数据集上创建不同类型的标注任务,如在图像数据集上创建图像分类、物体检测等标注任务。 create_dataset(session,dataset_name=None, data_type=None, data_sources=None
卸载ICAgent插件。 可能导致日志、监控功能异常。 中 回退版本、重装插件。 helm 升级、回退、卸载os-node-agent。 导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。
Integer 模型ID。 model_name String 模型名称。 model_usage Integer 模型用途。 1代表图像分类 2代表检测物体的类别和位置 3代表图像语义分割 4代表自然语言处理 5图嵌入 model_precision String 模型精度描述。 model_size
query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask 只支持布尔(bool)数据类型,或者为None。