检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
log_dir”参数建议设置为一个新的目录,“checkpoint_path”参数设置为上一次训练结果输出路径,如果是OBS目录,路径填写时建议使用“obs://”开头。 如果标注数据中的标签发生了变化,在运行“mox.run”前先执行如果标签发生变化的操作。 mox.run(input_fn=input_fn
ModelArts作为顶层服务,其部分功能依赖于其他服务的访问权限。本章节主要介绍对于IAM子账号使用ModelArts时,如何根据需要开通的功能配置子账号相应权限。 权限列表 子账号的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子账号的权限。此处的授权列表均按照Mode
r。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1 打开Settings 图2 设置“Update: Mode”为“none” 父主题: VS Code连接开发环境失败故障处理
在ModelArts中1个节点的专属资源池,能否部署多个服务? 支持。 在部署服务时,选择专属资源池,在选择“计算节点规格”时选择“自定义规格”,设置小一些或者选择小规格的服务节点规格,当资源池节点可以容纳多个服务节点规格时,就可以部署多个服务。如果使用此方式进行部署推理,选择的规格务必满足模型的要求,
可在创建资源池时自定义设置,设置专属资源池容器引擎空间不会造成额外费用增加。 如果使用的是OBS导入或者训练导入,则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。 如果使用的是自定义镜像导入,则包含解压后镜像和镜像下载文件的大小总和。 父主题: Standard推理部署
一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用于训练模型的样本数据比例;“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。
可视化作业名称。限制为1-20位只含数字,字母,下划线,中划线的名称。 job_desc 否 String 对可视化作业的描述,默认为空,字符串的长度限制为[0, 256]。 train_url 是 String OBS路径地址。 job_type 否 String 可视化的类型,可选的有tensorboard和m
资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在镜像详情页,选择“镜像介绍”页签,单击右侧“编辑介绍”。 编辑镜像基础设置和镜像描述。 表1 镜像介绍的参数说明 参数名称 说明 基础设置 中文名称 显示镜像的名称,不可编辑。 README
集,不支持指定。 切分比例的指定: 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集
ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。 如果您开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。
资产申请审核”页面,可以查看当前支持使用该数据集的用户列表。 管理用户可用资产的权限。 数据集发布成功后,数据集所有者可以管理资产的用户申请 。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 选择“我的资产 > 数据集”,在“我创建的数据集”页面找到待修改的数据集,单击数据集页签进入详情页。
训练场景主要查看自研的依赖包是否正常,查看pip list是否包含所需的包,查看容器直接调用的python是否是自己所需要的那个(如果容器镜像装了多个python,需要设置python路径的环境变量)。 测试训练启动脚本。 优先使用手工进行数据复制的工作并验证 一般在镜像里不包含训练所用的数据和
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。 硬盘空间:至少200GB。 昇腾资源规格:
作业元信息环境变量 约束限制 为了避免新设置的环境变量与系统环境变量冲突,而引起作业运行异常或失败,请在定义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。 为保证数据安全,请勿输入敏感信息,例如明文密码。
计算快慢卡和下发快慢卡。如下图所示,可以看到8号卡的计算耗时明显大于其他卡,因此8号卡的“短板效应”将会拖慢集群的整体训练速度,后续性能分析需要重点关注8号卡的计算维度。 图4 多卡不同step计算、下发和通信耗时统计值 图5 多卡不同step通信带宽统计值 环境变量Environment
empty obs directory”。 原因分析 对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。 处理方法 对于不支持断点训练的模型,请您将模型的输出路径train_url设置为空目录。 父主题: 预置算法运行故障
ModelArts的功能都需经过授权,可以更精确的控制子账号的权限范围,达成权限最小化的安全策略。 用工作空间限制资源访问 工作空间是ModelArts面向企业用户提供的一个高阶功能,用于进一步将用户的资源划分在多个逻辑隔离的空间中,并支持以空间维度进行访问的权限限定。目前工作空
} ] } 数据输出的data文件夹中存放的是修改、更新过的图片,对于数据处理过程中没有修改过的图片,在data文件夹中不会展示,图片的位置信息显示该图片在输入目录中。 output.manifest存放的是数据处理之后的图片信息(主要是指图片的位置和标注信息等),可以直接使用这个output
keepalive” 如果使用的是专业版的MobaXterm工具,请执行步骤3。 如果使用的是专业版的MobaXterm工具,请参考图3 设置“Stop server after”,此参数默认值为360s,将其设置为3600s或更大值。 图3 设置“Stop server after”
AI框架,如果MindSpore要进行多机分布式训练调试,则每台机器上都必须有8张卡。 本文档提供的调测代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 本文档提供的调测代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。 D