检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 图2 开启故障重启 Step5 其他配置 选择用户自己的专属资源池,以及规格与节点数。本次qwenvl模型选用
参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-ModelArts-User-ID 否 String
录旁的“重置”按钮,可实现对多个节点的重置。 下发重置节点任务时需要填写以下参数: 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。 按节点数量:重置任务
elArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。 确认规格无误后,单击“立即购买”后提交任务,界面自动跳转至终端节点列表页面。
进入“下载详情”页面,填写以下参数。 下载方式:ModelArts数据集。 目标区域:华北-北京四。 数据类型:系统会根据您的数据集,匹配到相应的数据类型。例如本案例使用的数据集,系统匹配为“图片”类型。 数据集输入位置:用来存放源数据集信息,例如本案例中从Gallery下载的数据集。单
欠费后,账号将变成欠费状态,资源将陆续进入宽限期和保留期。 图2 按需计费资源生命周期 欠费预警 系统会在每个计费周期后的一段时间对按需计费资源进行扣费。当您的账户被扣为负值时,系统将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 欠费后影响 当您的账号因按需资源自动扣费
进入“下载详情”页面,填写以下参数。 下载方式:ModelArts数据集。 目标区域:华北-北京四。 数据类型:系统会根据您的数据集,匹配到相应的数据类型。例如本案例使用的数据集,系统匹配为“图片”类型。 数据集输入位置:用来存放源数据集信息,例如本案例中从Gallery下载的数据集。单
Gallery工具链服务部署完成后将一直处于“运行中”。 指定时长:设置作业运行几小时后停止,当AI Gallery工具链服务运行时长达到指定时长时,系统将会暂停作业。时长设置不能超过计算资源的剩余额度。 说明: 如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI
除了人工标注外,ModelArts还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。 目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。 团队标注 数据标
Resource 参数 参数类型 描述 policy String 训练作业资源规格模式,可选值如下:“regular”、“economic”、“turbo”。 flavor_id String 训练作业选择的资源规格ID。 flavor_name String 使用flavor_id时,
语音起止点标签专用内置属性:语音的结束时间,格式“hh:mm:ss.SSS”(其中hh表示小时,mm表示分钟,ss表示秒,SSS表示毫秒)。 @modelarts:feature Object 物体检测标签专用内置属性:形状特征,类型为List。以图片的左上角为坐标原点[0, 0],每个坐标点的表示方法为[x,
-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。
Resource 参数 参数类型 描述 policy String 训练作业资源规格模式,可选值如下:“regular”、“economic”、“turbo”。 flavor_id String 训练作业选择的资源规格ID。 flavor_name String 使用flavor_id时,
PYTHONPATH=${MA_JOB_DIR}:${PYTHONPATH} 您选择的启动文件将会被系统自动以python命令直接启动,因此请确保镜像中的Python命令为您预期的Python环境。注意到系统自动注入的PATH环境变量,您可以参考下述命令确认训练作业最终使用的Python版本:
参数类型 描述 name 是 String 网络名称,即网络详情中的metadata.name字段的值。用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 是否必选 参数类型 描述 gpuVersion
行本章节后续的固件驱动安装步骤。 如果机器上的版本不是所需的版本(例如需要换成社区最新调测版本),可以参考后续步骤进行操作。 查看机器操作系统版本,以及架构是aarch64还是x86_64,并从昇腾官网获取相关的固件驱动包。固件包名称为“Ascend-hdk-型号-npu-firmware_版本号
开通自动续费后,还可以手动续费该专属资源池。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 更多关于自动续费的规则介绍请参见自动续费规则说明。 前提条件 请确认包年/包月专属资源池还未到期。
“导入路径”:数据存储的OBS路径。 “数据标注状态”:已标注。 “高级特征选项 ”:默认关闭,可通过勾选高级选项提供增强功能。 如“按标签导入”:系统将自动获取此数据集的标签,您可以单击“添加标签”添加相应的标签。此字段为可选字段,您也可以在导入数据集后,在标注数据操作时,添加或删除标签。
收到邮件后单击“订阅确认”。 此时该订阅记录将处于已确认的状态。 创建告警行动规则 行动规则即为告警触发时,AOM以怎样的方式来告知用户。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。更多详情请参考AOM用户指南。 根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建
6 bleach==1.4.3 click==6.6 依赖包为whl包时 如果训练后台不支持下载开源安装包或者使用用户编译的whl包时,由于系统无法自动下载并安装,因此需要在“代码目录”放置此whl包,同时创建一个命名为“pip-requirements.txt”的文件,并且在文件中指定此whl包的包名。依赖包必须为“