检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
稳定训练 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力 SSH直达节点和容器,一致体验
辑 1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令,并在Notebook环境中运行执行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本
GeneralPretrainHandler:默认。用于预训练时的数据预处理过程中,将数据集根据key值进行简单的过滤。 GeneralInstructionHandler:用于sft、lora微调时的数据预处理过程中,会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length:要处理的最大seq
delArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts SDK 介绍如何在本地安装ModelArts SDK。
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
”、“描述”,单击左下角“添加账号ID”。填写完成之后,然后单击“确定”。 邮箱作为团队管理中的唯一标识,不同成员不能使用同一个邮箱。您填写的邮箱地址将被记录并保存在ModelArts中,仅用于ModelArts团队标注功能,当成员删除后,其填写的邮箱信息也将被一并删除。 其中,
模型配置文件中配置dependencies信息时,则可不填,后台自动从配置文件的dependencies字段中读取需要安装的依赖包。 apis 否 String 模型提供的推理接口列表,默认为空。如果已在模型配置文件中配置apis信息时,则可不填,后台自动从配置文件中的apis字段读取所配置的推理接口信息。
指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128,表示数据包走交换机的队列4,队列4使用PFC流控机制来保证网络是无损的。 如果训练时,需要提升通信稳定性,可以增加配置其他NCCL环境变量,如表2所示。
云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理
图1 下拉选择标注类型 在标注作业标注详情中,展示此标注作业下全部数据。 标注视频 标注作业详情页中,展示了此数据集中“未标注”、“已标注”和“全部”的视频。 在“未标注”页签左侧视频列表中,单击目标视频文件,打开标注页面。 在标注页面中,播放视频,当视频播放至待标注时间时,单击
进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。 在左侧菜单栏选择“访问权限控制>桶ACL”,检查当前账号是否具备读写权限,如果没有权限,请联系桶的拥有者配置权限。 确保此OBS桶是非加密桶 进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。
永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not Modified 所请求的资源未修改,服务器返回此状态码时,不会返回任何资源。 305 Use
这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。
置的yaml文件地址,指代码目录中performance_cfgs.yaml相对或绝对路径,此配置文件为训练最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下:
platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。 该样例已将安装包上传至“obs://cnn
进入数据标注页面。 在数据标注列表页,“我创建的”页签下,选择需要复制的标注任务。 单击作业操作列的“更多>复制”。 在标注任务复制的弹窗中,填写作业描述,作业名称task-xxxx-copy-xxxx,其中xxxx为系统生成的随机码,用来区分新作业与被复制作业。也可以修改新生成的作业名称。单击“确定”。
pip install SomePackage #最新版本安装 pip uninstall SomePackage #卸载软件版本 其他命令请使用pip --help命令查询。 父主题: 更多功能咨询
和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。 华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机
模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型
训练作业使用的多数据集。详情请查看表4。 engine_type Integer 训练作业的引擎类型。 engine_name String 训练作业的引擎名称。 engine_id Long 训练作业的引擎ID。 engine_version String 训练作业使用的引擎版本。