检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练完成的权重文件默认不会自动转换为Hugging Face格式权重。若用户需要自动转换,则在运行脚本,例如0_pl_pretrain_13b.sh中,添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换,则在运行脚本中必须删除CONVERT_MG2HF变量。 Megat
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
ma-cli configure鉴权命令 鉴权信息说明 在虚拟机及个人PC场景,需要配置鉴权信息,目前支持用户名密码鉴权(默认)和AK/SK鉴权; 在使用账号认证时,需要指定username和password;在使用IAM用户认证时,需要指定account、username和password;
调用查询数据集详情接口根据数据集ID查询数据集的详情。 调用查询样本列表接口根据数据集ID获取数据集的样本详情。 调用批量更新样本标签接口根据数据集ID和样本ID给样本添加标签进行人工标注。 调用查询数据集的统计信息接口查看数据集的标注统计信息。 当数据集使用完成或不再使用时,调用删除数据集接口删除数据集。 前提条件
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
义算法适配章节的输入输出配置部分: 在创建算法时,您需要在输入路径配置中设置代码路径参数,默认为“data_url”。 您需要在训练代码中添加超参,默认为“data_url”。使用“data_url”当做训练数据输入的本地路径。 检查报错的路径是否存在 由于用户本地开发的代码需要
调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String
aMA-Factory/data 【可选】dataset_info.json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 是否选择加速深度学习训练框架Deepspeed,可参考表1选择不同的框架。 是,选用ZeRO (Zero Redundancy Optimizer)优化器。
Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。 表1 ModelArts Lite涉及的资源配额 服务 资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量(MB)
当AI应用的状态变为“待启动”时,表示创建完成。 启动AI应用 上传AI应用的运行文件“app.py”。在AI应用详情页,选择“应用文件”页签,单击“添加文件”,进入上传文件页面。 运行文件的开发要求请参见准备AI应用运行文件app.py。 上传单个超过5GB的文件时,请使用Gallery
作业时,在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry-num”字段。 添加“fault-tolerance/job-retry-num”字段,视为开启自动重启,value的范围可以设置为1~128的整数。valu
方法二:用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本,自定义环境变量的值,并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令,随后在Notebook中运行该脚本。
确保容器可以访问公网。 文档更新内容 6.3.908版本相对于6.3.907版本新增如下内容: 文档和代码中新增对mistral和mixtral模型的适配,并添加训练推荐配置。 文档中新增对Llama3支持长序列文本(sequence_length > 32k)训练内容,例如新增参数context-parallel-size。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
基于ModelArts的手写数字识别 AXYZdong AI 文字编辑图片 instruct-pix2pix 案例 AXYZdong Standard推理部署 上线二维码检测识别服务 林欣 使用ModelArts对8类常见生活垃圾进行分类 福州司马懿 使用ModelArts搭建"花卉种类识别"服务 福州司马懿
AOM配置短信、邮件等通知方式。 以下步骤基于AOM1.0配置。 登录AOM控制台 在左侧导航栏选择“告警 > 告警规则”,在右上角单击“添加告警”。 设置告警规则(以NPU掉卡为例)。 规则类型:选择阈值类告警。 监控对象:选择命令行输入。 命令行输入框: sum(nt_npg