检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model
是否自动停止:为避免资源浪费,建议打开自动停止开关,根据您的实际需要,选择自动停止时间,也可以自定义自动停止的时间。 图3 选择计算节点规格 图4 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。 步骤五:预测分析 运行完成
|──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${workdir}(例如使用SFS Turbo的路径:/mnt/sfs_turbo/)
|──llm_tools # 推理工具 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在 scripts 文件夹中。 ${workdir}(例如使用SFS Turbo的路径:/mnt/sfs_turbo/)
是否自动停止:为了避免资源浪费,建议您打开该开关,根据您的需求,选择自动停止时间,也可以自定义自动停止的时间。 图2 选择计算节点规格 图3 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。 步骤六:预测分析 运行完成
是否自动停止:为了避免资源浪费,建议您打开该开关,根据您的需求,选择自动停止时间,也可以自定义自动停止的时间。 图2 选择计算节点规格 图3 设置自动停止 参数填写完毕之后,单击运行状况右边的“继续运行”,单击确认弹窗中的“确定”即可继续完成工作流的运行。 步骤六:预测分析 运行完成
指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引。 如果需要分页,请设置“page”参数值为“1”。 默认“page”参数值为“0”,不支持分页。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数
# 原始数据目录 # 训练输出目录路径:根据{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置 |──{output_dir} # 输出目录,以下目录在训练过程中自动生成 |──conv
变化,修改用于标注的标签。支持添加、修改和删除标签。 添加标签 在“未标注”页签下,单击“标签集”右侧的加号,在弹出“新增标签”对话框中,设置“标签名称”和“标签颜色”,然后单击“确定”完成标签添加。 修改标签 在“已标注”页签中“全部标签”的下方操作列,选择需要修改的标签,单击
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
resource_requirements Array of resource_requirements objects 算法资源约束,可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config advanced_config object
NPU日志收集上传 场景描述 当NPU出现故障,您可通过本方案收集NPU的日志信息。本方案中生成的日志会保存在节点上,并自动上传至华为云技术支持提供的OBS桶中,日志仅用于问题定位分析,因此需要您提供AK/SK给华为云技术支持,用于授权认证。 约束限制 当前仅支持在贵阳一、乌兰察布一使用该功能。
准备镜像 镜像方案说明 ECS获取基础镜像 ECS中构建新镜像 ECS中上传新镜像 父主题: 准备工作
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
/scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
/scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;