检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RANK_TABLE_FILE文件。当使用预置框架创建训练作业时,在训练过程中预置框架会自动解析Ascend HCCL RANK_TABLE_FILE文件,当使用自定义镜像创建训练作业时,就要适配训练代码使得训练过程中在代码里读取解析Ascend HCCL RANK_TABLE_FILE文件。
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表14 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
定“inference_params.json”中的参数,否则配置的参数将无法在推理过程中生效。 “inference_params.json”文件的参数请参见表4。该参数会显示在部署推理服务页面,在“高级设置”下会新增“参数设置”,基于配置的推理参数供模型使用者修改自定义镜像的部署参数。
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表15 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装Eagle。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json
优数据集异常日志说明。 登录ModelArts Studio控制台,在“模型调优”页面单击目标作业,在作业详情的日志页签查看详情。 登录ModelArts控制台,在“模型训练 > 训练作业”页面单击目标作业,在日志页签查看详情。 添加数据集 选择存放训练数据集的OBS路径,必须选
DataSelector:支持多种数据类型的选择,当前仅支持在JobStep节点中使用(仅支持选择OBS或者数据集) 数据选择对象: DataConsumptionSelector:用于在多个依赖节点的输出中选择一个有效输出作为数据输入,常用于存在条件分支的场景中(在构建工作流时未能确定数据输入来源为哪
${container_name}:容器名称,进入容器时会用到,此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID,在宿主机上可通过docker images查询得到。 步骤五:在每个节点进入容器并启动推理服务 进入容器。 docker exec -it -u root ${container-name}
查询事件列表 功能介绍 查询事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/events 表1 路径参数 参数 是否必选
查询网络资源列表 功能介绍 查询网络资源列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/networks 表1 路径参数
P、SEQ_LEN为非必填,有默认值。 多机启动 以Qwen-14B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,此处以双机为例。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 第一台节点
P、SEQ_LEN为非必填,有默认值。 多机启动 以Qwen-14B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,此处以双机为例。 在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 第一台节点
sample_name 否 String 根据样本名称搜索(含后缀名)。 sample_time 否 String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本
enum_list=["NCHW", "NHWC"], description="输入数据类型,NHWC表示channel在最后,NCHW表channel在最前,默认值NCHW(速度有提升)")), wf.AlgorithmParameters(name="best_model"
PP、SEQ_LEN为非必填,有默认值。 多机启动 以Qwen-14B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,以双机为例。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 #第一台节点
_train/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/m
_train/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/m
_train/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/m