检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果您使用专属资源池创建训练作业,容错检查识别的故障节点会被剔除。系统自动补充健康的计算节点至专属资源池。(该功能即将上线) 容错检查详细介绍请参考: 开启容错检查 检测项目与执行条件 触发容错环境检测达到的效果 环境预检查通过后,如果发生硬件故障会导致用户业务中断。您可以在训练中补充reload
/home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令,随后在Notebook中运行该脚本。 其中环境变量详细介绍如下: 表1 数据预处理中的环境变量 环境变量 示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分:
sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 若用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以 llama2-70b 预训练为例。 表1 模型训练脚本参数 参数 示例值 参数说明
sh 中的具体python指令运行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以下参数取值主要以llama2-70b预训练为例,请根据实际模型修改。 表1 模型训练脚本参数
sh中的具体python指令,并在Notebook环境中运行执行。本代码中有许多环境变量的设置,在下面的指导步骤中,会展开进行详细的解释。 如果用户希望自定义参数进行训练,可直接编辑对应模型的训练脚本,可编辑参数以及详细介绍如下。以llama2-13b预训练为例: 表1 模型训练脚本参数 参数 示例值 参数说明
jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”。 物体检测的标注文件需要满足PASCAL VOC格式,格式详细说明请参见 表1。 数据存储示例: ├─<dataset-import-path> │ IMG_20180919_114732
/home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令,随后在Notebook中运行该脚本。 其中环境变量详细介绍如下: 表1 数据预处理中的环境变量 环境变量 示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分:
的端口号在各个节点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群,详细操作请参考通过kubectl连接集群。 配置Kubernetes的访问授权。 使用任意文本编辑器创建prometheus-rbac-setup
gface.co/datasets/mit-han-lab/pile-val-backup,注意需指定到val.jsonl的上一级目录。 详细说明可以参考vLLM官网:https://docs.vllm.ai/en/latest/quantization/auto_awq.html。
gface.co/datasets/mit-han-lab/pile-val-backup,注意需指定到val.jsonl的上一级目录。 详细说明可以参考vLLM官网:https://docs.vllm.ai/en/latest/quantization/auto_awq.html。
Array<Object> 训练作业的运行参数,为“label-value”格式,该样例请参考请求示例;当为自定义镜像训练作业的时候,此参数为容器环境变量。详细请参见表4 spec_id 是 Long 训练作业选择的资源规格ID。请从查询作业资源规格接口获取资源规格ID。 data_url 否 String
应用管理 > AI应用 > 创建”,开始创建AI应用。 图2 创建AI应用 设置创建AI应用的相应参数。此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模
ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像(二选一)构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
gface.co/datasets/mit-han-lab/pile-val-backup,注意需指定到val.jsonl的上一级目录。 详细说明可以参考vLLM官网:https://docs.vllm.ai/en/latest/quantization/auto_awq.html。
/home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令,随后在Notebook中运行该脚本。 其中环境变量详细介绍如下: 表1 数据预处理中的环境变量 环境变量 示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分:
登录到console标注页面后在“我参与的”页签下,可查看到分配的标注任务,单击任务名称,可进入标注页面。不同类型的标注作业,标注方式不同,详细请参见: 标注图片(图像分类) 标注图片(物体检测) 标注文本(文本分类) 标注文本(命名实体) 标注文本(文本三元组) 标注音频(语音分割)
创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型选择“数据校验”,填写相应算子的设置参数,算子的详细参数参见数据清洗算子(PCC算子)。 图2 设置场景类别和数据处理类型 设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。
KER_NUM”、“VC_TASK_INDEX”、“MA_NUM_GPUS”为ModelArts训练容器中预置的环境变量。训练容器环境变量详细介绍可参考查看训练容器环境变量。 通过obsutils,将代码文件夹放到OBS上,然后通过OBS将代码传至SFS相应目录中。 在SFS中将