检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改config.yaml中的${command} 请根据步骤二 修改训练超参配置修改超参值后,修改config.yaml中的${command},替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。 多机启动 以 Llama2-70B 为例,修改多机config.yam
请参见训练tokenizer文件说明。 步骤三 启动训练脚本 请根据表1修改超参值后,修改config.yaml中的${command},替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。 多机启动 以 Llama2-70B 为例,修改多机config.yam
请参见训练tokenizer文件说明。 步骤三 启动训练脚本 请根据表1修改超参值后,修改config.yaml中的${command},替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。 多机启动 以 Llama2-70B 为例,修改多机config.yam
/bin/activate TensorFlow-1.8 如果需要在其他python环境里安装,请将命令中“TensorFlow-1.8”替换为其他引擎。 图3 激活环境 在代码输入栏输入以下命令安装Shapely。 pip install Shapely 在JupyterLab中新建ipynb文件
//hccn.conf配置挂载 进入容器,并查看卡信息。 docker exec -it xxxxxxx bash //进入容器,xxxxxxx替换为容器id npu-smi info //查看卡信息 图13 查看卡信息 执行下述命令启动训练任务。 cd /home/ma-use
container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同 进入容器。需要将${container_name}替换为实际的容器名称。 docker exec -it ${container_name} bash 步骤二:上传代码、权重和数据集到容器中
为4.41.2版本。 pip install transformers==4.41.2 falcon-11b,参考falcon-11B模型替换文件。 否,忽略此步骤,执行下一步。 如需其他配置参数,可参考表1按照实际需求修改。 Step3 启动训练脚本 修改完yaml配置文件后,
修改config.yaml中的${command} 请根据步骤二 修改训练超参配置修改超参值后,修改config.yaml中的${command},替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。 多机启动 以 Llama2-70B 为例,修改多机config.yam
修改config.yaml中的${command} 请根据步骤二 修改训练超参配置修改超参值后,修改config.yaml中的${command},替换为容器中执行训练的命令。Llama2-70B建议为4机32卡训练。 多机启动 以 Llama2-70B 为例,修改多机config.yam
driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it ${container_name}
save_root 输出结果的根目录 epochs 测试轮数 ascend_version 昇腾版本号,仅用于生成输出结果的文件名,可以自定义字符串,不影响运行 use_pd_separate 分离部署相关的SLO指标统计开关 根据不同场景,需要调整以上参数,其中request_ra
@modelarts:end_index 否 Integer 命名实体标签专用内置属性:文本的结束位置,但不包括end_index所指的字符。例如: 文本内容为“Barack Hussein Obama II (born August 4, 1961) is a attorney
训练作业配置参数说明 参数 说明 Job Name 训练作业的名称。 系统会自动生成一个名称,您可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 并包含大小写字母、数字、中划线(-)或下划线(_)。 Job Description 训练作业的简要描述。 Algorithm Source
workspace_id String 指定作业所处的工作空间,默认值为“0”。 description String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。 create_time Long 训练作业创建时间戳,单位为毫秒,创建成功后由ModelArts生成返回,无需填写。
driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it ${container_name}
04系统),安装NVIDIA驱动版本515、CUDA版本11.7、nvidia-fabricmanager版本515,并进行nccl-test测试。 替换apt源。 sudo sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud
JobInput 参数 参数类型 描述 name String 输入数据的名称,支持1到64位只包含英文、数字、下划线(_)和中划线(-)的字符。 type String 输入项类型。枚举值如下: dataset:数据集 obs:OBS data_selector:数据选择 data
请求参数如表2所示。 表2 请求参数 参数 是否必选 参数类型 说明 job_desc 否 String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。 config 是 Object 创建训练作业需要的参数。详情参见表3。 表3 config属性列表 参数
启动成功的回显 执行如下命令,查看日志。日志显示如图所示表示成功执行动态路由。 kubectl logs {pod-name} 其中{pod-name}替换为实际pod名称,可以在5的回显信息中获取。 图4 成功执行动态路由的回显 只有任务节点大于等于3的训练任务才能成功执行动态路由。 如果执
e}.obs.cn-north-4.myhuaweicloud.com/${folder_name}/pytorch.tar.gz",需要替换为1中pytorch.tar.gz在OBS上的路径(需将文件设置为公共读)。 进入Dockerfile目录,通过Dockerfile构建镜像命令: