检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
strings 允许远程接入的公网IP地址列表,最多5个。 service 否 String 支持的服务,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings
object 数据实际输入信息,异构作业只支持OBS。 表28 remote 参数 参数类型 描述 obs obs object 数据输入输出信息为OBS方式。 表29 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。如:“/usr/data/”。
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf
print("Default bucket name: ", obs_bucket) default_obs_dir = f"{obs_bucket}/intermidiate" #default_obs_dir = "obs://your-bucket-name/folder-name"
Estimator初始化参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。
预训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b预训练为例,执行脚本0_pl_pretrain_13b
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中,具体参考代码上传至OBS和使用Notebook将OBS数据导入SFS Turbo。 Step1 在Notebook中修改训练超参配置 以llama2-13b SFT微调为例,执行脚本 0_pl_sft_13b
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 https://{endpoint}/v1/{project_id}/services/a55eba18-1ebf-4e9a-8229-d2d3b593a3dc/tags/delete
"api_remark" : "string", "auth_type" : "APP", "predict_url" : "https://3565150c2e5c45d0989be40350dd80ed.apig.xxxxxx.com/test", "service_id"
me/ma-user/.ssh/etc/sshd_config 每24h向client端主动发个包,3次发包均无响应会断开连接 参考:https://unix.stackexchange.com/questions/3026/what-do-options-serveralive
定时调度策略中的标记,失败时触发。 on_running String 定时调度策略中的标记,running时触发。 请求示例 更新调度信息 PUT https://{endpoint}/v2/{project_id}/workflows/{workflow_id}/schedules/fa4a
从自定义镜像导入。 从OBS导入时使用自定义引擎。 按需配置。 OBS obs:bucket:ListAllMybuckets obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:GetBucketLocation obs:object:GetObject
具体错误信息。 请求示例 为指定的Notebook添加资源标签。例如设置TMS标签的key为“test”,value为“service-gpu”。 https://{endpoint}/v1/{project_id}/notebooks/a55eba18-1ebf-4e9a-8229-d2d3
将所需的数据上传至此OBS桶中。 检查OBS的路径是否正确,是否写为了“obs://xxx”。可使用如下方式判断OBS路径是否存在。 mox.file.exists('obs://bucket_name/sub_dir_0/sub_dir_1') 路径存在,请执行4。 路径不存在,请在更换为一个可用的OBS路径。
导入路径 选择需要导入数据的OBS路径,此位置会作为数据集的数据存储路径。 说明: “导入路径”不支持OBS并行文件系统下的路径,请选择OBS对象桶。 创建数据集时,此OBS路径下的数据会导入数据集,后续如果直接在OBS中修改数据,会造成数据集的数据与OBS的数据不一致,可能导致部分
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5