检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“创建训练作业”页面,填写相关参数信息,然后单击“下一步”。 创建方式:选择“自定义算法”。 镜像来源:选择“自定义”。 镜像地址:Step5 制作自定义镜像中创建的镜像。
参数名称 说明 iam_url IAM地址,默认为“https://iam.myhuaweicloud.com/v3/auth/tokens”。
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co
如果报错路径为训练数据路径,需要在以下两个地方完成适配,具体适配方法请参考自定义算法适配章节的输入输出配置部分: 在创建算法时,您需要在输入路径配置中设置代码路径参数,默认为“data_url”。 您需要在训练代码中添加超参,默认为“data_url”。
解决方案1 检查代码,检查是否有参数中未传入“master_ip”和“rank”参数等问题。 问题现象2 分布式训练的日志中,发现有的节点含有GDR信息,而有的节点无GDR信息,导致卡死的原因可能为GDR。
2个样本,从“@modelarts:hard”参数可知有一个难例样本。
MsliteModel各参数模型说明已给出,根据模型初始化参数设置当前模型使用onnx模型(运行在CPU上)或mindir模型(运行在昇腾设备上),也能够方便进行精度的校验。
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co
使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址 data_path:预训练数据集地址 即一中生成的文件地址 seed:生成训练data所使用的seed(此处42为开源训练设定参数
使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址 data_path:预训练数据集地址 即一中生成的文件地址 seed:生成训练data所使用的seed(此处42为开源训练设定参数
表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT OBS 默认必须填写。表示代码根据OBS存储方式运行。 MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE lora 表示训练类型。
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co
使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama model_name:模型地址 data_path:预训练数据集地址 即一中生成的文件地址 seed:生成训练data所使用的seed(此处42为开源训练设定参数
os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK,secret_key=__SK, project_id='***', region_name='***') 其中,各参数说明如下
表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co
图2 环境变量 表1 需要填写的环境变量 环境变量 示例值 参数说明 MOUNT OBS 默认必须填写。表示代码根据OBS存储方式运行。 MODEL_NAME llama2-13b 输入选择训练的模型名称。 RUN_TYPE sft 表示训练类型。
docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像,启动前可以根据实际需要增加修改参数。
返回状态码“200 OK”表示删除成功,响应Body如下所示: { "result": true } 如果请求参数user_id="all-users",表示删除全量用户授权,返回状态码“200 OK”表示删除成功,响应Body如下所示: { "result": true
请根据界面提示,填写必选参数,然后单击“下一步”。 将子用户子账号加入用户组。在“加入用户组”步骤中,选择“用户组”,然后单击“创建用户”。系统将前面设置的多个用户加入用户组中。 用户登录并验证权限。