检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
接成/home/ma-user/),导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。 部分训练任务会在训练过程中生成checkpoint文件,并进行更新。如更新过程中,未删除历史的checkpoint文件,会导致/cache目录逐步被用完。 实际存储空间足够,却依旧报错“No
即便模型训练中断,也可以基于checkpoint接续训练。 当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练,加载中断生成的checkpoint,中间不需要改动任何参数(支持预训练、LoRA微调、SFT微调)。 如果要使用自动重启功能,资源规格必须选择八卡规格。
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
训练作业的版本名称。 请求示例 如下以创建“job_id”为10,“pre_version_id”为20的一个新版本作业为例。 POST https://endpoint/v1/{project_id}/training-jobs/10/versions/ { "job_desc":
I引擎”。 “容器调用接口” 当“AI引擎”选择“Custom”时,才会显示该参数。 模型提供的推理接口所使用的协议和端口号,缺省值是HTTPS和8080,端口和协议需要根据模型实际定义的推理接口进行配置。 “健康检查” 用于指定模型的健康检查。使用Custom引擎时,会显示该参
String 参数名称。 value String 参数值。 请求示例 如下以查询名为“config123”的作业参数详情为例。 GET https://endpoint/v1/{project_id}/training-job-configs/config123 响应示例 成功响应示例
在线服务”,单击生成的在线服务名称,即可进入在线服务详情页。 在服务详情页,单击选择“预测”页签。 图4 上传预测图片 单击“上传”,选择一张需要预测的图片,单击“预测”,即可在右边的预测结果显示区查看您的预测结果。 图5 预测样例图 图6 查看预测结果 本案例中数据和算法生成的模型仅适
在线服务”,单击生成的在线服务名称,即可进入在线服务详情页。 在服务详情页,单击选择“预测”页签。 图4 上传预测图片 单击“上传”,选择一张需要预测的图片,单击“预测”,即可在右边的预测结果显示区查看您的预测结果。 图5 预测样例图 图6 查看预测结果 本案例中数据和算法生成的模型仅适
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
多卡训练时,需要依赖“rank_table_file”做卡间通信的配置文件,该文件自动生成,pod启动之后文件地址。为“/user/config/jobstart_hccl.json”,“/user/config/jobstart_hccl.json”配置文件生成需要一段时间,业务进程需要等待“/user/config/jobstart_hccl
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home
bucket/XXX.txt”。用户无法直接使用open方法打开OBS文件,上面描述的打开本地文件的代码将会报错。 OBS提供了很多方式和工具给用户使用,如SDK、API、console、OBS Browser等,ModelArts mox.file提供了一套更为方便地访问OBS
功能 子任务 ModelArts与OBS的关系 自动学习 数据标注 ModelArts标注的数据存储在OBS中。 自动训练 训练作业结束后,其生成的模型存储在OBS中。 部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 AI全流程开发 数据管理 数据集存储在OBS中。
支持同时购买多台机器,输入值必须在1到10之间。 若有多台机器资源,会生成对应多笔订单,需逐一支付每笔订单,不可合并支付。 单击“立即创建”,完成实例的创建,随后进入付款界面。 支付对应资源的订单。 图8 支付订单 若有多台机器资源,会生成对应多笔订单,需逐一支付每笔订单,不可合并支付。 支付完
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。若用户需要修改,可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/
ue 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Dee