检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从0制作自定义镜像用于创建训练作业(Tensorflow+GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow,训练使用的资源是GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux
权重格式离线转换(可选) 在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间
例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme.md” 必选文件,数据集要求说明,定义了模型训练时对数据集的要求,会显示在微调工作流的“准备数据”页面。
$PYTHONPATH 图10 运行代码 自动停止及续期 在创建或启动Notebook时,如果启用了自动停止功能,则在JupyterLab的右上角会显示当前实例停止的剩余时长,在计时结束前可以单击剩余时间进行续期。 图11 自动停止 图12 续期 JupyterLab常用快捷键和插件栏 图13
成下架。 资产下架后,已订阅该资产的用户可继续正常使用,其他用户将无法查看和订阅该资产。 图6 下架资产 资产下架成功后,操作列的“下架”会变成“上架”,您可以通过单击“上架”将下架的资产重新共享到AI Gallery中。 父主题: 发布分享
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间
Step2 权重格式离线转换(可选) AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间
表示训练间隔多少step,则会保存一次权重文件。 SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。 对于ChatGLMv3-6B、GLMv4-9B和Qwen
NORMAL:状态正常。 DELETING:正在删除。 DELETE_FAILED:删除失败。 status_info String 状态描述,默认为空。该字段会补充显示状态的详细信息。如删除失败时,可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用
权重相加必须等于100;当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时,持续地访问此服务的预测接口,ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification 是 String 资源规格,当前版本可选modelarts.vm
表示训练间隔多少step,则会保存一次权重文件。 SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。 对于Yi系列模型、ChatGLMv3-6B和Qwen系列
表示训练间隔多少step,则会保存一次权重文件。 SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。 对于ChatGLMv3-6B、GLMv4-9B和Qwen
关于IAM的详细介绍,请参见IAM产品介绍。 角色与策略权限管理 ModelArts服务支持角色与策略授权。默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。
--configFile=./configs/unet.ini 最多支持100档配置,每一档通过英文逗号分隔。 如果用户设置的dim数值过大或档位过多,可能会导致模型编译失败,此时建议用户减少档位或调低档位数值。 如果用户设置了动态维度,实际推理时,使用的输入数据的shape需要与设置的档位相匹配。
复,待修复完成后,节点状态会变为“可用”。 当前支持“换件维修”和“重部署”两种修复方式: - 换件维修:通过更换硬件实现原地修复,修复耗时较长,对于非本地盘类故障,本地盘数据可以保留。 - 重部署:通过更换为新服务器实现修复,修复耗时较短,本地盘数据会丢失。 修复期间实例将无法
参考其他自定义镜像制作教程。 Mindspore版本与CANN版本,CANN版本与Ascend驱动/固件版本均有严格的匹配关系,版本不匹配会导致训练失败。 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹
下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。 在左上角的服务列表中,选择ModelArts服务,进入ModelArts管理控制台。
当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1 SAVE_TOTAL_LIMIT
Array of resource_requirements objects 算法资源约束,可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config advanced_config object 算法高级策略: auto_search
后才能使用。 首先请联系客户经理确认Server资源方案,部分规格为受限规格,因此需要申请开通您所需的资源规格。 Server所需资源可能会超出华为云默认提供的资源配额(如ECS、EIP、SFS),因此需要提交工单提升资源配额。 为子用户账号开通Server功能所需的基础权限。