检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
model parallel size)流水线模型并行策略,具体详细参数配置如表2所示。 Step2 创建LoRA微调训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像
”。 填写“用户组名称”并单击“确定”。 在操作列单击“用户组管理”,将需要配置权限的用户加入用户组中。 单击用户组名称,进入用户组详情页。 在权限管理页签下,单击“授权”。 图2 “配置权限” 在搜索栏输入“ModelArts FullAccess”,并勾选“ModelArts
取相关的操作,满足算法工程师进行日常训练的需要。 ModelArts Lite Cluster面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。
数据实际输出到OBS的路径 表33 engine 参数 参数类型 描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String
数据实际输出到OBS的路径。 表33 engine 参数 参数类型 描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String
"engine_name" : "PyTorch", "engine_version" : "PyTorch-1.3.0-python3.6" }, "code_tree" : { "name" : "code/", "children"
rm连接Notebook操作请参见配置本地IDE(PyCharm ToolKit连接)。 在本地IDE的终端运行如下命令进行环境准备。Python版本要求:3.7.x或以上版本。 rm modelarts*.whl wget -N https://cn-north-4-training-test
开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。如果未勾选“无条件自动重启”
s/llava-v1.5-13b-pretrain路径下,并输出模型训练精度和性能信息。 训练过程中,训练日志会在最后的Rank节点打印。 日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。
configMap: name: prometheus-config 执行如下命令创建Prometheus实例,并查看创建情况: $ kubectl create -f prometheus-deployment.yml service "prometheus"
模型发布后,支持修改可见范围。 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 管理模型可用范围 仅当发布模型时,“可用范围”启用“申请用户可用”时,才支持管理模型的可用范围。管理操作包含如何
Gallery的用户都可以查看且使用该资产。 “指定用户”:表示仅特定用户可以查看及使用该资产。 “仅自己可见”:表示只有当前账号可以查看并使用该资产。 “时长限制”。 设置订阅者可以免费使用资产的时长,默认关闭,即无限期使用。如果打开时长限制,除了设置资产免费使用的时长,还可以设置到期后是否续订。
用户可以在ModelArts Standard专属资源池上拆分出逻辑子池,并设置每个子池的资源配额,包括保障配额和配额上限。拆分出逻辑子池后,训练、推理和开发环境的任务投递,需要投递在逻辑子池上,并受逻辑子池的配额约束,满足配额约束的任务才能被投递运行。 在资源池详情页,切换
的训练环境 支持单机多卡、多机多卡的分布式训练,有效加速训练过程 支持训练作业的故障感知、故障诊断与故障恢复,包含硬件故障与作业卡死故障,并支持进程级恢复、容器级恢复与作业级恢复,提供容错与恢复能力,保障用户训练作业的长稳运行 提供训练作业断点续训与增量训练能力,即使训练因某些原
g Face格式权重。若用户需要自动转换,则在运行脚本,例如0_pl_pretrain_13b.sh中,添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换,则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下:
g Face格式权重。若用户需要自动转换,则在运行脚本,例如0_pl_pretrain_13b.sh中,添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换,则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下:
Gallery的用户都可以查看且使用该资产。 “指定用户”:表示仅特定用户可以查看及使用该资产。 “仅自己可见”:表示只有当前账号可以查看并使用该资产。 发布来源为“ModelArts”的数据集,发布后在AI Gallery“我的数据 > 我的发布”不会立即显示,需要刷新该页面才能看到新发布的数据集。
问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建IAM用户并使用他们进行日常管理工作。 IAM用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可
建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开
数据实际输出到OBS的路径。 表35 engine 参数 参数类型 描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String