检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建业务工具并执行脚本 监控服务支持创建业务工具用来定义相关业务脚本,例如机器的巡检、配置检查等,用户可以选择资源(虚拟机、容器或者虚拟机集群)来执行作业脚本。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建业务工具 进入AppStage运维中心
在SLB中配置内网段 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置内网段 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“实例管理”。 在实例列表中单击实例名称
在SLB中进行降级配置 降级配置是在业务高峰期时,需要临时减少对于目标服务的访问,达到降低目标服务负载;或者屏蔽对于非关键服务的访问,保持本服务的核心处理能力的治理措施。降级执行流程如图1所示。 图1 降级执行流程 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限
在SLB中管理灰度状态 管理灰度发布的整个执行阶段。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 启动灰度 如果初始配置发布时,没有选择启用灰度,灰度服务当前状态为待启动,可以在灰度管理中启用灰度。 进入AppStage运维中心
在SLB中创建Action任务 在SLB管理台创建action任务,在部署服务的变更管理中关联并执行任务。 创建节点上下线任务 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“灰度管理 > Action任务”。 单击
在SLB中创建资源组 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 在SLB中创建资源组 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“资源管理 > 资源组”。
查看微服务的依赖关系 本文介绍通过管理台查看及删除微服务的依赖关系。 查看微服务依赖的服务 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现”。 选择左侧导航栏的“服务目录 > 一方服务”。 选择“微服务列表”页签,单击微服务列表中的微服务名
新增数据库SDK配置并注册到Cloud Map 创建数据库连接时,传统的做法是在配置文件中配置用户名、密码等连接信息,通过调用SDK连接数据库。WiseDBA管理台提供SDK配置功能,支持在WiseDBA管理台配置连接信息,并注册到Cloud Map中,在创建数据库连接时,直接调用
为用户任务设置监听器 流程超时处理的核心逻辑是通过设置超时时间,当某个流程节点超过预设时间未完成时,触发超时处理机制,以确保流程的顺利进行和异常情况的及时处理。例如,在工业安灯系统中,如果异常信息在规定时间内未得到处理,系统会自动向上级反馈,确保问题及时解决;在机器人执行加工任务时
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行预训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf.sh
录制Profiling Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行预训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf.sh
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.910)
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码
训练的数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。若未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data.sh
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,若直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh 文件,来安装依赖以及下载完整代码
训练的权重转换说明 以llama2-13b举例,使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf.sh