检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务治理概述 服务治理是一个非常宽泛的概念,一般指独立于业务逻辑之外,给系统提供一些可靠运行的系统保障措施。针对微服务场景下的常用故障模式,提供的保障措施包括: 负载均衡管理:提供多实例情况下的负载均衡策略管理,比如采用轮询的方式保障流量在不同实例均衡。当一个实例发生故障的时候,
Spring Cloud Huawei与Java-chassis历史版本修复问题 本章列出了在Spring Cloud Huawei与Java-chassis框架历史版本中修复的所有问题。 Spring Cloud Huawei历史版本及版本修复问题 spring-cloud-huawei版本
如何使用资源管理插件 在常规代码开发中,通常会将一些高频率用到的一些代码片段抽离出来业务代码,使其成为一个公共函数,减少重复的代码,从而达到代码复用的目的。 同样,在编排流程元模板中,不可避免地需要编写一些高代码进行组合开发,这里同样存在存储一些公共函数以供各处调用需求。资源管理
创建告警标记规则为告警打标签 告警标记的作用是为一段时间内的告警打上标签。例如现网变更时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签,与正常告警进行区分。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
创建日志清理作业定时清理日志 监控服务支持配置日志清理作业,完成目录及文件的压缩、删除和清空操作。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已设置执行机。 创建日志清理作业 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维
在SLB中创建Action任务 在SLB管理台创建action任务,在部署服务的变更管理中关联并执行任务。 创建节点上下线任务 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“灰度管理 > Action任务”。
some certificate not in /opt/huawei/openresty/nginx/conf/ssl 问题现象 SLB部署失败,日志详细信息提示如下: "some certificate not in /opt/huawei/openresty/nginx/conf/ssl"
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 数据集下载 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以
准备权重 获取对应模型的权重文件,获取链接参考表1。权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。文件会直接下载用户本地,需要再上传至SFS Turbo中。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.909)
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
精度调优总体思路 精度问题定位首先要能在昇腾环境上稳定地复现问题,这样才可以在该异常场景下进行针对性分析。大模型训练通常使用多机训练,多机训练的问题复现成本通常较高,且难以直接Dump分析(例如直接使用精度工具采集整网Tensor信息可能会产生TB级的Dump数据,存储和复制都比
Msprobe工具使用指导 Msprobe API预检 Msprobe精度比对 Msprobe梯度监控 父主题: PyTorch迁移精度调优
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 数据集下载 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以