华为云用户手册

  • 大数据融合分析 随着IT、信息技术的发展和进步,数据资源已经成为企业的核心资源。整合数据资源,构建大数据平台,发现数据价值,成为企业经营的新趋势和迫切诉求。而如何从海量数据中快速挖掘“价值”,成为助力客户实现预测性分析的关键要素。 图2 大数据融合分析 优势 统一分析入口 以DWS的SQL作为上层应用的统一入口,应用开发人员使用熟悉的SQL语言即可访问所有数据。 实时交互分析 针对即时的分析需求,分析人员可实时从大数据平台中获取信息。 弹性伸缩 增加节点,即可扩展系统的数据存储能力和查询分析的性能,可支持PB级数据的存储和计算。
  • 数据仓库 迁移 数据仓库是企业的重要数据分析系统,随着业务量的增长,自建数仓性能逐渐不能满足实际要求,同时扩展性差、成本高,导致扩容极为困难。DWS作为云上企业级数据仓库,具备高性能、低成本、易扩展等特性,满足大数据时代企业数据仓库业务诉求。 图1 数据仓库迁移 优势 平滑迁移 DWS提供配套的迁移工具,可支持Teradata、Oracle、MySQL、SQL Server、PostgreSQL、Greenplum、Impala等常用数据分析系统的平滑迁移。 兼容传统数据仓库 DWS支持SQL 2003标准,兼容Oracle的部分语法和数据结构,支持存储过程,可与常用BI(business intelligence)工具无缝对接,业务迁移修改量极小。 安全可靠 DWS支持 数据加密 ,同时可与数据库安全服务对接,保证云上数据安全。同时DWS支持数据自动全量、增量备份,提升数据可靠性。
  • 增强型ETL和实时BI分析 数据仓库在整个BI系统中起到了支柱的作用,更是海量数据收集、存储、分析的核心。为IoT(Internet of things)、金融、教育、移动互联网、O2O(Online to Offline)等行业提供强大的商业决策分析支持。 优势 数据迁移 多数据源,高效批量、实时数据导入。 高性能 PB级数据低成本的存储与万亿级数据关联分析秒级响应。 实时 业务数据流实时整合,及时对经营决策进行优化与调整。 图3 增强型ETL+实时BI分析
  • 实时数据分析 移动互联网、IoT场景下会产生大量实时数据,为了快速获取数据价值,需要对数据进行实时分析,DWS通过+时序、+流、+AI引擎,实现快速入库和查询能力,可支持实时数据分析。 图4 实时数据分析 优势 流式数据实时入库 IoT、互联网等数据经过流计算及AI服务处理后,可实时写入DWS。 实时监控与预测 围绕数据进行分析和预测,对设备进行监控,对行为进行预测,实现控制和优化。 AI融合分析 AI服务对图像、文本等数据的分析结果可在DWS中与其他业务数据进行关联分析,实现融合数据分析。 IoT场景 图5 IoT场景 物联网(IoT)所产生的数据,通过构建 GaussDB (DWS) ,围绕海量的数据进行实时分析并进行反馈优化。应用在工业IoT、O2O业务系统、车联网等解决方案。 优势如下: 流式数据实时入库:IoT设备及网关汇集的流式数据经华为云DIS导入至GaussDB(DWS) 。 设备监控与预测:围绕数据,进行分析和预测,对设备进行监视、控制和优化补给,以及自我诊断和修复。 信息推荐:结合围绕在用户周围的联网设备汇集的数据,为用户进行定向的信息推荐。
  • 技术背景 在分布式share nothing架构下,表的数据分布在不同的节点上。客户端的一条或多条语句可能会同时修改多个节点上的数据,这种情况下,会产生分布式事务。分布式事务需要关注: 在各个节点上事务的原子性,分布式事务在所有节点上要么全部成功要么全部失败。 事务的一致性,查询在各个节点上返回一致的数据。当节点出现故障时,是否会返回不一致的数据。 其中,分布式事务的原子性是必须要满足的,分布式事务的一致性根据CAP理论会有不同的标准,常见的是支持强一致2pc、3pc协议等的CP系统,或者支持最终一致性TCC、消息表等的AP系统。
  • 验证钉钉认证登录 OneAccess 用户门户 用户访问用户门户,选择钉钉登录,如果是初次登录应用系统,会要求绑定手机号。 图2 选择钉钉认证 钉钉扫码登录流程与配置钉钉认证源中的 “自动手机号绑定” 及 “未关联用户时” 两个选项有关,该选项启用与禁用时的扫码登录流程有区别,建议启用该选项。 自动手机号绑定 自动手机号绑定选项禁用 使用钉钉移动端扫描二维码登录,如果用户第一次扫码登录则会出现输入手机号和验证码绑定已有用户界面,如果已绑定过则会直接进入应用。 自动手机号绑定选项启用 使用企业微信移动端扫描二维码登录,如果用户第一次扫码登录则会自动使用钉钉手机号查找系统中手机号相同的用户自动绑定,不需要输入手机号和验证码进行绑定,已登录过则直接进入应用系统。如果钉钉手机号未查询到已存在的用户则会提示未找到关联用户。 配置钉钉认证源中的 “未关联用户时” 选项选择绑定或注册时,如果钉钉手机号未匹配到已存在的用户则会根据绑定手机号自动创建用户,用户需填写注册表单。
  • 应用场景介绍 Gartner魔力象限将可观测性作为IT与运维自动化服务重点领域,认为可观测性进入第一轮行业景气高峰;同时,微服务、service mesh、Devops等技术导致系统复杂度快速提升,运维难度和人力成本激增,自动化、智能运维成为业界焦点。可观测性领域同传统监控、告警、 应用性能管理 APM )等交叉,但是侧重全链路、全局质量、性能分析,智能提供优化建议,契合微服务时代复杂系统需求。 观测云方案主要面向互联网、零售、出海、ISV,其主要应用场景如下: 泛互联网客户,对多云、混合云、跨地域统一监控; 连锁商超、酒店、制造客户,对海量边缘节点的统一监控集中管理 电商客户,从页面下单、库存记录到订单物流的全链路数据追踪 金融、公共客户,对 App、小程序或网页的访问卡顿排障,可识别热点区域或性能卡点。 面向上述行业,总结了这类行业客户的目标画像和需求痛点,主要分为四个方面: 泛互联网:业务极度依赖线上应用,并对系统稳定性要求高(如健康码、电商) 游戏/零售等2C企业:在线应用频繁迭代,需兼顾稳定性和了解用户使用反馈(如游戏、社交App) 出海需求:因数据安全或数据出境安全法原因,必须替换海外品牌产品(各类企业,包括华为) 提供SaaS化服务的ISV:或提供本地化部署的ISV,客服需快速响应故障上报(如企服 SaaS) 观测云专注可观测性领域,对标datadog,完全自研产品和组件模块,实现真正统一多元数据存储、自研专属分析语言,单一的安全可靠数据采集器,运营健康度SLO模型,强表现力可二次开发数据面板,完全兼容OPLG数据标准,可面向异构多云提供服务。
  • 方案架构 观测云是一款面向开发、运维、测试和业务团队的实时数据监测平台,统一满足云服务、云原生应用、云上业务的监测需求,快速实现基础设施、中间件、应用层和业务层可观测能力。包含基础设施监控、日志与指标监控、应用性能监控、用户访问与体验监控、异常监控、安全巡检、健康度检测、仪表盘和数据面板等多项可观测性解决方案,提供了统一数据采集、全面数据监控、无缝关联分析、高度可编程性,敏捷团队协作的优质服务体验 图1 业务架构图 架构描述:
  • 方案优势 观测云是一款面向开发、运维、测试和业务团队的实时数据监测平台,统一满足云服务、云原生应用、云上业务的监测需求,快速实现基础设施、中间件、应用层和业务层可观测能力。包含基础设施监控、日志与指标监控、应用性能监控、用户访问与体验监控、异常监控、安全巡检、健康度检测、仪表盘和数据面板等多项可观测性解决方案,提供了统一数据采集、全面数据监控、无缝关联分析、高度可编程性,敏捷团队协作的优质服务体验 场景普适性:实现IT系统的跨平台,跨系统,跨技术栈的全生命周期的全面可观测,优化IT团队的效能;一套系统,可支持异构多云或IDC+云的混合架构 一体化服务:统一采集数据agent,统一指标体系、统一运维数据存储,统一关联数据分析,统一数据看板,解决运维和监控数据孤岛,实现数据关联查询实现与多维分析,大大提升运维团队和开发团队的维护和系统优化效率 智能化运维:构建运维专家系统,快速定位性能瓶颈、程序崩溃、内存泄露、网络异常等电信场景,并支持二次开发,适配丰富用户场景,实现自动化运维,真正解决运维难题 生态亲和性:支持开源生态,与openmetrics等开源数据采集标准完全兼容 全按需付费:SAAS版本服务,按照运维数据存量和分析量,完全按需弹性计费,实现0 成本启动,大大降低推广门槛
  • 资源和成本规划 表1 资源和成本规划 云服务 规格 数量 计费模式 计费周期 总价 云容器引擎 产品分类: CCE容器集群 | 混合集群 | 50节点 | 是 1 包周期 1月 ¥1262.40 NAT网关 规格: 小型 1 包周期 1月 ¥306.00 弹性公网IP 带宽费用: 独享 | 全动态BGP | 按带宽计费 | 1Mbit/s 弹性公网IP费用: 1个 1 包周期 1月 ¥23.00 弹性负载均衡 实例规格类型: 共享型负载均衡 1 按需计费 1小时 ¥0.32 云数据库 RDS(for MySQL) rds.mysql.c6.large.2.ha,2核,4G,100GiB,版本5.7 1 包周期 1月 ¥562.00 云数据库 GaussDB(for Influx) geminidb.influxdb.xlarge.4,4核16G,100GiB, 版本1.7 1 包周期 1月 ¥1360.60 分布式缓存服务Redis 版本号: 4.0 | 主备 | X86 | D RAM | 2 | 4 GB 1 包周期 1月 ¥277.60 企业主机安全 规格: 企业版 1 包周期 1月 ¥90.00 Anti-DDoS流量清洗 120 Mbps 1 包周期 1月 ¥0.00 Web应用防火墙 规格选择: 入门版 1 包周期 1月 ¥99.00 云堡垒机 性能规格: 100资产标准版 1 包周期 1月 ¥3780.00 漏洞扫描服务 服务类型: 漏洞扫描 服务 | 专业版 | 1个 1 包周期 1月 ¥300.00 云备份 存储库类型: 云服务器备份存储库 | 1000GB 1 包周期 1月 ¥200.00 弹性文件服务 规格: SFS 容量型 | 100GB 1 包周期 1月 ¥30.00 弹性云服务器 规格: X86计算 | 通用入门型 | t6.xlarge.2 | 4核 | 8GB 镜像: CentOS | CentOS 8.2 64bit 系统盘: 高IO | 40GB 5 包周期 1月 ¥1117.50
  • 服务优势 统一变更的管控入口,变更管理除支持IaC变更外增加对手工运维变更和ITR紧急变更的统一管控和变更记录。 统一运行时托管平台,将可靠性、韧性、可运维、安全等能力built-in,实现服务部署即可信。 基于IaC3.0声明式,实现资源创建、服务部署、配置变更自动化对接运行时,实现服务可靠运行。 具有丰富的变更评估因素和评估算法,具有高评估召回率和准确率。 支持根据评估结果对变更进行干预(暂停、回滚等),实现系统自动决策。
  • 主要功能介绍 主要功能 功能说明 变更管理 含变更流程管理、变更流程编排、变更灰度执行的能力,用于端到端控制变更质量和效率。 IaC引擎 声明式变更执行引擎,负责IaC代码的解析和执行,插件式框架支持多种资源操作的扩展定制。执行过程支持变更灰度策略、风险控制等能力。 软件仓库 支持微服务、函数、web静态资源、SQL、大数据/AI训练模型、容器镜像等多种软件制品的发布和管理,生产环境软件制品唯一来源。 环境管理 部署服务IaC代码执行后,提供环境的创建,删除,更新,归档,恢复等全生命周期管理,并按照环境聚合环境包含的资源的监控数据。 配置管理 统一配置中心,含IaaS-PaaS-SaaS软件配置,全球化统一管理,支持完整性检查、冲突校验等治理能力。支持灰度分发配置能力,支持配置项按灰度策略按比例分发到Agent节点等。
  • 使用流程 使用部署服务完成自动化变更流程如下: 准备工作 准备软件包:将开发完成的应用软件包通过流水线发布至部署服务,或者将已有的应用软件包上传至部署服务。 准备环境:应用部署前需要先准备环境。 变更前配置 创建变更电子流:变更工单是实施现网变更的授权许可,业务需要发起现网变更时,通常会由研发人员提交变更电子流,并附上对应的变更文档。该电子流被审批通过后,会在变更工单管理中,创建一条对应的变更工单,运维可使用变更工单实施变更。 创建变更策略(可选):部署服务提供对变更过程中的风险项进行管控,如需实现无人值守变更,可以通过创建变更策略实现。 创建变更配置(可选):部署服务提供配置部署服务自动变更的巡检场景和通知参数,如需实现无人值守变更,可通过创建变更配置实现在变更时对相应的变更项进行巡检。 变更环境 IaC变更:部署服务可以通过部署服务代码,完成资源申请、集群扩容、虚拟机部署、配置集/配置项创建等变更。 界面变更(可选) 创建集群:部署服务支持通过界面直接创建虚拟机部署的集群。 扩容集群:部署服务支持通过界面对已申请或者已创建的集群进行扩容。 部署虚拟机:部署服务支持通过界面完成虚拟机部署。 其他功能 Terraform变更(可选):使用Terraform引擎将业务部署至应用平台AppStage。
  • 运维中心工作台介绍 AppStage运维中心工作台如图1所示。 图1 运维中心工作台 AppStage运维中心工作台各模块功能如表1所示。 表1 工作台功能说明 编号 功能区域 说明 1 顶部导航栏 :服务列表按钮,在服务列表可切换运维中心提供的BaaS服务和中间件。 运维中心:单击可切换至运维中心工作台。 站点:可切换站点,当前仅支持“中国区2CBU生产”站点。 自有服务:可切换自有服务,即在业务控制台创建的产品及服务。 专项角色:可切换专项角色,专项角色可在组织内跨租户进行管理,具备跨租户的管理权限,包括基础运维角色、DBA(数据库DBA角色)等,如需申请专项角色权限请参见申请权限。 处于专项角色时,单击可退出专项角色。 :单击可复制分享链接。 EN/简体:可切换语言。 2 个人账号信息管理 审计日志:可查看登录账号在运维中心的所有操作日志,产品管理员可查看对应产品的所有操作日志。 我的信息:可以查看个人信息和已拥有的权限,也可以进行权限申请。 文档中心:可进入查看运维中心文档帮助。 工单管理:支持变更单与事件单的管理,具体介绍请参见工单管理。 服务环境配置:可以录入公有云账号、配置企业项目以及进行环境管理,具体介绍请参见服务环境配置。 租户管理:“我的租户”页面可以查看在业务控制台创建的组织(租户)、产品、服务和微服务信息。“订阅信息”页面可以查看已订阅的服务信息。 退出登录:退出当前登录账号。 3 运维接入一站式地图 可以按照指引完成运维接入,将华为云VPC、E CS 、CCE等接入运维中心进行运维管理,具体操作请参见运维接入。 4 常用功能 最近访问:展示近期已访问的服务,可单击快速访问。 书签:展示已收藏书签内容,可单击快速访问。 单击页面右侧悬浮菜单中的收藏按钮进行收藏,收藏后该页面可展示在已收藏书签列表。 已集成中间件:展示已集成的中间件。 已订阅服务:展示已订阅的服务。 5 告警 展示近期告警数据,将鼠标放置在该区域后单击,可进入监控服务页面查看详情数据。 6 CPU使用率 展示CPU使用情况,将鼠标放置在该区域后单击,可进入实时监控页面查看详细数据。 7 用户信息 显示当前用户信息,可以快捷查看已有权限或进行权限申请。 8 帮助文档 查看运维中心帮助文档。 父主题: 使用前必读
  • 背景信息 租户网络出口网关设备的IP对外暴露在公网上,可能存在安全隐患。互联网暴露面风险监测功能可以帮助租户统计网关设备暴露在公网中的IP,并识别其中存在暴露风险的端口或服务。 租户首次使用互联网暴露面风险监测功能时,可以单击页面右上角的“操作指引”了解使用流程。使用互联网暴露面风险监测功能必须对公网IP进行授权,不支持对未授权的公网IP进行风险评估。 只有边界防护与响应服务专业版套餐才包含互联网暴露面风险监测功能。
  • 配置思路 登录华为乾坤控制台,根据租户内网资产IP地址配置全局白名单,提升安全状态检测的准确性。 配置交换机: 配置Switch的GigabitEthernet0/0/2为观察端口,该端口直连防火墙,Switch将通过镜像将流量上送到防火墙进行检测。 配置Switch的GigabitEthernet0/0/1为镜像端口,开启端口镜像功能。 配置Switch的GigabitEthernet0/0/3为三层端口,与防火墙上漏洞扫描和 云日志 审计接口直连。 配置防火墙: 配置检测接口GE0/0/6为旁路检测模式,该接口与Switch的观察端口直连。 检查default策略的动作是否为“允许”,如果不是,将动作修改为“允许”。 加载云服务特性包。 配置防火墙与云平台对接。 配置边界防护与响应服务的业务参数。 将GE0/0/6加入trust安全域,并配置旁路检测所需要的安全策略。 配置漏洞扫描和云日志审计接口GE0/0/2为三层接口,并加入trust安全域,已购买漏洞扫描服务或云日志审计服务时需要配置。 分别配置漏洞扫描服务和云日志审计服务的业务参数,已购买漏洞扫描服务或云日志审计服务时需要配置。
  • 适用产品和版本 设备 版本 备注 防火墙USG65xxF: USG6525F/USG6555F/USG6565F/USG6585F/USG6585F-B/USG6520F-K/USG6560F-K/USG6590F-K/USG6510F-D/USG6530F-D/USG6510F-DK/USG6510F-DL/USG6530F-DL 防火墙USG66xxF:USG6615F/USG6625F/USG6635F/USG6655F/USG6685F/USG6620F-K/USG6650F-K 防火墙USG67xxF:USG6710F/USG6715F/USG6725F/USG6710F-K 边界防护与响应服务:V600R023C00SPC100及之后版本 - 防火墙USG65xxF:USG6525F/USG6555F/USG6565F/USG6585F/USG6520F-K/USG6560F-K/USG6590F-K/USG6510F-D/USG6530F-D/USG6510F-DK/USG6510F-DL/USG6530F-DL 防火墙USG66xxF:USG6615F/USG6625F/USG6635F/USG6655F/USG6685F/USG6620F-K/USG6650F-K 防火墙USG67xxF:USG6710F/USG6715F/USG6725F/USG6710F-K 漏洞扫描服务:V600R023C00SPC100及之后版本 - 防火墙USG65xxF:USG6525F/USG6555F/USG6565F/USG6585F/USG6520F-K/USG6560F-K/USG6590F-K/USG6510F-D/USG6530F-D/USG6510F-DK/USG6510F-DL/USG6530F-DL 防火墙USG66xxF:USG6615F/USG6625F/USG6635F/USG6655F/USG6685F/USG6620F-K/USG6650F-K 防火墙USG67xxF:USG6710F/USG6715F/USG6725F/USG6710F-K 云日志审计服务:V600R023C00SPC100及之后版本 -
  • 背景信息 Metadata是提取设备原始流量中的会话信息、协议信息等生成的流量元数据,华为乾坤可以对Metadata数据进行智能检测,有效防范通过Web进行的攻击行为(包括信息泄露、凭证窃取、注入检测和拒绝服务等)和通过DNS协议请求恶意 域名 的外联行为。 对于内网重要资产,用户可根据实际需要配置Metadata检测防护规则。华为乾坤根据配置的防护网段接收Metadata数据,并基于Metadata数据进行威胁分析,以便更好地保护内网重要资产。 防护网段配置规则如下: 已配置防护网段的设备,采集: HTTP协议并且目的IP在防护网段内的Metadata数据。 DNS协议并且源IP在防护网段内的Metadata数据。 未配置防护网段的设备,不采集Metadata数据。
  • 背景信息 华为乾坤需要识别攻击的发出区域、到达区域属于的安全域类型用于分析威胁事件。 华为乾坤提供以下几种类型的安全域: 信任域:用户信任的安全区域,通常用来定义用户的内部网络,华为乾坤不会对该区域发起的“威胁流量”进行封禁。 混合域:介于信任域和非信任域之间安全区域,属于一个特殊的网络,华为乾坤不会对该区域发起的“威胁流量”进行封禁。 非信任域:属于用户不信任的安全区域,通常用来定义Internet等不安全的网络,华为乾坤会自动封禁从该区域发起的“威胁流量”。
  • 数据规划 项目 数据 说明 租户内网资产IP地址 区域1地址:192.168.55.0-192.168.55.255 区域2地址:172.16.1.0-172.16.1.255、1.1.1.1-1.1.1.5 请向租户获取,此处为示例。 交换机 GigabitEthernet0/0/2 观察端口。 GigabitEthernet0/0/1 镜像端口。 GigabitEthernet0/0/3:192.168.56.20/24 与防火墙上漏扫和云日志审计业务接口直连的三层端口,IP地址请向租户获取,此处为示例。 防火墙 GE0/0/6 流量检测端口。 GE0/0/7:1.1.1.1/24 与云端连接接口,IP地址请向租户获取,此处为示例。 GE0/0/2:192.168.56.10/24 漏洞扫描和云日志审计接口,IP地址请向租户获取,此处为示例。 父主题: 企业边界防火墙旁路镜像流状态检测(USG6000F防火墙)
  • 分析通话质量问题 在用户详情页面可查看通话基本信息、用户画像信息、视频选看数据和音频选看数据和辅流选看数据,如图4所示。 图4 用户详情页面 其中,音视频选看和辅流选看页签中展示的是从特定发送端到接收端的音视频质量指标详情,您可以通过分析各项质量指标,找到通话体验质量问题所在。 通话基本信息:可查看房间ID、应用ID、域名、房间状态、整段通话的起止时间。 用户画像信息:可查看用户在线时长、5s加入房间失败次数、推拉流失败次数。 视频选看:展示选定视频通话的发送端与接收端的质量监控数据,包含视频分辨率、丢包率、卡顿率、帧率、码率数据。 音频选看:展示选定音频通话的发送端与接收端的质量监控数据,包含音频丢包率、卡顿率、码率。 辅流选看:展示选定的发送端用户与对应接收端用户共享屏幕(窗口)的质量监控数据。包含码率、帧率、卡顿率、丢包率、分辨率、抖动和时延。
  • 查看通话体验质量 在通话体验质量区域中展示的是各个用户作为接收端的通话体验质量(通过接收到的音视频码率进行判断)。将鼠标指针停留在通话体验质量图上,滚动鼠标滚轮可针对某时间跨度范围内的质量图时间横轴进行拉大或缩小整体占比。 说明:通话体验质量面板默认显示所有的发送端数据,若发送端较多,您可以通过在当前面板的下拉框中选择只显示您关注的发送端。 图3 通话体验质量面板 在通话体验质量面板中,横轴表示通话时间,以横轴为界上下分别显示视频和音频的通话体验: 横轴以上为视频接收码率,若有多个发送端,则每个发送端会占一条线,以不同颜色区分。 红色向上的毛刺表示视频卡顿。 横轴以下为音频接收码率,若有多个发送端,则每个发送端会占一条线,以不同颜色区分。 红色向下的毛刺表示音频卡顿。 若发现某个发送端的通话体验质量有问题,您可以通过单击面板右上角的查看详情,进入用户详情页面。分别在视频选看、音频选看和辅流选看页签中选择该发送端,查看相关音视频质量指标详情。各质量指标说明请参见分析通话质量问题。
  • 查看用户操作事件 分别在视频选看、音频选看和辅流选看页签的右侧操作列单击“事件”,可以查看用户在通话过程中的所有操作事件详情。通过分析用户在客户端的操作步骤,复现相应的场景,辅助定位软件问题和分析bug。具体事件类型及ID如表1所示。 图5 操作事件详情 表1 用户操作事件说明 事件ID 事件类型 1 加入房间 2 离开房间 3 视频选看/批量选看 5 静音/取消静音 6 切换网络 7 开启/关闭摄像头 9 切换设备 10 DNS查询、TCP/TLS建链、首帧显示起止时间 11 切换角色 12 开始发送媒体流 13 媒体出流成功 14 辅流共享 16 音频选看/取消选看 17 跨房间 18 信令/媒体通道连接 19 上行视频设置 20 下行音频设置 21 服务器调度失败 22 推流成功率打点 23 拉流成功率打点
  • 算子二进制调优 PyTorch Adaptor框架提供与算子编译相关的二进制配置参数,可设置模型编译时是否优先在线编译,以此优化模型训练性能。在main函数训练逻辑开始前通过以下函数设置(True为启动优先在线编译、False为取消优先在线编译)。 torch_npu.npu.set_compile_mode(jit_compile=False) 对于固定shape场景和动态shape场景,是否优先在线编译对训练性能带来不同的效果: 固定shape场景:固定shape是指在模型计算过程中,模型的输入和输出的shape是固定的。如果优先在线编译,可根据当前获得的算子信息,进行融合和优化,在线编译出运行性能更优的算子。反之,则编译优化少,性能降低。 动态shape场景:动态shape是指在模型计算过程中,模型的输入和输出存在多种shape。如果对动态shape的算子优先编译,会导致编译时间长训练性能差。如果取消优先编译,会优先查找当前编译好的算子二进制配置文件,如果存在则不在线编译算子;如果不存在,再进行在线编译。此时虽然编译优化少,但是没有编译时间,模型训练性能大概率比配置为优先编译高。 总结: 如果模型中无动态shape,启动优先在线编译,可提高训练性能。 如果模型中只有动态shape(该情况较少),关闭优先在线编译,模型训练性能大概率会更高。 既有动态shape也有固定shape,启动优先在线编译对训练性能是否提升无法确定,因此可以在调整训练代码后,分别尝试开关优先在线编译后根据训练性能的优劣再设置。 Snt9B芯片默认关闭了优先在线编译,可通过以下命令获取当前模式。如果返回为False,代表已启动优先在线编译。 print(torch_npu.npu.is_jit_compile_false()) 算子会根据该开关走不同的代码逻辑,如出现jit_compile切换后,代码运行失败的情况,需要联系昇腾技术支持获取帮助。
  • 多进程绑核 相比于x86服务器,ARM服务器通常CPU核数更多,但单核性能更弱,因此更容易触发内核的负载均衡策略,该策略是通过启用进程迁移来降低繁忙的处理器压力。进程迁移会导致进程上下文切换、降低Cache命中率和跨numa内存访问等,从而影响训练性能。 如果使用docker容器作为训练环境,启动容器的时候,通过cpuset-cpus参数指定当前容器绑定的CPU核(如绑定16个cpu核60~75,命令示例为“docker run -d --cpuset-cpus=60-75 myimage bash”),这样容器中的进程只能在指定的CPU核上运行,达到绑核的效果。
  • NPU融合算子API和亲和优化器 可对训练代码中的部分API替换成NPU融合算子API和亲和优化器,从而提升训练性能。但需要注意的是,在一些场景下,替换后的算子可能会对模型精度有影响,所以适配后,需要验证精度,如果确认有影响,需要在精度和性能之间做取舍。 NPU融合算子API 识别融合算子和亲和优化器请参考工具使用,当前支持识别的融合算子API和亲和优化器请参考昇腾迁移融合算子API替换样例。 NPU亲和优化器替换 PyTorch原生优化器在训练过程中,一般需要下发多个NPU算子完成梯度和参数的更新计算,过多的算子下发,可能造成NPU空等。可将PyTorch优化器替换成NPU亲和优化器提高训练性能,详情请见此处。
  • 查询银行网点名称 输入参数 输入参数说明如表2所示。 表2 查询银行网点名称输入参数说明 参数 必填 说明 bankType 是 银行类型。支持下拉框和输入框两种模式。 中国工商银行 中国农业银行 中国建设银行 国家开发银行 交通银行 中信银行 中国光大银行 华夏银行 南京银行 queryName 是 关键字。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表3。 表3 查询银行网点名称输出参数说明 参数 说明 银行类型 银行类型。 银行名称 银行名称。 银行编号 银行编号。 地址 地址。 网点名称 网点名称。 联系电话 联系电话。
  • 获取用户ID 通过手机号或邮箱获取用户ID。 输入参数 输入参数说明如表4所示。 表4 获取用户ID输入参数说明 参数 必填 说明 用户邮箱 否 用户邮箱。 用户手机号 是 用户手机号。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表5。 表5 获取用户ID输出参数说明 参数 说明 错误码 错误码。 非0表示失败。 错误描述 错误描述。 -手机号或者邮箱对应的用户id信息 手机号或者邮箱对应的用户ID信息。 --用户id 用户ID。 --邮箱 邮箱。 --手机号 手机号。
  • 获取用户的OKR列表 根据用户ID提取用户的OKR列表。 输入参数 输入参数说明如表2所示。 表2 获取用户的OKR列表输入参数说明 参数 必填 说明 用户ID类型 否 用户的ID类型。支持下拉框和输入框两种模式。 用户的open id 用户的union id 用户的union id 用户的people_admin_id 请求列表的偏移 是 请求列表的偏移。 示例值:0 列表长度 是 列表长度 。长度范围为0-10。 示例值:5 请求OKR的语言版本 是 请求OKR的语言版本。 示例值:zh_cn user_id 是 user_id。 body 否 支持数组和输入框两种模式。 输出参数 用户可以在之后的执行动作中调用该输出参数,输出参数说明请参见表3。 表3 获取用户的OKR列表输出参数说明 参数 说明 错误码 错误码。 非0表示失败。 -OKR列表 OKR列表。 -OKR周期总数 OKR周期总数。 错误描述 错误描述。
  • 连接参数 华为空气质量连接器使用OAuth2.0认证,连接参数说明如表1所示。 表1 连接参数说明 名称 必填 说明 示例值/默认值 连接名称 是 设置连接名称。 华为空气质量的连接 描述 否 对于连接的信息描述说明。 description client_id 是 client_id是应用的唯一标识,平台通过client_id来鉴别应用的身份。 name client_secret 是 client_secret是平台给应用分配的密钥。 -
共100000条