检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
理。上述参考架构中创建了两个OU,安全OU下面创建用于安全运营和日志审计的账号,基础设施OU下面创建用于网络运营、运维监控、公共服务和沙箱测试的账号。下表是这些IT职能账号的详细说明。 除了上述账号之外,每个组织有且仅有一个管理账号,管理账号不建议部署任何云资源,主要是做好以下管理工作:
确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端到数据接收端都能保持加密状态。对于Web应用的API,必须使用HTTPS来加密客户端和服务器之间的通信。 数据完
定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题: 故障全面检测
面向有状态主备类型业务提供容灾仲裁,站点间链路中断不双主,不破坏数据完整性。 应用内所有相关组件对接一致性仲裁,在链路中断的情况下所有组件均能切换到同一个站点,实现端到端的业务可用性 父主题: RES03 跨AZ容灾
客户端可以在收到消息或者处理完消息后回给服务端一个 ack 消息。消费者确认机制会对性能造成影响,如果单纯追求高吞吐量,应该关闭手动确认功能。如果消息对于业务来说比较重要,那么应该在消息被处理完之后才确认该条消息。生产者使用 Confirm 机制来实现类似的功能,当服务端收到生产者发来的消息,它会返回一个
云日志服务提供多种接入方式实现海量日志接入LTS,支持日志搜索引擎、SQL分析引擎、日志加工引擎,详细请参考下图。 端云全场景日志接入:40+云服务、主机/容器、移动端、跨云、多语言SDK、多账号汇聚,满足全场景客户丰富的日志接入需求。 海量日志存储搜索:百亿日志秒级搜索,千亿日志迭代搜索,PB级智能冷存储。
的工具,例如OpenTelemetry。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理 AOM 应用性能管理 APM 云日志服务LTS
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。 备份恢复时的RPO指标(即数据丢失量),与最近一个备份时间点相关;不同类型的
mget和mset是原子操作,pipeline是非原子操作。 pipeline可以打包不同的命令,mget和mset做不到。 使用pipeline,需要客户端和服务端同时支持。 避免在lua脚本中使用耗时代码 lua脚本的执行超时时间为5秒钟,建议不要在lua脚本中使用比较耗时的代码。 强制 比如长时间的sleep、大的循环等语句。
设置并行度:用户可以根据实际的内存,CPU,数据以及应用程序逻辑的情况调整并行度参数。任务的并行度可以按优先级从高到低排列,由算子层次、执行环境层次、客户端层次、系统层次这四种层次指定。 配置进程参数:配置JobManager内存、TaskManager个数、TaskManager Slot数、TaskManager内存。
份由用户触发,通常在执行业务系统维护、升级等高危操作进行,保存期限无限制。 DCS指定备份集恢复。恢复过程中,实例会有一段时间不能处理客户端的数据操作请求,当前数据将被删除,待恢复完成后存储原有备份数据。 详见“备份与恢复说明”。 跨AZ容灾 DCS提供的主备、Cluster集群
导致业务无法运行。 读写DCS概率性失败 检测:读写失败。针对低概率超时错误,是Redis使用的正常现象。Redis使用受到网络传输、客户端设置超时时间等因素影响,可能出现单个请求超时问题。 恢复: 应用层进行重试,以应对暂时性故障,如DCS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。
当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“MyS
当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“GaussDB(for
Grafana 对接、线下自建 Prometheus 对接、业务监控、应用监控、线下 IDC 监控和线下中间件监控 网络性能 管理监控 功能:对客户端 - 网 - 边 - 云全链路网络进行监控,帮助用户及时发现网络故障,全面掌握网络的实时状况。主要关注:应用响应时间、DNS 解析时间、TCP
解分析,训练脚本中加入profiling代码。具体步骤:生成profiling数据目录结构;利用att工具,将NPU与竞品之间的数据进行端到端耗时对比分析;Tracing分析。 算子分析 通过生成profiling中的summary文件对具体的算子进行分析,考虑算子层面向FA与MM算子方向优化。
业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点: 当程序运行在yarn-client模式下时,需要关注在driver端汇聚的数据量大小,根据自己的业务场景,为driver设置合理的内存。 根据自己的业务目标,规划CPU资源和内存资源。规划时,需要结合当前的数