正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本清晰可见。这也是上文中明确的团队责任的基础。 根据清晰的成本,业务部门可准确定价,并平衡成本、稳定性和性能,经济高效的提供领先方案。企业管理者基于数据决策各业务的云开支,保障核心业务和战略业务方向的支出,不超支,不浪费。 成本分配需匹配业务实质,具体有以下几个原则: 按实际使用
措施。 回顾和审核可以基于成本分配的原则,在应用级别执行,持续审核组织为每个云上应用付出的总体成本。通过综合考虑云资源成本,研发成本,运营管理成本(如托管服务 vs 非托管云服务)来计算总拥有成本。审核工作量应该体现可能带来的好处(例如分析时间与应用成本成正比)以及相应的成本是否带来正向的营收。
和问题诊断。但是,仅仅记录日志并不足够,还需要对日志进行有效的管理和分析。如果日志太多,将会成为一个负担,因为它们需要占用存储空间,并且需要花费很长时间来查找有用的信息。因此,需要对日志进行过滤和归档,以便更好地管理它们。 设计建议 可参考LTS最佳实践 父主题: OPS06 可观测性体系
进行性能调节产生重要影响。如果开发的软件对性能非常敏感,实际上需要从设计阶段和开发周期的第一天起就考虑性能管理的问题,即采取系统的主动性能管理的办法来解决性能问题。除了管理上的措施外,解决性能问题需要在系统和架构设计、实现方案设计及编码实现上采取有效的技术手段来保证。 一般认为,
分析工作负载的每个组件。确定组件和资源是长时间运行(应享受承诺折扣,包年包月或购买资源包),还是短时间动态运行(采用 Spot 或按需定价)。使用成本管理工具中的建议对工作负载执行分析,并对这些建议应用业务规则以实现高回报。 相关服务和工具 为提高成本效率,华为云根据您过去的使用情况,为您提
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制定应急恢复管理方案:所有应急恢复团队人员都需要进行应急恢复培训,熟悉应急恢复处理流程和恢复方法。 父主题: RES12 应急恢复处理
故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,应用系统可减少对机房、电力、环境、计算服务器、存储设备、网络交换机等基础设施的故障模式的检测和恢复处理,但仍需考虑这些基础设施故障对应用
收集调用链数据实现数据流端到端的分析,产品阻塞瓶颈点或者效率低下的请求片段,从而进行针对性的优化。 相关云服务和工具 应用运维管理 AOM 应用性能管理 APM 云日志服务LTS 父主题: 性能数据采集
指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。
broker_cpu_usage CPU使用率 统计Kafka节点虚拟机的CPU使用率。 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。
ine处理数据,时延毫秒级,且兼具可靠性。 集群服务部署架构 服务规模与业务容量参数配置 Flink作为流数据处理引擎,依赖内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点: 根据自己的业务目标,规划CPU资源和内存
来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器健康检查,容器运行过程中,可根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。
模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 应用运维管理 AOM 父主题: 性能看护
能够明确自身职责和所需要采取的措施。 每个恢复操作动作必须明确无歧义,可指导操作人员。 相关云服务和工具 云运维中心 COC:支持应急预案管理。 父主题: RES12 应急恢复处理
快速恢复,可采用双活/多活容灾;对于重要业务,允许一定的业务中断时间,可采用主备容灾;对于一般业务,允许中断的业务时间可达到天级,则可采用远程备份;对于一些不重要的业务,其业务中断对外部客户没有影响,则不需要进行容灾。 父主题: RES04 跨Region/跨云容灾
的可用性和可靠性。 相关云服务和工具 MAS多活高可用服务灾难演练:支持同城跨AZ灾备/双活、两地三中心及异地多活等场景下的业务高可用容灾管理、工作流编排及演练切换功能。 父主题: RES11 可靠性测试
配置测试:通过对被测系统软硬件配置的调整以及业务模型调整,了解不同配置对系统性能的影响,从而找到系统资源的最优分配原则、不同业务模型的性能趋势。 并发测试:通常通过构造多用户或多任务并发的手段来暴露可能隐藏的进程死锁、资源泄露或其他性能问题。 相关云服务和工具 性能测试 CodeArts PerfTest 父主题:
弹性扩展、便捷管理等特点,适用于互联网应用、工业数据采集等场景。 GeminiDB Mongo接口:GeminiDB Mongo 接口是一款基于华为自研的计算存储分离架构,兼容MongoDB生态的云原生NoSQL数据库。具有企业级性能、灵活弹性、高可靠、可视化管理等特点,广泛应用于游戏应用等场景。
成本的平衡。 相关服务和工具 华为云支持您按照组织规划的方式分配成本。随着云服务的使用,规划的组织方式也会随着云服务的费用生成,体现在账单管理、成本分析等可视化工具的数据中。 您还可以使用成本单元,综合多种条件(产品类型、账单类型、关联账号、企业项目、成本标签),自定义规则,将成