检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
人工智能性能优化 1.训练优化模型性能提升实践 参数调优策略:调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需
OPS04-04 自动化工程运维任务 在日常开发工作中,尽可能自动化一切,以减轻管理负担并最大限度地减少人为错误。为了最大限度地提高自动化投资的价值,优先考虑简单、程序化且长期的任务。应用自动化并不是一种全有或全无的策略。即使需要人工干预的工作流(例: 决策点),也可以从自动化中受益。
SEC10-03 自动化响应安全事件 自动化的响应工作流是安全自动化的核心组成部分,旨在减少安全事件的响应时间,并提高处理效率。 风险等级 高 关键策略 定义响应触发条件:基于威胁情报、异常行为检测和实时监测的结果,确定哪些情况会触发自动化响应。 制定响应策略:为每种类型的威胁或
SEC09-04 安全态势感知 跟踪并监控对网络资源和关键数据的所有访问:通过系统的活动记录机制和用户活动跟踪功能可有效降低恶意活动对于数据的威胁程度。当系统出现错误或安全事件时,通过执行彻底地跟踪、告警和分析,可以较快地确定导致威胁的原因。 风险等级 中 关键策略 采集各类安全
CCE云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,可以在云上轻松部署、管理和扩展容器化应用程序。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
数据主体访问个人数据之前必须有认证机制。 记录数据的录入或者更新的时间。 建议提供必要的校验措施,比如通过Web页面的输入框录入e-mail地址的时候,校验e-mail地址格式的合法性等。 针对用户的注册信息,必须为用户提供修改其注册信息的途径。 用户修改隐私偏好的设置和选项要便于用户发现和使用。
服务器资源就类似一块块资源拼成的木桶,其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。 不同应用对资源需求不同,例如: 功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。 内存密集型业务(如大数据处理、图像/视频处理、游戏开发、数据库等场景)主要消耗内存和存储维度的容量。
计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 集群服务部署架构 服务规模与业务容量参数配置 Flink作为流
多种因素,包括市场趋势、消费者行为、竞争环境等。通过多种方法的组合,如历史数据分析、资源分析、趋势分析等,以此作为预测需求的基础,并结合人工智能机器学习算法,以便更准确地预测未来的需求,评估工作负载的资源需求。 使预测与工作负载目标保持一致 为了确保预测与工作负载目标保持一致,需
云运维中心(COC) 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。COC产品介绍:
Service,OBS),应用类的云应用引擎(Cloud Application Engine, CAE),容器类的云容器实例(Cloud Container Instance,CCI)以及计算类的函数工作流(FunctionGraph) 父主题: COST08 进行架构优化
明确隐私保护策略和原则是指在处理个人数据时,明确规定和遵守的保护个人隐私数据的总体策略和原则。 风险等级 高 关键策略 明确个人数据的分级及影响。个人数据包括:自然人的email地址、电话号码、生物特征(指纹)、位置数据、IP地址、医疗信息、宗教信仰、社保号、婚姻状态等。个人数据按照影响等级分为高、中、低三种个人数据(分级描述如下表):
云服务性能优化介绍 缓存性能优化 消息队列性能优化 Serverless性能优化 数据库性能优化 人工智能性能优化 大数据性能优化 父主题: 性能效率支柱
OPS06-03 制定和实施可观测性指标 风险等级 高 关键策略 指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标
件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。主要关注:WAITING 状态线程数、TIMED_WAITING 状态线程数、可使用内存等指标 进程监控 进程监控是针对主机内活跃进程进行的监控,默认采集活跃进程消耗的 CP
RES07-01 定义关键指标与阈值并监控 对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性
安全性云服务介绍 安全治理 统一身份认证服务 IAM:提供权限管理、访问控制和身份认证的基础服务,安全地控制华为云服务和资源的访问权限。 组织 Organizations:为企业用户提供多账号关系的管理能力。用户可以将多个华为云账号整合到创建的组织中,并可以在组织中设置治理策略。
提高可靠性。而广义可靠性工程的目标除了提高可靠性外,还包括提高从故障中恢复运行能力,即维修性(maintainability),同时还包括其他围绕故障展开的各种能力,如可用性(availability)、保障性(supportability)等。 因此,从广义韧性与广义可靠性的定
可靠性功能 集群HA DCS服务提供主备、Proxy集群、Cluster集群实例,通过节点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储
RES03 跨AZ容灾 为了预防单可用区故障,可借助华为云多可用区(Availability Zone,简称AZ)能力,应用可以用较小成本来完成容灾架构部署。应用系统可设计为使用分布在多个可用区中的资源池,并利用云服务实例本身具备或应用自身支持的跨AZ数据复制与切换能力,在多个A