华为云用户手册

  • 对系统的影响 数据丢失:设备分区丢失,可能导致客户保存在这个分区上的数据丢失。 系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。 安全风险:设备分区丢失可能会导致客户的重要数据被盗窃或泄漏,从而对客户的业务产生严重影响。
  • 参考信息 svctm的获取方法如下: MRS 3.1.0版本: 在操作系统中执行iostat -x -t获取: MRS 3.1.0之后版本: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 针对MRS 3.3.0之前版本:如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 针对MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 当检测周期粒度为30秒时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0。 当检测周期粒度为300秒时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • 告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次采集到的svctm时延达到150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 MRS 3.3.0之前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒执行一次iostat命令,在30秒内至少7个采集周期的svctm值超过1000ms。 系统默认每3秒执行一次iostat命令,在300秒内有超过50%的IO超过150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒执行一次iostat命令,在30秒内至少10周期svctm值超过1000ms。 系统默认每3秒执行一次iostat命令,在300秒内有超过60%的IO超过20ms。 当系统连续15分钟不满足以上所有条件时,告警自动清除。 svctm的获取方法请参见参考信息。
  • 处理步骤 检查Hive默认 数据仓库 权限情况。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令进入HDFS客户端安装目录。 cd 客户端安装目录 source bigdata_env kinit 具有supergroup组权限的用户(普通集群跳过该步骤) 执行以下命令修复默认数据仓库权限: 安全环境:hdfs dfs -chmod 770 hdfs://hacluster/user/hive/warehouse 非安全环境:hdfs dfs -chmod 777 hdfs://hacluster/user/hive/warehouse 查看本告警是否恢复。 是,操作结束。 否,执行5。 收集故障信息。 收集客户端后台“hdfs://hacluster/user/hive/warehouse”目录下内容的相关信息。 请联系运维人员,并发送已收集的故障信息。
  • 告警解释 MRS 3.1.5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。 除MRS 3.1.5的其他版本:系统每60秒周期性检测Impalad是否能执行select 1,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当SQL在20秒内正确执行时,告警恢复。
  • 对系统的影响 如果IO持续飙高,会对业务操作产生影响导致业务受损,具体可能会产生如下影响: 系统性能下降:卡IO会导致系统I/O性能下降,从而影响系统的响应速度和吞吐量。这可能会导致客户的业务运行变慢(例如:作业提交运行变慢、页面响应迟钝、接口响应超时等),甚至出现崩溃或错误。 系统故障:卡IO可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。
  • 参考信息 相关参数获取及计算方法如下: 在操作系统中执行以下命令采集数据: iostat -x -t 1 1 其中: “avgqu-sz”为磁盘队列深度。 “r/s”和“w/s”之和为“iops”。 “rkB/s”和“wkB/s”之和为带宽。 “%util”为“ioutil”。 MRS 3.1.0版本: 在操作系统中执行iostat -x -t获取: MRS 3.1.0之后版本svctm的计算方法为: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 针对MRS 3.3.0之前版本:如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 针对MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 当检测周期粒度为30s时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 。 当检测周期粒度为300s时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • 告警解释 系统每30秒周期性检测omm进程使用情况,执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令,获取当前omm用户并发的所有进程数,在omm用户下,执行ulimit -u,获取omm用户可以同时打开的进程最大数。 结果相除,获取到对应的omm用户进程使用率。进程使用率默认提供一个阈值范围。当检测到进程使用率超出阈值范围时产生该告警。 平滑次数为3,进程使用率小于或等于阈值时,告警恢复;如果当前平滑次数大于1,进程使用率小于或等于阈值的90%时,告警恢复。
  • 对系统的影响 磁盘分区扩容失败可能会对系统产生以下影响: 数据丢失:如果在扩容过程中出现错误,可能会导致数据丢失。因此,建议在扩容前备份重要数据。 系统不稳定:如果扩容过程中出现错误,可能会对系统文件造成损坏,导致系统不稳定或无法启动。 磁盘无法使用:如果扩容失败,可能会导致磁盘无法使用,需要重新格式化磁盘,以便重新分区。 性能降低:如果磁盘分区过于拥挤,可能会导致系统性能降低。扩容失败后,磁盘仍然过于拥挤,可能会继续影响系统性能。
  • 指定数量缩容 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“节点管理”页签,在需要缩容的节点组的“操作”列,单击“缩容”,进入缩容集群页面。 只有运行中的集群且集群中的节点都在运行中才能进行该操作。 “缩容类型”选择“指定数量缩容”。 设置“缩容节点数量”,并单击“确定”。 缩容集群前需要检查集群安全组是否配置正确,要确保集群入方向安全组规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则。 若HDFS存在损坏的数据块,则缩容集群可能出现失败,请联系华为云支持人员处理。 页面右上角弹出缩容节点提交成功提示框。 集群缩容过程说明如下: 缩容中:集群正在缩容时集群状态为“缩容中”。已提交的作业会继续执行,也可以提交新的作业,但不允许继续缩容和删除集群,也不建议重启集群和修改集群配置。 缩容成功:集群缩容成功后集群状态为“运行中”,计费按照缩容后所使用的资源计算。 缩容失败:集群缩容失败时集群状态为“运行中”。用户可以执行作业,也可以重新进行缩容操作。 缩容成功后,可以在集群详情的“节点管理”页签查看集群的节点信息。
  • 指定节点缩容 当节点不再需要时,使用该功能删除节点。删除节点前建议先对组件的角色实例执行退服操作,并且请确保节点中的数据已完成备份。缩容ClickHouseServer实例节点请参考缩容ClickHouseServer节点。缩容指定节点仅支持缩容按需计费类型的节点。如需缩容包周期计费类型的节点,请参考退订MRS包周期集群指定节点进行操作。 登录MRS控制台。 单击集群名称进入集群详情页面。 单击“节点管理”。 单击对应节点组“操作”列的“缩容”,进入缩容页面。 “缩容类型”选择“指定节点缩容”,勾选待缩容节点。 处于“关机”、“失联”、“未知”、“已隔离”及“故障”状态的节点可以被指定缩容。若节点无法勾选,请单击“跳转关机”进入E CS 页面将对应节点关机,并在MRS集群详情页面单击“告警管理”,观察关机后是否有影响业务的告警出现,若无影响业务的告警则回到缩容页面选择对应的节点进行缩容,若有影响业务的告警请处理告警后再进行缩容。 节点缩容存在数据丢失风险,建议在缩容前进行节点退服操作,具体操作请参见退服和入服MRS角色实例。 图1 缩容指定节点 勾选“我已经阅读上述信息,并了解具体影响。”并单击“确定”。 单击“组件管理”观察各个组件是否存在异常,若存在异常等待5~10分钟后再次观察组件,依然存在异常则联系华为云技术支持处理。 单击“告警管理”观察是否存在异常告警,若存在请清除告警后再进行其他操作。
  • 背景信息 目前支持缩容Core节点和Task节点,不支持缩容Master节点。对集群进行缩容时,只需要在界面调整节点个数,MRS会自动选择缩容节点,完成缩容任务。 自动选择缩容节点的策略如下: 不允许缩容安装了基础组件(Zookeeper,DBService,KrbServer,LdapServer等)的节点,MRS不会选择这些节点进行缩容。因为这些基础组件是集群运行的基础。 Core节点是存放集群业务数据的节点,在缩容时必须保证待缩容节点上的数据被完整迁移到其他节点,即完成各个组件的退服之后,才会执行缩容的后续操作(节点退出Manager和删除ECS等)。在选择Core节点时,会优先选择存储数据量较小,且可退服实例健康状态良好的节点,避免节点退服失败。例如在分析集群上,Core节点安装了DataNode,缩容时会优先选择DataNode存储数据量较小且健康状态良好的节点。 Core节点在缩容的时候,会对原节点上的数据进行迁移。业务上如果对数据位置做了缓存,客户端自动刷新位置信息可能会影响时延。缩容节点可能会影响部分HBase on HDFS数据的第一次访问响应时长,可以重启HBase或者对相关的表Disable/Enable来避免。 Task节点本身不存储集群数据,属于计算节点,不存在节点数据迁移的问题。因此在选择Task节点时,优先选择健康状态为故障、未知、亚健康的节点进行缩容。这些节点实例的健康状态信息可以在MRS上的“实例”管理界面查看。
  • 缩容校验策略 缩容节点选择完成后,为了避免组件退服失败,不同组件提供了不同的退服约束规则,只有满足了所有安装组件的退服约束规则才允许缩容。缩容校验策略如表1所示。 表1 组件退服约束规则 组件名称 退服约束规则 HDFS/DataNode 规则:缩容后节点数不小于当前HDFS的副本数且HDFS数据总量不超过缩容后HDFS集群总容量的80%,可以执行缩容操作。 原因:确保缩容后剩余空间足够存放现有数据,并预留一部分空间。 说明: 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。 HBase/RegionServer 规则:除缩容节点外,其他节点RegionServer剩余可用内存的总和,大于所选缩容节点RegionServer当前使用内存的1.2倍。 原因:当一个节点退服时,这个节点上的Region会迁移到其他节点,所以其他节点的可用内存必须足够才能负担起退服节点的Region。 Storm/ Supervisor 规则:缩容后集群slot数足够运行当前已提交的任务。 原因:防止缩容后没有充足的资源运行流处理任务。 Flume/FlumeServer 规则:节点安装了FlumeServer,并且已经配置了Flume任务,则该节点不能删除。 原因:防止误删了已部署的业务程序。 ClickHouse/ClickHouseServer 规则:具体请参缩容ClickHouseServer约束限制章节。 原因:保障退服节点数据迁移到未退服节点。 Kudu/KuduTserver 规则:KuduTserver退服时,集群中的其他Kudu实例节点都必须处于正常状态才能退服,否则会导致退服失败。 原因:KuduTserver退服时要执行rebalance命令,将被退服实例上的tablet迁移到集群上其他KuduTserver上,此时如果有其他KuduTserver状态异常,会导致rebalance命令失败,进而导致退服失败。
  • 告警解释 系统每30秒周期性检查DBServer节点的数据库连接数使用率,并把实际数据库连接数使用率和阈值相比较,当数据库连接数的使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警,数据库连接数使用率的阈值设为90%(可配置,默认值为90%)。 平滑次数可配置,当平滑次数为1,数据库连接数使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据库连接数使用率小于或等于阈值的90%时,该告警恢复。
  • 对系统的影响 数据传输异常:如果网络互通异常,数据的传输会变得缓慢或者中断,导致数据丢失或者传输不完整。 任务调度异常:如果网络互通异常,任务调度会受到影响,例如会导致Yarn任务无法正常执行或者执行超时失败。 数据处理异常:如果网络互通异常,数据处理会受到影响,例如会导致HDFS数据同步失败或者结果不准确。 系统性能下降:大数据集群之间的网络互通异常会导致系统性能下降,影响整个数据处理的效率和质量。
  • 创建用户(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“权限配置”区域,单击“用户管理”。 在用户列表上方,单击“添加用户”。 根据界面提示配置参数,填写“用户名”。 不支持创建两个名称相同但大小写不同的用户。例如已创建用户“User1”,无法创建用户“user1”。 使用已创建的用户时,请输入和用户名完全一样的大小写字符。 “用户名”为必选参数,字符长度为3到20,可以包含数字、字母和下划线。 如果用户名称中包含其他特殊字符(例如“.”、“@”等)可能导致同步 IAM 用户失败。 “root”、“omm”和“ommdba”为系统保留用户,请选择其他用户名。 设置“用户类型”,可选值包括“人机”和“机机”。 “人机”用户:用于在MRS Manager的操作运维场景,以及在组件客户端操作的场景。选择该值需同时填写“密码”和“确认密码”。 “机机”用户:用于MRS应用开发的场景。选择该值用户密码随机生成,无需填写。 在“用户组”,单击“选择添加的用户组”,选择对应用户组将用户添加进去。 如果用户组添加了角色,则用户可获得对应角色中的权限。 为新用户分配Hive的权限,请将用户加入hive组。 如果用户需要管理租户资源,用户组必须分配了Manager_tenant角色以及租户对应的角色。 在“主组”选择一个组作为用户创建目录和文件时的主组。下拉列表包含“用户组”中勾选的全部组。 根据业务实际需要在“分配角色权限”,单击“选择并绑定角色”为用户添加角色。 创建用户时,如果用户从用户组获得的权限还不满足业务需要,则可以再分配其他已创建的角色。为新用户分配角色授权,最长可能需要3分钟时间生效。 创建用户时添加角色可细化用户的权限。 没有为新用户分配角色时,此用户可以访问HDFS、HBase、Yarn、Spark和Hue的WebUI。 根据业务实际需要“描述”。 “描述”为可选参数。 单击“确定”完成用户创建。 第一次在MRS集群中使用新创建的用户,例如登录Manager或者使用集群客户端,需要修改密码。
  • 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,SlapdServer CPU使用率小于或等于阈值时,该告警恢复。当平滑次数大于1,SlapdServer CPU使用率小于或等于阈值的90%时,该告警恢复。
  • 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。
  • 操作步骤 下面以播放 域名 为例,推流域名的CNAME配置步骤相同。 获取域名对应的CNAME值。 登录 视频直播 控制台。 在左侧导航树中,选择“域名管理 ”。 在所需域名行,获取对应的CNAME。 图1 获取CNAME值 登录云解析服务控制台。 在左侧导航树中,选择“公网域名”。 在需要配置解析的域名行,单击域名名称,如图2所示。 图2 域名列表 单击页面右上角的“添加记录集”。 图3 添加记录集 根据界面提示填写参数配置,参数信息如表1所示。 表1 参数说明 参数名 描述 记录类型 记录集的类型,此处为CNAME类型。 选择“CNAME-将域名指向另外一个域名”。 主机记录 输入域名的二级域名(后缀无需用户手动填写)。 以播放域名“play-test.example.com”为例,此处输入“play-test”。 线路类型 用于DNS服务器在解析域名时,根据访问者的来源,返回对应的服务器IP地址,具体请参见解析线路。 仅支持为公网域名的记录集配置此参数。 选择“全网默认”。 TTL (秒) 解析记录在本地DNS服务器的缓存时间,以秒为单位。 数值越小,修改记录各地生效时间越快。 默认为300秒,若无特殊需求,可直接保持默认选择。 记录值 需指向的域名,即当前章节步骤1中获取的CNAME。 以播放域名“play-test.example.com”为例,此处输入“play-test.example.com.c.cdnhwc3.com”。 别名 用于是否将此记录集关联至云服务资源实例。 开启:为此记录集关联云服务资源实例,详细说明请参见设置记录集别名。 关闭:不为此记录集关联云服务资源实例。 设置为关闭。 权重 可选参数,返回解析记录的权重比例。默认值为1,取值范围:0~1000。 仅支持为公网域名的记录集配置此参数。 当域名在同一解析线路中有多条相同类型的解析记录时,可以通过“权重”设置解析记录的响应比例。详细内容请参见配置权重解析。 配置为“1”。 标签 可选参数,记录集的标识,包括键和值,每个记录集可以创建10个标签。键和值的命名规则,详见添加CNAME类型记录集。 取值示例如下: example_key1 example_value1 描述 可选参数,对域名的描述,主要起到提示作用。 长度不超过255个字符。 单击“确定”,完成添加。 您可以在域名对应的记录集列表中查看添加的记录集。当记录集的状态显示为“正常”时,表示记录集添加成功。 执行步骤1-步骤6,完成对推流域名的CNAME配置。
  • 配置流程 消息订阅的配置流程,如图1所示。 图1 消息订阅配置流程图 创建消息主题:在 消息通知 服务控制台新建消息主题,用于消息发送和订阅通知。 添加订阅:将消息主题添加到订阅中接收发布至主题的消息,在订阅主题且确认订阅后,终端节点能够接收到向该主题发布的所有消息。 设置主题策略:授权直播服务可对该主题发布消息。 配置直播消息订阅:在直播控制台配置消息订阅,在直播推流开始和结束,以及录制时收到对应的消息通知。
  • 录制通知消息模板 录制通知的消息模板如下所示,消息中各字段说明如表3所示。 Live Record Notify, domain: {domain}, app_name: {app_name}, stream_name: {stream_name}, download_url: {download_url}, filename: {filename},asset_id: {asset_id}, duration: {duration}, event: {event}, timestamp: {timestamp} 表3 RecordNotifyTemplate字段说明 字段 描述 domain 推流域名。 app_name 应用名称,与推流地址中的AppName保持一致。 stream_name 直播流名称。 download_url 录制文件的下载地址,当event的值不为RECORD_NEW_FILE时,该字段为空。 filename 录制文件的名称,当event的值不为RECORD_NEW_FILE时,该字段为空。 asset_id 录制文件的媒资ID,点播服务分配给该录制文件的唯一标识,当event的值不为RECORD_NEW_FILE时,该字段为空。 duration 录制文件的时长,当event的值不为RECORD_NEW_FILE时,该字段为0。 event 录制事件,包括: RECORD_START: 录制任务开始。 RECORD_NEW_FILE:产生新的录制文件。 RECORD_OVER:录制任务结束。 RECORD_FAIL:录制任务失败。 timestamp 录制时间戳。
  • 其他相关操作 在虚机接入中,您可以对已创建的UniAgent的主机进行其他相关操作,具体的操作有: 表1 相关操作 操作 说明 搜索主机 在主机列表上方的搜索框,可以通过主机IP、导入IP、主机名称、安装机名称和代理IP来搜索对应主机。 刷新主机列表 单击主机列表右上角的按钮,可刷新主机列表信息。 设置虚机展示列 单击主机列表右上角的按钮,可对已接入的虚机展示列进行设置。 过滤主机信息 在主机列表的表头,单击各列的,可按特定类型过滤显示主机的信息。 切换主机排序 在主机列表的表头,单击“UniAgent心跳时间”列的可切换主机的排序。为默认排序,为按时间正序排序(即最新的UniAgent心跳时间显示在最后方),为按时间倒序排序(即最新的UniAgent心跳时间显示在最前方)。 删除主机 当主机的UniAgent状态为异常、未安装或安装失败时,可删除主机。 单击主机名称及IP地址右侧对应的“删除”。 说明: 安装中/升级中/卸载中的机器不能直接删除,请刷新页面等待状态更新后,再执行删除操作。 运行中的机器需要先卸载UniAgent才能删除。 安装机/代理机不能直接删除,请先取消相关设置。 设置安装机 通过如下操作可以设置安装机的名称。 单击主机名称及IP地址右侧对应的“设置安装机”,输入安装机的名称。 取消安装机 当主机已设置了安装机,通过如下操作可取消设置。 单击主机名称及IP地址右侧对应的“ 取消安装机”,可取消原有的安装机。 修改安装机名称 当主机已设置了安装机,通过如下操作可以修改安装机的名称。 单击安装机名称,在弹出的对话框中重命名安装机的名称。 父主题: UniAgent 安装与配置
  • CCE容器场景 通常情况下,用户购买CCE集群,部署工作负载之后,默认会采集cluster、Pod、Container、Node等基础指标-容器指标,基础指标的上报不产生费用。 产生计费的可能原因是: Prometheus实例内置的指标管理功能采集到自定义指标并上报指标到 AOM 。 表1 内置ServiceMonitor配置费用说明 ServiceMonitor 是否导致费用 默认状态(关闭表示不会采集自定义指标) etcd-server 会产生部分自定义指标,产生费用 关闭 kube-controller 会产生部分自定义指标,产生费用 关闭 kube-scheduler 会产生部分自定义指标,产生费用 关闭 kubernetes-service-endpoints 会产生部分自定义指标,产生费用 关闭 表2 内置PodMonitor配置费用说明 PodMonitor 是否产生费用 默认状态(关闭表示不会采集自定义指标) istio 会产生部分自定义指标,产生费用 关闭 kubernetes-pods 会产生部分自定义指标,产生费用 关闭 用户自定义ServiceMonitor或PodMonitor配置采集指标并上报指标到AOM,产生相关费用。比如容器场景自定义中间件mysql、nginx、业务指标等。
  • 步骤三:配置监听器 创建全球加速实例后,您需要为全球加速实例配置监听器。监听器负责监听连接请求,并根据流量转发策略将请求流量分发至终端节点。 根据界面提示配置相关参数,详细请参见表4。 图3 添加监听器 表4 添加监听器 类型 参数 示例 说明 基本配置 名称 listener-test 监听器名称。 只能由中文、英文字母、数字、中划线组成。 长度范围:1-64个字符。 前端协议 TCP 客户端与监听器建立流量分发连接的协议。 取值范围:TCP、UDP。 前端端口 80 客户端与监听器建立流量分发连接的端口。 端口取值在1-65535之间,端口范围用“-”连接,多个端口或端口范围以逗号隔开。 例如:1-10,11-50,51,52-200 客户端亲和性 按源IP保持会话 会话保持。 支持选择“关闭”或“按源IP保持会话”。 TCP和UDP协议仅支持“按源IP保持会话”。 按源IP保持会话:基于源IP地址的简单会话保持,将请求的源IP地址作为散列键(HashKey),从静态分配的散列表中找出对应的服务器。即来自同一IP地址的访问请求会被转发到同一台后端服务器上进行处理。 标签 - 监听器的标识,包括键和值。可以为监听器创建20个标签。 描述 - 监听器描述。 长度范围:不超过255个字符。 终端节点组 名称 endpointgroup1 终端节点组名称。 每个监听器下每个区域只允许关联一个终端节点组。 只能由中文、英文字母、数字、中划线组成。 长度范围:1-64个字符。 区域 亚太-新加坡 终端节点组所属区域。 描述 - 终端节点组描述。 长度范围:不超过255个字符。 流量调度 1 配置到不同终端节点组的流量比例。 如果增加流量调度比例,将有更多的请求分发到此终端节点组。 如果将流量调度比例设置为0,则不会将任何请求分发到此终端节点组。 取值范围为:[0-100]。 说明: 如果监听器中有多个终端节点组,分配流量时优先选择时延最低的终端节点组,并按照该终端节点组的流量调度值分配流量,然后再向其他终端节点组分配其余流量。 终端节点 88.xx.xx.10 10.xx.xx.11 终端节点充当客户端的接触点,加速实例跨正常运行的终端节点分发传入流量。 终端节点1:选择服务器1关联的公网IP,即88.xx.xx.10。 终端节点2:选择服务器2关联的公网IP,即10.xx.xx.11。 终端节点1和终端节点2的权重值配置为相同值,这里配置为1。 健康检查配置 是否开启 开启 开启或者关闭健康检查。 关闭健康检查可能会导致业务请求转发至异常的后端服务器。 前端协议 TCP 健康检查目前支持选择TCP协议。 默认:TCP协议。 前端端口 80 健康检查端口号。 取值范围:[1,65535]。 高级配置 检查间隔(秒) 5 每次健康检查响应的最大间隔时间。 取值范围:[1-60]。 超时时间(秒) 5 每次健康检查响应的最大超时时间。 取值范围:[1-60]。 最大重复次数 3 健康检查最大的重试次数。 取值范围:[1-10]。
  • 步骤四:添加终端节点组和终端节点 终端节点组1、终端节点1和终端节点2配置完成后,根据界面提示配置终端节点组2、终端节点3和终端节点4的相关参数信息。 单击“添加终端节点组”,根据界面提示配置相关参数。详细请参见表5。 表5 添加终端节点组 类型 参数 示例 说明 终端节点组 名称 endpointgroup2 终端节点组名称。 每个监听器下每个区域只允许关联一个终端节点组。 只能由中文、英文字母、数字、中划线组成。 长度范围:1-64个字符。 区域 中国-香港 终端节点组所属区域。 描述 - 终端节点组描述。 长度范围:不超过255个字符。 流量调度 1 配置到不同终端节点组的流量比例。 如果增加流量调度比例,将有更多的请求分发到此终端节点组。 如果将流量调度比例设置为0,则不会将任何请求分发到此终端节点组。 取值范围为:[0-100]。 说明: 如果监听器中有多个终端节点组,分配流量时优先选择时延最低的终端节点组,并按照该终端节点组的流量调度值分配流量,然后再向其他终端节点组分配其余流量。 终端节点 97.xx.xx.159 10.xx.xx.240 终端节点充当客户端的接触点,加速实例跨正常运行的终端节点分发传入流量。 终端节点3:选择服务器3关联的公网IP,即97.xx.xx.159。 终端节点4:选择服务器4关联的公网IP,即10.xx.xx.240。 这里将终端节点3的权重值配置为1,终端节点4的权重值配置为4。 健康检查配置 是否开启 开启 开启或者关闭健康检查。 关闭健康检查可能会导致业务请求转发至异常的后端服务器。 前端协议 TCP 健康检查目前支持选择TCP协议。 默认:TCP协议。 前端端口 80 健康检查端口号。 取值范围:[1,65535]。 高级配置 检查间隔(秒) 5 每次健康检查响应的最大间隔时间。 取值范围:[1-60]。 超时时间(秒) 5 每次健康检查响应的最大超时时间。 取值范围:[1-60]。 最大重复次数 3 健康检查最大的重试次数。 取值范围:[1-10]。 在该示例中,对于新加坡用户来说,访问广州服务器的时延要小于访问香港服务器的时延,所以新加坡用户的访问流量优先调度到广州,而对于香港用户来说情况正好相反。 如果将广州区域对应的的终端节点组1和香港区域对应的终端节点组2的流量调度比例同时配置为80%,在时延优先的原则下,新加坡用户和香港用户的访问流量将按照如下情形分配: 新加坡用户的访问流量将有80%被分配到终端节点组1,剩余20%被分配到终端节点组2。 香港用户的访问流量将有80%被分配到终端节点组2,剩余20%被分配到终端节点组1。 图4 跨国访问流量调度 单击“保存”,保存配置信息。 单击“下一步”,确认监听器、终端节点组、终端节点信息。 单击“提交”。 等待页面提示“创建加速器实例xxx成功”后,单击“完成”。
  • 操作流程 序号 步骤 说明 1 准备工作 在购买全球加速实例、EIP、ECS等资源之前,请先 注册华为账号 并开通华为云、完成实名认证、为账户充值。 2 步骤一:跨境申请(跨中国大陆互通场景必选) 根据中华人民共和国工业和信息化部(简称工信部)相关法律、行政法规规定,中国大陆只有三大运营商具备跨境业务运营资质。所以涉及跨中国大陆访问的业务场景,都需要通过跨境资质审核。 在全球加速服务中,用户所在的加速区域和终端节点组所在区域,如果其中一个属于中国大陆,另一个不属于中国大陆,则必须申请跨境资质。 3 步骤二:创建全球加速实例 全球加速服务为全球化业务用户提供应用加速服务,使用全球加速服务前,用户必须先创建全球加速实例。 4 步骤三:配置监听器 创建全球加速实例后,您需要为全球加速实例配置监听器。监听器负责监听连接请求,并根据流量转发策略将请求流量分发至终端节点。 5 步骤四:添加终端节点组和终端节点 将具有相同特性的终端节点放在一个终端节点组组内,每个终端节点组都与特定的区域关联,全球加速实例进行流量分发时,流量分配策略以终端节点组为单位生效。 6 步骤五:配置验证 在本场景中,全球加速服务的监听器配置的是TCP协议,可以使用curl命令方式验证配置结果。
  • 操作场景 当监听器创建成功后,您可以查看已添加的标签,还可以继续添加、编辑以及删除标签。 标签是监听器的标识,包括键和值。可以为监听器创建20个标签。 如果已经通过TMS的预定义标签功能预先创建了标签,则可以直接选择对应的标签键和值。 预定义标签的详细内容,请参见预定义标签简介。 如您的组织已经设定全球加速服务的相关标签策略,则需按照标签策略规则为监听器添加标签。标签如果不符合标签策略的规则,则可能会导致监听器创建失败,请联系组织管理员了解标签策略详情。
  • 操作场景 当全球加速实例创建成功后,您可以查看已添加的标签,还可以继续添加、编辑以及删除标签。 标签是全球加速实例的标识,包括键和值。可以为全球加速实例创建20个标签。 如果已经通过TMS的预定义标签功能预先创建了标签,则可以直接选择对应的标签键和值。 预定义标签的详细内容,请参见预定义标签简介。 如您的组织已经设定全球加速服务的相关标签策略,则需按照标签策略规则为加速实例添加标签。标签如果不符合标签策略的规则,则可能会导致加速实例创建失败,请联系组织管理员了解标签策略详情。
  • GaussDB (DWS)热数据存储和冷数据存储的区别? 热数据存储和冷数据存储最大的区别在于存储介质不同: 热数据存储是直接将频繁被查询或更新,对访问的响应时间要求很高的热数据存储在DN数据盘中。 冷数据存储将不更新,偶尔被查询,对访问的响应时间要求不高的冷数据存储在OBS中。 因为其存储介质的不同,决定了两者的成本、性能、以及适用场景,如表1所示: 表1 冷热数据存储区别 存储名称 读取、写入速度 成本 容量 适用场景 热数据存储 快 高 固定,有限制 适用于那些数据量有限,需要频繁读取、更新的场景。 冷数据存储 慢 低 大、无限制 适用于一些归档类业务,利用其低成本,大容量的特点,在完整保存数据的同时,还能节省成本,不占用本地空间。 父主题: 集群管理
  • 选择合适的分布列 Hash分布表的分布列选取至关重要,需要满足以下基本原则: 列值应比较离散,以便数据能够均匀分布到各个DN。例如,考虑选择表的主键为分布列,如在人员信息表中选择身份证号码为分布列。 在满足第一条原则的情况下尽量不要选取存在常量filter的列。 在满足前两条原则的情况,考虑选择查询中的连接条件为分布列,以便Join任务能够下推到DN中执行,且减少DN之间的通信数据量。 支持多分布列特性,可以更好地满足数据分布的均匀性要求。
共100000条