云服务器内容精选

  • 版本号说明 MRS 当前提供两种版本集群的创建:普通版和LTS版。 MRS普通版集群版本号:格式为a.b.c.d,其中a.b为大版本号,c为小版本号,d为补丁版本,例如 MRS 3.1.5.1。 a:代表了版本有较大的变动。 b:代表了版本有一些组件的变动。 c:代表了小版本的变动,可以向前兼容。 d:代表了补丁版本,用于问题修复。 图1 MRS普遍版集群版本号 MRS LTS版集群版本号:格式为a.b.c-LTS.d,其中a.b为大版本号,c为小版本号,d为补丁版本,例如 MRS 3.2.0-LTS.1。 a:代表了版本有较大的变动。 b:代表了版本有一些组件的变动。 c:代表了小版本的变动,可以向前兼容。 d:代表了补丁版本,用于问题修复。 图2 MRS LTS版集群版本号
  • 版本支持情况 集群创建 MRS同一版本类型下最多同时支持两个大版本的创建。 例如支持创建MRS 3.3.0-LTS、MRS 3.2.0-LTS版本集群,当MRS 3.3.0-LTS发布商用后,之前较早的版本(如MRS 3.1.2-LTS)默认将不在控制台上提供创建入口。对存量用户使用的MRS 3.1.2-LTS版本集群不影响。 集群版本升级 MRS LTS版本集群支持大版本升级的演进路线,默认情况下只支持跨一个版本的升级,如MRS 3.1.2-LTS支持升级到MRS 3.2.0-LTS,MRS 3.2.0-LTS支持升级到MRS 3.3.0-LTS。 集群补丁升级 现网存量运行的MRS集群,如果有大数据组件社区重大问题或者漏洞,MRS将提供对集群打补丁能力,详情请参见MRS集群补丁说明。
  • 版本发布周期/版本生命周期 表1 生命周期常用术语 术语 定义 停止销售(EOM) 指停止云服务版本的部署,现网中不再部署该云服务版本。 停止全面支持(EOFS) 指定云服务版本停止普通软件BUG修复工作,仅执行致命问题修复、安全类问题修复以及升级等操作。 停止服务(EOS) 指停止云服务版本的使用,现网版本需要升级到新的云服务版本。 MRS新版本发布后,EOM时间为版本发布后2年,EOFS在EOM后1年,EOS在EOFS后0.5年。 例如2024-03-30发布MRS 3.3.1-LTS版本,则该版本EOM时间为2026-03-30,EOFS为2027-03-30,EOS为2027-09-30。 表2 MRS普通版本生命周期表 版本名称 状态 发布时间 停止销售日 停止全面支持日 停止服务日 MRS 1.3.x EOS 2017.3.30 2019.3.30 2020.3.30 2020.9.30 MRS 1.5.x EOS 2017.9.30 2019.9.30 2020.9.30 2021.3.30 MRS 1.6.x EOS 2019.6.21 2021.6.21 2022.6.21 2022.12.30 MRS 1.7.x EOS 2019.12.22 2021.12.22 2022.12.22 2023.6.22 MRS 1.8.x EOS 2019.11.21 2021.11.21 2022.11.21 2023.5.21 MRS 1.9.x EOS 2020.3.8 2022.3.8 2023.3.8 2023.9.8 MRS 2.0.x EOS 2019.10.11 2021.10.11 2022.10.11 2023.4.11 MRS 2.1.x EOS 2019.11.13 2021.11.13 2022.11.13 2023.5.13 FusionInsight 6.5.1 EOS 2020.6.30 2022.6.30 2023.6.30 2023.12.30 MRS 3.0.x EOS 2020.9.28 2022.9.28 2023.9.28 2024.3.28 MRS 3.1.0 EOFS 2021.5.9 2023.5.9 2024.5.9 2024.11.9 MRS 3.1.1 EOFS 2021.6.28 2023.6.28 2024.6.28 2024.12.28 MRS 3.1.2 EOM 2022.1.27 2024.1.27 2025.1.27 2025.7.27 MRS 3.1.5 已发布 2023.3.28 2025.3.28 2026.3.28 2026.9.28 以上表格中加粗的版本为现网全网开放的主力版本,其他版本为受限白名单方式开放,需联系技术支持申请白名单开通。 表3 MRS LTS版本生命周期表 版本名称 状态 发布时间 停止销售日 停止全面支持日 停止服务日 MRS 3.1.0-LTS EOFS 2021.3.26 2023.3.26 2024.3.26 2024.9.26 MRS 3.1.1-LTS EOFS 2021.6.28 2023.6.28 2024.6.28 2024.12.28 MRS 3.1.2-LTS 已发布 2022.6.2 2024.6.2 2025.6.2 2025.12.2 MRS 3.1.3-LTS 已发布 2023.5.12 2025.5.12 2026.5.12 2026.11.12 MRS 3.2.0-LTS 已发布 2023.4.27 2025.4.27 2026.4.27 2026.10.27 MRS 3.3.0-LTS 已发布 2023.10.13 2025.10.13 2026.10.13 2027.4.13 以上表格中加粗的版本为现网全网开放的主力版本,其他版本为受限白名单方式开放,需联系技术支持申请白名单开通。 补充说明: 由于历史版本的EOS时间较早, 已经EOS的版本将提供过渡期服务支持截止至2024年8月30日,即在2024年8月30日之后EOS的版本停止提供服务。
  • 操作场景 在用户意外修改、删除或需要找回数据时,集群用户对ClickHouse进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对ClickHouse进行恢复数据操作。 集群用户可以通过FusionInsight Manager创建恢复ClickHouse任务并恢复数据。只支持创建任务手动恢复数据。 ClickHouse备份恢复功能不支持识别用户的ClickHouse表、索引、视图等对象在业务和结构上存在的关联关系。用户在执行备份恢复任务时,需要根据业务场景管理统一的恢复点,防止影响业务正常运行。 该功能仅MRS 3.1.0及之后版本支持。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的ClickHouse数据。 ClickHouse元数据恢复和业务数据恢复不能同时进行操作,否则会导致业务数据恢复失败。建议元数据恢复完成后再进行业务数据恢复。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份ClickHouse业务数据。如果主备集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主备集群部署为普通模式,则不需要配置互信。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 规划好恢复数据保存表的数据库,数据表在HDFS的保存位置,以及访问恢复数据的用户清单。 检查ClickHouse备份文件保存路径。 停止ClickHouse的上层应用。 主备集群中,从远端HDFS恢复至本地时,需要确保ClickHouse的“HADOOP_RPC_PROTECTION”配置项与HDFS的“hadoop.rpc.protection”配置项的值保持一致。
  • 参考信息 表2 “安全级别”和“Facility”字段数值编码 安全级别 Facility 数值编码 Emergency kernel messages 0 Alert user-level messages 1 Critical mail system 2 Error system daemons 3 Warning security/authorization messages (note 1) 4 Notice messages generated internally by syslog 5 Informational line printer subsystem 6 Debug network news subsystem 7 - UUCP subsystem 8 - clock daemon (note 2) 9 - security/authorization messages (note 1) 10 - FTP daemon 11 - NTP subsystem 12 - log audit (note 1) 13 - log alert (note 1) 14 - clock daemon (note 2) 15 - local use 0~7 (local0 ~ local7) 16~23 表3 报文格式信息域表 信息域 描述 dn 集群名称 id 告警ID name 告警名称 serialNo 告警序列号 说明: 故障告警及其对应的恢复告警的告警序列号相同。 category 告警类型,取值范围: 0:故障告警 1:恢复告警 2:事件 occurTime 告警产生时间 clearTime 告警清除时间 isAutoClear 告警是否自动清除,取值范围: 1:是 0:否 locationInfo 告警位置信息 clearType 告警清除类型,取值范围: -1:未清除 0:自动清除 2:手动清除 level 告警级别,取值范围: 1:紧急告警 2:重要告警 3:次要告警 4:提示告警 cause 告警原因 additionalInfo 附加信息 object 告警对象
  • 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过20ms。 当系统连续15分钟不满足以上所有条件时,告警自动清除。 MRS 1.9.3.10及之后的补丁的版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次采集到的svctm时延达到150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 相关参数获取方法请参考参考信息。
  • 参考信息 相关参数获取方法如下: MRS 2.x及以前版本: 当前慢盘故障告警的检查原理为: 在Linux平台上判断IO是否存在问题,输入命令iostat -x -t 1,观察svctm的值(如图所示红色框中的部分)。 svctm值表示该磁盘IO服务时间。 MRS 1.9.3.10及之后的补丁版本: svctm的获取方法: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 当检测周期粒度为30秒时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0。 当检测周期粒度为300秒时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • HDFS对接OBS 以客户端安装用户登录安装了HDFS客户端的节点。 执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在HDFS命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。 hdfs dfs -ls obs://OBS并行文件系统名称/路径 使用以下命令创建OBS文件系统下的目录: hdfs dfs -mkdir obs://OBS并行文件系统名称/hadoop 使用以下命令上传客户端节点“/opt/test.txt”文件到“obs://OBS并行文件系统名称/hadoop”路径下。 hdfs dfs -put /opt/test.txt obs://OBS并行文件系统名称/hadoop OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/HDFS/hadoop/etc/hadoop vi log4j.properties 在文件中添加OBS日志级别配置 log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图1 添加OBS日志级别
  • 检查是否安装了MRS_3x_Patch_Diskmgt_v2.1_20230322紧急补丁 使用root用户登录集群主节点,并进入“/root”目录。 查看是否存在“MRS_3x_Patch_Diskmgt_v2.1_20230322”目录。 是,需要执行3卸载“MRS_3x_Patch_Diskmgt_v2.1_20230322”补丁。 否,检查结束。 使用root用户卸载补丁。 禁止主备倒换。 卸载补丁过程会重启Controller和Tomcat,可能会引起HA主备倒换,安装前需要禁止主备倒换,主备倒换禁止有设置超时时间10分钟,超过该时间后会自动取消禁止主备倒换: su - omm -c "/opt/Bigdata/ OMS V100R001C00x8664/workspace0/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --forbidswitch --name=product --time=10" 查看“ips.ini”文件中是否配置了集群所有节点IP地址,如果配置了请执行3.c,否则添加节点IP地址到该文件中: cd /root/MRS_3x_Patch_Diskmgt_v2.1_20230322/ vim ips.ini 执行脚本卸载补丁,需要保证私钥文件“/tmp/xxxx.pem”的权限是600: 密钥方式: sh install.sh -t uninstall -k /tmp/xxxx.pem 密码方式: sh install.sh -t uninstall -p 'password' 请输入正确无误的密码,否则可能会导致脚本在ssh过程中将root密码锁定5分钟。 其中: -t:值为install或uninstall。 -k:root用户私钥的绝对路径。 -p:root用户密码。 取消禁止主备倒换: su - omm -c "/opt/Bigdata/OMSV100R001C00x8664/workspace0/ha/module/hacom/tools/ha_client_tool --ip=127.0.0.1 --port=20013 --cancelforbidswitch --name=product"
  • 查看主机监控图表信息 通过MRS管理控制台查看: 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“节点管理”并展开节点组信息,查看所有主机状态。 主机列表中包括节点名称/资源ID、IP、状态、规格、云硬盘、可用区等信息。 单击列表中指定的节点名称,查看单个节点状态及指标。 单击“监控”页签,可以查看当前节点的监控图表信息。 通过Manager查看: MRS 3.x及之后版本 登录FusionInsight Manager。 单击“主机”,查看主机列表信息。 在主机列表单击指定的主机名称,查看主机概览信息。 在主机详情页面,主要包含基本信息区、磁盘状态区、实例列表区和监控图表等。 单击“图表”页签,可直接查看该主机的全量监控图表信息。 图表页面可直接查看该主机的全量监控图表信息 MRS 2.x及之前版本 登录MRS Manager。 单击“主机管理”,看所有主机状态。 单击列表中指定的主机名称,查看单个主机状态及指标。 定制、导出监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • MRS集群节点弹性伸缩指标说明 节点组维度策略 在添加规则时,可以参考表1配置相应的指标。 表1 弹性伸缩指标列表 集群类型 指标名称 数值类型 说明 流式集群 StormSlotAvailable 整型 Storm组件的可用slot数。 取值范围为[0~2147483646]。 StormSlotAvailablePercentage 百分比 Storm组件可用slot百分比。是可用slot数与总slot数的比值。 取值范围为[0~100]。 StormSlotUsed 整型 Storm组件的已用slot数。 取值范围为[0~2147483646]。 StormSlotUsedPercentage 百分比 Storm组件已用slot百分比。是已用slot数与总slot数的比值。 取值范围为[0~100]。 StormSupervisorMemAverageUsage 整型 Storm组件Supervisor的内存平均使用量。 取值范围为[0~2147483646]。 StormSupervisorMemAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的内存占系统总内存的平均百分比。 取值范围[0 ~ 100]。 StormSupervisorCPUAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的CPU占系统总CPU的平均百分比。 取值范围[0 ~ 6000]。 分析集群 YARNAppPending 整型 YARN组件挂起的任务数。 取值范围为[0~2147483646]。 YARNAppPendingRatio 比率 YARN组件挂起的任务数比例。是YARN挂起的任务数与YARN运行中的任务数比值。 取值范围为[0~2147483646]。 YARNAppRunning 整型 YARN组件运行中的任务数。 取值范围为[0~2147483646]。 YARNContainerAllocated 整型 YARN组件中已分配的container个数。 取值范围为[0~2147483646]。 YARNContainerPending 整型 YARN组件挂起的container个数。 取值范围为[0~2147483646]。 YARNContainerPendingRatio 比率 YARN组件挂起的container比率。是挂起的container数与运行中的container数的比值。 取值范围为[0~2147483646]。 YARNCPUAllocated 整型 YARN组件已分配的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailable 整型 YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailablePercentage 百分比 YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 YARNCPUPending 整型 YARN组件挂起的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNMemoryAllocated 整型 YARN组件已分配内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailable 整型 YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailablePercentage 百分比 YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 YARNMemoryPending 整型 YARN组件挂起的内存大小。 取值范围为[0~2147483646]。 表1中指标数值类型为百分比或比率时,有效数值可精确到百分位。其中百分比类型指标数值为去除百分号(%)后的小数值,如16.80即代表16.80%。 混合集群的支持分析集群和流式集群的所有指标。 资源池维度策略 在添加规则时,可以参考表2配置相应的指标。 MRS 3.1.5及其之后的版本支持配置资源池维度策略。 表2 规则配置项说明 集群类型 指标名称 数值类型 说明 分析集群/自定义集群 ResourcePoolMemoryAvailable 整型 资源池YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 ResourcePoolMemoryAvailablePercentage 百分比 资源池YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 ResourcePoolCPUAvailable 整型 资源池YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 ResourcePoolCPUAvailablePercentage 百分比 资源池YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 在添加资源计划时,可以参考表3配置相应的参数。 表3 资源计划配置项说明 配置项 示例 说明 生效日期 周一 资源计划的生效日期。默认是每日生效,也可以选择周一至周日任意一天或几天生效。 时间范围 08:00-10:00 资源计划的起始时间和结束时间,精确到分钟,取值范围[00:00, 23:59]。例如资源计划开始于早上8:00,结束于10:00,则配置为8:00-10:00。结束时间必须晚于开始时间至少30分钟。 节点数量范围 4-5 资源计划内的节点数量上下限,取值范围[0,500],在资源计划时间内,集群Task节点数量小于最小节点数时,弹性伸缩会将集群Task节点一次性扩容到最小节点数。在资源计划时间内,集群Task节点数量大于最大节点数时,弹性伸缩会将集群Task节点一次性缩容到最大节点数。最小节点数必须小于或等于最大节点数。 当启用资源计划时,弹性伸缩配置中的“默认节点数量范围”将在资源计划外的时间段内强制生效。例如“默认节点数量范围”配置为1-2,配置资源计划:08:00-10:00之间节点数量范围为4-5,则在一天中的非资源计划时间段(0:00-8:00以及10:00-23:59)内,Task节点会被强制限制在1个到2个中间,若节点数量大于2则触发自动缩容,若节点数量小于1则触发自动扩容。 当不启用资源计划时,节点数量范围的“默认范围”会在全部时间范围生效,如果节点数量不在“节点数量范围”的默认范围,主动增减Task节点数量到默认范围内。 资源计划间时间段不可交叉,时间段交叉意为某个时间点存在两个生效的资源计划,例如配置资源计划1在08:00-10:00生效,资源计划2在09:00-11:00生效,则两个资源计划存在时间段交叉,交叉时间段09:00-10:00。 资源计划不能跨天配置,例如要配置23:00至次日01:00的资源计划,请配置时间段为23:00-00:00和00:00-01:00的两个资源计划。 自动化脚本 在添加自动化脚本时,可以参考表4配置相应参数。 表4 自动化脚本配置说明 配置项 示例 说明 名称 test 自动化脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。 说明: 同一集群内,不允许配置相同的名称。不同集群之间,可以配置相同的名称。 脚本路径 obs://mrs-samples/test.sh 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以.sh结尾。例如,安装Zepelin的示例脚本路径如下:/opt/bootstrap/zepelin/zepelin_install.sh 执行节点 Master节点 选择自动化脚本所执行的节点类型。 说明: 如果选择Master节点,您可以通过开关选择是否只在Active Master节点执行此脚本。 如果选择开启此功能,表示只在Active Master节点上执行。如果选择关闭,表示在所有Master节点执行。默认关闭。 参数 - 自动化脚本参数,支持通过传入以下预定义变量获得弹性伸缩相关信息: ${mrs_scale_node_num} :弹性伸缩节点数量,总是正数 ${mrs_scale_type} :弹性伸缩类型,扩容为“scale_out”,缩容为“scale_in” ${mrs_scale_node_hostnames} :弹性伸缩节点的主机名,多个主机名之间以“,”隔开 ${mrs_scale_node_ips} :弹性伸缩节点的IP,多个IP之间以“,”隔开 ${mrs_scale_rule_name}:触发弹性伸缩的规则名,如果是资源计划则为“resource_plan” 执行时机 扩容前 选择自动化脚本执行的时间。支持“扩容前”、“扩容后”、“缩容前”、“缩容后”四种类型。 说明: 假设执行节点类型中包含Task节点: 执行时机为扩容前的脚本不会在将要扩容出的Task节点上执行。 执行时机为扩容后的脚本会在扩容出的Task节点上执行。 执行时机为缩容前的脚本会在即将被删除的Task节点上执行。 执行时机为缩容后的脚本不会在已经被删除的Task节点上执行。 失败操作 继续 该脚本执行失败后,是否继续执行后续脚本和扩缩容操作。 说明: 建议您在调试阶段设置为“继续”,无论此脚本是否执行成功,则集群都能继续扩缩容操作。 若脚本执行失败,请到集群虚拟机的“/var/log/Bootstrap”路径下查看失败日志。 由于缩容成功不可回滚,缩容后执行的脚本失败操作只能选择“继续”。 自动化脚本只在弹性伸缩时触发,手动调整集群节点时不会运行。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对Doris进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对Doris进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复Doris任务并恢复数据。只支持创建任务手动恢复数据。 用户在执行备份恢复任务时,需要根据业务场景管理统一的恢复点,防止影响业务正常运行。 该章节仅适用于MRS 3.3.1及之后版本集群。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的Doris数据。
  • 前提条件 如果需要从远端HDFS恢复数据,需满足以下条件: 需准备一个用于恢复数据的备集群,且该集群已完成数据备份,详细操作请参见备份Doris业务数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。 主集群内至少需要部署一个Doris服务的DBroker实例。 主备集群上的时间必须与备集群一致,而且主备集群上的NTP服务必须使用同一个时间源。 需确保主备集群中Doris和HDFS的“hadoop.rpc.protection”配置项的值保持一致。 如果需要从OBS恢复数据,需要当前Doris集群已对接OBS,并具有访问OBS的权限。 规划好恢复数据保存表的数据库,数据表在HDFS的保存位置,以及访问恢复数据的用户清单。 检查Doris备份文件保存路径。 停止Doris的上层应用。
  • 操作场景 该章节指导用户开启Guardian组件存算分离操作。开启后Guardian可以在存算分离场景下为HDFS、Hive、Spark、Loader、HetuEngine等服务提供访问OBS的临时认证凭据。 配置Guardian服务对接OBS主要操作如下: 创建OBS并行文件系统 创建普通账号委托 创建云服务委托并绑定集群 为Guardian组件配置访问OBS权限 开启Hive表的级联授权功能 配置回收站清理策略