检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当前支持如下两种容错执行机制: QUERY级重试策略:开启QUERY级别容错不会进行中间数据落盘,如果查询任务失败,将自动重试该查询任务的所有task。当集群的大部分工作由小查询组成时建议使用此策略。 TASK级重试策略:开启TASK级别容错会默认配置HDFS作为交换区,将exchange中间数据落盘,如果
MR服务启停操作日志。 yarn-prestart.log MR服务启动前集群操作的记录日志。 yarn-postinstall.log MR服务安装后启动前的工作日志。 yarn-cleanup.log MR服务卸载时候的清理日志。 mapred-service-check.log MR服务健康状态检测日志。
yarn-prestart.log Yarn服务启动前集群操作的记录日志。 yarn-postinstall.log Yarn服务安装后启动前的工作日志。 hadoop-commission.log Yarn入服日志。 yarn-cleanup.log Yarn服务卸载时候的清理日志。
name="end"/> </workflow-app> 编写Coordinator任务文件“coordinator.xml”。 完成每天一次的定时数据分析工作,请参见配置Coordinator定时调度作业。 上传流程文件。 使用或切换到拥有HDFS上传权限的用户,准备用户可参见准备本地应用开发环境。
MapReduce开源增强特性:特定场景优化MapReduce的Merge/Sort流程提升MapReduce性能 下图展示了MapReduce任务的工作流程。 图2 MapReduce 作业 图3 MapReduce作业执行流程 Reduce过程分为三个不同步骤:Copy、Sort(实际应
能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 海量结构化数据分析汇总。
HistoryServer服务不可用,任务运行失败 /flume 固定目录 Flume采集到HDFS文件系统中的数据存储目录 否 Flume工作异常 /mr-history/tmp 固定目录 MapReduce作业产生的日志存放位置 是 日志信息丢失 /mr-history/done
是一个全新的资源管理系统,而ApplicationMaster则负责MapReduce作业的数据切分、任务划分、资源申请和任务调度与容错等工作。 Yarn和ZooKeeper的关系 ZooKeeper与Yarn的关系如图3所示。 图3 ZooKeeper与Yarn的关系 在系统启
join cow表,作业启动后缓存过期,重新加载不到数据,join无输出的问题。 解决[FLINK-27247]问题。 解决Flink通过代理用户访问普通集群Hive失败问题。 解决磁盘不可用告警无具体盘符问题。 解决阈值告警平滑次数偶现不生效,导致阈值告警频繁上报的问题。 解决
则可能导致服务业务中断或者严重影响性能,请谨慎调整。 例如: “数据节点滚动重启并发数”过大,同时重启多个实例导致服务业务中断或者由于剩余工作实例较少严重影响性能。 “批次容错阈值”过大,某一批次实例失败后继续重启下一批次实例,导致服务业务中断。 单击“确定”,等待重启完成。 MRS
定义 停止销售(EOM) 指停止云服务版本的部署,现网中不再部署该云服务版本。 停止全面支持(EOFS) 指定云服务版本停止普通软件BUG修复工作,仅执行致命问题修复、安全类问题修复以及升级等操作。 停止服务(EOS) 指停止云服务版本的使用,现网版本需要升级到新的云服务版本。 MR
us.task.timeout.secs的值要大于等于supervisor.worker.timeout.secs的值(建议相等或略大),原理同上。 父主题: 使用Storm
user.keytab路径写错。 user.principal写错。 集群做过切换域名操作但客户端拼接url时使用旧的principal。 有防火墙相关设置,导致客户端本身无法通过kerberos认证,Kerberos需要开放的端口有21730(TCP)、21731(TCP/UDP)、21732(TCP/UDP)。
write(nameInfo, timeInfo); } } /** * map调用,做一些初始工作。 * * @param context Context */ public void
故障转移,这将导致客户端无法读取或写入任何数据到HDFS。因此,需要在其他可用的ZKFC上启用自动故障转移,以便恢复整个HDFS集群的正常工作。 可能原因 实例进程异常。 磁盘空间不足。 如果同一时间段,存在大量的进程故障告警,则可能存在安装目录文件被误删除或者权限被修改的问题。
无法访问。这种情况下,只能通过再次执行恢复操作,并等待作业完成。因此,不推荐使用覆盖的方式恢复数据,除非确认当前数据已不再使用。 数据恢复原理介绍 Doris数据恢复操作需指定一个远端仓库中已存在的备份数据,再将备份数据恢复到本地集群中。当提交Restore请求后,系统内部会做如下操作:
创建后的SSH隧道,通过“-D”启用动态端口转发功能。默认情况下,动态端口转发功能将启动一个SOCKS代理进程并侦听用户本地端口,端口的数据将由SSH隧道转发到集群的主管理节点。 执行如下命令配置浏览器代理。 进入本地Google Chrome浏览器客户端安装目录。 按住“shift+鼠标右键
write(nameInfo, timeInfo); } } /** * map调用,做一些初始工作。 * * @param context Context */ public void
x及之后版本支持此类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 可用区 集群工作区域下的可用区,创建集群时设置。 Kerberos认证 登录Manager管理页面时是否启用Kerberos认证。 企业项目 集群所属的企
write(nameInfo, timeInfo); } } /** * map调用,做一些初始工作。 * * @param context Context */ public void