检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Distinct聚合优化 本章节仅适用于MRS 3.3.1-LTS及之后版本。 配置场景 当SQL中存在多个count(distinct)聚合函数,且存在cube,rollup等导致数据膨胀的算子时,使用该特性可以有效减少数据的膨胀倍数,且减少shuffle落盘的数据
Impala应用开发建议 Coordinator和Executor分离部署,Coordinator根据集群规模部署2-5个 Coordinator承担缓存元数据,解析SQL执行计划,和响应客户端请求的功能主要使用jvm内存,而Executor承担数据读写,算子计算等功能,主要使用
是RUNNING的问题 解决FlinkServer使用println打印日志将磁盘打满导致Yarn不可用的问题 解决Flink客户端ssl证书过期导致Flink任务提交失败问题 解决Flink写Hbase,获取的Hbase Connect7天超期,报Token has expired问题
Shell客户端连接提示“authentication failed” 问题现象 安全集群中,HiveServer服务正常的情况下,Shell客户端中执行beeline命令失败,界面提示“authentication failed”,如下: Debug is true storeKey
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set
Flink SQL逻辑开发建议 在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发
Spark Structured Streaming对接Kafka样例程序开发思路 场景说明 假定一个广告业务,存在广告请求事件、广告展示事件、广告点击事件,广告主需要实时统计有效的广告展示和广告点击数据。 已知: 终端用户每次请求一个广告后,会生成广告请求事件,保存到kafka的adRequest
Spark Structured Streaming对接Kafka样例程序开发思路 场景说明 假定一个广告业务,存在广告请求事件、广告展示事件、广告点击事件,广告主需要实时统计有效的广告展示和广告点击数据。 已知: 终端用户每次请求一个广告后,会生成广告请求事件,保存到kafka的adRequest
删除MRS集群用户 根据业务需要,管理员应在Manager删除不再使用的系统用户。 用户删除后,已经发放的TGT在24小时内仍然有效,用户可以使用该TGT继续进行安全认证并访问系统。 如新建用户与已删除用户同名,则会继承已删除用户的拥有的所有Owner权限。建议根据实际业务需求决
ClickHouse SQL调优 规则 合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据inde
Spark Structured Streaming对接Kafka样例程序开发思路 场景说明 假定一个广告业务,存在广告请求事件、广告展示事件、广告点击事件,广告主需要实时统计有效的广告展示和广告点击数据。 已知: 终端用户每次请求一个广告后,会生成广告请求事件,保存到kafka的adRequest
Spark Structured Streaming对接Kafka样例程序开发思路 场景说明 假定一个广告业务,存在广告请求事件、广告展示事件、广告点击事件,广告主需要实时统计有效的广告展示和广告点击数据。 已知: 终端用户每次请求一个广告后,会生成广告请求事件,保存到kafka的adRequest
配置HBase只读模式集群允许修改数据的IP白名单 MRS 3.x及之后版本,当HBase集群开启Replication功能时,为了保护主备集群的HBase数据一致性,对备集群HBase增加了数据修改操作的保护。当备集群HBase接收到数据修改操作的RPC请求时,首先检查发出该请
Flink性能调优规则 及时对Hudi表进行compaction防止Hudi Source算子Checkpoint完成时间过长 当Hudi Source算子Checkpoint完成时间长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list性能会变差。
配置HBase冷热数据分离存储 在海量大数据场景下,HBase表中的部分业务数据随着时间的推移仅作为归档数据或者访问频率很低,同时这部分历史数据体量非常大,比如订单数据或者监控数据,如果降低这部分数据的存储成本将会极大的节省企业的成本。 HBase支持冷热分离功能,将数据分类存储
配置HetuEngine物化视图推荐能力 HetuEngine QAS实例可对用户的SQL执行历史记录提供自动感知、自动学习、自动诊断服务,开启物化视图推荐能力后,系统能自动学习并推荐对业务最有价值的物化视图SQL,使HetuEngine具备自动预计算加速能力,在相关场景下在线查
配置HBase表级别过载控制 操作场景 HBase在短时间内请求数量突增时,会发生过载问题,导致业务请求P99时延增大,对于时延敏感业务影响比较严重。HBase表级别过载保护用于此类场景,开启后可以有效保障核心表(核心业务)的请求时延。 本章节内容仅适用于MRS 3.3.1及之后版本。
MRS集群用户认证策略 大数据平台用户需要对用户进行身份认证,防止不合法用户访问集群。安全模式或者普通模式的集群均提供认证能力。 安全模式 安全模式的集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用
查看MRS集群静态资源 大数据管理平台支持通过静态服务资源池对没有运行在Yarn上的服务资源进行管理和隔离。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下:
基于分区的任务黑名单异常如何处理 问题 Map&Reduce任务失败,并且故障节点数与集群总节点数的比值低于“yarn.resourcemanager.am-scheduling.node-blacklisting-disable-threshold”配置的黑名单阈值,为什么Ma