检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
artition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。 针对小文件很多的场景,DataSource在创建RDD时,先将Table中的split生成Partition
artition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。
布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。 Bucket索引:在写入数据过程中,通过主键进行Hash计算,将数据进行分桶写入;该索引写入速度最快,但是需要合理配置分桶数目;Flink、Spark均支持该索引写入。 状态索引:Flink引
更换CA证书 操作场景 MRS CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。该任务指导集群用户通过FusionInsight Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
如何处理集群内部OBS证书过期 用户问题 用户在MRS集群中访问OBS服务过程中出现证书过期问题。 问题现象 MRS集群产生“ALM-12054 证书文件失效”或“ALM-12055 证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2
artition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。
pReduce中的实现方式大体如下: Map任务分别将两个表文件的记录处理成(Join Key,Value),然后按照Join Key做Hash分区后,送到不同的Reduce任务里去处理。 Reduce任务一般使用Nested Loop方式递归左表的数据,并遍历右表的每一行,对于相等的Join
Kudu支持的压缩算法有哪些? 问: Kudu支持的压缩算法有哪些? 答: Kudu目前支持的压缩算法有snappy、lz4和zlib,默认是lz4。 父主题: 组件配置类
优化数据倾斜场景下的Spark SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其他分桶。最终导致部分Task过重,运行很慢;其他Task过轻,运行很快。一方面,数据量大Task运行慢,使得计算性
ZCodec LZC压缩格式不支持FSImage和SequenceFile压缩。 当前HDFS提供了多种压缩算法,包括Gzip、LZ4、Snappy、Bzip2等。这几种压缩算法的压缩比和解压速度可参考如下: 压缩比排序:Bzip2>Gzip>LZ4>Snappy 解压速度排序:LZ4>Snappy>Gzip>Bzip2
优化数据倾斜场景下的Spark SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其它分桶。最终导致部分Task过重,跑得很慢;其它Task过轻,跑得很快。一方面,数据量大Task运行慢,使得计算性
配置”,单击“全部配置”,搜索并修改以下参数。 表1 参数说明 参数 说明 默认值 spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。 true为使用Hash算法,使用多租户模式时,该参数需配置为true。 false为使用随机连接,多主实例模式,配置为false。
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。 告警属性 告警ID 告警级别
配置”,单击“全部配置”,搜索并修改以下参数。 表1 参数说明 参数 说明 默认值 spark.proxyserver.hash.enabled 是否使用Hash算法连接ProxyServer。 true为使用Hash算法,使用多租户模式时,该参数需配置为true。 false为使用随机连接,多主实例模式,配置为false。
“flume_sChat.jks”是Flume角色服务端的证书库,“flume_sChat.crt”是“flume_sChat.jks”证书的导出文件,“-f”配置项是证书和证书库的密码; “flume_cChat.jks”是Flume角色客户端的证书库,“flume_cChat.crt”是“flume_cChat
ZCodec LZC压缩格式不支持FSImage和SequenceFile压缩。 当前HDFS提供了多种压缩算法,包括Gzip、LZ4、Snappy、Bzip2等。这几种压缩算法的压缩比和解压速度可参考如下: 压缩比排序:Bzip2>Gzip>LZ4>Snappy 解压速度排序:LZ4>Snappy>Gzip>Bzip2
可选 String Redis作为维表时,ZSet格式score字段对应的列名。 hashKeyColumn 可选 String Hash格式,Hash字段对应的列名。 host 必选 String Redis集群连接IP,为Redis集群的实例IP(业务平面)。 port 必选 String
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件即将过期,如果证书文件过期,则会导致部分功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书或者HA用户证书)剩余有效期小于证书的告警阈值。 处理步骤 查看告警原因 登录MRS集群详情页面,选择“告警管理”。
keytab”文件与“krb5.conf”文件。 生成IoTDB客户端SSL证书 若集群开启了SSL加密传输且本地Windows或Linux环境首次运行IoTDB样例代码,需执行以下操作生成客户端SSL证书。 以客户端安装用户,登录安装客户端的节点。 切换到IoTDB客户端安装目录,例如:/opt/client。
ALM-45653 Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性