检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
bloom.num_entries 存储在布隆过滤器中的条目数。 假设maxParquetFileSize为128MB,averageRecordSize为1024B,因此,一个文件中的记录总数约为130K。 默认值(60000)大约是此近似值的一半。 注意: 将此值设置的太低,将产生
查看Flink应用运行结果 Flink应用程序运行完成后,您可以查看运行结果数据,也可以通过Flink WebUI查看应用程序运行情况。 操作步骤 查看Flink应用运行结果数据。 当用户查看执行结果时,需要在Flink的web页面上查看Task Manager的Stdout日志。
Flink性能调优规则 及时对Hudi表进行compaction防止Hudi Source算子Checkpoint完成时间过长 当Hudi Source算子Checkpoint完成时间长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list性能会变差。
CarbonData性能调优常见配置参数 操作场景 CarbonData的性能与配置参数相关,本章节提供了能够提升性能的相关配置介绍。 操作步骤 用于CarbonData查询的配置介绍,详情请参见表1和表2。 表1 Shuffle过程中,启动Task的个数 参数 spark.sql
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复 问题 开启TableStatus多版本特性下,最新的tablestatus文件丢失或其他异常原因损坏的情况下,如何恢复? 回答 使用当前可得的最近的tablestatus文件进行恢复,分为如下两个场景来进行恢复:
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
MRS 2.1.0.2补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.2 发布时间 2020-04-22 解决的问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出
十进制函数和操作符 DECIMAL字面量 可以使用DECIMAL 'xxxxxxx.yyyyyyy' 语法来定义DECIMAL类型的字面量。 DECIMAL类型的字面量精度将等于字面量(包括尾随零和前导零)的位数。范围将等于小数部分(包括尾随零)的位数。 示例字面量 数据类型 DECIMAL
添加删除MRS集群组件 创建MRS集群时,用户可自行选择集群内包含的服务组件,集群创建成功后,管理员可通过管理控制台手动为MRS添加新的组件或者已删除的组件。 仅MRS 3.1.2及之后的普通版本和MRS 3.1.2-LTS.3及之后LTS版本的自定义类型集群支持添加和删除组件。
Hive CBO原理介绍 Hive CBO原理介绍 CBO,全称是Cost Based Optimization,即基于代价的优化器。 其优化目标是: 在编译阶段,根据查询语句中涉及到的表和查询条件,计算出产生中间结果少的高效join顺序,从而减少查询时间和资源消耗。 Hive中实现CBO的总体过程如下:
Spark Core内存调优 操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default
Spark Core内存调优 操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default
配置组件隔离访问Hive MetaStore 操作场景 MRS 3.2.0及之后的版本支持此功能,此功能用于限制集群内组件连接指定的Hive MetaStore实例,组件默认可连接所有MetaStore实例。 目前集群中支持连接MetaStore的组件有HetuEngine、Hi
Flink常见SQL语法说明 SELECT与WHERE语句 根据where子句对数据进行过滤。 语法: SELECT select_list FROM table_expression [ WHERE boolean_expression ] 示例: SELECT price +
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set
如何开发Flume第三方插件 安装Flume客户端,如安装目录为“/opt/flumeclient”。 将自主研发的代码打成jar包。 建立插件目录布局。 进入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d”路径下,使用以下命令建立目录,可根据实际业务进行命名,无固定名称:
MRS 2.1.0.6补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.6 发布时间 2020-06-10 解决的问题 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题
MRS 1.9.0.7补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.7 发布时间 2021-01-15 解决的问题 MRS 1.9.0.7 修复问题列表: MRS Manager 解决扩容刷新队列导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block
导入并配置Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程
查看MRS集群事件 事件列表显示了集群中的所有事件信息,如重启服务、停止服务等。 事件列表默认按时间顺序排列,时间最近的事件显示在最前端。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。