-
数据迁移到MRS前信息收集 - MapReduce服务 MRS
以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取)、分析平台数据流向。 数据在平台内各个组件间的流向,比如使用什么组件采集数据,采集
-
使用BulkLoad工具查询HBase表的行统计数 - MapReduce服务 MRS
使用BulkLoad工具查询HBase表的行统计数 操作场景 支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围,字段“f3
-
配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS
根据输入的数据集估算特定算子的输出数据集。 表级别统计信息包括:记录条数;表数据文件的总大小。 列级别统计信息包括:唯一值个数;最大值;最小值;空值个数;平均长度;最大长度;直方图。 有了统计信息后,就可以估计算子的执行代价了。常见的算子包括过滤条件Filter算子和Join算子。 直方图为列统计值的一种,可以直
-
配置列统计值直方图Histogram用以增强CBO准确度 - MapReduce服务 MRS
根据输入的数据集估算特定算子的输出数据集。 表级别统计信息包括:记录条数;表数据文件的总大小。 列级别统计信息包括:唯一值个数;最大值;最小值;空值个数;平均长度;最大长度;直方图。 有了统计信息后,就可以估计算子的执行代价了。常见的算子包括过滤条件Filter算子和Join算子。 直方图为列统计值的一种,可以直
-
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 - MapReduce服务 MRS
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 问题 通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 解决方法 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。如果没有插入数据,analyze命令执行完之后,再通过desc
-
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败 - MapReduce服务 MRS
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败 问题 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败以及show partitions table结果编码不对。 执行desc formatted test_hiv
-
多租户管理页面概述 - MapReduce服务 MRS
资源使用统计 资源使用统计是管理员获取当前集群应用和服务的运行状态,提高集群运维效率,做出运维决策的重要依据。FusionInsight Manager通过“资源配额”展示租户的资源统计,包括租户动态计算资源vCores和Memory,HDFS存储资源(Space)的使用统计。 “
-
查看Storm应用调测结果 - MapReduce服务 MRS
1所示。 图1 Storm应用程序执行界面 Topology stats统计了最近各个不同时间段的算子之间发送数据的总数据量。 Spouts中统计了spout算子从启动到现在发送的消息总量。Bolts中统计了Count算子和split算子的发送消息总量,如图2所示。 图2 Storm应用程序算子发送数据总量
-
Spark Structured Streaming对接Kafka样例程序(Scala) - MapReduce服务 MRS
使用Structured Streaming,从Kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
-
Spark Structured Streaming对接Kafka样例程序(Scala) - MapReduce服务 MRS
使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
-
Spark Structured Streaming对接Kafka样例程序(Scala) - MapReduce服务 MRS
使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
-
Spark Structured Streaming对接Kafka样例程序(Scala) - MapReduce服务 MRS
使用Structured Streaming,从kafka中读取广告请求数据、广告展示数据、广告点击数据,实时获取广告有效展示统计数据和广告有效点击统计数据,将统计结果写入kafka中。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
-
第三方jar包跨平台(x86、TaiShan)支持 - MapReduce服务 MRS
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(比如自定义udf包)区分x86和TaiShan版本,如何让spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端spark2x
-
第三方jar包跨平台(x86、TaiShan)支持 - MapReduce服务 MRS
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(例如自定义udf包)区分x86和TaiShan版本,如何让Spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端Spark2x
-
Flink DataStream Java样例代码 - MapReduce服务 MRS
Flink DataStream Java样例代码 功能简介 统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.flink.example.stream.FlinkStreamJavaExample:
-
使用Hive CBO功能优化多表查询效率 - MapReduce服务 MRS
“hive.cbo.enable”参数,选中“true”永久开启功能。 手动收集Hive表已有数据的统计信息。 执行以下命令,可以手动收集统计信息。仅支持统计一张表,如果需要统计不同的表需重复执行。 ANALYZE TABLE [db_name.]tablename [PARTI
-
Flink DataStream Scala样例代码 - MapReduce服务 MRS
Flink DataStream Scala样例代码 功能简介 实时统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印出来。 样例代码 下面代码片段仅为演示,具体代码参见com.huawei.flink.example.stream.FlinkStreamScalaExample:
-
Flink DataStream样例程序(Java) - MapReduce服务 MRS
Flink DataStream样例程序(Java) 功能介绍 统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印。 DataStream FlinkStreamJavaExample代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.flink
-
Flink DataStream样例程序(Java) - MapReduce服务 MRS
Flink DataStream样例程序(Java) 功能介绍 统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印。 DataStream FlinkStreamJavaExample代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.flink
-
使用Hive CBO功能优化查询效率 - MapReduce服务 MRS
“hive.cbo.enable”参数,选中“true”永久开启功能。 手动收集Hive表已有数据的统计信息。 执行以下命令,可以手动收集统计信息。仅支持统计一张表,如果需要统计不同的表需重复执行。 ANALYZE TABLE [db_name.]tablename [PARTI