检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from
Spark SQL样例程序(Python) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见SparkSQLPythonExample: # -*- coding:utf-8 -*- import sys from
Spark同步HBase数据到CarbonData样例程序开发思路 场景说明 数据实时写入HBase,用于点查业务,数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 数据规划 创建HBase表,构造数据,列需要包含key,modify_time,valid
由于kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写kafka时,kafka上接收不到回写的数据,且kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
由于Kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写Kafka时,Kafka上接收不到回写的数据,且Kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:102
启动从PgSQL中抓取数据到Hudi任务报错 现象描述 启动从PgSQL中抓取数据到Hudi任务报错:Record key is empty 可能原因 Hudi表主键参数“table.primarykey.mapping”未配置。 处理步骤 登录FusionInsight Manager,选择“集群
Hive同步数据报错SQLException 问题 Hive同步数据时报错: Caused by: java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code
Kafka业务规格说明 本章节内容适用于MRS 3.x及后续版本。 支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka
Kafka业务规格说明 本章节内容适用于MRS 3.x及后续版本。 支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka
Spark Core样例程序(Scala) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection: val
Hive同步数据报错SQLException 问题 Hive同步数据时报错: Caused by: java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code
UNNEST UNNEST可以将ARRAY或MAP展开成relation。 ARRAYS展开为单独一列,MAP展开为两列(key,value)。 UNNEST还可以与多个参数一起使用,将被展开成多列,行数与最高基数参数相同(其他列用空填充)。 UNNEST可以选择使用WITH O
集群异常掉电导致HBase文件损坏,如何快速自恢复? 问题 集群异常掉电导致HBase的StoreFile文件或WAL文件损坏,如何快速恢复? 该操作仅MRS 3.3.0及之后版本支持。 原因分析 当StoreFile文件损坏时,相关的Region会一直上线失败并重试,无法对外提
SET SESSION 语法 SET SESSION name = expression; SET SESSION catalog.name = expression; 描述 用于设置当前会话的指定属性。 示例 SET SESSION optimize_hash_generation
spark-sql退出时打印RejectedExecutionException异常栈 问题 执行大数据量的Spark任务(如2T的TPCDS测试套),任务运行成功后,在spark-sql退出时概率性出现RejectedExecutionException的异常栈信息,相关日志如下所示:
Flink任务开发建议 高可用性下考虑提高Checkpoint保存数 Checkpoint保存数默认是1,也就是只保存最新的Checkpoint的状态文件,当进行状态恢复时,如果最新的Checkpoint文件不可用(比如HDFS文件所有副本都损坏或者其他原因),那么状态恢复就会失
Spark Core样例程序(Scala) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection: val
FlinkSQL Redis表开发建议 Sink表设置合适的批写参数 sink.batch.max-size:开启批写Redis并设置批写数量(正整数),单位:条。“-1”表示不开启批写Redis。 开启该功能可提升大数据场景下性能表现,但不适合对实时性要求过高的场景,建议批写数量不超过30000。
向动态分区表中插入数据时,在重试的task中出现"Failed to CREATE_FILE"异常 问题 向动态分区表中插入数据时,shuffle过程中大面积shuffle文件损坏(磁盘掉线、节点故障等)后,为什么会在重试的task中出现"Failed to CREATE_FILE"异常?