检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
distinct聚合函数。 使用约束 作业已配置足够的内存。 配置参数 在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数: 参数 说明 默认值 spark.sql.keep.distinct
Flink Kafka样例程序(Java) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 用户在开发前需要使用对接安全模式的Kafka,则需要引入FusionInsight的kafka-clients-*.ja
print "Usage: CollectFemaleInfo <file>" exit(-1) # 创建SparkContext,设置AppName sc = SparkContext(appName = "CollectFemaleInfo")? """ 以下程序主要实现以下几步功能:
StreamingContext(sparkConf, batchDuration) // 设置Streaming的CheckPoint目录,由于窗口概念存在,该参数必须设置 ssc.checkpoint("checkpoint") // 组装Kafka的主题列表
ZooKeeper上数据错乱导致ClickHouse启动失败问题 问题现象 ClickHouse集群中某实例节点启动失败,该实例节点启动日志中有如下类似报错信息: 2021.03.15 21:01:19.816593 [ 11111 ] {} <Error> Application:
0/security”目录下的“root-ca.crt”和“root-ca.pem”相同。 操作步骤 以omm用户登录到需要配置SSL的DBService节点上。 进入“$BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2
CarbonData可获得所有节点上的executor。 为了优化并行数据处理及并行读取块数据,运用动态分配的用户需配置以下特性。 使用参数“spark.dynamicAllocation.executorIdleTimeout”并将此参数值设置为15min(或平均查询时间)。 正确配置参数“spark
CarbonData可获得所有节点上的executor。 为了优化并行数据处理及并行读取块数据,运用动态分配的用户需配置以下特性。 使用参数“spark.dynamicAllocation.executorIdleTimeout”并将此参数值设置为15min(或平均查询时间)。 正确配置参数“spark
e-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ IDEA开发环境。 在IDEA界面选择“File > New > Project from Existing Sources”。 在显示的“Select File or Directory
e-examples”以及Maven相关配置。 在应用开发环境中,导入样例工程到IntelliJ IDEA开发环境。 在IDEA界面选择“File > New > Project from Existing Sources”。 在显示的“Select File or Directory
在Linux环境中调测Spark应用 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可。
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。 运行环境: Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK
针对小文件很多的场景,DataSource在创建RDD时,先将Table中的split生成PartitionedFile,再将这些PartitionedFile进行合并。即将多个PartitionedFile组成一个partition,从而减少partition数量,避免在Shuffle操作时生成过多的hash分桶,如图1所示。
针对小文件很多的场景,DataSource在创建RDD时,先将Table中的split生成PartitionedFile,再将这些PartitionedFile进行合并。即将多个PartitionedFile组成一个partition,从而减少partition数量,避免在Shuffle操作时生成过多的hash分桶,如图1所示。
间,单位:毫秒。 250 大于等于1 dfs.client.hedged.read.threadpool.size 多路读取线程池的大小,设置参数值大于0时启用多路读功能。 200 大于等于0 由于HDFS多路读功能在磁盘IO负载高的情况下可能导致性能劣化,在此场景下,HBase
例介绍请参见ClickHouse样例工程介绍。 在应用开发环境中,导入样例工程到IntelliJ IDEA开发环境。 在IDEA界面选择“File > New > Project from Existing Sources”。 在显示的“Select File or Directory
Java样例代码 功能介绍 在Spark应用中,通过使用Streaming调用kafka接口来获取数据,然后把数据经过分析后,找到对应的HBase表记录,再写到HBase表。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
Flink向Kafka生产并消费数据Java样例代码 功能简介 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 用户在开发前需要使用对接安全模式的Kafka,则需要引入MRS的kafka-client-xx.x.x.jar,该jar包可在MRS
JobGateway提供了如下表2所示的日志级别。 日志的级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。
getDefaultRealm().toLowerCase()); return props; } 如果修改了集群域名,在设置Kafka消费者/生产者属性中kerberos域名时,需要将其设置为集群实际域名,例如props.put(KERBEROS_DOMAIN_NAME , "hadoop.hadoop1