检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 问题 通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 回答 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。如果没有插入数据
HetuEngine数据类型隐式转换 开启HetuEngine数据类型隐式转换 关闭HetuEngine数据类型隐式转换 HetuEngine隐式转换对照表 父主题: HetuEngine常见SQL语法说明
COM" useTicketCache=false storeKey=true debug=true; }; 在Spark on YARN模式下,jaas.conf和user.keytab通过YARN分发到Spark on YARN的container目录下,因此KafkaCli
1版本集群,如需了解更多参数配置请参考快速创建MRS集群)。 表1 MRS集群配置参数 参数 示例 参数说明 计费模式 按需计费 选择待创建的集群的计费模式,MRS提供“包年/包月”与“按需计费”两种计费模式。 按需计费是一种后付费模式,即先使用再付费,按照MRS集群实际使用时长计费。 区域 华北-北京四 选择区域。
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
配置MRS集群告警屏蔽状态 配置MRS集群对接SNMP网管平台上报告警 配置MRS集群对接Syslog服务器上报告警 配置定时备份告警与审计信息 开启MRS集群维护模式停止上报告警 配置MRS集群告警事件消息通知 父主题: MRS集群运维
create(Path f, boolean overwrite, String groupId,String locatorId) 用colocation模式,创建一个FSDataOutputStream,从而允许用户在f路径写文件。 f为HDFS路径。 overwrite表示如果文件已存在是否允许覆盖。
TABLES命令用于显示所有在当前database中的table,或所有指定database的table。 命令格式 SHOW TABLES [IN db_name]; 参数描述 表1 SHOW TABLES参数描述 参数 描述 IN db_name Database名称,仅当需要显示指定Database的所有Table时配置。
集群已启用Kerberos认证(安全模式): kinit 组件业务用户 clickhouse client --host 上报告警的ClickHouseServer实例IP --port 9440 --secure 集群未启用Kerberos认证(普通模式): clickhouse client
所有表的附加属性都会放到TBLPROPERTIES中来定义。 参数描述 表1 CREATE TABLE参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。 col_name data_type 以逗号分隔的带数据类型的列表。列名由字母、数字和下划线(_)组成。
所有表的附加属性都会放到TBLPROPERTIES中来定义。 参数描述 表1 CREATE TABLE参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。 col_name data_type 以逗号分隔的带数据类型的列表。列名由字母、数字和下划线(_)组成。
产生该告警表示HBase服务的znode的容量使用率已经严重超过规定的阈值,会导致HBase服务的写入请求失败。 可能原因 HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢。 HBase集群存在大量的WAL文件在进行split。 处理步骤 检查znode容量配置和使用量
产生该告警表示HBase服务的znode的数量使用率已经严重超过规定的阈值,会导致HBase服务的写入请求失败。 可能原因 HBase配置了容灾并且容灾存在数据同步失败或者同步速度慢; HBase集群存在大量的WAL文件在进行split。 处理步骤 检查znode数量配置和使用量
by子句来解决这个问题,其中distribute by的字段要选取合适的cardinality(即distinct值的个数)。 distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后,最终的输出文件数取决于指定列的cardinality和“spark
Repartition时有部分Partition没数据 问题 在repartition操作时,分块数“spark.sql.shuffle.partitions”设置为4500,repartition用到的key列中有超过4000个的不同key值。期望不同key对应的数据能分到不同
kerberos认证时用户,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置。 flume_hdfs hdfs.kerberosKeytab kerberos认证时keytab文件路径,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置。 /opt/test/conf/user
则可以使用MapPartitions,按每个分区计算结果,如: rdd.mapPartitions(records => conn.getDBConn;for(item <- records) write(item.toString); conn.close) 使用mapPartition
Flink作业大小表Join能力增强 本章节适用于MRS 3.3.0及以后版本。 Flink作业大小表Join Flink作业双流Join时存在大小表数据,通过内核broadcast策略确保小表数据发送到Join的task中,通过rebalance策略将大表数据打散到Join中,提高Flink
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]