检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置参数 在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数: 参数 说明 默认值 spark.sql.keep.distinct.expandThreshold 由cube等引起的数
可以通过以下两种方式配置是否过滤掉分区表分区路径不存在的分区。 在Spark Driver端的“spark-defaults.conf”配置文件中进行设置。 表1 参数说明 参数 说明 默认值 spark.sql.hive.verifyPartitionPath 配置读取Hive分区表时,是否过滤掉分区表分区路径不存在的分区。
api提供的UserGroupInformation类,该类提供了多个安全认证API接口: setConfiguration()主要是获取对应的配置,设置全局变量等参数。 loginUserFromKeytab()获取TGT接口。 跨系统互信特性 MRS提供两个Manager之间的互信功能,用于实现系统之间的数据读、写等操作。
选择器属性的配置 数据源名称(source)可设置如下: CLI:使用--source选项。 JDBC:在Connection实例上设置ApplicationName客户端信息属性。 客户端标签(clientTags)的设置方式如下: CLI:使用--client-tags选项。
Loader中提供了如表2所示的日志级别,日志级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示错误日志输出。 WARN WARN表示当前事件处理存在异常信息。
kafka.example.Old_Consumer类中,作用在于订阅指定Topic的消息。(注意:旧Consumer API仅支持访问未设置ACL的Topic,安全接口说明见Kafka安全接口介绍) 样例代码 Old Consumer API线程run方法中的消费逻辑。 /**
例如:cn=%s,ou=People,dc=huawei,dc=com - - --ldap_passwords_in_clear_ok 如果设置为true,将允许ldap密码在网络上明文发送(不含TLS/SSL)。 false true或false --ldap_uri-ip ldap
数据连接管理,配置Kafka、HDFS等服务信息。 数据表管理,定义Sql访问的数据表信息,用于生成DDL语句。 FlinkSQL作业定义,根据用户输入的Sql,校验、解析、优化、转换成Flink作业并提交运行。 Flink作业可视化管理 支持可视化定义流作业和批作业。 支持作业资源、故障恢复策略、Checkpoint策略可视化配置。
数据连接管理,配置Kafka、HDFS等服务信息。 数据表管理,定义Sql访问的数据表信息,用于生成DDL语句。 FlinkSQL作业定义,根据用户输入的Sql,校验、解析、优化、转换成Flink作业并提交运行。 Flink作业可视化管理 支持可视化定义流作业和批作业。 支持作业资源、故障恢复策略、Checkpoint策略可视化配置。
JDK默认TLS只支持1.0,若使用IBM JDK,请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”,设置后可以同时支持TLS1.0/1.1/1.2。 详情请参见:https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8
单击“概览”,选择“更多 > 重启服务”使配置生效。 Kafka客户端配置Sasl Plain认证。 Kafka客户端只需要配置动态jaas.conf并设置相关认证属性即可。详情可参考样例工程com.huawei.bigdata.kafka.example.security包的Producer中认证样例代码。
automatic默认为true)。 Archive操作并不是每次写数据时都会触发,至少需要满足以下两个条件: Hudi表满足hoodie.keep.max.commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值;如果是Spark写hudi,写Hudi的次数要超过这个阈值。
全部配置”界面,在搜索框中“yarn.resourcemanager.work-preserving-recovery.enabled”,设置参数值为“true”。保存配置后,在业务低峰期重启Yarn配置过期的实例。 父主题: MapReduce常见问题
全部配置”界面,在搜索框中“yarn.resourcemanager.work-preserving-recovery.enabled”,设置参数值为“true”。保存配置后,在业务低峰期重启Yarn配置过期的实例。 父主题: MapReduce常见问题
HDFS中提供了如表2所示的日志级别,日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 FATAL FATAL表示当前事件处理出现严重错误信息,可能导致系统崩溃。
连接字符串中的“zk.quorum”也可以使用配置文件中的配置项“spark.deploy.zookeeper.url”来代替。 在网络拥塞的情况下,您还可以设置客户端与JDBCServer连接的超时时间,可以避免客户端由于无限等待服务端的返回而产生异常。使用方式如下: 在执行“DriverManager
导致数据丢失。 可能原因 新创建的消费者组,从头开始消费Topic中的消息,导致消息积压。 用户配置的消息积压告警规则不合理,积压告警阈值设置过低,导致上报告警。 Kafka Topic流量激增,短时间内产生大量消息,导致消息积压。 下游处理Kafka Topic中消息过慢,导致消息积压。
SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint,以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行,保证数据处理的延续性。 父主题: Flink应用开发概述
票据方式:从管理员处获取一个“人机”用户,用于后续的安全登录,开启Kerberos服务的renewable和forwardable开关并且设置票据刷新周期,开启成功后重启kerberos及相关组件。 获取的用户需要属于storm组。 默认情况下,用户的密码有效期是90天,所以获取
format] 使用示例 --查看ClickHouse集群信息 select * from system.clusters; --显示当前节点设置的宏 select * from system.macros; --查看数据库容量 select sum(rows) as "总行数",