检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致JobHistory部分数据丢失。 父主题: 在Linux环境中调测Spark应用
不涉及 取值范围: 不涉及 默认取值: 不涉及 input String 参数解释: 数据输入地址。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 output String 参数解释: 数据输出地址。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 job_log
所有参与分区间并发写入的任务,都必须配置上述参数。 不建议同分区内并发写,这种并发写入需要开启Hudi OCC方式并发写入,必须严格遵守并发参数配置,否则会出现表数据损坏的问题。 并发OCC参数控制: SQL方式: --开启OCC。 set hoodie.write.concurrency.mode=o
如果某个DataNode日志中打印“Too many open files”,说明该节点文件句柄不足,导致打开文件句柄失败,然后就会重试往其他DataNode节点写数据,最终表现为写文件很慢或者写文件失败。 解决办法 执行ulimit -a命令查看有问题节点文件句柄数最多设置是多少,如果很小,建议修改成640000。
isk(Used|Total)”和“Memory(Used|Total)”。 在“Brokers Metrics”处可查看Broker节点数据流量的jmx指标,包括在不同时段的时间窗口内,Broker节点平均每秒流入消息条数, 每秒流入消息字节数, 每秒流出消息字节数,每秒失败的
默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Impalad不能执行sql或执行sql超时,会影响到数据的读写。 可能原因 该Impalad服务维护的查询数量过多。 处理步骤 登录FusionInsight Manager,然后选择“集群 >
0及以后版本。 FlinkSQL的UDF新增重用功能,当UDF被多次执行时,第N(N>1)次执行只复制第1次结果,可以确保UDF多次执行的数据一致性,同时确保UDF只被执行一次,提高算子性能。 配置Flink作业时,可通过在FlinkServer WebUI的Flink作业开发界面添加自定义参数“table
查看Spark应用调测结果 调优程序 您可以根据程序运行情况,对程序进行调优,使其性能满足业务场景诉求。 调优完成后,请重新进行编译和运行 请参考数据序列化至Spark CBO调优章节 父主题: Spark应用开发概述
是否必选 参数类型 描述 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
本地文件系统上的文件。 文件名不能以下横线(_)或点(.)开头,以这些开头的文件会被忽略。 如下所示,如果用户test_hive load数据,正确的权限如下: [root@192-168-1-18 duan]# hdfs dfs -ls /tmp/input2 16/03/21
Broker实例扩容后长时间未完成分区均衡操作,导致Kafka服务长时间处于分区不均衡状态,可能会影响业务读写流量性能降低。 可能原因 迁移的分区数据量过大,限流参数设置的太小。 处理步骤 登录KafkaUI页面。 使用具有KafkaUI页面访问权限的用户,登录FusionInsight
le不要绑定超过1000个用户或用户组,否则会导致查看Ranger权限信息缓慢。 Ranger界面不支持对用户、角色、用户组删除,防止出现数据不一致现象。 调整Ranger用户类型 登录Ranger管理页面。 调整Ranger用户类型须使用Admin类型的用户(例如admin)进
setProperty("HADOOP_USER_NAME", "root");设置了用户为root,请确保场景说明中上传的数据的用户为root,或者在代码中将root修改为上传数据的用户名。 在IntelliJ IDEA开发环境中,选中“MultiComponentLocalRunner.j
如上操作后可以用sparksql访问hive MetaStore,如需访问hive表数据,需要按照•同时访问两个集群的HDFS:的操作步骤配置且指定对端集群nameservice为LOCATION后才能访问表数据。 访问对端集群的HBase: 先将cluster2集群的所有Zookeep
enable table flush table flush region compact disable enable desc 设置用户写入数据的权限 在“HBase Table”配置表名。 在“Allow Conditions”区域,单击“Select User”下选择框选择用户。
enable table flush table flush region compact disable enable desc 设置用户写入数据的权限 在“HBase Table”配置表名。 在“Allow Conditions”区域,单击“Select User”下选择框选择用户。
默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
默认取值: 不涉及 data_volume_type String 参数解释: 数据盘类型。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 data_volume_size Integer 参数解释: 数据盘容量。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 data_volume_count
materialized.view”来改变允许使用的物化视图个数。 开启物化视图“重写缓存” Session级别: 参考快速使用HetuEngine访问Hive数据源在HetuEngine客户端执行set session rewrite_cache_enabled=true System级别: 使用用于访问HetuEngine