检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Executor信息的个数 配置JobHistory本地磁盘缓存 增强有限内存下的稳定性 配置YARN-Client和YARN-Cluster不同模式下的环境变量 Hive分区修剪的谓词下推增强 配置列统计值直方图Histogram用以增强CBO准确度 CarbonData首查优化工具 父主题:
kerberos认证时用户,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置。 flume_hdfs hdfs.kerberosKeytab kerberos认证时keytab文件路径,在安全版本下必须填写。安全集群需要配置此项,普通模式集群无需配置。 /opt/test/conf/user
odule/hacom/script/status_ha.sh,查询当前HA管理的httpd资源状态是否正常(单机模式下面,httpd资源为normal状态;双机模式下,httpd资源在主节点为normal状态,在备节点为stopped状态。) 是,执行7。 否,执行5。 执行命令vi
kerberos.AutoTGTFromKeytab"); //将客户端配置的plugin列表写入config指定项中 //安全模式必配 //普通模式不用配置,请注释掉该行 conf.put(Config.TOPOLOGY_AUTO_CREDENTIALS, auto_tgts);
当前操作仅适用于MRS 3.x及之后版本集群。 安全模式集群中,支持使用Ranger鉴权的组件包括:HDFS、Yarn、Kafka、Hive、HBase、Storm、Spark/Spark2x、Impala、CDL。 非安全模式集群中,Ranger可以支持基于OS用户进行组件资源
Impala应用开发建议 Coordinator和Executor分离部署,Coordinator根据集群规模部署2-5个 Coordinator承担缓存元数据,解析SQL执行计划,和响应客户端请求的功能主要使用jvm内存,而Executor承担数据读写,算子计算等功能,主要使用
配置JobHistory本地磁盘缓存 配置Spark Eventlog日志回滚 增强有限内存下的稳定性 配置YARN-Client和YARN-Cluster不同模式下的环境变量 Hive分区修剪的谓词下推增强 配置列统计值直方图Histogram用以增强CBO准确度 CarbonData首查优化工具 消减Spark
如果创建集群时设置的登录方式为密码,则不显示。 Keberos认证 登录Manager管理页面时是否启用Kerberos认证。 说明: Kerberos认证模式不支持手动修改,集群创建成功后将无法开启和关闭此功能,需要在创建MRS服务集群的时候选择开启或者关闭Kerberos服务,建议重新创建集群。
清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,Flume业务中断。 重启实例期间若配置SinkGroup的failover模式且至少保持一个实例正常运行时Flume业务不中断,否则Flume业务会中断。 收集故障信息。 在FusionInsight Manager界面,选择“运维
by子句来解决这个问题,其中distribute by的字段要选取合适的cardinality(即distinct值的个数)。 distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后,最终的输出文件数取决于指定列的cardinality和“spark
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
Repartition时有部分Partition没数据 问题 在repartition操作时,分块数“spark.sql.shuffle.partitions”设置为4500,repartition用到的key列中有超过4000个的不同key值。期望不同key对应的数据能分到不同
enabled String类型,是否开启TTL 否,false或者true,默认是false strategy String类型,TTL的触发模式 否,NUM_COMMITS或者TIME_ELAPSED,默认是NUM_COMMITS value String类型,TTL的触发间隔时间
com/script/status_ha.sh,查询当前HA管理的controller资源状态是否正常(单机模式下面,controller资源为normal状态;双机模式下,controller资源在主节点为normal状态,在备节点为stopped状态。) 是,执行6。 否,执行4。
Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。 MRS对外提供了基于Hive组件的应用开发样例工程,本实践用于指导您创建MRS集群后,获取并导入样例工程并在本地进行编译调测,用于实现MRS集群中的Hive表的创建、数据插入、读取等操作。
Flink作业大小表Join能力增强 本章节适用于MRS 3.3.0及以后版本。 Flink作业大小表Join Flink作业双流Join时存在大小表数据,通过内核broadcast策略确保小表数据发送到Join的task中,通过rebalance策略将大表数据打散到Join中,提高Flink
cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证,该用户需具有OBS目录的读写权限。普通模式集群无需执行用户认证。 kinit HDFS组件操作用户 在HDFS命令行显式添加要访问的OBS文件系统。
配置SparkSQL的分块个数 配置场景 SparkSQL在进行shuffle操作时默认的分块数为200。在数据量特别大的场景下,使用默认的分块数就会造成单个数据块过大。如果一个任务产生的单个shuffle数据块大于2G,该数据块在被fetch的时候还会报类似错误: Adjusted
ask manager”标签下的out按钮查看。 使用Flink Web页面查看Flink应用程序运行情况 Flink Web页面主要包括了Overview、Running Jobs、Completed Jobs、Task Managers、Job Manager和Logout等部分。
'scan.records-per-second.limit' = '1000' #真实的限流流量如下 min( parallelism * scan.records-per-second.limit,partitions num * scan.records-per-second