检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
子,避免出现groupByKey().map(x=>(x._1,x._2.size))这类实现方式。 广播map代替数组 当每条记录需要查表,如果是Driver端用广播方式传递的数据,数据结构优先采用set/map而不是Iterator,因为Set/Map的查询速率接近O(1),而Iterator是O(n)。
个数分组,每个分组会单独创建一个文件记录日志,从而避免应用长期运行时形成单个过大日志造成JobHistory无法读取的问题,设置为“0”时表示不分组。 大部分Spark Streaming任务属于小型job,而且产生速度较快,会导致频繁的分组,产生大量日志小文件消耗磁盘I/O。建
Manager,单击“集群 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。 表1 参数说明 参数 描述 默认值 GC_OPTS Yarn NodeManager的GC参数。 128M 父主题: Spark Core
个数分组,每个分组会单独创建一个文件记录日志,从而避免应用长期运行时形成单个过大日志造成JobHistory无法读取的问题,设置为“0”时表示不分组。 大部分Spark Streaming任务属于小型job,而且产生速度较快,会导致频繁的分组,产生大量日志小文件消耗磁盘I/O。建
待操作集群的名称 > 服务 > Yarn > 配置”,单击“全部配置”,单击“NodeManager > 系统”,在“GC_OPTS”参数中修改配置。 表1 参数说明 参数 描述 默认值 GC_OPTS Yarn NodeManager的GC参数。 128M 父主题: Spark Core
由于窗口概念存在,该参数必须设置 ssc.checkpoint("checkpoint") // 组装Kafka的主题列表 val topicsSet = topics.split(",").toSet // 通过brokers和topics直接创建kafka
在客户端安装节点下创建文件目录:“/home/data”。将上述文件上传到此“/home/data”目录下。 创建Topic。 {zkQuorum}表示ZooKeeper集群信息,格式为IP:port。 $KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper
根据实际服务的使用情况修改告警阈值。 选择“集群 > 待操作集群的名称 > 服务 > DBService”,在“概览”页面查看“数据目录磁盘空间使用率”图表,检查数据目录磁盘空间使用率是否低于设置的阈值。 是,执行4。 否,执行5。 图1 数据目录磁盘空间使用率 等待2分钟查看告警是否自动恢复。
等待5分钟,查看告警是否自动清除。 是,操作结束。 否,执行10。 检查是否Broker的分区分布不均匀,存在热点。 选择“集群 > 服务 > Kafka > 图表”在分类中选择“分区”,单击“Partition数目-所有实例”右上角的放大图标,选择“分布图”,查看Broker上分区分布是否均衡。 图1
等待5分钟,查看告警是否自动清除。 是,操作结束。 否,执行10。 检查是否Broker的分区分布不均匀,存在热点。 选择“集群 > 服务 > Kafka > 图表”在分类中选择“分区”,单击“Partition数目-所有实例”右上角的放大图标,选择“分布图”,查看Broker上分区分布是否均衡。 图1
等待5分钟,查看告警是否自动清除。 是,操作结束。 否,执行10。 检查是否Broker的分区分布不均匀,存在热点。 选择“集群 > 服务 > Kafka > 图表”在分类中选择“分区”,单击“Partition数目-所有实例”右上角的放大图标,选择“分布图”,查看Broker上分区分布是否均衡。 图1
Manager首页,选择“集群 > 服务 > Spark2x > 实例”,单击告警上报的JDBCServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JDBCServer2x的GC时间”,单击“确定”,查看JDBCServer2x进程的GC时间是否大于阈值(默认12秒)。
系统未导入证书(HA根证书或者HA用户证书)、导入证书失败、证书文件失效。 处理步骤 查看告警原因 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域查看“附加信息”,获取告警附加信息。 告警附加信息中显示“CA Certificate”,使用Pu
测。可通过设置Kafka服务配置“ssl.mode.enable”为“true”,来启动SSL和SASL_SSL两种协议类型的访问监测。下表是四种协议类型的简单说明: 可以参考修改集群服务配置参数进入Kafka全部配置页面,查看或配置参数。 协议类型 说明 默认端口 PLAINTEXT
登录Manager WebUI 认证架构包含步骤1、2、3、4 登录组件Web UI 认证架构包含步骤5、6、7、8 组件间访问 认证架构为步骤9 表1 关键模块解释 名称 含义 Manager 集群Manager Manager WS WebBrowser Kerberos1 部署在Ma
= ConnectionFactory.createConnection(hbaseConfig); // 获取HBase表 Table table = conn.getTable(TableName.valueOf(tableName));
FusionInsight_Cluster_1_Flume_Client.tar 校验软件包。 执行sha256sum -c命令校验解压得到的文件,返回“OK”表示校验通过。例如: sha256sum -c FusionInsight_Cluster_1_Flume_ClientConfig.tar.sha256
eeper配置文件“zoo.cfg”中的“syncLimit”和“initLimit”两参数值,直到ZooKeeperServer正常。 表1 参数说明 参数 描述 默认值 syncLimit follower与leader进行同步的时间间隔(时长为ticket时长的倍数)。如果
使用Spark执行Hudi样例程序(Python) 使用python写Hudi表 下面代码片段仅为演示,具体代码参见:sparknormal-examples.SparkOnHudiPythonExample.hudi_python_write_example。 插入数据: #insert
multiplier,默认值2),如果大于线程数的指定倍数,可增加RocksDB线程数。 是:在Flink WebUI的作业开发界面,调整如下自定义参数的值并保存后执行8。 表1 调整自定义参数 参数名称 默认值 说明 state.backend.rocksdb.thread.num 2 4:开启SPINNING_