检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。 Kafka基本原理
成功,否则删除失败。 原因:创建UDF后,Spark服务端的JDBCServer未重启或者spark-sql未重新启动的场景,Spark所在线程的FunctionRegistry对象未保存新创建的UDF,那么删除UDF时就会出现错误。 解决方法:重启Spark服务端的JDBCSe
成功,否则删除失败。 原因:创建UDF后,Spark服务端的JDBCServer未重启或者spark-sql未重新启动的场景,Spark所在线程的FunctionRegistry对象未保存新创建的UDF,那么删除UDF时就会出现错误。 解决方法:重启Spark服务端的JDBCSe
No such file or directory 解决办法 适当调大堆内存(xmx)的值。 与正常启动Flume的节点进行文件和文件夹权限对比,更改错误文件或文件夹权限。 重新配置JAVA_HOME。 客户端替换“${install_home}/fusioninsight-flu
否,执行5。 检查Oozie与DBService连接是否异常。 在FusionInsight Manager界面,选择“运维 > 日志 > 在线检索”,选择“Oozie”服务,检索日志关键词“[Oozie Alarm Enhancement][DB Service]”,在日志中查看
rack 3s 0s 优化shuffle并行度,提升Spark加工效率 所谓的shuffle并发度如下图所示: 集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。 场景 配置项 集群默认值
否,执行5。 检查Oozie与ZooKeeper连接是否异常。 在FusionInsight Manager界面,选择“运维 > 日志 > 在线检索”,选择“Oozie”服务,检索日志关键词“[Oozie Alarm Enhancement][ZooKeeper]”,在日志中查看具
是,处理完毕。 否,执行5。 检查Oozie与HDFS连接是否异常。 在FusionInsight Manager界面,选择“运维 > 日志 > 在线检索”,选择“Oozie”服务,检索日志关键词“[Oozie Alarm Enhancement][HDFS]”,在日志中查看具体告警原因
val env = StreamExecutionEnvironment.getExecutionEnvironment // 设置并发度 env.setParallelism(1) // 解析运行参数 val paraTool = ParameterTool
r2+Clients。 JDBC客户端代码 通过JDBC客户端代码连接ThriftServer,来访问SparkSQL的数据。 增强特性 对比开源社区,MRS还提供了两个增强特性,ThriftServer HA方案和设置ThriftServer连接的超时时间。 ThriftServer
是,处理完毕。 否,执行5。 检查Oozie与Yarn连接是否异常。 在FusionInsight Manager界面,选择“运维 > 日志 > 在线检索”,选择“Oozie”服务,检索日志关键词“[Oozie Alarm Enhancement][YARN]”,在日志中查看具体告警原因
env = StreamExecutionEnvironment.getExecutionEnvironment // 设置并发度 env.setParallelism(1) // 解析运行参数 val paraTool = ParameterTool
确认“HostName”节点的“PartitionName”对应的磁盘是否在对应服务器的插槽上。 是,执行5。 否,执行6。 联系硬件工程师将故障磁盘在线拔出。 使用PuTTY工具登录发生告警的“HostName”节点,检查“/etc/fstab”文件中是否包含“DirName”的行。 是,执行7。
配置YARN-Client和YARN-Cluster不同模式下的环境变量 Hive分区修剪的谓词下推增强 配置列统计值直方图Histogram用以增强CBO准确度 CarbonData首查优化工具 父主题: 使用Spark2x(MRS 3.x及之后版本)
val env = StreamExecutionEnvironment.getExecutionEnvironment // 设置并发度 env.setParallelism(1) // 解析运行参数 val paraTool = ParameterTool
配置YARN-Client和YARN-Cluster不同模式下的环境变量 Hive分区修剪的谓词下推增强 配置列统计值直方图Histogram用以增强CBO准确度 CarbonData首查优化工具 消减Spark Insert Overwrite自读自写风险 父主题: 使用Spark/Spark2x
env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool paraTool =
env = StreamExecutionEnvironment.getExecutionEnvironment // 设置并发度 env.setParallelism(1) // 解析运行参数 val paraTool = ParameterTool
通过JDBC客户端代码连接JDBCServer,来访问SparkSQL的数据。详细指导请参见通过JDBC访问Spark SQL样例程序。 增强特性 对比开源社区,华为还提供了两个增强特性,JDBCServerHA方案和设置JDBCServer连接的超时时间。 JDBCServer的HA方案
控制应用程序。此外,MRS集群管理员可指定队列管理员和集群系统管理员。 动态更新配置文件。MRS集群管理员可根据需要动态修改配置参数以实现在线集群管理。 Capacity Scheduler中每个队列可以限制资源使用量。队列间的资源分配以使用量作为排列依据,使得容量小的队列有竞争