检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cutor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。 因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。
Spark从Hive读取数据再写入HBase样例程序(Java) 功能介绍 在Spark应用中,通过使用Spark调用Hive接口来操作hive表,然后把Hive表的数据经过分析后写到HBase表。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark.examples
cutor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。 因而Driver和Executor的参数配置对Spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。
一个sparkSQL的应用程序,而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源,也就是说不同的用户之间可以共享数据。JDBCServer启动时还会开启一个侦听器,等待JDBC客户端的连接和提交查询。所以,在配置JDBCServer的时候,至少要配置JDB
CSV文件输入:将文件的每一行按指定分隔符转换成多个输入字段。 固定宽度文件输入:将文件的每一行,按可配置长度的字符或字节,转换成多个输入字段。 表输入:将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 HBase输入:将HBase表的指定列转换成同等数量的输入字段。 HTM
图2 AggregatedLogs 查看运行中的任务日志 在Spark2x原生页面,通过“Jobs > Stage > Task”找到对应的executor,单击后面的stdout或者stderr查看整个executor日志。 图3 Jobs 图4 Stage 图5 Task 参考信息
本章节只适用于MRS产品Storm与Kafka组件间的访问。本章中描述的jar包的具体版本信息请以实际情况为准。 应用开发操作步骤 确认华为MRS产品Storm和Kafka组件已经安装,并正常运行。 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src\storm-examples”目录下的样例工程文件夹s
se集群的网络需要打通,保证两个集群ClickHouse实例节点网络可以互通。 步骤2:在目标集群配置文件中增加源集群的ZooKeeper信息 通过在目标集群的ClickHouse配置文件中添加源集群的ZooKeeper信息,将源集群中的ZooKeeper作为迁移过程中的辅助ZooKeeper。
每个Executor进程使用的内存数量,与JVM内存设置字符串的格式相同(例如:512m,2g)。 4G spark.sql.autoBroadcastJoinThreshold 当进行join操作时,配置广播的最大值。 当SQL语句中涉及的表中相应字段的大小小于该值时,进行广播。
每个Executor进程使用的内存数量,与JVM内存设置字符串的格式相同(例如:512m,2g)。 4G spark.sql.autoBroadcastJoinThreshold 当进行join操作时,配置广播的最大值。 当SQL语句中涉及的表中相应字段的大小小于该值时,进行广播。
Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/join
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Upgrade Observation Period (Days) 进入升级观察期的时间(天)。 对系统的影响 升级观察期禁止对用户、实例、
Manager平台并通过认证,并且获取到该用户的keytab文件。 获取的用户需要同时属于storm组和kafka组。 默认情况下,用户的密码有效期是90天,所以获取的keytab文件的有效期是90天。如果需要延长该用户keytab的有效期,修改用户的密码策略并重新获取keytab。 下载并安装Kafka客户端程序。
解决主机资源概况查看趋势异常报错的问题; 解决磁盘监控指标计算不正确的问题; 解决Yarn监控中资源使用(按租户)监控当数据达到7位数时页面显示错误的问题; Clickhouse 解决用户授权后长时间不生效的问题; 解决集群内置租户密码修改后被锁的问题; 解决对角色赋权新的权限之后,用户的权限概率性无效的问题;
) 场景说明 当不同的多个Manager系统下安全模式的集群需要互相访问对方的资源时,管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际上就是用户跨域使用。集群
迁移工具时产生的错误日志。 日志级别 ClickHouse提供了如表3所示的日志级别。 运行日志的级别优先级从高到低分别是error、warning、trace、information、debug,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表3
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 AgentId 产生告警的Agent ID。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。
Map输出键值对,内容为HBase与Hive数据拼接的字符串 context.write(new Text(name), new Text("hbase:" + hbaseData + ", hive:" + hiveData)); } 样例2:HBase数据读取的readHBase方法。
Apache Hive的计算框架提供了数据抽象层,使上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OBS在内的持久化存储系统,从而实现了对计算和存储的分离。 商用 Alluxio简介 3 MRS支持Tez组件 Tez是Apache最新的支持DAG作业的开源计算框架
MRS Presto新增Presto支持OBSFileSystem MRS Presto解决频繁打印jstack,以及日志文件太大不滚动问题 补丁兼容关系 MRS 2.0.1.2补丁包中包含MRS 2.0.1.1补丁包的全部内容。 安装补丁的影响 安装MRS 2.0.1.2补丁期间会重启MRS