检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更改Kafka Broker的存储目录 操作场景 本章节内容适用于MRS 3.x及后续版本。 增加Broker的存储目录时,MRS集群管理员需要在FusionInsight Manager中修改Broker的存储目录,以保证Kafka正常工作,新创建的主题分区将在分区最少的目录中生成。适用于以下场景:
spark支持同时访问两个集群中的HBase,前提是两个集群配置了互信。 数据规划 将cluster2集群的所有Zookeeper节点和HBase节点的IP和主机名配置到cluster1集群的客户端节点的“/etc/hosts”文件中。 分别将cluster1和cluster2集群Spark2
INDEX参数 参数 描述 index_name 索引表的名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 db_name 数据库的名称。若未指定,选择当前默认数据库。 table_name 需要删除的表的名称。 注意事项 该命令中IF EXISTS和db_name为可选项。 示例 DROP
导入并配置ClickHouse事务样例工程 本章节仅适用MRS 3.3.0及之后版本。 背景信息 获取ClickHouse开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 前提条件 确保本地PC的时间与集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight
导入并配置ClickHouse事务样例工程 本章节仅适用MRS 3.3.0及之后版本。 背景信息 获取ClickHouse开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 前提条件 确保本地PC的时间与集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight
Schema演进介绍 Schema演进(Schema Evolution)允许用户能够方便地修改Hudi表的当前Schema,以适应不断变化的数据。 本章节内容仅适用于MRS 3.2.0及之后版本。 Schema演进支持范围 Schema演进支持范围: 支持列(包括嵌套列)相关的增、删、改、位置调整等操作。
停止或卸载Flume客户端 操作场景 指导运维工程师停止、启动Flume客户端,以及在不需要Flume数据采集通道时,卸载Flume客户端。 操作步骤 停止Flume角色的客户端。 假设Flume客户端安装路径为“/opt/FlumeClient”,执行以下命令,停止Flume客户端:
SQL样例程序 通过JDBC访问Spark SQL样例程序 Spark读取HBase表样例程序 Spark从HBase读取数据再写入HBase样例程序 Spark从Hive读取数据再写入HBase样例程序 Spark Streaming对接Kafka0-10样例程序 Spark Structured
cdl-db-operation.log 服务启动时初始化数据库的日志。 cdl-app-launcher.log CDL数据同步任务的Spark App启动日志。 cdl-dc-app-launcher.log CDL数据比对任务的Spark App启动日志。 serviceInstanceCheck
个业务数据进行联合查询。 数据规划 业务1的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户),并从Kafka组件接收数据。Kafka配置参见样例数据规划章节。 业务2的数据通过socket接收消息记录,可使用netcat命令用户输入模拟数据源。 使用Linux命令netcat
HBase应用开发常用概念 过滤器 过滤器提供了非常强大的特性来帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 keytab文件
只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
等将不会向该实例分发。 Catalog Catalog实例服务将每个Impalad实例上发生的元数据变动同步到集群内其他Impalad实例,从而避免在一个Impalad实例中更改元数据,其他各个实例需要执行REFRESH操作来更新。但是,在Hive中建表,修改表等,则需要执行REFRESH或者INVALIDATE
等将不会向该实例分发。 Catalog Catalog实例服务将每个Impalad实例上发生的元数据变动同步到集群内其他Impalad实例,从而避免在一个Impalad实例中更改元数据,其他各个实例需要执行REFRESH操作来更新。但是,在Hive中建表、修改表等,则需要执行REFRESH或者INVALIDATE
等将不会向该实例分发。 Catalog Catalog实例服务将每个Impalad实例上发生的元数据变动同步到集群内其他Impalad实例,从而避免在一个Impalad实例中更改元数据,其他各个实例需要执行REFRESH操作来更新。但是,在Hive中建表,修改表等,则需要执行REFRESH或者INVALIDATE
执行top命令查看节点内存使用情况。 根据top提示结束内存占用多的进程(内存占用多并且非MRS自身组件的进程),并重新启动HBase服务。 集群的Core节点除了MRS组件运行占用外,Yarn上的作业还会被分配到节点运行,占用节点内存。若是由于Yarn作业占用内存多导致组件无法正常启动时,建议扩容Core节点。
动处理join运算中的数据倾斜功能。 true spark.sql.adaptive.skewJoin.skewedPartitionFactor 此配置为一个倍数因子,用于判定分区是否为数据倾斜分区。单个分区被判定为数据倾斜分区的条件为:当一个分区的数据大小超过除此分区外其他所
开发Impala应用 Impala样例程序开发思路 创建Impala表 加载Impala数据 查询Impala数据 开发Impala用户自定义函数 Impala样例程序指导 父主题: Impala开发指南(普通模式)
远程代码执行漏洞(CVE-2021-44228)公告 Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)修复指导 MRS Fastjson漏洞修复指导
codecClass) ->“mapreduce.map.output.compress”&“mapreduce.map.output.compress.codec” setJobPriority(JobPriority prio) ->“mapreduce.job.priority”