检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
经验总结 使用mapPartitions,按每个分区计算结果 如果每条记录的开销太大,例: rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions,按每个分区计算结果,如: rdd
配置ClickHouse SQL防御规则 配置ClickHouse SQL防御操作场景 用户可以在Manager界面配置ClickHouse的SQL防御规则,根据业务调整对应SQL防御规则的参数。 配置ClickHouse SQL防御前提条件 已安装包含ClickHouse服务的
经验总结 使用mapPartitions,按每个分区计算结果 如果每条记录的开销太大,例: rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions,按每个分区计算结果,如 rdd
经验总结 使用mapPartitions,按每个分区计算结果 如果每条记录的开销太大,例 rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions,按每个分区计算结果,如 rdd
通过JDBC访问Spark SQL样例程序(Scala) 功能简介 使用自定义客户端的JDBC接口提交数据分析任务,并返回结果。 样例代码 定义SQL语句。SQL语句必须为单条语句,注意其中不能包含“;”。示例: val sqlList = new ArrayBuffer[String]
Hue基本原理 Hue是一组WEB应用,用于和MRS大数据组件进行交互,能够帮助用户浏览HDFS,进行Hive查询,启动MapReduce任务等,它承载了与所有MRS大数据组件交互的应用。 Hue主要包括了文件浏览器和查询编辑器的功能: 文件浏览器能够允许用户直接通过界面浏览以及操作HDFS的不同目录;
创建高查询性能的CarbonData表 操作场景 本章节根据超过50个测试用例总结得出建议,帮助用户创建拥有更高查询性能的CarbonData表。 表1 CarbonData表中的列 Column name Data type Cardinality Attribution msname
Sqoop常用命令及参数介绍 更多Sqoop命令参数请参考Sqoop官方文档:https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html Sqoop常用命令介绍 表1 Sqoop常用命令介绍 命令 说明 import 数据导入到集群
创建Hive角色 操作场景 该任务指导MRS集群管理员在Manager创建并设置Hive的角色。Hive角色可设置Hive管理员权限以及Hive数据表的数据操作权限。 用户使用Hive并创建数据库需要加入hive组,不需要角色授权。用户在Hive和HDFS中对自己创建的数据库或表
安装客户端(3.x版本) MRS集群创建成功后,用户可自行安装集群客户端,用于连接集群内组件服务端,进行组件连接、作业提交等任务。集群客户端可以安装在集群内的节点上,也可以安装在集群外的节点上。 集群内组件的服务端配置修改后,也建议重新安装客户端,否则客户端与服务端版本将不一致,可能影响部分功能的正常使用。
ClickHouse数据表分区过多调优 问题排查步骤 磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。
使用多级agent串联从本地采集静态日志保存到HDFS 操作场景 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已
Spark HA方案介绍 Spark多主实例HA原理与实现方案 基于社区已有的JDBCServer基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCSer
使用多级agent串联从本地采集静态日志保存到HDFS 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已创建用户flume_hdfs并授权验证日志时操作的HDFS目录和数据。
使用Spark执行Hudi样例程序(Python) 使用python写Hudi表 下面代码片段仅为演示,具体代码参见:sparknormal-examples.SparkOnHudiPythonExample.hudi_python_write_example。 插入数据: #insert
Hue日志介绍 日志描述 日志路径:Hue相关日志的默认存储路径为“/var/log/Bigdata/hue”(运行日志),“/var/log/Bigdata/audit/hue”(审计日志)。 日志归档规则:Hue的日志启动了自动压缩归档功能,默认情况下,当“access.log”、“error
CarbonData CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提高计算效率,有助于加速超过PB数量级的数据查询,可用于更快的交互查询。同时,CarbonData也是一种将数据源与Spark集成的高性能分析引擎。
Spark跨源复杂数据的SQL查询优化 场景描述 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨
Spark SQL join优化 操作场景 Spark SQL中,当对两个表进行join操作时,利用Broadcast特性(见“使用广播变量”章节),将被广播的表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。
补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.3.1-LTS.1.2 发布时间 2024-08-19 解决的问题 MRS 3.3.1-LTS.1.2修复问题列表: 解决Doris集群产生RFC请求耗时超过阈值的误告警问题 解决Doris的BE实例crash重启的问题