检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的角色名称 表名 产生告警的库名.表名 对系统的影响 ClickHouse中表存在数据倾斜,可能导致sql执行效率低。 可能原因 数据写入策略不合理,导致各节点之间数据不均衡。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查
select语句执行,分成多个批次来执行。 不要使用OR作为JOIN条件。 不建议频繁的数据delete修改,将要删除的数据攒批,偶尔进行批量删除,且需要带上条件,提升系统稳定性和删除效率。 大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。例如:
hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 图4 添加OBS日志级别 使用Spark Shell读取OBS文件 使用安装客户端用户登录客户端安装节点。 配置环境变量。 source 客户端安装目录/bigdata_env 修改配置文件: vim
返回提供的最大值。 least(value1, value2, ..., valueN) → [same as input] 返回提供的最小值。 批量比较判断:ALL,ANY和SOME 量词ALL,ANY和SOME可以参考以下方式,结合比较操作符一起使用: expression operator
把“/home/data”的数据加载进child表中。 查询child表中的数据。 删除child表。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight
筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight
停止作业 √ √ x √ 删除单个作业 √ √ x √ 批量删除作业 √ √ x √ 查询作业详情 √ √ √ √ 查询作业列表 √ √ √ √ 新建文件夹 √ √ x √ 删除文件 √ √ x √ 查询文件列表 √ √ √ √ 批量操作集群标签 √ √ x √ 创建单个集群标签 √ √
筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight
动态规则dynamic_0002,支持SELECT、ALTER TABLE ADD PARTITION、ALTER TABLE DROP PARTITION。若执行含判断条件的批量删除操作,如ALTER TABLE DROP PARTITION(pt < 10),由于该命令本身存在分区数限制(通过“spark.sql
MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0
<brokers>指获取元数据的Kafka地址。 <subscribe-type>指Kafka订阅类型(如subscribe)。 <topic>指读取Kafka上的topic名称。 <checkpointDir>指checkpoint文件存放路径,本地或者HDFS路径下。 由于Spark
<brokers>指获取元数据的Kafka地址。 <subscribe-type>指Kafka订阅类型(如subscribe)。 <topic>指读取Kafka上的topic名称。 <checkpointDir>指checkpoint文件存放路径,本地或者HDFS路径下。 由于Spark
RS集群客户端来以命令行形式提交作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 通过管理控制台提交作业 登录MRS管理控制台。
)内将产生约1800万日志文件,占用NameNode近18G内存空间,同时拖慢HDFS的系统响应速度。 由于收集到HDFS上的日志文件只有读取和删除的需求,因此可以利用Hadoop Archives功能对收集的日志文件目录进行定期归档。 日志归档 在HistoryServer中新
根据业务需要选择合适的MRS集群类型。 分析集群:用于离线数据分析场景,对海量数据进分析处理,形成结果数据,主要包含Hadoop、Spark、HBase、Hive、Flink、Oozie、Tez等数据分析类组件。 流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。
IntWritable(age), new IntWritable(1)); } } 编写Reduce类,对从Hive表中读取到的数据进行统计。 public static class Reduce extends Reducer<IntWritable,
因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 通过管理控制台提交作业 登录MRS管理控制台。
HDFS磁盘空间使用率超过阈值 HDFS集群磁盘容量不足,会影响到HDFS的数据写入。 80% DataNode磁盘空间使用率 14002 DataNode磁盘空间使用率超过阈值 DataNode容量不足,会影响到HDFS的数据写入。 80% 总副本预留磁盘空间所占比率 14023 总副本预留磁盘空间所占比率超过阈值
数据加载过程中,设置处理数据使用的CPU core数量。 如何调优 如果有更多的CPU个数,那么可以增加CPU值来提高性能。例如,将该参数值从2增加到4,那么CSV文件读取性能可以增加大约1倍。 表4 是否使用YARN本地目录进行多磁盘数据加载 参数 carbon.use.local.dir 所属配置文件 carbon
数据加载过程中,设置处理数据使用的CPU core数量。 如何调优 如果有更多的CPU个数,那么可以增加CPU值来提高性能。例如,将该参数值从2增加到4,那么CSV文件读取性能可以增加大约1倍。 表4 是否使用YARN本地目录进行多磁盘数据加载 参数 carbon.use.local.dir 所属配置文件 carbon