检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的角色名称。 主机名 产生告警的主机名。 主题名 产生告警的Kafka Topic。 对系统的影响 Partition所在的磁盘分区IO过于繁忙,产生告警的Kafka Topic上可能无法写入数据。 可能原因 Topic副本数配置过多。 生产者消息批量写入磁盘的参数设置不合理。该T
上存储的旧的日志文件(默认目录为HDFS文件系统中的“/mr-history/done”),具体清理的时间间隔参数配置为mapreduce.jobhistory.max-age-ms,默认值为1296000000,即15天。 表1 MR日志列表 日志类型 日志文件名 描述 运行日志
上存储的旧的日志文件(默认目录为HDFS文件系统中的“/mr-history/done”),具体清理的时间间隔参数配置为mapreduce.jobhistory.max-age-ms,默认值为1296000000,即15天。 表1 MR日志列表 日志类型 日志文件名 描述 运行日志
中读取数据,执行对应处理之后,然后将结果数据回写至Kafka中。 例如:Spark Streming中定义了批次时间,如果数据传入Kafka的速率为10MB/s,而Spark Streaming中定义了每60s一个批次,回写数据总共为600MB。而Kafka中定义了接收数据的阈值
建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力,该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力,不指定preCombineField会导致主键重复。 参数名称 参数描述
FS路径吗 MapReduce引擎无法查询Tez引擎执行union语句写入的数据 Hive是否支持对同一张表或分区进行并发写数据 Hive是否支持向量化查询 Hive表的HDFS数据目录被误删,但是元数据仍然存在,导致执行任务报错 如何关闭Hive客户端日志 为什么在Hive自定义配置中添加OBS快删目录后不生效
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。 缓冲区超时设置
使用Hive的时候,在输入框中输入了use database的语句切换数据库,重新在输入框内输入其他语句,为什么数据库没有切换过去? 回答 在Hue上使用Hive有区别于用Hive客户端使用Hive,Hue界面上有选择数据库的按钮,当前SQL执行的数据库以界面上显示的数据库为准。 与此相关的还有设置参数等ses
ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update
假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性,即:当应用出现异常并恢复后,各个算子的状态能够处于统一的状态。 数据规划 使用自定义算子每秒钟产生大约10000条数据。 产生的数据为一个四元组(Long,String,String,Integer)。 数据经统计后,统计结果打印到终端输出。
假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性,即:当应用出现异常并恢复后,各个算子的状态能够处于统一的状态。 数据规划 使用自定义算子每秒钟产生大约10000条数据。 产生的数据为一个四元组(Long,String,String,Integer)。 数据经统计后,统计结果打印到终端输出。
集群状态消息通知 特性简介 大数据集群运行过程中经常会进行如下操作: 大数据集群变更,比如扩容、缩容集群。 业务数据量突然变化,集群触发弹性伸缩。 相关业务结束,需要终止大数据集群等。 用户想要及时得知这些操作是否执行成功,以及当集群出现大数据服务不可用,或节点故障时,用户希望不
假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性,即:当应用出现异常并恢复后,各个算子的状态能够处于统一的状态。 数据规划 使用自定义算子每秒钟产生大约10000条数据。 产生的数据为一个四元组(Long,String,String,Integer)。 数据经统计后,统计结果打印到终端输出。
访问Hue原生页面时间长,文件浏览器报错Read timed out 问题 访问Hue原生页面时页面加载时间较长,访问Hue的HDFS文件浏览器报错Read timed out,如何解决。 回答 检查HDFS服务中是否安装Httpfs实例。 否,请联系运维人员处理。 是,重启HttpFS实例解决。
failed.", e); } LOG.info("Exiting testDrop."); } 父主题: HBase数据读写样例程序
Manager 页面,选择“系统 > 权限 > 用户”,在待操作用户的“操作”栏下选择“更多 > 下载认证凭据”,选择集群信息后单击“确定”,下载keytab文件。 解压keytab文件,使用WinSCP工具将解压得到的“user.keytab”文件上传到待操作节点的Hive客户
Manager 页面,选择“系统 > 权限 > 用户”,在待操作用户的“操作”栏下选择“更多 > 下载认证凭据”,选择集群信息后单击“确定”,下载keytab文件。 解压keytab文件,使用WinSCP工具将解压得到的“user.keytab”文件上传到待操作节点的Hive客户
nm.logs}。如果有数据分区,基于该数据分区生成一个类似/srv/BigData/hadoop/data1/nm/containerlogs,/srv/BigData/hadoop/data2/nm/containerlogs的路径清单。如果没有数据分区,生成默认路径/srv
Manager操作及显示易用性优化。 MRS Manager增加大数据服务滚动重启能力。 MRS Manager新增文件句柄数量监控功能。 MRS Manager新增大数据组件发生重启事件上报功能。 MRS镜像 解决ECS VNC登录不停打印输出问题。 解决操作系统日志转储配置问题。 补丁兼容关系 包含1
Service提升Spark Core性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据以及给其他Executor提供shuffle数据。当Executor进程任务过重,导致触发GC(Garbage