检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当分级存储策略为LAZY_PERSIST时为什么文件的副本的存储类型为DISK 问题 当文件的存储策略为LAZY_PERSIST时,文件的第一副本的存储类型应为RAM_DISK,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY
MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。 本文将向您介绍如何在MRS集群中运行Flink作业来处理OBS中存储的数据。 方案架构 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供
容。因为这些基础组件是集群运行的基础。 Core节点是存放集群业务数据的节点,在缩容时必须保证待缩容节点上的数据被完整迁移到其他节点,即完成各个组件的退服之后,才会执行缩容的后续操作(节点退出Manager和删除ECS等)。在选择Core节点时,会优先选择存储数据量较小,且可退服
数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个1的位置,来计算元素数量。通常分为稀疏存储结构和密集存储结构两种。hll创建时是稀疏存储结构,当需要更高效处理时会转为密集型数
磁盘容量不足导致Spark、Hive和Yarn服务不可用 用户问题 磁盘容量不足产生致命告警,Spark、Hive和Yarn服务不可用。 问题现象 用户创建的集群显示磁盘容量不足,产生致命告警,导致Spark、Hive和Yarn服务不可用。 原因分析 由于集群磁盘容量不足,会影响
配置Ranger元数据存储至RDS 本章节旨在指导用户将现有集群的Ranger元数据切换为RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Ranger元数据的迁移。 停用集群组件Ranger鉴权 该操作仅在MRS
Region上线时遇到HFile损坏是否跳过并移动到“/hbase/autocorrupt”或“/hbase/MasterData/autocorrupt”目录,容灾场景不建议开启此参数。 false hbase.hlog.split.skip.errors 日志拆分时是否跳过损坏的WAL文件并移动到“/hbase/corrupt”目录。
Hive数据迁移分两部分内容: Hive的元数据信息,存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService组件,也可以选择RDS(MySQL)作为外置元数据库。 Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。 图1 Hive数据迁移示意 方案优势
Secondary Index,简称为LSI)和全局二级索引(Global Secondary Index,简称为GSI)。全局二级索引相较于本地索引(HIndex),查询性能更好,适合读时延要求高的场景。 HBase全局二级索引,使用独立的索引表存储索引数据。当给定的查询条件可以命中索引
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir
作业有概率在new状态卡顿。 结束有预留资源的任务后,Yarn上预留资源累加不释放。 主备容灾场景中,备集群MapReduce临时任务日志无法进行定期删除,使得日志目录会堆满,导致容灾任务失败。 Yarn资源池可用资源指标异常,导致弹性伸缩触发异常。 Yarn Resource
针对时序场景,对存储数据进行预计算和存储,提升分析场景的性能。针对时序数据特征,进行强有力的数据编码和压缩能力,同时其自身的副本机制也保证了数据的安全,并与Apache Hadoop和Flink等进行了深度集成,可以满足工业物联网领域的海量数据存储、高速数据读取和复杂数据分析需求。
配置Flink作业状态后端冷热数据分离存储 本章节适用于MRS 3.3.0及以后版本。 在宽表关联计算场景中,每张表字段较多,导致状态后端数据量较大,严重影响状态后端性能时,可开启状态后端冷热分级存储功能。 开启状态后端冷热分级存储功能步骤 安装包含Flink、HBase等服务的
系统每30秒周期性检测内存使用率,并把实际内存使用率和阈值相比较。内存使用率默认提供一个阈值。当检测到内存使用率超过阈值时产生该告警。 当主机内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12018 严重 是 告警参数 参数名称 参数含义 ServiceName
ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的
ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行存储,并且文件中的
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
HBase与其他组件的关系 HBase和HDFS的关系 HDFS是Apache的Hadoop项目的子项目,HBase利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日志文