检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
c”。否则会导致连接生成的临时文件无法删除,长期会累积产生大量的垃圾文件。 在使用beeline客户端时,如果需要在一行中输入多条语句,语句之间以“;”分隔,需要将“entireLineAsCommand”的值设置为“false”。 设置方法:如果未启动beeline,则执行beeline --entireLin
合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置生成稀疏索
group-xxx/owners/topic-xxx/x。 当触发负载均衡后,原来的consumer会重新计算并释放已占用的partitions,此过程需要一定的处理时间,新来的consumer抢占该partitions时很有可能会失败。 表1 参数说明 名称 作用 默认值 rebalance
用户需要通过数据特征灵活配置HDFS文件数据块的存储节点。通过设置HDFS目录/文件对应一个标签表达式,同时设置每个DataNode对应一个或多个标签,从而给文件的数据块存储指定了特定范围的DataNode。 当使用基于标签的数据块摆放策略,为指定的文件选择DataNode节点进行存放时,会根据文件的标签表达式选
ClickHouse多租户介绍 本章节内容仅适用于MRS 3.2.0及之后版本。 ClickHouse多租户介绍 ClickHouse多租户特性通过“用户 > 租户角色 > 资源profiles管理”的模型,使用户拥有对集群资源的管理能力,目前支持内存和CPU优先级管理。多租户设计模型如下图所示:
用户需要通过数据特征灵活配置HDFS文件数据块的存储节点。通过设置HDFS目录/文件对应一个标签表达式,同时设置每个DataNode对应一个或多个标签,从而给文件的数据块存储指定了特定范围的DataNode。 当使用基于标签的数据块摆放策略,为指定的文件选择DataNode节点进行存放时,会根据文件的标签表达式选
所支持的所有组件。 版本类型 LTS版 待创建的MRS集群版本类型。 集群版本 MRS 3.2.0-LTS.1 待创建的MRS集群版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 组件选择 ClickHouse集群 基于系统预置的集群模板选择要购买的集群组件。
因此,MRS大数据集群提供了完整的企业级大数据多租户解决方案。多租户是MRS大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。 特性优势 合理配置和隔离资源 租户之间的资源是隔离的,一个租户对资源的使用不影响其他租户,保证了每个租户根据
Connector方式。 在Flink实时写入数据到Doris的场景下,CheckPoint设置的时间需要考虑每批次数据量,如果每批次数据太小会造成大量小文件,推荐值为60s。 建议不使用insert values作为数据写入的主要方式,批量数据导入推荐使用StreamLoad、BrokerLoad或SparkLoad。
操作场景 Kafka消息传输保障机制,可以通过配置不同的参数来保障消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高可用、高性能模式后,数据可靠性会降低
支持用户将数据块的各个副本存放在指定具有不同标签的节点,如某个文件的数据块的2个副本放置在标签L1对应节点中,该数据块的其他副本放置在标签L2对应的节点中。 支持选择节点失败情况下的策略,如随机从全部节点中选一个。 如图7所示。 /HBase下的数据存储在A,B,D /Spark下的数据存储在A,B,D,E,F
是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后,每个分页显示的最大作业数量。 5000 显示更多的历史作业,会影响性能,增加打开Yarn
资源容量 队列的资源容量(百分比)。当系统非常繁忙时,应保证每个队列的容量得到满足,而如果每个队列应用程序较少,可将剩余资源共享给其他队列。注意,所有队列的容量之和应小于100。 20 最大资源容量 队列的资源使用上限(百分比)。由于存在资源共享,因此一个队列使用的资源量可能超过
最大重试次数。用于表示所有可重试操作所支持的最大重试次数。 35 这两个参数的重试超时的配合方式如图1所示。 图1 HBase客户端操作重试超时流程 从该流程可以看出,如果未对这两个配置参数根据具体使用场景进行配置,会造成挂起迹象。建议根据使用场景,配置合适的超时时间,如果是长时间操作,则把超时时间设置长一点;如
可选参数,为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 SparkSql作业常用的运行程序参数如表2所示,可根据执行程序及集群资源情况进行配置。 - 服务配置参数 可选参数,用于为本次执行的作业修改服务配置参数。 该参数的修改仅适
4:只显示最后的4个字符,其他用x代替。 Partial mask: show first 4:只显示开始的4个字符,其他用x代替。 Hash:用值的哈希值替换原值,采用的是hive的内置mask_hash函数,只对string、char、varchar类型的字段生效,其他类型的字段会返回NULL值。
HBase单表查询范围扫描优化 HBase单表查询范围扫描优化是指根据HBase的列的谓词条件尝试自动推断rowkey的起止地址,在tableScan的时候设置hbase scan起止地址从而提高访问性能。 比如假设HBase数据表的rowkey由building_code:house_code:
度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力。 任务的并行度可以通过以下四种层
Knox进程占用内存高 用户问题 knox进程占用内存高。 问题现象 主Master节点内存使用率高,用top -c命令查看到占用内存较高的进程中有knox进程,且此进程占用内存超过4 GB。 原因分析 knox进程没有单独配置内存,进程会自动根据系统内存大小按照比例划分可用内存,导致knox占用内存大。
输入创建集群时默认的用户名“admin”及设置的密码,单击“登录”进入MRS Manager页面。 添加安全组规则 如需为其他用户开通访问MRS Manager的权限,参考该小节内容添加对应用户访问公网的IP地址为可信范围。 在MRS管理控制台,在“现有集群” 列表,单击指定的集群名称,进入集群信息页面。 单