检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
消减Spark Insert Overwrite自读自写风险 场景说明 对于目的表,需要使用动态分区插入(使用历史分区更新),且目的表和数据源表都是同一张表。 由于直接在原表上执行insert overwrite可能会导致数据丢失或数据不一致的风险,建议首先使用一个临时表来处理数据。
Agent1,2,3)负责处理日志,汇聚节点(Agent4)负责写入HDFS,每个收集节点的Agent可以选择多个汇聚节点,这样可以实现负载均衡。 图3 Flume级联结构图 Flume的架构和详细原理介绍,请参见:https://flume.apache.org/releases/1
a,b; 命令执行后查看各个分组的数据条数是否相差不大,如果相差超过2/3或1/2,则需要重新选择分桶字段。 2千万以内数据禁止使用动态分区。动态分区会自动创建分区,而小表用户关注不到,会创建出大量不使用的分区分桶。 创建表时,排序键key不能太多,一般建议3~5个;太多key会导致数据写入较慢,影响数据导入性能。
关闭Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“false”时。 numExecutors * 2, with minimum of 3 Executor失败次数。 开启Executor个数动态分配功能的场景即“spark
关闭Executor个数动态分配功能的场景即“spark.dynamicAllocation.enabled”参数设为“false”时。 numExecutors * 2, with minimum of 3 Executor失败次数。 开启Executor个数动态分配功能的场景即“spark
资源池用来指定动态资源的配置。Yarn任务队列和资源池关联,可实现资源的分配和调度。 一个租户只能设置一个默认资源池。用户通过绑定租户相关的角色,来使用该租户资源池的资源。若需要使用多个资源池的资源,可通过绑定多个租户相关的角色实现。 动态资源调度机制: Yarn动态资源支持标签调度(Label
PARTITON语句将数据加载到分区时,只能加载到静态分区。 动态分区:通过查询命令,将结果插入到某个表的分区时,可以使用动态分区。 动态分区通过在客户端工具执行如下命令开启: set hive.exec.dynamic.partition=true; 动态分区默认模式是“strict”,也就是必须
al.pipeline组下动态创建的单用户管道组中。 第四个选择器匹配来自BI工具的查询,BI工具有一个源与正则表达式jdbc#(?.*)匹配,并且客户端提供的标签是hi-pri的超集。这些查询被放置在global.adhoc组下动态创建的子组中。动态子组将基于命名变量tooln
Hudi是否应该基于最后24个提交的元数据动态计算insertSplitSize,默认关闭。 true hoodie.copyonwrite.record.size.estimate 平均记录大小。如果指定,Hudi将使用它,并且不会基于最后24个提交的元数据动态地计算。 没有默认值设置。这对
Hudi连接器支持元数据缓存,以便更快地提供对各种操作的元数据请求。可参考调整HetuEngine元数据缓存。 动态过滤 开启动态过滤有助于Hudi连接器的Join算子的计算优化。可参考调整HetuEngine动态过滤。 带分区条件查询 建立分区表并且查询带分区过滤条件有助于过滤部分分区数据,从而提高性能。
规划为一个集合体,这个集合体就是租户。多个不同的租户统称多租户。 多租户功能支持层级式的租户模型,支持动态的添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。
单击“确定”保存配置。 通过Manager配置队列容量策略 MRS 3.x及之后版本集群: 登录Manager。 选择“租户资源 > 动态资源计划”,单击“资源分布策略”页签。 “集群”参数选择待操作的集群名称,然后在“资源池”选择指定的资源池。 在“资源分配”列表指定队列的“操作”列,单击“修改”。
数据。或在开发作业时,配置Flink动态发现Kafka Topic新分区功能。 可在作业SQL Kafka source表的WITH属性中,添加“scan.topic-partition-discovery.interval”参数,设置值为动态刷新时间,如“5min”。 查看作业管理界面,作业状态为“运行中”。
可以通过调整Yarn配置、集群节点资源配置、元数据缓存和动态过滤等策略对系统整体进行调优,可参考如下内容: 调整Yarn配置可参考调整Yarn资源分配。 调整集群节点资源配置可参考调整HetuEngine集群节点资源配置。 调整元数据缓存配置可参考调整HetuEngine元数据缓存。 调整动态过滤配置可参考调整HetuEngine动态过滤。
均衡Kafka扩容节点后数据 操作场景 用户可以在Kafka扩容节点后,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载。 本章节内容适用于MRS 3.x之前版本。3.x及之后版本请参考配置Kafka数据均衡工具。 前提条件 MRS集群管理员已明确业务需求,并准备一个K
根据提示输入创建集群时的密码。 其中,“本地端口地址”需要指定一个用户本地环境未被使用的端口,建议选择8157。 创建后的SSH隧道,通过“-D”启用动态端口转发功能。默认情况下,动态端口转发功能将启动一个SOCKS代理进程并侦听用户本地端口,端口的数据将由SSH隧道转发到集群的主管理节点。 执行如下命令配置浏览器代理。
静态拦截规则:基于纯粹的SQL语法规则进行拦截或提示。 动态拦截规则:基于与数据表的统计信息、元数据信息等内容有关的规则进行拦截或提示。 运行熔断规则:基于SQL语句运行时的系统动态信息(如CPU、内存、IO等)的规则进行阻断。 对于静态拦截规则、动态拦截规则,系统在SQL请求满足条件时,可对
根据提示输入创建集群时的密码。 其中,“本地端口地址”需要指定一个用户本地环境未被使用的端口,建议选择8157。 创建后的SSH隧道,通过“-D”启用动态端口转发功能。默认情况下,动态端口转发功能将启动一个SOCKS代理进程并侦听用户本地端口,端口的数据将由SSH隧道转发到集群的主管理节点。 执行如下命令配置浏览器代理。
Impala客户端使用实践 访问Impala WebUI界面 使用Impala操作Kudu表 Impala对接外部LDAP Impala启用并配置动态资源池 使用Impala查询管理界面 Impala常见配置参数 Impala常见问题
Manager页面: MRS 3.x及之后版本:在Manager页面,选择“租户资源 > 动态资源计划 > 资源分布策略”。 MRS 2.x及之前版本:在Manager页面,选择“租户 > 管理 > 动态资源计划 > 资源分布策略”。 MRS控制台:在集群详情页,选择“租户管理 > 资源分布策略”。