正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1所示。 已启用Ranger授权的组件(HDFS与Yarn除外),Manager上非系统默认角色的权限将无法生效,需要通过配置Ranger策略为用户组赋权。 图1 启用Ranger鉴权 滚动重启服务或者重启服务。 父主题: 使用Ranger(MRS 3.x)
勾选目录的复选框,单击页面上方的“操作”,单击“存储策略”。 图1 存储策略 在弹出的对话框中设置新的存储策略,单击“保存”。 在“静态存储策略”页签设置静态存储策略,单击“保存”。 在“动态存储策略”页签可创建、删除、修改动态存储策略,详细的参数介绍如表3所示。 表3 动态存储策略参数介绍 分类 参数 说明
添加18个标签)。 如您的组织已经设定MapReduce服务的相关标签策略,则需按照标签策略规则为集群/节点添加标签。标签如果不符合标签策略的规则,则可能会导致集群/节点创建失败,请联系组织管理员了解标签策略详情。 标签共由两部分组成:“标签键”和“标签值”,其中,“标签键”和“标签值”的命名规则如表1所示。
Hudi是否应该基于最后24个提交的元数据动态计算insertSplitSize,默认关闭。 true hoodie.copyonwrite.record.size.estimate 平均记录大小。如果指定,Hudi将使用它,并且不会基于最后24个提交的元数据动态地计算。 没有默认值设置。这对于计算插入并行度以及将插入打包到小文件中至关重要。
Hive、Spark、HBase、Kudu、Impala、Flink、HetuEngine、CDL、Doris及HetuEngine计算实例 表2 重启策略以及影响 组件名称 重启策略 影响范围 影响时间 Meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控,正常场景不涉及。 耗时约5分钟。
class - String 用于实现分区提交策略接口的分区提交策略类。 仅在自定义提交策略中生效。 sink.partition-commit.success-file.name _SUCCESS String success-file分区提交策略的文件名,默认值为_SUCCESS。 父主题:
HAVING HAVING HAVING与聚合函数和GROUP BY一起使用,来控制选在哪些组。HAVING能够在分组和聚合计算之后,过滤掉不满足给定条件的组。 例如: SELECT count(*), mktsegment, nationkey, CAST(sum(acctbal)
据业务需求为该hetu_user添加Ranger权限,可参考添加HetuEngine的Ranger访问权限策略。 已创建计算实例并运行正常,可参考创建HetuEngine计算实例。 访问编辑器 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击,然后选择
访问MRS Manager(MRS 3.x之前版本) 操作场景 MRS 3.x之前版本集群使用MRS Manager对集群进行监控、配置和管理,用户可以在MRS控制台页面打开Manager管理页面。 访问MRS Manager 登录MRS管理控制台页面。 单击“现有集群”,在集群
安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务
创建租户的具体操作流程如表2所示。 图1 创建租户流程 表2 创建租户的操作说明 操作 说明 添加租户 可配置待添加租户的计算资源、存储资源和关联服务。 添加子租户 可配置待添加子租户的计算资源、存储资源和关联服务。 添加用户并绑定租户的角色 若一个用户想要使用“tenant1”租户包含的资源,
ResourceManager 集群的资源管理器,基于应用程序对资源的需求进行调度。资源管理器提供一个调度策略的插件,它负责将集群资源分配给多个队列和应用程序。调度插件可以基于现有的能力调度和公平调度模型。 Kafka分区 每一个Topic可以被分为多个Partition,每个Partition
为一个集合体,这个集合体就是租户。多个不同的租户统称多租户。 多租户功能支持层级式的租户模型,支持动态的添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。
将高频访问的SQL查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进行预计算,然后在查询的SQL中将能匹配到物化视图的查询或者子查询转换为物化视图,避免了数据的重复计算,这种情况下往往能较大地提高查询的响应效率。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。
Ranger性能调优 操作场景 Ranger给各组件提供权限策略,当使用Ranger的服务增多,需要调整Ranger的规格。 本章节仅适用MRS 3.2.0及之后版本。 内存参数配置 登录FusionInsight Manager页面,选择“集群 > 服务 > Ranger > 配置
选择“叶子租户”:当前租户为叶子租户,不支持添加子租户。 选择“非叶子租户”:当前租户为非叶子租户,支持添加子租户,但租户层级不能超过5层。 计算资源 为当前租户选择动态计算资源。 选择“Yarn”时,系统自动在Yarn中以子租户名称创建任务队列。 如果是叶子租户,叶子租户可直接提交到任务队列中。
b=xxx 原因分析 按照设定,任务应该只扫描b=xxx的分区,但是查看任务日志可以发现,实际上任务却扫描了所有的分区再来计算b=xxx的数据,因此任务计算的很慢。并且因为需要扫描所有文件,会有大量的OBS请求发送。 MRS默认开启基于分区统计信息的执行计划优化,相当于自动执行Analyze
Actions操作的时候才会真正启动计算过程进行计算。Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。 图2 RDD操作示例 RDD看起来与Scala集合类型没有太大差别,但数据和运行模型大相迥异。 val file = sc
Actions操作的时候才会真正启动计算过程进行计算。Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。 图2 RDD操作示例 RDD看起来与Scala集合类型没有太大差别,但数据和运行模型大相迥异。 val file = sc
${TableName}删掉表即可。 建议与总结 Hive分区虽然可以提高查询效率,但要避免分区不合理导致出现大量小文件的问题,要提前规划好分区策略。 父主题: 使用Hive