检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Hive SQL防御规则 配置Hive SQL防御操作场景 用户可以在Manager界面配置Hive的SQL防御规则,根据业务调整对应SQL防御规则的参数。 配置Hive SQL防御前提条件 已安装包含Hive服务的集群客户端,例如安装目录为“/opt/hadoopclient”。
操作步骤 在Spark SQL中进行Join操作时,可以按照以下步骤进行优化。为了方便说明,设表A和表B,且A、B表都有个名为name的列。对A、B表进行join操作。 估计表的大小。 根据每次加载数据的大小,来估计表大小。 也可以在Hive的数据库存储路径下直接查看表的大小。首先
整体性能。针对该场景,MRS提供了ClickHouse慢查询语句的监控功能。 正在进行的慢查询 当前还在执行没有返回结果的慢SQL语句信息可以通过该界面查询。 慢查询菜单路径 MRS 3.2.0之前版本:登录FusionInsight Manager,选择“集群 > 服务 > ClickHouse
的环境执行Hive on Spark任务时,可避免任务卡顿。 Hive on Spark任务的Spark内核版本已经升级到Spark2x,可以支持在不安装Spark2x的情况下,执行Hive on Spark任务。如果没有安装HBase,默认在执行Spark任务时,会尝试去连接Z
导致作业稳定性下降,或TTL过期可能出现数据关联不准确。 对于数据关联次数确定的业务,可以使用JTL(Join-To-Live)特性减少状态后端压力,JTL指根据关联次数确定数据是否过期,其可以通过如下两种方式配置: 仅支持Flink Regular Joins中的inner join语句。
、ZooKeeper、Kerberos的安全认证,这些安全认证只需要生成一个jaas文件并设置相关环境变量即可。LoginUtil相关接口可以完成这些配置。 代码样例 此代码片段在com.huawei.bigdata.kafka.example.security包的LoginUtil类中。
、ZooKeeper、Kerberos的安全认证,这些安全认证只需要生成一个jaas文件并设置相关环境变量即可。LoginUtil相关接口可以完成这些配置。 代码样例 此代码片段在com.huawei.bigdata.kafka.example.security包的LoginUtil类中。
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,仅job配置“job
配置多主实例模式 配置场景 集群中支持同时共存多个ThriftServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个ThriftServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的ThriftServer服务。 配置描述 登录Manager,选择“集群
配置DataNode预留磁盘百分比 配置场景 当Yarn本地目录和DataNode目录配置在同一个磁盘时,具有较大容量的磁盘可以运行更多的任务,因此将有更多的中间数据存储在Yarn本地目录。 目前DataNode支持通过配置“dfs.datanode.du.reserved”来配
管理Kafka Topic中的消息 操作场景 用户可以根据业务需要,使用MRS集群客户端,在Kafka主题中产生消息,或消费消息。 前提条件 已安装集群客户端。 启用Kerberos认证的集群,需要提前在Manager中创建业务用户,用户拥有在Kafka主题中执行相应操作的权限。
sk的临时输出结果commit到最终的结果输出目录。特别是在大集群中,大Job的commit过程会严重影响任务的性能表现。 针对以上情况,可以通过将以下参数“mapreduce.fileoutputcommitter.algorithm.version”配置为“2”,来提升MR Job
setGlobalJobParameters(stormConfig); //执行拓扑提交 topology.execute(); 增加如上的安全插件配置后,可以避免HDFSBolt和HBaseBolt在初始化过程中的无谓登录,因为Flink已经实现准备好了安全上下文,无需再登录。 迁移Storm对接其他安全组件的业务
参数解释: 标签的值。 约束限制: 不涉及 取值范围: 标签的value值可以包含任意语种字母、数字、空格和_.:=+-@,但首尾不能含有空格,不能以_sys_开头。 最大长度255个unicode字符,可以为空字符串。 默认取值: 不涉及 状态码: 400 表9 响应Body参数
采集MRS集群服务堆栈信息 为了满足实际业务的需求,集群管理员可以在Manager中采集指定角色或实例的堆栈信息,保存到本地目录,并支持下载。 采集内容包括: jstack栈信息。 jmap -histo堆统计信息。 jmap -dump堆信息快照。 对于jstack和jmap-histo信息,支持连续采集以便对比。
ght Manager审计信息,包括操作类型、安全级别、开始时间、结束时间、用户、主机、服务、实例、操作结果等。 图1 审计信息列表 用户可以在“所有安全级别”中选择“高危”、“危险”、“一般”和“提示”级别的审计日志。 在高级搜索中,用户可设置过滤条件来查询审计日志。 在“操作
使用Hue提交Bundle批处理作业 操作场景 当同时存在多个定时任务的情况下,用户可以通过Bundle任务进行批量管理作业。该任务指导用户通过Hue界面提交批量类型的作业。 前提条件 提交Bundle批处理之前需要提前配置好相关的Workflow和Coordinator作业。 操作步骤
FlinkSQL行级过滤 本章节适用于MRS 3.3.1及以后版本。 使用场景 使用FlinkSQL时支持设置行级别过滤条件,可以使指定用户只能访问授权过的行,隐藏未授权的行数据。 前提条件 集群已启用Kerberos认证(安全模式),已安装Ranger、Hive、Flink等服务且服务运行正常。
通过Hue管理HBase表 操作场景 用户需要使用图形化界面在集群中创建或查询HBase表时,可以通过Hue完成任务。 如需在Hue WebUI中操作HBase,当前MRS集群中必须部署HBase的Thrift1Server实例。 Thrift1Server实例默认不会安装,用户
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,只是job配置“job