检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备连接HBase集群配置文件 准备运行环境配置文件 应用程序开发或运行过程中,需通过集群相关配置文件信息连接MRS集群,配置文件通常包括集群组件信息文件,可从已创建好的MRS集群中获取相关内容。 用于程序调测或运行的节点,需要与MRS集群内节点网络互通,同时配置hosts域名信息。
partition_spec [LOCATION 'location'], ...]; 分区表删除分区。这个操作会从分区移除数据和元数据。无论表是internal table还是external table,如果ADD PARTITION时指定了分区保存路径,那么在DROP PARTI
运维成本:使用MRS过程中产生的人力成本。 华为云成本中心可以帮助您更高效地管理资源成本,但运维成本需要您自行识别、管理和优化。 成本分配 成本管理的基础是树立成本责任制,让各部门、各业务团队、各责任人参与进来,为各自消耗云服务产生的成本负责。企业可以通过成本分配的方式,将云上成本分组,归集到特
导致系统崩溃。 ERROR ERROR表示当前事件处理出现错误信息,系统运行出错。 WARN WARN表示当前事件处理存在异常信息,但认为是正常范围,不会导致系统出错。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作:
x及之后版本: 登录FusionInsight Manager,选择“集群 > 服务 > Hive > 更多”,查看“启用Ranger鉴权”是否置灰。 是,执行9。 否,执行2-8。 登录FusionInsight Manager,选择“系统 > 权限 > 角色” 单击“添加角色”,输入“角色名称”和“描述”。
Flink基本原理 Flink简介 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
本章节适用于MRS 3.x及后续版本。 对系统的影响 配置从NameNode支持读可以降低主NameNode的负载,提高HDFS集群的处理能力,尤其是在大集群下效果明显。 配置从NameNode支持读需要更新客户端应用配置。 前提条件 已安装HDFS集群,主备NameNode正常,HDFS服务正常。
所有ZooKeeper客户端的操作都要在审计日志中添加Username。 从ZooKeeper客户端创建znode,其kerberos principal是“zkcli/hadoop.<系统域名>@<系统域名>”。 例如打开日志<ZOO_LOG_DIR>/zookeeper_audit.log,内容如下:
mode(Overwrite). save(basePath); "obs://testhudi/cow_table/"是OBS路径,“testhudi”是OBS并行系统文件名称,请根据实际情况修改。 使用datasource查看表建立成功,数据正常。 val roViewDF
Spark同时访问两个HBase样例程序开发思路 场景说明 spark支持同时访问两个集群中的HBase,前提是两个集群配置了互信。 数据规划 将cluster2集群的所有Zookeeper节点和HBase节点的IP和主机名配置到cluster1集群的客户端节点的“/etc/hosts”文件中。
结果。需要指定class、master、jar包以及入参。 示例:执行jar包中的GroupByTest例子,入参为4个,指定集群运行模式是local单核运行。 ./bin/spark-submit --class org.apache.spark.examples.GroupByTest
择“更多 > 重启实例”,输入当前用户密码,单击“确定”重启所有Hive实例。 是否需要在Spark/Spark2x客户端中启用此功能? 是,重新下载并安装Spark/Spark2x客户端。 否,操作结束。 父主题: Hive企业级能力增强
配置MapReduce Job基线 操作场景 确定Job基线是调优的基础,一切调优项效果的检查,都是通过和基线数据做对比来获得。 Job基线的确定有如下三个原则: 充分利用集群资源 Reduce阶段尽量放在一轮 每个Task的执行时间要合理 操作步骤 原则一:充分利用集群资源。
> 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 升级路径不一样重启的服务不一样,详情见如下表格。 如果是跨补丁版本升级,需要重启的组件为各版本重启组件的合集。 表1 重启组件 集群当前补丁版本 目标补丁版本 重启的组件 MRS 3.2.0-LTS
数据恢复后,依赖DBService的组件可能配置过期,需要重启配置过期的服务。 前提条件 检查OMS和LdapServer备份文件是否是同一时间点备份的数据。 检查OMS资源状态是否正常,检查LdapServer实例状态是否正常。如果不正常,不能执行恢复操作。 检查集群主机和
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
root”,勾选default的“Submit”,单击“确定”保存。 根据以上角色的设置,用户提交应用后,会在客户端打印WARN日志。出现WARN日志是由于Flink会去YARN获取资源剩余值并进行检测评估,但该操作需要admin操作权限,可用户并没有设置该权限。该问题不影响任务提交执行,可以忽略。WARN日志如下:
-Dreplication.sleep.before.failover=1 replication.sleep.before.failover是指在RegionServer启动失败时备份其剩余数据前需要的休眠时间。由于30秒(默认值)的睡眠时间没有任何意义,因此将其设置为1(s),使备份过程更快触发。
结果。需要指定class、master、jar包以及入参。 示例:执行jar包中的GroupByTest例子,入参为4个,指定集群运行模式是local单核运行。 ./bin/spark-submit --class org.apache.spark.examples.GroupByTest