检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(可选)创建MapReduce样例工程 操作场景 除了导入MapReduce样例工程,您还可以使用IntelliJ IDEA新建一个MapReduce工程。 操作步骤 打开IntelliJ IDEA工具,选择“File > New > Project”,如图1所示。 图1 创建工程
单个Cell过大会影响读写性能,同时过大也意味着可能存在异常数据,可以根据写入的数据评估数据范围,设置上限,如果无法评估,建议保持默认值。 hbase.rpc.rows.size.threshold.reject RegionServer单个请求包含的数据操作条数超出阈值时,是否拒绝请求。 同一个
务执行之前的状态。 本章节主要介绍如何开启ClickHouse事务。 使用本地表场景进行数据写入性能更优,故推荐本地表的数据增、删、改、查场景的多副本分布式事务支持。 对于使用分布式表进行数据写入场景的分布式事务,需要结合分布式表事务insert_distributed_sync
xml”配置文件中优化如下参数: “yarn.app.mapreduce.am.resource.mb” “yarn.app.mapreduce.am.command-opts”,该参数中-Xmx值建议为0.8*“yarn.app.mapreduce.am.resource.mb” 参考规格:
用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用hbaseRDD方法以特定的规则扫描HBase表。 数据规划 使用操作Avro格式数据章节中创建的HBase数据表。 开发思路 设置scan的规则,例如:setCaching。 使用特定的规则扫描Hbase表。 打包项目
多个NameService环境下运行MapReduce任务失败 问题 多个NameService环境下,运行使用viewFS功能的MapReduce或YARN任务失败。 回答 当使用viewFS时,只有在viewFS中挂载的目录才能被访问到。所以最可能的原因是配置的路径没有在viewFS的挂载点上。例如:
LOAD DATA命令用于从文件或者文件夹加载数据到table。 Filepath:需要填写文件或目录的绝对路径。 OVERWRITE:如果使用了这个关键字,目标表(或分区)的数据将被删除,并使用文件中读取的数据来替代。 限制 如果要加载数据到指定分区,用户必须在partition子句中列出表的所有字段。
等将不会向该实例分发。 Catalog Catalog实例服务将每个Impalad实例上发生的元数据变动同步到集群内其他Impalad实例,从而避免在一个Impalad实例中更改元数据,其他各个实例需要执行REFRESH操作来更新。但是,在Hive中建表,修改表等,则需要执行REFRESH或者INVALIDATE
配置Hive单表动态视图的访问控制权限 操作场景 MRS中安全模式下Hive可以创建一个视图并控制用户访问权限,支持授权给不同的用户访问,又可以限定不同用户只能访问的不同数据。 在视图中,Hive可以通过获取当前客户端提交任务的用户的内置函数“current_user()”来进行
配置Hive单表动态视图的访问控制权限 操作场景 MRS安全模式下Hive可以创建一个视图并控制用户访问权限,支持授权给不同的用户访问,又可以限定不同用户只能访问的不同数据。 在视图中,Hive可以通过获取当前客户端提交任务的用户的内置函数“current_user()”来进行过
在本地Windows环境中调测Spark应用 配置Windows通过EIP访问集群Spark 在本地Windows环境中编包并运行Spark程序 在本地Windows环境中查看Spark程序调试结果 父主题: 调测Spark应用
在本地Windows环境中调测Spark应用 配置Windows通过EIP访问集群Spark 在本地Windows环境中编包并运行Spark程序 在本地Windows环境中查看Spark程序调试结果 父主题: 调测Spark应用
JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV DStream的接口,提供reduceByKey和join等操作。 JavaReceiverInputDStream<T>:定义任何从网络接收数据的输入流。 Spark Streaming的常见方法与Spark
HA模块的SSL 操作场景 本任务将对安装DBService的集群进行手动配置DBService服务HA模块SSL的操作。 执行该操作后,如需还原,请执行还原DBService HA模块的SSL配置。 前提条件 MRS集群内主、备DBService节点的“$BIGDATA_HOME
FlinkServer对接Hive时创建集群连接 以具有FlinkServer管理员权限的用户访问FlinkServer WebUI界面,选择“系统管理 > 集群连接管理”,进入集群连接管理页面。 单击“创建集群连接”,在弹出的页面中填写集群连接信息,单击“测试”,测试连接成功后单击“确定”,完成集群连接创建。
class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示:该值来自job.properties所定义。
问题 登录Manager界面,跳转Tez WebUI界面,已经提交的Tez任务未展示,如何解决。 回答 Tez WebUI展示的Tez任务数据,需要Yarn的TimelineServer支持,确认提交任务之前TimelineServer已经开启且正常运行。 在设置Hive执行引擎为Tez的同时,需要设置参数“yarn
只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。
准备运行环境,运行Flink应用程序。 在Linux环境中运行Flink应用程序,需要先启动Flink集群。在Flink客户端下通过yarn session命令启动flink集群。 执行yarn-session.sh之前,应预先将Flink应用程序的运行依赖包复制到客户端目录“#
Tez常用配置参数 参数入口 在Manager系统中,选择“集群 > 服务 > Tez > 配置”,选择“全部配置”。在搜索框中输入参数名称。 本章节适用于MRS 3.x及后续版本。 参数说明 表1 参数说明 配置参数 说明 缺省值 property.tez.log.dir Tez日志目录。