检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在splitWAL的过程中,参数“hbase.splitlog.manager.timeout”控制splitWAL的超时时间,如果该时间内splitWAL无法完成,则会再次提交相同的任务,在一定时间内多次提交了相同的任务,当其中某次任务执行完毕时会删除这个temp文件,所以在后来的任务执行
前提条件 集群安装了Spark及Hive服务。 执行数据导入的用户需要同时具有Spark(对应源表的SELECT权限)、HBase权限(对应HBase NameSpace的RWXA权限)和HDFS权限(对应HFile输出目录的读写权限)。 如果集群已启用Kerberos认证(安全模式
Spark REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages
快速使用Hadoop 本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。 操作步骤 准备wordcount程序。 开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Core为Spark的内核模块,主要负责任务的执行,用于编写Spark应用程序;Spark SQL为执行SQL的模块。 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下要求: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。
Native引擎是通过使用向量化的C++加速库,实现对Spark算子性能加速的一种技术方案。传统的SparkSQL是基于行式数据,通过JVM的codegen来实现查询加速的,由于JVM对生成的java代码存在各种约束,比如方法长度,参数个数等,以及行式数据对内存带宽的利用率不足,因此存在性
jvm-overhead.max 用于JVM其他开销的本地内存的最大值,例如栈空间、垃圾回收空间等,通过-yD添加。 10g 选填 taskmanager.memory.jvm-overhead.fraction 用于JVM其他开销的本地内存占tm内存的比例,例如栈空间、垃圾回收空间等,通过-yD添加。
在splitWAL的过程中,参数“hbase.splitlog.manager.timeout”控制splitWAL的超时时间,若该时间内splitWAL无法完成,则会再次提交相同的任务,在一定时间内多次提交了相同的任务,当其中某次任务执行完毕时会删除这个temp文件,所以在后来的任务执行
快速使用Hadoop 本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。 操作步骤 准备wordcount程序。 开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist
Core为Spark的内核模块,主要负责任务的执行,用于编写spark应用程序;Spark SQL为执行SQL的模块。 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下要求: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。
) jar包 Oozie的share HDFS的“/user/oozie/share/lib/spark2x”目录 说明: 请执行su - oozie切换到oozie用户,使用oozie用户上传文件。 上传结束后再重启Oozie服务。 将待使用样例工程的项目打包成jar包 jar包
Oozie的share HDFS的“/user/oozie/share/lib/spark2x”目录 说明: 请使用Oozie用户上传文件,执行su - oozie切换到Oozie用户 上传结束后再重启oozie服务。 将待使用样例工程的项目打包成jar包 jar包 HDFS的“/u
HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS
r/filecache/”下的log4j旧版本的包,需要重新提交相关的yarn作业,才会加载新的log4j的包。 MRS 3.1.2-LTS版本的补丁安装过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3
如果集群开启了Kerberos认证,操作的用户还需要具备对应的操作权限。即创建表时需要具备对应的namespace或更高级别的创建(C)或者管理(A)权限,修改表时需要具备已创建的表或者更高级别的创建(C)或者管理(A)权限。具体的授权操作请参考创建HBase权限角色章节。 配置HBase数据压缩格式和编码
如果集群开启了Kerberos认证,操作的用户还需要具备对应的操作权限。即创建表时需要具备对应的namespace或更高级别的创建(C)或者管理(A)权限,修改表时需要具备已创建的表或者更高级别的创建(C)或者管理(A)权限。具体的授权操作请参考创建HBase权限角色章节。 配置HBase数据压缩格式和编码
样例工程获取地址参见获取MRS应用开发样例工程,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 MRS样例代码库提供了各组件的基本功能样例工程供用户使用,当前版本各组件提供的样例工程汇总参见表1。 表1 各组件样例工程汇总 组件 样例工程位置
限,可设置与管理已创建的表的数据操作权限。 Hive角色管理支持授予Hive管理员权限、访问表和视图的权限,不支持数据库的授权。 Hive管理员权限不支持管理HDFS的权限。 如果数据库中的表或者表中的文件数量比较多,在授权时可能需要等待一段时间。例如表的文件数量为1万时,可能需要等待2分钟。