检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。 Oozie流程的三种类型: Workflow
上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,非常适合大规模数据集应用。 HDFS适用于如下场景: 处理海量数据(TB或PB级别以上) 需要很高的吞吐量 需要高可靠性 需要很好的可扩展能力 MRS对外提供了基于HDFS组件的应用开发样例工程,本实践用于指导您创建MR
0版本引入了创建幂等性Producer的功能,开启此特性后,Producer自动升级成幂等性Producer,当Producer发送了相同字段值的消息后,Broker会自动感知消息是否重复,继而避免数据重复。需要注意的是,这个特性只能保证单分区上的幂等性,即一个幂等性Producer能够保证某个主题的一个分区
批量构建HBase全局二级索引数据 场景介绍 在用户的表中预先存在大量数据的情况下,可基于MapReaduce任务,批量构建已有数据的索引数据。 批量构建全局二级索引数据 只有处于INACTIVE状态的索引才能进行批量构建,如需重建索引数据,请先修改索引状态。 数据表中存在大量数
禁用部分未使用的HTTP方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安全考虑,更改“maxHttpHeaderSize”的取值,给服务器管理员更大的可控性,以控制客户端不正常的请求行为。
aom.url 1.d中获取的url的值 是 用于对接AOM Prometheus实例的URL地址。 metrics.reporter.aom.access.code 1.d中获取的AppSecret的值 是 用于对接AOM Prometheus实例的调用凭证。 metrics.reporter
依赖于视图所在的表的相应权限。即用户拥有视图的查询权限时,不管是否有表权限都可以进行查询。视图的权限是针对整个表而言的,不支持对其中的部分列创建视图权限。 视图权限在SparkSQL权限上的限制与列权限相似,详细如下: 在spark-sql模式下,只有视图权限而没有表权限,且没有
Oozie是一个用来管理Hadoop任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。 Oozie流程的三种类型: Workflow
用户问题 运行Impala客户端会报类似如下错误信息: 原因分析 由于最新的MRS集群使用的是Euler 2.9及以上版本的操作系统,系统自带只Python3版本,而Impala客户端是基于Python2实现的,和Python3部分语法不兼容,运行Impala客户端会报错,所以需要
依赖于视图所在的表的相应权限。即用户拥有视图的查询权限时,不管是否有表权限都可以进行查询。视图的权限是针对整个表而言的,不支持对其中的部分列创建视图权限。 视图权限在SparkSQL权限上的限制与列权限相似,详细如下: 在spark-sql模式下,只有视图权限而没有表权限,且没有
Iceberg Iceberg原理介绍 Iceberg是一种开放的数据湖表格式,可以基于Iceberg快速地在HDFS或OBS上构建自己的数据湖存储服务。 Iceberg当前为公测阶段,若需使用需联系技术支持申请白名单开通。 当前版本Iceberg仅支持Spark引擎,如需使用其他引擎构建数据湖服务,请使用Hudi。
标合并在一个作业计算。当一个作业是相同主键、相同的输入和输出时,该作业支持多个窗口的计算。 支持AVG、SUM、COUNT、MAX和MIN统计方法。 Flink SQL可视化定义 集群连接管理,配置Kafka、HDFS等服务所属的集群信息。 数据连接管理,配置Kafka、HDFS等服务信息。
设置此权限,拥有Topic的创建、删除等权限,但是不具备任何Topic的生产和消费权限。 设置用户对Topic的生产权限 在“配置资源权限”的表格中选择“待操作集群的名称 > Kafka > Kafka Topic生产和消费权限”。 在指定Topic的“权限”列,勾选“Kafka生产者权限”。
BulkLoad支持用户自定义proto文件将数据文件中的字段导入HBase,该特性需要使用JDK将用户自定义的proto文件转换成Java文件,然后编译成Class文件运行。 组件进程堆栈信息采集 MRS集群内角色或实例的堆栈信息采集功能依赖于JDK,具体参见“采集堆栈信息”章节。
在“配置资源权限”的表格中选择“待操作集群的名称 > Yarn”,勾选“集群管理操作权限”。 说明: 设置Yarn管理员权限需要重启Yarn服务,才能使保存的角色配置生效。 设置用户在指定Yarn队列提交任务的权限 在“配置资源权限”的表格中选择“待操作集群的名称 > Yarn >
禁用部分未使用的HTTP方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安全考虑,更改“maxHttpHeaderSize”的取值,给服务器管理员更大的可控性,以控制客户端不正常的请求行为。
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
设置此权限,拥有Topic的创建、删除等权限,但是不具备任何Topic的生产和消费权限。 设置用户对Topic的生产权限 在“配置资源权限”的表格中选择“待操作集群的名称 > Kafka > Kafka Topic生产和消费权限”。 在指定Topic的“权限”列,勾选“Kafka生产者权限”。
上传应用数据至MRS集群 MRS集群处理的数据源通常来源于OBS文件系统或集群内的HDFS文件系统,OBS为客户提供海量、安全、高可靠、低成本的数据存储能力。 用户可以基于MRS管理控制台和OBS客户端对OBS数据进行浏览、管理和使用,也可以将OBS的数据导入集群的HDFS系统后进行处理,上传