检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
mapreduce.TableIndexer -Dtablename.to.index=hbase_sample_table -Dindexspecs.to.add='IDX1=>info:[name->String]' -Dindexnames.to.build='IDX1' 然后用户
Hudi源表类型为Merge On Read时,可以映射为Hive的两张外部表(ro表和rt表),ro表提供读优化视图查询,rt表提供实时视图查询以及增量视图查询。 不能对Hudi表映射的Hive外部表做增删改操作(即insert、update、delete、load、merge、alter、msck),只支持查询操作(select)。
多个聚合的转换,如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时,应用的所有状态能够从某一个检查点恢复,保证数据仅被处理一次(Exactly Once)。 SavePoint Savepoint是指允
多个聚合的转换,如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时,应用的所有状态能够从某一个检查点恢复,保证数据仅被处理一次(Exactly Once)。 SavePoint Savepoint是指允
和删除文件的操作。 使用Colocation功能,用户指定了DataNode,会造成某些节点上数据量很大。数据倾斜严重,导致HDFS写任务失败。 由于数据倾斜,导致MapReduce只会在某几个节点访问,造成这些节点上负载很大,而其他节点闲置。 针对单个应用程序任务,只能使用一次
partition(provice = 'hebei', city= 'baoding') select name,age from test_p_1; 注意事项 默认无法对外部表(external)插入数据的,如需使用该功能,可以给数据源添加配置。 共部署情况 登录FusionInsight Manager,选择“集群
指定属性“transactional=true”可以让表支持“原子性、一致性、隔离性、持久性”写入的事务能力,但是将表定义为事务表后,无法通过设置“transactional=false”将其退化为非事务表。 transactional='true'或 '0'在执行过程中不会进行类型转换,所以这种写法会抛出异常:
-35cd58c077d9/tags/switch { "action" : "create" } 响应示例 状态码: 400 请求失败 { "error_code" : "MRS.00000000", "error_msg" : "标签配额不足" } SDK代码示例
Manager关键特性 Manager关键特性:统一监控告警 Manager提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通
集群的管理操作,例如访问ResourceManager WebUI,管理NodeManager节点,刷新队列,设置NodeLabel等,但不能提交任务。 hetuadmin HetuEngine管理员用户组,属于该组的用户拥有在HSConsole页面操作的权限。 hive 普通用户组。Hive用户必须属于该用户组。
(state=42000,code=40000) 设置Hive动态分区表精准拦截 针对涉及动态分区的自读自写场景,由于动态分区在编译阶段获取不到输出的分区信息,无法判断是否存在自读自写场景,为了实现拦截功能,提供了nonstrict和strict两种拦截模式供用户选择。其中: nonstrict模式是
不支持对Hive Ranger策略中的“Deny Conditions”进行级联授权,即“Deny Conditions”的权限仅限制表权限,不能生成HDFS存储源端的权限。 级联授权生成的HDFS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS
serdeproperties('fields.group_3.sequence-group' = 'col5,col6'); sequence组包含的列不能有重叠。sequence-1组和sequence-2都包含col1这一列,这种是不支持的。 group列的数据类型,仅支持int、bigi
在删除表或修改表语法中加上no delay,表示立即删除,否则会等8分钟以后进行删除,如果未加no delay语法,删除表后需要立即创建同名的表名可能会遇到错误,创建不成功。 order by:排序字段 查询时最常使用且过滤性最高的字段作为排序字段。依次按照访问频度从高到低、维度基数从小到大来排。排序字段不宜
Ranger基本原理 Apache Ranger提供一个集中式安全管理框架,提供统一授权和统一审计能力。它可以对整个Hadoop生态中如HDFS、Hive、HBase、Kafka、Storm等进行细粒度的数据访问控制。用户可以利用Ranger提供的前端WebUI控制台通过配置相关策略来控制用户对这些组件的访问权限
使用Hue创建工作流 操作场景 用户通过Hue管理界面可以进行提交Oozie作业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。
使用Hue创建工作流 操作场景 用户通过Hue管理界面可以进行提交Oozie作业,提交作业之前,首先需要创建一个工作流。 前提条件 使用Hue提交Oozie作业之前,需要提前配置好Oozie客户端,并上传样例配置文件和jar至HDFS指定目录,具体操作请参考Oozie客户端配置说明章节。
调整Yarn任务抢占机制 操作场景 Capacity调度器抢占原理: 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。
访问Spark Web UI界面 Spark Web UI界面主要用于查看Spark应用程序运行情况,推荐使用Google chrome浏览器以获得更好的体验。 Spark主要有两个Web页面。 Spark UI页面,用于展示正在执行的应用的运行情况。 页面主要包括了Jobs、S
准备Spark本地应用开发环境 Spark2x可以使用Java/Scala/Python语言进行应用开发,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。