检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MergeTree引擎在建表的时候支持列字段和表级的TTL。 当列字段中的值过期时,ClickHouse会将其替换成数据类型的默认值。如果分区内,某一列的所有值均已过期,则ClickHouse会从文件系统中删除这个分区目录下的列文件。当表内的数据过期时,ClickHouse会删除所有对应的行。 在列上配置TTL:
Tez Tez是Apache最新的支持DAG(有向无环图)作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。 MRS将Tez作为Hive的默认执行引擎,执行效率远远超过原先的MapReduce的计算引擎。 有关Tez的详细说明,请参见:https://tez
配置Hive单表动态视图的访问控制权限 操作场景 MRS中安全模式下Hive可以创建一个视图并控制用户访问权限,支持授权给不同的用户访问,又可以限定不同用户只能访问的不同数据。 在视图中,Hive可以通过获取当前客户端提交任务的用户的内置函数“current_user()”来进行
配置Hive单表动态视图的访问控制权限 操作场景 MRS安全模式下Hive可以创建一个视图并控制用户访问权限,支持授权给不同的用户访问,又可以限定不同用户只能访问的不同数据。 在视图中,Hive可以通过获取当前客户端提交任务的用户的内置函数“current_user()”来进行过
解决: 方案一 在本集群创建一个视图所有者的同名用户,然后修改HetuEngine的Ranger访问权限策略中的all-function策略: 在“Allow Condition”的“Select User”中填写授权的视图所有者。 在“Permissions”勾选“Grant”和“execute”。
到哪个物理表上。它可以是表中一列的原始数据(如site_id),也可以是函数调用的结果,如上面的SQL语句采用了随机值rand()。注意该键要尽量保证数据均匀分布,另外一个常用的操作是采用区分度较高的列的哈希值,如intHash64(user_id)。 ClickHouse表数据操作
需要启用Ranger鉴权的服务名称”。 在服务“概览”页面右上角单击“更多”,选择“启用Ranger鉴权”。在弹出的对话框中输入密码,单击“确定”,操作成功后单击“完成”。 如果“启用Ranger鉴权”是灰色,表示已开启Ranger鉴权,如图1所示。 已启用Ranger授权的组件(HDFS
数据存储在OBS和HDFS有什么区别? MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS(Object Storage Service)即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、
格、特殊字符5种类型字符中的4种。支持的特殊字符为~`!?,.;-_'(){}[]/<>@#$%^&*+|\=。 不可和用户名相同或用户名的倒序字符相同。 不可以为常见的易破解密码。 不可与最近N次使用过的密码相同,N为密码策略配置中“重复使用规则”的值。 单击“确定”完成密码修
初始入库BULK_INSET方式会使用Spark内部parquet文件的写入类进行写入,Spark对不同精度的Decimal类型处理是不同的。 UPSERT操作时,Hudi使用Avro兼容的parquet文件写入类进行写入,这个和Spark的写入方式是不兼容的。 解决方案: 执行BULK_INSERT时指定设置“hoodie
处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 图1 Flink架构 在本示例中,使用MRS集群内置的Flink Wor
600525ms exceeds 600000ms 原因分析 MetaStore客户端连接超时,MRS默认MetaStore客户端和服务端连接的超时时间是600s,在Manager页面调大“hive.metastore.client.socket.timeout”为“3600s”。 出现另一个报错:
4:只显示最后的4个字符,其他用x代替。 Partial mask: show first 4:只显示开始的4个字符,其他用x代替。 Hash:用值的哈希值替换原值,采用的是hive的内置mask_hash函数,只对string、char、varchar类型的字段生效,其他类型的字段会返回NULL值。
HDFS文件系统目录简介 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。
对应用户关联的数据库下表、视图等数据库对象权限的分离管理和维护。 业务隔离设计-不要在system库中创建业务表 system数据库是ClickHouse默认的系统数据库,默认数据库中的系统表记录的是系统的配置、元数据等的信息数据。 业务在使用ClickHouse的时候,需要指定
提供集群状态的监控功能,您能快速掌握服务及主机的健康状态。 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。 提供服务属性的配置功能,满足您实际业务的性能需求。 提供集群、服务、角色实例的操作功能,满足您一键启停等操作需求。 MRS Manager简介 EIP方式访问集群 通过EIP访问快速便捷的访问Manager,及开源组件Web站点。
表列名”时,默认该表的所有列或者是“SQL语句”配置项里配置的查询条件中指明的列。 配置的输入字段个数不能大于实际指定的列数,否则全部数据成为脏数据。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 样例 以sqlserver 2014为例,创建测试表test: create
的是丢失的这个task在哪个节点上面运行,一般的情况是这个丢失的task异常退出导致的。 处理步骤 问题1: 对于数据量过大,需要调整executor的内存大小的,使用--executor-memory指定内存大小; 对于同时运行的task太多,主要看--executor-cores设置的vcore数量。
Join数据倾斜问题。执行任务的时候,任务进度长时间维持在99%,这种现象叫数据倾斜。 数据倾斜是经常存在的,因为有少量的Reduce任务分配到的数据量和其他Reduce差异过大,导致大部分Reduce都已完成任务,但少量Reduce任务还没完成的情况。 解决数据倾斜的问题,可通过设置“set
表列名”时,默认该表的所有列或者是“SQL语句”配置项里配置的查询条件中指明的列。 配置的输入字段个数不能大于实际指定的列数,否则全部数据成为脏数据。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 样例 以sqlserver 2014为例,创建测试表test: create