检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ZookeeperBasedLockProvider hoodie.write.lock.hivemetastore.database Hive的database 无 hoodie.write.lock.hivemetastore.table Hive的table name 无 hoodie
访问“Metastore Manager”,在“Databases”选择一个数据库,页面显示数据库中所有的表。 默认数据库为“default”。 单击数据库中的表名称,打开表的详细信息。 支持导入数据、浏览数据或查看文件存储位置。查看数据库所有的表时,可以直接勾选表然后执行查看、浏览数据操作。 H
Sqoop常见问题 连接postgresql或者gaussdb时报错 使用hive-table方式同步数据报错 导入到Hive表时报错 父主题: 使用Sqoop
任务或者HDFS操作。 图1 Hive结构 Metastore:对表,列和Partition等的元数据进行读写及更新操作,其下层为关系型数据库。 Driver:管理HQL执行的生命周期并贯穿Hive任务整个执行期间。 Compiler:编译HQL并将其转化为一系列相互依赖的Map/Reduce任务。
HBase开源增强特性 HBase开源增强特性:HIndex HBase是一个Key-Value类型的分布式存储数据库。每张表的数据按照RowKey的字典顺序排序,因此,如果按照某个指定的RowKey去查询数据,或者指定某一个RowKey范围去扫描数据时,HBase可以快速定位到
限。 Hive开源增强特性:支持数据库授权 Hive开源社区版本只支持数据库的拥有者在数据库中创建表。MRS Hive支持授予用户在数据库中创建表“CREATE”和查询表“SELECT”权限。当授予用户在数据库中查询的权限之后,系统会自动关联数据库中所有表的查询权限。 Hive开源增强特性:支持列授权
ite。 源表和目标表的数据类型应该相同,否则源表中的数据将被视为Bad Records。 INSERT INTO命令不支持部分成功(partial success),如果存在Bad Records,该命令会失败。 在从源表插入数据到目标表的过程中,无法在源表中加载或更新数据。
将lines切分为word words = lines.select(explode(split(lines.value, " ")).alias("word")) # 生成正在运行的word count wordCounts = words.groupBy("word")
参数 说明 模式或表空间 表示源数据对应的数据库名称,支持通过界面查询并选择。 表名 存储源数据的数据表,支持通过界面查询并选择。 抽取分区字段 分区字段,如果需读取多个字段,使用该字段分割结果并获取数据。 Where子句 表示读取数据库时使用的查询语句。 ftp-connector或sftp-connector
配置HetuEngine SQL诊断功能 HetuEngine SQL诊断功能介绍 HetuEngine QAS实例可对用户的SQL执行历史记录提供自动感知、自动学习、自动诊断服务,提升在线SQL运维能力,自动加速在线SQL分析任务,开启SQL诊断能力后,系统可实现如下能力: 自
SQL和DataFrame Spark SQL ROLLUP和CUBE使用的注意事项 Spark SQL在不同DB都可以显示临时表 如何在Spark命令中指定参数值 SparkSQL建表时的目录权限 为什么不同服务之间互相删除UDF失败 Spark SQL无法查询到Parquet类型的Hive表的新插入数据
作业管理 MRS作业管理为用户提供向集群提交作业的入口,支持包括MapReduce、Spark、HQL和SparkSQL等类型的作业。 结合华为云数据治理中心DataArts Studio,提供一站式的大数据协同开发环境、全托管的大数据调度能力,帮助用户快速构建大数据处理中心。 通过数据治理中心DataArts
合并CBO优化 操作场景 Spark SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。
--port ClickHouse的端口号 --database 数据库名 --multiline 输入用户密码 参考Kafka引擎表使用语法说明,在ClickHouse中创建Kafka引擎表。例如,如下建表语句在default数据库下,创建表名为kafka_src_tbl3,To
Spark常用命令介绍 Spark命令详细的使用方法参考官方网站的描述:http://spark.apache.org/docs/latest/quick-start.html。 常用命令 Shell命令执行方法: 进入Spark客户端目录。 初始化环境变量。 source /o
参数描述 表1 CLEAN FILES FOR TABLE参数描述 参数 描述 db_name 数据库名称。数据库名称由字母,数字和下划线组成。 table_name 数据库中的表的名称。表名由字母,数字和下划线组成。 注意事项 无。 示例 添加carbon配置参数 carbon
index_name 索引表的名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 db_name 数据库的名称。数据库名称应由字母数字字符和下划线(_)特殊字符组成。 table_name 数据库中的表名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 col_name 表中的列名
照系统之间的转换。 WKB(well-known binary) 是WKT的二进制表示形式,解决了WKT表达方式冗余的问题,便于传输和在数据库中存储相同的信息。 GeoJSON一种JSON格式的Feature信息输出格式,它便于被JavaScript等脚本语言处理,OpenLay
Reduce input records=6 Reduce output records=2 Spilled Records=12 Shuffled Maps
Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压