检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置过滤掉分区表中路径不存在的分区 配置场景 当读取HIVE分区表时,如果指定的分区路径在HDFS上不存在,则执行select查询时会报FileNotFoundException异常。此时可以通过配置“spark.sql.hive.verifyPartitionPath”参数来过
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
常见的操作。开发程序示例中,全部通过clickhouse-jdbc API接口来进行描述。 设置属性 建立连接 创建库 创建表 插入数据 查询数据 删除表 父主题: 开发ClickHouse应用
配置过滤掉分区表中路径不存在的分区 配置场景 当读取Hive分区表时,如果指定的分区路径在HDFS上不存在,则执行select查询时会报FileNotFoundException异常。此时可以通过配置“spark.sql.hive.verifyPartitionPath”参数来过
show functions能够查到相应的函数,但是无法使用,这是由于连接上的JDBC节点上没有相应路径的jar包,添加上相应的jar包能够查询成功。 图2 场景二异常信息 回答 场景一: add jar语句只会将jar加载到当前连接的JDBCServer的jarClassLoad
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。 Unique模型针对需要唯一
标签管理接口 集群操作默认标签 查询默认标签状态 查询标签配额 父主题: API V2
付按需资源在宽限期内产生的费用,相关费用可登录管理控制台,选择页面上方的“费用 > 费用账单”,进入费用中心,单击“总览”,在“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。 如果您在宽限期内仍未支付欠款,那么就会进入保留期,资源状态变为“冻结”,您将无法对处于保留期的按需计费资源执行任何操作。
ClickHouseServer节点磁盘容量过小。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。 扩容告警上报节点的磁盘容量。 扩容失败,或扩容后告警仍然没有消除,执行4。 收集故障信息
HBase全局二级索引样例程序 HBase全局二级索引样例程序开发思路 创建HBase全局二级索引 查询HBase全局二级索引信息 基于全局二级索引查询HBase表数据 禁用HBase全局二级索引 删除HBase全局二级索引 父主题: 开发HBase应用
<table>同步表schema信息,需要查询该表时才会同步全量元数据;而新增分区,插入数据等场景可主动执行refresh即可增量更新元数据。 定时使用compute increment stats <table_name>刷新常用表的统计信息,加速查询 Impala依赖表统计信息对查询消耗的资源做预估,
adoop.<系统域名>@<系统域名>; 系统域名可登录FusionInsight Manager,选择“系统 > 权限 > 域和互信”,查看“本端域”参数获取。 “hive/hadoop.<系统域名>”为用户名,用户的用户名所包含的系统域名所有字母为小写。例如“本端域”参数为“
Spark同步HBase数据到CarbonData样例程序开发思路 场景说明 数据实时写入HBase,用于点查业务,数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 数据规划 创建HBase表,构造数据,列需要包含key,modify_time,valid。其中每条数据key值全表唯一,modi
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDF
转换函数 cast转换函数 HetuEngine会将数字和字符值隐式转换成正确的类型。HetuEngine不会把字符和数字类型相互转换。例如,一个查询期望得到一个varchar类型的值,HetuEngine不会自动将bigint类型的值转换为varchar类型。 如果有必要,可以将值显式转换为指定类型。
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
operation配置项,这里主要介绍UPSERT、INSERT和BULK_INSERT。 INSERT(插入): 该操作流程和UPSERT基本一致,但是不需要通过索引去查询具体更新的文件分区,因此它的速度比UPSERT快。当数据源不包含更新数据时建议使用该操作,如果数据源中存在更新数据,则在数据湖中会出现重复数据。