检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rbonData文件的HDFS路径下供快速分析查询使用。 HDFS路径可以配置在carbon.properties文件中。 CarbonData相关配置参数请参考CarbonData常见配置参数。 父主题: CarbonData数据分析
HetuEngine简介 HetuEngine是自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine结构 HetuEngine包含不同模块,整体结构如图1所示。
建议避免对历史数据进行minor compaction,请参考如何避免对历史数据进行minor compaction? 父主题: CarbonData数据分析
大分片数,默认为5。 label:用户手动指定的EXPORT任务label,如果不指定会自动生成一个label。 父主题: Doris数据分析
上述命令所创建的表的详细信息如下: 表1 表信息定义 参数 描述 productSalesTable 待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。
除了,该列不会再创建inverted index。但是旧的INVERTED_INDEX配置值不会变化。 父主题: CarbonData数据分析
可通过SHOW TABLES命令进行查询,确认所需删除的表是否成功被删除,详见SHOW TABLES。 父主题: CarbonData数据分析
execution.time”可在“carbon.properties”文件中设置,表示一次查询允许花费的最长时间。 父主题: CarbonData数据分析
建议避免对历史数据进行minor compaction,请参考如何避免对历史数据进行minor compaction? 父主题: CarbonData数据分析
CDL基本原理 从零开始使用CDL ClickHouse组件 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse功能介绍 从零开始使用ClickHouse
MapReduce服务(MapReduce Service,简称MRS)提供企业级大数据集群云服务,里面包含HDFS、Hive、Spark等组件,适用于企业海量数据分析。 其中Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and
SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。 操作步骤 要
SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。 操作步骤 要
Oozie应用开发步骤 业务分析。 可以使用客户端样例目录中Mapreduce程序对日志目录的数据进行分析、处理。 将Mapreduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
Oozie应用开发步骤 业务分析。 可以使用客户端样例目录中MapReduce程序对日志目录的数据进行分析、处理。 将MapReduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
Oozie应用开发步骤 业务分析。 可以使用客户端样例目录中MapReduce程序对日志目录的数据进行分析、处理。 将MapReduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
Oozie应用开发步骤 业务分析。 可以使用客户端样例目录中Mapreduce程序对日志目录的数据进行分析、处理。 将Mapreduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
根据业务需要选择合适的MRS集群类型。 分析集群:用于离线数据分析场景,对海量数据进分析处理,形成结果数据,主要包含Hadoop、Spark、HBase、Hive、Flink、Oozie、Tez等数据分析类组件。 流式集群:用于流式数据处理任务,对实时数据源进行快速分析,主要包含Kafka、Flume等流式数据处理组件。
Impala样例程序指导 功能简介 本小节介绍了如何使用样例程序完成分析任务。本章节以使用JDBC接口提交数据分析任务为例。 样例代码 使用Impala JDBC接口提交数据分析任务,参考样例程序中的JDBCExample.java。 修改以下变量为false,标识连接集群的认证模式为普通模式。
Impala样例程序指导 功能简介 本小节介绍了如何使用样例程序完成分析任务。本章节以使用JDBC接口提交数据分析任务为例。 样例代码 使用Impala JDBC接口提交数据分析任务,参考样例程序中的JDBCExample.java。 修改以下变量为false,标识连接集群的认证模式为普通模式。