检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务,开启物化视图推荐能力后,系统能自动学习并推荐对业务最有价值的物化视图SQL,使HetuEngine具备自动预计算加速能力,在相关场景下在线查询效率获得倍数提升,同时有效降低系统负载压力。 前提条件 集群运行正常并至少安装一个QAS实例。 已创建用于访问HetuEngine W
config.option", "some-value") .getOrCreate(); // 通过隐式转换,将RDD转换成DataFrame JavaRDD<FemaleInfo> femaleInfoJavaRDD = spark.read()
sqlContext = new org.apache.spark.sql.SQLContext(jsc); // 通过隐式转换,将RDD转换成DataFrame JavaRDD<FemaleInfo> femaleInfoJavaRDD = jsc.textFile(args[0])
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS管理控制台。
通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: 配置“更新域”算子,当发现值为test时,更新值,在test后面加上good。 转换后,输出A和B,结果如下: 父主题: Loader转换类算子
HBase BulkLoad支持用户自定义proto文件将数据文件中的字段导入HBase,该特性需要使用JDK将用户自定义的proto文件转换成Java文件,然后编译成Class文件运行。 组件进程堆栈信息采集 MRS集群内角色或实例的堆栈信息采集功能依赖于JDK,具体参见“采集堆栈信息”章节。
Hive应用开发建议 HQL编写之隐式类型转换 查询语句使用字段的值做过滤时,不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。 建议示例: select * from default.tbl_src where id = 10001; select
Bigdata 配置“剪切字符串”算子后,生成两个新字段C和D: 转换后,分别输出这三个字段: abcd,product,abc,prod FusionInsight,Bigdata,Fus,Bigd 父主题: Loader转换类算子
VIEW qualifiedName SET STATUS <status> 描述 修改物化视图的状态,仅支持ENABLE和SUSPEND相互转换,以及将DISABLE状态修改为SUSPEND或ENABLE。物化视图所有状态包含如下: INIT: 物化视图第一次创建时的状态 SUSP
hive.manageFilesourcePartitions=false后,查不到数据(但是实际在Hive查询中是有数据的)。 原因分析 转换格式失败,spark-sql使用其内置的Metastore,而不是Hive中使用的Metastore,所以读取元数据时失败,spark-s
务。 Hive与Spark的关系 Hive支持使用Spark作为执行引擎,当执行引擎切换为Spark后,客户端下发的Hive SQL在Hive端进行逻辑层处理和生成物理执行计划,并将执行计划转换成RDD语义下的DAG,最后将DAG作为Spark的任务提交到Spark集群上进行计算
若当前集群中有隔离的故障节点,则更换CA证书会跳过该节点。后续隔离节点取消隔离后,需要重装主机,以保证隔离节点和集群使用相同的CA证书。 该章节仅适用于MRS 3.x及之后版本。 对系统的影响 更换过程中MRS系统需要重启,此时系统无法访问且无法提供服务。 更换证书以后,所有组件和Manager的模块使用的证书将自动更新。
能匹配到物化视图的查询或者子查询转换为物化视图,避免了数据的重复计算,这种情况下往往能较大地提高查询的响应效率。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。 物化视图支持“查询重写”,这是一种优化技术,即将基于原始表编写的查询语句转换为查询一个或多个物化视图语句的等效请求。如下物化视图的SQL示例:
数据处理单元,会将一或多个DataStream转换成一个新的DataStream。 具体可以细分如下几类: 一对一的转换:如Map。 一对0、1或多个的转换:如FlatMap。 一对0或1的转换,如Filter。 多对1转换,如Union。 多个聚合的转换,如window、keyby。 CheckPoint
数据处理单元,会将一或多个DataStream转换成一个新的DataStream。 具体可以细分如下几类: 一对一的转换:如Map。 一对0、1或多个的转换:如FlatMap。 一对0或1的转换,如Filter。 多对1转换,如Union。 多个聚合的转换,如window、keyby。 CheckPoint
获取“默认生效子网”和待切换子网对应的IPv4网段。 此时请勿单击切换子网的“确定”按钮,否则默认生效子网将更新为切换后的子网,切换前的子网不易查询,请谨慎操作。 参考5~8添加“默认生效子网”和待切换子网的IPv4网段地址到切换前后子网绑定的网络ACL入方向规则中。 登录MRS控制台。
配置使用分布式缓存执行MapReduce任务 配置场景 本章节操作适用于MRS 3.x及之后版本。 分布式缓存在两种情况下非常有用。 滚动升级 在升级过程中,应用程序必须保持文字内容(jar文件或配置文件)不变。而这些内容并非基于当前版本的Yarn,而是要基于其提交时的版本。一般情况下,应用程序(例如MapRedu
HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 图1 Hive结构 云搜索服务(Cloud Search Service,简称CSS)是一个基于Elasticsearch、OpenSearch且完全托管的在线分布式搜索服务,
数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 海量结构化数据分析汇总。 将复
Spark是一个开源的并行数据处理框架,能够帮助用户简单、快速的开发,统一的大数据应用,对数据进行离线处理、流式处理、交互式分析等。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 前提条件 用户已经将运行作业所需的程序包和数据文件上传至OBS系统或HDFS中。