检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启/关闭TTL 命令功能 开启或者关闭Hudi表的TTL能力。 命令格式 call ttl_configuration(table => "[table]", path => "[path]", enabled => "[enabled]", strategy => "[strategy]"
Impala应用开发常用概念 客户端 客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言
Repartition时有部分Partition没数据 问题 在repartition操作时,分块数“spark.sql.shuffle.partitions”设置为4500,repartition用到的key列中有超过4000个的不同key值。期望不同key对应的数据能分到不同
Compaction 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 对Hudi表进行compaction操作,具体作用可以参考Hudi Compaction操作说明章节。 命令格式 call run_compaction(op => '[op]', table=>'[table]'
Hive on Hue Hue提供了Hive图形化管理功能,使用户可以通过界面的方式查询Hive的不同数据。 查询编辑器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击编辑器,然后选择“Hive”,进入“Hive”。 执行Hive HQL语句
准备本地应用开发环境 Hive组件可以使用JDBC、HCatalog、Python、Python3接口进行应用开发。 准备JDBC/HCatalog开发环境 表1 JDBC/HCatalog开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个MapReduce作业(applicat
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个MapReduce作业(applicat
Spark Core样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。 一个MapReduce作业(applica
准备本地应用开发环境 Hive组件可以使用JDBC/HCatalog/Python/Python3接口进行应用开发。 准备JDBC/HCatalog开发环境 表1 JDBC/HCatalog开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本。
Spark Core样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
使用Storm客户端 操作场景 该任务指导用户在运维场景或业务场景中使用Storm客户端。 前提条件 已安装客户端。例如安装目录为“/opt/hadoopclient”。 各组件业务用户由MRS集群管理员根据业务需要创建。安全模式下,“机机”用户需要下载keytab文件。“人机”
Flink对接云搜索服务(CSS)样例程序开发思路 场景说明 本样例实现了Flink消费一个自定义数据源,并将消费的数据写入Elasticsearch或云搜索服务CSS的功能。 主要提供了Elasticsearch Sink的构建及参数设置方法,实现通过Flink将数据写入Elasticsearch的功能。
如何处理blob.storage.directory配置/home目录时启动yarn-session失败 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session启动失败。
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
如何处理blob.storage.directory配置/home目录时启动yarn-session失败 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session启动失败。