检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink应用开发常用概念 DataStream 数据流,是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入,可以通过socket、Kafka和文件等形式导入,在Flink系统处理后,通过Socket、Kafka和文件等输出到外部系统,这是Flink的核心概念。 Data
SHOW_COMMIT_FILES 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 查看指定的instant一共更新或者插入了多个文件。 命令格式 call show_commit_files(table=>'[table]', instant_time=>'[instant_time
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*.
使用Hash shuffle出现任务失败 问题 使用Hash shuffle运行1000000(map个数)*100000(reduce个数)的任务,运行日志中出现大量的消息发送失败和Executor心跳超时,从而导致任务失败。 回答 对于Hash shuffle,在shuffle
使用Hash shuffle出现任务失败 问题 使用Hash shuffle运行1000000(map个数)*100000(reduce个数)的任务,运行日志中出现大量的消息发送失败和Executor心跳超时,从而导致任务失败。 回答 对于Hash shuffle,在shuffle
MapReduce样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下
运行Spark Streaming任务参数调优的注意事项 问题 运行Spark Streaming任务时,随着executor个数的增长,数据处理性能没有明显提升,对于参数调优有哪些注意事项? 回答 在executor核数等于1的情况下,遵循以下规则对调优Spark Streaming
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误
MapReduce基本原理 如需使用MapReduce,请确保MRS集群内已安装Hadoop服务。 MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”及其主要思想,均取自于函数式编程语言及矢量编程语言
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合
准备本地应用开发环境 Hive组件可以使用JDBC、HCatalog、Python、Python3接口进行应用开发。 准备JDBC/HCatalog开发环境 表1 JDBC/HCatalog开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows7以上版本
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个MapReduce作业(application
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
Hive on Hue Hue提供了Hive图形化管理功能,使用户可以通过界面的方式查询Hive的不同数据。 查询编辑器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击编辑器,然后选择“Hive”,进入“Hive”。 执行Hive HQL语句
Flink对接云搜索服务(CSS)样例程序开发思路 场景说明 本样例实现了Flink消费一个自定义数据源,并将消费的数据写入Elasticsearch或云搜索服务CSS的功能。 主要提供了Elasticsearch Sink的构建及参数设置方法,实现通过Flink将数据写入Elasticsearch
如何处理blob.storage.directory配置/home目录时启动yarn-session失败 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session
使用Storm客户端 操作场景 该任务指导用户在运维场景或业务场景中使用Storm客户端。 前提条件 已安装客户端。例如安装目录为“/opt/hadoopclient”。 各组件业务用户由MRS集群管理员根据业务需要创建。安全模式下,“机机”用户需要下载keytab文件。“人机”用户第一次登录时需修改密码
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*.
HDFS样例程序开发思路 场景说明 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件夹、写文件、追加文件内容、读文件和删除文件/文件夹;HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为: HDFS
MapReduce样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下