检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cache table使用指导 问题 cache table的作用是什么?cache table时需要注意哪些方面? 回答 Spark SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销
准备Impala应用开发环境 准备Impala开发和运行环境 导入并配置Impala样例工程 父主题: Impala开发指南(普通模式)
Impala应用开发常见问题 Impala JDBC接口介绍 Impala SQL接口介绍 父主题: Impala开发指南(普通模式)
Kafka应用开发常见问题 Kafka常用API介绍 配置Windows通过EIP访问普通模式集群Kafka 运行Producer.java样例报错获取元数据失败“ERROR fetching topic metadata...” 父主题: Kafka开发指南(普通模式)
开发MapReduce应用 MapReduce统计样例程序 MapReduce访问多组件样例程序 父主题: MapReduce开发指南(普通模式)
准备Storm应用开发环境 准备Storm应用开发和运行环境 导入并配置Storm样例工程 父主题: Storm开发指南(普通模式)
创建Strom Bolt 功能介绍 所有的消息处理逻辑都被封装在各个Bolt中。Bolt包含多种功能:过滤、聚合等等。 如果Bolt之后还有其他拓扑算子,可以使用OutputFieldsDeclarer.declareStream定义Stream,使用OutputCollector.emit
提交Storm拓扑 Linux中安装客户端时提交Storm拓扑 Linux中未安装客户端时提交Storm拓扑 在IDEA中提交Storm拓扑 父主题: 调测Strom应用
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱 用户问题 在使用HBase shell中会有INFO信息打印在控制台,导致显示混乱,用户在输入命令前需要按回车符清理控制台。如下图所示: 原因分析 HBase客户端中默认日志打印设置为“INFO,console
Spark作业的Client模式和Cluster模式有什么区别? 理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念:Application Master。 在YARN中,每个Application实例都有一个ApplicationMaster进程,
购买MRS集群时找不到HDFS、Yarn、MapReduce组件如何处理? 问: 购买MRS集群时,为什么找不到HDFS、Yarn、MapReduce组件? 答: HDFS、Yarn和MapReduce组件包含在Hadoop组件中,当购买MRS集群时无法看到HDFS、Yarn和MapReduce
加载Impala数据 功能简介 本小节介绍了如何使用Impala SQL向已有的表employees_info中加载数据。从本节中可以掌握如何从集群中加载数据。 样例代码 -- 从本地文件系统/opt/impala_examples_data/目录下将employee_info.txt
查询Impala数据 功能简介 本小节介绍了如何使用Impala SQL对数据进行查询分析。从本节中可以掌握如下查询分析方法。 SELECT查询的常用特性,如JOIN等。 加载数据进指定分区。 如何使用Impala自带函数。 如何使用自定义函数进行查询分析,如何创建、定义自定义函数请见开发
准备Flink应用开发环境 准备本地应用开发环境 导入并配置Flink样例工程 父主题: Flink开发指南(普通模式)
删除HDFS指定文件 功能简介 删除HDFS上某个指定文件。 被删除的文件会被直接删除,且无法恢复。所以,执行删除操作需谨慎。 代码样例 如下是删除文件的代码片段,详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /**
参考如何判断某个服务是否使用了Ranger鉴权,确认服务是否启用了Ranger鉴权? 是,执行3。 否,编辑角色,根据服务的权限控制类别添加业务开发时需要的权限,参见表1。
MapReduce应用开发概述 MapReduce应用开发简介 MapReduce应用开发常用概念 MapReduce应用开发流程介绍 父主题: MapReduce开发指南
场景说明 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“,
使用广播变量 操作场景 Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大
添加HBase二级索引 功能介绍 您可以使用org.apache.hadoop.hbase.hindex.client.HIndexAdmin中提供的方法来管理HIndexes。 该类提供了将索引添加到现有表的方法: 根据用户是否希望在添加索引操作期间构建索引数据,有两种不同的方法可将索引添加到表中