检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取运行中Spark应用的Container日志 运行中Spark应用的Container日志分散在多个节点中,本章节用于说明如何快速获取Container日志。 场景说明 可以通过yarn logs命令获取运行在Yarn上的应用的日志,针对不同的场景,可以使用以下命令获取需要的日志:
Hive故障排除 如何对insert overwrite自读自写场景进行优化 Hive SQL运行变慢阶段如何排查 父主题: 使用Hive
通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过使用函数ngrams()将输入文本分割为4-shingles(文本被分成长度为
过独占或共享一个服务来获取这个服务运行时需要的资源。 静态服务池简介 静态服务池用来指定服务资源的配置。 在服务级别上,静态服务池对各服务可使用的资源进行统一管理: 限制服务使用的资源总量,支持配置Flume、HBase、HDFS、IoTDB、Kafka(Kafka组件仅MRS 3
获取ZooKeeper的IP列表和端口、集群的认证模式、HiveServer的SASL配置、HiveServer在ZooKeeper中节点名称、客户端对服务端的发现模式、以及服务端进程认证的principal。这些配置样例代码会自动从“hiveclient.properties中”读取。 //zkQuorum获取后的格式为"xxx
JDBC处理数据Java示例程序。 本示例演示了如何使用JDBC接口连接IoTDB,并执行IoTDB SQL语句,相关样例介绍请参见IoTDB JDBC样例程序。 iotdb-examples/iotdb-kafka-example 通过Kafka访问IoTDB数据的示例程序。 本示例演示了如何先将时序数据发送
会自适应地调度执行查询。 本章节介绍如何开启自适应查询执行功能。 开启HetuEngine自适应查询执行步骤 使用HetuEngine管理员用户登录Manager,选择“集群 > 服务 > HetuEngine”,进入HetuEngine服务页面。 在“概览”页签下的“基本信息”区域,单击“HSConsole
由于网络问题或者数据量大导致leader和follower数据不同步。 解决方法是客户端连接到leader实例进行删除操作。 具体过程是首先根据如何查看哪个ZooKeeper实例是leader查看leader所在节点IP,使用连接客户端命令zkCli.sh -server Leader
使用MRS Spark SQL访问DWS表 应用场景 华为云提供MapReduce服务(MRS),可在云上快速构建和运营全栈云原生大数据平台。它包含HDFS、Hive、HBase、Spark等大数据组件,专为分析海量企业数据而量身定制。 Spark提供了类似SQL的Spark S
通过公网IP连接使用HDFS客户端报错 使用Python远程连接HDFS的端口失败 HDFS容量达到100%导致上层服务HBase、Spark等不可用 启动HDFS和Yarn服务报错“Permission denied” HDFS用户可在其他用户目录下创建或删除文件 HDFS的DataNode一直显示退服中
创建Hive表 功能介绍 本小节介绍了如何使用HQL创建内部表、外部表的基本操作。创建表主要有以下三种方式: 自定义表结构,以关键字EXTERNAL区分创建内部表和外部表。 内部表,如果对数据的处理都由Hive完成,则应该使用内部表。在删除内部表时,元数据和数据一起被删除。 外部
创建Hive表 功能介绍 本小节介绍了如何使用HQL创建内部表、外部表的基本操作。创建表主要有以下三种方式: 自定义表结构,以关键字EXTERNAL区分创建内部表和外部表。 内部表,如果对数据的处理都由Hive完成,则应该使用内部表。在删除内部表时,元数据和数据一起被删除。 外部
Flume常见问题 如何查看Flume日志 如何在Flume配置文件中使用环境变量 如何开发Flume第三方插件 如何配置Flume定制脚本 父主题: 使用Flume
CarbonData常见问题 为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出? 如何避免对历史数据进行minor compaction? 如何在CarbonData数据加载时修改默认的组名? 为什么INSERT INTO CARBON TABLE失败? 为什么含转义字符的输入数据记录到Bad
数据完成处理分析后或者集群运行异常无法提供服务时可删除集群服务。 处于如下状态的集群不允许删除: scaling-out:扩容中 scaling-in:缩容中 starting:启动中 terminating:删除中 terminated:已删除 failed:失败 API的调用方法请参见如何调用API。 约束限制
么将会导致业务写入失败。 参数配置项为服务级配置需要重启Kafka,建议在变更窗口做服务级配置修改。 参数描述 如果业务需要保证高可用和高性能。 参考修改集群服务配置参数进入Kafka服务全部配置页面,在服务端配置如表1中参数。 表1 服务端高可用性和高性能参数说明 参数 默认值
MapReduce二次开发远程调试 问题 MapReduce二次开发过程中如何远程调试业务代码? 回答 MapReduce开发调试采用的原理是Java的远程调试机制,在Map/Reduce任务启动时,添加Java远程调试命令。 首先理解两个参数:“mapreduce.map.java
HBase故障排除 HBase客户端连接服务端时长时间无法连接成功 在HBase连续对同一个表名做删除创建操作时出现创建表异常 HBase占用网络端口,连接数过大会导致其他服务不稳定 有210000个map和10000个reduce的HBase BulkLoad任务运行失败 使用
WebUI中显示的“Dead Region Servers”信息什么时候会被清除掉 访问HBase Phoenix提示权限不足如何处理 使用HBase BulkLoad功能提示权限不足如何处理 如何修复Overlap状态的HBase Region Phoenix BulkLoad Tool使用限制说明
Storm应用开发常用概念 Topology 拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。 Spout 在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。