检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Linux环境中调测MapReduce应用 操作场景 在程序代码完成开发后,可以在Linux环境中运行应用。 MapReduce应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果查看程序运行情况。 登录MapReduce WebUI查看应用程序运行情况。 登录Yarn
HoodieDeltaStreamer 编写自定义的转化类实现Transformer。 编写自定义的Schema实现SchemaProvider。 在执行HoodieDeltaStreamer时加入参数: --schemaprovider-class 定义的schema类 --transformer-class
MapReduce统计样例代码 功能介绍 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为三个部分: 从原文件中筛选女性网民上网时间数据信息,通过类CollectionMapper继承Mapper抽象类实现。 汇总每个女性上网时间,并输出时间大于两个小时的
MapReduce二次开发远程调试 问题 MapReduce二次开发过程中如何远程调试业务代码? 回答 MapReduce开发调试采用的原理是Java的远程调试机制,在Map/Reduce任务启动时,添加Java远程调试命令。 首先理解两个参数:“mapreduce.map.java
Spark JDBCServer接口介绍 简介 JDBCServer是Hive中的HiveServer2的另外一个实现,它底层使用了Spark SQL来处理SQL语句,从而比Hive拥有更高的性能。 JDBCServer是一个JDBC接口,用户可以通过JDBC连接JDBCServ
运行HBase应用开发程序产生ServerRpcControllerFactory异常如何处理 检查应用开发工程的配置文件hbase-site.xml中是否包含配置项hbase.rpc.controllerfactory.class。 <name>hbase.rpc.controllerfactory
通过ThriftServer实例读HBase表数据 功能简介 传入ThriftServer实例所在host和提供服务的port,根据认证凭据及配置文件新建Thrift客户端,访问ThriftServer,分别使用get和scan进行读数据操作。 代码样例 方法调用 // Get data
Flink Jar作业提交SQL样例程序开发思路 场景说明 当作业的SQL语句修改频繁时,可使用Flink Jar的方式提交Flink SQL语句,以减少用户工作量。 本场景适用于MRS 3.2.1及以后版本。 开发思路 使用当前样例提交并执行指定的SQL语句,多个语句之间使用分号分隔。
Flink Jar作业提交SQL样例程序(Java) 提交SQL的核心逻辑如下,目前只支持提交CREATE和INSERT语句。完整代码参见com.huawei.bigdata.flink.examples.FlinkSQLExecutor。 public class FlinkSQLExecutor
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理 问题 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息。 回答 问题原因: 在IBM JDK下建立的Hive connection时间超过登
查询HBase全局二级索引信息 功能简介 通过调用“org.apache.hadoop.hbase.hindex.global.GlobalIndexAdmin”中的方法进行HBase全局二级索引的管理,该类中listIndices用于查询索引信息,可以获取当前用户表所有相关索引的定义及索引状态。
在本地Windows环境中调测ClickHouse应用(MRS 3.3.0及之后版本) 编译并运行程序 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 单击IDEA右边Maven窗口的“Reload All
在本地Windows环境中调测ClickHouse应用(MRS 3.3.0及之后版本) 编译并运行程序 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 单击IDEA右边Maven窗口的“Reload All
使用External Shuffle Service提升Spark Core性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据以及给其他Executor提供shuffle数据。当Executor进程任务过重,导致触发GC(Garbage
当事件队列溢出时如何配置事件队列的大小 问题 当Driver日志中出现如下的日志时,表示事件队列溢出了。当事件队列溢出时如何配置事件队列的大小? 普通应用 Dropping SparkListenerEvent because no remaining room in event
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效 问题 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效? 在MRS集群启动spark-beeline的命令中如果使用了“--hivevar <VAR_NAME>=<v
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常 问题 HBase bulkload任务有210000个map和10000个reduce,MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常。 For more
【Spark WebUI】HistoryServer缓存的应用被回收导致此类应用页面访问时出错 用户问题 在History Server页面中访问某个Spark应用的页面时,发现访问时出错。 查看相应的HistoryServer日志后,发现有“FileNotFound”异常,相关日志如下所示:
修改HBase全局二级索引状态 索引状态介绍 索引状态反映了索引当前的使用情况,全局二级索引支持以下五种状态: ACTIVE:索引正常,可以正常读写。 UNUSABLE:索引被禁用,索引数据会正常写入,查询时无法使用这个索引。 INACTIVE:索引异常,索引数据与数据表不一致,
Spark SQL无法查询到Parquet类型的Hive表的新插入数据 问题 为什么通过Spark SQL无法查询到存储类型为Parquet的Hive表的新插入数据?主要有以下两种场景存在这个问题: 对于分区表和非分区表,在Hive客户端中执行插入数据的操作后,会出现Spark SQL无法查询到最新插入的数据的问题。