检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何添加自定义代码的依赖包 问题 用户在开发Spark程序时,会添加样例程序外的自定义依赖包。针对自定义代码的依赖包,如何使用IDEA添加到工程中? 回答 在IDEA主页面,选择“File > Project Structures...”进入“Project Structure”页面
Linux中未安装客户端时提交Storm拓扑 操作场景 Storm支持拓扑在未安装Storm客户端的Linux环境中运行。 前提条件 客户端机器的时间与MRS集群的时间要保持一致,时间差要小于5分钟。 当Linux环境所在主机不是集群中的节点时,需要在节点的hosts文件中设置主机名和
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的
Spark Core样例程序(Scala) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection: 样例:类
Spark SQL样例程序(Java) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection: public
Spark Scala API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: SparkContext:是Spark的对外接口,负责向调用该类的scala应用提供
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢 问题 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题? 原因分析 由于窗口使用自定义窗口,这时窗口的状态使用
在Linux环境中调测MapReduce应用 操作场景 在程序代码完成开发后,您可以在Linux环境中运行应用。 MapReduce应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果查看程序运行情况。 登录MapReduce WebUI查看应用程序运行情况。
配置多主实例与多租户模式切换 配置场景 在使用集群中,如果需要在多主实例模式与多租户模式之间切换,则还需要进行如下参数的设置。 多租户切换成多主实例模式 修改Spark2x服务的以下参数: spark.thriftserver.proxy.enabled=false spark.scheduler.allocation.file
配置流式读取Spark Driver执行结果 配置场景 在执行查询语句时,返回结果有可能会很大(10万数量以上),此时很容易导致JDBCServer OOM(Out of Memory)。因此,提供数据汇聚功能特性,在基本不牺牲性能的情况下尽力避免OOM。 配置描述 提供两种不同的数据汇聚功能配置选项
在Spark应用执行过程中NodeManager出现OOM异常 问题 当开启Yarn External Shuffle服务时,在Spark应用执行过程中,如果当前shuffle连接过多,Yarn External Shuffle会出现“java.lang.OutofMemoryError
16T的文本数据转成4T Parquet数据失败 问题 使用默认配置时,16T的文本数据转成4T Parquet数据失败,报如下错误信息。 Job aborted due to stage failure: Task 2866 in stage 11.0 failed 4 times
当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败 问题 当一个NM(NodeManager)处于unhealthy的状态10分钟时,新应用程序失败。 回答 当nodeSelectPolicy为SEQUENCE,且第一个连接到RM的NM不可用时,RM
Password cannot be null if SASL is enabled异常 问题 运行Spark的应用启用了ExternalShuffle,应用出现了Task任务丢失,原因是由于java.lang.NullPointerException: Password cannot
导入并配置MapReduce样例工程 MapReduce针对多个场景提供样例工程,帮助客户快速学习MapReduce工程。 以下操作步骤以导入MapReduce样例代码为例。 操作步骤 参考获取MRS应用开发样例工程,下载样例工程到本地。 导入样例工程到Eclipse开发环境。 打开
运行SparkStreamingKafka样例工程时报“类不存在”问题 问题 通过spark-submit脚本提交KafkaWordCount(org.apache.spark.examples.streaming.KafkaWordCount)任务时,日志中报Kafka相关的类不存在的错误
由于kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写kafka时,kafka上接收不到回写的数据,且kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kafka-network-thread
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息 问题 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息 回答 问题原因: 在IBM JDK下建立的JDBC connection时间超过登录用户的认证超时时间
配置用户租约隔离访问指定节点的HiveServer Hive用户租约隔离即可以限定指定用户访问指定节点上的HiveServer服务,实现对用户访问HiveServer服务的资源隔离。 操作步骤 以对用户hiveuser设置租约隔离为例,选取Hive当前已有的或者新添加一个或者多个实例
ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势 告警解释 系统每30秒周期性检查BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势,当检查到该值不等于1(1表示没有增长趋势,0表示有增长趋势)时产生该告警。 当系统检测到BE上执行的各类任务中不存在某种类型的任务失败次数有增长趋势时