检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Core样例程序(Java) 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection类:
Spark Streaming对接Kafka0-10样例程序 Spark Streaming对接Kafka0-10样例程序开发思路 Spark Streaming对接Kafka0-10样例程序(Java) Spark Streaming对接Kafka0-10样例程序(Scala)
Hudi的自定义配置项样例程序 HoodieDeltaStreamer 自定义排序器 父主题: 开发Spark应用
配置HBase应用输出运行日志 功能介绍 将hbase client的日志单独输出到指定日志文件,与业务日志分开,方便分析定位hbase的问题。 如果进程中已经有log4j的配置,需要将hbase-example\src\main\resources\log4j.properti
Flink Jar作业提交SQL样例程序开发思路 场景说明 当作业的SQL语句修改频繁时,可使用Flink Jar的方式提交Flink SQL语句,以减少用户工作量。 本场景适用于MRS 3.2.1及以后版本。 开发思路 使用当前样例提交并执行指定的SQL语句,多个语句之间使用分号分隔。
HoodieDeltaStreamer 编写自定义的转化类实现Transformer。 编写自定义的Schema实现SchemaProvider。 在执行HoodieDeltaStreamer时加入参数: --schemaprovider-class 定义的schema类 --transformer-class
配置场景 在使用集群中,如果需要在多主实例模式与多租户模式之间切换,则还需要进行如下参数的设置。 多租户切换成多主实例模式 修改Spark2x服务的以下参数: spark.thriftserver.proxy.enabled=false spark.scheduler.allocation
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败 问题 为什么将非ViewFS文件系统配置为ViewFS时MR作业运行失败? 回答 通过集群将非ViewFS文件系统配置为ViewFS时,ViewFS中的文件夹的用户权限与默认NameService中
java:300 回答 由于当前数据量较大,有50T数据导入,超过了shuffle的规格,shuffle负载过高,shuffle service服务处于过载状态,可能无法及时响应Executor的注册请求,从而出现上面的问题。 Executor注册shuffle service的超时时
Driver返回码和RM WebUI上应用状态显示不一致 问题 ApplicationMaster与ResourceManager之间通信发生长时间异常时,为什么Driver返回码和RM WebUI上应用状态显示不一致? 回答 在yarn-client模式下,Spark的Driv
Spark2x无法访问Spark1.5创建的DataSource表 问题 在Spark2x中访问Spark1.5创建的DataSource表时,报无法获取schema信息,导致无法访问表。 回答 原因分析: 这是由于Spark2x与Spark1.5存储DataSoure表信息的格式不一致导致的。Spark1
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态? 回答 在YARN中,当一个APP的节点被AM(ApplicationMaster)加入黑名单的数量达到一定比例
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行 问题 当删除一个有部分应用程序正在运行的队列,这些应用程序会被移动到“lost_and_found”队列上。当这些应用程序移回运行正常的队列时,某些任务会被挂起,不能正常运行。 回答 如果应用程序
ctChannelHandlerContext.java:362) 回答 Ranger界面上HBase服务插件的“hbase.rpc.protection”参数值和HBase服务端的“hbase.rpc.protection”参数值必须保持一致。 参考登录Ranger WebUI界面章节,登录Ranger管理界面。
locked.memory”参数值未设置或设置过小(小于“dfs.blocksize”参数值)时(对应参数值可登录Manager,选择“集群 > 服务 > HDFS > 配置 > 全部配置”搜索该参数获取),则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘。
MapReduce统计样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发MapReduce应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
extraClassPath”参数值中添加服务端的依赖包路径,如“${BIGDATA_HOME}/FusionInsight_Spark2x_8.1.0.1/install/FusionInsight-Spark2x-3.1.1/spark/jars/streamingClient010/*”。 将各服务端节点的
使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息 问题 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息 回答 问题原因: 在IBM JDK下建立的JDBC connection时间超过登
Driver返回码和RM WebUI上应用状态显示不一致 问题 ApplicationMaster与ResourceManager之间通信发生长时间异常时,为什么Driver返回码和RM WebUI上应用状态显示不一致? 回答 在yarn-client模式下,Spark的Driv
locked.memory”参数值未设置或设置过小(小于“dfs.blocksize”参数值)时(对应参数值可登录Manager,选择“集群 > 服务 > HDFS > 配置 > 全部配置”搜索该参数获取),则会写入客户端所在的DataNode节点的DISK磁盘,其余副本会写入其他节点的DISK磁盘。