检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark执行Hudi样例程序(Scala) 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.hudi.examples.HoodieDataSourceExample。 插入数据: def insertData(spark: SparkSession
使用Spark执行Hudi样例程序(Python) 下面代码片段仅为演示,具体代码参见:HudiPythonExample.py。 插入数据: #insert inserts = sc._jvm.org.apache.hudi.QuickstartUtils.convertToStringList(dataGen
使用Spark执行Hudi样例程序(Java) 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.hudi.examples.HoodieWriteClientExample。 创建客户端对象来操作Hudi: String tablePath = args[0];
使用Spark执行Hudi样例程序(Java) 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.hudi.examples.HoodieWriteClientExample 创建客户端对象来操作Hudi: String tablePath = args[0];
如何处理Flink任务配置State Backend为RocksDB时报错GLIBC版本问题 问题 Flink任务配置State Backend为RocksDB时,运行报如下错误: Caused by: java.lang.UnsatisfiedLinkError: /srv/B
MapReduce统计样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发MapReduce应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
Spark Structured Streaming样例程序(Scala) 功能介绍 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com
如何处理IE10/11页面算子的文字部分显示异常 问题 如何处理IE10/11页面显示异常,每个算子的文字部分没有显示出来的问题?如图1所示,Overview显示为空白。 图1 页面显示异常 回答 Flink中用了foreignObject元素来代理绘制svg矢量图,但是IE 1
Spark Structured Streaming样例程序(Java) 功能介绍 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com
MapReduce Java API接口介绍 MapReduce常用接口 MapReduce中常见的类如下。 org.apache.hadoop.mapreduce.Job:用户提交MR作业的接口,用于设置作业参数、提交作业、控制作业执行以及查询作业状态。 org.apache.hadoop
Driver返回码和RM WebUI上应用状态显示不一致 问题 ApplicationMaster与ResourceManager之间通信发生长时间异常时,为什么Driver返回码和RM WebUI上应用状态显示不一致? 回答 在yarn-client模式下,Spark的Driv
Spark2x无法访问Spark1.5创建的DataSource表 问题 在Spark2x中访问Spark1.5创建的DataSource表时,报无法获取schema信息,导致无法访问表。 回答 原因分析: 这是由于Spark2x与Spark1.5存储DataSoure表信息的格式不一致导致的。Spark1
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态? 回答 在YARN中,当一个APP的节点被AM(ApplicationMaster)加入黑名单的数量达到一定比例
当应用程序从lost_and_found队列移动到其他队列时,应用程序不能继续执行 问题 当删除一个有部分应用程序正在运行的队列,这些应用程序会被移动到“lost_and_found”队列上。当这些应用程序移回运行正常的队列时,某些任务会被挂起,不能正常运行。 回答 如果应用程序
structured streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类
配置Hive Python样例工程 操作场景 为了运行MRS产品Hive组件的Python接口样例代码,需要完成下面的操作。 MRS 3.1.2及之后版本默认仅支持Python3。 该样例仅支持在Linux节点上运行。 操作步骤 客户端机器必须安装有Python,其版本不低于2.6
Driver返回码和RM WebUI上应用状态显示不一致 问题 ApplicationMaster与ResourceManager之间通信发生长时间异常时,为什么Driver返回码和RM WebUI上应用状态显示不一致? 回答 在yarn-client模式下,Spark的Driv
使用TableIndexer工具生成HBase本地二级索引 场景介绍 为了快速对数据创建索引,HBase提供了可通过MapReduce功能创建索引的TableIndexer工具,该工具可实现添加、构建和删除索引。具体使用场景如下: 在表中预先存在大量数据的情况下,可能希望在某个列
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态? 回答 在YARN中,当一个APP的节点被AM(ApplicationMaster)加入黑名单的数量达到一定比例
块复制。 为了防止此情况,用户可以通过配置DataNodes来承受dfs.data.dir目录的故障。登录Manager,选择“集群 > 服务 > HDFS > 配置 > 全部配置”搜索参数“dfs.datanode.failed.volumes.tolerated”。例如:如果