检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce统计样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发MapReduce应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
Spark Structured Streaming样例程序(Java) 功能介绍 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com
Spark Structured Streaming样例程序(Scala) 功能介绍 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态? 回答 在YARN中,当一个APP的节点被AM(ApplicationMaster)加入黑名单的数量达到一定比例
当分级存储策略为LAZY_PERSIST时为什么文件的副本的存储类型为DISK 问题 当文件的存储策略为LAZY_PERSIST时,文件的第一副本的存储类型应为RAM_DISK,其余副本为DISK。 为什么文件的所有副本的存储类型都是DISK? 回答 当用户写入存储策略为LAZY
如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题? 问题 当用户设置“blob.storage.directory”为“/home”时,用户没有权限在“/home”下创建“blobStore-UUID”的文件,导致yarn-session启动失败。
install编译构建HBase Jar包失败报错Could not transfer artifact如何处理 问题 样例代码在进行maven编译构建jar包时,Build Failed,提示错误信息:Could not transfer artifact org.apache
配置Hive Python3样例工程 操作场景 为了运行MRS产品Hive组件的Python3接口样例代码,需要完成下面的操作。 该样例仅支持在Linux节点上运行。 操作步骤 客户端机器必须安装有Python3,其版本不低于3.6,最高不能超过3.8。 在客户端机器的命令行终端
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理 问题 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息。 回答 问题原因: 在IBM JDK下建立的Hive connection时间超过登
运行样例时提示Topic鉴权失败“TOPIC_AUTHORIZATION_FAILED” 解决步骤 向管理员申请该Topic的访问权限。 如果拥有权限后还是无法访问该Topic,使用管理员用户登录FusionInsight Manager,选择“集群 > 服务 > Kafka >
运行Producer.java样例报错“ERROR fetching topic metadata...” 解决步骤 检查工程conf目录下“producer.properties”中配置的“bootstrap.servers”配置值中访问的IP和端口是否正确: 如果IP与Kaf
MapReduce Java API接口介绍 关于MapReduce的详细API可以参考官方网站。 http://hadoop.apache.org/docs/r3.1.1/api/index.html 常用接口 MapReduce中常见的类如下: org.apache.hadoop
由于Kafka配置的限制,导致Spark Streaming应用运行失败 问题 使用运行的Spark Streaming任务回写Kafka时,Kafka上接收不到回写的数据,且Kafka日志报错信息如下: 2016-03-02 17:46:19,017 | INFO | [kaf
HoodieDeltaStreamer 编写自定义的转化类实现Transformer。 编写自定义的Schema实现SchemaProvider。 在执行HoodieDeltaStreamer时加入参数: --schemaprovider-class 定义的schema类 --transformer-class
配置Hive Python3样例工程 操作场景 为了运行MRS产品Hive组件的Python3接口样例代码,需要完成下面的操作。 该样例仅支持在Linux节点上运行。 操作步骤 客户端机器必须安装有Python3,其版本不低于3.6,最高不能超过3.8。 在客户端机器的命令行终端
HoodieDeltaStreamer 编写自定义的转化类实现Transformer。 编写自定义的Schema实现SchemaProvider。 在执行HoodieDeltaStreamer时加入参数: --schemaprovider-class 定义的schema类 --transformer-class
Spark应用名在使用yarn-cluster模式提交时不生效 问题 Spark应用名在使用yarn-cluster模式提交时不生效,在使用yarn-client模式提交时生效,如图1所示,第一个应用是使用yarn-client模式提交的,正确显示代码里设置的应用名Spark P
配置Spark加载第三方jar包,用于注册UDF或者扩展SparkSQL 本章节仅适用于MRS 3.5.0-LTS及之后版本。 配置场景 用户可能经常会自定义UDF或者使用一些自定义jar扩展Spark能力,针对这种第三方jar需要在Spark启动前指定好第三方类加载路径。 前提条件
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出? 问题 当对decimal数据类型进行带过滤条件的查询时,输出结果不正确。 例如, select * from carbon_table where num = 1234567890123456.22; 输出结果:
访问Spark应用的聚合日志页面报“DNS查找失败”错误 问题 采用http(s)://<spark ip>:<spark port>的方式直接访问Spark JobHistory页面时,如果当前跳转的Spark JobHistory页面不是FusionInsight代理的页面(