检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark连接其他服务认证问题 问题现象 Spark连接HBase,报认证失败或者连接不到HBase表。 Spark连接HBase报找不到jar包。 原因分析 问题1:HBase没有获取到当前任务的认证信息,导致连接HBase的时候认证失败,无法读取到相应数据。 问题2:Spar
在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 200ms spark.streaming.receiver.maxRate 每个Receiver接收数据的最大速率(每秒记录数量)。配置设置为0或者负值将不会对速率设限。
Sink需要用户根据自己开发的代码来进行配置,下述常用配置不再展示。 常用Source配置 Avro Source Avro Source监测Avro端口,接收外部Avro客户端数据并放入配置的Channel中。常用配置如下表所示: 表1 Avro Source常用配置 参数 默认值 描述 channels
sparksecurity-examples/SparkStreamingKafka010JavaExample Spark Streaming从Kafka接收数据并进行统计分析的Java/Scala示例程序。 本工程应用程序实时累加计算Kafka中的流数据,统计每个单词的记录总数。 sparks
xxx:21005,xxx.xxx.xxx.xxx:21005,xxx.xxx.xxx.xxx:21005 mytopic 10 开发思路 接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark
xxx:21005,xxx.xxx.xxx.xxx:21005,xxx.xxx.xxx.xxx:21005 mytopic 10 开发思路 接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark
Manager(MRS 3.x及之后版本)。 以rangeradmin用户登录Ranger WebUI界面。 选择“集群 > 服务 > Ranger”,进入Ranger服务概览页面。 单击“基本信息”区域中的“RangerAdmin”,进入Ranger WebUI界面。 在Ranger W
修改OMS服务配置 根据用户环境的安全要求,管理员可以在FusionInsight Manager修改OMS中Kerberos与LDAP配置。 本章节仅适用于MRS 3.x及以后版本。 修改OMS服务配置对系统的影响 修改OMS的服务配置参数后,需要重启对应的OMS模块,此时FusionInsight
修改集群服务配置参数 用户可通过MRS管理控制台的集群组件配置页面修改各组件的配置参数。 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。 选择“组件管理 > 服务名称 > 服务配置”。 下拉列表默认显示“基础配置”,如果需要修改更多参数,请选择“全部配置”,界面上
在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 200ms spark.streaming.receiver.maxRate 每个Receiver接收数据的最大速率(每秒记录数量)。配置设置为0或者负值将不会对速率设限。
查看集群是否存在配置过期的服务,如果存在,需重启对应服务或角色实例使配置生效。也可在保存配置时直接勾选“重新启动受影响的服务或实例。”。 MRS 3.x之前的版本,服务配置参数均支持登录MRS Manager进行修改: 登录MRS Manager。 单击“服务管理”。 单击服务视图中指定的服务名称。
使用CDM服务迁移Hive数据至MRS集群 应用场景 本章节适用于将线下IDC机房或者公有云Hive集群中的数据(支持数据量在几十TB级别或以下的数据量级)迁移到华为云MRS服务。 使用华为云CDM服务“场景迁移功能”可以一键式便捷地完成Hive数据的迁移。 本章节以通过华为云CDM服务
/opt/client/Spark2x/spark/jars/streamingClient010/*:{ClassPath} 开发思路 接收Kafka中数据,生成相应DStream。 对单词记录进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user
S -Dfastjson.parser.safeMode=true" 使用omm用户在主OMS节点执行如下命令重启Manager Web 服务。 $OMS_RUN_PATH/workspace/ha/module/harm/plugin/script/tomcat stop $O
HDFS性能差导致HBase服务不可用告警 问题现象 HBase组件不断上报服务不可用告警。 原因分析 该问题多半为HDFS性能较慢,导致健康检查超时,从而导致监控告警。可通过以下方式判断: 首先查看HMaster日志(“/var/log/Bigdata/hbase/hm/hbase-omm-xxx
使用MRS Spark SQL访问DWS表 应用场景 华为云提供MapReduce服务(MRS),可在云上快速构建和运营全栈云原生大数据平台。它包含HDFS、Hive、HBase、Spark等大数据组件,专为分析海量企业数据而量身定制。 Spark提供了类似SQL的Spark S
“-l”:可选参数,表示日志目录,默认值为“/var/log/Bigdata”。 “-e”:可选参数,表示Flume实例的业务IP地址,主要用于接收客户端上报的监控指标信息。 “-n”:可选参数,表示自定义的Flume客户端的名称。 IBM的JDK不支持“-Xloggc”,需要修改“flume/conf/flume-env
KafkaWordCountProducer {BrokerList} {Topic} {messagesPerSec} {wordsPerMessage} 开发思路 接收Kafka中数据,生成相应DataStreamReader。 对单词记录进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark
},为每条展示事件随机生成0-5条点击事件,点击事件的时间取值范围为{展示事件时间 至展示事件时间+5m } 开发思路 使用Structured Streaming接收Kafka中数据,生成请求流、展示流、点击流。 对请求流、展示流、点击流的数据进行关联查询。 统计结果写入kafka。 应用中监控流处理任务的状态。
},为每条展示事件随机生成0-5条点击事件,点击事件的时间取值范围为{展示事件时间 至展示事件时间+5m } 开发思路 使用Structured Streaming接收Kafka中数据,生成请求流、展示流、点击流。 对请求流、展示流、点击流的数据进行关联查询。 统计结果写入kafka。 应用中监控流处理任务的状态。