检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 若运行“Spark on HBase”样例程序,需要在Spark客户端的“spark-defaults
10/spark-streaming-kafka-0-10_2.12-3.1.1-hw-ei-311001-SNAPSHOT.jar 用户自己开发的应用程序以及样例工程都可使用上述命令提交。 但是Spark开源社区提供的KafkaWordCount等样例程序,不仅需要添加--ja
10/spark-streaming-kafka-0-10_2.12-3.1.1-hw-ei-311001-SNAPSHOT.jar 用户自己开发的应用程序以及样例工程都可使用上述命令提交。 但是Spark开源社区提供的KafkaWordCount等样例程序,不仅需要添加--ja
'/opt/client/Spark/spark/conf/user.keytab' <用于认证的业务用户> user.keytab文件位置请根据自己实际路径填写。 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input(hdfs dfs命令有同样的作用),创建对应目录。
户端连接服务器的端口和备集群的HBase在ZooKeeper上的根目录。 备集群ZooKeeper实例业务IP地址可在FusionInsight Manager界面,选择“集群 > 服务 > ZooKeeper > 实例”查看。 备集群ZooKeeper客户端连接服务器的端口和备
活动的DataNode实例数必须大于“dfs.replication”的值。 操作步骤 检查环境 以root用户登录安装HDFS客户端的服务器,执行以下命令配置环境变量。 source HDFS客户端安装目录/bigdata_env 如果集群为安全模式,执行以下命令认证用户身份。
10/spark-streaming-kafka-0-10_2.12-3.1.1-hw-ei-311001-SNAPSHOT.jar 用户自己开发的应用程序以及样例工程都可使用上述命令提交。 但是Spark开源社区提供的KafkaWordCount等样例程序,不仅需要添加--ja
用户表必须存在。 indexspecs.to.add中指定的索引不能已存在于表中。 indexnames.to.build中指定的索引名称必须已经存在于表中,或者应该是indexspecs.to.add的一部分。 在执行前面的命令之后,indexspecs.to.add中指定的所有索
正式编写脚本前,您需要将所需安装包、配置包的所有相关文件都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在脚本中指定从OBS下载需要的文件。如果将文件上传到私有文件系统,需要用hadoop
MrsObsCredentialsProvider:通过MRS云服务委托获取凭证。 com.obs.services.EcsObsCredentialsProvider:通过ECS云服务获取AK/SK信息。 com.obs.services.BasicObsCredentialsProvi
级,导致开源Kylin与MRS 1.9.3版本进行对接时存在Jetty版本的兼容性问题。 按以下步骤进行操作可以完成部署和对接。 在一个ECS节点进行MRS Client安装,具体请参考集群外节点使用MRS客户端。本操作以MRS客户端安装路径为“/srv/client/”为例进行说明。
spoolDir 查看TAILDIR监控目录,执行命令:cat properties.properties | grep parentDir 指定服务器上用户自定义已经存在的数据监控目录。 查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。 是,执行17。
> 阈值设置 > 待操作集群的名称 > 主机 > 网络写信息 > 写包丢包率”,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调节)。 是,执行4。 否,执行2。 根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
node-cache-short-circuit.enable”的不同配置控制是否允许访问ECS元数据接口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名
kryoserializer.buffer配置。 64KB Broadcast Broadcast用于Spark进程间数据块的传输。Spark中无论Jar包、文件还是闭包以及返回的结果都会使用Broadcast。目前的Broadcast支持两种方式,Torrent与HTTP。前者将会把数据切成小片,分布
态枚举。 示例: status job -j 1 status job -j 1 -s create命令扩展属性 针对HDFS与SFTP服务器或RDB进行数据交换场景,MRS在开源sqoop-shell工具的基础上对create命令属性进行扩展,以达到在创建作业时指定行、列分隔符及转换步骤的目的。
n.timeout.ms的设置时长,此时发生rebalance导致本次消费失败,已经消费数据的offset无法正常提交,所以下次重新消费时还是在旧的offset消费数据,从而导致消费数据重复。 解决办法 建议用户在Manager页面调整以下服务参数: request.timeout
> 阈值设置 > 待操作集群的名称 > 主机 > 网络写信息 > 写包错误率”,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调节)。 是,执行4。 否,执行2。 根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 >
buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num.buckets=5 判断使用分区表还是非分区表 根据表的使用场景一般将表分为事实表和维度表: 事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一
运行这个任务的用户。 applicationType 例如MAPREDUCE或者SPARK等。 finalStatus 可以知道任务是成功还是失败。 elapsedTime 任务运行的时间。 获取Yarn资源的总体信息。 命令: curl -k -i --negotiate -u