检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 若运行“Spark on HBase”样例程序,需要在Spark客户端的“spark-defaults
一些对数据丢失不敏感的业务,可以在业务中不考虑数据丢失处理从而提高系统性能;而对于一些严格要求数据可靠性的业务,则需要使用精确一次的可靠性方案,以确保数据被处理且仅被处理一次。 容错 Storm是一个容错系统,提供较高可用性。表2从Storm的不同部件失效的情况角度解释其容错能力:
sk节点主要用于处理数据,不存放持久数据。 本章节指导用户通过租户资源绑定新增的Task节点,并提交Spark任务到新增的Task节点。 方案架构 租户是MRS大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图1所示。
http.server.session.timeout.secs Spark:修改配置spark.session.maxAge的值 Hive:添加自定义配置项http.server.session.timeout.secs 保存配置项时可选择不重启受影响的服务或实例,等待业务不繁忙时再重启服务或实例。
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
例如安装目录为“/opt/Flumeclient”。以下操作的客户端目录只是举例,请根据实际安装目录修改。 将Master1节点上的认证服务器配置文件,复制到安装Flume客户端的节点,保存到Flume客户端中“Flume客户端安装目录/fusioninsight-flume-Flume组件版本号/conf”目录下。
Principal用户是否只登录一次。true为单次登录;false为多次登录。 单次登录与多次登录的区别在于:Spark社区使用多次Kerberos用户登录多次的方案,但容易出现TGT过期或者Token过期异常导致应用无法长时间运行。DataSight修改了Kerberos登录方式,只允许用户登录一次,
Manager页面,具体请参见访问MRS Manager,然后选择“服务管理”。 单击“下载客户端”。 “客户端类型”选择“仅配置文件”,“下载路径”选择“服务器端”,单击“确定”开始生成客户端配置文件,文件生成后默认保存在主管理节点“/tmp/MRS-client”。 图1 仅下载客户端的配置文件
afka等组件上。 本案例中,通过MRS自定义集群中的Flume组件,自动采集指定节点日志目录下新产生的文件并存储到HDFS文件系统中。 方案架构 Flume-NG由多个Agent来组成,而每个Agent由Source、Channel、Sink三个模块组成,其中Source负责接
id String 参数解释: 虚拟机ID。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 name String 参数解释: 虚拟机名称。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 ip String 参数解释: 虚拟机IP地址。 约束限制: 不涉及
function的JDBCServer上,因此执行show function,function仍然存在。该行为是hive的社区行为。 修改方案: 在执行drop function命令之前先执行add jar命令,则该function在有权限的情况下才能drop成功,且drop成功之后不会出现show
Catalog读取Hive外表数据并写入Doris 应用场景 通过Doris创建Catalog成功读取Hive外表数据并写入Doris,并按照Unique指定字段自动去重。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。从数据湖加载可以使用工具CDM,在没有CDM工具时,可以直接使用外表加载、Brok
oris 应用场景 通过Doris创建Catalog成功读取RDS-MySQL数据并写入Doris,并按照Unique指定字段自动去重。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。从数据湖加载可以使用工具CDM,在没有CDM工具时,可以直接使用外表加载、Brok
获取MRS集群主机列表接口时提示用户无权限 用户问题 使用AK/SK获取MRS集群主机列表/v1.1/<project_id>/clusters/<cluster_id>/hosts接口时,提示用户无权限“User do not have right to access cluster”。
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
"dataType" : "INT" } ], "watermarkSpecs" : [ ] }, "partitionKeys" : [ ], "options"
Principal用户是否只登录一次。true为单次登录;false为多次登录。 单次登录与多次登录的区别在于:Spark社区使用多次Kerberos用户登录多次的方案,但容易出现TGT过期或者Token过期异常导致应用无法长时间运行。DataSight修改了Kerberos登录方式,只允许用户登录一次,
hindex.mapreduce.TableIndexer -Dtablename.to.index=<table_name> -Dindexspecs.to.add='IDX1=>cf1:[q1->datatype];cf2:[q1->datatype],[q2->datatype],[