检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何使用PySpark连接MRS Spark? 问: 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 答: 将Spark的“spark-defaults.conf”文件中“spark.yarn.security.credentials
使用CDL从PgSQL同步数据到Hudi 操作场景 本章节指导用户通过MRS 3.2.0版本开启Kerberos认证的集群的CDLService WebUI界面,从PgSQL导入数据到Hudi。 前提条件 集群已安装CDL、Hudi服务且运行正常。 PgSQL数据库需要开启前置要
SQL语言,用于对结构化数据进行操作。使用Spark SQL,可以访问不同的数据库,用户可以从这些数据库中提取数据,处理并加载到不同的数据存储中。 本实践演示如何使用MRS Spark SQL访问GaussDB(DWS)数据。 方案架构 Spark的应用运行架构如图1所示,运行流程如下所示:
使用Spark客户端创建CarbonData表 本章节介绍创建CarbonData table、加载数据,以及查询数据的快速入门流程。该快速入门提供基于Spark Beeline客户端的操作。如果使用Spark shell,需将查询命令写在spark.sql()的括号中。 本操作
Password opengaussuser用户密码 Description - thirdparty-kafka也可以使用MRS Kafka作为源端,如果使用用户名(Username)密码(Password)进行登录认证,则需先登录Manager界面,选择“集群 > 服务 > Kafka
Hue提供了Oozie作业管理器功能,使用户可以通过界面图形化的方式使用Oozie。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作,使用Hive客户端对Hive表进行操作。
使用Kafka客户端SSL加密 前提说明 客户端使用SSL功能前,必须要保证服务端SSL对应服务功能已经开启(服务端参数“ssl.mode.enable”设置为“true”)。 SSL功能需要配合API进行使用,可参考Kafka安全使用说明章节。 使用说明 Linux客户端使用SSL功能
Oozie客户端配置说明 操作场景 该任务指导用户在运维场景或业务场景中使用Oozie客户端。Oozie支持提交多种类型任务,例如Hive、Spark2x、Loader、Mapreduce、Java、DistCp、Shell、HDFS、SSH、SubWorkflow、Streaming、定时任务等。
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
beeline 执行以下命令,使用Hive的HQL语句查询HBase表的数据。 select * from thh; MRS3.x及后续版本,Hive over HBase授权 用户如果需要使用类似SQL语句的方式来操作HBase表,授予权限后可以在Hive中使用HQL命令访问HBase
配置Hive业务使用其他组件的用户权限 操作场景 Hive业务还可能需要关联使用其他组件,例如HQL语句触发MapReduce任务需要设置Yarn权限,或者Hive over HBase的场景需要HBase权限。以下介绍Hive关联Yarn和Hive over HBase两个场景下的权限操作。
一次tick的时间(毫秒),它是ZooKeeper使用的基本时间单位,心跳、超时的时间都由它来规定。 4000 ZooKeeper内部时间由参数ticktime和参数synclimit控制,如需调大ZooKeeper内部超时时间,需要调大客户端连接ZooKeeper的超时时间。 父主题: 使用ZooKeeper
ALM-26054 Nimbus堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Storm Nimbus堆内存使用率,并把实际的Storm Nimbus堆内存使用率和阈值相比较。当连续5次检测到Storm Nimbus堆内存使用率超出阈值(默认值为80%)时产生该告警。 用户可通过“运维
使用REST接口操作HBase表 功能简介 使用REST服务,传入对应host与port组成的url以及指定的tableName和jsonHTD,通过HTTP协议,进行查询表信息,修改表,创建表以及删除表的操作。 代码样例 方法调用 // Add a table with specified
使用REST接口操作HBase表 功能简介 使用REST服务,传入对应host与port组成的url以及指定的tableName和jsonHTD,通过HTTPS协议,进行查询表信息,修改表,创建表以及删除表的操作。 代码样例 方法调用 // Add a table with specified
操作场景 在使用Oozie节点通过SSH作业执行外部节点的Shell,需要单向免密互信时,可以参考此示例。 前提条件 已经安装Oozie,而且能与外部节点(SSH连接的节点)通信。 操作步骤 在外部节点上确保连接SSH时使用的用户存在,且该用户“~/.ssh”目录存在。 使用omm用户登录Oozie所在节点,查看“~/
使用多线程Consumer消费消息 功能简介 在使用Consumer API订阅安全Topic并消费基础上,实现了多线程并发消费,可根据Topic的Partition数目启动相应个数的Consumer线程来对应消费每个Partition上的消息。 下面代码片段在com.huawei
使用多线程Consumer消费消息 功能简介 在使用Consumer API订阅安全Topic并消费基础上,实现了多线程并发消费,可根据Topic的Partition数目启动相应个数的Consumer线程来对应消费每个Partition上的消息。 下面代码片段在com.huawei
使用Jupyter Notebook对接MRS Spark 应用场景 在MRS服务中可以配合Jupyter Notebook使用PySpark,能够提高机器学习、数据探索和ETL应用开发效率。 本实践指导用户如何在MRS集群中配置Jupyter Notebook来使用Pyspark。
息的“操作”列编辑或删除UDF信息(只能删除未被使用的UDF项)。 (可选)如果需要立即运行或开发作业,可在“作业管理”进行相关作业配置,可参考创建FlinkServer作业。 UDF java代码及SQL样例 UDF java使用样例 package com.xxx.udf; import