检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何获取MRS集群ZooKeeper的IP地址和端口? ZooKeeper的IP地址和端口可以通过MRS控制台或登录Manager界面获取。 方法一:通过MRS控制台获取 在MRS集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。 选择“组件管理 >
store以及数据库,支持对于可变状态的细粒度更新,这一点要求集群需要对数据或者日志的更新进行备份来保障容错性。这样就会给数据密集型的工作流带来大量的IO开销。而对于RDD来说,它只有一套受限制的接口,仅支持粗粒度的更新,例如map,join等等。通过这种方式,Spark只需要简单的记录建立数据的转换操作的
SSD”只是用于标识存储目录“相对”的“低速”和“高速”之分,而并不是标识实际的存储介质类型,所以如果BE节点上的存储路径没有介质区别,则无需填写后缀。 处理步骤 修改FE的“default_storage_medium”配置为正确的存储介质,并重启FE生效。 将“be.conf”中SSD的显式配置删除。
分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。 自定义:全量自定义组件组合的MRS集群,MRS 3.x及之后版本支持此类型。
Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。
所有用户都属于public组,默认给public组配有default数据库的创表和所有其他数据库的create权限,因此默认所有的用户都有show databases和show tables的权限,如果不想让某些用户有show databases和show tables权限,可在Ranger WEBU
MRS集群支持退服、入服的角色实例包括: HDFS的DataNode角色实例 Yarn的NodeManager角色实例 HBase的RegionServer角色实例 ClickHouse的ClickHouseServer角色实例(MRS 3.1.2及之后版本支持) IoTDB的IoTDBServer角色实例
SQL无法查询到Parquet类型的Hive表的新插入数据 问题 为什么通过Spark SQL无法查询到存储类型为Parquet的Hive表的新插入数据?主要有以下两种场景存在这个问题: 对于分区表和非分区表,在Hive客户端中执行插入数据的操作后,会出现Spark SQL无法查询到最新插入的数据的问题。 对于分区表,在Spark
若用户已开启敏感操作保护(详见IAM服务的敏感操作),则输入选择的对应验证方式获取的验证码进行进行验证,避免误操作带来的风险和损失。 图4 身份验证 为关闭安全通信的集群开启安全通信 登录MRS管理控制台。 在现有集群列表中,单击待开启安全通信的集群名称。 系统跳转至该集群详情页面。
可以通过以下3种方式的任意一种指定安全认证信息。 在客户端的“spark-default.conf”配置文件中,配置“spark.yarn.keytab”和“spark.yarn.principal”参数指定认证信息。 执行bin/spark-submit的命令中添加如下参数来指定认证信息。
'binary:<value>')"} 回答 由于HBase的可扩展性,在查询表的时候,默认情况下会匹配被查询列的所有版本的值,即使被删除或被修改的值也可以查询出来。对于命中列失败的行(即在某一行中不存在该列),HBase会将该行查询出来。 如果用户仅需查询该表的最新值和命中列成功的行,可使用如下查询语句: scan
Client以及各个节点的该绝对路径上放置keystore和truststore文件,并且提交作业的用户需要具有读取keystore和truststore文件的权限。 Flink有两种方式执行应用程序,且执行命令中不需要使用“-t”或“-yt”来传输keystore和truststore文件。
设置SSL加密的算法 如果打开Task Manager之间data传输通道的SSL,对性能会有较大影响,需要用户从安全和性能综合考虑。 在Flink客户端的bin目录下,执行命令sh generate_keystore.sh <password>,具体操作可参考认证和加密,表3中的配置项会被默认赋值,用户也可以手动配置。
Filter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现,如设置RowKey、列名或者列值的过滤条件。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testFilterList方法中。
'binary:<value>')"} 回答 由于HBase的可扩展性,在查询表的时候,默认情况下会匹配被查询列的所有版本的值,即使被删除或被修改的值也可以查询出来。对于命中列失败的行(即在某一行中不存在该列),HBase会将该行查询出来。 如果用户仅需查询该表的最新值和命中列成功的行,可使用如下查询语句: scan
用户用于认证的账号Principal,使用准备集群认证用户信息章节中创建的用户。 userKeytabPath /opt/FIclient/user.keytab 用户用于认证的Keytab文件,将准备的开发用户的user.keytab文件复制到示例参数值的路径下。 ZKServerPrincipal zookeeper/hadoop
用户用于认证的账号Principal,使用准备MRS应用开发用户章节中创建的用户。 userKeytabPath /opt/FIclient/user.keytab 用户用于认证的Keytab文件,将准备的开发用户的user.keytab文件复制到示例参数值的路径下。 ZKServerPrincipal zookeeper/hadoop
保留的上限值(当前默认值为1000个),旧的UI数据才会在内存中被清除。 因此,在将旧的UI数据从内存中清除之前,UI数据会占用大量内存,从而导致执行10T的TPCDS测试套时出现Driver内存不足的现象。 规避措施: 根据业务需要,配置合适的需要保留的Job和Stage的UI数据个数,即配置“spark
通过获取客户端的principal和keytab文件在应用程序中进行认证。 MapReduce的安全认证代码 目前使用统一调用LoginUtil类进行安全认证。 在MapReduce样例工程的“com.huawei.bigdata.mapreduce.examples”包的“Fema
生成Flume服务端和客户端的配置文件 该操作指导安装工程师在集群及Flume服务安装完成后,分别配置Flume服务的服务端和客户端参数,使其可以正常工作。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。