检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
2 2 1 1 1 1 2 2 对于以上结果的第一条为什么是(NULL,0)而不是(NULL,4)。 回答 在进行rollup和cube操作时,用户通常是基于维度进行分析,需要的是度量的结果,因此不会对维度进行聚合操作。 例如当前有表src(d1, d2,
增大partition数,把任务切分的更小。 增大任务执行过程中的超时时间。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。 表2 参数说明 参数 描述 建议值 spark.sql.shuffle.partitions shuffle操作时,shuffle数据的分块数。 4501
cation”的值判定为false,但却配置了checkpoint目录。 参数“recoverFromCheckpointLocation”的值为代码中“outputMode == OutputMode.Complete()”语句的判断结果(outputMode的默认输出方式为“append”)。
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
更改NodeManager的存储目录 操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时,MRS集群管理员需要在Manager中修改NodeManager的存储目录,以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn
on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
配置Kafka高可用和高可靠 操作场景 Kafka消息传输保障机制,可以通过配置不同的参数来保障消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高可用
Kerberos服务在收到ST请求后,校验其中的TGT合法后,生成对应的应用服务的ST,再使用应用服务密钥将响应消息进行加密处理。 应用客户端收到ST响应消息后,将ST打包到发给应用服务的消息里面传输给对应的应用服务端(Application Server)。 应用服务端收到请求后,使用本端应用服务对应的密钥解析其
在“安全组”中选择当前集群所在的安全组,该安全组在创建集群时配置或集群自动创建。 创建自定义集群时,安全组可配置提前创建的安全组或由系统自动创建。快速创建集群时,安全组由系统自动创建。 安全组名称可在集群的“概览”界面的“安全组”查看。 添加安全组规则,默认填充的是用户访问弹性IP地址的规则。如需对
AME的错误。 回答 MRS集群因新增多session管理功能,Hive的特性“--hivevar <VAR_NAME>=<var_value>”在Spark中已不再支持,因此在spark-beeline的启动命令中使用“--hivevar”选项无效。 父主题: SQL和DataFrame
以下示例代码主要功能如下。 普通(非Kerberos)模式下,使用用户名和密码进行登录,如不指定用户,则匿名登录; 在JDBC URL地址中提供登录Kerberos用户的principal,程序自动完成安全登录、建立Impala连接。 执行创建表、查询和删除三类Impala SQL语句。
Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapRe
大数据管理平台支持通过静态服务资源池对没有运行在Yarn上的服务资源进行管理和隔离。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率
以下为Hive SQL在哪个阶段执行变慢的排查方法: HiveServer编译变慢 查看HiveServer审计日志“/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log”,搜索运行的SQL,如图1的SQL为“show databas
Loader常见问题 IE 10&IE 11浏览器无法保存数据 将Oracle数据库中的数据导入HDFS时各连接器的区别 父主题: 使用Loader
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配置项,避免两种模式下来回切换参数,提升软件易用性。
Hive分区修剪的谓词下推增强 配置场景 在旧版本中,对Hive表的分区修剪的谓词下推,只支持列名与整数或者字符串的比较表达式的下推,在2.3版本中,增加了对null、in、and、or表达式的下推支持。 配置参数 登录FusionInsight Manager系统,选择“集群 >
database 该策略允许访问的数据库名称。 test table 该策略允许访问的数据库对应的表名称。 table1 Hive Column 该策略允许访问的数据库对应的表的列名。 name Allow Conditions Select Group:该策略允许访问的用户组。 Select
配置HDFS token的最大存活时间 配置场景 安全模式下,HDFS中用户可以对Token的最大存活时间和Token renew的时间间隔进行灵活地设置,根据集群的具体需求合理地配置。 配置描述 参数入口: 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。