检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行balance失败报错“Source and target differ in block-size” 问题背景与现象 执行distcp跨集群拷贝文件时,出现部分文件拷贝失败“ Source and target differ in block-size. Use -pb to
广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份复制。 StorageLevel:数据存储级别。有内存(MEMORY_ONLY),磁盘(DISK_ONLY),内存+磁盘(MEMORY_AND_DISK)等。
广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份复制。 StorageLevel:数据存储级别。有内存(MEMORY_ONLY),磁盘(DISK_ONLY),内存+磁盘(MEMORY_AND_DISK)等。
广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份复制。 StorageLevel:数据存储级别。有内存(MEMORY_ONLY),磁盘(DISK_ONLY),内存+磁盘(MEMORY_AND_DISK)等。
存量avro格式表,查询avro表之前设置参数spark.sql.forceConvertSchema.enabled=true,如果查询失败,可能avro格式表schema被缓存,执行refresh table命令,清除缓存后再设置参数进行查询,会将avro表格式强转指定数据类型
SELECT 语法 [/*+ query_rewrite_hint*/] [ WITH [ RECURSIVE ] with_query [, ...] ] SELECT [ ALL | DISTINCT ] select_expression [, ...] [ FROM from_item
快速使用HBase进行离线数据分析 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导,通过客户端实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。
对系统的影响 依赖LdapServer的组件运行状态变为故障,可能引起集群Kerberos认证失败或操作系统用户缓存同步异常,进而导致组件业务运行异常。 可能原因 LdapServer服务所在节点故障。 LdapServer进程故障。
磁盘类型为专属分布式存储的集群不允许克隆。 克隆时仅可以修改为更高集群版本,无法克隆创建历史版本集群。 在组件服务配置修改的参数和创建集群时选择的自定义软件配置的参数不会克隆到新集群。 资源池维度的弹性伸缩策略不支持克隆。
解决方法 由于当前JobHistory开启了本地磁盘缓存功能,访问应用时,会将应用的Event log的解析结果缓存到本地磁盘中,第二次访问时,能大大加快响应速度。因此,出现此种情况时,仅需稍作等待,重新访问原来的链接即可,此时不会再出现需要长时间等待的现象。
HDFS上设置配额导致HBase启动失败 问题现象 HBase启动失败。 原因分析 查看HMaster日志信息(“/var/log/Bigdata/hbase/hm/hbase-omm-xxx.log”),出现如下异常,The DiskSpace quota of /hbase is
true:表示丢弃缓存的数据(需要在DataNode中配置)。 当同一份数据,重复读取的次数较少时,建议设置为true,使得缓存能够被其他操作使用。 false:重复读取的次数较多时,设置为false能够提升重复读取的速度。
方案架构 Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间复制功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间复制功能。 对系统的影响
启用MRS集群间拷贝功能 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用,复制数据的集群双方都需要配置。 管理员可以根据以下指导,在Manager修改参数以启用集群间拷贝功能,启用之后即可创建将数据备份至远端
0 100000 否 distributed_product_mode 默认SQL中的子查询不允许使用分布式表,修改为local表示将子查询中对分布式表的查询转换为对应的本地表。
user.group.cache.timeout.sec 指定缓存中保存用户对应组信息的时间。单位:秒。 300 缓存中用户和组对应关系缓存时间,超过此时间用户信息才会再次通过id -Gn命令查询,在此期间,仅使用缓存中的用户和组对应关系。
同步不同租户间物化视图元数据信息缓存 refresh catalog mv; - 创建物化视图的“AS SELECT”的子句 创建物化视图的“AS SELECT”的子句不能包含calcite SQL解析和改写功能中的保留关键词,如“default”。
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS
Scan HBase表 Java SparkOnHbaseScalaExample-HBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Scala SparkOnHbasePythonExample-HBaseDistributedScanExample