检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
储,并且文件中的数据尽可能的压缩来降低存储空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2.3版本中,SparkSQL支持矢量化读取ORC数据(这个特性在Hive的历史版本中已经得到支持)。矢量化读取ORC格式的数据能够获得比传统读取方式数倍的性能提升。
储,并且文件中的数据尽可能的压缩来降低存储空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2.3版本中,SparkSQL支持矢量化读取ORC数据(这个特性在Hive的历史版本中已经得到支持)。矢量化读取ORC格式的数据能够获得比传统读取方式数倍的性能提升。
对于更小的磁盘配置更大的数值将浪费大量的空间。 为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。 如果用户同时配置“dfs.datanode
操作场景 频繁的数据获取导致在存储目录中产生许多零碎的CarbonData文件。由于数据排序只在每次加载时进行,所以,索引也只在每次加载时执行。这意味着,对于每次加载都会产生一个索引,随着数据加载数量的增加,索引的数量也随之增加。由于每个索引只在一次加载时工作,索引的性能被降低。C
Ranger仅支持对接RDS服务MySQL数据库,版本号为:MySQL 5.7.x、MySQL 8.0。 Hive支持对接RDS服务MySQL和PostgreSQL数据库,版本号为:MySQL 5.7.x、MySQL 8.0和PostgreSQL14。 在RDS管理控制台,选择“实
操作场景 频繁的数据获取导致在存储目录中产生许多零碎的CarbonData文件。由于数据排序只在每次加载时进行,所以,索引也只在每次加载时执行。这意味着,对于每次加载都会产生一个索引,随着数据加载数量的增加,索引的数量也随之增加。由于每个索引只在一次加载时工作,索引的性能被降低。C
件。当集群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。
件。当集群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时的磁盘选择策略为“节点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。
确保用户已授权访问作业执行时操作的HBase表或phoenix表。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从HDFS/OBS导入数据时,确保HDFS/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业
要)。 已安装Kafka客户端。 Kafka实例状态和磁盘状态均正常。 根据待迁移分区当前的磁盘空间占用情况,评估迁移后,不会导致新迁移后的磁盘空间不足。 使用Kafka客户端迁移数据 以客户端安装用户,登录已安装Kafka客户端的节点。 执行以下命令,切换到Kafka客户端安装
>”的磁盘空间quota值为1KB,但是memstore数据为384.00MB,所以flush操作失败并且region server会终止。 在region server终止时,HMaster对终止的region server的WAL文件进行replay操作以恢复数据。由于限制了
>”的磁盘空间quota值为1KB,但是MemStore数据为384.00MB,所以flush操作失败并且region server会终止。 在region server终止时,HMaster对终止的region server的WAL文件进行replay操作以恢复数据。由于限制了
型为“RDS服务MySQL数据库”,数据连接实例选择已创建的数据连接实例,或单击“创建数据连接”新创建一个数据连接。 图2 使用RDS服务MySQL数据库 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,需要先以
Hive对接外置自建关系型数据库 应用场景 在已有Hive数据的集群上外置元数据库后,之前的元数据表不会自动同步。因此在安装Hive之初就要确认好元数据是外置数据库还是内置到DBService,如果是外置自建数据库,则需在安装Hive时或者暂无Hive数据时将元数据外置,安装后不允许修改,否则将会造成原有元数据丢失。
ALM-50207 FE的MySQL端口连接数与允许最大连接数的比值超过阈值 告警解释 系统每30秒周期性检查MySQL端口连接数,当检测到当前连接数与设置的FE最大端口连接数的比值超出阈值(默认值为95%)时产生该告警。当前集群设置的FE最大端口连接数由参数“qe_max_co
csv文件中获取AK/SK信息。 导入OBS数据至Doris表中 登录安装了MySQL的节点,执行以下命令,连接Doris数据库。 若集群已启用Kerberos认证(安全模式),需先执行以下命令再连接Doris数据库: export LIBMYSQL_ENABLE_CLEARTEXT_PLUGIN=1
查询Impala数据 功能简介 本小节介绍了如何使用Impala SQL对数据进行查询分析。从本节中可以掌握如下查询分析方法。 SELECT查询的常用特性,如JOIN等。 加载数据进指定分区。 如何使用Impala自带函数。 如何使用自定义函数进行查询分析,如何创建、定义自定义函数请见开发Impala用户自定义函数。
10亿级数据量场景的解决方案有哪些? 问: 10亿级数据量场景的解决方案有哪些? 答: 有数据更新、联机事务处理OLTP、复杂分析的场景,建议使用云数据库 GaussDB(for MySQL)。 MRS的Impala + Kudu也能满足该场景,Impala + Kudu可以在j
SQLServer全数据类型导入HDFS数据跳过 问题 SQLServer全数据类型导入HDFS,数据全部跳过。 答案 数据中包含SQLServer中特有的Timestamp类型,该数据类型与时间和日期无关,需要替换为Datetime类型。 父主题: Loader常见问题
对端DBService HA名称。 SYNC_PERSENT 同步百分比。 对系统的影响 主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 可能原因 主备节点网络不稳定。 备DBService异常。 备节点磁盘空间满。 处理步骤 检查主备节点网络是否正常。 登录MRS集群详情页面,选择“告警管理”。