检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序。 MapReduce是一种编程模型,用于大数据集(大于1TB)的并行运算。在MapReduce程序中计算的数据可以来自多个数据源,如Local FileSystem、HDFS、数据库等。最常用的是HDFS,利用HD
写入更新数据时报错 Parquet/Avro schema 问题 数据写入时报错: org.apache.parquet.io.InvalidRecordException: Parquet/Avro schema mismatch: Avro field 'col1' not found
建内部表和外部表。 内部表,如果对数据的处理都由Hive完成,则应该使用内部表。在删除内部表时,元数据和数据一起被删除。 外部表,如果数据要被多种工具(如Pig等)共同处理,则应该使用外部表,可避免对该数据的误操作。删除外部表时,只删除掉元数据。 根据已有表创建新表,使用CREATE
ClickHouse数据库设计规范 ClickHouse设计规范概述 ClickHouse集群规划 ClickHouse数据库设计 ClickHouse数据库开发 ClickHouse数据库调优 ClickHouse数据库运维
SHOW显示数据库和表信息 本章节主要介绍ClickHouse显示数据库和表信息的SQL基本语法和使用说明。 基本语法 show databases show tables 使用示例 --查询数据库 show databases; ┌─name────┐ │ default
设置在磁盘数据均衡中可容忍的两磁盘之间的数据密度阈值差。如果任意两个磁盘数据密度差值的绝对值超过了此阈值,意味着对应的磁盘应该进行数据均衡。取值范围[1-100]。 10 dfs.disk.balancer.top.nodes.number 该参数用来指定集群中需要执行磁盘数据均衡的Top
创建HBase索引进行数据查询 操作场景 HBase是一个Key-Value类型的分布式存储数据库,HIndex为HBase提供了按照某些列的值进行索引的能力,缩小搜索范围并缩短时延。 使用约束 列族应以“;”分隔。 列和数据类型应包含在“[]”中。 列数据类型在列名称后使用“->”指定。
为什么在off heap时数据加载失败? 问题 为什么在off heap时数据加载失败? 回答 YARN Resource Manager将(Java堆内存 + “spark.yarn.am.memoryOverhead”)作为内存限制,因此在off heap时,内存可能会超出此限制。您需配置参数“spark
步骤1:创建MRS集群:创建一个包含有Kafka组件的MRS集群。 步骤2:准备应用程序:准备用于进行分析的源数据及程序。 步骤3:上传jar包及源数据:将相关程序和数据上传至MRS集群内。 步骤4:运行作业并查看结果:运行程序并查看数据分析结果。 步骤1:创建MRS集群 创建并购买一个包含有Kafka组件的MRS集群,详情请参见购买自定义集群。
Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 可能原因 Flume Sink故障,导致数据无法发送。 网络故障,导致数据无法发送。 处理步骤 检查Flume
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同? 问题 为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同? 回答 转义字符以反斜线"\"开头,后跟一个或几个字符。如果输入记录包含类似\t,\b,\n,\r,\f,\',\",\
Delete轻量化删除表数据 本章节主要介绍轻量化delete删除表数据的SQL基本语法和使用说明。 本章节仅适用于MRS 3.3.0及之后版本。 基本语法 DELETE FROM [db.]table [ON CLUSTER cluster] WHERE expr 使用示例 建表:
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间拷贝功能。 对系统的影响
重置DBService数据库omm用户密码 操作场景 MRS集群中DBService数据库omm用户的默认密码为随机密码,建议定期重置DBService数据库omm用户的密码,以提升系统运维安全性。 该章节仅适用于MRS 3.2.0-LTS.1及之后的版本,MRS 3.2.0-LTS
参数设置不合理。 原因分析 原因:由于参数设置不当,数据量大时数据处理时间过长,导致频繁发生balance,此时offset无法正常提交,导致重复消费数据。 原理:每次poll的数据处理完后才提交offset,如果poll数据后的处理时长超出了session.timeout.ms
CREATE DATABASE创建数据库 本章节主要介绍ClickHouse创建数据库的SQL基本语法和使用说明。 基本语法 CREATE DATABASE [IF NOT EXISTS] database_name [ON CLUSTER ClickHouse集群名] ON CLUSTER
Hive读写权限”。 在数据库列表中单击指定的数据库名称“hdb”,显示数据库中的表“htable”。 在表“htable”的“权限”列,勾选“查询”、“插入”和“删除”。 单击“确定”完成。 在角色管理中,授予角色在Hive外表中查询、插入和删除数据的操作与Hive表相同,授予元数据权限将自动关联HDFS文件权限。
典型场景:从HBase导出数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从HBase导出到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户已授权访问
创建HBase索引进行数据查询 操作场景 HBase是一个Key-Value类型的分布式存储数据库,HIndex为HBase提供了按照某些列的值进行索引的能力,缩小搜索范围并缩短时延。 使用约束 列族应以“;”分隔。 列和数据类型应包含在“[]”中。 列数据类型在列名称后使用“->”指定。
JSON表中有破损数据导致Hive查询异常 用户问题 在Hive客户端查询JSON数据,JSON表中有破损数据导致查询异常: 在Hive客户端上使用默认开源的JSON序列化建表语句创建表: create external table if not exists test ( name