检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HetuEngine基本原理 HetuEngine简介 HetuEngine是自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine结构 HetuEn
Repartition时有部分Partition没数据 问题 在repartition操作时,分块数“spark.sql.shuffle.partitions”设置为4500,repartition用到的key列中有超过4000个的不同key值。期望不同key对应的数据能分到不同
Compaction 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 对Hudi表进行compaction操作,具体作用可以参考Hudi Compaction操作说明章节。 命令格式 call run_compaction(op => '[op]', table=>'[table]'
如何修改ClickHouse服务时区? 问题现象 用户插入数据到ClickHouse时发现时区不对,差了八小时。 原因分析 Clickhouse时区默认设置为Europe/Moscow,需要修改为当地时区。 解决步骤 登录FusionInsight Manager页面,选择“集群
Hue开源增强特性 Hue开源增强特性 存储策略定义。HDFS文件存储在多种等级的存储介质中,有不同的副本数。本特性可以手工设置HDFS目录的存储策略,或者根据HDSF文件最近访问时间和最近修改时间,自动调整文件存储策略、修改文件副本数、移动文件所在目录、自动删除文件,以便充分利用存储的性能和容量。
DESCRIBE INPUT 语法 DESCRIBE INPUT statement_name 描述 列举预编译语句(prepared statement)的输入参数,以及参数位置,每个输入参数的类型。对于未确定的参数类型,会显示为unknown。 示例 准备一个预编译的语句,且
SYNC_HIVE 本章节仅适用于MRS 3.5.0-LTS及之后版本。 命令功能 同步Hudi表(存储层中的Hudi数据目录)到Hive。 命令格式 call sync_hive(table => '[table]', tablePath => '[tablePath]') 参数描述
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
写入更新数据时报错 Parquet/Avro schema 问题 数据写入时报错: org.apache.parquet.io.InvalidRecordException: Parquet/Avro schema mismatch: Avro field 'col1' not found
新建Spark应用开发工程(可选) 操作场景 除了导入Spark样例工程,您还可以使用IDEA新建一个Spark工程。如下步骤以创建一个Scala工程为例进行说明。 操作步骤 打开IDEA工具,选择“Create New Project”。 图1 创建工程 在“New Proje
executor内存不足导致查询性能下降 现象描述 在不同的查询周期内运行查询功能,查询性能会有起伏。 可能原因 在处理数据加载时,为每个executor程序实例配置的内存不足,可能会产生更多的Java GC(垃圾收集)。当GC发生时,会发现查询性能下降。 定位思路 在Spark
实时OLAP数据分析 实时OLAP场景介绍 离线数据加载:通过CDM将Hive外表数据迁移到Doris 离线数据加载:通过Doris Catalog读取Hive外表数据并写入Doris 离线数据加载:通过Doris Catalog读取RDS-MySQL数据并写入Doris 离线数
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 问题 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 回答 Spark SQL对
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
HDFS样例程序开发思路 场景说明 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件夹、写文件、追加文件内容、读文件和删除文件/文件夹;HDFS还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为: HDFS初始化
如何在导入Hive表时指定输出的文件压缩格式? 问题现象 如何在导入Hive表时指定输出的文件压缩格式? 处理步骤 当前Hive支持以下几种压缩格式: org.apache.hadoop.io.compress.BZip2Codec org.apache.hadoop.io.compress
配置Yarn数据访问通道协议 配置场景 服务端配置了web访问为https通道,如果客户端没有配置,默认使用http访问,客户端和服务端的配置不同,就会导致访问结果显示乱码。在客户端和服务端配置相同的“yarn.http.policy”参数,可以防止客户端访问结果显示乱码。 操作步骤
配置Spark Executor堆内存参数 配置场景 当分配的内存太小或者被更高优先级的进程抢占资源时,会出现物理内存超限的情况。调整如下参数,可以防止物理内存超限。 配置描述 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults
如何查看MRS集群配置信息? 集群创建完成后在MRS控制台单击集群名称进入集群基本信息页面,可以查看到集群的基本配置信息,包括集群的名称、ID、付费类型、工作地域、创建时间、Hadoop组件版本及节点的实例规格、容量。 节点的实例规格和容量决定了该集群对数据的分析处理能力。 节点