检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入,log读取时需要按主键合并,并且是行存的,导致log读取效率比parquet低很多。为了解决log读取的性能问题,Hudi通过compaction将log压缩成parquet文件,大幅提升读取性能。 规则
使用CDM服务迁移数据至MRS HDFS时任务运行失败 用户问题 使用CDM从旧的集群迁移数据至新集群的HDFS过程失败。 问题现象 使用CDM从源HDFS导入目的端HDFS,发现目的端MRS集群故障,NameNode无法启动。 查看日志发现在启动过程中存在“Java heap
Flink应用开发常用概念 DataStream 数据流,是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入,可以通过socket、Kafka和文件等形式导入,在Flink系统处理后,通过Socket、Kafka和文件等输出到外部系统,这是Flink的核心概念。 Data
SHOW_COMMIT_FILES 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 查看指定的instant一共更新或者插入了多个文件。 命令格式 call show_commit_files(table=>'[table]', instant_time=>'[instant_time]'
Flume客户端安装失败 问题现象 安装Flume客户端失败,提示JAVA_HOME is null或flume has been installed。 CST 2016-08-31 17:02:51 [flume-client install]: JAVA_HOME is null
Hue中的输入框输入中文会出现混乱 用户问题 Hue中的输入框输入中文会出现混乱。 问题现象 Hue的输入框中输入中文时,会出现混乱,第一次输入不了的情况,也即输入的中文会首先出现英文,中文并未输入,再次输入会带上之前的内容,示例如下: 原因分析 Hue对中文的处理存在混乱的情况,需要进行修正。
同步Hive表配置 参数 描述 默认值 hoodie.datasource.hive_sync.enable 是否同步hudi表信息到hive metastore。 注意: 建议该值设置为true,统一使用hive管理hudi表。 false hoodie.datasource.hive_sync
SHOW_FS_PATH_DETAIL 本章节仅适用于MRS 3.3.0及之后版本。 命令功能 查看指定的FS路径的统计数据 命令格式 call show_fs_path_detail(path=>'[path]', is_sub=>'[is_sub]', sort=>'[sort]');
使用curl命令操作OpenTSDB 写入数据 例如,录入一个指标名称为testdata,时间戳为1524900185,值为true,标签为key,value的指标数据。 curl -ki -X POST -d '{"metric":"testdata", "timestamp":1524900185
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
Flink on Hudi作业参数规则 Flink作业参数配置规范 Flink作业参数配置规范如下表所示。 表1 Flink作业参数配置规范 参数名称 是否必填 参数描述 建议值 -c 必填 指定主类名。 根据实际情况而定 -ynm 必填 Flink Yarn作业名称。 根据实际情况而定
调整Hive元数据超时 大分区表包含过多分区,导致任务超时,同时大量分区可能需要更多时间来加载与元存储缓存同步。因此,为了在更大规模存储中获得更好的性能,建议相应地调整加载元数据缓存最大超时时间和加载元数据连接池最大等待时间。 使用HetuEngine管理员用户登录FusionInsight
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
MapReduce基本原理 如需使用MapReduce,请确保MRS集群内已安装Hadoop服务。 MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”及其主要思想,均取自于函数式编程语言及矢量编程语言。
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
SparkSQL访问Hive分区表启动Job前耗时较长如何处理? 问题背景 使用SparkSql访问Hive的一个数据存放于OBS的一个分区表,但是运行速度却很慢,并且会大量调用OBS的查询接口。 SQL样例: select a,b,c from test where b=xxx
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
导入并配置Flink样例工程 操作场景 Flink针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Flink工程。 针对Java和Scala不同语言的工程,其导入方式相同。 以下操作步骤以导入Java样例代码为例。操作流程如图1所示。 图1 导入样例工程流程
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。
扩容ClickHouse节点磁盘 随着业务量的增长,ClickHouse节点数据盘的磁盘容量已不能满足业务需求,需要扩容数据盘磁盘容量。 如果购买MRS集群的计费模式为按需计费,扩容磁盘容量后MRS集群不支持转包周期。 前提条件 ClickHouse集群和实例状态正常。 已评估好