检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Guardian日志介绍 日志描述 日志路径:Guardian相关日志的存储路径为:“/var/log/Bigdata/guardian/token-server”。 日志归档规则:Guardian的运行日志启动了自动压缩归档功能,当日志大小超过50MB的时候(此日志文件大小可进
ClickHouse数据批量导入 本章节适用于MRS 3.3.0及之后版本。 操作场景 当同时存在较多待导入的数据文件,用户可以使用多线程导入工具批量导入ClickHouse。 前提条件 已安装ClickHouse客户端,例如客户端安装目录为“/opt/client”。 如果集群
ClickHouse本地表设计 规则 单表(分布式表)的记录数不要超过万亿,对于万亿以上表的查询,性能较差,且集群维护难度变大。单表(本地表)不超过百亿。 表的设计都要考虑到数据的生命周期管理,需要进行TTL表属性设置或定期老化清理表分区数据。 单表的字段建议不要超过5000列。
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
Flume业务模型配置说明 业务模型配置指导 本章节适用于MRS 3.x及之后版本。 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。
生成HA证书时报错“symbol xxx not defined in file libcrypto.so.1.1” 用户问题 更换HA证书时,执行sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca
物联网时序数据分析场景介绍 在物联网场景中,海量设备采集的数据需要进行低延迟的高效接入、存储和分析,数据具有高度的时间属性相关特点,传统数据库基于二维表的数据模型,无法满足物联网场景下高效的时序数据存储和分析需求。时序数据库则是专门针对物联网时序数据场景设计的存算引擎,数据按设备
写入操作配置 本章节介绍Hudi重要配置的详细信息,更多配置请参考hudi官网:http://hudi.apache.org/cn/docs/configurations.html。 表1 写入操作重要配置项 参数 描述 默认值 hoodie.datasource.write.table
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
HBase输入 概述 “HBase输入”算子,将HBase表的指定列转换成同等数量的输入字段。 输入与输出 输入:HBase表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通表)和phoenix表。
基于binlog的MySQL数据同步到MRS集群中 本章节为您介绍使用Maxwell同步工具将线下基于binlog的数据迁移到MRS Kafka集群中的指导。 Maxwell是一个开源程序(https://maxwells-daemon.io),通过读取MySQL的binlog日
安装MRS客户端 操作场景 该操作指导安装工程师安装MRS集群所有服务(不包含Flume)的客户端。Flume客户端安装请参见安装Flume客户端。 客户端可以安装集群内节点,也可以安装在集群外节点,本章节以安装目录“/opt/client”为例进行介绍,请以实际集群版本为准。 在集群外节点安装客户端前提条件
修改ClickHouse默认用户密码(MRS 3.3.0-LTS及之后版本) ClickHouse集群创建成功后,可以通过ClickHouse客户端访问连接ClickHouse服务端。 本章节指导用户创建ClickHouse集群(普通模式)后,设置ClickHouse的默认用户“
实时OLAP场景介绍 传统数据集市场景实时数据和离线数据分离,集市层指标通过预聚合进行定制化开发,时效性低,复杂性高,灵活性差。 基于Doris的实时OLAP场景离线和实时数据归一,无需离线预加工,基于海量明细数据直接进行多维秒级聚合/关联查询分析,具备实时、高效、灵活的特点。
Flink应用开发简介 组件介绍 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:
Flink应用开发简介 简介 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并
基于binlog的MySQL数据同步到MRS集群中 本章节为您介绍使用Maxwell同步工具将线下基于binlog的数据迁移到MRS Kafka集群中的指导。 Maxwell是一个开源程序(https://maxwells-daemon.io),通过读取MySQL的binlog日
Hive输出 概述 “Hive输出”算子,用于配置已生成的字段输出到Hive表的列。 输入与输出 输入:需要输出的字段 输出:Hive表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Hive文件存储格式 配置Hive表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。
Spark输出 概述 “Spark输出”算子,用于配置已生成的字段输出到SparkSQL表的列。 输入与输出 输入:需要输出的字段 输出:SparkSQL表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储
配置MRS集群告警屏蔽状态 配置告警屏蔽状态 如果如下特定场景中不希望看到FusionInsight Manager上报指定的告警,可以手动设置屏蔽。 使用过程中,不想关注某些不重要的告警,屏蔽次要告警。 第三方产品集成MRS集群时,部分告警与产品自身的告警信息重复,屏蔽重复告警。