检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark Shell创建Hudi表 操作场景 本指南通过使用spark-shell简要介绍了Hudi功能。使用Spark数据源,将通过代码段展示如何插入和更新Hudi的默认存储类型数据集: COW表。每次写操作之后,还将展示如何读取快照和增量数据。 前提条件 在Manage
只查询需要的字段可以减少磁盘io和网络io,提升查询性能。 使用uniqCombined替代distinct uniqCombined对去重逻辑进行了优化,通过近似去重提升十倍查询性能,如果对查询允许有误差,可以使用uniqCombined替代,否则还继续使用distinct语法。 降低对表的修改频次
java”工程,单击运行对应的应用程序工程。或者右键工程,选择“Run MultiComponentLocalRunner.main()”运行应用工程。 如果集群开启了ZooKeeper SSL,则运行该样例前,需要检查配置文件mapred-site.xml(准备运行环境配置文件中样例工程的“conf”配置
准备HBase应用开发和运行环境 准备开发环境 在进行二次开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
sec. host1 :) kafka_skip_broken_messages (可选)表示忽略解析异常的Kafka数据的条数。如果出现了N条异常后,后台线程结束,Materialized View会被重新安排后台线程去监测数据。 kafka_num_consumers (可选)单个Kafka
ClickHouse用户及权限管理 用户权限模型 ClickHouse用户权限管理实现了对集群中各个ClickHouse实例上用户、角色、权限的统一管理。通过Manager UI的权限管理模块进行创建用户、创建角色、绑定ClickHouse访问权限配置等操作,通过用户绑定角色的方式,实现用户权限控制。
1008/21009端口。 如果配置了SASL,则必须配置sasl.kerberos.service.name为kafka,并在conf/flink-conf.yaml中配置security.kerberos.login相关配置项。 如果配置了SSL,则必须配置ssl.truststore
典型场景:从HDFS/OBS导入数据到HBase 操作场景 该任务指导用户使用Loader将文件从HDFS/OBS导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户已授权
使用Loader从HDFS/OBS导入数据到HBase 操作场景 该任务指导用户使用Loader将文件从HDFS/OBS导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 确保用户
此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。 HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。 图1 FineBI访问MRS HetuEngine 约束与限制 已安装FineBI 5.1
HBase过载调优 操作场景 当HBase业务突然出现峰值,短时间内大量请求发送到一个RegionServer/HMaster时,超过其可接受的范围,就会造成过载。过载会导致应用侧读写性能下降,HBase服务侧频繁GC,严重时会导致服务实例重启等。 当前HBase具有防过载能力,
使用Hive CBO功能优化查询效率 操作场景 在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。
安装失败。 新特性 支持在Hue WebUI中使用HetuEngine SQL编辑器。 运维巡检工具查询优化。 Flink流读Hudi新增了对消息滞留时间和消息堆积时间的监控。 解决的问题 MRS 3.2.0-LTS.1.5修复问题列表: 解决Spark-JDBC偶现多租户模式下
sec. host1 :) kafka_skip_broken_messages (可选)表示忽略解析异常的Kafka数据的条数。如果出现了N条异常后,后台线程结束,Materialized View会被重新安排后台线程去监测数据。 kafka_num_consumers (可选)单个Kafka
版本元数据详情。(该样例省略了部分内容,详细返回请调用接口查看) { "other" : { }, "name" : "MRS 3.1.0", "template_type" : "clusterFusion", "image_id" : "ECS:X86:deda7c
混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提供丰富的组件搭配,可自行选择对应版本MRS集群所支持的所有组件。 自定义 版本类型 MRS提供了LTS版与普通版两种类型的集群,不同版本提供的组件有所不同,可根据需要选择版本类型。 LTS版:集群提供更强的高可靠和容灾能力,融入了MRS服务自研组件,提供长期的支持和演进。
样例工程获取地址参见获取MRS应用开发样例工程,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 MRS样例代码库提供了各组件的基本功能样例工程供用户使用,当前版本各组件提供的样例工程汇总参见表1。 表1 各组件样例工程汇总(2.x版本) 组件 样例工程位置 描述
Hudi表模型设计规范 规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力,该能力要求Hudi表必须设置主键,主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键,两种主键类型均要求主键不能有null值和空值,可以参考以下示例设置主键: SparkSQL:
理原始源记录以便于进一步的数据提取。该选项的目的只是让用户知道哪些记录被视为Bad Records。 MAXCOLUMNS:该可选参数指定了在一行中,由CSV解析器解析的最大列数。 OPTIONS('MAXCOLUMNS'='400') 表3 MAXCOLUMNS 可选参数名称 默认值
混合集群:既可以用来做离线数据分析,也可以用来做流处理任务的集群。 自定义:提供丰富的组件搭配,可自行选择对应版本MRS集群所支持的所有组件。 自定义 版本类型 MRS提供了LTS版与普通版两种类型的集群,不同版本提供的组件有所不同,可根据需要选择版本类型。 LTS版:集群提供更强的高可靠和容灾能力,融入了MRS服务自研组件,提供长期的支持和演进。