检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建Hive用户自定义函数 当Hive的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF分如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。 用户定义聚集函数UDAF(User-Defined
视频介绍 配置MRS集群弹性伸缩操作案例可参考配置MRS集群弹性伸缩操作视频,该视频以MRS 3.1.0版本集群为例,介绍如何在购买集群时配置弹性伸缩、如何为已有集群新增弹性伸缩策略。 因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。 添加Task节点 MRS
磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。 Zookeeper异常导致merge无法正常执行。 登录
调整HetuEngine动态过滤 HetuEngine提供了动态过滤的功能,在Join场景中开启动态过滤往往有较大的性能提升。本章节介绍如何开启动态过滤功能。 使用可访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群 > 服务
2.0-LTS.1.7补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.2.0-LTS.1.7 发布时间 2024-02-21 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.2.0-LTS.1.7修复问题列表:
加载Hive数据 功能介绍 本小节介绍了如何使用HQL向已有的表employees_info中加载数据。从本节中可以掌握如何从集群中加载数据。 样例代码 -- 从本地文件系统/opt/hive_examples_data/目录下将employee_info.txt加载进employees_info表中
加载数据到Hive表中 功能介绍 本小节介绍了如何使用HQL向已有的表employees_info中加载数据。从本节中可以掌握如何从本地文件系统、MRS集群中加载数据。以关键字LOCAL区分数据源是否来自本地。 样例代码 -- 从本地文件系统/opt/hive_examples_
FlinkServer作业重启策略介绍 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。如果不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考如何创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。 重启
a/dbservice/DB/gs_ctl-current.log,报如下错误。 检查发现/tmp权限不正确,正确的权限应该为777。 解决办法 修改/tmp权限为777。 重新启动DBService组件。 父主题: 使用DBservice
本指南通过使用spark-shell简要介绍了Hudi功能。使用Spark数据源,将通过代码段展示如何插入和更新Hudi的默认存储类型数据集: COW表。每次写操作之后,还将展示如何读取快照和增量数据。 前提条件 在Manager界面创建用户并添加hadoop和hive用户组,主组加入hadoop。
client命令连接,host参数为ELB的私有IP地址。 HTTP 8123 发送http请求到ELB连接ClickHouse场景时配置。 本章节演示如何实现客户端通过ELB访问ClickHouse。具体操作分为以下几个步骤: 步骤一:购买ELB并获取其私有IP地址。 步骤二:添加ELB监听器,配置协议端口。
essCheck.log”,可以看到gaussdb异常。 图1 gaussdb异常 检查发现“/tmp”权限不对。 图2 /tmp权限 解决办法 修改/tmp的权限。 chmod 1777 /tmp 等待实例状态恢复。 父主题: 使用DBservice
定调优目标,调优达到客户所需目标即可。 ClickHouse调优人员需要系统软件架构、软硬件配置、数据库架构原理及配置参数、并发控制、查询处理和数据库应用有广泛而深刻的理解和认识,才能在调优过程中找到关键瓶颈点,解决性能问题。 图1 调优流程 表1 调优流程说明 流程 描述 系统调优
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展
Kafka是一个分布式的消息发布-订阅系统。 它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展
对应大数据组件MRS-Kafka。 实时流处理引擎:从Kafka实时读取数据并进行复杂的实时计算,将结果送到下游,可以实现毫秒级的实时流式处理,对应大数据组件MRS-FlinkSQL。 离线数据湖:针对业务系统的离线数据进行统一归集和处理,进行贴源数据加工。 OLAP实时分析:D
关闭待退订节点集群的自动续费功能,具体请参见如何取消自动续费。 登录MRS服务控制台。 选择“现有集群”,单击待退订节点的集群名称进入集群详情页面。 在集群“概览”页单击“IAM用户同步”右侧的“同步”。 退服或者隔离节点。 目前仅以下版本集群支持退订包周期集群指定节点,其他版本集群请联系技术支持处理。 MRS 2
I/O负载的节点顺序调整至后面。 HDFS开源增强特性:HDFS冷热数据迁移 Hadoop历来主要被用于批量处理大规模的数据。相比处理低时延,批处理应用更关注原始数据处理的吞吐量,因此,目前已有的HDFS模型都运作良好。 然而,随着技术的发展,Hadoop逐渐被用于以随机I/O访
在调测程序之前,需要提前准备将待处理的数据。 运行MapReduce统计样例程序,请参考规划MapReduce统计样例程序数据。 运行MapReduce访问多组件样例程序,请参考规划MapReduce访问多组件样例程序数据。 规划MapReduce统计样例程序数据 将待处理的日志文件放置在HDFS系统中。