检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息
升级Master节点规格 MRS大数据集群采用Manager实现集群的管理,而管理集群的相关服务,如HDFS存储系统的NameNode,Yarn资源管理的ResourceManager,以及MRS的Manager管理服务都部署在集群的Master节点上。 随着新业务的上线,集群规
gine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临数据源种类繁多、数据集结构化混合、相关数据存放分散等困境,导致跨源查询开发成本高,跨源复杂查询耗时长。 HetuEngine提供了统一标准SQL实现跨源协同分析,简化跨源分析操作。
跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨源查询时,只能对简单的filter进行
过程。 场景说明 一个动态单词统计系统,数据源为持续生产随机文本的逻辑单元,业务处理流程如下: 数据源持续不断地发送随机文本给文本拆分逻辑,如“apple orange apple”。 单词拆分逻辑将数据源发送的每条文本按空格进行拆分,如“apple”,“orange”,“app
过程。 场景说明 一个动态单词统计系统,数据源为持续生产随机文本的逻辑单元,业务处理流程如下: 数据源持续不断地发送随机文本给文本拆分逻辑,如“apple orange apple”。 单词拆分逻辑将数据源发送的每条文本按空格进行拆分,如“apple”,“orange”,“app
过程。 场景说明 一个动态单词统计系统,数据源为持续生产随机文本的逻辑单元,业务处理流程如下: 数据源持续不断地发送随机文本给文本拆分逻辑,如“apple orange apple”。 单词拆分逻辑将数据源发送的每条文本按空格进行拆分,如“apple”,“orange”,“app
本指导中导出的Hive表元数据即存储在关系型数据库中的Hive表的描述信息。 业界主流大数据发行版均支持Sqoop的安装,如果是自建的社区版大数据集群,可下载社区版Sqoop进行安装。借助Sqoop来解耦导出的元数据与关系型数据库的强依赖,将Hive元数据导出到HDFS上,与表数据一同迁移后进行恢复。
Spark跨源复杂数据的SQL查询优化 场景描述 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨源查询时,只能对简单的filter进行
> hive > default > 视图”,在右侧“新建数据集”选择“SQL数据集”。 在“数据源”处选择新建的数据集,显示所有表信息,选中其中一个表,如“test”表,单击“刷新数据”,可在右侧“数据详情”中显示表的所有信息。 父主题: 生态组件对接
关联,可以让拥有大量云资源的用户,通过给云资源打标签,快速查找具有同一标签属性的云资源,进行统一检视、修改、删除等管理操作,方便用户对大数据集群及其他相关云资源的统一管理。 您可以在创建集群时添加标签,也可以在集群创建完成后,在集群的详情页添加标签,您最多可以给集群添加10个标签。
任务名称,即可打开远程连接。 图2 单击“Session” 单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 本地使用Linux操作系统 如果您本地使用Linux操作系统登录L
标数据库。 在文本编辑框输入Hive HQL语句,单击或者按“Ctrl+Enter”,运行HQL语句,执行结果将在“结果”页签显示。 分析HQL语句 在左侧选中目标数据库,在文本编辑框输入Hive HQL语句,单击编译HQL语句并显示语句是否正确,执行结果将在文本编辑框下方显示。
Yarn节点配置调优 操作场景 合理配置大数据集群的调度器后,还可通过调节每个节点的可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 若您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。
显示“Select Root Folder”对话框。 选择样例工程文件夹alluxio-examples,单击“确定”按钮。 在“Import Maven Projects”窗口单击“Finish”按钮。 设置Eclipse的文本文件编码格式,解决乱码显示问题。 在Eclipse的菜单栏中,选择“Window
集群在线扩缩容 大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行
MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。 弹性云服务器由多个租户共享物理资源,而裸金属服务器的资源归用户独享。对于关键类应用或性能要求较高的业务(如大数据集群、企业中间件系统),并且要求安全可靠的运行环境,使用裸金属服务器更合适。 当使用BMS类型的规格时,不支持升级Master节点规格。 仅
”,然后输入新定义的分隔符。 在“Collection terminator”设置一个分隔符,用于分隔Hive中类型为“array”的列的数据集合。例如一个列为array类型,其中一个值需要保存“employee”和“manager”,用户指定分隔符为“:”,则最终的值为“employee:manager”。
Mode方式的不同之处是不更新的结果集不会写入外部存储。 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从
显示“Select Root Folder”对话框。 选择样例工程文件夹mapreduce-examples,单击“确定”按钮。 在“Import Maven Projects”窗口单击“Finish”按钮。 设置Eclipse的文本文件编码格式,解决乱码显示问题。 在Eclipse的菜单栏中,选择“Window