检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本实践基于华为云MapReduce服务,用于指导您创建MRS集群后,使用Hive对原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的离线大数据分析。 方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive
发工程,本章节对应示例场景的开发思路: 接收Kafka中数据,生成相应DStream。 对单词记录进行分类统计。 计算结果,并进行打印。 方案架构 Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。当前Spark支持两种数据处理方式:Direct
kLoad方式向HBase中批量导入本地数据,在首次数据加载时,能极大的提高写入效率,并降低对Region Server节点的写入压力。 方案架构 Bulkload是HBase提供的一个数据导入工具,它可以将数据批量地导入到HBase表中,直接写入底层数据文件和WAL日志,从而显著提升了数据加载的速度和效率。
Flink安全认证机制说明 Flink认证和加密 Flink集群中,各部件支持认证。 Flink集群内部各部件和外部部件之间,支持和外部部件如YARN、HDFS、ZooKeeprer进行kerberors认证。 Flink集群内部各部件之间,如Flink client和JobMa
Flink安全认证机制说明 Flink认证和加密 Flink集群中,各部件支持认证。 Flink集群内部各部件和外部部件之间,支持和外部部件如YARN、HDFS、ZooKeeprer进行Kerberors认证。 Flink集群内部各部件之间,如Flink client和JobMa
、业务数据迁移到新建集群中。 迁移方案原理介绍 Replicated*MergeTree引擎的复制表迁移: ClickHouse利用ZooKeeper将同一分片下不同副本的Replicated*MergeTree引擎表数据自动进行同步,本迁移方案利用该特性进行数据迁移。大致逻辑步骤如下:
2x的JobHistory时,由于使用了SSL安全加密,需要确保curl命令所支持的SSL协议在集群中已添加支持。若不支持,可采用如下两种方案解决: 修改集群中配置的SSL协议。例如,若curl仅支持TLSv1协议(TLSv1协议存在安全漏洞,请谨慎使用),修改方法如下: 登录FusionInsight
安全加固 加固Tomcat 在FusionInsight Manager使用过程中,针对Tomcat基于开源做了如下功能增强: 升级Tomcat版本为官方稳定版本。 设置应用程序之下的目录权限为500,对部分目录支持写权限。 系统软件安装完成后自动清除Tomcat安装包。 应用程
例的资源,也能通过资源组之间的权重优先级配置保障重要任务优先执行。典型资源组使用场景如表1所示。 表1 典型资源组使用场景 典型场景 解决方案 随着使用计算实例的业务团队的增加,当某个团队的任务更加重要并且不想执行查询时没有资源。 每个团队分配一个指定的资源组;重要任务分配到资源
MRS集群加固策略说明 加固Tomcat 在FusionInsight Manager软件安装及使用过程中,针对Tomcat基于开源做了如下功能增强: 升级Tomcat版本为官方稳定版本。 设置应用程序之下的目录权限为500,对部分目录支持写权限。 系统软件安装完成后自动清除Tomcat安装包。
中的第一列不是col1。 现在最适合使用索引的方法是,当有多个候选索引时,需要从可能的候选索引中选择最适合scan数据的索引。 可借助以下方案来了解如何选择索引策略: 可以完全匹配。 场景:有两个索引可用,一个用于col1&col2,另一个单独用于col1。 在上面的场景中,第二
中的第一列不是col1。 现在最适合使用索引的方法是,当有多个候选索引时,需要从可能的候选索引中选择最适合scan数据的索引。 可借助以下方案来了解如何选择索引策略: 可以完全匹配。 场景:有两个索引可用,一个用于col1&col2,另一个单独用于col1。 在上面的场景中,第二
如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。
MRS集群Kerberos认证介绍 Hadoop社区版本提供两种认证方式Kerberos认证(安全模式)和Simple认证(普通模式),在创建集群时,MRS支持配置是否启用Kerberos认证,集群创建完成后不支持修改。 安全模式(启用Kerberos认证) 安全模式的MRS集群
并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 对此,MRS企业级大数据集群提供了完整的企业级大数据多租户解决方案。 MRS多租户介绍: MRS集群拥有的不同资源和服务支持多个组织、部门或应用共享使用。集群提供了一个逻辑实体来统一使用不同资源和服务,这
KrbServer及LdapServer基本原理 KrbServer及LdapServer简介 为了管理集群中数据与资源的访问控制权限,推荐安装安全模式集群。在安全模式下,客户端应用程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。MRS通过KrbServer为
二进制函数和运算符 二进制运算符 || 运算符执行连接。 二进制函数 length(binary) → bigint 返回binary的字节长度。 select length(x'00141f');-- 3 concat(binary1, ..., binaryN) → varbinary
Principal用户是否只登录一次。true为单次登录;false为多次登录。 单次登录与多次登录的区别在于:Spark社区使用多次Kerberos用户登录多次的方案,但容易出现TGT过期或者Token过期异常导致应用无法长时间运行。DataSight修改了Kerberos登录方式,只允许用户登录一次,
警不再上报。 MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标,相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考。 方案架构 Manager的整体逻辑架构如图1所示。 图1 Manager逻辑架构 Manager由OMS和OMA组成: OMS:操作维护系统的管理节点,OMS一般有两个,互为主备。
Principal用户是否只登录一次。true为单次登录;false为多次登录。 单次登录与多次登录的区别在于:Spark社区使用多次Kerberos用户登录多次的方案,但容易出现TGT过期或者Token过期异常导致应用无法长时间运行。DataSight修改了Kerberos登录方式,只允许用户登录一次,