检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
方案架构 HBase以表的形式存储数据,数据模型如图 HBase数据模型所示。表中的数据划分为多个Region,并由Master分配给对应的RegionServer进行管理。
HBase 快速使用Hive 快速使用kafka 快速使用Loader 快速使用Oozie 快速使用Presto 快速使用Ranger 快速使用Spark 快速使用Tez 快速使用HetuEngine 配置MRS集群存算分离 使用MRS访问OBS 常见问题 了解更多常见问题、案例和解决方案
在性能相当情况下,端到端的大数据解决方案成本下降30%。 MRS支持多种隔离模式及企业级的大数据多租户权限管理能力,安全性更高。
ZooKeeper中的用户详情: 在ZooKeeper中,不同的认证方案使用不同的凭证作为用户。 基于认证供应商的要求,任何参数都可以被认为是用户。 示例: SAMLAuthenticationProvider使用客户端主体作为用户。
方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。
单击“下一步”,在“选择权限范围方案”中选择“全局服务资源”,单击“确定”。 在弹出提示框中单击“知道了”,开始授权。界面提示“授权成功”,单击“完成”,委托创建成功。 在MRS控制台,选择“现有集群”,单击ClickHouse集群名称,进入集群详情页面。
例如对于一些对数据丢失不敏感的业务,可以在业务中不考虑数据丢失处理从而提高系统性能;而对于一些严格要求数据可靠性的业务,则需要使用精确一次的可靠性方案,以确保数据被处理且仅被处理一次。 容错 Storm是一个容错系统,提供较高可用性。
该方案简单易行,但是延迟一般大于100ms。 采用TCP直接相连的方式,算子在分布式环境下,可能会调度到任意节点,上下游之间无法感知其存在。 Job Pipeline流图结构 Pipeline是由Flink的多个Job通过TCP连接起来,上游Job可以直接向下游Job发送数据。
因为文件系统的存储空间足够,适合于大状态,长窗口,或大键值状态的有状态处理任务,也适合于高可用方案。
方案架构 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。
方案架构 Spark的应用运行架构如图1所示,运行流程如下所示: 应用程序(Application)是作为一个进程的集合运行在集群上的,由Driver进行协调。
方案架构 租户是MRS大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图1所示。 图1 以用户为核心的平台和以多租户为核心的平台 对于以用户为核心的大数据平台,用户直接访问并使用全部的资源和服务。
方案架构 Flume-NG由多个Agent来组成,而每个Agent由Source、Channel、Sink三个模块组成,其中Source负责接收数据,Channel负责数据的传输,Sink则负责数据向下一端的发送。
方案架构 生产者(Producer)将消息发布到Kafka主题(Topic)上,消费者(Consumer)订阅这些主题并消费这些消息。 在Kafka集群上一个服务器称为一个Broker。对于每一个主题,Kafka集群保留一个用于缩放、并行化和容错性的分区(Partition)。
方案架构 Spark的应用运行架构如图1所示,运行流程如下所示: 应用程序(Application)是作为一个进程的集合运行在集群上的,由Driver进行协调。
方案架构 Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。当前Spark支持两种数据处理方式:Direct Streaming和Receiver。
迁移方案原理介绍 Replicated*MergeTree引擎的复制表迁移: ClickHouse利用ZooKeeper将同一分片下不同副本的Replicated*MergeTree引擎表数据自动进行同步,本迁移方案利用该特性进行数据迁移。
方案架构 Bulkload是HBase提供的一个数据导入工具,它可以将数据批量地导入到HBase表中,直接写入底层数据文件和WAL日志,从而显著提升了数据加载的速度和效率。
若不支持,可采用如下两种方案解决: 修改集群中配置的SSL协议。
表1 典型资源组使用场景 典型场景 解决方案 随着使用计算实例的业务团队的增加,当某个团队的任务更加重要并且不想执行查询时没有资源。