检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS是企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据的分析挖掘,发现全新价值点和企业商机。 MRS提供了各组件的常见业务场景样例程序,开发者用户可基于样例工程进行相关数据应用的开发与编译,样例工程依赖的jar包直接通过华为云开源镜像
产品咨询类 MRS可以做什么? MRS支持什么类型的分布式存储? 什么是区域和可用区? MRS是否支持更换网段? MRS集群内节点是否支持降配操作? 不同版本的Hive之间是否可以兼容? 数据存储在OBS和HDFS有什么区别? 10亿级数据量场景的解决方案有哪些? zstd压缩算法有什么优势?
不同版本计费差异 普通版和LTS版由于功能不一致,计费存在一定差异,详情请查看计费说明,您也可以通过MRS提供的价格计算器,选择您需要的集群版本、节点规格,快速计算出购买MRS集群的参考价格。
Manager的用户名和密码。从HDFS导出目录时,如果需要创建快照,这里配置的用户需要HDFS系统的管理员权限。 如果要创建MRS安全集群的数据连接,不能使用admin用户。因为admin用户是默认的管理页面用户,这个用户无法作为安全集群的认证用户来使用。您可以创建一个新的MRS用户
对于SQL当前不能手动指定每个Task的并行度,指定的是所有Task统一的并行度。 推荐Source的并行度由上游组件推断设置,对于流系统,与上游的分区数相同(例如Kafka的Topic分区数);对于批系统,与上游的切片数相同(例如HDFS的block数量)。 Flink作业中有
创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要
指定导出数据的分隔符,与需要导出的HDFS中的数据表中的分隔符保持一致。 -m或-num-mappers <n> 启动n个map来并行导入数据,默认是4个,该值请勿高于集群的最大Map数。 -direct 快速模式,利用了数据库的导入工具,如MySQL的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。
名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定Yarn队列功能,该用户需要已授权有相关Yarn队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 是否第一次从MRS导入数据到关系型数据库?
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 更新管理 安全加固 MRS集群保留JDK说明
为MRS集群配置OBS访问权限的委托,实现使用ECS自动获取的临时AK/SK访问OBS。避免了AK/SK直接暴露在配置文件中的风险。 在IAM中创建一个只允许访问某一OBS桶中的日志文件的策略,并创建一个绑定该策略权限的委托。 在MRS集群中,新建的委托与MRS集群中的用户组A进行绑定,即
子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定Yarn队列功能,该用户需要已授权有相关Yarn队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 是否第一次从Loader导出数据到关系型数据库? 是,执行2。
分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表中,这一过程称为分区数据解冻。 一个分区从
MRS管理控制台:用户可以通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、文件管理、作业管理等操作。 MRS集群Manager:Manager是MRS的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 MRS管理控制台与MRS集群Manager页面的区别和联系请参考表1。
需要准备一个用于备份数据的备集群,且网络连通。每个集群的安全组,需分别添加对端集群的安全组入方向规则,允许安全组中所有弹性云服务器全部协议全部端口的访问请求。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 备份Manager数据
NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败并发生如下错误信息。 回答 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败,MD5文件会损坏。通过移除损坏的fsimage,然后启动Standby
计费模式 选择待创建的MRS集群的计费模式。 按需计费 区域 选择区域。 不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。 华北-北京四 集群名称 待创建的MRS集群名称。 MRS_demo 集群类型 待创建的MRS集群类型。 选择“自定义”
enabled为true时,是否压缩记录的事件。 false EventLog的周期清理 JobHistory上的Event log是随每次任务的提交而累积的,任务提交的次数多了之后会造成太多文件的存放。Spark提供了周期清理Evnet log的功能,用户可以通过配置开关和相应的清理周期参数来进行控制。
Hive元数据存放在外部的关系型数据库存储时,请通过如下步骤获取信息: 集群详情页的“数据连接”右侧单击“单击管理”。 在弹出页面中查看“数据连接ID”。 在MRS控制台,单击“数据连接”。 在数据连接列表中根据集群所关联的数据连接ID查找对应数据连接。 在对应数据连接的“操作”列单击“
API通过JDBC驱动程序与数据库交互。对于其他数据库(NoSQL),使用专有数据库驱动程序。 本章节以DBeaver 7.2.0版本为例,讲解如何使用DBeaver访问MRS HetuEngine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据
数据迁移到MRS前信息收集 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取)、分析平台数据流向。