检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据迁移方案介绍 准备工作 元数据导出 数据复制 数据恢复 父主题: 数据迁移
supervisor.worker.timeout.secs这两个参数则分别代表nimbus端和supervisor端对于拓扑运行过程中心跳上报的超时容忍时间,一般nimbus.task.timeout.secs的值要大于等于supervisor.worker.timeout.secs的值(建议相等或略大),原理同上
数据恢复原理介绍 Doris数据恢复操作需指定一个远端仓库中已存在的备份数据,再将备份数据恢复到本地集群中。当提交Restore请求后,系统内部会做如下操作: 在本地创建对应的元数据 系统会在本地集群中创建恢复对应的表分区等结构。创建完成后,该表可见,但是不可访问。
数据备份原理介绍 备份操作是将指定表或分区的数据,直接以Doris存储的文件的形式,上传到远端仓库中进行存储。当用户提交Backup请求后,系统内部会做如下操作: 快照及快照上传 备份都是对快照进行操作,快照阶段会对指定的表或分区数据文件进行快照。
配置华为镜像站中SDK的Maven镜像仓库,请参见配置华为开源镜像仓。 根据用户自身需求,构建完整的Maven工程并进行编译开发。
原理:每次poll的数据处理完后才提交offset,如果poll数据后的处理时长超出了session.timeout.ms的设置时长,此时发生rebalance导致本次消费失败,已经消费数据的offset无法正常提交,所以下次重新消费时还是在旧的offset消费数据,从而导致消费数据重复
图1 Kerberos原理架构 表1 Kerberos模块说明 模块 说明 Application Client 应用客户端,通常是需要提交任务(或者作业)的应用程序。 Application Server 应用服务端,通常是应用客户端需要访问的应用程序。
在调度原理上,开源的调度器都是基于计算节点心跳驱动的资源反向匹配作业的调度机制。具体来讲,每个计算节点定期发送心跳到YARN的Resource Manager通知该节点状态并同时启动调度器为这个节点分配作业。
图1 冷热存储原理图 表1 模块说明 参数 描述 Volume 卷,有序的磁盘的集合。 Storage Policy 存储策略,卷的集合以及卷之间数据移动的规则。 创建OBS并行文件系统 登录云服务管理控制台。 选择“存储 > 对象存储服务”,进入对象存储服务界面。
浏览器:下载到本地电脑。 远端节点:下载到主OMS节点外的其他节点上。 根据界面提示配置“保存到如下路径”参数。如果下载位置选择“浏览器”则无需配置该参数。 如果选择下载到“远端节点”还需参考表1进行配置。
实现方案 多主实例模式的HA方案原理如下图所示。 图1 Spark JDBCServer HA JDBCServer在启动时,向ZooKeeper注册自身消息,在指定目录中写入节点,节点包含了该实例对应的IP,端口,版本号和序列号等信息(多节点信息之间以逗号隔开)。
实现方案 多租户模式的HA方案原理如图1所示。 图1 Spark JDBCServer多租户 ProxyServer在启动时,向ZooKeeper注册自身消息,在指定目录中写入节点信息,节点信息包含了该实例对应的IP,端口,版本号和序列号等信息(多节点信息之间以逗号隔开)。
原理图如下: HBase开源增强特性:Phoenix CsvBulkLoad工具导入支持用户自定义分隔符 该内容适用于MRS 3.2.0及之后版本。
图1 Job Pipeline流图 Job Pipeline原理介绍 图2 Job Pipeline NettySink和NettySource Pipeline中上下游Job是直接通过Netty进行通信,上游Job的Sink算子作为Server,下游Job的Source算子作为Client
集群创建类 如何使用自定义安全组创建MRS集群? 购买MRS集群时找不到HDFS、Yarn、MapReduce组件如何处理? 购买MRS集群时,找不到ZooKeeper组件如何处理? 购买MRS集群提交订单时报无效认证如何处理?
本实践基于华为云MapReduce服务,用于指导您创建MRS集群后,使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的存算分离大数据分析。
原理类似于“使用mapPartitions替代map”,也是一次函数调用处理一个partition的所有数据,而不是一次函数调用处理一条数 据。在实践中发现,foreachPartitions类的算子,对性能的提升还是很有帮助的。
在Windows的远程桌面中,打开浏览器访问Manager。 Manager访问地址为“集群管理页面”地址。访问时需要输入集群的用户名和密码,例如“admin”用户。 如果使用其他集群用户访问Manager,第一次访问时需要修改密码。新密码需要满足集群当前的用户密码复杂度策略。
参考信息 相关参数获取方法如下: MRS 2.x及以前版本: 当前慢盘故障告警的检查原理为: 在Linux平台上判断IO是否存在问题,输入命令iostat -x -t 1,观察svctm的值(如图所示红色框中的部分)。 svctm值表示该磁盘IO服务时间。
MRS支持华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,使用华为自研的操作系统EulerOS、华为JDK及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出。在性能相当情况下,端到端的大数据解决方案成本下降30%。