检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS集群中默认安装了一个客户端用于作业提交,也可直接使用该客户端。MRS 3.x及之后版本客户端默认安装路径为Master节点上的“/opt/Bigdata/client”,MRS 3.x之前版本为Master节点上的“/opt/client”。 使用MRS集群客户端安装用户登录客户端所在的节点。 执行以下命令初始化环境变量。
GB数据需要写入到集群中,需要将30 GB数据均匀切分后分别放到shard-1、shard-2和shard-3的3个分片节点中,以充分发挥MPP查询时并行计算能力,避免数据在shard间倾斜计算出现木桶效应,导致SQL查询性能较差。 可通过弹性负载均衡(Elastic Load Balance,简称ELB)访问ClickHouse,来实现数据均匀。
应。 如果在某次提交(commit)之前,数据传输出现了失败,将会再次开始上一次Transactions,并将上次发送失败的数据重新传输。因为commit操作已经将Transactions写入了磁盘,那么在进程故障退出并恢复业务之后,仍然可以继续上次的Transactions。 父主题:
应用的开发编译操作可参考组件开发指南对应章节。 图1 MRS组件应用开发流程 表1 MRS组件应用开发流程说明 阶段 说明 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用IntelliJ IDEA工具,同时本地需完成JDK、Maven等初始配置。 准备连接集群配置文件
准备样例工程所需数据。 将场景说明中的原日志文件放置在HDFS系统中。 本地新建两个文本文件,分别将log1.txt及log2.txt中的内容复制保存到input_data1.txt和input_data2.txt。 在HDFS上建立一个文件夹“/tmp/input”,并上传input_data1
Manager,选择“集群 > 待操作集群的名称 > 服务 > Oozie ”,单击“oozie WebUI”后的超链接进入Oozie页面,在Oozie的WebUI上查看任务运行结果。 图1 任务运行结果 父主题: 使用Oozie客户端提交作业
应用的开发编译操作可参考组件开发指南对应章节。 图1 MRS组件应用开发流程 表1 MRS组件应用开发流程说明 阶段 说明 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用IntelliJ IDEA工具,同时本地需完成JDK、Maven等初始配置。 准备连接集群配置文件
Job被运行,而对应偏移量的数据在Kafka中已准备好。这些偏移量信息也被可靠地存储在checkpoint文件中,应用失败重启时可以直接读取偏移量信息。 图1 Direct Kafka接口数据传输 需要注意的是,Spark Streaming可以在失败后重新从Kafka中读取并处
TM的Slot数和TM的CPU数成倍数关系 在Flink中,每个Task被分解成SubTask,SubTask作为执行的线程单位运行在TM上,在不开启Slot Sharing Group的情况下,一个SubTask是部署在一个slot上的。即使开启了Slot Sharing Gr
spark-beeline在开启Kerberos认证的集群中提交作业的内置用户名为spark,在未开启Kerberos认证的集群中提交作业的内置用户名为omm。 hbase shell在开启Kerberos认证的集群提交作业的内置用户名为hbase,在未开启Kerberos认证的集群中提交作业的内置用户名为omm。
新建流表 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单击“确定”,完成流表创建。创建完成后,可在对应流表的“操作”列对流表进行编辑、删除等操作。 图1 新建流表 表1
延有要求,如离线报表场景、实时报表的数据初始化场景。 数据加载方式: 在存在DataArts Studio工具的场景下,数据加载统一使用CDM进行(DataArts Studio需要2.10及以上版本)。 在不存在DataArts Studio工具的场景下,可以使用Spark或者
左侧导航栏单击文件。进入“文件浏览器”页面。 勾选目录的复选框,单击页面上方的“操作”,单击“存储策略”。 图1 存储策略 在弹出的对话框中设置新的存储策略,单击“确定”。 在“静态存储策略”页签设置静态存储策略,单击“保存”。 在“动态存储策略”页签可创建、删除、修改动态存储策略,详细的参数介绍如表2所示。 表2 动态存储策略参数介绍
或损坏,则无法恢复已删除的segment信息,因为只有丢失或损坏的tablestatus文件才存在该segment的删除信息。 不支持在mv表上使用该工具。 由于最新的tablestatus文件存在问题,使用该工具恢复后无法正常查询时,可以移除最新的tablestatus文件,使
新建FlinkServer流表步骤 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单击“确定”,完成流表创建。创建完成后,可在对应流表的“操作”列对流表进行编辑、删除等操作。 图1 新建流表 表1
只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。 约束限制: 不涉及 取值范围: 只能由英文字母、数字
管理计算实例时,预先创建维护实例后,可通过设置need_auto_refresh为true,创建具备自动刷新能力的物化视图,它会自动创建并提交物化视图刷新任务,在此基础上,可对refresh_duration,start_refresh_ahead_of_expiry,refresh_priority等属性做进一步配置来调整自动刷新任务。
表示扩容时是否在新增节点上执行创建集群时指定的引导操作。 约束限制: 不涉及 取值范围: true:跳过引导操作。 false:执行引导操作。 默认取值: false scale_without_start 否 Boolean 参数解释: 扩容后是否启动扩容节点上的组件。 约束限制:
t脚本两种形式,如果SQL语句涉及敏感信息,也可使用脚本文件方式提交。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业。 操作视频 本视频以在MRS集群的管理控制台上提交并查看SparkSql作业为例进行说明。 因不同版本操
创建MRS集群后,使用Hive对原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的离线大数据分析。 方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query