检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
处理应用更关注原始数据处理的吞吐量,因此,目前已有的HDFS模型都运作良好。 然而,随着技术的发展,Hadoop逐渐被用于以随机I/O访问模式的操作为主的上层应用上,如Hive、HBase等,而这种时延要求较高的场景中,低时延的高速磁盘(如SSD磁盘)可以得到广泛的应用。为了支持
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
使用Hue提交Oozie Distcp作业 操作场景 该任务指导用户通过Hue界面提交Distcp类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“DistCp”按钮,将其拖到操作区中。 当前DistCp操作是否是跨集群操作。 是,执行4。 否,执行7。
Spark2x作业 操作场景 该任务指导用户通过Hue界面提交Spark2x类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Spark 程序”按钮,将其拖到操作区中。 在弹出的“Spark”窗口配置“Files”,例如“hdfs
口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,30分钟内不能再次请求元数据接口。为防止触发流控,MRS实现了节点级别跨进程
Kafka后进先出功能的开启要求应用只能对接Kafka输入源。 若提交应用的同时开启Kafka后进先出和流控功能,对于B段时间进入Kafka的数据,将不启动流控功能,以确保读取这些数据的任务调度优先级最低。应用重新启动后C段时间的任务启用流控功能。 配置描述 在Spark Driver端的“spark-defaults
Kafka后进先出功能的开启要求应用只能对接Kafka输入源。 如果提交应用的同时开启Kafka后进先出和流控功能,对于B段时间进入Kafka的数据,将不启动流控功能,以确保读取这些数据的任务调度优先级最低。应用重新启动后C段时间的任务启用流控功能。 配置描述 在Spark Driver端的“spark-defaults
推荐Source的并行度由上游组件推断设置,对于流系统,与上游的分区数相同(例如Kafka的Topic分区数);对于批系统,与上游的切片数相同(例如HDFS的block数量)。 Flink作业中有Source、Sink、中间计算算子的并行度可以调整。通过分析作业流图,如果发现是中间计算Busy就
第一个值函数选择数据集中的第一个非空值,支持所有数据类型。 使用约束 由于Hudi OCC特性的限制,当前不建议多流并发写Hudi表。 如果需要多流同时写请将所有流union后写入Hudi。 适合批读获取结果。 开启聚合引擎 建表属性中指定hoodie.merge-engine=
Kafka运维管理 Kafka常用配置参数 Kafka日志介绍 更改Kafka Broker的存储目录 迁移Kafka节点内数据 使用Kafka流控工具限制生产消费速度 配置积压告警规则 父主题: 使用Kafka
WebUI界面 创建FlinkServer应用 创建FlinkServer集群连接 创建FlinkServer数据连接 创建FlinkServer流表源 父主题: 使用Flink
WebUI界面 创建FlinkServer应用 创建FlinkServer集群连接 创建FlinkServer数据连接 创建FlinkServer流表源 父主题: 使用Flink
HBase提供工具类添加HBase运行依赖到Job TableMapReduceUtil.addDependencyJars(job); // 安全模式下必须要执行这个操作 // HBase添加鉴权信息到Job,map或reduce任务将会使用此处的鉴权信息 TableMapReduceUtil
在管理控制台首页服务列表中选择“弹性云服务器”,进入ECS列表,单击“购买弹性云服务器”,配置以下参数并单击“立即购买”创建一个Linux弹性云服务器: 计费模式:选择“按需计费”。 区域:与MRS集群的区域保持一致。 可用区:与MRS集群的可用区保持一致。 实例:根据实际需求选择对应的规格类型。
checkpoints.dir: hdfs://namenode:40010/flink/checkpoints 使用EXACTLY ONCE流处理语义保证端到端的一致性 流处理语义有三种:EXACTLY ONCE、AT LEAST ONCE、AT MOST ONCE。 AT MOST ONCE:
默认取值: 不涉及 safe_mode_kerberos_exclude_components Array of strings 参数解释: 安全模式kerberos排除组件列表。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 表7 NodeConstraints 参数 参数类型
通过Spark Streaming作业消费Kafka数据 通过Flume采集指定目录日志系统文件至HDFS 基于Kafka的Word Count数据流统计案例 实时OLAP数据分析 物联网时序数据分析
/JavaAPI等接口上不会根据用户角色进行权限控制,任何用户都有权限访问应用和集群的信息,无法满足多租户场景下的隔离要求。 增强: 安全模式下,对开源YARN提供的WebUI/RestAPI/JavaAPI等接口上进行了权限管理上的增强,支持根据不同的用户角色,进行相应的权限控制。
Flink企业级能力增强 Flink SQL语法增强 多流Join场景支持配置表级别的TTL时间 配置Flink SQL Client支持SQL校验功能 Flink作业大小表Join能力增强 FlinkSQL OVER窗口支持超期退窗 FlinkSQL Kafka和upsert-kafka