检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
true:创建MRS集群默认安全组。 false:不创建MRS集群默认安全组。 默认取值: false safe_mode 是 String 参数解释: MRS集群运行模式。 约束限制: 不涉及 取值范围: SIMPLE:普通集群,表示Kerberos认证关闭,用户可使用集群提供的所有功能。 KERBEROS
Acker的执行器数量。当业务应用对可靠性要求较低,允许不处理部分数据,可设置参数值为“null”或“0”,以关闭Acker的执行器,减少流控制,不统计消息时延,提高性能。 topology.max.spout.pending null Spout消息缓存数,仅在Acker不为0
设置规则生效的日期,即哪一天运行规则。取值范围为: 每天 每周 其他 开启“分级告警开关”后,仅支持“每天”。 每天 添加日期 仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。 09-30 阈值设置 设置规则运行的具体时间范围。 开启“分级告警开关”后,不支持
streaming.enabled' = 'true', --开启流读。 'read.streaming.check-interval' = '60',
滚动重启时运行在重启实例上的任务将失败,可以向其他节点提交任务 10个节点耗时约50分钟 Flume 直接重启 停止期间数据流中断,启动后恢复 直接重启耗时约5分钟 滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复 滚动重启10个节点耗时约30分钟 Hue 直接重启 重启期间Hue页面无法访问 直接重启耗时约5分钟
imeCharacteristic.EventTime) env.setParallelism(1) // 读取文本数据流 val unionStream = if (filePaths.length > 1) { val firstStream
支持MRS管理面的作业返回日志路径 支持对慢盘自动隔离能力 大数据组件 支持ClickHouse滚动重启设置超时时间,并在重启失败时主动退出运维模式 支持ClickHouse屏蔽连接异常断开场景下,打印带堆栈exception Error日志 增加ClickHouse磁盘检查开关 支持HDFS单副本检测能力
支持创建Workflow、计划和Bundles的操作。支持提交运行、共享、复制和导出已创建的应用。 每个Workflow可以包含一个或多个作业,形成完整的工作流,用于实现指定的业务。 创建Workflow时,可直接在Hue的编辑器设计作业,并添加到Workflow中。 每个计划可定义一个时间触发器,
通过Spark Streaming作业消费Kafka数据 通过Flume采集指定目录日志系统文件至HDFS 基于Kafka的Word Count数据流统计案例 数据迁移类 使用CDM服务迁移Hadoop数据至MRS集群 使用CDM服务迁移HBase数据至MRS集群 使用CDM服务迁移Hive数据至MRS集群
JOIN时小表为左表,RIGHT JOIN时小表为右表。 Flink作业大小表Join去重 在双流关联的业务模型中,关联算子接收到其中一个流发送的大量重复数据,则会导致下游算子需要处理大量重复数据,影响作业性能。 如A表字段(P1,A1,A2)使用如下方式关联B表字段(P1,B1
滚动重启时运行在重启实例上的任务将失败,可以向其他节点提交任务 10个节点耗时约50分钟 Flume 直接重启 停止期间数据流中断,启动后恢复 直接重启耗时约5分钟 滚动重启 滚动重启时,重启节点数据流将停止,启动后恢复 滚动重启10个节点耗时约30分钟 Hue 直接重启 重启期间Hue页面无法访问 直接重启耗时约5分钟
文件。 “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式。 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件。 TEXT_FILE 压缩格式 在下拉菜单中选择数据导出到HDFS/OBS后保存文件的压缩格式,未配置或选择“NONE”表示不压缩数据。
文件。 “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式。 “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件。 TEXT_FILE 压缩格式 在下拉菜单中选择数据导出到HDFS/OBS后保存文件的压缩格式,未配置或选择“NONE”表示不压缩数据。
DStream(又称Discretized Stream)是Spark Streaming提供的抽象概念。 DStream表示一个连续的数据流,是从数据源获取或者通过输入流转换生成的数据流。从本质上说,一个DStream表示一系列连续的RDD。RDD一个只读的、可分区的分布式数据集。 DStream中的
teristic.EventTime); env.setParallelism(1); // 读取文本数据流 DataStream<String> unionStream = env.readTextFile(filePaths[0]);
大数据量场景,Hive分批加载元数据,提升Hiveserver容错能力 Hive支持Redis缓存连接失败重试 支持OBSA客户端数据监控上报 支持OBS流控重试机制 pms性能优化 mrs-obs-provider的缓存过期优化 优化删除分区的逻辑 Yarn的refresh node速度优化 删除无效告警
Spark Streaming从Kafka接收数据并进行统计分析的Java/Scala示例程序。 本工程应用程序实时累加计算Kafka中的流数据,统计每个单词的记录总数。 SparkStreamingKafka010ScalaExample SparkStreamingtoHbaseJavaExample010
total += count; collector.collect(total); } } 应用代码 该段代码是流图定义代码,具体实现业务流程,另外,代码中窗口的触发时间使用了processing time。 1 2 3 4 5 6 7 8
setFactory:允许代码创建套接字工厂。 setIO:允许代码重定向System.in、System.out或System.err输入输出流。 setSecurityManager:允许代码设置安全管理器。 stopThread:允许代码调用线程类的stop()方法。 表5 安全权限
Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。 商用 Hudi基本原理 Hudi快速入门 2 ClickHouse组件版本升级到21.3.4.25,支持数据重分布 ClickHou