检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
},为每条展示事件随机生成0-5条点击事件,点击事件的时间取值范围为{展示事件时间 至展示事件时间+5m } 开发思路 使用Structured Streaming接收Kafka中数据,生成请求流、展示流、点击流。 对请求流、展示流、点击流的数据进行关联查询。 统计结果写入kafka。 应用中监控流处理任务的状态。
},为每条展示事件随机生成0-5条点击事件,点击事件的时间取值范围为{展示事件时间 至展示事件时间+5m } 开发思路 使用Structured Streaming接收Kafka中数据,生成请求流、展示流、点击流。 对请求流、展示流、点击流的数据进行关联查询。 统计结果写入kafka。 应用中监控流处理任务的状态。
本地snapshot 将在本地集群中创建的表做一个快照,是一个空快照(刚创建的表没有数据),用于在Backend上产生对应的快照目录,接收从远端仓库下载的快照文件。 下载快照 远端仓库中的快照文件,会被下载到对应的生成的快照目录中,由各个Backend并发完成。 生效快照 快
/dbroker/apache_hdfs_broker.log DBroker进程的运行日志 审计日志 fe.audit.log 审计日志,记录FE接收的所有SQL请求 日志级别 Doris提供了如表2所示的日志级别。 运行日志的级别优先级从高到低分别是FATAL、ERROR、WARN、I
请求拒绝相关参数调整 参数名称 参数描述 调整策略 hbase.ipc.max.request.size RegionServer单个请求最大值,当接收到的请求超过此阈值时,会直接丢弃此请求。默认值为256MB。 当应用侧多次重试失败,RegionServer侧日志中出现“RPC data
Background线程使用率超过阈值 ALM-16004 Hive服务不可用 ALM-16005 Hive服务进程堆内存使用超出阈值 ALM-16006 Hive服务进程直接内存使用超出阈值 ALM-16007 Hive GC 时间超出阈值 ALM-16008 Hive服务进程非堆内存使用超出阈值 ALM-16009
服务端配置过期后更新MRS集群客户端 MRS集群提供了客户端,可以在连接服务端、查看任务结果或管理数据的场景中使用。用户如果在Manager修改了服务配置参数并重启了服务,已安装的客户端需要重新下载并安装,或者使用配置文件更新客户端。 针对MRS 2.x及之前版本集群,用户创建集
kafkaParams); //用brokers and topics新建direct kafka stream //从Kafka接收数据并生成相应的DStream。 JavaInputDStream<ConsumerRecord<String, String>>
KafkaWordCountProducer {BrokerList} {Topic} {messagesPerSec} {wordsPerMessage} 开发思路 接收Kafka中数据,生成相应DataStreamReader。 对单词记录进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark
唯一确定每条消息在分区内的位置。 Producer/生产者 向Kafka的主题发布消息。 Consumer/消费者 向Topic订阅,并且接收发布到这些Topic的消息。 各模块间关系如图2所示。 图2 Kafka模块间关系 消费者使用一个消费者组名称来标记自己,主题的每个消息被
Distributed表引擎本身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据到集群中的各个节点,分布式表需要和其他本地数据表一起协同工作。分布式表会将接收到的读写任务分发到各个本地表,而实际上数据的存储在各个节点的本地表中。 图1 Distributed Distributed表引擎的创建模板:
钥,在.csv文件中获取AK/SK信息。 用户删除服务或者卸载集群后,可能导致3创建的并行文件系统下残留脏数据,请用户手动删除。 创建云服务委托并绑定集群 登录云服务管理控制台。 在服务列表中选择“管理与监管 > 统一身份认证服务 IAM”。 选择“委托 > 创建委托”,在创建委托页面设置如下参数,并单击“下一步”:
read-process-write模式:将消息消费和生产封装在一个事务中,形成一个原子操作。在一个流式处理的应用中,常常一个服务需要从上游接收消息,然后经过处理后送达到下游,这就对应着消息的消费和生产。 二次开发代码样例如下: // 初始化配置,开启事务特性 Properties
read-process-write模式:将消息消费和生产封装在一个事务中,形成一个原子操作。在一个流式处理的应用中,常常一个服务需要从上游接收消息,然后经过处理后送达到下游,这就对应着消息的消费和生产。 二次开发代码样例如下: // 初始化配置,开启事务特性 Properties
时间,如“5min”。 查看作业管理界面,作业状态为“运行中”。 参考管理Kafka Topic中的消息,执行以下命令查看Sink表中是否接收到数据,即5执行完成后查看Kafka topic是否正常写入数据。 sh kafka-console-consumer.sh --topic
时采集的流式数据等。 大数据平台:实时OLAP的核心数据处理平台,包含离线数据加工、实时数据加工、实时OLAP等模块。 实时消息管道:用于接收实时流式数据,作为实时数据接入的统一管道,对应大数据组件MRS-Kafka。 实时流处理引擎:从Kafka实时读取数据并进行复杂的实时计算
DNS解析时长 TCP临时端口使用率 主机网络数据包帧错误数 网络读信息 主机网络读包数 主机网络读包丢包数 主机网络读包错误数 主机网络接收速率 磁盘 主机磁盘写速率 主机磁盘已使用大小 主机磁盘未使用大小 主机磁盘读速率 主机磁盘使用率 内存 未使用内存 缓存内存大小 内核缓存的内存总量
Sink需要用户根据自己开发的代码来进行配置,下述常用配置不再展示。 常用Source配置 Avro Source Avro Source监测Avro端口,接收外部Avro客户端数据并放入配置的Channel中。常用配置如下表所示: 表7 Avro Source常用配置 参数 默认值 描述 channels
Flink应用执行过程中,Netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 【示例】 # netty的服务端线程数目(-1表示默认参数numOfSlot) taskmanager.network.netty.server.numThreads -1(numOfSlot)
计算资源可分为静态服务资源和动态资源: 大数据集群为Yarn分配的资源是静态服务资源,可以由Yarn动态分配给任务队列计算使用。 静态服务资源 静态服务资源是集群分配给各个服务的计算资源,每个服务的计算资源总量固定,不与其他服务共享,是静态的。这些服务包括Flume、HBase、HDFS和Yarn。