检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会导致任务失败。 在运行Colocation工程时,HDFS的配置项fs.defaultFS不能配置为viewfs://ClusterX。 设置系统的环境变量说明 Hadoop在安全认证的时候,需要获取客户端所在主机的域名(Default Realm,从环境变量USERDNSDO
以round-robin的形式将元素分区到下游操作的子集中。 说明: 查看代码和rebalance的方式是一样的。 def broadcast: DataStream[T] 广播每个元素到所有分区。 提供设置eventtime属性的能力 表6 提供设置eventtime属性的能力的相关接口 API
基于Kafka的Word Count数据流统计案例 应用场景 Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。
MRS对外提供了基于Spark组件的应用开发样例工程,本实践用于指导您创建MRS集群后,获取并导入样例工程并在本地进行编译调测,用于实现从Hive表中读取数据并重新写入HBase表。 本章节对应示例场景的开发思路: 查询指定Hive表的数据。 根据表中数据的key值去HBase指定表中做查询。
度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力。 任务的并行度可以通过以下四种层
以根据接收到的元素生成不同的Watermark。 提供迭代的能力 表9 提供迭代的能力的相关接口 API 说明 public IterativeStream<T> iterate() 在流(flow)中创建一个带反馈的循环,通过重定向一个operator的输出到之前的operator。
以根据接收到的元素生成不同的Watermark。 提供迭代的能力 表9 提供迭代的能力的相关接口 API 说明 public IterativeStream<T> iterate() 在流(flow)中创建一个带反馈的循环,通过重定向一个operator的输出到之前的operator。
以根据接收到的元素生成不同的Watermark。 提供迭代的能力 表9 提供迭代的能力的相关接口 API 说明 public IterativeStream<T> iterate() 在流(flow)中创建一个带反馈的循环,通过重定向一个operator的输出到之前的operator。
合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置生成稀疏索
psert写入小数据量时可能触发更新数据的小文件合并,使在Mor表的读优化视图中能查到部分更新数据。 当update的数据对应的base文件是小文件时,insert中的数据和update中的数据会被合在一起和base文件直接做合并产生新的base文件,而不是写log。 分区设置操作
中 - 大数据量的维度表建议采用HBase 数据量比较大,而且不要数据高一致的场景,可以采用HBase类的KV库提供维度表点查关联能力。 由于K-V库的数据需由另外的作业写入,与当前的Flink作业会存在一定的时差,容易导致当前Flink作业查询K-V库时不是最新的数据,且由于lo
"\特殊字符,可为空。 说明: 若输入带有敏感信息(如登录密码)的参数可能在作业详情展示和日志打印中存在暴露的风险,请谨慎操作。 提交HiveScript或HiveSql类型的作业时如需以“obs://”开头格式访问存储在OBS上的文件,请在Hive服务配置页面搜索参数“core.site
”参数还需要在Yarn的客户端进行配置,且在ResourceManager、NodeManager和JobHistory节点的配置与在Yarn的客户端的配置必须一致。 周期性收集日志功能目前仅支持MapReduce应用,且MapReduce应用必须进行相应的日志文件滚动输出配置,
Integer 参数解释: 扩容或缩容的节点数。 约束限制: 扩容时的最大节点数为(500 - 集群Core/Task节点数)。例如,当前集群Core节点数为3,此处扩容的节点数必须小于等于497。 Core和Task节点总数最大值为500,如果用户需要的Core/Task节点数大于50