检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ocator及其对应的DataNode。 查看所有组 hdfs colocationadmin -listGroups 列出所有组及其创建时间。 设置colocation根目录的acl权限 hdfs colocationadmin -setAcl 设置ZooKeeper中colocation根目录的ACL权限。
使用“create materialized view”创建具备自动刷新的物化视图。 如果物化视图过多,可能会导致物化视图在刷新的等待队列中等待时间过长而过期。 自动刷新功能不会自动刷新状态为disable的物化视图。 查询外部Hive数据源使用自动刷新物化视图注意事项 维护实例默认使
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 使用Token前请确保Token离过期有足够的时间,防止调用API的过程中Token过期导致调用API失败。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权
优化shuffle并行度,提升Spark加工效率 所谓的shuffle并发度如下图所示: 集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。 场景 配置项 集群默认值 调整后 Jar作业 spark
太长时被部分截取,出现缺失。 使用generic-jdbc-connector导入数据时,在数据转换步骤中,需要将原数据中时间类型数值对应的字段,设置为时间类型,才能精确到秒并完成导入。数据中包含比秒更精确的部分不会被导入。 导入到Hive分区表内表时,Hive默认不会扫描新导入
JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV DStrea
JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV DStrea
在一起和base文件直接做合并产生新的base文件,而不是写log。 分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项:
在一起和base文件直接做合并产生新的base文件,而不是写log。 分区设置操作 Hudi支持多种分区方式,如多级分区、无分区、单分区、时间日期分区。用户可以根据实际需求选择合适的分区方式,接下来将详细介绍Hudi如何配置各种分区类型。 多级分区 多级分区即指定多个字段为分区键,需要注意的配置项:
JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV DStrea
rs/topic-xxx/x。 当触发负载均衡后,原来的consumer会重新计算并释放已占用的partitions,此过程需要一定的处理时间,新来的consumer抢占该partitions时很有可能会失败。 表1 参数说明 名称 作用 默认值 rebalance.max.retries
使用安装客户端的用户登录客户端所在节点。 执行以下命令,防止超时退出。 TMOUT=0 执行完本章节操作后,请及时恢复超时退出时间,执行命令TMOUT=超时退出时间。例如:TMOUT=600,表示用户无操作600秒后超时退出。 执行以下命令,进入Loader客户端安装目录。例如,Loa
在Ranger中配置HBase的访问权限 在创建完安装了Ranger组件的MRS集群后,HBase的权限控制暂未集成在Ranger,本章节主要介绍HBase组件如何集成在Ranger中。 登录Ranger WebUI界面。 在“Service Manager”中的HBASE处,单击添加HBase
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
场景单一明确,短时间内可以恢复Broker的情况。 根据问题根因指定恢复方案,恢复故障Broker。 故障Broker恢复后,阻塞的均衡任务会继续执行,可使用--status命令来查看任务的执行进度。 存在由其他原因导致的Broker故障,且问题场景复杂,短时间内无法恢复Broker的情况。
使用安装客户端的用户登录客户端所在节点。 执行以下命令,防止超时退出。 TMOUT=0 执行完本章节操作后,请及时恢复超时退出时间,执行命令TMOUT=超时退出时间。例如:TMOUT=600,表示用户无操作600秒后超时退出。 执行以下命令,进入Loader客户端安装目录。例如,Loa
JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV DStrea
MRS集群用户绑定多个队列时系统如何选择队列? 问: MRS集群内属于同一个用户组,并且权限也相同的两个用户A和B,同时绑定了queueA以及queueB两个队列。 为什么用户A的任务一直提交到queueA队列,用户B的任务却一直提交到queueB队列? 答: MRS集群内用户绑
Scala和Java语言)。 为了丰富样例代码,Java版本使用了Processing Time作为数据流的时间戳,而Scala版本使用Event Time作为数据流的时间戳。具体执行命令参考如下: 将Checkpoint的快照信息保存到HDFS。 Java bin/flink run
在Ranger中配置Hive/Impala的访问权限 在创建完安装了Ranger组件的MRS集群后,Hive/Impala的权限控制暂未集成在Ranger中,由于Hive与Impala配置方法一致,本章节主要介绍Hive组件如何集成在Ranger中。 登录Ranger WebUI界面。