检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大表和小表做join操作时可以把小表Broadcast到各个节点,从而就可以把join操作转变成普通的操作,减少了shuffle操作。 操作步骤 在开发应用程序时,添加如下代码,将“testArr”数据广播到各个节点。
检查备集群的HBase服务实例中,是否已存在一个命名空间,与待启用容灾功能的HBase表所属的命名空间名称相同? 是,存在同名的命令空间,执行14。 否,不存在同名的命令空间,需先在备集群的HBase shell中,创建同名的命名空间,然后执行14。
大表和小表做join操作时可以把小表Broadcast到各个节点,从而就可以把join操作转变成普通的操作,减少了shuffle操作。 操作步骤 在开发应用程序时,添加如下代码,将“testArr”数据广播到各个节点。
如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。
如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。
窗口优化 针对上述SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始数据时存在的数据冗余问题,对保存原始数据的窗口进行重构,优化存储,使其存储空间大大降低,具体思路如下: 以滑动周期为单位,将窗口划分为若干相互不重合的pane
为了节省存储空间,或者大部分时间只查询其中的一部分字段时,可以在建表时使用列式存储(比如ORC文件)。 父主题: Hive应用开发规范
图1 滚动安装补丁 滚动安装补丁功能开启:补丁安装前不会停止服务,补丁安装后滚动重启服务来完成补丁安装,可以减少对集群业务的影响,但相比普通方式安装耗时更久。
被合并的segments(例如segment0和segment1)即成为无用的segments,会占用空间,因此建议合并之后使用CLEAN FILES命令进行彻底删除,再进行其他操作。CLEAN FILES命令的使用方法可参考CLEAN FILES。 父主题: DDL
为避免以上问题,可修改SQL语句对数据进行重分区,以减少HDFS文件个数。 操作步骤 在动态分区语句中加入distribute by,by值为分区字段。
即将多个PartitionedFile组成一个partition,从而减少partition数量,避免在Shuffle操作时生成过多的hash分桶,如图1所示。
大表和小表做join操作时可以把小表Broadcast到各个节点,从而就可以把join操作转变成普通的操作,减少了shuffle操作。 操作步骤 在开发应用程序时,添加如下代码,将“testArr”数据广播到各个节点。
即将多个PartitionedFile组成一个partition,从而减少partition数量,避免在Shuffle操作时生成过多的hash分桶,如图1所示。
正常运行的MapReduce任务会在Job结束以后就清理这些临时文件,但是当Job对应的Yarn任务异常退出时,这些临时文件不会被清理,长时间积攒导致该临时目录下的文件数量越来越多,占用存储空间越来越多。 处理步骤 登录集群客户端。
“qualified_function_name”的格式需要为“catalog.schema.function_name”,函数命名空间(格式为“catalog.schema”)可以自行规划管理,与HetuEngine中的catalog、schema概念无关联;“parameter_type
被合并的segments(例如segment0和segment1)即成为无用的segments,会占用空间,因此建议合并之后使用CLEAN FILES命令进行彻底删除,再进行其他操作。CLEAN FILES命令的使用方法可参考CLEAN FILES。
前提条件 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。
该部署方式适用于100个以下的节点,可以减少成本。 mgmt_control_separated_v2:管控分设模板,管理角色和控制角色分别部署在不同的Master节点中,数据实例合设在同一节点组。该部署方式适用于100-500个节点,在高并发负载情况下表现更好。
也可以通过增大Yarn客户端连接次数和连接时长的方式减少此事件发生的概率。
在“磁盘使用率”列,检查磁盘空间是否不足。 是,执行3.c。 否,执行4.a。 对磁盘进行扩容。 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。 是,处理完毕。 否,执行4.a。 检查NameNode节点是否进入安全模式。