检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OPTS参数,配置建议如下:Worker数量为20个时,“-Xmx”设置为不小于1G;Worker超过100个时,“-Xmx”设置为不小于5G,以此类推。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 服务或实例重启过程中,业务会出现中断,待服务或实例重启成功后业务恢复。
Doris冷热分离介绍 在数据分析的实际应用场景中,冷热数据经常有不同的查询频次及响应速度要求。例如,在行为分析场景中,需支持近期流量数据的高频查询和高时效性,历史数据的访问频次很低,但需长时间备份以保证后续的审计和回溯工作,且查询需求也会随着时间推移锐减,如果将所有数据存储在本地,将造成大量的资源浪费。
检查Topic的Partition规划设置。 在“KafkaTopic监控”页面单击每一个Topic的“Topic的字节流量 > Topic输入的字节流量”,统计出“Topic输入的字节流量”值最大的Topic。查看该Topic有哪些Partition以及这些Partition所在的主机信息。 登录到5查询到的主机,执行iostat
等待5分钟,查看当前告警是否清除。 是,操作结束。 否,执行6。 检查是否Topic流量激增。 在KafkaUI的页面,单击“Topics”,查看上报告警的Topic是否存在流量激增,即短时间内是否生产大量消息。 是,执行7。 如果为Topic流量激增导致,则待下游消费Topic中消息后,告警会自动消除。
检查Topic的Partition规划设置。 在“KafkaTopic监控”页面单击每一个Topic的“Topic的字节流量 > Topic输入的字节流量”,统计出“Topic输入的字节流量”值最大的Topic。查看该Topic有哪些Partition以及这些Partition所在的主机信息。 登录到5查询到的主机,执行iostat
还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。 对表文件提供合并功能,用户可设置合并后的平均文件大小。 支持的表类型 S
e。 否,默认24小时。 max_commit_to_keep archive保留多少commits元数据文件的最大值。 否,默认30。 min_commit_to_keep archive保留多少commits元数据文件的最小值。 否,默认20。 compact_inline 是否开启compact。
还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。 本工具主要有如下两个功能: 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。 对表文件提供合并功能,用户可设置合并后的平均文件大小。 支持的表类型 S
选择待切换子网,并单击“确定”完成切换。 图2 选择待切换子网 如何配置网络ACL出规则? 方案一: 放通网络ACL所有出站流量,此方案能保证集群正常创建与使用,优先建议使用此方案。 图3 放通网络ACL所有出站流量配置示例 方案二: 放通保证集群创建成功的最小出规则,此方案可能在后续使用中因出方向规则遗漏导
cow表: cow表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。 父主题: 使用Hudi
cow表: cow表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。 父主题: 使用Hudi
待操作集群的名称 > 主机 > CPU > 主机CPU使用率”中更改告警的平滑次数,如图1所示。 该选项的含义为告警检查阶段,“平滑次数”为连续检查多少次超过阈值,则发送告警。 图1 设置告警平滑次数 在“主机CPU使用率”界面单击“操作”列的“修改”,更改告警阈值,如图2所示。 图2 设置告警阈值
将字段值输出到Hive表中。 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“C
将字段值输出到SparkSQL表中。 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“C
将字段值输出到Hive表中。 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“C
ended中的入职时间为2014的分区中。 统计表employees_info中有多少条记录。 查询使用以“cn”结尾的邮箱的员工信息。 提交数据分析任务,统计表employees_info中有多少条记录。实现请参见Hive JDBC访问样例程序。 父主题: Hive JDBC访问样例程序
ended中的入职时间为2014的分区中。 统计表employees_info中有多少条记录。 查询使用以“cn”结尾的邮箱的员工信息。 提交数据分析任务,统计表employees_info中有多少条记录。 父主题: Hive JDBC访问样例程序
将字段值输出到SparkSQL表中。 如果指定了一个或多个列为分区列,则在作业配置第四步“输出设置”页面上,会显示“分割程序”属性,该属性表示使用多少个处理器去对分区数据进行处理。 如果没有指定任何列为分区列,则表示不需要对输入数据进行分区处理,“分割程序”属性默认隐藏。 样例 通过“C
上游表主键生成类型。 COMPLEX read.streaming.check-interval 选填 流读检测上游新提交的周期,默认值为1分钟。 5(流量大建议使用默认值) read.end-commit 选填 Stream增量消费,通过参数read.streaming.start-commit指定起始消费位置;
供了基于Loadbalance部署架构,可以将用户访问流量自动分发到多台后端节点,扩展系统对外的服务能力,实现更高水平的应用容错。客户端应用请求集群时,使用基于Nginx的ClickHouseBalancer控制节点来进行流量分发,无论集群写入的负载、读的负载以及应用接入的高可用性都具备了有力的保障。