检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
output.compress”和“mapreduce.map.output.compress.codec”项。当map的输出数据大,减少网络压力,使用压缩传输中间数据。 setPriority(JobPriority priority) 指定MapReduce作业的优先级,共有
针对Flink提供的几个样例工程,其对应的运行依赖包如下: 表1 样例工程运行依赖包 样例工程 依赖包 依赖包获取地址 DataStream程序 异步Checkpoint机制程序 flink-dist_*.jar 可在Flink的客户端或者服务端安装路径的lib目录下获取。 使用Flink Jar提交SQL作业程序
NUMERIC[(p[,s])] DECIMAL[(p[,s])] 前提条件 需确保FlinkServer所在集群和GaussDB(DWS)所在集群网络互通,确保“可用区”、“虚拟私有云”、“安全组”配置相同。 FlinkServer所在集群(安全模式): 集群中已安装HDFS、Yarn、
第三副本:存放到客户端所在节点的相同机架的不同节点。 如还有更多副本,则随机选择其它DataNode。 “节点磁盘可用空间块放置策略”的副本选择机制为: 第一个副本:存放在客户端所在DataNode(和默认的存放策略一样)。 第二个副本: 选择存储节点的时候,先挑选2个满足要求的数据节点。
第三副本:存放到客户端所在节点的相同机架的不同节点。 如还有更多副本,则随机选择其它DataNode。 “节点磁盘可用空间块放置策略”的副本选择机制为: 第一个副本:存放在客户端所在DataNode(和默认的存放策略一样)。 第二个副本: 选择存储节点的时候,先挑选2个满足要求的数据节点。
restart策略。 如果用户在作业失败后,希望对作业进行重试,推荐使用failure-rate策略。因为fixed-delay策略可能会因为网络、内存等硬件故障导致用户作业失败次数达到最大重试次数,从而导致作业失败。 为了防止在failure-rate策略下的无限重启,推荐如下参数配置:
streaming.receiver.writeAheadLog.enable”配置为“false”的时候,会明显减少磁盘的操作,提高性能,但由于缺少WAL机制,会出现异常恢复时,数据丢失。 因此,在调优Streaming的时候,这些保证数据可靠性的配置项,在生产环境中是不能关闭的。 父主题: Spark应用调优
使用多级agent串联从本地采集静态日志保存到HDFS 操作场景 该任务指导用户使用Flume从本地采集静态日志保存到HDFS上如下目录“/flume/test”。 本章节适用于MRS 3.x及之后版本。 前提条件 已成功安装集群、HDFS及Flume服务、Flume客户端。 已
目录的HDFS权限,但对应的用户只能登录数据库和查看表名。 若为角色添加或删除数据库的查询权限,数据库中的表也将自动添加或删除查询权限。此机制为Hive实现,HetuEngine与Hive保持一致。 HetuEngine不支持struct数据类型中列名称含有特殊字符(除字母、数字
单击“增加”可以增加自定义配置参数。 单击“删除”可以删除已增加的自定义配置参数。 可通过选择“参数文件”为“resource-groups.json”来配置资源组机制,资源组配置参数请参考表5,详细说明请参考配置HetuEngine资源组。 表5 资源组配置参数说明 参数 描述 取值样例 resourcegroups
通过如下配置项可开启自动进行数据倾斜处理功能,通过将Hash分桶后数据量很大的、且超过数据倾斜阈值的分桶拆散,变成多个task处理一个桶的数据机制,提高CPU资源利用率,提高系统性能。 未产生倾斜的数据,将采用原有方式进行分桶并运行。 使用约束: 只支持两表Join的场景。 不支持FULL
高水平的应用容错。如图3所示,客户端应用请求集群时,使用ELB(Elastic Load Balance)来进行流量分发,通过ELB的轮询机制,写不同节点上的本地表(Local Table),读不同节点上的分布式表(Distributed Table),这样,无论集群写入的负载、
通过如下配置项可开启自动进行数据倾斜处理功能,通过将Hash分桶后数据量很大的、且超过数据倾斜阈值的分桶拆散,变成多个task处理一个桶的数据机制,提高CPU资源利用率,提高系统性能。 未产生倾斜的数据,将采用原有方式进行分桶并运行。 使用约束: 只支持两表Join的场景。 不支持FULL
对于如何识别是更新数据有三种方式: 通过状态后端解决 通过状态后端存储所有原始数据,新来的数据根据状态来判断是否是更新操作,进而通过Flink聚合回撤机制实现聚合结果数据的更新。 优点:可以解决聚合准确性问题,而且对用户友好,对数据没有要求。 缺点:大数据量情况下状态后端存储的数据比较多。 通过CDC格式数据解决
录的HDFS权限,但对应的用户只能登录数据库和查看表名。 如果为角色添加或删除数据库的查询权限,数据库中的表也将自动添加或删除查询权限。此机制为Hive实现,SparkSQL与Hive保持一致。 Spark不支持struct数据类型中列名称含有特殊字符(除字母、数字、下划线外的其
Scan数据时需要设置caching(一次从服务端读取的记录条数,默认是1),如果使用默认值读性能会降到极低。 当不需要读一条数据所有的列时,需要指定读取的列,以减少网络IO。 只读取RowKey时,可以为Scan添加一个只读取RowKey的filter(FirstKeyOnlyFilter或KeyOnlyFilter)。
该功能仅适用于MRS 3.5.0及之后版本集群。 前提条件 已创建包含Doris服务的集群,集群内各服务运行正常。 待连接Doris数据库的节点与MRS集群网络互通。 已安装MySQL客户端,相关操作可参考使用MySQL客户端连接Doris。 开启Doris慢查询功能 登录FusionInsight
通写数据与Bulkload批量写数据场景下的容灾。 前提条件 主备集群都已经安装并启动成功,且获取集群的管理员权限。 必须保证主备集群间的网络畅通和端口的使用。 如果主集群部署为安全模式且不由一个FusionInsight Manager管理,主备集群必须已配置跨集群互信。如果主
目录的HDFS权限,但对应的用户只能登录数据库和查看表名。 若为角色添加或删除数据库的查询权限,数据库中的表也将自动添加或删除查询权限。此机制为Hive实现,SparkSQL与Hive保持一致。 Spark不支持struct数据类型中列名称含有特殊字符(除字母、数字、下划线外的其
解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题