检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
C 操作场景 本章节介绍在存算分离场景下如何配置HetuEngine任务中集成MemArtsCC缓存,MemArtsCC会将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升HetuEngine的数据读取效率。
初始化存量表的分区 命令功能 计算每个历史分区的最后修改时间,以“lastUpdateTime=最后修改时间”的格式将每个分区的最后修改时间写入每个分区下的“.hoodie_partition_metadata”文件中。TTL会依据“当前系统时间 - 分区最后修改时间”来判断每个分区是否老化。
系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围(90%),当检测到百分比指标低于阈值范围产
33,按照传统的计算方式,10/100=0.1,远小于该阈值。这就造成这10个节点永远无法得到释放,Map&Reduce任务一直无法获取节点,应用程序无法正常运行。实际需要根据与Map&Reduce任务的有效节点关联的节点总数进行计算,即10/10=1,大于黑名单节点释放阈值,节点被释放。 因此即使故障节点数与集
产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 可能原因 Hive服务异常。 KrbServer服务异常。 Impala进程故障。
e个字符。size不能为负,并且padbinary不能为空。 SELECT rpad(x'15245F', 11,x'15487F'); -- 15 24 5f 15 48 7f 15 48 7f 15 48 crc32(binary) → bigint 计算二进制块的CRC 32值。
pool-size-factor 【说明】计算线程池大小的因子,计算公式:ceil(可用处理器*因子),计算结果限制在pool-size-min和pool-size-max之间。 1.0 否 akka.server-socket-worker-pool.pool-size-max 基于因子计算的线程数上限。
xxx:21005 mytopic 10 开发思路 接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
盘存储空间大小: 数据存储和计算分离,数据存储在OBS系统中,集群费用相对较低,计算性能不高,并且集群随时可以删除,建议数据计算不频繁场景下使用。 数据存储和计算不分离,数据存储在HDFS中,集群费用相对较高,计算性能高,集群需要长期存在,建议数据计算频繁场景下使用。 约束限制:
xxx:21005 mytopic 10 开发思路 接收Kafka中数据,生成相应DataStreamReader。 进行分类统计。 计算结果,并进行打印。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“
程,请降低此参数值给该进程预留足够运行资源。 16384 CPU虚拟核数 建议将此配置设定在逻辑核数的1.5~2倍之间。如果上层计算应用对CPU的计算能力要求不高,可以配置为2倍的逻辑CPU。 参数 描述 默认值 yarn.nodemanager.resource.cpu-vcores
precombine.field' = 'price') 流式计算采用MOR表。 流式计算为低时延的实时计算,需要高性能的流式读写能力,在Hudi表中存在的MOR和COW两种模型中,MOR表的流式读写性能相对较好,因此在流式计算场景下采用MOR表模型。关于MOR表在读写性能的对比关系如下:
针对所有参与Join的表,依次选取一个表作为第一张表。 依据选取的第一张表,根据代价选择第二张表,第三张表。由此可以得到多个不同的执行计划。 计算出代价最小的一个计划,作为最终的顺序优化结果。 代价的具体计算方法: 当前版本,代价的衡量基于Join出来的数据条数:Join出来的条数越少,代价越小。Join条数的多少
配置Hive对接MemArtsCC 操作场景 本章节介绍在存算分离场景下如何配置Hive任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Hive的数据读取效率。 前提条件
配置在Spark对接MemArtsCC 操作场景 本章节介绍在存算分离场景下如何配置Spark任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。 前提条件
角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 ClickHouse服务异常,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 可能原因 ClickHouse故障实例节点其组件配置目录下的metrika
和Reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原来必须用单台较强服务器才能运行的任务,在分布式环境下也能完成。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 可能原因 ZooKeeper服务异常。 HDFS服务异常。 Yarn集群中没有主ResourceManager实例。
KEY,只是用来指明底层数据按照指定的列进行排序。 数据模型的选择建议 因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*)查询
配置Flink作业状态后端冷热数据分离存储 本章节适用于MRS 3.3.0及以后版本。 在宽表关联计算场景中,每张表字段较多,导致状态后端数据量较大,严重影响状态后端性能时,可开启状态后端冷热分级存储功能。 开启状态后端冷热分级存储功能步骤 安装包含Flink、HBase等服务的