检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Guardian服务对接OBS 操作场景 该章节指导用户开启Guardian组件存算分离操作。开启后Guardian可以在存算分离场景下为HDFS、Hive、Spark、Loader、HetuEngine等服务提供访问OBS的临时认证凭据。 配置Guardian服务对接OBS主要操作如下:
ssl开启时有效。 false 否 taskmanager.numberOfTaskSlots TaskManager占用的slot数,一般配置成物理机的核数,yarn-session模式下只能使用-s参数传递,yarn-cluster模式下只能使用-ys参数传递。 1 否 parallelism
2.0及之后版本。 Phoenix开源CsvBulkLoad工具当前仅支持指定单个字符作为数据分隔符,当用户数据文件中可能包含任意字符时,一般会采用特殊的字符串作为分隔符,为了满足此类场景,增加了对用户自定义分隔符的支持,用户可以采用限定长度内的任意可见字符进行组合作为分隔符来导入数据文件。
/test,其中/clickhouse/tables/{shard}为固定值,default为数据库名,test为创建的表名。 副本名称,一般用{replica}即可。 CREATE TABLE default.test ON CLUSTER default_cluster_1 (
extraClassPath 附加至Executor classpath的额外的classpath。这主要是为了向后兼容Spark的历史版本。用户一般不用设置此选项。 - spark.executor.extraLibraryPath 设置启动executor JVM时所使用的特殊的library
extraClassPath 附加至Executor classpath的额外的classpath。这主要是为了向后兼容Spark的历史版本。用户一般不用设置此选项。 - spark.executor.extraLibraryPath 设置启动executor JVM时所使用的特殊的library
ALM-50202 FE CPU使用率超过阈值 告警解释 系统每30秒周期性检测FE CPU使用率。CPU使用率默认提供一个阈值范围。当检测到CPU使用率连续多次(默认值为3)超出阈值范围(默认值为95%)时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,告警恢复;平滑
ssl开启时有效。 false 否 taskmanager.numberOfTaskSlots TaskManager占用的slot数,一般配置成物理机的核数,yarn-session模式下只能使用-s参数传递,yarn-cluster模式下只能使用-ys参数传递。 1 否 parallelism
计费样例 计费场景 某用户于2023/03/18 15:30:00购买了一个按需计费的MRS普通版分析集群,规格配置如下: master_node_default_group节点组(简称Master节点组): 节点个数:3 节点规格:c6.2xlarge.2(8vCPUs,16GB)
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean。
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
调整Spark Core进程参数 操作场景 Spark on Yarn模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。
调整Spark Core进程参数 操作场景 Spark on Yarn模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
Hive CBO原理介绍 Hive CBO原理介绍 CBO,全称是Cost Based Optimization,即基于代价的优化器。 其优化目标是: 在编译阶段,根据查询语句中涉及到的表和查询条件,计算出产生中间结果少的高效join顺序,从而减少查询时间和资源消耗。 Hive中实现CBO的总体过程如下:
配置进程参数 操作场景 Spark on YARN模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。
图1 Manager逻辑架构 Manager由OMS和OMA组成: OMS:操作维护系统的管理节点,OMS一般有两个,互为主备。 OMA:操作维护系统中的被管理节点,一般有多个。 FMS为Manager中的告警模块,负责收集每一个OMA上的告警并提供查询。 约束与限制 阈值类告
所有的聚合函数都能通过添加over子句来当做窗口函数使用。聚合函数将在当前窗口框架下的每行记录进行运算。 下面的查询生成每个职员按天计算的订单价格的滚动总和。 select dept,userid,sal,sum(sal) over (partition by dept order by
Spark Structured Streaming状态操作样例程序开发思路 场景说明 假设需要跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp; 同时输出本批次被更新状态的session。 数据规划 在kafka中生成模拟数据(需要有Kafka权限用户)
Spark Structured Streaming状态操作样例程序开发思路 场景说明 假设需要跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp; 同时输出本批次被更新状态的session。 数据规划 在kafka中生成模拟数据(需要有Kafka权限用户)