检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
Catalog,不仅能访问Hive,也能访问使用Hive Metastore作为元数据存储的系统,例如Iceberg、Hudi等。 支持Managed Table。 可以识别Hive Metastore中存储的Hive和Hudi元数据。 如果想访问非当前用户创建的Catalog,需授予用户Catalog所在的OBS路径的操作权限。
Domains类型是特定实现的类型: IPv4是与UInt32类型保持二进制兼容的Domains类型,用于存储IPv4地址的值。它提供了更为紧凑的二进制存储的同时支持识别可读性更加友好的输入输出格式。 枚举类型 Enum8 Enum8 取值范围:【-128,127】 Enum 保存 'string'= integer
Domains类型是特定实现的类型: IPv4是与UInt32类型保持二进制兼容的Domains类型,用于存储IPv4地址的值。它提供了更为紧凑的二进制存储的同时支持识别可读性更加友好的输入输出格式。 枚举类型 Enum8 Enum8 取值范围:-128~127 Enum保存'string' = integ
使用Hadoop客户端删除OBS上数据时报.Trash目录没有权限错误 问题描述 执行hadoop fs -rm obs://<obs_path>出现如下报错: exception [java.nio.file.AccessDeniedException: user/root/.Trash/Current/:
帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。 MRS集群管理提供了统一的运维管理平台,包括一键式部署集群能力,并提供多版本选择,支持运行过程中集群在无业务中断条件下,进行扩缩容、
没有/tmp目录权限导致执行访问OBS的作业报错 问题现象 在使用MRS多用户访问OBS的场景中,执行Spark、Hive、Presto等作业时,出现“/tmp”目录没有权限的报错。 问题原因 作业执行过程中有临时目录,提交作业的用户对临时目录没有操作权限。 解决方法 在集群“概
jks”和“flume_cChatt.jks”分别为Flume服务端、客户端SSL证书信任列表。 本章节涉及到所有的用户自定义密码,需满足以下复杂度要求: 至少包含大写字母、小写字母、数字、特殊符号4种类型字符。 至少8位,最多64位。 出于安全考虑,建议用户定期更换自定义密码(例如三个
StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
取值范围:1~2147483647 实例数量 在当前所属租户下创建的计算实例个数。 可根据实际需要配置多个计算实例,多个计算实例可自动负载均衡,实现并发度水平扩展。 须知: 配置多个计算实例时: 需确保集群资源充足。单租户多实例需要的资源为单实例资源*实例个数(每个计算实例的规格一致,不支持差异化配置)。
tion配置,支持将countDistinct语法转成所配置的近似算法。查询性能有数量级的提升。 近似算法的误差一般在1%以内。在数据准确度要求不高,比如趋势分析等,建议使用近似去重提升用户体验。 【使用精确去重查询】 耗时:1.280秒。 【使用近似查询】 耗时:0.061秒。
jks”和“flume_cChatt.jks”分别为Flume服务端、客户端SSL证书信任列表。 图1 交互式输入的示例 本章节涉及到所有的用户自定义密码,需满足以下复杂度要求: 至少包含大写字母、小写字母、数字、特殊符号4种类型字符 至少8位,最多64位 出于安全考虑,建议用户定期更换自定义密码(例如三个月更
jks”和“flume_cChatt.jks”分别为Flume服务端、客户端SSL证书信任列表。 本章节涉及到所有的用户自定义密码,需满足以下复杂度要求: 至少包含大写字母、小写字母、数字、特殊符号4种类型字符 至少8位,最多64位 出于安全考虑,建议用户定期更换自定义密码(例如三个月更
ClickHouse数据分布设计 Shard和副本概念介绍 图1 ClickHouse集群架构图 从横向来看ClickHouse数据库集群,所有数据都会平均分布到多个shard分片中进行保存,数据平均分布后,保证了查询的高度并行性,以提升数据的查询性能。 从纵向来看,每个shar
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
Hudi Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的功能。 如需使用Hudi,请确保MRS集群内已安装Spark/Spark2x服务。
升级MRS集群Master节点规格 随着用户业务的增长,Core节点的扩容,CPU使用率变高,而Master节点规格已经不满足用户需求时,则需要升级Master节点规格。本章节介绍Master节点规格升级的操作流程。 升级MRS集群Master节点规格前提条件 确认是否开启了主机安全服务(Host
栅格大小,计算经纬度需要参数。 由于GeoId由栅格坐标生成,坐标为栅格中心点,则计算出的经纬度是栅格中心点经纬度,与生成该GeoId的经纬度可能有[0度~半个栅格度数]的误差。 UDF输出参数: 参数 类型 说明 latitudeAndLongitude Array[Double] 返回该g
栅格大小,计算经纬度需要参数。 由于GeoId由栅格坐标生成,坐标为栅格中心点,则计算出的经纬度是栅格中心点经纬度,与生成该GeoId的经纬度可能有[0度~半个栅格度数]的误差。 UDF输出参数: 参数 类型 说明 latitudeAndLongitude Array[Double] 返回该g