检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
Flink应用开发简介 组件介绍 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pi
Flink应用开发简介 简介 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pi
Size为1024B,因此,一个文件中的记录总数约为130K。 默认值(60000)大约是此近似值的一半。 注意: 将此值设置的太低,将产生很多误报,并且索引查找将必须扫描比其所需的更多的文件;如果将其设置的非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000
当前路径下不存在“huawei”目录。 执行图1中的命令创建以“huawei”为名的目录。其中,用1中查找到的主机名或IP和端口分别替代命令中的<HOST>和<PORT>,在<PATH>中输入想要创建的目录“huawei”。 用主机名或IP代替<HOST>都是可以的,要注意HTTP和HTTPS的端口不同。 执行下列命令访问HTTP:
产品咨询类 MRS可以做什么? MRS支持什么类型的分布式存储? 什么是区域和可用区? MRS是否支持更换网段? MRS集群内节点是否支持降配操作? 不同版本的Hive之间是否可以兼容? 数据存储在OBS和HDFS有什么区别? 10亿级数据量场景的解决方案有哪些? zstd压缩算法有什么优势?
配置Hive插入数据到不存在的目录中 配置创建Hive内部表时不能指定Location 配置用户在具有读和执行权限的目录中创建外表 配置基于HTTPS/HTTP协议的REST接口 配置Hive Transform功能开关 切换Hive执行引擎为Tez Hive负载均衡 配置Hive单表动态视图的访问控制权限
设置合理数量的存储组可以带来性能的提升。既不会因为产生过多的存储文件(夹)导致频繁切换IO降低系统速度(并且会占用大量内存且出现频繁的内存-文件切换),也不会因为过少的存储文件夹(降低了并发度)导致写入命令阻塞。 用户应根据自己的数据规模和使用场景,平衡存储文件的存储组设置,以达到更好的系统性能。
系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。 sk:参数可选,具备访问OBS权限的sk。 format :文件的格式。 structure:表的结构。 compression:参数可选,压缩类型。
记删除,同时将新的数据写入新的文件。在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据,消除掉了读时合并中的数据聚合过程,并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升,尤其是在有聚合查询的情况下。 Duplicate模型
Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化 小文件优化
当前路径下不存在“huawei”目录。 执行图1中的命令创建以“huawei”为名的目录。其中,用1中查找到的主机名或IP和端口分别替代命令中的<HOST>和<PORT>,在<PATH>中输入想要创建的目录“huawei”。 用主机名或IP代替<HOST>都是可以的,要注意HTTP和HTTPS的端口不同。 执行下列命令访问HTTP:
系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。 sk:参数可选,具备访问OBS权限的sk。 format :文件的格式。 structure:表的结构。 compression:参数可选,压缩类型。
优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO优化 多级嵌套子查询以及混合Join的SQL调优 父主题:
CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 CDM服务迁移HDFS数据至MRS集群方案如图1所示。 图1 HDFS数据迁移示意 前提条件 已获取OBS的访问域名、端口,以及AK、SK信息。
为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 基于Kerberos技术的安全认证机制。 数据文件加密机制。 完善的权限管理。 开源社区的Hive特性,请参见https://cwiki.apache
记删除,同时将新的数据写入新的文件。在查询的时候,所有被标记删除的数据都会在文件级别被过滤掉,读取出来的数据就都是最新的数据,消除掉了读时合并中的数据聚合过程,并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升,尤其是在有聚合查询的情况下。 Duplicate模型
auth.user:在Kibana中创建的具有1创建的索引的操作权限的用户密码及用户名,详细内容请参见使用Kibana创建用户并授权。 es.nodes:需要连接的IP,可登录CSS管理控制台,在集群列表的“内网访问地址”列即可查看对应集群的IP地址。 es.port:外部访问El
配置HDFS客户端元数据缓存提高读取性能 使用活动缓存提升HDFS客户端连接性能 HDFS网络不稳定场景调优 优化HDFS NameNode RPC的服务质量 优化HDFS DataNode RPC的服务质量 执行HDFS文件并发操作命令 使用LZC压缩算法存储HDFS文件 父主题: 使用HDFS
配置HDFS客户端元数据缓存提高读取性能 使用活动缓存提升HDFS客户端连接性能 HDFS网络不稳定场景调优 优化HDFS NameNode RPC的服务质量 优化HDFS DataNode RPC的服务质量 执行HDFS文件并发操作命令 使用LZC压缩算法存储HDFS文件 使用HDFS异步删除特性 父主题: 使用HDFS