检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Native引擎是通过使用向量化的C++加速库,实现对Spark算子性能加速的一种技术方案。传统的SparkSQL是基于行式数据,通过JVM的codegen来实现查询加速的,由于JVM对生成的java代码存在各种约束,比如方法长度,参数个数等,以及行式数据对内存带宽的利用率不足,因此存在性
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
uselocalFileCollect开启的情况下生效。直接序列化的方式,还是间接序列化的方式保存结果数据到磁盘。 优点:针对分区数特别多的表查询结果汇聚性能优于直接使用结果数据保证在磁盘的方式。 缺点:和spark.sql.uselocalFileCollect开启时候的缺点一样。 true:使用该功能
“指定作业”:表示指定需要导出的作业。选择“指定作业”,在作业列表中勾选需要导出的作业。 “指定组别”:表示导出某个指定分组中的所有作业。选择“指定分组”,在分组列表中勾选需要导出的作业分组。 “是否导出密码”:导出时是否导出连接器密码,勾选时,导出加密后的密码串。 单击“确定”,开
HDFS时,建议使用的版本为2.8.X、3.1.X,请执行搬迁前务必确认是否支持搬迁。 方案架构 CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率。 CDM服务
如果对接了OBS,而服务端依然使用HDFS,那么需要显式在命令行使用该参数指定HDFS的地址。格式为hdfs://{NAMESERVICE}。其中{NAMESERVICE}为hdfs nameservice名称。 如果当前的HDFS具有多个nameservice,那么需要指定所有的nameser
ation。即表创建成功之后,表的Location路径会被创建在当前默认warehouse目录下,不能被指定到其他目录;如果创建内部表时指定Location,则创建失败。 开启该功能后,如果数据库中已存在建表时指向非当前默认warehouse目录的表,在执行建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。
“指定作业”:表示指定需要导出的作业。选择“指定作业”,在作业列表中勾选需要导出的作业。 “指定组别”:表示导出某个指定分组中的所有作业。选择“指定分组”,在分组列表中勾选需要导出的作业分组。 “是否导出密码”:导出时是否导出连接器密码,勾选时,导出加密后的密码串。 单击“确定”,开
配置组件数据回收站目录的清理策略。 在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。 组件对接OBS。 在具备OBS资源的访问权限后,M
uselocalFileCollect开启的情况下生效。直接序列化的方式,还是间接序列化的方式保存结果数据到磁盘。 优点:针对分区数特别多的表查询结果汇聚性能优于直接使用结果数据保证在磁盘的方式。 缺点:和spark.sql.uselocalFileCollect开启时候的缺点一样。 true:使用该功能。
本章节指导用户通过租户资源绑定新增的Task节点,并提交Spark任务到新增的Task节点。 方案架构 租户是MRS大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图1所示。 图1 以用户为核心的平台和以多租户为核心的平台 对于
如果对接了OBS,而服务端依然使用HDFS,那么需要显式在命令行使用该参数指定HDFS的地址。格式为hdfs://{NAMESERVICE}。其中{NAMESERVICE}为hdfs nameservice名称。 如果当前的HDFS具有多个nameservice,那么需要指定所有的nameser
如果对接了OBS,而服务端依然使用HDFS,那么需要显式在命令行使用该参数指定HDFS的地址。格式为hdfs://{NAMESERVICE}。其中{NAMESERVICE}为hdfs nameservice名称。 如果当前的HDFS具有多个nameservice,那么需要指定所有的nameser
用户基于业务需求可预估资源使用周期。 具有较稳定的业务场景。 需要长期使用资源。 计费周期 包年/包月MRS集群的计费周期是根据您购买的时长来确定的(以UTC+8时间为准)。一个计费周期的起点是您购买的MRS集群启动成功或续费资源的时间(精确到秒),终点则是到期日的23:59:59。 未到期的包年/包月集群也支
Filter_Condition(NonIndexCol1) 针对多个列创建的联合索引场景下: 当查询时使用的列(多个),是联合索引所有对应列的一部分或者全部,且列的顺序与联合索引一致时,此索引会被利用来提升查询性能。 例如,针对C1、C2、C3列创建了联合索引,生效的场景包括: Filter_Condition(IndexCol1)
操作场景 Kafka消息传输保障机制,可以通过配置不同的参数来保障消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高可用、高性能模式后,数据可靠性会降低
悉且统一的平台。作为查询大数据的工具的补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。 Impala主要特点如下: 支持Hive查询语言(HQL)中大多数的SQL-92功能
0.11补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2
如果对接了OBS,而服务端依然使用HDFS,那么需要显式在命令行使用该参数指定HDFS的地址。格式为hdfs://{NAMESERVICE}。其中{NAMESERVICE}为hdfs nameservice名称。 如果当前的HDFS具有多个nameservice,那么需要指定所有的nameser