检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优
为false关闭)。开启后,SQL执行过程中会扫描表的分区统计信息,并作为执行计划中的代价估算,例如对于代价评估中识别的小表,会广播小表放在内存中广播到各个节点上,进行join操作,大大节省shuffle时间。 此开关对于Join场景有较大的性能优化,但是会带来OBS调用量的增加。
配置MRS集群对接SNMP网管平台上报告警 如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。 前提条件 对接服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 设置Spark Core并行度 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能 配置Yarn模式下Spark动态资源调度
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 Spark Core内存调优 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能 配置Yarn模式下Spark动态资源调度
Coordinator运行的节点范围 默认情况下,Coordinator和Worker节点会随机启动在Yarn的NodeManager节点上,若需要开放端口,需要开放所有NodeManager节点的端口。HetuEngine利用Yarn的资源标签提供了限制Coordinator在指定NodeManager节点上运行的方案。
Language,类SQL语句,与Hive类似。 Statestore Statestore管理Impala集群中所有的Impalad实例的健康状态,并将实例健康信息广播到所有实例上。当某一个Impalad实例发生故障,比如节点异常、网络异常等,Statestore将通知其他Impalad实例,后续的查询请求等将不会向该实例分发。
Language,类SQL语句,与Hive类似。 Statestore Statestore管理Impala集群中所有的Impalad实例的健康状态,并将实例健康信息广播到所有实例上。当某一个Impalad实例发生故障,比如节点异常、网络异常等,Statestore将通知其他Impalad实例,后续的查询请求等将不会向该实例分发。
该算子,避免出现groupByKey().map(x=>(x._1,x._2.size))这类实现方式。 广播map代替数组 当每条记录需要查表,如果是Driver端用广播方式传递的数据,数据结构优先采用set/map而不是Iterator,因为Set/Map的查询速率接近O(1),而Iterator是O(n)。
该算子,避免出现groupByKey().map(x=>(x._1,x._2.size))这类实现方式。 广播map代替数组 当每条记录需要查表,如果是Driver端用广播方式传递的数据,数据结构优先采用set/map而不是Iterator,因为Set/Map的查询速率接近O(1),而Iterator是O(n)。
Language,类SQL语句,与Hive类似。 Statestore Statestore管理Impala集群中所有的Impalad实例的健康状态,并将实例健康信息广播到所有实例上。当某一个Impalad实例发生故障,比如节点异常、网络异常等,Statestore将通知其他Impalad实例,后续的查询请求等将不会向该实例分发。
WebUI页面打不开。 原因分析 端口未对外开放。 浮动IP配置错误。 一次性查询大量的数据,导致查询耗时长,占用了Hue中Hive的链接,导致Hue访问出现异常。 排查思路 在浏览器所在的本地机器,通过命令行执行telnet指令,查看端口是否开放。 在Hue所在节点执行ifconfig,查看配置的浮动IP是否生效。
该算子,避免出现groupByKey().map(x=>(x._1,x._2.size))这类实现方式。 广播map代替数组 当每条记录需要查表,如果是Driver端用广播方式传递的数据,数据结构优先采用set/map而不是Iterator,因为Set/Map的查询速率接近O(1),而Iterator是O(n)。
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(比如自定义udf包)区分x86和TaiShan版本,如何让spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端spark2x
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(例如自定义udf包)区分x86和TaiShan版本,如何让Spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端Spark2x
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(比如自定义udf包)区分x86和TaiShan版本,如何让spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端spark2x
conf”配置文件中调整超时时间。 表1 参数描述 参数 描述 默认值 spark.sql.broadcastTimeout BroadcastHashJoin中广播表的超时时间,当任务并发数较高的时候,可以调高该参数值。 -1(数值类型,实际为五分钟) 父主题: Spark SQL性能调优
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(例如自定义udf包)区分x86和TaiShan版本,如何让Spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端Spark2x
oop生态的高性能大数据引擎,支持数据湖、数据仓库、BI、AI融合等能力,完全兼容开源,快速帮助客户上云构建低成本、灵活开放、安全可靠、全栈式的云原生大数据平台,满足客户业务快速增长和敏捷创新诉求。 父主题: 产品咨询类
CREATE/DROP/SHOW VIRTUAL SCHEMA(S) CREATE HetuEngine中的CREATE语句用来创建SCHEMA映射,通过映射信息对外开放本域数据源。 语法如下: CREATE VIRTUAL SCHEMA [ IF NOT EXISTS ] [ ctlg_dest.]schema_name