检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Core内存调优 操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf
FlinkSQL支持MultiJoin算子 本章节适用于MRS 3.5.0及以后版本。 当使用Flink的Full outer Join算子实现宽表拼接功能时,由于状态会被多次重复存储导致状态后端压力大,计算性能差。使用MultiJoin算子进行宽表拼接计算性能可以提升1倍。 FlinkSQL
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
Spark Core内存调优 操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf
Yarn与其他组件的关系 Yarn和Spark组件的关系 Spark的计算调度方式,可以通过Yarn的模式实现。Spark共享Yarn集群提供丰富的计算资源,将任务分布式的运行起来。Spark on Yarn分两种模式:Yarn Cluster和Yarn Client。 Yarn
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
访问Hue原生页面时间长,文件浏览器报错Read timed out 问题 访问Hue原生页面时页面加载时间较长,访问Hue的HDFS文件浏览器报错Read timed out,如何解决。 回答 检查HDFS服务中是否安装Httpfs实例。 否,请联系运维人员处理。 是,重启HttpFS
Flink应用性能调优建议 配置内存 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
将Oracle数据库中的数据导入HDFS时各连接器的区别 问题 使用Loader将Oracle数据库中的数据导入到HDFS中时,可选择的连接器有generic-jdbc-connector、oracle-connector、oracle-partition-connector三种,
【Spark WebUI】使用IE浏览器访问Spark2x WebUI界面失败 用户问题 通过IE浏览器访问Spark的WebUI界面,偶尔出现访问失败情况。 问题现象 访问页面失败,浏览器无法显示此页,如下图所示: 原因分析 部分低版本IE浏览器处理SSL握手有问题导致访问失败。
Streaming任务打印两次相同DAG日志 问题 在使用Spark Streaming时,使用以下命令运行程序: spark-submit -master yarn-client --conf spark.logLineage=true --jars $SPARK_HOME/jars
Tez Tez是Apache最新的支持DAG(有向无环图)作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。 MRS将Tez作为Hive的默认执行引擎,执行效率远远超过原先的MapReduce的计算引擎。 有关Tez的详细说明,请参见:https
ALM-45181 OBS write接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS write接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS write接口调用失败数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
Spark基本原理 Spark简介 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 Spark提供了一个快速的计算、写入及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark使用
Storm开源增强特性 CQL CQL(Continuous Query Language),持续查询语言,是一种用于实时数据流上的查询语言,它是一种SQL-like的语言,相对于SQL,CQL中增加了(时序)窗口的概念,将待处理的数据保存在内存中,进行快速的内存计算,CQL的输出结果为数据流在某一时刻的计算结果
如何让不同的业务程序分别用不同的Yarn队列? 问: 如何让不同的业务程序分别用不同的Yarn队列? 答: 在Manager页面上创建一个新的租户,然后将不同的集群业务用户绑定至不同的租户。 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表
HetuEngine物化视图概述 HetuEngine物化视图功能适用于MRS 3.2.0及以后版本。 HetuEngine物化视图背景介绍 HetuEngine具备物化视图能力。在实际运用中,将高频访问的SQL查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进行预计算
将Oracle数据库中的数据导入HDFS时各连接器的区别 问题 使用Loader将Oracle数据库中的数据导入到HDFS中时,可选择的连接器有generic-jdbc-connector、oracle-connector、oracle-partition-connector三种,
ALM-45179 OBS readFully接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS readFully接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS readFully接口调用失败数小于阈值时,该告警会自动清除。 告警属性
Streaming任务打印两次相同DAG日志 问题 在使用Spark Streaming时,使用以下命令运行程序: spark-submit -master yarn-client --conf spark.logLineage=true --jars $SPARK_HOME/jars