检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 Spark Core内存调优 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能
根据业务调整对应SQL防御规则的参数。 配置Hive SQL防御前提条件 已安装包含Hive服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 集群中Hive服务运行状态正常。 对于开启了Kerberos认证的集群,已创建具有Hive操作权限的用户。 配置Hive
park SQL不会对它做日期格式的检查,就是把它当做普通的字符串进行匹配。以上面的例子为例,如果数据格式为"yyyy-mm-dd",那么字符串'2016-6-30'就是不正确的数据格式。 父主题: SQL和DataFrame
面。 在集群详情页,选择“组件管理 > 添加服务”。 在服务列表中,勾选需要添加的服务,单击“下一步”。 添加服务时,该服务依赖的下层服务也会自动勾选,可以同时添加多个服务。 只能在状态正常的节点或节点组上添加服务。 Hadoop服务内的组件(MapReduce、Yarn和HDFS)不支持单独添加。
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO优化
xml”中配置“mapreduce.job.inputformat.class”项。该设置用来指定处理不同格式的数据时需要的InputFormat类,用来读取数据,切分数据块。 setJarByClass(Class< > cls) 核心接口,指定执行类所在的jar包本地位置。ja
提交Flink作业时报错slot request timeout如何处理? DistCP作业导入导出数据常见问题 如何通过Yarn WebUI查看Hive作业对应的SQL语句? 如何查看指定Yarn任务的日志? 添加Hive服务后,提交hivesql/hivescript作业失败如何处理? Spark Job对应的运行日志保存在哪里?
问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 无 安装补丁的影响 安装MRS 2.1.0.1补丁期间会重启MRS Manager和Hive服务,重启服务期间会引起服务暂时不可用。 MRS
务无感知的分析加速效果。HetuEngine管理员通过付出少量的计算资源和存储空间,可实现对高频SQL业务的智能加速。同时,该能力可以降低数据平台的整体负载(CPU、内存、IO等),有助于提升系统稳定性。 智能物化视图包括以下几个功能: 自动推荐物化视图 自动创建物化视图 自动刷新物化视图
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
重启受影响的服务或实例观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
partitions, replicas) Partition的副本数不要超过节点个数 Kafka中Topic的Partition的副本是为了提升数据的可靠性而存在的,同一个Partition的副本会分布在不同的节点,因此副本数不允许超过节点个数。 Consumer客户端的配置参数“fetch
重新启动受影响的服务或实例,观察界面告警是否清除。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 是,处理完毕。 否,执行6。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
Flink应用性能调优建议 Savepoints相关问题解决方案 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题? 如何处理blob.storage.directory配置/home目录时,启动yarn-session失败的问题?
table t1(col1 int); 执行insert into t1(col1) values(X);命令向t1中分别插入如下数据,X表示待插入数据的值。 +----------+--+ | t1.col1 | +----------+--+
告警属性 告警ID 告警级别 是否可自动清除 50211 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
规避措施: Spark2x可以通过创建外表的方式来创建一张指向Spark1.5表实际数据的表,这样可以实现在Spark2x中读取Spark1.5创建的DataSource表。同时,Spark1.5更新过数据后,Spark2x中访问也能感知到变化 ,反过来一样。这样即可实现Spark2x对Spark1
getFilteredSegments("select * from table where age='12'", sparkSession) 传入数据库名和表名,获取会被合并的segment列表,得到的segment列表可以当做getMergedLoadName函数的参数传入: /**