检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO
Superior Scheduler REST API接口介绍 功能简介 REST/HTTP是Superior Scheduler在YARN资源管理器主机和YARN资源管理网络服务端口的一部分。通常以address:port as SS_REST_SERVER.的形式指示YARN。
Superior Scheduler REST API接口介绍 功能简介 REST/HTTP是Superior Scheduler在YARN资源管理器主机和YARN资源管理网络服务端口的一部分。通常以address:portasSS_REST_SERVER.的形式指示YARN。 下面使用
Superior Scheduler REST API接口介绍 功能简介 REST/HTTP是Superior Scheduler在YARN资源管理器主机和YARN资源管理网络服务端口的一部分。通常以address:portasSS_REST_SERVER.的形式指示YARN。 下面使用
配置FlinkServer作业重启策略 FlinkServer作业重启策略介绍 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。如果不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考如何创建FlinkServer作业在作业开发界面配置
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽或
Doris数据变更规范 该章节主要介绍Doris数据变更时需遵循的规则和建议。 Doris数据变更规则 应用程序不能直接使用delete或者update语句变更数据,可以使用CDC的upsert方式来实现。 不建议业务高峰期或在表上频繁地进行加减字段,建议在业务前期规划建表时预留将来要使用的字段
客户端使用类 如何关闭ZooKeeper的SASL认证? 在MRS集群外客户端中执行kinit报错“Permission denied”如何处理? ClickHouse客户端执行SQL查询时报内存不足如何处理? MRS如何连接spark-shell? MRS如何连接spark-beeline
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
ALM-14006 HDFS文件数超过阈值 告警解释 系统每30秒周期性检测HDFS文件数,并把实际文件数和阈值相比较。当检测到HDFS文件数指标超出阈值范围时产生该告警。 平滑次数为1,HDFS文件数指标的值小于或等于阈值时,告警恢复;平滑次数大于1,HDFS文件数指标的值小于或等于阈值的
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化
Yarn企业级能力增强 配置Yarn权限控制开关 手动指定运行Yarn任务的用户 配置AM失败重试次数 配置AM自动调整分配内存 配置AM作业自动保留 配置Yarn数据访问通道协议 配置自定义调度器的WebUI 配置NodeManager角色实例使用的资源 配置ResourceManager
YARN基本原理 为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的
数据迁移到MRS前信息收集 由于离线大数据搬迁有一定的灵活性,迁移前需要掌握现有集群的详细信息,以能够更好的进行迁移决策。 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取
离线Compaction配置 对于MOR表的实时业务,通常设置在写入中同步生成compaction计划,因此需要额外通过DataArts或者脚本调度SparkSQL去执行已经产生的compaction计划。 执行参数 set hoodie.compact.inline = true
添加MRS租户 当租户需要根据业务需求指定资源使用情况时,可以在MRS创建租户。 添加MRS租户前提条件 根据业务需求规划租户的名称,不得与当前集群中已有的角色或者Yarn队列重名。 如果租户需要使用存储资源,则提前根据业务需要规划好存储路径,分配的完整存储路径在HDFS目录中不存在
CarbonData故障排除 当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致 executor内存不足导致查询性能下降 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException
执行join操作时localtask启动失败 问题背景与现象 执行join等操作,数据量较小时,会启动localtask执行,执行过程会报错: jdbc:hive2://10.*.*.*:21066/> select a.name ,b.gender from student a
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次
使用HDFS HDFS文件系统目录简介 HDFS用户权限管理 HDFS客户端使用实践 快速使用Hadoop 配置HDFS文件回收站机制 配置HDFS DataNode数据均衡 配置HDFS DiskBalancer磁盘均衡 配置HDFS Mover命令迁移数据 配置HDFS文件目录标签策略