检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何使用PySpark连接MRS Spark? 问: 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 答: 将Spark的“spark-defaults.conf”文件中“spark.yarn.security.credentials
spark.yarn.executor.memoryOverhead设置不生效如何处理? 问题现象 Spark任务需要调整executor的overhead内存,设置了参数spark.yarn.executor.memoryOverhead=4096,但实际计算的时候依旧按照默认值1024申请资源。
查看MRS集群审计日志 “审计”页面记录用户对集群Manager页面操作信息。管理员可查看用户在Manager上的历史操作记录,审计管理包含的审计内容信息,请参考审计日志。 该任务指导用户在MRS Manager查看、导出审计日志工作,用于安全事件中事后追溯、定位问题原因及划分事故责任。
Manager主机管理界面查看。 是,执行5。 否,执行3。 修复网络连接,然后重新配置SFTP服务端密码,单击“确定”,重新下发一次配置。 2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行5。 检查用户名、密码和转储目录是否正确。 查看转储配置页面中当前的第三方服务器用户名、密码和转储目录是否正确。
多级嵌套子查询以及混合Join的SQL调优 操作场景 本章节介绍在多级嵌套以及混合Join SQL查询的调优建议。 前提条件 例如有一个复杂的查询样例如下: select s_name, count(1) as numwait from ( select s_name from (
maximum-allocation-mb 为ResourceManager中每个container请求分配的最大内存。单位:MB。如果请求的内存量很多,将分配该参数设置的内存量。 65536 为达到最优性能,可配置为集群中节点最小物理内存的90%。 yarn.scheduler.maximum-allocation-vcores
障持续存在于转储服务器,本地审计日志可能丢失。 可能原因 网络连接异常。 转储服务器的用户名、密码或转储目录等不满足配置条件。 转储目录的磁盘空间不足。 处理步骤 检查用户名、密码和转储目录是否正确。 在MRS Manager查看转储配置页面中当前的第三方服务器用户名、密码和转储目录是否正确。
Spark读写Hudi任务资源配置规则,内存和CPU核心的比例2:1,堆外内存和CPU核心比例0.5:1;即一个核心,需要2G堆内存,0.5G堆外内存 Spark初始化入库场景,由于处理的数据量比较大,上述资源配比需要调整,内存和Core的比例推荐4:1,堆外内存和Core的比例1:1。 示例:
实例”,单击需要查看日志的实例名称,进入实例状态页面。 在“日志”区域,单击要查看的日志文件名称,即可在线预览对应日志内容。 在“主机”页面单击主机名称,在主机详情页面的“实例”区域,也可查看该主机上所有角色实例的日志文件。 日志内容默认最多显示100行,可单击“加载更多”按钮查看更多日志
HA来确保Yarn TimelineServer角色的高可用性。 TimelineServer会将数据保存到内存数据库LevelDB中,占用大量内存,安装TimelineServer的节点内存至少需要预留30GB。 该功能适用于MRS 3.2.0-LTS.1及之后版本。 对系统的影响 转换
作业操作:在管理控制台创建作业、停止作业和删除作业。 数据操作:IAM用户任务、新增用户、新增用户组等操作。 查看云服务操作日志 登录MRS管理控制台。 单击“操作日志”,查看日志详情。 日志列表默认按时间顺序排列,时间最近的日志显示在最前端。 日志信息中的各字段说明如表1所示。 表1
出现此告警时,说明当前PolicySync设置的堆内存无法满足当前PolicySync进程所需的堆内存,建议根据2查看“PolicySync堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“PolicySync使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 重
各自的处理。 因此当队列存放的速度大于获取的速度时,就会导致队列溢出,从而丢失了溢出的事件,影响了UI、EventLog、动态资源调度等功能。所以为了更灵活的使用,在这边添加一个配置项,用户可以根据Driver的内存大小设置合适的值。 配置描述 参数入口: 在执行应用之前,在Sp
如何查看System.out.println打印的调试信息或将调试信息输出至指定文件 问题 Flink业务代码中添加了System.out.println调试信息打印,该如何查看此调试日志?避免与运行日志混在一起打印,如何将业务日志单独输出至指定文件? 回答 Flink所有的运行
State含义 State 含义 Running 查看当前正在运行中的任务 Queued 查看等待队列中等待执行的任务 Finished 查看执行完成的任务 Failed 查看执行失败的任务,并可以按照任务失败原因进行过滤 单击任务编号,可以进一步查看任务的基本信息、资源占用情况、Stages划分、
配置具备表select权限的用户可查看表结构 操作场景 使用Hive建表时,其他用户被授予select权限后,支持通过show create table查看表结构。 操作步骤 登录FusionInsight Manager页面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。
Hive查询数据是否支持导出? 问: MRS集群Hive组件的查询数据是否支持导出? 答: Hive查询数据支持导出,请参考如下语句进行导出: insert overwrite local directory "/tmp/out/" row format delimited fields
置”,进入“配置实例”页签。 增大计算实例中单个Worker的内存大小 增大单个计算实例配置中的“Worker容器资源配置”的“容器内存(MB)”和“JVM”的“-Xmx”的值。 控制单个查询在单个Worker的内存使用大小 在“自定义配置”中单击“增加”,添加2个同名参数“query
工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。
配置JobHistory本地磁盘缓存 配置场景 JobHistory可使用本地磁盘缓存spark应用的历史数据,以防止JobHistory内存中加载大量应用数据,减少内存压力,同时该部分缓存数据可以复用以提高后续对相同应用的访问速度。 配置参数 登录FusionInsight Manager系统,选择“集群