检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置ClickHouse对接RDS MySQL数据库 ClickHouse面向OLAP场景提供高效的数据分析能力,支持通过MySQL等数据库引擎将远程数据库服务器中的表映射到ClickHouse集群中,后续可以在ClickHouse中进行数据分析。以下操作通过ClickHouse集群和RDS服务下的MySQL数据库实例对接进行举例说明。
模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 “服务器共享路径”:填写用户配置的NAS服务器共享目录。(服务器共享路径不能设置为根目
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
建立Hive表分区提升查询效率 操作场景 Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。 操作步骤 MRS 3.x之前版本: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。选择“节点管理
minor GC时被回收,但在多任务的情况下,集群规模较大,比如5000节点,多个节点的心跳Response会占用大量内存,导致JVM在minor GC时无法完全回收,无法回收的内存持续累积,最终触发JVM的full GC。JVM的GC都是阻塞式的,即在GC过程中不执行任何作业,所以若full
其中Host为Spark运行机器IP地址,Port为调试的端口号(确保该端口在运行机器上没被占用)。 图2 配置参数 当改变Port端口号时,For JDK1.4.x对应的调试命令也跟着改变,比如Port设置为5006,对应调试命令会变更为-Xdebug -Xrunjdwp:transport=dt_socket
如果观察到个别节点占用资源较高,需要针对占用资源较高的节点分析,分析当前的SQL语句是什么原因导致部分节点占用比其他节点更多资源,是计算还是数据存储倾斜导致,或者是软件bug导致。 每个节点资源占用都比较高 如果集群所有节点资源占用都比较高,说明集群整体比较忙,需要单独确认需要调优的SQ
high_memory_queries:根据内存使用量终止查询。具有较高内存使用量的查询将首先被终止,以便在查询终止次数最少的情况下,释放更多内存。当两个查询的内存使用量都在限制的10%以内,则进度慢(执行的百分比)的查询被终止,同时两个查询在完成百分比方面的差异在5%以内,则内存使用量大的查询被终止。
minor GC时被回收,但在多任务的情况下,集群规模较大,比如5000节点,多个节点的心跳Response会占用大量内存,导致JVM在minor GC时无法完全回收,无法回收的内存持续累积,最终触发JVM的full GC。JVM的GC都是阻塞式的,即在GC过程中不执行任何作业,所以如果full
使用Yarn客户端命令查询历史作业报错 问题现象 执行Yarn客户端命令查询历史作业报错,进程被终止。具体错误如下: 原因分析 客户端分配内存不足,导致提交命令报错。 处理步骤 以root用户登录HDFS客户端安装节点。 执行以下命令编辑文件。 vim /opt/client/HDFS/component_env
从数据集合转换而来,通过编码实现。 RDD的存储: 用户可以选择不同的存储级别缓存RDD以便重用(RDD有11种存储级别)。 当前RDD默认是存储于内存,但当内存不足时,RDD会溢出到磁盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父R
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败 问题现象 集群访问OBS上报403异常。 原因分析 集群Master节点NTP时间与集群外节点的NTP服务器时间不同步,时间相差超过15min,导致集群访问OBS时鉴权失败,上报403异常。 处理步骤 以root用户登录集群主Master节点。
如何使用PySpark连接MRS Spark? 问: 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 答: 将Spark的“spark-defaults.conf”文件中“spark.yarn.security.credentials
error_text=[E1008] Reached timeout=xxx ms 原因分析 由于导入数据时BE打开tablet writer操作可能涉及多个分片内存块的写盘操作,导致RPC超时,可以适当调整该RPC超时时间减少超时错误。 操作步骤 登录FusionInsight Manager,选择“集群
从数据集合转换而来,通过编码实现。 RDD的存储: 用户可以选择不同的存储级别缓存RDD以便重用(RDD有11种存储级别)。 当前RDD默认是存储于内存,但当内存不足时,RDD会溢出到磁盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父R
修改MRS集群Manager路由表 安装FusionInsight Manager时系统会自动在主管理节点上创建2条路由信息,执行ip rule list可以查看。 0:from all lookup local 32764:from all to 10.10.100.100