检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节指导用户在HSConsole界面添加GaussDB类型的JDBC数据源。 添加GAUSSDB数据源前提条件 数据源所在集群与HetuEngine集群节点网络互通。 在HetuEngine所在集群的所有节点的“/etc/hosts”文件中,添加待对接数据源所在集群的主机名称和对应的IP映射,及其“/etc/hosts”文件中的“10
Flume支持将采集的日志信息导入到Kafka。 前提条件 已创建开启Kerberos认证的包含Flume、Kafka等组件的流式集群。可参考购买自定义集群。 已配置网络,使日志生成节点与流集群互通。 使用Flume客户端 普通集群不需要执行2-6。 安装Flume客户端。 可参考安装Flume客户端在日志
提交偏移量的操作在一个事务中,或者说是一个原子操作,生产消息和提交偏移量同时成功或者失败,此特性提供的是read committed隔离级别的事务,保证多条消息原子性的写入到目标分区,同时也能保证Consumer只能看到成功提交的事务消息。Kafka中的事务特性主要用于以下两种场景:
执行ping命令,查看主HMaster节点和依赖组件所在主机的网络连接是否正常。(依赖组件包括ZooKeeper、HDFS和Yarn等,获取依赖组件所在主机的IP地址的方式和获取主HMaster的IP地址的方式相同。) 是,执行31。 否,执行29。 联系网络管理员恢复网络。 在告警列表中,查看“HBase服务不可用”告警是否清除。
执行ping 备OMS数据库心跳IP地址命令检查备OMS数据库节点是否可达。 是,执行6。 否,执行4。 联系网络管理员查看是否为网络故障。 是,执行5。 否,执行6。 修复网络故障,然后查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 检查备OMS数据库状态是否正常。
可能原因一:集群节点与客户端节点网络不通。 解决方法: 查看客户端节点“/etc/hosts”文件中是否配置集群节点映射,在客户端节点执行命令: ping sparkui的IP 如果ping不通,检查映射配置与网络设置。 可能原因二:客户端节点防火墙未关闭。 解决方法: 执行如下命令可查看是否关闭:
需要获取用户授权,此授权过程称为通信安全授权。 若不开启通信安全授权,MRS将无法创建集群。集群创建成功后若关闭通信将导致集群状态为“网络通道未授权”且如下功能将受到影响: 集群组件安装、集群扩容、集群缩容、升级Master节点规格功能不可用。 集群的运行状态、告警、事件无法监控。
在本地Windows环境中调测HetuEngine应用 操作场景 在程序代码完成开发后,可以在Windows环境下进行编译,本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows环境下的IntelliJ IDEA开发环境中,确认配置HetuEngine应用安全认证中得到的“user
的存储节点上。HDFS文件同分布的特性是将那些需进行关联操作的文件存放在相同的数据节点上,在进行关联操作计算时,避免了到别的数据节点上获取数据的动作,降低了网络带宽的占用。 Client HDFS Client主要包括五种方式:JAVA API、C API、Shell、HTTP REST
如下所示,发现对应Topic状态正常。所有Partition均存在正常Leader信息。 图1 Topic分布信息和副本同步信息 检查客户端与Kafka集群网络是否连通,若网络不通协调网络组进行处理。 通过SSH登录Kafka Broker。 通过cd /var/log/Bigdata/kafka/broker命令进入日志目录。
在本地Windows环境中调测HetuEngine应用 操作场景 在程序代码完成开发后,可以在Windows环境下进行编译,本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows环境下的Intellij IDEA开发环境中,单击IDEA右侧Maven导入依赖。
cores: 2 数据量大并发数高且有Shuffle时可调整网络内存 在并发数高和数据量大时,发生shuffle后会发生大量的网络IO,提升网络缓存内存可以扩大一次性读取的数据量,从而提升IO速度。 【示例】 # 网络占用内存占整个进程内存的比例 taskmanager.memory
use应用(MRS 3.3.0及之后版本) 编译并运行程序 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 单击IDEA右边Maven窗口的“Reload All Maven Projects”,进行maven项目依赖import。
SQL逻辑开发建议 在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发生shuffl
LTS版集群支持版本升级能力,如果您需要使用版本升级能力,您可以选择购买LTS版集群。 LTS版集群具备多可用区部署能力,可以实现集群可用区级别的容灾。如果您需要MRS集群具备更高的安全性能和容灾能力,您可以选择购买LTS版集群。 LTS版集群支持HetuEngine、IoTDB等组
配置Hive Beeline高可靠性 操作场景 在批处理任务运行过程中,beeline客户端由于网络异常等问题断线时,Hive能支持beeline在断线前已经提交的任务继续运行。当再次运行该批处理任务时,已经提交过的任务不再重新执行,直接从下一个任务开始执行。 在批处理任务运行过
多流Join场景支持配置表级别的TTL时间 本章节适用于MRS 3.3.0及以后版本。 在Flink双流Join场景下,如果Join的左表和右表其中一个表数据变化快,需要较短时间的过期时间,而另一个表数据变化较慢,需要较长时间的过期时间。目前Flink只有表级别的TTL(Time To
connection-user=用户名 connection-password=密码 “MySQL IP地址”为MySQL实例IP地址,需要和MRS集群网络互通 。 用户名和密码为登录MySQL的连接用户名和密码。 配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。
io.connectionTimeout) < RPC响应超时时间(spark.rpc.askTimeout),在特殊条件下(Full GC,网络延时等)消息响应时间较长,消息还没有反馈,channel又达到了过期时间,该channel就被终止了,AM端感知到channel被终止后认为driver失联,然后整个应用停止。
io.connectionTimeout) < RPC响应超时时间(spark.rpc.askTimeout),在特殊条件下(Full GC,网络延时等)消息响应时间较长,消息还没有反馈,channel又达到了过期时间,该channel就被终止了,AM端感知到channel被终止后认为driver失联,然后整个应用停止。