检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的数据,导致应用长时间挂起。 解决措施: 如果用户需要在OOM场景下强制将应用退出,那么可以在启动Spark Core应用时,在客户端配置文件“$SPARK_HOME/conf/spark-defaults.conf”中的配置项“spark.driver.extraJavaOptions”中添加如下内容:
在同一个机架之内,而不是跨机架。 为了提高容错能力,分布式服务的进程或数据需要尽可能存在多个机架的不同主机上。 Hadoop使用一种类似于文件目录结构的方式来表示主机。 由于HDFS不能自动判断集群中各个DataNode的网络拓扑情况,管理员需设置机架名称来确定主机所处的机架,N
一个Agent的Sink将数据再发送给另一个Agent的Source。 补充说明 Flume可靠性保障措施。 Source与Channel、Channel与Sink之间支持事务机制。 Sink Processor支持配置failover、load_balance机制。 例如load_balance示例如下:
一个Agent的Sink将数据再发送给另一个Agent的Source。 补充说明 Flume可靠性保障措施。 Source与Channel、Channel与Sink之间支持事务机制。 Sink Processor支持配置failover、load_balance机制。 例如load_balance示例如下:
核心接口,指定执行类所在的jar包本地位置。java通过class文件找到执行jar包,该jar包被上传到HDFS。 setJar(String jar) 指定执行类所在的jar包本地位置。直接设置执行jar包所在位置,该jar包被上传到HDFS。与setJarByClass(Class< > c
的数据,导致应用长时间挂起。 解决措施: 如果用户需要在OOM场景下强制将应用退出,那么可以在启动Spark Core应用时,在客户端配置文件“$SPARK_HOME/conf/spark-defaults.conf”中的配置项“spark.driver.extraJavaOptions”中添加如下内容:
核心接口,指定执行类所在的jar包本地位置。java通过class文件找到执行jar包,该jar包被上传到HDFS。 setJar(String jar) 指定执行类所在的jar包本地位置。直接设置执行jar包所在位置,该jar包被上传到HDFS。与setJarByClass(Class< > c
数据备份与恢复:提供了数据备份导出与导入恢复机制,满足生产环境的要求。 分布式管理:提供集群模式,能够自动管理多个数据库节点。 列式存储与数据压缩 ClickHouse是一款使用列式存储的数据库,数据按列进行组织,属于同一列的数据会被保存在一起,列与列之间也会由不同的文件分别保存。
LDAP服务用户所在的Base DN。 - hive.server2.authentication.ldap.password 约束与限制中创建的与LDAP中同名的用户密码,即HiveServer健康检查所使用的用户对应的密码。 - hive.server2.authentication
所有的Task执行完成后,用户的应用程序运行结束。 图1 Spark应用运行架构 约束与限制 本章节仅适用于MRS 3.x及之后版本。 为确保网络连通,GaussDB(DWS)集群需与MRS集群“可用区”、“虚拟私有云”、“安全组”配置相同。 前提条件 已创建DWS集群,请参考创建GaussDB(DWS)集群。
Execution特性后,Spark SQL能自动处理数据倾斜场景,对倾斜的分区,启动多个task进行处理,每个task读取若干个shuffle输出文件,再对这部分任务的Join结果进行Union操作,以达到消除数据倾斜的效果 配置参数 登录FusionInsight Manager系统,选择“集群
proxyuser.test.groups * 重启HDFS、Yarn、Spark、Hive服务,并更新客户端HDFS、Yarn、Spark、Hive配置文件。 登录Spark客户端节点,执行如下命令: cd 客户端安装目录 source bigdata_env source Spark/component_env
Execution特性后,Spark SQL能自动处理数据倾斜场景,对倾斜的分区,启动多个task进行处理,每个task读取部分shuffle输出文件,再对这部分任务的Join结果进行Union操作,以达到消除数据倾斜的效果。 配置参数 登录FusionInsight Manager系统,选择“集群
SQL优化器可以识别相同的distinct key上的不同过滤器参数。例如示例中三个COUNT DISTINCT都在user_id列上。Flink可以只使用一个共享状态实例,而不是三个状态实例,以减少状态访问和状态大小,在某些工作负载下可以获得显著的性能提升。 拆分distinct聚合优化聚合中数据倾斜
加载索引的并行度调整参数:write.index_bootstrap.tasks 采用状态索引写数据需要进行主键唯一性检查,分配具体写入文件,提升该算子并行度提升性能。 写算子索引检测算子调整参数:write.bucket_assign.tasks 非状态计算提升性能的资源优化
tsdb命令可以使用“tsdb import”命令批量导入指标数据,可执行如下命令: 准备指标数据,如包含如下内容的importData.txt文件。 sys.cpu.user 1356998400 41 host=web01 cpu=0 sys.cpu.user 1356998401
condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障状态的DataNode节点无法提供HDFS服务,可能导致用户无法读写文件。 可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。 NameNode负荷过高。
否,执行8。 参考HDFS服务的相关告警帮助进行处理,然后查看本告警是否恢复。 是,处理完毕。 否,执行18。 登录HDFS检查Oozie文件目录是否完整。 下载并安装HDFS客户端。 以root用户登录客户端所在节点,执行以下命令,检查“/user/oozie/share”路径
取值范围:1~3600s proxy_connect_timeout 定义与代理服务器建立tcp连接的超时时间。使用数字和单位组合,m表示分钟,s表示秒。 默认值:3m 取值范围:1-60m或1-3600s proxy_timeout 与代理服务器的tcp连接上两次连续读取或写入操作之间的超时。
hing值);如果业务侧业务暂时无法优化,可以在应用侧的“客户端安装目录/HBase/hbase/conf/hbase-site.xml”文件中新增或修改以下参数(仅减少告警日志打印,不会缓解过载)。 表2 减少告警日志打印 参数名称 参数描述 调整策略 hbase.rpc.rows