检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
53客户端机器,修改/etc/hosts文件,将10.120.169.53更改为相对应的192网段的IP地址。再重新运行Spark应用,这时就可以打开Spark Web UI界面。 父主题: Spark故障排除
JDK默认只支持TLS V1.0,若使用IBM JDK,请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”,设置后可以同时支持TLS V1.0/V1.1/V1.2,详情可参考https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8
from person") // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 dataFrame.rdd.foreachPartition(x => hBaseWriter(x))
offset区间大于Kafka上topic的最新offset,则该任务会运行失败。 若任务失败过多,则会将executor加入黑名单,从而导致后续的任务无法部署运行。此时用户可以通过配置“spark.blacklist.enabled”参数关闭黑名单功能,黑名单功能默认为开启。 若Kafka上topic的offset变小后,Spark
否,执行7。 单击该作业所在行的“运行异常”或“已失败”链接,根据弹出界面的报错信息进行故障修复。 按照任务报错信息处理完成后,重新运行作业,查看是否可以运行成功。 是,任务运行成功,处理完毕。 否,任务运行失败,执行7。 收集故障信息。 在FusionInsight Manager界面,选择“运维
网络存在时延 存在大SQL任务并发过高 处理步骤 以root用户登录故障节点所在主机,执行ping Doris所有节点的IP地址命令查看对端主机是否可以ping通。 是,执行3。 否,执行2。 联系网络管理员恢复网络。 在FusionInsight Manager界面,选择“集群 > 服务
支持Kerberos认证的SSL加密访问 新API 21009 Topic的ACL设置 Kafka支持安全访问,因此可以针对Topic进行ACL设置,从而控制不同的用户可以访问不同的Topic。Topic的权限信息,需要在Linux客户端上,使用“kafka-acls.sh”脚本进行查看和设置。
不涉及 取值范围: 标签的key值可以包含任意语种字母、数字、空格和_.:=+-@,但首尾不能含有空格,不能以_sys_开头。 默认取值: 不涉及 values Array of strings 参数解释: 标签的值。 约束限制: 标签的value值可以包含任意语种字母、数字、空格和_
用户名 连接GBase数据源的GBase用户名。 - 密码 连接GBase数据源的GBase用户密码。 - (可选)自定义配置。 单击“增加”可以增加自定义配置参数。配置GBase数据源自定义参数,参考表2。 表2 GBase数据源自定义配置参数 参数 描述 取值样例 GBase.auto-reconnect
from person") // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 dataFrame.rdd.foreachPartition(x => hBaseWriter(x))
ng、varchar、timestamp类型。 对冻结后的表进行Msck元数据修复时,需要先解冻数据。如果对冻结表进行过备份后恢复操作,则可以直接执行Msck元数据修复操作,且解冻只能通过msck repair命令进行操作。 对冻结后的分区进行rename时,需要先解冻数据,否则会提示分区不存在。
的SQL查询将不会被使用。 当使用缓存时,被执行的SQL不能有任何改变,否则它将被当做一条新的SQL查询。 创建的物化视图中最多有500个可以用于SQL查询的改写,也就是SQL改写时使用的物化视图如果被包含在这500个中,那么就会进行改写,否则就当做普通SQL执行。可参考•Sys
offset区间大于Kafka上topic的最新offset,则该任务会运行失败。 如果任务失败过多,则会将executor加入黑名单,从而导致后续的任务无法部署运行。此时用户可以通过配置“spark.blacklist.enabled”参数关闭黑名单功能,黑名单功能默认为开启。 如果Kafka上topic的offset变小后,Spark
打开IntelliJ IDEA,在“Quick Start”页面选择“Open or Import”。 另外,针对已使用过的IDEA工具,可以从主界面选择“File > Import project...”导入样例工程。 图7 Open or Import(Quick Start页面)
“\x01索引值\x00”,因此预分区需要指定成对应格式,例如,当使用id列和age列作为索引列时,两个列均为整数,使用id列完成预分区,可以指定索引表预分区点为: \x010,\x011,\x012.... 代码样例 以下代码片段在com.huawei.bigdata.hbase
from person") // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 dataFrame.rdd.foreachPartition(x => hBaseWriter(x, args(0)))
uselocalFileCollect 是否将结果数据保存在本地磁盘中而不是内存里面。 优点:结果数据小数据量情况下和原生内存的方式相比性能损失可以忽略,大数据情况下(亿级数据)性能远比使用hdfs,以及原生内存方式好。 缺点:需要调优。大数据情况下建议JDBCServer drive
3版本中,SparkSQL支持矢量化读取ORC数据(这个特性在Hive的历史版本中已经得到支持)。矢量化读取ORC格式的数据能够获得比传统读取方式数倍的性能提升。 该特性可以通过下面的配置项开启: “spark.sql.orc.enableVectorizedReader”:指定是否支持矢量化方式读取ORC格式的数据,默认为true。
器”字段,支持“*”通配符,提供三种标记用于辅助定位,分别为: “#PART”标记,表示取被通配符“*”所匹配的值,如果存在多个“*”号,可以指定一个序号,按从左到右的顺序,取得对应序号的“*”所配置的内容。例如“#PART1”,表示取第1个“*”号匹配的值;“#PART8”,表示取第8个“*”号匹配的值。
的值设置为“ConfigNode进程使用的直接内存大小”的两倍(可根据实际业务场景进行修改)。 ConfigNode进程使用的直接内存大小可以通过“定制 > 内存 > ConfigNode直接内存资源状况”获取。 若“GC_OPTS”中没有参数“-XX:MaxDirectMemorySize”,则需进行手动添加。