检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
query_string”格式的lvy URL,将一个或多个文件、JAR文件或ARCHIVE文件添加至分布式缓存的资源列表中。 list FILE[S] list JAR[S] list ARCHIVE[S] 列出已添加至分布式缓存中的资源。 list FILE[S] <filepath>* list JAR[S]
在driver端加载数据所达到的最大LRU缓存大小。以MB为单位,默认值为-1,表示缓存没有内存限制。只允许使用大于0的整数值。 carbon.max.executor.lru.cache.size -1 在executor端加载数据所达到的最大LRU缓存大小。以MB为单位,默认值为-1,表示缓存没有内存限制
但需要注意的是,被cache的表会占用executor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力,但当缓存的表较大或者缓存表数量较多时,将不可避免地影响executor的稳定性。 此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行
sql.forceConvertSchema.enabled=true,如果查询失败,可能avro格式表schema被缓存,执行refresh table命令,清除缓存后再设置参数进行查询,会将avro表格式强转指定数据类型,客户端临时修改schema。 父主题: Spark故障排除
client命令连接,host参数为ELB的私有IP地址。 HTTP 8123 发送http请求到ELB连接ClickHouse场景时配置。 本章节演示如何实现客户端通过ELB访问ClickHouse。具体操作分为以下几个步骤: 步骤一:购买ELB并获取其私有IP地址。 步骤二:添加ELB监听器,配置协议端口。
备NameNode节点长时间未启动,导致启动失败 问题 长时间没有启动备NameNode,edits文件由于老化策略被自动清理后,重新启动NameNode时找不到所需的edits文件,从而报错。 There appears to be a gap in the edit log.
访问Spark应用获取的restful接口信息有误 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面 HistoryServer缓存的应用被回收,导致此类应用页面访问时出错 加载空的part文件时,app无法显示在JobHistory的页面上 Spark导出带有相同字段名的表,结果导出失败
可以通过调整Yarn配置、集群节点资源配置、元数据缓存和动态过滤等策略对系统整体进行调优,可参考如下内容: 调整Yarn配置可参考调整Yarn资源分配。 调整集群节点资源配置可参考调整HetuEngine集群节点资源配置。 调整元数据缓存配置可参考调整HetuEngine元数据缓存。 调整动态过滤配置可参考调整HetuEngine动态过滤。
Sqoop如何连接MySQL 用户问题 Sqoop如何连接MySQL数据库。 处理步骤 在集群上安装客户端,查看客户端“sqoop/lib”目录下是否有MySQL驱动包。 在客户端目录下加载环境变量。 source bigdata_env 执行Kerberos用户认证。 如果集群
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试。 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的“+”
作业无法提交如何定位? 问题背景与现象 通过DataArts Studio或者在MRS管理控制台无法提交作业。 问题影响 作业无法提交,业务中断。 处理步骤 确认异常来源。 查看作业日志中收到的错误码,确认错误码是属于APIG还是MRS。 若是公共APIG的错误码(APIG的错误
通过Spark Streaming作业消费Kafka数据 应用场景 本文介绍如何使用MRS集群运行Spark Streaming作业以消费Kafka数据。 假定某个业务Kafka每1秒就会收到1个单词记录。基于业务需要,开发的Spark应用程序实现实时累加计算每个单词的记录总数的功能。
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试: 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的号,在
如何查看Flume日志 Flume日志保存在/var/log/Bigdata/flume/flume/flumeServer.log 里。绝大多数数据传输异常、数据传输不成功,在日志里都可以看到提示。可以直接输入以下命令查看: tailf /var/log/Bigdata/flu
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试: 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的号,在
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试: 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的号,在
FE服务故障如何恢复 问题现象 FE可能因为某些原因出现无法启动bdbje、FE之间无法同步等问题,无法进行元数据写操作、没有MASTER等。需要手动操作来恢复FE,手动恢复FE先通过当前“meta_dir”中的元数据,启动一个新的MASTER,然后再逐一添加其他FE。 操作步骤
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试: 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的号,在
如何查看Flume日志 Flume日志保存在/var/log/Bigdata/flume/flume/flumeServer.log 里。绝大多数数据传输异常、数据传输不成功,在日志里都可以看到提示。可以直接输入以下命令查看: tailf /var/log/Bigdata/flu
如何获取Topic的分布信息 用户问题 如何获取Topic在Broker实例的分布信息? 前置操作 前提条件 已安装Kafka、ZooKeeper客户端。 操作步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。