检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.history.store.path JobHistory缓存历史信息的本地目录,如果设置了此配置,则JobHistory会将历史应用数据缓存在本地磁盘而不是内存中 ${BIGDATA_HOME}/tmp/spark2x_JobHistory
Timeout或者SocketTimeout Exception异常。 调优建议: 将ZooKeeper实例个数调整为5个及以上,可以通过设置peerType=observer来增加observer的数目。 通过控制单个任务并发的map数或减少每个节点下运行task的内存,降低节点负载。
found”。该问题原因是操作系统的GLIBCXX版本较低,导致该特性依赖的libnativetask.so.1.0.0库无法加载,进而导致任务失败。 规避手段: 设置配置项mapreduce.job.map.output.collector.class的值为org.apache.hadoop.mapred
当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。 如果遇到上述问题,可参考以下两种方法解决。 重新访问这个Spark应用的HistoryServer页面,即可查看到正确的页面信息。 如果用户场景需要
Module”,然后单击“Next”。如果您需要新建Java语言的工程,选择对应参数即可。 图2 选择开发环境 在工程信息页面,填写工程名称和存放路径,设置JDK版本,并勾选“Config later”(待工程创建完毕后引入scala的编译库文件),然后单击“Finish”完成工程创建。 图3
MemArtsCC提供了如下表2所示的日志级别。 日志的级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。
当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。 如果遇到上述问题,可参考以下两种方法解决。 重新访问这个Spark应用的HistoryServer页面,即可查看到正确的页面信息。 如果用户场景需要
found”。该问题原因是操作系统的GLIBCXX版本较低,导致该特性依赖的libnativetask.so.1.0.0库无法加载,进而导致任务失败。 规避手段: 设置配置项mapreduce.job.map.output.collector.class的值为org.apache.hadoop.mapred
ogUI链接跳转至Yarn WebUI界面查看Coordinator和Worker日志。 使用可访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine”,进入HetuEngine服务页面。 在概
split(",").map(_.trim) assert(filePaths.length > 0) // windowTime设置窗口时间大小,默认2分钟一个窗口足够读取文本内的所有数据了 val windowTime = ParameterTool.fromArgs(args)
对于数据量过大,需要调整executor的内存大小的,使用--executor-memory指定内存大小; 对于同时运行的task太多,主要看--executor-cores设置的vcore数量。 问题2: 需要在相应的task的日志里面查找异常原因。如果有OOM的情况,请参照问题1。 父主题: 使用Spark
通过API提交Spark作业后作业状态为error 用户问题 使用API提交Spark作业后,作业状态显示为error。 问题现象 修改“/opt/client/Spark/spark/conf/log4j.properties”中的日志级别,使用API V1.1接口作业提交后,状态显示为error。
查询时返回结果为乱码。 可能原因 Hive默认压缩格式不是ARC4格式或者未开启输出压缩。 解决方案 在select结果乱码时,在beeline中进行如下设置。 set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop
配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.history.store.path JobHistory缓存历史信息的本地目录,如果设置了此配置,则JobHistory会将历史应用数据缓存在本地磁盘而不是内存中。 ${BIGDATA_HOME}/tmp/spark2x_JobHistory
Hive任务运行过程中失败,重试成功 问题现象 当Hive任务在正常运行时失败,在客户端报出错误,类似的错误打印: Error:Invalid OperationHandler:OperationHander [opType=EXECUTE_STATEMENT,getHandle
split(",").map(_.trim) assert(filePaths.length > 0) // windowTime设置窗口时间大小,默认2分钟一个窗口足够读取文本内的所有数据了 val windowTime = ParameterTool.fromArgs(args)
2-byte value: 32970 at org.postgresql.core.PGStream.SendInteger2(PGStream.java:199) at org.postgresql.core.v3.QueryExecutorImpl.se
件标记为已损坏。 场景如下: 升级前: 客户端A - >将一些数据写入文件X(假设已写入“A”字节) 升级过程中: 客户端A - >仍然将数据写入文件X(现在文件中的数据是“A + B”字节) 升级完成: 客户端A - >完成写入文件。最终数据为“A + B”字节。 回滚开始:
件标记为已损坏。 场景如下: 升级前: 客户端A - >将一些数据写入文件X(假设已写入“A”字节) 升级过程中: 客户端A - >仍然将数据写入文件X(现在文件中的数据是“A + B”字节) 升级完成: 客户端A - >完成写入文件。最终数据为“A + B”字节。 回滚开始:
UPSERT操作时,Hudi使用Avro兼容的parquet文件写入类进行写入,这个和Spark的写入方式是不兼容的。 解决方案: 执行BULK_INSERT时指定设置“hoodie.datasource.write.row.writer.enable = false”,使hoodie采用Avro兼容的parquet文件写入类进行写入。