检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MapReduce基本原理 如需使用MapReduce,请确保MRS集群内已安装Hadoop服务。 MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”及其主要思想,均取自于函数式编程语言及矢量编程语言。
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量
Streaming任务打印两次相同DAG日志 问题 在使用Spark Streaming时,使用以下命令运行程序: spark-submit -master yarn-client --conf spark.logLineage=true --jars $SPARK_HOME/j
Spark任务运行失败 问题现象 报错显示executor出现OOM。 失败的task信息显示失败原因是lost task xxx。 原因分析 问题1:一般出现executor OOM,都是因为数据量过大,也有可能是因为同一个executor上面同时运行的task太多。 问题2:
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常? 问题 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常。 回答 创建、加载、更新表或进行其他操作时,数据会被写入HDFS。如果HDFS目录的磁盘空间配额不足,则操作失败并发生以下异常。
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSi
IDEA代码生成的jar包与工程依赖的jar包,合并导出可提交的source.jar。 打包Storm业务 提交拓扑 指导用户将开发好的程序提交运行。 提交Storm拓扑 查看程序运行结果 指导用户提交拓扑后查看程序运行结果。 查看Storm应用调测结果 父主题: Storm应用开发概述
this cluster! Spark任务提交至Yarn上面,运行task的executor使用的资源受yarn的管理。从报错信息可看出,用户申请启动executor时,指定10G的内存,超出了Yarn设置的每个container的最大内存的限制,导致任务无法启动。 解决办法 修
task.JobStatusRefreshTask] - [start update job task] 审计日志 <远程主机名称> <远程用户名> <被认证的远程用户> <yyyy-MM-dd HH:mm:ss,SSS> <"日志请求的第一行" 响应码 发送的字节数> 192.18
Spark读写Hudi资源配置建议 Spark读写Hudi任务资源配置规则,内存和CPU核心的比例2:1,堆外内存和CPU核心比例0.5:1;即一个核心,需要2G堆内存,0.5G堆外内存 Spark初始化入库场景,由于处理的数据量比较大,上述资源配比需要调整,内存和Core的比例
Streaming任务打印两次相同DAG日志 问题 在使用Spark Streaming时,使用以下命令运行程序: spark-submit -master yarn-client --conf spark.logLineage=true --jars $SPARK_HOME/j
调测Hive SpringBoot样例程序 该章节内容适用于MRS 3.3.0及之后版本。 SpringBoot样例工程的命令行形式运行 在IDEA界面左下方单击“Terminal”进入终端,执行命令mvn clean package进行编译。 当输出“BUILD SUCCESS
onMaster主要负责container的启停。 因而Driver和Executor的参数配置对spark应用的执行有着很大的影响意义。用户可通过如下操作对Spark集群性能做优化。 操作步骤 配置Driver内存。 Driver负责任务的调度,和Executor、AM之间的消
启用多实例功能后,为其他HBase服务实例进行应用程序开发时还需执行以下命令,切换指定服务实例的客户端。 例如HBase2:source /opt/client/HBase2/component_env。 将2中生成的Jar包和从准备HBase应用开发用户中获取的krb5.conf和user.ke
0-LTS版本集群,当MRS 3.3.0-LTS发布商用后,之前较早的版本(如MRS 3.1.2-LTS)默认将不在控制台上提供创建入口。对存量用户使用的MRS 3.1.2-LTS版本集群不影响。 集群版本升级 MRS LTS版本集群支持大版本升级的演进路线,默认情况下只支持跨一个版本的升级,如MRS
运行Impala客户端会报错,所以需要手动安装Python2以解决客户端运行问题。 处理步骤 使用root用户登录Impala所在节点,执行如下命令,确认当前系统上安装的Python版本: python --version 执行命令yum install make,查看yum是否可用。
使用MRS客户端,MRS集群外客户端的安装操作可参考集群外节点使用MRS客户端。 登录FusionInsight Manager页面,下载集群客户端软件包至主管理节点并解压,然后以root用户登录主管理节点,进入集群客户端解压路径下,复制“FusionInsight_Cluste
cutor内存不足,导致占用CPU较高、Executor进程OOM等问题。 解决步骤 通过root用户登录Master1或Master2其中任意一节点,执行以下命令切换到omm用户。 su - omm 执行以下命令,修改“catalina.sh”脚本,搜索“JAVA_OPTS”
为什么已备份的Hive表无法执行drop操作 问题 为什么已备份的Hive表执行drop操作会失败? 回答 由于已备份Hive表对应的HDFS目录创建了快照,导致HDFS目录无法删除,造成Hive表删除失败。 Hive表在执行备份操作时,会创建表对应的HDFS数据目录快照。而HD
择“更多 > 重启实例”,输入用户密码后,在弹出窗口单击“确定”。 等待实例重启完成,配置生效。 日志格式 Tez的日志格式如下所示: 表3 日志格式 日志类型 格式 示例 运行日志 <yyyy-MM-dd HH:mm:ss,SSS>|<LogLevel>|<产生该日志的线程名字