检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
客户查询大量数据,数据量过大。 客户在检索数据时使用select * from table_name;,进行全表查询,表内数据过多。 beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。 解决办法 执行select count(*) from table_na
正式编写脚本前,您需要将所需安装包、配置包的所有相关文件都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在脚本中指定从OBS下载需要的文件。如果将文件上传到私有文件系统,需要用hadoop
如何在提交MapReduce任务时设置任务优先级 问题 如何在提交MapReduce任务时设置任务优先级? 回答 当您在客户端提交MapReduce任务时,可以在命令行中增加“-Dmapreduce.job.priority=<priority>”参数来设置任务优先级。格式如下: yarn
如何在提交MapReduce任务时设置任务优先级 问题 如何在提交MapReduce任务时设置任务优先级? 回答 当您在客户端提交MapReduce任务时,可以在命令行中增加“-Dmapreduce.job.priority=<priority>”参数来设置任务优先级。格式如下: yarn
文件进行设置。 4G spark.driver.maxResultSize 对每个Spark action操作(例如“collect”)的所有分区序列化结果的总量限制,至少1M,设置成0表示不限制。如果总量超过该限制,工作任务会中止。限制值设置过高可能会引起驱动程序的内存不足错误(取决于spark
Alluxio常用操作 前期准备 创建安装Alluxio组件的集群。 以root用户登录集群的主Master节点,密码为用户创建集群时设置的root密码。 执行如下命令,配置环境变量。 source /opt/client/bigdata_env 使用Alluxio Shell Alluxio
设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常? 问题 设置了HDFS存储目录的磁盘空间配额,CarbonData为什么会发生异常。 回答 创建、加载、更新表或进行其他操作时,数据会被写入HDFS。如果HDFS目录的磁盘空间配额不足,则操作失败并发生以下异常。
network.netty.transport:auto 内存总体调优 Flink内部对内存进行了划分,整体上划分成为了堆内存和堆外内存两部分。Java堆内存是通过Java程序创建时指定的,这也是JVM可自动GC的部分内存。堆外内存可细分为可被JVM管理的和不可被JVM管理的,可被JVM管理的有Managed
Spark客户端设置回收站version不生效 问题 Spark客户端设置fs.obs.hdfs.trash.version=1不生效,drop table后文件在回收站的存放路径不改变。 通常,默认情况: 当fs.obs.hdfs.trash.version=2时,回收站路径为:/user/
这个问题是由于Yarn客户端运行时的所需的内存超过了Yarn客户端设置的内存上限(默认为128MB)。可以通过修改“<客户端安装路径>/HDFS/component_env”中的“CLIENT_GC_OPTS”来修改Yarn客户端的内存上限。例如,需要设置该内存上限为1GB,则设置: export C
出现此告警时,说明当前TokenServer设置的堆内存无法满足当前TokenServer进程所需的堆内存,建议根据2查看“TokenServer堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“TokenServer使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。
CompactedConcurrentSkipListMap(简称CCSMap)特性优化了Memstore的数据结构,可以有效减少数据写入场景下的内存占用,降低GC频率,优化数据写入性能。若实际业务场景中对数据写入性能要求较高时,建议开启此特性。 本章节内容仅适用于MRS 3.3.1及之后版本。
AM委托对接OBS。 存算分离功能使用流程: 配置存算分离集群。 请选择如下其中一种配置即可(推荐使用委托方式)。 通过为MRS集群绑定ECS委托方式访问OBS,避免了AK/SK直接暴露在配置文件中的风险,具体请参考配置MRS集群通过IAM委托对接OBS。 在MRS集群中配置AK
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢 问题 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题? 原因分析 由于窗口使用自定义窗口,这时窗口
MySQL)。 MRS的Impala + Kudu也能满足该场景,Impala + Kudu可以在join操作时,把当前所有的join表都加载到内存中来实现。 父主题: 产品咨询类
如何处理Checkpoint设置RocksDBStateBackend方式时Checkpoint慢 问题 如何处理checkpoint设置RocksDBStateBackend方式,且当数据量大时,执行checkpoint会很慢的问题? 原因分析 由于窗口使用自定义窗口,这时窗口
Hue WebUI中Oozie编辑器的时区设置问题 问题 在Hue设置Oozie工作流调度器的时区时,部分时区设置会导致任务提交失败。 回答 部分时区存在适配问题,建议时区选择“Asia/Shanghai”,如图1所示。 图1 时区选择 支持的时区可以参考Oozie WebUI页
sql-dialect: hive 中小规模数据量维度表可以采用内存维度表(如Hudi) 内存维度表:将维度数据加载到内存当中,每个TM都会加载全量的数据,在内存内实现数据点查关联。若数据量过大,需要给TM分配大的内存空间,否则容易导致作业异常。 外置维度表:将维度数据存在高速的K
快速开发Spark应用 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言的应用开发。 通常适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative Computation):
Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker3进程GC时间过长,会影响Worker3进程运行的性能,甚至造成Worker3进程不可用。 可能原因 该节点Worker3进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。