检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景说明 场景说明 假定某个业务Kafka每30秒就会收到5个用户的消费记录。Hbase的table1表存储用户历史消费的金额信息。 现table1表有10条记录,表示有用户名分别为1-10的用户,用户的历史消费金额初始化都是0元。 基于某些业务要求,开发的Spark应用程序实现如下功能:
Hudi在upsert时占用了临时文件夹中大量空间 问题 Hudi在upsert时占用了临时文件夹中大量空间。 回答 当UPSERT大量输入数据时,如果数据量达到合并的最大内存时,Hudi将溢出部分输入数据到磁盘。 如果有足够的内存,请增加spark executor的内存和添加“hoodie
txt”需放在每个部署了Yarn NodeManager实例的节点上,权限为755。 表1 参数说明 参数名称 说明 <filePath> 指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt。可以默认,也可以设置。 <windowTime> 指
各节点审计日志目录会按<节点IP>.tar.gz的文件名压缩,所有压缩文件再按<yyyy-MM-dd_HH-mm-ss>.tar.gz的文件名格式,压缩保存在主管理节点“/var/log/Bigdata/audit/bk/”,同时备管理节点会同步保存一个相同的副本。 默认情况下,OMS备份的文件最大保留个数为90
limit:xxx 原因分析 BE处理的单个导入任务的最大数据量为3GB,超过该值的待导入文件需要通过调整Broker Load的导入参数来实现大文件的导入。 处理步骤 根据当前BE实例的个数和待导入文件的大小修改单个BE的任务的最大扫描量和最大并发数。操作如下: 登录FusionInsight
Python3开发环境的基本配置,版本如47.3.1。 jaydebeapi Python3开发环境的基本配置,可以通过该模块使用Java的JDBC来连接数据库。 准备运行环境 进行应用开发时,需要同时准备代码的运行调测的环境,用于验证应用程序运行正常。 如果本地Windows开发环境和集群业务平
PMS进程占用内存高 Knox进程占用内存高 安全集群外的客户端访问HBase很慢 作业无法提交如何定位? HBase日志文件过大导致OS盘空间不足 HDFS日志文件过大导致OS盘空间不足 MRS集群节点规格升级异常 Manager页面新建的租户删除失败 MRS集群切换VPC后集群状态异常不可用
的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。 存储资源目前支持HDFS存储,可以添加删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额。 Manager作为
本章节介绍在存算分离场景下如何配置Hive任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Hive的数据读取效率。 前提条件 Guardian服务正常,且
本章节介绍在存算分离场景下如何配置Spark任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。 前提条件 Guardian服务正常,
} } Kerberos认证时需要配置Kerberos认证所需要的文件参数,主要包含keytab文件路径、Kerberos认证的用户名称、Kerberos认证所需要的客户端配置“krb5.conf”文件。 login()方法为调用hadoop的接口执行Kerberos认证,生成TGT票据。
keystore”和“flink.truststore”文件,并且在客户端配置文件“flink-conf.yaml”中将以下配置项进行了默认赋值: 将配置项“security.ssl.keystore”设置为“flink.keystore”文件所在绝对路径。 将配置项“security.ssl
default.name")); FileStatus files[]=hdfs.listStatus(dst); for(FileStatus file:files){ System.out.println(file
、Bundle任务等。 使用表管理Hive、SparkSql中的元数据。需要MRS集群已安装Hive、Spark2x。 使用文件查看HDFS中的目录和文件。需要MRS集群已安装HDFS。 使用作业查看MRS集群中所有作业。需要MRS集群已安装Yarn。 使用HBase创建/查询H
配置Spark读取HBase表数据 操作场景 Spark on HBase为用户提供了在Spark SQL中查询HBase表,通过Beeline工具为HBase表进行存数据等操作。通过HBase接口可实现创建表、读取表、往表中插入数据等操作。 Spark On HBase 登录Manager界面,选择“集群
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败 问题 为什么将非ViewFS文件系统配置为ViewFS时MR作业运行失败? 回答 通过集群将非ViewFS文件系统配置为ViewFS时,ViewFS中的文件夹的用户权限与默认NameService中
补丁安装后操作 重新打开弹性伸缩 升级完补丁后需要重新打开弹性伸缩,操作如下: 登录华为云管理控制台,在“现有集群”列表中选择对应集群,单击“弹性伸缩”。 开启安装前关闭的弹性策略。 父主题: MRS 3.1.0 运维通道补丁说明
用。运行过程中依赖客户端已配置好的环境变量、运行依赖包和配置文件, 在Spark应用程序运行节点,执行如下命令使用Spark Launcher方式提交。之后,可通过Spark WebUI查看运行情况,或通过获取指定文件查看运行结果,可参见在Linux环境中查看Spark程序调测结果。
HDFS > 文件系统”。 定位到指定目录或文件在HDFS中保存的位置。 在指定目录或文件的“权限”列,勾选“读”和“执行”。 设置用户读取其他用户的目录或文件的权限 在“配置资源权限”的表格中选择“待操作集群的名称 > HDFS > 文件系统”。 定位到指定目录或文件在HDFS中保存的位置。
Projects”,进行maven项目依赖import。 图1 reimport projects 编译运行程序。 放置好配置文件,并修改代码匹配登录用户后,文件列表如下图所示。 图2 doris-example待编译目录列表 编译方式有以下两种: 方法一 选择“Maven > 样例工程名称