检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“配置Task节点”页面。 配置“节点类型”、“节点规格”、“节点数量”、“系统盘”,如开启“添加数据盘”后,还需要配置数据盘的存储类型、大小和数量。 单击“确定”。 添加节点组 用于增加节点组,适用MRS 3.x版本的自定义集群。 在集群详情页面,选择“节点管理”页签,单击“新增节点组”,进入“新增节点组”页面。
围为1~8589934592。 此参数值表示租户可使用的HDFS存储空间上限,不代表一定使用了这么多空间。 如果参数值大于HDFS物理磁盘大小,实际最多使用全部的HDFS物理磁盘空间。 存储路径 配置租户在HDFS中的存储目录。 系统默认将自动在“/tenant”目录中以租户名称
例如“${BIGDATA_DATA_HOME}/kafka/data1”。 进入该目录,执行du -sh *命令,查看该目录下各文件夹的大小。查看是否存在除“kafka-logs”目录外的其他文件,并判断是否可以删除或者迁移。 是,删除或者迁移相关数据,然后执行8。 否,执行4。
获取需要导入到MRS集群的CA证书文件(*.crt)、密钥文件(*.key)以及保存访问密钥文件密码的文件(password.property)。证书名称和密钥名称支持大小写字母和数字。 准备一个访问密钥文件的密码例如“Userpwd@123”用于访问密钥文件。 密码复杂度要求如下,如果密码复杂度不满足如下要求,可能存在安全风险:
DataNode1复制到DataNode2、DataNode3(三备份)。写完的数据,将返回确认信息给HDFS Client。 合理设置块大小,如设置dfs.blocksize为 268435456(即256MB)。 对于一些不可能重用的大数据,缓存在操作系统的缓存区是无用的。可将以下两参数设置为false:
例如“${BIGDATA_DATA_HOME}/kafka/data1”。 进入该目录,执行du -sh *命令,查看该目录下各文件夹的大小。查看是否存在除“kafka-logs”目录外的其他文件,并判断是否可以删除或者迁移。 是,删除或者迁移相关数据,然后执行8。 否,执行4。
MultiPartKeysValueExtractor' Flink on Hudi并同步数据至Hive的任务,因为Hudi对大小写敏感,Hive对大小写不敏感,所以在Hudi表中的字段不建议使用大写字母,否则可能会造成数据无法正常读写。 使用HMS方式同步元数据到Hive CREATE
解决Hudi Cow不执行Clean就无法触发归档的问题。 解决Hudi使用Spark生成批补表的数据时,表目录被删除的问题。 解决Hudi表大小写生成的namespace不一致,导致update失败的问题。 Hudi新增call command清理无效元数据文件。 解决Hudi D
shuffle。 由于shuffle类算子存在节点之间的网络传输,因此对于数据量很大的RDD,应该尽量提取需要使用的信息,减小其单条数据的大小,然后再调用shuffle类算子。 常用的有如下几种: combineByKey() : RDD[(K, V)] => RDD[(K, C)],是将RDD[(K
文件名命令为用户赋予读、写、执行权限,而属组用户和其他用户只有读、执行权限。可以默认,也可以自行设置。 <windowTime> 指窗口时间大小,以分钟为单位。可以默认,也可以自行设置。 运行向Kafka生产并消费数据样例程序(Scala和Java语言)。 执行命令启动程序生产数据。
be less than {value} GB. 节点磁盘大小不能小于{value}GB! 按照报错提示进行处理 400 12000142 The disk size cannot exceed 32,000 GB. 磁盘大小不能大于32000GB! 按照报错提示进行处理 400 12000154
Region个数,目标表不存在时,会使用该参数值预分区目标表,默认值为“100”。 建议根据源表需要导出的数据量来评估Region个数,估算方式如下: 源表大小(3副本) * 源表解压膨胀率 * HBase数据膨胀率(可估计为10)/ 单个Region上限(通常为10GB)/ 压缩及编码压缩率 请
128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。
putData(Put put) { // 暂时将数据缓存在该List中 dataList.add(put); // 当dataList的大小达到PUT_LIST_SIZE之后,就执行一次Put操作 if (dataList.size() >= PUT_LIST_SIZE) { try
的问题; 解决JobHistory堆外内存占用高,导致节点内存不足的问题; HDFS 解决在webui上删除目录取消后再删除其他目录会连带把之前取消的目录删除的问题; Yarn 解决ResourceManager偶现空指针报错而重启的问题; Hue 解决查询Hive导出偶现报错的问题;
-direct-split-size 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据时,可以将一个到达设定大小的文件分为几个独立的文件。 -inline-lob-limit 设定大对象数据类型的最大值。 -m或-num-mappers 启动n个ma
指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt。可以默认,也可以设置。 <windowTime> 指窗口时间大小,以分钟为单位。可以默认,也可以设置。 运行向Kafka生产并消费数据样例程序(Scala和Java语言)。 生产数据的执行命令启动程序。
单击“选择”,上传本地Jar文件,并参考表2配置参数或添加自定义参数。 表2 参数配置 参数名称 参数描述 本地jar文件 上传jar文件。直接上传本地文件,大小不能超过“flinkserver.upload.jar.max.size”设置的阈值,默认500MB。 登录Manager,选择“集群 >
配置DataNode的JVM最大内存。 yarn.nodemanager.resource.memory-mb 配置当前节点上NodeManager可使用的内存大小。 dfs.datanode.max.locked.memory 配置DataNode用做HDFS缓存的最大内存。 FLUME_HEAPSIZE
-direct-split-size 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据时,可以将一个到达设定大小的文件分为几个独立的文件。 -inline-lob-limit 设定大对象数据类型的最大值。 -m或-num-mappers 启动n个ma