检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SlashEncodedDayPartitionValueExtractor。 SlashEncodedDayPartitionValueExtractor存在以下约束:要求写入的日期格式为yyyy/mm/dd。 分区排序: 配置项 说明 hoodie.bulkinsert.user.defined.partitioner
在一定的时差,容易导致当前Flink作业查询K-V库时不是最新的数据,且由于lookup查询不支持回撤,关联的结果存在一致性问题。 维度表要求高数据一致性采用流表作为维度表 基于Hudi作为维度source表,可以实现维度表单独设置TTL时长,不跟随作业的整体TTL时间进行数据老
值给该进程预留足够运行资源。 16384 CPU虚拟核数 建议将此配置设定在逻辑核数的1.5~2倍之间。如果上层计算应用对CPU的计算能力要求不高,可以配置为2倍的逻辑CPU。 参数 描述 默认值 yarn.nodemanager.resource.cpu-vcores 表示该节
集群已安装HDFS、Yarn、Flink和Hudi等服务。 包含Hudi服务的客户端已安装,例如安装路径为:/opt/client。 Flink要求1.12.2及以后版本,Hudi要求0.9.0及以后版本。 参考创建FlinkServer权限角色创建一个具有FlinkServer管理员权限的用户用于访问Flink
SlashEncodedDayPartitionValueExtractor。 SlashEncodedDayPartitionValueExtractor存在以下约束:要求写入的日期格式为yyyy/mm/dd。 分区排序: 配置项 说明 hoodie.bulkinsert.user.defined.partitioner
器特别针对具体数据库类型进行优化,相对通用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MyS
配置节点磁盘类型时,根据磁盘使用的存储资源是否独享,磁盘划分为“云硬盘”、“专属分布式存储”。 云硬盘:提供规格丰富、安全可靠、可弹性扩展的硬盘资源,满足不同性能要求的业务场景。 如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。 专属分布式存储:为用户提供独享的存储资源,通过数据冗
器特别针对具体数据库类型进行优化,相对通用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MyS
y”有多种构造方法,可以向构造方法提供三类参数: 时间轴显示时间窗开始和结束时间。 划分时间轴的时间间隔参数(必须为正数)。 滑动步长(不要求大于等于时间间隔,但是必须为正数)。 时间轴显示时间窗开始和结束时间不是必须要提供的。当不提供这类参数时,时间轴显示时间窗开始时间会被定义
用于Controller和NodeAgent认证的用户,拥有“supergroup”组权限。 backup/manager 系统随机生成 用于运行备份恢复任务的用户,拥有“supergroup”、“wheel”和“ficommon”组权限。配置跨系统互信后拥有访问互信系统HDFS、HBa
在安装客户端过程中,系统会自动配置客户端节点“hosts”文件,建议检查“/etc/hosts”文件内是否包含集群内节点的主机名信息,如未包含,需要手动复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与集群各主机在网络上互通。 准备安全认证(安全模式集群)
xample样例工程。 将准备MRS应用开发用户时得到的keytab文件“user.keytab”和“krb5.conf”用户认证凭据文件复制到OozieSparkHBaseExample和OozieSparkHiveExample样例工程的“\src\main\resources”路径。
状态计算提升性能的资源优化 SQL逻辑包含较多join、卷积计算等操作。主要调优状态后端性能、vCore、Manage Memory。 例如作业做三表多表关联,性能要求高,单个TaskManage增加额外的6个vCore,off-Heap和Overhead提高到5GB,用于Flink状态管理的Manage
Flink UDF重用介绍 适用于MRS 3.3.0及以后版本。 FlinkSQL的UDF新增重用功能,当UDF被多次执行时,第N(N>1)次执行只复制第1次结果,可以确保UDF多次执行的数据一致性,同时确保UDF只被执行一次,提高算子性能。 配置Flink作业时,可通过在FlinkServer
用户除了这一步外还需要将$SPARK_HOME/jars/streamingClient010目录中的kafka-clients jar包复制到$SPARK_HOME/jars目录下,否则会报class not found异常。 进入Spark客户端目录,调用bin/spark-
数据迁移方案介绍 本实践适用于多种不同场景下的HDFS、HBase、Hive数据向MRS集群的迁移工作。 介绍数据迁移前的准备工作、元数据导出、数据拷贝、数据恢复等内容。 Hadoop数据迁移到华为云MRS服务 本实践使用华为云CDM服务将Hadoop集群中的数据(支持数据量在几十TB级别
se/conf”,在该目录下获取到core-site.xml、hdfs-site.xml、hbase-site.xml配置文件。将这些文件拷贝到示例工程的 src/main/resources目录。 如果使用keytab登录方式,按3获取keytab文件;如果使用票据方式,则无需获取额外的配置文件。
单击右侧“添加规则”,进入“添加规则”页面。 图4 添加规则 “规则名称”:default-expand-2 “如果”:在下拉框中选择规则对象及约束要求,例如YARNAppRunning大于75 “持续”:1个五分钟 “添加”:1个节点 “冷却时间”:20分钟 单击“确定”。 勾选“我同意
用户除了这一步外还需要将$SPARK_HOME/jars/streamingClient010目录中的kafka-clients jar包复制到$SPARK_HOME/jars目录下,否则会报class not found异常。 进入Spark客户端目录,调用bin/spark-
器特别针对具体数据库类型进行优化,相对通用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MyS