检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在本地Windows环境中调测HetuEngine应用 操作场景 在程序代码完成开发后,可以在Windows环境下进行编译,本地和集群业务平面网络互通时,您可以直接在本地进行调测。
30).build()).build(); SparkRDDWriteClient<HoodieAvroPayload> client = new SparkRDDWriteClient<>(new HoodieSparkEngineContext(jsc), cfg); 插入数据
如果需要统一同步配置为上海时间,操作如下: 在Manager页面,选择“集群 > 服务 > Oozie > 配置 > 全部配置”,修改oozie的服务配置参数“oozie.processing.timezone”值为“GMT+0800”(修改配置需要重启服务生效)。
该特性仅MRS 3.3.1及之后版本支持。 仅集群已启用Kerberos认证(安全模式)支持在Manager界面创建和管理Doris多租户。 MRS 3.5.0及之后版本,MRS Doris默认租户“normal”的内存占比是90%,并发数是“10000”。
可以使用客户端样例目录中Mapreduce程序对日志目录的数据进行分析、处理。 将Mapreduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
- 父主题: Yarn企业级能力增强
查看FlinkServer作业健康状况 本章节适用于MRS 3.3.0及之后的版本。
创建表有两种方式(强烈建议采用预分Region建表方式): 快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数
企业级能力增强
父主题: HBase数据读写示例程序
JDBC客户端代码 通过JDBC客户端代码连接ThriftServer,来访问SparkSQL的数据。 增强特性 对比开源社区,MRS还提供了两个增强特性,ThriftServer HA方案和设置ThriftServer连接的超时时间。
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。
CLEAN 本章节仅适用于MRS 3.2.0及之后版本。 命令功能 用于根据配置对Timeline上的Instant进行clean,删除老旧的历史版本文件,以减少hudi表的数据存储及读写压力。
SYNC_HIVE 本章节仅适用于MRS 3.5.0-LTS及之后版本。 命令功能 同步Hudi表(存储层中的Hudi数据目录)到Hive。
SHOW CREATE VIEW 语法 SHOW CREATE VIEW view_name 描述 显示指定数据视图的SQL创建语句。
MRS默认开启基于分区统计信息的执行计划优化,相当于自动执行Analyze Table(默认开启的设置方法为spark.sql.statistics.fallBackToHdfs=true,可通过配置为false关闭)。
它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。
write.data.path table location + /data 数据文件的基本位置。 write.metadata.path table location + /metadata 元数据文件的基本位置。
方式二:将kafka的阈值调大,建议在MRS Manager中的Kafka服务进行参数设置,将socket.request.max.bytes参数值根据应用场景,适当调整。 父主题: Spark应用开发常见问题