检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink开发规范概述 范围 本规范主要描述基于MRS-Flink组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时必须遵守的原则。 建议:编程时必须加以考虑的原则。
er中关于拓扑的日志。如果需要查询拓扑在运行时数据处理的日志,提交拓扑并启用“Debug”功能后可以查看日志。仅启用Kerberos认证的流集群支持该场景,且用户需要是拓扑的提交者,或者加入“stormadmin”。 前提条件 在工作环境完成网络配置。 需要查看处理数据的拓扑,提交时已启用采样功能。
conf”文件中配置以下参数。 在spark-sql模式下配置:登录Spark客户端节点,在“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”文件中配置表5相关参数。 表5 spark-sql模式下的配置参数 参数 配置值 描述 spark.driver
conf”文件中配置以下参数。 在spark-sql模式下配置:登录Spark客户端节点,在“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”文件中配置表5相关参数。 表5 spark-sql模式下的配置参数 参数 配置值 描述 spark.driver
Hudi开发规范概述 范围 本规范主要描述基于MRS-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时强制必须遵守的原则。 建议:编程时必须加以考虑的原则。
female info <in> <out>"); System.exit(2); } // 判断是否为安全模式 if("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))){
e集群和Kafka集群在同一VPC下,网络可以互通,并安装ClickHouse客户端。 约束限制 当前ClickHouse不支持和开启安全模式的Kafka集群进行对接。 Kafka引擎表使用语法说明 语法 CREATE TABLE [IF NOT EXISTS] [db.]table_name
以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
MRS多租户使用流程 多租户使用说明 租户主要用于资源控制、业务隔离的场景。在实际业务中,用户需要先明确使用集群资源的业务场景,规划租户。 多租户使用包含三类操作:创建租户、管理租户和管理资源。各操作的具体动作如表1所示。 表1 使用租户的各种操作 操作 具体动作 说明 创建租户
选择“快速购买”,填写软件配置参数。 表3 软件配置(以下参数仅供参考,可根据实际情况调整) 参数名称 参数说明 取值样例 计费模式 选择待创建的MRS集群的计费模式。 按需计费 区域 选择区域。 不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。
kinit testuser 执行beeline命令连接集群Hive,运行相关任务。 beeline -f SQL文件(执行文件里的SQL) 普通模式,可执行以下命令指定组件业务用户,如果不指定则会以当前操作系统用户连接HiveServer。 beeline -nMRS集群业务用户 父主题:
如果采用yarn-client模式运行Spark任务,请在“客户端安装目录/Spark/spark/conf/spark-defaults.conf”文件中添加参数“spark.driver.host”,并将参数值设置为客户端的IP地址。 当采用yarn-client模式时,为了Spark
K及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出。在性能相当情况下,端到端的大数据解决方案成本下降30%。 MRS支持多种隔离模式及企业级的大数据多租户权限管理能力,安全性更高。 MRS服务支持资源专属区内部署,专属区内物理资源隔离,用户可以在专属区内灵活地组合计算存
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。 这给大数据集群带来了以下挑战:
背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。
Configuration(); // 读取配置文件 conf.addResource("user-hdfs.xml"); // 安全模式下,先进行安全认证 if ("kerberos".equalsIgnoreCase(conf.get("hadoop.security
在日志中输出上传kafka成功与失败数据的数量统计的时间间隔,单位为秒 60 kafka.bootstrap.servers 是 kafka代理节点地址,配置形式为HOST:PORT[,HOST:PORT] - kafka_topic 否 写入kafka的topic名称 maxwell
HttpFS是个单独无状态的gateway进程,对外提供webHDFS接口,对HDFS使用FileSystem接口对接。可用于不同Hadoop版本间的数据传输,及用于访问在防火墙后的HDFS(HttpFS用作gateway)。 HDFS HA架构 HA即为High Availability,用于解决NameNode
在日志中输出上传kafka成功与失败数据的数量统计的时间间隔,单位为秒 60 kafka.bootstrap.servers 是 kafka代理节点地址,配置形式为HOST:PORT[,HOST:PORT] - kafka_topic 否 写入kafka的topic名称 maxwell
RegionServer进程组成。如图1所示。 图1 HBase结构 表1 模块说明 名称 描述 Master 又叫HMaster,在HA模式下,包含主用Master和备用Master。 主用Master:负责HBase中RegionServer的管理,包括表的增、删、改、查;R