检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择是否开启“使用外部数据源存储元数据”功能。 开启:使用外置的MySQL数据库存储Ranger组件的User/Group/Policy等数据。 关闭:Ranger组件的User/Group/Policy等数据默认存放在当前集群本地数据库中。 当“使用外部数据源存储元数据”开启时,选择数
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
删除Hive on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
Configs、增加Topic分区个数、删除Topic,并可实时查看不同时段的生产数据条数。 安全模式下,KafkaUI对查看Topic详情操作不作鉴权处理,即任何用户都可以查询Topic信息;对于修改Topic Configs、增加Topic分区个数、删除Topic场景,需保证KafkaUI
MRS是否支持对DLI服务的业务表进行读写操作? 答: 如果数据存放在OBS上,则支持使用MRS服务中的Spark读取DLI表,对表数据进行灵活处理,结果存入另一张DLI表。 如果数据不存放在OBS上,则不支持。 父主题: 周边生态对接类
11等浏览器访问HDFS的原生UI界面,偶尔出现访问失败情况。 现象 访问页面失败,浏览器无法显示此页,如下图所示: 原因 IE 9、IE 10、IE 11浏览器的某些版本在处理SSL握手有问题导致访问失败。 解决方法 重新刷新页面即可。 父主题: HDFS常见问题
strategy为TIME_ELAPSED时,value指定的值代表每[value]天会触发一次TTL。 resolveConflictsBy属性用来处理TTL策略冲突,比如dt=2023/05/01分区同时命中以下两条TTL策略: 策略A:call ttl_policy_save(table
安全模式集群下,执行分区迁移操作的用户需属于“kafkaadmin”用户组,否则将会由于鉴权失败导致操作失败。 非安全模式下,KafkaUI对任意操作不作鉴权处理。 增加分区 进入KafkaUI界面。 使用具有KafkaUI页面访问权限的用户登录FusionInsight Manager,选择“集群
配置Flink对接Kafka安全认证 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户),并从Kafka组件接收数据。 确保集群安装完成,包括HDFS、Yarn、Flink和Kafka。 创建Topic。 用户使用Linux命令行
假定某个Flink业务每秒就会收到1个消息记录。 基于某些业务要求,开发的Flink应用程序实现功能:实时输出带有前缀的消息内容。 数据规划 Flink样例工程的数据存储在Kafka组件中。Flink向Kafka组件发送数据(需要有kafka权限用户),并从Kafka组件获取数据。 确保集群安装完成,包括H
海量文本的单词数量。 Hadoop集群完全使用开源Hadoop生态,采用Yarn管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算及进行海量数据分析与查询的能力。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。 创建MRS集群:创建一个MRS 3
操作”列编辑或删除UDF信息(只能删除未被使用的UDF项)。 (可选)如果需要立即运行或开发作业,可在“作业管理”进行相关作业配置,可参考如何创建FlinkServer作业。 UDF java代码及SQL样例 UDF java使用样例 package com.xxx.udf; import
方法 说明 public void setFileColumn() 设置这个列族为存储文件的列族。 public void setFileThreshold(int fileThreshold) 设置存储文件大小的阈值。 org.apache.hadoop.hbase.filestream
的百分比或绝对值。 存储资源 为当前租户选择存储资源。 选择“HDFS”时,系统将分配存储资源。 不选择“HDFS”时,系统不会分配存储资源。 文件\目录数上限 配置文件和目录数量配额。 存储空间配额 配置当前租户使用的HDFS存储空间配额。 取值范围:当存储空间配额单位设置为M
On Read 读时合并表也简称mor表,使用列格式parquet和行格式Avro两种方式混合存储数据。其中parquet格式文件用于存储基础数据,Avro格式文件(也可叫做log文件)用于存储增量数据。 优点:由于写入数据先写delta log,且delta log较小,所以写入成本较低。
的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。 存储资源目前支持HDFS存储,可以添加删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额。 Manager作为
Kafka支持副本特性,在创建主题时可指定多个副本来备份数据。 针对MRS 3.5.0及之后版本集群,Kafka作为消息通道,其数据并非永久存储,默认只保留最近7天的数据,不支持做单独的数据备份。 CDL的数据存储在DBService与Kafka服务中,系统管理员可以通过创建备份DBService和Kafka的任务来备份数据。
入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同map,完成数据导入后保持源文件的目录结构。 选择“SIZE”,表示按大小分割源文件,即每个map处理一定大小的输入文件,同一个源文件可分割至多个map,数据保存至
入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同map,完成数据导入后保持源文件的目录结构。 选择“SIZE”,表示按大小分割源文件,即每个map处理一定大小的输入文件,同一个源文件可分割至多个map,数据保存至
入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同map,完成数据导入后保持源文件的目录结构。 选择“SIZE”,表示按大小分割源文件,即每个map处理一定大小的输入文件,同一个源文件可分割至多个map,数据保存至