检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置MRS集群监控指标数据转储 监控指标数据转储介绍 监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。用户可以在Manager界面上配置监控指标数据对接参数,使集群内各监控指标数据保存到指定的FTP服务器,与第三方系统进行对接。
单副本的数据在节点故障时容易丢失,单副本的文件过多会对HDFS文件系统的安全性造成影响。 可能原因 DataNode节点故障。 磁盘故障。 单副本写入文件。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”查看是否存在告警“ALM-14003 丢失的HDFS块数量超过阈值”。
Conditions”区域,单击“Select User”下选择框选择用户。 单击“Add Permissions”,勾选“Read”和“Execute”。 设置用户读取其他用户的目录或文件的权限 在“Resource Path”配置文件夹或文件。 在“Allow Conditions”区域,单击“Select
查看数据分布情况 select FQDN(), database, table, sum(data_compressed_bytes) from clusterAllReplicas(逻辑集群名称, system.parts) where database='库名' and table='表名'
参数描述 表1 CREATE TABLE As SELECT参数描述 参数 描述 database_name Database名称,由字母、数字和下划线(_)组成。 table_name Database中的表名,由字母、数字和下划线(_)组成。 using 参数hudi,定义和创建Hudi
arkSubmit。 HiveScript HiveSql DistCp,导入、导出数据。 SparkScript SparkSql Flink 默认取值: 不涉及 job_state 否 String 参数解释: 作业运行状态。 约束限制: 不涉及 取值范围: FAILED:失败
海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性(
不涉及 取值范围: LOCAL_DB:本地元数据 RDS_POSTGRES:RDS服务PostgreSQL数据库 RDS_MYSQL:RDS服务MySQL数据库 gaussdb-mysql:云数据库GaussDB(for MySQL) 默认取值: 不涉及 cluster_id 否 String
tableName testtb 样例代码工程中需要创建的表名称,可以根据实际情况修改。 batchRows 10000 一个批次写入数据的条数。 batchNum 10 写入数据的总批次。 ClickHouse提供了基于Loadbalance部署架构,可以将用户访问流量自动分发到多台后端节点
tableName testtb 样例代码工程中需要创建的表名称,可以根据实际情况修改。 batchRows 10000 一个批次写入数据的条数。 batchNum 10 写入数据的总批次。 ClickHouse提供了基于Loadbalance部署架构,可以将用户访问流量自动分发到多台后端节点
集群 > 服务 > Doris”,查看“Leader所在的主机”获取。 将代码中PORT = "xxx"的“xxx”修改为Doris的MySQL协议查询连接端口,默认为29982,可登录FusionInsight Manager,选择“集群 > 服务 > Doris > 配置”,搜索“query_port”获取。
和Datasource表的插入写操作逻辑,使用Hive表时逻辑不会自动格式化时间戳,使用Datasource表时会自动格式化时间戳。 如果写入的分区字段是a='2016-8-1 11:45:5'会自动格式化成a='2016-08-01 11:45:05',此时查询使用a='2016-8-1
配置parquet表的压缩格式 使用Ranger时适配第三方JDK 配置Spark小文件自动合并 使用Spark小文件合并工具说明 配置流式读取Spark Driver执行结果 配置Spark Executor退出时执行自定义代码 配置Spark动态脱敏 Spark Distinct聚合优化
可开发复杂逻辑SQL语句的物化视图。 复杂度较高,需要开发很多物化视图,每个物化视图都需要单独去管理和维护。 projection 数据实时同步,数据写入即可查询到物化视图最新数据。 创建表时指定的物化视图语法,新的SQL业务需要修改表结构。 不需要开发很多物化视图,任意查询SQL会自动重写命中物化视图。
Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常 Spark任务读取HBase报错“had a not serializable result” 本地运行Spark程序连接MRS集群的Hive、HDFS 父主题:
按照访问频度从高到低、维度基数从小到大来排列。数据是按照主键排序存储的,查询的时候,通过主键可以快速筛选数据,合理的主键设计,能够大大减少读取的数据量,提升查询性能。例如所有的分析,都需要指定业务的id,则可以将业务id字段作为主键的第一个字段顺序。 根据业务场景合理设计稀疏索引粒度
概述 “算子帮助”章节适用于MRS 3.x及后续版本。 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。
海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性(
海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性(
海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性(