检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CarbonData表简介 简介 CarbonData表与RDBMS中的表类似,RDBMS数据存储在由行和列构成的表中。CarbonData表存储的也是结构化的数据,具有固定列和数据类型。CarbonData中的数据存储在表实体文件中。 支持的数据类型 CarbonData表支持以下数据类型: Int
最小资源:保证租户能获得的资源(有抢占支持)。取值可以是父租户资源的百分比或绝对值。当租户作业量比较少时,资源会自动借给其他租户,当租户能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源:租户最多能使用的资源,租户不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。
spark.sql.streaming.stateStore.providerClass 用于管理有状态流查询中的状态数据的类。此类必须是StateStoreProvider的子类,并且必须具有零参数构造函数。 配置参数值为org.apache.spark.sql.execution
配置相同的名称。 脚本路径 obs://mrs-samples/xxx.sh 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以
────── ┴───── ┴──────────┴─────────┘ --删除表t1的列test01 ALTER TABLE t1 DROP COLUMN test01; --查询修改后的表t1 desc t1 ┌─name────┬─type─┬─default_type─
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDFS,通过类MultiCompone
需要手动运行任务才能进行备份。 在“备份配置”指定需要备份的数据。 支持备份元数据和业务数据。 各组件不同数据的备份任务操作请参考备份恢复MRS集群数据。 单击“确定”保存。 在备份任务列表,可以查看刚创建的备份任务。 在指定的备份任务“操作”列,选择“更多 > 即时备份”,可以立即运行备份任务。
如果集群同时开启“OBS权限控制”功能,此时会使用ECS配置的默认委托“MRS_ECS_DEFAULT_AGENCY”或者用户设置的自定义委托的AK/SK访问OBS服务,同时OBS服务会使用接收到的AK/SK访问数据加密服务获取KMS密钥状态,因此需要在使用的委托上绑定“KMS Administ
TABLE命令会失败: 当源表和目标表的列数据类型不同时,源表中的数据将被视为Bad Records,则INSERT INTO命令会失败。 源列上的aggregartion函数的结果超过目标列的最大范围,则INSERT INTO命令会失败。 解决方法: 在进行插入操作时,可在对应的列上使用cast函数。
当前数据库下名为“table_name”的表。 例如执行命令,删除数据库“productdb”下的表“productSalesTable”: DROP TABLE productdb.productSalesTable; 执行以下命令查询表是否被删除: SHOW TABLES; 父主题:
的是丢失的这个task在哪个节点上面运行,一般的情况是这个丢失的task异常退出导致的。 处理步骤 问题1: 对于数据量过大,需要调整executor的内存大小的,使用--executor-memory指定内存大小; 对于同时运行的task太多,主要看--executor-cores设置的vcore数量。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。 可能原因 该节点实例内存使用率过大,或配置的内存不合理。 处理步骤
Spark动态脱敏开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时,保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持非SQL使用方法的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持复杂类型array、map、struct的脱敏。
如果报错的是三方包里面的类,可能是因为Spark已经自带了相关的jar包,但是和代码中使用的版本不一致。 操作步骤 方案一: 针对jar包冲突的问题,可以确认是否不需使用三方工具的包,如果可以更改为集群相同版本的包,则修改引入的依赖版本。 建议用户尽量使用MRS集群自带的依赖包。 方案二: jar包版本修改演示
如果报错的是三方包里面的类,可能是因为Spark已经自带了相关的jar包,但是和代码中使用的版本不一致。 操作步骤 方案一: 针对jar包冲突的问题,可以确认是否不需使用三方工具的包,如果可以更改为集群相同版本的包,则修改引入的依赖版本。 建议用户尽量使用MRS集群自带的依赖包。 方案二: jar包版本修改演示
Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager可以: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举 使用选择生成分区分配以选择要使用的分区方案
MapReduce访问多组件样例代码 功能介绍 主要分为三个部分: 从HDFS原文件中抽取name信息,查询HBase、Hive相关数据,并进行数据拼接,通过类MultiComponentMapper继承Mapper抽象类实现。 获取拼接后的数据取最后一条输出到HBase、HDFS,通过类MultiCompone
客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言 Hive Query Language,类SQL语句,与Hive类似。
客户端直接面向用户,可通过Java API、Thrift API访问服务端进行Impala的相关操作。本文中的Impala客户端特指Impala client的安装目录,里面包含通过Java API访问Impala的样例代码。 HiveQL语言 Hive Query Language,类SQL语句,与Hive类似。
这两种采样方法都不允许限制结果集返回的行数。 BERNOULLI 每一行都将基于指定的采样率选择到采样表中。当使用Bernoulli方法对表进行采样时,将扫描表的所有物理块并跳过某些行(基于采样百分比和运行时计算的随机值之间的比较)。结果中包含一行的概率与任何其他行无关。这不会减少从磁盘读取采样表所需的时间。