检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
该键与config.xml中配置的分片权重(weight)一同决定写入分布式表时的路由,即数据最终落到哪个物理表上。它可以是表中一列的原始数据(如site_id),也可以是函数调用的结果,如上面的SQL语句采用了随机值rand()。注意该键要尽量保证数据均匀分布,另外一个常用的操作是
sk的临时输出结果commit到最终的结果输出目录。特别是在大集群中,大Job的commit过程会严重影响任务的性能表现。 针对以上情况,可以通过将以下参数“mapreduce.fileoutputcommitter.algorithm.version”配置为“2”,来提升MR Job
准备ClickHouse应用开发和运行环境 根据场景开发工程 提供样例工程,帮助用户快速了解ClickHouse各部件的编程接口。 导入并配置ClickHouse样例工程 运行程序及查询结果 用户可以直接通过运行结果查看应用程序运行情况。 在本地Windows环境中调测ClickHouse应用(MRS
被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致。 配置参数 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。
开启CCSMap特性 操作场景 CompactedConcurrentSkipListMap(简称CCSMap)特性优化了Memstore的数据结构,可以有效减少数据写入场景下的内存占用,降低GC频率,优化数据写入性能。若实际业务场景中对数据写入性能要求较高时,建议开启此特性。 本章节内容仅适用于MRS
NameNode启动慢。 当出现这种现象时,您可以通过如下方式提升NameNode的启动速度。 删除大量文件时,不要立刻重启NameNode,待DataNode删除了对应的Block后重启NameNode,即不会存在这种情况。 您可以通过hdfs dfsadmin -report
补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 主键:配置是否为主键列。普通HBase表主键只能指定一个;phoenix表主键可以指定多个,配置多个列为主键时,会按照配置列的先后顺序对其进行拼接。必须配置一个主键列。 map 是 无 数据处理规则 当配置HBase表名不存在时,作业提交失败。
批量构建HBase全局二级索引数据 场景介绍 在用户的表中预先存在大量数据的情况下,可基于MapReaduce任务,批量构建已有数据的索引数据。 批量构建全局二级索引数据 只有处于INACTIVE状态的索引才能进行批量构建,如需重建索引数据,请先修改索引状态。 数据表中存在大量数
不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。
GROUP BY GROUP BY GROUP BY将SELECT语句的输出行划分成包含匹配值的分组。简单的GROUP BY可以包含由输入列组成的任何表达式,也可以是按位置选择输出列的序号。 以下查询是等效的: SELECT count(*), nationkey FROM customer
“操作日志”页面记录了用户对集群和作业的操作的日志信息。目前,MRS界面记录的日志信息分为以下几类: 集群操作 创建集群、删除集群、扩容集群和缩容集群等操作 创建目录、删除目录和删除文件等操作 作业操作:创建作业、停止作业和删除作业等操作 数据操作:IAM用户任务、新增用户、新增用户组等操作 记录用户操作的日志信息如图1所示:
准备ClickHouse应用开发和运行环境 根据场景开发工程 提供样例工程,帮助用户快速了解ClickHouse各部件的编程接口。 导入并配置ClickHouse样例工程 运行程序及查询结果 用户可以直接通过运行结果查看应用程序运行情况。 在本地Windows环境中调测ClickHouse应用(MRS
建议“-Xms”和“-Xmx”设置成相同的值,这样可以避免JVM动态调整堆内存大小时影响性能。 调整“-XX:NewSize”大小的时候,建议把其设置成和“-XX:MaxNewSize”相同,均为“-Xmx”大小的1/8。 当HBase集群规模越大、Region数量越多时,可以适当调大HMaster的G
待创建的表的名称。该表用于加载数据进行分析。 表名由字母、数字、下划线组成。 productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。 数据库名称由字母、数字、下划线组成。 productName storeCity storeProvince procuctCategory
配置Kafka高可用和高可靠 操作场景 Kafka消息传输保障机制,可以通过配置不同的参数来保障消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高
失败,无法读取到相应数据。 问题2:Spark默认没有加载HBase相关的jar包,需要使用--jars添加到任务中。 处理步骤 问题1:可以尝试开启HBase认证开关:spark.yarn.security.credentials.hbase.enabled=true。但不建议
dynamicAllocation.maxExecutors评估。 Bucket表,可以开启桶裁剪提升主键点查效率 示例: 业务经常使用主键id作为查询条件,执行点查;比如select xxx where id = idx ... 。 建表时,可以加入如下属性,提升查询效率。默认配置下属性值等于primaryKey,即主键。
不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。
xml配置文件,此配置文件上设置“hadoop.security.authentication”为“kerberos”。 解决办法 属于用户使用不当。对于本业务应用来说,若要解决此问题,可以参考如下几种办法: 方法1: 直接参考Hive组件的“jdbc-examples”样例工程,将core-site.
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致