检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对于minor压缩,在阶段1中要合并的segment数量和在阶段2中要合并的已压缩的segment数量。 如何调优 每次CarbonData加载创建一个segment,如果每次加载的数据量较小,将在一段时间内生成许多小文件,影响查询性能。配置该参数将小的segment合并为一个大的segment,然后对数据进行排序,可提高查询性能。
投影裁剪等,这些规则是有效的,但是它对数据是不敏感的。导致的问题是数据表中数据分布发生变化时,RBO是不感知的,基于RBO生成的执行计划不能确保是最优的。而CBO的重要作用就是能够根据实际数据分布估算出SQL语句,生成一组可能被使用的执行计划中代价最小的执行计划,从而提升性能。
通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,只是job配置“job.properties”与工作流配置文件“workflow
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 查询的节点列表信息。 错误码 请参见错误码。 父主题: 集群管理接口
dirs获得数据存储目录。 其中配置文件路径请根据时间环境的集群版本修改,当磁盘有多块时,该配置项有多个,逗号间隔。 使用cd命令进入使用率较高的磁盘对应的3中获取的数据存储目录下。 使用du -sh *命令打印出当前topic的名称及大小。 由于Kafka的全局的数据保留时间默认是7天。部分topi
本章节适用于MRS 3.3.0-LTS及之后版本。 操作场景 ClickHouse支持多副本能力,进行本地表写入的时候,当前节点的数据会立即更新成功,但其他副本之间的数据同步是异步的。 本章节主要介绍如何配置ClickHouse保证副本间数据强一致。 参数配置 配置ClickHouse副本间数据强一致优先级别:单条语句设置
会清理这些文件,需要手动清理。 导出命令的超时时间同查询的超时时间,可以通过SET query_timeout=xxx进行设置。 对于结果集为空的查询,依然会产生一个大小为0的文件。 文件切分会保证一行数据完整的存储在单一文件中,因此文件的大小并不严格等max_file_size。
种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testCreateTable方法中。
方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testCreateTable方法中。
种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testCreateTable方法中。
UDF应该捕获和处理可能发生的异常,不能将异常给服务处理,以避免程序出现未知异常。可以使用try-catch块来处理异常,并在必要时记录异常信息。 UDF中应避免定义静态集合类用于临时数据的存储,或查询外部数据存在较大对象,否则会导致内存占用过高。 应该避免类中import的包和服务侧包冲突,可通过grep
备份目录中可保留的备份文件集数量。 “LocalHDFS”:表示将备份文件保存在当前集群的HDFS目录。 选择此参数值,还需要配置以下参数: “目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录,例如“/
这些函数假定输入字符串包含有效的UTF-8编码的Unicode代码点。不会显式检查UTF-8数据是否有效,对于无效的UTF-8数据,函数可能会返回错误的结果。可以使用from_utf8来更正无效的UTF-8数据。 此外,这些函数对Unicode代码点进行运算,而不是对用户可见的字符(或字形群集
支持 支持 MRS集群管理对象说明 MRS集群包含了各类不同的基本对象,不同对象的描述介绍如表2所示。 表2 MRS基本对象概览 对象 描述 举例 组件 可以完成具体业务的一类功能集合。 例如KrbServer组件和LdapServer组件。 实例 组件的具体实例,一般情况下可使用组件表示。
模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “目的端NameNode IP地址”:备集群NameNode的业务平面IP地址。 “目的端路径”:备份文件存放的位置。 “最大备份数”:填写备份目录中可保留的备份文件集数量。
Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/join
n下一个RDD的算子。如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。如果子RDD的分区到父RDD的分区是窄依赖,就可以实施经典的fusion优
备份目录中可保留的备份文件集数量。 “LocalHDFS”:表示将备份文件保存在当前集群的HDFS目录。 选择此参数值,还需要配置以下参数: “目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录,例如“/
拓扑是一个计算流图。其中每个节点包含处理逻辑,而节点间的连线则表明了节点间的数据是如何流动的。 Spout 在一个Topology中产生源数据流的组件。通常情况下Spout会从外部数据源中读取数据,然后转换为Topology内部的源数据。 Bolt 在一个Topology中接受数据然后执行处理的组件。Bolt可以执
操作场景 存算分离场景下,Hive分区表支持不同的分区分别指定不同的存储源,可以指定一个分区表中不同分区的存储源为OBS或者HDFS。 本特性仅适用于MRS 3.2.0及之后版本。此章节仅说明分区表指定存储源的能力,关于Hive如何在存算分离场景下对接OBS,对接指导可参考Hive对接OBS文件系统章节。