检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
多种索引技术、全局字典编码和多次的Push down优化,从而对TB级数据查询进行最快响应。 高效率数据压缩:CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%~80%数据存储空间,大大节省硬件存储成本。 关于CarbonData的架构和详细原理
thub.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下HDFS相关样例工程: 表1 HDFS相关样例工程 样例工程位置 描述
thub.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下HDFS相关样例工程: 表1 HDFS相关样例工程 样例工程位置 描述
thub.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下MapReduce相关样例工程: 表1 MapReduce相关样例工程
MRS各组件样例工程汇总 样例工程获取地址参见获取MRS应用开发样例工程,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 MRS样例代码库提供了各组件的基本功能样例工程供用户使用,当前版本各组件提供的样例工程汇总参见表1。 表1
Copy阶段的调优 数据是否压缩: 对Map的中间结果进行压缩,当数据量大时,会显著减少网络传输的数据量,但是也因为多了压缩和解压,带来了更多的CPU消耗。因此需要做好权衡。当任务属于网络瓶颈类型时,压缩Map中间结果效果明显。针对bulkload调优,压缩中间结果后性能提升60%左右。
MRS各组件样例工程汇总 样例工程获取地址参见获取MRS应用开发样例工程,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 MRS样例代码库提供了各组件的基本功能样例工程供用户使用,当前版本各组件提供的样例工程汇总参见表1。 表1
thub.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Spark2x相关样例工程: 表1 Spark2x相关样例工程 样例工程位置
按主键合并,并且是行存的,导致log读取效率比parquet低很多。为了解决log读取的性能问题,Hudi通过compaction将log压缩成parquet文件,大幅提升读取性能。 规则 有数据持续写入的表,24小时内至少执行一次compaction。 对于MOR表,不管是流式
thub.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Spark2x相关样例工程: 表1 Spark2x相关样例工程 样例工程位置
c/desktop/js/ace 执行如下命令找到ace.js的hash文件。 ll ace.*.js 示例结果如下: 执行如下命令打开并编辑上述的ace.*.js文件,也即修改hash文件。 vim ace.18f1745e9832.js 在ace.*.js文件中搜索“t.on
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 服务审计日志在系统本地最多保存7个压缩文件,如果该故障持续存在,本地服务审计日志可能会丢失。 管理审计日志每达到10万条会以文件形式转储到本地,存储在本地的文件最多保留50个,
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS管理控制台。
ickHouse表的创建与查询操作指导。 ClickHouse是一款开源的面向联机分析处理的列式数据库,独立于Hadoop大数据体系,具有压缩率和极速查询性能。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。 创建MRS集群:自定义创建一个MRS 3.2.0-LTS
Hudi Savepoint操作说明 Savepoint用于保存并还原自定义的版本数据。 Hudi提供的savepoint就可以将不同的commit保存起来以便清理程序不会将其删除,后续可以使用Rollback进行恢复。 使用spark-sql管理savepoint。 示例如下:
调整HDFS SHDFShell客户端日志级别 临时调整,关闭该shell客户端窗口后,日志会还原为默认值。 执行export HADOOP_ROOT_LOGGER命令可以调整客户端日志级别。 执行export HADOOP_ROOT_LOGGER=日志级别,console,可以调整shell客户端的日志级别。
询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update ClickHouse的应用场景: 实时数仓场景
询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update ClickHouse的应用场景: 实时数仓场景
ClickHouse基本原理 ClickHouse简介 ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。
询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点: 数据压缩比高 多核并行计算 向量化计算引擎 支持嵌套数据结构 支持稀疏索引 支持数据Insert和Update ClickHouse的应用场景: 实时数仓场景