检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。对分区内数据进行查询,可缩小查询范围,加快数据的检索速度和可对数据按照一定的条件进行管理。 分区是在创建表的时候用PARTITIONED BY子句定义的。 CREATE EXTERNAL TABLE
MRS集群支持创建Task节点,只作为计算节点,不存放持久化的数据,是实现弹性伸缩的基础。 客户价值 在MRS服务只作为计算资源的场景下,使用Task节点可以节省成本,并可以更加方便快捷地对集群节点进行扩缩容,满足用户对集群计算能力随时增减的需求。 用户场景 当集群数据量变化不大而集群业务处
优化shuffle并行度,提升Spark加工效率 所谓的shuffle并发度如下图所示: 集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。 场景 配置项 集群默认值 调整后 Jar作业
由于MapReduce的作业日志和任务日志(聚合功能开启的情况下)都保存在HDFS上。对于计算任务量大的集群,如果不进行合理的配置对日志文件进行定期归档和删除,日志文件将占用HDFS大量内存空间,增加集群负载。 日志归档是通过Hadoop Archives功能实现的,Hadoop A
c表示嵌套列全路径,嵌套列具体规则见ADD COLUMNS。 修改列名后自动同步到列comment中,comment的形式为:rename oldName to newName。 系统响应 通过运行DESCRIBE命令查看表列修改。 父主题: Hudi Schema演进及语法说明
xamples/test.txt”文件的读写删除等操作为例,说明HDFS文件的基本操作流程,可分为以下八部分: 通过安全认证。 创建FileSystem对象:fSystem。 调用fSystem的mkdir接口创建目录。 调用fSystem的create接口创建FSDataOut
开发Spark应用 Spark Core样例程序 Spark SQL样例程序 通过JDBC访问Spark SQL样例程序 Spark读取HBase表样例程序 Spark从HBase读取数据再写入HBase样例程序 Spark从Hive读取数据再写入HBase样例程序 Spark
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 ResourceManager持续主备倒换 当一个NodeManager处于unhealthy的状态10分钟时,新应用程序失败 Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred
任务完成后Container挂载的文件目录未清除 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常 重启YARN,本地日志不被删除 执行任务时AppAttempts重试次数超过2次还没有运行失败 ResourceManager重启后,应用程序会移回原来的队列 YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
务自研组件,提供长期的支持和演进。 普通版:主要依托开源组件的能力,融入了MRS服务自研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。
规则 单表(分布式表)的记录数不要超过万亿,对于万亿以上表的查询,性能较差,且集群维护难度变大。单表(本地表)不超过百亿。 表的设计都要考虑到数据的生命周期管理,需要进行TTL表属性设置或定期老化清理表分区数据。 单表的字段建议不要超过5000列。 因为当一次插入的数据大小超过“mi
开发流程中各阶段的说明如图1和表1所示。 图1 ClickHouse应用程序开发流程 表1 ClickHouse应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解ClickHouse的基本概念。 基本概念 准备开发和运行环境 ClickHouse的应用程序
table_name 表名。 注意事项 在执行此命令之前,应将旧表的表结构定义schema和数据复制到新数据库位置。 对于旧版本仓库,源集群和目的集群的时区应该相同。 新的数据库和旧数据库的名字应该相同。 如果表是聚合表,则应将所有聚合表复制到新的数据库位置。 如果旧集群使用HIVE元数据库来存储
ClickHouse企业级能力增强 通过ELB访问ClickHouse ClickHouse开启mysql_port配置 父主题: 使用ClickHouse
用于开发Spark应用程序的工具。版本要求:13.1.6及以上版本。 安装Scala Scala开发环境的基本配置。版本要求:2.11.0及以上版本。 安装Scala插件 Scala开发环境的基本配置。版本要求:0.35.683及以上版本。 安装Python Python开发环境的基本配置。版本要求:Python2
配置Doris高可用功能 Doris集群高可用方案概述 配置通过ELB访问Doris集群 父主题: Doris企业级能力增强
加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。 在会产生shuffle的操作函数内设置并行度参数,优先级最高。 testRDD
MRS集群是否支持重装系统? 问: MRS集群是否支持重装系统? 答: MRS集群内节点操作系统为ECS初始镜像,不支持重装操作系统。 父主题: 节点管理类
开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常见概念 准备开发和运行环境 Oozie的应用程序当前
开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常见概念 准备开发和运行环境 Oozie的应用程序当前