检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为1000元。 基于某些业务要求,要求开发Spark应用程序实现如下功能: 根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。 上例所示,运行结果table2表用户key=1的总消费金额为cf:cid=1100元。
配置parquet表的压缩格式 配置场景 当前版本对于parquet表的压缩格式分以下两种情况进行配置: 对于分区表,需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties:"parquet
务自研组件,提供长期的支持和演进。 普通版:主要依托开源组件的能力,融入了MRS服务自研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。
配置parquet表的压缩格式 配置场景 当前版本对于parquet表的压缩格式分以下两种情况进行配置: 对于分区表,需要通过parquet本身的配置项“parquet.compression”设置parquet表的数据压缩格式。如在建表语句中设置tblproperties:"parquet
10亿级数据量场景的解决方案有哪些? 问: 10亿级数据量场景的解决方案有哪些? 答: 有数据更新、联机事务处理OLTP、复杂分析的场景,建议使用云数据库 GaussDB(for MySQL)。 MRS的Impala + Kudu也能满足该场景,Impala + Kudu可以在j
'price') 流式计算采用MOR表。 流式计算为低时延的实时计算,需要高性能的流式读写能力,在Hudi表中存在的MOR和COW两种模型中,MOR表的流式读写性能相对较好,因此在流式计算场景下采用MOR表模型。关于MOR表在读写性能的对比关系如下: 对比维度 MOR表 COW表 流式写
配置SparkSQL的分块个数 配置场景 SparkSQL在进行shuffle操作时默认的分块数为200。在数据量特别大的场景下,使用默认的分块数就会造成单个数据块过大。如果一个任务产生的单个shuffle数据块大于2G,该数据块在被fetch的时候还会报类似错误: Adjusted
6)的概率写到磁盘空间使用率低的节点。 第三副本等其他后续副本的存储情况,也参考第二个副本的选择方式。 前提条件 集群里DataNode节点的磁盘总容量偏差不能超过100%。 操作步骤 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面。 调整HDFS写数据时的依据的磁盘选择策略参数。搜索“dfs
配置Hive任务的最大map数 操作场景 此功能适用于Hive。 此功能用于从服务端限定Hive任务的最大map数,避免HiveSever服务过载而引发的性能问题。 操作步骤 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive
手动指定运行Yarn任务的用户 本章节适用于MRS 3.x及后续版本集群。 配置场景 目前Yarn支持启动NodeManager的用户运行所有用户提交的任务,也支持以提交任务的用户运行任务。 配置描述 在Manager系统中,选择“集群 > 服务 > Yarn > 配置”,选择“全部配置”。在搜索框中输入参数名称。
DBServer实例状态 原因分析 数据目录下文件或目录的权限不对,GaussDB要求文件权限至少是600,目录权限至少为700。 图2 目录权限列表 图3 文件权限列表 解决办法 按照图2和图3的权限列表,修改相应文件和目录的权限。 重启相应的DBServer实例。 父主题: 使用DBservice
MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。 弹性云服务器由多个租户共享物理资源,而裸金属服务器的资源归用户独享。对于关键类应用或性能要求较高的业务(如大数据集群、企业中间件系统),并且要求安全可靠的运行环境,使用裸金属服务器更合适。 当使用BMS类型的规格时,不支持升级Master节点规格。
配置Hive任务的最大map数 “hive.mapreduce.per.task.max.splits”参数可用于从服务端限定Hive任务的最大map数,避免HiveSever服务过载而引发的性能问题。 操作步骤 登录FusionInsight Manager页面,选择“集群 >
手动指定运行Yarn任务的用户 配置场景 目前YARN支持启动NodeManager的用户运行所有用户提交的任务,也支持以提交任务的用户运行任务。 配置描述 在Manager系统中,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置”,选择“全部配置”。在搜索框中输入参数名称。
ClickHouseServer实例分布不满足拓扑分配要求。 告警属性 告警ID 告警级别 是否自动清除 45431 紧急 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 部分ClickHouseServer实例不可用。
配置NodeManager角色实例使用的资源 操作场景 如果部署NodeManager的各个节点硬件资源(如CPU核数、内存总量)不一样,而NodeManager可用硬件资源设置为相同的值,可能造成性能浪费或状态异常,需要修改各个NodeManager角色实例的配置,使硬件资源得到充分利用。 对系统的影响 保
配置NodeManager角色实例使用的资源 操作场景 如果部署NodeManager的各个节点硬件资源(如CPU核数、内存总量)不一样,而NodeManager可用硬件资源设置为相同的值,可能造成性能浪费或状态异常,需要修改各个NodeManager角色实例的配置,使硬件资源得到充分利用。 对系统的影响 保
务自研组件,提供长期的支持和演进。 普通版:主要依托开源组件的能力,融入了MRS服务自研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。
配置基于HTTPS/HTTP协议的REST接口 操作场景 WebHCat为Hive提供了对外可用的REST接口,开源社区版本默认使用HTTP协议。 MRS Hive支持使用更安全的HTTPS协议,并且可以在两种协议间自由切换。 安全模式支持HTTPS和HTTP协议,普通模式只支持HTTP协议。
配置自定义调度器的WebUI 配置场景 如果用户在ResourceManager中配置了自定义的调度器,可以通过以下配置项为其配置相应的Web展示页面及其他Web应用。 配置描述 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。 表1 配置自定义调度器的WebUI