检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
by/max/maxby/sum/sumby等)进行相应操作。 fields为数据某几列的序号或者成员变量的名称。 key则为用户自定义的指定分区依据的方法。 public KeyedStream<T, Tuple> keyBy(String... fields) public <K>
by/max/maxby/sum/sumby等)进行相应操作。 fields为数据某几列的序号或者成员变量的名称。 key则为用户自定义的指定分区依据的方法。 public KeyedStream<T, Tuple> keyBy(String... fields) public <K>
清除ClickHouse默认用户密码 本章节指导用户在创建ClickHouse集群(普通模式)后,清除ClickHouse的默认用户“default”和“clickhouse”的密码。 本章节适用于MRS 3.3.0及之后版本。 “default”和“clickhouse”用户为
" : 373, "numActiveBatches" : 0, "numProcessedRecords" : 1, "numReceivedRecords" : 1, "avgInputRate" : 0.002680965147453083, "avgSchedulingDelay"
设置Spark Core并行度 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到更优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行
HDFS基本原理 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件
Spark Core内存调优 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到合适。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度
使用Yarn客户端提交任务 操作场景 该任务指导用户在运维场景或业务场景中使用Yarn客户端。 前提条件 已安装客户端。 例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 各组件业务用户由MRS集群管理员根据业务需要创建。安全模式下
MRS 1.9.2.3及之后版本补丁说明 MRS 1.9.2.5补丁说明 表1 补丁基本信息 补丁号 MRS 1.9.2.5 发布时间 2024-05-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task拷贝数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程
在本地Windows环境中调测HetuEngine应用 操作场景 在程序代码完成开发后,可以在Windows环境下进行编译,本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows环境下的Intellij IDEA开发环境中,单击IDEA右侧Maven导入依赖。
ALM-25004 LdapServer数据同步异常 告警解释 系统按30秒周期性检测LdapServer数据,如果连续12次检测,Manager的主备LdapServer的数据内容都不一致,产生该告警,当两者的数据一致时,对应告警恢复。 系统按30秒周期性检测LdapServe
调测HBase Python样例程序 仅MRS 1.9.x及之前版本支持HBase python样例代码调测。 HBase支持使用自带的ThriftServer2服务通过python来访问HBase服务。python样例仅支持在Linux环境中运行,调测HBase python样
MRS可靠性增强 MRS在基于Apache Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的
set(1, sum); context.write(null, record); } } MapReduce任务定义,指定输入/输出类,Mapper/Recducer类,输入输出键值对格式; Job job = new Job(conf, "GroupByDemo");
set(1, sum); context.write(null, record); } } MapReduce任务定义,指定输入/输出类,Mapper/Recducer类,输入输出键值对格式; Job job = new Job(conf, "GroupByDemo");
set(1, sum); context.write(null, record); } } MapReduce任务定义,指定输入/输出类,Mapper/Recducer类,输入输出键值对格式; Job job = new Job(conf, "GroupByDemo");
修改DBService数据库compdbuser用户密码 建议管理员定期修改OMS数据库管理员的密码,以提升系统运维安全性。 该章节内容仅适用于MRS 3.x及之后版本。 登录FusionInsight Manager界面,选择“集群 > 服务 > DBService > 实例”
ALM-16007 Hive GC 时间超出阈值 告警解释 系统每60秒周期性检测Hive服务的GC时间,当检测到Hive服务的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive”修改阈值。当Hive