搜索_华为云

Spark应用开发简介 - MapReduce服务 MRS

Spark应用开发简介 Spark简介 Spark是分布式批处理框架，提供分析挖掘与迭代式内存计算能力，支持多种语言（Scala/Java/Python）的应用开发。适用以下场景：数据处理（Data Processing）：可以用来快速处理数据，兼具容错性和可扩展性。迭代计算（Iterative

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > Spark应用开发概述
使用distcp命令跨集群复制HDFS数据 - MapReduce服务 MRS

使用distcp命令跨集群复制HDFS数据操作场景 distcp是一种在集群间或集群内部拷贝大量数据的工具。它利用MapReduce任务实现大量数据的分布式拷贝。前提条件已安装Yarn客户端或者包括Yarn的客户端。例如安装目录为“/opt/client”。各组件业务用户由MRS集群管理

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HDFS > HDFS运维管理
MemArtsCC基本原理 - MapReduce服务 MRS

MemArtsCC基本原理 MemArtsCC是一款面向存算分离架构的分布式计算侧缓存系统，采用极轻量化的架构设计，部署在计算侧的集群中，通过智能预取远端对象存储上的数据提供高速缓存能力，从而来加速计算任务执行。 MemArtsCC在存储层面将远端对象存储(OBS)上的对象进行切

 帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍 > MemArtsCC
Impala - MapReduce服务 MRS
Impala - MapReduce服务 MRS

SQL查询。除了使用相同的统一存储平台之外，Impala还使用与Apache Hive相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue中的Impala查询UI）。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充，Im

帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍
MapReduce基本原理 - MapReduce服务 MRS

当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（化简）函数，用来保证所有映射的键值对共享相同的键组。图1 分布式批处理引擎 MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的Map和Re

帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍 > MapReduce
常见概念 - MapReduce服务 MRS
常见概念 - MapReduce服务 MRS

一个分布式系统框架。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用了集群的高速运算和存储。Hadoop能够对大量数据以可靠的、高效的、可伸缩的方式进行分布式处理。Hadoop是可靠的，因为它假设计算单元和存储会失败，因此维护多个工作数据副本，确保对失败节点重新分布处理；Hadoop

帮助中心 > MapReduce服务 MRS > 产品介绍
数据存储在OBS和HDFS有什么区别？ - MapReduce服务 MRS

数据存储在OBS和HDFS有什么区别？ MRS集群处理的数据源来源于OBS或HDFS，HDFS是Hadoop分布式文件系统（Hadoop Distributed File System），OBS（Object Storage Service）即对象存储服务，是一个基于对象的海量存

 帮助中心 > MapReduce服务 MRS > 常见问题 > 产品咨询类
通过Flume采集指定目录日志系统文件至HDFS - MapReduce服务 MRS

通过Flume采集指定目录日志系统文件至HDFS 应用场景 Flume是一个分布式、可靠和高可用的海量日志聚合的系统。它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。支持在系统中定制各类数据发送方，用于收集数据。同时，提供对数据进行简

 帮助中心 > MapReduce服务 MRS > 最佳实践 > 数据分析
使用distcp命令跨集群复制HDFS数据 - MapReduce服务 MRS

使用distcp命令跨集群复制HDFS数据操作场景 distcp是一种在集群间或集群内部拷贝大量数据的工具。它利用MapReduce任务实现大量数据的分布式拷贝。前提条件已安装Yarn客户端或者包括Yarn的客户端。例如安装目录为“/opt/client”。各组件业务用户由MRS集群管理

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS运维管理
Presto应用开发简介 - MapReduce服务 MRS

Presto应用开发简介 Presto简介 Presto是一种开源、分布式SQL查询引擎，用于对千兆字节至PB级大小的数据源进行交互式分析查询。 Presto主要特点如下：多数据源：Presto可以支持Mysql，Hive，JMX等多种Connector。支持SQL：Presto完全支持ANSI

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Presto开发指南 > Presto应用开发概述
Presto - MapReduce服务 MRS
Presto - MapReduce服务 MRS

Presto允许查询的数据源包括Hadoop分布式文件系统（HDFS），Hive，HBase，Cassandra，关系数据库甚至专有数据存储。一个Presto查询可以组合不同数据源，执行跨数据源的数据分析。图1 Presto架构 Presto分布式地运行在一个集群中，包含一个Coord

帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍
Spark应用开发常用概念 - MapReduce服务 MRS

RDD 即弹性分布数据集（Resilient Distributed Dataset），是Spark的核心概念。指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。 RDD的生成：从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建。

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x） > Spark开发指南 > Spark应用开发概述
CDL - MapReduce服务 MRS
CDL - MapReduce服务 MRS

一个CDLService都可以进行业务操作；CDLConnector是分布式模式，提供了高可靠和Rebalance的能力，创建任务时指定的task数量会在整个集群中的CDLConnector实例之间做均衡，保证每个实例上运行的task数量大致相同，如果某个CDLConnector

帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍
ALM-45428 ClickHouse磁盘IO异常 - MapReduce服务 MRS

主机名产生告警的主机名对系统的影响 ClickHouse读写数据异常，本地表的INSERT、SELECT和CREATE操作概率异常，分布式表基本不受影响。影响业务，会导致IO失败。可能原因磁盘老化或者磁盘坏道。处理步骤在FusionInsight Manager首页，选择“运维

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
成长地图 - MapReduce服务 MRS
成长地图 - MapReduce服务 MRS

华为云大数据技术解密华为云大数据技术私享会资料下载华为云EI企业智能华为云EI基于AI和大数据技术，通过云服务的方式提供开放可信的平台。智能客服您好！我是有问必答知识渊博的的智能问答机器人，有问题欢迎随时求助哦！社区求助华为云社区是华为云用户的聚集地。这里有来自各服务的技术牛人，为您解决技术难题。

帮助中心 > MapReduce服务 MRS > 成长地图
PyFlink样例程序开发思路 - MapReduce服务 MRS

PyFlink样例程序开发思路假定业务平台需要提交Flink任务到MRS集群，业务平台主要使用的语言是Python，提供Python读写Kafka作业和Python提交SQL作业的样例。本场景适用于MRS 3.3.0及以后的集群版本。父主题： PyFlink样例程序

 帮助中心 > MapReduce服务 MRS > 开发指南（LTS版） > Flink开发指南（安全模式） > 开发Flink应用 > PyFlink样例程序
PyFlink样例程序开发思路 - MapReduce服务 MRS

PyFlink样例程序开发思路假定业务平台需要提交Flink任务到MRS集群，业务平台主要使用的语言是Python，提供Python读写Kafka作业和Python提交SQL作业的样例。本场景适用于MRS 3.3.0及以后的集群版本。父主题： PyFlink样例程序

 帮助中心 > MapReduce服务 MRS > 开发指南（LTS版） > Flink开发指南（普通模式） > 开发Flink应用 > PyFlink样例程序
ClickHouse容量规划设计 - MapReduce服务 MRS

ClickHouse容量规划设计为了能够更好的发挥ClickHouse分布式查询能力，在集群规划阶段需要合理设计集群数据分布存储。当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息，磁盘容量达90%后集群会处于只读状态。出现磁盘告警信息后需要考虑是否是容量

 帮助中心 > MapReduce服务 MRS > 组件应用开发规范 > ClickHouse应用开发规范 > ClickHouse集群规划
Yarn节点配置调优 - MapReduce服务 MRS

/srv/BigData/yarn/data2/nm/containerlogs。这样数据就会存储在所有设置的目录中，一般会是在不同的设备中。为保证磁盘IO负载均衡，需要提供几个路径且每个路径都对应一个单独的磁盘。应用程序的本地化后的日志目录存在于相对路径/application_%{appi

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Yarn > Yarn性能调优
HBase本地二级索引介绍 - MapReduce服务 MRS

HBase本地二级索引介绍场景介绍 HBase是基于Key-Value的分布式存储数据库，基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据，或者扫描指定rowkey范围内的数据，HBase可以快速查找到需要读取的数据，从而提高效率。在大多数实

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HBase > HBase企业级能力增强 > 配置HBase本地二级索引提升查询效率

总条数： 822

上一页
1
...
6
7
8
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Spark应用开发简介 - MapReduce服务 MRS

使用distcp命令跨集群复制HDFS数据 - MapReduce服务 MRS

MemArtsCC基本原理 - MapReduce服务 MRS

Impala - MapReduce服务 MRS

MapReduce基本原理 - MapReduce服务 MRS

常见概念 - MapReduce服务 MRS

数据存储在OBS和HDFS有什么区别？ - MapReduce服务 MRS

通过Flume采集指定目录日志系统文件至HDFS - MapReduce服务 MRS

使用distcp命令跨集群复制HDFS数据 - MapReduce服务 MRS

Presto应用开发简介 - MapReduce服务 MRS

Presto - MapReduce服务 MRS

Spark应用开发常用概念 - MapReduce服务 MRS

CDL - MapReduce服务 MRS

ALM-45428 ClickHouse磁盘IO异常 - MapReduce服务 MRS

成长地图 - MapReduce服务 MRS

PyFlink样例程序开发思路 - MapReduce服务 MRS

PyFlink样例程序开发思路 - MapReduce服务 MRS

ClickHouse容量规划设计 - MapReduce服务 MRS

Yarn节点配置调优 - MapReduce服务 MRS

HBase本地二级索引介绍 - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线