检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品优势 MapReduce服务(MRS)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,用户无需关注硬件的购买和维护。MRS服务拥有强大的Hadoop内核团队,基于华为FusionInsight大数据企
Geospatial函数 以ST_前缀开头的HetuEngine Geospatial功能支持SQL、MM规范,并符合Open Geospatial Consortium(OGC)的OpenGIS规范。因此,许多HetuEngine Geospatial功能要求或更准确地说是假设
MapReduce REST API接口介绍 功能简介 通过HTTP REST API来查看更多MapReduce任务的信息。目前Mapresuce的REST接口可以查询已完成任务的状态信息。完整和详细的接口请直接参考官网上的描述以了解其使用: http://hadoop.apache
1,那么{补丁版本号}的值就为MRS_3.2.0-LTS.1.1。 将补丁安装包复制到客户端机器/opt/目录下: scp patch.tar.gz {客户端节点IP地址}:/opt/ 例如: scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 例如: ssh 127.0
新增并执行作业 功能介绍 在MRS集群中新增并提交一个作业。 需要先在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步,然后再通过该接口提交作业。 如需使用OBS加密功能,请先参考“MRS用户指南 > 管理现有集群 > 作业管理 > 使用OBS加密
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set
Flink SQL逻辑开发建议 在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发
ALM-45433 ClickHouse AZ拓扑检查异常 告警解释 在已经部署了ClickHouse的集群开启跨AZ高可用功能,开启前后ClickHouse的拓扑不会变化,此时如果同一shard的副本节点都在同一个AZ内,不能满足跨AZ高可用要求,产生该告警。 当系统检测到所有
Spark应用开发常用概念 基本概念 RDD 即弹性分布数据集(Resilient Distributed Dataset),是Spark的核心概念。指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入
配置Presto通过IAM委托访问OBS 参考配置MRS集群通过IAM委托对接OBS完成存算分离集群配置后,Presto即可通过presto_cli.sh客户端创建表存储在OBS中。 Presto对接OBS 未开启Kerberos认证的集群 使用客户端安装用户,登录已安装客户端的节点。
Spark WebUI页面上stderr和stdout无法跳转到日志页面 问题现象 使用MRS 3.x版本集群,运行Spark任务,在Spark2x服务的WebUI页面上无法直接单击stderr和stdout跳转到日志页面。 原因分析 配置项“spark.httpdProxy.enable”未开启。
HetuEngine样例表数据准备 创建具有TINYINT类型数据的表: --创建具有TINYINT类型数据的表。 CREATE TABLE int_type_t1 (IT_COL1 TINYINT) ; --插入TINYINT类型数据 insert into
配置弹性伸缩规则 功能介绍 对弹性伸缩规则进行编辑。 在创建集群并执行作业接口中也可以创建弹性伸缩规则。 接口约束 无 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/autoscaling-policy/{cluster_id} 表1 路径参数
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
HetuEngine日志介绍 日志描述 日志存储路径: HetuEngine的日志保存路径为“/var/log/Bigdata/hetuengine/”和“/var/log/Bigdata/audit/hetuengine/”。 日志归档规则: 日志归档规则采用FixedWind
opengauss.jdbc.Driver JDBC连接字符串 JDBC连接字符串,格式为: jdbc:opengauss://数据库访问地址:数据库访问端口号/数据库名称 jdbc:opengauss://10.10.10.10:15400/test 用户名 连接数据库使用的用户名。
配置HDFS DiskBalancer磁盘均衡 配置场景 DiskBalancer是一个在线磁盘均衡器,旨在根据各种指标重新平衡正在运行的DataNode上的磁盘数据。工作方式与HDFS的Balancer工具类似。不同的是,HDFS Balancer工具用于DataNode节点间的数据均衡,而HDFS