检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Python API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: pyspark.SparkContext:是Spark的对外接口。负责向调用
Spark Python API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: pyspark.SparkContext:是Spark的对外接口。负责向调用
新建CarbonData表 操作场景 使用CarbonData前需先创建表,才可在其中加载数据和查询数据。可通过Create Table命令来创建表。该命令支持使用自定义列创建表。 使用自定义列创建表 可通过指定各列及其数据类型来创建表。 命令示例: CREATE TABLE IF
获取项目ID 从控制台获取项目ID 在调用接口的时候,部分URL中需要填入项目编号(project_id),所以需要获取到项目编号。项目编号获取步骤如下: 登录管理控制台。 单击用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 多项目时,展开
配置积压告警规则 操作场景 通过KafkaUI可查看并配置需要上报积压告警的规则,当达到配置的积压告警规则要求时,会上报“ALM-38018 Kafka消息积压”告警。 本章节内容仅适用于MRS 3.5.0及之后版本。 配置积压告警规则 进入KafkaUI界面。 使用具有Kafk
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的管理员创建IAM用户说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987
Hive应用开发简介 Hive介绍 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下:
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 请确保集群允许root登录,并且所有节点的root密码一致。
使用客户端运行Loader作业 操作场景 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 Loader不兼容旧版本客户端,如果重新安装集群或Loader服务,请
添加IoTDB数据源 本章节适用于MRS 3.2.0及之后的版本。 本章节指导用户在安全模式集群的HSConsole界面添加IoTDB类型的JDBC数据源。 添加IoTDB数据源前提条件 数据源所在集群域名与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。
重启MRS集群 在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
MRS配置跨集群互信失败 问题背景与现象 MRS 1.8.2之前的版本和MRS 1.8.2及之后的版本的两个集群之间跨集群互信不通。 原因分析 配置跨集群互信后,互信的两个集群均会增加用户“krbtgt/本集群域名@外部集群域名”、“krbtgt/外部集群域名@本集群域名”,由于
如何查看MRS Hive元数据? Hive的元数据存放在MRS服务集群的GaussDB中,可执行如下步骤查看: 以root用户登录到DBServer主节点。 执行以下命令登录Hive元数据库: su - omm source $DBSERVER_HOME/.dbservice_profile
开启HetuEngine自适应查询执行 本章节适用于MRS 3.2.0及以后版本。 HetuEngine自适应查询介绍 一般来说,大任务的SQL语句(例如在从整个表中扫描大量数据的情况)会占用大量的资源,在资源紧张的情况下,会影响其他任务的负载。这不仅导致用户体验不佳,也会提高运
重启MRS集群组件 在修改了大数据组件的配置项后,需要重启对应的组件来使得配置生效,使用普通重启方式会并发重启所有服务或实例,可能引起业务中断。 为了确保服务重启过程中,尽量减少或者不影响业务运行,可以通过滚动重启来按批次重启服务或实例(对于有主备状态的实例,会先重启备实例,再重启主实例)。
使用Loader导入数据至MRS集群 操作场景 该任务指导用户完成将数据从外部的数据源导入到MRS的工作。 一般情况下,用户可以手工在Loader界面管理数据导入导出作业。当用户需要通过shell脚本来更新与运行Loader作业时,必须对已安装的Loader客户端进行配置。 前提条件
Spark Python API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: pyspark.SparkContext:是Spark的对外接口。负责向调用
Geospatial函数 以ST_前缀开头的HetuEngine Geospatial功能支持SQL、MM规范,并符合Open Geospatial Consortium(OGC)的OpenGIS规范。因此,许多HetuEngine Geospatial功能要求或更准确地说是假设
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配
安装补丁 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,在操作列表中单击“安装”。 进入“警告”页面,阅读补丁说明,并单击“确定”。 图1 安装补丁 如果任务失败,选择“重试安装”,只有当“状态”显示为“已安装”时,才能进入下一步操作。