检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
典型场景:从FTP服务器导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从FTP服务器导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。若源文件
使用MRS Hive表对接OBS文件系统 应用场景 MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离场景。 用户通过IAM服务的“委托”机制进行简单配置,即可实现OBS的访问。 方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
storm-autocreds-<version>.jar IntelliJ IDEA代码样例 创建Topology。 public static void main(String[] args) throws Exception { Config conf =
配置Spark SQL开启Adaptive Execution特性 配置场景 Spark SQL Adaptive Execution特性用于使Spark SQL在运行过程中,根据中间结果优化后续执行流程,提高整体执行效率。当前已实现的特性如下: 自动设置shuffle partition数
配置Spark SQL开启Adaptive Execution特性 配置场景 Spark SQL Adaptive Execution特性用于使Spark SQL在运行过程中,根据中间结果优化后续执行流程,提高整体执行效率。当前已实现的特性如下: 自动设置shuffle partition数。
Oozie Oozie简介 Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。 Oozie结构 Oozie引擎是一个Web App应用,默认集成到Tomcat中,采用pg数据库。 基于Ext提供WEB Console,该Console仅提供对
storm-autocreds-<version>.jar IntelliJ IDEA代码样例 创建Topology。 public static void main(String[] args) throws Exception { TopologyBuilder builder
由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败 问题现象 集群访问OBS上报403异常。 原因分析 集群Master节点NTP时间与集群外节点的NTP服务器时间不同步,时间相差超过15min,导致集群访问OBS时鉴权失败,上报403异常。 处理步骤 以root用户登录集群主Master节点。
JobGateway常见参数 参数入口 请参考修改集群服务配置参数进入JobGateway服务配置页面。 参数说明 表1 JobGateway参数说明 参数 参数说明 默认值 HTTP_INSTANCE_PORT JobServer服务http端口。 默认值:29973 取值范围:29970~29979
表输出 概述 “表输出”算子,用于配置输出的字段对应到关系型数据库的指定列。 输入与输出 输入:需要输出的字段 输出:关系型数据库表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。 说明: 该配置仅用于MySQL专用连接器,当数据列内容
Spark Structured Streaming对接Kafka样例程序开发思路 场景说明 假定一个广告业务,存在广告请求事件、广告展示事件、广告点击事件,广告主需要实时统计有效的广告展示和广告点击数据。 已知: 终端用户每次请求一个广告后,会生成广告请求事件,保存到kafka的adRequest
ALM-45448 ClickHouse使用Znode数量增长速率过快 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 Clickhouse中元数据信息会存储在Zookeeper上,因此会占用Znode,但是在业务无大的变动的场景下,Znode占用数出现持续陡增,两小时增
Hive CBO原理介绍 Hive CBO原理介绍 CBO,全称是Cost Based Optimization,即基于代价的优化器。 其优化目标是: 在编译阶段,根据查询语句中涉及到的表和查询条件,计算出产生中间结果少的高效join顺序,从而减少查询时间和资源消耗。 Hive中实现CBO的总体过程如下:
MRS集群节点规格说明 MRS节点规格 MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。 弹性云服务器由多个租户共享物理资源,而裸金属服务器的资源归用户独享。对于关键类应用或性能要求较高的业务(如大数据集群、企业中间件系统),并且要求安全可靠的运行环境,使用裸金属服务器更合适。
访问FusionInsight Manager(MRS 3.x及之后版本) 操作场景 MRS 3.x及之后版本的集群使用FusionInsight Manager对集群进行监控、配置和管理。用户在集群安装后可使用账号登录FusionInsight Manager。 当前支持以下几种方式访问FusionInsight
ALM-50217 FE节点堆内存的使用率超过阈值 告警解释 系统每30秒周期性检查FE节点堆内存的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点堆内存的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50217 紧急 是 告警参数
ALM-45641 FlinkServer主备节点同步数据异常 本章节适用于MRS 3.2.0及以后版本。 告警解释 系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。 当备FlinkS
表输出 概述 “表输出”算子,用于配置输出的字段对应到关系型数据库的指定列。 输入与输出 输入:需要输出的字段 输出:关系型数据库表 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出分隔符 配置分隔符。 说明: 该配置仅用于MySQL专用连接器,当数据列内容
Flink REST API接口介绍 Flink具有可用于查询正在运行的作业的状态和统计信息以及最近完成作业的监视API。该监视API由Flink自己的WEB UI使用。 监视API是REST API,可接受HTTP GET请求并使用JSON数据进行响应。REST API是访问W