检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速使用Hive进行数据分析 Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 背景信息
使用FineBI访问MRS HetuEngine 应用场景 FineBI是一款商业智能产品,针对企业信息化遇到的困难,为企业提供专业的商业智能解决方案。 本章节以FineBI 5.1.9版本为例,讲解如何使用FineBI访问安全模式MRS集群的HetuEngine。 方案架构 出
Manager的服务列表中,查看通过9获取的HBase实例运行状态是否为“良好”。 是,执行14。 否,执行11。 在告警列表中,查看是否有“ALM-19000 HBase服务不可用”告警产生。 是,执行12。 否,执行14。 参考ALM-19000 HBase服务不可用的处理步骤处理该故障。
调整Spark Core进程参数 操作场景 Spark on Yarn模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。
总副本预留磁盘空间所单击率”页面单击“修改”更改阈值。 图1 修改阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 查看是否有磁盘空间不足告警 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”查看是否存在告警“ALM-14001 H
是,操作结束。 否,执行5。 检查数据节点是否正常。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 查看是否有“ALM-12006 节点故障”、“ALM-12007 进程故障”、“ALM-14002 DataNode磁盘空间使用率超过阈值”告警。 是,执行7。
Flink任务开发规则 对有更新操作的数据流进行聚合计算时要注意数据准确性问题 在针对更新数据进行聚合需要选择合适的解决方案,否则聚合结果会是错误的。 例如: Create table t1( id int, partid int, value int );
调整Spark Core进程参数 操作场景 Spark on Yarn模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Driver和Executor承担了很大的责任,而ApplicationMaster主要负责container的启停。
批量导出Loader作业 操作场景 Loader支持批量导出已有作业。 前提条件 当前用户具备待导出作业的编辑“Edit”权限或作业所在分组的编辑“Jobs Edit”权限。 操作步骤 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问集群Manager。
MapReduce应用开发简介 MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架,基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。 一个MapReduce作业(applica
使用或切换到拥有HDFS上传权限的用户。 使用HDFS上传命令,将“dataLoad”目录上传到HDFS某个指定目录(oozie_cli用户需要对该目录有读写权限)。 该指定目录需要与之前“job.properties”中定义的“oozie.coord.application.path”属性和
1。 表1 模块说明 名称 说明 Source Source负责接收数据或产生数据,并将数据批量放到一个或多个Channel。Source有两种类型:数据驱动和轮询。 典型的Source样例如下: 和系统集成并接收数据的Sources:Syslog、Netcat。 自动生成事件数据的Sources:Exec、SEQ。
恢复IoTDB业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对IoTDB进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对IoTDB进行恢复数据操作。 系统管理员可以通过FusionInsight
创建CDL数据比较任务作业 操作场景 数据比对即是对源端数据库中的数据和目标端Hive中的数据作数据一致性校验,如果数据不一致,CDL可以尝试修复不一致的数据。 当前数据对比任务支持手动全量任务比对。数据比对任务采用On Yarn的运行形态,比对结果会上传到HDFS目录。 数据比对目前仅支持基本数据类型比对,
Kafka Java API介绍 Kafka相关接口同开源社区保持一致,详情请参见https://kafka.apache.org/24/documentation.html。 Producer重要接口 表1 Producer重要参数 参数 描述 备注 bootstrap.servers
创建具体操作请参见创建HetuEngine权限角色。 已在待操作集群创建所需租户。请确保修改HetuEngine计算实例配置时,对应的租户有足够的内存和CPU资源。 创建HetuEngine计算实例时必须使用“叶子租户”类型的租户,只有叶子租户的队列才能提交Yarn任务。 为了避
批量导出Loader作业 操作场景 Loader支持批量导出已有作业。 本章节适用于MRS 3.x及后续版本。 前提条件 当前用户具备待导出作业的编辑“Edit”权限或作业所在分组的编辑“Jobs Edit”权限。 操作步骤 登录“Loader WebUI”界面。 登录FusionInsight
修改MRS集群系统域名 操作场景 每个系统用户安全使用的范围定义为“域”,不同的系统需要定义唯一的域名。FusionInsight Manager的域名在安装过程中生成,如果需要修改为特定域名,系统管理员可通过FusionInsight Manager进行配置。 修改系统域名为高
1。 表1 模块说明 名称 说明 Source Source负责接收数据或产生数据,并将数据批量放到一个或多个Channel。Source有两种类型:数据驱动和轮询。 典型的Source样例如下: 和系统集成并接收数据的Sources:Syslog、Netcat。 自动生成事件数据的Sources:Exec、SEQ。
IoTDB Java API接口介绍 IoTDB提供了一个针对原生接口的连接池(SessionPool),使用该接口时,您只需要指定连接池的大小,就可以在使用时从池中获取连接。如果超过60s没有得到一个连接,就会打印一条警告日志,但是程序仍将继续等待。 当一个连接被用完后,该连接