检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作,使用Hive客户端对Hive表进行操作。 文件浏览器使用介绍 访问Hue WebUI,请参考访问Hue
运行SparkSql作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个SparkSql作业。 SparkSql作业用于查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句涉及敏感信息,也可使用脚本文件方式提交。
开启HetuEngine自适应查询执行 本章节适用于MRS 3.2.0及以后版本。 HetuEngine自适应查询介绍 一般来说,大任务的SQL语句(例如在从整个表中扫描大量数据的情况)会占用大量的资源,在资源紧张的情况下,会影响其他任务的负载。这不仅导致用户体验不佳,也会提高运
配置从NameNode支持读操作 配置场景 在配置了HA的HDFS集群中,存在一个主NameNode和一个备NameNode。主NameNode处理所有的客户端请求,备NameNode保持最新的元数据信息和块位置信息。但是在这种架构存在一个缺点:主NameNode会成为客户端请求
使用ZooKeeper客户端 ZooKeeper是一个开源的,高可靠的,分布式一致性协调服务。ZooKeeper设计目标是用来解决那些复杂,易出错的分布式系统难以保证数据一致性的。不必开发专门的协同应用,十分适合高可用服务保持数据一致性。 背景信息 在使用客户端前,除主管理节点以
OpenTSDB应用开发简介 OpenTSDB简介 OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点:
RS集群组件数据。 MRS 3.1.0及之后版本才支持备份数据到OBS。 备份恢复任务的使用场景如下: 用于日常备份,确保系统及组件的数据安全。 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。
小,以改善并行性并避免混排大量数据。 将Clustering计划以avro元数据格式保存到时间线。 执行Clustering:使用执行策略处理计划以创建新文件并替换旧文件。 读取Clustering计划,并获得ClusteringGroups,其标记了需要进行Clustering的文件组。
Streaming应用创建1个输入流,但该输入流无输出逻辑时,则不会给它设置context。所以在序列化时报“NullPointerException”。 解决办法:应用中如果有无输出逻辑的输入流,则在代码中删除该输入流,或添加该输入流的相关输出逻辑。 父主题: Spark Streaming
小值、最大值所在记录无法导入。 分区列空值 配置对数据库列中为null值记录的处理方式。值为“true”时,分区列的值为null的数据会被处理;值为“false”时,分区列的值为null的数据不会被处理。 是否指定分区列 是否指定分区列。 oracle-connector 表名 表名。
如果集群为普通模式,需先执行su - omm切换为omm用户。 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令认证hdfs身份。 kinit hdfs 是否调整带宽控制? 是,执行5。 否,执行6。 执行以下命令,修改Balance的最大带宽,然后执行6。
如果集群为普通模式,需先执行su - omm切换为omm用户。 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令认证hdfs身份。 kinit hdfs 是否调整带宽控制? 是,执行5。 否,执行6。 执行以下命令,修改Balance的最大带宽,然后执行6。
应HBase NameSpace的RWXA权限)和HDFS权限(对应HFile输出目录的读写权限)。 如果集群已启用Kerberos认证(安全模式),需修改Spark“客户端安装目录/Spark/spark/conf/spark-defaults.conf”配置文件中的“spark
数据恢复后,需要重新启动HDFS的上层应用。 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份HDFS业务数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。
输出字段名:配置输出字段名。 对齐类型:配置清除方式(前空格、后空格、前后空格)。 map 是 无 数据处理规则 清空值两边的空格,支持只清除左边、只清除右边和同时清除左右空格。 传入数据为NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 样例 通过“
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
OpenTSDB OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB由时间序列守护进程(TSD)和一组命令
16T的文本数据转成4T Parquet数据失败 问题 使用默认配置时,16T的文本数据转成4T Parquet数据失败,报如下错误信息。 Job aborted due to stage failure: Task 2866 in stage 11.0 failed 4 times
配置DataNode节点容量不一致时的副本放置策略 操作场景 默认情况下,NameNode会随机选择DataNode节点写文件。当集群内某些数据节点的磁盘容量不一致(某些节点的磁盘总容量大,某些总容量小),会导致磁盘总容量小的节点先写满。通过修改集群默认的DataNode写数据时