检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群HDFS文件接口 获取指定目录文件列表 父主题: API V2
map 否 无 数据处理规则 将字段值输出到文件。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb
因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 通过管理控制台提交作业 登录MRS管理控制台。
为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间表示所有副本文件在HDFS中占用的磁盘空间大小总和。例如“存储空间配额”设置为“500MB”,则实际只能保存约500/2=250MB大小的文件。 存储路径 /tenant/ta1
MRS集群管理概述 MRS管理平台概述 用户可以在集群创建完成后,通过MRS管理控制台或MRS集群Manager查看集群基本信息并对集群进行管理和运维。 MRS管理控制台:用户可以通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、文件管理、作业管理等操作。
解压目录中“src\hive-examples”目录下的样例工程文件夹“hive-jdbc-example”。 将准备MRS应用开发用户时得到的keytab文件“user.keytab”和“krb5.conf”文件放到样例工程的“hive-jdbc-example\src\main\resources”目录下。
LakeFormation实例,元数据将存储于关联的数据库或LakeFormation实例中,不会随当前集群的删除而删除,多个MRS集群可共享同一份元数据。 Hive组件可选元数据存储方式功能在MRS 1.9.x及之后版本支持。 父主题: 产品功能
spark.sql.hive.filesourcePartitionFileCacheSize 启用内存中分区文件元数据的缓存大小。 所有表共享一个可以使用指定的num字节进行文件元数据的缓存。 只有当“spark.sql.hive.manageFilesourcePartitions
spark.sql.hive.filesourcePartitionFileCacheSize 启用内存中分区文件元数据的缓存大小。 所有表共享一个可以使用指定的num字节进行文件元数据的缓存。 只有当“spark.sql.hive.manageFilesourcePartitions
etu-examples”目录下的样例工程文件夹“python3-examples”。 进入“python3-examples”文件夹。 normal文件夹:普通模式下对接HetuEngine的python3样例代码 security文件夹:安全模式下对接HetuEngine的python3样例代码。
\HetuEngine\config”,手动将配置文件导入到HetuEngine样例工程的配置文件目录中(例如:D:\hetuclient\conf)。 主要配置文件说明如表3所示(根据需要获取所需文件)。 表3 配置文件 文件名称 作用 hdfs-site.xml 配置HDFS详细参数。
IP地址”为MySQL实例IP地址,需要和MRS集群网络互通 。 用户名和密码为登录MySQL的连接用户名和密码。 配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。 分别上传配置文件到Master节点(Coordinator实例所在节点)的“/opt/Bigdata
ConnectionLoss for /hiveserver2 原因分析 MRS 1.8版本和开源版本认证方式一样,在Hive的URL中直接将Kerberos认证的文件传进去进行认证。而在MRS 1.9版本中,此方法行不通,需要先进行Kerberos认证,并且需要获取一些别的配置信息,然后再进行URL拼接。
DBService状态正常,组件无法连接DBService DBServer启动失败 浮动IP不通导致DBService备份失败 DBService配置文件丢失导致启动失败
TL等。Storm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高 保证无数据丢失 容错性好 易于构建和操控 多语言 Storm作为计算平台,在业务层为用户提供了更为易用的业务实现方式:CQL(Continuous Query Language—持续查询语言)。CQL具有以下几个特点:
文件最大打开句柄数设置太小导致读写文件异常 问题背景与现象 文件最大打开句柄数设置太小,导致文件句柄不足。写文件到HDFS很慢,或者写文件失败。 原因分析 DataNode日志“/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-XXX.log”,存在异常提示java
keystore”和“flink.truststore”文件,并且在客户端配置文件“flink-conf.yaml”中将以下配置项进行了默认赋值。 将配置项“security.ssl.keystore”设置为“flink.keystore”文件所在绝对路径。 将配置项“security.ssl
执行exit;退出spark-sql命令行。 OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd 客户端安装目录/Spark2x/spark/conf vi log4j.properties 在文件中添加OBS日志级别配置: log4j
各组件业务用户由MRS集群管理员根据业务需要创建。“机机”用户需要下载keytab文件。“人机”用户第一次登录时需修改密码。(普通模式不涉及) 在修改集群域名后,需要重新下载客户端,以保证客户端配置文件中kerberos.domain.name配置为正确的服务端域名。 使用Kafka客户端
创建用于存放数据的OBS文件夹。 登录OBS控制台。 单击“并行文件系统”进入并行文件系统页面。 在OBS控制台并行文件系统列表中,单击已新建的文件系统名称进入详情页面。 在左侧导航栏选择“文件 > 新建文件夹”新建“testFlumeOutput”文件夹。 使用root用户登录安装Flume客户端的节点。