检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
io位于计算和存储之间,为包括Apache Spark、Presto、Mapreduce和Apache Hive的计算框架提供了数据抽象层,使上层的计算应用可以通过统一的客户端API和全局命名空间访问包括HDFS和OBS在内的持久化存储系统,从而实现了对计算和存储的分离。 图1 Alluxio架构
使用LZC压缩算法存储HDFS文件 配置场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度。HDFS有Gzip和Snappy这两种默认压缩格式。本章节为HDFS新增加的压缩格式LZC(Lempel-Ziv Compression)提供配置方法。这种压缩格
“CIFS”:表示将备份文件通过CIFS协议保存在NAS中。选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “端口号”:填写CIFS协议连接NAS服务器使用的端口号,默认值为“445”。
“NFS”:表示将备份文件通过NFS协议保存在NAS中。选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “源端路径”:填写备份文件在NAS服务器中保存的完整路
绑定委托 步骤三:创建OBS文件系统 登录OBS控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“mrs-demo01”。 其他参数请根据需要填写。 图5 创建并行文件系统 单击“立即创建”。 在OBS控制台并行文件系统列表中,单击文件系统名称进入详情页面。
“NFS”:表示将备份文件通过NFS协议保存在NAS中。选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “源端路径”:填写备份文件在NAS服务器中保存的完整路
“NFS”:表示将备份文件通过NFS协议保存在NAS中。选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “源端路径”:填写备份文件在NAS服务器中保存的完整路
“LocalDir”:表示将备份文件保存在主管理节点的本地磁盘上,备管理节点将自动同步备份文件。默认保存目录为“数据存放路径/LocalBackup/”。 选择此参数值,还需要配置“最大备份数”,表示备份目录中可保留的备份文件集数量。 “LocalHDFS”:表示将备份文件保存在当前集群的HDFS目录。
Kudu Kudu是专为Apache Hadoop平台开发的列式存储管理器,具有Hadoop生态系统应用程序的共同技术特性:在通用的商用硬件上运行,可水平扩展,提供高可用性。 Kudu的设计具有以下优点: 能够快速处理OLAP工作负载 支持与MapReduce,Spark和其他Hadoop生态系统组件集成
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表中,这一过程称为分区数据解冻。
选择不同的备份目录时,对应设置如下: “LocalDir”:表示备份文件保存在主管理节点的本地磁盘上。 选择此参数值,还需要配置“源端路径”,表示要恢复的备份文件。例如,“版本号_数据源_任务执行时间.tar.gz”。 “NFS”:表示备份文件通过NFS协议保存在NAS中。 选择此参数值,还需要配置以下参数:
备份目录支持以下类型: “LocalDir”:表示将备份文件保存在主管理节点的本地磁盘上,备管理节点将自动同步备份文件。默认保存目录为“数据存放路径/LocalBackup/”。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 “NameService名称”:选择备份目录对
exec.parallel=true执行报错:java.io.FileNotFoundException: File does not exist:xxx/reduce.xml. 解决方案: 方法一:切换执行引擎为Tez,详情请参考切换Hive执行引擎为Tez。 方法二:set hive
接受的值是:'never'、'allow'、'try'、'require'(默认值)。 tls_cert_file:证书文件。 tls_key_file:证书密钥文件。 tls_ca_cert_file:CA证书文件。 tls_ca_cert_dir:CA证书所在的目录。 tls_cipher_suite:允许加密套件。
根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。 备份CDL业务数据 在FusionInsight
computing. 在云服务列表中选择“存储 > 对象存储服务”,登录OBS管理控制台。 单击“并行文件系统”,创建一个并行文件系统,并上传测试数据文件。 例如创建的文件系统名称为“mrs-demo-data”,单击系统名称,在“文件”页面中,新建一个文件夹“flink”,上传测试数据至该目录中。
使用Alluxio 配置底层存储系统 通过数据应用访问Alluxio Alluxio常用操作
“NFS”:表示将备份文件通过NFS协议保存在NAS中。 选择此参数值,还需要配置以下参数: “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。 “服务器IP地址”:填写NAS服务器IP地址。 “源端路径”:填写备份文件在NAS服务器中
图4 创建OBS并行文件系统 单击“立即创建”。 在OBS控制台并行文件系统列表中,单击文件系统名称进入详情页面。 在左侧导航栏选择“文件”,新建program、input文件夹。 program:请上传程序包到该文件夹。 input:请上传输入数据到该文件夹。 配置生命周期规则
原因分析 MapReduce任务提交前对输入文件数的检查策略:在提交的MapReduce任务中,允许的最大输入文件数和HiveServer最大堆内存的比值,例如500000/4(默认值),表示每4GB堆内存最大允许500000个输入文件。在输入的文件数超出此限制时则会发生此错误。 解决办法