检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置”,单击“全部配置”。在搜索框中输入参数名称,并进行修改。 表1 提升连续put场景性能的参数 参数 描述 配置值 hbase.wal.hsync 设置是否启用WAL文件耐久性以将WAL数据持久化到磁盘。若将该参数设置为true,则性能将受到影响,原因是每个WAL的编辑都会被hadoop fsync同步到磁盘上。
elete状态;segment合并后,旧的segments状态会变为compacted。这些segments的数据文件不会从物理上删除。如果用户希望强制删除这些文件,可以使用CLEAN FILES命令。 但是,使用该命令可能会导致查询命令执行失败。 命令格式 CLEAN FILES
配置场景 使用Spark提交任务时,Driver默认会去HBase获取Token,访问HBase则需要配置文件“jaas.conf”进行安全认证。此时若用户未配置“jaas.conf”文件,会导致应用运行失败。 因此,根据应用是否涉及HBase进行以下处理: 当应用不涉及HBase时,即无需获取HBase
配置数据写入ClickHouse对应的表名 string 是 无 数据处理规则 将字段值输出到ClickHouse表中。 样例 通过“CSV文件输入”算子,生成十二个字段。 源文件如下: 创建ClickHouse表的语句如下: CREATE TABLE IF NOT EXISTS testck4 ON
Manager登录认证 功能介绍 实现Basic认证登录,并返回登录后的httpClient。 前提条件 配置用户的集群信息和登录账号信息: 配置文件:“样例工程文件夹\conf\UserInfo.properties”。 参数说明: userName:登录Manager系统的用户名。 pass
password=xxx # 下载的认证凭据中“krb5.conf”文件的位置,Linux环境下建议使用已上传到“IoTDB客户端安装目录/IoTDB/iotdb/conf”目录下的krb5.conf文件,Windows环境下使用“\\”,填写文件绝对路径。 krb5_conf_dest=IoTD
置为0,会关闭此功能。由于批处理中分区中插入记录的数量众多,总会出现小文件。Hudi提供了一个选项,可以通过将对该分区中的插入作为对现有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite
常耗时,如图1所示。 source算子在瞬间发送了大量数据,所有数据的key值均相等,导致window算子处理速度过慢,使barrier在缓存中积压,快照的制作时间过长,导致window算子在规定时间内没有向CheckpointCoordinator报告快照制作完成,Checkp
现数据没有查询出来。 回答 由于Hive使用Tez引擎在执行union语句时,生成的输出文件会存在HIVE_UNION_SUBDIR目录。 切回Mapreduce引擎后默认不读取目录下的文件,所以没有读取到HIVE_UNION_SUBDIR目录下的数据。 此时可以设置参数set mapreduce
志、 脚本日志和审计日志。运行日志每个文件最大20M,最多20个。审计日志每个文件最大20M,最多20个。 “oozie.log”日志每小时生成一个日志压缩文件,默认保留720个(一个月的日志)。 表1 Oozie日志列表 日志类型 日志文件名 描述 运行日志 jetty.log
操作场景 HBase BulkLoad批量加载功能采用了MapReduce jobs直接生成符合HBase内部数据格式的文件,然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。 ImportTSV是一个HBase的表数据加载工具。
志、 脚本日志和审计日志。运行日志每个文件最大20M,最多20个。审计日志每个文件最大20M,最多20个。 “oozie.log”日志每小时生成一个日志压缩文件,默认保留720个(一个月的日志)。 表1 Oozie日志列表 日志类型 日志文件名 描述 运行日志 jetty.log
在使用HDFS提供的API之前,需要先进行HDFS初始化操作。过程为: 加载HDFS服务配置文件,并进行kerberos安全认证。 认证通过后,实例化Filesystem。 此处kerberos安全认证需要使用到的keytab文件,请提前准备。 代码样例 如下是代码片段,详细代码请参考com.huawei
配置场景 使用Spark提交任务时,Driver默认会去HBase获取Token,访问HBase则需要配置文件“jaas.conf”进行安全认证。此时如果用户未配置“jaas.conf”文件,会导致应用运行失败。 因此,根据应用是否涉及HBase进行以下处理: 当应用不涉及HBase时,即无需获取HBase
数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:10240个Task,2000个分区,在执行HDFS文件从临时目录rename到目标目录动
提供读写接口,提供Hive命令行接口来进行数据定义和元数据查询。基于MRS的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL
SparkSQL建表时的目录权限 为什么不同服务之间互相删除UDF失败 Spark SQL无法查询到Parquet类型的Hive表的新插入数据 cache table使用指导 Repartition时有部分Partition没数据 16T的文本数据转成4T Parquet数据失败 当表名为table时,执行相关操作时出现异常
为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 数据文件加密机制。 开源社区的Hive特性,请参见https://cwiki.apache.org/confluence/display/hive/designdocs。
写时复制表也简称cow表,使用parquet文件存储数据,内部的更新操作需要通过重写原始parquet文件完成。 优点:读取时,只读取对应分区的一个数据文件即可,较为高效。 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时。且由于耗时,读请求读取到的数据相对就会滞后。
全并行的方式来处理。框架会对map的输出先进行排序,然后把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集 高容错性和高可靠性